JP6801350B2 - 記述的なトピックラベルの生成 - Google Patents

記述的なトピックラベルの生成 Download PDF

Info

Publication number
JP6801350B2
JP6801350B2 JP2016199035A JP2016199035A JP6801350B2 JP 6801350 B2 JP6801350 B2 JP 6801350B2 JP 2016199035 A JP2016199035 A JP 2016199035A JP 2016199035 A JP2016199035 A JP 2016199035A JP 6801350 B2 JP6801350 B2 JP 6801350B2
Authority
JP
Japan
Prior art keywords
knowledge point
group
knowledge
candidate
electronic documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016199035A
Other languages
English (en)
Other versions
JP2017073137A (ja
Inventor
ワン・ジュヌ
内野 寛治
寛治 内野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2017073137A publication Critical patent/JP2017073137A/ja
Application granted granted Critical
Publication of JP6801350B2 publication Critical patent/JP6801350B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本願で説明される実施形態は記述的なトピックラベルを生成することに関連する。
トピックモデルは、文書のコーパス(corpus)で表現される「トピック」を発見するための一種の統計モデルである。
本願の請求項に係る対象事項は、何れの欠点も解決する実施例、或いは、上記のような環境でしか動作しない実施例には限定されない。むしろ、この背景技術の欄は、本願で説明される実施例が使用されてよい技術分野の一例を紹介するために提供されているに過ぎない。特に断りがない限り、背景技術の欄に記載された事項は、本願の特許請求の範囲に対する従来技術であるとは限らず、背景技術の欄に含まれていることをもって従来技術であると自認されているわけでもない。
一実施形態によれば、記述的なトピックラベルを自動的に生成する方法が本願で説明される。本方法は、プロセッサが、非一時的な記憶媒体に少なくとも一時的に保存した一群の電子文書をクローリング(crawling)する工程を含んでよい。本方法は、一群の電子文書からナレッジポイントを取り出す工程を含んでよい。本方法は、出現数(occurrence value)に基づいて、複数のナレッジポイントの中から、ナレッジポイント候補群を選択する工程を含む。本方法は、ナレッジポイント候補群における各ナレッジポイントの間の関連スコアを算出する工程を含む。本方法は、候補群における各ナレッジポイントの間の階層関係を算出する工程も含む。本方法は、関連スコア及び階層関係に基づいて、候補群における各ナレッジポイントについて総合スコア(comprehensive scores)を算出する工程を更に含む。本方法は、一群の電子文書のトピックラベルとして、最高の総合スコアを有する第1ナレッジポイント候補を、一群のナレッジポイントの中から選択する工程を含む。
実施例の目的及び効果は、特許請求の範囲で特に指定される要件、特徴及び組み合わせにより少なくとも部分的に実現及び達成される。
上記の一般的な説明及び以下の詳細な説明は何れも例示及び具体例であり、請求項に係る発明の限定ではないことが、理解されるべきである。
添付図面を利用しながら追加的な具体的及び詳細な事項とともに実施例が記述及び説明される。
実施例が使用されてよい動作環境例のブロック図。
一群の電子文書のトピックラベルを生成するための図1の動作環境で使用されてよい方法のフローチャート例を示す図。
選択されたナレッジポイント候補に基づいてトピックラベル出力を提供するための図1の動作環境で使用されてよい方法のフローチャート例を示す図。
本願で説明される1つ以上の任意の方法を装置に実行させるために一群の命令が実行されるコンピューティングデバイスの形式による装置を示す図。
ワールドワイドウェブ(Web)は情報及び知識の海として説明されてよい。ウェブ等がコンピュータ技術において進歩したことにより、人々は従来よりも情報に豊富にアクセスできる。しかしながら、大量の利用可能な情報は、ウェブの中に分散され、しかも十分には記述も構造化もされておらず、それらの利用、検索、組織化及び管理における大きな問題を招いてしまう。すなわち、利用可能な大量の情報を通じて各人が発見及び分類することは容易でない。
本開示で説明される実施例は、一群の電子文書に対するトピックを生成する効果的なアプローチを提供するために使用されてよい。一実施例では、一群の電子文書のトピックラベルを生成する方法は、プロセッサが、非一時的な記憶媒体に少なくとも一時的に保存した一群の電子文書をクローリングする工程を含んでよい。本方法は、一群の電子文書からナレッジポイントを取り出す工程を含んでよい。本方法は、ナレッジポイント候補群における各ナレッジポイントの間の関連スコアを算出する工程を含む。本方法は、ナレッジポイント候補群における各ナレッジポイントの間の階層関係を算出する工程も含む。本方法は、関連度スコア及び階層関係に基づいて、ナレッジポイント候補群のうちの各ナレッジポイントについて総合スコアを算出する工程を更に含む。本方法は、一群の電子文書のトピックラベルとして、最高の総合スコアを有する第1ナレッジポイント候補を、一群のナレッジポイントの中から選択する工程を含む。
本願で使用されるように「電子文書」という用語は、任意の公表された文献又は電子刊行物を含んでよく、例えば、科学技術雑誌、会議(conference)、新聞、書籍、ブログ、講義ノート、記録(又は謄本)、ウェブページ又はマガジン等を含んでもよい。電子文書は、個人同士で閲覧されてもよいし、例えばインターネットのようなネットワークを介して利用可能であってもよい。電子文書は学術的データベースで利用可能であるかもしれない。電子文書の全部又は一部はグループに組織化され、グループは「一群の電子文書」として言及されてよい。
本開示を通じて「ナレッジポイント(knowledge point)」という用語は、電子文書に記載される「概念(又はコンセプト)」を指すために使用される。ナレッジポイントは、電子文書における主要な用語又はフレーズ(例えば、キーワード、語句など)に対応してもよい。例えば、電子文書は機械学習(machine learning)に関連してもよい。ナレッジポイントは、「ニューラルネットワーク」、「統計的推定」、「クラスタリング」及び「構造予測(structural predictions)」等のような議論の過程で言及される技術用語に対応する及び/又は包含する。本開示で説明される実施例において、ナレッジポイントは1つ以上の電子文書から取り出されてもよいし、ナレッジポイントの全部又は一部が、一群の電子文書に対するトピックラベルの候補として選択されてもよく、これらについては後述される。
図1は少なくとも1つの実施例により構成される形態が使用されてよい動作環境例100のブロック図を示す。動作環境100は、ネットワーク102、ドキュメントサーバー104、トピックラベル生成システム(以下、「システム」と言及する)106、ユーザーデバイス108及びデータストレージ150を含んでよい。
一般に、ネットワーク102は、1つ以上のワイドエリアネットワーク(WAN)及び/又はローカルエリアネットワーク(LAN)を含んでよく、ドキュメントサーバー104で電子文書110にアクセスすること及び/又は互いに通信することを、システム106及び/又はユーザーデバイス108が実行できるようにする。一実施例では、ネットワーク102はインターネットを含み、インターネットは、複数のWAN及び/又はLANの間の論理的及び物理的なコネクションにより形成されるグローバル相互接続ネットワークを含む。代替的又は追加的に、ネットワーク102は、1つ以上のセルラRFネットワーク及び/又は1つ以上の有線及び/又は無線ネットワークを含んでよく、例えば、802.xxネットワーク、ブルートゥース(登録商標)アクセスポイント、ワイヤレスアクセスポイント、IPベースのネットワーク等を含んでよいが、これらに限定されない。ネットワーク102は、あるタイプのネットワークが、他のタイプのネットワークとのインターフェースを為すことを可能にするサーバーを含んでよい。
動作環境例100は任意の数のドキュメントサーバー104を含んでもよく、ドキュメントサーバーの各々は1つ以上の電子文書110をホスト及び/又は保存してよい。ドキュメントサーバー104は、1つ以上のコンピューティングデバイス(例えば、ラックマウントサーバー、ルーターコンピュータ、サーバーコンピュータ、パーソナルコンピュータ、メインフレームコンピュータ、ラップトップコンピュータ、ウェブサーバー、プロキシサーバー、デスクトップコンピュータ等)、データストア(例えば、ハードディスク、メモリ、データベース等)、ネットワーク、ソフトウェアコンポーネント、及び/又は、ハードウェアコンポーネントを含んでよい。
電子文書110は、様々な任意のオンラインリソースを含んでよく、例えば、ウェブページ、ウェブログ(ブログ)、書籍、電子書籍、記事、ソーシャルメディア、オープンコースウェア(open courseware:OCW)学習教材、大規模公開オンライン講座(massive open online courses:MOOC)学習教材、教授を含む個人による教育機関で教示されるコース及び講座のコースページ、講義ノート、及び/又は、そのようなコースに関連する記録(例えば、ビデオ及び/又はオーディオの記録)等、或いは、それらの任意の組み合わせを含んでもよい。電子文書110は、例えば、講義ノート、シラバス(syllabus)、例題/解答、講義スライド、及び、その他の教材などを含んでもよい。特定の電子文書110は1人又は複数の著者を含んでよい。電子文書110は、インターネットに通信可能に結合される1つ以上の対応するウェブサイト(例えば、ドキュメントサーバー104)によりホストされるウェブサイトでアクセス可能であってもよい。
ユーザーデバイス108はコンピューティングデバイスを含んでよく、コンピューティングデバイスは、例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルフォン、スマートフォン、パーソナルディジタルアシスタント(PDA)、又は、他の適切なコンピューティングデバイス等を含んでよいがこれらに限定されない。ユーザーは、特定のトピックを満足する又は合致する電子文書110を発見するためにユーザーデバイスを利用する。個別的には説明されないが、一般に、ユーザーデバイス108はネットワーク102を介してシステム106と通信する。
システム106は、プロセッサ、メモリ及びネットワーク通信実行部などを含むハードウェアサーバーデを含んでよい。図示の実施例では、システム106はネットワーク102に結合され、ネットワーク102を介して、ユーザーデバイス108及び/又はドキュメントサーバー104へデータを送信し及びそこからデータを受信する。
少なくとも一実施例では、データストレージ150は、メモリ(例えば、ランダムアクセスメモリ)、キャッシュ、ドライブ(例えば、ハードドライブ)、フラッシュドライブ、データベースシステム、又は、データを保存することが可能な他のタイプのコンポーネント又はデバイスを含んでよい。データストレージ150は、複数のコンピューティングデバイス(例えば、複数のサーバーコンピュータ)にわたる複数のストレージコンポーネント(例えば、複数のドライブ又は複数のデータベース)を含んでよい。
一般に、システム106は、一群の電子文書に対するトピックラベルの自動生成を可能にする。トピックラベルは、電子文書の中からトピックモデル分析部により発見されたトピックについての、包括的な(comprehensive)、簡易な(concise)及び人が理解できるサマリーを提供する。システム106は、電子文書110からナレッジポイントを取り出すように構成される。抽出されたナレッジポイントに基づいて、システム106は、文書に含まれるトピックを自動的に発見し、発見された各トピックについてトピックラベルを生成する。
システム106は個人による最小限のアクション(又は行為)とともに又はそれによらずにトピックラベルを生成してよい。例えば、電子文書110を読み込む、評価する及び関連付ける等のようなマニュアル動作は、システム106により実行される動作に含められてもよい。システム106は、ドキュメント収集部112、ナレッジポイント管理部114、トピックモデル分析部115及びトピックラベル生成部116を含む。ドキュメント収集部112、ナレッジポイント管理部114、トピックモデル分析部115及びトピックラベル生成部116の各々は、1つ以上の動作を実行するように構成される1つ以上のルーチンを含むソフトウェアとして実現されてもよい。ドキュメント収集部112、ナレッジポイント管理部114、トピックモデル分析部115及びトピックラベル生成部116は、本願で説明される機能を提供するためにプロセッサにより実行可能な一群の命令(又は命令のセット)を含む。一実施例では、ドキュメント収集部112、ナレッジポイント管理部114、トピックモデル分析部115及びトピックラベル生成部116は、メモリに保存されてもよいし或いはメモリに少なくとも一時的にロードされてもよく、プロセッサによりアクセス可能及び実行可能であってよい。ドキュメント収集部112、ナレッジポイント管理部114、トピックモデル分析部115及びトピックラベル生成部116のうちの1つ以上は、バス(図1では不図示)を介してシステム106のコンポーネント及びプロセッサと協働及び通信するように適合される。代替的又は追加的に、ドキュメント収集部112、ナレッジポイント管理部114、トピックモデル分析部115及びトピックラベル生成部116のうちの1つ以上は、ハードウェアで実現されてもよい。
ドキュメント収集部112はドキュメントサーバー104をクローリングする(crawl)。電子文書は、単独のドキュメントサーバー104に保存されてもよいし、或いは、複数のドキュメントサーバー104に分散されてもよい。一実施例において、ドキュメント収集部112は、一群の電子文書で発見されたトピックに対するトピックラベルを作成するためにリクエストに応答して、ドキュメントサーバー104をクローリングしてもよい。ドキュメントサーバー104をクローリングする際に、ドキュメント収集部112は、電子文書のコンテンツを識別、スキャン、抽出及びコピーしてもよい。例えば、ドキュメント収集部112は、ウェブクローラ(crawler)、ウェブスパイダ(spider)、アント(ant)、自動インデクサー(indexer)、ウェブスカッター(scutter)又は他の適切なボット(bot)によって実行される動作を実行してもよい。ドキュメント収集部112は、ページ又はそこに含まれる何らかのデータをコピーし、ドキュメント収集部112は、電子文書110に含まれる情報及びデータに訪れ及び/又はシステム106に伝達する。ドキュメント収集部112は、電子文書110それ自体を含むクローリングした情報を、データストレージ150に保存する。
ナレッジポイント管理部114は、電子文書110からナレッジポイントを抽出する。ナレッジポイント管理部114は、電子文書の中でセグメント化された用語のシーケンスをドキュメント収集部112から受信する。ナレッジポイント管理部114は、関連するフレーズ(又は語句)のインスタンスを、セグメント化された用語のシーケンスの中から発見するかもしれない。例えば、ナレッジポイント管理部114は、セグメント化された用語のシーケンスを処理し、セグメント化された用語のシーケンスからナレッジポイントを導出してもよい。反復されるフレーズのインスタンスは、セグメント化された用語のシーケンスの各々に対する頻度に定量化されてもよい。ナレッジポイント管理部114は、セットに属する電子文書各々についてナレッジポイントを識別する。ナレッジポイント管理部114は、フレーズ(すなわち、1つより多い言葉)をナレッジポイントとして識別してもよく、識別されたナレッジポイントのそれぞれを1単位として取り扱ってもよい。ナレッジポイント管理部114は、統計分析を実行し、単に、精密な言語学的な分析又はユーザーによるマニュアル入力及び/又は選択を当てにすることなく、微細な粒度の(fine-granularity)ナレッジポイントを自動的に取り出してもよい。ナレッジポイント管理部114は、例えば2015年7月10日付けで出願された「Extraction of Knowledge Points and
Relations From Learning Materials」と題する米国特許出願第14/796838号に記載される何らかの技術を利用してもよく、その出願の内容は本願のリファレンスに組み込まれる。
トピックモデル分析部115は、一群の電子文書に属する全ての文書のうちの所定数のトピックを自動的に発見し(その数は人間により予め決められていてもよいし或いはアルゴリズムにより自動的に選択されてもよい)、一群の電子文書で発見された各トピックの表現を生成する。トピックモデル分析部115は、一群の電子文書をトピック毎に分類(又は組織化)してもよい。それを行う場合、トピックモデル分析部115は、ナレッジポイント管理部114により抽出されたフレーズ又は言葉を、基本単位として取り扱ってもよい。一実施例では、各トピックの表現は、一群の電子文書のうちの語彙全体に対する確率分布の観点から決定されてもよく、語彙(vocabulary)は全ての単独の言葉及びナレッジポイントのフレーズを示す。語彙全体に対する確率分布は、語彙のリストとしてそれらの対応する頻度とともに説明されてもよい。
トピックラベル生成部116は、特定の発見されたトピックに対するトピックラベルを生成するために、トピックモデル分析部115により一群の電子文書中で発見された各トピックの表現を分析するように構成される。一実施例では、トピックラベル生成部116は、トピックにおけるナレッジポイントの一部分(サブセット)を、トピックに対するラベルとして使用する候補として選択する。一実施例では、トピック表現において、より高い頻度のナレッジポイント候補が、そのトピックに細密に合致する。トピックラベル生成部116は、高い頻度のナレッジポイントを候補トピックラベルとして選択してもよい。ある頻度閾値を上回るナレッジポイントが、候補ナレッジポイントとして選択されてもよい。一実施例では、トピックラベル生成部116は、それぞれの候補ナレッジポイントと現在のトピックとの間の合致スコア(match score:MS_KT)を生成してもよい。一実施例では、それぞれの合致スコアは、候補ナレッジポイントと現在のトピックとの間の正規化された幾何学的距離(a normalized geometric distance )に基づいて算出されてもよい。合致閾値を上回る合致スコアを有するナレッジポイントが、候補ナレッジポイントとして選択されてもよい。
トピックラベル生成部116は、それぞれの候補ナレッジポイント同士の間の距離を判定してもよい。一実施例では、トピックラベル生成部116は、それぞれの候補ナレッジポイント同士の間の関連スコア(a relatedness score:AMS_KK)を生成する。例えば、トピックラベル生成部116は、平均的な意味の類似性に基づいて、それぞれの候補ナレッジポイント同士の間の距離を判定してもよい。
トピックラベル生成部116は、それぞれの候補ナレッジポイント同士の間の階層関係を判定してもよい。階層関係は、一群の電子文書における「〜は〜である(is-a)」のパターンマッチング、或いは、所定の階層(例えば、オープン教育リソースサイト又は講義ノート構造分析は、階層を含む)に基づいてもよい。各々の候補ナレッジポイントは、階層レベルスコアDの指定を受ける。階層においては、広範な(例えば、より一般的な)ナレッジポイントは高いレベルの階層であり、狭い(例えば、より具体的な)ナレッジポイントは低いレベルの階層である。例えば、「機械学習」のような幅広いナレッジポイントは第1レベル階層であり、機械学習に関連する「教師あり学習(supervised learning)」及び「教師なし学習」のような狭いナレッジポイントは、第1レベルのサブレベルである低いレベルの階層である。
トピックラベル生成部116は、それぞれの候補ナレッジポイントについて総合スコア(comprehensive scores)を算出してもよい。総合スコアは、一群の電子文書に対するトピックラベルを選択するために使用されてよい。トピックラベル生成部116は、それぞれの候補ナレッジポイントに対する総合スコアを生成するために、各候補ナレッジポイント及び現在トピック間の合致スコア(MS_KT)、候補ナレッジポイント間の関連スコア(例えば、AMS_KK)又はそれらの平均、及び、階層レベルスコアのうちの少なくとも1つを使用してよい。総合スコアの具体的な計算は例えば次のように表現されてもよい:
CS=a×MS_KT+b×AMS_KK+c×log(D)
ここで、CSは総合スコアであり、MS_KTは候補ナレッジポイント及び現在トピックの間の合致スコアであり、AMS_KKは候補ナレッジポイント間の関連スコア(又は平均関連スコア)であり、Dは階層レベルスコアである。一実施例において、各々の候補ナレッジポイントの総合スコアCSを決定する数式は、重み付け因子a、b及びcを含んでよい。a、b及びcの値は、システムアドミニストレータにより設定及び調整されてもよいし、人が選択したトレーニングデータによる教師有り学習に基づいて推定されてもよい。
トピックラベル生成部116は、最高の総合スコアCSを有するナレッジポイントを選択し、その選択されたナレッジポイントを、一群の電子文書のトピックラベルとして指定する。トピックラベル生成部116は、選択されたナレッジポイントを、一群の電子文書のトピックラベルとして出力する。例えば、システム106は、トピックラベルをユーザーデバイス108に送信してもよいし、或いは、トピックラベルをウェブサイトに公表し、ウェブサイトが(例えば、ハイパーリンクとして)トピックラベルと一群の電子文書とをリスト化してもよい。一実施例では、トピックラベル生成部116は、ナレッジポイントの選択されたCSがCS閾値を越えているか否かを判定してもよい。CS閾値は、低い総合スコアを有する選択されたナレッジポイントを、一群の電子文書のトピックラベルとして出力することを許可しないことにより、選択されるトピックラベルの品質を改善するために使用されてよい。CS閾値はシステムアドミニストレータにより設定されてもよい。選択されたナレッジポイントの総合スコアがCS閾値を下回る場合、トピックラベル生成部116は、トピックラベルが生成されなかった旨のメッセージを出力してもよい。一実施例では、そのメッセージに応じて、システムアドミニストレータがそのナレッジポイントを利用して、一群の電子文書のトピックラベルをマニュアルで選択してもよい。
本開示の範囲から逸脱することなく、動作環境例に対して変形、追加又は削除が施されてもよい。具体的には、1つのネットワーク102、1つのドキュメントサーバー104、1つのシステム106、1つのユーザーデバイス108、及び/又は1つのデータストレージ150を含んでいるように、環境例100は図1に示されている。しかしながら、本開示は、1つ又は複数のネットワーク102、1つ又は複数のドキュメントサーバー104、1つ又は複数のシステム106、1つ又は複数のユーザーデバイス108、1つ又は複数のデータストレージ150、或いは、それらの任意の組み合わせを含む環境100に応用されてよい。
更に、本願で説明される実施例における様々なコンポーネントの分け方は、その分け方が全ての実施例でなされることを示すようには意図されていない。なお、記載されているコンポーネントは、本願による恩恵を伴いつつ、単独のコンポーネントに一緒に統合されてもよいし、或いは、複数のコンポーネントに分割されてもよいことが、理解されるであろう。
図2ないし図3は、一群の電子文書のトピックラベルを生成することに関連する様々な方法についてのフローチャートである。本方法は、ハードウェア(例えば、回路、専用論理装置など)、ソフトウェア(例えば、汎用コンピュータシステム又は専用マシンで動作するようなもの)、或いは、それら双方の組み合わせを含む処理論理装置により実行されてもよく、処理論理装置はシステム106又は他のコンピュータシステム又はデバイスに含まれてよい。説明の簡明化のため、本願に記述される方法は、一連の動作として記述及び説明されている。しかしながら、本開示による動作は、様々な順序で及び/又は同時になされてよいし、本願で図示も記述もされていない他の動作とともになされてもよい。更に、開示される対象事項による方法を実現するために必要な動作の全て(必須事項だけでなく任意事項も含む)が示されているわけではない。更に、本方法は代替的に状態図又はイベントによる一連の相互に関連する状態として表現されてよいことを、当業者は理解及び認識するであろう。更に、本明細書に開示される方法は、非一時的なコンピュータ読み取り可能な媒体のような製品に保存され、そのような方法のコンピューティングデバイスへの搬送及び移動を促すことが可能である。本願で使用される製品(article of manufacture)という用語は、任意のコンピュータ読み取り可能なデバイス又は記録媒体からアクセス可能案コンピュータプログラムを包含するように意図されている。図2ないし図4に関連して説明及び記述される方法は、例えば図1のシステム106のようなシステムにより実行されてもよい。しかしながら、他のシステム又はシステムの組み合わせを利用して本方法を実行してもよい。個別的なブロックとして図示されているが、様々なブロックは、所望の実現手段に応じて、追加的なブロックに分割されてもよいし、少ない数のブロックに統合されてもよいし、或いは削除されてもよい。
図2は、本開示において説明される少なくとも1つの実施例に従って構成される、一群の電子文書のトピックラベルを生成するための図1の動作環境で使用されてよい方法200のフローチャート例を示す。
方法200はブロック205において始まり、処理論理装置が、非一時的な記録媒体に少なくとも一時的に保存されている一群の電子文書をクローリングする。一実施例では、処理論理装置は一群の電子文書を自動的にクローリングする。一実施例では、処理論理装置は、一群の電子文書で発見されるトピックについてのトピックラベルを生成するリクエストの受信に応じて、一群の電子文書をクローリングしてもよい。
ブロック210において、処理論理装置は一群の電子文書からナレッジポイントを取り出す。処理論理装置は、一群の電子文書から所定数のトピックを発見するかもしれない。一群の電子文書からナレッジポイントを抽出する場合に、処理論理装置は、電子文書におけるセグメント化された用語のシーケンスを受信する。処理論理装置は、セグメント化された用語のシーケンスのうちの反復されるフレーズインスタンス(repeated phrase instances)を発見する。フレーズインスタンスは、所定の最大長で制限されてもよい。処理論理装置は、セグメント化された用語のシーケンスからナレッジポイントを生成してもよい。
ブロック215において、処理論理装置は一群の電子文書に対するトピックモデル分析を実行する。処理論理装置は、一群の電子文書のうちの各電子文書をトピック毎に組織してもよい。処理論理装置は、ブロック215におけるナレッジポイントの抽出により抽出されたフレーズを基本単位として取り扱ってもよい。処理論理装置は、一群の電子文書からトピック表現を取り出し、この場合において、各トピックの表現は一群の電子文書中の全ての語彙に対する確率分布の観点から決定されてもよく、語彙は全ての単独の言葉及びナレッジポイントのフレーズを指す。
ブロック215、220において、処理論理装置は、一群の電子文書中の各ナレッジポイントの頻度に基づいて、ナレッジポイント候補群を選択する。例えば、処理論理装置は、一群の電子文書における頻度及び/又は分布に基づいて、候補トピックとして、上位5つのナレッジポイントを選択してもよい。
ブロック225において、処理論理装置は、ナレッジポイント候補群における各ナレッジポイントと現在のトピックとの間の合致スコアを生成する。一実施例では、最も高い頻度の候補ナレッジポイントが、現在のトピックに最も親密に合致する。一実施例では、処理論理装置は、各々の候補ナレッジポイントと現在のトピックとの間の合致スコア(MS_KT)を生成する。一実施例では、現在のトピックにおける各々のナレッジポイントの各々の合致スコアが、候補ナレッジポイントと現在のトピックとの間の正規化された幾何学的距離に基づいて算出されてもよい。
ブロック230において、処理論理装置は、ナレッジポイント候補群における各々のナレッジポイント同士の間の関連スコアを算出する。ブロック235において、処理論理装置は、各々のトピックに関し、例えばブロック215ないし230を反復することにより、ナレッジポイント候補群における各々のナレッジポイント同士の間の階層関係を算出してもよい。
ブロック240において、処理論理装置は、合致スコア、関連スコア及び階層関係のうちの1つ以上に基づいて、ナレッジポイント候補群における各ナレッジポイントに対する総合スコアを算出してもよい。
ブロック245において、処理論理装置は、一群の電子文書に対するトピックラベルとして最高の総合スコアを有する第1候補ナレッジポイントを、一群のナレッジポイントから選択してもよい。一実施例において、選択された第1候補ナレッジポイントは、予備的(preliminary)トピックラベルと置き換わる。ブロック250において、処理論理装置は、図3に関連して更に説明されるように、選択された候補ナレッジポイントに基づいてトピックラベル出力を提供する。
本願で開示されるこれら及び他のプロセス及び方法に関し、プロセス及び方法で実行される機能は異なる順序で実現されてもよい。更に、説明されるステップ及び動作は単なる一例として与えられているに過ぎず、ステップ及び動作のうちの何れかは、開示される形態の本質から逸脱することなく、任意的であってもよいし、より少ない数のステップ及び動作に統合されてもよいし、或いは、追加的なステップ及び動作に拡張されてもよい。
図3は、本開示で説明される少なくとも1つの実施例に従って構成される、選択された候補ナレッジポイントに基づいてトピックラベル出力を提供するための図1の動作環境で使用されてよい方法300のフローチャート例を示す。本方法はブロック305において始まる。ブロック305において、処理論理装置は、図2のブロック250においてトピックラベルとして選択された第1候補ナレッジポイントを、最小CS閾値と比較してもよい。
選択された候補ナレッジポイントの総合スコアが最小CS閾値を上回る場合(ブロック310において「YES」)、ブロック315において、処理論理装置は、一群の電子文書のトピックラベル出力として第1候補ナレッジポイントを出力してもよい。ブロック330において、処理論理装置は、トピックラベルを一群の電子文書に関連付け、一群電子文書の対するトピックラベルをデータストレージに保存する。
選択された候補ナレッジポイントの総合スコアが最小CS閾値を下回る場合(ブロック310において「NO」)、ブロック320において、処理論理装置は、非一貫性トピックラベル(an inconsistent topic label)を示すエラーメッセージを出力してもよい。システムアドミニストレータは、エラーメッセージを受け取り、一群の電子文書に対するトピックラベルをマニュアルで選択してもよい。一実施例では、機械学習システムがエラーメッセージを受信し、その時点で機械学習がトレーニング材料を用いてトピックラベルを生成してもよい。ブロック325において、処理論理装置は、システムアドミニストレータから又は機械学習システムから、選択されたトピックラベルを受信する。ブロック330において、処理論理装置は上述したように一群の電子文書にトピックラベルを関連付けてもよい。
図4は、コンピューティングデバイス400の例示的形態による装置(又はマシン)を示し、装置の中で一群の命令は、本願で説明される1つ以上の任意の方法を装置に実行させるように実行される。コンピューティングデバイス400は、モバイルフォン、スマートフォン、ネットブックコンピュータ、ラックマウントサーバー、ルーターコンピュータ、サーバーコンピュータ、パーソナルコンピュータ、メインフレームコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、デスクトップコンピュータ等を含んでよく、デバイス内において、本願で説明される任意の1つ以上の方法を装置に実行させるための一群の命令が実行される。代替実施例において、装置は、LAN、イントラネット、エクストラネット又はインターネットにおいて他の装置に接続されてもよい(例えば、ネットワーク化されてもよい)。装置は、クライアントサーバーネットワーク環境でサーバーマシンの能力により動作してもよい。装置は、パーソナルコンピュータ(PC)、セットトップボックス(STB)、サーバー、ネットワークルーター、スイッチ又はブリッジ、或いは、装置により実行されるべき動作を指定する(連続的な又は他の順序の)一群の命令を実行することが可能な任意の装置であってもよい。なお、単独の装置しか示されていないが、「装置又はマシン」という用語は、本願で説明される任意の1つ以上の方法を実行する一群の命令(又は複数の命令群)を個別的又は一緒に実行する任意の装置の集まりを含んでもよい。
具体的なコンピューティングデバイス400は、処理装置(例えば、プロセッサ)402、メインメモリ404(例えば、リードオンリメモリ(ROM)、フラッシュメモリ、例えば同期DRAM(SDRAM)のようなダイナミックランダムアクセスメモリ(DRAM))、スタティックメモリ406(例えば、フラッシュメモリ、スタティックランダムアクセスメモリ(SRAM))、及び、データストレージデバイス416を含み、これらはバス408を介して互いに通信する。
処理装置402は、マイクロプロセッサ、中央処理装置などのような1つ以上の汎用処理装置を表現する。特に、処理装置402は、複合命令セットコンピューティング(CISC)マイクロプロセッサ、縮小命令セットコンピューティング(RISC)マイクロプロセッサ、超長命令語(VLIW)マイクロプロセッサ、他の命令セットを実行するプロセッサ、或いは、命令セットの組み合わせを実行する複数のプロセッサであってもよい。処理装置402は、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、ディジタル信号プロセッサ(DSP)、ネットワークプロセッサ等のような1つ以上の特定用途処理装置であってもよい。処理装置402は、本願で説明される動作及びステップを実行するための命令426を実行するように構成される。
コンピューティングデバイス400は、ネットワーク418と通信するネットワークインターフェースデバイス422を含んでよい。コンピューティングデバイス400は、ディスプレイデバイス410(例えば、液晶ディスプレイ(LCD)又は陰極線管(CRT))、英数字入力デバイス412(例えば、キーボード)、カーソル制御デバイス414(例えば、マウス)、及び、信号生成装置420(例えば、スピーカ)等を含んでよい。一実施例において、ディスプレイデバイス410、英数字入力デバイス412及びカーソル制御デバイス414は、単独のコンポーネント又はデバイス(例えば、LCDカーソルスクリーン)に統合されてもよい。
データストレージデバイス416はコンピュータ読み取り可能な記憶媒体424を含み、本願で説明される任意の1つ以上の方法又は機能を組み込む1つ上の命令群426(例えば、システム106)がその記憶媒体に保存される。命令426は、コンピューティングデバイス400による実行中にメインメモリ404及び/又は処理装置402の中に完全に又は少なくとも部分的に常駐し、メインメモリ404及び処理装置402もコンピュータ読み取り可能な媒体を構成してよい。命令はネットワークインターフェースデバイス422を介してネットワーク418により更に送信又は受信されてよい。
コンピュータ読み取り可能な記憶媒体426は、一実施例では単独の媒体であるように示されているが、「コンピュータ読み取り可能な記憶媒体」という用語は、1つ以上の命令群を保存する単独の媒体も複数の媒体も含まれてよい(例えば、複数の媒体はセントラル化された又は分散されたデータベース及び/又は関連付けられたキャッシュ及びサーバーであってよい)。「コンピュータ読み取り可能な記憶媒体」という用語は、装置により実行するための命令群を保存、エンコード又は搬送ことが可能な任意の媒体であって、本開示による任意の1つ以上の方法を装置に実行させる媒体を含んでよい。従って、「コンピュータ読み取り可能な記憶媒体」という用語は、ソリッドステートメモリ、光媒体及び磁気媒体を含んでよいが、これらに限定されない。
本願において及び特に添付の特許請求の範囲(例えば、請求項のうちの本文)において使用される用語は、一般に、「開放的な(open)」用語として意図されている(例えば、「〜を含んでいる」という用語は「〜を含んでいるが、それに限定されない」と解釈され、「〜を有する」という用語は「〜を少なくとも有する」と解釈され、「〜を含む」という用語は「〜を含むが、それに限定されない」と解釈される)。
更に、言及される請求項の記載のうち特定の数が意図される場合、そのような意図は請求項の中で明示的に記載され、そのような記載が無ければ、そのような意図は存在しない。例えば、理解を促すために言及すると、以下の添付の特許請求の範囲が、請求項の記載を導入するために「少なくとも1つ」及び「1つ又は複数の」という導入語句を利用することを含むかもしれない。しかしながら、そのような語句を利用することは、「或る(“a” or “an”)」という不定冠詞的な語(indefinite articles)による請求項の記載の導入が、そのように導入される請求項の記載を、その記載しか含まない形態に限定することを示唆するように解釈されるべきでなく、たとえ同じその請求項が「1つ又は複数の」或いは「少なくとも1つの」という導入語句及び「或る」という不定冠詞的な語を含んでいたとしても、限定的に解釈されるべきでない(例えば、「或る」は「少なくとも1つの」又は「1つ又は複数の」と解釈されてよい);同じことが、請求項の記載を導入するために使用される定冠詞的な語(definite articles)についても成り立つ。
更に、言及される請求項の記載による特定の数が明示的に記載されていたとしても、当業者は、そのような記載は、「少なくともその引用される個数」を意味するように解釈されてよいことを認識するであろう(例えば、他の修飾を伴わない「2つの記載事項」の記載そのものは、少なくとも2つの記載事項、又は、2つ以上の記載事項を意味する)。更に、「A、B及びC等のうちの少なくとも1つ」或いは「A、B及びC等のうちの1つ以上」に類似する言い回しが使用される例においては、一般に、そのような構成は、Aのみ、Bのみ、Cのみ、A及びB一緒に、A及びC一緒に、B及びC一緒に、或いは、「A、B及びC一緒に」等を含むように意図されている。例えば、「及び/又は」という用語の仕様は、その仕方で構成されるように意図される。
更に、2つ以上の代替的な用語を提示する何らかの離接的な(disjunctive)言葉又は語句は、明細書、特許請求の範囲又は図面によらず、それらの用語のうちの1つ、それらの用語の何れか、又は、それらの用語の双方を意味する可能性を想定するように解釈されてよい。例えば、「A又はB」という言い回しは、「A」又は「B」又は「A及びB」の可能性を含むように理解される。
本願で説明される実施例はコンピュータ読み取り可能案媒体を用いて実現されてよく、その媒体はコンピュータ実行可能な命令又はデータ構造を搬送する又はそれらをそこに保存する。そのようなコンピュータ読み取り可能な媒体は、汎用又は特定用途のコンピュータによりアクセスされてよい利用可能な任意の媒体であってよい。限定ではない例として、そのようなコンピュータ読み取り可能な媒体は、非一時的なコンピュータ読み取り可能な記憶媒体を含み、記憶媒体は、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電気的に消去可能プログラム可能なリードオンリメモリ(EEPROM)、コンパクトディスクリードオンリメモリ(CD-ROM)又は他の光ディスクストレージ、磁気ディスクストレージ又は他の磁気ストレージデバイス、フラッシュメモリデバイス(例えば、ソリッドステートメモリデバイス)、或いは、他の何らかの記憶媒体(コンピュータ実行可能な命令の形式による所望のプログラムコード又はデータ構造を搬送又は保存するために使用されもよく、及び、汎用又は専用コンピュータによりアクセスされてよい)を含んでよい。上記の例の組み合わせがコンピュータ読み取り可能な記憶媒体の範囲内に含まれてもよい。
コンピュータ実行可能な命令は例えば命令及びデータを含んでもよく、その命令等は、所定の機能又は機能群を実行することを、汎用コンピュータ、特定用途コンピュータ又は特定用途処理装置(例えば、1つ又は複数のプロセッサ)に実行させる。対象とする事項が、構造的特徴及び/又は方法的動作に特化した言葉で説明されてきたが、添付の特許請求の範囲に記載される対象事項は上述の特定の特徴又は動作に必ずしも限定される必要はないことが、理解されるべきである。むしろ、上記の特定の特徴及び動作は請求項を実施する例示的な形態として開示されているに過ぎない。
本願で使用されるように、「モジュール」又は「コンポーネント」という用語は、そのモジュール又はコンポーネントの動作を実行するように構成される特定のハードウェア実現手段、及び/又は、コンピューティングシステムの汎用ハードウェア(例えば、コンピュータ読み取り可能な媒体、処理装置など)により保存及び/又は実行されるソフトウェアオブジェクト又はソフトウェアルーチンを指してよい。一実施例では、本願で説明される様々なコンポーネント、モジュール、エンジン及びサービスは、(例えば、個々のスレッドのように)コンピューティングシステムで動作するオブジェクト又はプロセッサとして実現されてよい。本願で説明される何らかのシステム及び方法はソフトウェアで実現されるように(及び汎用ハードウェアにより保存及び/又は実行されるように)一般的に記述されているが、特定のハードウェア実現手段、又は、ソフトウェア及び特定のハードウェア実現手段の組み合わせも可能であり、本願でも想定されている。本説明において、「コンピューティングエンティティ」は上述したような任意のコンピューティングシステム、或いは、コンピューティングシステムで動作する何らかのモジュール又はモジュールの組み合わせであってもよい。
本願に記載される全ての具体例及び条件付きの言葉は、技術を進歩させるために発明者等が貢献した本発明及び概念を理解する際に読者を支援する教育的目的のめに意図されており、そのように具体的に記載されている具体例や条件に限定することなく解釈されるべきである。本開示による実施例が詳細に説明されてきたが、様々な変更、置換及び代替が本開示の精神及び範囲から逸脱することなくそれらに対してなされてよいことが理解される。
以上の実施の形態に関し、更に以下の付記を開示する。
(付記1)
非一時的な記録媒体に少なくとも一時的に保存される一群の電子文書をプロセッサによりクローリングする工程;
前記一群の電子文書から複数のナレッジポイントを抽出する工程;
前記一群の電子文書における複数のナレッジポイントの出現数に基づいて、前記複数のナレッジポイントからナレッジポイント候補群を選択する工程;
前記ナレッジポイント候補群における各々のナレッジポイント同士の間の関連スコアを算出する工程;
前記ナレッジポイント候補群における各々のナレッジポイント同士の間の階層関係を算出する工程;
前記関連スコア及び前記階層関係に基づいて、前記ナレッジポイント候補群における各ナレッジポイントについて総合スコアを算出する工程;及び
前記一群の電子文書のトピックラベルとして、最高の総合スコアを有する第1候補ナレッジポイントを、前記一群のナレッジポイントの中から選択する工程;
を有する方法。
(付記2)
選択された候補ナレッジポイントに基づいてトピックラベル出力を提供する工程を更に有する付記1に記載の方法。
(付記3)
選択されたナレッジポイント候補に基づいてトピックラベル出力を提供することが:
前記第1候補ナレッジポイントの最高総合スコアを最小閾値と比較すること;及び
前記第1候補ナレッジポイントの最高総合スコアが前記最小閾値を上回ることに応じて、前記トピックラベルとして、前記第1候補ナレッジポイントを出力すること;
を含む付記2に記載の方法。
(付記4)
前記一群の電子文書が、ウェブサーバーによりホストされる電子文書を含む、付記1に記載の方法。
(付記5)
抽出されたナレッジポイントの各々が、前記一群の電子文書において少なくとも1つ存在する言葉又は語句を含む、付記1に記載の方法。
(付記6)
前記一群の電子文書から複数のナレッジポイントを抽出することが;
前記一群の電子文書の中のセグメント化された用語のシーケンスを受信すること;
前記セグメント化された用語のシーケンスの反復されたフレーズインスタンスを発見することであって、前記フレーズインスタンスは所定の最大長で制限される、こと;及び
前記セグメント化された用語のシーケンスから前記ナレッジポイントを生成すること;
を含む付記1に記載の方法。
(付記7)
前記ナレッジポイント候補群における各々のナレッジポイント同士の間の関連スコアを算出することが、前記一群の電子文書の一群のナレッジポイントに対する確率分布を生成することを含む、付記1に記載の方法。
(付記8)
前記ナレッジポイント候補群における各々のナレッジポイントと予備的トピックラベルとの間の合致スコアを生成する工程であって、前記総合スコアは、前記関連スコア、前記階層関係及び前記合致スコアに基づいて算出される、工程を更に有する付記1に記載の方法。
(付記9)
前記第1候補ナレッジポイントを選択することが、前記予備的トピックラベルを前記第1候補ナレッジポイントで置換することを含む、付記8に記載の方法。
(付記10)
前記ナレッジポイント候補群における各々のナレッジポイント同士の間の関連スコアを算出することが、前記ナレッジポイント候補群における各々のナレッジポイント同士の間の平均的な意味の類似性を判定することを含む、付記1に記載の方法。
(付記11)
動作を実行する又は動作のパフォーマンスを制御するためにプロセッサにより実行可能なプログラミングコードをエンコードした非一時的なコンピュータ読み取り可能な記録媒体であって、前記動作は:
非一時的な記録媒体に少なくとも一時的に保存される一群の電子文書を前記プロセッサによりクローリングする工程;
前記一群の電子文書から複数のナレッジポイントを抽出する工程;
前記一群の電子文書における複数のナレッジポイントの出現数に基づいて、前記複数のナレッジポイントからナレッジポイント候補群を選択する工程;
前記ナレッジポイント候補群における各々のナレッジポイント同士の間の関連スコアを算出する工程;
前記ナレッジポイント候補群における各々のナレッジポイント同士の間の階層関係を算出する工程;
前記関連スコア及び前記階層関係に基づいて、前記ナレッジポイント候補群における各ナレッジポイントについて総合スコアを算出する工程;及び
前記一群の電子文書のトピックラベルとして、最高の総合スコアを有する第1候補ナレッジポイントを、前記一群のナレッジポイントの中から選択する工程;
を含む非一時的なコンピュータ読み取り可能な記録媒体。
(付記12)
前記動作は、選択された候補ナレッジポイントに基づいてトピックラベル出力を提供する工程を更に有する付記11に記載の記録媒体。
(付記13)
選択されたナレッジポイント候補に基づいてトピックラベル出力を提供することが:
前記第1候補ナレッジポイントの最高総合スコアを最小閾値と比較すること;及び
前記第1候補ナレッジポイントの最高総合スコアが前記最小閾値を上回ることに応じて、前記トピックラベルとして、前記第1候補ナレッジポイントを出力すること;
を含む付記12に記載の記録媒体。
(付記14)
前記一群の電子文書が、ウェブサーバーによりホストされる電子文書を含む、付記11に記載の記録媒体。
(付記15)
抽出されたナレッジポイントの各々が、前記一群の電子文書において少なくとも1つ存在する言葉又は語句を含む、付記11に記載の記録媒体。
(付記16)
前記一群の電子文書から複数のナレッジポイントを抽出することが;
前記一群の電子文書の中のセグメント化された用語のシーケンスを受信すること;
前記セグメント化された用語のシーケンスの反復されたフレーズインスタンスを発見することであって、前記フレーズインスタンスは所定の最大長で制限される、こと;及び
前記セグメント化された用語のシーケンスから前記ナレッジポイントを生成すること;
を含む付記11に記載の記録媒体。
(付記17)
前記ナレッジポイント候補群における各々のナレッジポイント同士の間の関連スコアを算出することが、前記一群の電子文書の一群のナレッジポイントに対する確率分布を生成することを含む、付記11に記載の記録媒体。
(付記18)
前記ナレッジポイント候補群における各々のナレッジポイントと予備的トピックラベルとの間の合致スコアを生成する工程であって、前記総合スコアは、前記関連スコア、前記階層関係及び前記合致スコアに基づいて算出される、工程を前記動作が更に有する付記11に記載の記録媒体。
(付記19)
前記第1候補ナレッジポイントを選択することが、前記予備的トピックラベルを前記第1候補ナレッジポイントで置換することを含む、付記18に記載の記録媒体。
(付記20)
前記ナレッジポイント候補群における各々のナレッジポイント同士の間の関連スコアを算出することが、前記ナレッジポイント候補群における各々のナレッジポイント同士の間の平均的な意味の類似性を判定することを含む、付記11に記載の記録媒体。

Claims (18)

  1. プロセッサにより実行される方法であって、
    非一時的な記録媒体に少なくとも一時的に保存される一群の電子文書をクローリングする工程;
    前記一群の電子文書から複数のナレッジポイントを抽出する工程;
    前記一群の電子文書における複数のナレッジポイントの出現数に基づいて、前記複数のナレッジポイントからナレッジポイント候補群を選択する工程;
    前記ナレッジポイント候補群における各々のナレッジポイント同士の間の関連スコアを算出する工程;
    前記ナレッジポイント候補群における各々のナレッジポイント同士の間の階層関係を算出する工程;
    前記関連スコア及び前記階層関係に基づいて、前記ナレッジポイント候補群における各ナレッジポイントについて総合スコアを算出する工程;及び
    前記一群の電子文書のトピックラベルとして、最高の総合スコアを有する第1候補ナレッジポイントを、前記ナレッジポイント候補群の中から選択する工程;
    を有し、
    前記一群の電子文書から複数のナレッジポイントを抽出することが;
    前記一群の電子文書の中のセグメント化された用語のシーケンスを受信すること;
    前記セグメント化された用語のシーケンスの反復されたフレーズインスタンスを発見することであって、前記フレーズインスタンスは所定の最大長で制限される、こと;及び
    前記セグメント化された用語のシーケンスから前記ナレッジポイントを生成すること;
    を含む方法。
  2. 選択された候補ナレッジポイントに基づいてトピックラベル出力を提供する工程を更に有する請求項1に記載の方法。
  3. 選択されたナレッジポイント候補に基づいてトピックラベル出力を提供することが:
    前記第1候補ナレッジポイントの最高総合スコアを最小閾値と比較すること;及び
    前記第1候補ナレッジポイントの最高総合スコアが前記最小閾値を上回ることに応じて、前記トピックラベルとして、前記第1候補ナレッジポイントを出力すること;
    を含む請求項2に記載の方法。
  4. 前記一群の電子文書が、ウェブサーバーによりホストされる電子文書を含む、請求項1に記載の方法。
  5. 抽出されたナレッジポイントの各々が、前記一群の電子文書において少なくとも1つ存在する言葉又は語句を含む、請求項1に記載の方法。
  6. 前記ナレッジポイント候補群における各々のナレッジポイント同士の間の関連スコアを算出することが、前記一群の電子文書の一群のナレッジポイントに対する確率分布を生成することを含み、
    前記確率分布は、前記一群の電子文書における全ての単独の言葉及びナレッジポイントのフレーズとそれらの対応する頻度とを含む語彙のリストにより示され、前記一群の電子文書において頻度閾値を上回るナレッジポイントが、候補ナレッジポイントとして選択され、前記関連スコアは、前記候補ナレッジポイントに基づく、請求項1に記載の方法。
  7. 前記ナレッジポイント候補群における各々のナレッジポイントと前記一群の電子文書において発見された現在のトピックとの間の合致スコアを生成する工程であって、前記総合スコアは、前記関連スコア、前記階層関係及び前記合致スコアに基づいて算出される、工程を更に有する請求項1に記載の方法。
  8. 前記第1候補ナレッジポイントを選択することが、前記現在のトピックの表現を前記第1候補ナレッジポイントで置換することを含む、請求項7に記載の方法。
  9. 前記ナレッジポイント候補群における各々のナレッジポイント同士の間の関連スコアを算出することが、前記ナレッジポイント候補群における各々のナレッジポイント同士の間の距離を用いて各々のナレッジポイント同士の間の平均的な意味の類似性を判定することを含む、請求項1に記載の方法。
  10. プロセッサに、動作を実行又は動作のパフォーマンスを制御させるコンピュータプログラムであって、前記動作は:
    非一時的な記録媒体に少なくとも一時的に保存される一群の電子文書をクローリングする工程;
    前記一群の電子文書から複数のナレッジポイントを抽出する工程;
    前記一群の電子文書における複数のナレッジポイントの出現数に基づいて、前記複数のナレッジポイントからナレッジポイント候補群を選択する工程;
    前記ナレッジポイント候補群における各々のナレッジポイント同士の間の関連スコアを算出する工程;
    前記ナレッジポイント候補群における各々のナレッジポイント同士の間の階層関係を算出する工程;
    前記関連スコア及び前記階層関係に基づいて、前記ナレッジポイント候補群における各ナレッジポイントについて総合スコアを算出する工程;及び
    前記一群の電子文書のトピックラベルとして、最高の総合スコアを有する第1候補ナレッジポイントを、前記ナレッジポイント候補群の中から選択する工程;
    を含み、
    前記一群の電子文書から複数のナレッジポイントを抽出することが;
    前記一群の電子文書の中のセグメント化された用語のシーケンスを受信すること;
    前記セグメント化された用語のシーケンスの反復されたフレーズインスタンスを発見することであって、前記フレーズインスタンスは所定の最大長で制限される、こと;及び
    前記セグメント化された用語のシーケンスから前記ナレッジポイントを生成すること;
    を含むコンピュータプログラム
  11. 前記動作は、選択された候補ナレッジポイントに基づいてトピックラベル出力を提供する工程を更に有する請求項10に記載のコンピュータプログラム
  12. 選択されたナレッジポイント候補に基づいてトピックラベル出力を提供することが:
    前記第1候補ナレッジポイントの最高総合スコアを最小閾値と比較すること;及び
    前記第1候補ナレッジポイントの最高総合スコアが前記最小閾値を上回ることに応じて、前記トピックラベルとして、前記第1候補ナレッジポイントを出力すること;
    を含む請求項11に記載のコンピュータプログラム
  13. 前記一群の電子文書が、ウェブサーバーによりホストされる電子文書を含む、請求項10に記載のコンピュータプログラム
  14. 抽出されたナレッジポイントの各々が、前記一群の電子文書において少なくとも1つ存在する言葉又は語句を含む、請求項10に記載のコンピュータプログラム
  15. 前記ナレッジポイント候補群における各々のナレッジポイント同士の間の関連スコアを算出することが、前記一群の電子文書のナレッジポイントに対する確率分布を生成することを含み、
    前記確率分布は、前記一群の電子文書における全ての単独の言葉及びナレッジポイントのフレーズとそれらの対応する頻度とを含む語彙のリストにより示され、前記一群の電子文書において頻度閾値を上回るナレッジポイントが、候補ナレッジポイントとして選択され、前記関連スコアは、前記候補ナレッジポイントに基づく、請求項10に記載のコンピュータプログラム
  16. 前記ナレッジポイント候補群における各々のナレッジポイントと前記一群の電子文書において発見された現在のトピックとの間の合致スコアを生成する工程であって、前記総合スコアは、前記関連スコア、前記階層関係及び前記合致スコアに基づいて算出される、工程を前記動作が更に有する請求項10に記載のコンピュータプログラム
  17. 前記第1候補ナレッジポイントを選択することが、前記現在のトピックの表現を前記第1候補ナレッジポイントで置換することを含む、請求項16に記載のコンピュータプログラム
  18. 前記ナレッジポイント候補群における各々のナレッジポイント同士の間の関連スコアを算出することが、前記ナレッジポイント候補群における各々のナレッジポイント同士の間の距離を用いて各々のナレッジポイント同士の間の平均的な意味の類似性を判定することを含む、請求項10に記載のコンピュータプログラム
JP2016199035A 2015-10-09 2016-10-07 記述的なトピックラベルの生成 Active JP6801350B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/880,087 US10437837B2 (en) 2015-10-09 2015-10-09 Generating descriptive topic labels
US14/880,087 2015-10-09

Publications (2)

Publication Number Publication Date
JP2017073137A JP2017073137A (ja) 2017-04-13
JP6801350B2 true JP6801350B2 (ja) 2020-12-16

Family

ID=58498620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016199035A Active JP6801350B2 (ja) 2015-10-09 2016-10-07 記述的なトピックラベルの生成

Country Status (2)

Country Link
US (1) US10437837B2 (ja)
JP (1) JP6801350B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11922377B2 (en) * 2017-10-24 2024-03-05 Sap Se Determining failure modes of devices based on text analysis
CN108984517A (zh) * 2018-06-11 2018-12-11 杜泽壮 一种媒体数据处理方法、装置、介质和设备
US10872236B1 (en) 2018-09-28 2020-12-22 Amazon Technologies, Inc. Layout-agnostic clustering-based classification of document keys and values
US11257006B1 (en) 2018-11-20 2022-02-22 Amazon Technologies, Inc. Auto-annotation techniques for text localization
US10949661B2 (en) * 2018-11-21 2021-03-16 Amazon Technologies, Inc. Layout-agnostic complex document processing system
US11416534B2 (en) * 2018-12-03 2022-08-16 Fujitsu Limited Classification of electronic documents
US11269812B2 (en) 2019-05-10 2022-03-08 International Business Machines Corporation Derived relationship for collaboration documents
CN110263181B (zh) * 2019-06-17 2021-08-06 北京作业盒子科技有限公司 知识结构的挖掘方法及学习路径的规划方法
CN110502689A (zh) * 2019-08-28 2019-11-26 上海智臻智能网络科技股份有限公司 知识点的爬取方法及装置、存储介质、终端
CN111930792B (zh) * 2020-06-23 2024-04-12 北京大米科技有限公司 数据资源的标注方法、装置、存储介质及电子设备
CN111783448B (zh) * 2020-06-23 2024-03-15 北京百度网讯科技有限公司 文档动态调整方法、装置、设备和可读存储介质
CN112182237A (zh) * 2020-09-21 2021-01-05 深圳中兴网信科技有限公司 题目知识点关联方法、题目知识点关联系统和存储介质
CN115563311B (zh) * 2022-10-21 2023-09-15 中国能源建设集团广东省电力设计研究院有限公司 一种文档标注和知识库管理方法及知识库管理系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6823333B2 (en) * 2001-03-02 2004-11-23 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for conducting a keyterm search
US6868411B2 (en) * 2001-08-13 2005-03-15 Xerox Corporation Fuzzy text categorizer
JP4552401B2 (ja) * 2003-08-19 2010-09-29 富士ゼロックス株式会社 文書処理装置および方法
US7769772B2 (en) * 2005-08-23 2010-08-03 Ricoh Co., Ltd. Mixed media reality brokerage network with layout-independent recognition
JP4737435B2 (ja) * 2006-09-28 2011-08-03 日本電気株式会社 ラベル付与システム、ラベリングサービスシステム、ラベル付与方法およびラベル付与プログラム
JP4774081B2 (ja) * 2008-06-11 2011-09-14 ヤフー株式会社 文書検索システム、文書検索方法、及びプログラム
US20110112995A1 (en) * 2009-10-28 2011-05-12 Industrial Technology Research Institute Systems and methods for organizing collective social intelligence information using an organic object data model
US9760634B1 (en) * 2010-03-23 2017-09-12 Firstrain, Inc. Models for classifying documents
JP5587821B2 (ja) * 2011-04-11 2014-09-10 日本電信電話株式会社 文書トピック抽出装置及び方法及びプログラム
US9442928B2 (en) * 2011-09-07 2016-09-13 Venio Inc. System, method and computer program product for automatic topic identification using a hypertext corpus
US20140325335A1 (en) * 2013-04-25 2014-10-30 Cisco Technology, Inc. System for generating meaningful topic labels and improving automatic topic segmentation
IN2013CH04333A (ja) * 2013-09-25 2015-08-28 Accenture Global Services Ltd
JP6351243B2 (ja) * 2013-11-28 2018-07-04 キヤノン株式会社 画像処理装置、画像処理方法
US20150356099A1 (en) * 2014-06-05 2015-12-10 Walk Score Management, LLC Neighborhood similarity tool and method
US9852132B2 (en) * 2014-11-25 2017-12-26 Chegg, Inc. Building a topical learning model in a content management system
WO2016153510A1 (en) * 2015-03-26 2016-09-29 Hewlett-Packard Development Company, L.P. Image selection based on text topic and image explanatory value
US10438593B2 (en) * 2015-07-22 2019-10-08 Google Llc Individualized hotword detection models

Also Published As

Publication number Publication date
US20170103074A1 (en) 2017-04-13
US10437837B2 (en) 2019-10-08
JP2017073137A (ja) 2017-04-13

Similar Documents

Publication Publication Date Title
JP6801350B2 (ja) 記述的なトピックラベルの生成
US10146874B2 (en) Refining topic representations
US10853660B2 (en) Method and apparatus for retrieving similar video and storage medium
US9720944B2 (en) Method for facet searching and search suggestions
US9311823B2 (en) Caching natural language questions and results in a question and answer system
US10713306B2 (en) Content pattern based automatic document classification
WO2020005571A1 (en) Misinformation detection in online content
Li et al. Bursty event detection from microblog: a distributed and incremental approach
WO2015084757A1 (en) Systems and methods for processing data stored in a database
JP2017021784A (ja) オープン教育リソースの検索クエリ処理
Nawaz et al. A segregational approach for determining aspect sentiments in social media analysis
Zhu et al. CCBLA: a lightweight phishing detection model based on CNN, BiLSTM, and attention mechanism
US20170124090A1 (en) Method of discovering and exploring feature knowledge
EP3635575A1 (en) Sibling search queries
Zhang et al. Domain-specific entity linking via fake named entity detection
US9223833B2 (en) Method for in-loop human validation of disambiguated features
Manrique et al. Knowledge graph-based core concept identification in learning resources
US11803583B2 (en) Concept discovery from text via knowledge transfer
Liu et al. Online hot event discovery based on Association Link Network
Singh et al. User specific context construction for personalized multimedia retrieval
US11868737B2 (en) Method and server for processing text sequence for machine processing task
US20230161779A1 (en) Multi-phase training of machine learning models for search results ranking
US10902024B2 (en) Collecting and organizing online resources
Pang et al. Justify role of Similarity Diffusion Process in cross-media topic ranking: an empirical evaluation
Ashish et al. Sentiment Analysis of Twitter Data Using Machine Learning Classification Algorithms

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190709

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200512

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201027

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201109

R150 Certificate of patent or registration of utility model

Ref document number: 6801350

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150