JP6750780B2 - コンテンツの動的な自動発見のための技術 - Google Patents

コンテンツの動的な自動発見のための技術 Download PDF

Info

Publication number
JP6750780B2
JP6750780B2 JP2017553079A JP2017553079A JP6750780B2 JP 6750780 B2 JP6750780 B2 JP 6750780B2 JP 2017553079 A JP2017553079 A JP 2017553079A JP 2017553079 A JP2017553079 A JP 2017553079A JP 6750780 B2 JP6750780 B2 JP 6750780B2
Authority
JP
Japan
Prior art keywords
term
computing device
key
document
ranked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017553079A
Other languages
English (en)
Other versions
JP2018519561A (ja
Inventor
スミス、エリオット
ウォーターマン、マクス
マノロヴァ、プラメナ
クレット、カロリナ
マッシー、ミカエル
バーソード、アロック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of JP2018519561A publication Critical patent/JP2018519561A/ja
Application granted granted Critical
Publication of JP6750780B2 publication Critical patent/JP6750780B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

[関連出願の相互参照]
本願は、2015年5月29日に出願された「コンテンツの動的な自動発見のための技術」と題する米国特許出願第14/725,290号に基づく優先権を主張する。
コンテンツ発見は、多くのコンピューティングデバイスに対する一般的なユーザタスクである。例えば、ユーザが研究を実行している、または文書をドラフトしている場合、ユーザは、外部のウェブサイトまたは他のコンテンツソースから関連情報を参照したいことがある。典型的なシステムにおいて、ユーザは手動で、検索エンジンに1または複数の検索タームを提供し、次に検索結果を評価する。典型的には、ユーザはまた、関連する文書コンテンツと検索結果を手動で同期する、あるいは関連付けなければならない。さらに、多くのワード処理システムは、検索機能を含まず、従って、ユーザは通常、ウェブブラウザなどの外部アプリケーションを使用する。
キーフレーズ抽出は、テキストをそのテキストの最も重要な部分を表す短いフレーズ、文、他の単語シーケンスに低減するために使用されるプロセスである。典型的なキーフレーズ抽出アルゴリズムは、キーフレーズのリストを作り出すべく、テキストを統語的に分析する。例えば、キーフレーズ抽出アルゴリズムは、入力テキストをトークン化し得、品詞をトークンに割り当て、割り当てられた品詞タグの部分を用いてキーフレーズにトークンを組み合わせる。名前付きエンティティ認識(NER)アルゴリズムは、既知の名詞句の辞書においてエントリに合致するキーフレーズを追加の重みを割り当て得る。TextRankアルゴリズムは、キーフレーズを抽出すべく、入力テキストに基づくグラフを構成および分析する。
本明細書で説明される概念は、例として示されるものであり、添付の図において限定として示されるものではない。説明を簡潔かつ明確にするために、図に示した要素は必ずしも縮尺通りに描かれていない。適切であると見なされる場合、対応する、または、類似の要素を示すべく、参照ラベルが図面の間で繰り返し使用されている。
コンテンツの動的な自動発見のためのシステムの少なくとも1つの実施形態の簡略化されたブロック図である。
図1のコンピューティングデバイスにより確立され得る環境の少なくとも1つの実施形態の簡略化されたブロック図である。
図1および図2のコンピューティングデバイスにより実行され得るコンテンツの動的な自動発見のための方法の少なくとも1つの実施形態の簡略化されたフロー図である。
図1および図2のコンピューティングデバイスにより確立され得るユーザインターフェースを示す概略図である。
図1および図2のコンピューティングデバイスにより実行され得るキーターム抽出のための方法の少なくとも1つの実施形態の簡略化されたフロー図である。
図1および図2のコンピューティングデバイスにより実行され得る意味データベースクエリを示す疑似コードである。
本開示の概念は、様々な修正および代替的な形態の対象たり得るが、それらの具体的な実施形態は、図面において例として示され、本明細書において詳細に説明されるであろう。しかしながら、開示される特定の形態に本開示の概念を限定する意図はなく、それどころか、当該意図は、本開示および添付の特許請求の範囲と一貫性のあるすべての修正、等価物、および代替物を網羅するものであると理解されるべきである。
本明細書における「1つの実施形態」、「実施形態」、「例示的な実施形態」などの言及は、説明される実施形態が特定の特徴、構造、または特性を含んでよいことを示すが、全ての実施形態は、当該特定の特徴、構造、または特性を含んでいても、または、必ずしも含んでいなくてもよい。さらに、そのような文言が必ずしも同一の実施形態を指しているわけではない。さらに、特定の特徴、構造、または特性が、ある実施形態と関連して説明される場合、明示的に説明されているか否かに関わらず、そのような特徴、構造、または特性を他の実施形態と関連して達成することは、当業者の知識の範囲内にあるとされる。さらに、「A、B、およびCのうち少なくとも1つ」という形態のリストに含まれるアイテムは、(A)、(B)、(C)、(AおよびB)、(AおよびC)、(BおよびC)、または(A,B,およびC)を意味し得ることが理解されるべきである。同様に、「A、BまたはCのうち少なくとも1つ」という形態のリストに含まれる複数のアイテムは、(A)、(B)、(C)、(AおよびB)、(AおよびC)、(BおよびC)、または、(A、BおよびC)を意味し得る。
開示される実施形態は、いくつかの場合、ハードウェア、ファームウェア、ソフトウェア、または、それらの任意の組み合わせに実装され得る。開示される実施形態は、1または複数のプロセッサにより読み取られ実行され得る、1または複数の一時的または非一時的機械可読(例えば、コンピュータ可読)ストレージ媒体上により伝達される、またはそれらに格納された命令としても実装され得る。機械可読ストレージ媒体は、機械によって読み込み可能な形式で情報を格納または送信するための、任意のストレージデバイス、機構、または、他の物理的構造(例えば、揮発性メモリ、不揮発性メモリ、メディアディスク、または、他の媒体デバイス)として具現化され得る。
図面において、いくつかの構造的または方法的な特徴は、特定の配置および/または順序で示され得る。しかしながら、そのような特定の配置および/または順序が必要とされないことがあることを理解されるべきである。むしろ、いくつかの実施形態において、そのような特徴は、例示的な図に示されるものと異なる態様および/または順序で構成され得る。さらに、構造的または方法的な特徴を特定の図に含めることは、そのような特徴が全ての実施形態において必要とされるものであることを示唆する意図はなく、いくつかの実施形態において、それらは含まれていなくてよく、または、他の特徴と組み合わされてよい。
ここで、図1を参照すると、例示的な実施形態において、コンテンツの動的な自動発見のためのシステム100は、ネットワーク112上で通信するコンピューティングデバイス102、検索エンジン104および知識ベースサーバ108を含む。使用中、以下により詳細に説明されるように、コンピューティングデバイス102は、例えば、ウェブブラウザ、ワードプロセッサまたは他の生産性アプリケーション内でユーザにより選択される文書を表示する。コンピューティングデバイス102は、ユーザの文脈に基づき文書の文脈部分を特定し、文書の文脈部分から1または複数のキーターム(タームはフレーズであってもよい)を抽出する。コンピューティングデバイス102は、知識ベースサーバ108により保持され得る意味データベース110をクエリすることにより計算される曖昧さスコアを用いてキータームを抽出し得る。コンピューティングデバイス102は、例えば、検索エンジン104にキータームを提出することにより、キータームを用いて1または複数のコンテンツ検索を実行する。コンピューティングデバイス102は、ユーザに検索結果を提示し、各々の検索結果を文書における対応するキータームと(例えば、視覚強調表示を用いて)インタラクティブに関連付け得る。従って、システム100は、ユーザの現在の文脈に動的に調整させるコンテンツの自動検索を提供する。従って、ユーザは、文脈的に関連する検索結果がユーザの文書との主なインタラクションに割り込むことなく、自動的に提供され得、それらの検索結果は、文書コンテンツへの変更と共に動的に更新し得る。さらに、意味データベース上の自動推論に基づく曖昧さスコアを用いてキータームを抽出することにより、システム100は、統語的キーフレーズ抽出アルゴリズムまたは辞書参照を単独で用いてキータームを抽出することによってより良好で、より関連した結果を提供し得る。
コンピューティングデバイス102は、限定されないが、コンピュータ、デスクトップコンピュータ、ワークステーション、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、モバイルコンピューティングデバイス、ウェアラブルコンピューティングデバイス、ネットワーク機器、ウェブ機器、分散コンピューティングシステム、プロセッサベースシステム、および/または民生用電子機器を含む、本明細書で説明される機能を実行することが可能な任意のタイプの計算またはコンピュータデバイスとして具現化され得る。図1に示されるように、コンピューティングデバイス102は、プロセッサ120、入力/出力サブシステム122、メモリ124、データストレージデバイス126および通信回路128を例示的に含む。もちろん、コンピューティングデバイス102は、他の実施形態において、例えば、デスクトップコンピュータに一般的に見られるもの(例えば、様々な入力/出力デバイス)のような、他のまたは追加のコンポーネントを含み得る。さらに、いくつかの実施形態において、例示的なコンポーネントの1または複数は、別のコンポーネント内に組み込まれてよく、あるいは、別のコンポーネントの一部を形成してよい。例えば、いくつかの実施形態において、メモリ124またはその一部は、プロセッサ120に組み込まれてよい。
プロセッサ120は、本明細書において説明される機能を実行可能な任意のタイプのプロセッサとして具現化されてよい。プロセッサ120は、シングルまたはマルチコアプロセッサ、デジタル信号プロセッサ、マイクロコントローラ、または、他のプロセッサもしくは処理/制御回路として具現化されてよい。同様に、メモリ124は、本明細書に説明される機能を実行可能な任意のタイプの揮発性もしくは不揮発性のメモリ、またはデータストレージとして具現化されてよい。動作において、メモリ124は、コンピューティングデバイス102の動作中に使用されるオペレーティングシステム、アプリケーション、プログラム、ライブラリ、およびドライバなどの様々なデータおよびソフトウェアを格納してよい。メモリ124は、I/Oサブシステム122を介してプロセッサ120に通信可能に結合され、そのことは、コンピューティングデバイス102のプロセッサ120、メモリ124および他のコンポーネントとの入出力動作を容易にするための回路および/またはコンポーネントとして具現化されてよい。例えば、I/Oサブシステム122は、メモリコントローラハブ、入出力制御ハブ、ファームウェアデバイス、通信リンク(すなわち、ポイントツーポイントリンク、バスリンク、ワイヤ、ケーブル、ライトガイド、プリント回路基板配線など)、ならびに/または、入出力動作を容易にする他のコンポーネントおよびサブシステムとして具現化されてよく、あるいは、これらを含んでよい。いくつかの実施形態において、I/Oサブシステム122が、システムオンチップ(SoC)の一部を形成してよく、コンピューティングデバイス102のプロセッサ120、メモリ124および他のコンポーネントとともに、単一の集積回路チップの上に組み込まれてよい。
データストレージデバイス126は、例えば、メモリデバイスならびに回路、メモリカード、ハードディスクドライブ、ソリッドステートドライブ、または、他のデータストレージデバイスなどの、データの短期間もしくは長期間格納用に構成された任意のタイプのデバイスまたは複数のデバイスとして具現化されてもよい。データストレージデバイス126は、1または複数の文書または他のユーザアクセス可能なコンテンツを格納し得る。さらに、いくつかの実施形態において、データストレージデバイス126は、コンテンツの自動発見のために使用され得る、例えば、コンテンツデータ、コンテンツインデックスおよび/または意味データなどの他のデータを格納し得る。
コンピューティングデバイス102の通信回路128は、任意の通信回路、デバイスまたはそれらの集合として具現化され得、ネットワーク112を介してコンピューティングデバイス102、検索エンジン104、知識ベースサーバ108および/または他のリモートデバイスの間の通信を可能にすることができる。通信回路128は、そのような通信を達成すべく、任意の1または複数の通信技術(例えば、有線または無線通信)および関連したプロトコル(例えば、イーサネット(登録商標)、Bluetooth(登録商標)、Wi−Fi(登録商標)、WiMAX(登録商標)など)を用いるように構成され得る。
さらに、コンピューティングデバイス102はまた、ディスプレイ130を含んでよい。ディスプレイ130は、例えば、液晶ディスプレイ(LCD)、発光ダイオード(LED)、プラズマディスプレイ、陰極線管(CRT)または他のタイプのディスプレイデバイス等のデジタル情報を表示することが可能な任意のタイプのディスプレイとして具現化され得る。以下に説明されるように、ディスプレイ130は、コンピューティングデバイス102のユーザにグラフィカルユーザインターフェースまたは他の情報を表示するために使用され得る。
検索エンジン104は、コンテンツの本体を検索し、検索結果の一式を戻すように構成される。例えば、いくつかの実施形態において、検索エンジン104は、ウェブ検索エンジン、ファイル検索エンジン、特化されたドメイン検索エンジンまたは任意の他の検索エンジンとして具現化され得る。検索エンジン104は、検索結果を提供すべく、コンテンツインデックス106を格納、維持あるいはそれにアクセスし得る。検索エンジン104は、限定されないが、コンピュータ、マルチプロセッサシステム、サーバ、ラックマウント式サーバ、ブレードサーバ、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、ウェアラブルコンピューティングデバイス、ネットワーク機器、ウェブ機器、分散コンピューティングシステム、プロセッサベースシステム、および/または民生用電子機器を含む、本明細書で説明される機能を実行することが可能な任意のタイプの計算またはコンピュータデバイスとして具現化され得る。従って、検索エンジン104は、例えば、プロセッサ、I/Oサブシステム、メモリ、データストレージデバイスおよび/または通信回路などの、サーバまたは同様のコンピューティングデバイスに一般的に見られるコンポーネントおよびデバイスを含む。検索エンジン104のそれらの個々の要素は、コンピューティングデバイス102の対応するコンポーネントと同様であり得、コンピューティングデバイス102の説明は、検索エンジン104の対応するコンポーネント適用可能であり、本開示を不明瞭にしないように本明細書で繰り返されない。さらに、いくつかの実施形態において、検索エンジン104は、ネットワーク112にわたって分散され、パブリックまたはプライベートクラウドにて動作している複数のコンピューティングデバイスから形成される「仮想サーバ」として具現化され得る。従って、検索エンジン104は、単一のサーバコンピューティングデバイスとして具現化されるように図1に示されるが、検索エンジン104は、以下に説明される機能を容易にすべく、協働する複数のデバイスとして具現化され得ることが理解されるべきである。
知識ベースサーバ108は、クライアントが意味データベース110をクエリするのを可能にするように構成される。意味データベース110は、特定の知識ドメインのオントロジまたは他の構築された表現を維持する。例えば、いくつかの実施形態において、意味データベース110は、例えば、DBペディアなどの一般知識の百科事典のオントロジ表現として具現化され得る。もちろん、いくつかの実施形態において、意味データベース110は、特定の知識ドメイン用に特化され得る、あるいは構成され得る。知識ベースサーバ108は、限定されないが、コンピュータ、マルチプロセッサシステム、サーバ、ラックマウント式サーバ、ブレードサーバ、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、ウェアラブルコンピューティングデバイス、ネットワーク機器、ウェブ機器、分散コンピューティングシステム、プロセッサベースシステム、および/または民生用電子機器を含む、本明細書で説明される機能を実行することが可能な任意のタイプの計算またはコンピュータデバイスとして具現化され得る。従って、知識ベースサーバ108は、例えば、プロセッサ、I/Oサブシステム、メモリ、データストレージデバイスおよび/または通信回路などの、サーバまたは同様のコンピューティングデバイスに一般的に見られるコンポーネントおよびデバイスを含む。知識ベースサーバ108のそれらの個々の要素は、コンピューティングデバイス102の対応するコンポーネントと同様であり得、コンピューティングデバイス102の説明は、知識ベースサーバ108の対応するコンポーネント適用可能であり、本開示を不明瞭にしないように本明細書で繰り返されない。さらに、いくつかの実施形態において、知識ベースサーバ108は、ネットワーク112にわたって分散され、パブリックまたはプライベートクラウドにて動作している複数のコンピューティングデバイスから形成される「仮想サーバ」として具現化され得る。従って、知識ベースサーバ108は、単一のサーバコンピューティングデバイスとして具現化されるように図1に示されるが、知識ベースサーバ108は、以下に説明される機能を容易にすべく協働する複数のデバイスとして具現化され得ることが理解されるべきである。
以下により詳細に述べられるように、コンピューティングデバイス102、検索エンジン104および知識ベースサーバ108は、ネットワーク112を通じて、互いに、および/またはシステム100の他のデバイスとデータを送信および受信するように構成され得る。ネットワーク112、任意の数の様々な有線および/または無線ネットワークとして具現化されてよい。例えば、ネットワーク112は、有線または無線ローカルエリアネットワーク(LAN)、有線または無線ワイドエリアネットワーク(WAN)、セルラーネットワーク、および/または、インターネットなどの公的にアクセス可能なグローバルネットワークとして具現化されてよく、あるいは、これらを含んでよい。そのため、ネットワーク112は、システム100のデバイスの間での通信を容易にすべく、追加のコンピュータ、ルータ、およびスイッチなど、任意の数の追加のデバイスを含み得る。
さらに、システム100は、コンピューティングデバイス102、検索エンジン104および知識ベースサーバ108を含むように図示されるが、それらのデバイスの機能の一部または全てが単一のデバイスへと組み合わされ得ることが理解されるべきである。例えば、単一のサーバデバイスは、コンテンツインデックス106と意味データベース110との両方を維持し得る。さらにまたは代替的に、いくつかの実施形態において、コンピューティングデバイス102は、コンテンツインデックス106および/または意味データベース110をローカルに維持し得る。
ここで、図2を参照すると、例示的な実施形態において、コンピューティングデバイス102は、動作中に環境200を確立する。例示的な環境200は、文書文脈モジュール202、キーフレーズ抽出モジュール204、曖昧さランク付けモジュール206、コンテンツ検索モジュール208およびユーザインタフェースモジュール210を含む。環境200の様々なモジュールは、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組み合わせとして具現化されてよい。例えば、環境200の様々なモジュール、ロジック、および他のコンポーネントは、コンピューティングデバイス102のプロセッサ120または他のハードウェアコンポーネントの一部を形成してよい、あるいはコンピューティングデバイス102のプロセッサ120または他のハードウェアコンポーネントによって確立されてよい。そのため、いくつかの実施形態において、環境200のモジュールの任意の1または複数は、電気デバイスの回路または集合(例えば、文書文脈回路、キーフレーズ抽出回路など)として具現化されてよい。
文書文脈モジュール202は、現在のユーザの文脈に基づき文書の文脈部分を決定するように構成される。例えば、文書文脈モジュール202は、コンピューティングデバイス102のアプリケーションビューポートにおいて可視の文書の部分、またはユーザにより最近アクセスされた文書の部分を特定するように構成され得る。文書は、文字情報を含み、例えば、ウェブブラウザ、ワードプロセッサまたは他の生産性アプリケーションを用いて、ユーザにより選択される。
キーフレーズ抽出モジュール204は、自動キーフレーズ抽出アルゴリズムを用いて、文書または文書の文脈部分から1または複数のキータームを抽出するように構成される。キーフレーズ抽出アルゴリズムは、文書のタームに重要度値を割り当てる。重要度値は、文書の各タームが文書のコンテンツをどれほどよく表しているか、あるいは、文書のトピック、意味または他のコンテンツに対してどれだけ重要と考えられるかについての相対的な指標を提供する。各々のキータームは、文書コンテンツから選択される単語またはフレーズとして具現化され得る。キーフレーズ抽出アルゴリズムは、統語的テキスト分析アルゴリズム、TextRankアルゴリズムまたは名前付きエンティティ認識アルゴリズムとして具現化され得る。キーフレーズ抽出モジュール204は、ランク付けされたタームリストを生成すべく、自動キーフレーズ抽出アルゴリズムを用いて文書のタームをランク付けするように構成され得る。
曖昧さランク付けモジュール206は、意味データベース110をクエリすることによりランク付けされたタームリストのタームごとに曖昧さスコアを計算するように構成される。タームごとの曖昧さスコアは、候補キータームが知識ベースにおいてクラスおよびオブジェクトに関連してどのような頻度で生じるかを示す。曖昧さスコアを決定すべく、曖昧さランク付けモジュール206は、知識ベースサーバ108にクエリを提出するように構成され得る。曖昧さランク付けモジュール206はさらに、調整され、ランク付けされたタームリストを生成すべく、ランク付けされたタームリストのタームごとの対応する曖昧さスコアに基づきランク付けされたタームリストを再ランク付けするように構成される。曖昧さランク付けモジュール206は、調整され、ランク付けされたタームリストからキータームを選択するようにさらに構成される。例えば、意味データベース110のクエリは、意味データベース110の任意の概念が特定のタームを含むかどうかを決定し得る。別の例として、意味データベース110のクエリは、ランク付けされたタームリストの各タームを含む意味データベース110の対応する概念の数、または対応する概念のタイプの数を決定し得る。
コンテンツ検索モジュール208は、1または複数の対応する検索結果を生成すべく、抽出されたキータームに基づきコンテンツの自動検索を実行するように構成される。コンテンツ検索モジュール208は、例えば、検索エンジン104に検索要求を提出することにより、コンテンツインデックス106を用いて検索し得る。ユーザインタフェースモジュール210は、例えば、ディスプレイ130上のグラフィカルユーザインターフェースにおいて検索結果を表示することにより、ユーザに1または複数の検索結果を提示するように構成される。ユーザインタフェースモジュール210はさらに、1または複数の検索結果の各々を文書の文脈部分の対応するキータームと関連付けるように構成され得る。例えば、ユーザインタフェースモジュール210は、対応する検索結果のユーザ選択に応じて、文書の文脈部分の対応するキータームを視覚的に強調するように構成され得る。
ここで、図3を参照すると、使用中に、コンピューティングデバイス102は、コンテンツの動的な自動発見のための方法300を実行し得る。方法300は、コンピューティングデバイス102がユーザの文脈に基づき、文書の文脈部分を特定するブロック302から始まる。文書は、任意のウェブページ、テキストファイル、オフィス生産性文書またはテキストコンテンツを含む他の文書として具現化され得る。文書の文脈部分は、ユーザにより現在視聴中、編集中あるいはアクセス可能である文書の任意の部分または下位部分として具現化され得る。例えば、文書の文脈部分がコンピューティングデバイス102により確立されるアプリケーションビューポートまたは他のスクロール可能なビューにおいて、現在可視の文書の部分として具現化され得る。別の例として、文書の文脈部分は、例えば、スピーチリーダまたは他の支援技術を用いたユーザに対する最後の音声リードの20秒などの、ユーザにより最近アクセスされた文書の部分として具現化され得る。いくつかの実施形態において、文書の文脈部分は、文書全体を含み得、言い換えれば、いくつかの実施形態において、方法300は、文書全体を分析し得る。
ブロック304で、コンピューティングデバイス102は、文書の文脈部分から1または複数のキータームを抽出する。キータームは、文書のコンテンツを表す、あるいは、文書のトピック、意味または他のコンテンツに対して重要と考えられる、文書から抽出される単語および/またはフレーズを含む。いくつかの実施形態において、キータームは、名詞句であり得、すなわち、名詞、および例えば、冠詞、前置詞、形容詞および他の修飾語句などの名詞に関連する他の単語を含む単語シーケンスであり得る。コンピューティングデバイス102は、キータームを抽出すべく、任意の適切なキーフレーズ抽出アルゴリズム、またはアルゴリズムの組み合わせを使用し得る。コンピューティングデバイス102は、任意の数のキータームを抽出し得るが、いくつかの実施形態において、抽出されるキータームの数は、文書の文脈部分の長さに比例し得る。いくつかの実施形態において、ブロック306で、コンピューティングデバイス102は、キータームを抽出すべく自動自然言語処理(NLP)アルゴリズムを実行する。例えば、コンピューティングデバイス102は、統語的アルゴリズム、TextRankアルゴリズム、名前付きエンティティ認識(NER)アルゴリズムまたは別のNLPアルゴリズムを実行し得る。コンピューティングデバイス102は、NLPアルゴリズムにより決定される重要度値による文書のタームをランク付けし得る。上記に説明されるように、重要度値は、文書の各タームが文書のコンテンツをどれほどよく表しているか、あるいは、文書のトピック、意味または他のコンテンツに対してどれだけ重要と考えられるかについての相対的な指標を提供する。いくつかの実施形態において、ブロック308で、コンピューティングデバイス102は、意味データベース110を用いてキータームごとに曖昧さの程度を計算することによりキータームをランク付けし得る。より高い曖昧さの程度を有するターム(すなわち、より曖昧なターム)は、より低い曖昧さの程度を有するターム(すなわち、曖昧さが小さいターム)より低くランク付けされ得る。曖昧さの程度を計算する工程を含むキータームを抽出するための方法の1つの実施形態が、図5と関連して以下にさらに説明される。
ブロック310で、コンピューティングデバイス102は、抽出されたキータームに基づき1または複数のコンテンツ検索を実行する。例えば、コンピューティングデバイス102は、キータームの全てに対して単一の検索を実行し得、キータームの各々に対して別個の検索を実行し得、または任意の他の適切な検索戦略を実行し得る。検索を実行すべく、コンピューティングデバイス102は、検索エンジン104にキータームを提出し得、あるいはコンテンツインデックス106をクエリし得る。検索の実行に応答して、コンピューティングデバイス102は、1または複数の検索結果を受信し、それは、テキスト、グラフィックスまたはコンテンツ検索の結果を含む、または説明する他のコンテンツとして具現化され得る。
ブロック312で、コンピューティングデバイス102は、ユーザにコンテンツ検索結果を提示する。コンピューティングデバイス102は、任意の適切な技術を用いて、結果を提示し得る。例えば、コンピューティングデバイス102は、文書の文脈部分に隣接するサイドバー、結果のウィンドウ、または別のグラフィカルユーザインターフェース要素において、視覚的に検索結果を提示し得る。別の例として、コンピューティングデバイス102は、スピーチリーダを用いて、または任意の他のユーザインターフェースモードを用いて検索結果を音声として提示し得る。いくつかの実施形態において、ブロック314で、コンピューティングデバイス102は、検索結果の1または複数を文書の文脈部分における対応するキータームと関連付け得る。例えば、ユーザが、(例えば、検索結果上をクリックする、検索結果上をタッピングする、検索結果の上をポインタでホバリングする、または別の選択アクションを実行することにより)検索結果を選択した場合、コンピューティングデバイス102は、文書コンテンツの文脈部分における対応するキータームを視覚的に強調する、それに下線を引く、あるいはそれを強調し得る。ユーザに検索結果を提示した後、方法300は、文書の文脈部分を特定し、従って検索結果を動的に更新し続けるべくブロック302にループバックする。
ここで、図4を参照すると、概略図表400は、方法300の実行中にコンピューティングデバイス102により提示されるユーザインターフェースの1つの可能性のある実施形態を示す。図表400は、文書402を示し、それは、例示的にはウェブページである。図表400はまた、アプリケーションビューポート404を示し、それは、例示的にはウェブブラウザのコンテンツウィンドウである。アプリケーションビューポート404のコンテンツは、コンピューティングデバイス102のディスプレイ130上にレンダリングされ得る。文書402の文脈部分406は、アプリケーションビューポート404を介して可視の文書402の部分に対応する。従って、文脈部分406のコンテンツは、ユーザが文書402をスクロールするにつれて変化する。
例示的な文書402は、英国史に関するウェブページであり、複数のキーターム408を含む。図示されるように、キーターム408a、408b、408cは、文脈部分406に含まれ、キーターム408dは、文脈部分406に含まれない(すなわち、キーターム408dは、アプリケーションビューポート404では可視ではない)。図示されるように、アプリケーションビューポート404はまた、文脈部分406内のキーターム408に対応する検索結果410を含む。例えば、検索結果410aは、キーターム408a(「ノルマン人の侵略」)に対応し、検索結果410bは、キーターム408b(「サムフォードブリッジ」)に対応し、検索結果410cは、キーターム408c(「リチャード3世」)に対応する。例示的な図表400において、検索結果410と対応するキーターム408との関係は、矢印および境界ボックスを用いて視覚的に描かれている。いくつかの実施形態において、検索結果410と対応するキーターム408との関係の視覚的な指標は、ユーザが特定の検索結果410を選択するまで、隠され得る。例えば、検索結果410aのユーザ選択に応答して、コンピューティングデバイス102は、キーターム408aを強調表示する視覚的な指標をレンダリングし得る。さらに、図示されるように、キーターム408dが文脈部分406の外部にあるので、キーターム408dに対して表示される検索結果410はない。ユーザが文書402をスクロールするにつれて、キーターム408dが文脈部分406に含まれるようになり、検索結果410はそれに応じて更新され得る。
ここで、図5を参照すると、使用中、コンピューティングデバイス102は、キーターム抽出のための方法500を実行し得る。方法500は、図3のブロック304と関連して、例えば、上記に説明されるように方法300の一部として実行され得る。さらに、または代替的に、方法500は、文書からキータームを抽出するように独立して実行され得る。方法500は、ブロック502で始まり、そしてそこで、コンピューティングデバイス102は、自然言語処理キーフレーズ抽出アルゴリズムを用いて文書からランク付けされた候補キータームリストを生成する。図3と関連して上記に説明されるように、文書は、ユーザにより現在編集中、視聴中あるいはアクセスされている文書、または文書の部分として具現化され得る。コンピューティングデバイス102は、ランク付けされた候補キータームリストを生成すべく、任意の適切なキーフレーズ抽出アルゴリズムを使用し得る。例えば、コンピューティングデバイス102は、統語的アルゴリズム、TextRankアルゴリズム、名前付きエンティティ認識(NER)アルゴリズムまたは別のNLPアルゴリズムを実行し得る。コンピューティングデバイス102は、NLPアルゴリズムにより決定される重要度値または他のスコアによって文書のタームをランク付けし得る。上記に説明されるように、重要度値は、文書の各タームが文書のコンテンツをどれほどよく表しているか、あるいは、文書のトピック、意味または他のコンテンツに対してどれだけ重要と考えられるかについての相対的な指標を提供する。いくつかの実施形態において、ブロック504で、コンピューティングデバイス102は、候補キータームごとに初期スコアを正規化し得る。例えば、各々の初期スコアは、ゼロ(0)と1との間の数として正規化され得る。
ブロック506で、コンピューティングデバイス102は、意味データベース110をクエリすることにより候補キータームごとに1または複数の曖昧さの程度を計算する。曖昧さの程度は、候補キータームが知識ベースにおいてクラスおよびオブジェクトに関連してどのような頻度で生じるかを示す任意の程度として具現化され得る。曖昧さの程度は、論理記述によって意味データベース110に対するクエリを実行することにより推定され得る。直感的に、曖昧さの程度は、文書が候補キータームを含むと仮定すると、文書のトピックについてどの程度の情報が推論され得るかを示す。曖昧さの程度は、定性的な2値(例えば、真/偽)、定量的な値(例えば、0と1との間の数)または任意の他の適切な値として具現化され得る。以下にさらに説明されるように、コンピューティングデバイス102は、複数の曖昧さの程度を決定すべく意味データベース110に対する複数のクエリを実行し得、合成曖昧さスコアは、それらのクエリから生じる曖昧さの程度を平均する、および/あるいは組み合わせることにより決定され得る。
いくつかの実施形態において、ブロック508で、コンピューティングデバイス102は、意味データベース110の任意の概念が候補キータームを含むかどうかを決定することにより曖昧さの程度を決定し得る。意味データベース110における概念は、意味データベース110において特定されるクラス、オブジェクトまたは任意の他の「事物」を含み得る。意味データベース110における概念が、候補キータームを含まない場合、候補キータームのための曖昧さの程度は、相対的に高い(例えば、「真」、数字の1、または他の高い値)。逆に、意味データベース110における少なくとも1つの概念が、候補キータームを含む場合、候補キータームのための曖昧さの程度は、相対的に低い(例えば、「偽」、数字の0、または他の低い値)。
ここで、図6を参照すると、疑似コード600は、意味データベース110が候補キータームのための概念を含むかどうかを決定するクエリの1つの可能性のある実施形態を示す。例示的な実施形態において、意味データベース110は、一般知識の百科事典のオントロジ的マッピングである。特に、例示的な実施形態において、意味データベース110は、DBペディアであり、それは、フリー百科事典であるウィキペディアに含まれる記事の構造化分類である。DBペディアは、ウィキペディアのコンテンツについての論理記述のRDFデータベースを維持し、そしてそれは、コンテンツおよびウィキペディアの記事間の関係に対する洞察を提供すべく、SPARQLプロトコルおよびRDFクエリ言語(SPARQL)を用いてクエリされ得る。例示的な疑似コード600は、関連付けられるウィキペディアページを有する任意の「事物」(すなわち、任意のクラスまたはオブジェクト)がまた、候補キーターム、例示的に「ヘースティングズの戦い」と等しいラベルを有する、そしてそれがである場合、真を返す、DBペディアに対するSPARQLクエリを含む。例示的なクエリの結果は、曖昧さの程度を作り出すべく論理否定され得る。従って、例示的なクエリが「真」を返す(ウィキペディアが「ヘースティングズの戦い」とラベルを付けた記事を含むことを示す)場合、関連付けられる曖昧さの程度は、0(すなわち、曖昧ではない)に設定され得る。さらに、または代替的に、コンピューティングデバイス102は、例えば、人々、場所または組織についての任意の記事が、候補キーターム(名前付きエンティティクエリ)を含むラベルを有するかどうかについてクエリすることなどの、DBペディアに対する他のクエリを行い得る。いくつかの実施形態において、コンピューティングデバイス102は、より特化されたクエリを行い得る。例えば、ユーザインタラクションは、ユーザが、特定の映画で主演した役者を見つけるのに興味があることを指定してよい。その例において、コンピューティングデバイス102は、役者に関連したキーターム、および/またはその特定の映画に直接関連した役者を指すキータームに特別の重みを付けてクエリを形成し得る。
図5に戻り参照すると、いくつかの実施形態において、ブロック510で、コンピューティングデバイス102は、候補キータームを含む意味データベース110における概念の数または概念のタイプの数を決定することにより曖昧さの程度を決定し得る。候補キータームを含む概念の数または概念のタイプの数は、曖昧さの相対的な量を示し得る。例えば、相対的に多数の概念の数は、高い曖昧さの程度として解釈され得、相対的に少数である(が、非ゼロの)概念の数は、低い曖昧さの程度として解釈され得る。説明として、意味データベース110が、上記に説明されるようにDBペディアとして具現化された場合、適切なクエリは、ウィキペディアにおいていくつの記事が候補キータームを含むラベルを有するか、ウィキペディアにおいていくつのタイプの記事が候補キータームを含むラベルを有するか、および/またはウィキペディアにおいていくつの記事が候補キータームを含む本体テキストを有するかを含み得る。候補キータームごとの概念の数および/または概念のタイプの数が、曖昧さの程度を作り出すべく正規化され得る。例えば、概念の数および/またはタイプの数は、全ての候補キータームに対するそれらの値を合計し、次にその合計により各値を除算することにより、正規化され得る。
ブロック512で、コンピューティングデバイス102は、候補キータームの各々に対して正規化された曖昧さスコアを決定する。正規化後、候補キータームの各々は、単一の曖昧さスコアを有し、それは1と0との間の数として具現化され得る。コンピューティングデバイス102は、以前に決定された曖昧さの程度を正規化すべく、任意の平均、加重平均または他のアルゴリズムを使用し得る。例えば、例示的な実施形態において、各々の候補キータームは、意味データベース110に対する5つの異なるクエリ(例えば、正確なラベル、名前付きエンティティ、記事ラベルの数、記事タイプの数および記事本体の数)により作り出される5つの異なる曖昧さの程度と関連付けられ得る。その例示的な実施形態において、曖昧さスコアは、それらの5つの曖昧さの程度の平均として計算され得る。
ブロック514で、コンピューティングデバイス102は、候補キータームと関連付けられる正規化された曖昧さスコアを用いて候補キータームのランキングを調整する。コンピューティングデバイス102は、各々の候補キータームのランキングを調整すべく、任意の平均、加重平均または他のアルゴリズムを使用し得る。
例えば、コンピューティングデバイス102は、式1を用いて候補キータームの各々に対するランキングスコアを再計算し得る。
Figure 0006750780
(1)
式1に示されるように、変数initial_scoreは、ブロック502と関連して上記に説明されるNLPキーターム抽出アルゴリズムにより候補キータームiに割り当てられる正規化された初期スコアである。変数vaguenessは、ブロック506、512と関連して上記に説明されるように、キータームiに割り当てられる曖昧さスコアである。変数new_scoreは、候補キータームiに割り当てられる調整されたスコアである。候補キータームごとに調整されたスコアを決定した後、コンピューティングデバイス102は、候補キータームを再ランク付けする。候補キータームを再ランク付けした後、方法500は完了する。図3と関連して上記に説明されるように、コンピューティングデバイス102は、最も高くランク付けされる候補キータームの1または複数を文書に対する代表的なキータームとして選択し得る。
[例]
本明細書において開示された技術の例示的な例を以下で提供する。当該技術の実施形態は、以下で説明される例のうちの任意の1または複数、および任意の組み合わせを含んでよい。
例1は、コンテンツの自動発見のためのコンピューティングデバイスを含み、コンピューティングデバイスは、
自動キーフレーズ抽出アルゴリズムにより決定されるキータームと関連付けられる重要度値に基づき文書からキータームを抽出するキーフレーズ抽出モジュールであって、文書は、コンピューティングデバイスのユーザにより選択される文書を有する、キーフレーズ抽出モジュールと、
1または複数の検索結果を生成すべく、キータームに基づきコンテンツの自動検索を実行するコンテンツ検索モジュールと、
ユーザに1または複数の検索結果を提示するユーザインタフェースモジュールと
を含む。
例2は、例1の主題を含み、キーフレーズ抽出アルゴリズムは、TextRankアルゴリズムまたは名前付きエンティティ認識アルゴリズムを有する。
例3は、例1および例2のいずれかの主題を含み、文書からキータームを抽出することは、ランク付けされたタームリストを生成すべく、自動キーフレーズ抽出アルゴリズムを用いて文書の複数のタームをランク付けすることと、ランク付けされたタームリストからキータームを選択することとを有する。
例4は、例1から例3のいずれかの主題を含み、文書の文脈部分を決定する文書文脈モジュールであって、文書の文脈部分は、ユーザにより現在アクセス可能である、文書文脈モジュールをさらに備え、文書からキータームを抽出することは、文書の文脈部分からキータームを抽出することを含む。
例5は、例1から例4のいずれかの主題を含み、文書の文脈部分を決定することは、コンピューティングデバイスのアプリケーションビューポートにおいて可視の文書の部分を特定することを含む。
例6は、例1から例5のいずれかの主題を含み、文書の文脈部分を決定することは、ユーザにより最近アクセスされた文書の部分を特定することを含む。
例7は、例1から例6のいずれかの主題を含み、ユーザインタフェースモジュールはさらに、1または複数の検索結果の各々を文書の文脈部分の対応するキータームと関連付ける。
例8は、例1から例7のいずれかの主題を含み、1または複数の検索結果の各々を対応するキータームと関連付けることは、対応する検索結果のユーザ選択に応じて文書の文脈部分の対応するキータームを視覚的に強調することを含む。
例9は、例1から例8のいずれかの主題を含み、文書からキータームを抽出することは、ランク付けされたタームリストを生成すべく、自動キーフレーズ抽出アルゴリズムを用いて文書の複数のタームをランク付けすることを有し、コンピューティングデバイスはさらに、意味データベースのクエリによりランク付けされたタームリストのタームごとに曖昧さスコアを計算し、調整されたランク付けされたタームリストを生成すべくランク付けされたタームリストのタームごとの対応する曖昧さスコアに基づきランク付けされたタームリストを再ランク付けし、調整されたランク付けされたタームリストからキータームを選択する曖昧さランク付けモジュールを有する。
例10は、例1から例9のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算することは、意味データベースの任意の概念が対応するタームを含むかどうかを決定することを有する。
例11は、例1から例10のいずれかの主題を含み、意味データベースの任意の概念がタームを含むかどうかを決定することは、百科事典の任意の記事または記事ラベルがタームを含むかどうかを決定すべく、百科事典のオントロジ的マッピングをクエリすることを含む。
例12は、例1から例11のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算することは、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念の数を決定することと、ランク付けされたタームリストのタームごとに対応する概念の数を正規化することとを含む。
例13は、例1から例12のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算することは、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念のタイプの数を決定することと、ランク付けされたタームリストのタームごとに対応する概念のタイプの数を正規化することを含む。
例14は、キーフレーズ抽出のためのコンピューティングデバイスを含み、コンピューティングデバイスは、
自動キーフレーズ抽出アルゴリズムにより決定される文書の複数のタームの各々と関連付けられる対応する重要度値に基づきランク付けされたタームリストを生成すべく、複数のタームをランク付けするキーフレーズ抽出モジュールと、
意味データベースのクエリによりランク付けされたタームリストのタームごとに曖昧さスコアを計算し、
調整され、ランク付けされたタームリストを生成すべくランク付けされたタームリストのタームごとの対応する曖昧さスコアに基づきランク付けされたタームリストを再ランク付けし、
調整され、ランク付けされたタームリストからキータームを選択する曖昧さランク付けモジュールと
を備える。
例15は、例14の主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算することは、意味データベースの任意の概念が対応するタームを含むかどうかを決定することを有する。
例16は、例14および例15のいずれかの主題を含み、意味データベースの任意の概念がタームを含むかどうかを決定することは、百科事典の任意の記事または記事ラベルがタームを含むかどうかを決定すべく、百科事典のオントロジ的マッピングをクエリすることを含む。
例17は、例14から例16のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算することは、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念の数を決定することと、ランク付けされたタームリストのタームごとに対応する概念の数を正規化することとを含む。
例18は、例14から例17のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算することは、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念のタイプの数を決定することと、ランク付けされたタームリストのタームごとに対応する概念のタイプの数を正規化することとを含む。
例19は、コンテンツの自動発見のための方法を含み、方法は、
コンピューティングデバイスが、自動キーフレーズ抽出アルゴリズムにより決定されるキータームと関連付けられる重要度値に基づき文書からキータームを抽出する工程であって、文書は、コンピューティングデバイスのユーザにより選択される文書を有する、工程と、
コンピューティングデバイスが、1または複数の検索結果を生成すべく、キータームに基づきコンテンツの自動検索を実行する工程と、
コンピューティングデバイスが、ユーザに1または複数の検索結果を提示する工程と
を含む。
例20は、例19の主題を含み、キーフレーズ抽出アルゴリズムは、TextRankアルゴリズムまたは名前付きエンティティ認識アルゴリズムを有する。
例21は、例19および例20のいずれかの主題を含み、文書からキータームを抽出する工程は、ランク付けされたタームリストを生成すべく、自動キーフレーズ抽出アルゴリズムを用いて文書の複数のタームをランク付けする工程と、ランク付けされたタームリストからキータームを選択する工程とを有する。
例22は、例19から例21のいずれかの主題を含み、コンピューティングデバイスが、文書の文脈部分を決定する工程であって、文書の文脈部分は、現在ユーザによりアクセス可能である、工程をさらに備え、文書からキータームを抽出する工程は、文書の文脈部分からキータームを抽出する工程を有する。
例23は、例19から例22のいずれかの主題を含み、文書の文脈部分を決定する工程は、コンピューティングデバイスのアプリケーションビューポートにおいて可視な文書の部分を特定する工程を含む。
例24は、例19から例23のいずれかの主題を含み、文書の文脈部分を決定する工程は、ユーザにより最近アクセスされた文書の部分を特定する工程を含む。
例25は、例19から例24のいずれかの主題を含み、コンピューティングデバイスが、1または複数の検索結果の各々を文書の文脈部分の対応するキータームと関連付ける工程をさらに含む。
例26は、例19から例25のいずれかの主題を含み、1または複数の検索結果の各々を対応するキータームと関連付ける工程は、対応する検索結果のユーザ選択に応じて文書の文脈部分の対応するキータームを視覚的に強調する工程を含む。
例27は、例19から例26のいずれかの主題を含み、文書からキータームを抽出する工程は、ランク付けされたタームリストを生成すべく、自動キーフレーズ抽出アルゴリズムを用いて文書の複数のタームをランク付けする工程と、意味データベースのクエリによりランク付けされたタームリストのタームごとに曖昧さスコアを計算する工程と、調整され、ランク付けされたタームリストを生成すべくランク付けされたタームリストのタームごとの対応する曖昧さスコアに基づきランク付けされたタームリストを再ランク付けする工程と、調整され、ランク付けされたタームリストからキータームを選択する工程とを有する。
例28は、例19から例27のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算する工程は、意味データベースの任意の概念が対応するタームを含むかどうかを決定する工程を有する。
例29は、例19から例28のいずれかの主題を含み、意味データベースの任意の概念がタームを含むかどうかを決定する工程は、百科事典の任意の記事または記事ラベルがタームを含むかどうかを決定すべく、百科事典のオントロジ的マッピングをクエリする工程を含む。
例30は、例19から例29のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算する工程は、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念の数を決定する工程と、ランク付けされたタームリストのタームごとに対応する概念の数を正規化する工程とを含む。
例31は、例19から例30のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算する工程は、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念のタイプの数を決定する工程と、ランク付けされたタームリストのタームごとに対応する概念のタイプの数を正規化する工程とを含む。
例32は、キーフレーズ抽出のための方法を含み、方法は、
コンピューティングデバイスが、自動キーフレーズ抽出アルゴリズムにより決定される文書の複数のタームの各々と関連付けられる対応する重要度値に基づきランク付けされたタームリストを生成すべく、複数のタームをランク付けする工程と、
コンピューティングデバイスが、意味データベースをクエリすることによりランク付けされたタームリストのタームごとに曖昧さスコアを計算する工程と、
コンピューティングデバイスが、調整され、ランク付けされたタームリストを生成すべくランク付けされたタームリストのタームごとの対応する曖昧さスコアに基づきランク付けされたタームリストを再ランク付けする工程と、
コンピューティングデバイスが、調整され、ランク付けされたタームリストからキータームを選択する工程と
を含む。
例33は、例32の主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算する工程は、意味データベースの任意の概念がタームを含むかどうかを決定する工程を有する。
例34は、例32および例33のいずれかの主題を含み、意味データベースの任意の概念がタームを含むかどうかを決定する工程は、百科事典の任意の記事または記事ラベルが対応するタームを含むかどうかを決定すべく、百科事典のオントロジ的マッピングをクエリする工程を含む。
例35は、例32から例34のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算する工程は、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念の数を決定する工程と、ランク付けされたタームリストのタームごとに対応する概念の数を正規化することとを含む。
例36は、例32から例35いずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算する工程は、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念のタイプの数を決定する工程と、ランク付けされたタームリストのタームごとに対応する概念のタイプの数を正規化する工程とを含む。
例37はコンピューティングデバイスを含み、コンピューティングデバイスは、プロセッサと、プロセッサによって実行された場合、コンピューティングデバイスに例19から例36のいずれかの方法を実行させる複数の命令をその中に格納したメモリとを備える。
例38は、実行されたことに応答して、コンピューティングデバイスが例19から36のいずれかに記載の方法を実行することになる、格納された複数の命令を備える1または複数の機械可読ストレージ媒体を含む。
例39は例19から例36のいずれかの方法を実行するための手段を備えるコンピューティングデバイスを含む。
例40は、コンテンツの自動発見のためのコンピューティングデバイスを含み、コンピューティングデバイスは、
自動キーフレーズ抽出アルゴリズムにより決定されるキータームと関連付けられる重要度値に基づき文書からキータームを抽出するための手段であって、文書は、コンピューティングデバイスのユーザにより選択される文書を有する、手段と、
1または複数の検索結果を生成すべく、キータームに基づきコンテンツの自動検索を実行するための手段と、
ユーザに1または複数の検索結果を提示するための手段と
を備える。
例41は、例40の主題を含み、キーフレーズ抽出アルゴリズムは、TextRankアルゴリズムまたは名前付きエンティティ認識アルゴリズムを有する。
例42は、例40および例41のいずれかの主題を含み、文書からキータームを抽出するための手段は、ランク付けされたタームリストを生成すべく、自動キーフレーズ抽出アルゴリズムを用いて文書の複数のタームをランク付けするための手段と、ランク付けされたタームリストからキータームを選択するための手段とを有する。
例43は、例40から例42のいずれかの主題を含み、文書の文脈部分を決定するための手段であって、文書の文脈部分は、現在ユーザによりアクセス可能である、手段をさらに備え、文書からキータームを抽出するための手段は、文書の文脈部分からキータームを抽出するための手段を有する。
例44は、例40から例43のいずれかの主題を含み、文書の文脈部分を決定するための手段は、コンピューティングデバイスのアプリケーションビューポートにおいて可視の文書の部分を特定するための手段を含む。
例45は、例40から例44のいずれかの主題を含み、文書の文脈部分を決定するための手段は、ユーザにより最近アクセスされた文書の部分を特定するための手段を含む。
例46は、例40から例45のいずれかの主題を含み、1または複数の検索結果の各々を文書の文脈部分の対応するキータームと関連付けるための手段をさらに含む。
例47は、例40から例46のいずれかの主題を含み、1または複数の検索結果の各々を対応するキータームと関連付けるための手段は、対応する検索結果のユーザ選択に応じて文書の文脈部分の対応するキータームを視覚的に強調するための手段を含む。
例48は、例40から例47のいずれかの主題を含み、文書からキータームを抽出するための手段は、ランク付けされたタームリストを生成すべく、自動キーフレーズ抽出アルゴリズムを用いて文書の複数のタームをランク付けするための手段と、意味データベースのクエリによりランク付けされたタームリストのタームごとに曖昧さスコアを計算するための手段と、調整され、ランク付けされたタームリストを生成すべくランク付けされたタームリストのタームごとの対応する曖昧さスコアに基づきランク付けされたタームリストを再ランク付けするための手段と、調整され、ランク付けされたタームリストからキータームを選択するための手段とを有する。
例49は、例40から例48のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算するための手段は、意味データベースの任意の概念が対応するタームを含むかどうかを決定するための手段を有する。
例50は、例40から例49のいずれかの主題を含み、意味データベースの任意の概念がタームを含むかどうかを決定するための手段は、百科事典の任意の記事または記事ラベルがタームを含むかどうかを決定すべく、百科事典のオントロジ的マッピングをクエリするための手段を含む。
例51は、例40から例50のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算するための手段は、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念の数を決定するための手段と、ランク付けされたタームリストのタームごとに対応する概念の数を正規化するための手段とを含む。
例52は、例40から例51のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算するための手段は、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念のタイプの数を決定するための手段と、ランク付けされたタームリストのタームごとに対応する概念のタイプの数を正規化するための手段とを含む。
例53は、キーフレーズ抽出のためのコンピューティングデバイスを含み、コンピューティングデバイスは、
自動キーフレーズ抽出アルゴリズムにより決定される複数のタームの各々と関連付けられる対応する重要度値に基づきランク付けされたタームリストを生成すべく、文書の複数のタームをランク付けするための手段と、
意味データベースをクエリすることによりランク付けされたタームリストのタームごとに曖昧さスコアを計算するための手段と、
調整され、ランク付けされたタームリストを生成すべくランク付けされたタームリストのタームごとの対応する曖昧さスコアに基づきランク付けされたタームリストを再ランク付けするための手段と、
調整され、ランク付けされたタームリストからキータームを選択するための手段と
を含む。
例54は、例53の主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算するための手段は、意味データベースの任意の概念が対応するタームを含むかどうかを決定するための手段を有する。
例55は、例53および例54のいずれかの主題を含み、意味データベースの任意の概念がタームを含むかどうかを決定するための手段は、百科事典の任意の記事または記事ラベルが対応するタームを含むかどうかを決定すべく、百科事典のオントロジ的マッピングをクエリするための手段を含む。
例56は、例53から例55のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算するための手段は、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念の数を決定するための手段と、ランク付けされたタームリストのタームごとに対応する概念の数を正規化するための手段とを含む。
例57は、例53から例56のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算するための手段は、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念のタイプの数を決定するための手段と、ランク付けされたタームリストのタームごとに対応する概念のタイプの数を正規化するための手段とを含む。

Claims (25)

  1. コンテンツの自動発見のためのコンピューティングデバイスであって、
    自動のキーターム抽出アルゴリズムにより決定されるキータームと関連付けられる重要度値に基づき文書から前記キータームを抽出するキーターム抽出モジュールであって、前記文書は、前記コンピューティングデバイスのユーザにより選択される文書を有する、キーターム抽出モジュールと、
    1または複数の検索結果を生成すべく、前記キータームに基づきコンテンツの自動検索を実行するコンテンツ検索モジュールと、
    前記ユーザに前記1または複数の検索結果を提示するユーザインタフェースモジュールと
    を備え
    前記ユーザインタフェースモジュールは、前記1または複数の検索結果のユーザ選択に応じて前記文書の文脈部分の対応するキータームを視覚的に強調するコンピューティングデバイス。
  2. コンテンツの自動発見のためのコンピューティングデバイスであって、
    自動のキーターム抽出アルゴリズムにより決定されるキータームと関連付けられる重要度値に基づき文書から前記キータームを抽出するキーターム抽出モジュールであって、前記文書は、前記コンピューティングデバイスのユーザにより選択される文書を有する、キーターム抽出モジュールと、
    1または複数の検索結果を生成すべく、前記キータームに基づきコンテンツの自動検索を実行するコンテンツ検索モジュールと、
    前記ユーザに前記1または複数の検索結果を提示するユーザインタフェースモジュールと
    を備え
    前記文書から前記キータームを抽出することは、ランク付けされたタームリストを生成すべく、前記自動のキーターム抽出アルゴリズムを用いて前記文書の複数のタームをランク付けすることを有し、
    前記コンピューティングデバイスはさらに、
    意味データベースのクエリにより前記ランク付けされたタームリストのタームごとに曖昧さスコアを計算し、
    調整され、ランク付けされたタームリストを生成すべく前記ランク付けされたタームリストのタームごとの対応する前記曖昧さスコアに基づき前記ランク付けされたタームリストを再ランク付けし、
    前記調整され、ランク付けされたタームリストから前記キータームを選択する
    曖昧さランク付けモジュールを有するコンピューティングデバイス。
  3. 前記キーターム抽出アルゴリズムは、TextRankアルゴリズムまたは固有表現認識アルゴリズムを有する、
    請求項1または2に記載のコンピューティングデバイス。
  4. 前記文書の文脈部分を決定する文書文脈モジュールであって、前記文書の前記文脈部分は、前記ユーザにより現在アクセス可能である、文書文脈モジュールをさらに備え、
    前記文書から前記キータームを抽出することは、前記文書の前記文脈部分から前記キータームを抽出することを含む、
    請求項1から3のいずれか一項に記載のコンピューティングデバイス。
  5. 前記文書の前記文脈部分を決定することは、前記コンピューティングデバイスのアプリケーションビューポートにおいて可視の前記文書の部分を特定することを含む、
    請求項に記載のコンピューティングデバイス。
  6. 前記文書の前記文脈部分を決定することは、前記ユーザにより最近アクセスされた前記文書の部分を特定することを含む、
    請求項に記載のコンピューティングデバイス。
  7. 前記ユーザインタフェースモジュールはさらに、前記1または複数の検索結果の各々を前記文書の文脈部分の対応するキータームと関連付ける、
    請求項1から6のいずれか一項に記載のコンピューティングデバイス。
  8. キーターム抽出のためのコンピューティングデバイスであって、
    自動のキーターム抽出アルゴリズムにより決定され複数のタームの各々と関連付けられる対応する重要度値に基づき文書から複数のキータームを抽出してランク付けし、ランク付けされたタームリストを生成するキーターム抽出モジュールと、
    意味データベースのクエリにより前記ランク付けされたタームリストのタームごとに曖昧さスコアを計算し、
    調整され、ランク付けされたタームリストを生成すべく前記ランク付けされたタームリストのタームごとの対応する曖昧さスコアに基づき前記ランク付けされたタームリストを再ランク付けし、
    前記調整され、ランク付けされたタームリストからキータームを選択する
    曖昧さランク付けモジュールと
    を備えるコンピューティングデバイス。
  9. 前記ランク付けされたタームリストのタームごとに前記曖昧さスコアを計算することは、前記意味データベースの任意の概念が前記対応するタームを含むかどうかを決定することを有する、
    請求項に記載のコンピューティングデバイス。
  10. 前記意味データベースの任意の概念が前記タームを含むかどうかを決定することは、百科事典の任意の記事または記事ラベルが前記タームを含むかどうかを決定すべく、前記百科事典のオントロジ的マッピングをクエリすることを含む、
    請求項に記載のコンピューティングデバイス。
  11. 前記ランク付けされたタームリストのタームごとに前記曖昧さスコアを計算することは、
    前記ランク付けされたタームリストの各タームを含む前記意味データベースの対応する概念の数を決定することと、
    前記ランク付けされたタームリストのタームごとに対応する概念の数を正規化することと
    を含む、
    請求項から1のいずれか一項に記載のコンピューティングデバイス。
  12. 前記ランク付けされたタームリストのタームごとに前記曖昧さスコアを計算することは、
    前記ランク付けされたタームリストの各タームを含む前記意味データベースの対応する概念のタイプの数を決定することと、
    前記ランク付けされたタームリストのタームごとに対応する概念のタイプの数を正規化することと
    を含む、
    請求項から1のいずれか一項に記載のコンピューティングデバイス。
  13. コンテンツの自動発見のための方法であって、
    コンピューティングデバイスが、自動のキーターム抽出アルゴリズムにより決定されるキータームと関連付けられる重要度値に基づき文書から前記キータームを抽出する段階であって、前記文書は、前記コンピューティングデバイスのユーザにより選択される文書を有する、段階と、
    前記コンピューティングデバイスが、1または複数の検索結果を生成すべく、前記キータームに基づきコンテンツの自動検索を実行する段階と、
    前記コンピューティングデバイスが、前記ユーザに前記1または複数の検索結果を提示する段階と
    を備え
    前記提示する段階は、前記1または複数の検索結果のユーザ選択に応じて前記文書の文脈部分の対応するキータームを視覚的に強調することを含む方法。
  14. コンテンツの自動発見のための方法であって、
    コンピューティングデバイスが、自動のキーターム抽出アルゴリズムにより決定されるキータームと関連付けられる重要度値に基づき文書から前記キータームを抽出する段階であって、前記文書は、前記コンピューティングデバイスのユーザにより選択される文書を有する、段階と、
    前記コンピューティングデバイスが、1または複数の検索結果を生成すべく、前記キータームに基づきコンテンツの自動検索を実行する段階と、
    前記コンピューティングデバイスが、前記ユーザに前記1または複数の検索結果を提示する段階と
    を備え
    前記文書から前記キータームを抽出する段階は、
    ランク付けされたタームリストを生成すべく、前記自動のキーターム抽出アルゴリズムを用いて前記文書の複数のタームをランク付けする段階と、
    意味データベースをクエリすることにより前記ランク付けされたタームリストのタームごとに曖昧さスコアを計算する段階と、
    調整され、ランク付けされたタームリストを生成すべく前記ランク付けされたタームリストのタームごとの対応する曖昧さスコアに基づき前記ランク付けされたタームリストを再ランク付けする段階と、
    前記調整され、ランク付けされたタームリストから前記キータームを選択する段階と
    を有する方法。
  15. コンピューティングデバイスが、前記文書の文脈部分を決定する段階であって、前記文書の前記文脈部分は、前記ユーザにより現在アクセス可能である、段階をさらに備え、
    前記文書から前記キータームを抽出する段階は、前記文書の前記文脈部分から前記キータームを抽出する段階を有する、
    請求項13または14に記載の方法。
  16. 前記文書の前記文脈部分を決定する段階は、前記コンピューティングデバイスのアプリケーションビューポートにおいて可視な前記文書の部分を特定する段階を含む、
    請求項15に記載の方法。
  17. 前記コンピューティングデバイスが、前記1または複数の検索結果の各々を前記文書の文脈部分の対応するキータームと関連付ける段階をさらに備える、
    請求項13または14に記載の方法。
  18. キーターム抽出のための方法であって、
    コンピューティングデバイスが、自動のキーターム抽出アルゴリズムにより決定され複数のタームの各々と関連付けられる対応する重要度値に基づき文書から複数のキータームを抽出してランク付けし、ランク付けされたタームリストを生成する段階と、
    前記コンピューティングデバイスが、意味データベースをクエリすることにより前記ランク付けされたタームリストのタームごとに曖昧さスコアを計算する段階と、
    前記コンピューティングデバイスが、調整され、ランク付けされたタームリストを生成すべく前記ランク付けされたタームリストのタームごとの対応する曖昧さスコアに基づき前記ランク付けされたタームリストを再ランク付けする段階と、
    前記コンピューティングデバイスが、前記調整され、ランク付けされたタームリストからキータームを選択する段階と
    を備える方法。
  19. 前記ランク付けされたタームリストのタームごとに前記曖昧さスコアを計算する段階は、前記意味データベースの任意の概念が前記タームを含むかどうかを決定する段階を有する、
    請求項1に記載の方法。
  20. 前記ランク付けされたタームリストのタームごとに前記曖昧さスコアを計算する段階は、
    前記ランク付けされたタームリストの各タームを含む前記意味データベースの対応する概念の数を決定する段階と、
    前記ランク付けされたタームリストのタームごとに対応する概念の数を正規化する段階と
    を有する請求項1に記載の方法。
  21. 前記ランク付けされたタームリストのタームごとに前記曖昧さスコアを計算する段階は、
    前記ランク付けされたタームリストの各タームを含む前記意味データベースの対応する概念のタイプの数を決定する段階と、
    前記ランク付けされたタームリストのタームごとに前記対応する概念のタイプの数を正規化する段階と
    を有する請求項1に記載の方法。
  22. コンピューティングデバイスであって、
    プロセッサと、
    前記プロセッサによって実行された場合、前記コンピューティングデバイスに請求項1から2のいずれか一項に記載の方法を実行させる複数の命令をその中に格納したメモリと
    を備えるコンピューティングデバイス。
  23. コンピュータに、請求項1から2のいずれか一項に記載の方法を実行させるためのプログラム。
  24. 請求項1から2のいずれか一項に記載の方法を実行する手段を備えるコンピューティングデバイス。
  25. 請求項2に記載のプログラムを格納する、コンピュータ可読ストレージ媒体。
JP2017553079A 2015-05-29 2016-04-29 コンテンツの動的な自動発見のための技術 Active JP6750780B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/725,290 US10592541B2 (en) 2015-05-29 2015-05-29 Technologies for dynamic automated content discovery
US14/725,290 2015-05-29
PCT/US2016/030053 WO2016195871A1 (en) 2015-05-29 2016-04-29 Technologies for dynamic automated content discovery

Publications (2)

Publication Number Publication Date
JP2018519561A JP2018519561A (ja) 2018-07-19
JP6750780B2 true JP6750780B2 (ja) 2020-09-02

Family

ID=57398746

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017553079A Active JP6750780B2 (ja) 2015-05-29 2016-04-29 コンテンツの動的な自動発見のための技術

Country Status (5)

Country Link
US (1) US10592541B2 (ja)
EP (1) EP3304355A4 (ja)
JP (1) JP6750780B2 (ja)
CN (1) CN107533563B (ja)
WO (1) WO2016195871A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10984043B2 (en) 2015-10-02 2021-04-20 Oracle International Corporation Method for faceted visualization of a SPARQL query result set
US20170116180A1 (en) * 2015-10-23 2017-04-27 J. Edward Varallo Document analysis system
US10691893B2 (en) * 2016-02-29 2020-06-23 International Business Machines Corporation Interest highlight and recommendation based on interaction in long text reading
CN107766419B (zh) * 2017-09-08 2021-08-31 广州汪汪信息技术有限公司 一种基于阈值去噪的TextRank文档摘要方法及装置
US10198436B1 (en) * 2017-11-17 2019-02-05 Adobe Inc. Highlighting key portions of text within a document
WO2020131004A1 (en) * 2017-12-29 2020-06-25 Nokia Technologies Oy Domain-independent automated processing of free-form text
CN110619117B (zh) * 2018-06-19 2024-03-19 阿里巴巴(中国)有限公司 关键词提取方法和装置
CN110659402A (zh) * 2018-06-29 2020-01-07 微软技术许可有限责任公司 在应用中自动提供信息
US11281896B2 (en) * 2018-11-15 2022-03-22 Smith & Nephew, Inc. Physical activity quantification and monitoring
CN112000257A (zh) * 2019-05-27 2020-11-27 珠海金山办公软件有限公司 一种文档重点内容的导出方法及装置
CN110378704B (zh) * 2019-07-23 2021-10-22 珠海格力电器股份有限公司 基于模糊识别的意见反馈的方法、存储介质和终端设备
CN110990676A (zh) * 2019-11-28 2020-04-10 福建亿榕信息技术有限公司 一种社交媒体热点主题提取方法与系统
CN111125297B (zh) * 2019-11-29 2022-11-25 中国电子科技集团公司第二十八研究所 一种基于搜索引擎的海量离线文本实时推荐方法
CN111190947B (zh) * 2019-12-26 2024-02-23 航天信息股份有限公司企业服务分公司 一种基于反馈的有序分级排序方法
US11410186B2 (en) * 2020-05-14 2022-08-09 Sap Se Automated support for interpretation of terms
JPWO2021255843A1 (ja) * 2020-06-16 2021-12-23
US10878174B1 (en) * 2020-06-24 2020-12-29 Starmind Ag Advanced text tagging using key phrase extraction and key phrase generation
CN112036190B (zh) * 2020-09-03 2024-04-16 中国银行股份有限公司 资讯画像构建方法及装置
CN112819512B (zh) * 2021-01-22 2023-03-24 北京有竹居网络技术有限公司 一种文本处理方法、装置、设备及介质
CN112783918A (zh) * 2021-03-15 2021-05-11 北京百度网讯科技有限公司 搜索方法、搜索装置、电子设备、存储介质和程序产品
CN113204579B (zh) * 2021-04-29 2024-06-07 北京金山数字娱乐科技有限公司 内容关联方法、系统、装置、电子设备及存储介质
US11379763B1 (en) 2021-08-10 2022-07-05 Starmind Ag Ontology-based technology platform for mapping and filtering skills, job titles, and expertise topics
CN115269851B (zh) * 2022-08-04 2024-04-16 腾讯科技(深圳)有限公司 文章分类方法、装置、电子设备、存储介质及程序产品
CN118467679A (zh) * 2024-05-31 2024-08-09 湖南环境生物职业技术学院 一种文本大数据的查询系统及方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7620628B2 (en) * 2004-12-06 2009-11-17 Yahoo! Inc. Search processing with automatic categorization of queries
US7873640B2 (en) * 2007-03-27 2011-01-18 Adobe Systems Incorporated Semantic analysis documents to rank terms
US8478756B2 (en) * 2007-07-18 2013-07-02 Sap Ag Contextual document attribute values
CA2702937C (en) 2007-10-17 2014-10-07 Neil S. Roseman Nlp-based content recommender
US9904681B2 (en) * 2009-01-12 2018-02-27 Sri International Method and apparatus for assembling a set of documents related to a triggering item
US8768960B2 (en) * 2009-01-20 2014-07-01 Microsoft Corporation Enhancing keyword advertising using online encyclopedia semantics
JP2011076566A (ja) * 2009-10-02 2011-04-14 Sharp Corp 情報処理装置、端末装置、サーバ装置、通信システム、表示制御方法、プログラム、およびコンピュータ読取り可能な記録媒体
US20110179026A1 (en) 2010-01-21 2011-07-21 Erik Van Mulligen Related Concept Selection Using Semantic and Contextual Relationships
CN102314448B (zh) * 2010-07-06 2013-12-04 株式会社理光 一种在文档中获得一个或多个关键元素的设备和方法
US8914398B2 (en) 2011-08-31 2014-12-16 Adobe Systems Incorporated Methods and apparatus for automated keyword refinement
US9552352B2 (en) * 2011-11-10 2017-01-24 Microsoft Technology Licensing, Llc Enrichment of named entities in documents via contextual attribute ranking
US10175844B2 (en) * 2012-08-24 2019-01-08 Ricky Steven Pionkowski Interface environment for capturing and storing information in a document
US20140280050A1 (en) 2013-03-14 2014-09-18 Fujitsu Limited Term searching based on context
KR101541306B1 (ko) * 2013-11-11 2015-08-04 주식회사 엘지씨엔에스 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
US9754034B2 (en) * 2013-11-27 2017-09-05 Microsoft Technology Licensing, Llc Contextual information lookup and navigation
CN103793373B (zh) * 2014-01-23 2017-02-01 福建工程学院 一种基于句法的跟踪关系恢复方法
US20150277715A1 (en) * 2014-04-01 2015-10-01 Microsoft Corporation Content display with contextual zoom focus
US20150356174A1 (en) * 2014-06-06 2015-12-10 Wipro Limited System and methods for capturing and analyzing documents to identify ideas in the documents

Also Published As

Publication number Publication date
CN107533563B (zh) 2022-03-11
CN107533563A (zh) 2018-01-02
US10592541B2 (en) 2020-03-17
EP3304355A1 (en) 2018-04-11
EP3304355A4 (en) 2018-11-07
US20160350404A1 (en) 2016-12-01
JP2018519561A (ja) 2018-07-19
WO2016195871A1 (en) 2016-12-08

Similar Documents

Publication Publication Date Title
JP6750780B2 (ja) コンテンツの動的な自動発見のための技術
US10699080B2 (en) Capturing rich response relationships with small-data neural networks
US10025819B2 (en) Generating a query statement based on unstructured input
US20240104104A1 (en) Contextual search on multimedia content
US9448995B2 (en) Method and device for performing natural language searches
US10552467B2 (en) System and method for language sensitive contextual searching
US9632999B2 (en) Techniques for understanding the aboutness of text based on semantic analysis
US20230273923A1 (en) Generating and/or utilizing a machine learning model in response to a search request
US10698956B2 (en) Active knowledge guidance based on deep document analysis
US20180032900A1 (en) Greedy Active Learning for Reducing Labeled Data Imbalances
US9342233B1 (en) Dynamic dictionary based on context
US20120290561A1 (en) Information processing apparatus, information processing method, program, and information processing system
US20130246392A1 (en) Conversational System and Method of Searching for Information
EP3513328A1 (en) Method and apparatus for ranking electronic information by similarity association
WO2021061231A1 (en) Semantic parsing of natural language query
JP2015511746A5 (ja)
JP2021136027A (ja) 文書のテーマ・カバレッジの分析
WO2013108157A1 (en) Grouping search results into a profile page
US20230282018A1 (en) Generating weighted contextual themes to guide unsupervised keyphrase relevance models
JP7369228B2 (ja) ユーザ興味画像の生成方法、装置、電子機器及び記憶媒体
JP2012074087A (ja) 文書検索システム、文書検索プログラム、および文書検索方法
JP7341090B2 (ja) 文献検索システム及び方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180104

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190405

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200714

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200729

R150 Certificate of patent or registration of utility model

Ref document number: 6750780

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250