JP2018519561A

JP2018519561A - コンテンツの動的な自動発見のための技術

Info

Publication number: JP2018519561A
Application number: JP2017553079A
Authority: JP
Inventors: スミス、エリオット; ウォーターマン、マクス; マノロヴァ、プラメナ; クレット、カロリナ; マッシー、ミカエル; バーソード、アロック
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2015-05-29
Filing date: 2016-04-29
Publication date: 2018-07-19
Anticipated expiration: 2036-04-29
Also published as: EP3304355A1; US20160350404A1; CN107533563A; JP6750780B2; WO2016195871A1; US10592541B2; EP3304355A4; CN107533563B

Abstract

コンテンツの動的な自動発見のための技術は、自動キーフレーズ抽出アルゴリズムを用いてユーザにより選択される文書の文脈部分を決定し、文書の文脈部分から１または複数のキータームを抽出するコンピューティングデバイスを含む。コンピューティングデバイスは、統語的アルゴリズム、名前付きエンティティ認識またはＴｅｘｔＲａｎｋアルゴリズムを実行し得る。コンピューティングデバイスは、ターム意味データベースをクエリすることにより文書のタームに対する曖昧さスコアを計算し得、対応する曖昧さスコアに基づきキータームを選択し得る。コンピューティングデバイスは、１または複数の検索結果の生成すべくキータームに基づきコンテンツ検索を実行し、ユーザに検索結果を提示する。コンピューティングデバイスは、例えば、キータームを視覚的に強調することにより、検索結果の各々を文書の文脈部分の対応するキータームと関連付け得る。他の実施形態が、説明および請求される。

Description

［関連出願の相互参照］
本願は、２０１５年５月２９日に出願された「コンテンツの動的な自動発見のための技術」と題する米国特許出願第１４／７２５，２９０号に基づく優先権を主張する。

コンテンツ発見は、多くのコンピューティングデバイスに対する一般的なユーザタスクである。例えば、ユーザが研究を実行している、または文書をドラフトしている場合、ユーザは、外部のウェブサイトまたは他のコンテンツソースから関連情報を参照したいことがある。典型的なシステムにおいて、ユーザは手動で、検索エンジンに１または複数の検索タームを提供し、次に検索結果を評価する。典型的には、ユーザはまた、関連する文書コンテンツと検索結果を手動で同期する、あるいは関連付けなければならない。さらに、多くのワード処理システムは、検索機能を含まず、従って、ユーザは通常、ウェブブラウザなどの外部アプリケーションを使用する。

キーフレーズ抽出は、テキストをそのテキストの最も重要な部分を表す短いフレーズ、文、他の単語シーケンスに低減するために使用されるプロセスである。典型的なキーフレーズ抽出アルゴリズムは、キーフレーズのリストを作り出すべく、テキストを統語的に分析する。例えば、キーフレーズ抽出アルゴリズムは、入力テキストをトークン化し得、品詞をトークンに割り当て、割り当てられた品詞タグの部分を用いてキーフレーズにトークンを組み合わせる。名前付きエンティティ認識（ＮＥＲ）アルゴリズムは、既知の名詞句の辞書においてエントリに合致するキーフレーズを追加の重みを割り当て得る。ＴｅｘｔＲａｎｋアルゴリズムは、キーフレーズを抽出すべく、入力テキストに基づくグラフを構成および分析する。

本明細書で説明される概念は、例として示されるものであり、添付の図において限定として示されるものではない。説明を簡潔かつ明確にするために、図に示した要素は必ずしも縮尺通りに描かれていない。適切であると見なされる場合、対応する、または、類似の要素を示すべく、参照ラベルが図面の間で繰り返し使用されている。

コンテンツの動的な自動発見のためのシステムの少なくとも１つの実施形態の簡略化されたブロック図である。

図１のコンピューティングデバイスにより確立され得る環境の少なくとも１つの実施形態の簡略化されたブロック図である。

図１および図２のコンピューティングデバイスにより実行され得るコンテンツの動的な自動発見のための方法の少なくとも１つの実施形態の簡略化されたフロー図である。

図１および図２のコンピューティングデバイスにより確立され得るユーザインターフェースを示す概略図である。

図１および図２のコンピューティングデバイスにより実行され得るキーターム抽出のための方法の少なくとも１つの実施形態の簡略化されたフロー図である。

図１および図２のコンピューティングデバイスにより実行され得る意味データベースクエリを示す疑似コードである。

本開示の概念は、様々な修正および代替的な形態の対象たり得るが、それらの具体的な実施形態は、図面において例として示され、本明細書において詳細に説明されるであろう。しかしながら、開示される特定の形態に本開示の概念を限定する意図はなく、それどころか、当該意図は、本開示および添付の特許請求の範囲と一貫性のあるすべての修正、等価物、および代替物を網羅するものであると理解されるべきである。

本明細書における「１つの実施形態」、「実施形態」、「例示的な実施形態」などの言及は、説明される実施形態が特定の特徴、構造、または特性を含んでよいことを示すが、全ての実施形態は、当該特定の特徴、構造、または特性を含んでいても、または、必ずしも含んでいなくてもよい。さらに、そのような文言が必ずしも同一の実施形態を指しているわけではない。さらに、特定の特徴、構造、または特性が、ある実施形態と関連して説明される場合、明示的に説明されているか否かに関わらず、そのような特徴、構造、または特性を他の実施形態と関連して達成することは、当業者の知識の範囲内にあるとされる。さらに、「Ａ、Ｂ、およびＣのうち少なくとも１つ」という形態のリストに含まれるアイテムは、（Ａ）、（Ｂ）、（Ｃ）、（ＡおよびＢ）、（ＡおよびＣ）、（ＢおよびＣ）、または（Ａ，Ｂ，およびＣ）を意味し得ることが理解されるべきである。同様に、「Ａ、ＢまたはＣのうち少なくとも１つ」という形態のリストに含まれる複数のアイテムは、（Ａ）、（Ｂ）、（Ｃ）、（ＡおよびＢ）、（ＡおよびＣ）、（ＢおよびＣ）、または、（Ａ、ＢおよびＣ）を意味し得る。

開示される実施形態は、いくつかの場合、ハードウェア、ファームウェア、ソフトウェア、または、それらの任意の組み合わせに実装され得る。開示される実施形態は、１または複数のプロセッサにより読み取られ実行され得る、１または複数の一時的または非一時的機械可読（例えば、コンピュータ可読）ストレージ媒体上により伝達される、またはそれらに格納された命令としても実装され得る。機械可読ストレージ媒体は、機械によって読み込み可能な形式で情報を格納または送信するための、任意のストレージデバイス、機構、または、他の物理的構造（例えば、揮発性メモリ、不揮発性メモリ、メディアディスク、または、他の媒体デバイス）として具現化され得る。

図面において、いくつかの構造的または方法的な特徴は、特定の配置および／または順序で示され得る。しかしながら、そのような特定の配置および／または順序が必要とされないことがあることを理解されるべきである。むしろ、いくつかの実施形態において、そのような特徴は、例示的な図に示されるものと異なる態様および／または順序で構成され得る。さらに、構造的または方法的な特徴を特定の図に含めることは、そのような特徴が全ての実施形態において必要とされるものであることを示唆する意図はなく、いくつかの実施形態において、それらは含まれていなくてよく、または、他の特徴と組み合わされてよい。

ここで、図１を参照すると、例示的な実施形態において、コンテンツの動的な自動発見のためのシステム１００は、ネットワーク１１２上で通信するコンピューティングデバイス１０２、検索エンジン１０４および知識ベースサーバ１０８を含む。使用中、以下により詳細に説明されるように、コンピューティングデバイス１０２は、例えば、ウェブブラウザ、ワードプロセッサまたは他の生産性アプリケーション内でユーザにより選択される文書を表示する。コンピューティングデバイス１０２は、ユーザの文脈に基づき文書の文脈部分を特定し、文書の文脈部分から１または複数のキータームを抽出する。コンピューティングデバイス１０２は、知識ベースサーバ１０８により保持され得る意味データベース１１０をクエリすることにより計算される曖昧さスコアを用いてキータームを抽出し得る。コンピューティングデバイス１０２は、例えば、検索エンジン１０４にキータームを提出することにより、キータームを用いて１または複数のコンテンツ検索を実行する。コンピューティングデバイス１０２は、ユーザに検索結果を提示し、各々の検索結果を文書における対応するキータームと（例えば、視覚強調表示を用いて）インタラクティブに関連付け得る。従って、システム１００は、ユーザの現在の文脈に動的に調整させるコンテンツの自動検索を提供する。従って、ユーザは、文脈的に関連する検索結果がユーザの文書との主なインタラクションに割り込むことなく、自動的に提供され得、それらの検索結果は、文書コンテンツへの変更と共に動的に更新し得る。さらに、意味データベース上の自動推論に基づく曖昧さスコアを用いてキータームを抽出することにより、システム１００は、統語的キーフレーズ抽出アルゴリズムまたは辞書参照を単独で用いてキータームを抽出することによってより良好で、より関連した結果を提供し得る。

コンピューティングデバイス１０２は、限定されないが、コンピュータ、デスクトップコンピュータ、ワークステーション、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、モバイルコンピューティングデバイス、ウェアラブルコンピューティングデバイス、ネットワーク機器、ウェブ機器、分散コンピューティングシステム、プロセッサベースシステム、および／または民生用電子機器を含む、本明細書で説明される機能を実行することが可能な任意のタイプの計算またはコンピュータデバイスとして具現化され得る。図１に示されるように、コンピューティングデバイス１０２は、プロセッサ１２０、入力／出力サブシステム１２２、メモリ１２４、データストレージデバイス１２６および通信回路１２８を例示的に含む。もちろん、コンピューティングデバイス１０２は、他の実施形態において、例えば、デスクトップコンピュータに一般的に見られるもの（例えば、様々な入力／出力デバイス）のような、他のまたは追加のコンポーネントを含み得る。さらに、いくつかの実施形態において、例示的なコンポーネントの１または複数は、別のコンポーネント内に組み込まれてよく、あるいは、別のコンポーネントの一部を形成してよい。例えば、いくつかの実施形態において、メモリ１２４またはその一部は、プロセッサ１２０に組み込まれてよい。

プロセッサ１２０は、本明細書において説明される機能を実行可能な任意のタイプのプロセッサとして具現化されてよい。プロセッサ１２０は、シングルまたはマルチコアプロセッサ、デジタル信号プロセッサ、マイクロコントローラ、または、他のプロセッサもしくは処理／制御回路として具現化されてよい。同様に、メモリ１２４は、本明細書に説明される機能を実行可能な任意のタイプの揮発性もしくは不揮発性のメモリ、またはデータストレージとして具現化されてよい。動作において、メモリ１２４は、コンピューティングデバイス１０２の動作中に使用されるオペレーティングシステム、アプリケーション、プログラム、ライブラリ、およびドライバなどの様々なデータおよびソフトウェアを格納してよい。メモリ１２４は、Ｉ／Ｏサブシステム１２２を介してプロセッサ１２０に通信可能に結合され、そのことは、コンピューティングデバイス１０２のプロセッサ１２０、メモリ１２４および他のコンポーネントとの入出力動作を容易にするための回路および／またはコンポーネントとして具現化されてよい。例えば、Ｉ／Ｏサブシステム１２２は、メモリコントローラハブ、入出力制御ハブ、ファームウェアデバイス、通信リンク（すなわち、ポイントツーポイントリンク、バスリンク、ワイヤ、ケーブル、ライトガイド、プリント回路基板配線など）、ならびに／または、入出力動作を容易にする他のコンポーネントおよびサブシステムとして具現化されてよく、あるいは、これらを含んでよい。いくつかの実施形態において、Ｉ／Ｏサブシステム１２２が、システムオンチップ（ＳｏＣ）の一部を形成してよく、コンピューティングデバイス１０２のプロセッサ１２０、メモリ１２４および他のコンポーネントとともに、単一の集積回路チップの上に組み込まれてよい。

データストレージデバイス１２６は、例えば、メモリデバイスならびに回路、メモリカード、ハードディスクドライブ、ソリッドステートドライブ、または、他のデータストレージデバイスなどの、データの短期間もしくは長期間格納用に構成された任意のタイプのデバイスまたは複数のデバイスとして具現化されてもよい。データストレージデバイス１２６は、１または複数の文書または他のユーザアクセス可能なコンテンツを格納し得る。さらに、いくつかの実施形態において、データストレージデバイス１２６は、コンテンツの自動発見のために使用され得る、例えば、コンテンツデータ、コンテンツインデックスおよび／または意味データなどの他のデータを格納し得る。

コンピューティングデバイス１０２の通信回路１２８は、任意の通信回路、デバイスまたはそれらの集合として具現化され得、ネットワーク１１２を介してコンピューティングデバイス１０２、検索エンジン１０４、知識ベースサーバ１０８および／または他のリモートデバイスの間の通信を可能にすることができる。通信回路１２８は、そのような通信を達成すべく、任意の１または複数の通信技術（例えば、有線または無線通信）および関連したプロトコル（例えば、イーサネット（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ−Ｆｉ（登録商標）、ＷｉＭＡＸ（登録商標）など）を用いるように構成され得る。

さらに、コンピューティングデバイス１０２はまた、ディスプレイ１３０を含んでよい。ディスプレイ１３０は、例えば、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）、プラズマディスプレイ、陰極線管（ＣＲＴ）または他のタイプのディスプレイデバイス等のデジタル情報を表示することが可能な任意のタイプのディスプレイとして具現化され得る。以下に説明されるように、ディスプレイ１３０は、コンピューティングデバイス１０２のユーザにグラフィカルユーザインターフェースまたは他の情報を表示するために使用され得る。

検索エンジン１０４は、コンテンツの本体を検索し、検索結果の一式を戻すように構成される。例えば、いくつかの実施形態において、検索エンジン１０４は、ウェブ検索エンジン、ファイル検索エンジン、特化されたドメイン検索エンジンまたは任意の他の検索エンジンとして具現化され得る。検索エンジン１０４は、検索結果を提供すべく、コンテンツインデックス１０６を格納、維持あるいはそれにアクセスし得る。検索エンジン１０４は、限定されないが、コンピュータ、マルチプロセッサシステム、サーバ、ラックマウント式サーバ、ブレードサーバ、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、ウェアラブルコンピューティングデバイス、ネットワーク機器、ウェブ機器、分散コンピューティングシステム、プロセッサベースシステム、および／または民生用電子機器を含む、本明細書で説明される機能を実行することが可能な任意のタイプの計算またはコンピュータデバイスとして具現化され得る。従って、検索エンジン１０４は、例えば、プロセッサ、Ｉ／Ｏサブシステム、メモリ、データストレージデバイスおよび／または通信回路などの、サーバまたは同様のコンピューティングデバイスに一般的に見られるコンポーネントおよびデバイスを含む。検索エンジン１０４のそれらの個々の要素は、コンピューティングデバイス１０２の対応するコンポーネントと同様であり得、コンピューティングデバイス１０２の説明は、検索エンジン１０４の対応するコンポーネント適用可能であり、本開示を不明瞭にしないように本明細書で繰り返されない。さらに、いくつかの実施形態において、検索エンジン１０４は、ネットワーク１１２にわたって分散され、パブリックまたはプライベートクラウドにて動作している複数のコンピューティングデバイスから形成される「仮想サーバ」として具現化され得る。従って、検索エンジン１０４は、単一のサーバコンピューティングデバイスとして具現化されるように図１に示されるが、検索エンジン１０４は、以下に説明される機能を容易にすべく、協働する複数のデバイスとして具現化され得ることが理解されるべきである。

知識ベースサーバ１０８は、クライアントが意味データベース１１０をクエリするのを可能にするように構成される。意味データベース１１０は、特定の知識ドメインのオントロジまたは他の構築された表現を維持する。例えば、いくつかの実施形態において、意味データベース１１０は、例えば、ＤＢペディアなどの一般知識の百科事典のオントロジ表現として具現化され得る。もちろん、いくつかの実施形態において、意味データベース１１０は、特定の知識ドメイン用に特化され得る、あるいは構成され得る。知識ベースサーバ１０８は、限定されないが、コンピュータ、マルチプロセッサシステム、サーバ、ラックマウント式サーバ、ブレードサーバ、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、ウェアラブルコンピューティングデバイス、ネットワーク機器、ウェブ機器、分散コンピューティングシステム、プロセッサベースシステム、および／または民生用電子機器を含む、本明細書で説明される機能を実行することが可能な任意のタイプの計算またはコンピュータデバイスとして具現化され得る。従って、知識ベースサーバ１０８は、例えば、プロセッサ、Ｉ／Ｏサブシステム、メモリ、データストレージデバイスおよび／または通信回路などの、サーバまたは同様のコンピューティングデバイスに一般的に見られるコンポーネントおよびデバイスを含む。知識ベースサーバ１０８のそれらの個々の要素は、コンピューティングデバイス１０２の対応するコンポーネントと同様であり得、コンピューティングデバイス１０２の説明は、知識ベースサーバ１０８の対応するコンポーネント適用可能であり、本開示を不明瞭にしないように本明細書で繰り返されない。さらに、いくつかの実施形態において、知識ベースサーバ１０８は、ネットワーク１１２にわたって分散され、パブリックまたはプライベートクラウドにて動作している複数のコンピューティングデバイスから形成される「仮想サーバ」として具現化され得る。従って、知識ベースサーバ１０８は、単一のサーバコンピューティングデバイスとして具現化されるように図１に示されるが、知識ベースサーバ１０８は、以下に説明される機能を容易にすべく協働する複数のデバイスとして具現化され得ることが理解されるべきである。

以下により詳細に述べられるように、コンピューティングデバイス１０２、検索エンジン１０４および知識ベースサーバ１０８は、ネットワーク１１２を通じて、互いに、および／またはシステム１００の他のデバイスとデータを送信および受信するように構成され得る。ネットワーク１１２、任意の数の様々な有線および／または無線ネットワークとして具現化されてよい。例えば、ネットワーク１１２は、有線または無線ローカルエリアネットワーク（ＬＡＮ）、有線または無線ワイドエリアネットワーク（ＷＡＮ）、セルラーネットワーク、および／または、インターネットなどの公的にアクセス可能なグローバルネットワークとして具現化されてよく、あるいは、これらを含んでよい。そのため、ネットワーク１１２は、システム１００のデバイスの間での通信を容易にすべく、追加のコンピュータ、ルータ、およびスイッチなど、任意の数の追加のデバイスを含み得る。

さらに、システム１００は、コンピューティングデバイス１０２、検索エンジン１０４および知識ベースサーバ１０８を含むように図示されるが、それらのデバイスの機能の一部または全てが単一のデバイスへと組み合わされ得ることが理解されるべきである。例えば、単一のサーバデバイスは、コンテンツインデックス１０６と意味データベース１１０との両方を維持し得る。さらにまたは代替的に、いくつかの実施形態において、コンピューティングデバイス１０２は、コンテンツインデックス１０６および／または意味データベース１１０をローカルに維持し得る。

ここで、図２を参照すると、例示的な実施形態において、コンピューティングデバイス１０２は、動作中に環境２００を確立する。例示的な環境２００は、文書文脈モジュール２０２、キーフレーズ抽出モジュール２０４、曖昧さランク付けモジュール２０６、コンテンツ検索モジュール２０８およびユーザインタフェースモジュール２１０を含む。環境２００の様々なモジュールは、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組み合わせとして具現化されてよい。例えば、環境２００の様々なモジュール、ロジック、および他のコンポーネントは、コンピューティングデバイス１０２のプロセッサ１２０または他のハードウェアコンポーネントの一部を形成してよい、あるいはコンピューティングデバイス１０２のプロセッサ１２０または他のハードウェアコンポーネントによって確立されてよい。そのため、いくつかの実施形態において、環境２００のモジュールの任意の１または複数は、電気デバイスの回路または集合（例えば、文書文脈回路、キーフレーズ抽出回路など）として具現化されてよい。

文書文脈モジュール２０２は、現在のユーザの文脈に基づき文書の文脈部分を決定するように構成される。例えば、文書文脈モジュール２０２は、コンピューティングデバイス１０２のアプリケーションビューポートにおいて可視の文書の部分、またはユーザにより最近アクセスされた文書の部分を特定するように構成され得る。文書は、文字情報を含み、例えば、ウェブブラウザ、ワードプロセッサまたは他の生産性アプリケーションを用いて、ユーザにより選択される。

キーフレーズ抽出モジュール２０４は、自動キーフレーズ抽出アルゴリズムを用いて、文書または文書の文脈部分から１または複数のキータームを抽出するように構成される。キーフレーズ抽出アルゴリズムは、文書のタームに重要度値を割り当てる。重要度値は、文書の各タームが文書のコンテンツをどれほどよく表しているか、あるいは、文書のトピック、意味または他のコンテンツに対してどれだけ重要と考えられるかについての相対的な指標を提供する。各々のキータームは、文書コンテンツから選択される単語またはフレーズとして具現化され得る。キーフレーズ抽出アルゴリズムは、統語的テキスト分析アルゴリズム、ＴｅｘｔＲａｎｋアルゴリズムまたは名前付きエンティティ認識アルゴリズムとして具現化され得る。キーフレーズ抽出モジュール２０４は、ランク付けされたタームリストを生成すべく、自動キーフレーズ抽出アルゴリズムを用いて文書のタームをランク付けするように構成され得る。

曖昧さランク付けモジュール２０６は、意味データベース１１０をクエリすることによりランク付けされたタームリストのタームごとに曖昧さスコアを計算するように構成される。タームごとの曖昧さスコアは、候補キータームが知識ベースにおいてクラスおよびオブジェクトに関連してどのような頻度で生じるかを示す。曖昧さスコアを決定すべく、曖昧さランク付けモジュール２０６は、知識ベースサーバ１０８にクエリを提出するように構成され得る。曖昧さランク付けモジュール２０６はさらに、調整され、ランク付けされたタームリストを生成すべく、ランク付けされたタームリストのタームごとの対応する曖昧さスコアに基づきランク付けされたタームリストを再ランク付けするように構成される。曖昧さランク付けモジュール２０６は、調整され、ランク付けされたタームリストからキータームを選択するようにさらに構成される。例えば、意味データベース１１０のクエリは、意味データベース１１０の任意の概念が特定のタームを含むかどうかを決定し得る。別の例として、意味データベース１１０のクエリは、ランク付けされたタームリストの各タームを含む意味データベース１１０の対応する概念の数、または対応する概念のタイプの数を決定し得る。

コンテンツ検索モジュール２０８は、１または複数の対応する検索結果を生成すべく、抽出されたキータームに基づきコンテンツの自動検索を実行するように構成される。コンテンツ検索モジュール２０８は、例えば、検索エンジン１０４に検索要求を提出することにより、コンテンツインデックス１０６を用いて検索し得る。ユーザインタフェースモジュール２１０は、例えば、ディスプレイ１３０上のグラフィカルユーザインターフェースにおいて検索結果を表示することにより、ユーザに１または複数の検索結果を提示するように構成される。ユーザインタフェースモジュール２１０はさらに、１または複数の検索結果の各々を文書の文脈部分の対応するキータームと関連付けるように構成され得る。例えば、ユーザインタフェースモジュール２１０は、対応する検索結果のユーザ選択に応じて、文書の文脈部分の対応するキータームを視覚的に強調するように構成され得る。

ここで、図３を参照すると、使用中に、コンピューティングデバイス１０２は、コンテンツの動的な自動発見のための方法３００を実行し得る。方法３００は、コンピューティングデバイス１０２がユーザの文脈に基づき、文書の文脈部分を特定するブロック３０２から始まる。文書は、任意のウェブページ、テキストファイル、オフィス生産性文書またはテキストコンテンツを含む他の文書として具現化され得る。文書の文脈部分は、ユーザにより現在視聴中、編集中あるいはアクセス可能である文書の任意の部分または下位部分として具現化され得る。例えば、文書の文脈部分がコンピューティングデバイス１０２により確立されるアプリケーションビューポートまたは他のスクロール可能なビューにおいて、現在可視の文書の部分として具現化され得る。別の例として、文書の文脈部分は、例えば、スピーチリーダまたは他の支援技術を用いたユーザに対する最後の音声リードの２０秒などの、ユーザにより最近アクセスされた文書の部分として具現化され得る。いくつかの実施形態において、文書の文脈部分は、文書全体を含み得、言い換えれば、いくつかの実施形態において、方法３００は、文書全体を分析し得る。

ブロック３０４で、コンピューティングデバイス１０２は、文書の文脈部分から１または複数のキータームを抽出する。キータームは、文書のコンテンツを表す、あるいは、文書のトピック、意味または他のコンテンツに対して重要と考えられる、文書から抽出される単語および／またはフレーズを含む。いくつかの実施形態において、キータームは、名詞句であり得、すなわち、名詞、および例えば、冠詞、前置詞、形容詞および他の修飾語句などの名詞に関連する他の単語を含む単語シーケンスであり得る。コンピューティングデバイス１０２は、キータームを抽出すべく、任意の適切なキーフレーズ抽出アルゴリズム、またはアルゴリズムの組み合わせを使用し得る。コンピューティングデバイス１０２は、任意の数のキータームを抽出し得るが、いくつかの実施形態において、抽出されるキータームの数は、文書の文脈部分の長さに比例し得る。いくつかの実施形態において、ブロック３０６で、コンピューティングデバイス１０２は、キータームを抽出すべく自動自然言語処理（ＮＬＰ）アルゴリズムを実行する。例えば、コンピューティングデバイス１０２は、統語的アルゴリズム、ＴｅｘｔＲａｎｋアルゴリズム、名前付きエンティティ認識（ＮＥＲ）アルゴリズムまたは別のＮＬＰアルゴリズムを実行し得る。コンピューティングデバイス１０２は、ＮＬＰアルゴリズムにより決定される重要度値による文書のタームをランク付けし得る。上記に説明されるように、重要度値は、文書の各タームが文書のコンテンツをどれほどよく表しているか、あるいは、文書のトピック、意味または他のコンテンツに対してどれだけ重要と考えられるかについての相対的な指標を提供する。いくつかの実施形態において、ブロック３０８で、コンピューティングデバイス１０２は、意味データベース１１０を用いてキータームごとに曖昧さの程度を計算することによりキータームをランク付けし得る。より高い曖昧さの程度を有するターム（すなわち、より曖昧なターム）は、より低い曖昧さの程度を有するターム（すなわち、曖昧さが小さいターム）より低くランク付けされ得る。曖昧さの程度を計算する工程を含むキータームを抽出するための方法の１つの実施形態が、図５と関連して以下にさらに説明される。

ブロック３１０で、コンピューティングデバイス１０２は、抽出されたキータームに基づき１または複数のコンテンツ検索を実行する。例えば、コンピューティングデバイス１０２は、キータームの全てに対して単一の検索を実行し得、キータームの各々に対して別個の検索を実行し得、または任意の他の適切な検索戦略を実行し得る。検索を実行すべく、コンピューティングデバイス１０２は、検索エンジン１０４にキータームを提出し得、あるいはコンテンツインデックス１０６をクエリし得る。検索の実行に応答して、コンピューティングデバイス１０２は、１または複数の検索結果を受信し、それは、テキスト、グラフィックスまたはコンテンツ検索の結果を含む、または説明する他のコンテンツとして具現化され得る。

ブロック３１２で、コンピューティングデバイス１０２は、ユーザにコンテンツ検索結果を提示する。コンピューティングデバイス１０２は、任意の適切な技術を用いて、結果を提示し得る。例えば、コンピューティングデバイス１０２は、文書の文脈部分に隣接するサイドバー、結果のウィンドウ、または別のグラフィカルユーザインターフェース要素において、視覚的に検索結果を提示し得る。別の例として、コンピューティングデバイス１０２は、スピーチリーダを用いて、または任意の他のユーザインターフェースモードを用いて検索結果を音声として提示し得る。いくつかの実施形態において、ブロック３１４で、コンピューティングデバイス１０２は、検索結果の１または複数を文書の文脈部分における対応するキータームと関連付け得る。例えば、ユーザが、（例えば、検索結果上をクリックする、検索結果上をタッピングする、検索結果の上をポインタでホバリングする、または別の選択アクションを実行することにより）検索結果を選択した場合、コンピューティングデバイス１０２は、文書コンテンツの文脈部分における対応するキータームを視覚的に強調する、それに下線を引く、あるいはそれを強調し得る。ユーザに検索結果を提示した後、方法３００は、文書の文脈部分を特定し、従って検索結果を動的に更新し続けるべくブロック３０２にループバックする。

ここで、図４を参照すると、概略図表４００は、方法３００の実行中にコンピューティングデバイス１０２により提示されるユーザインターフェースの１つの可能性のある実施形態を示す。図表４００は、文書４０２を示し、それは、例示的にはウェブページである。図表４００はまた、アプリケーションビューポート４０４を示し、それは、例示的にはウェブブラウザのコンテンツウィンドウである。アプリケーションビューポート４０４のコンテンツは、コンピューティングデバイス１０２のディスプレイ１３０上にレンダリングされ得る。文書４０２の文脈部分４０６は、アプリケーションビューポート４０４を介して可視の文書４０２の部分に対応する。従って、文脈部分４０６のコンテンツは、ユーザが文書４０２をスクロールするにつれて変化する。

例示的な文書４０２は、英国史に関するウェブページであり、複数のキーターム４０８を含む。図示されるように、キーターム４０８ａ、４０８ｂ、４０８ｃは、文脈部分４０６に含まれ、キーターム４０８ｄは、文脈部分４０６に含まれない（すなわち、キーターム４０８ｄは、アプリケーションビューポート４０４では可視ではない）。図示されるように、アプリケーションビューポート４０４はまた、文脈部分４０６内のキーターム４０８に対応する検索結果４１０を含む。例えば、検索結果４１０ａは、キーターム４０８ａ（「ノルマン人の侵略」）に対応し、検索結果４１０ｂは、キーターム４０８ｂ（「サムフォードブリッジ」）に対応し、検索結果４１０ｃは、キーターム４０８ｃ（「リチャード３世」）に対応する。例示的な図表４００において、検索結果４１０と対応するキーターム４０８との関係は、矢印および境界ボックスを用いて視覚的に描かれている。いくつかの実施形態において、検索結果４１０と対応するキーターム４０８との関係の視覚的な指標は、ユーザが特定の検索結果４１０を選択するまで、隠され得る。例えば、検索結果４１０ａのユーザ選択に応答して、コンピューティングデバイス１０２は、キーターム４０８ａを強調表示する視覚的な指標をレンダリングし得る。さらに、図示されるように、キーターム４０８ｄが文脈部分４０６の外部にあるので、キーターム４０８ｄに対して表示される検索結果４１０はない。ユーザが文書４０２をスクロールするにつれて、キーターム４０８ｄが文脈部分４０６に含まれるようになり、検索結果４１０はそれに応じて更新され得る。

ここで、図５を参照すると、使用中、コンピューティングデバイス１０２は、キーターム抽出のための方法５００を実行し得る。方法５００は、図３のブロック３０４と関連して、例えば、上記に説明されるように方法３００の一部として実行され得る。さらに、または代替的に、方法５００は、文書からキータームを抽出するように独立して実行され得る。方法５００は、ブロック５０２で始まり、そしてそこで、コンピューティングデバイス１０２は、自然言語処理キーフレーズ抽出アルゴリズムを用いて文書からランク付けされた候補キータームリストを生成する。図３と関連して上記に説明されるように、文書は、ユーザにより現在編集中、視聴中あるいはアクセスされている文書、または文書の部分として具現化され得る。コンピューティングデバイス１０２は、ランク付けされた候補キータームリストを生成すべく、任意の適切なキーフレーズ抽出アルゴリズムを使用し得る。例えば、コンピューティングデバイス１０２は、統語的アルゴリズム、ＴｅｘｔＲａｎｋアルゴリズム、名前付きエンティティ認識（ＮＥＲ）アルゴリズムまたは別のＮＬＰアルゴリズムを実行し得る。コンピューティングデバイス１０２は、ＮＬＰアルゴリズムにより決定される重要度値または他のスコアによって文書のタームをランク付けし得る。上記に説明されるように、重要度値は、文書の各タームが文書のコンテンツをどれほどよく表しているか、あるいは、文書のトピック、意味または他のコンテンツに対してどれだけ重要と考えられるかについての相対的な指標を提供する。いくつかの実施形態において、ブロック５０４で、コンピューティングデバイス１０２は、候補キータームごとに初期スコアを正規化し得る。例えば、各々の初期スコアは、ゼロ（０）と１との間の数として正規化され得る。

ブロック５０６で、コンピューティングデバイス１０２は、意味データベース１１０をクエリすることにより候補キータームごとに１または複数の曖昧さの程度を計算する。曖昧さの程度は、候補キータームが知識ベースにおいてクラスおよびオブジェクトに関連してどのような頻度で生じるかを示す任意の程度として具現化され得る。曖昧さの程度は、論理記述によって意味データベース１１０に対するクエリを実行することにより推定され得る。直感的に、曖昧さの程度は、文書が候補キータームを含むと仮定すると、文書のトピックについてどの程度の情報が推論され得るかを示す。曖昧さの程度は、定性的な２値（例えば、真／偽）、定量的な値（例えば、０と１との間の数）または任意の他の適切な値として具現化され得る。以下にさらに説明されるように、コンピューティングデバイス１０２は、複数の曖昧さの程度を決定すべく意味データベース１１０に対する複数のクエリを実行し得、合成曖昧さスコアは、それらのクエリから生じる曖昧さの程度を平均する、および／あるいは組み合わせることにより決定され得る。

いくつかの実施形態において、ブロック５０８で、コンピューティングデバイス１０２は、意味データベース１１０の任意の概念が候補キータームを含むかどうかを決定することにより曖昧さの程度を決定し得る。意味データベース１１０における概念は、意味データベース１１０において特定されるクラス、オブジェクトまたは任意の他の「事物」を含み得る。意味データベース１１０における概念が、候補キータームを含まない場合、候補キータームのための曖昧さの程度は、相対的に高い（例えば、「真」、数字の１、または他の高い値）。逆に、意味データベース１１０における少なくとも１つの概念が、候補キータームを含む場合、候補キータームのための曖昧さの程度は、相対的に低い（例えば、「偽」、数字の０、または他の低い値）。

ここで、図６を参照すると、疑似コード６００は、意味データベース１１０が候補キータームのための概念を含むかどうかを決定するクエリの１つの可能性のある実施形態を示す。例示的な実施形態において、意味データベース１１０は、一般知識の百科事典のオントロジ的マッピングである。特に、例示的な実施形態において、意味データベース１１０は、ＤＢペディアであり、それは、フリー百科事典であるウィキペディアに含まれる記事の構造化分類である。ＤＢペディアは、ウィキペディアのコンテンツについての論理記述のＲＤＦデータベースを維持し、そしてそれは、コンテンツおよびウィキペディアの記事間の関係に対する洞察を提供すべく、ＳＰＡＲＱＬプロトコルおよびＲＤＦクエリ言語（ＳＰＡＲＱＬ）を用いてクエリされ得る。例示的な疑似コード６００は、関連付けられるウィキペディアページを有する任意の「事物」（すなわち、任意のクラスまたはオブジェクト）がまた、候補キーターム、例示的に「ヘースティングズの戦い」と等しいラベルを有する、そしてそれがである場合、真を返す、ＤＢペディアに対するＳＰＡＲＱＬクエリを含む。例示的なクエリの結果は、曖昧さの程度を作り出すべく論理否定され得る。従って、例示的なクエリが「真」を返す（ウィキペディアが「ヘースティングズの戦い」とラベルを付けた記事を含むことを示す）場合、関連付けられる曖昧さの程度は、０（すなわち、曖昧ではない）に設定され得る。さらに、または代替的に、コンピューティングデバイス１０２は、例えば、人々、場所または組織についての任意の記事が、候補キーターム（名前付きエンティティクエリ）を含むラベルを有するかどうかについてクエリすることなどの、ＤＢペディアに対する他のクエリを行い得る。いくつかの実施形態において、コンピューティングデバイス１０２は、より特化されたクエリを行い得る。例えば、ユーザインタラクションは、ユーザが、特定の映画で主演した役者を見つけるのに興味があることを指定してよい。その例において、コンピューティングデバイス１０２は、役者に関連したキーターム、および／またはその特定の映画に直接関連した役者を指すキータームに特別の重みを付けてクエリを形成し得る。

図５に戻り参照すると、いくつかの実施形態において、ブロック５１０で、コンピューティングデバイス１０２は、候補キータームを含む意味データベース１１０における概念の数または概念のタイプの数を決定することにより曖昧さの程度を決定し得る。候補キータームを含む概念の数または概念のタイプの数は、曖昧さの相対的な量を示し得る。例えば、相対的に多数の概念の数は、高い曖昧さの程度として解釈され得、相対的に少数である（が、非ゼロの）概念の数は、低い曖昧さの程度として解釈され得る。説明として、意味データベース１１０が、上記に説明されるようにＤＢペディアとして具現化された場合、適切なクエリは、ウィキペディアにおいていくつの記事が候補キータームを含むラベルを有するか、ウィキペディアにおいていくつのタイプの記事が候補キータームを含むラベルを有するか、および／またはウィキペディアにおいていくつの記事が候補キータームを含む本体テキストを有するかを含み得る。候補キータームごとの概念の数および／または概念のタイプの数が、曖昧さの程度を作り出すべく正規化され得る。例えば、概念の数および／またはタイプの数は、全ての候補キータームに対するそれらの値を合計し、次にその合計により各値を除算することにより、正規化され得る。

ブロック５１２で、コンピューティングデバイス１０２は、候補キータームの各々に対して正規化された曖昧さスコアを決定する。正規化後、候補キータームの各々は、単一の曖昧さスコアを有し、それは１と０との間の数として具現化され得る。コンピューティングデバイス１０２は、以前に決定された曖昧さの程度を正規化すべく、任意の平均、加重平均または他のアルゴリズムを使用し得る。例えば、例示的な実施形態において、各々の候補キータームは、意味データベース１１０に対する５つの異なるクエリ（例えば、正確なラベル、名前付きエンティティ、記事ラベルの数、記事タイプの数および記事本体の数）により作り出される５つの異なる曖昧さの程度と関連付けられ得る。その例示的な実施形態において、曖昧さスコアは、それらの５つの曖昧さの程度の平均として計算され得る。

ブロック５１４で、コンピューティングデバイス１０２は、候補キータームと関連付けられる正規化された曖昧さスコアを用いて候補キータームのランキングを調整する。コンピューティングデバイス１０２は、各々の候補キータームのランキングを調整すべく、任意の平均、加重平均または他のアルゴリズムを使用し得る。
例えば、コンピューティングデバイス１０２は、式１を用いて候補キータームの各々に対するランキングスコアを再計算し得る。

（１）
式１に示されるように、変数ｉｎｉｔｉａｌ＿ｓｃｏｒｅ_ｉは、ブロック５０２と関連して上記に説明されるＮＬＰキーターム抽出アルゴリズムにより候補キータームｉに割り当てられる正規化された初期スコアである。変数ｖａｇｕｅｎｅｓｓ_ｉは、ブロック５０６、５１２と関連して上記に説明されるように、キータームｉに割り当てられる曖昧さスコアである。変数ｎｅｗ＿ｓｃｏｒｅ_ｉは、候補キータームｉに割り当てられる調整されたスコアである。候補キータームごとに調整されたスコアを決定した後、コンピューティングデバイス１０２は、候補キータームを再ランク付けする。候補キータームを再ランク付けした後、方法５００は完了する。図３と関連して上記に説明されるように、コンピューティングデバイス１０２は、最も高くランク付けされる候補キータームの１または複数を文書に対する代表的なキータームとして選択し得る。

［例］
本明細書において開示された技術の例示的な例を以下で提供する。当該技術の実施形態は、以下で説明される例のうちの任意の１または複数、および任意の組み合わせを含んでよい。

例１は、コンテンツの自動発見のためのコンピューティングデバイスを含み、コンピューティングデバイスは、
自動キーフレーズ抽出アルゴリズムにより決定されるキータームと関連付けられる重要度値に基づき文書からキータームを抽出するキーフレーズ抽出モジュールであって、文書は、コンピューティングデバイスのユーザにより選択される文書を有する、キーフレーズ抽出モジュールと、
１または複数の検索結果を生成すべく、キータームに基づきコンテンツの自動検索を実行するコンテンツ検索モジュールと、
ユーザに１または複数の検索結果を提示するユーザインタフェースモジュールと
を含む。

例２は、例１の主題を含み、キーフレーズ抽出アルゴリズムは、ＴｅｘｔＲａｎｋアルゴリズムまたは名前付きエンティティ認識アルゴリズムを有する。

例３は、例１および例２のいずれかの主題を含み、文書からキータームを抽出することは、ランク付けされたタームリストを生成すべく、自動キーフレーズ抽出アルゴリズムを用いて文書の複数のタームをランク付けすることと、ランク付けされたタームリストからキータームを選択することとを有する。

例４は、例１から例３のいずれかの主題を含み、文書の文脈部分を決定する文書文脈モジュールであって、文書の文脈部分は、ユーザにより現在アクセス可能である、文書文脈モジュールをさらに備え、文書からキータームを抽出することは、文書の文脈部分からキータームを抽出することを含む。

例５は、例１から例４のいずれかの主題を含み、文書の文脈部分を決定することは、コンピューティングデバイスのアプリケーションビューポートにおいて可視の文書の部分を特定することを含む。

例６は、例１から例５のいずれかの主題を含み、文書の文脈部分を決定することは、ユーザにより最近アクセスされた文書の部分を特定することを含む。

例７は、例１から例６のいずれかの主題を含み、ユーザインタフェースモジュールはさらに、１または複数の検索結果の各々を文書の文脈部分の対応するキータームと関連付ける。

例８は、例１から例７のいずれかの主題を含み、１または複数の検索結果の各々を対応するキータームと関連付けることは、対応する検索結果のユーザ選択に応じて文書の文脈部分の対応するキータームを視覚的に強調することを含む。

例９は、例１から例８のいずれかの主題を含み、文書からキータームを抽出することは、ランク付けされたタームリストを生成すべく、自動キーフレーズ抽出アルゴリズムを用いて文書の複数のタームをランク付けすることを有し、コンピューティングデバイスはさらに、意味データベースのクエリによりランク付けされたタームリストのタームごとに曖昧さスコアを計算し、調整されたランク付けされたタームリストを生成すべくランク付けされたタームリストのタームごとの対応する曖昧さスコアに基づきランク付けされたタームリストを再ランク付けし、調整されたランク付けされたタームリストからキータームを選択する曖昧さランク付けモジュールを有する。

例１０は、例１から例９のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算することは、意味データベースの任意の概念が対応するタームを含むかどうかを決定することを有する。

例１１は、例１から例１０のいずれかの主題を含み、意味データベースの任意の概念がタームを含むかどうかを決定することは、百科事典の任意の記事または記事ラベルがタームを含むかどうかを決定すべく、百科事典のオントロジ的マッピングをクエリすることを含む。

例１２は、例１から例１１のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算することは、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念の数を決定することと、ランク付けされたタームリストのタームごとに対応する概念の数を正規化することとを含む。

例１３は、例１から例１２のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算することは、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念のタイプの数を決定することと、ランク付けされたタームリストのタームごとに対応する概念のタイプの数を正規化することを含む。

例１４は、キーフレーズ抽出のためのコンピューティングデバイスを含み、コンピューティングデバイスは、
自動キーフレーズ抽出アルゴリズムにより決定される文書の複数のタームの各々と関連付けられる対応する重要度値に基づきランク付けされたタームリストを生成すべく、複数のタームをランク付けするキーフレーズ抽出モジュールと、
意味データベースのクエリによりランク付けされたタームリストのタームごとに曖昧さスコアを計算し、
調整され、ランク付けされたタームリストを生成すべくランク付けされたタームリストのタームごとの対応する曖昧さスコアに基づきランク付けされたタームリストを再ランク付けし、
調整され、ランク付けされたタームリストからキータームを選択する曖昧さランク付けモジュールと
を備える。

例１５は、例１４の主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算することは、意味データベースの任意の概念が対応するタームを含むかどうかを決定することを有する。

例１６は、例１４および例１５のいずれかの主題を含み、意味データベースの任意の概念がタームを含むかどうかを決定することは、百科事典の任意の記事または記事ラベルがタームを含むかどうかを決定すべく、百科事典のオントロジ的マッピングをクエリすることを含む。

例１７は、例１４から例１６のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算することは、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念の数を決定することと、ランク付けされたタームリストのタームごとに対応する概念の数を正規化することとを含む。

例１８は、例１４から例１７のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算することは、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念のタイプの数を決定することと、ランク付けされたタームリストのタームごとに対応する概念のタイプの数を正規化することとを含む。

例１９は、コンテンツの自動発見のための方法を含み、方法は、
コンピューティングデバイスが、自動キーフレーズ抽出アルゴリズムにより決定されるキータームと関連付けられる重要度値に基づき文書からキータームを抽出する工程であって、文書は、コンピューティングデバイスのユーザにより選択される文書を有する、工程と、
コンピューティングデバイスが、１または複数の検索結果を生成すべく、キータームに基づきコンテンツの自動検索を実行する工程と、
コンピューティングデバイスが、ユーザに１または複数の検索結果を提示する工程と
を含む。

例２０は、例１９の主題を含み、キーフレーズ抽出アルゴリズムは、ＴｅｘｔＲａｎｋアルゴリズムまたは名前付きエンティティ認識アルゴリズムを有する。

例２１は、例１９および例２０のいずれかの主題を含み、文書からキータームを抽出する工程は、ランク付けされたタームリストを生成すべく、自動キーフレーズ抽出アルゴリズムを用いて文書の複数のタームをランク付けする工程と、ランク付けされたタームリストからキータームを選択する工程とを有する。

例２２は、例１９から例２１のいずれかの主題を含み、コンピューティングデバイスが、文書の文脈部分を決定する工程であって、文書の文脈部分は、現在ユーザによりアクセス可能である、工程をさらに備え、文書からキータームを抽出する工程は、文書の文脈部分からキータームを抽出する工程を有する。

例２３は、例１９から例２２のいずれかの主題を含み、文書の文脈部分を決定する工程は、コンピューティングデバイスのアプリケーションビューポートにおいて可視な文書の部分を特定する工程を含む。

例２４は、例１９から例２３のいずれかの主題を含み、文書の文脈部分を決定する工程は、ユーザにより最近アクセスされた文書の部分を特定する工程を含む。

例２５は、例１９から例２４のいずれかの主題を含み、コンピューティングデバイスが、１または複数の検索結果の各々を文書の文脈部分の対応するキータームと関連付ける工程をさらに含む。

例２６は、例１９から例２５のいずれかの主題を含み、１または複数の検索結果の各々を対応するキータームと関連付ける工程は、対応する検索結果のユーザ選択に応じて文書の文脈部分の対応するキータームを視覚的に強調する工程を含む。

例２７は、例１９から例２６のいずれかの主題を含み、文書からキータームを抽出する工程は、ランク付けされたタームリストを生成すべく、自動キーフレーズ抽出アルゴリズムを用いて文書の複数のタームをランク付けする工程と、意味データベースのクエリによりランク付けされたタームリストのタームごとに曖昧さスコアを計算する工程と、調整され、ランク付けされたタームリストを生成すべくランク付けされたタームリストのタームごとの対応する曖昧さスコアに基づきランク付けされたタームリストを再ランク付けする工程と、調整され、ランク付けされたタームリストからキータームを選択する工程とを有する。

例２８は、例１９から例２７のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算する工程は、意味データベースの任意の概念が対応するタームを含むかどうかを決定する工程を有する。

例２９は、例１９から例２８のいずれかの主題を含み、意味データベースの任意の概念がタームを含むかどうかを決定する工程は、百科事典の任意の記事または記事ラベルがタームを含むかどうかを決定すべく、百科事典のオントロジ的マッピングをクエリする工程を含む。

例３０は、例１９から例２９のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算する工程は、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念の数を決定する工程と、ランク付けされたタームリストのタームごとに対応する概念の数を正規化する工程とを含む。

例３１は、例１９から例３０のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算する工程は、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念のタイプの数を決定する工程と、ランク付けされたタームリストのタームごとに対応する概念のタイプの数を正規化する工程とを含む。

例３２は、キーフレーズ抽出のための方法を含み、方法は、
コンピューティングデバイスが、自動キーフレーズ抽出アルゴリズムにより決定される文書の複数のタームの各々と関連付けられる対応する重要度値に基づきランク付けされたタームリストを生成すべく、複数のタームをランク付けする工程と、
コンピューティングデバイスが、意味データベースをクエリすることによりランク付けされたタームリストのタームごとに曖昧さスコアを計算する工程と、
コンピューティングデバイスが、調整され、ランク付けされたタームリストを生成すべくランク付けされたタームリストのタームごとの対応する曖昧さスコアに基づきランク付けされたタームリストを再ランク付けする工程と、
コンピューティングデバイスが、調整され、ランク付けされたタームリストからキータームを選択する工程と
を含む。

例３３は、例３２の主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算する工程は、意味データベースの任意の概念がタームを含むかどうかを決定する工程を有する。

例３４は、例３２および例３３のいずれかの主題を含み、意味データベースの任意の概念がタームを含むかどうかを決定する工程は、百科事典の任意の記事または記事ラベルが対応するタームを含むかどうかを決定すべく、百科事典のオントロジ的マッピングをクエリする工程を含む。

例３５は、例３２から例３４のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算する工程は、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念の数を決定する工程と、ランク付けされたタームリストのタームごとに対応する概念の数を正規化することとを含む。

例３６は、例３２から例３５いずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算する工程は、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念のタイプの数を決定する工程と、ランク付けされたタームリストのタームごとに対応する概念のタイプの数を正規化する工程とを含む。

例３７はコンピューティングデバイスを含み、コンピューティングデバイスは、プロセッサと、プロセッサによって実行された場合、コンピューティングデバイスに例１９から例３６のいずれかの方法を実行させる複数の命令をその中に格納したメモリとを備える。

例３８は、実行されたことに応答して、コンピューティングデバイスが例１９から３６のいずれかに記載の方法を実行することになる、格納された複数の命令を備える１または複数の機械可読ストレージ媒体を含む。

例３９は例１９から例３６のいずれかの方法を実行するための手段を備えるコンピューティングデバイスを含む。

例４０は、コンテンツの自動発見のためのコンピューティングデバイスを含み、コンピューティングデバイスは、
自動キーフレーズ抽出アルゴリズムにより決定されるキータームと関連付けられる重要度値に基づき文書からキータームを抽出するための手段であって、文書は、コンピューティングデバイスのユーザにより選択される文書を有する、手段と、
１または複数の検索結果を生成すべく、キータームに基づきコンテンツの自動検索を実行するための手段と、
ユーザに１または複数の検索結果を提示するための手段と
を備える。

例４１は、例４０の主題を含み、キーフレーズ抽出アルゴリズムは、ＴｅｘｔＲａｎｋアルゴリズムまたは名前付きエンティティ認識アルゴリズムを有する。

例４２は、例４０および例４１のいずれかの主題を含み、文書からキータームを抽出するための手段は、ランク付けされたタームリストを生成すべく、自動キーフレーズ抽出アルゴリズムを用いて文書の複数のタームをランク付けするための手段と、ランク付けされたタームリストからキータームを選択するための手段とを有する。

例４３は、例４０から例４２のいずれかの主題を含み、文書の文脈部分を決定するための手段であって、文書の文脈部分は、現在ユーザによりアクセス可能である、手段をさらに備え、文書からキータームを抽出するための手段は、文書の文脈部分からキータームを抽出するための手段を有する。

例４４は、例４０から例４３のいずれかの主題を含み、文書の文脈部分を決定するための手段は、コンピューティングデバイスのアプリケーションビューポートにおいて可視の文書の部分を特定するための手段を含む。

例４５は、例４０から例４４のいずれかの主題を含み、文書の文脈部分を決定するための手段は、ユーザにより最近アクセスされた文書の部分を特定するための手段を含む。

例４６は、例４０から例４５のいずれかの主題を含み、１または複数の検索結果の各々を文書の文脈部分の対応するキータームと関連付けるための手段をさらに含む。

例４７は、例４０から例４６のいずれかの主題を含み、１または複数の検索結果の各々を対応するキータームと関連付けるための手段は、対応する検索結果のユーザ選択に応じて文書の文脈部分の対応するキータームを視覚的に強調するための手段を含む。

例４８は、例４０から例４７のいずれかの主題を含み、文書からキータームを抽出するための手段は、ランク付けされたタームリストを生成すべく、自動キーフレーズ抽出アルゴリズムを用いて文書の複数のタームをランク付けするための手段と、意味データベースのクエリによりランク付けされたタームリストのタームごとに曖昧さスコアを計算するための手段と、調整され、ランク付けされたタームリストを生成すべくランク付けされたタームリストのタームごとの対応する曖昧さスコアに基づきランク付けされたタームリストを再ランク付けするための手段と、調整され、ランク付けされたタームリストからキータームを選択するための手段とを有する。

例４９は、例４０から例４８のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算するための手段は、意味データベースの任意の概念が対応するタームを含むかどうかを決定するための手段を有する。

例５０は、例４０から例４９のいずれかの主題を含み、意味データベースの任意の概念がタームを含むかどうかを決定するための手段は、百科事典の任意の記事または記事ラベルがタームを含むかどうかを決定すべく、百科事典のオントロジ的マッピングをクエリするための手段を含む。

例５１は、例４０から例５０のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算するための手段は、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念の数を決定するための手段と、ランク付けされたタームリストのタームごとに対応する概念の数を正規化するための手段とを含む。

例５２は、例４０から例５１のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算するための手段は、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念のタイプの数を決定するための手段と、ランク付けされたタームリストのタームごとに対応する概念のタイプの数を正規化するための手段とを含む。

例５３は、キーフレーズ抽出のためのコンピューティングデバイスを含み、コンピューティングデバイスは、
自動キーフレーズ抽出アルゴリズムにより決定される複数のタームの各々と関連付けられる対応する重要度値に基づきランク付けされたタームリストを生成すべく、文書の複数のタームをランク付けするための手段と、
意味データベースをクエリすることによりランク付けされたタームリストのタームごとに曖昧さスコアを計算するための手段と、
調整され、ランク付けされたタームリストを生成すべくランク付けされたタームリストのタームごとの対応する曖昧さスコアに基づきランク付けされたタームリストを再ランク付けするための手段と、
調整され、ランク付けされたタームリストからキータームを選択するための手段と
を含む。

例５４は、例５３の主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算するための手段は、意味データベースの任意の概念が対応するタームを含むかどうかを決定するための手段を有する。

例５５は、例５３および例５４のいずれかの主題を含み、意味データベースの任意の概念がタームを含むかどうかを決定するための手段は、百科事典の任意の記事または記事ラベルが対応するタームを含むかどうかを決定すべく、百科事典のオントロジ的マッピングをクエリするための手段を含む。

例５６は、例５３から例５５のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算するための手段は、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念の数を決定するための手段と、ランク付けされたタームリストのタームごとに対応する概念の数を正規化するための手段とを含む。

例５７は、例５３から例５６のいずれかの主題を含み、ランク付けされたタームリストのタームごとに曖昧さスコアを計算するための手段は、ランク付けされたタームリストの各タームを含む意味データベースの対応する概念のタイプの数を決定するための手段と、ランク付けされたタームリストのタームごとに対応する概念のタイプの数を正規化するための手段とを含む。

Claims

コンテンツの自動発見のためのコンピューティングデバイスであって、
自動のキーフレーズ抽出アルゴリズムにより決定されるキータームと関連付けられる重要度値に基づき文書から前記キータームを抽出するキーフレーズ抽出モジュールであって、前記文書は、前記コンピューティングデバイスのユーザにより選択される文書を有する、キーフレーズ抽出モジュールと、
１または複数の検索結果を生成すべく、前記キータームに基づきコンテンツの自動検索を実行するコンテンツ検索モジュールと、
前記ユーザに前記１または複数の検索結果を提示するユーザインタフェースモジュールと
を備えるコンピューティングデバイス。
前記キーフレーズ抽出アルゴリズムは、ＴｅｘｔＲａｎｋアルゴリズムまたは名前付きエンティティ認識アルゴリズムを有する、
請求項１に記載のコンピューティングデバイス。
前記文書の文脈部分を決定する文書文脈モジュールであって、前記文書の前記文脈部分は、前記ユーザにより現在アクセス可能である、文書文脈モジュールをさらに備え、
前記文書から前記キータームを抽出することは、前記文書の前記文脈部分から前記キータームを抽出することを含む、
請求項１に記載のコンピューティングデバイス。
前記文書の前記文脈部分を決定することは、前記コンピューティングデバイスのアプリケーションビューポートにおいて可視の前記文書の部分を特定することを含む、
請求項３に記載のコンピューティングデバイス。
前記文書の前記文脈部分を決定することは、前記ユーザにより最近アクセスされた前記文書の部分を特定することを含む、
請求項３に記載のコンピューティングデバイス。
前記ユーザインタフェースモジュールはさらに、前記１または複数の検索結果の各々を前記文書の文脈部分の対応するキータームと関連付ける、
請求項１に記載のコンピューティングデバイス。
前記１または複数の検索結果の各々を前記対応するキータームと関連付けることは、前記対応する検索結果のユーザ選択に応じて前記文書の前記文脈部分の前記対応するキータームを視覚的に強調することを含む、
請求項６に記載のコンピューティングデバイス。
前記文書から前記キータームを抽出することは、ランク付けされたタームリストを生成すべく、前記自動のキーフレーズ抽出アルゴリズムを用いて前記文書の複数のタームをランク付けすることを有し、
前記コンピューティングデバイスはさらに、
意味データベースのクエリにより前記ランク付けされたタームリストのタームごとに曖昧さスコアを計算し、
調整され、ランク付けされたタームリストを生成すべく前記ランク付けされたタームリストのタームごとの対応する前記曖昧さスコアに基づき前記ランク付けされたタームリストを再ランク付けし、
前記調整され、ランク付けされたタームリストから前記キータームを選択する
曖昧さランク付けモジュールを有する、
請求項１から７のいずれか一項に記載のコンピューティングデバイス。
キーフレーズ抽出のためのコンピューティングデバイスであって、
自動のキーフレーズ抽出アルゴリズムにより決定される文書の複数のタームの各々と関連付けられる対応する重要度値に基づきランク付けされたタームリストを生成すべく、前記複数のタームをランク付けするキーフレーズ抽出モジュールと、
意味データベースのクエリにより前記ランク付けされたタームリストのタームごとに曖昧さスコアを計算し、
調整され、ランク付けされたタームリストを生成すべく前記ランク付けされたタームリストのタームごとの対応する曖昧さスコアに基づき前記ランク付けされたタームリストを再ランク付けし、
前記調整され、ランク付けされたタームリストからキータームを選択する
曖昧さランク付けモジュールと
を備えるコンピューティングデバイス。
前記ランク付けされたタームリストのタームごとに前記曖昧さスコアを計算することは、前記意味データベースの任意の概念が前記対応するタームを含むかどうかを決定することを有する、
請求項９に記載のコンピューティングデバイス。
前記意味データベースの任意の概念が前記タームを含むかどうかを決定することは、百科事典の任意の記事または記事ラベルが前記タームを含むかどうかを決定すべく、前記百科事典のオントロジ的マッピングをクエリすることを含む、
請求項１０に記載のコンピューティングデバイス。
前記ランク付けされたタームリストのタームごとに前記曖昧さスコアを計算することは、
前記ランク付けされたタームリストの各タームを含む前記意味データベースの対応する概念の数を決定することと、
前記ランク付けされたタームリストのタームごとに対応する概念の数を正規化することと
を含む、
請求項９から１１のいずれか一項に記載のコンピューティングデバイス。
前記ランク付けされたタームリストのタームごとに前記曖昧さスコアを計算することは、
前記ランク付けされたタームリストの各タームを含む前記意味データベースの対応する概念のタイプの数を決定することと、
前記ランク付けされたタームリストのタームごとに対応する概念のタイプの数を正規化することと
を含む、
請求項９から１１のいずれか一項に記載のコンピューティングデバイス。
コンテンツの自動発見のための方法であって、
コンピューティングデバイスが、自動のキーフレーズ抽出アルゴリズムにより決定されるキータームと関連付けられる重要度値に基づき文書から前記キータームを抽出する段階であって、前記文書は、前記コンピューティングデバイスのユーザにより選択される文書を有する、段階と、
前記コンピューティングデバイスが、１または複数の検索結果を生成すべく、前記キータームに基づきコンテンツの自動検索を実行する段階と、
前記コンピューティングデバイスが、前記ユーザに前記１または複数の検索結果を提示する段階と
を備える方法。
コンピューティングデバイスが、前記文書の文脈部分を決定する段階であって、前記文書の前記文脈部分は、前記ユーザにより現在アクセス可能である、段階をさらに備え、
前記文書から前記キータームを抽出する段階は、前記文書の前記文脈部分から前記キータームを抽出する段階を有する、
請求項１４に記載の方法。
前記文書の前記文脈部分を決定する段階は、前記コンピューティングデバイスのアプリケーションビューポートにおいて可視な前記文書の部分を特定する段階を含む、
請求項１５に記載の方法。
前記コンピューティングデバイスが、前記１または複数の検索結果の各々を前記文書の文脈部分の対応するキータームと関連付ける段階をさらに備える、
請求項１４に記載の方法。
前記文書から前記キータームを抽出する段階は、
ランク付けされたタームリストを生成すべく、前記自動のキーフレーズ抽出アルゴリズムを用いて前記文書の複数のタームをランク付けする段階と、
意味データベースをクエリすることにより前記ランク付けされたタームリストのタームごとに曖昧さスコアを計算する段階と、
調整され、ランク付けされたタームリストを生成すべく前記ランク付けされたタームリストのタームごとの対応する曖昧さスコアに基づき前記ランク付けされたタームリストを再ランク付けする段階と、
前記調整され、ランク付けされたタームリストから前記キータームを選択する段階と
を有する、
請求項１４に記載の方法。
キーフレーズ抽出のための方法であって、
コンピューティングデバイスが、自動のキーフレーズ抽出アルゴリズムにより決定される文書の複数のタームの各々と関連付けられる対応する重要度値に基づきランク付けされたタームリストを生成すべく、前記複数のタームをランク付けする段階と、
前記コンピューティングデバイスが、意味データベースをクエリすることにより前記ランク付けされたタームリストのタームごとに曖昧さスコアを計算する段階と、
前記コンピューティングデバイスが、調整され、ランク付けされたタームリストを生成すべく前記ランク付けされたタームリストのタームごとの対応する曖昧さスコアに基づき前記ランク付けされたタームリストを再ランク付けする段階と、
前記コンピューティングデバイスが、前記調整され、ランク付けされたタームリストからキータームを選択する段階と
を備える方法。
前記ランク付けされたタームリストのタームごとに前記曖昧さスコアを計算する段階は、前記意味データベースの任意の概念が前記タームを含むかどうかを決定する段階を有する、
請求項１９に記載の方法。
前記ランク付けされたタームリストのタームごとに前記曖昧さスコアを計算する段階は、
前記ランク付けされたタームリストの各タームを含む前記意味データベースの対応する概念の数を決定する段階と、
前記ランク付けされたタームリストのタームごとに対応する概念の数を正規化する段階と
を有する請求項１９に記載の方法。
前記ランク付けされたタームリストのタームごとに前記曖昧さスコアを計算する段階は、
前記ランク付けされたタームリストの各タームを含む前記意味データベースの対応する概念のタイプの数を決定する段階と、
前記ランク付けされたタームリストのタームごとに前記対応する概念のタイプの数を正規化する段階と
を有する請求項１９に記載の方法。
コンピューティングデバイスであって、
プロセッサと、
前記プロセッサによって実行された場合、前記コンピューティングデバイスに請求項１４から２２のいずれか一項に記載の方法を実行させる複数の命令をその中に格納したメモリと
を備えるコンピューティングデバイス。
実行されたことに応答して、コンピューティングデバイスが請求項１４から２２のいずれか一項に記載の方法を実行することになる、格納された複数の命令を備える１または複数の機械可読ストレージ媒体。
請求項１４から２２のいずれか一項に記載の方法を実行する手段を備えるコンピューティングデバイス。