JP2023031294A

JP2023031294A - コンピュータ実装方法、コンピュータプログラム、コンピュータシステム（テキスト要素の特異度ランク付け及びその応用）

Info

Publication number: JP2023031294A
Application number: JP2022131754A
Authority: JP
Inventors: フランチェスコフスコ; Fusco Francesco; ラミスセザールベロスピ; Cesar Berrospi Ramis; ピーターウィレムヤンスター; Willem Jan Staar Peter
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2021-08-23
Filing date: 2022-08-22
Publication date: 2023-03-08
Also published as: US20230055769A1; CN115718791A

Abstract

【課題】特異度によって、少なくとも１つの単語を各々が含む複数のテキスト要素をランク付けすること。【解決手段】ランク付けされることになるテキスト要素ごとに、埋め込み空間においてテキスト要素を位置特定する埋め込みベクトルを計算する段階と、参照テキストからテキストフラグメントのセットを選択する段階とを備える。テキストフラグメントの各々は、ランク付けされることになるテキスト要素と更なるテキスト要素とを含む。テキストフラグメントごとに、埋め込み空間における、更なるテキスト要素間のそれぞれの距離を計算する。ランク付けされることになるテキスト要素についての特異度スコアを計算する段階と、特異度スコアを記憶する段階とを更に備える。複数のテキスト要素をランク付けした後、テキスト要素についての特異度スコアを使用してテキストデータ構造が、データ構造から所望の特異度を有するデータを抽出するために処理される。【選択図】図３

Description

［発明者又は共同発明者による先開示に関する陳述］
以下の開示は、米国特許法第１０２条（ｂ）（１）（Ａ）の下で提出される：ＦｒａｎｃｅｓｃｏＦｕｓｃｏ及びＰｅｔｅｒＷｉｌｌｅｍＪａｎＳｔａａｒによって設計される本開示の特定の機能は、本特許出願の譲受人の内のサーバ上に記憶されており、ここで、この機能は、２０２１年３月時点でＩＢＭＲｅｓｅａｒｃｈＤｅｅｐＳｅａｒｃｈプラットフォームを介してサービスとして販売中になっている。

本発明は、概して、テキスト要素の特異度ランク付けに関する。特異度によって複数のテキスト要素をランク付けするコンピュータ実装方法が、そのような方法の応用とともに提供される。これらの方法を実装するシステム及びコンピュータプログラム製品も提供される。

単語又はフレーズ等のテキスト要素の特異度は、それらの要素に含まれる情報量の尺度である。テキスト要素が所与の領域における多くの情報を含む場合、その要素は、領域に非常に特異であり、その逆もまた然りである。テキストの特異度は、探索システムのコンテキストにおいて、探索クエリについて一般的な探索結果を返すべきか若しくは特異な探索結果を返すべきかを評価するか、又はユーザに対して代替の探索クエリを提案するために推定されてきた。特異度を推定するほとんどの従来技法は、音声の一部の分析（例えば、名詞が修飾される頻度）又は特定の用語の発生頻度に基づく統計を使用する。１つの技法は、単語埋め込みスキームを介して生成された埋め込み空間において用語を位置特定するベクトルから導出される様々なメトリックを使用してそれらの用語の特異度を評価する。この技法は、事前トレーニングされた埋め込みにおける埋め込みベクトルの分布を分析することによって取得されるメトリックを利用する。埋め込み行列のトレーニングが済むと、埋め込み空間におけるベクトル分布は、特異度を評価するのに使用される唯一のファクタである。

特異度を推定するほとんどの従来技法は、音声の一部の分析（例えば、名詞が修飾される頻度）又は特定の用語の発生頻度に基づく統計を使用する。１つの技法は、単語埋め込みスキームを介して生成された埋め込み空間において用語を位置特定するベクトルから導出される様々なメトリックを使用してそれらの用語の特異度を評価する。この技法は、事前トレーニングされた埋め込みにおける埋め込みベクトルの分布を分析することによって取得されるメトリックを利用する。埋め込み行列のトレーニングが済むと、埋め込み空間におけるベクトル分布は、特異度を評価するのに使用される唯一のファクタである。

本発明の１つの態様は、特異度によって、少なくとも１つの単語を各々が含む複数のテキスト要素をランク付けするコンピュータ実装方法を提供する。ランク付けされることになるテキスト要素ごとに、方法は、単語埋め込みスキームを介して、埋め込み空間においてテキスト要素を位置特定する埋め込みベクトルを計算する段階と、参照テキストからテキストフラグメントのセットを選択する段階とを備える。これらのテキストフラグメントの各々は、ランク付けされることになるテキスト要素と更なるテキスト要素とを含む。テキストフラグメントごとに、方法は、埋め込み空間における、単語埋め込みスキームを介して計算された埋め込みベクトルによって当該空間において各々位置特定される、更なるテキスト要素と、ランク付けされることになるテキスト要素との間のそれぞれの距離を計算する。方法は、上述の距離に依存して、ランク付けされることになるテキスト要素についての特異度スコアを計算する段階と、特異度スコアを記憶する段階とを更に備える。複数のテキスト要素についての結果として得られる特異度スコアは、特異度によるテキスト要素のランク付けを規定する。

本発明のそれぞれの更なる実施形態は、上記で説明されたようなテキスト要素をランク付けする方法を実装するように適応されるコンピューティングシステムと、コンピューティングシステムにそのような方法を実装させる、コンピューティングシステムによって実行可能なプログラム命令を具現化するコンピュータ可読記憶媒体を含むコンピュータプログラム製品とを提供する。

本発明の実施形態は、添付図面を参照して、例示的かつ非限定的な例として、以下でより詳細に説明される。

本発明を具現化する方法を実装するコンピューティングシステムの概略表現である。特異度によってテキスト要素をランク付けする本発明を具現化するシステムのコンポーネントモジュールを示す図である。

図２において示されたシステムによって実行されるランク付け方法の段階を示す図である。

本発明の一実施形態におけるテキスト要素ランク付けシステムのコンポーネントモジュールを示す図である。

図４において示されたシステムにおける単語埋め込みプロセスの段階を示す図である。

単語埋め込みプロセスの概略図である。

図４において示されたシステムにおけるコンテキストフラグメント選択器の動作を示す図である。

図４において示されたシステムにおける特異度スコア計算プロセスの段階を示す図である。

図４において示されたシステムの一実装において取得された特異度ランク付けを示す図である。図４において示されたシステムの一実装において取得された特異度ランク付けを示す図である。

本発明を具現化するテキスト要素ランク付け方法を使用した応用の動作段階を示す図である。本発明を具現化するテキスト要素ランク付け方法を使用した応用の動作段階を示す図である。本発明を具現化するテキスト要素ランク付け方法を使用した応用の動作段階を示す図である。本発明を具現化するテキスト要素ランク付け方法を使用した応用の動作段階を示す図である。

本発明の幾つかの実施形態は、システム、方法、若しくはコンピュータプログラム製品又はその組み合わせであってよい。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（又は複数の媒体）を含んでよい。

コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるように命令を保持及び記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、又は前述したものの任意の適した組み合わせであってよいが、これらに限定されるものではない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、次のもの、すなわち、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピディスク、機械的にエンコードされたデバイス、例えば、パンチカード又は命令を記録した溝内の隆起構造、及び前述したものの任意の適した組み合わせを含む。コンピュータ可読記憶媒体は、本明細書において使用される場合、電波若しくは他の自由に伝搬する電磁波、導波路若しくは他の伝送媒体を通じて伝搬する電磁波（例えば、光ファイバケーブルを通過する光パルス）、又はワイヤを通じて伝送される電気信号等の一時的な信号それ自体とは解釈されるべきではない。

本明細書において説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、それぞれのコンピューティング／処理デバイスに、或いは、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク若しくは無線ネットワーク、又はその組み合わせを介して、外部コンピュータ又は外部記憶デバイスに、ダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ若しくはエッジサーバ、又はその組み合わせを含んでよい。各コンピューティング／処理デバイス内のネットワークアダプタカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、当該コンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するために転送する。

本発明の動作を実行するコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、１つ若しくは複数のプログラミング言語の任意の組み合わせで記述されたソースコード若しくはオブジェクトコードのいずれかであってよく、１つ若しくは複数のプログラミング言語は、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋等のようなオブジェクト指向プログラミング言語と、「Ｃ」プログラミング言語又は同様のプログラミング言語のような従来の手続き型プログラミング言語とを含む。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で完全に実行されてもよいし、スタンドアロンソフトウェアパッケージとしてユーザのコンピュータ上で部分的に実行されてもよいし、部分的にユーザのコンピュータ上で、かつ、部分的にリモートコンピュータ上で実行されてもよいし、リモートコンピュータ若しくはサーバ上で完全に実行されてもよい。後者のシナリオでは、リモートコンピュータが、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよいし、その接続が、（例えば、インターネットサービスプロバイダを使用してインターネットを介して）外部コンピュータに対して行われてもよい。幾つかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラマブルロジックアレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行して、電子回路をパーソナライズしてよい。

本発明の態様は、本明細書において、本発明の実施形態に係る方法、装置（システム）、及びコンピュータプログラム製品のフローチャート図若しくはブロック図、又はその両方を参照して説明されている。フローチャート図若しくはブロック図、又はその両方の各ブロック、並びに、フローチャート図若しくはブロック図、又はその両方のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装することができることが理解されよう。

これらのコンピュータ可読プログラム命令を汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサに提供して機械を生成してよく、それにより、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャート若しくはブロック図、又はその両方の単数又は複数のブロックで指定された機能／動作を実装する手段を作成するようになる。また、これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶されてよく、当該命令は、コンピュータ、プログラマブルデータ処理装置若しくは他のデバイス、又はその組み合わせに対し、特定の方式で機能するよう命令することができ、それにより、命令を記憶したコンピュータ可読記憶媒体は、フローチャート若しくはブロック図、又はその両方の単数又は複数のブロックで指定された機能／動作の態様を実装する命令を含む製品を含むようになる。

また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードして、一連の動作段階をコンピュータ、他のプログラマブル装置又は他のデバイス上で実行させ、コンピュータ実装プロセスを生成してもよく、それにより、コンピュータ、他のプログラマブル装置、又は他のデバイス上で実行される命令は、フローチャート若しくはブロック図、又はその両方の単数又は複数のブロックで指定された機能／動作を実装するようになる。

図面におけるフローチャート及びブロック図は、本発明の様々な実施形態に係るシステム、方法、及びコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、及び動作を示す。これに関して、フローチャート又はブロック図における各ブロックは、指定される論理機能を実装する１つ又は複数の実行可能命令を含む命令のモジュール、セグメント、又は部分を表し得る。幾つかの代替的な実装では、ブロックに記載される機能が、図面に記載される順序とは異なる順序で行われてよい。例えば、連続して示されている２つのブロックは、実際には、実質的に同時に実行されてもよいし、ブロックは、関与する機能に依存して逆の順序で実行される場合もあり得る。ブロック図若しくはフローチャート図、又はその両方の各ブロック、並びにブロック図若しくはフローチャート図、又はその両方におけるブロックの組み合わせは、指定された機能若しくは動作を実行するか、又は専用ハードウェアとコンピュータ命令との組み合わせを実行する専用ハードウェアベースシステムによって実装することができることにも留意されたい。

説明されることになる実施形態は、特異度によってテキスト要素をランク付けするコンピュータ実装方法として実行することができる。そのような方法は、本明細書において説明される動作を実装する機能を提供する１つ又は複数の汎用又は専用コンピュータを含むコンピューティングシステムによって実装され得、その各々は、１つ又は複数の（実際又は仮想の）機械を含み得る。本発明を具現化する方法の段階は、システムの処理装置によって実装されるプログラム命令、例えばプログラムモジュールによって実装され得る。一般的に、プログラムモジュールは、特定のタスクを実行するか、又は特定の抽象データタイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造等を含んでよい。コンピューティングシステムは、クラウドコンピューティング環境等の分散コンピューティング環境で実装され得、分散コンピューティング環境において、タスクは、通信ネットワークを通じてリンクされているリモート処理デバイスによって実行される。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含むローカルコンピュータシステム記憶媒体及びリモートコンピュータシステム記憶媒体の両方に配置され得る。

図１は、本発明を具現化する方法を実装する例示的なコンピューティング装置のブロック図である。コンピューティング装置は、汎用コンピュータ１の形態で示されている。コンピュータ１のコンポーネントは、処理ユニット２によって表されている１つ又は複数のプロセッサ等の処理装置と、システムメモリ３と、システムメモリ３を含む様々なシステムコンポーネントを処理ユニット２に結合するバス４とを含んでよい。

バス４は、メモリバス又はメモリコントローラ、ペリフェラルバス、アクセラレーテッドグラフィックスポート、及び多様なバスアーキテクチャの任意のものを使用したプロセッサ又はローカルバスを含む、幾つかのタイプのバス構造の任意のもののうちの１つ又は複数を表す。限定ではなく例示として、そのようなアーキテクチャは、産業標準アーキテクチャ（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭＣＡ）バス、エンハンストＩＳＡ（ＥＩＳＡ）バス、ビデオエレクトロニクススタンダーズアソシエーション（ＶＥＳＡ）ローカルバス、及びペリフェラルコンポーネントインターコネクト（ＰＣＩ）バスを含む。

コンピュータ１は、典型的には、多様なコンピュータ可読媒体を含む。そのような媒体は、揮発性及び不揮発性の媒体と、取り外し可能及び取り外し不能な媒体とを含む、コンピュータ１によってアクセス可能である任意の利用可能な媒体であり得る。例えば、システムメモリ３は、ランダムアクセスメモリ（ＲＡＭ）５若しくはキャッシュメモリ６又はその両方等の揮発性メモリの形態でコンピュータ可読媒体を含むことができる。コンピュータ１は、他の取り外し可能／取り外し不能、揮発性／不揮発性のコンピュータシステム記憶媒体を更に含み得る。単なる例示として、取り外し不能で不揮発性の磁気媒体（一般的に「ハードドライブ」と呼ばれる）との間で読み取り及び書き込みを行うために、記憶システム７を提供することができる。図示されていないが、取り外し可能で不揮発性の磁気ディスク（例えば、「フロッピディスク」）との間で読み取り及び書き込みを行うための磁気ディスクドライブ、及びＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、又は他の光学媒体等の取り外し可能で不揮発性の光ディスクとの間で読み取り又は書き込みを行うための光学ディスクドライブも提供することができる。そのような事例では、各々を１つ又は複数のデータ媒体インターフェースによってバス４に接続することができる。

メモリ３は、本発明の実施形態の機能を実行するように構成されている１つ又は複数のプログラムモジュールを有する少なくとも１つのプログラム製品を含んでよい。例示として、プログラムモジュール９のセット（少なくとも１つ）を有するプログラム／ユーティリティ８は、メモリ３に記憶され得、オペレーティングシステム、１つ又は複数のアプリケーションプログラム、他のプログラムモジュール、及びプログラムデータも同様である。オペレーティングシステム、１つ又は複数のアプリケーションプログラム、他のプログラムモジュール、及びプログラムデータの各々、又はこれらの何らかの組み合わせは、ネットワーキング環境の実装を含んでよい。プログラムモジュール９は、概して、本明細書において説明されるように、本発明の実施形態の機能若しくは方法論又はその両方を実行する。

また、コンピュータ１は、キーボード、ポインティングデバイス、ディスプレイ１１等のような１つ若しくは複数の外部デバイス１０、ユーザがコンピュータ１とインタラクトすることを可能にする１つ若しくは複数のデバイス、若しくはコンピュータ１が１つ若しくは複数の他のコンピューティングデバイスと通信することを可能にする任意のデバイス（例えば、ネットワークカード、モデム等）、又はその組み合わせと通信してよい。そのような通信は、入力／出力（Ｉ／Ｏ）インターフェース１２を介して生じ得る。また、コンピュータ１は、ローカルエリアネットワーク（ＬＡＮ）、一般的なワイドエリアネットワーク（ＷＡＮ）、若しくはパブリックネットワーク（例えば、インターネット）、又はその組み合わせ等の１つ又は複数のネットワークと、ネットワークアダプタ１３を介して通信することができる。図示されているように、ネットワークアダプタ１３は、バス４を介してコンピュータ１の他のコンポーネントと通信する。また、コンピュータ１は、本発明の実施形態を実装する、ＧＰＵ（グラフィックス処理ユニット）又はＦＰＧＡ等の追加の処理装置１４と通信してよい。図示されていないが、他のハードウェア若しくはソフトウェアコンポーネント又はその両方をコンピュータ１と併せて使用することができることが理解されるべきである。例としては、マイクロコード、デバイスドライバ、冗長処理ユニット、外部ディスクドライブアレイ、ＲＡＩＤシステム、テープドライブ、及びデータアーカイブ記憶システム等が挙げられるが、これらに限定されるものではない。

図２は、本発明を具現化する例示的なコンピューティングシステムのコンポーネントモジュールを概略的に示している。システム２０は、メモリ２１と、特異度によってテキスト要素をランク付けする機能を含む、全体的に２２として示される制御ロジックとを備える。制御ロジック２２は、単語埋め込みモジュール２３と、コンテキスト選択器モジュール２４と、特異度計算器モジュール２５とを含む。これらのモジュールの各々は、以下で詳述されるランク付けプロセスの特定の段階を実装する機能を含む。これらのモジュールは、システム２０の動作において使用される様々なデータ構造を記憶するメモリ２１とインターフェースする。これらのデータ構造は、特異度によってランク付けされることになるＮ個のテキスト要素のセット２７（ここでは｛ｔ_ｉ｝によって示されており、ｉ＝１～Ｎ）と、単語埋め込みモジュール２３によって生成される埋め込みベクトルのセット２８と、図面においてテキストコーパス３０によって表される参照テキストからコンテキスト選択器２４によって選択されるテキストフラグメント（「コンテキストフラグメント」）のセット２９とを含む。テキスト要素｛ｔ_ｉ｝について特異度計算器２５によって生成される特異度スコアのセット３１（ここでは｛Ｓ_ｉ｝によって示されており、ｉ＝１～Ｎ）もシステムメモリ２１に記憶される。

一般には、ロジックモジュール２３～２５の機能は、ソフトウェア（プログラムモジュール等）若しくはハードウェア又はそれらの組み合わせによって実装されてよい。説明されている機能は、他の実施形態ではシステムモジュール間で異なるように割り当てられてよく、１つ又は複数のモジュールの機能が組み合わされてよい。システム２０のコンポーネントモジュールは、コンピューティングシステムの１つ又は複数のコンピュータにおいて提供されてよい。例えば、全てのモジュールがコンピュータ１において提供されてもよいし、モジュールは、ユーザコンピュータがランク付けされることになるテキストアイテムの入力のためにネットワーク（１つ若しくは複数のコンポーネントネットワーク若しくはインターネットワーク（インターネットを含む）又はその両方を含み得る）を介して接続することができる１つ又は複数のコンピュータ／サーバにおいて提供されてよい。システムメモリ２１は、システム２０の１つ又は複数のコンピュータに関連付けられた１つ又は複数のメモリ／記憶コンポーネントによって実装されてよい。

テキスト要素のセット｛ｔ_ｉ｝は、個々の単語若しくは複単語表現（ＭＷＥ：ｍｕｌｔｉｗｏｒｄｅｘｐｒｅｓｓｉｏｎ）又はその両方を含んでよく、特定の応用／領域のためにコンパイルされてもよいし、種々の応用において使用するために複数の領域にわたってもよい。本発明の幾つかの実施形態は、これらの要素の内在的な特異度を活用するために｛ｔ_ｉ｝内にＭＷＥを組み込む。ＭＷＥｔ_ｉのリストは、システムメモリ２１への記憶のために、以下で説明されるように手動又は自動のいずれかで事前コンパイルすることができる。

参照テキストコーパス３０は、ローカルであってもよいし、システム２０からリモートであってもよく、ランク付けされることになる要素｛ｔ_ｉ｝の領域にわたる１つ又は複数の情報源からのテキストを含んでよい。図２では単一のエンティティとして表されているが、参照テキストコーパスは、複数の情報源、例えば、データベース若しくはウェブサイト又はその両方にわたって分散されるコンテンツを含んでよく、これらには、ネットワークを介してシステムが動的にアクセスしてよい。幾つかの実施形態では、参照テキスト２８は、システム動作のために事前コンパイルされ、システムメモリ２１に記憶されてよい。

図３のフローチャート３００は、（テキスト要素ランク付け段階３４として指定される）システム２０によって実行されるランク付けプロセスの段階を示している。段階３５は、ランク付けされることになるテキスト要素のセット｛ｔ_ｉ｝の、システムメモリ２１への記憶を表す。段階３６において、単語埋め込みモジュール２３は、単語埋め込みスキームを介してテキスト要素ｔ_ｉごとに埋め込みベクトルを計算する。単語埋め込みスキームは、周知であり、本質的には、テキスト要素と、多次元埋め込み空間におけるそれぞれのテキスト要素のロケーションを規定する実数のベクトルとの間のマッピングを生成する。この空間におけるテキスト要素の相対ロケーションは、テキスト要素間の関係の度合いを示しており、埋め込み空間において「より近い」要素は、更に離れている要素よりも密接に関連している。特に、単語埋め込みの概念は、類似のテキストコンテキストにおいて現れる要素を、埋め込み空間において互いに近くにあるようにマッピングすることである。例えば、Ｗｏｒｄ２Ｖｅｃ、ＧｌｏＶｅ（ＧｌｏｂａｌＶｅｃｔｏｒｓ）若しくはＦａｓｔＴｅｘｔモデルを使用したコンテキスト非依存スキーム、又はＢＥＲＴ（トランスフォーマからの双方向エンコーダ表現（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ））モデル等のトランスフォーマアーキテクチャに基づいたモデルを含むコンテキスト依存スキームを含む、任意の所望の単語埋め込みスキームがここで利用されてよい。単語埋め込みスキームは、類似のコンテキストにおいて現れ、したがって、意味論的に類似の概念を表すテキスト要素の「クラウド」を生成することができる。単語埋め込みモジュール２３によって生成される埋め込みベクトルの各々は、このように、ここではχによって示されている埋め込み空間において対応するテキスト要素ｔ_ｉを位置特定する。結果として得られるベクトルは、システムメモリ２１内の２８において記憶される。

段階３７において、コンテキスト選択器モジュール２４は、ランク付けされることになる要素ｔ_ｉごとに参照テキスト３０からテキストフラグメントのセットを選択する。これらのテキストフラグメントの各々は、要素ｔ_ｉと、更なるテキスト要素（ここで、これらの更なるテキスト要素は、ランク付けされることになる他の要素ｔ_ｉのうちの１つ又は複数を含む場合も含まない場合もある）とを含む。例えば、コンテキスト選択器２４は、参照テキスト内の要素ｔ_ｉを含む数行のテキスト、文若しくはパラグラフ、又はテキスト内の所与の要素ｔ_ｉの周辺の単語のウィンドウを選択してよい。一般には、所与のテキスト要素を含む１つ又は複数のテキストフラグメントのセットがここで選択されてよく、幾つかの実施形態は、要素ごとに複数のフラグメントを選択する。選択されたテキストフラグメントは、（場合によっては、以下で説明される更なる処理の後に）コンテキストフラグメント２９としてシステムメモリ２１に記憶される。

段階３８～４０は、特異度計算器２５の動作を示している。これらの段階は、ランク付けされることになるテキスト要素ｔ_ｉごとに実行される。段階３８において、特異度計算器は、コンテキストフラグメント２９のセットから所与の要素ｔ_ｉを含むコンテキストフラグメントを取り出す。フラグメントごとに、特異度計算器２５は、埋め込み空間χにおける、要素ｔ_ｉと、そのフラグメント内の更なるテキスト要素との間のそれぞれの距離を計算する。これらの距離を計算するために、各更なるテキスト要素は、まず、単語埋め込みスキームを介して計算された対応する埋め込みベクトルによって埋め込み空間χにおいて位置特定されなれければならない。更なるテキスト要素についての埋め込みベクトルは、上記の段階３６において、例えば以下で詳述されるようにコンテキスト非依存埋め込みスキームを介して、事前計算されてもよいし、コンテキスト依存埋め込みスキームを介して動的に計算されてもよい。χにおけるｔ_ｉと更なるテキスト要素との間の距離は、これらの要素を表す２つのベクトル間のコサイン類似度として簡便に計算することができる。しかしながら、他の実施形態では、ユークリッド距離等の任意の簡便な距離メトリックが使用されてよい。段階３９において、特異度計算器は、要素ｔ_ｉについての特異度スコアを計算する。要素ｔ_ｉについての特異度スコアＳ_ｉは、段階３８においてその要素を含むコンテキストフラグメントから計算された距離に依存する。特異度スコアは、以下で説明されるように様々な方式でこれらの距離から計算されてよい。段階４０において、特異度スコアＳ_ｉは、システムメモリ２１内のセット３１に記憶される。全てのテキスト要素｛ｔ_ｉ｝についてコンテキストフラグメントを処理した後、特異度スコアの結果として得られるセット｛Ｓ_ｉ｝は、次に、特異度によってこれらのテキスト要素のランク付けを規定する。

上記の方法は、埋め込み空間χにおけるコンテキストフラグメント内のテキスト要素間の距離を使用することによる特異度の計算においてテキスト要素についてのコンテキストに対応する。単語埋め込みから抽出された情報にコンテキストを注入することによって、結果として得られる特異度スコアは、テキスト要素が現れるコンテキストの均質性の尺度を提供する。これは、非常に特異な用語が、より一般的な用語よりも均質なコンテキストにおいて現れる傾向があることに基づいて、特異度の真の尺度を提供する。例示的な例として、「情報隠蔽（ｉｎｆｏｒｍａｔｉｏｎｈｉｄｉｎｇ）」という用語は、ソフトウェアエンジニアリングにおいて内部状態を外部に露出しないデータ構造を設計するときに使用される非常に技術的な表現である。対照的に、「情報を隠蔽する（ｈｉｄｉｎｇｉｎｆｏｒｍａｔｉｏｎ）」は、多くの異なるコンテキストにおいて使用することができ、したがって現れるであろう用語である。それゆえ、上記の技法は、情報抽出アプリケーションの性能及びリソース効率性についての結果としての利点を有する、改善された特異度推定を提供する。この技法はまた、完全に教師なしであり、特異度スコアを、注釈付きトレーニングデータを必要とすることなくテキスト要素の任意のセットについて計算することが可能になる。

図４のダイアグラム４００は、本発明の幾つかの実施形態におけるより詳細なシステム実装を示している。この実施形態のシステム４５は、｛ｍ_ｉ｝によって示される、ＭＷＥの大規模セットをコンパイル及びランク付けするように適応される。このシステムの制御ロジック４６は、前述のように、単語埋め込みモジュール４７と、コンテキスト選択器４８と、特異度計算器４９とを含む。制御ロジックは、ＭＷＥ抽出器モジュール５０及びテキストエンコーダモジュール５１も含む。システムメモリ５３に記憶されるデータ構造は、概略的に５５において示される知識ベースからＭＷＥ抽出器５０によって自動的にコンパイルされるＭＷＥのセット５４｛ｍ_ｉ｝と、ＷＥ（単語埋め込み）コーパス５７として示されるテキストコーパスからテキストエンコーダ５１によって生成されるトークン化テキストデータセット５６とを含む。実用時には、知識ベース５５及びＷＥコーパス５７は、複数の情報源から収集されるか、又は複数の情報源にわたって分散されるコンテンツを表してよい。メモリ５３は、単語埋め込みモジュール４７によって生成される埋め込み行列５８、及び以下で更に説明される逆頻度のセット５９も記憶する。加えて、メモリ５３は、コンテキスト選択器４８によって生成されるコンテキストフラグメントのセット６０、及び以下で更に説明されるインスタンススコアのセット６１を、ＭＷＥ｛ｍ_ｉ｝について計算される特異度スコアの最終セット６２とともに、記憶する。

システム４５の動作は、図５～図８を参照して説明されることになる。図５のフローチャート５００は、埋め込み行列５８の生成に至る動作段階を示している。段階６５において、ＭＷＥ抽出器５０は、知識ベース５５にアクセスして、当該知識ベース内のハイパーリンクに関連付けられたＭＷＥを抽出する。（Ｗｉｋｉｐｅｄｉａ、ＤＢＰｅｄｉａ、Ｙａｇｏ等のような）知識ベースは、本質的には、概念が互いにリンクされる概念のグラフである。ＭＷＥ抽出器５０は、ハイパーリンクを通して探索することによって知識ベースからＭＷＥを抽出することができる。例えば、次の文（ハイパーリンクが下線によって示される）：「Ｉｎｔｈｅｒｍａｌｐｏｗｅｒｓｔａｔｉｏｎｓ，ｍｅｃｈａｎｉｃａｌｐｏｗｅｒｉｓｐｒｏｄｕｃｅｄｂｙａｈｅａｔｅｎｇｉｎｅｗｈｉｃｈｃｏｎｖｅｒｔｓｔｈｅｒｍａｌｅｎｅｒｇｙ，ｆｒｏｍｃｏｍｂｕｓｔｉｏｎｏｆａｆｕｅｌ，ｉｎｔｏｒｏｔａｔｉｏｎａｌｅｎｅｒｇｙ（火力発電所において、燃料の燃焼からの熱エネルギーを、回転エネルギーに変換する熱機関によって機械動力が生成される）」において、ＭＷＥ抽出器は、「ｈｅａｔｅｎｇｉｎｅ（熱機関）」及び「ｔｈｅｒｍａｌｅｎｅｒｇｙ（熱エネルギー）」を選択してよい。そのような知識ベースにおけるハイパーリンクは、手動で注釈付けされ、したがって高品質である。知識ベーステキストを単純にスキャンすることによって、ＭＷＥ抽出器５０は、膨大な数の良好に規定されたＭＷＥを抽出することができる。この例では、ＭＷＥ抽出器は、知識ベース５５を探索して、広範囲のトピックをカバーするＭＷＥの大規模辞書をコンパイルする。ＭＷＥの結果として得られるセット｛ｍ_ｉ｝５４は、段階６６においてメモリ５３に記憶される。

段階６７及び段階６８において、テキストエンコーダ５１は、トークン化テキスト内で、各ＭＷＥｍ_ｉが単一トークンとしてエンコードされ、かつコーパス内の他の単語がそれぞれのトークンとしてエンコードされるようにＷＥコーパス５７を前処理及びトークン化することによってトークン化テキスト５６を生成する。特に、段階６７において、テキストエンコーダは、図６のダイアグラム６００のデータフローにおいて概略的に示されるように、ＷＥコーパス５７を前処理する。ＭＷＥｍ_ｉのインスタンスは、未加工コーパス内で識別され、これらの各々は、連結され、個々の単語として扱われる。例えば、ＭＷＥ「ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ（機械学習）」は、「ｍａｃｈｉｎｅ＿ｌｅａｒｎｉｎｇ」として連結される。（「ａ」、「ａｎｄ」、「ｗａｓ」等のような）全てのユニット及びストップワード（ｓｔｏｐｗｏｒｄ）も、前処理中に除去され、全ての大文字が小文字に変更される。結果として得られるテキストは、次に、単語埋め込みをトレーニングするために文に分割される。図５の段階６８において、前処理されたテキストは、全ての残りの単語及びＭＷＥをそれぞれの単一トークンとしてエンコードすることによってトークン化される。ここではワンホットエンコードが簡便に利用されるが、当然ながら他のエンコードスキームを想定することができる。それゆえ、各トークンは、特定の単語／ＭＷＥを表し、その単語／ＭＷＥが、それが前処理されたテキストにおいて現れる場合には常に対応するトークンに置き換えられる。結果として得られるトークン化テキスト５６は、システムメモリ５３に記憶される。

段階６９において、単語埋め込みモジュール４７は、トークン化テキスト５６を処理して、埋め込み行列５８を生成する。この実施形態では、テキスト５６におけるトークン化文が使用されて、既知のＣＢＯＷ（ＣｏｍｍｏｎＢａｇＯｆＷｏｒｄｓ（コモンバッグオブワード））及びネガティブサンプリング技法（例えば、「Ｄｉｓｔｒｉｂｕｔｅｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｏｆｗｏｒｄｓａｎｄｐｈｒａｓｅｓａｎｄｔｈｅｉｒｃｏｍｐｏｓｉｔｉｏｎａｌｉｔｙ」Ｍｉｋｏｌｏｖｅｔａｌ．，ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ２６，２０１３，ｐｐ．３１１１－３１１９を参照）を使用してＷｏｒｄ２Ｖｅｃ埋め込みモデルがトレーニングされる。この結果、図６において概略的に示されるように、前処理されたテキスト内のそれぞれのＭＷＥ／単語に対応するトークンの各々に１つずつ、埋め込みベクトルのセットが得られる。ベクトルのこのセットは、段階７０においてシステムメモリ５３に記憶される埋め込み行列５８を構成する。それゆえ、結果として得られる埋め込み行列は、ランク付けされることになるテキスト要素（ここではＭＷＥ）と、コンテキスト選択器４８によって参照テキストコーパス３０から選択されるテキストフラグメント内に含まれる更なるテキスト要素とに対応する埋め込みベクトルを含む。（これに関して、別個の参照テキストコーパス３０が図４において示されているが、他の実施形態では、ＷＥコーパス５７がコンテキストフラグメントについての参照テキストとして機能してよく、それによって、埋め込みベクトルがコンテキストフラグメント内の全てのテキスト要素のために利用可能になる。）

ＷＥコーパス５７を処理するとき、埋め込みモジュール４７は、前処理されたコーパス内の各テキスト要素（ここでは全体的にｗによって示されるＭＷＥ又は単語）のインスタンスの数をカウントする。要素ｗごとに、埋め込みモジュールは、その要素の逆発生頻度ｆ（ｗ）を計算する。ｍ個の単語のコーパス内でｎ回現れる要素ｗの逆発生頻度は、ｆ（ｗ）＝ｍ／ｎとして定義される。要素ｗについての逆頻度ｆ（ｗ）のセットは、システムメモリ５３内の５９において記憶される。

コンテキスト選択器４８の動作は、ここでは、図７のダイアグラム７００のデータフローにおいて示されている。この例では、コンテキスト選択器４８は、ＷＥコーパス５７とは別個である参照テキストコーパス３０を使用する。図７の段階（ａ）において、コンテキスト選択器は、参照コーパス３０から文を抽出する。段階（ｂ）において、文におけるＭＷＥｍ_ｉの全てのインスタンスが、図面におけるボールド体及び連結によって示されるように、識別及びマーク付けされる。段階（ｂ）において取り消し線によって示されるように、全ての一般的なストップワード、ユニット及び数字も識別され、これらは、段階（ｃ）において処理された文を取得するために除去される。ＭＷＥｍ_ｉのインスタンスを含む各処理された文は、コンテキストフラグメントとして選択される。コンテキスト選択器は、次に、段階（ｄ）において示されているようにここでは「バッグオブワード」（ＢＯＷ）として、セット６０内に各コンテキストフラグメントを記憶する。

図８のフローチャート８００は、この実施形態における特異度計算器４９の動作を示している。段階７５において、特異度計算器は、フラグメントセット６０からコンテキストフラグメントを選択する。後続の段階７６～段階７８が、次に、選択されたフラグメントについて、ＢＯＷ内のＭＷＥｍ_ｉごとに実行される。段階７６において、特異度計算器は、埋め込み空間χにおける、埋め込みベクトルが埋め込み行列５８内に含まれるＢＯＷ内のＭＷＥｍ_ｉと各更なるテキスト要素（ＭＷＥ／単語）ｗとの間の距離を計算する。ここではｄ（ｍ_ｉ，ｗ）によって示される距離は、それぞれｍ_ｉ及びｗを表す２つのベクトル間のコサイン類似度として計算される。これにより、範囲（－１，＋１）内の数字がもたらされ、より高い数字は、埋め込み空間χにおいてより近い要素ｍ_ｉ及びｗを示す。

特異度計算器は、次に、現在のフラグメントについて段階７６において計算された距離からＭＷＥｍ_ｉについてのインスタンススコア６１を計算する。この実施形態では、各距離ｄ（ｍ_ｉ，ｗ）は、要素ｗについてセット５９内に記憶された逆発生頻度ｆ（ｗ）に基づいてまず重み付けされ、ＭＷＥｍ_ｉについてのインスタンススコアは、フラグメントについての重み付き距離の関数として計算される。特に、段階７８において、特異度計算器は、そのフラグメントについての重み付き距離を集約することによってインスタンススコアを取得する。この例では、ＭＷＥｍ_ｉ及び更なる要素ｗ_１、...、ｗ_ｋを含むＢＯＷを与えられると、インスタンススコアＴ_ｉが、

として計算される。

判断段階７９において更なるコンテキストフラグメントが処理されることになる場合、動作は、段階７５に戻り、ここで、次のフラグメントがセット６０から選択され、上記のように処理される。段階７９において全てのコンテキストフラグメントが処理済みになると、動作は段階８０に進む。ここで、ＭＷＥｍ_ｉごとに、特異度計算器４９は、ｍ_ｉについてのインスタンススコアＴ_ｉの関数として特異度スコアＳ_ｉを計算する。この実施形態では、特異度スコアＳ_ｉは、ここでは単純平均：

として、インスタンススコアＴ_ｉを集約することによって計算される。ＭＷＥについての最終特異度スコアＳ_ｉは、このように、参照コーパス全体にわたるＭＷＥについてのインスタンススコアＴ_ｉを集約するコーパスレベルスコアである。特異度スコアの結果として得られるセット６２｛Ｓ_ｉ｝は、特異度によってＷＥコーパス５７内の全てのＭＷＥｍ_ｉをランク付けする。

上記の逆頻度によって距離を重み付けすることにより、一般的な（及びおそらくより一般的な）要素ｗの寄与にペナルティが科され、平均をより一般的ではない（及びおそらくより特異な）要素に向けるバイアスが与えられる。ＭＷＥの大規模辞書を有する大規模の多様なＷＥコーパス５７から埋め込み行列５８を生成することによって、上記のシステムは、広範囲の応用において使用するために特異度スコアを自動的に生成することができる。しかしながら、一般には、特異度スコア｛Ｓ_ｉ｝は、埋め込み空間χにおける、ＭＷＥ若しくは個々の単語又はその両方についてのトークンの任意のサブセットについて計算されてよく、このサブセットは、所与の分野又は応用に特異であり得る。埋め込み行列５８は、他の実施形態では特異な技術分野／応用に関連したＭＷＥ／単語についても生成されてよい。

図９Ａすなわち９００ａ及び図９Ｂすなわち９００ｂの表は、図４のシステムの実装によって生成される特異度ランク付けからの抽出を示している。図９Ａの結果は、１５０万件の特許の要約書を含む参照テキストコーパスを使用して取得した。図９Ｂの結果は、ａｒＸｉｖ論文からの１２０万件の要約を含む参照テキストコーパスを使用して取得した。両方の結果のセットは、１億件を超えるニュース記事のＷＥコーパスから構築された埋め込み行列を使用した。図９Ａは、単語「ｋｎｏｗｌｅｄｇｅ（知識）」を含むトークンを有する１０個の最高スコアＭＷＥ及び１０個の最低スコアＭＷＥについての特異度スコアを示している。図９Ｂは、単語「ｌａｎｇｕａｇｅ（言語）」を含むトークンを有する１０個の最高スコアＭＷＥ及び１０個の最低スコアＭＷＥを示している。スコアは列挙されているＭＷＥの特異度と良好に相関することがあり得る。これらの例は、上記の技法によって計算される特異度スコアが、大規模参照コーパスにわたって計算されるインスタンススコアの単純平均としてでさえ、より一般的な表現から非常に技術的なＭＷＥを確実に区別することができることを実証している。

特異度ランク付け技法は、多数のデータ処理アプリケーションの動作を向上させるために使用することができ、この技法において、特異度によってテキスト要素をランク付けした後、特異度スコアは、所望の特異度を有するデータを抽出するためにテキストデータ構造を処理する際に使用される。特異度スコアの使用は、様々な目的で様々なデータ構造から関連データを抽出するのに必要とされる処理リソースを削減することができ、抽出されたデータの品質を改善することができ、それゆえ、これらのデータ構造を使用してアプリケーションの性能が向上される。幾つかの例示的な応用が、図１０から図１３を参照して以下で説明される。

図１０のフローチャート１０００は、大規模テキストコーパスから知識を抽出する知識誘導システムの動作を示している。そのような応用は、一般的に、クラウド内のデータベース／ウェブサイトからマイニングされる膨大な量のテキストを処理する。段階８５は、分析されることになるクラウドデータの記憶を表す。段階８６において、上記で説明されたランク付け方法は、特異度によってこのデータ内のテキスト要素をランク付けするために利用される。段階８７において、クラウドデータは、特異度スコアに基づいて、コーパス内の最も特異なテキスト要素、例えば、規定された閾値よりも高い特異度スコアを有するテキスト要素のセットを識別するためにフィルタリングされる。段階８８において、次に、知識グラフ（ＫＧ）が、フィルタリングされたデータから構築される。知識グラフは、産業応用、商業応用又は科学応用のために大量のデータから有意な知識を抽出するのに一般的に使用される周知のデータ構造である。知識グラフは、本質的には、エンティティを表すノードを含み、ノードは、接続されたエンティティ間の関係を表すエッジによって相互接続されている。段階８８において構築された知識グラフは、それゆえ、最も特異なテキスト要素の識別されたセット内の要素に対応するノードを含み、ノードは、それらのノード間の関係を表すエッジによって相互接続されている。（そのような関係は、当業者には明らかとなるように、特定の応用について様々な方式で規定することができる）。結果として得られる知識グラフは、グラフ内で表される情報を抽出するために探索することができるデータ構造を提供する。段階８９における入力探索クエリに応答して、システムは、次に、段階９０においてグラフを探索して、データ構造からリクエストされたデータを抽出する。この応用において知識グラフを構築するのに使用されるデータをフィルタリングすることは、データ構造のサイズ、したがってグラフを記憶するのに必要とされるメモリを大幅に削減することができ、それと同時に、大半の情報を含む最も特異なデータが保持されることが確保される。探索動作の計算強度（ｃｏｍｐｕｔｅｉｎｔｅｎｓｉｔｙ）も同様に削減され、探索結果は、より特異な、典型的にはより有用な、情報に絞られる。

特異度スコアの別の応用は、探索プロセスのためのキーワードセットの拡張に関する。図１１のフローチャート１１００は、そのようなシステムの動作を示している。段階９５は、潜在埋め込み空間においてそれぞれのテキスト要素を位置特定するベクトルを含む単語埋め込み行列のシステムへの記憶を表す。そのような行列は、図４の埋め込み行列５８と同様の様式で生成することができ、１つ又は複数の技術分野における広範囲の単語／ＭＷＥをエンコードしてよい。段階９６において、埋め込み行列内のテキスト要素は、上記で説明されたように特異度によってランク付けされる。段階９７は、ユーザによる、探索されることになる分野に関する埋め込み行列内のベクトルによって表されるキーワードの入力を表す。段階９８において、システムは、次に、そのキーワード周辺の埋め込み空間を探索して、埋め込み空間における近傍テキスト要素を識別する。様々なクラスタリング／最近傍探索プロセスをここで利用することができ、探索プロセスは、入力されたキーワードの近傍の最も特異なテキスト要素（例えば、所望の閾値を超える特異度スコアを有する要素）のセットを位置特定するように適応される。段階９９において、このように識別されたテキスト要素は、ユーザ入力キーワードとともに、拡張されたキーワードセットとして記憶される。拡張されたキーワードセットは、その後、例えばセット内のキーワードをコーパス内のドキュメントに文字列マッチングすることによって、テキストコーパスを探索するのに使用して、必要とされる分野における関連ドキュメントを識別することができる。この応用における特異度スコアの使用は、小さいユーザ入力キーワードセットを、非常に特異な関連したキーワードを用いて自動的に拡張することを可能にし、所与の分野における関連ドキュメントの位置特定が容易になる。この応用の特定の例は、テキスト分類器モデルをトレーニングするためのトレーニングドキュメントを収集するためのものである。

図１２のフローチャート１２００は、自動化フレーズ抽出システムにおける特異度スコアの使用を示している。フレーズ抽出システムは、周知であり、抽出／要約の目的でドキュメントからテーマフレーズ又はキーフレーズを抽出するのに使用することができる（例えば、「Ｋｅｙ２Ｖｅｃ：Ａｕｔｏｍａｔｉｃｒａｎｋｅｄｋｅｙｐｈｒａｓｅｅｘｔｒａｃｔｉｏｎｆｒｏｍｓｃｉｅｎｔｉｆｉｃａｒｔｉｃｌｅｓｕｓｉｎｇｐｈｒａｓｅｅｍｂｅｄｄｉｎｇｓ」Ｍａｈａｔａｅｔａｌ．，Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１８ＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＮｏｒｔｈＡｍｅｒｉｃａｎＣｈａｐｔｅｒｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ：ＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｉｅｓ，Ｖｏｌｕｍｅ２，Ｊｕｎｅ２０１８，ｐｐ．６３４－６３９」を参照）。これらのシステムは、多くの場合、ドキュメント内の候補キーフレーズのためのグラフベース表現を使用する。候補フレーズを表すノードは、関連付けられた重み（意味的類似度、発生頻度等に依存する）を有する、ノード間の関係を表すエッジによって相互接続され、これらは次に、最良の候補を選択するのに使用される。図１２の段階１００は、候補フレーズのためのグラフを生成する通常テキスト処理動作を表す。段階１０１において、グラフ内のテキスト要素は、上記で説明された方法を使用して特異度によってランク付けされる。段階１０２において、グラフは、候補フレーズ内のテキスト要素についての特異度スコアに依存して剪定されて、これらのフレーズの最も特異なサブセットを表すサブグラフが取得される。この最も特異なサブセットは、所望の閾値を超える特異度スコアを有するテキスト要素を含むフレーズを含んでよい。段階１０３において、結果として得られるサブグラフは、次に、このサブグラフから最良の候補フレーズを抽出するために通常の方式で処理される。そのような処理は、所望の目的で最良のフレーズを抽出するために様々なグラフ特徴に基づいてノードをスコア付けすることを伴ってよい。

図１３のフローチャート１３００は、探索システムにおける特異度スコアの使用を示している。段階１０５において、ここで、探索データベース内のテキスト要素は、上記で説明されたように特異度によってランク付けされる。段階１０６における探索クエリの入力に応答して、システムは、クエリテキスト内の任意のランク付けされたテキスト要素を識別する。段階１０８において、システムは、そのように識別された任意のランク付けされたテキスト要素についての特異度スコアに依存して探索データベースからデータを抽出することによって探索クエリに対する応答を生成する。応答は、ここでは、ユーザに対する代替の探索クエリを提案することであるか、又は探索データベースからリクエストされたデータを取り出すことであってよい。特異度スコアは、ここでは、入力クエリにおける最高特異度スコアを有する要素に基づいて最も関連した代替のクエリ又は応答データを識別するのに使用することができる。特異度スコアは、ユーザの知識の度合いを評価し、それに応じて結果を返すのに使用されてもよい。例えば、非常に特異なテキスト要素を含む入力クエリは、知識が豊富なユーザがより詳細な結果を望んでいることを示唆し、その一方、低特異度クエリは、ユーザがより一般的な、高レベルの結果を必要としていることを示唆する。

特異度ランク付け技法は、様々な処理アプリケーションにおいてより効率的な処理及び改善された結果を提供し、知識抽出動作に必要とされるメモリ及び処理リソースを削減することができることが見て取られるであろう。

本発明を具現化する方法は、非常に特異なテキスト要素、例えば、技術的概念を表すテキスト要素は、本質的に均質であるテキスト上のコンテキストにおいて現れる傾向があるという理解を前提としている。これらの方法は、参照テキストのフラグメントを使用して、ランク付けされることになるテキスト要素についてのコンテキストを提供する。その場合、所与のテキスト要素についての特異度スコアは、埋め込み空間における、そのテキスト要素と、その要素を含む選択されたテキストフラグメント内の他のテキスト要素との間の距離に基づく。本発明を具現化する方法は、上述の理解に基づいて、結果として得られる特異度スコアが、テキスト要素が現れるコンテキストの均質性の尺度を提供するように、単語埋め込みから抽出された情報におけるテキスト要素についてのコンテキストの対応を構築する。これは、テキスト要素の特異度を捕捉する明解に単純な技法を提供し、特異度の改善された推定及びそのような推定値を使用した処理システムの向上された性能が提供される。

複数のテキスト要素をランク付けした後、本発明を具現化する方法は、テキスト要素についての特異度スコアを使用してテキストデータ構造を処理して、データ構造から所望の特異度を有するデータを抽出してよい。特異度スコアを使用することは、様々な応用においてデータ構造から関連データを抽出するのに必要とされる処理リソースを削減することができ、抽出されたデータの品質を改善することができ、それゆえ、性能が向上される。例えば、特異度スコアは、例えば不要な要素を除去するためにグラフを剪定することによって、知識グラフ等の探索構造を記憶するのに必要とされるメモリを削減するフィルタリング機構として使用することができるので、そのようなグラフに対して実行される探索動作の計算強度が削減される。他のテキストデータ構造、及びこれらの構造を利用する処理応用の例が、以下でより詳細に説明される。

一般には、ランク付けされることになるテキスト要素は、単一単語テキスト要素（すなわち、個々の単語）若しくは複単語表現（すなわち、少なくとも２つの単語を含むテキスト要素）又はその両方を含んでよい。複単語表現は、特定の意味をまとめて伝達する又は言語分析の或るレベルにおける意味単位として作用する、分離複合語又はフレーズ等の単語の組み合わせを含む。幾つかの実施形態では、ランク付けされることになる複数のテキスト要素は、複単語表現を含み、これらが多くの場合に単一単語よりも内在的に特異であることが活用される。その場合、複単語表現ごとに単一の埋め込みベクトルが計算され、すなわち、複単語表現は、埋め込みプロセスのための単一単語であるかのように扱われる。ランク付けされることになるテキスト要素は、当然ながら、個々の単語、及び望まれる場合には複単語表現を含んでよい。

本発明の幾つかの実施形態は、参照テキストからランク付けされることになる各テキスト要素を含む複数のテキストフラグメントを選択する。ランク付けされることになる要素を含むテキストフラグメント（例えば、文）ごとに、これらの実施形態は、そのフラグメント内のテキスト要素と更なるテキスト要素との間の距離に依存するインスタンススコアを計算する。テキスト要素についての特異度スコアは、次に、その要素を含む複数のテキストフラグメントについてのインスタンススコアの関数として計算される。特異度スコアの正確性は、一般的に、テキスト要素についてのコンテキストとして選択されるテキストフラグメントの数の増加とともに改善する。本発明の幾つかの実施形態では、参照テキストは、テキストコーパスを含み、ランク付けされることになるテキスト要素ごとに、テキストコーパスのフラグメントは、コーパス内のそのテキスト要素のインスタンスごとに選択される。

テキストフラグメントからインスタンススコアを計算する際、幾つかの実施形態は、ランク付けされることになるテキスト要素と、各更なるテキスト要素との間の距離を、テキストコーパス、例えば、埋め込みベクトルを計算するのに使用されるコーパス内のその更なるテキスト要素の逆発生頻度（以下で説明される）によって重み付けする。インスタンススコアは、フラグメントについてのこれらの重み付き距離の関数として計算される。この重み付けは、より一般的な単語の寄与にペナルティを科すように機能し、頻度が低い単語により重みが与えられ、それゆえ、特異度スコアの正確性が向上する。

埋め込みベクトルは、コンテキスト非依存又はコンテキスト依存埋め込みスキームを含み得る任意の簡便な単語埋め込みスキームによって計算されてよい。コンテキスト非依存単語埋め込みスキームは、テキストコーパスを処理して、テキスト内の選択されたテキスト要素（ここでは単語若しくは複単語表現又はその両方）についての埋め込みベクトルを含む埋め込み行列を生成する。コンテキスト依存スキームは、任意の入力テキストを取り込み、そのテキストについての埋め込みベクトルを出力することができる埋め込みモデルを利用する。コンテキスト非依存埋め込みを使用した実施形態は、特により技術的な用語について、特異度計算において向上した精度を提供することが判明している。したがって、特定の方法は、テキストコーパスを処理して、埋め込み行列を生成する。特に、幾つかの実施形態は、トークン化テキスト内で、ランク付けされることになるテキスト要素の各々が単一トークンとしてエンコードされ、かつコーパス内の他の単語がそれぞれのトークンとしてエンコードされるように、テキストコーパスをトークン化する。トークン化テキストは、次に、単語埋め込みスキームを介して処理されて、ランク付けされることになるテキスト要素と、コンテキストの目的で選択されたテキストフラグメントから抽出されることになる更なるテキスト要素とに対応する埋め込みベクトルを含む埋め込み行列が生成される。複数の単一トークンとしてエンコードされることになる複単語表現のセットは、コーパスをトークン化する前に記憶することができる。本発明の幾つかの実施形態は、テキストデータセットを処理することによって、例えば、大規模ドキュメントセットからの表現の自動抽出によって、又はオンライン知識ベースからのテキスト内の複単語表現を含むハイパーリンクを識別することによって、自動的に複単語表現のセットをコンパイルすることができる。このようにして、複単語表現の大規模辞書を、埋め込みプロセスのためにコンパイルすることができる。これらの全て又はサブセットは、次に、必要に応じて特異度によってランク付けすることができる。

当然ながら、説明された例示的な実施形態に対して多数の変更及び修正を行うことができることが理解されるであろう。例えば、ランク付けされることになるＭＷＥの辞書は、他の実施形態では自動化フレーズ抽出システムによって抽出されてよい。インスタンススコアは、距離又は重み付き距離を平均、総和又は別様に集約することによって様々な方式で計算することができ、特異度スコアは、インスタンススコア又は基礎となる距離の他の関数として計算されてよい。例示として、特異度スコアは、例えば分布からの最高インスタンススコア及び最低インスタンススコアを除去した後の統計平均として、要素についてのインスタンススコアの分布の統計処理に基づいてよい。

フロー図の段階は、示されたものと異なる順序で実装されてよく、幾つかの段階は、適切な場合には並列に実行されてよい。一般には、特徴が本発明を具現化する方法を参照して本明細書において説明される場合、対応する特徴は、本発明を具現化するコンピューティングシステム／コンピュータプログラム製品において提供されてよく、その逆もまた然りである。

本発明の様々な実施形態の説明は、例示の目的で提示されるが、網羅的であることとも、開示される実施形態に限定されることも意図されていない。説明される実施形態の範囲及び趣旨から逸脱することなく、多くの修正及び変形が、当業者には明らかであろう。本明細書において使用される専門用語は、実施形態の原理、市場で見られる技術の実用的な応用若しくはそれに対する技術的改善を最も良好に説明し、又は、本明細書において開示される実施形態を他の当業者が理解することを可能にするように選択されている。

Claims

複数のテキスト要素をランク付けするコンピュータ実装方法であって、
単語埋め込みスキームを介して、埋め込み空間においてランク付けされることになる複数のテキスト要素のうちの第１のテキスト要素を位置特定する埋め込みベクトルを計算する段階と、
参照テキストからテキストフラグメントのセットを選択する段階であって、各テキストフラグメントは、前記第１のテキスト要素とランク付けされることになる少なくとも１つの他のテキスト要素とを含む、段階と、
テキストフラグメントごとに、前記埋め込み空間における、前記単語埋め込みスキームを介して計算された埋め込みベクトルによって前記空間において各々位置特定される、ランク付けされることになる前記少なくとも１つの他のテキスト要素と、ランク付けされることになる前記第１のテキスト要素との間のそれぞれの距離を計算する段階と、
ランク付けされることになるテキスト要素について、前記埋め込み空間における前記それぞれの距離に依存して、特異度スコアを計算する段階と、
前記特異度スコアを記憶する段階であって、前記複数のテキスト要素についての前記特異度スコアは、特異度によって前記テキスト要素のランク付けを規定する、段階と
を備える、方法。
ランク付けされることになる前記複数のテキスト要素は、複単語表現を含む、請求項１に記載の方法。
ランク付けされることになる前記複数のテキスト要素は、単一単語テキスト要素を含む、請求項１に記載の方法。
テキストコーパスを、
ランク付けされることになる前記テキスト要素の各々が単一トークンとしてエンコードされ、かつ前記テキストコーパス内の他の単語がそれぞれのトークンとしてエンコードされるように前記テキストコーパスをトークン化することと、
前記単語埋め込みスキームを介して前記トークン化されたテキストを処理して、ランク付けされることになる前記テキスト要素と、ランク付けされることになる前記少なくとも１つの他のテキスト要素とに対応する前記埋め込みベクトルを含む埋め込み行列を生成することと
によって処理する段階
を更に備える、請求項１に記載の方法。
前記テキストコーパスをトークン化する前に複単語表現のセットを記憶する段階と、
前記テキストコーパスをトークン化する間、複単語表現の前記セット内の各複単語表現を単一トークンとしてエンコードする段階と
を更に備える、請求項４に記載の方法。
複単語表現の前記セットを、テキストデータセットを処理することによって、コンパイルする段階を更に備える、請求項５に記載の方法。
ランク付けされることになるテキスト要素ごとに、
前記参照テキストから前記第１のテキスト要素を含む複数のテキストフラグメントを選択する段階と、
テキストフラグメントごとに、前記テキストフラグメント内のランク付けされることになる前記第１のテキスト要素と、前記少なくとも１つの他のテキスト要素との間の前記距離に依存してインスタンススコアを計算する段階と、
前記複数のテキストフラグメントについての前記インスタンススコアの関数として前記特異度スコアを計算する段階と
を更に備える、請求項１に記載の方法。
テキストフラグメントごとに、
テキストコーパス内の前記更なるテキスト要素の発生頻度の逆数によって、ランク付けされることになる前記第１のテキスト要素と前記少なくとも１つの他のテキスト要素の各々との間の前記距離を重み付けする段階と、
前記テキストフラグメントについての前記重み付き距離の関数として前記インスタンススコアを計算する段階と
を更に備える、請求項７に記載の方法。
ランク付けされることになるテキスト要素ごとに、
前記テキストフラグメントについての重み付き距離を集約することによって、複数のテキストフラグメントの各々についてのインスタンススコアを計算する段階と、
前記複数のテキストフラグメントについての前記インスタンススコアを集約することによって、前記特異度スコアを計算する段階と
を更に備える、請求項１に記載の方法。
前記参照テキストは、テキストコーパスを含み、
ランク付けされることになるテキスト要素ごとに、前記テキストコーパスのフラグメントは、前記テキストコーパス内の前記第１のテキスト要素のインスタンスごとに選択される、請求項７に記載の方法。
各テキストフラグメントは、文を含む、請求項１に記載の方法。
前記複数のテキスト要素をランク付けした後、前記テキスト要素についての前記特異度スコアを使用してテキストデータ構造を処理して、前記テキストデータ構造から所望の特異度を有するデータを抽出する段階を備える、請求項１から１１のいずれか一項に記載の方法。
前記テキストデータ構造は、テキストのコーパスを含み、前記方法は、
前記コーパス内のテキスト要素についての前記特異度スコアを使用して、前記コーパス内の最も特異なテキスト要素のセットを含む知識グラフを構築する段階と、
探索クエリの入力に応答して、前記知識グラフを探索して、前記探索クエリに関するデータを抽出する段階と
を更に備える、請求項１２に記載の方法。
前記テキストデータ構造は、潜在空間においてそれぞれのテキスト要素を位置特定するベクトルを含む単語埋め込み行列を含み、前記方法は、
前記潜在空間におけるベクトルに対応するテキスト要素の入力に応答して、前記特異度スコアに基づいて、前記潜在空間において前記入力されたテキスト要素の近傍の最も特異なテキスト要素のセットを識別する段階
を更に備える、請求項１２に記載の方法。
前記テキストデータ構造は、テキストフレーズを表すノードを有するグラフを含み、前記グラフは、ノード間の関係を表すエッジによって相互接続され、前記方法は、
前記テキストフレーズ内のテキスト要素についての特異度スコアに依存して前記グラフを剪定して、前記テキストフレーズの最も特異なサブセットを表すサブグラフを取得する段階と、
前記サブグラフを処理して所望のフレーズを抽出する段階と
を更に備える、請求項１２に記載の方法。
前記テキストデータ構造は、探索データベースを含み、前記方法は、
探索クエリの入力に応答して、
前記探索クエリ内の任意のランク付けされたテキスト要素を識別する段階と、
そのように識別された任意のランク付けされたテキスト要素についての前記特異度スコアに依存して前記探索データベースからデータを抽出することによって前記探索クエリに対する応答を生成する段階と
を備える、請求項１２に記載の方法。
複数のテキスト要素をランク付けするコンピュータプログラムであって、
コンピュータコードであって、前記コンピュータコードは、１つ又は複数のプロセッサのセットに、以下の動作、すなわち、
単語埋め込みスキームを介して、埋め込み空間においてランク付けされることになる複数のテキスト要素のうちの第１のテキスト要素を位置特定する埋め込みベクトルを計算する動作と、
参照テキストからテキストフラグメントのセットを選択する動作であって、各テキストフラグメントは、前記第１のテキスト要素とランク付けされることになる少なくとも１つの他のテキスト要素とを含む、動作と、
テキストフラグメントごとに、前記埋め込み空間における、前記単語埋め込みスキームを介して計算された埋め込みベクトルによって前記空間において各々位置特定される、ランク付けされることになる前記少なくとも１つの他のテキスト要素と、ランク付けされることになる前記第１のテキスト要素との間のそれぞれの距離を計算する動作と、
ランク付けされることになるテキスト要素について、前記埋め込み空間における前記それぞれの距離に依存して、特異度スコアを計算する動作と、
前記特異度スコアを記憶する動作であって、前記複数のテキスト要素についての前記特異度スコアは、特異度によって前記テキスト要素のランク付けを規定する、動作と
を含む動作を実行させる命令及びデータを有する、コンピュータコード
を備える、コンピュータプログラム。
前記動作は、前記複数のテキスト要素をランク付けした後、テキスト要素についての前記特異度スコアを使用してテキストデータ構造を処理して、前記テキストデータ構造から所望の特異度を有するデータを抽出する動作を更に含む、請求項１７に記載のコンピュータプログラム。
複数のテキスト要素をランク付けするコンピューティングシステムであって、
１つ又は複数のプロセッサのセットと、
機械可読記憶デバイスと、
前記機械可読記憶デバイス上に記憶されたコンピュータコードであって、前記コンピュータコードは、前記１つ又は複数のプロセッサのセットに、以下の動作、すなわち、
単語埋め込みスキームを介して、埋め込み空間においてランク付けされることになる複数のテキスト要素のうちの第１のテキスト要素を位置特定する埋め込みベクトルを計算する動作と、
参照テキストからテキストフラグメントのセットを選択する動作であって、各テキストフラグメントは、前記第１のテキスト要素とランク付けされることになる少なくとも１つの他のテキスト要素とを含む、動作と、
テキストフラグメントごとに、前記埋め込み空間における、前記単語埋め込みスキームを介して計算された埋め込みベクトルによって前記空間において各々位置特定される、ランク付けされることになる前記少なくとも１つの他のテキスト要素と、ランク付けされることになる前記第１のテキスト要素との間のそれぞれの距離を計算する動作と、
ランク付けされることになるテキスト要素について、前記埋め込み空間における前記それぞれの距離に依存して、特異度スコアを計算する動作と、
前記特異度スコアを記憶する動作であって、前記複数のテキスト要素についての前記特異度スコアは、特異度によって前記テキスト要素のランク付けを規定する、動作と
を含む動作を実行させる命令及びデータを有する、コンピュータコードと
を備える、コンピューティングシステム。
前記動作は、前記複数のテキスト要素をランク付けした後、テキスト要素についての前記特異度スコアを使用してテキストデータ構造を処理して、前記テキストデータ構造から所望の特異度を有するデータを抽出する動作を更に含む、請求項１９に記載のコンピューティングシステム。