JP2022508737A

JP2022508737A - 自然言語文書を検索するシステム

Info

Publication number: JP2022508737A
Application number: JP2021545331A
Authority: JP
Inventors: アルヴェラ、サカリ; カリオ、ジュホ; ビョルククビスト、セバスチャン
Original assignee: Iprally Technologies Oy
Current assignee: Iprally Technologies Oy
Priority date: 2018-10-13
Filing date: 2019-10-13
Publication date: 2022-01-19
Also published as: WO2020074786A1; FI20185863A1; CN113196277A; US20210350125A1; EP3864564A1

Abstract

本発明は、自然言語検索システムおよび方法を提供するものである。このシステムは、自然言語の複数のブロックと、前記ブロックに対応するデータ・グラフとを記憶するデジタルデータ記憶手段を備える。第１のデータ処理手段は、前記ブロックを、前記記憶手段に記憶されている前記グラフに変換するように適合されている。前記グラフは、前記ブロックから抽出された自然言語ユニットをノード値として含む複数のノードを含む。前記グラフをトラベルし、前記グラフのノード構造および前記グラフのノード値に基づいて学習済みの機械学習モデルを形成するためにノード値を読み取ることが可能な機械学習アルゴリズムを実行する第２のデータ処理手段と、フレッシュなグラフを読み取り、フレッシュなグラフに基づいて自然言語の前記ブロックのサブセットを決定するために前記モデルを利用するように適合された第３のデータ処理手段とが設けられている。

Description

発明の分野
本発明は、自然言語処理に関するものである。特に、本発明は、自然言語を含む文書を検索、比較、または分析するための、ニューラルネットワークベースなどの機械学習ベースのシステムおよび方法に関するものである。文書は、技術文書または科学文書であってもよい。特に、文書は、特許文書であってもよい。

発明の背景
文書化された技術的概念の比較は、ビジネス、産業、経済、文化の多くの分野で必要とされている。具体的な例としては、特許出願の審査がある。この審査では、特許出願のクレームで定義された技術的概念が、他の文書で定義された別の技術的概念を意味的にカバーしているかどうかを判断することが目的となる。

現在、個々の文書を見つけるための検索ツールは増えてきたが、文書で開示される概念の分析や比較は、単語、文章、およびより大きなエンティティの意味を人間が推論するという、マニュアル作業によるものがほとんどである。

自然言語処理に関する科学的研究により、コンピュータで自動的に言語を解析するためのツールが開発された。これらのツールは、テキストのトークン化、品詞（パート・オブ・スピーチ）のタグ付け、エンティティの認識、単語やエンティティ間の依存関係の識別などに利用できる。

また、特許文書からキーコンセプトを抽出して、テキストの要約や技術動向の分析などを目的とした特許の自動分析も科学的に行われている。

近年、単語の意味をコンピュータで処理可能な数値形式にマッピングするために、多次元の単語ベクトルを用いた単語埋め込みが重要なツールとなっている。このアプローチは、リカレント・ニューラル・ネットワークなどのニューラル・ネットワークで利用することができ、コンピュータに文書の内容をより深く理解させることができる。

特許検索は、従来、キーワード検索を用いて行われていた。この検索では、適切なキーワードとその同義語、変化形などを定義し、ブーリアン検索戦略を作成する。これには時間がかかり、専門知識も必要である。最近では、セマンティック検索も開発されている。これは、より曖昧で、人工知能技術を使用する場合もある。セマンティック検索は、他の文書で議論されている概念に何らかの関連性がある多数の文書を迅速に見つけるのに役立つ。しかし、特許の新規性検索などでは、特許クレームで定義された一般的な概念に該当する特定の内容を開示している文書を見つけるという、実際に新規性を評価する能力は限られているため、比較的限定されている。

要約すると、一般的な検索や、テキストからの中核的な概念の抽出、テキストの要約などに適した技術がある。しかし、特許の新規性検索やその他の技術的な比較のために重要となる、大規模なデータに含まれる異なる文書に開示された概念間の詳細な比較には適していない。

特に、より効率的な検索や新規性評価ツールを実現するために、テキストの分析・比較技術の向上が求められている。

本発明の目的は、上述の問題点の少なくとも一部を解決し、技術的な検索の精度を向上させる新規のシステムおよび方法を提供することである。具体的な目的は、文書の概念間の技術的な関係をよりよく考慮して、対象となる検索を行うことができる解決策を提供することである。

特に、改善された特許検索と自動化された新規性評価のためのシステムと方法を提供することを目的としている。

一態様によれば、本発明は、自然言語の複数のブロックと、前記ブロックに対応するデータグラフとを記憶するためのデジタルデータ記憶手段を備える自然言語検索システムを提供するものである。また、前記ブロックを、前記記憶手段に格納されている前記グラフに変換するように適合された第１のデータ処理手段が提供される。前記グラフは、複数のノード、好ましくは連続するノードを含み、それぞれが前記ブロックから抽出された自然言語ユニット（単位）をノード値またはその一部として含む。また、前記グラフのノード構造および前記グラフのノード値に基づいて学習済みの機械学習モデルを形成するために、前記グラフをトラベル（巡回）し、ノード値を読み取ることができる機械学習アルゴリズムを実行する第２のデータ処理手段と、フレッシュなグラフまたはフレッシュなグラフに変換された自然言語のフレッシュなブロックを読み取り、フレッシュなグラフに基づいて自然言語の前記ブロックのサブセットを決定するために前記機械学習モデルを利用するように適合された第３のデータ処理手段とが提供される。

本発明は、自然言語のブロックを読み取り、第１、第２および第３のデータ処理手段の機能を実行するように適合された方法にも関する。

一態様によれば、本発明は、特許文書を検索するシステムおよび方法を提供し、この方法は、それぞれが明細書およびクレームを含む複数の特許文書を読み取り、明細書およびクレームを、それぞれ明細書グラフおよびクレームグラフに変換することを含む。前記グラフは、前記明細書またはクレームから抽出された第１の自然言語ユニットをノード値としてそれぞれ有する複数のノードと、前記ノード間の複数のエッジとを含み、前記エッジは、前記明細書またはクレームから抽出された少なくとも１つの第２の自然言語ユニットに基づいて決定される。本方法は、エッジに従ってグラフをトラベル（巡回）することができる機械学習アルゴリズムを用いて機械学習モデルを学習することと、前記明細者およびクレームのグラフの複数の異なる組を訓練データとして用いて、学習済みの機械学習モデルを形成するために前記ノード値を利用することとを含む。また、本方法は、フレッシュなグラフまたはフレッシュなグラフに変換されたテキストのブロックを読み取ることと、フレッシュなグラフに基づいて前記特許文書のサブセットを決定するために前記学習済みの機械学習モデルを利用することとを含む。

グラフは、特に、少なくともいくつかの連続するノードのノード値の間にメロニム関係を持つツリー形式の再帰的グラフであり得る。

本方法およびシステムは、好ましくはニューラルネットワークベースであり、それにより、機械学習モデルはニューラルネットワークモデルである。

より具体的には、本発明は、独立請求項に記載された内容を特徴とする。

本発明には大きなメリットがある。キーワードベースの検索と比較して、本発明のグラフベースでニューラルネットワークを利用するアプローチは、単語のテキストコンテンツや、オプションとして単語の近さのような他の伝統的な基準だけに基づいて検索を行うのではなく、文書内の概念の実際の技術的な関係も考慮されるという利点がある。このため、本アプローチは、正確な表現や文書のスタイルではなく、技術的な内容が重要となる特許検索などに特に適している。これにより、より正確な技術検索が可能になる。

テキストベースの線形ニューラルネットワークモデルなどを用いたいわゆるセマンティック検索と比較して、グラフベースのアプローチは、文書の実際の技術的内容をよりよく考慮することができる。さらに、軽量なグラフは、全文に比べてはるかに少ない計算量で処理することができる。これにより、より多くの訓練データを使用することができ、開発と学習のサイクルを短縮し、より正確な検索を実現する。また、実際の検索時間も短縮できる。

本アプローチは、特許当局や特許出願人から提供される特許の新規性検索データや引用データなどの実在の訓練データを使用することに対応している。また、本アプローチでは、後に詳述するように、データ増強などの高度な学習スキームも可能である。

特許テキストを凝縮して簡略化したグラフ表現と実在の訓練データを組み合わせると、比較的高い検索精度と高い計算学習効率が得られることが、実在のテストデータで示されている。

従属請求項は、本発明の選択された実施形態に向けられている。

次に、本発明の選択された実施形態とその利点について、添付の図面を参照しながらより詳細に説明する。

図１Ａは、一般的なレベルの例示的な検索システムのブロック図である。図１Ｂは、ニューラルネットワークベースの検索エンジンとその訓練器のパイプラインを含む、検索システムのより詳細な実施形態のブロック図である。図１Ｃは、一実施形態による特許検索システムのブロック図である。図２Ａは、メロニム(meronym)／ホロニム(holonym)の関係のみを持つ例示的な入れ子グラフのブロック図である。図２Ｂは、メロニム／ホロニムの関係とヒポニム(hyponym：下位単語)／ハイパーニム(hypernym：上位単語)の関係を持つ例示的な入れ子グラフのブロック図である。図３は、例示的なグラフ解析アルゴリズムのフローチャートである。図４Ａは、特許検索／引用データを訓練データとして用いて、特許検索ニューラルネットワークを学習する様子を示すブロック図である。図４Ｂは、同一の特許文書に記載されたクレームと明細書のグラフのペアを訓練データとして用いてニューラルネットワークを学習する様子を示すブロック図である。図４Ｃは、訓練データとして拡張されたクレームグラフセットを用いたニューラルネットワークの訓練のブロック図である。図５は、一実施形態による例示的なグラフフィーディングのユーザーインターフェースの機能性を示している。

定義
本明細書では、「自然言語ユニット」とは、テキストのチャンク（塊）、または埋め込み後のテキストのチャンクのベクトル表現を意味する。チャンクは、コンピュータで読み取り可能な形式で保存された元のテキストに１回以上出現する単一の単語または複数の単語の下位概念であり得る。自然言語ユニットは、文字値のセット（コンピュータサイエンスでは通常「文字列」として知られている）として、または多次元ベクトル値として数値的に表示されるか、またはそのような値への参照として表示される。

「自然言語のブロック」とは、自然言語ユニットの言語的に意味のある組み合わせ、例えば英語などの言語の１つまたは複数の完全または不完全な文を含むデータインスタンスのことでである。自然言語のブロックは、例えば、単一の文字列として表現され、ファイルシステムのファイルに格納され、および／または、ユーザーインターフェースを介してユーザーに表示される。

「文書」とは、自然言語コンテンツを含む機械読み取り可能なエンティティで、システム内の他の文書に対して一意である機械読み取り可能な文書識別子と関連付けられているものを指す。

「特許文書」とは、特許出願または付与された特許の自然言語内容を指す。本システムでは、特許文書は、ＥＰＯ、ＷＩＰＯ、ＵＳＰＴＯ、または他の国や地域の特許庁などの公認特許機関によって割り当てられた公開番号、および／または他の機械読み取り可能な一意の文書識別子と関連付けられている。「クレーム」とは、特許文書のクレーム、特に独立クレームの本質的な内容を指す。明細書」とは、特許文書の記述の少なくとも一部を含む特許文書の内容を指す。明細書は、特許文書の他の部分、例えば、要約書やクレームなどもカバーすることができる。クレームと明細書は、自然言語のブロックの例である。

本明細書では、本特許出願の実効日に欧州特許庁がクレームと見なす自然言語のブロックを「クレーム」と定義する。特に、「クレーム」とは、例えば、ブロックの前に文字列形式で、および／または、ｘｍｌやｈｔｍｌ形式などのマークアップファイル形式の関連情報（の一部）として、そこにある機械読み取り可能な整数番号で識別される自然言語文書のコンピュータで識別可能なブロックである。

「明細書」とは、少なくとも１つのクレームを含む特許文書の中で、クレーム以外の少なくとも１つの部分を含む、コンピュータで識別可能な自然言語のブロックと定義する。また、「明細書」は、ｘｍｌやｈｔｍｌ形式などのマークアップファイル形式の関連情報によって識別することもできる。

ここでいう「エッジ関係」とは、特に、ブロックから抽出された技術的な関係、および／または、当該自然言語ユニットのセマンティクスを使用して得られた意味的な関係のことを指す。具体的には、エッジ関係は以下のようになる。

－メロニム関係（別名：メロニム／ホロニム関係）；メロニム：ＸがＹの一部であること；ホロニム：ＹがＸを自分の一部としていること；例えば。例えば、「車輪」は「車」のメロニムである。

－ヒポニム関係（別名：ヒポニム／ハイパーニム関係）；ヒポニム：ＸはＹの下位、ハイパーニム：ＸはＹの上位；例：「電気自動車」は「自動車」のヒポニム、または
－同義語（シノニム）関係：ＸはＹと同じである。

いくつかの実施形態では、エッジ関係は、再帰的なグラフの連続して入れ子にされたノードの間で定義され、各ノードはノード値として自然言語ユニットを含む。

さらに可能な技術的関係としては、上述の関係以外に、テキストのある下位概念が１つ以上の他の下位概念に対して果たす役割を指す主題的関係がある。少なくともいくつかの主題的関係は、連続して入れ子にされたユニット間で定義することができる。ある例では、親ユニットの主題的関係が子ユニットで定義される。テーマ関係の一例として、ロールクラスの「機能」が挙げられる。例えば、「ハンドル」の機能は、「物体の操作を可能とすること」とすることができる。このような主題的関係は、「ハンドル」ユニットの子ユニットとして格納することができ、「機能」ロールは子ユニットに関連付けられる。また、主題的関係は、事前に定義されたクラスを持たない（あるいは「関係」などの一般的なクラスを持つ）汎用の関係であってもよいが、ユーザーが自由に定義してもよい。例えば、ハンドル（取っ手）とコップの汎用的な関係は、「[ハンドル（取っ手）]は［コップ]に接着剤で取り付けられている」とすることができる。このようなテーマ性のある関係は、「ハンドル」ユニット、「コップ」ユニットのいずれか、あるいは両方の子ユニットとして、好ましくは相互に参照しながら格納することができる。

関係ユニットは、データ処理装置で実行されたときに、そのクラスまたはサブクラスの関係を含む自然言語のブロックを生成するコンピュータ実行可能なコードにリンクされている場合、特定の関係クラスまたはサブクラスの関係を定義すると考えられる。

「グラフ」または「データグラフ」とは、一般的に非線形の再帰的データスキーマおよび／またはネットワークデータスキーマに従うデータインスタンスを指す。本システムは、同じデータスキーマに従いながら、そのデータが異なるソースに由来および／または関連する複数の異なるグラフを同時に含むことができる。グラフは、実際には、再帰的および／またはネットワークとしてのデータ項目の保存を可能にする、任意の適切なテキストまたはバイナリ形式で保存することができる。グラフは、特に、意味的および／または技術的なグラフ（ノード値間の意味的および／または技術的な関係を記述する）であり、構文的なグラフ（ノード値間の言語的な関係のみを記述する）とは対照的である。グラフは、ツリー形式のグラフであってもよい。複数のツリーを含むフォレスト形式のグラフは、本明細書ではツリー形式のグラフとみなされる。特に、グラフは、技術的ツリーフォームグラフであり得る。

「データスキーマ」とは、データ、特に自然言語ユニットとそれに関連するデータ（ユニット間の技術的関係の情報など）が組織化される規則のことである。

自然言語ユニットの「入れ子（ネスティング）」とは、データスキーマによって決定される、ユニットが１つ以上の子と１つ以上の親を持つことができることを指す。ある例では、ユニットは１つ以上の子と１つの親だけを持つことができる。ルートユニットは親を持たず、リーフユニットは子を持たない。シブリングユニットは同じ親を持つ。「連続した入れ子」とは、親ユニットとその直接の子ユニットの間の入れ子を指す。

「再帰的」な入れ子やデータスキーマとは、データ項目を含む自然言語ユニットを入れ子にできる入れ子やデータスキーマのことである。

「自然言語トークン」とは、自然言語の、より大きなブロックの中の単語または単語チャンクを指す。トークンには、品詞（ＰＯＳ）ラベルや構文依存タグなど、単語や単語チャンクに関連するメタデータが含まれることがある。自然言語トークンの「セット」とは、特に、テキスト値、ＰＯＳラベル、依存関係タグ、またはこれらの組み合わせに基づいて、所定のルールやファジーロジックに従ってグループ化できるトークンを指す。

「データ記憶手段」、「処理手段」、「ユーザーインターフェース手段」とは、主に、非一時的なコンピュータ可読媒体に格納され、プロセッサによって実行されたときに、指定された機能、すなわち、デジタルデータの保存、ユーザーによるデータの操作、データの処理をそれぞれ実行するように適合されたソフトウェア手段、すなわち、コンピュータ実行可能なコード（命令）を意味する。システムのこれらの構成要素はすべて、ソフトウェア構成要素を実行するための適切なハードウェアによってサポートされた、例えばローカルにインストールされたウェブブラウザを介して、ローカルコンピュータまたはウェブサーバのいずれかによって実行されるソフトウェアで遂行することができる。本明細書に記載されている方法は、コンピュータで実行される方法である。

選択された実施形態の説明
以下に、自然言語の複数のブロックと、そのブロックに対応するデータグラフを記憶するデジタルデータ記憶手段を備えた自然言語検索システムを説明する。記憶手段は、１つまたは複数のローカルまたはクラウドのデータストアで構成されてもよい。ストアは、ファイルベースまたはクエリ言語ベースとすることができる。

前記第１のデータ処理手段は、前記ブロックを前記グラフに変換するように適合された変換ユニットである。各グラフは、ブロックから抽出された自然言語ユニットをノード値として含む複数のノードを含んでいる。エッジは、ノードのペアの間に定義され、ノード間の技術的な関係を定義する。例えば、エッジまたはその一部は、２つのノード間のメロニム関係を定義し得る。

いくつかの実施形態では、グラフ内の特定の自然言語ユニットの値を含む少なくとも一部のノードの数は、対応する自然言語のブロックにおける特定の自然言語ユニットの出現数よりも小さい。つまり、グラフは原文の凝縮された表現であり、例えば、後述するトークン識別・照合法を用いて達成可能である。各ノードに対して複数の子ノードを許可することで、テキストの本質的な技術的（およびオプションとして意味的）内容をグラフ表現の中で維持することができる。凝縮されたグラフは、グラフベースのニューラルネットワークアルゴリズムによる処理にも効率的であり、それによってニューラルネットワークアルゴリズムは、テキストの本質的な内容を、直接のテキスト表現からよりも良く、速く学習することができる。このアプローチは、技術文書の比較、とりわけクレームに基づく特許明細書の検索やクレームの新規性の自動評価において、特に威力を発揮します。

いくつかの実施形態では、特定の自然言語ユニットを含むすべてのノードの数は１である。つまり、重複するノードはない。これにより、少なくともツリー形式のグラフを使用する場合には、テキストの元の内容が単純化される可能性があるが、その結果、特許検索や新規性評価に適した、非常に効率的に処理可能で、なおかつ比較的表現力のあるグラフが得られる。

いくつかの実施形態では、グラフは、少なくとも元のテキストに見られる名詞および名詞チャンクについて、そのような凝縮されたグラフである。特に、グラフは、メロニム関係に従って配列された名詞値ノードのための凝縮されたグラフであり得る。平均的な特許文書では、多くの名詞語がテキスト全体で数十回、あるいは数百回も出現する。本方式により、このような文書の内容を元のスペースの数分の一に圧縮しつつ、機械学習に適したものにすることができる。

いくつかの実施形態では、自然言語の少なくとも１つの元のブロックで何度も出現する複数の用語が、対応するグラフで正確に１回出現する。

凝縮されたグラフ表現は、同義語や共参照（特定の文脈で同じことを意味する表現）を考慮してグラフを構築することができるという利点もある。その結果、さらに凝縮されたグラフが得られる。いくつかの実施形態では、少なくとも２つの異なる記述形式の自然言語の少なくとも１つの元のブロックに出現する複数の用語が、対応するグラフにちょうど１回出現する。

第２のデータ処理手段は、訓練データのケースとともに学習目標を定義する損失関数によって定義されるように、グラフ構造を反復的にトラベル（巡回）し、グラフの内部構造とそのノード値の両方から学習することができるニューラルネットワークアルゴリズムを実行するためのニューラルネットワーク訓練器である。訓練器は、訓練アルゴリズムで指定されたグラフまたはそこから導出された拡張グラフの組み合わせを、通常、訓練データとして受け取る。訓練器は、学習済みのニューラルネットワークモデルを出力する。

このようなグラフ形式のデータを用いた教師あり機械学習法は、特許文書や科学文書の中から技術的に関連性のある文書を見つけ出すのに非常に有効であることがわかっている。

いくつかの実施形態では、記憶手段は、ブロックの少なくとも一部を相互にリンクする参照データを記憶するようにさらに構成される。参照データは、訓練データを導出するため、すなわち、ポジティブ（正）またはネガティブ（負）の訓練ケース、すなわち訓練サンプルとして訓練に使用されるグラフの組み合わせを定義するために、訓練器によって使用される。訓練器の学習目標は、この情報に依存している。

第３のデータ処理手段は、検索エンジンであり、通常、ユーザーインターフェースまたはネットワークインターフェースを通じて、自然言語のフレッシュなグラフまたはフレッシュなブロックを読み取るように適合されている。必要に応じて、ブロックは変換ユニットでグラフに変換される。検索エンジンは、学習済みのニューラルネットワークモデルを使用して、フレッシュなグラフに基づいて自然言語のブロック（またはそこから導出されたグラフ）のサブセットを決定する。

図１Ａは、特に特許文書などの技術文書や科学文書の検索に適した本システムの一実施形態を示す。本システムは、複数の自然言語文書を含む文書ストア１０Ａを備える。文書ストア１０Ａから文書を読み取り、それらをグラフフォーマットに変換するように適合されたグラフパーサ１２については、より詳細に後述する。変換されたグラフは、グラフストア１０Ｂに格納される。

このシステムは、ニューラルネットワーク訓練器ユニット１４を備えており、訓練データとして、グラフストアからの解析済みグラフのセットと、それらの相互関係に関するいくつかの情報とを受け取る。この場合、文書に関する引用データおよび／または新規性検索結果などを含む、文書参照データストア１０Ｃが提供される。訓練器ユニット１４は、ニューラルネットワークベースの検索エンジン１６のためのニューラルネットワークモデルを生成するグラフベースのニューラルネットワークアルゴリズムを実行する。エンジン１６は、グラフストア１０Ｂからのグラフをターゲット検索セットとして使用し、ユーザーインタフェース１８から得られるユーザーデータ（典型的にはテキストまたはグラフ）を参照として使用する。

検索エンジン１６は、例えば、ユーザーデータから形成されるベクトルに最も近いグラフストア１０Ｂのグラフに対応するベクトルを見つけるように訓練（学習）されたグラフ－ベクトル検索エンジンであってもよい。また、検索エンジン１６は、ユーザーのグラフ、またはそれに由来するベクトルと、グラフストア１０Ｂから得られたグラフ、またはそれに由来するベクトルとをペア（対）にして比較する、例えば、二値分類器検索エンジンのような分類器検索エンジンであってもよい。

図１Ｂは、グラフの自然言語ユニットを多次元ベクトル形式に変換するテキスト埋め込みユニット１３をさらに備えた、本システムの一実施形態を示す。これは、変換されたグラフと、グラフストア１０Ｂからのグラフと、ユーザーインタフェース１８を介して入力されたグラフに対して行われる。典型的には、ベクトルは少なくとも１００次元、例えば３００次元以上の次元を有する。

図１Ｂにも示す一実施形態では、ニューラルネットワーク検索エンジン１６は、パイプラインを形成する２つの部分に分割されている。エンジン１６は、例えば、文書参照データストア１０Ｃからの参照データを用いてニューラルネットワーク訓練器１４のグラフ埋め込み訓練器１４Ａによって訓練（学習）されたモデルを用いて、グラフを多次元ベクトル形式に変換するグラフ埋め込みエンジンからなる。ユーザーのグラフは、ベクトル比較エンジン１６Ｂにおいて、グラフ埋め込みエンジン１６Ａによってあらかじめ生成されたグラフと比較される。その結果、ユーザーのグラフに最も近いグラフの絞り込まれたサブセットが発見される。グラフのサブセットは、関連するグラフのセットをさらに絞り込むために、グラフ分類器エンジン１６Ｃによってユーザー・グラフとさらに比較される。グラフ分類器エンジン１６Ｃは、例えば文書参照データストア１０Ｃからのデータを訓練データとして用いて、グラフ分類器学習器１４Ｃによって訓練（学習）される。本実施形態は、ベクトル比較エンジン１６Ｂによる事前に形成されたベクトルの比較が非常に高速であるのに対し、グラフ分類エンジンは、グラフの詳細なデータ内容や構造にアクセスでき、グラフの違いを見つけるための正確な比較を行うことができる点で有益である。グラフ埋め込みエンジン１６Ａおよびベクトル比較エンジン１６Ｂは、グラフ分類エンジン１６Ｃのための効率的なプレフィルタとして機能し、グラフ分類エンジン１６Ｃによって処理される必要のあるデータ量を減らすことができる。

グラフ埋め込みエンジンは、グラフを少なくとも１００次元、好ましくは２００次元以上、さらには３００次元以上のベクトルに変換することができる。

ニューラルネットワーク訓練器１４は、グラフ埋め込み部とグラフ分類部に分かれており、それぞれ、グラフ埋め込み訓練器１４Ａ、グラフ分類訓練器１６Ｃを用いて訓練（学習）される。グラフ埋め込み訓練器１４Ａは、ニューラルネットワークベースのグラフ－ベクトルモデルを形成し、テキスト内容や内部構造が互いに類似しているグラフの近傍ベクトルを形成することを目的としている。グラフ分類器訓練装置１４Ｂは、分類器モデルを形成しており、グラフのペアを、そのテキスト内容と内部構造の類似性に応じてランク付けすることができる。

ユーザーインターフェース１８から得られたユーザーデータは、埋め込みユニット１３で埋め込まれた後、ベクトル化のためにグラフ埋め込みエンジンに供給され、その後、ベクトル比較エンジン１６Ｂが、グラフストア１０Ｂのグラフに対応する最も近いベクトルのセットを見つける。最も近いグラフのセットは、グラフ分類器エンジン１６Ｃに供給され、グラフ分類器エンジン１６Ｃは、正確な一致を得るために、学習済みのグラフ分類器モデルを使用して、ユーザーのグラフとそれらを1つずつ比較する。

いくつかの実施形態では、グラフ埋め込みエンジン１６Ａは、グラフ埋め込み訓練器１４Ａによって訓練（学習）されたように、その依存する学習目標を用いて参照データから学習された、ノードコンテンツとノード構造の両方の観点から、グラフが類似しているほど角度が互いに近いベクトルを出力する。訓練（学習）により、参照データから得られたポジティブ（正）の学習事例（同じ概念を描いたグラフ）のベクトルの角度を最小にし、ネガティブ（負）の学習事例（異なる概念を描いたグラフ）のベクトルの角度を最大にする、あるいは少なくともゼロから大きく乖離させることができる。

グラフベクトルは、例えば２００－１０００次元、例えば２５０－６００次元とすることができる。

このような教師あり機械学習モデルは、グラフによって開示された技術的概念の類似性を効率的に評価することができ、さらに、グラフがそこから導出された自然言語のブロックを評価することができることがわかっている。

いくつかの実施形態では、グラフ分類器エンジン１６Ｃは、グラフ分類器学習器１４Ｃによって訓練（学習）されると、それに依存する学習目標を用いて、参照データから訓練（学習）された、ノードコンテンツとノード構造の両方の観点から、比較されたグラフがより類似しているほど高い類似度スコアを出力する。学習により、参照データから得られたポジティブ（正）の学習事例（同じ概念を描いたグラフ）の類似度スコアは最小化され、ネガティブ（負）の学習事例（異なる概念を描いたグラフ）の類似度スコアは最大化される。

コサイン類似度は、グラフやそこから導出されたベクトルの類似性を表す基準のひとつである。

グラフ分類器訓練器１４Ｃまたはエンジン１６Ｃは必須ではなく、グラフの類似性は、グラフ埋め込みエンジンによって埋め込まれたベクトルの間の角度に基づいて直接評価することができることに留意すべきである。この目的のために、それ自体既知の高速ベクトルインデックスを使用して、与えられたフレッシュなグラフベクトルに対する１つまたは複数の近くのグラフベクトルを見つけることができる。

訓練器１４および検索エンジン１６、またはそのサブ訓練器１４Ａ、１４Ｃまたはサブエンジン１６Ａ、１６Ｃのいずれかまたは両方によって使用されるニューラルネットワークは、リカレントニューラルネットワーク、特にＬＳＴＭ（Long Short-Term Memory）ユニットを利用するものであり得る。ツリー構造のグラフの場合、ネットワークは、Child-Sum-Tree-LSTMネットワークなどのツリーＬＳＴＭ(Tree-LSTM)ネットワークとすることができる。ネットワークは、1つまたは複数のＬＳＴＭ層と１つまたは複数のネットワーク層を有してもよい。ネットワークは、モデルの訓練および／または実行中に、グラフの部分を内部または外部で互いに関連付けるアテンション・メカニズムを使用してもよい。

本発明のいくつかのさらなる実施形態は、特許検索システムの文脈で以下に説明され、それにより、処理される文書は特許文書である。上述した一般的な実施形態および原理は、特許検索システムに適用可能である。

いくつかの実施形態では、システムは、第１の自然言語ブロックと、第１の自然言語ブロックとは異なる第２の自然言語ブロックとをそれぞれ含む自然言語文書を記憶手段に記憶するように構成される。訓練器は、第１文書の第１ブロックに対応する複数の第１グラフと、各第１グラフに対して、参照データによって定義される、第１文書とは異なる第２文書の第２ブロックに少なくとも部分的に基づく１つ以上の第２グラフとを使用することができる。このようにして、ニューラルネットワークモデルは、異なる文書の異なる部分の間の相互関係から学習する。一方、訓練器は、第１の文書の第１のブロックに対応する複数の第１のグラフと、各第１のグラフに対して、第１の文書の第２のブロックに少なくとも部分的に基づく第２のグラフとを用いることができる。このようにして、ニューラルネットワークモデルは、１つの文書内のデータの内部関係から学習することができる。これら両方の学習方式は、次に詳述する特許検索システムによって、単独で、または一緒に使用することができる。

上述した凝縮されたグラフ表現は、特許検索システム、すなわちクレームおよび明細書のグラフ、特に明細書のグラフに特に適している。

図１Ｃは、少なくともコンピュータ識別可能な明細書部分とクレーム部分を含む特許文書を含む特許文書ストア１０Ａを含むシステムを示す。グラフパーサ１２は、クレームグラフパーサ１２Ａによってクレームを解析し、明細書グラフパーサ１２Ｂによって明細書を解析するように構成されている。解析されたグラフは、クレーム・明細書グラフストア１０Ｂに別々に格納される。テキスト埋め込み部１３は、ニューラルネットワークで処理するためのグラフを準備する。

参照データには、公開されている特許出願や特許の検索・審査データ、および特許文書間の引用データが含まれます。一実施形態では、参照データは、以前の特許検索結果、すなわち、どの以前の特許文書が、後に提出された特許出願の新規性および／または進歩性の根拠とみなされるかという情報を含む。参照データは、以前の特許検索および／または引用データストア１０Ｃに格納される。

ニューラルネットワーク訓練器１４は、解析されて埋め込まれたグラフを使用して、特に特許検索の目的で訓練（学習）されたニューラルネットワークモデルを形成する。これは、特許検索および／または引用データを訓練器１４の入力として使用することによって達成される。その目的は、例えば、特許出願のクレームグラフと、それに対する新規性障壁として使用される特許文書の明細書グラフとの間のベクトル角を最小化したり、類似度スコアを最大化したりすることである。このようにして、複数（典型的には数十万または数百万）のクレームに適用することで、モデルは先行技術に関するクレームの新規性を評価することを学習する。このモデルは、ユーザーインターフェース１８Ａを介して得られたユーザーグラフに対して、検索エンジン１６によって使用され、最も可能性のある新規性障壁（バー）を見つける。その結果は、検索結果表示インターフェース１８Ｂに表示することができる。

図１Ｃのシステムでは、検索エンジンのパイプラインを利用することができる。エンジンは、以前の特許検索および／または引用データストア１０Ｃから得られた訓練データの同じまたは異なるサブセットで訓練（学習）されてもよい。例えば、大規模または完全な参照データセット、すなわちポジティブ（正）とネガティブ（負）のクレーム／明細書のペアで訓練（学習）されたグラフ埋め込みエンジンを使用して、完全な先行技術データセットからグラフのセットをフィルタリングすることができる。フィルタリングされたグラフのセットは、次に、グラフの類似性を見つけるために、より小さい、例えば、特許クラス固有の参照データセット、すなわち、ポジティブ（正）とネガティブ（負）のクレーム／明細書のペアで訓練されてもよい分類エンジンにおいて、ユーザーのグラフに対して分類される。

次に、図２Ａおよび図２Ｂを参照して、特に特許検索システムに適用可能なツリー形式のグラフ構造について説明する。

図２Ａは、メロニム関係のみをエッジ関係としたツリー形式のグラフである。テキストユニットＡ－Ｄは、ルートノード１０から導出されて、グラフに線形再帰的なノード１０、１２、１４、１６として配置され、テキストユニットＥは、ノード１２の子として、示された自然言語のブロックから導出されて、子ノード１８として配置されている。ここで、メロニム関係は、メロニム/ホロニム表現である「備える(comprises)」、「有する(having)」、「に含まれる(is contained in)」、「含む(includes)」から検出される。

図２Ｂは、２つの異なるエッジ関係、この例ではメロニム関係（第１の関係）とヒポニム関係（第２の関係）を持つ別のツリー形式のグラフである。テキストユニットＡ－Ｃは、メロニム関係を持つ線形再帰ノード１０、１２、１４として配置されている。テキストユニットＤは、ハイポニム関係を持つ親ノード１４の子ノード２６として配置されている。テキストユニットＥは、親ノード１２の子ノード２４として、ハイポニムの関係で配置されている。テキストユニットＦは、ノード２４の子ノード２８として、メロニムの関係で配置されている。ここで、メロニムとヒポニムの関係は、メロニム/ホロニムの表現である「備える(comprises)」、「有する(having)」、「のような(such as)」、「は、例えば(is for example」」から検出される。

一実施形態によれば、第１のデータ処理手段は、まず、ブロックから、自然言語トークンの第１のセット（例えば、名詞および名詞チャンク）と、自然言語トークンの第１のセットとは異なる自然言語トークンの第２のセット（例えば、メロニムおよびホロニム表現）とを識別することにより、ブロックをグラフに変換するように適合される。そして、第１セットのトークンのマッチしたペアを形成するために、第１セットのトークンと第２セットのトークンを利用してマッチャーが実行される（例えば、「本体が部材を備える(body comprises member)」の「本体(body)」」と「部材(member)」）。最後に、第１セットのトークンは、前記マッチしたペアを利用して、前記グラフのノードとして配置される（例えば、「本体(body)」－（メロニムエッジ）-「部材(member)」）。

一実施形態では、グラフには少なくともメロニムエッジが使用されており、それぞれのノードには、前記ブロックから得られた、互いにメロニムの関係を持つ自然言語ユニットが含まれている。

一実施形態では、グラフにハイポニムエッジが使用されており、それぞれのノードには、自然言語のブロックから導出された、互いにハイポニムの関係を持つ自然言語ユニットが含まれている。

一実施形態では、グラフにエッジが使用され、そのそれぞれのノードの少なくとも１つは、同じグラフ内の１つ以上のノードへの参照を含み、さらに自然言語のそれぞれのブロックから導出された少なくとも１つの自然言語ユニット（例えば、「下にある(is below)」［ノードｉｄ：Ｘ］）が含まれる。このようにして、グラフスペースを節約し、ツリー形式などの単純なグラフ構造を維持しつつ、グラフ内の表現力豊かなデータコンテンツを実現することができる。

いくつかの実施形態では、グラフはツリー形式のグラフであり、そのノード値は、自然言語の前記ブロックから導出された単語または複数単語のチャンクを含み、典型的には、グラフ変換ユニットによる単語の品詞および構文依存性、またはそのベクトル化された形態を利用する。

図３は、第１のデータ処理手段において、テキストからグラフへの変換がどのように行われるかの例を詳細に示したものである。まず、ステップ３１でテキストが読み込まれ、名詞などの自然言語トークンの第１のセットと、（「備える(comprising)」のような）メロニム性(meronymity)やホロニム性(holonymity)を示すトークンなどの自然言語トークンの第２のセットがテキストから検出される。これは、ステップ３２でテキストをトークン化し、トークンに品詞（ＰＯＳ）タグを付け３３、ステップ３４でその構文依存性を導出することで行うことができる。そのデータを用いて、ステップ３５では名詞チャンクを、ステップ３６ではメロニムとホロニムの表現を決定することができる。ステップ３７では、メロニムとホロニムの表現を利用して、マッチした名詞チャンクのペアが形成される。名詞チャンクのペアは、グラフのメロニム関係のエッジを形成するか、またはそれを控除するために使用することができる。

一実施形態では、ステップ３８に示すように、名詞チャンクのペアは、メロニムが対応するホロニムの子であるツリー形式のグラフとして配置される。このグラフは、上述のように、ステップ３９でグラフストアに保存して、さらに使用することができる。

一実施形態では、グラフ形成ステップでは、ベイジアンネットワークなどの確率的グラフモデル（ＰＧＭ）を使用して、好ましいグラフ構造を推論する。例えば、ベイジアンモデルに基づいてグラフの異なるエッジ確率を計算し、その後、エッジ確率を用いて最も好ましいグラフ形態を計算することができる。

一実施形態では、グラフ形成ステップは、トークン化され、ＰＯＳタグが付けられ、依存関係が解析されたテキストを、ニューラルネットワークベースのテクニカルパーサーに入力することで構成される。ニューラルネットワークベースのテクニカルパーサーは、テキストブロックから関連するチャンクを見つけ、メロニム関係やハイポニム関係などの所望のエッジ関係を抽出する。

ある実施形態では、グラフは、ツリーデータスキーマに従って再帰的に配置されたエッジ関係からなるツリー形式のグラフであり、非循環である。これにより、リカレント型または非リカレント型の効率的なツリー型ニューラルネットワークモデルを使用することができる。例えば、ツリーＬＳＴＭ(Tree-LSTM)モデルがある。

別の実施形態では、グラフはネットワーク・グラフであり、サイクル、すなわちブランチ間のエッジを許容している。これにより、複雑なエッジ関係を表現できるという利点がある。

さらに別の実施形態では、グラフは、１つまたは複数のエッジの長さを持つ線形および／または非線形のブランチのフォレストである。線形ブランチは、ツリーやネットワークの構築ステップを回避または劇的に簡略化し、ニューラルネットワークに最大量のソースデータを利用できるという利点がある。

各モデルでは、ＰＧＭモデルで得られたエッジの尤度を保存し、ニューラルネットワークで使用することができる。

なお、図３を参照して説明したグラフ形成方法は、本書に記載されている他の方法やシステム部分とは別に、文書の技術的内容、特に特許明細書やクレームの技術的な凝縮表現を形成して保存するために実施することができることに留意すべきである。

図４Ａ－Ｃは、特許検索を目的としたニューラルネットワークの学習方法を示したもので、相互に排他的ではないものである。

一般的なケースでは、「特許文書」という用語は、（システム内の他の文書の中で一意のコンピュータ読み取り可能な識別子を持つ）「文書」に置き換えることができる。また、「クレーム」を「第１のコンピュータで識別可能なブロック」に、「明細書」を「第１のブロックとは少なくとも部分的に異なる、コンピュータで識別可能な第２のブロック」に置き換えることができる。

図４Ａの実施形態では、基準データによって関連づけられた、複数のクレームグラフ４１Ａと、各クレームグラフに対応する近い先行技術明細書グラフ４２Ａとが、ニューラルネットワーク訓練器４４Ａによって訓練データとして使用される。これらは、ポジティブ（正）の訓練ケースを形成し、当該グラフ間の低いベクトル角または高い類似度スコアを達成することを示す。さらに、ネガティブ（負）の訓練ケース、すなわち、各クレームのグラフに対して、１つまたは複数の遠い先行技術のグラフを、訓練データの一部として使用することができる。このようなグラフ間の高いベクトル角または低い類似度スコアが達成されるべきである。ネガティブ（負）の訓練ケースは、例えば、グラフの全セットからランダムに抽出することができる。

一実施形態によれば、ニューラルネットワーク訓練器４４Ａによって実施されるような訓練の少なくとも１つのフェーズにおいて、すべての可能な訓練ケースのサブセットから、すべての可能なネガティブ（負）訓練ケースの平均よりもハードな複数のネガティブ（負）訓練ケースが選択される。例えば、ハードネガティブ（負）訓練ケースは、クレームグラフと説明グラフの両方が同じ特許クラス（所定の分類レベルまで）からのものであるように、または、ニューラルネットワークが以前に説明グラフをネガティブ（負）ケースとして正しく分類できなかったように（所定の信頼度で）選択することができる。

本明細書に記載された他の方法およびシステム部分とは独立して実施することもできる一実施形態によれば、本ニューラルネットワークベースの特許検索または新規性評価システムの訓練（学習）は、それぞれがコンピュータ識別可能なクレームブロックおよび明細書ブロックを有する複数の特許文書を提供することによって行われ、明細書ブロックは、特許文書の説明の少なくとも一部を含む。また、本方法は、ニューラルネットワークモデルを提供することと、学習済みのニューラルネットワークモデルを形成するために、前記特許文書からのデータを含む訓練データセットを用いて、ニューラルネットワークモデルを訓練することとを含む。前記訓練は、前記訓練データセットの訓練ケースとして、同じ特許文書に由来するクレームブロックと明細書ブロックのペアを使用することを含む。

一般的に、このような文書内のポジティブ（正）の訓練ケースは、訓練全体の訓練ケースの１～２５％程度で、残りは検索レポート（審査官による新規性に関する引用）の訓練ケースなどである。

本発明の機械学習モデルは、典型的には、クレームおよび明細書をベクトルに変換するように構成されており、モデルの訓練（学習）の学習目標は、同じ特許文書のクレームおよび明細書のベクトル間のベクトル角を最小化することであり得る。また、別の学習目標として、少なくともいくつかの異なる特許文書のクレームと明細書のベクトル間のベクトル角を最大化することができる。

図４Ｂの実施形態では、同じ特許文書に由来する複数のクレームグラフ４１Ａおよび明細書グラフ４２Ａが、ニューラルネットワーク訓練器４４Ｂによって訓練データとして使用される。クレームの「自身の」明細書は、典型的には、完全なポジティブ（正）の訓練ケースを形成する。つまり、特許文書自体が、技術的には、そのクレームの理想的な新規性障壁となるのである。したがって、これらのグラフのペアは、ポジティブ（正）の訓練ケースを形成し、これらのグラフ間の低いベクトル角または高い類似度スコアが達成されることを示している。このシナリオでも、参照データやネガティブな訓練ケースを使用することができる。

現実の新規性検索に基づく訓練データに、同じ文書のクレームと説明文のペアを追加するだけで、現実の新規性検索に基づくテストデータのペアでテストした場合、先行技術の分類精度が１５％以上向上することがテストで示されている。

典型的なケースでは、クレームの機械読み取り可能なコンテンツ（自然言語ユニット、特に単語）の少なくとも８０％、通常は少なくとも９０％、多くの場合は１００％が、同じ特許文書の明細書のどこかに含まれている。このように、特許文書のクレームと明細書は、認識可能なコンテンツと同一の固有識別子（例えば、公開番号）だけでなく、バイトレベルのコンテンツを介して互いにリンクしている。

本明細書に記載されている他の方法およびシステム部分とは独立して実施することもできる一実施形態によれば、本ニューラルネットワークベースの特許検索または新規性評価エンジンの訓練（学習）は、少なくともいくつかの元のクレームまたは明細書ブロックから、元のブロックに部分的に対応する少なくとも１つの縮小データインスタンスを導出することと、前記縮小データインスタンスを前記元のクレームまたは明細書ブロックとともに前記訓練データセットの訓練ケースとして使用することとを含む。

図４Ｃの実施形態では、元のクレームグラフ４１Ｃ’から、複数の縮小されたクレームグラフ４１Ｃ’’－４１Ｃ’’’’を形成することによって、ポジティブ（正）の訓練ケースが増強される。縮小クレームグラフとは、以下のようなグラフを意味する。

－少なくとも1つのノードが削除される（例：電話機表示センサー→電話機表示）
－少なくとも1つのノードが、分岐の上位（より一般的な）位置にある別の位置に移動したこと（例：電話－ディスプレイ－センサー→電話－（ディスプレイ、センサー））、および／または
－少なくとも１つのノードの自然言語ユニットの値が、より一般的な自然言語ユニットの値に置き換えられること（電話－ディスプレイ－センサー→電子機器－ディスプレイ－センサー）。

このような拡張スキームにより、ニューラルネットワークの学習セットを拡張することができ、より正確なモデルを得ることができる。また、実際の特許新規性検索データでは少なくともあまり見られない、わずかなノードや非常に一般的な用語を用いた、いわゆる些細な発明の新規性の検索や評価を意味のあるものにすることができる。データ拡張は、図４Ａおよび図４Ｂのいずれかの実施形態、またはそれらの組み合わせに関連して実施することができる。このシナリオでも、ネガティブ（負）の訓練ケースを使用することができる。

ネガティブ（負）の訓練ケースも、仕様グラフのノードやその値を削除、移動、交換することで拡張することができる。

メロニム関係に基づいたグラフ構造のようなツリー形式のグラフ構造は、ノードを削除したり、より高いツリーの位置に移動させたりすることで、首尾一貫した論理を維持したまま増強することができるため、増強方式に有利である。このケースでは、元のデータインスタンスと削減されたデータインスタンスの両方がグラフになっている。

一実施形態では、縮小されたグラフとは、元のグラフまたは別の縮小されたグラフに対して、少なくとも１つのリーフノードが削除されたグラフである。一実施形態では、グラフのある深さにあるすべてのリーフノードが削除される。

特に自然言語のブロックについては、その一部を削除したり、その内容をより一般的な内容に部分的に変更したりすることで、本種の拡張を直接行うことができる。

元のインスタンスあたりの縮小データインスタンスの数は、例えば、１～１０，０００、特に１～１００とすることができる。２～５０個の拡張グラフを用いたクレームの拡張において、良好な訓練結果が得られる。

いくつかの実施形態では、検索エンジンは、フレッシュなクレームなどの自然言語のフレッシュなブロックを読み取り、それを変換器によってフレッシュなグラフに変換するか、または、ユーザー・インターフェースを介して直接フレッシュなグラフを入力する。直接的なグラフの入力に適したユーザー・インターフェースについては、次に説明する。

図５は、ユーザー・インタフェースの表示要素５０上での例示的なグラフの表現および修正を示す図である。表示要素５０は、複数の編集可能なデータセルＡ－Ｆから構成され、その値は、下層のグラフの対応する自然言語ユニット（例えば、対応するユニットＡ－Ｆ）に機能的に接続され、それぞれのユーザー・インタフェース（ＵＩ）データ要素５２、５４、５６、５４’、５６’、５６’’に表示される。ＵＩデータ要素は、例えば、要素をアクティブにした後にキーボードで値を編集可能なテキストフィールドであってもよい。ＵＩデータ要素５２、５４、６５、５４’、５６’、５６’’は、グラフ内の位置に応じて、表示要素５０上に水平方向および垂直方向に配置される。ここで、水平方向の位置は、グラフ内のユニットの深さに相当する。

表示要素５０は、例えば、Ｗｅｂアプリケーションを実行するＷｅｂブラウザのウィンドウ、フレーム、パネル、または、コンピュータで実行可能なスタンドアロンプログラムのグラフィカル・ユーザー・インターフェース・ウィンドウとすることができる。

また、ユーザー・インタフェースは、ユーザーの入力に応じて自然言語ユニットを表示要素上で水平（垂直）に移動させ、それに応じてグラフを修正することができるシフトエンジンを備えている。これを説明するために、図５では、データセルF（要素５６’’）を１レベル左にシフトしている（矢印５９Ａ）。これにより、要素５４’の下に入れ子になっていた元の要素５６’’は消滅し、上位の要素５２の下に入れ子になった要素５４’’が形成され、データセルＦ（元の値）を構成することになる。その後、データ要素５４’が２段階右にシフトされると（矢印５９Ｂ）、データ要素５４’とその子は右にシフトされ、データ要素５６の下にデータ要素５６’’’とデータ要素５８として入れ子にされる。それぞれのシフトは、基礎となるグラフの入れ子レベルのシフトに対応して反映される。このように、ユニットの子は、ユーザーインターフェースで異なる入れ子レベルにシフトされても、グラフ内に保存される。

いくつかの実施形態では、ＵＩデータ要素は、ユーザーが自然言語データを入力するのを支援するために、編集可能なデータセルに関連して表示される自然言語ヘルパー要素で構成されている。ヘルパー要素のコンテンツは、当該自然言語ユニットに関連付けられた関係ユニットと、オプションとして、その親要素の自然言語ユニットを用いて形成することができる。

図５のようなグラフベースのユーザー・インターフェースではなく、独立クレームなどのブロックテキストを入力できるユーザー・インターフェースでもよい。このテキストブロックは、検索システムの次の段階で使用可能なグラフを得るために、グラフパーサーに供給される。

Claims

自然言語検索システムにおいて、
デジタルデータ記憶手段（１０Ａ、１０Ｂ）であって、
自然言語の複数のブロックと、
前記ブロックに対応するデータグラフと、
を記憶するためのデジタルデータ記憶手段（１０Ａ、１０Ｂ）と、
前記ブロックを前記記憶手段に記憶される前記グラフに変換するように適合された第１のデータ処理手段（１２）であって、前記グラフが、前記ブロックから抽出された自然言語ユニットをノード値としてそれぞれが含む複数のノードを含む、第１のデータ処理手段（１２）と、を備え、
前記システムは、さらに、
前記グラフのノード構造および前記グラフのノード値に基づいて学習済みの機械学習モデルを形成するために前記グラフをトラベルすることができる機械学習アルゴリズムを実行するための第２のデータ処理手段（１４）と、
フレッシュなグラフまたはフレッシュなグラフに変換された自然言語のフレッシュなブロックを読み取り、前記フレッシュなグラフに基づいて前記自然言語のブロックのサブセットを決定するために前記機械学習モデルを利用するように適合された第３のデータ処理手段（１６）と、を備えたことを特徴とする自然言語検索システム。
請求項１に記載のシステムであって、少なくとも一部のグラフにおいて特定の自然言語ユニット値を含む少なくとも一部のノードの数は、対応する自然言語のブロックにおける前記特定の自然言語ユニット値の出現数よりも小さくなるように構成されている、システム。
請求項１または２に記載のシステムであって、前記第１のデータ処理手段（１２）は、
前記ブロックから、自然言語トークンの第１のセットと、前記自然言語トークンの第１のセットとは異なる自然言語トークンの第２のセットを特定すること、
前記トークンの第１のセットおよび前記トークンの第２のセットを利用して、第１のセットのトークンのマッチしたペアを形成するマッチャーを実行すること、
前記トークンの第１のセットの少なくとも一部を、前記マッチしたペアを利用した前記グラフの連続するノードとして配置すること、
によって前記ブロックを前記グラフに変換するように適合されている、システム。
請求項１乃至３のいずれか一項に記載のシステムであって、前記第１のデータ処理手段（１２）は、複数のエッジを含むグラフを形成するように適合されており、前記それぞれのノードは、前記ブロックから導出された、互いにメロニム関係を有する自然言語ユニットを含んでいる、システム。
請求項１乃至４のいずれか一項に記載のシステムであって、前記第１のデータ処理手段（１２）は、複数のエッジを含むグラフを形成するように適合されており、前記それぞれのノードは、前記ブロックから導出された、互いにハイポニム関係を有する自然言語ユニットを含む、システム。
請求項１乃至５のいずれか一項に記載のシステムであって、前記第１のデータ処理手段（１２）は、少なくとも１つのノードが同じグラフ内の１つ以上のノードおよび追加的に前記自然言語のそれぞれのブロックから導出された少なくとも１つの自然言語ユニットへの参照を含むことが可能な複数のエッジを含むグラフを形成するように適合されている、システム。
請求項１乃至６のいずれか一項に記載のシステムであって、前記グラフはツリー形式のグラフであり、そのノード値は、前記第１の処理手段により前記自然言語のブロックから単語の品詞および構文依存性を用いて導出された単語または複数単語のチャンク、またはそのベクトル化された形式を含む、システム。
請求項１乃至７のいずれか一項に記載のシステムであって、前記第１のデータ処理手段（１２）は、グラフのエッジ確率を決定するために確率的グラフモデル（ＰＧＭ）を使用し、前記エッジ確率を使用してグラフを形成するように適合されている、システム。
請求項１乃至８のいずれか一項に記載のシステムであって、前記第２のデータ処理手段（１４）は、リカレントニューラルネットワーク（ＲＮＮ）グラフアルゴリズムなどのグラフベースのニューラルネットワークアルゴリズム、特にツリーＬＳＴＭ(Tree-LSTM)アルゴリズムなどのＬＳＴＭ（Long Short-Term
Memory）アルゴリズムを実行するように適合されている、システム。
請求項１乃至９のいずれか一項に記載のシステムであって、前記学習済みの機械学習モデルは、グラフを多次元ベクトルにマッピングするように適合されており、その相対的な角度は、前記グラフのノード構造および前記グラフのノード値によって定義されている、システム。
請求項１乃至１０のいずれか一項に記載のシステムであって、前記機械学習モデルは、前記グラフのノード構造および前記グラフのノード値に応じて、グラフまたはグラフのペアを２つ以上のクラスに分類するように適合されている、システム。
請求項１乃至１１のいずれか一項に記載のシステムであって、
前記記憶手段は、前記ブロックの少なくとも一部を相互にリンクする参照データを記憶するようにさらに構成されており、
前記機械学習アルゴリズムは、前記機械学習モデルを訓練するための前記参照データに依存する学習目標を有している、システム。
請求項１乃至１２のいずれか一項に記載のシステムであって、前記記憶手段は、第１の自然言語ブロックと第２の自然言語ブロックとをそれぞれが含む自然言語文書を記憶するように構成されている、システム。
請求項１２および１３に記載のシステムであって、前記第２のデータ処理手段（１４）は、前記訓練において、第１の文書の第１のブロックに対応する複数の第１のグラフと、各第１のグラフに対して、前記参照データによって定義された、前記第１の文書とは異なる第２の文書の第２のブロックに少なくとも部分的に基づいた１つまたは複数の第２のグラフとを使用するように構成されている、システム。
請求項１２乃至１４のいずれか一項に記載のシステムであって、前記第２のデータ処理手段（１４）は、前記訓練において、第１の文書の第１のブロックに対応する複数の第１のグラフと、各第１のグラフに対して、前記第１の文書の前記第２のブロックに少なくとも部分的に基づいた第２のグラフとを使用するように構成されている、システム。
請求項１乃至１５のいずれか一項に記載のシステムであって、前記第３のデータ処理手段（１６）は、前記フレッシュな自然言語入力をフレッシュなグラフとして、または対応するグラフに変換される自然言語のフレッシュなブロックとして読み取るように適合されている、システム。
請求項１乃至１６のいずれか一項に記載のシステムであって、クレームと明細書を前記自然言語のブロックとして利用する特許検索システムである、システム。
自然言語文書を検索するコンピュータ実装の方法であって、
自然言語の複数のブロックをデジタルデータストアに記憶する工程と、
前記ブロックを対応するグラフに変換する工程であって、前記グラフは、前記ブロックから抽出された自然言語ユニットをノード値としてそれぞれが含む複数のノードを含む、工程と、
前記デジタルデータストアにグラフを記憶する工程と、を備え、
前記方法は、さらに、
前記グラフのノード構造および前記グラフのノード値に基づいて学習済みの機械学習モデルを形成するために前記グラフをトラベルすることが可能な機械学習アルゴリズムを実行する工程と、
フレッシュなグラフまたはフレッシュなグラフに変換される自然言語のフレッシュなブロックを読み取る工程と、
前記フレッシュなグラフに基づいて前記自然言語のブロックのサブセットを決定するために前記機械学習モデルを利用する工程と、を備える、方法。