JP2022508737A - 自然言語文書を検索するシステム - Google Patents

自然言語文書を検索するシステム Download PDF

Info

Publication number
JP2022508737A
JP2022508737A JP2021545331A JP2021545331A JP2022508737A JP 2022508737 A JP2022508737 A JP 2022508737A JP 2021545331 A JP2021545331 A JP 2021545331A JP 2021545331 A JP2021545331 A JP 2021545331A JP 2022508737 A JP2022508737 A JP 2022508737A
Authority
JP
Japan
Prior art keywords
graph
natural language
block
data
processing means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021545331A
Other languages
English (en)
Other versions
JPWO2020074786A5 (ja
Inventor
アルヴェラ、サカリ
カリオ、ジュホ
ビョルククビスト、セバスチャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iprally Technologies Oy
Original Assignee
Iprally Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iprally Technologies Oy filed Critical Iprally Technologies Oy
Publication of JP2022508737A publication Critical patent/JP2022508737A/ja
Publication of JPWO2020074786A5 publication Critical patent/JPWO2020074786A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Fuzzy Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Devices For Executing Special Programs (AREA)

Abstract

本発明は、自然言語検索システムおよび方法を提供するものである。このシステムは、自然言語の複数のブロックと、前記ブロックに対応するデータ・グラフとを記憶するデジタルデータ記憶手段を備える。第1のデータ処理手段は、前記ブロックを、前記記憶手段に記憶されている前記グラフに変換するように適合されている。前記グラフは、前記ブロックから抽出された自然言語ユニットをノード値として含む複数のノードを含む。前記グラフをトラベルし、前記グラフのノード構造および前記グラフのノード値に基づいて学習済みの機械学習モデルを形成するためにノード値を読み取ることが可能な機械学習アルゴリズムを実行する第2のデータ処理手段と、フレッシュなグラフを読み取り、フレッシュなグラフに基づいて自然言語の前記ブロックのサブセットを決定するために前記モデルを利用するように適合された第3のデータ処理手段とが設けられている。

Description

発明の分野
本発明は、自然言語処理に関するものである。特に、本発明は、自然言語を含む文書を検索、比較、または分析するための、ニューラルネットワークベースなどの機械学習ベースのシステムおよび方法に関するものである。文書は、技術文書または科学文書であってもよい。特に、文書は、特許文書であってもよい。
発明の背景
文書化された技術的概念の比較は、ビジネス、産業、経済、文化の多くの分野で必要とされている。具体的な例としては、特許出願の審査がある。この審査では、特許出願のクレームで定義された技術的概念が、他の文書で定義された別の技術的概念を意味的にカバーしているかどうかを判断することが目的となる。
現在、個々の文書を見つけるための検索ツールは増えてきたが、文書で開示される概念の分析や比較は、単語、文章、およびより大きなエンティティの意味を人間が推論するという、マニュアル作業によるものがほとんどである。
自然言語処理に関する科学的研究により、コンピュータで自動的に言語を解析するためのツールが開発された。これらのツールは、テキストのトークン化、品詞(パート・オブ・スピーチ)のタグ付け、エンティティの認識、単語やエンティティ間の依存関係の識別などに利用できる。
また、特許文書からキーコンセプトを抽出して、テキストの要約や技術動向の分析などを目的とした特許の自動分析も科学的に行われている。
近年、単語の意味をコンピュータで処理可能な数値形式にマッピングするために、多次元の単語ベクトルを用いた単語埋め込みが重要なツールとなっている。このアプローチは、リカレント・ニューラル・ネットワークなどのニューラル・ネットワークで利用することができ、コンピュータに文書の内容をより深く理解させることができる。
特許検索は、従来、キーワード検索を用いて行われていた。この検索では、適切なキーワードとその同義語、変化形などを定義し、ブーリアン検索戦略を作成する。これには時間がかかり、専門知識も必要である。最近では、セマンティック検索も開発されている。これは、より曖昧で、人工知能技術を使用する場合もある。セマンティック検索は、他の文書で議論されている概念に何らかの関連性がある多数の文書を迅速に見つけるのに役立つ。しかし、特許の新規性検索などでは、特許クレームで定義された一般的な概念に該当する特定の内容を開示している文書を見つけるという、実際に新規性を評価する能力は限られているため、比較的限定されている。
要約すると、一般的な検索や、テキストからの中核的な概念の抽出、テキストの要約などに適した技術がある。しかし、特許の新規性検索やその他の技術的な比較のために重要となる、大規模なデータに含まれる異なる文書に開示された概念間の詳細な比較には適していない。
特に、より効率的な検索や新規性評価ツールを実現するために、テキストの分析・比較技術の向上が求められている。
本発明の目的は、上述の問題点の少なくとも一部を解決し、技術的な検索の精度を向上させる新規のシステムおよび方法を提供することである。具体的な目的は、文書の概念間の技術的な関係をよりよく考慮して、対象となる検索を行うことができる解決策を提供することである。
特に、改善された特許検索と自動化された新規性評価のためのシステムと方法を提供することを目的としている。
一態様によれば、本発明は、自然言語の複数のブロックと、前記ブロックに対応するデータグラフとを記憶するためのデジタルデータ記憶手段を備える自然言語検索システムを提供するものである。また、前記ブロックを、前記記憶手段に格納されている前記グラフに変換するように適合された第1のデータ処理手段が提供される。前記グラフは、複数のノード、好ましくは連続するノードを含み、それぞれが前記ブロックから抽出された自然言語ユニット(単位)をノード値またはその一部として含む。また、前記グラフのノード構造および前記グラフのノード値に基づいて学習済みの機械学習モデルを形成するために、前記グラフをトラベル(巡回)し、ノード値を読み取ることができる機械学習アルゴリズムを実行する第2のデータ処理手段と、フレッシュなグラフまたはフレッシュなグラフに変換された自然言語のフレッシュなブロックを読み取り、フレッシュなグラフに基づいて自然言語の前記ブロックのサブセットを決定するために前記機械学習モデルを利用するように適合された第3のデータ処理手段とが提供される。
本発明は、自然言語のブロックを読み取り、第1、第2および第3のデータ処理手段の機能を実行するように適合された方法にも関する。
一態様によれば、本発明は、特許文書を検索するシステムおよび方法を提供し、この方法は、それぞれが明細書およびクレームを含む複数の特許文書を読み取り、明細書およびクレームを、それぞれ明細書グラフおよびクレームグラフに変換することを含む。前記グラフは、前記明細書またはクレームから抽出された第1の自然言語ユニットをノード値としてそれぞれ有する複数のノードと、前記ノード間の複数のエッジとを含み、前記エッジは、前記明細書またはクレームから抽出された少なくとも1つの第2の自然言語ユニットに基づいて決定される。本方法は、エッジに従ってグラフをトラベル(巡回)することができる機械学習アルゴリズムを用いて機械学習モデルを学習することと、前記明細者およびクレームのグラフの複数の異なる組を訓練データとして用いて、学習済みの機械学習モデルを形成するために前記ノード値を利用することとを含む。また、本方法は、フレッシュなグラフまたはフレッシュなグラフに変換されたテキストのブロックを読み取ることと、フレッシュなグラフに基づいて前記特許文書のサブセットを決定するために前記学習済みの機械学習モデルを利用することとを含む。
グラフは、特に、少なくともいくつかの連続するノードのノード値の間にメロニム関係を持つツリー形式の再帰的グラフであり得る。
本方法およびシステムは、好ましくはニューラルネットワークベースであり、それにより、機械学習モデルはニューラルネットワークモデルである。
より具体的には、本発明は、独立請求項に記載された内容を特徴とする。
本発明には大きなメリットがある。キーワードベースの検索と比較して、本発明のグラフベースでニューラルネットワークを利用するアプローチは、単語のテキストコンテンツや、オプションとして単語の近さのような他の伝統的な基準だけに基づいて検索を行うのではなく、文書内の概念の実際の技術的な関係も考慮されるという利点がある。このため、本アプローチは、正確な表現や文書のスタイルではなく、技術的な内容が重要となる特許検索などに特に適している。これにより、より正確な技術検索が可能になる。
テキストベースの線形ニューラルネットワークモデルなどを用いたいわゆるセマンティック検索と比較して、グラフベースのアプローチは、文書の実際の技術的内容をよりよく考慮することができる。さらに、軽量なグラフは、全文に比べてはるかに少ない計算量で処理することができる。これにより、より多くの訓練データを使用することができ、開発と学習のサイクルを短縮し、より正確な検索を実現する。また、実際の検索時間も短縮できる。
本アプローチは、特許当局や特許出願人から提供される特許の新規性検索データや引用データなどの実在の訓練データを使用することに対応している。また、本アプローチでは、後に詳述するように、データ増強などの高度な学習スキームも可能である。
特許テキストを凝縮して簡略化したグラフ表現と実在の訓練データを組み合わせると、比較的高い検索精度と高い計算学習効率が得られることが、実在のテストデータで示されている。
従属請求項は、本発明の選択された実施形態に向けられている。
次に、本発明の選択された実施形態とその利点について、添付の図面を参照しながらより詳細に説明する。
図1Aは、一般的なレベルの例示的な検索システムのブロック図である。 図1Bは、ニューラルネットワークベースの検索エンジンとその訓練器のパイプラインを含む、検索システムのより詳細な実施形態のブロック図である。 図1Cは、一実施形態による特許検索システムのブロック図である。 図2Aは、メロニム(meronym)/ホロニム(holonym)の関係のみを持つ例示的な入れ子グラフのブロック図である。 図2Bは、メロニム/ホロニムの関係とヒポニム(hyponym:下位単語)/ハイパーニム(hypernym:上位単語)の関係を持つ例示的な入れ子グラフのブロック図である。 図3は、例示的なグラフ解析アルゴリズムのフローチャートである。 図4Aは、特許検索/引用データを訓練データとして用いて、特許検索ニューラルネットワークを学習する様子を示すブロック図である。 図4Bは、同一の特許文書に記載されたクレームと明細書のグラフのペアを訓練データとして用いてニューラルネットワークを学習する様子を示すブロック図である。 図4Cは、訓練データとして拡張されたクレームグラフセットを用いたニューラルネットワークの訓練のブロック図である。 図5は、一実施形態による例示的なグラフフィーディングのユーザーインターフェースの機能性を示している。
定義
本明細書では、「自然言語ユニット」とは、テキストのチャンク(塊)、または埋め込み後のテキストのチャンクのベクトル表現を意味する。チャンクは、コンピュータで読み取り可能な形式で保存された元のテキストに1回以上出現する単一の単語または複数の単語の下位概念であり得る。自然言語ユニットは、文字値のセット(コンピュータサイエンスでは通常「文字列」として知られている)として、または多次元ベクトル値として数値的に表示されるか、またはそのような値への参照として表示される。
「自然言語のブロック」とは、自然言語ユニットの言語的に意味のある組み合わせ、例えば英語などの言語の1つまたは複数の完全または不完全な文を含むデータインスタンスのことでである。自然言語のブロックは、例えば、単一の文字列として表現され、ファイルシステムのファイルに格納され、および/または、ユーザーインターフェースを介してユーザーに表示される。
「文書」とは、自然言語コンテンツを含む機械読み取り可能なエンティティで、システム内の他の文書に対して一意である機械読み取り可能な文書識別子と関連付けられているものを指す。
「特許文書」とは、特許出願または付与された特許の自然言語内容を指す。本システムでは、特許文書は、EPO、WIPO、USPTO、または他の国や地域の特許庁などの公認特許機関によって割り当てられた公開番号、および/または他の機械読み取り可能な一意の文書識別子と関連付けられている。「クレーム」とは、特許文書のクレーム、特に独立クレームの本質的な内容を指す。明細書」とは、特許文書の記述の少なくとも一部を含む特許文書の内容を指す。明細書は、特許文書の他の部分、例えば、要約書やクレームなどもカバーすることができる。クレームと明細書は、自然言語のブロックの例である。
本明細書では、本特許出願の実効日に欧州特許庁がクレームと見なす自然言語のブロックを「クレーム」と定義する。特に、「クレーム」とは、例えば、ブロックの前に文字列形式で、および/または、xmlやhtml形式などのマークアップファイル形式の関連情報(の一部)として、そこにある機械読み取り可能な整数番号で識別される自然言語文書のコンピュータで識別可能なブロックである。
「明細書」とは、少なくとも1つのクレームを含む特許文書の中で、クレーム以外の少なくとも1つの部分を含む、コンピュータで識別可能な自然言語のブロックと定義する。また、「明細書」は、xmlやhtml形式などのマークアップファイル形式の関連情報によって識別することもできる。
ここでいう「エッジ関係」とは、特に、ブロックから抽出された技術的な関係、および/または、当該自然言語ユニットのセマンティクスを使用して得られた意味的な関係のことを指す。具体的には、エッジ関係は以下のようになる。
-メロニム関係(別名:メロニム/ホロニム関係);メロニム:XがYの一部であること;ホロニム:YがXを自分の一部としていること;例えば。例えば、「車輪」は「車」のメロニムである。
-ヒポニム関係(別名:ヒポニム/ハイパーニム関係);ヒポニム:XはYの下位、ハイパーニム:XはYの上位;例:「電気自動車」は「自動車」のヒポニム、または
-同義語(シノニム)関係:XはYと同じである。
いくつかの実施形態では、エッジ関係は、再帰的なグラフの連続して入れ子にされたノードの間で定義され、各ノードはノード値として自然言語ユニットを含む。
さらに可能な技術的関係としては、上述の関係以外に、テキストのある下位概念が1つ以上の他の下位概念に対して果たす役割を指す主題的関係がある。少なくともいくつかの主題的関係は、連続して入れ子にされたユニット間で定義することができる。ある例では、親ユニットの主題的関係が子ユニットで定義される。テーマ関係の一例として、ロールクラスの「機能」が挙げられる。例えば、「ハンドル」の機能は、「物体の操作を可能とすること」とすることができる。このような主題的関係は、「ハンドル」ユニットの子ユニットとして格納することができ、「機能」ロールは子ユニットに関連付けられる。また、主題的関係は、事前に定義されたクラスを持たない(あるいは「関係」などの一般的なクラスを持つ)汎用の関係であってもよいが、ユーザーが自由に定義してもよい。例えば、ハンドル(取っ手)とコップの汎用的な関係は、「[ハンドル(取っ手)]は[コップ]に接着剤で取り付けられている」とすることができる。このようなテーマ性のある関係は、「ハンドル」ユニット、「コップ」ユニットのいずれか、あるいは両方の子ユニットとして、好ましくは相互に参照しながら格納することができる。
関係ユニットは、データ処理装置で実行されたときに、そのクラスまたはサブクラスの関係を含む自然言語のブロックを生成するコンピュータ実行可能なコードにリンクされている場合、特定の関係クラスまたはサブクラスの関係を定義すると考えられる。
「グラフ」または「データグラフ」とは、一般的に非線形の再帰的データスキーマおよび/またはネットワークデータスキーマに従うデータインスタンスを指す。本システムは、同じデータスキーマに従いながら、そのデータが異なるソースに由来および/または関連する複数の異なるグラフを同時に含むことができる。グラフは、実際には、再帰的および/またはネットワークとしてのデータ項目の保存を可能にする、任意の適切なテキストまたはバイナリ形式で保存することができる。グラフは、特に、意味的および/または技術的なグラフ(ノード値間の意味的および/または技術的な関係を記述する)であり、構文的なグラフ(ノード値間の言語的な関係のみを記述する)とは対照的である。グラフは、ツリー形式のグラフであってもよい。複数のツリーを含むフォレスト形式のグラフは、本明細書ではツリー形式のグラフとみなされる。特に、グラフは、技術的ツリーフォームグラフであり得る。
「データスキーマ」とは、データ、特に自然言語ユニットとそれに関連するデータ(ユニット間の技術的関係の情報など)が組織化される規則のことである。
自然言語ユニットの「入れ子(ネスティング)」とは、データスキーマによって決定される、ユニットが1つ以上の子と1つ以上の親を持つことができることを指す。ある例では、ユニットは1つ以上の子と1つの親だけを持つことができる。ルートユニットは親を持たず、リーフユニットは子を持たない。シブリングユニットは同じ親を持つ。「連続した入れ子」とは、親ユニットとその直接の子ユニットの間の入れ子を指す。
「再帰的」な入れ子やデータスキーマとは、データ項目を含む自然言語ユニットを入れ子にできる入れ子やデータスキーマのことである。
「自然言語トークン」とは、自然言語の、より大きなブロックの中の単語または単語チャンクを指す。トークンには、品詞(POS)ラベルや構文依存タグなど、単語や単語チャンクに関連するメタデータが含まれることがある。自然言語トークンの「セット」とは、特に、テキスト値、POSラベル、依存関係タグ、またはこれらの組み合わせに基づいて、所定のルールやファジーロジックに従ってグループ化できるトークンを指す。
「データ記憶手段」、「処理手段」、「ユーザーインターフェース手段」とは、主に、非一時的なコンピュータ可読媒体に格納され、プロセッサによって実行されたときに、指定された機能、すなわち、デジタルデータの保存、ユーザーによるデータの操作、データの処理をそれぞれ実行するように適合されたソフトウェア手段、すなわち、コンピュータ実行可能なコード(命令)を意味する。システムのこれらの構成要素はすべて、ソフトウェア構成要素を実行するための適切なハードウェアによってサポートされた、例えばローカルにインストールされたウェブブラウザを介して、ローカルコンピュータまたはウェブサーバのいずれかによって実行されるソフトウェアで遂行することができる。本明細書に記載されている方法は、コンピュータで実行される方法である。
選択された実施形態の説明
以下に、自然言語の複数のブロックと、そのブロックに対応するデータグラフを記憶するデジタルデータ記憶手段を備えた自然言語検索システムを説明する。記憶手段は、1つまたは複数のローカルまたはクラウドのデータストアで構成されてもよい。ストアは、ファイルベースまたはクエリ言語ベースとすることができる。
前記第1のデータ処理手段は、前記ブロックを前記グラフに変換するように適合された変換ユニットである。各グラフは、ブロックから抽出された自然言語ユニットをノード値として含む複数のノードを含んでいる。エッジは、ノードのペアの間に定義され、ノード間の技術的な関係を定義する。例えば、エッジまたはその一部は、2つのノード間のメロニム関係を定義し得る。
いくつかの実施形態では、グラフ内の特定の自然言語ユニットの値を含む少なくとも一部のノードの数は、対応する自然言語のブロックにおける特定の自然言語ユニットの出現数よりも小さい。つまり、グラフは原文の凝縮された表現であり、例えば、後述するトークン識別・照合法を用いて達成可能である。各ノードに対して複数の子ノードを許可することで、テキストの本質的な技術的(およびオプションとして意味的)内容をグラフ表現の中で維持することができる。凝縮されたグラフは、グラフベースのニューラルネットワークアルゴリズムによる処理にも効率的であり、それによってニューラルネットワークアルゴリズムは、テキストの本質的な内容を、直接のテキスト表現からよりも良く、速く学習することができる。このアプローチは、技術文書の比較、とりわけクレームに基づく特許明細書の検索やクレームの新規性の自動評価において、特に威力を発揮します。
いくつかの実施形態では、特定の自然言語ユニットを含むすべてのノードの数は1である。つまり、重複するノードはない。これにより、少なくともツリー形式のグラフを使用する場合には、テキストの元の内容が単純化される可能性があるが、その結果、特許検索や新規性評価に適した、非常に効率的に処理可能で、なおかつ比較的表現力のあるグラフが得られる。
いくつかの実施形態では、グラフは、少なくとも元のテキストに見られる名詞および名詞チャンクについて、そのような凝縮されたグラフである。特に、グラフは、メロニム関係に従って配列された名詞値ノードのための凝縮されたグラフであり得る。平均的な特許文書では、多くの名詞語がテキスト全体で数十回、あるいは数百回も出現する。本方式により、このような文書の内容を元のスペースの数分の一に圧縮しつつ、機械学習に適したものにすることができる。
いくつかの実施形態では、自然言語の少なくとも1つの元のブロックで何度も出現する複数の用語が、対応するグラフで正確に1回出現する。
凝縮されたグラフ表現は、同義語や共参照(特定の文脈で同じことを意味する表現)を考慮してグラフを構築することができるという利点もある。その結果、さらに凝縮されたグラフが得られる。いくつかの実施形態では、少なくとも2つの異なる記述形式の自然言語の少なくとも1つの元のブロックに出現する複数の用語が、対応するグラフにちょうど1回出現する。
第2のデータ処理手段は、訓練データのケースとともに学習目標を定義する損失関数によって定義されるように、グラフ構造を反復的にトラベル(巡回)し、グラフの内部構造とそのノード値の両方から学習することができるニューラルネットワークアルゴリズムを実行するためのニューラルネットワーク訓練器である。訓練器は、訓練アルゴリズムで指定されたグラフまたはそこから導出された拡張グラフの組み合わせを、通常、訓練データとして受け取る。訓練器は、学習済みのニューラルネットワークモデルを出力する。
このようなグラフ形式のデータを用いた教師あり機械学習法は、特許文書や科学文書の中から技術的に関連性のある文書を見つけ出すのに非常に有効であることがわかっている。
いくつかの実施形態では、記憶手段は、ブロックの少なくとも一部を相互にリンクする参照データを記憶するようにさらに構成される。参照データは、訓練データを導出するため、すなわち、ポジティブ(正)またはネガティブ(負)の訓練ケース、すなわち訓練サンプルとして訓練に使用されるグラフの組み合わせを定義するために、訓練器によって使用される。訓練器の学習目標は、この情報に依存している。
第3のデータ処理手段は、検索エンジンであり、通常、ユーザーインターフェースまたはネットワークインターフェースを通じて、自然言語のフレッシュなグラフまたはフレッシュなブロックを読み取るように適合されている。必要に応じて、ブロックは変換ユニットでグラフに変換される。検索エンジンは、学習済みのニューラルネットワークモデルを使用して、フレッシュなグラフに基づいて自然言語のブロック(またはそこから導出されたグラフ)のサブセットを決定する。
図1Aは、特に特許文書などの技術文書や科学文書の検索に適した本システムの一実施形態を示す。本システムは、複数の自然言語文書を含む文書ストア10Aを備える。文書ストア10Aから文書を読み取り、それらをグラフフォーマットに変換するように適合されたグラフパーサ12については、より詳細に後述する。変換されたグラフは、グラフストア10Bに格納される。
このシステムは、ニューラルネットワーク訓練器ユニット14を備えており、訓練データとして、グラフストアからの解析済みグラフのセットと、それらの相互関係に関するいくつかの情報とを受け取る。この場合、文書に関する引用データおよび/または新規性検索結果などを含む、文書参照データストア10Cが提供される。訓練器ユニット14は、ニューラルネットワークベースの検索エンジン16のためのニューラルネットワークモデルを生成するグラフベースのニューラルネットワークアルゴリズムを実行する。エンジン16は、グラフストア10Bからのグラフをターゲット検索セットとして使用し、ユーザーインタフェース18から得られるユーザーデータ(典型的にはテキストまたはグラフ)を参照として使用する。
検索エンジン16は、例えば、ユーザーデータから形成されるベクトルに最も近いグラフストア10Bのグラフに対応するベクトルを見つけるように訓練(学習)されたグラフ-ベクトル検索エンジンであってもよい。また、検索エンジン16は、ユーザーのグラフ、またはそれに由来するベクトルと、グラフストア10Bから得られたグラフ、またはそれに由来するベクトルとをペア(対)にして比較する、例えば、二値分類器検索エンジンのような分類器検索エンジンであってもよい。
図1Bは、グラフの自然言語ユニットを多次元ベクトル形式に変換するテキスト埋め込みユニット13をさらに備えた、本システムの一実施形態を示す。これは、変換されたグラフと、グラフストア10Bからのグラフと、ユーザーインタフェース18を介して入力されたグラフに対して行われる。典型的には、ベクトルは少なくとも100次元、例えば300次元以上の次元を有する。
図1Bにも示す一実施形態では、ニューラルネットワーク検索エンジン16は、パイプラインを形成する2つの部分に分割されている。エンジン16は、例えば、文書参照データストア10Cからの参照データを用いてニューラルネットワーク訓練器14のグラフ埋め込み訓練器14Aによって訓練(学習)されたモデルを用いて、グラフを多次元ベクトル形式に変換するグラフ埋め込みエンジンからなる。ユーザーのグラフは、ベクトル比較エンジン16Bにおいて、グラフ埋め込みエンジン16Aによってあらかじめ生成されたグラフと比較される。その結果、ユーザーのグラフに最も近いグラフの絞り込まれたサブセットが発見される。グラフのサブセットは、関連するグラフのセットをさらに絞り込むために、グラフ分類器エンジン16Cによってユーザー・グラフとさらに比較される。グラフ分類器エンジン16Cは、例えば文書参照データストア10Cからのデータを訓練データとして用いて、グラフ分類器学習器14Cによって訓練(学習)される。本実施形態は、ベクトル比較エンジン16Bによる事前に形成されたベクトルの比較が非常に高速であるのに対し、グラフ分類エンジンは、グラフの詳細なデータ内容や構造にアクセスでき、グラフの違いを見つけるための正確な比較を行うことができる点で有益である。グラフ埋め込みエンジン16Aおよびベクトル比較エンジン16Bは、グラフ分類エンジン16Cのための効率的なプレフィルタとして機能し、グラフ分類エンジン16Cによって処理される必要のあるデータ量を減らすことができる。
グラフ埋め込みエンジンは、グラフを少なくとも100次元、好ましくは200次元以上、さらには300次元以上のベクトルに変換することができる。
ニューラルネットワーク訓練器14は、グラフ埋め込み部とグラフ分類部に分かれており、それぞれ、グラフ埋め込み訓練器14A、グラフ分類訓練器16Cを用いて訓練(学習)される。グラフ埋め込み訓練器14Aは、ニューラルネットワークベースのグラフ-ベクトルモデルを形成し、テキスト内容や内部構造が互いに類似しているグラフの近傍ベクトルを形成することを目的としている。グラフ分類器訓練装置14Bは、分類器モデルを形成しており、グラフのペアを、そのテキスト内容と内部構造の類似性に応じてランク付けすることができる。
ユーザーインターフェース18から得られたユーザーデータは、埋め込みユニット13で埋め込まれた後、ベクトル化のためにグラフ埋め込みエンジンに供給され、その後、ベクトル比較エンジン16Bが、グラフストア10Bのグラフに対応する最も近いベクトルのセットを見つける。最も近いグラフのセットは、グラフ分類器エンジン16Cに供給され、グラフ分類器エンジン16Cは、正確な一致を得るために、学習済みのグラフ分類器モデルを使用して、ユーザーのグラフとそれらを1つずつ比較する。
いくつかの実施形態では、グラフ埋め込みエンジン16Aは、グラフ埋め込み訓練器14Aによって訓練(学習)されたように、その依存する学習目標を用いて参照データから学習された、ノードコンテンツとノード構造の両方の観点から、グラフが類似しているほど角度が互いに近いベクトルを出力する。訓練(学習)により、参照データから得られたポジティブ(正)の学習事例(同じ概念を描いたグラフ)のベクトルの角度を最小にし、ネガティブ(負)の学習事例(異なる概念を描いたグラフ)のベクトルの角度を最大にする、あるいは少なくともゼロから大きく乖離させることができる。
グラフベクトルは、例えば200-1000次元、例えば250-600次元とすることができる。
このような教師あり機械学習モデルは、グラフによって開示された技術的概念の類似性を効率的に評価することができ、さらに、グラフがそこから導出された自然言語のブロックを評価することができることがわかっている。
いくつかの実施形態では、グラフ分類器エンジン16Cは、グラフ分類器学習器14Cによって訓練(学習)されると、それに依存する学習目標を用いて、参照データから訓練(学習)された、ノードコンテンツとノード構造の両方の観点から、比較されたグラフがより類似しているほど高い類似度スコアを出力する。学習により、参照データから得られたポジティブ(正)の学習事例(同じ概念を描いたグラフ)の類似度スコアは最小化され、ネガティブ(負)の学習事例(異なる概念を描いたグラフ)の類似度スコアは最大化される。
コサイン類似度は、グラフやそこから導出されたベクトルの類似性を表す基準のひとつである。
グラフ分類器訓練器14Cまたはエンジン16Cは必須ではなく、グラフの類似性は、グラフ埋め込みエンジンによって埋め込まれたベクトルの間の角度に基づいて直接評価することができることに留意すべきである。この目的のために、それ自体既知の高速ベクトルインデックスを使用して、与えられたフレッシュなグラフベクトルに対する1つまたは複数の近くのグラフベクトルを見つけることができる。
訓練器14および検索エンジン16、またはそのサブ訓練器14A、14Cまたはサブエンジン16A、16Cのいずれかまたは両方によって使用されるニューラルネットワークは、リカレントニューラルネットワーク、特にLSTM(Long Short-Term Memory)ユニットを利用するものであり得る。ツリー構造のグラフの場合、ネットワークは、Child-Sum-Tree-LSTMネットワークなどのツリーLSTM(Tree-LSTM)ネットワークとすることができる。ネットワークは、1つまたは複数のLSTM層と1つまたは複数のネットワーク層を有してもよい。ネットワークは、モデルの訓練および/または実行中に、グラフの部分を内部または外部で互いに関連付けるアテンション・メカニズムを使用してもよい。
本発明のいくつかのさらなる実施形態は、特許検索システムの文脈で以下に説明され、それにより、処理される文書は特許文書である。上述した一般的な実施形態および原理は、特許検索システムに適用可能である。
いくつかの実施形態では、システムは、第1の自然言語ブロックと、第1の自然言語ブロックとは異なる第2の自然言語ブロックとをそれぞれ含む自然言語文書を記憶手段に記憶するように構成される。訓練器は、第1文書の第1ブロックに対応する複数の第1グラフと、各第1グラフに対して、参照データによって定義される、第1文書とは異なる第2文書の第2ブロックに少なくとも部分的に基づく1つ以上の第2グラフとを使用することができる。このようにして、ニューラルネットワークモデルは、異なる文書の異なる部分の間の相互関係から学習する。一方、訓練器は、第1の文書の第1のブロックに対応する複数の第1のグラフと、各第1のグラフに対して、第1の文書の第2のブロックに少なくとも部分的に基づく第2のグラフとを用いることができる。このようにして、ニューラルネットワークモデルは、1つの文書内のデータの内部関係から学習することができる。これら両方の学習方式は、次に詳述する特許検索システムによって、単独で、または一緒に使用することができる。
上述した凝縮されたグラフ表現は、特許検索システム、すなわちクレームおよび明細書のグラフ、特に明細書のグラフに特に適している。
図1Cは、少なくともコンピュータ識別可能な明細書部分とクレーム部分を含む特許文書を含む特許文書ストア10Aを含むシステムを示す。グラフパーサ12は、クレームグラフパーサ12Aによってクレームを解析し、明細書グラフパーサ12Bによって明細書を解析するように構成されている。解析されたグラフは、クレーム・明細書グラフストア10Bに別々に格納される。テキスト埋め込み部13は、ニューラルネットワークで処理するためのグラフを準備する。
参照データには、公開されている特許出願や特許の検索・審査データ、および特許文書間の引用データが含まれます。一実施形態では、参照データは、以前の特許検索結果、すなわち、どの以前の特許文書が、後に提出された特許出願の新規性および/または進歩性の根拠とみなされるかという情報を含む。参照データは、以前の特許検索および/または引用データストア10Cに格納される。
ニューラルネットワーク訓練器14は、解析されて埋め込まれたグラフを使用して、特に特許検索の目的で訓練(学習)されたニューラルネットワークモデルを形成する。これは、特許検索および/または引用データを訓練器14の入力として使用することによって達成される。その目的は、例えば、特許出願のクレームグラフと、それに対する新規性障壁として使用される特許文書の明細書グラフとの間のベクトル角を最小化したり、類似度スコアを最大化したりすることである。このようにして、複数(典型的には数十万または数百万)のクレームに適用することで、モデルは先行技術に関するクレームの新規性を評価することを学習する。このモデルは、ユーザーインターフェース18Aを介して得られたユーザーグラフに対して、検索エンジン16によって使用され、最も可能性のある新規性障壁(バー)を見つける。その結果は、検索結果表示インターフェース18Bに表示することができる。
図1Cのシステムでは、検索エンジンのパイプラインを利用することができる。エンジンは、以前の特許検索および/または引用データストア10Cから得られた訓練データの同じまたは異なるサブセットで訓練(学習)されてもよい。例えば、大規模または完全な参照データセット、すなわちポジティブ(正)とネガティブ(負)のクレーム/明細書のペアで訓練(学習)されたグラフ埋め込みエンジンを使用して、完全な先行技術データセットからグラフのセットをフィルタリングすることができる。フィルタリングされたグラフのセットは、次に、グラフの類似性を見つけるために、より小さい、例えば、特許クラス固有の参照データセット、すなわち、ポジティブ(正)とネガティブ(負)のクレーム/明細書のペアで訓練されてもよい分類エンジンにおいて、ユーザーのグラフに対して分類される。
次に、図2Aおよび図2Bを参照して、特に特許検索システムに適用可能なツリー形式のグラフ構造について説明する。
図2Aは、メロニム関係のみをエッジ関係としたツリー形式のグラフである。テキストユニットA-Dは、ルートノード10から導出されて、グラフに線形再帰的なノード10、12、14、16として配置され、テキストユニットEは、ノード12の子として、示された自然言語のブロックから導出されて、子ノード18として配置されている。ここで、メロニム関係は、メロニム/ホロニム表現である「備える(comprises)」、「有する(having)」、「に含まれる(is contained in)」、「含む(includes)」から検出される。
図2Bは、2つの異なるエッジ関係、この例ではメロニム関係(第1の関係)とヒポニム関係(第2の関係)を持つ別のツリー形式のグラフである。テキストユニットA-Cは、メロニム関係を持つ線形再帰ノード10、12、14として配置されている。テキストユニットDは、ハイポニム関係を持つ親ノード14の子ノード26として配置されている。テキストユニットEは、親ノード12の子ノード24として、ハイポニムの関係で配置されている。テキストユニットFは、ノード24の子ノード28として、メロニムの関係で配置されている。ここで、メロニムとヒポニムの関係は、メロニム/ホロニムの表現である「備える(comprises)」、「有する(having)」、「のような(such as)」、「は、例えば(is for example」」から検出される。
一実施形態によれば、第1のデータ処理手段は、まず、ブロックから、自然言語トークンの第1のセット(例えば、名詞および名詞チャンク)と、自然言語トークンの第1のセットとは異なる自然言語トークンの第2のセット(例えば、メロニムおよびホロニム表現)とを識別することにより、ブロックをグラフに変換するように適合される。そして、第1セットのトークンのマッチしたペアを形成するために、第1セットのトークンと第2セットのトークンを利用してマッチャーが実行される(例えば、「本体が部材を備える(body comprises member)」の「本体(body)」」と「部材(member)」)。最後に、第1セットのトークンは、前記マッチしたペアを利用して、前記グラフのノードとして配置される(例えば、「本体(body)」-(メロニムエッジ)-「部材(member)」)。
一実施形態では、グラフには少なくともメロニムエッジが使用されており、それぞれのノードには、前記ブロックから得られた、互いにメロニムの関係を持つ自然言語ユニットが含まれている。
一実施形態では、グラフにハイポニムエッジが使用されており、それぞれのノードには、自然言語のブロックから導出された、互いにハイポニムの関係を持つ自然言語ユニットが含まれている。
一実施形態では、グラフにエッジが使用され、そのそれぞれのノードの少なくとも1つは、同じグラフ内の1つ以上のノードへの参照を含み、さらに自然言語のそれぞれのブロックから導出された少なくとも1つの自然言語ユニット(例えば、「下にある(is below)」[ノードid:X])が含まれる。このようにして、グラフスペースを節約し、ツリー形式などの単純なグラフ構造を維持しつつ、グラフ内の表現力豊かなデータコンテンツを実現することができる。
いくつかの実施形態では、グラフはツリー形式のグラフであり、そのノード値は、自然言語の前記ブロックから導出された単語または複数単語のチャンクを含み、典型的には、グラフ変換ユニットによる単語の品詞および構文依存性、またはそのベクトル化された形態を利用する。
図3は、第1のデータ処理手段において、テキストからグラフへの変換がどのように行われるかの例を詳細に示したものである。まず、ステップ31でテキストが読み込まれ、名詞などの自然言語トークンの第1のセットと、(「備える(comprising)」のような)メロニム性(meronymity)やホロニム性(holonymity)を示すトークンなどの自然言語トークンの第2のセットがテキストから検出される。これは、ステップ32でテキストをトークン化し、トークンに品詞(POS)タグを付け33、ステップ34でその構文依存性を導出することで行うことができる。そのデータを用いて、ステップ35では名詞チャンクを、ステップ36ではメロニムとホロニムの表現を決定することができる。ステップ37では、メロニムとホロニムの表現を利用して、マッチした名詞チャンクのペアが形成される。名詞チャンクのペアは、グラフのメロニム関係のエッジを形成するか、またはそれを控除するために使用することができる。
一実施形態では、ステップ38に示すように、名詞チャンクのペアは、メロニムが対応するホロニムの子であるツリー形式のグラフとして配置される。このグラフは、上述のように、ステップ39でグラフストアに保存して、さらに使用することができる。
一実施形態では、グラフ形成ステップでは、ベイジアンネットワークなどの確率的グラフモデル(PGM)を使用して、好ましいグラフ構造を推論する。例えば、ベイジアンモデルに基づいてグラフの異なるエッジ確率を計算し、その後、エッジ確率を用いて最も好ましいグラフ形態を計算することができる。
一実施形態では、グラフ形成ステップは、トークン化され、POSタグが付けられ、依存関係が解析されたテキストを、ニューラルネットワークベースのテクニカルパーサーに入力することで構成される。ニューラルネットワークベースのテクニカルパーサーは、テキストブロックから関連するチャンクを見つけ、メロニム関係やハイポニム関係などの所望のエッジ関係を抽出する。
ある実施形態では、グラフは、ツリーデータスキーマに従って再帰的に配置されたエッジ関係からなるツリー形式のグラフであり、非循環である。これにより、リカレント型または非リカレント型の効率的なツリー型ニューラルネットワークモデルを使用することができる。例えば、ツリーLSTM(Tree-LSTM)モデルがある。
別の実施形態では、グラフはネットワーク・グラフであり、サイクル、すなわちブランチ間のエッジを許容している。これにより、複雑なエッジ関係を表現できるという利点がある。
さらに別の実施形態では、グラフは、1つまたは複数のエッジの長さを持つ線形および/または非線形のブランチのフォレストである。線形ブランチは、ツリーやネットワークの構築ステップを回避または劇的に簡略化し、ニューラルネットワークに最大量のソースデータを利用できるという利点がある。
各モデルでは、PGMモデルで得られたエッジの尤度を保存し、ニューラルネットワークで使用することができる。
なお、図3を参照して説明したグラフ形成方法は、本書に記載されている他の方法やシステム部分とは別に、文書の技術的内容、特に特許明細書やクレームの技術的な凝縮表現を形成して保存するために実施することができることに留意すべきである。
図4A-Cは、特許検索を目的としたニューラルネットワークの学習方法を示したもので、相互に排他的ではないものである。
一般的なケースでは、「特許文書」という用語は、(システム内の他の文書の中で一意のコンピュータ読み取り可能な識別子を持つ)「文書」に置き換えることができる。また、「クレーム」を「第1のコンピュータで識別可能なブロック」に、「明細書」を「第1のブロックとは少なくとも部分的に異なる、コンピュータで識別可能な第2のブロック」に置き換えることができる。
図4Aの実施形態では、基準データによって関連づけられた、複数のクレームグラフ41Aと、各クレームグラフに対応する近い先行技術明細書グラフ42Aとが、ニューラルネットワーク訓練器44Aによって訓練データとして使用される。これらは、ポジティブ(正)の訓練ケースを形成し、当該グラフ間の低いベクトル角または高い類似度スコアを達成することを示す。さらに、ネガティブ(負)の訓練ケース、すなわち、各クレームのグラフに対して、1つまたは複数の遠い先行技術のグラフを、訓練データの一部として使用することができる。このようなグラフ間の高いベクトル角または低い類似度スコアが達成されるべきである。ネガティブ(負)の訓練ケースは、例えば、グラフの全セットからランダムに抽出することができる。
一実施形態によれば、ニューラルネットワーク訓練器44Aによって実施されるような訓練の少なくとも1つのフェーズにおいて、すべての可能な訓練ケースのサブセットから、すべての可能なネガティブ(負)訓練ケースの平均よりもハードな複数のネガティブ(負)訓練ケースが選択される。例えば、ハードネガティブ(負)訓練ケースは、クレームグラフと説明グラフの両方が同じ特許クラス(所定の分類レベルまで)からのものであるように、または、ニューラルネットワークが以前に説明グラフをネガティブ(負)ケースとして正しく分類できなかったように(所定の信頼度で)選択することができる。
本明細書に記載された他の方法およびシステム部分とは独立して実施することもできる一実施形態によれば、本ニューラルネットワークベースの特許検索または新規性評価システムの訓練(学習)は、それぞれがコンピュータ識別可能なクレームブロックおよび明細書ブロックを有する複数の特許文書を提供することによって行われ、明細書ブロックは、特許文書の説明の少なくとも一部を含む。また、本方法は、ニューラルネットワークモデルを提供することと、学習済みのニューラルネットワークモデルを形成するために、前記特許文書からのデータを含む訓練データセットを用いて、ニューラルネットワークモデルを訓練することとを含む。前記訓練は、前記訓練データセットの訓練ケースとして、同じ特許文書に由来するクレームブロックと明細書ブロックのペアを使用することを含む。
一般的に、このような文書内のポジティブ(正)の訓練ケースは、訓練全体の訓練ケースの1~25%程度で、残りは検索レポート(審査官による新規性に関する引用)の訓練ケースなどである。
本発明の機械学習モデルは、典型的には、クレームおよび明細書をベクトルに変換するように構成されており、モデルの訓練(学習)の学習目標は、同じ特許文書のクレームおよび明細書のベクトル間のベクトル角を最小化することであり得る。また、別の学習目標として、少なくともいくつかの異なる特許文書のクレームと明細書のベクトル間のベクトル角を最大化することができる。
図4Bの実施形態では、同じ特許文書に由来する複数のクレームグラフ41Aおよび明細書グラフ42Aが、ニューラルネットワーク訓練器44Bによって訓練データとして使用される。クレームの「自身の」明細書は、典型的には、完全なポジティブ(正)の訓練ケースを形成する。つまり、特許文書自体が、技術的には、そのクレームの理想的な新規性障壁となるのである。したがって、これらのグラフのペアは、ポジティブ(正)の訓練ケースを形成し、これらのグラフ間の低いベクトル角または高い類似度スコアが達成されることを示している。このシナリオでも、参照データやネガティブな訓練ケースを使用することができる。
現実の新規性検索に基づく訓練データに、同じ文書のクレームと説明文のペアを追加するだけで、現実の新規性検索に基づくテストデータのペアでテストした場合、先行技術の分類精度が15%以上向上することがテストで示されている。
典型的なケースでは、クレームの機械読み取り可能なコンテンツ(自然言語ユニット、特に単語)の少なくとも80%、通常は少なくとも90%、多くの場合は100%が、同じ特許文書の明細書のどこかに含まれている。このように、特許文書のクレームと明細書は、認識可能なコンテンツと同一の固有識別子(例えば、公開番号)だけでなく、バイトレベルのコンテンツを介して互いにリンクしている。
本明細書に記載されている他の方法およびシステム部分とは独立して実施することもできる一実施形態によれば、本ニューラルネットワークベースの特許検索または新規性評価エンジンの訓練(学習)は、少なくともいくつかの元のクレームまたは明細書ブロックから、元のブロックに部分的に対応する少なくとも1つの縮小データインスタンスを導出することと、前記縮小データインスタンスを前記元のクレームまたは明細書ブロックとともに前記訓練データセットの訓練ケースとして使用することとを含む。
図4Cの実施形態では、元のクレームグラフ41C’から、複数の縮小されたクレームグラフ41C’’-41C’’’’を形成することによって、ポジティブ(正)の訓練ケースが増強される。縮小クレームグラフとは、以下のようなグラフを意味する。
-少なくとも1つのノードが削除される(例:電話機表示センサー→電話機表示)
-少なくとも1つのノードが、分岐の上位(より一般的な)位置にある別の位置に移動したこと(例:電話-ディスプレイ-センサー→電話-(ディスプレイ、センサー))、および/または
-少なくとも1つのノードの自然言語ユニットの値が、より一般的な自然言語ユニットの値に置き換えられること(電話-ディスプレイ-センサー→電子機器-ディスプレイ-センサー)。
このような拡張スキームにより、ニューラルネットワークの学習セットを拡張することができ、より正確なモデルを得ることができる。また、実際の特許新規性検索データでは少なくともあまり見られない、わずかなノードや非常に一般的な用語を用いた、いわゆる些細な発明の新規性の検索や評価を意味のあるものにすることができる。データ拡張は、図4Aおよび図4Bのいずれかの実施形態、またはそれらの組み合わせに関連して実施することができる。このシナリオでも、ネガティブ(負)の訓練ケースを使用することができる。
ネガティブ(負)の訓練ケースも、仕様グラフのノードやその値を削除、移動、交換することで拡張することができる。
メロニム関係に基づいたグラフ構造のようなツリー形式のグラフ構造は、ノードを削除したり、より高いツリーの位置に移動させたりすることで、首尾一貫した論理を維持したまま増強することができるため、増強方式に有利である。このケースでは、元のデータインスタンスと削減されたデータインスタンスの両方がグラフになっている。
一実施形態では、縮小されたグラフとは、元のグラフまたは別の縮小されたグラフに対して、少なくとも1つのリーフノードが削除されたグラフである。一実施形態では、グラフのある深さにあるすべてのリーフノードが削除される。
特に自然言語のブロックについては、その一部を削除したり、その内容をより一般的な内容に部分的に変更したりすることで、本種の拡張を直接行うことができる。
元のインスタンスあたりの縮小データインスタンスの数は、例えば、1~10,000、特に1~100とすることができる。2~50個の拡張グラフを用いたクレームの拡張において、良好な訓練結果が得られる。
いくつかの実施形態では、検索エンジンは、フレッシュなクレームなどの自然言語のフレッシュなブロックを読み取り、それを変換器によってフレッシュなグラフに変換するか、または、ユーザー・インターフェースを介して直接フレッシュなグラフを入力する。直接的なグラフの入力に適したユーザー・インターフェースについては、次に説明する。
図5は、ユーザー・インタフェースの表示要素50上での例示的なグラフの表現および修正を示す図である。表示要素50は、複数の編集可能なデータセルA-Fから構成され、その値は、下層のグラフの対応する自然言語ユニット(例えば、対応するユニットA-F)に機能的に接続され、それぞれのユーザー・インタフェース(UI)データ要素52、54、56、54’、56’、56’’に表示される。UIデータ要素は、例えば、要素をアクティブにした後にキーボードで値を編集可能なテキストフィールドであってもよい。UIデータ要素52、54、65、54’、56’、56’’は、グラフ内の位置に応じて、表示要素50上に水平方向および垂直方向に配置される。ここで、水平方向の位置は、グラフ内のユニットの深さに相当する。
表示要素50は、例えば、Webアプリケーションを実行するWebブラウザのウィンドウ、フレーム、パネル、または、コンピュータで実行可能なスタンドアロンプログラムのグラフィカル・ユーザー・インターフェース・ウィンドウとすることができる。
また、ユーザー・インタフェースは、ユーザーの入力に応じて自然言語ユニットを表示要素上で水平(垂直)に移動させ、それに応じてグラフを修正することができるシフトエンジンを備えている。これを説明するために、図5では、データセルF(要素56’’)を1レベル左にシフトしている(矢印59A)。これにより、要素54’の下に入れ子になっていた元の要素56’’は消滅し、上位の要素52の下に入れ子になった要素54’’が形成され、データセルF(元の値)を構成することになる。その後、データ要素54’が2段階右にシフトされると(矢印59B)、データ要素54’とその子は右にシフトされ、データ要素56の下にデータ要素56’’’とデータ要素58として入れ子にされる。それぞれのシフトは、基礎となるグラフの入れ子レベルのシフトに対応して反映される。このように、ユニットの子は、ユーザーインターフェースで異なる入れ子レベルにシフトされても、グラフ内に保存される。
いくつかの実施形態では、UIデータ要素は、ユーザーが自然言語データを入力するのを支援するために、編集可能なデータセルに関連して表示される自然言語ヘルパー要素で構成されている。ヘルパー要素のコンテンツは、当該自然言語ユニットに関連付けられた関係ユニットと、オプションとして、その親要素の自然言語ユニットを用いて形成することができる。
図5のようなグラフベースのユーザー・インターフェースではなく、独立クレームなどのブロックテキストを入力できるユーザー・インターフェースでもよい。このテキストブロックは、検索システムの次の段階で使用可能なグラフを得るために、グラフパーサーに供給される。

Claims (18)

  1. 自然言語検索システムにおいて、
    デジタルデータ記憶手段(10A、10B)であって、
    自然言語の複数のブロックと、
    前記ブロックに対応するデータグラフと、
    を記憶するためのデジタルデータ記憶手段(10A、10B)と、
    前記ブロックを前記記憶手段に記憶される前記グラフに変換するように適合された第1のデータ処理手段(12)であって、前記グラフが、前記ブロックから抽出された自然言語ユニットをノード値としてそれぞれが含む複数のノードを含む、第1のデータ処理手段(12)と、を備え、
    前記システムは、さらに、
    前記グラフのノード構造および前記グラフのノード値に基づいて学習済みの機械学習モデルを形成するために前記グラフをトラベルすることができる機械学習アルゴリズムを実行するための第2のデータ処理手段(14)と、
    フレッシュなグラフまたはフレッシュなグラフに変換された自然言語のフレッシュなブロックを読み取り、前記フレッシュなグラフに基づいて前記自然言語のブロックのサブセットを決定するために前記機械学習モデルを利用するように適合された第3のデータ処理手段(16)と、を備えたことを特徴とする自然言語検索システム。
  2. 請求項1に記載のシステムであって、少なくとも一部のグラフにおいて特定の自然言語ユニット値を含む少なくとも一部のノードの数は、対応する自然言語のブロックにおける前記特定の自然言語ユニット値の出現数よりも小さくなるように構成されている、システム。
  3. 請求項1または2に記載のシステムであって、前記第1のデータ処理手段(12)は、
    前記ブロックから、自然言語トークンの第1のセットと、前記自然言語トークンの第1のセットとは異なる自然言語トークンの第2のセットを特定すること、
    前記トークンの第1のセットおよび前記トークンの第2のセットを利用して、第1のセットのトークンのマッチしたペアを形成するマッチャーを実行すること、
    前記トークンの第1のセットの少なくとも一部を、前記マッチしたペアを利用した前記グラフの連続するノードとして配置すること、
    によって前記ブロックを前記グラフに変換するように適合されている、システム。
  4. 請求項1乃至3のいずれか一項に記載のシステムであって、前記第1のデータ処理手段(12)は、複数のエッジを含むグラフを形成するように適合されており、前記それぞれのノードは、前記ブロックから導出された、互いにメロニム関係を有する自然言語ユニットを含んでいる、システム。
  5. 請求項1乃至4のいずれか一項に記載のシステムであって、前記第1のデータ処理手段(12)は、複数のエッジを含むグラフを形成するように適合されており、前記それぞれのノードは、前記ブロックから導出された、互いにハイポニム関係を有する自然言語ユニットを含む、システム。
  6. 請求項1乃至5のいずれか一項に記載のシステムであって、前記第1のデータ処理手段(12)は、少なくとも1つのノードが同じグラフ内の1つ以上のノードおよび追加的に前記自然言語のそれぞれのブロックから導出された少なくとも1つの自然言語ユニットへの参照を含むことが可能な複数のエッジを含むグラフを形成するように適合されている、システム。
  7. 請求項1乃至6のいずれか一項に記載のシステムであって、前記グラフはツリー形式のグラフであり、そのノード値は、前記第1の処理手段により前記自然言語のブロックから単語の品詞および構文依存性を用いて導出された単語または複数単語のチャンク、またはそのベクトル化された形式を含む、システム。
  8. 請求項1乃至7のいずれか一項に記載のシステムであって、前記第1のデータ処理手段(12)は、グラフのエッジ確率を決定するために確率的グラフモデル(PGM)を使用し、前記エッジ確率を使用してグラフを形成するように適合されている、システム。
  9. 請求項1乃至8のいずれか一項に記載のシステムであって、前記第2のデータ処理手段(14)は、リカレントニューラルネットワーク(RNN)グラフアルゴリズムなどのグラフベースのニューラルネットワークアルゴリズム、特にツリーLSTM(Tree-LSTM)アルゴリズムなどのLSTM(Long Short-Term
    Memory)アルゴリズムを実行するように適合されている、システム。
  10. 請求項1乃至9のいずれか一項に記載のシステムであって、前記学習済みの機械学習モデルは、グラフを多次元ベクトルにマッピングするように適合されており、その相対的な角度は、前記グラフのノード構造および前記グラフのノード値によって定義されている、システム。
  11. 請求項1乃至10のいずれか一項に記載のシステムであって、前記機械学習モデルは、前記グラフのノード構造および前記グラフのノード値に応じて、グラフまたはグラフのペアを2つ以上のクラスに分類するように適合されている、システム。
  12. 請求項1乃至11のいずれか一項に記載のシステムであって、
    前記記憶手段は、前記ブロックの少なくとも一部を相互にリンクする参照データを記憶するようにさらに構成されており、
    前記機械学習アルゴリズムは、前記機械学習モデルを訓練するための前記参照データに依存する学習目標を有している、システム。
  13. 請求項1乃至12のいずれか一項に記載のシステムであって、前記記憶手段は、第1の自然言語ブロックと第2の自然言語ブロックとをそれぞれが含む自然言語文書を記憶するように構成されている、システム。
  14. 請求項12および13に記載のシステムであって、前記第2のデータ処理手段(14)は、前記訓練において、第1の文書の第1のブロックに対応する複数の第1のグラフと、各第1のグラフに対して、前記参照データによって定義された、前記第1の文書とは異なる第2の文書の第2のブロックに少なくとも部分的に基づいた1つまたは複数の第2のグラフとを使用するように構成されている、システム。
  15. 請求項12乃至14のいずれか一項に記載のシステムであって、前記第2のデータ処理手段(14)は、前記訓練において、第1の文書の第1のブロックに対応する複数の第1のグラフと、各第1のグラフに対して、前記第1の文書の前記第2のブロックに少なくとも部分的に基づいた第2のグラフとを使用するように構成されている、システム。
  16. 請求項1乃至15のいずれか一項に記載のシステムであって、前記第3のデータ処理手段(16)は、前記フレッシュな自然言語入力をフレッシュなグラフとして、または対応するグラフに変換される自然言語のフレッシュなブロックとして読み取るように適合されている、システム。
  17. 請求項1乃至16のいずれか一項に記載のシステムであって、クレームと明細書を前記自然言語のブロックとして利用する特許検索システムである、システム。
  18. 自然言語文書を検索するコンピュータ実装の方法であって、
    自然言語の複数のブロックをデジタルデータストアに記憶する工程と、
    前記ブロックを対応するグラフに変換する工程であって、前記グラフは、前記ブロックから抽出された自然言語ユニットをノード値としてそれぞれが含む複数のノードを含む、工程と、
    前記デジタルデータストアにグラフを記憶する工程と、を備え、
    前記方法は、さらに、
    前記グラフのノード構造および前記グラフのノード値に基づいて学習済みの機械学習モデルを形成するために前記グラフをトラベルすることが可能な機械学習アルゴリズムを実行する工程と、
    フレッシュなグラフまたはフレッシュなグラフに変換される自然言語のフレッシュなブロックを読み取る工程と、
    前記フレッシュなグラフに基づいて前記自然言語のブロックのサブセットを決定するために前記機械学習モデルを利用する工程と、を備える、方法。
JP2021545331A 2018-10-13 2019-10-13 自然言語文書を検索するシステム Pending JP2022508737A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FI20185863 2018-10-13
FI20185863A FI20185863A1 (fi) 2018-10-13 2018-10-13 Järjestelmä luonnollisen kielen dokumenttien hakemiseksi
PCT/FI2019/050731 WO2020074786A1 (en) 2018-10-13 2019-10-13 System for searching natural language documents

Publications (2)

Publication Number Publication Date
JP2022508737A true JP2022508737A (ja) 2022-01-19
JPWO2020074786A5 JPWO2020074786A5 (ja) 2022-10-21

Family

ID=68583451

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021545331A Pending JP2022508737A (ja) 2018-10-13 2019-10-13 自然言語文書を検索するシステム

Country Status (6)

Country Link
US (1) US20210350125A1 (ja)
EP (1) EP3864564A1 (ja)
JP (1) JP2022508737A (ja)
CN (1) CN113196277A (ja)
FI (1) FI20185863A1 (ja)
WO (1) WO2020074786A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020113044A (ja) * 2019-01-11 2020-07-27 富士通株式会社 データ拡張プログラム、データ拡張方法およびデータ拡張装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200372019A1 (en) * 2019-05-21 2020-11-26 Sisense Ltd. System and method for automatic completion of queries using natural language processing and an organizational memory
KR20210046178A (ko) * 2019-10-18 2021-04-28 삼성전자주식회사 전자 장치 및 그 제어 방법
US11403488B2 (en) * 2020-03-19 2022-08-02 Hong Kong Applied Science and Technology Research Institute Company Limited Apparatus and method for recognizing image-based content presented in a structured layout
US11990214B2 (en) * 2020-07-21 2024-05-21 International Business Machines Corporation Handling form data errors arising from natural language processing
US11605187B1 (en) * 2020-08-18 2023-03-14 Corel Corporation Drawing function identification in graphics applications

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10810193B1 (en) * 2013-03-13 2020-10-20 Google Llc Querying a data graph using natural language queries
US10095689B2 (en) * 2014-12-29 2018-10-09 International Business Machines Corporation Automated ontology building
US20170075877A1 (en) * 2015-09-16 2017-03-16 Marie-Therese LEPELTIER Methods and systems of handling patent claims
US10891321B2 (en) * 2018-08-28 2021-01-12 American Chemical Society Systems and methods for performing a computer-implemented prior art search

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020113044A (ja) * 2019-01-11 2020-07-27 富士通株式会社 データ拡張プログラム、データ拡張方法およびデータ拡張装置
JP7172612B2 (ja) 2019-01-11 2022-11-16 富士通株式会社 データ拡張プログラム、データ拡張方法およびデータ拡張装置

Also Published As

Publication number Publication date
WO2020074786A1 (en) 2020-04-16
FI20185863A1 (fi) 2020-04-14
CN113196277A (zh) 2021-07-30
US20210350125A1 (en) 2021-11-11
EP3864564A1 (en) 2021-08-18

Similar Documents

Publication Publication Date Title
Chen et al. An automatic literature knowledge graph and reasoning network modeling framework based on ontology and natural language processing
Ristoski et al. Rdf2vec: Rdf graph embeddings for data mining
Arora et al. Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis
JP2022508738A (ja) 特許文書を検索するための方法
JP2022508737A (ja) 自然言語文書を検索するシステム
JP2022513353A (ja) 自然言語検索システムの訓練方法、探索システムおよび対応の使用
CN104408173A (zh) 一种基于b2b平台的核心关键词自动提取方法
Zhou et al. Simplified dom trees for transferable attribute extraction from the web
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
US20230138014A1 (en) System and method for performing a search in a vector space based search engine
CN109446313B (zh) 一种基于自然语言分析的排序系统及方法
CN116108191A (zh) 一种基于知识图谱的深度学习模型推荐方法
Dawar et al. Comparing topic modeling and named entity recognition techniques for the semantic indexing of a landscape architecture textbook
CN116756266A (zh) 基于外部知识和主题信息的服装文本摘要生成方法
Gelman et al. A language-agnostic model for semantic source code labeling
CN113361252B (zh) 基于多模态特征和情感词典的文本抑郁倾向检测系统
Shen et al. Practical text phylogeny for real-world settings
US20220207240A1 (en) System and method for analyzing similarity of natural language data
Saeidi et al. Graph representation learning in document wikification
CN113326348A (zh) 一种博客质量评估方法及工具
Moreira et al. Deepex: A robust weak supervision system for knowledge base augmentation
CN112395429A (zh) 基于图神经网络的hs编码判定、推送、应用方法、系统及存储介质
Vahidnia et al. Document Clustering and Labeling for Research Trend Extraction and Evolution Mapping.
CN117829140B (zh) 用于规章与法规的自动比对方法及其系统
Cuculovic Modeling and optimization of an online publishing application

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221013

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230901

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231130

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240229

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240312