JP2020500371A

JP2020500371A - 意味的検索のための装置および方法

Info

Publication number: JP2020500371A
Application number: JP2019525873A
Authority: JP
Inventors: ナッテラー，ミヒャエル
Original assignee: デンネマイヤーオクティマインゲーエムベーハー
Priority date: 2016-11-11
Filing date: 2017-11-08
Publication date: 2020-01-09
Anticipated expiration: 2037-11-08
Also published as: WO2018087190A1; EP3539018A1; CN110023924A; US20190347281A1; JP7089513B2; AU2017358691A1

Abstract

テキスト文書を比較するためのコンピュータ実装方法を開示する。本方法は、複数の第１のテキスト文書と関連付けられた第１のテキスト文書データを含むデータベースを構築するステップを含む。本方法は、クエリを受信するステップをさらに含む。本方法は、前記クエリを第２のテキスト文書データへと変換するステップをさらに含む。本方法は、第２のテキスト文書データを第１のテキスト文書データと比較し、かつ第２のテキスト文書データおよび第１の文書データ間の少なくとも１つの類似性測度を計算するステップをさらに含む。テキスト文書内の類似性を処理するためのコンピュータ実装方法を、さらに開示する。本方法は、少なくとも１つの受信クエリを標準化するステップを含む。本方法は、前記少なくとも１つの標準化された受信クエリを正規化するステップをさらに含む。本方法は、前記少なくとも１つの正規化された標準化クエリを使用して、少なくとも１つのクエリベクトルを作成するステップをさらに含む。本方法は、前記少なくとも１つのクエリベクトルおよび少なくとも１つの別のテキスト文書間の少なくとも１つの類似性測度を計算するステップであって、前記少なくとも１つの別のテキスト文書は前記先行ステップを経ている、ステップをさらに含む。コンピュータ実装システムをさらに開示する。本システムは、第１のテキスト文書と関連付けられた複数の第１のテキスト文書データを含むデータベースを少なくとも記憶するように適合された、少なくとも１つのメモリコンポーネントを含む。本システムは、クエリを受信するように適合された少なくとも１つの入力装置をさらに備える。前記クエリは、第２のテキスト文書および／または第２のテキスト文書を識別する情報を含む。前記第２のテキスト文書は、前記メモリコンポーネント内にすでに記憶されている第１のテキスト文書データ内に含まれる第２のテキスト文書データと関連付けられている。本システムは、クエリを第２のテキスト文書データへと変換し、かつ／または前記少なくとも１つのメモリコンポーネント内の記憶域から、前記クエリと関連付けられた第２のテキスト文書データを検索するように適合された、少なくとも１つの処理コンポーネントをさらに備える。第２のテキスト文書データを前記少なくとも１つのメモリコンポーネント内に記憶されている前記第１のテキスト文書データと比較するように、前記処理コンポーネントをさらに適合させている。本システムは、第１のテキスト文書データと関連付けられた少なくとも１つの類似の第１のテキスト文書を識別する情報を返すように適合された、少なくとも１つの出力装置をさらに備える。前記類似の第１のテキスト文書は、第１のテキスト文書中で前記クエリに最も類似している。【選択図】図1

Description

本発明は、データ解析およびデータ変換の分野に関する。より詳細には、本発明は意味的検索に関する。より正確には、本発明は、複数のテキスト文書を意味的に比較するように適合された検索エンジンについて述べている。

膨大な量のデータを含むアーカイブまたはデータベース間で類似の文書を検索することは、とりわけインターネット上にかかるアーカイブが出現して以来、解決するのが最も困難な課題の１つであった。この課題に対する解決策の１つは、利用可能なすべての文書で正確なユーザ定義のキーワードを検索する、総当たり手法である。この手法は処理能力の点では効率的だが、いくつかの制限を呈する。すなわち、検討中のトピックによっては、同じキーワードでも意味が大きく異なることがあり、また同義語または類似の表現を使用するということは、関連するすべての検索回答を得るために、検索を複数回繰り返さなければならない可能性があるということを意味する。

先行技術調査に関するより具体的な例では、類似特許の検索は、ＩＰＣ（国際特許分類）クラスを通じて、ＣＰＣ（協力特許分類）クラスを通じて、または各特許に記載されている引用文献を通じて行われることが多い。この手法は関連性のあるいくつかの検索回答をもたらし得るが、より最近の（そしてまだ引用されていない）類似文書を見落としたり、わずかに関連しているだけの検索回答を膨大に提示してしまう可能性がある（ＩＰＣクラスまたはＣＰＣクラスによる検索の場合）。

その類似性によって文書を結合するためのより包括的な手法を、意味的検索によって実行することができる。この種の検索では、同義語、複数の単語から成る表現、およびある分野に特有の専門用語を考慮し、かつそれらすべてを組み合わせてより正確な類似性比較を行っている。この種の検索は、種々のタームまたはテキストがベクトルとして定義され得る多次元ベクトル空間を使用して行うことができ、類似性比較はこのベクトル空間上で直接実行されている。

特許文献１は、概念的に関連する単語のクラスタに関して文書を特徴付けるシステムを開示している。ある単語のセットを含む文書を受信すると、システムは、その単語のセットに関連した概念的に関連する単語の「候補クラスタ」を選択する。これらの候補クラスタは、概念的に関連する単語のクラスタからその単語のセットがどのように生成されるかを説明するモデルを使用して、選択されている。次いで、システムは文書を特徴付けるためのコンポーネントのセットを構成し、そのコンポーネントのセットは候補クラスタ用のコンポーネントを含む。このコンポーネントのセットにおける各コンポーネントは、該当する候補クラスタがその単語のセットに関連している度合いを示す。

特許文献２は、自己学習型の意味的検索エンジンを提供するための方法、機械可読記憶媒体、およびシステムを開示している。意味ネットワークが初期構成で設定され得る。意味ネットワークに結合された検索エンジンは、インデックスおよび意味インデックスを構築することができる。ビジネスデータに対するユーザ要求を受信することができる。検索エンジンには、意味的ディスパッチャを介してアクセスすることができる。そしてこのアクセスに基づいて、検索エンジンはインデックスおよび意味インデックスを更新することができる。

特許文献３には、文書のセット、タームのセット、ならびに各タームおよび各文書と関連付けられたベクトルから成るデータセットを検索するためのシステムおよび関連方法が記載されている。この方法は、タームベクトルと文書ベクトルとがまたがるベクトル空間内のベクトルに検索クエリを変換するステップと、ベクトル近接性検索とターム検索とを組み合わせて、一連の結果を生成するステップとを含み、それらの結果は、当該クエリへの関連性を表す種々の測度によって順位付けされ得る。

米国特許８６８８７２０号明細書米国特許８９３５２３０号明細書米国特許出願公開第２０１４／２８００８８号明細書

本発明は、特許請求の範囲および以下の説明において特定される。好ましい実施形態については、従属請求項および種々の実施形態の説明において具体的に特定される。

上記の特徴について、本発明のさらなる詳細と共に以下の例においてさらに記載しているが、これらは本発明をさらに例示することを意図したものであり、決してその範囲を限定することを意図したものではない。

したがって、既知の従来技術を踏まえて、本発明の目的は、以下の特徴のうちの少なくともいくつかを用いて意味的検索を実行するための方法および装置を開示することである。
１）特定の、とりわけ専門化した専門用語の品詞タグ付けを行い、テキストを整理し、ストップワードを除去し、単語を語幹や字句単位まで削減し、スペルミスを訂正し、言語スタイルを標準化し、同義語を訂正し、ＯＣＲ（光学式文字認識）のエラーを除去し、複数のコンポーネントの重み付けを行い、かつ種々の類似性指数を使用するための種々の方法を実装すること、
２）字句解析および意味解析アルゴリズムならびに仮定を組み込むこと、
３）種々のテキスト関連情報および種々のアルゴリズムを同時に考慮して実装すること、
４）すべての技術分野に及ぶテキストを解析すること、
５）テキストの類似性測度と文献特性との関連性を実装すること、および
６）類似性判定のためのテキストベースの方法と計量文献学的方法とを組み込むこと。

本明細書では、「キーワード」、「ターム」、および「意味単位」という単語を互換的に使用することができる。さらに、「キーワード」または「ターム」という単語は、単一の単語ではなく、ある表現を指す場合がある。

第１の実施形態では、本発明は複数のテキスト文書を比較するためのコンピュータ実装方法を開示する。本方法は、複数の第１のテキスト文書と関連付けられた第１のテキスト文書データを含むデータベースを構築するステップを含む。本方法は、クエリを受信するステップをさらに含む。本方法は、前記クエリを第２のテキスト文書データへと変換するステップをさらに含む。本方法は、第２のテキスト文書データを第１のテキスト文書データと比較し、かつ第２のテキスト文書データおよび第１の文書データ間の少なくとも１つの類似性測度を計算するステップをさらに含む。かかる類似性測度は、たとえば類似性指数を含み得る。これにより、複数のテキスト文書を互いに比較する定量化可能な方法を有利に提示することができる。

なお、クエリは第２のテキスト文書を含み得、その場合は、この第２のテキスト文書を第２のテキスト文書データへと変換することができる。しかし、クエリは、データベース内に第１のテキスト文書データの一部としてすでに収容されている第２のテキスト文書を単に識別することもできる。この場合、第２のテキスト文書データはすでに存在しているため、単にデータベースから取り出され、データベースに収容されている他のデータと比較されるはずである。

本方法により、解析され、かつ他のデータと定量的に比較され得るデータへとテキスト文書を変換する効率的かつ信頼できる方法を実現することができる。好ましくはコンピューティングデバイスによってこうした変換および比較を、好ましくは平行的に実行することができる。このように記載している方法は、ユーザインターフェースでアクセス可能なサーバ上に実装することができる。これは、ユーザが種々の用途で類似のテキスト文書を識別できるようにするのに役立ち得る。

いくつかの好ましい実施形態では、第１のテキスト文書データは、第１のテキスト文書に含まれるキーワードおよび／または前記キーワードに意味的に関連している単語から生成される文書ベクトルを含む。つまり、第１のテキスト文書をそれぞれ、データベース内に記憶された文書ベクトルと関連付けることができる。

データベースは、第１のテキスト文書自体を含んでも含まなくてもよい。データベース内の記憶域を節約するために、第１のテキスト文書と関連付けられた文書ベクトルのみを記憶させると、有利となり得る。これとは逆に、たとえばクエリに対する応答として容易かつ迅速な検索を行うために、第１のテキスト文書も記憶させると、有利となり得る。

前記キーワードに意味的に関連している単語は、たとえば同義語、上位語、および／または下位語を含み得る。意味的に関連している単語を正しく識別するために、外部データベースを使用することができる。これらは汎用的なものおよび／またはサブジェクト固有のものであり得る。

いくつかの実施形態では、前記クエリは第２のテキスト文書を含み得る。付加的にまたは代替的に、前記クエリは、前記メモリコンポーネント内にすでに記憶されている第２のテキスト文書データと関連付けられた第２のテキスト文書を識別する情報を含み得る。第２の事例では、前記第２のテキスト文書と関連付けられた第２のテキスト文書データを、単に前記データベースから検索し、次いで前記データベース内に残存する第１のテキスト文書データと比較することができる。なお、この場合、第２のテキスト文書データを第１のテキスト文書データ内に含めることができ、混乱を回避するために、これに対して別の方法で言及している。

いくつかの実施形態では、前記クエリを第２のテキスト文書データへと変換するステップは、前記クエリを標準化することを含み得る。いくつかの好ましい実施形態では、標準化することは、誤字を訂正し、特定のスペリング規則および物理単位の規則を選択し、かつ前記特定のスペリング規則および物理単位の規則に基づいて前記テキストを調整し、かつ／または標準的な方法で式（たとえば化学式、遺伝子配列および／またはタンパク質表現）を記述することを含み得る。これにより、有利には、異なる規則または異なる単位を使用しながらも、同じサブジェクトに関連しているテキスト文書間で、より信頼性の高い比較を行うことができる。

いくつかの実施形態では、前記クエリを第２のテキスト文書データへと変換するステップは、前記クエリを正規化することを含み得る。いくつかの好ましい実施形態では、正規化することは、ストップワードを識別して除去し、共通の語幹まで単語を削減し、同義語に関する語幹を解析し、かつ／または語列および複合語を識別することを含む。

いくつかの実施形態では、前記クエリを正規化することは、少なくとも同義語、上位語、下位語、ストップワード、および／またはサブジェクト固有のストップワードを外部データベースから検索し、かつ前記検索した単語に少なくとも一部基づいて、前記クエリのキーワードに関するリストを生成することを含み得る。トピックによって分離された１または複数の外部データベースを設けることができる。単語はサブジェクトによって異なる意味を含むことがあるので、こうすることで有利となり得る。たとえば、「配送システム／送達系」などの表現は、それが物流の文脈で使用されるか、または医学の文脈で使用されるかによって、全く異なる意味を有し得る。したがって、対応する同義語、上位語、下位語、および／または他の意味的に関連している単語もまた、対象の専門分野によって異なり得る。別の例として、本発明が意味的検索のツールの一部として、具体的には特許文献に関連して従来技術を対象に使用される実施形態を考察されたい。特許出願および特許付与に関しては、まったく異なるサブジェクトに関する文書で繰り返される可能性のある、非常に特殊な単語が存在する。「請求項」、「備える」、「装置」、「実施形態」などの単語は特許文献特有のストップワードと見なすことができ、これらをクエリから除去することができる。データベースが特許文献を含む実施形態では、第１のテキスト文書を第１のテキスト文書データへと変換するプロセスにおいて（つまり、データベースを構築または作成するプロセスにおいて）、前記特有のストップワードを前記第１のテキスト文書すべてから除去することもできる。いくつかの実施形態では、ストップワードおよび／またはサブジェクト固有のストップワードを除去し、かつ前記クエリワードの同義語、上位語、および下位語のうちの少なくとも１つを含ませることによって、前記クエリのキーワードのリストを生成することができる。

いくつかの実施形態では、前記クエリを第２のテキスト文書データへと変換するステップは、少なくとも１つのクエリベクトルを生成することを含み得る。クエリベクトルは、たとえばクエリのキーワードに関する情報を含み得る。つまり、クエリベクトルのコンポーネントは、クエリのキーワードおよび／または同義語など意味的にこれらに関連している単語に対応し得る。なお、本明細書では「キーワード」はクエリ内に含まれる実際の単語、および／または同義語、上位語および／または下位語など意味的にこれらに関連している単語の両方を指している可能性がある。かかるいくつかの実施形態では、前記クエリからキーワードおよび／またはキーワードの同義語を識別し、かつ多次元ベクトル空間のベクトルのコンポーネントを用いて前記キーワードを識別することによって、前記クエリベクトルを生成することができる。いくつかの実施形態では、前記クエリベクトルは１００個〜５００個のコンポーネント、好ましくは２００個〜４００個のコンポーネント、さらにより好ましくは２００個〜３００個のコンポーネントを含み得る。つまり、かかるいくつかの実施形態では、すべてのキーワードおよび意味的に関連している関連語が、クエリベクトルのコンポーネントと関連付けられているわけではない。これは、たとえばキーワードがまず評価され、次いで種々のパラメータに基づいて重み付けされてから、重みの低いキーワードが破棄されることを意味している。このことは、クエリベクトルに関与しているキーワードの数を削減することにより、クエリベクトルを文書ベクトルと比較するときなどに、クエリベクトルを操作するのに必要な必須処理能力を大幅に軽減することができるので、とりわけ有利となり得る。なお、文書ベクトルも同様に、１００個〜５００個のコンポーネント、好ましくは２００個〜４００個のコンポーネント、さらにより好ましくは２００個〜３００個のコンポーネントを含み得る。データベースに収容され、かつ第１のテキスト文書と関連付けられ、いくつかの実施形態では文書ベクトルを含む第１の文書データを、キーワードまたは意味単位を識別し、かつそれらと関連付けられたエントロピーに基づいて、それらの数を第１のテキスト文書当たり百または数百まで削減することにより、クエリベクトルと同様に生成することができる。

いくつかの好ましい実施形態では、前記キーワードに重みを割り当てることができる。かかる実施形態では、前記クエリの一般的なサブジェクトに基づいて、重みを少なくとも一部割り当てることができる。つまり、文脈に応じて、またはテキスト文書のサブジェクトに応じて、同じターム、キーワードおよび／または意味単位に異なる重みを割り当てることができる。つまり、たとえば「周波数／頻度」というタームは、そのクエリが電気通信のサブジェクトに属している場合は電磁波周波数を指している可能性が高く、医学のサブジェクトに属している場合は物事が起こる頻度を指している可能性が高いというように、その場合に応じて異なる重み付けをすることができる。第１のテキスト文書データが文書ベクトルを含む実施形態では、第１のテキスト文書と関連付けられた文書ベクトルにも同じことが当てはまる。つまり、第１のテキスト文書内に含まれるか、またはそれらに含まれる単語に意味的に関連しているキーワード、タームおよび／または意味単位には、サブジェクトに基づいて異なる重みを割り当てることができる。これにより、第１のテキスト文書とクエリとの間でより意味のある比較を行うことができるので、とりわけ有利である。なお、特定のテキスト文書がどの専門分野に属しているかを判定するには、いくつかの方法がある。対象の文書が特許文献を含む場合、その分類を使用することができる。つまり、所与の文書のＩＰＣクラスおよび／またはＣＰＣクラスを使用して、これを特定の技術分野に割り当てることができる。別の方法としては、特定の分野でとりわけ多く見られる特定のサブジェクトまたは分野特有のターム、キーワードおよび／または意味単位を識別し（外部データベースをこの目的に使用することもできる）、次いでこれらのサブジェクト固有のタームが存在していることに基づいて、その専門分野にテキスト文書を割り当てる方法が挙げられる。

いくつかの実施形態では、前記類似性測度を計算するステップは、コサイン指数、ジャッカード指数、ダイス指数、包含指数、ピアソン相関指数、レーベンシュタイン距離、ジャロ・ウィンクラー距離および／またはニードルマン・ウンシュアルゴリズムの少なくとも１つ、またはこれらの組み合わせを適用することを含む。つまり、第１のテキスト文書データが文書ベクトルを含み、第２のテキスト文書データがクエリベクトルを含む実施形態ではとりわけ、多次元ベクトル空間におけるこれらの間の距離を計算することによって、これら２つを比較することができる。いくつかの異なる距離定義を使用して、これを実行することができる。なお、これらの異なる距離定義は、異なる用途に使用することができる。

いくつかの好ましい実施形態では、テキスト文書を比較する方法は、少なくとも１つの統計アルゴリズムを使用して、前記少なくとも１つの類似性測度を検証するステップをさらに含む。本方法は、前記少なくとも１つの類似性測度を出力するステップをさらに含み得る。つまり、特許文献を比較する例について再度考察されたい。特許出願および／または特許付与には通常、他の同様の文書に対する参考文献が含まれる。これらの参考文献は、明細書自体において引用されるか、または後で審査官によって提供されることが多い。これらの参考文献は従来技術として使用されており、これは、それらの文献が当該明細書と非常に類似していることを意味し得る。このように、クエリとこうした特定の第１のテキスト文書内に提供される参考文献との間の類似性測度を検証することにより、クエリおよび特定の第１のテキスト文書間の類似性測度を検証することができる。この類似性測度が信頼できるものであれば、この検証によってクエリと参考文献との間で同様の類似性測度の取得が期待できる。

いくつかの実施形態では、ユーザインターフェースから前記クエリを受信することができ、前記インターフェースを介して前記類似性測度を返すことができる。かかるインターフェースは、アプリケーション、プログラム、および／またはブラウザベースのインターフェースを含み得る。つまり、ユーザが種々のテキスト文書の類似性を定量的かつ確実に比較することを可能にするプログラムの一部として、本方法を実装することができる。

いくつかの実施形態では、前記データベースは特許文献関連のテキスト文書を含み、前記データベースを構築し、かつ／または前記クエリを変換するステップは、特許文献関連のテキスト文書と関連付けられたストップワードを除去することを含む。上述のように、かかる特許文献特有のストップワードは「請求項」、「装置」、「実施形態」、および「備える」のような単語を含み得る。いくつかの実施形態では、第１のテキスト文書データ内および／または前記クエリ内に含まれるタームと関連付けられたエントロピーを計算し、かつエントロピーが低いタームを除去することによって、特許関連のストップワードを除去することができる。これについては、以下でさらに述べる。

いくつかの好ましい実施形態では、本方法は、前記複数の第１のテキスト文書から抽出されたキーワードを含むタームベクトルを生成するステップをさらに含み得る。つまり、データベース内に収容され、第１のテキスト文書と関連付けられた第１のテキスト文書データに基づいて、タームベクトルを生成することができる。第１のテキスト文書すべてに含まれるすべてのキーワード、タームおよび／または意味単位に基づいて、タームベクトルを生成することができる。かかる実施形態、および第１のテキスト文書データが文書ベクトルを含み、第２のテキスト文書データがクエリベクトルを含み得る実施形態では、前記文書ベクトルおよび前記クエリベクトルのコンポーネントを、前記タームベクトルのコンポーネントに対して生成することができる。つまり、タームベクトルは、クエリと第１のテキスト文書とを比較するための基礎となる共通の基盤を付与し得る。換言すれば、タームベクトルは、比較を行う際の対象となり得る多次元ベクトル空間を定義することができる。これにより、種々のテキスト文書間の定量的かつ数学的比較が可能となるので、とりわけ有利である。

いくつかの実施形態では、コサイン指数を使用して、前記クエリベクトルと前記文書ベクトルとの間の距離を計算することにより、第２のテキスト文書データおよび第１の文書データ間の類似性測度を計算することができる。上述のように、コサイン指数を使用して、多次元ベクトル空間内の距離を計算することができる。これにより、２つのベクトルの内積まで距離を縮小することができるので、とりわけ有利となり得る。かかる演算は容易に実装することができるので、これにより、比較の計算時間を大幅に短縮することができる。

第２の実施形態では、本発明は、テキスト文書内の類似性を処理するためのコンピュータ実装方法を開示する。本方法は、少なくとも１つの受信クエリを標準化するステップを含む。本方法は、前記少なくとも１つの標準化された受信クエリを正規化するステップをさらに含む。本方法は、前記少なくとも１つの正規化された標準化クエリを使用して、少なくとも１つのクエリベクトルを作成するステップをさらに含む。本方法は、前記少なくとも１つのクエリベクトルおよび少なくとも１つの別のテキスト文書間の少なくとも１つの類似性測度を計算するステップであって、前記少なくとも１つの別のテキスト文書は前記先行ステップを経ている、ステップをさらに含む。

なお、別のテキスト文書を第１のテキスト文書と呼ぶこともできる。前記先行ステップを経ることは、前記別のまたは第１のテキスト文書が標準化され、正規化され、かつ文書ベクトルが作成されたことを指し得る。

有利には、本方法により、テキストから成る任意のクエリを、クエリと他のデータとの類似性を評価するために他のデータと定量的に比較できるデータへと変換することが可能になる。この変換を、そのメモリに記憶された種々のテキスト文書と関連付けられたデータを有し、かつこのデータを検索して受信クエリと比較できるコンピューティングデバイスによって実行することが好ましい。次いで、コンピューティングデバイスによって実装される種々の技法およびアルゴリズムを使用して、クエリのテキストを解析することができる。

いくつかの好ましい実施形態では、前記テキスト文書は、技術的テキスト、科学的テキスト、特許テキスト、および／または製品説明の少なくとも１つまたはそれらの組み合わせを含み得る。

いくつかの実施形態では、標準化するステップは、誤字を訂正し、特定のスペリング規則および物理単位の規則を選択し、かつ前記特定のスペリング規則および物理単位の規則に基づいて前記テキストを調整し、かつ／または標準的な方法で式（たとえば化学式、遺伝子配列および／またはタンパク質表現）を記述することを含み得る。

いくつかの実施形態では、正規化するステップは、ストップワードを識別して除去し、共通の語幹まで単語を削減し、同義語に関する語幹を解析し、かつ／または語列および複合語を識別することを含み得る。かかる実施形態では、正規化するステップは、好ましくは特定のタイプの複数のテキスト文書におけるタームのエントロピーを計算し、かつエントロピーが低い単語を除去することによって、前記タイプのテキスト文書と関連付けられたストップワードを識別し、かつ除去することをさらに含み得る。

いくつかの実施形態では、前記類似性測度を計算するステップは、コサイン指数、ジャッカード指数、ダイス指数、包含指数、ピアソン相関指数、レーベンシュタイン距離、ジャロ・ウィンクラー距離および／またはニードルマン・ウンシュアルゴリズムの少なくとも１つ、またはこれらの組み合わせを適用することを含み得る。かかるアルゴリズムによって、多次元ベクトル空間におけるテキスト文書から生成されたデータの距離に基づいて、テキスト文書間の定量的比較を行うことができる。

いくつかの実施形態では、本方法は、少なくとも１つの統計アルゴリズムを使用して、前記少なくとも１つの類似性測度を検証するステップをさらに含み得る。本方法は、前記少なくとも１つの類似性測度を出力するステップをさらに含み得る。

なお、第１および第２の実施形態は相補的であり得る。つまり、第１の実施形態の一部として提示している実施形態は、第２の実施形態の一部となり得、逆もまた同様である。

第３の実施形態では、本発明はコンピュータ実装システムを開示する。本システムは、第１のテキスト文書と関連付けられた複数の第１のテキスト文書データを含むデータベースを少なくとも記憶するように適合された、少なくとも１つのメモリコンポーネントを含む。本システムは、クエリを受信するように適合された少なくとも１つの入力装置をさらに備える。前記クエリは、第２のテキスト文書および／または第２のテキスト文書を識別する情報を含む。前記第２のテキスト文書は、前記メモリコンポーネント内にすでに記憶されている第１のテキスト文書データ内に含まれる第２のテキスト文書データと関連付けられている。本システムは、クエリを第２のテキスト文書データへと変換し、かつ／または前記少なくとも１つのメモリコンポーネント内の記憶域から、前記クエリと関連付けられた第２のテキスト文書データを検索するように適合された、少なくとも１つの処理コンポーネントをさらに備える。第２のテキスト文書データを前記少なくとも１つのメモリコンポーネント内に記憶されている前記第１のテキスト文書データと比較するように、前記処理コンポーネントをさらに適合させている。本システムは、第１のテキスト文書データと関連付けられた少なくとも１つの類似の第１のテキスト文書を識別する情報を返すように適合された、少なくとも１つの出力装置をさらに備える。前記類似の第１のテキスト文書は、第１のテキスト文書中で前記クエリに最も類似している。

なお、前記クエリは、好ましくは２つの形式のうちの一方を含み得る。第１の形式では、クエリは第２のテキスト文書を含み得、その場合、次いでこの第２のテキスト文書は適切に変換され、かつ第２のテキスト文書データと関連付けられ得る。第２の形式では、クエリは、データベース内にすでに収容されている第２のテキスト文書への参考文献を含み得る。たとえば、データベースが特許文献を含む場合、クエリは、特定の第２のテキスト文書を識別できる特許出願番号、または登録番号を含み得る。これは、いわゆる「第２のテキスト文書を識別する情報」というものであり得る。次いで第２のテキスト文書データは、第１の事例では、クエリが含んでいた第２のテキスト文書と関連付けられたデータを含み得る。第２の事例では、クエリの識別情報に基づいて、データベースから第２のテキスト文書データを検索することができる。第２の事例では、第２のテキスト文書データを第１のテキスト文書データ内に含めることができる。

換言すれば、本明細書に記載のシステムは、入力装置を介して任意のテキストベースのクエリの入力を受信し、クエリをメモリに記憶されたテキスト文書データと関連付けることができるかどうかを検証し、そうである場合はこのデータを検索し、そうでない場合は、クエリをかかるデータへと変換するように構成されている。本システムは、クエリとメモリに記憶された他の文書とを比較するようにさらに構成されている。この比較は、種々のアルゴリズムを実装することを通じて、処理コンポーネントによって行うことができる。本システムは、出力装置を介して、クエリと最も密接に関連付けられたテキスト文書の形式で、この比較の結果をさらに出力することができる。この比較自体は、変換されるデータのレベルで行うことができ（上記および下記で概説するように、このデータは多次元ベクトル空間内の点を含み得る）、前記入力データおよび前記出力データは、実際のテキスト文書またはその識別子（論文のタイトル、および特許番号など）を含み得る。

いくつかの実施形態では、前記第１のテキスト文書データは複数の文書ベクトルを含み得、前記第２のテキスト文書データはクエリベクトルを含み得る。なお、クエリが取り得る２つの形式に再度言及しておくと、クエリベクトルは、クエリが含む第２のテキスト文書のテキストから生成することも、データベースから検索することもできる。後者の場合、クエリベクトルはすでにデータベースに記憶されているため、文書ベクトルの１つであり得る。明瞭かつ一貫して示すために、本明細書では「クエリベクトル」という用語を両方の場合に使用している。好ましい実施形態では、第１のテキスト文書のそれぞれを、データベース内に記憶させることができる文書ベクトルと関連付けることができる。データベースは、第１のテキスト文書と、それに対応する文書ベクトルとの両方、または文書ベクトルのみを記憶することができる。

いくつかの実施形態では、前記メモリコンポーネントは、科学論文および／または技術説明および／または特許文献および／または製品説明と関連付けられた、第１のテキスト文書データを含み得る。換言すれば、第１のテキスト文書は特許文献、科学論文、および／または技術説明を含み得る。好ましくは、データベースは少なくとも特許文献関連の第１のテキスト文書データを含み得る。

いくつかの実施形態では、前記第２のテキスト文書を標準化かつ正規化して、少なくとも１つのクエリベクトルを作成することにより、第２のテキスト文書データを取得することができる。標準化および正規化については、上記および下記でより詳細に記載する。

いくつかの実施形態では、第１のテキスト文書データと第２のテキスト文書データとを比較することにより、類似性指数を生成することができる。かかるいくつかの実施形態では、前記出力装置は、前記類似性指数によって最も類似性の高いものから最も類似性の低いものへと順序付けられた複数の第１のテキスト文書と関連付けられた情報を返すことができ、第１のテキスト文書データと関連付けられた前記第１のテキスト文書は、第２のテキスト文書データに対して最も類似性の高い指数を生成している。つまり、そのクエリに最も類似した一定数の第１のテキスト文書を含むリストを出力するように、本システムを適合させることができる。第１のテキスト文書が特許文献を含む場合、これは先行技術調査を実行する方法としてとりわけ有利となり得る。出力された第１のテキスト文書をデータベースに記憶させることができ、かつ／またはそれらを識別する情報（特許出願番号または特許登録番号など）として出力することができ、かつ／またはその文書にアクセスできる外部データベースへのリンクとして出力することができる。さらに、最も類似した第１のテキスト文書の一部を出力することも、また有利となり得る。たとえば、発明の名称および／または要約および／または図のうちの１つを出力することができる。

いくつかの実施形態では、類似性指数は、テキスト文書間の字句比較および／または意味比較に基づき得る。つまり類似性指数は、テキスト間の類似性を定量的に示し得る。これは、たとえばクエリ内および第１のテキスト文書内に存在するキーワードおよび／または意味単位の量を指し得る。なお、類似性指数の取得は、たとえば、ベクトル空間にあるベクトル間の距離を計算することによって行うことができる。しかし、ベクトル自体は字句パラメータおよび／または意味パラメータに基づいて取得することができる。したがって、類似性指数もこれらのパラメータに基づいていると考えることができる。

いくつかの実施形態では、前記処理コンポーネントは、受信した前記第２のテキスト文書の標準化および正規化中に、キーワードを識別することができる。キーワードは、テキスト文書の内容に極めて関連性の高い単語を含み得る。キーワードは、単語の語幹（正規化の一部として取得される）、複合語、および／または意味的に結合された一連の単語を含み得る。キーワードは、実際にはテキスト文書には含まれていないが、テキスト文書に含まれている単語と同義語またはこれらに意味的にリンクされた他の単語である単語をさらに含み得る。

いくつかの実施形態では、前記処理コンポーネントは、エントロピーアルゴリズムに基づいて前記キーワードに重みを割り当てることができる。つまり、文書内で出現する頻度、および／または特定の専門分野内での関連性の高さに基づいて、一部のキーワードの順位が高くなる可能性がある。その後、キーワードに割り当てられた重みを、第１のテキスト文書データおよび第２のテキスト文書データを比較するときに使用することができる。つまり、より高い重みを有するキーワードは、より低い重みを有するキーワードよりも、文書間の類似性および／または類似性指数により大きく寄与し得る。このことは、文脈内での単語の出現頻度および特定の意味を考慮すると、テキスト間の類似性を判定することがより正確になり得るので、とりわけ有利となり得る。これにより、より安定した比較測度が得られる。

いくつかの実施形態では、並列計算のために前記第２のテキスト文書を少なくとも２つの部分、好ましくは少なくとも４つの部分へと分割するように、前記処理コンポーネントを適合させることができる。これにより、処理速度が上昇し、したがってより高い効率をもたらすので有利である。

いくつかの実施形態では、前記処理コンポーネントは少なくとも２つ、好ましくは少なくとも４つ、より好ましくは少なくとも８つのカーネルを含み得る。これにより、クエリの処理速度をさらに上昇させることができる。

いくつかの実施形態では、前記メモリコンポーネント内に記憶された第１の文書データを定期的に更新するように、前記処理コンポーネントを適合させることができる。つまり、新たな第１のテキスト文書でデータベースを更新することができる。

いくつかの実施形態では、類似のテキスト文書が含むべき、かつ／または含んではならない単語および／または文をリスト化することによって、前記クエリを特定できるように、前記入力装置をさらに適合させることができる。すなわち、先行技術調査の例をここで再度考察されたい。クエリと同様に、テキスト文書内に必ず含まれるべき単語または表現を指定できると、とりわけ有用となり得る。付加的にまたは代替的に、類似のテキスト文書内に含まれてはならない単語を指定すると、非常に有用となり得る。

いくつかの実施形態では、出力される最も類似したテキスト文書の数を指定することにより、前記クエリを特定できるように、前記入力装置をさらに適合させることができる。

いくつかの実施形態では、前記メモリコンポーネントはＲＡＭ（ランダム・アクセス・メモリ）を含み得る。これについては、図１に関連してさらに述べる。

いくつかの実施形態では、前記メモリコンポーネントは、複数の前記第１のテキスト文書から抽出されたキーワードを含むタームベクトルをさらに含み得る。タームベクトルについては、第１の実施形態に関連して上述している。かかるいくつかの実施形態では、前記タームベクトルのコンポーネントに対して前記文書ベクトルおよび前記クエリベクトルのコンポーネントを生成するように、前記処理コンポーネントを適合させることができる。第１のテキスト文書データが文書ベクトルを含み、第２のテキスト文書データがクエリベクトルを含むかかるいくつかの実施形態では、前記コサイン指数を使用して、前記クエリベクトルおよび前記文書ベクトル間の距離を計算することにより、前記第２のテキスト文書データを前記第１のテキスト文書データと比較するように、前記処理コンポーネントを適合させることができる。

以下に、本発明の一実施形態に関するより正式な説明が続く。具体的には、本発明の文脈内において使用できるエントロピーの概念を明確化し、また種々のテキスト間の類似性を定量化する１つの方法を提供する。

エントロピー
を使用して、特許文献特有のストップワードを除去することができる。つまり、「請求項」、「手段」、「発明」、「備える」、または他の類似の単語などの単語である。以下の式を使用することができる。

上記の式において、
は特許および／または文書の総数を表し、
および
は特許および／または文書を指す指数であり、
は特許および／または文書
におけるターム
の出現頻度を表し、
の合計は、すべての特許および／または文書におけるターム
の出現頻度を表している。
の値は、０〜１間に入る。文書間で極めて明確かつ不均一に分布しているタームには、高いエントロピー値で重み付けすることができる。エントロピー値が高いほど、そのタームはより多くの情報を伝達することができる。特許特有のストップワードのリストは、要約、特許請求の範囲、発明の名称、明細書およびそれらのすべての組み合わせに対して、別々に計算することができる。特許における特許請求の範囲は、たとえば明細書とは極めて異なって定式化されているので、この差別化は重要である。

種々のストップワードを除去し、それらを語幹処理することによってキーワードを識別した後、これらのキーワードをベクトル空間モデルに実装することができる。次いでこれらの文書を、多次元空間内のオブジェクトとして表すことができる。その次元は、キーワードまたはタームによって特徴付けることができる。このように各文書は、多次元空間内の点および／またはベクトルとして記述することができる。この点の各コンポーネントの値は、当該文書で特定のキーワードまたはタームが検出された回数を表し得る。考慮すべきすべての文書のタームまたはキーワードすべてをタームベクトル
が１回だけ含むように、これを作成することができる。

つまり、考慮すべき第１のテキスト文書すべてに、
個のタームまたはキーワードの合計を含めることができる。このベクトルに基づいて、ターム・文書行列（ＴＤＭ）を生成することができる。ＴＤＭは、以下の式でタームベクトル
の重みを表す行ベクトルとして、
個の文書および／または特許のそれぞれを含み得る。

これは、文書
を数値重みベクトル
で記述できることを意味しており、これを文書ベクトルとも呼ぶことができる。文書ベクトルは、以下のように重みと関連付けることができる。

ブール表現における短縮された文書ベクトルは、たとえば以下のように見える。

タームベクトルは、すべての文書からの各タームまたはキーワードを１回だけ含むため、文書ベクトルのほとんどの重み要素
は値ゼロを有する。これにより、ベクトル空間モデルの実装中に２つの問題が発生する可能性がある。第１に、ヌル値が不必要なメモリを占有し、第２に、テキスト文書の比較中にベクトルを操作することにより、ヌル値による不必要な乗算が発生する。したがって、文書ベクトル
を座標-重み対
のセットとして提示すると、より有利かつ実用的である。そこで、上記の式からの文書ベクトルは、次のように記述することができる。

二重括弧の最初の部分は座標
を表し、タームベクトル
内の位置および／または指数を表す。この表現では、
行列はその要素
のそれぞれとして二重括弧を含み得、これをテンソルと見なすことができる。

このようにして、各文書をベクトル空間内のベクトルとして表すことができる。通常、文書を含む集合体全体またはデータベースのタームベクトルは、１００万個以上のコンポーネントを含み得る。しかし、各文書を約１００〜５００個のコンポーネントを有する文書ベクトルへと変換することができる。つまり、文書ベクトルが約１００個〜５００個のキーワードを含むことができるように、文書当たりのキーワード数を削減することができる。

ベクトル空間法により、テキスト内に存在するキーワードに基づいて、多次元ベクトル空間内の点および／またはベクトルに異なるテキスト文書を関連付けることによって、これらを定量化することができる。次いで、ベクトル空間内での近接度を計算することによって、異なるテキストを比較することができる。これは、たとえば、参考のために以下に示しているコサイン指数
を使用して、実行することができる。

当業者であれば、以下に記載される図面が例示のみを目的としたものであることを理解するであろう。これらの図面は、本教示内容の範囲を決して限定しないものとする。

本発明の一態様による、意味的検索を行う装置の一実施形態を示す。

クエリをテキスト文書データへと変換する一実施形態を概略的に示す。

ベクトル空間モデルの視覚化に関する一実施形態を概略的に示す。

本発明の一態様による、意味的検索を行うための方法の一実施形態を示す。

以下では、図面を参照しながら、本発明の典型的な実施形態について説明する。これらの例を、その範囲を限定することなく、本発明へのさらなる理解をもたらすために提供する。

以下の説明では、一連の特徴および／またはステップを記載している。文脈によって要求されていない限り、これらの特徴およびステップの順序は、結果として生じる構成およびその効果にとって重要ではないことを、当業者なら理解するであろう。また、これらの特徴およびステップの順序に関係なく、記載したステップの一部またはすべてにおいて、ステップ間の時間遅延が生じたり、生じなかったりする可能性があることが、当業者には明らかであろう。

図１を参照すると、本発明の構成の一例が示されている。図は、本発明の一態様による、コンピュータ実装システム１０を示す。

コンピュータ実装システム１０は、メモリコンポーネント２０を備える。メモリコンポーネント２０は、ＲＡＭなどの標準的なコンピュータメモリを含み得る。付加的にまたは代替的に、メモリコンポーネント２０は、ハードドライブ、サーバの記憶域、フラッシュメモリ、光学式ドライブ、ＦｅＲＡＭ、ＣＢＲＡＭ、ＰＲＡＭ、ＳＯＮＯＳ、ＲＲＡＭ（登録商標）、レーストラックメモリ、ＮＲＡＭ、３ＤＸＰｏｉｎｔ、および／またはミリピードメモリなどの不揮発性メモリコンポーネントを含み得る。

メモリコンポーネント２０は、第１のテキスト文書データ２１を含み得る。第１のテキスト文書データ２１は、文書ベクトルを含み得る。文書ベクトルは、テキスト文書から作成することができる。つまり、文書内のキーワードを識別することにより、各テキスト文書を文書ベクトルにマッピングすることができる。１つの文書ベクトルは、個々のキーワードを含む１００個〜５００個のコンポーネント（つまり、次元）を含み得る。

コンピュータ実装システム１０は、処理コンポーネント３０をさらに含み得る。第２のテキスト文書データ３１を受信し、これを第１の文書データ２１と比較するように、処理コンポーネント３０を適合させることができる。第２のテキスト文書データ３１は、文書ベクトルをさらに含み得る。たとえばこれは、ユーザ定義のクエリ、および／またはユーザが設定したテキスト文書の識別情報（たとえば特許番号などの）を含み得る。第２のテキスト文書データ３１は、すでに第１のテキスト文書データ２１の一部である文書ベクトルを含み得る。たとえば、ユーザインターフェースを使用して、すでにコンピュータ実装システム１０内のデータベースの一部である（つまり、すでにメモリコンポーネント２０における第１のテキスト文書データ２１の一部である）特定の特許および／または特許出願に類似した、特許および／または特許出願を検索することができる。

入力装置４０からクエリ４１を受信するように、処理コンポーネント３０を適合させることができる。つまり、たとえばユーザインターフェースを介して、この場合には入力装置４０として機能することになるアプリケーション、プログラム、および／またはブラウザベースのインターフェースにクエリ４１を入力することができる。クエリ４１は、テキストおよび／または第２のテキスト文書に関する特定の識別情報（上述のように、これはたとえば、特許番号および／または特許出願番号を含み得る）を含み得る。クエリ４１を受信すると、処理コンポーネント３０は、たとえばクエリ内のすべてのキーワードを識別し、ストップワードを除去し、語幹処理を実行し、かつクエリ用の文書ベクトルを生成することによって、クエリ４１を第２のテキスト文書データ３１へと変換することができる。上述のように、すでにメモリコンポーネント２０におけるデータベースの（第１のテキスト文書データ２１の）一部である文書をクエリが識別した場合、処理コンポーネント３０は、第２のテキスト文書データ３１と関連付けられた文書ベクトルを単に検索することができる。次いで、処理コンポーネント３０は第２のテキスト文書データ３１を、メモリコンポーネント２０における第１のテキスト文書データのすべてと比較することができる。処理コンポーネント３０は、好ましくは多次元ベクトル空間内の文書ベクトル間の距離に基づいて、最も類似した文書（それぞれの文書ベクトルで識別される）を識別することができる。

第１のテキスト文書データ２１内の最も類似した文書を識別した後、処理コンポーネントはその結果を出力装置５０へと送信することができる。次いで出力装置５０は、クエリ４１に最も類似しており、第１のテキスト文書データ２１と関連付けられた、類似した少なくとも１つの第１のテキスト文書５１を出力することができる。当然ながら、出力装置５０は、クエリ４１との類似性に基づいて順位付けされた、類似した複数の第１のテキスト文書５１を出力することができる。出力装置５０は、たとえばプログラム、アプリケーションおよび／またはコンピューティング装置を介してアクセス可能なブラウザベースのインターフェースなどのインターフェースを含み得る。

図１ｂは、クエリ４１をテキスト文書データへと変換する実施形態を概略的に示す。このプロセスは、たとえばコンピューティング装置と関連付けられたＣＰＵを含み得る、処理コンポーネント３０内で行うことができる。付加的にまたは代替的に、処理コンポーネントは、たとえば並列処理のために、複数のＣＰＵおよび／または複数のカーネルを有する１つのＣＰＵを含み得る。入力装置４０（ここでは図示せず）から処理コンポーネント３０へと、クエリ４１を転送することができる。まずクエリ４１を標準化して、標準化クエリ４３を取得することができる。標準化のプロセスについては上述している。次いで、標準化クエリ４３を正規化して、正規化された標準化クエリ４５を取得することができる。正規化のプロセスについても、より詳細に上述している。

次いで、正規化された標準化クエリ４５（それぞれ、標準化された正規化クエリ４３）をクエリベクトル４７へと変換することができる。正規化された標準化クエリ４５のキーワードまたは「ターム」を多次元ベクトル空間内のコンポーネントまたは次元と関連付けることにより、クエリベクトル４７を生成することができる。次いでクエリベクトル４７を、メモリコンポーネント２０（ここでは図示せず）内に記憶させることができる文書ベクトル２７と比較することができる。

なお、文書ベクトル２７は、本明細書では第１のテキスト文書データ２１を指し得る。明確にするために「文書ベクトル」という用語を使用し得るので、当業者であれば、複数の異なる文書ベクトルを指していることを理解する。クエリベクトル４７と文書ベクトル２７との比較は、たとえば多次元ベクトル空間内の距離に基づいて行うことができる。当然ながら、かかる比較を行うためには、クエリベクトル４７および文書ベクトル２７の両方が同じベクトル空間、すなわち同じ次元によって定義されている空間に存在すべきである。これを実現するために、メモリコンポーネント２０（図示せず）内に含まれるデータベースはタームベクトルを含み得る。タームベクトルは、データベース内に記憶された第１のテキスト文書すべてに存在する各タームまたはキーワードごとに、１つのコンポーネントまたは１つの次元を含み得る。次いでクエリベクトル４７は、文書ベクトル２７と同様に、タームベクトルの次元またはコンポーネントに対して、特定の文書内でそれぞれ、クエリ４１に存在するキーワードまたはタームを示すことができる。このようにして、一意かつ一貫性のあるベクトル空間を生成することができる。これについては、上記で詳細に説明している。

図１ｃは、ベクトル空間モデルの視覚化に関する一実施形態を概略的に示す。なお、この図は説明のみを目的としており、ベクトル空間モデルの数学的記述には当たらない。タームベクトル７を円として概略的に示している。タームベクトル７は、複数のキーワードまたはタームを含み得る。これらのキーワードまたはタームは、複数のテキスト文書から抽出することができる。好ましい実施形態では、タームベクトル７は、データベース内に収容されるすべてのテキスト文書からのすべてのキーワード（すなわち、第１のテキスト文書からのすべてのキーワード）を含む。図ではこれを大きな円で表している。クエリベクトル４７は、クエリ４１（ここでは図示せず）内のキーワードから生成することができる。なお、この概略図では、クエリベクトル４７はタームベクトル７内に完全に含まれており、これは、クエリ４１が含むすべてのキーワードはデータベースに収容される第１のテキスト文書内に含まれ、そこからタームベクトル７が生成されていることを示唆している。しかし、これに当てはまる必要はない。クエリ４１が第１のテキスト文書内に含まれていないキーワードを含むことは十分にあり得、したがってクエリベクトル４７は、タームベクトル７のキーワードによって生成されるベクトル空間内に完全に含まれる必要はない。しかし、これに当てはまる場合、タームベクトル７内に含まれていないクエリ４１のキーワードは、第１のテキスト文書との類似性を何らもたらさないので、最も類似した第１のテキスト文書を検出する目的で、これらを無視することができる。したがって、タームベクトル７で提示済みのキーワードのみを使用して生成されたものとして、クエリベクトル４７を見なすことができる。なお、キーワードの同義語も、意味的な類似性の比較に使用することができる。

文書ベクトル２７を、クエリベクトル４７と交差するように図示している。これは、それらが同じキーワードおよび／またはそれらの同義語のいくつかを含んでいることを意味している。したがって、クエリベクトル４７と文書ベクトル２７との間に、ゼロでない類似性測度を生成することができる。しかし、クエリベクトル４７と全く交差していないものとして、文書ベクトル２７’を図示している。これは、クエリ４１および文書ベクトル２７’と関連付けられたテキスト文書が、キーワードまたはそれらの同義語を共有していないことを意味している。これは、クエリベクトル４７および文書ベクトル２７ ‘にヌル類似性測度が割り当てられることを意味し得る。

図２は、本発明の一態様による、テキスト文書における類似性の意味的処理を行うための方法に関する一実施形態を概略的に示す。この図は、受信文書と記憶された文書の既存のプールまたはデータベースとを比較するステップを記載している、フローチャートを示す。

例示的なシナリオとして、たとえば特許および／または特許出願書である可能性のある特定のテキストを有するユーザについて、考察されたい。このユーザは、いわゆる「先行技術調査」を必要としている。つまり、このユーザは、自身が有するテキストに近い内容の他の特許文書を取得または検出する必要がある。そこでユーザは、以下の方法で本発明を使用することができる。ユーザは、対象のテキスト文書を本システムに送信またはアップロードすることができる。これは、たとえばインターフェースを介して行うことができる。一実施形態では、本明細書に記載のシステムは、クエリを受信するためのアプリケーションベースまたはブラウザベースのインターフェースを備え得る。そこで、ユーザはインターフェースを使用して、本システムにクエリを送信することができ、その時点で以下のステップが発生し得る。

Ｓ１では、受信したテキスト文書またはクエリを標準化することができる。つまり、誤字を訂正することができる。さらに、スペルを正規化することができる。たとえば、イギリス英語およびアメリカ英語のスペリング規則から１つの規則を選択でき、２つの規則で異なるすべての単語を選択した規則へと変換することができる。つまり、「ｃｏｌｏｕｒ（色）」、「ｔｈｅａｔｒｅ（劇場）」などの単語を、「ｃｏｌｏｒ（色）」および「ｔｈｅａｔｅｒ（劇場）」へと、あるいはその逆へと変換することができる。さらに、標準化するステップは、異なる物理単位を１つの標準的な単位、および／または１つの特定の単位へと変換することを含み得る。たとえば、インチはメートルに、またポンドはキログラムなどに変換することができる。さらに、標準化するステップは、化学式、遺伝子配列および／またはタンパク質表現などの式を標準表記へと変換することを含み得る。

Ｓ２では、受信したテキスト文書を正規化することができる。これは、当該文書のテキストに含まれるストップワードを分離して、それらを除去することを含み得る。ストップワードは「そして」、「まず」、「しかし」などの単語を含み得る。ストップワードは、解析中のテキスト文書のタイプに固有のものである場合もある。たとえば特許文献は、ほとんどの特許テキスト文書に存在する「請求項」、「実施形態」、「装置」などの単語を含む。これらの単語を、正規化するステップ中に同様に識別し、かつ除去することができる。さらに、正規化するステップは、単語をそれらの語幹まで削減することを含み得る。つまり、「コンピュータ」および「コンピューティング」などの単語を、たとえばそれらの共通の語幹まで削減することができる。その後、同義語に関してこれらの語幹を解析することができる。さらに、正規化するステップ中に語列および複合語を識別することができる。つまり、「ペーパークリップ」などの単語を識別することができ、複合語の意味を保つようにするために、語幹処理を目的としてこれらを分離させない。

Ｓ３では、まず標準化かつ／または正規化することができるテキスト文書を使用して、文書ベクトルを作成することができる。この文書ベクトルは、テキスト文書にどの「ターム」、すなわち単語の語幹およびその同義語が含まれているかに関する情報を含む、多次元ベクトルとすることができる。これについては、上記でさらに説明している。なお、いくつかの実施形態では、文書ベクトルはテンソルをさらに含み得る。

Ｓ４では、生成された文書ベクトルを使用して、受信したテキスト文書と記憶されているテキスト文書との間の類似性測度を計算することができる。つまり、受信したテキスト文書、あるいはその文書ベクトルを、以前に文書ベクトルへと変換されたテキスト文書を含むデータベースと比較することができる。なお、異なる文書ベクトル間で比較を行うための共通のベースラインを得るべく、データベース内のテキスト文書すべてに含まれるすべての「ターム」（すなわち、単語および／または語幹および／または同義語）を含む、１つの「タームベクトル」を設けることができる。

個々の文書ベクトルは、そこでタームベクトルに含まれるどのタームが所与の文書に存在しているかを単に示すことができる。次いで、タームベクトルは多次元ベクトル空間を定義することができ、そこでは各タームは１つの次元を含み得る。この多次元ベクトル空間内のドットまたはベクトルとして、各文書ベクトルを記述するか、または視覚化することができる。受信したテキスト文書から生成される文書ベクトルをデータベースに収容される各文書ベクトルと比較するために、それらの間の距離を計算することができる。なお、ベクトル空間におけるベクトル間の距離を計算することは、受信した文書および記憶されているテキスト文書間の類似性測度を取得するための一方法または一部分であり得る。しかし、字句解析および／または意味解析に基づいて、これを行うための他の方法も存在し得る。また、類似性測度に含まれる別の変数も存在し得る。たとえば、キーワードが当該文書内に出現する頻度および／または当該文書の専門分野に基づくキーワードの重み付けは、そこで文書ベクトル内に組み込むことができ、したがって類似性測度においてある役割を果たすことになる。さらに、テキスト文書の文献変数を使用することができる。特許文献に関する特定の例では、これらはＩＰＣクラス、ＣＰＣクラス、出願人、発明者、特許弁護士、引用、参考文献、共引用および共参照情報、画像情報を含み得る。

Ｓ５では、類似性測度を出力することができる。たとえば、元の入力テキスト文書、またはクエリに対する類似性測度によって順位付けされた、いくつかのテキスト文書を出力することができる。アプリケーションおよび／またはブラウザのインターフェースに関する上記の所与の例に戻ると、同じインターフェースを介して類似性測度を出力することができる。つまり、たとえば最も類似した文書から始まるなど、特定の方法で順位付けされる形式で、受信したテキスト文書またはクエリに類似したテキスト文書のリストを、アプリケーションおよび／またはブラウザを介して表示することができる。なお、「類似性測度を出力する」ということは、本明細書では、クエリに最も類似していると判定された少なくとも１つまたは複数の文書を出力することを指し得る。

特許請求の範囲を含む本明細書で使用する場合、文脈で別段指示しない限り、単数形の用語は複数形も含むと解釈すべきであり、逆もまた同様である。したがって、本明細書で使用する場合、文脈で別段明確に指示しない限り、単数形「１つの（ａ）」、「１つの（ａｎ）」、および「前記（ｔｈｅ）」は複数の言及を含むことに留意されたい。

本明細書および特許請求の範囲を通して、「備える（ｃｏｍｐｒｉｓｅ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、および「包含する（ｃｏｎｔａｉｎ）」という用語およびそれらの変形は、「〜を含むがこれに限定されない（ｉｎｃｌｕｄｉｎｇｂｕｔｎｏｔｌｉｍｉｔｅｄｔｏ）」という意味であると理解すべきであり、他のコンポーネントを排除することを意図するものではない。

用語、特徴、値、および範囲などが、約（ａｂｏｕｔ）、およそ（ａｒｏｕｎｄ）、概して（ｇｅｎｅｒａｌｌｙ）、ほぼ（ｓｕｂｓｔａｎｔｉａｌｌｙ）、本質的に（ｅｓｓｅｎｔｉａｌｌｙ）、少なくとも（ａｔｌｅａｓｔ）などの用語と併せて使用される場合、本発明は正確な用語、特徴、値および範囲なども包含している（すなわち、「約３（ａｂｏｕｔ３）」は正確に３（ｅｘａｃｔｌｙ３）をも包含しているか、または「ほぼ一定（ｓｕｂｓｔａｎｔｉａｌｌｙｃｏｎｓｔａｎｔ）」は正確に一定（ｅｘａｃｔｌｙｃｏｎｓｔａｎｔ）をも包含しているものとする）。

「少なくとも１つ（ａｔｌｅａｓｔｏｎｅ）」という用語は「１または複数（ｏｎｅｏｒｍｏｒｅ）」を意味していると理解すべきであり、したがって、１または複数のコンポーネントを含む両方の実施形態を含む。さらに、「少なくとも１つ（ａｔｌｅａｓｔｏｎｅ）」を有する特徴を述べている独立請求項を参照する従属請求項は、その特徴が「前記（ｔｈｅ）」および「前記少なくとも１つ（ｔｈｅａｔｌｅａｓｔｏｎｅ）」として同時に言及される場合、同じ意味を有する。

本発明の範囲内にありながら、本発明の前述の実施形態に対して変形をなすことができると理解されよう。特段に明記しない限り、同一、同等、または類似の目的を果たす代替の特徴に、本明細書に開示している特徴を置き換えることができる。したがって、特段に明記しない限り、開示している各特徴は、一連の包括的な同等または類似の特徴の一例を表す。

「例として（ｆｏｒｉｎｓｔａｎｃｅ）」、「など（ｓｕｃｈａｓ）」、「たとえば（ｆｏｒｅｘａｍｐｌｅ）」などの典型的な単語を使用することにより、単に本発明をより良好に例示することを意図しており、そのように主張しない限り、本発明の範囲に対する限定を示すものではない。本明細書に記載しているあらゆるステップは、文脈で別段明確に指示しない限り、任意の順序で、または同時に行ってもよい。

本明細書に開示しているすべての特徴および／またはステップは、少なくともいくつかの特徴および／またはステップが互いに排他的である組み合わせを除いて、任意の組み合わせで結合することができる。とりわけ、本発明の好ましい特徴は本発明のすべての態様に適用することができ、また任意の組み合わせで使用することができる。

Claims

ａ）複数の第１のテキスト文書と関連付けられた第１のテキスト文書データ（２１）を含むデータベースを構築するステップと、
ｂ）クエリ（４１）を受信するステップと、
ｃ）前記クエリ（４１）を第２のテキスト文書データ（３１）へと変換するステップと、
ｄ）第２のテキスト文書データ（３１）を第１のテキスト文書データ（２１）と比較し、かつ第２のテキスト文書データ（３１と第１の文書データ（２１）との間の少なくとも１つの類似性測度を計算するステップとを含む、
テキスト文書を比較するためのコンピュータ実装方法。
第１のテキスト文書データ（２１）は、第１のテキスト文書に含まれるキーワードおよび／または前記キーワードに意味的に関連している単語から生成される文書ベクトル（２７）を含む、請求項１に記載の方法。
前記クエリ（４１）は、第２のテキスト文書、および／または前記メモリコンポーネント（２０）内にすでに記憶されている前記第１のテキスト文書データ（２１）内に含まれる第２のテキスト文書データ（３１）と関連付けられた、第２のテキスト文書を識別する情報を含む、請求項１または２のいずれか一項に記載の方法。
前記クエリ（４１）を第２のテキスト文書データ（３１）へと変換するステップは、前記クエリ（４１）を標準化することを含む、請求項１から３のいずれか一項に記載の方法。
前記クエリを第２のテキスト文書データ（３１）へと変換するステップは、前記クエリ（４１）を正規化することを含む、請求項１から４のいずれか一項に記載の方法。
前記クエリ（４１）を正規化するステップは、少なくとも同義語、上位語、下位語、ストップワード、および／またはサブジェクト固有のストップワードを外部データベースから検索し、かつ前記検索した単語に少なくとも一部基づいて、前記クエリ（４１）のキーワードに関するリストを生成することを含む、請求項５に記載の方法。
ストップワードおよび／またはサブジェクト固有のストップワードを除去し、かつ前記クエリワードの同義語、上位語、および下位語のうちの少なくとも１つを含ませることによって、前記クエリ（４１）のキーワードのリストを生成している、請求項６に記載の方法。
前記クエリ（４１）を第２のテキスト文書データ（３１）へと変換するステップは、少なくとも１つのクエリベクトル（４７）を生成することを含む、請求項１から７のいずれか一項に記載の方法。
前記クエリ（４１）からキーワードおよび／またはキーワードの同義語を識別し、かつ多次元ベクトル空間のベクトルのコンポーネントを用いて前記キーワードを識別することによって、前記クエリベクトル（４７）を生成している、請求項８に記載の方法。
前記クエリベクトル（４７）は１００個〜５００個のコンポーネント、好ましくは２００個〜４００個のコンポーネント、さらにより好ましくは２００個〜３００個のコンポーネントを含む、請求項９に記載の方法。
前記キーワードに重みを割り当てている、請求項１から１０のいずれか一項に記載、かつ請求項９の特徴を有する方法。
前記クエリ（４１）の一般的なサブジェクトに少なくとも一部基づいて、前記重みを割り当てている、請求項１１に記載の方法。
前記類似性測度を計算するステップは、コサイン指数、ジャッカード指数、ダイス指数、包含指数、ピアソン相関指数、レーベンシュタイン距離、ジャロ・ウィンクラー距離および／またはニードルマン・ウンシュアルゴリズムの少なくとも１つ、またはこれらの組み合わせを適用することを含む、請求項１から１２のいずれか一項に記載の方法。
ｆ）少なくとも１つの統計アルゴリズムを使用して、前記少なくとも１つの類似性測度を検証するステップと、
ｇ）前記少なくとも１つの類似性測度を出力するステップとを、前記ステップｄ）の後にさらに含む、請求項１から１３のいずれか一項に記載の方法。
ユーザインターフェースから前記クエリ（４１）を受信し、かつ前記インターフェースを介して前記類似性測度を返している、請求項１４に記載の方法。
前記データベースは特許文献関連のテキスト文書を含み、前記データベースを構築し、かつ／または前記クエリ（４１）を変換するステップは、特許文献関連のテキスト文書と関連付けられたストップワードを除去することを含む、請求項１から１５のいずれか一項に記載の方法。
第１のテキスト文書データ（２１）内および／または前記クエリ（４１）内に含まれるタームと関連付けられたエントロピーを計算し、かつエントロピーが低いタームを除去することによって、特許関連のストップワードを除去している、請求項１６に記載の方法。
前記複数の第１のテキスト文書から抽出されたキーワードを含むタームベクトル（７）を生成するステップをさらに含む、請求項１から１７のいずれか一項に記載の方法。
前記文書ベクトル（２７）および前記クエリベクトル（４７）のコンポーネントを、前記タームベクトル（７）のコンポーネントに対して生成している、請求項１８に記載、かつ請求項２および８の特徴を有する方法。
前記コサイン指数を使用して、前記クエリベクトル（４７）と前記文書ベクトル（２７）との間の距離を計算することにより、第２のテキスト文書データ（３１）と第１の文書データ（２１）との間の類似性測度を計算している、請求項１から１９のいずれか一項に記載、かつ請求項２および８の特徴を有する方法。
ａ）少なくとも１つの受信クエリ（４１）を標準化するステップと、
ｂ）前記少なくとも１つの標準化された受信クエリ（４３）を正規化するステップと、
ｃ）前記少なくとも１つの正規化された標準化クエリ（４５）を使用して、少なくとも１つのクエリベクトル（４７）を作成するステップと、
ｄ）前記少なくとも１つのクエリベクトル（４７）と前記少なくとも１つの別のテキスト文書との間の少なくとも１つの類似性測度を計算するステップであって、前記少なくとも１つの別のテキスト文書は前記先行ステップを経ている、ステップとを含む、
テキスト文書内の類似性を処理するためのコンピュータ実装方法。
前記テキスト文書は、技術的テキスト、科学的テキスト、特許テキスト、および／または製品説明の少なくとも１つまたはそれらの組み合わせを含む、請求項２１に記載の方法。
標準化するステップは、誤字を訂正し、特定のスペリング規則および物理単位の規則を選択し、かつ特定のスペリング規則および物理単位の規則に基づいて前記テキストを調整し、かつ／または標準的な方法で式（たとえば化学式、遺伝子配列および／またはタンパク質表現）を記述することを含む、請求項２１または２２のいずれか一項に記載の方法。
前記正規化するステップは、ストップワードを識別して除去し、共通の語幹まで単語を削減し、同義語に関する語幹を解析し、かつ／または語列および複合語を識別することを含む、請求項２１から２３のいずれか一項に記載の方法。
前記正規化するステップは、好ましくは特定のタイプの複数のテキスト文書におけるタームのエントロピーを計算し、かつエントロピーが低い単語を除去することによって、前記タイプのテキスト文書と関連付けられたストップワードを識別し、かつ除去することをさらに含む、請求項２４に記載の方法。
前記類似性測度を計算するステップは、コサイン指数、ジャッカード指数、ダイス指数、包含指数、ピアソン相関指数、レーベンシュタイン距離、ジャロ・ウィンクラー距離および／またはニードルマン・ウンシュアルゴリズムの少なくとも１つ、またはこれらの組み合わせを適用することを含む、請求項２１から２５のいずれか一項に記載の方法。
ｆ）少なくとも１つの統計アルゴリズムを使用して、前記少なくとも１つの類似性測度を検証するステップと、
ｇ）前記少なくとも１つの類似性測度を出力するステップとを、前記ステップｄ）の後にさらに含む、請求項２１から２６のいずれか一項に記載の方法。
ａ）第１のテキスト文書と関連付けられた複数の第１のテキスト文書データ（２１）を含むデータベースを少なくとも記憶するように適合された、少なくとも１つのメモリコンポーネント（２０）と、
ｂ）クエリ（４１）を受信するように適合された少なくとも１つの入力装置（４０）であって、前記クエリ（４１）は第２のテキスト文書および／または第２のテキスト文書を識別する情報を含み、前記第２のテキスト文書は、前記メモリコンポーネント（２０）内にすでに記憶されている第１のテキスト文書データ（２１）内に含まれる第２のテキスト文書データ（３１）と関連付けられている、入力装置（４０）と、
ｃ）クエリ（４１）を第２のテキスト文書データ（３１）へと変換し、かつ／または前記少なくとも１つのメモリコンポーネント（２０）内の記憶域から、前記クエリ（４１）と関連付けられた第２のテキスト文書データ（３１）を検索し、次いで第２のテキスト文書データ（３１）を前記少なくとも１つのメモリコンポーネント（２０）内に記憶されている前記第１のテキスト文書データ（２１）と比較するように適合された、少なくとも１つの処理コンポーネント（３０）と、
ｄ）第１のテキスト文書データ（２１）と関連付けられた少なくとも１つの類似の第１のテキスト文書（５１）を識別する情報を返すように適合された、少なくとも１つの出力装置（５０）であって、前記類似の第１のテキスト文書（５１）は、第１のテキスト文書中で前記クエリ（４１）に最も類似している、出力装置（５０）とを備える、
請求項１から２７のいずれか一項に記載のコンピュータ実装システム（１０）。
前記第１のテキスト文書データ（２１）は複数の文書ベクトル（２７）を含み、前記第２のテキスト文書データ（３１）はクエリベクトル（４７）を含む、請求項２８に記載のシステム。
前記メモリコンポーネント（２０）は、科学論文および／または技術説明および／または特許文献および／または製品説明と関連付けられた、第１のテキスト文書データ（２１）を含む、請求項２８から２９のいずれか一項に記載のシステム。
前記第２のテキスト文書を標準化かつ正規化して、少なくとも１つのクエリベクトル（４７）を作成することにより、第２のテキスト文書データ（３１）を取得している、請求項２８から３０のいずれか一項に記載のシステム。
第１のテキスト文書データ（２１）と第２のテキスト文書データ（３１）とを比較することにより、類似性指数を生成している、請求項２８から３１のいずれか一項に記載のシステム。
前記出力装置（５０）は、前記類似性指数によって最も類似性の高いものから最も類似性の低いものへと順序付けられた複数の第１のテキスト文書と関連付けられた情報を返し、第１のテキスト文書データ（２１）と関連付けられた前記第１のテキスト文書は、第２のテキスト文書データ（３１）に対して最も類似性の高い指数を生成している、請求項３２に記載のシステム。
前記類似性指数は、テキスト文書間の字句比較および／または意味比較に基づいている、請求項２８から３３のいずれか一項に記載のシステム。
前記処理コンポーネント（３０）は、前記受信した第２のテキスト文書の標準化および正規化中に、キーワードを識別している、請求項２８から３４のいずれか一項に記載のシステム。
前記処理コンポーネント（３０）は、エントロピーアルゴリズムに基づいてキーワードに重みを割り当てている、請求項２８から３５のいずれか一項に記載のシステム。
並列計算のために前記第２のテキスト文書を少なくとも２つの部分、好ましくは少なくとも４つの部分へと分割するように、前記処理コンポーネント（３０）を適合させている、請求項２８から３６のいずれか一項に記載のシステム。
前記処理コンポーネント（３０）は少なくとも２つ、好ましくは少なくとも４つ、より好ましくは少なくとも８つのカーネルを含む、請求項３７に記載のシステム。
前記メモリコンポーネント（２０）内に記憶された第１の文書データ（２１）を定期的に更新するように、前記処理コンポーネント（３０）を適合させている、請求項２８から３８のいずれか一項に記載のシステム。
類似のテキスト文書が含むべき、かつ／または含んではならない単語および／または文をリスト化することによって、前記クエリ（４１）を特定できるように、前記入力装置（４０）をさらに適合させている、請求項２８から３９のいずれか一項に記載のシステム。
出力される最も類似したテキスト文書の数を指定することにより、前記クエリ（４１）を特定できるように、前記入力装置（４０）をさらに適合させている、請求項２８から４０のいずれか一項に記載のシステム。
前記メモリコンポーネント（２０）はＲＡＭ（ランダム・アクセス・メモリ）を含む、請求項２８から４１のいずれか一項に記載のシステム。
前記メモリコンポーネント（２０）は、前記複数の第１のテキスト文書から抽出されたキーワードを含むタームベクトル（７）をさらに含む、請求項２８から４２のいずれか一項に記載のシステム。
前記タームベクトル（７）のコンポーネントに対して前記文書ベクトル（２７）および前記クエリベクトル（４７）のコンポーネントを生成するように、前記処理コンポーネント（３０）を適合させている、請求項４３に記載、かつ請求項２９の特徴を有するシステム。
前記コサイン指数を使用して、前記クエリベクトル（４７）と前記文書ベクトル（２７）との間の距離を計算することにより、前記第２のテキスト文書データ（３１）を前記第１のテキスト文書データ（２１）と比較するように、前記処理コンポーネント（３０）を適合させている、請求項２８から４４のいずれか一項に記載、かつ請求項２９の特徴を有するシステム。