JP2020537268A

JP2020537268A - 大規模なデータベースにおけるセマンティック検索のための方法及びシステム

Info

Publication number: JP2020537268A
Application number: JP2020521321A
Authority: JP
Inventors: ローラーントコバッチュ、ベーラ; ヤーゲル、アーコス
Original assignee: ネイゲントロピクスゾフトバーゼットアールティー．
Priority date: 2017-10-10
Filing date: 2018-10-09
Publication date: 2020-12-17
Also published as: CN111213140A; AU2018349276A1; WO2019073376A1; KR20200067180A; US20190108276A1; US20220261427A1; CA3078585A1; EP3695324A1

Abstract

本発明は、テキスト含有クエリのテキスト構成要素を読み取ることと、予め定義された特徴抽出モデルを使用してクエリのテキスト構成要素からクエリ特徴のセットを生成することと、複数のクエリ特徴に基づいてトレーニング特徴のセットを生成することと、トレーニング特徴、及び、予め定義された特徴抽出モデルを使用してソース文書の少なくとも一部分から取得された文書特徴のセットを用いて、トレーニング可能な分類器をトレーニングすることと、予め定義された選択方式に従って分類のためにいくつかのソース文書を選択することと、選択された文書の特徴を取得することと、選択された文書の特徴を使用することによって選択されたソース文書を関連度の異なるクラスに分類することであって、関連度の少なくとも１つの値が各選択された文書に関連する、分類することと、関連度の分類された文書の少なくとも１つの関連する値に基づいて順序付きリスト中で分類された文書をランク付けすることと、ランク付けされた文書の識別子の順序付きリストをコンピュータ可読メモリに記憶することとを含む、一意の文書識別子によって識別される文書を含有するソース文書データベースにおいてセマンティック検索を実行するコンピュータ実装方法を提供する。

Description

本開示は、一般に自然言語処理に関し、より詳細には、セマンティック検索エンジンを使用することによる大規模な文書データベースにおけるコンテンツの検索に関する。

電子文書又は紙ベースの文書において特定のコンテンツを見つける需要がますます増大しており、電子文書の生成、記憶及び配信の導入、又は、そのような文書を有限の又は無限の数のユーザのために利用可能にすることにより、永遠に拡大する量の文書がワールド・ワイド・ウェブ（「ウェブ」又は「インターネット」）及び他のイントラネット上で電子形式でアクセスされ得る。特定のコンテンツをもつ文書のための文書取出し及び検索は、適切な検索ツールをもつコンピュータが使用される場合でも、かなり時間がかかるタスクになり得る。

文書米国特許第７，２４９，１２１号は、検索クエリ内からのセマンティック・ユニットの識別のための様々な方法及びシステムを開示している。コーパスを検索するための検索エンジンが、検索クエリにおける複数の用語を単一のセマンティック・ユニットとして分類したことによる結果の関連度（ｒｅｌｅｖａｎｃｙ）を改善する。検索エンジンのセマンティック・ユニット・ロケータが、クエリ内の個々の用語に基づいて、クエリにとって一般に関連のある（ｒｅｌｅｖａｎｔ）文書のサブセットを生成する。次いで、検索語のどの組合せがセマンティック・ユニットとして分類されるべきであるかを決定するために、クエリから潜在的セマンティック・ユニットを定義する検索語の組合せが文書のサブセットに対して評価される。得られたセマンティック・ユニットは、検索の結果を改良するために使用される。このソリューションは、意味的に有意なテキスト・ユニットに対応する複合語のより正確な識別を与えるが、依然として、関連のある文書のセットが簡単な様式で、すなわち、クエリ・キーワード又はキー・テキストの様々なサブセットとコーパスのインデックスとの比較に基づいて決定されるという欠点を有する。

現在の検索エンジンは大規模な文書データベースを効率的に検索することができない。多くの場合、大量のテキストをパースする必要により、文書データベース検索は厄介で、時間がかかり、有限のプロセッサ・リソースを非効率的に使用する。さらに、多くの現在の検索エンジンは、意味がある又は動的な順序で結果をランク付けすることができない。

複数のプラットフォームに渡る、複数のデジタル・フォーマットでのデジタル・データの分散が大きくなっているので、プロセッサの時間及びリソースをより効率的に使用するセマンティック検索技法を提供すること、及び照会エンティティによって検索されたテキストベースのコンテンツに対する結果セットの関連度をさらに改善することが当技術分野では必要である。結果の関連度の改善により、従来のセマンティック検索エンジンに対して特定のコンテンツの検索のために必要とされる検索クエリの数が少なくなり、したがって、インターネット又はイントラネットのようなサービング・データ通信ネットワークを使用して実行される検索の帯域幅需要が低減される。

米国特許第７，２４９，１２１号

開示される実施例は、電子トークンとトークン化されたデバイスとを使用して電子トランザクションを管理するためのシステム及び方法を提供する。本発明は、特に、請求項１に記載のコンピュータ実装方法、請求項１１に記載の処理システム、請求項１４に記載のコンピュータ可読媒体、及び請求項１５に記載のシステムを提供する。好ましい実施例は従属クレームに記載されている。

ソース文書及びクエリ・テキストの表現が極めてコンパクトであるので、本セマンティック検索エンジン・ソリューションのメモリ及びストレージの需要は知られているセマンティック検索エンジンのそれよりも著しく低い。

本開示の一態様は、それぞれ一意の文書識別子によって識別される文書を含有するソース文書データベースにおいてセマンティック検索を実行するコンピュータ実装方法を対象とし、本方法は、処理システムによって実行される以下のステップ、すなわち、テキスト含有クエリのテキスト構成要素を読み取ることと、予め定義された特徴抽出モデルを使用してクエリのテキスト構成要素からクエリ特徴のセットを生成することと、複数のクエリ特徴に基づいてトレーニング特徴のセットを生成することと、トレーニング特徴、及び、予め定義された特徴抽出モデルを使用してソース文書の少なくとも一部分から取得された文書特徴のセットを用いて、トレーニング可能な分類器をトレーニングすることと、予め定義された選択方式に従って分類のために複数のソース文書を選択することと、選択された文書の特徴を取得することと、トレーニングされた分類器によって、選択された文書の特徴を使用することによって選択されたソース文書を関連度の異なるクラスに分類することであって、関連度の少なくとも１つの値が各選択された文書に関連する、分類することと、関連度の少なくとも１つの関連する値に基づいて順序付きリスト中で分類された文書をランク付けすることと、ランク付けされた文書の識別子の順序付きリストをコンピュータ可読メモリに記憶することとを含む。

本開示の別の態様は、文書データベースにおいてセマンティック検索を実行するための処理システムを対象とし、本システムは、テキスト含有クエリを受信し、テキスト含有クエリからテキスト構成要素を生成するように構成されたクエリ・インターフェースと、クエリのテキスト構成要素からクエリ特徴のセットを生成するように構成されたトークナイザ構成要素と、意味的に関連のある文書の識別子の順序付きリストを生成するように構成された検索エンジン構成要素であって、検索エンジンが、クエリのテキスト構成要素に対して選択された文書のセットの関連度を評価するように構成された分類器構成要素、及び分類された文書の関連度に基づいて分類された文書の識別子の順序付きリストを生成するように構成されたランク付け構成要素を含む、検索エンジン構成要素と、関連のある文書の識別子の順序付きリストを記憶するためのコンピュータ可読メモリとを含む少なくとも１つのプロセッサ・デバイスを含む。

本開示の別の態様は、上記の２つの態様に関係する特徴を有する、コンピュータ可読媒体、特に非一時的媒体を対象とする。

本開示の別の態様は、１つ又は複数のプロセッサ・デバイスと、１つ又は複数のプロセッサ・デバイスによって実行されたとき、１つ又は複数のプロセッサ・デバイスに本開示の第１の態様による方法のステップを実行させるように動作可能である命令を記憶する１つ又は複数の記憶デバイスとを含むシステムを対象とする。

他の開示される実施例によれば、コンピュータ可読記憶媒体、特に非一時的コンピュータ可読記憶媒体は、少なくとも１つのプロセッサ・デバイスによって実行されたとき、本明細書で説明される方法のいずれかを実行するプログラム命令を記憶し得る。

上記の一般的な説明及び以下の詳細な説明は、例示的で説明的なものにすぎず、特許請求の範囲を限定するものではない。

添付の図面は、いくつかの実施例を示し、説明と一緒に、開示された原理を説明するのに役立つ。

本開示による処理システムによって実行されるべきセマンティック検索のためのデータベースを構築するように構成された前処理システムの構成要素を示す概略ブロック図である。本開示による処理システムの基本構成要素を示す概略ブロック図である。本開示による処理システムの基本構成要素及び様々な随意の構成要素を示す概略ブロック図である。本開示によるテキスト文書のデータベースにおけるセマンティック検索を実行するコンピュータ実装方法の主要なステップを示すフロー・チャートである。本開示による方法の随意のステップを示すフロー・チャートである。本開示による方法の随意のステップを示すフロー・チャートである。本開示による方法の随意のステップを示すフロー・チャートである。本開示による方法の随意のステップを示すフロー・チャートである。本開示による検索方法の実施例のステップを示すフロー・チャートである。本開示による検索方法の別の実施例のステップを示すフロー・チャートである。本開示による検索方法の別の実施例のステップを示すフロー・チャートである。

本開示の以下の詳細な説明では添付の図面を参照する。詳細な説明は本発明を限定しない。代わりに、本発明の範囲は添付の特許請求の範囲及び等価物によって定義される。

本明細書で説明するように、トークナイザ構成要素がクエリ・テキストから意味的な固有特徴（ｃｈａｒａｃｔｅｒｉｓｔｉｃｆｅａｔｕｒｅｓ）を抽出し、関連のある文書のセットがクエリ・テキストの固有特徴を使用して選択され、次いでソース文書の選択されたセットをそれらの関連度に関して評価するためにトレーニング可能な分類器構成要素が使用され、評価された文書がそれらの関連度によってリスト中で順序付けされる。

本明細書で使用する際、「固有特徴」という用語は、テキストの意味内容を表す人為的バイナリ・コードのセットを意味し、前記コードは、テキストのバイナリ表現に適切な変換操作を適用することによって与えられる。テキストのバイナリ表現から固有特徴への変換は、後でより詳細に説明するように、様々なモデル化技法に従って実行され得る。

さらに、「コンテンツ特徴」、「クエリ特徴」及び「トレーニング特徴」という用語は特定の種類の固有特徴として使用される。特に、コンテンツ特徴は、ソース文書のコンテンツを表すために使用され、クエリ特徴は、クエリ・テキストのコンテンツを表すために使用され、トレーニング特徴は、いくつかの実施例による方法の分類ステップにおいて使用するための、クエリ特徴から導出される固有特徴である。

上述の固有特徴の使用により、ソース文書及びクエリ・テキストが従来のソリューションに対してはるかによりコンパクトな形態で表され得、その結果、検索エンジンのメモリ要件及びストレージ要件がかなり低減される。

検索データベースを構築するための前処理システム
図１Ａは、本開示による処理システムによって実行されるべきセマンティック検索のためのデータベースを構築するように構成された前処理システムの構成要素を示す概略ブロック図であり、基本構成要素は実線矢印によってリンクされ、随意の構成要素は破線矢印によってリンクされている。

図１Ａに示されている前処理システムは、ソース文書データベース１１０から紙文書と電子文書の両方を受信するように構成され得るフォーマット変換器構成要素１１１を含み、予め定義されたデジタル形式、たとえば、プレーン・テキスト・フォーマットでテキスト文書を生成するためにソース文書を処理するように構成され得る。これらのテキスト文書を本明細書ではフォーマット済みテキスト文書と呼ぶ。フォーマット変換器構成要素１１１は、紙文書をデジタル化するための光スキャナ、走査された文書から予め定義されたテキスト・フォーマットの電子文書を生成するための光学式文字認識（ＯＣＲ）などのテキスト認識プログラム、音声ファイルから予め定義されたテキスト・フォーマットの電子文書を生成するための音声テキスト認識アプリケーション、及び／又は任意のタイプの紙又は電子ソース文書からフォーマット済みテキスト文書を生成するために使用され得る他の適切なハードウェア及びソフトウェア・ツールを含み得る。

本開示のコンテキスト内で、電子文書は、たとえば、編集可能な又は編集不可能なテキスト・ファイル、テキスト・コンテンツをもつ画像ファイル、表示されたテキスト・コンテンツ若しくは音声テキスト・コンテンツをもつビデオ・ファイル、及び／又は可聴テキスト・コンテンツをもつ音声ファイルなど、任意の種類のテキスト含有メディア・ファイルを含み得る。紙文書は、たとえば、テキスト情報を含有する任意の種類の印刷された又は手書き文書を含み得る。

フォーマット変換器構成要素１１１によって生成されたフォーマット済みテキスト文書は、後で使用するために文書ストア１２６に記憶され得る。好ましい実施例では、メタデータ、たとえば、元のファイル名、作成日、著者に関する情報、物理的又はアクセス場所、ページ番号、文書タイトルなどが、関連するフォーマット済みテキスト文書のためのソース文書の少なくともサブセットから生成及び／又は取得され得る。これらのメタデータはメタデータ・ストア１２８に記憶され得る。

文書ストア１２６はまた、フォーマット済みテキスト文書を記憶するように構成され得る。フォーマット済みテキスト文書を記憶することは、たとえば、前に適用された技法とは異なる技法を使用することによって、そこから固有特徴の新しいセットを生成するために、これらの文書が再び処理され得るという利点を有し得る。バッグオブワード（ｂａｇ−ｏｆ−ｗｏｒｄｓ）・モデルでは、固有特徴は、分析されるテキストにおける特定のワードの発生の可能性として定義され得、ｎグラム・モデル又はｋスキップｎグラム・モデルでは、固有特徴は、分析されるテキストにおける「ｎ」個のワードから構成されるワードの様々なセットの発生の可能性として定義され得、「ｎ」の値は、２、３又はさらにはより高くなり得、ベクトル空間モデルでは、固有特徴は、分析されるテキストのワード又はより長いパートに割り当てられる重みの１つ又は複数のベクトルから導出されるコードとして定義され得る。

予め定義された形態でフォーマット変換器構成要素１１１によって生成されたフォーマット済みテキスト文書は、フォーマット変換器構成要素１１１によって与えられたデジタル化されたテキスト文書の各々から固有特徴のセットを生成するように構成されたトークナイザ１１２に転送される。いくつかの実施例では、トークナイザ１１２はまた、後で説明するように、検索プロセス中にクエリの検索テキストから固有特徴のセットを生成するように構成され得る。トークナイザ１１２はまた、フォーマット済みテキスト文書を、ブロックに、たとえば、センテンス、パラグラフ、セクション及び／又は他のユニットに区分するために、及び文書ストア１２６中の個々のテキスト・ブロックのための区分情報を記憶するために使用され得る。

前処理システムの好ましい実施例によれば、デジタル化されたテキスト文書の固有特徴は、トークナイザ１１２から、インデックス・データベース１４６とともに動作関係にあるように構成されたインデックス・ビルダー構成要素１１３に転送され得る。インデックス・データベース１４６は、好ましくは２つのボリューム、特に順方向インデックス・データベース１４７と逆方向インデックス・データベース１４８とを含む。他の実施例では、インデックス・データベース１４６は単一のボリューム又は複数のボリュームを含み得る。順方向インデックス・データベース１４７はコンテンツ特徴の複数のリストを含有し得、各特徴リストは特定の文書又は特定の文書パート（たとえば、テキスト・ブロック）に属する。逆方向インデックス・データベース１４８は文書又は文書パート（たとえば、テキスト・ブロック）の識別子の複数のリストを含有し得、各文書リスト又はブロック・リストは、Ｆｅａｒｕｒｅ＿ＩＤによって識別される特定のコンテンツ特徴に属する。インデックス・データベースにおいて、文書の各々は一意の識別子Ｄｏｃ＿ＩＤによって識別され得、（利用可能なとき）テキスト・ブロックの各々は一意の識別子Ｂｌｏｃｋ＿ＩＤによって識別され得、コンテンツ特徴の各々は一意の識別子Ｆｅａｔｕｒｅ＿ＩＤによって識別され得る。これらのデータベースの使用及び利益について以下で詳細に説明する。

インデックス・データベース１４６は、たとえばセマンティック検索を実行する処理システムの動作を開始する前に、インデックス・ビルダー構成要素１１３によって検索より前に生成され得る。データベース生成フェーズにおいて、インデックス・ビルダー構成要素１１３は、文書のコンテンツ特徴を処理し、適切な特徴リスト、文書リスト及び／又はブロック・リストを生成し、それらのすべてはインデックス・データベース１４６のそれぞれのボリュームに記憶される。いくつかの実施例では、データベース生成フェーズにおいて、インデックス・ビルダー構成要素１１３は文書の識別されたブロックを処理し得る。

インデックス・データベース１４６の使用は、それが検索プロセスの速度を著しく高め得るので有益である。インデックス・データベースの使用により、各検索クエリの作動におけるソース文書の反復される前処理が回避され得、実質的なコンピューティング電力が節約され得る。

セマンティック検索を実行する処理システム
図１Ｂは、本開示によるソース文書におけるセマンティック検索を実行するために使用される処理システムの基本構成要素の概略ブロック図を示す。処理システムは通信ネットワークに一体化され得、それによって、処理システムの検索機能は他の処理システム又デバイスからアクセスされ得る。通信ネットワークは、コンピュータ、ラップトップ、タブレット、スマートフォン、ＰＤＡなど、プロセッサ・デバイス上で動作するアプリケーション・プログラムと対話する、インターネット、企業イントラネット、又は任意の他の適切な通信ネットワークであり得る。

処理システムは、（クエリ・テキストとも呼ばれる）検索テキストとして可変長のテキストを受信し、そのテキストを上述のトークナイザ１１２に転送するように構成されたクエリ・インターフェース１１７を含む。クエリ・インターフェース１１７は、ユーザ・インターフェース１３１を介して直接ユーザから、又は、アプリケーション・プログラミング・インターフェース（ＡＰＩ：ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）１３２を介して取出しコンピュータ・プログラムからのいずれかで、照会エンティティから検索テキストを受信する。ユーザ・インターフェース１３１は、ユーザが少なくともテキスト・フォーマットにおける検索クエリを入力することを可能にするように構成され得、ユーザ・インターフェース１３１はさらに、検索ツールの使用を促進するため、検索結果の提示をより効果的に行うため、ユーザ・インターフェースのカスタマイズを可能にするためなどの他の随意の機能を提供するように構成され得る。好ましい実施例では、ユーザ・インターフェース１３１は、ユーザがテキスト含有メディア・ファイル、たとえば、テキスト含有音声ファイル、画像ファイル、及び／又はビデオ・ファイルを指定することを可能にするように構成され得、そこからクエリ・テキストが、前処理フェーズにおいて行われるのと同様に抽出され得る。

クエリ・インターフェース１１７によって直接受信された、又は入力テキスト含有メディア・ファイルから生成されたクエリ・テキストは、ソース文書・データベース１１０を使用してクエリ・テキストから固有特徴のセットを生成するトークナイザ１１２に転送される。いくつかの実施例では、固有特徴のセットは、前処理フェーズにおいて構築されたイデックス・データベース１４６を使用してクエリ・テキストから生成され得る。

クエリ・テキストから取得された固有特徴（すなわち、クエリ特徴）は、次いで検索エンジン１１５に転送される。検索エンジン１１５は、検索語に関して複数の選択された文書の関連度を評価するための分類器構成要素１５１と、（たとえば、分類器構成要素によって生成される関連度のスコアを使用することによって）選択された文書をそれらの関連度によってランク付けするために使用されるランク付け構成要素１５２とを含み得る。いくつかの実施例では、検索エンジン１１５はインデックス・データベース１４６に結合され得、そこから検索エンジン１１５は、分類プロセスのために少なくとも文書識別子及びコンテンツ特徴を取り出す。

このコンテキストにおける「関連度」は、限定はしないが、コンテンツ類似性、又は、クエリ・テキストのコンテンツと戻された文書のコンテンツとの間の他の種類の密なセマンティック関係を含むファクタに基づいて定義され得る。

図１Ｃに示されているように、いくつかの実施例では、検索エンジン１１５は、分類された文書のメタデータが、文書のランク付け品質を改善するために、又は戻された文書についてのユーザ可読情報（たとえば、電子文書のＵＲＬ、紙文書の出版社、文書タイトルなど）をもつ文書結果リストを生成するために使用されるように意図されているとき、メタデータ・ストア１２８に結合され得る。

検索エンジン１１５はまた、図１Ｃに示されているように、トークナイザ１１２によって与えられる固有特徴を使用して固有特徴の拡張セットを生成する特徴エクステンダ構成要素１１４から追加の固有特徴を受信し得る。いくつかの実施例では、特徴エクステンダ構成要素１１４はインデックス・データベース１４６に結合され得る。

検索エンジン１１５は文書識別子の順序付きリストを出力する。いくつかの実施例では、検索エンジン１１５は、関連のある文書の組み込み文書の識別を含む、関連のある文書のブロック識別子の順序付きリストを出力し得る。戻された結果リストは、次いで、図１Ｂ及び図１Ｃに示されているように、メモリ１６０に記憶される。結果リストはまた結果リスト・コンポーザ１７０に転送され得、結果リスト・コンポーザ１７０は、文書識別子及び／又はブロック識別子、並びにランク付けされた文書のためにメタデータ・ストアに記憶されたメタデータを使用して、戻された関連のある文書又は文書パートの上述の処理されたユーザ可読リスト（たとえば、書誌データ、ＵＲＬなど）を生成し、それによってユーザ又は照会するコンピュータ・プログラムが、オンデマンドで、ランク付けされた文書のいずれか１つにアクセスすること又はそれをダウンロードすることが可能になる。この処理された文書のリストは、次いで、図１Ｃに示されているように、クエリ・インターフェース１１７に転送され得、クエリ・インターフェースは、処理されたリストを、ユーザ・インターフェース１３１を介して照会するユーザに、又はＡＰＩ１３２を介して照会するコンピュータ・プログラムに出力し得る。ユーザ・インターフェース１３１はまた、処理されたリストをディスプレイ・デバイス上でユーザに表示し得る。

本開示による処理システムについて、プロセッサ、データベース又はメモリなどのいくつかのハードウェア構成要素、及び、検索エンジン、インターフェース構成要素などのいくつかのソフトウェア構成要素を含む、一体化されたコンピューティング・プラットフォームとして説明したが、当業者は、様々なハードウェア構成要素又はソフトウェア構成要素が、本開示による処理システムの上述の本質的機能のすべてを一緒に与える、２つ以上の協働する処理デバイスにおいて及び／又は２つ以上の協働するソフトウェア構成要素によって実装され得ることを認識されよう。当業者はさらに、検索ツールのより速い動作を達成するために、処理システムのハードウェア構成要素又はソフトウェア構成要素のいずれか１つが増加させられ、並列に動作させられ得ることを認識されたい。

検索プロセス
次に、いくつかの実施例によるセマンティック検索ツールの動作について、図２〜図６を参照しながら説明する。図２は、本開示によるセマンティック検索の方法の基本ステップの流れ図であり、図３〜図６は、本開示の方法の様々な随意のステップを示す流れ図である。

文書ストア及びメタデータ・ストアの構築
いくつかの実施例では、検索ツールの動作は、少なくとも、複数のフォーマット済みテキスト文書を含有する文書ストアの存在を仮定し、テキスト文書のうち、関連のある文書が検索クエリを使用して探し求められ得る。文書ストアは、ソース文書データベース、たとえば、企業文書ストア、コンテンツ固有のプライベート又はパブリック・データベース、及び／又はインターネットのような通信ネットワークを介したアクセスが制限される又は制限されない任意のタイプの文書を含有する任意の他のデータベースを使用して構築され得る。いくつかの実施例では、ソース文書データベースは、インターネットを介して自由にアクセス可能な電子文書の予め定義されたセットであり得る。

いくつかの実施例では、文書ストアを構築すること（すなわち、ソース文書を取得し、前処理し、フォーマット済みテキスト文書を文書ストアにアップロードすること）は、検索環境を確立するための別個の随意のステップであり得る。検索環境を確立する好ましい実施例のステップは図３のフロー・チャートに示されている。

図３に示されているように、第１の複数のソース文書、たとえば、印刷された及び／又は手書きの紙文書及び電子文書が、予め定義されたフォーマット（たとえば、プレーン・テキスト）のフォーマット済みテキスト文書に変換される。電子ソース文書は、編集可能な又は編集不可能なテキスト文書、画像文書、テキストと画像が組み合わせられた文書、テキストを含有する音声、画像又はビデオ・ファイルなどを含み得る。いくつかの実施例では、ステップ３０１において紙文書が光スキャナによってデジタル化され得、次いで、ステップ３０２において、走査された文書のテキスト・パートが光学式文字認識（ＯＣＲ）にかけられて、テキスト文書を生成し得る。紙文書内の画像オブジェクトは、画像として走査され得、デジタル化されたテキスト文書に画像オブジェクトとして組み込まれ得るか、又は、画像の代わりに、画像オブジェクトに対するテキスト・リファレンスが、走査された紙文書のテキスト中に挿入され得る。同様に、ステップ３０３ａにおいて、電子文書がフォーマット済みテキスト文書にデジタル的に変換され得、テキスト内の元の画像オブジェクトを保持するか、又は元の画像オブジェクトの代わりにテキスト・リファレンスをテキスト中に挿入するかのいずれかのオプションを伴う。テキスト含有メディア・ファイルがクエリとして入力された場合、ステップ３０３ｂにおいて、メディア・ファイルのテキスト構成要素が抽出され、予め定義されたフォーマットのテキスト文書に変換され得る。

フォーマット済みテキスト文書は、次いで、ステップ３０４において、一意の文書識別子Ｄｏｃ＿ＩＤとともに文書ストアに記憶され得る。ステップ３０８において、フォーマット済みテキスト文書がトークナイザによってテキスト・ブロックに区分された場合、フォーマット済みテキスト文書の個々のテキスト・ブロックの各々が、一意のブロック識別子Ｂｌｏｃｋ＿ＩＤによって識別され得、ステップ３０９において、これらの識別子も、任意の他のパーティション情報とともに文書ストアに記憶され得る。パーティション情報は、ソース文書と所与の文書の識別されたテキスト・ブロックとの間の割当て関係を含み得る。いくつかの実施例では、ソース文書のブロックのすべてに一意の識別子が与えられる。他の実施例では、意味のあるセマンティック検索のための有用な情報をおそらく含有するブロックのみが一意に識別される。たとえば、いくつかの実施例では、コンテンツ・テーブル、図リスト、出版詳細などは、一意に識別される必要がない別個のテキスト・ブロックを形成し得る。

いくつかの実施例では、ステップ３０５において、ソース文書からメタデータを取得することは、前処理フェーズの随意のステップである。メタデータはソース文書から抽出され得、及び／又は、メタデータは紙ベース及び／又は電子ソース文書の物理特性又は他の特性から生成され得る。メタデータは、たとえば、元の文書名（たとえば、ファイル名）、作成又は最終変更の日付、文書の著者、文書の物理的又はＵＲＬ場所、ページ番号、元の文書／ファイルのフォーマット、文書タイトルなどを含み得る。メタデータが取得されると、メタデータは、メタデータ・ストアにアップロードされ、結果リストを作成するために、及び検索エンジンによって実行されるランク付けアルゴリズムを微調整するために使用され得る。

メタデータ・ストアは文書ストアの生成とともに構築され得る。ソース文書のメタデータは、ステップ３０６において、パラメータＤｏｃ＿ＩＤによって識別される関連するフォーマット済みテキスト文書に対するリファレンスとともに、メタデータ・ストアに記憶され得る。

上述のように、好ましい実施例では、ステップ３０７において、ソース文書が文書ストアにデジタル形式で記憶され得る。

ソース文書からの固有特徴の抽出
セマンティック検索は、（前処理フェーズでは）ソース文書から獲得された特定のセマンティック情報の使用に基づき、（検索フェーズでは）検索クエリのテキストに基づき得る。セマンティック情報は固有特徴のセットによって表され得る。ソース文書又は文書パートの固有特徴はコンテンツ特徴と呼ばれ、検索クエリ・テキストの固有特徴はクエリ特徴と呼ばれる。

固有特徴は、トークナイザによって、フォーマット済みテキスト文書（コンテンツ特徴を参照のこと）及びテキスト・クエリ（クエリ特徴を参照のこと）から生成され得る。

最初に、図２のフロー・チャートに示されているように、ステップ２００において、フォーマット済みテキスト文書がトークナイザによって読み取られる。次いで、ステップ２０２において、これらの文書のコンテンツ特徴がトークナイザによって生成される。検索方法の好ましい実施例では、ステップ２０４において、生成されたコンテンツ特徴がインデックス構築構成要素によって処理され、インデックス構築構成要素が上述の文書特徴リスト、ブロック特徴リスト、及び／又はブロック・リストを生成する。これらのリストは、次いでステップ２０６において、インデックス・データベースに記憶され得る。上記のステップ２００〜２０６は前処理フェーズ内で実行される。

ソース文書の固有特徴（すなわち、コンテンツ特徴）は、処理アルゴリズムによって関連するフォーマット済みテキスト文書の分析済みテキストから取得され、バイナリ・ベクトル又はバイナリ行列（２次元又はそれ以上の行列）としてバイナリ形式で表される。コンテンツ特徴は、たとえば、テキスト文書のよく知られているセマンティック・モデル化技法である、バッグオブワード・モデル、ｎグラム・モデル、ｋスキップｎグラム・モデル又はベクトル空間モデルに従って表され得る。

たとえば、バッグオブワード・モデルでは、固有特徴は、分析済みテキスト中の特定のワードの発生の可能性として定義され、ｎグラム・モデル又はｋスキップｎグラム・モデルでは、固有特徴は、分析済みテキスト中の「ｎ」個のワードから構成されるワードの様々なセットの発生の可能性として定義され、「ｎ」の値は２、３又はさらにはより高くなり得、ベクトル空間モデルでは、固有特徴は、分析済みテキストのワード又はより長いパートに割り当てられる重みの１つ又は複数のベクトルから導出されるコードとして定義される。

コンテンツ特徴の数の制限が考慮事項であるとき、テキストの固有特徴の数を低減するための様々な知られている技法が使用され得る。これらの制限技法は、とりわけ、ストップ・ワード・フィルタリング方法、関連のない固有特徴をなくす、単語頻度−逆文書頻度（ｔｆ−ｉｄｆ：ｔｅｒｍｆｒｅｑｕｅｎｃｙ−ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）方法、又は所与のテキストのために生成される固有特徴のリスト全体から関連度のより高い固有特徴を選択するために使用され得る、カイ２乗方法を含む。

インデックス・データベースの構築
トークナイザが、フォーマット済みテキスト文書を読み取り、関連するソース文書のためのコンテンツ特徴を生成すると、ステップ２０４において、特定の文書に関連するコンテンツ特徴（いわゆる文書特徴）のリストが、上述のように、これらの特徴を処理して様々なリストにするインデックス・ビルダー構成要素に転送され得る。インデックス・ビルダー構成要素は、ステップ２０６において、文書特徴リストをインデックス・データベースに、特にそれの順方向インデックス・データベースに記憶し得る。いくつかの実施例では、フォーマット済みテキスト文書がトークナイザによってブロックに区分されると、インデックス・ビルダー構成要素はまた、ステップ２０６において、インデックス・データベースの順方向インデックス・データベース中の識別されたブロック（いわゆるブロック特徴）の各々について、ブロック特徴リストとも呼ばれる、コンテンツ特徴のリストを記憶し得る。

ステップ２０４において、インデックス・ビルダー構成要素はまた、順方向インデックス・データベースに記憶された文書特徴リストから逆方向インデックス・データベースを生成し得る。逆方向インデックス・データベースは複数の文書リストを含み得、文書リストの各要素は、特定の文書特徴に関連する文書の識別子を含有する。逆文書リストは、ステップ２０６において、インデックス・ビルダー構成要素によってインデックス・データベースの逆方向インデックス・データベースに記憶され得る。

インデックス・ビルダー構成要素はさらに、複数のブロック・リストを生成し得、このリストの各要素は、特定のブロック特徴に関連する（前に識別された）ブロックの識別子を含有する。ブロック・リストはまた、利用可能なとき、ステップ２０６において、インデックス・ビルダー構成要素によってインデックス・データベースの逆方向インデックス・データベースに記憶され得る。

いくつかの実施例では、インデックス構築の上記のステップは省略され得る。しかしながら、インデックス・データベースを構築することは、特に大規模な文書データベースにおけるセマンティック検索において、検索プロセスの速度を著しく高め得る。インデックス構築ステップがなく、したがってインデックス・データベースを使用しない場合、検索プロセスは依然として実行され得るが、検索方法によっては、分類されるべき文書のセットを決定するために必要である文書特徴を取得するために、各検索におけるソース・データベース全体の単一の読取り又は反復読取りが必要になる。

クエリ・テキストからの固有特徴の抽出
クエリ・テキストの固有特徴（すなわち、クエリ特徴）は、ソース文書のコンテンツ特徴に関して上述したのと同様の方法でクエリ・テキストから獲得される。クエリ特徴は、たとえば、テキストのよく知られているセマンティックモデル化技法である、バッグオブワード・モデル、ｎグラム・モデル、又はベクトル空間モデルに従って表され得る。いくつかの実施例では、固有特徴の意味表現が、簡単なクエリ・ワードのために使用され得る。いくつかの実施例では、固有特徴の意味表現が、より長いクエリ・テキストにおいて有益であり得る。

いくつかの実施例では、検索クエリの上述のバイナリ固有特徴の数及びサイズを妥当な範囲内に保つために、検索クエリのテキストの許容される長さが所定のサイズに限定され得る。

順方向インデックス・データベース、逆方向インデックス・データベース、及び／又はメタデータ・ストアを含む、文書ストア及びインデックス・データベースがソース文書に基づいて構築されると、検索ツールは入力テキスト・クエリを使用してセマンティック検索を実行し得る。検索フェーズのステップは図２にも示されている。

ステップ２１０において、ユーザにプロンプトした後に、又は取出しコンピュータ・プログラムが、ソース文書の間でセマンティック検索が必要とされるテキスト又はテキスト含有メディア・ファイルを与えた後に、クエリ・テキストは、クエリ入力のタイプに応じてクエリ・インターフェースによって読み取られるか又は生成され、トークナイザに転送され、トークナイザは、ステップ２１２において、クエリ・テキストのための固有特徴のセット、すなわちクエリ特徴を生成する。

一実施例では、クエリ・テキストは、個々のワード（たとえば、「モバイル」、「フォン」、「価格」）又は特定のメタデータ（たとえば、「ＪａｓｏｎＳｍｉｔｈ」、「ＯｘｆｏｒｄＰｒｅｓｓ」）を含み、ワードは全文検索のために使用される。いくつかの実施例では、ソース文書の事前に割り当てられた属性に基づいて文書を検索するためにメタデータが使用される。クエリ・ワードは、文書のメタデータから取得され得、統計ベースで生成され得るか、又は任意の知られているテキスト分析技法によってソース文書のコンテンツから抽出され得る。いくつかの実施例では、クエリ・ワードは、検索クエリにおいて指定され、ユーザによって定義され得る。

クエリ・テキストはまた、入力されたワードが特定のコンテキストにおいて互いにセマンティック関係にあるとき（たとえば、「ＸＹオペレーティング・システムのためのモバイル・フォン・アプリケーション」）、クエリ・フレーズと呼ばれる、ワードのコヒーレント・セットの形態で表され得る。

一実施例では、クエリ・テキストは、利用可能な文書のテキスト・パートであり得、予め定義されたテキスト・フォーマットにおける（たとえば、プレーン・テキスト・フォーマットにおける）文書からコピーされ、次いでユーザ・インターフェースのクエリウィンドウ中にペーストされ得る。

いくつかの実施例では、クエリ入力は、表示された又は可聴のテキスト情報を含有する完全なメディア・ファイル又はメディア・ファイルの一部であり得る。

いくつかの実施例では、意味のあるテキストは、同様のコンテンツをもつ他の文書がソース文書データベース中で探し求められる、オーディオ、画像又はビデオ・ファイル内の文書又は認識可能なテキスト情報のあるパート（たとえば、１つ又は複数のパラグラフ）である。意味のあるテキストは、ユーザ・インターフェースを介してユーザによって一意に入力される実質的にコヒーレントなテキストでもあり得る。

分類器をトレーニングするためのトレーニング特徴の生成
クエリ特徴がトークナイザによって生成された後、クエリ特徴は検索エンジンに転送される。分類器構成要素は、最初に、ステップ２２０において、クエリ特徴セットを使用してトレーニング特徴を生成することによって、トレーニング特徴のセットを用いたトレーニングのために準備される。トレーニング特徴のセットは、以下で説明するように、様々な方式に従って検索エンジンによって生成され得る。

第１の例示的な方式では、トレーニング特徴のセットは、クエリ特徴の前に取得されたセットと同等になるように定義される。

フォーマット済みテキスト文書をブロックに区分する先行するプロセスを仮定する、別の例示的な方式では、たとえば、検索のためにいくつかのワード又は短いクエリ・フレーズのみを指定するとき、クエリ特徴の数がかなり少なくなるクエリのために、クエリ特徴の数は増加させられるべきである。この例示的な方式は、図４に示されているように、検索エンジンによって実行される以下のステップ、すなわち、ステップ４０２において、クエリ特徴のうちの少なくとも１つに関連するすべてのブロックの識別子Ｂｌｏｃｋ＿ＩＤを取得するステップと、ステップ４０６において、選択されたブロックの各々に関連する特徴を取得するステップとを含み得る。

検索ツールが、検索をより速くするために、順方向インデックス・データベースと逆方向インデックス・データベースとを有するインデックス・データベースを使用すると、上記のステップ４０２において、ブロック識別子が逆方向インデックス・データベースから取り出され得、上記のステップ４０６において、ブロック特徴が順方向インデックス・データベースから取り出され得る。しかしながら、インデックス・データベースがない場合、必要とされるブロック識別子及びブロック特徴は、検索中に文書データベース全体を読み取り、処理することによって取得され得る。

選択されたブロックに関連する特徴の得られたセットは、その場合、トレーニング特徴のセットであるように定義され得る。いくつかの実施例では、トレーニング特徴の拡張セットはまたクエリ特徴を含み、それによって既存のクエリ特徴に特徴（すなわち、さらなるパラグラフ特徴）を追加し得、追加の特徴は既存のクエリ特徴と密なセマンティック関係であり得る。

いくつかの実施例では、順方向又は逆方向インデックス・データベースからの取出しによって戻されたリストは、複数のリストが１つ又は複数の共通の要素とともに戻される場合でも、単一のインスタンスにおける任意の識別子又は特徴を含み得る。

分類器のトレーニング
検索エンジンの分類器構成要素は、ステップ２３０において、トレーニング特徴のセットを使用して、あらゆるクエリにおいてトレーニングされ得る。分類器構成要素は、その特徴が文書をランク付けする際に分類器構成要素に提示される、ソース文書の関連度に対応する少なくとも１つの出力クラスを有する。１出力クラスの場合、いわゆる１クラス分類又は単項分類が分類器構成要素によって実行され、トレーニング特徴のみが、分類器構成要素をトレーニングするために使用される。一般に、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）又はニューラル・ネットワークが、分類器を実装するために使用され得る。好ましい実施例では、分類器構成要素はちょうど２つのクラスを有し、第１のクラスは関連のある特徴（すなわちトレーニング特徴）に対応し、第２のクラスは関連のない特徴（トレーニング特徴とは異なる特徴のいずれか又はすべて）に対応する。適切なアルゴリズムは、一般に、文書の関連度を決定するための、デシジョン・ツリー、ランダム・フォレスト、ナイーブ・ベイズ、ニューラル・ネットワーク、ＳＶＭなど、一般的なバイナリ分類器を含む。文書の関連度値は、第１のクラスに関連する値として定義され得る。他の実施例では、分類器構成要素は３つ以上のクラスを有する。トレーニング・プロシージャについて、分類器構成要素が関連度の２つのクラス、すなわち第１のクラスと第２のクラスとを有すると仮定して、以下で説明する。しかしながら、当業者は、他の分類器のトレーニングを実行するために、これらの技法を推定することができる。

いくつかの実施例では、トレーニング・プロシージャは２つのフェーズを含む。第１のフェーズでは、分類器構成要素は、関連のある特徴を学習するようにトレーニングされ得る。前にクエリ特徴から生成されたトレーニング特徴のセットは、トレーニング特徴が属する第１のクラスを指定する分類器構成要素に提示され得る。

第２のフェーズでは、分類器構成要素は、関連のない特徴が属する第２のクラスを指定する分類器構成要素に複数の文書特徴を提示することによって、関連のない特徴を学習するようにトレーニングされ得る。文書特徴の提示されたセットは、インデックス・データベースに記憶されたすべての異なる文書特徴を含み得るか、又は文書特徴のセットは、インデックス・データベースに記憶された文書特徴の予め定義されたサブセットのみを含み得る。たとえば、トレーニングの第２のフェーズにおいて使用される文書特徴のセットは、トレーニングの第１のフェーズにおいて使用されるトレーニング特徴のセットの文書特徴を除いて、インデックス・データベースのすべての文書特徴を含み得る。

分類器構成要素をトレーニングする上述の２つのフェーズは、検索エンジンによって使用される分類器のタイプに応じて、任意の順序で、又はさらには並行して実行され得る。

分類のための文書の選択
分類器構成要素が、クエリ特徴と、インデックス・データベースから選択される文書特徴のセットとに基づいて生成されるトレーニング特徴でトレーニングされると、検索エンジンは文書ストア中の任意の数の文書を分類することができる。分類のために、ステップ２４０において、文書ストアからフォーマット済みテキスト文書のセットが選択される。分類プロセスにおいて、分類器構成要素は、選択された文書の文書特徴を評価して、関連度の各クラスへのそれらの帰属に関して、選択された各文書についての関連度値を生成する。分類されるべき文書のセットは様々な方法で選択され得る。

第１の例示的な手法では、ソース文書のすべてが分類される。すべてのソース文書の分類は、何百万もの文書をもつ大規模な文書ストアにおいて過度に時間がかかり得る。しかしながら、ソース文書のすべての分類の結果、最も正確な検索が得られるであろう。

別の例示的な手法では、ソース文書の縮小セットが分類され、より速い分類が可能になる。文書は様々な方式によって分類のために選択され得、それらの方式の中から、２つの方式を例として以下で紹介する。

選択方式の一実施例では、トレーニング特徴のうちの少なくとも１つを含有する文書が選択される。好ましい実施例では、選択された文書は、最も可能性のあるトレーニング特徴を含有する。トレーニング特徴は、ｉ）クエリ特徴自体（たとえば、分類器構成要素をトレーニングするために相当数の特徴が取得され得るとき）、及び／又はｉｉ）クエリ特徴の拡張セット（たとえば、分類器構成要素をトレーニングするためにクエリ・テキストから取得される特徴が十分にないとき）を含み得る。選択された文書が互いに密なセマンティック関係にある、選択方式のこの実施例は、ステップ５０２において、クエリ特徴のうちの少なくとも１つに関連する文書の識別子Ｄｏｃ＿ＩＤを取得することを含む。

検索方法の好ましい実施例では、上記のステップ５０２において、最も可能性のあるクエリ特徴に個別に関連する文書のみの識別子が取得される。代替的に、クエリ特徴のすべてに関連する文書も選択され得るが、この手法は、ソース文書のかなり限定されたセットをもたらし、それによって検索の速度を高めるが、検索正確さを低下させ得る。

検索ツールが、検索をより速くするために、順方向インデックス・データベースと逆方向インデックス・データベースとを有するインデックス・データベースを使用すると、上記のステップ５０２において、文書識別子が逆方向インデックス・データベースから取り出され得る。しかしながら、インデックス・データベースがない場合、必要とされる文書識別子は、検索中にソース文書データベース全体を読み取り、処理することによってのみ取得され得る。

選択方式の別の実施例では、分類のために選択される文書は、少なくとも１つの特徴、ただし好ましくは、クエリ特徴の拡張セットの最も可能性のある特徴を含有する。選択方式のこの実施例は、文書の、上記で説明した選択方法よりも大きいセットを生成し、それによって、選択された文書は意味的により広いドメインをカバーする。第２の選択方式の以下のステップは、図６に示されているように、ステップ６０２において、検索エンジンが、クエリ特徴の拡張セットの特徴のうちの少なくとも１つに関連する文書の識別子Ｄｏｃ＿ＩＤを取得することによって実行され得る。

検索ツールが、検索をより速くするために順方向インデックス・データベースと逆方向インデックス・データベースとを有するインデックス・データベースを使用すると、それぞれ、上記のステップ６０２及び６１０において、文書識別子及びブロック識別子が逆方向インデックス・データベースから取り出され得、上記のステップ６０６において、ブロック特徴が順方向インデックス・データベースから取り出され得る。しかしながら、インデックス・データベースがない場合、必要とされる識別子及び特徴は、検索中にソース文書データベース全体を読み取り、処理することによってのみ取得され得る。

上述のように、分類の以下のステップでは、すべての文書、又は好ましくは、低減された数の文書のみが関連度評価のために選択される。

文書の分類
文書を分類するとき、所与の文書をそれの関連度に関して評価するために、各前に選択された文書の文書特徴のすべてが分類器構成要素に提示される。この目的のために、選択された文書の文書特徴は、ソース文書データベースからの文書のすべてを読み取ることによって取得され得るか、又は好ましくは、ステップ２４５において、ソース文書の文書特徴が順方向インデックス・データベースから取り出され得る。次いで、ステップ２５０において、このようにして得られた文書特徴は、文書を評価するために、前にトレーニングされた分類器構成要素に提示される。

分類の結果として、分類器構成要素は、各分類された文書についての１つ又は複数の関連度値、たとえばスコア、確率、論理値などを出力し、特定の文書に割り当てられた少なくとも１つの関連度値は、関連度の異なるクラスへの文書の帰属の範囲を表す。たとえば、分類器構成要素において関連度の２つのクラスが定義されるとき（すなわち、意味的に関連のある文書のためには第１のクラス、及び意味的に関連のない文書のためには第２のクラス）、文書は特定の範囲まで両方のクラスに分類される。それは、特定の文書について、第１のクラスの関連度値が、第２のクラスの関連度値よりも高い関連度として定義されるときは、所与の文書は、クエリ・テキストに対して関連があると見なされ、そうでない場合は、関連がないと見なされることを意味する。分類器構成要素によって生成される関連度値は、整数、浮動小数点値（たとえば、スコア値）、論理値（たとえば、真及び偽）、又はそれのベクトル若しくは行列の形態で表され得、関連度値のタイプ及び範囲は、検索エンジンにおいて使用される分類器のタイプに依存する。

分類器構成要素内で、とりわけ、以下のタイプのトレーニング可能な分類器、すなわち、単純ベイズ分類器、サポート・ベクター・マシン（ＳＶＭ）分類器、多項ロジスティック回帰分類器、隠れマルコフ・モデル分類器、ニューラル・ネットワーク分類器、ｋ最近傍法分類器などが使用され得る。

固有特徴によるソース文書及びクエリ・テキストの表現（すなわち、それぞれコンテンツ特徴及びクエリ特徴）は、従来のセマンティック検索エンジンにおいて行われていたように、選択された文書の全文をワードベースで分析する必要がなく、文書の固有特徴のみがコンテンツ分析のために使用されるので、選択されたソース文書の極めて効率的な分類を可能にする。いくつかの実施例では、この特性は検索をより速くし、検索のメモリ需要を著しく低減する。さらに、ソース文書は、（従来のセマンティック検索エンジンにおいて必要とされるように）分類の目的で永久的に記憶される必要がなく、したがって実質的な記憶容量も節約され得る。

分類された文書のランク付け
分類器構成要素が選択された文書の分類を完了した後、ステップ２６０において、分類された文書は、検索エンジンのランク付け構成要素を使用して関連度によって順序付けされる。文書を関連度によって順序付けするために、特定の検索ツールのタイプに応じて様々な方式が使用され得る。

１つの例示的な方式では、各クラスの関連度値が、文書がランク付けされるために考慮に入れられる。各分類された文書を用いて、関連する異なる関連度のクラスの値が、意味的に関連のある文書の順序付きリストを生成するために所定のアルゴリズムに従って重み付けされ得る。

好ましい例示的な方式では、関連度クラスのうちのただ１つに属する関連度値が、文書をランク付けするために使用される。たとえば、関連度の２つのクラスが定義されるとき、高い関連度を定義するクラスの関連度値のみがランク付け構成要素によって考慮に入れられる。

検索プロセスの最終結果は、したがって、検索クエリに対してその関連度によって順序付けされた分類されたソース文書を指定する文書識別子の順序付きリストである。このリストは、ステップ２７０においてコンピュータ可読メモリに記憶される。

関連のある文書の識別子の順序付きリストは、照会ユーザ又は照会コンピュータ・プログラムによって解釈され得るフォーマットで文書のリストを生成するために、結果リスト・コンポーザ構成要素によってさらに処理され得る。処理された文書リストは、文書識別子（又はブロック識別子）とメタデータ・ストアに記憶されたメタデータとを使用して、結果リスト・コンポーザ構成要素によって生成され得る。処理されたリストは、アクセス情報と、戻された文書又は文書パートについての他の有用な情報（たとえば、特定の書誌データ、電子文書のＵＲＬ、文書タイトルなど）とを含有し得る。この処理されたリストにより、照会ユーザ又は照会コンピュータ・プログラムは、オンデマンドで、ランク付けされた文書のうちのいずれか１つ又は複数にアクセスするか、又はそれをダウンロードし得る。文書のこの処理されたリストはクエリ・インターフェースに転送され得、クエリ・インターフェースは、ユーザ・インターフェースを介してユーザに、又はＡＰＩを介して照会コンピュータ・プログラムにリストを転送する。

いくつかの実施例では、ランク付け構成要素はまた、セマンティクスに関して関連のある文書のより正確なランク付けを行うために、利用可能なとき、文書のメタデータを使用し得る。たとえば、文書のメタデータから取得された文書の著者の名前、又は科学若しくは技術の分野は、クエリ・テキストのコンテンツに鑑みて、それらの関連度をさらに高め得る（又はさらには減少させ得る）。

検索動作の例
第１の例では、いわゆる類似検索のステップについて図７を参照しながら説明する。検索は、より長いコヒーレントなテキスト（たとえば、会議資料、書籍、公文書などの選択されたパート）に基づいて、セマンティック検索のために最適化される。

この例示的な検索の第１のステップとして、ステップ７００において、クエリ・インターフェースからクエリ・テキストが受信される。次いで、ステップ７１２において、トークナイザに組み込まれた所定の方式又はモデルによって、クエリ・テキストからクエリ特徴が生成される。クエリ特徴は、ステップ７２０において、トレーニング特徴であるように定義され、分類器構成要素は、ステップ７３０において、これらの特徴でトレーニングされる。

分類のために、クエリ特徴のうちの少なくとも１つ、しかし好ましくは、最も可能性のあるクエリ特徴を含有する文書が、分類のために選択される。最初に、ステップ７４２において、これらの文書の識別子Ｄｏｃ＿ＩＤは、たとえば、インデックス・データベースが利用可能であるとき、インデックス・データベースの逆方向インデックス・データベースから文書識別子を取り出すことによって取得される。この例では、ステップ７４２は上記の随意のステップ５０２に対応する。選択された文書の文書特徴は、ステップ７４５において、たとえば、順方向インデックス・データベースからそれらを取り出すことによって取得される。

前にトレーニングされた分類器構成要素は、ステップ７５０において、選択された文書の文書特徴を使用して、選択された文書を関連度によって分類するために使用される。分類された文書は、次いでステップ７６０において、所定のランク付けアルゴリズムを使用して、随意に、分類された文書に関連するメタデータをも考慮に入れながら、分類器構成要素によって生成された関連度値に基づいて順序付けされる。順序付けされた関連のある文書の識別子のリストは、ステップ７７０において、コンピュータ可読メモリに記憶される。

第２の例では、図８を参照しながら、いわゆるキーワード検索のステップについて説明する。この検索は、ソース文書データベースの制限された部分のみを探し求めることが意図されるとき、数の限られたキーワード、一般的にはユーザによって推測されるいくつかのワードに基づいてセマンティック検索のために最適化される。

第１のステップにおいて、ステップ８００において、クエリのキーワードがクエリ・インターフェースから受信される。次に、ステップ８１０において、クエリ特徴が特定のキーワードから生成される。得られたクエリ特徴は、（変換を使用しない）キーワード自体であり得るか、又は、クエリ特徴は、上述の所定の方式又はモデルのうちのいずれか１つを使用することによってキーワードから獲得され得る。この例では、クエリ特徴の数は分類器構成要素の適切なトレーニングのためには十分でない可能性があるので、トレーニング特徴のセットとして使用されるクエリ特徴の拡張セットを生成するために、クエリ特徴のセットの拡張が実行されるべきである。特徴拡張のステップ８１２及び８１６は、図４を参照しながら上記で説明したステップ４０２及び４０６に対応する。したがって、最初に、ステップ８１２において、クエリ特徴のうちの少なくとも１つに関連するブロックの識別子Ｂｌｏｃｋ＿ＩＤが取得され、次いで、ステップ８１６において、選択されたブロックの各々に関連するすべてのブロック特徴が取得される。選択されたブロックに関連するブロック特徴のこのセットは、クエリ特徴の拡張セットとして定義され、トレーニング特徴のセットとして使用される。

この例においても、インデックス・データベースが利用可能であるとき、ステップ８１２において、逆方向インデックス・データベースからブロック識別子を取り出すことによって、選択されたブロックのブロック識別子が取得され、ステップ８１６において、順方向インデックス・データベースからブロック特徴を取り出すことによってブロック特徴が取得される。

次いで、ステップ８３０において、分類器構成要素が拡張トレーニング特徴でトレーニングされる。

分類のために、クエリ特徴のうちの少なくとも１つ、しかし好ましくは最も可能性のあるクエリ特徴を含有する文書が、ステップ８４２において選択される。随意に、クエリ特徴の拡張セットの特徴のうちの少なくとも１つを含有する文書が選択され、その結果、ソース文書の選択ドメインが一層大きくなり得る。文書選択は、インデックス・データベースが利用可能であるとき、インデックス・データベースの逆方向インデックス・データベースから適切な文書の識別子Ｄｏｃ＿ＩＤを取り出すことによって行われ得る。次いで、ステップ８４５において、分類器をトレーニングするために、選択された文書の文書特徴が取得される。文書特徴は、たとえば、インデックス・データベースが利用可能であるとき、順方向インデックス・データベースから取り出され得る。

前にトレーニングされた分類器構成要素は、ステップ８５０において、選択された文書の文書特徴を使用して、選択された文書を関連度によって分類するために使用される。分類された文書は、次いでステップ８６０において、所定のランク付けアルゴリズムを使用して、随意に、分類された文書に関連するメタデータをも考慮に入れながら、分類器構成要素によって生成された関連度値に基づいて順序付けされる。順序付けされた関連のある文書の識別子のリストは、ステップ８７０において、コンピュータ可読メモリに記憶される。

第３の例では、図９を参照しながら、いわゆる連想検索のステップについて説明する。この検索は、ソース文書データベースのより大きい部分を探し求めることが意図される場合、有限数のキーワード、一般的にはユーザによって推測されるいくつかのワードに基づいてセマンティック検索のために最適化される。

第１のステップでは、ステップ９００において、クエリ・テキストがクエリ・インターフェースから受信される。次いでステップ９１０において、受信されたクエリ・ワードからクエリ特徴が生成される。クエリ特徴は、（変換を使用しない）入力テキストのワード自体であり得るか、又は、クエリ特徴は、上述の所定の方式又はモデルのうちのいずれか１つを使用することによってクエリ・テキストから獲得され得る。この例においても、クエリ特徴の数は分類器構成要素の適切なトレーニングのためには十分でない可能性があるので、トレーニング特徴のセットとして定義されたクエリ特徴の拡張セットを生成するために、クエリ特徴のセットの拡張が実行されるべきである。この方法のステップ９１２及びステップ９１６は、したがって、それぞれ図４を参照しながら上記で説明したステップ４０２及びステップ４０６に対応する。したがって、最初に、ステップ９１２において、たとえば、インデックス・データベースが利用可能であるとき、インデックス・データベースの逆方向インデックス・データベースからクエリ特徴のうちの少なくとも１つに関連するすべてのブロックの識別子Ｂｌｏｃｋ＿ＩＤを取り出すことによって、識別子Ｂｌｏｃｋ＿ＩＤが取得される。このようにして、選択されたブロックのリストが生成される。次に、ステップ９１６において、たとえば、インデックス・データベースが利用可能であるとき、インデックス・データベースの順方向インデックス・データベースから選択されたブロックの各々に関連するすべてのブロック特徴を取り出すことによって、ブロック特徴が取得される。選択されたブロックに関連するブロック特徴のセットは、拡張トレーニング特徴のセットとして定義され、トレーニング特徴のセットとして使用される。

次いで、ステップ９３０において、分類器構成要素が拡張トレーニング特徴でトレーニングされる。

分類のために、ソース文書のすべて又はソース文書の縮小セットのいずれかがソース文書データベースから選択される。後者の場合、図６を参照しながら上記で説明したステップ６０２に対応する、ステップ９３２において、分類されるべき文書が選択される。

文書のセットが分類のために選択されているとき、ステップ９４５において、たとえば、インデックス・データベースが利用可能であるとき、順方向インデックス・データベースから、選択された文書の文書特徴を取り出すことによって文書特徴が取得される。

分類は、ステップ９３２〜９４２において選択された文書を使用して実行される。前にトレーニングされた分類器構成要素は、ステップ９５０において、選択された文書の文書特徴を入力として使用し、選択された文書を関連度によって分類するために使用される。分類された文書は、次いでステップ９６０において、所定のランク付けアルゴリズムを使用して、随意に、分類された文書に関連するメタデータをも考慮に入れながら、分類器構成要素によって生成された関連度値に基づいて順序付けされる。順序付けされた関連のある文書の識別子のリストは、ステップ９７０において、コンピュータ可読メモリに記憶される。

本明細書で説明するシステム及び方法は、プロセッサ時間及びリソースをより効率的に使用するセマンティック検索技法を与え、照会エンティティによって検索されるテキストベースのコンテンツに対する結果セットの関連度をさらに改善する。いくつかの実施例では、セマンティック検索技法は、文書の双方向インデックス付けを使用する、文書の分類の高度な技法を採用することによって、従来技術のセマンティック検索エンジンを改善する。これらの改善により、本発明の検索エンジンは、インターネット又はイントラネットのようなサービング通信ネットワークを通じて検索の帯域幅需要を著しく低減し、また、検索エンジンのストレージ及びメモリ需要を低減する。セマンティック検索エンジンの実施例は全文検索のために特に有益である。

本発明の好ましい実施例の上記の説明は、例示及び説明を与えるが、網羅的なものであること、又は開示された正確な形態に本発明を限定することは意図されていない。変更及び変形は、上記の教示に照らして可能であるか、又は本開示の実施から取得され得る。特に、本発明の例示的な方法について一連の行為として説明したが、本発明による他の実装形態では、行為の順序は変動し得る。特に、他に依存しない行為は、任意の順序で、又は並行して実行され得る。

本発明の範囲は特許請求の範囲及びそれらの等価物によって定義される。

実例
次に、本発明による検索エンジンの動作を具体的な実例によって示す。この実例では、検索エンジンは単項分類器（ｕｎａｒｙｃｌａｓｓｉｆｉｅｒ）を使用すると仮定する。固有特徴は、ソース文書のテキスト中の特定のワードの出現確率として定義される。分類器構成要素の出力は、文書特徴セットが単一のクラスに属するパーセンテージ値として定義される。検索エンジンは、さらに、あらかじめ複数のソース文書で充填されたインデックス・データベースを使用すると仮定する。

検索のためのユーザによって指定されたクエリ・テキストを「電気自動車」という用語にする。検索エンジンのトークナイザ構成要素は、クエリ・テキストの別個のワードに基づいて以下のクエリ特徴を取得する。
特徴ＩＤワード確率
１「電気」０．５
２「車」０．５
クエリ特徴の数が比較的少ないので、より高い精度のために追加の固有特徴が必要とされ、したがって、検索エンジンの特徴エクステンダ構成要素は、クエリ・テキストのワードを含有するソース文書のパートを使用して、トレーニング特徴のより大きいセットを生成する。これらの文書パートは、トレーニング特徴としてクエリ特徴の拡張セットを取得するために処理される。本実例では、以下の文書パートが処理される。
「ポルシェの電気自動車は、テスラよりも良くなる．．．」
「テスラは１０万台強を達成した。これは電気自動車企業にとっての記録であった」
「．．．はまたテスラＰｏｗｅｒｐａｃｋ蓄電池を．．．にする」
「．．．その車は１回のバッテリー充電で６４．３７ｋｍ（４０マイル）走行するように設計されている」
「．．．ＶＷＵｐ。電気自動車の売上げを３倍にし得た、フランスでは、．．．」
このようにして得られた固有特徴は一緒にトレーニング特徴のセットを形成する。
トレーニング特徴ＩＤワード確率
１バッテリー（０．０１）
２車（０．０５）
３車両（０．００３）
４テスラ（０．０２）
５ｖｗ（０．００５）
６電気（０．０８）
７ルノー（０．００２）
８マイル（０．０００９）
９ドライブ（０．００１）
１０充電器（０．００５）
１１ポルシェ（０．０１）
次に、検索エンジンは、インデックス・データベースから上記のトレーニング特徴のうちのいずれかを含有する文書を選択する。これらの文書は以下でそれらのタイトルによって識別される。
ルノーカングーＺＥ、１１月に登場
ダイムラー、ジンデルフィンゲンにバッテリー工場を建設
ポルシェの洗練された充電器はわずか１５分でＥＶをパワーアップする
フォルクスワーゲン・グループは第１波で１０００万台の電気自動車を製造する予定
アストン・マーチン初の電気スポーツカー、ＲａｐｉｄｅＥのご紹介
検索エンジンは、次に、分類器構成要素によって上記の文書の分類を実行し、次いで、分類器構成要素の出力値に基づいて文書をランク付けする。したがって、クエリ・テキストに対する文書の関連度に関する文書の仮定される順位は以下のようになり得る。
ランク文書タイトルクラスに属するパーセンテージ
１．ポルシェの洗練された充電器はわずか１５分でＥＶをパワーアップする９３％
２．ダイムラー、ジンデルフィンゲンにバッテリー工場を建設９０％
３．アストン・マーチン初の電気スポーツカー、ＲａｐｉｄｅＥのご紹介８６％
４．フォルクスワーゲン・グループは第１波で１０００万台の電気自動車を製造する予定８３％
５．ルノーカングーＺＥ、１１月に登場８２％

Claims

それぞれ一意の文書識別子によって識別される文書を含有するソース文書データベースにおいてセマンティック検索を実行するコンピュータ実装方法であって、
テキスト含有クエリのテキスト構成要素を読み取ることと、
予め定義された特徴抽出モデルを使用して前記クエリの前記テキスト構成要素からクエリ特徴のセットを生成することと、
前記複数のクエリ特徴に基づいてトレーニング特徴のセットを生成することと、
前記トレーニング特徴、及び、予め定義された特徴抽出モデルを使用して前記ソース文書の少なくとも一部分から取得された文書特徴のセットを用いて、トレーニング可能な分類器をトレーニングすることと、
予め定義された選択方式に従って分類のために複数のソース文書を選択することと、
前記選択された文書の特徴を取得することと、
前記トレーニングされた分類器によって、前記選択された文書の特徴を使用することによって前記選択されたソース文書を関連度の異なるクラスに分類することであって、関連度の少なくとも１つの値が各選択された文書に関連する、分類することと、
関連度の前記少なくとも１つの値に基づいて順序付きリスト中で前記分類された文書をランク付けすることと、
前記ランク付けされた文書の前記識別子の前記順序付きリストをコンピュータ可読メモリに記憶することと
を含む方法。
前記クエリ・エンティティが、ユーザ・インターフェース及びアプリケーション・プログラミング・インターフェースのうちの少なくとも１つを含む、請求項１に記載の方法。
前記トレーニング特徴を前記クエリ特徴と同等であると定義することをさらに含む、請求項１又は２に記載の方法。
前記分類の前に、
前記ソース文書データベースに記憶された前記文書の少なくとも一部分をブロックに区分することであって、各ブロックがブロック識別子によって一意に識別される、区分することと、
各ブロックについて複数のブロック特徴を生成することと
をさらに含む、請求項１から３までのいずれか一項に記載の方法。
分類のために文書を選択することが、
クエリ特徴の拡張セットの前記特徴のうちの少なくとも１つに関連する前記ソース文書の前記識別子を取得すること
を含む、請求項１から４までのいずれか一項に記載の方法。
トレーニング特徴のセットを生成することが、
前記クエリ特徴のうちの少なくとも１つに関連する前記ブロックの前記識別子を取得することと、
前記前に選択されたブロックの各々に関連するブロック特徴を取得することであって、それによってクエリ特徴の拡張セットを生成する、ブロック特徴を取得することと、
クエリ特徴の前記拡張セットを前記トレーニングの特徴セットであると定義することと
を含む、請求項１から５までのいずれか一項に記載の方法。
分類のために文書を選択することが、
前記ソース文書データベースに記憶されたすべての文書を選択すること、又は
前記クエリ特徴のうちの少なくとも１つに関連する前記ソース文書の前記識別子を取得すること
を含む、請求項１から６までのいずれか一項に記載の方法。
前記テキスト含有クエリが、印刷された紙文書、手書きの紙文書、編集可能な又は編集不可能な電子テキスト文書、テキスト・コンテンツをもつ画像ファイル、表示されたテキスト・コンテンツ若しくは音声テキスト・コンテンツをもつビデオ・ファイル、又は、可聴テキスト・コンテンツをもつ音声ファイルのうちのいずれか１つを含む、請求項１から７までのいずれか一項に記載の方法。
前記特徴抽出モデルが、バッグオブワード・モデル、連続バッグオブワード・モデル、連続空間言語モデル、ｎグラム・モデル、スキップグラム・モデル、及びベクトル空間モデルのうちの１つである、請求項１から８までのいずれか一項に記載の方法。
前記トレーニング可能な分類器が、単純ベイズ分類器、サポート・ベクター・マシン（ＳＶＭ）分類器、多項ロジスティック回帰分類器、隠れマルコフ・モデル分類器、ニューラル・ネットワーク分類器、ｋ最近傍法分類器、及び最大エントロピー分類器のうちの１つである、請求項１から９までのいずれか一項に記載の方法。
文書データベースにおいてセマンティック検索を実行するための処理システムであって、
テキスト含有クエリを受信し、前記テキスト含有クエリからテキスト構成要素を生成するように構成されたクエリ・インターフェースと、
前記クエリの前記テキスト構成要素からクエリ特徴のセットを生成するように構成されたトークナイザ構成要素と、
意味的に関連のある文書の識別子の順序付きリストを生成するように構成された検索エンジン構成要素であって、前記検索エンジンが、
前記クエリの前記テキスト構成要素に対して選択された文書のセットの関連度を評価するように構成された分類器構成要素、及び
前記分類された文書の前記関連度に基づいて前記分類された文書の識別子の順序付きリストを生成するように構成されたランク付け構成要素
を備える、検索エンジン構成要素と、
前記関連のある文書の前記識別子の前記順序付きリストを記憶するためのコンピュータ可読メモリと
を備える少なくとも１つのプロセッサ・デバイス
を備える、処理システム。
前記ソース文書に関連する複数のメタデータを記憶するように構成されたメタデータ・ストアをさらに備える、請求項１１に記載の処理システム。
前記トークナイザによって与えられる前記クエリ特徴を使用してクエリ特徴の拡張セットを生成するように構成された特徴エクステンダ構成要素をさらに備える、請求項１１又は１２に記載の処理システム。
少なくとも１つのプロセッサ・デバイスに、請求項１から１０までの一項に記載のソース文書データベースにおけるセマンティック検索のための方法を実行させるための命令を記憶する、コンピュータ可読媒体。
１つ又は複数のプロセッサ・デバイスと、前記１つ又は複数のプロセッサ・デバイスによって実行されたとき、前記１つ又は複数のプロセッサ・デバイスに請求項１から１０までのいずれか一項に記載の方法を実行させるように動作可能である命令を記憶する１つ又は複数の記憶デバイスとを備えるシステム。