JP2020537268A - 大規模なデータベースにおけるセマンティック検索のための方法及びシステム - Google Patents

大規模なデータベースにおけるセマンティック検索のための方法及びシステム Download PDF

Info

Publication number
JP2020537268A
JP2020537268A JP2020521321A JP2020521321A JP2020537268A JP 2020537268 A JP2020537268 A JP 2020537268A JP 2020521321 A JP2020521321 A JP 2020521321A JP 2020521321 A JP2020521321 A JP 2020521321A JP 2020537268 A JP2020537268 A JP 2020537268A
Authority
JP
Japan
Prior art keywords
document
features
query
text
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020521321A
Other languages
English (en)
Inventor
ローラーント コバッチュ、ベーラ
ローラーント コバッチュ、ベーラ
ヤーゲル、アーコス
Original Assignee
ネイゲントロピクス ゾフトバー ゼットアールティー.
ネイゲントロピクス ゾフトバー ゼットアールティー.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ネイゲントロピクス ゾフトバー ゼットアールティー., ネイゲントロピクス ゾフトバー ゼットアールティー. filed Critical ネイゲントロピクス ゾフトバー ゼットアールティー.
Publication of JP2020537268A publication Critical patent/JP2020537268A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、テキスト含有クエリのテキスト構成要素を読み取ることと、予め定義された特徴抽出モデルを使用してクエリのテキスト構成要素からクエリ特徴のセットを生成することと、複数のクエリ特徴に基づいてトレーニング特徴のセットを生成することと、トレーニング特徴、及び、予め定義された特徴抽出モデルを使用してソース文書の少なくとも一部分から取得された文書特徴のセットを用いて、トレーニング可能な分類器をトレーニングすることと、予め定義された選択方式に従って分類のためにいくつかのソース文書を選択することと、選択された文書の特徴を取得することと、選択された文書の特徴を使用することによって選択されたソース文書を関連度の異なるクラスに分類することであって、関連度の少なくとも1つの値が各選択された文書に関連する、分類することと、関連度の分類された文書の少なくとも1つの関連する値に基づいて順序付きリスト中で分類された文書をランク付けすることと、ランク付けされた文書の識別子の順序付きリストをコンピュータ可読メモリに記憶することとを含む、一意の文書識別子によって識別される文書を含有するソース文書データベースにおいてセマンティック検索を実行するコンピュータ実装方法を提供する。

Description

本開示は、一般に自然言語処理に関し、より詳細には、セマンティック検索エンジンを使用することによる大規模な文書データベースにおけるコンテンツの検索に関する。
電子文書又は紙ベースの文書において特定のコンテンツを見つける需要がますます増大しており、電子文書の生成、記憶及び配信の導入、又は、そのような文書を有限の又は無限の数のユーザのために利用可能にすることにより、永遠に拡大する量の文書がワールド・ワイド・ウェブ(「ウェブ」又は「インターネット」)及び他のイントラネット上で電子形式でアクセスされ得る。特定のコンテンツをもつ文書のための文書取出し及び検索は、適切な検索ツールをもつコンピュータが使用される場合でも、かなり時間がかかるタスクになり得る。
文書米国特許第7,249,121号は、検索クエリ内からのセマンティック・ユニットの識別のための様々な方法及びシステムを開示している。コーパスを検索するための検索エンジンが、検索クエリにおける複数の用語を単一のセマンティック・ユニットとして分類したことによる結果の関連度(relevancy)を改善する。検索エンジンのセマンティック・ユニット・ロケータが、クエリ内の個々の用語に基づいて、クエリにとって一般に関連のある(relevant)文書のサブセットを生成する。次いで、検索語のどの組合せがセマンティック・ユニットとして分類されるべきであるかを決定するために、クエリから潜在的セマンティック・ユニットを定義する検索語の組合せが文書のサブセットに対して評価される。得られたセマンティック・ユニットは、検索の結果を改良するために使用される。このソリューションは、意味的に有意なテキスト・ユニットに対応する複合語のより正確な識別を与えるが、依然として、関連のある文書のセットが簡単な様式で、すなわち、クエリ・キーワード又はキー・テキストの様々なサブセットとコーパスのインデックスとの比較に基づいて決定されるという欠点を有する。
現在の検索エンジンは大規模な文書データベースを効率的に検索することができない。多くの場合、大量のテキストをパースする必要により、文書データベース検索は厄介で、時間がかかり、有限のプロセッサ・リソースを非効率的に使用する。さらに、多くの現在の検索エンジンは、意味がある又は動的な順序で結果をランク付けすることができない。
複数のプラットフォームに渡る、複数のデジタル・フォーマットでのデジタル・データの分散が大きくなっているので、プロセッサの時間及びリソースをより効率的に使用するセマンティック検索技法を提供すること、及び照会エンティティによって検索されたテキストベースのコンテンツに対する結果セットの関連度をさらに改善することが当技術分野では必要である。結果の関連度の改善により、従来のセマンティック検索エンジンに対して特定のコンテンツの検索のために必要とされる検索クエリの数が少なくなり、したがって、インターネット又はイントラネットのようなサービング・データ通信ネットワークを使用して実行される検索の帯域幅需要が低減される。
米国特許第7,249,121号
開示される実施例は、電子トークンとトークン化されたデバイスとを使用して電子トランザクションを管理するためのシステム及び方法を提供する。本発明は、特に、請求項1に記載のコンピュータ実装方法、請求項11に記載の処理システム、請求項14に記載のコンピュータ可読媒体、及び請求項15に記載のシステムを提供する。好ましい実施例は従属クレームに記載されている。
ソース文書及びクエリ・テキストの表現が極めてコンパクトであるので、本セマンティック検索エンジン・ソリューションのメモリ及びストレージの需要は知られているセマンティック検索エンジンのそれよりも著しく低い。
本開示の一態様は、それぞれ一意の文書識別子によって識別される文書を含有するソース文書データベースにおいてセマンティック検索を実行するコンピュータ実装方法を対象とし、本方法は、処理システムによって実行される以下のステップ、すなわち、テキスト含有クエリのテキスト構成要素を読み取ることと、予め定義された特徴抽出モデルを使用してクエリのテキスト構成要素からクエリ特徴のセットを生成することと、複数のクエリ特徴に基づいてトレーニング特徴のセットを生成することと、トレーニング特徴、及び、予め定義された特徴抽出モデルを使用してソース文書の少なくとも一部分から取得された文書特徴のセットを用いて、トレーニング可能な分類器をトレーニングすることと、予め定義された選択方式に従って分類のために複数のソース文書を選択することと、選択された文書の特徴を取得することと、トレーニングされた分類器によって、選択された文書の特徴を使用することによって選択されたソース文書を関連度の異なるクラスに分類することであって、関連度の少なくとも1つの値が各選択された文書に関連する、分類することと、関連度の少なくとも1つの関連する値に基づいて順序付きリスト中で分類された文書をランク付けすることと、ランク付けされた文書の識別子の順序付きリストをコンピュータ可読メモリに記憶することとを含む。
本開示の別の態様は、文書データベースにおいてセマンティック検索を実行するための処理システムを対象とし、本システムは、テキスト含有クエリを受信し、テキスト含有クエリからテキスト構成要素を生成するように構成されたクエリ・インターフェースと、クエリのテキスト構成要素からクエリ特徴のセットを生成するように構成されたトークナイザ構成要素と、意味的に関連のある文書の識別子の順序付きリストを生成するように構成された検索エンジン構成要素であって、検索エンジンが、クエリのテキスト構成要素に対して選択された文書のセットの関連度を評価するように構成された分類器構成要素、及び分類された文書の関連度に基づいて分類された文書の識別子の順序付きリストを生成するように構成されたランク付け構成要素を含む、検索エンジン構成要素と、関連のある文書の識別子の順序付きリストを記憶するためのコンピュータ可読メモリとを含む少なくとも1つのプロセッサ・デバイスを含む。
本開示の別の態様は、上記の2つの態様に関係する特徴を有する、コンピュータ可読媒体、特に非一時的媒体を対象とする。
本開示の別の態様は、1つ又は複数のプロセッサ・デバイスと、1つ又は複数のプロセッサ・デバイスによって実行されたとき、1つ又は複数のプロセッサ・デバイスに本開示の第1の態様による方法のステップを実行させるように動作可能である命令を記憶する1つ又は複数の記憶デバイスとを含むシステムを対象とする。
他の開示される実施例によれば、コンピュータ可読記憶媒体、特に非一時的コンピュータ可読記憶媒体は、少なくとも1つのプロセッサ・デバイスによって実行されたとき、本明細書で説明される方法のいずれかを実行するプログラム命令を記憶し得る。
上記の一般的な説明及び以下の詳細な説明は、例示的で説明的なものにすぎず、特許請求の範囲を限定するものではない。
添付の図面は、いくつかの実施例を示し、説明と一緒に、開示された原理を説明するのに役立つ。
本開示による処理システムによって実行されるべきセマンティック検索のためのデータベースを構築するように構成された前処理システムの構成要素を示す概略ブロック図である。 本開示による処理システムの基本構成要素を示す概略ブロック図である。 本開示による処理システムの基本構成要素及び様々な随意の構成要素を示す概略ブロック図である。 本開示によるテキスト文書のデータベースにおけるセマンティック検索を実行するコンピュータ実装方法の主要なステップを示すフロー・チャートである。 本開示による方法の随意のステップを示すフロー・チャートである。 本開示による方法の随意のステップを示すフロー・チャートである。 本開示による方法の随意のステップを示すフロー・チャートである。 本開示による方法の随意のステップを示すフロー・チャートである。 本開示による検索方法の実施例のステップを示すフロー・チャートである。 本開示による検索方法の別の実施例のステップを示すフロー・チャートである。 本開示による検索方法の別の実施例のステップを示すフロー・チャートである。
本開示の以下の詳細な説明では添付の図面を参照する。詳細な説明は本発明を限定しない。代わりに、本発明の範囲は添付の特許請求の範囲及び等価物によって定義される。
本明細書で説明するように、トークナイザ構成要素がクエリ・テキストから意味的な固有特徴(characteristic features)を抽出し、関連のある文書のセットがクエリ・テキストの固有特徴を使用して選択され、次いでソース文書の選択されたセットをそれらの関連度に関して評価するためにトレーニング可能な分類器構成要素が使用され、評価された文書がそれらの関連度によってリスト中で順序付けされる。
本明細書で使用する際、「固有特徴」という用語は、テキストの意味内容を表す人為的バイナリ・コードのセットを意味し、前記コードは、テキストのバイナリ表現に適切な変換操作を適用することによって与えられる。テキストのバイナリ表現から固有特徴への変換は、後でより詳細に説明するように、様々なモデル化技法に従って実行され得る。
さらに、「コンテンツ特徴」、「クエリ特徴」及び「トレーニング特徴」という用語は特定の種類の固有特徴として使用される。特に、コンテンツ特徴は、ソース文書のコンテンツを表すために使用され、クエリ特徴は、クエリ・テキストのコンテンツを表すために使用され、トレーニング特徴は、いくつかの実施例による方法の分類ステップにおいて使用するための、クエリ特徴から導出される固有特徴である。
上述の固有特徴の使用により、ソース文書及びクエリ・テキストが従来のソリューションに対してはるかによりコンパクトな形態で表され得、その結果、検索エンジンのメモリ要件及びストレージ要件がかなり低減される。
検索データベースを構築するための前処理システム
図1Aは、本開示による処理システムによって実行されるべきセマンティック検索のためのデータベースを構築するように構成された前処理システムの構成要素を示す概略ブロック図であり、基本構成要素は実線矢印によってリンクされ、随意の構成要素は破線矢印によってリンクされている。
図1Aに示されている前処理システムは、ソース文書データベース110から紙文書と電子文書の両方を受信するように構成され得るフォーマット変換器構成要素111を含み、予め定義されたデジタル形式、たとえば、プレーン・テキスト・フォーマットでテキスト文書を生成するためにソース文書を処理するように構成され得る。これらのテキスト文書を本明細書ではフォーマット済みテキスト文書と呼ぶ。フォーマット変換器構成要素111は、紙文書をデジタル化するための光スキャナ、走査された文書から予め定義されたテキスト・フォーマットの電子文書を生成するための光学式文字認識(OCR)などのテキスト認識プログラム、音声ファイルから予め定義されたテキスト・フォーマットの電子文書を生成するための音声テキスト認識アプリケーション、及び/又は任意のタイプの紙又は電子ソース文書からフォーマット済みテキスト文書を生成するために使用され得る他の適切なハードウェア及びソフトウェア・ツールを含み得る。
本開示のコンテキスト内で、電子文書は、たとえば、編集可能な又は編集不可能なテキスト・ファイル、テキスト・コンテンツをもつ画像ファイル、表示されたテキスト・コンテンツ若しくは音声テキスト・コンテンツをもつビデオ・ファイル、及び/又は可聴テキスト・コンテンツをもつ音声ファイルなど、任意の種類のテキスト含有メディア・ファイルを含み得る。紙文書は、たとえば、テキスト情報を含有する任意の種類の印刷された又は手書き文書を含み得る。
フォーマット変換器構成要素111によって生成されたフォーマット済みテキスト文書は、後で使用するために文書ストア126に記憶され得る。好ましい実施例では、メタデータ、たとえば、元のファイル名、作成日、著者に関する情報、物理的又はアクセス場所、ページ番号、文書タイトルなどが、関連するフォーマット済みテキスト文書のためのソース文書の少なくともサブセットから生成及び/又は取得され得る。これらのメタデータはメタデータ・ストア128に記憶され得る。
文書ストア126はまた、フォーマット済みテキスト文書を記憶するように構成され得る。フォーマット済みテキスト文書を記憶することは、たとえば、前に適用された技法とは異なる技法を使用することによって、そこから固有特徴の新しいセットを生成するために、これらの文書が再び処理され得るという利点を有し得る。バッグオブワード(bag−of−words)・モデルでは、固有特徴は、分析されるテキストにおける特定のワードの発生の可能性として定義され得、nグラム・モデル又はkスキップnグラム・モデルでは、固有特徴は、分析されるテキストにおける「n」個のワードから構成されるワードの様々なセットの発生の可能性として定義され得、「n」の値は、2、3又はさらにはより高くなり得、ベクトル空間モデルでは、固有特徴は、分析されるテキストのワード又はより長いパートに割り当てられる重みの1つ又は複数のベクトルから導出されるコードとして定義され得る。
予め定義された形態でフォーマット変換器構成要素111によって生成されたフォーマット済みテキスト文書は、フォーマット変換器構成要素111によって与えられたデジタル化されたテキスト文書の各々から固有特徴のセットを生成するように構成されたトークナイザ112に転送される。いくつかの実施例では、トークナイザ112はまた、後で説明するように、検索プロセス中にクエリの検索テキストから固有特徴のセットを生成するように構成され得る。トークナイザ112はまた、フォーマット済みテキスト文書を、ブロックに、たとえば、センテンス、パラグラフ、セクション及び/又は他のユニットに区分するために、及び文書ストア126中の個々のテキスト・ブロックのための区分情報を記憶するために使用され得る。
前処理システムの好ましい実施例によれば、デジタル化されたテキスト文書の固有特徴は、トークナイザ112から、インデックス・データベース146とともに動作関係にあるように構成されたインデックス・ビルダー構成要素113に転送され得る。インデックス・データベース146は、好ましくは2つのボリューム、特に順方向インデックス・データベース147と逆方向インデックス・データベース148とを含む。他の実施例では、インデックス・データベース146は単一のボリューム又は複数のボリュームを含み得る。順方向インデックス・データベース147はコンテンツ特徴の複数のリストを含有し得、各特徴リストは特定の文書又は特定の文書パート(たとえば、テキスト・ブロック)に属する。逆方向インデックス・データベース148は文書又は文書パート(たとえば、テキスト・ブロック)の識別子の複数のリストを含有し得、各文書リスト又はブロック・リストは、Fearure_IDによって識別される特定のコンテンツ特徴に属する。インデックス・データベースにおいて、文書の各々は一意の識別子Doc_IDによって識別され得、(利用可能なとき)テキスト・ブロックの各々は一意の識別子Block_IDによって識別され得、コンテンツ特徴の各々は一意の識別子Feature_IDによって識別され得る。これらのデータベースの使用及び利益について以下で詳細に説明する。
インデックス・データベース146は、たとえばセマンティック検索を実行する処理システムの動作を開始する前に、インデックス・ビルダー構成要素113によって検索より前に生成され得る。データベース生成フェーズにおいて、インデックス・ビルダー構成要素113は、文書のコンテンツ特徴を処理し、適切な特徴リスト、文書リスト及び/又はブロック・リストを生成し、それらのすべてはインデックス・データベース146のそれぞれのボリュームに記憶される。いくつかの実施例では、データベース生成フェーズにおいて、インデックス・ビルダー構成要素113は文書の識別されたブロックを処理し得る。
インデックス・データベース146の使用は、それが検索プロセスの速度を著しく高め得るので有益である。インデックス・データベースの使用により、各検索クエリの作動におけるソース文書の反復される前処理が回避され得、実質的なコンピューティング電力が節約され得る。
セマンティック検索を実行する処理システム
図1Bは、本開示によるソース文書におけるセマンティック検索を実行するために使用される処理システムの基本構成要素の概略ブロック図を示す。処理システムは通信ネットワークに一体化され得、それによって、処理システムの検索機能は他の処理システム又デバイスからアクセスされ得る。通信ネットワークは、コンピュータ、ラップトップ、タブレット、スマートフォン、PDAなど、プロセッサ・デバイス上で動作するアプリケーション・プログラムと対話する、インターネット、企業イントラネット、又は任意の他の適切な通信ネットワークであり得る。
処理システムは、(クエリ・テキストとも呼ばれる)検索テキストとして可変長のテキストを受信し、そのテキストを上述のトークナイザ112に転送するように構成されたクエリ・インターフェース117を含む。クエリ・インターフェース117は、ユーザ・インターフェース131を介して直接ユーザから、又は、アプリケーション・プログラミング・インターフェース(API:Application Programming Interface)132を介して取出しコンピュータ・プログラムからのいずれかで、照会エンティティから検索テキストを受信する。ユーザ・インターフェース131は、ユーザが少なくともテキスト・フォーマットにおける検索クエリを入力することを可能にするように構成され得、ユーザ・インターフェース131はさらに、検索ツールの使用を促進するため、検索結果の提示をより効果的に行うため、ユーザ・インターフェースのカスタマイズを可能にするためなどの他の随意の機能を提供するように構成され得る。好ましい実施例では、ユーザ・インターフェース131は、ユーザがテキスト含有メディア・ファイル、たとえば、テキスト含有音声ファイル、画像ファイル、及び/又はビデオ・ファイルを指定することを可能にするように構成され得、そこからクエリ・テキストが、前処理フェーズにおいて行われるのと同様に抽出され得る。
クエリ・インターフェース117によって直接受信された、又は入力テキスト含有メディア・ファイルから生成されたクエリ・テキストは、ソース文書・データベース110を使用してクエリ・テキストから固有特徴のセットを生成するトークナイザ112に転送される。いくつかの実施例では、固有特徴のセットは、前処理フェーズにおいて構築されたイデックス・データベース146を使用してクエリ・テキストから生成され得る。
クエリ・テキストから取得された固有特徴(すなわち、クエリ特徴)は、次いで検索エンジン115に転送される。検索エンジン115は、検索語に関して複数の選択された文書の関連度を評価するための分類器構成要素151と、(たとえば、分類器構成要素によって生成される関連度のスコアを使用することによって)選択された文書をそれらの関連度によってランク付けするために使用されるランク付け構成要素152とを含み得る。いくつかの実施例では、検索エンジン115はインデックス・データベース146に結合され得、そこから検索エンジン115は、分類プロセスのために少なくとも文書識別子及びコンテンツ特徴を取り出す。
このコンテキストにおける「関連度」は、限定はしないが、コンテンツ類似性、又は、クエリ・テキストのコンテンツと戻された文書のコンテンツとの間の他の種類の密なセマンティック関係を含むファクタに基づいて定義され得る。
図1Cに示されているように、いくつかの実施例では、検索エンジン115は、分類された文書のメタデータが、文書のランク付け品質を改善するために、又は戻された文書についてのユーザ可読情報(たとえば、電子文書のURL、紙文書の出版社、文書タイトルなど)をもつ文書結果リストを生成するために使用されるように意図されているとき、メタデータ・ストア128に結合され得る。
検索エンジン115はまた、図1Cに示されているように、トークナイザ112によって与えられる固有特徴を使用して固有特徴の拡張セットを生成する特徴エクステンダ構成要素114から追加の固有特徴を受信し得る。いくつかの実施例では、特徴エクステンダ構成要素114はインデックス・データベース146に結合され得る。
検索エンジン115は文書識別子の順序付きリストを出力する。いくつかの実施例では、検索エンジン115は、関連のある文書の組み込み文書の識別を含む、関連のある文書のブロック識別子の順序付きリストを出力し得る。戻された結果リストは、次いで、図1B及び図1Cに示されているように、メモリ160に記憶される。結果リストはまた結果リスト・コンポーザ170に転送され得、結果リスト・コンポーザ170は、文書識別子及び/又はブロック識別子、並びにランク付けされた文書のためにメタデータ・ストアに記憶されたメタデータを使用して、戻された関連のある文書又は文書パートの上述の処理されたユーザ可読リスト(たとえば、書誌データ、URLなど)を生成し、それによってユーザ又は照会するコンピュータ・プログラムが、オンデマンドで、ランク付けされた文書のいずれか1つにアクセスすること又はそれをダウンロードすることが可能になる。この処理された文書のリストは、次いで、図1Cに示されているように、クエリ・インターフェース117に転送され得、クエリ・インターフェースは、処理されたリストを、ユーザ・インターフェース131を介して照会するユーザに、又はAPI132を介して照会するコンピュータ・プログラムに出力し得る。ユーザ・インターフェース131はまた、処理されたリストをディスプレイ・デバイス上でユーザに表示し得る。
本開示による処理システムについて、プロセッサ、データベース又はメモリなどのいくつかのハードウェア構成要素、及び、検索エンジン、インターフェース構成要素などのいくつかのソフトウェア構成要素を含む、一体化されたコンピューティング・プラットフォームとして説明したが、当業者は、様々なハードウェア構成要素又はソフトウェア構成要素が、本開示による処理システムの上述の本質的機能のすべてを一緒に与える、2つ以上の協働する処理デバイスにおいて及び/又は2つ以上の協働するソフトウェア構成要素によって実装され得ることを認識されよう。当業者はさらに、検索ツールのより速い動作を達成するために、処理システムのハードウェア構成要素又はソフトウェア構成要素のいずれか1つが増加させられ、並列に動作させられ得ることを認識されたい。
検索プロセス
次に、いくつかの実施例によるセマンティック検索ツールの動作について、図2〜図6を参照しながら説明する。図2は、本開示によるセマンティック検索の方法の基本ステップの流れ図であり、図3〜図6は、本開示の方法の様々な随意のステップを示す流れ図である。
文書ストア及びメタデータ・ストアの構築
いくつかの実施例では、検索ツールの動作は、少なくとも、複数のフォーマット済みテキスト文書を含有する文書ストアの存在を仮定し、テキスト文書のうち、関連のある文書が検索クエリを使用して探し求められ得る。文書ストアは、ソース文書データベース、たとえば、企業文書ストア、コンテンツ固有のプライベート又はパブリック・データベース、及び/又はインターネットのような通信ネットワークを介したアクセスが制限される又は制限されない任意のタイプの文書を含有する任意の他のデータベースを使用して構築され得る。いくつかの実施例では、ソース文書データベースは、インターネットを介して自由にアクセス可能な電子文書の予め定義されたセットであり得る。
いくつかの実施例では、文書ストアを構築すること(すなわち、ソース文書を取得し、前処理し、フォーマット済みテキスト文書を文書ストアにアップロードすること)は、検索環境を確立するための別個の随意のステップであり得る。検索環境を確立する好ましい実施例のステップは図3のフロー・チャートに示されている。
図3に示されているように、第1の複数のソース文書、たとえば、印刷された及び/又は手書きの紙文書及び電子文書が、予め定義されたフォーマット(たとえば、プレーン・テキスト)のフォーマット済みテキスト文書に変換される。電子ソース文書は、編集可能な又は編集不可能なテキスト文書、画像文書、テキストと画像が組み合わせられた文書、テキストを含有する音声、画像又はビデオ・ファイルなどを含み得る。いくつかの実施例では、ステップ301において紙文書が光スキャナによってデジタル化され得、次いで、ステップ302において、走査された文書のテキスト・パートが光学式文字認識(OCR)にかけられて、テキスト文書を生成し得る。紙文書内の画像オブジェクトは、画像として走査され得、デジタル化されたテキスト文書に画像オブジェクトとして組み込まれ得るか、又は、画像の代わりに、画像オブジェクトに対するテキスト・リファレンスが、走査された紙文書のテキスト中に挿入され得る。同様に、ステップ303aにおいて、電子文書がフォーマット済みテキスト文書にデジタル的に変換され得、テキスト内の元の画像オブジェクトを保持するか、又は元の画像オブジェクトの代わりにテキスト・リファレンスをテキスト中に挿入するかのいずれかのオプションを伴う。テキスト含有メディア・ファイルがクエリとして入力された場合、ステップ303bにおいて、メディア・ファイルのテキスト構成要素が抽出され、予め定義されたフォーマットのテキスト文書に変換され得る。
フォーマット済みテキスト文書は、次いで、ステップ304において、一意の文書識別子Doc_IDとともに文書ストアに記憶され得る。ステップ308において、フォーマット済みテキスト文書がトークナイザによってテキスト・ブロックに区分された場合、フォーマット済みテキスト文書の個々のテキスト・ブロックの各々が、一意のブロック識別子Block_IDによって識別され得、ステップ309において、これらの識別子も、任意の他のパーティション情報とともに文書ストアに記憶され得る。パーティション情報は、ソース文書と所与の文書の識別されたテキスト・ブロックとの間の割当て関係を含み得る。いくつかの実施例では、ソース文書のブロックのすべてに一意の識別子が与えられる。他の実施例では、意味のあるセマンティック検索のための有用な情報をおそらく含有するブロックのみが一意に識別される。たとえば、いくつかの実施例では、コンテンツ・テーブル、図リスト、出版詳細などは、一意に識別される必要がない別個のテキスト・ブロックを形成し得る。
いくつかの実施例では、ステップ305において、ソース文書からメタデータを取得することは、前処理フェーズの随意のステップである。メタデータはソース文書から抽出され得、及び/又は、メタデータは紙ベース及び/又は電子ソース文書の物理特性又は他の特性から生成され得る。メタデータは、たとえば、元の文書名(たとえば、ファイル名)、作成又は最終変更の日付、文書の著者、文書の物理的又はURL場所、ページ番号、元の文書/ファイルのフォーマット、文書タイトルなどを含み得る。メタデータが取得されると、メタデータは、メタデータ・ストアにアップロードされ、結果リストを作成するために、及び検索エンジンによって実行されるランク付けアルゴリズムを微調整するために使用され得る。
メタデータ・ストアは文書ストアの生成とともに構築され得る。ソース文書のメタデータは、ステップ306において、パラメータDoc_IDによって識別される関連するフォーマット済みテキスト文書に対するリファレンスとともに、メタデータ・ストアに記憶され得る。
上述のように、好ましい実施例では、ステップ307において、ソース文書が文書ストアにデジタル形式で記憶され得る。
ソース文書からの固有特徴の抽出
セマンティック検索は、(前処理フェーズでは)ソース文書から獲得された特定のセマンティック情報の使用に基づき、(検索フェーズでは)検索クエリのテキストに基づき得る。セマンティック情報は固有特徴のセットによって表され得る。ソース文書又は文書パートの固有特徴はコンテンツ特徴と呼ばれ、検索クエリ・テキストの固有特徴はクエリ特徴と呼ばれる。
固有特徴は、トークナイザによって、フォーマット済みテキスト文書(コンテンツ特徴を参照のこと)及びテキスト・クエリ(クエリ特徴を参照のこと)から生成され得る。
最初に、図2のフロー・チャートに示されているように、ステップ200において、フォーマット済みテキスト文書がトークナイザによって読み取られる。次いで、ステップ202において、これらの文書のコンテンツ特徴がトークナイザによって生成される。検索方法の好ましい実施例では、ステップ204において、生成されたコンテンツ特徴がインデックス構築構成要素によって処理され、インデックス構築構成要素が上述の文書特徴リスト、ブロック特徴リスト、及び/又はブロック・リストを生成する。これらのリストは、次いでステップ206において、インデックス・データベースに記憶され得る。上記のステップ200〜206は前処理フェーズ内で実行される。
ソース文書の固有特徴(すなわち、コンテンツ特徴)は、処理アルゴリズムによって関連するフォーマット済みテキスト文書の分析済みテキストから取得され、バイナリ・ベクトル又はバイナリ行列(2次元又はそれ以上の行列)としてバイナリ形式で表される。コンテンツ特徴は、たとえば、テキスト文書のよく知られているセマンティック・モデル化技法である、バッグオブワード・モデル、nグラム・モデル、kスキップnグラム・モデル又はベクトル空間モデルに従って表され得る。
たとえば、バッグオブワード・モデルでは、固有特徴は、分析済みテキスト中の特定のワードの発生の可能性として定義され、nグラム・モデル又はkスキップnグラム・モデルでは、固有特徴は、分析済みテキスト中の「n」個のワードから構成されるワードの様々なセットの発生の可能性として定義され、「n」の値は2、3又はさらにはより高くなり得、ベクトル空間モデルでは、固有特徴は、分析済みテキストのワード又はより長いパートに割り当てられる重みの1つ又は複数のベクトルから導出されるコードとして定義される。
コンテンツ特徴の数の制限が考慮事項であるとき、テキストの固有特徴の数を低減するための様々な知られている技法が使用され得る。これらの制限技法は、とりわけ、ストップ・ワード・フィルタリング方法、関連のない固有特徴をなくす、単語頻度−逆文書頻度(tf−idf:term frequency−inverse document frequency)方法、又は所与のテキストのために生成される固有特徴のリスト全体から関連度のより高い固有特徴を選択するために使用され得る、カイ2乗方法を含む。
インデックス・データベースの構築
トークナイザが、フォーマット済みテキスト文書を読み取り、関連するソース文書のためのコンテンツ特徴を生成すると、ステップ204において、特定の文書に関連するコンテンツ特徴(いわゆる文書特徴)のリストが、上述のように、これらの特徴を処理して様々なリストにするインデックス・ビルダー構成要素に転送され得る。インデックス・ビルダー構成要素は、ステップ206において、文書特徴リストをインデックス・データベースに、特にそれの順方向インデックス・データベースに記憶し得る。いくつかの実施例では、フォーマット済みテキスト文書がトークナイザによってブロックに区分されると、インデックス・ビルダー構成要素はまた、ステップ206において、インデックス・データベースの順方向インデックス・データベース中の識別されたブロック(いわゆるブロック特徴)の各々について、ブロック特徴リストとも呼ばれる、コンテンツ特徴のリストを記憶し得る。
ステップ204において、インデックス・ビルダー構成要素はまた、順方向インデックス・データベースに記憶された文書特徴リストから逆方向インデックス・データベースを生成し得る。逆方向インデックス・データベースは複数の文書リストを含み得、文書リストの各要素は、特定の文書特徴に関連する文書の識別子を含有する。逆文書リストは、ステップ206において、インデックス・ビルダー構成要素によってインデックス・データベースの逆方向インデックス・データベースに記憶され得る。
インデックス・ビルダー構成要素はさらに、複数のブロック・リストを生成し得、このリストの各要素は、特定のブロック特徴に関連する(前に識別された)ブロックの識別子を含有する。ブロック・リストはまた、利用可能なとき、ステップ206において、インデックス・ビルダー構成要素によってインデックス・データベースの逆方向インデックス・データベースに記憶され得る。
いくつかの実施例では、インデックス構築の上記のステップは省略され得る。しかしながら、インデックス・データベースを構築することは、特に大規模な文書データベースにおけるセマンティック検索において、検索プロセスの速度を著しく高め得る。インデックス構築ステップがなく、したがってインデックス・データベースを使用しない場合、検索プロセスは依然として実行され得るが、検索方法によっては、分類されるべき文書のセットを決定するために必要である文書特徴を取得するために、各検索におけるソース・データベース全体の単一の読取り又は反復読取りが必要になる。
クエリ・テキストからの固有特徴の抽出
クエリ・テキストの固有特徴(すなわち、クエリ特徴)は、ソース文書のコンテンツ特徴に関して上述したのと同様の方法でクエリ・テキストから獲得される。クエリ特徴は、たとえば、テキストのよく知られているセマンティック モデル化技法である、バッグオブワード・モデル、nグラム・モデル、又はベクトル空間モデルに従って表され得る。いくつかの実施例では、固有特徴の意味表現が、簡単なクエリ・ワードのために使用され得る。いくつかの実施例では、固有特徴の意味表現が、より長いクエリ・テキストにおいて有益であり得る。
いくつかの実施例では、検索クエリの上述のバイナリ固有特徴の数及びサイズを妥当な範囲内に保つために、検索クエリのテキストの許容される長さが所定のサイズに限定され得る。
順方向インデックス・データベース、逆方向インデックス・データベース、及び/又はメタデータ・ストアを含む、文書ストア及びインデックス・データベースがソース文書に基づいて構築されると、検索ツールは入力テキスト・クエリを使用してセマンティック検索を実行し得る。検索フェーズのステップは図2にも示されている。
ステップ210において、ユーザにプロンプトした後に、又は取出しコンピュータ・プログラムが、ソース文書の間でセマンティック検索が必要とされるテキスト又はテキスト含有メディア・ファイルを与えた後に、クエリ・テキストは、クエリ入力のタイプに応じてクエリ・インターフェースによって読み取られるか又は生成され、トークナイザに転送され、トークナイザは、ステップ212において、クエリ・テキストのための固有特徴のセット、すなわちクエリ特徴を生成する。
一実施例では、クエリ・テキストは、個々のワード(たとえば、「モバイル」、「フォン」、「価格」)又は特定のメタデータ(たとえば、「Jason Smith」、「Oxford Press」)を含み、ワードは全文検索のために使用される。いくつかの実施例では、ソース文書の事前に割り当てられた属性に基づいて文書を検索するためにメタデータが使用される。クエリ・ワードは、文書のメタデータから取得され得、統計ベースで生成され得るか、又は任意の知られているテキスト分析技法によってソース文書のコンテンツから抽出され得る。いくつかの実施例では、クエリ・ワードは、検索クエリにおいて指定され、ユーザによって定義され得る。
クエリ・テキストはまた、入力されたワードが特定のコンテキストにおいて互いにセマンティック関係にあるとき(たとえば、「XYオペレーティング・システムのためのモバイル・フォン・アプリケーション」)、クエリ・フレーズと呼ばれる、ワードのコヒーレント・セットの形態で表され得る。
一実施例では、クエリ・テキストは、利用可能な文書のテキスト・パートであり得、予め定義されたテキスト・フォーマットにおける(たとえば、プレーン・テキスト・フォーマットにおける)文書からコピーされ、次いでユーザ・インターフェースのクエリ ウィンドウ中にペーストされ得る。
いくつかの実施例では、クエリ入力は、表示された又は可聴のテキスト情報を含有する完全なメディア・ファイル又はメディア・ファイルの一部であり得る。
いくつかの実施例では、意味のあるテキストは、同様のコンテンツをもつ他の文書がソース文書データベース中で探し求められる、オーディオ、画像又はビデオ・ファイル内の文書又は認識可能なテキスト情報のあるパート(たとえば、1つ又は複数のパラグラフ)である。意味のあるテキストは、ユーザ・インターフェースを介してユーザによって一意に入力される実質的にコヒーレントなテキストでもあり得る。
分類器をトレーニングするためのトレーニング特徴の生成
クエリ特徴がトークナイザによって生成された後、クエリ特徴は検索エンジンに転送される。分類器構成要素は、最初に、ステップ220において、クエリ特徴セットを使用してトレーニング特徴を生成することによって、トレーニング特徴のセットを用いたトレーニングのために準備される。トレーニング特徴のセットは、以下で説明するように、様々な方式に従って検索エンジンによって生成され得る。
第1の例示的な方式では、トレーニング特徴のセットは、クエリ特徴の前に取得されたセットと同等になるように定義される。
フォーマット済みテキスト文書をブロックに区分する先行するプロセスを仮定する、別の例示的な方式では、たとえば、検索のためにいくつかのワード又は短いクエリ・フレーズのみを指定するとき、クエリ特徴の数がかなり少なくなるクエリのために、クエリ特徴の数は増加させられるべきである。この例示的な方式は、図4に示されているように、検索エンジンによって実行される以下のステップ、すなわち、ステップ402において、クエリ特徴のうちの少なくとも1つに関連するすべてのブロックの識別子Block_IDを取得するステップと、ステップ406において、選択されたブロックの各々に関連する特徴を取得するステップとを含み得る。
検索ツールが、検索をより速くするために、順方向インデックス・データベースと逆方向インデックス・データベースとを有するインデックス・データベースを使用すると、上記のステップ402において、ブロック識別子が逆方向インデックス・データベースから取り出され得、上記のステップ406において、ブロック特徴が順方向インデックス・データベースから取り出され得る。しかしながら、インデックス・データベースがない場合、必要とされるブロック識別子及びブロック特徴は、検索中に文書データベース全体を読み取り、処理することによって取得され得る。
選択されたブロックに関連する特徴の得られたセットは、その場合、トレーニング特徴のセットであるように定義され得る。いくつかの実施例では、トレーニング特徴の拡張セットはまたクエリ特徴を含み、それによって既存のクエリ特徴に特徴(すなわち、さらなるパラグラフ特徴)を追加し得、追加の特徴は既存のクエリ特徴と密なセマンティック関係であり得る。
いくつかの実施例では、順方向又は逆方向インデックス・データベースからの取出しによって戻されたリストは、複数のリストが1つ又は複数の共通の要素とともに戻される場合でも、単一のインスタンスにおける任意の識別子又は特徴を含み得る。
分類器のトレーニング
検索エンジンの分類器構成要素は、ステップ230において、トレーニング特徴のセットを使用して、あらゆるクエリにおいてトレーニングされ得る。分類器構成要素は、その特徴が文書をランク付けする際に分類器構成要素に提示される、ソース文書の関連度に対応する少なくとも1つの出力クラスを有する。1出力クラスの場合、いわゆる1クラス分類又は単項分類が分類器構成要素によって実行され、トレーニング特徴のみが、分類器構成要素をトレーニングするために使用される。一般に、SVM(Support Vector Machine)又はニューラル・ネットワークが、分類器を実装するために使用され得る。好ましい実施例では、分類器構成要素はちょうど2つのクラスを有し、第1のクラスは関連のある特徴(すなわちトレーニング特徴)に対応し、第2のクラスは関連のない特徴(トレーニング特徴とは異なる特徴のいずれか又はすべて)に対応する。適切なアルゴリズムは、一般に、文書の関連度を決定するための、デシジョン・ツリー、ランダム・フォレスト、ナイーブ・ベイズ、ニューラル・ネットワーク、SVMなど、一般的なバイナリ分類器を含む。文書の関連度値は、第1のクラスに関連する値として定義され得る。他の実施例では、分類器構成要素は3つ以上のクラスを有する。トレーニング・プロシージャについて、分類器構成要素が関連度の2つのクラス、すなわち第1のクラスと第2のクラスとを有すると仮定して、以下で説明する。しかしながら、当業者は、他の分類器のトレーニングを実行するために、これらの技法を推定することができる。
いくつかの実施例では、トレーニング・プロシージャは2つのフェーズを含む。第1のフェーズでは、分類器構成要素は、関連のある特徴を学習するようにトレーニングされ得る。前にクエリ特徴から生成されたトレーニング特徴のセットは、トレーニング特徴が属する第1のクラスを指定する分類器構成要素に提示され得る。
第2のフェーズでは、分類器構成要素は、関連のない特徴が属する第2のクラスを指定する分類器構成要素に複数の文書特徴を提示することによって、関連のない特徴を学習するようにトレーニングされ得る。文書特徴の提示されたセットは、インデックス・データベースに記憶されたすべての異なる文書特徴を含み得るか、又は文書特徴のセットは、インデックス・データベースに記憶された文書特徴の予め定義されたサブセットのみを含み得る。たとえば、トレーニングの第2のフェーズにおいて使用される文書特徴のセットは、トレーニングの第1のフェーズにおいて使用されるトレーニング特徴のセットの文書特徴を除いて、インデックス・データベースのすべての文書特徴を含み得る。
分類器構成要素をトレーニングする上述の2つのフェーズは、検索エンジンによって使用される分類器のタイプに応じて、任意の順序で、又はさらには並行して実行され得る。
分類のための文書の選択
分類器構成要素が、クエリ特徴と、インデックス・データベースから選択される文書特徴のセットとに基づいて生成されるトレーニング特徴でトレーニングされると、検索エンジンは文書ストア中の任意の数の文書を分類することができる。分類のために、ステップ240において、文書ストアからフォーマット済みテキスト文書のセットが選択される。分類プロセスにおいて、分類器構成要素は、選択された文書の文書特徴を評価して、関連度の各クラスへのそれらの帰属に関して、選択された各文書についての関連度値を生成する。分類されるべき文書のセットは様々な方法で選択され得る。
第1の例示的な手法では、ソース文書のすべてが分類される。すべてのソース文書の分類は、何百万もの文書をもつ大規模な文書ストアにおいて過度に時間がかかり得る。しかしながら、ソース文書のすべての分類の結果、最も正確な検索が得られるであろう。
別の例示的な手法では、ソース文書の縮小セットが分類され、より速い分類が可能になる。文書は様々な方式によって分類のために選択され得、それらの方式の中から、2つの方式を例として以下で紹介する。
選択方式の一実施例では、トレーニング特徴のうちの少なくとも1つを含有する文書が選択される。好ましい実施例では、選択された文書は、最も可能性のあるトレーニング特徴を含有する。トレーニング特徴は、i)クエリ特徴自体(たとえば、分類器構成要素をトレーニングするために相当数の特徴が取得され得るとき)、及び/又はii)クエリ特徴の拡張セット(たとえば、分類器構成要素をトレーニングするためにクエリ・テキストから取得される特徴が十分にないとき)を含み得る。選択された文書が互いに密なセマンティック関係にある、選択方式のこの実施例は、ステップ502において、クエリ特徴のうちの少なくとも1つに関連する文書の識別子Doc_IDを取得することを含む。
検索方法の好ましい実施例では、上記のステップ502において、最も可能性のあるクエリ特徴に個別に関連する文書のみの識別子が取得される。代替的に、クエリ特徴のすべてに関連する文書も選択され得るが、この手法は、ソース文書のかなり限定されたセットをもたらし、それによって検索の速度を高めるが、検索正確さを低下させ得る。
検索ツールが、検索をより速くするために、順方向インデックス・データベースと逆方向インデックス・データベースとを有するインデックス・データベースを使用すると、上記のステップ502において、文書識別子が逆方向インデックス・データベースから取り出され得る。しかしながら、インデックス・データベースがない場合、必要とされる文書識別子は、検索中にソース文書データベース全体を読み取り、処理することによってのみ取得され得る。
選択方式の別の実施例では、分類のために選択される文書は、少なくとも1つの特徴、ただし好ましくは、クエリ特徴の拡張セットの最も可能性のある特徴を含有する。選択方式のこの実施例は、文書の、上記で説明した選択方法よりも大きいセットを生成し、それによって、選択された文書は意味的により広いドメインをカバーする。第2の選択方式の以下のステップは、図6に示されているように、ステップ602において、検索エンジンが、クエリ特徴の拡張セットの特徴のうちの少なくとも1つに関連する文書の識別子Doc_IDを取得することによって実行され得る。
検索ツールが、検索をより速くするために順方向インデックス・データベースと逆方向インデックス・データベースとを有するインデックス・データベースを使用すると、それぞれ、上記のステップ602及び610において、文書識別子及びブロック識別子が逆方向インデックス・データベースから取り出され得、上記のステップ606において、ブロック特徴が順方向インデックス・データベースから取り出され得る。しかしながら、インデックス・データベースがない場合、必要とされる識別子及び特徴は、検索中にソース文書データベース全体を読み取り、処理することによってのみ取得され得る。
上述のように、分類の以下のステップでは、すべての文書、又は好ましくは、低減された数の文書のみが関連度評価のために選択される。
文書の分類
文書を分類するとき、所与の文書をそれの関連度に関して評価するために、各前に選択された文書の文書特徴のすべてが分類器構成要素に提示される。この目的のために、選択された文書の文書特徴は、ソース文書データベースからの文書のすべてを読み取ることによって取得され得るか、又は好ましくは、ステップ245において、ソース文書の文書特徴が順方向インデックス・データベースから取り出され得る。次いで、ステップ250において、このようにして得られた文書特徴は、文書を評価するために、前にトレーニングされた分類器構成要素に提示される。
分類の結果として、分類器構成要素は、各分類された文書についての1つ又は複数の関連度値、たとえばスコア、確率、論理値などを出力し、特定の文書に割り当てられた少なくとも1つの関連度値は、関連度の異なるクラスへの文書の帰属の範囲を表す。たとえば、分類器構成要素において関連度の2つのクラスが定義されるとき(すなわち、意味的に関連のある文書のためには第1のクラス、及び意味的に関連のない文書のためには第2のクラス)、文書は特定の範囲まで両方のクラスに分類される。それは、特定の文書について、第1のクラスの関連度値が、第2のクラスの関連度値よりも高い関連度として定義されるときは、所与の文書は、クエリ・テキストに対して関連があると見なされ、そうでない場合は、関連がないと見なされることを意味する。分類器構成要素によって生成される関連度値は、整数、浮動小数点値(たとえば、スコア値)、論理値(たとえば、真及び偽)、又はそれのベクトル若しくは行列の形態で表され得、関連度値のタイプ及び範囲は、検索エンジンにおいて使用される分類器のタイプに依存する。
分類器構成要素内で、とりわけ、以下のタイプのトレーニング可能な分類器、すなわち、単純ベイズ分類器、サポート・ベクター・マシン(SVM)分類器、多項ロジスティック回帰分類器、隠れマルコフ・モデル分類器、ニューラル・ネットワーク分類器、k最近傍法分類器などが使用され得る。
固有特徴によるソース文書及びクエリ・テキストの表現(すなわち、それぞれコンテンツ特徴及びクエリ特徴)は、従来のセマンティック検索エンジンにおいて行われていたように、選択された文書の全文をワードベースで分析する必要がなく、文書の固有特徴のみがコンテンツ分析のために使用されるので、選択されたソース文書の極めて効率的な分類を可能にする。いくつかの実施例では、この特性は検索をより速くし、検索のメモリ需要を著しく低減する。さらに、ソース文書は、(従来のセマンティック検索エンジンにおいて必要とされるように)分類の目的で永久的に記憶される必要がなく、したがって実質的な記憶容量も節約され得る。
分類された文書のランク付け
分類器構成要素が選択された文書の分類を完了した後、ステップ260において、分類された文書は、検索エンジンのランク付け構成要素を使用して関連度によって順序付けされる。文書を関連度によって順序付けするために、特定の検索ツールのタイプに応じて様々な方式が使用され得る。
1つの例示的な方式では、各クラスの関連度値が、文書がランク付けされるために考慮に入れられる。各分類された文書を用いて、関連する異なる関連度のクラスの値が、意味的に関連のある文書の順序付きリストを生成するために所定のアルゴリズムに従って重み付けされ得る。
好ましい例示的な方式では、関連度クラスのうちのただ1つに属する関連度値が、文書をランク付けするために使用される。たとえば、関連度の2つのクラスが定義されるとき、高い関連度を定義するクラスの関連度値のみがランク付け構成要素によって考慮に入れられる。
検索プロセスの最終結果は、したがって、検索クエリに対してその関連度によって順序付けされた分類されたソース文書を指定する文書識別子の順序付きリストである。このリストは、ステップ270においてコンピュータ可読メモリに記憶される。
関連のある文書の識別子の順序付きリストは、照会ユーザ又は照会コンピュータ・プログラムによって解釈され得るフォーマットで文書のリストを生成するために、結果リスト・コンポーザ構成要素によってさらに処理され得る。処理された文書リストは、文書識別子(又はブロック識別子)とメタデータ・ストアに記憶されたメタデータとを使用して、結果リスト・コンポーザ構成要素によって生成され得る。処理されたリストは、アクセス情報と、戻された文書又は文書パートについての他の有用な情報(たとえば、特定の書誌データ、電子文書のURL、文書タイトルなど)とを含有し得る。この処理されたリストにより、照会ユーザ又は照会コンピュータ・プログラムは、オンデマンドで、ランク付けされた文書のうちのいずれか1つ又は複数にアクセスするか、又はそれをダウンロードし得る。文書のこの処理されたリストはクエリ・インターフェースに転送され得、クエリ・インターフェースは、ユーザ・インターフェースを介してユーザに、又はAPIを介して照会コンピュータ・プログラムにリストを転送する。
いくつかの実施例では、ランク付け構成要素はまた、セマンティクスに関して関連のある文書のより正確なランク付けを行うために、利用可能なとき、文書のメタデータを使用し得る。たとえば、文書のメタデータから取得された文書の著者の名前、又は科学若しくは技術の分野は、クエリ・テキストのコンテンツに鑑みて、それらの関連度をさらに高め得る(又はさらには減少させ得る)。
検索動作の例
第1の例では、いわゆる類似検索のステップについて図7を参照しながら説明する。検索は、より長いコヒーレントなテキスト(たとえば、会議資料、書籍、公文書などの選択されたパート)に基づいて、セマンティック検索のために最適化される。
この例示的な検索の第1のステップとして、ステップ700において、クエリ・インターフェースからクエリ・テキストが受信される。次いで、ステップ712において、トークナイザに組み込まれた所定の方式又はモデルによって、クエリ・テキストからクエリ特徴が生成される。クエリ特徴は、ステップ720において、トレーニング特徴であるように定義され、分類器構成要素は、ステップ730において、これらの特徴でトレーニングされる。
分類のために、クエリ特徴のうちの少なくとも1つ、しかし好ましくは、最も可能性のあるクエリ特徴を含有する文書が、分類のために選択される。最初に、ステップ742において、これらの文書の識別子Doc_IDは、たとえば、インデックス・データベースが利用可能であるとき、インデックス・データベースの逆方向インデックス・データベースから文書識別子を取り出すことによって取得される。この例では、ステップ742は上記の随意のステップ502に対応する。選択された文書の文書特徴は、ステップ745において、たとえば、順方向インデックス・データベースからそれらを取り出すことによって取得される。
前にトレーニングされた分類器構成要素は、ステップ750において、選択された文書の文書特徴を使用して、選択された文書を関連度によって分類するために使用される。分類された文書は、次いでステップ760において、所定のランク付けアルゴリズムを使用して、随意に、分類された文書に関連するメタデータをも考慮に入れながら、分類器構成要素によって生成された関連度値に基づいて順序付けされる。順序付けされた関連のある文書の識別子のリストは、ステップ770において、コンピュータ可読メモリに記憶される。
第2の例では、図8を参照しながら、いわゆるキーワード検索のステップについて説明する。この検索は、ソース文書データベースの制限された部分のみを探し求めることが意図されるとき、数の限られたキーワード、一般的にはユーザによって推測されるいくつかのワードに基づいてセマンティック検索のために最適化される。
第1のステップにおいて、ステップ800において、クエリのキーワードがクエリ・インターフェースから受信される。次に、ステップ810において、クエリ特徴が特定のキーワードから生成される。得られたクエリ特徴は、(変換を使用しない)キーワード自体であり得るか、又は、クエリ特徴は、上述の所定の方式又はモデルのうちのいずれか1つを使用することによってキーワードから獲得され得る。この例では、クエリ特徴の数は分類器構成要素の適切なトレーニングのためには十分でない可能性があるので、トレーニング特徴のセットとして使用されるクエリ特徴の拡張セットを生成するために、クエリ特徴のセットの拡張が実行されるべきである。特徴拡張のステップ812及び816は、図4を参照しながら上記で説明したステップ402及び406に対応する。したがって、最初に、ステップ812において、クエリ特徴のうちの少なくとも1つに関連するブロックの識別子Block_IDが取得され、次いで、ステップ816において、選択されたブロックの各々に関連するすべてのブロック特徴が取得される。選択されたブロックに関連するブロック特徴のこのセットは、クエリ特徴の拡張セットとして定義され、トレーニング特徴のセットとして使用される。
この例においても、インデックス・データベースが利用可能であるとき、ステップ812において、逆方向インデックス・データベースからブロック識別子を取り出すことによって、選択されたブロックのブロック識別子が取得され、ステップ816において、順方向インデックス・データベースからブロック特徴を取り出すことによってブロック特徴が取得される。
次いで、ステップ830において、分類器構成要素が拡張トレーニング特徴でトレーニングされる。
分類のために、クエリ特徴のうちの少なくとも1つ、しかし好ましくは最も可能性のあるクエリ特徴を含有する文書が、ステップ842において選択される。随意に、クエリ特徴の拡張セットの特徴のうちの少なくとも1つを含有する文書が選択され、その結果、ソース文書の選択ドメインが一層大きくなり得る。文書選択は、インデックス・データベースが利用可能であるとき、インデックス・データベースの逆方向インデックス・データベースから適切な文書の識別子Doc_IDを取り出すことによって行われ得る。次いで、ステップ845において、分類器をトレーニングするために、選択された文書の文書特徴が取得される。文書特徴は、たとえば、インデックス・データベースが利用可能であるとき、順方向インデックス・データベースから取り出され得る。
前にトレーニングされた分類器構成要素は、ステップ850において、選択された文書の文書特徴を使用して、選択された文書を関連度によって分類するために使用される。分類された文書は、次いでステップ860において、所定のランク付けアルゴリズムを使用して、随意に、分類された文書に関連するメタデータをも考慮に入れながら、分類器構成要素によって生成された関連度値に基づいて順序付けされる。順序付けされた関連のある文書の識別子のリストは、ステップ870において、コンピュータ可読メモリに記憶される。
第3の例では、図9を参照しながら、いわゆる連想検索のステップについて説明する。この検索は、ソース文書データベースのより大きい部分を探し求めることが意図される場合、有限数のキーワード、一般的にはユーザによって推測されるいくつかのワードに基づいてセマンティック検索のために最適化される。
第1のステップでは、ステップ900において、クエリ・テキストがクエリ・インターフェースから受信される。次いでステップ910において、受信されたクエリ・ワードからクエリ特徴が生成される。クエリ特徴は、(変換を使用しない)入力テキストのワード自体であり得るか、又は、クエリ特徴は、上述の所定の方式又はモデルのうちのいずれか1つを使用することによってクエリ・テキストから獲得され得る。この例においても、クエリ特徴の数は分類器構成要素の適切なトレーニングのためには十分でない可能性があるので、トレーニング特徴のセットとして定義されたクエリ特徴の拡張セットを生成するために、クエリ特徴のセットの拡張が実行されるべきである。この方法のステップ912及びステップ916は、したがって、それぞれ図4を参照しながら上記で説明したステップ402及びステップ406に対応する。したがって、最初に、ステップ912において、たとえば、インデックス・データベースが利用可能であるとき、インデックス・データベースの逆方向インデックス・データベースからクエリ特徴のうちの少なくとも1つに関連するすべてのブロックの識別子Block_IDを取り出すことによって、識別子Block_IDが取得される。このようにして、選択されたブロックのリストが生成される。次に、ステップ916において、たとえば、インデックス・データベースが利用可能であるとき、インデックス・データベースの順方向インデックス・データベースから選択されたブロックの各々に関連するすべてのブロック特徴を取り出すことによって、ブロック特徴が取得される。選択されたブロックに関連するブロック特徴のセットは、拡張トレーニング特徴のセットとして定義され、トレーニング特徴のセットとして使用される。
次いで、ステップ930において、分類器構成要素が拡張トレーニング特徴でトレーニングされる。
分類のために、ソース文書のすべて又はソース文書の縮小セットのいずれかがソース文書データベースから選択される。後者の場合、図6を参照しながら上記で説明したステップ602に対応する、ステップ932において、分類されるべき文書が選択される。
文書のセットが分類のために選択されているとき、ステップ945において、たとえば、インデックス・データベースが利用可能であるとき、順方向インデックス・データベースから、選択された文書の文書特徴を取り出すことによって文書特徴が取得される。
分類は、ステップ932〜942において選択された文書を使用して実行される。前にトレーニングされた分類器構成要素は、ステップ950において、選択された文書の文書特徴を入力として使用し、選択された文書を関連度によって分類するために使用される。分類された文書は、次いでステップ960において、所定のランク付けアルゴリズムを使用して、随意に、分類された文書に関連するメタデータをも考慮に入れながら、分類器構成要素によって生成された関連度値に基づいて順序付けされる。順序付けされた関連のある文書の識別子のリストは、ステップ970において、コンピュータ可読メモリに記憶される。
本明細書で説明するシステム及び方法は、プロセッサ時間及びリソースをより効率的に使用するセマンティック検索技法を与え、照会エンティティによって検索されるテキストベースのコンテンツに対する結果セットの関連度をさらに改善する。いくつかの実施例では、セマンティック検索技法は、文書の双方向インデックス付けを使用する、文書の分類の高度な技法を採用することによって、従来技術のセマンティック検索エンジンを改善する。これらの改善により、本発明の検索エンジンは、インターネット又はイントラネットのようなサービング通信ネットワークを通じて検索の帯域幅需要を著しく低減し、また、検索エンジンのストレージ及びメモリ需要を低減する。セマンティック検索エンジンの実施例は全文検索のために特に有益である。
本発明の好ましい実施例の上記の説明は、例示及び説明を与えるが、網羅的なものであること、又は開示された正確な形態に本発明を限定することは意図されていない。変更及び変形は、上記の教示に照らして可能であるか、又は本開示の実施から取得され得る。特に、本発明の例示的な方法について一連の行為として説明したが、本発明による他の実装形態では、行為の順序は変動し得る。特に、他に依存しない行為は、任意の順序で、又は並行して実行され得る。
本発明の範囲は特許請求の範囲及びそれらの等価物によって定義される。
実例
次に、本発明による検索エンジンの動作を具体的な実例によって示す。この実例では、検索エンジンは単項分類器(unary classifier)を使用すると仮定する。固有特徴は、ソース文書のテキスト中の特定のワードの出現確率として定義される。分類器構成要素の出力は、文書特徴セットが単一のクラスに属するパーセンテージ値として定義される。検索エンジンは、さらに、あらかじめ複数のソース文書で充填されたインデックス・データベースを使用すると仮定する。
検索のためのユーザによって指定されたクエリ・テキストを「電気自動車」という用語にする。検索エンジンのトークナイザ構成要素は、クエリ・テキストの別個のワードに基づいて以下のクエリ特徴を取得する。
特徴ID ワード 確率
1 「電気」 0.5
2 「車」 0.5
クエリ特徴の数が比較的少ないので、より高い精度のために追加の固有特徴が必要とされ、したがって、検索エンジンの特徴エクステンダ構成要素は、クエリ・テキストのワードを含有するソース文書のパートを使用して、トレーニング特徴のより大きいセットを生成する。これらの文書パートは、トレーニング特徴としてクエリ特徴の拡張セットを取得するために処理される。本実例では、以下の文書パートが処理される。
「ポルシェの電気自動車は、テスラよりも良くなる...」
「テスラは10万台強を達成した。これは電気自動車企業にとっての記録であった」
「...はまたテスラPowerpack蓄電池を...にする」
「...その車は1回のバッテリー充電で64.37km(40マイル)走行するように設計されている」
「...VW Up。電気自動車の売上げを3倍にし得た、フランスでは、...」
このようにして得られた固有特徴は一緒にトレーニング特徴のセットを形成する。
トレーニング特徴ID ワード 確率
1 バッテリー (0.01)
2 車 (0.05)
3 車両 (0.003)
4 テスラ (0.02)
5 vw (0.005)
6 電気 (0.08)
7 ルノー (0.002)
8 マイル (0.0009)
9 ドライブ (0.001)
10 充電器 (0.005)
11 ポルシェ (0.01)
次に、検索エンジンは、インデックス・データベースから上記のトレーニング特徴のうちのいずれかを含有する文書を選択する。これらの文書は以下でそれらのタイトルによって識別される。
ルノー カングーZE、11月に登場
ダイムラー、ジンデルフィンゲンにバッテリー工場を建設
ポルシェの洗練された充電器はわずか15分でEVをパワーアップする
フォルクスワーゲン・グループは第1波で1000万台の電気自動車を製造する予定
アストン・マーチン初の電気スポーツカー、Rapide Eのご紹介
検索エンジンは、次に、分類器構成要素によって上記の文書の分類を実行し、次いで、分類器構成要素の出力値に基づいて文書をランク付けする。したがって、クエリ・テキストに対する文書の関連度に関する文書の仮定される順位は以下のようになり得る。
ランク 文書タイトル クラスに属するパーセンテージ
1. ポルシェの洗練された充電器はわずか15分でEVをパワーアップする 93%
2. ダイムラー、ジンデルフィンゲンにバッテリー工場を建設 90%
3. アストン・マーチン初の電気スポーツカー、Rapide Eのご紹介 86%
4. フォルクスワーゲン・グループは第1波で1000万台の電気自動車を製造する予定 83%
5. ルノー カングーZE、11月に登場 82%

Claims (15)

  1. それぞれ一意の文書識別子によって識別される文書を含有するソース文書データベースにおいてセマンティック検索を実行するコンピュータ実装方法であって、
    テキスト含有クエリのテキスト構成要素を読み取ることと、
    予め定義された特徴抽出モデルを使用して前記クエリの前記テキスト構成要素からクエリ特徴のセットを生成することと、
    前記複数のクエリ特徴に基づいてトレーニング特徴のセットを生成することと、
    前記トレーニング特徴、及び、予め定義された特徴抽出モデルを使用して前記ソース文書の少なくとも一部分から取得された文書特徴のセットを用いて、トレーニング可能な分類器をトレーニングすることと、
    予め定義された選択方式に従って分類のために複数のソース文書を選択することと、
    前記選択された文書の特徴を取得することと、
    前記トレーニングされた分類器によって、前記選択された文書の特徴を使用することによって前記選択されたソース文書を関連度の異なるクラスに分類することであって、関連度の少なくとも1つの値が各選択された文書に関連する、分類することと、
    関連度の前記少なくとも1つの値に基づいて順序付きリスト中で前記分類された文書をランク付けすることと、
    前記ランク付けされた文書の前記識別子の前記順序付きリストをコンピュータ可読メモリに記憶することと
    を含む方法。
  2. 前記クエリ・エンティティが、ユーザ・インターフェース及びアプリケーション・プログラミング・インターフェースのうちの少なくとも1つを含む、請求項1に記載の方法。
  3. 前記トレーニング特徴を前記クエリ特徴と同等であると定義することをさらに含む、請求項1又は2に記載の方法。
  4. 前記分類の前に、
    前記ソース文書データベースに記憶された前記文書の少なくとも一部分をブロックに区分することであって、各ブロックがブロック識別子によって一意に識別される、区分することと、
    各ブロックについて複数のブロック特徴を生成することと
    をさらに含む、請求項1から3までのいずれか一項に記載の方法。
  5. 分類のために文書を選択することが、
    クエリ特徴の拡張セットの前記特徴のうちの少なくとも1つに関連する前記ソース文書の前記識別子を取得すること
    を含む、請求項1から4までのいずれか一項に記載の方法。
  6. トレーニング特徴のセットを生成することが、
    前記クエリ特徴のうちの少なくとも1つに関連する前記ブロックの前記識別子を取得することと、
    前記前に選択されたブロックの各々に関連するブロック特徴を取得することであって、それによってクエリ特徴の拡張セットを生成する、ブロック特徴を取得することと、
    クエリ特徴の前記拡張セットを前記トレーニングの特徴セットであると定義することと
    を含む、請求項1から5までのいずれか一項に記載の方法。
  7. 分類のために文書を選択することが、
    前記ソース文書データベースに記憶されたすべての文書を選択すること、又は
    前記クエリ特徴のうちの少なくとも1つに関連する前記ソース文書の前記識別子を取得すること
    を含む、請求項1から6までのいずれか一項に記載の方法。
  8. 前記テキスト含有クエリが、印刷された紙文書、手書きの紙文書、編集可能な又は編集不可能な電子テキスト文書、テキスト・コンテンツをもつ画像ファイル、表示されたテキスト・コンテンツ若しくは音声テキスト・コンテンツをもつビデオ・ファイル、又は、可聴テキスト・コンテンツをもつ音声ファイルのうちのいずれか1つを含む、請求項1から7までのいずれか一項に記載の方法。
  9. 前記特徴抽出モデルが、バッグオブワード・モデル、連続バッグオブワード・モデル、連続空間言語モデル、nグラム・モデル、スキップグラム・モデル、及びベクトル空間モデルのうちの1つである、請求項1から8までのいずれか一項に記載の方法。
  10. 前記トレーニング可能な分類器が、単純ベイズ分類器、サポート・ベクター・マシン(SVM)分類器、多項ロジスティック回帰分類器、隠れマルコフ・モデル分類器、ニューラル・ネットワーク分類器、k最近傍法分類器、及び最大エントロピー分類器のうちの1つである、請求項1から9までのいずれか一項に記載の方法。
  11. 文書データベースにおいてセマンティック検索を実行するための処理システムであって、
    テキスト含有クエリを受信し、前記テキスト含有クエリからテキスト構成要素を生成するように構成されたクエリ・インターフェースと、
    前記クエリの前記テキスト構成要素からクエリ特徴のセットを生成するように構成されたトークナイザ構成要素と、
    意味的に関連のある文書の識別子の順序付きリストを生成するように構成された検索エンジン構成要素であって、前記検索エンジンが、
    前記クエリの前記テキスト構成要素に対して選択された文書のセットの関連度を評価するように構成された分類器構成要素、及び
    前記分類された文書の前記関連度に基づいて前記分類された文書の識別子の順序付きリストを生成するように構成されたランク付け構成要素
    を備える、検索エンジン構成要素と、
    前記関連のある文書の前記識別子の前記順序付きリストを記憶するためのコンピュータ可読メモリと
    を備える少なくとも1つのプロセッサ・デバイス
    を備える、処理システム。
  12. 前記ソース文書に関連する複数のメタデータを記憶するように構成されたメタデータ・ストアをさらに備える、請求項11に記載の処理システム。
  13. 前記トークナイザによって与えられる前記クエリ特徴を使用してクエリ特徴の拡張セットを生成するように構成された特徴エクステンダ構成要素をさらに備える、請求項11又は12に記載の処理システム。
  14. 少なくとも1つのプロセッサ・デバイスに、請求項1から10までの一項に記載のソース文書データベースにおけるセマンティック検索のための方法を実行させるための命令を記憶する、コンピュータ可読媒体。
  15. 1つ又は複数のプロセッサ・デバイスと、前記1つ又は複数のプロセッサ・デバイスによって実行されたとき、前記1つ又は複数のプロセッサ・デバイスに請求項1から10までのいずれか一項に記載の方法を実行させるように動作可能である命令を記憶する1つ又は複数の記憶デバイスとを備えるシステム。
JP2020521321A 2017-10-10 2018-10-09 大規模なデータベースにおけるセマンティック検索のための方法及びシステム Pending JP2020537268A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/729,296 2017-10-10
US15/729,296 US20190108276A1 (en) 2017-10-10 2017-10-10 Methods and system for semantic search in large databases
PCT/IB2018/057807 WO2019073376A1 (en) 2017-10-10 2018-10-09 METHODS AND SYSTEM FOR SEMANTIC SEARCH IN LARGE DATABASES

Publications (1)

Publication Number Publication Date
JP2020537268A true JP2020537268A (ja) 2020-12-17

Family

ID=64267862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020521321A Pending JP2020537268A (ja) 2017-10-10 2018-10-09 大規模なデータベースにおけるセマンティック検索のための方法及びシステム

Country Status (8)

Country Link
US (2) US20190108276A1 (ja)
EP (1) EP3695324A1 (ja)
JP (1) JP2020537268A (ja)
KR (1) KR20200067180A (ja)
CN (1) CN111213140A (ja)
AU (1) AU2018349276A1 (ja)
CA (1) CA3078585A1 (ja)
WO (1) WO2019073376A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11182433B1 (en) 2014-07-25 2021-11-23 Searchable AI Corp Neural network-based semantic information retrieval
US11087088B2 (en) * 2018-09-25 2021-08-10 Accenture Global Solutions Limited Automated and optimal encoding of text data features for machine learning models
CN113474767B (zh) * 2019-02-14 2023-09-01 株式会社力森诺科 文件检索装置、文件检索系统、文件检索程序及文件检索方法
US20220092130A1 (en) * 2019-04-11 2022-03-24 Mikko Kalervo Vaananen Intelligent search engine
CN110222194B (zh) * 2019-05-21 2022-10-04 深圳壹账通智能科技有限公司 基于自然语言处理的数据图表生成方法和相关装置
CN110765230B (zh) * 2019-09-03 2022-08-09 平安科技(深圳)有限公司 一种法律文本存储方法、装置、可读存储介质及终端设备
US11501067B1 (en) * 2020-04-23 2022-11-15 Wells Fargo Bank, N.A. Systems and methods for screening data instances based on a target text of a target corpus
US11941497B2 (en) * 2020-09-30 2024-03-26 Alteryx, Inc. System and method of operationalizing automated feature engineering
US10930272B1 (en) * 2020-10-15 2021-02-23 Drift.com, Inc. Event-based semantic search and retrieval
US20220237195A1 (en) * 2021-01-23 2022-07-28 Anthony Brian Mallgren Full Fidelity Semantic Aggregation Maps of Linguistic Datasets
CN113781155B (zh) * 2021-04-27 2023-11-03 北京京东振世信息技术有限公司 一种订单数据的处理方法、装置和系统
US11252113B1 (en) 2021-06-15 2022-02-15 Drift.com, Inc. Proactive and reactive directing of conversational bot-human interactions
WO2024075086A1 (en) * 2022-10-07 2024-04-11 Open Text Corporation System and method for hybrid multilingual search indexing
CN116680422A (zh) * 2023-07-31 2023-09-01 山东山大鸥玛软件股份有限公司 一种多模态题库资源查重方法、系统、装置及存储介质
CN117909299B (zh) * 2024-03-19 2024-05-10 电子科技大学 一种动态分级数据拆分系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134588A (ja) * 1999-11-04 2001-05-18 Ricoh Co Ltd 文書検索装置
JP2007200167A (ja) * 2006-01-30 2007-08-09 Nomura Research Institute Ltd 特許分析システム及び特許分析プログラム
US20160335263A1 (en) * 2015-05-15 2016-11-17 Yahoo! Inc. Method and system for ranking search content

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7249121B1 (en) 2000-10-04 2007-07-24 Google Inc. Identification of semantic units from within a search query
US20050187913A1 (en) * 2003-05-06 2005-08-25 Yoram Nelken Web-based customer service interface
US8090738B2 (en) * 2008-05-14 2012-01-03 Microsoft Corporation Multi-modal search wildcards
US8924314B2 (en) * 2010-09-28 2014-12-30 Ebay Inc. Search result ranking using machine learning
WO2012121728A1 (en) * 2011-03-10 2012-09-13 Textwise Llc Method and system for unified information representation and applications thereof
US20140006012A1 (en) * 2012-07-02 2014-01-02 Microsoft Corporation Learning-Based Processing of Natural Language Questions
WO2014040263A1 (en) * 2012-09-14 2014-03-20 Microsoft Corporation Semantic ranking using a forward index
US9069857B2 (en) * 2012-11-28 2015-06-30 Microsoft Technology Licensing, Llc Per-document index for semantic searching
WO2017188926A1 (en) * 2016-04-25 2017-11-02 Google Inc. Allocating communication resources via information technology infrastructure

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134588A (ja) * 1999-11-04 2001-05-18 Ricoh Co Ltd 文書検索装置
JP2007200167A (ja) * 2006-01-30 2007-08-09 Nomura Research Institute Ltd 特許分析システム及び特許分析プログラム
US20160335263A1 (en) * 2015-05-15 2016-11-17 Yahoo! Inc. Method and system for ranking search content

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
別所 克人 外: "単語間の階層関係に基づくテキスト分類方式", 電子情報通信学会技術研究報告, vol. 107, no. 58, JPN6022051598, 17 May 2007 (2007-05-17), JP, pages 79 - 84, ISSN: 0004937504 *

Also Published As

Publication number Publication date
CN111213140A (zh) 2020-05-29
AU2018349276A1 (en) 2020-05-28
WO2019073376A1 (en) 2019-04-18
KR20200067180A (ko) 2020-06-11
US20190108276A1 (en) 2019-04-11
US20220261427A1 (en) 2022-08-18
CA3078585A1 (en) 2019-04-18
EP3695324A1 (en) 2020-08-19

Similar Documents

Publication Publication Date Title
JP2020537268A (ja) 大規模なデータベースにおけるセマンティック検索のための方法及びシステム
Wang et al. Learning to reduce the semantic gap in web image retrieval and annotation
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
WO2006108069A2 (en) Searching through content which is accessible through web-based forms
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
CN107844493B (zh) 一种文件关联方法及系统
Landthaler et al. Extending Full Text Search for Legal Document Collections Using Word Embeddings.
Silva et al. Tag recommendation for georeferenced photos
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
CN111651675B (zh) 一种基于ucl的用户兴趣主题挖掘方法及装置
Pan et al. Reducing ambiguity in tagging systems with folksonomy search expansion
Zemlyanskiy et al. DOCENT: Learning self-supervised entity representations from large document collections
CN109460477B (zh) 信息收集分类系统和方法及其检索和集成方法
CN114491079A (zh) 知识图谱构建和查询方法、装置、设备和介质
Tsatsaronis et al. A Maximum-Entropy approach for accurate document annotation in the biomedical domain
Xia et al. Content-irrelevant tag cleansing via bi-layer clustering and peer cooperation
Shah Review of indexing techniques applied in information retrieval
CN117688140B (zh) 文档查询方法、装置、计算机设备和存储介质
CN112860940B (zh) 基于描述逻辑知识库上有序概念空间的音乐资源检索方法
CN117076658B (zh) 基于信息熵的引文推荐方法、装置及终端
AU2021100441A4 (en) A method of text mining in ranking of web pages using machine learning
Kambau et al. Unified concept-based multimedia information retrieval technique
KR100932046B1 (ko) 도서 검색 방법 및 도서 검색 시스템
Sharma et al. Normalized similarity based semantic approach for discovery of web services

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200522

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A525

Effective date: 20200605

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210927

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221206

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230303

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230628