JP5243167B2 - 情報検索システム - Google Patents

情報検索システム Download PDF

Info

Publication number
JP5243167B2
JP5243167B2 JP2008249473A JP2008249473A JP5243167B2 JP 5243167 B2 JP5243167 B2 JP 5243167B2 JP 2008249473 A JP2008249473 A JP 2008249473A JP 2008249473 A JP2008249473 A JP 2008249473A JP 5243167 B2 JP5243167 B2 JP 5243167B2
Authority
JP
Japan
Prior art keywords
semantic
query
module
index
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008249473A
Other languages
English (en)
Other versions
JP2009087347A (ja
Inventor
ディー チェスロウ ロバート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Original Assignee
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc filed Critical Palo Alto Research Center Inc
Publication of JP2009087347A publication Critical patent/JP2009087347A/ja
Application granted granted Critical
Publication of JP5243167B2 publication Critical patent/JP5243167B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本出願は、概ね、コンピュータ環境における情報の抽出(retrieval)に関し、とくに、情報を索引化して検索するためのシステムおよび方法に関する。
電子データは、世の中がますますコンピュータ化されるにつれて驚くほどの量で作成かつ記録されている。残念ながら、離散データセット内で特定のデータを見つけることは、データ量が増えるにつれてますます難しくなる。データベース内であるか、ワールドワイドウェブ(Web)などの分散型環境内であるかを問わず、対象となるデータを効率的に検索することには、一般的に、1つまたはそれ以上の電子索引にアクセスすることが含まれる。多くのコンピュータ環境において、索引は、市販のデータベース製品により作成かつ維持される。ウェブという状況においては、索引は、インターネットを介して利用可能である様々な検索エンジンにより作成かつ維持されている。大半の環境における課題は、索引を最新に維持すること−データが環境内で追加、除外、および更新されるときにデータを反映することである。
転置索引は、多対多の関係を索引化するためにデータベースおよび検索エンジン内で使用されるタイプの索引である。転置索引は、一般的に、複数の記録から成り、各記録は、キーと1つまたはそれ以上の関連のリファレンスとを有する。各リファレンスは、リファレンスマテリアル内でのキーの存在を示す。例えば、ウェブページの索引は、キーとしての単語識別子およびその単語を含むウェブ文書のユニフォームリソースロケータ(URL)のリファレンスとともに多くの記録を含む場合がある。
従来の索引は、一般的に、電子文書に対して索引「キーワード」を関連づけるものである。例えば、キーワード「conventional(従来の)」が、これらの従来の索引化システムの1つにより索引化されていた場合には、そのキーワードはこの文書と関連づけられることになる。しかしながら、文書内のキーワードの存在は、特定の検索と文書との関連性を保証するものでない。「conventional」という単語は、その単語が使用されたことがある他の全ての文書と関連づけられる恐れがある。何十億もの文書が常に拡張するデジタル世界にあり、かつ、有限の数の単語がそれらの文書を構成するために使用されている状態で、単純なキーワード検索は、莫大な量の関連のない材料の中に関連の材料を埋没させる運命にあるように思われる。関連のない材料の大きな種々のデータセット内で関連の材料を見つけるという問題は、認識されて久しい。キーワード検索を洗練するために様々な手法がこれまで取られている。例えば、一部の手法では、文書内のあるキーワードの別のキーワードとの近似を計算して用いる。別の手法では、複数のキーワードを互いに関連づける統計モデルを生成する。
電子情報の索引化および検索は、現代の突出した課題の1つであることに変りはない。関連の材料を見つけるために有用な索引を生成して検索する改良形システムおよび方法に対する満たされていない要望がある。
情報の意味検索のための方法およびシステムを提供する。情報パッセージについて意味索引キータームが生成される。索引キータームは、規則に基づいた変換部により生成された1つまたはそれ以上の索引キートークンを含む。索引キートークンは、情報パッセージにある意味関係の表現を含む。意味関係を説明するために、トークンタイプおよび他の情報を索引キートークンに添付することができる。索引タームは、意味索引タームが意味索引キータームにより文書化された意味関係に関連した情報パッセージに関連づけられるように、索引転置法により索引化される。結果的に得られる転置索引は、本発明の他の実施形態に含まれた検索段階に利用可能である。
検索段階により、規則に基づく変形部により生成された1つまたはそれ以上のクエリキートークンを含む1つまたはそれ以上のクエリキータームが生成される。クエリキートークンは、検索クエリにある意味関係の表現、例えば、自然言語テキスト文字列を含む。クエリキーターム変換部は、索引キーターム変換部と全く同じか、または、類似のものとすることができる。その後、クエリ検索キータームによる文書化に従って、索引キータームにより索引化された意味関係および概念が、クエリの意味関係および概念のサブセットで転置索引に対して照会される。クエリキータームにマッチングする1組のパッセージを結果セットとして戻すか、または、さらに処理することができる。
索引キーターム、クエリキータームのいずれも、直接的に、または、パッセージ内の情報の意味関係を文書化する圧縮知識表現、および、クエリ内の情報の意味関係を文書化する類似の圧縮知識表現を参照して生成することができる。パッセージの意味表現は、結果セット内にパッセージを含む前に、統一プロセスを用いて、クエリの意味関係とマッチングさせることができる。
情報検索システムは、情報のコーパス内に含まれた情報パッセージの確認済みの意味に基づいて情報を索引化および検索する。文字言語の場合、単語は、容認された意味および文法に与えられた理解力で、前後関係において解析される。この意味解析は、被解析データ内にある意味関係を定める複雑な、かつ、内容豊富であることが多いデータ構造を作成する自然言語理解プログラムにより行われる。検索時に、自然言語クエリは、類似のデータ構造に変換される。情報パッセージについて生成されたデータ構造に照らしてクエリについて生成されたデータ構造を比較することにより、情報のコーパスから関連データが抽出される。これらの比較の各々は、各々の比較を行うために必要とされる相対量のコンピュータリソースの点から見ると計算コストが高いものである。情報のコーパスを索引化するために生成しなければならない各データ構造に含まれた多量のデータおよび潜在的に莫大な数のデータ構造体を考慮すると、クエリに関連しそうなデータ構造を予め選択する効率的かつ正確な方法およびシステムであれば、非常に望ましいであろう。
図1を参照すると、索引付け段階200は、各パッセージを取得してパッセージ構文解析部202にパッセージを転送することによりパッセージ201のコーパスを索引化する。パッセージ構文解析部202は、f構造というデータ構造にパッセージを構文解析する。意味表現生成部204は、圧縮意味表現を生成し、その1つの形は、以下で意味表現という。意味表現生成部204は、パッセージのコンテンツおよび構造を解析する関数、オントロジなどの言語学リソースにアクセスして適用する関数、パッセージの解釈における潜在的な曖昧さを文書化する関数、書換規則を適用して意味表現を構築しかつ書き込む関数を含むことができる。
意味表現は、その後、変換部208によりキータームに変換される。各キータームは、一意な識別子に関連づけられてキーターム辞典210に記憶される。意味表現の変換から生成されたキータームは、その後、情報源パッセージに参照して関連づけられて、転記(posting)ファイル212に記憶される。保管効率については、キーターム、パッセージおよび意味表現に関連した一意な識別子が、一般的に、転記ファイル内で関連づけられるが、実際の情報は、転記ファイル212の一部として記憶することができる。キーターム、意味表現およびパッセージの記述は、それらの値または実際値自体へのリファレンスを含めて読み取られるべきものである。
転記ファイル212は、複数の転記220を含む。各転記220は、リファレンス218に関連したキーターム216を含む。リファレンス218は、パッセージまたはパッセージから導出された情報をキーターム216と関連づけるものである。例えば、転記220は、ソースパッセージ222のリファレンス、その意味表現から導出された意味表現(SemRep)224のリファレンス、または、データパスまたはパッセージを含む原始文書へのリンクなど、任意の他の有益情報226を含むことができる。
転記ファイル212が転記220で読み込まれると、転置(inversion)エンジン230は、各々の独自のキーターム216を転記220を経由してそのキーターム216に関連づけられるリファレンス218の各々に関連づける索引240を作成する。現在知られているかまたは将来に開発される任意の索引転置法またはシステムを使用して転置索引を作成することができる。
図2は、例示的な意味表現生成部204をさらに詳細に例示する。パッセージ310は、意味表現エンジン320による処理に向けて取得される。パッセージ310は、別のパッセージ312の一部として含むことができる情報のデータの塊を表し、データの塊自体は、文書314または他の形の含まれた情報パッセージに属することができる。例えば、パッセージ310は、「nobody saw a man with a telescope(誰も、望遠鏡を持った男に会わなかった)」という文である。この文は、文書314内に存在する段落312内に含めることができる。パッセージ310は、文中の語句を表すこともできる。
意味表現330は、意味表現エンジン320により生成される。意味表現エンジン320は、パッセージ310のコンテンツおよび構造を解析する関数、オントロジなど言語学リソースにアクセスして適用する関数、パッセージ310の解釈における潜在的曖昧さを文書化する関数、および書換規則を適用して意味表現330を構築しかつ書き込む関数を含む。意味表現エンジン320は、規則により言語の概念的意味の論理的表現にパッセージ310を変換する。結果として生じる圧縮意味表現は、深い意味関係を文書化する。例えば、図2に例示する意味表現330は、サンプルパッセージ310「nobody saw a man with a telescope(誰も、望遠鏡を持った男に会わなかった)」の圧縮意味表現である。意味表現330は、パッセージ310の意味解析を含む複数の下部構造332を含む。
異なる意味関係を文書化するために、異なるタイプの下部構造332が使用される。例えば、役割関係の下部構造334は、視覚事象(see##13と表示)336を人物(person##10と表示)338と関連づける。一時的な関係の下部構造340は、ここで、視覚事象336を今までに起こったことがあると認識かつ記録する。一部の下部構造332は、パッセージ310が曖昧なときに他の了解事項を文書化する。例文「Nobody saw a man with a telescope(誰も、望遠鏡を持った男に会わなかった)」は、下部構造342(代案「A1」)により記録されるように、「a man was seen with a telescope(男は望遠鏡で見られた)」、または、下部構造344(代案「A2」)により記録されるように、「a man was seen using a telescope(男は、望遠鏡を使用して見られた)」と解釈することができる。
他の下部構造350は、オントロジ354などの意味支援リソース352、または、文法規則データベースなどの他のソース356から引き出される語彙関係を文書化することができる。プリンストン大学認知科学研究所により作成かつ維持管理されるWordNetは、英語の意味辞典であり、かつ、オントロジの1つの例である。WordNetは、単語をシンセット(synset)という同義語の組に分類する。シンセットは、単語間の関係を指定する階層にまとめることができる。例えば、上位語は、主語の単語に関連したより一般的な単語であるか、または、下位語は、主語に関連した関連したより特定の単語である。意味表現エンジン320は、下位概念の下部構造35のデータを読み込むためにシンセットから情報を引き出したり、解釈したり、または、修正したりすることができる。例えば、望遠鏡358の概念は、姿見鏡360(ID 4341615)または対象物(ID 1740)362などの漸進的に一般的になるタームと関連づけることができる。同様に、意味表現エンジン320は、ターム「physical object(対象物)」(ID1740)362を破棄するなど、一般的すぎて検索内において実用性がないタームを下部構造350内で省略することができる。
意味表現生成部204により生成された意味表現330は、意味表現データベース370に記憶され、そこで、一意な識別子およびソースパッセージのリファレンスと関連づけることができる。データベースでの記憶に加えて、意味表現は、任意の形の揮発性または不揮発性メモリに記憶するか、または、必要に応じて生成することができる。
図3においては、キータームへの情報の変換400を例示する。意味変換部402は、索引ターム406への処理に向けて情報パッセージの圧縮意味表現404を取得する。一実施形態においては、圧縮意味表現404は、例えば図2に示すように、意味表現330である。別の実施形態においては、圧縮意味表現404は、独自の解釈ルーチン、オントロジなどの意味リソースの直接的な使用を介して、意味変換部402により生成される。
意味変換部402は、変換規則データベース412から変換規則411を引き出す規則に基づく変換プロセッサ410を含む。意味表現330を指摘し、かつ、主語パッセージへの索引パスを実現するために、1つまたはそれ以上のキー索引ターム414が生成される。とりわけ、意味表現の作成における種々の微妙な点および言語学リソースに関する問題のために、関連したパッセージは、クエリから生成されるクエリキータームと予測可能に整合する索引キータームを必ずしも有することができるわけではない。経時的にキータームの関連を向上させるために、発見的調整部460は、変換規則411を調整するために抽出段階またはマッチング段階の一方または両方において判断される測定基準とインタフェースする。規則は、検索成功などの測定基準の経験的観察に基づいても調整される。
変換規則411は、性能を向上させるために、経時的に追加、削除、または、編集することができるように変換規則データベース412に記憶される。変換規則の例としては、固有名詞など、特定のターム420を特定かつ索引化する規則、パッセージまたはクエリ422内で使用される実際のタームの同義語を特定かつ抽出する規則、パッセージまたはクエリ424内で使用される実際のタームの上位語を特定かつ抽出する規則、パッセージ426内でのタームの文法上の役割を特定かつ関連づける規則、ターム428の単語感覚を特定かつ関連づける規則、あるいは、オントロジまたは他の言語学リソースなどから利用することができるものなど、任意の他の言語学識別子430を関連づける規則がある。変換規則411では、厳密に言語上の情報以外に基づいて索引ターム414の生成を引き起こすこともできる。例えば、拡張規則432では、企業(Big BlueまたはIBM)には愛称を、より堅苦しいタームには話し言葉を代用するなど、論理的関連に基づいてキータームを生成することができる。種々の発見的方法が解析され、かつ、経験が進むにつれて他の変換規則434が開発されることが予想される。
サンプルパッセージ506の索引キートークン502〜504の生成の例を図4に例示する。サンプルパッセージ506は、「the man gave a dog a bone(男は、犬に骨を与えた)」である。この文は、いくつかの下部構造510を含む意味表現501に翻訳される。下部構造510により、サンプルパッセージ506の意味解析が定められる。説明を不明瞭にしないために、可能な下部構造510の数個のみを例示する。下部構造510は、多くの他の可能な意味関係の中からの文書の意味的「役割(roles)」および「概念(concepts)」を例示する。例えば、「man(男)」は、1つの下部構造512内で文の主語として認識され、第2の下部構造514は、文の直接目的語を「bone(骨)」として文書化し、第3の下部構造516は、「dog(犬)」を文の間接目的語と特定する。「概念」下部構造518〜522は、これらの目的語を、関連した概念リストに拡張する、この場合、上位語、または、タームの漸進的に一般的になる同義語の組としてまとめられる。例えば、「man(男)」の概念は、その他の方法で、概念下部構造518において、「person(人)」、「animal(動物)」または「agent(行為の主体)」として記述することができる。同じタイプの拡張は、「bone(骨)」の概念下部構造520または「dog(犬)」の概念下部構造522について可能である。
多くの可能な変換520〜532のうちの2つを図4に示す。これらの変換規則530は、索引キートークン502〜504を生成するために変換エンジン540により使用される。これらの変換規則530〜532について呈示する例は、書換規則の形を取る。これらの書換規則では、下部構造510から、索引ファイル560内での独自のキーとして使用することができる索引タームに情報を翻訳し、かつフォーマットする。同じ下部構造510は、異なる索引キートークン502〜504を同じ情報から生成する複数の変換規則530〜532の入力の役目をすることができる。
変換規則530では、例「subject(x),direct_object(y)=>「sb_ob:<x>;<y>」が呈示されており、これは、意味表現501から主語および直接目的語の下部構造を抽出して基準形式に情報を書き込む。索引トークンは、ラベルまたはトークンタイプおよび下部構造から抽出された主語情報を含む。結果として生じる索引トークンまたは索引タームの例は、「sb_ob:man;bone」572であり、これは、タームタイプ「sb_ob」主語情報「man(男)」および直接目的語情報「bone(骨)」を含む。変換エンジン540は、意味表現501の概念下部構造518〜522を参照して主語と直接目的語の意味関係に関連した概念の索引トークンを生成することにより、変換規則530の拡張を処理することもできる。例えば、「bone(骨)」の拡張としての「sb_ob;man;edible−object」、または、同様に「man(男)」の拡張としての「sb_ob:animal;bone」のように、他のキーインデックストークン574〜576を生成することができる。他の拡張された索引トークン580をこの簡素化した例として図4に例示する。
異なる経路を介して同じパッセージ506への代替パスに実現するためにパッセージ506の代替索引キータームを有利に索引化することができる。変換規則532では、情報間の関係をそれほど具体的には定義していないが、それでも文の文法を表す索引トークン504に主語と目的語の関係を書き変える例である。例えば、「subject(x),direct_object(y)=>「sb:<x>」,「do:<y>」は、結果的に、別個にキーインデックストークン「sb:man」582および「do:bone」584およびそれらの様々な拡張586〜588となる。変換エンジン540は、索引キートークン502〜504の生成を制御するか、または、他の方法でフィルタリングするように下部構造510を処理することもできる。例えば、変換エンジン540は、関連ターム間の意味距離を判断して拡張を制限することができる。ターム間の意味距離は、そのリストの順序によりリスト内で示すことができ、初めのタームは、リスト内では後出のタームよりも密接な関係がある。変換エンジン540は、この例においては、検索中に、一般的すぎて使用できないとして、「object(対象)」への「bone(骨)」のキートークン592拡張を省略しながら、「edible−object」を「bone(骨)」と関連づけるキートークン590を生成することができる。
索引キーターム560を形成するために索引キートークン502〜504の1つまたはそれ以上が組み合わせられる。情報パッセージ毎に1つまたはそれ以上の索引キーターム560を作成することができる。
キーターム辞典600が図5に示されており、複数のキーターム606を含む。キーターム辞典600は、転記データベースへのポインタである一意な識別子に「索引ターム(index terms)」を関連づけるデータベースである。換言すると、索引タームがあれば、辞典は、そのタームの転記にアドレスを返すことができる。タームの転記は、発生データ、タームが発生する文書、文、または、下位文の構成要素の全てを指す。
索引ターム602〜606は、元の文書内の単語の表現を符号化する文字列である。タームは、実際の単語文字列自体、または、単語(例えば、同義語、上位語、または下位語)622と言語学的に関連した単語文字列を含むことができる。タームは、また(または代わりに)、単語または何らかの関連した単語を表す語彙リソース(辞書またはオントロジ)からの識別子(ルックアップキー)を含むことができる。
さらに、索引タームは、文624中での単語の使われ方に関する言語学的情報を含むことができる。この情報として、品詞(例えば、名詞、動詞、または形容詞)、単語が果たす文法上の役割(例えば、主語、直接目的語、または間接目的語)、および元の単語との索引タームの関係(同義語、上位語、下位語などである場合)を挙げることができる。
この情報の全ては、異なる文字列または文字符号化を適切な区切り文字により分離される単一の文字列に連結することにより、索引ターム604に記憶される。例えば、直接目的語の役目をする、名詞として使用される元の文書中の「man」という単語は、「man:VB:N:DO」として索引タームに符号化することができ、ここで「man(男)」は、元の単語であり、「VB」は、文字列が文字通りに単語である(元の文書中に現れるとき)ことを示し、「N」は、それが名詞であることを示し、「DO」は、それが文中で直接目的語の役目をすることを示す。
別の索引ターム606は、この単語の上位語と共に追加することができ、索引ターム「man:VB:N:DO」が得られる。あるいは、「man」という単語は、何らかの特定の語彙リソース内の「1234」というルックアップキーに関連づけることができ、かつ、索引タームは、その後、「1234:ID:N:DO」として符号化することができ、「ID」は、「1234」が特定の語彙リソースのルックアップ識別子であることを示す。
実施形態においては、各キーターム602〜606は、1つまたはそれ以上のトークン608〜618を含む独自の文字列である。トークン608〜618は、タイプフィールド620と、タームまたはターム識別子622と、発見的調整用測定基準の記憶など、関連データまたはメタデータの関連づけに利用可能な他のフィールド624とを含む。トークン608〜618の例としては、索引キーに妥当な独自の文字列を形成するために、個々にキーターム602に、または、様々な組合せで使用することができる図4に示す索引キートークン502〜504がある。
図6を参照すると、転置索引700は、複数の記録または「転記(postings)」702〜706を含む。各記録は、1つまたはそれ以上のリファレンス714〜724に関連づけられているキーターム708〜712で索引エントリを表す。リファレンスは、パッセージフィールド730、意味表現フィールド732、または、一方または両方に関連づけられた識別子を含む。他の情報734は、原始文書へのリンクまたは関連のパッセージの位置など、記録に関連づけることもできる。実施形態においては、意味表現フィールド732は、意味表現データベース370(図2)から関連意味表現330を検索するために使用される識別子を記憶する。パッセージまたはパッセージのリファレンスは、関連のパッセージフィールド730から取得することができる。パッセージリファレンスは、意味表現データベース370に記憶された意味表現330に関連づけることもできる。
クエリに関連するパッセージは、検索段階内で特定されて戻される。以下の説明を行う上で、検索段階は、抽出段階およびマッチング段階を含む。候補パッセージは、パッセージのキー索引タームの生成に相当する方法でクエリに向けて生成されたキー索引タームを使用して抽出段階内で特定される。クエリおよびパッセージの両方に向けて生成されたキータームのタイプおよびマッチングにある程度基づいて、関連性評価および発見的調整を経由して1組の候補パッセージが決定される。マッチング段階は、クエリの意味表現に照らした、候補パッセージの意味表現の相対的により計算コストが高いマッチングを含む。検索段階では、クエリに関連するとわかるパッセージのリファレンスを戻す。本明細書で使用されるとき、パッセージのリファレンスは、実際のパッセージを含むことができる。
例示的な抽出段階を図7以降に例示する。検索の基盤を形成するためにクエリが設けられる。クエリ構文解析部802は、クエリを取得して構文解析する。実施形態においては、クエリ構文解析部802は、ゼロックス言語学環境(XLE:Xerox Linguistic Environment)を使用してf構造を生成する。意味表現生成部804は、クエリの圧縮意味表現を生成する。1つの形の圧縮意味表現を、「意味表現(semantic representation)」という。意味表現生成部804は、クエリのコンテンツおよび構造を解析する関数、オントロジなどの言語学リソースにアクセスして適用する関数、クエリの解釈における潜在的な曖昧さを文書化する関数、書換規則を適用して意味表現を構築しかつ書き込む関数を含むことができる。
例示的な意味表現生成部204(図2)は、パッセージおよびクエリ用の両方の意味リファレンスの生成に使用することができる。例えば、意味表現生成部204は、索引化段階および検索段階のいずれかまたは両方にアクセス可能なサーバコンピュータ140上で動作することができる。同じ意味表現生成部204を使用した方がパッセージもクエリも一貫して解釈することができ、マッチングのチャンスが大きくなることを含意しているが、パッセージおよびクエリの意味表現を生成するために同じ意味表現生成部を使用する必要はない。たとえば、あるいは、意味表現生成部804は、パッセージに使用されるものと異なる規則または強調でクエリを処理するように構成することができる。
クエリの意味表現は、その後、キーターム変換部808によりキータームに変換される。キータームの生成は、図3を参照して先に論じている。意味表現生成部204と同様に、キーターム変換部808は、索引化段階、抽出段階の一方または両方により使用されるようにサーバコンピュータ上で記憶することができる。あるいは、特に、キーターム変換部808は、クエリを処理するように構成することができる。キータームが生成されるときに、ターム辞典600(図5)にアクセスして、キータームは、まだ存在しない場合にはターム辞典に追加される。その後、クエリから生成された1組のキーターム810が、抽出部812に供給される。クエリ時に、クエリの意味表現から生成された索引タームが、転置索引/転記内で調べられる。したがって、クエリ中のターム毎に、各タームがコーパス内で発生する発生情報を抽出することができる。発生情報に対してセット演算を行うことにより、サーチエンジンは、例えば、クエリ内で各タームの何らかの変形の少なくとも1つの例を含む文書のみを見つけることができる。例えば、クエリからの索引タームが「man:VB:N:DO」および「person:VB:N:DO」を含む場合、これらのタームのいずれも辞典内で調べられ、その両方について転記が抽出される。これらのタームの両方の発生の結合体は、この特定の単語のいずれかの表現含む全ての文書(または、文または下位文構成要素)を表す。このセットは、その後、クエリ内で全てのタームの何らかの変形を含む文書(または文など)を見つけるために、他のタームについて抽出された転記とインターセクトさせることができる。
候補抽出部812は、セット演算を実行して関連性得点をパッセージに割り当てることにより1組の抽出候補を決定する。抽出候補は、その後、潜在的マッチング候補セットを生成するために抽出候補をフィルタ処理して評価する候補選択部814に供給される。発見的抽出調整部816は、潜在的マッチング候補セットを評価して、マッチング段階に向けてマッチング候補セット818に供給するか、または、問題のない組のマッチング候補818が特定されるまで、候補抽出812〜816を反復して実行する。
クエリ906に向けたクエリキートークン902〜904の生成の例を図8に例示する。この簡素化した例においては、クエリ906「A person gave a dog a bone(人は、犬に骨を与えた)」は、サンプルパッセージ506「A man gave a dog a bone(男は、犬に骨を与えた)」の検索が意図されている。サンプルクエリ906は、サンプルパッセージ506を複写せず、むしろ類似の意味論的な前提を表す。サンプルクエリは、いくつかの下部構造910を含む意味表現908に翻訳される。下部構造910により、サンプルクエリ906の意味解析が定められる。多くの可能な意味関係から、下部構造910は、パッセージ506に関連した索引キートークン502〜504の一部、および、クエリ906に関連した重要なクエリキートークン902〜904の可能な整合を立証するために、やはり、「役割」および「概念」に限定される。クエリにおいては、「person(人)」は、1つの下部構造912において例文の主語として認識され、第2の下部構造914は、文の直接目的語が「bone(骨)」であることをと実証し、第3の下部構造916は、「犬」を文の間接目的語と特定する。「概念」下部構造は、これらの目的語を、関連概念のリストに拡張する、この場合、上位語、または、タームの漸進的に一般的になる同義語の組としてまとめられる。パッセージからのターム「man(男)」の拡張518により、サンプルクエリ906の主語に向けて生成された索引ターム972と同等の索引ターム578が得られたことに注意すれば役に立つであろう。
より簡単にキー索引タームの可能な整合を立証するために、変換規則930〜932は、サンプルパッセージ506を変換するために使用される同じ変換規則530〜532である。これらの変換規則930〜932は、クエリキートークン902〜904を生成するために変換エンジン940により使用される。変換規則930〜932は、例えば、下部構造910から、インデックスファイル700に対して照会する独自のキーとして使用することができる索引タームに情報を翻訳およびフォーマットする書換規則である。例示的な変換規則により示されるように、同じ下部構造910は、同じ意味関係から異なるクエリキートークン902〜904を生成する複数の変換規則930〜932の入力の役目をすることができる。クエリキートークン902〜904の1つまたはそれ以上は、クエリキーターム960を形成するために組み合わせられる。クエリ毎に1つまたはそれ以上の索引キーターム960を作成することができる。
変換規則930では、例「subject(x),direct_object(y)=>「sb_ob:<x>;<y>」が呈示されている。この例示的な変換規則では、意味表現908から主語および直接目的語の下部構造を抽出して、基準形式に情報を書き込む。各キートークンは、ラベルまたはトークンタイプおよび下部構造から抽出された主語情報を含む。結果として生じる索引トークンの例は、ターム形式「sb_ob」、主語情報「person」、および直接目的語情報「bone」を含む「sb_ob:person;bone」972である。変換エンジン940は、意味表現908の概念下部構造918〜922を参照して主語/直接目的語の意味関係に関連した概念の索引タームを生成することにより、変換規則930の拡張を処理することもできる。例えば、キー索引トークン974〜976は、「bone」の拡張として「sb_ob:person;edible−object」、または、同様に、「person」の拡張としての「sb_ob:animal;bone」と生成することができる。他の拡張された索引トークン980をこの簡素化した例として図8に例示する。
関連した索引化パッセージとのマッチングの可能性を向上させるために、クエリに向けて関連情報の代替索引タームを有利に生成することができる。変換規則932では、情報間の関係をそれほど具体的には定義していないが、それでも文の文法を表す索引トークン904に主語と目的語の関係を書き変える例である。例えば、「subject(x),direct_object(y)=>「sb:<x>」、「do;<y>」は、結果的に、別個のキー索引トークン「sb:person」982および「do:bone」984およびそれらの様々な拡張986〜988となる。変換エンジン940は、キートークン902〜904の生成を制御、または、他の方法でフィルタリングするために下部構造910を処理することもできる。例えば、変換エンジン940は、関連ターム間の意味距離を判断して拡張を制限することができる。ターム間の意味距離は、そのリストの順序によりリスト内で示すことができ、初めのタームは、リスト内では後出のタームよりも密接な関係がある。変換エンジン940は、この例においては、検索中に、一般的すぎて使用できないとして、「object」への「bone」のキートークン992拡張を省略しながら、「edible−object」を「bone」と関連づけるキートークン990を生成することができる。
図9を参照して抽出部812を更に詳細に説明する。レコード抽出部1002は、クエリ906に向けて生成されたキートークン902〜904を含むレコードがないか、転置索引700(図6)に照会する。抽出で使用されるキートークン902〜904は、発見的調整プロセスを介して、または、反復的抽出プロセスの一部として候補抽出部812により判断されるキータームのサブセットとすることができる。レコード抽出部1002は、転置索引700から抽出されたキーターム毎に結果セット1004を戻す。
論理的セット演算部1006は、抽出されたキートークン902〜904について取得された結果セット1004に論理的セット演算を実行する。例えば、2つまたはそれ以上のキートークン902〜904について戻された結果セット1004は、パッセージとの複数のキータームの関連づけを判断するためにインターセクトさせることができる。セット演算は、クエリキートークン902〜904に関連した任意のデータまたはメタデータ、または、結果セット1004に関連した記録索引702〜706に対して行うこともできる。
セット演算1008の結果は、索引抽出から取得された結果を採点するために結果採点部1010により使用される。結果採点部1010は、関連性分析部1012および関連性規則データベース構成要素1014を含む。関連性分析部1012は、関連性規則データベース構成要素1014から採点規則1012〜1016を適用する。この分析の一部として、セット演算の結果から推論することを挙げることができる。例えば、索引キートークン502〜504に対応する複数のクエリキートークン902〜904を見つける規則1016では、パッセージが関連の意味役割−すべてが同じパッセージ内−において関連の意味概念を所有するという推論をサポートすることができる。結果採点規則1018の別の例では、各パッセージ内に存在する検索タームのタイプに基づいて重み付き得点を割り当てる。例えば、対応する固有名詞を表すキータームは、高く重み付けすることができ、遠い上位語を表すキータームは、相対的により低い得点で重み付けすることができる。発見的方法または経験的観察に基づいて、他の規則1020を関連性規則データベース構成要素1014に追加することができる。1組の抽出候補1030が、更なる処理に向けて候補選択部1032に供給される。
候補選択部1032を図10で更に詳細に例示する。抽出候補1030のセットは、1つまたはそれ以上の候補1104〜1108を含む。抽出候補1104〜1108は、リファレンス1110を含み、クエリのリファレンスの潜在的関連性を判断するために候補抽出部812により使用することができる他の情報フィールド1112〜1116も含むことができる。例えば、意味情報フィールド1112は、文中にある単語の意味役割およびそれらの単語がある状況に関する情報を含むことができる。他の有益な情報としては、関連の採点部1010により割り当てられた抽出得点を維持する抽出得点フィールド1114、および、パッセージ内での単語の位置および互いとの近位の関係などの情報を含むことができるデータ/メタデータフィールド1116を挙げることができる。抽出候補1104に関連した情報1110〜1116は、フィルタリング部1120により供給されるフィルタの動作の基盤となる。意味情報フィールド1112に関連した意味情報の一部には、特に、内包1122または除外1124についてフラグを立てることができる。例えば、固有名詞として認識されたタームには、特に、内包に向けてフラグを立てることができ、一方、公知の無関係な状況のタームは、とくに除外することができる。フィルタリング部1120は、特定のキーターム1130〜1132(または、それらのキーターム内のトークン)の有1126/無1128を認識することができる。パッセージ1110の関連性を判断する他のフィルタ1136をフィルタリング部1120に追加することができる。
マッチング候補セット1150内に含む候補の選択は、さらに、関連性予測部1140に従うものとすることができる。関連性予測部1140は、抽出得点1142を解析して、発見的に調整された閾値に基づいて抽出候補1030のフィルタリングをできる限り洗練する。関連性予測部1140は、逆参照カウント1144または他の経験的に判断された関連性予測値1146などの従来の関連性指標を適用することもできる。候補選択部1032は、マッチング段階(図12)内で行われるより完全なかつ計算コストが高い意味マッチングに向けて、フィルタリング済みの1組のマッチング候補1152を含む1組のマッチング候補1150を生成する。各マッチング候補1150は、抽出段階中に関連づけられた情報154〜1160の一部または全部を維持することができる。例えば、抽出得点1158は、最終マッチング得点の要素として使用することができる。
候補抽出部812は、機能ブロックの形で図11に示す発見的抽出調整部816により、経時的に性能を向上させるように調整される。発見的調整部816は、関連性得点1010(図9)、フィルタリング部1120、および関連性予測部1140(図10)などの構成部により行われる解析を調整する。マッチング成功回帰部1202は、マッチング候補1204がマッチング段階においておよび潜在的に探索(search retrieval)までうまくマッチングされる成功例の回帰をモニタおよび計算する。発見的抽出調整部816は、抽出測定基準1208を維持する。発見的抽出調整部816は、また、1組の抽出目標1210をモニタおよび管理する。例えば、目標としては、特定の検索ターム1212の抽出、最小関連性得点1214、必要とみなされたトークンまたは検索語1216の内包、重要とみなされたトークンまたは検索語1218の内包、特定のターム1220の内包、セット1222内での最小数の抽出候補の呈示、最大数の検索候補1224の呈示、または、他の目標1226を挙げることができる。発見的抽出調整部816が探索目標1210またはマッチング成功回帰部1202の判断に照らして候補抽出の成功を判断すると、発見的抽出調整部816は、マッチング候補セットをマッチング段階に転送することができるか、あるいは、抽出繰返し1240を起動させる。抽出繰返し1240は、図7に示すループ820により示されるように、より幅広い抽出候補セットを検索するために検索判定基準を漸進的に緩和することができる。
例示的なマッチング段階1300を機能ブロックの形で図12に例示する。マッチング段階1300中に、マッチング候補1302に向けて生成された意味表現1304は、マッチング部1310によりクエリ1306の意味表現1308と比較される。マッチング候補1302は、抽出段階(図8〜図11)から得られる。マッチング候補1302の各々に関連した意味表現1304は、意味表現記憶部370(図2)から検索するか、マッチング候補1152に関連したデータ1116の一部として渡すか、または、意味表現生成部204(図2)により必要に応じて生成することができる。同様に、クエリ1306に関連した意味表現1308は、意味表現記憶部370(図2)から検索するか、抽出段階(図7)から渡すか、または、意味表現生成部204により必要に応じて生成することができる。
マッチング部1310は、意味表現1304と1308との間でマッチング作業および採点作業を行う。これらの操作は、統一作業(unification operations)を含むことができる。マッチングの結果は、1組の検索結果パッセージ、マッチング得点、または他の測定基準として報告することができる。結果採点部1320は、意味表現1304および1308の整合に基づいて、マッチング候補1302の各々について結果得点を決定する。一実施形態においては、マッチング部1310は、マッチング候補1302の各々について結果得点を呈示するために抽出得点1158と組み合わされているマッチング得点1490を生成する。結果採点部1320により決定された結果得点は、検閲されて、潜在的に発見的調整部1330への入力の役目をする。実施形態においては、発見的調整部1330は、図11を参照して論じている抽出段階で使用される同じ構成部の一部である。発見的調整部1330は、マッチング部1310を調整するか、または、例えば、抽出判断基準を調整して抽出繰返し1240を起動させることにより抽出段階と相互に作用させることができる。検索結果部1340は、クエリに応答して、戻す検索結果リファレンスまたはパッセージを選択する。検索結果フォーマット部350は、プレゼンテーションフィルタに従って検索結果リファレンスまたはパッセージをフォーマットすることができる。例えば、パッセージのリファレンスまたはパッセージへのリンクは、結果得点にしたがって整理することができる。
図13を参照すると、マッチング部1310は、マッチング候補毎に意味表現1410を取得すると共に、クエリ1412の意味表現を取得する。マッチング統一部1420は、意味表現330(図2)内に存在する多くの下部構造332の中から選択する下部構造選択部1430を含む。下部構造332の一部または全てを、統一プロセスに向けて選択することができる。
下部構造整合部1450は、下部構造選択部1430により選択された下部構造に整合法則1452およびマッチング基準1454を適用する。一般に、統一プロセスにおいては、フィルタは、マッチング判断基準を通過する述語と項の関係の各対から対応するタームを結びつける。整合は、インターセクション1456と同じくらい単純なものとすることができるか、または、他の1458より上位の解析を適用することができる。例えば、マッチング判定基準1454は、文字列トークンを比較するか、または、各タームに関連したオントロジ階層を比較することにより意味距離を計算することができる。疑問詞など、特定のタームは、自由にマッチングさせることができ、一方、他の文形式を考慮しないものとすることができる。
下部構造整合部1450は、下部構造整合採点部1470に調整結果を供給する。下部構造整合採点部1470は、採点判定基準1472〜1480をマッチング結果に適用する。例えば、整合する下部構造1472の百分率は、比例得点を示すことができ、一方、パッセージ意味関係から同じ関係内にある対応するタームとの、クエリ意味表現からあらゆる関係にある全てのタームの独自の結合に特に高い得点を割り当てことができる。意味距離計算部1474は、遠い関係より近い関係の方に高い得点を関係に割り当てることができる。計算部1476とマッチングしない場合、タームまたは意味関係がないことに基づいて、得点は減少する可能性がある。
特定のタイプの意味タームまたは意味関係の整合を割り当てることもできる。例えば、意味タイプ得点表1478から引き出して、採点部は、主語の役割における名詞の近い同義語を目的語の役割における名詞の遠い上位語より信頼できる関連性指標と評定することができる。経験に基づいたマッチング得点調整を可能にするために、意味タイプ得点表1478に関連した値および関係を別々のデータベースに記憶することができる。マッチング部1310は、マッチングプロセスの相対成功例を示すためにマッチング得点1480を生成する。
例示的な索引化段階のブロック図である。 意味表現の例示的な生成を説明するブロック図である。 索引タームへの意味表現の例示的な変換を説明するブロック図である。 索引タームへのパッセージの例示的な変換である。 例示的なキーターム辞典のブロック図である。 例示的な転置索引のブロック図である。 例示的な抽出段階を説明するブロック図である。 索引タームへのクエリの変換を例示するブロック図である。 例示的な候補抽出部のブロック図である。 例示的な候補選択部のブロック図である。 例示的な発見的検索調整部のブロック図である。 例示的なマッチング段階のブロック図である。 例示的なマッチング部のブロック図である。
符号の説明
200 索引付け段階、201 パッセージ、202 パッセージ構文解析部、204 意味表現生成部、208 変換部、210 キーターム辞典、212 転記ファイル、216 キーターム、218 リファレンス、220 転記、222 ソースパッセージ、224 意味表現(SemRep)、230 転置エンジン、240 転置索引、312 パッセージ、314 文書、320 意味表現エンジン、330 意味表現、352 意味サポートソース、354 オントロジ、370 意味表現記憶、402 意味変換部、406 S1用索引ターム、410 変換プロセッサ、412 変換規則データベース、414 索引ターム、420 単語識別子、422 同義語識別子、424 上位語/オントロジ関連単語識別子、426 文法上役割識別子、428 単語語義識別子、430 他の言語学識別子、432 拡張規則、434 他の変換規則、460 発見的調整部、600 キーターム辞典、700 転置索引、702,704,802 クエリ構文解析部、808 変換部、810 クエリキーターム、812 候補抽出部、814 候補選択部、816 発見的抽出調整部、940 変換エンジン、1012 関連性分析部、1014 関連性規則データベース構成要素、1032 候補選択部、1120 フィルタリング部、1140 関連性予測部、1202 マッチング成功回帰部、1208 マッチング成功測定基準、1310 マッチング部、1420 マッチング統一部、1454 マッチング基準、1456 インターセクション、1472 下部構造整合採点部、1474 意味距離、1476 マッチング失敗、1478 意味タイプ得点表。

Claims (4)

  1. 検索クエリを取得するための第1クエリモジュールと、
    前記検索クエリから導出される意味関係を表す少なくとも1つの意味クエリトークンを含む意味クエリキータームを生成するためのクエリキータームモジュールと、
    各々が情報パッセージに関連した、1つまたはそれ以上のリファレンスに対して索引化される1つまたはそれ以上の意味索引トークンを含む少なくとも1つの意味索引キータームを備える転置索引にアクセスするための転置索引モジュールと、
    前記意味クエリキータームで前記転置索引を照会するための第2クエリモジュールと、
    各々が前記意味クエリキータームの前記意味クエリトークンの1つと一致する前記意味索引トークンの少なくとも1つを有する前記意味索引キータームに関連した1組の前記リファレンスを選択するためのリファレンスモジュールと、
    を備え
    前記意味索引キータームに関し、
    前記情報パッセージ内の単語、またはその単語と言語学的に関連したさらに少なくとも1つの単語を選択する単語選択モジュールと、
    前記選択された単語の使われ方に関する言語学的情報として、その単語の品詞、その単語が果たす文法上の役割、及び元の単語との前記意味索引キータームとの関係を決定する情報モジュールと、
    前記情報モジュールにより決定された前記個々の言語学的情報を単一の文字列に連結して前記意味索引キータームとして記憶する連結モジュールと、
    を含むことを特徴とする情報検索システム。
  2. 請求項1に記載のシステムにおいて、
    さらに、前記1組のリファレンスから1組の候補パッセージを判断するための候補パッセージモジュールを備え、
    前記1組のリファレンス内の各リファレンスに関連した前記意味クエリキータームに関連規則を適用するための規則モジュールと、
    前記関連規則に基づいて、前記1組のリファレンスに関連した各パッセージについて関連性得点を決定するための得点モジュールと、
    前記関連性得点に基づいて、前記1組の候補情報パッセージをフィルタリングするためのフィルタモジュールと、
    1組のマッチング候補として前記フィルタリングされた組の候補情報パッセージを戻すためのマッチング候補モジュールと、
    を備えることを特徴とする請求項1に記載のシステム。
  3. 少なくとも1つの意味下部構造を備える前記検索クエリの意味表現を取得するためのクエリ表現モジュールと、
    少なくとも1つの意味下部構造を備える前記情報パッセージの意味表現を取得するためのパッセージ表現モジュールと、
    前記情報パッセージの少なくとも1つの前記意味表現を前記1組のマッチング候補からの前記マッチング候補の少なくとも1つの前記検索クエリの前記意味表現とマッチングさせるためのマッチングモジュールと、
    前記マッチング結果に基づいて前記1組のマッチング候補をフィルタリングするためのマッチングフィルタモジュールと、
    前記検索クエリに応答して検索結果セットとして前記フィルタリングされた組のマッチング候補を戻すための検索結果モジュールと、
    をさらに備えることを特徴とする請求項2に記載のシステム。
  4. 前記1組の候補パッセージを決定する工程が、
    前記意味クエリトークンの少なくとも1つの抽出重み付けを決定するための重み付けモジュールと、
    前記意味クエリトークンに割り当てられた前記抽出重み付けに基づいて、前記1組の候補パッセージを選択するための選択モジュールと、
    をさらに備えることを特徴とする請求項2に記載のシステム。
JP2008249473A 2007-10-01 2008-09-29 情報検索システム Active JP5243167B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/906,363 US8301633B2 (en) 2007-10-01 2007-10-01 System and method for semantic search
US11/906,363 2007-10-01

Publications (2)

Publication Number Publication Date
JP2009087347A JP2009087347A (ja) 2009-04-23
JP5243167B2 true JP5243167B2 (ja) 2013-07-24

Family

ID=40130870

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008249473A Active JP5243167B2 (ja) 2007-10-01 2008-09-29 情報検索システム

Country Status (3)

Country Link
US (3) US8301633B2 (ja)
EP (1) EP2045728A1 (ja)
JP (1) JP5243167B2 (ja)

Families Citing this family (137)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7490092B2 (en) 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US9471562B2 (en) 2006-10-10 2016-10-18 Abbyy Infopoisk Llc Method and system for analyzing and translating various languages with use of semantic hierarchy
US9069750B2 (en) 2006-10-10 2015-06-30 Abbyy Infopoisk Llc Method and system for semantic searching of natural language texts
US9075864B2 (en) 2006-10-10 2015-07-07 Abbyy Infopoisk Llc Method and system for semantic searching using syntactic and semantic analysis
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US9189482B2 (en) 2012-10-10 2015-11-17 Abbyy Infopoisk Llc Similar document search
US9892111B2 (en) 2006-10-10 2018-02-13 Abbyy Production Llc Method and device to estimate similarity between documents having multiple segments
US9053090B2 (en) 2006-10-10 2015-06-09 Abbyy Infopoisk Llc Translating texts between languages
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US8892423B1 (en) 2006-10-10 2014-11-18 Abbyy Infopoisk Llc Method and system to automatically create content for dictionaries
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US9588958B2 (en) 2006-10-10 2017-03-07 Abbyy Infopoisk Llc Cross-language text classification
US9098489B2 (en) 2006-10-10 2015-08-04 Abbyy Infopoisk Llc Method and system for semantic searching
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US9875298B2 (en) 2007-10-12 2018-01-23 Lexxe Pty Ltd Automatic generation of a search query
US20110119261A1 (en) * 2007-10-12 2011-05-19 Lexxe Pty Ltd. Searching using semantic keys
US9396262B2 (en) 2007-10-12 2016-07-19 Lexxe Pty Ltd System and method for enhancing search relevancy using semantic keys
US8046353B2 (en) * 2007-11-02 2011-10-25 Citrix Online Llc Method and apparatus for searching a hierarchical database and an unstructured database with a single search query
US8244733B2 (en) 2008-05-05 2012-08-14 University Of Massachusetts Adaptive hybrid reasoning decision support system
US7996394B2 (en) * 2008-07-17 2011-08-09 International Business Machines Corporation System and method for performing advanced search in service registry system
US7966320B2 (en) * 2008-07-18 2011-06-21 International Business Machines Corporation System and method for improving non-exact matching search in service registry system with custom dictionary
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
EP2332039A4 (en) * 2008-08-11 2012-12-05 Collective Inc METHOD AND SYSTEM FOR CLASSIFYING TEXT
EP2359259A4 (en) * 2008-11-12 2013-01-09 Collective Inc METHOD AND SYSTEM FOR SEMANTIC DISTANCE MEASUREMENT
US9442933B2 (en) 2008-12-24 2016-09-13 Comcast Interactive Media, Llc Identification of segments within audio, video, and multimedia items
US8713016B2 (en) 2008-12-24 2014-04-29 Comcast Interactive Media, Llc Method and apparatus for organizing segments of media assets and determining relevance of segments to a query
US11531668B2 (en) 2008-12-29 2022-12-20 Comcast Interactive Media, Llc Merging of multiple data sets
US8326688B2 (en) * 2009-01-29 2012-12-04 Collective, Inc. Method and system for behavioral classification
US8176043B2 (en) 2009-03-12 2012-05-08 Comcast Interactive Media, Llc Ranking search results
US8843476B1 (en) * 2009-03-16 2014-09-23 Guangsheng Zhang System and methods for automated document topic discovery, browsable search and document categorization
US20100250614A1 (en) * 2009-03-31 2010-09-30 Comcast Cable Holdings, Llc Storing and searching encoded data
US8626784B2 (en) * 2009-05-11 2014-01-07 Microsoft Corporation Model-based searching
US8533223B2 (en) 2009-05-12 2013-09-10 Comcast Interactive Media, LLC. Disambiguation and tagging of entities
US8321390B2 (en) * 2009-06-11 2012-11-27 Vivek Swarnakar Methods and apparatus for organizing data in a database
US9892730B2 (en) 2009-07-01 2018-02-13 Comcast Interactive Media, Llc Generating topic-specific language models
WO2011005948A1 (en) * 2009-07-09 2011-01-13 Collective Media, Inc. Method and system for tracking interaction and view information for online advertising
US8924396B2 (en) 2009-09-18 2014-12-30 Lexxe Pty Ltd. Method and system for scoring texts
US8386454B2 (en) * 2009-09-20 2013-02-26 Yahoo! Inc. Systems and methods for providing advanced search result page content
US8386455B2 (en) * 2009-09-20 2013-02-26 Yahoo! Inc. Systems and methods for providing advanced search result page content
US8452762B2 (en) * 2009-09-20 2013-05-28 Yahoo! Inc. Systems and methods for providing advanced search result page content
US20110106797A1 (en) * 2009-11-02 2011-05-05 Oracle International Corporation Document relevancy operator
US8458186B2 (en) 2009-11-06 2013-06-04 Symantec Corporation Systems and methods for processing and managing object-related data for use by a plurality of applications
US8200656B2 (en) * 2009-11-17 2012-06-12 International Business Machines Corporation Inference-driven multi-source semantic search
US8156140B2 (en) * 2009-11-24 2012-04-10 International Business Machines Corporation Service oriented architecture enterprise service bus with advanced virtualization
US8775160B1 (en) 2009-12-17 2014-07-08 Shopzilla, Inc. Usage based query response
US8428933B1 (en) 2009-12-17 2013-04-23 Shopzilla, Inc. Usage based query response
US8407217B1 (en) * 2010-01-29 2013-03-26 Guangsheng Zhang Automated topic discovery in documents
US9047283B1 (en) 2010-01-29 2015-06-02 Guangsheng Zhang Automated topic discovery in documents and content categorization
US8725771B2 (en) * 2010-04-30 2014-05-13 Orbis Technologies, Inc. Systems and methods for semantic search, content correlation and visualization
US20110289086A1 (en) * 2010-05-21 2011-11-24 Philip Martin Jordan System, method and apparatus for data analysis
US8996427B2 (en) * 2010-07-19 2015-03-31 Tapicu, Inc. Method for a system that solves multimedia resource discovery and retrieval problem sets
US9208223B1 (en) * 2010-08-17 2015-12-08 Semantifi, Inc. Method and apparatus for indexing and querying knowledge models
US8775425B2 (en) * 2010-08-24 2014-07-08 International Business Machines Corporation Systems and methods for massive structured data management over cloud aware distributed file system
US8442982B2 (en) 2010-11-05 2013-05-14 Apple Inc. Extended database search
US8375042B1 (en) * 2010-11-09 2013-02-12 Google Inc. Index-side synonym generation
US11423029B1 (en) 2010-11-09 2022-08-23 Google Llc Index-side stem-based variant generation
US8560566B2 (en) 2010-11-12 2013-10-15 International Business Machines Corporation Search capability enhancement in service oriented architecture (SOA) service registry system
US8352491B2 (en) 2010-11-12 2013-01-08 International Business Machines Corporation Service oriented architecture (SOA) service registry system with enhanced search capability
US10108604B2 (en) * 2010-11-19 2018-10-23 Andrew McGregor Olney System and method for automatic extraction of conceptual graphs
CN102479191B (zh) * 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
WO2012098539A2 (en) * 2011-01-18 2012-07-26 Netspark Ltd. Hierarchal online-content filtering device and method
US8478753B2 (en) 2011-03-03 2013-07-02 International Business Machines Corporation Prioritizing search for non-exact matching service description in service oriented architecture (SOA) service registry system with advanced search capability
EP2503477B1 (en) * 2011-03-21 2017-08-30 Tata Consultancy Services Limited A system and method for contextual resume search and retrieval based on information derived from the resume repository
US9824138B2 (en) 2011-03-25 2017-11-21 Orbis Technologies, Inc. Systems and methods for three-term semantic search
US10311113B2 (en) 2011-07-11 2019-06-04 Lexxe Pty Ltd. System and method of sentiment data use
US10198506B2 (en) 2011-07-11 2019-02-05 Lexxe Pty Ltd. System and method of sentiment data generation
US8935230B2 (en) * 2011-08-25 2015-01-13 Sap Se Self-learning semantic search engine
US9442928B2 (en) 2011-09-07 2016-09-13 Venio Inc. System, method and computer program product for automatic topic identification using a hypertext corpus
US9442930B2 (en) 2011-09-07 2016-09-13 Venio Inc. System, method and computer program product for automatic topic identification using a hypertext corpus
US9053087B2 (en) * 2011-09-23 2015-06-09 Microsoft Technology Licensing, Llc Automatic semantic evaluation of speech recognition results
US8965750B2 (en) 2011-11-17 2015-02-24 Abbyy Infopoisk Llc Acquiring accurate machine translation
WO2013137903A1 (en) * 2012-03-16 2013-09-19 Orbis Technologies, Inc. Systems and methods for semantic inference and reasoning
US9015080B2 (en) 2012-03-16 2015-04-21 Orbis Technologies, Inc. Systems and methods for semantic inference and reasoning
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US9037591B1 (en) 2012-04-30 2015-05-19 Google Inc. Storing term substitution information in an index
CN103425691B (zh) 2012-05-22 2016-12-14 阿里巴巴集团控股有限公司 一种搜索方法和系统
US20140006010A1 (en) * 2012-06-27 2014-01-02 Igor Nor Parsing rules for data
US9218411B2 (en) * 2012-08-07 2015-12-22 International Business Machines Corporation Incremental dynamic document index generation
US20140059011A1 (en) * 2012-08-27 2014-02-27 International Business Machines Corporation Automated data curation for lists
US10152533B2 (en) * 2012-10-18 2018-12-11 Thomson Reuters Global Resources Unlimited Company System, method and interface for providing a search result using segment constraints
US9720984B2 (en) 2012-10-22 2017-08-01 Bank Of America Corporation Visualization engine for a knowledge management system
US9020879B2 (en) 2012-10-22 2015-04-28 Bank Of America Corporation Intelligent data agent for a knowledge management system
US9305261B2 (en) 2012-10-22 2016-04-05 Bank Of America Corporation Knowledge management engine for a knowledge management system
US9405779B2 (en) * 2012-10-22 2016-08-02 Bank Of America Corporation Search engine for a knowledge management system
CN102955848B (zh) * 2012-10-29 2015-11-18 北京工商大学 一种基于语义的三维模型检索系统和方法
US9158755B2 (en) 2012-10-30 2015-10-13 International Business Machines Corporation Category-based lemmatizing of a phrase in a document
US9189531B2 (en) 2012-11-30 2015-11-17 Orbis Technologies, Inc. Ontology harmonization and mediation systems and methods
US9674132B1 (en) * 2013-03-25 2017-06-06 Guangsheng Zhang System, methods, and user interface for effectively managing message communications
US9721020B2 (en) * 2013-07-31 2017-08-01 International Business Machines Corporation Search query obfuscation via broadened subqueries and recombining
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
US20150178390A1 (en) * 2013-12-20 2015-06-25 Jordi Torras Natural language search engine using lexical functions and meaning-text criteria
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
US10565533B2 (en) 2014-05-09 2020-02-18 Camelot Uk Bidco Limited Systems and methods for similarity and context measures for trademark and service mark analysis and repository searches
US11100124B2 (en) 2014-05-09 2021-08-24 Camelot Uk Bidco Limited Systems and methods for similarity and context measures for trademark and service mark analysis and repository searches
US9965547B2 (en) 2014-05-09 2018-05-08 Camelot Uk Bidco Limited System and methods for automating trademark and service mark searches
US10311206B2 (en) 2014-06-19 2019-06-04 International Business Machines Corporation Electronic medical record summary and presentation
US10430445B2 (en) * 2014-09-12 2019-10-01 Nuance Communications, Inc. Text indexing and passage retrieval
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
CN104572906B (zh) * 2014-12-26 2018-05-18 华为软件技术有限公司 一种事件特征的获取方法和设备
US9838348B2 (en) * 2014-12-31 2017-12-05 Yahoo Holdings, Inc. Electronic message search system and method
JP6578685B2 (ja) * 2015-03-16 2019-09-25 富士通株式会社 関係推定方法、関係推定プログラムおよび情報処理装置
US11227113B2 (en) * 2016-01-20 2022-01-18 International Business Machines Corporation Precision batch interaction with a question answering system
US10599701B2 (en) 2016-02-11 2020-03-24 Ebay Inc. Semantic category classification
US10445355B2 (en) 2016-04-07 2019-10-15 RELX Inc. Systems and methods for providing a visualizable results list
US10445327B2 (en) 2016-04-07 2019-10-15 RELX Inc. Systems and methods for providing a visualizable results list
EP3465464A4 (en) * 2016-05-23 2020-01-01 Microsoft Technology Licensing, LLC RELEVANT PASSAGE EXTRACTION SYSTEM
US10635727B2 (en) * 2016-08-16 2020-04-28 Ebay Inc. Semantic forward search indexing of publication corpus
US10642872B2 (en) * 2016-10-21 2020-05-05 Salesforce.Com, Inc. System for optimizing content queries
CN107330120B (zh) * 2017-07-14 2018-09-18 三角兽(北京)科技有限公司 询问应答方法、询问应答装置及计算机可读存储介质
US10789293B2 (en) * 2017-11-03 2020-09-29 Salesforce.Com, Inc. Automatic search dictionary and user interfaces
JP7024364B2 (ja) * 2017-12-07 2022-02-24 富士通株式会社 特定プログラム、特定方法および情報処理装置
JP7135399B2 (ja) 2018-04-12 2022-09-13 富士通株式会社 特定プログラム、特定方法および情報処理装置
IL258689A (en) 2018-04-12 2018-05-31 Browarnik Abel A system and method for computerized semantic indexing and searching
US11182410B2 (en) * 2018-04-30 2021-11-23 Innoplexus Ag Systems and methods for determining contextually-relevant keywords
US11157538B2 (en) * 2018-04-30 2021-10-26 Innoplexus Ag System and method for generating summary of research document
US11416481B2 (en) * 2018-05-02 2022-08-16 Sap Se Search query generation using branching process for database queries
US11698921B2 (en) 2018-09-17 2023-07-11 Ebay Inc. Search system for providing search results using query understanding and semantic binary signatures
CN110162593B (zh) * 2018-11-29 2023-03-21 腾讯科技(深圳)有限公司 一种搜索结果处理、相似度模型训练方法及装置
CN111367957A (zh) * 2018-12-26 2020-07-03 中国科学院沈阳自动化研究所 一种基于信息采集点与设备映射关系的设备简捷操作方法
DE102019212421A1 (de) 2019-08-20 2021-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zur Ermittlung ähnlicher Dokumente
US11580326B2 (en) 2019-12-30 2023-02-14 Nec Corporation Ontology matching based on weak supervision
US20210248317A1 (en) * 2020-02-11 2021-08-12 Luminoso Technologies, Inc. Method for enhanced text search indexing
CN113254718B (zh) * 2020-02-13 2023-08-29 南京大学 一种图数据上的语义关联搜索的查询松弛方法
US11386164B2 (en) 2020-05-13 2022-07-12 City University Of Hong Kong Searching electronic documents based on example-based search query
CN111753043B (zh) * 2020-06-22 2024-04-16 北京百度网讯科技有限公司 文档数据处理方法、装置和存储介质
CN111782942B (zh) * 2020-06-24 2024-04-19 支付宝(杭州)信息技术有限公司 基于品牌保护的搜索方法及装置
CN111814658B (zh) * 2020-07-07 2024-02-09 西安电子科技大学 基于语义的场景语义结构图检索方法
CN112347772A (zh) * 2020-08-14 2021-02-09 北京京东尚科信息技术有限公司 一种语义解析方法和装置
CN112015918A (zh) * 2020-09-14 2020-12-01 支付宝(杭州)信息技术有限公司 数据处理方法及装置
CN112035730B (zh) * 2020-11-05 2021-02-02 北京智源人工智能研究院 一种语义检索方法、装置及电子设备
US12093265B2 (en) * 2021-08-02 2024-09-17 Sap Se Semantics based data and metadata mapping
CN113761890B (zh) * 2021-08-17 2024-04-16 汕头市同行网络科技有限公司 一种基于bert上下文感知的多层级语义信息检索方法
CN113868447A (zh) * 2021-09-27 2021-12-31 新智认知数据服务有限公司 图片检索方法、电子设备及计算机可读存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5630121A (en) * 1993-02-02 1997-05-13 International Business Machines Corporation Archiving and retrieving multimedia objects using structured indexes
US6006221A (en) * 1995-08-16 1999-12-21 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6167370A (en) * 1998-09-09 2000-12-26 Invention Machine Corporation Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
US6675159B1 (en) 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
US7860706B2 (en) * 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
US7139752B2 (en) * 2003-05-30 2006-11-21 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, and providing multiple document views derived from different document tokenizations
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US8639708B2 (en) * 2007-08-31 2014-01-28 Microsoft Corporation Fact-based indexing for natural language search
US7984032B2 (en) * 2007-08-31 2011-07-19 Microsoft Corporation Iterators for applying term occurrence-level constraints in natural language searching

Also Published As

Publication number Publication date
US9875299B2 (en) 2018-01-23
US20130054589A1 (en) 2013-02-28
US20160196340A1 (en) 2016-07-07
US20090089277A1 (en) 2009-04-02
JP2009087347A (ja) 2009-04-23
US9286377B2 (en) 2016-03-15
US8301633B2 (en) 2012-10-30
EP2045728A1 (en) 2009-04-08

Similar Documents

Publication Publication Date Title
JP5243167B2 (ja) 情報検索システム
US7401077B2 (en) Systems and methods for using and constructing user-interest sensitive indicators of search results
Kowalski et al. Information storage and retrieval systems: theory and implementation
US9727637B2 (en) Retrieving text from a corpus of documents in an information handling system
CA2617527C (en) Processor for fast contextual matching
JP3719415B2 (ja) 情報検索方法、情報検索システム、およびプログラム
JP5203934B2 (ja) オリジナルのユーザ入力に基づくユーザ入力の提案および絞込み
US12007939B1 (en) Method and apparatus for determining search result demographics
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
KR20080084803A (ko) 교차-언어 지식 검색을 위한 시스템 및 방법
Song et al. Translation of natural language query into keyword query using a RNN encoder-decoder
Siefkes et al. An overview and classification of adaptive approaches to information extraction
US20220121666A1 (en) Creating a trained database
Lee et al. Probabilistic information retrieval model for a dependency structured indexing system
Rasheed et al. Query expansion in information retrieval for Urdu language
Lin et al. Biological question answering with syntactic and semantic feature matching and an improved mean reciprocal ranking measurement
US20230087132A1 (en) Creating action-trigger phrase sets
JP2001034630A (ja) 文書ベース検索システム、およびその方法
Kowalski et al. Cataloging and indexing
Asubiaro An Analysis of the Structure of Index Terms for Yoruba Texts
Dinşoreanu et al. Integrated System for Developing Semantically-Enhanced Archive Econtent
WO2019008384A1 (en) SEARCH METHOD AND APPARATUS
Wang Learning Automatic Question Answering from Community Data
Kowalski Ingest

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110922

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120918

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130404

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5243167

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250