JP2012533818A - 単語の重みに基づいた検索結果の順位付け - Google Patents

単語の重みに基づいた検索結果の順位付け Download PDF

Info

Publication number
JP2012533818A
JP2012533818A JP2012521611A JP2012521611A JP2012533818A JP 2012533818 A JP2012533818 A JP 2012533818A JP 2012521611 A JP2012521611 A JP 2012521611A JP 2012521611 A JP2012521611 A JP 2012521611A JP 2012533818 A JP2012533818 A JP 2012533818A
Authority
JP
Japan
Prior art keywords
word
string
target
divided
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012521611A
Other languages
English (en)
Other versions
JP5597255B2 (ja
Inventor
シエ・ユヘン
シン・フェイ
グオ・ニン
ホウ・レイ
チャン・キン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2012533818A publication Critical patent/JP2012533818A/ja
Application granted granted Critical
Publication of JP5597255B2 publication Critical patent/JP5597255B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【解決手段】検索結果の順位付けは、クエリ文字列を受信し、クエリ文字列に関連する対応する複数のターゲット文字列を含む複数の検索結果を取得し、クエリ文字列、および、複数のターゲット文字列のそれぞれを分割し、複数の組み合わせを形成するためにクエリ文字列の分割部分をターゲット文字列のそれぞれの分割部分と対にし、単語の組み合わせと単語の組み合わせに対する重みとのマッピングに基づいて、複数の組み合わせに対応する複数の重みを取得し、重みは単語の組み合わせに含まれる単語間の意味的相関の指標となり、複数のターゲット文字列のそれぞれに対応する重みに基づいて重み付けされた単語長を決定し、複数のターゲット文字列を前記複数のターゲット文字列のそれぞれについて重み付けされた単語長に基づいて順位付けることを備える。
【選択図】なし

Description

[関連出願の相互参照]
本願は、すべての目的のために参照により本明細書に組み込まれる、2009年7月20日出願の発明の名称を「METHOD AND DEVICE FOR RANKING SEARCH RESULTS(検索結果を順位付けるための方法および装置)」とする中国特許出願第200910151647.3号に基づく優先権を主張する。
本願は、コンピュータデータ処理の分野に関し、特に、検索結果を順位付けるための方法およびデバイスに関する。
検索エンジンは、一般に、クエリ文字列内のいくつかの単語が検索結果内で出現する位置の間の距離に従って、検索結果(ターゲット文字列ともいう)がクエリ文字列と一致する程度を評価し、より短い距離の検索結果が、通例、高い程度で一致するため、より高く順位付けされる。例えば、クエリ文字列「disinfection machine」については、「disinfection machine」を含む検索結果が、「disinfection equipment」よりもユーザの意図に近い傾向があり、「disinfection equipment」は、「industrial disinfection washing machine」、「dehydrator」、および、「dryer」よりもユーザの意図に近く、これらはすべて、検索結果の順位付けにいくらかの影響を持つ。
検索結果を順位付けするための標準的な方法は、通常、最短のスライディングウィンドウ(すなわち、クエリ文字列の単語を含むターゲット文字列内での最小間隔)を用いたターゲット文字列内におけるクエリ文字列の単語の距離、クエリ文字列およびターゲット文字列の編集距離、品詞(POS)としての単語コンテキスト、などに基づいている。
これらの単純な技術は、文字列のクエリ検索とターゲット文字列との間の相関の問題に対処しない傾向があり、それらの結果は、文字列のクエリ検索とターゲット文字列との一致度を正確に反映しないことが多い。クエリ文字列「Nokia battery」を例にとり、3つの検索結果A、B、および、Cは、それぞれ、文字列「Nokia battery」、「Nokia cell phone, complimentary battery」、および、「Nokia n73 cell phone with original battery」を含むとする。単純な距離計算は、文字列A内の「Nokia」および「battery」の間の距離が0であるため、Aが最高の一致度を有することを示す。文字列BおよびCにおける「Nokia」および「battery」の間の距離は、それぞれ、3単語および5単語であり、Cの方がBよりも一致度が低いことを示している。しかしながら、「Nokia battery」を検索するユーザの意図に基づくと、検索結果Cは、実際には、単語間隔が大きいにも関わらず、Bよりも良好に一致している。
以下の詳細な説明と添付の図面に、本発明の様々な実施形態を開示する。
単語の重みのマッピングを生成するための処理の一実施形態を示すフローチャート。
検索結果を順位付けするための処理の一実施形態を示すフローチャート。
検索結果を順位付けするための処理の別の実施形態を示すフローチャート。
検索結果を順位付けするためのシステムの一実施形態を示すブロック図。
検索結果を順位付けするためのシステムの別の実施形態を示すブロック図。
本発明は、処理、装置、システム、物質の組成、コンピュータ読み取り可能な格納媒体上に具現化されたコンピュータプログラム製品、および/または、プロセッサ(プロセッサに接続されたメモリに格納および/またはそのメモリによって提供される命令を実行するよう構成されたプロセッサ)を含め、様々な形態で実装されうる。本明細書では、これらの実装または本発明が取りうる任意の他の形態を、技術と呼ぶ。一般に、開示された処理の工程の順序は、本発明の範囲内で変更されてもよい。特に言及しない限り、タスクを実行するよう構成されるものとして記載されたプロセッサまたはメモリなどの構成要素は、ある時間にタスクを実行するよう一時的に構成された一般的な構成要素として、または、タスクを実行するよう製造された特定の構成要素として実装されてよい。本明細書では、「プロセッサ」という用語は、1または複数のデバイス、回路、および/または、コンピュータプログラム命令などのデータを処理するよう構成された処理コアを指すものとする。
以下では、本発明の原理を示す図面を参照しつつ、本発明の1または複数の実施形態の詳細な説明を行う。本発明は、かかる実施形態に関連して説明されているが、どの実施形態にも限定されない。本発明の範囲は、特許請求の範囲によってのみ限定されるものであり、多くの代替物、変形物、および、等価物を含む。以下の説明では、本発明の完全な理解を提供するために、多くの具体的な詳細事項が記載されている。これらの詳細事項は、例示を目的としたものであり、本発明は、これらの具体的な詳細事項の一部または全てがなくとも特許請求の範囲に従って実施可能である。簡単のために、本発明に関連する技術分野で周知の技術事項については、本発明が必要以上にわかりにくくならないように、詳細には説明していない。
特定の意味的要因を考慮したターゲット文字列の順位付けについて説明する。順位付けは、クエリ文字列とターゲット文字列との間の意味的相関を考慮に入れることにより、クエリ文字列がターゲット文字列と一致する程度をより良好に評価し、典型的なユーザの意図をより厳密に追跡する電子商取引プラットフォームのための検索エンジンにおける検索結果の順位を生成する。検索エンジンでその技術を用いる例を、例示の目的で広く議論する。その技術は、多くの他の用途にも適用可能である。
いくつかの実施形態では、サンプルセット内の文字列間の意味的相関を考慮するために、サンプルセット内の2単語のあらゆる組み合わせの間の意味的相関が重み付けされて、単語重みのテーブルが生成される。図1は、単語の重みのマッピングを生成するための処理の一実施形態を示すフローチャートである。処理100は、サーバ、検索エンジン、または、任意の他の適切なデバイス上で実行されてよい。生成された単語の重みのマッピングは格納されて、後に利用される。
工程101では、統計サンプルが、ウェブページ、ユーザ検索ログ、ユーザ選択ログなど、様々なフォーマットを有するテキストまたは記号群から取得される。
一般に、第1の単語および第2の単語の両方が統計サンプルに出現する回数が大きくなるほど、それらの相関は高くなる。例えば、「Nokia」および「cell phone」の両方がテキスト中に出現する場合、または、ユーザがしばしば「Nokia」を検索した後に「cell phone」という用語を含む結果を選択する場合、「Nokia」および「cell phone」の相関は高いことが示唆される。
工程102では、第1の単語および第2の単語が統計サンプルから選択され、第1および第2の単語の両方が統計サンプル内で出現する回数がカウントされ、C(第1の単語、第2の単語)として表される。例えば、「cell phone」および「Nokia」の両方がサンプル内で出現する回数がカウントされ、C(cell phone、Nokia)として記録される。次に、それぞれの単語の重みが計算され、後に、検索結果の順位付けを生成するために利用される。
工程103では、第2の単語が統計サンプル内で出現する回数がカウントされ、ΣC(Yi、第2の単語)として記録される。ここで、Yiは、第2の単語と一緒に出現するそれぞれの単語を示す。例えば、「Nokia」が他の単語(「battery」、「original」など)と一緒に出現する総回数(これは「Nokia」がサンプル内で出現する総回数と等しい)がカウントされ、ΣC(Yi、”Nokia”)として記録される。ここで、Yiは「Nokia」と一緒に出現するそれぞれの単語を示す。
工程104では、第2の単語も出現するという条件のもとでの第1の単語の出現確率Pが、以下のように計算される。
P(第1の単語|第2の単語)=C(第1の単語、第2の単語)/ΣC(Yi、第2の単語)
例えば、「Nokia」も出現するという条件のもとでの「cell phone」の出現確率は以下のように計算される。
P(cell phone|Nokia)=C(cell phone)/ΣC(Yi、Nokia)
工程105では、第1および第2の単語の間の意味的相関の指標となる重みが決定される。この例では、重みWは、第2の単語の所与の検索に対してW=1−Pに従って決定される。ここで、Wは重みであり、Pは第2の単語が出現するという条件下での第1の単語の確率である。
例えば、「cell phone」および「Nokia」の間の意味的相関は、「Nokia」の検索の際には、W=1−P=1−P(cell phone|Nokia)=1−C(cell phone)/ΣC(Yi、Nokia)で重み付けされる。
この例では例示の目的で、W=1−Pという重みが用いられているが、重みは他の方法で計算することもできる。例えば、いくつかの実施形態において、重みは、Pに設定される。重みは、いくつかの実施形態において、他の形態(対数の形態など)に変換されてもよい。
工程106では、上記の工程が、統計サンプル内のすべての単語に対して実行されたか否かが判定され、実行された場合には、制御は工程107へ移行し、そうでない場合には、統計サンプル内のそれぞれの単語およびその他のそれぞれの単語の間の意味的相関を順に重み付けするために、工程102〜106が繰り返される。
工程107では、統計サンプル内のそれぞれの単語およびその他のそれぞれの単語の間の意味的相関の重みが、単語重みのマッピングテーブルとして格納され、任意選択的に出力される。リスト、ツリーなど、その他の適切なフォーマットも利用可能である。
単語の重みテーブルの一例を表1に示す。
Figure 2012533818
表1に示した単語の重みテーブルの例は、例示にすぎず、単語重みテーブルは、他の実施形態では他の形態で具現化されてもよい。また、単語は多くの異なる方法で重み付けされてよく、図1は単に、統計的言語モデルから得られた統計確率の一実施形態を示すものである。重みは、自動計算または手作業での設定など、他の適切な技術を用いて導出されてもよい。
図2は、検索結果を順位付けするための処理の一実施形態を示すフローチャートである。処理200は、サーバまたは任意の他の適切なデバイス上で実行されてよい。ターゲット文字列がクエリ文字列に一致する程度(一致度ともいう)が決定される。
工程201では、クエリ文字列および対応するターゲット文字列が取得される。いくつかの実施形態において、クエリ文字列は、ユーザによるキーワード入力を含み、キーワード入力は、潜在的な結果のデータベース内のターゲット文字列を特定するために用いられる。キーワードマッチングまたはインデックスマッチングなど様々な技術が、ターゲット文字列を取得するために利用されうる。ターゲット文字列は、クエリ文字列と相関性がある文字を含む。例えば、ユーザが「Nokia Battery」というクエリ文字列を入力し、サーバから取得されたターゲット文字列が、文字列A「Nokia Battery」、文字列B「Nokia Cell Phone With Free Battery」、および、文字列C「Nokia n73 Cell Phone With Original Battery」である場合、取得されたすべての文字列A、B、および、Cがターゲット文字列である。
工程202では、クエリ文字列およびターゲット文字列が分割される。ここで、Qはクエリ文字列を表し、Tはターゲット文字列を表し、クエリ文字列が、単語Q12・・・Qmに分割され、ターゲット文字列が、単語T12・・・Tnに分割されるとする。文字列を、意味的単語、キャラクタ(characters)、文字(letters)、記号などに分割するなど、他の分割技術も可能である。
この例では、クエリ文字列は、Q12=Nokia|batteryに分割される。ターゲット文字列Cは、T12345=Nokia|n73|cell phone|original|batteryに分割される。その他のターゲット文字列も、同様に分割できる。
工程203では、クエリ文字列内のそれぞれの分割単語が、ターゲット文字列内の分割単語と対になって順次組み合わされ、分割単語の組み合わせが形成される。ここで、各組み合わせは、クエリ文字列の分割単語と、文字のターゲットクエリの分割単語を含む。具体的には、(Ti、Q1)、(Ti、Q2)・・・(Ti、Qm)が得られる。
クエリ文字列およびターゲット文字列Cから得られる分割単語の組み合わせは、(T1、Q1)、(T1、Q2)、(T2、Q1)、(T2、Q2)、(T3、Q1)、(T3、Q2)、(T4、Q1)、(T4、Q2)、(T5、Q1)、および、(T5、Q2)、である。
工程204では、予め生成された単語の重みテーブルで検索が行われ、分割単語のそれぞれの組み合わせの重みが取得される。
ここで、Wが、単語重みテーブルから取得された分割単語のそれぞれの組み合わせの重みを表すとすると、Wは、それぞれ、W(T1、Q1)、W(T1、Q2)、W(T2、Q1)、W(T2、Q2)、W(T3、Q1)、W(T3、Q2)、W(T4、Q1)、W(T4、Q2)、W(T5、Q1)、および、W(T5、Q2)、である。
ここで、W(T1、Q1)=W1 W(T1、Q2)=W1’
W(T2、Q1)=W2 W(T2、Q2)=W2’
W(T3、Q1)=W3 W(T3、Q2)=W3’
W(T4、Q1)=W4 W(T4、Q2)=W4’
W(T5、Q1)=W5 W(T5、Q2)=W5’とする。
特に、TiがQの中に含まれる場合、Wi=0である。例えば、T1およびQ1の両方が「Nokia」であるため、W(T1、Q1)=W1=0であり、同様に、T5およびQ2の両方が「Battery」であるため、W(T5、Q2)=W5’=0である。
工程205では、各ターゲット文字列について重み付けされた単語長が、分割単語の重みに基づいて計算される。いくつかの実施形態では、重み付けされた単語長は、最短スライディングウィンドウ(shortest sliding window)の重み付けされた長さである。
いくつかの実施形態では、重み付けされた単語長を決定するために、クエリ文字列内の対応する分割単語に対するターゲット文字列内の分割単語の最小重みが計算される。いくつかの実施形態では、ターゲット文字列内のそれぞれの分割単語に対するクエリ文字列内の分割単語の最小重みが計算される。クエリ文字列内のそれぞれの分割単語に対するターゲット文字列内のそれぞれの分割単語の最小重みを計算する処理は、ターゲット文字列内のそれぞれの分割単語に対するクエリ文字列内のそれぞれの分割単語の最小重みを計算する処理と非常に類似しているため、例示の目的で前者のみを以下で詳述する。
したがって、(T1、Q1)および(T1、Q2)に対応する2つの重みの内の小さい方、(T2、Q1)および(T2、Q2)に対応する2つの重みの内の小さい方などが決定される。
この例において、W(T1、Q1)とW(T1、Q2)との間ではW(T1、Q1)が小さく、W(T2、Q1)とW(T2、Q2)との間ではW(T2、Q1)の方が小さく、W(T3、Q1)とW(T3、Q2)との間ではW(T3、Q1)の方が小さく、W(T4、Q1)とW(T4、Q2)との間ではW(T4、Q1)の方が小さく、W(T5、Q1)とW(T5、Q2)との間ではW(T5、Q2)の方が小さい、と仮定する。したがって、上記によると、最小の重みは、W1、W2、W3、W4、および、W5’である。
次に、最短スライディングウィンドウの重み付けされた長さが、ターゲット文字列の最小重みに基づいて計算される。いくつかの実施形態では、ターゲット文字列の最短スライディングウィンドウの重み付けされた長さは、以下のように計算される。
Figure 2012533818
ここで、Wは重みを表し、Tiはターゲット文字列内のi番目の分割単語を表し、kおよびhはそれぞれターゲット文字列の最短スライディングウィンドウの開始位置および終了位置を表し、Qjはクエリ文字列内のj番目の分割単語を表し、mはクエリ文字列内の分割単語の数を表す。
この例では、最短スライディングウィンドウの重み付けされた長さは、以下の通りである。
sw=ΣWi=W1+W2+W3+W4+W5’
すべてのターゲット文字列に対してクエリ文字列における最短スライディングウィンドウの重み付けされた長さが計算されると、工程206では、クエリ文字列とターゲット文字列との一致度が、重み付けされた単語長に基づいて決定される。それぞれのターゲット文字列は、重み付けされた単語長によって順位付けされ、順位付けの結果は、任意選択的に、ユーザ端末に送り返される。
順位付けは、それぞれのターゲット文字列の最短スライディングウィンドウの重み付けされた長さを比較する工程を含む。長さが短いほど、一致度が高く、ターゲット文字列の順位が高くなり、長さが長いほど、一致度は低く、ターゲット文字列の順位は低くなる。
処理200によると、クエリ文字列とそれぞれのターゲット文字列との一致度は、ターゲット文字列内の単語とクエリ文字列内の単語との間の意味的相関を考慮しない従来の計算方法よりも正確に決定される。例えば、ターゲット文字列「Nokia battery」および「Nokia n73 cell phone original battery」は長さが異なるが、それらの重み付けされた単語長が同等であるため、いずれも「Nokia battery」というクエリ文字列に対して高い関連性がある。この応用例は、クエリ文字列とターゲット文字列との間の意味的相関を示す単語重みを導入することで、クエリ文字列と相関性のあるターゲット文字列を高く順位付けてそれぞれのターゲット文字列とクエリ文字列との一致度を反映することによってそれぞれのターゲット文字列を正確に順位付けることが可能であり、実際に、簡単かつ効果的に適用されうる。
図3は、検索結果を順位付けするための処理の別の実施形態を示すフローチャートである。処理300は、ターゲット文字列とクエリ文字列との一致度を、それらの編集距離に基づいて決定する。本明細書で用いられているように、編集距離とは、一の文字列を他の文字列に変更するために必要とされる基本動作の数、または、2つの文字列の異なる部分の長さの合計を指す。典型的な基本動作は、文字/単語の挿入、削除、または、置換、もしくは、その他の指定された動作を含む。例えば、「I love you」は、少なくとも2つの基本動作(すなわち、「don’t」を挿入する動作と、「you」を「her」に置換する動作)によって「I don’t love her」に変更されるため、2つの文字列の間の編集距離は2である。
工程301では、クエリ文字列および対応するターゲット文字列がサーバによって取得される。これは、処理200の工程201と同様の工程である。例えば、「Nokia cell phone battery」というクエリ文字列に対して、ターゲット文字列は、「original Nokia battery」、「Samsung cell phone battery」などである。
工程302では、クエリ文字列およびターゲット文字列は、それぞれ、クエリ文字列を構成する分割単語およびターゲット文字列を構成する分割単語に分割される。ここで、Qはクエリ文字列を表し、Tはターゲット文字列を表し、クエリ文字列が、単語Q12・・・Qmに分割され、ターゲット文字列が、単語T12・・・Tnに分割されるとする。具体的には、クエリ文字列「Nokia cell phone battery」は、Q1Q2Q3=「Nokia|cell phone|battery」に単語分割され、ターゲット文字列は、T1T2T3=「original|Nokia|battery」に分割される。
工程303では、予め計算された単語重みのマッピングに基づいて、クエリ文字列内のそれぞれの分割単語に対する挿入単語の最小重みが決定される。クエリ文字列内のそれぞれの分割単語に対する挿入単語の重みは、単語重みテーブルから取得される。この例では、I1で示される挿入単語「original」の重みは、クエリ文字列内のそれぞれの分割単語に対して、W(I1、Q1)、W(I1、Q2)、および、W(I1、Q3)である。
クエリ文字列内のそれぞれの分割単語に対する挿入単語の最小重みは、以下のように計算される。
Figure 2012533818
ここで、Wは重みを表し、Itは挿入文字列内のt番目の分割単語を表し、nは挿入された分割単語の数を表し、Qjはクエリ文字列内のj番目の分割単語を表し、mはクエリ文字列内の分割単語の数を表す。
工程304では、ターゲット文字列内の分割単語に対する削除単語の最小重みが、単語重みテーブルに基づいて計算される。ターゲット文字列内のそれぞれの分割単語に対する削除単語の重みは、単語の重みテーブルから取得される。この例では、D1で示される削除単語「cell phone」の重みは、ターゲット文字列内のそれぞれの分割単語に対して、W(D1,T1)、W(D1、T2)、および、W(D1、T3)である。
ターゲット文字列内の分割単語に対する削除単語の最小重みは、以下のように計算される。
Figure 2012533818
ここで、Wは重みを表し、Tiはターゲット文字列内のt番目の分割単語を表し、qはターゲット文字列内の分割単語の数を表し、Ddは削除単語内のd番目の分割単語を表し、pは削除された分割単語の数を表す。
時に、編集距離は、単語の置換の影響を受ける。例えば、ある文字列が「Nokia Battery」であり、別の文字列が「Samsung Battery」である場合、「Nokia」から「Samsung」に置換されている。いくつかの実施形態では、置換動作は、別個の動作ではなく、追加動作および削除動作の組み合わせとして認識される。例えば、「Nokia」が削除されると共に「Samsung」が追加されることにより、「Nokia Battery」が「Samsung Battery」に変更されると考えることができる。したがって、挿入単語または削除単語に関係する上述の計算を用いて、編集距離の最小重みが決定される。
いくつかの実施形態において、置換動作は、挿入および削除に加えて第3の種類の動作と見なされる。置換単語の編集距離の最小重みを決定する1つの方法は、事前設定された固定値(例えば、1)に最小重みを設定する方法である。その他の方法は、クエリ文字列内のそれぞれの分割単語に対する挿入単語の最小重みとターゲット文字列内のそれぞれの分割単語に対する削除単語の最小重みとの合計値、平均値、最大値、または、任意の他の適切な組み合わせに、置換単語の編集距離を設定することを含む。
例えば、いくつかの実施形態において、置換単語「Samsung」の編集距離は、クエリ文字列「Nokia Battery」内の分割単語に対する挿入単語「Samsung」の最小重みとターゲット文字列「Samsung Battery」内の分割単語に対する削除単語「Nokia」の最小重みとの合計である。
あるいは、いくつかの実施形態において、置換単語「Samsung」の編集距離は、クエリ文字列「Nokia Battery」内の分割単語に対する挿入単語「Samsung」の最小重みとターゲット文字列「Samsung Battery」内の分割単語に対する削除単語「Nokia」の最小重みとの合計を2で割ったものである。
工程305では、ターゲット文字列の総編集距離の最小重みが、前の工程で決定された単語の最小重みに基づいて計算され、それらの値は、クエリ文字列とターゲット文字列との一致度を決定するために用いられる。
挿入動作および削除動作のみを考慮する実施形態では、総編集距離が、それぞれのターゲット文字列に対して計算され、ターゲット文字列の総編集距離は以下の通りである。
Total=WI+WD
ここで、WTotalは総編集距離の最小重みを表し、WIはクエリ文字列内のそれぞれの分割単語に対する挿入単語の最小重みを表し、WDはターゲット文字列内のそれぞれの分割単語に対する削除単語の最小重みを表す。
挿入、削除、および、置換動作を考慮する実施形態では、総編集距離が、それぞれのターゲット文字列に対して計算され、総編集距離は以下の通りである。
Total=WI+WD+WS
ここで、WTotalは総編集距離を示し、WIはクエリ文字列内のそれぞれの分割単語に対する挿入単語の最小重みを表し、WDはターゲット文字列内のそれぞれの分割単語に対する削除単語の最小重みを表し、WSはクエリ文字列および/またはターゲット文字列内のそれぞれの分割単語に対する置換単語の最小重みを表す。
工程306では、ターゲット文字列の総編集距離の最小重みが、順位を生成するために比較される。総編集距離の最小重みが小さいほど、一致度が大きくなり、ターゲット文字列の順位が高くなる。逆に、総編集距離の最小重みが大きいほど、一致度が小さくなり、ターゲット文字列の順位が低くなる。
処理200および300は、様々な異なる方法で実施されてもよい。
重みは、クエリ文字列およびターゲット文字列に対して交互に計算されてよい。挿入文字列は、クエリ文字列に対して重み付けされてよく、削除文字列は、ターゲット文字列に対して重み付けされてよい。
任意の形態で(例えば、対数的に)重みが計算または変換されてもよいし、また、ターゲット単語が、それぞれのクエリ単語に対するターゲット単語の重みの最大値、平均値、または、別の形態(「重み付けされた長さ」)によって重み付けされてもよい。ターゲット文字列およびクエリ文字列の順序は、いくつかの実施形態において逆転されてもよい。
単語の距離または長さは、文字列全体を通して計算されてもよいし、アルゴリズムで選択された任意の間隔(「例えば、ある文字列が別の文字列から異なっている部分」)において計算されてもよい。
順位付けは、最短スライディングウィンドウまたは編集距離の代わりに、任意の重み付けされた単語の距離または長さの計算を含んでもよい。
図4は、検索結果を順位付けするためのシステムの一実施形態を示すブロック図である。システム400は、1組の統計サンプル内の2単語のあらゆる組み合わせの間の意味的相関を重み付けし、単語重みテーブルを生成および格納するよう適合されている単語重み生成モジュール401と、クエリ文字列を受信し、クエリ文字列を検索し、ターゲット文字列を取得するよう適合されている単語取得モジュール402と、クエリ文字列とターゲット文字列の各々とを分割するよう適合されている単語分割モジュール403と、クエリ文字列内のそれぞれの分割単語とターゲット文字列内のそれぞれの分割単語とを対にして順次組み合わせるよう適合されている組み合わせモジュール404と、分割単語のそれぞれの組み合わせの重みを取得するために単語重みテーブルに照会するよう適合されている照会モジュール405と、重み付けされた単語長を重みから計算し、重み付けされた単語長に基づいてターゲット文字列を順位付けし、任意選択的に順位付けの結果をユーザ端末にフィードバックするよう適合されているマッチングモジュール406と、を備える。
いくつかの実施形態において、単語重み生成モジュール401は、さらに、統計サンプルを取得するよう適合されたサンプル取得モジュールと、統計サンプルから第1の単語および第2の単語を選択し、第1および第2の単語の両方が統計サンプル内で出現する回数をC(第1の単語、第2の単語)としてカウントするよう適合された第1のカウントモジュールと、第2の単語が統計サンプル内で出現する回数をΣC(Yi、第2単語)(Yiはサンプル内で第2の単語と一緒に出現する単語を示す)としてカウントするよう適合された第2のカウントモジュールと、第2の単語が出現する条件のもとでの第1の単語の確率をP(第1の単語|第2の単語)=C(第1の単語、第2の単語)/ΣC(Yi、第2の単語)として計算するよう適合された確率計算モジュールと、第2の単語の検索の際に、例えばW=1−Pとして第1および第2の単語の間の意味的相関の重みを計算するよう適合された重み付けモジュールと(ここで、Wは重みであり、Pは第2の単語が出現する条件のもとでの第1の単語の確率である)、統計サンプル内のそれぞれの単語とそれぞれの他の単語との間の意味的相関の重みから単語の重みテーブルを生成するよう適合された生成モジュールと、を備える。
いくつかの実施形態において、重み付けされた単語長は、最短スライディングウィンドウの重み付けされた単語長であり、マッチングモジュール406は、さらに、クエリ文字列内の分割単語に対するターゲット文字列内の分割単語の最小重み、または、ターゲット文字列内の分割単語に対するクエリ文字列内の分割単語の最小重みを計算するよう適合された最小重み計算モジュールと、最小重みに従ってそれぞれのターゲット文字列について最短スライディングウィンドウの重み付けされた長さを計算するよう適合された第1の計算モジュールと、それぞれのターゲット文字列の最短スライディングウィンドウの重み付けされた長さを比較し、重み付けされた長さに基づいてターゲット文字列を順位付けするよう適合された順位付けモジュールと、を備える。
図5は、検索結果を順位付けするためのシステムの別の実施形態を示すブロック図である。システム500は、1組の統計サンプル内の2単語のあらゆる組み合わせの間の意味的相関を重み付けし、単語重みテーブルを生成および格納するよう適合された単語重み生成モジュール501と、クエリ文字列を受信し、クエリ文字列を検索し、ターゲット文字列を取得するよう適合された単語取得モジュール502と、クエリ文字列とターゲット文字列の各々とを分割するよう適合された単語分割モジュール503と、クエリ文字列内の分割単語に対する挿入単語の最小重みを計算するよう適合された第1の最小重み計算モジュール504と、ターゲット文字列内の分割単語に対する削除単語の最小重みを計算するよう適合された第2の最小重み計算モジュール505と、最小重みから総編集距離を計算し、それぞれのターゲット文字列を順位付けし、任意選択的に順位付けの結果をユーザ端末にフィードバックするよう適合されたマッチングモジュール506と、を備える。
いくつかの実施形態において、マッチングモジュール506は、それぞれのターゲット文字列についての総編集距離をWTotal=WI+WD(ここで、WTotalは総編集距離を表し、WIはクエリ文字列内の分割単語に対する挿入単語の最小重みを表し、WDはターゲット文字列内の分割単語に対する削除単語の最小重みを表す)として計算するよう適合された総編集距離計算モジュールと、それぞれのターゲット文字列の総編集距離を比較し、総編集距離に基づいてターゲット文字列を順位付けるよう適合された順位付けモジュールと、を備える。
いくつかの実施形態において、システム500は、さらに、総編集距離を計算する前に置換単語の編集距離の最小重みを計算するよう適合された第3の最小重み計算モジュールを備える。したがって、総編集距離計算モジュールは、それぞれのターゲット文字列についての総編集距離をWTotal=WI+WD+WCとして計算するよう適合され、WTotalは総編集距離を示し、WIはクエリ文字列内のそれぞれの分割単語に対する挿入単語の最小重みを表し、WDはターゲット文字列内のそれぞれの分割単語に対する削除単語の最小重みを表し、WCはクエリ文字列および/またはターゲット文字列内のそれぞれの分割単語に対する置換単語の最小重みを表す。
システム400および500は、クエリ文字列およびターゲット文字列の間の意味的相関を示す単語重みを用いて、それぞれのターゲット文字列がクエリ文字列と一致する程度をより正確に反映するものであり、実際に、簡単かつ効果的に適用されうる。各システムは、以下のような1または複数の計算デバイスを用いて実装されてよい。パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたは携帯型デバイス、フラットパネルデバイス、マルチプロセッサシステム、マイクロプロセッサを用いたシステム、セットトップボックス、プログラム可能な消費者電子デバイス、ネットワークPC、ミニコンピュータ、大規模コンピュータ、専用デバイス、任意の前述のシステムまたはデバイスを含む分散型計算環境、もしくは、1または複数のプロセッサと、プロセッサに接続されてプロセッサに命令を提供するよう構成されたメモリとを備えたその他のハードウェア/ソフトウェア/ファームウェアの組み合わせ。
上述のモジュールは、1または複数の汎用プロセッサ上で実行されるソフトウェアコンポーネントとして、特定の機能を実行するよう設計されたプログラム可能論理デバイスおよび/または特定用途向け集積回路などのハードウェアとして、もしくは、それらの組み合わせとして実装することができる。いくつかの実施形態において、モジュールは、コンピュータデバイス(パーソナルコンピュータ、サーバ、ネットワーク装置など)に本発明の実施形態に記載された方法を実行させるための複数の命令など、不揮発性記憶媒体(光学ディスク、フラッシュ記憶装置、携帯用ハードディスクなど)に格納することができるソフトウェア製品の形態で具現化されてよい。モジュールは、単一のデバイス上に実装されてもよいし、複数のデバイスにわたって分散されてもよい。モジュールの機能は、互いに統合されてもよいし、複数のサブモジュールにさらに分割されてもよい。
上述の実施形態は、理解し易いようにいくぶん詳しく説明されているが、本発明は、提供された詳細事項に限定されるものではない。本発明を実施する多くの代替方法が存在する。開示された実施形態は、例示であり、限定を意図するものではない。

Claims (20)

  1. 検索結果を順位付けるための方法であって、
    クエリ文字列を受信し、
    クエリ文字列に関連する対応する複数のターゲット文字列を含む複数の検索結果を取得し、
    前記クエリ文字列と、前記複数のターゲット文字列のそれぞれを分割し、
    複数の組み合わせを形成するために、前記クエリ文字列内の分割部分と、各前記ターゲット文字列内の分割部分とを対にし、
    単語の組み合わせと各単語の組み合わせに対する重みとのマッピングに基づいて、前記複数の組み合わせに対応する複数の重みを取得し、重みは単語の組み合わせに含まれる単語間の意味的相関の指標となり、
    前記複数のターゲット文字列それぞれに対応する前記重みに基づいて重み付けされた単語長を決定し、
    前記複数のターゲット文字列を前記複数のターゲット文字列のそれぞれについて重み付けされた単語長に基づいて順位付けること、
    を備える、方法。
  2. 請求項1に記載の方法において、単語の組み合わせと各単語の組み合わせに対する重みとの前記マッピングは、予め決定されている、方法。
  3. 請求項2に記載の方法において、単語の組み合わせと各単語の組み合わせに対する重みとの前記マッピングは、
    1組の統計サンプルを取得し、
    前記1組の統計サンプルから第1の単語および第2の単語を選択し、前記第1および第2の単語の両方が前記統計サンプル内で出現する回数をC(前記第1の単語、前記第2の単語)としてカウントし、
    前記第2の単語が前記統計サンプル内で出現する回数をΣC(Yi、前記第2の単語)としてカウントし、Yiは前記第2の単語と一緒に出現するそれぞれの前記単語を表し、
    前記第1および第2の単語の両方が前記統計サンプル内で出現する回数と、前記第2の単語が前記統計サンプル内で出現する回数とに基づいて、前記第2の単語が出現する条件のもとでの前記第1の単語の出現確率Pを計算し、
    前記第2の単語の検索の際に、前記第1および第2の単語の間の意味的相関の指標となる重みをW=1−Pによって決定し、Wは前記重みであり、Pは前記第2の単語が出現する前記条件のもとでの前記第1の単語の前記確率であり、
    前記統計サンプル内の単語の組み合わせの間の意味的相関の指標となる前記重みを決定するために、前記選択、カウント、計算、および、決定を繰り返し、
    前記単語の組み合わせと各単語の組み合わせに対する重みとの前記マッピングを格納すること、によって決定される、方法。
  4. 請求項3に記載の方法であって、前記統計サンプルは、ウェブページ、ユーザ検索ログ、または、ユーザ選択ログから取得される、方法。
  5. 請求項1に記載の方法であって、
    前記重み付けされた単語長は、最短スライディングウィンドウの前記重み付けされた単語長であり、
    前記重みから前記重み付けされた単語長を決定して、それぞれの前記ターゲット文字列を順位付けすることは、
    前記クエリ文字列の分割単語に対する前記ターゲット文字列の分割単語の最小重み、または、前記ターゲット文字列の分割単語に対する前記クエリ文字列の分割単語の最小重みを決定し、
    前記最小重みに基づいて、ターゲット文字列について前記最短スライディングウィンドウの前記重み付けされた長さを計算し、
    前記ターゲット文字列の前記最短スライディングウィンドウの前記重み付けされた長さを比較すること、を含み、
    重み付けされた長さが短いターゲット文字列が、重み付けされた長さが長いターゲット文字列よりも高く順位付けされる、方法。
  6. 請求項5に記載の方法であって、前記最小重みに基づいて、ターゲット文字列について前記最短スライディングウィンドウの前記重み付けされた長さを計算することは、以下の式に基づいており、
    Figure 2012533818
    Wは重みを表し、Tiはターゲット文字列のi番目の分割単語を表し、kおよびhはそれぞれ前記ターゲット文字列の前記最短スライディングウィンドウの開始位置および終了位置を表し、Qjは前記クエリ文字列のj番目の分割単語を表し、mは前記クエリ文字列の分割単語の数を表す、方法。
  7. 検索結果を順位付けするための方法であって、
    クエリ文字列を受信し、
    クエリ文字列に関連する対応する複数のターゲット文字列を含む複数の検索結果を取得し、
    前記クエリ文字列と、前記複数のターゲット文字列のそれぞれを分割し、
    単語の組み合わせと単語の組み合わせに対する重みとのマッピングに基づいて、前記クエリ文字列の分割単語に対する各挿入単語の最小重みを決定し、
    単語の組み合わせと単語の組み合わせに対する重みとのマッピングに基づいて、前記ターゲット文字列の分割単語に対する各削除単語の最小重みを決定し、
    各挿入単語の前記最小重みおよび各削除単語の前記最小重みに少なくとも部分的に基づいて総編集距離を決定し、
    前記総編集距離に基づいて前記ターゲット文字列を順位付けること、
    を備える、方法。
  8. 請求項7に記載の方法であって、前記クエリ文字列の分割単語に対する各挿入単語の最小重みを決定することは、
    単語の組み合わせと単語の組み合わせに対する重みとの前記マッピングに基づいて、前記クエリ文字列の分割単語に対する前記挿入単語の複数の重みを決定し、
    前記クエリ文字列のそれぞれの前記分割単語に対する前記挿入単語の前記最小重みを以下のように計算すること、を備え、
    Figure 2012533818
    Wは重みを表し、Itは挿入文字列のt番目の分割単語を表し、nは挿入された分割単語の数を表し、Qjは前記クエリ文字列のj番目の分割単語を表し、mは前記クエリ文字列の分割単語の数を表す、方法。
  9. 請求項7に記載の方法であって、前記ターゲット文字列の分割単語に対する前記削除単語の前記最小重みを決定することは、
    単語の組み合わせと単語の組み合わせに対する重みとの前記マッピングに基づいて、前記ターゲット文字列の前記分割単語に対する前記削除単語の複数の重みを決定し、
    前記ターゲット文字列のそれぞれの前記分割単語に対する前記削除単語の前記最小重みを以下のように計算することと、を備え、
    Figure 2012533818
    Wは重みを表し、Tiは前記ターゲット文字列のt番目の分割単語を表し、qは前記ターゲット文字列の分割単語の数を表し、Ddは前記削除単語内のd番目の分割単語を表し、pは削除された分割単語の数を表す、方法。
  10. 請求項7に記載の方法であって、前記総編集距離を決定することは、
    前記複数のターゲット文字列の複数の総編集距離をWTotal=WI+WDとして計算することを含み、
    Totalは前記総編集距離を表し、WIは前記クエリ文字列の分割単語に対する前記挿入単語の前記最小重みを表し、WDは前記複数のターゲット文字列の内の一ターゲット文字列の分割単語に対する前記削除単語の前記最小重みを表す、方法。
  11. 請求項7に記載の方法であって、さらに、
    各置換単語の最小重みを決定することを備え、
    前記総編集距離を決定することは、さらに、各置換単語の前記最小重みに基づき、
    前記総編集距離は、WTotal=WI+WD+WCとして計算され、
    Totalは前記総編集距離を表し、WIは前記クエリ文字列の分割単語に対する前記挿入単語の前記最小重みを表し、WDは前記複数のターゲット文字の内の一ターゲット文字列の分割単語に対する前記削除単語の前記最小重みを表し、WCは前記クエリ文字または前記ターゲット文字列の分割単語に対する前記置換単語の前記最小重みを表す、方法。
  12. 請求項11に記載の方法であって、前記各置換単語の前記最小重みを決定することは、事前設定された固定値に前記置換単語の前記編集距離の前記最小重みを設定することを含む、方法。
  13. 請求項11に記載の方法であって、前記各置換単語の前記最小重みを決定することは、前記置換単語の前記編集距離を、前記クエリ文字列の分割単語に対する前記挿入単語の前記最小重みと前記ターゲット文字列の前記分割単語に対する前記削除単語の前記最小重みとの合計値、平均値、または、最大値に設定することを含む、方法。
  14. 検索結果を順位付けるためのシステムであって、
    1または複数のプロセッサであって、
    クエリ文字列を受信し、
    クエリ文字列に関連する対応する複数のターゲット文字列を含む複数の検索結果を取得し、
    前記クエリ文字列と、各前記複数のターゲット文字列を分割し、
    複数の組み合わせを形成するために、前記クエリ文字列の分割部分を前記ターゲット文字列のそれぞれの分割部分と対にし、
    単語の組み合わせと単語の組み合わせに対する重みとのマッピングに基づいて、前記複数の組み合わせに対応する複数の重みを取得し、重みは単語の組み合わせに含まれる単語間の意味的相関の指標となり、
    前記複数のターゲット文字列のそれぞれに対応する前記重みに基づいて重み付けされた単語長を決定すし、
    前記複数のターゲット文字列を前記複数のターゲット文字列のそれぞれについて重み付けされた単語長に基づいて順位付けることを実行するよう構成されている1または複数のプロセッサと、
    前記1または複数のプロセッサに接続され、前記1または複数のプロセッサに命令を提供するよう構成されている1または複数のメモリと、
    を備える、システム。
  15. 請求項14に記載のシステムであって、単語の組み合わせと各単語の組み合わに対する重みとの前記マッピングは、
    1組の統計サンプルを取得し、
    前記1組の統計サンプルから第1の単語および第2の単語を選択し、前記第1および第2の単語の両方が前記統計サンプル内で出現する回数をC(前記第1の単語、前記第2の単語)としてカウントし、
    前記第2の単語が前記統計サンプル内で出現する回数をΣC(Yi、前記第2の単語)としてカウントし、Yiは前記第2の単語と一緒に出現するそれぞれの前記単語を表し、
    前記第1および第2の単語の両方が前記統計サンプル内で出現する回数と、前記第2の単語が前記統計サンプル内で出現する回数とに基づいて、前記第2の単語が出現する条件のもとでの前記第1の単語の出現確率Pを計算し、
    前記第2の単語の検索の際に、前記第1および第2の単語の間の意味的相関の指標となる重みをW=1−Pによって決定し、Wは前記重みであり、Pは前記第2の単語が出現する前記条件のもとでの前記第1の単語の前記確率であり、
    前記統計サンプル内の単語の組み合わせの間の意味的相関の指標となる前記重みを決定するために、前記選択、カウント、計算、および、決定を繰り返し、
    前記単語の組み合わせと各単語の組み合わせに対する重みとの前記マッピングを格納すること、によって決定される、システム。
  16. 請求項14に記載のシステムであって、
    前記重み付けされた単語長は、最短スライディングウィンドウの前記重み付けされた単語長であり、
    前記重みから前記重み付けされた単語長を決定して、それぞれの前記ターゲット文字列を順位付けことは、
    前記クエリ文字列の分割単語に対する前記ターゲット文字列の分割単語の最小重み、または、前記ターゲット文字列の分割単語に対する前記クエリ文字列の分割単語の最小重みを決定し、
    前記最小重みに基づいて、ターゲット文字列について前記最短スライディングウィンドウの前記重み付けされた長さを計算し、
    前記ターゲット文字列の前記最短スライディングウィンドウの前記重み付けされた長さを比較すること、を含み、
    重み付けされた長さが短いターゲット文字列が、重み付けされた長さが長いターゲット文字列よりも高く順位付けされる、システム。
  17. 請求項16に記載のシステムであって、前記最小重みに基づいて、ターゲット文字列について前記最短スライディングウィンドウの前記重み付けされた長さを計算することは、以下の式に基づいており、
    Figure 2012533818
    Wは重みを表し、Tiはターゲット文字列のi番目の分割単語を表し、kおよびhはそれぞれ前記ターゲット文字の前記最短スライディングウィンドウの開始位置および終了位置を表し、Qjは前記クエリ文字列のj番目の分割単語を表し、mは前記クエリ文字列の分割単語の数を表す、システム。
  18. 検索結果を順位付けるためのシステムであって、
    1または複数のプロセッサであって、
    クエリ文字列を受信し、
    クエリ文字列に関連する対応する複数のターゲット文字列を含む複数の検索結果を取得し、
    前記クエリ文字列と、前記複数のターゲット文字列のそれぞれを分割し、
    単語の組み合わせと単語の組み合わせに対する重みとのマッピングに基づいて、前記クエリ文字列の分割単語に対する各挿入単語の最小重みを決定し、
    単語の組み合わせと単語の組み合わせに対する重みとのマッピングに基づいて、前記ターゲット文字列の分割単語に対する各削除単語の最小重みを決定し、
    各挿入単語の前記最小重みおよび各削除単語の前記最小重みに少なくとも部分的に基づいて総編集距離を決定し、
    前記総編集距離に基づいて前記ターゲット文字列を順位付けることを実行するよう構成されている1または複数のプロセッサと、
    前記1または複数のプロセッサに接続され、前記1または複数のプロセッサに命令を提供するよう構成されている1または複数のメモリと、
    を備える、システム。
  19. 請求項18に記載のシステムであって、前記クエリ文字列の分割単語に対する各挿入単語の最小重みを決定することは、
    単語の組み合わせと単語の組み合わせに対する重みとの前記マッピングに基づいて、前記クエリ文字列の分割単語に対する前記挿入単語の複数の重みを決定し、
    前記クエリ文字列のそれぞれの前記分割単語に対する前記挿入単語の前記最小重みを以下のように計算すること、を含み、
    Figure 2012533818
    Wは重みを表し、Itは挿入文字列のt番目の分割単語を表し、nは挿入された分割単語の数を表し、Qjは前記クエリ文字列のj番目の分割単語を表し、mは前記クエリ文字列の分割単語の数を表す、システム。
  20. 請求項7に記載の方法であって、前記ターゲット文字列の分割単語に対する前記削除単語の前記最小重みを決定することは、
    単語の組み合わせと単語の組み合わせに対する重みとの前記マッピングに基づいて、前記ターゲット文字列の前記分割単語に対する前記削除単語の複数の重みを決定し、
    前記ターゲット文字列のそれぞれの前記分割単語に対する前記削除単語の前記最小重みを以下のように計算すること、を備え、
    Figure 2012533818
    Wは重みを表し、Tiは前記ターゲット文字列のt番目の分割単語を表し、qは前記ターゲット文字列の分割単語の数を表し、Ddは前記削除単語のd番目の分割単語を表し、pは削除された分割単語の数を表す、方法。
JP2012521611A 2009-07-20 2010-07-16 単語の重みに基づいた検索結果の順位付け Expired - Fee Related JP5597255B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN2009101516473A CN101957828B (zh) 2009-07-20 2009-07-20 一种对搜索结果进行排序的方法和装置
CN200910151647.3 2009-07-20
US12/804,229 US8856098B2 (en) 2009-07-20 2010-07-15 Ranking search results based on word weight
US12/804,229 2010-07-15
PCT/US2010/002000 WO2011011046A1 (en) 2009-07-20 2010-07-16 Ranking search results based on word weight

Publications (2)

Publication Number Publication Date
JP2012533818A true JP2012533818A (ja) 2012-12-27
JP5597255B2 JP5597255B2 (ja) 2014-10-01

Family

ID=43465993

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012521611A Expired - Fee Related JP5597255B2 (ja) 2009-07-20 2010-07-16 単語の重みに基づいた検索結果の順位付け

Country Status (6)

Country Link
US (2) US8856098B2 (ja)
EP (1) EP2457151A4 (ja)
JP (1) JP5597255B2 (ja)
CN (1) CN101957828B (ja)
HK (1) HK1149823A1 (ja)
WO (1) WO2011011046A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018501597A (ja) * 2015-12-03 2018-01-18 小米科技有限責任公司Xiaomi Inc. 類似性特定方法、装置、端末、プログラム及び記録媒体

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637171A (zh) * 2011-02-10 2012-08-15 北京百度网讯科技有限公司 一种优化搜索结果的方法和装置
CN102799586B (zh) * 2011-05-24 2016-04-27 北京百度网讯科技有限公司 一种用于搜索结果排序的转义度确定方法和装置
US8706753B2 (en) * 2011-08-25 2014-04-22 Oracle International Corporation Search result ranking with search string certainty weighting
CN102346777B (zh) * 2011-10-09 2016-06-01 北京百度网讯科技有限公司 一种对例句检索结果进行排序的方法和装置
CN103294727B (zh) * 2012-03-05 2017-09-08 阿里巴巴集团控股有限公司 一种被推荐对象的过滤方法及系统
CN103425691B (zh) * 2012-05-22 2016-12-14 阿里巴巴集团控股有限公司 一种搜索方法和系统
WO2014021824A1 (en) * 2012-07-30 2014-02-06 Hewlett-Packard Development Company, L.P. Search method
US9292621B1 (en) 2012-09-12 2016-03-22 Amazon Technologies, Inc. Managing autocorrect actions
US9305150B2 (en) * 2012-12-10 2016-04-05 Lookout, Inc. Method and system for managing user login behavior on an electronic device for enhanced security
CN103902549B (zh) * 2012-12-25 2017-12-12 阿里巴巴集团控股有限公司 搜索数据排序的方法和装置,数据搜索的方法和装置
US20140223466A1 (en) * 2013-02-01 2014-08-07 Huawei Technologies Co., Ltd. Method and Apparatus for Recommending Video from Video Library
CN103970791B (zh) * 2013-02-01 2018-01-23 华为技术有限公司 一种从视频库推荐视频的方法、装置
US9727544B2 (en) * 2013-05-06 2017-08-08 Dropbox, Inc. Animating edits to documents
CN103488787B (zh) * 2013-09-30 2017-12-19 北京奇虎科技有限公司 一种基于视频搜索的在线播放入口对象的推送方法和装置
WO2015043389A1 (zh) * 2013-09-30 2015-04-02 北京奇虎科技有限公司 一种基于视频搜索的分词信息推送方法和装置
CN103491205B (zh) * 2013-09-30 2016-08-17 北京奇虎科技有限公司 一种基于视频搜索的关联资源地址的推送方法和装置
US20150170067A1 (en) * 2013-12-17 2015-06-18 International Business Machines Corporation Determining analysis recommendations based on data analysis context
US9754020B1 (en) 2014-03-06 2017-09-05 National Security Agency Method and device for measuring word pair relevancy
US10242090B1 (en) * 2014-03-06 2019-03-26 The United States Of America As Represented By The Director, National Security Agency Method and device for measuring relevancy of a document to a keyword(s)
US10353964B2 (en) * 2014-09-15 2019-07-16 Google Llc Evaluating semantic interpretations of a search query
CN104462327B (zh) * 2014-12-02 2018-09-11 百度在线网络技术(北京)有限公司 语句相似度的计算、搜索处理方法及装置
CN104462323B (zh) * 2014-12-02 2018-02-27 百度在线网络技术(北京)有限公司 语义相似度计算方法、搜索结果处理方法和装置
US10528328B2 (en) * 2015-12-08 2020-01-07 Microsoft Technology Licensing, Llc Learning from input patterns in Programing-By-Example
CN106919603B (zh) * 2015-12-25 2020-12-04 北京奇虎科技有限公司 计算查询词模式中分词权重的方法和装置
US10021051B2 (en) * 2016-01-01 2018-07-10 Google Llc Methods and apparatus for determining non-textual reply content for inclusion in a reply to an electronic communication
CN106970919B (zh) * 2016-01-14 2020-05-12 北京国双科技有限公司 新词组发现的方法及装置
CN106997335B (zh) * 2016-01-26 2020-05-19 阿里巴巴集团控股有限公司 相同字符串的判定方法及装置
CN107657471B (zh) * 2016-09-22 2021-04-30 腾讯科技(北京)有限公司 一种虚拟资源的展示方法、客户端及插件
CN107103066A (zh) * 2017-04-18 2017-08-29 北京思特奇信息技术股份有限公司 一种用户偏好的检索方法及装置
CN110580271B (zh) * 2018-06-08 2022-05-24 百度在线网络技术(北京)有限公司 数据查询方法和装置
CN109783498B (zh) * 2019-01-17 2020-06-02 北京三快在线科技有限公司 数据处理方法及装置、电子设备、存储介质
CN110287307B (zh) * 2019-05-05 2022-04-05 浙江吉利控股集团有限公司 一种搜索结果排序方法、装置及服务器
CN112667779B (zh) * 2020-12-30 2023-09-05 北京奇艺世纪科技有限公司 一种信息查询方法、装置、电子设备及存储介质
CN112564988B (zh) * 2021-02-19 2021-06-18 腾讯科技(深圳)有限公司 告警处理方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194713A (ja) * 1998-12-25 2000-07-14 Nippon Telegr & Teleph Corp <Ntt> 文字列検索方法及び装置及び文字列検索プログラムを格納した記憶媒体
JP2005063468A (ja) * 1996-05-29 2005-03-10 Matsushita Electric Ind Co Ltd 文書検索装置
WO2008083211A1 (en) * 2006-12-29 2008-07-10 Thomson Reuters Global Resources Information-retrieval systems, methods, and software with concept-based searching and ranking
WO2009066501A1 (ja) * 2007-11-19 2009-05-28 Nippon Telegraph And Telephone Corporation 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6018735A (en) * 1997-08-22 2000-01-25 Canon Kabushiki Kaisha Non-literal textual search using fuzzy finite-state linear non-deterministic automata
AU3292699A (en) 1998-02-13 1999-08-30 Yahoo! Inc. Search engine using sales and revenue to weight search results
US6633868B1 (en) * 2000-07-28 2003-10-14 Shermann Loyall Min System and method for context-based document retrieval
US20020103798A1 (en) 2001-02-01 2002-08-01 Abrol Mani S. Adaptive document ranking method based on user behavior
US20040002849A1 (en) * 2002-06-28 2004-01-01 Ming Zhou System and method for automatic retrieval of example sentences based upon weighted editing distance
US20040064447A1 (en) 2002-09-27 2004-04-01 Simske Steven J. System and method for management of synonymic searching
US20050144162A1 (en) 2003-12-29 2005-06-30 Ping Liang Advanced search, file system, and intelligent assistant agent
US20050198026A1 (en) 2004-02-03 2005-09-08 Dehlinger Peter J. Code, system, and method for generating concepts
US20070250501A1 (en) 2005-09-27 2007-10-25 Grubb Michael L Search result delivery engine
US7707204B2 (en) 2005-12-13 2010-04-27 Microsoft Corporation Factoid-based searching
US7756859B2 (en) * 2005-12-19 2010-07-13 Intentional Software Corporation Multi-segment string search
US9177124B2 (en) 2006-03-01 2015-11-03 Oracle International Corporation Flexible authentication framework
US20080016053A1 (en) 2006-07-14 2008-01-17 Bea Systems, Inc. Administration Console to Select Rank Factors
US20080016061A1 (en) 2006-07-14 2008-01-17 Bea Systems, Inc. Using a Core Data Structure to Calculate Document Ranks
US7873641B2 (en) 2006-07-14 2011-01-18 Bea Systems, Inc. Using tags in an enterprise search system
US20080016071A1 (en) 2006-07-14 2008-01-17 Bea Systems, Inc. Using Connections Between Users, Tags and Documents to Rank Documents in an Enterprise Search System
US7562088B2 (en) * 2006-12-27 2009-07-14 Sap Ag Structure extraction from unstructured documents
CN100517330C (zh) * 2007-06-06 2009-07-22 华东师范大学 一种基于语义的本地文档检索方法
TWI356315B (en) * 2007-10-16 2012-01-11 Inst Information Industry Method and system for constructing data tag based
CN100557612C (zh) * 2007-11-15 2009-11-04 深圳市迅雷网络技术有限公司 一种基于搜索引擎的搜索结果排序方法及装置
US8051187B2 (en) * 2008-12-22 2011-11-01 Check Point Software Technologies Ltd. Methods for automatic categorization of internal and external communication for preventing data loss

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005063468A (ja) * 1996-05-29 2005-03-10 Matsushita Electric Ind Co Ltd 文書検索装置
JP2000194713A (ja) * 1998-12-25 2000-07-14 Nippon Telegr & Teleph Corp <Ntt> 文字列検索方法及び装置及び文字列検索プログラムを格納した記憶媒体
WO2008083211A1 (en) * 2006-12-29 2008-07-10 Thomson Reuters Global Resources Information-retrieval systems, methods, and software with concept-based searching and ranking
JP2010515171A (ja) * 2006-12-29 2010-05-06 トムソン ルーターズ グローバル リソーシーズ 概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェア
WO2009066501A1 (ja) * 2007-11-19 2009-05-28 Nippon Telegraph And Telephone Corporation 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018501597A (ja) * 2015-12-03 2018-01-18 小米科技有限責任公司Xiaomi Inc. 類似性特定方法、装置、端末、プログラム及び記録媒体
US10089301B2 (en) 2015-12-03 2018-10-02 Xiaomi Inc. Method and apparatus for determining semantic similarity of character strings

Also Published As

Publication number Publication date
WO2011011046A1 (en) 2011-01-27
JP5597255B2 (ja) 2014-10-01
EP2457151A4 (en) 2017-01-04
US9317591B2 (en) 2016-04-19
US20110016111A1 (en) 2011-01-20
US20150081683A1 (en) 2015-03-19
CN101957828A (zh) 2011-01-26
US8856098B2 (en) 2014-10-07
HK1149823A1 (en) 2011-10-14
CN101957828B (zh) 2013-03-06
EP2457151A1 (en) 2012-05-30

Similar Documents

Publication Publication Date Title
JP5597255B2 (ja) 単語の重みに基づいた検索結果の順位付け
CN110674429B (zh) 用于信息检索的方法、装置、设备和计算机可读存储介质
US9846748B2 (en) Searching for information based on generic attributes of the query
JP5450842B2 (ja) 単語情報エントロピの決定
TWI524193B (zh) 用於搜尋結果之語義目錄的電腦可讀取媒體及電腦實現方法
US20120323839A1 (en) Entity recognition using probabilities for out-of-collection data
US8949227B2 (en) System and method for matching entities and synonym group organizer used therein
CN106446122B (zh) 信息检索的方法、装置与计算设备
JP2014501422A (ja) ユーザ意図の有無に基づく検索キーワードの推薦
CN103577416A (zh) 扩展查询方法及系统
CN110147494B (zh) 信息搜索方法、装置,存储介质及电子设备
CN110990533A (zh) 确定查询文本所对应标准文本的方法及装置
CN111159563A (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
JP2009193219A (ja) インデックス作成装置、その方法、プログラム及び記録媒体
CN115630144B (zh) 一种文档搜索方法、装置及相关设备
US20230143777A1 (en) Semantics-aware hybrid encoder for improved related conversations
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN111144098B (zh) 扩展问句的召回方法和装置
CN114020867A (zh) 一种搜索词的扩展方法、装置、设备及介质
JP2009157458A (ja) インデックス作成装置、その方法、プログラム及び記録媒体
US9652499B1 (en) Search-based recommendation engine
CN116501841B (zh) 数据模型模糊查询方法、系统及存储介质
CN111159526B (zh) 查询语句处理方法、装置、设备及存储介质
JP2007149022A (ja) 文書特徴抽出装置、方法及びプログラム
TWI486797B (zh) Methods and devices for sorting search results

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130702

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140715

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140808

R150 Certificate of patent or registration of utility model

Ref document number: 5597255

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees