JP6124917B2 - 情報検索のための方法および装置 - Google Patents

情報検索のための方法および装置 Download PDF

Info

Publication number
JP6124917B2
JP6124917B2 JP2014544948A JP2014544948A JP6124917B2 JP 6124917 B2 JP6124917 B2 JP 6124917B2 JP 2014544948 A JP2014544948 A JP 2014544948A JP 2014544948 A JP2014544948 A JP 2014544948A JP 6124917 B2 JP6124917 B2 JP 6124917B2
Authority
JP
Japan
Prior art keywords
synonym
word
strings
pairs
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014544948A
Other languages
English (en)
Other versions
JP2015500525A5 (ja
JP2015500525A (ja
Inventor
シェン ユエ
シェン ユエ
ジン カイミン
ジン カイミン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2015500525A publication Critical patent/JP2015500525A/ja
Publication of JP2015500525A5 publication Critical patent/JP2015500525A5/ja
Application granted granted Critical
Publication of JP6124917B2 publication Critical patent/JP6124917B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

関連特許出願の相互参照
本出願は、2011年11月30日に出願された中国特許出願第201110391864.7号、表題「Method and Apparatus for Information Searching」の優先権を主張するものであり、これは、参照によりその全体が本明細書に組み込まれる。
本開示は、ネットワーク技術の分野に関する。より具体的には、本開示は、情報を検索するための方法および装置に関する。
キーワード検索は、多くの検索エンジンによって現在採用されている主要な検索方法である。キーワード検索は、キーワードおよびこのキーワードの同義語に基づいて実行され得る。いくつかの技法(例えば、テキストマイニングおよびスキーママッチング)は、キーワード検索のための同義語を生成するために使用され、したがって、検索効率を増大させる。しかしながら、これらの技法は、特定の文脈下で同義語を特定する際に問題がある。例えば、テキストマイニングは、同義語を選別してマッチングさせるために、テキスト類似性アルゴリズム(例えば、編集距離アルゴリズム)および同義語辞書に依存する。しかしながら、同義語辞書に含まれていない場合、特定の文脈下の同義語は特定され得ない。
検索のためにデータをマイニングするための技法が本明細書に記載される。これらの技法は、キーワードを含むクエリを受信する。これらの技法はまた、キーワードと関連付けられた同義語対を、電子商取引と関連付けられた品目記述をマイニングすることによって生成する。これらの同義語対に基づいて、検索を、受信されたクエリに応答して実行し得る。
この発明の概要は、特許請求される主題の全ての重要な特徴または本質的な特徴を特定するよう意図されるものでも、特許請求される主題の範囲の決定を支援する際に単独で用いられるよう意図されるものでもない。
詳細の説明は、添付の図面を参照して記載される。様々な図面で用いられる同一の参照番号は、類似のまたは同一の項目を示す。
は、データのマイニングおよび/または検索を実行するためのサーバ(複数可)を含む例示のアーキテクチャを示す。 は、データマイニングのための例示のフロー図を示す。 は、選択されたカテゴリ下の同義語対および包括的な関連度を示す例示の表を示す。 は、図1のアーキテクチャで展開され得る例示のサーバを示す。
以下の考察は、本開示の特定の例示の実施形態を説明する。ここで説明されるこれらの例示の実施形態は例示目的であり、本開示を制限することを意図するものではない。
図1は、データのマイニングおよび検索を実行するためのサーバ(複数可)を含む例示のアーキテクチャ100を示す。ユーザは、サーバにクエリを提出し得、このサーバは、検索を実行して結果を返送し得る。このクエリは、単語を含み得る。一部の実施形態では、サーバは、この単語を含む複数の同義語対を生成するために、取引品目のカテゴリ下の品目の複数の品目記述(例えば、オンライン広告)をマイニングし得る。サーバは更に、これら複数の同義語対の個々の同義語対の包括的関連度を計算する。この包括的関連度は、この単語の属性と、複数の同義語対内におけるこの単語とこの単語の同義語との間の関連度とを示し得る。包括的関連度が所定の値より大きい場合、サーバは、この単語の同義語に基づいて検索を実行する。
示される実施形態において、これらの技法は、1つ以上のネットワーク110上でクエリ106を1つ以上のサーバ108に提出するためにユーザデバイス104を操作するユーザ102の文脈において説明される。サーバ108は、これらの項目に基づいて検索を実行し、結果112をユーザデバイス104に返送する。
ここでは、ユーザ102は、ネットワーク110を介してクエリ106を提出し得る。ネットワーク110は、ケーブルネットワーク、インターネット、および無線ネットワーク等の互いに異なった複数のタイプのネットワークのうちのいずれか1つまたは組み合わせを含み得る。ユーザデバイス104は、一方、パソコン、ラップトップ、携帯情報端末(PDA)、携帯電話、セットトップボックス、ゲーム機、人的メディアプレーヤー(PMP)等を含む任意の数のコンピューティングデバイスとして実現され得る。ユーザデバイス104は、1つ以上のプロセッサと、アプリケーションおよびデータを記憶するためのメモリとを装備する。ユーザデバイス104上を走行する、ブラウザや他のクライアントアプリケーション等のアプリケーションは、ネットワーク110上でのサーバ108への提出を容易化し得る。
アーキテクチャ100では、サーバ108は、各々が単語およびこの単語の同義語を含む同義語対116を生成するために、表示情報114(たとえば、品目のオンライン広告)をマイニングし得る。一部の実施形態では、サーバ108は、電子商取引ウエブサイトで採用され、表示情報114は、これらの品目を売却することを所望するベンダーによって提供される品目広告情報を含み得る。
同義語対116に基づいて、サーバ108は次に、この単語の属性およびこの単語とこの単語の同義語との間の関連度を示すために、個々の同義語対のスペクトル118を計算し得る。一部の実施形態では、スペクトル118は、この単語とこの個々の同義語対内の同義語との間の関連度を示す文脈パラメータを含み得る。スペクトル118は、個々の同義語対の単語の属性を示す個々の同義語対の属性パラメータも含み得る。これらの属性パラメータは、所定の規則に基づいて決定し得る。文脈パラメータおよび属性パラメータに基づいて、サーバ108は、個々の同義語対の包括的関連度120を計算し得る。
図2は、データマイニングのためのフロー図200を示す。202で、サーバ108は、同義語を取得するために表示情報をマイニングし得る。一部の実施形態では、サーバ108は、選択されたカテゴリの表示情報を取得し、この取得された表示情報中の同義語対を特定する。
従来の技法を用いることによって、特定の文脈下ではなく全般的状況下にある同義語対が取得され得る。例えば、全般的状況下では、ノキア携帯電話のモデル番号5800および5230は、同義語ではない、しかしながら、これらの2つの携帯電話は、同一の種類の電話ケースを用いることが可能である。したがって、電話ケースという特定の文脈下では、5800および5230は、同義語対と見なされ得る。
本明細書に説明する技法は、特定の文脈または意味における同義語対を決定して、これら特定の文脈下の同義語対を取得し得る。特定の文脈とは、取引品目(たとえば、電話ケースや携帯電話)の1つ以上の所定のカテゴリのことである。一部の実施形態では、これらカテゴリは、所定の規則に基づいて決定され得る。これらの例では、電子商取引サービス提供者と関連付けられた取引品目は、ルートノードおよび子ノードの集合を含む階層的なツリー構造を用いて表され得る。このツリー構造のノードは、複数の品目と関連付けられた1つ以上の属性を共有する複数の品目を含み得る。カテゴリは、ツリー構造のノードに、ひいては文脈に対応し得る。
204では、サーバ108は、取得された同義語対に基づいて文脈スペクトルおよび属性スペクトルを決定し得る。一部の実施形態では、サーバ108は、取得された同義語対中に含まれる単語の文脈スペクトルおよび属性スペクトルを決定し得る。これらの例では、文脈スペクトルは、これらの対に含まれる一般的な単語とこの一般的単語の同義語との間の関連度を含み得る。属性スペクトルは、これらの対に含まれる単語の属性およびこれらの属性の各々の重みを含み得る。
選択されたカテゴリ下の表示情報から見つけられた同義語対の各々について、これらの同義語対の文脈スペクトルおよび属性スペクトルが決定され得る。文脈スペクトルは、同義語対に含まれる一般的な単語とこれらの単語の同義語との間の関連度を含み得る。例えば、携帯電話というカテゴリ下では、表示情報の特徴情報は、「ノキア」という単語を含み、統計データに従って、「ノキア」と共起する単語は、「携帯電話」、
Figure 0006124917
、「n73」である。したがって、これらのツリー単語と、これらのツリー単語と「ノキア」という単語の間の対応する関連度とは、「ノキア」という単語の文脈スペクトルを構成する。この属性スペクトルは、同義語対に含まれる単語の属性およびこれらの属性の重みを含み得る。例えば、携帯電話というカテゴリ下では、表示情報は、「ノキアn73」という単語を含むが、この単語の属性はブランド名「ノキア」であり、別の属性はモデル番号の「n73」である。したがって、これらブランド名およびモデル番号ならびにこれらに対応する重みを含むこれら2つの属性は、「ノキアn73」という単語の属性スペクトルであり得る。
206で、サーバ108は、同義語対の包括的関連度を計算し得る。一部の実施形態では、各々の同義語対について、サーバ108は、包括的関連度を計算し、所定の値よりも大きいか、または1つ以上の事前設定された判断基準を満たす包括的関連度を有する同義語対のために共通の検索索引を構築し得る。見つけられた各々の同義語対について、この同義語対に含まれる単語の文脈パラメータおよび属性パラメータ(たとえば、文脈スペクトルおよび属性スペクトル)に基づいて包括的関連度を計算し得る。一部の実施形態では、この包括的関連度は、同義語対または同義語対の同義性の関連度を表し得る。図3は、選択されたカテゴリ下の同義語対および包括的な関連度を示す例示の表300である。例示の実施形態では、携帯電話というカテゴリ下の同義語対は、一例として示されている。欄302は、携帯電話というカテゴリ下の多数のリーフ(leaf)カテゴリを含み得る。欄304および306は、同義語対を含み得る。欄308は、同義語対の包括的関連度を含み得る。
一部の実施形態では、共通の検索索引は、1つ以上の判断基準を満たす同義語対のために構築され得る。これらの判断基準は、所定の要件に基づいて決定され得る。これら判断基準は、関連度の閾値であり得る。同義語対の関連度は、関連度の閾値と比較され得る。より高い包括的関連度が同義語対に含まれる単語のより高い同義性を表す場合、共通の検索索引は、閾値以上の包括的関連度を有する同義語対のために構築され得る。より低い包括的関連度がより高い同義性を表す場合、共通の検索索引は、閾値以下の包括的関連度を有する同義語対のために構築され得る。
208で、サーバ108は、包括的関連度に基づいて索引を構築し得る。一部の実施形態では、共通の検索索引は、ユーザが入力した検索情報が、共通の検索索引が構築された対象となる同義語対に含まれる単語を含むときに、検索するために用いられ得る。210で、サーバは、208で構築された索引に基づいて検索を実行し得る。
従来の技術に照らして、「アップル」という単語が果物の一種を意味する一方で、「アイフォン」は携帯電話のブランド名である。言い換えれば、「アップル」と「アイフォン」とは、全般的状況下では同義語ではあり得ない。しかしながら、携帯電話というカテゴリ下では、「アップル」と「アイフォン」とは双方とも、携帯電話のブランド名であり、一対の同義語である。202〜208の動作を実行した後、サーバ108は、「アップル」と「アイフォン」とは、携帯電話というカテゴリ下では同義語であると決定する。検索エンジンは次に、携帯電話というカテゴリ下の「アップル」および「アイフォン」のために共通の検索索引を構築し得る。ユーザが、検索目的でユーザ端末に「アップル」または「アイフォン」を入力するとき、「アップル」および「アイフォン」を別々に検索する必要はない。
別の例の場合、全般的状況下では、ノキアの携帯電話のモデル番号5800および5230は、同義語ではない。しかしながら、これらの2つのモデルの携帯電話は、同一の電話ケースを用いることが可能である。したがって、電話ケースというカテゴリ下では、5800および5230は同義語対であり得、共通の検索索引を、電話ケースというカテゴリ下の5800および5230のために構築し得る。ユーザは、ユーザ端末で5800または5230を検索するとき、5800および5230を別々に検索実行する必要はない。したがって、上記の2つの例から、共通の検索索引を用いて検索を実行することで、検索速度を大幅に改善することができると結論され得る。
一部の実施形態では、選択されたカテゴリ下の同義語対を見つけることは、特定の文脈下の同義語対を見つけるための前提となり得る。これらの例では、包括的関連度は、文脈スペクトルおよび属性スペクトルに基づいて計算され得る。文脈スペクトルは、同義語対に含まれる単語とこの単語の同義語との間の関連度を含み得る。属性スペクトルは、同義語対に含まれる単語の属性およびこれらの属性の各々の重みを含み得る。判断基準は所定の規則に基づいて決定され、共通の検索索引は、これらの判断基準を満たす同義語対のために構築され得る。文脈スペクトルや属性スペクトル等の要因を考慮することによって、見つけられた同義語対は、ユーザの検索意図および文脈をより良く反映し、したがって、同義語対の曖昧さを生成する可能性が軽減される。したがって、本明細書に記載する同義語対は、より効率的に見つけられ、検索エンジンの検索効率が改善される。
一部の実施形態では、サーバ108は、選択されたカテゴリ下の表示情報および/または履歴検索情報の特徴情報を分析することによって、同義語対を決定し得る。これらの例では、サーバ108は、単語を単位として用いて、選択されたカテゴリ下の表示情報の特徴情報を区分化し得る。サーバ108は、共起単語対と、これら共起単語対が表示情報の区分化された特徴情報中に見つけられた回数とを記録し得る。表示情報の区分化された特徴情報中のこれらの共起単語対は、回数が所定の閾値より大きい場合に同義語対と見なされ得る。
選択されたカテゴリ下の表示情報の特徴情報は、題名、価格、および/または記述情報であり得る。例えば、選択されたカテゴリ下の表示情報の題名は、表示される品目の記述を含み、これらの題名は、一緒に見つけられた単語も含み得る。例えば、題名は、「赤のシフォン・・・・2011年の新着の流行のストラップドレス・・・ストラップワンピースのドレス」と書いてある。
区分化後、「ストラップドレス」および「ストラップワンピースドレス」は、同一の意味の繰り返し表現であると決定される。題名中に共起する単語は共起単語対であると決定され、このような共起単語対が共起する回数もカウントされ得る。題名中の共起単語対は、同義語対または連語対であり得る。したがって、所定の閾値は、共起単語対が共起する回数が所定の閾値以下である場合、これらの共起単語対は同義語対であると決定するために選択され得る。
この所定の閾値は、所定の規則に基づいて決定され得る。同義語対の同義性に対する要件が比較的高い場合、比較的高い閾値が決定され得る。
一部の実施形態では、サーバ108は、選択されたカテゴリ下での履歴検索情報を取得し得る。サーバ108は、単語を単位として用いて、選択されたカテゴリ下での表示情報および履歴検索情報の特徴情報を区分化し得る。サーバ108は、表示情報の区分化された特徴情報中の共起単語対と、これらの共起単語対が共起する回数とを記録し得る。加えて、サーバ108は、区分化された履歴検索情報中の共起単語対と、このような共起単語対が共起する回数とを決定し得る。これらの例では、表示情報の区分化された特徴情報中の共起単語対が共起する回数が所定の閾値以上であり、かつ履歴検索情報中の共起単語対が共起する回数が別の所定の値以下である場合に、サーバ108は、表示情報の区分化された特徴情報中の共起単語対が同義語対であると決定し得る。
一部の実施形態では、履歴情報を用いる検索方法は、再定義された同義語対(たとえば、より関連した同義語対)を取得するために共起単語対からいくつかの対を除去するために用いられ得る。表示情報の題名は、通常多くの反復語を用いて品目を説明する売り手によって提供され得る。したがって、表示情報の題名中の共起単語対は、連語対または同義語対であり得る。しかしながら、検索を行うためにユーザ端末を用いるユーザは通常、明確な意図を有し、したがって、ユーザによって提供された検索情報は通常は、冗長な情報がなく簡潔で明瞭であり得る。同一の意味を持つ表現は、ユーザが検索を行うときには入力され得ない。例えば、ユーザがシフォンドレス検索するとき、そのユーザは、「赤いシフォンドレス・・・ドレス」ではなくて「赤いシフォンドレス」と入力し得る。
一部の実施形態では、表示情報の題名中にしばしば出現する共起単語対がユーザの検索情報中にも共起する場合、基本的にこのような共起単語対は同義語と見なされ得ない。これらの例では、サーバ108は、表示情報の題名中にしばしば出現するが、ユーザの検索情報中にはまれにしか出現しない共起単語対を特定して、これらの共起単語対が同義語対または同義語対の候補であると決定する。
一部の実施形態では、ユーザの履歴検索情報は、表示情報の題名を取得するときに取得され得る。これらの例では、選択されたカテゴリ下での表示情報および履歴検索情報の題名は、単語を単位として用いて区分化され得る。表示情報の区分化された題名中の共起単語対、およびこのような共起単語対が共起する回数が記録され得る。区分化された履歴検索情報中の共起単語対、およびこのような共起単語対が共起する回数も記録され得る。共起単語対が表示情報の区分化された題名中に出現する回数が第1の閾値以上であり、かつ共起単語対が履歴検索情報中で出現する回数が第2の閾値以下である場合、表示情報の題名中の共起単語対は、同義語対であると決定され得る。
これらの例では、第1および第2の閾値は、それぞれ、所定の規則に基づいて決定され得る。あるいは、第1および第2の閾値は、1つの所定の規則に基づいて決定され得る。例えば、この所定の規則は、第1の閾値と第2の閾値との間の相互関係を含み得る。同義語対の同義性に対して比較的高い第1の閾値が存在する場合には、比較的小さい第2の閾値が選択され得、さもなければ、比較的大きい第2の閾値が選択され得る。共起単語対が出現する回数を第1および第2の閾値と比較することによって、サーバ108は、連語対を取り除いて、純化された同義語対を取得する。
一部の実施形態では、サーバ108は、個々の同義語対の文脈スペクトルを計算し得る。これらの例では、各々の同義語対に含まれる各々の単語について、サーバ108は、この単語が見つけられた同義語対、およびこのような包含する同義語対が見つけられる回数を決定し得る。この数および表示情報から見つけられた同義語対の合計数に基づいて、サーバ108は、単語と対に含まれるその同義語との間の関連度を決定し得る。同義語対に含まれる単語の文脈スペクトルは次に、単語と対中のその同義語との間の関連度に基づいて決定され得る。
同一の単語を含む同義語対が突き止められ、これらの同義語対が出現する回数、ならびに表示情報から見つけられた同義語対の合計数も決定され得る。同義語対が出現する回数を表示情報から見つけられた同義語対の合計数で割った商は、同義語対中の2つの単語間の関連度を示し得る。したがって、全ての同義語対中の単語の関連度が取得され得る。このような同義語対の全てが同一の単語を含むため、この共通の単語とその同義語の全てとの間の関連度が取得され、したがって、この単語の文脈スペクトルが取得され得る。他の実施形態では、これらの関連度は、様々な方法を用いて計算され得る。
一部の実施形態では、単語の属性スペクトルは、同義語中の単語の全ての属性を決定し、かつこの単語の属性の数に基づいてこれらの属性の各々に対する重み決定することによって取得され得る。単語の属性スペクトルは、この単語の属性およびこれらの属性の重みに基づいて計算され得る。例えば、「ノキアn73」という単語は、2つの属性、すなわち、ブランド名およびモデル番号を有する。したがって、これらのブランド名およびモデル番号は各々が、0.5という重みを有し、「ノキアn73」という単語の属性スペクトルは、ブランド名0.5、モデル番号0.5として表され得る。
一部の実施形態では、同義語対の包括的関連度は、この同義語対に含まれる単語の文脈スペクトルおよび属性スペクトルに基づいて計算され得る。同義語対に含まれる単語の文脈スペクトルに基づいて、サーバ108は、この対に含まれる単語の1つ以上の共通の同義語、およびこの対に含まれる単語とそれらの共通の同義語との間の関連度を計算し得る。このサーバは、共通の同義語に基づいた同義語対の文脈スペクトルの関連度、およびこの対に含まれる単語とこれらの共通の同義語との間の関連度も計算し得る。同義語対に含まれる単語の属性スペクトルに基づいて、サーバ108は、この対に含まれる単語の共通の属性、およびこの対の含まれる単語の属性スペクトル中の共通の属性の重みを計算し得る。サーバ108は、共通の属性に基づいた同義語対の属性スペクトルの関連度、およびこれらの対に含まれる単語の属性スペクトル中の共通の属性の重みも計算し得る。サーバ108は、文脈スペクトルの関連度に基づいた同義語対の包括的関連度、および同義語対の属性スペクトルの関連度を計算し得る。
例えば、サーバ108は、(A、B)を例示の同義語対として同義語対の包括的関連度を計算し得る。Aの文脈スペクトルが、AとCとの間の関連度S1、AとDとの間の関連度S2、およびAとEとの間の関連度S3によって表されると仮定する。更に、Aの属性スペクトルが、ブランド名1/3、モデル番号1/3、色1/3であり、Bの文脈スペクトルが、BとCとの間の関連度S4、BとDとの間の関連度S5、およびBとFとの間の関連度S6によって表され、Bの属性スペクトルが、ブランド名1/2、モデル番号1/2であると仮定する。
文脈スペクトル(A、B)の関連度を計算するために、AおよびBの文脈スペクトル中の共通の同義語、ならびにこのような共通の同義語とAおよびBとの間の関連度が取得され得る。この例では、サーバ108は、共通の同義語CとAとの間の関連度およびCとBとの間の関連度、すなわちS1およびS4を取得し、共通の同義語DとAとの間の関連度およびDとBとの間の関連度、すなわちS2およびS5も取得し得る。したがって、(A、B)の文脈スペクトルの関連度は、次式を用いて計算される。
Figure 0006124917
共通の同義語の各々とAおよびBとの間の関連度が乗算され、その和を、Aの文脈スペクトル中の全ての関連度の二乗の和の平方根と、Bの文脈スペクトル中の全ての関連度の二乗の和の平方根とで割って、同義語対(A、B)の文脈スペクトルの関連度を計算する。
(A、B)の属性スペクトルの関連度を計算するために、サーバ108は、AおよびBの属性スペクトル中の共通の属性を取得することができ、AおよびBの各々の属性スペクトル中のこのような共通の属性の重みが取得される必要がある。本例では、共通の属性はブランド名およびモデル番号であると仮定する。更に、AおよびBの属性スペクトル中のブランド名属性の重みは1/3および1/2であり、AおよびBの属性スペクトル中のモデル名属性の重みは1/3および1/2であると仮定する。したがって、同義語対(A、B)の属性スペクトルの関連度は、次のように計算される。
Figure 0006124917
文脈スペクトルの関連度と同義語対(A、B)の属性スペクトルの関連度との合計は、同義語対(A、B)の包括的関連度であり得る。文脈スペクトルの関連度および同義語対(A、B)の属性スペクトルの関連度を包括的関連度として用いることに加えて、重み付け等の他の方法も、(A、B)の包括的関連度計算するために採用され得る。
一部の実施形態では、表示情報から同義語対を見つけた後、同義語対に含まれる単語について、サーバ108は、この対に含まれるこれらの単語の予測されるカテゴリおよびこの予測カテゴリの重みを決定して、予測カテゴリのカテゴリスペクトルおよび予測カテゴリの重みを、予測カテゴリおよび対に含まれる単語が含まれる履歴検索情報のクリック回数に基づいて取得する。これらの例では、履歴検索情報の予測カテゴリおよびこのようなカテゴリのクリック回数は、ユーザがクリックした検索結果の表示情報が属するカテゴリおよびこのようなカテゴリのクリック数に基づいて決定され得るが、ユーザがクリックした検索結果は履歴検索情報に相当する。
検索ログ中の履歴検索情報がアクセスされ、履歴検索情報に対応するユーザがクリックした検索結果中の表示情報が属するカテゴリが決定され、このようなカテゴリのクリック数がカウントされる。したがって、履歴検索情報の予測カテゴリおよびこのようなカテゴリのクリック数が取得され得る。同義語対中の単語が複数の履歴検索情報中に出現するとき、これらの複数の履歴検索情報の共通の予測カテゴリは、この対に含まれるこれらの単語の予測カテゴリと決定され、これらの予測カテゴリのうちの一つのクリック数の最大値を表示情報の合計クリック数で割った商は、この予測カテゴリの重みと決定され得る。したがって、同義語対に含まれる単語のカテゴリスペクトルが計算され得る。
一部の実施形態では、サーバ108は、文脈スペクトルの関連度、属性スペクトルの関連度、およびこの同義語対のカテゴリスペクトルの関連度に基づいて、同義語対の包括的関連度を計算し得る。これらの関連度は、それぞれ文脈スペクトル、属性スペクトル、および同義語対に含まれる単語のカテゴリスペクトルに基づいて計算され得る。同義語対の包括的関連度は、文脈スペクトルの関連度、属性スペクトルの関連度、および同義語対のカテゴリスペクトルの関連度の合計であり得る。あるいは、同義語対の包括的関連度は、重み付け等によって取得され得る。
一部の実施形態では、サーバ108は、同義語対に含まれる単語のカテゴリスペクトルに基づいて、同義語対のカテゴリスペクトルの関連度を取得し得る。同義語対に含まれる単語のカテゴリスペクトルに基づいて、サーバ108は、同義語対に含まれる単語の共通のカテゴリ、およびこの対に含まれる単語のカテゴリスペクトル中の共通のカテゴリの重みを取得し得る。サーバ108はまた、共通のカテゴリおよび対に含まれる単語のカテゴリスペクトル中の共通のカテゴリに基づいて、同義語対のカテゴリスペクトルの関連度を取得し得る。
一部の実施形態では、同義語対のカテゴリスペクトルの関連度は、(1)と同様の式を用いて計算され得る。例えば、(A、B)は、例示の同義語対であると見なされる。同義語対のカテゴリスペクトルの関連度を計算する方法は、AおよびBのカテゴリスペクトルの共通のカテゴリ、ならびにAおよびBのカテゴリスペクトル中の共通のカテゴリの重みを取得することを含み得る。AおよびBのカテゴリスペクトル中の各々の共通のカテゴリの重みをそれぞれ乗算し、次に、Aのカテゴリスペクトル中の全てのカテゴリの重みの二乗の和の平方根、更に、Bのカテゴリスペクトル中の全てのカテゴリの重みの二乗の和の平方根で割って、同義語対(A、B)のカテゴリスペクトルの関連度を取得する。
図4は、図1のアーキテクチャで展開され得る例示のサーバ108を示す。サーバ108は、いずれかの適切なコンピューティングデバイス(複数可)として構成され得る。1つの例示の構成では、サーバ108は、1つ以上のプロセッサ402、入出力インタフェース404、ネットワークインタフェース406、およびメモリ408を含む。
メモリ408は、ランダムアクセスメモリ(RAM)等の揮発性メモリおよび/もしくはリードオンリーメモリ(ROM)またはフラッシュRAM等の不揮発性メモリの形態のコンピュータ読み取り可能媒体を含み得る。メモリ408は、コンピュータ読み取り可能媒体の例である。
コンピュータ読み取り可能媒体は、コンピュータ読み取り可能命令、データ構造、プログラムモジュールもしくは他のデータ等の情報を記憶するための方法または技術で実装される揮発性および不揮発性の取り外し可能および取り外し不可能媒体を含む。コンピュータ記憶媒体の例は、これに限られないが、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、他のタイプのランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、電気的消去可能プログラム可能リードオンリーメモリ(EEPROM)、フラッシュメモリもしくは他のメモリ技術、コンパクトディスクリードオンリーメモリ(CD−ROM)、デジタルバーサタイルディスク(DVD)もしくは他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、またはコンピューティングデバイスによるアクセスのために情報を記憶する目的で用いることが可能ないずれかの他の非伝送媒体を含む。本明細書で定義されるように、コンピュータ読み取り可能媒体は、変調データ信号および搬送波等の一過性の媒体を含まない。
次にメモリ408をより詳細に参照して、メモリ408は、同義語対取得ユニット410、文脈スペクトル取得ユニット412、属性スペクトル取得ユニット414、索引構築ユニット416、検索ユニット418、およびカテゴリスペクトル取得ユニット420を含み得る。
同義語対取得ユニット410は、選択されたカテゴリ下の表示情報を取得し、この表示情報から同義語対を見つけるように構成され得る。文脈スペクトル取得ユニット412は、同義語対に含まれる単語文脈スペクトルを決定するように構成され得るが、この文脈スペクトルは、これらの同義語対に含まれる単語のスペクトルとこれらの同義語との間の関連度を含む。属性スペクトル取得ユニット414は、同義語対に含まれる単語の属性スペクトルを決定するように構成され得るが、これらの属性スペクトルは、これらの同義語対に含まれる単語の属性およびこれらの属性の各々の重みを含む。
索引構築ユニット416は、同義語対に含まれる単語の文脈スペクトルおよび属性スペクトルに基づいて各々の同義語対に対する一般的関連度を取得し、事前設定された判断基準を満たす一般的関連度を有する同義語対に対する共通の検索索引を構築するように構成され得る。検索ユニット418は、ユーザから受信された検索情報が同義語対中の単語を含むとき、同義語対の共通の検索索引に従って検索を実行するように構成され得る。
一部の実施形態では、同義語対取得ユニット410は、単語を単位として用いて、選択されたカテゴリ下の表示情報の特徴情報を区分化するように構成され得る。同義語対取得ユニット410は、表示情報の区分化された特徴情報の特徴情報中の共起単語対、およびこれらの共起単語対が出現する回数も記録し得る。同義語対取得ユニット410は次に、共起単語対の出現回数が第1の閾値よりも大きいときに、表示情報の区分化された特徴情報中の共起単語対を同義語対と決定し得る。一部の実施形態では、同義語対取得ユニット410は、選択されたカテゴリ下の履歴検索情報を取得し、単語を単位として用いて、選択されたカテゴリ下の表示情報および履歴検索情報の特徴情報を区分化し、これらの表示情報の区分化された特徴情報およびこのような共起単語対が出現する回数を記録し、区分化された履歴検索情報中の共起単語対およびこのような共起単語対が出現する回数も記録する。更に、同義語対取得ユニット410は、共起単語対の出現する回数が第1の閾値以上であり、かつ共起単語対が履歴検索情報中で出現する回数が第2の閾値以下であるときに、区分化された表示情報の特徴情報中の共起単語対を同義語対と決定し得る。
一部の実施形態では、文脈スペクトル取得ユニット412は、見つけられた各々の同義語対中の各々の単語について、この単語を含む同義語対、およびこのような同義語対が出現する回数を決定するように構成され得る。文脈スペクトル取得ユニット412は、この対に含まれる単語と対中のその同義語との間の関連度を、この単語を含む各々の同義語対が出現する回数および表示情報から見つけられた同義語対の合計数に基づいて決定する。次に、この単語を含む各々の同義語対が出現する回数および表示情報から見つけられた同義語対の合計数に基づいて、同義語対に含まれる単語の文脈スペクトルを、対に含まれる単語と対中のその同義語との間の関連度に基づいて決定し得る。
一部の実施形態では、索引構築ユニット416は、同義語対に含まれる単語の文脈スペクトルに基づいて、同義語対に含まれる単語の共通の同義語、およびこの対に含まれる単語とそれらの共通の同義語との間の関連度を取得するように構成され得る。共通の同義語、および対に含まれる単語とそれらの共通の同義語との間の関連度に基づいて、索引構築ユニット416は、同義語対の文脈スペクトルの関連度を取得し得る。索引構築ユニット416は、同義語対に含まれる単語の属性スペクトルに基づいて、対に含まれる単語の共通の属性、および対に含まれる単語の属性スペクトル中の共通の属性の重みも取得し得る。共通の属性および共通の属性の重みに基づいて、索引構築ユニット416は、同義語対の属性スペクトルの関連度を取得する。文脈スペクトルの関連度、および同義語対の属性スペクトルの関連度に基づいて、索引構築ユニット416は、同義語対の一般的関連度を取得する。
一部の実施形態では、メモリ408は、同義語対に含まれる単語について、この対に含まれる単語の履歴検索情報の予想されるカテゴリおよびこのような予想されるカテゴリのクリック数に基づいて、この対に含まれる単語の予想されるカテゴリおよびこのようなカテゴリの重みを決定し、かつ予測されるカテゴリを含むカテゴリスペクトルおよびこの対に含まれる単語の予想されるカテゴリの重みを取得するように構成され得るカテゴリスペクトル取得ユニット420も含み得る。これらの例では、履歴検索情報の予想されるカテゴリ、およびこのような予想されるカテゴリのクリック数は、ユーザによってクリックされた検索結果の表示情報が属するカテゴリ、およびこのようなカテゴリのクリック数に基づいて決定され得るが、ユーザによってクリックされたこれらの検索結果は、履歴検索情報に相当する。
一部の実施形態では、索引構築ユニット416は、文脈スペクトルの関連度、これらの文脈スペクトルに基づいた同義語対の属性スペクトルの関連度およびカテゴリスペクトルの関連度、ならびに同義語対に含まれる単語の属性スペクトルおよびカテゴリスペクトルを取得し得る。文脈スペクトルの関連度、ならびに同義語対の属性スペクトルの関連度およびカテゴリスペクトルの関連度に基づいて、索引構築ユニット416は、同義語対の一般的関連度を取得し得る。
一部の実施形態では、索引構築ユニット416は、同義語対に含まれる単語のカテゴリスペクトルに基づいて、同義語対に含まれる単語の共通のカテゴリおよびこの対に含まれる単語のカテゴリスペクトル中の共通のカテゴリの重みを取得し得る。これらの共通のカテゴリおよびこの対に含まれる単語のカテゴリスペクトル中の共通のカテゴリの重みに基づいて、索引構築ユニット416は、同義語対のカテゴリスペクトルの関連度を取得し得る。
本明細書の特定の例を用いて本出願の原理および実施形態を説明した。上記の実施形態の説明は、本開示の方法および観念の理解を支援するように設計されている。しかしながら、当業者は、本出願の観念に基づいて、特定の実施形態および出願範囲を変更することが可能であり、したがって、本明細書の内容は、本出願を限定するものであると解釈されるべきではない。

Claims (13)

  1. 1つ以上のプロセッサによって実行されるときに、前記1つ以上のプロセッサに動作を実行するように命令するコンピュータ実行可能命令を記憶する1つ以上のコンピュータ読み取り可能記憶媒体であって、前記動作が、
    単語に関連付けられたクエリを受信することと、
    品目のカテゴリ下の複数の品目記述をマイニングして、前記単語を含む複数の同義語対を生成することと、
    前記複数の同義語対の個々の同義語対の包括的関連度を計算することであり、前記包括的関連度が、前記単語および前記同義語対内の前記単語の同義語に関連付けられたカテゴリスペクトルに基づいて計算され、前記カテゴリスペクトルが、前記単語および前記同義語対内の前記単語の同義語に関連付けられたカテゴリと、前記カテゴリに関連付けられたユーザクリック率と、に基づいて決定される、ことと、
    所定の値よりも大きい包括的関連度を有する前記複数の同義語対のうちの1つの同義語対に基づいて検索を実行することと、
    を備えたことを特徴とする1つ又は複数のコンピュータ読み取り可能記憶媒体。
  2. 前記カテゴリが、所定の規則に基づいて重みを割り当てられ、前記包括的関連度が、前記重みに基づいて更に計算されることを特徴とする請求項1に記載の1つ又は複数のコンピュータ読み取り可能記憶媒体。
  3. 前記個々の同義語対が、前記単語および前記単語の同義語を含むことを特徴とする請求項1に記載の1つ又は複数のコンピュータ読み取り可能記憶媒体。
  4. 前記複数の品目記述が、ベンダーによって提供される品目広告情報を含むことを特徴とする請求項1に記載の1つ又は複数のコンピュータ読み取り可能記憶媒体。
  5. 前記動作が、
    前記個々の同義語対の文脈パラメータであって、前記カテゴリ下の前記単語と個々の同義語との間の関連度を示す文脈パラメータを決定することと、
    所定の規則に基づいて、前記個々の同義語対の属性パラメータを決定することと、
    を更に備えたことを特徴とする請求項1に記載の1つ又は複数のコンピュータ読み取り可能記憶媒体。
  6. 包括的関連度の前記計算が、前記文脈パラメータおよび前記属性パラメータに基づいて前記包括的関連度を計算することを含むことを特徴とする請求項5に記載の1つ又は複数のコンピュータ読み取り可能記憶媒体。
  7. 前記動作が、
    前記個々の同義語対のうちの一方の単語を決定することと、
    前記単語を含む同義語対の数を計算することと、
    前記複数の同義語対の追加の数を計算することと、
    を更に備え、前記文脈パラメータが、前記数および前記追加の数を用いて決定されることを特徴とする請求項5に記載の1つ又は複数のコンピュータ読み取り可能記憶媒体。
  8. 1つ以上のプロセッサによって実行されるときに、前記1つ以上のプロセッサに動作を実行するように命令するコンピュータ実行可能命令を記憶する1つ以上のコンピュータ読み取り可能記憶媒体であって、前記動作が、
    単語に関連付けられたクエリを受信することと、
    品目のカテゴリ下の複数の品目記述をマイニングして、前記単語を含む複数の同義語対を生成することと、
    前記複数の同義語対の個々の同義語対の包括的関連度を計算することと、
    所定の値よりも大きい包括的関連度を有する前記複数の同義語対のうちの1つの同義語対に基づいて検索を実行することと、
    を備え、前記動作が、
    前記複数の品目記述の特徴に基づいて前記複数の品目記述の区分化を行って、複数のストリングを生成することと、
    前記複数のストリングの少なくとも2つの単語であって、前記複数のストリングの少なくとも2つのストリングで一緒に見つけられる少なくとも2つの単語を特定することと、
    前記少なくとも2つの単語が前記複数のストリングで一緒に見つけられる頻度を計算することと、
    前記頻度が所定の値よりも大きい場合に、前記少なくとも2つの単語が1つの同義語対に属すると決定することと、
    前記品目の前記カテゴリ下の履歴検索情報に基づいて前記複数の品目記述の更なる区分化を行って、更なる複数のストリングを生成することと、
    前記少なくとも2つの単語が、前記更なる複数のストリングのうちの少なくとも2つの更なるストリングで一緒に見つけられると決定し、かつ前記少なくとも2つの単語が前記更なる複数のストリングで一緒に見つけられる更なる頻度を決定することと、
    前記頻度が所定の値よりも大きく、かつ前記更なる頻度が更なる所定の値よりも小さい場合に、前記少なくとも2つの単語が同義語対であると決定することと、
    を更に備えたことを特徴とする1つ又は複数のコンピュータ読み取り可能記憶媒体。
  9. 単語に関連付けられたクエリを受信することと、
    取引品目のカテゴリ下の複数の品目記述をマイニングして、前記単語および前記単語の同義語を含む複数の同義語対を生成することと、
    前記複数の同義語対の個々の文脈パラメータであって、前記同義語対のうちの前記単語と前記同義語との間の関連度を示す文脈パラメータを計算することと、
    所定の規則に基づいて、前記複数の同義語対の個々の属性パラメータを計算することと、
    前記文脈パラメータおよび前記属性パラメータに基づいて、前記複数の同義語対の個々の包括的関連度を計算することと、
    前記包括的関連度が所定の値よりも大きいと決定することと、
    前記決定に応答して、所定の値よりも大きい包括的関連度を有する前記複数の同義語対のうちの1つの同義語に基づいて検索を実行することと、
    を備えるコンピュータ実装方法であって、
    前記取引品目の前記カテゴリ下の履歴検索情報に基づいて前記複数の品目記述の更なる区分化を行って、更なる複数のストリングを生成することと、
    なくとも2つの単語が、前記更なる複数のストリングのうちの少なくとも2つの更なるストリングで一緒に見つけられると決定し、かつ前記少なくとも2つの単語が前記更なる複数のストリングで一緒に見つけられる更なる頻度を決定することと、
    前記頻度が所定の値よりも大きく、かつ前記更なる頻度が更なる所定の値よりも小さい場合に、前記少なくとも2つの単語が同義語対であると決定することと、
    を更に備えたことを特徴とするコンピュータ実装方法。
  10. 前記品目記述を分析して複数のストリングを生成することを更に備え、前記同義語対の2つの単語が、
    前記複数のストリングのうちの少なくとも2つのストリングで一緒に見つけられ、
    前記同義語対の2つの単語が前記複数のストリングで一緒に見つけられ、かつ所定の値よりも大きい頻度を有することを特徴とする請求項9に記載のコンピュータ実装方法。
  11. 複数の品目記述の特徴に基づいて前記複数の品目記述を分析して、複数のストリングを生成することと、
    前記複数のストリングのうちの少なくとも2つのストリングで一緒に見つけられる前記複数のストリングのうちの少なくとも2つの単語を特定することと、
    前記少なくとも2つの単語が前記複数のストリングで一緒に見つけられる頻度を計算することと、
    前記頻度が所定の値よりも大きい場合に、前記少なくとも2つの単語が1つの同義語対に属すると判定することと、
    を更に備えたことを特徴とする請求項9に記載のコンピュータ実装方法。
  12. 1つ以上のプロセッサと、
    前記1つ以上のプロセッサによって実行可能な複数のコンポーネントを保持するメモリと、を備え、前記複数のコンポーネントが、
    取引品目のカテゴリ下の複数の品目記述をマイニングして、単語および前記単語の同義語を含む複数の同義語対を生成する、同義語取得ユニットと、
    前記複数の同義語対の個々の文脈パラメータであって、前記カテゴリ下の前記単語と前記同義語との間の関連度を示す文脈パラメータを決定する、文脈スペクトル取得ユニットと、
    所定の規則に基づいて、前記複数の同義語対の個々の属性パラメータを決定する、属性スペクトル取得ユニットと、
    前記文脈パラメータおよび前記属性パラメータに基づいて、前記複数の同義語対の個々の包括的関連度を計算する、索引構築ユニットと、
    単語を含むクエリに応答して、所定の値よりも大きい包括的関連度を有する前記複数の同義語対のうちの1つの同義語対に基づいて検索を実行する検索ユニットと、
    を備えたコンピューティングデバイスであって、
    前記同義語取得ユニットが、前記品目記述を更に分析して複数のストリングを生成し、前記同義語対の2つの単語が、
    前記複数のストリングのうちの少なくとも2つのストリングで一緒に見つけられ、
    前記同義語対の2つの単語が前記複数のストリングで一緒に見つけられる頻度であって、かつ所定の値よりも大きい頻度を有し、
    前記同義語取得ユニットが更に、
    複数の品目記述の特徴に基づいて前記複数の品目記述を分析して、複数のストリングを生成し、
    前記複数のストリングのうちの少なくとも2つのストリングで一緒に見つけられる前記複数のストリングの少なくとも2つの単語を特定し、
    前記少なくとも2つの単語が前記複数のストリングで一緒に見つけられる更なる頻度を計算し、
    前記頻度が所定の値よりも大きく、かつ前記更なる頻度が更なる所定の値よりも小さい場合に、前記少なくとも2つの単語が1つの同義語対に属すると判定することを特徴とするコンピューティングデバイス。
  13. 前記包括的関連度が、前記単語および前記同義語対内の前記単語の同義語に関連付けられたカテゴリスペクトルに基づいて更に計算され、前記カテゴリスペクトルが、前記単語および前記同義語に関連付けられたカテゴリと、前記カテゴリに関連付けられたユーザクリック率と、に基づいて決定されることを特徴とする請求項12に記載のコンピューティングデバイス。
JP2014544948A 2011-11-30 2012-11-30 情報検索のための方法および装置 Active JP6124917B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201110391864.7 2011-11-30
CN201110391864.7A CN103136262B (zh) 2011-11-30 2011-11-30 信息检索方法及装置
PCT/US2012/067411 WO2013082506A1 (en) 2011-11-30 2012-11-30 Method and apparatus for information searching

Publications (3)

Publication Number Publication Date
JP2015500525A JP2015500525A (ja) 2015-01-05
JP2015500525A5 JP2015500525A5 (ja) 2015-12-24
JP6124917B2 true JP6124917B2 (ja) 2017-05-10

Family

ID=47470148

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014544948A Active JP6124917B2 (ja) 2011-11-30 2012-11-30 情報検索のための方法および装置

Country Status (6)

Country Link
US (1) US20130138429A1 (ja)
EP (1) EP2786275A1 (ja)
JP (1) JP6124917B2 (ja)
CN (1) CN103136262B (ja)
TW (1) TWI547815B (ja)
WO (1) WO2013082506A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ589787A (en) 2010-12-08 2012-03-30 S L I Systems Inc A method for determining relevant search results
WO2014061285A1 (ja) * 2012-10-19 2014-04-24 楽天株式会社 コーパス生成装置、コーパス生成方法及びコーパス生成プログラム
US10339216B2 (en) 2013-07-26 2019-07-02 Nuance Communications, Inc. Method and apparatus for selecting among competing models in a tool for building natural language understanding models
CN104598613B (zh) * 2015-01-30 2017-11-03 百度在线网络技术(北京)有限公司 一种用于垂直领域的概念关系构建方法和装置
CN105069086B (zh) * 2015-07-31 2017-07-11 焦点科技股份有限公司 一种优化电子商务商品搜索的方法及系统
CN106815265B (zh) * 2015-12-01 2020-07-03 北京国双科技有限公司 裁判文书的搜索方法及装置
CN106844571B (zh) * 2017-01-03 2020-04-07 北京齐尔布莱特科技有限公司 识别同义词的方法、装置和计算设备
CN109002432B (zh) * 2017-06-07 2022-01-04 北京京东尚科信息技术有限公司 同义词的挖掘方法及装置、计算机可读介质、电子设备
CN108881945B (zh) * 2018-07-11 2020-09-22 深圳创维数字技术有限公司 消除关键词歧义的方法、电视及可读存储介质
CN109522547B (zh) * 2018-10-23 2020-09-18 浙江大学 基于模式学习的中文同义词迭代抽取方法
CN110688837B (zh) * 2019-09-27 2023-10-31 北京百度网讯科技有限公司 数据处理的方法及装置
US20230053344A1 (en) * 2020-02-21 2023-02-23 Nec Corporation Scenario generation apparatus, scenario generation method, and computer-readablerecording medium

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3379608B2 (ja) * 1994-11-24 2003-02-24 日本電信電話株式会社 単語間意味類似性判別方法
JP2003091552A (ja) * 2001-09-17 2003-03-28 Hitachi Ltd 検索要求情報抽出方法及びその実施システム並びにその処理プログラム
US6961721B2 (en) * 2002-06-28 2005-11-01 Microsoft Corporation Detecting duplicate records in database
WO2005020094A1 (en) * 2003-08-21 2005-03-03 Idilia Inc. System and method for associating documents with contextual advertisements
US8195683B2 (en) * 2006-02-28 2012-06-05 Ebay Inc. Expansion of database search queries
NO325864B1 (no) * 2006-11-07 2008-08-04 Fast Search & Transfer Asa Fremgangsmåte ved beregning av sammendragsinformasjon og en søkemotor for å støtte og implementere fremgangsmåten
US7890521B1 (en) * 2007-02-07 2011-02-15 Google Inc. Document-based synonym generation
US20100094835A1 (en) * 2008-10-15 2010-04-15 Yumao Lu Automatic query concepts identification and drifting for web search

Also Published As

Publication number Publication date
CN103136262A (zh) 2013-06-05
CN103136262B (zh) 2016-08-24
EP2786275A1 (en) 2014-10-08
US20130138429A1 (en) 2013-05-30
TWI547815B (zh) 2016-09-01
JP2015500525A (ja) 2015-01-05
TW201322020A (zh) 2013-06-01
WO2013082506A1 (en) 2013-06-06

Similar Documents

Publication Publication Date Title
JP6124917B2 (ja) 情報検索のための方法および装置
US10180967B2 (en) Performing application searches
US7519588B2 (en) Keyword characterization and application
US9251292B2 (en) Search result ranking using query clustering
US10068022B2 (en) Identifying topical entities
US20160026727A1 (en) Generating additional content
KR102355212B1 (ko) 마이닝된 하이퍼링크 텍스트 스니펫을 통한 이미지 브라우징
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
US9720979B2 (en) Method and system of identifying relevant content snippets that include additional information
US9183312B2 (en) Image display within web search results
US10984056B2 (en) Systems and methods for evaluating search query terms for improving search results
CN110569496A (zh) 实体链接方法、装置及存储介质
JP7451747B2 (ja) コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
WO2014107801A1 (en) Methods and apparatus for identifying concepts corresponding to input information
US9009192B1 (en) Identifying central entities
US11055335B2 (en) Contextual based image search results
Moya et al. Integrating web feed opinions into a corporate data warehouse
Ghanbarpour et al. A model-based method to improve the quality of ranking in keyword search systems using pseudo-relevance feedback
US20200327120A1 (en) Method and system for interactive keyword optimization for opaque search engines
CN113641884A (zh) 基于语义的电力计量数据处理方法、装置和计算机设备
US9183251B1 (en) Showing prominent users for information retrieval requests
Savadekar et al. Towards keyword based recommendation system
US9600529B2 (en) Attribute-based document searching
CN115934802A (zh) 数据检索方法、装置、电子设备及存储介质
Ko et al. Toward Efficient Semantic Annotation: A Semantic Cloud Generation Scheme from Linked Data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170404

R150 Certificate of patent or registration of utility model

Ref document number: 6124917

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250