JP2013528881A - 検索語重み付けの決定および利用 - Google Patents

検索語重み付けの決定および利用 Download PDF

Info

Publication number
JP2013528881A
JP2013528881A JP2013515323A JP2013515323A JP2013528881A JP 2013528881 A JP2013528881 A JP 2013528881A JP 2013515323 A JP2013515323 A JP 2013515323A JP 2013515323 A JP2013515323 A JP 2013515323A JP 2013528881 A JP2013528881 A JP 2013528881A
Authority
JP
Japan
Prior art keywords
search
word list
information
term
terms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013515323A
Other languages
English (en)
Other versions
JP2013528881A5 (ja
JP5860456B2 (ja
Inventor
グオ・シアーン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2013528881A publication Critical patent/JP2013528881A/ja
Publication of JP2013528881A5 publication Critical patent/JP2013528881A5/ja
Application granted granted Critical
Publication of JP5860456B2 publication Critical patent/JP5860456B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Abstract

【解決手段】検索語重み付けの決定が開示されている。決定は、検索情報ログに、検索クエリおよび対応する情報を格納し、1または複数の格納された検索情報ログに少なくとも部分的に基づいて、カテゴリ分布単語リストを生成し、リトリーブされた属性単語リストに少なくとも部分的に基づいて、カテゴリ分布単語リストを処理し、処理されたカテゴリ分布単語リストに関連付けられている検索語に対応する重み付けを決定することを含む。検索語の重み付けの利用が開示されている。利用は、次の検索クエリを受信し、次の検索クエリに関連する1または複数の検索語に対応する検索語重み付けをリトリーブし、次の検索クエリに関連する1または複数の検索語を用いて、インデックス化された情報を検索し、リトリーブされた検索語重み付けに少なくとも部分的に基づいて、1または複数の検索語に対応するインデックス化された情報を順位付けて提示することを含む。
【選択図】図1

Description

[他の出願の相互参照]
本願は、すべての目的のために参照により本明細書に組み込まれる、2010年6月18日出願の発明の名称を「METHOD AND DEVICE FOR DETERMINING SEARCH TERM WEIGHTINGS, AND METHOD AND DEVICE FOR GENERATING SEARCH RESULTS(検索語の重み付けを決定するための方法および装置、並びに検索結果を生成するための方法及び装置」とする中国特許出願第201010207880.1号に基づく優先権を主張する。
本願は、コンピュータアプリケーションの分野に関し、特に、検索語重み付けを決定し、検索語重み付けを用いて検索結果を生成することに関する。
情報検索システムは、ユーザに情報検索サービスを提供できるシステムである。例えば、インターネット検索エンジン(例えば、Google)は、ある種の情報検索システムである。インターネット検索エンジンは、すでに、インターネットユーザにとって必須のユーティリティになっている。通例、検索エンジンを使うために、ユーザは、検索エンジンに関連付けられているウェブページに(例えば、ウェブブラウザを介して)アクセスする。このウェブページで、ユーザは、通常、検索クエリを送信することができる検索ボックスを見出す。検索エンジンは、検索エンジン(または、そのウェブサーバ)へ検索クエリを送信した後、ユーザのクエリにマッチする検索結果を返す。
ユーザによって入力された検索クエリは、1または複数の検索語を含みうる。ユーザによって入力された検索クエリが複数の検索語を含む場合、通常、検索エンジンは、最初に、検索クエリの構文解析を行って、複数の検索語の各々を取得する。次に、検索エンジンは、構文解析された検索語を用いて、データベースの情報についてマッチングを行う。検索語の内の1または複数にマッチする情報を見出した後で、検索エンジンは、情報とマッチする検索語の相対的な重要度に基づいて、見出された情報を順位付けし、これらの検索結果をユーザに提示する(例えば、ウェブブラウザでアクセス可能な検索結果ウェブページを介して)。
これまで、各検索語に起因する重要度は、検索語に関する統計値の解析に基づいて決定されている。例えば、いくつかの検索エンジンは、特定の検索語が検索クエリ内に現れる頻度を追跡する。このために、検索エンジンは、ユーザの検索クエリ履歴を記録し、記録されたユーザ検索クエリに各検索語が現れる頻度を時々解析することによって、各検索語に対応する頻度を決定することができる。特定の検索語に対応する頻度は、その検索語に起因する重要度を決定しうる。例えば、高い頻度は高い重要度と相関し、低い頻度は低い重要度と相関しうる。
しかしながら、これらの検索語から重要度を決定する従来の方法は、いくつかの領域で欠点がある。第1に、ユーザの検索履歴を記録すると、統計解析を実行するのが困難なほど大量のデータを生成しうる。第2に、ユーザ検索の履歴の解析は、検索頻度の低い特定の重要な検索語を見過ごす可能性がある。少なくともこれらの問題の結果として、検索結果の順位付けは、ユーザが検索結果を閲覧したい順序を不正確に反映し、より多くの不必要な検索クエリをユーザが送信しなければならないという結果ももたらしうる。
以下の詳細な説明と添付の図面において、本発明の様々な実施形態を開示する。
本開示の実施形態の技術的提案または既存の技術をより明確に説明するために、実施形態または既存の技術の説明に用いる必要のある図面の簡単な説明を以下に示しており、明らかに、以下の記載における図面は、本開示に記載された実施形態のいくつかにすぎず、当業者であれば、さらなる創造的な作業を費やすことなく、別の図面を得ることができる。
検索語重み付けを決定し、検索語重み付けに基づいて検索結果を生成するためのシステムの一実施形態を示す図。
検索語重み付けを決定するための処理の一実施形態を示すフローチャート。
検索語重み付けを用いて検索結果を生成するための処理の一実施形態を示すフローチャート。
検索語重み付けを決定するためのシステムの一実施形態を示す図。
単語リスト最適化モジュールの一実施形態を示す図。
検索結果を生成するためのシステムの一実施形態を示す図。
本発明は、処理、装置、システム、物質の組成、コンピュータ読み取り可能な格納媒体上に具現化されたコンピュータプログラム製品、および/または、プロセッサ(プロセッサに接続されたメモリに格納および/またはそのメモリによって提供される命令を実行するよう構成されたプロセッサ)を含め、様々な形態で実装されうる。本明細書では、これらの実装または本発明が取りうる任意の他の形態を、技術と呼ぶ。一般に、開示された処理の工程の順序は、本発明の範囲内で変更されてもよい。特に言及しない限り、タスクを実行するよう構成されるものとして記載されたプロセッサまたはメモリなどの構成要素は、ある時間にタスクを実行するよう一時的に構成された一般的な構成要素として、または、タスクを実行するよう製造された特定の構成要素として実装されてよい。本明細書では、「プロセッサ」という用語は、1または複数のデバイス、回路、および/または、コンピュータプログラム命令などのデータを処理するよう構成された処理コアを指すものとする。
以下では、本発明の原理を示す図面を参照しつつ、本発明の1または複数の実施形態の詳細な説明を行う。本発明は、かかる実施形態に関連して説明されているが、どの実施形態にも限定されない。本発明の範囲は、特許請求の範囲によってのみ限定されるものであり、多くの代替物、変形物、および、等価物を含む。以下の説明では、本発明の完全な理解を提供するために、多くの具体的な詳細事項が記載されている。これらの詳細事項は、例示を目的としたものであり、本発明は、これらの具体的な詳細事項の一部または全てがなくとも特許請求の範囲に従って実施可能である。簡単のために、本発明に関連する技術分野で周知の技術事項については、本発明が必要以上にわかりにくくならないように、詳細には説明していない。
検索語重み付けを決定し、検索語重み付けを用いて検索結果を生成することが開示されている。様々な実施形態において、検索語重み付けは、検索語がどれだけ重要であると見なされるのかを決定する。検索クエリの検索語で検索を実行した際に、より高い重み付けを有する検索語にマッチする情報が、より低い重み付けを有する検索語にマッチする情報よりも検索結果内で先に提示される。
図1は、検索語重み付けを決定し、検索語重み付けに基づいて検索結果を生成するためのシステムの一実施形態を示す図である。システム100は、デバイス102、ネットワーク104、および、検索語重み付けサーバ106を備える。いくつかの実施形態において、デバイス102は、ネットワーク104を介して検索語重み付けサーバ106と通信する。ネットワーク104は、1または複数の高速データネットワークおよび/または遠隔通信ネットワークを含む。様々な実施形態において、検索語重み付けサーバ106は、電子商取引ウェブサイトをサポートするウェブサーバと通信する、関連する、および/または、その構成要素である。
デバイス102は、ユーザが検索クエリを送信することを可能にし、送信された検索クエリに応じて返された検索結果を提示するよう構成される。デバイス102は、図1の例ではラップトップとして図示されているが、デバイス102の他の例は、デスクトップコンピュータ、携帯デバイス、スマートフォン、および、タブレットデバイスを含み、それらに限定されない。様々な実施形態において、デバイス102は、ユーザが電子商取引ウェブサイトにアクセスすることを可能にするウェブブラウザ(例えば、Google社のChrome、Microsoft社のInternet Explore)などのソフトウェアアプリケーションを備えるよう構成される。電子商取引ウェブサイトにおいて、ユーザは、ウェブサイトに関連付けられているウェブページで検索クエリを送信して、同じまたは異なるウェブページで検索結果を受信することができる。ユーザは、検索結果を閲覧して、それらの検索結果から選択してよい。
検索語重み付けサーバ106は、検索語重み付けを決定するよう構成される。様々な実施形態において、検索語重み付けサーバ106は、1または複数のユーザの検索履歴に関連する情報(例えば、検索クエリ、検索クエリに関連付けられている検索カテゴリ、検索クエリに応じた検索結果が選択された回数)を検索情報ログとして格納する。いくつかの実施形態では、検索情報ログは、データベース(図1では図示せず)に格納される。格納された検索情報ログは、カテゴリ分布単語リストを生成するために時々解析される。いくつかの実施形態において、カテゴリ分布単語リストは、(過去の検索クエリからの)様々な検索語、検索語に対応する検索カテゴリ、および、検索カテゴリに対応する統計値(例えば、確率)を関連付けるテーブルである。カテゴリ分布単語リストは、検索語について、(検索情報ログが格納された期間に)その検索語が特定の検索カテゴリの下で検索された回数の割合を表す。いくつかの実施形態において、生成されたカテゴリ分布リストは、所定の属性単語リストに少なくとも部分的に基づいて処理される。属性単語リストは、電子商取引ウェブサイトで提供される製品に関する属性情報を含む。カテゴリ分布単語リストの処理の例を、図2を参照して説明する。処理後、カテゴリ分布単語リストの各検索語の重み付けが決定される。検索語の重み付けは、検索語が他の検索語と比べてどれだけ重要かを決定する。検索語に対応する重み付けが高いほど、検索語がより重要であると見なされる。カテゴリ分布単語リストからの情報を用いて検索語の重み付けを決定する方法の例を以下で説明する。いくつかの実施形態において、決定された検索語重み付けは、後に検索を支援するために参照できるように格納される。
検索語重み付けサーバ106は、さらに、格納された検索語重み付けを用いて検索結果を生成するよう構成される。様々な実施形態において、検索語重み付けが決定および格納された後、次の検索クエリが受信される。検索クエリは、インデックス化された情報に対してマッチングされる。検索クエリは各々、構文解析されて1または複数の検索語に分けられる。検索語は、検索語と重み付けとの間の格納された関連付けの中で探し出され、探し出された検索語に対応する重み付けが取得される。検索クエリの構文解析された検索語にマッチする情報が、それらの検索語に対応する取得された重み付けに基づいて順位付けされる。様々な実施形態において、より高い重み付けを有する検索語にマッチする情報は、より低い重み付けを有する検索語にマッチする情報よりも検索結果において先に、クエリを行ったユーザに提示される。
図2は、検索語重み付けを決定するための処理の一実施形態を示すフローチャートである。いくつかの実施形態では、処理200は、少なくとも部分的にシステム100を用いることによって実施されうる。
工程202では、検索クエリおよび対応する情報が、検索情報ログに格納される。
いくつかの実施形態において、検索クエリに対応する情報は、以下の内の1または複数を含む。検索クエリに応じた検索結果、および、検索クエリに対応する検索カテゴリ。いくつかの実施形態において、1つの検索情報ログは、1つの検索クエリに関する情報と、それに対応する情報(例えば、検索結果の選択、および、1または複数の対応する検索カテゴリ)とを格納する。いくつかの実施形態では、検索情報ログは、データベースに格納されうる。
いくつかの実施形態において、検索クエリは、ユーザによって検索エンジンウェブサーバに送信される。検索クエリは、1または複数の単語を含んでよく、かかる単語は、検索語とも呼ばれる。次いで、検索エンジンウェブサーバは、検索クエリに対して1または複数の検索結果(例えば、検索クエリの1または複数の検索語とマッチする情報)を生成する。例えば、検索結果は、ウェブページを介してユーザがアクセスできるようにされてよい。次いで、ユーザは、表示された検索結果の内の1または複数を選択する。次いで、検索エンジンウェブサーバは、検索クエリおよび選択された検索結果の数(および、検索カテゴリ情報など、その他の情報)を含むこの情報を検索情報ログとして格納できる、および/または、この情報を別のサーバ(例えば、検索語重み付けサーバ)に送信できる。
いくつかの実施形態において、検索結果は、ウェブページへのリンクまたはユニフォームリソースロケータ(URL)を含みうる。いくつかの実施形態において、検索情報ログは、以下の内の1または複数を含みうる。検索クエリ、検索語(例えば、検索クエリから構文解析されたもの)、検索語の内の1または複数に対応する1または複数の検索カテゴリ、ユーザが検索カテゴリの間で選択を行った回数、および、任意の他の適切な情報。検索カテゴリについては、以下で詳述する。
様々な実施形態において、(例えば、ユーザによって送信された)検索クエリは、少なくとも1つの検索カテゴリに対応する。一般に、インターネット上のかなりの量の公開された情報が、カテゴリに関連付けられている。例えば、ニュース情報のウェブサイトでは、ニュース、スポーツ、エンターテイメント、ファイナンス、および、経済などのニュースカテゴリのためのウェブページが存在しており、電子商取引ウェブサイト(例えば、www.alibaba.com)では、住居、衣服、デジタル、および、食品などの製品カテゴリのためのウェブページが存在し、さらに、携帯電話、カメラ、および、コンピュータなど、製品サブカテゴリのためのウェブページが存在する。いくつかの実施形態において、検索クエリに対応する検索カテゴリは、検索クエリが送信されたウェブページに関連付けられているカテゴリに基づいて決定される。
例えば、電子商取引ウェブサイトで、ユーザが検索クエリ「カメラ」を送信すると仮定する。ユーザは、電子商取引ウェブサイトの製品カテゴリウェブページと関連する検索クエリを送信しうる。例えば、ユーザが、家庭用電子機器カテゴリで「カメラ」を検索した場合、検索語「カメラ」が対応する検索カテゴリは「家庭用電子機器」である。あるいは、ユーザがデジタルカテゴリで「カメラ」を検索した場合、検索語「カメラ」が対応する検索カテゴリは「デジタル」である。
いくつかの実施形態において、検索クエリを受信すると、(検索クエリが送信されたウェブページ/ウェブサイトに関連付けられている)検索エンジンは、(検索クエリが2以上の検索語を含む場合)検索クエリを構文解析して別個の検索語にする。例えば、検索クエリを構文解析する処理は、検索クエリから単語を抽出する工程、意味のない情報を切り捨てる工程(例えば、対応する検索結果がない文字)、および/または、抽出された各単語を別個に格納する工程を備えてよい。いくつかの実施形態において、検索クエリを構文解析した後、1または複数の検索カテゴリが、検索クエリから構文解析された各検索語について決定される。様々な実施形態において、同じ検索カテゴリが、検索クエリから構文解析された検索語の各々に対応する、および/または、この同じ検索カテゴリが、検索クエリ全体に対応する検索カテゴリでもある(検索カテゴリが、検索クエリから構文解析された個々の検索語の代わりに、検索クエリ全体に割り当てられた場合)。言い換えると、検索語に関連付けられている検索カテゴリは、その検索語を要素として含んでいたその例の検索クエリに基づいている。したがって、検索語が、異なる検索カテゴリに関連付けられているウェブページで検索された場合、同じ検索語が、異なる検索カテゴリと関連付けられうる。例えば、「カメラ」を含む検索クエリが、「家庭用電子機器」の製品カテゴリに関連付けられているウェブページで検索された場合、この例の検索では、「カメラ」という検索語は、「家庭用電子機器」の検索カテゴリに対応することになる。一方で、「カメラ」を含む別の検索クエリが、「写真」の製品カテゴリに関連付けられているウェブページで検索された場合、この例の検索では、「カメラ」という検索語は、「写真」の検索カテゴリに対応することになる。
例えば、電子商取引ウェブサイトで、ユーザが、家庭用電子機器カテゴリで「カメラ SLR」という検索クエリを送信すると仮定する。検索クエリは、最初に、構文解析され、「カメラ」および「SLR」という別個の検索語が取得される。両方の検索語が、ウェブサイトの家庭用電子機器の製品カテゴリのウェブページで(同じ検索クエリの一部として)送信されたため、検索語「カメラ」に対応する検索カテゴリは「家庭用電子機器」であり、検索語「SLR」に対応する検索語も「家庭用電子機器」である。
工程204では、格納された検索情報ログに少なくとも部分的に基づいて、カテゴリ分布単語リストが生成される。
いくつかの実施形態において、格納された検索情報ログ(例えば、所定の期間中に格納されたもの)が解析される。様々な実施形態において、カテゴリ分布単語リストは、解析された検索情報ログに含まれる検索語に対応する検索カテゴリの分布を表すように生成される。様々な実施形態において、カテゴリ分布単語リストに含まれる検索語について、その検索語に対応する検索カテゴリの各々に対する(例えば、検索結果の)選択回数も含まれる。
上述のように、同じ検索語に関して、異なるユーザが(または、同じユーザが別の時に)、その検索語を用いて検索を実行した場合、対応する検索カテゴリが異なる場合がある。したがって、格納された検索情報ログにおいて、2以上の異なる検索カテゴリが、同じ検索語に対応しうる。工程204では、格納された検索情報ログが解析され、その結果、ログに含まれる検索語の各々について、その検索語に対応する1または複数の検索カテゴリと、各検索カテゴリの選択回数(すなわち、その検索カテゴリに関連付けられている検索クエリ/検索語に対して返された検索結果の選択回数)が決定され、その検索語に対応する検索カテゴリの分布情報が生成される。
いくつかの実施形態において、カテゴリ分布単語リストは、(少なくとも)2つの列に分けられうる。第1の列は、検索語を含み、第2の列は、検索語に対応する検索カテゴリ分布情報を含む。いくつかの実施形態において、上述の検索カテゴリ分布情報は、以下の内の1または複数を含んでよい。検索語に対応する複数の検索カテゴリの組み合わせ、および、その検索語に対応する個々の検索カテゴリに対応する選択回数。カテゴリ分布単語リストのエントリの一例を以下に示す。
Figure 2013528881
ここで、Wordは検索語、カテゴリiは検索語に対応する検索カテゴリi、選択回数iは検索語に対応する検索カテゴリiの選択回数、i=1,2,・・・n;nは検索語に対応する検索カテゴリの数である。
電子商取引ウェブサイトで「カメラ」という検索語を用いる例について、さらに説明する。ほとんどのユーザは「家庭用電子機器」の製品カテゴリに関連付けられているウェブページで「カメラ」を検索しうるが、一部のユーザは、「家庭用電化製品」の製品カテゴリに関連付けられているウェブページで「カメラ」を検索したり、さらに一般的に、「全カテゴリ」という全体的な製品カテゴリに関連付けられているウェブページで検索したりする場合がある。工程202について述べたように、(「カメラ」という検索語を含む検索クエリを用いた)かかる検索について、検索情報ログが格納される。次いで、工程204において、(特に)これらの検索情報ログが、少なくとも「カメラ」という検索語の検索カテゴリ分布情報を取得するために解析される。この例において、「カメラ」という検索語について、格納された検索情報ログの中で見出された対応する検索カテゴリが、「全カテゴリ」、「家庭用電化製品」、および、「衣服」を含み、これらの検索カテゴリに対応する選択回数が、それぞれ、324、1290、34、および、8であると仮定する。したがって、検索語「カメラ」に対応する検索カテゴリ分布情報は、以下の通りになる。
Figure 2013528881
様々な実施形態において、各検索語に対応する検索カテゴリの分布をより明確に表すために、各検索カテゴリに対応する選択回数は、確率の形で表現されてもよい。例えば、検索語に対応する選択の総回数が決定され、次いで、その検索語に対応する特定の検索カテゴリの検索確率が、その検索語に対応する総選択回数に対するそのカテゴリの選択回数として決定される。検索カテゴリに対応する確率を含むカテゴリ分配単語リストのエントリの一例を以下に示す。
Figure 2013528881
ここで、Wordは検索語;カテゴリiは検索語に対応する検索カテゴリi;piは検索語に対応する検索カテゴリiの選択確率、i=1,2,・・・n;nは検索語に対応する検索カテゴリの数である。
電子商取引ウェブサイトで「カメラ」という検索語を用いる例に戻ると、対応する検索カテゴリ分布情報リスト(確率を含む)のエントリは、以下の通りである。
Figure 2013528881
いくつかの実施形態において、格納された検索情報ログは、任意の既存の検索カテゴリ分布単語リストを定期的に更新するために解析される。例えば、所定の期間(例えば、1週間)にわたって格納された検索情報ログが、カテゴリ分布単語リストを更新するために自動的に解析されてよい。あるいは、カテゴリ分布情報単語リストの更新は、手動で開始されてもよい(例えば、検索語重み付けサーバの管理者によって)。
工程206では、カテゴリ分布単語リストは、リトリーブされた属性単語リストに少なくとも部分的に基づいて処理される。
様々な実施形態において、電子商取引ウェブサイト(または、そのウェブサーバ)などのウェブサイトは、予め格納された属性単語リストにアクセスできる。いくつかの実施形態において、属性単語リストは、電子商取引ウェブサイトで提供される製品の少なくともサブセットの各々に対応する属性情報を含む。例えば、属性単語リストは、電子商取引ウェブサイトをサポートするウェブサーバの管理者によって作成されうる、および/または、ウェブサイトで製品を提供する第三者によって修正されうる。いくつかの実施形態において、属性単語リストは、対応する製品のウェブページに表示される情報を提供するために用いられる。いくつかの実施形態において、属性単語リストに保存された情報は、製品の販売者(例えば、企業)および購入者(例えば、電子商取引ウェブサイトでウェブページを閲覧するユーザ)の双方が興味を持ち、製品に関するいくつかの有益な特徴を表すことができる情報を含む。
例えば、電子商取引の文脈において、従来の属性語彙は、一般に、製品の種類、ブランド、型番、および、色の内の1または複数を含む。電子商取引ウェブサイトで製品を提供する企業が新しいまたは更新された製品情報をリリースした場合、企業またはウェブサーバの管理者は、この製品情報で属性単語リストを更新できる。ある企業が新しいモデルのカメラを最近リリースしたと仮定すると、その企業は、以下の情報を有する新しいカメラに対応するエントリをリストに追加することによって、そのカメラを含めるように属性単語リストを更新できる。カメラのブランドは「キャノン」、種類は「SLR」、型番は「D450」、色は「黒」。
いくつかの実施形態において、特に特徴的ではない情報(例えば、任意の数の種類の製品を記述するのに共通して用いられる単語)は、属性単語リストの一部として格納されない。新しいモデルのカメラを属性単語リストに追加する前の例に戻ると、「キャノン」、「SLR」、および、「D450」という属性は、そのカメラに特有の属性を表しうると見なされるが、「黒」は、比較的一般的な単語である。結果として、「キャノン」、「SLR」、および、「D450」が属性単語リストに追加され、「黒」は属性単語リストに追加されない。
様々な実施形態において、同様である属性単語リスト内の属性情報は、一緒に格納される(例えば、各属性値が、それに関連する属性のタグと共に格納される)。例えば:「キャノン」は、ブランドの属性の他の属性値と共に格納され、「SLR」は、種類の属性の他の属性値と共に格納される。
様々な実施形態において、属性単語リストは、(例えば、記憶装置から)リトリーブされ、工程204で生成されたカテゴリ分布単語リストを処理する際に用いられる。
様々な実施形態において、カテゴリ分布単語リストは、属性単語リストを用いて処理できる。いくつかの実施形態では、最初に、カテゴリ分布単語リストに含まれる検索語を属性単語リストで見つけることができるか否かが判定される。属性単語リストで見つけることができるカテゴリ分布単語リストの検索語については、フィルタリングの工程が、それらの検索語に適用される。例えば、属性単語リストで見つけることができるカテゴリ分布単語リストの検索語について、それらに対応する検索カテゴリに関連する確率が所定の閾値に達しないまたは越えない検索語は排除される。これは、クエリの検索語とそれほど関連しない検索カテゴリで実行された検索クエリなど、ユーザの検索意図をそれほど表しえない検索カテゴリを削除するためである。属性単語リストで見つけることができないカテゴリ分布単語リストの検索語については、対応する各カテゴリに関してそれらの検索語を均一化する工程が実行される。属性単語リストを用いたカテゴリ分布単語リストの処理について、以下に詳述する。
(1)属性単語リストで見つかったカテゴリ分布単語リストの検索語。
最初に、カテゴリ分布単語リストに含まれる検索語のどれが、属性単語リストでも見つかるかが判定される。次いで、属性単語リストで見つかったカテゴリ分布単語リストの検索語について、それらに対応する検索カテゴリの確率が所定の閾値確率を満たすすなわち越えるか否かが判定される。対応する確率が所定の閾値確率を満たさないすなわち越えない検索カテゴリは、カテゴリ分布単語リストから除去(つまり、フィルタ除去)される。
例えば、電子商取引ウェブサイトの文脈において、ユーザが、「衣服」製品カテゴリ内で検索語「カメラ」を検索すると、「検索語:カメラ、検索カテゴリ:衣服」を含む検索情報ログの生成につながる。しかしながら、「カメラ」および「衣服」に関連性がないことは明らかなので、「衣服」カテゴリで「カメラ」を検索するというユーザ記録は比較的少ない可能性が高い。この根拠により、(検索情報ログとして格納された)かかる情報は、ウェブサイトの正確な検索を促すにはほとんど役に立たないある種の干渉情報と見なすことができるため、フィルタ除去されてもよい。
このフィルタ除去の概念をさらに説明するために、以下の例について考える。最初に、検索語「カメラ」が属性単語リストに属すると判定される。検索語「カメラ」に対応するものとしてカテゴリ分布単語リストから抽出された検索カテゴリ分布情報は、以下の通りである。
Figure 2013528881
次いで、所定の閾値確率よりも低い検索確率を有する検索語「カメラ」に対応する検索カテゴリがフィルタ除去される。具体的に、所定の閾値確率が5%であると仮定する。検索確率の各々を所定の閾値確率と比較すると、検索語「カメラ」に対応する「家電」および「衣服」の検索カテゴリの検索確率が5%より低いと判定されうるため、それらの検索カテゴリ(および、それぞれの検索確率)をカテゴリ分布単語リストから除去(すなわち、フィルタ除去)する必要がある。「家電」および「衣服」の検索カテゴリをフィルタ除去した後、検索語「カメラ」について更新された検索カテゴリ分布情報は、以下の通りである。
Figure 2013528881
(2)属性単語リストで見つからなかったカテゴリ分布単語リストの検索語。
属性単語リストで見つからなかったカテゴリ分布単語リストの検索語は、それらに対応する検索カテゴリのすべてに関して均一化される。属性単語リストで見つからなかったカテゴリ分布単語リストの検索語は、(電子商取引ウェブサイトの製品の)製品属性を示さず、単に検索結果の範囲を限定するものであると見なされる。例えば、かかる検索語は、「赤」、「美しい」、および、「安価」を含みうる。これらの検索語は、任意の特定の製品の属性を示さないため、任意の検索カテゴリ内の製品の記述および検索に用いられうる。例えば、これらの検索語は、一般に、異なるカテゴリの製品を区別することがないため、「カメラ」の検索に用いられてもよいし、「ジャケット」の検索に用いられてもよい。様々な実施形態において、かかる検索語は、属性単語リストに保存されないので、カテゴリ分布情報に現れても、製品の全カテゴリに一般的すなわち普遍的であることから、異なるカテゴリの(例えば、特有の)製品を区別するために利用できないと判定される。結果として、これらの普遍的な検索語に対応する検索確率は、各検索カテゴリに対して同じになるように修正される(すなわち、すべての対応する検索カテゴリに関して均一化される)。
例えば、ユーザが検索語「美しい」を用いて検索を行い、検索語「美しい」に対応する検索カテゴリ分布情報が以下の通りであると仮定する。
Figure 2013528881
検索語「美しい」が属性単語リストで見つからないと判定されると、検索語「美しい」に対応する様々な検索カテゴリの検索確率に関して均一化が実行される。均一化の後のカテゴリ分布単語リスト内の検索語「美しい」に対応する検索カテゴリの分布情報は、以下の通りである。
Figure 2013528881
この例において、検索語「美しい」の検索確率は、各検索カテゴリについて確率が同じになるように、対応する検索カテゴリの各々に関して均一化された。これは、検索カテゴリの総数(例えば、「全カテゴリ」、「デジタル」、「家電」、および、「衣服」を含む「4」)で100%を割って、それらの検索カテゴリの各々の新たな確率としてそのパーセンテージを割り当てることによって達成された。これは、単に均一化の一例であり、均一化は、他の適切な技術によっても実行できる。工程208では、処理されたカテゴリ分布単語リストに関連付けられている検索語に対応する重み付けが決定される。
いくつかの実施形態において、情報エントロピ法が、検索語の各々の重み付けを決定するために用いられ、重み付けは、情報検索処理の際の検索語の重要度を表す。本明細書で用いられているように、エントロピは、情報コンテンツの無秩序さの程度を表す尺度である。検索語に対応するエントロピが大きいほど、その検索語によって表される不確かさが大きくなるため、その検索語は比較的重要でなくなる。いくつかの実施形態において、検索語に対応するエントロピは、検索語に対応する重み付けとして機能する。
様々な実施形態において、各検索語の重み付けは、検索語の重要度を表すために用いられる値である。検索語の重み付けが大きいほど、その検索語は重要である。検索語の重み付けが小さいほど、その検索語は重要でない。ウェブサイトで検索を実行するユーザの観点からは、検索語に対応する重み付けが大きいほど、ユーザがその検索語に関心がある可能性が高い。結果として、重み付けの大きい検索語にマッチする検索情報は、検索結果の中でより高く順位付けされ、重み付けの小さい検索語にマッチする検索情報よりも早くユーザに提示される。この順序付けは、ユーザが、重み付けの大きい検索語にマッチする検索結果を閲覧することに、より興味を持っているという仮定に基づいている。
いくつかの実施形態において、カテゴリ分布単語リストの検索語に対応する決定済みの重み付けが格納される。例えば、検索語に対応する決定済みの重み付けは、カテゴリ分布単語リストのテーブルに(例えば、新たな列の)エントリとして格納されてよい。
いくつかの実施形態において、各検索語に対応するエントロピ値は、カテゴリ分布単語リスト内のその検索語に対応する検索確率分布情報に基づいて計算できる。
様々な実施形態において、各検索語に対応する検索カテゴリの数は様々である。いくつかの実施形態において、カテゴリ分布単語リスト内の全検索語に固有の検索カテゴリの総数が決定される。検索語のエントロピは、検索語の検索確率および固有の検索カテゴリの総数に基づいて決定される。
例えば、以下の式を用いて、カテゴリ分布単語リスト内の検索語に対応するエントロピを計算することができる。
C(Word)=|p1log(p1)+p2log(p2)+p3log(p3)+....+pmlog(pm)|
ここで、Wordは検索語、piは処理後のカテゴリ分布単語リスト内の検索語に対応する検索カテゴリiの検索確率(0<pi<1)、i=1,2,・・・m、mはカテゴリ分布単語リストに含まれる固有の検索カテゴリの総数である。上記のエントロピ式を特定の検索語に適用すると、検索語が、カテゴリ分配単語リストのすべての固有の検索カテゴリ中の特定の検索カテゴリに対応しない場合、その検索語のその検索カテゴリに関するpの値はゼロ(0)である。
「カメラ」および「美しい」という検索語を含む以前の例に戻ると、それぞれの処理された検索カテゴリ分布情報は、以下の通りである。
Figure 2013528881
カテゴリ分布単語リストに含まれる固有の検索カテゴリの総数が5(すなわち、m=5)である場合、検索語「カメラ」および「美しい」に対応するそれぞれのエントロピは以下のように計算される。
C(カメラ)=|0.196×log0.196+0.779×log0.779+0×log0+0×log0+0×log0|
=0.2232
C(美しい)=|0.25×log0.25+0.25×log0.25+0.25×log0.25+0.25×log0.25+0×log0|
=0.602
この例において、検索語「カメラ」のエントロピ(0.2232)は、検索語「美しい」のエントロピ(0.602)よりも小さいため、検索語「美しい」は、「カメラ」という検索語に比べて重要度が低いと見なすことができる。
様々な実施形態において、検索語の重み付け(すなわち、エントロピ)が小さいほど、その検索語は重要である。逆に、検索語の重み付け(すなわち、エントロピ)が大きいほど、その検索語は重要でない。しかしながら、これらの相関は、重要度の重み付けに関する一般的な考え方には合わないかもしれない。一般的には、検索語の重要度が高いほど重み付けが大きくなり、検索語の重要度が低いほど重み付けが小さくなると考える。
したがって、様々な実施形態において、検索語の重み付けは、より大きい重み付け(すなわち、エントロピ)がより高い重要度と相関するという考え方に従うように調整される。これは、例えば、以下の式を用いて表すことができる。
WE(Word)=-C(Word)+C0
ここで、Wordは検索語、WE(Word)は検索語Wordに対応する重み付け、C(Word)は検索語Wordに対応するエントロピ、C0は基準値である。
この式において、C0の値は、カテゴリ分布単語リスト内の検索語に対応するエントロピの最大値より大きくなるよう選択され、以下のように表現されうる。
C0>max(C1,C2,...Cj)
ここで、jはカテゴリ分布単語リストに含まれる検索語の総数である。
いくつかの実施形態において、C0の値は、カテゴリ分布単語リストの検索語のエントロピを決定する前に設定されてよい。例えば、C0の値は、カテゴリ分布単語リストの任意の検索語に対して後に決定されうる任意のエントロピよりも大きい可能性が非常に高いと想定される値を取るように選択できる。いくつかの実施形態において、C0の値は、カテゴリ分布単語リストの検索語のエントロピを決定した後に設定されてもよい。このように、カテゴリ分布単語リストの検索語に対応する最大エントロピを特定した後に、その最大エントロピ値より高くなるようにC0の値を選択することができる。
例えば、カテゴリ分布単語リストの検索語に対応するエントロピの最大値が0.99であるとすれば、C0を1に設定することができる。大きい重み付け(すなわち、エントロピ)が高い重要度に相関するように重み付けを調整する式を適用すると、この例の検索語「カメラ」および「美しい」の新たな重み付けは、
WE(カメラ)=−0.2232+1=0.7768
WE(美しい)=−0.602+1=0.398
ここで、検索語「カメラ」に対応する重み付け(0.7768)は、検索語「美しい」に対応する重み付け(0.398)よりも大きく、これは、「カメラ」という検索語が「美しい」という検索語よりも重要であると見なされることを示す。
様々な実施形態において、検索語に対応する格納された重み付けは、記憶装置からリトリーブされ、検索結果を返す助けとなるよう用いられる。前出の例で決定された重み付けが格納されリトリーブされたと仮定すると、「カメラ」に対応する重み付けは、「美しい」に対応する重み付けよりも大きいので、「カメラ」に対応する検索情報は、「美しい」に対応する検索情報よりも高く順位付けされる。
様々な実施形態において、検索語は、様々な種類の情報に関連付けられうる。様々な種類の情報は、ユーザにとっての関心度が様々でありうる。例えば、電子商取引ウェブサイトの文脈において、検索語は、一般に、以下の種類に分けられる。製品単語、ブランド単語、および、属性単語。いくつかの実施形態において、製品単語は、例えば、製品が属するカメラ、衣服、または、食品のカテゴリなど、特定の製品のカテゴリを記述するために用いられる。いくつかの実施形態において、ブランド単語は、例えば、製品が属するキャノン、ニコン、または、フジというブランドなど、特定の製品のブランドを記述するために用いられる。いくつかの実施形態において、属性単語は、例えば、製品がSLRおよび/またはメモリカードカメラであるか否かなど、製品の固有の属性を記述するために用いられる。
様々な実施形態において、重要度の割り当ては、検索語の様々な種類の各々に対して予め決定されてよい。例えば、電子商取引ウェブサイトの文脈において、一般に、製品単語はブランド単語よりも重要度が高く、ブランド単語は属性単語よりも重要度が高いと見なされうる。
様々な実施形態において、検索語に対して決定された重み付けは、検索語が対応する情報の種類への重要度の割り当てに基づいて調整される。これは、検索語に対応する調整済みの重み付けが、検索語の表す情報の種類に関連した様々な重要度を反映しうるように実行される。
いくつかの実施形態において、電子商取引ウェブサイトの文脈では、製品単語として特定される検索語に対応する重み付けは、ブランド単語として特定される検索語に対応する重み付けよりも大きくなるように調整され、ブランド単語として特定される検索語に対応する重み付けは、属性単語として特定される検索語に対応する重み付けよりも大きくなるように調整される。
例えば、検索語「カメラ」、「キャノン」、および、「SLR」に対応する重み付け(例えば、200の処理によって取得されたもの)を以下のように仮定する。
WE(カメラ)=0.7768
WE(キャノン)=0.5982
WE(SLR)=0.8781
この例からわかるように、WE(カメラ)はWE(キャノン)よりも大きく、WE(キャノン)はWE(SLR)よりも小さい、すなわち、(検索語の種類について調整する前の)現行の重み付けは、製品単語の重み付けがブランド単語の重み付けよりも大きいという基準を満たしているが、ブランド単語の重み付けが属性単語の重み付けよりも小さいことから、属性単語よりもブランド単語の重要度が高いという仮定が反映されていない。したがって、これらの重み付けは、以下に述べるように、検索語の種類について調整されうる。
最初に、カテゴリ分布単語リストの検索語は各々、種類(例えば、製品単語、ブランド単語、または、属性単語)に分類される。次いで、検索語の種類が、重み付け調整値(例えば、検索語の決定された重み付けに加えられるオフセット値)をまだ割り当てられていない場合、検索語の各種類に対する重み付け調整値の決定が生成される(例えば、関連するウェブサーバの管理者によって)。重要度の高い検索語の種類は、重要度の低い検索語の種類よりも大きい重み付け調整値を有することになる。
次に、検索語に対応する重み付けの調整が、検索語の種類に基づいて行われる。
いくつかの実施形態において、検索語の種類に対応する重み付け調整値が、検索語に対応する重み付けに加算される。
例えば、「カメラ」、「キャノン」、および、「SLR」という検索語を含む例に戻ると、以下の調整された重み付けが生成される。
WE'(カメラ)=WE(カメラ)+ΔWE(製品単語)
WE'(キャノン)=WE(キャノン)+ΔWE(ブランド単語)
WE'(SLR)=WE(SLR)+ΔWE(属性単語)
この例でわかるように、対応する重み付け調整値(ΔWE(製品単語)、ΔWE(ブランド単語)、および、ΔWE(属性単語))を検索語の各種類(製品単語、ブランド単語、および、属性単語)に対応する重み付け(WE(カメラ)、WE(キャノン)、および、WE(SLR))に加算することによって、調整された重み付けが生成される。調整後、重要度の高い検索語に対応する調整済みの重み付け(WE’(カメラ)、WE’(キャノン)、および、WE’(SLR))は、重要度の低い検索語に対応する重み付けよりも大きくなっている。
この例において、重み付け調整値は、以下のように設定される:ΔWE(製品単語)=1、ΔWE(ブランド単語)=0.8、および、ΔWE(属性単語)=0.3。したがって、「カメラ」、「キャノン」、および、「SLR」という検索語のそれぞれの調整済み重み付けは、以下の通りである。
WE'(カメラ)=0.7768+1.0=1.7768
WE'(キャノン)=0.5982+0.8=1.3982
WE'(SLR)=0.8781+0.3=1.1781
調整によって、WE’(カメラ)がWE’(キャノン)よりも高く、WE’(キャノン)がWE’(SLR)よりも高くなる、すなわち、調整済みの重み付けは、製品単語の重み付けがブランド単語よりも高く、ブランド単語の重み付けが属性単語の重み付けよりも高いという基準を満たす。
様々な実施形態において、検索語に対応する重み付けが検索語の種類に基づいて調整された後、調整済みの重み付けは、検索語の新たな重み付けとなり、格納される。様々な実施形態において、検索語に対応する重み付けは、後の検索クエリに応じて検索結果を生成する際に用いられる。
図3は、検索語重み付けを用いて検索結果を生成するための処理の一実施形態を示すフローチャートである。いくつかの実施形態では、処理300は、少なくとも部分的にシステム100を用いて実施されうる。
工程302では、検索クエリが受信される。
いくつかの実施形態において、検索クエリは、ウェブサイトで送信される。例えば、ウェブサイトは、電子商取引に関連しており、検索クエリは、ウェブサイトによって提供される1または複数の製品に関する。いくつかの実施形態において、(例えば、1または複数の単語を含む)受信された検索クエリは、構文解析されて別個の検索語に分けられる。検索クエリが1単語だけである場合、構文解析後に取得される検索語は、検索クエリ自体である。例えば、検索クエリが「カメラ」である場合、検索語は「カメラ」である。検索クエリが複数の単語を含む場合、構文解析処理後に複数の検索語が得られる。例えば、検索クエリが「カメラ 美しい」であった場合、検索語は「カメラ」および「美しい」である。
工程304では、検索クエリに関連する1または複数の検索語に対応する1または複数の検索語重み付けがリトリーブされる。
様々な実施形態において、検索語およびそれらに対応する重み付けの格納済みの関連付けにおいて、工程302で受信された検索クエリの検索語に対応する重み付けを探すために検索が行われる。様々な実施形態において、検索語とそれらの重み付けとの間の関連付けすなわち対応関係は、処理200のような処理によって決定される。
例えば、検索語「カメラ」および「美しい」を含む検索クエリについて、それらの語に対してリトリーブされる重み付けは、以下の通りである。
WE(カメラ)=0.7768
WE(美しい)=0.398
工程306では、検索クエリに関連する1または複数の検索語を用いて、インデックス化された情報において検索が行われる。
様々な実施形態において、検索クエリの検索語を用いた検索の対象となる情報は、インデックス化される。情報は、検索を容易にするために1または複数の方法でインデックス化されうる。例えば、情報は、関連するタグワードによってインデックス化できる。様々な実施形態において、情報は、電子商取引ウェブサイトに関連付けられているデータベースに格納される。例えば、電子商取引ウェブサイトに関連する情報は、ウェブサイトで企業が販売する様々な製品に関する情報を特徴付けるウェブページのコンテンツおよび/またはウェブページへのリンクを含みうる。いくつかの実施形態において、検索される情報は、検索エンジンサービス(例えば、Google、Microsoft社のBingなど)によってクロールおよび管理される情報(例えば、ウェブページコンテンツおよびリンク)を含む。
いくつかの実施形態では、検索クエリのすべての検索語が検索に用いられるまで、インデックス化された情報に対して個々の検索語が一つずつ検索される。いくつかの実施形態では、すべての検索語が、インデックス化された情報内で同時に検索される。いくつかの実施形態において、各検索語とマッチするインデックス化された情報は、その検索語と関連付けられる。いくつかの実施形態において、同じ情報が、2以上の検索語にマッチされうる。例えば、特定の検索語にマッチするすべての情報を、その検索語に関連付けられている識別子と共に一時的に格納できる。これは、マッチした情報の順位付けを支援するためのものであり、マッチした情報に対応する検索語に基づいて実行される。
工程308では、1または複数の検索語に対応するインデックス化された情報が、リトリーブされた検索語重み付けに少なくとも部分的に基づいて、順位付けされて提示される。
検索語にマッチする検索情報は、マッチした情報がユーザに提示される前に順位付けされる。情報を順位付けする1つの理由は、ユーザにとって望ましいと考えられる順序に基づいて情報をユーザに提示できることである。ユーザにとって重要度の高い(例えば、より関心の高い)と考えられる検索結果(例えば、検索語にマッチする情報)は、比較的重要度の低い検索結果よりも先にユーザに提示されることが好ましい。様々な実施形態において、マッチした情報は、工程306においてマッチすると認められた検索語に対応する重み付けに基づいて順位付け(すなわち、順序付け)される。様々な実施形態において、マッチする情報は、それらにマッチすると認められた検索語に対応する重み付けに基づいて降順で提示される。例えば、第1の重み付けを有する検索語とマッチする情報は、第1の重み付けよりも小さい第2の重み付けを有する別の検索語にマッチする情報よりも、高く順位付けされ、先に提示される。いくつかの実施形態において、検索語に対応する重み付けは、検索語が「主要な」検索語であるか「補助的な」検索語であるかを決定する。検索語に対応する重み付けが所定の閾値よりも大きい場合、上述の検索語は「主要な」検索語と決定され、そうでない場合、検索語は「補助的な」検索語と決定される。
検索語を「主要な」および「補助的な」検索語に分ける意義は、検索語を用いて、インデックス化された情報を検索する際の違いである。検索クエリに含まれる検索語に基づいて検索を実行する際、「主要な」検索語に、より大きい重点が置かれる。例えば、「主要な」検索語にマッチする検索情報は、必ず検索結果に含められ、「補助的な」検索語にマッチする検索情報は、必ずしも検索結果に含められない。「主要な」検索語にマッチする検索結果の量が適切である場合、「補助的な」検索語にマッチする情報はユーザに対して全く提示される必要がない。しかしながら、(例えば、「主要な」検索語にマッチする検索結果だけでは十分でないために)「補助的な」検索語にマッチする情報がユーザに提示される場合、「補助的な」検索語にマッチする情報は、「補助的な」検索語にも「主要な」検索語にもマッチしない検索結果よりも高く順位付けされうる。
いくつかの実施形態において、順位付けされた検索結果は、検索結果ウェブページを介して(工程302で検索クエリを送信した)ユーザに提示される。ユーザは、ウェブブラウザを用いてこのウェブページにアクセスできる。いくつかの実施形態において、検索結果は、(例えば、電子商取引ウェブサイトで企業が販売する製品に関する)情報を含むウェブページへのリンクと、検索結果ウェブページで直接表示される情報(例えば、製品属性に関する宣伝文)との内の一方または両方を含む。
図4は、検索語重み付けを決定するためのシステムの一実施形態を示す図である。いくつかの実施形態において、システム400のモジュールは、電子商取引ウェブサイトをサポートするウェブサーバと関連して、または、その構成要素として実装される。いくつかの実施形態では、処理200は、少なくとも部分的にシステム400によって実施されうる。
これらのモジュールは、1または複数のプロセッサ上で実行されるソフトウェアコンポーネントとして、特定の機能を実行するよう設計されたプログラム可能論理デバイスおよび/または特定用途向け集積回路などのハードウェアとして、もしくは、それらの組み合わせとして実装することができる。いくつかの実施形態において、モジュールは、コンピュータデバイス(パーソナルコンピュータ、サーバ、ネットワーク装置など)に本発明の実施形態に記載された方法を実行させるための複数の命令など、不揮発性記憶媒体(光学ディスク、フラッシュ記憶装置、携帯用ハードディスクなど)に格納することができるソフトウェア製品の形態で具現化されてよい。モジュールは、単一のデバイス上に実装されてもよいし、複数のデバイスにわたって分散されてもよい。
ログ生成モジュール10は、(電子商取引ウェブサイトの)ユーザによって送信された検索クエリおよび検索結果選択情報を受信し、検索情報ログを生成するよう構成される。いくつかの実施形態では、生成された検索情報ログは、データベースに保存される。
単語リスト生成モジュール20は、格納された検索情報を解析し、少なくとも部分的に解析に基づいてカテゴリ分布単語リストを生成するよう構成される。いくつかの実施形態において、カテゴリ分布単語リストは、検索語、検索語に対応する検索カテゴリ、および、検索語に対応する検索カテゴリの各々に対応する検索確率を含む。
単語リスト最適化モジュール30は、(例えば、電子商取引ウェブサイトのウェブサーバに関連付けられている記憶装置/データベースから)属性単語リストを抽出し、カテゴリ分布単語リストを処理するよう構成される。
重み付け算出モジュール40は、単語リスト最適化モジュール30によって処理された後のカテゴリ分布に少なくとも部分的に基づいて、カテゴリ分布単語リストに含まれる検索語の各々の重み付けを決定するよう構成される。
いくつかの実施形態では、システム400は、さらに、図4に示されていない以下のモジュールを任意選択的に備える。
カテゴリ分布単語リストに含まれる検索語を分類して、検索語の各種類の重要度を決定するよう構成された分類モジュール。いくつかの実施形態において、検索語は、各々、製品単語、ブランド単語、または、属性単語という検索語の種類にソートまたは分類される。いくつかの実施形態において、検索語の各種類は、異なる重要度に関連付けられる。
(分類モジュールによって決定された)各検索語の種類に基づいて、カテゴリ分布単語リストの検索語の重み付けを調整するよう構成された補正モジュール。
図5は、単語リスト最適化モジュールの一実施形態を示す図である。いくつかの実施形態において、図4の単語リスト最適化モジュール30は、少なくとも部分的に図5の例を用いて実装できる。
判定サブモジュール301は、カテゴリ分布単語リストに含まれる検索語のどれが、属性単語リストで見つかるかを判定するよう構成される。いくつかの実施形態において、判定サブモジュール301は、さらに、属性単語リスト内で見つかったカテゴリ分布単語リストの検索語のリストと、属性単語リスト内で見つからなかった検索語の別のリストとを作成するよう構成される。
属性単語リスト最適化サブモジュール302は、属性単語リスト内で見つかったカテゴリ分布単語リストの各検索語について、所定の閾値よりも低い検索確率を有する対応する検索カテゴリを決定するよう構成される。
非属性単語リスト最適化サブモジュール303は、属性単語リスト内で見つからなかったカテゴリ分布単語リストの各検索語について、検索語に対応するすべての検索カテゴリの検索確率を均一化するよう構成される。いくつかの実施形態において、検索語に対応するすべての検索カテゴリの検索確率を均一化することは、すべての検索確率の平均値を各検索カテゴリに割り当てて、最初に決定された検索確率と置き換えることを含む。
図6は、検索結果を生成するためのシステムの一実施形態を示す図である。いくつかの実施形態において、システム600は、(ログ生成モジュール10、単語リスト生成モジュール20、単語リスト最適化モジュール30、および、重み付け算出モジュール40を含む)システム400に、重み付け抽出モジュール50および結果生成モジュール60を追加したものである。図4で説明したモジュールについては、以下では詳述しない。いくつかの実施形態では、処理300は、少なくとも部分的にシステム600によって実施されうる。
重み付け抽出モジュール500は、ユーザによって入力された検索クエリを受信し、検索クエリ内の検索語の各々に対応する重み付けをリトリーブするよう構成される。いくつかの実施形態において、重み付け抽出モジュール500は、さらに、受信した各検索クエリを構文解析して1または複数の検索語にするように構成される。
結果生成モジュール600は、検索語の各々に対応する重み付けに少なくとも部分的に基づいて、検索語の各々にマッチする検索された情報を順位付けするよう構成される。
説明の便宜上、上記のデバイスについて説明する際に、各モジュールは、その機能に従って別個に説明されている。もちろん、本開示の実施の際には、様々なユニットの機能は、同じまたは複数のソフトウェアおよび/またはハードウェア構成によって達成されてよい。
上述の実装手段の説明からわかるように、当業者であれば、ソフトウェアおよび必要な共通のハードウェアプラットフォームを用いて本開示を実現できることを明確に理解できる。かかる理解に基づいて、本開示の技術的提案は、本質的に、あるいは、既存の技術に寄与する部分に関して、ソフトウェア製品の形態で実現できる。かかるコンピュータソフトウェア製品は、ROM/RAM、ディスケット、および、コンパクトディスクなどの記憶媒体に格納され、一組の計算装置(パーソナルコンピュータ、サーバ、または、ネットワーク装置であってよい)に、本開示の実施形態に記載された手段または手段の特定の部分を実行させるために用いられる特定の数のコマンドを含みうる。
本開示に含まれる実施形態の各々は、漸進的に記載されており、それらの記載は、各実施形態において同一または同様の部分については相互に参照されてよく、各実施形態の説明は、他の実施形態と異なる部分に重点を置いている。特に、システムの実施形態に関しては、基本的に方法の実施形態と同様であるため、比較的簡単な記載になっており、関連する態様については、方法の実施形態の説明の一部を参照できる。上述のシステムの実施形態は概略にすぎず、別個の部分として本明細書に記載した要素は、物理的に別個であっても別個でなくてもよく、要素として図示した部分は、物理的な要素であってもなくてもよく、すなわち、それらは、1つの場所に配置されてもよいし、複数のネットワーク要素上に分散されてもよい。これらの実施形態の目的を達成するための実際の要件に基づいて、上述の一部またはすべてが選択されてよい。当業者であれば、創造的な作業を費やすことなく理解および実施できる。
本開示は、多くの汎用または専用コンピュータシステム環境または構成で利用できる。これらの例は、パーソナルコンピュータ、サーバ、ハンドヘルドデバイスまたは携帯型装置、タブレット型の装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家庭用電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記のシステムまたは装置の内の任意のものを備える分散型コンピュータ環境などを含む。
本開示は、コンピュータによって実行されるコンピュータ実行可能なコマンド(プログラムモジュールなど)の一般的なコンテキストで記述されてよい。一般に、プログラムモジュールは、特定のタスクの実行または特定の抽象データ型の実施のためのルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを備える。本開示は、分散型コンピュータ環境で実施されてもよく、かかる分散型コンピュータ環境では、通信ネットワークを介して接続されたリモート処理装置によってタスクが実行される。分散型コンピュータ環境において、プログラムモジュールは、記憶装置を備えるローカルまたはリモートコンピュータの記憶媒体に格納されうる。
上述の記載は、本開示を実施する具体的な手段にすぎず、当業者が、本開示の原理から逸脱することなく、多くの変更および変形を行うことが可能であり、かかる変更および変形も本開示の保護の範囲内と見なされるべきであることが指摘される。
上述の実施形態は、理解しやすいようにいくぶん詳しく説明されているが、本発明は、提供された詳細事項に限定されるものではない。本発明を実施する多くの代替方法が存在する。開示された実施形態は、例示であり、限定を意図するものではない。

Claims (23)

  1. 検索を容易にする方法であって、
    検索クエリおよび対応する情報を検索情報ログに格納する工程と、
    1または複数の格納された検索情報ログに少なくとも部分的に基づいて、カテゴリ分布単語リストを生成する工程と、
    リトリーブされた属性単語リストに少なくとも部分的に基づいて、前記カテゴリ分布単語リストを処理する工程と、
    前記処理されたカテゴリ分布単語リストに関連付けられている検索語に対応する重み付けを決定する工程と、
    を備える、方法。
  2. 請求項1に記載の方法であって、さらに、前記処理されたカテゴリ分布単語リストに関連付けられている前記検索語に対応する前記決定された重み付けを格納する工程を備える、方法。
  3. 請求項2に記載の方法であって、さらに、
    次の検索クエリを受信する工程と、
    前記次の検索クエリに関連する1または複数の検索語に対応する検索語重み付けをリトリーブする工程と、
    前記次の検索クエリに関連する前記1または複数の検索語を用いて、インデックス化された情報を検索する工程と、
    前記リトリーブされた検索語重み付けに少なくとも部分的に基づいて、前記1または複数の検索語に対応する前記インデックス化された情報を順位付けて提示する工程と、
    を備える、方法。
  4. 請求項3に記載の方法であって、さらに、前記次の検索クエリを構文解析して1または複数の検索語にする工程を備える、方法。
  5. 請求項1に記載の方法であって、前記検索クエリに対応する前記情報は、1または複数の検索語、前記検索クエリに応じて返された検索結果に関連する1または複数の選択、ならびに、前記1または複数の検索語に対応する1または複数の検索カテゴリ、の内の1または複数を含む、方法。
  6. 請求項1に記載の方法であって、前記カテゴリ分布単語リストに関連するエントリは、検索語と、対応する1または複数の検索カテゴリと、前記1または複数の検索カテゴリに対応する検索確率とを含む、方法。
  7. 請求項1に記載の方法であって、前記リトリーブされた属性単語リストは、関連する電子商取引ウェブサイトで販売される1または複数の製品に関する情報を含む、方法。
  8. 請求項1に記載の方法であって、リトリーブされた属性単語リストに少なくとも部分的に基づいて、前記カテゴリ分布単語リストを処理する工程は、
    前記カテゴリ分布単語リストに関連付けられている検索語が前記属性単語リストで見つかるか否かを判定する工程と、
    前記検索語が前記属性単語リストで見つかった場合、前記検索語に関連する検索確率が所定の閾値確率を超えるか否かを判定し、前記検索確率が前記所定の閾値確率を超えない場合、関連する前記検索語をフィルタ除去する工程と、
    前記検索語が前記属性単語リストで見つからなかった場合、前記検索語に関連するすべての検索カテゴリに関して前記検索語を均一化する工程と、
    を含む、方法。
  9. 請求項1に記載の方法であって、検索語に対応する重み付けを決定する工程は、前記検索語に対応する1または複数の検索カテゴリに対応する1または複数の確率に少なくとも部分的に基づいて、前記検索語に関連するエントロピ値を計算する工程を含む、方法。
  10. 請求項9に記載の方法であって、さらに、前記カテゴリ分布単語リストに関連付けられている前記検索語を種類に分類する工程と、前記検索語の前記分類された種類に少なくとも部分的に基づいて、前記検索語に対応する前記重み付けを調整する工程と、を備える、方法。
  11. 請求項3に記載の方法であって、前記インデックス化された情報を順位付けて提示する工程は、より高い重み付けに対応する第1の検索語に、より低い重み付けに対応する第2の検索語よりも高い順位を与える工程を含む、方法。
  12. システムであって、
    プロセッサであって、
    検索クエリおよび対応する情報を検索情報ログに格納し、
    1または複数の格納された検索情報ログに少なくとも部分的に基づいて、カテゴリ分布単語リストを生成し、
    リトリーブされた属性単語リストに少なくとも部分的に基づいて、前記カテゴリ分布単語リストを処理し、
    前記処理されたカテゴリ分布単語リストに関連付けられている検索語に対応する重み付けを決定することを実行するように構成されているプロセッサと、
    前記プロセッサに接続され、前記プロセッサに命令を提供するよう構成されているメモリと、
    を備える、システム。
  13. 請求項12に記載のシステムであって、前記プロセッサは、さらに、前記処理されたカテゴリ分布単語リストに関連付けられている前記検索語に対応する前記決定された重み付けを格納するように構成されている、システム。
  14. 請求項13に記載のシステムであって、前記プロセッサは、さらに、
    次の検索クエリを受信し、
    前記次の検索クエリに関連する1または複数の検索語に対応する検索語重み付けをリトリーブし、
    前記次の検索クエリに関連する前記1または複数の検索語を用いて、インデックス化された情報を検索し、
    前記リトリーブされた検索語重み付けに少なくとも部分的に基づいて、前記1または複数の検索語に対応する前記インデックス化された情報を順位付けて提示するように構成されている、システム。
  15. 請求項14に記載のシステムであって、前記プロセッサは、さらに、前記次の検索クエリを構文解析して1または複数の検索語にするように構成されている、システム。
  16. 請求項12に記載のシステムであって、前記検索クエリに対応する前記情報は、1または複数の検索語、前記検索クエリに応じて返された検索結果に関連する1または複数の選択、ならびに、前記1または複数の検索語に対応する1または複数の検索カテゴリ、の内の1または複数を含む、システム。
  17. 請求項12に記載のシステムであって、前記カテゴリ分布単語リストに関連するエントリは、検索語と、対応する1または複数の検索カテゴリと、前記1または複数の検索カテゴリに対応する検索確率とを含む、システム。
  18. 請求項12に記載のシステムであって、前記リトリーブされた属性単語リストは、関連する電子商取引ウェブサイトで販売される1または複数の製品に関する情報を含む、システム。
  19. 請求項12に記載のシステムであって、リトリーブされた属性単語リストに少なくとも部分的に基づく前記カテゴリ分布単語リストの処理において、前記プロセッサは、
    前記カテゴリ分布単語リストに関連付けられている検索語が前記属性単語リストで見つかるか否かを判定し、
    前記検索語が前記属性単語リストで見つかった場合、前記検索語に関連する検索確率が所定の閾値確率を超えるか否かを判定し、前記検索確率が前記所定の閾値確率を超えない場合、関連する前記検索語をフィルタ除去し、
    前記検索語が前記属性単語リストで見つからなかった場合、前記検索語に関連するすべての検索カテゴリに関して前記検索語を均一化するように構成されている、システム。
  20. 請求項12に記載のシステムであって、検索語に対応する重み付けの決定において、前記プロセッサは、前記検索語に対応する1または複数の検索カテゴリに対応する1または複数の確率に少なくとも部分的に基づいて、前記検索語に関連するエントロピ値を計算するように構成されている、システム。
  21. 請求項20に記載のシステムであって、前記プロセッサは、さらに、前記カテゴリ分布単語リストに関連付けられている前記検索語を種類に分類し、前記検索語の前記分類された種類に少なくとも部分的に基づいて、前記検索語に対応する前記重み付けを調整するように構成されている、システム。
  22. 請求項14に記載のシステムであって、前記インデックス化された情報を順位付けて提示することにおいて、前記プロセッサは、より高い重み付けに対応する第1の検索語に、より低い重み付けに対応する第2の検索語よりも高い順位を与えるように構成されている、システム。
  23. コンピュータプログラム製品であって、前記コンピュータプログラム製品は、コンピュータ読み取り可能な記憶媒体内に具現化され、
    検索クエリおよび対応する情報を検索情報ログに格納するためのコンピュータ命令と、
    1または複数の格納された検索情報ログに少なくとも部分的に基づいて、カテゴリ分布単語リストを生成するためのコンピュータ命令と、
    リトリーブされた属性単語リストに少なくとも部分的に基づいて、前記カテゴリ分布単語リストを処理するためのコンピュータ命令と、
    前記処理されたカテゴリ分布単語リストに関連付けられている検索語に対応する重み付けを決定するためのコンピュータ命令と、
    を備える、コンピュータプログラム製品。
JP2013515323A 2010-06-18 2011-06-17 検索語重み付けの決定および利用 Active JP5860456B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN201010207880.1 2010-06-18
CN2010102078801A CN102289436B (zh) 2010-06-18 2010-06-18 确定搜索词权重值方法及装置、搜索结果生成方法及装置
US13/134,825 US20110314005A1 (en) 2010-06-18 2011-06-16 Determining and using search term weightings
US13/134,825 2011-06-16
PCT/US2011/001093 WO2011159361A1 (en) 2010-06-18 2011-06-17 Determining and using search term weightings

Publications (3)

Publication Number Publication Date
JP2013528881A true JP2013528881A (ja) 2013-07-11
JP2013528881A5 JP2013528881A5 (ja) 2014-02-13
JP5860456B2 JP5860456B2 (ja) 2016-02-16

Family

ID=45329590

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013515323A Active JP5860456B2 (ja) 2010-06-18 2011-06-17 検索語重み付けの決定および利用

Country Status (6)

Country Link
US (1) US20110314005A1 (ja)
EP (1) EP2583190A4 (ja)
JP (1) JP5860456B2 (ja)
CN (1) CN102289436B (ja)
HK (1) HK1161385A1 (ja)
WO (1) WO2011159361A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015511039A (ja) * 2012-03-15 2015-04-13 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 製品情報の公開
JP2016110260A (ja) * 2014-12-03 2016-06-20 株式会社Nttドコモ コンテンツ検索結果提供システム及びコンテンツ検索結果提供方法
JPWO2016147401A1 (ja) * 2015-03-19 2017-06-08 株式会社東芝 分類装置、方法及びプログラム
JP2019219731A (ja) * 2018-06-15 2019-12-26 Zホールディングス株式会社 情報処理装置、情報処理方法、およびプログラム

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9311650B2 (en) 2012-02-22 2016-04-12 Alibaba Group Holding Limited Determining search result rankings based on trust level values associated with sellers
CN103488648B (zh) * 2012-06-13 2018-03-20 阿里巴巴集团控股有限公司 一种多语种混合检索方法和系统
WO2014002549A1 (ja) * 2012-06-27 2014-01-03 楽天株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN103678365B (zh) * 2012-09-13 2017-07-18 阿里巴巴集团控股有限公司 数据的动态获取方法、装置及系统
US9600529B2 (en) * 2013-03-14 2017-03-21 Wal-Mart Stores, Inc. Attribute-based document searching
JP6027473B2 (ja) * 2013-03-25 2016-11-16 株式会社Nttドコモ コンテンツ検索結果提供装置、コンテンツ検索結果提供方法、及びコンテンツ検索結果提供システム
CN104077327B (zh) * 2013-03-29 2018-01-19 阿里巴巴集团控股有限公司 核心词重要性识别方法和设备及搜索结果排序方法和设备
CN103226601B (zh) * 2013-04-25 2019-03-29 百度在线网络技术(北京)有限公司 一种图片搜索的方法和装置
CN103559313B (zh) * 2013-11-20 2018-02-23 北京奇虎科技有限公司 搜索方法及装置
CN104933047B (zh) * 2014-03-17 2020-02-04 北京奇虎科技有限公司 一种确定搜索词的价值的方法和装置
CN103838883A (zh) * 2014-03-31 2014-06-04 上海久科信息技术有限公司 智能sku匹配方法
CN105320706B (zh) * 2014-08-05 2018-10-09 阿里巴巴集团控股有限公司 搜索结果的处理方法和装置
CN104462279B (zh) * 2014-11-26 2018-05-18 北京国双科技有限公司 分析对象特征信息的获取方法和装置
CN104484385B (zh) * 2014-12-10 2018-05-15 北京奇虎科技有限公司 基于稀缺词提供搜索结果项的方法及系统
CN105989040B (zh) * 2015-02-03 2021-02-09 创新先进技术有限公司 智能问答的方法、装置及系统
CN105989156B (zh) * 2015-03-03 2019-12-17 阿里巴巴集团控股有限公司 一种用于提供搜索结果的方法、设备及系统
CN106202127B (zh) * 2015-05-08 2020-02-11 深圳市腾讯计算机系统有限公司 一种垂直搜索引擎对检索请求的处理方法及装置
CN105528430B (zh) * 2015-12-10 2019-05-31 北京奇虎科技有限公司 一种确定搜索项的权重的方法和装置
CN105488209B (zh) * 2015-12-11 2019-06-07 北京奇虎科技有限公司 一种词权重的分析方法及装置
CN105608123A (zh) * 2015-12-15 2016-05-25 合一网络技术(北京)有限公司 确定搜索词权重的方法和装置
CN105975459B (zh) * 2016-05-24 2018-09-21 北京奇艺世纪科技有限公司 一种词项的权重标注方法和装置
CN106383910B (zh) * 2016-10-09 2020-02-14 合一网络技术(北京)有限公司 搜索词权重的确定方法、网络资源的推送方法及装置
CN106649606B (zh) * 2016-11-29 2020-03-31 华为技术有限公司 优化搜索结果的方法及装置
CN106874492B (zh) * 2017-02-23 2021-01-26 北京京东尚科信息技术有限公司 搜索方法和装置
CN107766400A (zh) * 2017-05-05 2018-03-06 平安科技(深圳)有限公司 文本检索方法及系统
CN107870984A (zh) * 2017-10-11 2018-04-03 北京京东尚科信息技术有限公司 识别搜索词的意图的方法和装置
CN107885783B (zh) * 2017-10-17 2020-11-03 北京京东尚科信息技术有限公司 获取搜索词高相关分类的方法和装置
CN109937410B (zh) * 2017-10-25 2021-02-23 华为技术有限公司 核心调度方法和终端
CN107958406A (zh) * 2017-11-30 2018-04-24 北京小度信息科技有限公司 查询数据的获取方法、装置及终端
CN108776679B (zh) * 2018-05-30 2021-12-07 百度在线网络技术(北京)有限公司 一种搜索词的分类方法、装置、服务器及存储介质
CN110827106A (zh) * 2018-08-08 2020-02-21 北京京东尚科信息技术有限公司 构建搜索模型的方法及装置以及商品搜索方法及装置
CN109710796A (zh) * 2019-01-14 2019-05-03 Oppo广东移动通信有限公司 基于语音的图片搜索方法、装置、存储介质及终端
CN109857938B (zh) * 2019-01-30 2020-07-28 杭州太火鸟科技有限公司 基于企业信息的搜索方法、搜索装置及计算机存储介质
KR102425770B1 (ko) * 2020-04-13 2022-07-28 네이버 주식회사 급상승 검색어 제공 방법 및 시스템
CN113590755A (zh) * 2021-08-02 2021-11-02 北京小米移动软件有限公司 词权重的生成方法、装置、电子设备及存储介质
CN113836396A (zh) * 2021-08-31 2021-12-24 深圳市世强元件网络有限公司 一种行业搜索领域收窄检索的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
JP2004005742A (ja) * 1995-01-11 2004-01-08 Koninkl Philips Electronics Nv 文書全文検索用ユーザインタフェース
JP2005182817A (ja) * 2003-12-16 2005-07-07 Microsoft Corp クエリレコグナイザ
JP2005522784A (ja) * 2002-04-10 2005-07-28 シーネット・ネットワークス・インコーポレイテッド オンライン購入システム用コンテンツ集約方法及び装置
US20080097982A1 (en) * 2006-10-18 2008-04-24 Yahoo! Inc. System and method for classifying search queries

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7082426B2 (en) * 1993-06-18 2006-07-25 Cnet Networks, Inc. Content aggregation method and apparatus for an on-line product catalog
US6675159B1 (en) * 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
WO2005017682A2 (en) * 2003-08-05 2005-02-24 Cnet Networks, Inc. Product placement engine and method
US7603349B1 (en) * 2004-07-29 2009-10-13 Yahoo! Inc. User interfaces for search systems using in-line contextual queries
US7580926B2 (en) * 2005-12-01 2009-08-25 Adchemy, Inc. Method and apparatus for representing text using search engine, document collection, and hierarchal taxonomy
US7657506B2 (en) * 2006-01-03 2010-02-02 Microsoft International Holdings B.V. Methods and apparatus for automated matching and classification of data
US7814112B2 (en) * 2006-06-09 2010-10-12 Ebay Inc. Determining relevancy and desirability of terms
US20080059458A1 (en) * 2006-09-06 2008-03-06 Byron Robert V Folksonomy weighted search and advertisement placement system and method
US7966309B2 (en) * 2007-01-17 2011-06-21 Google Inc. Providing relevance-ordered categories of information
US20080313142A1 (en) * 2007-06-14 2008-12-18 Microsoft Corporation Categorization of queries
CN101378187B (zh) * 2007-08-29 2012-07-18 鸿富锦精密工业(深圳)有限公司 电源保护电路
CN100557612C (zh) * 2007-11-15 2009-11-04 深圳市迅雷网络技术有限公司 一种基于搜索引擎的搜索结果排序方法及装置
US7895206B2 (en) * 2008-03-05 2011-02-22 Yahoo! Inc. Search query categrization into verticals
US7877404B2 (en) * 2008-03-05 2011-01-25 Microsoft Corporation Query classification based on query click logs
US20100138402A1 (en) * 2008-12-02 2010-06-03 Chacha Search, Inc. Method and system for improving utilization of human searchers

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005742A (ja) * 1995-01-11 2004-01-08 Koninkl Philips Electronics Nv 文書全文検索用ユーザインタフェース
JPH1125108A (ja) * 1997-07-02 1999-01-29 Matsushita Electric Ind Co Ltd 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム
JP2005522784A (ja) * 2002-04-10 2005-07-28 シーネット・ネットワークス・インコーポレイテッド オンライン購入システム用コンテンツ集約方法及び装置
JP2005182817A (ja) * 2003-12-16 2005-07-07 Microsoft Corp クエリレコグナイザ
US20080097982A1 (en) * 2006-10-18 2008-04-24 Yahoo! Inc. System and method for classifying search queries

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG201000446010; 末永高志 他: '単語の重要度評価基準の検討と医療関連文書への適用評価' 情報処理学会論文誌 Vol.3,No.2, 20100415, p.108-118, 社団法人情報処理学会 *
JPN6014029981; 末永高志 他: '単語の重要度評価基準の検討と医療関連文書への適用評価' 情報処理学会論文誌 Vol.3,No.2, 20100415, p.108-118, 社団法人情報処理学会 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015511039A (ja) * 2012-03-15 2015-04-13 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 製品情報の公開
JP2016110260A (ja) * 2014-12-03 2016-06-20 株式会社Nttドコモ コンテンツ検索結果提供システム及びコンテンツ検索結果提供方法
JPWO2016147401A1 (ja) * 2015-03-19 2017-06-08 株式会社東芝 分類装置、方法及びプログラム
US11163812B2 (en) 2015-03-19 2021-11-02 Kabushiki Kaisha Toshiba Classification apparatus and classification method
JP2019219731A (ja) * 2018-06-15 2019-12-26 Zホールディングス株式会社 情報処理装置、情報処理方法、およびプログラム
JP7140561B2 (ja) 2018-06-15 2022-09-21 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JP5860456B2 (ja) 2016-02-16
CN102289436A (zh) 2011-12-21
CN102289436B (zh) 2013-12-25
WO2011159361A1 (en) 2011-12-22
US20110314005A1 (en) 2011-12-22
HK1161385A1 (en) 2012-08-24
EP2583190A4 (en) 2016-11-30
EP2583190A1 (en) 2013-04-24

Similar Documents

Publication Publication Date Title
JP5860456B2 (ja) 検索語重み付けの決定および利用
JP5693746B2 (ja) 製品情報のランク付け
US20230359680A1 (en) Personalized search filter and notification system
KR101700352B1 (ko) 이력적 검색 결과들을 사용한 향상된 문서 분류 데이터 생성
US8751470B1 (en) Context sensitive ranking
JP5736469B2 (ja) ユーザ意図の有無に基づく検索キーワードの推薦
US9128945B1 (en) Query augmentation
JP5575902B2 (ja) クエリのセマンティックパターンに基づく情報検索
US7574426B1 (en) Efficiently identifying the items most relevant to a current query based on items selected in connection with similar queries
KR101644817B1 (ko) 탐색 결과들을 생성하는 방법
JP5661200B2 (ja) 検索情報の提供
US20110145226A1 (en) Product similarity measure
US20190311009A1 (en) Method and system for providing context based query suggestions
US20080256046A1 (en) System and method for prioritizing websites during a webcrawling process
US20080065602A1 (en) Selecting advertisements for search results
US20120072406A1 (en) Search processing method and apparatus
US20100125781A1 (en) Page generation by keyword
US20080201219A1 (en) Query classification and selection of associated advertising information
US9251262B1 (en) Identifying media queries
US20160306887A1 (en) Methods, apparatuses and systems for linked and personalized extended search
US20180060427A1 (en) Navigating a Taxonomy Using Search Queries
US20140108376A1 (en) Enhanced detection of like resources
US8423554B2 (en) Content category scoring for nodes in a linked database
US20180107720A1 (en) Dynamic assignment of search parameters to search phrases
US20090125503A1 (en) Web page categorization using graph-based term selection

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131218

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150317

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151218

R150 Certificate of patent or registration of utility model

Ref document number: 5860456

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250