JP5080544B2 - 適切な検索クエリを提示する情報処理装置、情報処理方法、および、情報処理プログラム - Google Patents

適切な検索クエリを提示する情報処理装置、情報処理方法、および、情報処理プログラム Download PDF

Info

Publication number
JP5080544B2
JP5080544B2 JP2009245839A JP2009245839A JP5080544B2 JP 5080544 B2 JP5080544 B2 JP 5080544B2 JP 2009245839 A JP2009245839 A JP 2009245839A JP 2009245839 A JP2009245839 A JP 2009245839A JP 5080544 B2 JP5080544 B2 JP 5080544B2
Authority
JP
Japan
Prior art keywords
search
word
information processing
ranking
search candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009245839A
Other languages
English (en)
Other versions
JP2011044122A (ja
Inventor
勇宇 平手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Priority to JP2009245839A priority Critical patent/JP5080544B2/ja
Publication of JP2011044122A publication Critical patent/JP2011044122A/ja
Application granted granted Critical
Publication of JP5080544B2 publication Critical patent/JP5080544B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、端末から検索キーワードを含む検索クエリを受信して情報処理を行う情報処理装置、情報処理方法、および、情報処理プログラムの技術分野に関する。より詳細には、本発明は、端末から検索キーワードを含む検索クエリを受信し、その検索クエリの適否を判定し、さらに、適切な検索クエリを提示する情報処理装置、情報処理方法、および、情報処理プログラムの技術分野に関する。
膨大なインターネット上の情報のうちユーザが欲しい情報にアクセスするために、ユーザが入力したキーワードに関連したWebページや商品等を検索する検索装置が利用されている。
しかし、検索装置において、ユーザがキーワードを入力する際のタイプミス等により、検索結果が得られない場合もある。例えば、「竜馬がゆく」に対して「竜馬が行く」などのように、正しい表記ではない入力が行われる場合の如くである。このようにユーザが入力したキーワードが間違っている場合、他の検索候補のキーワードの提示が行われている。例えば、特許文献1には、情報の検索に用いるキーワードに誤りがあり、検索結果が得られなかった場合、検索文字列の属性に基づいて辞書に含まれる単語の中から類似単語を抽出して、類似単語をユーザ端末装置に送信する単語検索装置が開示されている。
特開2005‐222244号公報
しかしながら、上記従来技術では、検索結果が得られなかった場合、検索に用いるキーワードに対する類似単語を抽出して、ユーザに送信しているため、類似しているが、ユーザが必要としていない単語を抽出する課題や、類似単語の重み付けや類似単語の順序付けが適切でないためにユーザが必要としていない単語を抽出する課題があった。そのため、ユーザにとって不要な候補のワードまで提示することとなり、ユーザフレンドリに欠ける点があった。
本発明は、このような問題に鑑みてなされたものであり、その課題の一例は、ユーザが入力した検索キーワードに関連した他の候補のワードをより適切に抽出できる情報処理装置、情報処理方法、および、情報処理プログラムを提供することを目的とする。
上記課題を解決するために、請求項1に記載の発明は、ユーザが入力した検索ワードの検索クエリを受信する受信手段と、検索クエリログを参照して前記検索ワードから検索候補ワードを抽出する検索候補ワード抽出手段と、前記検索候補ワード抽出手段によって抽出したそれぞれの前記検索候補ワードの適否スコアを算出するスコア算出手段と、前記スコアの順に前記検索候補ワードに対するランキングを行うランキング手段と、それぞれの前記検索候補ワードの前記適否スコアとそれぞれの前記検索候補ワードに対する前記ランキングに基づき、前記検索候補ワードを前記ユーザに提示すべきか否かの判定基準として前記ランキングに対する前記適否スコアの基準ラインを生成する判定基準生成手段と、前記ユーザに提示するための提示ワードであって、前記基準ラインより予め決められた閾値以上に乖離する適否スコアの前記提示ワードを前記検索候補ワードから抽出する提示ワード抽出手段と、前記提示ワードを送信する送信手段と、を備え、前記判定基準生成手段が、前記ランキングと前記適否スコアとの関連を近似する近似関数より前記基準ラインを求めることを特徴とする。
請求項に記載の発明は、請求項1記載の情報処理装置において、前記判定基準生成手段が、上位の前記ランキングのデータより、前記基準ラインを求めることを特徴とする。請求項3に記載の発明は、請求項1または請求項2に記載の情報処理装置において、前記提示ワード抽出手段が、抽出する前記提示ワードの数に上限を設けることを特徴とする。
請求項4に記載の発明は、ユーザが入力した検索ワードの検索クエリを受信する受信手段と、検索クエリログを参照して前記検索ワードから検索候補ワードを抽出する検索候補ワード抽出手段と、前記検索候補ワード抽出手段によって抽出したそれぞれの前記検索候補ワードの適否スコアを算出するスコア算出手段と、前記スコアの順に前記検索候補ワードに対するランキングを行うランキング手段と、前記ランキングと前記適否スコアとの関連を示す曲線において予め定められた第1および第2のランキングにそれぞれ対応する第1および第2の適否スコアを結んだ基準ラインを生成する判定基準生成手段と、前記判定基準生成手段により求められる基準ラインと前記曲線との差分の和が閾値以上である場合に、前記検索候補ワードのうち予め定められたランキングまでの検索候補ワードを前記ユーザに提示するための提示ワードとして抽出する提示ワード抽出手段と、前記提示ワードを送信する送信手段と、を備えたことを特徴とする。
請求項5に記載の発明は、請求項1から請求項4のいずれか1項に記載の情報処理装置において、前記スコア算出手段が、前記検索ワードと前記検索候補ワードとの類似度、ユーザによる前記検索候補ワードの使用回数の情報、および、前記検索候補ワードによる検索の検索結果数に対する重み係数に基づき、前記適否スコアを算出することを特徴とする。
請求項6に記載の発明は、請求項5に記載の情報処理装置において、前記スコア算出手
段の前記類似度と前記使用回数の情報とを調節するパラメータ調節手段を更に備えたこと
を特徴とする。
請求項7に記載の発明は、請求項1から請求項6のいずれか1項に記載の情報処理装置において、販売する商品に関連した検索ワードを記憶する検索ワード記憶手段を更に備えたことを特徴とする。
請求項8に記載の発明は、請求項1から請求項7のいずれか1項に記載の情報処理装置において、前記検索クエリに関するログを記憶する検索クエリ記憶手段を更に備え、前記スコア算出手段が、前記検索クエリ記憶手段のデータに基づき、前記適否スコアを算出すること特徴とする。
請求項9に記載の発明は、請求項1から請求項8のいずれか1項に記載の情報処理装置において、前記提示ワード抽出手段が抽出不可のとき、前記送信手段が、前記提示ワードを提示しない旨の情報を送信すること特徴とする。
請求項10に記載の発明は、請求項1から請求項9のいずれか1項に記載の情報処理装置において、前記検索ワードに対する検索に失敗したか否かの判定を行う検索成否手段を更に備え、検索に失敗した場合、前記スコア算出手段が適否スコアを算出すること特徴とする。
請求項11に記載の発明は、受信手段、検索候補ワード抽出手段、スコア算出手段、ランキング手段、判定基準生成手段、提示ワード抽出手段、および、送信手段を備える情報処理装置による情報処理方法であって、前記受信手段が、ユーザが入力した検索ワードの検索クエリを受信する受信ステップと、前記検索候補ワード抽出手段が、検索クエリログを参照して前記検索ワードから検索候補ワードを抽出する検索候補ワード抽出ステップと、前記スコア算出手段が、前記検索候補ワード抽出ステップによって抽出したそれぞれの前記検索候補ワードの適否スコアを算出するスコア算出ステップと、前記ランキング手段が、前記スコアの順に前記検索候補ワードに対するランキングを行うランキングステップと、前記判定基準生成手段が、それぞれの前記検索候補ワードの前記適否スコアとそれぞれの前記検索候補ワードに対する前記ランキングに基づき、前記検索候補ワードを前記ユーザに提示すべきか否かの判定基準として前記ランキングに対する前記適否スコアの基準ラインを生成する判定基準生成ステップと、前記提示ワード抽出手段が、前記ユーザに提示するための提示ワードであって、前記基準ラインより予め決められた閾値以上に乖離する適否スコアの前記提示ワードを前記検索候補ワードから抽出する提示ワード抽出ステップと、前記送信手段が、前記提示ワードを送信する送信ステップと、を含み、前記判定基準生成ステップでは、前記判定基準生成手段が、前記ランキングと前記適否スコアとの関連を近似する近似関数より前記基準ラインを求めることを特徴とする。
請求項12に記載の発明は、コンピュータを、ユーザが入力した検索ワードの検索クエリを受信する受信手段、検索クエリログを参照して前記検索ワードから検索候補ワードを抽出する検索候補ワード抽出手段、前記検索候補ワード抽出手段によって抽出したそれぞれの前記検索候補ワードの適否スコアを算出するスコア算出手段、前記スコアの順に前記検索候補ワードに対するランキングを行うランキング手段と、それぞれの前記検索候補ワードの前記適否スコアとそれぞれの前記検索候補ワードに対する前記ランキングに基づき、前記検索候補ワードを前記ユーザに提示すべきか否かの判定基準として前記ランキングに対する前記適否スコアの基準ラインを生成する判定基準生成手段、前記ユーザに提示するための提示ワードであって、前記基準ラインより予め決められた閾値以上に乖離する適否スコアの前記提示ワードを前記検索候補ワードから抽出する提示ワード抽出手段、および、前記提示ワードを送信する送信手段として機能させ、前記判定基準生成手段が、前記ランキングと前記適否スコアとの関連を近似する近似関数より前記基準ラインを求めるように機能させることを特徴とする。また、請求項13に記載の発明は、受信手段、検索候補ワード抽出手段、スコア算出手段、ランキング手段、判定基準生成手段、提示ワード抽出手段、および、送信手段を備える情報処理装置による情報処理方法であって、前記受信手段が、ユーザが入力した検索ワードの検索クエリを受信する受信ステップと、前記検索候補ワード抽出手段が、検索クエリログを参照して前記検索ワードから検索候補ワードを抽出する検索候補ワード抽出ステップと、前記スコア算出手段が、前記検索候補ワード抽出ステップによって抽出したそれぞれの前記検索候補ワードの適否スコアを算出するスコア算出ステップと、前記ランキング手段が、前記スコアの順に前記検索候補ワードに対するランキングを行うランキングステップと、前記判定基準生成手段が、前記ランキングと前記適否スコアとの関連を示す曲線において予め定められた第1および第2のランキングにそれぞれ対応する第1および第2の適否スコアを結んだ基準ラインを生成する判定基準生成ステップと、前記提示ワード抽出手段が、前記判定基準生成手段により求められる基準ラインと前記曲線との差分の和が閾値以上である場合に、前記検索候補ワードのうち予め定められたランキングまでの検索候補ワードを前記ユーザに提示するための提示ワードとして抽出する提示ワード抽出ステップと、前記送信手段が、前記提示ワードを送信する送信ステップと、を含むことを特徴とする。また、請求項14に記載の発明は、コンピュータを、ユーザが入力した検索ワードの検索クエリを受信する受信手段、検索クエリログを参照して前記検索ワードから検索候補ワードを抽出する検索候補ワード抽出手段、前記検索候補ワード抽出手段によって抽出したそれぞれの前記検索候補ワードの適否スコアを算出するスコア算出手段、前記スコアの順に前記検索候補ワードに対するランキングを行うランキング手段、前記ランキングと前記適否スコアとの関連を示す曲線において予め定められた第1および第2のランキングにそれぞれ対応する第1および第2の適否スコアを結んだ基準ラインを生成する判定基準生成手段、前記判定基準生成手段により求められる基準ラインと前記曲線との差分の和が閾値以上である場合に、前記検索候補ワードのうち予め定められたランキングまでの検索候補ワードを前記ユーザに提示するための提示ワードとして抽出する提示ワード抽出手段、および、前記提示ワードを送信する送信手段として機能させることを特徴とする。
本発明によれば、ユーザが入力した検索ワードの検索クエリを受信し、検索クエリログを参照して検索ワードから検索候補ワードを抽出し、検索候補ワード抽出手段によって抽出したそれぞれの検索候補ワードの適否スコアを算出し、それぞれの前記検索候補ワードの適否スコアに基づき、検索候補ワードをユーザに提示すべきか否かの判定基準を求め、判定基準に基づき、検索候補ワードからユーザに提示する提示ワードを抽出し、提示ワードを送信することにより、上位に高スコアの検索候補ワードが集中している場合と、集中していない場合を峻別でき、集中している場合に、その集中している高スコアの検索候補ワードを提示ワードとして抽出することができる。従って、上位ランキングに集中している高スコアの候補のワードを、ユーザが入力した検索キーワードに関連した他の候補のワードとして、より適切にユーザに提示できる。
本発明に係る第1実施形態に係る情報処理サーバシステムの概要構成例を示す模式図である。 図1の検索サーバの概要構成の一例を示すブロック図である。 図1の情報処理サーバの概要構成の一例を示すブロック図である。 図1の情報処理サーバにおける動作例を示すフローチャートである。 ランキング−スコア・グラフにおける判定基準生成手段の一例を示す説明図である。 図1の情報処理サーバにおける適否スコアを算出する動作例のサブルーチンを示すフローチャートである。 入力キーワードにおけるランキング−スコアの結果の一例を示す線図である。 入力キーワードにおけるランキング−スコアの結果の一例を示す線図である。 入力キーワードに対するランキング−スコアの結果の一例を示す線図である。 入力キーワードに対するランキング−スコアの結果の一例を示す線図である。 入力キーワードに対するランキング−スコアの結果の一例を示す線図である。 入力キーワードに対するランキング−スコアの結果の一例を示す線図である。 ランキング−スコア・グラフのパラメータに対する変化の様子を示す説明図である。 適否スコアを算出するためのアベイラビリティのパターンの一例を示す線図である。 適否スコアを算出するためのアベイラビリティのパターンの一例を示す線図である。 適否スコアを算出するためのアベイラビリティのパターンの一例を示す線図である。 適否スコアを算出するためのアベイラビリティのパターンの一例を示す線図である。 適否スコアを算出するためのアベイラビリティのパターンの一例を示す線図である。 適否スコアを算出するためのアベイラビリティのパターンの一例を示す線図である。 適否スコアを算出するためのアベイラビリティのパターンの一例を示す線図である。 適否スコアを算出するためのアベイラビリティのパターンの一例を示す線図である。 ランキング−スコアのグラフにおける判定基準生成手段の他の例を示す説明図である。 本発明に係る第2実施形態における動作例を示すフローチャートである。 ランキング−スコア・グラフにおける判定基準生成手段の一例を示す説明図である。
以下、図面を参照して本発明を実施するための最良の形態について説明する。
(第1実施形態)
まず、本発明の第1実施形態に係る情報処理サーバシステムの概要構成および機能について、図に基づき説明する。
図1は、本発明に係る実施形態に係る情報処理サーバシステムの概要構成例を示す模式図である。
図1に示すように、情報処理サーバシステム1は、ユーザが入力したキーワード(検索ワード)をユーザの端末3から受信し、検索ワードに基づき検索する検索サーバ10と、検索ワードに対する他の候補のワードを求め、送信する情報処理サーバ20と、を備え、これらのサーバは、ローカルエリアネットワーク等により接続されている。
ユーザが使用する端末3は、パーソナルコンピュータや携帯型無線電話機やPDA(Personal Digital Assistant)等の携帯端末であり、キーワード等の検索ワードの入力を受け付けたり、検索結果等を出力したりする。情報処理サーバシステム1と端末3とは、ネットワーク5により接続されている。なお、ネットワーク5は、例えば、インターネット、専用通信回線(例えば、CATV(Community Antenna Television)回線)、移動体通信網(無線基地局等を含む)、および、ゲートウェイ等により構築されている。また、検索サーバ10や情報処理サーバ20等は、別々のサイトにあり、ネットワーク5により接続されていてもよい。
次に、検索サーバ10の構成および機能について、図に基づき説明する。
図2は、検索サーバの概要構成の一例を示すブロック図である。
図2に示すように、コンピュータとして機能する検索サーバ10は、制御部11と、入出力部12と、通信部13と、ドライブ部14と、検索データベース部15と、インターフェース部16と、を有する。制御部11とインターフェース部16とは、システムバス17を介して接続されている。そして、検索サーバ10は、検索エンジンとして機能し、受信した検索クエリに基づき、Webページ等の検索対象を検索して、検索結果を返す。
制御部11は、CPU(Central Processing Unit)11aと、ROM(Read Only Memory)11bと、RAM(Random Access Memory)11cとを有し、検索サーバ10全体を制御したり検索の処理を行ったりする。
入出力部12は、キーボード、マウス等により、オペレータ等からの操作指示の入力を受け付けたり、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ等の表示画面に文字や画像等の情報を出力したりする。
通信部13は、ネットワーク5に接続して端末3等との通信状態を制御したり、ローカルエリアネットワーク(図示せず)に接続して、情報処理サーバ20等の他のサーバとデータの送受信を行ったりする。
ドライブ部14は、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disc)等からデータ等を読み出したり、データ等を記録したりする。
検索データベース部15は、例えば、ハードディスクドライブ等であり、各種プログラムおよびデータ等を記憶し、特に、本実施形態を実行するためのプログラムやWebページから集めたキーワードやインターネット等の市場で販売している商品等の情報が記憶されている。検索データベース部15には、販売する商品に関連した検索ワードが記憶されている。このように検索データベース部15は、販売する商品に関連した検索ワードを記憶する検索ワード記憶手段の一例として機能する。
入出力インターフェース部16は、入出力部12から検索データベース部15と制御部11との間のインターフェース処理を行う。
次に、情報処理サーバ20の構成および機能について、図に基づき説明する。図3は、情報処理サーバの概要構成の一例を示すブロック図である。
図3に示すように、コンピュータとして機能する情報処理サーバ20は、制御部21と、入出力部22と、通信部23と、ドライブ部24と、検索クリエログデータベース部25と、インターフェース部26と、を有する。制御部21とインターフェース部26とは、システムバス27を介して接続されている。そして、情報処理サーバ20は、ユーザが入力した検索ワードに対する検索候補ワードから、ユーザに提示する提示ワードを抽出する情報処理装置の一例として機能する。
制御部21は、CPU21aと、ROM21bと、RAM21cとを有し、情報処理サーバ20全体を制御したり、ユーザが入力した検索ワードから検索候補ワードを抽出したり、検索候補ワードの適否スコアを算出したり、適否スコアの順に検索候補ワードに対するランキングを行ったりする。
入出力部22は、検索サーバ10の入出力部12とほぼ同じ構成および機能を有する。
通信部23は、ネットワーク5に接続して端末3等との通信状態を制御したり、ローカルエリアネットワークに接続して、検索サーバ10等の他のサーバとデータの送受信を行ったりする。
ドライブ部24は、検索サーバ10のドライブ部14とほぼ同じ構成および機能を有する。
検索クエリログデータベース部25は、例えば、ハードディスクドライブ等であり、各種プログラムおよびデータ等を記憶し、特に、本実施形態を実行するためのプログラムやユーザが入力した検索ワードの検索クエリに関するログや検索ワード毎の頻度等の統計処理されたデータを記憶している。このように検索クエリログデータベース部25は、検索クエリに関するログを記憶する検索クエリ記憶手段の一例として機能する。
入出力インターフェース部26は、入出力部22から検索クエリログデータベース部25と制御部21との間のインターフェース処理を行う。
次に、情報処理サーバ20の制御部21が行う検索候補ワードに対する適否スコアの計算の式について説明する。
ユーザが入力した検索ワードuに対する検索候補ワードwの適否スコアは、
である。
ここで、P(w)は、検索候補ワードwが、検索クエリログデータベース部25の検索ログデータにおいて、どのくらい検索されているかの生起頻度に関係し、例えば、次式で表現される。
なお、Occ.Count(w)は、検索クエリログにおける検索候補ワードwの出現回数(ユーザの使用回数)である。検索クエリログデータベース部25の検索クエリログデータを使用する場合、P(w)が高いワードは、検索でよく入力される一般的な単語である。
また、Distance(w,u)は、検索ワードuと検索候補ワードwとの距離であり、これらがどのくらい似ているかを示す指標(類似度の一例)であり、例えば、次式で表現される。
なお、Dist(w,u)は、検索候補ワードwと検索ワードuとのJaro−Winkler距離であり、Dist.Yomi(w,u)は、検索候補ワードwの読みと検索ワードuの読みとのJaro−Winkler距離である。係数αと係数βとは、α+β=1の関係があり、読みに重きを置きたいとき係数βの割合を大きくする。なお、Distance(w,u)は、距離として0〜1で表現できるJaro−Winkler距離が好ましいが、Jaro−Winkler距離に限らず、レーベンシュタイン距離や検索ワードuと検索候補ワードwとの類似度を表す指標であってもよい。
また、Availability(w)は、検索候補ワードwによる検索の検索結果数(検索ヒット数)に対する重み係数であり、例えば、次式で表現される。
ここで、#of Search Result(w)は、検索候補ワードwの検索結果数である。なお、アベイラビリティ(Availability)のバリエーションについては後述する。
また、γおよびδは、スコアを調整するためのパラメータである。
パラメータγは、P(w)に対する調整値であり、あまり入力されないワードへの修正も許す度合いを表す。あまり入力されないワードはP(w)の値が小さくなるので、新しい言葉、新しい商品を検索で拾うことが難しい。まだあまり使われていないワードでも、できるだけ検索で拾えるようにしたい場合は、サーバ側の設定によってパラメータγの値を大きくする。
また、パラメータδは、Distance(w,u)に対する調整値であり、主に、Distance(w,u)がゼロになり、スコアの値が発散することを防止している。
次に、情報処理サーバシステムの動作例について図に基づき説明する。
図4は、情報処理サーバにおける動作例を示すフローチャートである。
図4に示すように、まず、検索サーバ10が、検索ワードを含む検索クエリを受信する(ステップS1)。具体的には検索サーバ10の制御部11が、端末3からの検索クエリを、ネットワーク5を介して通信部13から受信する。このように、検索サーバ10が、ユーザが入力した検索ワードの検索クエリを受信する受信手段の一例として機能する。
次に、検索サーバ10は、検索データベース部15のデータに基づき、受信した検索ワードに関する検索を行う(ステップS2)。具体的には、検索サーバ10の制御部11は、検索データベース部15から、検索ワードに関連付けられたWebページや商品ページ等を検索する。
次に、検索サーバ10は、検索結果がゼロ件か否かを判定する(ステップS3)。このように、検索サーバ10は、検索ワードに対する検索に失敗したか否かの判定を行う検索成否手段の一例として機能する。
検索結果がゼロ件でない場合(ステップS3;NO)、検索サーバ10は、検索結果を端末3に送信する(ステップS4)。
検索結果がゼロ件の場合(ステップS3;YES)、検索サーバ10は、検索ワードおよびその検索結果がゼロ件である情報を情報処理サーバ20に送信し、情報処理サーバ20は、検索サーバ10から検索ワードを受信し、検索ワードの検索候補ワードを抽出する(ステップS5)。具体的には、まず、情報処理サーバ20の制御部21は、検索サーバ10からの検索ワードまたは検索ワードを含む検索クエリを、インターフェース部26に接続された通信部23通して受信する。そして、膨大なワードに対してスコアを計算しなくて済むように候補をまず絞り込むため、情報処理サーバ20の制御部21は、検索クエリログデータベース部25に蓄積されているワードから、例えば、検索ワードに対して短すぎるワードや検索ワードの読みの文字列に対して読みの距離で±6語程度のワードを抽出し、検索候補ワードを生成する。なお、情報処理サーバ20等が、検索データベース部15や辞書データベース(図示せず)等にあるワードに基づき、検索候補ワードを抽出してもよい。このように、情報処理サーバ20は、ユーザが入力した検索ワードの検索クエリを受信する受信手段の一例として機能する。また情報処理サーバ20は、検索クエリログを参照して検索ワードから検索候補ワードを抽出する検索候補ワード抽出手段の一例として機能する。
次に、情報処理サーバ20は、各検索候補ワードのスコアを算出する(ステップS6)。具体的には、制御部21が、式(1)から式(4)に基づき、各検索候補ワードの適否スコアを算出する。詳しい手順は、サブルーチンにより後述する。このように情報処理サーバ20は、検索候補ワードの適否スコアを算出するスコア算出手段の一例として機能する。また情報処理サーバ20は、スコア算出手段の一例として、検索に失敗した場合、適否スコアを算出する。
適否スコアを算出した後、情報処理サーバ20は、算出された適否スコアに基づき、検索候補ワードに対してスコア順にランク付けを行う(ステップS7)。具体的には、制御部21が、適否スコアの高い順に、検索候補ワードを並べる処理を行う。そして、制御部21は、上位一定数、例えば上位50位の検索候補ワードを取り出し、検索候補ワードを更に絞る。このように、情報処理サーバ20は、適否スコアの順に検索候補ワードに対するランキングを行うランキング手段の一例として機能する。
次に、検索候補ワードを提示するか否かの判定に利用する基準ラインの決定のステップについて説明する。
図5は、ランキング−スコア・グラフにおける判定基準生成手段の一例を示す説明図である。
情報処理サーバ20は、取り出した上位の検索候補ワードのうち、適否スコアが下位ランキングのワードより基準ラインを決定する(ステップS8)。具体的には、図5に示すように、ランキングに対する相対的な適否スコアを図示したグラフにおいて、制御部21が、例えば50位と10位の適否スコアを結ぶ直線(基準ラインL)を決定する。基準ラインLは、x軸がランキング、y軸が相対的な適否スコアのグラフにおいてy=ax+bの直線の式で表現される。ここで、相対的な適否スコアは、例えば、ランキング1位の適否スコアの値で、各スコアを割った値である。なお、基準ラインLを決める際、下位の適否スコア、50位から10位の各スコアを最小二乗法により決めてもよい。このように、情報処理サーバ20は、それぞれの検索候補ワードの適否スコアとそれぞれの検索候補ワードに対するランキングに基づき、検索候補ワードをユーザに提示すべきか否かの判定基準としてランキングに対する適否スコアの基準ラインを生成する判定基準生成手段の一例として機能する。ここで、図5に示すように、下位の適否スコアは、上位の適否スコアに比べて、ランキング順で相互に近似する適否スコアになっている。
また、情報処理サーバ20は、ランキングと適否スコアとの関連を近似する近似関数より基準ラインを求める判定基準生成手段の一例として機能する。ここで、ランキングと適否スコアとの関連を近似する近似関数の一例が、50位と10位の適否スコアを結ぶ直線である。なお、近似関数として、直線(1次関数)の他に、対数関数、指数関数、2次関数や3次関数等の累乗関数、双曲線のような円錐曲線の関数等でもよい。
また情報処理サーバ20は、判定基準生成手段の一例として、ランキングと適否スコアとの関連より、ランキングに対する適否スコアの基準ラインLを求める。また、基準ラインLを10位から50位の適否スコアから求め、抽出する提示ワードの数の上限を10位に制限する処理を行ってもよい。従って、情報処理サーバ20は、提示ワード抽出手段の一例として、抽出する提示ワードの数に上限(例えば上位10位)を設けている。なお、ランキング−スコアの曲線は、適否スコアのランキング順に並べているので、広義の単調減少のグラフになる。
基準ラインLが決定した後、情報処理サーバ20は、基準ラインより閾値を決定する(ステップS9)。具体的には、制御部21が、図5に示すように、基準ラインのy軸(相対的な適否スコアの軸)との切片bの値を求め、切片bの値に、定数を掛けた値を閾値θとする。
次に、情報処理サーバ20は、基準ラインと各スコアとの差分が閾値以上か否かを判定して、提示ワードを抽出する(ステップS10)。具体的には、制御部21が、基準ラインの式にランキングの値を代入した値を各スコアから引き算をして差分を算出する。そして、差分が閾値θ以上ある適否スコアの検索候補ワードを提示ワードとして抽出する。このように、情報処理サーバ20は、ユーザに提示するための提示ワードであって、基準ラインより予め決められた閾値以上に乖離する適否スコアの提示ワードを、検索候補ワードから抽出する提示ワード抽出手段の一例として機能する。また情報処理サーバ20は、提示ワード抽出手段の一例として、基準ラインより乖離する適否スコアの提示ワードを抽出する。
差分が閾値以上の場合(ステップS10;YES)、情報処理サーバ20は、提示ワードをユーザの端末3に送信する(ステップS11)。具体的には、制御部21が、通信部23により提示ワードを端末3に送信する。このように、情報処理サーバ20は、提示ワードを送信する送信手段の一例として機能する。
差分が閾値以上でない場合(ステップS10;NO)、情報処理サーバ20は、提示ワードを提示しない旨の情報を送信する(ステップS12)。具体的には、制御部21が、通信部23により提示ワードを提示しない旨の情報を端末3に送信する。このように情報処理サーバ20が、送信手段の一例として、提示ワード抽出手段が抽出不可のとき、提示ワードを提示しない旨の情報を送信する機能を有する。なお、情報処理サーバ20が処理結果を、検索サーバ10に送信し、検索サーバ10が、検索結果と共に提示ワード等を端末3に送信してもよい。
次に、適否スコア算出のサブルーチンについて説明する。
図6は、情報処理サーバにおける適否スコアを算出する動作例のサブルーチンを示すフローチャートである。
図6に示すように、ステップS5で、検索候補ワードを抽出した後、情報処理サーバ20は、検索ワードと各候補語句との距離を算出する(ステップS20)。具体的には、制御部21が、式(3)に従い、検索ワードuと検索候補ワードwとの距離Distance(w,u)を算出する。
次に、情報処理サーバ20は、検索クリエログにおける各検索候補ワードの生起頻度を算出する(ステップS21)。具体的には、制御部21が、式(2)に従い、検索クリエログデータベース部25のデータに基づき、各検索候補ワードwに対するP(w)を算出する。このように、情報処理サーバ20は、適否スコア算出手段の一例として、検索クエリ記憶手段のデータに基づき、適否スコアを算出する。
次に、情報処理サーバ20は、各検索候補ワードの検索データベース部15における検索件数よりアベイラビリティを算出する(ステップS22)。具体的には、まず、情報処理サーバ20の制御部21が、検索サーバ10に各検索候補ワードwを送信し、検索サーバ10の制御部11が、検索データベース部15における検索件数を求め、情報処理サーバ20に各検索候補ワードwの検索件数を送信する。次に、情報処理サーバ20の制御部21が、式(4)に従い、各検索候補ワードwのアベイラビリティを算出する。
次に、情報処理サーバ20は、検索ワードと各候補語句との距離と、各検索候補ワードの生起頻度と、各検索候補ワードのアベイラビリティより、各検索候補ワードの適否スコアを算出する(ステップS23)。具体的には、制御部21が、式(1)に従い、各検索候補ワードwの適否スコアを算出する。このように、情報処理サーバ20は、スコア算出手段の一例として、検索ワードと検索候補ワードとの類似度、ユーザによる検索候補ワードの使用回数の情報、および、検索候補ワードによる検索の検索結果数に対する重み係数に基づき、適否スコアを算出する機能を有する。なお、情報処理サーバ20は、式(1)におけるパラメータγおよびδや、式(3)におけるパラメータαおよびβを予め設定しておく。このように情報処理サーバ20は、スコア算出手段の類似度と使用回数の情報とを調節するパラメータ調節手段として機能する。
このように本実施形態によれば、情報処理サーバ20は、ユーザが入力した検索ワードuの検索クエリを受信し、検索ワードuから検索候補ワードwを抽出し、検索候補ワードwの適否スコアを算出し、適否スコアの順に検索候補ワードwに対するランキングを行い、ランキングとスコアとに基づき、検索候補ワードwをユーザに提示すべきか否かの判定基準(基準ラインL)を求め、基準ラインLに基づき、検索候補ワードwからユーザに提示する提示ワードを抽出し、提示ワードを送信することにより、上位に高スコアの検索候補ワードが集中している場合と、集中していない場合を峻別でき、集中している場合に、その集中している高スコアの検索候補ワードwを提示ワードとして抽出することができる。従って、上位ランキングに集中している高スコアの候補のワードを、ユーザが入力した検索ワードに関連した他の候補のワードとして、より適切にユーザに提示できる。
また、情報処理サーバ20は、ユーザの意図を汲みこんだような適切な検索ワードの候補を提示したり、適切な数に絞ったりすることができる。特に検索結果の件数がゼロ件の場合や、検索ワードが適切でない場合、適切な検索ワードの候補を提示して、ユーザが求める情報にたどり着くことができる。
また、情報処理サーバ20が、判定基準生成手段として、ランキングと適否スコアとの関連より、ランキングに対する適否スコアの基準ラインを求め、提示ワード抽出手段として、基準ラインより乖離する適否スコアの前記提示ワードを抽出する場合、基準ラインを設けることにより、適否スコアの値により、ユーザに提示したい、より適切な候補のワードとして、提示ワードを簡易に抽出できる。
また、情報処理サーバ20が、判定基準生成手段として、ランキングと適否スコアとの関連を近似する近似関数より基準ラインを求めることにより、近似関数から外れた異常値として、候補のワードを検出しやすくなり、より適切な候補のワードをユーザに提示できる。
また、情報処理サーバ20が、提示ワード抽出手段として、抽出する提示ワードの数に上限を設ける場合、ユーザが見やすくなり、候補のワードを、適切にユーザに提示できる。
また、情報処理サーバ20が、スコア算出手段として、検索ワードと検索候補ワードとの類似度の一例の式(3)で表現できる距離Distance(w,u)、ユーザによる検索候補ワードの使用回数の情報の一例のP(w)、および、検索候補ワードによる検索の検索結果数に対する重み係数の一例のアベイラビリティに基づき、適否スコアを算出する場合、類似度以外に、検索候補ワードの使用回数やアベイラビリティにより、適否スコアを算出しているので、ユーザに提示したいより適切な候補のワードが抽出しやすくなる。特にアベイラビリティにより、情報処理サーバ20が、無駄な検索候補を提示しなくて済む。
また、情報処理サーバ20が、パラメータ調節手段として、スコア算出手段の類似度と使用回数の情報とを調節するパラメータδ、γを更に備えた場合、パラメータδ、γを調整することにより、ユーザの特性や状況に応じて、適否スコアを変えることができ、提示する提示ワードを変えることができる。
また、情報処理サーバ20が、販売する商品に関連した検索ワードを記憶する検索ワード記憶手段の一例として、検索データベース部15を更に備えた場合、特に、アベイラビリティの算出に、検索データベース部15のデータを用いて、適否スコアに反映させ、提示する提示ワードに反映させることができる。
また、情報処理サーバ20が、検索クエリに関するログを記憶する検索クエリ記憶手段の一例として検索クエリログデータベース部25を更に備え、検索クエリログデータベース部25のデータに基づき、適否スコアを算出する場合、検索クエリログデータベース部25に蓄積されているワードから検索候補ワードを抽出すると、ユーザの興味が集約されたワードに一次的に絞ることができる。特に、直近のログに基づいた場合、ユーザ達の好みが特に反映された提示ワードを抽出できる。
また、情報処理サーバ20が、提示ワードの抽出不可のとき、送信手段として、提示ワードを提示しない旨の情報を送信する場合、無関係なワードは排除することができ、ユーザに余計な情報を提示しなくて済み、ユーザフレンドリになる。
また、情報処理サーバ20が、検索ワードに対する検索に失敗したか否かの判定を行う検索成否手段を更に備え、検索に失敗したときに適否スコアを算出する場合、代わりの検索候補をユーザに提示でき、ユーザが探しているWebページや商品等にたどり着きやすくなる。なお、検索に失敗した場合とは、例えば、検索件数がゼロ件であったり、検索件数が1、2で十分な量の結果を示せなかったり等の場合である。
次に、本実施形態の実施例について説明する。
図7Aから図7Fは、様々のタイプの入力キーワード(検索ワード)に対するランキング−スコアの結果の一例を示す線図である。なお、本実施例では、基準ラインにおける切片bの値に0.1を掛けた値を閾値θとした。
図7Aの検索ワードAは、ISBN(International Standard Book Number)コードである。図7Bの検索ワードBは、ランダムな文字列である。図7Cの検索ワードCは、特定のインターネット市場で販売していない商品名等、検索データベース部15にないワードである。図7Dの検索ワードDは、表記が揺れているワードである。例えば、日本語の表記の揺れは、平仮名、カタカナ、および、漢字のいずれの表記でなされているか等の場合である。英語の表記の揺れは、centerやcentreのように米国や英国におけるスペルの違いや同義語等の場合である。図7Eの検索ワードEは、例えば、タイプミスによるワードに欠損の文字があったり、余計な文字が挿入されたりしているワードである。図7Fの検索ワードFは、キーボードから直接入力することのできない文字の入力に使用するインプットメソッドを用いた場合の変換ミスに起因するワードである。例えば、日本語における漢字変換誤り等である。
まず、図7Aから図7Cの場合は、提示する提示ワードが無い場合である。
図7Aから図7Cに示すように、下位ランキングの適否スコアがほぼ直線になっている。また、上位ランキングの適否スコアがあまり突出していなく、全体的に相対的な適否スコアが1に近い。図7Aに示す場合は、上位ランキングの適否スコアがある程度突出しているが、基準ラインの傾きaが大きくなるので、上位ランキングの検索候補ワードでも提示されない。
次に、図7Dから図7Fの場合は、提示する提示ワードがある場合である。図7Dから図7Fの場合は、少数の上位ランキングに相対的な適否スコアが高い検索候補ワードが集中している。しかも、y軸の切片bの値も小さく、傾きaの値が比較的ゼロに近く、閾値θの値も下がる。
このように本実施例は、情報処理サーバ20が、検索ワードがISBNコードやランダムな文字列や検索データベース部15にないワードの場合と、表記の揺れや、欠損の文字、変換誤り等の検索ワードに入力ミスがある場合とを峻別でき、検索候補ワードとして適切な提示ワードを示すことができることを示している。
次に、パラメータγとパラメータδの値による影響を検証した。
ここで、パラメータγに対するランキング−スコア曲線の一般的な変化を示す。図8は、ランキング−スコア・グラフのパラメータに対する変化の様子を示す説明図である。図8に示すように、パラメータγの値が大きくなるにつれて、上位ランキングに、相対的な適否スコアが高い検索候補ワードが集中する傾向がある。
本実施例の場合、δ=0.1の場合、γ=4およびγ=2のときを比べると、ランキング−スコア曲線の大きな違いは見られなかった。但し、図7Cに示すように、検索ワードCの場合、γ=4のときよりγ=2のときが、相対的な適否スコアの値が多少下がった。
また、パラメータδに関して、図7A、図7Dから図7Fの場合、パラメータδが小さくなると、下位のランキングの各相対的な適否スコアが同じぐらい下がった。一方、図7B、図7Cの場合、パラメータδに対して曲線の変化は少なかった。なお、式(1)よりパラメータδが小さくなると適否スコア(相対的なスコアでない)の値は大きくなる。
次に、本実施形態の変形例について説明する。
図9Aから図9Hは、適否スコアを算出するためのアベイラビリティのパターンの一例を示す線図である。なお、図9Aは、アベイラビリティが式(4)の場合を図式化した線図である。この場合、検索結果数が1件以上の検索候補ワードを等しく扱っている。このため、検索結果数がゼロ件以外の検索結果数の大小による適否スコアの影響度をなくしている。また、ユーザの検索回数の大小の影響度、すなわちP(w)の影響度が高まる。
次に、アベイラビリティのパターンの変形例として、図9Bの場合、検索結果数が少ない検索候補ワードの適否スコアを低くしている。検索結果数が少ない検索候補ワードの適否スコアを小さくすることにより、検索結果数が少ない検索候補ワードが提示リスト(ユーザに提示される提示ワードのリスト)の上位に出現することを抑制することができる。
また、図9Cの場合、図9Bの場合と比べ,検索結果数が少ない検索候補ワードの適否スコアを極端に低くする。この場合、検索結果数が少ない検索候補ワードが、提示リストの要素として含まれないようにすることができる。
また、図9Dの場合、検索結果数が極端に多い検索候補ワード、低い適否スコアを与える。この場合、検索結果数が極端に大きい普遍的な検索候補ワードの提示を抑制できる。
また、図9Eの場合、検索結果数が少ない領域において図9Cを採用し、検索結果数が多い領域において図9Dを採用している。この場合、検索結果数が少ない検索候補ワード、および、検索結果数が極端に大きい普遍的な検索候補ワードの提示を抑制することができる。
また、図9Fの場合、検索結果数が多い検索候補ワードであればあるほど、高い適否スコア付与する。この場合、検索結果数が多い普遍的な検索候補ワードほど、提示リストの上位ランキングに位置させることができる。
また、図9Gの場合、検索結果数が少ない検索候補ワードに、高い適否スコア付与する。この場合、検索結果数が少ないロングテールのテール部分に含まれる検索候補ワードによって、提示リストを構成させることができる。提示した検索候補ワードによって検索した場合、ピンポイントで特定された検索結果、例えば、実際に存在する商品や物品が特定さえた検索結果を得ることできる。なお、この類型に属するアベイラビリティとして、例えば、ResultNum(w)が0でアベイラビリティが1を通り、傾きがマイナスの直線や、Availability(w)=1-Log(Log(ResultNum(w)+1))等が挙げられる。ここで、ResultNum(w)は、検索候補ワードwによる検索の検索結果数である。
また、図9Hの場合、検索結果数が高い検索候補ワードに、高い適否スコア付与する。この場合、検索結果数が非常に多い、普遍的な検索候補ワードによって、提示リストを構成させることができる。
これらのように、アベイラビリティのパターンにより、検索候補ワードによる検索の検索結果数に応じて、提示させる検索候補ワードを変えることができる。なお、ユーザの特性に合わせて、アベイラビリティのパターンを変えてもよい。
次に、基準ラインLのような判定基準生成手段の他の例について図に基づいて説明する。
図10は、ランキング−スコアのグラフにおける判定基準生成手段の他の例を示す説明図である。
まず、ステップS7で、ランキングに対する適否スコアのグラフが求められた後、情報処理サーバ20は、例えば、曲線C1においてランキングが1位と50位の適否スコアを直線で結び、基準ラインL1を求める(ステップS8に対応)。次に、情報処理サーバ20は、基準ラインL1と曲線C1との差分の和を求める(ステップS9に対応)。情報処理サーバ20は、この和がある閾値以上の場合(ステップS10に対応)、例えば10位までの提示ワードを送信する(ステップS11に対応)。一方、例えば曲線C2で基準ラインL2のように、この和がある閾値以上でない場合(ステップS10に対応)、提示ワードを提示しない旨の情報を送信する(ステップS12に対応)。
なお、本実施形態において、検索サーバ10の検索結果がゼロ以外の場合でも、情報処理サーバ20が、検索候補として提示ワードをユーザに示してもよい。検索結果があっても、ユーザにとって、より適切な検索ワードが、提示ワードの中にある場合もある。
また、情報処理サーバ20が、検索データベース部15と検索エンジンとを備え、検索サーバ10の機能を備えてもよい。また、情報処理サーバ20が、ユーザ毎にδやγ等のパラメータを変えてもよい。例えば、新規ユーザは検索に慣れていないため、適切な検索ワードの入力が難しいので、パラメータγの値を大きくして積極的に提示ワードを提示してもよい。逆にパラメータγの値を小さくして、提示ワードが出にくくして、適切でない検索ワードであったことをユーザに気づかせるようにしてもよい。このように、情報処理サーバ20が、ユーザの特性に合わせて、δやγ等のパラメータを調整する。
また、複数の検索ワードが入力された場合、情報処理サーバ20が、各検索ワードに対して適否スコアを求め、各検索ワードの各検索候補ワードを提示してもよい、また、各検索候補ワードの論理積のような関連語を提示するようにしてもよい。また、情報処理サーバ20が、スペースの文字も検索ワードの一部考え、スペースを含めた検索ワードから提示ワードを求めてもよい。さらに、文章が入力された場合、情報処理サーバ20が、文節に分解して、複数の検索ワードを生成させてもよい。この場合、情報処理サーバ20が、係り受け関係等から重要語句を抽出し、これを検索ワードとしてもよい。
また、相互に近似する適否スコアに基づき、検索候補ワードをユーザに提示すべきか否かの判定基準を求める判定基準生成手段の一例として、情報処理サーバ20が、適否スコアの度数分布から標準偏差を求め、標準偏差の2倍や3倍等を判定基準としてもよい。この場合、情報処理サーバ20が、標準偏差の2倍や3倍等を外れる適否スコアを示す検索候補ワードを提示ワードとして抽出する。
(第2実施形態)
次に、本発明に係る第2実施形態について図に基づきについて説明する。
なお、情報処理サーバシステムの構成は、前記第1実施形態に係る情報処理サーバシステムと同様である。また、第1実施形態と同一または対応する部分には、同一の符号を用いて動作等を説明する。その他の実施形態および変形例も同様とする。
図11は、本発明に係る第2実施形態における動作例を示すフローチャートである。図12は、ランキング−スコア・グラフにおける判定基準生成手段の一例を示す説明図である。
なお、図11に示すように、第2実施形態の動作例についてステップS37までは、第1実施形態と同じであるので、ステップS38以降について説明する。
第1実施形態と異なり、情報処理サーバ20は、取り出した上位の検索候補ワードのうち、適否スコアが上位ランキングのワードより基準ラインを決定する(ステップS38)。具体的には、図12に示すように、ランキングに対する相対的な適否スコアを図示したグラフにおいて、制御部21が、例えば1位からn位の適否スコアの点を近似する近似関数を基準ラインL3とする。ここで、基準ラインの一例としての近似関数として、対数関数、指数関数、1次関数、2次関数や3次関数等の累乗関数、双曲線のような円錐曲線の関数等が挙げられる。近似関数は、ランキング−スコア・グラフの各点を近似したり、補間したりする関数ならばよい。近似関数を求める際、最小2乗法等の基準を利用すればよい。ここで、相対的な適否スコアは、例えば、ランキング1位の適否スコアの値で、各スコアを割った値である。なお、基準ラインLを決める際、下位の適否スコア、50位から10位の各スコアを最小二乗法により決めてもよい。
このように、情報処理サーバ20は、それぞれの検索候補ワードの適否スコアとそれぞれの検索候補ワードに対するランキングに基づき、検索候補ワードをユーザに提示すべきか否かの判定基準としてランキングに対する適否スコアの基準ラインを生成する判定基準生成手段の一例として機能する。また、情報処理サーバ20は、ランキングと適否スコアとの関連を近似する近似関数より基準ラインを求める判定基準生成手段の一例として機能する。また、情報処理サーバ20は、上位ランキングのデータより、基準ラインを求める判定基準生成手段の一例として機能する。
次に、基準ラインL3が決定した後、情報処理サーバ20は、基準ラインとランキング1位のスコアとの差分が閾値以上か否かを判定して、提示ワードを抽出する(ステップS39)。具体的には、制御部21が、基準ラインL3の式にランキングの値を代入した値をランキング1位の適否スコアから引き算をして差分を算出する。そして、差分が閾値θ以上ならば、検索候補ワードを提示ワードとして抽出する。このように、情報処理サーバ20は、ユーザに提示するための提示ワードであって、基準ラインより予め決められた閾値以上に乖離する適否スコアの提示ワードを、検索候補ワードから抽出する提示ワード抽出手段の一例として機能する。また情報処理サーバ20は、提示ワード抽出手段の一例として、基準ラインより乖離する適否スコアの提示ワードを抽出する。ここで、閾値は、例えば、適否スコアを調節するパラメータや、アベイラビリティの関数を変えて、シミュレーションにより予め求めておく。
差分が閾値以上の場合(ステップS39;YES)、情報処理サーバ20は、ランキング1位の適否スコアの提示ワードをユーザの端末3に送信する(ステップS40)。具体的には、制御部21が、通信部23によりランキング1位の適否スコアの提示ワードを端末3に送信する。このように、情報処理サーバ20は、提示ワードを送信する送信手段の一例として機能する。
差分が閾値以上でない場合(ステップS39;NO)、情報処理サーバ20は、ステップS12と同様に、提示ワードを提示しない旨の情報を送信する(ステップS41)。
このように本実施形態によれば、情報処理サーバ20は、判定基準生成手段として、ランキングと適否スコアとの関連を近似する近似関数(例えば対数関数)より基準ラインL3を求めることにより、近似関数から外れた異常値として、候補のワードを検出しやすくなり、より適切な候補のワードをユーザに提示できる。
また、情報処理サーバ20が、判定基準生成手段として、上位のランキングのデータより、基準ラインL3を求める場合、上位のランキングの中から、基準ラインL3から外れる検索候補ワードを検出できるため、更に上位のランキングにある検索候補ワードを適切に抽出できる。特に、上位のランキングのデータに対して近似関数を用いて基準ラインを求めることにより、1位のランキングの検索候補ワードが、より適切に抽出でき、ずばり1位の検索候補ワードを確実にユーザに提示できる。
なお、ステップS39において、情報処理サーバ20は、第1実施形態のように、基準ラインと各スコアとの差分が閾値以上か否かを判定して、提示ワードを抽出してもよい。上位の複数の検索候補ワードを提示することにより、幅広い候補のワードから、ユーザが適切な候補のワードを選択できるメリットがある。
また、適否スコアを算出するためのアベイラビリティ等に関しても、第1実施形態の変形例も当然、適用可能である。
さらに、本発明は、上記各実施形態に限定されるものではない。上記各実施形態は、例示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。
1:情報処理サーバシステム
10:検索サーバ
11:制御部
13:通信部
15:検索データベース(検索クエリ記憶手段)
20:情報処理サーバ(情報処理装置)
21:制御部
23:通信部
25:検索クエリログデータベース(検索クエリ記憶手段)
L、L1、L2、L3:基準ライン(判定基準生成手段)
u:検索ワード
w:検索候補ワード

Claims (14)

  1. ユーザが入力した検索ワードの検索クエリを受信する受信手段と、
    検索クエリログを参照して前記検索ワードから検索候補ワードを抽出する検索候補ワード抽出手段と、
    前記検索候補ワード抽出手段によって抽出したそれぞれの前記検索候補ワードの適否スコアを算出するスコア算出手段と、
    前記スコアの順に前記検索候補ワードに対するランキングを行うランキング手段と、
    それぞれの前記検索候補ワードの前記適否スコアとそれぞれの前記検索候補ワードに対する前記ランキングに基づき、前記検索候補ワードを前記ユーザに提示すべきか否かの判定基準として前記ランキングに対する前記適否スコアの基準ラインを生成する判定基準生成手段と、
    前記ユーザに提示するための提示ワードであって、前記基準ラインより予め決められた閾値以上に乖離する適否スコアの前記提示ワードを前記検索候補ワードから抽出する提示ワード抽出手段と、
    前記提示ワードを送信する送信手段と、
    を備え、
    前記判定基準生成手段が、前記ランキングと前記適否スコアとの関連を近似する近似関数より前記基準ラインを求めることを特徴とする情報処理装置。
  2. 請求項1に記載の情報処理装置において、
    前記判定基準生成手段が、上位の前記ランキングのデータより、前記基準ラインを求めることを特徴とする情報処理装置。
  3. 請求項1または請求項2に記載の情報処理装置において、
    前記提示ワード抽出手段が、抽出する前記提示ワードの数に上限を設けることを特徴とする情報処理装置。
  4. ユーザが入力した検索ワードの検索クエリを受信する受信手段と、
    検索クエリログを参照して前記検索ワードから検索候補ワードを抽出する検索候補ワード抽出手段と、
    前記検索候補ワード抽出手段によって抽出したそれぞれの前記検索候補ワードの適否スコアを算出するスコア算出手段と、
    前記スコアの順に前記検索候補ワードに対するランキングを行うランキング手段と、
    前記ランキングと前記適否スコアとの関連を示す曲線において予め定められた第1および第2のランキングにそれぞれ対応する第1および第2の適否スコアを結んだ基準ラインを生成する判定基準生成手段と、
    前記判定基準生成手段により求められる基準ラインと前記曲線との差分の和が閾値以上である場合に、前記検索候補ワードのうち予め定められたランキングまでの検索候補ワードを前記ユーザに提示するための提示ワードとして抽出する提示ワード抽出手段と、
    前記提示ワードを送信する送信手段と、
    を備えたことを特徴とする情報処理装置。
  5. 請求項1から請求項4のいずれか1項に記載の情報処理装置において、
    前記スコア算出手段が、前記検索ワードと前記検索候補ワードとの類似度、ユーザによる前記検索候補ワードの使用回数の情報、および、前記検索候補ワードによる検索の検索結果数に対する重み係数に基づき、前記適否スコアを算出することを特徴とする情報処理装置。
  6. 請求項5に記載の情報処理装置において、
    前記スコア算出手段の前記類似度と前記使用回数の情報とを調節するパラメータ調節手段を更に備えたことを特徴とする情報処理装置。
  7. 請求項1から請求項6のいずれか1項に記載の情報処理装置において、
    販売する商品に関連した検索ワードを記憶する検索ワード記憶手段を更に備えたことを特徴とする情報処理装置。
  8. 請求項1から請求項7のいずれか1項に記載の情報処理装置において、
    前記検索クエリに関するログを記憶する検索クエリ記憶手段を更に備え、
    前記スコア算出手段が、前記検索クエリ記憶手段のデータに基づき、前記適否スコアを算出すること特徴とする情報処理装置。
  9. 請求項1から請求項8のいずれか1項に記載の情報処理装置において、
    前記提示ワード抽出手段が抽出不可のとき、前記送信手段が、前記提示ワードを提示しない旨の情報を送信すること特徴とする情報処理装置。
  10. 請求項1から請求項9のいずれか1項に記載の情報処理装置において、
    前記検索ワードに対する検索に失敗したか否かの判定を行う検索成否手段を更に備え、
    検索に失敗した場合、前記スコア算出手段が適否スコアを算出すること特徴とする情報処理装置。
  11. 受信手段、検索候補ワード抽出手段、スコア算出手段、ランキング手段、判定基準生成手段、提示ワード抽出手段、および、送信手段を備える情報処理装置による情報処理方法であって、
    前記受信手段が、ユーザが入力した検索ワードの検索クエリを受信する受信ステップと、
    前記検索候補ワード抽出手段が、検索クエリログを参照して前記検索ワードから検索候補ワードを抽出する検索候補ワード抽出ステップと、
    前記スコア算出手段が、前記検索候補ワード抽出ステップによって抽出したそれぞれの前記検索候補ワードの適否スコアを算出するスコア算出ステップと、
    前記ランキング手段が、前記スコアの順に前記検索候補ワードに対するランキングを行うランキングステップと、
    前記判定基準生成手段が、それぞれの前記検索候補ワードの前記適否スコアとそれぞれの前記検索候補ワードに対する前記ランキングに基づき、前記検索候補ワードを前記ユーザに提示すべきか否かの判定基準として前記ランキングに対する前記適否スコアの基準ラインを生成する判定基準生成ステップと、
    前記提示ワード抽出手段が、前記ユーザに提示するための提示ワードであって、前記基準ラインより予め決められた閾値以上に乖離する適否スコアの前記提示ワードを前記検索候補ワードから抽出する提示ワード抽出ステップと、
    前記送信手段が、前記提示ワードを送信する送信ステップと、
    を含み、
    前記判定基準生成ステップでは、前記判定基準生成手段が、前記ランキングと前記適否スコアとの関連を近似する近似関数より前記基準ラインを求めることを特徴とする情報処理方法。
  12. コンピュータを、
    ユーザが入力した検索ワードの検索クエリを受信する受信手段、
    検索クエリログを参照して前記検索ワードから検索候補ワードを抽出する検索候補ワード抽出手段、
    前記検索候補ワード抽出手段によって抽出したそれぞれの前記検索候補ワードの適否スコアを算出するスコア算出手段、
    前記スコアの順に前記検索候補ワードに対するランキングを行うランキング手段と、それぞれの前記検索候補ワードの前記適否スコアとそれぞれの前記検索候補ワードに対する前記ランキングに基づき、前記検索候補ワードを前記ユーザに提示すべきか否かの判定基準として前記ランキングに対する前記適否スコアの基準ラインを生成する判定基準生成手段、
    前記ユーザに提示するための提示ワードであって、前記基準ラインより予め決められた閾値以上に乖離する適否スコアの前記提示ワードを前記検索候補ワードから抽出する提示ワード抽出手段、および、
    前記提示ワードを送信する送信手段として機能させ、
    前記判定基準生成手段が、前記ランキングと前記適否スコアとの関連を近似する近似関数より前記基準ラインを求めるように機能させることを特徴とする情報処理プログラム。
  13. 受信手段、検索候補ワード抽出手段、スコア算出手段、ランキング手段、判定基準生成手段、提示ワード抽出手段、および、送信手段を備える情報処理装置による情報処理方法であって、
    前記受信手段が、ユーザが入力した検索ワードの検索クエリを受信する受信ステップと、
    前記検索候補ワード抽出手段が、検索クエリログを参照して前記検索ワードから検索候補ワードを抽出する検索候補ワード抽出ステップと、
    前記スコア算出手段が、前記検索候補ワード抽出ステップによって抽出したそれぞれの前記検索候補ワードの適否スコアを算出するスコア算出ステップと、
    前記ランキング手段が、前記スコアの順に前記検索候補ワードに対するランキングを行うランキングステップと、
    前記判定基準生成手段が、前記ランキングと前記適否スコアとの関連を示す曲線において予め定められた第1および第2のランキングにそれぞれ対応する第1および第2の適否スコアを結んだ基準ラインを生成する判定基準生成ステップと、
    前記提示ワード抽出手段が、前記判定基準生成手段により求められる基準ラインと前記曲線との差分の和が閾値以上である場合に、前記検索候補ワードのうち予め定められたランキングまでの検索候補ワードを前記ユーザに提示するための提示ワードとして抽出する提示ワード抽出ステップと、
    前記送信手段が、前記提示ワードを送信する送信ステップと、
    を含むことを特徴とする情報処理方法。
  14. コンピュータを、
    ユーザが入力した検索ワードの検索クエリを受信する受信手段、
    検索クエリログを参照して前記検索ワードから検索候補ワードを抽出する検索候補ワード抽出手段、
    前記検索候補ワード抽出手段によって抽出したそれぞれの前記検索候補ワードの適否スコアを算出するスコア算出手段、
    前記スコアの順に前記検索候補ワードに対するランキングを行うランキング手段、
    前記ランキングと前記適否スコアとの関連を示す曲線において予め定められた第1および第2のランキングにそれぞれ対応する第1および第2の適否スコアを結んだ基準ラインを生成する判定基準生成手段、
    前記判定基準生成手段により求められる基準ラインと前記曲線との差分の和が閾値以上である場合に、前記検索候補ワードのうち予め定められたランキングまでの検索候補ワードを前記ユーザに提示するための提示ワードとして抽出する提示ワード抽出手段、および、
    前記提示ワードを送信する送信手段として機能させることを特徴とする情報処理プログラム。
JP2009245839A 2009-07-23 2009-10-26 適切な検索クエリを提示する情報処理装置、情報処理方法、および、情報処理プログラム Active JP5080544B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009245839A JP5080544B2 (ja) 2009-07-23 2009-10-26 適切な検索クエリを提示する情報処理装置、情報処理方法、および、情報処理プログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009172265 2009-07-23
JP2009172265 2009-07-23
JP2009245839A JP5080544B2 (ja) 2009-07-23 2009-10-26 適切な検索クエリを提示する情報処理装置、情報処理方法、および、情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2011044122A JP2011044122A (ja) 2011-03-03
JP5080544B2 true JP5080544B2 (ja) 2012-11-21

Family

ID=43831490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009245839A Active JP5080544B2 (ja) 2009-07-23 2009-10-26 適切な検索クエリを提示する情報処理装置、情報処理方法、および、情報処理プログラム

Country Status (1)

Country Link
JP (1) JP5080544B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101557960B1 (ko) 2013-07-15 2015-10-06 주식회사 다음카카오 핵심 키워드 선정 장치, 핵심 키워드 선정 방법 및 이를 이용한 검색 서비스 제공 방법
JP6143606B2 (ja) * 2013-08-20 2017-06-07 株式会社日立ソリューションズ東日本 データ処理装置およびデータ処理方法
CN110019650B (zh) * 2018-09-04 2024-04-05 北京京东尚科信息技术有限公司 提供搜索联想词的方法、装置、存储介质及电子设备
CN112434219A (zh) * 2020-11-24 2021-03-02 腾讯科技(北京)有限公司 基于搜索的提示词确定方法、装置、设备及存储介质
JP7008152B1 (ja) * 2021-03-04 2022-01-25 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3563682B2 (ja) * 2000-09-12 2004-09-08 日本電信電話株式会社 次検索候補単語提示方法および装置と次検索候補単語提示プログラムを記録した記録媒体
JP2005222244A (ja) * 2004-02-04 2005-08-18 Language Craft Kenkyusho:Kk 単語検索装置、単語検索方法、およびその単語検索装置を備える情報提供システム
US7158966B2 (en) * 2004-03-09 2007-01-02 Microsoft Corporation User intent discovery

Also Published As

Publication number Publication date
JP2011044122A (ja) 2011-03-03

Similar Documents

Publication Publication Date Title
US10789309B1 (en) Associating an entity with a search query
JP5170804B2 (ja) 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体
AU2015253062B2 (en) Systems and methods for displaying estimated relevance indicators for result sets of documents and for displaying query visualizations
US7769771B2 (en) Searching a document using relevance feedback
JP4746439B2 (ja) 文書検索サーバおよび文書検索方法
WO2014002512A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US20120036144A1 (en) Information and recommendation device, method, and program
US20160224621A1 (en) Associating A Search Query With An Entity
JP5080544B2 (ja) 適切な検索クエリを提示する情報処理装置、情報処理方法、および、情報処理プログラム
US9507853B1 (en) Synonym identification based on search quality
US9317606B1 (en) Spell correcting long queries
US20130268554A1 (en) Structured document management apparatus and structured document search method
CN106462613A (zh) 基于用户属性来对建议进行排名
EP2720156B1 (en) Information processing device, information processing method, program for information processing device, and recording medium
JP2004341753A (ja) 検索支援装置、検索支援方法、およびプログラム
JP2008250623A (ja) 検索システム
JP2012234340A (ja) 商品キーワード管理システム
JP2003091552A (ja) 検索要求情報抽出方法及びその実施システム並びにその処理プログラム
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP2011203776A (ja) 類似画像検索装置、方法及びプログラム
JP5139883B2 (ja) 検索システム
JP5193669B2 (ja) 検索システム
JP2012003532A (ja) クエリサジェスチョン提供装置及び方法
JP2009533767A (ja) 垂直ドメイン内で検索を実行するシステム及び方法
JP2008250625A (ja) 検索システム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120501

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120830

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150907

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5080544

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250