JP2010026640A - 次検索キーワード提示装置、次検索キーワード提示方法、及び次検索キーワード提示プログラム - Google Patents

次検索キーワード提示装置、次検索キーワード提示方法、及び次検索キーワード提示プログラム Download PDF

Info

Publication number
JP2010026640A
JP2010026640A JP2008184896A JP2008184896A JP2010026640A JP 2010026640 A JP2010026640 A JP 2010026640A JP 2008184896 A JP2008184896 A JP 2008184896A JP 2008184896 A JP2008184896 A JP 2008184896A JP 2010026640 A JP2010026640 A JP 2010026640A
Authority
JP
Japan
Prior art keywords
keyword
search
search keyword
cluster
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008184896A
Other languages
English (en)
Other versions
JP5355949B2 (ja
Inventor
Toshihiro Yamazaki
智弘 山崎
Takahiro Kawamura
隆浩 川村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008184896A priority Critical patent/JP5355949B2/ja
Priority to US12/437,584 priority patent/US8229949B2/en
Publication of JP2010026640A publication Critical patent/JP2010026640A/ja
Application granted granted Critical
Publication of JP5355949B2 publication Critical patent/JP5355949B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 情報を検索する際に、利用者の検索欲求を反映した次検索キーワードを提示する。
【解決手段】
検索キーワードを入力して(13)、検索キーワードを検索システムに送信し、検索システムが求めた前記検索キーワードを含む複数の文書を受信し(14)、表示部に表示する。複数の文書それぞれから単語毎に意味属性を解析し(17)、検索キーワードとユーザの操作を履歴情報として格納し(12)、意味属性と履歴情報に基づいて複数の文書それぞれから文書特徴情報を生成する(18)。文書特徴情報のクラスタリング処理を行ない、クラスタに含まれる複数の文書からクラスタ代表キーワードを抽出し(19)、表示部にクラスタ代表キーワードを検索キーワードの次に検索すべき次検索キーワードの候補として表示する(20)。
【選択図】 図1

Description

本発明は、ウーブページに代表される文書データベースを利用者の入力したキーワードに応じて検索し、利用者に検索結果と次に検索するべきキーワードの候補を提示する次検索キーワード提示装置、次検索キーワード提示方法、及び次検索キーワード提示プログラムに関する。
近年、パーソナルコンピュータの普及と共に、利用者が利用可能な情報データベースも増えてきた。インターネット上のサーチエンジンはキーワードを入力することで文書データベースの検索が行なわれる。このようなサーチエンジンにおいては、利用者は適切と思われるキーワードをサーチエンジンに送信し、そのキーワードを含む文書を検索結果として受け取る。しかし受け取った結果が利用者にとって思わしくない場合は、よりよい検索結果を得るために利用者は別のキーワードを追加したり、より適切と思われるキーワードに置き換えたりといった試行錯誤が必要である。そのため、サーチエンジンでは、ある入力キーワードに対して検索結果がたくさんある場合、検索結果を絞り込むための新たに追加すべきキーワードの候補の提示が行なわれている(例えば、非特許文献1。)。
多くの文書検索システムで新たに追加すべきキーワードの候補の提示が行なわれているが、常に行なわれるわけではなく入力キーワードによっては行なわれない場合も多い。また提示が行なわれる場合でも、どのような追加キーワードが提示されるかは固定されている。
Yahoo!(R)検索ヘルプ−「関連検索ワード」とは−〈URL:http://help.yahoo.co.jp/help/jp/search/web/web−17.html〉
すなわち、個々の利用者の検索欲求に対して次に検索すべきキーワードの候補として不必要なものまでが表示装置に提示されてしまうことがある。
第1の発明は検索キーワードを入力する入力部と、前記検索キーワードを検索システムに送信し、この検索システムが求めた前記検索キーワードを含む複数の文書を受信する検索制御部と、前記複数の文書を表示する表示部と、前記複数の文書それぞれから本文を抽出する本文抽出部と、前記本文の単語毎に意味属性を解析する解析部と、前記検索キーワードを履歴情報として格納する格納部と、前記意味属性と前記履歴情報に基づいて前記複数の文書それぞれから文書特徴情報を生成する生成部と、前記複数の文書それぞれの文書特徴情報をクラスタにし、各クラスタに含まれる複数の文書からクラスタ代表キーワードを抽出するクラスタ代表キーワード抽出部とを具備し、前記表示部は、前記クラスタ代表キーワードを前記検索キーワードの次に検索すべき次検索キーワードの候補として表示することを特徴する次検索キーワード提示装置である。
また、第2の発明では前記格納部が前記次検索キーワードの候補に対する操作を履歴情報としてさらに格納することを特徴とする請求項1記載の次検索キーワード提示装置。
また、第3の発明では前記検索システムが外部に設けられ、前記検索制御部から入力した前記検索キーワードを受信し、前記検索キーワードを含む複数の文書を前記検索制御部に送信することを特徴とする請求項1記載の次検索キーワード提示装置である。
また、第4の発明では前記解析部が単語とその意味属性を列挙した辞書、あるいは語頭又は語尾の表現とその属性のルールを用いて前記本文の単語毎の意味属性を解析することを特徴とする請求項1記載の次検索キーワード提示装置である。
また、第5の発明では前記生成部が前記履歴情報に含まれる前記検索キーワードの意味属性解析を行ない、文書特徴キーワードを抽出し、前記文書特徴キーワードの意味属性毎に前記辞書または前記ルールから確信度を集計することで文書特徴情報を生成することを特徴とする請求項4記載の次検索キーワード提示装置。
また、第6の発明では前記クラスタ代表キーワード抽出部が前記クラスタからクラスタを代表するキーワードと、クラスタ内で文書を代表するキーワードの抽出を行なうことを特徴する請求項1記載の次検索キーワード提示装置である。
また、第7の発明では前記表示部が表示した前記複数の文書の周辺に次検索キーワードの候補を表示することを特徴とする請求項1記載の次検索キーワード提示装置。である。
また、第8の発明では前記表示部が、カーソルが前記複数の文書に移動すると、前記複数の文書に対して次検索キーワードの候補を別のポップアップウインドウに表示することを特徴とする請求項1記載の次検索キーワード提示装置である。
また、第9の発明では生成部が前記確信度と前記文書特徴キーワードが前記文書に出現する頻度とを掛けて、前記文書特徴情報を生成することを特徴とする請求項5記載の次検索キーワード提示装置である。
また、第10の発明では前記クラスタ代表キーワード抽出部が前記検索キーワードに対して前記クラスタが複数ある場合、前記クラスタ代表キーワードの集合に対して前記クラスタ代表キーワード同士の距離を計算し、前記クラスタ代表キーワードと前記クラスタ代表キーワードの距離がクラスタ間で最大となる組合せを採用することで抽出されることを特徴とする請求項1記載の次検索キーワード提示装置である。
また、第11の発明では前記検索キーワードに対して前記クラスタが複数ある場合、複数の前記クラスタ代表キーワードが前記表示部に表示される次検索キーワード提示装置である。
また、第12の発明では前記クラスタ代表キーワード抽出部が前記クラスタに含まれる複数の文書から複数の文書代表キーワードを抽出し、複数の前記文書代表キーワードから前記クラスタ代表キーワードを抽出することを特徴とする請求項1記載の次検索キーワード提示装置である。
また、第13の発明では前記検索キーワードに対して前記クラスタが一つの場合、複数の前記文書代表キーワードが前記表示部にさらに表示されることを特徴とする請求項11記載の次検索キーワード提示装置である。
また、第14の発明では入力部が、入力した検索キーワードを受け取り、検索制御部が、前記検索キーワードを検索システムに送信し、この検索システムが求めた前記検索キーワードを含む複数の文書を受信し、表示部が、前記複数の文書を表示し、本文抽出部が、前記複数の文書それぞれから本文を抽出し、解析部が、前記本文の単語毎に意味属性を解析し、格納部が、前記検索キーワードを履歴情報として格納し、生成部が、前記意味属性と前記履歴情報に基づいて前記複数の文書それぞれから文書特徴情報を生成し、クラスタ代表キーワード抽出部が、前記複数の文書それぞれの文書特徴情報をクラスタにし、各クラスタに含まれる複数の文書からクラスタ代表キーワードを抽出し、前記表示部は、前記クラスタ代表キーワードを前記検索キーワードの次に検索すべき次検索キーワードの候補として表示することを特徴とする次検索キーワード提示方法である。
また、第15の発明では入力部が、入力した検索キーワードを受け取るステップと、検索制御部が、前記検索キーワードを検索システムに送信し、この検索システムが求めた前記検索キーワードを含む複数の文書を受信するステップと、表示部が、前記複数の文書を表示するステップと、本文抽出部が、前記複数の文書それぞれから本文を抽出するステップと、解析部が、前記本文の単語毎に意味属性を解析するステップと、格納部が、前記検索キーワードを履歴情報として格納するステップと、生成部が、前記意味属性と前記履歴情報に基づいて前記複数の文書それぞれから文書特徴情報を生成するステップと、クラスタ代表キーワード抽出部が、前記複数の文書それぞれの文書特徴情報をクラスタにし、各クラスタに含まれる複数の文書からクラスタ代表キーワードを抽出するステップと、前記表示部は、前記クラスタ代表キーワードを前記検索キーワードの次に検索すべき次検索キーワードの候補として表示するステップとを具備することを特徴とする次検索キーワード提示プログラムである。
本発明によれば、個々の利用者の検索欲求を反映した次に検索すべきキーワードの候補を表示装置に提示することができる。
以下、図面を参照して、本発明の実施の形態について説明する。
図1は本実施形態における次検索キーワード提示装置の機能ブロック図である。同図に示すように次検索キーワード提示装置11は、利用者毎に操作履歴を格納する履歴情報格納部12と、利用者が検索のために用いるキーワードを入力するためのキーワード入力部13と、利用者が入力したキーワードを外部の検索システム15に送信し、このキーワードを含む複数の文書を検索結果として受信する検索制御部14と、検索結果としての複数の文書から本文を抽出する本文抽出部16と、本文の単語の意味属性を解析する意味属性解析部17と、抽出した本文の意味属性解析結果と履歴情報格納部12に格納されている履歴情報に基づいてそれぞれの文書特徴ベクトルを生成する文書特徴ベクトル生成部18と、生成された文書特徴ベクトルのクラスタリングを行ない、それぞれの文書が属するクラスタを代表するクラスタ代表キーワードと、クラスタ内でそれぞれの文書を代表する文書代表キーワードの抽出を行なうクラスタ代表キーワード抽出部19と、クラスタに含まれるそれぞれの文書毎に抽出されたキーワードを用いてそれぞれの文書毎に次に検索すべきキーワードの候補を提示する表示部20を備えている。検索制御部14は外部の検索システム15にアクセス可能である。
履歴格納部12はキーワード入力部13と表示部20に表示された検索キーワードの候補に対する利用者の操作、すなわち利用者の操作履歴として、利用者が検索のためにどのようなキーワードを入力したか、検索結果のうちどれを選択したか、検索結果を選択した後にどのような行動をとったかといった情報を格納する。
図2は入力したキーワード、選択した検索結果、後の行動の履歴情報の具体例である。この例では「爬虫類」というキーワードを入力して検索したが適切な結果が得られなかったため「イグアナ」と「トカゲ」というキーワードを新たに入力し、検索を行ない、795000件中3番目の「イグアナ達との生活」というタイトルの結果と5番目の「イグアナの最適な生息場所」を選択したが、適切な結果がなかったので再び「生息地域」という新たなキーワードを追加して検索を行なったことを表している。その後、ユーザがログアウトの行動をした。そしてその後しばらくして「俳優名」と「○○映画」をキーワードとして新たな検索を開始したことを表している。
本実施形態では、説明を簡単にするために、本装置を通じて利用者がとった操作のみを履歴情報として格納している。さらに、利用者のすべての日常生活と関連付けた履歴情報を格納してもよい。例えば家庭内でテレビを視聴しながら本装置を利用した場合などは、利用者は放送内容に関連した検索を行なっていると考えられるため、放送内容を履歴情報として格納してもよい。具体的には、テレビ放送の映像に重畳して配信されているEPGやデータ放送や字幕などのテキストデータ、映像中の人物や建物などの画像情報、テロップなどを認識したテキストデータ、映像中の発話や楽曲などの音声情報、それらを認識した発話内容や楽曲のタイトルなどのテキストデータなどが挙げられる。
あるいは屋外で電車やバスに乗りながら本装置を利用した場合、利用者は乗換情報や事故情報など路線や地域に関連した検索を行なっていると考えられるため、乗車している路線やGPSなどから得られる位置情報を履歴情報として格納してもよい。
検索制御部14はキーワード入力部13に入力されたキーワードを、外部の検索システム15に送信して検索結果を受け取る。キーワードの送信先である文書検索システムは、本実施形態では外部の検索システム15を利用するものとしているが、外部の検索システムは次検索キーワード提示装置11と一体化した実施形態にしてもよい。
本文抽出部16は検索結果のそれぞれの文書からヘッダやフッタ、広告、リンク集などその文書に固有ではないと考えられる箇所を削除し、画面の大きな領域を占めるなどレイアウト上重要であると考えられる箇所を抽出することで本文の抽出を行なう。非常に長い文書など、文書内で話題が一つに定まっていないような場合は段落毎に本文を区切り、話題毎に一つ一つの本文として分割して抽出してもよい。
意味属性解析部17は、テキストデータ中に含まれる単語に対し、金額や時刻のような定型表現、人名や地名のような固有名詞、あるいは食物や動植物名のような事物のカテゴリといった、単語の意味に関する属性のクラスを付与する。意味解析処理は、図3のようにあらかじめ与えられた辞書とのマッチングで行なってもよい。
また、図4のように語頭や語尾の表現とその意味属性のルールとのマッチングで行なってもよい。「川崎」のように人名でも地名でもあるような多義キーワードについては、複数の意味属性をそのまま利用してもよいが、ユーザの利便性を考えると辞書やルールにあらかじめ設定されている確信度が最大のものや、前後の出現するキーワードの意味属性との距離が最小のものなどを選択することで一つの意味属性に決定することが望ましい。
文書特徴ベクトル生成部18は、文書毎に図3の辞書テーブルと図4のルールテーブルによって、意味属性を付けられた単語から特徴がある文書特徴キーワードを抽出して、履歴情報格納部12に格納されている履歴情報と一緒に加工することでユーザの嗜好ベクトルを生成する。
図5はユーザ嗜好ベクトルの例である。意味属性解析部17はユーザの履歴情報を解析して意味属性に確信度を付与し、文書特徴ベクトル生成部18はユーザ嗜好ベクトルを生成する。この例の場合、「動物、爬虫類」と「人名、芸能人」に非常に興味があることを高い確信度100で表している。一方、履歴情報の中には「地位、歌手」の検索動作情報が存在するが、特に興味を持っている行動ではなかったことを低い確信度10で表している。ユーザ嗜好ベクトルを生成した後に、それぞれの文書とユーザの嗜好ベクトルを用いて文書特徴情報(以下、文書特徴ベクトルという)を生成する。胴囲
図6は文書特徴ベクトルの生成を説明する図である。文書に含まれる文書特徴キーワードを抽出し、キーワードの意味属性に対してユーザ嗜好ベクトルの確信度を付与して、リストを作る。作ったリストはユーザ嗜好ベクトルと比較することで、文書特徴ベクトルを生成する。
この例では、トカゲとイグアナというキーワードがあるので、その意味属性「動物、爬虫類」は2回出現している。またOO選手と川崎市の単語があるので、意味属性「人名、スポーツ選手」と「地名、日本の都市」はそれぞれ1回出現している。これを用いて、図5ユーザ嗜好ベクトルの確信度とキーワードが文書に出現する頻度とを掛けて、文書特徴ベクトルを生成する。この例では、「動物、爬虫類」の確信度は200である。ここで、ユーザ毎の嗜好ベクトルを用いるので同じ文書でもユーザ毎に文書特徴ベクトルは異なる点に留意する。
クラスタ代表キーワード抽出部19は、生成された文書特徴ベクトルのクラスタリングを行ない、クラスタを代表するクラスタ代表キーワードと、所定のクラスタ内でそれぞれの文書を特徴付ける文書代表キーワードの抽出を行なう。クラスタ内でそれぞれの文書を特徴付ける文書代表キーワードは、クラスタに含まれるそれぞれの文書に含まれる文書代表キーワードを抽出し、文書代表キーワードの集合に対して文書代表キーワード同士の距離を計算し、文書代表キーワード同士の距離が文書間で最大となる組合せを採用することで抽出される。
同様に、クラスタ代表キーワードは、それぞれのクラスタに含まれるクラスタ代表キーワードを抽出し、クラスタ代表キーワードの集合に対してクラスタ代表キーワード同士の距離を計算し、クラスタ代表キーワードとクラスタ代表キーワードの距離がクラスタ間で最大となる組合せを採用することで抽出される。
表示部20は、検索キーワードに対する検索結果のタイトルと要約に加え、文書代表キーワードとクラスタ代表キーワードに基づいて生成された次検索キーワードの候補を表示する。そして、前述したように表示部20に対して利用者がとった操作(例えば:検索結果のうちどれを選択したか、検索結果を選択した後にどのような行動をとったか)は履歴情報管理部に格納される。
次に、図7に示すように次検索キーワード提示装置11による文書特徴ベクトル生成とクラスタリングの処理についての概要を説明する。まず、本文抽出部16ですべての検索結果の文書から本文を抽出する(ステップS710)。抽出した本文に対して意味属性解析部17で意味属性解析を行ない、(キーワード、意味属性)の組み合わせを一時的に記憶する(ステップS720)。意味属性解析された単語に対して、辞書またはルールテーブルを参照することで確信度の付与を行ない、(意味属性、確信度)の組み合わせを一時的に記憶する。その後、文書特徴ベクトル生成部18で文書特徴キーワードを抽出する(ステップS730)。このとき文書特徴ベクトル生成部18は、履歴情報格納部12を参照しながら、抽出された文書特徴キーワードと履歴中の検索キーワードを比較することで、意味属性の出現頻度を集計する(ステップS740)。文書毎に意味属性の出現頻度を用いて、確信度が付けられた文書特徴ベクトルを文書特徴ベクトル生成部18で生成する(ステップS750)。
引き続きクラスタ代表キーワード抽出部19で、クラスタリング処理を行なう。まず初めに、生成された文書特徴ベクトルそれぞれを要素とする要素数1のクラスタを初期値として生成する(ステップS760)。そして、すべてのクラスタ同士の組み合わせについて、文書特徴ベクトルAと文書特徴ベクトルBとの距離をクラスタ代表キーワード抽出部19で計算する(ステップ770)。その距離をあらかじめ定められた閾値と比較する(ステップS780)。閾値より小さい場合は(ステップS780のY)、文書特徴ベクトルAとBをまとめて、文書特徴ベクトルAとBからなる新しい文書特徴ベクトルC = A + Bを生成して、文書特徴ベクトルAとBのもともとのクラスタを削除して新しい文書ベクトルCからなるクラスタを生成する(ステップS790)。文書特徴ベクトルAとBを削除した後に、再び文書特徴ベクトル間の距離を計算する。ここで、すべての文書特徴ベクトルAとBの間の距離が閾値より大きい場合は(ステップS780のN)、まとめるべきクラスタがすでになくなったものとしてクラスタリングを終了する。
次に、図7のS710の本文抽出処理について説明する。図8は検索結果の文書がHTMLであるときの本文抽出処理のフローチャートである。
HTML文書から本文抽出処理について、図8に示す。以下の説明では、HTML文書中のそれぞれのタグについて、タグを含めない(タグの内側にあるタグをすべて含めない)文字数をNexcludeとして、タグを含めた(タグの内側にあるタグをすべて含める)文字数をNincludeとする。HTML文書を読み込んで、ドキュメントオブジェクトモデル(DOM)ツリーを生成する(ステップS810)。DOMを生成したら、処理していないテーブルタグ(例えば:<TABLE>)があるか否かをチェックする(ステップS811)。処理していないテーブルタグがあれば(ステップS811のY)、Nexclude/Nincludeの数値を算出して、閾値と比べる(ステップS812)。Nexclude/Nincludeの数値が閾値より小さかったら(ステップS812のY)、処理されているタグを削除して、また処理していないテーブルタグがあるか否かのチェックを再び行う(ステップS813)。Nexclude/Nincludeの数値が閾値より大きかったら(ステップS812のN)、テーブルタグではないと見なして、表組みを表す関数値を算出し、閾値と比べる(ステップS814)。表組みを表す関数値が閾値より大きかったら(ステップS814のY)、本文内容が含まれているテーブルと見なして、タグ中のテキストを抽出する(ステップS815)。表組みを表す関数値が閾値より小さかったら(ステップS814のN)、まだ処理していないテーブルタグがあるか否かのチェックを行う。
処理していないテーブルタグが無かったら(ステップS811のN)、処理していないレイアウト用タグ(例えば:<DIV>、<CENTER>など)があるか否かをチェックする(ステップS816)。処理していないレイアウト用タグがあれば(ステップS816のY)、Nexclude/Nincludeの数値を算出して、閾値と比べる(ステップS817)。Nexclude/Nincludeの数値は閾値より小さかったら(ステップS817のY)、処理されているタグを削除して、また処理していないレイアウト用タグがあるか否かのチェックを行う(ステップS818)。Nexclude/Nincludeの数値が閾値より大きかったら(ステップS817のN)、レイアウト用タグではないと見なして、リンク集を表す関数値を算出する。
次に、リンク集を表す関数値と閾値を比べる(ステップS819)。リンク集を表す関数値が閾値より小さかったら(ステップS819のY)、本文内容が含まれていると見なして、タグ中のテキストを抽出する(ステップS820)。リンク集を表す関数値が閾値より大きかったら(ステップS819のN)、また処理していないレイアウト用タグがあるか否かのチェックを行う。処理していないレイアウト用タグが無ければ(ステップS816のN)、それぞれのテキストの文字列長とテキストに含まれる句読点をベーススコアとしてテキストのスコアを計算する(ステップS821)。計算されたスコアは、出現順に減衰係数を掛けて、合計スコアを計算する(ステップS822)。
次に、合計スコアは閾値と比べる(ステップS823)。合計スコアが閾値を超えなかたら(ステップS823のN)、テキストを結合して、本文を抽出する(ステップS824)。合計スコアが閾値を超えたら(ステップS823のY)、HTML文書から本文抽出処理を終了する。
次に、クラスタからキーワード抽出処理について説明する。本実施例では本文からキーワード(特に複合語)を抽出するための手法として古くから知られているC‐valueによるフローを説明する。まずあるクラスタCに含まれる文書の集合をDs(C)とし、Ds(C)に含まれる形態素列の集合をws(C)とする。そしてws(C)に含まれるすべての形態素列wに対して統計情報を集計する。すべての形態素列wに対してC‐value(w) = (l(w)− 1)*(n(w)− t(w)/c(w))を計算する。そしてC‐value(w)の値があらかじめ与えられた閾値を超える形態素列wを、クラスタCを代表するキーワードとして抽出し、クラスタを代表するキーワードの抽出処理は終了になる。ただしC‐valueによる抽出は非常に文書の数が大きいクラスタなどに対しては処理速度が遅くなるため、精度よりも処理速度を優先するような場合は単純に出現頻度が高いものを抽出したり、文字列長が長いものを抽出したりするだけでもよい。
図9に、統計情報の集計処理のフローチャートを示す。まず、処理していないクラスタCがあるか否かをチェックする(ステップS910)。処理していないクラスタCがあったら(ステップS910のY)、後述する統計情報の表をクリアする(ステップS920)。そして、クラスタCに含まれ、処理していない文書Dがあるか否かをチェックする(ステップ930)。処理していない文書Dがあったら(ステップS930のY)、文書Dに含まれ、処理していない形態素列wがあるか否かをチェックする(ステップ940)。処理していない形態素列wがあったら(ステップS940のY)、この形態素列wは統計情報の表にあるか否かをチェックする(ステップS950)。形態素列wが統計情報の表に無かったら(ステップS950のN)、形態素列wを統計情報の表に追加して、再び文書Dに含まれ、処理していない形態素列wのチェックを行う(ステップS960)。形態素列wが統計情報の表にあったら(ステップS950のY)、再び文書Dに含まれ、処理していない形態素列wのチェックを行う処理していない形態素列wが無かったら、文書Dに含まれ、処理していない形態素列wのチェックに戻る。文書Dに含まれ、処理していない形態素列wが無かったら(ステップS940のN)、またクラスタCに含まれ、処理していない文書Dがあるか否かのチェックを行う。
クラスタCに含まれ、処理していない文書Dが無かったら(ステップS930のN)、統計情報の表に処理していない形態素列wがあるか否かをチェックする(ステップS970)。処理していない形態素列wがあったら(ステップS970のY)、形態素列Wの出現度を集計する(ステップS971)。次に、wを含み、形態素列wより長い形態素列の出現度を集計する(ステップS972)。その後、前記形態素列と異なり、形態素列wを含み、形態素列wより長い形態素列の数を集計して、また統計情報の表に処理していない形態素列wがあるか否かのチェックを行う(ステップS973)。統計情報の表に処理していない形態素列wが無かったら(ステップS970のN)、また処理していないクラスタCがあるか否かのチェックを行う(ステップS910)。処理していないクラスタCが無かったら(ステップS910のN)、クラスタを代表するキーワードの抽出処理は終了になる。
図10にこれらの統計情報の統計情報の表の例を示す。l(w)は形態素列wの文字列長である。n(w)はクラスタCにおける形態素列wの出現頻度である。t(w)は形態素列wを含み、かつ形態素列wより長い形態素列のクラスタCにおける出現頻度である。c(w)は形態素列wを含み、かつ形態素列wより長い形態素列のクラスタCにおける異なり数である。
図11に、文書特徴キーワードの抽出処理のフローチャートを示す。まず、処理していない文書Dがあるか否かをチェックする(ステップS1110)。処理していない文書Dがあったら(ステップS1110のY)、統計情報が記載されている統計情報の表をクリアする(ステップS1120)。文書Dに含まれ、処理していない形態素列Wがあるか否かをチェックする(ステップ1130)。処理していない形態素列Wがあったら(ステップS1130のY)、この形態素列Wが統計情報の表にあるか否かをチェックする(ステップS1140)。形態素列Wが統計情報の表に無かったら(ステップS1140のN)、形態素列Wを統計情報の表に追加して、再び文書Dに含まれ、処理していない形態素列Wのチェックを行う(ステップS1150)。統計情報の表にあったら(ステップS1140のY)、また処理していない形態素列Wのチェックに戻る。処理していない形態素列Wが無かったら(ステップS1130のN)、文書Dに含まれ、処理していない形態素列Wが無かったら、統計情報の表に処理していない形態素列Wがあるか否かをチェックする(ステップS1160)。処理していない形態素列Wがあったら(ステップS1160のY)、形態素列Wの出現度を集計する(ステップS1161)。次に、Wを含み、Wより長い形態素列の出現度を集計する(ステップS1162)。その後、前記形態素列と異なり、形態素列Wを含み、Wより長い形態素列の異なり数を集計して、また統計情報の表に処理していない形態素列Wがあるか否かのチェックを行う(ステップS1163)。統計情報の表に処理していない形態素列Wが無かったら(ステップS1160のN)、また処理していない文書Dはあるか否かのチェックを行う。処理していない文書Dが無かったら(ステップS1110のN)、文書特徴キーワードの抽出処理は終了になる。
続いて、クラスタ代表キーワード抽出部19は、まず図11で説明した文書特徴キーワードの抽出処理とで文書を代表するキーワードの抽出を行なう。ただしそれぞれの文書から抽出されたキーワードは、文書が同じクラスタに属しているためほとんど同じものとなってしまうので、抽出されたキーワード同士の距離を計算し、キーワード同士の距離が文書間でなるべく大きくなる組合せを選択するという処理を行なう。具体的には、以下のような処理によって文書同士が区別できる理解しやすいキーワードを選択する。
図12は文書代表キーワードを抽出する処理のフローチャートである。まず図11に示すような文書特徴キーワードの抽出処理で文書特徴キーワードを抽出する(ステップS1210)。文書特徴キーワードを抽出した後に、(文書、意味属性、文書代表キーワード候補)からなる文書代表キーワード候補の表(詳細は後述)を初期化して、一時的に記憶する(ステップS1220)。次に、すべての文書に出現している文書特徴キーワードを文書代表キーワード候補の表から削除する(ステップS1230)。その後、文書代表キーワード候補の表が空か否かをチェックする(ステップS1240)。文書代表キーワード候補の表が空ではなかったら(ステップS1240のN)、文書代表キーワード候補の表の中で最も多い文書にまたがる意味属性を一つ選択する(ステップS1250)。その後、選択した意味属性に属するキーワードの中で最も少ない文書にまたがるキーワードKを文書代表キーワード候補として選択する(ステップS1260)。次に、抽出したキーワードKが複数の文書にまたがるか否かをチェックする(ステップS1270)。キーワードKが複数の文書にまたがる場合は(ステップS1270のY)、キーワードKがまたがる文書で最も多い文書にまたがる、先ほどの意味属性と異なる意味属性を一つ選択して、新たに選択した意味属性のキーワードの中で最も少ない文書にまたがるキーワードKを選択する(ステップS1280)。キーワードKが複数の文書にまたがらない場合は(ステップS1270のN)、キーワードKによって特定された文書を文書代表キーワード候補の表から削除して、文書代表キーワード候補の表が空か否かをチェックする(ステップS1290)。文書代表キーワード候補の表が空になったら(ステップS1240のY)、クラスタ内の文書毎に差分の大きなキーワードを抽出する処理は終了する。
キーワード同士の距離は品詞を元に計算する方法や、意味属性を元に計算する方法などさまざまなものが考えられるが、以下では意味属性を用いたキーワード選択処理の例を説明する。
図13は文書代表キーワード候補の例である。まず、クラスタ代表キーワード抽出部19はそれぞれの文書から抽出された文書代表キーワード候補と、それぞれの文書代表キーワード候補の意味属性を元に(文書、意味属性、文書代表キーワード候補)の組合せからなる文書代表キーワード候補の表を初期化する。この例の場合、文書1からは動物、爬虫類という意味属性を持った「イグアナ」、地名、日本の都市という意味属性を持った「東京」という文書代表キーワード候補が抽出され、文書2からは動物、爬虫類という意味属性を持った「イグアナ」という文書代表キーワード候補が抽出され、文書3からは動物、爬虫類という意味属性を持った「イグアナ」と「トカゲ」、地名、日本の都市という意味属性を持った「川崎」という文書代表キーワード候補が抽出されている。
続いて、クラスタ代表キーワード抽出部19は、クラスタ代表キーワード候補同士の距離がなるべく大きくなる組合せを選択するようにすべての文書にまたがって出現しているクラスタ代表キーワード候補を文書代表キーワード候補の表から削除する。図13の例の場合、「イグアナ」は文書1と文書2に出現するので、「イグアナ」というクラスタ代表キーワード候補は文書代表キーワード候補の表から削除される。すべての文書にまたがって出現しているクラスタ代表キーワード候補がない場合はそのままでよい。なお処理のこの段階で文書代表キーワード候補の表が空になってしまった場合は、文書同士を区別できる適切なクラスタ代表キーワードが抽出できなかったことを意味している。そのため文書代表キーワード候補の表が空になってしまった場合は異なる文書に対しても同じクラスタ代表キーワード候補を抽出するか、あるいは残っているそれぞれの文書に差分がないと考えて表示部20では1つにまとめて表示してしまってよい。
文書代表キーワード候補の表が空でなかった場合は、文書代表キーワード候補の表の最も多くの文書にまたがる意味属性Cを一つ選択する。複数存在する場合はランダムに選択してもよいし、意味属性に含まれるキーワードの数などを利用してもよい。あるいはあらかじめ意味属性の順序づけを設定しておいて、それを利用してもよい。たとえば時刻表現よりも人名のほうが情報量が多いと考えられるため、意味属性の順序も時刻表現より人名を優先するといった方法が考えられる。あるいは利用者の履歴情報を利用してもよい。例えばある利用者が人名よりも地名についてよく注目している場合は、人名より地名を優先するといった方法が考えられる。あるいは履歴情報のうち最近選択した意味属性を優先することも考えられる。
どのような方法で意味属性を選択した場合でも、その後クラスタ代表キーワード抽出部19は選択された意味属性の中でもっとも少ない文書にまたがるキーワードKを一つ選択する。複数存在する場合はランダムに選択してもよいし、利用者の履歴情報を利用してもよい。ここでキーワードKが一つの文書Dにだけまたがっていたとすると、その文書DはキーワードKで特定できることになる。よって文書Dを特定するキーワードとしてキーワードKを抽出し、文書代表キーワード候補の表からキーワードKと文書Dを削除する。文書代表キーワード候補の表が空でないかぎり改めて文書を代表する形態素列の抽出処理を行なうことを繰り返すことによって、ほかの残された文書からも文書を特定するキーワードを抽出していくことができる。一方キーワードKが文書集合Dsにまたがっていたとすると、そのキーワードKでは文書集合Dsに含まれる文書はまだ特定できないことになる。したがってこの文書集合Dsで最も多くの文書にまたがる、先ほど選択した意味属性とは異なる意味属性を一つ選択し、改めてキーワード抽出処理を行なうことを繰り返すことによって、文書集合Dsに含まれる文書にも文書を特定するキーワードを抽出していくことができる。
次に、図1の表示部20に次検索キーワード表示処理について説明する。次検索キーワードの表示は図14(a)に示すようにいくつかの方法が考えられる。それぞれの検索結果の差がわかりやすくなるようにするためには、それぞれの検索結果のタイトルと要約文と一緒に次検索キーワードも表示するのがよい。
なお、図14(b)に示すように、検索キーワードの数が多くなると表示部20の中で占める領域が大きくなるため、利用者が検索結果の上にマウスを持ってきたり右クリックしたりしたときに、本装置によって抽出された次検索キーワードをポップアップ表示してもよい。これらの提示方法は、あらかじめ利用者が本装置に対して設定しておいてもよいし、利用者が適宜切り替えられるようにしてもよいし、次検索キーワードの数やあらかじめ設定しておいた意味属性の重要度などによって自動的に切り替えてもよい。
なお、本実施形態における次検索キーワード提示装置11はパソコンに搭載されているものとして説明したが、パソコンに必ずしも内蔵されていなくとも、その他の電子デバイス、例えば携帯電話機などに搭載されるようにしてもよい。近年、携帯通信機器、例えば携帯電話機またはPDA(Personal Digital Assistant)など、でインターネット情報を見たり、乗換情報を探したり、路線情報を求めているユーザが増加している。検索されている情報の例としては、電車の時刻表や路線上の有名地などがある。
図15は、携帯通信機器において実施例2の機能を実現する実施例である。ユーザは携帯通信機器で情報を検索する。この場合、次検索キーワード提示装置11は携帯通信機器に搭載されて、ユーザの履歴情報を収集し、今後新たな検索する際に、この履歴情報を利用する。あるいは、ほかの実施形態では、ユーザからの検索要求を携帯電話機を通して中央サーバに送信するようにしてもよい。
図16は、送信された検索要求の検索情報、あるいは検索キーワードを、中央サーバまでに送信する実施例である。実施例3における次検索キーワード提示装置11は中央サーバに搭載されている。中央サーバに送信したユーザ入力情報は履歴として保存されている。このような実施形態を利用する場合、携帯性があるので、ユーザの日常生活の活動を履歴情報として格納できる。特に、ユーザはパソコンの前に座らなくても、次検索キーワード提示装置11を利用できるという利点がある。
本発明の実施形態における次検索キーワード提示装置の機能ブロック図。 履歴情報の具体例を説明するための図。 意味属性辞書テーブルの例を説明するための図。 意味属性ルールテーブルの例を説明するための図。 ユーザ嗜好ベクトルの例を説明するための図。 文書特徴ベクトルの生成例を説明するための図。 文書特徴ベクトル生成とクラスタリング処理を説明するための図。 図7のS710の本文抽出処理を説明するための図。 形態素列の抽出のための統計情報の集計処理を説明するための図。 各形態素列の統計情報の統計情報の表の例を説明するための図。 文書特徴キーワード抽出処理を説明するための図。 クラスタ内の文書毎に差分の大きな文書代表キーワードを抽出する処理を説明するための図。 文書代表キーワード候補の表の例を説明するための図。 検索結果に対する次検索キーワード提示の例を説明するための図。 本発明の第2の実施形態における携帯電話を用いる例を説明するための図。 本発明の第3の実施形態における携帯電話を用いる例を説明するための図。
符号の説明
11 次検索キーワード提示装置
12 履歴情報格納部
13 キーワード入力部
14 検索制御部
15 検索システム
16 本文抽出部
17 意味属性解析部
18 特徴ベクトル生成部
19 クラスタ代表キーワード抽出部
20 表示部

Claims (15)

  1. 検索キーワードを入力する入力部と、
    前記検索キーワードを検索システムに送信し、この検索システムが求めた前記検索キーワードを含む複数の文書を受信する検索制御部と、
    前記複数の文書を表示する表示部と、
    前記複数の文書それぞれから本文を抽出する本文抽出部と、
    前記本文の単語毎に意味属性を解析する解析部と、
    前記検索キーワードを履歴情報として格納する格納部と、
    前記意味属性と前記履歴情報に基づいて前記複数の文書それぞれから文書特徴情報を生成する生成部と、
    前記複数の文書それぞれの文書特徴情報をクラスタにし、各クラスタに含まれる複数の文書からクラスタ代表キーワードを抽出するクラスタ代表キーワード抽出部とを具備し、
    前記表示部は、前記クラスタ代表キーワードを前記検索キーワードの次に検索すべき次検索キーワードの候補として表示することを特徴とする次検索キーワード提示装置。
  2. 前記格納部は、前記次検索キーワードの候補に対する操作を履歴情報としてさらに格納することを特徴とする請求項1記載の次検索キーワード提示装置。
  3. 前記検索システムは、外部に設けられ、前記検索制御部から入力した前記検索キーワードを受信し、前記検索キーワードを含む複数の文書を前記検索制御部に送信することを特徴とする請求項1記載の次検索キーワード提示装置。
  4. 前記解析部は、単語とその意味属性を列挙した辞書、あるいは語頭又は語尾の表現とその属性のルールを用いて前記本文の単語毎の意味属性を解析することを特徴とする請求項1記載の次検索キーワード提示装置。
  5. 前記生成部は、前記履歴情報に含まれる前記検索キーワードの意味属性解析を行ない、文書特徴キーワードを抽出し、前記文書特徴キーワードの意味属性毎に前記辞書または前記ルールから確信度を集計することで文書特徴情報を生成することを特徴とする請求項4記載の次検索キーワード提示装置。
  6. 前記クラスタ代表キーワード抽出部は、前記クラスタからクラスタを代表するキーワードと、クラスタ内で文書を代表するキーワードの抽出を行なうことを特徴とする請求項1記載の次検索キーワード提示装置。
  7. 前記表示部は、表示した前記複数の文書の周辺に次検索キーワードの候補を表示することを特徴とする請求項1記載の次検索キーワード提示装置。
  8. 前記表示部は、カーソルが前記複数の文書に移動すると、前記複数の文書に対して次検索キーワードの候補を別のポップアップウインドウに表示することを特徴とする請求項1記載の次検索キーワード提示装置。
  9. 前記生成部は、前記確信度と前記文書特徴キーワードが前記文書に出現する頻度とを掛けて、前記文書特徴情報を生成することを特徴とする請求項5記載の次検索キーワード提示装置。
  10. 前記クラスタ代表キーワード抽出部は、前記検索キーワードに対して前記クラスタが複数ある場合、前記クラスタ代表キーワードの集合に対して前記クラスタ代表キーワード同士の距離を計算し、前記クラスタ代表キーワードと前記クラスタ代表キーワードの距離がクラスタ間で最大となる組合せを採用することで抽出されることを特徴とする請求項1記載の次検索キーワード提示装置。
  11. 前記検索キーワードに対して前記クラスタが複数ある場合、複数の前記クラスタ代表キーワードが前記表示部に表示されることを特徴とする請求項1記載の次検索キーワード提示装置。
  12. 前記クラスタ代表キーワード抽出部は、前記クラスタに含まれる複数の文書から複数の文書代表キーワードを抽出し、複数の前記文書代表キーワードから前記クラスタ代表キーワードを抽出することを特徴とする請求項1記載の次検索キーワード提示装置。
  13. 前記検索キーワードに対して前記クラスタが一つの場合、複数の前記文書代表キーワードが前記表示部にさらに表示されることを特徴とする請求項11記載の次検索キーワード提示装置。
  14. 入力部が、入力した検索キーワードを受け取り、
    検索制御部が、前記検索キーワードを検索システムに送信し、この検索システムが求めた前記検索キーワードを含む複数の文書を受信し、
    表示部が、前記複数の文書を表示し、
    本文抽出部が、前記複数の文書それぞれから本文を抽出し、
    解析部が、前記本文の単語毎に意味属性を解析し、
    格納部が、前記検索キーワードを履歴情報として格納し、
    生成部が、前記意味属性と前記履歴情報に基づいて前記複数の文書それぞれから文書特徴情報を生成し、
    クラスタ代表キーワード抽出部が、前記複数の文書それぞれの文書特徴情報をクラスタにし、各クラスタに含まれる複数の文書からクラスタ代表キーワードを抽出し、
    前記表示部は、前記クラスタ代表キーワードを前記検索キーワードの次に検索すべき次検索キーワードの候補として表示することを特徴とする次検索キーワード提示方法。
  15. 入力部が、入力した検索キーワードを受け取るステップと、
    検索制御部が、前記検索キーワードを検索システムに送信し、この検索システムが求めた前記検索キーワードを含む複数の文書を受信するステップと、
    表示部が、前記複数の文書を表示するステップと、
    本文抽出部が、前記複数の文書それぞれから本文を抽出するステップと、
    解析部が、前記本文の単語毎に意味属性を解析するステップと、
    格納部が、前記検索キーワードを履歴情報として格納するステップと、
    生成部が、前記意味属性と前記履歴情報に基づいて前記複数の文書それぞれから文書特徴情報を生成するステップと、
    クラスタ代表キーワード抽出部が、前記複数の文書それぞれの文書特徴情報をクラスタにし、各クラスタに含まれる複数の文書からクラスタ代表キーワードを抽出するステップと、
    前記表示部は、前記クラスタ代表キーワードを前記検索キーワードの次に検索すべき次検索キーワードの候補として表示するステップとを具備することを特徴とする次検索キーワード提示プログラム。
JP2008184896A 2008-07-16 2008-07-16 次検索キーワード提示装置、次検索キーワード提示方法、及び次検索キーワード提示プログラム Expired - Fee Related JP5355949B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008184896A JP5355949B2 (ja) 2008-07-16 2008-07-16 次検索キーワード提示装置、次検索キーワード提示方法、及び次検索キーワード提示プログラム
US12/437,584 US8229949B2 (en) 2008-07-16 2009-05-08 Apparatus, method and program product for presenting next search keyword

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008184896A JP5355949B2 (ja) 2008-07-16 2008-07-16 次検索キーワード提示装置、次検索キーワード提示方法、及び次検索キーワード提示プログラム

Publications (2)

Publication Number Publication Date
JP2010026640A true JP2010026640A (ja) 2010-02-04
JP5355949B2 JP5355949B2 (ja) 2013-11-27

Family

ID=41531181

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008184896A Expired - Fee Related JP5355949B2 (ja) 2008-07-16 2008-07-16 次検索キーワード提示装置、次検索キーワード提示方法、及び次検索キーワード提示プログラム

Country Status (2)

Country Link
US (1) US8229949B2 (ja)
JP (1) JP5355949B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012118964A (ja) * 2010-11-29 2012-06-21 Nhn Corp 検索結果内に添付された情報データベースに基づいた検索リスト及び検索語順位の提供方法及びシステム
JP2012138027A (ja) * 2010-12-27 2012-07-19 Toshiba Corp 情報検索システム、検索キーワード提示方法、およびプログラム
WO2013157592A1 (ja) * 2012-04-19 2013-10-24 株式会社Karoya インターネット広告検索支援プログラム
JP2015026345A (ja) * 2013-07-29 2015-02-05 Necパーソナルコンピュータ株式会社 検索装置、検索システムおよびプログラム
JP2017161976A (ja) * 2016-03-07 2017-09-14 日本放送協会 興味情報処理装置およびプログラム

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8290958B2 (en) * 2003-05-30 2012-10-16 Dictaphone Corporation Method, system, and apparatus for data reuse
US8229942B1 (en) * 2007-04-17 2012-07-24 Google Inc. Identifying negative keywords associated with advertisements
US8086624B1 (en) 2007-04-17 2011-12-27 Google Inc. Determining proximity to topics of advertisements
JP4735726B2 (ja) * 2009-02-18 2011-07-27 ソニー株式会社 情報処理装置および方法、並びにプログラム
WO2010131333A1 (ja) * 2009-05-12 2010-11-18 パイオニア株式会社 コンテンツ検索装置、コンテンツ検索方法、コンテンツ検索プログラムおよび記録媒体
CN101887436B (zh) * 2009-05-12 2013-08-21 阿里巴巴集团控股有限公司 一种检索方法和装置
WO2011013191A1 (ja) 2009-07-27 2011-02-03 株式会社 東芝 関連性提示装置、方法およびプログラム
US20130124531A1 (en) * 2010-09-08 2013-05-16 Walter Bachtiger Systems for extracting relevant and frequent key words from texts and their presentation in an auto-complete function of a search service
KR101196935B1 (ko) * 2010-07-05 2012-11-05 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
JP5639417B2 (ja) * 2010-08-31 2014-12-10 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP2012212191A (ja) * 2011-02-28 2012-11-01 Toshiba Corp 情報処理装置及び情報処理方法
CN102654868B (zh) * 2011-03-02 2015-11-25 联想(北京)有限公司 一种基于关键字的搜索方法、搜索装置及服务器
JP5417471B2 (ja) * 2012-03-14 2014-02-12 株式会社東芝 構造化文書管理装置、構造化文書検索方法
US20140208217A1 (en) 2013-01-22 2014-07-24 Splunk Inc. Interface for managing splittable timestamps across event records
US8682906B1 (en) 2013-01-23 2014-03-25 Splunk Inc. Real time display of data field values based on manual editing of regular expressions
US10394946B2 (en) 2012-09-07 2019-08-27 Splunk Inc. Refining extraction rules based on selected text within events
US9594814B2 (en) 2012-09-07 2017-03-14 Splunk Inc. Advanced field extractor with modification of an extracted field
US8751963B1 (en) 2013-01-23 2014-06-10 Splunk Inc. Real time indication of previously extracted data fields for regular expressions
US9753909B2 (en) 2012-09-07 2017-09-05 Splunk, Inc. Advanced field extractor with multiple positive examples
US8751499B1 (en) 2013-01-22 2014-06-10 Splunk Inc. Variable representative sampling under resource constraints
CN103838756A (zh) * 2012-11-23 2014-06-04 阿里巴巴集团控股有限公司 一种确定推送信息的方法及装置
US9152929B2 (en) 2013-01-23 2015-10-06 Splunk Inc. Real time display of statistics and values for selected regular expressions
CN104077011B (zh) * 2013-03-26 2017-08-11 北京三星通信技术研究有限公司 一种同类型文档间的关联方法和终端设备
JP6135331B2 (ja) * 2013-06-27 2017-05-31 カシオ計算機株式会社 電子機器、プログラム、および、検索システム、検索方法
US9875218B2 (en) 2014-01-28 2018-01-23 International Business Machines Corporation Document summarization
CN104598630A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 一种事件索引与检索的方法及装置
CN106202057B (zh) * 2016-08-30 2019-07-12 东软集团股份有限公司 相似新闻信息的识别方法和装置
US10459981B2 (en) 2017-01-10 2019-10-29 Oath Inc. Computerized system and method for automatically generating and providing interactive query suggestions within an electronic mail system
CN107291697A (zh) * 2017-06-29 2017-10-24 浙江图讯科技股份有限公司 一种语义分析方法、电子设备、存储介质及其诊断系统
US10467343B2 (en) * 2017-08-03 2019-11-05 International Business Machines Corporation Detecting problematic language in inclusion and exclusion criteria
CN110825475A (zh) * 2019-10-31 2020-02-21 维沃移动通信有限公司 一种输入方法及电子设备
KR102425770B1 (ko) * 2020-04-13 2022-07-28 네이버 주식회사 급상승 검색어 제공 방법 및 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004220226A (ja) * 2003-01-14 2004-08-05 Oki Electric Ind Co Ltd 検索文書のための文書分類方法及び装置
JP2006127325A (ja) * 2004-10-29 2006-05-18 Ntt Docomo Inc コンテンツ発見装置、及び、コンテンツ発見方法
JP2006228255A (ja) * 2006-05-12 2006-08-31 Denso Corp 適応的情報検索システム
JP2008077137A (ja) * 2006-09-19 2008-04-03 Yafoo Japan Corp ドキュメントデータを検索する方法、サーバ、およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182068B1 (en) * 1997-08-01 2001-01-30 Ask Jeeves, Inc. Personalized search methods
US7693912B2 (en) * 2005-10-31 2010-04-06 Yahoo! Inc. Methods for navigating collections of information in varying levels of detail
JP4234740B2 (ja) 2006-08-03 2009-03-04 株式会社東芝 キーワード提示装置、プログラムおよびキーワード提示方法
US8280886B2 (en) * 2008-02-13 2012-10-02 Fujitsu Limited Determining candidate terms related to terms of a query

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004220226A (ja) * 2003-01-14 2004-08-05 Oki Electric Ind Co Ltd 検索文書のための文書分類方法及び装置
JP2006127325A (ja) * 2004-10-29 2006-05-18 Ntt Docomo Inc コンテンツ発見装置、及び、コンテンツ発見方法
JP2006228255A (ja) * 2006-05-12 2006-08-31 Denso Corp 適応的情報検索システム
JP2008077137A (ja) * 2006-09-19 2008-04-03 Yafoo Japan Corp ドキュメントデータを検索する方法、サーバ、およびプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012118964A (ja) * 2010-11-29 2012-06-21 Nhn Corp 検索結果内に添付された情報データベースに基づいた検索リスト及び検索語順位の提供方法及びシステム
JP2016157478A (ja) * 2010-11-29 2016-09-01 ネイバー コーポレーションNAVER Corporation 検索結果内に添付された情報データベースに基づいた検索リスト及び検索語順位の提供方法及びシステム
JP2017134870A (ja) * 2010-11-29 2017-08-03 ネイバー コーポレーションNAVER Corporation 検索結果内に添付された情報データベースに基づいた検索リスト及び検索語順位の提供方法及びシステム
JP2012138027A (ja) * 2010-12-27 2012-07-19 Toshiba Corp 情報検索システム、検索キーワード提示方法、およびプログラム
WO2013157592A1 (ja) * 2012-04-19 2013-10-24 株式会社Karoya インターネット広告検索支援プログラム
JP2015026345A (ja) * 2013-07-29 2015-02-05 Necパーソナルコンピュータ株式会社 検索装置、検索システムおよびプログラム
JP2017161976A (ja) * 2016-03-07 2017-09-14 日本放送協会 興味情報処理装置およびプログラム

Also Published As

Publication number Publication date
JP5355949B2 (ja) 2013-11-27
US20100017390A1 (en) 2010-01-21
US8229949B2 (en) 2012-07-24

Similar Documents

Publication Publication Date Title
JP5355949B2 (ja) 次検索キーワード提示装置、次検索キーワード提示方法、及び次検索キーワード提示プログラム
JP5257071B2 (ja) 類似度計算装置及び情報検索装置
US9122680B2 (en) Information processing apparatus, information processing method, and program
US20130173610A1 (en) Extracting Search-Focused Key N-Grams and/or Phrases for Relevance Rankings in Searches
KR101252397B1 (ko) 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
US8874590B2 (en) Apparatus and method for supporting keyword input
US10949452B2 (en) Constructing content based on multi-sentence compression of source content
CN111046225B (zh) 音频资源处理方法、装置、设备及存储介质
JP2005310094A (ja) キーワード拡張装置と方法およびコンテンツ検索システムならびにコンテンツ情報提供システムと方法およびグループ化条件決定装置と方法ならびにプログラム
US20110113046A1 (en) Information processing apparatus, information extracting method, program, and information processing system
EP3996373A2 (en) Method and apparatus of generating bullet comment, device, and storage medium
JP2009043156A (ja) 番組検索装置および番組検索方法
JP2015525929A (ja) 検索品質を改善するための重みベースのステミング
JP2005250980A (ja) 文書検索システム、検索条件入力装置、検索実行装置、文書検索方法、および文書検索プログラム
US20090327877A1 (en) System and method for disambiguating text labeling content objects
JP2009223749A (ja) 情報処理装置、情報処理方法、およびプログラム
KR101651963B1 (ko) 시공간 연관 정보 생성 방법, 이를 수행하는 시공간 연관 정보 생성 서버 및 이를 저장하는 기록매체
JP2007193697A (ja) 情報収集装置,情報収集方法およびプログラム
CN109977294B (zh) 信息/查询处理装置、查询处理/文本查询方法、存储介质
JP2012043115A (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
CN110555202A (zh) 文摘播报的生成方法和设备
KR100832859B1 (ko) 모바일 웹 콘텐츠 서비스 시스템 및 그 방법
JP2004362121A (ja) 情報検索装置、携帯情報端末装置、情報検索方法、情報検索プログラム及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110318

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20111125

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20111205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130828

LAPS Cancellation because of no payment of annual fees