JP5491372B2 - 情報検索システム、情報検索方法、情報検索プログラム - Google Patents

情報検索システム、情報検索方法、情報検索プログラム Download PDF

Info

Publication number
JP5491372B2
JP5491372B2 JP2010270384A JP2010270384A JP5491372B2 JP 5491372 B2 JP5491372 B2 JP 5491372B2 JP 2010270384 A JP2010270384 A JP 2010270384A JP 2010270384 A JP2010270384 A JP 2010270384A JP 5491372 B2 JP5491372 B2 JP 5491372B2
Authority
JP
Japan
Prior art keywords
search
information search
background sound
sound
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010270384A
Other languages
English (en)
Other versions
JP2012118918A (ja
Inventor
俊介 小長井
孝史 井上
宜仁 安田
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010270384A priority Critical patent/JP5491372B2/ja
Publication of JP2012118918A publication Critical patent/JP2012118918A/ja
Application granted granted Critical
Publication of JP5491372B2 publication Critical patent/JP5491372B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索エンジンなどのインターネット上の情報を検索するための情報検索サービスの技術に関する。
近年、インターネットの普及によって、インターネット上の膨大なWEB文書(WEBページ:以下、文書と省略する。)から、ユーザが必要とする情報を含む文書を的確に検索するために検索エンジンなどが提供する情報検索サービスの重要性が高まっている。
一般的に情報検索サービスは、ユーザ入力の検索キーワード(クエリ)が検索対象の文書や該各文書に対する別文書からのリンクアンカーテキストに含まれる個数に応じた検索キーワードと文書との一致度と、該文書が別の文書からどれだけ参照されているかといった文書の重要度とから検索結果の出力順を決定している。
検索キーワードと文書との一致度としては、「tf・idf」や非特許文献1の「BM25」といった単語の統計量を用いた手法が一般的に利用されている。概略を説明すれば、特定の文書群全体の平均と比較して文書に高い頻度で現れる単語が該文書を特徴付けるものと推定し、ユーザ入力の検索キーワードが文書の特徴と一致する度合が高い文書を出力する。これらの手法によれば、検索キーワードが比較的珍しい単語であれば、的確な検索結果が得られるものの、検索キーワードが極ありふれた単語である場合には同程度の一致度となる文書数が多くなりすぎてしまう。
そこで、一般的な情報検索サービスでは、検索キーワードとの一致度が同程度となった文書の順位付けのために、前述のように文書の重要度を算出し、検索キーワード・文書間の一致度(キーワードマッチング)と、文書の重要度とを合わせて検索結果の出力順を決定している。文書の重要度(静的重要度)としては、非特許文献2の「PageRank」や非特許文献3の「HITS」といった手法が一般的に利用されている。これらの手法は、文書のリンク情報を用いて、特定の文書が他の多くの文書からリンクされている場合には、その文書を重要と推定する。そして、文書の静的重要度とキーワードマッチングとを併せて用いることで、検索キーワードと一致し、かつ重要な文書をユーザに検索結果として提示している。
Stephen Robertson,Hugo Zaragoza,Michael Taylor,"Simple BM25 Extension to Multiple Weighted Fields",Proceedings of the thirteenth ACM international conference on Information and knowledge management,2004 Lawrence Page,Sergey Brin,Rajeev Motwai,Terry Winograd,"The PageRank Citation Ranking:Bringing Order to the Web",7th International World Wide Web conference(WWW98) Jon M. Kleinberg,"Authoritative sources in a hyper-linked environment",Journal of the ACM(JACM),v.46 n.5,p.604-632,sept. 1999
しかしながら、現在では「PageRank」が提案された時期と比較して、ユーザの情報検索行動は著しく多様化している。例えばインターネットの黎明期においては情報検索サービスを利用するユーザの殆どは、オフィスワーカあるいは学生であって会社や学校のコンピュータから情報検索サービスを利用していた。
ところが現在では、情報検索サービスのユーザが小学生から高齢者まで多岐にわたっており、情報検索サービスを利用する端末装置もパーソナルコンピュータ(PC)にとどまらず多機能携帯電話やゲーム端末なども含まれるようになっている。このような現状では、たとえ同じ検索キーワードを用いた情報検索を行った場合でもユーザ毎に望む情報が異なっている状況が増大している。この問題を解決するために情報検索サービスでは次のような解決手段を講じている。
第一には特定の検索キーワードに合致する検索結果を何らかの手段でクラスタリングして、各クラスの代表的な文書を検索結果として出力する方法である。この方法によれば、例えば「アップル」という検索キーワードに対して「果物の林檎」に関する情報を含む文書と、アメリカ合衆国のコンピュータ企業「アップル社」に関する情報を含む文書とを検索結果として出力し、その選択をユーザ自身にまかせることができる。
第二には検索結果の選択にあたって検索キーワード以外の情報、即ちユーザの趣向やユーザの置かれている状況に関連して検索サービスが得られる情報を利用する方法である。従来から用いられている検索キーワード以外の情報を以下に説明する。
(1)検索サービスを利用するユーザ端末のIPアドレスからユーザが企業内からアクセスしていると判断できる場合であれば、企業向けの情報を含む文書を検索結果の上位に優先的に提示する。
(2)検索サービスが利用された時間帯を判断できる場合であれば、該時間帯に合致した情報を含む文書を検索結果の上位に優先的に提示する。
(3)特に検索サービスを利用する端末装置が携帯端末の場合に顕著であるが、それ以外の場合でも検索サービスを利用するユーザの所在地が判断できれば、その地理的条件に合致した情報を含む文書を検索結果の上位に優先的に提示する。
(4)ユーザの利用する検索サービスが特定のWEBサイトに設置された検索窓であれば、該WEBサイトの読者層に合致した情報を含む文書を上位に優先的に提示する。
(5)ユーザが検索サービスを利用する端末装置の機種を特定できれば、該機種に合致した情報を含む文書を上位に優先的に提示する。
(6)検索サービスがユーザ所有の端末装置に対して、「WEB Cokie」を発行できる場合であれば、該端末装置から過去に行われた複数検索の検索キーワードや検索結果に基づきクリックされた文書などの情報を利用した所謂パーソナライズ検索として、該ユーザの過去の検索行動に合致した情報を含む文書を検索結果の上位に優先的に提示する。
このよう第二の方法は、(1)〜(6)の情報を組み合わせて用いてもよく、第一の方法と併用すれば、第一の方法にさらに多様性を持たせた検索結果を出力する際に検索キーワード毎にクラスタの出力順を変更し、よりユーザの情報要求に合致する可能性の高いクラスタを上位に出力することもできる。
本発明は、上述の第二の方法において検索結果の出力順位の調整に新たな有効情報を用いて、よりユーザの検索状況に合致した情報を含む文書の検索結果を提示することを解決課題としている。
本発明は、前記課題を解決すべく、ユーザの背景音を収集し、収集された背景音に応じて検索結果の出力順位(ランキング)を調整する。すなわち、本発明は、情報検索端末に備えられた音声収集手段を通じてユーザの背景音を収集し、検索サーバが検索キーワードと各WEB文書との一致度を音声収集手段で収集された背景音に応じて調整して算出する。ここで算出された一致度を用いて前記検索結果のランキングを決定する。
この発明によれば、音声収集手段で収集した背景音が、検索結果の出力順の決定に用いられてきた検索キーワード以外の情報に新たに加えられ、ユーザのおかれた状況を反映した検索結果を提示することができる。この音声収集手段にはマイクを用いることができる。
本発明の一態様は、あらかじめ収集された各場面における背景音の種別毎に前記一致度の調整情報を格納するテーブルをさらに備え、前記テーブルに格納された背景音と音声収集手段で収集された背景音とを比較し、比較結果が事前に定められた類似度以上であれば、音声収集手段で収集された背景音を前記テーブルの背景音と確定し、確定された背景音に応じた調整情報を前記一致度に反映させる。すなわち、あらかじめ検索サービスの提供者が選択した状況の背景音を収集しておくことで、情報検索システムとして状況に適した検索結果の出力順位に調整することができる。
本発明の他の態様は、ユーザの過去の検索結果に対するクリック・背景音の関連性/検索キーワード・検索結果に対するクリック・背景音の関連性を格納するテーブルをさらに備え、新たに検索キーワードが投入されたときに音声収集手段で収集された背景音と前記テーブル中の背景音とを比較し、比較結果が事前に定められた類似度以上であれば、前記関連性に応じて前記一致度を調整する。
ここでは前記テーブルの背景音をあらかじめ収集するのではなく、過去にユーザが情報検索サービスを利用したときの背景音や検索結果のクリックにクラスタリングなどの統計データ処理や機械学習処理を行うことで作成する。したがって、ユーザの過去の検索結果に対するクリック行動から統計的に背景音に応じた検索結果の出力順位の調整方法を自動的に決定でき、これにより検索サービスの提供者が想定していない状況でも背景音に適応した検索結果の出力順位に調整可能となる。
本発明のさらに他の態様は、テーブルに格納された放送局の放送音声と音声収集手段で収集された背景音とを比較し、比較結果が事前に定められた類似度以上であれば、音声収集手段で収集された背景音を前記テーブルに保持された放送局の放送音声と判定し、判定された放送局の放送内容に応じて前記一致度を調整する。ここではユーザが視聴中の放送局を判別できるため、検索が行われた時点で放送されている番組の内容に適応した検索結果の出力順位に調整することが可能となる。
前記各態様において音声収集手段で収集された背景音の音特徴量を情報検索端末内で抽出し、抽出された音特徴量と前記テーブルに格納された背景音/放送音声の音特徴量とを比較してもよい。これにより音声収集手段で収集した背景音を情報検索端末内で音声信号処理を施して音特徴量を抽出し、該音特徴量を検索結果の出力順位の調整に利用することができる。特に抽出された音特徴量を検索キーワードと併せて検索サーバに送信すれば、背景音を直接検索サーバに送信する場合と比較して送信データ量を抑制できるため、ユーザ端末がデータ通信速度の制限された携帯端末である場合に有効である。
また、音声収集手段で収集された背景音の音特徴量を情報検索サーバ内で抽出し、抽出された音特徴量と前記テーブルに格納された背景音/放送音声の音特徴量とを比較してもよい。ここでは音声収集手段で収集した背景音を検索サーバ内で音声信号処理を行って音特徴量を抽出するため、計算機能力の限られた携帯端末内で抽出する場合と比較して高度な音声信号処理が可能となり、背景音の類似性判定の精度を高めることが期待できる。
本発明によれば、よりユーザの検索状況に合致した情報を含む文書の検索結果を提示することができる。
本発明の第1実施形態に係る情報検索システムの構成図。 同 第2実施形態に係る情報検索システムの構成図。
≪第1実施形態≫
図1に基づき本発明の第1実施形態に係る情報検索システムを説明する。このシステムは、ユーザ所有の情報検索端末1と情報検索サービスを提供する情報検索サーバ2とがインターネット経由でデータ通信自在に接続され、ユーザの検索状況を背景音としてキーワード検索に反映させている。
情報検索端末1は、ユーザが情報検索サービスを行うための端末を示し、ユーザの背景音を収集するための音声収集手段としてのマイク12と、検索キーワードを入力するため入力手段としてのテンキー11と、検索結果等を表示するための表示手段としてのディスプレイ13とを備え、ディスプレイ13に表示された入力画面に入力された検索キーワード(クエリ)を情報検索サーバ2に送信し、該検索キーワードに基づく情報検索を命令する。
このときユーザの背景音をマイク12で収集し、収集された背景音を情報検索サーバ2に送信する(背景音収集ステップ)。送信する背景音は、マイク12で収集された背景音に対して情報検索端末1内で音声信号処理を施して抽出した音特徴量でもよい。例えば背景音をマイクロフォンとAD変換機とによりデジタル信号化し、該信号をフーリエ変換して得られる周波数特性などを音特徴量とすることができる。これにより携帯電話で音声圧縮転送ができ、データ通信速度に制限されることなく、検索サービスを利用でき、利便性を向上させることができる。
ただし、前記入力手段は、検索キーワードを入力する機能を有していればよく、テンキー11の代わりにキーボードや音声認識機能、手書き入力パッドなどを用いることもできる。また、表示手段は検索結果などを出力できればよく、ディスプレイ13の代わりに文書読み上げ機能を用いることもできる。なお、図1中では、情報検索端末1として携帯電話が示されているが、マイク12などを備えている限り、一般的なパーソナルコンピュータ(PC)や、情報家電、PDAなどでもよい。
情報検索サーバ2は、情報検索サービスを提供する検索エンジンを構成し、情報検索端末1の検索命令に応じて検索キーワードを含む文書を検索する。具体的には、情報検索サーバ2は、通常のコンピュータのハードウェアリソース、例えばCPU.メモリ(RAM).ハードディスクドライブ装置.通信デバイスなどを備える。
このハードウェアリソースとソフトフェアリソース(OS.アプリケーションなど)との協働の結果、情報検索サーバ2は、検索対象の文書の文書インデックスを格納する文書インデックスDB21と、該DB21を参照して情報検索端末1から送信された検索キーワードと検索対象の文書との一致度を算出するキーワード一致度計算部22と、検索対象の文書毎に背景音に応じたスコア加算情報(前記一致度の調整情報)を格納する文書/背景音テーブル23と、情報検索端末1から送信された背景音と前記テーブル23の背景音とを比較して前記一致度に前記テーブル23のスコア加算情報を加えて調整する背景音一致度計算部24と、文書の静的重要度を格納する文書重要度テーブル25と、該テーブル25に格納された各文書の静的重要度と前記計算部24で調整された前記一致度を総合して検索結果のランキング、即ち検索結果の出力順位を決定する総合ランキング計算部26とを実装する。
この計算部26で決定された出力順位にしたがって検索キーワードを含む各文書がソートされ、検索結果として情報検索端末1に返信される。送信された検索結果は情報検索端末1のディスプレイ13に表示される。なお、前記DB21.テーブル23.25は、メモリ(RAM)・ハードディスクドライブ装置などの記憶装置に構築されているものとする。以下、各部21〜25の詳細を説明する。
(1)前記DB21
前記DB21の文書インデックスは、検索対象の文書を微小な単位に分解し、分解された微小な単位をそれが含まれる文書を牽けるデータ構造として格納されている。ここでは微小な単位として単語(形態素)を利用した場合を説明するが、分解の方法は「n−gram」や「Suffix Array」または「フレーズ」などでもよい。
図1中の411.412は、検索対象の文書の一例を示し、WEB文書411.412は、共に単語「カラオケ」が含まれており、WEB文書411にはさらに単語「予約」が含まれ、文書全体としてはカラオケの予約に関する文書を示している。一方、WEB文書412はさらに単語「上達」が含まれ、文書全体としてはカラオケの上達に関する文書を示している。
このような検索対象の文書に対して、図1中の前記DB21の格納データ例では、単語「カラオケ」に対しては「WEB文書(411:2),(412:2),...,L」の文書インデックスが用いられ、単語「予約」に対しては「WEB文書(411:1),(418:2),...,M」の文書インデックスが用いられ、単語「上達」に対しては「WEB文書(412:1),WEB文書(416:1),...,N」の文書インデックスが用いられている。この文書インデックス中の数値は、(文書番号:文書内単語数)を示している。具体的には以下の事項を示している。
・単語「カラオケ」はWEB文書411には2つ存在し、WEB文書412に2つ存在する。
・単語「予約」はWEB文書411に1つ存在し、WEB文書418に2つ存在する。
・単語「上達」はWEB文書412に1つ存在し、WEB文書416に1つ存在する。
ただし、前記DB21に格納される文書インデックスは、必ずしもこの形式である必要は無く、通常の全文検索インデックスに含まれる「idf」や「html」による単語マークアップ情報や単語の位置情報が含まれてもよく、「BM25」のような文書長正規化を行った値を用いてもよい。また、数値や文字列をそのまま含まず、一般的な検索インデックスで利用されるような差分圧縮やエントロピー符号化による圧縮などでサイズ圧縮を行ってもよい。さらに文書インデックスには、各文書内に出現する単語以外に他の文書からリンクを受けた場合のリンクアンカーテキストを含んでもよい。
(2)前記計算部22
前記計算部22は、ユーザ端末1から送信された検索キーワードに基づき前記DB21の文書インデックスを参照して、該検索キーワードを含む文書をリストアップする(キーワード一致度算出ステップ)。ここでリストアップされた各文書の検索キーワードとの一致度を「tf・idf」や「BM25」、「BM25F」などといった方法で算出する。
例えば検索キーワードとして「カラオケ」が指定されていれば、前記計算部22は前記DB21を参照して「カラオケ」の単語を含むWEB文書411.412を抽出する。ここで単語の出現頻度(tf)をキーワード一致度とすれば、「文書iの「カラオケ」との一致度=文書iにおける「カラオケ」の出現回数」が成立する。
このとき前記DB21の文書インデックスには、「カラオケ:(411,2),(412,2)」が格納されているため、
(イ)WEB文書411の一致度=2
(ロ)WEB文書412の一致度=2
と算出され、WEB文書411.412の検索キーワード「カラオケ」との一致度は等しくなる。このキーワード一致度(イ)(ロ)は前記計算部24に送られる。
(3)前記テーブル23
前記テーブル23には、検索対象の文書毎に背景音の種別に応じたスコア加算情報が格納されている。ここで図1中の格納データ例は以下のスコア加算情報を示している。
・「WEB文書411:(A,1),(B,5),(C,1),...」=WEB文書411は背景音の種別Aであれば加算1,背景音の種別Bであれば加算5,背景音の種別Cであれば加算1
・「WEB文書412:(A,5),(B,4),(C,1),...」=WEB文書411は背景音の種別Aであれば加算5,背景音の種別Bであれば加算4,背景音の種別Cであれば加算1
・「WEB文書N:(A,1),(B,1),(C,1),...」=WEB文書Nは背景音の種別Aであれば加算1,背景音の種別Bであれば加算1,背景音の種別Cであれば加算1
ここで格納される背景音(A〜Cなど)は、あらかじめ情報検索サービスの提供者が収集した様々な場面の背景音から加算する背景音を選定し、各背景音の加算値も情報検索サービスの提供者が何らかの方法で定めることができる。例えば各背景音の状況に関連したキーワードのリストを情報検索サービスの提供者が作成し、それらのリスト群と文書の「tf」や「tf・idf」等の一致度を用いる方法でよい。これにより情報検索システムとして状況に応じた検索結果の出力順の調整方法に適用可能となる。
また、背景音をあらかじめ収集するのではなく、過去にユーザが情報検索サービスを利用したときの背景音や検索結果のクリックにクラスタリングなどの統計データ処理や機械学習処理を行うことでも作成することができる。ここでは一般的な統計データ処理または機械学習処理によって加算情報を作成すればよい。
すなわち、過去の検索キーワードと、該検索キーワードの検索結果と、該検索結果に対するクリックログと、該検索結果のクリック時のユーザ背景音とを前記記憶装置に記録する。この記録データに基づき検索結果のクリック・背景音間の関連性/検索キーワード・検索結果に対するクリック・背景音間の関連性を統計処理や機械学習処理により算出し、該関連性に応じてスコア加算情報を定める。
これによりユーザの過去の検索結果に対するクリック行動から把握した背景音に応じてスコア加算情報を自動的に決定することができる。例えば前記クラスタリングや前記機械学習によってクリック時の背景音を音特徴量(フーリエ変換後の周波数特性など)に応じてグループ化し、各グループのスコア加算情報を前記テーブル23に格納することができる。このときスコア加算情報をクリック頻度に応じて段階的に定めるパラメータと各グループのクリック頻度とを比較し、各グループのスコア加算情報を定めることができる。このクリック頻度は、「グループの背景音でのクリック回数/すべての背景音でのクリック回数」により算出すればよい。
なお、前記テーブル23は、背景音に応じた文書のスコア加算情報を格納しているが、これを検索キーワード毎にスコア加算情報を区別した検索キーワード/文書/背景音テーブルとして構築してもよい。
(4)前記計算部24
前記計算部24は、情報検索端末1から送信された背景音の種別を前記テーブル23の背景音と比較して確定し、前記テーブル23のスコア加算情報を参照して前記計算部22から送られたキーワード一致度を調整する(背景音一致度計算ステップ)。このとき背景音同士の比較は、それぞれの背景音から抽出された音特徴量の比較でよい。
すなわち、情報検索端末1から背景音の音特徴量が送信されていれば、該音特徴を用いて背景音種別を確定する。一方、情報検索端末1から背景音の音特徴量ではなく、背景音自体が送信されていれば、情報検索サーバ2側で背景音に音声信号処理を施して音特徴量(フーリエ変換で得られる周波数特性など)を抽出し、抽出された音特徴量から背景音の種別を確定する。このように情報検索サーバ2で背景音の音特徴量を抽出すれば、計算機能力の限られた携帯端末内で音声処理を行う場合よりも高度な音声信号処理が可能となる。例えばサンプル数(N)を増やしてフーリエ変換の計算精度を向上させることもできる。
種別の確定方法としては、前記テーブル23の背景音の音特徴と情報検索端末1の背景音の音特徴量とを対比し、両背景音の類似性を判断する。例えば前記テーブル23の背景音をフーリエ変換した周波数特性を音特徴量として前記記憶装置に記憶しておく。この記憶データと情報検索端末1から送信された背景音の音特徴量とを対比し、周波数特性に閾値内の類似度があれば、該送信された背景音を前記テーブル23の背景音と確定することができる。この閾値は事前に定められているものとする。
この背景音の種別確定後に前記テーブル23のスコア加算情報を参照して確定された背景音種別に応じた各文書のスコア加算情報を抽出する。抽出されたスコア加算情報を各文書のキーワード一致度に加算し、該キーワード一致度の値を調整する。
図1の前記テーブル23に基づき一致度(イ)(ロ)の調整例を説明する。ここでは背景音種別Aがオフィスの背景音を示し、背景音種別Bが飲食店の背景音を示し、情報検索端末1から送信された背景音の種別をオフィスの背景音、即ち背景音Aと確定したものとする。この場合に前記テーブル23のWEB文書411.412に対するスコア加算情報は、
・WEB文書411:1
・WEB文書412:5
と示されている。ここで前記計算部24の一致度調整製方法を単純加算とすれば、「WEB文書の一致度=WEB文書のキーワード一致度+背景音種別のスコア加算情報」に調整される。この結果、WEB文書411.412の一致度は、
(ハ)WEB文書411の一致度=2+1=3
(ニ)WEB文書412の一致度=2+5=7
に調整される。
これによりキーワード一致度(イ)(ロ)として等しかったWEB文書411.412は、ユーザがオフィスから検索キーワード「カラオケ」で情報検索サービスを利用すれば、カラオケの上達方法に関するWEB文書412がカラオケの予約に関するWEB文書411よりも高い一致度の値に調整される。
一方、前記計算部24が、情報検索端末1から送信された背景音を飲食店の背景音、即ち背景音種別Bと確定すれば、前記テーブル23におけるWEB文書411.412のスコア加算情報は、
・WEB文書411:5
・WEB文書412:4
と示されている。この場合のWEB文書411.412の一致度は、
(ホ)WEB文書411の一致度=2+5=7
(ヘ)WEB文書412の一致度=2+4=6
に調整される。これによりキーワード一致度(イ)(ロ)として等しかったWEB文書411.412は、ユーザが飲食店から検索キーワード「カラオケ」で情報検索サービスを利用すれば、カラオケの予約に関するWEB文書411がカラオケの上達方法に関するWEB文書411よりも高い一致度の値に調整される。ここで調整された一致度(ハ)(ニ).(ホ)(ヘ)は、前記計算部26に送られる。
(5)前記テーブル25.前記計算部26
前記テーブル25には、非特許文献2の「PageRank」や非特許文献3の「HITS」に代表される文書の静的重要度が格納されている。また、前記計算部26は、前記計算部24から送られた調整後の一致度(ハ)(ニ).(ホ)(ヘ)と、前記テーブル25を参照して得たリスト化された各文書(WEB文書411.412等)の重要度とを総合して情報検索端末1に返信する検索結果のランキング、即ち出力順を決定する(総合ランキング決定ステップ)。
このような情報検索システムによれば、検索結果の出力順位の調整に新たな有効情報、即ちマイク12で収集した背景音が利用されることから、情報検索サービスを利用するユーザの検索状況(検索環境)により合致した検索結果を提示することができる。
例えば、「カラオケ」といった一般的で多くの文書に出現する検索キーワードで検索命令された場合に、WEB文書411.412のように、キーワード計算ステップにおける「tf・idf」や「BM25」などの言語統計的手法では同程度にキーワード一致しても、前記計算部24から送られた調整後の一致度を用いることで検索サービスを利用するユーザの背景音に適合する検索結果を上位に提示できる。これによりユーザは必要な情報を迅速に得ることができ、この点で検索労力の軽減に貢献できる。
≪第2実施形態≫
図2に基づき本発明の第2実施形態に係る情報検索システムを説明する。このシステムは、放送局の番組音声を利用し、ユーザがどの放送局を視聴しているかを背景音から推定し、放送番組に応じたキーワードを加えて情報検索を行う。
情報検索端末1は第1実施形態と同様に構成され、TV受信機7の近傍に位置し、マイク12を通じてTV受信機7で受信するTV放送を背景音として収集しているものとする。この背景音/背景音の音特徴量を検索キーワードと併せて情報検索サーバ2に送信する。
情報検索サーバ2の文書重要度テーブル25.総合ランキング26は、第1実施形態と同様なため説明を省略する。ここでWEB文書411.412は、第1実施形態と同様に共に単語「カラオケ」が含まれているものの、WEB文書411にはさらに曲名を表している単語「ほげほげ」が含まれているものとする。一方、WEB文書412は、第1実施形態と同様に単語「上達」が含まれ、文書全体としてはカラオケの上達に関する文書を示している。このWEB文書411.412等の検索対象の文書を単語に分割した文書インデックスが前記21に格納されている。
すなわち、前記DB21には、単語「カラオケ」に対しては「WEB文書(411:2),(412:2),...,L」の文書インデックスが用いられ、単語「ほげほげ」に対しては「WEB文書(411:1),(418:2),...,M」の文書インデックスが用いられ、単語「上達」に対しては「WEB文書(412:1),WEB文書(416:1),...,N」の文書インデックスが用いられている。この文書インデックス中の数値は、(文書番号:文書内単語数)を示している。具体的には以下の事項を示している。
・単語「カラオケ」はWEB文書411には2つ存在し、WEB文書412に2つ存在する。
・単語「ほげほげ」はWEB文書411に1つ存在し、WEB文書418に2つ存在する。
・単語「上達」はWEB文書412に1つ存在し、WEB文書416に1つ存在する。
また、情報検索サーバ2は、放送局の音声(音声の音特徴を含む。)を格納した放送音声テーブル27と、放送局の放送内容を格納した放送内容テーブル28を備える点で第1実施形態と相違する。このテーブル27.28および前記DB21を参照して前記計算部22.24が、検索キーワードと各文書との一致度を算出・調整する。
すなわち、前記計算部24は、マイク12で収集された背景音と前記テーブル27の格納データとを比較してユーザの背景音として放送されている放送局の放送内容を判別する。また、前記計算部22は、前記DB21を参照して検索キーワードを含む文書の一致度を算出し、前記各テーブル28を参照して前記計算部24の判別した放送局の放送内容を特定する。特定された放送内容に基づき前記一致度を調整する。以下、前記各部22.24.27.28の詳細を説明する。
(1)前記テーブル27
前記テーブル27は、放送受信機61.62から実時間で放送中の放送局の放送音声から音声信号処理で抽出された音特徴量を格納している。この放送受信機61.62は、TV放送局・ラジオ放送局・有線放送局などの放送サービスの発信元の放送局51.52から放送を受信し、該放送の音声などを前記テーブル27に登録する。すなわち、前記テーブル27を通じて実時間で放送中の放送音声等を参照可能とさせ、放送波受信部・放送音声復調部・音声信号処理部・情報検索サーバ2への通信部などを有している。
前記テーブル27へのデータ格納は、放送受信機61.62の音声信号処理部を通じて放送音声から音特徴量を抽出し、抽出された音特徴量を格納することが好ましい。ただし、前記テーブル27に対する放送音声の音特徴量の格納方法は、放送受信機61.62を用いた実時間処理に限るものではなく、放送事業者から直接に実時間ないし事前に何らかの手段で受け取って格納してもよい。
(2)前記計算部24
前記計算部24は、前記テーブル27を参照して情報携帯端末1から送信された背景音が放送局の放送音声に一致するか否かを判定する(背景音一致度判定ステップ)。このとき情報検索端末1から背景音の音特徴量が送信されれば、前記テーブル27に格納された各放送局の放送音声の音特徴量と比較し、一定以上の類似性があれば、情報携帯端末1の背景音として放送局の放送音声を判定する。
一方、情報検索端末1から背景音の音特徴量ではなく、背景音自体が送信されれば、受信した背景音から音声信号処理で音特徴量を抽出し、同様に比較・判定する。音特徴量の抽出方法や比較・判定の手法は第1実施形態と同様とする。なお、判定の結果、放送局の放送音声と判定されれば、その旨を前記計算部22に通知する。
(3)前記テーブル28
前記テーブル28は、放送局と放送時間とから放送番組の内容を検索可能な状態で放送内容を格納している。例えば市場に存在する電子番組表を流用し、該電子番組表の放送内容を表す文字列をデータ格納してもよい。図2中の格納データ例は、時間情報を省略して現在時点の放送内容を表す文字列を抽出して示している。この時点での放送内容の文字列は、
・放送局A:「TV教室、カラオケ上達方法、...」
・放送局B:「音楽番組、最新ヒット曲、ほげほげ、ふがふが、...」
・放送局N:「天気予報、全国週間天気、...」
と示されている。
(4)前記計算部22
前記計算部22は、前記計算部24から背景音を放送局の放送音声と判定した旨の通知を受け取ると、検索キーワードと各文書との一致度を前記テーブル28に格納された放送局の放送内容に応じて調整して計算する(キーワード一致度計算ステップ)。
すなわち、前記計算部22は、前記計算部24の通知で判定された時点における放送局の放送内容を表す文字列を前記テーブル28から抽出する。抽出された放送内容の文字列を情報検索端末1から送信された検索キーワードに付加し、付加された検索キーワードを含む文書を前記DB21からリストアップする。リストアップされた文書と付加された検索キーワードとの一致度を「tf・idf」や「BM25」、「BM25F」といった方法で算出する。
例えば検索キーワードとして「カラオケ」が送信されれば、前記計算部22は通常、前記DB21を参照して「カラオケ」を含むWEB文書411.412を抽出する。ここで単語の出現頻度(tf)をキーワード一致度とすれば、「文書iの「カラオケ」との一致度=文書iにおける「カラオケ」の出現回数」となる。
このとき前記DB21の文書インデックスには、「カラオケ:(411,2),(412,2)」が格納されているため、
(ト)WEB文書411の一致度=2
(チ)WEB文書412の一致度=2
と算出され、WEB文書411.412の検索キーワード「カラオケ」との一致度は等しくなる。
ここで前記計算部22は、前記計算部24から背景音を放送局Aの放送内容と判定した旨の通知を受け取った場合には、前記テーブル28から放送局Aの放送内容を表す文字列「TV教室、カラオケ上達方法、...」を抽出し、抽出された放送内容の文字列と検索キーワード「カラオケ」とに合致する各WEB文書の一致度を算出する。この算出方法は、例えば通常のキーワード検索と同様に「tf」や「if・idf」、「BM25」、「BM25F」といった方法でもよい。
このときWEB文書412は、単語「上達」を含むため、WEB文書411よりも放送局Aの放送内容を表す文字列と一致する結果が得られる。これにより検索キーワード「カラオケ」のみの一致度(ト)(チ)としては等しかったWEB文書411.412は、ユーザが放送局Aの放送番組「TV教室、カラオケ上達方法、...」を視聴しながら検索キーワード「カラオケ」で検索すれば、カラオケの上達方法に関するWEB文書412がより高い一致度に調整される。
また、前記計算部22は、前記計算部24から背景音を放送局Bの放送内容と判定した旨の通知を受け取った場合には、前記テーブル28から放送局Bの放送内容を表す文字列「音楽番組、最新ヒット曲、ほげほげ、ふがふが、...」を抽出し、抽出された放送内容の文字列と検索キーワード「カラオケ」とに合致した各WEB文書の一致度を算出する。
ここではWEB文書411は、単語「ほげほげ」を含むため、WEB文書412よりも放送局Bの放送内容を表す文字列と一致する結果が得られる。これにより検索キーワード「カラオケ」のみの一致度(ト)(チ)としては等しかったWEB文書411.412は、ユーザが放送局Bの放送番組「音楽番組、最新ヒット曲、ほげほげ、ふがふが、...」を視聴しながら検索キーワード「カラオケ」で検索すれば、特定の曲名「ほげほげ」を含むカラオケ関連のWEB文書411が、カラオケの上達に関するWEB文書412よりも高い一致度に調整される。
ここで調整された一致度は、前記計算部26に送られる。前記計算部26では、受け取った一致度と前記テーブル25を参照して得たリスト化された各文書の重要度とを総合して情報検索端末1に返信する検索結果のランキング、即ち出力順を決定する(総合ランキング計算ステップ)。
このような情報検索システムによれば、第1実施形態と同様にユーザの検索状況(検索環境)により合致した検索結果を提示することができる。すなわち、検索サービスを利用するユーザが視聴中のTV放送やラジオ放送などを前記計算部24が判別するため、検索が行われた時点で放送されている番組の放送内容に適応した検索結果の出力順位の調整が可能となる。
例えば「カラオケ」といった一般的で多くの文書に出現する検索キーワードで検索命令された場合に、WEB文書411.412のように、「tf・idf」や「BM25」などの言語統計的手法では各文書が同程度にキーワード一致しても、前記計算部22から送られた調整後の一致度が用いられるため、検索サービスを利用するユーザの視聴する放送内容に適合する検索結果が上位に提示される。この点でもユーザは必要な情報を迅速に得られ、検索労力の軽減に貢献できる。
≪プログラムなど≫
本発明は、情報検索サーバ2の各部21〜28の一部もしくは全部として、コンピュータを機能させる文書検索プログラムとして構成することもできる。このプログラムによれば、前記各ステップの一部あるいは全部をコンピュータに実行させることが可能となる。
前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BD−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
1…情報検索端末
2…情報検索サーバ
7…TV受信機
11…テンキー
12…マイク(音声収集手段)
13…ディスプレイ
21…文書インデックスDB
22…キーワード一致度計算部(一致度計算手段)
23…文書/背景音テーブル
24…背景音一致度計算部(一致度計算手段)
25…文書重要度テーブル
26…総合ランキング計算部(ランキング決定手段)
27…放送音声テーブル
28…放送内容テーブル
51.52…放送局
61.62…放送受信機
411.412…WEB文書

Claims (9)

  1. 情報検索サーバが、ユーザの情報検索端末から投入された検索キーワードに基づきWEB文書を検索し、情報検索端末に検索結果を応答する情報検索システムであって、
    情報検索端末は、ユーザの背景音を収集する音声収集手段を備え、
    情報検索サーバは、検索キーワードと各WEB文書との一致度を音声収集手段で収集された背景音に応じて調整して算出する一致度計算手段と、
    一致度計算手段で算出した前記一致度を用いて前記検索結果のランキングを決定するランキング決定手段と、
    あらかじめ収集された各場面における背景音の種別毎に前記一致度の調整情報を格納するテーブルと、を備え、
    一致度計算手段は、前記テーブルに格納された背景音と音声収集手段で収集された背景音とを比較し、
    比較結果が事前に定められた類似度以上であれば、音声収集手段で収集された背景音を前記テーブルの背景音と確定し、
    確定された背景音に応じた調整情報を前記一致度に反映させることを特徴とすることを特徴とする情報検索システム。
  2. 情報検索サーバが、ユーザの情報検索端末から投入された検索キーワードに基づきWEB文書を検索し、情報検索端末に検索結果を応答する情報検索システムであって、
    情報検索端末は、ユーザの背景音を収集する音声収集手段を備え、
    情報検索サーバは、検索キーワードと各WEB文書との一致度を音声収集手段で収集された背景音に応じて調整して算出する一致度計算手段と、
    一致度計算手段で算出した前記一致度を用いて前記検索結果のランキングを決定するランキング決定手段と、
    ユーザの過去の検索結果に対するクリック・背景音間の関連性/検索キーワード・検索結果に対するクリック・背景音間の関連性を格納するテーブルと、を備え、
    一致度計算手段は、新たに検索キーワードが投入されたときに音声収集手段で収集された背景音と前記テーブル中の背景音とを比較し、
    比較結果が事前に定められた類似度以上であれば、前記関連性に応じて前記一致度を調整する
    ことを特徴とする情報検索システム。
  3. 情報検索サーバが、ユーザの情報検索端末から投入された検索キーワードに基づきWEB文書を検索し、情報検索端末に検索結果を応答する情報検索システムであって、
    情報検索端末は、ユーザの背景音を収集する音声収集手段を備え、
    情報検索サーバは、検索キーワードと各WEB文書との一致度を音声収集手段で収集された背景音に応じて調整して算出する一致度計算手段と、
    一致度計算手段で算出した前記一致度を用いて前記検索結果のランキングを決定するランキング決定手段と、を備え、
    一致度計算手段は、テーブルに格納された放送局の放送音声と音声収集手段で収集された背景音とを比較し、
    比較結果が事前に定められた類似度以上であれば、音声収集手段で収集された背景音を前記テーブルに保持された放送局の放送音声と判定し、
    判定された放送局の放送内容に応じて前記一致度を調整することを特徴とする情報検索システム。
  4. 音声収集手段で収集された背景音の音特徴量を情報検索端末内で抽出し、一致度計算手段が抽出された音特徴量と前記テーブルに格納された背景音/放送音声の音特徴量とを比較する
    ことを特徴とする請求項1〜3のいずれか1項に記載の情報検索システム。
  5. 音声収集手段で収集された背景音の音特徴量を情報検索サーバ内で抽出し、一致度計算手段が抽出された音特徴量と前記テーブルに格納された背景音/放送音声の音特徴量とを比較する
    ことを特徴とする請求項1〜3のいずれか1項に記載の情報検索システム。
  6. 情報検索サーバが、ユーザの情報検索端末から投入された検索キーワードに基づきWEB文書を検索し、情報検索端末に検索結果を応答するシステムの実行する情報検索方法であって、
    情報検索サーバが、検索キーワードと各WEB文書との一致度を情報検索端末の音声抽出手段にて収集されたユーザの背景音に応じて調整して算出する一致度計算ステップと、
    一致度計算ステップで算出した前記一致度を用いて前記検索結果のランキングを決定するランキング決定ステップと、を有し、
    一致度計算ステップは、あらかじめ収集された各場面における背景音の種別毎に前記一致度の調整情報を格納するテーブルを参照して、該テーブルに格納された背景音と音声収集手段で収集された背景音とを比較し、
    比較結果が事前に定められた類似度以上であれば、音声収集手段で収集された背景音を前記テーブルの背景音と確定し、
    確定された背景音に応じた調整情報を前記一致度に反映させることを特徴とすることを特徴とする情報検索方法。
  7. 情報検索サーバが、ユーザの情報検索端末から投入された検索キーワードに基づきWEB文書を検索し、情報検索端末に検索結果を応答するシステムの実行する情報検索方法であって、
    情報検索サーバが、検索キーワードと各WEB文書との一致度を情報検索端末の音声抽出手段にて収集されたユーザの背景音に応じて調整して算出する一致度計算ステップと、
    一致度計算ステップで算出した前記一致度を用いて前記検索結果のランキングを決定するランキング決定ステップと、を有し、
    一致度計算ステップは、ユーザの過去の検索結果に対するクリック・背景音間の関連性/検索キーワード・検索結果に対するクリック・背景音間の関連性を格納するテーブルを参照して、
    新たに検索キーワードが投入されたときに音声収集手段で収集された背景音と前記テーブル中の背景音とを比較し、
    比較結果が事前に定められた類似度以上であれば、前記関連性に応じて前記一致度を調整する
    ことを特徴とする情報検索方法。
  8. 情報検索サーバが、ユーザの情報検索端末から投入された検索キーワードに基づきWEB文書を検索し、情報検索端末に検索結果を応答するシステムの実行する情報検索方法であって、
    情報検索サーバが、検索キーワードと各WEB文書との一致度を情報検索端末の音声抽出手段にて収集されたユーザの背景音に応じて調整して算出する一致度計算ステップと、
    一致度計算ステップで算出した前記一致度を用いて前記検索結果のランキングを決定するランキング決定ステップと、を有し、
    一致度計算ステップは、テーブルに格納された放送局の放送音声と音声収集手段で収集された背景音とを比較し、
    比較結果が事前に定められた類似度以上であれば、音声収集手段で収集された背景音を前記テーブルに保持された放送局の放送音声と判定し、
    判定された放送局の放送内容に応じて前記一致度を調整することを特徴とする情報検索方法。
  9. 請求項1〜のいずれか1項に記載の情報検索システムの各手段としてコンピュータを機能させることを特徴とする情報検索プログラム。
JP2010270384A 2010-12-03 2010-12-03 情報検索システム、情報検索方法、情報検索プログラム Expired - Fee Related JP5491372B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010270384A JP5491372B2 (ja) 2010-12-03 2010-12-03 情報検索システム、情報検索方法、情報検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010270384A JP5491372B2 (ja) 2010-12-03 2010-12-03 情報検索システム、情報検索方法、情報検索プログラム

Publications (2)

Publication Number Publication Date
JP2012118918A JP2012118918A (ja) 2012-06-21
JP5491372B2 true JP5491372B2 (ja) 2014-05-14

Family

ID=46501629

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010270384A Expired - Fee Related JP5491372B2 (ja) 2010-12-03 2010-12-03 情報検索システム、情報検索方法、情報検索プログラム

Country Status (1)

Country Link
JP (1) JP5491372B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9705728B2 (en) 2013-03-15 2017-07-11 Google Inc. Methods, systems, and media for media transmission and management
JP5642229B2 (ja) * 2013-04-30 2014-12-17 エヌ・ティ・ティ・コミュニケーションズ株式会社 重要性判定システム、重要性判定方法及びコンピュータプログラム
US10002191B2 (en) * 2013-12-31 2018-06-19 Google Llc Methods, systems, and media for generating search results based on contextual information
US9456237B2 (en) 2013-12-31 2016-09-27 Google Inc. Methods, systems, and media for presenting supplemental information corresponding to on-demand media content
JP6322125B2 (ja) * 2014-11-28 2018-05-09 日本電信電話株式会社 音声認識装置、音声認識方法および音声認識プログラム
JP2016173734A (ja) * 2015-03-17 2016-09-29 大日本印刷株式会社 サーバ装置及びそのプログラム、並びに通信システム
US10204104B2 (en) 2015-04-14 2019-02-12 Google Llc Methods, systems, and media for processing queries relating to presented media content
JP7078837B2 (ja) * 2017-10-31 2022-06-01 キヤノンマーケティングジャパン株式会社 情報処理システム、情報処理装置、その制御方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02277169A (ja) * 1989-01-26 1990-11-13 Nec Corp 環境情報による情報検索装置
JP3234083B2 (ja) * 1993-09-20 2001-12-04 株式会社東芝 検索装置
JP4738847B2 (ja) * 2005-03-07 2011-08-03 キヤノン株式会社 データ検索装置および方法
JP2007025076A (ja) * 2005-07-13 2007-02-01 Xanavi Informatics Corp 車載用音声認識装置
JP5326169B2 (ja) * 2009-05-13 2013-10-30 株式会社日立製作所 音声データ検索システム及び音声データ検索方法

Also Published As

Publication number Publication date
JP2012118918A (ja) 2012-06-21

Similar Documents

Publication Publication Date Title
JP5491372B2 (ja) 情報検索システム、情報検索方法、情報検索プログラム
US9378247B1 (en) Generating query refinements from user preference data
US8176029B2 (en) Composite display method and system for search engine of same resource information based on degree of attention
US8117308B1 (en) Detecting events of interest
US9268824B1 (en) Search entity transition matrix and applications of the transition matrix
US9934312B2 (en) Recommendation search method for search engine, device and computer readable storage medium
US8352466B2 (en) System and method of geo-based prediction in search result selection
US8312022B2 (en) Search engine optimization
WO2015196910A1 (zh) 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎
CN102708174B (zh) 一种浏览器中的富媒体信息的展示方法和装置
US20070143300A1 (en) System and method for monitoring evolution over time of temporal content
CN106708817B (zh) 信息搜索方法及装置
TW201214173A (en) Methods and apparatus for displaying content
US20050222989A1 (en) Results based personalization of advertisements in a search engine
US20070233808A1 (en) Propagating useful information among related web pages, such as web pages of a website
CN106415540B (zh) 联合搜索
CN110874436B (zh) 用于基于第三方内容的上下文课程推荐的网络系统
CN106663100B (zh) 多域查询补全
US20100325129A1 (en) Determining the geographic scope of web resources using user click data
JP2009043156A (ja) 番組検索装置および番組検索方法
US20160357857A1 (en) Apparatus, system and method for string disambiguation and entity ranking
JP2011108117A (ja) 話題特定システム、話題特定装置、クライアント端末、プログラム、話題特定方法、および情報処理方法
CN104090757A (zh) 针对浏览器的富媒体信息展示方法
CN104503988A (zh) 搜索方法及装置
CN112868003A (zh) 使用用户互动度的基于实体的搜索系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140227

R150 Certificate of patent or registration of utility model

Ref document number: 5491372

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees