JP4979000B2 - 情報検索方法、装置およびプログラム - Google Patents

情報検索方法、装置およびプログラム Download PDF

Info

Publication number
JP4979000B2
JP4979000B2 JP2007000571A JP2007000571A JP4979000B2 JP 4979000 B2 JP4979000 B2 JP 4979000B2 JP 2007000571 A JP2007000571 A JP 2007000571A JP 2007000571 A JP2007000571 A JP 2007000571A JP 4979000 B2 JP4979000 B2 JP 4979000B2
Authority
JP
Japan
Prior art keywords
query
search
information
vector
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007000571A
Other languages
English (en)
Other versions
JP2008165714A (ja
Inventor
啓一郎 帆足
広海 石先
史昭 菅谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2007000571A priority Critical patent/JP4979000B2/ja
Priority to US11/969,477 priority patent/US7930281B2/en
Publication of JP2008165714A publication Critical patent/JP2008165714A/ja
Application granted granted Critical
Publication of JP4979000B2 publication Critical patent/JP4979000B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、多数の情報の中からユーザの嗜好に合った情報を検索する情報検索方法
、装置およびプログラムに係り、特に、クラスタリング手法を適用して、短時間で正確な情報検索を実現する情報検索方法、装置およびプログラムに関する。
ユーザの嗜好に基づく音楽情報検索技術が特許文献1および非特許文献1に開示されている。ここでは、ユーザからクエリとして入力された、楽曲と嗜好情報(好きな楽曲のサンプル)を基に楽曲の音響的な特徴を解析し、ユーザの嗜好に適合する楽曲を検索してユーザに提示している。また、ユーザからの適合フィードバック情報を利用することで検索精度の向上が図られている。
また、上記した技術の改良として、特許文献2および非特許文献2には、検索対象楽曲をクラスタリングし、そのクラスタリング結果を利用して特徴空間を再構築することにより、検索精度向上を図る手法が開示されている。
特開2003−316818号公報 特開2006−243887号公報 K. Hoashi et al.: Personalization of user profiles for content-based music retrieval based on user preferences, Proc of ACM Multimedia 2003, pp. 110-119, 2003. K. Hoashi et al.: Feature space modification method for content-based music retrieval based on user preferences, Proc of ICASSP 2006, Vol. V, pp. 517-520, 2006.
上記した従来技術ではいずれも、検索対象の楽曲の全てが検索クエリと比較され、その類似度に基づいてユーザ嗜好に合致しているか否かが判定されるので、検索対象の楽曲数が増加するにつれて情報検索の処理時間が増加してしまう。そして、検索対象楽曲数が膨大になると、実用的なシステムの構築が困難になるおそれがある。
また、上記した従来技術では、検索クエリとして、ユーザが好む複数の楽曲のサンプルを入力することが前提となっているが、クエリに含まれる楽曲の音響的特徴が著しく異なる場合、検索の精度に悪影響を及ぼす可能性が高い。
たとえば、静かな楽曲とにぎやかな楽曲とが嗜好情報として入力されると、上記した従来技術では、両楽曲の特徴ベクトルの和を算出して検索クエリを生成するため、クエリは両楽曲の中間的な特徴を持ち、静かでもにぎやかでもない楽曲の特徴をもつことになる。このようなクエリに基づいて検索された楽曲の多くは、ユーザがそもそも入力した楽曲とは類似していない特徴を有する楽曲となり、結果的に当該ユーザにとっての検索精度が劣化する要因となりえる。
本発明の目的は、上記した従来技術の課題を解決し、クラスタリング手法を適用して、短時間で正確な情報検索を実現する情報検索方法、装置およびプログラムを提供することにある。
上記した目的を達成するために、本発明は、検索対象情報の集合の中からユーザの嗜好に適合した情報を検索する情報検索装置において、以下のような手段を含むことを特徴とする。
(1)各検索対象情報の特徴ベクトルを生成する情報ベクトル化手段と、各検索対象情報を、その特徴ベクトルに基づいて複数のクラスタにクラスタリングするクラスタリング手段と、前記各クラスタの代表ベクトルを生成する代表ベクトル生成手段と、検索対象情報に関する嗜好の入力をユーザに促し、入力された嗜好情報を取り込む嗜好取込手段と、前記入力された嗜好情報に基づいて検索クエリを構築する検索クエリ構築手段と、
前記各クラスタの代表ベクトルと検索クエリとを比較し、検索対象のクラスタを類似度の高い少なくとも一つのクラスタに絞り込む検索対象絞込手段と、前記検索対象クラスタに属する情報の特徴ベクトルと前記検索クエリとを比較し、類似度の高い情報を抽出する検索手段と、この検索結果をユーザに提供する検索結果出力手段とを含む。
(2)検索クエリ構築手段が、入力された各嗜好情報の特徴量を代表するクエリベクトルを生成する手段と、各クエリベクトルの類似度を算出する手段と、相互に類似する複数のクエリベクトル同士を一つのクエリベクトルに統合する統合手段とを含み、相互に類似しないクエリベクトルの集合が検索クエリとされることを特徴とする。
(3)検索対象クラスタに属する各情報の特徴ベクトルと検索クエリとの類似度を、各検索対象クラスタ内での情報分布に基づいて正規化する手段を具備し、検索種が、正規化された類似度を対象に、類似度の高い情報を抽出することを特徴とする。
本発明によれば、以下のような効果が達成される。
(1)クエリベクトルごとに楽曲の検索対象クラスタが予め絞り込まれるので、高速検索が可能になる。
(2)検索クエリでは類似度の高いクエリベクトル同士が予め統合され、相互に類似しないクエリベクトルの集合となっており、このクエリベクトルごとに各楽曲との類似度が算出される。したがって、検索クエリが静かな楽曲とにぎやかな楽曲とを含んでいても、それぞれに類似した楽曲が独立して検索されるので、ユーザの嗜好を正確に反映した楽曲検索が可能になる。
(3)楽曲クラスタ内での楽曲分布に基づいて、この楽曲クラスタとクエリベクトルとの類似度が正規化されるので、各楽曲クラスタ内での楽曲分布が一様ではなく偏っていても正確な類似度算出が可能になる。
以下、図面を参照して本発明の最良の実施の形態について詳細に説明する。図1は、本発明の情報検索装置を適用した楽曲検索システムの主要部の構成を示した機能ブロック図であり、ユーザが好みの楽曲を指定すると、この楽曲に適合した楽曲が多数の検索対象楽曲の中から検索されてユーザに提供される。
楽曲データベース(DB)1には、検索対象となる多数の楽曲が登録されている。楽曲ベクトル化モジュール2は、検索対象楽曲の音源から特徴抽出を行って各楽曲の特徴ベクトルを生成する。ここでは、前記特許文献2に開示されているツリーベクトル量子化手法(TreeQ)などを採用することにより各楽曲の特徴ベクトルが生成される。
クラスタリングモジュール3は、各楽曲の特徴ベクトルに基づいて検索対象楽曲のクラスタリングを行う。クラスタリングの手法としては、たとえばk-meansクラスタリングなどの既存アルゴリズムを採用することができる。なお、検索対象楽曲数が多い場合、全ての楽曲ベクトルをクラスタリングするためには膨大な処理時間が必要となるので、時間短縮のために、たとえば検索対象楽曲の一部をサンプリングしてクラスタリング処理を行うようにすることが望ましい。
本実施形態のクラスタリングモジュール3は、検索対象楽曲の一部をサンプリングし、クラスタリング処理を行って複数の楽曲クラスタを生成する楽曲クラスタ生成部31と、各楽曲クラスタの特徴ベクトルclを、その重心などに基づいて生成し、この特徴ベクトルを各クラスタの代表ベクトルとしてクラスタDB4に登録する代表ベクトル生成部32と、残りの全ての楽曲に関して、その特徴ベクトルと各楽曲クラスタの代表ベクトルとの類似度を算出し、最も類似度が高い楽曲クラスタを各楽曲の所属クラスタとして決定し、所属クラスタDB5に登録する楽曲クラスタリング部33とから構成されている。前記所属クラスタDB5では、全ての検索対象楽曲が所属クラスタの識別子と対応付けられている。
嗜好情報取込モジュール10は、検索対象楽曲に関する嗜好の入力をユーザに促し、入力された嗜好情報を取り込んで、その音響的な特徴量を代表するクエリベクトルを生成する。この嗜好情報取込モジュール10には、ユーザが楽曲やそのサンプルを入力しても良いし、あるいは音響的な特徴ごとに分類された複数のデモ楽曲をユーザに視聴させ、そのいずれかをユーザに選択させることで、ユーザの好みの楽曲を認識するようにしても良い。
検索クエリ構築モジュール6は、ユーザの好みの楽曲またはそのサンプルに基づいて検索クエリを構築する。本実施形態では、後に詳述するように、ユーザによって入力あるいは指定された複数の楽曲の特徴ベクトルを比較し、音響的な特徴量が相互に類似している楽曲の特徴ベクトルは一つに統合することで、特徴が相互に類似していない複数のクエリベクトルqiの集合として検索クエリQを構築する。
検索対象絞込モジュール7は、検索クエリ構築モジュール6で構築された検索クエリQに基づいて検索対象の楽曲クラスタCを絞り込む。具体的には、検索クエリQを構成する個々のクエリベクトルqiと各楽曲クラスタの代表ベクトルclとの類似度を算出し、類似度が所定の基準値よりも高い楽曲クラスタのみを検索対象とする。なお、類似度が前記基準値よりも高い楽曲クラスタが一つも存在しないために楽曲クラスタCを絞り込めなくなる事態を避けるため、この検索対象絞込モジュール7では、検索クエリQの各クエリベクトルqiと各楽曲クラスタの代表ベクトルclとの類似度を算出し、類似度の上位N件の楽曲クラスタが検索対象とされるようにしても良い。
楽曲検索モジュール8は、検索対象選択モジュール7で絞り込まれた楽曲クラスタに所属する楽曲のみを対象に、その特徴ベクトルと検索クエリQとの類似度を算出する。具体的には、絞り込まれた楽曲クラスタに属する全ての楽曲の特徴ベクトルdkと、検索クエリQを構成する各クエリベクトルqiとの類似度を算出し、楽曲クラスタごとに類似度が上位の楽曲とそのスコアとを出力する。
本実施形態では、各類似度の算出においてコサイン類似度を採用し、前記楽曲検索モジュール8であれば、クエリベクトルqiと楽曲の特徴ベクトルdkとの類似度Sim(qi,dk)が次式(1)に基づいて算出される。
Figure 0004979000
検索結果統合モジュール9は、楽曲クラスタ別に楽曲検索モジュール8で得られた検索結果を統合する。統合された検索結果(楽曲の一覧)は、最終的な検索結果としてユーザに提示される。
図2は、前記クラスタリングモジュール3による楽曲クラスタリングの手順を示したフローチャートである。
ステップS11では、前記楽曲クラスタ生成部31により、検索対象楽曲の一部が楽曲DB1からランダムに抽出される。例えば、検索対象楽曲が100万曲あれば、1万曲程度がランダムに抽出される。ステップS12では、前記抽出された一部の楽曲が、その特徴ベクトルに基づいてクラスタリングされ、複数の楽曲クラスタが生成される。ステップS13では、各楽曲クラスタの音響的な特徴量を示すクラスタ代表ベクトルclが、前記代表ベクトル生成部32により、各楽曲クラスタに分類されている楽曲の特徴ベクトルの重心として算出される。ステップS14では、前記楽曲クラスタリング部33により、前記抽出されなかった残りの全ての楽曲の特徴ベクトルと各クラスタ代表ベクトルとの類似度が算出され、各楽曲が、ベクトル間の類似度が最も近いいずれかの楽曲クラスタに分類される。
図3は、前記検索クエリ構築モジュール6の構成を示したブロック図であり、ユーザの嗜好に適合した楽曲のクエリベクトルを管理するクエリDB61と、クエリDB61に登録されているクエリベクトル間の類似度を計算する類似度計算部62と、相互に類似する複数のクエリベクトル同士を一つの嗜好情報に統合するクエリベクトル統合部63と、統合後の新たなクエリベクトルをクエリDB61に新規登録し、統合された2つの類似するクエリベクトルを前記クエリDB61から削除することで前記クエリDB61を更新する検索クエリ更新部64とを含み、このような更新が繰り返されることで、類似度の高いクエリベクトル同士が全て統合され、相互に類似しないクエリベクトルの集合である検索クエリQが構築される。
図4は、前記検索クエリ構築モジュール6による検索クエリQの構築手順を示したフローチャートである。
ステップS21では、ユーザの嗜好に適合した複数の楽曲の特徴ベクトルがクエリベクトルqi(q1,q2,…)としてクエリベクトルDB61に取り込まれる。本実施形態では、クエリベクトルqの集合が検索クエリQとして扱われる。ステップS22では、検索クエリQの中から一対のクエリベクトル(qi,qj)が選択される。ステップS23では、各クエリベクトル(qi,qj)の類似度Sim(qi,qj)が前記類似度計算部62で計算される。ステップS24では、クエリベクトルの全ての組み合わせについて類似度算出が完了したか否かが判定され、完了していなければステップS22へ戻り、組み合わせを変更しながら上記した各処理が繰り返される。
以上のようにして、全ての組み合わせに関して類似度算出が完了するとステップS25へ進み、最大の類似度max(Sim(qi,qj))が所定の基準値Thres1を超えているか否かが判定される。基準値Thres1を超えていればステップS26へ進み、前記類似度が最大であった2つのクエリベクトルqi,qjが、前記クエリベクトル統合部63で一つのクエリベクトルqi+jに統合される。ステップS27では、前記検索クエリ更新部64により、統合後のクエリベクトルqi+jが検索クエリQに追加され、統合前の2つのクエリベクトルqi,qjが検索クエリQから削除される。
本実施形態では、前記ステップS25において、最大の類似度max(Sim(qi,qj))でも基準値Thres1を超えなくなるまで上記した各処理が繰り返えされ、類似度の高いクエリベクトル同士を全て統合することで、最終的に、相互に類似しないクエリベクトルの集合である検索クエリQが構築される。
図5は、前記検索対象絞込モジュール7による検索対象クラスタの絞り込み手順を示したフローチャートである。本実施形態では、検索クエリQを構成するクエリベクトルqiごとに、各楽曲クラスタの代表ベクトルclとの類似度が計算される。そして、類似度の高いクエリベクトルと楽曲クラスタとのペアを予め対応付け、後述する楽曲検索時の検索対象として定義することで、検索対象の楽曲クラスタが絞り込まれる。
なお、各クエリベクトルと対応付けられる楽曲クラスタは一つとは限らず、一のクエリベクトルが複数の楽曲クラスタと類似していれば、一のクエリベクトルが複数の楽曲クラスタと対応付けられる場合もあり得る。その逆に、一の楽曲クラスタが複数のクエリベクトルと類似していれば、複数のクエリベクトルが一の楽曲クラスタと対応付けられる場合もあり得る。
図5において、ステップS31では、前記類似度の高いクエリベクトル同士が統合されて相互に類似しないクエリベクトルの集合となった検索クエリQが取り込まれる。ステップS32では、各楽曲クラスタの特徴量を代表するクラスタ代表ベクトルclの一つが選択される。ステップS33では、クエリベクトルの一つqiが選択される。
ステップS34では、選択されているクラスタ代表ベクトルclとクエリベクトルqiとの類似度Sim(qi,cl)が算出される。ステップS35では、この類似度Sim(qi,cl)が所定の基準値Thres2と比較され、類似度Sim(qi,cl)が基準値Thres2を上回っており、今回のクラスタ代表ベクトルclとクエリベクトルqiとの類似度が高いと判定されると、ステップS36において、今回のクラスタ代表ベクトルclが今回のクエリベクトルqiと対応付けられて検索対象クラスタ集合Csに登録される。
ステップS37では、全てのクエリベクトルqiに関して処理が完了したか否かが判定され、完了していなければステップS33へ戻り、クエリベクトルqiを切り替えながら上記した各処理が繰り返される。
その後、検索クエリQの全てのクエリベクトルqiについて上記した処理が完了するとステップS38へ進む。ステップS38では、全てのクラスタ代表ベクトルclに関して処理が完了したか否かが判定される。完了していなければステップS32へ戻り、クラスタ体表ベクトルclを切り替えながら上記した各処理が繰り返される。以上の手順が全て完了すると、検索クエリQとの類似度が高い楽曲クラスタのみが登録された検索対象クラスタ集合Csが完成する。
図6は、前記楽曲検索モジュール8による楽曲検索手順を示したフローチャートであり、本実施形態では、検索クエリQを構成するクエリベクトルqiごと、検索対象として対応付けられた楽曲クラスタに所属する楽曲のみを対象に類似度が計算される。
ステップS41では、前記検索対象クラスタ集合Csの中から楽曲クラスタの一つが選択される。ステップS42では、選択された楽曲クラスタに所属する楽曲の一つ(di)が選択される。ステップS43では、今回の楽曲クラスタと対応付けられたクエリベクトルqiの一つが選択される
ステップS44では、前記ステップS42で選択された楽曲の特徴ベクトル(dk)と前記ステップS43で選択されたクエリベクトル(qi)との類似度Sim(dk,qi)が算出される。ステップS45では、今回の楽曲クラスタと対応付けられている全てのクエリベクトルqiに関して類似度算出が完了したか否かが判定される。完了していなければステップS43へ戻り、クエリベクトルを切り替えながら上記した各手順が繰り返される。
その後、対応付けられている全てのクエリベクトルについて前記類似度算出が完了するとステップS46へ進み、前記選択された楽曲クラスタに所属する全ての楽曲について前記類似度算出が完了したか否かが判定される。完了していなければステップS42へ戻り、楽曲を切り替ながら上記した各手順が繰り返される。
その後、選択されている楽曲クラスタ内の全ての楽曲の特徴ベクトルについて前記類似度算出が完了するとステップS47へ進み、類似度が上位の楽曲が抽出される。ステップS48では、検索対象クラスタ集合Cs内の全ての楽曲クラスタについて、前記類似度が上位の楽曲抽出が完了したか否かが判定される。完了していなければステップS41へ戻り、楽曲クラスタを切り替えながら上記した各手順が繰り返される。
その後、検索対象クラスタ集合Cs内の全ての楽曲クラスタについて、前記類似度が上位の楽曲抽出が完了するとステップS49へ進む。ステップS49では、クラスタごとに抽出された、類似度が上位の楽曲が、検索結果として検索結果統合モジュール9へ提供される。
前記検索結果統合モジュール9は、楽曲クラスタごとに抽出された検索結果(楽曲)を、各楽曲と対応クエリとの類似度に基づいてソートし、類似度が上位の複数の楽曲を検索結果としてユーザへ提供する。
本実施形態によれば、検索クエリQでは類似度の高いクエリベクトル同士が予め統合され、相互に類似しないクエリベクトルの集合となっており、このクエリベクトルごとに各楽曲との類似度が算出され、類似度が高い楽曲が検索結果として出力される。したがって、検索クエリが静かな楽曲とにぎやかな楽曲とを含んでいても、それぞれに類似した楽曲が独立して検索されるので、ユーザの嗜好を正確に反映した楽曲検索が可能になる。しかも、本実施形態ではクエリベクトルごとに楽曲の検索対象クラスタが予め絞り込まれるので、高速検索が可能になる。
ところで、上記した実施形態では、検索結果統合モジュール9が検索結果を類似度に基づいて単純に統合するものとして説明したが、楽曲クラスタとクエリベクトルとの類似度同士を比較する際、各楽曲クラスタ内での楽曲分布が一様ではなく偏っていると、最終的に得られる検索結果に偏りが生じ得る。
図7は、検索結果に偏りが生じる原因を模式的に表現した図であり、ここでは、クエリベクトルq2と対応付けられた楽曲クラスタC2内での楽曲分布が疎であり、クエリベクトルq1と対応付けられた楽曲クラスタC1内での楽曲分布が密である場合を示している。
このような状況下において、クラスタC1,C2をそれぞれ検索対象クラスタとするクエリベクトルq1,q2による検索結果を統合した場合、楽曲の分布密度が高いクラスタC1内の各楽曲とクエリベクトルq1との類似度の方が、クラスタC2内の各楽曲とクエリベクトルq2との類似度よりも全体的に高くなるので、クエリベクトルq1との類似度が高い楽曲ばかりが検索結果に含まれてしまう。その結果、クエリベクトルq2に類似した楽曲が検索されにくくなり、ユーザが満足する検索結果を得られなくなってしまう。
同様の問題は、図8に一例を示したように、一つのクエリベクトルq1が2つの楽曲クラスタC1,C2と対応付けられており、楽曲クラスタC2内での楽曲分布の密度が疎であり、楽曲クラスタC1内での楽曲分布の密度が密である場合にも生じ得る。
このような場合、前記検索結果統合モジュール9において、各楽曲クラスタ内の楽曲とクエリベクトルとの類似度が各検索対象クラスタ内での楽曲分布に基づいて正規化されるように、各類似度を、例えば次式(2)に基づいて予め正規化すれば良い。
Figure 0004979000
上記の正規化手法は、分布が疎のクラスタ、すなわちAvgSim(qi,Ds)が低いと予想されるクラスタに属する楽曲のスコアを向上させる効果がある。この正規化処理の後で検索結果を統合することにより、統合検索結果に含まれる楽曲の偏りを軽減させることが可能になる。
なお、前記図1に関して説明した本発明の楽曲検索システムは、その楽曲ベクトル化モジュール2、クラスタリングモジュール3、検索クエリ構築モジュール6、検索対象絞込モジュール7、楽曲検索モジュール8、検索結果統合モジュール9および嗜好情報取込モジュール10等のそれぞれで実行される手順をコンピュータで読取り可能な記録媒体にプログラムとして記録し、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによっても実現できる。ここでいうコンピュータシステムとは、OSや周辺機器等のハードウェアを含むものである。
なお、上記したプログラムは、上記した各モジュールの機能の一部を実現するためのものであっても良いし、あるいは各モジュールの機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
本発明の情報検索装置を適用した楽曲検索システムの主要部の構成を示した機能ブロック図である。 楽曲クラスタリングの手順を示したフローチャートである。 検索クエリ構築モジュールの構成を示したブロック図である。 検索クエリの構築手順を示したフローチャートである。 検索対象クラスタの絞り込み手順を示したフローチャートである。 楽曲検索手順を示したフローチャートである。 検索結果に偏りが生じる原因を模式的に表現した図(その1)である。 検索結果に偏りが生じる原因を模式的に表現した図(その2)である。
符号の説明
1…楽曲データベース,2…楽曲ベクトル化モジュール,3…クラスタリングモジュール,4…クラスタDB,5…所属クラスタDB,6…検索クエリ構築モジュール,7…検索対象絞込モジュール,8…楽曲検索モジュール,9 …検索結果統合モジュール,10…嗜好情報取込モジュール

Claims (5)

  1. 検索対象情報の集合の中からユーザの嗜好に適合した情報を検索する情報検索装置において、
    各検索対象情報の特徴ベクトルを生成する情報ベクトル化手段と、
    各検索対象情報を、その特徴ベクトルに基づいて複数のクラスタにクラスタリングするクラスタリング手段と、
    前記各クラスタの代表ベクトルを生成する代表ベクトル生成手段と、
    検索対象情報に関する嗜好の入力をユーザに促し、入力された嗜好情報を取り込む嗜好取込手段と、
    前記入力された嗜好情報に基づいて検索クエリを構築する検索クエリ構築手段と、
    前記各クラスタの代表ベクトルと検索クエリとを比較し、検索対象のクラスタを類似度の高い少なくとも一つのクラスタに絞り込む検索対象絞込手段と、
    前記検索対象クラスタに属する情報の特徴ベクトルと前記検索クエリとを比較し、類似度の高い情報を抽出する検索手段と、
    前記検索結果をユーザに提供する検索結果出力手段と、
    各検索対象クラスタに属する各情報の特徴ベクトルと検索クエリとの類似度を、各検索対象クラスタ内での情報分布に基づいて正規化する手段を具備し、
    前記検索手段は、前記正規化された類似度を対象に、類似度の高い情報を抽出し、
    前記検索クエリ構築手段は、相互に類似しないクエリベクトルの集合を検索クエリとするために、
    入力された各嗜好情報の特徴量を代表するクエリベクトルを生成する手段と、
    各クエリベクトルの類似度を算出する手段と、
    相互に類似する複数のクエリベクトル同士を一つのクエリベクトルに統合する統合手段とを含み、
    前記検索対象絞込手段は、検索クエリのクエリベクトルごとに検索対象クラスタを選択し、
    前記検索手段は、検索クエリの各クエリベクトルに類似した情報を、当該各クエリベクトルに基づいて絞り込まれた検索対象クラスタを対象に検索することを特徴とする情報検索装置。
  2. 前記正規化する手段が、各検索対象クラスタに属する各情報の特徴ベクトルdkと検索クエリの各クエリベクトルqiとの類似度Sim(qi, dk)を、次式(3)に基づいて類似度Sim'(qi,dk)へと正規化することを特徴とする請求項1に記載の情報検索装置。
    Figure 0004979000
  3. 前記クラスタリング手段は、
    検索対象情報の一部を、その特徴ベクトルに基づいて複数のクラスタにクラスタリングする手段と、
    各クラスタの代表ベクトルと前記一部以外の各情報の特徴ベクトルとを比較して、当該一部以外の各情報の所属クラスタを決定する手段とを含むことを特徴とする請求項1または2に記載の情報検索装置。
  4. 検索対象情報の集合の中からユーザの嗜好に適合した情報を検索する情報検索方法において、
    各検索対象情報の特徴ベクトルを生成する手順と、
    各検索対象情報を、その特徴ベクトルに基づいて複数のクラスタにクラスタリングする手順と、
    前記各クラスタの代表ベクトルを生成する手順と、
    検索対象情報に関する嗜好の入力をユーザに促し、入力された嗜好情報を取り込む手順と、
    前記入力された嗜好情報に基づいて検索クエリを構築する手順と、
    前記各クラスタの代表ベクトルと検索クエリとを比較し、検索対象のクラスタを類似度の高い少なくとも一つのクラスタに絞り込む手順と、
    前記検索対象クラスタに属する情報の特徴ベクトルと前記検索クエリとを比較し、類似度の高い情報を抽出する手順と、
    前記検索結果をユーザに提供する手順と、を具備し、
    前記抽出する手順では、各検索対象クラスタに属する各情報の特徴ベクトルと検索クエリとの類似度を、各検索対象クラスタ内での情報分布に基づいて正規化してから、当該正規化された類似度を対象に、類似度の高い情報を抽出し、
    前記検索クエリを構築する手順は、相互に類似しないクエリベクトルの集合を検索クエリとするために、
    入力された各嗜好情報の特徴量を代表するクエリベクトルを生成する手順と、
    各クエリベクトルの類似度を算出する手順と、
    相互に類似する複数のクエリベクトル同士を一つのクエリベクトルに統合する手順とを含み、
    前記絞り込む手順では、検索クエリのクエリベクトルごとに検索対象クラスタを選択し、
    前記抽出する手順では、検索クエリの各クエリベクトルに類似した情報を、当該各クエリベクトルに基づいて絞り込まれた検索対象クラスタを対象に検索することを特徴とする情報検索方法。
  5. 検索対象情報の集合の中からユーザの嗜好に適合した情報を検索する情報検索プログラムにおいて、
    各検索対象情報の特徴ベクトルを生成する手順と、
    各検索対象情報を、その特徴ベクトルに基づいて複数のクラスタにクラスタリングする手順と、
    前記各クラスタの代表ベクトルを生成する手順と、
    検索対象情報に関する嗜好の入力をユーザに促し、入力された嗜好情報を取り込む手順と、
    前記入力された嗜好情報に基づいて検索クエリを構築する手順と、
    前記各クラスタの代表ベクトルと検索クエリとを比較し、検索対象のクラスタを類似度の高い少なくとも一つのクラスタに絞り込む手順と、
    前記検索対象クラスタに属する情報の特徴ベクトルと前記検索クエリとを比較し、類似度の高い情報を抽出する手順と、
    前記検索結果をユーザに提供する手順と、をコンピュータに実行させ、
    前記抽出する手順では、各検索対象クラスタに属する各情報の特徴ベクトルと検索クエリとの類似度を、各検索対象クラスタ内での情報分布に基づいて正規化してから、当該正規化された類似度を対象に、類似度の高い情報を抽出し、
    前記検索クエリを構築する手順は、相互に類似しないクエリベクトルの集合を検索クエリとするために、
    入力された各嗜好情報の特徴量を代表するクエリベクトルを生成する手順と、
    各クエリベクトルの類似度を算出する手順と、
    相互に類似する複数のクエリベクトル同士を一つのクエリベクトルに統合する手順とを含み、
    前記絞り込む手順では、検索クエリのクエリベクトルごとに検索対象クラスタを選択し、
    前記抽出する手順では、検索クエリの各クエリベクトルに類似した情報を、当該各クエリベクトルに基づいて絞り込まれた検索対象クラスタを対象に検索することを特徴とする情報検索プログラム。
JP2007000571A 2007-01-05 2007-01-05 情報検索方法、装置およびプログラム Active JP4979000B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007000571A JP4979000B2 (ja) 2007-01-05 2007-01-05 情報検索方法、装置およびプログラム
US11/969,477 US7930281B2 (en) 2007-01-05 2008-01-04 Method, apparatus and computer program for information retrieval

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007000571A JP4979000B2 (ja) 2007-01-05 2007-01-05 情報検索方法、装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2008165714A JP2008165714A (ja) 2008-07-17
JP4979000B2 true JP4979000B2 (ja) 2012-07-18

Family

ID=39595161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007000571A Active JP4979000B2 (ja) 2007-01-05 2007-01-05 情報検索方法、装置およびプログラム

Country Status (2)

Country Link
US (1) US7930281B2 (ja)
JP (1) JP4979000B2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5401885B2 (ja) * 2008-09-24 2014-01-29 日本電気株式会社 モデルの構築方法、構築システム及び構築用プログラム
JP4438014B1 (ja) * 2008-11-06 2010-03-24 株式会社ネイクス 有害顧客検知システム、その方法及び有害顧客検知プログラム
US8190663B2 (en) * 2009-07-06 2012-05-29 Osterreichisches Forschungsinstitut Fur Artificial Intelligence Der Osterreichischen Studiengesellschaft Fur Kybernetik Of Freyung Method and a system for identifying similar audio tracks
US20110060738A1 (en) 2009-09-08 2011-03-10 Apple Inc. Media item clustering based on similarity data
JP2013029872A (ja) * 2009-10-19 2013-02-07 Nec Corp 情報推薦システム、方法、及び、プログラム
JP2012008623A (ja) * 2010-06-22 2012-01-12 Jvc Kenwood Corp プレイリスト作成装置、プレイリスト作成方法、及びプレイリスト作成プログラム
JP5692725B2 (ja) * 2011-05-27 2015-04-01 公立大学法人大阪府立大学 近似最近傍探索に係るデータベースの登録方法および登録装置
JP5598925B2 (ja) * 2011-06-29 2014-10-01 Kddi株式会社 高次元の特徴ベクトルを高精度で検索する検索装置及びプログラム
JP5874547B2 (ja) * 2012-06-27 2016-03-02 株式会社Jvcケンウッド 情報選択装置、情報選択方法、端末装置およびコンピュータプログラム
US9235853B2 (en) * 2012-09-11 2016-01-12 Google Inc. Method for recommending musical entities to a user
CN103020845B (zh) * 2012-12-14 2018-08-10 百度在线网络技术(北京)有限公司 一种移动应用的推送方法及系统
JP5383943B1 (ja) * 2013-06-06 2014-01-08 株式会社野村総合研究所 契約書分析システム、プログラム及び方法
GB2534535A (en) * 2014-10-08 2016-08-03 Lancaster Univ Business Entpr Ltd Data structuring and searching methods and apparatus
JP6160665B2 (ja) * 2015-08-07 2017-07-12 株式会社Jvcケンウッド 情報選択装置、情報選択方法、端末装置およびコンピュータプログラム
US10489712B2 (en) * 2016-02-26 2019-11-26 Oath Inc. Quality-based scoring and inhibiting of user-generated content
US10591609B1 (en) 2017-01-11 2020-03-17 Telephonics Corp. System and method for providing accurate position location information to military forces in a disadvantaged signal environment
US10936653B2 (en) 2017-06-02 2021-03-02 Apple Inc. Automatically predicting relevant contexts for media items
JP6764992B2 (ja) * 2019-12-24 2020-10-07 楽天株式会社 検索システム、検索方法、及びプログラム
CN111552831B (zh) * 2020-04-21 2024-03-26 腾讯音乐娱乐科技(深圳)有限公司 一种音乐推荐的方法及服务器
JP7212728B1 (ja) 2021-07-20 2023-01-25 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134593A (ja) * 1999-11-05 2001-05-18 Nippon Telegr & Teleph Corp <Ntt> 近傍データ検索方法及び装置及び近傍データ検索プログラムを格納した記憶媒体
JP2001331514A (ja) * 2000-05-19 2001-11-30 Ricoh Co Ltd 文書分類装置及び文書分類方法
JP2003316818A (ja) 2002-02-21 2003-11-07 Kddi Corp 情報検索方法及びその装置、コンピュータプログラム
US7777125B2 (en) * 2004-11-19 2010-08-17 Microsoft Corporation Constructing a table of music similarity vectors from a music similarity graph
JP4597714B2 (ja) 2005-03-01 2010-12-15 Kddi株式会社 情報検索装置および方法ならびにコンピュータプログラム
JP4752623B2 (ja) * 2005-06-16 2011-08-17 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
US20080168059A1 (en) 2008-07-10
JP2008165714A (ja) 2008-07-17
US7930281B2 (en) 2011-04-19

Similar Documents

Publication Publication Date Title
JP4979000B2 (ja) 情報検索方法、装置およびプログラム
CN110162695B (zh) 一种信息推送的方法及设备
US8335786B2 (en) Multi-media content identification using multi-level content signature correlation and fast similarity search
US7797265B2 (en) Document clustering that applies a locality sensitive hashing function to a feature vector to obtain a limited set of candidate clusters
TWI553494B (zh) 基於多模態融合之智能高容錯視頻識別系統及其識別方法
Vaizman et al. Codebook-based audio feature representation for music information retrieval
US8170702B2 (en) Method for classifying audio data
US8344233B2 (en) Scalable music recommendation by search
CN111143604B (zh) 一种音频的相似度匹配方法、装置及存储介质
CN108090068B (zh) 医院数据库中的表的分类方法及装置
Darshna Music recommendation based on content and collaborative approach & reducing cold start problem
JP2017045291A (ja) 類似画像検索システム
Yang et al. Semi-supervised feature selection for audio classification based on constraint compensated Laplacian score
KR102345401B1 (ko) 콘텐츠를 검색하는 방법, 장치, 기기 및 저장 매체
EP3477505A1 (en) Fingerprint clustering for content-based audio recogntion
Nagavi et al. Content based audio retrieval with MFCC feature extraction, clustering and sort-merge techniques
De Vries et al. Parallel streaming signature em-tree: A clustering algorithm for web scale applications
CN113515662B (zh) 一种相似歌曲检索方法、装置、设备以及存储介质
JP4597714B2 (ja) 情報検索装置および方法ならびにコンピュータプログラム
KR102031282B1 (ko) 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템
JP2018010482A (ja) 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム
JP5414614B2 (ja) キーワードタイプ判定装置及びプログラム
Gutiérrez et al. Landmark-based music recognition system optimisation using genetic algorithms
Wang et al. Local alignment for query by humming
Ramirez-Chacon et al. Indexing and searching point clouds

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110601

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111214

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120411

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120412

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150427

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4979000

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150