JP2008171243A - コンテンツ検索装置および方法並びにプログラム - Google Patents

コンテンツ検索装置および方法並びにプログラム Download PDF

Info

Publication number
JP2008171243A
JP2008171243A JP2007004487A JP2007004487A JP2008171243A JP 2008171243 A JP2008171243 A JP 2008171243A JP 2007004487 A JP2007004487 A JP 2007004487A JP 2007004487 A JP2007004487 A JP 2007004487A JP 2008171243 A JP2008171243 A JP 2008171243A
Authority
JP
Japan
Prior art keywords
search
content
database
text
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007004487A
Other languages
English (en)
Inventor
Yosuke Ohashi
洋介 大橋
Yosuke Shirahata
陽介 白畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2007004487A priority Critical patent/JP2008171243A/ja
Publication of JP2008171243A publication Critical patent/JP2008171243A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】画像等のコンテンツを、感性的な検索語を用いた場合でも適切に検索する。
【解決手段】複数種類のテキストと、各テキストの意味に関連する色彩パターンとを対応づけた第1のデータベースDB1、および複数種類のコンテンツとコンテンツが表す色彩パターンとを対応づけた第2のデータベースDB1を用意する。入力部2が検索語の入力を受け付けると、検索部3が第1のデータベースDB1を参照して、入力された検索語が表すテキストの意味に関連する色彩パターンを検索し、第2のデータベースDB2を参照して、検索した色彩パターンと対応づけられたコンテンツを検索する。
【選択図】図1

Description

本発明は、検索語を入力することにより、画像等のコンテンツを検索するコンテンツ検索装置および方法並びにコンテンツ検索方法をコンピュータに実行させるためのプログラムに関するものである。
インターネット上から画像および動画像の等のコンテンツを検索する種々のシステムが提案されている。例えば、インターネット上のWebサイトから収集したHTML文書から画像のURLを抽出し、URLを参照して画像を取得し、取得した画像およびそれを使用したHTML文書における画像重要度を算出し、HTML文書と画像ファイルから画像検索に必要な画像の特徴や画像のタグ情報等を検索のキーワードとして抽出して画像データベースを構築し、受け付けた検索条件に合致する画像を画像データベースから検索し、検索結果の画像を画像の重要度順に表示する手法が提案されている(特許文献1参照)。
また、入力された検索語から検索キーワードを決定して画像のキーワード検索を行い、検索語に対応する感性パターンを取得して感性パターンの特徴量を用いて画像を検索し、2つの検索結果を統合することにより、目的とする画像を精度良く検索する手法が提案されている(特許文献2参照)。
これらの手法によれば、検索語を入力することにより、所望とする画像を精度良く検索することができる。
特開2004−220267号公報 特開2000−112956号公報
しかしながら、検索を行うユーザは、所望とする画像のイメージを表す検索語を明確に決定してから検索を行う場合のみならず、感性的に曖昧な表現の検索語を用いて検索を行う場合がある。上記特許文献1に記載された手法では、ユーザが必要とする画像にユーザが抱くイメージを表すキーワードが対応づけられているとは限らない。このため、ユーザが必要とする画像が有するイメージに対応する感性的に曖昧な表現を検索語として使用した場合、ユーザにとって意味のない画像が検索されてしまうおそれがある。
また、特許文献2に記載された手法においても、ユーザが必要とする画像にユーザが考える情報がキーワードとして対応づけられているとは限らないため、同様に感性的に曖昧な表現を検索語として使用した場合に、ユーザにとって意味のない画像が検索されてしまうおそれがある。
本発明は、上記事情に鑑みなされたものであり、画像等のコンテンツを感性的な検索語を用いた場合でも適切に検索できるようにすることを目的とする。
本発明によるコンテンツ検索装置は、複数種類のテキストと、該各テキストの意味に関連する色彩パターンとを対応づけた第1のデータベースと、
複数種類のコンテンツと、該各コンテンツが表す色彩パターンとを対応づけた第2のデータベースと、
検索語の入力を受け付ける入力手段と、
前記第1のデータベースを参照して、前記検索語が表すテキストの意味に関連する色彩パターンを検索し、前記第2のデータベースを参照して、該検索された色彩パターンと対応づけられたコンテンツを検索する検索手段とを備えたことを特徴とするものである。
これにより、所望とされる検索語を入力すると、その検索語が表すテキストの意味に関連する色彩パターンが検索され、さらに検索された色彩パターンと対応づけられたコンテンツが検索される。このため、感性的な表現にて所望とされる検索語を入力した場合、その感性的な表現に対応する色彩パターンを有するコンテンツが検索され、その結果、ユーザの感性を反映させてコンテンツの検索を行うことができる。
「色彩パターン」としては、1つの色のみであってもよく、複数の色の組合せであってもよい。
「コンテンツ」としては、色彩パターンと対応づけることが可能なものであれば、例えば静止画像、動画像、音楽、書籍、衣料、絵画のみならず、商品の外観やデザイン等もコンテンツとして検索の対象とすることができる。
なお、本発明によるコンテンツ検索装置においては、前記検索されたコンテンツの利用頻度に基づくスコアを、前記複数種類のテキストおよび前記複数種類のコンテンツと対応づけた利用履歴データベースとして管理する履歴管理手段をさらに備えるものとしてもよい。
これにより、利用履歴データベースを参照して、利用頻度の高いコンテンツを知ることができる。また、利用履歴を蓄積することができるため、検索結果に過去の利用履歴を反映させることができる。
「利用」とは、検索結果のコンテンツを利用することである。具体的には、静止画像、動画像および音楽の場合、これらを再生したり、ダウンロードしたりすることである。書籍、衣料、絵画および商品の場合、これらのコンテンツが検索は、ネットショッピングにおいて行われることが多い。このため、書籍、衣料、絵画および商品の場合、利用とは検索結果のコンテンツの購入、購入の予約、および購入のための買い物かごへの移動等をコンテンツの「利用」とすることができる。
また、本発明によるコンテンツ検索装置においては、前記検索手段を、前記利用履歴データベースを参照して、前記スコアを前記コンテンツの検索結果に反映させる手段としてもよい。
これにより、コンテンツの利用頻度を反映させた検索結果を得ることができる。
また、本発明によるコンテンツ検索装置においては、前記履歴管理手段を、ユーザ単位で前記利用履歴データベースを管理する手段としてもよい。
これにより、利用履歴データベースを参照すれば、利用頻度の高いコンテンツをユーザ単位で知ることができる。また、利用履歴を蓄積することができるため、検索結果に過去の利用履歴をユーザ単位で反映させることができる。
また、この場合、前記履歴管理手段を、特定のユーザについて、前記利用履歴データベースにスコアが未知のテキストがある場合には、該特定のユーザ以外の他のユーザのスコアを参照して該未知のテキストのスコアを推定する手段としてもよい。
これにより、特定のユーザについて、利用履歴データベースにスコアが未知のテキストがある場合には、特定のユーザ以外の他のユーザのスコアを参照して未知のテキストのスコアを推定して、特定のユーザの利用履歴を検索結果に反映させることができる。
また、本発明によるコンテンツ検索装置においては、前記検索手段を、前記検索語を入力したユーザを特定し、該特定されたユーザの前記利用履歴データベースを参照して該利用履歴を前記コンテンツの検索結果に反映させる手段としてもよい。
これにより、特定のユーザについてのコンテンツの利用頻度を反映させた検索結果を得ることができる。
また、本発明によるコンテンツ検索装置においては、前記入力手段を、複数の検索語の入力を受け付ける手段としてもよい。
これにより、複数の検索語を用いた検索を行うことができる。
また、本発明によるコンテンツ検索装置においては、前記入力手段を、文章の入力を受け付け、該入力された文章を複数のテキストに分割する手段としてもよい。
これにより、文章を入力すれば検索に使用する検索語をユーザが決定する必要がなくなるため、コンテンツの検索を行うユーザの負担を軽減できる。
また、本発明によるコンテンツ検索装置においては、前記検索手段を、前記複数のテキストに対応する複数の色彩パターンを検索し、該複数の色彩パターン同士の類似度を前記検索結果に反映させる手段としてもよい。
これにより、色彩パターンが類似するコンテンツのみを用いて検索を行ったり、検索結果を表示する等できるため、検索結果を利用しやすいものとすることができる。
また、本発明によるコンテンツ検索装置においては、前記入力された検索語の類義語を解析する解析手段をさらに備えるものとし、
前記検索手段を、前記入力された検索語およびその類義語が表すテキストに対応する前記色彩パターンを検索する手段としてもよい。
これにより、より広範囲なテキストにより検索を行うことができるため、ユーザの意図に適した検索結果をより得やすくすることができる。
「類義語」としては、検索語の同義語および関連語を含む。同義語には、外来語、省略形、通称、慣用表現、陳腐化した表現、漢字と仮名による表記の揺れ、および送り仮名による表記の揺れ等を含む。
「関連語」としては、検索語より広い意味を有する広義語、および狭い意味を有する狭義語を含む。
また、本発明によるコンテンツ検索装置においては、前記第1のデータベースが第1の言語のテキストと色彩パターンとが対応づけられてなるものである場合において、前記入力手段から前記第1の言語とは異なる第2の言語による検索語が入力された場合、該第2の言語の検索語を前記第1の言語の検索語に翻訳する翻訳手段をさらに備えるものとしてもよい。
これにより、第1のデータベースに登録されているテキストの言語とは異なる言語で検索語を入力しても検索を行うことができる。
本発明によるコンテンツ検索方法は、検索語の入力を受け付け、
複数種類のテキストと、該各テキストの意味に関連する色彩パターンとを対応づけた第1のデータベースを参照して、前記検索語が表すテキストの意味に関連する色彩パターンを検索し、
複数種類のコンテンツと、該各コンテンツが表す色彩パターンとを対応づけた第2のデータベースを参照して、該検索された色彩パターンと対応づけられたコンテンツを検索することを特徴とするものである。
なお、本発明によるコンテンツ検索方法をコンピュータに実行させるためのプログラムとして提供してもよい。
以下、図面を参照して本発明の実施形態について説明する。図1は本発明の第1の実施形態によるコンテンツ検索装置の構成を示す概略ブロック図である。図1に示すように、第1の実施形態によるコンテンツ検索装置1は、検索語の入力を受け付ける入力部2と、第1のデータベースDB1と、第2のデータベースDB2と、検索語に対応するコンテンツを検索する検索部3と、コンテンツを保存するコンテンツ保存部4と、コンテンツの検索結果を出力する出力部5とを備える。
入力部2は、例えばインターネット等のネットワークと接続されており、ネットワークに接続された端末装置からユーザが送信した検索語を受信して装置1に入力する。なお、検索語としては、例えば、涼しい、寒い、暑い、暖かい、ポップおよび地味等の、ユーザが検索を所望とするコンテンツに抱く感性的な表現を表すテキストを用いるものとする。
検索部3は、第1および第2のデータベースDB1,DB2を参照して、ユーザが入力した検索語に対応するコンテンツを検索する。
第1のデータベースDB1は、複数種類のテキストと各テキストの意味に関連する色彩パターンとを対応づけて登録したものである。ここで、第1のデータベースDB1は、図2に示すように、色の印象としてWARM−COOLとなる関係を横軸に、SOFT−HARDとなる関係を縦軸に取り、涼しい、寒い、暑い、ポップおよび地味等のテキストと、そのテキストにより印象づけられる色彩パターンとの関係を定めたカラーマップを作成し、カラーマップ上における色の印象を表すテキストと色彩パターンとを図3に示すように対応づけることにより作成する。なお、図2において、涼しい、寒い等のテキストの意味に関連する色彩パターンを「□」により示している。
なお、図3に示す第1のデータベースDB1においては、例えば「涼しい」というテキストが3種類登録されており、「涼しい1」には、(R,G,B)=(0,0,255)、(128,128,255)の2色の色彩パターンが、「涼しい2」には、(R,G,B)=(64,64,200)、(32,200,255)の2色の色彩パターンが、「涼しい3」には(R,G,B)=(32,255,255)、(64,255,645)の2色の色彩パターンが登録されている。なお、テキストと登録されている色彩パターンは2色のみならず、1色または3色以上の場合もある。
第2のデータベースDB2は、コンテンツ保存部4に保存された複数種類のコンテンツと、コンテンツが表す色彩パターンとを対応づけて登録したものである。なお、第1の実施形態においては、コンテンツとして画像を用いるものとする。コンテンツが表す色彩パターンは、画像に含まれる色を抽出し、多く含まれる順に色をソートした場合における上位所定数(例えば1〜3)の色からなるものとすればよい。図4は第2のデータベースDB2の例を示す図である。図4に示すように第2のデータベースDB2には、複数の画像の画像IDと、コンテンツが表す色彩パターンとが登録されている。例えば画像001には、(R,G,B)=(0,0,255)、(128,128,255)の2色の色彩パターンが登録されている。
ここで、コンテンツとしては画像に限定されるものではなく、動画像、音楽、書籍、衣料、絵画、および商品の外観やデザイン等もコンテンツとして用いることができる。なお、動画像、衣料および絵画については画像の場合と同様にコンテンツが表す色彩パターンを求めればよい。また、音楽、書籍および商品の外観やデザインについては、音楽、書籍および商品の外観やデザインがどのような色のイメージを持つかについて調査を行い、調査により得られたイメージを表す色をRGB色空間上にマッピングしてその統計をとり、より多くの人がそのコンテンツに対して持ったイメージを表す複数の色をそのコンテンツが表す色彩パターンとすればよい。
検索部3は、入力部2に入力された検索語の意味に関連する色彩パターンを第1のデータベースDB1を参照して検索する。例えば、検索語が「涼しい」であれば、第1のデータベースDB1に登録された「涼しい1」、「涼しい2」および「涼しい3」の3つのテキストに対応づけられた(R,G,B)=(0,0,255)、(128,128,255)の2色の色彩パターン、(R,G,B)=(64,64,255)、(32,200,255)の2色の色彩パターン、および(R,G,B)=(32,255,255)、(64,255,645)の2色の色彩パターンを検索する。
さらに、検索部3は、第2のデータベースDB2を参照して、検索した色彩パターンと対応づけられたコンテンツを検索して検索結果を出力する。なお、検索した色彩パターンとコンテンツに対応づけられた色彩パターンとが完全に一致する場合には、完全に一致した色彩パターンに対応づけられたコンテンツを検索結果に含める。
また、検索した色彩パターンとコンテンツに対応づけられた色彩パターンとが一致しない場合には、検索した色彩パターンおよび第2のデータベースDB2に登録されたすべてのコンテンツの色彩パターンをRGB色空間上にマッピングし、検索した色彩パターンとコンテンツの色彩パターンとのRGB色空間上における類似度を算出し、類似度が最も大きいコンテンツを検索結果に含める。例えば、検索した色彩パターンとコンテンツの色彩パターンとのRGB色空間上における距離を算出し、その距離が最も短いコンテンツを検索結果に含める。
具体的には、検索した色彩パターンおよび距離判断の対象となるコンテンツの色彩パターンが2色からなる場合、図5に示すように、RGB色空間上に検索した色彩パターンP1,P2をマッピングし、距離判断の対象となるコンテンツの色彩パターンC1,C2をマッピングする。そして、線分P1P2と線分C1C2との距離L1を、第2のデータベースDB2に登録されているすべてのコンテンツについて求め、距離L1が最も短いコンテンツを検索結果に含める。
なお、距離L1が最も短いコンテンツのみならず、すべてのコンテンツを距離L1が短い順にソートし、上位所定数(例えば3つ)のコンテンツを検索結果に含めるようにしてもよい。なお、このコンテンツの検索は、検索されたすべての色彩パターンについて行うものであり、3通りの色彩パターンが検索された場合には、3通りの色彩パターンのそれぞれについてコンテンツの検索を行う。
ここで、色彩パターンが2色からなる場合には上述した線分間の距離L1を類似度として算出すればよいが、類似度は検索した色彩パターンの色数および距離判断の対象となるコンテンツの色彩パターンの色数に応じて、上述した線分間の距離のみならず、点間の距離、点と線分との距離、点と面との距離、点と立体との距離、線分と面との距離、線分と立体との距離、面と面との距離、および面と立体との距離等、種々異なるものとなる。また、上述した距離に基づくもののみならず、線分、面および立体が重なり合う程度を類似度として求めるようにしてもよい。
出力部5は、例えばインターネット等のネットワークと接続されており、検索語を装置1に送信した端末装置に検索結果を送信する。
次いで、第1の実施形態において行われる処理について説明する。図6は第1の実施形態において行われる処理を示すフローチャートである。入力部2は検索語が入力されたか否かの監視を行っており(ステップST1)、検索語の入力が受け付けられると、検索部3が第1のデータベースDB1を参照して、検索語の意味に関連する色彩パターンを検索する(ステップST2)。
次いで、検索部3は、第2のデータベースDB2を参照して、検索した色彩パターンと対応づけられたコンテンツを検索する(ステップST3)。そして出力部5が検索結果を出力し(ステップST4)、処理を終了する。
このように、第1の実施形態においては、検索語が入力されると、検索語の意味に関連する色彩パターンを検索し、さらに検索した色彩パターンと対応づけられたコンテンツを検索するようにしたものである。このため、感性的な表現にて検索語を入力した場合、その感性的な表現に対応する色彩パターンを有するコンテンツが検索され、その結果、検索を行うユーザの感性を反映させてコンテンツの検索を行うことができる。
次いで、本発明の第2の実施形態について説明する。図7は第2の実施形態によるコンテンツ検索装置の構成を示す概略ブロック図である。なお、第2の実施形態において第1の実施形態と同一の構成については同一の参照番号を付与し、ここでは詳細な説明は省略する。第2の実施形態によるコンテンツ検索装置1Aは、検索されたコンテンツの利用頻度に基づくスコアを、複数種類のテキストと対応づけた第1の利用履歴データベースDB3および複数種類のコンテンツと対応づけた第2の利用履歴データベースDB4として管理する履歴管理部6を備えた点が第1の実施形態と異なる。
図8は第1の利用履歴データベースDB3を示す図である。図8に示すように第1の利用履歴データベースDB3は、第1のデータベースDB1に登録されたものと同様の複数種類のテキストと利用頻度のスコアとが対応づけられている。履歴管理部6は、検索されたコンテンツが利用される毎に、そのコンテンツと対応づけられた、検索された色彩パターンを得たテキストの入力頻度のスコアを1つ加算することにより第1の利用履歴データベースDB3を更新する。例えば、第2のデータベースDB2における画像001が利用された場合、「涼しい1」が画像001に対応する色彩パターンとなるため、履歴管理部6は「涼しい1」のスコアを加算する。
図9は第2の利用履歴データベースDB4を示す図である。図9に示すように利用履歴データベースDB4は、第2のデータベースDB2に登録されたものと同様の複数種類のコンテンツと利用頻度のスコアとが対応づけられている。履歴管理部6は、検索されたコンテンツが利用される毎に、利用履歴データベースDB4に登録された対応するコンテンツの利用頻度のスコアを1つ加算することにより第2の利用履歴データベースDB4を更新する。例えば、第2のデータベースDB2における画像001が利用された場合、履歴管理部6は画像001のスコアを加算する。
なお、本実施形態においてはコンテンツは画像であるため、検索結果に含まれるコンテンツを再生したり、ダウンロードしたりすることがコンテンツの利用となる。
ここで、第2の実施形態においては、上記第1の実施形態と同様に検索を行うが、検索部3が利用履歴を検索結果に反映させる。例えば複数の画像が検索された場合、検索結果においてスコアが高い順に画像を並べて表示する。具体的には、第2の利用履歴データベースDB4に登録された画像001,002,003が検索された場合、各画像のスコアは13,24,11であることから、画像002,001,003の順に画像を並べて検索結果を表示する。なお、第1の利用履歴データベースDB3を参照して、色彩パターンを用いての検索により得られたコンテンツに対応する色彩パターンを得たテキストについてのスコアが高い順に、画像を並べて検索結果を表示するようにしてもよい。
次いで、第2の実施形態において行われる処理について説明する。図10は第2の実施形態において行われる処理を示すフローチャートである。入力部2は検索語が入力されたか否かの監視を行っており(ステップST11)、検索語の入力が受け付けられると、検索部3が第1のデータベースDB1を参照して、検索語の意味に関連する色彩パターンを検索する(ステップST12)。
次いで、検索部3は、第2のデータベースDB2を参照して、検索した色彩パターンと対応づけられたコンテンツを検索し(ステップST13)、さらに第2の利用履歴データベースDB4を参照して、検索結果におけるコンテンツの表示順を決定する(ステップST14)。そして出力部5が検索結果を出力する(ステップST15)。
続いて、履歴管理部6が検索結果におけるコンテンツが利用されたか否かの監視を開始し(ステップST16)、コンテンツが利用されると、利用されたコンテンツについての第1の利用履歴データベースDB3および第2の利用履歴データベースDB4を更新し(ステップST17)、処理を終了する。
これにより、第2の実施形態においては、第1の利用履歴データベースDB3を参照することにより利用頻度の高いコンテンツを得たテキストを、第2の利用履歴データベースDB4を参照することにより、利用頻度の高いコンテンツを知ることができる。また、コンテンツの利用履歴を蓄積することができるため、検索結果に過去の利用履歴を反映させることができる。
次いで、本発明の第3の実施形態について説明する。図11は第3の実施形態によるコンテンツ検索装置の構成を示す概略ブロック図である。なお、第3の実施形態において第1の実施形態と同一の構成については同一の参照番号を付与し、ここでは詳細な説明は省略する。第3の実施形態によるコンテンツ検索装置1Bは、コンテンツ検索装置1Bを利用するユーザを登録したユーザデータベースDB5を備えるとともに、履歴管理部6が第1の利用履歴データベースDB3および第2の利用履歴データベースDB4をユーザ単位で管理するようにした点が第2の実施形態と異なる。
図12はユーザデータベースDB5を示す図である。図12に示すように、第3の実施形態において使用するユーザデータベースDB5は、ユーザID、アカウント名、メールアドレスおよび名前が登録されている。入力部2は、ユーザデータベースDB5を参照して、検索を行うユーザの認証を行う。
履歴管理部6は、ユーザ毎に第1の利用履歴データベースDB3および第2の利用履歴データベースDB4を管理する。具体的には、第1の利用履歴データベースDB3および第2の利用履歴データベースDB4をそれぞれユーザIDと対応づけて管理する。
次いで、第3の実施形態において行われる処理について説明する。図13は第3の実施形態において行われる処理を示すフローチャートである。入力部2はまず検索を行うユーザの認証を行い(ステップST21)、続いて、検索語が入力されたか否かの監視を開始する(ステップST22)。検索語の入力が受け付けられると、検索部3が第1のデータベースDB1を参照して、検索語の意味に関連する色彩パターンを検索する(ステップST23)。
次いで、検索部3は、第2のデータベースDB2を参照して、検索した色彩パターンと対応づけられたコンテンツを検索し(ステップST24)、さらに第2の利用履歴データベースDB4を参照して、検索結果におけるコンテンツの表示順を決定する(ステップST25)。そして出力部5が検索結果を出力する(ステップST26)。
続いて、履歴管理部6が検索結果におけるコンテンツが利用されたか否かの監視を開始し(ステップST27)、コンテンツが利用されると、利用されたコンテンツについての検索を行ったユーザの第1の利用履歴データベースDB3および第2の利用履歴データベースDB4を更新し(ステップST28)、処理を終了する。
これにより、第3の実施形態においては、第1の利用履歴データベースDB3を参照することにより、ユーザ毎に利用頻度の高いコンテンツを得たテキストを、第2の利用履歴データベースDB4を参照することにより、ユーザ毎に利用頻度の高いコンテンツを知ることができる。また、コンテンツの利用履歴をユーザ毎に蓄積することができるため、ユーザ毎に過去の利用履歴を検索結果に反映させることができる。
なお、上記第3の実施形態において、ユーザ毎に第1の利用履歴データベースDB3および第2の利用履歴データベースDB4を管理しているが、第1の利用履歴データベースDB3にスコアが未知のテキストがある場合がある。この場合、協調フィルタリングの手法を用いて未知のスコアを推定するようにしてもよい。以下、協調フィルタリングの手法を用いた未知のスコアの推定について説明する。
協調フィルタリングの手法とは、ユーザの嗜好を過去の行動という形で記録し、そのユーザと似たような行動をとっているユーザの嗜好情報をもとに、ユーザの嗜好を推測する手法である。
第1の利用履歴データベースDB3をユーザ毎に用意した場合、ユーザIDとテキストのスコアとの対応表を生成することができる。図14はユーザIDとテキストのスコアとの対応表を示す図である。図14に示す対応表において、ユーザID10001のユーザ(以下ユーザ10001とする)について、「寒い3」のスコアが未知であったとする。この場合、履歴管理部6は、「寒い3」以外のテキストについて、ユーザ10001とスコアの傾向が似ているユーザを対応表から抽出する。図14に示す対応表を見るとユーザ10002がユーザ10001とスコアの傾向が似ていいるため、ユーザ10002を抽出する。そして、ユーザ10002についての「寒い3」のスコアをユーザ10001の「寒い3」のスコアと推定する。
これにより、未知のスコアを推定して、特定のユーザの利用履歴を検索結果に反映させることができる。
次いで、本発明の第4の実施形態について説明する。なお、第4の実施形態は、複数の検索語の入力を受け付けるようにした点が上記第1から第3の実施形態と異なるのみであり、装置の構成については第1から第3の実施形態と同一であるため、ここでは詳細な説明は省略する。
図15は第4の実施形態において行われる処理を示すフローチャートである。なお、以下に示すフローチャートは第1の実施形態に第4の実施形態を適用したものであるが、第2および第3の実施形態に対しても同様に適用できるものである。入力部2は検索語が複数入力されたか否かの監視を行っており(ステップST31)、検索語の入力が受け付けられると、検索部3が第1のデータベースDB1を参照して、検索語の意味に関連する色彩パターンを検索する(ステップST32)。なお、第4の実施形態においては、複数の検索語が入力されているため、複数の検索語の意味にそれぞれ関連する色彩パターンを検索する。
次いで、検索部3は、第2のデータベースDB2を参照して、検索した色彩パターンと対応づけられたコンテンツを検索する(ステップST33)。そして出力部5が検索結果を出力し(ステップST34)、処理を終了する。
これにより、第4の実施形態においては、複数の検索語を用いた検索を行うことができる。
次いで、本発明の第5の実施形態について説明する。なお、第5の実施形態は、入力部2が文章の入力を受け付け、文章を形態素解析して複数のテキストに分割し、これにより得られたテキストを検索語として検索を行うようにした点が上記第1から第3の実施形態と異なるのみであり、装置の構成については第1から第3の実施形態と同一であるため、ここでは詳細な説明は省略する。
ここで、形態素とはこれ以上に細かくすると意味がなくなってしまう最小の文字列であり、文章を最小の文字列に分解することを形態素解析という。例えば、「南国の海風は気持ちいい」という文章は、「南国」、「の」、「海風」、「は」、「気持ちいい」に分割できる。入力部2はこのように文章を分割し、そのうちの意味のある形態素を検索語のテキストとして使用する。具体的には、名詞、動詞、形容詞および形容動詞を検索語のテキストとして使用する。したがって、「南国の海風は気持ちいい」という文章からは、「南国」、「海風」および「気持ちいい」が検索語のテキストとして使用される。
次いで、第5の実施形態において行われる処理について説明する。図16は第5の実施形態において行われる処理を示すフローチャートである。なお、以下に示すフローチャートは第1の実施形態に第5の実施形態を適用したものであるが、第2および第3の実施形態に対しても同様に適用できるものである。入力部2は文章が入力されたか否かの監視を行っており(ステップST41)、文章の入力が受け付けられると文章を形態素解析により複数のテキストに分割して複数の検索語を取得する(ステップST42)。次いで、検索部3が第1のデータベースDB1を参照して、検索語の意味に関連する色彩パターンを検索する(ステップST43)。なお、第5の実施形態においては、複数の検索語が取得されるため、複数の検索語のそれぞれに対応する色彩パターンを検索する。
次いで、検索部3は、第2のデータベースDB2を参照して、検索した色彩パターンと対応づけられたコンテンツを検索する(ステップST44)。そして出力部5が検索結果を出力し(ステップST45)、処理を終了する。
これにより、第5の実施形態においては、文章を入力すれば検索に使用する検索語をユーザが決定する必要がなくなるため、コンテンツの検索を行うユーザの負担を軽減できる。
次いで、本発明の第6の実施形態について説明する。なお、第6の実施形態は、複数の検索語の入力を受け付け、複数の検索語のそれぞれにより検索された複数の色彩パターン同士の類似度を検索結果に反映させるようにした点が上記第1から第3の実施形態と異なるのみであり、装置の構成については第1から第3の実施形態と同一であるため、ここでは詳細な説明は省略する。
図17は第6の実施形態において行われる処理を示すフローチャートである。なお、以下に示すフローチャートは第1の実施形態に第6の実施形態を適用したものであるが、第2および第3の実施形態に対しても同様に適用できるものである。入力部2は検索語が複数入力されたか否かの監視を行っており(ステップST51)、検索語の入力が受け付けられると、検索部3が第1のデータベースDB1を参照して、検索語の意味に関連する色彩パターンを検索する(ステップST52)。なお、第6の実施形態においては、複数の検索語が入力されているため、複数の検索語のそれぞれに対応する色彩パターンを検索する。
次いで、検索部3は、検索した複数の色彩パターン同士の類似度を算出する(ステップST53)。具体的には上記第1の実施形態において説明した、検索した色彩パターンとコンテンツに対応づけられた色彩パターンとの類似度の算出と同様の手法により、検索した複数の色彩パターン同士について算出したRGB色空間上における距離を類似度として算出する。
なお、色彩パターンが2色からなる場合には上述した線分間の距離L1を類似度として算出すればよいが、類似度は検索された色彩パターンの色数および距離判断の対象となるコンテンツの色彩パターンの色数に応じて、上述した線分間の距離L1のみならず、点間の距離、点と線分との距離、点と面との距離、点と立体との距離、線分と面との距離、線分と立体との距離、面と面との距離、面と立体との距離等、種々異なるものとなる。また、類似度は上述した距離に基づくもののみならず、線分、面および立体が重なり合う程度を類似度として求めるようにしてもよい。
次いで、検索部3は、第2のデータベースDB2を参照して、検索した色彩パターンと対応づけられたコンテンツを、算出した類似度を考慮して検索する(ステップST54)。すなわち、類似度が高い色彩パターンについて寄与率を高くしてコンテンツの検索を行う。具体的には、すべての色彩パターンから見て、類似度が所定のしきい値未満の関係にある色彩パターンを検索の条件から除外し、類似度が所定のしきい値以上の関係にある色彩パターンのみを用いて検索を行う。
例えば、青、水色および赤の1色からなる3通りの色彩パターンが検索された場合、所定のしきい値を適切に定めることにより、青と水色との類似度は所定のしきい値以上となり、青と赤、および水色と赤との類似度は所定のしきい値未満となる。したがって、赤の色彩パターンを検索の条件から削除し、青および水色の色彩パターンのみを用いて検索を行う。
そして出力部5が検索結果を出力し(ステップST55)、処理を終了する。
図18は第6の実施形態における検索結果を表す検索結果画面を示す図である。図18に示すように、検索結果画面30においては、青および水色の色彩パターンのみを用いて検索したことが分かるように、青の色彩パターン31と、青の色彩パターン31により検索した画像のサムネイル画像32とが対応づけられ、さらに、水色の色彩パターン33と、水色の色彩パターンにより検索した画像のサムネイル画像34とが対応づけられている。
これにより、第6の実施形態においては、色彩パターンが類似するコンテンツのみを用いて検索を行ったり、検索結果を表示する等できるため、検索結果を利用しやすいものとすることができる。
なお、上記第6の実施形態においては、検索したすべての色彩パターンを用いてコンテンツの検索を行い、検索結果において、類似度が所定のしきい値以上の色彩パターンにより検索されたコンテンツと、類似度が所定のしきい値未満の色彩パターンにより検索されたコンテンツとを分類するようにしてもよい。例えば図19に示す検索結果画面35において、類似度が所定のしきい値以上の色彩パターンにより検索されたコンテンツ36,37については背景部分を同一の色とし、類似度が所定のしきい値未満の色彩パターンにより検索されたコンテンツ38については背景部分をコンテンツ36,37の背景部分とは異なる色とすればよい。
また、上記第6の実施形態においては、複数の検索語の入力を受け付けているが、第5の実施形態と同様に、文章の入力を受け付け、文章を複数のテキストに分割し、複数のテキストが表す複数の検索語のそれぞれにより検索された複数の色彩パターン同士の類似度を検索結果に反映させるようにしてもよい。
次いで、本発明の第7の実施形態について説明する。図20は第7の実施形態によるコンテンツ検索装置の構成を示す概略ブロック図である。なお、第7の実施形態において第1の実施形態と同一の構成については同一の参照番号を付与し、ここでは詳細な説明は省略する。第7の実施形態によるコンテンツ検索装置1Cは、入力部2に入力された検索語の類義語を解析する解析部7および類義語辞書データベースDB6を備え、検索部3において検索語およびその類義語が表すテキストに対応する色彩パターンを検索するようにした点が第1の実施形態と異なる。なお、第7の実施形態は第2から第6の実施形態に対しても同様に適用できる。すなわち、第4の実施形態に対しては入力されたすべての検索語の類義語を、第5の実施形態においては文章を分割することにより得られた複数のテキストの類義語を求めて検索を行えばよい。
ここで、「類義語」としては、検索語の同義語および関連語を含む。同義語には、外来語、省略形、通称、慣用表現、陳腐化した表現、漢字と仮名による表記の揺れ、および送り仮名による表記の揺れ等を含む。
「関連語」としては、検索語より広い意味を有する広義語、および狭い意味を有する狭義語を含む。例えば、「感動」の広義語として「情操」および「感情」が、狭義語として「感銘」および「エクスタシー」等が挙げられる。また、「おそれ」の広義語として「情緒」および「感情」が、狭義語として「畏怖」、「おびえ」および「恐慌」等が挙げられる。
類義語辞書データベースDB6には、各種テキストに対する類義語が登録されており、解析部7は類義語辞書データベースDB6を参照して、入力された検索語の類義語を解析する。
次いで、第7の実施形態において行われる処理について説明する。図21は第7の実施形態において行われる処理を示すフローチャートである。入力部2は検索語が入力されたか否かの監視を行っており(ステップST61)、検索語の入力が受け付けられると、解析部7が類義語辞書データベースDB6を参照して、検索語の類義語を解析する(ステップST62)。次いで検索部3が、第1のデータベースDB1を参照して、検索語およびその類義語に対応する色彩パターンを検索する(ステップST63)。
次いで、検索部3は、第2のデータベースDB2を参照して、検索した色彩パターンと対応づけられたコンテンツを検索する(ステップST64)。そして出力部5が検索結果を出力し(ステップST65)、処理を終了する。
これにより、第7の実施形態においては、より広範囲なテキストにより検索を行うことができるため、ユーザの意図に適した検索結果をより得やすくすることができる。
なお、上記第7の実施形態においては、コンテンツ検索装置1Cが類義語辞書データベースDB6を備えているが、コンテンツ検索装置1Cとネットワーク接続された他所に設けられたサーバに類義語辞書データベースDB6を保存しておき、ネットワーク経由で類義語辞書データベースDB6を参照して類義語を解析するようにしてもよい。
次いで、本発明の第8の実施形態について説明する。図22は第8の実施形態によるコンテンツ検索装置の構成を示す概略ブロック図である。なお、第8の実施形態において第1の実施形態と同一の構成については同一の参照番号を付与し、ここでは詳細な説明は省略する。第8の実施形態によるコンテンツ検索装置1Dは、第1のデータベースDB1におけるテキストが日本語である場合において、日本語以外の言語により検索語が入力された場合に、検索語を日本語に翻訳する翻訳部8および翻訳辞書データベースDB7を備えた点が第1の実施形態と異なる。なお、第8の実施形態は第2から第7の実施形態に対しても同様に適用できる。また、本実施形態においては、日本語以外の言語として英語を用いるものとする。
次いで、第8の実施形態において行われる処理について説明する。図23は第8の実施形態において行われる処理を示すフローチャートである。入力部2は英語の検索語が入力されたか否かの監視を行っており(ステップST71)、検索語の入力が受け付けられると、翻訳部8が入力された英語の検索語を日本語に翻訳する(ステップST72)。次いで検索部3が、第1のデータベースDB1を参照して、翻訳された検索語に対応する色彩パターンを検索する(ステップST73)。
次いで、検索部3は、第2のデータベースDB2を参照して、検索した色彩パターンと対応づけられたコンテンツを検索する(ステップST74)。そして出力部5が検索結果を出力し(ステップST75)、処理を終了する。
これにより、第8の実施形態においては、第1のデータベースDB1に登録されているテキストの言語とは異なる言語の検索語を入力しても、コンテンツの検索を行うことができる。
なお、上記第8の実施形態においては、英語を日本語に翻訳するための1つの翻訳辞書データベースDB7のみを設けているが、様々な言語を日本語に翻訳するための複数の翻訳辞書データベースを用意すれば、英語のみならず、様々な言語を用いての検索を行うことができる。
以上、本発明の実施形態に係る装置について説明したが、コンピュータを、上記の入力部2、検索部3、出力部5、履歴管理部6、解析部7および翻訳部8に対応する手段として機能させ、図6,10,13,15,16,17,21,23に示すような処理を行わせるプログラムも、本発明の実施形態の1つである。また、そのようなプログラムを記録したコンピュータ読取り可能な記録媒体も、本発明の実施形態の1つである。
本発明の第1の実施形態によるコンテンツ検索装置の構成を示す概略ブロック図 カラーマップを示す図 第1のデータベースを示す図 第2のデータベースを示す図 RGB色空間上における色彩パターンの距離の算出を説明するための図 第1の実施形態において行われる処理を示すフローチャート 第2の実施形態によるコンテンツ検索装置の構成を示す概略ブロック図 第1の利用履歴データベースを示す図 第2の利用履歴データベースを示す図 第2の実施形態において行われる処理を示すフローチャート 第3の実施形態によるコンテンツ検索装置の構成を示す概略ブロック図 ユーザデータベースを示す図 第3の実施形態において行われる処理を示すフローチャート ユーザIDとテキストのスコアとの対応表を示す図 第4の実施形態において行われる処理を示すフローチャート 第5の実施形態において行われる処理を示すフローチャート 第6の実施形態において行われる処理を示すフローチャート 第6の実施形態における検索結果を表す検索結果画面を示す図(その1) 第6の実施形態における検索結果を表す検索結果画面を示す図(その2) 第7の実施形態によるコンテンツ検索装置の構成を示す概略ブロック図 第7の実施形態において行われる処理を示すフローチャート 第8の実施形態によるコンテンツ検索装置の構成を示す概略ブロック図 第8の実施形態において行われる処理を示すフローチャート
符号の説明
1 コンテンツ検索装置
2 入力部
3 検索部
4 コンテンツ保存部
5 出力部
6 履歴管理部
7 解析部
8 翻訳部
DB1 第1のデータベース
DB2 第2のデータベース
DB3 第1の利用履歴データベース
DB4 第2の利用履歴データベース
DB5 ユーザデータベース
DB6 類義語辞書データベース
DB7 翻訳辞書データベース

Claims (13)

  1. 複数種類のテキストと、該各テキストの意味に関連する色彩パターンとを対応づけた第1のデータベースと、
    複数種類のコンテンツと、該各コンテンツが表す色彩パターンとを対応づけた第2のデータベースと、
    検索語の入力を受け付ける入力手段と、
    前記第1のデータベースを参照して、前記検索語が表すテキストの意味に関連する色彩パターンを検索し、前記第2のデータベースを参照して、該検索された色彩パターンと対応づけられたコンテンツを検索する検索手段とを備えたことを特徴とするコンテンツ検索装置。
  2. 前記検索されたコンテンツの利用頻度に基づくスコアを、前記複数種類のテキストおよび前記複数種類のコンテンツと対応づけた利用履歴データベースとして管理する履歴管理手段をさらに備えたことを特徴とする請求項1記載のコンテンツ検索装置。
  3. 前記検索手段は、前記利用履歴データベースを参照して、前記スコアを前記コンテンツの検索結果に反映させる手段であることを特徴とする請求項2記載のコンテンツ検索装置。
  4. 前記履歴管理手段は、ユーザ単位で前記利用履歴データベースを管理する手段であることを特徴とする請求項2記載のコンテンツ検索装置。
  5. 前記履歴管理手段は、特定のユーザについて、前記利用履歴データベースにスコアが未知のテキストがある場合には、該特定のユーザ以外の他のユーザのスコアを参照して該未知のテキストのスコアを推定する手段であることを特徴とする請求項4記載のコンテンツ検索装置。
  6. 前記検索手段は、前記検索語を入力したユーザを特定し、該特定されたユーザの前記利用履歴データベースを参照して該利用履歴を前記コンテンツの検索結果に反映させる手段であることを特徴とする請求項4または5記載のコンテンツ検索装置。
  7. 前記入力手段は、複数の検索語の入力を受け付ける手段であることを特徴とする請求項1から6のいずれか1項記載のコンテンツ検索装置。
  8. 前記入力手段は、文章の入力を受け付け、該入力された文章を複数のテキストに分割する手段であることを特徴とする請求項1から6のいずれか1項記載のコンテンツ検索装置。
  9. 前記検索手段は、前記複数のテキストに対応する複数の色彩パターンを検索し、該複数の色彩パターン同士の類似度を前記検索結果に反映させる手段であることを特徴とする請求項7または8記載のコンテンツ検索装置。
  10. 前記入力された検索語の類義語を解析する解析手段をさらに備え、
    前記検索手段は、前記入力された検索語およびその類義語が表すテキストに対応する前記色彩パターンを検索する手段であることを特徴とする請求項1から9のいずれか1項記載のコンテンツ検索装置。
  11. 前記第1のデータベースが第1の言語のテキストと色彩パターンとが対応づけられてなるものである場合において、前記入力手段から前記第1の言語とは異なる第2の言語による検索語が入力された場合、該第2の言語の検索語を前記第1の言語の検索語に翻訳する翻訳手段をさらに備えたことを特徴とする請求項1から10のいずれか1項記載のコンテンツ検索装置。
  12. 検索語の入力を受け付け、
    複数種類のテキストと、該各テキストの意味に関連する色彩パターンとを対応づけた第1のデータベースを参照して、前記検索語が表すテキストの意味に関連する色彩パターンを検索し、
    複数種類のコンテンツと、該各コンテンツが表す色彩パターンとを対応づけた第2のデータベースを参照して、該検索された色彩パターンと対応づけられたコンテンツを検索することを特徴とするコンテンツ検索方法。
  13. 検索語の入力を受け付ける手順と、
    複数種類のテキストと、該各テキストの意味に関連する色彩パターンとを対応づけた第1のデータベースを参照して、前記検索語が表すテキストの意味に関連する色彩パターンを検索する手順と、
    複数種類のコンテンツと、該各コンテンツが表す色彩パターンとを対応づけた第2のデータベースを参照して、該検索された色彩パターンと対応づけられたコンテンツを検索する手順とを有することを特徴とするコンテンツ検索方法をコンピュータに実行させるためのプログラム。
JP2007004487A 2007-01-12 2007-01-12 コンテンツ検索装置および方法並びにプログラム Withdrawn JP2008171243A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007004487A JP2008171243A (ja) 2007-01-12 2007-01-12 コンテンツ検索装置および方法並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007004487A JP2008171243A (ja) 2007-01-12 2007-01-12 コンテンツ検索装置および方法並びにプログラム

Publications (1)

Publication Number Publication Date
JP2008171243A true JP2008171243A (ja) 2008-07-24

Family

ID=39699273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007004487A Withdrawn JP2008171243A (ja) 2007-01-12 2007-01-12 コンテンツ検索装置および方法並びにプログラム

Country Status (1)

Country Link
JP (1) JP2008171243A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3151443A1 (en) 2008-06-30 2017-04-05 Canon Kabushiki Kaisha Data supplying apparatus, data processing apparatus and data communication system
JP2017521794A (ja) * 2014-12-30 2017-08-03 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 検索方法及び装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3151443A1 (en) 2008-06-30 2017-04-05 Canon Kabushiki Kaisha Data supplying apparatus, data processing apparatus and data communication system
JP2017521794A (ja) * 2014-12-30 2017-08-03 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 検索方法及び装置
US10296541B2 (en) 2014-12-30 2019-05-21 Baidu Online Network Technology (Beijing) Co., Ltd. Searching method and apparatus

Similar Documents

Publication Publication Date Title
Grover et al. Use of the Edinburgh geoparser for georeferencing digitized historical collections
JP2003114906A (ja) ユーザ定義可能なパーソナリティを備えたメタ文書管理システム
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
CN105975558A (zh) 建立语句编辑模型的方法、语句自动编辑方法及对应装置
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
JP2008287517A (ja) 強調表示装置及びプログラム
JPH10275157A (ja) データ処理装置
RU2698405C2 (ru) Способ поиска в базе данных
Hlava The taxobook: Principles and practices of building taxonomies, part 2 of a 3-part series
Jung et al. A scalable hybrid approach for extracting head components from web tables
JP5455232B2 (ja) 画像選定装置、方法及びプログラム
US20200043074A1 (en) Apparatus and method of recommending items based on areas
CN110781300A (zh) 基于百度百科知识图谱的旅游资源文化特色评分算法
Dominguès et al. Toponym recognition in custom-made map titles
JP2010272075A (ja) 感性情報抽出装置、感性検索装置、その方法およびプログラム
JP2008171243A (ja) コンテンツ検索装置および方法並びにプログラム
JP4057962B2 (ja) 質問応答装置、質問応答方法及びプログラム
JP2011048527A (ja) 感性情報抽出装置、感性検索装置、その方法およびプログラム
JP2009064213A (ja) 目的指向書籍推薦システム
JP2008171244A (ja) コンテンツ検索装置および方法並びにプログラム
JP2006139484A (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP2002358323A (ja) 検索要求文生成装置、検索結果提示装置、検索要求文生成方法、検索結果提示方法、検索要求文生成プログラム、検索結果提示プログラム、データ検索装置、データ検索方法、及びデータ検索プログラム
JP2010198525A (ja) 言語横断型情報検索システムおよび言語横断型情報検索方法
JP2004334699A (ja) テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体
JP2002189754A (ja) 文書検索装置及び文書検索方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100406