JP5094915B2 - 検索装置 - Google Patents

検索装置 Download PDF

Info

Publication number
JP5094915B2
JP5094915B2 JP2010130585A JP2010130585A JP5094915B2 JP 5094915 B2 JP5094915 B2 JP 5094915B2 JP 2010130585 A JP2010130585 A JP 2010130585A JP 2010130585 A JP2010130585 A JP 2010130585A JP 5094915 B2 JP5094915 B2 JP 5094915B2
Authority
JP
Japan
Prior art keywords
search
search result
similarity
content
engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010130585A
Other languages
English (en)
Other versions
JP2011257891A (ja
Inventor
ゾラン ステイチ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2010130585A priority Critical patent/JP5094915B2/ja
Publication of JP2011257891A publication Critical patent/JP2011257891A/ja
Application granted granted Critical
Publication of JP5094915B2 publication Critical patent/JP5094915B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、クエリに関連するデータを検索する技術に関するものである。
クエリを用いた検索技術では、クローリングと呼ばれる手法により、予め、ウェブ上に存在するコンテンツが収集されて、検索システムのデータベースに蓄積される。蓄積時には、各データに索引付け(インデックス)と、キーワードとコンテンツの関連度を示す重み付けが行われる。
検索対象となるコンテンツの種類は、テキスト(文字列)や静止画、動画像(以下単に「動画」という。)、音声などの多岐のメディアに渡り、各々のコンテンツに対応した検索システムにてデータ収集等の処理が行われる。そして、ユーザによって入力されたクエリ(キーワード)との関連度(重み値)を用いて、各コンテンツにランキングを付与して検索結果を生成する。
複数のメディアを検索対象とした技術として、検索対象となる複数の文書や画像を保持する検索対象データベースから検索条件に対してランキング検索を行う技術が知られている(特許文献1参照)。
特開2004−94813号公報
上述したキーワードとコンテンツとの関連度は、メディアの種類によってその算出アルゴリズムが異なり、各々のメディアに対応した検索システムによって管理・記憶されるのが一般的である。
しかし、特許文献のように、複数のメディアを検索対象として検索システムを実現する場合には、異なるアルゴリズムで算出された関連度を正規化する等の処理によって統合しておく必要があり、その算出は複雑になる。また、テキスト検索や画像検索、動画検索といった既存の検索システムでは各メディアに適したアルゴリズムで関連度が算出されているのに対し、関連度を統合した新たなアルゴリズムを開発するのはコストがかかった。
また、既存のメディア毎の検索エンジンの場合、ユーザが所望する情報がどのメディアで表現されているかを、複数の検索エンジンでの検索結果を比較しなければ知ることができず、ユーザがクエリに対してどのメディアが適切であるかを選択することは難しかった。
本発明は、上述の課題に鑑みてなされたものであり、その目的とするところは、クエリに適したメディアでの検索結果を出力することのできる検索システムを既存の検索システムを活用して構築することである。
上記課題を解決するために、本発明の第1の側面は、各種メディアを含むコンテンツを検索対象とした複数の検索エンジンにクエリを出力して、検索結果を各検索エンジンから取得する検索結果取得手段と、前記各種メディアを複数含むコンテンツを検索対象とした検索エンジンからの検索結果を基準とし、この基準となる検索結果の各コンテンツと、他の検索エンジンからの検索結果のコンテンツとの類似度を算出する類似度算出手段と、前記算出された類似度に基づいて、前記基準となる検索結果のコンテンツを他の検索エンジンによる検索結果に置換することで、出力用の検索結果を生成する検索結果生成手段と、を備えることを特徴としている。
第1の側面によれば、基準となる検索エンジンからの検索結果を、コンテンツ間の類似度に基づいて他の検索エンジンからの検索結果に置き換えることによって、出力用の検索結果を生成する。このため、基準となるコンテンツの有するメディア的な特徴に基づいて複数の検索エンジンの検索結果を統合する。従って、クエリに適したメディアでの検索結果を出力することのできる検索システムを既存の検索システムを活用して構築することができる。
また、本発明の第2の側面において、前記各種メディアを複数含むコンテンツは、ウェブコンテンツであり、前記類似度算出手段は、前記ウェブコンテンツを検索対象とした検索エンジンからの検索結果を前記基準として設定し、前記検索結果生成手段は、前記検索結果であるウェブコンテンツを、他の検索エンジンによる検索結果のコンテンツに置換することを特徴としている。
第2の側面によれば、テキストや静止画、動画、音声等の複数のメディアを含むウェブコンテンツを基準として、複数の検索エンジンからの検索結果を置換する。このため、ウェブコンテンツに含まれるメディアを検索対象とした検索エンジンの検索結果を統合することができる。
また、本発明の第3の側面において、前記各種メディアは、テキスト、静止画、動画、音声の少なくとも何れかを含み、前記類似度算出手段は、前記各検索エンジンから取得されたコンテンツに含まれるテキスト、静止画、動画、音声の特徴量を該コンテンツ間で比較することで前記類似度を算出することを特徴としている。
また、第3の側面によれば、コンテンツに含まれるテキスト、静止画、動画、音声の特徴量によって類似度を算出するため、各種メディアの有する特徴が類似する検索結果で置き換えを行うことができる。
本発明によれば、クエリに適したメディアでの検索結果を出力することのできる検索システムを既存の検索システムを活用して構築することができる。
検索サーバの機能構成の一例を示すブロック図。 インデックスのデータ構成例を示す図。 検索結果統合処理の具体的な処理内容を示すフローチャート。 マルチメディア類似度の算出の例示のための第1の概念図。 マルチメディア類似度の一例を示す図。 検索結果の表示例。 マルチメディア類似度の算出の例示のための第2の概念図。
〔本実施形態の装置構成〕
本発明の検索装置を図1に示す検索サーバに適用した場合の実施形態を、図面に基づいて説明する。本実施形態の装置は、クエリを用いてウェブ検索を行うものである。
本実施形態の検索サーバ1の機能構成の一例を示すブロック図を図1に示す。検索サーバ1は、ユーザ端末Tとインターネット等の通信回線網を介して相互に通信可能に接続されている。
ユーザ端末Tは、ユーザが検索のためのクエリを入力する入力機能と、該クエリに応じた検索結果を表示出力する出力機能とを備えた端末であり、CPUや入力装置、表示装置等を有するパーソナルコンピュータや携帯端末等により実現される。
検索サーバ1は、ユーザ端末Tで入力されたクエリに基づいて検索を行って、その検索結果をユーザ端末Tに返送する。
検索サーバ1は、各種コンテンツを検索対象とした検索エンジンEを有して構成され、ユーザ端末Tで入力されたクエリに対して各コンテンツでの検索結果を生成し、それらを統合してユーザ端末Tに返す。
検索サーバ1は、図1に示すように、クエリ受付部10と、クエリ投入部20と、検索結果統合部30と、各種検索エンジンEとしてのウェブ検索エンジンE1、画像検索エンジンE3、動画検索エンジンE5及び商品検索エンジンE7と、検索結果出力部40とを備えて構成される。
クエリ受付部10は、検索のためのクエリをユーザ端末Tから受信して受け付ける。クエリは、単一のキーワードや複数のキーワードの組み合わせにより構成される。
クエリ投入部20は、クエリ受付部10により受け付けられたクエリを各検索エンジンEに出力することで、各々の検索エンジンEでの検索処理を行わせる。
検索結果統合部30は、クエリ投入部20のクエリ出力によって得られる各検索エンジンEからの検索結果を統合して、ユーザ端末Tに最終的に出力する検索結果を生成する。図1に示すように、検索結果統合部30は、基準エンジン設定部32と、検索結果取得部34と、類似度算出部36と、検索結果置換部38とを有して構成され、その詳細は後述する。
検索結果出力部40は、検索結果統合部30で生成された検索結果をユーザ端末Tに出力するためのものであり、具体的には、検索結果の画像データにアクセス可能な表示データ(例えばHTMLによるウェブページデータ)を生成して、ユーザ端末Tに送信する。
各種検索エンジンEは、クエリに含まれるキーワードをインデックスDに記憶されたキーワードと比較することにより、該クエリに対する検索結果を得る。ここで、ウェブ検索エンジンE1は、テキストや画像、動画等のメディアを含むウェブコンテンツの検索を行うものである。画像検索エンジンE3は、静止画の検索を行うものであり、動画検索エンジンE5は、動画を検索するものである。商品検索エンジンE7は、販売サイト上に掲載された商品情報を検索するものである。
各検索エンジンEは、所謂ロボット検索におけるクローリングによりインターネット上のコンテンツを収集して、該コンテンツに対してインデクシングを行う。例えば、ウェブ検索エンジンE1は、ウェブページに掲載されたURLを巡回することによりウェブページを収集し、該ウェブページ内に含まれるキーワードにより該URLにインデクシングを行う。
また、画像検索エンジンE3は、画像掲載サイトから画像データを収集すると共に、該画像データに付与されているタグ情報(キーワード)によって画像掲載サイトのURLにインデクシングを行う。この際、タグ情報は、画像が掲載されたウェブページにおいて、該画像の近傍に記述されたテキスト情報を形態素解析等によって単語に分割することにより設定されるものであってもよい。動画検索エンジンE5や商品検索エンジンE7も同様にして、クローリングとインデクシングを行ってインデックスDを作成する。
図1に示すように各検索エンジンEは、インデックスD(D1,D3,D5,D7)をそれぞれ有して構成される。
インデックスDは、所謂転置インデックスであって、図2に示すように索引となるキーワードと、コンテンツが掲載されているウェブページ(コンテンツデータ)のURLと、該キーワードとコンテンツデータとの関連性を示す重み値と、該コンテンツデータとを対応付けて記憶するデータベースである。上述のクローリング時に、各検索エンジンEは、クローリングにより収集したURLとコンテンツデータに、該コンテンツデータから抽出したキーワード(タグ情報を含む)をインデクシングして記憶する。
また、該キーワードと、コンテンツデータとの関連度を示す重み値をTF/IDF等により算出して対応付けて記憶する。
各検索エンジンEは、クエリ投入部20からクエリが入力されると、該クエリに基づいてインデックスDを検索して、検索結果としてURLの一覧を生成する。この検索結果の一覧の生成の際には、クエリに対するウェブページの関連度である重み値が高い順に各検索結果のURLにランキングを付与する。
検索エンジンEのランキングアルゴリズムとしては、上述のTF/IDF等にようにウェブページ内でのキーワードの重要度を用いる方法に加えて、ウェブページ間のリンク関係を分析することによるウェブページの重要度を用いる方法を組み合わせてもよい。また、ウェブページの重み値としては、ウェブページ内でのキーワードの位置(タイトルや本文等)やフォントの大きさ等を加味してもよく、適宜公知技術を採用可能である。
尚、インデックスDとしては、キーワードとコンテンツデータを指し示すドキュメントIDと重み値とを対応付けて記憶するのみであって、URL及びコンテンツデータは別途他のデータベースにおいてドキュメントIDと関連付けることにより記憶することとしてもよい。
〔検索結果統合部の詳細な説明〕
次に、検索結果統合部30の具体的な動作について、図3〜図6を参照しながら説明する。
先ず、検索結果統合部30の基準エンジン設定部32は、複数の検索エンジンEの中から1つの検索エンジンEを基準エンジンとして選択し、設定する(ステップS11)。基準エンジンとは、各検索エンジンEから出力された検索結果を統合する際に、ランキングの基準とする検索エンジンEであり、複数の検索エンジンEの中から1つ選ばれる。図4〜図6の例では、ウェブ検索エンジンE1を基準エンジンとして設定する。この基準エンジンは、検索サーバ1側により設定されてもよいし、クエリ入力を行うユーザにより設定されてもよい。
そして、検索結果取得部34は、クエリ投入部20が出力したクエリに基づいて検索された検索結果を各検索エンジンEから所定数(例えば、検索結果の上位N件、Nは任意の自然数)取得する。この際、検索結果としてのURLの一覧と、更にそのURLで示されるコンテンツデータも取得する(ステップS12)。
例えば、図4の例示においては、クエリ「東京」でウェブ検索エンジンE1を検索した結果の検索結果群Aが取得される。また、画像検索エンジンE3からは「東京」で検索した結果の検索結果群B、動画検索エンジンE5からは検索結果群C、商品検索エンジンE7からは検索結果群Fが取得される。
次いで、類似度算出部36は、基準エンジンからの検索結果と、他の検索エンジンEからの検索結果との間で類似度を算出する(ステップS13〜S14)。ここで算出する類似度を「マルチメディア類似度」という。
マルチメディア類似度は、コンテンツデータに含まれるテキストや画像、音声といった各メディア間の類似度を総合的に考慮した指標である。
本実施形態においては、基本エンジンの検索結果リスト内の各項目(検索結果の1つ)と、他の検索エンジンの検索結果リストの項目群(N件の検索結果)との比較を行って、マルチメディア類似度を算出する。具体的には、次式に基づいて算出される。
〔式1〕
マルチメディア類似度=(テキスト類似度+画像類似度+動画類似度)/(コンテンツに含まれるメディアの種類数)
コンテンツに含まれるメディアの種類数は、各検索エンジンEの検索対象により設定され、例えば、ウェブ検索のようにコンテンツ内にテキスト、画像及び動画を検索対象のメディアとして含んでいれば‘3’となり、画像検索であれば‘1’となる。また、画像検索や動画検索であっても、テキスト情報(タイトルやタグ情報など)を検索対象に含んでいることもあり、その場合にはメディアの種類数を‘2’としてもよい。マルチメディア類似度を算出する検索エンジンEの組み合わせにおいて、メディアの種類数が小さいほうの値としてもよいし、以下のテキスト類似度、画像類似度及び動画類似度が算出可能である(値が0とならない)メディアの数を設定してもよい。
テキスト類似度は、コンテンツに含まれるテキスト同士の類似度である。この類似度は、例えば、テキスト内に含まれるキーワードの出現回数等により該テキストの特徴量を多次元ベクトルにより表現することで、該ベクトル間のコサイン距離によって求められる。
一例として、基準エンジンの検索結果群A内の検索結果1つをA1、他エンジンである画像検索エンジンE3の検索結果群Bとする。その検索結果群Bの中にはN個のコンテンツが含まれているとして、該検索結果群内の各コンテンツはB1,B2,B3,・・・,BNで表されるとする。
検索結果A1と検索結果群Bとの間のテキスト類似度は、次のように求められる。
〔式2〕
テキスト類似度=MAX{類似度(テキストA1,テキストB1),類似度(テキストA1,テキストB2),・・・,類似度(テキストA1,テキストBN)}/N
尚、MAX{}は、最大値を選ぶ関数を意味し、類似度()は、類似度を算出する関数を意味する。即ち、テキスト類似度は、検索結果群内の最も類似するテキスト同士の最大類似度の平均により求められる。
画像類似度は、コンテンツに含まれる画像同士の類似度である。この類似度は、例えば、画像から抽出される色、形状、パターン等の特徴量を多次元ベクトルにより表現することで、そのベクトル間のユークリッド距離によって求められる。基準エンジンE1の検索結果A1と画像検索エンジンE3の検索結果群Bとについて画像類似度を求めるとすると、次式により求められる。
〔式3〕
画像類似度=MAX{類似度(画像A1,画像B1),類似度(画像A1,画像B2),・・・,類似度(画像A1,画像BN)/N
動画類似度は、コンテンツに含まれる動画同士の類似度である。この類似度は、例えば、動画から抽出される色、形状、パターン等の画像的特徴量や、オブジェクトの動きや音声信号等の特徴量を多次元ベクトルにより表現することで、そのベクトル間のユークリッド距離によって求められる。基準エンジンE1の検索結果A1と画像検索エンジンE3との検索結果群Bとについて動画類似度を求めるとすると、次式により求められる。
〔式4〕
動画類似度=MAX{類似度(動画A1,動画B1),類似度(動画A1,動画B2),・・・,類似度(動画A1,動画BN)/N
上述のように基準エンジンの検索結果と、他エンジンの検索結果群間のテキスト類似度、画像類似度、動画類似度を求めて、コンテンツに含まれるメディアの種類の数で除算することで、それらの平均値であるマルチメディア類似度を算出する。このマルチメディア類似度により、基準エンジンの検索結果がどのメディアの特性を多く有しているかを判定することができる。また、各類似度の算出にMAX{}を用いて最大値を選択することで、検索結果群を比較して最も類似しているコンテンツデータによってマルチメディア類似度を算出できる。
この算出されたマルチメディア類似度は、検索結果の組み合わせと対応付けて図5のようなデータ構成によってメモリ等に一時的に保持される。
尚、図4の検索結果A1やA2のように、コンテンツの中に同種のメディアが複数含まれている場合には、その各々について上述のように最大となる類似度を抽出して、その平均値を用いることとしてもよい。また、各類似度の値は、各メディア(例えばテキストや画像などの種類別)での最大類似度に対して正規化されていることが好ましい。
類似度算出部36は、基準エンジンからの検索結果から一つを選択し(ステップS13)、その選択した検索結果のコンテンツデータと、他の検索エンジンEからの検索結果群との間のマルチメディア類似度を算出する(ステップS14)。
例えば、図4のように基準エンジンであるウェブ検索エンジンE1からの検索結果A1を選択した場合には、この検索結果A1と、他の検索エンジンEからの検索結果群B,C,Fとの間でマルチメディア類似度を算出する。
検索結果置換部38は、類似度算出部36が算出したマルチメディア類似度に基づいて、基準エンジンの検索結果の置換候補となる他の検索エンジンEの検索結果を選定する(ステップS15)。
具体的には、基準エンジンの1つの検索結果に対して算出したマルチメディア類似度が最大となる他の検索エンジンの検索結果群の中から、その検索結果群の中で最上位の検索結果を選定する。例えば、図5においてウェブ検索の検索結果A1に対して算出したマルチメディア類似度が最大のものは画像検索であるから、画像検索の検索結果群Bの最上位の検索結果B1を選定する。
そして、検索結果置換部38は、選定した検索結果が既に出力用の検索結果として置換済みであるか否かを判定する(ステップS17)。この判定の結果、既に置換済みであった場合は(ステップS17;Yes)、ステップS15に処理を移行して、マルチメディア類似度が最大の検索結果群の中から次ぎに上位の検索結果を置換候補として選定する。
また、置換済みではないと判定した場合には(ステップS17;No)、その置換候補の他エンジンの検索結果を出力用の検索結果としてメモリに記憶する(ステップS18)。
例えば、検索結果A1のように基準エンジンの検索結果のコンテンツに画像的特徴が高い場合には、画像検索の検索結果の中でも上位の検索結果B1が出力用の検索結果として選定され置き換えられる。また、検索結果A2のように動画的特徴が高い場合には、動画検索の検索結果の中で上位の検索結果C1が選定され、置き換えられる。
検索結果置換部38は、ステップS13での検索結果の選択について、基準エンジンからの検索結果を全て選択したか否かを判定し、未選択のものがあれば(ステップS19;No)、ステップS13に処理を移行する。これにより、ウェブ検索の検索結果各々に対して画像検索、動画検索、商品検索の検索結果各々との組み合わせで網羅的にマルチメディア類似度を算出する。
図4の例では、ウェブ検索エンジンE1からのN個の検索結果A1〜ANと、他の検索エンジンからの検索結果群B,C,Fとの間で各組み合わせについて図5のようにマルチメディア類似度が算出される。
検索結果置換部38は、全ての検索結果を選択したと判定した場合には(ステップS19;Yes)、ステップS18の置き換え処理を行った検索結果によって、ユーザ端末Tに送信する出力用の検索結果の一覧データを生成する(ステップS20)。図6は、生成された出力用の検索結果一覧の一例である。図に示すように、出力用の検索結果R1〜RNは、検索結果A1が検索結果B1に、検索結果A2が検索結果C1、検索結果A3が検索結果B2により置き換えられて生成されたものである。
以上のように、本実施形態によれば、基準エンジンとして設定した検索エンジンEでの検索結果と、他の検索エンジンEでの検索結果群との間のマルチメディア類似度を算出し、該マルチメディア類似度に基づいて基準エンジンの検索結果を他の検索エンジンEの検索結果により置き換えることで、出力用の検索結果を生成する。これにより、基準エンジンでの検索結果の持つメディア的特徴を考慮して、他の複数の検索エンジンEでの検索結果を統合する。従って、既存の検索エンジンEを活用して、複数メディアを統合した検索システムを構築することができる。
また、基準エンジンの個々の検索結果と、他エンジンの検索結果群との間で算出したマルチメディア類似度を、基準エンジンの各検索結果がどのようなメディアにより表現されているのかの指標とすることができる。このため、クエリに対する検索結果をよく表現しているメディアによって出力用の検索結果が生成される。従って、ユーザは、メディア毎の検索システムで各々に検索・比較することなく、適切なメディアによる検索結果を得ることができる。
〔変形例〕
尚、上述した実施形態は、本発明を適用した一例であり、その適用可能な範囲は上述例に限られない。
例えば、上記実施形態では、マルチメディア類似度の高い他エンジンの検索結果の中で上位のものから置換候補の検索結果を選定することとして説明したが、マルチメディア類似度の高い他エンジンの検索結果の中で、基準エンジンの検索結果との間で個々の類似度が高い検索結果を置換候補として選定することとしてもよい。
この場合、図5のように基準エンジンの各検索結果と、他エンジンの検索結果群との間のマルチメディア類似度を算出し、更に、図7のように基準エンジンの各検索結果と、他エンジンの各検索結果との間でマルチメディア類似度を算出する。そして、マルチメディア類似度の高い他エンジンの検索結果群の中でも、個々のマルチメディア類似度が高い検索結果を置換候補として選定する。
この検索結果間のマルチメディア類似度の算出は、上記の式1に基づいて行われ、各テキスト類似度、画像類似度及び動画類似度は検索結果のコンテンツ間で算出されたものが使われる。
図7の例では、図5で検索結果A1とのマルチメディア類似度の高かった画像検索の検索結果群Bの中でも、個々に算出したマルチメディア類似度が高い検索結果B2が置換候補として選定されることとなる。このため、基準エンジンの検索結果のメディア的特性が類似する検索エンジンの中から、更にコンテンツの類似性の高い検索結果を置換候補として選定することができる。
また、基準エンジンの検索結果と、他エンジンの検索結果との間のマルチメディア類似度を図7のように算出し、そのマルチメディア類似度が高いものを置換候補として選定することとしてもよい。これにより、他エンジンの検索結果の中でも類似性の高い検索結果によって出力用の検索結果を生成することができる。
また、上記実施形態では、マルチメディア類似度が最大のもので検索結果を置き換えることとして説明したが、該マルチメディア類似度が全て所定の閾値(例えば、0.5)未満である場合には、基準エンジンの検索結果を出力用の検索結果として用いることとしてもよい。即ち、メディア的特徴が他の検索エンジンEの検索結果と類似していない場合は、置き換えを行うことなく、基準エンジンの検索結果を出力用として用いることができる。
また、画像検索や動画検索等の単一のメディアによるコンテンツを検索対象とした検索エンジンEよりも、ウェブ検索や商品検索といった複数のメディアをコンテンツに含む複合メディアを検索対象とした検索エンジンEを基準エンジンとして設定することが望ましい。複合メディアを検索対象とする検索エンジンEを基準エンジンとすることで、コンテンツに含まれるテキストや画像、動画等の複数のメディアの観点でマルチメディア類似度を算出することができるため、複数のメディアを統合した検索の実現が可能になる。
また、基準エンジンからの検索結果を他の検索エンジンEの検索結果で置き換える際に、その置き換える検索結果が重複しないように置換対象の検索結果を選定することとしてもよい。具体的には、基準エンジンの検索結果の上位から上述の検索結果の置き換えを行っていき、その置き換えを行った他の検索エンジンEの検索結果をメモリ等に保持していく。そして、基準エンジンの下位の検索結果について置き換えを行う際に、最大となる検索結果が既に置換対象となっている場合には、その次ぎに最大となる検索結果により置き換えを行う。これにより、出力用の検索結果として重複したコンテンツが含まれることを防止できる。
また、マルチメディア類似度による置換の判定に際して、各検索結果に付与されたランキングにより重み付けを行って、そのランキングを考慮した置き換えを行ってもよい。例えば、検索結果の順位1〜Nをランクとした場合に、他の検索エンジンEの検索結果毎に算出するマルチメディア類似度に、各検索結果のランキングに対応した1/1,1/2,1/3,・・・,1/Nの重み値を乗算することにより重み付けを行う。
このように、マルチメディア類似度に対してランキングを重み付けすることにより、各検索エンジンEでの検索結果の中でもクエリとの関連性の高い検索結果により置き換えを行えるようになる。
また、マルチメディア類似度の算出式として、式1のようにテキスト類似度、画像類似度及び動画類似度の平均値を用いることとして説明したが、その中の最大値若しくは最小値を用いることとしてもよい。
具体的には、算出したテキスト類似度、画像類似度及び動画類似度のうちの最大値となるものをマルチメディア類似度として設定してもよい。これによれば、類似度の高いメディアを重要視したマルチメディア類似度によって検索結果の置き換えを行うことができる。
また、テキスト類似度、画像類似度及び動画類似度を乗算した値をマルチメディア類似度として設定してもよい。これによれば、各類似度の値が全て高くならなければマルチメディア類似度の値も高まらないため、各メディアが総合的に類似する検索結果により置き換えを行うことができる。
また、楽曲や録音音声等の音声データを検索する音声検索エンジンを用いて、音声の類似度をマルチメディア類似度に加えることによって、音声検索エンジンを検索対象のメディアとして含めることとしてもよく、音楽、ニュース、ブログ、地図等の、他のメディアについての検索エンジンを用いることも可能である。
また、実施形態の動作は、コンピュータに適宜のコンピュータソフトウエアを組み込むことにより実施することができる。尚、本発明の内容は、前記実施形態に限定されるものではない。本発明は、特許請求の範囲に記載された範囲内において、具体的な構成に対して種々の変更を加えうるものである。
例えば、各構成要素は、機能ブロックとして存在していればよく、独立したハードウエアとして存在しなくても良い。また、実装方法としては、ハードウエアを用いてもコンピュータソフトウエアを用いても良い。更に、本発明における一つの機能要素が複数の機能要素の集合によって実現されても良く、本発明における複数の機能要素が一つの機能要素により実現されても良い。
また、機能要素は、物理的に離間した位置に配置されていてもよい。この場合、機能要素どうしがネットワークにより接続されていても良い。グリッドコンピューティングにより機能を実現し、あるいは機能要素を構成することも可能である。
D インデックス
E 検索エンジン
E1 ウェブ検索エンジン
E3 画像検索エンジン
E5 動画検索エンジン
E7 商品検索エンジン
T ユーザ端末
1 検索サーバ
10 クエリ受付部
20 クエリ投入部
30 検索結果統合部
32 基準エンジン設定部
34 検索結果取得部
36 類似度算出部
38 検索結果置換部
40 検索結果出力部

Claims (5)

  1. 各種メディアを含むコンテンツを検索対象とした複数の検索エンジンにクエリを出力して、検索結果を各検索エンジンから取得する検索結果取得手段と、
    前記各種メディアを複数含むコンテンツを検索対象とした検索エンジンからの検索結果を基準とし、この基準となる検索結果の各コンテンツと、他の検索エンジンからの検索結果のコンテンツとの類似度を算出する類似度算出手段と、
    前記算出された類似度に基づいて、前記基準となる検索結果のコンテンツを他の検索エンジンによる検索結果に置換することで、出力用の検索結果を生成する検索結果生成手段と、
    を備えることを特徴とする検索装置。
  2. 前記各種メディアを複数含むコンテンツは、ウェブコンテンツであり、
    前記類似度算出手段は、
    前記ウェブコンテンツを検索対象とした検索エンジンからの検索結果を前記基準として設定し、
    前記検索結果生成手段は、
    前記検索結果であるウェブコンテンツを、他の検索エンジンによる検索結果のコンテンツに置換することを特徴とする請求項1に記載の検索装置。
  3. 前記各種メディアは、テキスト、静止画、動画、音声の少なくとも何れかを含み、
    前記類似度算出手段は、
    前記各検索エンジンから取得されたコンテンツに含まれるテキスト、静止画、動画、音声の特徴量を該コンテンツ間で比較することで前記類似度を算出することを特徴とする請求項1又は2に記載の検索装置。
  4. コンピュータが、
    各種メディアを含むコンテンツを検索対象とした複数の検索エンジンにクエリを出力して、検索結果を各検索エンジンから取得する検索結果取得工程と、
    前記各種メディアを複数含むコンテンツを検索対象とした検索エンジンからの検索結果を基準とし、この基準となる検索結果の各コンテンツと、他の検索エンジンからの検索結果のコンテンツとの類似度を算出する類似度算出工程と、
    前記算出された類似度に基づいて、前記基準となる検索結果のコンテンツを他の検索エンジンによる検索結果に置換することで、出力用の検索結果を生成する検索結果生成工程と、
    を行うことを特徴とする検索方法。
  5. 請求項4に記載の検索方法をコンピュータに実行させるためのプログラム。
JP2010130585A 2010-06-08 2010-06-08 検索装置 Active JP5094915B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010130585A JP5094915B2 (ja) 2010-06-08 2010-06-08 検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010130585A JP5094915B2 (ja) 2010-06-08 2010-06-08 検索装置

Publications (2)

Publication Number Publication Date
JP2011257891A JP2011257891A (ja) 2011-12-22
JP5094915B2 true JP5094915B2 (ja) 2012-12-12

Family

ID=45474026

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010130585A Active JP5094915B2 (ja) 2010-06-08 2010-06-08 検索装置

Country Status (1)

Country Link
JP (1) JP5094915B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10459970B2 (en) * 2016-06-07 2019-10-29 Baidu Usa Llc Method and system for evaluating and ranking images with content based on similarity scores in response to a search query
JP6904092B2 (ja) * 2017-06-21 2021-07-14 日本電信電話株式会社 理解支援方法、理解支援装置及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002334099A (ja) * 2001-03-05 2002-11-22 Nippon Telegr & Teleph Corp <Ntt> 分散マルチメディア情報の検索装置、検索方法、プログラムおよび記録媒体
JP2006163842A (ja) * 2004-12-07 2006-06-22 Canon Inc 検索システム、情報処理装置及びその制御方法、プログラム

Also Published As

Publication number Publication date
JP2011257891A (ja) 2011-12-22

Similar Documents

Publication Publication Date Title
US11347963B2 (en) Systems and methods for identifying semantically and visually related content
KR101171405B1 (ko) 검색 결과에서 배치 내용 정렬의 맞춤화
US8346767B2 (en) Image search result summarization with informative priors
JP6216467B2 (ja) 視覚・意味複合ネットワーク、および当該ネットワークを形成するための方法
US20140181204A1 (en) Interest graph-powered search
JP5469046B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
US20100121844A1 (en) Image relevance by identifying experts
Wang et al. Interactive browsing via diversified visual summarization for image search results
KR20080037413A (ko) 온라인 문맥기반 광고 장치 및 방법
Obidallah et al. Clustering and association rules for web service discovery and recommendation: a systematic literature review
JP5010624B2 (ja) 検索装置
US20100145944A1 (en) Mining broad hidden query aspects from user search sessions
JP6680956B1 (ja) 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法
JP5094915B2 (ja) 検索装置
JP5462917B2 (ja) 画像検索インデックス生成方法、画像検索インデックス生成プログラム及び画像検索インデックス生成装置
JP2007334590A (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
CN109800429B (zh) 主题挖掘方法、装置及存储介质、计算机设备
JP2016076115A (ja) 情報処理装置、情報処理方法及びプログラム
JP5265610B2 (ja) 関連語抽出装置
CN111445302A (zh) 商品排序方法、系统及装置
Denecke Chapter 6 Diversity-Aware Search: New Possibilities and Challenges for Web Search
JP2020109689A (ja) 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法
US20200226159A1 (en) System and method of generating reading lists
Meng Metasearch Engines.
Huang et al. Rough-set-based approach to manufacturing process document retrieval

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120918

R150 Certificate of patent or registration of utility model

Ref document number: 5094915

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150928

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350