JP2011257891A - Search apparatus - Google Patents

Search apparatus Download PDF

Info

Publication number
JP2011257891A
JP2011257891A JP2010130585A JP2010130585A JP2011257891A JP 2011257891 A JP2011257891 A JP 2011257891A JP 2010130585 A JP2010130585 A JP 2010130585A JP 2010130585 A JP2010130585 A JP 2010130585A JP 2011257891 A JP2011257891 A JP 2011257891A
Authority
JP
Japan
Prior art keywords
search
search result
similarity
engine
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010130585A
Other languages
Japanese (ja)
Other versions
JP5094915B2 (en
Inventor
Stejic Zoran
ゾラン ステイチ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2010130585A priority Critical patent/JP5094915B2/en
Publication of JP2011257891A publication Critical patent/JP2011257891A/en
Application granted granted Critical
Publication of JP5094915B2 publication Critical patent/JP5094915B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To construct a search system capable of outputting a search result on a medium suited to a query by effectively using an existing search system.SOLUTION: A query input unit 20 inputs a query into various types of search engines E. A similarity calculation unit 36 calculates multimedia similarity between contents of the search result from a Web search engine E1, or a reference engine, and contents of the search result from other search engines E. A search result replacement unit 38 generates a search result for an output by replacing the search result of the reference engine with the search result from the other search engine E based on the multimedia similarity.

Description

本発明は、クエリに関連するデータを検索する技術に関するものである。   The present invention relates to a technique for retrieving data related to a query.

クエリを用いた検索技術では、クローリングと呼ばれる手法により、予め、ウェブ上に存在するコンテンツが収集されて、検索システムのデータベースに蓄積される。蓄積時には、各データに索引付け(インデックス)と、キーワードとコンテンツの関連度を示す重み付けが行われる。   In a search technique using a query, content existing on the web is collected in advance by a technique called crawling and stored in a database of a search system. At the time of accumulation, each data is indexed (index) and weighting indicating the degree of association between the keyword and the content is performed.

検索対象となるコンテンツの種類は、テキスト(文字列)や静止画、動画像(以下単に「動画」という。)、音声などの多岐のメディアに渡り、各々のコンテンツに対応した検索システムにてデータ収集等の処理が行われる。そして、ユーザによって入力されたクエリ(キーワード)との関連度(重み値)を用いて、各コンテンツにランキングを付与して検索結果を生成する。   The types of content to be searched include a wide range of media such as text (character strings), still images, moving images (hereinafter simply referred to as “moving images”), audio, etc., and data is retrieved using a search system corresponding to each content. Processing such as collection is performed. Then, using the degree of association (weight value) with the query (keyword) input by the user, a ranking is assigned to each content to generate a search result.

複数のメディアを検索対象とした技術として、検索対象となる複数の文書や画像を保持する検索対象データベースから検索条件に対してランキング検索を行う技術が知られている(特許文献1参照)。   As a technique for searching for a plurality of media, a technique for performing a ranking search with respect to a search condition from a search target database holding a plurality of documents and images to be searched is known (see Patent Document 1).

特開2004−94813号公報JP 2004-94813 A

上述したキーワードとコンテンツとの関連度は、メディアの種類によってその算出アルゴリズムが異なり、各々のメディアに対応した検索システムによって管理・記憶されるのが一般的である。   The degree of relevance between the keyword and the content described above differs in calculation algorithm depending on the type of media, and is generally managed and stored by a search system corresponding to each media.

しかし、特許文献のように、複数のメディアを検索対象として検索システムを実現する場合には、異なるアルゴリズムで算出された関連度を正規化する等の処理によって統合しておく必要があり、その算出は複雑になる。また、テキスト検索や画像検索、動画検索といった既存の検索システムでは各メディアに適したアルゴリズムで関連度が算出されているのに対し、関連度を統合した新たなアルゴリズムを開発するのはコストがかかった。   However, as in the patent literature, when a search system is realized using a plurality of media as search targets, it is necessary to integrate by a process such as normalizing the relevance calculated by different algorithms. Becomes complicated. In addition, while existing search systems such as text search, image search, and video search calculate the relevance with an algorithm suitable for each media, it is costly to develop a new algorithm that integrates the relevance. It was.

また、既存のメディア毎の検索エンジンの場合、ユーザが所望する情報がどのメディアで表現されているかを、複数の検索エンジンでの検索結果を比較しなければ知ることができず、ユーザがクエリに対してどのメディアが適切であるかを選択することは難しかった。   In addition, in the case of a search engine for each existing medium, it is impossible to know which media the information desired by the user is expressed unless the search results from a plurality of search engines are compared. On the other hand, it was difficult to select which media was appropriate.

本発明は、上述の課題に鑑みてなされたものであり、その目的とするところは、クエリに適したメディアでの検索結果を出力することのできる検索システムを既存の検索システムを活用して構築することである。   The present invention has been made in view of the above-described problems, and the object of the present invention is to build a search system that can output a search result in a medium suitable for a query by utilizing an existing search system. It is to be.

上記課題を解決するために、本発明の第1の側面は、各種メディアを含むコンテンツを検索対象とした複数の検索エンジンにクエリを出力して、検索結果を各検索エンジンから取得する検索結果取得手段と、前記各種メディアを複数含むコンテンツを検索対象とした検索エンジンからの検索結果を基準とし、この基準となる検索結果の各コンテンツと、他の検索エンジンからの検索結果のコンテンツとの類似度を算出する類似度算出手段と、前記算出された類似度に基づいて、前記基準となる検索結果のコンテンツを他の検索エンジンによる検索結果に置換することで、出力用の検索結果を生成する検索結果生成手段と、を備えることを特徴としている。   In order to solve the above-described problem, the first aspect of the present invention is to obtain a search result by outputting a query to a plurality of search engines that search for content including various media and acquiring the search result from each search engine. And a search result from a search engine for which the content including a plurality of various media as a search target is used as a reference, and the similarity between each content of the search result serving as the reference and the content of the search result from another search engine A similarity calculation means for calculating the search, and a search for generating a search result for output by replacing the content of the reference search result with a search result by another search engine based on the calculated similarity And a result generating means.

第1の側面によれば、基準となる検索エンジンからの検索結果を、コンテンツ間の類似度に基づいて他の検索エンジンからの検索結果に置き換えることによって、出力用の検索結果を生成する。このため、基準となるコンテンツの有するメディア的な特徴に基づいて複数の検索エンジンの検索結果を統合する。従って、クエリに適したメディアでの検索結果を出力することのできる検索システムを既存の検索システムを活用して構築することができる。   According to the first aspect, a search result for output is generated by replacing a search result from a reference search engine with a search result from another search engine based on the similarity between contents. For this reason, the search results of a plurality of search engines are integrated based on the media characteristics of the reference content. Therefore, it is possible to construct a search system that can output a search result in a medium suitable for a query by utilizing an existing search system.

また、本発明の第2の側面において、前記各種メディアを複数含むコンテンツは、ウェブコンテンツであり、前記類似度算出手段は、前記ウェブコンテンツを検索対象とした検索エンジンからの検索結果を前記基準として設定し、前記検索結果生成手段は、前記検索結果であるウェブコンテンツを、他の検索エンジンによる検索結果のコンテンツに置換することを特徴としている。   Also, in the second aspect of the present invention, the content including a plurality of the various media is web content, and the similarity calculation means uses the search result from a search engine for searching the web content as the reference. The search result generation means is configured to replace the web content as the search result with the content of the search result by another search engine.

第2の側面によれば、テキストや静止画、動画、音声等の複数のメディアを含むウェブコンテンツを基準として、複数の検索エンジンからの検索結果を置換する。このため、ウェブコンテンツに含まれるメディアを検索対象とした検索エンジンの検索結果を統合することができる。   According to the second aspect, search results from a plurality of search engines are replaced with reference to web content including a plurality of media such as text, still images, moving images, and sounds. For this reason, it is possible to integrate search results of search engines that search for media included in web content.

また、本発明の第3の側面において、前記各種メディアは、テキスト、静止画、動画、音声の少なくとも何れかを含み、前記類似度算出手段は、前記各検索エンジンから取得されたコンテンツに含まれるテキスト、静止画、動画、音声の特徴量を該コンテンツ間で比較することで前記類似度を算出することを特徴としている。   In the third aspect of the present invention, the various media include at least one of text, a still image, a moving image, and audio, and the similarity calculation unit is included in the content acquired from each search engine. The similarity is calculated by comparing feature quantities of text, still image, moving image, and audio between the contents.

また、第3の側面によれば、コンテンツに含まれるテキスト、静止画、動画、音声の特徴量によって類似度を算出するため、各種メディアの有する特徴が類似する検索結果で置き換えを行うことができる。   In addition, according to the third aspect, since the similarity is calculated based on the text, still image, moving image, and audio feature amounts included in the content, it is possible to perform replacement with search results having similar characteristics of various media. .

本発明によれば、クエリに適したメディアでの検索結果を出力することのできる検索システムを既存の検索システムを活用して構築することができる。   ADVANTAGE OF THE INVENTION According to this invention, the search system which can output the search result in the medium suitable for a query can be constructed | assembled using the existing search system.

検索サーバの機能構成の一例を示すブロック図。The block diagram which shows an example of a function structure of a search server. インデックスのデータ構成例を示す図。The figure which shows the data structural example of an index. 検索結果統合処理の具体的な処理内容を示すフローチャート。The flowchart which shows the specific processing content of search result integration processing. マルチメディア類似度の算出の例示のための第1の概念図。The 1st conceptual diagram for the illustration of calculation of a multimedia similarity. マルチメディア類似度の一例を示す図。The figure which shows an example of a multimedia similarity. 検索結果の表示例。Display example of search results. マルチメディア類似度の算出の例示のための第2の概念図。The 2nd conceptual diagram for the illustration of calculation of a multimedia similarity.

〔本実施形態の装置構成〕
本発明の検索装置を図1に示す検索サーバに適用した場合の実施形態を、図面に基づいて説明する。本実施形態の装置は、クエリを用いてウェブ検索を行うものである。
[Apparatus configuration of this embodiment]
An embodiment when the search device of the present invention is applied to the search server shown in FIG. 1 will be described with reference to the drawings. The apparatus of this embodiment performs a web search using a query.

本実施形態の検索サーバ1の機能構成の一例を示すブロック図を図1に示す。検索サーバ1は、ユーザ端末Tとインターネット等の通信回線網を介して相互に通信可能に接続されている。   A block diagram showing an example of the functional configuration of the search server 1 of the present embodiment is shown in FIG. The search server 1 is connected to the user terminal T via a communication network such as the Internet so as to be able to communicate with each other.

ユーザ端末Tは、ユーザが検索のためのクエリを入力する入力機能と、該クエリに応じた検索結果を表示出力する出力機能とを備えた端末であり、CPUや入力装置、表示装置等を有するパーソナルコンピュータや携帯端末等により実現される。   The user terminal T is a terminal having an input function for a user to input a query for search and an output function for displaying and outputting a search result corresponding to the query, and includes a CPU, an input device, a display device, and the like. This is realized by a personal computer or a portable terminal.

検索サーバ1は、ユーザ端末Tで入力されたクエリに基づいて検索を行って、その検索結果をユーザ端末Tに返送する。   The search server 1 performs a search based on the query input at the user terminal T, and returns the search result to the user terminal T.

検索サーバ1は、各種コンテンツを検索対象とした検索エンジンEを有して構成され、ユーザ端末Tで入力されたクエリに対して各コンテンツでの検索結果を生成し、それらを統合してユーザ端末Tに返す。   The search server 1 is configured to include a search engine E for searching various contents, generates search results for each content in response to a query input at the user terminal T, and integrates them to the user terminal. Return to T.

検索サーバ1は、図1に示すように、クエリ受付部10と、クエリ投入部20と、検索結果統合部30と、各種検索エンジンEとしてのウェブ検索エンジンE1、画像検索エンジンE3、動画検索エンジンE5及び商品検索エンジンE7と、検索結果出力部40とを備えて構成される。   As shown in FIG. 1, the search server 1 includes a query receiving unit 10, a query input unit 20, a search result integration unit 30, a web search engine E1, an image search engine E3, and a video search engine as various search engines E. E5, a product search engine E7, and a search result output unit 40.

クエリ受付部10は、検索のためのクエリをユーザ端末Tから受信して受け付ける。クエリは、単一のキーワードや複数のキーワードの組み合わせにより構成される。   The query receiving unit 10 receives and receives a search query from the user terminal T. The query is composed of a single keyword or a combination of a plurality of keywords.

クエリ投入部20は、クエリ受付部10により受け付けられたクエリを各検索エンジンEに出力することで、各々の検索エンジンEでの検索処理を行わせる。   The query input unit 20 outputs the query received by the query receiving unit 10 to each search engine E, thereby causing the search processing in each search engine E to be performed.

検索結果統合部30は、クエリ投入部20のクエリ出力によって得られる各検索エンジンEからの検索結果を統合して、ユーザ端末Tに最終的に出力する検索結果を生成する。図1に示すように、検索結果統合部30は、基準エンジン設定部32と、検索結果取得部34と、類似度算出部36と、検索結果置換部38とを有して構成され、その詳細は後述する。   The search result integration unit 30 integrates the search results from the search engines E obtained by the query output of the query input unit 20 and generates a search result that is finally output to the user terminal T. As shown in FIG. 1, the search result integration unit 30 includes a reference engine setting unit 32, a search result acquisition unit 34, a similarity calculation unit 36, and a search result replacement unit 38. Will be described later.

検索結果出力部40は、検索結果統合部30で生成された検索結果をユーザ端末Tに出力するためのものであり、具体的には、検索結果の画像データにアクセス可能な表示データ(例えばHTMLによるウェブページデータ)を生成して、ユーザ端末Tに送信する。   The search result output unit 40 is for outputting the search result generated by the search result integration unit 30 to the user terminal T. Specifically, the search result output unit 40 is display data that can access the image data of the search result (for example, HTML). Web page data) is generated and transmitted to the user terminal T.

各種検索エンジンEは、クエリに含まれるキーワードをインデックスDに記憶されたキーワードと比較することにより、該クエリに対する検索結果を得る。ここで、ウェブ検索エンジンE1は、テキストや画像、動画等のメディアを含むウェブコンテンツの検索を行うものである。画像検索エンジンE3は、静止画の検索を行うものであり、動画検索エンジンE5は、動画を検索するものである。商品検索エンジンE7は、販売サイト上に掲載された商品情報を検索するものである。   The various search engines E compare the keyword included in the query with the keyword stored in the index D to obtain a search result for the query. Here, the web search engine E1 searches for web content including media such as text, images, and moving images. The image search engine E3 searches for still images, and the moving image search engine E5 searches for moving images. The product search engine E7 searches product information posted on the sales site.

各検索エンジンEは、所謂ロボット検索におけるクローリングによりインターネット上のコンテンツを収集して、該コンテンツに対してインデクシングを行う。例えば、ウェブ検索エンジンE1は、ウェブページに掲載されたURLを巡回することによりウェブページを収集し、該ウェブページ内に含まれるキーワードにより該URLにインデクシングを行う。   Each search engine E collects content on the Internet by crawling in so-called robot search, and indexes the content. For example, the web search engine E1 collects web pages by circulating URLs posted on the web pages, and indexes the URLs using keywords included in the web pages.

また、画像検索エンジンE3は、画像掲載サイトから画像データを収集すると共に、該画像データに付与されているタグ情報(キーワード)によって画像掲載サイトのURLにインデクシングを行う。この際、タグ情報は、画像が掲載されたウェブページにおいて、該画像の近傍に記述されたテキスト情報を形態素解析等によって単語に分割することにより設定されるものであってもよい。動画検索エンジンE5や商品検索エンジンE7も同様にして、クローリングとインデクシングを行ってインデックスDを作成する。   The image search engine E3 collects image data from the image posting site, and indexes the URL of the image posting site based on tag information (keyword) given to the image data. At this time, the tag information may be set by dividing text information described in the vicinity of the image into words by morphological analysis or the like on the web page on which the image is posted. Similarly, the video search engine E5 and the product search engine E7 perform crawling and indexing to create the index D.

図1に示すように各検索エンジンEは、インデックスD(D1,D3,D5,D7)をそれぞれ有して構成される。   As shown in FIG. 1, each search engine E has an index D (D1, D3, D5, D7).

インデックスDは、所謂転置インデックスであって、図2に示すように索引となるキーワードと、コンテンツが掲載されているウェブページ(コンテンツデータ)のURLと、該キーワードとコンテンツデータとの関連性を示す重み値と、該コンテンツデータとを対応付けて記憶するデータベースである。上述のクローリング時に、各検索エンジンEは、クローリングにより収集したURLとコンテンツデータに、該コンテンツデータから抽出したキーワード(タグ情報を含む)をインデクシングして記憶する。   The index D is a so-called transposed index, and as shown in FIG. 2, shows an index keyword, the URL of a web page (content data) on which content is posted, and the relationship between the keyword and content data. It is a database that stores weight values and content data in association with each other. At the time of the above crawling, each search engine E indexes and stores a keyword (including tag information) extracted from the content data in the URL and content data collected by crawling.

また、該キーワードと、コンテンツデータとの関連度を示す重み値をTF/IDF等により算出して対応付けて記憶する。   Further, a weight value indicating the degree of association between the keyword and the content data is calculated by TF / IDF or the like and stored in association with it.

各検索エンジンEは、クエリ投入部20からクエリが入力されると、該クエリに基づいてインデックスDを検索して、検索結果としてURLの一覧を生成する。この検索結果の一覧の生成の際には、クエリに対するウェブページの関連度である重み値が高い順に各検索結果のURLにランキングを付与する。   When a query is input from the query input unit 20, each search engine E searches the index D based on the query and generates a list of URLs as a search result. When generating this list of search results, ranking is given to the URLs of the search results in descending order of the weight value, which is the degree of association of the web page with the query.

検索エンジンEのランキングアルゴリズムとしては、上述のTF/IDF等にようにウェブページ内でのキーワードの重要度を用いる方法に加えて、ウェブページ間のリンク関係を分析することによるウェブページの重要度を用いる方法を組み合わせてもよい。また、ウェブページの重み値としては、ウェブページ内でのキーワードの位置(タイトルや本文等)やフォントの大きさ等を加味してもよく、適宜公知技術を採用可能である。   As a ranking algorithm of the search engine E, in addition to the method of using the importance of the keyword in the web page as in the above TF / IDF, the importance of the web page by analyzing the link relation between the web pages. You may combine the method of using. Further, as the weight value of the web page, the position of the keyword (title, text, etc.) in the web page, the size of the font, and the like may be taken into account, and a known technique can be adopted as appropriate.

尚、インデックスDとしては、キーワードとコンテンツデータを指し示すドキュメントIDと重み値とを対応付けて記憶するのみであって、URL及びコンテンツデータは別途他のデータベースにおいてドキュメントIDと関連付けることにより記憶することとしてもよい。   As the index D, only the document ID indicating the keyword and the content data and the weight value are stored in association with each other, and the URL and the content data are stored separately in association with the document ID in another database. Also good.

〔検索結果統合部の詳細な説明〕
次に、検索結果統合部30の具体的な動作について、図3〜図6を参照しながら説明する。
[Detailed description of the search result integration unit]
Next, a specific operation of the search result integration unit 30 will be described with reference to FIGS.

先ず、検索結果統合部30の基準エンジン設定部32は、複数の検索エンジンEの中から1つの検索エンジンEを基準エンジンとして選択し、設定する(ステップS11)。基準エンジンとは、各検索エンジンEから出力された検索結果を統合する際に、ランキングの基準とする検索エンジンEであり、複数の検索エンジンEの中から1つ選ばれる。図4〜図6の例では、ウェブ検索エンジンE1を基準エンジンとして設定する。この基準エンジンは、検索サーバ1側により設定されてもよいし、クエリ入力を行うユーザにより設定されてもよい。   First, the reference engine setting unit 32 of the search result integration unit 30 selects and sets one search engine E as a reference engine from among a plurality of search engines E (step S11). The reference engine is a search engine E that is used as a reference for ranking when integrating the search results output from the search engines E, and one of the plurality of search engines E is selected. 4 to 6, the web search engine E1 is set as the reference engine. The reference engine may be set by the search server 1 or may be set by a user who inputs a query.

そして、検索結果取得部34は、クエリ投入部20が出力したクエリに基づいて検索された検索結果を各検索エンジンEから所定数(例えば、検索結果の上位N件、Nは任意の自然数)取得する。この際、検索結果としてのURLの一覧と、更にそのURLで示されるコンテンツデータも取得する(ステップS12)。   Then, the search result acquisition unit 34 acquires a predetermined number of search results searched based on the query output by the query input unit 20 (for example, the top N search results, N is an arbitrary natural number) from each search engine E. To do. At this time, a list of URLs as search results and content data indicated by the URLs are also acquired (step S12).

例えば、図4の例示においては、クエリ「東京」でウェブ検索エンジンE1を検索した結果の検索結果群Aが取得される。また、画像検索エンジンE3からは「東京」で検索した結果の検索結果群B、動画検索エンジンE5からは検索結果群C、商品検索エンジンE7からは検索結果群Fが取得される。   For example, in the example of FIG. 4, a search result group A as a result of searching the web search engine E1 with the query “Tokyo” is acquired. Further, a search result group B as a result of searching for “Tokyo” is acquired from the image search engine E3, a search result group C is acquired from the moving image search engine E5, and a search result group F is acquired from the product search engine E7.

次いで、類似度算出部36は、基準エンジンからの検索結果と、他の検索エンジンEからの検索結果との間で類似度を算出する(ステップS13〜S14)。ここで算出する類似度を「マルチメディア類似度」という。   Next, the similarity calculation unit 36 calculates the similarity between the search results from the reference engine and the search results from the other search engines E (steps S13 to S14). The similarity calculated here is referred to as “multimedia similarity”.

マルチメディア類似度は、コンテンツデータに含まれるテキストや画像、音声といった各メディア間の類似度を総合的に考慮した指標である。   The multimedia similarity is an index that comprehensively considers the similarity between media such as text, images, and audio included in content data.

本実施形態においては、基本エンジンの検索結果リスト内の各項目(検索結果の1つ)と、他の検索エンジンの検索結果リストの項目群(N件の検索結果)との比較を行って、マルチメディア類似度を算出する。具体的には、次式に基づいて算出される。   In this embodiment, each item (one of the search results) in the search result list of the basic engine is compared with an item group (N search results) of the search result list of another search engine, Calculate multimedia similarity. Specifically, it is calculated based on the following equation.

〔式1〕
マルチメディア類似度=(テキスト類似度+画像類似度+動画類似度)/(コンテンツに含まれるメディアの種類数)
[Formula 1]
Multimedia similarity = (text similarity + image similarity + video similarity) / (number of types of media included in content)

コンテンツに含まれるメディアの種類数は、各検索エンジンEの検索対象により設定され、例えば、ウェブ検索のようにコンテンツ内にテキスト、画像及び動画を検索対象のメディアとして含んでいれば‘3’となり、画像検索であれば‘1’となる。また、画像検索や動画検索であっても、テキスト情報(タイトルやタグ情報など)を検索対象に含んでいることもあり、その場合にはメディアの種類数を‘2’としてもよい。マルチメディア類似度を算出する検索エンジンEの組み合わせにおいて、メディアの種類数が小さいほうの値としてもよいし、以下のテキスト類似度、画像類似度及び動画類似度が算出可能である(値が0とならない)メディアの数を設定してもよい。   The number of types of media included in the content is set according to the search target of each search engine E. For example, if the content includes text, images, and moving images as search target media as in the case of web search, the number is “3”. If it is an image search, “1” is set. Further, even in the case of image search or moving image search, text information (title, tag information, etc.) may be included in the search target. In this case, the number of types of media may be set to ‘2’. In the combination of search engines E that calculate multimedia similarity, the value with the smaller number of media types may be used, and the following text similarity, image similarity, and video similarity can be calculated (value is 0). You may set the number of media.

テキスト類似度は、コンテンツに含まれるテキスト同士の類似度である。この類似度は、例えば、テキスト内に含まれるキーワードの出現回数等により該テキストの特徴量を多次元ベクトルにより表現することで、該ベクトル間のコサイン距離によって求められる。   The text similarity is a similarity between texts included in the content. For example, the similarity is obtained from the cosine distance between the vectors by expressing the feature amount of the text by a multidimensional vector based on the number of appearances of the keyword included in the text.

一例として、基準エンジンの検索結果群A内の検索結果1つをA1、他エンジンである画像検索エンジンE3の検索結果群Bとする。その検索結果群Bの中にはN個のコンテンツが含まれているとして、該検索結果群内の各コンテンツはB1,B2,B3,・・・,BNで表されるとする。   As an example, assume that one search result in the search result group A of the reference engine is A1, and a search result group B of the image search engine E3 that is another engine. It is assumed that N contents are included in the search result group B, and each content in the search result group is represented by B1, B2, B3,.

検索結果A1と検索結果群Bとの間のテキスト類似度は、次のように求められる。   The text similarity between the search result A1 and the search result group B is obtained as follows.

〔式2〕
テキスト類似度=MAX{類似度(テキストA1,テキストB1),類似度(テキストA1,テキストB2),・・・,類似度(テキストA1,テキストBN)}/N
[Formula 2]
Text similarity = MAX {similarity (text A1, text B1), similarity (text A1, text B2), ..., similarity (text A1, text BN)} / N

尚、MAX{}は、最大値を選ぶ関数を意味し、類似度()は、類似度を算出する関数を意味する。即ち、テキスト類似度は、検索結果群内の最も類似するテキスト同士の最大類似度の平均により求められる。   MAX {} means a function for selecting the maximum value, and similarity () means a function for calculating the similarity. That is, the text similarity is obtained by averaging the maximum similarities between the most similar texts in the search result group.

画像類似度は、コンテンツに含まれる画像同士の類似度である。この類似度は、例えば、画像から抽出される色、形状、パターン等の特徴量を多次元ベクトルにより表現することで、そのベクトル間のユークリッド距離によって求められる。基準エンジンE1の検索結果A1と画像検索エンジンE3の検索結果群Bとについて画像類似度を求めるとすると、次式により求められる。   The image similarity is a similarity between images included in the content. This similarity is obtained, for example, from the Euclidean distance between the vectors by expressing the feature quantities such as colors, shapes, and patterns extracted from the images by multidimensional vectors. If the image similarity is obtained for the search result A1 of the reference engine E1 and the search result group B of the image search engine E3, the following equation is obtained.

〔式3〕
画像類似度=MAX{類似度(画像A1,画像B1),類似度(画像A1,画像B2),・・・,類似度(画像A1,画像BN)/N
[Formula 3]
Image similarity = MAX {similarity (image A1, image B1), similarity (image A1, image B2), ..., similarity (image A1, image BN) / N

動画類似度は、コンテンツに含まれる動画同士の類似度である。この類似度は、例えば、動画から抽出される色、形状、パターン等の画像的特徴量や、オブジェクトの動きや音声信号等の特徴量を多次元ベクトルにより表現することで、そのベクトル間のユークリッド距離によって求められる。基準エンジンE1の検索結果A1と画像検索エンジンE3との検索結果群Bとについて動画類似度を求めるとすると、次式により求められる。   The moving image similarity is a similarity between moving images included in the content. This similarity is represented by, for example, image features such as colors, shapes, and patterns extracted from a moving image, and feature amounts such as object motion and audio signals expressed by multidimensional vectors. Calculated by distance. If the moving image similarity is obtained for the search result A1 of the reference engine E1 and the search result group B of the image search engine E3, the following equation is obtained.

〔式4〕
動画類似度=MAX{類似度(動画A1,動画B1),類似度(動画A1,動画B2),・・・,類似度(動画A1,動画BN)/N
[Formula 4]
Video similarity = MAX {similarity (video A1, video B1), similarity (video A1, video B2), ..., similarity (video A1, video BN) / N

上述のように基準エンジンの検索結果と、他エンジンの検索結果群間のテキスト類似度、画像類似度、動画類似度を求めて、コンテンツに含まれるメディアの種類の数で除算することで、それらの平均値であるマルチメディア類似度を算出する。このマルチメディア類似度により、基準エンジンの検索結果がどのメディアの特性を多く有しているかを判定することができる。また、各類似度の算出にMAX{}を用いて最大値を選択することで、検索結果群を比較して最も類似しているコンテンツデータによってマルチメディア類似度を算出できる。   As described above, the text similarity, image similarity, and video similarity between the search results of the reference engine and the search results of other engines are obtained and divided by the number of media types included in the content. The multimedia similarity that is the average value of is calculated. Based on the multimedia similarity, it is possible to determine which media characteristics have a lot of search results of the reference engine. Further, by selecting the maximum value using MAX {} for calculation of each similarity, the multimedia similarity can be calculated from the most similar content data by comparing the search result groups.

この算出されたマルチメディア類似度は、検索結果の組み合わせと対応付けて図5のようなデータ構成によってメモリ等に一時的に保持される。   The calculated multimedia similarity is temporarily stored in a memory or the like with a data structure as shown in FIG. 5 in association with a combination of search results.

尚、図4の検索結果A1やA2のように、コンテンツの中に同種のメディアが複数含まれている場合には、その各々について上述のように最大となる類似度を抽出して、その平均値を用いることとしてもよい。また、各類似度の値は、各メディア(例えばテキストや画像などの種類別)での最大類似度に対して正規化されていることが好ましい。   In the case where a plurality of media of the same type are included in the content as in the search results A1 and A2 in FIG. 4, the maximum similarity is extracted for each of them as described above, and the average is extracted. A value may be used. Moreover, it is preferable that the value of each similarity is normalized with respect to the maximum similarity in each medium (for example, according to the type of text or image).

類似度算出部36は、基準エンジンからの検索結果から一つを選択し(ステップS13)、その選択した検索結果のコンテンツデータと、他の検索エンジンEからの検索結果群との間のマルチメディア類似度を算出する(ステップS14)。   The similarity calculation unit 36 selects one of the search results from the reference engine (step S13), and multimedia between the selected search result content data and a search result group from another search engine E. The similarity is calculated (step S14).

例えば、図4のように基準エンジンであるウェブ検索エンジンE1からの検索結果A1を選択した場合には、この検索結果A1と、他の検索エンジンEからの検索結果群B,C,Fとの間でマルチメディア類似度を算出する。   For example, when the search result A1 from the web search engine E1 that is the reference engine is selected as shown in FIG. 4, the search result A1 and the search result groups B, C, and F from other search engines E Multimedia similarity between them is calculated.

検索結果置換部38は、類似度算出部36が算出したマルチメディア類似度に基づいて、基準エンジンの検索結果の置換候補となる他の検索エンジンEの検索結果を選定する(ステップS15)。   Based on the multimedia similarity calculated by the similarity calculation unit 36, the search result replacement unit 38 selects a search result of another search engine E that is a replacement candidate for the search result of the reference engine (step S15).

具体的には、基準エンジンの1つの検索結果に対して算出したマルチメディア類似度が最大となる他の検索エンジンの検索結果群の中から、その検索結果群の中で最上位の検索結果を選定する。例えば、図5においてウェブ検索の検索結果A1に対して算出したマルチメディア類似度が最大のものは画像検索であるから、画像検索の検索結果群Bの最上位の検索結果B1を選定する。   Specifically, the highest search result in the search result group is selected from the search result group of the other search engine having the maximum multimedia similarity calculated for one search result of the reference engine. Select. For example, in FIG. 5, since the one with the highest multimedia similarity calculated with respect to the search result A1 of the web search is the image search, the highest search result B1 of the search result group B of the image search is selected.

そして、検索結果置換部38は、選定した検索結果が既に出力用の検索結果として置換済みであるか否かを判定する(ステップS17)。この判定の結果、既に置換済みであった場合は(ステップS17;Yes)、ステップS15に処理を移行して、マルチメディア類似度が最大の検索結果群の中から次ぎに上位の検索結果を置換候補として選定する。   Then, the search result replacing unit 38 determines whether or not the selected search result has already been replaced as an output search result (step S17). If the result of this determination is that it has already been replaced (step S17; Yes), the process proceeds to step S15, and the next higher-order search result is replaced from the search result group having the maximum multimedia similarity. Select as a candidate.

また、置換済みではないと判定した場合には(ステップS17;No)、その置換候補の他エンジンの検索結果を出力用の検索結果としてメモリに記憶する(ステップS18)。   If it is determined that the replacement has not been completed (step S17; No), the search result of the replacement candidate other engine is stored in the memory as a search result for output (step S18).

例えば、検索結果A1のように基準エンジンの検索結果のコンテンツに画像的特徴が高い場合には、画像検索の検索結果の中でも上位の検索結果B1が出力用の検索結果として選定され置き換えられる。また、検索結果A2のように動画的特徴が高い場合には、動画検索の検索結果の中で上位の検索結果C1が選定され、置き換えられる。   For example, when the image characteristic is high in the content of the search result of the reference engine like the search result A1, the upper search result B1 is selected and replaced as the search result for output among the search results of the image search. When the moving image feature is high as in the search result A2, the upper search result C1 is selected from the search results of the moving image search and replaced.

検索結果置換部38は、ステップS13での検索結果の選択について、基準エンジンからの検索結果を全て選択したか否かを判定し、未選択のものがあれば(ステップS19;No)、ステップS13に処理を移行する。これにより、ウェブ検索の検索結果各々に対して画像検索、動画検索、商品検索の検索結果各々との組み合わせで網羅的にマルチメディア類似度を算出する。   The search result replacement unit 38 determines whether or not all search results from the reference engine have been selected for selection of search results in step S13, and if there is any unselected one (step S19; No), step S13. The process is transferred to. Thereby, the multimedia similarity is comprehensively calculated for each search result of the web search in combination with each of the search results of the image search, the video search, and the product search.

図4の例では、ウェブ検索エンジンE1からのN個の検索結果A1〜ANと、他の検索エンジンからの検索結果群B,C,Fとの間で各組み合わせについて図5のようにマルチメディア類似度が算出される。   In the example of FIG. 4, multimedia is obtained for each combination between N search results A1 to AN from the web search engine E1 and search result groups B, C, and F from other search engines as shown in FIG. Similarity is calculated.

検索結果置換部38は、全ての検索結果を選択したと判定した場合には(ステップS19;Yes)、ステップS18の置き換え処理を行った検索結果によって、ユーザ端末Tに送信する出力用の検索結果の一覧データを生成する(ステップS20)。図6は、生成された出力用の検索結果一覧の一例である。図に示すように、出力用の検索結果R1〜RNは、検索結果A1が検索結果B1に、検索結果A2が検索結果C1、検索結果A3が検索結果B2により置き換えられて生成されたものである。   If the search result replacement unit 38 determines that all search results have been selected (step S19; Yes), the search result for output transmitted to the user terminal T based on the search result obtained by performing the replacement process in step S18. List data is generated (step S20). FIG. 6 is an example of the generated search result list for output. As shown in the figure, the search results R1 to RN for output are generated by replacing the search result A1 with the search result B1, the search result A2 with the search result C1, and the search result A3 with the search result B2. .

以上のように、本実施形態によれば、基準エンジンとして設定した検索エンジンEでの検索結果と、他の検索エンジンEでの検索結果群との間のマルチメディア類似度を算出し、該マルチメディア類似度に基づいて基準エンジンの検索結果を他の検索エンジンEの検索結果により置き換えることで、出力用の検索結果を生成する。これにより、基準エンジンでの検索結果の持つメディア的特徴を考慮して、他の複数の検索エンジンEでの検索結果を統合する。従って、既存の検索エンジンEを活用して、複数メディアを統合した検索システムを構築することができる。   As described above, according to this embodiment, the multimedia similarity between the search result in the search engine E set as the reference engine and the search result group in the other search engine E is calculated, A search result for output is generated by replacing the search result of the reference engine with the search result of another search engine E based on the media similarity. Accordingly, the search results from the other search engines E are integrated in consideration of the media characteristics of the search results from the reference engine. Therefore, a search system that integrates a plurality of media can be constructed by utilizing the existing search engine E.

また、基準エンジンの個々の検索結果と、他エンジンの検索結果群との間で算出したマルチメディア類似度を、基準エンジンの各検索結果がどのようなメディアにより表現されているのかの指標とすることができる。このため、クエリに対する検索結果をよく表現しているメディアによって出力用の検索結果が生成される。従って、ユーザは、メディア毎の検索システムで各々に検索・比較することなく、適切なメディアによる検索結果を得ることができる。   In addition, the multimedia similarity calculated between the individual search results of the reference engine and the search result group of other engines is used as an index of what kind of media each search result of the reference engine is expressed. be able to. Therefore, a search result for output is generated by a medium that well expresses the search result for the query. Therefore, the user can obtain a search result by an appropriate medium without performing a search / comparison with the search system for each medium.

〔変形例〕
尚、上述した実施形態は、本発明を適用した一例であり、その適用可能な範囲は上述例に限られない。
[Modification]
The embodiment described above is an example to which the present invention is applied, and the applicable range is not limited to the above example.

例えば、上記実施形態では、マルチメディア類似度の高い他エンジンの検索結果の中で上位のものから置換候補の検索結果を選定することとして説明したが、マルチメディア類似度の高い他エンジンの検索結果の中で、基準エンジンの検索結果との間で個々の類似度が高い検索結果を置換候補として選定することとしてもよい。   For example, in the above-described embodiment, the search result of the replacement candidate having the highest multimedia similarity is described as selecting the search result of the replacement candidate from the higher ones among the search results of the other engines having the higher multimedia similarity. Among them, a search result having a high degree of similarity with the search result of the reference engine may be selected as a replacement candidate.

この場合、図5のように基準エンジンの各検索結果と、他エンジンの検索結果群との間のマルチメディア類似度を算出し、更に、図7のように基準エンジンの各検索結果と、他エンジンの各検索結果との間でマルチメディア類似度を算出する。そして、マルチメディア類似度の高い他エンジンの検索結果群の中でも、個々のマルチメディア類似度が高い検索結果を置換候補として選定する。   In this case, the multimedia similarity between each search result of the reference engine and the search result group of the other engine is calculated as shown in FIG. 5, and each search result of the reference engine is calculated as shown in FIG. The multimedia similarity is calculated between each search result of the engine. Then, among the search result groups of other engines with high multimedia similarity, the search results with high individual multimedia similarity are selected as replacement candidates.

この検索結果間のマルチメディア類似度の算出は、上記の式1に基づいて行われ、各テキスト類似度、画像類似度及び動画類似度は検索結果のコンテンツ間で算出されたものが使われる。   The calculation of the multimedia similarity between the search results is performed based on the above formula 1, and the text similarity, the image similarity, and the video similarity are calculated between the contents of the search results.

図7の例では、図5で検索結果A1とのマルチメディア類似度の高かった画像検索の検索結果群Bの中でも、個々に算出したマルチメディア類似度が高い検索結果B2が置換候補として選定されることとなる。このため、基準エンジンの検索結果のメディア的特性が類似する検索エンジンの中から、更にコンテンツの類似性の高い検索結果を置換候補として選定することができる。   In the example of FIG. 7, among the search result group B of the image search having a high multimedia similarity with the search result A1 in FIG. 5, the search result B2 having a high calculated multimedia similarity is selected as a replacement candidate. The Rukoto. For this reason, it is possible to select a search result having a higher content similarity as a replacement candidate from search engines having similar media characteristics of the search results of the reference engine.

また、基準エンジンの検索結果と、他エンジンの検索結果との間のマルチメディア類似度を図7のように算出し、そのマルチメディア類似度が高いものを置換候補として選定することとしてもよい。これにより、他エンジンの検索結果の中でも類似性の高い検索結果によって出力用の検索結果を生成することができる。   Alternatively, the multimedia similarity between the search result of the reference engine and the search result of the other engine may be calculated as shown in FIG. 7, and the one with the high multimedia similarity may be selected as a replacement candidate. Thereby, a search result for output can be generated based on a search result having high similarity among search results of other engines.

また、上記実施形態では、マルチメディア類似度が最大のもので検索結果を置き換えることとして説明したが、該マルチメディア類似度が全て所定の閾値(例えば、0.5)未満である場合には、基準エンジンの検索結果を出力用の検索結果として用いることとしてもよい。即ち、メディア的特徴が他の検索エンジンEの検索結果と類似していない場合は、置き換えを行うことなく、基準エンジンの検索結果を出力用として用いることができる。   Further, in the above embodiment, the description has been given that the search result is replaced with the one having the maximum multimedia similarity. However, when all the multimedia similarities are less than a predetermined threshold (for example, 0.5), The reference engine search result may be used as an output search result. That is, when the media characteristics are not similar to the search results of other search engines E, the search results of the reference engine can be used for output without replacement.

また、画像検索や動画検索等の単一のメディアによるコンテンツを検索対象とした検索エンジンEよりも、ウェブ検索や商品検索といった複数のメディアをコンテンツに含む複合メディアを検索対象とした検索エンジンEを基準エンジンとして設定することが望ましい。複合メディアを検索対象とする検索エンジンEを基準エンジンとすることで、コンテンツに含まれるテキストや画像、動画等の複数のメディアの観点でマルチメディア類似度を算出することができるため、複数のメディアを統合した検索の実現が可能になる。   In addition, a search engine E for searching a composite medium including a plurality of media such as a web search and a product search as a search target rather than a search engine E as a search target for a content by a single medium such as an image search or a video search. It is desirable to set as a reference engine. By using the search engine E that searches for composite media as a reference engine, multimedia similarity can be calculated from the viewpoint of multiple media such as text, images, and videos included in the content. It is possible to realize a search that integrates.

また、基準エンジンからの検索結果を他の検索エンジンEの検索結果で置き換える際に、その置き換える検索結果が重複しないように置換対象の検索結果を選定することとしてもよい。具体的には、基準エンジンの検索結果の上位から上述の検索結果の置き換えを行っていき、その置き換えを行った他の検索エンジンEの検索結果をメモリ等に保持していく。そして、基準エンジンの下位の検索結果について置き換えを行う際に、最大となる検索結果が既に置換対象となっている場合には、その次ぎに最大となる検索結果により置き換えを行う。これにより、出力用の検索結果として重複したコンテンツが含まれることを防止できる。   Further, when the search result from the reference engine is replaced with the search result of another search engine E, the search result to be replaced may be selected so that the search result to be replaced does not overlap. Specifically, the above search results are replaced from the top of the search results of the reference engine, and the search results of the other search engines E that have performed the replacement are stored in a memory or the like. Then, when replacing a search result lower than the reference engine, if the maximum search result has already been replaced, replacement is performed using the maximum search result. As a result, it is possible to prevent duplicate contents from being included as search results for output.

また、マルチメディア類似度による置換の判定に際して、各検索結果に付与されたランキングにより重み付けを行って、そのランキングを考慮した置き換えを行ってもよい。例えば、検索結果の順位1〜Nをランクとした場合に、他の検索エンジンEの検索結果毎に算出するマルチメディア類似度に、各検索結果のランキングに対応した1/1,1/2,1/3,・・・,1/Nの重み値を乗算することにより重み付けを行う。   In addition, when determining the replacement based on the multimedia similarity, the replacement may be performed in consideration of the ranking by weighting the ranking given to each search result. For example, when the rankings 1 to N of the search results are ranked, the multimedia similarity calculated for each search result of the other search engine E is set to 1/1, 1/2, Weighting is performed by multiplying 1/3,..., 1 / N weight values.

このように、マルチメディア類似度に対してランキングを重み付けすることにより、各検索エンジンEでの検索結果の中でもクエリとの関連性の高い検索結果により置き換えを行えるようになる。   In this way, by weighting the ranking with respect to the multimedia similarity, it is possible to replace the search results with the search results highly relevant to the query among the search results of each search engine E.

また、マルチメディア類似度の算出式として、式1のようにテキスト類似度、画像類似度及び動画類似度の平均値を用いることとして説明したが、その中の最大値若しくは最小値を用いることとしてもよい。   In addition, as an expression for calculating the multimedia similarity, the average value of the text similarity, the image similarity, and the moving image similarity has been described as in Expression 1, but the maximum value or the minimum value among them is used. Also good.

具体的には、算出したテキスト類似度、画像類似度及び動画類似度のうちの最大値となるものをマルチメディア類似度として設定してもよい。これによれば、類似度の高いメディアを重要視したマルチメディア類似度によって検索結果の置き換えを行うことができる。   Specifically, the maximum value among the calculated text similarity, image similarity, and moving image similarity may be set as the multimedia similarity. According to this, the search result can be replaced by the multimedia similarity that places importance on the high similarity media.

また、テキスト類似度、画像類似度及び動画類似度を乗算した値をマルチメディア類似度として設定してもよい。これによれば、各類似度の値が全て高くならなければマルチメディア類似度の値も高まらないため、各メディアが総合的に類似する検索結果により置き換えを行うことができる。   A value obtained by multiplying the text similarity, the image similarity, and the moving image similarity may be set as the multimedia similarity. According to this, since the multimedia similarity value does not increase unless all the similarity values are increased, the replacement can be performed by the search result in which the respective media are totally similar.

また、楽曲や録音音声等の音声データを検索する音声検索エンジンを用いて、音声の類似度をマルチメディア類似度に加えることによって、音声検索エンジンを検索対象のメディアとして含めることとしてもよく、音楽、ニュース、ブログ、地図等の、他のメディアについての検索エンジンを用いることも可能である。   In addition, the voice search engine may be included as a search target medium by adding the voice similarity to the multimedia similarity using a voice search engine that searches voice data such as music and recorded voice. It is also possible to use search engines for other media such as news, blogs and maps.

また、実施形態の動作は、コンピュータに適宜のコンピュータソフトウエアを組み込むことにより実施することができる。尚、本発明の内容は、前記実施形態に限定されるものではない。本発明は、特許請求の範囲に記載された範囲内において、具体的な構成に対して種々の変更を加えうるものである。   The operation of the embodiment can be performed by incorporating appropriate computer software into the computer. The contents of the present invention are not limited to the above embodiment. In the present invention, various modifications can be made to the specific configuration within the scope of the claims.

例えば、各構成要素は、機能ブロックとして存在していればよく、独立したハードウエアとして存在しなくても良い。また、実装方法としては、ハードウエアを用いてもコンピュータソフトウエアを用いても良い。更に、本発明における一つの機能要素が複数の機能要素の集合によって実現されても良く、本発明における複数の機能要素が一つの機能要素により実現されても良い。   For example, each component only needs to exist as a functional block, and does not need to exist as independent hardware. As a mounting method, hardware or computer software may be used. Furthermore, one functional element in the present invention may be realized by a set of a plurality of functional elements, and a plurality of functional elements in the present invention may be realized by one functional element.

また、機能要素は、物理的に離間した位置に配置されていてもよい。この場合、機能要素どうしがネットワークにより接続されていても良い。グリッドコンピューティングにより機能を実現し、あるいは機能要素を構成することも可能である。   Moreover, the functional element may be arrange | positioned in the position physically separated. In this case, the functional elements may be connected by a network. It is also possible to realize functions or configure functional elements by grid computing.

D インデックス
E 検索エンジン
E1 ウェブ検索エンジン
E3 画像検索エンジン
E5 動画検索エンジン
E7 商品検索エンジン
T ユーザ端末
1 検索サーバ
10 クエリ受付部
20 クエリ投入部
30 検索結果統合部
32 基準エンジン設定部
34 検索結果取得部
36 類似度算出部
38 検索結果置換部
40 検索結果出力部
D Index E Search engine E1 Web search engine E3 Image search engine E5 Video search engine E7 Product search engine T User terminal 1 Search server 10 Query reception unit 20 Query input unit 30 Search result integration unit 32 Reference engine setting unit 34 Search result acquisition unit 36 similarity calculation unit 38 search result replacement unit 40 search result output unit

Claims (5)

各種メディアを含むコンテンツを検索対象とした複数の検索エンジンにクエリを出力して、検索結果を各検索エンジンから取得する検索結果取得手段と、
前記各種メディアを複数含むコンテンツを検索対象とした検索エンジンからの検索結果を基準とし、この基準となる検索結果の各コンテンツと、他の検索エンジンからの検索結果のコンテンツとの類似度を算出する類似度算出手段と、
前記算出された類似度に基づいて、前記基準となる検索結果のコンテンツを他の検索エンジンによる検索結果に置換することで、出力用の検索結果を生成する検索結果生成手段と、
を備えることを特徴とする検索装置。
A search result acquisition means for outputting a query to a plurality of search engines that search for contents including various media and acquiring search results from each search engine;
Based on a search result from a search engine that searches for content including a plurality of the various media, the similarity between each content of the search result serving as the reference and the content of the search result from another search engine is calculated. Similarity calculation means;
Search result generating means for generating a search result for output by replacing the content of the reference search result with a search result by another search engine based on the calculated similarity;
A search device comprising:
前記各種メディアを複数含むコンテンツは、ウェブコンテンツであり、
前記類似度算出手段は、
前記ウェブコンテンツを検索対象とした検索エンジンからの検索結果を前記基準として設定し、
前記検索結果生成手段は、
前記検索結果であるウェブコンテンツを、他の検索エンジンによる検索結果のコンテンツに置換することを特徴とする請求項1に記載の検索装置。
The content including a plurality of the various media is web content,
The similarity calculation means includes:
A search result from a search engine that searches the web content is set as the reference,
The search result generating means includes
The search apparatus according to claim 1, wherein the web content that is the search result is replaced with content that is a search result from another search engine.
前記各種メディアは、テキスト、静止画、動画、音声の少なくとも何れかを含み、
前記類似度算出手段は、
前記各検索エンジンから取得されたコンテンツに含まれるテキスト、静止画、動画、音声の特徴量を該コンテンツ間で比較することで前記類似度を算出することを特徴とする請求項1又は2に記載の検索装置。
The various media include at least one of text, still images, moving images, and sounds,
The similarity calculation means includes:
3. The similarity is calculated by comparing text, still image, video, and audio feature amounts included in the content acquired from each search engine between the content. Search device.
コンピュータが、
各種メディアを含むコンテンツを検索対象とした複数の検索エンジンにクエリを出力して、検索結果を各検索エンジンから取得する検索結果取得工程と、
前記各種メディアを複数含むコンテンツを検索対象とした検索エンジンからの検索結果を基準とし、この基準となる検索結果の各コンテンツと、他の検索エンジンからの検索結果のコンテンツとの類似度を算出する類似度算出工程と、
前記算出された類似度に基づいて、前記基準となる検索結果のコンテンツを他の検索エンジンによる検索結果に置換することで、出力用の検索結果を生成する検索結果生成工程と、
を行うことを特徴とする検索方法。
Computer
A search result acquisition step of outputting a query to a plurality of search engines that search content including various media and acquiring search results from each search engine,
Based on a search result from a search engine that searches for content including a plurality of the various media, the similarity between each content of the search result serving as the reference and the content of the search result from another search engine is calculated. Similarity calculation step;
A search result generation step of generating a search result for output by replacing the content of the reference search result with a search result by another search engine based on the calculated similarity,
The search method characterized by performing.
請求項4に記載の検索方法をコンピュータに実行させるためのプログラム。   A program for causing a computer to execute the search method according to claim 4.
JP2010130585A 2010-06-08 2010-06-08 Search device Active JP5094915B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010130585A JP5094915B2 (en) 2010-06-08 2010-06-08 Search device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010130585A JP5094915B2 (en) 2010-06-08 2010-06-08 Search device

Publications (2)

Publication Number Publication Date
JP2011257891A true JP2011257891A (en) 2011-12-22
JP5094915B2 JP5094915B2 (en) 2012-12-12

Family

ID=45474026

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010130585A Active JP5094915B2 (en) 2010-06-08 2010-06-08 Search device

Country Status (1)

Country Link
JP (1) JP5094915B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017220203A (en) * 2016-06-07 2017-12-14 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC Method and system for evaluating matching between content item and image based on similarity scores
JP2019008395A (en) * 2017-06-21 2019-01-17 日本電信電話株式会社 Comprehension support method, comprehension support device, and program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002334099A (en) * 2001-03-05 2002-11-22 Nippon Telegr & Teleph Corp <Ntt> Device, method and program for retrieving distributed multimedia information and recording medium
JP2006163842A (en) * 2004-12-07 2006-06-22 Canon Inc Search system, information processor, its control method, and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002334099A (en) * 2001-03-05 2002-11-22 Nippon Telegr & Teleph Corp <Ntt> Device, method and program for retrieving distributed multimedia information and recording medium
JP2006163842A (en) * 2004-12-07 2006-06-22 Canon Inc Search system, information processor, its control method, and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017220203A (en) * 2016-06-07 2017-12-14 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC Method and system for evaluating matching between content item and image based on similarity scores
JP2019008395A (en) * 2017-06-21 2019-01-17 日本電信電話株式会社 Comprehension support method, comprehension support device, and program

Also Published As

Publication number Publication date
JP5094915B2 (en) 2012-12-12

Similar Documents

Publication Publication Date Title
US11347963B2 (en) Systems and methods for identifying semantically and visually related content
KR101078864B1 (en) The query/document topic category transition analysis system and method and the query expansion based information retrieval system and method
KR101171405B1 (en) Personalization of placed content ordering in search results
US8346767B2 (en) Image search result summarization with informative priors
JP6216467B2 (en) Visual-semantic composite network and method for forming the network
US20140181204A1 (en) Interest graph-powered search
JP5469046B2 (en) Information search apparatus, information search method, and information search program
Zhou et al. Enhancing online video recommendation using social user interactions
Sharma et al. A systematic review on page ranking algorithms
US20100121844A1 (en) Image relevance by identifying experts
Wang et al. Interactive browsing via diversified visual summarization for image search results
Obidallah et al. Clustering and association rules for web service discovery and recommendation: a systematic literature review
US20100145944A1 (en) Mining broad hidden query aspects from user search sessions
JP2010186214A (en) Retrieval device
WO2020095357A1 (en) Search needs assessment device, search needs assessment system, and search needs assessment method
JP5462917B2 (en) Image search index generation method, image search index generation program, and image search index generation device
JP5094915B2 (en) Search device
CN109800429B (en) Theme mining method and device, storage medium and computer equipment
JP2016076115A (en) Information processing device, information processing method and program
JP5265610B2 (en) Related word extractor
US20200226159A1 (en) System and method of generating reading lists
JP2020109689A (en) Retrieval need evaluation device, retrieval need evaluation system, and retrieval need evaluation method
Meng Metasearch Engines.
Huang et al. Rough-set-based approach to manufacturing process document retrieval
US10909127B2 (en) Method and server for ranking documents on a SERP

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120918

R150 Certificate of patent or registration of utility model

Ref document number: 5094915

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150928

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350