JP5414334B2 - Pseudo-document search system and pseudo-document search method - Google Patents
Pseudo-document search system and pseudo-document search method Download PDFInfo
- Publication number
- JP5414334B2 JP5414334B2 JP2009095789A JP2009095789A JP5414334B2 JP 5414334 B2 JP5414334 B2 JP 5414334B2 JP 2009095789 A JP2009095789 A JP 2009095789A JP 2009095789 A JP2009095789 A JP 2009095789A JP 5414334 B2 JP5414334 B2 JP 5414334B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- document
- search
- pseudo
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Description
本発明は、画像(例えば図)を含む大量の文書の中から、目的の画像、目的の画像を含む又は関連のある文書、目的の画像と関連のある用語等を検索する技術に関する。 The present invention relates to a technique for searching a target image, a document including or related to a target image, a term related to the target image, and the like from a large number of documents including images (for example, figures).
近年の科学分野の著しい発展により、論文数は指数関数的に増加している。一方、学術雑誌の発行から一定期間後に無料で公開されることから、自由に検索できる文献対象は広がりつつある。特に、医学生物学の分野ではこの傾向は強い。多くの論文は、図(画像)やテーブルを中心に記述されていることから、目的の論文を検索するためには、画像の利用は有用な手段となる可能性が高い。また、画像には、論文中に自然言語で記述されない情報も含まれており、画像が含まれる文書だけでなく、画像自身を検索したいニーズも高い。また、Web等で公開されている文書、ビジネス文書等においても同様の傾向が見られる。 The number of papers has increased exponentially due to the remarkable development of science in recent years. On the other hand, since it is published free of charge after a certain period of time from the publication of an academic journal, the literature objects that can be freely searched are expanding. This tendency is particularly strong in the field of medical biology. Since many papers are described with a focus on figures (images) and tables, the use of images is likely to be a useful tool to search for the papers of interest. In addition, the image includes information that is not described in the natural language in the paper, and there is a high need to search not only the document including the image but also the image itself. The same tendency can be seen in documents published on the Web and business documents.
一方、文献の検索に関しては、用語にインデックスを張り、文書検索を行う方法が広く使われている。なお、学術文献中の画像(図)に関しては、検索結果としてはユーザに見せないか、検索結果の文書に付随するもの全ての画像を表示する等の方法が取られている。文献検索ではなく、画像分類としては、予め決められたクラスに画像情報と画像の説明箇所又は本文情報を利用して与えられた画像を分類する方法がある。Web上にある画像の検索では、画像情報を使わずに、画像周りのテキスト情報で画像を検索する方法もあるし、一方、Atlas WISE やWebSeerなどのように、画像の特定の特徴量とテキスト情報を利用する方法もある(非特許文献1及び2参照)。また、テキスト検索した後、画像検索を行う2段階の方法もある(特許文献1参照)。画像検索としては、大量の写真からの類似写真の検索・類似写真の削除などを画像情報のみを利用して行うことが広く行われている。
On the other hand, for searching documents, a method of indexing terms and searching documents is widely used. As for the images (figure) in the academic literature, the search results are not shown to the user, or all the images attached to the search result document are displayed. There is a method of classifying an image given to a predetermined class by using image information and a description portion of the image or text information as image classification instead of literature search. When searching for images on the web, you can search for images using text information around the image without using image information. On the other hand, as with Atlas WISE and WebSeer, you can search for specific image features and text. There is also a method of using information (see Non-Patent
ところで、画像の説明文中に含まれる用語を用いて画像を検索する方法は、用語に関係した画像を抽出できるものの、抽出された画像量が多い場合には目的の画像に絞り込むことが難しい。一方、画像の特徴量を利用して目的の画像を見つける方法は、検索クエリーに画像を用意する必要がある。しかし、検索クエリーに画像を用意したとしても、見かけ上類似する画像を検索することはできたとしても、文脈や内容的に類似する画像を検索することはできない。 By the way, although the method of searching for an image using terms included in the description of the image can extract images related to the terms, it is difficult to narrow down to a target image when the amount of extracted images is large. On the other hand, in the method of finding a target image using the feature amount of the image, it is necessary to prepare the image for the search query. However, even if an image is prepared for a search query, an image that is similar in appearance cannot be searched, even if an image that is similar in appearance can be searched.
このように、目的の画像の検索自体が難しいために、現在利用可能な技術では、目的の画像を含む文書、目的の画像を的確に表す用語等を取り出すことも難しい。 As described above, since it is difficult to search for a target image, it is difficult to extract a document including the target image, a term that accurately represents the target image, and the like using currently available techniques.
なお、画像周りのテキストと画像情報を同時に利用する方法もある(非特許文献1、非特許文献2及び非特許文献3参照)。しかし、目的の画像が検索クエリーとなる画像との類似度が低いが内容との類似度は高い、又は画像との類似度が高いが内容との類似度は低い等のように、内容の類似度と画像の類似度がある一定の関係を有する画像の検出を目的とする場合、目的の画像を得ることは難しい。
There is also a method of simultaneously using text around the image and image information (see Non-Patent
なぜなら、今まで提案されている手法のほとんどでは、類似度を複数次元で扱うという観点がないためである。言うならば、今までの手法には、画像の類似度と内容的な類似度との2つの概念に分ける考えがない。このため、画像の類似度ならば類似画像の周りでしか検索を優先せず、内容的な類似度ならばテキスト情報の周りでしか検索を優先せず、又は、最初に与えた画像とキーワードに類似の周りでしか検索を優先しないためである。 This is because most of the methods proposed so far do not have a viewpoint of handling similarity in multiple dimensions. In other words, the conventional methods have no idea of dividing into two concepts of image similarity and content similarity. For this reason, if the similarity of the image, the search is given priority only around the similar image, and if the content similarity, the search is given priority only around the text information, or the first given image and keyword are used. This is because the search is given priority only around similar parts.
また、特許文献1には、まずテキストを検索キーに使用して1回目の検索を実行し、その結果得られた画像の特徴量を利用して2回目の検索を実行する手法が開示されている。しかし、この2段階方式の場合には、検索キーをテキスト領域に含まない画像を抽出できない。従って、この2段階方式は、検索キーに関連のある画像の多くを落とすことがあり、検索キーとしてのテキストと適度に関係がある画像や検索キーとしての画像に適度に関係する画像を検索することが難しい。 Japanese Patent Application Laid-Open No. 2004-228561 discloses a technique in which a first search is executed using text as a search key, and a second search is executed using a feature amount of an image obtained as a result. Yes. However, in the case of this two-stage method, an image that does not include the search key in the text area cannot be extracted. Therefore, this two-stage method may drop many images related to the search key, and searches for an image that is moderately related to the text as the search key or an image that is moderately related to the image as the search key. It is difficult.
そこで、本発明では、文書中から抽出した画像の特徴量と文書中から抽出した用語とをインデックスとして対応する画像に貼り付けて擬似文書を作成し、画像の特徴量及び又は用語を検索クエリーとして用いて擬似文書を検索する手法を提案する。この際、画像の特徴量及び又は用語に対する類似度の判定に対する重みを変更することにより、画像の見かけ上の類似度に対する概念軸と他の1つ又は複数の概念軸における各類似度を尺度として使用する複数次元上での検索を実現する。 Therefore, in the present invention, a pseudo document is created by pasting an image feature amount extracted from a document and a term extracted from the document as an index to a corresponding image, and the image feature amount and / or term is used as a search query. We propose a method for searching for pseudo-documents. At this time, by changing the weight for the determination of the degree of similarity with respect to the feature amount of the image and / or the term, each degree of similarity in the concept axis for the apparent similarity of the image and one or more other concept axes is used as a scale. Realize search on multiple dimensions to be used.
本発明の場合には、画像の見かけ上の類似性とその他の1つ又は複数の類似性とによって規定される複数次元上の任意の領域を検索範囲として検索動作を実行することができる。例えば、検索クエリーとの見かけ上の類似度が低いが内容との類似度が高い画像、検索クエリーとの見かけ上の類似度が高いが内容との類似度が低い等の複雑な条件による検索を実現できる。 In the case of the present invention, the search operation can be executed using an arbitrary region on a plurality of dimensions defined by the apparent similarity of images and one or more other similarities as a search range. For example, search based on complex conditions such as an image with a low apparent similarity to the search query but a high similarity with the content, or a high apparent similarity with the search query but a low similarity with the content. realizable.
以下、本発明に係る形態例を図面に基づいて詳細に説明する。ただし、本発明の内容は、以下の形態例に限定されるものではない。 Hereinafter, embodiments according to the present invention will be described in detail with reference to the drawings. However, the contents of the present invention are not limited to the following embodiments.
(1)システム構成
図1に、画像、用語及び文書間を横断的に検索するシステム(本明細書では「擬似文書検索システム」ともいう。)を示す。擬似文書検索システムは、文書(画像を含む文書)を格納するストレージ101と、前処理102によって生成された擬似文書(特徴量と文書から抽出された用語等をインデックスとして貼り付けた画像)を格納するストレージ103と、ストレージ101、103に対して所定の処理を実行する計算処理装置104とで構成される。
(1) System Configuration FIG. 1 shows a system (also referred to as “pseudo document search system” in this specification) that searches between images, terms, and documents across. The pseudo document search system stores a
この形態例の場合、ストレージ101及び103の両方又は一方は、計算処理装置104と同一の筐体内に格納される場合だけでなく、インターネットやネットワークを通じて計算処理装置104に接続されている場合も含まれる。例えばインターネット上に存在する文書を検索対象とする場合、少なくともストレージ101は、インターネット上に存在している。
In the case of this embodiment, both or one of the
また、計算処理装置104に対するユーザの指示入力(例えば検索クエリーの入力処理105、選択処理107等)と、検索結果画面を含む操作画面の提示(例えば最終解の提示処理106)は、不図示のユーザインターフェースを通じて実現されるものとする。例えばマウス、キーボード、ポインティングデバイス、ディスプレイ装置等を通じて実現される。なお、計算処理装置104を通じて提供される各種の処理機能は、コンピュータ上でのプログラムの実行を通じて実現される。もっとも、処理機能の一部は、複数のコンピュータによって分散的に実行しても良い。
In addition, user instruction input (for example, search
(2)処理手順の概要
図2及び図3に、擬似文書検索システムで実行される処理機能の概要を説明する。具体的には、前処理102と画像、用語、文書の横断検索処理について説明する。これらの処理は、いずれも計算処理装置104の処理動作を通じて提供される。
(2) Outline of Processing Procedure An outline of processing functions executed in the pseudo document search system will be described with reference to FIGS. 2 and 3. Specifically, the
前処理102は、ストレージ101に格納された文書を対象として実行される。この形態例の場合、前処理102は、基本的に3つの処理ステップ202、203及び204で構成される。処理ステップ202は、ストレージ101に格納されている文書の用語を認識し、各用語が、画像の脚注か否か、本文中にある画像の説明文か否か、構造化情報か否か等の情報と共に、本文から概念(用語)を認識する処理ステップである。処理ステップ203は、文書から特徴量を抽出する処理ステップである。処理ステップ204は、抽出された用語と特徴量をインデックスとして画像に貼り付けて擬似文書を生成する処理ステップである。
The
画像、用語、文書の横断検索処理には、例えば図2に示す手順と図3に示す手順の2種類がある。いずれの手順も、検索クエリーの入力処理105を通じて開始される。まず、処理ステップ206では、画像と用語の2つの概念軸のうちどちらかの概念軸を優先するように、画像と用語のインデックスの重みを変えて検索クエリーとの類似度を計算する。次の処理ステップ207では、検索クエリーを与える2つの概念軸に対する検索結果を中間解として液晶パネル等のディスプレイパネル上に表示する。例えば各概念軸に対する類似度を座標に使用して2つの概念軸で規定される座標空間上に代表的な画像をマッピングした形式により表示される。この際、必要に応じて用語も提示される。
There are two types of image, terminology, and document cross-search processing, for example, the procedure shown in FIG. 2 and the procedure shown in FIG. Both procedures are started through the search
この後、ユーザは、中間解として提示された画像や用語等に基づいて、目的画像の抽出に使用する画像と用語のインデックスの重みを直接変更する(107)。この後、前述した処理ステップ206による再度の検索処理が繰り返し実行される。なお、目的画像が得られた場合には、その画像が最終解としてユーザに提示される(106)。
After that, the user directly changes the weight of the index of the image and the term used for extracting the target image based on the image and the term presented as the intermediate solution (107). Thereafter, the re-retrieval process by the
なお、図3に示す手順では、中間解に対するユーザの選択指示の方法が、図2に示す手順と異なり、座標空間上の画像や用語に対する選択等を通じて、ユーザによる画像や用語等の選択が行われる。計算処理部104は、選択された画像や用語が有する情報に基づいてインデックスの重みを変更し、新たに検索クエリーとの類似度を計算する。
In the procedure shown in FIG. 3, the user's selection instruction method for the intermediate solution differs from the procedure shown in FIG. 2 in that the user selects an image, term, etc. through selection of an image or term in the coordinate space. Is called. The
なお、画像の特徴量を量子化すると擬似単語のように扱うことができる。このため、画像の特徴量に変えて量子化値を用いれば、用語の場合と同一のインデックスを利用できる利点がある。 In addition, if the feature amount of an image is quantized, it can be treated like a pseudo word. For this reason, if the quantized value is used instead of the feature amount of the image, there is an advantage that the same index as the term can be used.
また、概念軸となるものには、例えば内容の類似度と画像の類似度、生物学機能用語の類似度と画像の類似度、疾患関連(疾患名、症状など)類似度と画像の類似度、遺伝子名称の類似度と画像の類似度等、異なる二つの概念ならば何でも良い。また、画像の類似度、生物学機能用語の類似度、疾患関連用語類似度など3つの概念軸を利用することもできる。 The concept axis includes, for example, content similarity and image similarity, biological function term similarity and image similarity, disease-related (disease name, symptom, etc.) similarity and image similarity. Any two different concepts such as gene name similarity and image similarity may be used. Three concept axes such as image similarity, biological function term similarity, and disease-related term similarity can also be used.
画像以外の類似度の計算には、例えばtf(Term Frequency)−idf(Inverse Document Frequency)(すなわち、単語の出現頻度−逆出現頻度に基づく検索アルゴリズム)を使用し、検索クエリーと画像のテキスト情報との類似度を計算する。例えば用語の検索クエリーを利用して、tf−idfを用いた類似文書検索を実行すれば、それらの類似文書群での特徴語をtf−idfを用いて取り出すことができる。また、生物学機能用語、疾患関連用語等は、別途、辞書やシソーラスを利用して規定することができる。 For example, tf (Term Frequency) -idf (Inverse Document Frequency) (that is, a search algorithm based on word appearance frequency-inverse appearance frequency) is used to calculate the similarity other than the image. The similarity is calculated. For example, if a similar document search using tf-idf is executed using a term search query, feature words in those similar document groups can be extracted using tf-idf. Biological function terms, disease-related terms, and the like can be separately defined using a dictionary or a thesaurus.
画像の特徴量の計算の仕方は様々である。図4に一つの例を示す。図4(a)は元の画像401であり、図4(b)はこれに含まれる特徴点402の認識画像例である。図4(c)は特徴点402から計算した特徴量403の一覧である。図4(d)は特徴量を量子化した値(量子化値)404の一覧である。この量子化値404は、擬似単語として使用される。図4(e)は特徴点402の認識処理を経ることなく、edge direction やgray levelのヒストグラムの計算値を画像の特徴量405とする例である。
There are various ways of calculating the feature amount of the image. An example is shown in FIG. FIG. 4A shows the
画像の特徴点の認識方法には様々な方法がある。例えばHarris-affine (非特許文献4)、Maximum stable extremal Regions detector (MSER) (非特許文献5)、Hessian-affine(非特許文献4)等の方法がある。また、特徴点に関する特徴量の計算には、SIFT(Scale-invariant feature transform)(非特許文献6)、GLOH(extended SIFT) (非特許文献7)、shape context(非特許文献8)、HOG (histogram oriented gradient) (非特許文献9) 等、様々な方法を使用できる。また、特徴点を検出せずに画像をグリッド(Grid)に切り、各グリッドの特徴量を上記の方法等を用いて計算しても良い。特徴量を量子化する方法には、k-means クラスタリング等がある。 K-meansの場合は、何個のクラスタリングが最も精度が高くなるか、予めテストセットを用いて調べておく必要がある。 There are various methods for recognizing image feature points. For example, there are methods such as Harris-affine (Non-Patent Document 4), Maximum stable extremal Regions detector (MSER) (Non-Patent Document 5), and Hessian-affine (Non-Patent Document 4). In addition, for the calculation of the feature amount regarding the feature point, SIFT (Scale-invariant feature transform) (Non-patent document 6), GLOH (extended SIFT) (Non-patent document 7), shape context (Non-patent document 8), HOG ( Various methods such as histogram oriented gradient) (Non-Patent Document 9) can be used. Alternatively, the image may be cut into grids without detecting feature points, and the feature amount of each grid may be calculated using the above method or the like. A method for quantizing the feature quantity includes k-means clustering. In the case of K-means, it is necessary to check in advance using a test set how many clusters have the highest accuracy.
図5に、抽出された用語と特徴量とをインデックスとして画像に貼り付けることにより生成される擬似文書の例を示す。図5−1は、左側が図脚注の用語頻度情報501、右側が画像の特徴量の値502で構成される擬似文書例である。図5−2は、左側が図脚注の用語頻度情報501、真ん中が図脚注以外のテキスト情報の用語頻度情報503、右側が画像の特徴量502で構成される擬似文書例である。図5−3は、画像の特徴量を量子化した場合の例であり、左側が図脚注の用語頻度情報501、右側が画像から計算した擬似単語についての頻度情報502で構成される擬似文書例である。図5−4も、画像の特徴量を量子化した場合の例であり、左側が図脚注の用語頻度情報501、真ん中が図脚注以外のテキスト情報の用語頻度情報503、右側が画像から計算した擬似単語の頻度情報の値502で構成される擬似文書例である。
FIG. 5 shows an example of a pseudo document generated by pasting an extracted term and feature amount as an index on an image. FIG. 5A is an example of a pseudo document including the
(3)形態例1
次に、前述したシステム構成と処理手順を応用した一つ目の形態例を説明する。図6に示す形態例は、与えられる1つの概念軸を内容の類似度とし、画像の類似度と内容の類似度をインデックスの重みを調節することによって目的画像を検索する例に対応する。なお、前提としての前処理102は既に完了しており、ストレージ103にはインデックス化された擬似文書が格納されているものとする。
(3) Form example 1
Next, a first embodiment in which the above-described system configuration and processing procedure are applied will be described. The form example shown in FIG. 6 corresponds to an example in which the target image is searched by adjusting the weight of the index with the similarity between the contents as one concept axis and the similarity between the images. It is assumed that the preprocessing 102 as a premise has already been completed, and the
この形態例の場合、検索クエリー(601)には画像を使用する。画像、用語、文書の横断検索処理は、検索クエリーとして与えられた画像の特徴量に基づいてストレージ103に格納されている擬似文書を類似検索する(602)。この検索結果603が、中間解としてディスプレイパネル上に表示される。ユーザは、検索結果603に基づいて各軸に対する重みの変更を入力する。例えばユーザが画像の類似度を下げて内容的な類似度を上げるように指示入力した場合、計算処理装置104は、テキスト情報のインデックスの重みを増して類似する画像と文書の検索を再度実行する(604)。一方、例えばユーザが画像の類似度を上げて内容的な類似度を下げるように指示入力した場合、計算処理装置104は、画像情報のインデックスの重みを増して類似する画像と文書の検索を再度実行する(604)。
In this embodiment, an image is used for the search query (601). In the cross-search process for images, terms, and documents, a pseudo-document stored in the
ここでのテキスト情報の類似性は、前述したように、tf−idf等の類似文書検索の重みを使うことができる。また、画像情報の類似性は、特徴量ベクトルの類似性で計算することができる。この際、特徴量のベクトル要素毎に必要に応じて重みを変えることもできる。 The similarity of the text information here can use the weight of similar document search such as tf-idf as described above. Further, the similarity of image information can be calculated by the similarity of feature quantity vectors. At this time, the weight may be changed as necessary for each vector element of the feature amount.
この検索では、テキストについてインデックスの重みを下げた場合、類似度が低い画像まで検索(検索範囲の膨張)を実行することができ、画像についてのインデックスの重みを上げた場合、類似度が高い画像に絞って検索(検索範囲の絞込)を実行することができる。例えば、最初の検索実行時に抽出された検索クエリー画像が目的とする画像よりも遠い場合は、類似画像検索だけ行っていても目的の画像は検索されてこない。このような場合は、画像の類似度の縛りを下げて、テキスト情報の類似度を強めることにより、目的画像の候補の検索範囲を広げる必要がある。 In this search, when the index weight is reduced for text, the search (expansion of search range) can be executed up to an image with a low similarity, and when the index weight for an image is increased, an image with a high similarity It is possible to execute a search (narrowing the search range). For example, if the search query image extracted at the time of the initial search is farther than the target image, the target image is not searched even if only similar image search is performed. In such a case, it is necessary to widen the search range of the target image candidates by lowering the binding of the similarity of the images and increasing the similarity of the text information.
なお、既存のテキスト検索では画像の類似度を扱うことができない。また、既存の画像検索では目的の画像を得ることができない。また、画像と与えるテキスト情報の関連性をフィードバックする手法(relevance feedback)の場合は、最初のうちに類似度がそれなりに高い画像がヒットしない限り、フィードバックの効果が得られない。また、一般的な関連性フィードバック手法(relevance feedback)では、画像の類似度と内容の類似度という概念がそもそも存在しない。従って、均等に重みをつけることになる。結果的に、内容の類似度が高く画像の類似度が低い等の画像検索が困難である。 Note that the existing text search cannot handle image similarity. Moreover, the target image cannot be obtained by the existing image search. Further, in the case of a method (relevance feedback) of feeding back the relationship between an image and text information to be given, an effect of feedback cannot be obtained unless an image having a high similarity is hit at first. Moreover, in the general relevance feedback method (relevance feedback), the concept of image similarity and content similarity does not exist in the first place. Therefore, the weights are evenly weighted. As a result, it is difficult to search for an image such as a high content similarity and a low image similarity.
これに対し、形態例1に係る擬似文書検索システムの場合には、検索クエリー画像に対して内容の類似度が高いが画像の類似度が低い等の相反的な関係がある目的画像についても、効果的に検索することができる。更に、形態例1に係る擬似文書検索システムの場合には、必要に応じて目的画像を検索した後に、本画像を含む元の文献を検索することもできる。
On the other hand, in the case of the pseudo document search system according to the first embodiment, the target image having a reciprocal relationship such as the high similarity of the content to the search query image but the low similarity of the image, You can search effectively. Furthermore, in the case of the pseudo document search system according to
(4)形態例2
続いて、前述したシステム構成と処理手順を応用した二つ目の形態例を説明する。図7に示す形態例の場合も、与えられる1つの概念軸を内容の類似度とし、画像の類似度と内容の類似度をインデックスの重みを調節することによって目的画像を検索する例に対応する。
(4) Form example 2
Subsequently, a second embodiment in which the above-described system configuration and processing procedure are applied will be described. The example shown in FIG. 7 also corresponds to an example in which the target image is searched by adjusting the weight of the index with the similarity of the content as one given concept axis and the similarity of the image and the similarity of the image. .
この形態例の場合、検索クエリー(701)には与えられた用語(テキスト)を使用する。画像、用語、文書の横断検索処理は、検索クエリーとして与えられた用語に基づいて擬似文書を類似検索する(702)。この検索結果(703)に当たる擬似文書が、中間解としてディスプレイパネル上に表示される。ユーザは、検索結果(703)として提示された擬似文書(画像とそのテキスト情報)に基づいて各軸に対する重みの変更を入力する。例えばユーザが画像の類似度を下げて内容的な類似度を上げるように指示入力した場合、計算処理装置104は、テキスト情報のインデックスの重みを増して類似する画像と文書の検索を再度実行する(704)。一方、例えばユーザが画像の類似度を上げて内容的な類似度を下げるように指示入力した場合、計算処理装置104は、画像情報のインデックスの重みを増して類似する画像と文書の検索を再度実行する(704)。
In this embodiment, a given term (text) is used for the search query (701). In the cross search process for images, terms, and documents, a pseudo document is similarly searched based on the terms given as a search query (702). The pseudo document corresponding to the search result (703) is displayed on the display panel as an intermediate solution. The user inputs a weight change for each axis based on the pseudo document (image and its text information) presented as the search result (703). For example, when the user inputs an instruction to lower the image similarity and increase the content similarity, the
ここでのインデックスの重みの調整はユーザが実行しても良いし、ある程度、検索クエリーに制限をかける場合は、その検索クエリーがヒットした文書の特徴語となるようなインデックスの重みに自動的に調整するようにしても良い。 The adjustment of the index weight here may be performed by the user, and when the search query is limited to some extent, the index weight is automatically set to the feature word of the hit document. You may make it adjust.
この形態例2に係る擬似文書検索システムの場合には、前述した特許文献1とは異なり、検索クエリーそのものが文書中になくとも関連のあるものを検索でき、かつ、内容の類似度と画像の類似度が適度なバランスである領域についても容易に検索することができる。
In the case of the pseudo document search system according to the second embodiment, unlike
(5)形態例3
続いて、前述したシステム構成と処理手順を応用した三つ目の形態例を説明する。図8に示す形態例の場合、与えられる1つの概念軸を生物学的機能に関する内容の類似度とし、画像の類似度と生物学的機能に関する内容の類似度に対応するインデックスの重みをユーザがインタラクティブに調節することにより、目的の画像を検索する例に対応する。
(5) Example 3
Subsequently, a third embodiment example in which the above-described system configuration and processing procedure are applied will be described. In the case of the embodiment shown in FIG. 8, the given concept axis is set as the similarity of the content related to the biological function, and the user assigns the index weight corresponding to the similarity of the image and the similarity of the content related to the biological function. This corresponds to an example of searching for a target image by interactive adjustment.
この形態例の場合、生物学的機能に関する内容の類似度とは、画像を説明するテキスト情報中の生物学的機能に関する用語の類似度を示すものとする。図中の“WORD”は生物学的機能用語を示す。 In the case of this embodiment, the similarity of the content related to the biological function indicates the similarity of terms related to the biological function in the text information describing the image. “WORD” in the figure indicates a biological function term.
この形態例の場合、検索クエリー(801)はWORDと画像で構成され、これらWORDと画像に基づいて類似画像と類似文書の検索が実行される(802)。なお、図中、検索クエリーに対応する枠内の画像と用語は、それぞれ検索クエリーを構成する画像と用語を示している。 In the case of this embodiment, the search query (801) is composed of a WORD and an image, and a similar image and a similar document are searched based on the WORD and the image (802). In the figure, images and terms in a frame corresponding to the search query indicate images and terms constituting the search query, respectively.
この形態例の場合、検索クエリー(801)、(803)には、画像又はテキスト情報に対応するインデックスの重み(805)を指定できる表示欄が設けられている。なお、検索クエリーを構成する画像と用語の一部だけを選択的に使用することもできる。図8では、選択状態にある画像又は用語に対応するチェックボックスを黒塗りで示し、非選択状態にある画像又は用語に対応するチェックボックスを白抜きで示す。 In the case of this embodiment, the search queries (801) and (803) are provided with a display field in which an index weight (805) corresponding to image or text information can be designated. Note that only a part of the images and terms constituting the search query can be selectively used. In FIG. 8, the check boxes corresponding to the images or terms in the selected state are shown in black, and the check boxes corresponding to the images or terms in the non-selected state are shown in white.
ところで、ユーザが、検索クエリー(801)を与える画像が既に目的画像に内容的にも画像的にも類似すると判断した場合には、画像に対応するインデックスの重み(805)を高く設定することにより、幅広く画像を検索することができる(804)。 By the way, if the user determines that the image to which the search query (801) is given is already similar to the target image both in terms of content and image, the index weight (805) corresponding to the image is set high. A wide range of images can be searched (804).
これに対し、検索クエリー(801)として与える画像が目的画像に画像的に類似していないとユーザが判断した場合、テキスト情報に対応するインデックスの重み(805)を重くして検索を実行する(804)。 On the other hand, when the user determines that the image given as the search query (801) is not image-similar to the target image, the search is executed with a higher weight (805) of the index corresponding to the text information ( 804).
また、インデックスの重み(805)をユーザが指定するのでなく、検索クエリー(801)、(803)におけるWORDの選択と画像の選択を、必須、選択、非選択の3段階に分け、例えばWORDに必須が入ると、重みとは関係なく、必ずそのWORDが対応するテキスト情報に入る画像のみを取り出し、画像に必須が入ると、その画像に対応するインデックスの重みを他のインデックスの重みよりも数倍高くするなど、インデックスの重みを自動的に調節する機能を採用することもできる。 In addition, the user does not specify the weight of the index (805), but the selection of WORD and the selection of images in the search queries (801) and (803) are divided into three steps: essential, selected, and non-selected. If mandatory is entered, only the image included in the text information corresponding to the WORD is always taken out regardless of the weight, and if mandatory is entered in the image, the index weight corresponding to the image is more than the weights of other indexes. It is also possible to adopt a function that automatically adjusts the weight of the index, such as double the value.
(6)形態例4
続いて、前述したシステム構成と処理手順を応用した四つ目の形態例を説明する。図9に示す形態例は、与えられる1つの概念軸を疾患に関する内容の類似度とし、画像の類似度と疾患に関する内容の類似度に対するインデックスの重みをユーザがインタラクティブに調節することにより、目的の画像を検索する例に対応する。
(6)
Subsequently, a fourth embodiment in which the above-described system configuration and processing procedure are applied will be described. In the form example shown in FIG. 9, a given concept axis is set as the similarity of the content related to the disease, and the user interactively adjusts the weight of the index with respect to the similarity of the image and the similarity of the content related to the disease. This corresponds to an example of searching for an image.
この形態例の場合、疾患に関する内容の類似度とは、画像を説明するテキスト情報中の疾患に関する用語の類似度を示すものとする。 In the case of this form example, the similarity of the content related to the disease indicates the similarity of the term related to the disease in the text information describing the image.
この形態例の場合も、検索クエリー(901)は、WORDと画像で構成され、これらWORDと画像に基づいて類似画像と類似文書の検索が実行される(902)。なお、図中の“WORD”は疾患に関する用語を示す。 Also in this embodiment, the search query (901) is composed of WORD and images, and similar images and similar documents are searched based on these WORDs and images (902). In the figure, “WORD” indicates a term relating to a disease.
この形態例の場合、検索クエリー(901)として指定されたテキストのインデックスと画像のインデックスの比を与える重み(905)を指定できる表示欄が設けられている。この場合も、検索クエリーを構成する画像と用語の一部だけを選択的に使用することもできる。図9では、選択状態にある画像又は用語に対応するチェックボックスを黒塗りで示し、非選択状態にある画像又は用語に対応するチェックボックスを白抜きで示す。 In the case of this embodiment, a display field is provided in which a weight (905) for giving a ratio between a text index and an image index specified as a search query (901) can be specified. In this case as well, only a part of the images and terms constituting the search query can be selectively used. In FIG. 9, check boxes corresponding to images or terms in a selected state are shown in black, and check boxes corresponding to images or terms in a non-selected state are shown in white.
この形態例の場合に、検索クエリー(903)に対するユーザの選択指示は、画像に対してのみ実行され、選択された画像に基づいて検索が繰り返される(904)。もっとも、この形態例の場合、検索クエリーを構成するWORDは最初に与えられたWORDに固定されている。従って、最初に与えられたWORDと選択された画像について再度の検索処理が実行される。 In the case of this example, the user's selection instruction for the search query (903) is executed only for the image, and the search is repeated based on the selected image (904). However, in the case of this embodiment, the WORD constituting the search query is fixed to the WORD given first. Therefore, the search process is performed again for the first given WORD and the selected image.
この形態例の場合、ユーザは検索結果として提示された画像が目的の画像から遠い場合、画像のインデックスの重みを低くし、近づいてきたら画像のインデックスの重みを高くするように調整操作を実行する。この調整操作により、目的の画像を効率的に検索することができる。 In the case of this embodiment, when the image presented as the search result is far from the target image, the user performs an adjustment operation so that the weight of the index of the image is reduced and the weight of the index of the image is increased when approaching. . By this adjustment operation, the target image can be searched efficiently.
(7)操作画面例
続いて、前述した形態例を適用した場合における検索結果の具体的な表示例を示す。なお、以下の説明では、検索クエリーが画像と用語で与えられる場合について説明する。なお、この形態例の場合には、検索クエリーに用語を入れているが用語を入れない場合も考えられる。
(7) Example of Operation Screen Next, a specific display example of search results when the above-described embodiment is applied will be shown. In the following description, a case where a search query is given by an image and a term will be described. In the case of this embodiment, there may be a case where a term is included in the search query but no term is included.
図10−1は、中間解に対応する検索結果の表示画面例である。図に示すように、検索クエリー1001は、用語(例えばGene A, Gene C, apoptosis, Pathway…)と画像(例えばツリー構造図)によって与えられるものとする。前述したように、形態例に係る擬似文書検索システムでは擬似文書に対して検索クエリーを適用し、画像の見かけ上の類似度と内容の類似度をそれぞれ計算する。擬似文書検索システムは、この計算結果のうち代表的な画像を2つの概念軸で与えられる空間上に各類似度に応じて代表画像をマッピングした類似度マップ(1003)と、用語欄(1002)とで構成される検索結果画面(1004)をディスプレイ装置の画面上に表示する。因みに、類似度マップ(1003)の縦軸は画像の見かけ上の類似度であり、横軸は内容の類似度である。また、用語欄(1002)には、検索クエリーの用語に基づいて擬似文書を検索したときの特徴語が表示される。この特徴語は、検索クエリーを構成する用語でも良いし、類似度が高いと判定された擬似文書の集合に多く出現する用語でも良い。
FIG. 10A is a display screen example of a search result corresponding to the intermediate solution. As shown in the figure, the
また、検索結果画面(1004)には、各軸に対応する類似度の表示範囲を与えるパラメータ(1010)が表示される。このパラメータ(1010)の数値を変更することにより、ある類似度についての表示解像度を上げる調整や、解像度を下げて全体像を表示させる調整が可能になる。 The search result screen (1004) displays a parameter (1010) that gives a display range of similarity corresponding to each axis. By changing the numerical value of the parameter (1010), adjustment for increasing the display resolution for a certain degree of similarity and adjustment for displaying the whole image at a reduced resolution are possible.
図10−1の場合、原点付近に近いほど検索クエリーに近い画像であることを表している。また、図10−1の場合、縦軸方向のパラメータ(1009)の変化幅が横軸方向のパラメータ(1010)の変化幅より大きく定められている。従って、縦軸方向についての表示解像度を横軸方向に対して相対的に下げているとも言える。 In the case of FIG. 10-1, the closer to the origin, the closer to the search query. In the case of FIG. 10A, the change width of the parameter (1009) in the vertical axis direction is set larger than the change width of the parameter (1010) in the horizontal axis direction. Therefore, it can be said that the display resolution in the vertical axis direction is relatively lowered with respect to the horizontal axis direction.
ユーザは、用語欄(1002)に表示された用語の中から特定の用語を選択することにより、検索クエリーの内容を変更することができる。この他、検索結果画面(1004)には、検索の実行を指示入力するための検索ボタン(1006)も表示される。 The user can change the content of the search query by selecting a specific term from the terms displayed in the term column (1002). In addition, a search button (1006) for inputting an instruction to execute the search is also displayed on the search result screen (1004).
図10−2に、ユーザによる操作入力を受け付けた後の検索結果画面(1005)の表示例を示す。例えば図10−2の場合、用語欄(1002)に示す6個の用語のうち1つ(Gene E)だけが非選択状態になった状態を示している。また、ユーザは、必要に応じて用語を追加することができる。図10−2の場合、用語欄(1002)に、ユーザにより追加された用語(Gene F)(1007)が表示されている。 FIG. 10-2 shows a display example of the search result screen (1005) after accepting an operation input by the user. For example, in the case of FIG. 10-2, only one (Gene E) of six terms shown in the term column (1002) is in a non-selected state. Moreover, the user can add a term as needed. In the case of FIG. 10-2, the term (Gene F) (1007) added by the user is displayed in the term column (1002).
また、ユーザは、類似度マップ(1003)内から目的の画像に近いものを選び、又は、目的の画像がありそうな2つの概念軸のバランス点付近の画像を選び再度検索をすることもできる。図10−2の場合、ユーザにより選択された画像を実線で囲んで示している。なお、ユーザは、複数の画像を選択することもできる。 Further, the user can select an image close to the target image from the similarity map (1003), or select an image near the balance point of two conceptual axes that are likely to have the target image, and search again. . In the case of FIG. 10-2, the image selected by the user is surrounded by a solid line. Note that the user can also select a plurality of images.
この再検索結果の表示には、ユーザによって新たに選択された画像と用語に基づいて新たな検索クエリーを作成して検索をやり直した検索結果画面(1008)を表示する方法(図10−3)と、検索クエリーはそのままで選択した画像の見かけの類似度と内容の類似度との比に基づいて、画像のインデックスとテキスト情報のインデックスの比を変更し、新たなその比に基づいて検索した検索結果画面(1009)を表示する方法(図10−4)を選択的に利用することができる(1011)。 The re-search result is displayed by displaying a search result screen (1008) in which a new search query is created based on the image and term newly selected by the user and the search is performed again (FIG. 10-3). The search query is changed as it is based on the ratio between the apparent similarity of the selected image and the similarity of the content, and the ratio of the image index to the text information index is changed, and the search is performed based on the new ratio. A method of displaying the search result screen (1009) (FIG. 10-4) can be selectively used (1011).
このユーザによる選択操作(1011)は、前述した例のように、1つの画像と1つの用語を選択(追加を含む。)する場合だけでなく、複数の画像と複数の用語を選択する場合も含まれる。 This selection operation (1011) by the user is not only when selecting one image and one term (including addition) as in the example described above, but also when selecting a plurality of images and a plurality of terms. included.
また、この検索結果の表示画面(次回の検索条件の入力画面としても用いられる)には、ユーザの選択操作を補助する表示手法を採用することができる。図10−5に一例を表示する。なお、図10−5は、図10−3に示す検索結果画面(1008)に対応する。図10−5に示すように、特定の用語の選択時(1012)に、対応する文書を同じ画面上に別欄として文書欄(1013)を表示する表示態様を採用することもできる。また、特定の用語の選択時(1012)に、擬似文書中にその用語が現れる画像の枠や文書のタイトルをハイライト表示する表示形態を採用することができる(1014)、(1015)。この反対に、特定の画像が選択されると、対応する擬似文書中に現れる用語や文書がハイライト表示される表示形態を採用することもできる(1016)。 In addition, a display method that assists the user's selection operation can be employed for the search result display screen (also used as an input screen for the next search condition). An example is displayed in FIG. 10-5 corresponds to the search result screen (1008) shown in FIG. 10-3. As shown in FIG. 10-5, when a specific term is selected (1012), it is possible to adopt a display mode in which the document column (1013) is displayed with the corresponding document as another column on the same screen. Further, when a specific term is selected (1012), it is possible to adopt a display form in which the frame of the image in which the term appears in the pseudo document and the title of the document are highlighted (1014) and (1015). On the contrary, when a specific image is selected, it is possible to adopt a display form in which a term or document appearing in the corresponding pseudo document is highlighted (1016).
また、図10−6に示すように、2次元(2軸表示)ではなくて3次元(3軸表示)によって類似度マップ(1017)を表示する表示態様を採用することもできる。勿論、表示時には、各概念軸についての類似度が反映された位置に検索結果や検索結果を代表する画像を表示する。もっとも、図10−6に示すように、初期画面では、3次元上における画像の類似度のみが分かるように画像の対応位置にプロット(1018)を表示し、マウスを重ねると画像がポップアップするような表示形態を採用しても良い(1019)。因みに、図10−6は、縦軸を画像の類似度、横軸を疾患分野での類似度、第3の軸を生物学機能での類似度を採用する場合の表示画面例である。 Further, as shown in FIG. 10-6, a display mode in which the similarity map (1017) is displayed not in two dimensions (two-axis display) but in three dimensions (three-axis display) may be employed. Of course, at the time of display, a search result and an image representing the search result are displayed at a position where the similarity for each concept axis is reflected. However, as shown in FIG. 10-6, on the initial screen, a plot (1018) is displayed at the corresponding position of the image so that only the similarity of the image in three dimensions can be seen, and the image pops up when the mouse is overlaid. A different display form may be employed (1019). 10-6 is an example of a display screen in the case where the vertical axis employs image similarity, the horizontal axis employs similarity in the disease field, and the third axis employs biological function similarity.
(8)比較例
なお、従来の用語ベースによる検索手法を利用して、特定の遺伝子を含むpathwayのhand writingのモデル画像(図)を検索する場合、pathwayと遺伝子名称を検索クエリーとして指定入力する。ただし、検索クエリーの条件がこれだけの場合、pathway以外の図も多く含まれるし、遺伝子名称が本文中には記述されていなくとも図に入っている場合はそのpathwayの図は検索されない。たまたま良い検索クエリーが入力された場合には、目的の画像を検索できることもあるが、最良の検索クエリーをユーザが事前に知ることは難しい。
(8) Comparative Example When searching for a handwritten model image (Figure) of a pathway containing a specific gene using a conventional termbase search method, the pathway and gene name are specified and input as a search query. . However, when the search query condition is just this, many figures other than pathway are included, and even if the gene name is not described in the text, the figure of that pathway is not searched. If a good search query happens to be input, the target image may be searched, but it is difficult for the user to know the best search query in advance.
また、画像情報ベースの手法を利用すると、欲しい画像の類似画像を検索クエリーとする必要があるが、pathwayの図はhand writingのものが多く、画像としての類似度とすると、必ずしも類似度が高くない。 In addition, if an image information-based method is used, it is necessary to use a similar image of the desired image as a search query. However, many of the pathway figures are hand-written, and the similarity as an image is not always high. Absent.
また、特定の遺伝子に関する情報は文字認識する必要があり、論文中の図のように文字と背景に重なりが大きいものについては文字認識の精度が低く、目的の図を検索することは困難である。 In addition, information related to a specific gene needs to be recognized, and characters with a large overlap between the background and characters, such as the figure in the paper, have low character recognition accuracy, making it difficult to search for the target figure. .
また、テキスト情報と画像情報をそのまま検索インデックスとして利用してrelevanceフィードバックを行う方法は、ある程度上位に自分の目的としている画像に近いものがランクされていないとその効果は低い。例えば、図10−1〜図10−5の各例の場合、対角線上の検索は得意だが、右下、左上などの検索は難しい。 In addition, the method of performing relevance feedback using text information and image information as a search index as they are is less effective if the one closer to the target image is not ranked to some extent. For example, in each of the examples of FIGS. 10-1 to 10-5, the search on the diagonal line is good, but the search for the lower right and the upper left is difficult.
このように、従来手法は、限定的な条件でしか有効な検索動作を実行できない。 Thus, the conventional method can execute an effective search operation only under limited conditions.
(9)まとめ
以上の通り、形態例に係る擬似文書検索システムを採用することにより、複数軸のそれぞれについて類似度を自在に調整しながら目的の画像、目的の画像を含む文書、目的の画像に関連する文書、画像、用語、目的の文書に関連する画像、目的の用語に関連する画像等を検索することができる。例えば画像に対する類似度の重みを強めて見かけ上の画像の類似度を上げる一方で、テキスト情報の用語の重みを弱めて内容的な類似度を下げたり、その反対に画像に対する類似度の重みを弱めて見かけ上の画像の類似を下げる一方で、テキスト情報の用語の重みを強めて内容的な類似度を上げたりすることができる。
(9) Summary As described above, by adopting the pseudo document search system according to the form example, the degree of similarity can be freely adjusted for each of the plurality of axes, and the target image, the document including the target image, and the target image can be obtained. It is possible to search related documents, images, terms, images related to the target document, images related to the target term, and the like. For example, while increasing the similarity weight of the image to increase the apparent similarity of the image, the weight of the text information term is decreased to lower the content similarity, and vice versa. While weakening and reducing the similarity of the apparent image, it is possible to increase the similarity of the content by increasing the weight of the term of the text information.
また、この調整は、各概念軸の重みを独立に変更することによっても実行できるし、各軸に対する重み付けの比を変更することにより、すなわちどの概念軸にどの程度重みをおくかを変更することによっても実行できる。 This adjustment can also be performed by changing the weight of each concept axis independently, or by changing the weight ratio for each axis, that is, how much weight is placed on which concept axis. Can also be executed.
また、この調整は、ユーザの操作入力に応じてインデックスの重みを直接的に調整する場合だけでなく、予め定めた規則に基づいて自動的に実行することもできる。 Further, this adjustment can be automatically executed based on a predetermined rule as well as the case where the index weight is directly adjusted according to the user's operation input.
なお、中間解を表示した画面上でユーザが1つ又は複数の画像又は用語を選択した場合には、選択された画像や用語を次回の検索クエリーとして用いることができる。また、この際、選択された画像や用語を検索クエリーの変更には使用せず、概念の重み付けを変更するのに使用することができる。これらによって、効率良く目的の画像等を検索することができる。 When the user selects one or a plurality of images or terms on the screen displaying the intermediate solution, the selected images or terms can be used as the next search query. At this time, the selected image or term is not used for changing the search query but can be used for changing the weighting of the concept. Thus, it is possible to efficiently search for a target image or the like.
101…ストレージ、102…前処理、103…ストレージ、104…計算処理装置、105…検索クエリーの入力処理、106…最終解の提示処理、107…中間解に対する選択処理、202…文中から用語を抽出する処理、203…画像の特徴量を抽出する処理、204…画像の特徴量と用語をインデックスとして各画像に張り付けて擬似画像を生成する処理、206…ユーザによって選択された画像と用語等に基づいた再度の検索処理、207…中間解を提示する処理、401…元の画像、402…特徴点、403…特徴量、404…量子化値(擬似単語)、405…特徴量、501…用語頻度情報、502…特徴量、503…用語頻度情報、601…検索クエリー(画像)、602…類似検索、603…検索結果、604…類似検索、701…検索クエリー(用語)、702…類似検索、703…検索結果、704…類似検索、801…検索クエリー(用語と画像)、802…類似検索、803…検索クエリー(用語と画像)、804…類似検索、805…インデックスの重み、901…検索クエリー(用語と画像)、902…類似検索、903…検索クエリー(用語と画像)、904…類似検索、1001…検索クエリー(用語と画像)、1002…用語欄、1003…類似度マップ、1004…検索結果画面、1005…検索結果画面(ユーザ操作入力後)、1006…検索ボタン、1007…ユーザが追加した用語、1008…検索結果画面、1009…検索結果画面、1010…表示範囲を与えるパラメータ、1011…検索クエリーの生成方法の選択、1012…用語の選択、1013…用語の選択に対応して表示される文書欄、1014、1015…用語の選択に対応して表示されるハイライト表示、1016…画像の選択に対応して表示される用語のハイライト表示、1017…類似度マップ、1018…プロット、1019…プロットが選択された場合のポップアップ表示。
DESCRIPTION OF
Claims (6)
各画像の説明箇所についての用語を前記文書から抽出する手段と、
前記画像の特徴量と前記用語をインデックスとして対応する各画像に貼り付け、擬似文書を生成する手段と、
画像及び又は用語を検索クエリーとして入力する手段と、
前記検索クエリーを用いて前記擬似文書を検索する手段と、
前記検索クエリーと各擬似文書との類似度を、画像の見かけ上の類似度に対する概念軸と他の1つ又は複数の概念軸によって規定される座標空間上における座標点への画像又はプロットの表示を通じて提示する手段と、
前記検索クエリーと関連性の高い用語を画面上に表示する手段と、
前記座標空間上の座標点及び又は前記関連性の高い用語に対するユーザの選択を受け付ける手段と、
ユーザが選択した座標点に関連付けられている擬似文書の特徴量及び用語並びにユーザが選択した前記用語のいずれか一つ又は組み合わせに基づいて検索クエリーを新たに生成し、当該検索クエリーを用いて前記擬似文書を検索する手段と
を有することを特徴とする擬似文書検索システム。 Means for extracting feature values of each image from a document including image and text information;
Means for extracting terms from the document for the description of each image;
Means for pasting each image corresponding to the feature amount of the image and the term as an index, and generating a pseudo document;
Means for inputting images and / or terms as search queries;
Means for searching the pseudo document using the search query;
Display of the similarity between the search query and each pseudo document by displaying an image or plot at a coordinate point on a coordinate space defined by a concept axis and one or more other concept axes for the apparent similarity of the image Means to present through ,
Means for displaying on the screen a term highly relevant to the search query;
Means for accepting a user's selection for coordinate points on the coordinate space and / or the highly relevant terms;
A search query is newly generated based on any one or a combination of the feature amount and term of the pseudo document associated with the coordinate point selected by the user and the term selected by the user, and the search query is used to generate the search query. And a pseudo-document search system characterized by comprising: means for searching for a pseudo-document.
が選択した前記用語に対応する各インデックスに対する重みをユーザの操作に応じて変更
し、又は、ユーザが選択した座標点に関連付けられている擬似文書の特徴量及び用語並び
にユーザが選択した前記用語に対応する各インデックスに対する重みを自動的に変更する
ことを特徴とする請求項1に記載の擬似文書検索システム。 The feature amount and term of the pseudo document associated with the coordinate point selected by the user and the weight for each index corresponding to the term selected by the user are changed according to the user's operation, or the coordinate point selected by the user The pseudo document search system according to claim 1 , wherein the feature amount and the term of the pseudo document associated with, and the weight for each index corresponding to the term selected by the user are automatically changed.
を画面上に表示する手段と、
前記座標空間上の座標点、前記関連性の高い用語、前記検索クエリーと関連性の高い画
像が含まれる文書のタイトル情報若しくは前記説明文のいずれか一つ又は組み合わせに対
するユーザの選択を受け付ける手段と、
ユーザの選択に基づいて検索クエリーを新たに生成し、当該検索クエリーを用いて前記
擬似文書を検索する手段と
を有することを特徴とする請求項1に記載の擬似文書検索システム。 Means for displaying on a screen the title information of a document including an image highly relevant to the search query or a description of the image;
Means for accepting a user's selection for any one or combination of coordinate points on the coordinate space, highly relevant terms, title information of a document including an image highly relevant to the search query, or the descriptive text; ,
The pseudo document search system according to claim 1 , further comprising: means for newly generating a search query based on a user's selection and searching for the pseudo document using the search query.
ことを特徴とする請求項1〜3のいずれか1項に記載の擬似文書検索システム。 The pseudo according to any one of claims 1 to 3 , wherein at least one conceptual axis among the other one or more conceptual axes is a conceptual axis that gives a similarity in semantic content. Document search system.
ことを特徴とする請求項1〜4のいずれか1項に記載の擬似文書検索システム。 And structured information terms and the document in the region other than the described location of the image of the document that contains the image, any one of claims 1 to 4, characterized in that handling as a supplementary document corresponding to the image The pseudo document search system described in 1.
生成された擬似単語と前記用語に対応するインデックスの重み付けを変更する手段と
を更に有することを特徴とする請求項1〜5のいずれか1項に記載の擬似文書検索システム。 Means for generating a pseudo word by quantizing the feature quantity of each image;
Pseudo document retrieval system according to any one of claims 1 to 5, further comprising a means for changing the weighting of the index corresponding to the generated pseudo words and terms.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009095789A JP5414334B2 (en) | 2009-04-10 | 2009-04-10 | Pseudo-document search system and pseudo-document search method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009095789A JP5414334B2 (en) | 2009-04-10 | 2009-04-10 | Pseudo-document search system and pseudo-document search method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010250359A JP2010250359A (en) | 2010-11-04 |
JP5414334B2 true JP5414334B2 (en) | 2014-02-12 |
Family
ID=43312653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009095789A Active JP5414334B2 (en) | 2009-04-10 | 2009-04-10 | Pseudo-document search system and pseudo-document search method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5414334B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4979842B1 (en) | 2011-06-30 | 2012-07-18 | パナソニック株式会社 | Similar case retrieval apparatus and similar case retrieval method |
WO2013001584A1 (en) * | 2011-06-30 | 2013-01-03 | パナソニック株式会社 | Similar case history search device and similar case history search method |
JP5910867B2 (en) | 2012-03-13 | 2016-04-27 | 日本電気株式会社 | Similar document retrieval system and method using figure information in document |
JP6756648B2 (en) * | 2017-03-16 | 2020-09-16 | ヤフー株式会社 | Generator, generation method and generation program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4413844B2 (en) * | 2005-10-17 | 2010-02-10 | 富士通株式会社 | Image display control device |
JP2007264992A (en) * | 2006-03-28 | 2007-10-11 | Konica Minolta Holdings Inc | Document retrieval device, document retrieval method, and document retrieval program |
-
2009
- 2009-04-10 JP JP2009095789A patent/JP5414334B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010250359A (en) | 2010-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8706740B2 (en) | Concept-structured image search | |
Xu et al. | Image search by concept map | |
JP2003167914A (en) | Multimedia information retrieving method, program, recording medium and system therefor | |
JP5159772B2 (en) | Document search apparatus and document search method | |
Qian et al. | HWVP: hierarchical wavelet packet descriptors and their applications in scene categorization and semantic concept retrieval | |
JP2011248596A (en) | Searching system and searching method for picture-containing documents | |
Wang et al. | JIGSAW: interactive mobile visual search with multimodal queries | |
Yalniz et al. | Ottoman archives explorer: A retrieval system for digital Ottoman archives | |
JP2007080061A (en) | Retrieval method of web page and clustering method of web page | |
Lokoč et al. | Revisiting SIRET video retrieval tool | |
JP5414334B2 (en) | Pseudo-document search system and pseudo-document search method | |
JP5433396B2 (en) | Manga image analysis device, program, search device and method for extracting text from manga image | |
Fan et al. | A novel approach to enable semantic and visual image summarization for exploratory image search | |
Liu et al. | Robust semantic sketch based specific image retrieval | |
Adjetey et al. | Content-based image retrieval using Tesseract OCR engine and levenshtein algorithm | |
US20160283520A1 (en) | Search device, search method, and computer program product | |
JP6303669B2 (en) | Document retrieval device, document retrieval system, document retrieval method, and program | |
Dinov et al. | Natural language processing/text mining | |
JP4453440B2 (en) | Visual information classification method and apparatus, program, and storage medium recording visual information classification program | |
Diem et al. | Semi-automated document image clustering and retrieval | |
Yeh et al. | A case for query by image and text content: searching computer help using screenshots and keywords | |
Richter et al. | Leveraging community metadata for multimodal image ranking | |
Agin et al. | An approach to the segmentation of multi-page document flow using binary classification | |
KR20130059263A (en) | Method and apparatus for deciding product seller related document | |
Gao et al. | An Interactive Appearance-based Document Retrieval System for Historical Newspapers. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120131 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130412 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130423 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130621 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131015 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131112 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5414334 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |