JP2000148793A - Method and device for similar retrieval of composite media document and storage medium stored with similar retrieval program for composite media document - Google Patents

Method and device for similar retrieval of composite media document and storage medium stored with similar retrieval program for composite media document

Info

Publication number
JP2000148793A
JP2000148793A JP11055950A JP5595099A JP2000148793A JP 2000148793 A JP2000148793 A JP 2000148793A JP 11055950 A JP11055950 A JP 11055950A JP 5595099 A JP5595099 A JP 5595099A JP 2000148793 A JP2000148793 A JP 2000148793A
Authority
JP
Japan
Prior art keywords
document
similarity
information
composite media
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11055950A
Other languages
Japanese (ja)
Inventor
Tomohiro Hasegawa
知洋 長谷川
Masayoshi Umeda
昌義 梅田
Noburo Taniguchi
展郎 谷口
Masashi Yamamuro
雅司 山室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP11055950A priority Critical patent/JP2000148793A/en
Publication of JP2000148793A publication Critical patent/JP2000148793A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To perform retrieval by giving structure information to part of a retrieval key even if information regarding a document structure is not known by deciding the similarity of a composite media document according to feature information extracted from a constituent element of the composite media document and feature information extracted from a constituent element of a retrieval condition. SOLUTION: The syntax of the given composite multimedia document is analyzed (S1) and 1st feature information is extracted from a constituent element of the composite media document (S2). The document and extracted feature information are stored (S3) and the composite media document is inputted as a retrieval condition (S4). The syntax of the retrieval condition is analyzed (S5) and 2nd feature information is extracted from a constituent element of the retrieval condition obtained as a result of the analysis (S6). Then the similarity between two composite media documents is decided (S7) according to the 1st feature information and 2nd feature information which are stored and similar composite media documents are outputted (S8).

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、複合メディア文書
の類似検索方法及び装置及び複合メディア文書の類似検
索プログラムを格納した記憶媒体に係り、特に、複合メ
ディア文書データベースについて、類似した複合メディ
ア文書を検索するための複合メディア文書の類似検索方
法及び装置及び複合メディア文書の類似検索プログラム
を格納した記憶媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method and an apparatus for similarity search of a composite media document and a storage medium storing a similarity search program for a composite media document. The present invention relates to a method and an apparatus for searching similarity of a composite media document for searching and a storage medium storing a similarity search program for a composite media document.

【0002】[0002]

【従来の技術】構造化文書検索方法に関する従来の技術
としては、奈良先端大学のStructureIndex とContent I
ndex の組み合わせ(金本、加藤、絹谷、吉川、“効率
的な更新が可能な構造化文書検索法”)等がある。これ
らのシステムでは、SGML文書やXML文書などの構
造化文書に格納されたテキスト情報や文書構造の情報
(エレメント名など)の出現位置に関する転置ファイル
などの索引を予め用意し、テキスト情報または、テキス
ト情報と構造情報の組み合わせを検索キーとして与え、
与えたキーワードが文書に含まれているか否かを判定す
る論理検索や、指定した範囲内に与えたキーワードが出
現するか否かを判定する範囲検索を行うことで、構造化
文書の検索を可能にしている。
2. Description of the Related Art Conventional techniques related to structured document retrieval methods include StructureIndex and Content I of Nara Institute of Technology.
There are ndex combinations (Kanemoto, Kato, Kinutani, Yoshikawa, "Structured document search method that can be updated efficiently") and so on. In these systems, an index such as an inverted file relating to an appearance position of text information stored in a structured document such as an SGML document or an XML document or information of a document structure (element name or the like) is prepared in advance, and the text information or the text is prepared. A combination of information and structural information as a search key,
Structured documents can be searched by performing a logical search that determines whether the given keyword is included in the document or a range search that determines whether the given keyword appears in the specified range. I have to.

【0003】ジャストシステムのConceptBase やコマツ
ソフトのVextSearchなどのシステムで、検索キーとして
自然文などで入力されたテキストに含まれる概念と検索
対象となるテキストに含まれる概念とを比較して、類似
文書(テキストのみ)の検索を可能にしている。
In systems such as JustBase ConceptBase and Komatsu Software VextSearch, a concept included in a text entered as a search key in a natural sentence or the like is compared with a concept included in a text to be searched, and similar documents ( Text-only) search.

【0004】[0004]

【発明が解決しようとする課題】しかしながら、上記の
従来の方法を複合メディア文書を対象とした類似検索に
適用しようとした場合、複合メディア文書を対象とした
類似検索法が確立されていないため、以下のような問題
が発生する。 ・利用者が構造化文書中のエレメント名(注:構造情報
を表すタグ名)などの文書構造に関する情報を予め知ら
なければ、検索キーの一部に構造情報を与えた検索を行
うことができない。
However, when the above-described conventional method is applied to a similarity search for a composite media document, a similarity search method for a composite media document has not been established. The following problems occur. Unless the user knows in advance information about the document structure, such as the element name (Note: tag name representing the structure information) in the structured document, it is not possible to perform a search with the structure information given as part of the search key .

【0005】・画像や音声などテキスト以外のメディア
の情報や構造情報を検索キーとして使用した複合メディ
ア文書の類似検索ができない。 本発明は、上記の点に鑑みなされたもので、検索条件と
して複合メディア文書が例示されると、例示された文書
に含まれるテキスト情報、画像や音声の情報、構造情報
などの特徴情報と蓄積された文書に含まれるテキスト情
報、画像や音声の情報、構造情報などの特徴情報とをそ
れぞれ比較し、テキスト情報の類似度、画像情報の類似
度、音声情報の類似度、構造情報の類似度を個々に計算
し、それらに重みの値を掛け合わせ、総合的な評価値を
計算したものを文書レベルでの類似度とし、重みの値を
調節することで、テキスト情報の類似性を重視した類似
検索や画像情報の類似性を重視した類似検索や構造情報
の類似性を重視した類似検索などが可能な複合メディア
文書の類似検索方法及び装置及び複合メディア文書の類
似検索プログラムを格納した記憶媒体を提供することを
目的とする。
[0005] Similar search of a composite media document using information and structure information of media other than text such as images and sounds as search keys cannot be performed. The present invention has been made in view of the above points, and when a composite media document is exemplified as a search condition, feature information such as text information, image and audio information, and structure information included in the exemplified document is stored. Text information, image and audio information, structural information, and other feature information, respectively, and compare the similarity of text information, similarity of image information, similarity of audio information, and similarity of structural information. Was calculated individually, multiplied by the weight value, and the overall evaluation value was calculated as the similarity at the document level, and by adjusting the weight value, the similarity of the text information was emphasized. Similar search method and apparatus for a composite media document and similar search program for a composite media document capable of performing similar search, similar search emphasizing similarity of image information, similar search emphasizing similarity of structural information, and the like And to provide the stored storage medium.

【0006】[0006]

【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明(請求項1)は、テキ
スト情報、画像情報、人間の声のデータである音声デー
タに加え、CDやレコードを含む楽曲データや音楽デー
タを含む音声情報から構成される構造化文書である複合
メディア文書の類似検索方法において、与えられた複合
メディア文書を構文解析し(ステップ1)、解析された
結果得られる複合メディア文書の構成要素から第1の特
徴情報を抽出し(ステップ2)、文書及び抽出した特徴
情報を蓄積し(ステップ3)、複合メディア文書を検索
条件として入力し(ステップ4)、入力された検索条件
を構文解析し(ステップ5)、解析された結果得られる
検索条件の構成要素から第2の特徴情報を抽出し(ステ
ップ6)、蓄積されている第1の特徴情報と第2の特徴
情報に基づいて2つの複合メディア文書の類似度を判定
し(ステップ7)、類似した複合メディア文書を出力す
る(ステップ8)。
FIG. 1 is a diagram for explaining the principle of the present invention. The present invention (claim 1) is a structured document comprising text information, image information, audio data as human voice data, music information including CDs and records, and audio information including music data. In a similar search method for a composite media document, a given composite media document is parsed (step 1), and first characteristic information is extracted from components of the composite media document obtained as a result of the analysis (step 2). The document and the extracted feature information are stored (step 3), the composite media document is input as a search condition (step 4), the input search condition is parsed (step 5), and the search condition obtained as a result of the analysis is obtained. The second feature information is extracted from the constituent elements of (2) (step 6), and two types of composite media documents are classified based on the stored first feature information and second feature information. It determines degrees (step 7), and outputs the similar mixed media document (Step 8).

【0007】本発明(請求項2)は、検索時において、
利用者が例示した文書を検索キーとして入力し、例示さ
れた文書から第2の特徴情報を抽出し、抽出された第2
の特徴情報と第1の特徴情報により文書間の類似度を計
算する。本発明(請求項3)は、複合メディア文書の類
似度を計算する際に、検索キーとして例示された文書を
構成しているテキスト、画像、音声を含むメディアの情
報及び構造情報と、蓄積されている文書を構成している
テキスト、画像、音声を含むメディアの情報及び構造情
報との構成要素毎の類似性判定結果に基づく評価値を、
複合メディア文書全体の類似度として設定する。
According to the present invention (claim 2), at the time of retrieval,
The user inputs the exemplified document as a search key, extracts second feature information from the exemplified document, and extracts the extracted second feature information.
The similarity between documents is calculated based on the feature information of the first and second feature information. According to the present invention (claim 3), when calculating the similarity of a composite media document, information and structure information of media including texts, images, and sounds constituting the document exemplified as a search key are stored. The evaluation value based on the similarity determination result for each component with the information on the media including text, images, and sound and the structure information constituting the document,
Set as the similarity of the entire composite media document.

【0008】本発明(請求項4)は、構成要素毎の類似
性判定結果として、例示された文書のテキスト情報と、
蓄積された文書のテキスト情報の類似性判定結果と、例
示された文書の画像情報と、該蓄積された文書の画像情
報との類似性判定結果と、該例示された文書の音声情報
と、該蓄積された文書の音声情報との類似性判定結果
と、該例示された文書の構造情報と、該蓄積された文書
の構造情報との類似性判定結果を用いる。
According to the present invention (claim 4), as the similarity determination result for each component, text information of the exemplified document,
A similarity determination result of the text information of the stored document, image information of the exemplified document, a similarity determination result with the image information of the stored document, audio information of the exemplified document, The similarity determination result with the voice information of the stored document, the structure information of the exemplified document, and the similarity determination result with the structure information of the stored document are used.

【0009】本発明(請求項5)は、複合メディア文書
の類似度を計算する際に、文書に含まれるテキスト情
報、画像情報や音声情報、及び構造情報の特徴情報毎
に、類似度を計算し、類似度に重みの値を掛け、線形和
をとったものを、複合メディア文書全体としての類似度
とする。
According to the present invention (claim 5), when calculating the similarity of a composite media document, the similarity is calculated for each feature information of text information, image information, audio information, and structural information included in the document. Then, a value obtained by multiplying the similarity by a weight value and taking a linear sum is defined as the similarity of the entire composite media document.

【0010】本発明(請求項6)は、複合メディア文書
の類似度を計算する際に、同一文書中に同一メディアが
複数存在する場合に、例示された文書中に含まれるテキ
スト情報、画像情報、音声情報を含むメディア毎の全て
の検索キーについて、蓄積された文書中の該メディアに
おける該検索キーに対する全ての類似度を計算し、類似
度が最も高いものを検索キーに対する代表の類似度とす
る。
According to the present invention (claim 6), when calculating the similarity of a composite media document, if there is a plurality of the same media in the same document, text information and image information included in the exemplified document For all search keys for each medium including voice information, calculate all similarities for the search key in the stored document in the medium, and determine the highest similarity with the representative similarity for the search key. I do.

【0011】本発明(請求項7)は、複合メディア文書
の類似度を計算する際に、検索キーとして、例示された
文書の構造情報と蓄積された文書の構造情報のそれぞれ
を、順序ラベル付木(ordered labeled tree)として表
現し、例示された文書を表現した順序ラベル付木と、蓄
積された文書を表現した順序ラベル付木との形状を比較
することで、文書の構造情報の類似度を設定する。
According to the present invention (claim 7), when calculating the similarity of a composite media document, the structure information of the exemplified document and the structure information of the stored document are each used as a search key with an order label. The degree of similarity of the structural information of a document is expressed by comparing the shapes of an ordered labeled tree expressing an exemplified document and an ordered labeled tree expressing an accumulated document by expressing the document as an ordered labeled tree. Set.

【0012】本発明(請求項8)は、構造情報の類似度
を設定する際に、文書構造を木と見做し、例示された文
書を表す木から蓄積された文書を表す木へ変換するため
に必要なノードの挿入、ノードの削除、ノード名の変更
を含む編集操作を行った回数と、該編集操作を行うのに
必要なコストから算出する編集距離を文書の類似度とし
て設定する。
According to the present invention (claim 8), when setting the similarity of the structural information, the document structure is regarded as a tree, and the tree representing the exemplified document is converted into a tree representing the stored document. For this purpose, the number of times that an editing operation including insertion of a node, deletion of a node, and change of a node name necessary for the editing operation is performed, and an editing distance calculated from the cost required to perform the editing operation are set as the similarity of the document.

【0013】本発明(請求項9)は、複合メディア文書
の類似度を計算する際に、文書に含まれるテキスト情
報、画像情報や音声情報、構造情報の特徴情報に基づく
類似度を計算し、構造情報の特徴情報に基づく類似度計
算結果に基づく第1段階目の選択を行い、文書に含まれ
るテキスト情報、画像情報や音声情報の特徴情報に基づ
く類似度を、複合メディア文書全体としての類似度とす
る。
According to the present invention (claim 9), when calculating the similarity of a composite media document, the similarity based on the characteristic information of text information, image information, audio information, and structural information included in the document is calculated, The first stage selection based on the similarity calculation result based on the feature information of the structural information is performed, and the similarity based on the feature information of the text information, image information, and audio information included in the document is determined based on the similarity of the entire composite media document. Degree.

【0014】本発明(請求項10)は、複合メディア文
書の類似度を計算する際に、文書に含まれるテキスト情
報、画像情報や音声情報、構造情報の特徴情報に基づく
類似度を計算し、テキスト情報、画像情報や音声情報の
特徴情報に基づく類似度計算結果に基づく第1段階目の
選択を行い、文書に含まれる構造情報の特徴情報に基づ
く類似度を、複合メディア文書全体としての類似度とす
る。
According to a tenth aspect of the present invention, when calculating the similarity of a composite media document, the similarity based on feature information of text information, image information, audio information, and structure information included in the document is calculated. The first stage selection based on the similarity calculation result based on the feature information of the text information, image information and audio information is performed, and the similarity based on the feature information of the structural information included in the document is determined based on the similarity of the entire composite media document. Degree.

【0015】本発明(請求項11)は、複合メディア文
書の類似度を計算する際に、検索キーとして例示された
文書中に同一メディアが複数存在する場合に、該メディ
アの文書レベルでの類似度を設定する。本発明(請求項
12)は、メディアの文書レベルでの類似度を設定する
際に、検索キーとして例示された文書中に複数存在する
メディアの各検索キーについて、例示された文書中に含
まれるテキスト情報、画像情報、音声情報を含むメディ
ア毎の全ての検索キーについて、蓄積された文書中の該
メディアにおける該検索キーに対する全ての類似度を計
算し、類似度が最も高いものを検索キーに対する代表の
類似度とし、代表の類似度の平均値を計算し、メディア
の文書レベルでの類似度を設定する。
According to the present invention (claim 11), when calculating the similarity of a composite media document, if a plurality of identical media exist in a document exemplified as a search key, the similarity of the media at the document level is calculated. Set the degree. According to the present invention (claim 12), when setting the similarity at the document level of a medium, each search key of a plurality of media included in a document exemplified as a search key is included in the exemplified document. For all search keys for each medium including text information, image information, and audio information, calculate all similarities for the search key in the medium in the stored document, and determine the highest similarity for the search key. As the representative similarity, the average value of the representative similarities is calculated, and the similarity at the document level of the media is set.

【0016】本発明(請求項13)は、メディアの文書
レベルでの類似度を設定する際に、検索キーとして例示
された文書中に複数存在するメディアの各検索キーにつ
いて、例示された文書中に含まれるテキスト情報、画像
情報、音声情報を含むメディア毎の全ての検索キーにつ
いて、蓄積された文書中の該メディアにおける該検索キ
ーに対する全ての類似度を計算し、類似度が最も高いも
のを検索キーに対する代表の類似度とし、代表の類似度
のうち、最も類似度が高いものをメディアの文書レベル
での類似度とする。
According to the present invention (claim 13), when the similarity at the document level of a medium is set, each search key of a plurality of media in a document exemplified as a search key is set in the exemplified document. For all search keys for each medium including text information, image information, and audio information included in, calculate all the similarities with respect to the search key in the medium in the stored document, and determine the one having the highest similarity. The similarity of the representative to the search key is set, and the highest similarity among the similarities of the representatives is set to the similarity at the document level of the media.

【0017】本発明(請求項14)は、複合メディア文
書の類似検索を行う際に、検索キーとして例示された文
書の構造情報と蓄積された文書の構造情報のそれぞれを
順序ラベル付き木(ordered labeled tree) として表現
し、それぞれの文書中の各メディアの特徴情報を順序ラ
ベル付き木におけるノードの属性として格納した属性付
き順序ラベル付き木として表現し、例示された文書を表
現した属性付き順序ラベル付き木と蓄積された文書を表
現した属性付き順序ラベル付き木との属性と形状を比較
することで、複合メディア文書の類似度を設定する。
According to the present invention (claim 14), when performing a similarity search of a composite media document, the structure information of the document exemplified as a search key and the structure information of the stored document are each ordered tree (ordered tree). labeled tree), and expresses the feature information of each media in each document as an attribute-labeled ordered tree, which is stored as an attribute of a node in the ordered-labeled tree. The similarity of the composite media document is set by comparing the attribute and the shape of the attached tree with the attribute-ordered labeled tree expressing the stored document.

【0018】本発明(請求項15)は、複合メディア文
書の類似検索を行う際に、例示された文書を表現した属
性付き順序ラベル付き木の各ノードの属性である特徴情
報と類似した特徴情報を属性として持つノードを持つ蓄
積された文書を表現した属性付き順序ラベル付き木につ
いて、ノードの構造的な位置関係の差異から複合メディ
ア文書の類似度を設定する。
According to the present invention (claim 15), when performing a similarity search of a composite media document, feature information similar to feature information which is an attribute of each node of an attribute-ordered labeled tree representing an exemplified document. The similarity of the composite media document is set from the difference in the structural positional relationship of the nodes for the ordered labeled tree expressing the stored document having the node having the attribute as the attribute.

【0019】本発明(請求項16)は、構造情報の類似
度を設定する際に、文書構造を順序ラベル付き木と見做
し、該順序ラベル付き木に関する特徴情報に基づいて、
多次元ベクトル空間上に該特徴情報を数値化してマッピ
ングし、ベクトル空間上での距離を文書の類似度として
設定する。本発明(請求項17)は、順序付きラベル木
に関する特徴情報として、順序ラベル付き木の各ノード
の名前やノード数や各ノードの位置情報を数値化して利
用することで文書の類似度を計算する。
According to the present invention (claim 16), when setting the similarity of the structural information, the document structure is regarded as an ordered labeled tree, and based on the characteristic information on the ordered labeled tree,
The feature information is digitized and mapped in a multidimensional vector space, and the distance in the vector space is set as the similarity of the document. The present invention (claim 17) calculates the similarity of a document by digitizing and using the name of each node, the number of nodes, and the position information of each node as feature information on the ordered label tree. I do.

【0020】本発明(請求項18)は、特徴情報とし
て、テキスト情報であれば、テキストの記述内容が表す
概念や各単語の出現頻度、画像情報であれば、画像の色
相や彩度や輝度、色配置、音声情報であれば、音の強弱
やメロディ、構造情報であれば、文書構造を順序ラベル
付き木で表現した場合の木の形状やノードのラベル名、
リンク情報などを、複合メディア文書の構成要素から抽
出される特徴情報とする。
According to the present invention (claim 18), the feature information is text information, the concept represented by the description content of the text, the appearance frequency of each word, and the image information is the hue, saturation, and luminance of the image. For color information, color information, sound information, sound intensity and melody, and for structural information, the tree structure and node label name when the document structure is represented by a tree with order labels,
It is assumed that link information and the like are feature information extracted from components of the composite media document.

【0021】本発明(請求項19)は、類似度を判定す
る際に、例示された文書に対する蓄積された文書の類似
度を、検索キーとして例示された文書を構成しているテ
キスト、画像、音声を含むメディアの情報及び構造情報
と、蓄積されている文書を構成しているテキスト、画
像、音声を含むメディアの情報及び構造情報との構成要
素毎の類似性判定結果に基づく評価値を、複合メディア
文書全体類似度として設定し、蓄積された文書の類似度
を降順に並べることで順位付けし、類似度を判定する。
According to the present invention (claim 19), when determining the similarity, the similarity of the stored document with respect to the exemplified document is used as a search key for the text, image, The evaluation value based on the similarity determination result for each component of the information and structure information of the media including audio and the text, images, and the information and structure information of the media including audio that constitute the stored document, The overall similarity of the composite media document is set, and the similarities of the stored documents are arranged in descending order to rank and determine the similarity.

【0022】本発明(請求項20)は、類似度を設定す
る際に、複合メディア文書の各構成要素毎に、類似度を
設定し、文書に含まれるテキスト情報、画像情報や音声
情報、及び構造情報の特徴情報毎に、類似度を計算し、
類似度に重みの値を掛け、線形和をとったものを、複合
メディア文書全体としての類似度とする。
According to the present invention (claim 20), when the similarity is set, the similarity is set for each component of the composite media document, and text information, image information, audio information, and text information included in the document are set. Calculate the similarity for each feature information of the structure information,
A value obtained by multiplying the similarity by a weight value and taking a linear sum is defined as the similarity of the entire composite media document.

【0023】本発明(請求項21)は、複合メディア文
書全体の類似度を設定する際に、文書の構成要素毎の類
似性判定結果に基づく評価値として、各構成要素の類似
度そのもの、または、各構成要素の類似度に利用者から
与えられた重みを掛け合わせたものを利用する。図2
は、本発明の原理構成図である。
According to the present invention (claim 21), when the similarity of the entire composite media document is set, the similarity itself of each component or the similarity of each component is used as an evaluation value based on the similarity determination result for each component of the document. , A product obtained by multiplying the similarity of each component by a weight given by the user. FIG.
FIG. 1 is a diagram illustrating the principle of the present invention.

【0024】本発明(請求項22)は、テキスト情報、
画像情報、人間の声のデータである音声データに加え、
CDやレコードを含む楽曲データや音楽データを含む音
声情報から構成される構造化文書である複合メディア文
書の類似検索装置であって、複合メディア文書を入力す
る複合メディア文書入力手段10と、複合メディア文書
入力手段10により与えられた複合メディア文書及び、
入力された検索条件を構文解析する文書解析手段40
と、文書解析手段40で解析された結果得られる文書の
構成要素から特徴情報を抽出する特徴情報抽出手段50
と、複合メディア文書及び特徴情報抽出手段50で抽出
された特徴情報を蓄積する蓄積手段60と、複合メディ
ア文書を検索条件として入力する検索条件入力手段30
と、蓄積手段60に蓄積されている複合メディア文書の
特徴情報と、入力された検索条件を文書解析手段40で
解析した結果に基づいて特徴情報抽出手段50で抽出さ
れた特徴情報に基づいて2つの複合メディア文書の類似
度を判定する文書比較手段80と、文書比較手段80で
判定された類似度に基づいて、類似した複合メディア文
書を出力する出力手段90とを有する。
According to the present invention (claim 22), text information,
In addition to image information, voice data that is human voice data,
A composite media document similarity search device which is a structured document composed of music data including a CD or a record and audio information including music data, comprising: a composite media document input unit 10 for inputting a composite media document; A composite media document provided by the document input means 10;
Document analysis means 40 for parsing input search conditions
A feature information extracting unit 50 for extracting feature information from a component of a document obtained as a result of analysis by the document analyzing unit 40
Storage means 60 for storing the characteristic information extracted by the composite media document and characteristic information extraction means 50; and search condition input means 30 for inputting the composite media document as a search condition
Based on the characteristic information of the composite media document stored in the storage unit 60 and the characteristic information extracted by the characteristic information extraction unit 50 based on the result of analyzing the input search condition by the document analysis unit 40. Document comparing means 80 for determining the degree of similarity of two composite media documents, and output means 90 for outputting similar composite media documents based on the degree of similarity determined by the document comparing means 80.

【0025】本発明(請求項23)は、検索条件入力手
段30において、利用者が例示した文書を検索キーとし
て入力する手段を含み、特徴情報抽出手段50におい
て、与えられた複合メディア文書から検索キーとして例
示された複合メディア文書を抽出する入力文書特徴情報
抽出手段と、利用者から例示された文書から検索情報の
特徴情報を抽出する検索特徴情報抽出手段を含み、文書
比較手段80において、入力文書特徴情報抽出手段で抽
出された入力文書特徴情報と、検索特徴情報抽出手段で
抽出された検索特徴情報により、複合メディア文書と検
索キーとして例示された複合メディア文書間の類似度を
計算する類似度計算手段を含む。
According to the present invention (claim 23), the search condition input means 30 includes a means for inputting a document exemplified by a user as a search key, and the feature information extracting means 50 performs a search from a given composite media document. An input document feature information extracting unit for extracting a composite media document exemplified as a key, and a search feature information extracting unit for extracting feature information of search information from a document exemplified by a user. Based on the input document feature information extracted by the document feature information extraction unit and the search feature information extracted by the search feature information extraction unit, a similarity calculating the similarity between the composite media document and the composite media document exemplified as the search key Including a degree calculation means.

【0026】本発明(請求項24)は、類似度計算手段
において、検索条件入力手段30で検索キーとして例示
された文書を構成しているテキスト情報、画像情報、音
声情報及び構造情報と、蓄積手段に蓄積されている複合
メディア文書を構成しているテキスト情報、画像情報、
音声情報及び構造情報との構成要素毎の類似性判定結果
に基づく評価値を、複合メディア文書全体の類似度とし
て設定する類似度設定手段を含む。
According to the present invention (claim 24), in the similarity calculating means, text information, image information, voice information and structure information constituting a document exemplified as a search key by the search condition input means 30 are stored. Text information, image information, and the like constituting the composite media document stored in the means;
A similarity setting unit that sets an evaluation value based on a similarity determination result for each component with the audio information and the structure information as a similarity of the entire composite media document.

【0027】本発明(請求項25)は、類似度設定手段
において、構成要素毎の類似性判定結果として、例示さ
れた文書のテキスト情報と蓄積手段に蓄積されている文
書のテキスト情報の類似性判定結果と、該例示された文
書の画像情報と、該蓄積手段に蓄積されている文書の画
像情報との類似性判定結果と、該例示された文書の音声
情報と該蓄積手段に蓄積されている文書の音声情報との
類似性判定結果と、該例示さた文書の構造情報と該蓄積
手段に蓄積されている文書の構造情報との類似性判定結
果を用いる。
According to the present invention (claim 25), in the similarity setting means, the similarity between the text information of the exemplified document and the text information of the document stored in the storage means is determined as the similarity determination result for each component. The determination result, the image information of the exemplified document, the similarity determination result of the image information of the document stored in the storage unit, the audio information of the exemplified document, and the similarity stored in the storage unit. The similarity determination result with the voice information of the document in question and the similarity determination result between the structure information of the example document and the structure information of the document stored in the storage unit are used.

【0028】本発明(請求項26)は、類似度設定手段
において、文書に含まれるテキスト情報、画像情報や音
声情報、及び構造情報の特徴情報毎に、類似度を計算
し、該類似度に重みの値を掛け、線形和をとったもの
を、複合メディア文書全体としての類似度とする線形和
算出手段を含む。本発明(請求項27)は、文書比較手
段において、同一文書中に同一メディアが複数存在する
場合に、例示された文書中に含まれるテキスト、画像、
音声を含むメディア毎の全ての検索キーについて、蓄積
された文書中のメディアにおける該検索キーに対する全
ての類似度を計算し、該類似度が最も高いものを検索キ
ーに対する代表の類似度とする代表類似度決定手段を含
む。
According to the present invention (claim 26), the similarity setting means calculates the similarity for each of the text information, image information, audio information, and feature information of the structure information included in the document, and calculates the similarity. It includes a linear sum calculating means for multiplying the weight value and calculating the linear sum to obtain the similarity as the entire composite media document. According to the present invention (claim 27), in the document comparing means, when a plurality of the same media exist in the same document, texts, images,
For all search keys for each medium including voice, all similarities for the search key in the media in the stored document are calculated, and the one having the highest similarity is set as the representative similarity for the search key. A similarity determination unit is included.

【0029】本発明(請求項28)は、類似度計算手段
において、検索キーとして、例示された文書の構造情報
と蓄積された文書の構造情報のそれぞれを、順序ラベル
付木(ordered labeled tree)として表現し、例示され
た文書を表現した順序ラベル付木と、蓄積された文書を
表現した順序ラベル付木との形状を比較することで、文
書の構造情報の類似度を設定する順序ラベル付木形状比
較手段を含む。
According to the present invention (claim 28), in the similarity calculating means, each of the structure information of the exemplified document and the structure information of the stored document is used as a search key in an ordered labeled tree. By comparing the shapes of the ordered labeled tree representing the exemplified document and the ordered labeled tree representing the stored document, the ordered labeling which sets the similarity of the structural information of the document is performed. A tree shape comparing means is included.

【0030】本発明(請求項29)は、順序ラベル付木
形状比較手段において、構造情報の類似度を判定する際
に、文書構造を木と見做し、例示された文書を表す木か
ら蓄積された文書を表す木へ変換するために必要なノー
ドの挿入、ノードの削除、ノード名の変更を含む編集操
作を行った回数と、該編集操作を行うのに必要なコスト
から算出する編集距離を文書の類似度として設定する編
集距離算出手段を含む。
According to the present invention (claim 29), in determining the similarity of the structural information, the tree structure comparing means considers the document structure as a tree and accumulates from the tree representing the exemplified document. Number of editing operations including insertion, deletion, and renaming of nodes required to convert the document into a tree representing the edited document, and an editing distance calculated from the cost required to perform the editing operation Is set as the similarity of the document.

【0031】本発明(請求項30)は、類似度計算手段
において、文書に含まれるテキスト情報、画像情報や音
声情報、構造情報の特徴情報に基づく類似度を計算する
手段と、構造情報の特徴情報に基づく類似度計算結果に
基づく第1段階目の選択を行う手段と、文書に含まれる
テキスト情報、画像情報や音声情報の特徴情報に基づく
類似度を、複合メディア文書全体としての類似度とする
手段とを含む。
The present invention (claim 30) provides a similarity calculating means for calculating similarity based on characteristic information of text information, image information, audio information, and structure information included in a document, and a feature of the structure information. Means for selecting the first step based on the result of the similarity calculation based on the information, and the similarity based on the feature information of the text information, image information and audio information included in the document, and the similarity as the entire composite media document. Means.

【0032】本発明(請求項31)は、類似度計算手段
において、文書に含まれるテキスト情報、画像情報や音
声情報、構造情報の特徴情報に基づく類似度を計算する
手段と、テキスト情報、画像情報や音声情報の特徴情報
に基づく類似度計算結果に基づく第1段階目の選択を行
う手段と、文書に含まれる構造情報の特徴情報に基づく
類似度を、複合メディア文書全体としての類似度とする
手段とを含む。
According to a thirty-first aspect of the present invention, there is provided a similarity calculating means for calculating a similarity based on characteristic information of text information, image information, voice information, and structural information included in a document; Means for selecting the first step based on the similarity calculation result based on the feature information of the information and the voice information, and the similarity based on the feature information of the structural information included in the document, Means.

【0033】本発明(請求項32)は、類似度計算手段
において、検索キーとして例示された文書中に同一メデ
ィアが複数存在する場合に、該メディアの文書レベルで
の類似度を設定する文書レベル類似度計算手段を含む。
本発明(請求項33)は、文書レベル類似度計算手段に
おいて、検索キーとして例示された文書中に複数存在す
るメディアの各検索キーについて、例示された文書中に
含まれるテキスト情報、画像情報、音声情報を含むメデ
ィア毎の全ての検索キーについて、蓄積された文書中の
該メディアにおける該検索キーに対する全ての類似度を
計算する手段と、類似度が最も高いものを検索キーに対
する代表の類似度とする手段と、代表の類似度の平均値
を計算する手段と、メディアの文書レベルでの類似度を
設定する文書レベル類似度設定手段とを含む。
According to the present invention (claim 32), in the similarity calculating means, when a plurality of identical media exist in a document exemplified as a search key, a document level for setting the similarity at the document level of the media is set. A similarity calculation means is included.
According to the present invention (claim 33), in the document level similarity calculating means, for each search key of a plurality of media in the document exemplified as a search key, text information, image information, Means for calculating all the similarities for the search key in the stored document for all the search keys for each medium including audio information, and determining the highest similarity for the representative similarity to the search key Means, a means for calculating an average value of representative similarities, and a document level similarity setting means for setting the similarity at the document level of the media.

【0034】本発明(請求項34)は、文書レベル類似
度設定手段において、検索キーとして例示された文書中
に複数存在するメディアの各検索キーについて、該例示
された文書中に含まれるテキスト情報、画像情報、音声
情報を含むメディア毎の全ての検索キーについて、蓄積
された文書中の該メディアにおける該検索キーに対する
全ての類似度を計算する手段と、類似度が最も高いもの
を検索キーに対する代表の類似度とする手段と、代表の
類似度のうち、最も類似度が高いものをメディアの文書
レベルでの類似度とする手段とを含む。
According to the present invention (claim 34), in the document level similarity setting means, for each search key of a plurality of media in a document exemplified as a search key, text information included in the exemplified document is provided. Means for calculating all similarities to the search key in the stored document for all the search keys for each medium including image information and audio information; Means for determining the similarity of the representative and means for determining the highest similarity among the similarities of the representative at the document level of the media are included.

【0035】本発明(請求項35)は、類似度計算手段
において、検索キーとして例示された文書の構造情報と
蓄積された文書の構造情報のそれぞれを順序ラベル付き
木(ordered labeled tree) として表現し、それぞれの
文書中の各メディアの特徴情報を順序ラベル付き木にお
けるノードの属性として格納した属性付き順序ラベル付
き木として表現し、例示された文書を表現した属性付き
順序ラベル付き木と蓄積された文書を表現した属性付き
順序ラベル付き木との属性と形状を比較することで、複
合メディア文書の類似度を設定する類似検索手段を含
む。
According to the present invention (claim 35), in the similarity calculating means, each of the structural information of the document exemplified as the retrieval key and the structural information of the stored document is represented as an ordered labeled tree. Then, the feature information of each media in each document is represented as an attribute-ordered tree stored as an attribute of a node in the order-labeled tree, and stored as an attribute-ordered tree representing the exemplified document. And a similarity search unit that sets the similarity of the composite media document by comparing the attribute and the shape of the tree with the attributed ordered label expressing the document.

【0036】本発明(請求項36)は、類似検索手段に
おいて、例示された文書を表現した属性付き順序ラベル
付き木の各ノードの属性である特徴情報と類似した特徴
情報を属性として持つノードを持つ蓄積された文書を表
現した属性付き順序ラベル付き木について、該ノードの
構造的な位置関係の差異から複合メディア文書の類似度
を設定する手段を含む。
According to the present invention (claim 36), in the similarity search means, a node having, as an attribute, feature information similar to feature information which is an attribute of each node of an attribute-ordered labeled tree expressing an exemplified document. Means for setting the similarity of the composite media document from the difference in the structural positional relationship of the node with respect to the attributed ordered labeled tree representing the stored document.

【0037】本発明(請求項37)は、順序ラベル付き
木形状比較手段において、文書構造を順序ラベル付き木
と見做し、該順序ラベル付き木に関する特徴情報に基づ
いて、多次元ベクトル空間上に該特徴情報を数値化して
マッピングする手段と、ベクトル空間上での距離を文書
の類似度として設定する手段とを含む。
According to a thirty-seventh aspect of the present invention, the order-labeled tree shape comparing means regards the document structure as an order-labeled tree and, based on the characteristic information on the order-labeled tree, determines the document structure in a multidimensional vector space. Means for numerically converting the feature information and mapping, and means for setting a distance in a vector space as a document similarity.

【0038】本発明(請求項38)は、順序付きラベル
木に関する特徴情報として、順序ラベル付き木の各ノー
ドの名前やノード数や各ノードの位置情報を数値化して
利用することで文書の類似度を計算する。本発明(請求
項39)は、特徴情報として、テキスト情報であれば、
テキストの記述内容が表す概念や各単語の出現頻度、画
像情報であれば、画像の色相や彩度や輝度、色配置、音
声情報であれば、音の強弱やメロディ、構造情報であれ
ば、文書構造を順序ラベル付き木で表現した場合の木の
形状やノードのラベル名、リンク情報などを、複合メデ
ィア文書の構成要素から抽出される特徴情報とする。
According to the present invention (claim 38), similarity of a document can be obtained by digitizing and using the name of each node, the number of nodes, and the position information of each node as feature information on the ordered label tree. Calculate the degree. According to the present invention (claim 39), if the feature information is text information,
For the concept represented by the description content of the text, the appearance frequency of each word, for image information, the hue, saturation, luminance, color arrangement, and color arrangement of the image, for the sound information, the strength and melody of the sound, and for the structural information, In the case where the document structure is represented by a tree with an order label, the tree shape, the label name of the node, the link information, and the like are the feature information extracted from the components of the composite media document.

【0039】本発明(請求項40)は、文書比較手段8
0において、例示された文書に対する蓄積された文書の
類似度を、検索キーとして例示された文書を構成してい
るテキスト、画像、音声を含むメディアの情報及び構造
情報と、蓄積されている文書を構成しているテキスト、
画像、音声を含むメディアの情報及び構造情報との構成
要素毎の類似性判定結果に基づく評価値を、複合メディ
ア文書全体類似度として設定する手段と、蓄積された文
書の類似度を降順に並べることで順位付けし、類似度を
判定する手段とを含む。
According to the present invention (claim 40), the document comparing means 8
0, the similarity of the stored document with respect to the exemplified document is determined by using the information of the media including text, image, and sound constituting the exemplified document as a search key and the structural information, and the accumulated document. Constituent text,
Means for setting an evaluation value based on a similarity determination result for each component with media information and structure information including images and sounds as the overall similarity of the composite media document, and arranging the similarities of the stored documents in descending order Means for determining the similarity.

【0040】本発明(請求項41)は、類似度設定手段
において、複合メディア文書の各構成要素毎に、類似度
を設定する手段と、文書に含まれるテキスト情報、画像
情報や音声情報、及び構造情報の特徴情報毎に、類似度
を計算する手段と、類似度に重みの値を掛け、線形和を
とったものを、複合メディア文書全体としての類似度と
する手段とを含む。
According to the present invention (claim 41), in the similarity setting means, means for setting the similarity for each component of the composite media document, text information, image information, voice information, and the like included in the document are provided. It includes means for calculating the similarity for each feature information of the structure information, and means for multiplying the similarity by a weight value and taking a linear sum to obtain the similarity of the entire composite media document.

【0041】本発明(請求項42)は、類似度設定手段
において、文書の構成要素毎の類似性判定結果に基づく
評価値として、各構成要素の類似度そのもの、または、
各構成要素の類似度に利用者から与えられた重みを掛け
合わせたものを利用する手段を含む。本発明(請求項4
3)は、テキスト情報、画像情報、人間の声のデータで
ある音声データに加え、CDやレコードを含む楽曲デー
タや音楽データを含む音声情報から構成される構造化文
書である複合メディア文書の類似検索プログラムを格納
した記憶媒体であって、与えられた複合メディア文書及
び、入力された検索条件を構文解析する文書解析プロセ
スと、文書解析プロセスで解析された結果、得られる文
書の構成要素から特徴情報を抽出する特徴情報抽出プロ
セスと、複合メディア文書及び特徴情報抽出プロセスで
抽出された特徴情報を記憶手段に格納する格納プロセス
と、複合メディア文書を検索条件として入力させる検索
条件入力プロセスと、記憶手段に蓄積されている複合メ
ディア文書の特徴情報と、入力された検索条件を文書解
析プロセスで解析した結果に基づいて特徴情報抽出プロ
セスで抽出された特徴情報から2つの複合メディア文書
の類似度を判定する文書比較プロセスと、文書比較プロ
セスで判定された類似度に基づいて、類似した複合メデ
ィア文書を出力させる出力プロセスとを有する。
According to the present invention (claim 42), in the similarity setting means, the similarity of each component or the similarity of each component is used as an evaluation value based on the similarity determination result for each component of the document.
Means for using a product obtained by multiplying the similarity of each component by a weight given by a user is included. The present invention (Claim 4
3) Similarity of a composite media document which is a structured document composed of text information, image information, audio data which is human voice data, and music information including CDs and records and audio information including music data. A storage medium storing a search program, characterized by a document analysis process for parsing a given composite media document and an input search condition, and a component obtained from a document obtained as a result of analysis by the document analysis process. A feature information extraction process for extracting information, a storage process for storing the composite media document and the feature information extracted by the feature information extraction process in a storage unit, a search condition input process for inputting the composite media document as a search condition, and storage. Analyze the feature information of the composite media document stored in the means and the input search conditions by the document analysis process A document comparison process for determining the similarity between two composite media documents from the feature information extracted in the feature information extraction process based on the result of the comparison, and a similar composite media document based on the similarity determined in the document comparison process. And an output process for outputting

【0042】本発明(請求項44)は、検索条件入力プ
ロセスにおいて、利用者が例示した文書を検索キーとし
て入力するプロセスを含み、特徴情報抽出プロセスにお
いて、与えられた複合メディア文書から特徴情報を抽出
する入力文書特徴情報抽出プロセスと、利用者から例示
された文書から検索キーとして例示された複合メディア
文書の特徴情報を抽出する検索特徴情報抽出プロセスを
含み、文書比較プロセスにおいて、入力文書特徴情報抽
出プロセスで抽出された入力文書特徴情報と、検索特徴
情報抽出プロセスで抽出された検索特徴情報により、複
合メディア文書と検索キーとして例示された複合メディ
ア文書間の類似度を計算する類似度計算プロセスを含
む。
According to the present invention (claim 44), the search condition input process includes a process of inputting a document exemplified by a user as a search key, and in the feature information extraction process, feature information is provided from a given composite media document. An input document feature information extraction process for extracting, and a search feature information extraction process for extracting feature information of a composite media document exemplified as a search key from a document exemplified by a user, wherein the input document feature information is included in a document comparison process. A similarity calculation process for calculating a similarity between a composite media document and a composite media document exemplified as a search key based on the input document feature information extracted in the extraction process and the search feature information extracted in the search feature information extraction process. including.

【0043】本発明(請求項45)は、類似度計算プロ
セスにおいて、検索条件入力プロセスで検索キーとして
例示された文書を構成しているテキスト情報、画像情
報、音声情報及び構造情報と、記憶手段に蓄積されてい
る複合メディア文書を構成しているテキスト情報、画像
情報、音声情報及び構造情報との構成要素毎の類似性判
定結果に基づく評価値を、複合メディア文書全体の類似
度として設定する類似度設定プロセスを含む。
According to the present invention (claim 45), in the similarity calculation process, text information, image information, voice information and structure information constituting a document exemplified as a search key in the search condition input process, and storage means An evaluation value based on the similarity determination result for each component with the text information, image information, audio information, and structural information constituting the composite media document stored in the composite media document is set as the similarity of the entire composite media document Includes a similarity setting process.

【0044】本発明(請求項46)は、類似度設定プロ
セスにおいて、構成要素毎の類似性判定結果として、例
示された文書のテキスト情報と記憶手段に蓄積されてい
る文書のテキスト情報の類似性判定結果と、該例示され
た文書の画像情報と、該記憶手段に蓄積されている文書
の画像情報との類似性判定結果と、該例示された文書の
音声情報と該記憶手段に蓄積されている文書の音声情報
との類似性判定結果と、該例示さた文書の構造情報と該
記憶手段に蓄積されている文書の構造情報との類似性判
定結果を用いる。
According to the present invention (claim 46), in the similarity setting process, the similarity between the text information of the exemplified document and the text information of the document stored in the storage means is determined as the similarity determination result for each component. The determination result, the similarity determination result between the image information of the exemplified document, and the image information of the document stored in the storage unit, the voice information of the exemplified document, and the similarity determination result stored in the storage unit A similarity determination result with the audio information of the document and a similarity determination result between the structure information of the example document and the structure information of the document stored in the storage unit are used.

【0045】本発明(請求項47)は、類似度設定プロ
セスにおいて、文書に含まれるテキスト情報、画像情報
や音声情報、及び構造情報の特徴情報毎に、類似度を計
算し、該類似度に重みの値を掛け、線形和をとったもの
を、複合メディア文書全体としての類似度とする線形和
算出プロセスを含む。本発明(請求項48)は、文書比
較プロセスにおいて、同一文書中に同一メディアが複数
存在する場合に、例示された文書中に含まれるテキス
ト、画像、音声を含むメディア毎の全ての検索キーにつ
いて、蓄積された文書中のメディアにおける該検索キー
に対する全ての類似度を計算し、該類似度が最も高いも
のを検索キーに対する代表の類似度とする代表類似度決
定プロセスを含む。
According to the present invention (claim 47), in the similarity setting process, a similarity is calculated for each of text information, image information, audio information, and structural information included in a document, and the similarity is calculated. Includes a linear sum calculation process in which the weighted value is multiplied and the linear sum is taken as the similarity of the entire composite media document. According to the present invention (claim 48), in the document comparison process, when a plurality of the same media exist in the same document, all search keys for each medium including text, image, and sound included in the exemplified document are provided. , Calculating all similarities for the search key in the media in the stored documents, and taking the one with the highest similarity as the representative similarity for the search key.

【0046】本発明(請求項49)は、類似度計算プロ
セスにおいて、検索キーとして、例示された文書の構造
情報と蓄積された文書の構造情報のそれぞれを、順序ラ
ベル付木(ordered labeled tree)として表現し、例示
された文書を表現した順序ラベル付木と、蓄積された文
書を表現した順序ラベル付木との形状を比較すること
で、文書の構造情報の類似度を設定する順序ラベル付木
形状比較プロセスを含む。
According to the present invention (claim 49), in the similarity calculation process, the structure information of the exemplified document and the structure information of the stored document are each used as a search key in an ordered labeled tree. By comparing the shapes of the ordered labeled tree representing the exemplified document and the ordered labeled tree representing the stored document, the ordered labeling which sets the similarity of the structural information of the document is performed. Includes tree shape comparison process.

【0047】本発明(請求項50)は、順序ラベル付木
形状比較プロセスにおいて、構造情報の類似度を判定す
る際に、文書構造を木と見做し、例示された文書を表す
木から蓄積された文書を表す木へ変換するために必要な
ノードの挿入、ノードの削除、ノード名の変更を含む編
集操作を行った回数と、該編集操作を行うのに必要なコ
ストから算出する編集距離を文書の類似度として設定す
る編集距離算出プロセスを含む。
According to the present invention (claim 50), in the order-labeled tree shape comparison process, when judging the similarity of the structural information, the document structure is regarded as a tree and stored from the tree representing the exemplified document. Number of editing operations including insertion, deletion, and renaming of nodes required to convert the document into a tree representing the edited document, and an editing distance calculated from the cost required to perform the editing operation Is set as the similarity of the document.

【0048】本発明(請求項51)は、類似度計算プロ
セスにおいて、文書に含まれるテキスト情報、画像情報
や音声情報、構造情報の特徴情報に基づく類似度を計算
するプロセスと、構造情報の特徴情報に基づく類似度計
算結果に基づく第1段階目の選択を行うプロセスと、文
書に含まれるテキスト情報、画像情報や音声情報の特徴
情報に基づく類似度を、複合メディア文書全体としての
類似度とするプロセスとを含む。
According to the present invention (claim 51), in the similarity calculation process, a process of calculating a similarity based on feature information of text information, image information, audio information, and structure information included in a document; The process of selecting the first stage based on the similarity calculation result based on the information, and the similarity based on the feature information of the text information, image information, and audio information included in the document are compared with the similarity of the entire composite media document. Process.

【0049】本発明(請求項52)は、類似度計算プロ
セスにおいて、文書に含まれるテキスト情報、画像情報
や音声情報、構造情報の特徴情報に基づく類似度を計算
するプロセスと、テキスト情報、画像情報や音声情報の
特徴情報に基づく類似度計算結果に基づく第1段階目の
選択を行うプロセスと、文書に含まれる構造情報の特徴
情報に基づく類似度を、複合メディア文書全体としての
類似度とするプロセスとを含む。
According to the present invention (claim 52), in the similarity calculating process, a similarity calculating process based on characteristic information of text information, image information, audio information, and structural information included in a document, A process of selecting the first step based on the similarity calculation result based on the feature information of the information and the voice information, and the similarity based on the feature information of the structural information included in the document, Process.

【0050】本発明(請求項53)は、類似度計算プロ
セスにおいて、検索キーとして例示された文書中に同一
メディアが複数存在する場合に、該メディアの文書レベ
ルでの類似度を設定する文書レベル類似度計算プロセス
を含む。本発明(請求項54)は、文書レベル類似度計
算プロセスにおいて、検索キーとして例示された文書中
に複数存在するメディアの各検索キーについて、例示さ
れた文書中に含まれるテキスト情報、画像情報、音声情
報を含むメディア毎の全ての検索キーについて、蓄積さ
れた文書中の該メディアにおける該検索キーに対する全
ての類似度を計算するプロセスと、類似度が最も高いも
のを検索キーに対する代表の類似度とするプロセスと、
代表の類似度の平均値を計算するプロセスと、メディア
の文書レベルでの類似度を設定する文書レベル類似度設
定プロセスとを含む。
According to the present invention (claim 53), in the similarity calculation process, when a plurality of same media exist in a document exemplified as a search key, a document level for setting the similarity of the media at the document level is set. Includes a similarity calculation process. According to the present invention (claim 54), in a document level similarity calculation process, for each search key of a plurality of media in a document exemplified as a search key, text information, image information, A process of calculating all similarities for the search key in the stored document for the media for all search keys for each medium including audio information, and determining the highest similarity for the representative similarity to the search key. And the process
The method includes a process of calculating the average value of the similarities of the representatives, and a document level similarity setting process of setting the similarities of the media at the document level.

【0051】本発明(請求項55)は、文書レベル類似
度設定プロセスにおいて、検索キーとして例示された文
書中に複数存在するメディアの各検索キーについて、該
例示された文書中に含まれるテキスト情報、画像情報、
音声情報を含むメディア毎の全ての検索キーについて、
蓄積された文書中の該メディアにおける該検索キーに対
する全ての類似度を計算するプロセスと、類似度が最も
高いものを検索キーに対する代表の類似度とするプロセ
スと、代表の類似度のうち、最も類似度が高いものをメ
ディア文書中レベルでの類似度とするプロセスとを含
む。
According to a fifty-fifth aspect of the present invention, in the document level similarity setting process, for each search key of a plurality of media in a document exemplified as a search key, text information included in the exemplified document is provided. , Image information,
For all search keys for each media including audio information,
A process of calculating all similarities for the search key in the medium in the stored documents, a process of setting the highest similarity to the representative similarity to the search key, Making the media with a high similarity a similarity at the media document level.

【0052】本発明(請求項56)は、類似度計算プロ
セスにおいて、検索キーとして例示された文書の構造情
報と蓄積された文書の構造情報のそれぞれを順序ラベル
付き木(ordered labeled tree) として表現し、それぞ
れの文書中の各メディアの特徴情報を順序ラベル付き木
におけるノードの属性として格納した属性付き順序ラベ
ル付き木として表現し、例示された文書を表現した属性
付き順序ラベル付き木と蓄積された文書を表現した属性
付き順序ラベル付き木との属性と形状を比較すること
で、複合メディア文書の類似度を設定する類似検索プロ
セスを含む。
According to the present invention (claim 56), in the similarity calculation process, each of the structure information of the document exemplified as the retrieval key and the structure information of the stored document is represented as an ordered labeled tree. Then, the feature information of each media in each document is represented as an attribute-ordered tree stored as an attribute of a node in the order-labeled tree, and stored as an attribute-ordered tree representing the exemplified document. A similarity search process for setting the similarity of the composite media document by comparing the attribute and the shape with the attributed ordered labeled tree expressing the represented document.

【0053】本発明(請求項57)は、類似検索プロセ
スにおいて、例示された文書を表現した属性付き順序ラ
ベル付き木の各ノードの属性である特徴情報と類似した
特徴情報を属性として持つノードを持つ蓄積された文書
を表現した属性付き順序ラベル付き木について、該ノー
ドの構造的な位置関係の差異から複合メディア文書の類
似度を設定するプロセスを含む。
According to the present invention (claim 57), in the similarity search process, nodes having characteristic information similar to the characteristic information, which is the attribute of each node of the attributed ordered labeled tree representing the exemplified document, as an attribute. The method includes a process of setting the similarity of the composite media document from the difference in the structural positional relationship of the node with respect to the ordered labeled tree expressing the stored document.

【0054】本発明(請求項58)は、順序ラベル付き
木形状比較プロセスにおいて、文書構造を順序ラベル付
き木と見做し、該順序ラベル付き木に関する特徴情報に
基づいて、多次元ベクトル空間上に該特徴情報を数値化
してマッピングするプロセスと、ベクトル空間上での距
離を文書の類似度として設定するプロセスとを含む。
According to the present invention (claim 58), in the order-labeled tree shape comparison process, the document structure is regarded as an order-labeled tree, and based on feature information on the order-labeled tree, the document structure is expressed in a multidimensional vector space. And a process of setting the distance in the vector space as the similarity of the document.

【0055】本発明(請求項59)は、順序付きラベル
木に関する特徴情報として、順序ラベル付き木の各ノー
ドの名前やノード数や各ノードの位置情報を数値化して
利用することで文書の類似度を計算する。本発明(請求
項60)は、特徴情報として、テキスト情報であれば、
テキストの記述内容が表す概念や各単語の出現頻度、画
像情報であれば、画像の色相や彩度や輝度、色配置、音
声情報であれば、音の強弱やメロディ、構造情報であれ
ば、文書構造を順序ラベル付き木で表現した場合の木の
形状やノードのラベル名、リンク情報などを、複合メデ
ィア文書の構成要素から抽出される特徴情報とする。
According to the present invention (claim 59), similarity of a document is obtained by digitizing and using the name of each node, the number of nodes, and the position information of each node as feature information on the ordered label tree. Calculate the degree. According to the present invention (claim 60), if the feature information is text information,
For the concept represented by the description content of the text, the appearance frequency of each word, for image information, the hue, saturation, luminance, color arrangement, and color arrangement of the image, for the sound information, the strength and melody of the sound, and for the structural information, In the case where the document structure is represented by a tree with an order label, the tree shape, the label name of the node, the link information, and the like are the feature information extracted from the components of the composite media document.

【0056】本発明(請求項61)は、文書比較プロセ
スにおいて、例示された文書に対する蓄積された文書の
類似度を、検索キーとして例示された文書を構成してい
るテキスト、画像、音声を含むメディアの情報及び構造
情報と、蓄積されている文書を構成しているテキスト、
画像、音声を含むメディアの情報及び構造情報との構成
要素毎の類似性判定結果に基づく評価値を、複合メディ
ア文書全体類似度として設定するプロセスと、蓄積され
た文書の類似度を降順に並べることで順位付けし、類似
度を判定するプロセスとを含む。
According to the present invention (claim 61), in the document comparison process, the similarity of the stored document to the exemplified document includes text, image, and voice constituting the exemplified document as search keys. Media information and structure information, and the text that constitutes the stored document,
A process of setting an evaluation value based on a similarity determination result for each component with media information and structure information including images and sounds as the overall similarity of a composite media document, and arranging the similarities of stored documents in descending order. And determining the degree of similarity.

【0057】本発明(請求項62)は、類似度設定プロ
セスにおいて、複合メディア文書の各構成要素毎に、類
似度を設定するプロセスと、文書に含まれるテキスト情
報、画像情報や音声情報、及び構造情報の特徴情報毎
に、類似度を計算するプロセスと、類似度に重みの値を
掛け、線形和をとったものを、複合メディア文書全体と
しての類似度とするプロセスとを含む。
According to the present invention (claim 62), in the similarity setting process, the process of setting the similarity for each component of the composite media document, the text information, image information, audio information, It includes a process of calculating the similarity for each feature information of the structure information, and a process of multiplying the similarity by a weight value and taking a linear sum to obtain a similarity of the entire composite media document.

【0058】本発明(請求項63)は、類似度設定プロ
セスにおいて、文書の構成要素毎の類似性判定結果に基
づく評価値として、各構成要素の類似度そのもの、また
は、各構成要素の類似度に利用者から与えられた重みを
掛け合わせたものを利用するプロセスを含む。上記のよ
うに、本発明では、与えられた文書の構文解析を行うこ
とで、例示された文書と蓄積された文書の間で比較を行
うべきメディアの情報及び構造情報などの構成要素の単
位を決定することが可能となる。
According to the present invention (claim 63), in the similarity setting process, the similarity of each component or the similarity of each component is used as an evaluation value based on the similarity determination result for each component of the document. Multiplied by the weight given by the user. As described above, in the present invention, by parsing a given document, a unit of a component such as media information and structure information to be compared between the exemplified document and the stored document is determined. It is possible to decide.

【0059】また、抽出した特徴情報により、文書を特
徴付けることで、文書の内容や論理構造の情報に基づい
た検索を可能にする。また、テキスト情報だけでなく、
画像情報や音声情報、構造情報なども検索キーの一部と
して利用することが可能となる。さらに、蓄積されてい
るテキスト情報、画像情報、音声情報、構造情報などか
ら、それらを含んでいた文書への索引を作成すること
で、文書に高速にアクセスすることが可能となる。
Further, by characterizing a document with the extracted characteristic information, it is possible to perform a search based on information on the contents and logical structure of the document. In addition to text information,
Image information, audio information, structure information, and the like can also be used as a part of the search key. Furthermore, it is possible to access a document at high speed by creating an index from a stored text information, image information, audio information, structure information, and the like to a document containing the information.

【0060】また、ディスプレイ上で文書のテキスト情
報、画像情報などの特徴情報の内容を確認できるので、
利用者が意図した特徴情報を含む複合メディア文書を検
索キーとして入力することが容易である。また、検索キ
ーとして入力された複合メディア文書に含まれる特徴情
報毎に、類似度を計算し、それらに基づく評価値を計算
する。例えば、文書の特徴情報毎に、類似度を計算し、
それらに重みの値を掛け、足しあわせたものを文書レベ
ルでの類似度として計算することで、テキスト情報以外
に画像や音声情報、構造情報の類似性も検索条件として
利用した複合メディア文書の類似検索が可能になる。
In addition, since the contents of characteristic information such as text information and image information of a document can be confirmed on the display,
It is easy for a user to input a composite media document including intended feature information as a search key. In addition, similarity is calculated for each feature information included in the composite media document input as a search key, and an evaluation value based on the similarity is calculated. For example, the similarity is calculated for each feature information of the document,
By multiplying them by the weight value and calculating the sum as the similarity at the document level, the similarity of the composite media document using the similarity of the image, audio information, and structural information in addition to the text information as a search condition Search becomes possible.

【0061】また、文書中の特徴情報毎に、類似度を計
算するので、個々の類似度計算方法に関して、例えば、
画像情報の類似度計算方法だけ異なる類似度計算方法を
採用し、部分的に置き換えるということが容易に行うこ
とができる。
Further, since the similarity is calculated for each feature information in the document, for each individual similarity calculation method, for example,
It is possible to easily adopt a similarity calculation method that differs only in the similarity calculation method of image information and partially replace the image information.

【0062】[0062]

【発明の実施の形態】複合メディア文書の構成要素とし
ては、図3に示すように、テキスト情報、画像情報、音
声情報及び構造情報等がある。以下、当該複合メディア
文書における類似検索について説明する。図4は、本発
明の複合メディア文書の類似検索装置の構成を示す。
DESCRIPTION OF THE PREFERRED EMBODIMENTS As shown in FIG. 3, the components of a composite media document include text information, image information, audio information, and structure information. Hereinafter, the similarity search in the composite media document will be described. FIG. 4 shows the configuration of the composite media document similarity search apparatus of the present invention.

【0063】同図に示す複合メディア文書の類似検索装
置は、複合メディア文書入力装置10、検索条件入力装
置20、検索条件入力部30、複合メディア文書解析部
40、特徴情報抽出部50、蓄積部60、メモリ70、
文書比較部80、表示装置90から構成される。複合メ
ディア文書入力装置10は、テキスト情報、画像情報、
音声情報及び構造情報を含む文書を入力する。
The composite media document similarity search apparatus shown in FIG. 3 includes a composite media document input device 10, a search condition input device 20, a search condition input unit 30, a composite media document analysis unit 40, a feature information extraction unit 50, and a storage unit. 60, memory 70,
The document comparison unit 80 includes a display device 90. The composite media document input device 10 includes text information, image information,
A document containing voice information and structure information is input.

【0064】検索条件入力装置20は、利用者が入力の
ために利用するマウス等のポインティングデバイスや、
キーボード等である。検索条件入力部30は、利用者に
検索条件入力装置20であるキーボードから文書のファ
イル名を入力させたり、マウスを操作させて文書のアイ
コンをクリックさせたり、前回の検索結果で得られた文
書をマウスでクリックさせることで検索キーとして入力
する複合メディア文書を取得する。詳しくは、複合メデ
ィア文書を検索するための検索キーとなる複合メディア
文書を例示する。例示する文書のファイル名を指定した
り、例示する文書のアイコンをポインティングデバイス
などによりディスプレイ上でクリックすることで検索キ
ーを例示する。また、文書を例示する際に、利用者が類
似性を重視したい部分を指定することが可能であり、類
似性を重視したい部分の特徴情報に対し、重視する度合
いを示す重みの値を適宜変更して入力することが可能で
ある。この時、文書中のどの部分の類似性を重視するか
という重みの値と検索結果として返却する文書数kを利
用者から取得する。あるいは、システムのデフォルト値
を利用する。
The search condition input device 20 includes a pointing device such as a mouse used by the user for input,
It is a keyboard or the like. The search condition input unit 30 allows a user to input a file name of a document from a keyboard serving as the search condition input device 20, operate a mouse to click a document icon, or obtain a document obtained by a previous search result. A composite media document to be input as a search key is obtained by clicking on with a mouse. More specifically, a composite media document serving as a search key for searching for a composite media document is exemplified. The search key is illustrated by designating the file name of the exemplified document or clicking the icon of the exemplified document on the display with a pointing device or the like. In addition, when exemplifying a document, the user can specify a portion in which similarity is to be emphasized, and appropriately change the value of the weight indicating the degree of importance in the feature information of the portion in which similarity is to be emphasized. It is possible to input. At this time, a value of a weight indicating which part of the document should be prioritized for similarity and the number k of documents to be returned as a search result are obtained from the user. Alternatively, use system defaults.

【0065】複合メディア文書解析部40は、複合メデ
ィア文書入力装置10または、検索条件入力部30から
与えられた文書の構文解析を行い、テキスト情報、画像
情報、音声情報、構造情報などの文書の構成要素を検出
する。複合メディア文書解析部40は、ここで、SGM
LやXMLのパーサ(parser:構文解析プログラム)を
用いて入力された文書を解析し、文書からテキスト情
報、画像情報、音声情報、構造情報等の文書の構成要素
を検出する。
The composite media document analysis unit 40 analyzes the syntax of the document provided from the composite media document input device 10 or the search condition input unit 30, and analyzes the document such as text information, image information, audio information, and structure information. Detect components. Here, the composite media document analysis unit 40
The input document is analyzed using an L or XML parser, and components of the document such as text information, image information, audio information, and structure information are detected from the document.

【0066】特徴情報抽出部50は、テキスト情報、画
像情報、音声情報、構造情報などの文書の構成要素の特
徴を表現している特徴情報を抽出する。例えば、テキス
ト情報ならテキストの記述内容が表す概念など、画像情
報なら、画像情報の色相や彩度や輝度、色配置など、音
声情報なら音の強弱やメロディなどの特徴情報を、特徴
情報が格納されていた文書のID、エレメント名や出現
位置の情報と共に抽出する。また、構造情報なら、文書
構造を順序ラベル付き木で表現した場合の木の形状(階
層構造など)やノードのラベル名、また、リンク情報な
どを複合メディア文書の構成要素から抽出される特徴情
報とする。
The feature information extracting section 50 extracts feature information expressing features of document components such as text information, image information, audio information, and structure information. For example, text information stores the concept represented by the description of the text, image information stores the hue, saturation, brightness, color arrangement, etc. of the image information, and voice information stores the characteristic information such as the strength and melody of the sound. It is extracted together with the information of the document ID, the element name and the appearance position of the document. In the case of structural information, when the document structure is represented by a tree with an order label, the tree shape (hierarchical structure, etc.), the label names of the nodes, and the link information are extracted from the components of the composite media document. And

【0067】蓄積部60は、与えられた文書をメモリ7
0に蓄積する。また、各特徴情報から当該特徴情報を含
んでいた文書への索引を作成する。文書比較部80は、
例示された複合メディア文書とメモリ70に蓄積された
複合メディア文書との特徴情報を比較することにより、
類似度を求め、類似度の高いものを出力する。複合メデ
ィア文書としての類似度は、テキスト情報、画像情報、
音声情報、構造情報などの個々の類似度計算結果に基づ
いた評価値を計算したものとする。例えば、テキスト情
報、画像情報、音声情報などの類似度に関しては、多次
元ベクトル空間モデルに基づき、各特徴情報を多次元ベ
クトル空間上へマッピングし、多次元ベクトル空間上の
例示された文書の特徴情報と蓄積された文書の特徴情報
との2点間の距離が近ければ、類似度が高くなるように
設定するというアプローチを採用することが可能であ
る。また、蓄積された文書の類似度を降順に並べること
で順位付けをし、類似度を判定することも可能である。
The storage unit 60 stores the given document in the memory 7
Store at 0. Also, an index is created from each piece of feature information to a document containing the feature information. The document comparison unit 80
By comparing characteristic information between the exemplified composite media document and the composite media document stored in the memory 70,
The similarity is obtained, and the one with the highest similarity is output. The similarity as a composite media document is based on text information, image information,
Assume that an evaluation value is calculated based on individual similarity calculation results such as voice information and structure information. For example, regarding similarities of text information, image information, audio information, and the like, based on a multidimensional vector space model, each feature information is mapped onto the multidimensional vector space, and the characteristics of the illustrated document on the multidimensional vector space are calculated. If the distance between the information and the feature information of the stored document is short, it is possible to adopt an approach of setting the similarity to be high. It is also possible to determine the similarity by arranging the similarities of the stored documents in descending order to rank the documents.

【0068】以下、上記の構成における動作を複合メデ
ィア文書蓄積フェーズと、複合メディア文書検索フェー
ズに分けて説明する。図5は、本発明の複合メディア文
書蓄積フェーズのフローチャートである。 ステップ101) まず、複合メディア文書入力装置1
0から複合メディア文書を入力する。
Hereinafter, the operation of the above configuration will be described by dividing it into a composite media document storage phase and a composite media document search phase. FIG. 5 is a flowchart of the composite media document storage phase of the present invention. Step 101) First, the composite media document input device 1
Input a composite media document from 0.

【0069】ステップ102) 複合メディア文書解析
部40が、複合メディア文書入力装置10から入力され
た複合メディア文書の構文解析を行い、テキスト情報、
画像情報、音声情報、構造情報などの文書の構成要素を
検出する。 ステップ103) 次に、特徴情報抽出部50は、テキ
スト情報、画像情報、音声情報、構造情報などの文書構
成要素について、例えば、テキスト情報なら、テキスト
の記述内容が表す概念など、画像情報なら画像の色相や
彩度や輝度や色配置など、音声情報なら音の強弱やメロ
ディなどの特徴情報を、特徴情報が格納されていた文書
のID、エレメント名や出現位置の情報と共に抽出す
る。当該処理をすべての構成要素の数分繰り返す。
Step 102) The composite media document analysis unit 40 analyzes the syntax of the composite media document input from the composite media document input device 10 to obtain text information,
Detect document components such as image information, audio information, and structural information. Step 103) Next, the feature information extraction unit 50 determines the document components such as text information, image information, audio information, and structural information. For voice information, such as hue, saturation, luminance, and color arrangement, feature information such as the intensity of a sound and a melody is extracted together with the ID of the document in which the feature information is stored, the element name, and the appearance position. This process is repeated for all components.

【0070】ステップ104) 蓄積部60は、与えら
れた文書及び、各特徴情報から当該特徴情報を含んでい
た文書への索引を作成し、メモリ70に格納する。次
に、複合メディア文書検索フェーズの動作を説明する。
図6は、本発明の複合メディア文書検索フェーズのフロ
ーチャートである。 ステップ201) 検索条件入力部30は、検索条件入
力装置20であるキーボードから文書のファイル名を入
力させたり、マウスを操作させて文書のアイコンをクリ
ックさせたり、前回の検索結果で得られた文書をマウス
でクリックさせることで、検索キーとして入力する複合
メディア文書を取得する。この時、文書中のどの部分の
類似性を重視するかという重みの値と、検索結果として
返却する文書数kを利用者から取得する。あるいは、シ
ステムのデフォルト値を利用する。
Step 104) The storage unit 60 creates an index from the given document and each piece of characteristic information to a document containing the characteristic information, and stores the index in the memory 70. Next, the operation of the composite media document search phase will be described.
FIG. 6 is a flowchart of the composite media document search phase of the present invention. Step 201) The search condition input unit 30 allows the user to input a file name of a document from a keyboard serving as the search condition input device 20, operate a mouse to click a document icon, or obtain a document obtained by a previous search result. By clicking on with a mouse, a composite media document to be input as a search key is obtained. At this time, a value of a weight indicating which part of the document should be prioritized for similarity and the number k of documents to be returned as a search result are obtained from the user. Alternatively, use system defaults.

【0071】ステップ202) 次に、複合メディア文
書解析部40は、複合メディア文書蓄積フェーズの処理
と同様に、複合メディア検索条件入力部30から入力さ
れた複合メディア文書の構文解析を行い、テキスト情
報、画像情報、音声情報、構造情報などの文書の構成要
素を検出する。 ステップ203) 特徴情報抽出部50が、複合メディ
ア文書蓄積フェーズと同様に、テキスト情報、画像情
報、音声情報、構造情報などの文書構成要素の特徴情報
を、特徴情報が格納されていた文書のID、エレメント
名や出現位置の情報と共に抽出し、例示された文書のテ
キスト情報、画像情報、音声情報、構造情報などの文書
の構成要素について特徴情報を抽出する。当該処理をす
べての構成要素の数分繰り返す。
Step 202) Next, similarly to the processing in the composite media document storage phase, the composite media document analysis unit 40 analyzes the syntax of the composite media document input from the composite media search condition input unit 30, and performs text information , Document components such as image information, audio information, and structure information are detected. Step 203) The characteristic information extracting unit 50 converts the characteristic information of the document components such as text information, image information, audio information, and structural information into the ID of the document in which the characteristic information is stored, as in the composite media document storage phase. , Along with information on element names and appearance positions, and characteristic information on document components such as text information, image information, audio information, and structure information of the exemplified document. This process is repeated for all components.

【0072】ステップ204) 文書比較部80は、例
示された文書の特徴情報とメモリ70に蓄積された文書
の特徴情報とを比較し、個々の特徴情報毎に類似度を計
算し、それらの計算結果に基づいた評価値を複合メディ
ア文書としての類似度として計算する。類似度の計算方
法は後述する。 ステップ205) 文書比較部80は、類似度を降順に
並べ、利用者が要求した上位k件の文書を類似度の高い
文書として索引から選ぶ。
Step 204) The document comparing section 80 compares the characteristic information of the exemplified document with the characteristic information of the document stored in the memory 70, calculates the similarity for each characteristic information, and calculates them. The evaluation value based on the result is calculated as the similarity as the composite media document. The method of calculating the similarity will be described later. Step 205) The document comparison unit 80 arranges the similarities in descending order, and selects the top k documents requested by the user from the index as documents having a high similarity.

【0073】ステップ206) 選択された類似度の高
い文書を検索結果として表示装置90に表示する。次
に、上記における類似度を求める方法について説明す
る。図7は、本発明の類似度を求めるための文書比較を
行う際のフローチャート(その1)である。
Step 206) The selected document having a high similarity is displayed on the display device 90 as a search result. Next, a method of calculating the similarity in the above will be described. FIG. 7 is a flowchart (part 1) of performing document comparison for obtaining similarity according to the present invention.

【0074】ステップ301) 文書比較部80は、特
徴情報抽出部50から検索条件入力部30から入力され
た文書(検索条件)の特徴情報と、蓄積部60から入力
された複合メディア文書の特徴情報を取得する。 ステップ302) 特徴情報が構造情報である場合には
ステップ303に移行し、そうでない場合にはステップ
304に移行する。
Step 301) The document comparing section 80 has the feature information of the document (search condition) inputted from the feature information extracting section 50 from the search condition input section 30 and the feature information of the composite media document inputted from the storage section 60. To get. Step 302) If the feature information is structural information, the process proceeds to step 303; otherwise, the process proceeds to step 304.

【0075】ステップ303) 文書比較部80は、検
索条件の特徴情報と複合メディア文書の特徴情報の構造
情報を木と見做して、当該2つの木の間の編集距離を計
算し、ステップ306に移行する。また、ノード間の構
造的位置関係を計算する、木を多次元ベクトル化し、多
次元ベクトル空間上の距離計算する等の方法も可能であ
る。
Step 303) The document comparing section 80 regards the feature information of the search condition and the structure information of the feature information of the composite media document as a tree, calculates the edit distance between the two trees, and proceeds to step 306. I do. Further, a method of calculating a structural positional relationship between nodes, converting a tree into a multidimensional vector, and calculating a distance in a multidimensional vector space are also possible.

【0076】ステップ304) 文書比較部80は、多
次元ベクトル空間上の距離を計算する。 ステップ305) 同種の特徴情報のうち、距離が最小
のものを代表として選択する。 ステップ306) 文書レベルでの類似度を計算する。
Step 304) The document comparing section 80 calculates a distance in the multidimensional vector space. Step 305) Among the same kind of feature information, the one with the smallest distance is selected as a representative. Step 306) Calculate the similarity at the document level.

【0077】ステップ307) 類似度が高い文書を索
引から選択する。 ステップ308) 選択された文書を表示装置90に出
力する。上記の類似度計算の一方法として、例えば、以
下のようにして類似度を求めることが可能である。 (1) 第1の類似度計算方法:検索キーとして例示さ
れた文書を構成しているテキスト、画像、音声を含むメ
ディアの情報及び構造情報と、メモリ70に蓄積されて
いる文書を構成しているテキスト、画像、音声を含むメ
ディアの情報及び構造情報との構成要素毎の類似性判定
結果に基づく評価値を、複合メディア文書全体類似度と
して設定する。ここで、類似判定結果に基づく評価値と
は、各構成要素の類似度そのもの、または、各構成要素
の類似度に利用者から与えられた重みを掛け合わせたも
のなどを利用する。
Step 307) A document having a high similarity is selected from the index. Step 308) Output the selected document to the display device 90. As one method of calculating the similarity, for example, the similarity can be obtained as follows. (1) First similarity calculation method: information and structure information of media including texts, images, and sounds constituting a document exemplified as a search key, and a document stored in a memory 70 An evaluation value based on a similarity determination result for each component with information on media including text, images, and audio and structure information is set as the overall similarity of the composite media document. Here, as the evaluation value based on the similarity determination result, the similarity itself of each component or a value obtained by multiplying the similarity of each component by a weight given by a user is used.

【0078】(2) 第2の類似度計算方法:テキスト
情報の類似度は、入力されたテキスト情報の特徴情報と
メモリ70に蓄積されたテキスト情報の特徴情報との多
次元ベクトル空間上での距離を求めることで計算する。
画像情報の類似度は、入力された画像情報の特徴情報と
メモリ70に蓄積された画像情報の特徴情報との多次元
ベクトル空間上での距離を求めることで計算する。
(2) Second Similarity Calculation Method: The similarity of text information is calculated in a multidimensional vector space between the feature information of the input text information and the feature information of the text information stored in the memory 70. Calculate by calculating the distance.
The similarity of the image information is calculated by calculating the distance in the multidimensional vector space between the characteristic information of the input image information and the characteristic information of the image information stored in the memory 70.

【0079】音声情報の類似度は、入力された音声情報
の特徴情報とメモリ70に蓄積された音声情報の特徴情
報との多次元ベクトル空間上での距離を求めることで計
算する。上記の各々の情報において、多次元ベクトル空
間上での距離が小さいものが、類似度が高いものとして
計算される。
The similarity of voice information is calculated by finding the distance in the multidimensional vector space between the feature information of the input voice information and the feature information of the voice information stored in the memory 70. In each of the above information, the information having a small distance in the multidimensional vector space is calculated as having a high similarity.

【0080】(3) 第3の類似度計算方法:また、上
記の(2)の方法に加えて、同一文書中に同一メディア
が複数存在する場合は、類似度が最も高いものを代表の
類似度と設定する。例えば、図8に示すように、画像情
報を複数含んでいる文書などでは、検索キーとして例示
された文書中に存在する画像情報について、蓄積された
文書中に複数存在する画像情報との類似度を計算し、そ
の中で類似度が最も高いものを代表の類似度として設定
する。これを、検索キーとして例示された文書中に存在
するすべての画像情報について行う。
(3) Third similarity calculation method: In addition to the above method (2), when a plurality of the same media exist in the same document, the one having the highest similarity is represented by the representative similarity. Set the degree. For example, as shown in FIG. 8, in a document including a plurality of pieces of image information, the degree of similarity between the image information present in the document exemplified as the search key and the plurality of pieces of image information present in the stored document Is calculated, and the one with the highest similarity is set as the representative similarity. This is performed for all image information existing in the document exemplified as the search key.

【0081】図8において、例示文書中の画像Aと蓄積
文書中の画像a,b,cとのそれぞれの類似度を求め、
類似度が最も高いもの(例えば、画像a)を例示文書中
の画像Aに対する蓄積文書中の類似画像とする。さら
に、例示文書中の画像Bと蓄積文書中の画像a,b,c
とのそれぞれの類似度を求め、類似度が最も高いもの
(例えば、画像c)を例示文書中の画像Bに対する蓄積
文書中の類似画像とする。
In FIG. 8, the similarity between the image A in the example document and the images a, b, and c in the stored document is calculated.
The image having the highest similarity (for example, image a) is regarded as a similar image in the stored document with respect to image A in the example document. Further, image B in the example document and images a, b, c in the stored document
And the image with the highest similarity (for example, image c) is determined to be a similar image in the stored document with respect to image B in the example document.

【0082】(4) 第4の類似度計算方法:また、特
徴情報のうちの構造情報は、文書構造を木と見做し、一
方の木からもう一方の木へ変換するために必要な編集距
離を計算し、編集距離が小さければ類似度が高くなるよ
うに設定する。編集距離は、木を変換する際に必要なノ
ードの挿入、ノードの削除、ノード名の変更という編集
操作を行った回数と、それらの編集操作を行うのに必要
なコストから算出する。これにより、類似度を計算する
ことが可能であり、編集距離が小さいものが類似度の高
いものとして計算される。
(4) Fourth similarity calculation method: In addition, the structure information of the feature information is edited as necessary for converting the document structure from one tree to another tree by regarding the document structure as a tree. The distance is calculated and set so that the similarity increases as the editing distance decreases. The editing distance is calculated from the number of times of editing operations such as insertion of a node, deletion of a node, and change of a node name necessary for transforming a tree, and the cost required for performing the editing operation. Thereby, the similarity can be calculated, and the one with a small editing distance is calculated as the one with a high similarity.

【0083】(5) 第5の類似度計算方法:テキスト
情報、画像情報、音声情報、構造情報などの類似度をそ
れぞれ計算し、検索条件入力部30で取得した文書中の
どの部分の類似性を重視するかという重みの値、あるい
は、システムのデフォルト値に基づいて、テキスト情
報、画像情報、音声情報、構造情報などの類似度それぞ
れに与えられた個別の重みの値を掛け、線形和をとる。
この線形和をとったものが、複合メディア文書としての
類似度に相当する。
(5) Fifth similarity calculation method: The similarity of text information, image information, audio information, structure information, etc. is calculated, and the similarity of any part in the document acquired by the search condition input unit 30 Weights, or based on system default values, multiply the individual weights given to the similarities of text information, image information, audio information, structural information, etc., and calculate the linear sum. Take.
The linear sum corresponds to the similarity as a composite media document.

【0084】(6) 第6の類似度計算方法:次に、文
書比較部80において、複合メディア文書の類似度を計
算する際に、文書に含まれるテキスト情報、画像情報や
音声情報、構造情報の特徴情報に基づく類似度を計算
し、構造情報の特徴情報に基づく類似度計算結果に基づ
いて、第1段階目の選抜を行った後で、文書に含まれる
テキスト情報、画像情報や音声情報の特徴情報に基づく
類似度を、複合メディア文書全体としての類似度とす
る。
(6) Sixth similarity calculation method: Next, when the document comparison unit 80 calculates the similarity of a composite media document, text information, image information, audio information, and structure information included in the document are included. After calculating the similarity based on the characteristic information of the document and performing the first stage selection based on the result of the similarity calculation based on the characteristic information of the structural information, text information, image information, and voice information included in the document are obtained. The similarity based on the characteristic information of the composite media document is set as the overall similarity.

【0085】以下にこの方法を詳細に説明する。図9
は、本発明の類似度を求めるための文書比較を行う際の
フローチャート(その2)である。 ステップ401) 特徴情報情報抽出部50において、
入力された検索条件に対する特徴情報が入力される。
Hereinafter, this method will be described in detail. FIG.
9 is a flowchart (part 2) of performing document comparison for obtaining similarity according to the present invention. Step 401) In the characteristic information information extraction unit 50,
The feature information for the input search condition is input.

【0086】ステップ402) テキスト情報の類似度
は、入力されたテキスト情報の特徴情報とメモリ70に
蓄積されたテキスト情報の特徴情報との多次元ベクトル
空間上での距離を求めたり、入力されたテキスト情報の
特徴情報と蓄積されたテキスト情報の特徴情報との出現
頻度などから得られる値の差を求めることで計算する。
Step 402) The similarity of the text information is obtained by calculating the distance in the multidimensional vector space between the characteristic information of the input text information and the characteristic information of the text information stored in the memory 70, or by inputting the distance. The calculation is performed by calculating a difference between values obtained from the appearance frequency of the feature information of the text information and the feature information of the stored text information.

【0087】画像情報の類似度は、入力された画像情報
の特徴情報とメモリ70に蓄積された画像情報の特徴情
報との多次元ベクトル空間上での距離を求めることで計
算する。音声情報の類似度は、入力された音声情報の特
徴情報とメモリ70に蓄積された音声情報の特徴情報の
多次元ベクトル空間上での距離を求めることで計算す
る。なお、多次元ベクトル空間上での距離が小さいもの
や、出現頻度などから得られる値の差の絶対値が小さい
ものが、類似度が高いものとして計算される。
The similarity of the image information is calculated by calculating the distance in the multidimensional vector space between the characteristic information of the input image information and the characteristic information of the image information stored in the memory 70. The similarity of the voice information is calculated by calculating the distance in the multidimensional vector space between the feature information of the input voice information and the feature information of the voice information stored in the memory 70. It should be noted that those having a small distance in the multidimensional vector space and those having a small absolute value of the difference between the values obtained from the appearance frequency and the like are calculated as having a high similarity.

【0088】また、特徴情報のうち、構造情報は、文書
情報を木と見做し、一方の木からもう一方の木へ変換す
るために必要な編集距離を計算することや、木の特徴情
報を数値化して多次元ベクトル化して多次元ベクトル空
間上での距離を求めることなどで類似度を計算すること
が可能である。編集距離が小さいものや、多次元ベクト
ル空間上での距離が小さいものが、類似度の高いものと
して計算される。
In the feature information, the structural information is such that the document information is regarded as a tree, and an edit distance required to convert one tree to another tree is calculated. Is converted into a multidimensional vector to obtain a distance in a multidimensional vector space, and the similarity can be calculated. An object with a small editing distance or an object with a small distance in a multidimensional vector space is calculated as having a high similarity.

【0089】ステップ403) テキスト情報、画像情
報、音声情報、構造情報などの類似度をそれぞれ計算
し、検索条件入力部30で取得した文書中のどの部分の
類似性を重視するかという重みの値、あるいは、システ
ムのデフォルト値に基づき、構造情報の類似度に基づく
第1段階目の選抜を行う。 ステップ404) 第1段階目の選抜を行った後に残っ
た文書のテキスト情報、画像情報、音声情報などの類似
度が、複合メディア文書としての類似度に相当する。
Step 403) Calculate similarities of text information, image information, audio information, structure information, and the like, and determine a weight value indicating which part of the document obtained by the search condition input unit 30 should be prioritized. Alternatively, the first selection based on the similarity of the structural information is performed based on the default value of the system. Step 404) The similarity of the text information, image information, audio information, and the like of the document remaining after the first stage selection corresponds to the similarity as the composite media document.

【0090】ステップ405) 類似度が高い文書を索
引から選択する。 ステップ406) 選択された文書を表示装置90に表
示する。 (7) 第7の類似度計算方法;次に、文書比較部80
において、複合メディア文書の類似度を計算する際に、
文書に含まれるテキスト情報、画像情報や音声情報、構
造情報の特徴情報に基づく類似度を計算し、テキスト情
報、画像情報や音声情報の特徴情報に基づく類似度計算
結果に基づく第1段階目の選抜を行った後で、文書に含
まれる構造情報の特徴情報に基づく類似度を、複合メデ
ィア文書全体としての類似度とする。
Step 405) A document having a high similarity is selected from the index. Step 406) Display the selected document on the display device 90. (7) Seventh similarity calculation method;
In calculating the similarity of composite media documents,
A similarity based on text information, image information, audio information, and structural information feature information included in the document is calculated, and a first stage based on the similarity calculation result based on the text information, image information, and audio information feature information is performed. After the selection, the similarity based on the feature information of the structural information included in the document is set as the similarity of the entire composite media document.

【0091】以下にこの方法を詳細に説明する。図10
は、本発明の類似度を求めるための文書比較を行う際の
フローチャート(その3)である。 ステップ501) 入力された検索条件の特徴情報が入
力される。 ステップ502) テキスト情報の類似度は、入力され
たテキスト情報の特徴情報とメモリ70に蓄積されたテ
キスト情報の特徴情報との多次元ベクトル空間上での距
離を求めたり、入力されたテキスト情報の特徴情報と蓄
積されたテキスト情報の特徴情報との出現頻度などから
得られる値の差を求めることで計算する。
Hereinafter, this method will be described in detail. FIG.
9 is a flowchart (part 3) of performing document comparison for obtaining similarity according to the present invention. Step 501) The feature information of the input search condition is input. Step 502) The similarity of the text information is determined by calculating a distance in a multidimensional vector space between the feature information of the input text information and the feature information of the text information stored in the memory 70, or determining the similarity of the input text information. The calculation is performed by obtaining a difference between values obtained from the appearance frequency of the characteristic information and the characteristic information of the stored text information.

【0092】画像情報の類似度は、入力された画像情報
の特徴情報と蓄積された画像情報の特徴情報との多次元
ベクトル空間上での距離を求めることで計算する。音声
情報の類似度は、入力された音声情報の特徴情報と蓄積
された音声情報の特徴情報との多次元ベクトル空間上で
の距離を求めることで計算する。多次元ベクトル空間上
での距離が小さいものや、出現頻度などから得られる値
の差の絶対値が小さいものが類似度が高いものとして計
算される。
The similarity of the image information is calculated by finding the distance in the multidimensional vector space between the characteristic information of the input image information and the characteristic information of the stored image information. The similarity of audio information is calculated by calculating the distance in the multidimensional vector space between the characteristic information of the input audio information and the characteristic information of the stored audio information. Those having a small distance in the multidimensional vector space and those having a small absolute value of the difference between the values obtained from the appearance frequency and the like are calculated as having a high similarity.

【0093】また、特徴情報のうち構造情報は、文書構
造を木と見做し、一方の木からもう一方の木へ変換する
ために必要な編集距離を計算することや、木の特徴情報
を数値化して多次元ベクトル化して多次元ベクトル空間
上での距離を求めることなどで類似度を計算することが
可能である。編集距離が小さいものや、多次元ベクトル
空間上での距離が小さいものが、類似度が高いものとし
て計算される。
The structure information of the feature information is such that the document structure is regarded as a tree, an edit distance required for converting one tree into another tree is calculated, and the feature information of the tree is calculated. It is possible to calculate the degree of similarity by numerically converting the data into a multidimensional vector to obtain a distance in a multidimensional vector space. Those having a small editing distance and those having a small distance in a multidimensional vector space are calculated as having a high similarity.

【0094】ステップ503) テキスト情報、画像情
報、音声情報、構造情報などの類似度をそれぞれ計算
し、検索条件入力部30で取得した文書中のどの部分の
類似性を重視するかという重みの値、あるいは、システ
ムのデフォルト値に基づき、テキスト情報、画像情報、
音声情報などの類似度に基づく第1段階目の選抜を行
う。
Step 503) Calculate the similarity of text information, image information, audio information, structure information, etc., and determine the weight of the part of the document acquired by the search condition input unit 30 that is to be prioritized. , Or based on system defaults, text information, image information,
The first stage of selection is performed based on the similarity of audio information and the like.

【0095】ステップ504) 第1段階目の選抜を行
った後に、残った文書の構造情報の類似度が複合メディ
ア文書としての類似度に相当する。 ステップ505) 類似度の高い文書を索引から選択す
る。 ステップ506) 選択された文書を表示装置90に出
力する。 (8) 第8の類似度計算方法:複合メディア文書の類
似度を計算する際に、検索キーとして例示された文書中
に同一メディアが複数存在する場合に、当該メディアの
文書レベルでの類似度を設定する。例えば、上記の
(3)では、蓄積された検索対象の文書中に同一メディ
アが複数存在する場合について述べたが、(8)では、
検索キーとなる文書中に異なる画像が3つ存在する場
合、検索キーとなる文書における画像の類似度をどう設
定するのかという点について説明する。
Step 504) After the selection at the first stage, the similarity of the structural information of the remaining document corresponds to the similarity as the composite media document. Step 505) Select a document having a high degree of similarity from the index. Step 506) Output the selected document to the display device 90. (8) Eighth similarity calculation method: When calculating the similarity of a composite media document, if there are a plurality of the same media in the document exemplified as the search key, the similarity of the media at the document level Set. For example, in the above (3), the case where a plurality of the same media exist in the stored documents to be searched has been described.
In the case where three different images exist in the document serving as the search key, how to set the similarity of the images in the document serving as the search key will be described.

【0096】複合メディア文書の類似度を計算する際
に、検索キーとして例示された文書中に同一メディアが
複数存在する場合に、当該メディアの文書レベルでの類
似度を設定する2種類の例に基づいて、文書中に画像情
報が存在する場合について述べる。 メディアの文書レベルでの類似度を設定する際に、
検索キーとして例示された文書中に複数存在する当該メ
ディアの各検索キーについて、蓄積された文書中のメデ
ィアにおける検索キーに対する全ての類似度を計算し、
類似度が最も高いものを検索キーに対する代表の類似度
とし、代表の類似度の平均値を計算してメディアの文書
レベルでの類似度とする場合に、図8に示す、例示文書
中の画像Aに対する蓄積文書中の類似画像として画像a
を得る。さらに、例示文書中の画像Bに対する蓄積文書
中の類似画像として画像cを得る。画像Aと画像aとの
間の類似度と、画像Bと画像cとの間の類似度の平均値
を計算し、その値を例示文書と蓄積文書との間の文書レ
ベルでの画像情報の類似度と設定する。
When calculating the similarity of a composite media document, if there are a plurality of the same media in the document exemplified as a search key, the following two examples are used to set the similarity of the media at the document level. Based on this, a case where image information exists in a document will be described. When setting document-level similarity for media,
For each search key of the medium that exists in the document exemplified as the search key, calculate all the similarities to the search key in the medium in the stored document,
When the highest similarity is used as the representative similarity to the search key, and the average value of the representative similarities is calculated and used as the similarity at the document level of the media, the image in the example document shown in FIG. A as a similar image in the stored document for A
Get. Further, an image c is obtained as a similar image in the stored document with respect to the image B in the example document. The average value of the similarity between the image A and the image a and the similarity between the image B and the image c are calculated, and the calculated value is used as the value of the image information at the document level between the example document and the stored document. Set similarity.

【0097】 メディアの文書レベルでの類似度を設
定する際に、検索キーとして例示された文書中に複数存
在する当該メディアの各検索キーについて、蓄積された
文書中のメディアにおける検索キーに対する全ての類似
度を計算し、類似度が最も高いものを検索キーに対する
代表の類似度とし、代表の類似度のうち、最も類似度が
高いものをメディアの文書レベルでの類似度とする場合
に、図8に示す、例示文書中の画像Aに対する蓄積文書
中の類似画像として画像aを得る。さらに、例示文書中
の画像Bに対する蓄積文書中の類似画像として画像cを
得る。画像Aと画像aとの間の類似度と、画像Bと画像
cとの間の類似度のうち、最も類似度が高いもの(例え
ば、画像Aと画像aとの間の類似度)を例示文書と蓄積
文書との間の文書レベルでの画像情報の類似度として設
定する。
When setting the similarity at the document level of the medium, for each of the plurality of search keys of the medium in the document exemplified as the search key, all the search keys corresponding to the search keys of the medium in the stored document are searched. When the similarity is calculated, the highest similarity is used as the representative similarity to the search key, and the highest similarity among the representative similarities is used as the media document level similarity. 8, an image a is obtained as a similar image in the stored document to the image A in the example document. Further, an image c is obtained as a similar image in the stored document with respect to the image B in the example document. The similarity between the image A and the image a and the similarity between the image B and the image c having the highest similarity (for example, the similarity between the image A and the image a) are exemplified. This is set as the similarity of the image information at the document level between the document and the stored document.

【0098】次に、複合メディア文書の類似検索を行う
際に、検索キーとして例示された文書の構造情報と蓄積
された文書の構造情報のそれぞれを順序ラベル付き木
(ordered labeled tree) として表現する例について説
明する。図11は、本発明の複合メディア文書を属性付
き順序ラベル付き木として表現することを説明するため
の図である。
Next, when performing a similarity search for a composite media document, each of the structure information of the document exemplified as a search key and the structure information of the stored document is expressed as an ordered labeled tree. An example will be described. FIG. 11 is a diagram for describing expressing the composite media document of the present invention as a sequence-labeled tree with attributes.

【0099】複合メディア文書の類似検索を行う際に、
それぞれの文書中の各メディアの特徴情報を当該順序ラ
ベル付き木におけるノードの属性として格納した属性付
き順序ラベル付き木(順序ラベル付き木を拡張した木)
として表現し、例示された文書を表現した属性付き順序
ラベル付き木と蓄積された文書を表現した属性付き順序
ラベル付き木との属性と形状を比較することで、複合メ
ディア文書の類似度を設定する。
When performing a similarity search for a composite media document,
An attribute-labeled ordered tree in which feature information of each media in each document is stored as an attribute of a node in the ordered labeled tree (a tree obtained by expanding the ordered-labeled tree)
Set the similarity of the composite media document by comparing the attribute and shape of the attributed ordered labeled tree representing the exemplified document and the attributed ordered labeled tree representing the stored document I do.

【0100】この複合メディア文書の類似度を設定する
際に、順序付きラベル付き木に関する特徴情報に基づい
て、多次元ベクトル空間上に、当該特徴情報を数値化し
てマッピングし、当該ベクトル空間上での距離を文書の
類似度として設定する。なお、特徴情報の数値化は、各
ノードの名前(ラベル名)やノード数、各ノードの位置
情報を数値化するものとする。
When setting the similarity of the composite media document, the feature information is quantified and mapped on a multidimensional vector space based on the feature information on the ordered labeled tree. Is set as the document similarity. Note that the digitization of the feature information is to digitize the name (label name) of each node, the number of nodes, and the position information of each node.

【0101】上述のように、利用者が詳細な文書構造を
知らなくても、テキスト情報以外に構造情報も利用した
文書の検索が行うことができる。また、テキスト情報の
他に画像や音声の情報や構造情報も検索キーの一部に含
めて文書の類似検索を行うことができる。また、図3に
示す検索条件入力部30、複合メディア文書解析部4
0、特徴情報抽出部50、蓄積部60、文書比較部80
をプログラムとして構築し、複合メディア文書の類似検
索装置として利用されるコンピュータに接続されるディ
スク装置や、フロッピーディスクやCD−ROM等の可
搬記憶媒体に格納しておき、本発明を実施する際にイン
ストールすることにより容易に本発明を実現できる。
As described above, even if the user does not know the detailed document structure, it is possible to search for documents using structural information in addition to text information. Further, similarity search of a document can be performed by including image and sound information and structural information in addition to text information as a part of the search key. The search condition input unit 30 and the composite media document analysis unit 4 shown in FIG.
0, feature information extraction unit 50, storage unit 60, document comparison unit 80
Is constructed as a program, stored in a disk device connected to a computer used as a similar search device for a composite media document, or in a portable storage medium such as a floppy disk or a CD-ROM. The present invention can be easily realized by installing the present invention in a personal computer.

【0102】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々変更・応用が可能
である。
The present invention is not limited to the above-described embodiment, but can be variously modified and applied within the scope of the claims.

【0103】[0103]

【発明の効果】上述のように、本発明によれば、利用者
が詳細な文書構造を知らなくても、テキスト情報以外の
構造情報も利用した文書の検索を行うことができる。ま
た、テキスト情報の他に画像や音声の情報や構造情報も
検索キーの一部に含めて文書の類似を検索を行うことが
できる。
As described above, according to the present invention, a document can be searched using structural information other than text information even if the user does not know the detailed document structure. Further, in addition to text information, image and audio information and structure information can be included in a part of the search key to search for similarity of documents.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の原理を説明するための図である。FIG. 1 is a diagram for explaining the principle of the present invention.

【図2】本発明の原理構成図である。FIG. 2 is a principle configuration diagram of the present invention.

【図3】本発明の複合メディア文書を説明するための図
である。
FIG. 3 is a diagram for explaining a composite media document of the present invention.

【図4】本発明の複合メディア文書の類似検索装置の構
成図である。
FIG. 4 is a block diagram of a similar media document similarity search apparatus of the present invention.

【図5】本発明の複合メディア文書蓄積フェーズのフロ
ーチャートである。
FIG. 5 is a flowchart of a composite media document storage phase of the present invention.

【図6】本発明の複合メディア文書検索フェーズのフロ
ーチャートである。
FIG. 6 is a flowchart of a composite media document search phase according to the present invention.

【図7】本発明の類似度を求めるための文書比較を行う
際のフローチャート(その1)である。
FIG. 7 is a flowchart (part 1) of performing document comparison for obtaining similarity according to the present invention.

【図8】本発明の同一文書中に同一メディアが複数存在
する場合における類似度設定の方法を説明するための図
である。
FIG. 8 is a diagram for explaining a method of setting similarity when a plurality of the same media exist in the same document according to the present invention.

【図9】本発明の類似度を求めるための文書比較を行う
際のフローチャート(その2)である。
FIG. 9 is a flowchart (part 2) of performing document comparison for obtaining similarity according to the present invention.

【図10】本発明の類似度を求めるための文書比較を行
う際のフローチャート(その3)である。
FIG. 10 is a flowchart (part 3) of performing document comparison for obtaining similarity according to the present invention.

【図11】本発明の複合メディア文書の属性付き順序ラ
ベル付き木として表現することを説明するための図であ
る。
FIG. 11 is a diagram for describing expressing a composite media document as an attribute-labeled ordered labeled tree of the present invention.

【符号の説明】[Explanation of symbols]

10 複合メディア文書入力手段、複合メディア文書入
力装置 20 検索条件入力装置 30 検索条件入力手段、検索条件入力部 40 文書解析手段、複合メディア文書解析部 50 特徴抽出手段、特徴情報抽出部 60 蓄積手段、蓄積部 70 メモリ 80 文書比較手段、文書比較部 90 出力手段、表示装置
Reference Signs List 10 composite media document input unit, composite media document input device 20 search condition input device 30 search condition input unit, search condition input unit 40 document analysis unit, composite media document analysis unit 50 feature extraction unit, feature information extraction unit 60 storage unit Storage unit 70 Memory 80 Document comparison unit, Document comparison unit 90 Output unit, Display device

───────────────────────────────────────────────────── フロントページの続き (72)発明者 谷口 展郎 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 (72)発明者 山室 雅司 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 Fターム(参考) 5B075 ND03 ND06 ND14 ND16 PP24 PR06 QM08  ──────────────────────────────────────────────────続 き Continued on the front page (72) Inventor Nobuo Taniguchi 3-19-2 Nishi-Shinjuku, Shinjuku-ku, Tokyo Japan Telegraph and Telephone Corporation (72) Inventor Masashi Yamamuro 3--19, Nishishinjuku, Shinjuku-ku, Tokyo No. 2 F-term in Nippon Telegraph and Telephone Corporation (reference) 5B075 ND03 ND06 ND14 ND16 PP24 PR06 QM08

Claims (63)

【特許請求の範囲】[Claims] 【請求項1】 テキスト情報、画像情報、人間の声のデ
ータである音声データに加え、CDやレコードを含む楽
曲データや音楽データを含む音声情報から構成される構
造化文書である複合メディア文書の類似検索方法におい
て、 与えられた前記複合メディア文書を構文解析し、 解析された結果得られる前記複合メディア文書の構成要
素から第1の特徴情報を抽出し、 前記複合メディア文書及び抽出した前記特徴情報を蓄積
し、 複合メディア文書を検索条件として入力し、 入力された前記検索条件を構文解析し、 解析された結果得られる前記検索条件の構成要素から第
2の特徴情報を抽出し、 蓄積されている前記第1の特徴情報と前記第2の特徴情
報に基づいて2つの複合メディア文書の類似度を判定
し、類似した複合メディア文書を出力することを特徴と
する複合メディア文書の類似検索方法。
1. A composite media document which is a structured document composed of text information, image information, voice data which is human voice data, music information including CDs and records, and voice information including music data. In the similarity search method, a given complex media document is parsed, and first feature information is extracted from components of the complex media document obtained as a result of the analysis, and the complex media document and the extracted feature information are extracted. And inputting the composite media document as a search condition, parsing the input search condition, extracting second characteristic information from the components of the search condition obtained as a result of the analysis, and storing the second feature information. Determining a similarity between two composite media documents based on the first characteristic information and the second characteristic information, and outputting a similar composite media document Similarity search method of a composite media document characterized by Rukoto.
【請求項2】 検索時において、 利用者が例示した文書を検索キーとして入力し、 例示された文書から前記第2の特徴情報を抽出し、 抽出された前記第2の特徴情報と前記第1の特徴情報に
より文書間の類似度を計算する請求項1記載の複合メデ
ィア文書の類似検索方法。
2. At the time of search, a user inputs a document exemplified as a search key, extracts the second feature information from the exemplified document, and extracts the extracted second feature information and the first feature information. 2. The method according to claim 1, wherein the similarity between the documents is calculated based on the characteristic information.
【請求項3】 前記複合メディア文書の類似度を計算す
る際に、 前記検索キーとして例示された前記文書を構成している
テキスト、画像、音声を含むメディアの情報及び構造情
報と、 蓄積されている前記文書を構成しているテキスト、画
像、音声を含むメディアの情報及び構造情報との構成要
素毎の類似性判定結果に基づく評価値を、複合メディア
文書全体類似度として設定する請求項1及び2記載の複
合メディア文書の類似検索方法。
3. When calculating the similarity of the composite media document, information and structure information of media including texts, images, and voices constituting the document exemplified as the search key are stored. An evaluation value based on a similarity determination result for each component with media information and structure information including text, images, and audio constituting said document, is set as the overall similarity of the composite media document. 2. A similarity search method of the composite media document described in 2.
【請求項4】 前記構成要素毎の類似性判定結果とし
て、 前記例示された文書のテキスト情報と、蓄積された前記
文書のテキスト情報の類似性判定結果と、前記例示され
た文書の画像情報と、該蓄積された文書の画像情報との
類似性判定結果と、該例示された文書の音声情報と、該
蓄積された文書の音声情報との類似性判定結果と、該例
示された文書の構造情報と、該蓄積された文書の構造情
報との類似性判定結果を用いる請求項3記載の複合メデ
ィア文書の類似検索方法。
4. The similarity determination result for each of the constituent elements includes: a text information of the exemplified document; a similarity determination result of accumulated text information of the document; and image information of the exemplified document. The similarity determination result with the image information of the stored document, the audio information of the exemplified document, the similarity determination result with the audio information of the accumulated document, and the structure of the exemplified document. 4. The method according to claim 3, wherein a similarity determination result between the information and the stored structure information of the document is used.
【請求項5】 前記複合メディア文書の類似度を計算す
る際に、 前記文書に含まれるテキスト情報、画像情報や音声情
報、及び構造情報の特徴情報毎に、類似度を計算し、 前記類似度に重みの値を掛け、線形和をとったものを、
前記複合メディア文書全体としての類似度とする請求項
3記載の複合メディア文書の類似検索方法。
5. When calculating the similarity of the composite media document, a similarity is calculated for each feature information of text information, image information, audio information, and structure information included in the document, and the similarity is calculated. Is multiplied by the weight value, and the linear sum is calculated as
4. The similarity search method for a composite media document according to claim 3, wherein the similarity is set as the overall degree of the composite media document.
【請求項6】 前記複合メディア文書の類似度を計算す
る際に、 同一文書中に同一メディアが複数存在する場合に、 前記例示された文書中に含まれるテキスト情報、画像情
報、音声情報を含むメディア毎の全ての検索キーについ
て、蓄積された文書中の該メディアにおける該検索キー
に対する全ての類似度を計算し、 前記類似度が最も高いものを前記検索キーに対する代表
の類似度とする請求項2及び3記載の複合メディア文書
の類似検索方法。
6. When calculating the similarity of the composite media document, when the same document includes a plurality of the same media, text information, image information, and audio information included in the exemplified document are included. For all search keys for each medium, all similarities for the search key in the medium in the stored document are calculated, and the highest similarity is used as a representative similarity for the search key. A method for similarity search of composite media documents according to 2 and 3.
【請求項7】 前記複合メディア文書の類似度を計算す
る際に、 前記検索キーとして、前記例示された文書の構造情報と
前記蓄積された文書の構造情報のそれぞれを、順序ラベ
ル付木(ordered labeled tree)として表現し、 前記例示された文書を表現した前記順序ラベル付木と、
前記蓄積された文書を表現した順序ラベル付木との形状
を比較することで、文書の構造情報の類似度を設定する
請求項1記載の複合メディア文書の類似検索方法。
7. When calculating the similarity of the composite media document, each of the structure information of the exemplified document and the structure information of the stored document is used as the search key in an ordered label tree (ordered tree). a labeled tree), said ordered labeled tree representing said exemplified document;
2. The similarity search method for a composite media document according to claim 1, wherein the similarity of the structure information of the document is set by comparing the shape of the stored document with an ordered label tree.
【請求項8】 前記構造情報の類似度を設定する際に、 前記文書構造を木と見做し、前記例示された文書を表す
木から蓄積された前記文書を表す木へ変換するために必
要なノードの挿入、ノードの削除、ノード名の変更を含
む編集操作を行った回数と、該編集操作を行うのに必要
なコストから算出する編集距離を前記文書の類似度とし
て設定する請求項7記載の複合メディア文書の類似検索
方法。
8. When setting the degree of similarity of the structure information, the document structure is regarded as a tree, and is necessary for converting a tree representing the exemplified document into a tree representing the stored document. 8. The number of times an editing operation including insertion of a new node, deletion of a node, and change of a node name is performed, and an editing distance calculated from a cost required for performing the editing operation is set as the similarity of the document. Similar search method for the described composite media document.
【請求項9】 複合メディア文書の類似度を計算する際
に、 文書に含まれるテキスト情報、画像情報や音声情報、構
造情報の特徴情報に基づく類似度を計算し、 構造情報の特徴情報に基づく類似度計算結果に基づく第
1段階目の選択を行い、 前記文書に含まれるテキスト情報、画像情報や音声情報
の特徴情報に基づく類似度を、複合メディア文書全体と
しての類似度とする請求項3記載の複合メディア文書の
類似検索方法。
9. When calculating the similarity of a composite media document, the similarity based on feature information of text information, image information, audio information, and structure information included in the document is calculated, and the similarity is calculated based on the feature information of the structure information. 4. A first-stage selection based on a similarity calculation result, and a similarity based on feature information of text information, image information, and audio information included in the document is set as a similarity of the entire composite media document. Similar search method for the described composite media document.
【請求項10】 複合メディア文書の類似度を計算する
際に、 文書に含まれるテキスト情報、画像情報や音声情報、構
造情報の特徴情報に基づく類似度を計算し、 前記テキスト情報、前記画像情報や前記音声情報の特徴
情報に基づく類似度計算結果に基づく第1段階目の選択
を行い、 前記文書に含まれる構造情報の特徴情報に基づく類似度
を、複合メディア文書全体としての類似度とする請求項
3記載の複合メディア文書の類似検索方法。
10. When calculating a similarity of a composite media document, a similarity based on feature information of text information, image information, audio information, and structure information included in the document is calculated, and the text information and the image information are calculated. And a first stage selection based on the similarity calculation result based on the feature information of the audio information, and the similarity based on the feature information of the structural information included in the document is set as the similarity of the entire composite media document 4. The method according to claim 3, wherein the similarity search is performed.
【請求項11】 複合メディア文書の類似度を計算する
際に、 検索キーとして例示された文書中に同一メディアが複数
存在する場合に、該メディアの文書レベルでの類似度を
設定する請求項2及び3記載の複合メディア文書の類似
検索方法。
11. When calculating the similarity of a composite media document, if there is a plurality of the same media in a document exemplified as a search key, the similarity at the document level of the media is set. And 3. A similarity search method for a composite media document according to 3.
【請求項12】 前記メディアの文書レベルでの類似度
を設定する際に、 検索キーとして例示された文書中に複数存在する前記メ
ディアの各検索キーについて、 前記例示された文書中に含まれるテキスト情報、画像情
報、音声情報を含むメディア毎の全ての検索キーについ
て、蓄積された文書中の該メディアにおける該検索キー
に対する全ての類似度を計算し、 前記類似度が最も高いものを前記検索キーに対する代表
の類似度とし、 前記代表の類似度の平均値を計算し、 前記メディアの文書レベルでの類似度を設定する請求項
11記載の複合メディア文書の類似検索方法。
12. When setting the similarity at the document level of the medium, for each search key of the medium that is present in a plurality of documents exemplified as search keys, a text included in the exemplified document For all search keys for each medium including information, image information, and audio information, calculate all the similarities to the search key in the stored document in the medium, and determine the search key having the highest similarity as the search key. The similarity search method for a composite media document according to claim 11, wherein the similarity of the representative is calculated, and an average value of the similarity of the representative is calculated, and the similarity at a document level of the media is set.
【請求項13】 前記メディアの文書レベルでの類似度
を設定する際に、 検索キーとして例示された文書中に複数存在する前記メ
ディアの各検索キーについて、 前記例示された文書中に含まれるテキスト情報、画像情
報、音声情報を含むメディア毎の全ての検索キーについ
て、蓄積された文書中の該メディアにおける該検索キー
に対する全ての類似度を計算し、 前記類似度が最も高いものを前記検索キーに対する代表
の類似度とし、 前記代表の類似度のうち、最も類似度が高いものを前記
メディアの文書レベルでの類似度とする請求項11記載
の複合メディア文書の類似検索方法。
13. When setting the similarity at the document level of the medium, for each search key of the medium that is present in a plurality of documents exemplified as search keys, a text included in the exemplified document For all search keys for each medium including information, image information, and audio information, calculate all similarities for the search key in the stored document in the medium, and determine the search key having the highest similarity as the search key. 12. The similarity search method for a composite media document according to claim 11, wherein a similarity of the representative among the similarities of the representatives is defined as a similarity at a document level of the media.
【請求項14】 複合メディア文書の類似検索を行う際
に、 検索キーとして例示された文書の構造情報と蓄積された
文書の構造情報のそれぞれを順序ラベル付き木(ordere
d labeled tree) として表現し、 それぞれの文書中の各メディアの特徴情報を前記順序ラ
ベル付き木におけるノードの属性として格納した属性付
き順序ラベル付き木として表現し、 前記例示された文書を表現した属性付き順序ラベル付き
木と前記蓄積された文書を表現した属性付き順序ラベル
付き木との属性と形状を比較することで、複合メディア
文書の類似度を設定する請求項7記載の複合メディア文
書の類似検索方法。
14. When performing a similarity search of a composite media document, each of the structure information of the document exemplified as a search key and the structure information of the stored document is stored in an order-labeled tree (ordered tree).
d labeled tree), and expresses the attribute information of each media in each document as an attribute-ordered tree with attributes stored as attributes of nodes in the order-labeled tree, and expresses the exemplified document. 8. The similarity of a composite media document according to claim 7, wherein the similarity of the composite media document is set by comparing the attribute and the shape of the labeled ordered labeled tree and the attributed labeled tree representing the stored document. retrieval method.
【請求項15】 複合メディア文書の類似検索を行う際
に、 前記例示された文書を表現した属性付き順序ラベル付き
木の各ノードの属性である特徴情報と類似した特徴情報
を属性として持つノードを持つ蓄積された文書を表現し
た属性付き順序ラベル付き木について、 前記ノードの構造的な位置関係の差異から複合メディア
文書の類似度を設定する請求項14記載の複合メディア
文書の類似検索方法。
15. When performing a similarity search of a composite media document, a node having feature information similar to feature information as an attribute of each node of an attribute-labeled ordered tree expressing the document as an attribute is obtained. 15. The similarity search method for a composite media document according to claim 14, wherein the similarity of the composite media document is set based on a difference in the structural positional relationship between the nodes for the tree with the attributed ordered label expressing the stored document.
【請求項16】 前記構造情報の類似度を設定する際
に、 文書構造を順序ラベル付き木と見做し、該順序ラベル付
き木に関する特徴情報に基づいて、多次元ベクトル空間
上に該特徴情報を数値化してマッピングし、 前記ベクトル空間上での距離を文書の類似度として設定
する請求項7記載の複合メディア文書の類似検索方法。
16. When setting the similarity of the structure information, the document structure is regarded as an ordered label tree, and the feature information is stored in a multidimensional vector space based on the feature information on the ordered labeled tree. The method according to claim 7, wherein the distance in the vector space is set as the similarity of the document.
【請求項17】 前記順序付きラベル木に関する特徴情
報として、 前記順序ラベル付き木の各ノードの名前やノード数や各
ノードの位置情報を数値化して利用することで文書の類
似度を計算する請求項16記載の複合メディア文書の類
似検索方法。
17. A method for calculating a document similarity by numerically using the name of each node, the number of nodes, and the position information of each node as feature information on the ordered label tree, as feature information on the ordered label tree. Item 16. A similarity search method for a composite media document according to Item 16.
【請求項18】 前記特徴情報として、 テキスト情報であれば、テキストの記述内容が表す概念
や各単語の出現頻度、画像情報であれば、画像の色相や
彩度や輝度、色配置、音声情報であれば、音の強弱やメ
ロディ、構造情報であれば、文書構造を順序ラベル付き
木で表現した場合の木の形状やノードのラベル名、リン
ク情報等を、前記複合メディア文書の構成要素から抽出
される特徴情報とする請求項1記載の複合メディア文書
の類似検索方法。
18. The feature information includes, for text information, the concept represented by the description content of the text and the appearance frequency of each word, and for image information, the hue, saturation, luminance, color arrangement, and voice information of the image. If it is, the strength and melody of the sound, if it is structural information, the tree shape, the label name of the node, the link information, etc. in the case where the document structure is represented by a tree with order labels, from the components of the composite media document 2. The method according to claim 1, wherein the feature information is extracted.
【請求項19】 前記類似度を判定する際に、 前記例示された文書に対する蓄積された文書の類似度
を、 前記検索キーとして例示された前記文書を構成している
テキスト、画像、音声を含むメディアの情報及び構造情
報と、蓄積されている前記文書を構成しているテキス
ト、画像、音声を含むメディアの情報及び構造情報との
構成要素毎の類似性判定結果に基づく評価値を、複合メ
ディア文書全体類似度として設定し、 前記蓄積された文書の類似度を降順に並べることで順位
付けし、類似度を判定する請求項1記載の複合メディア
文書の類似検索方法。
19. When determining the similarity, the similarity of a stored document with respect to the exemplified document includes a text, an image, and a sound constituting the exemplified document as the search key. An evaluation value based on a similarity determination result for each component of the information and structure information of the medium and the information and structure information of the medium including text, images, and voices that constitute the stored document, 2. The similarity search method for a composite media document according to claim 1, wherein the similarity of the stored documents is set as the overall document similarity, and the similarities of the stored documents are ranked in descending order to determine the similarity.
【請求項20】 前記類似度を設定する際に、 前記複合メディア文書の各構成要素毎に、類似度を設定
し、 前記文書に含まれるテキスト情報、画像情報や音声情
報、及び構造情報の特徴情報毎に、類似度を計算し、 前記類似度に重みの値を掛け、線形和をとったものを、
前記複合メディア文書全体としての類似度とする請求項
3記載の複合メディア文書の類似検索方法。
20. When setting the similarity, a similarity is set for each component of the composite media document, and characteristics of text information, image information, audio information, and structure information included in the document are set. For each piece of information, calculate the similarity, multiply the similarity by the value of the weight, and take the linear sum,
4. The similarity search method for a composite media document according to claim 3, wherein the similarity is set as the overall degree of the composite media document.
【請求項21】 前記複合メディア文書全体の類似度を
設定する際に、 前記文書の構成要素毎の類似性判定結果に基づく評価値
として、各構成要素の類似度そのもの、または、各構成
要素の類似度に利用者から与えられた重みを掛け合わせ
たものを利用する請求項3記載の複合メディア文書の類
似検索方法。
21. When setting the similarity of the entire composite media document, the similarity itself of each component or the similarity of each component is used as an evaluation value based on the similarity determination result for each component of the document. 4. The method according to claim 3, wherein the similarity is multiplied by a weight given by a user.
【請求項22】 テキスト情報、画像情報、人間の声の
データである音声データに加え、CDやレコードを含む
楽曲データや音楽データを含む音声情報から構成される
構造化文書である複合メディア文書の類似検索装置であ
って、 複合メディア文書を入力する複合メディア文書入力手段
と、 前記複合メディア文書入力手段により与えられた前記複
合メディア文書及び、入力された検索条件を構文解析す
る文書解析手段と、 前記文書解析手段で解析された結果得られる文書の構成
要素から特徴情報を抽出する特徴情報抽出手段と、 前記複合メディア文書及び前記特徴情報抽出手段で抽出
された前記特徴情報を蓄積する蓄積手段と、 複合メディア文書を検索条件として入力する検索条件入
力手段と、 前記蓄積手段に蓄積されている前記複合メディア文書の
特徴情報と、入力された前記検索条件を前記文書解析手
段で解析した結果に基づいて前記特徴情報抽出手段で抽
出された特徴情報に基づいて2つの複合メディア文書の
類似度を判定する文書比較手段と、 前記文書比較手段で判定された類似度に基づいて、類似
した複合メディア文書を出力する出力手段とを有するこ
とを特徴とする複合メディア文書の類似検索装置。
22. A composite media document that is a structured document composed of text information, image information, audio data as human voice data, music information including CDs and records, and audio information including music data. A similar search device, a composite media document input unit for inputting a composite media document, a document analysis unit for parsing the composite media document provided by the composite media document input unit and the input search condition, A feature information extraction unit that extracts feature information from a component of a document obtained as a result of analysis by the document analysis unit; a storage unit that stores the composite media document and the feature information extracted by the feature information extraction unit; Search condition input means for inputting a composite media document as a search condition; and the composite media stored in the storage means. The similarity between two composite media documents is determined based on the characteristic information of the media document and the characteristic information extracted by the characteristic information extracting means based on the result of analyzing the input search condition by the document analyzing means. A composite media document similarity search device, comprising: a document comparison unit that performs similarity; and an output unit that outputs a similar composite media document based on the similarity determined by the document comparison unit.
【請求項23】 前記検索条件入力手段は、 利用者が例示した文書を検索キーとして入力する手段を
含み、 前記特徴情報抽出手段は、 与えられた前記複合メディア文書から検索キーとして例
示された複合メディア文書を抽出する入力文書特徴情報
抽出手段と、 前記利用者から例示された文書から前記検索情報の特徴
情報を抽出する検索特徴情報抽出手段を含み、 前記文書比較手段は、 前記入力文書特徴情報抽出手段で抽出された入力文書特
徴情報と、前記検索特徴情報抽出手段で抽出された検索
特徴情報により、前記複合メディア文書と前記検索キー
として例示された複合メディア文書間の類似度を計算す
る類似度計算手段を含む請求項22記載の複合メディア
文書の類似検索装置。
23. The search condition inputting means includes means for inputting a document exemplified by a user as a search key, and the feature information extracting means includes a compound information exemplified as a search key from the given composite media document. Input document feature information extracting means for extracting a media document; and search feature information extracting means for extracting feature information of the search information from a document exemplified by the user, wherein the document comparing means includes the input document feature information. A similarity calculating a similarity between the composite media document and the composite media document exemplified as the search key based on the input document feature information extracted by the extraction unit and the search feature information extracted by the search feature information extraction unit. 23. The composite media document similarity search device according to claim 22, further comprising a degree calculation unit.
【請求項24】 前記類似度計算手段は、 前記検索条件入力手段で前記検索キーとして前記例示さ
れた文書を構成しているテキスト情報、画像情報、音声
情報及び構造情報と、前記蓄積手段に蓄積されている前
記複合メディア文書を構成しているテキスト情報、画像
情報、音声情報及び構造情報との構成要素毎の類似性判
定結果に基づく評価値を、複合メディア文書全体の類似
度として設定する類似度設定手段を含む請求項21及び
22記載の複合メディア文書の類似検索装置。
24. The similarity calculating means, text information, image information, audio information, and structure information constituting the document exemplified as the search key by the search condition input means, and stored in the storage means. A similarity that sets an evaluation value based on a similarity determination result for each component with the text information, image information, audio information, and structural information constituting the composite media document as the overall similarity of the composite media document 23. The apparatus according to claim 21, further comprising a degree setting unit.
【請求項25】 前記類似度設定手段は、 前記構成要素毎の類似性判定結果として、 前記例示された文書のテキスト情報と前記蓄積手段に蓄
積されている前記文書のテキスト情報の類似性判定結果
と、該例示された文書の画像情報と、該蓄積手段に蓄積
されている文書の画像情報との類似性判定結果と、該例
示された文書の音声情報と該蓄積手段に蓄積されている
文書の音声情報との類似性判定結果と、該例示さた文書
の構造情報と該蓄積手段に蓄積されている文書の構造情
報との類似性判定結果を用いる請求項24記載の複合メ
ディア文書の類似検索装置。
25. The similarity determination unit, as the similarity determination result for each of the components, the similarity determination result between the text information of the exemplified document and the text information of the document stored in the storage unit. A similarity determination result between the image information of the exemplified document, the image information of the document stored in the storage unit, the voice information of the exemplified document, and the document stored in the storage unit. 25. The similarity of the composite media document according to claim 24, wherein the similarity determination result with the audio information of the document and the similarity determination result between the structure information of the exemplified document and the structure information of the document stored in the storage unit are used. Search device.
【請求項26】 前類似度設定手段は、 前記文書に含まれるテキスト情報、画像情報や音声情
報、及び構造情報の特徴情報毎に、類似度を計算し、該
類似度に重みの値を掛け、線形和をとったものを、前記
複合メディア文書全体としての類似度とする線形和算出
手段を含む請求項24記載の複合メディア文書の類似検
索装置。
26. A pre-similarity setting means calculates a similarity for each of text information, image information, audio information, and structural information included in the document, and multiplies the similarity by a weight value. 25. The composite media document similarity search device according to claim 24, further comprising a linear sum calculation unit that calculates a linear sum as a similarity of the composite media document as a whole.
【請求項27】 前記文書比較手段は、 同一文書中に同一メディアが複数存在する場合に、前記
例示された文書中に含まれるテキスト、画像、音声を含
むメディア毎の全ての検索キーについて、蓄積された文
書中のメディアにおける該検索キーに対する全ての類似
度を計算し、該類似度が最も高いものを前記検索キーに
対する代表の類似度とする代表類似度決定手段を含む請
求項22及び23記載の複合メディア文書の類似検索装
置。
27. The document comparison means according to claim 27, wherein, when a plurality of the same media exist in the same document, all of the search keys for each medium including text, image, and voice included in the exemplified document are stored. 24. A representative similarity determining unit that calculates all similarities of the media in the generated document with respect to the search key, and sets the highest similarity as the representative similarity to the search key. Similarity search device for composite media documents.
【請求項28】 前記類似度計算手段は、 前記検索キーとして、前記例示された文書の構造情報と
蓄積された文書の構造情報のそれぞれを、順序ラベル付
木(ordered labeled tree)として表現し、 前記例示された文書を表現した前記順序ラベル付木と、
前記蓄積された文書を表現した順序ラベル付木との形状
を比較することで、文書の構造情報の類似度を設定する
順序ラベル付木形状比較手段を含む請求項23記載の複
合メディア文書の類似検索装置。
28. The similarity calculating means, as the search key, expresses each of the exemplified document structure information and the stored document structure information as an ordered labeled tree, Said ordered labeled tree representing said exemplified document;
24. The similarity of the composite media document according to claim 23, further comprising: an ordered-labeled tree shape comparing unit configured to set the similarity of the structural information of the document by comparing the shape with the ordered-labeled tree representing the stored document. Search device.
【請求項29】 前記順序ラベル付木形状比較手段は、 前記構造情報の類似度を判定する際に、前記文書構造を
木と見做し、前記例示された文書を表す木から蓄積され
た前記文書を表す木へ変換するために必要なノードの挿
入、ノードの削除、ノード名の変更を含む編集操作を行
った回数と、該編集操作を行うのに必要なコストから算
出する編集距離を前記文書の類似度として設定する編集
距離算出手段を含む請求項28記載の複合メディア文書
の類似検索装置。
29. The order-labeled tree shape comparing means, when judging the similarity of the structure information, regards the document structure as a tree, and stores the document structure as a tree. The number of edit operations including insertion of nodes, deletion of nodes, and change of node names necessary for conversion to a tree representing a document, and the edit distance calculated from the cost required for performing the edit operations are described above. 29. The composite media document similarity search device according to claim 28, further comprising an edit distance calculating unit that sets the document similarity.
【請求項30】 前記類似度計算手段は、 文書に含まれるテキスト情報、画像情報や音声情報、構
造情報の特徴情報に基づく類似度を計算する手段と、 構造情報の特徴情報に基づく類似度計算結果に基づく第
1段階目の選択を行う手段と、 前記文書に含まれるテキスト情報、画像情報や音声情報
の特徴情報に基づく類似度を、複合メディア文書全体と
しての類似度とする手段とを含む請求項24記載の複合
メディア文書の類似検索装置。
30. A means for calculating similarity based on feature information of text information, image information, audio information, and structure information included in a document, and a similarity calculation based on feature information of structure information. Means for performing a first-stage selection based on the result; and means for setting a similarity based on feature information of text information, image information, and audio information included in the document as a similarity of the entire composite media document 25. The apparatus for retrieving similarity of a composite media document according to claim 24.
【請求項31】 前記類似度計算手段は、 文書に含まれるテキスト情報、画像情報や音声情報、構
造情報の特徴情報に基づく類似度を計算する手段と、 前記テキスト情報、前記画像情報や前記音声情報の特徴
情報に基づく類似度計算結果に基づく第1段階目の選択
を行う手段と、 前記文書に含まれる構造情報の特徴情報に基づく類似度
を、複合メディア文書全体としての類似度とする手段と
を含む請求項24記載の複合メディア文書の類似検索装
置。
31. A means for calculating similarity based on feature information of text information, image information, audio information, and structural information included in a document, the text information, the image information, and the audio. Means for selecting a first stage based on a result of similarity calculation based on feature information of information; means for setting a similarity based on feature information of structural information included in the document as a similarity for the entire composite media document 25. The composite media document similarity search apparatus according to claim 24, comprising:
【請求項32】 前記類似度計算手段は、 検索キーとして例示された文書中に同一メディアが複数
存在する場合に、該メディアの文書レベルでの類似度を
設定する文書レベル類似度計算手段を含む請求項23及
び24記載の複合メディア文書の類似検索装置。
32. The similarity calculating means includes a document level similarity calculating means for setting a similarity at a document level of the medium when a plurality of same media exist in a document exemplified as a search key. 25. The composite media document similarity search device according to claim 23.
【請求項33】 前記文書レベル類似度計算手段は、 検索キーとして例示された文書中に複数存在する前記メ
ディアの各検索キーについて、前記例示された文書中に
含まれるテキスト情報、画像情報、音声情報を含むメデ
ィア毎の全ての検索キーについて、蓄積された文書中の
該メディアにおける該検索キーに対する全ての類似度を
計算する手段と、 前記類似度が最も高いものを前記検索キーに対する代表
の類似度とする手段と、 前記代表の類似度の平均値を計算する手段と、 前記メディアの文書レベルでの類似度を設定する文書レ
ベル類似度設定手段とを含む請求項32記載の複合メデ
ィア文書の類似検索装置。
33. The document-level similarity calculating means, for each search key of the medium, which is present in a plurality of documents exemplified as search keys, for text information, image information, and voice included in the exemplified document. Means for calculating, for all search keys for each medium including information, all similarities for the search key in the stored document in the medium; and determining the highest similarity for the representative similarity to the search key. 33. The composite media document according to claim 32, comprising: means for calculating the degree of similarity; means for calculating an average value of the similarity of the representative; and document level similarity setting means for setting similarity at the document level of the medium. Similarity search device.
【請求項34】 前記文書レベル類似度設定手段は、 検索キーとして例示された文書中に複数存在する前記メ
ディアの各検索キーについて、該例示された文書中に含
まれるテキスト情報、画像情報、音声情報を含むメディ
ア毎の全ての検索キーについて、蓄積された文書中の該
メディアにおける該検索キーに対する全ての類似度を計
算する手段と、 前記類似度が最も高いものを前記検索キーに対する代表
の類似度とする手段と、 前記代表の類似度のうち、最も類似度が高いものを前記
メディアの文書レベルでの類似度とする手段とを含む請
求項32記載の複合メディア文書の類似検索装置。
34. The document-level similarity setting means, for each search key of the medium, which is present in a plurality of documents exemplified as search keys, for text information, image information, and audio included in the exemplified documents. Means for calculating, for all search keys for each medium including information, all similarities for the search key in the stored document in the medium; and determining the highest similarity for the representative similarity to the search key. 33. The composite media document similarity search device according to claim 32, further comprising: means for setting the degree of similarity; and means for setting the highest similarity among the representative similarities to the similarity at the document level of the medium.
【請求項35】 前記類似度計算手段は、 検索キーとして例示された文書の構造情報と蓄積された
文書の構造情報のそれぞれを順序ラベル付き木(ordere
d labeled tree) として表現し、それぞれの文書中の各
メディアの特徴情報を前記順序ラベル付き木におけるノ
ードの属性として格納した属性付き順序ラベル付き木と
して表現し、前記例示された文書を表現した属性付き順
序ラベル付き木と前記蓄積された文書を表現した属性付
き順序ラベル付き木との属性と形状を比較することで、
複合文書の類似度を設定する類似検索手段を含む請求項
28記載の複合メディア文書の類似検索装置。
35. The similarity calculating means according to claim 16, wherein each of the structural information of the document exemplified as the search key and the structural information of the stored document is ordered tree (ordered tree).
d labeled tree), and expresses the feature information of each medium in each document as an attribute-ordered tree stored as an attribute of a node in the order-labeled tree, and expresses the exemplified document. By comparing the attribute and shape of the labeled ordered tree with the attributed ordered labeled tree and the attributed ordered labeled tree representing the stored document,
29. The similarity search apparatus for a composite media document according to claim 28, further comprising a similarity search means for setting a degree of similarity of the composite document.
【請求項36】 前記類似検索手段は、 例示された文書を表現した属性付き順序ラベル付き木の
各ノードの属性である特徴情報と類似した特徴情報を属
性として持つノードを持つ蓄積された文書を表現した属
性付き順序ラベル付き木について、該ノードの構造的な
位置関係の差異から複合メディア文書の類似度を設定す
る手段を含む請求項35記載の複合メディア文書の類似
検索装置。
36. The similarity retrieving means retrieves a stored document having a node having, as an attribute, feature information similar to feature information that is an attribute of each node of an attribute-labeled ordered tree representing an exemplified document. The similarity search apparatus for a composite media document according to claim 35, further comprising means for setting a similarity degree of the composite media document from the difference in the structural positional relationship of the node with respect to the expressed ordered label tree with attributes.
【請求項37】 前記順序ラベル付き木形状比較手段
は、 文書構造を順序ラベル付き木と見做し、該順序ラベル付
き木に関する特徴情報に基づいて、多次元ベクトル空間
上に該特徴情報を数値化してマッピングする手段と、 前記ベクトル空間上での距離を文書の類似度として設定
する手段とを含む請求項30記載の複合メディア文書の
類似検索装置。
37. The order-labeled tree shape comparing means regards the document structure as an order-labeled tree, and converts the feature information into a numerical value in a multidimensional vector space based on the feature information on the order-labeled tree. 31. The similarity search apparatus for a composite media document according to claim 30, further comprising: means for mapping and mapping; and means for setting the distance in the vector space as the degree of similarity of the document.
【請求項38】 前記順序付きラベル木に関する特徴情
報として、 前記順序ラベル付き木の各ノードの名前やノード数や各
ノードの位置情報を数値化して利用することで文書の類
似度を計算する請求項37記載の複合メディア文書の類
似検索装置。
38. A method for calculating the similarity of a document by numerically using the name of each node, the number of nodes, and the position information of each node as the characteristic information on the ordered label tree. Item 37. A similar media document retrieval apparatus according to Item 37.
【請求項39】 前記特徴情報として、 テキスト情報であれば、テキストの記述内容が表す概念
や各単語の出現頻度、画像情報であれば、画像の色相や
彩度や輝度、色配置、音声情報であれば、音の強弱やメ
ロディ、構造情報であれば、文書構造を順序ラベル付き
木で表現した場合の木の形状やノードのラベル名、リン
ク情報などを、前記複合メディア文書の構成要素から抽
出される特徴情報とする請求項22記載の複合メディア
文書の類似検索装置。
39. The feature information includes text information, the concept represented by the description content of the text, the appearance frequency of each word, and image information, the image hue, saturation, luminance, color arrangement, and audio information. Then, if it is sound strength, melody, or structural information, the tree structure, node label names, link information, etc., when the document structure is represented by an ordered labeled tree, are derived from the components of the composite media document. 23. The similar media document search apparatus according to claim 22, wherein the extracted feature information is extracted feature information.
【請求項40】 前記文書比較手段は、 前記例示された文書に対する蓄積された文書の類似度
を、 前記検索キーとして例示された前記文書を構成している
テキスト、画像、音声を含むメディアの情報及び構造情
報と、蓄積されている前記文書を構成しているテキス
ト、画像、音声を含むメディアの情報及び構造情報との
構成要素毎の類似性判定結果に基づく評価値を、複合メ
ディア文書全体類似度として設定する手段と、 前記蓄積された文書の類似度を降順に並べることで順位
付けし、類似度を判定する手段とを含む請求項22記載
の複合メディア文書の類似検索装置。
40. The document comparison means according to claim 26, wherein the similarity of the stored document to the exemplified document is determined based on information of media including texts, images, and sounds constituting the document exemplified as the search key. The evaluation value based on the similarity determination result for each component of the structural information and the stored information of the media including text, images, and sounds constituting the document and the structural information is compared with the entire composite media document. 23. The similarity search apparatus for a composite media document according to claim 22, comprising: means for setting the degree of similarity; and means for determining the degree of similarity by arranging the similarities of the stored documents in descending order and determining the degree of similarity.
【請求項41】 前記類似度設定手段は、 前記複合メディア文書の各構成要素毎に、類似度を設定
する手段と、 前記文書に含まれるテキスト情報、画像情報や音声情
報、及び構造情報の特徴情報毎に、類似度を計算する手
段と、 前記類似度に重みの値を掛け、線形和をとったものを、
前記複合メディア文書全体としての類似度とする手段と
を含む請求項24記載の複合メディア文書の類似検索装
置。
41. The similarity setting means: means for setting a similarity for each component of the composite media document; and features of text information, image information, audio information, and structure information included in the document. Means for calculating a similarity for each piece of information; and a value obtained by multiplying the similarity by a weight value and taking a linear sum,
25. The apparatus for retrieving similarity of a composite media document according to claim 24, further comprising: means for setting the degree of similarity as the entire composite media document.
【請求項42】 前記類似度設定手段は、 前記文書の構成要素毎の類似性判定結果に基づく評価値
として、各構成要素の類似度そのもの、または、各構成
要素の類似度に利用者から与えられた重みを掛け合わせ
たものを利用する手段を含む請求項24記載の複合メデ
ィア文書の類似検索装置。
42. The similarity degree setting means, as an evaluation value based on a similarity determination result for each element of the document, gives a similarity degree of each element itself or a similarity degree of each element from a user. 25. The similar media document retrieval apparatus according to claim 24, further comprising means for using the product obtained by multiplying the weights.
【請求項43】 テキスト情報、画像情報、人間の声の
データである音声データに加え、CDやレコードを含む
楽曲データや音楽データを含む音声情報から構成される
構造化文書である複合メディア文書の類似検索プログラ
ムを格納した記憶媒体であって、 与えられた前記複合メディア文書及び、入力された検索
条件を構文解析する文書解析プロセスと、 前記文書解析プロセスで解析された結果、得られる文書
の構成要素から特徴情報を抽出する特徴情報抽出プロセ
スと、 前記複合メディア文書及び前記特徴情報抽出プロセスで
抽出された前記特徴情報を記憶手段に格納する格納プロ
セスと、 複合メディア文書を検索条件として入力させる検索条件
入力プロセスと、 前記記憶手段に蓄積されている前記複合メディア文書の
特徴情報と、入力された前記検索条件を前記文書解析プ
ロセスで解析した結果に基づいて前記特徴情報抽出プロ
セスで抽出された特徴情報から2つの複合メディア文書
の類似度を判定する文書比較プロセスと、 前記文書比較プロセスで判定された類似度に基づいて、
類似した複合メディア文書を出力させる出力プロセスと
を有することを特徴とする複合メディア文書の類似検索
プログラムを格納した記憶媒体。
43. A composite media document which is a structured document composed of text information, image information, voice data as human voice data, and music information including CDs and records and voice information including music data. A storage medium storing a similar search program, wherein the given composite media document and a document analysis process for parsing the input search condition; and a configuration of a document obtained as a result of the analysis by the document analysis process A feature information extraction process for extracting feature information from an element, a storage process for storing the composite media document and the feature information extracted in the feature information extraction process in a storage unit, and a search for inputting the composite media document as a search condition A condition input process; characteristic information of the composite media document stored in the storage means; A document comparison process of determining a similarity between two composite media documents from feature information extracted in the feature information extraction process based on a result of analyzing the retrieved search conditions in the document analysis process; Based on the determined similarity,
An output process for outputting a similar composite media document. A storage medium storing a similar search program for a composite media document.
【請求項44】 前記検索条件入力プロセスは、 利用者が例示した文書を検索キーとして入力するプロセ
スを含み、 前記特徴情報抽出プロセスは、 与えられた前記複合メディア文書から特徴情報を抽出す
る入力文書特徴情報抽出プロセスと、 前記利用者から例示された文書から検索キーとして例示
された複合メディア文書の特徴情報を抽出する検索特徴
情報抽出プロセスを含み、 前記文書比較プロセスは、 前記入力文書特徴情報抽出プロセスで抽出された入力文
書特徴情報と、前記検索特徴情報抽出プロセスで抽出さ
れた検索特徴情報により、前記複合メディア文書と前記
検索キーとして例示された複合メディア文書間の類似度
を計算する類似度計算プロセスを含む請求項43記載の
複合メディア文書の類似検索プログラムを格納した記憶
媒体。
44. The search condition input process includes a process of inputting a document exemplified by a user as a search key, and the feature information extraction process extracts feature information from a given composite media document. A feature information extraction process for extracting feature information of a composite media document exemplified as a search key from a document exemplified by the user; a document comparison process including the input document feature information extraction A similarity calculating a similarity between the composite media document and the composite media document exemplified as the search key based on the input document characteristic information extracted in the process and the search characteristic information extracted in the search characteristic information extraction process. The storage storing the composite media document similarity search program according to claim 43 including a calculation process. Medium.
【請求項45】 前記類似度計算プロセスは、 前記検索条件入力プロセスで前記検索キーとして例示さ
れた文書を構成しているテキスト情報、画像情報、音声
情報及び構造情報と、前記記憶手段に蓄積されている前
記複合メディア文書を構成しているテキスト情報、画像
情報、音声情報及び構造情報との構成要素毎の類似性判
定結果に基づく評価値を、複合メディア文書全体の類似
度として設定する類似度設定プロセスを含む請求項43
及び44記載の複合メディア文書の類似検索プログラム
を格納した記憶媒体。
45. The similarity calculation process includes: text information, image information, audio information, and structure information constituting a document exemplified as the search key in the search condition input process; Setting an evaluation value based on a similarity determination result for each component with the text information, image information, audio information, and structural information constituting the composite media document as the similarity of the entire composite media document 44. The method of claim 43, including a setting process.
45. A storage medium storing the similarity search program for composite media documents according to 44.
【請求項46】 前記類似度設定プロセスは、 前記構成要素毎の類似性判定結果として、 前記例示された文書のテキスト情報と前記記憶手段に蓄
積されている前記文書のテキスト情報の類似性判定結果
と、該例示された文書の画像情報と、該記憶手段に蓄積
されている文書の画像情報との類似性判定結果と、該例
示された文書の音声情報と該記憶手段に蓄積されている
文書の音声情報との類似性判定結果と、該例示さた文書
の構造情報と該記憶手段に蓄積されている文書の構造情
報との類似性判定結果を用いる請求項45記載の複合メ
ディア文書の類似検索プログラムを格納した記憶媒体。
46. The similarity determination process, wherein the similarity determination result for each of the constituent elements includes: a similarity determination result between the text information of the exemplified document and the text information of the document stored in the storage unit. A similarity determination result between the image information of the exemplified document, the image information of the document stored in the storage unit, the voice information of the exemplified document, and the document stored in the storage unit. 47. The similarity of the composite media document according to claim 45, wherein the similarity determination result with the audio information of the above and the similarity determination result between the structure information of the exemplified document and the structure information of the document stored in the storage unit are used. A storage medium storing a search program.
【請求項47】 前類似度設定プロセスは、 前記文書に含まれるテキスト情報、画像情報や音声情
報、及び構造情報の特徴情報毎に、類似度を計算し、該
類似度に重みの値を掛け、線形和をとったものを、前記
複合メディア文書全体としての類似度とする線形和算出
プロセスを含む請求項45記載の複合メディア文書の類
似検索プログラムを格納した記憶媒体。
47. A pre-similarity setting process calculates a similarity for each of text information, image information, audio information, and feature information of structural information included in the document, and multiplies the similarity by a weight value. 46. The storage medium storing the similarity search program for a composite media document according to claim 45, further comprising a linear sum calculation process of taking a linear sum as a similarity as the entire composite media document.
【請求項48】 前記文書比較プロセスは、 同一文書中に同一メディアが複数存在する場合に、前記
例示された文書中に含まれるテキスト、画像、音声を含
むメディア毎の全ての検索キーについて、蓄積された文
書中のメディアにおける該検索キーに対する全ての類似
度を計算し、該類似度が最も高いものを前記検索キーに
対する代表の類似度とする代表類似度決定プロセスを含
む請求項43及び44記載の複合メディア文書の類似検
索プログラムを格納した記憶媒体。
48. The document comparison process according to claim 28, wherein, when a plurality of the same media exist in the same document, all the search keys for each media including text, image, and sound included in the exemplified document are stored. 45. A representative similarity determination process comprising calculating all similarities for the search key in the media in the generated document and setting the highest similarity as the representative similarity to the search key. Storage medium storing a similarity search program for composite media documents.
【請求項49】 前記類似度計算プロセスは、 前記検索キーとして、前記例示された文書の構造情報と
蓄積された文書の構造情報のそれぞれを、順序ラベル付
木(ordered labeled tree)として表現し、前記例示さ
れた文書を表現した前記順序ラベル付木と、前記蓄積さ
れた文書を表現した順序ラベル付木との形状を比較する
ことで、文書の構造情報の類似度を設定する順序ラベル
付木形状比較プロセスを含む請求項44記載の複合メデ
ィア文書の類似検索プログラムを格納した記憶媒体。
49. The similarity calculation process, wherein, as the search key, each of the exemplified document structure information and the stored document structure information is represented as an ordered labeled tree, An ordered label tree that sets the similarity of document structure information by comparing the shapes of the ordered labeled tree representing the exemplified document and the ordered labeled tree representing the stored document. 46. A storage medium storing a composite media document similarity search program according to claim 44 including a shape comparison process.
【請求項50】 前記順序ラベル付木形状比較プロセス
は、 前記構造情報の類似度を判定する際に、前記文書構造を
木と見做し、前記例示された文書を表す木から蓄積され
た前記文書を表す木へ変換するために必要なノードの挿
入、ノードの削除、ノード名の変更を含む編集操作を行
った回数と、該編集操作を行うのに必要なコストから算
出する編集距離を前記文書の類似度として設定する編集
距離算出プロセスを含む請求項49記載の複合メディア
文書の類似検索プログラムを格納した記憶媒体。
50. The order-labeled tree shape comparison process, when determining the similarity of the structure information, considers the document structure as a tree and stores the document structure as a tree representing the exemplified document. The number of edit operations including insertion of nodes, deletion of nodes, and change of node names necessary for conversion to a tree representing a document, and the edit distance calculated from the cost required for performing the edit operations are described above. 50. A storage medium storing a similarity search program for a composite media document according to claim 49, comprising an edit distance calculation process for setting the similarity of the document.
【請求項51】 前記類似度計算プロセスは、 文書に含まれるテキスト情報、画像情報や音声情報、構
造情報の特徴情報に基づく類似度を計算するプロセス
と、 構造情報の特徴情報に基づく類似度計算結果に基づく第
1段階目の選択を行うプロセスと、 前記文書に含まれるテキスト情報、画像情報や音声情報
の特徴情報に基づく類似度を、複合メディア文書全体と
しての類似度とするプロセスとを含む請求項44記載の
複合メディア文書の類似検索プログラムを格納した記憶
媒体。
51. The similarity calculation process includes a process of calculating a similarity based on text information, image information, audio information, and feature information of structure information included in a document; and a process of calculating a similarity based on feature information of structure information. A process of selecting a first stage based on the result, and a process of setting a similarity based on feature information of text information, image information, and audio information included in the document as a similarity of the entire composite media document. A storage medium storing the composite media document similarity search program according to claim 44.
【請求項52】 前記類似度計算プロセスは、 文書に含まれるテキスト情報、画像情報や音声情報、構
造情報の特徴情報に基づく類似度を計算するプロセス
と、 前記テキスト情報、前記画像情報や前記音声情報の特徴
情報に基づく類似度計算結果に基づく第1段階目の選択
を行うプロセスと、 前記文書に含まれる構造情報の特徴情報に基づく類似度
を、複合メディア文書全体としての類似度とするプロセ
スとを含む請求項43及び、44記載の複合メディア文
書の類似検索プログラムを格納した記憶媒体。
52. The similarity calculation process includes: a process of calculating a similarity based on text information, image information, audio information, and feature information of structure information included in a document; and a process of calculating the similarity based on the text information, the image information, and the audio. A process of selecting a first stage based on a result of similarity calculation based on feature information of information, and a process of setting a similarity based on feature information of structural information included in the document as a similarity of the entire composite media document A storage medium storing the composite media document similarity search program according to claim 43 or claim 44.
【請求項53】 前記類似度計算プロセスは、 検索キーとして例示された文書中に同一メディアが複数
存在する場合に、該メディアの文書レベルでの類似度を
設定する文書レベル類似度計算プロセスを含む請求項4
3及び44記載の複合メディア文書の類似検索プログラ
ムを格納した記憶媒体。
53. The similarity calculation process includes a document level similarity calculation process for setting a similarity at a document level of a medium when a plurality of same media exist in a document exemplified as a search key. Claim 4
45. A storage medium storing the similar media program search program according to 3 or 44.
【請求項54】 前記文書レベル類似度計算プロセス
は、 検索キーとして例示された文書中に複数存在する前記メ
ディアの各検索キーについて、前記例示された文書中に
含まれるテキスト情報、画像情報、音声情報を含むメデ
ィア毎の全ての検索キーについて、蓄積された文書中の
該メディアにおける該検索キーに対する全ての類似度を
計算するプロセスと、 前記類似度が最も高いものを前記検索キーに対する代表
の類似度とするプロセスと、 前記代表の類似度の平均値を計算するプロセスと、 前記メディアの文書レベルでの類似度を設定する文書レ
ベル類似度設定プロセスとを含む請求項53記載の複合
メディア文書の類似検索プログラムを格納した記憶媒
体。
54. The document-level similarity calculation process includes, for each search key of the medium that is present in a plurality of documents exemplified as a search key, text information, image information, and sound included in the exemplified document. A process of calculating all similarities for the search key in the stored document for the media for all search keys for each medium including information; and determining the highest similarity for the representative similarity to the search key. 54. The composite media document of claim 53, comprising: a process of calculating the degree of similarity; a process of calculating an average value of the similarity of the representative; and a document level similarity setting process of setting a similarity of the medium at a document level. A storage medium storing a similar search program.
【請求項55】 前記文書レベル類似度設定プロセス
は、 検索キーとして例示された文書中に複数存在する前記メ
ディアの各検索キーについて、該例示された文書中に含
まれるテキスト情報、画像情報、音声情報を含むメディ
ア毎の全ての検索キーについて、蓄積された文書中の該
メディアにおける該検索キーに対する全ての類似度を計
算するプロセスと、 前記類似度が最も高いものを前記検索キーに対する代表
の類似度とするプロセスと、 前記代表の類似度のうち、最も類似度が高いものを前記
メディアの文書レベルでの類似度とするプロセスとを含
む請求項54記載の複合メディア文書の類似検索プログ
ラムを格納した記憶媒体。
55. The document-level similarity setting process includes, for each search key of the medium, which is present in a plurality of documents exemplified as search keys, for text information, image information, and voice included in the exemplified documents. A process of calculating all similarities for the search key in the stored document for the media for all search keys for each medium including information; and determining the highest similarity for the representative similarity to the search key. 55. The similarity search program for a composite media document according to claim 54, further comprising: a process of setting the highest similarity among the representative similarities to a similarity at a document level of the media. Storage media.
【請求項56】 前記類似度計算プロセスは、 検索キーとして例示された文書の構造情報と蓄積された
文書の構造情報のそれぞれを順序ラベル付き木(ordere
d labeled tree) として表現し、それぞれの文書中の各
メディアの特徴情報を前記順序ラベル付き木におけるノ
ードの属性として格納した属性付き順序ラベル付き木と
して表現し、前記例示された文書を表現した属性付き順
序ラベル付き木と前記蓄積された文書を表現した属性付
き順序ラベル付き木との属性と形状を比較することで、
複合文書の類似度を設定する類似検索プロセスを含む請
求項49記載の複合メディア文書の類似検索プログラム
を格納した記憶媒体。
56. The similarity calculation process includes the steps of: adding each of structural information of a document exemplified as a search key and structural information of a stored document to an order-labeled tree (ordered tree);
d labeled tree), and expresses the feature information of each medium in each document as an attribute-ordered tree stored as an attribute of a node in the order-labeled tree, and expresses the exemplified document. By comparing the attribute and shape of the labeled ordered tree with the attributed ordered labeled tree and the attributed ordered labeled tree representing the stored document,
50. The storage medium storing a similarity search program for a composite media document according to claim 49, comprising a similarity search process for setting a similarity of the composite document.
【請求項57】 前記類似検索プロセスは、 例示された文書を表現した属性付き順序ラベル付き木の
各ノードの属性である特徴情報と類似した特徴情報を属
性として持つノードを持つ蓄積された文書を表現した属
性付き順序ラベル付き木について、該ノードの構造的な
位置関係の差異から複合メディア文書の類似度を設定す
るプロセスを含む請求項56記載の複合メディア文書の
類似検索プログラムを格納した記憶媒体。
57. The similarity search process includes the steps of: executing a stored document having a node having attribute information similar to characteristic information which is an attribute of each node of an attribute-labeled ordered tree representing an exemplified document; 57. A storage medium storing a similarity search program for a composite media document according to claim 56, comprising a process of setting the similarity of the composite media document from the difference in the structural positional relationship between the nodes with respect to the represented ordered label tree with attributes. .
【請求項58】 前記順序ラベル付き木形状比較プロセ
スは、 文書構造を順序ラベル付き木と見做し、該順序ラベル付
き木に関する特徴情報に基づいて、多次元ベクトル空間
上に該特徴情報を数値化してマッピングするプロセス
と、 前記ベクトル空間上での距離を文書の類似度として設定
するプロセスとを含む請求項49記載の複合メディア文
書の類似検索プログラムを格納した記憶媒体。
58. The order-labeled tree shape comparison process considers the document structure as an order-labeled tree, and converts the feature information into a numerical value in a multidimensional vector space based on the feature information on the order-labeled tree. 50. The storage medium according to claim 49, further comprising: a process of mapping and mapping; and a process of setting the distance in the vector space as a document similarity.
【請求項59】 前記順序付きラベル木に関する特徴情
報として、 前記順序ラベル付き木の各ノードの名前やノード数や各
ノードの位置情報を数値化して利用することで文書の類
似度を計算する請求項58記載の複合メディア文書の類
似検索プログラムを格納した記憶媒体。
59. A method for calculating the similarity of a document by numerically using the name of each node, the number of nodes, and the position information of each node as the characteristic information on the ordered label tree. 59. A storage medium storing the composite media document similarity search program according to item 58.
【請求項60】 前記特徴情報として、 テキスト情報であれば、テキストの記述内容が表す概念
や各単語の出現頻度、画像情報であれば、画像の色相や
彩度や輝度、色配置、音声情報であれば、音の強弱やメ
ロディ、構造情報であれば、文書構造を順序ラベル付き
木で表現した場合の木の形状やノードのラベル名、リン
ク情報などを、前記複合メディア文書の構成要素から抽
出される特徴情報とする請求項43記載の複合メディア
文書の類似検索プログラムを格納した記憶媒体。
60. The feature information, if it is text information, the concept represented by the description content of the text and the appearance frequency of each word, and if it is image information, the hue, saturation, luminance, color arrangement, and voice information of the image Then, if it is sound strength, melody, or structural information, the tree structure, node label names, link information, etc., when the document structure is represented by an ordered labeled tree, are derived from the components of the composite media document. 44. A storage medium storing a similar search program for a composite media document according to claim 43, wherein said program is a feature information to be extracted.
【請求項61】 前記文書比較プロセスは、 前記例示された文書に対する蓄積された文書の類似度
を、 前記検索キーとして例示された前記文書を構成している
テキスト、画像、音声を含むメディアの情報及び構造情
報と、蓄積されている前記文書を構成しているテキス
ト、画像、音声を含むメディアの情報及び構造情報との
構成要素毎の類似性判定結果に基づく評価値を、複合メ
ディア文書全体類似度として設定するプロセスと、 前記蓄積された文書の類似度を降順に並べることで順位
付けし、類似度を判定するプロセスとを含む請求項43
記載の複合メディア文書の類似検索プログラムを格納し
た記憶媒体。
61. The document comparison process, wherein the similarity of a stored document to the exemplified document is determined by using information on media including text, images, and audio constituting the exemplified document as the search key. The evaluation value based on the similarity determination result for each component of the structural information and the stored information of the media including text, images, and sounds constituting the document and the structural information is compared with the entire composite media document. 44. A process for setting the degree of similarity as a degree, and a step of determining a degree of similarity by arranging similarities of the stored documents in descending order.
A storage medium storing a similar search program for the described composite media document.
【請求項62】 前記類似度設定プロセスは、 前記複合メディア文書の各構成要素毎に、類似度を設定
するプロセスと、 前記文書に含まれるテキスト情報、画像情報や音声情
報、及び構造情報の特徴情報毎に、類似度を計算するプ
ロセスと、 前記類似度に重みの値を掛け、線形和をとったものを、
前記複合メディア文書全体としての類似度とするプロセ
スとを含む請求項44記載の複合メディア文書の類似検
索プログラムを格納した記憶媒体。
62. The similarity setting process includes: a process of setting a similarity for each component of the composite media document; and features of text information, image information, audio information, and structure information included in the document. For each piece of information, a process of calculating the similarity, and multiplying the similarity by a weight value and taking a linear sum,
45. A storage medium storing a composite media document similarity search program according to claim 44, further comprising: a process of setting the similarity as the entire composite media document.
【請求項63】 前記類似度設定プロセスは、 前記文書の構成要素毎の類似性判定結果に基づく評価値
として、各構成要素の類似度そのもの、または、各構成
要素の類似度に利用者から与えられた重みを掛け合わせ
たものを利用するプロセスを含む請求項44記載の複合
メディア文書の類似検索プログラムを格納した記憶媒
体。
63. The similarity setting process, wherein a user gives the similarity of each component or the similarity of each component as an evaluation value based on the similarity determination result for each component of the document. 45. The storage medium storing the composite media document similarity search program according to claim 44, further comprising a process of utilizing the product obtained by multiplying the weights by the obtained weight.
JP11055950A 1998-09-11 1999-03-03 Method and device for similar retrieval of composite media document and storage medium stored with similar retrieval program for composite media document Pending JP2000148793A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11055950A JP2000148793A (en) 1998-09-11 1999-03-03 Method and device for similar retrieval of composite media document and storage medium stored with similar retrieval program for composite media document

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP25876398 1998-09-11
JP10-258763 1998-09-11
JP11055950A JP2000148793A (en) 1998-09-11 1999-03-03 Method and device for similar retrieval of composite media document and storage medium stored with similar retrieval program for composite media document

Publications (1)

Publication Number Publication Date
JP2000148793A true JP2000148793A (en) 2000-05-30

Family

ID=26396840

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11055950A Pending JP2000148793A (en) 1998-09-11 1999-03-03 Method and device for similar retrieval of composite media document and storage medium stored with similar retrieval program for composite media document

Country Status (1)

Country Link
JP (1) JP2000148793A (en)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000058996A (en) * 2000-07-08 2000-10-05 강승일 The copyright analysis/registration system and method for using of the web
KR20000072192A (en) * 2000-08-16 2000-12-05 박성용 The method of the service and system of automatic statistical report of music brocating
WO2001097044A1 (en) * 2000-06-14 2001-12-20 Mitsubishi Denki Kabushiki Kaisha Content searching/distributing device and content searching/distributing method
KR20020001097A (en) * 2000-06-24 2002-01-09 정용활 Computer system for providing music piracy searching service via internet network communication and method of the same
JP2002007413A (en) * 2000-06-20 2002-01-11 Fujitsu Ltd Image retrieving device
JP2004348706A (en) * 2003-04-30 2004-12-09 Canon Inc Information processing device, information processing method, storage medium, and program
US7548916B2 (en) 2003-04-30 2009-06-16 Canon Kabushiki Kaisha Calculating image similarity using extracted data
US7630879B2 (en) 2002-09-13 2009-12-08 Fuji Xerox Co., Ltd. Text sentence comparing apparatus
US7664794B2 (en) 2000-02-14 2010-02-16 Nice Systems Ltd. Content-based storage management
KR100971139B1 (en) 2008-04-25 2010-07-20 주식회사 비즈모델라인 System and Method for Managing Document Copyright and Recording Medium
US7783976B2 (en) 2005-10-24 2010-08-24 Fujitsu Limited Method and apparatus for comparing documents, and computer product
JP2010186214A (en) * 2009-02-10 2010-08-26 Yahoo Japan Corp Retrieval device
JP2011175568A (en) * 2010-02-25 2011-09-08 Mitsubishi Electric Corp Inter-document distance calculator and text retriever
WO2011115024A1 (en) * 2010-03-15 2011-09-22 日本電気株式会社 Information processing device, information processing method, and information processing program
JP2012032886A (en) * 2010-07-28 2012-02-16 Fujitsu Ltd Search device, search program and search method
JP4979842B1 (en) * 2011-06-30 2012-07-18 パナソニック株式会社 Similar case retrieval apparatus and similar case retrieval method
CN101669119B (en) * 2007-04-27 2012-08-08 日本电气株式会社 Content processor, and content processing method
US9430716B2 (en) 2011-04-07 2016-08-30 Hitachi, Ltd. Image processing method and image processing system
JP2018206376A (en) * 2017-05-31 2018-12-27 株式会社半導体エネルギー研究所 Information retrieval system, intellectual property information retrieval system, information retrieval method and intellectual property information retrieval method
JP2019139525A (en) * 2018-02-09 2019-08-22 株式会社東芝 Information processing device, information processing method, and program
KR20220032253A (en) * 2020-09-07 2022-03-15 주식회사 한글과컴퓨터 Document file providing server supporting multi-language translation function and operating method thereof

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05233719A (en) * 1992-02-18 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> Between-composite information relevance identifying method
JPH10171826A (en) * 1996-12-11 1998-06-26 Nippon Telegr & Teleph Corp <Ntt> Method for retrieving similar objects and device therefor
JPH10198682A (en) * 1996-12-28 1998-07-31 Nec Corp Database retrieving device and database registering device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05233719A (en) * 1992-02-18 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> Between-composite information relevance identifying method
JPH10171826A (en) * 1996-12-11 1998-06-26 Nippon Telegr & Teleph Corp <Ntt> Method for retrieving similar objects and device therefor
JPH10198682A (en) * 1996-12-28 1998-07-31 Nec Corp Database retrieving device and database registering device

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7664794B2 (en) 2000-02-14 2010-02-16 Nice Systems Ltd. Content-based storage management
US8195616B2 (en) 2000-02-14 2012-06-05 Nice Systems Ltd. Content-based storage management
WO2001097044A1 (en) * 2000-06-14 2001-12-20 Mitsubishi Denki Kabushiki Kaisha Content searching/distributing device and content searching/distributing method
US7310628B2 (en) 2000-06-14 2007-12-18 Mitsubishi Denki Kabushiki Kaisha Content searching/distributing device and content searching/distributing method
JP2002007413A (en) * 2000-06-20 2002-01-11 Fujitsu Ltd Image retrieving device
KR20020001097A (en) * 2000-06-24 2002-01-09 정용활 Computer system for providing music piracy searching service via internet network communication and method of the same
KR20000058996A (en) * 2000-07-08 2000-10-05 강승일 The copyright analysis/registration system and method for using of the web
KR20000072192A (en) * 2000-08-16 2000-12-05 박성용 The method of the service and system of automatic statistical report of music brocating
US7630879B2 (en) 2002-09-13 2009-12-08 Fuji Xerox Co., Ltd. Text sentence comparing apparatus
JP2004348706A (en) * 2003-04-30 2004-12-09 Canon Inc Information processing device, information processing method, storage medium, and program
US7548916B2 (en) 2003-04-30 2009-06-16 Canon Kabushiki Kaisha Calculating image similarity using extracted data
US7593961B2 (en) 2003-04-30 2009-09-22 Canon Kabushiki Kaisha Information processing apparatus for retrieving image data similar to an entered image
US7783976B2 (en) 2005-10-24 2010-08-24 Fujitsu Limited Method and apparatus for comparing documents, and computer product
CN101669119B (en) * 2007-04-27 2012-08-08 日本电气株式会社 Content processor, and content processing method
KR100971139B1 (en) 2008-04-25 2010-07-20 주식회사 비즈모델라인 System and Method for Managing Document Copyright and Recording Medium
JP2010186214A (en) * 2009-02-10 2010-08-26 Yahoo Japan Corp Retrieval device
JP2011175568A (en) * 2010-02-25 2011-09-08 Mitsubishi Electric Corp Inter-document distance calculator and text retriever
WO2011115024A1 (en) * 2010-03-15 2011-09-22 日本電気株式会社 Information processing device, information processing method, and information processing program
US9015663B2 (en) 2010-03-15 2015-04-21 Nec Corporation Information processing device, information processing method, and information processing program
JP2012032886A (en) * 2010-07-28 2012-02-16 Fujitsu Ltd Search device, search program and search method
US9430716B2 (en) 2011-04-07 2016-08-30 Hitachi, Ltd. Image processing method and image processing system
US8953857B2 (en) 2011-06-30 2015-02-10 Panasonic Corporation Similar case searching apparatus and similar case searching method
JP4979842B1 (en) * 2011-06-30 2012-07-18 パナソニック株式会社 Similar case retrieval apparatus and similar case retrieval method
JP2018206376A (en) * 2017-05-31 2018-12-27 株式会社半導体エネルギー研究所 Information retrieval system, intellectual property information retrieval system, information retrieval method and intellectual property information retrieval method
JP2019139525A (en) * 2018-02-09 2019-08-22 株式会社東芝 Information processing device, information processing method, and program
KR20220032253A (en) * 2020-09-07 2022-03-15 주식회사 한글과컴퓨터 Document file providing server supporting multi-language translation function and operating method thereof
KR102375561B1 (en) 2020-09-07 2022-03-17 주식회사 한글과컴퓨터 Document file providing server supporting multi-language translation function and operating method thereof

Similar Documents

Publication Publication Date Title
JP2000148793A (en) Method and device for similar retrieval of composite media document and storage medium stored with similar retrieval program for composite media document
US9053183B2 (en) System and method for storing and retrieving non-text-based information
Cornelis et al. Access to ethnic music: Advances and perspectives in content-based music information retrieval
US8478781B2 (en) Information processing apparatus, information processing method and program
EP0525427A2 (en) Non-text object storage and retrieval
JP2005122295A (en) Relationship figure creation program, relationship figure creation method, and relationship figure generation device
JP3266586B2 (en) Data analysis system
Pérez-Sancho et al. Genre classification using chords and stochastic language models
EP2073193A1 (en) Method and device for generating a soundtrack
Strle et al. The EthnoMuse digital library: conceptual representation and annotation of ethnomusicological materials
JP2008102736A (en) Retrieval apparatus and retrieval method
Golub et al. Knowledge organisation for digital humanities: An introduction
JP4305836B2 (en) Content search display device and content search display method
JP2003330966A (en) Document analysis method, device, program, and recording medium storing document analysis program
EP4287090A1 (en) System and method for content-based music creator recommendation
JP2001067364A (en) Complex media retrievalmethod and medium recording program for complex media retrieval
EP4250134A1 (en) System and method for automated music pitching
JP4772233B2 (en) Document data analysis program, computer-based document data analysis method, and document data analysis system
Della Ventura Analytical techniques for the identification of a musical score: The musical dna
JP3444223B2 (en) Database registration device
JP2002334099A (en) Device, method and program for retrieving distributed multimedia information and recording medium
JP4752293B2 (en) Presentation device and method, program, and recording medium
Hakeem A framework for combining software patterns with semantic web for unstructured data analysis
JP2009251845A (en) Retrieval result evaluation device and retrieval result evaluation method
JPH113347A (en) Information extracting device, its method and medium recording information extracting program

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040109

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040210