JP2008084192A - Structured document retrieval device, structured document retrieval method and structured document retrieval program - Google Patents

Structured document retrieval device, structured document retrieval method and structured document retrieval program Download PDF

Info

Publication number
JP2008084192A
JP2008084192A JP2006265769A JP2006265769A JP2008084192A JP 2008084192 A JP2008084192 A JP 2008084192A JP 2006265769 A JP2006265769 A JP 2006265769A JP 2006265769 A JP2006265769 A JP 2006265769A JP 2008084192 A JP2008084192 A JP 2008084192A
Authority
JP
Japan
Prior art keywords
document
structured
structured document
search
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2006265769A
Other languages
Japanese (ja)
Inventor
Akiko Murai
昭子 村井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006265769A priority Critical patent/JP2008084192A/en
Publication of JP2008084192A publication Critical patent/JP2008084192A/en
Abandoned legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a structured document retrieval device adapted to appropriately acquire and output a retrieval result. <P>SOLUTION: The device comprises a receiving part 101 for receiving input of a retrieval keyword; a retrieval part 102 for retrieving a structured document containing the received retrieval keyword from a document management device; a calculation part 106 for calculating statistic information related to appearance of a structural element that is a unit of a logical structure contained in the retrieved structured document; a generation part 113 for generating a feature vector based on the calculated statistic information; a structure extraction part 107 for selecting a structural element characterizing the structured document based on the feature vector, and extracting a similar partial structure that is a similar constituting element between retrieved structured documents from the selected structural element; a document extraction part 108 for extracting a partial document within the structured document corresponding to the extracted similar partial structure; and an output part 111 for outputting the extracted partial document for each structural element. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

この発明は、異なる階層構造を有する複数の構造化文書から検索キーワードに適合する構造化文書を検索する構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラムに関するものである。   The present invention relates to a structured document search apparatus, a structured document search method, and a structured document search program for searching a structured document that matches a search keyword from a plurality of structured documents having different hierarchical structures.

近年、コンピュータでの文書データの管理や処理を容易にするために、構造化文書が広く用いられている。例えば、文書の題名を「タイトル」というタグで囲み、さらに文書全体を「ドキュメント」というタグで囲むといったように、階層的に構造化した構造化文書を定義することができる。   In recent years, structured documents have been widely used to facilitate the management and processing of document data on computers. For example, a hierarchically structured structured document can be defined such that the title of the document is surrounded by a tag “title” and the entire document is surrounded by a tag “document”.

このような構造化文書を記述するための規約として、例えば、SGML(Standard Generalized Mark-up Language)やXML(eXtensible Markup Language)などの構造化文書規約の標準化が進められ、広く用いられている。   As conventions for describing such structured documents, standardization of structured document conventions such as SGML (Standard Generalized Mark-up Language) and XML (eXtensible Markup Language) has been promoted and widely used.

構造化文書の検索では、キーワードと共に構造を検索範囲として指定する検索が可能である。例えば、検索キーワード「XML」が「見出し」というタグに含まれる文書を検索するという検索条件を指定することができる。このため、「見出し」というタグ以外の文字列のみに検索キーワード「XML」が含まれている構造化文書を検索対象から除くことができる。   In the retrieval of structured documents, it is possible to perform a retrieval specifying a structure as a retrieval range together with a keyword. For example, it is possible to specify a search condition for searching for documents in which the search keyword “XML” is included in the tag “headline”. Therefore, a structured document in which the search keyword “XML” is included only in the character string other than the tag “headline” can be excluded from the search target.

すなわち、従来のプレインテキスト文書のキーワード検索ではキーワードを含むすべての文書を検出するが、構造化文書のキーワード検索では指定要素範囲にキーワードが含まれる文書のみを検出するため、より目的に近い検索が可能である。   In other words, in the conventional plain text document keyword search, all documents including keywords are detected, but in the structured document keyword search, only documents whose keywords are included in the specified element range are detected. Is possible.

一方、文書の検索結果を構造化文書として出力する技術も提案されている。例えば、特許文献1では、指定した検索キーワードが含まれている構造化文書内の要素を検出し、検出した要素のみを検索結果として列挙する技術が提案されている。特許文献1の方法によれば、検索結果にはキーワードを含む要素のみが出力され、キーワードを含まない要素は省略することが可能となる。また、特許文献1の方法では、検索結果である1つの構造化文書内で関連する要素を抽出し、抽出した要素を1つの要素として整形して出力することができる。   On the other hand, a technique for outputting a document search result as a structured document has also been proposed. For example, Patent Document 1 proposes a technique for detecting elements in a structured document including a designated search keyword and enumerating only the detected elements as search results. According to the method of Patent Document 1, only elements including a keyword are output as search results, and elements that do not include a keyword can be omitted. Further, according to the method of Patent Document 1, it is possible to extract related elements in one structured document as a search result, and to format and output the extracted elements as one element.

特開2005−267344号公報JP 2005-267344 A

しかしながら、特許文献1の方法では、文書単位で文書の整形をしているため、複数の文書について出力された検索結果を確認するときに比較することが容易でない場合があるという問題があった。これは、検索結果である複数の文書間の要素の関連性を考慮していないことに起因する問題である。   However, in the method of Patent Document 1, since the documents are shaped in units of documents, there is a problem that it may not be easy to compare when confirming search results output for a plurality of documents. This is a problem caused by not considering the relevance of elements between a plurality of documents as search results.

なお、複数の文書間の要素の関連性を考慮する場合は、XMLのように任意のタグ名や構造を取りうる構造化文書が存在することに注意する必要がある。例えば、XMLでは、同一の要素を含むが要素間の階層関係が異なる文書や、同じ意味内容の要素を表すが要素名が異なる文書などが存在しうる。このような場合であっても、各構造化文書間で関連性のある要素を検索し、比較可能に整形して出力することが望ましい。   When considering the relevance of elements between a plurality of documents, it is necessary to pay attention to the fact that there is a structured document that can take any tag name or structure, such as XML. For example, in XML, there may be documents that include the same elements but differ in the hierarchical relationship between elements, and documents that represent elements having the same semantic content but different element names. Even in such a case, it is desirable to retrieve elements that are related between the structured documents, and to format and output them so that they can be compared.

本発明は、上記に鑑みてなされたものであって、XMLのように構造が不定の構造化文書に対しても適切に検索結果を取得して出力することができる構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラムを提供することを目的とする。   The present invention has been made in view of the above, and is a structured document search apparatus and structure capable of appropriately acquiring and outputting a search result even for a structured document having an indefinite structure such as XML. An object of the present invention is to provide a structured document retrieval method and a structured document retrieval program.

上述した課題を解決し、目的を達成するために、本発明は、階層化された論理構造を有する構造化文書を格納する文書管理装置とネットワークを介して接続された構造化文書検索装置であって、検索キーワードの入力を受付ける受付手段と、受付けた前記検索キーワードを含む複数の前記構造化文書を前記文書管理装置から検索する検索手段と、検索された複数の前記構造化文書に含まれる前記論理構造の単位である構造要素の出現に関する統計情報を算出する算出手段と、算出された前記統計情報に基づいて、検索された複数の前記構造化文書の特徴ベクトルを生成する生成手段と、生成された前記特徴ベクトルに基づいて、検索された複数の前記構造化文書を特徴づける前記構造要素を選択し、選択した前記構造要素から、検索された前記構造化文書間で類似する前記構造要素である類似部分構造を抽出する構造抽出手段と、抽出した前記類似部分構造に対応する前記構造化文書内の部分文書を抽出する文書抽出手段と、抽出した前記部分文書を前記構造要素ごとに出力する出力手段と、を備えたことを特徴とする。   In order to solve the above-described problems and achieve the object, the present invention is a structured document retrieval apparatus connected to a document management apparatus that stores a structured document having a hierarchical logical structure via a network. Receiving means for receiving input of a search keyword; search means for searching a plurality of the structured documents including the received search keyword from the document management apparatus; and the plurality of structured documents included in the searched plurality of structured documents. A calculation unit that calculates statistical information regarding the appearance of a structural element that is a unit of a logical structure; a generation unit that generates feature vectors of the plurality of structured documents searched based on the calculated statistical information; The structural elements that characterize the plurality of the structured documents that have been retrieved are selected based on the feature vectors that have been retrieved. Structure extraction means for extracting similar partial structures that are similar structural elements between structured documents, document extraction means for extracting partial documents in the structured document corresponding to the extracted similar partial structures, and extraction Output means for outputting the partial document for each structural element.

また、本発明は、上記装置を実行することができる構造化文書検索方法および構造化文書検索プログラムである。   The present invention also provides a structured document search method and a structured document search program capable of executing the above apparatus.

本発明によれば、統計情報に基づいて複数の文書間で類似する構造要素を抽出し、抽出した構造要素に対応する部分文書を検索して出力することができる。このため、XMLのように構造が不定の構造化文書に対しても適切に検索結果を取得して出力することができるという効果を奏する。   According to the present invention, it is possible to extract a similar structural element between a plurality of documents based on statistical information, and to search and output a partial document corresponding to the extracted structural element. For this reason, there is an effect that a search result can be appropriately acquired and output even for a structured document having an indefinite structure such as XML.

以下に添付図面を参照して、この発明にかかる構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラムの最良な実施の形態を詳細に説明する。   Exemplary embodiments of a structured document search device, a structured document search method, and a structured document search program according to the present invention will be explained below in detail with reference to the accompanying drawings.

(第1の実施の形態)
第1の実施の形態にかかる構造化文書検索装置は、検索された構造化文書の構造要素の統計情報を算出し、算出した統計情報に基づいて複数の構造化文書間で類似する構造要素を抽出し、抽出した構造要素に対応する部分文書を取得して一覧形式で出力するものである。
(First embodiment)
The structured document search apparatus according to the first embodiment calculates statistical information of the structural elements of the searched structured document, and obtains similar structural elements between a plurality of structured documents based on the calculated statistical information. Extracting, acquiring partial documents corresponding to the extracted structural elements, and outputting them in a list format.

図1は、第1の実施の形態にかかる構造化文書検索装置100の構成を示すブロック図である。なお、構造化文書検索装置100は、ネットワーク300を介して構造化文書を管理する文書管理装置200と接続されている。   FIG. 1 is a block diagram showing a configuration of a structured document search apparatus 100 according to the first embodiment. The structured document search apparatus 100 is connected to a document management apparatus 200 that manages structured documents via a network 300.

ネットワーク300は、文書管理装置200と構造化文書検索装置100とを接続するもので、例えば、インターネット、有線LAN(Local Area Network)、無線LANなどのあらゆるネットワーク構成を適用することができる。   The network 300 connects the document management apparatus 200 and the structured document search apparatus 100. For example, any network configuration such as the Internet, a wired LAN (Local Area Network), and a wireless LAN can be applied.

文書管理装置200は、検索対象となる構造化文書を格納する構造化文書記憶部221を備えている。なお、文書管理装置200は、1つに限られるものではなく、複数の文書管理装置200に格納された構造化文書を対象として検索を実行できる。   The document management apparatus 200 includes a structured document storage unit 221 that stores a structured document to be searched. Note that the document management apparatus 200 is not limited to one, and can search for structured documents stored in a plurality of document management apparatuses 200.

構造化文書記憶部221は、複数の構造化文書を記憶している。構造化文書記憶部221は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。   The structured document storage unit 221 stores a plurality of structured documents. The structured document storage unit 221 can be configured by any commonly used storage medium such as an HDD (Hard Disk Drive), an optical disk, a memory card, and a RAM (Random Access Memory).

ここで、構造化文書について説明する。図2は、構造化文書の一例を示す説明図である。同図は、XMLを構造化文書規約として記述された構造化文書の例を示している。なお、構造化文書は、XMLを構造化文書規約とするものに限定されるものではなく、例えば、SGMLやHTMLなどの他の構造化文書であってもよい。   Here, the structured document will be described. FIG. 2 is an explanatory diagram illustrating an example of a structured document. This figure shows an example of a structured document in which XML is described as a structured document convention. Note that the structured document is not limited to a document that uses XML as a structured document convention, and may be another structured document such as SGML or HTML.

同図に示すように、XMLでは、文書の実情報を表す文字列に対して「タグ」が付加されている。同図に示す例では、「<新譜>」、「</新譜>」、「<アーティスト>」および「<タイトル>」などがタグを表す。このタグにより、文書データを階層化した論理構造で表すことができる。XMLでは、タグは、タグの内容を表す名称を記号「<」と記号「>」とで囲むことによって表現される。   As shown in the figure, in XML, a “tag” is added to a character string representing actual document information. In the example shown in the figure, “<new score>”, “</ new score>”, “<artist>”, “<title>”, and the like represent tags. With this tag, the document data can be expressed in a hierarchical logical structure. In XML, a tag is expressed by surrounding a name representing the contents of the tag with a symbol “<” and a symbol “>”.

なお、記号「<」と記号「>」とで囲まれるタグを開始タグといい、記号「</」と記号「>」とで囲まれるタグは終了タグという。また、文字列を開始タグと終了タグで囲んだ単位を、論理構造を構成する1単位である構造要素(以下、単に要素という。)という。またタグの内容を表す名称を要素名と呼ぶ。要素をさらにタグで囲むことにより、文書を階層的に構造化することができる。また文字列を挟む最も内側の開始タグと終了タグに対応する要素をテキスト要素と称する。   A tag surrounded by the symbols “<” and “>” is called a start tag, and a tag surrounded by the symbols “</” and the symbol “>” is called an end tag. A unit in which a character string is enclosed by a start tag and an end tag is referred to as a structural element (hereinafter simply referred to as an element) that is one unit constituting a logical structure. A name representing the contents of the tag is called an element name. By further enclosing elements with tags, the document can be structured hierarchically. An element corresponding to the innermost start tag and end tag sandwiching the character string is referred to as a text element.

同図に示す例では、「<アーティスト>」と「</アーティスト>」とで、「Limited Time」という文字列が囲まれている。これにより、この文字列に対して「アーティスト」という要素名が付与されている。さらにアーティスト要素は、「<新譜>」と「</新譜>」タグによって囲まれており、新譜要素内に含まれる要素として構造化されている。また、アーティスト要素は文字列「Limited Time」の最も内側のタグであるため、アーティスト要素はテキスト要素である。   In the example shown in the figure, a character string “Limited Time” is surrounded by “<Artist>” and “</ Artist>”. Thereby, the element name “artist” is given to this character string. Further, the artist element is surrounded by “<new score>” and “</ new score>” tags, and is structured as an element included in the new score element. Further, since the artist element is the innermost tag of the character string “Limited Time”, the artist element is a text element.

図3は、図2と構造が異なる別の構造化文書の一例を示す説明図である。構造化文書記憶部221には、図2および図3に示すような構造化文書の他、要素名、構造、構造の深さ、または要素の数が異なる構造化文書を同時に記憶することができる。なお、構造化文書記憶部221は、検索部102で検索可能な形式であればあらゆる保存形式で構造化文書を記憶できる。   FIG. 3 is an explanatory diagram showing an example of another structured document having a structure different from that in FIG. The structured document storage unit 221 can simultaneously store structured documents having different element names, structures, structure depths, or numbers of elements in addition to structured documents as shown in FIGS. . The structured document storage unit 221 can store structured documents in any storage format as long as the search unit 102 can search.

以下に、本実施の形態における構造化文書の保存形式の概要について説明する。図4および図5は、それぞれ図2および図3に示した構造化文書の論理構造を示した説明図である。   The outline of the structured document storage format in the present embodiment will be described below. 4 and 5 are explanatory diagrams showing the logical structure of the structured document shown in FIGS. 2 and 3, respectively.

図4および図5に示すように、各要素は木構造の階層構造として表現されている。各要素は円形で示され、テキスト要素に含まれる文字列(テキストデータ)は四角形で示されている。また、円形の中の文字列は要素名を表している。   As shown in FIGS. 4 and 5, each element is expressed as a tree-structured hierarchical structure. Each element is indicated by a circle, and a character string (text data) included in the text element is indicated by a rectangle. A character string in a circle represents an element name.

例えば図4の「アーティスト」は要素であるため円形で表現されており、要素名(アーティスト)が表示されている。また、「Limited Time」は、テキスト要素であるアーティスト要素内のテキストデータであるため、四角形で表現されている。「Limited Time」はアーティスト要素に含まれるテキストデータであるため、上下関係の線で連結表現されている。   For example, since “Artist” in FIG. 4 is an element, it is represented by a circle and an element name (artist) is displayed. In addition, “Limited Time” is text data in an artist element that is a text element, and thus is represented by a rectangle. Since “Limited Time” is text data included in the artist element, it is connected and represented by a line of vertical relations.

それぞれの要素、テキスト要素の右肩には、後述する各処理で利用するIDが表示されている。IDの値は、左から順に要素IDと要素名IDとを表している。要素IDとは、その文書内で要素を一意に識別する識別子を意味する。要素名IDとは、すべての構造化文書で要素名を一意に識別する識別子を意味する。   On the right shoulder of each element and text element, an ID used in each process described later is displayed. The ID value represents an element ID and an element name ID in order from the left. The element ID means an identifier that uniquely identifies an element in the document. The element name ID means an identifier that uniquely identifies an element name in all structured documents.

図4のアーティスト要素は要素IDが2、要素名IDが2である。図5のアーティスト要素は、要素IDが4であるため図4と異なっているが、要素名IDは図4のアーティスト要素と同じ要素名であるため、同一の値(2)である。   The artist element in FIG. 4 has an element ID of 2 and an element name ID of 2. The artist element in FIG. 5 is different from FIG. 4 because the element ID is 4, but the element name ID has the same value (2) because it has the same element name as the artist element in FIG.

テキストデータの右肩の小さい円形の値は、その文書内でテキストデータを一意に識別するテキストデータIDである。図4では、例えば、「Limited Time」のテキストデータのテキストデータIDは1である。   A small circular value on the right shoulder of the text data is a text data ID that uniquely identifies the text data within the document. In FIG. 4, for example, the text data ID of the text data “Limited Time” is 1.

このように、構造化文書記憶部221では、構造化文書の木構造の各要素に対して、各要素を識別するためのIDを付与して構造化文書を保存している。   As described above, the structured document storage unit 221 stores the structured document by giving an ID for identifying each element to each element of the tree structure of the structured document.

図1に戻り、構造化文書検索装置100は、統計情報記憶部122と、受付部101と、検索部102と、第1判断部103と、決定部104と、変更部105と、算出部106と、生成部113と、構造抽出部107と、文書抽出部108と、第2判断部109と、追加部110と、出力部111と、を備えている。   Returning to FIG. 1, the structured document search apparatus 100 includes a statistical information storage unit 122, a reception unit 101, a search unit 102, a first determination unit 103, a determination unit 104, a change unit 105, and a calculation unit 106. A generation unit 113, a structure extraction unit 107, a document extraction unit 108, a second determination unit 109, an addition unit 110, and an output unit 111.

統計情報記憶部122は、構造化文書に含まれる各要素に関する統計情報を格納するものである。具体的には、統計情報記憶部122は、統計情報として、文書管理装置200内に格納されている構造化文書における、当該構造化文書に含まれる各要素の出現頻度を格納する。   The statistical information storage unit 122 stores statistical information regarding each element included in the structured document. Specifically, the statistical information storage unit 122 stores, as statistical information, the appearance frequency of each element included in the structured document in the structured document stored in the document management apparatus 200.

図6は、統計情報記憶部122に記憶される統計情報のデータ構造の一例を示す説明図である。同図に示すように、統計情報は、各要素の要素名IDと、文書管理装置200内に格納されている構造化文書内での出現頻度とを対応づけて格納している。   FIG. 6 is an explanatory diagram illustrating an example of a data structure of statistical information stored in the statistical information storage unit 122. As shown in the figure, the statistical information stores the element name ID of each element and the appearance frequency in the structured document stored in the document management apparatus 200 in association with each other.

統計情報記憶部122に記憶された統計情報は、後述する算出部106が、検索された構造化文書の各要素の統計情報を算出するときに参照される。   The statistical information stored in the statistical information storage unit 122 is referred to when the calculation unit 106, which will be described later, calculates statistical information of each element of the searched structured document.

受付部101は、ユーザーにより入力された検索キーワードを受付けるものである。受付部101は、キーボードなどの入力装置から入力された検索キーワードを受付けるように構成してもよいし、ネットワーク300を介して外部装置で入力された検索キーワードを受付けるように構成してもよい。   The accepting unit 101 accepts a search keyword input by a user. The receiving unit 101 may be configured to receive a search keyword input from an input device such as a keyboard, or may be configured to receive a search keyword input from an external device via the network 300.

検索部102は、受付部101により受付けられた検索キーワードを検索条件として、文書管理装置200内の構造化文書記憶部221から検索キーワードを含む構造化文書を検索するものである。検索部102は、検索キーワードがテキスト要素のテキストデータに含まれている場合のみならず、要素名にキーワードが含まれている場合を検出することができる。   The search unit 102 searches for a structured document including the search keyword from the structured document storage unit 221 in the document management apparatus 200 using the search keyword received by the receiving unit 101 as a search condition. The search unit 102 can detect not only the case where the search keyword is included in the text data of the text element but also the case where the keyword is included in the element name.

なお、検索部102は、テキストデータのみを検索対象とするように構成してもよい。また、検索部102は、図示しない同義語辞書等を参照して、検索キーワードの意味を拡張したキーワードを含む構造化文書を検索するように構成してもよい。例えば、検索時のユーザーの設定、または事前の設定により、検索キーワードの意味を拡張して検索することを指定可能とすることにより実現できる。   Note that the search unit 102 may be configured to search only text data. The search unit 102 may be configured to search a structured document including a keyword in which the meaning of the search keyword is expanded with reference to a synonym dictionary or the like (not shown). For example, it can be realized by making it possible to specify that the search is to be performed by expanding the meaning of the search keyword by setting the user at the time of search or by setting in advance.

図7は、検索部102による検索結果の一例を示した説明図である。同図は、検索キーワードとして「Limited Time」および「CD」が入力されたときの検索結果の例を表している。   FIG. 7 is an explanatory diagram showing an example of a search result by the search unit 102. This figure shows an example of a search result when “Limited Time” and “CD” are input as search keywords.

例えば、図2の構造化文書には第1のキーワード「Limited Time」がアーティスト要素に、第2のキーワード「CD」がメディア要素に含まれている。すべての検索キーワードが含まれている文書であるため、図2の文書は、検索キーワードに適合する適合文書として検索される。   For example, in the structured document of FIG. 2, the first keyword “Limited Time” is included in the artist element, and the second keyword “CD” is included in the media element. Since the document includes all the search keywords, the document in FIG. 2 is searched as a conforming document that matches the search keyword.

図3の構造化文書には第1のキーワードがアーティスト要素に、第2のキーワードはジャンル要素に含まれる要素名として複数回含まれている。すべての検索キーワードが含まれている文書であるため、図3の文書も適合文書として検索される。   In the structured document of FIG. 3, the first keyword is included in the artist element and the second keyword is included multiple times as the element name included in the genre element. Since all the search keywords are included in the document, the document in FIG. 3 is also searched as a conforming document.

図7では、検索キーワードごとに、適合する構造化文書を一意に識別する文書IDと、テキスト要素であるか否かを表すテキスト要素フラグと、要素IDと、要素名IDとを対応づけた検索結果の例が示されている。なお、テキスト要素フラグは、検索キーワードを含む要素がテキスト要素である場合にT(True)を、それ以外の場合にF(False)を設定する。同図は、図2の構造化文書の文書IDを1、図3の構造化文書の文書IDを2とした場合の例が示されている。   In FIG. 7, for each search keyword, a search that associates a document ID that uniquely identifies a conforming structured document, a text element flag that indicates whether or not the text element is included, an element ID, and an element name ID. An example of the result is shown. The text element flag is set to T (True) when the element including the search keyword is a text element, and set to F (False) otherwise. This figure shows an example in which the document ID of the structured document in FIG. 2 is 1 and the document ID of the structured document in FIG. 3 is 2.

このように、検索部102は、すべてのキーワードを検出した文書について、その文書と、検出した要素と、その要素名とを特定する情報を作成し検索結果として次の処理に渡す。このとき、テキスト要素が検出された場合は検出したテキスト要素に含まれるテキストデータのテキストデータIDを渡すように構成してもよい。   As described above, the search unit 102 creates information for identifying the document, the detected element, and the element name of the document in which all keywords are detected, and passes the information to the next process as a search result. At this time, when a text element is detected, the text data ID of the text data included in the detected text element may be passed.

図7では、第1のキーワード「Limited Time」を検出したテキスト要素の情報がぞれぞれの文書で1件ずつ列挙されており、それぞれテキスト要素フラグは「T」となっている。また、第2のキーワード「CD」を検出した要素は、文書IDが1の場合はテキスト要素でありテキスト要素フラグには同様に「T」が設定される。文書IDが2の場合、要素IDが3と8の要素が検出されるため、2件列挙される。また、要素ID=3および8の要素はテキスト要素ではないため、テキスト要素フラグは双方「F」が設定される。   In FIG. 7, information on text elements in which the first keyword “Limited Time” is detected is listed one by one in each document, and the text element flag is “T”. The element in which the second keyword “CD” is detected is a text element when the document ID is 1, and “T” is similarly set in the text element flag. When the document ID is 2, since elements with element IDs 3 and 8 are detected, two are listed. In addition, since the elements with element ID = 3 and 8 are not text elements, both “F” are set in the text element flag.

図1に戻り、第1判断部103は、検索された構造化文書に含まれる各要素について、構造化文書間で同義語の関係にある要素名が存在するか否かを判断するものである。具体的には、第1判断部103は、図示しない同義語辞書を参照して、各構造化文書内に同義語関係にある要素名が存在するか判断する。なお、同義語と判断された要素名は、後述する変更部105により、いずれかの要素名に統一するように変更される。   Returning to FIG. 1, the first determination unit 103 determines whether there is an element name having a synonym relationship between structured documents for each element included in the searched structured document. . Specifically, the first determination unit 103 refers to a synonym dictionary (not shown) and determines whether there is an element name having a synonym relationship in each structured document. Note that the element name determined to be a synonym is changed by the changing unit 105 described later so as to be unified with any element name.

決定部104は、検索キーワードをテキストデータ内に含むテキスト要素から、検索キーワードと一致する度合いを表す適合度が最大の要素の要素名である代表要素名を決定するものである。具体的には、決定部104は、以下の条件を満たす要素の要素名を代表要素名として決定する。
条件1:データ長/キーワード長(=N)が最小(N>=1)
条件2:検索キーワードの出現頻度が最大
The determination unit 104 determines a representative element name that is the element name of the element having the highest degree of matching that represents the degree of matching with the search keyword from the text elements including the search keyword in the text data. Specifically, the determination unit 104 determines an element name of an element that satisfies the following conditions as a representative element name.
Condition 1: Data length / keyword length (= N) is minimum (N> = 1)
Condition 2: Appearance frequency of search keyword is maximum

このように決定された代表要素名は、後述する変更部105により、検索キーワードを要素名内に含む要素の要素名を、当該代表要素名に変更するときに参照される。   The representative element name determined in this way is referred to by the changing unit 105 described later when the element name of an element that includes the search keyword in the element name is changed to the representative element name.

変更部105は、第1判断部103が同義語の関係にあると判断した要素名について、類似の要素名を統一する要素名の正規化処理を実行するものである。具体的には、変更部105は、一方の要素名を同義語の関係にある他方の要素名に変更する。   The changing unit 105 performs element name normalization processing that unifies similar element names for the element names that the first determining unit 103 determines to have a synonym relationship. Specifically, the changing unit 105 changes one element name to the other element name having a synonym relation.

また、変更部105は、検索キーワードを要素名内に含む要素の要素名を変更する適合要素名変更処理を行う。具体的には、変更部105は、まず、検索キーワードを要素名内に含む要素の要素名を、当該検索キーワードに対して決定部104が決定した代表要素名に変更する。そして、変更部105は、変更前の要素名を代表要素名に対応するテキストデータとして付加し、当該代表要素名の要素をテキスト要素に変更する。   Further, the changing unit 105 performs a matching element name changing process for changing the element name of an element including the search keyword in the element name. Specifically, the changing unit 105 first changes the element name of the element including the search keyword in the element name to the representative element name determined by the determining unit 104 for the search keyword. Then, the changing unit 105 adds the element name before the change as text data corresponding to the representative element name, and changes the element of the representative element name to a text element.

算出部106は、検索された構造化文書の各要素の統計情報を算出するものである。具体的には、算出部106は、検索された構造化文書内の各要素について、対応する出現頻度を統計情報記憶部122から取得して統計情報とする。また、正規化処理を行った場合は、算出部106は、要素名を変更した要素の出現頻度を変更先の要素名の出現頻度に加算して統計情報を算出する。さらに、算出部106は、変更部105が適合要素名変更処理を実行した場合は、要素名を代表要素名に変更した要素の出現頻度を、代表要素名の出現頻度に加算して統計情報を算出する。   The calculation unit 106 calculates statistical information of each element of the searched structured document. Specifically, the calculation unit 106 acquires the corresponding appearance frequency for each element in the searched structured document from the statistical information storage unit 122 and sets it as statistical information. When normalization processing is performed, the calculation unit 106 calculates the statistical information by adding the appearance frequency of the element whose element name has been changed to the appearance frequency of the element name to be changed. Further, when the changing unit 105 executes the matching element name changing process, the calculating unit 106 adds the appearance frequency of the element whose element name has been changed to the representative element name to the appearance frequency of the representative element name to obtain statistical information. calculate.

生成部113は、算出部106により算出された統計情報を参照し、さらに検索キーワードを検出した要素を加味して、文書ごとに特徴ベクトルを生成するものである。特徴ベクトルとは、構造化文書を特徴づける要素を表す情報である。本実施の形態では、生成部113は、出現頻度が所定の閾値(出現頻度に関する閾値)より高い要素を抽出し、さらに検索キーワードが検出された要素を追加することにより特徴ベクトルを生成する。特徴ベクトルの詳細については後述する。   The generating unit 113 refers to the statistical information calculated by the calculating unit 106, and further generates a feature vector for each document, taking into account the element that has detected the search keyword. A feature vector is information representing elements that characterize a structured document. In the present embodiment, the generation unit 113 generates a feature vector by extracting an element whose appearance frequency is higher than a predetermined threshold value (threshold value regarding the appearance frequency) and adding an element in which a search keyword is detected. Details of the feature vector will be described later.

構造抽出部107は、生成された特徴ベクトルから、検索された構造化文書間で類似する要素(類似部分構造)を抽出するものである。すなわち、構造抽出部107は、検索された複数の構造化文書の特徴ベクトル間の類似度を、ベクトル空間法などを用いて算出する。具体的には、2つの特徴ベクトルをそれぞれA、Bとすると、構造抽出部107はA×B/|A||B|により類似度を算出する。A×Bは、ベクトルAとベクトルBとの内積を表す。なお、類似度の算出方法はこれに限られるものではなく、2つの構造化文書の構造の類似度を算出するものであれば、あらゆる方法を適用できる。   The structure extraction unit 107 extracts similar elements (similar partial structures) between the searched structured documents from the generated feature vector. That is, the structure extraction unit 107 calculates the similarity between feature vectors of a plurality of searched structured documents using a vector space method or the like. Specifically, assuming that the two feature vectors are A and B, respectively, the structure extraction unit 107 calculates the similarity by A × B / | A || B |. A × B represents the inner product of the vector A and the vector B. Note that the method of calculating the similarity is not limited to this, and any method can be applied as long as the similarity between the structures of the two structured documents is calculated.

そして、構造抽出部107は、算出した類似度が所定の閾値(類似度に関する閾値)より大きい構造化文書に含まれる各要素を類似部分構造として抽出する。   Then, the structure extraction unit 107 extracts each element included in the structured document whose calculated similarity is larger than a predetermined threshold (threshold for similarity) as a similar partial structure.

文書抽出部108は、類似部分構造ごとに、検索結果である構造化文書から適合する部分文書を抽出し分類する処理を行うものである。具体的には、文書抽出部108は、抽出した類似部分構造を含む構造化文書を取得し、取得した構造化文書に対して、検索キーワードが適合した要素から構造を辿り、類似部分構造に含まれる要素を部分文書として検出する。   The document extraction unit 108 performs processing for extracting and classifying a matching partial document from a structured document as a search result for each similar partial structure. Specifically, the document extraction unit 108 acquires a structured document including the extracted similar partial structure, traces the structure from the element to which the search keyword matches the acquired structured document, and includes it in the similar partial structure Detected element as a partial document.

第2判断部109は、抽出した部分文書に含まれない検索キーワードが存在するか否かを判断するものである。具体的には、第2判断部109は、検索キーワードが適合した要素のうち、文書抽出部108により抽出された部分文書に含まれない要素が存在するかを判断する。   The second determination unit 109 determines whether there is a search keyword that is not included in the extracted partial document. Specifically, the second determination unit 109 determines whether there is an element that is not included in the partial document extracted by the document extraction unit 108 among the elements that match the search keyword.

追加部110は、類似部分構造ごとに抽出されることで分類されている部分文書について、検索結果要素を過不足なく統合するとともに、部分文書のサイズを調整する処理を行うものである。具体的には、追加部110は、検索キーワードが適合した要素であって部分文書に含まれない要素が存在すると第2判断部109により判断された場合に、当該要素に対応する部分文書を追加する。また、抽出された部分文書のサイズが所定の閾値(部分文書サイズに関する閾値)より大きい場合に、検索キーワードを含まない要素などを削除することにより、部分文書のサイズを縮小する。   The adding unit 110 performs a process of integrating search result elements with respect to partial documents classified by being extracted for each similar partial structure, and adjusting the size of the partial documents. Specifically, the adding unit 110 adds a partial document corresponding to the element when the second determining unit 109 determines that there is an element that is matched with the search keyword and is not included in the partial document. To do. When the size of the extracted partial document is larger than a predetermined threshold value (threshold value regarding the partial document size), the size of the partial document is reduced by deleting elements that do not include the search keyword.

出力部111は、統合され、サイズ調整された部分文書を、類似部分構造による分類ごとに最適な形式で出力するものである。具体的には、出力部111は、類似部分構造に相当する要素のテキストデータを、表形式で出力する。   The output unit 111 outputs the integrated and size-adjusted partial documents in an optimum format for each classification based on similar partial structures. Specifically, the output unit 111 outputs text data of elements corresponding to similar partial structures in a tabular format.

次に、このように構成された第1の実施の形態にかかる構造化文書検索装置100による構造化文書検索処理について説明する。図8は、第1の実施の形態における構造化文書検索処理の全体の流れを示すフローチャートである。   Next, a structured document search process performed by the structured document search apparatus 100 according to the first embodiment configured as described above will be described. FIG. 8 is a flowchart showing an overall flow of the structured document search process according to the first embodiment.

まず、受付部101が、ユーザーにより入力された検索キーワードを受付ける(ステップS801)。次に、検索部102が、受付けた検索キーワードで検索処理を実行する(ステップS802)。具体的には、検索部102は、受付けた検索キーワードを含む構造化文書を、文書管理装置200の構造化文書記憶部221から検索する。   First, the reception unit 101 receives a search keyword input by a user (step S801). Next, the search unit 102 executes a search process using the received search keyword (step S802). Specifically, the search unit 102 searches the structured document storage unit 221 of the document management apparatus 200 for a structured document including the accepted search keyword.

次に、検索した構造化文書のそれぞれについて各要素の統計情報を算出する構造統計情報算出処理を実行する(ステップS803)。構造統計情報算出処理の詳細については後述する。   Next, a structural statistical information calculation process for calculating statistical information of each element is performed for each of the searched structured documents (step S803). Details of the structure statistical information calculation process will be described later.

次に、構造抽出部107が、検索された構造化文書から類似部分構造を抽出する類似部分構造抽出処理を実行する(ステップS804)。類似部分構造抽出処理の詳細については後述する。   Next, the structure extraction unit 107 executes a similar partial structure extraction process for extracting a similar partial structure from the searched structured document (step S804). Details of the similar partial structure extraction processing will be described later.

次に、文書抽出部108が、類似部分構造に対応する部分文書を抽出する部分文書抽出処理を実行する(ステップS805)。部分文書抽出処理の詳細については後述する。   Next, the document extraction unit 108 executes a partial document extraction process for extracting a partial document corresponding to the similar partial structure (step S805). Details of the partial document extraction processing will be described later.

次に、必要な部分文書の統合およびサイズの調整を行う部分文書統合処理を実行する(ステップS806)。部分文書統合処理の詳細については後述する。   Next, partial document integration processing for integrating necessary partial documents and adjusting the size is executed (step S806). Details of the partial document integration processing will be described later.

最後に、出力部111が、統合された部分文書を表示して(ステップS807)、構造化文書検索処理を終了する。   Finally, the output unit 111 displays the integrated partial document (step S807) and ends the structured document search process.

次に、ステップS803の構造統計情報算出処理の詳細について説明する。図9は、第1の実施の形態における構造統計情報算出処理の全体の流れを示すフローチャートである。   Next, details of the structural statistical information calculation processing in step S803 will be described. FIG. 9 is a flowchart showing an overall flow of the structural statistical information calculation processing in the first embodiment.

まず、第1判断部103が、検索キーワードと適合した要素を含む構造化文書を取得する(ステップS901)。次に、要素名の正規化処理が実行される。正規化処理では、まず、第1判断部103が、取得した複数の構造化文書間で、同義語関係となる要素が存在するか否かを判断する(ステップS902)。この際、第1判断部103は、同義語辞書(図示せず)等を参照することにより、ある要素名と同義語または類義語の関係にある他の要素名を検出する。   First, the first determination unit 103 acquires a structured document including an element that matches the search keyword (step S901). Next, an element name normalization process is executed. In the normalization process, first, the first determination unit 103 determines whether there is an element having a synonym relationship between the plurality of acquired structured documents (step S902). At this time, the first determination unit 103 refers to a synonym dictionary (not shown) or the like to detect other element names that have a synonym or synonym relationship with a certain element name.

例えば、第1判断部103は、図2の構造化文書の「タイトル」要素の要素名と、図3の構造化文書の「題名」要素の要素名とが同義語の関係にあると判断する。   For example, the first determination unit 103 determines that the element name of the “title” element of the structured document of FIG. 2 and the element name of the “title” element of the structured document of FIG. .

同義語関係となる要素が存在する場合は(ステップS902:YES)、変更部105は、一方の要素名を他方の要素名に変更する正規化を行う(ステップS903)。上述の例では、変更部105は、例えば「題名」要素の要素名「題名」を、「タイトル」に変更する。同時に変更部105は「題名」要素の要素名IDを11から3に変更する。すなわち、図5では「題名」要素の要素ID=6、要素名ID=11であったが、変更後は、要素ID=6、要素名ID=3となる。   If there is an element having a synonym relationship (step S902: YES), the changing unit 105 performs normalization to change one element name to the other element name (step S903). In the above example, the changing unit 105 changes, for example, the element name “title” of the “title” element to “title”. At the same time, the changing unit 105 changes the element name ID of the “title” element from 11 to 3. That is, in FIG. 5, the element ID of the “title” element is 6 and the element name ID is 11. However, after the change, the element ID is 6 and the element name ID is 3.

なお、統一する要素名は、例えば、出現頻度の多い要素名に変更する方法などのあらゆる方法により決定できる。また、要素名の正規化処理は省略するように構成してもよい。   The element name to be unified can be determined by any method such as a method of changing to an element name having a high appearance frequency. The element name normalization process may be omitted.

同義語関係となる要素が存在しない場合(ステップS902:NO)、または正規化処理実行後(ステップS903)、適合要素名変更処理が実行される。適合要素名変更処理の前段階として、決定部104による代表要素名決定処理が実行される。代表要素名決定処理では、まず、決定部104が、検索キーワードが要素名として検索されたか否かを判断する(ステップS904)。   When there is no element having a synonym relationship (step S902: NO), or after executing the normalization process (step S903), the matching element name change process is executed. As a previous stage of the matching element name changing process, a representative element name determining process by the determining unit 104 is executed. In the representative element name determination process, first, the determination unit 104 determines whether or not the search keyword is searched as an element name (step S904).

検索された場合は(ステップS904:YES)、決定部104は、検索キーワードのそれぞれについて、代表要素名を決定する(ステップS905)。具体的には、決定部104は、上述の条件1、条件2に最も適合する条件を有する要素の要素名を代表要素名とする。   If a search is made (step S904: YES), the determination unit 104 determines a representative element name for each search keyword (step S905). Specifically, the determination unit 104 sets an element name of an element having a condition that best meets the above-described condition 1 and condition 2 as a representative element name.

例えば、検索キーワード「Limited Time」が入力された場合、図2の構造化文書(文書ID=1)については、テキストデータが検索キーワードと完全に一致するため、データ長/キーワード長=1であり、最小となる。また、文書ID=1の文書のように、「アーティスト」要素に「Limited Time」が出現する頻度が最も高ければ、代表要素名は「アーティスト」であると決定される。   For example, when the search keyword “Limited Time” is input, for the structured document (document ID = 1) in FIG. 2, the text data completely matches the search keyword, so the data length / keyword length = 1. The minimum. If the frequency of “Limited Time” appears most frequently in the “Artist” element as in the document with document ID = 1, the representative element name is determined to be “Artist”.

同様に、検索キーワード「CD」が入力された場合も、文書ID=1の文書では、データ長/キーワード長=1であるため、「メディア」要素に「CD」が出現する頻度が最も高ければ、「メディア」が代表要素名として決定される。   Similarly, when the search keyword “CD” is input, since the data length / keyword length = 1 in the document with the document ID = 1, “CD” appears most frequently in the “media” element. , “Media” is determined as the representative element name.

次に、変更部105が、適合要素名変更処理を実行する。具体的には、変更部105は、要素名が検索キーワードと適合した要素のそれぞれについて、要素名を、当該検索キーワードについて決定された代表要素名に変更する。また、当該要素に、検索キーワードと適合した要素名をテキストデータとして付加する(ステップS906)。   Next, the changing unit 105 executes a matching element name changing process. Specifically, the changing unit 105 changes the element name to the representative element name determined for the search keyword for each element whose element name matches the search keyword. Further, an element name that matches the search keyword is added to the element as text data (step S906).

例えば、検索キーワード「CD」が入力された場合、図3の構造化文書では、「CD」要素の要素名内に検索キーワードが含まれているため、当該要素が適合要素として検索される。図10は、この例について適合要素名変更処理を実行した結果の一例を示す説明図である。同図に示すように、図5では、ジャンルの子要素であった2つの「CD」要素はそれぞれ「メディア」要素となり、要素名IDも5に変更される。さらに、変更した「メディア」要素それぞれの子要素として文字列「CD」を含むテキストデータが付加されている。同図に示すように、付加したテキストデータは、変更前の要素名「CD」である。   For example, when the search keyword “CD” is input, in the structured document of FIG. 3, the search keyword is included in the element name of the “CD” element, so that the element is searched as a matching element. FIG. 10 is an explanatory diagram showing an example of a result of executing the matching element name changing process for this example. As shown in FIG. 5, in FIG. 5, the two “CD” elements that were child elements of the genre become “media” elements, and the element name ID is also changed to 5. Further, text data including a character string “CD” is added as a child element of each changed “media” element. As shown in the figure, the added text data is the element name “CD” before the change.

なお、キーワード検索を要素名に対して行わない場合などでは、適合要素名変更処理を省略するように構成してもよい。   Note that, in the case where the keyword search is not performed on the element name, the compatible element name changing process may be omitted.

図9に戻り、ステップS904で検索キーワードが要素名として検索されていないと判断された場合(ステップS904:NO)、または、ステップS906で適合要素名変更処理実行後、算出部106は、要素名ごとの出現頻度の統計を算出する(ステップS907)。   Returning to FIG. 9, when it is determined in step S904 that the search keyword has not been searched as an element name (step S904: NO), or after execution of the matching element name changing process in step S906, the calculation unit 106 displays the element name. The statistics of the appearance frequency for each are calculated (step S907).

具体的には、算出部106は、統計情報記憶部122から検索キーワードに適合した文書に含まれる要素名IDの出現頻度を取得し、正規化処理または適合要素名変更処理を行った要素については変更前の要素の出現頻度を変更後の要素の出現頻度に加算することにより、出現頻度の統計を算出する。   Specifically, the calculation unit 106 acquires the appearance frequency of the element name ID included in the document that matches the search keyword from the statistical information storage unit 122, and for the element that has undergone the normalization process or the matching element name change process The appearance frequency statistics are calculated by adding the appearance frequency of the element before the change to the appearance frequency of the element after the change.

図11は、算出した統計情報の一例を示す説明図である。同図に示すように、算出部106は、算出した頻度を表形式で表した要素名ID頻度表を出力する。同図は、図6に示した統計情報記憶部122から取得した頻度を基にして算出した例を示している。また、例えば、図5に示した構造化文書の「題名」要素(要素名ID=11)は、正規化処理により要素名ID=3に変更されているため、要素名ID=11の頻度(10)が、要素名ID=3の頻度(39)に加算された値(49)が、要素名ID頻度表に設定されている。同時に、要素名ID頻度表からは要素名ID=11の要素が削除されている。   FIG. 11 is an explanatory diagram illustrating an example of calculated statistical information. As shown in the figure, the calculation unit 106 outputs an element name ID frequency table in which the calculated frequencies are represented in a table format. This figure shows an example calculated based on the frequency acquired from the statistical information storage unit 122 shown in FIG. Further, for example, the “title” element (element name ID = 11) of the structured document shown in FIG. 5 has been changed to element name ID = 3 by the normalization process, so the frequency of element name ID = 11 ( 10) is added to the frequency (39) of the element name ID = 3, and the value (49) is set in the element name ID frequency table. At the same time, the element with the element name ID = 11 is deleted from the element name ID frequency table.

同様に、図5に示した構造化文書の「CD」要素(要素名ID=10)は、適合要素名変更処理により要素名ID=5に変更されているため、要素名ID=10の頻度(12)が、要素名ID=5の頻度(33)に加算された値(45)が、要素名ID頻度表に設定されている。同時に、要素名ID頻度表からは要素名ID=10の要素が削除されている。   Similarly, the “CD” element (element name ID = 10) of the structured document shown in FIG. 5 has been changed to element name ID = 5 by the matching element name change process, and therefore the frequency of element name ID = 10. A value (45) obtained by adding (12) to the frequency (33) of the element name ID = 5 is set in the element name ID frequency table. At the same time, the element with the element name ID = 10 is deleted from the element name ID frequency table.

なお、検索に適合した他の文書に他の要素名IDが存在する場合は、それらも列挙され出現頻度が算出される。また、高頻度欄には、頻度数が上位の要素名IDに対してその順位が設定される。さらに、キーワードヒット欄には、検索キーワードと適合した要素の要素名IDに対して1が設定され、それ以外の要素名IDには0が設定される。算出部106は、このようにして作成された要素名ID頻度表を次の処理に渡す。   If other element name IDs exist in other documents suitable for the search, they are also listed and the appearance frequency is calculated. In the high frequency column, the rank is set for the element name ID having the higher frequency number. Furthermore, in the keyword hit column, 1 is set for the element name ID of the element that matches the search keyword, and 0 is set for the other element name IDs. The calculation unit 106 passes the element name ID frequency table created in this way to the next processing.

次に、ステップS804の類似部分構造抽出処理の詳細について説明する。図12は、第1の実施の形態における類似部分構造抽出処理の全体の流れを示すフローチャートである。   Next, details of the similar partial structure extraction processing in step S804 will be described. FIG. 12 is a flowchart showing the overall flow of the similar partial structure extraction process in the first embodiment.

まず、構造抽出部107は、検索キーワードの適合要素を含む構造化文書を取得する(ステップS1201)。次に、生成部113は、取得した構造化文書ごとに、出現頻度の高い要素の特徴ベクトルを生成する(ステップS1202)。   First, the structure extraction unit 107 acquires a structured document including matching elements of search keywords (step S1201). Next, the generation unit 113 generates a feature vector of an element having a high appearance frequency for each acquired structured document (step S1202).

図13は、生成した特徴ベクトルの一例を示す説明図である。同図では、構造化文書を構成する要素の要素名を列挙し、文書ごとにそれら要素の有無を1(要素あり)および0(要素なし)で表現した特徴ベクトルの例を示している。また、特徴ベクトルには、算出部106から渡された要素名ID頻度表から所定数の高頻度の要素と、検索キーワードと適合した要素とが含まれる。   FIG. 13 is an explanatory diagram illustrating an example of the generated feature vector. In the figure, element names of elements constituting the structured document are listed, and an example of a feature vector in which the presence / absence of these elements is expressed by 1 (with elements) and 0 (without elements) is shown for each document. The feature vector includes a predetermined number of high-frequency elements from the element name ID frequency table passed from the calculation unit 106 and elements that match the search keyword.

図13の例では、図11に示したような要素名ID頻度表から、高頻度の要素として要素名ID=2の「アーティスト」要素、要素名ID=3の「タイトル」要素、要素名ID=4の「日付」要素の3つの要素を選出し、さらにキーワードが適合した要素として「メディア」要素を選出している。検索キーワードが適合した要素の追加は省略可能だが、追加した方がより適切な検索結果を取得して出力することが可能となる。   In the example of FIG. 13, from the element name ID frequency table as shown in FIG. 11, the “artist” element with element name ID = 2, the “title” element with element name ID = 3, and the element name ID as the high frequency elements. = 3 “Date” elements are selected, and a “Media” element is selected as an element to which the keyword is matched. Although the addition of an element that matches the search keyword can be omitted, more appropriate search results can be acquired and output.

文書ID=1の列は、図11から選出した要素名IDに対応する要素の有無を図4の文書の構造について抽出した特徴ベクトルを表す。他の文書も同様にそれぞれの文書の構造について特徴ベクトルを抽出する(図13の文書ID=2、3、・・・)   The column of document ID = 1 represents a feature vector obtained by extracting the presence or absence of an element corresponding to the element name ID selected from FIG. 11 for the structure of the document of FIG. Similarly, feature vectors are extracted for the structures of the other documents (document ID = 2, 3,... In FIG. 13).

図12に戻り、次に構造抽出部107は、特徴ベクトルから構造化文書間の類似度を算出する(ステップS1203)。具体的には、上述のように、2つの構造化文書のそれぞれに対する特徴ベクトルをそれぞれA、Bとすると、構造抽出部107は、A×B/|A||B|により類似度を算出する。   Returning to FIG. 12, the structure extraction unit 107 calculates the similarity between structured documents from the feature vector (step S1203). Specifically, as described above, assuming that the feature vectors for the two structured documents are A and B, respectively, the structure extraction unit 107 calculates the similarity by A × B / | A || B | .

図13の表の下部には、特徴ベクトルから算出した各文書間の類似度を算出した結果が示されている。なお、ここでは、要素ありの場合を1、要素なしの場合を−1とした特徴ベクトルを用いて類似度を算出している。   The lower part of the table of FIG. 13 shows the result of calculating the similarity between each document calculated from the feature vector. Here, the similarity is calculated using a feature vector in which 1 is present when there is an element and -1 when there is no element.

類似度が高い構造化文書が相互に類似すると判定することができる。同図の例では、文書ID=1、2、3が相互に類似すると判定される。   It can be determined that structured documents having a high degree of similarity are similar to each other. In the example shown in the figure, it is determined that the document IDs = 1, 2, and 3 are similar to each other.

次に、構造抽出部107は、類似度の高い構造化文書に含まれる要素の和を類似部分構造として抽出する(ステップS1204)。図13の例では、文書ID=1、2、3の要素の和として、同図に示されている全要素が類似部分構造として選択される。   Next, the structure extraction unit 107 extracts the sum of elements included in the structured document with a high degree of similarity as a similar partial structure (step S1204). In the example of FIG. 13, all elements shown in FIG. 13 are selected as similar partial structures as the sum of the elements of document ID = 1, 2, and 3.

図14は、抽出された類似部分構造の一例を示す説明図である。同図は、図13の文書ID=1、2、3から抽出された類似部分構造を表している。同図では、要素名ID=0の要素を親要素として、要素名ID=2〜5の要素(「アーティスト」要素、「タイトル」要素、「日付」要素、「メディア」要素)が子要素として含まれる構造が、類似部分構造として抽出された例が示されている。   FIG. 14 is an explanatory diagram showing an example of the extracted similar partial structure. This figure shows similar partial structures extracted from document ID = 1, 2, 3 in FIG. In the figure, an element with an element name ID = 0 is a parent element, and elements with an element name ID = 2 to 5 (an “artist” element, a “title” element, a “date” element, and a “media” element) are child elements. An example in which the included structure is extracted as a similar partial structure is shown.

このとき、類似部分構造には検索キーワードが検出された要素が含まれていることが望ましい。図13の例では、文書ID=1で「アーティスト」要素および「メディア」要素で検索キーワードが検出されているため、類似部分構造に検索キーワードが検出された要素が含まれている。   At this time, it is desirable that the similar partial structure includes an element in which the search keyword is detected. In the example of FIG. 13, since the search keyword is detected in the “artist” element and the “media” element with the document ID = 1, an element in which the search keyword is detected is included in the similar partial structure.

もし検索キーワードが検出された要素が含まれていない場合は、検索キーワードが検出された要素を1つ以上含める。例えば、類似度が次に高い構造化文書を調べ、検索キーワードが検出された要素が含まれている場合に、その要素を類似部分構造に追加する。また、追加した要素を含む構造化文書に含まれる要素と、当該構造化文書と最も類似度が高い構造化文書に含まれる要素との和を取り、その中にさらにキーワードが検出された場合にその要素を追加するという方式など、あらゆる方法により検索キーワードを含む要素を追加することができる。   If the element in which the search keyword is detected is not included, one or more elements in which the search keyword is detected are included. For example, a structured document having the next highest similarity is examined, and if an element in which a search keyword is detected is included, the element is added to the similar partial structure. In addition, when the element included in the structured document including the added element and the element included in the structured document having the highest similarity with the structured document are added, and a keyword is detected in the sum An element including a search keyword can be added by any method such as a method of adding the element.

なお、特徴ベクトルから類似部分構造を抽出し、当該類似部分構造に該当する文書を判定した後、当該類似部分構造に該当しない他の文書に関して、さらに類似部分構造を抽出できる場合がある。図15は、生成した特徴ベクトルの別の例を示す説明図である。図15に示すような特徴ベクトルが生成された場合、文書ID=1、2、3間の類似度が高いことがわかるため、これらの構造化文書の要素の和を類似部分構造とする。残りの構造化文書である文書ID=4、5についても相互に類似すると判定できるため、文書ID=4、5の要素の和をもう一つの類似部分構造として抽出することができる。   In some cases, after extracting a similar partial structure from a feature vector and determining a document corresponding to the similar partial structure, a similar partial structure can be further extracted for other documents not corresponding to the similar partial structure. FIG. 15 is an explanatory diagram illustrating another example of the generated feature vector. When a feature vector as shown in FIG. 15 is generated, it can be seen that the similarity between the document IDs = 1, 2, and 3 is high, so the sum of the elements of these structured documents is set as a similar partial structure. Since it can be determined that the remaining structured documents, document ID = 4, 5 are also similar to each other, the sum of the elements of document ID = 4, 5 can be extracted as another similar partial structure.

次に、ステップS805の部分文書抽出処理の詳細について説明する。図16は、部分文書抽出処理の全体の流れを示すフローチャートである。   Next, details of the partial document extraction processing in step S805 will be described. FIG. 16 is a flowchart showing the overall flow of partial document extraction processing.

まず、文書抽出部108は、類似部分構造に適合する文書を取得する(ステップS1601)。例えば、図14に示すような類似部分構造が抽出された場合、抽出の基になった文書ID=1、2、3の構造化文書が取得される。   First, the document extraction unit 108 acquires a document that conforms to a similar partial structure (step S1601). For example, when a similar partial structure as shown in FIG. 14 is extracted, structured documents with document IDs = 1, 2, and 3 that are the basis of extraction are acquired.

次に、文書抽出部108は、検索キーワードが検出された要素(以下、ヒット要素という。)を基点として、取得した構造化文書の階層構造を辿り、類似部分構造に対応する要素を検出して部分文書として抽出する(ステップS1602)。   Next, the document extraction unit 108 traces the hierarchical structure of the obtained structured document using the element in which the search keyword is detected (hereinafter referred to as hit element) as a base point, and detects an element corresponding to the similar partial structure. Extracted as a partial document (step S1602).

部分文書は、検索キーワードが検出された要素に近い領域から抽出する。例えば、検索キーワードが検出された要素がテキスト要素である場合は、その親要素に近い要素、すなわち、その兄弟要素を確認する。検索キーワードが要素名内で検出された場合は、その要素以下の構造を先に調べ、その後必要があれば親、兄弟、先祖の要素へと拡張して部分文書を抽出する。なお、類似部分構造に含まれるすべての要素が部分文書に含まれない場合もありうるが、その場合は含まれない要素は無視して同様の処理を行う。   The partial document is extracted from an area close to the element in which the search keyword is detected. For example, when the element in which the search keyword is detected is a text element, an element close to its parent element, that is, its sibling element is confirmed. When the search keyword is detected in the element name, the structure below the element is examined first, and if necessary, the partial document is extracted by expanding to the parent, sibling, and ancestor elements. Note that all elements included in the similar partial structure may not be included in the partial document, but in this case, the elements not included are ignored and the same processing is performed.

以下に、部分文書抽出の具体例について説明する。例えば、図4の構造化文書の場合、類似部分構造には、検索キーワードが検出されたテキスト要素が2つとも含まれている。それらを基点とし、近くに存在する要素として、まず、検索キーワードが検出された要素の兄弟要素が調査される。次に親要素、親要素の兄弟要素以下の構造、先祖要素というように、必要に応じて調査範囲は拡張される。この例の場合は、検索キーワードが検出されたテキスト要素の兄弟要素に類似部分構造に含まれる要素が検出される。文書抽出部108は、検出した要素の親要素以下を、類似部分構造に適合する部分文書として抽出する。   A specific example of partial document extraction will be described below. For example, in the case of the structured document of FIG. 4, the similar partial structure includes both text elements in which the search keyword is detected. First, sibling elements of the element in which the search keyword is detected are examined as elements that are based on these points. Next, the investigation range is expanded as necessary, such as a parent element, a structure below the parent element of the parent element, and an ancestor element. In this example, an element included in the similar partial structure is detected as a sibling element of the text element in which the search keyword is detected. The document extraction unit 108 extracts a part below the parent element of the detected element as a partial document that matches the similar partial structure.

また、図5の構造化文書の場合、類似部分構造には、テキストデータから検索キーワード「Limited Time」が検出されたテキスト要素が1つと、要素名からキーワード「CD」が検出されたテキスト要素が1つ含まれる。テキストデータから検索キーワードが検出されたテキスト要素の兄弟要素には類似部分構造に含まれる要素が検出される。さらにその要素の親要素は別の検索キーワード(「CD」)が要素名内で検出された要素そのもの(「CD」要素)であるため、文書抽出部108は、「CD」要素以下を部分文書として抽出する。   In the structured document of FIG. 5, the similar partial structure includes one text element in which the search keyword “Limited Time” is detected from the text data, and a text element in which the keyword “CD” is detected from the element name. One included. Elements included in the similar partial structure are detected as sibling elements of the text element in which the search keyword is detected from the text data. Further, since the parent element of the element is an element itself (“CD” element) in which another search keyword (“CD”) is detected in the element name, the document extraction unit 108 includes a sub-document below the “CD” element. Extract as

また、複数の検索キーワードで検索を実施した際に、類似部分構造に検索キーワードが検出された構造がすべて含まれない場合、例えば1つしか含まれない場合も生じる。図17は、このような場合が生じうる構造化文書の論理構造の別の例を示した説明図である。   In addition, when a search is performed using a plurality of search keywords, if all the structures in which the search keyword is detected are not included in the similar partial structure, for example, only one may be included. FIG. 17 is an explanatory diagram showing another example of the logical structure of a structured document in which such a case may occur.

例えば、図17のような論理構造を有する構造化文書の場合、類似部分構造から部分文書を抽出すると、要素ID=5の要素以下の部分文書が抽出される。これは類似部分構造に含まれる検索キーワード「CD」が検出された要素である「media」要素を基点として抽出された結果である。   For example, in the case of a structured document having a logical structure as shown in FIG. 17, when a partial document is extracted from a similar partial structure, a partial document having an element ID = 5 or less is extracted. This is a result of extraction based on the “media” element, which is an element in which the search keyword “CD” included in the similar partial structure is detected.

なお、この構造化文書の場合、もう1つの検索キーワード「Limited Time」が要素ID=2の「title」要素に含まれているが、当該要素を含む構造を抽出すると、要素ID=1の「doc」要素以下のすべての要素が含まれることになる。したがって、このような場合はすべての検索キーワードを含む部分文書ではなく、少なくとも1つの検索キーワードを含む部分文書である、要素ID=5の要素以下の部分文書を抽出する。   In the case of this structured document, another search keyword “Limited Time” is included in the “title” element with the element ID = 2, but when a structure including the element is extracted, “ All elements below the “doc” element will be included. Therefore, in such a case, not the partial document including all the search keywords but the partial document including the element with element ID = 5 that is a partial document including at least one search keyword is extracted.

また、図17のような論理構造を有する構造化文書の場合、類似部分構造に含まれる「media」要素は、検索キーワードに適合する要素であり、さらに同一の構造化文書内で複数回検出されうる要素である。このような場合は、それぞれの検出された要素を基点として、部分文書を抽出する処理を行う。すなわち、要素ID=13の要素を基点として抽出した要素ID=10の「music」要素も部分文書として抽出される。   In the case of a structured document having a logical structure as shown in FIG. 17, the “media” element included in the similar partial structure is an element that matches the search keyword, and is detected multiple times in the same structured document. It is a possible element. In such a case, a process of extracting a partial document is performed using each detected element as a base point. That is, the “music” element with element ID = 10 extracted from the element with element ID = 13 as a base point is also extracted as a partial document.

図16に戻り、文書抽出部108は、抽出した部分文書のサイズが予め定められた閾値(部分文書サイズに関する閾値)より小さいか否かを判断する(ステップS1603)。閾値より大きい場合は(ステップS1603:NO)、後述する部分文書統合処理内で、部分文書のサイズを縮小する処理を行うため、部分文書抽出処理を終了する。   Returning to FIG. 16, the document extraction unit 108 determines whether or not the size of the extracted partial document is smaller than a predetermined threshold (threshold regarding the partial document size) (step S1603). If it is larger than the threshold (step S1603: NO), the partial document extraction process is terminated to perform a process of reducing the size of the partial document in the partial document integration process described later.

閾値より小さい場合は(ステップS1603:YES)、文書抽出部108は、複数の部分文書が抽出されたか否かを判断する(ステップS1604)。上述のように、類似部分構造に対応する部分文書が複数抽出される場合があるため、いずれの部分文書を採用するかを以下の処理で決定する必要があるからである。   If it is smaller than the threshold (step S1603: YES), the document extraction unit 108 determines whether or not a plurality of partial documents have been extracted (step S1604). This is because, as described above, a plurality of partial documents corresponding to the similar partial structure may be extracted, and therefore it is necessary to determine which partial document is to be adopted by the following processing.

複数の部分文書が抽出された場合は(ステップS1604:YES)、文書抽出部108は、部分文書ごとに検索キーワードに適合する要素数を算出する(ステップS1605)。そして、適合する要素数が最も多い部分文書を選択する(ステップS1606)。複数の部分文書が抽出されない場合は(ステップS1604:NO)、部分文書抽出処理を終了する。   When a plurality of partial documents are extracted (step S1604: YES), the document extraction unit 108 calculates the number of elements that match the search keyword for each partial document (step S1605). Then, the partial document having the largest number of matching elements is selected (step S1606). If a plurality of partial documents are not extracted (step S1604: NO), the partial document extraction process is terminated.

なお、部分文書の選択処理では、要素数だけでなく、部分文書のサイズを考慮して選択するように構成してもよい。すなわち、以下のような基準により部分文書に優先順位を付加し、優先順位の最も高い部分文書を選択する。   In the partial document selection process, the selection may be made in consideration of not only the number of elements but also the size of the partial document. That is, priorities are added to partial documents according to the following criteria, and the partial document with the highest priority is selected.

最も優先順位が高い部分文書は、すべての検索キーワードが含まれるテキスト要素を含む部分文書の中で、類似部分構造に含まれる要素を最も多く含み、部分文書の階層の深さが最も小さいものである。この段階で同等の部分文書が複数存在する場合は、それらすべてを抽出する。またこの段階で部分文書が抽出できた場合は、当該構造化文書の当該類似部分構造についてのほかの部分文書候補は抽出しない。   The partial document with the highest priority is the partial document that includes the text elements that contain all the search keywords, includes the largest number of elements included in the similar partial structure, and has the lowest depth of the partial document hierarchy. is there. If there are multiple equivalent partial documents at this stage, all of them are extracted. If a partial document can be extracted at this stage, other partial document candidates for the similar partial structure of the structured document are not extracted.

次に優先順位が高い部分文書は、複数の検索キーワードがそれぞれ異なるテキスト要素または要素名で適合し、当該テキスト要素が類似部分構造に含まれている場合の当該テキスト要素を含む部分文書である。   The partial document having the next highest priority is a partial document including the text element when a plurality of search keywords are matched with different text elements or element names and the text element is included in the similar partial structure.

次に優先順位が高い部分文書は、複数の検索キーワードがそれぞれ異なるテキスト要素または要素名で適合し、類似部分構造に適合した要素がより多く含まれており、さらにより多くの適合した要素を含む部分文書である。   The next highest priority partial document has multiple search keywords that match with different text elements or element names, contains more elements that match similar substructures, and contains more matched elements It is a partial document.

さらに、この段階までで部分文書が抽出されない場合は、類似部分構造と検索キーワードが含まれる要素とをすべてまとめて部分文書として抽出する。   Further, if the partial document is not extracted up to this stage, the similar partial structure and the element including the search keyword are all extracted as a partial document.

すべての類似部分構造について、その類似部分構造に近い構造を持つ検索に適合した構造化文書から部分文書を抽出した後、1つの部分文書も抽出していない適合文書が存在する場合は、当該適合文書から、検索キーワードに適合した要素のみを含む部分文書を抽出する。   For all similar partial structures, after extracting a partial document from a structured document that conforms to a search that has a structure close to that similar partial structure, if there is a compatible document that does not extract one partial document, the relevant document A partial document including only elements that match the search keyword is extracted from the document.

図18は、構造化文書の論理構造の別の例を示した説明図である。同図は、これまで述べた類似する論理構造を有する構造化文書(図4、図5、図17)とはまったく異なる論理構造を有する構造化文書の論理構造の例を示している。   FIG. 18 is an explanatory diagram showing another example of the logical structure of the structured document. This figure shows an example of the logical structure of a structured document having a completely different logical structure from the structured documents having a similar logical structure described so far (FIGS. 4, 5, and 17).

図18のような構造化文書の場合、類似部分構造に対応する部分文書が抽出できないため、文書抽出部108は、検索キーワードに適合した要素である「内容」要素を部分文書として抽出する。   In the case of a structured document as shown in FIG. 18, since a partial document corresponding to a similar partial structure cannot be extracted, the document extraction unit 108 extracts a “content” element that is an element suitable for the search keyword as a partial document.

次に、ステップS806の部分文書統合処理の詳細について説明する。図19は、部分文書統合処理の全体の流れを示すフローチャートである。   Next, details of the partial document integration processing in step S806 will be described. FIG. 19 is a flowchart showing the overall flow of partial document integration processing.

まず、第2判断部109は、抽出した部分文書のそれぞれについて、検索キーワードのうち部分文書に含まれない検索キーワード(以下、不足キーワードという。)が存在するか否かを判断する(ステップS1901)。このような状況は、複数の検索キーワードが指定された場合に発生しうる。   First, the second determination unit 109 determines, for each extracted partial document, whether or not there is a search keyword (hereinafter referred to as a deficient keyword) that is not included in the partial document among the search keywords (step S1901). . Such a situation may occur when a plurality of search keywords are specified.

不足キーワードが存在する場合(ステップS1901:YES)、追加部110は、不足キーワードを含む要素を検出する(ステップS1902)。次に、追加部110は、検出した要素を部分文書に統合する(ステップS1903)。   When the missing keyword exists (step S1901: YES), the adding unit 110 detects an element including the missing keyword (step S1902). Next, the adding unit 110 integrates the detected elements into the partial document (step S1903).

例えば、図17のような構造化文書の場合、部分文書として抽出された要素ID=5の要素以下の文書には、検索キーワード「Limited Time」が含まれていない。このような場合に、検索キーワード「Limited Time」を含む要素である「title」要素を、抽出済みの部分文書と組み合わせる。なお、図17の例では、要素ID=10の要素以下の部分文書も抽出される。この部分文書に対しても、不足キーワードが存在する場合は、不足キーワードを含む要素を追加する処理を行う。   For example, in the case of the structured document as shown in FIG. 17, the search keyword “Limited Time” is not included in the document below the element with element ID = 5 extracted as the partial document. In such a case, the “title” element that is an element including the search keyword “Limited Time” is combined with the extracted partial document. In the example of FIG. 17, partial documents below the element with element ID = 10 are also extracted. If there is a missing keyword also for this partial document, processing for adding an element including the missing keyword is performed.

また、不足キーワードを含む要素が複数存在する場合は、すべて選択して追加するように構成してもよい。追加する要素数が多い場合は、抽出済みの部分文書に対する位置の近さ、文字列長などを用いて優先順位をつけ、優先順位の高い要素を追加するように構成してもよい。   Further, when there are a plurality of elements including the missing keyword, all of them may be selected and added. When there are a large number of elements to be added, priority may be given using the proximity of the extracted partial document, the character string length, etc., and elements with higher priority may be added.

不足キーワードが存在しない場合(ステップS1901:NO)、または要素を統合した後(ステップS1903)、第2判断部109は、部分文書サイズが予め定められた閾値(部分文書サイズに関する閾値)より大きいか否かを判断する(ステップS1904)。   If there is no missing keyword (step S1901: NO), or after elements are integrated (step S1903), the second determination unit 109 determines whether the partial document size is larger than a predetermined threshold (threshold for the partial document size). It is determined whether or not (step S1904).

閾値より大きい場合は(ステップS1904:YES)、追加部110は、部分文書のサイズを縮小する(ステップS1905)。文書サイズを縮小する手法としては、抽出した部分文書からさらに不要な要素を削除していく方法をとる。   If larger than the threshold (step S1904: YES), the adding unit 110 reduces the size of the partial document (step S1905). As a technique for reducing the document size, a method of further deleting unnecessary elements from the extracted partial document is used.

例えば、図4のような構造化文書に対し、「新譜」要素以下が部分文書として抽出された場合を考える。この部分文書が所定の閾値以上のサイズを有する場合は、類似部分構造に含まれる要素ではない要素を省略することによりサイズを縮小する。例えば、「価格」要素や、「レーベル」要素を削除することにより、部分文書サイズを縮小する。また、テキスト要素のテキストデータのサイズが大きい場合は、検索キーワードが多く含まれている一定サイズの部分文字列をテキストデータから抽出し、それ以外は省略するという方法によりサイズを縮小するように構成してもよい。   For example, let us consider a case where the elements below the “new music” element are extracted as partial documents for the structured document as shown in FIG. If the partial document has a size equal to or larger than a predetermined threshold, the size is reduced by omitting elements that are not included in the similar partial structure. For example, the partial document size is reduced by deleting the “price” element and the “label” element. In addition, when the text data size of the text element is large, it is configured to reduce the size by extracting a partial character string of a certain size containing many search keywords from the text data and omitting the others. May be.

以下に、上述のようにして抽出された部分文書の出力方法について説明する。図20は、出力部111により出力される部分文書の出力形式の一例を示した説明図である。この例では、「アーティスト」、「メディア」、「タイトル」、および「日付」要素を含む部分文書を表形式で表示している。また、類似部分構造に適合しなかった図18に示すような適合文書に対しては、当該表の下に列挙形式で表示している。   Below, the output method of the partial document extracted as mentioned above is demonstrated. FIG. 20 is an explanatory diagram showing an example of the output format of the partial document output by the output unit 111. In this example, partial documents including “artist”, “media”, “title”, and “date” elements are displayed in a tabular format. Further, conforming documents as shown in FIG. 18 that do not conform to the similar partial structure are displayed in an enumerated form below the table.

また、表形式で結果を表示する例では、部分文書に含まれている要素のうち、類似部分構造に含まれている要素以外の要素をその他欄(EX欄)に表示している。表示形式は、列挙型、表形式以外に限られるものではなく、定義型、XML形式など他のあらゆる表示形式を利用できる。   Further, in the example of displaying the result in a table format, elements other than the elements included in the similar partial structure among the elements included in the partial document are displayed in the other column (EX column). The display format is not limited to the enumerated type and the table format, and any other display format such as a definition type or an XML format can be used.

このように、第1の実施の形態にかかる構造化文書検索装置では、検索された構造化文書の要素について算出した統計情報に基づいて複数の構造化文書間で類似する要素を抽出し、抽出した要素に対応する部分文書を取得して一覧形式で出力することができる。このため、XMLのように構造が不定の構造化文書に対しても適切に検索結果を取得して出力することができる。この結果、ユーザーによる検索結果の確認コストを軽減することができる。   As described above, the structured document search apparatus according to the first embodiment extracts and extracts similar elements between a plurality of structured documents based on the statistical information calculated for the elements of the searched structured document. The partial document corresponding to the selected element can be acquired and output in a list format. Therefore, it is possible to appropriately acquire and output a search result even for a structured document with an undefined structure such as XML. As a result, the cost for confirming the search result by the user can be reduced.

また、従来から、大量文書の管理方式の提案の一環として、大量の文書から自動的に類似の文書を抽出する技術や、複数の文書の内容に応じて自動的に分類するためのクラスタリング手法など、様々な技術が提案されている。しかし、これらの技術では、単語の頻度やそれらの共起の頻度、文書属性やユーザーによる判定などによって、文書を意味的に分類するものであり、文書の構造的特徴による分類や、結果出力を考慮した最適な部分文書の抽出を実現できない。   Traditionally, as part of a proposal for a large-volume document management method, technologies that automatically extract similar documents from a large number of documents, clustering methods that automatically classify documents according to the contents of multiple documents, etc. Various techniques have been proposed. However, these technologies classify documents semantically based on the frequency of words, the frequency of their co-occurrence, document attributes, and user judgment. The extraction of the optimum partial document in consideration cannot be realized.

これに対し、本実施の形態によれば、構造が特定できない構造化文書に対する検索結果であっても、文書構造の特徴にしたがって適切な部分文書を抽出して、分類して出力することができる。   On the other hand, according to the present embodiment, even if it is a search result for a structured document whose structure cannot be specified, an appropriate partial document can be extracted, classified and output according to the characteristics of the document structure. .

さらに、ユーザーが構造化文書の論理構造に関する知識を有さず、構造に関する条件を指定した検索を実行しない場合であっても、文書の構造を活用した検索結果を取得することができる。   Furthermore, even if the user does not have knowledge about the logical structure of the structured document and does not execute a search specifying a condition related to the structure, a search result utilizing the document structure can be acquired.

(第2の実施の形態)
第2の実施の形態にかかる構造化文書検索装置は、事前に検索対象となる構造化文書を自装置内に登録し、登録した構造化文書に対して検索処理を実行するものである。また、その際に、検索処理前に実行可能な処理を事前に実行することにより、検索処理の負荷を軽減し、検索の高速化を図るものである。
(Second Embodiment)
The structured document search apparatus according to the second embodiment registers a structured document to be searched in advance in the own apparatus and executes a search process on the registered structured document. Further, at that time, by executing in advance a process that can be executed before the search process, the load of the search process is reduced and the search speed is increased.

図21は、第2の実施の形態にかかる構造化文書検索装置2100の構成を示すブロック図である。同図に示すように、構造化文書検索装置2100は、統計情報記憶部122と、構造化文書記憶部2121と、受付部101と、検索部2102と、第1判断部2103と、決定部104と、変更部2105と、算出部106と、生成部113と、構造抽出部107と、文書抽出部108と、第2判断部109と、追加部110と、出力部111と、登録部2112と、を備えている。   FIG. 21 is a block diagram illustrating a configuration of a structured document search apparatus 2100 according to the second embodiment. As shown in the figure, the structured document search apparatus 2100 includes a statistical information storage unit 122, a structured document storage unit 2121, a reception unit 101, a search unit 2102, a first determination unit 2103, and a determination unit 104. A change unit 2105, a calculation unit 106, a generation unit 113, a structure extraction unit 107, a document extraction unit 108, a second determination unit 109, an addition unit 110, an output unit 111, and a registration unit 2112. It is equipped with.

第2の実施の形態では、構造化文書記憶部2121と登録部2112とを追加したことが第1の実施の形態と異なっている。また、検索部2102、第1判断部2103、および変更部2105の機能が第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる構造化文書検索装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。   The second embodiment is different from the first embodiment in that a structured document storage unit 2121 and a registration unit 2112 are added. The functions of the search unit 2102, the first determination unit 2103, and the change unit 2105 are different from those of the first embodiment. Other configurations and functions are the same as those in FIG. 1 which is a block diagram showing the configuration of the structured document search apparatus 100 according to the first embodiment, and therefore, the same reference numerals are given and description thereof is omitted here. .

構造化文書記憶部2121は、構造化文書記憶部221と同様に、検索対象となる構造化文書を記憶するものである。   Similar to the structured document storage unit 221, the structured document storage unit 2121 stores a structured document to be searched.

検索部2102は、構造化文書記憶部2121を対象として構造化文書を検索する点が、第1の実施の形態の検索部102と異なっている。   The search unit 2102 is different from the search unit 102 of the first embodiment in that the structured document storage unit 2121 searches for a structured document.

第1判断部2103は、構造化文書記憶部2121に記憶する、または記憶された構造化文書に含まれる各要素について、構造化文書間で同義語の関係にある要素名が存在するか否かを判断するものである。   The first determination unit 2103 stores in the structured document storage unit 2121 or for each element included in the stored structured document, whether or not there is an element name having a synonym relationship between the structured documents. Is to judge.

変更部2105は、第1判断部2103が同義語の関係にあると判断した要素名について、類似の要素名を統一する要素名の正規化処理を実行し、変更した要素名を構造化文書記憶部2121に記憶するものである。   The change unit 2105 performs element name normalization processing for unifying similar element names on the element names determined by the first determination unit 2103 to have a synonym relationship, and stores the changed element names in the structured document storage. This is stored in the unit 2121.

登録部2112は、検索前に、文書管理装置200の構造化文書記憶部221から構造化文書を取得し、構造化文書検索装置2100内の構造化文書記憶部2121に登録するものである。   The registration unit 2112 acquires a structured document from the structured document storage unit 221 of the document management apparatus 200 and registers it in the structured document storage unit 2121 in the structured document search apparatus 2100 before the search.

このように、第2の実施の形態では、構造化文書を自装置内に記憶し、正規化処理を事前に実行できるため、検索処理内で正規化処理を実行する必要がなくなり、検索処理の高速化を実現可能となる。   As described above, in the second embodiment, the structured document can be stored in the own apparatus and the normalization process can be executed in advance. Therefore, it is not necessary to execute the normalization process in the search process. High speed can be realized.

次に、このように構成された第2の実施の形態にかかる構造化文書検索装置2100による構造化文書登録処理について説明する。図22は、第2の実施の形態における構造化文書登録処理の全体の流れを示すフローチャートである。   Next, a structured document registration process performed by the structured document search apparatus 2100 according to the second embodiment configured as described above will be described. FIG. 22 is a flowchart showing an overall flow of the structured document registration process in the second embodiment.

まず、登録部2112は、文書管理装置200から構造化文書を取得する(ステップS2201)。次に、第1判断部2103は、取得した複数の構造化文書間、または、取得した構造化文書と既に記憶している構造化文書との間で同義語関係となる要素が存在するか否かを判断する(ステップS2202)。   First, the registration unit 2112 acquires a structured document from the document management apparatus 200 (step S2201). Next, the first determination unit 2103 determines whether there is an element having a synonym relationship between the acquired structured documents or between the acquired structured document and the already stored structured document. Is determined (step S2202).

同義語関係となる要素が存在する場合は(ステップS2202:YES)、変更部2105は、要素名の正規化処理を実行する(ステップS2203)。正規化処理は、第1の実施の形態におけるステップS903と同様の処理である。   If there is an element having a synonym relationship (step S2202: YES), the changing unit 2105 executes an element name normalization process (step S2203). The normalization process is the same process as step S903 in the first embodiment.

同義語関係となる要素が存在しない場合(ステップS2202:NO)、または、正規化処理実行後、登録部2112は、構造化文書を構造化文書記憶部2121に保存する(ステップS2204)。   When there is no element having a synonym relationship (step S2202: NO), or after executing the normalization process, the registration unit 2112 stores the structured document in the structured document storage unit 2121 (step S2204).

次に、登録部2112は、構造化文書の統計情報を更新する(ステップS2205)。具体的には、登録部2112は、保存した構造化文書に含まれる各要素の頻度を算出し、統計情報記憶部122の頻度情報を更新する。   Next, the registration unit 2112 updates the statistical information of the structured document (step S2205). Specifically, the registration unit 2112 calculates the frequency of each element included in the stored structured document, and updates the frequency information in the statistical information storage unit 122.

このように、第2の実施の形態では、正規化処理を構造化文書の登録時に実行する。なお、登録時に実行可能な処理は正規化処理に限られず、特徴ベクトルの生成処理なども対象とすることができる。   As described above, in the second embodiment, normalization processing is executed when a structured document is registered. Note that the process that can be executed at the time of registration is not limited to the normalization process, and can also include a feature vector generation process.

次に、このように構成された第2の実施の形態にかかる構造化文書検索装置2100による構造化文書検索処理について説明する。第2の実施の形態における構造化文書検索処理の全体の流れは、第1の実施の形態の図8と同様である。ただし、ステップS803の構造統計情報算出処理の詳細が異なる。   Next, a structured document search process performed by the structured document search apparatus 2100 according to the second embodiment configured as described above will be described. The overall flow of the structured document search process in the second embodiment is the same as that in FIG. 8 of the first embodiment. However, the details of the structure statistical information calculation processing in step S803 are different.

以下に、第2の実施の形態における構造統計情報算出処理の詳細について説明する。図23は、第2の実施の形態における構造統計情報算出処理の全体の流れを示すフローチャートである。   Details of the structural statistical information calculation process in the second embodiment will be described below. FIG. 23 is a flowchart illustrating an overall flow of the structural statistical information calculation process according to the second embodiment.

同図は、第1の実施の形態における構造統計情報算出処理の全体の流れを示す図9から、ステップS902およびステップS903の正規化処理を削除した処理になっている。すなわち、第2の実施の形態では、登録時に正規化処理を実行するため、検索時に正規化処理を実行する必要がない。   This figure is a process in which the normalization process in steps S902 and S903 is deleted from FIG. 9 showing the overall flow of the structural statistical information calculation process in the first embodiment. That is, in the second embodiment, since normalization processing is executed at the time of registration, there is no need to execute normalization processing at the time of search.

その他の処理であるステップS2301、ステップS2302からステップS2305は、それぞれステップS901、ステップS904からステップS907と同様の処理なので、その説明を省略する。   Steps S2301 and S2302 to S2305, which are the other processes, are the same as steps S901 and S904 to S907, respectively, and thus description thereof is omitted.

このように、第2の実施の形態にかかる構造化文書検索装置では、事前に自装置内に登録した構造化文書に対して検索処理を実行するとともに、検索処理前に実行可能な処理を事前に実行することにより、検索処理の負荷を軽減し、検索の高速化を図ることができる。   As described above, in the structured document search apparatus according to the second embodiment, the search process is executed on the structured document registered in the self apparatus in advance, and the process that can be executed before the search process is executed in advance. As a result, the search processing load can be reduced and the search speed can be increased.

(第3の実施の形態)
大量の構造化文書は、作成される際にその構造のフォーマットが決められていることが多い。例えば、ルート要素「プロジェクト」の子要素として「メンバー」という要素が存在し、その子要素として必ず1つ以上の「メンバー名」という要素が存在するような構造のフォーマットを決めることができる。
(Third embodiment)
A large number of structured documents often have a structure format determined when they are created. For example, a format of a structure in which an element “member” exists as a child element of the root element “project” and at least one element “member name” exists as a child element can be determined.

この場合、プロジェクトに応じて「メンバー名」要素が2つ存在する構造化文書が作成されることもあれば、5つ存在する構造化文書が作成されることもある。このように、構造のフォーマットの自由度は高いため、類似の目的で作成された構造であっても、別の場所で作成された構造とフォーマットが異なる場合がある。例えば、市役所における同じ目的で利用される書類でも、書類を作成した市が異なる場合にはそのフォーマットが異なる場合がある。   In this case, a structured document having two “member name” elements may be created depending on a project, or a structured document having five “member name” elements may be created. As described above, since the degree of freedom of the format of the structure is high, even a structure created for a similar purpose may differ from a structure created in another place. For example, even if a document is used for the same purpose at a city hall, the format may be different if the city in which the document was created is different.

一方、第1の実施の形態における類似部分構造抽出処理では、検索に適合したそれぞれの構造化文書に対して実行していた。しかし、検索対象の構造化文書が、それぞれの構造フォーマットに則った複数の構造化文書セットである場合、類似部分構造の調査処理は、検索に適合したそれぞれの構造化文書の構造フォーマット間で行えば処理コストを低減できると考えられる。各構造化文書で共通する構造フォーマットを検証対象とすれば、構造化文書ごとに調査する場合に比較して検証対象が限定されるからである。   On the other hand, the similar partial structure extraction process in the first embodiment is executed for each structured document suitable for the search. However, when the structured document to be searched is a plurality of structured document sets according to the respective structural formats, the similar partial structure investigation process is performed between the structural formats of the respective structured documents conforming to the search. For example, the processing cost can be reduced. This is because if the structure format common to each structured document is set as the verification target, the verification target is limited as compared with the case of examining each structured document.

第3の実施の形態にかかる構造化文書検索装置は、事前に登録された構造化文書の構造のフォーマットに関する構造情報を参照して類似部分構造抽出処理を簡略化するものである。   The structured document search apparatus according to the third embodiment simplifies the similar partial structure extraction process with reference to the structure information regarding the structure format of the structured document registered in advance.

図24は、第3の実施の形態にかかる構造化文書検索装置2400の構成を示すブロック図である。同図に示すように、構造化文書検索装置2400は、統計情報記憶部122と、構造情報記憶部2413と、受付部101と、検索部102と、第1判断部103と、決定部104と、変更部105と、算出部106と、生成部113と、構造抽出部2407と、文書抽出部108と、第2判断部109と、追加部110と、出力部111と、を備えている。   FIG. 24 is a block diagram illustrating a configuration of a structured document search apparatus 2400 according to the third embodiment. As shown in the figure, the structured document search device 2400 includes a statistical information storage unit 122, a structure information storage unit 2413, a reception unit 101, a search unit 102, a first determination unit 103, and a determination unit 104. A change unit 105, a calculation unit 106, a generation unit 113, a structure extraction unit 2407, a document extraction unit 108, a second determination unit 109, an addition unit 110, and an output unit 111.

第3の実施の形態では、構造情報記憶部2413を追加したこと、および構造抽出部2407の機能が第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる構造化文書検索装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。   In the third embodiment, the addition of the structure information storage unit 2413 and the function of the structure extraction unit 2407 are different from those of the first embodiment. Other configurations and functions are the same as those in FIG. 1 which is a block diagram showing the configuration of the structured document search apparatus 100 according to the first embodiment, and therefore, the same reference numerals are given and description thereof is omitted here. .

構造情報記憶部2413は、構造化文書から抽出した論理構造に関する構造情報を記憶するものである。図25は、構造情報記憶部2413に記憶された構造情報のデータ構造の一例を示す説明図である。同図に示すように、構造情報は、要素名IDと、要素名と、子要素と、兄弟要素とを対応づけて格納している。なお、同図は、図2に示した構造化文書から抽出した構造情報を記憶した例を表している。また、構造情報記憶部2413には、このような構造情報が、フォーマットの異なる構造ごとに記憶されている。   The structure information storage unit 2413 stores structure information related to the logical structure extracted from the structured document. FIG. 25 is an explanatory diagram showing an example of the data structure of the structure information stored in the structure information storage unit 2413. As shown in the drawing, the structure information stores an element name ID, an element name, a child element, and a sibling element in association with each other. The figure shows an example in which the structure information extracted from the structured document shown in FIG. 2 is stored. The structure information storage unit 2413 stores such structure information for each structure having a different format.

次に、このように構成された第3の実施の形態にかかる構造化文書検索装置2400による構造化文書検索処理について説明する。第3の実施の形態における構造化文書検索処理の全体の流れは、第1の実施の形態の図8と同様である。ただし、ステップS804の類似部分構造抽出処理の詳細が異なる。   Next, a structured document search process performed by the structured document search apparatus 2400 according to the third embodiment configured as described above will be described. The overall flow of the structured document search process in the third embodiment is the same as that in FIG. 8 of the first embodiment. However, the details of the similar partial structure extraction processing in step S804 are different.

以下に、第3の実施の形態における類似部分構造抽出処理の詳細について説明する。図26は、第3の実施の形態における類似部分構造抽出処理の全体の流れを示すフローチャートである。   Details of the similar partial structure extraction process in the third embodiment will be described below. FIG. 26 is a flowchart illustrating an overall flow of the similar partial structure extraction process according to the third embodiment.

まず、構造抽出部2407は、検索キーワードの適合要素を含む構造化文書を取得する(ステップS2601)。次に、構造抽出部2407は、取得した構造化文書に対応する構造情報を、構造情報記憶部2413から取得する(ステップS2602)。   First, the structure extraction unit 2407 obtains a structured document including the search keyword matching elements (step S2601). Next, the structure extraction unit 2407 acquires structure information corresponding to the acquired structured document from the structure information storage unit 2413 (step S2602).

次に、生成部113は、取得した構造情報ごとに、出現頻度の高い要素の特徴ベクトルを生成する(ステップS2603)。特徴ベクトルの生成は図12のステップS1202と同様である。   Next, the production | generation part 113 produces | generates the feature vector of an element with high appearance frequency for every acquired structural information (step S2603). The generation of the feature vector is the same as that in step S1202 of FIG.

次に、構造抽出部2407は、特徴ベクトルから構造情報間の類似度を算出する(ステップS2604)。類似度の算出方法は、図12のステップS1203と同様である。次に、構造抽出部2407は、類似度の高い構造情報に含まれる要素の和を類似部分構造として抽出する(ステップS2605)。   Next, the structure extraction unit 2407 calculates the similarity between the structure information from the feature vector (step S2604). The method for calculating the similarity is the same as that in step S1203 in FIG. Next, the structure extraction unit 2407 extracts the sum of elements included in the structure information having a high degree of similarity as a similar partial structure (step S2605).

このようにしてある構造情報間の類似部分構造の抽出が実行されれば、他の検索結果である構造化文書が同一の構造情報を有する場合、類似部分構造の抽出処理を省略することができる。これにより、検索処理の高速化が実現可能となる。   If extraction of similar partial structures between certain pieces of structure information is executed in this way, extraction processing of similar partial structures can be omitted when structured documents as other search results have the same structure information. . This makes it possible to increase the speed of search processing.

なお、事前に構造情報を入手して構造情報記憶部2413に保存できない場合であっても、第2の実施の形態のように自装置内に構造化文書を登録する構成であれば、文書を登録する際にその構造情報を解析してフォーマットを抽出し、構造情報記憶部2413に保存することができる。フォーマットの抽出処理では、例えば、構造に含まれる要素名セットが共通しており、要素名と要素名の親子関係が同一である場合は同一のフォーマットとするなどの方法を適用できる。このように構成すれば、事前に構造情報を入手できない場合であっても上述と同様の効果を得られる。   Even if the structure information is obtained in advance and cannot be stored in the structure information storage unit 2413, the document can be stored if the structured document is registered in the own apparatus as in the second embodiment. When registering, the structure information can be analyzed to extract the format and stored in the structure information storage unit 2413. In the format extraction process, for example, when the element name sets included in the structure are common and the parent-child relationship between the element name and the element name is the same, a method such as the same format can be applied. If comprised in this way, even if it is a case where structure information cannot be obtained beforehand, the effect similar to the above can be acquired.

このように、第3の実施の形態にかかる構造化文書検索装置では、事前に登録された構造化文書の構造のフォーマットに関する構造情報を参照し、構造情報間で類似部分構造を抽出することにより、全構造化文書間で類似部分構造抽出処理を実行する場合に比較して処理を簡略化し、結果として検索処理を高速化することができる。   As described above, the structured document search apparatus according to the third embodiment refers to the structure information related to the format of the structure of the structured document registered in advance, and extracts similar partial structures between the structure information. As compared with the case where the similar partial structure extraction process is executed between all structured documents, the process can be simplified, and the search process can be speeded up as a result.

図27は、第1〜第3の実施の形態にかかる構造化文書検索装置のハードウェア構成を示す説明図である。   FIG. 27 is an explanatory diagram of a hardware configuration of the structured document search device according to the first to third embodiments.

第1〜第3の実施の形態にかかる構造化文書検索装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、HDD、CD(Compact Disc)ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス61を備えており、通常のコンピュータを利用したハードウェア構成となっている。   The structured document search device according to the first to third embodiments is connected to a control device such as a CPU (Central Processing Unit) 51, a storage device such as a ROM (Read Only Memory) 52 and a RAM 53, and a network. A communication I / F 54, an external storage device such as an HDD or a CD (Compact Disc) drive device, a display device such as a display device, an input device such as a keyboard or a mouse, and a bus 61 that connects each unit. It has a hardware configuration using a normal computer.

第1〜第3の実施の形態にかかる構造化文書検索装置で実行される構造化文書検索プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。   The structured document search program executed by the structured document search apparatus according to the first to third embodiments is an installable format or executable file, a CD-ROM (Compact Disk Read Only Memory), The program is recorded on a computer-readable recording medium such as a flexible disk (FD), a CD-R (Compact Disk Recordable), and a DVD (Digital Versatile Disk).

また、第1〜第3の実施の形態にかかる構造化文書検索装置で実行される構造化文書検索プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1〜第3の実施の形態にかかる構造化文書検索装置で実行される構造化文書検索プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。   In addition, the structured document search program executed by the structured document search apparatus according to the first to third embodiments is stored on a computer connected to a network such as the Internet and downloaded via the network. It may be configured to provide. The structured document search program executed by the structured document search device according to the first to third embodiments may be provided or distributed via a network such as the Internet.

また、第1〜第3の実施の形態の構造化文書検索プログラムを、ROM等に予め組み込んで提供するように構成してもよい。   Further, the structured document search program according to the first to third embodiments may be provided by being incorporated in advance in a ROM or the like.

第1〜第3の実施の形態にかかる構造化文書検索装置で実行される構造化文書検索プログラムは、上述した各部(受付部、検索部、第1判断部、決定部、変更部、算出部、構造抽出部、文書抽出部、第2判断部、追加部、出力部、登録部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51(プロセッサ)が上記記憶媒体から構造化文書検索プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。   The structured document search program executed by the structured document search apparatus according to the first to third embodiments includes the above-described units (reception unit, search unit, first determination unit, determination unit, change unit, calculation unit). , A structure extraction unit, a document extraction unit, a second determination unit, an addition unit, an output unit, and a registration unit), and the actual hardware includes a CPU 51 (processor) from the storage medium as a structured document. By reading and executing the search program, the above-described units are loaded on the main storage device, and the above-described units are generated on the main storage device.

以上のように、本発明にかかる構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラムは、XMLのように構造を自由に定義可能な構造化文書を検索対象とする検索装置、検索方法、および検索プログラムに適している。   As described above, the structured document search device, the structured document search method, and the structured document search program according to the present invention include a search device that searches for a structured document whose structure can be freely defined, such as XML, Suitable for search method and search program.

第1の実施の形態にかかる構造化文書検索装置の構成を示すブロック図である。It is a block diagram which shows the structure of the structured document search apparatus concerning 1st Embodiment. 構造化文書の一例を示す説明図である。It is explanatory drawing which shows an example of a structured document. 構造化文書の一例を示す説明図である。It is explanatory drawing which shows an example of a structured document. 構造化文書の論理構造を示した説明図である。It is explanatory drawing which showed the logical structure of the structured document. 構造化文書の論理構造を示した説明図である。It is explanatory drawing which showed the logical structure of the structured document. 統計情報記憶部に記憶される統計情報のデータ構造の一例を示す説明図である。It is explanatory drawing which shows an example of the data structure of the statistical information memorize | stored in a statistical information storage part. 検索部による検索結果の一例を示した説明図である。It is explanatory drawing which showed an example of the search result by a search part. 第1の実施の形態における構造化文書検索処理の全体の流れを示すフローチャートである。It is a flowchart which shows the whole flow of the structured document search process in 1st Embodiment. 第1の実施の形態における構造統計情報算出処理の全体の流れを示すフローチャートである。It is a flowchart which shows the flow of the whole structure statistical information calculation process in 1st Embodiment. 適合要素名変更処理を実行した結果の一例を示す説明図である。It is explanatory drawing which shows an example of the result of having performed the adaptation element name change process. 算出した統計情報の一例を示す説明図である。It is explanatory drawing which shows an example of the calculated statistical information. 第1の実施の形態における類似部分構造抽出処理の全体の流れを示すフローチャートである。It is a flowchart which shows the whole flow of the similar partial structure extraction process in 1st Embodiment. 生成した特徴ベクトルの一例を示す説明図である。It is explanatory drawing which shows an example of the produced | generated feature vector. 抽出された類似部分構造の一例を示す説明図である。It is explanatory drawing which shows an example of the extracted similar partial structure. 生成した特徴ベクトルの別の例を示す説明図である。It is explanatory drawing which shows another example of the produced | generated feature vector. 部分文書抽出処理の全体の流れを示すフローチャートである。It is a flowchart which shows the whole flow of a partial document extraction process. 構造化文書の論理構造の別の例を示した説明図である。It is explanatory drawing which showed another example of the logical structure of a structured document. 構造化文書の論理構造の別の例を示した説明図である。It is explanatory drawing which showed another example of the logical structure of a structured document. 部分文書統合処理の全体の流れを示すフローチャートである。It is a flowchart which shows the whole flow of a partial document integration process. 出力される部分文書の出力形式の一例を示した説明図である。It is explanatory drawing which showed an example of the output format of the partial document output. 第2の実施の形態にかかる構造化文書検索装置の構成を示すブロック図である。It is a block diagram which shows the structure of the structured document search apparatus concerning 2nd Embodiment. 第2の実施の形態における構造化文書登録処理の全体の流れを示すフローチャートである。It is a flowchart which shows the whole flow of the structured document registration process in 2nd Embodiment. 第2の実施の形態における構造統計情報算出処理の全体の流れを示すフローチャートである。It is a flowchart which shows the flow of the whole structure statistical information calculation process in 2nd Embodiment. 第3の実施の形態にかかる構造化文書検索装置の構成を示すブロック図である。It is a block diagram which shows the structure of the structured document search apparatus concerning 3rd Embodiment. 構造情報記憶部に記憶された構造情報のデータ構造の一例を示す説明図である。It is explanatory drawing which shows an example of the data structure of the structure information memorize | stored in the structure information storage part. 第3の実施の形態における類似部分構造抽出処理の全体の流れを示すフローチャートである。It is a flowchart which shows the whole flow of the similar partial structure extraction process in 3rd Embodiment. 構造化文書検索装置のハードウェア構成を示す説明図である。It is explanatory drawing which shows the hardware constitutions of a structured document search apparatus.

符号の説明Explanation of symbols

51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 構造化文書検索装置
101 受付部
102 検索部
103 第1判断部
104 決定部
105 変更部
106 算出部
107 構造抽出部
108 文書抽出部
109 第2判断部
110 追加部
111 出力部
113 生成部
122 統計情報記憶部
200 文書管理装置
221 構造化文書記憶部
300 ネットワーク
2100 構造化文書検索装置
2102 検索部
2103 第1判断部
2105 変更部
2112 登録部
2121 構造化文書記憶部
2400 構造化文書検索装置
2407 構造抽出部
2413 構造情報記憶部
51 CPU
52 ROM
53 RAM
54 Communication I / F
61 Bus 100 Structured Document Search Device 101 Reception Unit 102 Search Unit 103 First Determination Unit 104 Determination Unit 105 Change Unit 106 Calculation Unit 107 Structure Extraction Unit 108 Document Extraction Unit 109 Second Determination Unit 110 Addition Unit 111 Output Unit 113 Generation Unit 122 statistical information storage unit 200 document management device 221 structured document storage unit 300 network 2100 structured document search device 2102 search unit 2103 first determination unit 2105 change unit 2112 registration unit 2121 structured document storage unit 2400 structured document search device 2407 Structure extraction unit 2413 Structure information storage unit

Claims (14)

階層化された論理構造を有する構造化文書を格納する文書管理装置とネットワークを介して接続された構造化文書検索装置であって、
検索キーワードの入力を受付ける受付手段と、
受付けた前記検索キーワードを含む複数の前記構造化文書を前記文書管理装置から検索する検索手段と、
検索された複数の前記構造化文書に含まれる前記論理構造の単位である構造要素の出現に関する統計情報を算出する算出手段と、
算出された前記統計情報に基づいて、検索された複数の前記構造化文書の特徴ベクトルを生成する生成手段と、
生成された前記特徴ベクトルに基づいて、検索された複数の前記構造化文書を特徴づける前記構造要素を選択し、選択した前記構造要素から、検索された前記構造化文書間で類似する前記構造要素である類似部分構造を抽出する構造抽出手段と、
抽出した前記類似部分構造に対応する前記構造化文書内の部分文書を抽出する文書抽出手段と、
抽出した前記部分文書を前記構造要素ごとに出力する出力手段と、
を備えたことを特徴とする構造化文書検索装置。
A structured document search device connected via a network to a document management device for storing a structured document having a hierarchical logical structure,
A receiving means for receiving an input of a search keyword;
Search means for searching the document management device for a plurality of structured documents including the received search keyword;
Calculating means for calculating statistical information regarding the appearance of a structural element that is a unit of the logical structure included in the plurality of structured documents searched;
Generating means for generating feature vectors of the plurality of structured documents searched based on the calculated statistical information;
Based on the generated feature vector, the structural elements that characterize the plurality of searched structured documents are selected, and the structural elements that are similar between the searched structured documents are selected from the selected structural elements. A structure extracting means for extracting a similar partial structure,
Document extracting means for extracting a partial document in the structured document corresponding to the extracted similar partial structure;
An output means for outputting the extracted partial document for each structural element;
A structured document retrieval apparatus characterized by comprising:
前記構造抽出手段は、検索された複数の前記構造化文書のそれぞれで選択した前記構造要素間の類似度を算出し、検索された複数の前記構造化文書から、算出した前記類似度が予め定められた第1閾値より大きい前記構造化文書を取得し、取得した前記構造化文書に含まれる前記構造要素を、前記類似部分構造として抽出すること、
を特徴とする請求項1に記載の構造化文書検索装置。
The structure extraction unit calculates a similarity between the structural elements selected in each of the plurality of searched structured documents, and the calculated similarity is determined in advance from the plurality of searched structured documents. Obtaining the structured document that is greater than the first threshold value, and extracting the structural element included in the obtained structured document as the similar partial structure;
The structured document search apparatus according to claim 1, wherein:
前記構造抽出手段は、検索された前記構造化文書に含まれる前記構造要素のうち、前記検索キーワードを含む前記構造要素を、前記類似部分構造としてさらに抽出すること、
を特徴とする請求項1に記載の構造化文書検索装置。
The structure extraction means further extracts, as the similar partial structure, the structure element including the search keyword from among the structure elements included in the searched structured document;
The structured document search apparatus according to claim 1, wherein:
前記算出手段は、検索された前記構造化文書に含まれる前記構造要素が、前記文書管理装置に格納された前記構造化文書内に出現する頻度を前記統計情報として算出し、
前記構造抽出手段は、前記頻度が予め定められた第2閾値より大きい前記構造要素を、前記構造化文書を特徴づける前記構造要素として選択すること、
を特徴とする請求項1に記載の構造化文書検索装置。
The calculation means calculates, as the statistical information, a frequency at which the structural element included in the searched structured document appears in the structured document stored in the document management device,
The structure extraction means selects the structure element having the frequency greater than a predetermined second threshold as the structure element characterizing the structured document;
The structured document search apparatus according to claim 1, wherein:
前記構造要素の要素名が、検索された複数の前記構造化文書間で互いに同義語の関係にあるか否かを判断する第1判断手段と、
互いに同義語の関係にある一方の要素名を他方の要素名に変更する変更手段と、をさらに備え、
前記算出手段は、変更元の要素名に対応する前記構造要素の前記頻度を、変更先の要素名に対応する前記構造要素の前記頻度に加算して前記統計情報として算出すること、
を特徴とする請求項4に記載の構造化文書検索装置。
First determination means for determining whether the element names of the structural elements are synonymous with each other among the plurality of structured documents searched;
Change means for changing one element name that is synonymous to the other element name, and
The calculation means calculates the statistical information by adding the frequency of the structural element corresponding to the element name of the change source to the frequency of the structural element corresponding to the element name of the change destination,
The structured document search apparatus according to claim 4, wherein:
前記検索キーワードのそれぞれについて、検索された前記構造化文書に含まれる前記構造要素のうち、前記構造要素の実情報と前記検索キーワードとが一致する度合いを表す適合度が最大の前記構造要素の要素名である代表要素名を決定する決定手段と、
検索された前記構造化文書に含まれる前記構造要素のうち、要素名に前記検索キーワードを含む前記構造要素の要素名を前記代表要素名に変更し、変更した前記構造要素の実情報として前記検索キーワードを含む要素名を対応づける変更手段と、をさらに備え、
前記算出手段は、要素名を前記代表要素名に変更した前記構造要素の前記頻度を、前記代表要素名に対応する前記構造要素の前記頻度に加算して前記統計情報として算出すること、
を特徴とする請求項4に記載の構造化文書検索装置。
For each of the search keywords, among the structural elements included in the structured document that has been searched, the element of the structural element having the highest degree of matching that represents the degree to which the actual information of the structural element matches the search keyword A determination means for determining a representative element name which is a name;
Among the structural elements included in the structured document that has been searched, the element name of the structural element that includes the search keyword in the element name is changed to the representative element name, and the search is performed as actual information of the changed structural element. And a changing means for associating the element name including the keyword,
The calculation means calculates the statistical information by adding the frequency of the structural element whose element name is changed to the representative element name to the frequency of the structural element corresponding to the representative element name;
The structured document search apparatus according to claim 4, wherein:
抽出した前記部分文書に含まれない前記検索キーワードが存在するか否かを判断する第2判断手段と、
抽出した前記部分文書に含まれない前記検索キーワードが存在する場合に、前記検索キーワードを含む前記部分文書を、前記構造化文書から抽出して前記部分文書に追加する追加手段と、をさらに備えたこと、
を特徴とする請求項1に記載の構造化文書検索装置。
Second determination means for determining whether or not the search keyword that is not included in the extracted partial document exists;
And an additional means for extracting the partial document including the search keyword from the structured document and adding it to the partial document when there is the search keyword that is not included in the extracted partial document. thing,
The structured document search apparatus according to claim 1, wherein:
前記文書抽出手段は、前記類似部分構造に含まれる前記構造要素を最も多く含む前記部分文書を抽出すること、
を特徴とする請求項1に記載の構造化文書検索装置。
The document extracting means extracts the partial document including the largest number of the structural elements included in the similar partial structure;
The structured document search apparatus according to claim 1, wherein:
前記文書抽出手段は、前記論理構造の階層数が最も少ない前記部分文書を抽出すること、
を特徴とする請求項1に記載の構造化文書検索装置。
The document extracting means extracts the partial document having the smallest number of hierarchies of the logical structure;
The structured document search apparatus according to claim 1, wherein:
前記構造化文書を記憶する構造化文書記憶手段をさらに備え、
前記検索手段は、受付けた前記検索キーワードを含む前記構造化文書を前記構造化文書記憶手段から検索すること、
を特徴とする請求項1に記載の構造化文書検索装置。
Further comprising structured document storage means for storing the structured document;
The search means searches the structured document storage means for the structured document including the received search keyword;
The structured document search apparatus according to claim 1, wherein:
前記構造化文書記憶手段に記憶された前記構造化文書の前記構造要素の要素名が、複数の前記構造化文書間で互いに同義語の関係にあるか否かを判断する第1判断手段と、
互いに同義語の関係にある一方の要素名を他方の要素名に変更し、変更した前記第1構造化文書を前記構造化文書記憶手段に保存する変更手段と、をさらに備えたこと、
を特徴とする請求項10に記載の構造化文書検索装置。
First determination means for determining whether element names of the structural elements of the structured document stored in the structured document storage means are synonymous with each other among the plurality of structured documents;
Change means for changing one element name having a synonym relation to the other element name and saving the changed first structured document in the structured document storage means;
The structured document search device according to claim 10.
複数の前記構造化文書から抽出した前記論理構造を記憶する構造情報記憶手段をさらに備え、
前記構造抽出手段は、検索された前記構造化文書に対応する前記論理構造を前記構造情報記憶手段から取得し、生成された前記特徴ベクトルに基づいて、取得した前記論理構造を特徴づける前記構造要素を選択し、選択した前記構造要素から前記類似部分構造を抽出すること、
を特徴とする請求項1に記載の構造化文書検索装置。
Further comprising: structure information storage means for storing the logical structure extracted from the plurality of structured documents;
The structure extraction unit acquires the logical structure corresponding to the searched structured document from the structure information storage unit, and characterizes the acquired logical structure based on the generated feature vector And extracting the similar partial structure from the selected structural element,
The structured document search apparatus according to claim 1, wherein:
階層化された論理構造を有する構造化文書を格納する文書管理装置とネットワークを介して接続された構造化文書検索装置における構造化文書検索方法であって、
受付手段によって、検索キーワードの入力を受付ける受付ステップと、
検索手段によって、受付けた前記検索キーワードを含む複数の前記構造化文書を前記文書管理装置から検索する検索ステップと、
算出手段によって、検索された複数の前記構造化文書に含まれる前記論理構造の単位である構造要素の出現に関する統計情報を算出する算出ステップと、
構造抽出手段によって、算出された前記統計情報に基づいて、検索された複数の前記構造化文書の特徴ベクトルを生成する生成ステップと、
生成された前記特徴ベクトルに基づいて、検索された複数の前記構造化文書を特徴づける前記構造要素を選択し、選択した前記構造要素から、検索された前記構造化文書間で類似する前記構造要素である類似部分構造を抽出する構造抽出ステップと、
文書抽出手段によって、抽出した前記類似部分構造に対応する前記構造化文書内の部分文書を抽出する文書抽出ステップと、
出力手段によって、抽出した前記部分文書を前記構造要素ごとに出力する出力ステップと、
を備えたことを特徴とする構造化文書検索方法。
A structured document search method in a structured document search apparatus connected via a network to a document management apparatus that stores a structured document having a hierarchical logical structure,
An accepting step for accepting an input of a search keyword by accepting means;
A search step of searching the document management device for a plurality of the structured documents including the received search keyword by a search means;
A calculation step of calculating statistical information on the appearance of a structural element that is a unit of the logical structure included in the plurality of structured documents searched by the calculation unit;
A generation step of generating feature vectors of the plurality of structured documents searched based on the statistical information calculated by the structure extraction unit;
Based on the generated feature vector, the structural elements that characterize the plurality of searched structured documents are selected, and the structural elements that are similar between the searched structured documents are selected from the selected structural elements. A structure extraction step for extracting a similar partial structure,
A document extracting step of extracting a partial document in the structured document corresponding to the extracted similar partial structure by a document extracting means;
An output step of outputting the extracted partial document for each structural element by an output means;
A structured document search method characterized by comprising:
階層化された論理構造を有する構造化文書を格納する文書管理装置とネットワークを介して接続された構造化文書検索装置における構造化文書検索プログラムであって、
検索キーワードの入力を受付ける受付手順と、
受付けた前記検索キーワードを含む複数の前記構造化文書を前記文書管理装置から検索する検索手順と、
検索された複数の前記構造化文書に含まれる前記論理構造の単位である構造要素の出現に関する統計情報を算出する算出手順と、
算出された前記統計情報に基づいて、検索された複数の前記構造化文書の特徴ベクトルを生成する生成手順と、
生成された前記特徴ベクトルに基づいて、検索された複数の前記構造化文書を特徴づける前記構造要素を選択し、選択した前記構造要素から、検索された前記構造化文書間で類似する前記構造要素である類似部分構造を抽出する構造抽出手順と、
抽出した前記類似部分構造に対応する前記構造化文書内の部分文書を抽出する文書抽出手順と、
抽出した前記部分文書を前記構造要素ごとに出力する出力手順と、
をコンピュータに実行させる構造化文書検索プログラム。
A structured document search program in a structured document search apparatus connected via a network to a document management apparatus that stores a structured document having a hierarchical logical structure,
Acceptance procedure to accept search keywords,
A search procedure for searching the document management device for a plurality of structured documents including the received search keyword;
A calculation procedure for calculating statistical information relating to the appearance of a structural element that is a unit of the logical structure included in the plurality of structured documents searched;
A generating procedure for generating feature vectors of the plurality of structured documents searched based on the calculated statistical information;
Based on the generated feature vector, the structural elements that characterize the plurality of searched structured documents are selected, and the structural elements that are similar between the searched structured documents are selected from the selected structural elements. A structure extraction procedure for extracting similar partial structures,
A document extraction procedure for extracting a partial document in the structured document corresponding to the extracted similar partial structure;
An output procedure for outputting the extracted partial document for each structural element;
A structured document search program that causes a computer to execute.
JP2006265769A 2006-09-28 2006-09-28 Structured document retrieval device, structured document retrieval method and structured document retrieval program Abandoned JP2008084192A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006265769A JP2008084192A (en) 2006-09-28 2006-09-28 Structured document retrieval device, structured document retrieval method and structured document retrieval program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006265769A JP2008084192A (en) 2006-09-28 2006-09-28 Structured document retrieval device, structured document retrieval method and structured document retrieval program

Publications (1)

Publication Number Publication Date
JP2008084192A true JP2008084192A (en) 2008-04-10

Family

ID=39354974

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006265769A Abandoned JP2008084192A (en) 2006-09-28 2006-09-28 Structured document retrieval device, structured document retrieval method and structured document retrieval program

Country Status (1)

Country Link
JP (1) JP2008084192A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012226740A (en) * 2011-04-19 2012-11-15 Fujitsu Ltd Tag group classifying method and device, and data mash-up method and device
JP2014049088A (en) * 2012-09-04 2014-03-17 Nippon Telegr & Teleph Corp <Ntt> Document structure analysis device and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012226740A (en) * 2011-04-19 2012-11-15 Fujitsu Ltd Tag group classifying method and device, and data mash-up method and device
JP2014049088A (en) * 2012-09-04 2014-03-17 Nippon Telegr & Teleph Corp <Ntt> Document structure analysis device and program

Similar Documents

Publication Publication Date Title
US9720944B2 (en) Method for facet searching and search suggestions
US11126647B2 (en) System and method for hierarchically organizing documents based on document portions
US8200667B2 (en) Method and apparatus for constructing user profile using content tag, and method for content recommendation using the constructed user profile
JP2012027845A (en) Information processor, relevant sentence providing method, and program
KR101607468B1 (en) Keyword tagging method and system for contents
US20120233214A1 (en) Named entity database or mining rule database update apparatus and method using named entity database and mining rule merged ontology schema
JP2007149047A (en) Document searching device, document searching method, document searching program and recording medium
JP2006215717A (en) System, method, and program for information retrieval
US7698271B2 (en) Conceptual network generating system, conceptual network generating method, and program product therefor
JP2006072744A (en) Document processor, control method therefor, program and storage medium
JP2020129377A (en) Content retrieval method, apparatus, device, and storage medium
JP3178421B2 (en) Text search device and computer-readable recording medium storing text search program
JP2006227823A (en) Information processor and its control method
WO2010119794A1 (en) Information processing apparatus and information processing method
JP2008084192A (en) Structured document retrieval device, structured document retrieval method and structured document retrieval program
JP2008077252A (en) Document ranking method, document retrieval method, document ranking device, document retrieval device, and recording medium
JP2007011973A (en) Information retrieval device and information retrieval program
JP6145064B2 (en) Document set analysis device, document set analysis method, document set analysis program
JP2007279978A (en) Document retrieval device and document retrieval method
JP4544047B2 (en) Web image search result classification presentation method and apparatus, program, and storage medium storing program
JP2007183927A (en) Information processing apparatus, method and program
JP2009140113A (en) Dictionary editing device, dictionary editing method, and computer program
JP2008090396A (en) Electronic document retrieval method, electronic document retrieval device, and program
JP2008165572A (en) Data classification device and data classification program
JP2001101184A (en) Method and device for generating structurized document and storage medium with structurized document generation program stored therein

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090326

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20100202