JP2006195667A - Structured document search device, structured document search method and structured document search program - Google Patents

Structured document search device, structured document search method and structured document search program Download PDF

Info

Publication number
JP2006195667A
JP2006195667A JP2005005648A JP2005005648A JP2006195667A JP 2006195667 A JP2006195667 A JP 2006195667A JP 2005005648 A JP2005005648 A JP 2005005648A JP 2005005648 A JP2005005648 A JP 2005005648A JP 2006195667 A JP2006195667 A JP 2006195667A
Authority
JP
Japan
Prior art keywords
structured document
component
search
hierarchical relationship
additional component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005005648A
Other languages
Japanese (ja)
Inventor
Tomoharu Kokubu
智晴 國分
Toshihiko Manabe
俊彦 真鍋
Tetsuya Sakai
哲也 酒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005005648A priority Critical patent/JP2006195667A/en
Publication of JP2006195667A publication Critical patent/JP2006195667A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a structured document search device that can present in what context a sentence found in a structured document appears. <P>SOLUTION: The structured document search device comprises a storage part 130 for storing a structured document organized in a hierarchical structure of a plurality of components, a reception part 110 for receiving a query, a search part 120 for searching the structured document for a component matching the query, an extraction part 140 for extracting an additional component having an element name relationship with the component found from the structured document, a means 140 for determining hierarchical relationships between the found component and the extracted additional components, and an output part 150 for outputting the hierarchical relationships. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、文書検索装置に関し、特に、構造化文書の構成要素を検索する構造化文書検索装置に関する。ここで、構造化文書とはXML(Extensible Markup Language)など、文書の構成要素(章、節、段落、要約、著者、題名など)を示す情報を、テキストの形式で文書の中に明示的に記載した電子文書のことをいう。   The present invention relates to a document search apparatus, and more particularly to a structured document search apparatus that searches for a component of a structured document. Here, a structured document is information such as XML (Extensible Markup Language) that expresses the components of a document (chapters, sections, paragraphs, abstracts, authors, titles, etc.) explicitly in the document in the form of text. Refers to the described electronic document.

現在、インターネットなどの情報通信技術の進化により、莫大な量の電子データを容易に入手することができるようになった。一方、情報量が莫大なため、必要な情報がその莫大なデータの中に埋没してしまい、思うように検索ができない結果、十分に活用できないという弊害も発生している。   Currently, with the evolution of information and communication technologies such as the Internet, it has become possible to easily obtain enormous amounts of electronic data. On the other hand, since the amount of information is enormous, necessary information is buried in the enormous amount of data, and as a result of being unable to search as expected, there is a problem that it cannot be fully utilized.

こうした弊害を解消するため、電子データを構造化文書とし、これにより情報の共有化を容易にしたり、情報の検索をより効率のよいものにしたりする研究がなされている。例えば、HTML(Hyper Text Markup Language)では、文書の構成要素、例えば文書のタイトル、見出し、段落などがタグ(tag)により記載されている。また、近年注目されているXML(Extensible Markup Language)では、このタグを独自に作成することができるため、HTMLよりも柔軟な拡張性に優れている。   In order to eliminate such adverse effects, researches have been conducted to make electronic data structured documents, thereby facilitating information sharing and making information retrieval more efficient. For example, in HTML (Hyper Text Markup Language), document components, such as document titles, headings, paragraphs, etc., are described by tags. Further, XML (Extensible Markup Language), which has been attracting attention in recent years, is superior in flexibility and extensibility to HTML because it can create this tag independently.

このXMLなどの構造化文書に対して、SQL(Structured Query Language)に似た構文をもち、検索位置、検索条件、情報抽出部分などを記述できる問い合わせ言語が提供されている。   For structured documents such as XML, a query language having a syntax similar to SQL (Structured Query Language) and capable of describing a search position, a search condition, an information extraction part, and the like is provided.

一方、自然言語で構造化文書を検索する技術に関する研究が行われている。例えば「バーチャルリアリティがどれぐらい医療に貢献したか」というような質問に対して適切な検索結果をXMLにより記述され構造化された複数の論文から検索する。このとき論文はタイトル、章、節、段落などの単位に構造化されており、従来の文書検索では論文という単位でしか検索を行うことができなかったが、構造化文書検索システムでは論文中の章や節、段落といった従来のテキスト検索よりも詳細な単位を検索することが可能になってきている。   On the other hand, research on techniques for retrieving structured documents in natural language is being conducted. For example, an appropriate search result for a question such as “How much virtual reality has contributed to medical care” is searched from a plurality of articles described and structured in XML. At this time, the thesis is structured in units of title, chapter, section, paragraph, etc., and in the conventional document search, it was possible to search only in units of articles, but in the structured document search system, It has become possible to search for more detailed units than conventional text searches such as chapters, sections and paragraphs.

このような構造化文書から、質問に対して適切な構造化文書中の部分を構成する要素を検索する場合、検索された構成要素のみを直接ユーザに提示してしまうと、その構成要素が構造化文書中でどのような文脈で出現するかが分からないために検索結果の閲覧性が非常に悪いという問題がある。   When searching for an element that constitutes a part of a structured document appropriate for a question from such a structured document, if only the searched component is directly presented to the user, the component is structured. There is a problem that the search result is very poorly browsed because it is not known in what context it appears in the document.

このため、従来の構造化文書検索装置では、いきなり検索結果を表示させるのではなく、検索結果の概要を表示し、ユーザが詳細を見たいと思うXML文書を発見した場合、このXML文書のルートの構成要素名(例えば製品情報)をマウスでクリックすることによって、文書(例えば製品情報)の詳細内容を表示させている。さらに、詳細に見たい部分がある場合にはその部分をマウスでクリックすることにより、下位層の構成要素の詳細内容を表示させることができる(例えば特許文献1参照)。
特開2004−126770号公報(第6〜7頁、図2、9、11、12)
For this reason, in the conventional structured document search apparatus, instead of displaying the search result suddenly, an overview of the search result is displayed, and when the XML document that the user wants to see details is found, the route of the XML document is displayed. The detailed contents of a document (for example, product information) are displayed by clicking on the component name (for example, product information) with a mouse. Further, when there is a part to be viewed in detail, the detailed contents of the lower layer components can be displayed by clicking on the part with the mouse (see, for example, Patent Document 1).
JP 2004-126770 A (pages 6-7, FIGS. 2, 9, 11, 12)

上述した従来の構造化文書検索装置は検索者がデータベースのツリー構造を知っている場合には有効である。なぜならばツリー構造のルートから下位層をユーザがマウスでクリックして探していく必要があるからである。   The conventional structured document search apparatus described above is effective when the searcher knows the tree structure of the database. This is because it is necessary for the user to search the lower layer from the root of the tree structure by clicking with the mouse.

しかし、検索結果がどのような文脈で出現しているかを提示できないという課題がある。   However, there is a problem that the context in which the search result appears cannot be presented.

本発明の目的は、構造化文書中から検索された文章がどのような文脈で出現しているかを提示できる構造化文書検索装置、構造化文書検索方法、及び構造化文書検索プログラムを提供することである。   An object of the present invention is to provide a structured document search device, a structured document search method, and a structured document search program capable of presenting in what context a sentence searched from a structured document appears. It is.

第1の発明は、複数の構成要素によって階層構造が構成されている構造化文書を格納する格納部と、質問を受け付ける受付部と、前記質問に対応する構成要素を前記構造化文書から検索する検索部と、前記検索された構成要素と、要素名が関係のある付加構成要素を前記構造化文書から抽出する抽出部と、前記検索された構成要素と、前記抽出された付加構成要素との階層関係を求める手段と、前記階層関係を出力する出力部とを備える構造化文書検索装置である。   In the first invention, a storage unit for storing a structured document having a hierarchical structure composed of a plurality of components, a reception unit for receiving a question, and a component corresponding to the question are searched from the structured document. A search unit; an extracted unit that extracts an additional component having a related element name from the structured document; the searched component; and the extracted additional component A structured document search apparatus including means for obtaining a hierarchical relationship and an output unit for outputting the hierarchical relationship.

第2の発明は、前記抽出部は、前記抽出された付加構成要素から、前記検索された構成要素との階層的な距離によってさらに抽出することを特徴とする第1の発明記載の構造化文書検索装置である。   According to a second aspect, in the structured document according to the first aspect, the extraction unit further extracts the extracted additional component from the extracted additional component by a hierarchical distance from the searched component. A search device.

第3の発明は、複数の構成要素によって階層構造が構成されている構造化文書を格納する格納部と、質問を受け付ける受付部と、前記質問に対応する構成要素を前記構造化文書から検索する検索部と、前記検索された構成要素と、語彙情報が関係のある付加構成要素を前記構造化文書から抽出する抽出部と、前記検索された構成要素と、前記抽出された付加構成要素との階層関係を求める手段と、前記階層関係を出力する出力部とを備える構造化文書検索装置である。   According to a third aspect of the present invention, a storage unit that stores a structured document having a hierarchical structure composed of a plurality of components, a reception unit that receives a question, and a component corresponding to the question are searched from the structured document. A search unit; an extracted unit that extracts an additional component related to the searched component and lexical information from the structured document; the searched component; and the extracted additional component A structured document search apparatus including means for obtaining a hierarchical relationship and an output unit for outputting the hierarchical relationship.

第4の発明は、前記抽出部は、前記抽出された付加構成要素から、前記検索された構成要素との語彙的な距離によってさらに抽出することを特徴とする第3の発明記載の構造化文書検索装置である。   According to a fourth aspect, in the structured document according to the third aspect, the extraction unit further extracts the extracted additional component from the extracted additional component based on a lexical distance from the searched component. A search device.

第5の発明は、質問を受け付ける受付ステップと、複数の構成要素によって階層構造が構成されている構造化文書から、前記質問に対応する構成要素を検索する検索ステップと、前記検索された構成要素と、要素名が関係のある付加構成要素を前記構造化文書から抽出する抽出ステップと、前記検索された構成要素と、前記抽出された付加構成要素との階層関係を求めるステップと、前記階層関係を出力する出力ステップとを備える構造化文書検索方法である。   The fifth invention includes a reception step for accepting a question, a search step for searching for a component corresponding to the question from a structured document having a hierarchical structure composed of a plurality of components, and the searched component An extraction step of extracting an additional component having an element name relationship from the structured document, a step of obtaining a hierarchical relationship between the retrieved component and the extracted additional component, and the hierarchical relationship A structured document search method comprising: an output step of outputting.

第6の発明は、質問を受け付ける受付ステップと、複数の構成要素によって階層構造が構成されている構造化文書から、前記質問に対応する構成要素を検索する検索ステップと、前記検索された構成要素と、語彙情報が関係のある付加構成要素を前記構造化文書から抽出する抽出ステップと、前記検索された構成要素と、前記抽出された付加構成要素との階層関係を求めるステップと、前記階層関係を出力する出力ステップとを備える構造化文書検索方法である。   The sixth invention includes a step of accepting a question, a search step of searching for a component corresponding to the question from a structured document having a hierarchical structure composed of a plurality of components, and the searched component Extracting an additional component related to vocabulary information from the structured document; obtaining a hierarchical relationship between the retrieved component and the extracted additional component; and the hierarchical relationship A structured document search method comprising: an output step of outputting.

第7の発明は、質問を受け付ける受付手順と、複数の構成要素によって階層構造が構成されている構造化文書から、前記質問に対応する構成要素を検索する検索手順と、前記検索された構成要素と、語彙情報が関係のある付加構成要素を前記構造化文書から抽出する抽出手順と、前記検索された構成要素と、前記抽出された付加構成要素との階層関係を求める手段と、前記階層関係を出力する出力手順とをコンピュータに実行させる構造化文書検索プログラムである。   According to a seventh aspect of the present invention, there is provided a reception procedure for receiving a question, a search procedure for searching for a component corresponding to the question from a structured document having a hierarchical structure composed of a plurality of components, and the searched component An extraction procedure for extracting additional components related to vocabulary information from the structured document, means for obtaining a hierarchical relationship between the retrieved component and the extracted additional component, and the hierarchical relationship Is a structured document search program that causes a computer to execute an output procedure for outputting.

第8の発明は、質問を受け付ける受付手順と、複数の構成要素によって階層構造が構成されている構造化文書から、前記質問に対応する構成要素を検索する検索手順と、前記検索された構成要素と、語彙情報が関係のある付加構成要素を前記構造化文書から抽出する抽出手順と、前記検索された構成要素と、前記抽出された付加構成要素との階層関係を求める手順と、前記階層関係を出力する出力手順とをコンピュータに実行させる構造化文書検索プログラムである。   According to an eighth aspect of the present invention, there is provided a procedure for accepting a question, a search procedure for searching for a component corresponding to the question from a structured document having a hierarchical structure composed of a plurality of components, and the searched component An extraction procedure for extracting an additional component related to vocabulary information from the structured document, a procedure for obtaining a hierarchical relationship between the retrieved component and the extracted additional component, and the hierarchical relationship Is a structured document search program that causes a computer to execute an output procedure for outputting.

本発明によれば、構造化文書中から検索された文章がどのような文脈で出現しているかを提示できる構造化文書検索装置、構造化文書検索方法、及び構造化文書検索プログラムを提供することができる。   According to the present invention, there are provided a structured document search device, a structured document search method, and a structured document search program capable of presenting in what context a sentence searched from within a structured document appears. Can do.

以下、本発明の実施の形態について図面を参照しながら説明する。構造化文書としてはXML(Extensible Markup Language)やSGML(Standard Generalized Markup Language)などで記述した文書が挙げられる。XMLとはW3C(World Wide Web Consortium)で定められた規格である。SGMLとはISO(International Organization For Standardization)で定められた規格である。それぞれ文書を構造化することを可能とする構造化文書規約である。以下、構造化文書としてXMLにて記述された文書を例に説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. Examples of structured documents include documents described in XML (Extensible Markup Language), SGML (Standard Generalized Markup Language), and the like. XML is a standard defined by the World Wide Web Consortium (W3C). SGML is a standard defined by ISO (International Organization For Standardization). Each is a structured document convention that allows documents to be structured. Hereinafter, a document described in XML as a structured document will be described as an example.

(第1の実施形態)
図1は、第1の実施形態に係る構造化文書検索装置の概略構成図である。構造化文書検索装置100は、キーボード等で入力されたユーザの質問を受け付ける入力部110と、検索対象となる構造化文書を格納する構造化文書格納部130と、質問に対する適切な回答を構造化文書中の構成要素を検索する検索部120と、検索された構成要素が構造化文書中のどのような文脈で出現するかを端的に表すような付加的な構成要素を構造化文書格納部から抽出する付加構成要素抽出部140と、ディスプレー等に出力し、ユーザに検索結果を提示する出力部150とを備える。
(First embodiment)
FIG. 1 is a schematic configuration diagram of a structured document search apparatus according to the first embodiment. The structured document search apparatus 100 structures an input unit 110 that receives a user's question input with a keyboard or the like, a structured document storage unit 130 that stores a structured document to be searched, and an appropriate answer to the question. A search unit 120 for searching for a component in the document and an additional component from the structured document storage unit that directly represents in what context the searched component appears in the structured document. An additional component extraction unit 140 for extraction and an output unit 150 that outputs to a display or the like and presents a search result to the user are provided.

図2は、第1の実施形態に係る構造化文書検索装置のフローチャートである。図3は、検索対象となる構造化文書の一例を示す図である。ここでは、カメラの取り扱い説明書を挙げる。   FIG. 2 is a flowchart of the structured document search apparatus according to the first embodiment. FIG. 3 is a diagram illustrating an example of a structured document to be searched. Here is an instruction manual for the camera.

ユーザがキーボード等で質問文を入力すると、入力部110はこれを受け付ける(S110)。ここでは、質問文の一例として「近くのものを撮影するときにピントを合わせるにはどうするの?」を挙げる。   When the user inputs a question sentence with a keyboard or the like, the input unit 110 accepts this (S110). Here, as an example of the question sentence, “how to focus when shooting a nearby object” is given.

検索部120では、質問文からキーワードの取り出しを行う(S120)。キーワードとしては名詞等の自立語を取り出せばよい。ここでは「近く」、「撮影」、「ピント」が取り出される。このキーワードに基づいて検索を実行する。   The search unit 120 extracts keywords from the question sentence (S120). As a keyword, an independent word such as a noun may be extracted. Here, “near”, “photographing”, and “focus” are extracted. A search is executed based on this keyword.

構造化文書格納部130には、構造化文書が構成要素単位で格納されている。構成要素とは、例えばタグ<PARA>と</PARA>で区切られた要素をいい、構成要素毎にインデクスが付けられている。構成要素インデックスは図4に示すように語彙インデクス、構造情報インデクス、本文インデクスで構成されている。   The structured document storage unit 130 stores structured documents in units of constituent elements. The component element is, for example, an element delimited by tags <PARA> and </ PARA>, and an index is attached to each component element. As shown in FIG. 4, the component index is composed of a vocabulary index, a structure information index, and a body text index.

本文インデクスには、その構成要素の本文が記載されている。構造情報インデクスには、構造化文章の各構成要素の親子関係、兄弟関係等の構造情報が記載されている。親子関係とは、ツリー構造の上位層の構成要素を親とし、下位層の構成要素を子供としている。また、兄弟関係とは、同じ階層の構成要素のことをいう。例えば、図4に記載されている第1章第2節第2項の構成要素の場合、兄弟関係の構成要素とは、第1章第2節第1項または第1章第2節第3項の構成要素をいい、親関係の構成要素とは第1章第2節または第1章の構成要素をいう。なお、第1章第2節第2項が一番下位の構成要素なので、子関係の構成要素が無いことがわかる。   The body index describes the body of the component. In the structure information index, structure information such as a parent-child relationship and a sibling relationship of each component of the structured text is described. In the parent-child relationship, the upper layer component of the tree structure is a parent, and the lower layer component is a child. A sibling relationship refers to a component in the same hierarchy. For example, in the case of the components in Chapter 1, Section 2, Item 2 shown in FIG. 4, the components of the sibling relationship are Chapter 1, Section 2, Item 1 or Chapter 1, Section 2, Item 3. The term “component” refers to the component in Chapter 1, Section 2, or Chapter 1. In addition, since Chapter 2 Section 2 Item 2 is the lowest component, it can be seen that there are no child-related components.

また、語彙インデクスには、その構成要素及び子関係の構成要素の自立語および頻度情報が記載されている。図4では、第1章第2節第2項が一番下位の構成要素なので、子関係の構成要素が無く、語彙インデクスには第1章第2節第2項の構成要素の自立語だけが記載されている。なお、語彙インデクスに、子要素の語彙を持っているかどうかはシステムに依存する。子要素の語彙を持っている場合は検索自体の速度が速くなる。ただし、インデクスが冗長なため、ディスクサイズが大きくなるので、ディスクサイズを小さくしたい場合には、語彙インデクスに雇用その語彙を持たせない方がよい。   The vocabulary index describes independent words and frequency information of the constituent elements and constituent elements of the child relation. In FIG. 4, since Chapter 1 Section 2 Section 2 is the lowest order component, there are no child-related components, and the vocabulary index contains only independent words for the components in Chapter 1 Section 2 Section 2. Is described. Whether the vocabulary index has child element vocabulary depends on the system. If you have a vocabulary of child elements, the speed of the search itself will be faster. However, since the index is redundant, the disk size increases, so if you want to reduce the disk size, it is better not to hire the vocabulary index to have that vocabulary.

次に、検索部120は、各構成要素インデクス中の語彙インデクスを参照し、取り出したキーワードについて各構成要素の重要度を計算する(S130)。この重要度の計算には、TF(Term Frequency)/IDF(Inverted Document Frequency)法などを用いればよい。この手法では次の二つの指標を組み合わせて構成要素の重要度を計算する。TFは、文書に出現するキーワードの頻度のことであり、キーワードの網羅性を示し、IDFは、全文書数をキーワードの出現する文書数で割ったものの対数を取った値で、キーワードの特定性を示す。このIDFを計算するには、全文書数とキーワードの出現する文書数を求める必要があり、通常の文書検索においては予め検索すべき文書の単位が明示的に与えられる。   Next, the search unit 120 refers to the vocabulary index in each component index, and calculates the importance of each component for the extracted keyword (S130). The importance may be calculated using a TF (Term Frequency) / IDF (Inverted Document Frequency) method or the like. In this method, the importance of a component is calculated by combining the following two indicators. TF is the frequency of keywords appearing in a document and indicates the completeness of the keywords. IDF is a logarithm of the total number of documents divided by the number of documents in which the keyword appears. Indicates. In order to calculate the IDF, it is necessary to obtain the total number of documents and the number of documents in which keywords appear. In a normal document search, a unit of a document to be searched is explicitly given in advance.

しかし、本実施形態のように、ある文書からある構成要素を検索する場合には、検索の単位となる構成要素が予め分からないので、例えば、文書検索において全文書数を構造化文書中の全要素数で置き換え、キーワードの出現する要素数で置き換えることにより計算を行う。次に、取り出したキーワードの重要度の合計で各構成要素の重要度を求め、重要度の最も高い構成要素を検索結果とする。   However, when searching for a component from a document as in the present embodiment, the component that is the unit of search is not known in advance. For example, the total number of documents in the structured document is calculated in the document search. Calculation is performed by replacing with the number of elements and replacing with the number of elements in which the keyword appears. Next, the importance of each component is obtained from the total importance of the extracted keywords, and the component having the highest importance is used as the search result.

図5は、質問文から検索結果を抽出した図である。本実施形態では、質問文中のキーワード3つ「近く」、「撮影」、「ピント」のうち、「近く」、「撮影」の2つを含む構成要素である第1章第2節第2項を検索結果として得ることができた。この検索結果を検索部120は付加構成要素抽出部140に送る。   FIG. 5 is a diagram in which search results are extracted from the question text. In the present embodiment, among the three keywords “near”, “photograph”, and “focus” in the question sentence, the first chapter, the second section, the second term, which is a component including two of “near” and “photograph”. Was obtained as a search result. The search unit 120 sends the search result to the additional component extraction unit 140.

付加構成要素抽出部140では、検索された構成要素とツリー構造上、関係の深い構成要素を付加構成要素として抽出する。まず、付加構成要素の候補となる構成要素(付加構成要素候補)を抽出する(S150)。ここで、付加構成要素候補として、検索された構成要素の祖先要素、兄弟要素、子孫要素を抽出する。検索された構成要素が第1章第2節第2項ならば、祖先要素として第1章第2節または単に第1章を、兄弟要素として第1章第2節第1項または第1章第2節第3項を抽出する。なお、子孫要素はこの場合無い。   The additional component extraction unit 140 extracts a component that is closely related to the searched component in the tree structure as an additional component. First, component elements (candidate additional component elements) that are candidates for additional component elements are extracted (S150). Here, ancestor elements, sibling elements, and descendant elements of the searched constituent elements are extracted as additional constituent element candidates. If the retrieved component is Chapter 1, Section 2, Section 2, then Chapter 1 Section 2 or simply Chapter 1 as the ancestor element, Chapter 1 Section 2 Section 1 or Chapter 1 as the sibling element Extract Section 3 and Section 3. Note that there are no descendant elements in this case.

次に、抽出した付加構成要素候補を要素名で選別する(S160)。図6は、付加構成要素候補として残すべき要素名のリストである。ここでは、TITLE、MEMO、SUBTITLEを残す。これらは章、節などの見出しであり、ユーザが文脈を理解するのに有効なためである。   Next, the extracted additional component candidate is selected by element name (S160). FIG. 6 is a list of element names that should remain as additional component candidate. Here, TITLE, MEMO, and SUBITLE are left. These are headings for chapters, sections, etc., and are useful for the user to understand the context.

続いて、選別した付加構成要素候補から、検索された構成要素との階層的な距離がある一定以上の距離にあるものを候補から除外する(S170)。階層的な距離とは例えば、親子関係の距離を1と置き、距離が2より大きいものを除く。この処理によって、図3に示す構造化文書から図7に示す付加構成要素が抽出される(S180)。   Subsequently, from the selected additional component candidates, those having a hierarchical distance from the searched component to a certain distance are excluded from the candidates (S170). As the hierarchical distance, for example, a parent-child relationship distance is set to 1 and a distance greater than 2 is excluded. Through this process, the additional components shown in FIG. 7 are extracted from the structured document shown in FIG. 3 (S180).

出力部150は、検索された構成要素及び抽出された付加構成要素を取得する。取得した構成要素の構造情報インデクスを参照することによって、検索された構成要素及び抽出された付加構成要素の階層関係を求める(S190)。これにより図5に示すような検索結果と図7に示すような付加構成要素において、付加構成要素(a)は検索結果と兄弟であり、出現順序は(a)の方が先に出現したことが分かり、付加構成要素(b)は検索結果の親要素と兄弟であることであり、構成要素の親より(b)の方が先に出現したことが分かる。   The output unit 150 acquires the searched component and the extracted additional component. By referring to the structure information index of the obtained component element, the hierarchical relationship between the retrieved component element and the extracted additional component element is obtained (S190). As a result, in the search result as shown in FIG. 5 and the additional component as shown in FIG. 7, the additional component (a) is a sibling with the search result, and the appearance order (a) appears first. It can be seen that the additional component (b) is a sibling with the parent element of the search result, and that (b) appears earlier than the parent of the component.

次に出力部は上述した階層関係をもとに出力情報を生成する。例えば、検索された構成要素と兄弟にある要素は出現順序を保持した状態を出力し、祖先の要素は祖先要素として出力し、例えば図8のような出力結果を得ることができる(S200)。以上のような処理により、検索結果が構造化文書中でどのような文脈で出現したかをユーザに分かりやすく提示することが可能となる。   Next, the output unit generates output information based on the hierarchical relationship described above. For example, a state in which the appearance order is maintained is output for elements that are siblings with the searched constituent element, and an ancestor element is output as an ancestor element, and an output result such as that shown in FIG. 8 can be obtained (S200). Through the processing described above, it is possible to present to the user in an easy-to-understand manner the context in which the search result appears in the structured document.

(第2の実施形態)
次に、第2の実施形態について図9のフローチャートを用いて説明する。第2の実施形態は、付加構成要素決定のプロセスが第1の実施形態と異なる。第1の実施形態では、要素名による選別と、階層的な距離による除外と(図2のS160、S170)を行った。一方、第2の実施形態では、語彙情報の取得と、語の近さによる選択と(図9のS260、S270)を行う。他の箇所は第1の実施形態と同じなので、同じ符号の説明を参酌していただきたい。
(Second Embodiment)
Next, a second embodiment will be described using the flowchart of FIG. The second embodiment is different from the first embodiment in the process of determining additional components. In the first embodiment, selection by element name and exclusion by hierarchical distance are performed (S160 and S170 in FIG. 2). On the other hand, in the second embodiment, acquisition of vocabulary information and selection based on closeness of words (S260 and S270 in FIG. 9) are performed. The other parts are the same as those in the first embodiment, so please refer to the description of the same reference numerals.

付加構成要素抽出部140は、第1の実施形態と同様に、付加構成要素候補の抽出を行う(S150)。次に、構成要素インデクス中の語彙インデクスを参照し、検索部120により検索された構成要素及び、付加構成要素候補の語彙情報を取得する(S260)。   The additional component extraction unit 140 extracts additional component candidates as in the first embodiment (S150). Next, referring to the vocabulary index in the component index, the component searched by the search unit 120 and the vocabulary information of the additional component candidate are acquired (S260).

そして、付加構成要素抽出部140は、検索された構成要素と付加構成要素候補との語彙的な距離を計算する。この計算方法としては、例えば語を単位としてベクトル空間モデルにより行えばよい。ベクトル空間モデルについては、文献(徳永健伸:情報検索と言語処理:東京大学出版社:1999年)を参照していただきたい。この計算により、検索された構成要素に対して語彙的に類似した付加構成要素を抽出する(S270、図10)。出力部150は第1の実施形態と同様の出力処理を行い、図11のような出力結果を得ることができる。   Then, the additional component extraction unit 140 calculates a lexical distance between the searched component and the additional component candidate. As this calculation method, for example, a vector space model may be used in units of words. For the vector space model, please refer to the literature (Takenobu Tokunaga: Information Retrieval and Language Processing: The University of Tokyo Publishers: 1999). By this calculation, additional components that are lexically similar to the retrieved components are extracted (S270, FIG. 10). The output unit 150 performs output processing similar to that of the first embodiment, and can obtain an output result as shown in FIG.

なお、付加構成要素抽出部140は第1の実施形態における要素名による選別と、階層的な距離による除外との機能と、第2の実施形態における語彙情報の取得と、語の近さによる選択との機能を組み合わせることが可能である。図12は、組み合わせた場合の抽出結果であり、図13は、組み合わせた場合の出力結果を示す図である。   Note that the additional component extraction unit 140 has a function of selecting by element name and exclusion by hierarchical distance in the first embodiment, acquisition of vocabulary information in the second embodiment, and selection by word proximity It is possible to combine the functions. FIG. 12 shows the extraction result when combined, and FIG. 13 shows the output result when combined.

上述した実施の形態は、本発明の好適な具体例であるから、技術的に好ましい種々の限定が付されているが、本発明の趣旨を逸脱しない範囲であれば、適宜組み合わせ及び変更することができることはいうまでもない。例えば、構造化文書検索装置がサーバー等のコンピュータであり、検索された構成要素と付加構成要素との階層関係を取得することができる。したがって、ビューアソフトを備えた端末にこの階層関係をバー表示として出力することができる。そして、端末は、ビューアソフトのビジュアル機能を利用して、検索された構成要素と、その付加構成要素の出現位置を分かりやすく位置表示したバー表示をすることができる。図14は、図8の第1の実施形態に係る出力結果をバー表示にした図である。バー全体が第2節「フォーカスを設定する」を表し、検索結果の相対的な位置をユーザが理解しやすくしている。   The above-described embodiment is a preferable specific example of the present invention, and thus various technically preferable limitations are attached. However, the embodiments may be appropriately combined and changed within a range not departing from the gist of the present invention. Needless to say, you can. For example, the structured document search device is a computer such as a server, and the hierarchical relationship between the searched component and the additional component can be acquired. Therefore, this hierarchical relationship can be output as a bar display to a terminal equipped with viewer software. And the terminal can display the bar which displayed the position which the searched component and the appearance position of the additional component showed clearly, using the visual function of viewer software. FIG. 14 is a diagram showing the output results according to the first embodiment of FIG. 8 in a bar display. The entire bar represents Section 2 “Set focus”, which makes it easier for the user to understand the relative position of the search results.

第1の実施形態に係る構造化文書検索装置の概略構成図。1 is a schematic configuration diagram of a structured document search device according to a first embodiment. FIG. 第1の実施形態に係る構造化文書検索装置のフローチャート。5 is a flowchart of the structured document search device according to the first embodiment. 検索対象となる構造化文書の一例を示す図Diagram showing an example of a structured document to be searched 構成要素インデクスの一例を示す図。The figure which shows an example of a component element index. 質問文から検索結果を抽出した図。The figure which extracted the search result from the question sentence. 第1の実施形態に係る付加構成要素候補として残すべき要素名のリスト。A list of element names to be left as additional component candidate candidates according to the first embodiment. 第1の実施形態に係る付加構成要素抽出部の抽出結果を示す図。The figure which shows the extraction result of the additional component extraction part which concerns on 1st Embodiment. 第1の実施形態に係る出力結果を示す図。The figure which shows the output result which concerns on 1st Embodiment. 第2の実施形態に係る構造化文書検索装置のフローチャート。9 is a flowchart of a structured document search device according to a second embodiment. 第2の実施形態に係る付加構成要素抽出部の抽出結果を示す図。The figure which shows the extraction result of the additional component extraction part which concerns on 2nd Embodiment. 第2の実施形態に係る出力結果を示す図。The figure which shows the output result which concerns on 2nd Embodiment. 第1及び第2の実施形態を組み合わせた場合の抽出結果を示す図。The figure which shows the extraction result at the time of combining 1st and 2nd embodiment. 第1及び第2の実施形態を組み合わせた場合の出力結果を示す図。The figure which shows the output result at the time of combining 1st and 2nd embodiment. 図8の第1の実施形態に係る出力結果をバー表示にした図。The figure which displayed the output result which concerns on 1st Embodiment of FIG. 8 on the bar display.

符号の説明Explanation of symbols

100 構造化文書検索装置
110 入力部
120 検索部
130 構造化文書格納部
140 付加構成要素抽出部
150 出力部
DESCRIPTION OF SYMBOLS 100 Structured document search apparatus 110 Input part 120 Search part 130 Structured document storage part 140 Additional component extraction part 150 Output part

Claims (8)

複数の構成要素によって階層構造が構成されている構造化文書を格納する格納部と、
質問を受け付ける受付部と、
前記質問に対応する構成要素を前記構造化文書から検索する検索部と、
前記検索された構成要素と、要素名が関係のある付加構成要素を前記構造化文書から抽出する抽出部と、
前記検索された構成要素と、前記抽出された付加構成要素との階層関係を求める手段と、
前記階層関係を出力する出力部と
を備える構造化文書検索装置。
A storage unit for storing a structured document in which a hierarchical structure is configured by a plurality of components;
A reception unit that accepts questions,
A search unit that searches the structured document for a component corresponding to the question;
An extraction unit that extracts additional structural elements having element names related to the retrieved structural elements from the structured document;
Means for obtaining a hierarchical relationship between the retrieved component and the extracted additional component;
A structured document search apparatus comprising: an output unit that outputs the hierarchical relationship.
前記抽出部は、前記抽出された付加構成要素から、前記検索された構成要素との階層的な距離によってさらに抽出することを特徴とする請求項1記載の構造化文書検索装置。   The structured document search apparatus according to claim 1, wherein the extraction unit further extracts the extracted additional component from a hierarchical distance to the searched component from the extracted additional component. 複数の構成要素によって階層構造が構成されている構造化文書を格納する格納部と、
質問を受け付ける受付部と、
前記質問に対応する構成要素を前記構造化文書から検索する検索部と、
前記検索された構成要素と、語彙情報が関係のある付加構成要素を前記構造化文書から抽出する抽出部と、
前記検索された構成要素と、前記抽出された付加構成要素との階層関係を求める手段と、
前記階層関係を出力する出力部と
を備える構造化文書検索装置。
A storage unit for storing a structured document in which a hierarchical structure is configured by a plurality of components;
A reception unit that accepts questions,
A search unit that searches the structured document for a component corresponding to the question;
An extraction unit that extracts additional structural elements related to the searched structural elements and vocabulary information from the structured document;
Means for obtaining a hierarchical relationship between the retrieved component and the extracted additional component;
A structured document search apparatus comprising: an output unit that outputs the hierarchical relationship.
前記抽出部は、前記抽出された付加構成要素から、前記検索された構成要素との語彙的な距離によってさらに抽出することを特徴とする請求項3記載の構造化文書検索装置。   4. The structured document search apparatus according to claim 3, wherein the extraction unit further extracts the extracted additional component from the extracted component according to a lexical distance from the searched component. 質問を受け付ける受付ステップと、
複数の構成要素によって階層構造が構成されている構造化文書から、前記質問に対応する構成要素を検索する検索ステップと、
前記検索された構成要素と、要素名が関係のある付加構成要素を前記構造化文書から抽出する抽出ステップと、
前記検索された構成要素と、前記抽出された付加構成要素との階層関係を求めるステップと、
前記階層関係を出力する出力ステップと
を備える構造化文書検索方法。
A reception step for accepting questions;
A search step of searching for a component corresponding to the question from a structured document in which a hierarchical structure is configured by a plurality of components;
An extraction step of extracting additional structural elements having element names related to the retrieved structural elements from the structured document;
Obtaining a hierarchical relationship between the retrieved component and the extracted additional component;
A structured document search method comprising: an output step of outputting the hierarchical relationship.
質問を受け付ける受付ステップと、
複数の構成要素によって階層構造が構成されている構造化文書から、前記質問に対応する構成要素を検索する検索ステップと、
前記検索された構成要素と、語彙情報が関係のある付加構成要素を前記構造化文書から抽出する抽出ステップと、
前記検索された構成要素と、前記抽出された付加構成要素との階層関係を求めるステップと、
前記階層関係を出力する出力ステップと
を備える構造化文書検索方法。
A reception step for accepting questions;
A search step of searching for a component corresponding to the question from a structured document in which a hierarchical structure is configured by a plurality of components;
An extraction step of extracting from the structured document an additional component related to the searched component and vocabulary information;
Obtaining a hierarchical relationship between the retrieved component and the extracted additional component;
A structured document search method comprising: an output step of outputting the hierarchical relationship.
質問を受け付ける受付手順と、
複数の構成要素によって階層構造が構成されている構造化文書から、前記質問に対応する構成要素を検索する検索手順と、
前記検索された構成要素と、語彙情報が関係のある付加構成要素を前記構造化文書から抽出する抽出手順と、
前記検索された構成要素と、前記抽出された付加構成要素との階層関係を求める手段と、
前記階層関係を出力する出力手順と
をコンピュータに実行させる構造化文書検索プログラム。
Acceptance procedure to accept questions,
A search procedure for searching for a component corresponding to the question from a structured document in which a hierarchical structure is configured by a plurality of components;
An extraction procedure for extracting from the structured document an additional component related to the searched component and vocabulary information;
Means for obtaining a hierarchical relationship between the retrieved component and the extracted additional component;
A structured document search program for causing a computer to execute an output procedure for outputting the hierarchical relationship.
質問を受け付ける受付手順と、
複数の構成要素によって階層構造が構成されている構造化文書から、前記質問に対応する構成要素を検索する検索手順と、
前記検索された構成要素と、語彙情報が関係のある付加構成要素を前記構造化文書から抽出する抽出手順と、
前記検索された構成要素と、前記抽出された付加構成要素との階層関係を求める手順と、
前記階層関係を出力する出力手順と
をコンピュータに実行させる構造化文書検索プログラム。
Acceptance procedure to accept questions,
A search procedure for searching for a component corresponding to the question from a structured document in which a hierarchical structure is configured by a plurality of components;
An extraction procedure for extracting from the structured document an additional component related to the searched component and vocabulary information;
Obtaining a hierarchical relationship between the retrieved component and the extracted additional component;
A structured document search program for causing a computer to execute an output procedure for outputting the hierarchical relationship.
JP2005005648A 2005-01-12 2005-01-12 Structured document search device, structured document search method and structured document search program Pending JP2006195667A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005005648A JP2006195667A (en) 2005-01-12 2005-01-12 Structured document search device, structured document search method and structured document search program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005005648A JP2006195667A (en) 2005-01-12 2005-01-12 Structured document search device, structured document search method and structured document search program

Publications (1)

Publication Number Publication Date
JP2006195667A true JP2006195667A (en) 2006-07-27

Family

ID=36801721

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005005648A Pending JP2006195667A (en) 2005-01-12 2005-01-12 Structured document search device, structured document search method and structured document search program

Country Status (1)

Country Link
JP (1) JP2006195667A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008123240A (en) * 2006-11-13 2008-05-29 Sumitomo Forestry Co Ltd Building information retrieval system
WO2013136545A1 (en) * 2012-03-14 2013-09-19 株式会社東芝 Structured document management device, structured document search method
CN108959387A (en) * 2018-05-31 2018-12-07 科大讯飞股份有限公司 Information acquisition method and device
WO2019160152A1 (en) * 2018-02-19 2019-08-22 Arithmer株式会社 Dialog management server, dialog management method, and program
JP2020184294A (en) * 2019-04-26 2020-11-12 Arithmer株式会社 Dialog management server, dialog management method, and program
JP2021064143A (en) * 2019-10-11 2021-04-22 株式会社Legalscape Sentence generating device, sentence generating method, and sentence generating program

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008123240A (en) * 2006-11-13 2008-05-29 Sumitomo Forestry Co Ltd Building information retrieval system
WO2013136545A1 (en) * 2012-03-14 2013-09-19 株式会社東芝 Structured document management device, structured document search method
JP2013191046A (en) * 2012-03-14 2013-09-26 Toshiba Corp Structured document management device, structured document retrieval method
WO2019160152A1 (en) * 2018-02-19 2019-08-22 Arithmer株式会社 Dialog management server, dialog management method, and program
JP2019145102A (en) * 2018-02-19 2019-08-29 Arithmer株式会社 Dialog management server, dialog management method, and program
CN108959387A (en) * 2018-05-31 2018-12-07 科大讯飞股份有限公司 Information acquisition method and device
JP2020184294A (en) * 2019-04-26 2020-11-12 Arithmer株式会社 Dialog management server, dialog management method, and program
JP2021064143A (en) * 2019-10-11 2021-04-22 株式会社Legalscape Sentence generating device, sentence generating method, and sentence generating program

Similar Documents

Publication Publication Date Title
US8838650B2 (en) Method and apparatus for preprocessing a plurality of documents for search and for presenting search result
Cammarano et al. Visualization of heterogeneous data
Sinha et al. Magnet: Supporting navigation in semistructured data environments
Schouten et al. A semantic web-based approach for personalizing news
JP2010092476A (en) Display method, system and storage medium
Pyshkin et al. Approaches for web search user interfaces
US20140280086A1 (en) Method and apparatus for document representation enhancement via social information integration in information retrieval systems
Gärtner et al. Bridging structured and unstructured data via hybrid semantic search and interactive ontology-enhanced query formulation
JP2006195667A (en) Structured document search device, structured document search method and structured document search program
JP4010058B2 (en) Document association apparatus, document browsing apparatus, computer-readable recording medium recording a document association program, and computer-readable recording medium recording a document browsing program
Fahmi et al. SWHi system description: A case study in information retrieval, inference, and visualization in the semantic web
JP6173990B2 (en) Search support apparatus, method and program
Man et al. The proposed algorithm for semi-structured data integration: Case study of Setiu wetland data set
Layfield et al. Experiments with document retrieval from small text collections using latent semantic analysis or term similarity with query coordination and automatic relevance feedback
Balog Semistructured data search
Gubanov et al. Readfast: Structural information retrieval from biomedical big text by natural language processing
Rocha et al. LODifying personal content sharing
Piccinini et al. Publishing deep web geographic data
Hirokawa et al. Component-based search engine for blogs
JP2009251845A (en) Retrieval result evaluation device and retrieval result evaluation method
Khan et al. A semi search algorithm towards semantic search using domain ontologies
Watters et al. Meaningful Clouds: Towards a novel interface for document visualization
Zhou Keyword Search on Large-Scale Structured, Semi-Structured, and Unstructured Data
Pham et al. A simhash-based scheme for locating product information from the Web
Hammo et al. ViStA: a visualization system for exploring Arabic text

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090116

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090317

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090918