JP4839195B2 - A calculation method and program of the fit of the Xml document, the information processing apparatus - Google Patents

A calculation method and program of the fit of the Xml document, the information processing apparatus Download PDF

Info

Publication number
JP4839195B2
JP4839195B2 JP2006333993A JP2006333993A JP4839195B2 JP 4839195 B2 JP4839195 B2 JP 4839195B2 JP 2006333993 A JP2006333993 A JP 2006333993A JP 2006333993 A JP2006333993 A JP 2006333993A JP 4839195 B2 JP4839195 B2 JP 4839195B2
Authority
JP
Grant status
Grant
Patent type
Prior art keywords
information
path
document
node
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006333993A
Other languages
Japanese (ja)
Other versions
JP2008146424A (en )
Inventor
正樹 兵藤
雅司 山室
俊文 榎本
浩樹 赤間
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Images

Description

本発明は、蓄積した複数のXML(eXtensible Markup Language)文書に関して、パスと検索単語を有する検索クエリ(問合せ)に対する適合度の算出を行う技術に関する。 The present invention is, with respect to the accumulated plurality of XML (eXtensible Markup Language) document, a technique for calculating the goodness of fit to the search query (query) with search words and path.

近年、コンピュータ装置で文書を作成する場合、マークアップ言語の1つであるXMLを使用することが多い。 Recently, when creating a document in a computer system often use XML is one of the markup language. XMLにより作成された文書であるXML文書(以下、単に「文書」ともいう。)は、多く利点を有するからである。 XML document (hereinafter, simply referred to as "document".) Is a document created by the XML is because an advantage much.
たとえば、XML文書は、文書の構造を表現および管理するためのタグの内容を使用者が定義できるため使いやすく、また、階層構造となっているのでデータ整理に適している。 Eg, XML documents are easy to use because you can define user the contents of the tag for representing and managing the structure of the document, also suitable for data reduction because a hierarchical structure. さらに、XML文書は、データがバイナリデータでなくテキストデータであるので使用者がデータの内容を容易に確認でき、また、世界標準として認定されているので他の多くのアプリケーションと互換性がある。 Further, XML documents, the data can be easily confirm the contents of the user data because it is text data instead of binary data, and there are many other applications compatible because it is recognized as the world standard.

そして、XML文書の増加にともなって、蓄積された複数のXML文書に対する検索の精度や速度の向上の必要性も高くなってきている。 Then, with the increase of XML documents, also it has been increasing need for stored plurality of search accuracy and speed improvement for XML documents. なお、以下、検索クエリに対する文書の適合性によって行われる順位付けのことをランキングという。 Incidentally, hereinafter referred rankings that dated ranking performed by adaptation of the document to the search query. また、検索時は、文書中の検索単語の出現に関する何らかの統計量を利用してスコアを算出し、そのスコアの大小関係によってランキングが行われる。 Also, when searching calculates the score using some statistics related to the appearance of the search word in the document, ranking is performed by magnitude of their scores.

蓄積された文書に対するランキングの手法としては、文書の記述内容を統計的に分析する手法が多く用いられている(たとえば非特許文献1参照)。 The ranking approach to the stored document, method of statistical analysis of the description contents of the document have been widely used (for example, see Non-Patent Document 1).
なお、スコアの算出に利用される統計量として、一般に、「文書集合全体の統計量(全文書の長さの平均(以下、「平均長さ」という。)など)」、「文書ごとの統計量(各文書の長さなど)」、「検索単語に対する統計量(各文書における検索単語の出現頻度など)」が用いられる。 As statistics are used to calculate the score, generally, "Statistics of the entire document set (average of all documents length (hereinafter, such as" average length "of.))", "Statistics of each document the amount (such as the length of each document) "," statistics for search word (such as frequency of occurrence of the search words in each document) "is used.

また、XML文書に対して効率的な検索を実現しようとする場合、構造化データであるXML文書からその検索に必要な記述内容を高速に取り出すことが可能でなければならない。 Moreover, it must be possible to take out when attempting to achieve efficient searches on XML documents, a description content required for the search from the XML document is a structured data at high speed. そこで、一般的には、XML文書の構造と記述内容を記録したインデックス(構造インデックス)をあらかじめ構築しておく。 Therefore, in general, in advance build indexes recording the structure and description content of the XML document (the structure index). そして、構造インデックスの構築には様々な方法が存在するが、多くの場合、XML文書の持つ全てのパス(データの所在を示す文字列。たとえば「/book/chapter/section」など)とそのパスに対応する記述内容を関連付けるパスインデックスが構築される(たとえば特許文献1参照)。 And while there are many ways to build a structure index, often, all paths with the XML document (character string indicating the location of the data. For example, "/ book / chapter / section", etc.) and the path path index associating the descriptive contents corresponding to is built (for example, see Patent Document 1).

そして、XML文書はその構造に意味を持っているため、XML文書に対するランキングは、XML文書の構造を利用して行うことが望ましい。 Then, since the meaningful XML document in its structure, ranking for XML documents, it is desirable to perform by using the structure of the XML document. そうすることで、精度の高い検索結果が期待できるからである。 By doing so, because the accurate search results can be expected. つまり、XML文書のランキングでは、従来のランキング時に行っていたように文書単位でスコアを算出するのではなく、部分文書(XML文書の一部)単位でスコアを算出することが好ましい。 That is, in the ranking of XML documents, instead of calculating the score each document as it did at the time of conventional rankings, (part of the XML document) partial document it is preferable to calculate the score in the unit.

すなわち、XML文書のランキングに関するスコアの算出に利用される統計量として、「文書集合全体の統計量」ではなく「部分文書集合全体の統計量」、また、「文書ごとの統計量」ではなく「部分文書ごとの統計量」を使用することが望ましい。 That is, statistics are used to calculate the score for ranking of the XML document, a "document of the whole set statistics" rather than "partial document of the entire set statistics", also not "statistic for each document" " it is desirable to use a partial statistics of each document ". また、「検索単語に対する統計量」に関しても、たとえば、その出現位置を文書単位ではなくもっと詳細に識別するなどしたほうがよい。 Also, with respect to the "statistics for the search word", for example, it is better that you like more details to identify rather than the document units of its appearance position.
特開2006−228155号公報 JP 2006-228155 JP

しかしながら、前記した「部分文書集合全体の統計量」、「部分文書ごとの統計量」および「検索単語に対する統計量」は、検索クエリの内容に依存して変化する。 However, the above-described "partial document of the entire set statistics", "partial statistics of each document" and "Statistics for search word" will vary depending on the contents of the search query. これは、検索クエリにおけるパスの内容によって、該当する部分文書の範囲が変わるためである。 This is because the contents of the path in the search query, because the range of the corresponding partial document changes.
したがって、前記した非特許文献1や特許文献1を含む従来技術では、検索(ランキング)の都度、それらの統計量を算出しなければならず、蓄積されたXML文書が大量になると算出コストが膨大になり、その結果、処理が遅くなってしまうという問題があった(詳細は「発明を実施するための最良の形態」の冒頭に記載)。 Thus, in the prior art, including non-patent literature 1 and Patent Document 1 described above, each search (ranking), must be calculated those statistics, and enormous calculation cost accumulated XML document is large amount it becomes, as a result, there is a problem that processing becomes slow (details at the beginning of the "best mode for carrying out the invention").

そこで、本発明は、前記問題点に鑑みてなされたものであり、蓄積されたXML文書に対して、パスと検索単語を指定して適合度の算出を行う場合に、処理を高速に行うことを目的とする。 The present invention has been made in view of the above problems, with respect to the stored XML documents, in the case of performing the calculation of the goodness of fit by specifying the path and the search word, performing processing at a high speed With the goal.

前記課題を解決するために、請求項1および請求項に係る発明は、情報処理装置が、複数のXML文書に関するパス単位の情報を格納するパス情報、XML文書ごとの各XML文書におけるノード間の関係情報を格納するノード情報、および、複数のXML文書で使用されている各単語の出現位置情報を格納する単語情報、を記憶する記憶部と、複数のXML文書に関してパス単位の情報をパス情報に格納するパスインデックス部と、それぞれのXML文書におけるノード間の親子関係を含む関係を分析しその関係情報をノード情報に格納するノード管理部と、複数のXML文書のいずれかで使用されている単語を、その単語が使用されているXML文書の文書IDを含む出現位置情報と関連付けて単語情報に格納するテキストインデック In order to solve the above problems, the invention according to claims 1 and 3, the information processing apparatus, the path information stored path information units for a plurality of XML documents, between nodes in the XML document for each XML document node information storing relationship information, and the path and the storage unit, with respect to a plurality of XML documents path information unit that stores word information, the storing the occurrence position information of each word used in the plurality of XML documents and a path index section for storing the information, and the respective analyzes relationships including parent-child relationships between nodes in an XML document node management unit for storing the relationship information in the node information, is used in any of a plurality of XML documents text in deck which stores words are, the word information in association with occurrence position information including the document ID of the XML document where the word is used 部と、パスと検索単語が入力されたときに、複数のXML文書に関して、その入力されたパスの配下の文書である部分文書における当該検索単語の適合度を算出するランキング部と、を備える。 Comprises a section, when the path and the search word is entered, for a plurality of XML documents, a ranking unit for calculating a goodness of fit of the search word in the document partial document is a subordinate of the input paths, a.
そして、パス情報は、パス単位の情報として、それぞれのパスの配下の部分文書の集合に関する統計情報であり、少なくとも、前記部分文書の集合全体の平均長さ、および、前記部分文書の総数のいずれかを含むパス統計情報を記憶しており、パスインデックス部は、パスと検索単語が入力される前に、蓄積された複数のXML文書に関して、パス統計情報を含むパス情報を更新し、ランキング部は、パスと検索単語が入力された後に、パス統計情報を含むパス情報、ノード情報、および、単語情報を参照し、当該パスと検索単語に基づいて、複数のXML文書に関する適合度の算出を行う。 Then, the path information as path information units, Ri statistics der for a set of partial documents under the respective path, at least, the average length of the entire set of the partial document, and, of the total number of the partial document stores the path metrics including one, the path index part, before pass the search word is inputted, with respect to the stored plurality of XML documents, and update the path information including the path metrics, index parts, after the path with the search word is entered, the path information, node information including path statistics, and, referring to the word information, based on the search word and the path, the calculation of the goodness of fit for a plurality of XML documents I do.

かかる発明によれば、部分文書集合全体の統計量であるパス統計情報を、パスと検索単語の入力前に算出および格納しておくことができ、そのパス統計情報を使うことでXML文書に関する適合度の算出処理を高速に行うことができる。 According to the invention, the path metrics is a statistic of the entire part document set, it is possible to keep calculated and stored before the input of the path and the search word, adapted about the XML document by using the path metrics it is possible to perform the calculation processing of the degree to high speed.

請求項2および請求項に係る発明は、情報処理装置が、複数のXML文書に関するパス単位の情報を格納するパス情報、XML文書ごとの各XML文書におけるノード間の関係情報を格納するノード情報、および、複数のXML文書で使用されている各単語の出現位置情報を格納する単語情報、を記憶する記憶部と、複数のXML文書に関してパス単位の情報をパス情報に格納するパスインデックス部と、それぞれのXML文書におけるノード間の親子関係を含む関係を分析しその関係情報をノード情報に格納するノード管理部と、複数のXML文書のいずれかで使用されている単語を、その単語が使用されているXML文書の文書IDを含む出現位置情報と関連付けて単語情報に格納するテキストインデックス部と、パスと検索単語が入 Invention relates to an information processing apparatus, the node information stored path information storing path information units for a plurality of XML documents, the relationship information between nodes in the XML document for each XML document according to claims 2 and 4 and, a storage unit for storing word information, the storing the occurrence position information of each word used in the plurality of XML documents, and path index section for storing path information units in the path information for a plurality of XML documents , the respective analyzes relationships including parent-child relationships between nodes in an XML document node management unit for storing the relationship information in the node information, the words used in any of a plurality of XML documents, is the word used a text index portion to be stored in the word information in association with occurrence position information including the document ID of the XML document that is, the path a search word is input されたときに、複数のXML文書に関して、その入力されたパスの配下の文書である部分文書における当該検索単語の適合度を算出するランキング部と、を備える。 When it is, for a plurality of XML documents, comprising a ranking unit for calculating a goodness of fit of the search word in the document partial document is a subordinate of the input paths, a.
そして、ノード情報は、各ノードごとの情報として、それぞれのノードの配下の部分文書に関する統計情報であり、少なくとも前記部分文書の長さを含むノード統計情報を記憶しており、ノード管理部は、パスと検索単語が入力される前に、ノード統計情報を含むノード情報を更新し、ランキング部は、パスと検索単語が入力された後に、パス情報、ノード統計情報を含むノード情報、および、単語情報を参照し、当該パスと検索単語に基づいて、複数のXML文書に関する適合度の算出を行う。 Then, the node information as information for each node, Ri statistics der about partial document under the respective node, stores the node statistical information including a length of at least the partial document, the node management section , before pass the search word is inputted, updates the node information including the node statistical information, ranking unit, after the path with the search word is entered, the path information, node information including the node statistics, and, Referring to word information, based on the search word and the path, it calculates the fitness for multiple XML documents.

かかる発明によれば、部分文書ごとの統計量であるノード統計情報を、パスと検索単語の入力前に算出および格納しておくことができ、そのノード統計情報を使うことでXML文書に関する適合度の算出処理を高速に行うことができる。 According to the invention, the node statistical information is a statistic of each partial document, it is possible to keep calculated and stored before the input of the path and the search word, fit about the XML document by using the node statistics it is possible to perform calculation processing of the high speed.

請求項に係る発明は、請求項1 または請求項に記載のXML文書の適合度の算出方法をコンピュータに実行させるためのプログラムである。 The invention according to claim 5 is a program for executing the method of calculating the fitness of XML documents according to the computer to claim 1 or claim 2.

かかる発明によれば、XML文書の適合度の算出方法をコンピュータに実行させることができる。 According to the invention, it is possible to perform the method of calculating the adaptability of the XML document to the computer.

本発明によれば、蓄積されたXML文書に対して、パスと検索単語を指定して適合度の算出を行う場合に、処理を高速に行うことができる。 According to the present invention, with respect to the stored XML documents, in the case of performing the calculation of the goodness of fit by specifying the path and the search word, it can be performed processing at high speed.

以下、本発明に係る情報処理装置、XML文書の適合度の算出方法およびそのプログラムを実施するための最良の形態(以下、実施形態という。)について、適宜図面を参照しながら説明する。 Hereinafter, the information processing apparatus according to the present invention, the best mode for carrying out the calculation method and program of the fit of the XML document for (hereinafter, referred to. Embodiment) will be described with reference to the accompanying drawings. なお、参照図以外の図も適宜参照する。 Note that FIG other than reference figures also appropriately referring.
その前に、理解を容易にするため、図21〜図24を参照しながら、比較例(従来技術)および用語について説明する。 Before that, for ease of understanding, with reference to FIGS. 21 to 24, Comparative Example (prior art) and terms will be described.

図21は、比較例の統計情報を用いたランキング例を示したものであり、(a)が文書例、(b)が適合度(ランキング)の計算例1、(c)が適合度の計算例2の説明図である。 Figure 21 is shows a ranking example using statistics Comparative Example, (a) the document example, (b) the calculation example 1 fitness (Index), the calculation of the goodness of fit (c) it is an explanatory view of an example 2.
図21(a)に示すように、ここでは、3つの文書(文書01〜03)に対して、単語「特許」で検索を行う場合について説明する。 As shown in FIG. 21 (a), where, with respect to three documents (documents 01 to 03), a case of performing a search on the word "patent". なお、ここでの文書は、XML文書であってもなくても、いずれでもよい。 The document here, or may not be an XML document, it may be any. また、3つの文書における検索単語の出現回数と文書のテキスト長は、図示した通りである。 Also, text length number of occurrences and the document search words in three documents are as shown.

図21(b)は、検索単語の出現回数でランキングを行った結果を示している。 FIG. 21 (b) shows the results of the ranking in number of occurrences of the search words. また、図21(c)は、検索単語の出現頻度(出現回数/テキスト長)でランキングを行った結果を示している。 Further, FIG. 21 (c) shows the result of the ranking by frequency of occurrence of the search words (Occurrences / text length).
そして、比較例では、一般に、前記したような統計量(検索単語の出現回数や出現頻度)と単語の出現位置(出現文書の識別子)を記録したインデックス(テキストインデックス)を構築しておく。 Then, in the comparative example, generally, keep building the index (text index) that records statistics as described above (appearance frequency and the frequency of occurrence of the search word) and occurrence position of a word (identifier appeared documents). そして、検索時には、構築してあるテキストインデックスを用いることで、検索単語の出現位置を特定し、高速なスコア算出を行うことができる。 Then, when searching, by using a text index that is built to identify the occurrence position of the search word, it is possible to perform high-speed score calculation.
なお、検索文字列に複数の単語が含まれている場合は、各単語に関してスコア算出を行い、所定の計算式によりそれらのスコアを統合するなどすればよい。 Incidentally, if there is more than one word in the search string, it performs the score calculated for each word, may be such as to integrate their scores by a predetermined calculation formula.

次に、図22を参照しながら、構造化データであるXML文書の構造について説明する。 Next, referring to FIG. 22, a description will be given of the structure of an XML document is structured data. 図22において、(a)はXML文書のソースコードの例の簡略図、(b)はXML文書の構造(木構造)を示した図である。 In FIG. 22 is a diagram showing (a) shows a simplified view of an example of a source code of an XML document, (b) is an XML document structure (tree structure).
図22(a)に例示しているように、XML文書001のソースコードにおいて、XML文書の構成要素を識別するために使われるマーク(「<book>」など)をタグという。 As illustrated in FIG. 22 (a), in the source code of the XML document 001, the mark is used to identify the components of the XML document ( "<book>", etc.) that tag.

また、XML文書は、図22(b)に示すように、ディレクトリ構造のような木構造を有しており、各要素(ノード)はパス(「/book/chapter」など。以下、同様に記載)で表現される。 Further, XML documents, as shown in FIG. 22 (b), has a tree structure as a directory structure, each element (node), such as the path ( "/ book / chapter". Hereinafter, likewise described ) is represented by. なお、各ノードには、ノード「n1」の子ノードには「n11」〜「n13」、ノード「n12」の子ノードには「n121」〜「n124」、・・・、と、階層的に符号を付してある(他図も同様)。 It is to be noted that each node, the node "n11" - "n13" to the child node of "n1", the child node of the node "n12", "n121" - "n124", ..., and, in a hierarchical fashion It is denoted by the reference numerals (other drawings as well).

このように、XML文書は、記述内容とは別に、タグによってそれぞれの記述内容の意味(属性)を付与されているため、単語とともにパスを指定して検索することで、大きな1つのXML文書から必要とする部分を取り出すことができる。 Thus, XML documents, apart from the description contents, because it has been granted the meaning of each of the description content (attribute) by the tag, by search by specifying a path with words, from one large XML documents it can be taken out portions that need. そして、前記したように、1つのXML文書から取り出される文書の一部を部分文書という。 Then, as described above, a portion of a document to be retrieved from one XML document called partial document.
図22の例では、XML文書001は本のデータを表しており、この本のタイトルの記述内容だけを取り出したい場合、パスを「/book/title」と指定することで、タイトルの記述内容だけを取り出すことができる。 In the example of FIG. 22, XML document 001 represents the number of data, to retrieve only the description contents of the book title, by specifying "/ book / title" path, only the description content of the title it can be taken out.

また、図22(b)に示すように、XML文書001は、「/book」の配下に本の記述内容が章(chapter)別に格納されている。 Further, as shown in FIG. 22 (b), XML document 001, "/ book" is the content described under the chapter (chapter) is stored separately. XML文書001の中から特に単語「地球」について詳しく書かれている部分文書を取り出したい場合に、たとえば、章ごとに調査したいときは、「/book/chapter」の配下の「text」に対して単語「地球」で検索を行えばよい。 If you want to take out a particular part document that has been written for more information about the word "Earth" from the XML document 001, for example, if you want to study in each chapter, for the "text" under the "/ book / chapter" with the word "earth" may be carried out a search. また、章よりもさらに詳しい節(section)ごとに調査したいときは、「/book/chapter/section」の配下の「text」に対して単語「地球」で検索を行えばよい。 In addition, when you want to study for each further detailed section than the chapter (section) is, "/ book / chapter / section" may be carried out a search on the word "earth" for the "text" of the underlying. いずれの場合も、スコアの高い部分文書がランキング上位の部分文書になる。 In either case, a high partial document score is part document ranking.

続いて、図23を参照しながら、パス指定(パスの内容)の違いによる部分文書の違いについて説明する。 Subsequently, with reference to FIG. 23, it describes the differences between the partial document due to a difference in path specification (the contents of the path). 図23の(a)と(b)は、図22(b)の構造の例について、それぞれのパスによる部分文書の範囲を示した図である。 In Figure 23 and (a) (b), an example of the structure of FIG. 22 (b), the diagrams showing the range of the partial document by each path.
図23(a)に示すように、パスを「/book/chapter」と指定すれば、それぞれの「chapter」(n12,n13など)以下のノードが部分文書となる。 As shown in FIG. 23 (a), if specified as "/ book / chapter" path, each "chapter" (n12, etc. n13) following nodes is partial document. 一方、図23(b)に示すように、パスを「/book/chapter/section」と指定すれば、それぞれの「section」(n124など)以下のノードが部分文書となる。 On the other hand, as shown in FIG. 23 (b), if specified as "/ book / chapter / section" path, (such as N124) each "section" following node is partial document. このように、パスの内容によって、部分文書の範囲は異なるのである。 Thus, the contents of the path, the scope of the partial document is different from.

次に、図24を参照しながら、パス指定の違いによる部分文書の違いの別の例について説明する。 Next, referring to FIG. 24, a description will be given of another example of the difference of the partial document due to a difference in path specification. 図24の(a)と(b)は、図22(b)の例について、それぞれのパスによる部分文書の範囲を示した図である。 Figure 24 and (a) (b), for example in FIG. 22 (b), the diagrams showing the range of the partial document by each path.
図24(a)に示すように、パスを「/book/title」と指定すれば、破線で図示した1箇所だけが該当する部分文書となる。 As shown in FIG. 24 (a), if specified as "/ book / title" path, the partial document that only one portion illustrated by the broken line corresponds. 一方、図24(b)に示すように、パスを「任意のtitle」と指定すれば、破線で図示した3箇所(以上)が該当する部分文書となる。 On the other hand, as shown in FIG. 24 (b), if specified as "optional title" path, three (or more) illustrated by a broken line becomes the relevant portions document.

このように、検索クエリにおけるパスの内容によって、該当する部分文書が変化するので、パスの内容が変化するたびに、「部分文書集合全体の統計量」、「部分文書ごとの統計量」および「検索単語に対する統計量」も変化することになる。 This way, the contents of the path in the search query, since the corresponding partial document is changed, every time the contents of the path changes, "partial document of the entire set statistics", "Statistics of each partial document" and " statistics for the search word "is also changed. そのため、比較例においては、検索の都度、それらの統計量を算出しなくてはならなかった。 Therefore, in the comparative example, each time the search had to be calculated and their statistics. そして、特に、蓄積されたXML文書の数が増加すればするほど、それらの統計量の算出コストが大きくなってしまっていた。 Then, in particular, as the number of stored XML documents to be increased, calculate the cost of those statistics had gotten larger.

続いて、図1〜図20を参照しながら、本発明の各実施形態の情報処理装置、XML文書の適合度の算出方法およびそのプログラムについて説明する。 Subsequently, with reference to FIGS. 1 to 20, the information processing apparatus of the embodiments of the present invention, the calculation method and program of the fit of the XML document will be described.
まず、本実施形態のランキング手法で用いるスコア計算式であるBM25(非特許文献1の「3.3.1 Okapi」参照)について説明する。 First described the score calculation formula used in ranking technique of this embodiment BM25 (see "3.3.1 Okapi" of Non-Patent Document 1). このBM25を用いた場合、文書kにおける単語iのスコアS qkiの計算式は、次の式(1)により与えられる。 When using the BM25, formula of the score S QKI word i in document k is given by the following equation (1).

ここで、各記号の意味は次の通りである。 Here, the meaning of each symbol is as follows.
L:(部分)文書集合全体の平均長さ(部分文書集合全体の統計量。パス統計情報) L :( partial) document set overall average length (partial document of the entire set statistics. Path Statistics)
N:(部分)文書の総数(部分文書集合全体の統計量。パス統計情報) The total number of N :( partial) document (partial document of the entire set statistics. Path Statistics)
:(部分)文書kの長さ(部分文書の統計量。ノード統計情報) l k :( partial) length of the document k (partial document statistics. Node Statistics)
tf ki :(部分)文書k中の単語iの出現回数(単語の統計量) tf ki :( part) the number of occurrences of the word i in document k (word of statistics)
:該当する単語iを含む(部分)文書数(単語の統計量) n i: comprising the appropriate word i (partial) number of documents (word statistics)
:検索文字列qの長さtf qi :検索文字列q中の検索単語iの出現回数 l q: search string q of length tf qi: the number of occurrences of the search word i in the search string q

(第1実施形態) (First Embodiment)
図1は、本発明の第1実施形態における情報処理装置の構成図である。 Figure 1 is a configuration diagram of an information processing apparatus according to the first embodiment of the present invention. 図1に示すように、第1実施形態の情報処理装置1は、コンピュータ装置であり、入力部2、出力部3、メモリ4、記憶部5および処理部6を備えている。 As shown in FIG. 1, the information processing apparatus 1 of the first embodiment is a computer device, the input unit 2, an output unit 3, a memory 4, a storage unit 5 and the processing unit 6.

入力部2は、データ入力を行うものであり、たとえば、キーボード、マウス、通信インターフェースなどである。 Input unit 2, which performs data input, for example, a keyboard, a mouse, or the like communication interfaces. 情報処理装置1の使用者(以下、単に「使用者」という。)は、入力部2を使って、XML文書や検索クエリ(パスと検索文字列)を入力することができる。 The user of the information processing apparatus 1 (hereinafter, simply referred to as "user".), Using the input unit 2, it is possible to enter the XML documents and search query (path of the search string). なお、本実施形態では、使用者がXML文書の構造や記述内容をある程度把握しており、検索クエリとして、文字列だけではなく、パスも指定するものとする。 In the present embodiment, the user has to some extent understand the structure and description contents of an XML document, as a search query, not only the character string, also intended to specify the path.

出力部3は、データを出力するものであり、たとえば、ディスプレイやスピーカである。 The output unit 3 is for outputting the data, for example, a display and a speaker. 出力部3は、XML文書の検索によるランキング結果などを出力する。 The output unit 3 outputs and ranking results by a search of an XML document.
メモリ4は、処理部6の作業領域であり、たとえば、RAM(Random Access Memory)である。 Memory 4 is a working area of ​​the processing unit 6, for example, a RAM (Random Access Memory).

記憶部5は、データを記憶するものであり、たとえば、ハードディスクである。 Storage unit 5 is for storing data, for example, a hard disk. 記憶部5は、たとえば、1件のデータを複数の項目(フィールド)の集合として表現して、データの集合を表(テーブル)で表す、いわゆるリレーショナルデータベースである。 Storage unit 5, for example, represent a 1 results as a set of a plurality of items (fields), represents a set of data in tabular (Table), a so-called relational database. 記憶部5は、入力部2から入力されたXML文書を格納するXML文書群51、パステーブルPT(Path Table。パス情報。詳細は図4(b)で後記)、ノードテーブルNT(Node Table。ノード情報。詳細は図4(a)で後記)および転置表IT(Inverted Table。単語情報。詳細は図5で後記)を記憶している。 Storage unit 5, XML documents 51 for storing XML documents inputted from the input unit 2, the path table PT (hereinafter in Path Table. Path information. For more information FIG. 4 (b)), the node table NT (Node Table. node information. for more FIGS. 4 (a) at below) and transposed table iT (inverted table. the word information. More stores below) in FIG.
また、記憶部5は、図示を省略しているが、後記するXML文書の適合度の算出方法を記述したプログラムを記憶している。 The storage unit 5, although not shown, and stores a program describing a method of calculating the fitness of XML documents to be described later.

処理部6は、各種演算処理を行うものであり、たとえば、CPU(Central Processing Unit)である。 Processing unit 6 performs various arithmetic processing, for example, a CPU (Central Processing Unit). 処理部6は、その機能として、データ格納部61、パスインデックス部62、範囲ラベル部63(ノード管理部)、テキストインデックス部64およびランキング部65を備えている。 Processing unit 6, as its functions, the data storage unit 61, the path index unit 62, a range label portion 63 (node ​​manager), and a text index portion 64 and the ranking unit 65. なお、以下において、処理部6がこれらの機能以外の機能を果たす場合は、動作主体を処理部6として記載する。 In the following, when the processing unit 6 functions other than those functions describe operation subject as a processing unit 6.

データ格納部61は、入力部2から入力されたXML文書をXML文書群51に格納する。 Data storage unit 61 stores an XML document input from the input unit 2 to the XML documents 51.
パスインデックス部62は、入力部2から入力されたXML文書の情報に基づき、パステーブルPT(図4(b)参照)において、各パスの統計量(部分文書集合全体の平均長さ(L)、部分文書数(N))を更新する。 Path index unit 62, based on the information of the XML document input from the input unit 2, the path table PT (see FIG. 4 (b)), the statistics of each path (partial document set overall average length (L) , to update the part number of documents (N)).

範囲ラベル部63は、各ノードに範囲ラベル(開始ラベル(値)「pre」と終了ラベル(値)「post」の2値のID(IDentification)。関係情報。出現位置情報。ノード位置情報)を付与し、ノードテーブルNT(図4(a)参照)に記録する。 Range label portion 63, a range label to each node (starting label (value) "pre" and the end label (values) ID of binary "post" (IDentification). Relationship information. Occurrence position information. Node position information) applying to and recorded in the node table NT (see Figure 4 (a)). 各ノードに対して、子ノードの範囲ラベルが親ノードの範囲ラベルの「pre」と「post」の間の値になるようにラベル付けすることで、各ノード間の上下(親子)関係がわかる(特許文献1参照)。 For each node, the range label child nodes that label to be a value between "post" and "pre" ranging label of the parent node, seen vertically (parent-child) relationship between the nodes (see Patent Document 1).

ここで、図2および図3を参照しながら、範囲ラベルについて説明する。 Here, referring to FIGS. 2 and 3, the range label will be described. 図2は、XML文書のソースコードの例を示した図であり、(a)が図22と同様のXML文書001に関する図であり、(b)がその他の例としてのXML文書002に関する図である。 Figure 2 is a diagram showing an example of a source code of an XML document, (a) is a diagram relating to the same XML document 001 and FIG. 22, in FIG relates XML document 002 as another example (b) is there. 図2の(a)と(b)に示すように、いずれのXML文書も本(book)に関するデータである。 As shown in FIG. 2 and (a) (b), any XML document is also data relating to the (book).

図3は、(a)がXML文書001に対して範囲ラベルを付与した状態を示す図であり、(b)がXML文書002に対して範囲ラベルを付与した状態を示す図である。 3, (a) is a view showing a state in which Grant range label to XML document 001 is a diagram showing a state (b) is imparted with a range label to XML document 002.
図3(a)に示すように、XML文書001において、ノードn1(book)は範囲ラベルが(1,99)(開始ラベル「pre」が「1」で、終了ラベル「post」が「99」。以下同様)で、範囲ラベルが(2,5)のノードn11の親であることがわかる。 As shown in FIG. 3 (a), in the XML document 001, the node n1 (book) range label is (1,99) (in the beginning label "pre" is "1", ending label "post" is "99" . below the same), it can be seen that the range label is a parent of the node n11 of (2,5). また、ノードn11は範囲ラベルが(2,5)で、範囲ラベルが(6,47)のノードn12とは上下(親子)関係にないことがわかる。 The node n11 in the range label (2,5), the node n12 range label (6,47) reveals that there is no up and down (parent-child) relationship. 図3(b)に示したXML文書002についても、同様に、各ノードに対して範囲ラベルが付与されている。 For XML document 002 shown in FIG. 3 (b), the same way, ranges label is assigned to each node.

図1に戻って、テキストインデックス部64は、入力部2から入力されたXML文書に出現する全ての単語の出現位置(文書IDと範囲ラベル)を、転置表ITに記録する。 Returning to FIG. 1, the text index part 64, the appearance position of all the words appearing in the XML document input from the input unit 2 (document ID and range labels), and records the inverted table IT.
ランキング部65は、検索時に、パステーブルPT、ノードテーブルNTおよび転置表ITから統計情報などを取り出し、各部分文書ごとのスコアを算出する。 Ranking unit 65, when searching, etc. were removed path table PT, node table NT and transposition table IT from the statistical information, and calculates a score for each partial document.

次に、図4を参照しながら、ノードテーブルとパステーブルについて説明する。 Next, referring to FIG. 4, it will be described node table and the path table. 図4は、(a)がノードテーブル、(b)がパステーブルを例示した図である。 Figure 4 is a diagram (a) is a node table and (b) illustrated the path table.
図4(a)において、(a1)はXML文書001に関するノードテーブル001NTであり、(a2)はXML文書002に関するノードテーブル002NTである。 In FIG. 4 (a), (a1) is a node table 001NT for XML document 001, (a2) is a node table 002NT on XML document 002. いずれのノードテーブルNTも、左から順に、XML文書の識別子を表す文書ID(docid)、範囲ラベル(「pre」と「post」)、各ノードに与えられているタグ(tag)、パスの識別子を表すパスID(pathid)、そのノードがパス指定されたときの部分文書の長さを表すlk(l )、および、そのノードのテキストデータであるテキスト(text)のカラムから構成されている。 Any of the node table NT, in order from the left, the document ID (docid) representing the identifier of the XML document, a range label ( "pre" and "post"), tags are given to each node (tag), an identifier of a path path ID representing the (pathid), lk that node representing the length of the partial document when it is the path specified (l k), and, and a column of the text (text) is a text data of the node .

図4(b)に示すように、パステーブルPTは、左から順に、パスID(pathid)、パス(pathexp)、L(部分文書集合全体の平均長さ)、N(部分文書の総数)のカラムから構成されている。 As shown in FIG. 4 (b), the path table PT is composed of, in order from the left, the path ID (pathid), the path (Pathexp), L (partial document average length of the entire set), N of (the total number of partial document) It is constructed from the column.

続いて、図5を参照しながら、転置表について説明する。 Subsequently, with reference to FIG. 5, the permutation table. 図5は、転置表の例を示した図である。 Figure 5 is a diagram showing an example of a transposition table.
図5に示すように、転置表ITは、単語(term)と出現位置(position)のカラムから構成されている。 As shown in FIG. 5, transposition table IT is composed of a column of words (term) with the appearance position (position). 出現位置の()内は、左から順に、文書ID(docid)、開始ラベル(pre)、終了ラベル(post)を意味している。 The occurrence position (), in order from the left, the document ID (docid), start label (pre), which means the end label (post). たとえば、転置表ITにおいて、単語「宇宙」に対応する出現位置が(001,3,4)であれば、文書ID(docid)が「001」であるXML文書001における開始ラベル(pre)が「3」で終了ラベル(post)が「4」のノード、つまり、図3(a)におけるノードn111に単語「宇宙」が存在していることがわかる。 For example, the permutation table IT, if the occurrence position corresponding to the word "space" is (001,3,4), the document ID (docid) starts labels in XML document 001 is "001" (pre) is " node ending label (post) is "4" in 3 ", i.e., it can be seen that the word" space "exists in the node n111 in FIG 3 (a).

次に、図6を参照しながら、構造インデックス(パステーブルPTおよびノードテーブルNT)の構築処理について説明する。 Next, referring to FIG. 6, illustrating the construction process of the structure index (the path table PT and the node table NT). 図6は、構造インデックスの構築処理を示すフローチャートである。 Figure 6 is a flowchart showing the process of building the structure index.
まず、使用者が、入力部2を介して、新たに蓄積したいXML文書を情報処理装置1に投入する。 First, the user, via the input unit 2, turning on the XML document to be newly stored in the information processing apparatus 1. そうすると、処理部6のデータ格納部61が記憶部5のXML文書群51にそのXML文書を格納し、また、そのとき、パスインデックス部62と範囲ラベル部63が以下の処理により、構造インデックスを構築する。 Then, the data storage unit 61 of the processing unit 6 stores the XML document in the XML documents 51 in the storage unit 5, also, the time, the path index portion 62 and the range label portion 63 by the following process, the structure index To construct.

投入されたXML文書に関して、パスインデックス部62は、1つのパスを取り出す(ステップS601)。 Regard introduced XML document, the path index unit 62 takes out one path (step S601). パスインデックス部62は、パステーブルPTを参照し、そのパスがすでにパステーブルPTに含まれている(存在している)か否かを判断する(ステップS602)。 Path index unit 62 refers to the path table PT, and determines whether the path (present) already included in the path table PT or (step S602).

パスがパステーブルPTに含まれていない場合(ステップS602でNo)、パスインデックス部62は、新しいパスIDを発行し、新たにそのパスをパステーブルPTに加え(ステップS603)、さらに、そのパスに関するLとNの値(部分文書集合の統計量)を計算する、すなわち、そのパスの配下の連結テキスト長をLの値とし、Nの値を「1」として、それぞれ、パステーブルPTの該当箇所に格納する(ステップS604)。 If no path in the path table PT (No at step S602), the path index unit 62 issues a new path ID, newly added the path in the path table PT (Step S603), further, the path to calculate the value of about L and N (statistics partial document set), i.e., the coupling length of the text under the path and the value of L, the value of N "1", respectively, the corresponding path table PT stored in the location (step S604).

パスがすでにパステーブルPTに含まれている場合(ステップS602でYes)、パスインデックス部62は、そのパスに関するLとNの値(部分文書集合の統計量)を計算する、すなわち、そのパスの配下の連結テキスト長の平均をLの値とし、Nの値をインクリメント(1つ増加)して、それぞれ、パステーブルPTの該当箇所に格納する(ステップS604)。 If the path is already included in the path table PT (Step S602 Yes), the path index unit 62 calculates the values ​​of L and N for that path (Statistics partial document set), i.e., of the path the average coupling length of the text under the value of L, and the value of N is incremented (one increment), respectively, and stores the corresponding portion of the path table PT (step S604).

その後、パスインデックス部62は、そのXML文書に関する全てのパス分の処理を終了したか否かを判断し(ステップS605)、終了していなければ(No)ステップS601に戻って処理を繰り返し、終了していれば(Yes)ステップS606に進む。 Thereafter, the path index unit 62 determines whether the processing has been completed for all the pass is related to the XML document (step S605), it repeats the processing returns to If not completed (No) step S601, termination if the process proceeds to (Yes) step S606.

このようにして、ステップS601〜S605の処理により、検索に必要な3つの統計量(「部分文書集合全体の統計量」、「部分文書ごとの統計量」および「検索単語に対する統計量」)のうち、「部分文書集合全体の統計量」(パステーブルPTの「L」と「N」)をXML文書の投入直後(検索クエリの入力前)に算出および格納することができる。 Thus, by the process of step S601~S605, 3 one statistical quantity required to search for ( "partial document of the entire set statistics", "Statistics of each partial document" and "Statistics for search word") of, it can be calculated and stored in the "partial document of the entire set statistics" ( "N" and "L" in the path table PT) immediately after the introduction of the XML document (before the input of the search query). そして、これにより、検索(適合度の算出)時に「部分文書集合全体の統計量」を算出する必要がなくなり、検索処理を高速化することができるようになる。 And, thereby, the search it is not necessary to calculate the (fitness calculation) at "partial document of the entire set statistics", it is possible to speed up the search process.

続いて、投入されたXML文書に関し、範囲ラベル部63は、1つのノードを取り出す(ステップS606)。 Subsequently, it relates introduced XML document, a range label portion 63 extracts one node (step S606).
その後、範囲ラベル部63は、パステーブルPTを参照し、そのノードに対応するパスIDを取り出し(ステップS607)、前記した規則性にしたがって範囲ラベルを付与し(ステップS608)、ノードテーブルNTに各値(カラムの情報)を格納する(ステップS609)。 Thereafter, a range label portion 63, the path refers to the table PT, takes out a path ID corresponding to the node (step S607), the range labels assigned in accordance with the the regularity (step S608), each in the node table NT stores a value (information column) (step S609).

つまり、ステップS609において、範囲ラベル部63は、文書ID(docid)、範囲ラベル(「pre」と「post」)、タグ(tag)およびパスID(pathid)だけでなく、そのノード配下の部分文書の長さを表すlkと、そのノードのテキストデータであるテキスト(text)に関する情報もノードテーブルNTに格納する。 That is, in step S609, the range label portion 63, a document ID (docid), range label ( "pre" and "post"), tags (tag) and path ID (pathid) as well as partial document under the node and lk representing the length of, also stored in the node table NT information about text (text) is a text data of the node.

その後、範囲ラベル部63は、そのXML文書に関する全てのノード分の処理を終了したか否かを判断し(ステップS610)、終了していなければ(No)ステップS606に戻って処理を繰り返し、終了していれば(Yes)ステップS611に進む。 Thereafter, a range label portion 63 thereof determines whether or not it is completed to all the nodes worth of processing related to the XML document (step S610), repeats the processing returns to to if not (No) step S606 ends, the end if the process proceeds to (Yes) step S611.

このようにして、ステップS606〜S610の処理により、検索に必要な3つの統計量(「部分文書集合全体の統計量」、「部分文書ごとの統計量」および「検索単語に対する統計量」)のうち、「部分文書ごとの統計量」(ノードテーブルNTの「lk」)をXML文書の投入直後(検索クエリの入力前)に算出および格納することができる。 Thus, by the process of step S606~S610, 3 one statistical quantity required to search for ( "partial document of the entire set statistics", "Statistics of each partial document" and "Statistics for search word") among them, it is possible to calculate and store "statistics for each partial document" (the "lk" of the node table NT) immediately after introduction of the XML document (before the input of the search query). そして、これにより、検索(適合度の算出)時に「部分文書ごとの統計量」を算出する必要がなくなり、検索処理を高速化することができる。 And, thereby, the search it is not necessary to calculate the (fitness calculation) at "statistic for each partial document", it is possible to speed up the search process.

処理部6は、投入した全てのXML文書分の処理を終了したか否かを判断し(ステップS611)、終了していなければ(No)ステップS601に戻って処理を繰り返し、終了していれば(Yes)処理を終了する。 Processing unit 6 determines whether to exit the charged were all processed XML documents minute (step S611), If not completed (No) repeats the processing returns to step S601, if the ends (Yes) and the process ends.
このようにして、図6のフローチャートの処理によれば、投入した全てのXML文書に関して、その投入直後に、「部分文書集合全体の統計量」および「部分文書ごとの統計量」を算出および格納することができる。 Thus, according to the process of the flowchart of FIG. 6, for all XML documents on, calculated and stored immediately thereafter turned, the "partial document of the entire set statistics" and "Statistics of each partial document" can do.

なお、図6のフローチャートでは、説明を簡単にするため、パスインデックス部62による処理と範囲ラベル部63による処理を分離したが、それらの処理を並列的に行うようにしてもよい。 In the flowchart of FIG. 6, for simplicity of explanation, has been separated processing by the processing and scope label portion 63 by the path index section 62 may perform these processes in parallel.

続いて、図7を参照しながら、テキストインデックス(転置表IT)の構築処理について説明する。 Subsequently, with reference to FIG. 7, the construction process of the text index (transposition table IT). 図7は、テキストインデックスの構築処理を示すフローチャートである。 Figure 7 is a flowchart showing the process of building a text index.
図6に示したフローチャートの処理によって、投入されたXML文書に関して、パステーブルPTとノードテーブルNTが更新された後、処理部6のテキストインデックス部64は、ノードテーブルNTから1レコード(1ノード分のデータ)を取り出す(ステップS701)。 The processing of the flowchart shown in FIG. 6, with respect to the inserted XML document, then the path table PT and the node table NT is updated, the text index portion 64 of the processing unit 6, one record (1 node content from the node table NT retrieve the data) (step S701).

続いて、テキストインデックス部64は、取り出したレコードにおける記述内容(図4(a)のノードテーブルNTの「text」のカラムのデータ)に関して、形態素解析(計算機を用いた自然言語処理の基礎技術の1つ)の手法を用いて単語に分ける(ステップS702)。 Subsequently, the text index unit 64, described in the record extracted contents with respect to (the node table NT in FIGS. 4 (a) column data of "text"), morphological analysis (computer NLP basic technology of using divided into words by using the technique of one) (step S702).

その後、テキストインデックス部64は、分けられたうちの1つの単語が転置表ITに含まれているか否かを判断する(ステップS703)。 Thereafter, the text index section 64 of one of the divided word determines whether or not included in the permutation table IT (step S703).
その単語が転置表ITに含まれていなかった場合(ステップS703でNo)、テキストインデックス部64は、その単語を新たに転置表ITに登録し(ステップS704)、ステップS705に進む。 If the word is not included in the permutation table (No at step S703), the text index unit 64 registers the word in the newly transposed table IT (step S704), the process proceeds to step S705. その単語が転置表ITに含まれていた場合(ステップS703でYes)、テキストインデックス部64は、そのままステップS705に進む。 If the word is included in the transposition table (Yes in step S703), the text index unit 64 proceeds directly to step S705.

ステップS705において、テキストインデックス部64は、その単語の出現位置である文書ID(docid)と範囲ラベル(「pre」と「post」)を転置表ITに格納する。 In step S705, the text index unit 64 stores the document ID is the appearance position of the word (docid) ranging label ( "pre" and "post") to the transposition table IT. たとえば、単語「宇宙」がXML文書001のノードn111に存在していれば(図3(a)参照)、XML文書001の文書ID「001」、ノードn111の開始ラベル(pre)「3」および終了ラベル(post)「4」を表す(001,3,4)を、転置表ITの「宇宙」に対応する「position」のカラムに格納する。 For example, if the word "space" is long as exist on node n111 of XML document 001 (see FIG. 3 (a)), the document ID "001" in the XML document 001, start label (pre) "3" of the node n111 and End label (post) representing "4" (the 001,3,4), is stored in the column of "position" corresponding to "space" in the transposition table IT.

その後、テキストインデックス部64は、そのレコードに関する全ての単語分の処理を終了したか否かを判断し(ステップS706)、終了していなければ(No)ステップS703に戻って処理を繰り返し、終了していれば(Yes)ステップS707に進む。 Thereafter, the text index unit 64 determines whether the processing has been completed for all the word to the for that record (step S706), it repeats the processing returns to to if not (No) step S703, the CPU ends long as it (Yes) the flow proceeds to step S707.
また、テキストインデックス部64は、そのXML文書に関する全てのレコード分の処理を終了したか否かを判断し(ステップS707)、終了していなければ(No)ステップS701に戻って処理を繰り返し、終了していれば(Yes)処理を終了する。 Moreover, the text index unit 64, the determining whether the processing has been completed for all the records content related to the XML document (step S707), repeats the processing returns to If not completed (No) step S701, the ends if the (Yes) and terminates the process.

このようにして、図7に示したフローチャートの処理により、検索に必要な3つの統計量(「部分文書集合全体の統計量」、「部分文書ごとの統計量」および「検索単語に対する統計量」)のうち、「検索単語に対する統計量」(転置表ITの「position」)をXML文書の投入直後(検索クエリの入力前)に算出および格納することができる。 In this way, the flow chart of processing shown in FIG. 7, the three statistics required for search ( "partial document of the entire set statistics", "Statistics of each partial document" and "Statistics for search word" of), it can be calculated and stored in the "search statistics for the word" ( "position" transposed table iT) immediately after the introduction of the XML document (before the input of the search query). そして、これにより、検索(適合度の算出)時に「検索単語に対する統計量」を算出する必要がなくなり、検索処理を高速化することができる。 Then, This eliminates the need to calculate the search "statistics for the search word" (fit of the calculation) sometimes can speed up the search process.

次に、図8を参照しながら、ランキング処理について説明する。 Next, referring to FIG. 8, the ranking process will be described. 図8は、ランキング処理を示すフローチャートである。 Figure 8 is a flow chart illustrating the ranking process.
記憶部5のXML文書群51に蓄積された複数のXML文書に関して、検索によるランキングを行う場合、まず、使用者が入力部2を用いて検索クエリ(パスと検索文字列)を入力する。 For a plurality of XML documents stored in XML documents 51 in the storage unit 5, when performing ranked by the search, first, the user inputs a search query (path of the search string) using the input unit 2.

そうすると、処理部6のランキング部65は、検索クエリからパス、検索単語(検索文字列から抽出)、l (検索文字列qの長さ)、および、tf qi (検索文字列q中の検索単語iの出現回数)を取り出す(算出する)(ステップS801)。 Then, ranking section 65 of the processing unit 6, search from the search query path, search word (extracted from the search string), (the length of the search string q) l q, and, for tf qi (in the search string q retrieve a number of occurrences) of the word i (calculated) (step S801).
続いて、ランキング部65は、パステーブルPTを参照し、検索クエリ中のパスに対応するレコードにおける「L」、「N」およびパスID(pathid)の値を取り出す(ステップS802)。 Subsequently, the ranking section 65 refers to the path table PT, "L" in the record corresponding to the path in the search query, retrieving the value of "N" and a path ID (pathid) (step S802).

ランキング部65は、ノードテーブルNTを参照し、ステップS802で取り出したパスID(pathid)に対応するレコードにおける部分文書の位置(文書ID(docid)と範囲ラベル(「pre」と「post」))および「lk」の値を取り出す(ステップS803)。 Ranking unit 65 refers to the node table NT, the position of the partial document in the record corresponding to the path ID (pathid) extracted in step S802 (the document ID (docid) range label ( "pre" and "post")) and retrieve the value of "lk" (step S803). なお、取り出した部分文書の集まりを部分文書群と呼ぶ。 Incidentally, I called the collection of the extracted partial document the partial document group.

ランキング部65は、転置表ITから、検索単語の出現位置(文書ID(docid)、範囲ラベル(「pre」と「post」))の値を取り出す(ステップS804)。 Ranking unit 65, the transposed table IT, retrieving the value of the occurrence position of the search word (document ID (docid), range label ( "pre" and "post")) (step S804). なお、ここで取り出された出現位置のノードの集まりを単語出現文書群と呼ぶ。 Incidentally, I called the collection of nodes in the appearance position taken here a word appearing documents.

続いて、ランキング部65は、転置表ITから取り出した出現位置の値を用いて検索単語の出現する部分文書を絞り、tf ki (部分文書k中の単語iの出現回数)とn (該当する単語iを含む部分文書数)を算出する(ステップS805)。 Subsequently, the ranking section 65, squeezing the emerging partial document of the search word using the value of the appearance positions taken out from the transposition table IT, (the number of occurrences of the word i in the partial document k) tf ki and n i (applicable calculating a partial number of documents) that contain the words i to (step S805). すなわち、ランキング部65は、部分文書群と単語出現文書群の位置情報を用いて、部分文書群から検索単語の含まれる部分文書を選別し、各部分文書における単語の統計量であるtf kiとn を算出する。 That is, the ranking section 65 uses the position information of the partial document group and the word appearance documents, were selected partial document that contains the partial documents of the search word, and tf ki is a statistic of the words in each partial document to calculate the n i. ここで、ステップS805の具体例について、図9を参照しながら説明する。 Here, a specific example of step S805, the will be described with reference to FIG.

図9は、ステップS805の具体例、すなわち、部分文書の選別と単語の統計量の算出の例を示した図である。 Figure 9 is a specific example of step S805, the i.e., a diagram showing an example of calculation of the sorting and word statistics partial document. なお、この図9における例は、図2〜図5の具体例とは関係ない独立した例である。 The example in FIG. 9 is a separate example not related to the specific examples of FIGS. 2 to 5.
図9(a)に示した部分文書群と図9(b)に示した単語出現文書群に基づき、たとえば、まず、部分文書群のおける部分文書(001,10,20)(図示した4つのうち最上位の部分文書)に含まれる単語出現文書が単語出現文書群にあるか探す。 Based on the word appearance documents shown in partial document group and FIG. 9 (b) shown in FIG. 9 (a), for example, first, the partial document that definitive part documents (001,10,20) (four illustrated among Find one word appearance document included in the partial document) of the most significant is in the word appearance documents. つまり、単語出現文書群において、文書IDが「001」で、範囲ラベルが「10」〜「20」の間に含まれている単語出現文書を探せばよい。 That is, in the word appearance documents, the document ID is "001", a range label to look for word appearance document contained between "10" to "20". ここでは、単語出現文書として、(001,12,13)と(001,15,16)が該当する。 Here, as the word appearance document, relevant is the (001,12,13) ​​(001,15,16).

以下、同様にして、図9(c)に示すように、部分文書が3つに絞られ(文書IDが「003」の文書は検索単語を1つも含まないため、はずれている)、統計量のtf ki (部分文書k中の単語iの出現回数)は上から「2」、「1」および「1」であり、そして、n (該当する単語iを含む部分文書数)は「3」であると算出することができる。 In the same manner, as shown in FIG. 9 (c), the partial document is narrowed down to three (for the document ID is not included document one search word "003", is out), Statistics "2" from tf ki (the number of occurrences of the word i in the partial document k) is above a "1" and "1", and, n i (number of partial document containing the relevant word i) is "3 it can be calculated to be. "

図8に戻って、ランキング部65は、各統計量と前記した式(1)を用いて、該当する部分文書のスコアを算出する(ステップS806)。 Returning to FIG. 8, ranking section 65, using Equation (1) described above and the statistic to calculate the score of the corresponding partial document (step S806).
そして、ランキング部65は、ステップS806で算出したスコアの高い順に部分文書をソートすることで、ランキングを行う(ステップS807)。 The ranking unit 65, by sorting the partial document in descending order of scores calculated in step S806, performs the ranking (step S807).

このように、情報処理装置1は、予め算出および格納してある3つの統計量(「部分文書集合全体の統計量」、「部分文書ごとの統計量」および「検索単語に対する統計量」)を用いて検索(適合度の算出、ランキング)を行うことにより、検索を高速に処理することができる。 Thus, the information processing apparatus 1 has three statistics are calculated in advance and stored ( "partial document of the entire set statistics", "Statistics of each partial document" and "Statistics for search word") using the search (calculation of fitness, Index) by performing, it can be processed search at high speed.

(検索例) (Example) Search
次に、図2〜図5の具体例に対して、図8のフローチャートによる検索(ランキング)を行った場合の例について説明する。 Next, the specific example of FIGS. 2-5, an example will be described in the case of performing retrieval according to the flow chart in FIG. 8 (ranking). ここでは、検索クエリのうち、パスが「/book/chapter/text/text()」であり、検索文字列が「地球」であるものとする。 Here, out of the search query, the path is "/ book / chapter / text / text ()", the search string is assumed to be "Earth".
まず、l (検索文字列qの長さ)は「2」であり、tf qi (検索文字列q中の単語i(地球)の出現回数)は「1」であると算出できる(図8のステップS801。以下、「図8の」を省略)。 First, l q (length of the search string q) is "2", tf qi (number of occurrences of the word i in the search string q (earth)) can be calculated to be "1" (FIG. 8 step S801 of. below, omit the "Figure 8").

また、パステーブルPT(図4参照)におけるパスが「/book/chapter/text/text()」のレコード(「pathid」が「09」のレコード)から、「L」は「2379」であり、「N」は「13」であることがわかる(ステップS802)。 In addition, from the path table PT path in (see FIG. 4) "/ book / chapter / text / text ()" record (record of "pathid" is "09"), is a "L" is "2379", "N" is found to be "13" (step S802).
さらに、ノードテーブル001NT(図4(a1)参照)における「pathid」が「09」のレコードから、その部分文書の出現位置が(001,14,15)であり、lk(部分文書kの長さ)が「319」であることがわかる(ステップS803)。 Furthermore, from the record of "pathid" is "09" in the node table 001NT (see FIG. 4 (a1)), an occurrence position of the partial document (001,14,15), lk (the length of the partial document k ) it can be seen that is "319" (step S803).

また、転置表IT(図5参照)における「term」が「地球」のレコードから、単語「地球」の出現する全ての位置が、(001,14,15)および(001,19,20)であるとわかる(ステップS804)。 Further, from the record of "term" is "global" in the transposition table IT (see FIG. 5), all positions of occurrences of the word "earth" is, in (001,14,15) and (001,19,20) there is and can be seen (step S804).
しかし、部分文書(001,19,20)は、ステップS803で取り出した部分文書(001,14,15)に含まれないため、部分文書(001,14,15)だけが該当する部分文書として絞り込まれる(ステップS805)。 However, the partial document (001,19,20) is not included in the partial document (001,14,15) extracted in step S803, narrowed as partial document only partial document (001,14,15) corresponds It is (step S805). つまり、部分文書(001,19,20)は、使用者によって検索クエリで指定されたパスに対応する部分文書に含まれないため、検索の対象外となる。 That is, the partial document (001,19,20) is not included in the partial document corresponding to the path specified by the search query by the user, out of the target of the search.

また、この部分文書(001,14,15)に関して、tf ki (部分文書k中の単語iの出現回数)は「1」であり、n (該当する単語iを含む部分文書数)も「1」であると算出できる(ステップS805)。 In addition, with respect to this part document (001,14,15), tf ki (the number of occurrences of the word i in the partial document k) is "1", n i (the number of partial document that contains the appropriate word i) is also " can be calculated to be 1 "(step S805).

以上の7つの値を前記した式(1)に代入してスコアを算出した式を、次の式(2)に示す。 The above seven values ​​into equation (1) described above were calculated score equation, shown in the following equation (2).
このようにして、検索クエリに該当した部分文書に関するスコアを算出することができる。 In this way, it is possible to calculate the scores for partial documents relevant to the search query.

なお、ステップS802において、検索クエリのパスの内容によっては、「L」と「N」の値が複数存在する場合もありえる。 Incidentally, in step S802, the by the content of the path of the search query, there may be a case where the value of "N" and "L" there are a plurality. その場合の「L」と「N」の値の扱いについて、図10を参照しながら説明する。 For treatment of the value of "N" and "L" in this case it will be described with reference to FIG. 10. 図10は、「L」と「N」の値が複数存在する場合における「L」と「N」の値の算出の説明図であり、(a)が図4(b)と同様のパステーブルPTなど、(b)が「L」と「N」の値の算出式、をそれぞれ表している。 Figure 10 is an explanatory diagram of calculation of the value of "N" and "L" when the value of "L" and "N" there are multiple same path table (a) and Figure 4 (b) such as PT, it represents (b) each of the "L" equation for calculating the value of "N", the.

たとえば、検索クエリのパスが「任意の位置にあるtitle(//title)」である場合、図10(a)に示すように、複数のパスが該当する(パスID(pathid)が「02」と「07」のパス)。 For example, if the path search query is "title in any position (// title)", as shown in FIG. 10 (a), a plurality of paths are applicable (path ID (pathid) is "02" the path of "07"). この場合、たとえば、図10(b)の算出式に示すように、「N」の値は複数の「N(N ,N ,・・・)」の値を足したもの、「L」の値は複数の「L(L ,L ,・・・)」のそれぞれに関して、対応する「N」の値による加重平均をとったもの、として計算すればよい。 In this case, for example, as shown in the calculation formula in FIG. 10 (b), those values of "N" plus the value of the plurality of "N (N 1, N 2, · · ·)", "L" the value multiple "L (L 1, L 2, ···) " for each of those taking the weighted average according to the value of the corresponding "N", may be calculated as. 具体的な算出例は、図10(a)の下半分に示した通りである。 Specific calculation examples are as shown in the lower half of FIG. 10 (a).
このようにして、「L」と「N」の値が複数存在する場合でも、支障なく適合度の算出やランキングを行うことができる。 In this way, the value of "L" and "N" even if there are a plurality, it is possible to perform the ranking calculation or without hindrance fit.

(第2実施形態) (Second Embodiment)
次に、図11A〜図20を参照しながら、本発明の第2実施形態について説明する。 Next, referring to FIG. 11A~ Figure 20, a description of a second embodiment of the present invention. 図11Aは、第2実施形態の情報処理装置の構成図である。 Figure 11A is a configuration diagram of an information processing apparatus of the second embodiment. なお、図1の情報処理装置1と同様の構成については同じ符号を付し、説明を適宜省略する。 The same symbols are assigned to the same configuration as the information processing apparatus 1 of FIG. 1, and description thereof is appropriately omitted. 図11Aの情報処理装置1aは、図1の情報処理装置1と比べて、記憶部5aと処理部6aの構成が変更されている。 The information processing apparatus 1a of Figure 11A is different from the information processing apparatus 1 of FIG. 1, the configuration of the storage section 5a and the processing unit 6a has been changed.

図11Aに示すように、情報処理装置1aの処理部6aは、図1の範囲ラベル部63の代わりにタグインデックス部66(ノード管理部)を備えている。 As shown in FIG. 11A, the processing unit 6a of the information processing apparatus 1a is provided with a tag index portion 66 (node ​​manager) in place of the range label portion 63 of FIG. 1. タグインデックス部66は、ノードテーブルNTaにおいてノードIDを使用して各ノードに関する情報を管理する。 Tag index unit 66, using the node ID in the node table NTa manages information about each node.
また、記憶部5aにおいて、ノードテーブルNTaと転置表ITaは、図1の情報処理装置1において相当するそれぞれの構成と比べて、構成要素が一部変更されている(詳細は図12と図14で後記)。 In the storage unit 5a, node table NTa the transposition table ITa, compared with each of the components corresponding in the information processing apparatus 1 of FIG. 1, the components are partially modified (detail 12 and 14 in below). さらに、記憶部5aは、図1の記憶部5と比べて、新たにテキストテーブルTT(テキスト情報)を有している(詳細は図13で後記)。 Further, the storage unit 5a is different from the memory unit 5 of FIG. 1, new (described later in detail Figure 13) the text table TT has a (text information).

ここで、図11Bを参照しながら、XML文書にノードIDを付与した状態について説明する。 Here, referring to FIG. 11B, it will be described a state in which a node ID is added to the XML document. 図11Bは、(a)が図2(a)のXML文書001に対してノードIDを付与した状態を示す図であり、(b)が図2(b)のXML文書002に対してノードIDを付与した状態を示す図である。 Figure 11B is, (a) is a diagram showing a state in which adds the node ID to the XML document 001 in FIG. 2 (a), the node ID to the XML document 002 (b) in FIG. 2 (b) is a diagram showing an applied state of.
図11B(a)に示すように、XML文書001において、ノードn1(book)はノードIDが「001」で、ノードIDが「002」のノードn11の親である。 As shown in FIG. 11B (a), the XML document 001, the node n1 (book) is a node ID of "001", the node ID is the parent of node n11 of "002". 同様に、全てのノードに識別子として異なるノードIDを付与する。 Similarly, to impart different node ID as an identifier to all nodes. 図11B(b)についても同様である。 The same applies to FIG. 11B (b).

次に、図12を参照しながら、ノードテーブルNTaについて説明する。 Next, referring to FIG. 12, described node table NTa. 図12(a)は、(a1)がXML文書001に関するノードテーブル001NTaであり、(a2)がXML文書002に関するノードテーブル002NTaを示す図である。 12 (a) is, (a1) is a node table 001NTa relates XML document 001 is a diagram showing a node table 002NTa relates XML document 002 (a2). いずれのノードテーブルNTaも、左から順に、ノードID(nodeid)、直近の親ノードのノードIDを表す親ノードID(parent)、各ノードに与えられているタグ(tag)、パスの識別子を表すパスID(pathid)、そのノードがパス指定されたときの部分文書の長さを表すlk、および、そのノードがパス指定されたときの部分文書に含まれるテキストデータの識別子であるテキストID(textid)(関係情報。ノード位置情報)のカラムから構成されている。 Any node table NTa also represent the order from the left, the node ID (nodeid), the parent node ID represents the node ID of the immediate parent node (parent), tag given to each node (tag), an ID of the path in path ID (pathid), lk representing the length of the partial document when that node is a path specified, and text ID that node is the identifier of the text data included in the partial document when the path specified (textid ) (and a column of the relationship information. node position information).
図12(b)のパステーブルPTは、図4(b)のものと同様である。 Path table PT of FIG. 12 (b) are the same as those in Figure 4 (b).

続いて、図13を参照しながら、テキストテーブルについて説明する。 Subsequently, referring to FIG. 13, a description will be given text table. 図13は、(a)が図12(a)と同様のノードテーブルNTaであり、(b)がテキストテーブルTTの構成図である。 13, (a) is a similar node table NTa and FIG 12 (a), (b) is a block diagram of a text table TT.
図13(b)に示すように、テキストテーブルTTには、各テキストノードのテキストデータ(text)がテキストID(textid)と関連付けられて格納されている。 As shown in FIG. 13 (b), the text table TT, the text data (text) for each text node is stored in association with the text ID (textid).

次に、図14を参照しながら、転置表ITaについて説明する。 Next, with reference to FIG. 14, described transposition table ITa. 図14は、転置表ITaの構成図である。 Figure 14 is a block diagram of a transposition table ITa.
図14に示すように、転置表ITaは、単語(term)とテキストID(textid)のカラムから構成されている。 As shown in FIG. 14, the transposed table ITa is constituted by a column of words (term) with the text ID (textid). テキストID(textid)は、図13(b)のテキストテーブルTTにおけるテキストID(textid)と対応している。 Text ID (textid) corresponds with the text ID (textid) in text table TT in FIG. 13 (b).

続いて、図15を参照しながら、構造インデックス(パステーブルPTおよびノードテーブルNTa)の構築処理について説明する。 Subsequently, with reference to FIG. 15 will be described the construction process of the structure index (the path table PT and the node table NTa). 図15は、構造インデックスの構築処理の概要を示すフローチャートである。 Figure 15 is a flowchart showing the outline of the construction process of the structure index.
まず、使用者が、入力部2を介して、新たに蓄積したいXML文書を情報処理装置1に投入する。 First, the user, via the input unit 2, turning on the XML document to be newly stored in the information processing apparatus 1. そうすると、処理部6のデータ格納部61が記憶部5のXML文書群51にそのXML文書を格納する。 Then, the data storage unit 61 of the processing unit 6 stores the XML document in the XML documents 51 in the storage unit 5. それとき、投入された全てのXML文書に関して(ステップS1503でYesが選択されるまで)、パスインデックス部62がパスインデックスの構築(パステーブルPTの更新)を行い(ステップS1501。詳細は図16)、タグインデックス部66がタグインデックスの構築(ノードテーブルNTaとテキストテーブルTTの更新)を行うことにより(ステップS1502。詳細は図17)、構造インデックスを構築する。 It time, with respect to the inserted all XML documents were (in step S1503 until Yes is selected), building the path index portion 62 of the path index performed (updating of the path table PT) (Step S1501. More Figure 16) by tag index unit 66 performs the building of a tag index (update node table NTa and text table TT) (step S1502. more 17), constructing a structural index.

図16は、パスインデックス部62によるパスインデックスの構築処理のフローチャートであるが、ステップS1601〜S1605の処理は、図6のステップS601〜S605の処理と同様であるので、説明を省略する。 Figure 16 is a flowchart of process of establishing paths index by the path index unit 62, since the processing of step S1601~S1605 is the same as the processing in steps S601~S605 of FIG. 6, the description thereof is omitted.

図17は、タグインデックス(ノードテーブルNTaとテキストテーブルTT)の構築処理のフローチャートであり、図16のフローチャートの処理の後に行われる。 Figure 17 is a flowchart of process of building tag index (node ​​table NTa and text table TT), is performed after the processing in the flowchart of FIG. 16.
まず、投入されたXML文書から、タグインデックス部66は、1つのノードを取り出す(ステップS1701)。 First, from the input XML document, the tag index unit 66 extracts one node (step S1701).
次に、タグインデックス部66は、パステーブルPTを参照し、そのノードに対応するパスIDを取り出す(ステップS1702)。 Next, the tag index unit 66 refers to the path table PT, for retrieving a path ID corresponding to the node (step S1702).
タグインデックス部66は、そのノードがテキストノード(テキストデータを有するノード)である場合は、テキストデータをテキストテーブルTTに格納し(ステップS1703)、テキストテーブルTTから該当するテキストID(textid)の値を取り出す(ステップS1704)。 Tag index unit 66, if the node is a text node (node ​​with text data), and stores the text data in the text table TT (step S1703), the value of the text ID corresponding text table TT (textid) the take out (step S1704). そのノードがテキストノードでない場合、タグインデックス部66はステップS1703とステップS1704の処理を行わずにスルーする。 If the node is not a text node, tag index unit 66 through without processing in step S1703 and step S1704.

続いて、タグインデックス部66は、そのノードがルートノード(最上位のノード)か否かを判断し(ステップS1705)、ルートノードの場合(Yes)、ノードテーブルNTaのそのノードの「parent」に「0」を格納し(ステップS1710)、ステップS1711に進む。 Subsequently, the tag index unit 66, to the node determines whether the root node (highest node) (step S1705), if the root node (Yes), "parent" of the node in the node table NTa stores "0" (step S1710), the process proceeds to step S1711.
そのノードがルートノードでない場合(ステップS1705でNo)、タグインデックス部66は、ノードテーブルNTaのそのノードの「parent」に直近の親ノードのノードIDを格納する(親ノードのノードIDをparent値とする)(ステップS1706)。 If the node is not the root node (No in step S1705), the tag index portion 66, node "parent" of the node table NTa stores the node ID of the immediate parent node (parent value the node ID of the parent node to) (step S1706).

ステップS1706の後、タグインデックス部66は、ルートノードに移動するまで(レコードのparent値が0になるまで。すなわち、ステップS1709でYesになるまで)、parent値をたどって1つ上の親ノードのノードテーブルNTaの行(レコード)に移動し(ステップS1707)、そのレコードのテキストID(textid)に、ステップS1704で取り出したテキストIDの値を加える(ステップS1708)。 After step S1706, the tag index portion 66 until it moves to the root node (up to parent value record is zero. That is, until Yes in step S1709), the parent node up one by following the parent value node moves to the row of the table NTa (record) (step S1707), the text ID (textid) of that record, adds the value of the text ID extracted in step S1704 (step S1708).

つまり、ステップS1707〜S1709の処理により、ノードテーブルNTaにおいて、それぞれのノードにその配下のテキストデータのテキストID(textid)が全て集まることになる。 In other words, the process of step S1707~S1709, the node table NTa, text ID of the text data of the subordinate to each node (textid) will be gathered all. たとえば、図12(a1)において、ルートノード(ノードID(nodeid)が「001」のノード)には、XML文書001のすべてのテキストデータのテキストID(textid)が集まる。 For example, in FIG. 12 (a1), the root node (node ​​of the node ID (nodeid) is "001"), the text ID of all the text data in the XML document 001 (textid) gather.
なお、ステップS1701で取り出したノードがテキストノードでない場合、タグインデックス部66は、ステップS1706〜S1709の処理を行わずにスルーする。 Incidentally, if the node extracted in step S1701 is not a text node, tag index unit 66 through without processing in step S1706~S1709.

次に、タグインデックス部66は、ノードテーブルNTaの末尾に、そのノード自身のレコードを加える(ステップS1711)。 Next, the tag index part 66, the end of the node table NTa, adding a record of the node itself (step S1711). このとき、タグインデックス部66は、ノードテーブルNTに、「lk」を含む各値(カラムの情報)を格納する。 At this time, the tag index unit 66, the node table NT, storing each value including "lk" (information column).
タグインデックス部66は、全てのノード分の処理を終了したか否かを判断し(ステップS1712)、終了していなければ(No)ステップS1701に戻って処理を繰り返し、終了していれば(Yes)処理を終了する。 Tag index unit 66 determines whether or not the process of all nodes minute (step S1712), If not completed (No) repeats the processing returns to step S1701, if completed (Yes ) and the process ends.

このようにして、図17のフローチャートの処理により、図6のステップS606〜S610の場合と同様、ノードテーブルNTaを更新するときに、「部分文書ごとの統計量」(ノードテーブルNTaの「lk」)を算出および格納することができる。 In this way, the processing of the flowchart of FIG. 17, as in step S606~S610 of FIG. 6, when updating the node table NTa, "Statistics of each partial document" (the node table NTa "lk" ) can be calculated and stored. そして、これにより、検索(適合度の算出)時に「部分文書ごとの統計量」を算出する必要がなくなり、検索処理を高速化することができる。 And, thereby, the search it is not necessary to calculate the (fitness calculation) at "statistic for each partial document", it is possible to speed up the search process.

続いて、図18を参照しながら、テキストインデックス(転置表ITa)の構築処理について説明する。 Subsequently, with reference to FIG. 18 will be described the construction process of the text index (transposition table ITa). 図18は、テキストインデックスの構築処理を示すフローチャートである。 Figure 18 is a flowchart showing the process of building the text index.
図15〜図17に示したフローチャートの処理によって、投入されたXML文書に関して、パステーブルPTとノードテーブルNTaが更新された後、テキストインデックス部64は、ノードテーブルNTaから1レコードを取り出す(ステップS1801)。 The processing of the flowchart shown in FIGS. 15 to 17, with respect to the inserted XML document, then the path table PT and the node table NTa is updated, the text index unit 64 extracts one record from node table NTa (step S1801 ).

続いて、テキストインデックス部64は、取り出したレコードにおける記述内容(図13(a)のノードテーブルNTaの「textid」に対応する図13(b)のテキストテーブルTTにおける「text」のカラムのデータ)に関して、形態素解析の手法を用いて単語に分ける(ステップS1802)。 Subsequently, the text index unit 64, described in the record extracted content (data of the column of the "text" in the text table TT of Figure 13 corresponding to "textid" of the node table NTa in FIG. 13 (a) (b)) respect, divided into words by using the technique of morphological analysis (step S1802).

その後、テキストインデックス部64は、分けられたうちの1つの単語が転置表ITaに含まれているか否かを判断する(ステップS1803)。 Thereafter, the text index section 64 of one of the divided word determines whether or not included in the permutation table ITa (step S1803).
その単語が転置表ITaに含まれていなかった場合(ステップS1803でNo)、テキストインデックス部64は、その単語を新たに転置表ITaに登録する(ステップS1804)。 If the word is not included in the permutation table ITa (No at step S1803), the text index unit 64 registers the word in the newly transposed table ITa (step S1804).

ステップS1803でYesの場合、およびステップS1804に続き、ステップS1805において、テキストインデックス部64は、その単語の「textid」を転置表ITaに格納する。 If Yes at step S1803, and continues to step S1804, in step S1805, the text index unit 64 stores "textid" of the word to transpose table ITa. たとえば、単語「宇宙」がXML文書001のノードn111に存在していれば(図11B(a)参照)、ノードn111のテキストデータに該当する「textid」である「01」(図13(b)参照)を、転置表ITa(図14参照)の「宇宙」に対応する「textid」のカラムに格納する。 For example, if the word "space" is long as exist on node n111 of XML document 001 (see FIG. 11B (a)), "01" is "textid" corresponding to text data of the node n111 (FIG. 13 (b) see), it is stored in the column of "textid" corresponding to the "space" in the transposition table ITa (see FIG. 14).

その後、テキストインデックス部64は、そのレコードに関する全ての単語分の処理を終了したか否かを判断し(ステップS1806)、終了していなければ(No)ステップS1803に戻って処理を繰り返し、終了していれば(Yes)ステップS1807に進む。 Thereafter, the text index unit 64 determines whether the processing has been completed for all the word to the for that record (step S1806), repeats the processing returns to completed unless (No) Step S1803, and ends long as it (Yes) the flow proceeds to step S1807.
また、テキストインデックス部64は、そのXML文書に関する全てのレコード分の処理を終了したか否かを判断し(ステップS1807)、終了していなければ(No)ステップS1801に戻って処理を繰り返し、終了していれば(Yes)処理を終了する。 Moreover, the text index unit 64 determines whether the processing has been completed for all the records content related to the XML document (step S1807), it repeats the processing returns to If not completed (No) step S1801, termination if the (Yes) and terminates the process.

このようにして、図18に示したフローチャートの処理により、検索に必要な3つの統計量(「部分文書集合全体の統計量」、「部分文書ごとの統計量」および「検索単語に対する統計量」)のうち、「検索単語に対する統計量」(転置表ITaの情報)をXML文書の投入直後(検索クエリの入力前)に算出および格納することができるので、検索(適合度の算出)時に「検索単語に対する統計量」を算出する必要がなくなり、検索処理を高速化することができる。 Thus, the flowchart of the processing shown in FIG. 18, three statistics required for search ( "partial document of the entire set statistics", "Statistics of each partial document" and "Statistics for search word" ) of, can be calculated and stored in the "search statistics for the word" (immediately after on of the transposition table ITa information) the XML document (before the input of the search query), search (calculation of fitness) during " it is not necessary to calculate the statistics "to the search word, thereby speeding up the search process.

次に、図19を参照しながら、ランキング処理について説明する。 Next, referring to FIG. 19, the ranking process will be described. 図19は、ランキング処理を示すフローチャートである。 Figure 19 is a flow chart illustrating the ranking process.
記憶部5aのXML文書群51に蓄積された複数のXML文書に関して、検索によるランキングを行う場合、まず、使用者が入力部2を用いて検索クエリ(パスと検索文字列)を入力する。 For a plurality of XML documents stored in XML documents 51 in the storage unit 5a, when performing ranked by the search, first, the user inputs a search query (path of the search string) using the input unit 2.

そうすると、処理部6のランキング部65は、検索クエリからパス、検索単語(検索文字列から抽出)、l (検索文字列qの長さ)、および、tf qi (検索文字列q中の検索単語iの出現回数)を取り出す(算出する)(ステップS1901)。 Then, ranking section 65 of the processing unit 6, search from the search query path, search word (extracted from the search string), (the length of the search string q) l q, and, for tf qi (in the search string q retrieve a number of occurrences) of the word i (calculated) (step S1901).
続いて、ランキング部65は、パステーブルPTを参照し、検索クエリ中のパスに対応するレコードにおける「L」、「N」およびパスID(pathid)の値を取り出す(ステップS1902)。 Subsequently, the ranking section 65 refers to the path table PT, "L" in the record corresponding to the path in the search query, retrieving the value of "N" and a path ID (pathid) (step S1902).

ランキング部65は、ノードテーブルNTaを参照し、ステップS1902で取り出したパスID(pathid)に対応するレコードにおけるテキストID(textid)と「lk」の値を取り出す(ステップS1903)。 Ranking unit 65, the node refers to a table NTa, taken text ID and (textid) the value of the "lk" in the record corresponding to the path ID (pathid) extracted in step S1902 (step S1903).
ランキング部65は、転置表ITaから、検索単語の出現位置(textid)の値を取り出す(ステップS1904)。 Ranking unit 65, the transposed table ITa, retrieving the value of the occurrence position of the search word (textid) (step S1904).

続いて、ランキング部65は、転置表ITaから取り出したテキストID(textid)の値を用いて検索単語の出現する部分文書を絞り、tf ki (部分文書k中の単語iの出現回数)とn (該当する単語iを含む部分文書数)を算出する(ステップS1905)。 Subsequently, the ranking section 65, squeezing the emerging partial document of the search word using the text value ID retrieved from the transposition table ITa (textid), (the number of occurrences of the word i in the partial document k) tf ki and n i is calculated (part number of documents that contain the appropriate word i) (step S1905). ここで、ステップS1905の具体例について、図20を参照しながら説明する。 Here, a specific example of step S1905, will be described with reference to FIG. 20.

図20は、ステップS1905の具体例、すなわち、部分文書の選別と単語の統計量の算出の例を示した図である。 Figure 20 is a specific example of the step S1905, i.e., a diagram showing an example of calculation of the sorting and word statistics partial document. なお、この図20における例は、図2〜図5などの具体例とは関係ない独立した例である。 The example in FIG. 20 is an example in which the independent not related to the specific examples of such 2-5.
図20(a)に示した部分文書群と図20(b)に示した単語出現文書群に基づき、たとえば、まず、部分文書群(a)における最上位に記載された部分文書(ノードID「004」、テキストID「02,03,04,05,06,07」)におけるテキストIDが単語出現文書群(b)に存在するか探す。 Based on the word appearance documents shown in partial document group and FIG. 20 (b) shown in FIG. 20 (a), for example, first, the partial document according to the top-level in the partial document group (a) (node ​​ID " 004 ", look for either text ID in the text ID" 02,03,04,05,06,07 ") is present in the word appearance document group (b). ここでは、(b)の単語出現文書群において、テキストIDの「03」と「07」が該当する。 Here, in the word appearance document group of (b), the appropriate is "07" and "03" of the text ID.

以下、同様にして、図20(c)に示すように、部分文書が3つに絞られ、統計量のtf ki (部分文書k中の単語iの出現回数)は上から「2」、「1」および「1」であり、そして、n (該当する単語iを含む部分文書数)は「3」であると算出することができる。 In the same manner, as shown in FIG. 20 (c), squeezed into three partial document, (the number of occurrences of the word i in the partial document k) tf ki statistics "2" from the top " 1 "and is" 1 ", and, n i (part number of documents that contain the appropriate word i) can be calculated as" 3 ".

図19に戻って、ランキング部65は、各統計量と前記した式(1)を用いて、該当する部分文書のスコアを算出する(ステップS1906)。 Returning to FIG. 19, ranking section 65, using Equation (1) described above and the statistic to calculate the score of the corresponding partial document (step S1906).
そして、ランキング部65は、ステップS1906で算出したスコアの高い順に部分文書をソートすることで、ランキングを行う(ステップS1907)。 The ranking unit 65, by sorting the partial document in descending order of scores calculated in step S1906, performs ranking (step S1907).
なお、ステップS1906とステップS1907の処理は、図8のステップS806とステップS807の処理と同様であるので、詳細な説明を省略する。 The processing of step S1906 and step S1907 are the same as steps S806 and step S807 in FIG. 8, a detailed description thereof will be omitted.

このように、情報処理装置1aは、予め算出および格納してある3つの統計量(「部分文書集合全体の統計量」、「部分文書ごとの統計量」および「検索単語に対する統計量」)を用いて検索(適合度の算出、ランキング)を行うことにより、検索を高速に処理することができる。 Thus, the information processing apparatus 1a, the three statistics are calculated in advance and stored ( "partial document of the entire set statistics", "Statistics of each partial document" and "Statistics for search word") using the search (calculation of fitness, Index) by performing, it can be processed search at high speed.

また、各実施形態のXML文書の適合度の算出方法は、前記した各フローチャートを実行するプログラムを作成することで、コンピュータ(装置)において実現することができる。 Further, the method of calculating the fitness of XML documents of each embodiment, by creating a program for executing the flowcharts described above can be implemented in a computer (device). さらに、それらのプログラムは、ハードディスク、フラッシュメモリ、CD−ROM(Compact Disk Read Only Memory)、DVD(Digital Versatile Disk)などの記録媒体に保存することが可能である。 Moreover, these programs, a hard disk, flash memory, CD-ROM (Compact Disk Read Only Memory), can be stored in a recording medium such as a DVD (Digital Versatile Disk).

以上で実施形態の説明を終えるが、本発明の態様はこれらに限定されるものではない。 End of the description of the embodiments above, but aspects of the present invention is not limited thereto.
たとえば、本実施形態では、文字列から単語を抽出する手法として、形態素解析を用いたが、N-gramなどの別の手法を用いてもよい。 For example, in the present embodiment, as a method for extracting a word from a character string, but using morphological analysis, it may be used another technique such as N-gram.
その他、具体的な構成について、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。 Other, specific configuration, can be appropriately changed without departing from the scope of the present invention.

第1実施形態の情報処理装置の構成図である。 It is a configuration diagram of an information processing apparatus of the first embodiment. XML文書のソースコードの例を示した図であり、(a)が図22と同様のXML文書001に関する図であり、(b)がその他の例としてのXML文書002に関する図である。 Is a diagram showing an example of a source code of an XML document, (a) is a diagram relating to the same XML document 001 and FIG. 22 is a diagram for XML documents 002 as an example of others (b). (a)がXML文書001に対して範囲ラベルを付与した状態を示す図であり、(b)がXML文書002に対して範囲ラベルを付与した状態を示す図である。 (A) is a view showing a state in which Grant range label to XML document 001 is a diagram showing a state (b) is imparted with a range label to XML document 002. (a)がノードテーブル、(b)がパステーブルを例示した図である。 (A) the node table, a diagram (b) is exemplified the path table. 転置表の例を示した図である。 Is a diagram showing an example of a transposition table. 構造インデックスの構築処理を示すフローチャートである。 Is a flowchart showing the process of building the structure index. テキストインデックスの構築処理を示すフローチャートである。 Is a flowchart showing the process of building the text index. ランキング処理を示すフローチャートである。 Is a flow chart illustrating the ranking process. 部分文書の選別と単語の統計量の算出の例を示した図である。 Is a diagram showing an example of calculation of the sorting and word statistics partial document. 「L」と「N」の値が複数存在する場合における「L」と「N」の値の算出の説明図であり、(a)が図4(b)と同様のパステーブルPTなど、(b)が「L」と「N」の値の算出式、をそれぞれ表している。 The value of "L" and "N" is an illustration of the calculation of the value of "N" and "L" in the case where there are a plurality, (a) and the same path table PT and FIG 4 (b), ( b) is representative equation for calculating the value of "L" and "N", respectively. 第2実施形態の情報処理装置の構成図である。 It is a configuration diagram of an information processing apparatus of the second embodiment. (a)が図2(a)のXML文書001に対してノードIDを付与した状態を示す図であり、(b)が図2(b)のXML文書002に対してノードIDを付与した状態を示す図である。 (A) is a diagram showing a state in which adds the node ID to the XML document 001 in FIG. 2 (a), while applying the node ID to the XML document 002 (b) in FIG. 2 (b) is a diagram illustrating a. (a)がノードテーブル、(b)がパステーブルを例示した図である。 (A) the node table, a diagram (b) is exemplified the path table. (a)が図12(a)と同様のノードテーブルNTであり、(b)がテキストテーブルTTの構成図である。 (A) is a similar node table NT and FIG 12 (a), (b) is a block diagram of a text table TT. 転置表ITaの例を示した図である。 Is a diagram showing an example of a transposition table ITa. 構造インデックスの構築処理の概要を示すフローチャートである。 Is a flowchart showing the outline of the construction process of the structure index. パスインデックス部62によるパスインデックスの構築処理のフローチャートである。 It is a flowchart of the process of building the path index by the path index portion 62. タグインデックスの構築処理のフローチャートである。 Tag is a flowchart of the process of building the index. テキストインデックスの構築処理を示すフローチャートである。 Is a flowchart showing the process of building the text index. ランキング処理を示すフローチャートである。 Is a flow chart illustrating the ranking process. 部分文書の選別と単語の統計量の算出の例を示した図である。 Is a diagram showing an example of calculation of the sorting and word statistics partial document. 比較例の統計情報を用いたランキング例を示したものであり、(a)が文書例、(b)が適合度(ランキング)の計算例1、(c)が適合度の計算例2の説明図である。 And it shows a ranking example using statistics Comparative Example, (a) the document example, (b) Calculation example 1 of goodness of fit (ranking), (c) a description of calculation example 2 fitness it is a diagram. (a)はXML文書のソースコードの例の簡略図、(b)はXML文書の木構造を示した図である。 (A) is a simplified diagram of an example of a source code of an XML document, (b) is a diagram showing a tree structure of an XML document. (a)と(b)は、図2(b)の例について、それぞれのパスによる部分文書の範囲を示した図である。 (A) and (b), for example in FIG. 2 (b), a diagram showing the range of the partial document by each path. (a)と(b)は、図2(b)の例について、それぞれのパスによる部分文書の範囲を示した図である。 (A) and (b), for example in FIG. 2 (b), a diagram showing the range of the partial document by each path.

符号の説明 DESCRIPTION OF SYMBOLS

1,1a 情報処理装置 2 入力部 3 出力部 4 メモリ 5,5a 記憶部 6,6a 処理部 51 XML文書群 61 データ格納部 62 パスインデックス部 63 範囲ラベル部 64 テキストインデックス部 65 ランキング部 66 タグインデックス部 IT,ITa 転置表 NT,NTa ノードテーブル PT,PTa パステーブル TT テキストテーブル 1,1a information processing apparatus 2 input 3 output unit 4 memory 5,5a storage unit 6,6a processor 51 XML documents 61 data storage unit 62 pass the index portion 63 ranges label portion 64 text index portion 65 ranking unit 66 tag index Department IT, ITa transpose table NT, NTa node table PT, PTa path table TT text table

Claims (5)

  1. 複数のXML文書に関するパス単位の情報を格納するパス情報、前記XML文書ごとの各XML文書におけるノード間の関係情報を格納するノード情報、および、前記複数のXML文書で使用されている各単語の出現位置情報を格納する単語情報、を記憶する記憶部と、 Path information storing path information units for a plurality of XML documents, node information storing relationship information between nodes in the XML document for each of the XML document, and, for each word that is used by the plurality of XML documents a storage unit for storing word information storing occurrence position information, and
    前記複数のXML文書に関してパス単位の情報を前記パス情報に格納するパスインデックス部と、 And a path index section for storing path information units to said path information with respect to said plurality of XML documents,
    それぞれの前記XML文書におけるノード間の親子関係を含む関係を分析しその関係情報を前記ノード情報に格納するノード管理部と、 Analyze the relationship including a parent-child relationship between the nodes in each of the XML document and the node management unit for storing the relationship information to the node information,
    前記複数のXML文書のいずれかで使用されている単語を、その単語が使用されているXML文書の文書ID(IDentification)を含む出現位置情報と関連付けて前記単語情報に格納するテキストインデックス部と、 The words used in any of the plurality of XML documents, and text index portion to be stored in the word information in association with occurrence position information including the document ID of the XML document (IDentification) that the word is being used,
    パスと検索単語が入力されたときに、前記複数のXML文書に関して、その入力されたパスの配下の文書である部分文書における当該検索単語の適合度を算出するランキング部と、 When the path and the search word is inputted, with respect to the plurality of XML documents, a ranking unit for calculating the fitness of the search word in the partial document is a document under the input path,
    を備える情報処理装置が、構造化データであるXML文書を複数蓄積し、その複数のXML文書に関して、前記入力されたパスの配下の部分文書における前記検索単語の適合度を算出する、XML文書の適合度の算出方法であって、 Information processing apparatus including a can, an XML document is structured data to multiple storage, with respect to the plurality of XML documents, calculates the search word of relevance in the partial document under the input path, the XML document a method of calculating the goodness of fit,
    前記パス情報は、パス単位の情報として、それぞれのパスの配下の部分文書の集合に関する統計情報であり、少なくとも、前記部分文書の集合全体の平均長さ、および、前記部分文書の総数のいずれかを含むパス統計情報を記憶しており、 The path information, as the information of each path, Ri statistics der for a set of partial documents under the respective path, at least, the average length of the entire set of the partial document, and any of the total number of the partial document or it stores the path metrics including,
    前記パスインデックス部は、前記パスと検索単語が入力される前に、蓄積された前記複数のXML文書に関して、前記パス統計情報を含むパス情報を更新し、 The path index part, before the path and the search word is inputted, with respect to the stored plurality of XML documents, and update the path information including the path metrics,
    前記ランキング部は、前記パスと検索単語が入力された後に、前記パス統計情報を含むパス情報、前記ノード情報、および、前記単語情報を参照し、当該パスと検索単語に基づいて、前記複数のXML文書に関する適合度の算出を行う ことを特徴とするXML文書の適合度の算出方法。 The ranking unit, after the pass and the search word is entered, the path information including the path metrics, the node information, and, by referring to the word information, based on the search word and the path, said plurality of the method of calculating the fitness of XML documents, characterized in that to calculate the relevance for XML documents.
  2. 複数のXML文書に関するパス単位の情報を格納するパス情報、前記XML文書ごとの各XML文書におけるノード間の関係情報を格納するノード情報、および、前記複数のXML文書で使用されている各単語の出現位置情報を格納する単語情報、を記憶する記憶部と、 Path information storing path information units for a plurality of XML documents, node information storing relationship information between nodes in the XML document for each of the XML document, and, for each word that is used by the plurality of XML documents a storage unit for storing word information storing occurrence position information, and
    前記複数のXML文書に関してパス単位の情報を前記パス情報に格納するパスインデックス部と、 And a path index section for storing path information units to said path information with respect to said plurality of XML documents,
    それぞれの前記XML文書におけるノード間の親子関係を含む関係を分析しその関係情報を前記ノード情報に格納するノード管理部と、 Analyze the relationship including a parent-child relationship between the nodes in each of the XML document and the node management unit for storing the relationship information to the node information,
    前記複数のXML文書のいずれかで使用されている単語を、その単語が使用されているXML文書の文書ID(IDentification)を含む出現位置情報と関連付けて前記単語情報に格納するテキストインデックス部と、 The words used in any of the plurality of XML documents, and text index portion to be stored in the word information in association with occurrence position information including the document ID of the XML document (IDentification) that the word is being used,
    パスと検索単語が入力されたときに、前記複数のXML文書に関して、その入力されたパスの配下の文書である部分文書における当該検索単語の適合度を算出するランキング部と、 When the path and the search word is inputted, with respect to the plurality of XML documents, a ranking unit for calculating the fitness of the search word in the partial document is a document under the input path,
    を備える情報処理装置が、構造化データであるXML文書を複数蓄積し、その複数のXML文書に関して、前記入力されたパスの配下の部分文書における前記検索単語の適合度を算出する、XML文書の適合度の算出方法であって、 Information processing apparatus including a can, an XML document is structured data to multiple storage, with respect to the plurality of XML documents, calculates the search word of relevance in the partial document under the input path, the XML document a method of calculating the goodness of fit,
    前記ノード情報は、各ノードごとの情報として、それぞれのノードの配下の部分文書に関する統計情報であり、少なくとも前記部分文書の長さを含むノード統計情報を記憶しており、 The node information, as the information for each node, Ri statistics der about partial document under the respective node, stores the node statistical information including a length of at least the partial document,
    前記ノード管理部は、前記パスと検索単語が入力される前に、前記ノード統計情報を含む前記ノード情報を更新し、 The node manager, before the path and the search word is inputted, updates the node information including the node statistical information,
    前記ランキング部は、前記パスと検索単語が入力された後に、前記パス情報、前記ノード統計情報を含むノード情報、および、前記単語情報を参照し、当該パスと検索単語に基づいて、前記複数のXML文書に関する適合度の算出を行う ことを特徴とするXML文書の適合度の算出方法。 The ranking unit, after the pass and the search word is entered, the path information, node information including the node statistics, and, by referring to the word information, based on the search word and the path, said plurality of the method of calculating the fitness of XML documents, characterized in that to calculate the relevance for XML documents.
  3. 複数のXML文書に関するパス単位の情報を格納するパス情報、前記XML文書ごとの各XML文書におけるノード間の関係情報を格納するノード情報、および、前記複数のXML文書で使用されている各単語の出現位置情報を格納する単語情報、を記憶する記憶部と、 Path information storing path information units for a plurality of XML documents, node information storing relationship information between nodes in the XML document for each of the XML document, and, for each word that is used by the plurality of XML documents a storage unit for storing word information storing occurrence position information, and
    前記複数のXML文書に関してパス単位の情報を前記パス情報に格納するパスインデックス部と、 And a path index section for storing path information units to said path information with respect to said plurality of XML documents,
    それぞれの前記XML文書におけるノード間の親子関係を含む関係を分析しその関係情報を前記ノード情報に格納するノード管理部と、 Analyze the relationship including a parent-child relationship between the nodes in each of the XML document and the node management unit for storing the relationship information to the node information,
    前記複数のXML文書のいずれかで使用されている単語を、その単語が使用されているXML文書の文書ID(IDentification)を含む出現位置情報と関連付けて前記単語情報に格納するテキストインデックス部と、 The words used in any of the plurality of XML documents, and text index portion to be stored in the word information in association with occurrence position information including the document ID of the XML document (IDentification) that the word is being used,
    パスと検索単語が入力されたときに、前記複数のXML文書に関して、その入力されたパスの配下の文書である部分文書における当該検索単語の適合度を算出するランキング部と、 When the path and the search word is inputted, with respect to the plurality of XML documents, a ranking unit for calculating the fitness of the search word in the partial document is a document under the input path,
    を備え、構造化データであるXML文書を複数蓄積し、その複数のXML文書に関して、前記入力されたパスの配下の部分文書における前記検索単語の適合度を算出する情報処理装置であって、 The provided, the XML document is a structured data to multiple storage, with respect to the plurality of XML documents, an information processing apparatus for calculating the search word of relevance in the partial document under the input path,
    前記パス情報は、パス単位の情報として、それぞれのパスの配下の部分文書の集合に関する統計情報であり、少なくとも、前記部分文書の集合全体の平均長さ、および、前記部分文書の総数のいずれかを含むパス統計情報を記憶しており、 The path information, as the information of each path, Ri statistics der for a set of partial documents under the respective path, at least, the average length of the entire set of the partial document, and any of the total number of the partial document or it stores the path metrics including,
    前記パスインデックス部は、前記パスと検索単語が入力される前に、蓄積された前記複数のXML文書に関して、前記パス統計情報を含むパス情報を更新し、 The path index part, before the path and the search word is inputted, with respect to the stored plurality of XML documents, and update the path information including the path metrics,
    前記ランキング部は、前記パスと検索単語が入力された後に、前記パス統計情報を含むパス情報、前記ノード情報、および、前記単語情報を参照し、当該パスと検索単語に基づいて、前記複数のXML文書に関する適合度の算出を行う ことを特徴とする情報処理装置。 The ranking unit, after the pass and the search word is entered, the path information including the path metrics, the node information, and, by referring to the word information, based on the search word and the path, said plurality of the information processing apparatus characterized by performing the calculation of the relevance for XML documents.
  4. 複数のXML文書に関するパス単位の情報を格納するパス情報、前記XML文書ごとの各XML文書におけるノード間の関係情報を格納するノード情報、および、前記複数のXML文書で使用されている各単語の出現位置情報を格納する単語情報、を記憶する記憶部と、 Path information storing path information units for a plurality of XML documents, node information storing relationship information between nodes in the XML document for each of the XML document, and, for each word that is used by the plurality of XML documents a storage unit for storing word information storing occurrence position information, and
    前記複数のXML文書に関してパス単位の情報を前記パス情報に格納するパスインデックス部と、 And a path index section for storing path information units to said path information with respect to said plurality of XML documents,
    それぞれの前記XML文書におけるノード間の親子関係を含む関係を分析しその関係情報を前記ノード情報に格納するノード管理部と、 Analyze the relationship including a parent-child relationship between the nodes in each of the XML document and the node management unit for storing the relationship information to the node information,
    前記複数のXML文書のいずれかで使用されている単語を、その単語が使用されているXML文書の文書ID(IDentification)を含む出現位置情報と関連付けて前記単語情報に格納するテキストインデックス部と、 The words used in any of the plurality of XML documents, and text index portion to be stored in the word information in association with occurrence position information including the document ID of the XML document (IDentification) that the word is being used,
    パスと検索単語が入力されたときに、前記複数のXML文書に関して、その入力されたパスの配下の文書である部分文書における当該検索単語の適合度を算出するランキング部と、 When the path and the search word is inputted, with respect to the plurality of XML documents, a ranking unit for calculating the fitness of the search word in the partial document is a document under the input path,
    を備え、構造化データであるXML文書を複数蓄積し、その複数のXML文書に関して、前記入力されたパスの配下の部分文書における前記検索単語の適合度を算出する情報処理装置であって、 The provided, the XML document is a structured data to multiple storage, with respect to the plurality of XML documents, an information processing apparatus for calculating the search word of relevance in the partial document under the input path,
    前記ノード情報は、各ノードごとの情報として、それぞれのノードの配下の部分文書に関する統計情報であり、少なくとも前記部分文書の長さを含むノード統計情報を記憶しており、 The node information, as the information for each node, Ri statistics der about partial document under the respective node, stores the node statistical information including a length of at least the partial document,
    前記ノード管理部は、前記パスと検索単語が入力される前に、前記ノード統計情報を含む前記ノード情報を更新し、 The node manager, before the path and the search word is inputted, updates the node information including the node statistical information,
    前記ランキング部は、前記パスと検索単語が入力された後に、前記パス情報、前記ノード統計情報を含むノード情報、および、前記単語情報を参照し、当該パスと検索単語に基づいて、前記複数のXML文書に関する適合度の算出を行う ことを特徴とする情報処理装置。 The ranking unit, after the pass and the search word is entered, the path information, node information including the node statistics, and, by referring to the word information, based on the search word and the path, said plurality of the information processing apparatus characterized by performing the calculation of the relevance for XML documents.
  5. 請求項1 または請求項に記載のXML文書の適合度の算出方法をコンピュータに実行させるためのプログラム。 Program for executing the method of calculating the fitness of XML documents according to the computer to claim 1 or claim 2.
JP2006333993A 2006-12-12 2006-12-12 A calculation method and program of the fit of the Xml document, the information processing apparatus Expired - Fee Related JP4839195B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006333993A JP4839195B2 (en) 2006-12-12 2006-12-12 A calculation method and program of the fit of the Xml document, the information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006333993A JP4839195B2 (en) 2006-12-12 2006-12-12 A calculation method and program of the fit of the Xml document, the information processing apparatus

Publications (2)

Publication Number Publication Date
JP2008146424A true JP2008146424A (en) 2008-06-26
JP4839195B2 true JP4839195B2 (en) 2011-12-21

Family

ID=39606525

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006333993A Expired - Fee Related JP4839195B2 (en) 2006-12-12 2006-12-12 A calculation method and program of the fit of the Xml document, the information processing apparatus

Country Status (1)

Country Link
JP (1) JP4839195B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
JP5225021B2 (en) * 2008-10-29 2013-07-03 日本電信電話株式会社 Full-text search method and apparatus and program
JP5225022B2 (en) * 2008-10-29 2013-07-03 日本電信電話株式会社 Xml data retrieval method and apparatus and program
JP5191441B2 (en) * 2009-05-14 2013-05-08 日本電信電話株式会社 Index construction method and apparatus and an information retrieval method and apparatus and a program
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results

Also Published As

Publication number Publication date Type
JP2008146424A (en) 2008-06-26 application

Similar Documents

Publication Publication Date Title
Chang et al. A survey of web information extraction systems
Garfield Historiographic mapping of knowledge domains literature
Jacso Deflated, inflated and phantom citation counts
US20020021838A1 (en) Adaptively weighted, partitioned context edit distance string matching
US20080140644A1 (en) Matching and recommending relevant videos and media to individual search engine results
US7555428B1 (en) System and method for identifying compounds through iterative analysis
US20090222429A1 (en) Service identification in legacy source code using structured and unstructured analyses
US20060026496A1 (en) Methods, apparatus and computer programs for characterizing web resources
US20070143282A1 (en) Anchor text summarization for corroboration
Hsu et al. Integrating high dimensional bi-directional parsing models for gene mention tagging
US20100145902A1 (en) Methods and systems to train models to extract and integrate information from data sources
US20070244915A1 (en) System and method for clustering documents
US20100114855A1 (en) Method and system for automatic objects classification
US20100017390A1 (en) Apparatus, method and program product for presenting next search keyword
US20080086457A1 (en) Method and apparatus for preprocessing a plurality of documents for search and for presenting search result
Lu et al. Annotating search results from web databases
US20090083256A1 (en) Method and subsystem for searching media content within a content-search-service system
US20110302168A1 (en) Graphical models for representing text documents for computer analysis
US7917492B2 (en) Method and subsystem for information acquisition and aggregation to facilitate ontology and language-model generation within a content-search-service system
US7257574B2 (en) Navigational learning in a structured transaction processing system
US20080235220A1 (en) Methodologies and analytics tools for identifying white space opportunities in a given industry
US7493293B2 (en) System and method for extracting entities of interest from text using n-gram models
US20040093333A1 (en) Structured data retrieval apparatus, method, and program
JP2006155275A (en) Information extraction method and information extraction device
US20150039651A1 (en) Templates for defining fields in machine data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110125

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110223

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110927

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111003

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141007

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees