JP2008146209A - Document retrieval device, document retrieval method and document retrieval program - Google Patents
Document retrieval device, document retrieval method and document retrieval program Download PDFInfo
- Publication number
- JP2008146209A JP2008146209A JP2006330571A JP2006330571A JP2008146209A JP 2008146209 A JP2008146209 A JP 2008146209A JP 2006330571 A JP2006330571 A JP 2006330571A JP 2006330571 A JP2006330571 A JP 2006330571A JP 2008146209 A JP2008146209 A JP 2008146209A
- Authority
- JP
- Japan
- Prior art keywords
- node
- search
- score
- document
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
この発明は、階層構造化された文書セットから、自然文により入力された検索条件に合致するノードを検索する文書検索装置、文書検索方法および文書検索プログラムに関する。 The present invention relates to a document search apparatus, a document search method, and a document search program for searching a node that matches a search condition input by a natural sentence from a hierarchically structured document set.
従来より、一連の文書を、章や節などの適切な単位の部分文書に分割し、階層構造化することによって、出版の多様性、情報検索の的確性、分割/結合の容易性など、多くのメリットを得ることができるものとされている。たとえば、階層構造化された文書の代表的なものとしては、XML文書が挙げられる。このXML文書は、タグによって文書要素や文書テキストがマークアップされている。このため、要素ノードおよびテキストノードによって構成される木構造でモデル化することができる。これにより、ノード単位での部分文書の検索をおこなうことができる。 Conventionally, by dividing a series of documents into sub-documents of appropriate units such as chapters and sections and making them into a hierarchical structure, there are many publishing diversity, accuracy of information retrieval, ease of division / combination, etc. It is supposed that the merit of can be obtained. For example, an XML document is a typical example of a hierarchically structured document. In the XML document, document elements and document text are marked up by tags. Therefore, it is possible to model with a tree structure composed of element nodes and text nodes. As a result, it is possible to search for partial documents in node units.
XML文書に対する部分文書の検索処理に用いられる検索方法の一般的なものとして、指定された検索文字列を含む最小単位の部分文書をXML文書の中から全て検索する方法が挙げられる(たとえば、下記特許文献1参照。)。 As a general search method used for a partial document search process for an XML document, there is a method for searching all partial documents in a minimum unit including a specified search character string from XML documents (for example, (See Patent Document 1).
しかしながら、上記特許文献1に記載の従来技術にあっては、検索文字列を含む複数の最小単位の部分文書が同一の部分文書に含まれている場合であっても、複数の最小単位の部分文書が断片的に検索されてしまう。たとえば、文書が、章、節、項、文ごとに分割されていた場合、検索文字列を含む文単位の部分文書が断片的に検索されてしまう。このような場合、ユーザにとっては、複数の最小単位の部分文書を包括する単位(たとえば、章や節など)の部分文書が検索結果として検索されることが望ましいものである。
However, in the conventional technique described in
このような問題に対応すべく、検索文字列を含む最小単位(たとえば、文)の部分文書を全て検索するだけでなく、検索文字列に関連する様々な単位(たとえば、章、節、項など)の部分文書も全て検索する方法が考案されているが、この場合、検索された部分文書の中には、検索文字列との関連性が低く、ユーザが意図したものとはかけ離れている部分文書も多く含まれる。 In order to deal with such problems, not only all partial documents of the minimum unit (for example, sentence) including the search string are searched, but also various units (for example, chapters, sections, terms, etc.) related to the search string ) Has also been devised, but in this case, some of the searched partial documents have a low relevance to the search character string and are far from what the user intended. Many documents are included.
また、上記特許文献1に記載の従来技術にあっては、関連性の強弱を考慮した検索処理をおこなっていないため、より検索文字列との関連性の強い部分文書のみを検索することや、検索された部分文書を検索文字列との関連性の強弱に応じた順序で表示することができない。
Further, in the prior art described in the above-mentioned
このように、上述した従来技術においては、適切な単位および数の部分文書を検索することができないだけでなく、検索された部分文書を適切な順序で表示することができないといった問題が生じていた。 As described above, in the above-described conventional technology, there is a problem that not only the partial documents of an appropriate unit and number cannot be searched but also the searched partial documents cannot be displayed in an appropriate order. .
この発明は、上述した従来技術による問題点を解消するため、適切な単位および数の部分文書を検索したうえ、検索された部分文書を適切な順序で表示することによって、文書検索処理における検索精度およびユーザビリティの向上を図ることができる文書検索装置、文書検索方法および文書検索プログラムを提供することを目的とする。 In order to solve the above-described problems caused by the prior art, the present invention retrieves partial documents of an appropriate unit and number, and displays the retrieved partial documents in an appropriate order. It is another object of the present invention to provide a document search apparatus, a document search method, and a document search program capable of improving usability.
上述した課題を解決し、目的を達成するため、この発明にかかる文書検索装置は、階層構造化された文書セットから、自然文により入力された検索条件に合致するノードを検索する文書検索装置であって、前記文書セットを取得する取得手段と、前記取得手段によって取得された文書セットからノードリストを生成する生成手段と、前記検索条件の入力を受け付ける入力手段と、前記生成手段によって生成されたノードリストに示されているノードごとに、前記入力手段によって入力された検索条件に基づいた、前記検索条件の合致度を示すスコアを算出する算出手段と、前記生成手段によって生成されたノードリストに示されているノードごとに、所定の適合条件を満たすか否かを判断する判断手段と、前記判断手段によって所定の適合条件を満たすと判断されたノードのスコアを、当該ノードが属する親ノードのスコアに加算する加算手段と、前記加算手段によって加算されたスコアと、前記算出手段によって算出されたスコアと、に基づいて、前記生成手段によって生成されたノードリストの中から、前記検索条件の合致度が高いノードを検索結果として決定する決定手段と、を備えたことを特徴とする。 In order to solve the above-described problems and achieve the object, a document search apparatus according to the present invention is a document search apparatus that searches a hierarchically-structured document set for a node that matches a search condition input by a natural sentence. An acquisition unit for acquiring the document set, a generation unit for generating a node list from the document set acquired by the acquisition unit, an input unit for receiving input of the search condition, and the generation unit For each node indicated in the node list, a calculation means for calculating a score indicating the degree of match of the search condition based on the search condition input by the input means, and a node list generated by the generation means A determination means for determining whether or not a predetermined conformity condition is satisfied for each indicated node; and a predetermined conformance condition by the determination means. Based on the addition means for adding the score of the node determined to satisfy the score of the parent node to which the node belongs, the score added by the addition means, and the score calculated by the calculation means, And determining means for determining, as a search result, a node having a high degree of matching with the search condition from the node list generated by the generating means.
この発明によれば、文書検索処理において、テキストノードを持つノードが所定の適合条件を満たしている場合、このノードが属する親ノードを、検索条件の合致度が高いノードとして扱うことができる。 According to the present invention, in a document search process, when a node having a text node satisfies a predetermined matching condition, the parent node to which this node belongs can be handled as a node having a high matching degree of the search condition.
また、この発明にかかる文書検索装置は、上記に記載の発明において、前記決定手段によって検索結果として決定されたノードを、前記検索条件の合致度が高い順に表示されるよう出力を制御する出力制御手段をさらに備えたことを特長とする In the document search device according to the present invention, in the above-described invention, output control for controlling output so that nodes determined as search results by the determination unit are displayed in descending order of matching degree of the search conditions. Characterized by further providing means
この発明によれば、文書セットの中から検索された検索条件の合致度が高いノードを、適切な順序で表示されるよう出力を制御することができる。 According to the present invention, it is possible to control output so that nodes having a high degree of matching of search conditions searched from a document set are displayed in an appropriate order.
また、この発明にかかる文書検索装置は、上記に記載の発明において、前記決定手段は、前記加算手段によって加算されたスコアと、前記算出手段によって算出されたスコアと、に基づいて、前記生成手段によって生成されたノードリストを、前記検索条件の合致度が高い順にソートし、ソートされたノードリストの中から、上位から所定数のノードを検索結果として決定することを特徴とする。 In the document search device according to the present invention as set forth in the invention described above, the determining means is configured to generate the generating means based on the score added by the adding means and the score calculated by the calculating means. The node list generated by the above is sorted in descending order of matching degree of the search condition, and a predetermined number of nodes are determined as search results from the top of the sorted node list.
この発明によれば、検索条件の合致度がより高いノードを、必要な数だけ文書セットの中から検索することができる。 According to the present invention, a necessary number of nodes having a higher matching degree of search conditions can be searched from the document set.
また、この発明にかかる文書検索装置は、上記に記載の発明において、前記算出手段は、TF−IDF法を用いて、前記生成手段によって生成されたノードリストに示されているノードごとに、前記入力手段によって入力された検索条件に基づいた、検索条件の合致度を示すスコアを算出することを特徴とする。 Further, in the document search device according to the present invention, in the invention described above, the calculation means uses the TF-IDF method for each node indicated in the node list generated by the generation means. A score indicating the degree of match of the search condition is calculated based on the search condition input by the input means.
この発明によれば、文書検索処理において、TF−IDF法を用いてスコアを算出することにより、単に検索条件に含まれるキーワードが多く出現するノードではなく、そのキーワードをノードの特徴的なものとするノードを、検索条件の合致度が高いノードとして扱うことができる。 According to the present invention, in the document search process, by calculating the score using the TF-IDF method, the keyword is not simply a node in which many keywords included in the search condition appear, but the keyword is characterized by the node. Can be handled as a node having a high degree of matching with the search condition.
また、この発明にかかる文書検索方法は、階層構造化された文書セットから、自然文により入力された検索条件に合致するノードを検索する文書検索方法であって、前記文書セットを取得する取得工程と、前記取得工程によって取得された文書セットからノードリストを生成する生成工程と、前記検索条件の入力を受け付ける入力工程と、前記生成工程によって生成されたノードリストに示されているノードごとに、前記入力工程によって入力された検索条件に基づいた、前記検索条件の合致度を示すスコアを算出する算出工程と、前記生成工程によって生成されたノードリストに示されているノードごとに、所定の適合条件を満たすか否かを判断する判断工程と、前記判断工程によって所定の適合条件を満たすと判断されたノードのスコアを、当該ノードが属する親ノードのスコアに加算する加算工程と、前記加算工程によって加算されたスコアと、前記算出工程によって算出されたスコアと、に基づいて、前記生成工程によって生成されたノードリストの中から、前記検索条件の合致度が高いノードを検索結果として決定する決定工程と、をコンピュータに実行させることを特徴とする。 The document search method according to the present invention is a document search method for searching a node that matches a search condition input by a natural sentence from a hierarchically structured document set, and acquiring the document set And a generation step of generating a node list from the document set acquired by the acquisition step, an input step of receiving input of the search condition, and for each node indicated in the node list generated by the generation step, Based on the search condition input in the input step, a calculation step for calculating a score indicating the degree of match of the search condition, and a predetermined match for each node indicated in the node list generated by the generation step A determination step for determining whether or not a condition is satisfied, and a score of a node determined to satisfy a predetermined conformity condition by the determination step The node list generated by the generation step based on the addition step of adding to the score of the parent node to which the node belongs, the score added by the addition step, and the score calculated by the calculation step A determination step of determining, as a search result, a node having a high degree of matching with the search condition is executed by a computer.
この発明によれば、文書検索処理において、テキストノードを持つノードが所定の適合条件を満たしている場合、このノードが属する親ノードを、検索条件の合致度が高いノードとしてコンピュータに扱わせることができる。 According to the present invention, in a document search process, when a node having a text node satisfies a predetermined matching condition, the parent node to which this node belongs can be handled by the computer as a node having a high matching degree of the search condition. it can.
また、この発明にかかる文書検索プログラムは、階層構造化された文書セットか、自然文により入力された検索条件に合致するノードを検索する文書検索プログラムであって、前記文書セットを取得する取得工程と、前記取得工程によって取得された文書セットからノードリストを生成する生成工程と、前記検索条件の入力を受け付ける入力工程と、前記生成工程によって生成されたノードリストに示されているノードごとに、前記入力工程によって入力された検索条件に基づいた、前記検索条件の合致度を示すスコアを算出する算出工程と、前記生成工程によって生成されたノードリストに示されているノードごとに、所定の適合条件を満たすか否かを判断する判断工程と、前記判断工程によって所定の適合条件を満たすと判断されたノードのスコアを、当該ノードが属する親ノードのスコアに加算する加算工程と、前記加算工程によって加算されたスコアと、前記算出工程によって算出されたスコアと、に基づいて、前記生成工程によって生成されたノードリストの中から、前記検索条件の合致度が高いノードを検索結果として決定する決定工程と、をコンピュータに実行させることを特徴とする。 The document search program according to the present invention is a document search program for searching a hierarchically-structured document set or a node that matches a search condition input by a natural sentence, and acquiring the document set And a generation step of generating a node list from the document set acquired by the acquisition step, an input step of receiving input of the search condition, and for each node indicated in the node list generated by the generation step, Based on the search condition input in the input step, a calculation step for calculating a score indicating the degree of match of the search condition, and a predetermined match for each node indicated in the node list generated by the generation step A determination step for determining whether or not a condition is satisfied, and a no determination that the predetermined determination condition is satisfied by the determination step. Is generated by the generating step based on the addition step of adding the score of the parent node to the score of the parent node to which the node belongs, the score added by the adding step, and the score calculated by the calculating step A determination step of determining, as a search result, a node having a high degree of matching with the search condition from the node list is executed by a computer.
この発明によれば、文書検索処理において、テキストノードを持つノードが所定の適合条件を満たしている場合、このノードが属する親ノードを、検索条件の合致度が高いノードとしてコンピュータに扱わせることができる。 According to the present invention, in a document search process, when a node having a text node satisfies a predetermined matching condition, the parent node to which this node belongs can be handled by the computer as a node having a high matching degree of the search condition. it can.
本発明にかかる文書検索装置、文書検索方法および文書検索プログラムによれば、適切な単位および数の部分文書を検索したうえ、検索された部分文書を適切な順序で表示することによって、文書検索処理における検索精度およびユーザビリティの向上を図ることができるという効果を奏する。 According to the document search device, the document search method, and the document search program according to the present invention, the document search processing is performed by searching for the appropriate unit and number of partial documents and displaying the searched partial documents in an appropriate order. It is possible to improve search accuracy and usability.
以下に添付図面を参照して、この発明にかかる文書検索装置、文書検索方法および文書検索プログラムの好適な実施の形態を、階層構造化された文書セットの一例としてXML文書を用いて詳細に説明する。 Exemplary embodiments of a document search device, a document search method, and a document search program according to the present invention will be described below in detail with reference to the accompanying drawings using an XML document as an example of a hierarchically structured document set. To do.
(文書検索装置100のハードウェア構成)
まず、この実施の形態にかかる文書検索装置のハードウェア構成について説明する。図1は、この実施の形態にかかる文書検索装置のハードウェア構成の一例を示すブロック図である。
(Hardware configuration of document search apparatus 100)
First, the hardware configuration of the document search apparatus according to this embodiment will be described. FIG. 1 is a block diagram showing an example of a hardware configuration of the document search apparatus according to this embodiment.
図1において、文書検索装置100は、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、HDD(Hard Disc Drive)104と、HD(Hard Disc)105と、FDD(Flexible Disc Drive)106と、FD(Flexible Disc)107と、CD−RW(Compact Disc ReWritable)ドライブ108と、CD−RW109と、ディスプレイ110と、キーボード111と、マウス112と、ネットワークI/F(インタフェース)113と、通信ケーブル114と、バス120とを備えて構成されている。
In FIG. 1, a
CPU101は、文書検索装置100全体を制御する。ROM102は、各種制御プログラムなどを格納する。RAM103は、可変的なデータを書き換え自在に記憶し、CPU101のワークエリアとして機能する。HDD104は、CPU101の制御にしたがってHD105に対するデータのリード/ライトを制御する。HD105は、HDD104の制御にしたがって書き込まれたデータを記憶する。
The
FDD106は、CPU101の制御にしたがってFD107に対するデータのリード/ライトを制御する。FD107は、着脱自在であり、FDD106の制御にしたがって書き込まれたデータを記憶する。CD−RWドライブ108は、CPU101の制御にしたがってCD−RW(または、CD−R、CD−ROM)109に対するデータのリード/ライトを制御する。CD−RW109は、着脱自在であり、CD−RWドライブ108の制御にしたがって書き込まれたデータを記憶する。
The FDD 106 controls reading / writing of data with respect to the
ディスプレイ110は、カーソル、メニュー、ウィンドウ、あるいは文字や画像などの各種データを表示する。キーボード111は、文字、数値、各種指示などの入力のための複数のキーを備える。マウス112は、各種指示の選択や実行、処理対象の選択、マウスポインタの移動などを行う。ネットワークI/F113は、通信ケーブル114を介してLAN、WAN、インターネットなどのネットワークに接続され、当該ネットワークとCPU101とのインタフェースとして機能する。バス120は上記各部を接続する。
The
(文書検索装置100の機能的構成)
つぎに、この実施の形態にかかる文書検索装置100の機能的構成について説明する。図2は、この実施の形態にかかる文書検索装置100の機能的構成を示すブロック図である。
(Functional configuration of document search apparatus 100)
Next, a functional configuration of the
図2に示すように、文書検索装置100は、取得部201と、生成部202と、入力部203と、算出部204と、判断部205と、加算部206と、決定部207と、出力制御部208と、表示部209と、を備えて構成されている。
As shown in FIG. 2, the
取得部201は、XML文書を取得する。たとえば取得部201は、ユーザによって指定されたXML文書ファイルを読み取ることによってXML文書を取得する。この場合、XML文書ファイルは、文書検索装置100内部に記憶されているものに限らず、たとえば、文書検索装置100と接続された他の装置に記憶されているものであってもよい。取得部201は、具体的には、たとえば図1に示したROM102、RAM103、HD105、FD107に記憶されたプログラムをCPU101が実行することによってその機能を実現する。
The
生成部202は、取得部201によって取得されたXML文書からノードリストを生成する。ここでいうノードリストとは、木構造にモデル化されたXML文書に基づいてXML文書内に存在する全ての要素ノードをリスト化したものであり、各要素ノードごとに、たとえば、インデックス、パスなどの情報を含む。また、要素ノードにテキストノードが属している場合は、そのテキストノードの、インデックス、テキストなどの情報が関連付けられる。生成部202によって生成されたノードリストは、たとえば各ノードのパスが示されたリスト形式でメモリ上に一時的に記憶される。
The
なお、生成部202は、XML文書に存在する全てのノードに関するノードリストを生成するだけでなく、所定の範囲内のノードに関するノードリストや、ユーザによって指定された範囲内のノードに関するノードリストを生成するようにしてもよい。また、ノードリストの具体的な生成手順については、図4を用いて後述する。生成部202は、具体的には、たとえば図1に示したROM102、RAM103、HD105、FD107に記憶されたプログラムをCPU101が実行することによってその機能を実現する。
The
入力部203は、検索条件(検索クエリ文)の入力を受け付ける。たとえば、検索条件は「J社 I太郎」や「(J社 I太郎)」のように入力され、前者は、「J社」および「I太郎」の両方を含む、を意味し、後者は、「J社」または「I太郎」のいずれかを含む、を意味する。ここで、検索条件は、ユーザが文書検索装置100に直接入力したものに限らず、たとえば、文書検索装置100と接続された他の装置から送信されたものであってもよい。入力部203は、具体的には、たとえば図1に示したキーボード111、マウス112、ネットワークI/F113などによってその機能を実現する。
The
算出部204は、生成部202によって生成されたノードリストに示されているノードごとに、入力部203によって入力された検索条件に基づいた、検索条件の合致度を示すスコアを算出する。スコア(TF−IDF)は、以下算出式(1)により求めることができる。
The
TFIDF=TF×log(N/DF)・・・(1) TFIDF = TF × log (N / DF) (1)
上記算出式(1)において、TFは、テキストノード内における検索文字列の出現数を示す。また、Nは、全テキストノード数を示す。そして、DFは、検索文字列を含むテキストノード数を示す。 In the calculation formula (1), TF indicates the number of appearances of the search character string in the text node. N indicates the total number of text nodes. DF indicates the number of text nodes including the search character string.
なお、本実施の形態においては、TF−IDF法を用いてスコアを算出しているが、これに限らず、他の方法を用いて、スコアを算出するようにしてもよい。算出部204は、具体的には、たとえば図1に示したROM102、RAM103、HD105、FD107に記憶されたプログラムをCPU101が実行することによってその機能を実現する。
In the present embodiment, the score is calculated using the TF-IDF method. However, the present invention is not limited to this, and the score may be calculated using another method. Specifically, the
判断部205は、生成部202によって生成されたノードリストに示されているノードごとに、算出部204によって算出されたスコアに基づいて、所定の適合条件を満たすか否かを判断する。適合条件としては、たとえば、「スコアが所定以上または所定値未満の場合であるか否か」、「他の同位ノードのスコアとの合計スコアは所定値以上となるか否か」、「他の同位ノードとの合計ノード数が所定値以下か否か」、などが挙げられるが、これに限らず、他の適合条件を用いてもよい。また、適合条件は、あらかじめ設定されているものであってもよく、ユーザによって指定されたものであってもよい。判断部205は、具体的には、たとえば図1に示したROM102、RAM103、HD105、FD107に記憶されたプログラムをCPU101が実行することによってその機能を実現する。
The
加算部206は、判断部205によって所定の適合条件を満たすと判断されたノードのスコアを、このノードが属する親ノードのスコアに加算する。たとえば、所定の適合条件を満たすと判断されたノード「A/B/D」のスコアが「5」であり、このノードが属する親ノード「A/B」のスコアが「5」であった場合、加算部206による加算処理によって、ノード「A/B」のスコアのスコアは「10」となる。加算部206は、上記加算処理を、根ノード(すなわち、階層の深いノード)からルートノードに向かって、順に、生成部202によって生成されたノードリストに示されている全てのノードについておこなう。加算部206は、具体的には、たとえば図1に示したROM102、RAM103、HD105、FD107に記憶されたプログラムをCPU101が実行することによってその機能を実現する。
The adding
決定部207は、加算部206によって加算されたスコアと、算出部204によって算出されたスコアと、に基づいて、生成部202によって生成されたノードリストを検索条件の合致度が高い順にソートし、ソートされたノードリストの中から、上位から所定数のノードを検索結果として決定する。
The
なお、決定部207によって検索結果として決定されるノードの検索数は、あらかじめ設定されているものに限らず、たとえば、ユーザによって指定されたものであってもよい。決定部207は、具体的には、たとえば図1に示したROM102、RAM103、HD105、FD107に記憶されたプログラムをCPU101が実行することによってその機能を実現する。
Note that the number of node searches determined as a search result by the
出力制御部208は、決定部207によって検索結果として決定されたノードが、検索条件の合致度が高い順に表示部209に表示されるよう出力を制御する。なお、出力制御部208は、決定部207によって検索結果として決定されたノードを表示するように制御するだけでなく、たとえば、ファイルに出力するように制御したり、文書検索装置100と接続された他の装置へ送信するように制御してもよい。出力制御部208は、具体的には、たとえば図1に示したROM102、RAM103、HD105、FD107に記憶されたプログラムをCPU101が実行することによってその機能を実現する。
The
表示部209は、出力制御部208の制御によって、決定部207によって検索結果として決定されたノードを、検索条件の合致度が高い順に表示する。表示部209は、具体的には、たとえば図1に示したディスプレイ110によってその機能を実現する。
The
(XML文書の一例)
つぎに、この発明の実施の形態にかかる文書検索装置100に用いられるXML文書の一例について説明する。図3は、この発明の実施の形態にかかる文書検索装置100に用いられるXML文書の一例を示す説明図である。
(Example of XML document)
Next, an example of an XML document used in the
図3は、木構造にモデル化されたXML文書「c:¥documents¥0123.xml」を示したものである。図3において、ノード1〜ノード11は、要素ノードを示し、各数字「1」〜「11」はインデックスを示す。また、ノードA〜Eは、テキストノードを示し、各英字「A」〜「E」はインデックスを示す。
FIG. 3 shows an XML document “c: ¥ documents ¥ 0123.xml” modeled in a tree structure. In FIG. 3,
図3において、たとえば、要素ノード4にはテキストノードAが属している。また、テキストノードAは、テキスト「XML,scheme」を持つ。たとえば、このテキストノードAをタグを用いて示した場合、「<article><body><sec><p1>XML,scheme</p1></sec></body></article>」と示すことができる。
In FIG. 3, for example, the text node A belongs to the
(生成部202によるノードリストの生成手順)
つぎに、生成部202によるノードリストの生成手順について説明する。図4は、生成部202によるノードリストの生成手順の一例を示すフローチャートである。
(Node list generation procedure by the generation unit 202)
Next, a node list generation procedure by the
まず、木構造にモデル化されたXML文書の中から、要素ノードを一つ選択する(ステップS401)。最初は、最上位の要素ノードを選択する。たとえば、図3に示したXML文書の場合、要素ノード1が選択される。
First, one element node is selected from an XML document modeled in a tree structure (step S401). First, the highest element node is selected. For example, in the case of the XML document shown in FIG. 3,
つぎに、ステップS401で選択された要素ノードをノードリストに追加する(ステップS402)。ここで、ノードリストに追加される情報は、要素ノードのインデックスやパスなどである。たとえば、図3に示したXML文書における要素ノード1の場合は、インデックス「1」やパス「/article」などである。
Next, the element node selected in step S401 is added to the node list (step S402). Here, the information added to the node list includes the index and path of the element node. For example, in the case of the
つぎに、ステップS401で選択された要素ノードにテキストノードが属しているか否かを判断する(ステップS403)。たとえば、図3に示したXML文書における要素ノード1の場合は、テキストノードが属していないと判断され、要素ノード4の場合は、テキストノードが属していると判断される。
Next, it is determined whether or not a text node belongs to the element node selected in step S401 (step S403). For example, in the case of
ステップS403において、テキストノードが属していると判断した場合(ステップS403:Yes)は、ステップS401で選択された要素ノードと、この要素ノードに属しているテキストノードとの関連付けをおこなって(ステップS404)、ステップS405へ進む。 If it is determined in step S403 that the text node belongs (step S403: Yes), the element node selected in step S401 is associated with the text node belonging to this element node (step S404). ), The process proceeds to step S405.
ここで、要素ノードに関連付けられる情報は、テキストノードのインデックスやテキストなどである。たとえば、図3に示したXML文書におけるテキストノードAの場合は、インデックス「A」やテキスト「XML,scheme」などである。一方、ステップS403において、テキストノードが属していないと判断した場合(ステップS403:No)は、ステップS404を飛ばして、ステップS405へ進む。 Here, the information associated with the element node is a text node index or text. For example, in the case of the text node A in the XML document shown in FIG. 3, the index “A”, the text “XML, scheme”, and the like. On the other hand, if it is determined in step S403 that the text node does not belong (step S403: No), step S404 is skipped and the process proceeds to step S405.
つぎに、XML文書に含まれる全ての要素ノードが選択されたか否かを判断する(ステップS405)。ステップS405において、全ての要素ノードが選択されたと判断した場合(ステップS405:Yes)は、一連の処理を終了する。一方、ステップS405において、全ての要素ノードが選択されていないと判断した場合(ステップS405:No)は、XML文書において、ステップS401で選択された要素ノードを基準に、次の要素ノードを選択する(ステップS406)。このとき、下位ノードと同位ノードが存在する場合は下位ノードを優先して選択する。たとえば、図3に示したXML文書において、要素ノードが選択される順番は、インデックス番号の順番とおりとなる。 Next, it is determined whether or not all element nodes included in the XML document have been selected (step S405). If it is determined in step S405 that all element nodes have been selected (step S405: Yes), the series of processing ends. On the other hand, if it is determined in step S405 that all element nodes have not been selected (step S405: No), the next element node is selected based on the element node selected in step S401 in the XML document. (Step S406). At this time, if a lower node and a peer node exist, the lower node is selected with priority. For example, in the XML document shown in FIG. 3, the order in which element nodes are selected is the order of the index numbers.
そして、ステップS402に戻り、ステップS405で全てのノードが選択されたと判断されるまで、ステップS402〜ステップS406を繰り返しおこなう。これにより、XML文書に含まれる全ての要素ノードをノードリストに追加することができる。また、XML文書に含まれる全てのテキストノードを、それぞれ、ノードリストに示された要素ノードのいずれかと関連付けることができる。 Then, the process returns to step S402, and steps S402 to S406 are repeated until it is determined in step S405 that all nodes have been selected. Thereby, all the element nodes included in the XML document can be added to the node list. Further, all text nodes included in the XML document can be associated with any one of the element nodes shown in the node list.
(生成部202によって生成されたノードリストの一例)
つぎに、生成部202によって生成されたノードリストの一例について説明する。図5は、生成部202によって生成されたノードリストの一例を示す説明図である。
(Example of node list generated by the generation unit 202)
Next, an example of the node list generated by the
図5に示すノードリストは、図4を用いて上述した手順によって、図3に示したXML文書から生成されたノードリストであり、列「index1」,「pass」,「index2」,「text」によって構成されている。 The node list shown in FIG. 5 is a node list generated from the XML document shown in FIG. 3 by the procedure described above with reference to FIG. 4, and columns “index1”, “pass”, “index2”, “text”. It is constituted by.
このうち、列「index1」には、要素ノードのインデックスが設定されている。また、列「pass」には、要素ノードのパスが設定されている。そして、列「index2」には、要素ノードと関連付けられているテキストノードのインデックスが設定されている。さらに、列「text」には、要素ノードと関連付けられているテキストノードのテキストが設定されている。 Among these, the index of the element node is set in the column “index1”. In the column “pass”, an element node path is set. In the column “index2”, the index of the text node associated with the element node is set. Further, the text of the text node associated with the element node is set in the column “text”.
たとえば、図5に示すノードリストから、インデックス「4」が付与されたパス「/article/body/sec/p1」によって示される要素ノードには、インデックス「A」が付与され、かつテキスト「XML,scheme」を含むテキストノードが関連付けられていると判断することができる。 For example, from the node list shown in FIG. 5, the element node indicated by the path “/ article / body / sec / p1” to which the index “4” is assigned is assigned the index “A” and the text “XML, It can be determined that a text node including “scheme” is associated.
(文書検索装置100による文書検索処理の手順)
つぎに、この発明の実施の形態にかかる文書検索装置100による文書検索処理の手順について説明する。図6は、この発明の実施の形態にかかる文書検索装置100による文書検索処理の手順の一例を示すフローチャートである。
(Procedure for document search processing by the document search apparatus 100)
Next, a procedure for document search processing by the
まず、取得部201によって、XML文書を取得して(ステップS601)、生成部202によって、ステップS601で取得されたXML文書からノードリストを生成する(ステップS602)。ノードリストの具体的な生成手順については図4を用いて上述したとおりである。
First, the
つぎに、入力部203によって、検索条件の入力を受け付けて(ステップS603)、算出部204によって、ステップS602で生成されたノードリストに示されているノードごとに、ステップS603で入力された検索条件に基づいた、検索条件の合致度を示すスコアを算出する(ステップS604)。
Next, input of a search condition is accepted by the input unit 203 (step S603), and the search condition input in step S603 for each node indicated in the node list generated in step S602 by the
続いて、判断部205によって、ステップS602で生成されたノードリストに示されているノードを一つ選択して(ステップS605)、ステップS605で選択されたノードについて、ステップS604で算出されたスコアに基づいて、所定の適合条件を満たすか否かを判断する(ステップS606)。
Subsequently, the
ステップS606において、所定の適合条件を満たすと判断した場合(ステップS606:Yes)は、加算部206によって、ステップS605で選択されたノードのスコアを、このノードが属する親ノードのスコアに加算して(ステップS607)、ステップS608へ進む。一方、ステップS606において、所定の適合条件を満たさないと判断した場合(ステップS606:No)は、ステップS607を飛ばして、ステップS608へ進む。
If it is determined in step S606 that the predetermined conformity condition is satisfied (step S606: Yes), the
続いて、判断部205によって、ステップS602で生成されたノードリストに示されているノードが全て選択されたか否かを判断する(ステップS608)。ステップS608において、ノードが全て選択されていないと判断した場合(ステップS608:No)は、ステップS608においてノードが全て選択されたと判断されるまで、ステップS605〜ステップS608を繰り返しおこなう。
Subsequently, the
一方、ステップS608において、ノードが全て選択されたと判断した場合(ステップS608:Yes)は、決定部207によって、ステップS607で加算されたスコアと、ステップS604で算出されたスコアと、に基づいて、ステップS602で生成されたノードリストを検索条件の合致度が高い順にソートして(ステップS609)、ソートされたノードリストの中から、上位から所定数のノードを検索結果として決定する(ステップS610)。
On the other hand, if it is determined in step S608 that all the nodes have been selected (step S608: Yes), based on the score added in step S607 by the
そして、出力制御部208の制御によって、ステップS610で検索結果として決定されたノードを、検索条件の合致度が高い順に表示部209に表示して(ステップS611)、一連の処理を終了する。
Then, under the control of the
(算出部204によって算出されたスコアの一例)
つぎに、算出部204によって算出されたスコアの一例について説明する。図7は、算出部204によって算出されたスコアの一例を示す説明図である。
(Example of score calculated by calculation unit 204)
Next, an example of the score calculated by the
図7は、図5に示したノードリストと、算出部204によって算出された各要素ノードのスコアと、の関連付けを示したものである。図7において、列「score1」には、算出部204によって算出されたスコアが設定されている。このときの、算出処理に用いられた検索文字列は「XML,tag,scheme」である。
FIG. 7 shows the association between the node list shown in FIG. 5 and the score of each element node calculated by the
たとえば、図7から、インデックス「4」が付与されたパス「/article/body/sec/p1」によって示される要素ノードには、算出部204によって算出されたスコア「38」が関連付けられていると判断することができる。ここで、このスコア「38」は以下のTF−IDF算出式(2)によって算出されたものである。
For example, from FIG. 7, it is assumed that the score “38” calculated by the
38(TFIDF:スコア)=1(TF:テキストノード内における検索文字列「XML」の出現数)×20(IDF:log(全テキストノード数/検索文字列「XML」を含むテキストノード数))+1(TF:テキストノード内における検索文字列「scheme」の出現数)×18(IDF:log(全テキストノード数/検索文字列「scheme」を含むテキストノード数))・・・(2) 38 (TFIDF: score) = 1 (TF: number of occurrences of the search character string “XML” in the text node) × 20 (IDF: log (total number of text nodes / number of text nodes including the search character string “XML”)) +1 (TF: appearance number of search character string “scheme” in text node) × 18 (IDF: log (total number of text nodes / number of text nodes including search character string “scheme”)) (2)
また、インデックス「5」が付与されたパス「/article/body/sec/p2」によって示される要素ノードには、算出部204によって算出されたスコア「80」が関連付けられていると判断することができる。こで、このスコア「80」は以下のTF−IDF算出式(3)によって算出されたものである。
Further, it may be determined that the score “80” calculated by the
80(TFIDF:スコア)=2(TF:テキストノード内における検索文字列「tag」の出現数)×40(IDF:log(全テキストノード数/検索文字列「tag」を含むテキストノード数))・・・(3) 80 (TFIDF: score) = 2 (TF: number of occurrences of the search character string “tag” in the text node) × 40 (IDF: log (total number of text nodes / number of text nodes including the search character string “tag”)) ... (3)
なお、算出部204によって算出されたスコアは、ノードリストに持たせてもよく、ノードリストとは別のテーブルなどに持たせてもよい。
Note that the score calculated by the
(加算部206によって加算されたスコアの一例)
つぎに、加算部206によって加算されたスコアの一例について説明する。図8は、加算部206によって加算されたスコアの一例を示す説明図である。
(Example of score added by adding unit 206)
Next, an example of the score added by the adding
図8は、図5に示したノードリストと、算出部204によって算出された各要素ノードのスコアと、加算部206によって加算されたスコアと、の関連付けを示したものである。図8において、列「score2」には、加算部206によって加算されたスコアが設定されている。
FIG. 8 shows the association between the node list shown in FIG. 5, the score of each element node calculated by the
たとえば、図8から、インデックス「3」が付与されたパス「/article/body/sec」によって示される要素ノードには、加算部204によって加算されたスコア「118」が関連付けられていると判断することができる。ここで、このスコア「118」は、この要素ノードに属する、インデックス「4」が付与された要素ノードのスコア「38」と、インデックス「5」が付与された要素ノードのスコア「80」とが加算されたものである。
For example, from FIG. 8, it is determined that the score “118” added by the adding
上記加算処理に先立っては、判断部205によって、インデックス「4」および「5」についての、インデックス「3」に加算するか否かの判断処理がおこなわれている。このときの、判断処理に用いられた判断条件は「合計スコア50以上となる場合は加算する」と、「連結ノード数が100以下の場合は加算する」である。そして、インデックス「4」および「5」については、上記条件を満たしているため、ともにスコアをインデックス「3」のスコアに加算すると判断されている。
Prior to the addition process, the
また、図8に示すように、インデックス「4」および「5」のスコアは、加算部204によって「0」とされている。これは、インデックス「3」と、インデックス「4」および「5」とが、重複して検索結果として決定されることを避けるためである。
Further, as shown in FIG. 8, the scores of the indexes “4” and “5” are set to “0” by the adding
同様に、図8から、インデックス「9」が付与されたパス「/article/body/sec/title/name」によって示される要素ノードには、加算部204によって加算されたスコア「66」が関連付けられていると判断することができる。ここで、このスコア「66」は、この要素ノードに属する、インデックス「10」が付与された要素ノードのスコア「22」と、インデックス「11」が付与された要素ノードのスコア「44」とが加算されたものである。そして、インデックス「10」および「11」のスコアは、加算部204によって「0」とされている。
Similarly, from FIG. 8, the score “66” added by the adding
(決定部207によってソートされたノードリストの一例)
つぎに、決定部207によってソートされたノードリストの一例について説明する。図9は、決定部207によってソートされたノードリストの一例を示す説明図である。
(Example of node list sorted by determination unit 207)
Next, an example of the node list sorted by the
図9は、決定部207によって、図8に示したように加算部206によって加算されたスコアと、図7に示したように算出部204によって算出されたスコアと、に基づいて、図5に示したノードリストを検索条件の合致度が高い順にソートしたものである。このようにソートされたノードリストから、決定部207は、上位から所定数のノードを検索結果として決定する。
9 is based on the score added by the adding
たとえば、検索数が3件と指定されている場合、決定部207は、図9に示したノードリストの中から、インデックス「3」が付与された要素ノードと、インデックス「8」が付与された要素ノードと、インデックス「9」が付与された要素ノードと、の3件の要素ノードを検索結果として決定する。
For example, when the number of searches is specified as three, the
(表示部209に表示された検索結果の一例)
つぎに、表示部209に表示された検索結果の一例について説明する。図10は、表示部209に表示された検索結果の一例を示す説明図である。
(Example of search result displayed on display unit 209)
Next, an example of the search result displayed on the
図10は、図3に示したXML文書に対して、図6を用いて上述した手順による文書検索処理がおこなわれた結果、表示部209に表示された検索結果を示すものである。図10に示すように、文書検索処理をおこなうにあたり、検索対象文書「c:¥documents¥0123.xml」、検索条件「XML,tag,scheme」、検索数「3(件)」がユーザによって指定されている。
FIG. 10 shows a search result displayed on the
そして、「検索」ボタンが押下されたことにより、検索対象文書「c:¥documents¥0123.xml」に対する文書検索処理がおこなわれ、その結果として、検索対象文書「c:¥documents¥0123.xml」の中から決定された、上位3件のノードが検索結果として表示されている。 When the “search” button is pressed, a document search process is performed on the search target document “c: \ documents \ 0123.xml”. As a result, the search target document “c: \ documents \ 0123.xml” is executed. The top three nodes determined from "are displayed as search results.
以上説明したように、本実施の形態にかかる文書検索装置100によれば、XML文書を取得し、取得されたXML文書からノードリストを生成し、検索条件の入力を受け付け、生成されたノードリストに示されているノードごとに、入力された検索条件に基づいた、検索条件の合致度を示すスコアを算出し、生成されたノードリストに示されているノードごとに、所定の適合条件を満たすか否かを判断し、所定の適合条件を満たすと判断されたノードのスコアを、当該ノードが属する親ノードのスコアに加算し、加算されたスコアと、算出されたスコアと、に基づいて、生成されたノードリストを、検索条件の合致度が高い順にソートし、ソートされたノードリストの中から、上位から所定数のノードを検索結果として決定し、決定されたノードを、検索条件の合致度が高い順に表示する構成とした。
As described above, according to the
これにより、文書検索処理において、テキストノードを持つノードが所定の適合条件を満たしている場合、このノードが属する親ノードを、検索条件の合致度が高いノードとして扱うことができる。そのうえで、検索条件の合致度がより高いノードを、必要な数だけXML文書の中から検索することができる。さらに、検索されたノードを、適切な順序で表示することができる。このため、適切な単位および数の部分文書を検索することができるうえ、検索された部分文書を適切な順序で表示することができ、結果的に、文書検索処理における検索精度およびユーザビリティの向上を図ることができる。 Thereby, in a document search process, when a node having a text node satisfies a predetermined matching condition, a parent node to which this node belongs can be handled as a node having a high matching degree of the search condition. In addition, a required number of nodes having a higher matching degree of the search condition can be searched from the XML document. Furthermore, the retrieved nodes can be displayed in an appropriate order. Therefore, it is possible to search for an appropriate unit and number of partial documents, and to display the searched partial documents in an appropriate order. As a result, the search accuracy and usability in the document search process can be improved. Can be planned.
なお、この発明にかかる文書検索装置、文書検索方法および文書検索プログラムは、階層構造化された文書セットであれば、XML文書以外の文書に対する文書検索にも適用することができる。また、ファイル化された文書に限らず、たとえば、データベース化された文書に対する文書検索にも適用することができる。さらに、単独のファイルにファイル化された文書や単独のデータベースにデータベース化された文書に限らず、複数のファイルにファイル化された文書や、複数のデータベースにデータベース化された文書に対する文書検索にも適用することができる。 Note that the document search apparatus, document search method, and document search program according to the present invention can be applied to document search for documents other than XML documents as long as the document set has a hierarchical structure. Further, the present invention is not limited to a filed document, and can be applied to a document search for a databased document, for example. Furthermore, not only documents filed in a single file or documents databased in a single database, but also document searches for documents filed in multiple files and documents databased in multiple databases. Can be applied.
なお、本実施の形態で説明した文書検索方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。 The document search method described in this embodiment can be realized by executing a program prepared in advance on a computer such as a personal computer or a workstation. This program is recorded on a computer-readable recording medium such as a hard disk, a flexible disk, a CD-ROM, an MO, and a DVD, and is executed by being read from the recording medium by the computer. The program may be a transmission medium that can be distributed via a network such as the Internet.
以上のように、本発明にかかる文書検索装置、文書検索方法および文書検索プログラムは、階層構造化された文書セットから、自然文により入力された検索条件に合致するノードを検索するパーソナル・コンピュータ、ドキュメントサーバ、文書検索ソフトウェアなどへの利用に適している。 As described above, the document search apparatus, the document search method, and the document search program according to the present invention are a personal computer that searches a hierarchically-structured document set for a node that matches a search condition input by a natural sentence, Suitable for use in document servers, document search software, etc.
100 文書検索装置
101 CPU
102 ROM
103 RAM
104 HDD
105 HD
106 FDD
107 FD
108 CD−RWドライブ
109 CD−RW
110 ディスプレイ
111 キーボード
112 マウス
113 ネットワークI/F
114 通信ケーブル
120 バス
201 取得部
202 生成部
203 入力部
204 算出部
205 判断部
206 加算部
207 決定部
208 出力制御部
209 表示部
100
102 ROM
103 RAM
104 HDD
105 HD
106 FDD
107 FD
108 CD-
110
114
Claims (6)
前記文書セットを取得する取得手段と、
前記取得手段によって取得された文書セットからノードリストを生成する生成手段と、
前記検索条件の入力を受け付ける入力手段と、
前記生成手段によって生成されたノードリストに示されているノードごとに、前記入力手段によって入力された検索条件に基づいた、前記検索条件の合致度を示すスコアを算出する算出手段と、
前記生成手段によって生成されたノードリストに示されているノードごとに、前記算出手段によって算出されたスコアに基づいて、所定の適合条件を満たすか否かを判断する判断手段と、
前記判断手段によって所定の適合条件を満たすと判断されたノードのスコアを、当該ノードが属する親ノードのスコアに加算する加算手段と、
前記加算手段によって加算されたスコアと、前記算出手段によって算出されたスコアと、に基づいて、前記生成手段によって生成されたノードリストの中から、前記検索条件の合致度が高いノードを検索結果として決定する決定手段と、
を備えたことを特徴とする文書検索装置。 A document search device that searches for a node that matches a search condition input by a natural sentence from a hierarchically structured document set,
Obtaining means for obtaining the document set;
Generating means for generating a node list from the document set acquired by the acquiring means;
Input means for receiving input of the search condition;
Calculation means for calculating a score indicating the degree of match of the search condition based on the search condition input by the input means for each node indicated in the node list generated by the generation means;
Determination means for determining whether or not a predetermined conformity condition is satisfied based on the score calculated by the calculation means for each node indicated in the node list generated by the generation means;
Adding means for adding a score of a node determined to satisfy a predetermined matching condition by the determining means to a score of a parent node to which the node belongs;
Based on the score added by the adding means and the score calculated by the calculating means, a node having a high degree of match of the search condition is selected as a search result from the node list generated by the generating means. A decision means to decide;
A document retrieval apparatus comprising:
前記文書セットを取得する取得工程と、
前記取得工程によって取得された文書セットからノードリストを生成する生成工程と、
前記検索条件の入力を受け付ける入力工程と、
前記生成工程によって生成されたノードリストに示されているノードごとに、前記入力工程によって入力された検索条件に基づいた、前記検索条件の合致度を示すスコアを算出する算出工程と、
前記生成工程によって生成されたノードリストに示されているノードごとに、前記算出工程によって算出されたスコアに基づいて、所定の適合条件を満たすか否かを判断する判断工程と、
前記判断工程によって所定の適合条件を満たすと判断されたノードのスコアを、当該ノードが属する親ノードのスコアに加算する加算工程と、
前記加算工程によって加算されたスコアと、前記算出工程によって算出されたスコアと、に基づいて、前記生成工程によって生成されたノードリストの中から、前記検索条件の合致度が高いノードを検索結果として決定する決定工程と、
をコンピュータに実行させることを特徴とする文書検索方法。 A document search method for searching a node that matches a search condition input by a natural sentence from a hierarchically structured document set,
An acquisition step of acquiring the document set;
A generation step of generating a node list from the document set acquired by the acquisition step;
An input step for receiving an input of the search condition;
A calculation step of calculating a score indicating a degree of match of the search condition based on the search condition input by the input step for each node indicated in the node list generated by the generation step;
A determination step for determining whether or not a predetermined matching condition is satisfied based on the score calculated by the calculation step for each node indicated in the node list generated by the generation step;
An adding step of adding the score of the node determined to satisfy the predetermined matching condition by the determining step to the score of the parent node to which the node belongs;
Based on the score added by the adding step and the score calculated by the calculating step, a node having a high degree of match of the search condition is selected as a search result from the node list generated by the generating step. A decision process to decide;
A document retrieval method characterized by causing a computer to execute.
前記文書セットを取得する取得工程と、
前記取得工程によって取得された文書セットからノードリストを生成する生成工程と、
前記検索条件の入力を受け付ける入力工程と、
前記生成工程によって生成されたノードリストに示されているノードごとに、前記入力工程によって入力された検索条件に基づいた、前記検索条件の合致度を示すスコアを算出する算出工程と、
前記生成工程によって生成されたノードリストに示されているノードごとに、前記算出工程によって算出されたスコアに基づいて、所定の適合条件を満たすか否かを判断する判断工程と、
前記判断工程によって所定の適合条件を満たすと判断されたノードのスコアを、当該ノードが属する親ノードのスコアに加算する加算工程と、
前記加算工程によって加算されたスコアと、前記算出工程によって算出されたスコアと、に基づいて、前記生成工程によって生成されたノードリストの中から、前記検索条件の合致度が高いノードを検索結果として決定する決定工程と、
をコンピュータに実行させることを特徴とする文書検索プログラム。 A document search program for searching a node that matches a search condition input by a natural sentence from a hierarchically structured document set,
An acquisition step of acquiring the document set;
A generation step of generating a node list from the document set acquired by the acquisition step;
An input step for receiving an input of the search condition;
A calculation step of calculating a score indicating a degree of match of the search condition based on the search condition input by the input step for each node indicated in the node list generated by the generation step;
A determination step for determining whether or not a predetermined matching condition is satisfied based on the score calculated by the calculation step for each node indicated in the node list generated by the generation step;
An adding step of adding the score of the node determined to satisfy the predetermined matching condition by the determining step to the score of the parent node to which the node belongs;
Based on the score added by the adding step and the score calculated by the calculating step, a node having a high degree of match of the search condition is selected as a search result from the node list generated by the generating step. A decision process to decide;
Document search program characterized by causing a computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006330571A JP2008146209A (en) | 2006-12-07 | 2006-12-07 | Document retrieval device, document retrieval method and document retrieval program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006330571A JP2008146209A (en) | 2006-12-07 | 2006-12-07 | Document retrieval device, document retrieval method and document retrieval program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008146209A true JP2008146209A (en) | 2008-06-26 |
Family
ID=39606347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006330571A Pending JP2008146209A (en) | 2006-12-07 | 2006-12-07 | Document retrieval device, document retrieval method and document retrieval program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008146209A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013136545A1 (en) * | 2012-03-14 | 2013-09-19 | 株式会社東芝 | Structured document management device, structured document search method |
WO2016031055A1 (en) * | 2014-08-29 | 2016-03-03 | 株式会社日立製作所 | Information retrieval apparatus, information retrieval method, and information retrieval program |
CN105630831A (en) * | 2014-11-06 | 2016-06-01 | 科大讯飞股份有限公司 | Humming retrieval method and system |
CN116451200A (en) * | 2023-06-14 | 2023-07-18 | 浙江星汉信息技术股份有限公司 | Cloud storage-based retrieval method for encrypted archive data |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06301725A (en) * | 1993-04-13 | 1994-10-28 | Nippon Steel Corp | Retrieval device for character-string of hierarchized document |
US20060074907A1 (en) * | 2004-09-27 | 2006-04-06 | Singhal Amitabh K | Presentation of search results based on document structure |
-
2006
- 2006-12-07 JP JP2006330571A patent/JP2008146209A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06301725A (en) * | 1993-04-13 | 1994-10-28 | Nippon Steel Corp | Retrieval device for character-string of hierarchized document |
US20060074907A1 (en) * | 2004-09-27 | 2006-04-06 | Singhal Amitabh K | Presentation of search results based on document structure |
JP2008515049A (en) * | 2004-09-27 | 2008-05-08 | グーグル インコーポレイテッド | Displaying search results based on document structure |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013136545A1 (en) * | 2012-03-14 | 2013-09-19 | 株式会社東芝 | Structured document management device, structured document search method |
JP2013191046A (en) * | 2012-03-14 | 2013-09-26 | Toshiba Corp | Structured document management device, structured document retrieval method |
WO2016031055A1 (en) * | 2014-08-29 | 2016-03-03 | 株式会社日立製作所 | Information retrieval apparatus, information retrieval method, and information retrieval program |
CN105630831A (en) * | 2014-11-06 | 2016-06-01 | 科大讯飞股份有限公司 | Humming retrieval method and system |
CN105630831B (en) * | 2014-11-06 | 2019-11-15 | 科大讯飞股份有限公司 | Singing search method and system |
CN116451200A (en) * | 2023-06-14 | 2023-07-18 | 浙江星汉信息技术股份有限公司 | Cloud storage-based retrieval method for encrypted archive data |
CN116451200B (en) * | 2023-06-14 | 2023-09-05 | 浙江星汉信息技术股份有限公司 | Cloud storage-based retrieval method for encrypted archive data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5492187B2 (en) | Search result ranking using edit distance and document information | |
CN110362727B (en) | Third party search application for search system | |
JP5550669B2 (en) | SEARCH DEVICE, SEARCH METHOD, AND PROGRAM | |
JP5187313B2 (en) | Document importance calculation system, document importance calculation method, and program | |
US20080172380A1 (en) | Information retrieval based on information location in the information space. | |
JP6529761B2 (en) | Topic providing system and conversation control terminal device | |
JP2007219722A (en) | Document retrieval server and document retrieval method | |
CN104199954A (en) | Recommendation system and method for search input | |
JP2008146209A (en) | Document retrieval device, document retrieval method and document retrieval program | |
JP3178421B2 (en) | Text search device and computer-readable recording medium storing text search program | |
JP2009122807A (en) | Associative retrieval system | |
JP2008102736A (en) | Retrieval apparatus and retrieval method | |
Nuttall et al. | A computational exploration of melodic patterns in Arab-Andalusian music | |
JP2011100191A (en) | Device, method, and program for retrieving document | |
JP5127553B2 (en) | Information processing apparatus, information processing method, program, and recording medium | |
JP5416552B2 (en) | Ranking function generation device, ranking function generation method, ranking function generation program | |
JP5408658B2 (en) | Information consistency determination device, method and program thereof | |
JP2006318509A (en) | Solution data editing processing device and processing method | |
JP4452527B2 (en) | Document search device, document search method, and document search program | |
JP2009129013A (en) | Method, device, and program for retrieving document | |
JP2009129280A (en) | Method, device, and program for retrieving document | |
JP2007193500A (en) | Document or diagram production support apparatus | |
JP2010003266A (en) | Query generation device, method, program and computer-readable recording medium | |
JP2006163645A (en) | Method, device and program for retrieving information, computer readable recording medium and device recorded with the program | |
JP3578045B2 (en) | Full-text search method and apparatus, and storage medium storing full-text search program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111227 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120508 |