JP5160120B2 - Information search apparatus, information search method, and information search program - Google Patents

Information search apparatus, information search method, and information search program Download PDF

Info

Publication number
JP5160120B2
JP5160120B2 JP2007087389A JP2007087389A JP5160120B2 JP 5160120 B2 JP5160120 B2 JP 5160120B2 JP 2007087389 A JP2007087389 A JP 2007087389A JP 2007087389 A JP2007087389 A JP 2007087389A JP 5160120 B2 JP5160120 B2 JP 5160120B2
Authority
JP
Japan
Prior art keywords
syntax tree
sentence
replacement
partial
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007087389A
Other languages
Japanese (ja)
Other versions
JP2008250388A (en
Inventor
佳美 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2007087389A priority Critical patent/JP5160120B2/en
Publication of JP2008250388A publication Critical patent/JP2008250388A/en
Application granted granted Critical
Publication of JP5160120B2 publication Critical patent/JP5160120B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、入力された文と類似する文を出力する情報検索装置、情報検索方法及び情報検索プログラムに関するものである。 The present invention relates to an information search apparatus, an information search method, and an information search program that output a sentence similar to an input sentence.

従来から、データを検索するために様々な検索技術が提供され、広く普及している。例えば、インターネットの検索エンジンでは、利用者の検索条件に適合する文書を検索し、検索した文書を類似度に応じてランキングしている。   Conventionally, various search techniques have been provided and widely used for searching data. For example, an Internet search engine searches for documents that match a user's search conditions, and ranks the searched documents according to the degree of similarity.

この文書検索では、利用者により入力されたキーワード、又は入力文から切り出されたキーワードに基づいて、文書を検索している。しかしながら、自然言語では、これらキーワードと同じ意味を別の言葉で表現することが可能である。   In this document search, a document is searched based on a keyword input by a user or a keyword extracted from an input sentence. However, in natural language, the same meaning as these keywords can be expressed in different words.

例えば、利用者から「読みを送信する」という検索要求文を含む文書の検索要求が行った場合、この「読みを送信する」という検索要求文を言い換えた「読みを付与し送信を実行する」(以下、文Aとする)という文を含む文書については検出されないことになる。このため、利用者は、「読みを送信する」という検索要求文のうち、「読み」と「送信」を検索キーワードとして文書を検索することもあり得る。この場合、確かに「読みを付与し送信を実行する」(文A)という文を含む文書については検出されるが、「読みを文字列から生成し、音声の送信を実行する」(以下、文Bとする)という「読みを送信する」と全く意味が異なる文を含む文書についても検出されることになる。この場合、利用者が意図しない文書も検出されることになるため、利用者が所望する文書を特定することが困難になる。このように、キーワードによる検索では、文Aと文Bとを区別することが難しいという問題がある。   For example, when a search request for a document including a search request sentence “send reading” is made from the user, the search request sentence “send reading” is rephrased “read and send”. A document including the sentence (hereinafter referred to as sentence A) is not detected. For this reason, the user may search for a document using “reading” and “send” as search keywords in the search request sentence “send reading”. In this case, a document including the sentence “giving reading and executing transmission” (sentence A) is surely detected, but “generating a reading from a character string and executing voice transmission” (hereinafter referred to as “transmission”). A document including a sentence whose meaning is completely different from “send reading” is also detected. In this case, since a document unintended by the user is also detected, it is difficult to specify a document desired by the user. As described above, there is a problem that it is difficult to distinguish the sentence A and the sentence B in the search by the keyword.

以下、上述した「読みを送信する」を、「読みを文字列に付与し送信を実行する」のような同じ意味内容であって異なる表現にする変換を、「パラフレーズ」と呼ぶ。   Hereinafter, the above-described “transmission of reading” is referred to as “paraphrase”, which is the same semantic content and different expression, such as “add reading to character string and execute transmission”.

そして、ある表現から、同じ意味内容であって別の表現(=パラフレーズ表現)の候補を生成することをパラフレーズ表現の生成手法と呼ぶ。このパラフレーズ表現の生成手法としては、予め保持している置換ルールに基づいて、ある表現を部分的に置換して別の表現を生成する手法がある。例えば、特許文献1に記載された技術では、複数の置換ルールを適用して置換候補を生成するという手法が提案されている。これにより、複雑なパラフレーズを実現することができる。そして、このパラフレーズ表現の生成手法を検索に応用することも考えられる。つまり、パラフレーズ表現の生成手法を用いて、検索要求文から検索対象文を生成して、当該検索対象文が検索要求文と類似していると判断した場合に、当該検索対象文を用いて検索を行うという手法が考えられる。   Then, generating a candidate for another expression (= paraphrase expression) having the same semantic content from a certain expression is called a paraphrase expression generation technique. As a method for generating this paraphrase expression, there is a technique in which a certain expression is partially replaced and another expression is generated based on a replacement rule stored in advance. For example, in the technique described in Patent Document 1, a method of generating a replacement candidate by applying a plurality of replacement rules is proposed. Thereby, a complicated paraphrase can be realized. It is also conceivable to apply this paraphrase expression generation method to search. That is, when a search target sentence is generated from a search request sentence using a paraphrase expression generation method, and it is determined that the search target sentence is similar to the search request sentence, the search target sentence is used. A method of performing a search can be considered.

特開2003−76687号公報JP 2003-76687 A

しかしながら、特許文献1に記載されている技術は、書き換えルールにより、文言の変更を行っているが、自立語の数が変わるような複雑なパラフレーズを行ってはいない。このため、「読みを送信する」と「読みを文字列に付与し送信を実行する」との間のパラフレーズを行うことはできないという問題がある。   However, although the technique described in Patent Document 1 changes the wording according to the rewrite rule, it does not perform a complicated paraphrase that changes the number of independent words. For this reason, there is a problem that a paraphrase between “send reading” and “apply reading to a character string and execute transmission” cannot be performed.

本発明は、上記に鑑みてなされたものであって、適切にパラフレーズ(置換)された文を取得可能な情報検索装置、情報検索方法及び情報検索プログラムを提供することを目的とする。   The present invention has been made in view of the above, and an object of the present invention is to provide an information search apparatus, an information search method, and an information search program that can acquire a properly paraphrased (replaced) sentence.

上述した課題を解決し、目的を達成するために、本発明の情報検索装置は、入力文の入力を受け付ける入力手段と、前記入力文による検索の対象となる検索対象文と、当該検索対象文における、文節毎の自立語と、前記自立語を木構造のノードとした自立語間の係り受け構造を保持する構文木と、を対応付けて記憶する文記憶手段と、前記入力文を構文解析して、当該入力文の自立語間の係り受け構造を保持する構文木を生成する構文木生成手段と、複数の自立語間の係り受け構造を示す第1の部分構文木パタンと、前記第1の部分構文木パタンの言い換えとなる自立語間の係り受け構造を示す部分構文木パタンであって前記第1の部分構文木パタンより前記ノードの数が少ない第2の部分構文木パタンと、前記第1の部分構文木パタンを前記第2の部分構文木パタンに置換する置換条件と、を対応付けて記憶する構文木パタン記憶手段と、前記文記憶手段に記憶されている前記検索対象文に含まれる部分構文木が、前記構文木パタン記憶手段が記憶する前記置換条件に一致するか否か判断する判断手段と、前記置換条件に一致すると判断した場合に、当該置換条件に対応付けられた前記第1の部分構文木パタンと一致する前記検索対象文に含まれている前記部分構文木を、当該置換条件と対応付けられた前記第2の部分構文木パタンで置き換える置換手段と、前記構文木生成手段により生成された前記入力文の前記構文木と、前記置換手段により置き換えられた前記検索対象文の構文木との類似度を判定する類似度判定手段と、判定された前記類似度が所定の条件を満たす場合、前記置換手段により置換される前の前記検索対象文を、検索結果として出力する出力手段と、を備えることを特徴とする。 In order to solve the above-described problems and achieve the object, an information search apparatus according to the present invention includes an input unit that receives input of an input sentence, a search target sentence that is to be searched by the input sentence, and the search target sentence. , A sentence storage means for storing a self-supporting word for each phrase and a syntax tree that holds a dependency structure between self-supporting words with the self-supporting word as a tree-structured node, and parsing the input sentence A syntax tree generating means for generating a syntax tree that holds a dependency structure between independent words of the input sentence, a first partial syntax tree pattern indicating a dependency structure between a plurality of independent words, and A second partial syntax tree pattern indicating a dependency structure between independent words that is a paraphrase of one partial syntax tree pattern , wherein the number of nodes is smaller than that of the first partial syntax tree pattern; Before the first partial syntax tree pattern A syntax tree pattern storage means in association with replacement condition for replacing the second partial parse tree pattern, a partial parse tree contained in the search object text stored in the text storage means, the syntax Determining means for determining whether or not the replacement condition stored in the tree pattern storage means matches; and when determining that the replacement condition matches, the first partial syntax tree pattern associated with the replacement condition; Replacement means for replacing the partial syntax tree included in the matching search target sentence with the second partial syntax tree pattern associated with the replacement condition, and the input generated by the syntax tree generation means When the similarity determination unit that determines the similarity between the syntax tree of a sentence and the syntax tree of the search target sentence replaced by the replacement unit, and the determined similarity satisfies a predetermined condition, The search subject sentence before being replaced by serial substitution means, characterized in that it comprises an output means for outputting the retrieval result.

また、本発明の情報検索方法は、入力文の入力を受け付ける入力ステップと、前記入力文による検索の対象となる検索対象文と、当該検索対象文における、文節毎の自立語と、前記自立語を木構造のノードとした自立語間の係り受け構造を保持する構文木と、を対応付けて記憶部に記憶する文記憶ステップと、前記入力文を構文解析して、当該入力文の自立語間の係り受け構造を保持する構文木を生成する構文木生成ステップと、前記記憶手段に記憶されている前記検索対象文に含まれる部分構文木が、前記第1の部分構文木パタンを前記第2の部分構文木パタンに置換する置換条件に一致するか否か判断する判断ステップと、前記置換条件に一致すると判断した場合に、複数の自立語間の係り受け構造を示す部分構文木であって前記置換条件と対応付けられている第1の部分構文木パタンと一致する、前記検索対象文に含まれている前記部分構文木を、当該第1の部分構文木パタンと対応付けられていると共に前記第1の部分構文木パタンの言い換えとなる自立語間の係り受け構造を示す部分構文木パタンであって前記第1の部分構文木パタンより前記ノードの数が少ない第2の部分構文木パタンで置き換える置換ステップと、前記構文木生成ステップにより生成された前記入力文の前記構文木と、前記置換ステップにより置き換えられた前記検索対象文の構文木との類似度を判定する類似度判定ステップと、判定された前記類似度が所定の基準値以上の場合、前記置換ステップにより置換される前の前記検索対象文を、検索結果として出力する出力ステップと、を有することを特徴とする。 The information search method of the present invention includes an input step for receiving input of an input sentence, a search target sentence to be searched by the input sentence, an independent word for each phrase in the search target sentence, and the independent word A syntax tree that holds a dependency structure between independent words having a tree structure as a node, and a sentence storage step that associates and stores the syntax tree in the storage unit, and the input sentence is parsed and the independent word of the input sentence A syntax tree generation step of generating a syntax tree that retains a dependency structure between them, and a partial syntax tree included in the search target sentence stored in the storage means includes the first partial syntax tree pattern as the first partial syntax tree pattern. 2 is a partial syntax tree indicating a dependency structure between a plurality of independent words when it is determined that the replacement condition matches with the replacement condition to be replaced with the partial syntax tree pattern of FIG. The above replacement clause The partial syntax tree included in the search target sentence that matches the first partial syntax tree pattern associated with the first partial syntax tree pattern is associated with the first partial syntax tree pattern and the first partial syntax tree pattern. substituted replaced by a partial parse tree pattern dependency second partial parse tree pattern fewer of said node from partial parse tree wherein a pattern first partial parse tree pattern showing the structure between content words a paraphrase And a similarity determination step for determining a similarity between the syntax tree of the input sentence generated by the syntax tree generation step and the syntax tree of the search target sentence replaced by the replacement step. An output step of outputting, as a search result, the search target sentence before being replaced by the replacement step when the similarity is equal to or greater than a predetermined reference value. And butterflies.

また、本発明の情報検索プログラムは、入力文の入力を受け付ける入力ステップと、前記入力文による検索の対象となる検索対象文と、当該検索対象文における、文節毎の自立語と、前記自立語を木構造のノードとした自立語間の係り受け構造を保持する構文木と、を対応付けて記憶部に記憶する文記憶ステップと、前記入力文を構文解析して、当該入力文の自立語間の係り受け構造を保持する構文木を生成する構文木生成ステップと、前記記憶手段に記憶されている前記検索対象文に含まれる部分構文木が、前記第1の部分構文木パタンを前記第2の部分構文木パタンに置換する置換条件に一致するか否か判断する判断ステップと、前記置換条件に一致すると判断した場合に、複数の自立語間の係り受け構造を示す部分構文木であって前記置換条件と対応付けられている第1の部分構文木パタンと一致する、前記検索対象文に含まれている前記部分構文木を、当該第1の部分構文木パタンと対応付けられていると共に前記第1の部分構文木パタンの言い換えとなる自立語間の係り受け構造を示す部分構文木パタンであって前記第1の部分構文木パタンより前記ノードの数が少ない第2の部分構文木パタンで置き換える置換ステップと、前記構文木生成ステップにより生成された前記入力文の前記構文木と、前記置換ステップにより置き換えられた前記検索対象文の構文木との類似度を判定する類似度判定ステップと、判定された前記類似度が所定の条件を満たす場合、前記置換ステップにより置換される前の前記検索対象文を、検索結果として出力する出力ステップと、をコンピュータに実行させる。 The information search program of the present invention includes an input step for receiving input of an input sentence, a search target sentence to be searched by the input sentence, an independent word for each phrase in the search target sentence, and the independent word A syntax tree that holds a dependency structure between independent words having a tree structure as a node, and a sentence storage step that associates and stores the syntax tree in the storage unit, and the input sentence is parsed and the independent word of the input sentence A syntax tree generation step of generating a syntax tree that retains a dependency structure between them, and a partial syntax tree included in the search target sentence stored in the storage means includes the first partial syntax tree pattern as the first partial syntax tree pattern. 2 is a partial syntax tree indicating a dependency structure between a plurality of independent words when it is determined that the replacement condition matches with the replacement condition to be replaced with the partial syntax tree pattern of FIG. Said The partial syntax tree included in the search target sentence that matches the first partial syntax tree pattern associated with the conversion condition is associated with the first partial syntax tree pattern and the in the second partial parse tree pattern number is less of a first partial parse tree pattern of paraphrase become independent words between in charge said receiving a partial parse tree pattern showing the structure first partial parse tree pattern than the node A replacement step, a similarity determination step for determining a similarity between the syntax tree of the input sentence generated by the syntax tree generation step and the syntax tree of the search target sentence replaced by the replacement step; An output step for outputting the search target sentence before being replaced by the replacement step as a search result when the determined similarity satisfies a predetermined condition; To be executed by the over data.

本発明によれば、入力された文と類似する検索対象文を高い精度で特定できるという効果を奏する。   According to the present invention, it is possible to specify a search target sentence similar to the input sentence with high accuracy.

以下に添付図面を参照して、この発明にかかる情報検索装置、情報検索方法及び情報検索プログラムを情報検索装置に適用した最良な実施の形態を詳細に説明する。   Exemplary embodiments of an information search apparatus, an information search method, and an information search program according to the present invention will be described below in detail with reference to the accompanying drawings.

(第1の実施の形態)
図1に示すように、情報検索装置100は、検索対象文記憶部101と、置換ルール記憶部102と、置換順序記憶部103と、置換履歴格納部104と、入力部105と、構文解析部106と、文節特定部111と、判断部107と、置換部108と、類似度判定部109と、表示処理部110と、検索要求文一致文節記憶部112とを備える。
(First embodiment)
As shown in FIG. 1, the information search apparatus 100 includes a search target sentence storage unit 101, a replacement rule storage unit 102, a replacement order storage unit 103, a replacement history storage unit 104, an input unit 105, and a syntax analysis unit. 106, a phrase specifying unit 111, a determining unit 107, a replacing unit 108, a similarity determining unit 109, a display processing unit 110, and a search request sentence matching phrase storage unit 112.

検索対象文記憶部101は、利用者により入力された検索要求文による検索の対象となる検索対象文についての構文解析結果を予め記憶している。図2に示すように、検索対象文管理テーブルでは、文IDと、検索対象文と、文節IDと、文節の自立語と、当該自立語の品詞と、親IDと、次の文節との関係と、一致文節IDとを対応付けて保持している。   The search target sentence storage unit 101 stores in advance a syntax analysis result for a search target sentence that is to be searched by a search request sentence input by a user. As shown in FIG. 2, in the search target sentence management table, the relationship between the sentence ID, the search target sentence, the phrase ID, the phrase independent word, the part of speech of the independent word, the parent ID, and the next phrase. And the matching phrase ID are stored in association with each other.

文IDは、検索対象文毎に割り当てられたIDとする。文節IDは、検索対象文の文節毎に割り当てられたIDとする。関係は、次の文節との関係が格納されており、例えば、「の」、「を」、「並列」、「隣」等とする。なお、一致文節IDは初期状態では空欄としておき、後述する処理を行う際に利用される。親IDは、親の文節を示す文節IDを格納する。つまり、検索対象文管理テーブルでは、この親IDにより、検索対象文の構文解析結果となる構文木の構造を格納している。次に符号201で示される文ID“1”の構文木の構造について示す。   The sentence ID is an ID assigned to each search target sentence. The phrase ID is an ID assigned to each phrase of the search target sentence. As the relationship, the relationship with the next clause is stored, and for example, “no”, “=”, “parallel”, “adjacent”, and the like. Note that the matching phrase ID is left blank in the initial state, and is used when processing to be described later is performed. The parent ID stores a phrase ID indicating the parent phrase. That is, in the search target sentence management table, the structure of the syntax tree that is the result of the syntax analysis of the search target sentence is stored by this parent ID. Next, the structure of the syntax tree of the sentence ID “1” indicated by reference numeral 201 is shown.

図3に示す文ID“1”の構文木は、文ID“1”についての構文木であり、図2に示された検索対象文管理テーブルのフィールド情報である親IDに基づいて構文木構造を実現している。図3に示すように、「実行(文節ID“4”)」の下に、「付与(文節ID“2”)」と、「送信(文節ID“3”)」と、が関連付けされている。さらに、「付与(文節ID“2”)」の下に「読み(文節ID“1”)」が関連付けされている。後述する処理では、このような構文木構造を用いてパラフレーズ処理を行うものとしている。   The syntax tree of the sentence ID “1” shown in FIG. 3 is a syntax tree for the sentence ID “1”, and the syntax tree structure is based on the parent ID that is the field information of the search target sentence management table shown in FIG. Is realized. As shown in FIG. 3, “Grant (Phrase ID“ 2 ”)” and “Transmission (Phrase ID“ 3 ”)” are associated with “Execution (Phrase ID“ 4 ”)”. . Furthermore, “reading (sentence ID“ 1 ”)” is associated with “giving (sentence ID“ 2 ”)”. In the processing described later, the paraphrase processing is performed using such a syntax tree structure.

置換ルール記憶部102は、後述する置換部108が行うパラフレーズに用いる置換ルールを格納している。当該置換ルールに従って、検索対象文のパラフレーズが行われる。図4に示すように、置換ルール管理テーブルは、分類IDと、ルールIDと、対象パタンと、置換パタンと、係り受け条件と、品詞条件と、一致条件とを対応付けて保持している。なお、分類とは、文の区切りとなる所定のまとまりをいう。本実施の形態では分類として、名詞句、動詞句、格共有等とする。   The replacement rule storage unit 102 stores replacement rules used for paraphrases performed by a replacement unit 108 described later. According to the replacement rule, the paraphrase of the search target sentence is performed. As shown in FIG. 4, the replacement rule management table holds a classification ID, a rule ID, a target pattern, a replacement pattern, a dependency condition, a part of speech condition, and a matching condition in association with each other. The classification means a predetermined group that becomes a sentence break. In this embodiment, the classification includes noun phrases, verb phrases, case sharing, and the like.

分類IDは、上述した分類毎に割り当てられたIDとする。ルールIDは、分類毎に設定された各置換ルールに割り当てられたIDとする。そして、ルールIDの数が小さい方については、係り受け構造等が複雑な置換ルールが設定されており、ルールIDの数が大きい方については、係り受け構造等が簡単な置換ルールが設定されているものする。つまり、検索対象文において複雑な置換ルールに一致すれば当該置換ルールと対応付けられた置換を行い、複雑な置換ルールに一致しなかった場合には単純な置換ルールと一致するか否か判断を行い、当該単純な置換ルールと一致した場合に当該置換ルールと対応付けられた置換を行うことになる。このように複雑な置換ルールから順に一致するか否か判断することで、構文木を置換する精度を向上させることができる。   The classification ID is an ID assigned to each classification described above. The rule ID is an ID assigned to each replacement rule set for each classification. For those with a smaller number of rule IDs, a replacement rule with a complicated dependency structure is set. For those with a larger number of rule IDs, a replacement rule with a simple dependency structure is set. To be there. In other words, if the search target sentence matches a complicated replacement rule, the replacement associated with the replacement rule is performed. If the search target sentence does not match the complicated replacement rule, it is determined whether or not the simple replacement rule matches. If it matches the simple replacement rule, the replacement associated with the replacement rule is performed. Thus, by determining whether or not the matching rules are matched in order from the complicated replacement rule, the accuracy of replacing the syntax tree can be improved.

対象パタンは、検索対象文に対して適用する自立語間の係り受け構造を示す構文木のパタンとする。置換パタンは、検索対象文に含まれている部分構文木が対象パタンと一致するとともに後述する置換条件を満足した場合に実行する置換処理後の構文木のパタンとする。対象パタン及び置換パタンの「−」は2つの単語間に係り受け関係が存在していることを示している。図4に示すように対象パタンより置換パタンの方がノード数を少なく設定されている。なお、対象パタンの構文木と置換パタンの構文木は、ノード数こそ異なるが意味的には言い換えとなるものである。これにより、当該複数のパタンを用いて検索対象文を置換しても言い換え関係が成立することになる。   The target pattern is a syntax tree pattern indicating a dependency structure between independent words applied to a search target sentence. The replacement pattern is a pattern of a syntax tree after replacement processing executed when a partial syntax tree included in the search target sentence matches the target pattern and satisfies a replacement condition described later. “-” In the target pattern and the replacement pattern indicates that a dependency relationship exists between two words. As shown in FIG. 4, the replacement pattern has a smaller number of nodes than the target pattern. Note that the syntax tree of the target pattern and the syntax tree of the replacement pattern are different in terms of the number of nodes but are semantically different. Thus, the paraphrase relationship is established even if the search target sentence is replaced using the plurality of patterns.

図5に示す例は、図4のレコード401の対象パタンの構文木と、置換パタンの構文木とを示した例であり、所定の条件を満たした場合に、対象文に含まれている対象パタンの構文木が、置換パタンの構文木に置換される。   The example shown in FIG. 5 is an example showing the syntax tree of the target pattern of the record 401 in FIG. 4 and the syntax tree of the replacement pattern, and the target included in the target sentence when a predetermined condition is satisfied. The syntax tree of the pattern is replaced with the syntax tree of the replacement pattern.

図4に戻り、置換ルール管理テーブルの係り受け条件、品詞条件、一致条件は、検索対象文において、検索要求文が有する自立語を残すと共に対象パタンを置換パタンに置換するための置換条件として設定されている。これら全ての置換条件を満たした場合、検索対象文に対して置換処理が行われることになる。係り受け条件は、文節間の係り受け(関係)についての条件が示されている。例えばレコード401を用いた場合、後述する判断部107は、文節B―A間の係り受けが「の」又は「隣」の場合に条件を満たしていると判断する。品詞条件は、各文節の自立語の品詞の条件が示されている。一致条件は、検索対象文の各文節の自立語が、検索要求文の文節の自立語と一致しているか否かを条件として設定されている。「不一致」は検索要求文の文節の自立語と一致していないことを示し、「一致」は検索要求文の文節の自立語と一致していることを示している。   Returning to FIG. 4, the dependency condition, part-of-speech condition, and matching condition in the replacement rule management table are set as replacement conditions for leaving the independent words of the search request sentence and replacing the target pattern with the replacement pattern in the search target sentence. Has been. When all these replacement conditions are satisfied, the replacement process is performed on the search target sentence. The dependency condition indicates a condition for dependency (relationship) between phrases. For example, when the record 401 is used, the determination unit 107 described later determines that the condition is satisfied when the dependency between the clauses B and A is “no” or “adjacent”. The part-of-speech condition indicates the part-of-speech condition of the independent word of each phrase. The matching condition is set on the condition that whether or not the independent word of each clause of the search target sentence matches the independent word of the phrase of the search request sentence. “Disagree” indicates that it does not match the independent word of the phrase of the search request sentence, and “Match” indicates that it matches the independent word of the phrase of the search request sentence.

つまり、レコード401の分類ID=2、ルールID=1の置換ルールは、名詞Bが名詞Aに係り、名詞Aが単語(品詞は任意のものとする)Cに係るパタンを検索対象文に含まれている場合に、後述する判断部107は、これら文節間において名詞Bと名詞Aの関係が「の」又は「隣」であり、名詞Bは検索要求文の文節と一致し、名詞Aは検索要求文の文節と不一致したのであれば、置換条件を満たしていると判断する。そして、後述する置換部108は、検索対象文の名詞Bが名詞Aに係り、名詞Aが単語Cに係るパタンを、名詞Bが単語Cに係るパタンに置換する。   That is, in the replacement rule of the record 401 with the classification ID = 2 and the rule ID = 1, the noun B is related to the noun A, and the noun A includes a pattern related to the word (part of speech is arbitrary) C in the search target sentence. In this case, the determination unit 107 described later indicates that the relationship between the noun B and the noun A is “no” or “neighbor” between these phrases, and the noun B matches the phrase of the search request sentence. If it does not match the clause of the search request sentence, it is determined that the replacement condition is satisfied. Then, the replacement unit 108 described later replaces the noun B in the search target sentence with the noun A, the noun A replacing the pattern related to the word C, and the noun B replacing the pattern related to the word C.

置換順序記憶部103は、上述した置換ルールが設定されている分類の呼び出し順序を保持する置換順序管理テーブルを格納している。図6に示すように、置換順序管理テーブルは、分類IDと、ルール分類とを対応付けて保持している。そして、本実施の形態にかかる情報検索装置100では、当該置換順序管理テーブルの上のレコードから順に、置換処理を行うこととする。つまり、最初に動詞句の置換ルールで処理を行い、次に名詞句の置換ルールで処理を行い、最後に格共有の置換ルールで処理を行うことになる。   The replacement order storage unit 103 stores a replacement order management table that holds the calling order of classifications for which the above-described replacement rules are set. As shown in FIG. 6, the replacement order management table holds a classification ID and a rule classification in association with each other. And in the information search device 100 concerning this Embodiment, suppose that a replacement process is performed in an order from the record on the said replacement order management table. In other words, processing is first performed using the verb phrase replacement rule, then processing is performed using the noun phrase replacement rule, and finally processing is performed using the case sharing replacement rule.

入力部105は、利用者から検索要求文の入力を受け付け、入力された検索要求文の入力処理を行う。   The input unit 105 receives an input of a search request sentence from a user and performs an input process of the input search request sentence.

構文解析部106は、入力部105が入力処理した検索要求文に対して構文解析を行い、当該検索要求文の文節毎の自立語間の係り受け構造を示した構文木を生成する。また、各文節の自立語の品詞の判定処理も行う。次に、入力部105が「読みを送信する」という検索要求文を入力処理した場合に、構文解析部106が行った構文解析結果について説明する。   The syntax analysis unit 106 performs syntax analysis on the search request sentence input by the input unit 105, and generates a syntax tree indicating a dependency structure between independent words for each clause of the search request sentence. Also, the part-of-speech determination process for the independent words of each phrase is performed. Next, a description will be given of a result of parsing performed by the parsing unit 106 when the input unit 105 performs input processing of a search request sentence “send reading”.

図7に示すように構文解析部106は、検索要求文が2つの文節を含み、これら文節である名詞「読み」と、動詞「送信する」との間に係り受け関係が存在していると解析する。構文解析部106は、さらに当該係り受けの関係を「を」と解析する。   As shown in FIG. 7, the parsing unit 106 indicates that the search request sentence includes two clauses, and that there is a dependency relationship between the noun “read” and the verb “transmit”. To analyze. The syntax analysis unit 106 further analyzes the dependency relationship as “O”.

文節特定部111は、検索対象文と検索要求文との間で一致(または類義にあたる単語として別途登録されている単語と一致)する自立語を含む文節を特定する。そして、文節特定部111は、一致する自立語を含む文節を特定した場合に、一致した自立語を含む検索要求文の文節を示す文節IDを、一致文節IDとして検索対象文記憶部101の検索対象文管理テーブルに格納する。なお、詳細な処理手順については後述する。   The phrase specifying unit 111 specifies a phrase including an independent word that matches (or matches a word registered separately as a similar word) between the search target sentence and the search request sentence. Then, when the phrase specifying unit 111 specifies a phrase including the matching independent word, the phrase ID indicating the phrase of the search request sentence including the matched independent word is used as the matching phrase ID to search the search target sentence storage unit 101. Store in the target statement management table. The detailed processing procedure will be described later.

また、文節特定部111は、一致する自立語を含む文節を特定した場合に、一致した自立語を含む検索対象文の文節を示す文節IDを、検索要求文の一致文節IDとして検索要求文一致文節記憶部112の検索要求文一致文節管理テーブルに格納する。   In addition, when the phrase specifying unit 111 specifies a phrase including the matching independent word, the phrase ID indicating the phrase of the search target sentence including the matched independent word is used as the matching phrase ID of the search request sentence. The search request sentence matching phrase management table of the phrase storage unit 112 is stored.

検索要求文一致文節記憶部112は、検索要求文一致文節管理テーブルを記憶する。検索要求文一致文節管理テーブルは、検索要求文の文節毎に、検索対象文の一致した文節を対応付けて保持する。なお、検索要求文一致文節管理テーブルのテーブル構造については後述する。   The search request sentence matching phrase storage unit 112 stores a search request sentence matching phrase management table. The search request sentence matching phrase management table holds, for each phrase of the search request sentence, a matching phrase of the search target sentence in association with it. The table structure of the search request sentence matching phrase management table will be described later.

判断部107は、置換順序記憶部103に格納されている分類順に、文節特定部111に自立語が一致すると特定された文節、及び置換ルール記憶部102に記憶された当該分類の置換ルールを用いて、対象パタンを置換パタンに置換する置換条件を満たしているか否か判断する。なお、詳細な処理手順については後述する。   The determination unit 107 uses, in the classification order stored in the replacement order storage unit 103, the clauses identified as independent words in the phrase specification unit 111 and the replacement rules of the classification stored in the replacement rule storage unit 102. Thus, it is determined whether or not the replacement condition for replacing the target pattern with the replacement pattern is satisfied. The detailed processing procedure will be described later.

置換部108は、判断部107により置換条件を満たしていると判断された場合に、検索対象文に含まれている部分構文木のうち、置換ルール記憶部102に格納されている対象パタンに一致する部分構文木を、置換パタンとして示されている部分構文木に置換する処理を行う。そして、置換部108は、置換処理したあとの検索対象文を後述する置換履歴格納部104に格納する。なお、詳細な処理手順については後述する。   The replacement unit 108 matches the target pattern stored in the replacement rule storage unit 102 among the partial syntax trees included in the search target sentence when the determination unit 107 determines that the replacement condition is satisfied. The partial syntax tree to be replaced is replaced with the partial syntax tree indicated as the replacement pattern. Then, the replacement unit 108 stores the search target sentence after the replacement process in the replacement history storage unit 104 described later. The detailed processing procedure will be described later.

また、本実施の形態では、判断部107及び置換部108は、検索対象文記憶部101に格納されている全ての検索対象文に対して処理を行うが、このような処理に制限するものではない。例えば、検索要求文に類似しそうな検索対象文を予め抽出してから、判断部107及び置換部108による処理を行ってもよい。   In this embodiment, the determination unit 107 and the replacement unit 108 perform processing on all search target sentences stored in the search target sentence storage unit 101. However, the processing is not limited to such processing. Absent. For example, after the search target sentence that is likely to be similar to the search request sentence is extracted in advance, the processing by the determination unit 107 and the replacement unit 108 may be performed.

置換履歴格納部104は、置換部108により行われた置換処理後の検索対象文を処理ステップ毎に格納している。なお、格納された後のデータ等については後述する。   The replacement history storage unit 104 stores the search target sentence after the replacement process performed by the replacement unit 108 for each processing step. The stored data and the like will be described later.

類似度判定部109は、置換履歴格納部104に格納された置換処理後の検索対象文と、利用者により入力された検索要求文との間の類似度を判定する。詳細な類似度判定手法については後述する。   The similarity determination unit 109 determines the similarity between the search target sentence after replacement processing stored in the replacement history storage unit 104 and the search request sentence input by the user. A detailed similarity determination method will be described later.

表示処理部110は、検索対象文を、類似度判定部109による判定結果と共に、検索対象文を表示処理、つまり後述する表示部に出力する処理を行う。また、表示処理部110は、検索対象文を表示処理する際、置換履歴格納部104に格納された分類毎の置換結果を表示処理する。   The display processing unit 110 performs a display process on the search target sentence together with the determination result by the similarity determination unit 109, that is, a process for outputting the search target sentence to a display unit described later. Further, the display processing unit 110 performs display processing of the replacement result for each classification stored in the replacement history storage unit 104 when the search target sentence is displayed.

次に、図1に示す情報検索装置100が行う全体の処理手順について、図8を用いて説明する。   Next, an overall processing procedure performed by the information search apparatus 100 shown in FIG. 1 will be described with reference to FIG.

まず、入力部105は、検索要求文の入力処理を行う(ステップS801)。次に、構文解析部106は、入力処理された検索対象文に対して構文解析を行い、検索対象文の構文木を生成する(ステップS802)。   First, the input unit 105 performs a search request sentence input process (step S801). Next, the syntax analysis unit 106 performs syntax analysis on the search target sentence that has been subjected to the input process, and generates a syntax tree of the search target sentence (step S802).

そして、文節特定部111は、検索対象文と検索要求文との間で一致する自立語を含む文節を特定する(ステップS803)。そして、文節特定部111は、一致する自立語を含む文節を特定した場合に、一致した自立語を含む検索要求文の文節を示す文節IDを、一致文節IDとして検索対象文記憶部101の検索対象文管理テーブルに格納する。   Then, the phrase specifying unit 111 specifies a phrase including an independent word that matches between the search target sentence and the search request sentence (step S803). Then, when the phrase specifying unit 111 specifies a phrase including the matching independent word, the phrase ID indicating the phrase of the search request sentence including the matched independent word is used as the matching phrase ID to search the search target sentence storage unit 101. Store in the target statement management table.

次に、判断部107及び置換部108は、検索対象文に含まれる部分構文木の置換処理を行う(ステップS804)。   Next, the determination unit 107 and the replacement unit 108 perform replacement processing of the partial syntax tree included in the search target sentence (step S804).

そして、類似度判定部109は、ステップS804で置換された検索対象文と、検索要求文との間で類似度を判定する(ステップS805)。   Then, the similarity determination unit 109 determines the similarity between the search target sentence replaced in step S804 and the search request sentence (step S805).

そして、表示処理部110は、類似度判定部109による判定結果に基づいて、検索対象文の表示処理を行う(ステップS806)。   Then, the display processing unit 110 performs search target sentence display processing based on the determination result by the similarity determination unit 109 (step S806).

次に、図8のステップS803に示した文節特定部111における検索対象文と検索要求文との間で一致する自立語を含む文節を特定する処理手順について、図9を用いて説明する。   Next, a processing procedure for specifying a phrase including an independent word that matches between the search target sentence and the search request sentence in the phrase specifying unit 111 shown in step S803 of FIG. 8 will be described with reference to FIG.

まず、文節特定部111は、変数i及び変数jに初期値として‘1’を設定する(ステップS901)。   First, the phrase specifying unit 111 sets ‘1’ as an initial value for the variable i and the variable j (step S <b> 901).

次に、文節特定部111は、検索要求文の文節ID“i”の自立語と、現在処理対象である検索対象文の文節ID“j”の自立語とが一致するか否か判断する(ステップS902)。また、文節特定部111は、一致しないと判断した場合(ステップS902:No)、これら文節ID間について特に設定処理を行わない。   Next, the phrase specifying unit 111 determines whether or not the independent word of the phrase ID “i” of the search request sentence matches the independent word of the phrase ID “j” of the search target sentence that is the current processing target ( Step S902). If the phrase specifying unit 111 determines that they do not match (step S902: No), the phrase specifying unit 111 does not particularly perform setting processing between these phrase IDs.

そして、文節特定部111は、各自立語が一致すると判断した場合(ステップS902:Yes)、検索要求文の文節ID“i”の一致文節IDとして“j”を設定する(ステップS903)。そして、文節特定部111は、当該一致文節IDを、検索要求文一致文節管理テーブルに登録する。   When the phrase specifying unit 111 determines that the independent words match (step S902: Yes), the phrase specifying unit 111 sets “j” as the matching phrase ID of the phrase ID “i” of the search request sentence (step S903). Then, the phrase specifying unit 111 registers the matching phrase ID in the search request sentence matching phrase management table.

図10に示すように、検索要求文一致文節管理テーブルは、検索要求文の各文節IDに対して、検索対象文の文ID毎に一致した文節IDである一致文節IDを格納している。   As shown in FIG. 10, the search request sentence matching phrase management table stores a matching phrase ID that is a phrase ID that matches each sentence ID of the search target sentence for each phrase ID of the search request sentence.

図9に戻り、文節特定部111は、検索対象文の文節ID“j”の一致文節IDとして“i”を設定する(ステップS904)。そして、文節特定部111は、当該一致文節IDを、検索対象文管理テーブルに登録する。   Returning to FIG. 9, the phrase specifying unit 111 sets “i” as the matching phrase ID of the phrase ID “j” of the search target sentence (step S904). Then, the phrase specifying unit 111 registers the matching phrase ID in the search target sentence management table.

図11に示すように、各検索対象文の文節IDと対応付けられた一致文節IDに、一致した検索要求文の文節IDを登録している。   As shown in FIG. 11, the phrase ID of the matched search request sentence is registered in the matched phrase ID associated with the phrase ID of each search target sentence.

図9に戻り、文節特定部111は、検索対象文に処理を行っていない文節があるか否か判断する(ステップS905)。あると判断した場合(ステップS905:Yes)、変数jに“1”追加し(ステップS906)、再びステップS902から処理を行う。   Returning to FIG. 9, the phrase specifying unit 111 determines whether there is a phrase that is not processed in the search target sentence (step S905). If it is determined that there is (Step S905: Yes), “1” is added to the variable j (Step S906), and the processing is performed again from Step S902.

そして、文節特定部111は検索対象文の全ての文節に対して処理を行ったと判断した場合(ステップS905:No)、検索要求文に処理を行っていない文節があるか否か判断する(ステップS907)。あると判断した場合(ステップS907:Yes)、検索対象文の処理対象の文節IDを示す変数jに初期値‘1’を設定すると共に、変数iに“1”追加し(ステップS908)、再びステップS902から処理を行う。   If the phrase specifying unit 111 determines that all the phrases in the search target sentence have been processed (step S905: No), the phrase specifying unit 111 determines whether there is a phrase that has not been processed in the search request sentence (step S905). S907). If it is determined that there is (step S907: Yes), an initial value “1” is set to the variable j indicating the phrase ID to be processed of the search target sentence, and “1” is added to the variable i (step S908), and again. Processing is performed from step S902.

次に、文節特定部111は、検索要求文の全ての文節に対して処理を行ったと判断した場合(ステップS907:No)、処理を行っていない検索対象文があるか否か判断する(ステップS909)。あると判断した場合(ステップS909:Yes)、文節特定部111は、処理を行っていない検索対象文を、処理対象に設定し(ステップS910)、再びステップS901から処理を行うこととする。   Next, when the phrase specifying unit 111 determines that all the phrases in the search request sentence have been processed (step S907: No), it determines whether there is a search target sentence that has not been processed (step S907). S909). When it is determined that there is (step S909: Yes), the phrase specifying unit 111 sets a search target sentence that has not been processed as a processing target (step S910), and performs the processing from step S901 again.

そして、文節特定部111は、全ての検索対象文に対して処理を行ったと判断した場合(ステップS909:No)、処理を終了する。   If the phrase specifying unit 111 determines that processing has been performed on all search target sentences (step S909: No), the processing ends.

上述した処理手順により、検索対象文の文節と、検索要求文の文節とについて、同じ自立語を含む文節間で対応付けられたことになる。   With the above-described processing procedure, the phrase of the search target sentence and the phrase of the search request sentence are associated with each other between phrases including the same independent word.

次に、図8のステップS804に示した判断部107及び置換部108による検索対象文に含まれる部分構文木の置換処理手順について、図12を用いて説明する。   Next, the replacement processing procedure of the partial syntax tree included in the search target sentence by the determination unit 107 and the replacement unit 108 shown in step S804 of FIG. 8 will be described with reference to FIG.

まず、判断部107は、検索対象文記憶部101の最初(文ID=1)の検索対象文の第1の文節(文節ID=1)を処理対象として設定する(ステップS1201)。なお、判断部107は、置換順序記憶部103に記憶された順序に従って分類ID“1”から順に処理を行うこととする。   First, the determination unit 107 sets the first phrase (phrase ID = 1) of the first search target sentence (sentence ID = 1) in the search target sentence storage unit 101 as a processing target (step S1201). Note that the determination unit 107 sequentially performs processing from the classification ID “1” according to the order stored in the replacement order storage unit 103.

次に、判断部107は、処理対象の文節を含む構文木において、当該分類の所定の置換ルール(最初はルールID‘1’の置換ルール)の条件と一致するか否か判断する(ステップS1202)。図4に示した置換ルール管理テーブルでは、処理対象として着目されている文節を対象パタンのAの相当しているものとする。そして、判断部107は、対象パタンの係り受け構造が成り立つと共に、当該対象パタンと対応付けられている係り受け条件、品詞条件、及び一致条件を満足している場合に置換ルールの条件と一致していると判断する。   Next, the determination unit 107 determines whether or not the syntax tree including the clause to be processed matches the condition of the predetermined replacement rule of the classification (initially the replacement rule of the rule ID “1”) (step S1202). ). In the replacement rule management table shown in FIG. 4, it is assumed that the clause focused as a processing target corresponds to the target pattern A. The determination unit 107 satisfies the replacement rule condition when the dependency structure of the target pattern is established and the dependency condition, the part-of-speech condition, and the matching condition associated with the target pattern are satisfied. Judge that

そして、判断部107が置換ルールの条件と一致していないと判断した場合(ステップS1202:No)、当該分類において他の置換ルールがあるか否か判断する(ステップS1203)。そして、判断部107は、他の置換ルールがあると判断した場合(ステップS1203:Yes)、当該他の置換ルールを次に用いる置換ルールとして設定する(ステップS1204)。図4に示した置換ルールでは、例えば分類ID‘1’においては2つの置換ルールが存在するため、ルールID‘1’の条件に一致しなかった場合に、ルールID‘2’の条件に一致するか否かの判断が行われることになる。このように小さい数のルールIDから順に一致するか否かを判断していくことになる。   If the determination unit 107 determines that the conditions of the replacement rule do not match (step S1202: No), it determines whether there is another replacement rule in the classification (step S1203). If the determination unit 107 determines that there is another replacement rule (step S1203: Yes), the determination unit 107 sets the other replacement rule as a replacement rule to be used next (step S1204). In the replacement rule shown in FIG. 4, for example, there are two replacement rules in the classification ID “1”. Therefore, if the condition does not match the condition of the rule ID “1”, the condition of the rule ID “2” is met. Whether or not to do so will be determined. In this way, it is determined whether or not the rule IDs are matched in order from a small number of rule IDs.

そして、置換ルール管理テーブルでは、数が小さいルールIDほど、置換条件が複雑なものであり、ルールIDの数が大きくなるほど置換条件が単純になるように設定している(例えば分類ID=3の置換ルール参照)。これにより、複雑な置換条件に一致した場合に当該複雑な置換条件と対応付けられた置換処理が適用され、単純な置換条件と対応付けられた置換処理は適用されないことになる。このように置換ルールに優先順位を設定したことで、本実施の形態にかかる情報検索装置100では、検索対象文の構文木に対して、より適切な置換(パラフレーズ)が可能となる。   In the replacement rule management table, the smaller the number of rule IDs, the more complicated the replacement condition, and the larger the number of rule IDs, the simpler the replacement condition is set (for example, classification ID = 3). See replacement rules). As a result, when a complicated replacement condition is matched, a replacement process associated with the complex replacement condition is applied, and a replacement process associated with a simple replacement condition is not applied. By setting the priority order in the replacement rule as described above, the information search apparatus 100 according to the present embodiment can perform more appropriate replacement (paraphrase) for the syntax tree of the search target sentence.

また、判断部107は、置換ルールで設定されている置換条件と一致していると判断した場合(ステップS1202:Yes)、置換部108は、検索対象文において、当該所定の置換ルールと対応付けられた対象パタンと一致する部分構文木を、当該所定の置換ルールと対応付けられた置換パタンに一致する構文木に置換する処理を行う(ステップS1205)。   In addition, when the determination unit 107 determines that the replacement condition set in the replacement rule matches (step S1202: Yes), the replacement unit 108 associates the predetermined replacement rule with the predetermined replacement rule in the search target sentence. A process of replacing the partial syntax tree that matches the specified target pattern with a syntax tree that matches the replacement pattern associated with the predetermined replacement rule is performed (step S1205).

そして、置換部108は、置換履歴格納部104に対して、当該置換履歴格納部104に格納されていない文節のうち、置換された構文木までの文節を格納する(ステップS1206)。   Then, the replacement unit 108 stores the clauses up to the replaced syntax tree among the clauses not stored in the replacement history storage unit 104 in the replacement history storage unit 104 (step S1206).

判断部107が当該分類において他の置換ルールがないと判断した場合(ステップS1203:No)又はステップS1206の処理が終了した後、判断部107は、処理対象の検索対象文中に処理を行っていない文節があるか否かを判断する(ステップS1207)。処理を行っていない文節があると判断した場合(ステップS1207:Yes)、処理対象であった文節の次の文節を、処理対象として設定する(ステップS1208)。そして、再びステップS1202から処理を行う。   When the determination unit 107 determines that there is no other replacement rule in the classification (step S1203: No) or after the processing of step S1206 ends, the determination unit 107 does not perform processing in the processing target search target sentence. It is determined whether there is a phrase (step S1207). If it is determined that there is a clause that has not been processed (step S1207: Yes), the clause next to the clause that was the processing target is set as the processing target (step S1208). Then, the process is performed again from step S1202.

そして、判断部107が全ての文節について処理が終了したと判断した場合(ステップS1207:No)、置換されなかったため当該置換履歴格納部104に格納されていない文節を、置換履歴格納部104に格納する(ステップS1209)。   When the determination unit 107 determines that the processing has been completed for all the clauses (step S1207: No), the clause that has not been replaced and is not stored in the replacement history storage unit 104 is stored in the replacement history storage unit 104. (Step S1209).

次に、判断部107は、当該検索対象文に対して、処理を行っていない分類があるか否か判断する(ステップS1210)。そして、判断部107は処理を行っていない分類があると判断した場合(ステップS1210:Yes)、置換順序記憶部103に記憶された分類の順序に従って、次の分類を処理対象として設定する(ステップS1211)。   Next, the determination unit 107 determines whether there is a classification that has not been processed for the search target sentence (step S1210). If the determination unit 107 determines that there is a classification that has not been processed (step S1210: Yes), the next classification is set as a processing target in accordance with the classification order stored in the replacement order storage unit 103 (step S1210). S1211).

また、判断部107は全ての分類において処理を行ったと判断した場合(ステップS1210:No)、処理を行っていない検索対象文があるか否か判断する(ステップS1212)。そして、処理を行っていない検索対象文があると判断した場合(ステップS1212:Yes)、処理を行っていない検索対象文を次の処理対象として設定する(ステップS1213)。さらに、判断部107は、置換順序記憶部103で設定された最初の分類の最初の置換ルールを用いてステップS1202から処理を再開する。   If the determination unit 107 determines that processing has been performed for all classifications (step S1210: No), the determination unit 107 determines whether there is a search target sentence that has not been processed (step S1212). If it is determined that there is a search target sentence that has not been processed (step S1212: Yes), the search target sentence that has not been processed is set as the next processing target (step S1213). Further, the determination unit 107 restarts the process from step S1202 using the first replacement rule of the first classification set in the replacement order storage unit 103.

そして、判断部107は、処理を行っていない検索対象文がないと判断した場合(ステップS1212:Yes)、処理を終了する。   If the determination unit 107 determines that there is no search target sentence that has not been processed (step S1212: Yes), the process ends.

図13−1〜図13−4に示すように、検索対象文毎に、置換順序記憶部103に記憶された分類順に置換された後の検索対象文の構文木が格納されている。このように処理ステップ(分類)毎に置換された履歴が格納されているので、分類毎にどのような置換が行われたのか特定することができる。   As illustrated in FIG. 13A to FIG. 13D, for each search target sentence, a syntax tree of the search target sentence after being replaced in the classification order stored in the replacement order storage unit 103 is stored. Since the history of replacement for each processing step (classification) is stored in this way, it is possible to specify what replacement has been performed for each classification.

次に、図8のステップS805に示した類似度判定部109による置換された検索対象文と、検索要求文との間で類似度を判定処理手順について、図14を用いて説明する。なお、図14の示す処理手順は、検索対象文毎に行われるものとする。   Next, a procedure for determining the similarity between the search target sentence replaced by the similarity determination unit 109 shown in step S805 of FIG. 8 and the search request sentence will be described with reference to FIG. Note that the processing procedure shown in FIG. 14 is performed for each search target sentence.

まず、類似度判定部109は、変数iに初期値として‘1’を設定する(ステップS1401)。次に、類似度判定部109は、リンク一致数に初期値として‘0’を設定する(ステップS1402)。また、リンク一致数とは、置換処理後の検索対象文と検索要求文との間で文節に含まれる自立語と、当該文節の親の文節に含まれる自立語とが一致した数を示したものである。当該リンク一致数が所定の基準値以上の場合に、検索対象文と検索要求文とが類似しているものと判断する。   First, the similarity determination unit 109 sets ‘1’ as an initial value to the variable i (step S <b> 1401). Next, the similarity determination unit 109 sets “0” as the initial value for the number of link matches (step S1402). The number of link matches indicates the number of independent words included in the clause and the independent words included in the parent clause of the clause between the search target sentence after the replacement process and the search request sentence. Is. When the number of link matches is equal to or greater than a predetermined reference value, it is determined that the search target sentence and the search request sentence are similar.

そして、類似度判定部109は、検索要求文一致文節管理テーブルを参照して、検索要求文の文節ID“i”で一致文節IDがあるか否かを判断する(ステップS1403)。この際、類似度判定部109は一致文節IDがあると判断した場合(ステップS1403:Yes)、当該一致文節IDを変数“j”に設定する(ステップS1404)。   Then, the similarity determination unit 109 refers to the search request sentence matching phrase management table to determine whether or not there is a matching phrase ID with the phrase ID “i” of the search request sentence (step S1403). At this time, when the similarity determination unit 109 determines that there is a matching phrase ID (step S1403: Yes), the matching phrase ID is set to the variable “j” (step S1404).

次に、類似度判定部109は、検索要求文の文節ID“i”の親文節IDの一致文節IDが、置換部108により置換された後の検索対象文の文節ID“j”の親文節IDと一致するか否か判断する(ステップS1405)。一致しないと判断した場合(ステップS1405:No)、特に処理を行わない。   Next, the similarity determination unit 109 uses the parent phrase of the phrase ID “j” of the search target sentence after the matching phrase ID of the parent phrase ID of the phrase ID “i” of the search request sentence is replaced by the replacement unit 108. It is determined whether or not it matches the ID (step S1405). If it is determined that they do not match (step S1405: No), no particular processing is performed.

そして、類似度判定部109は、一致すると判断した場合(ステップS1405:Yes)、リンク一致数に1追加する(ステップS1406)。   If the similarity determination unit 109 determines that they match (step S1405: Yes), the similarity determination unit 109 adds 1 to the number of link matches (step S1406).

次に、類似度判定部109は、検索要求文に上述した処理を行っていない文節があるか否か判断する(ステップS1407)。そして、文節があると判断した場合(ステップS1407:Yes)、変数iに‘1’追加して(ステップS1408)、ステップS1403から処理を再開する。   Next, the similarity determination unit 109 determines whether there is a phrase that has not been subjected to the above-described processing in the search request sentence (step S1407). If it is determined that there is a phrase (step S1407: Yes), “1” is added to the variable i (step S1408), and the process is restarted from step S1403.

また、類似度判定部109は、全ての文節に対して上述した処理を行ったと判断した場合(ステップS1207:No)、現在のリンク一致数を類似度判定結果として設定した後(ステップS1409)、処理を終了する。   Also, when the similarity determination unit 109 determines that the above-described processing has been performed on all the clauses (step S1207: No), after setting the current number of link matches as the similarity determination result (step S1409), The process ends.

上述した処理を行うことで、検索対象文毎に、算出されたリンク一致数を類似度判定結果として取得したことになる。そして、表示処理部110は、当該類似度検索結果が所定の基準値以上の場合に類似していると判断し、類似していることを視認できるように表示処理する。   By performing the processing described above, the calculated number of link matches is acquired as the similarity determination result for each search target sentence. Then, the display processing unit 110 determines that the similarity search result is similar when the search result is equal to or greater than a predetermined reference value, and performs display processing so that the similarity can be visually recognized.

本実施の形態では、所定の基準値を‘1’とする。そして、図13―1〜図13−4に示した置換された後の検索対象文に対して、図14に示した処理を行うと、文ID=1、3及び4の類似度判定結果が‘1’以上となるが、文ID=2の類似度判定結果は‘0’となる。   In the present embodiment, the predetermined reference value is “1”. Then, when the process shown in FIG. 14 is performed on the search target sentences after the replacement shown in FIGS. 13A to 13D, the similarity determination results of the sentence IDs = 1, 3, and 4 are obtained. Although it is “1” or more, the similarity determination result of the sentence ID = 2 is “0”.

そこで、表示処理部110は、文ID=1、3及び4の検索対象文については類似する旨を表示し、文ID=2の検索対象文については非類似である旨を表示する。   Therefore, the display processing unit 110 displays that the search target sentences with the sentence ID = 1, 3, and 4 are similar, and displays that the search target sentence with the sentence ID = 2 is dissimilar.

図15に示すように、表示処理部110は、類似している文ID=1、3及び4に対しては類似している旨を示す‘○’を表示し、文ID=2に対しては非類似である旨を示す‘×’を表示する。さらに表示処理部110は、置換履歴格納部104を参照して、分類毎の置換過程を表示する。   As shown in FIG. 15, the display processing unit 110 displays “◯” indicating that the sentence IDs = 1, 3, and 4 that are similar are similar, and the sentence ID = 2. Displays “x” indicating dissimilarity. Further, the display processing unit 110 refers to the replacement history storage unit 104 and displays a replacement process for each classification.

図15の例に示すように、表示処理部110は、文ID‘1’の文に対して、「読みを付与し、送信を実行する」から、「読みを付与し、送信する」を経由して「読みを送信する」までの置換過程の表示を行う。   As shown in the example of FIG. 15, the display processing unit 110 passes “provide reading and send” from “giving reading and executing transmission” to the sentence with the sentence ID “1”. And display the replacement process until “send reading”.

また、表示処理部110は、文ID‘2’の文に対して、「読みを生成し、音声の送信を実行する」から「読みを生成し、音声を送信する」までの置換過程の表示を行う。   In addition, the display processing unit 110 displays a replacement process from “Generate a reading and execute voice transmission” to “Generate a reading and transmit voice” for the sentence with the sentence ID “2”. I do.

また、表示処理部110は、文ID‘3’の文に対して、「漢字の読み情報を付与し、送信する」から、「読みを付与し、送信する」を経由して「読みを送信する」までの置換過程の表示を行う。   In addition, the display processing unit 110 sends “reading readings” via “giving and sending readings” from “giving and sending kanji reading information” to the sentence with the sentence ID “3”. Display the replacement process up to “Yes”.

また、表示処理部110は、文ID‘4’の文に対して、「漢字の読み情報を付与し、送信を実行する」から、「漢字の読み情報を付与し、送信する」を経由して、「読みを付与し、送信する。」までの置換過程の表示を行う。   In addition, the display processing unit 110 performs the process of “adding kanji reading information and executing transmission” to “send kanji reading information and transmitting” to the sentence with the sentence ID “4”. Display the replacement process until “add reading and send”.

本実施の形態では、置換順序記憶部103に格納された分類順(動詞句、名詞句、格共有)に置換を行うこととした。これは、最初に動詞句について置換を行うことで、不要な自立語を含む文節を削除した後で、名詞句、格共有の順にパラフレーズを行うことを目的としたものである。   In the present embodiment, the replacement is performed in the classification order (verb phrase, noun phrase, case sharing) stored in the replacement order storage unit 103. The purpose of this is to perform paraphrasing in the order of noun phrases and case sharing after deleting phrases containing unnecessary independent words by first replacing verb phrases.

ここで仮に、置換順序記憶部103において、分類の呼出順序で、動詞句と格共有との呼出順序を反対にした場合、格共有の処理が先に行われることになる。その場合、文ID‘1’の文において、不要な文節が削除されていないため、格共有処理を行うための条件を満たさなくなる。このため、文ID‘1’の検索対象文「読みを付与し、送信を実行する」は、格共有の分類による置換が行われることなく処理が終了する。   Here, in the replacement order storage unit 103, if the calling order of the verb phrase and case sharing is reversed in the classification calling order, the case sharing processing is performed first. In that case, since the unnecessary clause is not deleted in the sentence with the sentence ID “1”, the condition for performing the case sharing process is not satisfied. For this reason, the processing of the sentence to be searched for the sentence ID “1” “provide reading and execute transmission” ends without replacement by the case sharing classification.

上述した実施の形態にかかる情報検索装置100では、高い精度で検索要求文に類似する検索対象文を特定することが可能となる。これにより、例えば、利用者により入力された検索要求文を言い換えた検索対象文を含む文書を検索することが可能となる。   In the information search apparatus 100 according to the above-described embodiment, it is possible to specify a search target sentence similar to a search request sentence with high accuracy. Thereby, for example, it is possible to search for a document including a search target sentence obtained by rephrasing the search request sentence input by the user.

また、本実施の形態にかかる情報検索装置100では、置換順序記憶部103において、分類の呼出順序を置換するために適切な順序で設定しているため、より高い精度で置換することを可能としている。   Also, in the information search apparatus 100 according to the present embodiment, the replacement order storage unit 103 sets the calling order of classifications in an appropriate order so that replacement can be performed with higher accuracy. Yes.

また、本実施の形態にかかる情報検索装置100では、分類毎の置換過程をひとまとめにして表示処理している。これに対して、置換過程をひとまとめに表示しない場合、文ID‘4’の文では、検索対象文「漢字の読み情報を付与し、送信を実行する」から、置換過程として、「漢字の読み情報を付与し、送信する」、「読み情報を付与し、送信する。」、「読みを付与し、送信する。」が表示された後、置換結果として「読みを送信する」を表示することになる。この場合、表示が煩雑になるので、処理の過程を利用者が容易に認識することが困難となる。これに対して本実施の形態にかかる情報検索装置100では、分類語との置換過程をひとまとめで表示しているので、置換過程の表示が煩雑になることを防止し、置換過程を利用者が容易に認識することが可能となる。   In the information search apparatus 100 according to the present embodiment, the replacement process for each classification is collectively displayed. On the other hand, if the replacement process is not displayed collectively, the sentence with the sentence ID “4” starts from the search target sentence “Kanji reading information is added and executed”, and the replacement process is “Kanji reading”. “Add information and send”, “Add and send reading information”, and “Add and send reading” are displayed, and then “Send reading” is displayed as the replacement result. become. In this case, since the display becomes complicated, it becomes difficult for the user to easily recognize the process. On the other hand, in the information search apparatus 100 according to the present embodiment, the replacement process with the classification word is displayed as a whole, so that the display of the replacement process is prevented from becoming complicated, and the replacement process is performed by the user. It can be easily recognized.

このように、本実施の形態にかかる情報検索装置100では、置換ルール記憶部102に置換ルールを分類毎に記憶し、置換処理についても分類毎に行うこととした。このため、置換ルールの適用順序の制御を可能とすると共に、置換ルールを用いた置換過程を適切な粒度毎にまとめて表示することを可能としている。   As described above, in the information search apparatus 100 according to the present embodiment, the replacement rule is stored in the replacement rule storage unit 102 for each classification, and the replacement process is also performed for each classification. For this reason, it is possible to control the application order of the replacement rules, and to display the replacement process using the replacement rules for each appropriate granularity.

これにより、検索要求文を言い換えた多様なパラフレーズ表現の検索と、当該検索結果の妥当性を容易に確認することができる。   As a result, it is possible to easily check various paraphrase expression searches that rephrase the search request text and the validity of the search results.

なお、本実施の形態にかかる情報検索装置100では、検索対象文をすべて表示しているが、このような表示形式に限らず、例えば上述した処理により類似すると判定された検索対象文のみを表示してもよい。さらに、本発明はその趣旨を逸脱しない範囲内で種々の応用が可能である。   In the information search apparatus 100 according to the present embodiment, all search target sentences are displayed. However, the display is not limited to such a display format. For example, only search target sentences determined to be similar by the above-described processing are displayed. May be. Furthermore, the present invention can be variously applied without departing from the spirit of the present invention.

図16に示すように、情報検索装置100は、ハードウェア構成として、上述した処理を行う情報出力プログラムなどが格納されているROM1602と、ROM1602内のプログラムに従って当該装置の各部を制御するCPU1601と、当該装置の制御に必要な種々のデータを記憶するRAM(Random Access Memory)1603と、上述した処理結果等を表示する表示部1605と、ネットワークに接続する通信I/F1604と、ハードディスクなどの外部記憶装置1606と、利用者が入力する際に用いる入力デバイス1607と、各部を接続するバス1608と、を備えている。また、情報検索装置100は、上述した構成を備えた一般的なコンピュータに適用することができる。   As illustrated in FIG. 16, the information search apparatus 100 includes a ROM 1602 that stores an information output program that performs the above-described processing as a hardware configuration, a CPU 1601 that controls each unit of the apparatus according to a program in the ROM 1602, Random Access Memory (RAM) 1603 for storing various data necessary for controlling the device, a display unit 1605 for displaying the processing results described above, a communication I / F 1604 connected to a network, and an external storage such as a hard disk A device 1606, an input device 1607 used when a user inputs data, and a bus 1608 for connecting each unit are provided. The information search apparatus 100 can be applied to a general computer having the above-described configuration.

上述した実施の形態にかかる情報検索装置100で実行される情報出力プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。   The information output program executed by the information search apparatus 100 according to the above-described embodiment is a file in an installable format or an executable format, and is a CD-ROM, flexible disk (FD), CD-R, DVD (Digital Versatile). The program is recorded on a computer-readable recording medium such as a disk.

この場合には、情報出力プログラムは、情報検索装置100の各装置において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。   In this case, the information output program is loaded onto the main storage device by being read from the recording medium and executed by each device of the information search device 100, and each unit described in the software configuration is generated on the main storage device. It has come to be.

また、上述した実施の形態にかかる情報検索装置100で実行される情報出力プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、上述した実施の形態にかかる情報検索装置100で実行される情報出力プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。   The information output program executed by the information search apparatus 100 according to the above-described embodiment is configured to be provided by being stored on a computer connected to a network such as the Internet and downloaded via the network. Also good. In addition, the information output program executed by the information search apparatus 100 according to the above-described embodiment may be provided or distributed via a network such as the Internet.

また、本実施形態の情報出力プログラムを、ROM等に予め組み込んで提供するように構成してもよい。   Further, the information output program of this embodiment may be configured to be provided by being incorporated in advance in a ROM or the like.

第1の実施の形態にかかる情報検索装置の構成を示すブロック図である。It is a block diagram which shows the structure of the information search device concerning 1st Embodiment. 検索対象文記憶部が記憶する検索対象文管理テーブルのテーブル構造を示した図である。It is the figure which showed the table structure of the search object sentence management table which a search object sentence memory | storage part memorize | stores. 検索対象文管理テーブルに格納された文ID“1”の構文木のツリー構造を示した図である。It is the figure which showed the tree structure of the syntax tree of sentence ID "1" stored in the search object sentence management table. 置換ルール記憶部が保持する置換ルール管理テーブルのテーブル構造を示した図である。It is the figure which showed the table structure of the replacement rule management table which a replacement rule memory | storage part hold | maintains. 置換前に部分構文木に対応する対象パタンの構文木と、置換後の部分構文木に対応する置換パタンの構文木とを示した説明図である。It is explanatory drawing which showed the syntax tree of the object pattern corresponding to the partial syntax tree before substitution, and the syntax tree of the substitution pattern corresponding to the partial syntax tree after substitution. 置換順序管理テーブルのテーブル構造を示した図である。It is the figure which showed the table structure of the replacement order management table. 構文解析部による検索要求文「読みを送信する」の構文解析結果を示した図である。It is the figure which showed the syntax analysis result of the search request sentence “send reading” by the syntax analysis section. 情報検索装置が行う全体の処理手順を示すフローチャートである。It is a flowchart which shows the whole process sequence which an information search device performs. 文節特定部における検索対象文と検索要求文との間で一致する自立語を含む文節を特定する処理手順を示すフローチャートである。It is a flowchart which shows the process sequence which specifies the phrase containing the independent word which corresponds between the search object sentence and the search request sentence in a phrase specific | specification part. 検索要求文一致文節管理テーブルのテーブル構造を示した図である。It is the figure which showed the table structure of a search request sentence matching clause management table. 一致文節IDを追加した後の検索対象文管理テーブルを示した図である。It is the figure which showed the search object sentence management table after adding matching clause ID. 判断部及び置換部による検索対象文に含まれる部分構文木の置換処理手順を示すフローチャートである。It is a flowchart which shows the replacement processing procedure of the partial syntax tree contained in the search object sentence by a judgment part and a replacement part. 分類毎に置換された文ID“1”の検索対象文を、置換履歴格納部に格納したテーブル構造の例を示した図である。It is the figure which showed the example of the table structure which stored the search object sentence of sentence ID "1" substituted for every classification | category in the replacement history storage part. 分類毎に置換された文ID“2”の検索対象文を、置換履歴格納部に格納したテーブル構造の例を示した図である。It is the figure which showed the example of the table structure which stored the search object sentence of sentence ID "2" substituted for every classification | category in the replacement history storage part. 分類毎に置換された文ID“3”の検索対象文を、置換履歴格納部に格納したテーブル構造の例を示した図である。It is the figure which showed the example of the table structure which stored the search object sentence of sentence ID "3" substituted for every classification | category in the replacement history storage part. 分類毎に置換された文ID“4”の検索対象文を、置換履歴格納部に格納したテーブル構造の例を示した図である。It is the figure which showed the example of the table structure which stored the search object sentence of sentence ID "4" substituted for every classification | category in the replacement history storage part. 類似度判定部による置換された検索対象文と、検索要求文との間で類似度の判定処理手順を示すフローチャートである。It is a flowchart which shows the determination process procedure of the similarity between the search object sentence substituted by the similarity determination part, and a search request sentence. 表示処理部が表示する検索結果の例を示す図である。It is a figure which shows the example of the search result which a display process part displays. 情報検索装置のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of an information search device.

符号の説明Explanation of symbols

100 情報検索装置
101 検索対象文記憶部
102 置換ルール記憶部
103 置換順序記憶部
104 置換履歴格納部
105 入力部
106 構文解析部
107 判断部
108 置換部
109 類似度判定部
110 表示処理部
111 文節特定部
112 検索要求文一致文節記憶部
1601 CPU
1602 ROM
1603 RAM
1604 通信I/F
1605 表示部
1606 外部記憶装置
1607 入力デバイス
1608 バス
DESCRIPTION OF SYMBOLS 100 Information retrieval apparatus 101 Search object sentence memory | storage part 102 Replacement rule memory | storage part 103 Replacement order memory | storage part 104 Replacement history storage part 105 Input part 106 Syntax analysis part 107 Judgment part 108 Substitution part 109 Similarity determination part 110 Display processing part 111 Clause specification Part 112 Search request sentence matching phrase storage part 1601 CPU
1602 ROM
1603 RAM
1604 Communication I / F
1605 Display unit 1606 External storage device 1607 Input device 1608 Bus

Claims (8)

入力文の入力を受け付ける入力手段と、
前記入力文による検索の対象となる検索対象文と、当該検索対象文における、文節毎の自立語と、前記自立語を木構造のノードとした自立語間の係り受け構造を保持する構文木と、を対応付けて記憶する文記憶手段と、
前記入力文を構文解析して、当該入力文の自立語間の係り受け構造を保持する構文木を生成する構文木生成手段と、
複数の自立語間の係り受け構造を示す第1の部分構文木パタンと、前記第1の部分構文木パタンの言い換えとなる自立語間の係り受け構造を示す部分構文木パタンであって前記第1の部分構文木パタンより前記ノードの数が少ない第2の部分構文木パタンと、前記第1の部分構文木パタンを前記第2の部分構文木パタンに置換する置換条件と、を対応付けて記憶する構文木パタン記憶手段と、
前記文記憶手段に記憶されている前記検索対象文に含まれる部分構文木が、前記構文木パタン記憶手段が記憶する前記置換条件に一致するか否か判断する判断手段と、
前記置換条件に一致すると判断した場合に、当該置換条件に対応付けられた前記第1の部分構文木パタンと一致する前記検索対象文に含まれている前記部分構文木を、当該置換条件と対応付けられた前記第2の部分構文木パタンで置き換える置換手段と、
前記構文木生成手段により生成された前記入力文の前記構文木と、前記置換手段により置き換えられた前記検索対象文の構文木との類似度を判定する類似度判定手段と、
判定された前記類似度が所定の条件を満たす場合、前記置換手段により置換される前の前記検索対象文を、検索結果として出力する出力手段と、
を備えることを特徴とする情報検索装置。
An input means for receiving an input sentence;
A search target sentence to be searched by the input sentence, an independent word for each phrase in the search target sentence, and a syntax tree that holds a dependency structure between independent words with the independent word as a tree-structured node; , And a sentence storage means for storing them in association with each other,
A syntax tree generating means for parsing the input sentence and generating a syntax tree that retains a dependency structure between independent words of the input sentence;
A first partial syntax tree pattern indicating a dependency structure between a plurality of independent words, and a partial syntax tree pattern indicating a dependency structure between independent words as a paraphrase of the first partial syntax tree pattern , A second partial syntax tree pattern having a smaller number of nodes than one partial syntax tree pattern, and a replacement condition for replacing the first partial syntax tree pattern with the second partial syntax tree pattern, A syntax tree pattern storage means for storing;
Determining means for determining whether a partial syntax tree included in the search target sentence stored in the sentence storage means matches the replacement condition stored in the syntax tree pattern storage means;
When it is determined that the replacement condition is satisfied, the partial syntax tree included in the search target sentence that matches the first partial syntax tree pattern associated with the replacement condition is associated with the replacement condition. Replacement means for replacing with the second partial syntax tree pattern attached;
Similarity determination means for determining similarity between the syntax tree of the input sentence generated by the syntax tree generation means and the syntax tree of the search target sentence replaced by the replacement means;
When the determined similarity satisfies a predetermined condition, an output means for outputting the search target sentence before being replaced by the replacement means as a search result;
An information retrieval apparatus comprising:
前記構文木パタン記憶手段は、文の区切りとなる所定のまとまり毎に、前記第1の部分構文木パタンと、前記第2の部分構文木パタンと、前記置換条件と、を対応付けて記憶し、
前記判断手段は、前記所定のまとまり毎に、前記文記憶手段に記憶されている前記検索対象文に含まれる部分構文木が、前記構文木パタン記憶手段が記憶する前記置換条件に一致するか否か判断すること、
を特徴とする請求項1に記載の情報検索装置。
The syntax tree pattern storage means stores the first partial syntax tree pattern, the second partial syntax tree pattern, and the replacement condition in association with each other for each predetermined group serving as a sentence delimiter. ,
The determination means determines whether the partial syntax tree included in the search target sentence stored in the sentence storage means matches the replacement condition stored in the syntax tree pattern storage means for each predetermined group. To judge,
The information search device according to claim 1.
前記所定のまとまり毎に前記判断手段により判断を行う順序を記憶する順序記憶手段と、をさらに備え、
前記判断手段は、前記順序記憶手段に記憶された順序で前記所定のまとまり毎に、前記文記憶手段に記憶されている前記検索対象文に含まれる部分構文木が、前記構文木パタン記憶手段が記憶する前記置換条件に一致するか否か判断すること、
を特徴とする請求項2に記載の情報検索装置。
Order storage means for storing the order of determination by the determination means for each predetermined unit;
The determination means includes a partial syntax tree included in the search target sentence stored in the sentence storage means for each predetermined group in the order stored in the order storage means, and the syntax tree pattern storage means includes Determining whether the replacement condition to be stored is met or not;
The information search device according to claim 2.
前記構文木パタン記憶手段は、前記所定のまとまり毎に、前記置換条件について複雑な係り受け構造を満たした場合に一致すると判断される複雑条件から、単純な係り受け構造を満たした場合に一致すると判断される単純条件まで複数個記憶し、
前記判断手段は、さらに、前記置換条件について前記複雑条件から前記単純条件の順に一致するか否か判断すること、
を特徴とする請求項1乃至3のいずれか一つに記載の情報検索装置。
The syntax tree pattern storage means matches, when the simple dependency structure is satisfied, from the complex condition that is determined to match when the complex dependency structure is satisfied for the replacement condition for each predetermined group. Memorize multiple simple conditions to be judged,
The determination means further determines whether or not the replacement condition matches in order from the complex condition to the simple condition;
The information search device according to any one of claims 1 to 3.
前記出力手段は、さらに、前記置換手段により前記所定のまとまり毎に、前記置換手段により前記構文木を置き換えられた前記検索対象文を出力すること、
を特徴とする請求項1乃至4のいずれか一つに記載の情報検索装置。
The output means further outputs the search target sentence in which the syntax tree has been replaced by the replacement means for each predetermined group by the replacement means,
The information search device according to any one of claims 1 to 4, wherein:
前記構文木パタン記憶手段は、前記置換条件として、前記第1の部分構文木パタンと構造が一致する前記検索対象文の前記部分構文木に含まれるノードにおいて前記入力文が有する前記自立語を含むノードの位置の条件、及び前記部分構文木のノード間の接続関係の条件のうちいずれか一つ以上設定されていること、
を特徴とする請求項1乃至5のいずれか一つに記載の情報検索装置。
The syntax tree pattern storage means includes, as the replacement condition, the independent word that the input sentence has in the node included in the partial syntax tree of the search target sentence whose structure matches the first partial syntax tree pattern. One or more of the condition of the position of the node and the condition of the connection relation between the nodes of the partial syntax tree are set,
The information search device according to any one of claims 1 to 5, wherein
入力文の入力を受け付ける入力ステップと、
前記入力文による検索の対象となる検索対象文と、当該検索対象文における、文節毎の自立語と、前記自立語を木構造のノードとした自立語間の係り受け構造を保持する構文木と、を対応付けて記憶部に記憶する文記憶ステップと、
前記入力文を構文解析して、当該入力文の自立語間の係り受け構造を保持する構文木を生成する構文木生成ステップと、
前記記憶手段に記憶されている前記検索対象文に含まれる部分構文木が、前記第1の部分構文木パタンを前記第2の部分構文木パタンに置換する置換条件に一致するか否か判断する判断ステップと、
前記置換条件に一致すると判断した場合に、複数の自立語間の係り受け構造を示す部分構文木であって前記置換条件と対応付けられている第1の部分構文木パタンと一致する、前記検索対象文に含まれている前記部分構文木を、当該第1の部分構文木パタンと対応付けられていると共に前記第1の部分構文木パタンの言い換えとなる自立語間の係り受け構造を示す部分構文木パタンであって前記第1の部分構文木パタンより前記ノードの数が少ない第2の部分構文木パタンで置き換える置換ステップと、
前記構文木生成ステップにより生成された前記入力文の前記構文木と、前記置換ステップにより置き換えられた前記検索対象文の構文木との類似度を判定する類似度判定ステップと、
判定された前記類似度が所定の基準値以上の場合、前記置換ステップにより置換される前の前記検索対象文を、検索結果として出力する出力ステップと、
を有することを特徴とする情報検索方法。
An input step for accepting input sentences;
A search target sentence to be searched by the input sentence, an independent word for each phrase in the search target sentence, and a syntax tree that holds a dependency structure between independent words with the independent word as a tree-structured node; , And a sentence storage step for storing the same in the storage unit;
A syntax tree generation step of parsing the input sentence to generate a syntax tree that retains a dependency structure between independent words of the input sentence;
It is determined whether or not a partial syntax tree included in the search target sentence stored in the storage unit matches a replacement condition for replacing the first partial syntax tree pattern with the second partial syntax tree pattern. A decision step;
The search, which is a partial syntax tree indicating a dependency structure between a plurality of independent words and matches a first partial syntax tree pattern associated with the replacement condition when it is determined that the replacement condition is satisfied. A portion showing a dependency structure between independent words that is associated with the first partial syntax tree pattern and the partial syntax tree included in the target sentence is a paraphrase of the first partial syntax tree pattern Replacing with a second partial syntax tree pattern that is a syntax tree pattern and has a smaller number of nodes than the first partial syntax tree pattern ;
A similarity determination step for determining a similarity between the syntax tree of the input sentence generated by the syntax tree generation step and the syntax tree of the search target sentence replaced by the replacement step;
An output step of outputting, as a search result, the search target sentence before being replaced by the replacement step when the determined similarity is equal to or greater than a predetermined reference value;
A method for retrieving information, comprising:
入力文の入力を受け付ける入力ステップと、
前記入力文による検索の対象となる検索対象文と、当該検索対象文における、文節毎の自立語と、前記自立語を木構造のノードとした自立語間の係り受け構造を保持する構文木と、を対応付けて記憶部に記憶する文記憶ステップと、
前記入力文を構文解析して、当該入力文の自立語間の係り受け構造を保持する構文木を生成する構文木生成ステップと、
前記記憶手段に記憶されている前記検索対象文に含まれる部分構文木が、前記第1の部分構文木パタンを前記第2の部分構文木パタンに置換する置換条件に一致するか否か判断する判断ステップと、
前記置換条件に一致すると判断した場合に、複数の自立語間の係り受け構造を示す部分構文木であって前記置換条件と対応付けられている第1の部分構文木パタンと一致する、前記検索対象文に含まれている前記部分構文木を、当該第1の部分構文木パタンと対応付けられていると共に前記第1の部分構文木パタンの言い換えとなる自立語間の係り受け構造を示す部分構文木パタンであって前記第1の部分構文木パタンより前記ノードの数が少ない第2の部分構文木パタンで置き換える置換ステップと、
前記構文木生成ステップにより生成された前記入力文の前記構文木と、前記置換ステップにより置き換えられた前記検索対象文の構文木との類似度を判定する類似度判定ステップと、
判定された前記類似度が所定の条件を満たす場合、前記置換ステップにより置換される前の前記検索対象文を、検索結果として出力する出力ステップと、
をコンピュータに実行させる情報検索プログラム。
An input step for accepting input sentences;
A search target sentence to be searched by the input sentence, an independent word for each phrase in the search target sentence, and a syntax tree that holds a dependency structure between independent words with the independent word as a tree-structured node; , And a sentence storage step for storing the same in the storage unit;
A syntax tree generation step of parsing the input sentence to generate a syntax tree that retains a dependency structure between independent words of the input sentence;
It is determined whether or not a partial syntax tree included in the search target sentence stored in the storage unit matches a replacement condition for replacing the first partial syntax tree pattern with the second partial syntax tree pattern. A decision step;
The search, which is a partial syntax tree indicating a dependency structure between a plurality of independent words and matches a first partial syntax tree pattern associated with the replacement condition when it is determined that the replacement condition is satisfied. A portion showing a dependency structure between independent words that is associated with the first partial syntax tree pattern and the partial syntax tree included in the target sentence is a paraphrase of the first partial syntax tree pattern Replacing with a second partial syntax tree pattern that is a syntax tree pattern and has a smaller number of nodes than the first partial syntax tree pattern ;
A similarity determination step for determining a similarity between the syntax tree of the input sentence generated by the syntax tree generation step and the syntax tree of the search target sentence replaced by the replacement step;
When the determined similarity satisfies a predetermined condition, an output step of outputting the search target sentence before being replaced by the replacement step as a search result;
Information retrieval program that causes a computer to execute
JP2007087389A 2007-03-29 2007-03-29 Information search apparatus, information search method, and information search program Expired - Fee Related JP5160120B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007087389A JP5160120B2 (en) 2007-03-29 2007-03-29 Information search apparatus, information search method, and information search program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007087389A JP5160120B2 (en) 2007-03-29 2007-03-29 Information search apparatus, information search method, and information search program

Publications (2)

Publication Number Publication Date
JP2008250388A JP2008250388A (en) 2008-10-16
JP5160120B2 true JP5160120B2 (en) 2013-03-13

Family

ID=39975307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007087389A Expired - Fee Related JP5160120B2 (en) 2007-03-29 2007-03-29 Information search apparatus, information search method, and information search program

Country Status (1)

Country Link
JP (1) JP5160120B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4745417B2 (en) * 2009-04-21 2011-08-10 株式会社東芝 Information retrieval apparatus and program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3985483B2 (en) * 2001-09-27 2007-10-03 セイコーエプソン株式会社 SEARCH DEVICE, SEARCH SYSTEM, SEARCH METHOD, PROGRAM, AND RECORDING MEDIUM USING LANGUAGE SENTENCE
JP4005343B2 (en) * 2001-12-04 2007-11-07 東京ソフト株式会社 Information retrieval system
JP4815934B2 (en) * 2005-08-02 2011-11-16 日本電気株式会社 Text mining device, text mining method, text mining program

Also Published As

Publication number Publication date
JP2008250388A (en) 2008-10-16

Similar Documents

Publication Publication Date Title
US10169337B2 (en) Converting data into natural language form
JP4645242B2 (en) Question answering system, data retrieval method, and computer program
US8484238B2 (en) Automatically generating regular expressions for relaxed matching of text patterns
JP5169816B2 (en) Question answering device, question answering method, and question answering program
US20100287162A1 (en) method and system for text summarization and summary based query answering
JP6828335B2 (en) Search program, search device and search method
US8229970B2 (en) Efficient storage and retrieval of posting lists
US9218336B2 (en) Efficient implementation of morphology for agglutinative languages
JP5160120B2 (en) Information search apparatus, information search method, and information search program
JP4469817B2 (en) Document search system and program
JP4745417B2 (en) Information retrieval apparatus and program
WO2009113289A1 (en) New case generation device, new case generation method, and new case generation program
JP4646328B2 (en) Related information extraction apparatus and method
JP5085584B2 (en) Article feature word extraction device, article feature word extraction method, and program
JP4478042B2 (en) Word set generation method with frequency information, program and program storage medium, word set generation device with frequency information, text index word creation device, full-text search device, and text classification device
JP2007164462A (en) Question answering system, question answering method and question answering program
JP5038881B2 (en) Information retrieval device
JP2005157823A (en) Knowledge base system, inter-word meaning relation determination method in the same system and computer program
JP2005234800A (en) Example machine translation device and example translation computer program, example retrieval device and example retrieval computer program
JP2001101186A (en) Machine translating device
JP3358100B2 (en) Japanese question message analysis method and device
KR101450795B1 (en) Apparatus and method for anaphora resolution
JP4060832B2 (en) Natural language analysis apparatus and method, natural language analysis program
JP2010079705A (en) Syntax analysis device and program
JP2012048418A (en) Translation information retrieval device and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100323

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20100323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121212

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5160120

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees