JPH06215035A - Text retrieving device - Google Patents

Text retrieving device

Info

Publication number
JPH06215035A
JPH06215035A JP5006209A JP620993A JPH06215035A JP H06215035 A JPH06215035 A JP H06215035A JP 5006209 A JP5006209 A JP 5006209A JP 620993 A JP620993 A JP 620993A JP H06215035 A JPH06215035 A JP H06215035A
Authority
JP
Japan
Prior art keywords
text
keyword
keywords
extracted
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5006209A
Other languages
Japanese (ja)
Other versions
JP3363501B2 (en
Inventor
Yoshiyo Nakamura
佳代 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP00620993A priority Critical patent/JP3363501B2/en
Publication of JPH06215035A publication Critical patent/JPH06215035A/en
Application granted granted Critical
Publication of JP3363501B2 publication Critical patent/JP3363501B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE:To provide a text retrieving device for successively outputting texts from a text exactly expressing a retrieval request by applying priority by performing the syntax analysis of the extracted text in the case of text retrieval due to a keyword. CONSTITUTION:This device is provided with a keyword memory 3 for storing the inputted keyword, document memory 4 for storing the retrieved text, text extraction part 5 for retrieving the text based on the keyword, output part 6 for outputting the retrieved result, and syntax analysis decision part 8 for applying the priority to the retrieved text by performing the syntax analysis to the text retrieved by the text extraction part and deciding whether all the kinds of keywords exist in a single sentence or not, whether they are existent in a single clause or not and further whether the keyword has the same modification relation as a question sentence or not.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、テキスト(ここでテキ
ストとは、1つの文章、或るいは関連した複数文章によ
り構成された文書のことを言う。)の検索に際し、入力
する質問文のキーワードを抽出し、そのキーワードを含
むテキストを検索し、出力するテキスト検索装置に関す
るものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a question text to be input when searching a text (here, the text means a text composed of one sentence or a plurality of related plural sentences). The present invention relates to a text search device that extracts a keyword, searches for text containing the keyword, and outputs the text.

【0002】[0002]

【従来の技術】近年、コンピュータ技術の進歩や、文書
記憶装置の容量の増加により、多量のデータや文章を備
えるデータベースが普及しており、そのデータベースを
扱う機会も多く発生している。
2. Description of the Related Art In recent years, due to advances in computer technology and an increase in the capacity of document storage devices, databases having a large amount of data and sentences have become widespread, and there are many opportunities to handle such databases.

【0003】これらのデータベースには、あらかじめハ
ードディスクなどの記憶装置に多量のデータが蓄積され
ており、そのデータに対して、キーワードを基にして検
索することが一般的である。
A large amount of data is stored in advance in a storage device such as a hard disk in these databases, and it is common to search the data based on keywords.

【0004】このようなテキスト検索装置におけるキー
ワードを基にした検索としては、例えば、特開平2−2
458号公報に開示されるように、与えられたテキスト
の形態素解析を行って、キーワードを抽出し、抽出され
たキーワードを基にして、記憶装置に格納されたテキス
トの検索を行い、キーワードが一致するテキストを出力
する方法が用いられている。
As a search based on a keyword in such a text search device, for example, Japanese Patent Laid-Open No. 2-2
As disclosed in Japanese Patent Laid-Open No. 458, the morpheme analysis of a given text is performed to extract a keyword, and the text stored in a storage device is searched based on the extracted keyword, and the keywords match each other. The method of outputting the text to be used is used.

【0005】従来のテキスト検索装置を用いた検索方法
の一例を図5及び図6に基づいて説明する。
An example of a search method using a conventional text search device will be described with reference to FIGS. 5 and 6.

【0006】図5は、従来のテキスト検索装置の概略構
成図を示すものである。
FIG. 5 is a schematic block diagram of a conventional text search device.

【0007】同図において、1はキーワードを含む質問
文が入力される質問入力部、2は質問入力部1において
入力された質問文に対して形態素解析を施し、キーワー
ドの抽出を行うキーワード抽出部、3はキーワード抽出
部2において抽出されたキーワードを蓄えるキーワード
メモリ、4は検索対象となるテキストが既に蓄えられて
いる文書メモリ、5はキ−ワ−ドメモリ3に蓄えられて
いるキーワードを基にして、文書メモリ4から関連があ
るテキストを抽出するテキスト抽出部、6はテキスト抽
出部5で抽出されたテキストの出力を行う出力部、7は
テキスト検索装置全体の制御を司る制御部である。
In the figure, 1 is a question input unit for inputting a question sentence including a keyword, and 2 is a keyword extraction unit for performing morphological analysis on the question sentence input in the question input unit 1 to extract keywords. Reference numeral 3 is a keyword memory for storing the keywords extracted by the keyword extracting unit 2, 4 is a document memory in which texts to be searched are already stored, and 5 is based on the keywords stored in the keyword memory 3. A text extraction unit for extracting relevant text from the document memory 4, an output unit 6 for outputting the text extracted by the text extraction unit 5, and a control unit 7 for controlling the entire text search apparatus.

【0008】図6は、図5に示した従来のテキスト検索
装置における出力部6からの検索結果であり、その出力
内容を示している。
FIG. 6 shows the retrieval result from the output unit 6 in the conventional text retrieval apparatus shown in FIG. 5, and shows the output contents.

【0009】以下に、図5に示すテキスト検索装置の動
作について、一例として、質問文”土星のリングについ
て知りたい。”が入力された場合を説明する。
As an example of the operation of the text search apparatus shown in FIG. 5, the case where the question sentence "I want to know about Saturn's ring." Is input will be described.

【0010】まず、質問入力部1に”土星のリングにつ
いて知りたい。”という質問文が入力されると、キーワ
ード抽出部2は、キーワードを抽出するために、形態素
解析を行う。質問入力部1に入力された質問文は”土星
/の/リング/について/知り/たい/。”(ここで/
は形態素解析による区切りを表す。)のように形態素に
分解される。ここでは、キーワードとして名詞を用いる
こととしているので、”土星”及び”リング”が名詞と
して抽出される。従って、キーワード抽出部2におい
て、”土星”及び”リング”がキーワードとして抽出さ
れ、キーワードメモリ3に蓄えられる。この質問文にお
ける検索要求の内容は”土星のリング”に関することで
あり、キーワードである”土星”と”リング”が係受け
の関係になっているものが最も要求されるテキストであ
る。
First, when the question sentence "I want to know about Saturn's ring." Is input to the question input unit 1, the keyword extraction unit 2 performs morphological analysis in order to extract the keyword. The question text entered in the question input section 1 is “Saturn / no / ring / about / know / want /.” (Here /
Represents a delimiter by morphological analysis. ) Is decomposed into morphemes. Here, since the noun is used as the keyword, "Saturn" and "ring" are extracted as the noun. Therefore, the keyword extraction unit 2 extracts "Saturn" and "Ring" as keywords and stores them in the keyword memory 3. The content of the search request in this question sentence is about "Saturn's ring", and the one in which the keywords "Saturn" and "Ring" are in a dependent relationship is the most requested text.

【0011】キーワードメモリ3にキーワードが蓄積さ
れると、テキスト抽出部5は、文書メモリ4に蓄えられ
ているテキストから、キーワードを含むテキストを順次
抽出していく。
When the keywords are stored in the keyword memory 3, the text extracting section 5 sequentially extracts the texts containing the keywords from the texts stored in the document memory 4.

【0012】表1は文書メモリ4に格納されている様々
なテキストの一部を示したものである。
Table 1 shows some of the various texts stored in the document memory 4.

【0013】[0013]

【表1】 [Table 1]

【0014】テキスト抽出部5は、文書メモリ4の内容
から順次テキストの検索を行う。以下にその手順を示
す。
The text extraction unit 5 sequentially searches the contents of the document memory 4 for text. The procedure is shown below.

【0015】テキスト抽出部5は、文書メモリ4のテキ
ストからキーワード”土星”が含まれるか否かの判定を
全てのテキストについて行う。まず、”土星に関して言
えば、その中のリングは土星の象徴と言える。”(以
下、テキスト1という。)というテキストが抽出され
る。検索を続けていくと、”土星のリングは、太陽系の
中で最も美しいものの一つだ。”(以下、テキスト3と
いう。)というテキストが検索される。さらに検索を続
けていくと、”土星は、衛星に取り巻かれている。そし
てリングは、衛星からエネルギーを奪われている。”
(以下、テキスト4という。)というテキストが抽出さ
れる。さらに続けると、”土星においてリングはどのよ
うな働きをしているのだろうか?”(以下、テキスト6
という。)というテキストが抽出される。さらに、続け
ると”土星は太陽系の惑星の一つである。”(以下、テ
キスト7という。)というテキストが抽出される。
The text extraction unit 5 determines whether or not the keyword "Saturn" is included in the text of the document memory 4 for all texts. First, the text "As for Saturn, the ring in it is said to be a symbol of Saturn." (Hereinafter referred to as Text 1) is extracted. As you continue to search, the text "Saturn's ring is one of the most beautiful in the solar system." (Hereinafter referred to as text 3) is searched. Continuing the search, "Saturn is surrounded by satellites, and the ring is deprived of its energy."
The text (hereinafter referred to as text 4) is extracted. Continuing on, "What does the ring do in Saturn?" (Text 6 below.
Say. ) Text is extracted. Furthermore, if you continue, the text "Saturn is one of the planets of the solar system." (Hereinafter referred to as text 7) is extracted.

【0016】以上のように、テキスト1、テキスト3、
テキスト4、テキスト6、及びテキスト7が抽出され
る。テキスト2及びテキスト5については、キーワード
である”土星”が含まれていないため抽出されない。
As described above, the text 1, the text 3,
Text 4, text 6, and text 7 are extracted. Text 2 and text 5 are not extracted because the keyword "Saturn" is not included.

【0017】続いて、テキスト抽出部5は、抽出された
テキスト1、テキスト3、テキスト4、テキスト6、及
びテキスト7について次のキーワード”リング”が含ま
れているか否かの判定を行う。テキスト1、テキスト
3、テキスト4、及びテキスト6には、キーワード”リ
ング”が含まれるが、テキスト7には、キーワード”リ
ング”が含まれない。このため、テキスト抽出部5から
は、テキスト1、テキスト3、テキスト4、及びテキス
ト6が抽出され、出力部6に伝えられ、図6に示すよう
に出力部6においてテキスト1、テキスト3、テキスト
4、及びテキスト6の順番に出力される。
Subsequently, the text extraction unit 5 determines whether or not the extracted keyword 1, text 3, text 4, text 6, and text 7 include the next keyword "ring". Text 1, Text 3, Text 4, and Text 6 include the keyword “ring”, but Text 7 does not include the keyword “ring”. Therefore, the text 1, the text 3, the text 4, and the text 6 are extracted from the text extraction unit 5 and transmitted to the output unit 6, and the text 1, the text 3, the text are output at the output unit 6 as shown in FIG. 4 and the text 6 are output in this order.

【0018】このように、従来、キーワードによる検索
の結果、全種類のキーワードを含むテキストが、文書メ
モリ4に蓄えられている順番に出力部6から出力されて
いた。
As described above, conventionally, as a result of the keyword search, the texts including all kinds of keywords are output from the output unit 6 in the order of being stored in the document memory 4.

【0019】[0019]

【発明が解決しようとする課題】上記のような構成で
は、キーワードを含むテキストを抽出することは可能で
あるが、文書メモリ4に蓄えられている順番に出力を行
っていくため、質問文の意図する検索要求の内容を的確
に表すテキストから出力されるとは限らなかった。
With the above-mentioned configuration, although it is possible to extract the text including the keyword, the texts are output in the order stored in the document memory 4, so that the question text It was not always output from the text that accurately represents the content of the intended search request.

【0020】本発明は上記問題点に鑑みなされたもので
あり、抽出されたテキストの構文解析結果を基にして、
テキストの出力の順番に優先順位を与え、検索要求の内
容を的確に表すテキストから順番に出力するテキスト検
索装置を提供するものである。
The present invention has been made in view of the above problems, and based on the result of parsing the extracted text,
(EN) A text search device that gives priority to the output order of texts and outputs in order from texts that accurately represent the contents of a search request.

【0021】[0021]

【課題を解決するための手段】上記問題点を解決するた
めに、本発明のテキスト検索装置は、キーワードを含む
質問文が入力される質問入力部、質問入力部において入
力された質問文から形態素解析によりキーワードの抽出
を行うキーワード抽出部、キーワード抽出部において抽
出されたキーワードを蓄えるキーワードメモリ、検索さ
れるテキストなど多量のデータが蓄えられている文書メ
モリ、キ−ワ−ドメモリに蓄えられているキーワードを
基にして、文書メモリから該当するテキストを抽出する
テキスト抽出部、テキスト抽出部で抽出されてテキスト
の出力を行う出力部、全体の制御を司る制御部を備え、
さらに抽出されたテキストの構文解析を行うと共に、上
記キーワード抽出部で抽出されたキーワードの構文情報
に基づいて、上記出力部から上記テキストを出力せしめ
る優先順位を決定する構文解析判定部を備えたものであ
る。
In order to solve the above problems, a text search device of the present invention is a morpheme from a question input section in which a question text including a keyword is input, and a question text input in the question input section. A keyword extraction unit that extracts keywords by analysis, a keyword memory that stores the keywords extracted by the keyword extraction unit, a document memory that stores a large amount of data such as text to be searched, and a keyword memory. A text extraction unit that extracts the corresponding text from the document memory based on the keyword, an output unit that outputs the text extracted by the text extraction unit, and a control unit that controls the entire
In addition to performing a syntactic analysis of the extracted text, a syntactic analysis determination unit that determines the priority order for outputting the text from the output unit based on the syntactic information of the keyword extracted by the keyword extraction unit Is.

【0022】[0022]

【作用】本発明は、上述した構成により、質問文のキー
ワードを用いて、抽出されたテキストに対して構文解析
を施し、抽出されたテキストに優先順位を与えることに
より、検索要求を的確に表すテキストを自動的に優先し
て出力するテキスト検索装置を提供することが可能であ
る。
According to the present invention, with the above-described configuration, the extracted text is parsed using the keyword of the question sentence, and the extracted text is given a priority order to accurately represent the search request. It is possible to provide a text search device that automatically prioritizes and outputs text.

【0023】[0023]

【実施例】以下に、本発明の一実施例であるテキスト検
索装置を図1乃至図4に基づいて説明し、従来と同一の
構成については同一番号を付し、その説明は省略する。
BEST MODE FOR CARRYING OUT THE INVENTION A text search device according to an embodiment of the present invention will be described below with reference to FIGS.

【0024】図1は、本発明のテキスト検索装置の概略
構成図、図2及び図3は、本発明の特徴である構文解析
判定部8の処理の流れを示すフローチャート、図4は、
本発明を実施した場合の出力結果である。
FIG. 1 is a schematic configuration diagram of a text search device according to the present invention, FIGS. 2 and 3 are flowcharts showing a flow of processing of a parsing judgment unit 8 which is a feature of the present invention, and FIG.
It is an output result when this invention is implemented.

【0025】本発明が従来例と異なる点は、テキスト抽
出部5と出力部6の間に構文解析判定部8を設けたこと
であり、この構文解析判定部8は、質問入力部1に入力
された質問文及びテキスト抽出部5で抽出されたテキス
トについて構文解析を行うとともに、これらの構文解析
結果を基にして、テキスト抽出部5で抽出されたテキス
トの並び替えを行い、出力部6から出力するテキストの
優先順位を決定する機能を有する。この構文解析判定部
8における処理概要を図2及び図3に示すフローチャー
トを基にして説明する。
The present invention is different from the conventional example in that a syntactic analysis determination unit 8 is provided between the text extraction unit 5 and the output unit 6, and this syntactic analysis determination unit 8 is input to the question input unit 1. The parsing is performed on the extracted question sentence and the text extracted by the text extraction unit 5, and the texts extracted by the text extraction unit 5 are rearranged based on the results of the parsing. It has the function of determining the priority of the output text. An outline of processing in the syntax analysis determination unit 8 will be described based on the flowcharts shown in FIGS.

【0026】S1においては、質問入力部1に入力され
た質問文の構文解析を行い、キーワード抽出部2で抽出
されたキーワードの構文情報、即ちキーワードがどの
文、どの文節に含まれるか、或るいはキーワード間の係
受けの関係などを調べる。S2においては、テキスト抽
出部5で抽出されたテキストの1つを構文解析判定部8
に読み込ませる。S3においては、S2において読み込
まれたテキストから形態素解析を行い、キーワードを抽
出するとともに、読み込まれたテキストにおけるキーワ
ードの構文情報(キーワードがどの文、どの文節に含ま
れるか、或るいはキーワード間の係受けの関係など)を
調べる。
In S1, the question sentence input to the question input unit 1 is syntactically analyzed, and the syntactic information of the keyword extracted by the keyword extracting unit 2, that is, which sentence and which clause the keyword is included in, Investigate the relationship of the relationships between keywords. In S2, one of the texts extracted by the text extraction unit 5 is added to the syntax analysis determination unit 8
To read. In S3, morpheme analysis is performed from the text read in S2 to extract keywords, and at the same time, the syntax information of the keywords in the read text (which sentence, which clause is included in the keyword, or between the keywords). Check the relationship).

【0027】S4、S6、及びS8においては、S3で
抽出されたキーワードの構文情報を基にして出力部6に
おける優先順位を決定するものであり、まず、S4で
は、テキスト抽出部5で抽出されたテキストにおいて、
全種類のキーワードが1つの文中に存在するかどうかを
判定し、全種類のキーワードが1つの文中に存在する場
合には、S6の処理へ進み、全種類のキーワードが1つ
の文中に存在しない場合には、S5へ進む。S5におい
ては、全種類のキーワードが1つの文中に存在しない場
合の優先順位を決定し、全種類のキーワードが1つの文
中に存在しない場合、キーワード間の関係は、ほとんど
無いと判定し、優先順位(以下、IDという。)は4番
目(ID=4)と決定する(以下、ID=nと書くと、
優先順位はn番目であることを示す。)。
In S4, S6, and S8, the priority order in the output unit 6 is determined based on the syntax information of the keyword extracted in S3. First, in S4, the priority is extracted by the text extraction unit 5. In the text
It is determined whether or not all types of keywords are present in one sentence. If all types of keywords are present in one sentence, the process proceeds to S6, and if all types of keywords are not present in one sentence. To proceed to S5. In S5, the priority order when all kinds of keywords are not present in one sentence is determined, and when all kinds of keywords are not present in one sentence, it is determined that there is almost no relationship between keywords, and the priority order is determined. (Hereinafter, referred to as ID) is determined to be the fourth (ID = 4) (hereinafter, if ID = n is written,
It indicates that the priority is n. ).

【0028】次に、S6においては、テキスト抽出部5
で抽出されたテキストにおいて、全種類のキーワードが
1つの文節中に存在するかどうかを判定し、全種類のキ
ーワードが1つの文節中に存在する場合は、S8へ進
み、全種類のキーワードが1つの文節中に存在しない場
合には、S7に進む。S7においては、全種類のキーワ
ードが1つの文節中に存在しない場合の優先順位を決定
し、全種類のキーワードが1つの文節中に存在しない場
合、キーワード間の関係は、あまり無いと判定し、ID
=3と決定する。
Next, in S6, the text extraction unit 5
It is determined whether or not all types of keywords are present in one phrase in the text extracted in step S7. If all types of keywords are present in one phrase, the process proceeds to S8, and all types of keywords are 1 If not included in one clause, the process proceeds to S7. In S7, the priority order when all types of keywords are not present in one phrase is determined, and when all types of keywords are not present in one phrase, it is determined that there is not much relation between keywords, ID
= 3 is determined.

【0029】S8においては、テキスト抽出部5で抽出
されたテキストにおけるキーワード間の関係と、質問入
力部1に入力された質問文におけるキーワード間の関係
とが同じであるかどうかの判定を行い、同じ関係の場合
には、S10に進み、それらの関係が異なる場合には、
S9に進む。
In S8, it is determined whether the relationship between the keywords in the text extracted by the text extraction unit 5 and the relationship between the keywords in the question sentence input to the question input unit 1 are the same, If the relationships are the same, the process proceeds to S10. If the relationships are different,
Proceed to S9.

【0030】S9においては、テキスト抽出部5で抽出
されたテキストにおけるキーワード間の関係と、質問入
力部1に入力された質問文におけるキーワード間の関係
とが異なる場合の優先順位を決定し、この場合は、検索
要求の内容に近いが、一致はしていないと判断し、ID
=2と決定する。
In S9, the priority order is determined when the relationship between the keywords in the text extracted by the text extraction unit 5 and the relationship between the keywords in the question sentence input to the question input unit 1 are different. If it is close to the content of the search request, it is determined that there is no match, and the ID
= 2 is determined.

【0031】S10においては、テキスト抽出部5で抽
出されたテキストにおけるキーワード間の関係と、質問
入力部1に入力された質問文におけるキーワード間の関
係とが同じ場合の優先順位を決定し、この場合は、検索
要求の内容に一致していると判断し、ID=1と決定す
る。
In S10, the priority order is determined when the relationship between the keywords in the text extracted by the text extracting unit 5 and the relationship between the keywords in the question sentence input to the question input unit 1 are the same. In this case, it is determined that the contents match the content of the search request, and ID = 1 is determined.

【0032】S11においては、テキスト抽出部5で抽
出された全てのテキストについて、上記S2乃至S10
の処理が終了したかどうかを判定するものであり、抽出
された全てのテキストについて終了した場合には、S1
2へ進む。S12においては、S2乃至S10において
決定されたIDを基にして、優先順位の高い(IDが小
さい。)ものから順番に、テキストを並べ替えるもので
ある。
In S11, all the texts extracted by the text extraction unit 5 are processed in the above S2 to S10.
It is determined whether or not the processing of step S1 has been completed, and if all the extracted texts have been completed, S1
Go to 2. In S12, the texts are rearranged in descending order of priority (smaller ID) based on the IDs determined in S2 to S10.

【0033】S13においては、並べ替えられたテキス
トに、同一優先順位のものがあるかどうかの判定を行
い、同一優先順位のものがある場合には、S14に進
み、同一優先順位のものがない場合には、S17へ進
む。
In S13, it is determined whether or not the rearranged texts have the same priority order. If there is the same priority order, the process proceeds to S14 and there is no one having the same priority order. In that case, the process proceeds to S17.

【0034】S14乃至S16では、同一優先順位のも
のがある場合に更に別な方法で、優先順位を決定する。
S14では、S3において抽出されたキーワードの中
で、上記S4乃至S10における優先順位の決定に用い
られなかったキーワードが存在するかどうかの判定を行
い、そのキーワードが存在する場合には、このキーワー
ドにより、S3で読み込まれたテキストに対してS4乃
至S10を再度行い、優先順位を決定する。
In steps S14 to S16, if there are those having the same priority, the priority is determined by another method.
In S14, it is determined whether or not there is a keyword not used in the determination of the priority order in S4 to S10 among the keywords extracted in S3, and if the keyword exists, this keyword is used. , S3 are again performed on the text read in S3 to determine the priority order.

【0035】S15及びS16では、上記S2乃至S1
4の処理を経ても優先順位が同じ場合には、キーワード
間の距離(あるキーワードと他のキーワードの間に存在
する文字数など)により、 優先順位を決定する。
In S15 and S16, the above S2 to S1
If the priorities are the same even after the process of 4, the priorities are determined according to the distance between the keywords (the number of characters existing between a certain keyword and another keyword).

【0036】S17では、上記S2乃至S16の処理に
おいて決定された優先順位に基づいて、優先順位の高い
テキストから順番に、出力部6へ伝送する。
In S17, based on the priorities determined in the processes of S2 to S16, the texts with higher priorities are transmitted to the output unit 6 in order.

【0037】以下に、一例として”土星のリングについ
て知りたい。”という質問文に関する検索について、表
1、図2、及び図3を参照しながら、説明する。
As an example, the search for the question sentence "I want to know about Saturn's ring." Will be described with reference to Tables 1, 2 and 3.

【0038】質問入力部1に入力された質問文から、テ
キスト抽出部5のテキスト抽出までの流れは、従来例の
テキスト抽出の流れと同じであるので、ここでは説明は
省略し、以下では、テキスト抽出部5で抽出されたテキ
ストを、構文解析判定部8において優先順位を付ける方
法について図2及び図3を用いて説明する。
Since the flow from the question sentence input to the question input unit 1 to the text extraction of the text extraction unit 5 is the same as the flow of the text extraction of the conventional example, the description thereof will be omitted here. A method of prioritizing the texts extracted by the text extraction unit 5 in the syntax analysis determination unit 8 will be described with reference to FIGS. 2 and 3.

【0039】まず、図2のS1において、質問入力部1
から入力された”土星のリングについて知りたい。”と
いう質問文の形態素解析が行われ、”土星”、”リン
グ”がキーワードとして抽出され、さらに構文解析が行
われる。キーワードの”土星”、”リング”は同一文、
同一文節中であり、キーワードが係受けの関係であるこ
とが判定される。この結果が、入力された質問文の構文
解析結果として、構文解析判定部8に記憶される。
First, in S1 of FIG. 2, the question input unit 1
The question sentence "I want to know about Saturn's ring." Entered from is morphologically analyzed, "Saturn" and "ring" are extracted as keywords, and further syntactic analysis is performed. The keywords "Saturn" and "Ring" are the same sentence,
It is determined that the keywords are in the same phrase and have a dependency relationship. This result is stored in the syntactic analysis determination unit 8 as the syntactic analysis result of the input question sentence.

【0040】次に、S2においてテキスト抽出部5で抽
出されたテキストが、順番に構文解析判定部8に読み込
まれ、S3において形態素解析が施される。
Next, the texts extracted by the text extraction unit 5 in S2 are sequentially read by the syntactic analysis determination unit 8 and subjected to morphological analysis in S3.

【0041】S3においては、まず、テキスト1の形態
素解析を行い、”土星/に/関して/言え/ば/、/そ
の/中の/リング/は/土星/の/象徴/と/言える
/。”というように解析される。次に、この形態素解析
の結果を基にして、構文解析によりIDが決定される。
テキスト1についてキーワードである”土星”と”リン
グ”が同一文中にあるかどうかが判定される。テキスト
1は、同一文中にキーワードが存在するために、処理が
S6へ進められる。S6においては、同一文節中に、キ
ーワードが存在するかどうかの判定が施される。テキス
ト1のキーワードである”土星”と”リング”は同一文
節に存在しないので、処理がS7へ進められて、ID=
3と決定された後、S11へ進む。S11においては、
テキスト抽出部5において抽出された全てのテキストに
ついて、構文解析によりIDが決定されたかどうかが調
べられる。テキスト抽出部5において抽出された全ての
テキストについて終了した場合には、S12へ進み、終
了していない場合には、S2に戻って繰り返される。
In S3, first, the morphological analysis of the text 1 is performed, and "Saturn / to / related / to say / ba /, / the / in / ring / wa / saturn / of / symbol / to / speak / . "Is analyzed. Next, the ID is determined by syntactic analysis based on the result of this morphological analysis.
For text 1, it is determined whether the keywords "Saturn" and "ring" are in the same sentence. Since the keyword of text 1 exists in the same sentence, the process proceeds to S6. In S6, it is determined whether a keyword exists in the same phrase. Since the keywords "Saturn" and "Ring" of the text 1 do not exist in the same clause, the process proceeds to S7, where ID =
After it is determined to be 3, the process proceeds to S11. In S11,
For all the texts extracted by the text extraction unit 5, it is checked whether the ID has been determined by the syntactic analysis. If all the texts extracted by the text extraction unit 5 are completed, the process proceeds to S12, and if not completed, the process returns to S2 and is repeated.

【0042】以下に、テキスト3、テキスト4、及びテ
キスト6の構文解析の例について説明する。
An example of parsing text 3, text 4, and text 6 will be described below.

【0043】続いて、S3においてテキスト3の形態素
解析を行う。テキスト3は”土星/の/リング/は/、
/太陽系/の中で/最も/美しい/もの/の/一つ/だ
/。”と解析される。この解析されたテキスト3もテキ
スト1と同様にS4、S6、S8及びS10が施され
る。テキスト3の構文解析結果と、質問文の構文解析結
果とは同じであるので、ID=1と決定される。
Subsequently, the morphological analysis of the text 3 is performed in S3. Text 3 is "Saturn / no / ring / ha /,
/ Solar system / Of / most / beautiful / thing / of / one / The analyzed text 3 is also subjected to S4, S6, S8 and S10 similarly to the text 1. Since the syntactic analysis result of the text 3 and the syntactic analysis result of the question sentence are the same. , ID = 1 is determined.

【0044】さらに続いて、テキスト抽出部5で抽出さ
れた3番目のテキストについて同様に繰り返す。テキス
ト4は”土星/は/、/衛星/に/取り巻か/れ/てい
る/。/そして/リング/は/、/衛星/から/エネル
ギー/を/奪わ/れ/ている/。”というように形態素
解析され、S4及びS5の処理を経て、IDが決定さ
れ、テキスト4は、ID=4となる。さらに、テキスト
6についても、”土星/において/リング/は/どのよ
うな/働き/を/し/ている/の/だろうか/?”とい
うように形態素解析され、S4、S6、S8及びS9の
処理を経て、ID=2と決定される。以上により、テキ
スト抽出部5で抽出されたテキスト全てについて構文解
析によりIDが決定される。
Further, subsequently, the third text extracted by the text extracting unit 5 is similarly repeated. Text 4 says "Saturn / ha /, / satellite / in / surrounding / retaining /./ and // ring / ha /, / satellite / from / energy / deprived / retained / retained /." Is morphologically analyzed, and the ID is determined through the processes of S4 and S5, and the text 4 has ID = 4. Further, the text 6 is also subjected to morphological analysis such as “Saturn / in / ring / wa / what / working / doing / of / wondering /?”, And S4, S6, S8 and S9. ID = 2 is determined through the process of. As described above, the IDs are determined by parsing all the texts extracted by the text extraction unit 5.

【0045】最終的に構文解析によりIDが決定される
と、図3のS12において、構文解析による優先順位の
高いものから出力の順番が決定される。S12におい
て、同一優先順位のものが存在する場合には、S13に
進み、存在しない場合には、S17により、出力部6に
対して、出力する順番を指定する。本実施例において
は、テキスト1はID=3、テキスト3はID=1、テ
キスト4はID=4、テキスト6はID=2であるの
で、S17においては、テキスト3、テキスト6、テキ
スト1、テキスト4の順番で出力部6から出力される。
その結果を図4に示す。
When the ID is finally determined by the syntax analysis, the output order is determined in step S12 of FIG. 3 from the highest priority order by the syntax analysis. In S12, if there are those having the same priority, the process proceeds to S13, and if they do not exist, the output order is designated to the output unit 6 in S17. In this embodiment, the text 1 has ID = 3, the text 3 has ID = 1, the text 4 has ID = 4, and the text 6 has ID = 2. Therefore, in S17, the text 3, the text 6, the text 1, and the text 1, The text 4 is output in order from the output unit 6.
The result is shown in FIG.

【0046】本実施例においては、同一優先順位のもの
がない場合について説明したが、同一優先順位のものが
複数ある場合には、図3のS14に示すように、優先順
位決定の対象となったキーワード以外に存在するキーワ
ードにより、判定を行うことも可能である。また、S1
4を行っても全く同一の場合には、S15、S16に示
すように、抽出されたテキストにおけるキーワード間の
距離(キーワード間の文字数など)より優先順位を決定
することも可能である。
In the present embodiment, the case where there is no item having the same priority has been described. However, when there are a plurality of items having the same priority, as shown in S14 of FIG. It is also possible to make a determination by using a keyword other than the above keywords. Also, S1
If the same is true after step 4, it is possible to determine the priority order based on the distance between keywords in the extracted text (such as the number of characters between keywords) as shown in S15 and S16.

【0047】尚、本実施例においては、キーワード抽出
部2で抽出されたキーワードが2つの場合を例に説明し
たが、キーワードが3つ以上ある場合も基本的には同じ
であり、例えば、キーワードが3つの場合には、3つの
キーワードによる構文解析結果を用いたり、或るいは質
問文において出現頻度の多いキーワードに関する構文解
析結果を用いることも可能である。
In the present embodiment, the case where the number of keywords extracted by the keyword extracting unit 2 is two has been described as an example, but the case where there are three or more keywords is basically the same. When there are three, it is also possible to use the syntactic analysis result by three keywords, or the syntactic analysis result regarding the keyword with a high appearance frequency in the question sentence.

【0048】[0048]

【発明の効果】本発明は、以上の説明から明らかなよう
に、キーワードにより抽出されたテキストに対して、構
文解析を施すことにより、抽出されたテキストに対して
出力部から出力する順番の優先順位を決定するため、検
索要求を的確に表すテキストから順次出力することが可
能となる。さらには、抽出されたテキストにおいて、全
種類のキーワードが単一文章中に存在するか、或るいは
単一文節中に存在するか、さらには、キーワードが質問
文と同様な係受けの関係になっているかを判定すること
により、より簡潔に検索要求の内容を表すテキストから
順番に出力することが可能となる。
As is apparent from the above description, according to the present invention, the text extracted by the keyword is syntactically analyzed to give priority to the order of outputting the extracted text from the output section. Since the ranking is determined, it is possible to sequentially output the search requests from the texts that accurately represent the search requests. Furthermore, in the extracted text, whether all types of keywords are present in a single sentence, or in a single phrase, and whether the keywords have the same dependency relationship as the question sentence. By determining whether or not, it is possible to output the text representing the content of the search request more simply and in order.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の構文解析判定部を備えたテキスト検索
装置の概略構成図
FIG. 1 is a schematic configuration diagram of a text search device including a syntax analysis determination unit of the present invention.

【図2】本発明に係る構文解析判定部の処理の流れを示
すフローチャート
FIG. 2 is a flowchart showing a flow of processing of a parsing determination unit according to the present invention.

【図3】本発明に係る構文解析判定部の処理の流れを示
すフローチャート
FIG. 3 is a flowchart showing a flow of processing of a parsing determination unit according to the present invention.

【図4】本発明を実施した場合の出力結果を示す図FIG. 4 is a diagram showing an output result when the present invention is implemented.

【図5】従来例のテキスト検索装置の概略構成図FIG. 5 is a schematic configuration diagram of a conventional text search device.

【図6】従来例による出力結果を示す図FIG. 6 is a diagram showing an output result according to a conventional example.

【符号の説明】[Explanation of symbols]

1 質問入力部 2 キーワード抽出部 3 キーワードメモリ 4 文書メモリ 5 テキスト抽出部 6 出力部 7 制御部 8 構文解析判定部 1 question input unit 2 keyword extraction unit 3 keyword memory 4 document memory 5 text extraction unit 6 output unit 7 control unit 8 syntax analysis determination unit

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 複数のテキストが格納されている文書メ
モリと、該文書メモリに格納されているテキストを抽出
するのに要する質問文を入力する質問入力部と、該質問
入力部に入力された質問文から複数種類のキーワードを
抽出するキーワード抽出部と、該キーワード抽出部で抽
出されたキーワードを基にして、上記文書メモリから上
記キーワードを含んだテキストを抽出するテキスト抽出
部と、該テキスト抽出部から抽出されたテキストを出力
する出力部と、上記テキスト抽出部で抽出されたテキス
トに対して、構文解析を施す構文解析判定部と、を備
え、 該構文解析判定部は、上記キーワード抽出部で抽出され
たキーワードの構文情報に基づいて、上記出力部から上
記テキストを出力せしめる優先順位を決定することを特
徴とするテキスト検索装置。
1. A document memory in which a plurality of texts are stored, a question input section for inputting a question sentence required to extract the texts stored in the document memory, and a question input section A keyword extraction unit that extracts a plurality of types of keywords from the question sentence, a text extraction unit that extracts a text including the keyword from the document memory based on the keywords extracted by the keyword extraction unit, and the text extraction unit An output unit that outputs the text extracted from the text extraction unit; and a syntactic analysis determination unit that performs syntactic analysis on the text extracted by the text extraction unit, wherein the syntactic analysis determination unit is the keyword extraction unit. Based on the syntactic information of the keyword extracted by the above, the priority order for outputting the text from the output unit is determined. Search device.
【請求項2】 上記構文情報とは、上記キーワード抽出
部で抽出された全種類のキーワードを1つの文章中に含
むか否かの情報であり、上記構文解析判定部は、全種類
の上記キーワードが単一文章中に含まれるテキストの優
先順位を、それ以外のテキストの優先順位より高くする
ことを特徴とする請求項1記載のテキスト検索装置。
2. The syntactic information is information as to whether or not all types of keywords extracted by the keyword extracting unit are included in one sentence, and the syntactic analysis determining unit includes all types of keywords. 2. The text search device according to claim 1, wherein the priority order of the texts included in the single sentence is set higher than the priority orders of the other texts.
【請求項3】 上記構文情報とは、上記キーワード抽出
部で抽出された全種類のキーワードを1つの文節中に含
むか否かの情報であり、上記構文解析判定部は、全種類
の上記キーワードが単一文節中に含まれるテキストの優
先順位を、それ以外のテキストの優先順位より高くする
ことを特徴とする請求項1記載のテキスト検索装置。
3. The syntax information is information as to whether or not all types of keywords extracted by the keyword extraction unit are included in one clause, and the syntax analysis determination unit is used for all types of the keywords. 2. The text search device according to claim 1, wherein the priority included in the text included in the single clause is higher than the priority included in the other texts.
【請求項4】 上記構文解析判定部は、上記質問入力部
に入力された質問文におけるキーワード間の関係と、上
記テキスト抽出部で抽出されたテキストにおけるキ−ワ
−ド間の関係とが、ともに同一の係受けの関係である場
合には、上記テキストの優先順位を最も高くすることを
特徴とする請求項1記載のテキスト検索装置。
4. The syntactic analysis determination unit determines the relationship between the keywords in the question sentence input to the question input unit and the relationship between the keywords in the text extracted by the text extraction unit. 2. The text search device according to claim 1, wherein the priority order of the texts is set to be the highest when both have the same dependency relationship.
JP00620993A 1993-01-18 1993-01-18 Text search device Expired - Fee Related JP3363501B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP00620993A JP3363501B2 (en) 1993-01-18 1993-01-18 Text search device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00620993A JP3363501B2 (en) 1993-01-18 1993-01-18 Text search device

Publications (2)

Publication Number Publication Date
JPH06215035A true JPH06215035A (en) 1994-08-05
JP3363501B2 JP3363501B2 (en) 2003-01-08

Family

ID=11632145

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00620993A Expired - Fee Related JP3363501B2 (en) 1993-01-18 1993-01-18 Text search device

Country Status (1)

Country Link
JP (1) JP3363501B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844771A (en) * 1994-05-25 1996-02-16 Fuji Xerox Co Ltd Information retrieval device
JPH08272782A (en) * 1995-03-29 1996-10-18 Fuji Xerox Co Ltd Document retrieval device
JP2006163723A (en) * 2004-12-06 2006-06-22 Hitachi Software Eng Co Ltd Document search method
JP2008140204A (en) * 2006-12-04 2008-06-19 Toshiba Corp Data retrieval system and program
JP2010079915A (en) * 1997-07-22 2010-04-08 Microsoft Corp System for processing textual input using natural language processing technique
JP2010525458A (en) * 2007-04-20 2010-07-22 ゼネラル・エレクトリック・カンパニイ Decision support response system and method
JP2011113536A (en) * 2009-11-30 2011-06-09 Fuji Xerox Co Ltd Information retrieval program and information retrieval device
JP2013186766A (en) * 2012-03-09 2013-09-19 Fujitsu Ltd Information retrieval method, program and information retrieval device

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0484271A (en) * 1990-07-26 1992-03-17 Nippon Telegr & Teleph Corp <Ntt> Intra-information retrieval device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0484271A (en) * 1990-07-26 1992-03-17 Nippon Telegr & Teleph Corp <Ntt> Intra-information retrieval device

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844771A (en) * 1994-05-25 1996-02-16 Fuji Xerox Co Ltd Information retrieval device
JPH08272782A (en) * 1995-03-29 1996-10-18 Fuji Xerox Co Ltd Document retrieval device
JP2010079915A (en) * 1997-07-22 2010-04-08 Microsoft Corp System for processing textual input using natural language processing technique
JP2006163723A (en) * 2004-12-06 2006-06-22 Hitachi Software Eng Co Ltd Document search method
JP2008140204A (en) * 2006-12-04 2008-06-19 Toshiba Corp Data retrieval system and program
JP2010525458A (en) * 2007-04-20 2010-07-22 ゼネラル・エレクトリック・カンパニイ Decision support response system and method
JP2011113536A (en) * 2009-11-30 2011-06-09 Fuji Xerox Co Ltd Information retrieval program and information retrieval device
JP2013186766A (en) * 2012-03-09 2013-09-19 Fujitsu Ltd Information retrieval method, program and information retrieval device

Also Published As

Publication number Publication date
JP3363501B2 (en) 2003-01-08

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US5541838A (en) Translation machine having capability of registering idioms
JP3173411B2 (en) Related document search device and recording medium storing related document search program
JPH06215035A (en) Text retrieving device
JP2000132560A (en) Chinese teletext processing method and processor therefor
JPH07134720A (en) Method and device for presenting relative information in sentence preparing system
JPH10149370A (en) Document retrieval method and device using context information
JP2807236B2 (en) Morphological analysis method
JPH11195041A (en) Document retrieval device/method and recording medium
JPH07325826A (en) Japanese language processing system
JPH08153112A (en) Device and method for document preparation
KR20010004090A (en) Hyperlink generator for korean language terminology based HTML
JPH0320866A (en) Text base retrieval system
JP3072955B2 (en) Topic structure recognition method and device considering duplicate topic words
JPH05165889A (en) Document retrieval device
JPH0262668A (en) Sentence information retrieving system using sentence information analyzing technique
JP3884001B2 (en) Language analysis system and method
JP2006163723A (en) Document search method
JP2003263458A (en) Method and device for analyzing text
JPS6389976A (en) Language analyzer
JPH0827803B2 (en) Text-based search method
JPH02153474A (en) Unnecessary word dictionary generating device
JPH03229367A (en) Text base retrieving system
JPH05233689A (en) Automatic document abstracting method
JPH10149368A (en) Document retrieval device

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071025

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081025

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081025

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091025

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees