JPH0877196A - Extracting device for document information - Google Patents

Extracting device for document information

Info

Publication number
JPH0877196A
JPH0877196A JP6215070A JP21507094A JPH0877196A JP H0877196 A JPH0877196 A JP H0877196A JP 6215070 A JP6215070 A JP 6215070A JP 21507094 A JP21507094 A JP 21507094A JP H0877196 A JPH0877196 A JP H0877196A
Authority
JP
Japan
Prior art keywords
sentence
morpheme
information
expression pattern
notation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6215070A
Other languages
Japanese (ja)
Inventor
Yukari Saitou
由香梨 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP6215070A priority Critical patent/JPH0877196A/en
Publication of JPH0877196A publication Critical patent/JPH0877196A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE: To highly precisely extract a desired sentence containing important information by collating the sentence with a sentence expression pattern on the basis of the mark and the part-of-speech information of the morpheme of every sentence having been morpheme-analyzed, and extracting the coincident sentence. CONSTITUTION: A document information extracting device 2 morpheme-analyzes an input document 1, and extracts the sentence coincident with the sentence expression pattern 5 on the basis of the mark, the part-of-speech information and the meaning information of the morpheme, and it is constituted of a morpheme analyzing part 3, a sentence pattern collating part 4 and the sentence expression pattern 5. Then, the morpheme analyzing part 3 morpheme-analyzes the input document 1, and the sentence pattern collating part 4 executes the collation with the sentence expression pattern 5 on the basis of the mark and the part-of-speech information of the morpheme of every morpheme-analyzed sentence, and extracts the coincident sentence. Accordingly, since the result of the morpheme analysis of the inputted document 1 is collated with the sentence expression pattern 5, and at the time of coincidence, the sentence is extracted as the desired sentence, the sentence in which the improtant information is contained can be highly precisely extracted.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、文書を形態素解析し形
態素の表記や品詞情報や意味情報をもとに文表現パター
ンと照合して所望の文を抽出する文書情報抽出装置に関
するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document information extracting apparatus for morphologically analyzing a document and matching a sentence expression pattern based on morpheme notation, part-of-speech information and semantic information to extract a desired sentence. .

【0002】[0002]

【従来の技術】従来の文書抽出装置は、ある表現を含む
文を抽出する際に文字列を用いていた。例えば 「○とは○○のことである」(○は任意の文字) という表現を含む文を抽出したい場合、「とは」という
文字列を含む文を検索し、抽出していた。
2. Description of the Related Art A conventional document extracting apparatus uses a character string when extracting a sentence containing a certain expression. For example, when it is desired to extract a sentence containing the expression "○ means XX" (○ is an arbitrary character), the sentence containing the character string "TOHA" was searched and extracted.

【0003】[0003]

【発明が解決しようとする課題】この場合、本来抽出し
たい表現を含む文以外に「とは」という文字列を含む
文、例えば「編集することはできない」などが抽出され
てしまうという問題があった。
[Problems that the Invention is to try to solve this case, is a problem that the statement containing the string "and is" in addition to the sentence that contains the expression you want to extract the original, such as "can not and editing child 'is being extracted there were.

【0004】また、「eコマンドを入力すると、処理を
終了できる」のような 「○○すると○○できる」 という表現の文を抽出したい場合、「と」の直前の語は
「○○する」のような動詞の終止形であるという条件を
指定したいが、従来の文字列による検索ではそういう指
定ができないため、「○○と○○できる」という文字列
を含む文を全て抽出してしまうので、「文書の更新をす
きに、コマンドの指定ができる」のような文が抽出
されてしまうという問題があった。
Further, when it is desired to extract a sentence such as "when the e command is entered, the process can be terminated", "when you can do XX, you can do XX", the word immediately before "to" is "do XX". I want to specify the condition that it is the final form of the verb like, but I can not specify it in the conventional search by character string, so I will extract all the sentences containing the character string "○○ and ○○ can" , "to come to an update of the document can be specified as command," there is a problem that statements such as from being extracted.

【0005】本発明は、これらの問題を解決するため、
重要な情報の含まれる文の特徴のある形態素の表記に対
応づけて品詞情報や意味情報を記述した文表現パターン
を用意し、入力された文書を形態素解析した結果と文表
現パターンとを照合し一致したときに抽出し、重要な情
報が含まれる所望の文を精度高く抽出することを目的と
している。
The present invention solves these problems.
Prepare a sentence expression pattern that describes part-of-speech information and semantic information in association with the notation of characteristic morphemes of sentences that include important information, and match the result of morphological analysis of the input document with the sentence expression pattern. The purpose is to extract a desired sentence that includes important information with high accuracy, when it matches.

【0006】[0006]

【課題を解決するための手段】図1は、本発明の原理構
成図を示す。図1において、入力文書1は、文を抽出す
る対象の文書である。
FIG. 1 is a block diagram showing the principle of the present invention. In FIG. 1, an input document 1 is a document from which sentences are extracted.

【0007】文書情報抽出装置2は、入力文書1を形態
素解析し、その表記、品詞情報、および意味情報をもと
に文表現パターン5と一致する文を抽出するものであっ
て、形態素解析部3、文パターン照合部4、および文表
現パターン5から構成されるものである。
The document information extraction device 2 is a morpheme analysis unit that performs morphological analysis on the input document 1 and extracts sentences that match the sentence expression pattern 5 based on the notation, part-of-speech information, and semantic information. 3, a sentence pattern matching unit 4, and a sentence expression pattern 5.

【0008】形態素解析部3は、入力文書1を形態素解
析するものである。文パターン照合部4は、形態素解析
部3によって形態素解析された文の表記、品詞情報およ
び意味情報をもとに文表現パターン5と照合を行い、一
致する文を抽出するものである。
The morphological analysis unit 3 is for performing morphological analysis on the input document 1. The sentence pattern matching unit 4 matches the sentence expression pattern 5 on the basis of the notation, part-of-speech information, and semantic information of the sentence subjected to the morpheme analysis by the morpheme analysis unit 3, and extracts the matching sentence.

【0009】文表現パターン5は、抽出しようとする文
のパターン(特徴のある形態素の表記、品詞情報、およ
び意味情報)を登録したものである。抽出された文6
は、入力文書から抽出された文である。
The sentence expression pattern 5 is a pattern in which a sentence pattern to be extracted (notation of a characteristic morpheme, part-of-speech information, and semantic information) is registered. Extracted sentence 6
Is a sentence extracted from the input document.

【0010】[0010]

【作用】本発明は、図1に示すように、形態素解析部3
が入力文書1を形態素解析し、文パターン照合部4が形
態素解析した文毎の形態素の表記および品詞情報をもと
に文表現パターン5と照合を行い一致する文を抽出する
ようにしている。
In the present invention, as shown in FIG.
Performs morphological analysis of the input document 1, and the sentence pattern matching unit 4 matches with the sentence expression pattern 5 based on the morpheme notation and part-of-speech information of each sentence analyzed by the morpheme to extract matching sentences.

【0011】また、形態素解析部3が入力文書1を形態
素解析し、文パターン照合部4が形態素解析した文毎の
形態素の表記および意味情報をもとに文表現パターン5
と照合を行い一致する文を抽出するようにしている。
The morpheme analysis unit 3 performs morpheme analysis on the input document 1, and the sentence pattern matching unit 4 performs morpheme analysis on the basis of the morpheme notation and the semantic information of each sentence.
And the matching sentence is extracted.

【0012】また、形態素解析部3が入力文書1を形態
素解析し、文パターン照合部4が形態素解析した文毎の
形態素の表記、品詞情報および意味情報をもとに文表現
パターン5と照合を行い一致する文を抽出するようにし
ている。
The morphological analysis unit 3 morphologically analyzes the input document 1, and the sentence pattern matching unit 4 matches the sentence expression pattern 5 with the sentence expression pattern 5 on the basis of the morpheme notation, part-of-speech information, and semantic information of each sentence. It tries to extract the matching sentences.

【0013】従って、重要な情報の含まれる文の特徴の
ある形態素の表記や品詞情報や意味情報を記述した文表
現パターンを用意し、入力された文書を形態素解析した
結果と文表現パターンとを照合し一致したときに所望の
文として抽出することにより、重要な情報が含まれる文
を精度高く抽出することが可能となった。
Therefore, a sentence expression pattern in which the notation of characteristic morphemes of a sentence including important information, part-of-speech information, and semantic information is described is prepared, and the result of morphological analysis of the input document and the sentence expression pattern are prepared. By matching and extracting as a desired sentence when they match, it is possible to accurately extract a sentence containing important information.

【0014】[0014]

【実施例】次に、図2から図9を用いて本発明の実施例
の構成および動作を順次詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Next, the construction and operation of an embodiment of the present invention will be described in detail with reference to FIGS.

【0015】図2は、本発明の動作説明フローチャート
を示す。これは、図1の構成の全体の動作を説明するフ
ローチャートである。図2において、S1は、入力文書
1を読み込み、形態素解析を行なう。これは、図1の文
書情報抽出装置2を構成する形態素解析部3が、入力文
書1を読み込み、形態素解析を行い、文の形態素の表
記、品詞情報、および意味情報を生成する。例えば図3
の入力文書1であるマニュアル文を読み込み、図4およ
び図5に示すように、形態素の表記、品詞情報、および
意味情報を生成する。例えば、図3の文番号“1”の文 クラスとは、データの属性と動作を規定する抽象的なオ
ブジェクトである。を形態素解析し、図4のに示すよ
うに、形態素の表記、品詞情報、および意味情報を生成
する。
FIG. 2 shows a flowchart for explaining the operation of the present invention. This is a flow chart for explaining the overall operation of the configuration of FIG. In FIG. 2, S1 reads the input document 1 and performs morphological analysis. In this, the morpheme analysis unit 3 included in the document information extraction device 2 of FIG. 1 reads the input document 1 and performs morpheme analysis to generate a morpheme notation of a sentence, part-of-speech information, and semantic information. For example, FIG.
The manual sentence which is the input document 1 is read, and as shown in FIGS. 4 and 5, morpheme notation, part-of-speech information, and semantic information are generated. For example, the sentence class of sentence number “1” in FIG. 3 is an abstract object that defines data attributes and operations. Is morphologically analyzed to generate morpheme notation, part-of-speech information, and semantic information, as shown in FIG.

【0016】S2は、文パターン照合部4で文表現パタ
ーン5との照合を行う。これは、後述するように、S1
で形態素解析した文の形態素の表記、品詞情報、および
意味情報について、図6の文表現パターンとの照合を行
い、一致する文を見つける。
In S2, the sentence pattern matching unit 4 performs matching with the sentence expression pattern 5. This is the S1
The morpheme notation, part-of-speech information, and semantic information of the sentence subjected to morpheme analysis are compared with the sentence expression pattern of FIG. 6 to find a matching sentence.

【0017】S3は、文表現パターン5とマッチした文
が抽出される。これは、S2の照合によって、マッチ
(一致)した文を抽出する。以上によって、入力文書1
を形態素解析して文の形態素の表記、品詞情報、および
意味情報を生成し、これらと、予め登録した文表現パタ
ーン5(例えば図6の文表現パターン例)と照合を行
い、一致する文を抽出する。この際、文の形態素の表記
が一致するのみならず、品詞情報、更に意味情報がとも
に一致したときにのみ文を抽出することとしているの
で、重要な抽出したい文の品詞情報および意味情報を予
め文表現パターン5に登録して指定することが可能とな
る。この抽出したい文の表記の他に品詞情報および意味
情報を指定することにより、文の形態素の表記が一致し
ても、品詞情報と意味情報が一致(マッチ)しない文を
抽出しないので、不要な文の抽出を防止して重要な文の
みを選択的に抽出することが可能となった。以下順次詳
細に説明する。
In S3, a sentence that matches the sentence expression pattern 5 is extracted. This extracts the matched sentence by the collation of S2. Input document 1
Morphological analysis is performed to generate morpheme notation, part-of-speech information, and semantic information of the sentence, and these are collated with a sentence expression pattern 5 (for example, the sentence expression pattern example of FIG. 6) registered in advance to find a matching sentence. Extract. At this time, the sentence is extracted not only when the notation of the morpheme of the sentence is matched, but also when the part-of-speech information and the semantic information are also matched. It becomes possible to register and specify in the sentence expression pattern 5. By specifying part-of-speech information and semantic information in addition to the notation of the sentence to be extracted, even if the notation of the morpheme of the sentence matches, a sentence in which the part-of-speech information and the semantic information do not match (match) is not extracted. It became possible to prevent the extraction of sentences and selectively extract only important sentences. The details will be sequentially described below.

【0018】図3は、本発明のマニュアル文の例を示
す。これは、図1の入力文書1の例である。右側に文番
号1から7を記載し、後の説明との関連づけを行ってい
る。このマニュアル文の文番号1、5、6、7を形態素
解析して文の形態素の表記、品詞情報、および意味情報
を生成したものが、図4および図5である。
FIG. 3 shows an example of the manual sentence of the present invention. This is an example of the input document 1 in FIG. Sentence numbers 1 to 7 are described on the right side, and are related to the later explanation. Morphological analysis of sentence numbers 1, 5, 6, and 7 of the manual sentence to generate the morpheme notation, part-of-speech information, and semantic information in FIGS. 4 and 5.

【0019】図4および図5は、本発明の形態素解析例
を示す。これらは、図3のマニュアル文の文番号1、
5、6、7の文を形態素解析し、文の形態素の表記、品
詞情報、および意味情報を生成したものである。
4 and 5 show examples of morphological analysis according to the present invention. These are the sentence numbers 1 of the manual sentence in FIG.
Morphological analysis is performed on the sentences 5, 6, and 7 to generate the morpheme notation, the part-of-speech information, and the semantic information of the sentence.

【0020】図6は、本発明の文表現パターン例を示
す。ここでは、重要な文を表現するパターンとして、文
表現パターン1、2、3の3つを下記のように予め記載
したものである。
FIG. 6 shows an example of a sentence expression pattern of the present invention. Here, as patterns for expressing important sentences, three sentence expression patterns 1, 2, and 3 are described in advance as follows.

【0021】 ・文表現パターン1:[名詞]/とは/〜/であ/る ・文表現パターン2:〜[動詞終止形]/と/でき/る ・文表現パターン3:[名詞]<手段>/に/よ/っ/
て/〜 ここで、[ ]内は品詞情報を表し、< >内は意味情
報を表し、それ以外は形態素の表記を表す。〜は、任意
の文字列を表す。/は文の形態素の区切りを表す。
-Sentence expression pattern 1: [noun] / and /////-Sentence expression pattern 2:-[verb end form] / and / can / suffer-Sentence expression pattern 3: [noun] <Means> / to / yo / tsu /
Here, in [], part-of-speech information is represented, in <>, semantic information is represented, and in other cases, morpheme notation is represented. ~ Represents an arbitrary character string. / Represents a morpheme delimiter of a sentence.

【0022】以上のように、文の形態素の表記、品詞情
報、および意味情報を指定した文表現パターン1、2、
3を記述することにより、この文表現パターン1、2、
3に一致する文のみが、入力文書1から抽出されること
となる。
As described above, the sentence expression patterns 1, 2 specifying the morpheme notation of the sentence, the part-of-speech information, and the semantic information.
By describing 3, the sentence expression patterns 1, 2,
Only sentences matching 3 will be extracted from the input document 1.

【0023】図7は、本発明の文表現パターンとの照合
フローチャートを示す。これは、入力文書1を形態素解
析して文の形態素の表記、品詞情報、および意味情報を
生成し、これらと、図6の文表現パターン5との照合を
説明するものである。
FIG. 7 shows a flow chart of collation with the sentence expression pattern of the present invention. This describes morphological analysis of the input document 1 to generate morpheme notation, part-of-speech information, and semantic information of a sentence, and to compare these with the sentence expression pattern 5 of FIG.

【0024】図7において、S11は、形態素のリスト
が終了か判別する。YESの場合には、終了する(EN
D)。一方、NOの場合には、形態素のリストが終了し
ていないので、S12に進む。ここで、形態素のリスト
は文を形態素解析した形態素の表記、品詞情報、および
意味情報であって、例えば図3のマニュアル文の文番号
1の形態素のリストは図4の文番号1として記載した
表記、品詞情報、および意味情報のリストとなる。
In FIG. 7, S11 determines whether the morpheme list is complete. If YES, end (EN
D). On the other hand, in the case of NO, the list of morphemes has not ended, and therefore the process proceeds to S12. Here, the list of morphemes is the notation of morphemes obtained by morphological analysis of sentences, part-of-speech information, and semantic information. For example, the list of morphemes with sentence number 1 in the manual sentence in FIG. 3 is described as sentence number 1 in FIG. It is a list of notation, part-of-speech information, and semantic information.

【0025】S12は、文表現パターンが終了か判別す
る。これは、文表現パターン、例えば図6の文表現パタ
ーン1、2、3が終了か判別する。YESの場合には、
S11に戻り、次の文の形態素のリストについて繰り返
す。一方、NOの場合には、S13に進む。
In step S12, it is determined whether the sentence expression pattern ends. This determines whether the sentence expression pattern, for example, the sentence expression patterns 1, 2, and 3 in FIG. If yes,
Returning to S11, the morpheme list of the next sentence is repeated. On the other hand, if NO, the process proceeds to S13.

【0026】S13は、形態素リストと文表現パターン
が最後までマッチするか判別する。YESの場合には、
形態素リストと、文表現パターンとが最後まで一致した
ので、S14でマッチする文を抽出し、S11に戻る。
一方、NOの場合には、マッチしなかったので、S12
に戻り繰り返す。
In step S13, it is determined whether the morpheme list matches the sentence expression pattern until the end. If yes,
Since the morpheme list and the sentence expression pattern match until the end, the matching sentence is extracted in S14, and the process returns to S11.
On the other hand, in the case of NO, there is no match, so S12
Return to and repeat.

【0027】以上によって、入力文書1の文の形態素の
リストと、文表現パターンとを順次照合を行いマッチし
たときにそのマッチした文を抽出する。以下図3のマニ
ュアル文について、図6の文表現パターンとの照合を説
明する。
As described above, when the list of sentence morphemes of the input document 1 and the sentence expression pattern are sequentially collated and matched, the matched sentence is extracted. The matching of the manual sentence of FIG. 3 with the sentence expression pattern of FIG. 6 will be described below.

【0028】(1) 図3の文番号1の文 ・クラスとは、データの属性と動作を規定する抽象的な
オブジェクトである.を形態素解析すると、文の形態素
の表記は、 ・クラスとは/、/データ/の/属性/と/動作/を
/規定/する/抽象的/な/オブジェクト/ある. となる(品詞情報および意味情報は図4の文書番号1
の品詞情報および意味情報を参照)。この文番号1の形
態素の表記、および品詞情報のパターンと、図6の文表
現パターン1である ・[名詞]/とは/〜/であ/る との照合を行うと、上記文の形態素の表記に下線を引い
た部分が一致、即ち、 ・“クラス”と“名詞(普通名詞)” ・“とは”と“とは” ・“であ”と“であ” ・“る”と“る” とが一致するので、文番号1の文を文表現パターン1に
一致するものとして図8に示すように抽出する。
(1) Sentence number 1 in FIG. 3 A class is an abstract object that defines data attributes and operations. The Upon morphological analysis, the morphological notation statement class / A /, / data / Roh / attribute / a / operation / a / provisions / to / abstract / Do / object / in / is. (Part-of-speech information and semantic information are document number 1 in FIG. 4)
See part-of-speech and semantic information). This notation of the morpheme of sentence number 1 and the pattern of part-of-speech information is the sentence expression pattern 1 of FIG. 6. [Noun] / and ///// The underlined part of the notation matches, that is, "class" and "noun (common noun)"-"what" and "to"-"de" and "de"-"ru" Since "ru" matches, the sentence of sentence number 1 is extracted as shown in FIG.

【0029】(2) 文番号5の文を(1)と同様にし
て、文表現パターン2に一致するものとして図8に示す
ように抽出する。 (3) 図3の文番号6の文 ・クラスの種類によって、生成されるインスタンスが異
なる.を形態素解析すると、文の形態素の表記は、 ・クラス/の/種類//、/生成/さ/
れ/る/インスタンス/が/異な/る. となる(品詞情報および意味情報は図5の文書番号6の
品詞情報および意味情報を参照)。この文番号6の形態
素の表記、および品詞情報のパターンと、図6の文表現
パターン3である ・[名詞]<手段>/に/よ/っ/て/〜 との照合を行うと、先頭の ・“クラス”、“普通名詞(品詞情報)”、“具体物
(意味情報)”と[名詞]<手段>とが不一致 となる。即ち、クラスの品詞情報が“名詞”である点は
一致するが、意味情報が“具体物”と“手段”とで不一
致となり、当該文番号6は文表現パターン3とマッチし
ないこととなる。
(2) The sentence of sentence number 5 is extracted as shown in FIG. 8 as the sentence expression pattern 2 in the same manner as (1). (3) Sentence No. 6 in FIG. 3 • The generated instance differs depending on the class type. When the morphological analysis, morphological notation of the statement, class / Bruno / kind / to / I / Tsu / Te /, / generation / /
Re / ru / instance / is / different / ru. (See the part-of-speech information and the meaning information of the document number 6 in FIG. 5 for the part-of-speech information and the meaning information). The morpheme notation of sentence number 6 and the pattern of part-of-speech information and sentence expression pattern 3 of FIG. 6 are obtained. When [noun] <means> / ni / yo / t / te / ...・ The "class", "common noun (part of speech information)", "concrete (semantic information)" and [noun] <means> do not match. That is, although the part of speech information of the class is “noun”, the semantic information of “concrete” and “means” do not match, and the sentence number 6 does not match the sentence expression pattern 3.

【0030】従って、表記は一致しても、意味情報が一
致しなく、全体として一致しないので不一致となり、文
番号6の文は抽出しない。 (4) 一方、文番号7の文 ・エディタによって、インスタンスのスロットを指定で
きる.を形態素解析すると、文の形態素の表記は、 ・エディタ/、/インスタンス/の/
スロット/を/指定/でき/る. となる(品詞情報および意味情報は図5の文書番号7の
品詞情報および意味情報を参照)。この文番号7の形態
素の表記、品詞情報、および意味情報のパターンと、図
6の文表現パターン3である ・[名詞]<手段>/に/よ/っ/て/〜 との照合を行うと、上記文の形態素の表記、品詞情報、
および意味情報が一致、即ち、 ・“クラス”、“普通名詞”、“手段”と“名詞”、
“手段” ・“に”と“に” ・“よ”と“よ” ・“っ”と“っ” ・“て”と“て” とが一致するので、文番号7の文を文表現パターン3に
一致するものとして図8に示すように抽出する。
Therefore, even if the notations match, the meaning information does not match, and the meanings do not match as a whole, so they do not match and the sentence of sentence number 6 is not extracted. (4) On the other hand, the sentence of sentence number 7 ・ The slot of the instance can be specified by the editor. When the morphological analysis, morphological notation of the statement, editor / on / by / Tsu / Te /, / instance / Bruno /
Slot / specify / specify / specify. (See the part-of-speech information and the meaning information of the document number 7 in FIG. 5 for the part-of-speech information and the meaning information). The pattern of the morpheme of the sentence number 7, the part-of-speech information, and the semantic information is the sentence expression pattern 3 of FIG. 6. [Noun] <means> / ni / yo / t / te / ~ is collated. And the morpheme notation of the above sentence, part-of-speech information,
And the semantic information match, that is, "class", "common noun", "means" and "noun",
"Means"-"ni" and "ni"-"yo" and "yo"-"tsu" and "tsu"-"te" and "te" match, so the sentence of sentence number 7 is expressed as a sentence expression pattern. It is extracted as shown in FIG.

【0031】以上によって、図3のマニュアル文から、
図6の文表現パターン1、2、3に一致する文として図
8に示すように、文番号1、5、7の文を抽出すること
ができたこととなる。
From the above, from the manual sentence of FIG.
As shown in FIG. 8, the sentences of sentence numbers 1, 5, and 7 can be extracted as the sentences that match the sentence expression patterns 1, 2, and 3 of FIG.

【0032】図8は、本発明の抽出された文例を示す。
これは、上述したように、図3のマニュアル文から、図
6の文表現パターン1、2、3に一致するものとして抽
出された文である。この抽出する際に、文の種類を図示
のように一致した文表現パターン1、2、3に登録され
ている“定義文”、“方法文”、“方法文”に対応づけ
て登録しておく。
FIG. 8 shows an extracted example sentence of the present invention.
As described above, this is a sentence extracted from the manual sentence of FIG. 3 as matching with the sentence expression patterns 1, 2, and 3 of FIG. At the time of this extraction, the type of sentence is registered in association with the “definition sentence”, “method sentence”, and “method sentence” registered in the sentence expression patterns 1, 2, and 3 that match as shown in the figure. deep.

【0033】図9は、本発明の応用例を示す。これは、
図8の抽出された文について、文の種類毎にまとめて索
引を自動生成した応用例を示す。ここでは、図8の定義
文の文番号1の文を取り出し、図示の ・索引(定義)の欄に クラスとは?・・・・・・・・・・・・・・・・p××
(ページ数) と自動編集する。また、同様に、図8の方法文の文番号
5、7の文を取り出し、 ・索引(方法)の欄に 任意のインスタンスを生成するには?・・・・・p××
(ページ数) インスタンスのスロットを指定するには?・・・p××
(ページ数) と自動編集する。
FIG. 9 shows an application example of the present invention. this is,
With respect to the extracted sentences in FIG. 8, an application example in which an index is automatically generated for each sentence type will be shown. Here, the sentence with the sentence number 1 of the definition sentence in FIG. 8 is taken out, and what is the class in the illustrated column of (index) (definition)?・ ・ ・ P ××
(Page number) and edit automatically. Similarly, how to take out the sentences of sentence numbers 5 and 7 of the method sentence of FIG. 8 and generate an arbitrary instance in the index (method) column? ... pxx
(Number of pages) How to specify the instance slot? ... pxx
(Page number) and edit automatically.

【0034】以上によって、図3の入力文書1であるマ
ニュアル文から、図6の文表現パターン1、2、3によ
って形態素の表記、品詞情報および意味情報で特徴付け
られた文(文番号1、5、7)のみを抽出し、この抽出
した精度の高い文から、更に文の種類に分けて索引を自
動的に編集(生成)することが可能となる。
As described above, from the manual sentence which is the input document 1 in FIG. 3, the sentence characterized by the morpheme notation, the part-of-speech information and the semantic information by the sentence expression patterns 1, 2 and 3 in FIG. 6 (sentence number 1, It is possible to extract (5, 7) only and automatically edit (generate) the index from the extracted highly accurate sentences by further dividing them into sentence types.

【0035】[0035]

【発明の効果】以上説明したように、本発明によれば、
重要な情報の含まれる文の特徴のある形態素の表記や品
詞情報や意味情報を記述した文表現パターンを用意し、
この文表現パターンと入力された文書を形態素解析した
結果とを照合し一致したときに所望の文として抽出する
構成を採用しているため、重要な情報が含まれる所望の
文を精度高く抽出することができるようになった。特
に、文表現パターンとして、文の形態素の表記、品詞情
報、および意味情報を任意に指定して重要な情報を含む
所望の文を高精度に抽出でき、しかも、表記(文字列)
のみが一致する不要な文の抽出を防止できるので、不要
な文を削除する手間も削減できる。
As described above, according to the present invention,
Prepare sentence expression patterns that describe notation of morphemes that have characteristics of sentences containing important information, part of speech information, and semantic information,
Since this sentence expression pattern and the result of morpheme analysis of the input document are collated and the matched sentence is extracted as a desired sentence, the desired sentence including important information is extracted with high accuracy. I was able to do it. Particularly, as a sentence expression pattern, a desired sentence including important information can be extracted with high accuracy by arbitrarily designating a sentence morpheme notation, part-of-speech information, and semantic information, and the notation (character string)
Since it is possible to prevent the extraction of unnecessary sentences that only match, it is possible to reduce the trouble of deleting unnecessary sentences.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の原理構成図である。FIG. 1 is a principle configuration diagram of the present invention.

【図2】本発明の動作説明フローチャートである。FIG. 2 is a flowchart explaining the operation of the present invention.

【図3】本発明のマニュアル文の例である。FIG. 3 is an example of a manual sentence of the present invention.

【図4】本発明の形態素解析例(続く)である。FIG. 4 is a morphological analysis example (continued) of the present invention.

【図5】本発明の形態素解析例(続き)である。FIG. 5 is a morphological analysis example (continuation) of the present invention.

【図6】本発明の文表現パターン例である。FIG. 6 is an example of a sentence expression pattern of the present invention.

【図7】本発明の文表現パターンとの照合フローチャー
トである。
FIG. 7 is a flowchart for matching with a sentence expression pattern of the present invention.

【図8】本発明の抽出された文例である。FIG. 8 is an extracted sentence example of the present invention.

【図9】本発明の応用例である。FIG. 9 is an application example of the present invention.

【符号の説明】[Explanation of symbols]

1:入力文書 2:文書情報抽出装置 3:形態素解析部 4:文パターン照合部 5:文表現パターン 6:抽出された文 1: Input document 2: Document information extraction device 3: Morphological analysis unit 4: Sentence pattern matching unit 5: Sentence expression pattern 6: Extracted sentence

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】抽出しようとする文の形態素の表記に対応
づけ必要に応じて品詞情報を登録する文表現パターン
(5)と、 入力された文書を形態素解析する形態素解析部(3)
と、 形態素解析した文毎の形態素の表記および品詞情報をも
とに上記文表現パターン(5)と照合を行い一致する文
を抽出する文パターン照合部(4)とを備え、 文書中から所望の文を抽出することを特徴とする文書情
報抽出装置。
1. A sentence expression pattern (5) in which part-of-speech information is registered as necessary in association with the morpheme notation of a sentence to be extracted, and a morphological analysis unit (3) for morphologically analyzing an input document.
And a sentence pattern matching unit (4) that matches the above sentence expression pattern (5) based on the morpheme notation and part-of-speech information of each morphologically analyzed sentence and extracts a matching sentence. A document information extracting device, which extracts a sentence of.
【請求項2】抽出しようとする文の形態素の表記に対応
づけ必要に応じて意味情報を登録する文表現パターン
(5)と、 入力された文書を形態素解析する形態素解析部(3)
と、 形態素解析した文毎の形態素の表記および意味情報をも
とに上記文表現パターン(5)と照合を行い一致する文
を抽出する文パターン照合部(4)とを備え、 文書中から所望の文を抽出することを特徴とする文書情
報抽出装置。
2. A sentence expression pattern (5) for registering semantic information as necessary in association with the notation of morphemes of a sentence to be extracted, and a morphological analyzer (3) for morphologically analyzing an input document.
And a sentence pattern matching unit (4) that matches the above sentence expression pattern (5) and extracts a matching sentence based on the morpheme notation and semantic information of each morphologically analyzed sentence. A document information extracting device, which extracts a sentence of.
【請求項3】抽出しようとする文の形態素の表記に対応
づけ必要に応じて品詞情報および意味情報を登録する文
表現パターン(5)と、 入力された文書を形態素解析する形態素解析部(3)
と、 形態素解析した文毎の形態素の表記と品詞情報および意
味情報をもとに上記文表現パターン(5)と照合を行い
一致する文を抽出する文パターン照合部(4)とを備
え、 文書中から所望の文を抽出することを特徴とする文書情
報抽出装置。
3. A sentence expression pattern (5) for registering part-of-speech information and semantic information as necessary in association with the notation of morphemes of a sentence to be extracted, and a morphological analyzer (3) for morphologically analyzing an input document. )
And a sentence pattern matching unit (4) for matching the sentence expression pattern (5) and extracting a matching sentence based on the morpheme notation, part-of-speech information, and semantic information of each morphologically analyzed sentence, A document information extraction device characterized by extracting a desired sentence from inside.
JP6215070A 1994-09-08 1994-09-08 Extracting device for document information Pending JPH0877196A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6215070A JPH0877196A (en) 1994-09-08 1994-09-08 Extracting device for document information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6215070A JPH0877196A (en) 1994-09-08 1994-09-08 Extracting device for document information

Publications (1)

Publication Number Publication Date
JPH0877196A true JPH0877196A (en) 1996-03-22

Family

ID=16666265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6215070A Pending JPH0877196A (en) 1994-09-08 1994-09-08 Extracting device for document information

Country Status (1)

Country Link
JP (1) JPH0877196A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006323670A (en) * 2005-05-19 2006-11-30 Nippon Telegr & Teleph Corp <Ntt> Answering method, answering device and program for questioning method
JP2007018068A (en) * 2005-07-05 2007-01-25 Toshiba Corp Device, method, and program for retrieving information
JP2007102489A (en) * 2005-10-04 2007-04-19 Sharp Corp Program data processor, program data processing method, control program, recording medium, and video recorder, reproduction device and information display device with program data processor
JP2009060567A (en) * 2007-08-07 2009-03-19 Sony Corp Information processing apparatus, method, and program
JP2010009742A (en) * 2007-05-15 2010-01-14 Sony Corp Data processing apparatus and method, program, and storage medium
US8264727B2 (en) 2007-05-15 2012-09-11 Sony Corporation Data processing apparatus, method, program, and storage medium for setting identification information based on metadata, and advantageously displaying print data
KR20200068769A (en) * 2018-11-27 2020-06-16 주식회사 와이즈넛 Property knowledge extension system and property knowledge extension method using it

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006323670A (en) * 2005-05-19 2006-11-30 Nippon Telegr & Teleph Corp <Ntt> Answering method, answering device and program for questioning method
JP2007018068A (en) * 2005-07-05 2007-01-25 Toshiba Corp Device, method, and program for retrieving information
JP2007102489A (en) * 2005-10-04 2007-04-19 Sharp Corp Program data processor, program data processing method, control program, recording medium, and video recorder, reproduction device and information display device with program data processor
JP4619915B2 (en) * 2005-10-04 2011-01-26 シャープ株式会社 PROGRAM DATA PROCESSING DEVICE, PROGRAM DATA PROCESSING METHOD, CONTROL PROGRAM, RECORDING MEDIUM, RECORDING DEVICE, REPRODUCTION DEVICE, AND INFORMATION DISPLAY DEVICE EQUIPPED WITH PROGRAM DATA PROCESSING DEVICE
JP2010009742A (en) * 2007-05-15 2010-01-14 Sony Corp Data processing apparatus and method, program, and storage medium
US8264727B2 (en) 2007-05-15 2012-09-11 Sony Corporation Data processing apparatus, method, program, and storage medium for setting identification information based on metadata, and advantageously displaying print data
JP2009060567A (en) * 2007-08-07 2009-03-19 Sony Corp Information processing apparatus, method, and program
KR20200068769A (en) * 2018-11-27 2020-06-16 주식회사 와이즈넛 Property knowledge extension system and property knowledge extension method using it

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US5077668A (en) Method and apparatus for producing an abstract of a document
JP3691844B2 (en) Document processing method
US5579224A (en) Dictionary creation supporting system
JPH1153384A (en) Device and method for keyword extraction and computer readable storage medium storing keyword extraction program
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH0567144A (en) Method and device for pre-edit supporting
JP3372532B2 (en) Computer-readable recording medium for emotion information extraction method and emotion information extraction program
JP2005038395A (en) Database retrieval device
US5373442A (en) Electronic translating apparatus having pre-editing learning capability
JPH0877196A (en) Extracting device for document information
JPS63244259A (en) Keyword extractor
JP2005173999A (en) Device, system and method for searching electronic file, program, and recording media
JPH07325826A (en) Japanese language processing system
JP2838984B2 (en) General-purpose reference device
JPS63228326A (en) Automatic key word extracting system
JPH04673A (en) Method and device for registering compound word
JP2000029882A (en) Summary preparing device
JPH01295369A (en) Dividing and processing system for kanji/kana paragraph
JPH05233689A (en) Automatic document abstracting method
Walker Computational linguistic techniques in an on-line system for textual analysis
JP2001142893A (en) Information disclosing device and sentence disclosing method
JPH04330565A (en) Natural language processing system using universal file
JPH08263490A (en) Legal document updating system
JPS6366665A (en) Document analyzing/shaping device

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040615