JP2002073644A - Device and method for extracting and processing important statement and computer readable storage medium stored with important statement extraction processing program - Google Patents
Device and method for extracting and processing important statement and computer readable storage medium stored with important statement extraction processing programInfo
- Publication number
- JP2002073644A JP2002073644A JP2000256724A JP2000256724A JP2002073644A JP 2002073644 A JP2002073644 A JP 2002073644A JP 2000256724 A JP2000256724 A JP 2000256724A JP 2000256724 A JP2000256724 A JP 2000256724A JP 2002073644 A JP2002073644 A JP 2002073644A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- weight
- statement
- chain
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、入力された文章デ
ータから文章データを構成する文を重要文として抽出す
る重要文抽出処理装置、重要文抽出処理方法、および重
要文抽出処理プログラムを格納したコンピュータ読み取
り可能な記憶媒体に関するものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention stores an important sentence extraction processing apparatus, an important sentence extraction processing method, and an important sentence extraction processing program for extracting a sentence constituting sentence data as important sentences from input sentence data. The present invention relates to a computer-readable storage medium.
【0002】[0002]
【従来の技術】従来より、コンピュータを利用した自然
言語解析の分野において、入力された文章データから重
要文を抽出し、要約文を作成する自動要約システムが知
られている。2. Description of the Related Art Conventionally, in the field of natural language analysis using a computer, an automatic summarization system for extracting an important sentence from input sentence data and creating a summary sentence has been known.
【0003】このようなシステムにおいては、特定のア
ルゴリズムに基づき入力された文章データから重要文を
抽出し、抽出した重要文をそのまま、あるいは抽出した
重要文を繋ぐために適当な自動編集を加えるなどの処理
を介して出力することにより要約文を作成する。In such a system, an important sentence is extracted from sentence data input based on a specific algorithm, and the extracted important sentence is used as it is, or appropriate automatic editing is performed to connect the extracted important sentence. The summary sentence is created by outputting through the above processing.
【0004】[0004]
【発明が解決しようとする課題】公知の重要文抽出のア
ルゴリズム(方法)は、利用する情報により主に次のよ
うに分類できる。The known important sentence extraction algorithm (method) can be mainly classified as follows according to the information to be used.
【0005】1)出現するキーワード、あるいはその頻
度 2)文章中の位置情報 3)タイトル等の情報 4)自動学習 5)文間の関係等の情報 1)の方法は、「要するに」、「結論としては」などの
重要文を示すようなキーワード(ユーザが検索対象とし
て指定する場合も含む)、あるいは出現する単語の頻度
情報から特定したキーワードを検索することにより、そ
れを含む文を重要文として抽出するものである。[0005] 1) Appearing keywords or their frequencies 2) Positional information in sentences 3) Information such as titles 4) Automatic learning 5) Information such as relationships between sentences 1) The methods of 1) are "in short" and "conclusion". By searching for a keyword that indicates an important sentence such as "" (including when the user specifies it as a search target) or a keyword specified from the frequency information of words that appear, the sentence containing that keyword is used as an important sentence. It is to extract.
【0006】2)の方法は、文章中における文の位置情
報、たとえば、先頭の文、最後の文などは重要であろう
という推定に基いて抽出を行なうものであり、考え方に
よっては、タイトル文を抽出する3)の方法もこのカテ
ゴリーに分類することが可能である。The method 2) performs extraction based on the presumption that positional information of a sentence in a sentence, for example, the first sentence, the last sentence, etc., is important. Can also be classified into this category.
【0007】4)の方法は、1)〜3)の方法に用いら
れるようなキーワードや位置情報などの情報を辞書とし
て持ち、自動的にその辞書を更新しつつ行なう方法であ
る。The method 4) is a method in which information such as keywords and position information used in the methods 1) to 3) is stored as a dictionary, and the dictionary is automatically updated.
【0008】5)の方法は、文章を構成する複数の文の
それぞれの関係を解析し、その解析結果を利用するもの
である。たとえば、連接、連鎖といった文同士の関係を
解析し、文の主、従の関係から各文の重みを決定し、重
みの値の大きい文を抽出する。[0008] The method 5) analyzes the relationship between a plurality of sentences constituting a sentence and uses the analysis result. For example, the relationship between sentences such as concatenation and chain is analyzed, the weight of each sentence is determined from the relationship between the main and subordinate sentences, and a sentence having a large weight value is extracted.
【0009】従来から、文同士の関係を解析するための
連接論、連鎖論の存在は知られているが、従来の要約シ
ステムでは連接論を主に利用して重みを決定していた。
連接とは、たとえば、「したがって」のような接続詞で
接続される複数の文同士の関係をいい、「したがって」
を例とすればこのような接続詞で接続される2文は、当
然、後出の文の方が重みを高くすることになる。Conventionally, the existence of a concatenation theory and a chain theory for analyzing the relationship between sentences has been known, but in the conventional summarization system, weights are determined mainly by using the concatenation theory.
The concatenation refers to a relationship between a plurality of sentences connected by a connective such as "consequence".
As an example, two sentences connected by such a conjunction will naturally have a higher weight in the later sentence.
【0010】しかし、従来の連接論を利用した解析で
は、十分な精度を得られていない。理由は連接論は2つ
の文の間の関係を述べているに過ぎず、文章全体を通し
てのその文の役割を検出しているわけではないからであ
る。この連接関係だけに頼る方法では、重要文抽出のた
めに十分な情報を検出しているとは考えにくい。[0010] However, analysis using the conventional connection theory does not provide sufficient accuracy. The reason is that conjunctive theory only states the relationship between two sentences, and does not detect the role of the sentence throughout the sentence. It is difficult to imagine that a method relying only on the connection relation has detected sufficient information for extracting an important sentence.
【0011】一方、連鎖論とは、主語、述語、助詞など
の文の要素を利用して、文章全体においてその文の働き
を明らかにしようとするもので、連鎖の形態には主語の
連鎖と陳述の連鎖の2種類がある。連鎖論は、文章全体
においてある文の役割を特定しようとするものであると
考えることができる。[0011] On the other hand, the chain theory uses the elements of a sentence such as a subject, a predicate, and a particle to clarify the function of the sentence in the whole sentence. There are two types of statement chains. Linkage theory can be thought of as trying to identify the role of a sentence in the whole sentence.
【0012】従来では、上記の連接関係の解析、および
連鎖関係の解析の特徴を生かした文章の解析技術はあま
り知られていない。Conventionally, there has been little known about a sentence analysis technique that makes use of the characteristics of the above-described connection relationship analysis and chain relationship analysis.
【0013】本発明の課題は、入力された文章から重要
文を抽出する際、文の連接関係および連鎖関係を解析
し、これらの情報を利用して多大な計算資源を要するこ
となく精度の高い重要文抽出を行なえるようにすること
にある。It is an object of the present invention to analyze an articulation and a linkage of sentences when extracting an important sentence from an input sentence, and to use such information to obtain high accuracy without requiring a large amount of computational resources. The purpose is to extract important sentences.
【0014】[0014]
【課題を解決するための手段】上記の課題を解決するた
め、本発明においては、入力された文章データから文章
データを構成する文を重要文として抽出する重要文抽出
処理装置、重要文抽出処理方法、および重要文抽出処理
プログラムを格納したコンピュータ読み取り可能な記憶
媒体において前記文章データを構成する各文につき、文
の主語連鎖の解析に基づき文の重みを主語連鎖重み付け
規則から決定し、前記文章データを構成する各文につ
き、文の陳述連鎖の解析に基づき文の重みを陳述連鎖重
み付け規則から決定し、前記主語連鎖重み付けおよび陳
述連鎖重み付けにより得られた各文の重みを合計し、前
記文章データを構成する文のうち、複数の文の連接関係
の解析に基づき、連接重み付け規則から前記重み合計に
より得られた各文の重みを調節し、前記重み調節により
調節された重みに基づき、所定の抽出条件に合致する文
を重要文として抽出する構成を採用した。In order to solve the above-mentioned problems, the present invention provides an important sentence extraction processing apparatus and an important sentence extraction process for extracting a sentence constituting sentence data from input sentence data as an important sentence. A method and, for each sentence constituting the sentence data in a computer-readable storage medium storing an important sentence extraction processing program, determining a sentence weight from a subject chain weighting rule based on an analysis of a subject chain of the sentence; For each sentence constituting the data, the weight of the sentence is determined from the statement chain weighting rule based on the analysis of the statement chain, and the weights of the respective statements obtained by the subject chain weight and the statement chain weight are summed up. Based on the analysis of the concatenation relation of a plurality of sentences among the sentences that constitute the data, each sentence obtained by the sum of the weights from the concatenation weighting rule Adjust the body, on the basis of the weights adjusted by the weight adjusting adopts the configuration that extracts a sentence that matches the predetermined extraction condition as an important statement.
【0015】[0015]
【発明の実施の形態】以下、添付図面を参照して本発明
の実施の形態を説明する。Embodiments of the present invention will be described below with reference to the accompanying drawings.
【0016】[システム構成]図1に本発明を実施可能
な処理システムの構成を示す。図示の構成は、パーソナ
ルコンピュータやワークステーションなどの一般的なコ
ンピュータハードウェアの上に実装可能なものであり、
制御手段11と記憶手段12から構成されている。[System Configuration] FIG. 1 shows the configuration of a processing system capable of implementing the present invention. The configuration shown can be implemented on general computer hardware such as a personal computer or a workstation,
It comprises control means 11 and storage means 12.
【0017】制御手段11は、ハードウェア的には、そ
のブロック中に符号111〜115で示すような各処理
ステップを実行するCPU、およびCPUのプログラム
として展開するための半導体メモリや外部記憶装置(ハ
ードディスクやフロッピー(登録商標)ディスク、その
他の記憶媒体を用いるもの)などの記憶手段から構成さ
れる。The control means 11 includes, in terms of hardware, a CPU for executing each processing step indicated by reference numerals 111 to 115 in the block, and a semiconductor memory or an external storage device ( A storage means such as a hard disk, a floppy (registered trademark) disk, or another storage medium.
【0018】記憶手段12は、本来、制御手段11の一
部として考えることもできるが、本実施形態で用いられ
る記憶のための構成を別途図示したもので、処理すべき
文章データ121、上記の処理ステップ111〜115
に該当するプログラムモジュール(具体的な図示は省
略)、処理に必要な定数情報(後述の重み付け規則)1
24、126、127、出力データである文の重みデー
タの記憶に用いられる重み領域122などを構成する。Although the storage means 12 can be originally considered as a part of the control means 11, the configuration for storage used in the present embodiment is separately illustrated, and the text data 121 to be processed, Processing steps 111 to 115
(A specific illustration is omitted), constant information necessary for processing (weighting rule described later) 1
24, 126, and 127, and a weight area 122 used for storing weight data of a sentence as output data.
【0019】記憶手段12は、RAMなどの半導体メモ
リ(あるいはさらに外部記憶装置を利用して構成される
仮想記憶手段)から構成される。The storage unit 12 is composed of a semiconductor memory such as a RAM (or a virtual storage unit configured using an external storage device).
【0020】本実施形態の重要文抽出処理111は、ま
ず、文章データ121を入力し、公知の単文への分解、
単語ないし品詞などの要素(形態素)への分解処理を行
ない、各文について主語連鎖、陳述連鎖および連接関係
の解析を行ない、主語連鎖の解析結果123、陳述連鎖
の解析結果(ただし、この段階では後述の「辞」の解析
結果のみ)125、および連接関係の解析結果128を
記憶手段12に格納する。The important sentence extraction process 111 of the present embodiment firstly inputs the sentence data 121, decomposes it into a known single sentence,
It performs decomposition processing into elements (morphemes) such as words or parts of speech, analyzes subject chains, declarative chains and concatenation relations for each sentence, and analyzes the subject chain analysis results 123 and the statement chain analysis results (however, at this stage, The storage unit 12 stores the analysis result “125” (described later) and the analysis result 128 of the connection relationship.
【0021】続いて、重要文抽出処理111は、各連鎖
および連接関係の解析結果123、125、128に基
づき主語連鎖に基づく重み付け処理112、陳述連鎖に
基づく重み付け処理113、連接関係に基く重み調節処
理114を実行し、これにより重みづけされた重みデー
タが重み領域122に出力される。Subsequently, the important sentence extraction processing 111 includes a weighting processing 112 based on a subject chain based on the analysis results 123, 125, and 128 of the respective chains and connection relations, a weighting processing 113 based on a statement chain, and a weight adjustment based on the connection relations. The processing 114 is executed, and the weighted data is output to the weight area 122.
【0022】この重みは、文章データ121を構成する
要素である各文に個々に配点される得点のごときもので
あり、図1の下部に示すように各文それぞれにつき重み
値を格納するための領域を重み領域122に用意してお
く。そして、重要文抽出処理111の結果、重み領域1
22に出力された重みデータから適当なアルゴリズムに
より出力すべき文を選択することにより、最終的な重要
文を抽出することができる。The weight is a score which is individually assigned to each sentence which is an element constituting the sentence data 121, and is used to store a weight value for each sentence as shown in the lower part of FIG. An area is prepared in the weight area 122. Then, as a result of the important sentence extraction processing 111, the weight area 1
The final important sentence can be extracted by selecting a sentence to be output by an appropriate algorithm from the weight data output to 22.
【0023】なお、主語連鎖、陳述連鎖および連接関係
に関して、それぞれの解析と重み付けを別々に行なわず
まとめて実行してもよいが、後述のように陳述連鎖の重
み付け処理においては文の連接関係を利用するため、少
なくとも、陳述連鎖の重み付けの前に各文の連接関係の
解析が終了しているのが望ましい。Note that the subject chain, the declarative chain, and the concatenation relationship may be executed collectively without separately performing the analysis and the weighting. For use, it is desirable that at least analysis of the concatenation relation of each sentence be completed before weighting of the statement chain.
【0024】[重み付け処理全体の流れ]図2は、本実
施形態の重要文抽出処理における重み付け処理全体の処
理の流れを示している。この段階では、主語連鎖の解
析、陳述連鎖の解析(ただしこの段階では文単位の辞の
解析まで)、連接関係の解析は終了しており、それぞれ
の解析結果123、125、128が記憶手段12に格
納されているものとする。[Whole Flow of Weighting Process] FIG. 2 shows a flow of the whole weighting process in the important sentence extraction process of the present embodiment. At this stage, the analysis of the subject chain, the analysis of the statement chain (however, at this stage, up to the analysis of the sentence unit), and the analysis of the concatenation relationship have been completed. Shall be stored in
【0025】主語連鎖、陳述連鎖および連接関係の解析
の詳細については、後にそれぞれの重み付け処理を詳述
する際にまとめて説明する。The details of the analysis of the subject chain, the statement chain, and the concatenation relationship will be described later when the respective weighting processes are described in detail.
【0026】本実施形態においては、まず、出力に用い
る重み領域122をクリアする(ステップS101)。
この重み領域122は、最終出力の重みのみならず、後
述の各処理段階で得られる中間結果をそれぞれ記憶する
重み領域も含む。In this embodiment, first, the weight area 122 used for output is cleared (step S101).
The weight area 122 includes not only the weight of the final output but also a weight area for storing an intermediate result obtained in each processing step described later.
【0027】続いて文章データ121を図1の記憶手段
12の入力領域に読み込む(ステップS102)。文章
データ121は他のコンピュータ(LANやインターネ
ット上のものを含む)やフロッピーディスクなどの記憶
媒体などに格納されているものを適当な入力手段を介し
て読み込めばよい。Subsequently, the text data 121 is read into the input area of the storage means 12 of FIG. 1 (step S102). The text data 121 may be read from other computers (including those on a LAN or the Internet) or data stored in a storage medium such as a floppy disk via an appropriate input means.
【0028】文章データ121は、制御手段11の重要
文抽出処理111に渡され、重要文抽出処理111にお
いては、まず、文章データ121の構成要素である各文
につき、主語連鎖による重み付け112(ステップS1
03〜S105)、および陳述連鎖による重み付け11
3を行なう(ステップS106、S107)。主語連鎖
による重み付け112の結果は、一旦、重み領域122
中の対応する領域に書き込まれる(ステップS10
5)。The sentence data 121 is passed to an important sentence extraction process 111 of the control means 11. In the important sentence extraction process 111, first, each sentence which is a component of the sentence data 121 is weighted by subject chain 112 (step S1
03 to S105), and weighting 11 by a statement chain
3 is performed (steps S106 and S107). The result of the weighting 112 based on the subject chain is temporarily
(Step S10)
5).
【0029】なお、本発明では、文章データ121を、
それを構成する文に分解し、さらに、後述の連鎖および
連接の解析を行なうために文を接続詞、助詞、動詞とい
った要素(形態素)に分解し、あるいはさらに必要に応
じて文節へと再構成する必要がある。このような文、お
よび要素への分解は適当なアルゴリズム、たとえば、公
知の種々の形態素解析技術により行なえばよい。たとえ
ば、文への分解は句読点などのデリミタの検出により行
なうことができ、文の接続詞、助詞、動詞といった要素
(形態素)への分解、あるいは文節への再構成などの処
理はあらかじめ用意した辞書データを用いてパターンマ
ッチングすることなどにより行なうことができる。In the present invention, the sentence data 121 is
Decompose the sentence into its constituent sentences, and further disassemble the sentence into elements (morphemes) such as connectives, particles, and verbs in order to analyze the linkage and concatenation described later, or reconstruct them into phrases as necessary There is a need. Such decomposition into sentences and elements may be performed by an appropriate algorithm, for example, various known morphological analysis techniques. For example, decomposition into sentences can be performed by detecting delimiters such as punctuation marks, and processing such as decomposition of sentences into elements (morphemes) such as connectives, particles, and verbs, or processing such as reconstruction into phrases is performed using dictionary data prepared in advance. For example, by performing pattern matching.
【0030】主語および陳述連鎖の解析処理の詳細につ
いては後述するが、ここでは、図1の記憶手段12に格
納された主語連鎖重み付け規則124、および陳述連鎖
重み付け規則126を読み込み、これらの規則に基づき
後述のような重み付け処理をそれぞれ実行することによ
り行なわれる。The details of the subject and statement chain analysis processing will be described later, but here, the subject chain weighting rule 124 and the statement chain weighting rule 126 stored in the storage means 12 of FIG. 1 are read, and these rules are read. This is performed by executing a weighting process as described later on the basis of each.
【0031】続いて、主語および陳述連鎖の解析により
得られた重みが合計され(ステップS108)、重みの
合計が重み領域122中の対応する領域に書き込まれる
(ステップS109)。Subsequently, the weights obtained by analyzing the subject and the statement chain are summed (step S108), and the sum of the weights is written to the corresponding area in the weight area 122 (step S109).
【0032】さらに、本実施形態においては、上記の文
章データ121を構成する各文についての主語および陳
述連鎖による重み付け112、113に加え、各文の連
接関係に基く重み調節処理114、115を行ない(ス
テップS110)、得られた結果により、主語および陳
述連鎖による重み付け112、113により決定された
各文の重みを調節する。Further, in the present embodiment, in addition to the weights 112 and 113 based on the subject and the statement chain for each sentence constituting the sentence data 121, weight adjustment processing 114 and 115 based on the concatenation relation of each sentence are performed. (Step S110) Based on the obtained result, the weight of each sentence determined by the weights 112 and 113 based on the subject and the statement chain is adjusted.
【0033】連接による重み調節処理114では、重み
調節規則127を用いるが、このとき単に文の出現順序
に応じた順序で重み調節を行なうのではなく、重み調節
順序決定処理115が決定した順序を用いる。In the weight adjustment process 114 by concatenation, the weight adjustment rule 127 is used. At this time, the weight adjustment is not performed simply in the order according to the appearance order of the sentences, but the order determined by the weight adjustment order determination process 115 is determined. Used.
【0034】この重み調節順序決定処理115では、後
述のように各文の関係に対応する依存グラフを作成し、
依存グラフをトポロジカルソートして順序データを生成
し、この順序データに応じて連接による重み調節処理1
14が連接による重み調節を各文に作用させる。In the weight adjustment order determination processing 115, a dependency graph corresponding to the relation between sentences is created as described later,
The dependency graph is topologically sorted to generate order data, and weight adjustment processing 1 by concatenation is performed according to the order data.
14 applies weight adjustment by concatenation to each sentence.
【0035】以上のように、主語および陳述連鎖による
重み付け112、113を行なった上、さらに連接によ
る重み調節を行なうことによって、精度のよい重み付け
を行なうことができる。As described above, accurate weighting can be performed by performing weighting 112 and 113 based on the subject and the statement chain and further performing weight adjustment by concatenation.
【0036】各文について得られた重みは、重み領域1
22の最終出力の重みを格納する領域に出力され(ステ
ップS111)、適当なアルゴリズムにより出力すべき
文を選択し、最終的な重要文を抽出する。この重み値に
基づく出力アルゴリズムは、たとえば重み値が所定点以
上のものを取り出す(ステップS112)ことなどによ
り行なえる。重要文の出力(ステップS113)は、テ
キストやHTMLなど任意のファイルフォーマットのデ
ータとして他のコンピュータ、プリンタなどの出力装置
に出力することができる。The weight obtained for each sentence is the weight area 1
The sentence to be output is output to an area for storing the final output weight 22 (step S111), a sentence to be output is selected by an appropriate algorithm, and a final important sentence is extracted. The output algorithm based on this weight value can be performed by, for example, extracting those whose weight value is equal to or more than a predetermined point (step S112). The output of the important sentence (step S113) can be output as data in an arbitrary file format such as text or HTML to an output device such as another computer or printer.
【0037】以下、図2で説明した重要文抽出処理の各
部につき順次説明する。まず、主語連鎖による重み付け
処理と、陳述連鎖による重み付け処理の全体の流れを説
明する。Hereinafter, each part of the important sentence extraction process described with reference to FIG. 2 will be sequentially described. First, the overall flow of the weighting process using the subject chain and the weighting process using the statement chain will be described.
【0038】[連鎖論および主語/陳述連鎖による重み
付け処理]図3は、重要文抽出処理のうち、主語連鎖に
よる重み付け処理112の流れを示している。この主語
連鎖による重み付け処理では、文章データ121を受け
取り(ステップS201)、主語連鎖重み付け規則12
4を読み込み(ステップS202)、ループ(ステップ
S203〜S207)を実行する。すなわち、文章デー
タ121を構成する各文のそれぞれについて(ステップ
S203)、文を読み込み(ステップS204)、各文
の主語連鎖の解析結果123を読み込み(ステップS2
05)、その文の主語連鎖の類型(後述)と主語連鎖重
み付け規則124に基づきその文の重みを決定し(ステ
ップS206)、さらに得られた重みを各文ごとに重み
領域122に格納し(ステップS207)、図3の主語
連鎖による重み付け処理を呼び出した上位の重要文抽出
処理ルーチンに対して、重み領域122中の各文の重み
領域へのポインタなどの形式で、得られた各文の主語連
鎖による重みの値を返す。[Weighting Process by Chain Theory and Subject / Declaration Chain] FIG. 3 shows a flow of the subject chain weighting process 112 in the important sentence extraction process. In the subject chain weighting process, the sentence data 121 is received (step S201), and the subject chain weighting rule 12 is received.
4 is read (step S202), and a loop (steps S203 to S207) is executed. That is, for each sentence constituting the sentence data 121 (step S203), the sentence is read (step S204), and the subject chain analysis result 123 of each sentence is read (step S2).
05), the weight of the sentence is determined based on the subject chain type of the sentence (described later) and the subject chain weighting rule 124 (step S206), and the obtained weight is stored in the weight area 122 for each sentence (step S206). Step S207), for the upper-level important sentence extraction processing routine that called the subject chain weighting processing of FIG. 3, in the form of a pointer to the weight area of each sentence in the weight area 122, the obtained sentence Returns the value of the subject chain weight.
【0039】図4は重要文抽出処理のうち、陳述連鎖に
よる重み付け処理113を示している。この重み付け処
理では、文章データ121を受け取り(ステップS30
1)、陳述連鎖重み付け規則126を読み込み(ステッ
プS302)、ループ(ステップS303〜S308)
を実行する。FIG. 4 shows a weighting process 113 based on a statement chain in the important sentence extraction process. In this weighting process, the text data 121 is received (step S30).
1) Read the statement chain weighting rule 126 (step S302), loop (steps S303 to S308)
Execute
【0040】ステップS303〜S308のループは、
各文ごとに実行するものであるが、まず、連接関係の解
析結果128を読み込み(ステップS304)、当該の
文と連接関係を有する全ての文について(ステップS3
05)、各文の陳述連鎖の解析結果(この段階では後述
の「辞」の解析結果のみ)125を読み込み(ステップ
S306)、当該の文と、当該の文に連接関係を有する
文の「辞」が形成する陳述連鎖の類型(後述)と陳述連
鎖重み付け規則126から当該の文の重みを決定し(ス
テップS307)、得られた重みを各文ごとに重み領域
122に格納し(ステップS308)、図4の陳述連鎖
による重み付け処理を呼び出した上位の重要文抽出処理
ルーチンに対して、重み領域122中の各文の重み領域
へのポインタなどの形式で、得られた各文の陳述連鎖に
よる重みの値を返す。The loop of steps S303 to S308 is as follows:
This is executed for each sentence. First, the analysis result 128 of the connection relation is read (step S304), and all the sentences having the connection relation with the relevant sentence are read (step S3).
05), the analysis result of the statement chain of each sentence (in this stage, only the analysis result of the “end” described later) 125 is read (step S306), and the sentence and the sentence having a connection relationship with the sentence are read. Is determined from the statement chain type (described later) and the statement chain weighting rule 126 (step S307), and the obtained weight is stored in the weight area 122 for each sentence (step S308). In the upper-level important sentence extraction processing routine that called the weighting process by the statement chain in FIG. 4, the statement chain of each obtained statement is used in the form of a pointer to the weight area of each statement in the weight area 122. Returns the weight value.
【0041】ここで、図7および図11に主語連鎖およ
び陳述連鎖による重み付けにおいて実際に用いられる重
み値の割り当て例を示し、これに基づき主語連鎖および
陳述連鎖の重み付けの詳細につき説明する。また、以下
では、主語連鎖/陳述連鎖の類型をどのように解析する
かについても併せて説明するとともに、上記のフローチ
ャートの細部についても必要に応じて補足説明を加え
る。Here, FIGS. 7 and 11 show examples of assignment of weight values actually used in the weighting by the subject chain and the statement chain, and the details of the weighting of the subject chain and the statement chain will be described based on the assignment examples. In the following, how to analyze the type of the subject chain / declaration chain will be described together, and the details of the above flowchart will be supplemented as necessary.
【0042】前述のように、連鎖論における連鎖とは、
文章全体を通して考えたとき、ある文の働きを示したも
ので、連鎖には主語の連鎖と陳述の連鎖の2種類があ
り、主語の連鎖は、文全体の主語に着目したものであ
り、陳述の連鎖は、文全体の陳述(述語)に着目したもの
である。As described above, the chain in the chain theory is
When viewed throughout the sentence, it indicates the function of a sentence. There are two types of chains: subject chains and statement chains. Subject chains focus on the subject of the entire sentence. Is a statement focusing on the statement (predicate) of the entire sentence.
【0043】本実施形態の主語連鎖による解析では、文
は図7のような4つのカテゴリーに分類される。すなわ
ち、現象文、判断文、述語文、準判断文の4つである。In the analysis by subject chain in this embodiment, sentences are classified into four categories as shown in FIG. That is, there are four phenomena, a judgment, a predicate, and a quasi-judgment.
【0044】このうち、現象文は主語が格助詞「が」に
準ずるものによって示される文を云う。判断文は、同様
に、格助詞「は」に準ずるものによって示される文を云
う。準判断文は、判断文の主語が省略された形を云う。
述語文は主語を必要としない文のことである。たとえ
ば、次のような文章につき、主語連鎖を解析すると 1.ある日曜日の朝のことである。 (述語文) 2.わたし「は」久しぶりに早起きをした。 (判断文) 3.ツイピー、 ツイピーという小鳥の鳴き声「が」聞こえる。(現象文) 4.カーテンを開けてみた。 (準判断文) 5.シジュウカラであった。 (準判断文) のように分類することができる。Of these, the phenomenon sentence is a sentence whose subject is indicated by something similar to the case particle "ga". Similarly, the judgment sentence refers to a sentence indicated by something similar to the case particle “ha”. The quasi-judgment sentence is a form in which the subject of the judgment sentence is omitted.
A predicate sentence is a sentence that does not require a subject. For example, when analyzing the subject chain for the following sentences: One Sunday morning. (Predicate sentence) I got up early after a long time. (Decision sentence) I can hear the singing of the little bird called "Twipie". (Phenomenon statement) I opened the curtain. (Assistant sentence) It was a great tit. (Quasi-judgment sentence).
【0045】したがって、現象文と、判断文について
は、あらかじめ文が公知の形態素解析により形態素、た
とえば品詞の要素に分解されていれば、格助詞「が」お
よび「は」をそれぞれ予め用意した辞書データを用いて
パターンマッチングすることにより検出することができ
る。そして、述語文は格助詞の検出に基づき主語が存在
しないことを判断することにより、また、準判断文は格
助詞の検出に基づき主語が省略された文型であることを
判断することにより検出することができる。Therefore, as for the phenomena sentence and the judgment sentence, if the sentence has been previously decomposed into morphemes, for example, parts of speech, by a known morphological analysis, a dictionary in which case particles "ga" and "ha" are prepared in advance It can be detected by performing pattern matching using data. The predicate sentence is detected by judging that the subject does not exist based on the detection of the case particle, and the quasi-judgment sentence is judged by judging that the subject is a sentence pattern in which the subject is omitted based on the detection of the case particle. be able to.
【0046】なお、上記の文例、後述の図9〜図13中
の文例は永野賢著「文章論総説」(朝倉書店刊 ISB
N4−254−51011−X C3081)による。The above sentence example and the sentence examples in FIGS. 9 to 13 which will be described later are described in Ken Nagano's "Sentence theory review" (ISB
N4-254-51011-X C3081).
【0047】本実施形態の主語連鎖による重み付けで
は、現象文、判断文、述語文、準判断文の4つの類型へ
分類する処理は、図1の場合、主語連鎖解析結果123
として既に得られている。図3の重み付けでは、この主
語連鎖解析結果123を読み込み(ステップS20
5)、その結果に応じて図7のように重みを割り付ける
(ステップS206)が、このとき、さらに図示のよう
に文の段落中での出現位置により、重みの割り付けを変
更するとよい。In the weighting based on the subject chain according to the present embodiment, the process of classifying into four types of the phenomena sentence, the judgment sentence, the predicate sentence, and the quasi-judgment sentence is performed in the case of FIG.
Has already been obtained. In the weighting of FIG. 3, the subject chain analysis result 123 is read (step S20).
5) According to the result, weights are allocated as shown in FIG. 7 (step S206). At this time, the weight allocation may be changed according to the appearance position in the paragraph of the sentence as shown in the figure.
【0048】すなわち、図7において文の出現位置とし
て「書き起こし」および「書き納め」とあるのは、それ
ぞれ、その文が段落中の開始位置にある(段落中の最初
の文である)か、その文が段落中の終了位置にある(段
落中の最後の文である)かを示す。本実施形態において
は、段落中のこれらの「書き起こし」および「書き納
め」にある文のみについて主語連鎖の解析を行ない、ま
た、これらの文についてのみ重み付けを行なう。これ
は、段落の開始および終了位置の文として重要文が出現
する可能性が高いことと、これらの文のみを処理の対象
とすることにより、計算資源を節約しようとするためで
あるが、もちろん、適当な重み付け規則を用いて全ての
文につき主語連鎖の解析および重み付けを行なうように
してもよい。That is, in FIG. 7, “transcription” and “transcription” as the appearance positions of the sentence indicate whether the sentence is at the start position in the paragraph (the first sentence in the paragraph), respectively. Indicates whether the sentence is at the end position in the paragraph (is the last sentence in the paragraph). In the present embodiment, subject chain analysis is performed only on the sentences in the “transcription” and “transcription” in the paragraph, and weighting is performed only on these sentences. This is because an important sentence is likely to appear as a sentence at the start and end of a paragraph, and it is intended to save computational resources by processing only these sentences. Alternatively, subject chain analysis and weighting may be performed for all sentences using an appropriate weighting rule.
【0049】図7の例では、判断文、および述語文につ
いては文の出現位置にかかわらず(出現位置が「書き起
こし」および「書き納め」のいずれの位置であっても)
+10の重み値を、準述語文についても同様に文の出現
位置にかかわらず、−8の重み値を割り付けている。In the example of FIG. 7, the judgment sentence and the predicate sentence are irrespective of the appearance position of the sentence (regardless of whether the appearance position is "transcription" or "writing").
The weight value of +10 is similarly assigned to the quasi-predicate sentence regardless of the appearance position of the sentence.
【0050】現象文については、書き起こしの位置では
−8の重み値を、また書き納めの位置では、前文が現象
文でない場合は+10の重み値を、それ以外の場合は−
3の重み値を割り付けている。For the phenomena sentence, a weight value of -8 is set at the transcript position, a weight value of +10 is set at the transcribed position if the preceding sentence is not a phenomena sentence, and-is set otherwise.
A weight value of 3 is assigned.
【0051】すなわち、図7の例では、判断文および述
語文の重み値の配点が高く、現象文については段落の書
き納めの位置において前文が現象文でない場合の配点を
高くし、それ以外の位置では準判断文と同等の配点にな
っている。That is, in the example of FIG. 7, the weighting points of the judgment sentence and the predicate sentence are high, and for the phenomena sentence, when the preceding sentence is not a phenomena sentence at the writing position of the paragraph, the score is raised. At the position, the score is the same as the quasi-judgment sentence.
【0052】図7のような重み値は数値が大きいほど重
要文である可能性が高いことを示すものであるが、主語
連鎖の各類型に対する重み値の配点はシステムの設計思
想に応じて適当に定めればよい。The weight value as shown in FIG. 7 indicates that the larger the numerical value is, the more likely it is to be an important sentence. However, the weight value allocation for each type of subject chain is appropriate according to the system design concept. Should be determined.
【0053】なお、文の段落中の出現位置については、
あらかじめ段落(字下げや改行の数の検出などにより検
出できる)を検出しておくことにより容易に検出できる
のはいうまでもない。Incidentally, regarding the appearance position in the paragraph of the sentence,
Needless to say, it can be easily detected by detecting a paragraph (which can be detected by detecting the number of indents or line feeds) in advance.
【0054】また、図7に示した主語連鎖による解析の
手法はあくまでも一例に過ぎず、図7のように段落中の
文の出現位置(書き起こしか、書き納めか)により重み
値を調節する処理は必ずしも行なう必要はない。The analysis method using subject chains shown in FIG. 7 is merely an example, and the weight value is adjusted according to the appearance position of a sentence in a paragraph (transcription or writing) as shown in FIG. Processing need not necessarily be performed.
【0055】一方、陳述の連鎖は、文を「辞」によって
関係辞、統一辞、述定辞、伝達辞の4種類に分類した
上、連接関係を有する複数の文(通常、2文)の辞がど
のような組合せになっているかを調べることにより解析
することができる。On the other hand, a chain of statements is obtained by classifying a sentence into four types, a relational word, a unified word, a predicate word, and a communicative word by using a word, and then a plurality of sentences (usually two sentences) having a concatenated relationship. It can be analyzed by examining the combination of the words.
【0056】文が関係辞、統一辞、述定辞、伝達辞のい
ずれであるかは、文末の語の形式によって区別できる。
たとえば、次の文は、文末の助動詞"ね"が伝達辞である
ので文全体としては伝達辞の文と判断される。Whether a sentence is a relational word, a unified word, a predicate word, or a convey word can be distinguished by the form of the word at the end of the sentence.
For example, in the following sentence, since the auxiliary verb "ne" at the end of the sentence is a contagion, the sentence as a whole is determined to be a contagion sentence.
【0057】6.桜の花が咲いたかしらね。6. I wonder if the cherry blossoms have bloomed.
【0058】詳細には、関係辞、統一辞、述定辞、伝達
辞の機能は図8に示すように分類される。具体的には、
これらの辞は、図9に示すような文の要素(品詞)に対
応づけられている。More specifically, the functions of relational words, unified words, predicates, and convey words are classified as shown in FIG. In particular,
These words are associated with sentence elements (parts of speech) as shown in FIG.
【0059】ちなみに、上の「桜の花が咲いたかしら
ね。」の1文は、より詳細には、図10に示すような
「辞」の連鎖から構成されたものであると分析すること
ができる。By the way, it can be analyzed in more detail that the above sentence "I wonder if the cherry blossoms have bloomed" is composed of a chain of "D" as shown in FIG. it can.
【0060】すなわち、陳述の連鎖から見ると、この文
は「桜」、「花」、「咲く」の「詞」、および、「の」
(関係辞)、「が」(関係辞)、「た」(統一辞)、
「かしら」(述定辞・伝達辞)、「ね」(伝達辞)の
「辞」から構成されている。文の機能を考えると、最も
最後(文末)の辞がこの文の機能を表していると考えら
れるため、通常は文の機能を決定づける辞としては文末
の辞のみを取り出せばよい。That is, from the statement chain, this sentence is composed of “sakura”, “flower”, “blooming” “lyric”, and “no”.
(Relation), "ga" (relation), "ta" (unification),
It is composed of "Kashira" (predicate and handwritten words) and "Ne" (handwritten words). When considering the function of a sentence, it is considered that the last (end of sentence) word represents the function of this sentence, so that usually only the last word of the sentence need be extracted as the word that determines the function of the sentence.
【0061】図9のような品詞の検出は予め用意した辞
書とのパターンマッチングにより行なうことができ、こ
れにより文の機能を決定づける文末の「辞」の要素を検
出し、その文が関係辞、統一辞、述定辞、伝達辞のいず
れの文であるかを検出できる。The part-of-speech detection as shown in FIG. 9 can be performed by pattern matching with a dictionary prepared in advance. As a result, the element at the end of the sentence that determines the function of the sentence is detected. It can detect whether the sentence is a unified word, predicate word, or convey word.
【0062】図1の陳述連鎖解析結果125とは、各文
のこの「辞」の型の解析結果であり、図4の陳述連鎖の
重み付けを開始する時点では既にこの解析結果は得られ
ているものとする。The statement chain analysis result 125 in FIG. 1 is the result of analyzing this sentence type of each sentence, and this analysis result has already been obtained when the weighting of the statement chain in FIG. 4 is started. Shall be.
【0063】そして、図4の陳述連鎖の重み付け処理で
は、連接関係を有する複数の文につき、関係辞、統一
辞、述定辞、伝達辞がどのような順序で出現するかを調
べることにより、その複数の文の陳述連鎖の類型を特定
し、重み付けを行なうことができる(図4のステップS
305〜S308)。In the weighting process of the statement chain in FIG. 4, by examining the order in which relational words, unified words, predicate words, and convey words appear in a plurality of sentences having a concatenated relation, The type of statement chain of the plurality of sentences can be specified and weighted (step S in FIG. 4).
305 to S308).
【0064】たとえば、陳述連鎖の類型は、図11のよ
うに、複数文の「辞」の連鎖の構造として分類すること
ができ、各々の陳述連鎖の種類に応じて重みを割り付け
ることができる。より具体的には、特定文bが他の文a
と連接関係を有し、その連鎖関係が図11の連鎖関係の
いずれかに該当する場合、対応する重みをその特定文b
に付与する。For example, as shown in FIG. 11, the type of statement chain can be classified as a structure of a chain of plural sentences, and weights can be assigned according to the type of each statement chain. More specifically, the specific sentence b is replaced by another sentence a.
When the chain relation corresponds to one of the chain relations in FIG. 11, the corresponding weight is set to the specific sentence b.
To be given.
【0065】また、図11では、図示の陳述連鎖の種類
に同一の重み値+15を割り付けているが、図11に
は、全ての2文の陳述連鎖の関係はリストされておら
ず、図示以外の陳述連鎖の種類については重み値は割り
付けられない(配点0)。In FIG. 11, the same weight value +15 is assigned to the type of statement chain shown in FIG. 11, but the relationship of statement chains of all two sentences is not listed in FIG. No weight value is assigned to the type of statement chain of (No. 0).
【0066】なお、図11では、簡略化のために図示の
陳述連鎖の種類に同一の重み値+15を割り付けている
が、もちろんより細かく配点を変更することもできる。In FIG. 11, the same weight value +15 is assigned to the type of statement chain shown in the figure for simplicity, but it is of course possible to change the allocation more finely.
【0067】前述の通り、図11のように複数文の陳述
連鎖の構造を分類するためには、予め文章データ121
を構成する各文の連接関係を解析しておく(図1の連接
解析結果128を用意しておく)必要がある。ただし、
陳述連鎖による重み付けでは、少なくとも陳述連鎖の重
み付けの対象とする複数文を特定するために連接関係を
利用できればよく、後述の連接による重み調節で必要と
される連接関係の類型(後述の図13および図14)の
解析結果までは用いる必要はない。As described above, in order to classify the structure of the statement chain of a plurality of sentences as shown in FIG.
It is necessary to analyze the concatenation relation of each sentence that constitutes (the concatenation analysis result 128 of FIG. 1 is prepared). However,
In the weighting by the statement chain, it is sufficient that the connection relation can be used to specify at least a plurality of sentences to be weighted by the statement chain, and the type of the connection relation required for weight adjustment by the connection described later (see FIG. 13 and FIG. It is not necessary to use up to the analysis result of FIG.
【0068】あるいは、より簡略な処理としては、連接
関係を用いず陳述連鎖の重み付けを行なう、たとえば、
隣りあう2文を順次取り出して、その辞の分類に基づき
陳述連鎖の重み付けを行なうなどの構成も考えられる
が、上記のように連接関係を用いることにより後述のよ
うな飛石型のように文が直接隣りあわないような連接関
係を持つ複数文の陳述連鎖を処理に反映させることがで
きる、という利点がある。Alternatively, as a simpler processing, weighting of the statement chain is performed without using the connection relation.
A configuration in which two adjacent sentences are sequentially taken out and weighting of the statement chain is conceived based on the classification of the lexicon may be considered. There is an advantage that a statement chain of a plurality of sentences having a connection relationship that is not directly adjacent can be reflected in the processing.
【0069】以上のようにして、主語連鎖および陳述連
鎖の解析を行ない、それぞれの結果により、文章を構成
する各文のそれぞれについて重みを割り付けることがで
きる。図7および図11に示した主語連鎖および陳述連
鎖の重み付けのルールは適当なデータフォーマットを用
いて主語連鎖の重み付け規則データ124、および陳述
連鎖の重み付け規則データ126として格納しておけば
よい。As described above, the subject chain and the statement chain are analyzed, and the weight can be assigned to each of the sentences constituting the sentence based on the respective results. The weighting rules for the subject chain and the statement chain shown in FIGS. 7 and 11 may be stored as the subject chain weighting rule data 124 and the statement chain weighting rule data 126 using an appropriate data format.
【0070】[連接論および連接による重み付け処理]
本発明においては、上記のようにして主語連鎖および陳
述連鎖による重み付けを行ない、さらに連接関係の解析
結果に基づき重み調整を行なう。この連接関係による重
み調節では、文の連接関係(どの文が関係しているか)
だけではなく連接の型(どのように連接しているか)ま
でも分類し、その結果に応じて重み調整を行なう。[Connection theory and weighting processing by connection]
In the present invention, weighting is performed by the subject chain and the statement chain as described above, and weight adjustment is performed based on the analysis result of the connection relation. In the weight adjustment by this connection relation, the connection relation of sentences (which sentence is related)
Not only the type of connection but also the type of connection (how they are connected), and weight adjustment is performed according to the result.
【0071】連接による重み調整の流れは図5および図
6に示されているが、この処理の流れの詳細を説明する
前に文の連接につき説明する。The flow of weight adjustment by concatenation is shown in FIG. 5 and FIG. 6. Before describing the details of this processing flow, concatenation of sentences will be described.
【0072】連接とは、2つ以上の文の間の関係を示す
概念で、その型は主に同格型、捕捉型、展開型、反対
型、累加型、対比型、転換型に分類される。Concatenation is a concept indicating the relationship between two or more sentences, and the types are mainly classified into an equal type, a capture type, an expansion type, an opposite type, an additive type, a contrast type, and a conversion type. .
【0073】たとえば、次のような文章では 1. 大阪本町糸屋の娘。For example, in the following sentence: The daughter of Itoya in Hommachi, Osaka.
【0074】2. 姉は十六、妹は十五。2. My sister is 16 and my sister is 15.
【0075】3. 諸国大名は弓矢で殺す。3. The national lords kill with bow and arrow.
【0076】4. 糸屋の娘は目で殺す。4. The daughter of Itoya kills with his eyes.
【0077】文2は1に対して展開という関係にある。
文3は2に対して転換という関係にある。文4は3に対
して対比という関係にあり、1、2を合わせたものに対
して展開という関係にある。Sentence 2 has a relationship of expansion with respect to 1.
Sentence 3 has a relation of conversion to 2. Sentence 4 has a relation of contrast to 3, and has a relation of expansion to the combination of 1 and 2.
【0078】連接関係の上記の各類型の意味は図12に
示す通りである。図12では、上記の類型の他に、文を
隔てて2文が連接する飛石型、および2つ以上の文が1
文と連なる積石型が示されているが、以下ではコンピュ
ータによる解析が比較的容易と考えられる2文の関係を
中心に取り扱うものとし、飛石型、積石型については連
接の分類などの処理においては直接言及しない。The meanings of the above-mentioned types of connection are as shown in FIG. In FIG. 12, in addition to the above-described types, a stepping stone type in which two sentences are connected with a sentence therebetween, and two or more sentences
Although the stone type that is linked to the sentence is shown, the following focuses on the relationship between two sentences that is considered to be relatively easy to analyze by a computer. Will not be mentioned directly.
【0079】連接の各類型の文例を図13に示す。図示
のように、連接関係の類型は多くは接続詞を検出するこ
とにより識別することができるが、累加型のように助詞
の連用を検出する必要があるものも存在する。FIG. 13 shows a sentence example of each type of concatenation. As shown in the figure, the type of concatenation relation can be identified by detecting a conjunction in many cases. However, there are some types such as a cumulative type which need to detect continuous use of particles.
【0080】本実施形態の連接関係の解析では、文章デ
ータ121を構成する隣りあった2文それぞれにつき、
予め用意した辞書のパターンマッチングにより接続詞を
解析し、また、助詞の連用を検出するなどの処理を行な
うことにより各2文ごとの連接関係を識別する。In the analysis of the connection relation according to the present embodiment, for each of two adjacent sentences constituting the sentence data 121,
The connection is analyzed by pattern matching of a dictionary prepared in advance, and the connection relation for each two sentences is identified by performing processing such as detecting the consecutive use of particles.
【0081】そして、主語連鎖および陳述連鎖による重
み付けにより得られた各文の重み値を、図14に示すよ
うに連接関係に対応する2文を単位として重みを調節す
る。なお、図14では、転換型については重み調節を行
なわないようになっているが、これは転換型が話題を転
じる機能を有するので、転換型で連接する前後の2文で
重みを違えるべきではないからである。Then, as shown in FIG. 14, the weight of each sentence obtained by weighting with the subject chain and the descriptive chain is adjusted in units of two sentences corresponding to the connection relation. In FIG. 14, the weight adjustment is not performed for the conversion type. However, since the conversion type has a function of changing the topic, the weight should not be changed between the two sentences before and after the connection in the conversion type. Because there is no.
【0082】また、図14に示した連接の類型の解析に
基づく重み調節は、文の出現順にそのまま作用させる訳
にはいかない。これは、2文(あるいは積石型なども検
出する場合はそれ以上の複数の文)を単位として重み調
節を行なうのと、連接関係は文と文との依存関係と見る
ことができるからである。つまり、誤まった順序で重み
調節を行なったのでは正確な重みを得られないので、連
接による重み調節を行なう場合にはその順序をまず決定
しなければならない。The weight adjustment based on the analysis of the type of concatenation shown in FIG. 14 cannot be directly applied in the order of appearance of sentences. This is because weight adjustment is performed in units of two sentences (or more than one sentence when a stone-stone type or the like is detected), and the connection can be regarded as a dependency between sentences. is there. That is, if weight adjustment is performed in an incorrect order, accurate weights cannot be obtained. Therefore, when weight adjustment is performed by concatenation, the order must be determined first.
【0083】そこで、本実施形態においては、図5のよ
うに連接による重み調節(図1の処理114)を行なう
場合に、図6の重み調節順序の決定処理(図1の処理1
15、図5のステップS403)を行なう。Therefore, in the present embodiment, when weight adjustment by concatenation is performed as shown in FIG. 5 (process 114 in FIG. 1), the weight adjustment order determination process in FIG. 6 (process 1 in FIG. 1) is performed.
15. Step S403 in FIG. 5 is performed.
【0084】すなわち、図5の連接による重み調節にお
いては、まず、上述のようにして主語連鎖および陳述連
鎖により得られた各文の重みを入力し(ステップS40
1)、続いて連接による重み規則(図1の127)を読
み込み(ステップS402)、ここで図6の重み調節順
序の決定処理を呼び出す。That is, in the weight adjustment by concatenation in FIG. 5, first, the weight of each sentence obtained by the subject chain and the statement chain as described above is input (step S40).
1) Then, a weight rule by concatenation (127 in FIG. 1) is read (step S402), and the weight adjustment order determination processing in FIG. 6 is called here.
【0085】本実施形態では、文の連接関係を依存関係
であると考え、図6の重み調節順序の決定処理では、各
文(実際には文番号などの文の識別データを用いる)の
連接関係を依存関係に対応づけて依存グラフに登録す
る。In the present embodiment, the connection of sentences is considered to be a dependency, and the connection of each sentence (actually, sentence identification data such as a sentence number is used) in the weight adjustment order determination process of FIG. Register the relationship in the dependency graph in association with the dependency.
【0086】依存グラフとは、周知のように、依存関係
を有する事象の集合を解析するために用いられる概念
で、ノード(頂点、点などとも呼ばれる)と、その依存
関係を表す枝(エッジなどとも呼ばれる)を用いて表現
される。グラフアルゴリズムの分野では、場合によって
多少異なる用語が用いられることがあるが、本実施形態
における「依存グラフ」は、ノードの関係が方向性を有
するいわゆる有向グラフ(Directed Grap
h)と等価なものである。As is well known, a dependency graph is a concept used to analyze a set of events having a dependency, and a node (also called a vertex or a point) and a branch (an edge or the like) representing the dependency. ). In the field of the graph algorithm, a slightly different term may be used in some cases, but the “dependency graph” in the present embodiment is a so-called directed graph (Directed Graph) in which the relationship between nodes is directional.
h).
【0087】図6の重み調節順序決定においては、文の
連接関係を依存グラフに変換するが、まず全ての連接関
係を読み込む(ステップS501)。ここでは読み込ん
だ文には一意な文番号が割り付けられており、文番号は
文章中での出現の順で増加していくものとする。In determining the weight adjustment order shown in FIG. 6, the connection relation between sentences is converted into a dependency graph. First, all connection relations are read (step S501). Here, a unique sentence number is assigned to the read sentence, and the sentence number increases in the order of appearance in the sentence.
【0088】そして、文章を構成する各文の全ての連接
関係について(S502)ループを実行し、2文の連接
関係が同格または捕捉の場合には、文番号の大きい文を
始点、小さい文を終点とする枝を生成する(ステップS
503、S504)。また、2文の連接関係が展開また
は反対または累加の場合は文番号の小さい文を始点、大
きい文を終点とする枝を生成する(ステップS505、
S506)。Then, a loop is executed for all the connected relations of the sentences constituting the sentence (S502), and when the connected relation of the two sentences is equal or captured, the sentence with the larger sentence number is set as the starting point, Generate a branch to be the end point (step S
503, S504). If the concatenation relationship between the two sentences is expanded, reversed, or cumulative, a branch is created with the sentence with the lower sentence number as the starting point and the larger sentence as the end point (step S505).
S506).
【0089】また、2文の連接関係が対比型の場合(ス
テップS507)は、2文が意味的に対等な関係で相互
に依存しているものと考えられ、その双方の関係を重み
に反映させる必要があるため、まず、文番号の大きい文
を始点、小さい文を終点とする枝を作成し(ステップS
508)、さらに逆方向の枝で接続されたダミーのノー
ドを作成する(ステップS509、S510)。このよ
うな処理を行なうことにより、依存グラフをいわゆるD
AG(Directed Acyclic Grap
h)として容易に取り扱えるようになる。When the connection relation between the two sentences is a contrast type (step S507), it is considered that the two sentences depend on each other in a semantically equal relationship, and the relationship between the two sentences is reflected in the weight. First, a branch having a sentence with a high sentence number as a start point and a small sentence as an end point is created (Step S).
508), and create a dummy node connected by a branch in the opposite direction (steps S509 and S510). By performing such processing, the dependency graph is converted into a so-called D
AG (Directed Acyclic Group)
h) can be easily handled.
【0090】なお、依存グラフは、種々のリストのよう
な公知の任意のプログラム手法により記憶手段上で表現
することができ、公知の種々のリスト演算の手法により
取り扱うことができる。The dependency graph can be expressed on the storage means by a known arbitrary program method such as various lists, and can be handled by various known list operation methods.
【0091】文の連接関係に基づき生成される依存グラ
フは、たとえば、図15のような構造となる。この図1
5の依存グラフは後述の図17以降の実例の例文から作
成されたものである。図15では6つの文(文番号1〜
6)からなる文章(対応する実例については後で詳述す
る)が示されており、そのうち文2および3と、文5お
よび6が対比型の連接関係にあり、図6のステップS5
07〜S510の処理によりそれぞれ逆方向の枝で連結
されたダミーのノード2’、3’、5’、6’が生成さ
れている。これは対比型の連接関係は、2文が意味的に
対等な関係であるためである。また、文4が、文3およ
び文5の2つのノードとの間に枝を有しているのは、文
4が文5と反対型の連接関係となっているためである。
図15および図16については、後述の図17以降の実
例の説明においても再度参照する。The dependency graph generated based on the connection relation of sentences has a structure as shown in FIG. 15, for example. This figure 1
The dependency graph No. 5 is created from an example sentence of an example shown in FIG. In FIG. 15, six sentences (sentence numbers 1 to
6) (corresponding examples will be described later in detail), of which sentences 2 and 3 and sentences 5 and 6 are in a concatenated connection relationship, and are shown in step S5 in FIG.
Through the processing from 07 to S510, dummy nodes 2 ', 3', 5 'and 6' connected by branches in opposite directions are generated. This is because the contrast type connection relation is a relation in which two sentences are semantically equivalent. Sentence 4 has a branch between two nodes of sentence 3 and sentence 5 because sentence 4 has an opposite type of connection with sentence 5.
FIGS. 15 and 16 will be referred to again in the description of the examples after FIG.
【0092】本実施形態の重み調節順序の決定処理で
は、図15のように生成された依存グラフから重み調節
順序という、いわば1次元的な構造を生成しなければな
らないが、本実施例では文の連接関係を表現した依存グ
ラフから重み調節順序を生成するのにトポロジカルソー
トを用いる(ステップS511)。In the process of determining the weight adjustment order of the present embodiment, a one-dimensional structure called a weight adjustment order must be generated from the dependency graph generated as shown in FIG. The topological sort is used to generate the weight adjustment order from the dependency graph expressing the concatenation relation (step S511).
【0093】トポロジカルソートは、順序集合を整列さ
せる手法の1つで、順序集合中の半順序関係に矛盾しな
いように全ての点を1次元構造に整列し直す処理であ
る。トポロジカルソートの手法は公知であり、プログラ
ムの詳細は省略するが、たとえば図15の依存グラフを
トポロジカルソートすると図16のような1次元構造が
得られる。トポロジカルソートを行なうと、図16に示
されるように、依存関係を示す枝(図中の矢印)が図中
の左から右を向き、これと逆方向のものが現れないよう
に整列される。Topological sorting is one of the methods for sorting ordered sets, and is a process of rearranging all points into a one-dimensional structure so as not to contradict partial order relations in the ordered sets. The method of topological sorting is known, and details of the program are omitted. For example, when the dependency graph of FIG. 15 is topologically sorted, a one-dimensional structure as shown in FIG. 16 is obtained. When the topological sort is performed, as shown in FIG. 16, the branches (arrows in the figure) indicating the dependencies are directed from left to right in the figure, and the branches are arranged so that those in the opposite direction do not appear.
【0094】なお、トポロジカルソートでは、依存関係
(方向性)の整列のみが問題とされるので、解は一意で
はなく、正しい解は複数存在しうる。たとえば、図16
の文6の位置は図の最も右側にあっても良い。このよう
なトポロジカルソートによる処理により、文章データ1
21を走査する回数をただの1度に抑えることができ
る。In the topological sort, since only the alignment of the dependencies (directions) is a problem, the solution is not unique, and a plurality of correct solutions may exist. For example, FIG.
May be located on the rightmost side of the figure. By the processing based on such topological sort, the sentence data 1
21 can be reduced to only one time.
【0095】また、連接関係、主語の連鎖、陳述の連鎖
を併用することによって、より精密な重み付け、および
重要文抽出を行うことができる。Further, by using a concatenation relationship, a chain of subjects, and a chain of statements together, more precise weighting and extraction of important sentences can be performed.
【0096】図16のように得られた重み調節順序は、
たとえば文番号の列として図6の処理を呼び出した図5
の重み調節処理に返される(ステップS512)。The weight adjustment order obtained as shown in FIG.
For example, FIG.
(Step S512).
【0097】再び図5において、重み調節処理は図6の
処理から重み調節順序を受け取り(ステップS40
4)、重み調節順序に基づき先頭に処理すべき文を決定
し(ステップS405)、重み調節順序にしたがって各
文を処理するループを実行する(ステップS406〜S
411)。Referring again to FIG. 5, the weight adjustment processing receives the weight adjustment order from the processing of FIG. 6 (step S40).
4), determine a sentence to be processed first based on the weight adjustment order (step S405), and execute a loop for processing each sentence according to the weight adjustment order (steps S406 to S).
411).
【0098】すなわち、重み調節順序の文番号の列の順
で、全ての文につき(ステップS406、S411)、
1つづつ文を選択し、さらに、その選択された文と連接
関係が存在するすべての文について(ステップS40
7)、ステップS402で読み込んだ調節規則にしたが
い重みを調節する。That is, in the order of the sentence number column in the weight adjustment order, for all sentences (steps S406 and S411),
One sentence is selected one by one, and further, for all the sentences that have a connection relationship with the selected sentence (step S40).
7) The weight is adjusted according to the adjustment rule read in step S402.
【0099】そして、現在の重み<調節後の重みとなっ
た場合、すなわち、より重みの値が大きくなった(ステ
ップS409)場合のみ調節後の重みをその文に対応す
る重み領域に書き込む(ステップS410)。Then, only when the current weight <the adjusted weight, that is, when the weight value becomes larger (step S409), the adjusted weight is written into the weight area corresponding to the sentence (step S409). S410).
【0100】以上の処理により最終的に得られた各文の
重みの列は、図5の処理を呼び出した上位の重要文抽出
処理に返される。The sequence of weights of each sentence finally obtained by the above processing is returned to the higher-order important sentence extraction processing which called the processing of FIG.
【0101】[重みに基く出力処理]図1の重み領域1
22に最終的に得られた各文の重みは、入力された文章
データ121中におけるその文の重要度を示す得点と考
えることができる。[Output Processing Based on Weight] Weight area 1 in FIG.
The weight of each sentence finally obtained at 22 can be considered as a score indicating the importance of the sentence in the input sentence data 121.
【0102】したがって、重み領域122に得られた重
みに基づき、重要文抽出を行なうことができる。重要文
の決定方法は、ある適当な値以上の重みを持つすべての
文を抽出する方法や最も値の大きい文だけを抽出する方
法などが考えられる。たとえば、エンドユーザがその値
を決定することは難しいのでプログラマなどによりいく
つかの段階を示すようにするのが適当である(後述の例
を参照)。また、出力の際、必要に応じて抽出された文
の繋がりを調整するために接続詞などの要素を適宜挿入
する処理を行なうようにしてもよい。Therefore, an important sentence can be extracted based on the weight obtained in the weight area 122. As a method of determining an important sentence, a method of extracting all sentences having a weight equal to or more than a certain appropriate value, a method of extracting only a sentence having the largest value, and the like can be considered. For example, it is difficult for an end user to determine the value, so it is appropriate to indicate some steps by a programmer or the like (see examples below). Further, at the time of output, a process of appropriately inserting elements such as connectives may be performed to adjust the connection of the extracted sentences as necessary.
【0103】[重要文抽出処理の具体例]ここで、上記
の重要文抽出処理を具体的な実例に沿って説明する。こ
こでは、ある新聞記事(東京新聞昭和56年11月15
日朝刊2面の「時評」)の一段落を抜粋し、この記事を
用いて上記の本発明の重要文抽出処理を説明する。以下
はこの記事の1段落の全文である。「 というのは、こ
の二人はエジプト、イスラエルの和解、ひいてはイスラ
エルとアラブ諸国との間の平和をもたらすためにもっと
も努力した両国の代表的人物といってよいからである。
サダトの努力と、そして、そのために彼が暗殺されたこ
とはよく知られている。それに対して、ダヤンの名前を
イスラエルの代表としてあげることに奇異の念を持つ読
者は少なくないであろう。イスラエルを代表して協定に
署名したのはベギン首相だからである。しかし、ベギン
首相が故サダト大統領と同じ長期的平和構想を持ってい
たとは思われない。ダヤンの方が共通点が多かった。」
ここでは、文は読点「。」によって分割されるものとす
る(もちろん、これ以外の分割規則を用いても良い)。
この文への分解により、各文には図17に示すように出
現順に漸増する自然数が割り当てられる。さらに各文
は、主語連鎖および陳述連鎖、および連接関係の解析の
ために、各文は形態素解析により形態素にあらかじめ分
解する必要があるが、形態素解析の手法は本願発明の主
旨ではなく、また公知であるため、ここではその詳細な
説明は省略する。[Specific Example of Important Sentence Extraction Processing] Here, the above-described important sentence extraction processing will be described with reference to specific examples. Here, a newspaper article (Tokyo Shimbun, November 15, 1981)
An excerpt from one paragraph of the “Journal Review” on the second page of the Japanese and Korean editions will be used to explain the above-described important sentence extraction processing of the present invention using this article. The following is the full paragraph of this article. "Because they are the representatives of Egypt and Israel who have made the most efforts to reconcile Israel, and thus to bring peace between Israel and the Arab States.
It is well known that Sadat's efforts and that he was assassinated. On the other hand, many readers are bizarre to name Dayan as a representative of Israel. Prime Minister Beguin signed the agreement on behalf of Israel. However, it is unlikely that Beguin had the same long-term peace plan as the late President Sadat. Dayang had more in common. "
Here, it is assumed that the sentence is divided by the reading point “.” (Of course, other division rules may be used).
As a result of the decomposition into sentences, each sentence is assigned a natural number that gradually increases in the order of appearance as shown in FIG. Furthermore, each sentence needs to be decomposed into morphemes in advance by morphological analysis in order to analyze the subject chain, the declarative chain, and the concatenation relationship, but the morphological analysis method is not the gist of the present invention, and Therefore, the detailed description is omitted here.
【0104】図17の各文について、まず上述の主語連
鎖の重み付けを行なう。ここでは、解析された主語連鎖
の種類(図17中に図示)と、図7に示した主語連鎖の
重み付けの規則を用いて各文の重みを決定する。主語の
連鎖による重み付けによって重み領域(図1の122)
の各文の重みは図18に示すように変化する。For each sentence in FIG. 17, first, the above-mentioned subject chain weighting is performed. Here, the weight of each sentence is determined using the analyzed subject chain type (shown in FIG. 17) and the subject chain weighting rule shown in FIG. Weighted area by subject chain weighting (122 in FIG. 1)
The weight of each sentence changes as shown in FIG.
【0105】次に、図17の各文について、陳述連鎖の
重み付けを行なう。ここでは、解析された陳述連鎖の辞
の種類(図17中に図示)と、図11に示した陳述連鎖
の重み付けの規則を用いて各文の重みを決定する。陳述
の連鎖による重み付けによって重み領域(図1の12
2)の各文の重みは図19に示すように変化する。Next, the statement chain is weighted for each sentence in FIG. Here, the weight of each sentence is determined using the type of the analyzed statement chain (shown in FIG. 17) and the rule of weighting the statement chain shown in FIG. A weight region (12 in FIG. 1) is obtained by weighting by a chain of statements.
The weight of each sentence in 2) changes as shown in FIG.
【0106】図19では、文3および文4のみに+15
の重みが加算されているが、これは図17の文章の場
合、図11に示した陳述連鎖に該当する辞の関係は文2
(統一辞)−>文3(統一辞・述定辞)の連鎖関係(図11
の連鎖関係113)と、文3(統一辞・述定辞)−>文4
(述定辞)の連鎖関係(図11の連鎖関係114)のみだ
からである。In FIG. 19, +15 is applied only to sentence 3 and sentence 4.
In the case of the sentence shown in FIG. 17, the relation between the words corresponding to the statement chain shown in FIG.
(Unification word)-> Chain relation of sentence 3 (Unification word / predicate word) (Fig. 11
113) and sentence 3 (unified phrase / predicate)-> sentence 4
This is because there is only the chain relation (chain relation 114 in FIG. 11) of (predicate).
【0107】ここまでの処理で、主語連鎖および陳述連
鎖の解析に基づき、基準となる各文の重みが決定でき
た。最後に連接関係の解析に基づき、各文の重みを調節
する。In the above processing, the weight of each reference sentence can be determined based on the analysis of the subject chain and the statement chain. Finally, the weight of each sentence is adjusted based on the analysis of the connection relation.
【0108】重み調節処理(図6の処理)では、前述の
ように、連接関係を基に依存グラフを作成し、それにト
ポロジカルソートをかけ、ソートされた文を先頭から順
に重みの調節を行なう。ここではまず、図17の文(文
番号1〜6)の連接関係(図17中に図示)の解析に基
づき図15に示すような依存グラフを生成する。In the weight adjustment processing (processing in FIG. 6), as described above, a dependency graph is created based on the connection relation, topological sorting is performed on the dependency graph, and weights of the sorted sentences are adjusted in order from the top. Here, first, a dependency graph as shown in FIG. 15 is generated based on the analysis of the connection relation (illustrated in FIG. 17) of the sentences (sentence numbers 1 to 6) in FIG.
【0109】最初、依存グラフは空であり、文番号1か
ら順に文を読み込む。文1を読み込んだ状態では、連接
関係は定義されていないので何もしない。次に文2を読
み込むが、このとき連接関係は文1と捕捉型の関係にあ
るので、これにより依存グラフに2から1へ向かう枝を
追加する。At first, the dependency graph is empty, and sentences are read in order from sentence number 1. In the state where the sentence 1 is read, nothing is performed because the connection relation is not defined. Next, sentence 2 is read. At this time, since the connection relation is in a trapped relationship with sentence 1, a branch from 2 to 1 is added to the dependency graph.
【0110】次に文3を読み込んだとき、文3は文2と
対比型の連接関係にあるため、この場合はまず依存グラ
フのノード2(図15中のノードは文番号に対応する)
からノード3へ向かう枝を依存グラフに追加し、さら
に、ノード2と3に対応するダミーのノード2’と3’
を作成する(ダミーであることは記号「’」によって示
される)、さらに対応関係を満足させるためにノード
3’から2’への枝を依存グラフに追加し、ノード2’
と1の間に、ノード2と1の場合と同様な枝を依存グラ
フに追加する。このように、ダミーのノードを作成し、
逆方向の枝を生成するのは、対比型の連接関係は、2文
が意味的に対等な関係であるためである。上記のダミー
のノードの生成は、同様に対比型である文5と6につい
ても行なわれる。Next, when sentence 3 is read, since sentence 3 is in a concatenated relation with sentence 2, in this case, first, node 2 of the dependency graph (the node in FIG. 15 corresponds to the sentence number)
Is added to the dependency graph, and dummy nodes 2 ′ and 3 ′ corresponding to nodes 2 and 3 are added.
(A dummy is indicated by the symbol "'"), and a branch from node 3' to 2 'is added to the dependency graph to satisfy the correspondence, and node 2'
A branch similar to that in the case of nodes 2 and 1 is added to the dependency graph between and. In this way, create a dummy node,
The reason why the branch in the opposite direction is generated is that two sentences are semantically equivalent in the contrast type connection relation. The generation of the dummy node is also performed for the sentences 5 and 6 which are also of the contrast type.
【0111】以上のような処理を順に最後の文まで繰り
返すことによって、文の連接関係に基づき、図15に示
すような依存グラフを生成することができる。By repeating the above processing up to the last sentence in sequence, a dependency graph as shown in FIG. 15 can be generated based on the connection relation of the sentences.
【0112】依存グラフは、記憶手段12中でリストな
どのデータフォーマットで表現される。図20は上記の
生成処理中の記憶領域内での依存グラフの変化の様子を
示している。図20において、{}はグラフの全体を、
()は2つのノードを接続する枝を示し、()中の数字
はノード(文番号)を、その出現順序は枝の向き(依存
関係)を示す。たとえば、(2,1)はノード2(文
2)からノード1(文1)へ向かう枝である。φはグラ
フが空であることを示す。もちろん、図20の最後の文
6を処理し終わった時のグラフの状態は、図15のグラ
フと等価である。The dependency graph is represented in the storage unit 12 in a data format such as a list. FIG. 20 shows how the dependency graph changes in the storage area during the generation process. In FIG. 20, {} represents the entire graph,
() Indicates a branch connecting two nodes, the number in () indicates a node (sentence number), and the appearance order indicates the direction (dependency) of the branch. For example, (2,1) is a branch from node 2 (sentence 2) to node 1 (sentence 1). φ indicates that the graph is empty. Of course, the state of the graph when the last sentence 6 in FIG. 20 has been processed is equivalent to the graph in FIG.
【0113】以上のようにして生成された依存グラフを
トポロジカルソートすれば、図16に示すように重み調
節を行なうべきノード(文番号) の順序が得られる。す
なわち、文の連接関係に基づいて決定された連接関係に
よる重み調節を行なうべき文番号の順序は、2,4,
6’,5,3’,3,5’,6,2’,1 となる。なお、トポロジカルソートは公知のアルゴリズ
ムにより行なえばよいので、ここでは詳細な説明は省略
する。If the dependency graph generated as described above is topologically sorted, the order of nodes (sentence numbers) to be weight-adjusted can be obtained as shown in FIG. That is, the order of the sentence numbers to be weight-adjusted based on the connection relation determined based on the connection relation of the sentences is 2, 4,
6 ′, 5,3 ′, 3,5 ′, 6,2 ′, 1. Note that the topological sort may be performed by a known algorithm, and a detailed description thereof will be omitted here.
【0114】さて、重み調節順序を決定できたら、重み
調節処理(図5)でその順序にしたがって、また、2
(あるいはそれ以上の)文について、連接関係により各
文の重みを調整する。連接による重み調節規則は図14
に示したものである。このとき、重み領域122中の文
の重みは、前述のように現在の重みより大きいときにだ
け書き換えられる。Once the weight adjustment order has been determined, the weight adjustment processing (FIG. 5) is performed in accordance with the order.
For sentences (or more), adjust the weight of each sentence according to the concatenation relation. The weight adjustment rule by concatenation is shown in FIG.
This is shown in FIG. At this time, the weight of the sentence in the weight area 122 is rewritten only when it is larger than the current weight as described above.
【0115】まず、上記の重み調節順序にしたがい、ノ
ード2に対応する文2が取り出されるが、文2の連接関
係は文1との関係において捕捉型、文3との関係におい
て対比型である。したがって、図14の調節規則に基づ
き重み領域122中の文の重みは図21のように変化す
る。First, the sentence 2 corresponding to the node 2 is extracted in accordance with the above-described weight adjustment order. The connection relation of the sentence 2 is a capture type in relation to the sentence 1 and a contrast type in relation to the sentence 3. . Therefore, the weight of the sentence in the weight area 122 changes as shown in FIG. 21 based on the adjustment rule of FIG.
【0116】次に、重み調節順序にしたがい、ノード4
に対応する文4を取り出し、同様な処理を行なう。ノー
ド4(文4)はノード3とダミーのノード3’に対して
捕捉型、またノード4とダミーのノード5’に対して反
対型の連接関係を有する。したがって、図14の調節規
則に基づき重み領域122中の文の重みは図22のよう
に変化する。Next, according to the weight adjustment order, the node 4
, And performs the same processing. Node 4 (sentence 4) has an interlocking relationship between node 3 and dummy node 3 ', and has an opposite type connection relationship between node 4 and dummy node 5'. Therefore, the weight of the sentence in the weight area 122 changes as shown in FIG. 22 based on the adjustment rule of FIG.
【0117】このとき、ダミーのノードに関しては、元
のノードと同じ重み領域を使用している。以下、上述同
様に全ての文に対して連接関係に基づく重み調節処理を
行う。この結果、図23に示すような重み調節結果が得
られる。At this time, the same weight area as that of the original node is used for the dummy node. Hereinafter, the weight adjustment processing based on the connection relation is performed on all the sentences as described above. As a result, a weight adjustment result as shown in FIG. 23 is obtained.
【0118】以上のようにして重み領域122に得られ
た重みを利用することにより重要文抽出を行なえる。重
要文の決定方法は、ある適当な値以上の重みを持つすべ
ての文を抽出する方法や最も値の大きい文だけを抽出す
る方法などが考えられる。An important sentence can be extracted by using the weight obtained in the weight area 122 as described above. As a method of determining an important sentence, a method of extracting all sentences having a weight equal to or more than a certain appropriate value, a method of extracting only a sentence having the largest value, and the like can be considered.
【0119】たとえば、図24に示すような数段階(図
24では5段階)の圧縮率レベルをディスプレイ表示な
どにより抽出条件(抽出基準)として提示してユーザに
選択させ、予め圧縮率レベルと関連づけて決定した重み
のしきい値を用いてそのしきい値以上の重み値を持つ文
のみを出力する。この出力処理は、画面表示、印刷出
力、あるいはディスクファイルや他のコンピュータに対
する任意のプロトコル(HTTP、SMTPなど任意の
プロトコル)に基いて行なうことができる。For example, several levels (five levels in FIG. 24) of compression ratio levels as shown in FIG. 24 are presented as extraction conditions (extraction criteria) on a display or the like, and are selected by the user, and are associated with the compression ratio levels in advance. Using the threshold value of the weight determined in this way, only sentences having a weight value equal to or greater than the threshold value are output. This output processing can be performed based on screen display, printout, or any protocol (a protocol such as HTTP or SMTP) for a disk file or another computer.
【0120】[実施形態の効果]以上のようにして、主
語および陳述連鎖による重み付けを行なった上、さらに
連接関係の解析による重み調節を行なうことにより、高
精度な文の重み付け行なえ、これに基づき精度のよい重
要文抽出処理を行なうことができる。重要文抽出は、た
とえば、従来人手により行なっていた要約文の作成を自
動化する処理などに利用でき、要約文作成などのために
要していた労力を著しく削減できる。[Effects of the Embodiment] As described above, by performing weighting based on the subject and the statement chain, and further performing weight adjustment by analyzing the concatenation relation, weighting of the sentence can be performed with high accuracy. An accurate important sentence extraction process can be performed. The important sentence extraction can be used, for example, in a process of automating the creation of a summary sentence, which has conventionally been performed manually, and can significantly reduce the labor required for the creation of a summary sentence.
【0121】また、本実施形態においては、連接関係の
解析による重み調節を行なう場合、連接関係を依存関係
としてとらえ、文の連接関係を表現する依存グラフを生
成し、トポロジカルソートを利用して重み調節順序を決
定するようにしており、コンピュータおよびそのソフト
ウェアを利用して容易かつ高速に連接関係に基づく重み
調節を行なうことができ、従来の重要文抽出方式に比し
て少ない計算資源で、より高速かつ確実な重要文抽出を
行なえる。In this embodiment, when weight adjustment is performed by analyzing the connection relation, the connection relation is regarded as a dependency relation, a dependency graph expressing the connection relation of a sentence is generated, and the weight is determined by using topological sorting. The adjustment order is determined, and the weight adjustment based on the connection relation can be performed easily and at high speed using a computer and its software. Fast and reliable extraction of important sentences.
【0122】なお、以上に示した主語連鎖、陳述連鎖、
連接などの関係に割り付けた重み値の配点、その大きさ
などはあくまでも一例にすぎず、システムの設計思想な
どに応じて任意に変更することができるものである。Note that the subject chain, the statement chain,
The allocation of the weight values assigned to the relations such as concatenation and the size thereof are merely examples, and can be arbitrarily changed according to the design concept of the system.
【0123】本発明の重要文抽出を行なうための制御プ
ログラムは、ROMやハードディスク、フロッピーディ
スク、光ディスク、光磁気ディスクやメモリカードなど
のあらゆるコンピュータ読み取り可能な記憶媒体に格納
して供給することができる。The control program for extracting important sentences according to the present invention can be stored and supplied in any computer-readable storage medium such as a ROM, a hard disk, a floppy disk, an optical disk, a magneto-optical disk, and a memory card. .
【0124】[0124]
【発明の効果】以上の説明から明らかなように、本発明
によれば、入力された文章データから文章データを構成
する文を重要文として抽出する重要文抽出処理装置、重
要文抽出処理方法、および重要文抽出処理プログラムを
格納したコンピュータ読み取り可能な記憶媒体において
前記文章データを構成する各文につき、文の主語連鎖の
解析に基づき文の重みを主語連鎖重み付け規則から決定
し、前記文章データを構成する各文につき、文の陳述連
鎖の解析に基づき文の重みを陳述連鎖重み付け規則から
決定し、前記主語連鎖重み付けおよび陳述連鎖重み付け
により得られた各文の重みを合計し、前記文章データを
構成する文のうち、複数の文の連接関係の解析に基づ
き、連接重み付け規則から前記重み合計により得られた
各文の重みを調節し、前記重み調節により調節された重
みに基づき、所定の抽出条件に合致する文を重要文とし
て抽出する構成を採用しているので、主語および陳述連
鎖による重み付けを行なった上、さらに連接関係の解析
による重み調節をトポロジカルソートの結果得られた順
序で行なうことにより、少ない計算資源により高精度な
文の重み付けが行なえ、これに基づき精度のよい重要文
抽出処理を行なうことができ、また、従来人手により行
なっていた要約文の作成を自動化する処理などに重要文
抽出を利用することにより要約文作成などのために要し
ていた労力を著しく削減できる、という優れた効果があ
る。As is apparent from the above description, according to the present invention, an important sentence extraction processing apparatus, an important sentence extraction processing method, and a method for extracting sentences constituting text data as important sentences from input sentence data. For each sentence constituting the sentence data in a computer-readable storage medium storing the important sentence extraction processing program, the sentence weight is determined from the subject chain weighting rule based on the analysis of the subject chain of the sentence, and the sentence data is determined. For each of the constituent sentences, the weight of the sentence is determined from the statement chain weighting rule based on the analysis of the statement chain of the statement, and the weight of each statement obtained by the subject chain weight and the statement chain weight is summed, and the sentence data is calculated. Among the constituent sentences, based on the analysis of the concatenation relation of a plurality of sentences, the weight of each sentence obtained by the sum of the weights is adjusted from the concatenation weighting rule. Based on the weight adjusted by the weight adjustment, a sentence that matches a predetermined extraction condition is extracted as an important sentence. Therefore, the subject and the statement chain are weighted, and the connection is further analyzed. By performing the weight adjustment in the order obtained as a result of the topological sort, highly accurate sentence weighting can be performed with a small amount of computational resources. Based on this, accurate important sentence extraction processing can be performed. The use of important sentence extraction for the process of automating the creation of a summary sentence, which has been performed, has an excellent effect that the labor required for the creation of a summary sentence can be significantly reduced.
【図1】本発明を実施可能な処理システムの構造を示し
たブロック図である。FIG. 1 is a block diagram showing the structure of a processing system capable of implementing the present invention.
【図2】本発明による重要文抽出処理の全体の流れを示
したフローチャート図である。FIG. 2 is a flowchart showing an entire flow of an important sentence extraction process according to the present invention.
【図3】主語連鎖による重み付け処理の流れを示したフ
ローチャート図である。FIG. 3 is a flowchart illustrating a flow of a weighting process based on a subject chain;
【図4】陳述連鎖による重み付け処理の流れを示したフ
ローチャート図である。FIG. 4 is a flowchart showing a flow of a weighting process by a statement chain.
【図5】連接による重み調節処理の流れを示したフロー
チャート図である。FIG. 5 is a flowchart showing a flow of weight adjustment processing by concatenation.
【図6】連接による重み調節順序の流れを示したフロー
チャート図である。FIG. 6 is a flowchart illustrating a flow of a weight adjustment order by concatenation.
【図7】主語連鎖による重み付け規則の例を示した表図
である。FIG. 7 is a table showing an example of a weighting rule based on a subject chain.
【図8】陳述連鎖形式の分類を示した表図である。FIG. 8 is a table showing classifications in a statement chain format.
【図9】陳述連鎖形式の分類と対応する品詞の例を示し
た表図である。FIG. 9 is a table showing an example of a part of speech corresponding to a classification in a statement chain format.
【図10】ある文の陳述連鎖に着目した構造を示した表
図である。FIG. 10 is a table showing a structure focusing on a statement chain of a certain sentence.
【図11】陳述連鎖による重み付け規則の例を示した表
図である。FIG. 11 is a table showing an example of a weighting rule based on a statement chain.
【図12】連接関係の類型を示した表図である。FIG. 12 is a table showing types of connection relationships.
【図13】連接関係と言語形態の例を示した表図であ
る。FIG. 13 is a table showing an example of a connection relationship and a language form.
【図14】連接による重み調節規則の例を示した表図で
ある。FIG. 14 is a table showing an example of a weight adjustment rule based on concatenation.
【図15】連接関係を表現した依存グラフを例示する説
明図である。FIG. 15 is an explanatory diagram illustrating a dependency graph expressing a connection relationship.
【図16】図15の依存グラフをトポロジカルソートし
た結果を示した説明図である。FIG. 16 is an explanatory diagram showing a result of topological sorting of the dependency graph of FIG.
【図17】本発明による重要文抽出の処理対象の実例の
文を説明する表図である。FIG. 17 is a table illustrating sentences of an actual example to be processed for important sentence extraction according to the present invention.
【図18】図17の実例において主語連鎖の解析により
決定された文の重みを示した表図である。18 is a table showing the weights of sentences determined by subject chain analysis in the example of FIG. 17;
【図19】図17の実例において陳述連鎖の解析により
決定された文の重みを示した表図である。FIG. 19 is a table showing the weights of sentences determined by analyzing the statement chain in the example of FIG. 17;
【図20】図17の実例において連接の解析により依存
グラフを生成する様子を示した表図である。20 is a table showing how a dependency graph is generated by analyzing concatenation in the example of FIG. 17;
【図21】図17の実例において依存グラフに基づき決
定された順序で重み調節を行なう様子を示した表図であ
る。FIG. 21 is a table showing how weight adjustment is performed in the order determined based on the dependency graph in the example of FIG. 17;
【図22】図17の実例において依存グラフに基づき決
定された順序で重み調節を行なう様子を示した表図であ
る。FIG. 22 is a table showing how weight adjustment is performed in the order determined based on the dependency graph in the example of FIG. 17;
【図23】図17の実例において依存グラフに基づき決
定された順序で重み調節を行なう様子を示した表図であ
る。FIG. 23 is a table showing how weight adjustment is performed in the order determined based on the dependency graph in the example of FIG. 17;
【図24】重要文抽出の抽出条件(抽出基準)の一例を
示した表図である。FIG. 24 is a table showing an example of extraction conditions (extraction criteria) for extracting an important sentence.
11 制御手段 111 重要文抽出処理 112 主語連鎖による重み付け 113 陳述連鎖による重み付け 114 重み調節処理 12 記憶手段 121 文章データ 123 主語連鎖の解析結果 125 陳述連鎖の解析結果 128 連接関係の解析結果 124 主語連鎖重み付け規則 126 陳述連鎖重み付け規則 127 重み調節規則 DESCRIPTION OF SYMBOLS 11 Control means 111 Important sentence extraction processing 112 Weighting by subject chain 113 Weighting by statement chain 114 Weight adjustment processing 12 Storage means 121 Text data 123 Analysis result of subject chain 125 Analysis result of statement chain 128 Analysis result of connection relation 124 Subject chain weighting Rule 126 Statement Chain Weighting Rule 127 Weight Adjustment Rule
Claims (6)
構成する文を重要文として抽出する重要文抽出処理装置
において、 前記文章データを構成する各文につき、文の主語連鎖の
解析に基づき文の重みを主語連鎖重み付け規則から決定
する主語連鎖重み付け手段と、 前記文章データを構成する各文につき、文の陳述連鎖の
解析に基づき文の重みを陳述連鎖重み付け規則から決定
する陳述連鎖重み付け手段と、 前記主語連鎖重み付け手段および陳述連鎖重み付け手段
により得られた各文の重みを合計する重み合計手段と、 前記文章データを構成する文のうち、複数の文の連接関
係の解析に基づき、連接重み付け規則から前記重み合計
手段により得られた各文の重みを調節する重み調節手段
と、 前記重み調節手段により調節された重みに基づき、所定
の抽出条件に合致する文を重要文として抽出する抽出手
段を有することを特徴とする重要文抽出処理装置。1. An important sentence extraction processing device for extracting a sentence constituting sentence data as an important sentence from input sentence data, wherein each sentence constituting the sentence data is analyzed based on a subject chain analysis of the sentence. Subject chain weighting means for determining the weight from the subject chain weighting rule; statement chain weighting means for determining the weight of the sentence from the statement chain weighting rule based on the analysis of the statement chain for each sentence constituting the sentence data; Weight summing means for summing the weights of the respective sentences obtained by the subject chain weighting means and the statement chain weighting means; and Weight adjusting means for adjusting the weight of each sentence obtained by the weight summing means, and based on the weight adjusted by the weight adjusting means. Sentence extraction processing apparatus characterized by comprising an extraction means for extracting a sentence that matches the predetermined extraction condition as an important statement.
構成する文のうち、各文の重みを調節するに先立って、
当該の複数の文の連接関係を表現する依存グラフを生成
し、この依存グラフをトポロジカルソートすることによ
り得られた順序情報に基づき各文の重みを調節する順序
を決定することを特徴とする請求項1に記載の重要文抽
出処理装置。2. The weight adjusting means, prior to adjusting the weight of each sentence among sentences constituting the sentence data,
Generating a dependency graph expressing a connection relation between the plurality of sentences, and determining an order for adjusting the weight of each sentence based on order information obtained by topologically sorting the dependency graph. Item 1. An important sentence extraction processing device according to item 1.
構成する文を重要文として抽出する重要文抽出処理方法
において、 前記文章データを構成する各文につき、文の主語連鎖の
解析に基づき文の重みを主語連鎖重み付け規則から決定
する主語連鎖重み付け工程と、 前記文章データを構成する各文につき、文の陳述連鎖の
解析に基づき文の重みを陳述連鎖重み付け規則から決定
する陳述連鎖重み付け工程と、 前記主語連鎖重み付け工程および陳述連鎖重み付け工程
により得られた各文の重みを合計する重み合計工程と、 前記文章データを構成する文のうち、複数の文の連接関
係の解析に基づき、連接重み付け規則から前記重み合計
工程により得られた各文の重みを調節する重み調節工程
と、 前記重み調節工程により調節された重みに基づき、所定
の抽出条件に合致する文を重要文として抽出する抽出工
程を有することを特徴とする重要文抽出処理方法。3. An important sentence extraction processing method for extracting a sentence constituting sentence data as an important sentence from input sentence data, wherein for each sentence constituting the sentence data, the sentence A subject chain weighting step of determining the weight from the subject chain weighting rule, and a statement chain weighting step of determining the weight of the sentence from the statement chain weighting rule based on an analysis of the statement statement chain for each sentence constituting the text data, A weight summing step of summing the weights of the sentences obtained in the subject chain weighting step and the statement chain weighting step; and A weight adjustment step of adjusting the weight of each sentence obtained in the weight summation step from the above, based on the weight adjusted in the weight adjustment step Sentence extraction processing method characterized by comprising an extraction step of extracting a sentence that matches the predetermined extraction condition as an important statement.
構成する文のうち、各文の重みを調節するに先立って、
当該の複数の文の連接関係を表現する依存グラフを生成
し、この依存グラフをトポロジカルソートすることによ
り得られた順序情報に基づき各文の重みを調節する順序
を決定することを特徴とする請求項3に記載の重要文抽
出処理方法。4. The weight adjusting step includes, prior to adjusting the weight of each sentence among sentences constituting the sentence data,
Generating a dependency graph expressing a connection relation between the plurality of sentences, and determining an order for adjusting the weight of each sentence based on order information obtained by topologically sorting the dependency graph. Item 3. An important sentence extraction processing method according to Item 3.
構成する文を重要文として抽出する重要文抽出処理プロ
グラムを格納したコンピュータ読み取り可能な記憶媒体
において、 前記文章データを構成する各文につき、文の主語連鎖の
解析に基づき文の重みを主語連鎖重み付け規則から決定
する主語連鎖重み付け工程と、 前記文章データを構成する各文につき、文の陳述連鎖の
解析に基づき文の重みを陳述連鎖重み付け規則から決定
する陳述連鎖重み付け工程と、 前記主語連鎖重み付け工程および陳述連鎖重み付け工程
により得られた各文の重みを合計する重み合計工程と、 前記文章データを構成する文のうち、複数の文の連接関
係の解析に基づき、連接重み付け規則から前記重み合計
工程により得られた各文の重みを調節する重み調節工程
と、 前記重み調節工程により調節された重みに基づき、所定
の抽出条件に合致する文を重要文として抽出する抽出工
程を格納したことを特徴とする重要文抽出処理プログラ
ムを格納したコンピュータ読み取り可能な記憶媒体。5. A computer-readable storage medium storing an important sentence extraction processing program for extracting a sentence constituting sentence data from an inputted sentence data as an important sentence, wherein a sentence constituting each sentence data is provided. A subject chain weighting step of determining the weight of the sentence from the subject chain weighting rule based on the subject chain analysis of the sentence data; and for each sentence constituting the sentence data, the statement weighting of the sentence based on the statement chain analysis A statement chain weighting step of determining from the following: a weight summation step of summing weights of the respective sentences obtained by the subject chain weighting step and the statement chain weighting step; and a concatenation of a plurality of sentences among the sentences constituting the text data. A weight adjusting step for adjusting the weight of each sentence obtained in the weight summing step from the connection weighting rule based on the analysis of the relations A computer-readable storage of an important sentence extraction processing program, wherein an extraction step of extracting a sentence that matches a predetermined extraction condition as an important sentence based on the weight adjusted by the weight adjustment step is stored. Storage medium.
ータを構成する文のうち、各文の重みを調節するに先立
って、当該の複数の文の連接関係を表現する依存グラフ
を生成し、この依存グラフをトポロジカルソートするこ
とにより得られた順序情報に基づき各文の重みを調節す
る順序を決定するための制御手順を格納したことを特徴
とする請求項5に記載の重要文抽出処理プログラムを格
納したコンピュータ読み取り可能な記憶媒体。6. In the weight adjusting step, prior to adjusting the weight of each sentence among the sentences constituting the sentence data, a dependency graph expressing a connection relation of the plurality of sentences is generated. The important sentence extraction processing program according to claim 5, wherein a control procedure for determining an order for adjusting the weight of each sentence based on the order information obtained by topologically sorting the dependency graph is stored. A computer-readable storage medium that stores the information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000256724A JP2002073644A (en) | 2000-08-28 | 2000-08-28 | Device and method for extracting and processing important statement and computer readable storage medium stored with important statement extraction processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000256724A JP2002073644A (en) | 2000-08-28 | 2000-08-28 | Device and method for extracting and processing important statement and computer readable storage medium stored with important statement extraction processing program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002073644A true JP2002073644A (en) | 2002-03-12 |
Family
ID=18745288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000256724A Pending JP2002073644A (en) | 2000-08-28 | 2000-08-28 | Device and method for extracting and processing important statement and computer readable storage medium stored with important statement extraction processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2002073644A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008242612A (en) * | 2007-03-26 | 2008-10-09 | Kyushu Institute Of Technology | Document summarization device, method therefor and program |
JP2012043100A (en) * | 2010-08-17 | 2012-03-01 | Nippon Telegr & Teleph Corp <Ntt> | Text summarization apparatus, and method and program therefor |
JP2014528620A (en) * | 2011-10-14 | 2014-10-27 | ヤフー! インコーポレイテッド | Method and apparatus for automatically summarizing the contents of an electronic document |
JP2019095958A (en) * | 2017-11-21 | 2019-06-20 | 株式会社日立製作所 | Market condition comment generation assisting device and market condition comment generation assisting method |
CN110287489A (en) * | 2019-06-24 | 2019-09-27 | 北京大米科技有限公司 | Document creation method, device, storage medium and electronic equipment |
CN117708434A (en) * | 2024-01-09 | 2024-03-15 | 青岛睿哲信息技术有限公司 | Keyword-based user recommendation browsing content generation method |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02297157A (en) * | 1989-03-09 | 1990-12-07 | Matsushita Electric Ind Co Ltd | Method and device for summarizing text |
JPH0474259A (en) * | 1990-07-17 | 1992-03-09 | Agency Of Ind Science & Technol | Document summarizing device |
-
2000
- 2000-08-28 JP JP2000256724A patent/JP2002073644A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02297157A (en) * | 1989-03-09 | 1990-12-07 | Matsushita Electric Ind Co Ltd | Method and device for summarizing text |
JPH0474259A (en) * | 1990-07-17 | 1992-03-09 | Agency Of Ind Science & Technol | Document summarizing device |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008242612A (en) * | 2007-03-26 | 2008-10-09 | Kyushu Institute Of Technology | Document summarization device, method therefor and program |
JP2012043100A (en) * | 2010-08-17 | 2012-03-01 | Nippon Telegr & Teleph Corp <Ntt> | Text summarization apparatus, and method and program therefor |
JP2014528620A (en) * | 2011-10-14 | 2014-10-27 | ヤフー! インコーポレイテッド | Method and apparatus for automatically summarizing the contents of an electronic document |
JP2019095958A (en) * | 2017-11-21 | 2019-06-20 | 株式会社日立製作所 | Market condition comment generation assisting device and market condition comment generation assisting method |
CN110287489A (en) * | 2019-06-24 | 2019-09-27 | 北京大米科技有限公司 | Document creation method, device, storage medium and electronic equipment |
CN110287489B (en) * | 2019-06-24 | 2023-07-28 | 北京大米科技有限公司 | Text generation method, device, storage medium and electronic equipment |
CN117708434A (en) * | 2024-01-09 | 2024-03-15 | 青岛睿哲信息技术有限公司 | Keyword-based user recommendation browsing content generation method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10170104B2 (en) | Electronic device, method and training method for natural language processing | |
US8176050B2 (en) | Method and apparatus of supporting creation of classification rules | |
CN110196972B (en) | Method and device for generating file and computer readable storage medium | |
US20190392035A1 (en) | Information object extraction using combination of classifiers analyzing local and non-local features | |
WO2002025479A1 (en) | A document categorisation system | |
JP2006293767A (en) | Sentence categorizing device, sentence categorizing method, and categorization dictionary creating device | |
JP6729095B2 (en) | Information processing device and program | |
US20050071365A1 (en) | Method for keyword correlation analysis | |
CN109840255A (en) | Reply document creation method, device, equipment and storage medium | |
JP5692074B2 (en) | Information classification apparatus, information classification method, and program | |
WO2021012958A1 (en) | Original text screening method, apparatus, device and computer-readable storage medium | |
JP2010061176A (en) | Text mining device, text mining method, and text mining program | |
CN106294689B (en) | A kind of method and apparatus for selecting to carry out dimensionality reduction based on text category feature | |
CN111008519B (en) | Display method of reading page, electronic equipment and computer storage medium | |
JP2002073644A (en) | Device and method for extracting and processing important statement and computer readable storage medium stored with important statement extraction processing program | |
KR20220041337A (en) | Graph generation system of updating a search word from thesaurus and extracting core documents and method thereof | |
JP3787310B2 (en) | Keyword determination method, apparatus, program, and recording medium | |
JP4361299B2 (en) | Evaluation expression extraction apparatus, program, and storage medium | |
JP2001022727A (en) | Method and device for classifying and learning text and storage medium storing text classifying and learning program | |
CN114579733A (en) | Method and system for generating theme pulse | |
JPH1139313A (en) | Automatic document classification system, document classification oriented knowledge base creating method and record medium recording its program | |
JP2004341948A (en) | Concept extraction system, concept extraction method, program therefor, and storing medium thereof | |
JP2001060199A (en) | Device and method for classifying document and computer readable recording medium storing document classfication program | |
JP2000293537A (en) | Data analysis support method and device | |
KR20210012606A (en) | Method of bio information analysis and storage medium storing a program for performing the same |