JP2009146447A - Text summarization system, text summarization method, and text summarization program - Google Patents

Text summarization system, text summarization method, and text summarization program Download PDF

Info

Publication number
JP2009146447A
JP2009146447A JP2009069852A JP2009069852A JP2009146447A JP 2009146447 A JP2009146447 A JP 2009146447A JP 2009069852 A JP2009069852 A JP 2009069852A JP 2009069852 A JP2009069852 A JP 2009069852A JP 2009146447 A JP2009146447 A JP 2009146447A
Authority
JP
Japan
Prior art keywords
unit
importance
constituent
sentence
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009069852A
Other languages
Japanese (ja)
Inventor
Hiraki Ishikawa
開 石川
Shinichi Ando
真一 安藤
Shinichi Doi
伸一 土井
Akitoshi Okumura
明俊 奥村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009069852A priority Critical patent/JP2009146447A/en
Publication of JP2009146447A publication Critical patent/JP2009146447A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To achieve text summarization for generating summarization with high quality in a short time. <P>SOLUTION: A certification means 101 of a summarization configuration unit certifies a unit minimizing a clause including predicate as a summarization configuration unit by applying language knowledge information 104 for summarization configuration unit certification to each sentence of an input text, and an importance calculation means 102 of the summarization configuration unit calculates the importance of each summarization configuration unit in the text by using information such as the position of the summarization configuration unit in the text, a clue word, a title, the importance of a word and a keyword or the like as a clue to the summarization configuration unit, and successively extracts the summarization configuration unit in the order of the high importance until it reaches summarization length requested by a user on the basis of the importance to each summarization configuration unit, and a summarization result output means 103 arranges the extracted summarization configuration units in the order of the appearance in the original text, and outputs it as a summarization result. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、テキスト要約システム、テキスト要約方法、および、テキスト要約プログラムに関し、特に、要約構成単位の認定を実施するテキスト要約システム、テキスト要約方法、および、テキスト要約プログラムに関する。 The present invention relates to a text summarization system, a text summarization method, and a text summarization program, and more particularly, to a text summarization system, a text summarization method, and a text summarization program that perform certification of a summary unit.

特許文献1記載の技術は、「関係解析手段において、入力された文書中のテキストに対して係り受け解析を行い、単語同士の2項関係を抽出し、指示入力手段で要約結果に対してユーザから詳細化する単語や情報の種類の指示を受け付け、その指示を優先すべき2項関係の条件を示す優先条件に指示解釈手段で変換し、この優先条件と、抽出しておいた2項関係から、重要な2項関係を関係選択手段で選択し、選択した重要な2項関係に補完すべき2項関係を関係補完手段で追加し、このようにして得られた2項関係から、句合成手段で句要約を合成する技術」である。 The technique described in Patent Document 1 is that “the relation analysis unit performs dependency analysis on the text in the input document, extracts binary relations between words, and the instruction input unit extracts the summary result from the user. The instruction of the word to be refined or the type of information is received from the instruction, the instruction is converted into a priority condition indicating the condition of the binary relation to be prioritized by the instruction interpreting means, and this priority condition and the extracted binary relation From the binary relation obtained in this way, the important binary relation is selected by the relation selection means, the binary relation to be supplemented to the selected important binary relation is added by the relation complementation means, "Technique for synthesizing phrase summaries by means of synthesis".

また、特許文献2記載の技術は、「日本語文の入力を読み込む入力読み込み手段と、入力文に対する辞書引き機能と辞書引き後の辞書情報を用いて入力文を解析する形態素解析手段、構文解析手段、意味解析手段とメモリとを備えた日本語処理システムに用いる日本語文解析方式において、日本語における、係助詞「は」で示される主題、もしくは格助詞「が」で示される主格の複数の用言間での共有を規定する語彙に関する情報をあらかじめ収集して前記メモリ内に保持している主題・主格共有語彙情報保持手段と、前記主題・主格共有語彙情報保持手段に保持された語彙情報を用いて、主題・主格の共有が存在するか否かを推定する主題・主格共有推定手段を備え、構文解析・意味解析に先立って主題・主格の共有の存在を推定する技術」である。 Further, the technology described in Patent Document 2 includes: “input reading means for reading input of a Japanese sentence, morphological analysis means for analyzing an input sentence using a dictionary lookup function for the input sentence and dictionary information after dictionary lookup, and syntax analysis means” In a Japanese sentence analysis method used in a Japanese processing system equipped with semantic analysis means and a memory, in Japanese, the subject indicated by the co-particle "ha" or the plural of the main case indicated by the case particle "ga" The subject / prominent shared vocabulary information holding means that pre-collects information on vocabulary that prescribes sharing between words and held in the memory, and the vocabulary information held in the subject / master shared vocabulary information holding means Technology to estimate the existence of subject / generic sharing prior to syntax analysis / semantic analysis, using themes / major sharing estimation means to infer whether or not subject / general sharing exists It is.

また、計算機によってテキスト要約を行う従来法としては、重要文抽出法がある。これは、テキスト中において、文を要約構成単位と認定し、その重要度を評価し、重要度の高い要約構成単位を抽出し、元テキストの出現順に並べることで要約文を構成する方法である(たとえば、非特許文献1)。 As a conventional method for summarizing text by a computer, there is an important sentence extraction method. This is a method of constructing a summary sentence by recognizing a sentence as a summary constituent unit in text, evaluating its importance, extracting summary constituent units with high importance, and arranging them in the order of appearance of the original text. (For example, Non-Patent Document 1).

この方式は多くの要約システムで用いられている基本方式であり、基本的には文の位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し、重要度の高いものを元のテキストの出現順に並べることで要約を生成する(たとえば、非特許文献2、3)。 This method is a basic method used in many summarization systems. Basically, each summary component in the text is based on information such as sentence position, clue word, title, word importance, and keyword. Is calculated, and summaries are generated by arranging the higher importance items in the order of appearance of the original text (for example, Non-Patent Documents 2 and 3).

また、これに関連する方式として、文節を要約構成単位として認定するテキスト要約方式がある(たとえば、非特許文献4)。この方式では、文の構文構造における格要素などの主要な構造の構成素は保存しつつ、重要度の低い文節を削除することによって要約文を生成する方法である。 As a method related to this, there is a text summarization method that recognizes a clause as a summary unit (for example, Non-Patent Document 4). This method is a method of generating a summary sentence by deleting a clause having low importance while preserving constituent elements of main structures such as case elements in the syntax structure of the sentence.

また、文内文脈に関する解析をする手段に関する技術がある(たとえば、非特許文献5)。 In addition, there is a technique related to means for analyzing the context within a sentence (for example, Non-Patent Document 5).

特開2000−250937号公報JP 2000-250937 A

特開平05−113994号公報JP 05-113994 A

H. P. Luhn,“The Automatic Creation of Literature Abstracts”,IBM Journal ,1958, p.159−165H. P. Luhn, “The Automatic Creation of Literary Abstracts”, IBM Journal, 1958, p. 159-165

H. P. Edmundson,“New Methods in automatic extracting.”, Journal of the Association for Computing Machinery, 16(2), 1968, p.264−285H. P. Edmundson, “New Methods in Automatic Extraction.”, Journal of the Association for Computing Machinery, 16 (2), 1968, p. 264-285

奥村等,“テキスト自動要約に関する研究動向(巻頭言に代えて)”自然言語処理, Vol.6, No.6, 1999, p.1−26Okumura et al., “Research Trend on Automatic Text Summarization (instead of Preface)” Natural Language Processing, Vol. 6, no. 6, 1999, p. 1-26

三上等, “ニュース番組における字幕生成のための文内短縮による要約”,自然言語処理 Vol.6, No.6, 1999, p.65−82Mikami et al., “Summary by Shortening in Sentences for Subtitle Generation in News Programs”, Natural Language Processing Vol. 6, no. 6, 1999, p. 65-82

亀井等, “Lexical Discourse Grammarの提案”, 電子情報通信学会 言語理解とコミュニケーション研究会, NLC86−7, ,1986, p.1−5Kamei et al., “Proposal of Lexical Disclosure Grammar”, IEICE Society for Language Understanding and Communication, NLC86-7,, 1986, p. 1-5

重要文抽出法は文を要約の構成単位として抽出するために、簡易な処理によって可読性の高い要約を生成できるという利点がある。しかし一方で、短くて品質の良い要約を生成する上で、文を最小単位として要約を構成する方法には限界がある。短い要約を生成する場合には、要約を構成する単位の組み合わせが制限されるためである。またテキストに長文が含まれる場合、一部重要でない部分があっても除くことができず、このことも品質の良い要約を得る上での限界を生じる。 The important sentence extraction method has an advantage that a highly readable summary can be generated by a simple process because the sentence is extracted as a constituent unit of the summary. On the other hand, however, there is a limit to the method of constructing a summary with a sentence as a minimum unit in generating a short and high-quality summary. This is because when a short summary is generated, combinations of units constituting the summary are limited. Also, if the text contains long sentences, some insignificant parts cannot be removed, which also creates a limit in obtaining a good quality summary.

一方、文節を要約構成単位とするテキスト要約方法では、重要文抽出法に比べてより小さい要約構成単位を用いるために要約生成の自由度が高く、短い要約の生成における限界や品質の低下が生じにくい。しかし、文節を要約構成単位に用いることが結果として要約文生成において構文構造の変更を伴うことになり、生成された要約文の構文的正しさや意味的な正しさの保証といった文生成の難しい課題を生じる。正確で詳細な構文構造の情報を得るには、精度良い本格的な構文解析手段が必要となるが、このような方法は要約生成の計算コストが大きい。 On the other hand, the text summarization method that uses clauses as a summary unit has a higher degree of freedom to generate summaries because it uses a smaller summary unit compared to the important sentence extraction method, which causes limitations and quality degradation in the generation of short summaries. Hateful. However, the use of clauses as a summary unit results in a change in the syntax structure in summary sentence generation, and it is difficult to generate sentences such as syntactic correctness and guarantee of semantic correctness of the generated summary sentence. Create a challenge. Obtaining accurate and detailed syntax structure information requires accurate full-fledged syntax analysis means, but such a method has a high calculation cost for summary generation.

本発明の目的は、適切な要約構成単位の利用による要約品質向上と要約生成処理の簡易化による処理の高速化を同時に実現することができるテキスト要約方法を提供することである。これにより、利用者が短い要約を要求する場合にも、従来の要約方法に比べて短時間でかつ品質の良い要約を生成することが可能となる。 An object of the present invention is to provide a text summarization method capable of simultaneously realizing improvement of summary quality by using an appropriate summarization unit and speeding up of processing by simplifying summary generation processing. As a result, even when the user requests a short summary, it is possible to generate a high-quality summary in a short time compared to the conventional summarization method.

本発明の第1のテキスト要約システムは、文の述部を含む節を要約構成単位とする情報を含む要約構成単位認定用言語知識情報を記憶装置から読み出し、読み出した要約構成単位認定用言語知識情報を用いて要約構成単位を認定する要約構成単位の認定手段と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手段と、重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手段とを有することを特徴とする。 The first text summarization system of the present invention reads out summary constituent unit recognition language knowledge information including information that uses a section including a sentence predicate as a summary constituent unit from a storage device, and reads the read out summary constituent unit recognition language knowledge. Extract the summary component unit certifying means that certifies the summary component unit using information, the summary component unit importance calculation method that evaluates the importance of the certified summary component unit, and the summary component unit with the higher importance. And a summary result output means for creating a summary.

本発明の第2のテキスト要約システムは、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手段と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手段と、重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手段とを有することを特徴とする。 The second text summarization system of the present invention reads a summary constituent unit recognition pattern including a summary constituent unit including a collation condition and a clause including a statement predicate from a storage device, and uses the read summary constituent unit recognition pattern. The summary composition unit certifying means that certifies the summary composition unit, the summary composition unit importance calculation means that evaluates the importance of the certified summary composition unit, and the summary composition unit that has a high importance is extracted and a summary is created. And a summary result output means.

本発明の第3のテキスト要約システムは、照合条件、文の述部を含む節を単位とする要約構成単位、適用コストを含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手段と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手段と、適用コストを考慮し重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手段とを有することを特徴とする。 The third text summarization system of the present invention reads a summary constituent unit recognition pattern including a collation condition, a summary constituent unit having a clause including a statement predicate as a unit, and an application cost from the storage device, and reads the read summary constituent unit. Summary composition unit certifying means that certifies summary composition units using patterns, summary composition unit importance calculation means for evaluating the importance of certified summary composition units, and summary structures with high importance in consideration of application costs Summarization result output means for extracting a unit and creating a summary.

本発明の第4のテキスト要約システムは、前記第1、第2、または、第3のテキスト要約システムであって、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、前記要約構成単位の認定手段により認定された要約構成単位に対し文の表現に基づいて補完・修正を実施し、補完・修正した要約構成単位を前記要約構成単位の重要度計算手段に出力する要約構成単位の補完修正手段を有することを特徴とする。 A fourth text summarization system according to the present invention is the first, second, or third text summarization system, and reads a summary unit complement correction pattern including collation conditions and supplement correction information from the storage device. Using the read summary composition unit complement correction pattern, the summary composition unit recognized by the summary composition unit recognition means is supplemented / corrected based on the sentence expression, and the complement / correction summary composition unit is obtained. Summarization composition unit complementary correction means for outputting to the summary composition unit importance calculation means is provided.

本発明の第5のテキスト要約システムは、前記第1、第2、または、第3のテキスト要約システムであって、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、前記要約構成単位の重要度計算手段により重要度が評価された要約構成単位に対し文の表現に基づいて補完・修正を実施し、補完・修正した要約構成単位を前記要約結果出力手段に出力する要約構成単位の補完修正手段を有することを特徴とする。 A fifth text summarization system of the present invention is the first, second, or third text summarization system, and reads a summary unit complement correction pattern including collation conditions and supplement correction information from the storage device. Then, using the read summary composition unit complement correction pattern, the summary composition unit whose importance is evaluated by the importance calculation means of the summary composition unit is complemented / corrected based on the sentence expression, and complemented / corrected. It further comprises means for complementing and correcting the summary constituent unit for outputting the summarized constituent unit to the summary result output means.

本発明の第6のテキスト要約システムは、照合条件、文の述部を含む節を単位とする要約構成単位、抽出順序制約を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位間の接続関係、または、引用関係を考慮し要約構成単位を認定し、要約構成単位の認定手段と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手段と、重要度の評価された要約構成単位に対し抽出順序制約を用いて抽出順序を考慮する抽出順序に関する制約の設定手段と、重要度が高く抽出順序の考慮された要約構成単位を抽出して要約を作成する要約結果出力手段とを有することを特徴とする。 The sixth text summarization system of the present invention reads a summary component unit including a collation condition, a clause including a clause including a sentence predicate, and a summary component unit recognition pattern including an extraction order constraint from a storage device, and reads the read summary component unit The summary composition unit is recognized by considering the connection relation between the summary composition units or the citation relation using the authorization pattern, and the summary composition unit certification means and the importance of the recognized summary composition unit are evaluated. Importance calculation means, extraction order constraint setting means that considers the extraction order using extraction order constraints for the summary constituent units whose importance has been evaluated, and summary constituent units that are highly important and take into consideration the extraction order And summary result output means for creating a summary.

本発明の第7のテキスト要約システムは、照合条件、文の述部を含む節を単位とする要約構成単位、適用コスト、抽出順序制約を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位間の接続関係、または、引用関係を考慮し要約構成単位を認定し、要約構成単位の認定手段と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手段と、重要度の評価された要約構成単位に対し抽出順序制約を用いて抽出順序を考慮する抽出順序に関する制約の設定手段と、適用コストを考慮し重要度が高く抽出順序の考慮された要約構成単位を抽出して要約を作成する要約結果出力手段とを有することを特徴とする。 The seventh text summarization system of the present invention reads a summary constituent unit qualification pattern including a collation condition, a summary constituent unit having a clause containing a predicate of a sentence, an application cost, and an extraction order constraint from the storage device, and reads it out. A summary component unit is certified using the summary component unit recognition pattern in consideration of the connection relationship between the summary component units or the citation relationship, and the summary component unit certification method and the summary that evaluates the importance of the recognized summary component unit Importance calculation means for composition unit, extraction order constraint that considers the extraction order using the extraction order constraint for summary composition units evaluated for importance, and extraction with high importance in consideration of application cost Summarization result output means for extracting a summary constituent unit considering the order and creating a summary.

本発明の第8のテキスト要約システムは、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手段と、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、要約構成単位に対し文の表現に基づいて補完・修正を実施し出力する要約構成単位の補完修正手段と、前記要約構成単位の補完修正手段からの要約構成単位の重要度を評価する要約構成単位の重要度計算手段と、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、要約構成単位に対し隣接する要約構成単位間での補完や修正については元の表現を適用する表現の還元手段と、前記還元手段からの要約構成単位に対し重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手段とを有することを特徴とする。 The eighth text summarization system of the present invention reads a summary constituent unit recognition pattern including a summary constituent unit having a clause including a collation condition and a predicate of a sentence as a unit, and uses the read summary constituent unit recognition pattern. Summary composition unit recognition means for identifying summary composition unit, summary composition unit complement correction pattern including collation conditions and supplementary modification information is read from the storage device, and the summary composition unit complement modification pattern is read out and used for the summary composition unit. Complement / correction means for summarizing composition units that output after completion / correction based on sentence expressions for the units, and importance of the summarizing composition units for evaluating the importance of the summarizing composition units from the supplementary correction means for the summary composition units When the summary calculation unit and the summary unit adjacent in the summary are adjacent in the same sentence of the original document, For complementation and correction, it has expression reduction means for applying the original expression, and summary result output means for extracting a summary component unit having a high importance with respect to the summary component unit from the reduction means and creating a summary It is characterized by.

本発明の第9のテキスト要約システムは、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて述部を含む節を最小とする単位を要約構成単位として認定し、これから要約文候補を得る要約文候補の生成手段と、照合条件、補完修正情報、適用コストを含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、要約文候補に対し文の表現に基づいて補完・修正を実施し出力する要約構成単位の補完修正手段と、前記要約構成単位の補完修正手段からの要約文候補の重要度を評価する要約構成単位の重要度計算手段と、要約文候補に対する重要度に基づいて、各文での要約文候補を探索し、要約として最尤の要約文候補の組み合わせを決定する際、要約構成単位を認定するためのコストと要約構成単位を補完修正するためのコストも考慮して抽出を行う要約文候補の探索手段と、決定された最尤の要約文候補の組み合わせを、出現順に並べ、要約結果として出力する要約結果出力手段とを有することを特徴とする。 The ninth text summarization system of the present invention reads a summary constituent unit qualification pattern including a summary constituent unit whose unit is a clause including a collation condition and a sentence predicate from a storage device, and uses the read summary constituent unit qualification pattern. The unit that minimizes the section including the predicate is recognized as the summary unit, and the summary sentence candidate generating means for obtaining the summary sentence candidate from the unit, and the summary unit complement correction pattern including the collation condition, supplementary correction information, and application cost Using the summary unit correction correction pattern read out from the storage device, complementing and correcting the summary sentence unit based on the sentence expression for the summary sentence candidate, and outputting the summary composition unit Summary sentence unit importance calculation means for evaluating the importance of summary sentence candidates from the unit supplementary correction means, and summary sentence candidates in each sentence based on the importance for the summary sentence candidate Searching for a summary sentence candidate that takes into account the cost for certifying the summary unit and the cost for supplementing and correcting the summary unit when determining the combination of the most likely summary sentences as a summary And a summary result output means for arranging the determined combinations of maximum likelihood summary sentence candidates in the order of appearance and outputting them as summary results.

本発明の第1のテキスト要約方法は、文の述部を含む節を要約構成単位とする情報を含む要約構成単位認定用言語知識情報を記憶装置から読み出し、読み出した要約構成単位認定用言語知識情報を用いて要約構成単位を認定する要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とを有することを特徴とする。 The first text summarization method of the present invention reads summary constituent unit recognition language knowledge information including information having a section including a predicate of a sentence as a summary constituent unit from a storage device, and reads the read summary knowledge of the constituent unit recognition language knowledge. The summary composition unit qualification procedure to certify the summary composition unit using information, the summary composition unit importance calculation procedure to evaluate the importance of the recognized summary composition unit, and the summary composition unit with high importance are extracted. A summary result output procedure for creating a summary.

本発明の第2のテキスト要約方法は、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とを有することを特徴とする。 The second text summarization method of the present invention reads a summary constituent unit qualification pattern including a summary constituent unit whose unit is a clause including a collation condition and a sentence predicate from a storage device, and uses the read summary constituent unit qualification pattern. Summary composition unit qualification procedure, summary composition unit importance calculation procedure to evaluate the importance of the certified summary composition unit, and summary summary by extracting the most important summary composition unit And a summary result output procedure.

本発明の第3のテキスト要約方法は、照合条件、文の述部を含む節を単位とする要約構成単位、適用コストを含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、適用コストを考慮し重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とを有することを特徴とする。 The third text summarization method of the present invention reads out a summary constituent unit recognition pattern including a collation condition, a summary constituent unit having a clause including a statement predicate as a unit, and an application cost from the storage device, and reads out the summary constituent unit recognition Summary composition unit qualification procedure for certifying summary composition units using patterns, summary composition unit importance calculation procedure for evaluating the importance of certified summary composition units, and high importance summary composition considering application costs A summary result output procedure for extracting a unit and creating a summary.

本発明の第4のテキスト要約方法は、前記第1、第2、または、第3のテキスト要約方法であって、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、前記要約構成単位の認定手順により認定された要約構成単位に対し文の表現に基づいて補完・修正を実施し、補完・修正した要約構成単位を前記要約構成単位の重要度計算手順に出力する要約構成単位の補完修正手順を有することを特徴とする。 A fourth text summarization method according to the present invention is the first, second, or third text summarization method, and reads a summary unit complement correction pattern including collation conditions and supplement correction information from the storage device. Using the read summary composition unit complement modification pattern, the summary composition unit certified by the summary composition unit certification procedure is supplemented / modified based on the sentence expression, and the supplemented / modified summary composition unit is obtained. It has a supplementary correction procedure for the summary constituent unit that is output to the importance calculation procedure for the summary constituent unit.

本発明の第5のテキスト要約方法は、前記第1、第2、または、第3のテキスト要約方法であって、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、前記要約構成単位の重要度計算手順により重要度が評価された要約構成単位に対し文の表現に基づいて補完・修正を実施し、補完・修正した要約構成単位を前記要約結果出力手順に出力する要約構成単位の補完修正手順を有することを特徴とする。 A fifth text summarization method according to the present invention is the first, second, or third text summarization method, and reads a summary unit complement correction pattern including collation conditions and supplement correction information from the storage device. Then, using the read summary composition unit complement correction pattern, the summary composition unit whose importance is evaluated by the summary component unit importance calculation procedure is complemented / corrected based on the sentence expression, and complemented / corrected. A summary composition unit complementing and correcting procedure for outputting the summarized composition unit to the summary result output procedure.

本発明の第6のテキスト要約方法は、照合条件、文の述部を含む節を単位とする要約構成単位、抽出順序制約を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位間の接続関係、または、引用関係を考慮し要約構成単位を認定し、要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の評価された要約構成単位に対し抽出順序制約を用いて抽出順序を考慮する抽出順序に関する制約の設定手順と、重要度が高く抽出順序の考慮された要約構成単位を抽出して要約を作成する要約結果出力手順とを有することを特徴とする。 The sixth text summarization method of the present invention reads out a summary constituent unit including a collation condition, a clause including a predicate of a sentence as a unit, and a summary constituent unit qualification pattern including an extraction order constraint from a storage device, and reads out the summary constituent unit The summary composition unit is evaluated by certifying the summary composition unit and evaluating the importance of the certified summary composition unit by certifying the summary composition unit in consideration of the connection relation between the summary composition units or the citation relation using the authorization pattern. Importance calculation procedure, extraction order constraint setting procedure that considers the extraction order using the extraction order constraint for the summary constituent units whose importance has been evaluated, and a summary constituent unit that is highly important and takes into consideration the extraction order And a summary result output procedure for creating a summary.

本発明の第7のテキスト要約方法は、照合条件、文の述部を含む節を単位とする要約構成単位、適用コスト、抽出順序制約を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位間の接続関係、または、引用関係を考慮し要約構成単位を認定し、要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の評価された要約構成単位に対し抽出順序制約を用いて抽出順序を考慮する抽出順序に関する制約の設定手順と、適用コストを考慮し重要度が高く抽出順序の考慮された要約構成単位を抽出して要約を作成する要約結果出力手順とを有することを特徴とする。 According to the seventh text summarization method of the present invention, a summary constituent unit qualification pattern including a collation condition, a summary constituent unit having a clause including a predicate of a sentence, an application cost, and an extraction order constraint is read from the storage device and read. Summarize the summary composition unit by evaluating the summary composition unit and the importance of the summary composition unit by certifying the summary composition unit by considering the connection relation between the summary composition units or the citation relation using the summary composition unit certification pattern. The importance calculation procedure of the composition unit, the setting procedure of the restriction on the extraction order that considers the extraction order using the extraction order constraint for the summary composition unit whose importance is evaluated, and the extraction with high importance in consideration of the application cost A summary result output procedure for extracting a summary constituent unit considering the order and creating a summary.

本発明の第8のテキスト要約方法は、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手順と、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、要約構成単位に対し文の表現に基づいて補完・修正を実施し出力する要約構成単位の補完修正手順と、前記要約構成単位の補完修正手順からの要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、要約構成単位に対し隣接する要約構成単位間での補完や修正については元の表現を適用する表現の還元手順と、前記還元手順からの要約構成単位に対し重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とを有することを特徴とする。 The eighth text summarization method of the present invention reads a summary constituent unit recognition pattern including a summary constituent unit having a clause including a collation condition and a predicate of a sentence as a unit, and uses the read summary constituent unit recognition pattern. Summary composition unit recognition procedure for identifying summary composition unit, summary composition unit complement correction pattern including collation condition and supplementary modification information is read from the storage device, and the summary composition unit complement modification pattern is read out and used for the summary composition unit. Complement / correction procedure for the summary component unit that outputs after completing / correcting the unit based on the sentence expression, and the importance of the summary component unit for evaluating the importance of the summary component unit from the supplementary correction procedure of the summary component unit When the summary calculation unit and the summary unit adjacent to each other in the summary are adjacent to each other in the same sentence of the original document, the sum of the summary units adjacent to the summary unit is corrected. And a reduction procedure for the expression to which the original expression is applied, and a summary result output procedure for extracting a summary component unit having a high importance with respect to the summary component unit from the reduction procedure and generating a summary. Features.

本発明の第9のテキスト要約方法は、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて述部を含む節を最小とする単位を要約構成単位として認定し、これから要約文候補を得る要約文候補の生成手順と、照合条件、補完修正情報、適用コストを含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、要約文候補に対し文の表現に基づいて補完・修正を実施し出力する要約構成単位の補完修正手順と、前記要約構成単位の補完修正手順からの要約文候補の重要度を評価する要約構成単位の重要度計算手順と、要約文候補に対する重要度に基づいて、各文での要約文候補を探索し、要約として最尤の要約文候補の組み合わせを決定する際、要約構成単位を認定するためのコストと要約構成単位を補完修正するためのコストも考慮して抽出を行う要約文候補の探索手順と、決定された最尤の要約文候補の組み合わせを、出現順に並べ、要約結果として出力する要約結果出力手順とを有することを特徴とする。 The ninth text summarization method of the present invention reads a summary constituent unit recognition pattern including a summary constituent unit having a unit including a clause including a collation condition and a statement predicate from a storage device, and uses the read summary constituent unit recognition pattern. The unit that minimizes the section containing the predicate is recognized as the summary unit, and the summary sentence unit generation procedure for obtaining the summary sentence candidate from this, and the summary unit completion correction pattern including the matching conditions, supplementary correction information, and application cost Using the read summary composition unit complement correction pattern, the summary composition unit complement correction procedure for performing the completion and correction on the summary sentence candidate based on the sentence expression, and outputting the summary composition unit Search summary sentence candidates in each sentence based on the importance calculation procedure for summary composition units that evaluate the importance of summary sentence candidates from the unit's complementary correction procedure and the importance for summary sentence candidates A procedure for searching for a summary sentence candidate that takes into account the cost for certifying the summary unit and the cost for supplementing and correcting the summary unit when determining the most likely summary sentence combination as a summary; And a summary result output procedure for arranging the determined combinations of maximum likelihood summary sentence candidates in the order of appearance and outputting them as summary results.

本発明の第1のテキスト要約プログラムは、文の述部を含む節を要約構成単位とする情報を含む要約構成単位認定用言語知識情報を記憶装置から読み出し、読み出した要約構成単位認定用言語知識情報を用いて要約構成単位を認定する要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とをコンピュータに実行させることを特徴とする。 The first text summarization program according to the present invention reads out summary constituent unit recognition language knowledge information including information having a section including a sentence predicate as a summary constituent unit from a storage device, and reads the read out summary constituent unit recognition language knowledge. The summary composition unit qualification procedure to certify the summary composition unit using information, the summary composition unit importance calculation procedure to evaluate the importance of the recognized summary composition unit, and the summary composition unit with high importance are extracted. A summary result output procedure for creating a summary is executed by a computer.

本発明の第2のテキスト要約プログラムは、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とをコンピュータに実行させることを特徴とする。 The second text summarization program of the present invention reads a summary constituent unit qualification pattern including a summary constituent unit having a collation condition and a clause including a sentence predicate as a unit, and uses the read summary constituent unit qualification pattern. Summary composition unit qualification procedure, summary composition unit importance calculation procedure to evaluate the importance of the certified summary composition unit, and summary summary by extracting the most important summary composition unit And a summary result output procedure to be executed by a computer.

本発明の第3のテキスト要約プログラムは、照合条件、文の述部を含む節を単位とする要約構成単位、適用コストを含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、適用コストを考慮し重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とをコンピュータに実行させることを特徴とする。 The third text summarization program according to the present invention reads a summary constituent unit recognition pattern including a collation condition, a summary constituent unit having a clause including a statement predicate as a unit, and an application cost from the storage device, and reads the read summary constituent unit. Summary composition unit qualification procedure for certifying summary composition units using patterns, summary composition unit importance calculation procedure for evaluating the importance of certified summary composition units, and high importance summary composition considering application costs A summary result output procedure for extracting a unit and creating a summary is executed by a computer.

本発明の第4のテキスト要約プログラムは、前記第1、第2、または、第3のテキスト要約プログラムであって、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、前記要約構成単位の認定手順により認定された要約構成単位に対し文の表現に基づいて補完・修正を実施し、補完・修正した要約構成単位を前記要約構成単位の重要度計算手順に出力する要約構成単位の補完修正手順をコンピュータに実行させることを特徴とする。 A fourth text summarization program according to the present invention is the first, second, or third text summarization program, and reads a summary unit complement correction pattern including collation conditions and supplementary correction information from the storage device. Using the read summary composition unit complement modification pattern, the summary composition unit certified by the summary composition unit certification procedure is supplemented / modified based on the sentence expression, and the supplemented / modified summary composition unit is obtained. The computer is caused to execute a supplementary correction procedure for the summary constituent unit that is output to the importance calculation procedure for the summary constituent unit.

本発明の第5のテキスト要約プログラムは、前記第1、第2、または、第3のテキスト要約プログラムであって、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、前記要約構成単位の重要度計算手順により重要度が評価された要約構成単位に対し文の表現に基づいて補完・修正を実施し、補完・修正した要約構成単位を前記要約結果出力手順に出力する要約構成単位の補完修正手順をコンピュータに実行させることを特徴とする。 A fifth text summarization program according to the present invention is the first, second, or third text summarization program, and reads a summary unit complement correction pattern including collation conditions and supplementary correction information from the storage device. Then, using the read summary composition unit complement correction pattern, the summary composition unit whose importance is evaluated by the summary component unit importance calculation procedure is complemented / corrected based on the sentence expression, and complemented / corrected. The computer is caused to execute a procedure for complementing and correcting the summary composition unit for outputting the summarized composition unit to the summary result output procedure.

本発明の第6のテキスト要約プログラムは、照合条件、文の述部を含む節を単位とする要約構成単位、抽出順序制約を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位間の接続関係、または、引用関係を考慮し要約構成単位を認定し、要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の評価された要約構成単位に対し抽出順序制約を用いて抽出順序を考慮する抽出順序に関する制約の設定手順と、重要度が高く抽出順序の考慮された要約構成単位を抽出して要約を作成する要約結果出力手順とをコンピュータに実行させることを特徴とする。 The sixth text summarization program according to the present invention reads a summary constituent unit having a collation condition, a clause containing a predicate of a sentence as a unit, and a summary constituent unit recognition pattern containing an extraction order constraint from a storage device, and reads the summary constituent unit The summary composition unit is evaluated by certifying the summary composition unit and evaluating the importance of the certified summary composition unit by certifying the summary composition unit in consideration of the connection relation between the summary composition units or the citation relation using the authorization pattern. Importance calculation procedure, extraction order constraint setting procedure that considers the extraction order using the extraction order constraint for the summary constituent units whose importance has been evaluated, and a summary constituent unit that is highly important and takes into consideration the extraction order And a summary result output procedure for generating a summary by extracting the information.

本発明の第7のテキスト要約プログラムは、照合条件、文の述部を含む節を単位とする要約構成単位、適用コスト、抽出順序制約を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位間の接続関係、または、引用関係を考慮し要約構成単位を認定し、要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の評価された要約構成単位に対し抽出順序制約を用いて抽出順序を考慮する抽出順序に関する制約の設定手順と、適用コストを考慮し重要度が高く抽出順序の考慮された要約構成単位を抽出して要約を作成する要約結果出力手順とをコンピュータに実行させることを特徴とする。 The seventh text summarization program of the present invention reads a summary constituent unit recognition pattern including a collation condition, a summary constituent unit having a clause containing a predicate of the sentence, an application cost, and an extraction order constraint from the storage device, and reads Summarize the summary composition unit by evaluating the summary composition unit and the importance of the summary composition unit by certifying the summary composition unit by considering the connection relation between the summary composition units or the citation relation using the summary composition unit certification pattern. The importance calculation procedure of the composition unit, the setting procedure of the restriction on the extraction order that considers the extraction order using the extraction order constraint for the summary composition unit whose importance is evaluated, and the extraction with high importance in consideration of the application cost A summary result output procedure for extracting a summary component unit in which the order is considered and creating a summary is executed by a computer.

本発明の第8のテキスト要約プログラムは、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手順と、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、要約構成単位に対し文の表現に基づいて補完・修正を実施し出力する要約構成単位の補完修正手順と、前記要約構成単位の補完修正手順からの要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、要約構成単位に対し隣接する要約構成単位間での補完や修正については元の表現を適用する表現の還元手順と、前記還元手順からの要約構成単位に対し重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とをコンピュータに実行させることを特徴とする。 The eighth text summarization program of the present invention reads a summary constituent unit recognition pattern including a summary constituent unit including a collation condition and a clause including a statement predicate from a storage device, and uses the read summary constituent unit recognition pattern. Summary composition unit recognition procedure for identifying summary composition unit, summary composition unit complement correction pattern including collation condition and supplementary modification information is read from the storage device, and the summary composition unit complement modification pattern is read out and used for the summary composition unit. Complement / correction procedure for the summary component unit that outputs after completing / correcting the unit based on the sentence expression, and the importance of the summary component unit for evaluating the importance of the summary component unit from the supplementary correction procedure of the summary component unit If the summary unit adjacent to the summary calculation unit and the summary unit adjacent to each other in the same sentence of the original document are adjacent to each other, For the completion and correction of the computer, a reduction procedure for the expression to which the original expression is applied, and a summary result output procedure for extracting a summary component unit having a high importance from the summary component unit from the reduction procedure and generating a summary It is made to perform.

本発明の第9のテキスト要約プログラムは、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて述部を含む節を最小とする単位を要約構成単位として認定し、これから要約文候補を得る要約文候補の生成手順と、照合条件、補完修正情報、適用コストを含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、要約文候補に対し文の表現に基づいて補完・修正を実施し出力する要約構成単位の補完修正手順と、前記要約構成単位の補完修正手順からの要約文候補の重要度を評価する要約構成単位の重要度計算手順と、要約文候補に対する重要度に基づいて、各文での要約文候補を探索し、要約として最尤の要約文候補の組み合わせを決定する際、要約構成単位を認定するためのコストと要約構成単位を補完修正するためのコストも考慮して抽出を行う要約文候補の探索手順と、決定された最尤の要約文候補の組み合わせを、出現順に並べ、要約結果として出力する要約結果出力手順とをコンピュータに実行させることを特徴とする。 A ninth text summarization program of the present invention reads a summary constituent unit recognition pattern including a summary constituent unit having a section including a collation condition and a sentence predicate as a unit, and uses the read summary constituent unit recognition pattern. The unit that minimizes the section containing the predicate is recognized as the summary unit, and the summary sentence unit generation procedure for obtaining the summary sentence candidate from this, and the summary unit completion correction pattern including the matching conditions, supplementary correction information, and application cost Using the read summary composition unit complement correction pattern, the summary composition unit complement correction procedure for performing the completion and correction on the summary sentence candidate based on the sentence expression, and outputting the summary composition unit Summarization candidate for each sentence based on the importance calculation procedure for the summary component unit that evaluates the importance of the summary sentence candidate from the unit's complementary correction procedure and the importance for the summary sentence candidate Search for summary sentence candidates that are extracted in consideration of the cost for certifying the summary structural unit and the cost for complementing and correcting the summary structural unit when determining the combination of the most likely summary sentence candidates as a summary. The computer is caused to execute a procedure and a summary result output procedure in which combinations of the determined maximum likelihood summary sentence candidates are arranged in order of appearance and output as a summary result.

第1の効果は、適切な要約構成単位の利用による要約品質向上と要約生成処理の簡易化による処理の高速化を同時に実現することができることである。 The first effect is that it is possible to simultaneously improve the summary quality by using an appropriate summary unit and speed up the process by simplifying the summary generation process.

その理由は、入力テキストの各文に対して述部を含む節を最小とする単位を要約構成単位として認定し、これを単位として要約を生成するので、要約生成の自由度が高く、従来の文を要約構成単位とする要約方法に比べて短い要約の生成における限界や品質の低下が生じにくいためであり、また、文節を要約構成単位とする要約方法と比べて荒い構文構造で要約構成単位を認定できるために、より簡易な処理によって要約を生成することができるためである。 The reason for this is that the unit that minimizes the clause containing the predicate for each sentence of the input text is recognized as the summary unit, and the summary is generated using this unit as the unit. This is because the short-term summary generation limit and quality degradation are less likely to occur compared to the summarization method that uses sentences as the summary unit, and the summary structure unit has a rough syntactic structure compared to the summarization method that uses sentences as the summary unit. This is because a summary can be generated by a simpler process.

第2の効果は、要約中における読みにくい表現や意味の分からない表現の発生を抑制できることである。 The second effect is that it is possible to suppress the occurrence of expressions that are difficult to read and expressions that do not understand the meaning in the summary.

その理由は、文中から抽出された要約構成単位が要約文中の独立した文として不適切な表現であっても、元文書における文の表現に基づいて適切に補完もしくは修正するためであり、また、引用関係や接続関係などの関係にある抽出の順序によって誤解や読みにくさを生じる要約構成単位の抽出において、抽出の順序に関する抑制を設定するためであり、要約において不要な分割に基づく補完や修正箇所を元の表現に還元することで、文間の連続性が失われることを防ぐためである。 The reason is that even if the summary unit extracted from the sentence is an inappropriate expression as an independent sentence in the summary sentence, it is appropriately supplemented or corrected based on the expression of the sentence in the original document. This is to set up suppression on the order of extraction in extraction of summary units that cause misunderstanding and difficulty in reading due to the order of extraction such as citation relationships and connection relationships. This is because the continuity between sentences is prevented from being lost by reducing the portion to the original expression.

第3の効果は、より柔軟な要約構成単位に基づくより高品質な要約文が生成されることである。 A third effect is that a higher-quality summary sentence based on a more flexible summary unit is generated.

その理由は、入力テキストの各文に対して要約構成単位認定パタンの逐次的な照合を、可能なものすべての組み合わせについて実施することで、各文に対して複数の要約文候補を作成し、その中から最尤の候補を選択するためであり、また同時に信頼度の低い単位認定パタンの適用および補完修正の適用に大きなコストを与えることにより、コストの高い単位認定パタンの適用や補完修正が抑制され、信頼度の低い要約公正単位や補完修正の適用による要約文の抑制が要約品質の向上をもたらすためである。 The reason for this is that multiple summary sentence candidates are created for each sentence by performing sequential matching of the summary unit recognition pattern for each sentence of the input text for all possible combinations. This is to select the most likely candidate from among them, and at the same time, by applying a large cost to the application of the unit recognition pattern with low reliability and the application of supplementary correction, the application of the unit recognition pattern with high cost and the supplementary correction can be performed. This is because the suppression of summary sentences that are suppressed and the reliability of summary fair units and supplementary amendments are applied to improve summary quality.

本発明の第1の実施の形態の構成を示すブロック図である。It is a block diagram which shows the structure of the 1st Embodiment of this invention. 本発明の第2の実施の形態の構成を示すブロック図である。It is a block diagram which shows the structure of the 2nd Embodiment of this invention. 本発明の第3の実施の形態の構成を示すブロック図である。It is a block diagram which shows the structure of the 3rd Embodiment of this invention. 本発明の第4の実施の形態の構成を示すブロック図である。It is a block diagram which shows the structure of the 4th Embodiment of this invention. 本発明の第5の実施の形態の構成を示すブロック図である。It is a block diagram which shows the structure of the 5th Embodiment of this invention. 本発明の第6の実施の形態の構成を示すブロック図である。It is a block diagram which shows the structure of the 6th Embodiment of this invention. 本発明の第7の実施の形態の構成を示すブロック図である。It is a block diagram which shows the structure of the 7th Embodiment of this invention. 本発明の第8の実施の形態の構成を示すブロック図である。It is a block diagram which shows the structure of the 8th Embodiment of this invention. 本発明の第9の実施の形態の構成を示すブロック図である。It is a block diagram which shows the structure of the 9th Embodiment of this invention. 本発明の第10の実施の形態の構成を示すブロック図である。It is a block diagram which shows the structure of the 10th Embodiment of this invention. 本発明の第2、第6、第7、第9の実施の形態の要約構成単位認定パタンの例を示す説明図である。It is explanatory drawing which shows the example of the summary structural unit recognition pattern of 2nd, 6th, 7th, 9th embodiment of this invention. 本発明の第6、第9の実施の形態の要約構成単位補完修正パタンの例を示す説明図である。It is explanatory drawing which shows the example of the summary structural unit complement correction pattern of the 6th, 9th embodiment of this invention. 本発明の第8の実施の形態の要約構成単位認定パタンの例を示す説明図である。It is explanatory drawing which shows the example of the summary structural unit recognition pattern of the 8th Embodiment of this invention. 本発明の第3、第10の実施の形態の要約構成単位認定パタンの例を示す説明図である。It is explanatory drawing which shows the example of the summary structural unit recognition pattern of the 3rd, 10th embodiment of this invention. 本発明の第7、第10の実施の形態の要約構成単位補完修正パタンの例を示す説明図である。It is explanatory drawing which shows the example of the summary structural unit complement correction pattern of the 7th, 10th Embodiment of this invention. 本発明の第10の実施の形態において得られる要約文候補の一例を示す説明図である。It is explanatory drawing which shows an example of the summary sentence candidate obtained in the 10th Embodiment of this invention.

次に、本発明の第1の実施の形態について図面を参照して詳細に説明する。 Next, a first embodiment of the present invention will be described in detail with reference to the drawings.

図1は、本発明の第1の実施の形態の構成を示すブロック図である。 FIG. 1 is a block diagram showing the configuration of the first exemplary embodiment of the present invention.

図1を参照すると、本発明の第1の実施の形態は、要約構成単位の認定手段101と、要約構成単位の重要度計算手段102と、要約結果出力手段103と、要約構成単位認定用言語知識情報104とから構成されている。 Referring to FIG. 1, the first embodiment of the present invention is a summary constituent unit recognition means 101, a summary constituent unit importance calculation means 102, a summary result output means 103, and a summary constituent unit recognition language. It consists of knowledge information 104.

要約構成単位認定用言語知識情報104は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。 The summary structural unit recognition language knowledge information 104 is stored in a storage device such as a memory or a hard disk, and is read and used.

これらの手段はそれぞれ概略つぎのように機能する。 Each of these means generally functions as follows.

要約構成単位の認定手段101は、テキストを入力し、入力したテキストの各文に対して要約構成単位認定用言語知識情報104を用いて述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の重要度計算手段102は、要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約結果出力手段103は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。 The summary constituent unit recognition means 101 inputs text, and uses the summary constituent unit recognition language knowledge information 104 for each sentence of the input text as a summary constituent unit. Authorize. The summary component importance level calculation means 102 uses the information such as the position of the summary component unit in the text, the clue word, the title, the importance of the word, the keyword, etc. as a clue to each summary component unit. Calculate the importance of a composition unit. The summary result output means 103 sequentially extracts from the summary component units having the highest importance until the summary length requested by the user is reached based on the importance for each summary component unit. Arrange in the order of appearance in the original text and output as a summary result.

ここで、要約構成単位の認定手段101としては、たとえば、構文解析を実施する手段、あるいは、文内文脈に関する解析を実施する手段(たとえば、非特許文献5)を用いることが可能である。また、構文解析の結果から述部を含む節を抽出する規則を要約構成単位認定用言語知識情報104として用いることが可能である。 Here, as the summary constituent unit recognition means 101, for example, means for performing syntax analysis or means for performing analysis on the context within a sentence (for example, Non-Patent Document 5) can be used. Further, a rule for extracting a clause including a predicate from the result of parsing can be used as the summary unit recognition language knowledge information 104.

次に、本発明の第1の実施の形態の動作について詳細に説明する。 Next, the operation of the first exemplary embodiment of the present invention will be described in detail.

まず、入力テキストの各文に対して要約構成単位認定用言語知識情報104を用いて述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段101)、次に、要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段102)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段103)。 First, for each sentence of the input text, the summary unit recognition language knowledge information 104 is used to identify the unit that minimizes the clause containing the predicate as the summary unit (summary unit recognition means 101). Next, the importance of each summary component in the text is calculated using the information such as the position of the summary component in the text, clue words, title, word importance, keyword, etc. ( Summary component unit importance calculation means 102), and finally, based on the importance for each summary component unit, sequentially extract from the most important summary component unit until the summary length requested by the user is reached, The extracted summary constituent units are arranged in the order of appearance in the original text and output as a summary result (summary result output means 103).

次に、本発明の第1の実施の形態の効果について説明する。 Next, effects of the first exemplary embodiment of the present invention will be described.

本発明の第1の実施の形態では、要約構成単位の認定手段101によって、入力テキストの各文に対して述部を含む節を最小とする単位を要約構成単位として認定し、これを単位として要約を生成するので、要約生成の自由度が高く、短い要約の生成にいても品質の良い要約を生成することができる。 In the first embodiment of the present invention, the summary unit recognition unit 101 recognizes, as a summary unit, a unit that minimizes a clause including a predicate for each sentence of the input text. Since the summary is generated, the degree of freedom in generating the summary is high, and a high-quality summary can be generated even when a short summary is generated.

次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。 Next, a second embodiment of the present invention will be described in detail with reference to the drawings.

図2は、本発明の第2の実施の形態の構成を示すブロック図である。 FIG. 2 is a block diagram showing the configuration of the second exemplary embodiment of the present invention.

図2を参照すると、本発明の第2の実施の形態は、要約構成単位の認定手段201と、要約構成単位の重要度計算手段202と、要約結果出力手段203と、要約構成単位認定パタン204とから構成されている。要約構成単位認定パタン204は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。 Referring to FIG. 2, the second embodiment of the present invention is a summary constituent unit recognition unit 201, a summary constituent unit importance calculation unit 202, a summary result output unit 203, and a summary constituent unit recognition pattern 204. It consists of and. The summary structural unit recognition pattern 204 is stored in a storage device such as a memory or a hard disk and is read and used, but will not be described below.

これらの手段はそれぞれ概略つぎのように機能する。 Each of these means generally functions as follows.

要約構成単位の認定手段201は、入力テキストの各文に対して要約構成単位を認定するための要約構成単位認定パタン204を用いて述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の重要度計算手段202は、要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約結果出力手段203は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。 The summary constituent unit recognition means 201 recognizes a unit that minimizes a clause including a predicate as a summary constituent unit by using the summary constituent unit recognition pattern 204 for authorizing the summary constituent unit for each sentence of the input text. To do. The summary component importance calculation means 202 uses each of the summaries in the text as a clue to information such as the position of the summary component in the text, the clue word, the title, the importance of the word, and the keyword. Calculate the importance of a composition unit. The summary result output means 203 sequentially extracts from the summary component unit having the highest importance until the summary length requested by the user is reached, based on the importance of each summary component unit, and extracts the extracted summary component units. Arrange in the order of appearance in the original text and output as a summary result.

次に、本発明の第2の実施の形態の動作について詳細に説明する。 Next, the operation of the second exemplary embodiment of the present invention will be described in detail.

まず、入力テキストの各文に対して要約構成単位認定するための要約構成単位認定パタン204を用いて述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段201)、次に、要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段202)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段203)。 First, a unit that minimizes a clause including a predicate is recognized as a summary unit using a summary unit determination pattern 204 for certifying a summary unit for each sentence of the input text (summarization unit recognition means). 201) Next, the importance of each summary constituent unit in the text is obtained by using information such as the position of the summary constituent unit in the text, the clue word, the title, the importance of the word, and the keyword with respect to the summary constituent unit. (Summary composition unit importance calculation means 202), and finally, based on the importance for each summary composition unit, from the most important summary composition unit until the summary length requested by the user is reached The extracted summary constituent units are sequentially extracted, arranged in the order of appearance in the original text, and output as a summary result (summary result output means 203).

次に、本発明の第2の実施の形態の効果について説明する。 Next, effects of the second exemplary embodiment of the present invention will be described.

本発明の第2の実施の形態では、要約構成単位の認定手段201によって、入力テキストの各文に対して述部を含む節を最小とする単位を要約構成単位として認定し、これを単位として要約を生成するので、要約生成の自由度が高く、短い要約の生成にいても品質の良い要約を生成することができ、また、文節を要約構成単位とする要約方法と比べて粗い構文解析で要約構成単位を認定できるために、より簡易な処理によって要約を生成することができる。 In the second embodiment of the present invention, the summary unit recognition unit 201 recognizes, as a summary unit, a unit that minimizes the clause containing the predicate for each sentence of the input text. Since a summary is generated, it is possible to generate a high-quality summary even when a short summary is generated. Since the summary constituent unit can be recognized, the summary can be generated by simpler processing.

次に、本発明の第3の実施の形態について図面を参照して詳細に説明する。 Next, a third embodiment of the present invention will be described in detail with reference to the drawings.

図3は、本発明の第3の実施の形態の構成を示すブロック図である。 FIG. 3 is a block diagram showing the configuration of the third exemplary embodiment of the present invention.

図3を参照すると、本発明の第3の実施の形態は、要約構成単位の認定手段301と、要約構成単位の重要度計算手段302と、要約結果出力手段303と、要約構成単位認定パタン304とから構成されている。要約構成単位認定パタン304は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。 Referring to FIG. 3, the third embodiment of the present invention is a summary constituent unit recognition means 301, a summary constituent unit importance calculation means 302, a summary result output means 303, and a summary constituent unit recognition pattern 304. It consists of and. The summary structural unit recognition pattern 304 is stored in a storage device such as a memory or a hard disk and is read and used, but will not be described below.

これらの手段はそれぞれ概略つぎのように機能する。 Each of these means generally functions as follows.

要約構成単位の認定手段301は、入力テキストの各文に対して要約構成単位を認定し、さらにそれぞれの要約構成単位を認定するためのコストが設定できる要約構成単位認定パタン304を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の重要度計算手段302は、これらの要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約結果出力手段303は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、要約構成単位を認定するためのコストも考慮して抽出を行い、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。 The summary component unit recognition means 301 recognizes the summary component unit for each sentence of the input text, and further uses the summary component unit recognition pattern 304 in which the cost for certifying each summary component unit can be set. The unit that minimizes the section containing the part is recognized as the summary unit. The summary component unit importance calculation means 302 uses the information such as the position of the summary component unit in the text, the clue word, the title, the importance of the word, the keyword, etc. as clues in the text. Calculate the importance of each summary component. The summary result output unit 303 recognizes the summary constituent units when sequentially extracting from the summary constituent units having the highest importance until the summary length requested by the user is reached based on the importance for each summary constituent unit. The extraction is performed in consideration of the cost for the extraction, and the extracted summary constituent units are arranged in the order of appearance in the original text and output as a summary result.

次に、本発明の第3の実施の形態の動作について詳細に説明する。 Next, the operation of the third exemplary embodiment of the present invention will be described in detail.

まず、入力テキストの各文に対して要約構成単位を認定し、さらにそれぞれの要約構成単位認定パタン304のなかの要約構成単位を認定するためのコストが設定できる要約構成単位認定パタン304を用いて、述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段301)、次に、これらの要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段302)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、要約構成単位を認定するためのコストも考慮して抽出を行い、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段303)。 First, by using the summary composition unit recognition pattern 304 that can recognize the summary composition unit for each sentence of the input text and set the cost for certifying the summary composition unit in each summary composition unit recognition pattern 304. Then, the unit that minimizes the section including the predicate is recognized as the summary unit (summary unit determination means 301), and then the position and clue of the summary unit in the text with respect to these summary units Using the information such as the word, title, word importance, and keyword as a clue, the importance of each summary constituent unit in the text is calculated (summary constituent unit importance calculation means 302), and finally, for each summary constituent unit Based on the importance, the summary composition unit is certified when extracting in order from the highest importance summary composition unit until the summary length requested by the user is reached. Cost of eyes was extracted in consideration arranges the extracted summarized structural units in order of appearance in the original text, and outputs the results are summarized (summarized result output unit 303).

次に、本発明の第3の実施の形態の効果について説明する。 Next, effects of the third exemplary embodiment of the present invention will be described.

本発明の第3の実施の形態では、要約構成単位の認定手段201によって、入力テキストの各文に対して述部を含む節を最小とする単位を要約構成単位として認定し、これを単位として要約を生成するので、要約生成の自由度が高く、短い要約の生成にいても品質の良い要約を生成することができ、また、文節を要約構成単位とする要約方法と比べて粗い構文解析で要約構成単位を認定できるために、より簡易な処理によって要約を生成することができ、また、コストの高い単位認定パタンの適用を抑制することができるため、信頼度の低いパタンに大きなコストを与えることにより、信頼度の低い要約構成単位の要約文への抽出が抑制され、高品質な要約文が生成される効果が得られる。 In the third embodiment of the present invention, the summary unit recognition unit 201 recognizes, as a summary unit, a unit that minimizes a clause including a predicate for each sentence of the input text. Since a summary is generated, it is possible to generate a high-quality summary even when a short summary is generated. Since the summary constituent unit can be recognized, the summary can be generated by a simpler process, and the application of the unit recognition pattern with high cost can be suppressed, so that a high cost is given to a pattern with low reliability. As a result, the extraction of summary constituent units with low reliability into the summary sentence is suppressed, and an effect of generating a high-quality summary sentence can be obtained.

次に、本発明の第4の実施の形態について図面を参照して詳細に説明する。 Next, a fourth embodiment of the present invention will be described in detail with reference to the drawings.

図4は、本発明の第4の実施の形態の構成を示すブロック図である。 FIG. 4 is a block diagram showing the configuration of the fourth exemplary embodiment of the present invention.

図4を参照すると、本発明の第4の実施の形態は、要約構成単位の認定手段401と、要約構成単位の補完修正手段402と、要約構成単位の重要度計算手段403と、要約結果出力手段404と、要約構成単位認定用言語知識情報405と、要約構成単位補完修正用言語知識情報406とから構成されている。ここで、要約構成単位の補完修正手段402としては、たとえば、主題・主格の共有の存在を推定する文解析方式を実施する手段(たとえば、特許文献2)を用いることが可能である。要約構成単位認定用言語知識情報405、要約構成単位補完修正用言語知識情報406は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。 Referring to FIG. 4, the fourth embodiment of the present invention is a summary constituent unit recognition means 401, a summary constituent unit supplementary correction means 402, a summary constituent unit importance calculation means 403, and a summary result output. It comprises means 404, summary constituent unit recognition language knowledge information 405, and summary constituent unit complementary correction language knowledge information 406. Here, for example, a means (for example, Patent Document 2) that implements a sentence analysis method for estimating the existence of a shared subject / master case can be used as the supplementary correction means 402 for the summary constituent unit. Summary unit knowledge language knowledge information 405 and summary unit supplement correction language knowledge information 406 are stored in a storage device such as a memory or a hard disk and are read and used, but will not be described below.

これらの手段はそれぞれ概略つぎのように動作する。 Each of these means generally operates as follows.

要約構成単位の認定手段401は、入力テキストの各文に対して要約構成単位認定用言語知識情報405を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の補完修正手段402は、要約構成単位補完修正用言語知識情報406を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に補完する、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する。 The summary constituent unit recognition unit 401 uses the summary constituent unit recognition language knowledge information 405 for each sentence of the input text to recognize the unit that minimizes the clause including the predicate as the summary constituent unit. By applying the summary component unit complement correction language knowledge information 406, the summary component unit supplementary correction means 402 is configured so that the importance level in the text can be appropriately determined only by the summary component unit information. The information shared in the sentence is supplemented to the summary constituent unit, or the summary constituent unit is corrected based on the sentence expression in the original document so that the expression becomes an appropriate expression as an independent sentence in the summary sentence.

要約構成単位の重要度計算手段403は、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約結果出力手段404は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。 The summary unit importance calculation means 403 calculates the position of the summary unit, the clue word, the title, and the importance of the word with respect to the summary unit in which the information is appropriately supplemented or the expression is corrected. The importance of each summary component in the text is calculated using information such as the degree and keywords. The summary result output means 404 sequentially extracts from the summary component unit having the highest importance until the summary length requested by the user is reached, based on the importance for each summary component unit, and extracts the extracted summary component units. Arrange in the order of appearance in the original text and output as a summary result.

次に、本発明の第4の実施の形態の動作について詳細に説明する。 Next, the operation of the fourth exemplary embodiment of the present invention will be described in detail.

まず、入力テキストの各文に対して要約構成単位認定用言語知識情報405を用いて、述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段401)、次に、要約構成単位補完修正用言語知識情報406を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に適切に補完し、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて適切に修正し(要約構成単位の補完修正手段402)、さらに、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段403)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段404)。 First, using the summary component unit recognition language knowledge information 405 for each sentence of the input text, a unit that minimizes a clause including a predicate is recognized as a summary unit (summary unit recognition means 401). Next, the information shared in the original sentence is applied so that the importance in the text can be appropriately judged only by the information of the summary composition unit by applying the language knowledge information 406 for complementing the composition correction of the composition unit. Is appropriately supplemented based on the sentence representation in the original document so that the expression of the summary unit becomes an appropriate expression as an independent sentence in the summary sentence. Complementary correcting means 402), and further, the position, clue word, title, simpleness in the text of the summary constituent unit with respect to the summary constituent unit that has been appropriately supplemented or corrected for the information. The importance of each summary component in the text is calculated using information such as the importance of the keyword and keywords (summary component importance calculation means 403), and finally, based on the importance for each summary component , In order from the most important summary unit until the summary length requested by the user is reached, the extracted summary units are arranged in the order of appearance in the original text and output as a summary result (summary result output) Means 404).

次に、本発明の第4の実施の形態の効果について説明する。 Next, the effect of the 4th Embodiment of this invention is demonstrated.

本発明の第4の実施の形態では、要約構成単位の補完修正手段402によって、文中から抽出された要約構成単位を元文書における文の表現に基づいて適切に補完もしくは修正するため、要約構成単位が要約文中に抽出されても文として不完全な表現が生じず、また補完された要約構成単位の情報によってその重要度が適切に評価されるので、要約の品質を改善することができる。 In the fourth embodiment of the present invention, the summary component unit is appropriately supplemented or corrected based on the sentence expression in the original document by the summary component unit supplementary correction unit 402. Even if extracted in the summary sentence, incomplete expression does not occur as a sentence, and the importance is appropriately evaluated by the information of the supplemented summary constituent unit, so that the quality of the summary can be improved.

次に、本発明の第5の実施の形態について図面を参照して詳細に説明する。 Next, a fifth embodiment of the present invention will be described in detail with reference to the drawings.

図5は、本発明の第5の実施の形態の構成を示すブロック図である。 FIG. 5 is a block diagram showing the configuration of the fifth exemplary embodiment of the present invention.

図5を参照すると、本発明の第5の実施の形態は、要約構成単位の認定手段501と、要約構成単位の重要度計算手段502と、要約構成単位の補完修正手段503と、要約結果出力手段504と、要約構成単位認定用言語知識情報505と、要約構成単位補完修正用言語知識情報506とから構成されている。要約構成単位認定用言語知識情報505、要約構成単位補完修正用言語知識情報506は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。 Referring to FIG. 5, the fifth embodiment of the present invention is a summary component unit certifying unit 501, a summary component unit importance calculating unit 502, a summary unit supplementary correcting unit 503, and a summary result output. It comprises means 504, summary constituent unit recognition language knowledge information 505, and summary constituent unit complementary correction language knowledge information 506. Summary unit knowledge language knowledge information 505 and summary unit supplement correction language knowledge information 506 are stored in a storage device such as a memory or a hard disk and are read and used, but are not described below.

これらの手段はそれぞれ概略つぎのように機能する。 Each of these means generally functions as follows.

要約構成単位の認定手段501は、入力テキストの各文に対して要約構成単位認定用言語知識情報505を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の重要度計算手段502は、これらの要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約構成単位の補完修正手段503は、要約構成単位補完修正用言語知識情報506を適用することにより、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する。要約結果出力手段504は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。 The summary constituent unit recognition unit 501 uses the summary constituent unit recognition language knowledge information 505 for each sentence of the input text to recognize the unit that minimizes the clause including the predicate as the summary constituent unit. The summary component unit importance calculation means 502 uses the information such as the position of the summary component unit in the text, the clue word, the title, the importance of the word, and the keyword as a clue to the summary component unit. Calculate the importance of each summary component. The summary composition unit supplementary correction means 503 applies the summary composition unit complement correction language knowledge information 506 so that the expression of the summary composition unit becomes an appropriate expression as an independent sentence in the summary sentence. Correct based on the expression. The summary result output means 504 sequentially extracts from the summary component units having the highest importance, sequentially until the summary length requested by the user is reached, based on the importance for each summary component unit. Arrange in the order of appearance in the original text and output as a summary result.

次に、本発明の第5の実施の形態の動作について詳細に説明する。 Next, the operation of the fifth exemplary embodiment of the present invention will be described in detail.

まず、入力テキストの各文に対して要約構成単位認定用言語知識情報505を用いて、述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段501)、次に、これらの要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段502)、さらに、要約構成単位補完修正用言語知識情報506を適用することにより、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて適切に修正し(要約構成単位の補完修正手段503)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段504)。 First, using the summary component unit recognition language knowledge information 505 for each sentence of the input text, a unit that minimizes the clause including the predicate is recognized as a summary unit (summary unit recognition means 501). Next, with respect to these summary composition units, information such as the position of the summary composition unit in the text, clue words, title, word importance, and keywords are used as clues, and the importance of each summary composition unit in the text is determined. By calculating (summary constituent unit importance calculation means 502) and applying the summary constituent unit complement correction language knowledge information 506, the expression of the summary constituent unit becomes an appropriate expression as an independent sentence in the summary sentence. Thus, the sentence is appropriately corrected based on the sentence expression in the original document (summary composition unit supplementary correction means 503), and finally, based on the importance for each summary composition unit, The summary constituent units having the highest importance are sequentially extracted until the summary length requested by the user is reached, the extracted summary constituent units are arranged in the order of appearance in the original text, and output as summary results (summary result output means 504). ).

次に、本発明の第5の実施の形態の効果について説明する。 Next, effects of the fifth exemplary embodiment of the present invention will be described.

本発明の第5の実施の形態では、要約構成単位の補完修正手段503によって、文中から抽出された要約構成単位を元文書における文の表現に基づいて適切に補完もしくは修正するため、要約構成単位が要約文中に抽出されても文として不完全な表現が生じず、要約の品質を改善することができる。 In the fifth embodiment of the present invention, the summary component unit is appropriately supplemented or corrected based on the expression of the sentence in the original document by the summary component complement correction unit 503. Is extracted in the summary sentence, an incomplete expression as a sentence does not occur, and the quality of the summary can be improved.

次に、本発明の第6の実施の形態について図面を参照して詳細に説明する。 Next, a sixth embodiment of the present invention will be described in detail with reference to the drawings.

図6は、本発明の第6の実施の形態の構成を示すブロック図である。 FIG. 6 is a block diagram showing the configuration of the sixth exemplary embodiment of the present invention.

図6を参照すると、本発明の第6の実施の形態は、要約構成単位の認定手段601と、要約構成単位の補完修正手段602と、要約構成単位の重要度計算手段603と、要約結果出力手段604と、要約構成単位認定パタン605と、要約構成単位補完修正パタン606とから構成されている。要約構成単位認定パタン605、要約構成単位補完修正パタン606は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。 Referring to FIG. 6, the sixth embodiment of the present invention is a summary constituent unit certifying means 601, a summary constituent unit supplementary correcting means 602, a summary constituent unit importance calculating means 603, and a summary result output. A means 604, a summary constituent unit recognition pattern 605, and a summary constituent unit complementary correction pattern 606 are configured. The summary constituent unit recognition pattern 605 and the summary constituent unit complementary correction pattern 606 are stored in a storage device such as a memory and a hard disk, and are read and used.

これらの手段はそれぞれ概略つぎのように機能する。 Each of these means generally functions as follows.

要約構成単位の認定手段601は、入力テキストの各文に対して要約構成単位認定パタン605を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の補完修正手段602は、要約構成単位補完修正パタン606を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に補完する、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する。要約構成単位の重要度計算手段603は、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約結果出力手段604は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。 The summary constituent unit recognition means 601 uses the summary constituent unit recognition pattern 605 for each sentence of the input text to recognize the unit that minimizes the clause including the predicate as the summary constituent unit. The summary composition unit complement correction means 602 applies the summary composition unit complement correction pattern 606, so that the importance level in the text can be appropriately judged only by the information of the summary composition unit. The supplemented information is supplemented to the summary constituent unit, or the summary constituent unit is corrected based on the sentence expression in the original document so that the expression of the summary constituent unit becomes an appropriate expression as an independent sentence in the summary sentence. The summary component unit importance calculation means 603 is the position of the summary component unit in the text, the clue word, the title, and the importance of the word with respect to the summary component unit that has been appropriately supplemented or modified in expression. The importance of each summary component in the text is calculated using information such as the degree and keywords. The summary result output means 604 sequentially extracts the summary constituent units in order from the summary constituent unit having the highest importance until the summary length requested by the user is reached, based on the importance for each summary constituent unit. Arrange in the order of appearance in the original text and output as a summary result.

次に、本発明の第6の実施の形態の動作について詳細に説明する。 Next, the operation of the sixth exemplary embodiment of the present invention will be described in detail.

まず、入力テキストの各文に対して要約構成単位認定パタン605を用いて、述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段601)、次に、要約構成単位補完修正パタン606を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に適切に補完し、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて適切に修正し(要約構成単位の補完修正手段602)、さらに、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段603)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段604)。 First, by using the summary constituent unit recognition pattern 605 for each sentence of the input text, the unit that minimizes the clause including the predicate is recognized as the summary constituent unit (summary constituent unit recognition means 601), and then By applying the summary composition unit complement correction pattern 606, the information shared in the original sentence is appropriately applied to the summary composition unit so that the importance level in the text can be appropriately judged only by the information of the summary composition unit. Or appropriately correcting based on the expression of the sentence in the original document so that the expression of the summary component unit becomes an appropriate expression as an independent sentence in the summary sentence (summary component unit complement correcting means 602), Furthermore, the position, clue word, title, word importance, key in the summary composition unit text in relation to the summary composition unit in which such information has been appropriately complemented or corrected. The importance of each summary component in the text is calculated using the information such as the code (summary component importance calculation means 603), and finally, the most important based on the importance for each summary component. The summary components are extracted in order from the highest summary component until the summary length requested by the user is reached, and the extracted summary components are arranged in the order of appearance in the original text and output as summary results (summary result output means 604). .

次に、本発明の第6の実施の形態の効果について説明する。 Next, effects of the sixth exemplary embodiment of the present invention will be described.

本発明の第6の実施の形態では、要約構成単位の補完修正手段602によって、文中から抽出された要約構成単位を元文書における文の表現に基づいて適切に補完もしくは修正するため、要約構成単位が要約文中に抽出されても文として不完全な表現が生じず、また補完された要約構成単位の情報によってその重要度が適切に評価されるので、要約の品質を改善することができる。 In the sixth embodiment of the present invention, the summary component unit is appropriately supplemented or corrected based on the expression of the sentence in the original document by the summary component unit supplementary correction means 602. Even if extracted in the summary sentence, incomplete expression does not occur as a sentence, and the importance is appropriately evaluated by the information of the supplemented summary constituent unit, so that the quality of the summary can be improved.

次に、本発明の第7の実施の形態について図面を参照して詳細に説明する。 Next, a seventh embodiment of the present invention will be described in detail with reference to the drawings.

図7は、本発明の第7の実施の形態の構成を示すブロック図である。 FIG. 7 is a block diagram showing a configuration of the seventh exemplary embodiment of the present invention.

図7を参照すると、本発明の第7の実施の形態は、要約構成単位の認定手段701と、要約構成単位の補完修正手段702と、要約構成単位の重要度計算手段703と、要約結果出力手段704と、要約構成単位認定パタン705と、要約構成単位補完修正パタン706とから構成されている。要約構成単位認定パタン705、要約構成単位補完修正パタン706は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。 Referring to FIG. 7, the seventh embodiment of the present invention is a summary constituent unit certifying means 701, a summary constituent unit complementary correcting means 702, a summary constituent unit importance calculating means 703, and a summary result output. A means 704, a summary constituent unit recognition pattern 705, and a summary constituent unit complementary correction pattern 706 are configured. The summary constituent unit recognition pattern 705 and the summary constituent unit complementary correction pattern 706 are stored in a storage device such as a memory and a hard disk, and are read and used.

これらの手段はそれぞれ概略つぎのように機能する。 Each of these means generally functions as follows.

要約構成単位の認定手段701は、入力テキストの各文に対して要約構成単位認定パタン705を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の補完修正手段702は、要約構成単位補完修正パタン706を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に適切に補完し、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて適切に修正し、さらにそれぞれの要約構成単位補完修正パタン706で要約構成単位を補完修正するためのコストを設定する。 The summary constituent unit recognition means 701 uses the summary constituent unit recognition pattern 705 for each sentence of the input text to recognize the unit that minimizes the clause including the predicate as the summary constituent unit. The summary composition unit complement correction means 702 applies the summary composition unit complement correction pattern 706 to share the original sentence so that the importance level in the text can be appropriately determined only by the summary composition unit information. Appropriately supplement the information contained in the summary unit, or modify it appropriately based on the sentence representation in the original document so that the summary unit expression is an appropriate expression as an independent sentence in the summary sentence, Further, a cost for complementing and correcting the summary constituent unit is set by each summary constituent unit complementing correction pattern 706.

要約構成単位の重要度計算手段703は、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約結果出力手段704は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、要約構成単位を補完修正するためのコストも考慮して抽出を行い、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。 The summary component unit importance calculation means 703 performs the position of the summary component unit in the text, the clue word, the title, and the importance of the word with respect to the summary component unit in which the information is appropriately supplemented or the expression is corrected. The importance of each summary component in the text is calculated using information such as the degree and keywords. The summary result output means 704 complements and corrects the summary constituent units when extracting sequentially from the summary constituent units having the highest importance until the summary length requested by the user is reached, based on the importance for each summary constituent unit. Then, the extraction is performed in consideration of the cost for performing, and the extracted summary constituent units are arranged in the order of appearance in the original text and output as a summary result.

次に、本発明の第7の実施の形態の動作について詳細に説明する。 Next, the operation of the seventh exemplary embodiment of the present invention will be described in detail.

まず、入力テキストの各文に対して要約構成単位認定パタン705を用いて、述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段701)、次に、要約構成単位補完修正パタン706を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に適切に補完し、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて適切に修正し、さらにそれぞれの要約構成単位補完修正パタン706で要約構成単位を補完修正するためのコストを設定し(要約構成単位の補完修正手段702)、さらに、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段703)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、要約構成単位を補完修正するためのコストも考慮して抽出を行い、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段704)。 First, by using the summary constituent unit recognition pattern 705 for each sentence of the input text, the unit that minimizes the clause including the predicate is recognized as the summary constituent unit (summary constituent unit recognition means 701), and then By applying the summary composition unit complement correction pattern 706, the information shared in the original sentence is appropriately applied to the summary composition unit so that the importance level in the text can be appropriately judged only by the information of the summary composition unit. Or appropriately correct based on the expression of the sentence in the original document so that the expression of the summary unit becomes an appropriate expression as an independent sentence in the summary sentence. To set the cost for complementing and correcting the summary constituent unit (summary constituent unit supplementary correcting means 702), and further complementing or correcting the information appropriately. For each summary component, the importance of each summary component in the text is calculated using information such as the position of the summary component in the text, clue words, title, word importance, and keywords (summary). The importance calculation means 703) of the composition unit, and finally, when extracting sequentially from the summary composition unit having the highest importance in order until the summary length requested by the user is reached based on the importance for each summary composition unit, Extraction is performed in consideration of the cost for complementing and correcting the summary constituent units, and the extracted summary constituent units are arranged in the order of appearance in the original text and output as summary results (summary result output means 704).

次に、本発明の第7の実施の形態の効果について説明する。 Next, effects of the seventh exemplary embodiment of the present invention will be described.

本発明の第7の実施の形態では、要約構成単位の補完修正手段702によって、文中から抽出された要約構成単位を元文書における文の表現に基づいて適切に補完もしくは修正するため、要約構成単位が要約文中に抽出されても文として不完全な表現が生じず、また補完された要約構成単位の情報によってその重要度が適切に評価されるので、要約の品質を改善することができる。また、それぞれの要約構成単位補完修正パタン706で要約構成単位を補完修正するためのコストを設定することができるので、信頼度の低いパタンに大きなコストを与えることにより、信頼度の低い補完修正の適用による要約文が抑制され、これにより、より高品質な要約文が生成できる。 In the seventh embodiment of the present invention, a summary component unit is appropriately supplemented or corrected based on the sentence representation in the original document by the summary component complement correction means 702. Even if extracted in the summary sentence, incomplete expression does not occur as a sentence, and the importance is appropriately evaluated by the information of the supplemented summary constituent unit, so that the quality of the summary can be improved. In addition, since the cost for supplementary correction of the summary constituent unit can be set by each of the summary constituent unit supplemental correction patterns 706, a large cost is given to a pattern with low reliability, so that correction correction with low reliability can be performed. The summary sentence by application is suppressed, and thereby, a higher-quality summary sentence can be generated.

次に、本発明の第8の実施の形態について図面を参照して詳細に説明する。 Next, an eighth embodiment of the present invention will be described in detail with reference to the drawings.

図8は、本発明の第8の実施の形態の構成を示すブロック図である。 FIG. 8 is a block diagram showing the configuration of the eighth embodiment of the present invention.

図8を参照すると、本発明の第8の実施の形態は、要約構成単位の認定手段801と、要約構成単位の重要度計算手段802と、要約構成単位の抽出順序に関する制約の設定手段803と、要約結果出力手段804と、要約構成単位認定パタン805とから構成されている。要約構成単位認定パタン805は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。 Referring to FIG. 8, the eighth embodiment of the present invention includes a summary component unit certifying unit 801, a summary component unit importance calculating unit 802, and a constraint setting unit 803 for extracting the summary component units. , A summary result output means 804 and a summary constituent unit recognition pattern 805. The summary structural unit recognition pattern 805 is stored in a storage device such as a memory or a hard disk and is read and used, but will not be described below.

これらの手段はそれぞれ概略つぎのように機能する。 Each of these means generally functions as follows.

要約構成単位の認定手段801は、入力テキストの各文に対して要約構成単位を認定し、さらにそれぞれの要約構成単位認定パタン805で認定される要約構成単位の間における接続関係や引用関係を認定し、要約構成単位認定パタン805を用いて、述部を含む節を最小とする単位を要約構成単位として認定し、さらにそれぞれの要約構成単位を抽出する際にこれらの関係を考慮した抽出順序に関する制約が設定できる。要約構成単位の重要度計算手段802は、これらの要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約構成単位の抽出順序に関する制約の設定手段803は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、それぞれの要約構成単位間の関係を考慮した抽出順序に関する制約も考慮して抽出を行う。要約結果出力手段804は、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。 The summary constituent unit recognition means 801 recognizes the summary constituent unit for each sentence of the input text, and further recognizes the connection relation and the citation relation between the summary constituent units certified by the respective summary constituent unit certification pattern 805. Then, using the summary unit determination pattern 805, a unit that minimizes a clause including a predicate is recognized as a summary unit, and further, when extracting each summary unit, an extraction order that considers these relationships is used. Constraints can be set. The summary component unit importance calculation means 802 uses the information such as the position of the summary component unit in the text, the clue word, the title, the importance of the word, and the keyword as a clue to the summary component unit. Calculate the importance of each summary component. The restriction setting unit 803 regarding the extraction order of the summary constituent units sequentially extracts from the summary constituent units having the highest importance in order until the summary length requested by the user is reached based on the importance for each summary constituent unit. In addition, the extraction is performed in consideration of the restriction on the extraction order in consideration of the relationship between the respective summary constituent units. The summary result output means 804 arranges the extracted summary constituent units in the order of appearance in the original text, and outputs them as a summary result.

次に、本発明の第8の実施の形態の動作について詳細に説明する。 Next, the operation of the eighth exemplary embodiment of the present invention will be described in detail.

まず、入力テキストの各文に対して要約構成単位を認定し、さらにそれぞれの要約構成単位認定パタン805で認定される要約構成単位の間における接続関係や引用関係を認定し、要約構成単位認定パタン805を用いて、述部を含む節を最小とする単位を要約構成単位として認定し、さらにそれぞれの要約構成単位を抽出する際にこれらの関係を考慮した抽出順序に関する制約を設定し(要約構成単位の認定手段801)、次に、これらの要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段802)、さらに、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、それぞれの要約構成単位間の関係を考慮した抽出順序に関する制約も考慮して抽出し(要約構成単位の抽出順序に関する制約の設定手段803)、最後に、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段804)。 First, for each sentence of the input text, a summary constituent unit is certified, and further, a connection relation and a citation relation between the summary constituent units certified by each summary constituent unit certification pattern 805 are certified, and a summary constituent unit certification pattern is obtained. Using 805, the unit that minimizes the clause containing the predicate is recognized as the summary unit, and further, when extracting each summary unit, constraints on the extraction order considering these relationships are set (summary configuration). Unit certifying means 801) Next, with respect to these summary constituent units, information such as the position of the summary constituent unit in the text, clue words, titles, importance of words, keywords, etc. are used as clues, and The importance of the summary composition unit is calculated (summary composition unit importance calculation means 802), and the weight of each summary composition unit is calculated based on the importance for each summary composition unit. When extracting in order from the highest summary component until the summary length required by the user is reached, the extraction is performed in consideration of the restriction on the extraction order considering the relationship between each summary component (summary component unit). Constraint setting means 803) regarding the extraction order, and finally, the extracted summary constituent units are arranged in the order of appearance in the original text and output as a summary result (summary result output means 804).

次に、本発明の第8の実施の形態の効果について説明する。 Next, the effect of the 8th Embodiment of this invention is demonstrated.

本発明の第8の実施の形態では、要約構成単位の抽出順序に関する制約の設定手段803によって、要約構成単位の間に認定された関係をそれぞれの要約構成単位を抽出する際に考慮するので、たとえば引用関係や接続関係などにおいて従文のみが抽出されることによって生じる元の文と意味の異なる要約文の生成が抑制され、高品質な要約文が生成される効果が得られる。 In the eighth embodiment of the present invention, the constraint setting means 803 regarding the extraction order of the summary constituent units is considered when extracting the respective summary constituent units, since the relationship recognized between the summary constituent units is taken into consideration. For example, the generation of a summary sentence having a different meaning from the original sentence caused by extracting only the subordinate sentence in a citation relation or a connection relation is suppressed, and an effect of generating a high-quality summary sentence is obtained.

次に、本発明の第9の実施の形態について図面を参照して詳細に説明する。 Next, a ninth embodiment of the present invention will be described in detail with reference to the drawings.

図9は、本発明の第9の実施の形態の構成を示すブロック図である。 FIG. 9 is a block diagram showing a configuration of the ninth exemplary embodiment of the present invention.

図9を参照すると、本発明の第9の実施の形態は、要約構成単位の認定手段901と、要約構成単位の補完修正手段902と、要約構成単位の重要度計算手段903と、隣接する要約構成単位における表現の還元手段904と、要約結果出力手段905と、要約構成単位認定パタン906と、要約構成単位補完修正パタン907とから構成されている。要約構成単位認定パタン906、要約構成単位補完修正パタン907は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。 Referring to FIG. 9, the ninth embodiment of the present invention includes a summary component unit certifying unit 901, a summary component unit complementing and correcting unit 902, a summary component unit importance calculation unit 903, and an adjacent summary. The expression unit reduction unit 904, the summary result output unit 905, the summary unit recognition pattern 906, and the summary unit complement correction pattern 907 are configured. The summary constituent unit recognition pattern 906 and the summary constituent unit complementary correction pattern 907 are stored in a storage device such as a memory or a hard disk and are read and used, but will not be described one by one.

これらの手段はそれぞれ概略つぎのように動作する。 Each of these means generally operates as follows.

要約構成単位の認定手段901は、入力テキストの各文に対して要約構成単位認定パタン906を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の補完修正手段902は、要約構成単位補完修正パタン907を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に補完する、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する。 The summary constituent unit recognition means 901 uses the summary constituent unit recognition pattern 906 for each sentence of the input text to recognize the unit that minimizes the clause including the predicate as the summary constituent unit. The summary composition unit complement correction means 902 applies the summary composition unit complement modification pattern 907 to share the original sentence so that the importance level in the text can be appropriately determined only by the information of the summary composition unit. The supplemented information is supplemented to the summary constituent unit, or the summary constituent unit is corrected based on the sentence expression in the original document so that the expression of the summary constituent unit becomes an appropriate expression as an independent sentence in the summary sentence.

要約構成単位の重要度計算手段903は、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。 The summary component unit importance calculation means 903 is the position of the summary component unit in the text, the clue word, the title, and the importance of the word with respect to the summary component unit that has been appropriately supplemented or modified in expression. The importance of each summary component in the text is calculated using information such as the degree and keywords.

隣接する要約構成単位における表現の還元手段904は、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、隣接する要約構成単位間での補完や修正については補完修正前の表現を用いる。要約結果出力手段905は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。 The expression reduction unit 904 in the adjacent summary component unit supposes that the summary component unit adjacent to each other in the summary is adjacent even in the same sentence of the original document. Is used. The summary result output means 905 sequentially extracts from the summary component unit having the highest importance, in order, until the summary length requested by the user is reached, based on the importance for each summary component unit. Arrange in the order of appearance in the original text and output as a summary result.

次に、本発明の第9の実施の形態の動作について詳細に説明する。 Next, the operation of the ninth exemplary embodiment of the present invention will be described in detail.

まず、入力テキストの各文に対して要約構成単位認定パタン906を用いて、述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段901)、次に、要約構成単位補完修正パタン907を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に適切に補完し、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて適切に修正する(要約構成単位の補完修正手段902)。 First, by using the summary constituent unit recognition pattern 906 for each sentence of the input text, the unit that minimizes the clause including the predicate is recognized as the summary constituent unit (summary constituent unit recognition means 901), and then By applying the summary composition unit complement correction pattern 907, the information shared in the original sentence is appropriately applied to the summary composition unit so that the importance level in the text can be appropriately judged only by the information of the summary composition unit. Or appropriately correct based on the expression of the sentence in the original document so that the expression of the summary composition unit becomes an appropriate expression as an independent sentence in the summary sentence (summary composition unit complement correction means 902).

そして、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段903)、さらに、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、隣接する要約構成単位間での補完や修正については補完修正前の表現を用い、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し(隣接する要約構成単位における表現の還元手段904)、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段905)。 Then, with respect to the summary composition unit that has been appropriately supplemented or corrected in terms of information, information such as the position of the summary composition unit in the text, clue words, title, word importance, and keywords are used as clues. , Calculate the importance of each summary component in the text (summary component importance calculation means 903), and if the summary component adjacent in the summary is adjacent in the same sentence of the original document, For the completion and correction between the summary composition units to be used, the expression before complement correction is used, and finally, the user requests in order from the most important summary composition unit based on the importance for each summary composition unit. Sequentially extracted until the summary length is reached (reduction means 904 for expression in adjacent summary constituent units), and the extracted summary constituent units are displayed in the order of appearance in the original text. Arranged to output as a summary result (summarized result output unit 905).

次に、本発明の第9の実施の形態の効果について説明する。 Next, effects of the ninth exemplary embodiment of the present invention will be described.

本発明の第9の実施の形態では、隣接する要約構成単位における表現の還元手段904によって、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、隣接する要約構成単位間での補完や修正については補完修正前の表現を用いるので、補完や修正によって文間の連続性が失われることを緩和する効果が得られ、要約の可読性を改善することができる。 In the ninth embodiment of the present invention, when the summary reduction unit 904 in the adjacent summary unit is adjacent in the same sentence of the original document by the reduction means 904 in the summary, the adjacent summary unit Since the expression before completion correction is used for inter-completion and correction, the effect of mitigating the loss of continuity between sentences due to completion and correction can be obtained, and the readability of the summary can be improved.

次に、本発明の第10の実施の形態について図面を参照して詳細に説明する。 Next, a tenth embodiment of the present invention will be described in detail with reference to the drawings.

図10は、本発明の第10の実施の形態の構成を示すブロック図である。 FIG. 10 is a block diagram showing the configuration of the tenth embodiment of the present invention.

図10を参照すると、本発明の第10の実施の形態は、要約文候補の生成手段1001と、要約構成単位の補完修正手段1002と、要約構成単位の重要度計算手段1003と、要約文候補の探索手段1004と、要約結果出力手段1005と、要約構成単位認定パタン1006と、要約構成単位補完修正パタン1007とから構成されている。要約構成単位認定パタン1006、要約構成単位補完修正パタン1007は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。 Referring to FIG. 10, the tenth embodiment of the present invention is a summary sentence candidate generation means 1001, a summary composition unit complementation correction means 1002, a summary composition unit importance calculation means 1003, and a summary sentence candidate. Search means 1004, summary result output means 1005, summary constituent unit recognition pattern 1006, and summary constituent unit complement correction pattern 1007. The summary constituent unit recognition pattern 1006 and the summary constituent unit complementary correction pattern 1007 are stored in a storage device such as a memory or a hard disk, and are read and used.

これらの手段はそれぞれ概略つぎのように動作する。 Each of these means generally operates as follows.

要約文候補の生成手段1001は、入力テキストの各文に対して要約構成単位認定パタン1006の逐次的な照合によって、可能なすべての述部を含む節を最小とする単位を要約構成単位として認定し、これから要約文候補を得る。要約構成単位の補完修正手段1002は、要約構成単位補完修正パタン1007を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に補完する、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する。 The summary sentence candidate generation means 1001 recognizes a unit that minimizes a clause including all possible predicates as a summary constituent unit by sequentially collating the summary constituent unit recognition pattern 1006 with respect to each sentence of the input text. Then, a summary sentence candidate is obtained. The summary composition unit complement correction means 1002 applies the summary composition unit complement correction pattern 1007 to share the original sentence so that the importance level in the text can be appropriately determined only by the information of the summary composition unit. The supplemented information is supplemented to the summary constituent unit, or the summary constituent unit is corrected based on the sentence expression in the original document so that the expression of the summary constituent unit becomes an appropriate expression as an independent sentence in the summary sentence.

要約構成単位の重要度計算手段1003は、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約文候補の探索手段1004は、これらの要約文候補に対する重要度に基づいて、テキスト中の各文での要約文候補を探索し、入力テキストに対する要約として最尤の要約文候補の組み合わせを決定する際、要約構成単位を認定するためのコストと要約構成単位を補完修正するためのコストも考慮して抽出を行う。要約結果出力手段1005は、決定された最尤の要約文候補の組み合わせを、元のテキストにおける出現順に並べ、要約結果として出力する。 The summary component unit importance calculation means 1003 is the position of the summary component unit in the text, the clue word, the title, and the importance of the word with respect to the summary component unit that has been appropriately supplemented or modified in expression. The importance of each summary component in the text is calculated using information such as the degree and keywords. The summary sentence candidate search unit 1004 searches for summary sentence candidates in each sentence in the text based on the importance of these summary sentence candidates, and determines a combination of maximum likelihood summary sentence candidates as a summary for the input text. In this case, the extraction is performed in consideration of the cost for certifying the summary unit and the cost for complementing and correcting the summary unit. The summary result output unit 1005 arranges the determined combinations of maximum likelihood summary sentence candidates in the order of appearance in the original text, and outputs the summary results.

次に、本発明の第10の実施の形態の動作について詳細に説明する。 Next, the operation of the tenth embodiment of the present invention will be described in detail.

まず、入力テキストの各文に対して要約構成単位認定パタン1006の逐次的な照合によって、可能なすべての述部を含む節を最小とする単位を要約構成単位として認定し、これから要約文候補を得る(要約文候補の生成手段1001)。この際、要約文候補中の要約構成単位に対して、要約構成単位補完修正パタン1007を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に補完する、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する(要約構成単位の補完修正手段1002)。 First, a unit that minimizes a clause including all possible predicates is recognized as a summary constituent unit by sequentially collating the summary constituent unit recognition pattern 1006 for each sentence of the input text. (Summary sentence candidate generating means 1001). At this time, by applying the summary composition unit complement correction pattern 1007 to the summary composition unit in the summary sentence candidate, the importance in the text can be appropriately determined only by the information of the summary composition unit. The information shared in the original sentence is supplemented to the summary unit, or the expression of the summary unit is corrected based on the sentence representation in the original document so that it becomes an appropriate expression as an independent sentence in the summary sentence. (Summary composition unit supplementary correction means 1002).

次に、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段1003)、これらの要約文候補に対する重要度に基づいて、テキスト中の各文での要約文候補を探索し、入力テキストに対する要約として最尤の要約文候補の組み合わせを決定する際、要約構成単位を認定するためのコストと要約構成単位を補完修正するためのコストも考慮して抽出し(要約文候補の探索手段1004)、決定された最尤の要約文候補の組み合わせを、元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段1005)。 Next, information such as position, clue word, title, word importance, keyword, etc. in the text of the summary composition unit with respect to the summary composition unit in which such information has been appropriately supplemented or corrected in expression is provided. The importance of each summary constituent unit in the text is calculated (summary constituent unit importance calculating means 1003), and the summary sentence candidate in each sentence in the text is calculated based on the importance for these summary sentence candidates. When extracting and determining the most likely summary sentence combination as a summary for the input text, it is extracted in consideration of the cost for certifying the summary unit and the cost for supplementing and correcting the summary unit (summary sentence). The candidate searching means 1004) arranges the combinations of the determined maximum likelihood summary sentence candidates in the order of appearance in the original text and outputs them as a summary result (summary result output). It means 1005).

次に、本発明の第10の実施の形態の効果について説明する。 Next, the effect of the 10th Embodiment of this invention is demonstrated.

本発明の第10の実施の形態では、要約文候補の生成手段1001と要約文候補の探索手段1004とによって、可能なすべての述部を含む節を最小とする単位を要約構成単位として認定し、これから複数の要約文候補を作成するので、より柔軟な要約構成単位からの要約文の選択を実現することができる。またこのとき、最尤の要約文候補のからの探索の際、要約構成単位を認定するためのコストと要約構成単位を補完修正するためのコストも考慮するので、要約中における読みにくい表現や意味の分からない表現の発生を同時に抑制することができ、柔軟な要約構成単位に基づくより高品質な要約を生成する効果が得られる。 In the tenth embodiment of the present invention, the summary sentence candidate generating means 1001 and the summary sentence candidate searching means 1004 recognize a unit that minimizes a clause including all possible predicates as a summary constituent unit. Since a plurality of summary sentence candidates are created from now on, it is possible to realize the selection of summary sentences from more flexible summary constituent units. At this time, when searching from the most likely summary sentence candidate, the cost for certifying the summary unit and the cost for supplementing and correcting the summary unit are also considered. The generation of unknown expressions can be suppressed at the same time, and the effect of generating a higher-quality summary based on a flexible summary unit can be obtained.

次に、本発明の第1〜第3の実施の形態の実施例について図面を参照して詳細に説明する。 Next, examples of the first to third embodiments of the present invention will be described in detail with reference to the drawings.

図11は、要約構成単位認定パタン204、要約構成単位認定パタン605、要約構成単位認定パタン705、要約構成単位認定パタン906の例を示す説明図である。 FIG. 11 is an explanatory diagram showing an example of the summary constituent unit certification pattern 204, the summary constituent unit certification pattern 605, the summary constituent unit certification pattern 705, and the summary constituent unit certification pattern 906.

図14は、要約構成単位認定パタン304、要約構成単位認定パタン1006の例を示す説明図である。 FIG. 14 is an explanatory diagram showing an example of the summary constituent unit recognition pattern 304 and the summary constituent unit recognition pattern 1006.

第1の実施の形態における要約構成単位認定用言語知識情報104の具体的な実施の一例が第2の実施の形態における要約構成単位認定パタン204であるため、ここでは、第2の実施の形態について説明する。 An example of a specific implementation of the summary component unit certifying language knowledge information 104 in the first embodiment is the summary component unit qualification pattern 204 in the second embodiment, and therefore, here, the second embodiment. Will be described.

まず、要約構成単位の認定手段201が、要約構成単位認定パタン204において、入力テキストの各文に対して要約構成単位を認定するための要約構成単位認定パタン204を用いて述部を含む節を最小とする単位を要約構成単位として認定する。このとき、テキスト中に「従来、点数で機械的に生徒を切り捨てる傾向があったが、ここ数年で生徒の面倒をみていこうという機運が出てきた。」という文が存在し、また要約構成単位認定パタン204が、図11中に示すようなものであったとする。各パタンは文もしくは要約構成単位に対してパタンを適用するかどうかの条件を記述した「照合条件」と、適用によって得られる要約構成単位の形態を記述した「要約構成単位」とから構成されている。 First, the summary constituent unit recognition means 201 uses the summary constituent unit certification pattern 204 for authorizing the summary constituent unit for each sentence of the input text in the summary constituent unit certification pattern 204 to include a clause including a predicate. The smallest unit is recognized as the summary unit. At this time, there is a sentence in the text that says, “Traditionally, there has been a tendency to cut off students mechanically, but in the last few years there has been a moment to take care of students.” Assume that the unit recognition pattern 204 is as shown in FIG. Each pattern is composed of a “collation condition” that describes whether or not to apply a pattern to a sentence or summary unit, and a “summary unit” that describes the form of the summary unit obtained by application. Yes.

照合条件における「S」は、パタンを適用する対象を現し、「P1」や「P2」は、「P1=」または「P2=」で定義された式に照合するSの部分を表す。「用言」は動詞、形容詞、形容動詞のいずれかに照合し、「*」は長さ0以上の任意の文字列に照合する。その結果、パタン1は、たとえば、接続詞「が」によって二つの単文が接続されているような文に照合し、それぞれの単文を要約構成単位として認定するように機能する。したがって、テキスト中の文は、図11中のパタン1の照合条件に適合し、その結果として、要約構成単位S1とS2とに相当する「従来、点数で機械的に生徒を切り捨てる傾向があった。」と「ここ数年で生徒の面倒をみていこうという機運が出てきた。」とがそれぞれ要約構成単位として得られる。 “S” in the collation condition represents an object to which the pattern is applied, and “P1” and “P2” represent a portion of S that is collated with an expression defined by “P1 =” or “P2 =”. The “use” is matched with a verb, an adjective, or an adjective verb, and “*” is matched with an arbitrary character string having a length of 0 or more. As a result, the pattern 1 functions to collate with a sentence in which two simple sentences are connected by the conjunction “ga”, for example, and to recognize each single sentence as a summary constituent unit. Therefore, the sentence in the text conforms to the matching condition of the pattern 1 in FIG. 11, and as a result, “similar to the summary structural units S1 and S2,“ there has been a tendency to mechanically cut off the students by points. And "The momentum to take care of the students has come out in the last few years."

次に、要約構成単位の重要度計算手段202では、これら2つの単位を含めたすべての要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、要約結果出力手段203が、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。 Next, in the summary component unit importance calculation means 202, the position of the summary component unit in the text, clue word, title, importance of the word, and keyword for all the summary component units including these two units. The importance of each summary composition unit in the text is calculated using information such as the above, and finally, the user requests in order from the most important summary composition unit based on the importance for each summary composition unit. The summary result output unit 203 arranges the extracted summary constituent units in the order of appearance in the original text and outputs the summary results.

また、第3の実施の形態では、第2の実施の形態と同様の構成であるが、それぞれの要約構成単位を認定するためのコストが設定できる要約構成単位認定パタン304を用いる点が異なる。これについては、第10の実施の形態の実施例において詳細に説明する。 In the third embodiment, the configuration is the same as that of the second embodiment, except that a summary configuration unit recognition pattern 304 that can set a cost for certifying each summary configuration unit is used. This will be described in detail in an example of the tenth embodiment.

次に、本発明の第4〜第7、第9の実施の形態の実施例について図面を参照して詳細に説明する。 Next, examples of the fourth to seventh and ninth embodiments of the present invention will be described in detail with reference to the drawings.

図12は、要約構成単位補完修正パタン606、要約構成単位補完修正パタン907の例を示す説明図である。 FIG. 12 is an explanatory diagram illustrating an example of the summary constituent unit complement correction pattern 606 and the summary constituent unit complement correction pattern 907.

第4の実施の形態における要約構成単位認定用言語知識情報405、および、要約構成単位補完修正用言語知識情報406、あるいは、第5の実施の形態における要約構成単位認定用言語知識情報505、および要約構成単位補完修正用言語知識情報506、の具体的な実施の一例が第6の実施の形態における要約構成単位認定パタン605、および要約構成単位補完修正パタン606であるため、ここでは、第6の実施の形態について説明する。 Summary component unit recognition language knowledge information 405 and summary component unit complement correction language knowledge information 406 in the fourth embodiment, or summary component unit recognition language knowledge information 505 in the fifth embodiment, and An example of concrete implementation of the summary constituent unit complement correction language knowledge information 506 is the summary constituent unit recognition pattern 605 and the summary constituent unit supplement correction pattern 606 in the sixth embodiment. The embodiment will be described.

まず、要約構成単位の認定手段601が、入力テキストの各文に対して要約構成単位認定パタン605を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。このとき、テキスト中に「映画ファンは映画館には足を運ばなくなり、レンタルビデオで済ませるようになった。」という文が存在し、また要約構成単位認定パタン605が、図11中に示すようなものであったとする。 First, the summary constituent unit recognition means 601 uses the summary constituent unit recognition pattern 605 for each sentence of the input text to recognize the unit that minimizes the clause including the predicate as the summary constituent unit. At this time, there is a sentence in the text that “a movie fan has stopped going to the theater and can only use a rental video”, and a summary unit recognition pattern 605 is shown in FIG. Suppose that

すると、テキスト中の文は、図11中のパタン2の照合条件に適合し、その結果として、要約構成単位S1とS2に相当する「映画ファンは映画館には足を運ばなくなる。」と「レンタルビデオで済ませるようになった。」がそれぞれ要約構成単位として得られる。 Then, the sentence in the text conforms to the matching condition of pattern 2 in FIG. 11, and as a result, “movie fans will not go to the movie theater” corresponding to the summary structural units S1 and S2. “Rental video can be used” is obtained as a summary unit.

次に、要約構成単位の補完修正手段602が、要約構成単位補完修正パタン606を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に補完する、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する。 Next, the summary composition unit complement correction means 602 applies the summary composition unit complement correction pattern 606 so that the importance level in the text can be appropriately determined only by the summary composition unit information. The information shared in the sentence is supplemented to the summary constituent unit, or the summary constituent unit is corrected based on the sentence expression in the original document so that the expression becomes an appropriate expression as an independent sentence in the summary sentence.

このとき、要約構成単位補完修正パタン606が、図12中に示すようなものであったとする。各パタンは文もしくは要約構成単位に対してパタンを適用するかどうかの条件を記述した「照合条件」と、適用によって補完修正が行われた結果として得られる要約構成単位の形態を記述した「補完修正」とから構成されている。照合条件における「S」は、パタンを適用する対象である、要約構成単位の列で表現された文の単位を現し、「S1」、「Sk」、「Sn」は、「S1=」、「Sk=」、「Sn=」で定義された式に照合するS中の要約構成単位を表す。ここでS1は、図12のパタン2の照合条件に適合するので補完修正を適用する。ここでは、S2の時制が過去であるため、S1の補完修正の結果として「映画ファンは映画館には足を運ばなくなった。」を得る。また、S2はパタン1の照合条件に適合するので同様に補完修正を適用する。 At this time, it is assumed that the summary structural unit complement correction pattern 606 is as shown in FIG. Each pattern has a “matching condition” that describes whether or not the pattern is applied to the sentence or summary unit, and a “completion” that describes the form of the summary unit that is obtained as a result of supplementary correction by application. It is composed of “Fix”. “S” in the collation condition represents a sentence unit represented by a column of summary constituent units to which the pattern is applied. “S1”, “Sk”, and “Sn” are “S1 =”, “ It represents the summary constituent unit in S that matches the formula defined by “Sk =” and “Sn =”. Here, since S1 meets the matching condition of pattern 2 in FIG. 12, complementary correction is applied. Here, since the tense of S2 is in the past, “movie fans have gone to the movie theater” is obtained as a result of the complementary correction of S1. Further, since S2 meets the matching condition of pattern 1, complementary correction is similarly applied.

ここで、PはS1の主語「映画ファン」に照合しているので、S2の補完修正の結果として「映画ファンはレンタルビデオで済ませるようになった。」を得る。さらに、要約構成単位の重要度計算手段603が、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、要約結果出力手段604が、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。 Here, P is collated with the subject “movie fan” of S1, and as a result of the complementary correction of S2, “movie fans can now use rental videos” is obtained. Further, the importance calculation means 603 of the summary constituent unit performs the position, clue word, title, word in the text of the summary constituent unit with respect to the summary constituent unit in which these information is appropriately complemented or corrected in expression. The importance of each summary component in the text is calculated using information such as importance and keywords, and finally, the most important summary component is ordered in order based on the importance for each summary component. The summary results output means 604 arranges the extracted summary constituent units in the order of appearance in the original text and outputs the summary results until the summary length requested by the user is reached.

また、第5の実施の形態では、第6の実施の形態とほぼ同様の構成であるが、要約構成単位の補完修正手段602が、要約構成単位の重要度計算手段603よりも前に実施される点が異なる。このため、第4、第6の実施の形態においては補完修正の結果が重要度計算に影響を与えるが、第5の実施の形態では影響を与えない点が異なる。 Further, in the fifth embodiment, the configuration is almost the same as that of the sixth embodiment, but the summary component unit supplementary correction unit 602 is implemented before the summary unit importance calculation unit 603. Is different. For this reason, the result of complementary correction affects the importance calculation in the fourth and sixth embodiments, but is different in that it does not affect the fifth embodiment.

また、第7の実施の形態では、第6の実施の形態と同様の構成であるが、それぞれの要約構成単位を補完修正するためのコストが設定できる要約構成単位補完修正パタン706を用いる点が異なる。これについては、第10の実施の形態の実施例において詳細に説明する。 In the seventh embodiment, the configuration is the same as that of the sixth embodiment, except that the summary unit complement correction pattern 706 that can set the cost for supplementary correction of each summary unit is used. Different. This will be described in detail in an example of the tenth embodiment.

また、第9の実施の形態では、第6の実施の形態とほぼ同様の構成であるが、隣接する要約構成単位における表現の還元手段904が加わっている点が異なっている。例文「映画ファンは映画館には足を運ばなくなり、レンタルビデオで済ませるようになった。」に対して、第6の実施の形態と第9の実施の形態では共に、「映画ファンは映画館には足を運ばなくなった。」、および、「映画ファンはレンタルビデオで済ませるようになった。」の二つの要約構成単位を得るが、両者とも要約中に抽出される場合、第9の実施の形態では、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、隣接する要約構成単位間での補完や修正については元の表現を用いるため、「映画ファンは映画館には足を運ばなくなり、レンタルビデオで済ませるようになった。」が要約に出力される点が異なる。 The ninth embodiment has substantially the same configuration as that of the sixth embodiment, except that expression reduction means 904 is added in adjacent summary constituent units. In the sixth embodiment and the ninth embodiment, in contrast to the example sentence “movie fans are no longer going to the movie theaters, they can now use rental videos”. If you get two summarization units, “movie fans are now able to do rental videos,” both of which are extracted during the summarization, the ninth implementation In the case of the above, when the summary unit adjacent in the summary is adjacent in the same sentence of the original document, since the original expression is used for complementation and correction between the adjacent summary units, It ’s different from the fact that it ’s no longer necessary to go to the pavilion and it ’s done with rental videos. ”

次に、本発明の第8の実施の形態の実施例について図面を参照して詳細に説明する。 Next, an example of the eighth embodiment of the present invention will be described in detail with reference to the drawings.

図13は、要約構成単位認定パタン805の例を示す説明図である。 FIG. 13 is an explanatory diagram illustrating an example of the summary constituent unit recognition pattern 805.

要約構成単位の認定手段801では、まず、入力テキストの各文に対して要約構成単位を認定し、さらに、それぞれ認定される要約構成単位の間における接続関係や引用関係を認定し、要約構成単位認定パタン805を用いて、述部を含む節を最小とする単位を要約構成単位として認定し、さらにそれぞれの要約構成単位を抽出する際にこれらの関係を考慮した抽出順序に関する制約を設定する。 The summary component unit recognition means 801 first recognizes the summary component unit for each sentence of the input text, and further recognizes the connection relationship and the citation relationship between the recognized summary component units. Using the certified pattern 805, a unit that minimizes a clause including a predicate is recognized as a summary constituent unit, and further, when extracting each summary constituent unit, a restriction on the extraction order considering these relationships is set.

たとえば、テキスト中に「寿命に関わる遺伝子が解明されれば、不老長寿の薬は実現すると思う。」という文が存在し、また、要約構成単位認定パタン805が、図13に示すようなものであったとする。パタンは、「照合条件」、「要約構成単位」の他に、「抽出順序制約」が加わっている。例文に対してはパタン3が照合し、その結果として要約構成単位S1とS2に相当する「寿命に関わる遺伝子が解明され。」と「不老長寿の薬は実現すると思う。」がそれぞれ要約構成単位として得られる。パタン3における抽出順序制約における表現「S2>S1」は、要約構成単位として得られるS1とS2を要約に抽出する際、S1を抽出する場合は必ずS2を伴って抽出するという制約を表現している。 For example, there is a sentence in the text that says “If a gene related to lifespan is elucidated, a drug for longevity and longevity will be realized”, and the summary structural unit recognition pattern 805 is as shown in FIG. Suppose there was. The pattern includes “extraction order constraint” in addition to “collation condition” and “summary constituent unit”. Pattern 3 is checked against the example sentence, and as a result, “the genes related to lifespan” corresponding to the summary building blocks S1 and S2 are elucidated. As obtained. The expression “S2> S1” in the extraction order constraint in pattern 3 expresses the constraint that when extracting S1 and S2 obtained as summary constituent units into a summary, S1 is always extracted with S2. Yes.

要約構成単位の重要度計算手段802が、テキスト中における各要約構成単位の重要度を計算し、要約構成単位の抽出順序に関する制約の設定手段803が、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、それぞれの要約構成単位間の関係を考慮した抽出順序に関する制約も考慮して抽出し、最後に、要約結果出力手段804が、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。 The summary component importance calculation unit 802 calculates the importance of each summary component in the text, and the constraint setting unit 803 regarding the summary component extraction order is based on the importance for each summary component. When extracting in order from the most important summary unit until the summary length requested by the user is reached, the extraction is performed taking into account the constraints on the extraction order considering the relationship between each summary unit. The summary result output means 804 arranges the extracted summary constituent units in the order of appearance in the original text and outputs the summary results.

次に、本発明の第10の実施の形態の実施例について図面を参照して詳細に説明する。 Next, an example of the tenth embodiment of the present invention will be described in detail with reference to the drawings.

図15は、要約構成単位補完修正パタン706、要約構成単位補完修正パタン1007の例を示す説明図である。 FIG. 15 is an explanatory diagram illustrating an example of the summary constituent unit complement correction pattern 706 and the summary constituent unit complement correction pattern 1007.

図16は、要約文候補の例を示す説明図である。 FIG. 16 is an explanatory diagram illustrating an example of summary sentence candidates.

たとえば、テキスト中に「消費税率引き上げについては、社会党などの理解を得るのは困難な状況であり、首相は「連立という状況の中でのかじ取りであるため、与党合意を得る交渉をしながらギリギリの努力をするしかない。」と釈明した。」という文が存在する。要約文候補の生成手段1001において、まず、要約構成単位認定パタン1006の逐次的な照合で可能なものすべての組み合わせを実施することで、すべての要約構成単位を作成し、これから要約文候補を得る。 For example, in the text, “It is difficult to obtain an understanding of the Socialist Party regarding the consumption tax rate increase, and the prime minister said,“ I have to make an effort. " "Exists. In the summary sentence candidate generation means 1001, first, all the possible combinations are made by sequentially performing the collation of the summary constituent unit recognition pattern 1006, thereby creating all the summary constituent units and obtaining the summary sentence candidates therefrom. .

図14に示す要約構成単位認定パタン1006のうち、まず照合可能なのは、パタン2とパタン5である。パタン2によって得られる要約構成単位S1、S2から、それぞれ、図16に示す要約文の候補1、および、候補2を得る。図中の候補1は、要約構成単位の補完修正手段1002において、表現補完修正パタンのパタン2が適用されたものを示している。 Of the summary constituent unit recognition patterns 1006 shown in FIG. 14, the patterns 2 and 5 can be collated first. The summary sentence candidates 1 and 2 shown in FIG. 16 are obtained from the summary structural units S1 and S2 obtained by the pattern 2, respectively. Candidate 1 in the figure indicates that the supplementary correction unit 1002 for the summary unit applies the expression completion correction pattern 2.

次に、パタン5の適用によって得られる要約文候補を作成する。パタン5には、抽出順序制約で、要約構成単位S1またはS2を単独で抽出できないため、これらは要約候補とならないがS2に対しては、さらにパタン4の適用が可能である。パタン5のS1は、S2にパタン4を適用して得られる2つのいずれかを伴えば、抽出順序制約を満たすので要約文候補となり得る。 Next, a summary sentence candidate obtained by applying pattern 5 is created. Since the summary unit S1 or S2 cannot be extracted independently for the pattern 5 due to the extraction order constraint, these cannot be summary candidates, but the pattern 4 can be further applied to S2. If one of the two obtained by applying pattern 4 to S2 is accompanied by S1 of pattern 5, it satisfies the extraction order constraint and can be a summary sentence candidate.

パタン5のS1とパタン4のS1の組み合わせによって図16に示す候補3を、パタン5のS1とパタン4のS2の組み合わせによって候補4をそれぞれ得る。残された独立な要約文候補は、候補3と候補4にパタン2を適用して得られる要約文候補であり、それぞれの候補にパタン2を適用して得られるS2から、候補5および候補6を得る。各要約文候補へ適用された単位認定パタンのコストの合計値、および各要約文候補へ適用された補完修正パタンのコストの合計値は、要約構成単位の重要度計算手段1003において各要約文候補の重要度と共に、要約文候補の探索手段1004における候補選択に用いる。 Candidate 3 shown in FIG. 16 is obtained by combining S1 of pattern 5 and S1 of pattern 4, and candidate 4 is obtained by combining S1 of pattern 5 and S2 of pattern 4. The remaining independent summary sentence candidates are summary sentence candidates obtained by applying pattern 2 to candidate 3 and candidate 4, and from S2 obtained by applying pattern 2 to each candidate, candidates 5 and 6 Get. The sum of the cost of the unit recognition pattern applied to each summary sentence candidate and the total value of the cost of the complementary correction pattern applied to each summary sentence candidate are calculated by the summary component candidate importance level calculation means 1003. Are used for candidate selection in the summary sentence candidate search means 1004.

要約文候補の探索手段1004は、文ごとに入力文を出力するか、何も出力しないか、もしくは、いずれかの要約文候補を要約中に抽出するかのうちから一つを選択して組み合わせ、利用者の要求する要約長にあった要約の候補を作成する。要約結果出力手段1005は、このようにして得られる要約の候補のうち、要約スコア(要約スコア=重要度の値の合計−α×単位認定コストの合計―β×補完修正コストの合計)の値が最大のものを要約結果として出力する。ここで、α、βはパラメータ(正の実数)をあらわす。 The summary sentence candidate searching means 1004 selects and combines one of the following: outputting an input sentence for each sentence, outputting nothing, or extracting any summary sentence candidate in the summary Then, a summary candidate suitable for the summary length requested by the user is created. The summary result output means 1005 has a summary score (summary score = total importance value−α × total unit accreditation cost−β × sum of supplementary correction costs) among the summary candidates thus obtained. Is output as a summary result. Here, α and β represent parameters (positive real numbers).

αを大きくすると、文への単位認定パタンの適用が抑制されるので、元のテキスト中の文をそのまま要約文として用いる傾向が強くなり、βを大きくすると、コストの大きい補完修正パタンが適用された要約文候補の要約中での出現が抑制されるので、信頼度の低い補完修正に大きなコストを与えることによって、信頼度の低い補完修正を行った要約文候補が出現しない傾向が強くなる。ここで示した要約スコアの計算式は一例であり、これ以外のものを用いても良い。 Increasing α suppresses the application of the unit recognition pattern to sentences, so the tendency to use the sentences in the original text as a summary sentence becomes stronger, and increasing β increases the costly complementary correction pattern. Since the appearance of the summary sentence candidate in the summary is suppressed, the tendency that the summary sentence candidate subjected to the correction with low reliability does not appear is increased by giving a large cost to the correction with low reliability. The formula for calculating the summary score shown here is an example, and other formulas may be used.

次に、本発明の第11の実施の形態について図面を参照して説明する。 Next, an eleventh embodiment of the present invention will be described with reference to the drawings.

本発明の第11の実施の形態は、図1〜図10の各手段を各手順とする方法である。 The eleventh embodiment of the present invention is a method in which each means shown in FIGS.

次に、本発明の第12の実施の形態について図面を参照して説明する。 Next, a twelfth embodiment of the present invention will be described with reference to the drawings.

本発明の第12の実施の形態は、本発明の第11の実施の形態の各手順をコンピュータに実行させるプログラムである。 The twelfth embodiment of the present invention is a program that causes a computer to execute the procedures of the eleventh embodiment of the present invention.

101 要約構成単位の認定手段
102 要約構成単位の重要度計算手段
103 要約結果出力手段
104 要約構成単位認定用言語知識情報
201 要約構成単位の認定手段
202 要約構成単位の重要度計算手段
203 要約結果出力手段
204 要約構成単位認定パタン
301 要約構成単位の認定手段
302 要約構成単位の重要度計算手段
303 要約結果出力手段
304 要約構成単位認定パタン
401 要約構成単位の認定手段
402 要約構成単位の補完修正手段
403 要約構成単位の重要度計算手段
404 要約結果出力手段
405 要約構成単位認定用言語知識情報
406 要約構成単位補完修正用言語知識情報
501 要約構成単位の認定手段
502 要約構成単位の重要度計算手段
503 要約構成単位の補完修正手段
504 要約結果出力手段
505 要約構成単位認定用言語知識情報
506 要約構成単位補完修正用言語知識情報
601 要約構成単位の認定手段
602 要約構成単位の補完修正手段
603 要約構成単位の重要度計算手段
604 要約結果出力手段
605 要約構成単位認定パタン
606 要約構成単位補完修正パタン
701 要約構成単位の認定手段
702 要約構成単位の補完修正手段
703 要約構成単位の重要度計算手段
704 要約結果出力手段
705 要約構成単位認定パタン
706 要約構成単位補完修正パタン
801 要約構成単位の認定手段
802 要約構成単位の重要度計算手段
803 要約構成単位の抽出順序に関する制約の設定手段
804 要約結果出力手段
805 要約構成単位認定パタン
901 要約構成単位の認定手段
902 要約構成単位の補完修正手段
903 要約構成単位の重要度計算手段
904 隣接する要約構成単位における表現の還元手段
905 要約結果出力手段
906 要約構成単位認定パタン
907 要約構成単位補完修正パタン
1001 要約文候補の生成手段
1002 要約構成単位の補完修正手段
1003 要約構成単位の重要度計算手段
1004 要約文候補の探索手段
1005 要約結果出力手段
1006 要約構成単位認定パタン
1007 要約構成単位補完修正パタン
101 Summary constituent unit recognition means 102 Summary constituent unit importance calculation means 103 Summary result output means 104 Summary constituent unit recognition language knowledge information 201 Summary constituent unit recognition means 202 Summary constituent unit importance calculation means 203 Summary result output Means 204 Summarized composition unit recognition pattern 301 Summary composition unit recognition means 302 Summary composition unit importance calculation means 303 Summary result output means 304 Summary composition unit recognition pattern 401 Summary composition unit recognition means 402 Summary composition unit complement correction means 403 Summary constituent unit importance calculation means 404 Summary result output means 405 Summary constituent unit recognition language knowledge information 406 Summary constituent unit complement correction language knowledge information 501 Summary constituent unit recognition means 502 Summary constituent unit importance calculation means 503 Summary Complementary correction means 504 for the composition unit Summary result output means 505 Summary component unit linguistic knowledge information 506 Summary component unit supplemental correction language knowledge information 601 Summary component unit recognition unit 602 Summary unit complement correction unit 603 Summary unit importance calculation unit 604 Summary result output unit 605 Summary Composition unit authorization pattern 606 Summary composition unit complement correction pattern 701 Summary composition unit recognition means 702 Summary composition unit complement correction means 703 Summary composition unit importance calculation means 704 Summary result output means 705 Summary composition unit authorization pattern 706 Summary composition unit Complementary correction pattern 801 Summary composition unit recognition means 802 Summary composition unit importance calculation means 803 Summary composition unit extraction order restriction setting means 804 Summary result output means 805 Summary composition unit authorization pattern 901 Summary composition unit authorization means 902 Summarizing unit supplementary correction means 9 3 Summary component unit importance calculation unit 904 Expression reduction unit 905 Summary result output unit 906 Summary component unit recognition pattern 907 Summary component unit complement correction pattern 1001 Summary sentence candidate generation unit 1002 Summary component unit generation unit 1002 Complement correction means 1003 Summary component unit importance calculation means 1004 Summary sentence candidate search means 1005 Summary result output means 1006 Summary composition unit recognition pattern 1007 Summary composition unit complement correction pattern

Claims (6)

入力文全体に照合するパタンであって、かつ、該パタンの中に文の述部を含む節に照合するパタンである抽出部を包含するパタンである、照合条件と、前記抽出部を包含する複数の要約構成単位の形態を対応させた要約構成単位認定パタンと、前記要約構成単位パタンを用いて接続関係や引用関係を含む文から要約構成単位を抽出する際の抽出順序に関する制約を定めた抽出順序制約とを格納する要約構成単位認定パタン記憶部と、
文を入力して、当該入力文と前記照合条件を照合して合致すると、当該入力文から前記照合条件の前記抽出部に相当する部分(相当部分)を抽出して、前記要約構成単位の形態の前記抽出部を前記相当部分で置換して、複数の要約構成単位を得る要約構成単位の認定手段と、
前記認定手段により得られた要約構成単位の重要度を計算する要約構成単位の重要度計算手段と、
前記抽出順序制約に基づいて前記複数の要約構成単位を組み合わせ、所定の要約長の要約の候補を複数作成する探索手段と、
前記探索手段によって作成された要約の候補のうち、要約構成単位の重要度の和が最大のものを要約結果として出力する要約結果出力手段と、
を有することを特徴とするテキスト要約システム。
A collation condition that is a pattern that collates with the entire input sentence, and that includes an extraction unit that is a pattern that collates with a clause that includes a statement predicate in the pattern, and includes the extraction unit Restrictions on the extraction order when extracting summary composition units from sentences containing connection relations and citation relations using the summary composition unit patterns and the summary composition unit patterns that correspond to the forms of multiple summary composition units were defined. A summary unit recognition pattern storage unit for storing extraction order constraints;
When a sentence is input and the input sentence and the collation condition are collated and matched, a part (corresponding part) corresponding to the extraction part of the collation condition is extracted from the input sentence, and the form of the summary constituent unit A recognizing unit for summarizing constituent units to obtain a plurality of summarizing constituent units by replacing the extraction unit of
The importance calculation means for the summary constituent unit for calculating the importance of the summary constituent unit obtained by the authorization means;
Search means for combining the plurality of summary constituent units based on the extraction order constraint to create a plurality of summary candidates having a predetermined summary length;
Among the summary candidates created by the search means, summary result output means for outputting the sum of the importance of the summary constituent units as a summary result;
A text summarization system characterized by comprising:
前記要約構成単位認定パタン記憶部が格納する要約構成単位認定パタンは、該要約構成単位認定パタンの適用コストをさらに含み、
前記重要度計算手段は、さらに前記要約構成単位の重要度の値に、該要約構成単位の認定に使われた要約構成単位認定パタンの適用コストに対応する信頼度の値を加えた、要約構成単位のスコアを計算し、
前記要約結果出力手段は、前記探索手段によって作成された要約の候補のうち、前記要約構成単位のスコアの和が最大のものを要約結果として出力する、
ことを特徴とする請求項1に記載のテキスト要約システム。
The summary constituent unit certification pattern stored in the summary constituent unit certification pattern storage unit further includes an application cost of the summary constituent unit certification pattern,
The importance calculation means further adds a value of reliability corresponding to the application cost of the summary composition unit certification pattern used for the certification of the summary composition unit to the importance value of the summary composition unit. Calculate the unit score,
The summary result output means outputs, as a summary result, a sum of the scores of the summary constituent units that is the maximum among the summary candidates created by the search means.
The text summarization system according to claim 1.
入力文全体に照合するパタンであって、かつ、該パタンの中に文の述部を含む節に照合するパタンである抽出部を包含するパタンである、照合条件と、前記抽出部を包含する複数の要約構成単位の形態を対応させた要約構成単位認定パタンと、前記要約構成単位パタンを用いて接続関係や引用関係を含む文から要約構成単位を抽出する際の抽出順序に関する制約を定めた抽出順序制約とを要約構成単位認定パタン記憶部から読み出し、
文を入力して、当該入力文と前記照合条件を照合して合致すると、当該入力文から前記照合条件の前記抽出部に相当する部分(相当部分)を抽出して、前記要約構成単位の形態の前記抽出部を前記相当部分で置換して、複数の要約構成単位を取得し、
前記複数の要約構成単位の重要度を計算する重要度計算処理を行い、
前記抽出順序制約に基づいて前記複数の要約構成単位を組み合わせ、所定の要約長の要約の候補を複数作成し、
前記複数作成された要約の候補のうち、要約構成単位の重要度の和が最大のものを要約結果として出力する要約結果出力処理を行う、
ことを特徴とするテキスト要約方法。
A collation condition that is a pattern that collates with the entire input sentence, and that includes an extraction unit that is a pattern that collates with a clause that includes a statement predicate in the pattern, and includes the extraction unit Restrictions on the extraction order when extracting summary composition units from sentences containing connection relations and citation relations using the summary composition unit patterns and the summary composition unit patterns that correspond to the forms of multiple summary composition units were defined. Read out the extraction order constraints from the summary unit recognition pattern storage unit,
When a sentence is input and the input sentence and the collation condition are collated and matched, a part (corresponding part) corresponding to the extraction part of the collation condition is extracted from the input sentence, and the form of the summary constituent unit Substituting the corresponding extraction part with the corresponding part to obtain a plurality of summary constituent units,
Performing importance calculation processing for calculating the importance of the plurality of summary constituent units;
Combining the plurality of summary units based on the extraction order constraint, creating a plurality of candidates for a summary of a predetermined summary length;
A summary result output process is performed to output a summary result having a maximum sum of importance of summary constituent units among the plurality of created summary candidates.
A text summarization method characterized by that.
前記要約構成単位認定パタン記憶部が格納する要約構成単位認定パタンは、該要約構成単位認定パタンの適用コストをさらに含み、
前記重要度計算処理において、さらに前記要約構成単位の重要度の値に、該要約構成単位の認定に使われた要約構成単位認定パタンの適用コストに対応する信頼度の値を加えた、要約構成単位のスコアを計算し、
前記要約結果出力処理において、前記作成された要約の候補のうち、前記要約構成単位のスコアの和が最大のものを要約結果として出力する、
ことを特徴とする請求項3に記載のテキスト要約方法。
The summary constituent unit certification pattern stored in the summary constituent unit certification pattern storage unit further includes an application cost of the summary constituent unit certification pattern,
In the importance calculation process, a summary configuration obtained by adding a reliability value corresponding to the application cost of the summary configuration unit recognition pattern used for the certification of the summary configuration unit to the importance value of the summary configuration unit Calculate the unit score,
In the summary result output process, among the created summary candidates, the sum of the scores of the summary constituent units is output as a summary result.
The text summarization method according to claim 3.
入力文全体に照合するパタンであって、かつ、該パタンの中に文の述部を含む節に照合するパタンである抽出部を包含するパタンである、照合条件と、前記抽出部を包含する複数の要約構成単位の形態を対応させた要約構成単位認定パタンと、前記要約構成単位パタンを用いて接続関係や引用関係を含む文から要約構成単位を抽出する際の抽出順序に関する制約を定めた抽出順序制約とを要約構成単位認定パタン記憶部から読み出し、
文を入力して、当該入力文と前記照合条件を照合して合致すると、当該入力文から前記照合条件の前記抽出部に相当する部分(相当部分)を抽出して、前記要約構成単位の形態の前記抽出部を前記相当部分で置換して、複数の要約構成単位を得る要約構成単位の認定ステップと、
前記認定ステップにより得られた要約構成単位の重要度を計算する要約構成単位の重要度計算ステップと、
前記抽出順序制約に基づいて前記複数の要約構成単位を組み合わせ、所定の要約長の要約の候補を複数作成する探索ステップと、
前記探索ステップによって作成された要約の候補のうち、要約構成単位の重要度の和が最大のものを要約結果として出力する要約結果出力ステップと、
をコンピュータに実行させることを特徴とするテキスト要約プログラム。
A collation condition that is a pattern that collates with the entire input sentence, and that includes an extraction unit that is a pattern that collates with a clause that includes a statement predicate in the pattern, and includes the extraction unit Restrictions on the extraction order when extracting summary composition units from sentences containing connection relations and citation relations using the summary composition unit patterns and the summary composition unit patterns that correspond to the forms of multiple summary composition units were defined. Read out the extraction order constraints from the summary unit recognition pattern storage unit,
When a sentence is input and the input sentence and the collation condition are collated and matched, a part (corresponding part) corresponding to the extraction part of the collation condition is extracted from the input sentence, and the form of the summary constituent unit And replacing the extraction unit with the corresponding part to obtain a plurality of summary constituent units,
A summary component unit importance calculation step for calculating a summary component unit importance obtained by the authorization step;
A search step of combining a plurality of summary units based on the extraction order constraint to create a plurality of summary candidates having a predetermined summary length;
A summary result output step for outputting, as a summary result, a summary sum of importance of summarization units among the summary candidates created by the search step;
A text summarization program for causing a computer to execute.
前記要約構成単位認定パタン記憶部が格納する要約構成単位認定パタンは、該要約構成単位認定パタンの適用コストをさらに含み、
前記重要度計算ステップは、さらに前記要約構成単位の重要度の値に、該要約構成単位の認定に使われた要約構成単位認定パタンの適用コストに対応する信頼度の値を加えた、要約構成単位のスコアを計算し、
前記要約結果出力ステップは、前記探索ステップによって作成された要約の候補のうち、前記要約構成単位のスコアの和が最大のものを要約結果として出力する、
ことを特徴とする請求項5に記載のテキスト要約プログラム。
The summary constituent unit certification pattern stored in the summary constituent unit certification pattern storage unit further includes an application cost of the summary constituent unit certification pattern,
The importance calculation step further includes a summary configuration in which a reliability value corresponding to the application cost of the summary configuration unit certification pattern used for the certification of the summary configuration unit is added to the importance value of the summary configuration unit. Calculate the unit score,
The summary result output step outputs, as a summary result, the sum of the scores of the summary constituent units among the summary candidates created by the search step,
The text summarization program according to claim 5, wherein:
JP2009069852A 2009-03-23 2009-03-23 Text summarization system, text summarization method, and text summarization program Pending JP2009146447A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009069852A JP2009146447A (en) 2009-03-23 2009-03-23 Text summarization system, text summarization method, and text summarization program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009069852A JP2009146447A (en) 2009-03-23 2009-03-23 Text summarization system, text summarization method, and text summarization program

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002281212A Division JP2004118545A (en) 2002-09-26 2002-09-26 Text summary system, text summary method and text summary program

Publications (1)

Publication Number Publication Date
JP2009146447A true JP2009146447A (en) 2009-07-02

Family

ID=40916902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009069852A Pending JP2009146447A (en) 2009-03-23 2009-03-23 Text summarization system, text summarization method, and text summarization program

Country Status (1)

Country Link
JP (1) JP2009146447A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014528620A (en) * 2011-10-14 2014-10-27 ヤフー! インコーポレイテッド Method and apparatus for automatically summarizing the contents of an electronic document
CN108268623A (en) * 2018-01-09 2018-07-10 顺丰科技有限公司 A kind of Text Extraction, device, equipment and medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0713967A (en) * 1992-09-25 1995-01-17 Maruzen Kk Abstract sentence generator
JPH08212228A (en) * 1995-02-02 1996-08-20 Sanyo Electric Co Ltd Summarized sentence generation device and summarized voice generation device
JPH08255172A (en) * 1995-03-16 1996-10-01 Toshiba Corp Document retrieval system
JPH1063658A (en) * 1996-08-22 1998-03-06 Nippon Hoso Kyokai <Nhk> Natural language processor and its method
JPH10207891A (en) * 1997-01-17 1998-08-07 Fujitsu Ltd Document summarizing device and its method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0713967A (en) * 1992-09-25 1995-01-17 Maruzen Kk Abstract sentence generator
JPH08212228A (en) * 1995-02-02 1996-08-20 Sanyo Electric Co Ltd Summarized sentence generation device and summarized voice generation device
JPH08255172A (en) * 1995-03-16 1996-10-01 Toshiba Corp Document retrieval system
JPH1063658A (en) * 1996-08-22 1998-03-06 Nippon Hoso Kyokai <Nhk> Natural language processor and its method
JPH10207891A (en) * 1997-01-17 1998-08-07 Fujitsu Ltd Document summarizing device and its method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014528620A (en) * 2011-10-14 2014-10-27 ヤフー! インコーポレイテッド Method and apparatus for automatically summarizing the contents of an electronic document
CN108268623A (en) * 2018-01-09 2018-07-10 顺丰科技有限公司 A kind of Text Extraction, device, equipment and medium
CN108268623B (en) * 2018-01-09 2022-06-03 顺丰科技有限公司 Text extraction method, device, equipment and medium

Similar Documents

Publication Publication Date Title
TWI664540B (en) Search word error correction method and device, and weighted edit distance calculation method and device
KR102268875B1 (en) System and method for inputting text into electronic devices
US8543374B2 (en) Translation system combining hierarchical and phrase-based models
US9047275B2 (en) Methods and systems for alignment of parallel text corpora
JP5071373B2 (en) Language processing apparatus, language processing method, and language processing program
CN110276071B (en) Text matching method and device, computer equipment and storage medium
US20140350913A1 (en) Translation device and method
EP2643770A2 (en) Text segmentation with multiple granularity levels
More et al. Joint transition-based models for morpho-syntactic parsing: Parsing strategies for MRLs and a case study from modern Hebrew
JP6955963B2 (en) Search device, similarity calculation method, and program
Sagae et al. HPSG parsing with shallow dependency constraints
US8065283B2 (en) Term synonym generation
Popowich et al. Machine translation of closed captions
Kato et al. BERT-based simplification of Japanese sentence-ending predicates in descriptive text
KR101064950B1 (en) Apparatus and Method for Translation-Error Post-Editing
WO2009113505A1 (en) Video splitting device, method, and program
JP2009146447A (en) Text summarization system, text summarization method, and text summarization program
JP5623380B2 (en) Error sentence correcting apparatus, error sentence correcting method and program
Roark et al. Finite-state chart constraints for reduced complexity context-free parsing pipelines
JP2006004366A (en) Machine translation system and computer program for it
JP4007413B2 (en) Natural language processing system, natural language processing method, and computer program
JP5366849B2 (en) Function expression complementing apparatus, method and program
JP2009146446A (en) Text summarization system, text summarization method, and text summarization program
JP2004118545A (en) Text summary system, text summary method and text summary program
JP2009176148A (en) Unknown word determining system, method and program

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20090512

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20110705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110927

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120207