JP2009146447A - Text summarization system, text summarization method, and text summarization program - Google Patents
Text summarization system, text summarization method, and text summarization program Download PDFInfo
- Publication number
- JP2009146447A JP2009146447A JP2009069852A JP2009069852A JP2009146447A JP 2009146447 A JP2009146447 A JP 2009146447A JP 2009069852 A JP2009069852 A JP 2009069852A JP 2009069852 A JP2009069852 A JP 2009069852A JP 2009146447 A JP2009146447 A JP 2009146447A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- importance
- constituent
- sentence
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、テキスト要約システム、テキスト要約方法、および、テキスト要約プログラムに関し、特に、要約構成単位の認定を実施するテキスト要約システム、テキスト要約方法、および、テキスト要約プログラムに関する。 The present invention relates to a text summarization system, a text summarization method, and a text summarization program, and more particularly, to a text summarization system, a text summarization method, and a text summarization program that perform certification of a summary unit.
特許文献1記載の技術は、「関係解析手段において、入力された文書中のテキストに対して係り受け解析を行い、単語同士の2項関係を抽出し、指示入力手段で要約結果に対してユーザから詳細化する単語や情報の種類の指示を受け付け、その指示を優先すべき2項関係の条件を示す優先条件に指示解釈手段で変換し、この優先条件と、抽出しておいた2項関係から、重要な2項関係を関係選択手段で選択し、選択した重要な2項関係に補完すべき2項関係を関係補完手段で追加し、このようにして得られた2項関係から、句合成手段で句要約を合成する技術」である。
The technique described in
また、特許文献2記載の技術は、「日本語文の入力を読み込む入力読み込み手段と、入力文に対する辞書引き機能と辞書引き後の辞書情報を用いて入力文を解析する形態素解析手段、構文解析手段、意味解析手段とメモリとを備えた日本語処理システムに用いる日本語文解析方式において、日本語における、係助詞「は」で示される主題、もしくは格助詞「が」で示される主格の複数の用言間での共有を規定する語彙に関する情報をあらかじめ収集して前記メモリ内に保持している主題・主格共有語彙情報保持手段と、前記主題・主格共有語彙情報保持手段に保持された語彙情報を用いて、主題・主格の共有が存在するか否かを推定する主題・主格共有推定手段を備え、構文解析・意味解析に先立って主題・主格の共有の存在を推定する技術」である。
Further, the technology described in
また、計算機によってテキスト要約を行う従来法としては、重要文抽出法がある。これは、テキスト中において、文を要約構成単位と認定し、その重要度を評価し、重要度の高い要約構成単位を抽出し、元テキストの出現順に並べることで要約文を構成する方法である(たとえば、非特許文献1)。 As a conventional method for summarizing text by a computer, there is an important sentence extraction method. This is a method of constructing a summary sentence by recognizing a sentence as a summary constituent unit in text, evaluating its importance, extracting summary constituent units with high importance, and arranging them in the order of appearance of the original text. (For example, Non-Patent Document 1).
この方式は多くの要約システムで用いられている基本方式であり、基本的には文の位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し、重要度の高いものを元のテキストの出現順に並べることで要約を生成する(たとえば、非特許文献2、3)。
This method is a basic method used in many summarization systems. Basically, each summary component in the text is based on information such as sentence position, clue word, title, word importance, and keyword. Is calculated, and summaries are generated by arranging the higher importance items in the order of appearance of the original text (for example, Non-Patent
また、これに関連する方式として、文節を要約構成単位として認定するテキスト要約方式がある(たとえば、非特許文献4)。この方式では、文の構文構造における格要素などの主要な構造の構成素は保存しつつ、重要度の低い文節を削除することによって要約文を生成する方法である。 As a method related to this, there is a text summarization method that recognizes a clause as a summary unit (for example, Non-Patent Document 4). This method is a method of generating a summary sentence by deleting a clause having low importance while preserving constituent elements of main structures such as case elements in the syntax structure of the sentence.
また、文内文脈に関する解析をする手段に関する技術がある(たとえば、非特許文献5)。 In addition, there is a technique related to means for analyzing the context within a sentence (for example, Non-Patent Document 5).
重要文抽出法は文を要約の構成単位として抽出するために、簡易な処理によって可読性の高い要約を生成できるという利点がある。しかし一方で、短くて品質の良い要約を生成する上で、文を最小単位として要約を構成する方法には限界がある。短い要約を生成する場合には、要約を構成する単位の組み合わせが制限されるためである。またテキストに長文が含まれる場合、一部重要でない部分があっても除くことができず、このことも品質の良い要約を得る上での限界を生じる。 The important sentence extraction method has an advantage that a highly readable summary can be generated by a simple process because the sentence is extracted as a constituent unit of the summary. On the other hand, however, there is a limit to the method of constructing a summary with a sentence as a minimum unit in generating a short and high-quality summary. This is because when a short summary is generated, combinations of units constituting the summary are limited. Also, if the text contains long sentences, some insignificant parts cannot be removed, which also creates a limit in obtaining a good quality summary.
一方、文節を要約構成単位とするテキスト要約方法では、重要文抽出法に比べてより小さい要約構成単位を用いるために要約生成の自由度が高く、短い要約の生成における限界や品質の低下が生じにくい。しかし、文節を要約構成単位に用いることが結果として要約文生成において構文構造の変更を伴うことになり、生成された要約文の構文的正しさや意味的な正しさの保証といった文生成の難しい課題を生じる。正確で詳細な構文構造の情報を得るには、精度良い本格的な構文解析手段が必要となるが、このような方法は要約生成の計算コストが大きい。 On the other hand, the text summarization method that uses clauses as a summary unit has a higher degree of freedom to generate summaries because it uses a smaller summary unit compared to the important sentence extraction method, which causes limitations and quality degradation in the generation of short summaries. Hateful. However, the use of clauses as a summary unit results in a change in the syntax structure in summary sentence generation, and it is difficult to generate sentences such as syntactic correctness and guarantee of semantic correctness of the generated summary sentence. Create a challenge. Obtaining accurate and detailed syntax structure information requires accurate full-fledged syntax analysis means, but such a method has a high calculation cost for summary generation.
本発明の目的は、適切な要約構成単位の利用による要約品質向上と要約生成処理の簡易化による処理の高速化を同時に実現することができるテキスト要約方法を提供することである。これにより、利用者が短い要約を要求する場合にも、従来の要約方法に比べて短時間でかつ品質の良い要約を生成することが可能となる。 An object of the present invention is to provide a text summarization method capable of simultaneously realizing improvement of summary quality by using an appropriate summarization unit and speeding up of processing by simplifying summary generation processing. As a result, even when the user requests a short summary, it is possible to generate a high-quality summary in a short time compared to the conventional summarization method.
本発明の第1のテキスト要約システムは、文の述部を含む節を要約構成単位とする情報を含む要約構成単位認定用言語知識情報を記憶装置から読み出し、読み出した要約構成単位認定用言語知識情報を用いて要約構成単位を認定する要約構成単位の認定手段と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手段と、重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手段とを有することを特徴とする。 The first text summarization system of the present invention reads out summary constituent unit recognition language knowledge information including information that uses a section including a sentence predicate as a summary constituent unit from a storage device, and reads the read out summary constituent unit recognition language knowledge. Extract the summary component unit certifying means that certifies the summary component unit using information, the summary component unit importance calculation method that evaluates the importance of the certified summary component unit, and the summary component unit with the higher importance. And a summary result output means for creating a summary.
本発明の第2のテキスト要約システムは、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手段と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手段と、重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手段とを有することを特徴とする。 The second text summarization system of the present invention reads a summary constituent unit recognition pattern including a summary constituent unit including a collation condition and a clause including a statement predicate from a storage device, and uses the read summary constituent unit recognition pattern. The summary composition unit certifying means that certifies the summary composition unit, the summary composition unit importance calculation means that evaluates the importance of the certified summary composition unit, and the summary composition unit that has a high importance is extracted and a summary is created. And a summary result output means.
本発明の第3のテキスト要約システムは、照合条件、文の述部を含む節を単位とする要約構成単位、適用コストを含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手段と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手段と、適用コストを考慮し重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手段とを有することを特徴とする。 The third text summarization system of the present invention reads a summary constituent unit recognition pattern including a collation condition, a summary constituent unit having a clause including a statement predicate as a unit, and an application cost from the storage device, and reads the read summary constituent unit. Summary composition unit certifying means that certifies summary composition units using patterns, summary composition unit importance calculation means for evaluating the importance of certified summary composition units, and summary structures with high importance in consideration of application costs Summarization result output means for extracting a unit and creating a summary.
本発明の第4のテキスト要約システムは、前記第1、第2、または、第3のテキスト要約システムであって、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、前記要約構成単位の認定手段により認定された要約構成単位に対し文の表現に基づいて補完・修正を実施し、補完・修正した要約構成単位を前記要約構成単位の重要度計算手段に出力する要約構成単位の補完修正手段を有することを特徴とする。 A fourth text summarization system according to the present invention is the first, second, or third text summarization system, and reads a summary unit complement correction pattern including collation conditions and supplement correction information from the storage device. Using the read summary composition unit complement correction pattern, the summary composition unit recognized by the summary composition unit recognition means is supplemented / corrected based on the sentence expression, and the complement / correction summary composition unit is obtained. Summarization composition unit complementary correction means for outputting to the summary composition unit importance calculation means is provided.
本発明の第5のテキスト要約システムは、前記第1、第2、または、第3のテキスト要約システムであって、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、前記要約構成単位の重要度計算手段により重要度が評価された要約構成単位に対し文の表現に基づいて補完・修正を実施し、補完・修正した要約構成単位を前記要約結果出力手段に出力する要約構成単位の補完修正手段を有することを特徴とする。 A fifth text summarization system of the present invention is the first, second, or third text summarization system, and reads a summary unit complement correction pattern including collation conditions and supplement correction information from the storage device. Then, using the read summary composition unit complement correction pattern, the summary composition unit whose importance is evaluated by the importance calculation means of the summary composition unit is complemented / corrected based on the sentence expression, and complemented / corrected. It further comprises means for complementing and correcting the summary constituent unit for outputting the summarized constituent unit to the summary result output means.
本発明の第6のテキスト要約システムは、照合条件、文の述部を含む節を単位とする要約構成単位、抽出順序制約を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位間の接続関係、または、引用関係を考慮し要約構成単位を認定し、要約構成単位の認定手段と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手段と、重要度の評価された要約構成単位に対し抽出順序制約を用いて抽出順序を考慮する抽出順序に関する制約の設定手段と、重要度が高く抽出順序の考慮された要約構成単位を抽出して要約を作成する要約結果出力手段とを有することを特徴とする。 The sixth text summarization system of the present invention reads a summary component unit including a collation condition, a clause including a clause including a sentence predicate, and a summary component unit recognition pattern including an extraction order constraint from a storage device, and reads the read summary component unit The summary composition unit is recognized by considering the connection relation between the summary composition units or the citation relation using the authorization pattern, and the summary composition unit certification means and the importance of the recognized summary composition unit are evaluated. Importance calculation means, extraction order constraint setting means that considers the extraction order using extraction order constraints for the summary constituent units whose importance has been evaluated, and summary constituent units that are highly important and take into consideration the extraction order And summary result output means for creating a summary.
本発明の第7のテキスト要約システムは、照合条件、文の述部を含む節を単位とする要約構成単位、適用コスト、抽出順序制約を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位間の接続関係、または、引用関係を考慮し要約構成単位を認定し、要約構成単位の認定手段と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手段と、重要度の評価された要約構成単位に対し抽出順序制約を用いて抽出順序を考慮する抽出順序に関する制約の設定手段と、適用コストを考慮し重要度が高く抽出順序の考慮された要約構成単位を抽出して要約を作成する要約結果出力手段とを有することを特徴とする。 The seventh text summarization system of the present invention reads a summary constituent unit qualification pattern including a collation condition, a summary constituent unit having a clause containing a predicate of a sentence, an application cost, and an extraction order constraint from the storage device, and reads it out. A summary component unit is certified using the summary component unit recognition pattern in consideration of the connection relationship between the summary component units or the citation relationship, and the summary component unit certification method and the summary that evaluates the importance of the recognized summary component unit Importance calculation means for composition unit, extraction order constraint that considers the extraction order using the extraction order constraint for summary composition units evaluated for importance, and extraction with high importance in consideration of application cost Summarization result output means for extracting a summary constituent unit considering the order and creating a summary.
本発明の第8のテキスト要約システムは、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手段と、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、要約構成単位に対し文の表現に基づいて補完・修正を実施し出力する要約構成単位の補完修正手段と、前記要約構成単位の補完修正手段からの要約構成単位の重要度を評価する要約構成単位の重要度計算手段と、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、要約構成単位に対し隣接する要約構成単位間での補完や修正については元の表現を適用する表現の還元手段と、前記還元手段からの要約構成単位に対し重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手段とを有することを特徴とする。 The eighth text summarization system of the present invention reads a summary constituent unit recognition pattern including a summary constituent unit having a clause including a collation condition and a predicate of a sentence as a unit, and uses the read summary constituent unit recognition pattern. Summary composition unit recognition means for identifying summary composition unit, summary composition unit complement correction pattern including collation conditions and supplementary modification information is read from the storage device, and the summary composition unit complement modification pattern is read out and used for the summary composition unit. Complement / correction means for summarizing composition units that output after completion / correction based on sentence expressions for the units, and importance of the summarizing composition units for evaluating the importance of the summarizing composition units from the supplementary correction means for the summary composition units When the summary calculation unit and the summary unit adjacent in the summary are adjacent in the same sentence of the original document, For complementation and correction, it has expression reduction means for applying the original expression, and summary result output means for extracting a summary component unit having a high importance with respect to the summary component unit from the reduction means and creating a summary It is characterized by.
本発明の第9のテキスト要約システムは、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて述部を含む節を最小とする単位を要約構成単位として認定し、これから要約文候補を得る要約文候補の生成手段と、照合条件、補完修正情報、適用コストを含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、要約文候補に対し文の表現に基づいて補完・修正を実施し出力する要約構成単位の補完修正手段と、前記要約構成単位の補完修正手段からの要約文候補の重要度を評価する要約構成単位の重要度計算手段と、要約文候補に対する重要度に基づいて、各文での要約文候補を探索し、要約として最尤の要約文候補の組み合わせを決定する際、要約構成単位を認定するためのコストと要約構成単位を補完修正するためのコストも考慮して抽出を行う要約文候補の探索手段と、決定された最尤の要約文候補の組み合わせを、出現順に並べ、要約結果として出力する要約結果出力手段とを有することを特徴とする。 The ninth text summarization system of the present invention reads a summary constituent unit qualification pattern including a summary constituent unit whose unit is a clause including a collation condition and a sentence predicate from a storage device, and uses the read summary constituent unit qualification pattern. The unit that minimizes the section including the predicate is recognized as the summary unit, and the summary sentence candidate generating means for obtaining the summary sentence candidate from the unit, and the summary unit complement correction pattern including the collation condition, supplementary correction information, and application cost Using the summary unit correction correction pattern read out from the storage device, complementing and correcting the summary sentence unit based on the sentence expression for the summary sentence candidate, and outputting the summary composition unit Summary sentence unit importance calculation means for evaluating the importance of summary sentence candidates from the unit supplementary correction means, and summary sentence candidates in each sentence based on the importance for the summary sentence candidate Searching for a summary sentence candidate that takes into account the cost for certifying the summary unit and the cost for supplementing and correcting the summary unit when determining the combination of the most likely summary sentences as a summary And a summary result output means for arranging the determined combinations of maximum likelihood summary sentence candidates in the order of appearance and outputting them as summary results.
本発明の第1のテキスト要約方法は、文の述部を含む節を要約構成単位とする情報を含む要約構成単位認定用言語知識情報を記憶装置から読み出し、読み出した要約構成単位認定用言語知識情報を用いて要約構成単位を認定する要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とを有することを特徴とする。 The first text summarization method of the present invention reads summary constituent unit recognition language knowledge information including information having a section including a predicate of a sentence as a summary constituent unit from a storage device, and reads the read summary knowledge of the constituent unit recognition language knowledge. The summary composition unit qualification procedure to certify the summary composition unit using information, the summary composition unit importance calculation procedure to evaluate the importance of the recognized summary composition unit, and the summary composition unit with high importance are extracted. A summary result output procedure for creating a summary.
本発明の第2のテキスト要約方法は、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とを有することを特徴とする。 The second text summarization method of the present invention reads a summary constituent unit qualification pattern including a summary constituent unit whose unit is a clause including a collation condition and a sentence predicate from a storage device, and uses the read summary constituent unit qualification pattern. Summary composition unit qualification procedure, summary composition unit importance calculation procedure to evaluate the importance of the certified summary composition unit, and summary summary by extracting the most important summary composition unit And a summary result output procedure.
本発明の第3のテキスト要約方法は、照合条件、文の述部を含む節を単位とする要約構成単位、適用コストを含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、適用コストを考慮し重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とを有することを特徴とする。 The third text summarization method of the present invention reads out a summary constituent unit recognition pattern including a collation condition, a summary constituent unit having a clause including a statement predicate as a unit, and an application cost from the storage device, and reads out the summary constituent unit recognition Summary composition unit qualification procedure for certifying summary composition units using patterns, summary composition unit importance calculation procedure for evaluating the importance of certified summary composition units, and high importance summary composition considering application costs A summary result output procedure for extracting a unit and creating a summary.
本発明の第4のテキスト要約方法は、前記第1、第2、または、第3のテキスト要約方法であって、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、前記要約構成単位の認定手順により認定された要約構成単位に対し文の表現に基づいて補完・修正を実施し、補完・修正した要約構成単位を前記要約構成単位の重要度計算手順に出力する要約構成単位の補完修正手順を有することを特徴とする。 A fourth text summarization method according to the present invention is the first, second, or third text summarization method, and reads a summary unit complement correction pattern including collation conditions and supplement correction information from the storage device. Using the read summary composition unit complement modification pattern, the summary composition unit certified by the summary composition unit certification procedure is supplemented / modified based on the sentence expression, and the supplemented / modified summary composition unit is obtained. It has a supplementary correction procedure for the summary constituent unit that is output to the importance calculation procedure for the summary constituent unit.
本発明の第5のテキスト要約方法は、前記第1、第2、または、第3のテキスト要約方法であって、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、前記要約構成単位の重要度計算手順により重要度が評価された要約構成単位に対し文の表現に基づいて補完・修正を実施し、補完・修正した要約構成単位を前記要約結果出力手順に出力する要約構成単位の補完修正手順を有することを特徴とする。 A fifth text summarization method according to the present invention is the first, second, or third text summarization method, and reads a summary unit complement correction pattern including collation conditions and supplement correction information from the storage device. Then, using the read summary composition unit complement correction pattern, the summary composition unit whose importance is evaluated by the summary component unit importance calculation procedure is complemented / corrected based on the sentence expression, and complemented / corrected. A summary composition unit complementing and correcting procedure for outputting the summarized composition unit to the summary result output procedure.
本発明の第6のテキスト要約方法は、照合条件、文の述部を含む節を単位とする要約構成単位、抽出順序制約を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位間の接続関係、または、引用関係を考慮し要約構成単位を認定し、要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の評価された要約構成単位に対し抽出順序制約を用いて抽出順序を考慮する抽出順序に関する制約の設定手順と、重要度が高く抽出順序の考慮された要約構成単位を抽出して要約を作成する要約結果出力手順とを有することを特徴とする。 The sixth text summarization method of the present invention reads out a summary constituent unit including a collation condition, a clause including a predicate of a sentence as a unit, and a summary constituent unit qualification pattern including an extraction order constraint from a storage device, and reads out the summary constituent unit The summary composition unit is evaluated by certifying the summary composition unit and evaluating the importance of the certified summary composition unit by certifying the summary composition unit in consideration of the connection relation between the summary composition units or the citation relation using the authorization pattern. Importance calculation procedure, extraction order constraint setting procedure that considers the extraction order using the extraction order constraint for the summary constituent units whose importance has been evaluated, and a summary constituent unit that is highly important and takes into consideration the extraction order And a summary result output procedure for creating a summary.
本発明の第7のテキスト要約方法は、照合条件、文の述部を含む節を単位とする要約構成単位、適用コスト、抽出順序制約を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位間の接続関係、または、引用関係を考慮し要約構成単位を認定し、要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の評価された要約構成単位に対し抽出順序制約を用いて抽出順序を考慮する抽出順序に関する制約の設定手順と、適用コストを考慮し重要度が高く抽出順序の考慮された要約構成単位を抽出して要約を作成する要約結果出力手順とを有することを特徴とする。 According to the seventh text summarization method of the present invention, a summary constituent unit qualification pattern including a collation condition, a summary constituent unit having a clause including a predicate of a sentence, an application cost, and an extraction order constraint is read from the storage device and read. Summarize the summary composition unit by evaluating the summary composition unit and the importance of the summary composition unit by certifying the summary composition unit by considering the connection relation between the summary composition units or the citation relation using the summary composition unit certification pattern. The importance calculation procedure of the composition unit, the setting procedure of the restriction on the extraction order that considers the extraction order using the extraction order constraint for the summary composition unit whose importance is evaluated, and the extraction with high importance in consideration of the application cost A summary result output procedure for extracting a summary constituent unit considering the order and creating a summary.
本発明の第8のテキスト要約方法は、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手順と、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、要約構成単位に対し文の表現に基づいて補完・修正を実施し出力する要約構成単位の補完修正手順と、前記要約構成単位の補完修正手順からの要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、要約構成単位に対し隣接する要約構成単位間での補完や修正については元の表現を適用する表現の還元手順と、前記還元手順からの要約構成単位に対し重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とを有することを特徴とする。 The eighth text summarization method of the present invention reads a summary constituent unit recognition pattern including a summary constituent unit having a clause including a collation condition and a predicate of a sentence as a unit, and uses the read summary constituent unit recognition pattern. Summary composition unit recognition procedure for identifying summary composition unit, summary composition unit complement correction pattern including collation condition and supplementary modification information is read from the storage device, and the summary composition unit complement modification pattern is read out and used for the summary composition unit. Complement / correction procedure for the summary component unit that outputs after completing / correcting the unit based on the sentence expression, and the importance of the summary component unit for evaluating the importance of the summary component unit from the supplementary correction procedure of the summary component unit When the summary calculation unit and the summary unit adjacent to each other in the summary are adjacent to each other in the same sentence of the original document, the sum of the summary units adjacent to the summary unit is corrected. And a reduction procedure for the expression to which the original expression is applied, and a summary result output procedure for extracting a summary component unit having a high importance with respect to the summary component unit from the reduction procedure and generating a summary. Features.
本発明の第9のテキスト要約方法は、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて述部を含む節を最小とする単位を要約構成単位として認定し、これから要約文候補を得る要約文候補の生成手順と、照合条件、補完修正情報、適用コストを含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、要約文候補に対し文の表現に基づいて補完・修正を実施し出力する要約構成単位の補完修正手順と、前記要約構成単位の補完修正手順からの要約文候補の重要度を評価する要約構成単位の重要度計算手順と、要約文候補に対する重要度に基づいて、各文での要約文候補を探索し、要約として最尤の要約文候補の組み合わせを決定する際、要約構成単位を認定するためのコストと要約構成単位を補完修正するためのコストも考慮して抽出を行う要約文候補の探索手順と、決定された最尤の要約文候補の組み合わせを、出現順に並べ、要約結果として出力する要約結果出力手順とを有することを特徴とする。 The ninth text summarization method of the present invention reads a summary constituent unit recognition pattern including a summary constituent unit having a unit including a clause including a collation condition and a statement predicate from a storage device, and uses the read summary constituent unit recognition pattern. The unit that minimizes the section containing the predicate is recognized as the summary unit, and the summary sentence unit generation procedure for obtaining the summary sentence candidate from this, and the summary unit completion correction pattern including the matching conditions, supplementary correction information, and application cost Using the read summary composition unit complement correction pattern, the summary composition unit complement correction procedure for performing the completion and correction on the summary sentence candidate based on the sentence expression, and outputting the summary composition unit Search summary sentence candidates in each sentence based on the importance calculation procedure for summary composition units that evaluate the importance of summary sentence candidates from the unit's complementary correction procedure and the importance for summary sentence candidates A procedure for searching for a summary sentence candidate that takes into account the cost for certifying the summary unit and the cost for supplementing and correcting the summary unit when determining the most likely summary sentence combination as a summary; And a summary result output procedure for arranging the determined combinations of maximum likelihood summary sentence candidates in the order of appearance and outputting them as summary results.
本発明の第1のテキスト要約プログラムは、文の述部を含む節を要約構成単位とする情報を含む要約構成単位認定用言語知識情報を記憶装置から読み出し、読み出した要約構成単位認定用言語知識情報を用いて要約構成単位を認定する要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とをコンピュータに実行させることを特徴とする。 The first text summarization program according to the present invention reads out summary constituent unit recognition language knowledge information including information having a section including a sentence predicate as a summary constituent unit from a storage device, and reads the read out summary constituent unit recognition language knowledge. The summary composition unit qualification procedure to certify the summary composition unit using information, the summary composition unit importance calculation procedure to evaluate the importance of the recognized summary composition unit, and the summary composition unit with high importance are extracted. A summary result output procedure for creating a summary is executed by a computer.
本発明の第2のテキスト要約プログラムは、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とをコンピュータに実行させることを特徴とする。 The second text summarization program of the present invention reads a summary constituent unit qualification pattern including a summary constituent unit having a collation condition and a clause including a sentence predicate as a unit, and uses the read summary constituent unit qualification pattern. Summary composition unit qualification procedure, summary composition unit importance calculation procedure to evaluate the importance of the certified summary composition unit, and summary summary by extracting the most important summary composition unit And a summary result output procedure to be executed by a computer.
本発明の第3のテキスト要約プログラムは、照合条件、文の述部を含む節を単位とする要約構成単位、適用コストを含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、適用コストを考慮し重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とをコンピュータに実行させることを特徴とする。 The third text summarization program according to the present invention reads a summary constituent unit recognition pattern including a collation condition, a summary constituent unit having a clause including a statement predicate as a unit, and an application cost from the storage device, and reads the read summary constituent unit. Summary composition unit qualification procedure for certifying summary composition units using patterns, summary composition unit importance calculation procedure for evaluating the importance of certified summary composition units, and high importance summary composition considering application costs A summary result output procedure for extracting a unit and creating a summary is executed by a computer.
本発明の第4のテキスト要約プログラムは、前記第1、第2、または、第3のテキスト要約プログラムであって、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、前記要約構成単位の認定手順により認定された要約構成単位に対し文の表現に基づいて補完・修正を実施し、補完・修正した要約構成単位を前記要約構成単位の重要度計算手順に出力する要約構成単位の補完修正手順をコンピュータに実行させることを特徴とする。 A fourth text summarization program according to the present invention is the first, second, or third text summarization program, and reads a summary unit complement correction pattern including collation conditions and supplementary correction information from the storage device. Using the read summary composition unit complement modification pattern, the summary composition unit certified by the summary composition unit certification procedure is supplemented / modified based on the sentence expression, and the supplemented / modified summary composition unit is obtained. The computer is caused to execute a supplementary correction procedure for the summary constituent unit that is output to the importance calculation procedure for the summary constituent unit.
本発明の第5のテキスト要約プログラムは、前記第1、第2、または、第3のテキスト要約プログラムであって、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、前記要約構成単位の重要度計算手順により重要度が評価された要約構成単位に対し文の表現に基づいて補完・修正を実施し、補完・修正した要約構成単位を前記要約結果出力手順に出力する要約構成単位の補完修正手順をコンピュータに実行させることを特徴とする。 A fifth text summarization program according to the present invention is the first, second, or third text summarization program, and reads a summary unit complement correction pattern including collation conditions and supplementary correction information from the storage device. Then, using the read summary composition unit complement correction pattern, the summary composition unit whose importance is evaluated by the summary component unit importance calculation procedure is complemented / corrected based on the sentence expression, and complemented / corrected. The computer is caused to execute a procedure for complementing and correcting the summary composition unit for outputting the summarized composition unit to the summary result output procedure.
本発明の第6のテキスト要約プログラムは、照合条件、文の述部を含む節を単位とする要約構成単位、抽出順序制約を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位間の接続関係、または、引用関係を考慮し要約構成単位を認定し、要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の評価された要約構成単位に対し抽出順序制約を用いて抽出順序を考慮する抽出順序に関する制約の設定手順と、重要度が高く抽出順序の考慮された要約構成単位を抽出して要約を作成する要約結果出力手順とをコンピュータに実行させることを特徴とする。 The sixth text summarization program according to the present invention reads a summary constituent unit having a collation condition, a clause containing a predicate of a sentence as a unit, and a summary constituent unit recognition pattern containing an extraction order constraint from a storage device, and reads the summary constituent unit The summary composition unit is evaluated by certifying the summary composition unit and evaluating the importance of the certified summary composition unit by certifying the summary composition unit in consideration of the connection relation between the summary composition units or the citation relation using the authorization pattern. Importance calculation procedure, extraction order constraint setting procedure that considers the extraction order using the extraction order constraint for the summary constituent units whose importance has been evaluated, and a summary constituent unit that is highly important and takes into consideration the extraction order And a summary result output procedure for generating a summary by extracting the information.
本発明の第7のテキスト要約プログラムは、照合条件、文の述部を含む節を単位とする要約構成単位、適用コスト、抽出順序制約を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位間の接続関係、または、引用関係を考慮し要約構成単位を認定し、要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の評価された要約構成単位に対し抽出順序制約を用いて抽出順序を考慮する抽出順序に関する制約の設定手順と、適用コストを考慮し重要度が高く抽出順序の考慮された要約構成単位を抽出して要約を作成する要約結果出力手順とをコンピュータに実行させることを特徴とする。 The seventh text summarization program of the present invention reads a summary constituent unit recognition pattern including a collation condition, a summary constituent unit having a clause containing a predicate of the sentence, an application cost, and an extraction order constraint from the storage device, and reads Summarize the summary composition unit by evaluating the summary composition unit and the importance of the summary composition unit by certifying the summary composition unit by considering the connection relation between the summary composition units or the citation relation using the summary composition unit certification pattern. The importance calculation procedure of the composition unit, the setting procedure of the restriction on the extraction order that considers the extraction order using the extraction order constraint for the summary composition unit whose importance is evaluated, and the extraction with high importance in consideration of the application cost A summary result output procedure for extracting a summary component unit in which the order is considered and creating a summary is executed by a computer.
本発明の第8のテキスト要約プログラムは、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手順と、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、要約構成単位に対し文の表現に基づいて補完・修正を実施し出力する要約構成単位の補完修正手順と、前記要約構成単位の補完修正手順からの要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、要約構成単位に対し隣接する要約構成単位間での補完や修正については元の表現を適用する表現の還元手順と、前記還元手順からの要約構成単位に対し重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とをコンピュータに実行させることを特徴とする。 The eighth text summarization program of the present invention reads a summary constituent unit recognition pattern including a summary constituent unit including a collation condition and a clause including a statement predicate from a storage device, and uses the read summary constituent unit recognition pattern. Summary composition unit recognition procedure for identifying summary composition unit, summary composition unit complement correction pattern including collation condition and supplementary modification information is read from the storage device, and the summary composition unit complement modification pattern is read out and used for the summary composition unit. Complement / correction procedure for the summary component unit that outputs after completing / correcting the unit based on the sentence expression, and the importance of the summary component unit for evaluating the importance of the summary component unit from the supplementary correction procedure of the summary component unit If the summary unit adjacent to the summary calculation unit and the summary unit adjacent to each other in the same sentence of the original document are adjacent to each other, For the completion and correction of the computer, a reduction procedure for the expression to which the original expression is applied, and a summary result output procedure for extracting a summary component unit having a high importance from the summary component unit from the reduction procedure and generating a summary It is made to perform.
本発明の第9のテキスト要約プログラムは、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて述部を含む節を最小とする単位を要約構成単位として認定し、これから要約文候補を得る要約文候補の生成手順と、照合条件、補完修正情報、適用コストを含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、要約文候補に対し文の表現に基づいて補完・修正を実施し出力する要約構成単位の補完修正手順と、前記要約構成単位の補完修正手順からの要約文候補の重要度を評価する要約構成単位の重要度計算手順と、要約文候補に対する重要度に基づいて、各文での要約文候補を探索し、要約として最尤の要約文候補の組み合わせを決定する際、要約構成単位を認定するためのコストと要約構成単位を補完修正するためのコストも考慮して抽出を行う要約文候補の探索手順と、決定された最尤の要約文候補の組み合わせを、出現順に並べ、要約結果として出力する要約結果出力手順とをコンピュータに実行させることを特徴とする。 A ninth text summarization program of the present invention reads a summary constituent unit recognition pattern including a summary constituent unit having a section including a collation condition and a sentence predicate as a unit, and uses the read summary constituent unit recognition pattern. The unit that minimizes the section containing the predicate is recognized as the summary unit, and the summary sentence unit generation procedure for obtaining the summary sentence candidate from this, and the summary unit completion correction pattern including the matching conditions, supplementary correction information, and application cost Using the read summary composition unit complement correction pattern, the summary composition unit complement correction procedure for performing the completion and correction on the summary sentence candidate based on the sentence expression, and outputting the summary composition unit Summarization candidate for each sentence based on the importance calculation procedure for the summary component unit that evaluates the importance of the summary sentence candidate from the unit's complementary correction procedure and the importance for the summary sentence candidate Search for summary sentence candidates that are extracted in consideration of the cost for certifying the summary structural unit and the cost for complementing and correcting the summary structural unit when determining the combination of the most likely summary sentence candidates as a summary. The computer is caused to execute a procedure and a summary result output procedure in which combinations of the determined maximum likelihood summary sentence candidates are arranged in order of appearance and output as a summary result.
第1の効果は、適切な要約構成単位の利用による要約品質向上と要約生成処理の簡易化による処理の高速化を同時に実現することができることである。 The first effect is that it is possible to simultaneously improve the summary quality by using an appropriate summary unit and speed up the process by simplifying the summary generation process.
その理由は、入力テキストの各文に対して述部を含む節を最小とする単位を要約構成単位として認定し、これを単位として要約を生成するので、要約生成の自由度が高く、従来の文を要約構成単位とする要約方法に比べて短い要約の生成における限界や品質の低下が生じにくいためであり、また、文節を要約構成単位とする要約方法と比べて荒い構文構造で要約構成単位を認定できるために、より簡易な処理によって要約を生成することができるためである。 The reason for this is that the unit that minimizes the clause containing the predicate for each sentence of the input text is recognized as the summary unit, and the summary is generated using this unit as the unit. This is because the short-term summary generation limit and quality degradation are less likely to occur compared to the summarization method that uses sentences as the summary unit, and the summary structure unit has a rough syntactic structure compared to the summarization method that uses sentences as the summary unit. This is because a summary can be generated by a simpler process.
第2の効果は、要約中における読みにくい表現や意味の分からない表現の発生を抑制できることである。 The second effect is that it is possible to suppress the occurrence of expressions that are difficult to read and expressions that do not understand the meaning in the summary.
その理由は、文中から抽出された要約構成単位が要約文中の独立した文として不適切な表現であっても、元文書における文の表現に基づいて適切に補完もしくは修正するためであり、また、引用関係や接続関係などの関係にある抽出の順序によって誤解や読みにくさを生じる要約構成単位の抽出において、抽出の順序に関する抑制を設定するためであり、要約において不要な分割に基づく補完や修正箇所を元の表現に還元することで、文間の連続性が失われることを防ぐためである。 The reason is that even if the summary unit extracted from the sentence is an inappropriate expression as an independent sentence in the summary sentence, it is appropriately supplemented or corrected based on the expression of the sentence in the original document. This is to set up suppression on the order of extraction in extraction of summary units that cause misunderstanding and difficulty in reading due to the order of extraction such as citation relationships and connection relationships. This is because the continuity between sentences is prevented from being lost by reducing the portion to the original expression.
第3の効果は、より柔軟な要約構成単位に基づくより高品質な要約文が生成されることである。 A third effect is that a higher-quality summary sentence based on a more flexible summary unit is generated.
その理由は、入力テキストの各文に対して要約構成単位認定パタンの逐次的な照合を、可能なものすべての組み合わせについて実施することで、各文に対して複数の要約文候補を作成し、その中から最尤の候補を選択するためであり、また同時に信頼度の低い単位認定パタンの適用および補完修正の適用に大きなコストを与えることにより、コストの高い単位認定パタンの適用や補完修正が抑制され、信頼度の低い要約公正単位や補完修正の適用による要約文の抑制が要約品質の向上をもたらすためである。 The reason for this is that multiple summary sentence candidates are created for each sentence by performing sequential matching of the summary unit recognition pattern for each sentence of the input text for all possible combinations. This is to select the most likely candidate from among them, and at the same time, by applying a large cost to the application of the unit recognition pattern with low reliability and the application of supplementary correction, the application of the unit recognition pattern with high cost and the supplementary correction can be performed. This is because the suppression of summary sentences that are suppressed and the reliability of summary fair units and supplementary amendments are applied to improve summary quality.
次に、本発明の第1の実施の形態について図面を参照して詳細に説明する。 Next, a first embodiment of the present invention will be described in detail with reference to the drawings.
図1は、本発明の第1の実施の形態の構成を示すブロック図である。 FIG. 1 is a block diagram showing the configuration of the first exemplary embodiment of the present invention.
図1を参照すると、本発明の第1の実施の形態は、要約構成単位の認定手段101と、要約構成単位の重要度計算手段102と、要約結果出力手段103と、要約構成単位認定用言語知識情報104とから構成されている。
Referring to FIG. 1, the first embodiment of the present invention is a summary constituent unit recognition means 101, a summary constituent unit importance calculation means 102, a summary result output means 103, and a summary constituent unit recognition language. It consists of
要約構成単位認定用言語知識情報104は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。
The summary structural unit recognition
これらの手段はそれぞれ概略つぎのように機能する。 Each of these means generally functions as follows.
要約構成単位の認定手段101は、テキストを入力し、入力したテキストの各文に対して要約構成単位認定用言語知識情報104を用いて述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の重要度計算手段102は、要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約結果出力手段103は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
The summary constituent unit recognition means 101 inputs text, and uses the summary constituent unit recognition
ここで、要約構成単位の認定手段101としては、たとえば、構文解析を実施する手段、あるいは、文内文脈に関する解析を実施する手段(たとえば、非特許文献5)を用いることが可能である。また、構文解析の結果から述部を含む節を抽出する規則を要約構成単位認定用言語知識情報104として用いることが可能である。
Here, as the summary constituent unit recognition means 101, for example, means for performing syntax analysis or means for performing analysis on the context within a sentence (for example, Non-Patent Document 5) can be used. Further, a rule for extracting a clause including a predicate from the result of parsing can be used as the summary unit recognition
次に、本発明の第1の実施の形態の動作について詳細に説明する。 Next, the operation of the first exemplary embodiment of the present invention will be described in detail.
まず、入力テキストの各文に対して要約構成単位認定用言語知識情報104を用いて述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段101)、次に、要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段102)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段103)。
First, for each sentence of the input text, the summary unit recognition
次に、本発明の第1の実施の形態の効果について説明する。 Next, effects of the first exemplary embodiment of the present invention will be described.
本発明の第1の実施の形態では、要約構成単位の認定手段101によって、入力テキストの各文に対して述部を含む節を最小とする単位を要約構成単位として認定し、これを単位として要約を生成するので、要約生成の自由度が高く、短い要約の生成にいても品質の良い要約を生成することができる。
In the first embodiment of the present invention, the summary
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。 Next, a second embodiment of the present invention will be described in detail with reference to the drawings.
図2は、本発明の第2の実施の形態の構成を示すブロック図である。 FIG. 2 is a block diagram showing the configuration of the second exemplary embodiment of the present invention.
図2を参照すると、本発明の第2の実施の形態は、要約構成単位の認定手段201と、要約構成単位の重要度計算手段202と、要約結果出力手段203と、要約構成単位認定パタン204とから構成されている。要約構成単位認定パタン204は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。
Referring to FIG. 2, the second embodiment of the present invention is a summary constituent
これらの手段はそれぞれ概略つぎのように機能する。 Each of these means generally functions as follows.
要約構成単位の認定手段201は、入力テキストの各文に対して要約構成単位を認定するための要約構成単位認定パタン204を用いて述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の重要度計算手段202は、要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約結果出力手段203は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
The summary constituent unit recognition means 201 recognizes a unit that minimizes a clause including a predicate as a summary constituent unit by using the summary constituent
次に、本発明の第2の実施の形態の動作について詳細に説明する。 Next, the operation of the second exemplary embodiment of the present invention will be described in detail.
まず、入力テキストの各文に対して要約構成単位認定するための要約構成単位認定パタン204を用いて述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段201)、次に、要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段202)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段203)。
First, a unit that minimizes a clause including a predicate is recognized as a summary unit using a summary
次に、本発明の第2の実施の形態の効果について説明する。 Next, effects of the second exemplary embodiment of the present invention will be described.
本発明の第2の実施の形態では、要約構成単位の認定手段201によって、入力テキストの各文に対して述部を含む節を最小とする単位を要約構成単位として認定し、これを単位として要約を生成するので、要約生成の自由度が高く、短い要約の生成にいても品質の良い要約を生成することができ、また、文節を要約構成単位とする要約方法と比べて粗い構文解析で要約構成単位を認定できるために、より簡易な処理によって要約を生成することができる。
In the second embodiment of the present invention, the summary
次に、本発明の第3の実施の形態について図面を参照して詳細に説明する。 Next, a third embodiment of the present invention will be described in detail with reference to the drawings.
図3は、本発明の第3の実施の形態の構成を示すブロック図である。 FIG. 3 is a block diagram showing the configuration of the third exemplary embodiment of the present invention.
図3を参照すると、本発明の第3の実施の形態は、要約構成単位の認定手段301と、要約構成単位の重要度計算手段302と、要約結果出力手段303と、要約構成単位認定パタン304とから構成されている。要約構成単位認定パタン304は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。
Referring to FIG. 3, the third embodiment of the present invention is a summary constituent unit recognition means 301, a summary constituent unit importance calculation means 302, a summary result output means 303, and a summary constituent
これらの手段はそれぞれ概略つぎのように機能する。 Each of these means generally functions as follows.
要約構成単位の認定手段301は、入力テキストの各文に対して要約構成単位を認定し、さらにそれぞれの要約構成単位を認定するためのコストが設定できる要約構成単位認定パタン304を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の重要度計算手段302は、これらの要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約結果出力手段303は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、要約構成単位を認定するためのコストも考慮して抽出を行い、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
The summary component unit recognition means 301 recognizes the summary component unit for each sentence of the input text, and further uses the summary component
次に、本発明の第3の実施の形態の動作について詳細に説明する。 Next, the operation of the third exemplary embodiment of the present invention will be described in detail.
まず、入力テキストの各文に対して要約構成単位を認定し、さらにそれぞれの要約構成単位認定パタン304のなかの要約構成単位を認定するためのコストが設定できる要約構成単位認定パタン304を用いて、述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段301)、次に、これらの要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段302)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、要約構成単位を認定するためのコストも考慮して抽出を行い、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段303)。
First, by using the summary composition
次に、本発明の第3の実施の形態の効果について説明する。 Next, effects of the third exemplary embodiment of the present invention will be described.
本発明の第3の実施の形態では、要約構成単位の認定手段201によって、入力テキストの各文に対して述部を含む節を最小とする単位を要約構成単位として認定し、これを単位として要約を生成するので、要約生成の自由度が高く、短い要約の生成にいても品質の良い要約を生成することができ、また、文節を要約構成単位とする要約方法と比べて粗い構文解析で要約構成単位を認定できるために、より簡易な処理によって要約を生成することができ、また、コストの高い単位認定パタンの適用を抑制することができるため、信頼度の低いパタンに大きなコストを与えることにより、信頼度の低い要約構成単位の要約文への抽出が抑制され、高品質な要約文が生成される効果が得られる。
In the third embodiment of the present invention, the summary
次に、本発明の第4の実施の形態について図面を参照して詳細に説明する。 Next, a fourth embodiment of the present invention will be described in detail with reference to the drawings.
図4は、本発明の第4の実施の形態の構成を示すブロック図である。 FIG. 4 is a block diagram showing the configuration of the fourth exemplary embodiment of the present invention.
図4を参照すると、本発明の第4の実施の形態は、要約構成単位の認定手段401と、要約構成単位の補完修正手段402と、要約構成単位の重要度計算手段403と、要約結果出力手段404と、要約構成単位認定用言語知識情報405と、要約構成単位補完修正用言語知識情報406とから構成されている。ここで、要約構成単位の補完修正手段402としては、たとえば、主題・主格の共有の存在を推定する文解析方式を実施する手段(たとえば、特許文献2)を用いることが可能である。要約構成単位認定用言語知識情報405、要約構成単位補完修正用言語知識情報406は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。
Referring to FIG. 4, the fourth embodiment of the present invention is a summary constituent unit recognition means 401, a summary constituent unit supplementary correction means 402, a summary constituent unit importance calculation means 403, and a summary result output. It comprises means 404, summary constituent unit recognition
これらの手段はそれぞれ概略つぎのように動作する。 Each of these means generally operates as follows.
要約構成単位の認定手段401は、入力テキストの各文に対して要約構成単位認定用言語知識情報405を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の補完修正手段402は、要約構成単位補完修正用言語知識情報406を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に補完する、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する。
The summary constituent
要約構成単位の重要度計算手段403は、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約結果出力手段404は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。 The summary unit importance calculation means 403 calculates the position of the summary unit, the clue word, the title, and the importance of the word with respect to the summary unit in which the information is appropriately supplemented or the expression is corrected. The importance of each summary component in the text is calculated using information such as the degree and keywords. The summary result output means 404 sequentially extracts from the summary component unit having the highest importance until the summary length requested by the user is reached, based on the importance for each summary component unit, and extracts the extracted summary component units. Arrange in the order of appearance in the original text and output as a summary result.
次に、本発明の第4の実施の形態の動作について詳細に説明する。 Next, the operation of the fourth exemplary embodiment of the present invention will be described in detail.
まず、入力テキストの各文に対して要約構成単位認定用言語知識情報405を用いて、述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段401)、次に、要約構成単位補完修正用言語知識情報406を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に適切に補完し、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて適切に修正し(要約構成単位の補完修正手段402)、さらに、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段403)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段404)。
First, using the summary component unit recognition
次に、本発明の第4の実施の形態の効果について説明する。 Next, the effect of the 4th Embodiment of this invention is demonstrated.
本発明の第4の実施の形態では、要約構成単位の補完修正手段402によって、文中から抽出された要約構成単位を元文書における文の表現に基づいて適切に補完もしくは修正するため、要約構成単位が要約文中に抽出されても文として不完全な表現が生じず、また補完された要約構成単位の情報によってその重要度が適切に評価されるので、要約の品質を改善することができる。
In the fourth embodiment of the present invention, the summary component unit is appropriately supplemented or corrected based on the sentence expression in the original document by the summary component unit
次に、本発明の第5の実施の形態について図面を参照して詳細に説明する。 Next, a fifth embodiment of the present invention will be described in detail with reference to the drawings.
図5は、本発明の第5の実施の形態の構成を示すブロック図である。 FIG. 5 is a block diagram showing the configuration of the fifth exemplary embodiment of the present invention.
図5を参照すると、本発明の第5の実施の形態は、要約構成単位の認定手段501と、要約構成単位の重要度計算手段502と、要約構成単位の補完修正手段503と、要約結果出力手段504と、要約構成単位認定用言語知識情報505と、要約構成単位補完修正用言語知識情報506とから構成されている。要約構成単位認定用言語知識情報505、要約構成単位補完修正用言語知識情報506は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。
Referring to FIG. 5, the fifth embodiment of the present invention is a summary component
これらの手段はそれぞれ概略つぎのように機能する。 Each of these means generally functions as follows.
要約構成単位の認定手段501は、入力テキストの各文に対して要約構成単位認定用言語知識情報505を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の重要度計算手段502は、これらの要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約構成単位の補完修正手段503は、要約構成単位補完修正用言語知識情報506を適用することにより、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する。要約結果出力手段504は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
The summary constituent
次に、本発明の第5の実施の形態の動作について詳細に説明する。 Next, the operation of the fifth exemplary embodiment of the present invention will be described in detail.
まず、入力テキストの各文に対して要約構成単位認定用言語知識情報505を用いて、述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段501)、次に、これらの要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段502)、さらに、要約構成単位補完修正用言語知識情報506を適用することにより、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて適切に修正し(要約構成単位の補完修正手段503)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段504)。
First, using the summary component unit recognition
次に、本発明の第5の実施の形態の効果について説明する。 Next, effects of the fifth exemplary embodiment of the present invention will be described.
本発明の第5の実施の形態では、要約構成単位の補完修正手段503によって、文中から抽出された要約構成単位を元文書における文の表現に基づいて適切に補完もしくは修正するため、要約構成単位が要約文中に抽出されても文として不完全な表現が生じず、要約の品質を改善することができる。
In the fifth embodiment of the present invention, the summary component unit is appropriately supplemented or corrected based on the expression of the sentence in the original document by the summary component
次に、本発明の第6の実施の形態について図面を参照して詳細に説明する。 Next, a sixth embodiment of the present invention will be described in detail with reference to the drawings.
図6は、本発明の第6の実施の形態の構成を示すブロック図である。 FIG. 6 is a block diagram showing the configuration of the sixth exemplary embodiment of the present invention.
図6を参照すると、本発明の第6の実施の形態は、要約構成単位の認定手段601と、要約構成単位の補完修正手段602と、要約構成単位の重要度計算手段603と、要約結果出力手段604と、要約構成単位認定パタン605と、要約構成単位補完修正パタン606とから構成されている。要約構成単位認定パタン605、要約構成単位補完修正パタン606は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。
Referring to FIG. 6, the sixth embodiment of the present invention is a summary constituent unit certifying means 601, a summary constituent unit supplementary correcting means 602, a summary constituent unit importance calculating means 603, and a summary result output. A means 604, a summary constituent
これらの手段はそれぞれ概略つぎのように機能する。 Each of these means generally functions as follows.
要約構成単位の認定手段601は、入力テキストの各文に対して要約構成単位認定パタン605を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の補完修正手段602は、要約構成単位補完修正パタン606を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に補完する、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する。要約構成単位の重要度計算手段603は、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約結果出力手段604は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
The summary constituent unit recognition means 601 uses the summary constituent
次に、本発明の第6の実施の形態の動作について詳細に説明する。 Next, the operation of the sixth exemplary embodiment of the present invention will be described in detail.
まず、入力テキストの各文に対して要約構成単位認定パタン605を用いて、述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段601)、次に、要約構成単位補完修正パタン606を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に適切に補完し、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて適切に修正し(要約構成単位の補完修正手段602)、さらに、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段603)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段604)。
First, by using the summary constituent
次に、本発明の第6の実施の形態の効果について説明する。 Next, effects of the sixth exemplary embodiment of the present invention will be described.
本発明の第6の実施の形態では、要約構成単位の補完修正手段602によって、文中から抽出された要約構成単位を元文書における文の表現に基づいて適切に補完もしくは修正するため、要約構成単位が要約文中に抽出されても文として不完全な表現が生じず、また補完された要約構成単位の情報によってその重要度が適切に評価されるので、要約の品質を改善することができる。 In the sixth embodiment of the present invention, the summary component unit is appropriately supplemented or corrected based on the expression of the sentence in the original document by the summary component unit supplementary correction means 602. Even if extracted in the summary sentence, incomplete expression does not occur as a sentence, and the importance is appropriately evaluated by the information of the supplemented summary constituent unit, so that the quality of the summary can be improved.
次に、本発明の第7の実施の形態について図面を参照して詳細に説明する。 Next, a seventh embodiment of the present invention will be described in detail with reference to the drawings.
図7は、本発明の第7の実施の形態の構成を示すブロック図である。 FIG. 7 is a block diagram showing a configuration of the seventh exemplary embodiment of the present invention.
図7を参照すると、本発明の第7の実施の形態は、要約構成単位の認定手段701と、要約構成単位の補完修正手段702と、要約構成単位の重要度計算手段703と、要約結果出力手段704と、要約構成単位認定パタン705と、要約構成単位補完修正パタン706とから構成されている。要約構成単位認定パタン705、要約構成単位補完修正パタン706は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。
Referring to FIG. 7, the seventh embodiment of the present invention is a summary constituent unit certifying means 701, a summary constituent unit complementary correcting
これらの手段はそれぞれ概略つぎのように機能する。 Each of these means generally functions as follows.
要約構成単位の認定手段701は、入力テキストの各文に対して要約構成単位認定パタン705を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の補完修正手段702は、要約構成単位補完修正パタン706を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に適切に補完し、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて適切に修正し、さらにそれぞれの要約構成単位補完修正パタン706で要約構成単位を補完修正するためのコストを設定する。
The summary constituent unit recognition means 701 uses the summary constituent
要約構成単位の重要度計算手段703は、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約結果出力手段704は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、要約構成単位を補完修正するためのコストも考慮して抽出を行い、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。 The summary component unit importance calculation means 703 performs the position of the summary component unit in the text, the clue word, the title, and the importance of the word with respect to the summary component unit in which the information is appropriately supplemented or the expression is corrected. The importance of each summary component in the text is calculated using information such as the degree and keywords. The summary result output means 704 complements and corrects the summary constituent units when extracting sequentially from the summary constituent units having the highest importance until the summary length requested by the user is reached, based on the importance for each summary constituent unit. Then, the extraction is performed in consideration of the cost for performing, and the extracted summary constituent units are arranged in the order of appearance in the original text and output as a summary result.
次に、本発明の第7の実施の形態の動作について詳細に説明する。 Next, the operation of the seventh exemplary embodiment of the present invention will be described in detail.
まず、入力テキストの各文に対して要約構成単位認定パタン705を用いて、述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段701)、次に、要約構成単位補完修正パタン706を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に適切に補完し、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて適切に修正し、さらにそれぞれの要約構成単位補完修正パタン706で要約構成単位を補完修正するためのコストを設定し(要約構成単位の補完修正手段702)、さらに、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段703)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、要約構成単位を補完修正するためのコストも考慮して抽出を行い、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段704)。
First, by using the summary constituent
次に、本発明の第7の実施の形態の効果について説明する。 Next, effects of the seventh exemplary embodiment of the present invention will be described.
本発明の第7の実施の形態では、要約構成単位の補完修正手段702によって、文中から抽出された要約構成単位を元文書における文の表現に基づいて適切に補完もしくは修正するため、要約構成単位が要約文中に抽出されても文として不完全な表現が生じず、また補完された要約構成単位の情報によってその重要度が適切に評価されるので、要約の品質を改善することができる。また、それぞれの要約構成単位補完修正パタン706で要約構成単位を補完修正するためのコストを設定することができるので、信頼度の低いパタンに大きなコストを与えることにより、信頼度の低い補完修正の適用による要約文が抑制され、これにより、より高品質な要約文が生成できる。
In the seventh embodiment of the present invention, a summary component unit is appropriately supplemented or corrected based on the sentence representation in the original document by the summary component complement correction means 702. Even if extracted in the summary sentence, incomplete expression does not occur as a sentence, and the importance is appropriately evaluated by the information of the supplemented summary constituent unit, so that the quality of the summary can be improved. In addition, since the cost for supplementary correction of the summary constituent unit can be set by each of the summary constituent unit
次に、本発明の第8の実施の形態について図面を参照して詳細に説明する。 Next, an eighth embodiment of the present invention will be described in detail with reference to the drawings.
図8は、本発明の第8の実施の形態の構成を示すブロック図である。 FIG. 8 is a block diagram showing the configuration of the eighth embodiment of the present invention.
図8を参照すると、本発明の第8の実施の形態は、要約構成単位の認定手段801と、要約構成単位の重要度計算手段802と、要約構成単位の抽出順序に関する制約の設定手段803と、要約結果出力手段804と、要約構成単位認定パタン805とから構成されている。要約構成単位認定パタン805は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。
Referring to FIG. 8, the eighth embodiment of the present invention includes a summary component
これらの手段はそれぞれ概略つぎのように機能する。 Each of these means generally functions as follows.
要約構成単位の認定手段801は、入力テキストの各文に対して要約構成単位を認定し、さらにそれぞれの要約構成単位認定パタン805で認定される要約構成単位の間における接続関係や引用関係を認定し、要約構成単位認定パタン805を用いて、述部を含む節を最小とする単位を要約構成単位として認定し、さらにそれぞれの要約構成単位を抽出する際にこれらの関係を考慮した抽出順序に関する制約が設定できる。要約構成単位の重要度計算手段802は、これらの要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約構成単位の抽出順序に関する制約の設定手段803は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、それぞれの要約構成単位間の関係を考慮した抽出順序に関する制約も考慮して抽出を行う。要約結果出力手段804は、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
The summary constituent unit recognition means 801 recognizes the summary constituent unit for each sentence of the input text, and further recognizes the connection relation and the citation relation between the summary constituent units certified by the respective summary constituent
次に、本発明の第8の実施の形態の動作について詳細に説明する。 Next, the operation of the eighth exemplary embodiment of the present invention will be described in detail.
まず、入力テキストの各文に対して要約構成単位を認定し、さらにそれぞれの要約構成単位認定パタン805で認定される要約構成単位の間における接続関係や引用関係を認定し、要約構成単位認定パタン805を用いて、述部を含む節を最小とする単位を要約構成単位として認定し、さらにそれぞれの要約構成単位を抽出する際にこれらの関係を考慮した抽出順序に関する制約を設定し(要約構成単位の認定手段801)、次に、これらの要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段802)、さらに、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、それぞれの要約構成単位間の関係を考慮した抽出順序に関する制約も考慮して抽出し(要約構成単位の抽出順序に関する制約の設定手段803)、最後に、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段804)。
First, for each sentence of the input text, a summary constituent unit is certified, and further, a connection relation and a citation relation between the summary constituent units certified by each summary constituent
次に、本発明の第8の実施の形態の効果について説明する。 Next, the effect of the 8th Embodiment of this invention is demonstrated.
本発明の第8の実施の形態では、要約構成単位の抽出順序に関する制約の設定手段803によって、要約構成単位の間に認定された関係をそれぞれの要約構成単位を抽出する際に考慮するので、たとえば引用関係や接続関係などにおいて従文のみが抽出されることによって生じる元の文と意味の異なる要約文の生成が抑制され、高品質な要約文が生成される効果が得られる。 In the eighth embodiment of the present invention, the constraint setting means 803 regarding the extraction order of the summary constituent units is considered when extracting the respective summary constituent units, since the relationship recognized between the summary constituent units is taken into consideration. For example, the generation of a summary sentence having a different meaning from the original sentence caused by extracting only the subordinate sentence in a citation relation or a connection relation is suppressed, and an effect of generating a high-quality summary sentence is obtained.
次に、本発明の第9の実施の形態について図面を参照して詳細に説明する。 Next, a ninth embodiment of the present invention will be described in detail with reference to the drawings.
図9は、本発明の第9の実施の形態の構成を示すブロック図である。 FIG. 9 is a block diagram showing a configuration of the ninth exemplary embodiment of the present invention.
図9を参照すると、本発明の第9の実施の形態は、要約構成単位の認定手段901と、要約構成単位の補完修正手段902と、要約構成単位の重要度計算手段903と、隣接する要約構成単位における表現の還元手段904と、要約結果出力手段905と、要約構成単位認定パタン906と、要約構成単位補完修正パタン907とから構成されている。要約構成単位認定パタン906、要約構成単位補完修正パタン907は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。
Referring to FIG. 9, the ninth embodiment of the present invention includes a summary component
これらの手段はそれぞれ概略つぎのように動作する。 Each of these means generally operates as follows.
要約構成単位の認定手段901は、入力テキストの各文に対して要約構成単位認定パタン906を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の補完修正手段902は、要約構成単位補完修正パタン907を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に補完する、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する。
The summary constituent unit recognition means 901 uses the summary constituent
要約構成単位の重要度計算手段903は、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。 The summary component unit importance calculation means 903 is the position of the summary component unit in the text, the clue word, the title, and the importance of the word with respect to the summary component unit that has been appropriately supplemented or modified in expression. The importance of each summary component in the text is calculated using information such as the degree and keywords.
隣接する要約構成単位における表現の還元手段904は、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、隣接する要約構成単位間での補完や修正については補完修正前の表現を用いる。要約結果出力手段905は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
The
次に、本発明の第9の実施の形態の動作について詳細に説明する。 Next, the operation of the ninth exemplary embodiment of the present invention will be described in detail.
まず、入力テキストの各文に対して要約構成単位認定パタン906を用いて、述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段901)、次に、要約構成単位補完修正パタン907を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に適切に補完し、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて適切に修正する(要約構成単位の補完修正手段902)。
First, by using the summary constituent
そして、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段903)、さらに、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、隣接する要約構成単位間での補完や修正については補完修正前の表現を用い、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し(隣接する要約構成単位における表現の還元手段904)、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段905)。 Then, with respect to the summary composition unit that has been appropriately supplemented or corrected in terms of information, information such as the position of the summary composition unit in the text, clue words, title, word importance, and keywords are used as clues. , Calculate the importance of each summary component in the text (summary component importance calculation means 903), and if the summary component adjacent in the summary is adjacent in the same sentence of the original document, For the completion and correction between the summary composition units to be used, the expression before complement correction is used, and finally, the user requests in order from the most important summary composition unit based on the importance for each summary composition unit. Sequentially extracted until the summary length is reached (reduction means 904 for expression in adjacent summary constituent units), and the extracted summary constituent units are displayed in the order of appearance in the original text. Arranged to output as a summary result (summarized result output unit 905).
次に、本発明の第9の実施の形態の効果について説明する。 Next, effects of the ninth exemplary embodiment of the present invention will be described.
本発明の第9の実施の形態では、隣接する要約構成単位における表現の還元手段904によって、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、隣接する要約構成単位間での補完や修正については補完修正前の表現を用いるので、補完や修正によって文間の連続性が失われることを緩和する効果が得られ、要約の可読性を改善することができる。
In the ninth embodiment of the present invention, when the
次に、本発明の第10の実施の形態について図面を参照して詳細に説明する。 Next, a tenth embodiment of the present invention will be described in detail with reference to the drawings.
図10は、本発明の第10の実施の形態の構成を示すブロック図である。 FIG. 10 is a block diagram showing the configuration of the tenth embodiment of the present invention.
図10を参照すると、本発明の第10の実施の形態は、要約文候補の生成手段1001と、要約構成単位の補完修正手段1002と、要約構成単位の重要度計算手段1003と、要約文候補の探索手段1004と、要約結果出力手段1005と、要約構成単位認定パタン1006と、要約構成単位補完修正パタン1007とから構成されている。要約構成単位認定パタン1006、要約構成単位補完修正パタン1007は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。
Referring to FIG. 10, the tenth embodiment of the present invention is a summary sentence candidate generation means 1001, a summary composition unit complementation correction means 1002, a summary composition unit importance calculation means 1003, and a summary sentence candidate. Search means 1004, summary result output means 1005, summary constituent
これらの手段はそれぞれ概略つぎのように動作する。 Each of these means generally operates as follows.
要約文候補の生成手段1001は、入力テキストの各文に対して要約構成単位認定パタン1006の逐次的な照合によって、可能なすべての述部を含む節を最小とする単位を要約構成単位として認定し、これから要約文候補を得る。要約構成単位の補完修正手段1002は、要約構成単位補完修正パタン1007を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に補完する、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する。
The summary sentence candidate generation means 1001 recognizes a unit that minimizes a clause including all possible predicates as a summary constituent unit by sequentially collating the summary constituent
要約構成単位の重要度計算手段1003は、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約文候補の探索手段1004は、これらの要約文候補に対する重要度に基づいて、テキスト中の各文での要約文候補を探索し、入力テキストに対する要約として最尤の要約文候補の組み合わせを決定する際、要約構成単位を認定するためのコストと要約構成単位を補完修正するためのコストも考慮して抽出を行う。要約結果出力手段1005は、決定された最尤の要約文候補の組み合わせを、元のテキストにおける出現順に並べ、要約結果として出力する。
The summary component unit importance calculation means 1003 is the position of the summary component unit in the text, the clue word, the title, and the importance of the word with respect to the summary component unit that has been appropriately supplemented or modified in expression. The importance of each summary component in the text is calculated using information such as the degree and keywords. The summary sentence
次に、本発明の第10の実施の形態の動作について詳細に説明する。 Next, the operation of the tenth embodiment of the present invention will be described in detail.
まず、入力テキストの各文に対して要約構成単位認定パタン1006の逐次的な照合によって、可能なすべての述部を含む節を最小とする単位を要約構成単位として認定し、これから要約文候補を得る(要約文候補の生成手段1001)。この際、要約文候補中の要約構成単位に対して、要約構成単位補完修正パタン1007を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に補完する、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する(要約構成単位の補完修正手段1002)。
First, a unit that minimizes a clause including all possible predicates is recognized as a summary constituent unit by sequentially collating the summary constituent
次に、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段1003)、これらの要約文候補に対する重要度に基づいて、テキスト中の各文での要約文候補を探索し、入力テキストに対する要約として最尤の要約文候補の組み合わせを決定する際、要約構成単位を認定するためのコストと要約構成単位を補完修正するためのコストも考慮して抽出し(要約文候補の探索手段1004)、決定された最尤の要約文候補の組み合わせを、元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段1005)。 Next, information such as position, clue word, title, word importance, keyword, etc. in the text of the summary composition unit with respect to the summary composition unit in which such information has been appropriately supplemented or corrected in expression is provided. The importance of each summary constituent unit in the text is calculated (summary constituent unit importance calculating means 1003), and the summary sentence candidate in each sentence in the text is calculated based on the importance for these summary sentence candidates. When extracting and determining the most likely summary sentence combination as a summary for the input text, it is extracted in consideration of the cost for certifying the summary unit and the cost for supplementing and correcting the summary unit (summary sentence). The candidate searching means 1004) arranges the combinations of the determined maximum likelihood summary sentence candidates in the order of appearance in the original text and outputs them as a summary result (summary result output). It means 1005).
次に、本発明の第10の実施の形態の効果について説明する。 Next, the effect of the 10th Embodiment of this invention is demonstrated.
本発明の第10の実施の形態では、要約文候補の生成手段1001と要約文候補の探索手段1004とによって、可能なすべての述部を含む節を最小とする単位を要約構成単位として認定し、これから複数の要約文候補を作成するので、より柔軟な要約構成単位からの要約文の選択を実現することができる。またこのとき、最尤の要約文候補のからの探索の際、要約構成単位を認定するためのコストと要約構成単位を補完修正するためのコストも考慮するので、要約中における読みにくい表現や意味の分からない表現の発生を同時に抑制することができ、柔軟な要約構成単位に基づくより高品質な要約を生成する効果が得られる。 In the tenth embodiment of the present invention, the summary sentence candidate generating means 1001 and the summary sentence candidate searching means 1004 recognize a unit that minimizes a clause including all possible predicates as a summary constituent unit. Since a plurality of summary sentence candidates are created from now on, it is possible to realize the selection of summary sentences from more flexible summary constituent units. At this time, when searching from the most likely summary sentence candidate, the cost for certifying the summary unit and the cost for supplementing and correcting the summary unit are also considered. The generation of unknown expressions can be suppressed at the same time, and the effect of generating a higher-quality summary based on a flexible summary unit can be obtained.
次に、本発明の第1〜第3の実施の形態の実施例について図面を参照して詳細に説明する。 Next, examples of the first to third embodiments of the present invention will be described in detail with reference to the drawings.
図11は、要約構成単位認定パタン204、要約構成単位認定パタン605、要約構成単位認定パタン705、要約構成単位認定パタン906の例を示す説明図である。
FIG. 11 is an explanatory diagram showing an example of the summary constituent
図14は、要約構成単位認定パタン304、要約構成単位認定パタン1006の例を示す説明図である。
FIG. 14 is an explanatory diagram showing an example of the summary constituent
第1の実施の形態における要約構成単位認定用言語知識情報104の具体的な実施の一例が第2の実施の形態における要約構成単位認定パタン204であるため、ここでは、第2の実施の形態について説明する。
An example of a specific implementation of the summary component unit certifying
まず、要約構成単位の認定手段201が、要約構成単位認定パタン204において、入力テキストの各文に対して要約構成単位を認定するための要約構成単位認定パタン204を用いて述部を含む節を最小とする単位を要約構成単位として認定する。このとき、テキスト中に「従来、点数で機械的に生徒を切り捨てる傾向があったが、ここ数年で生徒の面倒をみていこうという機運が出てきた。」という文が存在し、また要約構成単位認定パタン204が、図11中に示すようなものであったとする。各パタンは文もしくは要約構成単位に対してパタンを適用するかどうかの条件を記述した「照合条件」と、適用によって得られる要約構成単位の形態を記述した「要約構成単位」とから構成されている。
First, the summary constituent unit recognition means 201 uses the summary constituent
照合条件における「S」は、パタンを適用する対象を現し、「P1」や「P2」は、「P1=」または「P2=」で定義された式に照合するSの部分を表す。「用言」は動詞、形容詞、形容動詞のいずれかに照合し、「*」は長さ0以上の任意の文字列に照合する。その結果、パタン1は、たとえば、接続詞「が」によって二つの単文が接続されているような文に照合し、それぞれの単文を要約構成単位として認定するように機能する。したがって、テキスト中の文は、図11中のパタン1の照合条件に適合し、その結果として、要約構成単位S1とS2とに相当する「従来、点数で機械的に生徒を切り捨てる傾向があった。」と「ここ数年で生徒の面倒をみていこうという機運が出てきた。」とがそれぞれ要約構成単位として得られる。
“S” in the collation condition represents an object to which the pattern is applied, and “P1” and “P2” represent a portion of S that is collated with an expression defined by “P1 =” or “P2 =”. The “use” is matched with a verb, an adjective, or an adjective verb, and “*” is matched with an arbitrary character string having a length of 0 or more. As a result, the
次に、要約構成単位の重要度計算手段202では、これら2つの単位を含めたすべての要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、要約結果出力手段203が、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
Next, in the summary component unit importance calculation means 202, the position of the summary component unit in the text, clue word, title, importance of the word, and keyword for all the summary component units including these two units. The importance of each summary composition unit in the text is calculated using information such as the above, and finally, the user requests in order from the most important summary composition unit based on the importance for each summary composition unit. The summary
また、第3の実施の形態では、第2の実施の形態と同様の構成であるが、それぞれの要約構成単位を認定するためのコストが設定できる要約構成単位認定パタン304を用いる点が異なる。これについては、第10の実施の形態の実施例において詳細に説明する。
In the third embodiment, the configuration is the same as that of the second embodiment, except that a summary configuration
次に、本発明の第4〜第7、第9の実施の形態の実施例について図面を参照して詳細に説明する。 Next, examples of the fourth to seventh and ninth embodiments of the present invention will be described in detail with reference to the drawings.
図12は、要約構成単位補完修正パタン606、要約構成単位補完修正パタン907の例を示す説明図である。
FIG. 12 is an explanatory diagram illustrating an example of the summary constituent unit
第4の実施の形態における要約構成単位認定用言語知識情報405、および、要約構成単位補完修正用言語知識情報406、あるいは、第5の実施の形態における要約構成単位認定用言語知識情報505、および要約構成単位補完修正用言語知識情報506、の具体的な実施の一例が第6の実施の形態における要約構成単位認定パタン605、および要約構成単位補完修正パタン606であるため、ここでは、第6の実施の形態について説明する。
Summary component unit recognition
まず、要約構成単位の認定手段601が、入力テキストの各文に対して要約構成単位認定パタン605を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。このとき、テキスト中に「映画ファンは映画館には足を運ばなくなり、レンタルビデオで済ませるようになった。」という文が存在し、また要約構成単位認定パタン605が、図11中に示すようなものであったとする。
First, the summary constituent unit recognition means 601 uses the summary constituent
すると、テキスト中の文は、図11中のパタン2の照合条件に適合し、その結果として、要約構成単位S1とS2に相当する「映画ファンは映画館には足を運ばなくなる。」と「レンタルビデオで済ませるようになった。」がそれぞれ要約構成単位として得られる。
Then, the sentence in the text conforms to the matching condition of
次に、要約構成単位の補完修正手段602が、要約構成単位補完修正パタン606を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に補完する、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する。
Next, the summary composition unit complement correction means 602 applies the summary composition unit
このとき、要約構成単位補完修正パタン606が、図12中に示すようなものであったとする。各パタンは文もしくは要約構成単位に対してパタンを適用するかどうかの条件を記述した「照合条件」と、適用によって補完修正が行われた結果として得られる要約構成単位の形態を記述した「補完修正」とから構成されている。照合条件における「S」は、パタンを適用する対象である、要約構成単位の列で表現された文の単位を現し、「S1」、「Sk」、「Sn」は、「S1=」、「Sk=」、「Sn=」で定義された式に照合するS中の要約構成単位を表す。ここでS1は、図12のパタン2の照合条件に適合するので補完修正を適用する。ここでは、S2の時制が過去であるため、S1の補完修正の結果として「映画ファンは映画館には足を運ばなくなった。」を得る。また、S2はパタン1の照合条件に適合するので同様に補完修正を適用する。
At this time, it is assumed that the summary structural unit
ここで、PはS1の主語「映画ファン」に照合しているので、S2の補完修正の結果として「映画ファンはレンタルビデオで済ませるようになった。」を得る。さらに、要約構成単位の重要度計算手段603が、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、要約結果出力手段604が、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。 Here, P is collated with the subject “movie fan” of S1, and as a result of the complementary correction of S2, “movie fans can now use rental videos” is obtained. Further, the importance calculation means 603 of the summary constituent unit performs the position, clue word, title, word in the text of the summary constituent unit with respect to the summary constituent unit in which these information is appropriately complemented or corrected in expression. The importance of each summary component in the text is calculated using information such as importance and keywords, and finally, the most important summary component is ordered in order based on the importance for each summary component. The summary results output means 604 arranges the extracted summary constituent units in the order of appearance in the original text and outputs the summary results until the summary length requested by the user is reached.
また、第5の実施の形態では、第6の実施の形態とほぼ同様の構成であるが、要約構成単位の補完修正手段602が、要約構成単位の重要度計算手段603よりも前に実施される点が異なる。このため、第4、第6の実施の形態においては補完修正の結果が重要度計算に影響を与えるが、第5の実施の形態では影響を与えない点が異なる。
Further, in the fifth embodiment, the configuration is almost the same as that of the sixth embodiment, but the summary component unit
また、第7の実施の形態では、第6の実施の形態と同様の構成であるが、それぞれの要約構成単位を補完修正するためのコストが設定できる要約構成単位補完修正パタン706を用いる点が異なる。これについては、第10の実施の形態の実施例において詳細に説明する。
In the seventh embodiment, the configuration is the same as that of the sixth embodiment, except that the summary unit
また、第9の実施の形態では、第6の実施の形態とほぼ同様の構成であるが、隣接する要約構成単位における表現の還元手段904が加わっている点が異なっている。例文「映画ファンは映画館には足を運ばなくなり、レンタルビデオで済ませるようになった。」に対して、第6の実施の形態と第9の実施の形態では共に、「映画ファンは映画館には足を運ばなくなった。」、および、「映画ファンはレンタルビデオで済ませるようになった。」の二つの要約構成単位を得るが、両者とも要約中に抽出される場合、第9の実施の形態では、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、隣接する要約構成単位間での補完や修正については元の表現を用いるため、「映画ファンは映画館には足を運ばなくなり、レンタルビデオで済ませるようになった。」が要約に出力される点が異なる。 The ninth embodiment has substantially the same configuration as that of the sixth embodiment, except that expression reduction means 904 is added in adjacent summary constituent units. In the sixth embodiment and the ninth embodiment, in contrast to the example sentence “movie fans are no longer going to the movie theaters, they can now use rental videos”. If you get two summarization units, “movie fans are now able to do rental videos,” both of which are extracted during the summarization, the ninth implementation In the case of the above, when the summary unit adjacent in the summary is adjacent in the same sentence of the original document, since the original expression is used for complementation and correction between the adjacent summary units, It ’s different from the fact that it ’s no longer necessary to go to the pavilion and it ’s done with rental videos. ”
次に、本発明の第8の実施の形態の実施例について図面を参照して詳細に説明する。 Next, an example of the eighth embodiment of the present invention will be described in detail with reference to the drawings.
図13は、要約構成単位認定パタン805の例を示す説明図である。
FIG. 13 is an explanatory diagram illustrating an example of the summary constituent
要約構成単位の認定手段801では、まず、入力テキストの各文に対して要約構成単位を認定し、さらに、それぞれ認定される要約構成単位の間における接続関係や引用関係を認定し、要約構成単位認定パタン805を用いて、述部を含む節を最小とする単位を要約構成単位として認定し、さらにそれぞれの要約構成単位を抽出する際にこれらの関係を考慮した抽出順序に関する制約を設定する。
The summary component unit recognition means 801 first recognizes the summary component unit for each sentence of the input text, and further recognizes the connection relationship and the citation relationship between the recognized summary component units. Using the
たとえば、テキスト中に「寿命に関わる遺伝子が解明されれば、不老長寿の薬は実現すると思う。」という文が存在し、また、要約構成単位認定パタン805が、図13に示すようなものであったとする。パタンは、「照合条件」、「要約構成単位」の他に、「抽出順序制約」が加わっている。例文に対してはパタン3が照合し、その結果として要約構成単位S1とS2に相当する「寿命に関わる遺伝子が解明され。」と「不老長寿の薬は実現すると思う。」がそれぞれ要約構成単位として得られる。パタン3における抽出順序制約における表現「S2>S1」は、要約構成単位として得られるS1とS2を要約に抽出する際、S1を抽出する場合は必ずS2を伴って抽出するという制約を表現している。
For example, there is a sentence in the text that says “If a gene related to lifespan is elucidated, a drug for longevity and longevity will be realized”, and the summary structural
要約構成単位の重要度計算手段802が、テキスト中における各要約構成単位の重要度を計算し、要約構成単位の抽出順序に関する制約の設定手段803が、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、それぞれの要約構成単位間の関係を考慮した抽出順序に関する制約も考慮して抽出し、最後に、要約結果出力手段804が、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
The summary component
次に、本発明の第10の実施の形態の実施例について図面を参照して詳細に説明する。 Next, an example of the tenth embodiment of the present invention will be described in detail with reference to the drawings.
図15は、要約構成単位補完修正パタン706、要約構成単位補完修正パタン1007の例を示す説明図である。
FIG. 15 is an explanatory diagram illustrating an example of the summary constituent unit
図16は、要約文候補の例を示す説明図である。 FIG. 16 is an explanatory diagram illustrating an example of summary sentence candidates.
たとえば、テキスト中に「消費税率引き上げについては、社会党などの理解を得るのは困難な状況であり、首相は「連立という状況の中でのかじ取りであるため、与党合意を得る交渉をしながらギリギリの努力をするしかない。」と釈明した。」という文が存在する。要約文候補の生成手段1001において、まず、要約構成単位認定パタン1006の逐次的な照合で可能なものすべての組み合わせを実施することで、すべての要約構成単位を作成し、これから要約文候補を得る。
For example, in the text, “It is difficult to obtain an understanding of the Socialist Party regarding the consumption tax rate increase, and the prime minister said,“ I have to make an effort. " "Exists. In the summary sentence candidate generation means 1001, first, all the possible combinations are made by sequentially performing the collation of the summary constituent
図14に示す要約構成単位認定パタン1006のうち、まず照合可能なのは、パタン2とパタン5である。パタン2によって得られる要約構成単位S1、S2から、それぞれ、図16に示す要約文の候補1、および、候補2を得る。図中の候補1は、要約構成単位の補完修正手段1002において、表現補完修正パタンのパタン2が適用されたものを示している。
Of the summary constituent
次に、パタン5の適用によって得られる要約文候補を作成する。パタン5には、抽出順序制約で、要約構成単位S1またはS2を単独で抽出できないため、これらは要約候補とならないがS2に対しては、さらにパタン4の適用が可能である。パタン5のS1は、S2にパタン4を適用して得られる2つのいずれかを伴えば、抽出順序制約を満たすので要約文候補となり得る。
Next, a summary sentence candidate obtained by applying
パタン5のS1とパタン4のS1の組み合わせによって図16に示す候補3を、パタン5のS1とパタン4のS2の組み合わせによって候補4をそれぞれ得る。残された独立な要約文候補は、候補3と候補4にパタン2を適用して得られる要約文候補であり、それぞれの候補にパタン2を適用して得られるS2から、候補5および候補6を得る。各要約文候補へ適用された単位認定パタンのコストの合計値、および各要約文候補へ適用された補完修正パタンのコストの合計値は、要約構成単位の重要度計算手段1003において各要約文候補の重要度と共に、要約文候補の探索手段1004における候補選択に用いる。
要約文候補の探索手段1004は、文ごとに入力文を出力するか、何も出力しないか、もしくは、いずれかの要約文候補を要約中に抽出するかのうちから一つを選択して組み合わせ、利用者の要求する要約長にあった要約の候補を作成する。要約結果出力手段1005は、このようにして得られる要約の候補のうち、要約スコア(要約スコア=重要度の値の合計−α×単位認定コストの合計―β×補完修正コストの合計)の値が最大のものを要約結果として出力する。ここで、α、βはパラメータ(正の実数)をあらわす。 The summary sentence candidate searching means 1004 selects and combines one of the following: outputting an input sentence for each sentence, outputting nothing, or extracting any summary sentence candidate in the summary Then, a summary candidate suitable for the summary length requested by the user is created. The summary result output means 1005 has a summary score (summary score = total importance value−α × total unit accreditation cost−β × sum of supplementary correction costs) among the summary candidates thus obtained. Is output as a summary result. Here, α and β represent parameters (positive real numbers).
αを大きくすると、文への単位認定パタンの適用が抑制されるので、元のテキスト中の文をそのまま要約文として用いる傾向が強くなり、βを大きくすると、コストの大きい補完修正パタンが適用された要約文候補の要約中での出現が抑制されるので、信頼度の低い補完修正に大きなコストを与えることによって、信頼度の低い補完修正を行った要約文候補が出現しない傾向が強くなる。ここで示した要約スコアの計算式は一例であり、これ以外のものを用いても良い。 Increasing α suppresses the application of the unit recognition pattern to sentences, so the tendency to use the sentences in the original text as a summary sentence becomes stronger, and increasing β increases the costly complementary correction pattern. Since the appearance of the summary sentence candidate in the summary is suppressed, the tendency that the summary sentence candidate subjected to the correction with low reliability does not appear is increased by giving a large cost to the correction with low reliability. The formula for calculating the summary score shown here is an example, and other formulas may be used.
次に、本発明の第11の実施の形態について図面を参照して説明する。 Next, an eleventh embodiment of the present invention will be described with reference to the drawings.
本発明の第11の実施の形態は、図1〜図10の各手段を各手順とする方法である。 The eleventh embodiment of the present invention is a method in which each means shown in FIGS.
次に、本発明の第12の実施の形態について図面を参照して説明する。 Next, a twelfth embodiment of the present invention will be described with reference to the drawings.
本発明の第12の実施の形態は、本発明の第11の実施の形態の各手順をコンピュータに実行させるプログラムである。 The twelfth embodiment of the present invention is a program that causes a computer to execute the procedures of the eleventh embodiment of the present invention.
101 要約構成単位の認定手段
102 要約構成単位の重要度計算手段
103 要約結果出力手段
104 要約構成単位認定用言語知識情報
201 要約構成単位の認定手段
202 要約構成単位の重要度計算手段
203 要約結果出力手段
204 要約構成単位認定パタン
301 要約構成単位の認定手段
302 要約構成単位の重要度計算手段
303 要約結果出力手段
304 要約構成単位認定パタン
401 要約構成単位の認定手段
402 要約構成単位の補完修正手段
403 要約構成単位の重要度計算手段
404 要約結果出力手段
405 要約構成単位認定用言語知識情報
406 要約構成単位補完修正用言語知識情報
501 要約構成単位の認定手段
502 要約構成単位の重要度計算手段
503 要約構成単位の補完修正手段
504 要約結果出力手段
505 要約構成単位認定用言語知識情報
506 要約構成単位補完修正用言語知識情報
601 要約構成単位の認定手段
602 要約構成単位の補完修正手段
603 要約構成単位の重要度計算手段
604 要約結果出力手段
605 要約構成単位認定パタン
606 要約構成単位補完修正パタン
701 要約構成単位の認定手段
702 要約構成単位の補完修正手段
703 要約構成単位の重要度計算手段
704 要約結果出力手段
705 要約構成単位認定パタン
706 要約構成単位補完修正パタン
801 要約構成単位の認定手段
802 要約構成単位の重要度計算手段
803 要約構成単位の抽出順序に関する制約の設定手段
804 要約結果出力手段
805 要約構成単位認定パタン
901 要約構成単位の認定手段
902 要約構成単位の補完修正手段
903 要約構成単位の重要度計算手段
904 隣接する要約構成単位における表現の還元手段
905 要約結果出力手段
906 要約構成単位認定パタン
907 要約構成単位補完修正パタン
1001 要約文候補の生成手段
1002 要約構成単位の補完修正手段
1003 要約構成単位の重要度計算手段
1004 要約文候補の探索手段
1005 要約結果出力手段
1006 要約構成単位認定パタン
1007 要約構成単位補完修正パタン
101 Summary constituent unit recognition means 102 Summary constituent unit importance calculation means 103 Summary result output means 104 Summary constituent unit recognition language knowledge information 201 Summary constituent unit recognition means 202 Summary constituent unit importance calculation means 203 Summary result output Means 204 Summarized composition unit recognition pattern 301 Summary composition unit recognition means 302 Summary composition unit importance calculation means 303 Summary result output means 304 Summary composition unit recognition pattern 401 Summary composition unit recognition means 402 Summary composition unit complement correction means 403 Summary constituent unit importance calculation means 404 Summary result output means 405 Summary constituent unit recognition language knowledge information 406 Summary constituent unit complement correction language knowledge information 501 Summary constituent unit recognition means 502 Summary constituent unit importance calculation means 503 Summary Complementary correction means 504 for the composition unit Summary result output means 505 Summary component unit linguistic knowledge information 506 Summary component unit supplemental correction language knowledge information 601 Summary component unit recognition unit 602 Summary unit complement correction unit 603 Summary unit importance calculation unit 604 Summary result output unit 605 Summary Composition unit authorization pattern 606 Summary composition unit complement correction pattern 701 Summary composition unit recognition means 702 Summary composition unit complement correction means 703 Summary composition unit importance calculation means 704 Summary result output means 705 Summary composition unit authorization pattern 706 Summary composition unit Complementary correction pattern 801 Summary composition unit recognition means 802 Summary composition unit importance calculation means 803 Summary composition unit extraction order restriction setting means 804 Summary result output means 805 Summary composition unit authorization pattern 901 Summary composition unit authorization means 902 Summarizing unit supplementary correction means 9 3 Summary component unit importance calculation unit 904 Expression reduction unit 905 Summary result output unit 906 Summary component unit recognition pattern 907 Summary component unit complement correction pattern 1001 Summary sentence candidate generation unit 1002 Summary component unit generation unit 1002 Complement correction means 1003 Summary component unit importance calculation means 1004 Summary sentence candidate search means 1005 Summary result output means 1006 Summary composition unit recognition pattern 1007 Summary composition unit complement correction pattern
Claims (6)
文を入力して、当該入力文と前記照合条件を照合して合致すると、当該入力文から前記照合条件の前記抽出部に相当する部分(相当部分)を抽出して、前記要約構成単位の形態の前記抽出部を前記相当部分で置換して、複数の要約構成単位を得る要約構成単位の認定手段と、
前記認定手段により得られた要約構成単位の重要度を計算する要約構成単位の重要度計算手段と、
前記抽出順序制約に基づいて前記複数の要約構成単位を組み合わせ、所定の要約長の要約の候補を複数作成する探索手段と、
前記探索手段によって作成された要約の候補のうち、要約構成単位の重要度の和が最大のものを要約結果として出力する要約結果出力手段と、
を有することを特徴とするテキスト要約システム。 A collation condition that is a pattern that collates with the entire input sentence, and that includes an extraction unit that is a pattern that collates with a clause that includes a statement predicate in the pattern, and includes the extraction unit Restrictions on the extraction order when extracting summary composition units from sentences containing connection relations and citation relations using the summary composition unit patterns and the summary composition unit patterns that correspond to the forms of multiple summary composition units were defined. A summary unit recognition pattern storage unit for storing extraction order constraints;
When a sentence is input and the input sentence and the collation condition are collated and matched, a part (corresponding part) corresponding to the extraction part of the collation condition is extracted from the input sentence, and the form of the summary constituent unit A recognizing unit for summarizing constituent units to obtain a plurality of summarizing constituent units by replacing the extraction unit of
The importance calculation means for the summary constituent unit for calculating the importance of the summary constituent unit obtained by the authorization means;
Search means for combining the plurality of summary constituent units based on the extraction order constraint to create a plurality of summary candidates having a predetermined summary length;
Among the summary candidates created by the search means, summary result output means for outputting the sum of the importance of the summary constituent units as a summary result;
A text summarization system characterized by comprising:
前記重要度計算手段は、さらに前記要約構成単位の重要度の値に、該要約構成単位の認定に使われた要約構成単位認定パタンの適用コストに対応する信頼度の値を加えた、要約構成単位のスコアを計算し、
前記要約結果出力手段は、前記探索手段によって作成された要約の候補のうち、前記要約構成単位のスコアの和が最大のものを要約結果として出力する、
ことを特徴とする請求項1に記載のテキスト要約システム。 The summary constituent unit certification pattern stored in the summary constituent unit certification pattern storage unit further includes an application cost of the summary constituent unit certification pattern,
The importance calculation means further adds a value of reliability corresponding to the application cost of the summary composition unit certification pattern used for the certification of the summary composition unit to the importance value of the summary composition unit. Calculate the unit score,
The summary result output means outputs, as a summary result, a sum of the scores of the summary constituent units that is the maximum among the summary candidates created by the search means.
The text summarization system according to claim 1.
文を入力して、当該入力文と前記照合条件を照合して合致すると、当該入力文から前記照合条件の前記抽出部に相当する部分(相当部分)を抽出して、前記要約構成単位の形態の前記抽出部を前記相当部分で置換して、複数の要約構成単位を取得し、
前記複数の要約構成単位の重要度を計算する重要度計算処理を行い、
前記抽出順序制約に基づいて前記複数の要約構成単位を組み合わせ、所定の要約長の要約の候補を複数作成し、
前記複数作成された要約の候補のうち、要約構成単位の重要度の和が最大のものを要約結果として出力する要約結果出力処理を行う、
ことを特徴とするテキスト要約方法。 A collation condition that is a pattern that collates with the entire input sentence, and that includes an extraction unit that is a pattern that collates with a clause that includes a statement predicate in the pattern, and includes the extraction unit Restrictions on the extraction order when extracting summary composition units from sentences containing connection relations and citation relations using the summary composition unit patterns and the summary composition unit patterns that correspond to the forms of multiple summary composition units were defined. Read out the extraction order constraints from the summary unit recognition pattern storage unit,
When a sentence is input and the input sentence and the collation condition are collated and matched, a part (corresponding part) corresponding to the extraction part of the collation condition is extracted from the input sentence, and the form of the summary constituent unit Substituting the corresponding extraction part with the corresponding part to obtain a plurality of summary constituent units,
Performing importance calculation processing for calculating the importance of the plurality of summary constituent units;
Combining the plurality of summary units based on the extraction order constraint, creating a plurality of candidates for a summary of a predetermined summary length;
A summary result output process is performed to output a summary result having a maximum sum of importance of summary constituent units among the plurality of created summary candidates.
A text summarization method characterized by that.
前記重要度計算処理において、さらに前記要約構成単位の重要度の値に、該要約構成単位の認定に使われた要約構成単位認定パタンの適用コストに対応する信頼度の値を加えた、要約構成単位のスコアを計算し、
前記要約結果出力処理において、前記作成された要約の候補のうち、前記要約構成単位のスコアの和が最大のものを要約結果として出力する、
ことを特徴とする請求項3に記載のテキスト要約方法。 The summary constituent unit certification pattern stored in the summary constituent unit certification pattern storage unit further includes an application cost of the summary constituent unit certification pattern,
In the importance calculation process, a summary configuration obtained by adding a reliability value corresponding to the application cost of the summary configuration unit recognition pattern used for the certification of the summary configuration unit to the importance value of the summary configuration unit Calculate the unit score,
In the summary result output process, among the created summary candidates, the sum of the scores of the summary constituent units is output as a summary result.
The text summarization method according to claim 3.
文を入力して、当該入力文と前記照合条件を照合して合致すると、当該入力文から前記照合条件の前記抽出部に相当する部分(相当部分)を抽出して、前記要約構成単位の形態の前記抽出部を前記相当部分で置換して、複数の要約構成単位を得る要約構成単位の認定ステップと、
前記認定ステップにより得られた要約構成単位の重要度を計算する要約構成単位の重要度計算ステップと、
前記抽出順序制約に基づいて前記複数の要約構成単位を組み合わせ、所定の要約長の要約の候補を複数作成する探索ステップと、
前記探索ステップによって作成された要約の候補のうち、要約構成単位の重要度の和が最大のものを要約結果として出力する要約結果出力ステップと、
をコンピュータに実行させることを特徴とするテキスト要約プログラム。 A collation condition that is a pattern that collates with the entire input sentence, and that includes an extraction unit that is a pattern that collates with a clause that includes a statement predicate in the pattern, and includes the extraction unit Restrictions on the extraction order when extracting summary composition units from sentences containing connection relations and citation relations using the summary composition unit patterns and the summary composition unit patterns that correspond to the forms of multiple summary composition units were defined. Read out the extraction order constraints from the summary unit recognition pattern storage unit,
When a sentence is input and the input sentence and the collation condition are collated and matched, a part (corresponding part) corresponding to the extraction part of the collation condition is extracted from the input sentence, and the form of the summary constituent unit And replacing the extraction unit with the corresponding part to obtain a plurality of summary constituent units,
A summary component unit importance calculation step for calculating a summary component unit importance obtained by the authorization step;
A search step of combining a plurality of summary units based on the extraction order constraint to create a plurality of summary candidates having a predetermined summary length;
A summary result output step for outputting, as a summary result, a summary sum of importance of summarization units among the summary candidates created by the search step;
A text summarization program for causing a computer to execute.
前記重要度計算ステップは、さらに前記要約構成単位の重要度の値に、該要約構成単位の認定に使われた要約構成単位認定パタンの適用コストに対応する信頼度の値を加えた、要約構成単位のスコアを計算し、
前記要約結果出力ステップは、前記探索ステップによって作成された要約の候補のうち、前記要約構成単位のスコアの和が最大のものを要約結果として出力する、
ことを特徴とする請求項5に記載のテキスト要約プログラム。 The summary constituent unit certification pattern stored in the summary constituent unit certification pattern storage unit further includes an application cost of the summary constituent unit certification pattern,
The importance calculation step further includes a summary configuration in which a reliability value corresponding to the application cost of the summary configuration unit certification pattern used for the certification of the summary configuration unit is added to the importance value of the summary configuration unit. Calculate the unit score,
The summary result output step outputs, as a summary result, the sum of the scores of the summary constituent units among the summary candidates created by the search step,
The text summarization program according to claim 5, wherein:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009069852A JP2009146447A (en) | 2009-03-23 | 2009-03-23 | Text summarization system, text summarization method, and text summarization program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009069852A JP2009146447A (en) | 2009-03-23 | 2009-03-23 | Text summarization system, text summarization method, and text summarization program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002281212A Division JP2004118545A (en) | 2002-09-26 | 2002-09-26 | Text summary system, text summary method and text summary program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009146447A true JP2009146447A (en) | 2009-07-02 |
Family
ID=40916902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009069852A Pending JP2009146447A (en) | 2009-03-23 | 2009-03-23 | Text summarization system, text summarization method, and text summarization program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009146447A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014528620A (en) * | 2011-10-14 | 2014-10-27 | ヤフー! インコーポレイテッド | Method and apparatus for automatically summarizing the contents of an electronic document |
CN108268623A (en) * | 2018-01-09 | 2018-07-10 | 顺丰科技有限公司 | A kind of Text Extraction, device, equipment and medium |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0713967A (en) * | 1992-09-25 | 1995-01-17 | Maruzen Kk | Abstract sentence generator |
JPH08212228A (en) * | 1995-02-02 | 1996-08-20 | Sanyo Electric Co Ltd | Summarized sentence generation device and summarized voice generation device |
JPH08255172A (en) * | 1995-03-16 | 1996-10-01 | Toshiba Corp | Document retrieval system |
JPH1063658A (en) * | 1996-08-22 | 1998-03-06 | Nippon Hoso Kyokai <Nhk> | Natural language processor and its method |
JPH10207891A (en) * | 1997-01-17 | 1998-08-07 | Fujitsu Ltd | Document summarizing device and its method |
-
2009
- 2009-03-23 JP JP2009069852A patent/JP2009146447A/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0713967A (en) * | 1992-09-25 | 1995-01-17 | Maruzen Kk | Abstract sentence generator |
JPH08212228A (en) * | 1995-02-02 | 1996-08-20 | Sanyo Electric Co Ltd | Summarized sentence generation device and summarized voice generation device |
JPH08255172A (en) * | 1995-03-16 | 1996-10-01 | Toshiba Corp | Document retrieval system |
JPH1063658A (en) * | 1996-08-22 | 1998-03-06 | Nippon Hoso Kyokai <Nhk> | Natural language processor and its method |
JPH10207891A (en) * | 1997-01-17 | 1998-08-07 | Fujitsu Ltd | Document summarizing device and its method |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014528620A (en) * | 2011-10-14 | 2014-10-27 | ヤフー! インコーポレイテッド | Method and apparatus for automatically summarizing the contents of an electronic document |
CN108268623A (en) * | 2018-01-09 | 2018-07-10 | 顺丰科技有限公司 | A kind of Text Extraction, device, equipment and medium |
CN108268623B (en) * | 2018-01-09 | 2022-06-03 | 顺丰科技有限公司 | Text extraction method, device, equipment and medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI664540B (en) | Search word error correction method and device, and weighted edit distance calculation method and device | |
KR102268875B1 (en) | System and method for inputting text into electronic devices | |
US8543374B2 (en) | Translation system combining hierarchical and phrase-based models | |
US9047275B2 (en) | Methods and systems for alignment of parallel text corpora | |
JP5071373B2 (en) | Language processing apparatus, language processing method, and language processing program | |
CN110276071B (en) | Text matching method and device, computer equipment and storage medium | |
US20140350913A1 (en) | Translation device and method | |
EP2643770A2 (en) | Text segmentation with multiple granularity levels | |
More et al. | Joint transition-based models for morpho-syntactic parsing: Parsing strategies for MRLs and a case study from modern Hebrew | |
JP6955963B2 (en) | Search device, similarity calculation method, and program | |
Sagae et al. | HPSG parsing with shallow dependency constraints | |
US8065283B2 (en) | Term synonym generation | |
Popowich et al. | Machine translation of closed captions | |
Kato et al. | BERT-based simplification of Japanese sentence-ending predicates in descriptive text | |
KR101064950B1 (en) | Apparatus and Method for Translation-Error Post-Editing | |
WO2009113505A1 (en) | Video splitting device, method, and program | |
JP2009146447A (en) | Text summarization system, text summarization method, and text summarization program | |
JP5623380B2 (en) | Error sentence correcting apparatus, error sentence correcting method and program | |
Roark et al. | Finite-state chart constraints for reduced complexity context-free parsing pipelines | |
JP2006004366A (en) | Machine translation system and computer program for it | |
JP4007413B2 (en) | Natural language processing system, natural language processing method, and computer program | |
JP5366849B2 (en) | Function expression complementing apparatus, method and program | |
JP2009146446A (en) | Text summarization system, text summarization method, and text summarization program | |
JP2004118545A (en) | Text summary system, text summary method and text summary program | |
JP2009176148A (en) | Unknown word determining system, method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20090512 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20110705 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110927 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120207 |