JP4106470B2 - Solution data editing processing apparatus and processing method - Google Patents
Solution data editing processing apparatus and processing method Download PDFInfo
- Publication number
- JP4106470B2 JP4106470B2 JP2006222723A JP2006222723A JP4106470B2 JP 4106470 B2 JP4106470 B2 JP 4106470B2 JP 2006222723 A JP2006222723 A JP 2006222723A JP 2006222723 A JP2006222723 A JP 2006222723A JP 4106470 B2 JP4106470 B2 JP 4106470B2
- Authority
- JP
- Japan
- Prior art keywords
- solution
- text
- evaluation
- user
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は,機械学習法により文章を自動要約する処理において,編集可能な解データの編集処理および解データを用いる機械学習法を用いた自動要約処理に関する。 The present invention relates to edit processing of editable solution data and automatic summarization processing using a machine learning method using solution data in processing for automatically summarizing sentences by a machine learning method.
近年,情報技術の発展に伴ってコンピュータを用いた文章の自動要約処理が盛んになってきている。しかし,個人的な嗜好や要約結果の用途などにより,所望する要約結果の傾向に相違があると考えられる。 In recent years, with the development of information technology, automatic summarization processing of sentences using computers has become popular. However, it can be considered that there is a difference in the tendency of the desired summary result depending on personal preference and use of the summary result.
例えば,以下の非特許文献1では,複数の者がそれぞれ重要文抽出による要約を行なった結果に対する相互評価の尺度として再現率と適合率とを求めて表4に示している。非特許文献1の表4から明らかなように,20文を抽出する処理の場合に,人−人(評価者相互)の評価(再現率および適合率)は,各評価者A,B,Cの一致度は50〜70%であってあまり高い値とはいえず,要約結果に対する評価に個人差が存在することが推定できる。
For example, in
また,以下の非特許文献2では,サポート・ベクトル・マシン(Support Vector Machine)による重要文抽出処理において,処理セットA,B,Cについて交差検定の精度が最もよいことを表4により示している。非特許文献2の表4に示された交差検定は,同一評価者による処理と同一視でき,セットA,B,Cを作成した者が同一かどうかは不明であるが,少なくとも同一時期もしくは同一人物により学習データを作成したほうが精度が良いということがわかる。
このように,要約結果に対する評価に個人差や用途差が存在すると考えることができることから,機械学習法を用いた自動要約処理においても,同じ評価にもとづいた要約を行なうのではなく,ユーザに特化した要約ができる必要がある。そのために,教師となる解データをユーザが自由に編集できる必要がある。 In this way, it can be considered that there are individual differences and usage differences in the evaluation of the summary results. Therefore, in the automatic summarization process using the machine learning method, the summarization based on the same evaluation is not performed, but the user is specially selected. There is a need for a simplified summary. Therefore, the user must be able to freely edit the solution data to be a teacher.
本発明の目的は,機械学習法で用いる解データとなる要約結果または要約結果に対する評価をユーザが任意に編集できる解データの編集処理を実現することである。および,この解データを用いた機械学習法を用いてユーザごとに特化した要約を行える自動要約処理技術を実現することである。 An object of the present invention is to realize a solution data editing process in which a user can arbitrarily edit a summary result or an evaluation of the summary result as solution data used in the machine learning method. And, it is to realize an automatic summarization processing technology that can perform summarization specialized for each user by using a machine learning method using the solution data.
上記の目的を達成するため,本発明は,予め備えた解データを用いた機械学習処理に対してユーザがどのような要約結果を高く評価したかの情報をフィードバックするために,ユーザが要約結果やその評価を編集できるようにする。また,ユーザが編集した解データのフィードバックにより,機械学習処理においてユーザごとの特性を学習し,ユーザに特化した要約を行なうことができるようにするものである。 In order to achieve the above-described object, the present invention provides a method for the user to summarize information about what kind of summary result the user highly appreciated for the machine learning process using solution data prepared in advance. And edit its rating. In addition, by feedback of solution data edited by the user, the characteristics for each user are learned in the machine learning process, and the user-specific summarization can be performed.
本発明は,文書データであるテキストを機械学習法により自動要約する処理で用いる解データを編集する解データ編集処理装置であって,1)文書データであるテキストを記憶するテキスト記憶手段と,2)前記テキスト記憶手段から取得したテキストを表示装置に表示し,前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約として表示する要約表示手段と,3)要約の評価として使用される要約の特徴を示す情報であって,要約として短い文を重視しているかどうかを示す短文重視の性質,数量についての表現が要約に含まれていることを重視しているかどうかを示す数量表現重視の性質,要約に手法についての表現が含まれていることを重視しているかどうかを示す手法重視の性質,要約の文体を重視しているかどうかを示す文体重視の性質,または要約が読みやすいかどうかを重視していることを示す読みやすさ重視の性質のいずれか2つ以上の性質を含む複数の性質について,当該性質各々に対する評価値を入力する項目を表示し,前記ユーザ指定要約に対する前記性質各々のユーザの評価値の入力を受け付ける評価付与手段と,4)問題および解で構成される解データを記憶する解データ記憶手段と,5)前記テキストおよび前記ユーザ指定要約を問題とし,当該問題に前記ユーザが入力した評価値を解として付与して解データを生成し,前記テキストから文を取り出しあらゆる文の選択の状態を要約候補とする重要文選択処理,前記テキストから文節を取り出しあらゆる文節の選択の状態を要約候補とする重要箇所選択処理,または前記テキストの文を予め定めた変形規則に従って変形し当該変形した状態を要約候補とする変形処理のいずれか1つの処理を行って前記テキストの要約候補を生成し,前記テキストおよび前記要約候補であって前記ユーザ指定要約以外の部分からなる要約候補を問題とし,当該問題に当該要約候補が前記ユーザ指定要約ではないことを示す悪評価を解として付与して解データを生成し,前記ユーザによって入力された評価値を解とする解データおよび前記悪評価を解とする解データを前記解データ記憶手段に出力する評価カスタマイズ手段とを備えることを特徴とする。 The present invention is a solution data editing processing apparatus for editing solution data used in a process of automatically summarizing text as document data by a machine learning method, 1) a text storage means for storing text as document data; 3) summary display means for displaying the text acquired from the text storage means on a display device, extracting sentence data in a range specified by the user from the text, and displaying it as a user-specified summary of the text; Is information indicating the characteristics of the summary used as an evaluation, and whether the importance is attached to the fact that the short sentence is emphasized as a summary and the fact that the expression includes quantity is included in the summary Quantitative expression-oriented nature that indicates, method-oriented nature that indicates whether the summary includes expressions about the technique, About two or more properties including two or more properties, either a style-oriented property that indicates whether or not a particular style is emphasized, or a readability-oriented property that indicates whether a summary is easy to read , An item for inputting an evaluation value for each property, and an evaluation giving means for receiving an input of the evaluation value of the user for each property with respect to the user-specified summary; Solution data storage means for performing 5) a problem with the text and the user-specified summary, giving an evaluation value input by the user to the problem as a solution, generating solution data, and extracting a sentence from the text key sentence selection process to the selection of the state candidate condensates, important passage election to the state of the selection of any clauses removed phrase and candidate condensates from the text Processing, or the modification of the statement text in accordance with a predetermined transformation rule carried out any one of process variants a process for the summary candidates while the deformation generates a summary candidate of the text, the text and the summary A candidate candidate that is a summary candidate other than the user-specified summary is used as a problem, and solution data is generated by giving a bad evaluation indicating that the summary candidate is not the user-specified summary to the problem as a solution, It comprises an evaluation customization means for outputting solution data whose solution is an evaluation value input by a user and solution data whose solution is the bad evaluation to the solution data storage means.
また,本発明は,文書データであるテキストを機械学習法を用いて自動要約する自動要約処理装置であって,1)テキストおよび前記テキストの要約を記憶するテキスト記憶手段と,2)前記要約を表示装置に表示する要約表示処理手段と,3)前記要約に対するユーザの評価の入力を受け付けて前記要約の評価とする評価設定処理手段と,4)前記テキストおよび前記要約で構成される問題に対し前記評価を解として付与して生成した解データを解データ記憶手段に記憶する解データ出力処理手段と,5)前記解データから前記問題の素性の集合と前記解との組を抽出し,当該組から,どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と,6)要約対象のテキストを入力し,前記入力テキストから要約候補を生成する要約候補生成処理手段と,7)前記入力テキストおよび前記要約候補から素性の集合を抽出し,当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定し,要約候補と推定解との対を生成する要約候補−推定解対生成処理手段と,8)前記要約候補−推定解対から,推定解が所定の良い評価でかつ確信度が最高の対を選択し,当該対の要約候補を要約とする要約選択処理手段とを備える。 The present invention also provides an automatic summarization processing device for automatically summarizing text, which is document data, using a machine learning method, and includes 1) text storage means for storing the text and the text summary, and 2) the summary. Summary display processing means for displaying on a display device, 3) evaluation setting processing means for accepting an input of a user's evaluation for the summary and evaluating the summary, and 4) for the problem composed of the text and the summary Solution data output processing means for storing solution data generated by giving the evaluation as a solution in solution data storage means; 5) extracting a set of feature features of the problem and the solution from the solution data; Machine learning processing means for storing in the learning result data storage means learning result data for learning what kind of solution is likely to be obtained from the set, and 6) summary object Summary candidate generation processing means for inputting a text and generating a summary candidate from the input text; and 7) what kind of solution is likely to be obtained from the feature set by extracting a set of features from the input text and the summary candidate 8) summary candidate-estimated solution pair generation processing means for generating a pair of summary candidate and estimated solution based on the learning result data, and 8) an estimated solution is determined from the summary candidate-estimated solution pair Summarization selection processing means for selecting a pair with good evaluation and having the highest certainty factor, and summarizing the pair of candidate candidates.
本発明は,テキスト記憶手段に記憶されたテキストの要約を表示装置に表示し,前記要約に対するユーザの評価の入力を受け付けて前記要約の評価とする。そして,前記テキストおよび前記要約で構成される問題に対し前記評価を解として付与して生成した解データを解データ記憶手段に記憶し,前記解データから前記問題の素性の集合と前記解との組を抽出し,当該組から,どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する。 According to the present invention, a summary of text stored in the text storage means is displayed on a display device, and an input of a user's evaluation for the summary is received and the summary is evaluated. Then, solution data generated by assigning the evaluation as a solution to the problem composed of the text and the summary is stored in a solution data storage means, and a set of feature features of the problem and the solution are determined from the solution data. A pair is extracted, and learning result data obtained by learning what kind of solution is likely to be obtained from the pair is stored in the learning result data storage unit.
その後,要約対象のテキストを入力し,前記入力テキストから要約候補を生成し,前記入力テキストおよび前記要約候補から素性の集合を抽出し,当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定し,要約候補と推定解との対(要約候補−推定解対)を生成する。そして,前記要約候補−推定解対から,推定解が所定の良い評価でかつ確信度が最高の対を選択し,当該対の要約候補を要約とする。 After that, a text to be summarized is input, a summary candidate is generated from the input text, a set of features is extracted from the input text and the summary candidate, and what kind of solution is likely to be obtained from the set of features is learned. Estimate based on the result data, and generate a pair of summary candidate and estimated solution (summary candidate-estimated solution pair). Then, from the summary candidate-estimated solution pair, a pair whose estimated solution has a predetermined good evaluation and the highest certainty factor is selected, and the summary candidate of the pair is used as a summary.
これにより,表示した要約に対するユーザの評価を用いてユーザが良いと考える要約を機械学習し,その後に入力したテキストについてユーザに特化した要約を行うことができる。 This makes it possible to machine-learn a summary that the user considers good using the user's evaluation of the displayed summary, and to perform a user-specific summary on the text that is input thereafter.
または,本発明は,1)テキストを記憶するテキスト記憶手段と,2)前記テキストを表示装置に表示するテキスト表示処理手段と,3)前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする要約編集処理手段と,4)所定の規則に基づいて要約を生成する処理もしくは機械学習法を用いて要約を生成する処理のいずれかの自動要約生成処理により前記テキストの要約を生成し,前記テキストおよび前記ユーザ指定要約で構成される問題に対し前記ユーザによって選ばれた良い要約であることを示す所定の良い評価を解として付与して生成した解データと,前記テキストおよび前記自動要約生成処理による要約であって前記ユーザ指定要約以外の部分からなるもので構成される問題に対し前記ユーザ指定要約ではないことを示す所定の悪い評価を解として付与して生成した解データとを解データ記憶手段に記憶する解データ出力処理手段と,5)前記解データから前記問題の素性の集合と前記解との組を抽出し,当該組から,どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と,6)要約対象のテキストを入力し,前記入力テキストから要約候補を生成する要約候補生成処理手段と,7)前記入力テキストおよび前記要約候補から素性の集合を抽出し,当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定し,要約候補と推定解との対を生成する要約候補−推定解対生成処理手段と,8)前記要約候補−推定解対から,推定解が所定の良い評価でかつ確信度が最高の対を選択し,当該対の要約候補を要約とする要約選択処理手段とを備える。 Alternatively, the present invention includes 1) text storage means for storing text, 2) text display processing means for displaying the text on a display device, and 3) extracting sentence data in a range designated by the user from the text. A summary editing processing means for providing a user-specified summary of the text, and 4) an automatic summary generation process of either a process of generating a summary based on a predetermined rule or a process of generating a summary using a machine learning method Solution data generated by generating a summary of a text and giving a predetermined good evaluation as a solution indicating a good summary selected by the user for a problem composed of the text and the user-specified summary; To solve a problem composed of the text and the summary generated by the automatic summary generation process, which is composed of parts other than the user-specified summary. Solution data output processing means for storing, in a solution data storage means, solution data generated by giving a predetermined bad evaluation indicating that it is not the user-specified summary as a solution; 5) from the solution data, A machine learning processing means for extracting a set of the set and the solution, and storing learning result data in the learning result data storage means that learns what kind of solution is likely to be generated from the set; 6) summary candidate generation processing means for inputting a text to be summarized and generating a summary candidate from the input text; and 7) extracting a set of features from the input text and the summary candidate and how from the feature set. A summary candidate-estimated solution pair generation processing means for estimating whether a solution is likely to be a solution based on the learning result data and generating a pair of a summary candidate and an estimated solution; 8) the summary candidate-estimation Of a pair, the estimated solutions and confidence predetermined good evaluation to select the best pair, and a summary selection processing means to summarize the summary candidates of the pair.
本発明は,テキスト記憶手段に記憶されたテキストを表示装置に表示し,前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする。そして,所定の規則に基づいて要約を生成する処理もしくは機械学習法を用いて要約を生成する処理のいずれかの自動要約生成処理により前記テキストの要約を生成し,前記テキストおよび前記ユーザ指定要約で構成される問題に対し前記ユーザによって選ばれた良い要約であることを示す所定の良い評価を解として付与して生成した解データと,前記テキストおよび前記自動要約生成処理による要約であって前記ユーザ指定要約以外の部分からなるもので構成される問題に対し前記ユーザ指定要約ではないことを示す所定の悪い評価を解として付与して生成した解データとを解データ記憶手段に記憶する。さらに,前記解データから前記問題の素性の集合と前記解との組を抽出し,当該組から,どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する。その後,要約対象のテキストを入力し,前記入力テキストから要約候補を生成し,前記入力テキストおよび前記要約候補から素性の集合を抽出し,当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定し,要約候補と推定解との対(要約候補−推定解対)を生成する。そして,前記要約候補−推定解対から,推定解が所定の良い評価でかつ確信度が最高の対を選択し,当該対の要約候補を要約とする。 In the present invention, the text stored in the text storage means is displayed on a display device, and sentence data in a range specified by the user is extracted from the text to obtain a user-specified summary of the text. Then, the summary of the text is generated by an automatic summary generation process of either a process of generating a summary based on a predetermined rule or a process of generating a summary using a machine learning method, and the text and the user-specified summary are Solution data generated by giving a predetermined good evaluation indicating that the problem is a good summary selected by the user as a solution, a summary by the text and the automatic summary generation process, and the user Solution data storage means stores solution data generated by giving a predetermined bad evaluation indicating that it is not the user-specified summary to a problem composed of parts other than the specified summary. Furthermore, a set of the feature of the problem and the solution is extracted from the solution data, and learning result data obtained by learning from the set what kind of solution is likely to become a learning result data Store in the storage means. After that, a text to be summarized is input, a summary candidate is generated from the input text, a set of features is extracted from the input text and the summary candidate, and what kind of solution is likely to be obtained from the set of features is learned. Estimate based on the result data, and generate a pair of summary candidate and estimated solution (summary candidate-estimated solution pair). Then, from the summary candidate-estimated solution pair, a pair whose estimated solution has a predetermined good evaluation and the highest certainty factor is selected, and the summary candidate of the pair is used as a summary.
これにより,表示したテキストからユーザによって抽出された部分をユーザが良いと評価した要約として機械学習し,その後に入力したテキストについてユーザに特化した要約を行うことができる。 As a result, a part extracted by the user from the displayed text can be machine-learned as a summary that the user has evaluated as good, and then the user-specific summary can be performed on the text that has been input thereafter.
または,本発明は,1)テキストおよび前記テキストの要約を記憶するテキスト記憶手段と,2)前記要約を表示装置に表示する要約表示処理手段と,3)前記要約に対するユーザの評価の入力を受け付けて前記要約の評価とする評価設定処理手段と,4)前記テキストおよび前記要約で構成される問題に対し前記ユーザが設定した評価を解として付与した解データを生成し,解データ記憶手段に記憶する解データ出力処理手段と,5)所定の評価のうち前記解となった評価以外の評価を解候補として,前記解データから前記問題の素性の集合と解もしくは解候補との組を抽出し,前記素性の集合と解との組を正例と前記素性の集合と解候補との組を負例とする素性−解対・素性−解候補対抽出処理手段と,6)前記抽出した組を教師信号として,どのような解もしくは解候補と素性の集合のときに正例である確率または負例である確率となるかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と,7)要約対象のテキストを入力し,前記入力テキストから要約候補を生成する要約候補生成処理手段と,8)前記所定の評価を解の候補として,前記入力テキストおよび前記要約候補から素性の集合と解の候補との組を生成し,当該素性の集合と解の候補の組の場合に正例もしくは負例である確率を前記学習結果データをもとに推定し,前記推定した結果を推定解として前記要約候補と解の候補の組と前記推定解との対を生成する要約候補−推定解対生成処理手段と,9)前記要約候補と解の候補の組−推定解対から,解の候補が所定の良い評価でかつ推定解の正例の確率が最高の対を選択し,当該対の要約候補を要約とする要約選択処理手段とを備える。 Alternatively, the present invention includes: 1) text storage means for storing text and a summary of the text; 2) summary display processing means for displaying the summary on a display device; and 3) accepting an input of user evaluation for the summary. Evaluation setting processing means for evaluating the summary; and 4) generating solution data to which the evaluation set by the user is given as a solution to the problem composed of the text and the summary and storing the solution data in the solution data storage means And 5) extracting a set of feature features of the problem and a set of solutions or solution candidates from the solution data by using evaluations other than the evaluation that has become the solution among predetermined evaluations as solution candidates. , A feature-solution pair / feature-solution candidate pair extraction processing means having a positive example as a set of feature sets and solutions and a negative example as a set of feature sets and solution candidates, and 6) the extracted sets The teacher signal and Machine learning processing means for storing learning result data in a learning result data storage means for learning what kind of solution or solution candidate and feature is a probability of being a positive example or a probability of being a negative example; 7) summary candidate generation processing means for inputting a text to be summarized and generating a summary candidate from the input text; 8) a set of features from the input text and the summary candidate using the predetermined evaluation as a solution candidate A set of feature candidates and solution candidates, and in the case of the feature set and solution candidate pair, the probability of being positive or negative is estimated based on the learning result data, and the estimated result is estimated A summary candidate-estimated solution pair generation processing means for generating a pair of the summary candidate, the solution candidate pair and the estimated solution as a solution; 9) a solution from the summary candidate / solution candidate pair-estimated solution pair; Is the candidate's good evaluation? The probability of positive cases estimated solutions to select the best pair, and a summary selection processing means to summarize the summary candidates of the pair.
または,本発明は,1)テキストを記憶するテキスト記憶手段と,2)前記テキストを表示装置に表示するテキスト表示処理手段と,3)前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする要約編集処理手段と,4)所定の規則に基づいて要約を生成する処理もしくは機械学習法を用いて要約を生成する処理のいずれかの自動要約生成処理により前記テキストの要約を生成し,前記テキストおよび前記ユーザ指定要約で構成される問題に対し前記ユーザによって選ばれた良い要約であることを示す所定の良い評価を解として付与して生成した解データと,前記テキストおよび前記自動要約生成処理による要約であって前記ユーザ指定要約以外の部分からなるもので構成される問題に対し前記ユーザ指定要約ではないことを示す所定の悪い評価を解として付与して生成した解データとを解データ記憶手段に記憶する解データ出力処理手段と,5)所定の評価のうち前記解となった評価以外の評価を解候補として,前記解データから前記問題の素性の集合と解もしくは解候補との組を抽出し,前記素性の集合と解との組を正例と前記素性の集合と解候補との組を負例とする素性−解対・素性−解候補対抽出処理手段と,6)前記抽出した組を教師信号として,どのような解もしくは解候補と素性の集合のときに正例である確率または負例である確率となるかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と,7)要約対象のテキストを入力し,前記入力テキストから要約候補を生成する要約候補生成処理手段と,8)前記所定の評価を解の候補として,前記入力テキストおよび前記要約候補から素性の集合と解の候補との組を生成し,当該素性の集合と解の候補の組の場合に正例もしくは負例である確率を前記学習結果データをもとに推定し,前記推定した結果を推定解として前記要約候補と解の候補との組と前記推定解との対を生成する要約候補−推定解対生成処理手段と,9)前記要約候補と解の候補との組−推定解対から,解の候補が所定の良い評価でかつ推定解の正例の確率が最高の対を選択し,当該対の要約候補を要約とする要約選択処理手段とを備える。 Alternatively, the present invention includes 1) text storage means for storing text, 2) text display processing means for displaying the text on a display device, and 3) extracting sentence data in a range designated by the user from the text. A summary editing processing means for providing a user-specified summary of the text, and 4) an automatic summary generation process of either a process of generating a summary based on a predetermined rule or a process of generating a summary using a machine learning method Solution data generated by generating a summary of a text and giving a predetermined good evaluation as a solution indicating a good summary selected by the user for a problem composed of the text and the user-specified summary; To solve a problem composed of the text and the summary generated by the automatic summary generation process, which is composed of parts other than the user-specified summary. Solution data output processing means for storing, in a solution data storage means, solution data generated by giving a predetermined bad evaluation indicating that it is not the user-specified summary as a solution; and 5) the solution of the predetermined evaluation. A set of feature features and solutions or solution candidates of the problem is extracted from the solution data with evaluations other than the evaluation as solution candidates, and a set of the feature set and solution is defined as a positive example and the feature set. Feature-solution pair / feature-solution candidate pair extraction processing means having a pair with a solution candidate as a negative example; 6) What kind of solution or set of solution candidates and features is the extracted pair as a teacher signal Machine learning processing means for storing in the learning result data storage means learning result data that has been learned whether the probability is a positive example or a negative example, and 7) a text to be summarized is input and summarization is performed from the input text. Summarization that generates candidates And 8) generating a set of feature sets and solution candidates from the input text and the summary candidates using the predetermined evaluation as a solution candidate, and generating a set of the feature set and solution candidates. In this case, the probability of being a positive example or a negative example is estimated based on the learning result data, and a pair of the summary candidate and the solution candidate and the estimated solution is generated using the estimated result as an estimated solution. The summary candidate-estimated solution pair generation processing means, and 9) the pair of the summary candidate and the solution candidate-estimated solution pair, the solution candidate has a predetermined good evaluation and the probability of the positive example of the estimated solution is the highest. And summary selection processing means for summarizing the pair of summary candidates.
または,本発明は,1)テキストを記憶するテキスト記憶手段と,2)前記テキストを表示装置に表示するテキスト表示処理手段と,3)前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする要約編集処理手段と,4)前記テキストを問題とし前記問題に対する前記ユーザ指定要約を解とする解データを生成し解データ記憶手段に記憶する解データ出力処理手段と,5)前記解データから前記問題の素性の集合と前記解との組を抽出し,当該組から,どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と,6)要約対象のテキストを入力し,前記入力テキストから素性の集合を抽出し,当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定する解推定処理手段と,7)前記解推定処理手段で推定された解を前記入力テキストの要約として出力する要約選択処理手段とを備える。 Alternatively, the present invention includes 1) text storage means for storing text, 2) text display processing means for displaying the text on a display device, and 3) extracting sentence data in a range designated by the user from the text. Summary edit processing means for providing a user-specified summary of the text; and 4) solution data output processing means for generating solution data having the text as a problem and solving the user-specified summary for the problem and storing the solution data in a solution data storage means 5) A set of feature features and the solution of the problem are extracted from the solution data, and learning result data is learned from the set to learn what kind of solution is likely to become a solution. Machine learning processing means for storing in the result data storage means, 6) inputting a text to be summarized, extracting a set of features from the input text, and collecting the feature set Solution estimation processing means for estimating what kind of solution is likely to be based on the learning result data, and 7) summary selection processing means for outputting the solution estimated by the solution estimation processing means as a summary of the input text With.
これにより,表示した要約に対するユーザの評価を用いて要約処理を機械学習し,入力したテキストについてユーザに特化した要約を行うことができる。 As a result, it is possible to perform machine learning of the summarization process using the user's evaluation on the displayed summaries, and to perform user-specific summarization on the input text.
または,本発明は,1)テキストを記憶するテキスト記憶手段と,2)前記テキストを表示装置に表示するテキスト表示処理手段と,3)前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする要約編集処理手段と,4)前記テキストを問題とし前記問題に対する前記ユーザ指定要約を解とする解データを生成し解データ記憶手段に記憶する解データ出力処理手段と,5)所定の規則に基づいて要約を生成する処理もしくは機械学習法を用いて要約を生成する処理のいずれかの自動要約生成処理により前記テキストの要約を生成し,前記要約のうち前記ユーザ指定要約以外の部分からなるものを解候補とし,前記解データから解もしくは解候補と前記問題の素性の集合との組を抽出し,前記素性の集合と解との組を正例と前記素性の集合と解候補との組を負例とする素性−解対・素性−解候補対抽出処理手段と,6)前記抽出した組を教師信号として,どのような解もしくは解候補と素性の集合のときに正例である確率または負例である確率となるかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と,7)要約対象のテキストを入力し,前記入力テキストから要約候補を生成する要約候補生成処理手段と,8)前記要約候補を解の候補として,前記入力テキストおよび前記要約候補から素性の集合と解の候補との組を生成し,当該素性の集合と解の候補との組の場合に正例もしくは負例である確率を前記学習結果データをもとに推定し,前記推定した結果を推定解として,前記要約候補と推定解との対を生成する要約候補−推定解対生成処理手段と,9)前記要約候補−推定解対から前記推定解の正例の確率が最高の対を選択し,当該対の要約候補を要約とする要約選択処理手段とを備える。 Alternatively, the present invention includes 1) text storage means for storing text, 2) text display processing means for displaying the text on a display device, and 3) extracting sentence data in a range designated by the user from the text. Summary edit processing means for providing a user-specified summary of the text; and 4) solution data output processing means for generating solution data having the text as a problem and solving the user-specified summary for the problem and storing the solution data in a solution data storage means And 5) generating a summary of the text by an automatic summary generation process of either a process of generating a summary based on a predetermined rule or a process of generating a summary using a machine learning method, and the user of the summaries A solution candidate other than the specified summary is taken as a solution candidate, and a set of the solution or solution candidate and the feature set of the problem is extracted from the solution data. Feature-solution pair / feature-solution candidate pair extraction processing means with a positive example of a set of feature sets and solutions, and a negative example of a set of feature sets and solution candidates, and 6) a teacher of the extracted sets Machine learning processing means for storing learning result data in a learning result data storage means that learns what kind of solution or solution candidate and feature set has a probability of being a positive example or a probability of being a negative example as a signal And 7) summary candidate generation processing means for inputting a text to be summarized and generating a summary candidate from the input text, and 8) a set of features from the input text and the summary candidate with the summary candidate as a solution candidate A set of feature candidates and a solution candidate, and in the case of a set of the feature set and solution candidate, the probability of being positive or negative is estimated based on the learning result data, and the estimated result is As the estimation solution, the summary candidate and the estimation 9) a summary candidate-estimated solution pair generation processing means for generating a pair of and 9) selecting a pair having the highest probability of a positive example of the estimated solution from the summary candidate-estimated solution pair, and summarizing the summary candidates of the pair And summary selection processing means.
これにより,表示したテキストから抽出された部分をユーザが良いと評価した要約として要約処理を機械学習し,入力したテキストについてユーザに特化した要約を行うことができる。 This makes it possible to machine-learn the summarization process as a summary in which the user has evaluated the portion extracted from the displayed text as being good, and to perform summarization specialized for the user on the input text.
本発明にかかる処理装置の各手段または機能または要素は,コンピュータが実行可能なプログラムによっても実現できる。このプログラムは,コンピュータが読み取り可能な,可搬媒体メモリ,半導体メモリ,ハードディスクなどの適当な記録媒体に格納することができ,これらの記録媒体に記録して提供され,または,通信インタフェースを介して種々の通信網を利用した送受信により提供されるものである。 Each means, function, or element of the processing apparatus according to the present invention can be realized by a computer-executable program. This program can be stored in an appropriate recording medium such as a portable medium memory, semiconductor memory, or hard disk, which can be read by a computer, provided by being recorded on these recording media, or via a communication interface. It is provided by transmission / reception using various communication networks.
本発明によれば,ユーザは,機械学習の解データとされる要約結果に対する評価を任意に設定することができるため,コンピュータを用いた自動要約処理においても,一つの類型で要約するのではなく,ユーザに特化した要約を行なえることが可能となる。 According to the present invention, since the user can arbitrarily set the evaluation for the summary result that is the solution data of the machine learning, the automatic summarization process using the computer is not summarized in one type. , It is possible to perform user-specific summaries.
機械学習法を用いた自動要約処理においても,同じ評価にもとづいた要約を行なうのではなく,ユーザに特化した要約を可能にするために,教師となる解データをユーザが自由に編集できる。 In the automatic summarization process using the machine learning method, the user can freely edit the solution data as a teacher in order to enable the summarization specific to the user, instead of performing the summarization based on the same evaluation.
また,同一人物であっても要約の評価が変化することが考えられるが,本発明によれば,同一人物であっても随時要約結果に対する評価を設定でき,新たな解データを用いて機械学習し直すことにより,新しい評価態度に合わせた要約を行なうことが可能となる。 Although it is considered that the evaluation of the summary changes even for the same person, according to the present invention, the evaluation for the summary result can be set at any time even for the same person, and machine learning is performed using new solution data. By re-doing, it is possible to perform summarization in accordance with the new evaluation attitude.
〔第1の実施の形態〕
図1に,第1の実施の形態における本発明の処理装置の構成例を示す。
[First Embodiment]
FIG. 1 shows a configuration example of the processing apparatus of the present invention in the first embodiment.
自動要約処理装置10は,評価カスタマイズ手段110と,解データ記憶部120と,解−素性対抽出部121と,機械学習部122と,学習結果データ記憶部123と,要約候補生成部124と,素性抽出部125と,要約候補−推定解対生成部126と,要約選択部128とを備える。
The automatic summary processing device 10 includes an evaluation customization unit 110, a solution
評価カスタマイズ手段110は,解データ編集処理を実現する処理手段である。また,解データ記憶部120と,解−素性対抽出部121と,機械学習部122と,学習結果データ記憶部123とは,特許請求の範囲に示す自動要約処理装置の機械学習処理手段を実現する処理手段である。
The evaluation customizing unit 110 is a processing unit that realizes solution data editing processing. The solution
評価カスタマイズ手段110は,要約結果やその評価をユーザごとにカスタマイズする手段であって,要約表示部111と,評価付与部112とを備える。
The evaluation customizing means 110 is means for customizing the summary result and its evaluation for each user, and includes a
要約表示部111は,予め用意されたテキスト・要約4の要約結果を表示装置(図1に図示しない)に表示する手段である。
The
テキスト・要約4は,テキストとその要約結果からなる。テキストは,一または複数の記事などからなる文書データである。要約結果は,テキストを要約した文書データである。要約結果としては,人手で生成したもの,自動要約処理装置10が入力したテキスト2に対して出力した要約3もしくは要約候補生成部124が生成し解データ記憶部120に記憶した要約候補であってもよい。
Text /
評価付与部112は,要約表示部111が表示した要約結果に対してユーザが入力した評価を付与し,または,要約結果に予め与えられている評価をユーザが入力した評価に変更する手段である。
The
解データ記憶部120は,機械学習部122が機械学習法を実行する際に教師とする解データを記憶する手段である。解データ記憶部120には,解データとして,テキストおよびその要約結果とからなる問題と要約結果に対する評価である解との組である事例が記憶される。
The solution
解−素性対抽出部121は,解データ記憶部120に記憶されている事例ごとに解と素性の集合との組を抽出する手段である。
The solution-feature
素性とは,解析に用いる情報の細かい1単位を意味し,ここでは,1)文のなめらかさを示す情報,2)内容をよく表しているかどうかを示す情報,および,3)自動要約処理で用いられる特徴的な情報などである。 A feature means one unit of information used for analysis. Here, 1) information indicating the smoothness of a sentence, 2) information indicating whether the contents are well expressed, and 3) automatic summarization processing. This is characteristic information used.
機械学習部122は,解−素性対抽出部121により抽出された解と素性の集合との組から,どのような素性の集合のときにどのような解になりやすいかを機械学習法により学習し,学習結果を学習結果データ記憶部123に保存する手段である。機械学習部122は,解データを用いた機械学習法であればどのような手法で処理を行ってもよい。手法としては,例えば,決定木法,サポートベクトル法,パラメータチューニング法,シンプルベイズ法,最大エントロピー法,決定リスト法などがある。
The
学習結果データ記憶部123は,機械学習部122の学習結果データを記憶する手段である。
The learning result
要約候補生成部124は,入力されたテキスト2から,所定の方法にもとづいて要約候補を生成する手段である。要約候補生成部124は,重要文選択モデル,重要箇所選択モデル,変形規則を利用したモデル,ランダムジェネレーションを利用したモデルなどの種々のモデルを用いて要約候補を生成する。
The summary
素性抽出部125は,テキスト2および要約候補生成部124で生成された要約候補について素性の集合を抽出して要約候補−推定解対生成部126へ渡す手段である。
The
要約候補−推定解対生成部126は,学習結果データ記憶部123の学習結果データを参照して,素性抽出部125から渡された素性の集合の場合に,どのような解になりやすいかを推定して,要約候補と推定解との対(要約候補−推定解対)127を生成する手段である。要約候補−推定解対生成部126は,さらに,各要約候補−推定解対127に,その推定解である確信度(確率)を求めて付与しておく。
The summary candidate-estimated solution
要約選択部128は,要約候補−推定解対127を受け取り,確信度の値が最も高い要約候補−推定解対127を選択し,その要約候補を要約3とする手段である。
The
第1の実施の形態における評価カスタマイズ処理を説明するため,3人のユーザA,B,Cが要約結果をカスタマイズする場合を考える。 To describe the evaluation customization process in the first embodiment, consider a case where three users A, B, and C customize the summary result.
ユーザAは要約結果に精度に関する記載が含まれていることを重視して評価すると仮定する。ユーザBは要約結果に手法に関する記載が含まれていることを重視し,ユーザCは,要約結果に手法と精度の両方に関する記載が含まれていることを重視して評価すると仮定する。また,要約結果の評価を3段階に分けて,評価1=よい,評価2=どちらでもない,評価3=悪い,のいずれかの分類先(評価)を与えるとする。
Assume that the user A evaluates with emphasis on the fact that the summary result includes a description about accuracy. It is assumed that user B emphasizes that the description of the method is included in the summary result, and user C evaluates that the description of both the method and the accuracy is included in the summary result. Further, it is assumed that the evaluation of the summary result is divided into three stages, and a classification destination (evaluation) of
図2に,第1の実施の形態における評価カスタマイズ処理の流れを示す。 FIG. 2 shows the flow of evaluation customization processing in the first embodiment.
まず,テキスト・要約4が用意されているとする。図3にテキスト・要約4のテキストの例を示し,図4に要約結果の例を示す。図4(A)〜(C)のそれぞれに,3つの要約結果r1,r2,r3を示す。
First, assume that text /
要約表示部111は,テキスト・要約4から取り出した要約結果を表示画面に表示する(ステップS1)。そして,評価付与部112は,ユーザが入力した評価を受け付け,その入力された評価を表示された要約結果の解(評価)とする(ステップS2)。
The
ここで,ユーザAが自動要約処理装置10を使用する場合を想定する。ユーザAは,図4(A)の要約結果r1に対して,精度に関係することが要約結果として抽出されているため,評価1をつける。すると,評価付与部112は,ユーザの入力(評価1)を受け付けて,事例c1の解として評価1を設定する。
Here, it is assumed that the user A uses the automatic summary processing device 10. The user A assigns an evaluation of 1 to the summary result r1 in FIG. Then, the
次に,要約表示部111が図4(B)に示す事例c2の要約結果r2を表示した場合には,要約結果r2は精度に関係することが抽出されていないため,ユーザAは,要約結果r2に対して評価3をつけ,評価付与部112は,事例c2の解として評価3を設定する。
Next, when the
さらに,要約表示部111が図4(C)に示す事例c3の要約結果r3を表示した場合には,要約結果r3は精度に関係するところが抽出されているが若干冗長であるため,ユーザAは評価2をつけ,評価付与部112は事例c3の解として評価2を設定する。
Furthermore, when the
同様に,ユーザBの場合を想定する。ユーザBは,図4(A)に示す要約結果r1に対して手法に関係するところが抽出されていないために評価3をつけ,図4(B)に示す要約結果r2に対して手法に関係するところが抽出されていることから評価1をつけ,図4(C)に示す要約結果r3に対して手法に関係するところが抽出されているが若干冗長であるため評価2をつける。
Similarly, the case of user B is assumed. User B gives evaluation 3 because the place related to the technique is not extracted for the summary result r1 shown in FIG. 4 (A), and is related to the technique for the summary result r2 shown in FIG. 4 (B). However,
また,同様に,ユーザCの場合を想定する。ユーザCは,図4(A)に示す要約結果r1に対して精度に関係するところが抽出されているが手法に関係するところが抽出されれていないため評価2をつけ,図4(B)に示す要約結果r2に対して手法に関係するところが抽出されているが精度に関係するところが抽出されていないため評価2をつけ,図4(C)に示す要約結果r3について手法および精度のいずれにも関係するところが抽出されているが若干冗長であるため評価1をつける。
Similarly, the case of user C is assumed. The user C attaches the
評価付与部112は,ユーザBおよびユーザCごとに要約結果r1〜r3に対する入力評価を,それぞれの事例c1〜c3の解(評価)として設定する。
The
そして,評価カスタマイズ手段110は,テキスト・要約4で与えられたテキストとその要約結果と解とを事例として解データ記憶部120に記憶する(ステップS3)。
Then, the evaluation customizing unit 110 stores the text given in the text /
図5に,機械学習処理および自動要約処理の流れを示す。 FIG. 5 shows the flow of machine learning processing and automatic summarization processing.
解−素性対抽出部121は,解データ記憶部120から,事例ごとに解と素性の集合との組を抽出する(ステップS11)。
The solution-feature
解−素性対抽出部121は,例えば,1)文のなめらかさを示す情報として,k−gram 形態素列のコーパスでの存在,かかりうけ文節間の意味的整合度などを,また,2)内容をよく表しているかどうかを示す情報として,要約前のテキストにあったキーフレーズの包含率などを,また,3)自動要約で用いられる情報として,その文の位置やリード文かどうか,TF/IDF(TFは文書中でのその語の出現回数もしくは頻度を示す値,IDFはあらかじめ持っている多数の文書群のうち,その語が出現する文書数の逆数をいう。),文の長さ,固有表現・接続詞・機能語などの手がかり表現の存在などを,素性として抽出する。
The solution-feature
次に,機械学習部122は,解と素性の集合との組から,どのような素性の集合のときにどのような解になりやすいかを機械学習法により学習し,学習結果を学習結果データ記憶部123に記憶する(ステップS12)。
Next, the
ここでユーザAの処理の場合に,解データ記憶部120に記憶される解データの「事例:問題→解」は,
事例c1:テキスト−要約結果r1→評価1,
事例c2:テキスト−要約結果r2→評価3,
事例c3:テキスト−要約結果r3→評価2
となり,機械学習部122は,これらの解データをもとに,どのような場合に評価1〜評価3になるかを機械学習で学習する。例えば,事例c1→評価1や事例c3→評価2から,機械学習部122は,精度の表現,例えば「数字+[%]」の表現が出現すると評価が高くなるなどを学習する。ここで,「数字+[%]」の表現は,学習に用いる素性の例である。
Here, in the case of the process of the user A, “example: problem → solution” of the solution data stored in the solution
Case c1: Text-summary result r1 →
Case c2: Text-summary result r2 → evaluation 3,
Case c3: Text-summary result r3 →
Thus, the
また,ユーザBの処理の場合に,「事例:問題→解」は,
事例c1:テキスト−要約結果r1→評価3,
事例c2:テキスト−要約結果r2→評価1,
事例c3:テキスト−要約結果r3→評価2
となり,機械学習部122は,「手がかり表現」や「用例」などの手法に相当する専門用語が出現すると評価が高くなるように学習する。
In addition, in the case of user B's processing, “example: problem → solution”
Case c1: Text-summary result r1 → evaluation 3,
Case c2: Text-summary result r2 →
Case c3: Text-summary result r3 →
Thus, the
また,ユーザCの処理の場合に,「事例:問題→解」は,
「事例c1:テキスト−要約結果r1→評価2,
事例c2:テキスト−要約結果r2→評価2,
事例c3:テキスト−要約結果r3→評価1」
となり,機械学習部122は,精度の表現または手法に相当する表現の両方が出現すると評価が高くなるように学習する。
In the case of processing by user C, “example: problem → solution”
“Case c1: Text-summary result r1 →
Case c2: Text-summary result r2 →
Case c3: text-summary result r3 →
Thus, the
また,要約結果として出力される文章は短いほどよいので,それぞれの処理の場合において,文章の長さが短いほど評価が高くなるように学習する。 Also, the shorter the sentence output as the summary result, the better. In each processing, learning is performed such that the shorter the sentence length, the higher the evaluation.
機械学習の手法としては,例えば,シンプルベイズ法,決定リスト法,最大エントロピー法,サポートベクトルマシン法などを用いる。 As a machine learning method, for example, a simple Bayes method, a decision list method, a maximum entropy method, a support vector machine method, or the like is used.
シンプルベイズ法は,ベイズの定理にもとづいて各分類になる確率を推定し,その確率値が最も大きい分類を求める分類とする方法である。 The Simple Bayes method is a method for estimating the probability of each classification based on Bayes' theorem and obtaining the classification having the largest probability value.
決定リスト法は,素性と分類先の組とを規則とし,それらをあらかじめ定めた優先順序でリストに蓄えおき,検出する対象となる入力が与えられたときに,リストで優先順位の高いところから入力のデータと規則の素性とを比較し,素性が一致した規則の分類先をその入力の分類先とする方法である。 In the decision list method, features and pairs of classification targets are set as rules, and they are stored in a list in a predetermined priority order. When an input to be detected is given, the list starts with the highest priority. This is a method in which the input data is compared with the feature of the rule, and the classification destination of the rule having the same feature is set as the classification destination of the input.
最大エントロピー法は,あらかじめ設定しておいた素性fj (1≦j≦k)の集合をFとするとき,所定の条件式を満足しながらエントロピーを意味する式を最大にするときの確率分布を求め,その確率分布にしたがって求まる各分類の確率のうち,もっとも大きい確率値を持つ分類を求める分類とする方法である。 In the maximum entropy method, when a set of preset features fj (1≤j≤k) is F, a probability distribution when maximizing an expression that means entropy while satisfying a predetermined conditional expression is obtained. This is a method of obtaining a classification having the largest probability value among the probabilities of each classification obtained according to the probability distribution.
サポートベクトルマシン法は,空間を超平面で分割することにより,2つの分類からなるデータを分類する手法である。 The support vector machine method is a method of classifying data composed of two classifications by dividing a space by a hyperplane.
決定リスト法および最大エントロピー法については,以下の参考文献1に,サポートベクトルマシン法については,以下の参考文献2および参考文献3に説明されている。
[参考文献1:村田真樹,内山将夫,内元清貴,馬青,井佐原均,種々の機械学習法を用いた多義解消実験,電子情報通信学会言語理解とコミュニケーション研究会,NCL2001-2, (2001) ]
[参考文献2:Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and Other Kernel-based Learning Methods,(Cambridge University Press,2000) ]
[参考文献3:Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aist-nara.ac.jp/taku-ku//software/TinySVM/index.html,2000) ]
その後,要約を求めたいテキスト2が入力されると(ステップS13),要約候補生成部124は,例えば以下に示すような処理モデルを用いて,テキスト2から要約候補を作成する(ステップS14)。
The decision list method and the maximum entropy method are described in
[Reference 1: Maki Murata, Masao Uchiyama, Kiyotaka Uchimoto, Ma Aoi, Hitoshi Isahara, Ambiguity Solving Experiments Using Various Machine Learning Methods, IEICE Language Understanding and Communication Study Group, NCL2001-2, ( 2001)]
[Reference 2: Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and Other Kernel-based Learning Methods, (Cambridge University Press, 2000)]
[Reference 3: Taku Kudoh, Tinysvm: Support Vector machines, (http://cl.aist-nara.ac.jp/taku-ku//software/TinySVM/index.html,2000)]
Thereafter, when the
1)重要文選択モデル
重要文選択モデルとは,文を単位に要約し,重要と思われる文のみを選択して残すことにより要約を実現するモデルである。このモデルの場合には,あらゆる文選択の状態をすべて解の候補とするとよい。また,すべてを解の候補とすると計算速度に支障が生じる場合には,予め備えておいた選択規則を用いて,この選択規則を満足する文の選択状態のみを解の候補とする。すなわち,所定の選択規則により候補数を減少させて処理の負荷を軽減する。なお,選択規則は,人手による規則であってもよい。
1) Important sentence selection model The important sentence selection model is a model that summarizes sentences in units and realizes the summary by selecting and leaving only sentences that are considered important. In this model, all sentence selection states should be candidates for solutions. In addition, if all of the solutions are candidates for calculation, the calculation speed will be affected. Using a selection rule prepared in advance, only the selected state of a sentence satisfying this selection rule is set as a solution candidate. That is, the processing load is reduced by reducing the number of candidates according to a predetermined selection rule. The selection rule may be a manual rule.
2)重要箇所選択モデル
重要箇所選択モデルとは,文よりも小さいものを要約の単位として,不要なものを削除することにより要約を実現するモデルである。単位を文より小さいものとすること以外については,上記1)重要文選択モデルと同様である。文よりも小さいものとして,例えば文節を用いる。すなわち,文節を単位として不要な文節を消していくことにより要約を実現する。この重要箇所選択モデルの場合は,あらゆる文節の選択の状態をすべて解の候補とする。また,すべてを解の候補とすると計算速度に支障が生じる場合には,上記1)重要文選択モデルと同様に,予め選択規則を用意しておき,この選択規則を満足する文の選択状態のみを解の候補とする。
2) Important part selection model The important part selection model is a model that realizes summarization by deleting unnecessary ones that are smaller than sentences and using unnecessary ones as summarization units. The unit is the same as the 1) important sentence selection model except that the unit is smaller than the sentence. For example, a phrase is used as a sentence smaller than the sentence. In other words, summarization is realized by deleting unnecessary phrases in units of phrases. In the case of this important part selection model, the selection states of all phrases are all candidate solutions. In addition, if all of the candidates are the solution, the calculation speed will be affected. As in the case of 1) important sentence selection model, a selection rule is prepared in advance, and only the selected state of the sentence satisfying this selection rule is prepared. Is a candidate for the solution.
3)変形規則を利用したモデル
変形規則を利用したモデルとは,予め用意した変形規則を利用して要約結果を生成するモデルである。変形規則は,自動処理により獲得するか,または人手で作成しておいたものを利用する。例えば,「Xして,Yした。」を「Xした。」もしくは「Yした。」に書き換えるような変形規則を作っておき,この変形規則に従って入力「Aして,Bした。」が与えられたときに「Aした。」や「Bした。」という要約候補を生成する。
3) Model using transformation rules A model using transformation rules is a model that generates summary results using transformation rules prepared in advance. Deformation rules are obtained by automatic processing or used manually. For example, a transformation rule that rewrites “X and Y” to “X” or “Y” is created, and an input “A and B” is given according to this transformation rule. When this is done, summary candidates such as “A done” or “B done” are generated.
4)ランダムジェネレーションを利用したモデル
ランダムジェネレーションを利用したモデルは,例えば,入力「・・・X・・・」があったときに「・・・Y・・・」を要約候補とするようなモデルである。このとき,置き換えられるXはランダムに選ばれてもよいし,予め用意しておいた置換規則によって指定してもよい。置換規則は,人手によって生成されたものや,自動獲得したものなどを用いる。また,置き換えた先の表現Yは,ある辞書の単語もしくは文字列の集合からランダムに選ばれてもよいし,予め用意しておいた変換規則によって指定してもよい。変換規則は,置換規則と同様,人手によって生成されたものや,自動獲得したものなどを用いる。このとき,XやYをランダムに選ばずに,変換規則にもとづいて選ぶとすると,変形規則を利用したモデルと同じようなものになる。
4) Model using random generation The model using random generation is, for example, a model that uses "... Y ..." as a summary candidate when there is an input "... X ...". It is. At this time, X to be replaced may be selected at random or may be designated by a replacement rule prepared in advance. As the replacement rule, a manually generated rule or an automatically acquired rule is used. The replaced expression Y may be selected at random from a set of words or character strings in a certain dictionary, or may be designated by a conversion rule prepared in advance. As with the replacement rule, a conversion rule that is manually generated or automatically acquired is used. At this time, if X and Y are not selected at random, but are selected based on the conversion rule, the model is the same as the model using the deformation rule.
素性抽出部125は,解−素性対抽出部121とほぼ同様の処理によって,入力したテキスト2および要約候補から素性の集合を抽出し,要約候補−推定解対生成部126へ渡す(ステップS15)。
The
そして,要約候補−推定解対生成部126は,受け取った素性の集合の場合にどのような解になりやすいかを,学習結果データをもとに推定し,すなわち,複数の要約候補のそれぞれの解(評価)とその確信度を学習結果データにもとづき算出し,要約候補と推定解との対(要約候補−推定解対)127を生成する(ステップS16)。
Then, the summary candidate-estimated solution
そして,要約選択部128は,生成された要約候補−推定解対127から,推定解の確信度の値が最もよい要約候補−推定解対127を選択し,その要約候補を要約3とする(ステップS17)。
Then, the
図6に,第1の実施の形態における本発明の処理装置の別の構成例を示す。 FIG. 6 shows another configuration example of the processing apparatus of the present invention in the first embodiment.
本形態では,解(分類先)として多数の候補が考えられるが,分類先の種類数が多くなり過ぎて,一般の機械学習法で処理ができない場合が生じうる。このような場合に,図6に示す自動要約処理装置20では,機械学習部132は,実際の機械学習処理において正例と負例の二種類の解(分類先)のみを考える機械学習手法を用いることにより処理が可能となる。
In this embodiment, a large number of candidates can be considered as solutions (classification destinations), but there may be a case where the number of types of classification destinations becomes too large to be processed by a general machine learning method. In such a case, in the automatic summarization processing apparatus 20 shown in FIG. 6, the
また,図6に示す自動要約処理装置20では,機械学習部132の学習の素性に評価という情報を用いることもできる。
In the automatic summarization processing apparatus 20 shown in FIG. 6, information called evaluation can be used as the learning feature of the
自動要約処理装置20は,評価カスタマイズ手段110と,解データ記憶部130と,素性−解対・素性−解候補対抽出部131と,機械学習部132と,学習結果データ記憶部133と,要約候補生成部134と,素性−解候補抽出部135と,要約候補−推定解対生成部136と,要約選択部138とを備える。
The automatic summarization processing device 20 includes an evaluation customizing unit 110, a solution
解データ記憶部130と,素性−解対・素性−解候補対抽出部131と,機械学習部132と,学習結果データ記憶部133とは,特許請求の範囲に示す自動要約処理装置の機械学習処理手段を実現する処理手段である。また,要約候補生成部134と,素性−解候補抽出部135と,要約候補−推定解対生成部136とは,特許請求の範囲に示す要約候補生成処理手段を実現する処理手段である。
The solution
評価カスタマイズ手段110および要約候補生成部134は,図1に示す自動要約処理装置10の評価カスタマイズ手段110および要約候補生成部124と同様の処理を行う。
The evaluation customizing unit 110 and the summary candidate generating unit 134 perform the same processing as the evaluation customizing unit 110 and the summary
素性−解対・素性−解候補対抽出部131は,解データ記憶部130に記憶されている事例ごとに,解もしくは解候補と素性の集合との組を抽出する手段である。ここでは,解の候補は解以外の解の候補を意味し,ユーザが設定した評価を解とする。また,解と素性の集合の組を正例とし,解の候補と素性の集合との組を負例とする。
The feature-solution pair / feature-solution candidate
機械学習部132は,解もしくは解の候補と素性の集合との組から,どのような解もしくは解の候補と素性の集合のときに正例である確率や負例である確率を学習し,その学習結果を学習結果データ記憶部133に記憶する手段である。
The
素性−解候補抽出部135は,素性−解対・素性−解候補対抽出部131と同様の処理により,入力されたテキストおよび要約候補について,解の候補と素性の集合との組を抽出する手段である。
The feature-solution
要約候補−推定解対生成部136は,渡された解の候補と素性の集合との組の場合に正例である確率や負例である確率を求め,正例である確率が最も大きい解を推定解として,その場合の要約候補と推定解との対(要約候補−推定解対)137を生成する手段である。
The summary candidate-estimated solution
要約選択部138は,要約候補−推定解対137の要約候補を要約3とする手段である。
The
図7に,自動要約処理装置20の機械学習処理および自動要約処理の流れを示す。 FIG. 7 shows a flow of machine learning processing and automatic summarization processing of the automatic summarization processing device 20.
素性−解対・素性−解候補対抽出部131は,解データ記憶部130から,各事例ごとに解もしくは解の候補と素性の集合との組を抽出する(ステップS21)。そして,機械学習部132は,解もしくは解の候補と素性の集合との組から,どのような解もしくは解の候補と素性の集合のときに,正例である確率や負例である確率を機械学習法により学習し,学習結果を学習結果データ記憶部133に記憶する(ステップS22)。
The feature-solution pair / feature-solution candidate
その後,要約を求めたいテキスト2が入力されると(ステップS23),要約候補生成部134は,所定の方法でテキスト2から要約候補を生成する(ステップS24)。そして,素性−解候補抽出部135は,入力したテキスト2および要約候補から素性の集合と解の候補との組を抽出し,要約候補−推定解対生成部136へ渡す(ステップS25)。
Thereafter, when the
要約候補−推定解対生成部136は,受け取った解の候補と素性の集合との組の場合に正例や負例である確率を学習結果データをもとに推定し,正例である確率が最も大きい解の候補を推定解として,要約候補−推定解対137を生成し(ステップS26),要約選択部138は,要約候補−推定解対137の要約候補を要約3とする(ステップS27)。
The summary candidate-estimated solution
第1の実施の形態では,ユーザは必要なときに自動要約処理装置1を使用しながら,その使用の際に出力された要約結果に対して評価1〜3をつければよい。したがって,ユーザは,操作負担を感じることなく要約結果の評価をカスタマイズすることが可能となる。
In the first embodiment, the user may give
〔第2の実施の形態〕
図8に,第2の実施の形態における本発明の処理装置の構成例を示す。図8に示す自動要約処理装置30は,図1に示す自動要約処理装置10の評価カスタマイズ手段110の代わりに評価カスタマイズ手段140を備え,また自動要約処理装置10を構成する評価カスタマイズ手段110以外の処理手段を備える。
[Second Embodiment]
FIG. 8 shows a configuration example of the processing apparatus of the present invention in the second embodiment. The automatic
評価カスタマイズ手段140は,テキスト表示部141と,要約編集部142とを備える。
The
テキスト表示部141は,予め用意したテキスト5を表示装置(図8に図示しない)に表示する手段である。
The
要約編集部142は,テキスト表示部141が表示したテキスト5からユーザが要約として指定した部分を抽出して,または,ユーザが指定した部分内の表現を変更して要約を編集する手段である。
The
図9に,第2の実施の形態における評価カスタマイズ処理の流れを示す。 FIG. 9 shows the flow of evaluation customization processing in the second embodiment.
テキスト表示部141は,予め用意したテキスト5を取り込み,表示装置に表示する(ステップS31)。表示したテキスト5上でユーザに要約結果として良いと思われる部分を指定させ,ユーザが指定した範囲を受け付けて抽出する(ステップS32)。また,指定した範囲の部分が編集されたら,その編集内容を受け付け,編集後の指定範囲部分を要約結果とする(ステップS33)。
The
ユーザは,表示されたテキスト上をマウスなどのポインティング・デバイスによるドラッグや,カーソルキー移動による開始位置および終了位置の指定などにより要約とする範囲を指定する。テキスト表示部141は,指定された範囲を,反転もしくはマーキングなどの表示により,指定されなかった範囲と区別して表示する。
The user designates a range to be summarized on the displayed text by dragging with a pointing device such as a mouse or by specifying a start position and an end position by moving a cursor key. The
図10に,表示されるテキストの例およびユーザAが指定した範囲の例を示す。ユーザAは,破線で囲む部分「小説を対象にして実験を行なったところ,テストサンプルで再現率84%,適合率82%の精度で解析できた。」を要約としてよい部分であると指定する。要約編集部142は,図10のテキストの破線の矩形で示された部分を要約結果とする。
FIG. 10 shows an example of text to be displayed and an example of a range designated by the user A. User A designates that the portion surrounded by the broken line “the experiment was conducted on a novel, and the test sample could be analyzed with an accuracy of a reproduction rate of 84% and a precision of 82%” was a good portion to summarize. . The
また,ユーザBは,図11に示すように,テキストの破線で囲む部分「自然言語では,動詞を省略するということがある。この省略された動詞を復元することは,対話システムや高品質の機械翻訳システムの実現には不可欠なことである。そこで本研究では,この省略された動詞を表層の表現(手がかり語) と用例から補完することを行なう。」を要約として良いと指定する。また,ユーザCの場合には,図12に示すように,2つの破線の矩形で囲まれた部分「自然言語では,動詞を省略するということがある。この省略された動詞を復元することは,対話システムや高品質の機械翻訳システムの実現には不可欠なことである。そこで本研究では,この省略された動詞を表層の表現(手がかり語) と用例から補完することを行なう。」と部分「小説を対象にして実験を行なったところ,テストサンプルで再現率84%,適合率82%の精度で解析できた。」とを要約としてよいと指定する。要約編集部142は,図11および図12に示すテキストの破線の矩形で示された部分をそれぞれ要約結果とする。
In addition, as shown in FIG. 11, the user B may enclose a portion surrounded by a broken line of text “a verb is omitted in a natural language. Restoring this omitted verb may be a dialogue system or a high quality Therefore, in this study, the abbreviated verb is complemented from the surface expression (cue word) and examples. " Further, in the case of the user C, as shown in FIG. 12, a part surrounded by two broken rectangles “in natural language, a verb may be omitted. To restore this omitted verb, Therefore, in this study, we will supplement the omitted verbs with surface expressions (cue words) and examples. " Specifying that the experiment should be a summary of the test sample, it was possible to analyze the test sample with an accuracy of 84% recall and accuracy of 82%. The
なお,ユーザが指定した範囲をテキストと別に表示し,指定範囲内の表現について,ユーザが任意の箇所を削除したり,または表現を変更したりして,その内容を編集できるようにしてもよい。図13に示すように,テキスト上で指定した範囲をテキストと別に表示して,指定範囲内の語句などを削除し,追加し,訂正することができるようにする。要約編集部142は,要約決定ボタンがクリック等の操作で選択されると,その選択を受け付けて,指定範囲の内容を要約結果とする。なお,キャンセルボタンが選択された場合には,指定範囲の内容をクリアする。
The range specified by the user may be displayed separately from the text so that the user can edit the contents of the expression within the specified range by deleting any part or changing the expression. . As shown in FIG. 13, the range specified on the text is displayed separately from the text so that words, phrases, etc. within the specified range can be deleted, added and corrected. When the summary determination button is selected by an operation such as clicking, the
そして,要約編集部142は,テキスト5と要約結果とを,所定の解(良い評価)とともに解データ記憶部130に記憶する(ステップS34)。さらに,評価カスタマイズ手段140は,第1の実施の形態において,自動要約処理装置20が生成した要約,自動要約処理装置20の要約候補生成部124が生成した要約候補,人手でランダムに生成した要約などのユーザが指定した要約以外の要約に対して所定の解(悪い評価)を付与した解データも解データ記憶部130へ記憶する。
The
以降,機械学習処理および自動要約処理の流れは,図5に示す処理の流れと同様である。ここで,機械学習部122は,それぞれのユーザごとに,図3に示すテキストと,図10〜図12に示す要約結果のいずれか(すなわち,ユーザ指定範囲)と,解とする事例について学習する。
The flow of machine learning processing and automatic summarization processing is the same as the processing flow shown in FIG. Here, the
図14に,第2の実施の形態における本発明の処理装置の別の構成例を示す。本形態においても,解(分類先)の種類数が多くなり過ぎて,一般の機械学習法で処理ができない場合が生じうる。 FIG. 14 shows another configuration example of the processing apparatus of the present invention in the second embodiment. Even in this embodiment, there may be a case where the number of types of solutions (classification destinations) becomes too large to be processed by a general machine learning method.
このため,図14に示す自動要約処理装置40では,機械学習部132は,実際の機械学習処理において正例と負例の二種類の解(分類先)のみを考える機械学習手法を用いることにより処理を可能としている。
For this reason, in the automatic summarization processing apparatus 40 shown in FIG. 14, the
自動要約処理装置40は,図6に示す自動要約処理装置20を構成する処理手段と同様の処理手段を備え,かつ,評価カスタマイズ手段110の代わりに評価カスタマイズ手段140を備えるものである。 The automatic summarization processing apparatus 40 includes processing means similar to the processing means constituting the automatic summarization processing apparatus 20 shown in FIG. 6, and includes an evaluation customizing means 140 instead of the evaluation customizing means 110.
本形態では,ユーザに要約としてよい範囲をテキスト上で指定させるため,第1の実施の形態に比べてユーザの負担は大きい。しかし,ユーザが求める要約結果により近いものを解データ(教師)とすることができるため,ユーザが所望する要約結果をより早く出力できるように学習することができる。 In the present embodiment, since the user can designate a range that can be used as a summary on the text, the burden on the user is greater than that in the first embodiment. However, since it is possible to use solution data (teacher) that is closer to the summary result desired by the user, it is possible to learn so that the summary result desired by the user can be output more quickly.
〔第3の実施の形態〕
図15に,第3の実施の形態における本発明の処理装置の構成例を示す。図15に示す自動要約処理装置50は,図1に示す自動要約処理装置10の評価カスタマイズ手段110の代わりに評価カスタマイズ手段150を備え,また他の処理手段として,自動要約処理装置10を構成する処理手段と同様の処理手段を備える。
[Third Embodiment]
FIG. 15 shows a configuration example of the processing apparatus of the present invention in the third embodiment. An automatic
評価カスタマイズ手段150は,要約表示部151と,性質情報設定部152とを備える。
The
要約表示部151は,予め用意しておいたテキスト・要約4の要約結果を表示装置(図15に図示しない)に表示する手段である。
The
性質情報設定部152は,要約結果の評価にかかわる複数の性質情報を生成し,性質情報ごとの評価を設定する手段である。 The property information setting unit 152 is a means for generating a plurality of property information related to the evaluation of the summary result and setting the evaluation for each property information.
性質情報とは,要約結果の評価を構成する種々の性質に関する情報であり,例えば,短い文を重視しているかどうかという情報(短文重視),要約結果に数量についての表現が含まれていることを重視しているかどうかという情報(数量表現重視),要約結果に手法についての表現が含まれていることを重視しているかどうかという情報(手法重視),要約結果の文体を重視しているかどうかという情報(文体重視),要約結果の読みやすさを重視しているかどうかという情報(読みやすさ重視)などである。 The property information is information on various properties that constitute the evaluation of the summary result. For example, information indicating whether a short sentence is emphasized (short sentence emphasis), and the summary result includes an expression about quantity. On whether or not emphasis is placed on (quantity expression emphasis), information on whether or not the summary results include expression about the technique (method emphasis), and whether or not the style of the summary results is emphasized Information (stylistic emphasis), information about whether or not the summary results are easy to read (readability emphasis).
評価カスタマイズ手段150は,機械学習部122において要約結果の評価にかかわる複数の性質をそれぞれ学習することができるように,ユーザが随時必要となった評価にかかわる複数の性質情報を任意に設定できるようにして,要約結果に対するユーザの評価を複数の性質情報を用いて定義する。
The
本形態では,性質情報設定部152で設定された性質情報の数に対応して解データ記憶部120を用意し,各性質情報ごとに機械学習を行なう。したがって,解−素性対抽出部121,機械学習部122,学習結果データ記憶部123,要約候補−推定解対生成部126の各処理手段は,性質情報の数に対応して備えられる。
In this embodiment, the solution
図16に,評価カスタマイズ処理の流れを示す。 FIG. 16 shows the flow of evaluation customization processing.
要約表示部151は,テキスト・要約4から取り出した要約結果を表示する(ステップS41)。性質情報設定部152は,表示した要約結果に対して複数の性質情報の項目を表示し,ユーザに各項目の値や,新規項目の設定などを促し,ユーザの入力を受け付ける(ステップS42)。
The
図17および図18に,性質情報設定画面の例を示す。性質情報設定画面では,複数の位置情報のそれぞれに対応してスライドバーが設けられている。ユーザはそれぞれの性質情報のスライドバー上でスライドボタンを右側や左側など任意の位置を定めて性質情報ごとの評価を指定できる。例えば,ユーザは,表示された要約結果に対して「短い文重視,数量表現重視,手法重視,文体重視,読みやすさ重視」などの性質情報の項目ごとに,それぞれどのくらいの評価になるかを,スライドバー上でスライドボタンを移動させて設定する。図17および図18では,スライドバーの左端から右端に向かって評価が高くなるように設定されているとする。また,ユーザはスライドバーの横に任意の性質情報を入力することにより,スライドバーが何を意味するかについて自由に定義できる。 17 and 18 show examples of property information setting screens. In the property information setting screen, a slide bar is provided corresponding to each of the plurality of position information. The user can specify an evaluation for each property information by setting an arbitrary position such as the right or left side of the slide button on the slide bar of each property information. For example, the user evaluates the displayed summary result for each item of property information such as “emphasis on short sentences, importance on quantity expression, importance on methods, importance on style, readability”. , Set by moving the slide button on the slide bar. In FIGS. 17 and 18, it is assumed that the evaluation is set so that the evaluation increases from the left end to the right end of the slide bar. Moreover, the user can freely define what the slide bar means by inputting arbitrary property information beside the slide bar.
要約表示部151が図4(A)に示す要約結果r1を表示した場合に,図17に示すように,ユーザAは,要約結果r1が短い文なので「短い文重視」のスライドボタンを右側へ,また数量に関する表現があるので「数量表現重視」のスライドボタンを右側へ,また手法にふれていないので「手法重視」のスライドボタンを左側へ,文体と読みやすさとはそれほど悪くないので,「文体重視」および「読みやすさ重視」のスライドボタンを右側へ位置させる。
When the
また,要約表示部151が図4(B)に示す要約結果r2を表示した場合に,ユーザAは,図18に示すように,要約結果r2がそれほど短くないので,「短い文重視」のスライドボタンを左側へ,その他の性質情報は,まあまあよいので,その他の性質情報のスライドボタンを右側へ移動させる。
Further, when the
そして,性質情報設定部152は,入力された性質情報ごとの値をそれぞれ解とし,その解とテキストと要約結果とを事例として性質情報ごとの解データ記憶部120に記憶する(ステップS43)。
Then, the property information setting unit 152 sets the value for each input property information as a solution, and stores the solution, text, and summary result as examples in the solution
以降,機械学習処理および自動要約処理の流れは,図5に示す処理の流れとほぼ同様である。ここで,性質情報ごとに備えられた機械学習部122は,対応する性質情報の解データ記憶部120に記憶された事例を解データ(教師データ)として使用する。機械学習部122は,それぞれの性質情報ごとに学習を行なう。例えば,性質情報「短い文重視」については,各事例の解は,事例c1(要約結果r1)では「解=最右側」,事例c2(要約結果r2)では,「解=左側」という解ができる。機械学習部122は,これらの解データを教師データとして利用して,どういうときに短い文重視で評価されるのかを学習していく。また,その他の性質情報についても同様の学習を行なう。
Thereafter, the flow of the machine learning process and the automatic summarization process is almost the same as the process flow shown in FIG. Here, the
本形態では,機械学習処理後,要約候補生成部124は,入力されたテキスト2から所定の方法で要約候補を生成し,素性抽出部125は,入力テキスト2および要約候補から素性の集合を抽出する。
In this embodiment, after the machine learning process, the summary
そして,各性質情報に対応する要約候補−推定解対生成部126は,受け取った素性の集合の場合にどのような解になりやすいかを学習結果データをもとに推定し,要約候補と推定解との対(要約候補−推定解対)127を生成する。例えば,要約候補−推定解対生成部126は,複数の要約候補のそれぞれの推定解とその確信度を学習結果データにもとづき算出して,それぞれの性質情報ごとの要約候補−推定解対127を生成する。
Then, the summary candidate-estimated solution
要約選択部128は,要約結果に対する評価の性質情報をどの程度重視するかを設定したユーザ評価設定情報7を受け付けて,要約候補−推定解対127で各性質情報の評価の値を,ユーザ評価設定情報7と比較して,最も似た要約候補−推定解対,もしくはユーザ評価設定情報7に最も適した要約候補−推定解対を選択し,その要約候補−推定解対127の要約候補を要約3とする。
The
要約選択部128は,図17に示すような性質情報設定画面を表示して,ユーザが現在必要な要約結果の性質であるユーザ評価設定情報7を,性質情報の各項目のスライドバー上のスライドボタンの位置を変更して設定するように促してもよい。
The
例えば,「短い文重視」,「数量表現重視」,「手法重視」のスライドボタンを最右側に移動させ,「文体重視」,「読みやすさ重視」のスライドボタンを最左側へ移動させる場合には,ユーザは,なるべく短く,また,数量表現および手法は欠かさず,しかし,文体や読みやすさは軽視するというような性質の評価に適合する要約3を要求していることを意味するユーザ評価設定情報7となる。 For example, when the slide buttons for "Short sentence emphasis", "Quantity expression emphasis", and "Method emphasis" are moved to the right side, and the "Text style emphasis" and "Readability emphasis" slide buttons are moved to the left side. Means that the user is requesting a summary 3 that conforms to the nature of the evaluation such that the user is as short as possible and the quantitative expression and method are essential, but the style and readability are neglected Setting information 7 is obtained.
また,要約選択部128は,要約候補−推定解対127の簡単な選択方法として,例えば以下の式を利用して,すべての解の組合せの値Total _Score を求めてもよい。
Moreover, the
Total _Score =a(短い文重視)×score(短い文重視)
+a(数量表現重視)×score(数量表現重視)
+a(手法重視) ×score(手法重視)
+a(文体重視) ×score(文体重視)
+a(読みやすさ重視) ×score(読みやすさ重視)
ただし,a(X)はユーザが指定した性質情報Xのスライドバーのスライドボタン位置から求まる値である。スライドボタンがスライドバーの右側に位置するほど大きな値を持つとしている。score(X)は学習結果データにもとづいて算出された性質情報Xの評価の値である。要約選択部128は,この組合せ値 Total_Score が最も大きい要約候補−推定解対127を選択し,その要約候補を要約3として出力する。
Total_Score = a (emphasis on short sentences) x score (emphasis on short sentences)
+ A (emphasis on quantity expression) x score (emphasis on quantity expression)
+ A (method emphasis) × score (method emphasis)
+ A (style style emphasis) × score (style style emphasis)
+ A (easy to read) x score (easy to read)
However, a (X) is a value obtained from the slide button position of the slide bar of the property information X designated by the user. The slide button has a larger value as it is located on the right side of the slide bar. score (X) is an evaluation value of the property information X calculated based on the learning result data. The
本形態では,機械学習部122で用いる要約結果を表示させてユーザに評価させるという,第1の実施の形態における処理に近い処理方法を採用した。しかし,本形態では,第2の実施の形態における機械学習の手法のように,ユーザにテキストから要約結果としてよいと思われる範囲を指定させた上で,さらに,ユーザに評価にかかわる複数の性質をスライドバーなどを用いて評価させて,教師信号である解データを収集するようにしてもよい。かかる処理の場合には,同一ユーザであっても処理を行なう度に所望する要約のタイプが異なるような状況にも対処することが可能となる。また,同時に複数の性質情報を学習することが可能であるため,ユーザが評価(解)を与える際の処理負担も全体として軽減することが可能となる。
In this embodiment, a processing method similar to the processing in the first embodiment is adopted, in which summary results used by the
本形態では,図19に示すような処理手段の構成を持つ自動要約処理装置60としてもよい。図19の自動要約処理装置60は,図6に示す自動要約処理装置20を構成する処理手段と同様の処理手段を備え,かつ評価カスタマイズ手段110の代わりに評価カスタマイズ手段150を備えるものである。
In this embodiment, an automatic
自動要約処理装置60は,実際の機械学習処理において,正例と負例の二種類の解(分類先)のみを考える機械学習手法を用いることにより,機械学習での過重な処理負担を回避することができる。
The automatic
以上,本発明をその実施の態様により説明したが,本発明はその主旨の範囲において種々の変形が可能である。例えば,第1の実施の形態ないし第3の実施の形態のいずれの形態をも組み合わせて実施することも可能である。 As mentioned above, although this invention was demonstrated by the embodiment, this invention can be variously deformed in the range of the main point. For example, it is possible to combine any of the first to third embodiments.
〔第4の実施の形態〕
図20に,第4の実施の形態における本発明の処理の構成例を示す。図20に示す自動要約処理装置70は,解データ記憶部120と,解−素性対抽出部121と,機械学習部122と,学習結果データ記憶部123と,素性抽出部125と,解推定部160と,評価カスタマイズ手段140とを備える。
[Fourth Embodiment]
FIG. 20 shows a configuration example of the processing of the present invention in the fourth embodiment. 20 includes a solution
自動要約処理装置70の解データ記憶部120,解−素性対抽出部121,機械学習部122,学習結果データ記憶部123,素性抽出部125および評価カスタマイズ手段140とは,図8に示す同一番号が付与された処理手段とほぼ同様の処理を行う手段である。
The solution
解推定部160は,学習結果データ記憶部123の学習結果データを参照して,素性抽出部125から渡された素性の集合の場合に,どのような解になり易いかを推定し,その推定解161を要約3とする手段である。
The
本形態では,解データ記憶部120は,テキストを問題としテキストの要約結果を解とする解データを記憶し,機械学習部122は,かかる解データから抽出された解−素性対を用いて機械学習を行う。また,素性抽出部125は,入力されたテキスト2の素性を抽出して,解推定部160に渡す。
In this embodiment, the solution
図21に,第4の実施の形態における機械学習処理および自動要約処理の流れを示す。 FIG. 21 shows the flow of machine learning processing and automatic summarization processing in the fourth embodiment.
解−素性対抽出部121は,解データ記憶部120から,事例ごとに解と素性の集合との組を抽出し(ステップS51),次に,機械学習部122は,解と素性の集合との組から,どのような素性の集合のときにどのような解になりやすいかを機械学習法により学習し,学習結果を学習結果データ記憶部123に記憶する(ステップS52)。なお,ステップS51,S52の処理は,図5に示すステップS11,S12の処理と同様である。
The solution-feature
その後,要約を求めたいテキスト2が入力されると(ステップS53),素性抽出部125は,解−素性対抽出部121とほぼ同様の処理によって,入力したテキスト2から素性の集合を抽出し,解推定部160へ渡す(ステップS54)。そして,解推定部160は,受け取った素性の集合の場合にどのような解になりやすいかを,学習結果データをもとに推定し,その推定解161を要約3とする(ステップS55)。
Thereafter, when the
本形態では,テキストの要約結果を解とする解データを用いて機械学習を行い,その学習結果を参照した解推定処理において要約とするべき推定解を直接求めるようにする。 In the present embodiment, machine learning is performed using solution data whose solution is a text summary result, and an estimated solution to be summarized is directly obtained in solution estimation processing referring to the learning result.
以上,本発明をその実施の形態により説明したが,本発明はその主旨の範囲において種々の変形が可能であることは当然である。 Although the present invention has been described above with reference to the embodiments, it is obvious that the present invention can be variously modified within the scope of the gist thereof.
また,本発明は,コンピュータにより読み取られ実行される処理プログラムとして実施するものとして説明したが,本発明を実現する処理プログラムは,コンピュータが読み取り可能な,可搬媒体メモリ,半導体メモリ,ハードディスクなどの適当な記録媒体に格納することができ,これらの記録媒体に記録して提供され,または,通信インタフェースを介して種々の通信網を利用した送受信により提供されるものである。 Although the present invention has been described as being implemented as a processing program that is read and executed by a computer, the processing program that implements the present invention includes a portable medium memory, a semiconductor memory, a hard disk, and the like that can be read by a computer. It can be stored in an appropriate recording medium, provided by being recorded on these recording media, or provided by transmission / reception using various communication networks via a communication interface.
10 自動要約処理装置
110 評価カスタマイズ手段
111 要約表示部
112 評価付与部
120 解データ記憶部
121 解−素性対抽出部
122 機械学習部
123 学習結果データ記憶部
124 要約候補生成部
125 素性抽出部
126 要約候補−推定解対生成部
127 要約候補−推定解対
128 要約選択部
130 解データ記憶部
131 素性−解対・素性−解候補対抽出部
132 機械学習部
133 学習結果データ記憶部
134 要約候補生成部
135 素性−解候補抽出部
136 要約候補−推定解対生成部
137 要約候補−推定解対
138 要約選択部
140 評価カスタマイズ手段
141 テキスト表示部
142 要約編集部
150 評価カスタマイズ手段
151 要約表示部
152 性質情報設定部
160 解推定部
161 推定解
2 テキスト
3 要約
4 テキスト・要約
5 テキスト
7 ユーザ評価設定情報
DESCRIPTION OF SYMBOLS 10 Automatic summary processing apparatus 110 Evaluation customization means 111
Claims (6)
文書データであるテキストを記憶するテキスト記憶手段と,
前記テキスト記憶手段から取得したテキストを表示装置に表示し,前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約として表示する要約表示手段と,
要約の評価として使用される要約の特徴を示す情報であって,要約として短い文を重視しているかどうかを示す短文重視の性質,数量についての表現が要約に含まれていることを重視しているかどうかを示す数量表現重視の性質,要約に手法についての表現が含まれていることを重視しているかどうかを示す手法重視の性質,要約の文体を重視しているかどうかを示す文体重視の性質,または要約が読みやすいかどうかを重視していることを示す読みやすさ重視の性質のいずれか2つ以上の性質を含む複数の性質について,当該性質各々に対する評価値を入力する項目を表示し,前記ユーザ指定要約に対する前記性質各々のユーザの評価値の入力を受け付ける評価付与手段と,
問題および解で構成される解データを記憶する解データ記憶手段と,
前記テキストおよび前記ユーザ指定要約を問題とし,当該問題に前記ユーザが入力した評価値を解として付与して解データを生成し,前記テキストから文を取り出しあらゆる文の選択の状態を要約候補とする重要文選択処理,前記テキストから文節を取り出しあらゆる文節の選択の状態を要約候補とする重要箇所選択処理,または前記テキストの文を予め定めた変形規則に従って変形し当該変形した状態を要約候補とする変形処理のいずれか1つの処理を行って前記テキストの要約候補を生成し,前記テキストおよび前記要約候補であって前記ユーザ指定要約以外の部分からなる要約候補を問題とし,当該問題に当該要約候補が前記ユーザ指定要約ではないことを示す悪評価を解として付与して解データを生成し,前記ユーザによって入力された評価値を解とする解データおよび前記悪評価を解とする解データを前記解データ記憶手段に出力する評価カスタマイズ手段とを備える
ことを特徴とする解データ編集処理装置。 A solution data editing processing device for editing solution data used in a process of automatically summarizing text as document data by a machine learning method,
Text storage means for storing text as document data;
Summary display means for displaying text acquired from the text storage means on a display device, extracting sentence data in a range specified by a user from the text, and displaying the text as a user-specified summary of the text;
Information indicating the characteristics of the summary used as an evaluation of the summary, with emphasis on the fact that the summary includes a short sentence-oriented nature indicating whether a short sentence is emphasized as an abstract, and an expression about quantity Quantitative expression emphasis on whether or not there is an emphasis, method emphasis on whether or not the summary includes expression about the technique, emphasis on the style of the summary Or an item for inputting an evaluation value for each of a plurality of properties including two or more of the properties of emphasizing readability indicating that importance is attached to whether the summary is easy to read. Evaluation giving means for accepting input of an evaluation value of each of the properties for the user-specified summary;
Solution data storage means for storing solution data composed of problems and solutions;
The text and the user-specified summary are used as a problem, an evaluation value input by the user is assigned as a solution to the problem, solution data is generated, a sentence is extracted from the text, and a selection state of any sentence is set as a summary candidate. An important sentence selection process, an important part selection process in which a clause is extracted from the text and the selection state of every phrase is a summary candidate, or a sentence of the text is transformed according to a predetermined transformation rule and the transformed state is taken as a summary candidate Any one of the transformation processes is performed to generate a summary candidate for the text, and the summary candidate consisting of the text and the summary candidate other than the user-specified summary is used as a problem. Is generated as a solution by giving a bad evaluation indicating that is not the user-specified summary, and is input by the user. Solution data edit processing device characterized by comprising an evaluation customization means for outputting to the solution data storage means the solution data and solution data to solution the evil evaluate the solution an evaluation value.
前記評価カスタマイズ手段は,前記ユーザによって指定された前記テキストの部分の語句の変更の入力を受け付け,当該変更された部分を前記ユーザ指定要約とする要約編集手段を備える
ことを特徴とする解データ編集処理装置。 The solution data editing apparatus according to claim 1,
The evaluation customization means includes summary editing means for accepting an input of a change of a phrase of the text portion specified by the user and using the changed portion as the user-specified summary. Processing equipment.
前記評価カスタマイズ手段は,前記要約生成処理によって生成された要約候補であって前記ユーザ指定要約以外の部分からなる要約候補に対する前記性質各々の評価値を入力する項目を表示し,前記項目各々のユーザの評価値の入力を受け付け,前記テキストおよび前記表示された要約候補である問題に当該入力された評価値の組合せを解として付与して前記解データを生成する
ことを特徴とする解データ編集処理装置。 The solution data editing apparatus according to claim 1,
The evaluation customizing means displays an item for inputting an evaluation value of each of the properties with respect to a summary candidate that is a summary candidate generated by the summary generation process and includes a portion other than the user-specified summary, and each user of the item A solution data editing process, wherein the solution data is generated by accepting an input of the evaluation value of the image and giving a combination of the input evaluation value to the problem that is the text and the displayed summary candidate as a solution apparatus.
前記要約表示手段が,文書データであるテキストを記憶する前記テキスト記憶手段にアクセスしてテキストを取得し,前記テキストを表示装置に表示し,前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約として表示する処理過程と,
前記評価付与手段が,要約の評価として使用される要約の特徴を示す情報であって,要約として短い文を重視しているかどうかを示す短文重視の性質,数量についての表現が要約に含まれていることを重視しているかどうかを示す数量表現重視の性質,要約に手法についての表現が含まれていることを重視しているかどうかを示す手法重視の性質,要約の文体を重視しているかどうかを示す文体重視の性質,または要約が読みやすいかどうかを重視していることを示す読みやすさ重視の性質のいずれか2つ以上の性質を含む複数の性質について,当該性質各々に対する評価値を入力する項目を表示し,前記ユーザ指定要約に対する前記性質各々のユーザの評価値の入力を受け付ける処理過程と,
前記評価カスタマイズ手段が,前記テキストおよび前記ユーザ指定要約を問題とし,当該問題に前記ユーザが入力した評価値を解として付与して解データを生成し,前記テキストから文を取り出しあらゆる文の選択の状態を要約候補とする重要文選択処理,前記テキストから文節を取り出しあらゆる文節の選択の状態を要約候補とする重要箇所選択処理,または前記テキストの文を予め定めた変形規則に従って変形し当該変形した状態を要約候補とする変形処理のいずれか1つの処理を行って前記テキストの要約候補を生成し,前記テキストおよび前記要約候補であって前記ユーザ指定要約以外の部分からなる要約候補を問題とし,当該問題に当該要約候補が前記ユーザ指定要約ではないことを示す悪評価を解として付与して解データを生成し,前記ユーザによって入力された評価値を解とする解データおよび前記悪評価を解とする解データを前記解データ記憶手段に出力する処理過程とを備える
ことを特徴とする解データ編集処理方法。 Solution data editing for editing solution data used by a computer having text storage means, summary display means, evaluation assigning means, evaluation customization means, and solution data storage means for automatically summarizing text as document data by machine learning method A processing method,
The summary display means accesses the text storage means for storing text as document data, acquires the text, displays the text on a display device, and extracts sentence data in a range specified by the user from the text Process to display as a user-specified summary of the text;
Information indicating the characteristics of the summary used as an evaluation of the summary by the evaluation assigning means, and the summary includes a short sentence-oriented nature indicating whether a short sentence is emphasized or an expression about the quantity. Whether the emphasis is on quantity expression that indicates whether or not emphasis is placed on it, whether the emphasis is on the fact that the summaries include expression about the technique, whether or not emphasis is placed on the style of the summary The evaluation value for each of the two or more properties, including two or more of the stylistic properties that indicate or whether the summary is easy to read is important. A process of displaying an item to be input and receiving an input of an evaluation value of each of the properties for the user-specified summary;
The evaluation customizing means sets the text and the user-specified summary as a problem, assigns an evaluation value input by the user to the problem as a solution, generates solution data, extracts a sentence from the text, selects any sentence key sentence selection processing of the status and summary candidate was deformed the deformed according modification rule statement was predetermining the important passage selection process, or the text and selecting the state candidate condensates of any clauses removed clause from the text Performing any one of transformation processes with the state as a summary candidate to generate a summary candidate for the text, and considering the summary candidate consisting of the text and the summary candidate other than the user-specified summary, The solution data is generated by giving a bad evaluation indicating that the summary candidate is not the user-specified summary to the problem. , Solution data editing processing method characterized in that it comprises a process of outputting the solution data and solution data to solution the evil evaluate the solution an evaluation value input by the user on the solution data storage means.
前記コンピュータは,要約編集手段を備え,
前記評価カスタマイズ手段が実行する処理過程では,前記要約編集手段が,前記ユーザによって指定された前記テキストの部分の語句の変更の入力を受け付け,当該変更された部分を前記ユーザ指定要約とする処理を行う
ことを特徴とする解データ編集処理方法。 In the solution data editing processing method according to claim 4,
The computer comprises summary editing means,
In the processing process executed by the evaluation customizing means, the summary editing means accepts input of a change in the phrase of the text portion designated by the user, and sets the changed portion as the user designated summary. Solution data editing processing method characterized by performing.
前記評価カスタマイズ手段が実行する処理過程では,前記要約生成処理によって生成された要約候補であって前記ユーザ指定要約以外の部分からなる要約候補に対する前記性質各々の評価値を入力する項目を表示し,前記項目各々のユーザの評価値の入力を受け付け,前記テキストおよび前記表示された要約候補である問題に当該入力された評価値の組合せを解として付与して前記解データを生成する処理を行う
ことを特徴とする解データ編集処理方法。 In the solution data editing processing method according to claim 4,
In the process performed by the evaluation customizing means, items for inputting evaluation values of the respective properties for the summary candidates generated by the summary generation process and consisting of portions other than the user-specified summary are displayed. A process of receiving input of evaluation values of users of each of the items, and generating the solution data by adding a combination of the input evaluation values as a solution to the problem that is the text and the displayed summary candidate Solution data editing processing method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006222723A JP4106470B2 (en) | 2006-08-17 | 2006-08-17 | Solution data editing processing apparatus and processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006222723A JP4106470B2 (en) | 2006-08-17 | 2006-08-17 | Solution data editing processing apparatus and processing method |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004168944A Division JP4187213B2 (en) | 2004-06-07 | 2004-06-07 | Automatic summary processing apparatus and automatic summary processing method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006318509A JP2006318509A (en) | 2006-11-24 |
JP4106470B2 true JP4106470B2 (en) | 2008-06-25 |
Family
ID=37539058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006222723A Expired - Fee Related JP4106470B2 (en) | 2006-08-17 | 2006-08-17 | Solution data editing processing apparatus and processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4106470B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013167985A (en) * | 2012-02-15 | 2013-08-29 | Nomura Research Institute Ltd | Conversation summary generation system and conversation summary generation program |
JP5964791B2 (en) * | 2013-08-28 | 2016-08-03 | 日本電信電話株式会社 | Oracle summary search apparatus, method, and program |
JP6717909B2 (en) * | 2018-10-02 | 2020-07-08 | テクマトリックス株式会社 | SUMMARY GENERATION SERVER, SUMMARY GENERATION SYSTEM, AND SUMMARY GENERATION METHOD |
US11573993B2 (en) * | 2019-03-15 | 2023-02-07 | Ricoh Company, Ltd. | Generating a meeting review document that includes links to the one or more documents reviewed |
-
2006
- 2006-08-17 JP JP2006222723A patent/JP4106470B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006318509A (en) | 2006-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7120613B2 (en) | Solution data edit processing apparatus and method, and automatic summarization processing apparatus and method | |
CN105426360B (en) | A kind of keyword abstraction method and device | |
Luyckx | Scalability issues in authorship attribution | |
Kestemont et al. | Cross-genre authorship verification using unmasking | |
JP6828335B2 (en) | Search program, search device and search method | |
JP3682529B2 (en) | Summary automatic evaluation processing apparatus, summary automatic evaluation processing program, and summary automatic evaluation processing method | |
CN101526938B (en) | File processing device | |
JP6529761B2 (en) | Topic providing system and conversation control terminal device | |
CN111737446A (en) | Method, apparatus, device and storage medium for constructing quality evaluation model | |
JP5527548B2 (en) | Information analysis apparatus, information analysis method, and program | |
Silveira et al. | Combining a double clustering approach with sentence simplification to produce highly informative multi-document summaries | |
JP4106470B2 (en) | Solution data editing processing apparatus and processing method | |
JP5218409B2 (en) | Related information search system and related information search method | |
JP4187213B2 (en) | Automatic summary processing apparatus and automatic summary processing method | |
JP5056133B2 (en) | Information extraction system, information extraction method, and information extraction program | |
JP4719921B2 (en) | Data display device and data display program | |
JPWO2008108061A1 (en) | Language processing system, language processing method, language processing program, and recording medium | |
JP2009140411A (en) | Text summarization device and text summarization method | |
JP4919386B2 (en) | Information extraction / display device | |
KR102519955B1 (en) | Apparatus and method for extracting of topic keyword | |
JP5538268B2 (en) | Document summarization apparatus, document summarization method, and program | |
JP4098764B2 (en) | Document processing apparatus and program | |
JP7439429B2 (en) | Search device, search method, search program | |
JP5258819B2 (en) | Morphological analyzer and morphological analysis method | |
WO2023286340A1 (en) | Information processing device and information processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070619 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070820 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071225 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080304 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080313 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110411 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110411 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120411 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130411 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140411 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |