JP2004253011A

JP2004253011A - 自動要約処理装置および自動要約処理方法

Info

Publication number: JP2004253011A
Application number: JP2004168944A
Authority: JP
Inventors: Maki Murata; 真樹村田
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2004-06-07
Filing date: 2004-06-07
Publication date: 2004-09-09
Anticipated expiration: 2022-02-22
Also published as: JP4187213B2

Abstract

【課題】ユーザが評価した要約を解データとして用いた機械学習法による要約処理を行ってユーザに特化した要約処理を実現する。
【解決手段】評価カスタマイズ手段110 は表示した要約にユーザ入力の評価を付与し、テキストと要約と評価（解）とを事例として解データ記憶部120 に記憶する。解−素性対抽出部121 は事例から解と素性の集合との組を抽出し、機械学習部122 はどのような素性のときにどのような解となりやすいかを学習して結果を学習結果データ記憶部123 に記憶する。要約候補生成部124 はテキスト2 から要約候補を生成し、素性抽出部125 はテキストと要約候補から素性の集合を抽出し、要約候補−推定解対生成部126 は学習結果データを参照して素性の集合から推定して要約候補−推定解対を生成し、要約選択部128 はその対の要約候補を要約とする。
【選択図】図１

Description

本発明は、機械学習法により文章を自動要約する処理において、編集可能な解データを用いる機械学習法を用いた自動要約処理に関する。

近年、情報技術の発展に伴ってコンピュータを用いた文章の自動要約処理が盛んになってきている。しかし、個人的な嗜好や要約結果の用途などにより、所望する要約結果の傾向に相違があると考えられる。

例えば、以下の非特許文献１では、複数の者がそれぞれ重要文抽出による要約を行なった結果に対する相互評価の尺度として再現率と適合率とを求めて表４に示している。非特許文献１の表４から明らかなように、２０文を抽出する処理の場合に、人−人（評価者相互）の評価（再現率および適合率）は、各評価者Ａ、Ｂ、Ｃの一致度は５０〜７０％であってあまり高い値とはいえず、要約結果に対する評価に個人差が存在することが推定できる。

また、以下の非特許文献２では、サポート・ベクトル・マシン（Support Vector Machine）による重要文抽出処理において、処理セットＡ、Ｂ、Ｃについて交差検定の精度が最もよいことを表４により示している。非特許文献２の表４に示された交差検定は、同一評価者による処理と同一視でき、セットＡ、Ｂ、Ｃを作成した者が同一かどうかは不明であるが、少なくとも同一時期もしくは同一人物により学習データを作成したほうが精度が良いということがわかる。
伊藤山彦他、「講演文を対象にした重要文抽出」、言語処理学会第７回年次大会発表論文集、言語処理学会、2001年、pp.305-308 平尾勉他、「Support Vector Machineによる重要文抽出」、情報学会基礎論文63-16 、情報学会、2001年、pp.121-127

このように、要約結果に対する評価に個人差や用途差が存在すると考えることができることから、機械学習法を用いた自動要約処理においても、同じ評価にもとづいた要約を行なうのではなく、ユーザに特化した要約ができる必要がある。そのために、教師となる解データをユーザが自由に編集できる必要がある。

本発明の目的は、機械学習法で用いる解データとなる要約結果または要約結果に対する評価をユーザが任意に編集できる解データを用いた機械学習法を用いて、ユーザごとに特化した要約を行える自動要約処理装置および処理方法を実現することである。

上記の目的を達成するため、本発明は、予め備えた解データを用いた機械学習処理に対してユーザがどのような要約結果を高く評価したかの情報をフィードバックするために、ユーザが要約結果やその評価を編集できるようにし、ユーザが編集した解データのフィードバックにより、機械学習処理においてユーザごとの特性を学習し、ユーザに特化した要約を行なうことができるようにするものである。

本発明は、文書データであるテキストを機械学習法を用いて自動要約する自動要約処理装置であって、１）テキストおよび前記テキストの要約を記憶するテキスト記憶手段と、２）前記要約を表示装置に表示する要約表示処理手段と、３）前記要約に対するユーザの評価の入力を受け付けて前記要約の評価とする評価設定処理手段と、４）前記テキストおよび前記要約で構成される問題に対し前記評価を解として付与して生成した解データを解データ記憶手段に記憶する解データ出力処理手段と、５）前記解データから前記問題の素性の集合と前記解との組を抽出し、当該組から、どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と、６）要約対象のテキストを入力し、前記入力テキストから要約候補を生成する要約候補生成処理手段と、７）前記入力テキストおよび前記要約候補から素性の集合を抽出し、当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定し、要約候補と推定解との対を生成する要約候補−推定解対生成処理手段と、８）前記要約候補−推定解対から、推定解が所定の良い評価でかつ確信度が最高の対を選択し、当該対の要約候補を要約とする要約選択処理手段とを備える。

本発明は、テキスト記憶手段に記憶されたテキストの要約を表示装置に表示し、前記要約に対するユーザの評価の入力を受け付けて前記要約の評価とする。そして、前記テキストおよび前記要約で構成される問題に対し前記評価を解として付与して生成した解データを解データ記憶手段に記憶し、前記解データから前記問題の素性の集合と前記解との組を抽出し、当該組から、どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する。

その後、要約対象のテキストを入力し、前記入力テキストから要約候補を生成し、前記入力テキストおよび前記要約候補から素性の集合を抽出し、当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定し、要約候補と推定解との対（要約候補−推定解対）を生成する。そして、前記要約候補−推定解対から、推定解が所定の良い評価でかつ確信度が最高の対を選択し、当該対の要約候補を要約とする。

これにより、表示した要約に対するユーザの評価を用いてユーザが良いと考える要約を機械学習し、その後に入力したテキストについてユーザに特化した要約を行うことができる。

または、本発明は、１）テキストを記憶するテキスト記憶手段と、２）前記テキストを表示装置に表示するテキスト表示処理手段と、３）前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする要約編集処理手段と、４）所定の規則に基づいて要約を生成する処理もしくは機械学習法を用いて要約を生成する処理のいずれかの自動要約生成処理により前記テキストの要約を生成し、前記テキストおよび前記ユーザ指定要約で構成される問題に対し前記ユーザによって選ばれた良い要約であることを示す所定の良い評価を解として付与して生成した解データと、前記テキストおよび前記自動要約生成処理による要約であって前記ユーザ指定要約以外の部分からなるもので構成される問題に対し前記ユーザ指定要約ではないことを示す所定の悪い評価を解として付与して生成した解データとを解データ記憶手段に記憶する解データ出力処理手段と、５）前記解データから前記問題の素性の集合と前記解との組を抽出し、当該組から、どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と、６）要約対象のテキストを入力し、前記入力テキストから要約候補を生成する要約候補生成処理手段と、７）前記入力テキストおよび前記要約候補から素性の集合を抽出し、当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定し、要約候補と推定解との対を生成する要約候補−推定解対生成処理手段と、８）前記要約候補−推定解対から、推定解が所定の良い評価でかつ確信度が最高の対を選択し、当該対の要約候補を要約とする要約選択処理手段とを備える。

本発明は、テキスト記憶手段に記憶されたテキストを表示装置に表示し、前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする。そして、所定の規則に基づいて要約を生成する処理もしくは機械学習法を用いて要約を生成する処理のいずれかの自動要約生成処理により前記テキストの要約を生成し、前記テキストおよび前記ユーザ指定要約で構成される問題に対し前記ユーザによって選ばれた良い要約であることを示す所定の良い評価を解として付与して生成した解データと、前記テキストおよび前記自動要約生成処理による要約であって前記ユーザ指定要約以外の部分からなるもので構成される問題に対し前記ユーザ指定要約ではないことを示す所定の悪い評価を解として付与して生成した解データとを解データ記憶手段に記憶する。さらに、前記解データから前記問題の素性の集合と前記解との組を抽出し、当該組から、どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する。その後、要約対象のテキストを入力し、前記入力テキストから要約候補を生成し、前記入力テキストおよび前記要約候補から素性の集合を抽出し、当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定し、要約候補と推定解との対（要約候補−推定解対）を生成する。そして、前記要約候補−推定解対から、推定解が所定の良い評価でかつ確信度が最高の対を選択し、当該対の要約候補を要約とする。

これにより、表示したテキストからユーザによって抽出された部分をユーザが良いと評価した要約として機械学習し、その後に入力したテキストについてユーザに特化した要約を行うことができる。

または、本発明は、１）テキストおよび前記テキストの要約を記憶するテキスト記憶手段と、２）前記要約を表示装置に表示する要約表示処理手段と、３）前記要約に対するユーザの評価の入力を受け付けて前記要約の評価とする評価設定処理手段と、４）前記テキストおよび前記要約で構成される問題に対し前記ユーザが設定した評価を解として付与した解データを生成し、解データ記憶手段に記憶する解データ出力処理手段と、５）所定の評価のうち前記解となった評価以外の評価を解候補として、前記解データから前記問題の素性の集合と解もしくは解候補との組を抽出し、前記素性の集合と解との組を正例と前記素性の集合と解候補との組を負例とする素性−解対・素性−解候補対抽出処理手段と、６）前記抽出した組を教師信号として、どのような解もしくは解候補と素性の集合のときに正例である確率または負例である確率となるかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と、７）要約対象のテキストを入力し、前記入力テキストから要約候補を生成する要約候補生成処理手段と、８）前記所定の評価を解の候補として、前記入力テキストおよび前記要約候補から素性の集合と解の候補との組を生成し、当該素性の集合と解の候補の組の場合に正例もしくは負例である確率を前記学習結果データをもとに推定し、前記推定した結果を推定解として前記要約候補と解の候補の組と前記推定解との対を生成する要約候補−推定解対生成処理手段と、９）前記要約候補と解の候補の組−推定解対から、解の候補が所定の良い評価でかつ推定解の正例の確率が最高の対を選択し、当該対の要約候補を要約とする要約選択処理手段とを備える。

または、本発明は、１）テキストを記憶するテキスト記憶手段と、２）前記テキストを表示装置に表示するテキスト表示処理手段と、３）前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする要約編集処理手段と、４）所定の規則に基づいて要約を生成する処理もしくは機械学習法を用いて要約を生成する処理のいずれかの自動要約生成処理により前記テキストの要約を生成し、前記テキストおよび前記ユーザ指定要約で構成される問題に対し前記ユーザによって選ばれた良い要約であることを示す所定の良い評価を解として付与して生成した解データと、前記テキストおよび前記自動要約生成処理による要約であって前記ユーザ指定要約以外の部分からなるもので構成される問題に対し前記ユーザ指定要約ではないことを示す所定の悪い評価を解として付与して生成した解データとを解データ記憶手段に記憶する解データ出力処理手段と、５）所定の評価のうち前記解となった評価以外の評価を解候補として、前記解データから前記問題の素性の集合と解もしくは解候補との組を抽出し、前記素性の集合と解との組を正例と前記素性の集合と解候補との組を負例とする素性−解対・素性−解候補対抽出処理手段と、６）前記抽出した組を教師信号として、どのような解もしくは解候補と素性の集合のときに正例である確率または負例である確率となるかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と、７）要約対象のテキストを入力し、前記入力テキストから要約候補を生成する要約候補生成処理手段と、８）前記所定の評価を解の候補として、前記入力テキストおよび前記要約候補から素性の集合と解の候補との組を生成し、当該素性の集合と解の候補の組の場合に正例もしくは負例である確率を前記学習結果データをもとに推定し、前記推定した結果を推定解として前記要約候補と解の候補との組と前記推定解との対を生成する要約候補−推定解対生成処理手段と、９）前記要約候補と解の候補との組−推定解対から、解の候補が所定の良い評価でかつ推定解の正例の確率が最高の対を選択し、当該対の要約候補を要約とする要約選択処理手段とを備える。

または、本発明は、１）テキストを記憶するテキスト記憶手段と、２）前記テキストを表示装置に表示するテキスト表示処理手段と、３）前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする要約編集処理手段と、４）前記テキストを問題とし前記問題に対する前記ユーザ指定要約を解とする解データを生成し解データ記憶手段に記憶する解データ出力処理手段と、５）前記解データから前記問題の素性の集合と前記解との組を抽出し、当該組から、どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と、６）要約対象のテキストを入力し、前記入力テキストから素性の集合を抽出し、当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定する解推定処理手段と、７）前記解推定処理手段で推定された解を前記入力テキストの要約として出力する要約選択処理手段とを備える。

これにより、表示した要約に対するユーザの評価を用いて要約処理を機械学習し、入力したテキストについてユーザに特化した要約を行うことができる。

または、本発明は、１）テキストを記憶するテキスト記憶手段と、２）前記テキストを表示装置に表示するテキスト表示処理手段と、３）前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする要約編集処理手段と、４）前記テキストを問題とし前記問題に対する前記ユーザ指定要約を解とする解データを生成し解データ記憶手段に記憶する解データ出力処理手段と、５）所定の規則に基づいて要約を生成する処理もしくは機械学習法を用いて要約を生成する処理のいずれかの自動要約生成処理により前記テキストの要約を生成し、前記要約のうち前記ユーザ指定要約以外の部分からなるものを解候補とし、前記解データから解もしくは解候補と前記問題の素性の集合との組を抽出し、前記素性の集合と解との組を正例と前記素性の集合と解候補との組を負例とする素性−解対・素性−解候補対抽出処理手段と、６）前記抽出した組を教師信号として、どのような解もしくは解候補と素性の集合のときに正例である確率または負例である確率となるかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と、７）要約対象のテキストを入力し、前記入力テキストから要約候補を生成する要約候補生成処理手段と、８）前記要約候補を解の候補として、前記入力テキストおよび前記要約候補から素性の集合と解の候補との組を生成し、当該素性の集合と解の候補との組の場合に正例もしくは負例である確率を前記学習結果データをもとに推定し、前記推定した結果を推定解として、前記要約候補と推定解との対を生成する要約候補−推定解対生成処理手段と、９）前記要約候補−推定解対から前記推定解の正例の確率が最高の対を選択し、当該対の要約候補を要約とする要約選択処理手段とを備える。

これにより、表示したテキストから抽出された部分をユーザが良いと評価した要約として要約処理を機械学習し、入力したテキストについてユーザに特化した要約を行うことができる。

本発明にかかる処理装置の各手段または機能または要素は、コンピュータが実行可能なプログラムによっても実現できる。このプログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介して種々の通信網を利用した送受信により提供されるものである。

本発明によれば、ユーザは、機械学習の解データとされる要約結果に対する評価を任意に設定することができるため、コンピュータを用いた自動要約処理においても、一つの類型で要約するのではなく、ユーザに特化した要約を行なえることが可能となる。

また、同一人物であっても要約の評価が変化することが考えられるが、本発明によれば、同一人物であっても随時要約結果に対する評価を設定でき、新たな解データを用いて機械学習し直すことにより、新しい評価態度に合わせた要約を行なうことが可能となる。

〔第１の実施の形態〕
図１に、第１の実施の形態における本発明の処理装置の構成例を示す。

自動要約処理装置１０は、評価カスタマイズ手段１１０と、解データ記憶部１２０と、解−素性対抽出部１２１と、機械学習部１２２と、学習結果データ記憶部１２３と、要約候補生成部１２４と、素性抽出部１２５と、要約候補−推定解対生成部１２６と、要約選択部１２８とを備える。

評価カスタマイズ手段１１０は、解データ編集処理を実現する処理手段である。また、解データ記憶部１２０と、解−素性対抽出部１２１と、機械学習部１２２と、学習結果データ記憶部１２３とは、特許請求の範囲に示す自動要約処理装置の機械学習処理手段を実現する処理手段である。

評価カスタマイズ手段１１０は、要約結果やその評価をユーザごとにカスタマイズする手段であって、要約表示部１１１と、評価付与部１１２とを備える。

要約表示部１１１は、予め用意されたテキスト・要約４の要約結果を表示装置（図１に図示しない）に表示する手段である。

テキスト・要約４は、テキストとその要約結果からなる。テキストは、一または複数の記事などからなる文書データである。要約結果は、テキストを要約した文書データである。要約結果としては、人手で生成したもの、自動要約処理装置１０が入力したテキスト２に対して出力した要約３もしくは要約候補生成部１２４が生成し解データ記憶部１２０に記憶した要約候補であってもよい。

評価付与部１１２は、要約表示部１１１が表示した要約結果に対してユーザが入力した評価を付与し、または、要約結果に予め与えられている評価をユーザが入力した評価に変更する手段である。

解データ記憶部１２０は、機械学習部１２２が機械学習法を実行する際に教師とする解データを記憶する手段である。解データ記憶部１２０には、解データとして、テキストおよびその要約結果とからなる問題と要約結果に対する評価である解との組である事例が記憶される。

解−素性対抽出部１２１は、解データ記憶部１２０に記憶されている事例ごとに解と素性の集合との組を抽出する手段である。

素性とは、解析に用いる情報の細かい１単位を意味し、ここでは、１）文のなめらかさを示す情報、２）内容をよく表しているかどうかを示す情報、および、３）自動要約処理で用いられる特徴的な情報などである。

機械学習部１２２は、解−素性対抽出部１２１により抽出された解と素性の集合との組から、どのような素性の集合のときにどのような解になりやすいかを機械学習法により学習し、学習結果を学習結果データ記憶部１２３に保存する手段である。機械学習部１２２は、解データを用いた機械学習法であればどのような手法で処理を行ってもよい。手法としては、例えば、決定木法、サポートベクトル法、パラメータチューニング法、シンプルベイズ法、最大エントロピー法、決定リスト法などがある。

学習結果データ記憶部１２３は、機械学習部１２２の学習結果データを記憶する手段である。

要約候補生成部１２４は、入力されたテキスト２から、所定の方法にもとづいて要約候補を生成する手段である。要約候補生成部１２４は、重要文選択モデル、重要箇所選択モデル、変形規則を利用したモデル、ランダムジェネレーションを利用したモデルなどの種々のモデルを用いて要約候補を生成する。

素性抽出部１２５は、テキスト２および要約候補生成部１２４で生成された要約候補について素性の集合を抽出して要約候補−推定解対生成部１２６へ渡す手段である。

要約候補−推定解対生成部１２６は、学習結果データ記憶部１２３の学習結果データを参照して、素性抽出部１２５から渡された素性の集合の場合に、どのような解になりやすいかを推定して、要約候補と推定解との対（要約候補−推定解対）１２７を生成する手段である。要約候補−推定解対生成部１２６は、さらに、各要約候補−推定解対１２７に、その推定解である確信度（確率）を求めて付与しておく。

要約選択部１２８は、要約候補−推定解対１２７を受け取り、確信度の値が最も高い要約候補−推定解対１２７を選択し、その要約候補を要約３とする手段である。

第１の実施の形態における評価カスタマイズ処理を説明するため、３人のユーザＡ、Ｂ、Ｃが要約結果をカスタマイズする場合を考える。

ユーザＡは要約結果に精度に関する記載が含まれていることを重視して評価すると仮定する。ユーザＢは要約結果に手法に関する記載が含まれていることを重視し、ユーザＣは、要約結果に手法と精度の両方に関する記載が含まれていることを重視して評価すると仮定する。また、要約結果の評価を３段階に分けて、評価１＝よい、評価２＝どちらでもない、評価３＝悪い、のいずれかの分類先（評価）を与えるとする。

図２に、第１の実施の形態における評価カスタマイズ処理の流れを示す。

まず、テキスト・要約４が用意されているとする。図３にテキスト・要約４のテキストの例を示し、図４に要約結果の例を示す。図４（Ａ）〜（Ｃ）のそれぞれに、３つの要約結果ｒ１、ｒ２、ｒ３を示す。

要約表示部１１１は、テキスト・要約４から取り出した要約結果を表示画面に表示する（ステップＳ１）。そして、評価付与部１１２は、ユーザが入力した評価を受け付け、その入力された評価を表示された要約結果の解（評価）とする（ステップＳ２）。

ここで、ユーザＡが自動要約処理装置１０を使用する場合を想定する。ユーザＡは、図４（Ａ）の要約結果ｒ１に対して、精度に関係することが要約結果として抽出されているため、評価１をつける。すると、評価付与部１１２は、ユーザの入力（評価１）を受け付けて、事例ｃ１の解として評価１を設定する。

次に、要約表示部１１１が図４（Ｂ）に示す事例ｃ２の要約結果ｒ２を表示した場合には、要約結果ｒ２は精度に関係することが抽出されていないため、ユーザＡは、要約結果ｒ２に対して評価３をつけ、評価付与部１１２は、事例ｃ２の解として評価３を設定する。

さらに、要約表示部１１１が図４（Ｃ）に示す事例ｃ３の要約結果ｒ３を表示した場合には、要約結果ｒ３は精度に関係するところが抽出されているが若干冗長であるため、ユーザＡは評価２をつけ、評価付与部１１２は事例ｃ３の解として評価２を設定する。

同様に、ユーザＢの場合を想定する。ユーザＢは、図４（Ａ）に示す要約結果ｒ１に対して手法に関係するところが抽出されていないために評価３をつけ、図４（Ｂ）に示す要約結果ｒ２に対して手法に関係するところが抽出されていることから評価１をつけ、図４（Ｃ）に示す要約結果ｒ３に対して手法に関係するところが抽出されているが若干冗長であるため評価２をつける。

また、同様に、ユーザＣの場合を想定する。ユーザＣは、図４（Ａ）に示す要約結果ｒ１に対して精度に関係するところが抽出されているが手法に関係するところが抽出されれていないため評価２をつけ、図４（Ｂ）に示す要約結果ｒ２に対して手法に関係するところが抽出されているが精度に関係するところが抽出されていないため評価２をつけ、図４（Ｃ）に示す要約結果ｒ３について手法および精度のいずれにも関係するところが抽出されているが若干冗長であるため評価１をつける。

評価付与部１１２は、ユーザＢおよびユーザＣごとに要約結果ｒ１〜ｒ３に対する入力評価を、それぞれの事例ｃ１〜ｃ３の解（評価）として設定する。

そして、評価カスタマイズ手段１１０は、テキスト・要約４で与えられたテキストとその要約結果と解とを事例として解データ記憶部１２０に記憶する（ステップＳ３）。

図５に、機械学習処理および自動要約処理の流れを示す。

解−素性対抽出部１２１は、解データ記憶部１２０から、事例ごとに解と素性の集合との組を抽出する（ステップＳ１１）。

解−素性対抽出部１２１は、例えば、１）文のなめらかさを示す情報として、ｋ−ｇｒａm 形態素列のコーパスでの存在、かかりうけ文節間の意味的整合度などを、また、２）内容をよく表しているかどうかを示す情報として、要約前のテキストにあったキーフレーズの包含率などを、また、３）自動要約で用いられる情報として、その文の位置やリード文かどうか、ＴＦ／ＩＤＦ（ＴＦは文書中でのその語の出現回数もしくは頻度を示す値、ＩＤＦはあらかじめ持っている多数の文書群のうち、その語が出現する文書数の逆数をいう。）、文の長さ、固有表現・接続詞・機能語などの手がかり表現の存在などを、素性として抽出する。

次に、機械学習部１２２は、解と素性の集合との組から、どのような素性の集合のときにどのような解になりやすいかを機械学習法により学習し、学習結果を学習結果データ記憶部１２３に記憶する（ステップＳ１２）。

ここでユーザＡの処理の場合に、解データ記憶部１２０に記憶される解データの「事例：問題→解」は、
事例ｃ１：テキスト−要約結果ｒ１→評価１、
事例ｃ２：テキスト−要約結果ｒ２→評価３、
事例ｃ３：テキスト−要約結果ｒ３→評価２
となり、機械学習部１２２は、これらの解データをもとに、どのような場合に評価１〜評価３になるかを機械学習で学習する。例えば、事例ｃ１→評価１や事例ｃ３→評価２から、機械学習部１２２は、精度の表現、例えば「数字＋［％］」の表現が出現すると評価が高くなるなどを学習する。ここで、「数字＋［％］」の表現は、学習に用いる素性の例である。

また、ユーザＢの処理の場合に、「事例：問題→解」は、
事例ｃ１：テキスト−要約結果ｒ１→評価３、
事例ｃ２：テキスト−要約結果ｒ２→評価１、
事例ｃ３：テキスト−要約結果ｒ３→評価２
となり、機械学習部１２２は、「手がかり表現」や「用例」などの手法に相当する専門用語が出現すると評価が高くなるように学習する。

また、ユーザＣの処理の場合に、「事例：問題→解」は、
「事例ｃ１：テキスト−要約結果ｒ１→評価２、
事例ｃ２：テキスト−要約結果ｒ２→評価２、
事例ｃ３：テキスト−要約結果ｒ３→評価１」
となり、機械学習部１２２は、精度の表現または手法に相当する表現の両方が出現すると評価が高くなるように学習する。

また、要約結果として出力される文章は短いほどよいので、それぞれの処理の場合において、文章の長さが短いほど評価が高くなるように学習する。

機械学習の手法としては、例えば、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などを用いる。

シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類とする方法である。

決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。

最大エントロピー法は、あらかじめ設定しておいた素性ｆ_j（１≦ｊ≦ｋ）の集合をＦとするとき、所定の条件式を満足しながらエントロピーを意味する式を最大にするときの確率分布を求め、その確率分布にしたがって求まる各分類の確率のうち、もっとも大きい確率値を持つ分類を求める分類とする方法である。

サポートベクトルマシン法は、空間を超平面で分割することにより、２つの分類からなるデータを分類する手法である。

決定リスト法および最大エントロピー法については、以下の参考文献１に、サポートベクトルマシン法については、以下の参考文献２および参考文献３に説明されている。
［参考文献１：村田真樹、内山将夫、内元清貴、馬青、井佐原均、種々の機械学習法を用いた多義解消実験、電子情報通信学会言語理解とコミュニケーション研究会，NCL2001-2, (2001) ]
［参考文献２：Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and Other Kernel-based Learning Methods,(Cambridge University Press,2000) ］
［参考文献３：Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aist-nara.ac.jp/taku-ku//software/TinySVM/index.html,2000) ］
その後、要約を求めたいテキスト２が入力されると（ステップＳ１３）、要約候補生成部１２４は、例えば以下に示すような処理モデルを用いて、テキスト２から要約候補を作成する（ステップＳ１４）。

１）重要文選択モデル
重要文選択モデルとは、文を単位に要約し、重要と思われる文のみを選択して残すことにより要約を実現するモデルである。このモデルの場合には、あらゆる文選択の状態をすべて解の候補とするとよい。また、すべてを解の候補とすると計算速度に支障が生じる場合には、予め備えておいた選択規則を用いて、この選択規則を満足する文の選択状態のみを解の候補とする。すなわち、所定の選択規則により候補数を減少させて処理の負荷を軽減する。なお、選択規則は、人手による規則であってもよい。

２）重要箇所選択モデル
重要箇所選択モデルとは、文よりも小さいものを要約の単位として、不要なものを削除することにより要約を実現するモデルである。単位を文より小さいものとすること以外については、上記１）重要文選択モデルと同様である。文よりも小さいものとして、例えば文節を用いる。すなわち、文節を単位として不要な文節を消していくことにより要約を実現する。この重要箇所選択モデルの場合は、あらゆる文節の選択の状態をすべて解の候補とする。また、すべてを解の候補とすると計算速度に支障が生じる場合には、上記１）重要文選択モデルと同様に、予め選択規則を用意しておき、この選択規則を満足する文の選択状態のみを解の候補とする。

３）変形規則を利用したモデル
変形規則を利用したモデルとは、予め用意した変形規則を利用して要約結果を生成するモデルである。変形規則は、自動処理により獲得するか、または人手で作成しておいたものを利用する。例えば、「Ｘして、Ｙした。」を「Ｘした。」もしくは「Ｙした。」に書き換えるような変形規則を作っておき、この変形規則に従って入力「Ａして、Ｂした。」が与えられたときに「Ａした。」や「Ｂした。」という要約候補を生成する。

４）ランダムジェネレーションを利用したモデル
ランダムジェネレーションを利用したモデルは、例えば、入力「・・・Ｘ・・・」があったときに「・・・Ｙ・・・」を要約候補とするようなモデルである。このとき、置き換えられるＸはランダムに選ばれてもよいし、予め用意しておいた置換規則によって指定してもよい。置換規則は、人手によって生成されたものや、自動獲得したものなどを用いる。また、置き換えた先の表現Ｙは、ある辞書の単語もしくは文字列の集合からランダムに選ばれてもよいし、予め用意しておいた変換規則によって指定してもよい。変換規則は、置換規則と同様、人手によって生成されたものや、自動獲得したものなどを用いる。このとき、ＸやＹをランダムに選ばずに、変換規則にもとづいて選ぶとすると、変形規則を利用したモデルと同じようなものになる。

素性抽出部１２５は、解−素性対抽出部１２１とほぼ同様の処理によって、入力したテキスト２および要約候補から素性の集合を抽出し、要約候補−推定解対生成部１２６へ渡す（ステップＳ１５）。

そして、要約候補−推定解対生成部１２６は、受け取った素性の集合の場合にどのような解になりやすいかを、学習結果データをもとに推定し、すなわち、複数の要約候補のそれぞれの解（評価）とその確信度を学習結果データにもとづき算出し、要約候補と推定解との対（要約候補−推定解対）１２７を生成する（ステップＳ１６）。

そして、要約選択部１２８は、生成された要約候補−推定解対１２７から、推定解の確信度の値が最もよい要約候補−推定解対１２７を選択し、その要約候補を要約３とする（ステップＳ１７）。

図６に、第１の実施の形態における本発明の処理装置の別の構成例を示す。

本形態では、解（分類先）として多数の候補が考えられるが、分類先の種類数が多くなり過ぎて、一般の機械学習法で処理ができない場合が生じうる。このような場合に、図６に示す自動要約処理装置２０では、機械学習部１３２は、実際の機械学習処理において正例と負例の二種類の解（分類先）のみを考える機械学習手法を用いることにより処理が可能となる。

また、図６に示す自動要約処理装置２０では、機械学習部１３２の学習の素性に評価という情報を用いることもできる。

自動要約処理装置２０は、評価カスタマイズ手段１１０と、解データ記憶部１３０と、素性−解対・素性−解候補対抽出部１３１と、機械学習部１３２と、学習結果データ記憶部１３３と、要約候補生成部１３４と、素性−解候補抽出部１３５と、要約候補−推定解対生成部１３６と、要約選択部１３８とを備える。

解データ記憶部１３０と、素性−解対・素性−解候補対抽出部１３１と、機械学習部１３２と、学習結果データ記憶部１３３とは、特許請求の範囲に示す自動要約処理装置の機械学習処理手段を実現する処理手段である。また、要約候補生成部１３４と、素性−解候補抽出部１３５と、要約候補−推定解対生成部１３６とは、特許請求の範囲に示す要約候補生成処理手段を実現する処理手段である。

評価カスタマイズ手段１１０および要約候補生成部１３４は、図１に示す自動要約処理装置１０の評価カスタマイズ手段１１０および要約候補生成部１２４と同様の処理を行う。

素性−解対・素性−解候補対抽出部１３１は、解データ記憶部１３０に記憶されている事例ごとに、解もしくは解候補と素性の集合との組を抽出する手段である。ここでは、解の候補は解以外の解の候補を意味し、ユーザが設定した評価を解とする。また、解と素性の集合の組を正例とし、解の候補と素性の集合との組を負例とする。

機械学習部１３２は、解もしくは解の候補と素性の集合との組から、どのような解もしくは解の候補と素性の集合のときに正例である確率や負例である確率を学習し、その学習結果を学習結果データ記憶部１３３に記憶する手段である。

素性−解候補抽出部１３５は、素性−解対・素性−解候補対抽出部１３１と同様の処理により、入力されたテキストおよび要約候補について、解の候補と素性の集合との組を抽出する手段である。

要約候補−推定解対生成部１３６は、渡された解の候補と素性の集合との組の場合に正例である確率や負例である確率を求め、正例である確率が最も大きい解を推定解として、その場合の要約候補と推定解との対（要約候補−推定解対）１３７を生成する手段である。

要約選択部１３８は、要約候補−推定解対１３７の要約候補を要約３とする手段である。

図７に、自動要約処理装置２０の機械学習処理および自動要約処理の流れを示す。

素性−解対・素性−解候補対抽出部１３１は、解データ記憶部１３０から、各事例ごとに解もしくは解の候補と素性の集合との組を抽出する（ステップＳ２１）。そして、機械学習部１３２は、解もしくは解の候補と素性の集合との組から、どのような解もしくは解の候補と素性の集合のときに、正例である確率や負例である確率を機械学習法により学習し、学習結果を学習結果データ記憶部１３３に記憶する（ステップＳ２２）。

その後、要約を求めたいテキスト２が入力されると（ステップＳ２３）、要約候補生成部１３４は、所定の方法でテキスト２から要約候補を生成する（ステップＳ２４）。そして、素性−解候補抽出部１３５は、入力したテキスト２および要約候補から素性の集合と解の候補との組を抽出し、要約候補−推定解対生成部１３６へ渡す（ステップＳ２５）。

要約候補−推定解対生成部１３６は、受け取った解の候補と素性の集合との組の場合に正例や負例である確率を学習結果データをもとに推定し、正例である確率が最も大きい解の候補を推定解として、要約候補−推定解対１３７を生成し（ステップＳ２６）、要約選択部１３８は、要約候補−推定解対１３７の要約候補を要約３とする（ステップＳ２７）。

第１の実施の形態では、ユーザは必要なときに自動要約処理装置１を使用しながら、その使用の際に出力された要約結果に対して評価１〜３をつければよい。したがって、ユーザは、操作負担を感じることなく要約結果の評価をカスタマイズすることが可能となる。

〔第２の実施の形態〕
図８に、第２の実施の形態における本発明の処理装置の構成例を示す。図８に示す自動要約処理装置３０は、図１に示す自動要約処理装置１０の評価カスタマイズ手段１１０の代わりに評価カスタマイズ手段１４０を備え、また自動要約処理装置１０を構成する評価カスタマイズ手段１１０以外の処理手段を備える。

評価カスタマイズ手段１４０は、テキスト表示部１４１と、要約編集部１４２とを備える。

テキスト表示部１４１は、予め用意したテキスト５を表示装置（図８に図示しない）に表示する手段である。

要約編集部１４２は、テキスト表示部１４１が表示したテキスト５からユーザが要約として指定した部分を抽出して、または、ユーザが指定した部分内の表現を変更して要約を編集する手段である。

図９に、第２の実施の形態における評価カスタマイズ処理の流れを示す。

テキスト表示部１４１は、予め用意したテキスト５を取り込み、表示装置に表示する（ステップＳ３１）。表示したテキスト５上でユーザに要約結果として良いと思われる部分を指定させ、ユーザが指定した範囲を受け付けて抽出する（ステップＳ３２）。また、指定した範囲の部分が編集されたら、その編集内容を受け付け、編集後の指定範囲部分を要約結果とする（ステップＳ３３）。

ユーザは、表示されたテキスト上をマウスなどのポインティング・デバイスによるドラッグや、カーソルキー移動による開始位置および終了位置の指定などにより要約とする範囲を指定する。テキスト表示部１４１は、指定された範囲を、反転もしくはマーキングなどの表示により、指定されなかった範囲と区別して表示する。

図１０に、表示されるテキストの例およびユーザＡが指定した範囲の例を示す。ユーザＡは、破線で囲む部分「小説を対象にして実験を行なったところ、テストサンプルで再現率８４％、適合率８２％の精度で解析できた。」を要約としてよい部分であると指定する。要約編集部１４２は、図１０のテキストの破線の矩形で示された部分を要約結果とする。

また、ユーザＢは、図１１に示すように、テキストの破線で囲む部分「自然言語では、動詞を省略するということがある。この省略された動詞を復元することは、対話システムや高品質の機械翻訳システムの実現には不可欠なことである。そこで本研究では、この省略された動詞を表層の表現（手がかり語) と用例から補完することを行なう。」を要約として良いと指定する。また、ユーザＣの場合には、図１２に示すように、２つの破線の矩形で囲まれた部分「自然言語では、動詞を省略するということがある。この省略された動詞を復元することは、対話システムや高品質の機械翻訳システムの実現には不可欠なことである。そこで本研究では、この省略された動詞を表層の表現（手がかり語) と用例から補完することを行なう。」と部分「小説を対象にして実験を行なったところ、テストサンプルで再現率84％、適合率82％の精度で解析できた。」とを要約としてよいと指定する。要約編集部１４２は、図１１および図１２に示すテキストの破線の矩形で示された部分をそれぞれ要約結果とする。

なお、ユーザが指定した範囲をテキストと別に表示し、指定範囲内の表現について、ユーザが任意の箇所を削除したり、または表現を変更したりして、その内容を編集できるようにしてもよい。図１３に示すように、テキスト上で指定した範囲をテキストと別に表示して、指定範囲内の語句などを削除し、追加し、訂正することができるようにする。要約編集部１４２は、要約決定ボタンがクリック等の操作で選択されると、その選択を受け付けて、指定範囲の内容を要約結果とする。なお、キャンセルボタンが選択された場合には、指定範囲の内容をクリアする。

そして、要約編集部１４２は、テキスト５と要約結果とを、所定の解（良い評価）とともに解データ記憶部１３０に記憶する（ステップＳ３４）。さらに、評価カスタマイズ手段１４０は、第１の実施の形態において、自動要約処理装置２０が生成した要約、自動要約処理装置２０の要約候補生成部１２４が生成した要約候補、人手でランダムに生成した要約などのユーザが指定した要約以外の要約に対して所定の解（悪い評価）を付与した解データも解データ記憶部１３０へ記憶する。

以降、機械学習処理および自動要約処理の流れは、図５に示す処理の流れと同様である。ここで、機械学習部１２２は、それぞれのユーザごとに、図３に示すテキストと、図１０〜図１２に示す要約結果のいずれか（すなわち、ユーザ指定範囲）と、解とする事例について学習する。

図１４に、第２の実施の形態における本発明の処理装置の別の構成例を示す。本形態においても、解（分類先）の種類数が多くなり過ぎて、一般の機械学習法で処理ができない場合が生じうる。

このため、図１４に示す自動要約処理装置４０では、機械学習部１３２は、実際の機械学習処理において正例と負例の二種類の解（分類先）のみを考える機械学習手法を用いることにより処理を可能としている。

自動要約処理装置４０は、図６に示す自動要約処理装置２０を構成する処理手段と同様の処理手段を備え、かつ、評価カスタマイズ手段１１０の代わりに評価カスタマイズ手段１４０を備えるものである。

本形態では、ユーザに要約としてよい範囲をテキスト上で指定させるため、第１の実施の形態に比べてユーザの負担は大きい。しかし、ユーザが求める要約結果により近いものを解データ（教師）とすることができるため、ユーザが所望する要約結果をより早く出力できるように学習することができる。

〔第３の実施の形態〕
図１５に、第３の実施の形態における本発明の処理装置の構成例を示す。図１５に示す自動要約処理装置５０は、図１に示す自動要約処理装置１０の評価カスタマイズ手段１１０の代わりに評価カスタマイズ手段１５０を備え、また他の処理手段として、自動要約処理装置１０を構成する処理手段と同様の処理手段を備える。

評価カスタマイズ手段１５０は、要約表示部１５１と、性質情報設定部１５２とを備える。

要約表示部１５１は、予め用意しておいたテキスト・要約４の要約結果を表示装置（図１５に図示しない）に表示する手段である。

性質情報設定部１５２は、要約結果の評価にかかわる複数の性質情報を生成し、性質情報ごとの評価を設定する手段である。

性質情報とは、要約結果の評価を構成する種々の性質に関する情報であり、例えば、短い文を重視しているかどうかという情報（短文重視）、要約結果に数量についての表現が含まれていることを重視しているかどうかという情報（数量表現重視）、要約結果に手法についての表現が含まれていることを重視しているかどうかという情報（手法重視）、要約結果の文体を重視しているかどうかという情報（文体重視）、要約結果の読みやすさを重視しているかどうかという情報（読みやすさ重視）などである。

評価カスタマイズ手段１５０は、機械学習部１２２において要約結果の評価にかかわる複数の性質をそれぞれ学習することができるように、ユーザが随時必要となった評価にかかわる複数の性質情報を任意に設定できるようにして、要約結果に対するユーザの評価を複数の性質情報を用いて定義する。

本形態では、性質情報設定部１５２で設定された性質情報の数に対応して解データ記憶部１２０を用意し、各性質情報ごとに機械学習を行なう。したがって、解−素性対抽出部１２１、機械学習部１２２、学習結果データ記憶部１２３、要約候補−推定解対生成部１２６の各処理手段は、性質情報の数に対応して備えられる。

図１６に、評価カスタマイズ処理の流れを示す。

要約表示部１５１は、テキスト・要約４から取り出した要約結果を表示する（ステップＳ４１）。性質情報設定部１５２は、表示した要約結果に対して複数の性質情報の項目を表示し、ユーザに各項目の値や、新規項目の設定などを促し、ユーザの入力を受け付ける（ステップＳ４２）。

図１７および図１８に、性質情報設定画面の例を示す。性質情報設定画面では、複数の位置情報のそれぞれに対応してスライドバーが設けられている。ユーザはそれぞれの性質情報のスライドバー上でスライドボタンを右側や左側など任意の位置を定めて性質情報ごとの評価を指定できる。例えば、ユーザは、表示された要約結果に対して「短い文重視、数量表現重視、手法重視、文体重視、読みやすさ重視」などの性質情報の項目ごとに、それぞれどのくらいの評価になるかを、スライドバー上でスライドボタンを移動させて設定する。図１７および図１８では、スライドバーの左端から右端に向かって評価が高くなるように設定されているとする。また、ユーザはスライドバーの横に任意の性質情報を入力することにより、スライドバーが何を意味するかについて自由に定義できる。

要約表示部１５１が図４（Ａ）に示す要約結果ｒ１を表示した場合に、図１７に示すように、ユーザＡは、要約結果ｒ１が短い文なので「短い文重視」のスライドボタンを右側へ、また数量に関する表現があるので「数量表現重視」のスライドボタンを右側へ、また手法にふれていないので「手法重視」のスライドボタンを左側へ、文体と読みやすさとはそれほど悪くないので、「文体重視」および「読みやすさ重視」のスライドボタンを右側へ位置させる。

また、要約表示部１５１が図４（Ｂ）に示す要約結果ｒ２を表示した場合に、ユーザＡは、図１８に示すように、要約結果ｒ２がそれほど短くないので、「短い文重視」のスライドボタンを左側へ、その他の性質情報は、まあまあよいので、その他の性質情報のスライドボタンを右側へ移動させる。

そして、性質情報設定部１５２は、入力された性質情報ごとの値をそれぞれ解とし、その解とテキストと要約結果とを事例として性質情報ごとの解データ記憶部１２０に記憶する（ステップＳ４３）。

以降、機械学習処理および自動要約処理の流れは、図５に示す処理の流れとほぼ同様である。ここで、性質情報ごとに備えられた機械学習部１２２は、対応する性質情報の解データ記憶部１２０に記憶された事例を解データ（教師データ）として使用する。機械学習部１２２は、それぞれの性質情報ごとに学習を行なう。例えば、性質情報「短い文重視」については、各事例の解は、事例ｃ１（要約結果ｒ１）では「解＝最右側」、事例ｃ２（要約結果ｒ２）では、「解＝左側」という解ができる。機械学習部１２２は、これらの解データを教師データとして利用して、どういうときに短い文重視で評価されるのかを学習していく。また、その他の性質情報についても同様の学習を行なう。

本形態では、機械学習処理後、要約候補生成部１２４は、入力されたテキスト２から所定の方法で要約候補を生成し、素性抽出部１２５は、入力テキスト２および要約候補から素性の集合を抽出する。

そして、各性質情報に対応する要約候補−推定解対生成部１２６は、受け取った素性の集合の場合にどのような解になりやすいかを学習結果データをもとに推定し、要約候補と推定解との対（要約候補−推定解対）１２７を生成する。例えば、要約候補−推定解対生成部１２６は、複数の要約候補のそれぞれの推定解とその確信度を学習結果データにもとづき算出して、それぞれの性質情報ごとの要約候補−推定解対１２７を生成する。

要約選択部１２８は、要約結果に対する評価の性質情報をどの程度重視するかを設定したユーザ評価設定情報７を受け付けて、要約候補−推定解対１２７で各性質情報の評価の値を、ユーザ評価設定情報７と比較して、最も似た要約候補−推定解対、もしくはユーザ評価設定情報７に最も適した要約候補−推定解対を選択し、その要約候補−推定解対１２７の要約候補を要約３とする。

要約選択部１２８は、図１７に示すような性質情報設定画面を表示して、ユーザが現在必要な要約結果の性質であるユーザ評価設定情報７を、性質情報の各項目のスライドバー上のスライドボタンの位置を変更して設定するように促してもよい。

例えば、「短い文重視」、「数量表現重視」、「手法重視」のスライドボタンを最右側に移動させ、「文体重視」、「読みやすさ重視」のスライドボタンを最左側へ移動させる場合には、ユーザは、なるべく短く、また、数量表現および手法は欠かさず、しかし、文体や読みやすさは軽視するというような性質の評価に適合する要約３を要求していることを意味するユーザ評価設定情報７となる。

また、要約選択部１２８は、要約候補−推定解対１２７の簡単な選択方法として、例えば以下の式を利用して、すべての解の組合せの値Total ＿Score を求めてもよい。

Total ＿Score ＝ａ（短い文重視）×ｓｃｏｒｅ（短い文重視）
＋ａ（数量表現重視）×ｓｃｏｒｅ（数量表現重視)
＋ａ（手法重視) ×ｓｃｏｒｅ（手法重視)
＋ａ（文体重視) ×ｓｃｏｒｅ（文体重視)
＋ａ（読みやすさ重視) ×ｓｃｏｒｅ（読みやすさ重視)
ただし、ａ（Ｘ）はユーザが指定した性質情報Ｘのスライドバーのスライドボタン位置から求まる値である。スライドボタンがスライドバーの右側に位置するほど大きな値を持つとしている。ｓｃｏｒｅ（Ｘ）は学習結果データにもとづいて算出された性質情報Ｘの評価の値である。要約選択部１２８は、この組合せ値 Total＿Score が最も大きい要約候補−推定解対１２７を選択し、その要約候補を要約３として出力する。

本形態では、機械学習部１２２で用いる要約結果を表示させてユーザに評価させるという、第１の実施の形態における処理に近い処理方法を採用した。しかし、本形態では、第２の実施の形態における機械学習の手法のように、ユーザにテキストから要約結果としてよいと思われる範囲を指定させた上で、さらに、ユーザに評価にかかわる複数の性質をスライドバーなどを用いて評価させて、教師信号である解データを収集するようにしてもよい。かかる処理の場合には、同一ユーザであっても処理を行なう度に所望する要約のタイプが異なるような状況にも対処することが可能となる。また、同時に複数の性質情報を学習することが可能であるため、ユーザが評価（解）を与える際の処理負担も全体として軽減することが可能となる。

本形態では、図１９に示すような処理手段の構成を持つ自動要約処理装置６０としてもよい。図１９の自動要約処理装置６０は、図６に示す自動要約処理装置２０を構成する処理手段と同様の処理手段を備え、かつ評価カスタマイズ手段１１０の代わりに評価カスタマイズ手段１５０を備えるものである。

自動要約処理装置６０は、実際の機械学習処理において、正例と負例の二種類の解（分類先）のみを考える機械学習手法を用いることにより、機械学習での過重な処理負担を回避することができる。

以上、本発明をその実施の態様により説明したが、本発明はその主旨の範囲において種々の変形が可能である。例えば、第１の実施の形態ないし第３の実施の形態のいずれの形態をも組み合わせて実施することも可能である。

〔第４の実施の形態〕
図２０に、第４の実施の形態における本発明の処理の構成例を示す。図２０に示す自動要約処理装置７０は、解データ記憶部１２０と、解−素性対抽出部１２１と、機械学習部１２２と、学習結果データ記憶部１２３と、素性抽出部１２５と、解推定部１６０と、評価カスタマイズ手段１４０とを備える。

自動要約処理装置７０の解データ記憶部１２０、解−素性対抽出部１２１、機械学習部１２２、学習結果データ記憶部１２３、素性抽出部１２５および評価カスタマイズ手段１４０とは、図８に示す同一番号が付与された処理手段とほぼ同様の処理を行う手段である。

解推定部１６０は、学習結果データ記憶部１２３の学習結果データを参照して、素性抽出部１２５から渡された素性の集合の場合に、どのような解になり易いかを推定し、その推定解１６１を要約３とする手段である。

本形態では、解データ記憶部１２０は、テキストを問題としテキストの要約結果を解とする解データを記憶し、機械学習部１２２は、かかる解データから抽出された解−素性対を用いて機械学習を行う。また、素性抽出部１２５は、入力されたテキスト２の素性を抽出して、解推定部１６０に渡す。

図２１に、第４の実施の形態における機械学習処理および自動要約処理の流れを示す。

解−素性対抽出部１２１は、解データ記憶部１２０から、事例ごとに解と素性の集合との組を抽出し（ステップＳ５１）、次に、機械学習部１２２は、解と素性の集合との組から、どのような素性の集合のときにどのような解になりやすいかを機械学習法により学習し、学習結果を学習結果データ記憶部１２３に記憶する（ステップＳ５２）。なお、ステップＳ５１、Ｓ５２の処理は、図５に示すステップＳ１１、Ｓ１２の処理と同様である。

その後、要約を求めたいテキスト２が入力されると（ステップＳ５３）、素性抽出部１２５は、解−素性対抽出部１２１とほぼ同様の処理によって、入力したテキスト２から素性の集合を抽出し、解推定部１６０へ渡す（ステップＳ５４）。そして、解推定部１６０は、受け取った素性の集合の場合にどのような解になりやすいかを、学習結果データをもとに推定し、その推定解１６１を要約３とする（ステップＳ５５）。

本形態では、テキストの要約結果を解とする解データを用いて機械学習を行い、その学習結果を参照した解推定処理において要約とするべき推定解を直接求めるようにする。

以上、本発明をその実施の形態により説明したが、本発明はその主旨の範囲において種々の変形が可能であることは当然である。

また、本発明は、コンピュータにより読み取られ実行される処理プログラムとして実施するものとして説明したが、本発明を実現する処理プログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介して種々の通信網を利用した送受信により提供されるものである。

第１の実施の形態における本発明の処理装置の構成例を示す図である。第１の実施の形態における評価カスタマイズ処理の流れを示す図である。対象となるテキストの例を示す図である。要約結果の例を示す図である。図１に示す処理装置における機械学習処理および自動要約処理の流れを示す図である。第１の実施の形態における本発明の処理装置の別の構成例を示す図である。図６に示す処理装置における機械学習処理および自動要約処理の流れを示す図である。第２の実施の形態における本発明の処理装置の構成例を示す図である。第２の実施の形態における評価カスタマイズ処理の流れを示す図である。表示されるテキストの例およびユーザＡの指定範囲の例を示す図である。表示されるテキストの例およびユーザＢの指定範囲の例を示す図である。表示されるテキストの例およびユーザＣの指定範囲の例を示す図である。ユーザが指定した範囲の表示の例を示す図である。第２の実施の形態における本発明の処理装置の別の構成例を示す図である。第３の実施の形態における本発明の処理装置の構成例を示す図である。第３の実施の形態における評価カスタマイズ処理の流れを示す図である。性質情報設定画面の例を示す図である。性質情報設定画面の例を示す図である。第３の実施の形態における本発明の処理装置の別の構成例を示す図である。第４の実施の形態における本発明の処理装置の構成例を示す図である。図２０に示す処理装置における機械学習処理および自動要約処理の流れを示す図である。

符号の説明

１０自動要約処理装置
１１０評価カスタマイズ手段
１１１要約表示部
１１２評価付与部
１２０解データ記憶部
１２１解−素性対抽出部
１２２機械学習部
１２３学習結果データ記憶部
１２４要約候補生成部
１２５素性抽出部
１２６要約候補−推定解対生成部
１２７要約候補−推定解対
１２８要約選択部
１３０解データ記憶部
１３１素性−解対・素性−解候補対抽出部
１３２機械学習部
１３３学習結果データ記憶部
１３４要約候補生成部
１３５素性−解候補抽出部
１３６要約候補−推定解対生成部
１３７要約候補−推定解対
１３８要約選択部
１４０評価カスタマイズ手段
１４１テキスト表示部
１４２要約編集部
１５０評価カスタマイズ手段
１５１要約表示部
１５２性質情報設定部
１６０解推定部
１６１推定解
２テキスト
３要約
４テキスト・要約
５テキスト
７ユーザ評価設定情報

Claims

文書データであるテキストを機械学習法を用いて自動要約する自動要約処理装置であって、
テキストおよび前記テキストの要約を記憶するテキスト記憶手段と、
前記要約を表示装置に表示する要約表示処理手段と、
前記要約に対するユーザの評価の入力を受け付けて前記要約の評価とする評価設定処理手段と、
前記テキストおよび前記要約で構成される問題に対し前記評価を解として付与して生成した解データを解データ記憶手段に記憶する解データ出力処理手段と、
前記解データから前記問題の素性の集合と前記解との組を抽出し、当該組から、どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と、
要約対象のテキストを入力し、前記入力テキストから要約候補を生成する要約候補生成処理手段と、
前記入力テキストおよび前記要約候補から素性の集合を抽出し、当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定し、要約候補と推定解との対を生成する要約候補−推定解対生成処理手段と、
前記要約候補−推定解対から、推定解が所定の良い評価でかつ確信度が最高の対を選択し、当該対の要約候補を要約とする要約選択処理手段とを備える
ことを特徴とする自動要約処理装置。
文書データであるテキストを機械学習法を用いて自動要約する自動要約処理装置であって、
テキストを記憶するテキスト記憶手段と、
前記テキストを表示装置に表示するテキスト表示処理手段と、
前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする要約編集処理手段と、
所定の規則に基づいて要約を生成する処理もしくは機械学習法を用いて要約を生成する処理のいずれかの自動要約生成処理により前記テキストの要約を生成し、前記テキストおよび前記ユーザ指定要約で構成される問題に対し前記ユーザによって選ばれた良い要約であることを示す所定の良い評価を解として付与して生成した解データと、前記テキストおよび前記自動要約生成処理による要約であって前記ユーザ指定要約以外の部分からなるもので構成される問題に対し前記ユーザ指定要約ではないことを示す所定の悪い評価を解として付与して生成した解データとを解データ記憶手段に記憶する解データ出力処理手段と、
前記解データから前記問題の素性の集合と前記解との組を抽出し、当該組から、どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と、
要約対象のテキストを入力し、前記入力テキストから要約候補を生成する要約候補生成処理手段と、
前記入力テキストおよび前記要約候補から素性の集合を抽出し、当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定し、要約候補と推定解との対を生成する要約候補−推定解対生成処理手段と、
前記要約候補−推定解対から、推定解が所定の良い評価でかつ確信度が最高の対を選択し、当該対の要約候補を要約とする要約選択処理手段とを備える
ことを特徴とする自動要約処理装置。
文書データであるテキストを機械学習法を用いて自動要約する自動要約処理装置であって、
テキストおよび前記テキストの要約を記憶するテキスト記憶手段と、
前記要約を表示装置に表示する要約表示処理手段と、
前記要約に対するユーザの評価の入力を受け付けて前記要約の評価とする評価設定処理手段と、
前記テキストおよび前記要約で構成される問題に対し前記ユーザが設定した評価を解として付与した解データを生成し、解データ記憶手段に記憶する解データ出力処理手段と、
所定の評価のうち前記解となった評価以外の評価を解候補として、前記解データから前記問題の素性の集合と解もしくは解候補との組を抽出し、前記素性の集合と解との組を正例と前記素性の集合と解候補との組を負例とする素性−解対・素性−解候補対抽出処理手段と、
前記抽出した組を教師信号として、どのような解もしくは解候補と素性の集合のときに正例である確率または負例である確率となるかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と、
要約対象のテキストを入力し、前記入力テキストから要約候補を生成する要約候補生成処理手段と、
前記所定の評価を解の候補として、前記入力テキストおよび前記要約候補から素性の集合と解の候補との組を生成し、当該素性の集合と解の候補の組の場合に正例もしくは負例である確率を前記学習結果データをもとに推定し、前記推定した結果を推定解として前記要約候補と解の候補の組と前記推定解との対を生成する要約候補−推定解対生成処理手段と、
前記要約候補と解の候補の組−推定解対から、解の候補が所定の良い評価でかつ推定解の正例の確率が最高の対を選択し、当該対の要約候補を要約とする要約選択処理手段とを備える
ことを特徴とする自動要約処理装置。
文書データであるテキストを機械学習法を用いて自動要約する自動要約処理装置であって、
テキストを記憶するテキスト記憶手段と、
前記テキストを表示装置に表示するテキスト表示処理手段と、
前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする要約編集処理手段と、
所定の規則に基づいて要約を生成する処理もしくは機械学習法を用いて要約を生成する処理のいずれかの自動要約生成処理により前記テキストの要約を生成し、前記テキストおよび前記ユーザ指定要約で構成される問題に対し前記ユーザによって選ばれた良い要約であることを示す所定の良い評価を解として付与して生成した解データと、前記テキストおよび前記自動要約生成処理による要約であって前記ユーザ指定要約以外の部分からなるもので構成される問題に対し前記ユーザ指定要約ではないことを示す所定の悪い評価を解として付与して生成した解データとを解データ記憶手段に記憶する解データ出力処理手段と、
所定の評価のうち前記解となった評価以外の評価を解候補として、前記解データから前記問題の素性の集合と解もしくは解候補との組を抽出し、前記素性の集合と解との組を正例と前記素性の集合と解候補との組を負例とする素性−解対・素性−解候補対抽出処理手段と、
前記抽出した組を教師信号として、どのような解もしくは解候補と素性の集合のときに正例である確率または負例である確率となるかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と、
要約対象のテキストを入力し、前記入力テキストから要約候補を生成する要約候補生成処理手段と、
前記所定の評価を解の候補として、前記入力テキストおよび前記要約候補から素性の集合と解の候補との組を生成し、当該素性の集合と解の候補の組の場合に正例もしくは負例である確率を前記学習結果データをもとに推定し、前記推定した結果を推定解として前記要約候補と解の候補との組と前記推定解との対を生成する要約候補−推定解対生成処理手段と、
前記要約候補と解の候補との組−推定解対から、解の候補が所定の良い評価でかつ推定解の正例の確率が最高の対を選択し、当該対の要約候補を要約とする要約選択処理手段とを備える
ことを特徴とする自動要約処理装置。
文書データであるテキストを機械学習法を用いて自動要約する自動要約処理装置であって、
テキストを記憶するテキスト記憶手段と、
前記テキストを表示装置に表示するテキスト表示処理手段と、
前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする要約編集処理手段と、
前記テキストを問題とし前記問題に対する前記ユーザ指定要約を解とする解データを生成し解データ記憶手段に記憶する解データ出力処理手段と、
前記解データから前記問題の素性の集合と前記解との組を抽出し、当該組から、どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と、
要約対象のテキストを入力し、前記入力テキストから素性の集合を抽出し、当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定する解推定処理手段と、
前記解推定処理手段で推定された解を前記入力テキストの要約として出力する要約選択処理手段とを備える
ことを特徴とする自動要約処理装置。
文書データであるテキストを機械学習法を用いて自動要約する自動要約処理装置であって、
テキストを記憶するテキスト記憶手段と、
前記テキストを表示装置に表示するテキスト表示処理手段と、
前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする要約編集処理手段と、
前記テキストを問題とし前記問題に対する前記ユーザ指定要約を解とする解データを生成し解データ記憶手段に記憶する解データ出力処理手段と、
所定の規則に基づいて要約を生成する処理もしくは機械学習法を用いて要約を生成する処理のいずれかの自動要約生成処理により前記テキストの要約を生成し、前記要約のうち前記ユーザ指定要約以外の部分からなるものを解候補とし、前記解データから解もしくは解候補と前記問題の素性の集合との組を抽出し、前記素性の集合と解との組を正例と前記素性の集合と解候補との組を負例とする素性−解対・素性−解候補対抽出処理手段と、
前記抽出した組を教師信号として、どのような解もしくは解候補と素性の集合のときに正例である確率または負例である確率となるかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理手段と、
要約対象のテキストを入力し、前記入力テキストから要約候補を生成する要約候補生成処理手段と、
前記要約候補を解の候補として、前記入力テキストおよび前記要約候補から素性の集合と解の候補との組を生成し、当該素性の集合と解の候補との組の場合に正例もしくは負例である確率を前記学習結果データをもとに推定し、前記推定した結果を推定解として、前記要約候補と推定解との対を生成する要約候補−推定解対生成処理手段と、
前記要約候補−推定解対から前記推定解の正例の確率が最高の対を選択し、当該対の要約候補を要約とする要約選択処理手段とを備える
ことを特徴とする自動要約処理装置。
請求項１または請求項３のいずれか一項に記載の自動要約処理装置において、
前記要約表示処理手段は、前記ユーザ指定要約に対する要約の性質ごとの評価を入力する項目を表示し、
前記解データ出力処理手段は、前記テキストおよび前記ユーザ指定要約で構成される問題に対し前記ユーザによって入力された前記性質ごとの評価である解データを生成して解データ記憶手段に出力し、
前記要約選択処理手段は、前記品質ごとの評価の組合せ情報の入力を受け付け、ユーザにとって良い評価であって、かつ前記組合せ情報について所定の評価尺度にもとづいて求めた値の最大値を持つ推定解を持つ前記要約候補−推定解対を選択し、当該対の要約候補を要約とする
ことを特徴とする自動要約処理装置。
請求項２または請求項４または請求項５または請求項６のいずれか一項に記載の自動要約処理装置において、
前記要約編集処理手段は、さらに、前記テキスト内でユーザによって指定された範囲の文字列の変更入力を受け付け、変更された前記範囲の文データを前記ユーザ指定要約とする
ことを特徴とする自動要約処理装置。
文書データであるテキストを機械学習法を用いて自動要約する自動要約処理方法であって、
テキストおよび前記テキストの要約を記憶するテキスト記憶手段にアクセスしてテキストおよび前記テキストの要約を取得する要約取得処理過程と、
前記要約を表示装置に表示する要約表示処理過程と、
前記要約に対するユーザの評価の入力を受け付けて前記要約の評価とする評価設定処理過程と、
前記テキストおよび前記要約で構成される問題に対し前記評価を解として付与して生成した解データを解データ記憶手段に記憶する解データ出力処理過程と、
前記解データから前記問題の素性の集合と前記解との組を抽出し、当該組から、どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理過程と、
要約対象のテキストを入力し、前記入力テキストから要約候補を生成する要約候補生成処理過程と、
前記入力テキストおよび前記要約候補から素性の集合を抽出し、当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定し、要約候補と推定解との対を生成する要約候補−推定解対生成処理過程と、
前記要約候補−推定解対から、推定解が所定の良い評価でかつ確信度が最高の対を選択し、当該対の要約候補を要約とする要約選択処理過程とを備える
ことを特徴とする自動要約処理方法。
文書データであるテキストを機械学習法を用いて自動要約する自動要約処理方法であって、
テキストを記憶するテキスト記憶手段にアクセスしてテキストを取得するテキスト取得処理過程と、
前記テキストを表示装置に表示するテキスト表示処理過程と、
前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする要約編集処理過程と、
所定の規則に基づいて要約を生成する処理もしくは機械学習法を用いて要約を生成する処理のいずれかの自動要約生成処理により前記テキストの要約を生成し、前記テキストおよび前記ユーザ指定要約で構成される問題に対し前記ユーザによって選ばれた良い要約であることを示す所定の良い評価を解として付与して生成した解データと、前記テキストおよび前記自動要約生成処理による要約であって前記ユーザ指定要約以外の部分からなるもので構成される問題に対し前記ユーザ指定要約ではないことを示す所定の悪い評価を解として付与して生成した解データとを解データ記憶手段に記憶する解データ出力処理過程と、
前記解データから前記問題の素性の集合と前記解との組を抽出し、当該組から、どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理過程と、
要約対象のテキストを入力し、前記入力テキストから要約候補を生成する要約候補生成処理過程と、
前記入力テキストおよび前記要約候補から素性の集合を抽出し、当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定し、要約候補と推定解との対を生成する要約候補−推定解対生成処理過程と、
前記要約候補−推定解対から、推定解が所定の良い評価でかつ確信度が最高の対を選択し、当該対の要約候補を要約とする要約選択処理過程とを備える
ことを特徴とする自動要約処理方法。
文書データであるテキストを機械学習法を用いて自動要約する自動要約処理方法であって、
テキストおよび前記テキストの要約を記憶するテキスト記憶手段にアクセスしてテキストおよび前記テキストの要約を取得する要約取得処理過程と、
前記要約を表示装置に表示する要約表示処理過程と、
前記要約に対するユーザの評価の入力を受け付けて前記要約の評価とする評価設定処理過程と、
前記テキストおよび前記要約で構成される問題に対し前記ユーザが設定した評価を解として付与した解データを生成し、解データ記憶手段に記憶する解データ出力処理過程と、
所定の評価のうち前記解となった評価以外の評価を解候補として、前記解データから前記問題の素性の集合と解もしくは解候補との組を抽出し、前記素性の集合と解との組を正例と前記素性の集合と解候補との組を負例とする素性−解対・素性−解候補対抽出処理過程と、
前記抽出した組を教師信号として、どのような解もしくは解候補と素性の集合のときに正例である確率または負例である確率となるかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理過程と、
要約対象のテキストを入力し、前記入力テキストから要約候補を生成する要約候補生成処理過程と、
前記所定の評価を解の候補として、前記入力テキストおよび前記要約候補から素性の集合と解の候補との組を生成し、当該素性の集合と解の候補の組の場合に正例もしくは負例である確率を前記学習結果データをもとに推定し、前記推定した結果を推定解として前記要約候補と解の候補の組と前記推定解との対を生成する要約候補−推定解対生成処理過程と、
前記要約候補と解の候補の組−推定解対から、解の候補が所定の良い評価でかつ推定解の正例の確率が最高の対を選択し、当該対の要約候補を要約とする要約選択処理過程とを備える
ことを特徴とする自動要約処理方法。
文書データであるテキストを機械学習法を用いて自動要約する自動要約処理方法であって、
テキストを記憶するテキスト記憶手段にアクセスしてテキストを取得するテキスト取得処理過程と、
前記テキストを表示装置に表示するテキスト表示処理過程と、
前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする要約編集処理過程と、
所定の規則に基づいて要約を生成する処理もしくは機械学習法を用いて要約を生成する処理のいずれかの自動要約生成処理により前記テキストの要約を生成し、前記テキストおよび前記ユーザ指定要約で構成される問題に対し前記ユーザによって選ばれた良い要約であることを示す所定の良い評価を解として付与して生成した解データと、前記テキストおよび前記自動要約生成処理による要約であって前記ユーザ指定要約以外の部分からなるもので構成される問題に対し前記ユーザ指定要約ではないことを示す所定の悪い評価を解として付与して生成した解データとを解データ記憶手段に記憶する解データ出力処理過程と、
所定の評価のうち前記解となった評価以外の評価を解候補として、前記解データから前記問題の素性の集合と解もしくは解候補との組を抽出し、前記素性の集合と解との組を正例と前記素性の集合と解候補との組を負例とする素性−解対・素性−解候補対抽出処理過程と、
前記抽出した組を教師信号として、どのような解もしくは解候補と素性の集合のときに正例である確率または負例である確率となるかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理過程と、
要約対象のテキストを入力し、前記入力テキストから要約候補を生成する要約候補生成処理過程と、
前記所定の評価を解の候補として、前記入力テキストおよび前記要約候補から素性の集合と解の候補との組を生成し、当該素性の集合と解の候補の組の場合に正例もしくは負例である確率を前記学習結果データをもとに推定し、前記推定した結果を推定解として前記要約候補と解の候補との組と前記推定解との対を生成する要約候補−推定解対生成処理過程と、
前記要約候補と解の候補との組−推定解対から、解の候補が所定の良い評価でかつ推定解の正例の確率が最高の対を選択し、当該対の要約候補を要約とする要約選択処理過程とを備える
ことを特徴とする自動要約処理方法。
文書データであるテキストを機械学習法を用いて自動要約する自動要約処理方法であって、
テキストを記憶するテキスト記憶手段にアクセスしてテキストを取得するテキスト取得処理過程と、
前記テキストを表示装置に表示するテキスト表示処理過程と、
前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする要約編集処理過程と、
前記テキストを問題とし前記問題に対する前記ユーザ指定要約を解とする解データを生成し解データ記憶手段に記憶する解データ出力処理過程と、
前記解データから前記問題の素性の集合と前記解との組を抽出し、当該組から、どのような素性のときにどのような解となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理過程と、
要約対象のテキストを入力し、前記入力テキストから素性の集合を抽出し、当該素性の集合からどのような解となりやすいかを前記学習結果データをもとに推定する解推定処理過程と、
前記解推定処理過程で推定された解を前記入力テキストの要約として出力する要約選択処理過程とを備える
ことを特徴とする自動要約処理方法。
文書データであるテキストを機械学習法を用いて自動要約する自動要約処理方法であって、
テキストを記憶するテキスト記憶手段にアクセスしてテキストを取得するテキスト取得処理過程と、
前記テキストを表示装置に表示するテキスト表示処理過程と、
前記テキストからユーザによって指定された範囲の文データを抽出して前記テキストのユーザ指定要約とする要約編集処理過程と、
前記テキストを問題とし前記問題に対する前記ユーザ指定要約を解とする解データを生成し解データ記憶手段に記憶する解データ出力処理過程と、
所定の規則に基づいて要約を生成する処理もしくは機械学習法を用いて要約を生成する処理のいずれかの自動要約生成処理により前記テキストの要約を生成し、前記要約のうち前記ユーザ指定要約以外の部分からなるものを解候補とし、前記解データから解もしくは解候補と前記問題の素性の集合との組を抽出し、前記素性の集合と解との組を正例と前記素性の集合と解候補との組を負例とする素性−解対・素性−解候補対抽出処理過程と、
前記抽出した組を教師信号として、どのような解もしくは解候補と素性の集合のときに正例である確率または負例である確率となるかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習処理過程と、
要約対象のテキストを入力し、前記入力テキストから要約候補を生成する要約候補生成処理過程と、
前記要約候補を解の候補として、前記入力テキストおよび前記要約候補から素性の集合と解の候補との組を生成し、当該素性の集合と解の候補との組の場合に正例もしくは負例である確率を前記学習結果データをもとに推定し、前記推定した結果を推定解として、前記要約候補と推定解との対を生成する要約候補−推定解対生成処理過程と、
前記要約候補−推定解対から前記推定解の正例の確率が最高の対を選択し、当該対の要約候補を要約とする要約選択処理過程とを備える
ことを特徴とする自動要約処理方法。