JP3682529B2 - 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法 - Google Patents
要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法 Download PDFInfo
- Publication number
- JP3682529B2 JP3682529B2 JP2002023493A JP2002023493A JP3682529B2 JP 3682529 B2 JP3682529 B2 JP 3682529B2 JP 2002023493 A JP2002023493 A JP 2002023493A JP 2002023493 A JP2002023493 A JP 2002023493A JP 3682529 B2 JP3682529 B2 JP 3682529B2
- Authority
- JP
- Japan
- Prior art keywords
- solution
- features
- result
- sentence
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、コンピュータを用いて要約を評価する処理に関し、特に教師あり機械学習法を用いて要約の自動評価処理を行う処理装置と、要約の自動評価処理をコンピュータに実行させるためのプログラムと、要約の自動評価処理方法とに関する。
【0002】
【従来の技術】
近年、情報技術の発展に伴ってコンピュータを用いた文章の自動要約処理が盛んになってきている。そして、様々な自動要約処理手法で作成された要約結果に対する公正な評価の重要性が増してきている。
【0003】
要約処理は、主に、重要文抽出要約と自由作成要約との2つの類型がある。重要文抽出要約は、要約率に応じて評価対象の文章中に存在する文を抽出して要約する処理である。自由作成要約は、評価対象の文章中の内容を削除したり変更したりして自由に文生成などして要約する処理である。
【0004】
重要文抽出要約については、文章中のどの文を抽出すると良いかという情報を用いて評価を自動処理することが可能である。例えば、文章中の文に対して、要約結果として抽出されるべき程度を示す重要度を予め付与し、抽出された文の重要度を集計して要約の評価とする。
【0005】
一方、自由作成要約においては、良い要約は複数あり得るため、あらゆる良い要約すなわち正解の情報を用意しておくことは困難であり、評価を自動処理することは困難である。そのため、従来、自由作成要約の評価は人が知識や経験にもとづいて行っていることが多い。
【0006】
要約の自動評価処理として、以下の参考文献1に示す従来手法がある。参考文献1では、重要文抽出要約について、コンピュータで抽出処理した文と予め人間が選択しておいた重要文との間の一致度をもとに再現率・適合率・F値により要約の評価を行っている。また、自由作成要約についても、作成された要約と、予め人間が作成した正解となる要約との類似度を単語の頻度ベクトルを用いて判断して行っている。[参考文献1:野畑周 他、複数の評価尺度を統合的に用いた重要文抽出システム、言語処理学会第7回年次大会発表論文集、pp301-304 ,2001]
【0007】
【発明が解決しようとする課題】
従来、自由作成要約の評価は、通常では専門家の手により行なわれていた。しかし、人手による評価は、評価者の経験則や価値にもとづくものであるため、同じ要約結果に対しても、異なる評価者では評価が異なってしまう場合や、同じ評価者であっても評価の時期が異なれば評価が異なってしまう場合があった。このように、要約結果に対する評価に再現性がなく、また、公正な評価が困難であるという問題があった。
【0008】
上記の参考文献1に示された自由作成要約に対する評価処理では、予め用意しておいた正解要約との類似度を単語の頻度ベクトルを用いて判断しているため、内容を示すキーワードの分布さえ類似していれば評価値が高くなってしまう傾向がある。例えば、その要約結果が、正解要約に含まれる単語さえ含んでいれば、文章としての体裁をなさずに非常に読みにくいものであっても一定の良い評価を得ることになってしまう点が問題であった。
【0009】
したがって、自由作成要約を含めた要約について、評価者の主観に左右されない、再現性のある客観的な評価を行なえるような自動処理が必要である。
【0010】
ここで、コンピュータで処理された要約結果の評価を、人手によりなされた要約との比較で行うことを考える。一般的にコンピュータでなされた要約結果は、人手によりなされた要約に比べて、要約内容の適切さや文のなめらかさなどの点で要約の精度が低いため、人手による要約と区別ができる程度の自然さしか備えていない場合が多い。「要約結果が良い」とは、その要約結果が専門家の手によりなされた要約と判別が困難な程度に自然なものであるということを前提とすれば、コンピュータによりなされた要約結果は、文構造や要約内容などにおいて、人手によりなされた要約に似ているほど良い要約結果であると考えることができる。このことから、「機械による要約」と「人手による要約」という分類先を要約結果の評価として用いることができる。
【0011】
本発明の目的は、上記の点に鑑み、重要文抽出要約だけでなく自動生成要約であっても、人手によらずに自動的に要約評価処理を行える処理装置と、その処理プログラムと、その処理方法とを提供することである。
【0012】
さらに、本発明の目的は、要約結果の処理手段の種類を評価の分類先として自動的に要約評価処理を行なえる処理装置と、その処理プログラムと、その処理方法とを提供することである。
【0013】
【課題を解決するための手段】
上記の目的を達成するため、本発明は、コンピュータを用いた要約自動評価処理装置であって、文章およびその要約結果である問題と前記要約結果に対する評価を示す複数の分類先である解との組からなる解データを記憶する解データ記憶手段と、前記解データの問題である前記文章および前記要約結果から、少なくとも、前記要約結果の文のなめらかさを示す情報および前記要約結果が前記文章の内容を表示しているかどうかを示す情報を含む所定の情報を素性として抽出し、前記解と前記素性の集合との組を生成する解−素性対抽出手段と、前記解と前記素性の集合との組を学習結果として学習結果記憶手段に記憶する機械学習手段と、前記解−素性対抽出手段により抽出される情報を素性とし、入力されたテキストから前記素性の集合を抽出する素性抽出手段と、前記学習結果である前記解と前記素性の集合との組をもとに、ベイズの定理にもとづいて、前記素性抽出手段から得た前記テキストの素性の集合の場合の各分類になる確率を求め、前記確率の値が最も大きい分類を、求める推定解とする評価推定手段とを備える。
【0014】
また、本発明の要約自動評価処理装置が前記構成である場合に、機械学習手段が、前記解と前記素性の集合との組とを規則とし、前記規則を所定の優先順位によりリストに格納し、前記リストを学習結果として学習結果記憶手段に記憶するものであり、評価推定手段が、前記学習結果である前記リストに格納された前記規則を優先順序の高い順に前記素性抽出手段から得た前記テキストの素性の集合と比較し、素性が一致した規則の分類先を、求める推定解とするものであるように構成されてもよい。
または、機械学習手段が、前記解と前記素性の集合との組から、前記素性の集合が所定の条件式を満足しながらエントロピーを意味する式を最大にするときの確率分布を求め、前記確率分布を学習結果として学習結果記憶手段に記憶するものであり、評価推定手段が、前記学習結果である前記確率分布にもとづいて、前記素性抽出手段から得た前記テキストの素性の集合の場合の各分類の確率を求め、前記確率の値が最も大きい分類を、求める推定解とするものであるように構成されてもよい。
または、機械学習手段が、前記解と前記素性の集合との組を用いて、所定のサポートベクトルマシンモデルの方法により超平面を求め、前記超平面および前記超平面により分割された二つの空間の分類を学習結果として学習結果記憶手段に記憶するものであり、評価推定手段が、前記学習結果である前記超平面をもとに、前記素性抽出手段から得た前記テキストの素性の集合が前記超平面で分割された空間のいずれに属するかを求め、前記素性の集合が属する空間の分類を、求める推定解とするものであるように構成されてもよい。
【0015】
また、本発明は、前記要約自動評価処理装置で実行する処理をコンピュータに実行させるためのプログラム、または、前記要約自動評価処理装置で実行する処理方法である。
【0016】
本発明では、機械処理による要約結果および人手による要約結果に解(評価)を付与した事例を解データとして予め大量に用意しておく。そして、これらの解データの事例ごとに、解と素性の集合との組を抽出し、解と素性の集合との組から、どのような素性のときにどのような解(評価)になりやすいかを機械学習手法により学習する。その後、対象となる要約結果が入力されると、入力した要約結果から素性の集合を取り出して、機械学習の結果を参照して、どのような素性の集合の場合にどのような解(評価)になりやすいかを推定することで、要約結果の評価を行なう。
【0017】
これにより、評価者の影響を受けない、再現性のある公平な評価を提供することが可能となる。
【0018】
また、解データの解(評価)として、「機械による要約」と「人手による要約」の2つの分類先を用いることができる。この場合には、本発明では、入力された要約結果が「機械による要約」であるか「人手による要約」であるかを判別する。この2つの分類先は、解データとして用意される要約結果のそのものから自動的に獲得される処理コンピュータにより機械処理により付与されてもよく、また、人手により付与されてもよい。分類先が機械処理で付与されるときは、解を付与する処理負担を軽減することができる。解データの精度を考慮する場合には、専門家により解が付与された解データを用いることもできる。その場合には、3段階や5段階など多段階の評価を行なうために、評価に応じて3つもしくは5つの分類先などを付与することもできる。
【0019】
なお、本発明の各手段または機能または要素をコンピュータに実行させるためのプログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介して種々の通信網を利用した送受信により提供されるものである。
【0020】
【発明の実施の形態】
以下に、本発明の実施の形態を説明する。
【0021】
図1に、本発明にかかる処理装置の構成例を示す。要約自動評価処理装置1は、解データ記憶部11と、解−素性対抽出部12と、機械学習部13と、学習結果データ記憶部14と、素性抽出部15と、評価推定部16とを持つ。
【0022】
解データ記憶部11は、機械学習法を実施する際の教師信号となるデータ(解データ)を記憶する手段である。解データ記憶部11には、解データとして、問題と解との組である事例が記憶される。
【0023】
問題は、要約前の文章(テキスト)と要約結果とからなる。要約結果は、機械によるもの、もしくは、人手によりなされたものなどである。
【0024】
要約結果に対する評価である解は、「機械による要約」または「人手による要約」の2つの分類先とする。2つの分類先は、要約結果から自動的に付与されるようにしてもよいし人手により付与されるようにしてもよい。「機械による要約」または「人手による要約」の2つの分類先を解として用いるのは、要約結果が生成された手段にもとづいて機械的に分類先を付与できるようにするためである。すなわち、コンピュータで自動要約処理された要約結果については自動的に「機械による要約」という解(分類先)が与えられ、人手により生成された要約結果については「人手による要約」という解が与えられた解データを用いる。これにより、解を付与する処理負担が軽減できる。また、解の精度を重視する場合には、専門家の手により解を付与するようにしてもよい。
【0025】
解−素性対抽出部12は、解データ記憶部11に記憶されている事例ごとに、事例の解と素性の集合との組を抽出する手段である。
【0026】
素性として、1)文のなめらかさを示す情報、2)内容をよく表しているかどうかを示す情報、および、3)自動要約で用いられる特徴的な情報などを抽出する。
【0027】
1)文のなめらかさを示す情報としては、k−gram 形態素列のコーパスでの存在、かかりうけ文節間の意味的整合度などを、また、2)内容をよく表しているかどうかを示す情報としては、要約前のテキストにあったキーフレーズの包含率などを、また、3)自動要約で用いられる特徴的な情報としては、その文の位置やリード文かどうか、TF/IDF、文の長さ、固有表現・接続詞・機能語などの手がかり表現の存在などを抽出する。
【0028】
機械学習部13は、解−素性対抽出部12により抽出された解と素性の集合との組から、どのような素性のときにどのような解になりやすいかを教師あり機械学習法により学習する手段である。その学習結果は、学習結果データ記憶部14に保存される。機械学習部13は、教師あり機械学習法であればどのような手法で処理を行ってもよい。手法として、例えば、決定木法、サポートベクトル法、パラメータチューニング法、シンプルベイズ法、最大エントロピー法、決定リスト法などがある。
【0029】
素性抽出部15は、評価対象の要約2から素性の集合を抽出し、抽出した素性の集合を評価推定部16へ渡す手段である。
【0030】
評価推定部16は、学習結果データ記憶部14の学習結果データを参照して、素性抽出部15から渡された素性の集合の場合に、どのような解(評価)になりやすいかを推定し、推定結果である評価3を出力する手段である。
【0031】
図2に、本発明の処理の流れを示す。なお、要約自動評価処理装置1の解データ記憶部11には、解データとして、複数の言語のデータに「解」の情報が付与された大量の事例を記憶しておく。
【0032】
まず、解−素性対抽出部12は、解データ記憶部11から、各事例ごとに、解と素性の集合との組を抽出する(ステップS1)。例えば、以下のものを素性として抽出する。
【0033】
素性1:k−gram の形態素列のコーパスでの存在、
素性2:かかりうけ文節間の意味的整合度、
素性3:TF/IDFの値が大きかった「自然言語」の要約後での包含率、
素性4:入力の文章の第一文が用いられているかどうか、
素性5 :出力された要約結果の長さ、
素性6 :接続詞「つまり」が要約抽出箇所の直前にあるかどうか。
【0034】
解−素性対抽出部12は、事例ごとに、素性1として、k−gram 形態素列、例えば「動詞を<|>省略<|>する(<|>は区切りを示す)」で「省略」を省略した「動詞を<|>する」という形態素3gramがコーパスに出現するか否かを調べて、その存在を抽出する。形態素列「動詞を<|>する」がコーパスに出現しないならば、この表現は文としてなめらかでないと推測できるからである。このように、k−gram 形態素列のコーパスでの存在を素性として利用することで要約のなめらかさを判断できる。
【0035】
また、解−素性対抽出部12は、素性2として、例えば「動詞を<|>省略<|>する」で「省略」を省略した「動詞を<|>する」について、「動詞を」の文節が「する」の文節にかかっているものがコーパスにあるか否かを調べ、かかりうけ文節間の意味的整合度を素性として抽出する。例えば、「動詞を」と「する」にかかりうけがなかった場合には、この表現は文としてなめらかでないと推測できるからである。
【0036】
また、解−素性対抽出部12は、素性3として、例えば、要約前のテキストにあったキーフレーズ(自然言語)が要約結果にも含まれるかどうかという、キーフレーズ包含率を抽出する。要約結果にこれらのキーフレーズがなるべく多数含まれている場合には、要約結果がそのテキストの内容をよく表している良い要約と判断できるからである。
【0037】
キーフレーズの自動抽出処理として、主としてTF/IDF法を用いることができる。TFは、文章中でのその語の出現回数もしくは頻度を示す値である。IDFは、あらかじめ持っている多数の文書群のうち、その語が出現する文書数の逆数である。一般にTFとIDFとの積が大きい語ほどキーフレーズとして妥当なものとなる。例えば入力として図3に示すテキストの例があり、キーフレーズが「自然言語」「動詞」「省略」「復元」「表層の表現」「用例」であるとする。これらの語は、このテキストの内容を表現する際に重要な語であるので、要約結果にも出現することが望ましい。解−素性対抽出部12は、例えばTF/IDF法を用いて、上記のようなキーフレーズとなる語を取り出し、TFもしくはIDFの値が高いこれらの語が要約後にも含まれているかどうかを調べ、その包含率を素性として抽出する。
【0038】
また、解−素性対抽出部12は、素性4として、入力されたテキストの第一文が用いられているかどうかを素性として抽出する。一般的に重要な文は、文章の初めの方にあることが多いため、文章の初めの方にある文が要約として用いられている場合に良い要約であると判断できるからである。
【0039】
また、解−素性対抽出部12は、素性5として、要約結果の長さを調べて素性として抽出する。要約は一般に文を短くすることが目的であるので、要約結果が短いほど良い要約であると判断できるからである。
【0040】
また、解−素性対抽出部12は、素性6として、要約結果として抽出した箇所の直前に接続詞「つまり」があるかどうかを素性として抽出する。要約として抽出すると良い文や箇所などを示す接続詞や機能語などの手がかり表現というものがある。例えば、接続詞「つまり」などがあるとき、その接続詞以降は内容をまとめた表現があり、その部分を抽出している場合には良い要約であると判断できるからである。
【0041】
そして、機械学習部13は、解−素性対抽出部12により抽出された、解と上記の素性の集合との組から、どのような素性のときにどのような解(すなわち、「機械による要約」もしくは「人手による要約」)になりやすいかを機械学習法により学習する(ステップS2)。機械学習部13は、教師あり機械学習法として、例えば、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などを用いる。
【0042】
シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類とする方法である。
【0043】
決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。
【0044】
最大エントロピー法は、あらかじめ設定しておいた素性fj (1≦j≦k)の集合をFとするとき、所定の条件式を満足しながらエントロピーを意味する式を最大にするときの確率分布を求め、その確率分布にしたがって求まる各分類の確率のうち、もっとも大きい確率値を持つ分類を求める分類とする方法である。
【0045】
サポートベクトルマシン法は、空間を超平面で分割することにより、2つの分類からなるデータを分類する手法である。
【0046】
決定リスト法および最大エントロピー法については、以下の参考文献2に、サポートベクトルマシン法については、以下の参考文献3および参考文献4に説明されている。
[参考文献2:村田真樹、内山将夫、内元清貴、馬青、井佐原均、種々の機械学習法を用いた多義解消実験、電子情報通信学会言語理解とコミュニケーション研究会,NCL2001-2, (2001) ]
[参考文献3:Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods,(Cambridge University Press,2000) ]
[参考文献4:Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aist-nara.ac.jp/taku-ku//software/TinySVM/index.html,2000) ]その後、素性抽出部15は、評価を求めたい要約2を入力し(ステップS3)、解−素性対抽出部12での処理とほぼ同様の処理により、入力した要約2から素性の集合を取り出し、それらを評価推定部16へ渡す(ステップS4)。
【0047】
評価推定部16は、渡された素性の集合の場合にどのような解になりやすいかを学習結果データ記憶部14の学習結果データをもとに推定し、推定した解すなわち評価3を出力する(ステップS5)。例えば、要約2から抽出した素性の集合にもとづく機械学習法による処理により、要約2の解が「人手による要約」であると判断された場合には、「人手による要約」もしくは「良い要約」などの評価3を出力する。また、要約2の解が「機械による要約」であると判断された場合には、「機械による要約」もしくは「良くない要約」などの評価3を出力する。
【0048】
以上、本発明をその実施の形態により説明したが、本発明はその主旨の範囲において種々の変形が可能である。例えば、本発明の実施の形態では、解データ記憶部11で記憶する解データとして「人手による要約」と「機械による要約」との2つの分類を解とする例を説明したが、3以上の分類を解とすることも可能である。
【0049】
【発明の効果】
本発明によれば、大量の解データを用意して教師あり機械学習法により要約の評価の推定を行う。これにより、自由作成要約についても評価を自動処理することが可能となり、再現性のある公正な評価をすることができるという効果を奏する。
【0050】
また、本発明により要約結果に対し同等の評価を何回も繰り返すことができ、システムを少しずつ改良するなどのチューンナップを容易に行うことができるという効果を奏する。
【0051】
また、本発明により同等の評価を再現することができるため、要約処理方法に対する評価の共有化が可能となるという効果を奏する。
【図面の簡単な説明】
【図1】本発明にかかる処理装置の構成例を示す図である。
【図2】本発明の処理の流れを示す図である。
【図3】
処理対象となるテキストの例を示す図である。
【符号の説明】
1 要約自動評価処理装置
11 解データ記憶部
12 解−素性対抽出部
13 機械学習部
14 学習結果データ記憶部
15 素性抽出部
16 評価推定部
2 要約
3 評価
Claims (15)
- コンピュータを用いた要約自動評価処理装置であって、
文章およびその要約結果である問題と前記要約結果に対する評価を示す複数の分類先である解との組からなる解データを記憶する解データ記憶手段と、
前記解データの問題である前記文章および前記要約結果から、少なくとも、前記要約結果の文のなめらかさを示す情報および前記要約結果が前記文章の内容を表示しているかどうかを示す情報を含む所定の情報を素性として抽出し、前記解と前記素性の集合との組を生成する解−素性対抽出手段と、
前記解と前記素性の集合との組を学習結果として学習結果記憶手段に記憶する機械学習手段と、
前記解−素性対抽出手段により抽出される情報を素性とし、入力されたテキストから前記素性の集合を抽出する素性抽出手段と、
前記学習結果である前記解と前記素性の集合との組をもとに、ベイズの定理にもとづいて前記素性抽出手段から得た前記テキストの素性の集合の場合の各分類になる確率を求め、前記確率の値が最も大きい分類を、求める推定解とする評価推定手段とを備える
ことを特徴とする要約自動評価処理装置。 - コンピュータを用いた要約自動評価処理装置であって、
文章およびその要約結果である問題と前記要約結果に対する評価を示す複数の分類先である解との組からなる解データを記憶する解データ記憶手段と、
前記解データの問題である前記文章および前記要約結果から、少なくとも、前記要約結果の文のなめらかさを示す情報および前記要約結果が前記文章の内容を表示しているかどうかを示す情報を含む所定の情報を素性として抽出し、前記解と前記素性の集合との組を生成する解−素性対抽出手段と、
前記解と前記素性の集合との組とを規則とし、前記規則を所定の優先順位によりリストに格納し、前記リストを学習結果として学習結果記憶手段に記憶する機械学習手段と、
前記解−素性対抽出手段により抽出される情報を素性とし、入力されたテキストから前記素性の集合を抽出する素性抽出手段と、
前記学習結果である前記リストに格納された前記規則を優先順序の高い順に前記素性抽出手段から得た前記テキストの素性の集合と比較し、素性が一致した規則の分類先を、求める推定解とする評価推定手段とを備える
ことを特徴とする要約自動評価処理装置。 - コンピュータを用いた要約自動評価処理装置であって、
文章およびその要約結果である問題と前記要約結果に対する評価を示す複数の分類先である解との組からなる解データを記憶する解データ記憶手段と、
前記解データの問題である前記文章および前記要約結果から、少なくとも、前記要約結果の文のなめらかさを示す情報および前記要約結果が前記文章の内容を表示しているかどうかを示す情報を含む所定の情報を素性として抽出し、前記解と前記素性の集合との組を生成する解−素性対抽出手段と、
前記解と前記素性の集合との組から、前記素性の集合が所定の条件式を満足しながらエントロピーを意味する式を最大にするときの確率分布を求め、前記確率分布を学習結果として学習結果記憶手段に記憶する機械学習手段と、
前記解−素性対抽出手段により抽出される情報を素性とし、入力されたテキストから前記素性の集合を抽出する素性抽出手段と、
前記学習結果である前記確率分布にもとづいて、前記素性抽出手段から得た前記テキストの素性の集合の場合の各分類の確率を求め、前記確率の値が最も大きい分類を、求める推定解とする評価推定手段とを備える
ことを特徴とする要約自動評価処理装置。 - コンピュータを用いた要約自動評価処理装置であって、
文章およびその要約結果である問題と前記要約結果に対する評価を示す複数の分類先である解との組からなる解データを記憶する解データ記憶手段と、
前記解データの問題である前記文章および前記要約結果から、少なくとも、前記要約結果の文のなめらかさを示す情報および前記要約結果が前記文章の内容を表示しているかどうかを示す情報を含む所定の情報を素性として抽出し、前記解と前記素性の集合との組を生成する解−素性対抽出手段と、
前記解と前記素性の集合との組を用いて、所定のサポートベクトルマシンモデルの方法により超平面を求め、前記超平面および前記超平面により分割された二つの空間の分類を学習結果として学習結果記憶手段に記憶する機械学習手段と、
前記解−素性対抽出手段により抽出される情報を素性とし、入力されたテキストから前記素性の集合を抽出する素性抽出手段と、
前記学習結果である前記超平面をもとに、前記素性抽出手段から得た前記テキストの素性の集合が前記超平面で分割された空間のいずれに属するかを求め、前記素性の集合が属する空間の分類を、求める推定解とする評価推定手段とを備える
ことを特徴とする要約自動評価処理装置。 - 請求項1ないし請求項4のいずれか一項に記載の要約自動評価処理装置において、
前記問題の要約結果に対する解は、機械処理によりなされたものと人手によりなされたものをそれぞれ示す二つの分類先からなるものである
ことを特徴とする要約自動評価処理装置。 - 要約を自動評価する処理をコンピュータに実行させるためのプログラムであって、
文章およびその要約結果である問題と前記要約結果に対する評価を示す複数の分類先である解との組からなる解データを記憶する解データ記憶手段にアクセスする処理と、
前記解データの問題である前記文章および前記要約結果から、少なくとも、前記要約結果の文のなめらかさを示す情報および前記要約結果が前記文章の内容を表示しているかどうかを示す情報を含む所定の情報を素性として抽出し、前記解と前記素性の集合との組を生成する処理と、
前記解と前記素性の集合との組を学習結果として学習結果記憶手段に記憶する処理と、
前記解と前記素性の集合との組を生成する処理により抽出される情報を素性とし、入力されたテキストから前記素性の集合を抽出する処理と、
前記学習結果である前記解と前記素性の集合との組をもとに、ベイズの定理にもとづいて前記入力されたテキストの素性の集合の場合の各分類になる確率を求め、前記確率の値が最も大きい分類を、求める推定解とする処理とを、
コンピュータに実行させるための要約自動評価処理プログラム。 - 要約を自動評価する処理をコンピュータに実行させるためのプログラムであって、
文章およびその要約結果である問題と前記要約結果に対する評価を示す複数の分類先である解との組からなる解データを記憶する解データ記憶手段にアクセスする処理と、
前記解データの問題である前記文章および前記要約結果から、少なくとも、前記要約結果の文のなめらかさを示す情報および前記要約結果が前記文章の内容を表示しているかどうかを示す情報を含む所定の情報を素性として抽出し、前記解と前記素性の集合との組を生成する処理と、
前記解と前記素性の集合との組とを規則とし、前記規則を所定の優先順位によりリストに格納し、前記リストを学習結果として学習結果記憶手段に記憶する処理と、
前記解と前記素性の集合との組を生成する処理により抽出される情報を素性とし、入力されたテキストから前記素性の集合を抽出する処理と、
前記学習結果である前記リストに格納された前記規則を優先順序の高い順に前記入力されたテキストの素性の集合と比較し、素性が一致した規則の分類先を、求める推定解とする処理とを、
コンピュータに実行させるための要約自動評価処理プログラム。 - 要約を自動評価する処理をコンピュータに実行させるためのプログラ ムであって、
文章およびその要約結果である問題と前記要約結果に対する評価を示す複数の分類先である解との組からなる解データを記憶する解データ記憶手段にアクセスする処理と、
前記解データの問題である前記文章および前記要約結果から、少なくとも、前記要約結果の文のなめらかさを示す情報および前記要約結果が前記文章の内容を表示しているかどうかを示す情報を含む所定の情報を素性として抽出し、前記解と前記素性の集合との組を生成する処理と、
前記解と前記素性の集合との組から、前記素性の集合が所定の条件式を満足しながらエントロピーを意味する式を最大にするときの確率分布を求め、前記確率分布を学習結果として学習結果記憶手段に記憶する処理と、
前記解と前記素性の集合との組を生成する処理により抽出される情報を素性とし、入力されたテキストから前記素性の集合を抽出する処理と、
前記学習結果である前記確率分布にもとづいて、前記入力されたテキストの素性の集合の場合の各分類の確率を求め、前記確率の値が最も大きい分類を、求める推定解とする処理とを、
コンピュータに実行させるための要約自動評価処理プログラム。 - 要約を自動評価する処理をコンピュータに実行させるためのプログラムであって、
文章およびその要約結果である問題と前記要約結果に対する評価を示す複数の分類先である解との組からなる解データを記憶する解データ記憶手段にアクセスする処理と、
前記解データの問題である前記文章および前記要約結果から、少なくとも、前記要約結果の文のなめらかさを示す情報および前記要約結果が前記文章の内容を表示しているかどうかを示す情報を含む所定の情報を素性として抽出し、前記解と前記素性の集合との組を生成する処理と、
前記解と前記素性の集合との組を用いて、所定のサポートベクトルマシンモデルの方法により超平面を求め、前記超平面および前記超平面により分割された二つの空間の分類を学習結果として学習結果記憶手段に記憶する処理と、
前記解と前記素性の集合との組を生成する処理により抽出される情報を素性とし、入力されたテキストから前記素性の集合を抽出する処理と、
前記学習結果である前記超平面をもとに、前記入力されたテキストの素性の集合が前記超平面で分割された空間のいずれに属するかを求め、前記素性の集合が属する空間の分類を、求める推定解とする処理とを、
コンピュータに実行させるための要約自動評価処理プログラム。 - 請求項6ないし請求項9のいずれか一項に記載の要約自動評価処理プログラムにおいて、
前記問題の要約結果に対する解は、機械処理によりなされたものと人手によりなされたものをそれぞれ示す二つの分類先からなるものである
ことを特徴とする要約自動評価処理プログラム。 - コンピュータを用いた要約自動評価処理方法であって、
文章およびその要約結果である問題と前記要約結果に対する評価を示す複数の分類先である解との組からなる解データを記憶する解データ記憶手段にアクセスする処理過程と、
前記解データの問題である前記文章および前記要約結果から、少なくとも、前記要約結果の文のなめらかさを示す情報および前記要約結果が前記文章の内容を表示しているかどうかを示す情報を含む所定の情報を素性として抽出し、前記解と前記素性の集合との組を生成する処理過程と、
前記解と前記素性の集合との組を学習結果として学習結果記憶手段に記憶する処理過程と、
前記解と前記素性の集合との組を生成する処理により抽出される情報を素性とし、入力されたテキストから前記素性の集合を抽出する処理過程と、
前記学習結果である前記解と前記素性の集合との組をもとに、ベイズの定理にもとづい て前記入力されたテキストの素性の集合の場合の各分類になる確率を求め、前記確率の値が最も大きい分類を、求める推定解とする処理過程とを備える
ことを特徴とする要約自動評価処理方法。 - コンピュータを用いた要約自動評価処理方法であって、
文章およびその要約結果である問題と前記要約結果に対する評価を示す複数の分類先である解との組からなる解データを記憶する解データ記憶手段にアクセスする処理過程と、
前記解データの問題である前記文章および前記要約結果から、少なくとも、前記要約結果の文のなめらかさを示す情報および前記要約結果が前記文章の内容を表示しているかどうかを示す情報を含む所定の情報を素性として抽出し、前記解と前記素性の集合との組を生成する処理過程と、
前記解と前記素性の集合との組とを規則とし、前記規則を所定の優先順位によりリストに格納し、前記リストを学習結果として学習結果記憶手段に記憶する処理と、
前記解と前記素性の集合との組を生成する処理により抽出される情報を素性とし、入力されたテキストから前記素性の集合を抽出する処理過程と、
前記学習結果である前記リストに格納された前記規則を優先順序の高い順に前記入力されたテキストの素性の集合と比較し、素性が一致した規則の分類先を、求める推定解とする処理過程とを備える
ことを特徴とする要約自動評価処理方法。 - コンピュータを用いた要約自動評価処理方法であって、
文章およびその要約結果である問題と前記要約結果に対する評価を示す複数の分類先である解との組からなる解データを記憶する解データ記憶手段にアクセスする処理過程と、
前記解データの問題である前記文章および前記要約結果から、少なくとも、前記要約結果の文のなめらかさを示す情報および前記要約結果が前記文章の内容を表示しているかどうかを示す情報を含む所定の情報を素性として抽出し、前記解と前記素性の集合との組を生成する処理過程と、
前記解と前記素性の集合との組から、前記素性の集合が所定の条件式を満足しながらエントロピーを意味する式を最大にするときの確率分布を求め、前記確率分布を学習結果として学習結果記憶手段に記憶する処理と、
前記解と前記素性の集合との組を生成する処理により抽出される情報を素性とし、入力されたテキストから前記素性の集合を抽出する処理過程と、
前記学習結果である前記確率分布にもとづいて、前記入力されたテキストの素性の集合の場合の各分類の確率を求め、前記確率の値が最も大きい分類を、求める推定解とする処理とを備える
ことを特徴とする要約自動評価処理方法。 - コンピュータを用いた要約自動評価処理方法であって、
文章およびその要約結果である問題と前記要約結果に対する評価を示す複数の分類先である解との組からなる解データを記憶する解データ記憶手段にアクセスする処理過程と、
前記解データの問題である前記文章および前記要約結果から、少なくとも、前記要約結果の文のなめらかさを示す情報および前記要約結果が前記文章の内容を表示しているかどうかを示す情報を含む所定の情報を素性として抽出し、前記解と前記素性の集合との組を生成する処理過程と、
前記解と前記素性の集合との組を用いて、所定のサポートベクトルマシンモデルの方法により超平面を求め、前記超平面および前記超平面により分割された二つの空間の分類を学習結果として学習結果記憶手段に記憶する処理過程と、
前記解と前記素性の集合との組を生成する処理により抽出される情報を素性とし、入力されたテキストから前記素性の集合を抽出する処理過程と、
前記学習結果である前記超平面をもとに、前記入力されたテキストの素性の集合が前記超平面で分割された空間のいずれに属するかを求め、前記素性の集合が属する空間の分類を、求める推定解とする処理過程とを備える
ことを特徴とする要約自動評価処理方法。 - 請求項11ないし請求項14のいずれか一項に記載の要約自動評価処理方法において、
前記問題の要約結果に対する解は、機械処理によりなされたものと人手によりなされたものをそれぞれ示す二つの分類先からなるものである
ことを特徴とする要約自動評価処理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002023493A JP3682529B2 (ja) | 2002-01-31 | 2002-01-31 | 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法 |
US10/352,004 US7328193B2 (en) | 2002-01-31 | 2003-01-28 | Summary evaluation apparatus and method, and computer-readable recording medium in which summary evaluation program is recorded |
CNB031021735A CN100430918C (zh) | 2002-01-31 | 2003-01-30 | 摘要评估装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002023493A JP3682529B2 (ja) | 2002-01-31 | 2002-01-31 | 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003223456A JP2003223456A (ja) | 2003-08-08 |
JP3682529B2 true JP3682529B2 (ja) | 2005-08-10 |
Family
ID=27654454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002023493A Expired - Lifetime JP3682529B2 (ja) | 2002-01-31 | 2002-01-31 | 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7328193B2 (ja) |
JP (1) | JP3682529B2 (ja) |
CN (1) | CN100430918C (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3987934B2 (ja) * | 2003-11-12 | 2007-10-10 | 国立大学法人大阪大学 | 社会的な関係を用いてユーザの評価コメントを要約する文書処理装置、その方法及びプログラム |
US7640217B2 (en) * | 2004-04-08 | 2009-12-29 | Hewlett-Packard Development Company, L.P. | Identifying exceptional managed systems |
FR2876187B1 (fr) * | 2004-10-01 | 2006-12-15 | Airbus France Sas | Procede et dispositif de detection d'un phenomene d'arc electrique sur au moins un cable electrique |
JP4565106B2 (ja) * | 2005-06-23 | 2010-10-20 | 独立行政法人情報通信研究機構 | 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム |
JP4895645B2 (ja) * | 2006-03-15 | 2012-03-14 | 独立行政法人情報通信研究機構 | 情報検索装置、及び情報検索プログラム |
US8095488B1 (en) | 2007-12-31 | 2012-01-10 | Symantec Corporation | Method and apparatus for managing configurations |
US8051028B2 (en) * | 2007-05-31 | 2011-11-01 | Symantec Corporation | Method and apparatus for generating configuration rules for computing entities within a computing environment using association rule mining |
US7895205B2 (en) * | 2008-03-04 | 2011-02-22 | Microsoft Corporation | Using core words to extract key phrases from documents |
US8037289B1 (en) | 2008-06-02 | 2011-10-11 | Symantec Corporation | Method and apparatus for cloning a configuration of a computer in a data center |
JP5527548B2 (ja) * | 2008-10-10 | 2014-06-18 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びプログラム |
JP5388038B2 (ja) * | 2009-12-28 | 2014-01-15 | 独立行政法人情報通信研究機構 | 文書要約装置、文書処理装置、及びプログラム |
US8554542B2 (en) * | 2010-05-05 | 2013-10-08 | Xerox Corporation | Textual entailment method for linking text of an abstract to text in the main body of a document |
WO2013123182A1 (en) * | 2012-02-17 | 2013-08-22 | The Trustees Of Columbia University In The City Of New York | Computer-implemented systems and methods of performing contract review |
US9183062B2 (en) * | 2013-02-25 | 2015-11-10 | International Business Machines Corporation | Automated application reconfiguration |
WO2015033341A1 (en) * | 2013-09-09 | 2015-03-12 | Sami Shamoon College Of Engineering (R.A.) | Polytope based summarization method |
US10778618B2 (en) * | 2014-01-09 | 2020-09-15 | Oath Inc. | Method and system for classifying man vs. machine generated e-mail |
US10387550B2 (en) * | 2015-04-24 | 2019-08-20 | Hewlett-Packard Development Company, L.P. | Text restructuring |
JP6699031B2 (ja) * | 2015-05-21 | 2020-05-27 | 日本電信電話株式会社 | モデル学習方法、説明文評価方法、及び装置 |
US10387882B2 (en) | 2015-07-01 | 2019-08-20 | Klarna Ab | Method for using supervised model with physical store |
US9904916B2 (en) * | 2015-07-01 | 2018-02-27 | Klarna Ab | Incremental login and authentication to user portal without username/password |
JP6461832B2 (ja) * | 2016-01-27 | 2019-01-30 | 日本電信電話株式会社 | オラクル要約探索装置、方法、及びプログラム |
CN107766316B (zh) * | 2016-08-15 | 2021-03-30 | 株式会社理光 | 评价数据的分析方法、装置及系统 |
CN107480135B (zh) | 2017-07-31 | 2022-01-07 | 京东方科技集团股份有限公司 | 数据处理方法、医学用语处理系统和医学诊疗系统 |
US10832009B2 (en) | 2018-01-02 | 2020-11-10 | International Business Machines Corporation | Extraction and summarization of decision elements from communications |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2783558B2 (ja) * | 1988-09-30 | 1998-08-06 | 株式会社東芝 | 要約生成方法および要約生成装置 |
US5778397A (en) * | 1995-06-28 | 1998-07-07 | Xerox Corporation | Automatic method of generating feature probabilities for automatic extracting summarization |
JPH10301956A (ja) * | 1997-04-30 | 1998-11-13 | Ricoh Co Ltd | キーセンテンス抽出方式及び抄録方式及び文書表示方式 |
JP3879324B2 (ja) * | 1999-09-14 | 2007-02-14 | 富士ゼロックス株式会社 | 文書要約装置、文書要約方法及び記録媒体 |
US20020078091A1 (en) * | 2000-07-25 | 2002-06-20 | Sonny Vu | Automatic summarization of a document |
US7017114B2 (en) * | 2000-09-20 | 2006-03-21 | International Business Machines Corporation | Automatic correlation method for generating summaries for text documents |
US20020164070A1 (en) * | 2001-03-14 | 2002-11-07 | Kuhner Mark B. | Automatic algorithm generation |
JP4065936B2 (ja) * | 2001-10-09 | 2008-03-26 | 独立行政法人情報通信研究機構 | 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム |
JP2003248676A (ja) * | 2002-02-22 | 2003-09-05 | Communication Research Laboratory | 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法 |
-
2002
- 2002-01-31 JP JP2002023493A patent/JP3682529B2/ja not_active Expired - Lifetime
-
2003
- 2003-01-28 US US10/352,004 patent/US7328193B2/en not_active Expired - Fee Related
- 2003-01-30 CN CNB031021735A patent/CN100430918C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN100430918C (zh) | 2008-11-05 |
CN1435774A (zh) | 2003-08-13 |
US7328193B2 (en) | 2008-02-05 |
US20030167245A1 (en) | 2003-09-04 |
JP2003223456A (ja) | 2003-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3682529B2 (ja) | 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法 | |
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN111414479B (zh) | 基于短文本聚类技术的标签抽取方法 | |
CN112131863B (zh) | 一种评论观点主题抽取方法、电子设备及存储介质 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
US10891427B2 (en) | Machine learning techniques for generating document summaries targeted to affective tone | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN110008309B (zh) | 一种短语挖掘方法及装置 | |
CN109271524B (zh) | 知识库问答系统中的实体链接方法 | |
CN111190997A (zh) | 一种使用神经网络和机器学习排序算法的问答系统实现方法 | |
CN111259156A (zh) | 一种面向时间序列的热点聚类方法 | |
US20220156489A1 (en) | Machine learning techniques for identifying logical sections in unstructured data | |
CN113204624A (zh) | 一种多特征融合的文本情感分析模型及装置 | |
CN117034327A (zh) | 一种电子书内容加密防护方法 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
CN108427769B (zh) | 一种基于社交网络的人物兴趣标签提取方法 | |
CN113157857B (zh) | 面向新闻的热点话题检测方法、装置及设备 | |
CN115269846A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN114328895A (zh) | 新闻摘要的生成方法、装置以及计算机设备 | |
CN113609841A (zh) | 一种主题词生成模型的训练方法及计算设备 | |
CN112784052A (zh) | 文本分类方法、装置、设备及计算机可读存储介质 | |
JP4919386B2 (ja) | 情報抽出・表示装置 | |
CN112182228B (zh) | 一种短文本热点主题挖掘与概括方法及装置 | |
CN117972025B (zh) | 一种基于语义分析的海量文本检索匹配方法 | |
CN117540003B (zh) | 一种文本处理方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050419 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3682529 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |