JP2013167985A

JP2013167985A - 談話要約生成システムおよび談話要約生成プログラム

Info

Publication number: JP2013167985A
Application number: JP2012030074A
Authority: JP
Inventors: Ko Kamibayashi; 航上林
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2012-02-15
Filing date: 2012-02-15
Publication date: 2013-08-29

Abstract

【課題】対話・談話の内容からの要約の生成に際して、コストを抑えつつ要約の精度を向上させることができる談話要約生成システムを提供する。
【解決手段】解析済談話データ４に含まれる発話文から重要文を抽出して自動要約結果４０として出力する重要文抽出部１０と、重要文と非重要文の分類情報を含む学習データ５０に基づいて機械学習により学習モデル１４を生成する機械学習処理部３０とを有し、重要文抽出部１０は、解析済談話データ４に含まれる発話文から重要文を特定するための特定の表現パターンを予め指定した抽出ルール１３に合致する発話文を第１の重要文として抽出するルールベース処理部１１と、解析済談話データ４に含まれる各発話文に対して、学習モデル１４に基づいて機械学習により重要文か否かを判定し、第２の重要文を抽出する学習モデル処理部１２とを有し、第１の重要文と第２の重要文とを組み合わせて自動要約結果４０として出力する。
【選択図】図１

Description

本発明は、自然言語処理技術に関し、特に、音声認識処理等により得られた談話データの構造を解析した結果から談話の要約を生成する談話要約生成システムおよび談話要約生成プログラムに適用して有効な技術に関するものである。

複数の文章からなるテキストデータの内容からコンピュータ等による情報処理によって要約を生成するいわゆる自動要約の技術には様々なものが存在する。一般的には、複数の文章の中から重要と思われる文や段落等を抽出するタイプのものが多く用いられるが、文章全体の意味や要点を解析するタイプのものも研究されている。

重要な文等を抽出するタイプの要約には、大きく分けて以下の２種類がある。一つは抽出のためのルールを利用した要約であり、重要な文章についての特徴をルールとして予め定義しておき、当該ルールに当てはまる文章は一律に重要文として抽出するものである。もう一つは、いわゆる機械学習による要約であり、重要な文章についての特徴を機械学習し、得られた学習モデルを利用して各文章等についての重要度を判定し、これに基づいて重要文を抽出するものである。

ルールを利用した要約の生成に関連する技術として、例えば、特開２０１２−３７０１号公報（特許文献１）には、談話データおよび談話構造の解析結果である談話セマンティクスを入力として、談話についての要約を、所望の項目や内容が含まれ、かつ不要な項目が含まれない形で生成して出力する談話要約生成システムについての技術が記載されている。ここでは、談話データにおいて要約に含めるべき部分を特定するための単語の連接のパターンと、要約に含める要約文章のひな型との対応のリストを指定した要約テンプレートと、要約テンプレートに指定された各パターンと談話データとのマッチングを行い、マッチした場合に要約テンプレートにおけるマッチしたパターンに対応する要約文章のひな型から要約文章を生成して要約に追加する談話要約部とを有する。

また、機械学習による要約に関連する技術として、例えば、特開２００６−３１８５０９号公報（特許文献２）には、機械学習法による要約処理で用いる解データをユーザが自由に編集できる編集処理と前記解データを用いてユーザに特化した要約処理とを実現する技術が記載されている。ここでは、テキスト・要約からユーザが指定した範囲の文データを抽出してユーザ指定要約とし、複数の要約性質ごとの評価の入力項目を表示し、ユーザ指定要約についてユーザの評価入力を受け付け、所定規則または機械学習法による自動要約生成処理によりテキストの要約を生成する手段を有する。そして、テキストとユーザ指定要約で構成される問題に対してユーザ入力評価である解を付与したデータと、テキストとユーザ指定要約以外の部分で構成される問題に対してユーザ指定要約ではないことを示す悪い評価である解を付与したデータとを含む解データを生成して出力する。

特開２０１２−３７０１号公報特開２００６−３１８５０９号公報

自動要約が用いられる領域は様々であるが、例えば、コールセンター業務において、オペレータと顧客との電話での対話を録音した音声データから得られる、応対内容のテキストデータから、オペレータに代わってシステムが応対内容の要約を自動で生成するというような場面での利用を考えた場合、上述したような自動要約の技術では、現実的なコストで実用に耐え得る精度の要約を作成することは難しい。

ルールを利用した要約の生成（ルールベースでの要約の生成）では、多種多様な対話の内容に対してそれぞれ要約を生成するためのルールを予め作成・定義しておく必要があるため非常にコストがかかり、また、要約の精度がルールを作成する人の能力に依存するという課題を有する。一方、機械学習による要約の生成では、対話に構成要素として含まれる文字列の特徴を単純に学習させても、要約の対象が人と人との対話という話し言葉からなる複雑な構成を有する文章であるため、要約に含めるべき文が抽出されなかったりその逆の事象が生じたりなど、実用的な要約の精度を出すことが難しいという課題を有する。

そこで本発明の目的は、対話・談話の内容からの要約の生成に際して、コストを抑えつつ要約の精度を向上させることができる談話要約生成システムおよび談話要約生成プログラムを提供することにある。本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。

本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。

本発明の代表的な実施の形態による談話要約生成システムは、音声認識処理によって談話の内容がテキスト化された談話データに対して前記談話の構造を解析した解析済談話データを入力とし、前記談話についての要約を生成して出力する談話要約生成システムであって、以下の特徴を有するものである。

すなわち、談話要約生成システムは、前記解析済談話データに含まれる発話文から重要文を抽出して自動要約結果として出力する重要文抽出部と、１つ以上の発話文についての重要文と非重要文の分類情報を含む学習データに基づいて機械学習により学習モデルを生成する機械学習処理部とを有する。前記重要文抽出部は、前記解析済談話データに含まれる発話文から重要文を特定するための特定の表現パターンを予め指定した抽出ルールに合致する発話文を第１の重要文として抽出するルールベース処理部と、前記解析済談話データに含まれる各発話文に対して、前記学習モデルに基づいて機械学習により重要文か否かを判定し、第２の重要文を抽出する学習モデル処理部とを有し、前記第１の重要文と前記第２の重要文とを組み合わせて前記自動要約結果として出力することを特徴とするものである。

また、本発明の代表的な実施の形態による談話要約生成システムは、前記解析済談話データに含まれる発話文から重要文を抽出して自動要約結果として出力する重要文抽出部と、１つ以上の発話文についての重要文と非重要文の分類情報を含む学習データに基づいて機械学習により学習モデルを生成する機械学習処理部とを有する。前記重要文抽出部は、前記解析済談話データに含まれる各発話文に対して、前記学習モデルに基づいて機械学習により重要文か否かを判定し、重要文を抽出する学習モデル処理部を有する。前記機械学習処理部および前記学習モデル処理部は、機械学習において、素性として、前記解析済談話データに含まれる各発話文の発話意図に係る情報、発話文の中に内容語を含む割合、前記学習データにおける正例のデータである発話文に特徴的な形態素の情報、および前記学習データにおける負例のデータである発話文に特徴的な形態素の情報のうち、少なくとも一つ以上の要素を含むことを特徴とするものである。

また、本発明は、コンピュータを上記のような談話要約生成システムとして動作させるプログラムにも適用することができる。

本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。

すなわち、本発明の代表的な実施の形態によれば、対話・談話の内容からの要約の生成に際して、ルールベースでの要約の生成と、機械学習による要約の生成とを組み合わせ、機械学習の際の学習の対象となる素性を拡充することで、コストを抑えつつ要約の精度を向上させることが可能となる。

本発明の一実施の形態である談話要約生成システムの構成例について概要を示した図である。本発明の一実施の形態におけるルールベースでの要約と機械学習による要約とを組み合わせて重要文を抽出する例について概要を示した図である。本発明の一実施の形態における機械学習処理の流れの例について概要を示したフローチャートである。本発明の一実施の形態における機械学習による重要文抽出処理の流れの例について概要を示したフローチャートである。

以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。

本発明の一実施の形態である談話要約生成システムは、例えば、コールセンター業務におけるオペレータと顧客との対話など、１人以上の話者による発話行為である談話の内容を保持するテキストデータから、要約を生成するシステムであり、このとき、ルールベースでの要約の作成と、機械学習による要約の生成とを組み合わせるハイブリッド型の手法をとる。

ルールベースでの要約は、ルールの作成者が予め想定・希望した内容や形式の要約を得ることが可能であるが、多様な種類の内容を有する談話のデータに対して精度の高い要約を得るためには大量かつ効果的なルールを網羅的に設定・定義する必要が生じる。一方で、機械学習での要約は、実用的な精度を出すことが難しい場合があるものの、ルールではカバーされない（予め想定されていない）重要文を抽出することが可能な場合もある。

そこで、本実施の形態では、ルールベースでの要約と機械学習での要約のメリットを活かすべく、これらの手法を組み合わせて用いる。すなわち、要約という視点から、例えば、（もし発話されていた場合には）ある程度定型的に記載する必要がある事項についてのみルールベースで要約を生成し、ルールでカバーされない部分は機械学習により要約を生成することで、要約として最低限必要な事項が漏れることを防ぎつつ、対話の内容に柔軟に対応して重要文を抽出することを可能とし、ルールを整備することによるコストを低減しつつ、要約の精度を向上させることを実現する。

また、機械学習において、学習の対象とする素性（feature）を、従来一般的に用いられているような単純な文字列以外に、発話における様々な特性を素性として用いることで学習モデルの精度を低コストで向上させる。

また、自動要約の結果に対して、ユーザ（オペレータ等）が実際の応対内容に基づいて修正（重要文の追加や削除）を行うことで最終的な要約を生成する構成をとることで、得られた要約データを機械学習における正例の学習データとしつつ、要約の元データや修正前の自動要約の結果データ（最終的な要約の対象とならなかったもの）を機械学習における負例の学習データとすることを可能とし、学習モデルの精度を効果的に向上させることを可能とする。また、機械学習が対応できなかった発話内容についてユーザが修正した内容を上記のように追加の学習データとし、さらに機械学習を行なって学習モデルに反映させるフィードバックループを形成することで、管理者等による人手でのチューニングを要さずに、要約の精度を低コストで効果的に維持・向上させることを可能とする。

＜システム構成＞
図１は、本発明の一実施の形態である談話要約生成システムの構成例について概要を示した図である。談話要約生成システム１は、ＰＣ（Personal Computer）やサーバ等のコンピュータ機器からなり、例えば、ソフトウェアプログラムとして実装される重要文抽出部１０、参照・修正インタフェース２０、および機械学習処理部３０などの各部を有する。また、データベースやファイルテーブル等として実装される抽出ルール１３、学習モデル１４、および学習データ５０などの各データを有する。

この談話要約生成システム１は、例えば、談話内容についてその構造が解析されている解析済談話データ４を入力として、上述したように、ルールベースでの要約、および機械学習による要約を組み合わせて自動的に要約を生成し、その結果に対してユーザが修正を行うことで最終的な要約データ５を生成して出力するシステムである。

ここで、解析済談話データ４は、例えば、コールセンター業務におけるオペレータと顧客との対話などの音声データを公知の音声認識技術等により解析してテキスト化した談話データ３に基づいて、談話構造解析システム２により生成されたものを用いることができる。談話構造解析システム２は、例えば、上述した特許文献１に記載されている談話構造解析システムのように、話し言葉を含む談話データ３の各発話に対して形態素解析を行い、さらに談話構造の解析を行なって、談話のフロー構造の把握や固有表現の抽出、不要表現の削除などを行い、これらの解析結果（談話セマンティクス（談話全体の意味内容を把握するための談話構造に係る情報））を含むデータを解析済談話データ４として出力することができるものである。

なお、解析済談話データ４は、特許文献１に記載されているような談話セマンティクスを必ずしも全て有している必要はなく、後述する談話要約生成システム１の重要文抽出部１０におけるルールベースでの要約および機械学習による要約での処理に必要となる範囲の解析要素を含んでいればよい。

談話要約生成システム１の重要文抽出部１０は、上述した解析済談話データ４を入力として、ここに含まれる各発話の中から、ルールベースおよび機械学習により重要文を抽出し、これらを自動要約結果４０として出力する処理を行う。当該処理を行うため、重要文抽出部１０は、さらに、例えば、ルールベース処理部１１および学習モデル処理部１２の各部を有する。

ルールベース処理部１１は、解析済談話データ４の各発話から抽出ルール１３に予め定義されているルール（例えば、正規表現で表された特定の表現パターン）に合致する発話を重要文として抽出する処理を行う。ここでは、例えば、上述した特許文献１に記載されている談話要約生成システムと同様の機能を有するようなものとすることができ、解析済談話データ４に含まれる談話セマンティクスの情報に基づいて、予め設定した要約テンプレート（抽出ルール１３）に合致する内容を要約として出力することができる。

例えば、要約テンプレート（抽出ルール１３）に指定した単語の連接のパターンが発話に含まれる場合に、当該発話に基づいて要約テンプレートに指定した要約文章を出力することで、要約として最低限記載すべき、ある程度定型的な事項に係る発話を重要文として抽出することができる。このとき、出力レイアウトについても要約としての体裁を考慮して出力することが可能である。

学習モデル処理部１２は、解析済談話データ４の各発話に対して、後述する機械学習処理部３０による機械学習によって予め生成・設定された学習モデル１４を適用して重要文か否かの分類を行って重要文を抽出する処理を行う。ここでの分類手法は、後述する機械学習処理部３０による学習モデル１４の生成の手法と合わせて、公知の機械学習の手法やアルゴリズムを適宜使用することができる。本実施の形態では、例えば、上述した特許文献２などにも記載されているＳＶＭ（Support Vector Machine）を利用して重要文を分類・抽出するものとし、ＬＩＢＬＩＮＥＡＲやＬＩＢＳＶＭなどの公知の機械学習ツールやライブラリ等を利用して学習モデル処理部１２や機械学習処理部３０を実装する。

重要文抽出部１０は、ルールベース処理部１１により抽出ルール１３（要約テンプレートなど）に基づいて生成された要約と、学習モデル処理部１２により学習モデル１４を用いた機械学習（ＳＶＭ）による分類によって抽出された重要文とを、後述するように組み合わせる（マージする）ことで自動要約結果４０として出力する。

参照・修正インタフェース２０は、重要文抽出部１０が出力した自動要約結果４０の内容を、談話要約生成システム１が有するディスプレイ等の画面や図示しないクライアント端末上の画面に表示し、ユーザ（当該要約結果に係る応対を行ったオペレータやそのスーパーバイザ等）に対して重要文の追加・削除などの修正を行わせて、その結果を最終的な要約データ５として出力および／または保持する処理を行う。

ユーザが自動要約結果４０の内容を修正するためのユーザインタフェースについては特に限定されず、例えば、元の解析済談話データ４に含まれる各発話の内容と、自動要約結果４０に含まれる発話の内容とを並べて表示し、発話単位でドラッグ＆ドロップ等したり、直接文章を入力したりすることで自動要約結果４０に含める発話（重要文）やその並び順等を指定するようなインタフェースを採用することができる。

機械学習処理部３０は、上述したように、ＳＶＭ等の公知の機械学習の手法により、学習データ５０に基づいて、解析済談話データ４の各発話から重要文を分類・抽出するための学習モデル１４を生成する処理を行う。ここでの学習データ５０は、談話に含まれる各発話文について、機械学習の対象とする所定の素性（feature）についての値（出現頻度）と、対象の文が重要文であるか非重要文であるかの分類情報を含む。すなわち、分類の模範解答として、重要文としての正例（正解）のデータだけでなく、負例（不正解）のデータを含む。

本実施の形態では、学習データ５０における正例のデータとして、参照・修正インタフェース２０を介してユーザが自動要約結果４０から最終的に生成した要約データ５の内容を用いる。一方、要約を行う前の元データである解析済談話データ４、およびユーザが修正を施す前の自動要約結果４０を個別に保持しており、これらと要約データ５の中に含まれる各発話のデータは、同一のＩＤ等により相互に関連付けられている。従って、解析済談話データ４および自動要約結果４０に含まれる各発話の中で、要約データ５において重要文として抽出されなかった発話を特定し、これらを負例のデータとして用いることができる。

また、これらとは別に、過去の実際の応対内容や、別途作成した架空の応対内容等に対して、管理者等のユーザが指定した重要文としての正例・負例の模範データである要約正解データ６を取り込んで学習データ５０として用いることも可能である。なお、この場合、要約正解データ６に指定された各文が平文であり（要約データ５が平文として出力される場合も同様）、談話構造の解析がされていないものである場合は、ユーザによる手動もしくは談話要約生成システム１からの指示に基づいて、談話構造解析システム２によって談話構造を解析して談話セマンティクスを得ておくものとする。

なお、本実施の形態では、談話という固有の特性を有する文章についての要約の精度を向上させるため、機械学習の対象とする素性について、従来一般的に用いられてきたような単純な文字列以外に、発話における様々な特性を用いることで学習モデル１４の精度の向上を図る。

例えば、話者や発話文に現れる品詞、発話の長さ（文字数）、発話の位置（例えば、談話全体の中で先頭から何％の位置に出現したものか）などに加えて、出現した形態素のうち、正例のデータに特徴的な形態素と、負例のデータに特徴的な形態素をカイ二乗検定で選んだものや、解析済談話データ４における談話セマンティクスの情報に含まれる発話のフロー情報（「質問」や「要望」「陳述」などの各発話の意図・内容を示す情報）、発話文中に内容語（名詞（一般名詞、サ変名詞、接尾辞）、形容詞（自立語）、動詞（自立語）など）を含む割合などのうちの少なくとも１つ以上を素性として設定する。

本実施の形態では、オペレータと顧客との対話内容を解析した解析済談話データ４から、重要文抽出部１０により、抽出ルール１３を用いたルールベースでの要約と学習モデル１４を用いた機械学習による要約とを組み合わせて自動要約結果４０を出力する。この自動要約結果４０に対して、例えば、参照・修正インタフェース２０を介してオペレータが現場での業務の一環として修正を行い、修正結果を要約データ５とするとともに、学習データ５０として追加する。さらに、この学習データ５０を用いて機械学習処理部３０で機械学習を行うことにより、修正結果の内容を学習モデル１４に反映させる。このようなフィードバックループを形成することで自動要約結果４０、ひいては要約データ５の精度を低コストで効率的に維持・向上させることができる。

＜処理概要＞
図２は、ルールベースでの要約と機械学習による要約とを組み合わせて重要文を抽出する例について概要を示した図である。図の上段には、要約の対象となる談話の例として、コールセンター業務におけるオペレータと顧客との対話の内容について、音声認識によるテキスト化および談話構造の解析がされた結果である解析済談話データ４の一部を示している。この解析済談話データ４に対して、談話要約生成システム１のルールベース処理部１１および学習モデル処理部１２により、それぞれ重要文が抽出される。なお、ルールベース処理部１１により抽出された重要文については、抽出ルール１３に指定された要約テンプレートにより出力レイアウトについても規定されている。

重要文抽出部１０では、これらの内容を組み合わせて自動要約結果４０を生成する。組み合わせの手法については、両手段により抽出された重要文に基づいて自動要約結果４０を生成するものである限り特に限定されないが、本実施の形態では、単に双方の文章を結合もしくはマージして足し合わせるものとする。従って、自動要約結果４０には、図示するように、ルールベースにより抽出された重要文と機械学習により抽出された重要文とが含まれる。

当該自動要約結果４０は、談話要約生成システム１の参照・修正インタフェース２０により画面出力される。このとき、上述したように、例えば、元の解析済談話データ４に含まれる各発話の内容と、自動要約結果４０に含まれる発話の内容とを並べて表示し、発話単位でドラッグ＆ドロップ等したり、直接文章を入力したりすることで自動要約結果４０に対して追加・削除する発話やその並び順等を指定するようなインタフェースを採用することができる。

これにより、要約という視点からある程度定型的に記載する必要があり、ルールベースでの重要文の抽出でカバーできる事項についてはルールベースにより要約を生成し、ルールによる抽出でカバーすることが困難な部分は機械学習により要約を生成するものとすることで、要約として最低限必要な事項が漏れることを防ぎつつ、対話の内容に柔軟に対応して重要文を抽出することができる。

＜処理フロー（機械学習関連）＞
図３は、本実施の形態における機械学習処理の流れの例について概要を示したフローチャートである。当該処理は、定期的なバッチ処理として実行され、まず、機械学習処理部３０は、学習データ５０に含まれる各発話文について、機械学習に用いる素性に係る要素を抽出する（Ｓ０１）。素性の要素は、上述したように、例えば、話者や発話文に現れる品詞、発話の長さ、発話の位置、正例・負例に特徴的な形態素、発話のフロー情報、発話文中に内容語を含む割合などが考えられる。なお、学習データ５０は、当該処理とは別に、要約データ５や要約正解データ６から適時にデータを取り込んでおいてもよいし、当該処理の実行時にその前処理としてデータを取り込むようにしてもよい。

その後、機械学習処理部３０が利用する機械学習のアルゴリズムやライブラリの入力データの形式に合致するようにデータを変換する（Ｓ０２）。例えば、ライブラリとしてＬＩＢＬＩＮＥＡＲを用いる場合、各発話文について、スコア（例えば、重要文の場合は１、非重要文の場合は−１）と素性（素性番号）毎の出現頻度の情報を含むデータを作成する。なお、発話の長さなど数値が対象となる素性については、数値範囲毎に区切った各区分を素性として出現頻度を判定する。その後、ステップＳ０２で生成した入力データに基づいて機械学習を行い、学習モデル１４を生成して（Ｓ０３）、処理を終了する。

図４は、本実施の形態における機械学習による重要文抽出処理の流れの例について概要を示したフローチャートである。当該処理は、オペレータが顧客に対する応対を終了して、当該応対を録音した音声データに基づいて要約を自動生成するタイミングで実行され、まず、重要文抽出部１０は、解析済談話データ４に含まれる各発話について、図３のステップＳ０１と同様に、機械学習に用いる素性に係る要素を抽出する（Ｓ１１）。その後、図３のステップＳ０２と同様に、機械学習処理部３０が利用する機械学習のアルゴリズムやライブラリの入力データの形式に合致するようにデータを変換する（Ｓ１２）。

その後、学習モデル処理部１２は、ステップＳ０２で生成した入力データに対して学習モデル１４に基づいて機械学習のアルゴリズムやライブラリにより評価を行う（Ｓ１３）。本実施の形態では、評価は、解析済談話データ４に含まれる各発話について、例えば−１〜１のスコアを算出することで行う。その後、ステップＳ１３で評価したスコアが所定の閾値（例えばゼロ）を超えた発話を重要文と判断して抽出する（Ｓ１４）。その後、重要文抽出部１０は、ステップＳ１４で抽出された重要文と、別途、ルールベース処理部１１により要約テンプレート等（抽出ルール１３）に基づいて抽出された重要文と組み合わせる（結合もしくはマージする）ことで自動要約結果４０を生成して出力し（Ｓ１５）、処理を終了する。

以上に説明したように、本発明の一実施の形態である談話要約生成システム１によれば、ルールベースでの要約と機械学習による要約のメリットを活かすべく、これらの手法を組み合わせて用いることで、要約として最低限必要な事項が漏れることを防ぎつつ、対話の内容に柔軟に対応して要約データ５を抽出することを可能とし、ルールを整備することによるコストを低減しつつ、要約の精度を向上させることができる。

また、機械学習において、学習の対象とする素性を、従来一般的に用いられているような単純な文字列以外に、発話における様々な特性を素性として用いることで学習モデル１４の精度を低コストで向上させることができる。

また、自動要約結果４０に対して、ユーザ（オペレータ等）が実際の応対内容に基づいて修正を行なって最終的な要約データ５とする構成をとることで、要約データ５を機械学習における正例の学習データ５０としつつ、要約の元データや修正前の自動要約結果４０（要約データ５の対象とならなかったもの）をそれぞれ負例の学習データ５０とすることが可能となり、学習モデル１４の精度をより効果的に向上させることが可能となる。また、機械学習が対応できなかった発話内容についてユーザが修正した内容を上記のように追加の学習データ５０とし、さらに機械学習を行なって学習モデル１４に反映させるフィードバックループを形成することで、管理者等による人手でのチューニングを要さずに、要約の精度を低コストで効果的に維持・向上させることが可能となる。

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

本発明は、音声認識処理等により得られた談話データの構造を解析した結果から談話の要約を生成する談話要約生成システムおよび談話要約生成プログラムに利用可能である。

１…談話要約生成システム、２…談話構造解析システム、３…談話データ、４…解析済談話データ、５…要約データ、６…要約正解データ、
１０…重要文抽出部、１１…ルールベース処理部、１２…学習モデル処理部、１３…抽出ルール、１４…学習モデル、
２０…参照・修正インタフェース、
３０…機械学習処理部、
４０…自動要約結果、
５０…学習データ。

Claims

音声認識処理によって談話の内容がテキスト化された談話データに対して前記談話の構造を解析した解析済談話データを入力とし、前記談話についての要約を生成して出力する談話要約生成システムであって、
前記解析済談話データに含まれる発話文から重要文を抽出して自動要約結果として出力する重要文抽出部と、
１つ以上の発話文についての重要文と非重要文の分類情報を含む学習データに基づいて機械学習により学習モデルを生成する機械学習処理部とを有し、
前記重要文抽出部は、
前記解析済談話データに含まれる発話文から重要文を特定するための特定の表現パターンを予め指定した抽出ルールに合致する発話文を第１の重要文として抽出するルールベース処理部と、
前記解析済談話データに含まれる各発話文に対して、前記学習モデルに基づいて機械学習により重要文か否かを判定し、第２の重要文を抽出する学習モデル処理部とを有し、
前記第１の重要文と前記第２の重要文とを組み合わせて前記自動要約結果として出力することを特徴とする談話要約生成システム。
音声認識処理によって談話の内容がテキスト化された談話データに対して前記談話の構造を解析した解析済談話データを入力とし、前記談話についての要約を生成して出力する談話要約生成システムであって、
前記解析済談話データに含まれる発話文から重要文を抽出して自動要約結果として出力する重要文抽出部と、
１つ以上の発話文についての重要文と非重要文の分類情報を含む学習データに基づいて機械学習により学習モデルを生成する機械学習処理部とを有し、
前記重要文抽出部は、
前記解析済談話データに含まれる各発話文に対して、前記学習モデルに基づいて機械学習により重要文か否かを判定し、重要文を抽出する学習モデル処理部を有し、
前記機械学習処理部および前記学習モデル処理部は、機械学習において、素性として、前記解析済談話データに含まれる各発話文の発話意図に係る情報、発話文の中に内容語を含む割合、前記学習データにおける正例のデータである発話文に特徴的な形態素の情報、および前記学習データにおける負例のデータである発話文に特徴的な形態素の情報のうち、少なくとも一つ以上の要素を含むことを特徴とする談話要約生成システム。
請求項１または２に記載の談話要約生成システムにおいて、
前記自動要約結果に対して、ユーザが重要文の追加および／または削除を含む修正を行うための参照・修正インタフェースを有し、
前記参照・修正インタフェースでの処理の結果を最終的な要約データとして出力するとともに、当該要約データの内容を正例のデータとして前記学習データに追加することを特徴とする談話要約生成システム。
請求項３に記載の談話要約生成システムにおいて、
前記解析済談話データにおよび／または前記自動要約結果に含まれる発話文のうち、重要文として前記要約データに抽出されなかったものを負例のデータとして前記学習データに追加することを特徴とする談話要約生成システム。
音声認識処理によって談話の内容がテキスト化された談話データに対して前記談話の構造を解析した解析済談話データを入力とし、前記談話についての要約を生成して出力する談話要約生成システムとしてコンピュータを動作させる談話要約生成プログラムであって、
前記解析済談話データに含まれる発話文から重要文を抽出して自動要約結果として出力する重要文抽出処理と、
１つ以上の発話文についての重要文と非重要文の分類情報を含む学習データに基づいて機械学習により学習モデルを生成する機械学習処理とを実行し、
前記重要文抽出処理では、
前記解析済談話データに含まれる発話文から重要文を特定するための特定の表現パターンを予め指定した抽出ルールに合致する発話文を第１の重要文として抽出するルールベース処理と、
前記解析済談話データに含まれる各発話文に対して、前記学習モデルに基づいて機械学習により重要文か否かを判定し、第２の重要文を抽出する学習モデル処理とを実行し、
前記第１の重要文と前記第２の重要文とを組み合わせて前記自動要約結果として出力することを特徴とする談話要約生成プログラム。
音声認識処理によって談話の内容がテキスト化された談話データに対して前記談話の構造を解析した解析済談話データを入力とし、前記談話についての要約を生成して出力する談話要約生成システムとしてコンピュータを動作させる談話要約生成プログラムであって、
前記解析済談話データに含まれる発話文から重要文を抽出して自動要約結果として出力する重要文抽出処理と、
１つ以上の発話文についての重要文と非重要文の分類情報を含む学習データに基づいて機械学習により学習モデルを生成する機械学習処理とを実行し、
前記重要文抽出処理では、
前記解析済談話データに含まれる各発話文に対して、前記学習モデルに基づいて機械学習により重要文か否かを判定し、重要文を抽出する学習モデル処理を実行し、
前記機械学習処理および前記学習モデル処理では、機械学習において、素性として、前記解析済談話データに含まれる各発話文の発話意図に係る情報、発話文の中に内容語を含む割合、前記学習データにおける正例のデータである発話文に特徴的な形態素、および前記学習データにおける負例のデータである発話文に特徴的な形態素のうち、少なくとも一つ以上の要素を含むことを特徴とする談話要約生成プログラム。