JP2013167985A - 談話要約生成システムおよび談話要約生成プログラム - Google Patents
談話要約生成システムおよび談話要約生成プログラム Download PDFInfo
- Publication number
- JP2013167985A JP2013167985A JP2012030074A JP2012030074A JP2013167985A JP 2013167985 A JP2013167985 A JP 2013167985A JP 2012030074 A JP2012030074 A JP 2012030074A JP 2012030074 A JP2012030074 A JP 2012030074A JP 2013167985 A JP2013167985 A JP 2013167985A
- Authority
- JP
- Japan
- Prior art keywords
- discourse
- data
- sentence
- important
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】対話・談話の内容からの要約の生成に際して、コストを抑えつつ要約の精度を向上させることができる談話要約生成システムを提供する。
【解決手段】解析済談話データ4に含まれる発話文から重要文を抽出して自動要約結果40として出力する重要文抽出部10と、重要文と非重要文の分類情報を含む学習データ50に基づいて機械学習により学習モデル14を生成する機械学習処理部30とを有し、重要文抽出部10は、解析済談話データ4に含まれる発話文から重要文を特定するための特定の表現パターンを予め指定した抽出ルール13に合致する発話文を第1の重要文として抽出するルールベース処理部11と、解析済談話データ4に含まれる各発話文に対して、学習モデル14に基づいて機械学習により重要文か否かを判定し、第2の重要文を抽出する学習モデル処理部12とを有し、第1の重要文と第2の重要文とを組み合わせて自動要約結果40として出力する。
【選択図】図1
【解決手段】解析済談話データ4に含まれる発話文から重要文を抽出して自動要約結果40として出力する重要文抽出部10と、重要文と非重要文の分類情報を含む学習データ50に基づいて機械学習により学習モデル14を生成する機械学習処理部30とを有し、重要文抽出部10は、解析済談話データ4に含まれる発話文から重要文を特定するための特定の表現パターンを予め指定した抽出ルール13に合致する発話文を第1の重要文として抽出するルールベース処理部11と、解析済談話データ4に含まれる各発話文に対して、学習モデル14に基づいて機械学習により重要文か否かを判定し、第2の重要文を抽出する学習モデル処理部12とを有し、第1の重要文と第2の重要文とを組み合わせて自動要約結果40として出力する。
【選択図】図1
Description
本発明は、自然言語処理技術に関し、特に、音声認識処理等により得られた談話データの構造を解析した結果から談話の要約を生成する談話要約生成システムおよび談話要約生成プログラムに適用して有効な技術に関するものである。
複数の文章からなるテキストデータの内容からコンピュータ等による情報処理によって要約を生成するいわゆる自動要約の技術には様々なものが存在する。一般的には、複数の文章の中から重要と思われる文や段落等を抽出するタイプのものが多く用いられるが、文章全体の意味や要点を解析するタイプのものも研究されている。
重要な文等を抽出するタイプの要約には、大きく分けて以下の2種類がある。一つは抽出のためのルールを利用した要約であり、重要な文章についての特徴をルールとして予め定義しておき、当該ルールに当てはまる文章は一律に重要文として抽出するものである。もう一つは、いわゆる機械学習による要約であり、重要な文章についての特徴を機械学習し、得られた学習モデルを利用して各文章等についての重要度を判定し、これに基づいて重要文を抽出するものである。
ルールを利用した要約の生成に関連する技術として、例えば、特開2012−3701号公報(特許文献1)には、談話データおよび談話構造の解析結果である談話セマンティクスを入力として、談話についての要約を、所望の項目や内容が含まれ、かつ不要な項目が含まれない形で生成して出力する談話要約生成システムについての技術が記載されている。ここでは、談話データにおいて要約に含めるべき部分を特定するための単語の連接のパターンと、要約に含める要約文章のひな型との対応のリストを指定した要約テンプレートと、要約テンプレートに指定された各パターンと談話データとのマッチングを行い、マッチした場合に要約テンプレートにおけるマッチしたパターンに対応する要約文章のひな型から要約文章を生成して要約に追加する談話要約部とを有する。
また、機械学習による要約に関連する技術として、例えば、特開2006−318509号公報(特許文献2)には、機械学習法による要約処理で用いる解データをユーザが自由に編集できる編集処理と前記解データを用いてユーザに特化した要約処理とを実現する技術が記載されている。ここでは、テキスト・要約からユーザが指定した範囲の文データを抽出してユーザ指定要約とし、複数の要約性質ごとの評価の入力項目を表示し、ユーザ指定要約についてユーザの評価入力を受け付け、所定規則または機械学習法による自動要約生成処理によりテキストの要約を生成する手段を有する。そして、テキストとユーザ指定要約で構成される問題に対してユーザ入力評価である解を付与したデータと、テキストとユーザ指定要約以外の部分で構成される問題に対してユーザ指定要約ではないことを示す悪い評価である解を付与したデータとを含む解データを生成して出力する。
自動要約が用いられる領域は様々であるが、例えば、コールセンター業務において、オペレータと顧客との電話での対話を録音した音声データから得られる、応対内容のテキストデータから、オペレータに代わってシステムが応対内容の要約を自動で生成するというような場面での利用を考えた場合、上述したような自動要約の技術では、現実的なコストで実用に耐え得る精度の要約を作成することは難しい。
ルールを利用した要約の生成(ルールベースでの要約の生成)では、多種多様な対話の内容に対してそれぞれ要約を生成するためのルールを予め作成・定義しておく必要があるため非常にコストがかかり、また、要約の精度がルールを作成する人の能力に依存するという課題を有する。一方、機械学習による要約の生成では、対話に構成要素として含まれる文字列の特徴を単純に学習させても、要約の対象が人と人との対話という話し言葉からなる複雑な構成を有する文章であるため、要約に含めるべき文が抽出されなかったりその逆の事象が生じたりなど、実用的な要約の精度を出すことが難しいという課題を有する。
そこで本発明の目的は、対話・談話の内容からの要約の生成に際して、コストを抑えつつ要約の精度を向上させることができる談話要約生成システムおよび談話要約生成プログラムを提供することにある。本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。
本発明の代表的な実施の形態による談話要約生成システムは、音声認識処理によって談話の内容がテキスト化された談話データに対して前記談話の構造を解析した解析済談話データを入力とし、前記談話についての要約を生成して出力する談話要約生成システムであって、以下の特徴を有するものである。
すなわち、談話要約生成システムは、前記解析済談話データに含まれる発話文から重要文を抽出して自動要約結果として出力する重要文抽出部と、1つ以上の発話文についての重要文と非重要文の分類情報を含む学習データに基づいて機械学習により学習モデルを生成する機械学習処理部とを有する。前記重要文抽出部は、前記解析済談話データに含まれる発話文から重要文を特定するための特定の表現パターンを予め指定した抽出ルールに合致する発話文を第1の重要文として抽出するルールベース処理部と、前記解析済談話データに含まれる各発話文に対して、前記学習モデルに基づいて機械学習により重要文か否かを判定し、第2の重要文を抽出する学習モデル処理部とを有し、前記第1の重要文と前記第2の重要文とを組み合わせて前記自動要約結果として出力することを特徴とするものである。
また、本発明の代表的な実施の形態による談話要約生成システムは、前記解析済談話データに含まれる発話文から重要文を抽出して自動要約結果として出力する重要文抽出部と、1つ以上の発話文についての重要文と非重要文の分類情報を含む学習データに基づいて機械学習により学習モデルを生成する機械学習処理部とを有する。前記重要文抽出部は、前記解析済談話データに含まれる各発話文に対して、前記学習モデルに基づいて機械学習により重要文か否かを判定し、重要文を抽出する学習モデル処理部を有する。前記機械学習処理部および前記学習モデル処理部は、機械学習において、素性として、前記解析済談話データに含まれる各発話文の発話意図に係る情報、発話文の中に内容語を含む割合、前記学習データにおける正例のデータである発話文に特徴的な形態素の情報、および前記学習データにおける負例のデータである発話文に特徴的な形態素の情報のうち、少なくとも一つ以上の要素を含むことを特徴とするものである。
また、本発明は、コンピュータを上記のような談話要約生成システムとして動作させるプログラムにも適用することができる。
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。
すなわち、本発明の代表的な実施の形態によれば、対話・談話の内容からの要約の生成に際して、ルールベースでの要約の生成と、機械学習による要約の生成とを組み合わせ、機械学習の際の学習の対象となる素性を拡充することで、コストを抑えつつ要約の精度を向上させることが可能となる。
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。
本発明の一実施の形態である談話要約生成システムは、例えば、コールセンター業務におけるオペレータと顧客との対話など、1人以上の話者による発話行為である談話の内容を保持するテキストデータから、要約を生成するシステムであり、このとき、ルールベースでの要約の作成と、機械学習による要約の生成とを組み合わせるハイブリッド型の手法をとる。
ルールベースでの要約は、ルールの作成者が予め想定・希望した内容や形式の要約を得ることが可能であるが、多様な種類の内容を有する談話のデータに対して精度の高い要約を得るためには大量かつ効果的なルールを網羅的に設定・定義する必要が生じる。一方で、機械学習での要約は、実用的な精度を出すことが難しい場合があるものの、ルールではカバーされない(予め想定されていない)重要文を抽出することが可能な場合もある。
そこで、本実施の形態では、ルールベースでの要約と機械学習での要約のメリットを活かすべく、これらの手法を組み合わせて用いる。すなわち、要約という視点から、例えば、(もし発話されていた場合には)ある程度定型的に記載する必要がある事項についてのみルールベースで要約を生成し、ルールでカバーされない部分は機械学習により要約を生成することで、要約として最低限必要な事項が漏れることを防ぎつつ、対話の内容に柔軟に対応して重要文を抽出することを可能とし、ルールを整備することによるコストを低減しつつ、要約の精度を向上させることを実現する。
また、機械学習において、学習の対象とする素性(feature)を、従来一般的に用いられているような単純な文字列以外に、発話における様々な特性を素性として用いることで学習モデルの精度を低コストで向上させる。
また、自動要約の結果に対して、ユーザ(オペレータ等)が実際の応対内容に基づいて修正(重要文の追加や削除)を行うことで最終的な要約を生成する構成をとることで、得られた要約データを機械学習における正例の学習データとしつつ、要約の元データや修正前の自動要約の結果データ(最終的な要約の対象とならなかったもの)を機械学習における負例の学習データとすることを可能とし、学習モデルの精度を効果的に向上させることを可能とする。また、機械学習が対応できなかった発話内容についてユーザが修正した内容を上記のように追加の学習データとし、さらに機械学習を行なって学習モデルに反映させるフィードバックループを形成することで、管理者等による人手でのチューニングを要さずに、要約の精度を低コストで効果的に維持・向上させることを可能とする。
<システム構成>
図1は、本発明の一実施の形態である談話要約生成システムの構成例について概要を示した図である。談話要約生成システム1は、PC(Personal Computer)やサーバ等のコンピュータ機器からなり、例えば、ソフトウェアプログラムとして実装される重要文抽出部10、参照・修正インタフェース20、および機械学習処理部30などの各部を有する。また、データベースやファイルテーブル等として実装される抽出ルール13、学習モデル14、および学習データ50などの各データを有する。
図1は、本発明の一実施の形態である談話要約生成システムの構成例について概要を示した図である。談話要約生成システム1は、PC(Personal Computer)やサーバ等のコンピュータ機器からなり、例えば、ソフトウェアプログラムとして実装される重要文抽出部10、参照・修正インタフェース20、および機械学習処理部30などの各部を有する。また、データベースやファイルテーブル等として実装される抽出ルール13、学習モデル14、および学習データ50などの各データを有する。
この談話要約生成システム1は、例えば、談話内容についてその構造が解析されている解析済談話データ4を入力として、上述したように、ルールベースでの要約、および機械学習による要約を組み合わせて自動的に要約を生成し、その結果に対してユーザが修正を行うことで最終的な要約データ5を生成して出力するシステムである。
ここで、解析済談話データ4は、例えば、コールセンター業務におけるオペレータと顧客との対話などの音声データを公知の音声認識技術等により解析してテキスト化した談話データ3に基づいて、談話構造解析システム2により生成されたものを用いることができる。談話構造解析システム2は、例えば、上述した特許文献1に記載されている談話構造解析システムのように、話し言葉を含む談話データ3の各発話に対して形態素解析を行い、さらに談話構造の解析を行なって、談話のフロー構造の把握や固有表現の抽出、不要表現の削除などを行い、これらの解析結果(談話セマンティクス(談話全体の意味内容を把握するための談話構造に係る情報))を含むデータを解析済談話データ4として出力することができるものである。
なお、解析済談話データ4は、特許文献1に記載されているような談話セマンティクスを必ずしも全て有している必要はなく、後述する談話要約生成システム1の重要文抽出部10におけるルールベースでの要約および機械学習による要約での処理に必要となる範囲の解析要素を含んでいればよい。
談話要約生成システム1の重要文抽出部10は、上述した解析済談話データ4を入力として、ここに含まれる各発話の中から、ルールベースおよび機械学習により重要文を抽出し、これらを自動要約結果40として出力する処理を行う。当該処理を行うため、重要文抽出部10は、さらに、例えば、ルールベース処理部11および学習モデル処理部12の各部を有する。
ルールベース処理部11は、解析済談話データ4の各発話から抽出ルール13に予め定義されているルール(例えば、正規表現で表された特定の表現パターン)に合致する発話を重要文として抽出する処理を行う。ここでは、例えば、上述した特許文献1に記載されている談話要約生成システムと同様の機能を有するようなものとすることができ、解析済談話データ4に含まれる談話セマンティクスの情報に基づいて、予め設定した要約テンプレート(抽出ルール13)に合致する内容を要約として出力することができる。
例えば、要約テンプレート(抽出ルール13)に指定した単語の連接のパターンが発話に含まれる場合に、当該発話に基づいて要約テンプレートに指定した要約文章を出力することで、要約として最低限記載すべき、ある程度定型的な事項に係る発話を重要文として抽出することができる。このとき、出力レイアウトについても要約としての体裁を考慮して出力することが可能である。
学習モデル処理部12は、解析済談話データ4の各発話に対して、後述する機械学習処理部30による機械学習によって予め生成・設定された学習モデル14を適用して重要文か否かの分類を行って重要文を抽出する処理を行う。ここでの分類手法は、後述する機械学習処理部30による学習モデル14の生成の手法と合わせて、公知の機械学習の手法やアルゴリズムを適宜使用することができる。本実施の形態では、例えば、上述した特許文献2などにも記載されているSVM(Support Vector Machine)を利用して重要文を分類・抽出するものとし、LIBLINEARやLIBSVMなどの公知の機械学習ツールやライブラリ等を利用して学習モデル処理部12や機械学習処理部30を実装する。
重要文抽出部10は、ルールベース処理部11により抽出ルール13(要約テンプレートなど)に基づいて生成された要約と、学習モデル処理部12により学習モデル14を用いた機械学習(SVM)による分類によって抽出された重要文とを、後述するように組み合わせる(マージする)ことで自動要約結果40として出力する。
参照・修正インタフェース20は、重要文抽出部10が出力した自動要約結果40の内容を、談話要約生成システム1が有するディスプレイ等の画面や図示しないクライアント端末上の画面に表示し、ユーザ(当該要約結果に係る応対を行ったオペレータやそのスーパーバイザ等)に対して重要文の追加・削除などの修正を行わせて、その結果を最終的な要約データ5として出力および/または保持する処理を行う。
ユーザが自動要約結果40の内容を修正するためのユーザインタフェースについては特に限定されず、例えば、元の解析済談話データ4に含まれる各発話の内容と、自動要約結果40に含まれる発話の内容とを並べて表示し、発話単位でドラッグ&ドロップ等したり、直接文章を入力したりすることで自動要約結果40に含める発話(重要文)やその並び順等を指定するようなインタフェースを採用することができる。
機械学習処理部30は、上述したように、SVM等の公知の機械学習の手法により、学習データ50に基づいて、解析済談話データ4の各発話から重要文を分類・抽出するための学習モデル14を生成する処理を行う。ここでの学習データ50は、談話に含まれる各発話文について、機械学習の対象とする所定の素性(feature)についての値(出現頻度)と、対象の文が重要文であるか非重要文であるかの分類情報を含む。すなわち、分類の模範解答として、重要文としての正例(正解)のデータだけでなく、負例(不正解)のデータを含む。
本実施の形態では、学習データ50における正例のデータとして、参照・修正インタフェース20を介してユーザが自動要約結果40から最終的に生成した要約データ5の内容を用いる。一方、要約を行う前の元データである解析済談話データ4、およびユーザが修正を施す前の自動要約結果40を個別に保持しており、これらと要約データ5の中に含まれる各発話のデータは、同一のID等により相互に関連付けられている。従って、解析済談話データ4および自動要約結果40に含まれる各発話の中で、要約データ5において重要文として抽出されなかった発話を特定し、これらを負例のデータとして用いることができる。
また、これらとは別に、過去の実際の応対内容や、別途作成した架空の応対内容等に対して、管理者等のユーザが指定した重要文としての正例・負例の模範データである要約正解データ6を取り込んで学習データ50として用いることも可能である。なお、この場合、要約正解データ6に指定された各文が平文であり(要約データ5が平文として出力される場合も同様)、談話構造の解析がされていないものである場合は、ユーザによる手動もしくは談話要約生成システム1からの指示に基づいて、談話構造解析システム2によって談話構造を解析して談話セマンティクスを得ておくものとする。
なお、本実施の形態では、談話という固有の特性を有する文章についての要約の精度を向上させるため、機械学習の対象とする素性について、従来一般的に用いられてきたような単純な文字列以外に、発話における様々な特性を用いることで学習モデル14の精度の向上を図る。
例えば、話者や発話文に現れる品詞、発話の長さ(文字数)、発話の位置(例えば、談話全体の中で先頭から何%の位置に出現したものか)などに加えて、出現した形態素のうち、正例のデータに特徴的な形態素と、負例のデータに特徴的な形態素をカイ二乗検定で選んだものや、解析済談話データ4における談話セマンティクスの情報に含まれる発話のフロー情報(「質問」や「要望」「陳述」などの各発話の意図・内容を示す情報)、発話文中に内容語(名詞(一般名詞、サ変名詞、接尾辞)、形容詞(自立語)、動詞(自立語)など)を含む割合などのうちの少なくとも1つ以上を素性として設定する。
本実施の形態では、オペレータと顧客との対話内容を解析した解析済談話データ4から、重要文抽出部10により、抽出ルール13を用いたルールベースでの要約と学習モデル14を用いた機械学習による要約とを組み合わせて自動要約結果40を出力する。この自動要約結果40に対して、例えば、参照・修正インタフェース20を介してオペレータが現場での業務の一環として修正を行い、修正結果を要約データ5とするとともに、学習データ50として追加する。さらに、この学習データ50を用いて機械学習処理部30で機械学習を行うことにより、修正結果の内容を学習モデル14に反映させる。このようなフィードバックループを形成することで自動要約結果40、ひいては要約データ5の精度を低コストで効率的に維持・向上させることができる。
<処理概要>
図2は、ルールベースでの要約と機械学習による要約とを組み合わせて重要文を抽出する例について概要を示した図である。図の上段には、要約の対象となる談話の例として、コールセンター業務におけるオペレータと顧客との対話の内容について、音声認識によるテキスト化および談話構造の解析がされた結果である解析済談話データ4の一部を示している。この解析済談話データ4に対して、談話要約生成システム1のルールベース処理部11および学習モデル処理部12により、それぞれ重要文が抽出される。なお、ルールベース処理部11により抽出された重要文については、抽出ルール13に指定された要約テンプレートにより出力レイアウトについても規定されている。
図2は、ルールベースでの要約と機械学習による要約とを組み合わせて重要文を抽出する例について概要を示した図である。図の上段には、要約の対象となる談話の例として、コールセンター業務におけるオペレータと顧客との対話の内容について、音声認識によるテキスト化および談話構造の解析がされた結果である解析済談話データ4の一部を示している。この解析済談話データ4に対して、談話要約生成システム1のルールベース処理部11および学習モデル処理部12により、それぞれ重要文が抽出される。なお、ルールベース処理部11により抽出された重要文については、抽出ルール13に指定された要約テンプレートにより出力レイアウトについても規定されている。
重要文抽出部10では、これらの内容を組み合わせて自動要約結果40を生成する。組み合わせの手法については、両手段により抽出された重要文に基づいて自動要約結果40を生成するものである限り特に限定されないが、本実施の形態では、単に双方の文章を結合もしくはマージして足し合わせるものとする。従って、自動要約結果40には、図示するように、ルールベースにより抽出された重要文と機械学習により抽出された重要文とが含まれる。
当該自動要約結果40は、談話要約生成システム1の参照・修正インタフェース20により画面出力される。このとき、上述したように、例えば、元の解析済談話データ4に含まれる各発話の内容と、自動要約結果40に含まれる発話の内容とを並べて表示し、発話単位でドラッグ&ドロップ等したり、直接文章を入力したりすることで自動要約結果40に対して追加・削除する発話やその並び順等を指定するようなインタフェースを採用することができる。
これにより、要約という視点からある程度定型的に記載する必要があり、ルールベースでの重要文の抽出でカバーできる事項についてはルールベースにより要約を生成し、ルールによる抽出でカバーすることが困難な部分は機械学習により要約を生成するものとすることで、要約として最低限必要な事項が漏れることを防ぎつつ、対話の内容に柔軟に対応して重要文を抽出することができる。
<処理フロー(機械学習関連)>
図3は、本実施の形態における機械学習処理の流れの例について概要を示したフローチャートである。当該処理は、定期的なバッチ処理として実行され、まず、機械学習処理部30は、学習データ50に含まれる各発話文について、機械学習に用いる素性に係る要素を抽出する(S01)。素性の要素は、上述したように、例えば、話者や発話文に現れる品詞、発話の長さ、発話の位置、正例・負例に特徴的な形態素、発話のフロー情報、発話文中に内容語を含む割合などが考えられる。なお、学習データ50は、当該処理とは別に、要約データ5や要約正解データ6から適時にデータを取り込んでおいてもよいし、当該処理の実行時にその前処理としてデータを取り込むようにしてもよい。
図3は、本実施の形態における機械学習処理の流れの例について概要を示したフローチャートである。当該処理は、定期的なバッチ処理として実行され、まず、機械学習処理部30は、学習データ50に含まれる各発話文について、機械学習に用いる素性に係る要素を抽出する(S01)。素性の要素は、上述したように、例えば、話者や発話文に現れる品詞、発話の長さ、発話の位置、正例・負例に特徴的な形態素、発話のフロー情報、発話文中に内容語を含む割合などが考えられる。なお、学習データ50は、当該処理とは別に、要約データ5や要約正解データ6から適時にデータを取り込んでおいてもよいし、当該処理の実行時にその前処理としてデータを取り込むようにしてもよい。
その後、機械学習処理部30が利用する機械学習のアルゴリズムやライブラリの入力データの形式に合致するようにデータを変換する(S02)。例えば、ライブラリとしてLIBLINEARを用いる場合、各発話文について、スコア(例えば、重要文の場合は1、非重要文の場合は−1)と素性(素性番号)毎の出現頻度の情報を含むデータを作成する。なお、発話の長さなど数値が対象となる素性については、数値範囲毎に区切った各区分を素性として出現頻度を判定する。その後、ステップS02で生成した入力データに基づいて機械学習を行い、学習モデル14を生成して(S03)、処理を終了する。
図4は、本実施の形態における機械学習による重要文抽出処理の流れの例について概要を示したフローチャートである。当該処理は、オペレータが顧客に対する応対を終了して、当該応対を録音した音声データに基づいて要約を自動生成するタイミングで実行され、まず、重要文抽出部10は、解析済談話データ4に含まれる各発話について、図3のステップS01と同様に、機械学習に用いる素性に係る要素を抽出する(S11)。その後、図3のステップS02と同様に、機械学習処理部30が利用する機械学習のアルゴリズムやライブラリの入力データの形式に合致するようにデータを変換する(S12)。
その後、学習モデル処理部12は、ステップS02で生成した入力データに対して学習モデル14に基づいて機械学習のアルゴリズムやライブラリにより評価を行う(S13)。本実施の形態では、評価は、解析済談話データ4に含まれる各発話について、例えば−1〜1のスコアを算出することで行う。その後、ステップS13で評価したスコアが所定の閾値(例えばゼロ)を超えた発話を重要文と判断して抽出する(S14)。その後、重要文抽出部10は、ステップS14で抽出された重要文と、別途、ルールベース処理部11により要約テンプレート等(抽出ルール13)に基づいて抽出された重要文と組み合わせる(結合もしくはマージする)ことで自動要約結果40を生成して出力し(S15)、処理を終了する。
以上に説明したように、本発明の一実施の形態である談話要約生成システム1によれば、ルールベースでの要約と機械学習による要約のメリットを活かすべく、これらの手法を組み合わせて用いることで、要約として最低限必要な事項が漏れることを防ぎつつ、対話の内容に柔軟に対応して要約データ5を抽出することを可能とし、ルールを整備することによるコストを低減しつつ、要約の精度を向上させることができる。
また、機械学習において、学習の対象とする素性を、従来一般的に用いられているような単純な文字列以外に、発話における様々な特性を素性として用いることで学習モデル14の精度を低コストで向上させることができる。
また、自動要約結果40に対して、ユーザ(オペレータ等)が実際の応対内容に基づいて修正を行なって最終的な要約データ5とする構成をとることで、要約データ5を機械学習における正例の学習データ50としつつ、要約の元データや修正前の自動要約結果40(要約データ5の対象とならなかったもの)をそれぞれ負例の学習データ50とすることが可能となり、学習モデル14の精度をより効果的に向上させることが可能となる。また、機械学習が対応できなかった発話内容についてユーザが修正した内容を上記のように追加の学習データ50とし、さらに機械学習を行なって学習モデル14に反映させるフィードバックループを形成することで、管理者等による人手でのチューニングを要さずに、要約の精度を低コストで効果的に維持・向上させることが可能となる。
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
本発明は、音声認識処理等により得られた談話データの構造を解析した結果から談話の要約を生成する談話要約生成システムおよび談話要約生成プログラムに利用可能である。
1…談話要約生成システム、2…談話構造解析システム、3…談話データ、4…解析済談話データ、5…要約データ、6…要約正解データ、
10…重要文抽出部、11…ルールベース処理部、12…学習モデル処理部、13…抽出ルール、14…学習モデル、
20…参照・修正インタフェース、
30…機械学習処理部、
40…自動要約結果、
50…学習データ。
10…重要文抽出部、11…ルールベース処理部、12…学習モデル処理部、13…抽出ルール、14…学習モデル、
20…参照・修正インタフェース、
30…機械学習処理部、
40…自動要約結果、
50…学習データ。
Claims (6)
- 音声認識処理によって談話の内容がテキスト化された談話データに対して前記談話の構造を解析した解析済談話データを入力とし、前記談話についての要約を生成して出力する談話要約生成システムであって、
前記解析済談話データに含まれる発話文から重要文を抽出して自動要約結果として出力する重要文抽出部と、
1つ以上の発話文についての重要文と非重要文の分類情報を含む学習データに基づいて機械学習により学習モデルを生成する機械学習処理部とを有し、
前記重要文抽出部は、
前記解析済談話データに含まれる発話文から重要文を特定するための特定の表現パターンを予め指定した抽出ルールに合致する発話文を第1の重要文として抽出するルールベース処理部と、
前記解析済談話データに含まれる各発話文に対して、前記学習モデルに基づいて機械学習により重要文か否かを判定し、第2の重要文を抽出する学習モデル処理部とを有し、
前記第1の重要文と前記第2の重要文とを組み合わせて前記自動要約結果として出力することを特徴とする談話要約生成システム。 - 音声認識処理によって談話の内容がテキスト化された談話データに対して前記談話の構造を解析した解析済談話データを入力とし、前記談話についての要約を生成して出力する談話要約生成システムであって、
前記解析済談話データに含まれる発話文から重要文を抽出して自動要約結果として出力する重要文抽出部と、
1つ以上の発話文についての重要文と非重要文の分類情報を含む学習データに基づいて機械学習により学習モデルを生成する機械学習処理部とを有し、
前記重要文抽出部は、
前記解析済談話データに含まれる各発話文に対して、前記学習モデルに基づいて機械学習により重要文か否かを判定し、重要文を抽出する学習モデル処理部を有し、
前記機械学習処理部および前記学習モデル処理部は、機械学習において、素性として、前記解析済談話データに含まれる各発話文の発話意図に係る情報、発話文の中に内容語を含む割合、前記学習データにおける正例のデータである発話文に特徴的な形態素の情報、および前記学習データにおける負例のデータである発話文に特徴的な形態素の情報のうち、少なくとも一つ以上の要素を含むことを特徴とする談話要約生成システム。 - 請求項1または2に記載の談話要約生成システムにおいて、
前記自動要約結果に対して、ユーザが重要文の追加および/または削除を含む修正を行うための参照・修正インタフェースを有し、
前記参照・修正インタフェースでの処理の結果を最終的な要約データとして出力するとともに、当該要約データの内容を正例のデータとして前記学習データに追加することを特徴とする談話要約生成システム。 - 請求項3に記載の談話要約生成システムにおいて、
前記解析済談話データにおよび/または前記自動要約結果に含まれる発話文のうち、重要文として前記要約データに抽出されなかったものを負例のデータとして前記学習データに追加することを特徴とする談話要約生成システム。 - 音声認識処理によって談話の内容がテキスト化された談話データに対して前記談話の構造を解析した解析済談話データを入力とし、前記談話についての要約を生成して出力する談話要約生成システムとしてコンピュータを動作させる談話要約生成プログラムであって、
前記解析済談話データに含まれる発話文から重要文を抽出して自動要約結果として出力する重要文抽出処理と、
1つ以上の発話文についての重要文と非重要文の分類情報を含む学習データに基づいて機械学習により学習モデルを生成する機械学習処理とを実行し、
前記重要文抽出処理では、
前記解析済談話データに含まれる発話文から重要文を特定するための特定の表現パターンを予め指定した抽出ルールに合致する発話文を第1の重要文として抽出するルールベース処理と、
前記解析済談話データに含まれる各発話文に対して、前記学習モデルに基づいて機械学習により重要文か否かを判定し、第2の重要文を抽出する学習モデル処理とを実行し、
前記第1の重要文と前記第2の重要文とを組み合わせて前記自動要約結果として出力することを特徴とする談話要約生成プログラム。 - 音声認識処理によって談話の内容がテキスト化された談話データに対して前記談話の構造を解析した解析済談話データを入力とし、前記談話についての要約を生成して出力する談話要約生成システムとしてコンピュータを動作させる談話要約生成プログラムであって、
前記解析済談話データに含まれる発話文から重要文を抽出して自動要約結果として出力する重要文抽出処理と、
1つ以上の発話文についての重要文と非重要文の分類情報を含む学習データに基づいて機械学習により学習モデルを生成する機械学習処理とを実行し、
前記重要文抽出処理では、
前記解析済談話データに含まれる各発話文に対して、前記学習モデルに基づいて機械学習により重要文か否かを判定し、重要文を抽出する学習モデル処理を実行し、
前記機械学習処理および前記学習モデル処理では、機械学習において、素性として、前記解析済談話データに含まれる各発話文の発話意図に係る情報、発話文の中に内容語を含む割合、前記学習データにおける正例のデータである発話文に特徴的な形態素、および前記学習データにおける負例のデータである発話文に特徴的な形態素のうち、少なくとも一つ以上の要素を含むことを特徴とする談話要約生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012030074A JP2013167985A (ja) | 2012-02-15 | 2012-02-15 | 談話要約生成システムおよび談話要約生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012030074A JP2013167985A (ja) | 2012-02-15 | 2012-02-15 | 談話要約生成システムおよび談話要約生成プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013167985A true JP2013167985A (ja) | 2013-08-29 |
Family
ID=49178349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012030074A Pending JP2013167985A (ja) | 2012-02-15 | 2012-02-15 | 談話要約生成システムおよび談話要約生成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013167985A (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015210342A (ja) * | 2014-04-25 | 2015-11-24 | 日本電信電話株式会社 | 発話生成手法学習装置、発話生成手法選択装置、発話生成手法学習方法、発話生成手法選択方法、プログラム |
JP2016062181A (ja) * | 2014-09-16 | 2016-04-25 | 日本電信電話株式会社 | 重みベクトル学習装置、要約生成装置、方法、及びプログラム |
JP2019079321A (ja) * | 2017-10-25 | 2019-05-23 | 株式会社東芝 | 文書理解支援装置、文書理解支援方法、およびプログラム |
JP2019125317A (ja) * | 2018-01-19 | 2019-07-25 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
JP2019139280A (ja) * | 2018-02-06 | 2019-08-22 | Kddi株式会社 | テキスト分析装置、テキスト分析方法及びテキスト分析プログラム |
JP2020035272A (ja) * | 2018-08-31 | 2020-03-05 | 株式会社日立ソリューションズ東日本 | 要約生成装置および要約生成方法 |
CN111241268A (zh) * | 2020-01-21 | 2020-06-05 | 上海七印信息科技有限公司 | 一种文本摘要自动生成方法 |
JP2020150408A (ja) * | 2019-03-13 | 2020-09-17 | 株式会社日立情報通信エンジニアリング | コールセンタシステムおよび通話監視方法 |
JP2020187726A (ja) * | 2019-05-09 | 2020-11-19 | 株式会社Nttドコモ | テキスト処理方法、テキスト処理装置、テキスト処理デバイス及び記憶媒体 |
JP2021012625A (ja) * | 2019-07-09 | 2021-02-04 | 株式会社日立製作所 | 要約文作成方法、及び要約文作成システム |
JP2021180003A (ja) * | 2017-07-07 | 2021-11-18 | 株式会社野村総合研究所 | 学習データ生成方法および装置 |
US11315568B2 (en) | 2020-06-09 | 2022-04-26 | International Business Machines Corporation | Summarizing multi-modal conversations in a multi-user messaging application |
CN114898389A (zh) * | 2022-06-11 | 2022-08-12 | 国网安徽省电力有限公司 | 一种会计凭证摘要智能审核方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006318509A (ja) * | 2006-08-17 | 2006-11-24 | National Institute Of Information & Communication Technology | 解データ編集処理装置および処理方法 |
JP2010056682A (ja) * | 2008-08-26 | 2010-03-11 | National Institute Of Information & Communication Technology | 電子メール受信装置及び電子メール受信方法、電子メール送信装置及び電子メール送信方法、メール送信サーバ |
JP2012003701A (ja) * | 2010-06-21 | 2012-01-05 | Nomura Research Institute Ltd | 談話要約生成システムおよび談話要約生成プログラム |
-
2012
- 2012-02-15 JP JP2012030074A patent/JP2013167985A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006318509A (ja) * | 2006-08-17 | 2006-11-24 | National Institute Of Information & Communication Technology | 解データ編集処理装置および処理方法 |
JP2010056682A (ja) * | 2008-08-26 | 2010-03-11 | National Institute Of Information & Communication Technology | 電子メール受信装置及び電子メール受信方法、電子メール送信装置及び電子メール送信方法、メール送信サーバ |
JP2012003701A (ja) * | 2010-06-21 | 2012-01-05 | Nomura Research Institute Ltd | 談話要約生成システムおよび談話要約生成プログラム |
Non-Patent Citations (4)
Title |
---|
CSNG200500054025; 平尾努 他: 'Support Vector Machineを用いた重要文書抽出法' 情報処理学会論文誌 第44巻,第8号, 20030815, p.2230-2243 * |
CSNG200700699004; 矢野純司 他: 'コールセンターにおける音声対話を対象とした帰納的学習を用いた営業日報生成手法の性能評価' 情報処理学会研究報告 Vol.2007,No.35, 20070328, p.21-28 * |
JPN6014035877; 平尾努 他: 'Support Vector Machineを用いた重要文書抽出法' 情報処理学会論文誌 第44巻,第8号, 20030815, p.2230-2243 * |
JPN6014035878; 矢野純司 他: 'コールセンターにおける音声対話を対象とした帰納的学習を用いた営業日報生成手法の性能評価' 情報処理学会研究報告 Vol.2007,No.35, 20070328, p.21-28 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015210342A (ja) * | 2014-04-25 | 2015-11-24 | 日本電信電話株式会社 | 発話生成手法学習装置、発話生成手法選択装置、発話生成手法学習方法、発話生成手法選択方法、プログラム |
JP2016062181A (ja) * | 2014-09-16 | 2016-04-25 | 日本電信電話株式会社 | 重みベクトル学習装置、要約生成装置、方法、及びプログラム |
JP2021180003A (ja) * | 2017-07-07 | 2021-11-18 | 株式会社野村総合研究所 | 学習データ生成方法および装置 |
JP7100747B2 (ja) | 2017-07-07 | 2022-07-13 | 株式会社野村総合研究所 | 学習データ生成方法および装置 |
JP2019079321A (ja) * | 2017-10-25 | 2019-05-23 | 株式会社東芝 | 文書理解支援装置、文書理解支援方法、およびプログラム |
JP2019125317A (ja) * | 2018-01-19 | 2019-07-25 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
JP2019139280A (ja) * | 2018-02-06 | 2019-08-22 | Kddi株式会社 | テキスト分析装置、テキスト分析方法及びテキスト分析プログラム |
JP2020035272A (ja) * | 2018-08-31 | 2020-03-05 | 株式会社日立ソリューションズ東日本 | 要約生成装置および要約生成方法 |
JP7288293B2 (ja) | 2018-08-31 | 2023-06-07 | 株式会社日立ソリューションズ東日本 | 要約生成装置および要約生成方法 |
JP2020150408A (ja) * | 2019-03-13 | 2020-09-17 | 株式会社日立情報通信エンジニアリング | コールセンタシステムおよび通話監視方法 |
JP7274315B2 (ja) | 2019-03-13 | 2023-05-16 | 株式会社日立情報通信エンジニアリング | コールセンタシステムおよび通話監視方法 |
JP2020187726A (ja) * | 2019-05-09 | 2020-11-19 | 株式会社Nttドコモ | テキスト処理方法、テキスト処理装置、テキスト処理デバイス及び記憶媒体 |
JP2021012625A (ja) * | 2019-07-09 | 2021-02-04 | 株式会社日立製作所 | 要約文作成方法、及び要約文作成システム |
JP7309489B2 (ja) | 2019-07-09 | 2023-07-18 | 株式会社日立製作所 | 要約文作成方法、及び要約文作成システム |
CN111241268A (zh) * | 2020-01-21 | 2020-06-05 | 上海七印信息科技有限公司 | 一种文本摘要自动生成方法 |
CN111241268B (zh) * | 2020-01-21 | 2023-04-14 | 上海七印信息科技有限公司 | 一种文本摘要自动生成方法 |
US11315568B2 (en) | 2020-06-09 | 2022-04-26 | International Business Machines Corporation | Summarizing multi-modal conversations in a multi-user messaging application |
CN114898389A (zh) * | 2022-06-11 | 2022-08-12 | 国网安徽省电力有限公司 | 一种会计凭证摘要智能审核方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013167985A (ja) | 談話要約生成システムおよび談話要約生成プログラム | |
US7860705B2 (en) | Methods and apparatus for context adaptation of speech-to-speech translation systems | |
CN109740053B (zh) | 基于nlp技术的敏感词屏蔽方法和装置 | |
US20120096029A1 (en) | Information analysis apparatus, information analysis method, and computer readable storage medium | |
CN111615696A (zh) | 用于相关性检测和审阅的内容的交互式表示 | |
JP2018146715A (ja) | 音声対話装置、その処理方法及びプログラム | |
US20200233908A1 (en) | Interactive system and computer program therefor | |
JPWO2007097208A1 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
JP7381052B2 (ja) | 問合せ対応支援装置、問合せ対応支援方法、プログラム及び記録媒体 | |
JP5867410B2 (ja) | 対話テキスト解析装置、方法およびプログラム | |
JP2016045655A (ja) | 応答生成方法、応答生成装置及び応答生成プログラム | |
JP5574842B2 (ja) | Faq候補抽出システムおよびfaq候補抽出プログラム | |
JP2019101065A (ja) | 音声対話装置、音声対話方法及びプログラム | |
US11176943B2 (en) | Voice recognition device, voice recognition method, and computer program product | |
JP2018205945A (ja) | 対話応答文書自動作成人工知能装置 | |
JP5136512B2 (ja) | 応答生成装置及びプログラム | |
US11960847B2 (en) | Systems and methods for generating responses for an intelligent virtual | |
US20170242845A1 (en) | Conversational list management | |
JP2016080981A (ja) | 応答生成装置、応答生成方法及び応答生成プログラム | |
JP2014191484A (ja) | 文末表現変換装置、方法、及びプログラム | |
JP2021125164A (ja) | 情報処理装置、チャットボットアシストプログラム及びチャットボットアシスト方法 | |
JP2011113490A (ja) | 談話要約生成システムおよび談話要約生成プログラム | |
JP6287754B2 (ja) | 応答生成装置、応答生成方法及び応答生成プログラム | |
JP6538399B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
JP2007026347A (ja) | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140826 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20141224 |