JP5728374B2 - 対話要約システムおよび対話要約プログラム - Google Patents

対話要約システムおよび対話要約プログラム Download PDF

Info

Publication number
JP5728374B2
JP5728374B2 JP2011268573A JP2011268573A JP5728374B2 JP 5728374 B2 JP5728374 B2 JP 5728374B2 JP 2011268573 A JP2011268573 A JP 2011268573A JP 2011268573 A JP2011268573 A JP 2011268573A JP 5728374 B2 JP5728374 B2 JP 5728374B2
Authority
JP
Japan
Prior art keywords
score
block
dialog
statement
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011268573A
Other languages
English (en)
Other versions
JP2013120514A (ja
Inventor
一彰 竹原
一彰 竹原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2011268573A priority Critical patent/JP5728374B2/ja
Publication of JP2013120514A publication Critical patent/JP2013120514A/ja
Application granted granted Critical
Publication of JP5728374B2 publication Critical patent/JP5728374B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、文書の要約を生成する技術に関し、特に、対話の内容から重要な文を抽出して要約を生成する対話要約システムおよび対話要約プログラムに適用して有効な技術に関するものである。
例えば、コールセンター業務において、オペレータやコミュニケータは、電話応対後に内容を要約した応対記録を作成して応対管理システム等へ保存するという一連の業務を行う必要がある。このとき、オペレータ等は、自身の記憶を頼りにして応対記録を作成するため作成に時間がかかり、作業負荷が増大するという問題がある。また、各オペレータ等のスキルに応じて品質(内容、統一性、網羅性、簡潔性等)にバラツキが生じる。このように応対記録の品質にバラツキがあったり品質が低かったりすることにより、顧客の声を正確に把握することができなかったり、応対記録の蓄積からテキストマイニング等の技術を利用して新たな知見を得る(例えば、潜在的な問題やニーズを発掘したりFAQの候補を選定したり等)というようなことができなかったりなどの問題も生じる。
このような問題を解決するため、例えば、応対での対話内容を音声データとして録音・記録し、当該データを音声認識の技術を利用してテキスト化して、さらに自然言語処理の技術を適用して内容を要約することで応対記録を自動生成するということも検討されている。これにより、応対記録作成にかかるコストを削減しつつ、統一性、簡潔性を確保することで応対記録の活用性を向上させることが可能である。
このような技術として、例えば、非特許文献1には、コールセンターにおける音声対話において、音声データをテキスト化し、過去の対話内容とその営業日報から帰納的学習により再帰的に規則獲得を行い、それらの規則を用いて未知の対話内容に対して重要箇所を決定・抽出し、文体変換を行うことで営業日報を自動生成する技術が記載されている。
また、テキスト化された文書データから要約を生成する技術についても種々のものが提案されている。例えば、特開2002−259371号公報(特許文献1)には、入力された文書を単語集合抽出装置で形態素解析し、要約種別に応じて要約の手がかりとして必要な単語集合を文書から抽出するとともに、文書分割装置において文書を複数の意味的なまとまりに分割し、各意味的なまとまりについて単語集合に含まれる単語の出現密度の高い重要部分を重要箇所算出装置で算出し、この重要部分から要約率に応じて文を要約文抽出装置で抽出することで、単語の出現密度を考慮した重要性に基づき精度の高い要約を要約種別に応じて生成する技術が記載されている。
また、例えば、特開2006−59082号公報(特許文献2)には、要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算し、同様に文毎に、質問応答としての文の重要度である質問応答文重要度を計算し、汎用文重要度と質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出し、統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出し、抽出した重要文を整列させて要約文を生成することで、質問に対する解のみならず、一般的に重要な情報をバランスよく含む要約文を生成する技術が記載されている。
特開2002−259371号公報 特開2006−59082号公報
矢野純司、荒木健治、"コールセンターにおける音声対話を対象とした帰納的学習を用いた営業日報生成手法の性能評価"、情報処理学会研究報告 2007−NL−178、2007年3月28日、p.21−28
テキスト化された文書から要約を自動で生成する場合、上述した従来技術などと同様に、通常は、文書中の文や単語毎に種々の手法により重要度を算出し、当該重要度の高いものから順に所定の要約条件(例えば、所定の要約率に達するまで抽出したり、重要度が所定の値以上のものを全て抽出したり等)に従って文を抽出し、これを並べて要約文を生成するという手法がとられる。これにより、重要度が高い文を幅広くバランスよく抽出することが可能である。
しかしながら、例えば、コールセンターにおけるオペレータと顧客との対話など、対話の中に複数の話題やトピックが含まれて変遷していくような場合では特に、上述したような重要度に基づく単純な文の抽出による要約文の生成手法では、対話の文脈・コンテキストを考慮することができず、重要度が高い文をまんべんなく抽出する分、生成された要約文は、話のつながりや脈絡がなく意味を捉えにくいものとなる場合がある。
そこで本発明の目的は、対話内容のテキストデータから話のつながりを把握しやすい要約文を生成することを可能とする対話要約システムおよび対話要約プログラムを提供することにある。本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。
本発明の代表的な実施の形態による対話要約システムは、対話内容から1つ以上の重要文を抽出して、前記重要文からなる要約データを生成する対話要約システムであって、対話内容における各ステートメントの情報、および各ステートメントについての重要度を示すスコアの情報と、話者毎の連続したステートメントを単位とするブロックの情報とを有する対話構造データに基づいて、所定の要約条件を満たすまで、前記スコアが最も高いステートメントを前記重要文として前記対話構造データから抽出し、前記重要文を抽出した第1のブロックおよびその近辺の第2のブロックに対して所定のスコアを割り当て、さらに前記第1および第2のブロックに含まれる各ステートメントの前記スコアに対して前記所定のスコアを所定の条件に従って割り当てて加算する重要文抽出部を有することを特徴とするものである。
また、本発明は、コンピュータを上記のような対話要約システムとして動作させる対話要約プログラムにも適用することができる。
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。すなわち、本発明の代表的な実施の形態によれば、対話内容のテキストデータから話のつながりを把握しやすい要約文を生成することが可能となる。
本発明の一実施の形態である対話要約システムの構成例について概要を示した図である。 本発明の一実施の形態における対話構造の概要について例を示した図である。 本発明の一実施の形態における要約データを生成する処理の流れの例について概要を示したフローチャートである。 本発明の一実施の形態におけるオペレータと顧客との対話についての対話構造データの例を示した図である。 本発明の一実施の形態における最も重要度のスコアが高いステートメントからスコア伝搬を行いつつ重要文を抽出する手順の例について示した図である。 本発明の一実施の形態における最も重要度のスコアが高いステートメントからスコア伝搬を行いつつ重要文を抽出する手順の例について示した図である。 本発明の一実施の形態における最も重要度のスコアが高いステートメントからスコア伝搬を行いつつ重要文を抽出する手順の例について示した図である。 本発明の一実施の形態における最も重要度のスコアが高いステートメントからスコア伝搬を行いつつ重要文を抽出する手順の例について示した図である。
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。
本発明の一実施の形態である対話要約システムは、対話内容をテキスト化した対話データについて、文毎に重要度からなるスコアを算出し、当該スコアに基づいて要約条件に達するまで重要文を抽出して要約文を生成するものである。このとき、単純にスコアが高いものから順に重要文を抽出するだけではなく、対話の構造に応じて重要文のスコアを他の文に伝搬させて調整し、その結果に基づいてスコアが高い重要文を抽出することで、話のつながりや脈絡を把握しやすい要約文を生成することを可能とするものである。
なお、「対話」については、2者間のものに限らず、3者以上の間のものやスピーチ等1人の話者によるものも含むものとするが、本実施の形態で例として取り上げるコールセンター業務における顧客とオペレータとの間の対話のように、対話の特性がある程度定型的に把握可能なものである方が望ましい。例えば、顧客(質問者、相談者)とオペレータ(回答者)との間の対話では、要約に含める候補となり得る重要なトピックについては主に質問や相談の具体的な内容という形で顧客が切り出し、これに対してオペレータが回答する(すなわち、トピックの開始や切り替わりは主に顧客が主導する)という構造となり、オペレータが主導するトピックは主に定型的な確認や通知等(例えば、本人確認など)であることが多いという特性を有する。
<システム構成>
図1は、本発明の一実施の形態である対話要約システムの構成例について概要を示した図である。対話要約システム1は、例えば、PC(Personal Computer)やサーバ機器などの情報処理装置からなり、対話内容をテキスト化したデータである対話データ21を入力として、重要文を抽出し、当該重要文からなる要約データ15を生成・出力するシステムである。ここで、対話データ21は、例えば、顧客とオペレータとの対話内容を録音した音声データから、公知の音声認識技術を利用した音声認識エンジン2などにより生成されたものである。
対話要約システム1は、例えば、図示しないOS(Operating System)等のミドルウェア上で動作するソフトウェアプログラムとして実装される対話構造解析部11、スコアリング部12、および重要文抽出部13などの各部を有する。
対話構造解析部11は、入力された対話データ21に対して、公知の言語処理技術を利用して対話構造の解析を行い、解析結果をXML(eXtensible Markup Language)などを利用して表されたデータ構造による対話構造データ14としてデータベースやファイル等に保持する。図2は、対話構造の概要について例を示した図である。対話構造解析部11での解析は、図2の例に示すように、少なくとも、対話データ21を各発話文(ステートメント)に分解して話者を判別し、話者(図2の例ではオペレータと顧客)毎の連続したステートメントを単位とするブロックにまとめる。各ステートメントに対して話者毎に識別番号(図2の例ではO1、O2、…、およびC1、C2、…)を採番してもよい。
さらに、後述するスコアリングの際に用いるために、必要に応じて、各ステートメントに対していわゆる形態素解析を行って形態素(言語における意味を持つ最小の単位。以下では単に「単語」と記載する場合がある)の列に分割し、品詞を判別する等の解析処理を行ってもよい。判別結果の情報についても対話構造データ14に保持する。なお、形態素解析については、公知の形態素解析エンジン(例えば、MeCab(和布蕪)やChaSen(茶筌)など)を利用することができる。これ以外にも、対話構造の解析として、例えば、固有名詞の判別や、各ステートメントの意味等(挨拶文や相槌、質問、回答などの種別のいずれに該当するか等)を判別するような処理を行ってもよい。
スコアリング部12は、対話構造データ14に保持された各ステートメントについて、所定の手法により重要度を示すスコアを算出する。スコアリングの手法は特に限定されず、種々のものを用いることができる。本実施の形態では、例えば、一般的に文章中の単語の重要度を示すものとして用いられている指標である、TF−IDF(Term Frequency - Inverse Document Frequency)値を用いる。
TF−IDF値は、ある文章(ステートメント)内の単語について、当該ステートメントにおける当該単語の出現頻度であるTF値(当該ステートメントでどれだけ多く使われているかの程度を示す)と、全てのステートメント(対話全体)の中で当該単語が出現するステートメントの数の逆数であるIDF値(一つのステートメントにおいて集中して使われている(複数のステートメントで幅広く使われているものではない)程度を示す)との積である。TF−IDF値が大きい単語は、当該ステートメントの特徴をよく表し、重要度が高い単語であることを示す。従って、例えば、当該ステートメント内の各単語についてそれぞれ算出したTF−IDF値を合計することで、当該ステートメントについての重要度をスコアリングすることができる。
なお、TF値やIDF値は、それぞれ、ステートメント内の単語の種類の総数や対話内のステートメントの総数によって正規化してもよい。その際、対数によって正規化してもよい。また、ステートメント内の各単語について、例えば、対話構造解析部11での形態素解析により判別された品詞等の情報や、対話構造の内容(例えば、各ステートメントの意味等)の情報に基づいて、当該単語のTF−IDF値に対して重み付けを行ってもよい。スコアリングの結果は、各ステートメントに関連付けて対話構造データ14に保持する。
重要文抽出部13は、対話構造データ14に保持された各ステートメントから、スコアリング部12で算出した重要度を示すスコアに基づいて、所定の要約条件に従って重要文を抽出し、要約データ15を生成する。ここでの要約条件は、例えば、元の対話データ21と要約データ15との文字数もしくはステートメント数の比である要約率としたり、抽出した重要文の数としたりすることができる。スコアが所定の値以上のものを抽出するなどとしてもよい。
重要文の抽出に際しては、後述するように、抽出した重要文のスコアを対話の構造に応じて他のステートメントに伝搬させて調整し、その結果に基づいてさらに重要文を抽出するようにすることで、抽出した重要文からなる要約データ15が話のつながりや脈絡を把握しやすいものとなるようにする。
なお、本実施の形態では、対話データ21を入力として、対話構造の解析およびスコアリングを行って対話構造データ14を生成し、これに基づいて重要文を抽出して要約データ15を生成する構成としているが、システム構成としてはこれに限るものではない。例えば、音声認識エンジン2を対話要約システム1に含む構成であってもよいし、逆に、他のシステム等により対話構造データ14に相当するデータを取得することが可能である場合は、これを入力として、重要文抽出部13により重要文を抽出して要約データ15を生成する機能のみを有する構成とすることもできる。
<処理の流れ>
図3は、対話要約システム1における要約データ15を生成する処理の流れの例について概要を示したフローチャートである。対話要約システム1は、処理を開始すると、まず、テキスト化された対話データ21を入力し、対話構造解析部11により、対話構造の解析を行う(S01)。ここでは、上述したように、対話データ21内の各ステートメントをブロックにまとめ、また、各ステートメントについて形態素解析を行って単語に分割し、必要に応じて他の解析処理を行う。次に、スコアリング部12により、各ステートメントについて重要度を示すスコアを算出する(S02)。ここでは、上述したように、例えば、ステートメント内の各単語について算出したTF−IDF値の合計により各ステートメントについてのスコアを算出する。
次に、重要文抽出部13により、重要度を示すスコアが最大値であるステートメントを重要文として抽出する(S03)。次に、所定の要約条件を満たしたか否かを判定する(S04)。要約条件は、上述したように、例えば、要約率や、抽出した重要文の数としたり、スコアが所定の値以上のものを抽出する等の条件としたりすることができる。要約条件を満たしていない場合は、重要文として抽出したステートメントから、対話の構造に応じて他のステートメントにスコアを伝搬させる(S05)。これにより、重要文として抽出したステートメントの近辺のステートメントのスコアをかさ上げし、重要文として抽出されやすくする。
具体的には、重要文として抽出したステートメントのスコアをSとすると、例えば、ステップS03において重要文がオペレータの発話のブロックから抽出された場合は、当該ブロックにS/2、当該ブロックの直前および直後の顧客の発話のブロックにそれぞれS/4のスコアを割り当てる。重要文が顧客の発話のブロックから抽出された場合は、当該ブロックにS/2、当該ブロックの直後のオペレータの発話のブロックにS/2のスコアを割り当てる。各ブロックに割り当てられたスコアは、ブロック内の各ステートメント(重要文として抽出済みのステートメントを除く)に対して、それぞれのスコアに応じて按分して割り当てて加算する。
このように、重要文として抽出したステートメントがオペレータの発話のブロックのものか顧客の発話のブロックのものかで、スコアを伝搬させるステートメント(ブロック)を異なるものとすることで、例えば、重要なトピックについては主に質問や相談の具体的な内容という形で顧客が切り出し、これに対してオペレータが回答する(トピックの開始や切り替わりは顧客が主導する)というような、コールセンター業務における顧客とオペレータとの間の対話構造の特性を考慮した形で重要度を調整することが可能となる。
重要文として抽出したステートメントの近辺のステートメントにスコアを伝搬させた状態で、ステップS03に戻って、さらにスコアが最大値であるステートメントを次の重要文として抽出する処理を繰り返す。ステップS04で所定の要約条件を満たすと、それまでに抽出した重要文を時系列に並べて要約データ15として出力し(S06)、処理を終了する。
このとき、ユーザは、出力された要約データ15をそのまま要約として用いてもよいし、要約データ15をベースとして編集を行って最終的な要約を作成してもよい。その際、対話要約システム1は、例えば、重要文として抽出されなかったがスコアが高いステートメント(例えば、スコアが所定の値よりも高いものや、所定の順位より上位のもの)を参考情報として合わせて出力・提示するようにしてもよい。
<重要度のスコアによる重要文抽出>
以下では、対話データ21から重要度のスコアを伝搬させることによって重要文を抽出する手法における具体的な処理の例について、コールセンター業務におけるオペレータと顧客との対話を例として説明する。図4は、オペレータと顧客との対話についての対話構造データ14の例を示した図である。ここでは、対話データ21について対話構造解析部11による対話構造の解析およびスコアリング部12による重要度のスコアリングを行った結果を、話者毎にステートメント単位で時系列に並べた状態を示している。
各話者の左側の列(カラム)は、それぞれステートメントを識別する識別番号(オペレータの場合はO1、O2、…、顧客の場合はC1、C2、…)を示しており、右側の列(カラム)はそれぞれ対象のステートメントの重要度のスコアを示している。ステートメントの文言自体については記載を省略しているが、1つ以上のブロックに渡る実際のトピックの内容(図4の例では保険契約に関する質問と回答が中心)とその流れについては図の左側に表示している。
ここで、要約条件として例えば重要文を5つ抽出するものとした場合、従来技術と同様に、上述したスコア伝搬を行わない場合は、例えば図4に示したように、全ステートメントのうち重要度のスコアが上位の5つである、C8、C4、C9、O14、C14の5つのステートメントが重要文として抽出されることになる(要約データ15として出力する際は、時系列にC4、C8、C9、O14、C14の順に並べる)。このとき、対話のトピックは、“契約内容問い合わせ”、“配当金照会”、“契約内容変更相談”の3つに渡ることになる。
本実施の形態では、図4と同様の対話構造データ14に対して、スコア伝搬を行いつつ重要文を抽出する。図5〜図8は、最も重要度のスコアが高いステートメントからスコア伝搬を行いつつ重要文を抽出する手順の例について示した図である。図5の左側の図では、図4に示した初期状態における全ステートメントの中で重要度のスコアが最も高いステートメント(C8)を1つ目の重要文として選択、抽出した状態を示している。また、図5の右側の図では、左側の図で抽出したステートメント(C8)のスコアを近辺のステートメントに伝搬させた状態を示している。
ここでは、重要文として抽出したステートメント(C8)が顧客の発話のブロックから抽出されている。従って、上述したように、当該ステートメント(C8)のスコアS=50について、当該ブロックにS/2=25、当該ブロックの直後のオペレータの発話のブロックにS/2=25のスコアを割り当てる。
各ブロックに割り当てられたスコアは、ブロック内の各ステートメント(重要文として抽出済みのステートメントを除く)に対して、それぞれのスコアに応じて按分して割り当てて加算する。従って、重要文として抽出したステートメント(C8)が抽出されたブロックでは、例えば、C7のステートメントのスコアは、元々の5に対して、25*5/(5+30)=4(少数位四捨五入)が加算されて9となる。同様に、C9のステートメントのスコアは、元々の30に対して、25*30(5+30)=21が加算されて51となる。なお、既に抽出されたC8のステートメントには割り当てられないものとする。
また、C8のステートメントが抽出されたブロックの直後のオペレータの発話のブロックでも同様に、O10のステートメントのスコアは、元々の5に対して、25*5/(5+20+10+5)=3(少数位四捨五入)が加算されて8となる。同様に、O11〜O13の各ステートメントのスコアはそれぞれ32、16、8となる。スコアの伝搬が行われた右側の図の状態では、抽出済みのステートメントを除いて重要度のスコアが最も高いステートメント(C9)を2つ目の重要文として選択、抽出する。
図6の左側の図では、C9のステートメントを2つ目の重要文として選択、抽出した状態を示している。また、図6の右側の図では、左側の図で抽出したステートメント(C9)のスコアを近辺のステートメントに伝搬させた状態を示している。ここでも、重要文として抽出したステートメント(C9)が顧客の発話のブロックから抽出されているため、上記と同様に、当該ステートメント(C9)のスコアS=51について、当該ブロックにS/2=26、当該ブロックの直後のオペレータの発話のブロックにS/2=26のスコアを割り当てる。
その結果、C7のステートメントのスコアは35となり、O10、O12、O13の各ステートメントのスコアはそれぞれ11、22、11となる。スコアの伝搬が行われた右側の図の状態では、抽出済みのステートメントを除いて重要度のスコアが最も高いステートメント(O11)を3つ目の重要文として選択、抽出する。
図7の左側の図では、O11のステートメントを3つ目の重要文として選択、抽出した状態を示している。また、図7の右側の図では、左側の図で抽出したステートメント(O11)のスコアを近辺のステートメントに伝搬させた状態を示している。ここでは、重要文として抽出したステートメント(O11)がオペレータの発話のブロックから抽出されている。従って、上述したように、当該ステートメント(O11)のスコアS=45について、当該ブロックにS/2=23、当該ブロックの直前および直後の顧客の発話のブロックにそれぞれS/4=11のスコアを割り当てる。
その結果、O10、O12、O13の各ステートメントのスコアはそれぞれ17、34、17となる。また、C7のステートメントのスコアは46となり、C10〜C12の各ステートメントのスコアはそれぞれ7、7、28となる。スコアの伝搬が行われた右側の図の状態では、抽出済みのステートメントを除いて重要度のスコアが最も高いステートメント(C7)を4つ目の重要文として選択、抽出する。
図8の左側の図では、C7のステートメントを4つ目の重要文として選択、抽出した状態を示している。また、図8の右側の図では、抽出したステートメント(C7)のスコアを近辺のステートメントに伝搬させた状態を示している。ここでは、重要文として抽出したステートメント(C7)が顧客の発話のブロックから抽出されているため、上記と同様に、当該ステートメント(C7)のスコアS=46について、当該ブロックにS/2=23、当該ブロックの直後のオペレータの発話のブロックにS/2=23のスコアを割り当てる。
その結果、O10、O13の各ステートメントのスコアはともに23となる。なお、C7のステートメントが含まれるブロックでは、全てのステートメントが重要文として既に抽出されているため、スコアの割り当ては行われない。スコアの伝搬が行われた右側の図の状態では、抽出済みのステートメントを除いて重要度のスコアが最も高いステートメント(O12)を5つ目の重要文として選択、抽出する。
以上の処理により、重要文として、C7〜C9、O11、O12の5つのステートメントが抽出される。このとき、対話のトピックは、対話上最も重要と思われる“配当金照会”に絞られており、これらのステートメントからなる要約データ15は、主に“配当金照会”に係る内容を示すものとして話のつながりを把握し易いものとなる。
なお、重要度のスコアが最も高いステートメントから近辺のステートメントにスコアを伝搬させる手法としては種々のものが考えられる。本実施の形態では、上述したように、重要文がオペレータの発話のブロックから抽出された場合は、当該ブロックにS/2、当該ブロックの直前および直後の顧客の発話のブロックにそれぞれS/4のスコアを割り当て、重要文が顧客の発話のブロックから抽出された場合は、当該ブロックにS/2、当該ブロックの直後のオペレータの発話のブロックにS/2のスコアを割り当てるようにしているが、これに限るものではない。
例えば、各ブロックへのスコアの割り当て比率については、上記のものに限らず他の比率であってもよいし、スコアSの値に関わらず予め決められた一定の値を割り当てるようにしてもよい。また重要度のスコアが最も高いステートメントが抽出されたブロックの直前、直後のブロックだけではなく、2つ前、2つ後やさらに前後のブロックに対しても、一定の割合でスコアを割り当てるようにしてもよい。
また、各ブロックに割り当てられたスコアをブロック内の各ステートメントに対して割り当てる際にも、本実施の形態のように、各ステートメントの重要度のスコアに応じて按分するものに限らず、均等に割り当てるようにしてもよいし、スコアに関わらず予め決められた値を割り当てるようにしてもよい。また、本実施の形態では、既に重要文として抽出済みのステートメントに対してはスコアを割り当てないようにしているが、これに限らず、既に抽出済みのステートメントも含めてスコアを按分して割り当てることで、ブロック内の他のステートメントに過大にスコアが割り当てられることがないようにしてもよい。
このように、スコアを伝搬させる手法は、対象とする対話の種類や特性等に応じて経験則などに基づいて適宜決定することができる。また、例えば、スコアが所定の値未満のステートメントについては予め重要文抽出の処理対象から除外して足切りするなど、求められる要約の精度や処理速度等に応じて、スコア伝搬の手法に対して適宜調整を行ってもよい。
また、本実施の形態では、1つ目の重要文から、全ステートメントの中で重要度のスコアが最も高いものを自動的に選択、抽出しているが、これに限らず、例えば、ユーザの指定等により決定された特定のステートメントを1つ目の重要文とし、当該ステートメントを基準として、上記と同様の手順により近辺の他のステートメントにスコアを伝搬させて重要文を順次抽出するようにしてもよい。これにより、当該特定のステートメントに関連する、もしくは当該特定のステートメントを中心とした要約データ15を生成することができる。
また、上述したように、対話データ21における対話の内容は、本実施の形態で例としたようなコールセンター業務における顧客とオペレータとの対話に限らない。また、対話データ21については、実際の対話内容の録音データを音声認識エンジン2によってテキストデータ化したものに限らず、直接作成したテキストデータであってもよい。従って、例えば、事後的に作成した議事録等における対話や、小説等における架空の対話であっても対象とすることができる。
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
本発明は、対話の内容から重要な文を抽出して要約を生成する対話要約システムおよび対話要約プログラムに利用可能である。
1…対話要約システム、2…音声認識エンジン、
11…対話構造解析部、12…スコアリング部、13…重要文抽出部、14…対話構造データ、15…要約データ、21…対話データ。

Claims (11)

  1. 対話内容から1つ以上の重要文を抽出して、前記重要文からなる要約データを生成する対話要約システムであって、
    対話内容における各ステートメントの情報、および各ステートメントについての重要度を示すスコアの情報と、話者毎の連続したステートメントを単位とするブロックの情報とを有する対話構造データに基づいて、
    所定の要約条件を満たすまで、前記スコアが最も高いステートメントを前記重要文として前記対話構造データから抽出し、前記重要文を抽出した第1のブロック、および前記第1のブロックの直前と直後もしくは前記第1のブロックの直前と直後および2つ前と2つ後の第2のブロックに対して所定のスコアを割り当て、さらに前記第1および第2のブロックに含まれる各ステートメントの前記スコアに対して前記所定のスコアを所定の条件に従って割り当てて加算する重要文抽出部を有することを特徴とする対話要約システム。
  2. 請求項1に記載の対話要約システムにおいて、
    前記重要文抽出部は、
    前記第1および第2のブロックに対して割り当てる前記所定のスコアを、前記重要文の前記スコアに対する所定の割合の値とすることを特徴とする対話要約システム。
  3. 請求項1または2に記載の対話要約システムにおいて、
    前記重要文抽出部は、
    前記第1のブロックの話者の情報に応じて、前記第2のブロックとなるブロックを異ならせることを特徴とする対話要約システム。
  4. 請求項3に記載の対話要約システムにおいて、
    前記対話内容が、質問者もしくは相談者と回答者との間の対話である場合に、
    前記重要文抽出部は、
    前記第1のブロックの話者が前記回答者である場合は、前記第1のブロックの直前および直後の、前記質問者もしくは相談者が話者であるブロックをそれぞれ前記第2のブロックとし、
    前記第1のブロックの話者が前記質問者もしくは相談者である場合は、前記第1のブロックの直後の、前記回答者が話者であるブロックを前記第2のブロックとすることを特徴とする対話要約システム。
  5. 請求項4に記載の対話要約システムにおいて、
    前記重要文抽出部は、
    前記第1のブロックの話者が前記回答者である場合は、前記第1のブロックに前記重要文の前記スコアの1/2を割り当て、前記各第2のブロックにそれぞれ前記重要文の前記スコアの1/4を割り当て、
    前記第1のブロックの話者が前記質問者もしくは相談者である場合は、前記第1のブロックに前記重要文の前記スコアの1/2を割り当て、前記第2のブロックに前記重要文の前記スコアの1/2を割り当てることを特徴とする対話要約システム。
  6. 請求項1〜5のいずれか1項に記載の対話要約システムにおいて、
    前記重要文抽出部は、
    前記第1および第2のブロックに含まれる各ステートメントの前記スコアに対して前記所定のスコアを割り当てて加算する際に、各ステートメントの前記スコアの値に応じて前記所定のスコアを按分して割り当てることを特徴とする対話要約システム。
  7. 請求項1〜6のいずれか1項に記載の対話要約システムにおいて、
    前記重要文抽出部は、
    前記第1および第2のブロックに含まれる各ステートメントの前記スコアに対して前記所定のスコアを割り当てて加算する際に、既に前記重要文として抽出されているステートメントに対しては割り当てないことを特徴とする対話要約システム。
  8. 請求項1〜7のいずれか1項に記載の対話要約システムにおいて、
    前記対話構造データから抽出する最初の前記重要文をユーザからの指定に基づいて選択することを特徴とする対話要約システム。
  9. 請求項1〜8のいずれか1項に記載の対話要約システムにおいて、
    さらに、対話内容をテキスト化した対話データを入力として、前記対話データをステートメントに分割して話者を判別し、話者毎の連続したステートメントを単位とするブロックにまとめて前記対話構造データに保持する対話構造解析部と、
    前記対話構造データに保持された各ステートメントについて、所定の手法により前記スコアを算出して前記対話構造データに保持するスコアリング部とを有することを特徴とする対話要約システム。
  10. 請求項9に記載の対話要約システムにおいて、
    前記対話構造解析部は、前記対話構造データに保持された各ステートメントについて、形態素解析を行って単語に分割し、
    前記スコアリング部は、前記対話構造データに保持された各ステートメントについて、単語毎に前記対話構造データにおけるTF−IDF値を算出して、各単語の前記TF−IDF値の合計を各ステートメントの前記スコアとすることを特徴とする対話要約システム。
  11. 対話内容から1つ以上の重要文を抽出して、前記重要文からなる要約データを生成する対話要約システムとしてコンピュータを動作させる対話要約プログラムであって、
    対話内容における各ステートメントの情報、および各ステートメントについての重要度を示すスコアの情報と、話者毎の連続したステートメントを単位とするブロックの情報とを有する対話構造データに基づいて、
    所定の要約条件を満たすまで、前記スコアが最も高いステートメントを前記重要文として前記対話構造データから抽出し、前記重要文を抽出した第1のブロック、および前記第1のブロックの直前と直後もしくは前記第1のブロックの直前と直後および2つ前と2つ後の第2のブロックに対して所定のスコアを割り当て、さらに前記第1および第2のブロックに含まれる各ステートメントの前記スコアに対して前記所定のスコアを所定の条件に従って割り当てて加算する重要文抽出処理を実行することを特徴とする対話要約プログラム。

JP2011268573A 2011-12-08 2011-12-08 対話要約システムおよび対話要約プログラム Active JP5728374B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011268573A JP5728374B2 (ja) 2011-12-08 2011-12-08 対話要約システムおよび対話要約プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011268573A JP5728374B2 (ja) 2011-12-08 2011-12-08 対話要約システムおよび対話要約プログラム

Publications (2)

Publication Number Publication Date
JP2013120514A JP2013120514A (ja) 2013-06-17
JP5728374B2 true JP5728374B2 (ja) 2015-06-03

Family

ID=48773123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011268573A Active JP5728374B2 (ja) 2011-12-08 2011-12-08 対話要約システムおよび対話要約プログラム

Country Status (1)

Country Link
JP (1) JP5728374B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11115359B2 (en) 2016-11-03 2021-09-07 Samsung Electronics Co., Ltd. Method and apparatus for importance filtering a plurality of messages

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6524008B2 (ja) * 2016-03-23 2019-06-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US20210182342A1 (en) * 2018-08-15 2021-06-17 Nippon Telegraph And Telephone Corporation Major point extraction device, major point extraction method, and non-transitory computer readable recording medium
CN111178067B (zh) * 2019-12-19 2023-05-26 北京明略软件系统有限公司 信息获取模型生成方法、装置及信息获取方法、装置
CN111400489B (zh) * 2020-04-08 2022-12-02 科大讯飞股份有限公司 对话文本摘要生成方法、装置、电子设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10301956A (ja) * 1997-04-30 1998-11-13 Ricoh Co Ltd キーセンテンス抽出方式及び抄録方式及び文書表示方式
JP2004334382A (ja) * 2003-05-02 2004-11-25 Ricoh Co Ltd 構造化文書要約装置、プログラムおよび記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11115359B2 (en) 2016-11-03 2021-09-07 Samsung Electronics Co., Ltd. Method and apparatus for importance filtering a plurality of messages

Also Published As

Publication number Publication date
JP2013120514A (ja) 2013-06-17

Similar Documents

Publication Publication Date Title
US10824814B2 (en) Generalized phrases in automatic speech recognition systems
JP6998680B2 (ja) 対話型業務支援システムおよび対話型業務支援プログラム
JP7042693B2 (ja) 対話型業務支援システム
US10347250B2 (en) Utterance presentation device, utterance presentation method, and computer program product
JP5774459B2 (ja) 談話要約テンプレート作成システムおよび談話要約テンプレート作成プログラム
JP5728374B2 (ja) 対話要約システムおよび対話要約プログラム
US10860566B1 (en) Themes surfacing for communication data analysis
WO2006085661A1 (ja) 質問応答データ編集装置、質問応答データ編集方法、質問応答データ編集プログラム
CN116324792A (zh) 与通过从自然语言会话挖掘意图来进行机器人创作相关的系统和方法
Nedoluzhko et al. ELITR minuting corpus: A novel dataset for automatic minuting from multi-party meetings in English and Czech
JP2013025648A (ja) 対話装置、対話方法および対話プログラム
JP2021022211A (ja) 問合せ対応支援装置、問合せ対応支援方法、プログラム及び記録媒体
JP5574842B2 (ja) Faq候補抽出システムおよびfaq候補抽出プログラム
JP2014219872A (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
CN117441165A (zh) 减少生成语言模型的偏差
JP2019008367A (ja) 質問単語重み算出装置、質問回答検索装置、質問単語重み算出方法、質問回答検索方法、プログラム、及び記憶媒体
JP2017027233A (ja) 質問文生成装置、方法、及びプログラム
US20160034509A1 (en) 3d analytics
JP7126865B2 (ja) 対話型業務支援システム
CN111949777A (zh) 一种基于人群分类的智能语音对话方法、装置及电子设备
WO2020205817A1 (en) Systems and methods for generating responses for an intelligent virtual assistant
JP6567128B1 (ja) 会話支援システムおよび会話支援方法
JP2011123565A (ja) Faq候補抽出システムおよびfaq候補抽出プログラム
JP2019087123A (ja) 複数種の対話を続けて実施可能な対話制御装置、プログラム及び方法
JP6536580B2 (ja) 文集合抽出システム、方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150324

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150406

R150 Certificate of patent or registration of utility model

Ref document number: 5728374

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250