JP5728374B2

JP5728374B2 - 対話要約システムおよび対話要約プログラム

Info

Publication number: JP5728374B2
Application number: JP2011268573A
Authority: JP
Inventors: 一彰竹原
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2011-12-08
Filing date: 2011-12-08
Publication date: 2015-06-03
Anticipated expiration: 2031-12-08
Also published as: JP2013120514A

Description

本発明は、文書の要約を生成する技術に関し、特に、対話の内容から重要な文を抽出して要約を生成する対話要約システムおよび対話要約プログラムに適用して有効な技術に関するものである。

例えば、コールセンター業務において、オペレータやコミュニケータは、電話応対後に内容を要約した応対記録を作成して応対管理システム等へ保存するという一連の業務を行う必要がある。このとき、オペレータ等は、自身の記憶を頼りにして応対記録を作成するため作成に時間がかかり、作業負荷が増大するという問題がある。また、各オペレータ等のスキルに応じて品質（内容、統一性、網羅性、簡潔性等）にバラツキが生じる。このように応対記録の品質にバラツキがあったり品質が低かったりすることにより、顧客の声を正確に把握することができなかったり、応対記録の蓄積からテキストマイニング等の技術を利用して新たな知見を得る（例えば、潜在的な問題やニーズを発掘したりＦＡＱの候補を選定したり等）というようなことができなかったりなどの問題も生じる。

このような問題を解決するため、例えば、応対での対話内容を音声データとして録音・記録し、当該データを音声認識の技術を利用してテキスト化して、さらに自然言語処理の技術を適用して内容を要約することで応対記録を自動生成するということも検討されている。これにより、応対記録作成にかかるコストを削減しつつ、統一性、簡潔性を確保することで応対記録の活用性を向上させることが可能である。

このような技術として、例えば、非特許文献１には、コールセンターにおける音声対話において、音声データをテキスト化し、過去の対話内容とその営業日報から帰納的学習により再帰的に規則獲得を行い、それらの規則を用いて未知の対話内容に対して重要箇所を決定・抽出し、文体変換を行うことで営業日報を自動生成する技術が記載されている。

また、テキスト化された文書データから要約を生成する技術についても種々のものが提案されている。例えば、特開２００２−２５９３７１号公報（特許文献１）には、入力された文書を単語集合抽出装置で形態素解析し、要約種別に応じて要約の手がかりとして必要な単語集合を文書から抽出するとともに、文書分割装置において文書を複数の意味的なまとまりに分割し、各意味的なまとまりについて単語集合に含まれる単語の出現密度の高い重要部分を重要箇所算出装置で算出し、この重要部分から要約率に応じて文を要約文抽出装置で抽出することで、単語の出現密度を考慮した重要性に基づき精度の高い要約を要約種別に応じて生成する技術が記載されている。

また、例えば、特開２００６−５９０８２号公報（特許文献２）には、要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算し、同様に文毎に、質問応答としての文の重要度である質問応答文重要度を計算し、汎用文重要度と質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出し、統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出し、抽出した重要文を整列させて要約文を生成することで、質問に対する解のみならず、一般的に重要な情報をバランスよく含む要約文を生成する技術が記載されている。

特開２００２−２５９３７１号公報特開２００６−５９０８２号公報

矢野純司、荒木健治、"コールセンターにおける音声対話を対象とした帰納的学習を用いた営業日報生成手法の性能評価"、情報処理学会研究報告２００７−ＮＬ−１７８、２００７年３月２８日、ｐ．２１−２８

テキスト化された文書から要約を自動で生成する場合、上述した従来技術などと同様に、通常は、文書中の文や単語毎に種々の手法により重要度を算出し、当該重要度の高いものから順に所定の要約条件（例えば、所定の要約率に達するまで抽出したり、重要度が所定の値以上のものを全て抽出したり等）に従って文を抽出し、これを並べて要約文を生成するという手法がとられる。これにより、重要度が高い文を幅広くバランスよく抽出することが可能である。

しかしながら、例えば、コールセンターにおけるオペレータと顧客との対話など、対話の中に複数の話題やトピックが含まれて変遷していくような場合では特に、上述したような重要度に基づく単純な文の抽出による要約文の生成手法では、対話の文脈・コンテキストを考慮することができず、重要度が高い文をまんべんなく抽出する分、生成された要約文は、話のつながりや脈絡がなく意味を捉えにくいものとなる場合がある。

そこで本発明の目的は、対話内容のテキストデータから話のつながりを把握しやすい要約文を生成することを可能とする対話要約システムおよび対話要約プログラムを提供することにある。本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。

本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。

本発明の代表的な実施の形態による対話要約システムは、対話内容から１つ以上の重要文を抽出して、前記重要文からなる要約データを生成する対話要約システムであって、対話内容における各ステートメントの情報、および各ステートメントについての重要度を示すスコアの情報と、話者毎の連続したステートメントを単位とするブロックの情報とを有する対話構造データに基づいて、所定の要約条件を満たすまで、前記スコアが最も高いステートメントを前記重要文として前記対話構造データから抽出し、前記重要文を抽出した第１のブロックおよびその近辺の第２のブロックに対して所定のスコアを割り当て、さらに前記第１および第２のブロックに含まれる各ステートメントの前記スコアに対して前記所定のスコアを所定の条件に従って割り当てて加算する重要文抽出部を有することを特徴とするものである。

また、本発明は、コンピュータを上記のような対話要約システムとして動作させる対話要約プログラムにも適用することができる。

本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。すなわち、本発明の代表的な実施の形態によれば、対話内容のテキストデータから話のつながりを把握しやすい要約文を生成することが可能となる。

本発明の一実施の形態である対話要約システムの構成例について概要を示した図である。本発明の一実施の形態における対話構造の概要について例を示した図である。本発明の一実施の形態における要約データを生成する処理の流れの例について概要を示したフローチャートである。本発明の一実施の形態におけるオペレータと顧客との対話についての対話構造データの例を示した図である。本発明の一実施の形態における最も重要度のスコアが高いステートメントからスコア伝搬を行いつつ重要文を抽出する手順の例について示した図である。本発明の一実施の形態における最も重要度のスコアが高いステートメントからスコア伝搬を行いつつ重要文を抽出する手順の例について示した図である。本発明の一実施の形態における最も重要度のスコアが高いステートメントからスコア伝搬を行いつつ重要文を抽出する手順の例について示した図である。本発明の一実施の形態における最も重要度のスコアが高いステートメントからスコア伝搬を行いつつ重要文を抽出する手順の例について示した図である。

以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。

本発明の一実施の形態である対話要約システムは、対話内容をテキスト化した対話データについて、文毎に重要度からなるスコアを算出し、当該スコアに基づいて要約条件に達するまで重要文を抽出して要約文を生成するものである。このとき、単純にスコアが高いものから順に重要文を抽出するだけではなく、対話の構造に応じて重要文のスコアを他の文に伝搬させて調整し、その結果に基づいてスコアが高い重要文を抽出することで、話のつながりや脈絡を把握しやすい要約文を生成することを可能とするものである。

なお、「対話」については、２者間のものに限らず、３者以上の間のものやスピーチ等１人の話者によるものも含むものとするが、本実施の形態で例として取り上げるコールセンター業務における顧客とオペレータとの間の対話のように、対話の特性がある程度定型的に把握可能なものである方が望ましい。例えば、顧客（質問者、相談者）とオペレータ（回答者）との間の対話では、要約に含める候補となり得る重要なトピックについては主に質問や相談の具体的な内容という形で顧客が切り出し、これに対してオペレータが回答する（すなわち、トピックの開始や切り替わりは主に顧客が主導する）という構造となり、オペレータが主導するトピックは主に定型的な確認や通知等（例えば、本人確認など）であることが多いという特性を有する。

＜システム構成＞
図１は、本発明の一実施の形態である対話要約システムの構成例について概要を示した図である。対話要約システム１は、例えば、ＰＣ（Personal Computer）やサーバ機器などの情報処理装置からなり、対話内容をテキスト化したデータである対話データ２１を入力として、重要文を抽出し、当該重要文からなる要約データ１５を生成・出力するシステムである。ここで、対話データ２１は、例えば、顧客とオペレータとの対話内容を録音した音声データから、公知の音声認識技術を利用した音声認識エンジン２などにより生成されたものである。

対話要約システム１は、例えば、図示しないＯＳ（Operating System）等のミドルウェア上で動作するソフトウェアプログラムとして実装される対話構造解析部１１、スコアリング部１２、および重要文抽出部１３などの各部を有する。

対話構造解析部１１は、入力された対話データ２１に対して、公知の言語処理技術を利用して対話構造の解析を行い、解析結果をＸＭＬ（eXtensible Markup Language）などを利用して表されたデータ構造による対話構造データ１４としてデータベースやファイル等に保持する。図２は、対話構造の概要について例を示した図である。対話構造解析部１１での解析は、図２の例に示すように、少なくとも、対話データ２１を各発話文（ステートメント）に分解して話者を判別し、話者（図２の例ではオペレータと顧客）毎の連続したステートメントを単位とするブロックにまとめる。各ステートメントに対して話者毎に識別番号（図２の例ではＯ１、Ｏ２、…、およびＣ１、Ｃ２、…）を採番してもよい。

さらに、後述するスコアリングの際に用いるために、必要に応じて、各ステートメントに対していわゆる形態素解析を行って形態素（言語における意味を持つ最小の単位。以下では単に「単語」と記載する場合がある）の列に分割し、品詞を判別する等の解析処理を行ってもよい。判別結果の情報についても対話構造データ１４に保持する。なお、形態素解析については、公知の形態素解析エンジン（例えば、ＭｅＣａｂ（和布蕪）やＣｈａＳｅｎ（茶筌）など）を利用することができる。これ以外にも、対話構造の解析として、例えば、固有名詞の判別や、各ステートメントの意味等（挨拶文や相槌、質問、回答などの種別のいずれに該当するか等）を判別するような処理を行ってもよい。

スコアリング部１２は、対話構造データ１４に保持された各ステートメントについて、所定の手法により重要度を示すスコアを算出する。スコアリングの手法は特に限定されず、種々のものを用いることができる。本実施の形態では、例えば、一般的に文章中の単語の重要度を示すものとして用いられている指標である、ＴＦ−ＩＤＦ（Term Frequency - Inverse Document Frequency）値を用いる。

ＴＦ−ＩＤＦ値は、ある文章（ステートメント）内の単語について、当該ステートメントにおける当該単語の出現頻度であるＴＦ値（当該ステートメントでどれだけ多く使われているかの程度を示す）と、全てのステートメント（対話全体）の中で当該単語が出現するステートメントの数の逆数であるＩＤＦ値（一つのステートメントにおいて集中して使われている（複数のステートメントで幅広く使われているものではない）程度を示す）との積である。ＴＦ−ＩＤＦ値が大きい単語は、当該ステートメントの特徴をよく表し、重要度が高い単語であることを示す。従って、例えば、当該ステートメント内の各単語についてそれぞれ算出したＴＦ−ＩＤＦ値を合計することで、当該ステートメントについての重要度をスコアリングすることができる。

なお、ＴＦ値やＩＤＦ値は、それぞれ、ステートメント内の単語の種類の総数や対話内のステートメントの総数によって正規化してもよい。その際、対数によって正規化してもよい。また、ステートメント内の各単語について、例えば、対話構造解析部１１での形態素解析により判別された品詞等の情報や、対話構造の内容（例えば、各ステートメントの意味等）の情報に基づいて、当該単語のＴＦ−ＩＤＦ値に対して重み付けを行ってもよい。スコアリングの結果は、各ステートメントに関連付けて対話構造データ１４に保持する。

重要文抽出部１３は、対話構造データ１４に保持された各ステートメントから、スコアリング部１２で算出した重要度を示すスコアに基づいて、所定の要約条件に従って重要文を抽出し、要約データ１５を生成する。ここでの要約条件は、例えば、元の対話データ２１と要約データ１５との文字数もしくはステートメント数の比である要約率としたり、抽出した重要文の数としたりすることができる。スコアが所定の値以上のものを抽出するなどとしてもよい。

重要文の抽出に際しては、後述するように、抽出した重要文のスコアを対話の構造に応じて他のステートメントに伝搬させて調整し、その結果に基づいてさらに重要文を抽出するようにすることで、抽出した重要文からなる要約データ１５が話のつながりや脈絡を把握しやすいものとなるようにする。

なお、本実施の形態では、対話データ２１を入力として、対話構造の解析およびスコアリングを行って対話構造データ１４を生成し、これに基づいて重要文を抽出して要約データ１５を生成する構成としているが、システム構成としてはこれに限るものではない。例えば、音声認識エンジン２を対話要約システム１に含む構成であってもよいし、逆に、他のシステム等により対話構造データ１４に相当するデータを取得することが可能である場合は、これを入力として、重要文抽出部１３により重要文を抽出して要約データ１５を生成する機能のみを有する構成とすることもできる。

＜処理の流れ＞
図３は、対話要約システム１における要約データ１５を生成する処理の流れの例について概要を示したフローチャートである。対話要約システム１は、処理を開始すると、まず、テキスト化された対話データ２１を入力し、対話構造解析部１１により、対話構造の解析を行う（Ｓ０１）。ここでは、上述したように、対話データ２１内の各ステートメントをブロックにまとめ、また、各ステートメントについて形態素解析を行って単語に分割し、必要に応じて他の解析処理を行う。次に、スコアリング部１２により、各ステートメントについて重要度を示すスコアを算出する（Ｓ０２）。ここでは、上述したように、例えば、ステートメント内の各単語について算出したＴＦ−ＩＤＦ値の合計により各ステートメントについてのスコアを算出する。

次に、重要文抽出部１３により、重要度を示すスコアが最大値であるステートメントを重要文として抽出する（Ｓ０３）。次に、所定の要約条件を満たしたか否かを判定する（Ｓ０４）。要約条件は、上述したように、例えば、要約率や、抽出した重要文の数としたり、スコアが所定の値以上のものを抽出する等の条件としたりすることができる。要約条件を満たしていない場合は、重要文として抽出したステートメントから、対話の構造に応じて他のステートメントにスコアを伝搬させる（Ｓ０５）。これにより、重要文として抽出したステートメントの近辺のステートメントのスコアをかさ上げし、重要文として抽出されやすくする。

具体的には、重要文として抽出したステートメントのスコアをＳとすると、例えば、ステップＳ０３において重要文がオペレータの発話のブロックから抽出された場合は、当該ブロックにＳ／２、当該ブロックの直前および直後の顧客の発話のブロックにそれぞれＳ／４のスコアを割り当てる。重要文が顧客の発話のブロックから抽出された場合は、当該ブロックにＳ／２、当該ブロックの直後のオペレータの発話のブロックにＳ／２のスコアを割り当てる。各ブロックに割り当てられたスコアは、ブロック内の各ステートメント（重要文として抽出済みのステートメントを除く）に対して、それぞれのスコアに応じて按分して割り当てて加算する。

このように、重要文として抽出したステートメントがオペレータの発話のブロックのものか顧客の発話のブロックのものかで、スコアを伝搬させるステートメント（ブロック）を異なるものとすることで、例えば、重要なトピックについては主に質問や相談の具体的な内容という形で顧客が切り出し、これに対してオペレータが回答する（トピックの開始や切り替わりは顧客が主導する）というような、コールセンター業務における顧客とオペレータとの間の対話構造の特性を考慮した形で重要度を調整することが可能となる。

重要文として抽出したステートメントの近辺のステートメントにスコアを伝搬させた状態で、ステップＳ０３に戻って、さらにスコアが最大値であるステートメントを次の重要文として抽出する処理を繰り返す。ステップＳ０４で所定の要約条件を満たすと、それまでに抽出した重要文を時系列に並べて要約データ１５として出力し（Ｓ０６）、処理を終了する。

このとき、ユーザは、出力された要約データ１５をそのまま要約として用いてもよいし、要約データ１５をベースとして編集を行って最終的な要約を作成してもよい。その際、対話要約システム１は、例えば、重要文として抽出されなかったがスコアが高いステートメント（例えば、スコアが所定の値よりも高いものや、所定の順位より上位のもの）を参考情報として合わせて出力・提示するようにしてもよい。

＜重要度のスコアによる重要文抽出＞
以下では、対話データ２１から重要度のスコアを伝搬させることによって重要文を抽出する手法における具体的な処理の例について、コールセンター業務におけるオペレータと顧客との対話を例として説明する。図４は、オペレータと顧客との対話についての対話構造データ１４の例を示した図である。ここでは、対話データ２１について対話構造解析部１１による対話構造の解析およびスコアリング部１２による重要度のスコアリングを行った結果を、話者毎にステートメント単位で時系列に並べた状態を示している。

各話者の左側の列（カラム）は、それぞれステートメントを識別する識別番号（オペレータの場合はＯ１、Ｏ２、…、顧客の場合はＣ１、Ｃ２、…）を示しており、右側の列（カラム）はそれぞれ対象のステートメントの重要度のスコアを示している。ステートメントの文言自体については記載を省略しているが、１つ以上のブロックに渡る実際のトピックの内容（図４の例では保険契約に関する質問と回答が中心）とその流れについては図の左側に表示している。

ここで、要約条件として例えば重要文を５つ抽出するものとした場合、従来技術と同様に、上述したスコア伝搬を行わない場合は、例えば図４に示したように、全ステートメントのうち重要度のスコアが上位の５つである、Ｃ８、Ｃ４、Ｃ９、Ｏ１４、Ｃ１４の５つのステートメントが重要文として抽出されることになる（要約データ１５として出力する際は、時系列にＣ４、Ｃ８、Ｃ９、Ｏ１４、Ｃ１４の順に並べる）。このとき、対話のトピックは、“契約内容問い合わせ”、“配当金照会”、“契約内容変更相談”の３つに渡ることになる。

本実施の形態では、図４と同様の対話構造データ１４に対して、スコア伝搬を行いつつ重要文を抽出する。図５〜図８は、最も重要度のスコアが高いステートメントからスコア伝搬を行いつつ重要文を抽出する手順の例について示した図である。図５の左側の図では、図４に示した初期状態における全ステートメントの中で重要度のスコアが最も高いステートメント（Ｃ８）を１つ目の重要文として選択、抽出した状態を示している。また、図５の右側の図では、左側の図で抽出したステートメント（Ｃ８）のスコアを近辺のステートメントに伝搬させた状態を示している。

ここでは、重要文として抽出したステートメント（Ｃ８）が顧客の発話のブロックから抽出されている。従って、上述したように、当該ステートメント（Ｃ８）のスコアＳ＝５０について、当該ブロックにＳ／２＝２５、当該ブロックの直後のオペレータの発話のブロックにＳ／２＝２５のスコアを割り当てる。

各ブロックに割り当てられたスコアは、ブロック内の各ステートメント（重要文として抽出済みのステートメントを除く）に対して、それぞれのスコアに応じて按分して割り当てて加算する。従って、重要文として抽出したステートメント（Ｃ８）が抽出されたブロックでは、例えば、Ｃ７のステートメントのスコアは、元々の５に対して、２５＊５／（５＋３０）＝４（少数位四捨五入）が加算されて９となる。同様に、Ｃ９のステートメントのスコアは、元々の３０に対して、２５＊３０（５＋３０）＝２１が加算されて５１となる。なお、既に抽出されたＣ８のステートメントには割り当てられないものとする。

また、Ｃ８のステートメントが抽出されたブロックの直後のオペレータの発話のブロックでも同様に、Ｏ１０のステートメントのスコアは、元々の５に対して、２５＊５／（５＋２０＋１０＋５）＝３（少数位四捨五入）が加算されて８となる。同様に、Ｏ１１〜Ｏ１３の各ステートメントのスコアはそれぞれ３２、１６、８となる。スコアの伝搬が行われた右側の図の状態では、抽出済みのステートメントを除いて重要度のスコアが最も高いステートメント（Ｃ９）を２つ目の重要文として選択、抽出する。

図６の左側の図では、Ｃ９のステートメントを２つ目の重要文として選択、抽出した状態を示している。また、図６の右側の図では、左側の図で抽出したステートメント（Ｃ９）のスコアを近辺のステートメントに伝搬させた状態を示している。ここでも、重要文として抽出したステートメント（Ｃ９）が顧客の発話のブロックから抽出されているため、上記と同様に、当該ステートメント（Ｃ９）のスコアＳ＝５１について、当該ブロックにＳ／２＝２６、当該ブロックの直後のオペレータの発話のブロックにＳ／２＝２６のスコアを割り当てる。

その結果、Ｃ７のステートメントのスコアは３５となり、Ｏ１０、Ｏ１２、Ｏ１３の各ステートメントのスコアはそれぞれ１１、２２、１１となる。スコアの伝搬が行われた右側の図の状態では、抽出済みのステートメントを除いて重要度のスコアが最も高いステートメント（Ｏ１１）を３つ目の重要文として選択、抽出する。

図７の左側の図では、Ｏ１１のステートメントを３つ目の重要文として選択、抽出した状態を示している。また、図７の右側の図では、左側の図で抽出したステートメント（Ｏ１１）のスコアを近辺のステートメントに伝搬させた状態を示している。ここでは、重要文として抽出したステートメント（Ｏ１１）がオペレータの発話のブロックから抽出されている。従って、上述したように、当該ステートメント（Ｏ１１）のスコアＳ＝４５について、当該ブロックにＳ／２＝２３、当該ブロックの直前および直後の顧客の発話のブロックにそれぞれＳ／４＝１１のスコアを割り当てる。

その結果、Ｏ１０、Ｏ１２、Ｏ１３の各ステートメントのスコアはそれぞれ１７、３４、１７となる。また、Ｃ７のステートメントのスコアは４６となり、Ｃ１０〜Ｃ１２の各ステートメントのスコアはそれぞれ７、７、２８となる。スコアの伝搬が行われた右側の図の状態では、抽出済みのステートメントを除いて重要度のスコアが最も高いステートメント（Ｃ７）を４つ目の重要文として選択、抽出する。

図８の左側の図では、Ｃ７のステートメントを４つ目の重要文として選択、抽出した状態を示している。また、図８の右側の図では、抽出したステートメント（Ｃ７）のスコアを近辺のステートメントに伝搬させた状態を示している。ここでは、重要文として抽出したステートメント（Ｃ７）が顧客の発話のブロックから抽出されているため、上記と同様に、当該ステートメント（Ｃ７）のスコアＳ＝４６について、当該ブロックにＳ／２＝２３、当該ブロックの直後のオペレータの発話のブロックにＳ／２＝２３のスコアを割り当てる。

その結果、Ｏ１０、Ｏ１３の各ステートメントのスコアはともに２３となる。なお、Ｃ７のステートメントが含まれるブロックでは、全てのステートメントが重要文として既に抽出されているため、スコアの割り当ては行われない。スコアの伝搬が行われた右側の図の状態では、抽出済みのステートメントを除いて重要度のスコアが最も高いステートメント（Ｏ１２）を５つ目の重要文として選択、抽出する。

以上の処理により、重要文として、Ｃ７〜Ｃ９、Ｏ１１、Ｏ１２の５つのステートメントが抽出される。このとき、対話のトピックは、対話上最も重要と思われる“配当金照会”に絞られており、これらのステートメントからなる要約データ１５は、主に“配当金照会”に係る内容を示すものとして話のつながりを把握し易いものとなる。

なお、重要度のスコアが最も高いステートメントから近辺のステートメントにスコアを伝搬させる手法としては種々のものが考えられる。本実施の形態では、上述したように、重要文がオペレータの発話のブロックから抽出された場合は、当該ブロックにＳ／２、当該ブロックの直前および直後の顧客の発話のブロックにそれぞれＳ／４のスコアを割り当て、重要文が顧客の発話のブロックから抽出された場合は、当該ブロックにＳ／２、当該ブロックの直後のオペレータの発話のブロックにＳ／２のスコアを割り当てるようにしているが、これに限るものではない。

例えば、各ブロックへのスコアの割り当て比率については、上記のものに限らず他の比率であってもよいし、スコアＳの値に関わらず予め決められた一定の値を割り当てるようにしてもよい。また重要度のスコアが最も高いステートメントが抽出されたブロックの直前、直後のブロックだけではなく、２つ前、２つ後やさらに前後のブロックに対しても、一定の割合でスコアを割り当てるようにしてもよい。

また、各ブロックに割り当てられたスコアをブロック内の各ステートメントに対して割り当てる際にも、本実施の形態のように、各ステートメントの重要度のスコアに応じて按分するものに限らず、均等に割り当てるようにしてもよいし、スコアに関わらず予め決められた値を割り当てるようにしてもよい。また、本実施の形態では、既に重要文として抽出済みのステートメントに対してはスコアを割り当てないようにしているが、これに限らず、既に抽出済みのステートメントも含めてスコアを按分して割り当てることで、ブロック内の他のステートメントに過大にスコアが割り当てられることがないようにしてもよい。

このように、スコアを伝搬させる手法は、対象とする対話の種類や特性等に応じて経験則などに基づいて適宜決定することができる。また、例えば、スコアが所定の値未満のステートメントについては予め重要文抽出の処理対象から除外して足切りするなど、求められる要約の精度や処理速度等に応じて、スコア伝搬の手法に対して適宜調整を行ってもよい。

また、本実施の形態では、１つ目の重要文から、全ステートメントの中で重要度のスコアが最も高いものを自動的に選択、抽出しているが、これに限らず、例えば、ユーザの指定等により決定された特定のステートメントを１つ目の重要文とし、当該ステートメントを基準として、上記と同様の手順により近辺の他のステートメントにスコアを伝搬させて重要文を順次抽出するようにしてもよい。これにより、当該特定のステートメントに関連する、もしくは当該特定のステートメントを中心とした要約データ１５を生成することができる。

また、上述したように、対話データ２１における対話の内容は、本実施の形態で例としたようなコールセンター業務における顧客とオペレータとの対話に限らない。また、対話データ２１については、実際の対話内容の録音データを音声認識エンジン２によってテキストデータ化したものに限らず、直接作成したテキストデータであってもよい。従って、例えば、事後的に作成した議事録等における対話や、小説等における架空の対話であっても対象とすることができる。

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

本発明は、対話の内容から重要な文を抽出して要約を生成する対話要約システムおよび対話要約プログラムに利用可能である。

１…対話要約システム、２…音声認識エンジン、
１１…対話構造解析部、１２…スコアリング部、１３…重要文抽出部、１４…対話構造データ、１５…要約データ、２１…対話データ。

Claims

対話内容から１つ以上の重要文を抽出して、前記重要文からなる要約データを生成する対話要約システムであって、
対話内容における各ステートメントの情報、および各ステートメントについての重要度を示すスコアの情報と、話者毎の連続したステートメントを単位とするブロックの情報とを有する対話構造データに基づいて、
所定の要約条件を満たすまで、前記スコアが最も高いステートメントを前記重要文として前記対話構造データから抽出し、前記重要文を抽出した第１のブロック、および前記第１のブロックの直前と直後もしくは前記第１のブロックの直前と直後および２つ前と２つ後の第２のブロックに対して所定のスコアを割り当て、さらに前記第１および第２のブロックに含まれる各ステートメントの前記スコアに対して前記所定のスコアを所定の条件に従って割り当てて加算する重要文抽出部を有することを特徴とする対話要約システム。
請求項１に記載の対話要約システムにおいて、
前記重要文抽出部は、
前記第１および第２のブロックに対して割り当てる前記所定のスコアを、前記重要文の前記スコアに対する所定の割合の値とすることを特徴とする対話要約システム。
請求項１または２に記載の対話要約システムにおいて、
前記重要文抽出部は、
前記第１のブロックの話者の情報に応じて、前記第２のブロックとなるブロックを異ならせることを特徴とする対話要約システム。
請求項３に記載の対話要約システムにおいて、
前記対話内容が、質問者もしくは相談者と回答者との間の対話である場合に、
前記重要文抽出部は、
前記第１のブロックの話者が前記回答者である場合は、前記第１のブロックの直前および直後の、前記質問者もしくは相談者が話者であるブロックをそれぞれ前記第２のブロックとし、
前記第１のブロックの話者が前記質問者もしくは相談者である場合は、前記第１のブロックの直後の、前記回答者が話者であるブロックを前記第２のブロックとすることを特徴とする対話要約システム。
請求項４に記載の対話要約システムにおいて、
前記重要文抽出部は、
前記第１のブロックの話者が前記回答者である場合は、前記第１のブロックに前記重要文の前記スコアの１／２を割り当て、前記各第２のブロックにそれぞれ前記重要文の前記スコアの１／４を割り当て、
前記第１のブロックの話者が前記質問者もしくは相談者である場合は、前記第１のブロックに前記重要文の前記スコアの１／２を割り当て、前記第２のブロックに前記重要文の前記スコアの１／２を割り当てることを特徴とする対話要約システム。
請求項１〜５のいずれか１項に記載の対話要約システムにおいて、
前記重要文抽出部は、
前記第１および第２のブロックに含まれる各ステートメントの前記スコアに対して前記所定のスコアを割り当てて加算する際に、各ステートメントの前記スコアの値に応じて前記所定のスコアを按分して割り当てることを特徴とする対話要約システム。
請求項１〜６のいずれか１項に記載の対話要約システムにおいて、
前記重要文抽出部は、
前記第１および第２のブロックに含まれる各ステートメントの前記スコアに対して前記所定のスコアを割り当てて加算する際に、既に前記重要文として抽出されているステートメントに対しては割り当てないことを特徴とする対話要約システム。
請求項１〜７のいずれか１項に記載の対話要約システムにおいて、
前記対話構造データから抽出する最初の前記重要文をユーザからの指定に基づいて選択することを特徴とする対話要約システム。
請求項１〜８のいずれか１項に記載の対話要約システムにおいて、
さらに、対話内容をテキスト化した対話データを入力として、前記対話データをステートメントに分割して話者を判別し、話者毎の連続したステートメントを単位とするブロックにまとめて前記対話構造データに保持する対話構造解析部と、
前記対話構造データに保持された各ステートメントについて、所定の手法により前記スコアを算出して前記対話構造データに保持するスコアリング部とを有することを特徴とする対話要約システム。
請求項９に記載の対話要約システムにおいて、
前記対話構造解析部は、前記対話構造データに保持された各ステートメントについて、形態素解析を行って単語に分割し、
前記スコアリング部は、前記対話構造データに保持された各ステートメントについて、単語毎に前記対話構造データにおけるＴＦ−ＩＤＦ値を算出して、各単語の前記ＴＦ−ＩＤＦ値の合計を各ステートメントの前記スコアとすることを特徴とする対話要約システム。
対話内容から１つ以上の重要文を抽出して、前記重要文からなる要約データを生成する対話要約システムとしてコンピュータを動作させる対話要約プログラムであって、
対話内容における各ステートメントの情報、および各ステートメントについての重要度を示すスコアの情報と、話者毎の連続したステートメントを単位とするブロックの情報とを有する対話構造データに基づいて、
所定の要約条件を満たすまで、前記スコアが最も高いステートメントを前記重要文として前記対話構造データから抽出し、前記重要文を抽出した第１のブロック、および前記第１のブロックの直前と直後もしくは前記第１のブロックの直前と直後および２つ前と２つ後の第２のブロックに対して所定のスコアを割り当て、さらに前記第１および第２のブロックに含まれる各ステートメントの前記スコアに対して前記所定のスコアを所定の条件に従って割り当てて加算する重要文抽出処理を実行することを特徴とする対話要約プログラム。