JP5341732B2 - 談話要約生成システムおよび談話要約生成プログラム - Google Patents

談話要約生成システムおよび談話要約生成プログラム Download PDF

Info

Publication number
JP5341732B2
JP5341732B2 JP2009271782A JP2009271782A JP5341732B2 JP 5341732 B2 JP5341732 B2 JP 5341732B2 JP 2009271782 A JP2009271782 A JP 2009271782A JP 2009271782 A JP2009271782 A JP 2009271782A JP 5341732 B2 JP5341732 B2 JP 5341732B2
Authority
JP
Japan
Prior art keywords
discourse
statement
content
data
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009271782A
Other languages
English (en)
Other versions
JP2011113490A (ja
Inventor
一彰 竹原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2009271782A priority Critical patent/JP5341732B2/ja
Publication of JP2011113490A publication Critical patent/JP2011113490A/ja
Application granted granted Critical
Publication of JP5341732B2 publication Critical patent/JP5341732B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、自然言語処理の技術に関し、特に、音声認識処理により得られた談話データの構造を解析した結果から談話の要約を生成する談話要約生成システムおよび談話要約生成プログラムに適用して有効な技術に関するものである。
例えば、コールセンター業務において、オペレータやコミュニケータは、電話応対後に応対記録を作成して応対管理システム等へ保存するという一連の業務を行う必要がある。このとき、オペレータ等は、自身の記憶を頼りにして応対記録を作成するため作成に時間がかかるという問題がある。
また、各オペレータ等のスキルに応じて品質(内容、統一性、網羅性、簡潔性等)にバラツキが生じる。このように応対記録の品質にバラツキがあったり品質が低かったりすることにより、顧客の声を正確に把握することができなかったり、応対記録の蓄積からテキストマイニング等の技術を利用して新たな知見を得るというようなことができなかったりなどの問題も生じる。
このような問題を解決するため、音声認識の技術を活用した解決策が検討されている。音声認識の技術によって応対の音声情報をテキスト化して保存することにより、応対記録の網羅性を確保することができる。また、テキスト化したデータに対して自然言語処理の技術を適用して内容を要約することで応対記録を自動作成することも可能であり、応対記録作成にかかるコストを削減して、統一性、簡潔性を確保することで応対記録の活用性を向上させることも可能と考えられる。
このような技術として、例えば、非特許文献1には、コールセンターにおける音声対話において、音声データをテキスト化し、過去の対話内容とその営業日報から帰納的学習により再帰的に規則獲得を行い、それらの規則を用いて未知の対話内容に対して重要箇所を決定・抽出し、文体変換を行うことで営業日報を自動生成する技術が記載されている。
矢野純司、荒木健治、"コールセンターにおける音声対話を対象とした帰納的学習を用いた営業日報生成手法の性能評価"、情報処理学会研究報告 2007−NL−178、2007年3月28日、p.21−28
人の談話を音声認識によりテキスト化したデータ(以下では「談話データ」と記載する場合がある)を活用する場合、談話データ内の文章は通常は話し言葉で記録されているため、正しい文法に則った日本語文や、書き言葉を前提とした既存の自然言語処理の技術ではうまく対応できない場合がある。また、現状の音声認識エンジンの精度では認識ミスを排除することはできず、誤認識による誤字・脱字などのノイズが多い。従って、談話データについて自然言語処理を利用して解析し、有効活用するのは困難である。
一方、非特許文献1の技術では、帰納的学習処理によって得た規則に基づいて対話文書全体を解析して重要文を抽出し、話し言葉から書き言葉への文体変換を行って営業日報を自動生成することができる。しかしながら、非特許文献1の技術では、一般的な要約自動生成の技術と同様に、文書全体から重要文を抽出して文体変換を行うという手順をとるため、対話文書の要約を得ることはできるものの、当該要約にユーザが必要とする項目や内容が含まれるかどうかは不確実であり、必要とする項目が含まれていなかったり、ポイントとすべき内容とは異なる内容について要約がされたりする場合も生じ得る。
そこで本発明の目的は、話し言葉やノイズといった談話データの特性に強く、談話データの構造を解析した結果から、所望の項目や内容が含まれる形で要約を生成する談話要約生成システムおよび談話要約生成プログラムを提供することにある。
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。
本発明の代表的な実施の形態による談話要約生成システムは、談話要約生成プログラムによって機能し、音声認識処理によって談話の内容がテキスト化された談話データ、および前記談話データにおける前記談話の構造の解析結果である、前記談話全体の意味内容を把握するための情報である談話セマンティクスを入力とし、前記談話についての要約を生成して出力するシステムであって、以下の特徴を有するものである。
すなわち、談話要約生成システムは、前記要約の項目および記載内容を規定し、前記記載内容の一部または全部をプレースホルダとして指定した要約テンプレートと、前記プレースホルダを置換する、前記談話データにおける対応する内容を、前記談話セマンティクスに基づいて特定するためのルールを指定したマッピングルールと、前記要約テンプレートの前記各プレースホルダに対して、前記マッピングルールの指定内容に従って、前記談話データにおける対応する内容の文字列を取得して、前記プレースホルダを前記文字列によって置換して、前記要約を生成して出力する談話要約部とを有することを特徴とするものである。
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。
本発明の代表的な実施の形態によれば、要約のテンプレートに対して、マッピングルールに従って談話構造の解析結果に基づいて談話データにおける対応する内容をテンプレートにマッピングすることで、テンプレートに設定した項目や内容を確実に含む要約を得ることができる。また、談話データの内容および談話構造の解析結果から必要な部分のみを抽出して要約を生成するため、他の部分にノイズやノイズによる誤った解析結果が含まれている場合でも、これらからは影響を受けずに要約を生成することができる。
本発明の一実施の形態である談話要約生成システムの構成例の概要について示したブロック図である。 本発明の一実施の形態における談話構造解析システムの構成例の概要について示したブロック図である。 本発明の一実施の形態における談話の例および談話セマンティクスの概念について示した図である。 本発明の一実施の形態における談話データにおけるフローとコンテキストの例について示した図である。 本発明の一実施の形態における談話構造解析システムのフロー解析ルールの例について示した図である。 本発明の一実施の形態における談話構造解析システムのフロー解析部におけるフロー解析処理の流れの例を示したフローチャートである。 本発明の一実施の形態における談話構造解析システムの固有表現解析ルールの例について示した図である。 本発明の一実施の形態における談話構造解析システムの固有表現解析部における固有表現解析処理の流れの例を示したフローチャートである。 本発明の一実施の形態における談話構造解析システムでの結束性解析の例について示した図である。 本発明の一実施の形態における談話構造解析システムの結束性解析部における結束性解析処理の流れの例を示したフローチャートである。 本発明の一実施の形態における談話要約生成システムでの談話要約の例について示した図である。 本発明の一実施の形態における要約テンプレートと、マッピングルール、言い換えルールの内容の具体例について示した図である。 本発明の一実施の形態における談話要約生成システムの談話要約部における談話要約処理の流れの例を示したフローチャートである。
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。
本発明の一実施の形態である談話要約生成システムは、話し言葉を含む談話データについての談話構造の解析結果である談話セマンティクス(談話全体の意味内容を把握するための談話構造に係る情報)に基づいて、予め設定したテンプレートに対してマッピングルールに基づいて談話データの内容をマッピングすることで、例えば、コールセンターにおける応対記録などの談話データの要約を生成するシステムである。
ここで、談話セマンティクスとは、例えば、談話データにおける文字列や形態素から意味内容を推測して、談話データ全体について後述するようなフロー、さらには結束性(談話のセグメント)、固有表現などの談話構造の解析を行って得られた解析結果である。この談話セマンティクスは、例えば、後述する談話構造解析システムを用いることによって談話データから生成してもよいし、他の自然言語処理を利用した文章構造の解析システム等を利用して生成してもよい。また、人手によって談話データにタグ付け等を行って作成することも可能である。本実施の形態では、後述する談話構造解析システムを用いて生成するものとして説明する。
本実施の形態における談話セマンティクスは、日本語の文章としての内容や構造の厳密な解析結果である必要はなく、例えば、コールセンターにおける応対記録の作成などの実用上支障のないレベルの精度のものであればよい。なお、本明細書において、「談話」とは1人以上の話者による発話行為を指し、例えば、1人で話す講演会でのスピーチ等や、上述したようなコールセンターのオペレータ等と顧客とのやり取り、複数人での電話会議やテレビ会議、その他の複数人での会話・対話が含まれる。
図3は、本実施の形態における談話の例および談話セマンティクスの概念について示した図である。図3の例では、コールセンターのオペレータと顧客とのやり取りからなる談話の例を示している。左側の発話はオペレータの発話であり、右側は顧客の発話を示している。本実施の形態では、各話者の発話1文を「ステートメント」と呼ぶものとする。また、話者毎の連続したステートメントのまとまりを「ブロック」と呼ぶものとする(同一話者の連続したステートメントでも時間的に間隔が空いた場合は別のブロックとなる)。
図3において、「フロー」とは、各ステートメントの意味内容を端的に示す情報である。この情報をトレースすることによって談話の流れを把握することができる。例えば、図3のオペレータのステートメントにおいて、最初の“はい。”はフローが“挨拶”になっているのに対し、次の“はい。”ではフローが“相槌”となっている。このように、談話の状況(コンテキスト)に応じて、同じ文言のステートメントであってもフローが異なるものとなる場合がある。
また、図3において、「固有表現」とは、談話の内容を個別に特徴付ける表現であり、例えば、図3のコールセンターでのやり取りの談話では、IDや人名、企業名、電話番号、所在地などの固有名詞等が該当する。また、「セグメント」とは、ブロック毎の談話の内容が共通する(結束する)ものをまとめてセグメント化したものである。上記の「フロー」、「固有表現」、「セグメント」についての情報は、談話構造の解析結果として「談話セマンティクス」の構成要素となる。
[システム構成(談話構造解析システム)]
図2は、本発明の一実施の形態における談話構造解析システムの構成例の概要について示したブロック図である。談話構造解析システム2は、サーバやPC(Personal Computer)等のコンピュータシステムによって構成され、例えば、ソフトウェアプログラムによって実装される前処理部10、フロー解析部20、形態素解析部30、固有表現解析部40、結束性解析部50の各部と、フロー解析ルール22、および固有表現解析ルール42の各テーブルを有し、音声認識エンジン3によって談話の内容がテキスト化された談話データ100を入力として、談話構造の解析を行って談話セマンティクス200を出力する。
なお、音声認識エンジン3には既存のものを利用することができる。本実施の形態の談話構造解析システム2は、上述したように、談話データ100のノイズ(音声認識エンジン3による認識ミス等)に強いという特徴を有するが、音声認識エンジン3の認識率が高いほうがより精度の高い談話構造の解析を行うことが可能であることはいうまでもない。
談話構造解析システム2の前処理部10は、談話データ100の入力を受けて、必要に応じて、他の各部での処理が可能なようにデータのレイアウト変換などの前処理を行う機能を有する。ここでは、例えば、話者毎に連続したステートメントをブロックとしてまとめて、各ブロックおよび各ステートメントに順序を示すシーケンス番号(ID)を割り振ったり、各ブロックの話者のデータを抽出・設定したりなどの処理を行う。なお、談話データ100は、例えば、XML(eXtended Markup Language)などを利用したデータ構造として表される。
フロー解析部20は、前処理部10による前処理後の談話データ100に対して、フロー解析ルール22に基づくルールベースでのフローの解析を行い、解析結果としてフロー情報21を出力する機能を有する。フロー情報21は、談話データ100内の各ステートメントのIDとこれに対応するフローの情報を保持し、例えば、XMLなどを利用したデータ構造として表される。
このフロー情報21は、談話構造解析システム2の出力として談話セマンティクス200に含まれ、必須の構成要素となる。すなわち、談話セマンティクス200には、少なくとも談話データ100についてのフローの解析結果としてフロー情報21が含まれる。なお、フロー解析ルール22の内容、およびフロー解析部20での処理の詳細については後述する。
形態素解析部30は、前処理部10による前処理後の談話データ100に対して、形態素(言語における意味を持つ最小の単位)の列に分割して品詞を判別するいわゆる形態素解析を行い、解析結果として形態素情報31を出力する機能を有する。形態素情報31は、談話データ100内の各ステートメントのIDとこれに対応する形態素列の情報を保持し、例えば、XMLなどを利用したデータ構造として表される。
この形態素情報31は、フロー情報21と同様に、談話構造解析システム2の出力として談話セマンティクス200に含まれるとともに、後述する固有表現解析部40や結束性解析部50に対する入力となる。すなわち、固有表現解析部40による固有表現の解析や、結束性解析部50による結束性の解析(セグメント化)を行わない場合は、形態素解析部30による形態素解析は不要な場合がある。本実施の形態では、後述する談話要約生成システムにおいて、固有表現解析部40によって解析された固有表現や、形態素情報31自身を利用するため、形態素解析部30による形態素解析は必須である。なお、形態素解析部30には既存の形態素解析エンジン(例えば、MeCab(和布蕪)やChaSen(茶筌)など)を利用することができる。
固有表現解析部40は、前処理部10による前処理後の談話データ100と、形態素解析部30から出力された形態素情報31とに基づいて、固有表現解析ルール42に基づくルールベースでの固有表現の解析を行い、解析結果として固有表現情報41を出力する機能を有する。すなわち、固有表現解析部40での解析処理は、少なくとも形態素解析部30による形態素解析が行われていることが前提となる。固有表現情報41は、談話データ100内の各ステートメントIDとこれに対応する固有表現のリストの情報を保持し、例えば、XMLなどを利用したデータ構造として表される。
この固有表現情報41は、フロー情報21と同様に、談話構造解析システム2の出力として談話セマンティクス200に含まれるが、その後の談話セマンティクス200を利用するアプリケーション等による利用形態や、求められる談話セマンティクスの精度などによって不要な場合もあり得る。従って、固有表現情報41の出力は必須ではなく、出力の有無をユーザが選択可能としてもよい。本実施の形態では、後述する談話要約生成システムにおいて固有表現情報41を利用するため、固有表現情報41の出力は必須である。なお、固有表現解析ルール42の内容、および固有表現解析部40での処理の詳細については後述する。
結束性解析部50は、前処理部10による前処理後の談話データ100と、フロー解析部20から出力されたフロー情報21および形態素解析部30から出力された形態素情報31に基づいて、各ブロックの結束性の解析を行ってセグメント化し、解析結果として結束性情報51を出力する機能を有する。すなわち、固有表現解析部40での解析処理は、少なくとも形態素解析部30による形態素解析、およびフロー解析部20によるフローの解析が行われていることが前提となる。結束性情報51は、談話データ100内の各ブロックIDと対応するセグメントIDの情報を保持し、例えば、XMLなどを利用したデータ構造として表される。
この結束性情報51は、固有表現情報41と同様に、談話構造解析システム2の出力として談話セマンティクス200に含まれるが、その後の談話セマンティクス200を利用するアプリケーション等による利用形態や、求められる談話セマンティクスの精度などによっては不要な場合もあり得る。従って、結束性情報51の出力は必須ではなく、出力の有無をユーザが選択可能としてもよい。本実施の形態では、後述する談話要約生成システムにおいて結束性情報51を利用する場合があり、その状況に応じて結束性情報51を出力するようにしてもよい。なお、結束性解析部50での処理の詳細については後述する。
談話構造解析システム2による解析結果として出力される談話セマンティクス200は、上述したように、フロー情報21や、形態素情報31、固有表現情報41、結束性情報51を含んで構成される。このとき、単にこれらのデータの集合を談話セマンティクス200として取り扱ってもよいし、例えば、これらのデータをXMLを利容した1つのデータ構造に結合してもよい。
[システム構成(談話要約生成システム)]
図1は、本発明の一実施の形態である談話要約生成システムの構成例の概要について示したブロック図である。談話要約生成システム1は、談話構造解析システム2と同様に、サーバやPC等のコンピュータシステムによって構成され、例えば、ソフトウェアプログラムによって実装される話題解析部60および談話要約部70の各部と、話題解析ルール62、マッピングルール72、言い換えルール73および要約テンプレート74の各テーブルやデータを有し、談話の内容がテキスト化された談話データ101と、談話データ101についての談話構造の解析結果である談話セマンティクス200とを入力として、談話データ101についての要約300を生成して出力する。
なお、談話データ101は、上述した談話構造解析システム2の前処理部10によって前処理されたものと同等のもの、すなわち、例えば、話者毎に連続したステートメントがブロックとしてまとめられ、各ブロックおよび各ステートメントに順序を示すシーケンス番号(ID)が割り振られ、各ブロックの話者のデータが設定されている状態のものである。また、談話セマンティクス200は、例えば、上述した談話構造解析システム2等によって、談話データ101について談話構造(フロー、固有表現、結束性、および形態素)の解析が行われた結果として出力されたものである。
なお、本実施の形態では、談話構造解析システム2によって出力された談話構造の解析結果を談話要約生成システム1に入力する構成としているが、例えば、これらのシステムを1つのコンピュータシステム上に構成し、談話構造の解析処理から要約300の生成までの処理を連続的に実行するようにしてもよい。
談話要約生成システム1の話題解析部60は、談話データ101と、談話セマンティクス200の形態素情報31とに基づいて、話題解析ルール62に基づくルールベースでの話題の解析を行い、解析結果として話題情報61を出力する機能を有する。話題情報61は、談話データ101内の各ステートメントIDとこれに対応する話題のリストの情報を保持し、例えば、XMLなどを利用したデータ構造として表される。話題解析ルール62の内容、および話題解析部60での処理の詳細については後述する。
談話要約部70は、談話セマンティクス200のフロー情報21、固有表現情報41、および結束性情報51と、話題解析部60から出力された話題情報61とに基づいて、談話データ101の内容をマッピングルール72および言い換えルール73に従って要約テンプレート74にマッピングし、談話データ101についての要約300を生成して出力する機能を有する。要約300は、ユーザによって予め設定された項目等について談話データ101の内容をまとめた形式を有し、テキストデータや、XMLなどを利用したデータ構造として表される。マッピングルール72および言い換えルール73と、要約テンプレート74および要約300の内容、談話要約部70での処理の詳細については後述する。
[フロー解析]
以下では、図2に示した談話構造解析システム2のフロー解析部20によるフロー解析の処理の詳細について説明する。図4は、談話データ100におけるフローとコンテキストの例について示した図である。本実施の形態では、コンテキストは談話の各ブロックに対して設定される。図4の例では、最初のブロック(話者:オペレータ)のコンテキストは“開始”であり、次のブロック(話者:顧客)およびその次のブロック(話者:オペレータ)はともに“陳述”となっている。
図4の例に示すように、本実施の形態では、原則として、対象のブロックのコンテキストとして、異なる話者の直前のブロックの最後のステートメントに設定されたフローを設定する。なお、談話データ100の先頭のブロックについては直前のブロックがないため、コンテキストとして常に“開始”を設定するものとする。このようにコンテキストを判断することによって、同じ文言のステートメントであっても談話のコンテキストに沿ったフローの解析が可能となる。
図5は、談話構造解析システム2のフロー解析ルール22の例について示した図である。フロー解析ルール22は、ファイルやデータベース等に保持されており、ステートメント中におけるフローを判断するための表現(以下では「フロー表現」と記載する場合がある)と、当該フロー表現とマッチする表現を有するステートメントに対してそのコンテキストに応じて設定するフローのパターン(以下では「フロー定義」と記載する場合がある)との対応について予め指定したリストを保持するテーブルである。
図5の例に示すように、フロー表現は、フローを判断するための手掛かりとなる文字列の正規表現(例えば、“/はい。/”や“/ですか。/”)によって指定する。従って、フロー解析部20もしくは談話構造解析システム2は、例えば、既存の正規表現ライブラリなどを導入することにより正規表現に必要な処理を行うことができるようにしておく必要がある。
なお、フロー表現として指定する文字列は、例えば、話し言葉において談話の流れ上特徴的となる文頭の挨拶、返事や、助詞、接続詞、文末表現などを指定するのが望ましく、これらを適用の優先度が高い順に指定する。優先度については、例えば、所定の条件により正規表現の複雑度を計算し、複雑度の降順で優先度を設定するようにしてもよい。なお、指定するフロー表現のパターンは、談話構造解析システム2が対象とする談話の種類(例えば、コールセンターでのやり取りや、企業における定例会議など)に応じて異なる場合がある。
各フロー表現に対しては、例えば“flow”のラベルによって、フロー定義を指定する。フロー定義では、対象のステートメントのコンテキストと、当該ステートメントに設定するフロー(例えば、“/はい。/”のフロー表現とマッチするステートメントにおいて、コンテキストが“開始”の場合はフローとして“挨拶”を設定する)を指定する。“flow”のラベルによるフロー定義は、各フロー表現において想定されるコンテキストの種類に応じて複数指定することができる。
また、例えば“default”のラベルによって、対象のステートメントのコンテキストがいずれの“flow”のラベルにも該当しなかった場合に設定するフローであるデフォルトフロー(例えば、“/はい。/”のフロー表現とマッチするステートメントにおいて、当該ステートメントのコンテキストがいずれの“flow”のラベルにもマッチしない場合はフローとして“相槌”を設定する)を指定する。なお、デフォルトフローは、各フロー表現において必ず1つ設定するものとする。
フロー定義の指定は、談話構造解析システム2が対象とする談話の種類に応じて、一般的な談話の流れのパターンとして主要なものを指定するのが望ましい。例えば、コールセンターでのやり取りにおいては、顧客が“苦情”を発した場合はオペレータは“謝罪”する、などのパターンに基づいて、フロー定義を指定することができる。
フロー解析ルール22では、上述のように、指定するフロー表現や対応するフロー定義の内容が談話構造解析システム2が対象とする談話の種類に応じて異なる場合があるため、談話の種類に応じて適用するフロー解析ルール22を複数保持して、ユーザが切り換えられるようにするなど、談話の特性に応じて柔軟に対応することも可能である。
なお、上述のように、本実施の形態では、フロー解析ルール22において品詞の指定は行っていない。すなわち、フロー解析部20においては品詞の判断を行わないため、フロー解析部20での解析処理に際して、事前に形態素解析部30による形態素解析を行う必要はない。なお、より精度を上げるために形態素情報31を利用して、例えば、フロー解析ルール22のフロー表現における正規表現を、後述するように形態素情報31の形態素列(品詞の情報も含む)に対して適用するようにして、より詳細な条件でマッチングを行うようすることも可能である。
図6は、談話構造解析システム2のフロー解析部20におけるフロー解析処理の流れの例を示したフローチャートである。フロー解析部20は、フロー解析処理を開始すると、まず、前処理部10による前処理後の談話データ100の各ステートメントについて処理を繰り返すループ処理を開始する(S101)。各ステートメントについてのループ処理を開始すると、フロー解析ルール22の各フロー表現について処理を繰り返すループ処理を開始する(S102)。
各フロー表現についてのループ処理を開始すると、対象のステートメントと対象のフロー表現とがマッチするか否かを判定する(S103)。マッチしない場合は次のフロー表現の処理に移る(S108、S102)。一方、マッチする場合は、まず、対象のステートメントについて、当該ステートメントが属するブロックの直前のブロックにおける最終ステートメントに設定されているフローをコンテキストとして設定する(S104)。このとき、図4で示したように、当該ステートメントが属するブロックが談話データ100の最初のブロックである場合には、コンテキストに“開始”を設定する。
次に、ステップS104で設定したコンテキストについて、対象のフロー表現におけるフロー定義の”flow”ラベルで指定されたコンテキストとマッチするものがあるか否かを判定する(S105)。マッチするものがある場合には、マッチするフロー定義におけるコンテキストに対応するフローを、対象のステートメントのフローとして設定する(S106)。一方、マッチするものがない場合は、デフォルトフローを対象のステートメントのフローとして設定する(S107)。その後、各フロー表現についてのループ処理を抜ける。
各フロー表現についてのループ処理が終了すると、対象のステートメントにフローが設定されているか否かを判定する(S109)。フローが設定されている場合は何も行わず、また、フローが設定されていない場合は、対象のステートメントに“陳述”のフローを設定して(S110)、次のステートメントの処理に移る(S111、S101)。各ステートメントについてのループ処理が全て終了した場合は、各ステートメントのIDとこれに対応するフローの情報をフロー情報21として出力してフロー解析処理を終了する。
このように、話し言葉を考慮したフロー表現によって各ステートメントとマッチングし、マッチしたステートメントのコンテキストに応じて適切なフローを設定することで、談話データ100の全体について話し言葉やノイズに影響されにくいフロー解析を行うことができる。
[固有表現解析]
以下では、図2に示した談話構造解析システム2の固有表現解析部40による固有表現解析の処理の詳細について説明する。図7は、談話構造解析システム2の固有表現解析ルール42の例について示した図である。固有表現解析ルール42は、ファイルやデータベース等に保持されており、ステートメント中の固有表現を特定するための正規表現と、当該正規表現とマッチする部分から固有表現を特定して抽出するための規則(以下では「固有表現規則」と記載する場合がある)との対応について予め指定したリストを保持するテーブルである。
図7の例に示すように、ステートメント中の固有表現は正規表現によって特定する。従って、固有表現解析部40もしくは談話構造解析システム2は、例えば、既存の正規表現ライブラリなどを導入することにより正規表現に必要な処理を行うことができるようにしておく必要がある。なお、固有表現解析においては、通常の文字列に対する正規表現だけではなく、形態素情報31に保持された各ステートメントの形態素列の表現についても判断する必要があるため、正規表現の処理機能を形態素列の情報を判断することができるよう拡張しておく。
例えば、図7の例では、各正規表現中で形態素列の範囲を“( )”で指定しており、この部分については文字列ではなく形態素列の情報とマッチングするようにする。1つ目の正規表現の例では、“(<f:組織>+)”の部分は、品詞(f)が“組織”であると解析された1つ以上の形態素列を示しており、“(?:の)?”の部分は、表層形が“の”であると解析された0以上1つ以下の品詞を示している。また、“(<f:人名,姓>)”の部分は、品詞が“人名,姓”であると解析された1つの形態素列を示している。この正規表現は、例えば、“AAA商事の鈴木”や、“AAA商事鈴木”などの表現とマッチする。なお、形態素列の表現については、形態素解析部30における形態素解析エンジン等の出力仕様によって異なる場合がある。
このとき、対応する固有表現規則において、当該形態素列における1番目の要素(品詞が“組織”の形態素列、例えば“AAA商事”)を“企業名”という属性を有する固有表現として特定し、形態素列における2番目の要素(品詞が“人名,姓”の形態素列、例えば“鈴木”)を“人名”という属性を有する固有表現として特定するよう指定している。なお、“(?: )”で囲われた部分(例えば、“の”)については対象の形態素列の要素に含まれないものとして取り扱う。
図7の2つ目の正規表現の例では、品詞は特に考慮せずに通常の正規表現によって指定しており、“03−1234−5678”などの電話番号の表現にマッチする。このとき、対応する固有表現規則において、当該形態素列における1番目の要素(この例で要素は“03−1234−5678”等の1つしかない)を“電話番号”という属性を有する固有表現として特定するよう指定している。
なお、正規表現によって特定される固有表現の文字列は、例えば、談話の内容を個別に特徴付ける固有名詞や、数値等からなる文字列などを指定するのが望ましい。また、例えば、話者(顧客等)の感情を示す表現(例えば、苦情の表現や感謝の表現など)からなる文字列を指定して、対応する感情の属性を有する固有表現として特定するようにしてもよい。なお、解析結果として、ある文字列が複数の固有表現に含まれるという場合もあり得る。
固有表現解析ルール42には、上述のように、固有表現を特定するための正規表現と固有表現規則との対応のリストを予め指定しておくが、フロー解析ルール22と同様に、指定する正規表現や対応する固有表現規則については、談話構造解析システム2が対象とする談話の種類に応じて異なるものを設定したり、談話の種類に応じて適用する固有表現解析ルール42をユーザが切り換えたりなど、談話の特性に応じて柔軟に対応することが可能である。
図8は、談話構造解析システム2の固有表現解析部40における固有表現解析処理の流れの例を示したフローチャートである。固有表現解析部40は、固有表現解析処理を開始すると、まず、談話データ100の各ステートメントについて処理を繰り返すループ処理を開始する(S201)。各ステートメントについてのループ処理を開始すると、固有表現解析ルール42の固有表現を特定するための各正規表現について処理を繰り返すループ処理を開始する(S202)。
各正規表現についてのループ処理を開始すると、対象のステートメントに対応する形態素情報31内の各形態素列と、対象の正規表現とがマッチするか否かを判定する(S203)。マッチしない場合は次の正規表現の処理に移る(S205、S202)。一方、マッチする場合は、対象の正規表現に対応する固有表現規則を適用して固有表現を特定して抽出し(S204)、次の正規表現の処理に移る(S205、S202)。
各正規表現についてのループ処理が全て終了した場合は、次のステートメントの処理に移る(S206、S201)。各ステートメントについてのループ処理が全て終了した場合は、各ステートメントのIDとこれに対応する固有表現のリストの情報を固有表現情報41として出力して固有表現解析処理を終了する。
このように、形態素列の品詞を考慮した正規表現によるマッチングと形態素列の抽出を行うことで、例えば助詞の省略などの話し言葉特有の文法を考慮した固有表現解析を行うことができる。
[結束性解析]
以下では、図2に示した談話構造解析システム2の結束性解析部50による結束性解析の処理の詳細について説明する。図9は、談話構造解析システム2での結束性解析の例について示した図である。結束性解析処理では、まず、上段の図に示すように、談話データ100における全てのブロックを1つのセグメントとして設定する。
その後、まず、セグメントの分割処理を行う。分割処理では、各ステートメントについてフロー情報21において特定の種別のフローが設定されているものを判別し、当該ステートメントが属するブロックにおいてセグメントを分割する。ここで、判別するフローの種別は、談話の切れ目や内容が切り替わる際に出現すると推測されるフローであることが望ましい。
例えば、コールセンターにおけるやり取りを始めとする複数人の談話の場合は、質問とそれに対する回答等の応答によって談話が進む場合が多いため、フローが“質問”のステートメントにおいて内容が切り替わることが多いと考えられる。従って、本実施の形態では、フロー情報21に基づいてフローが“質問”のステートメント(以下では“質問ステートメント”と記載する場合がある)を判別し、図9の中段の図に示すように、質問ステートメントが出現するたびにセグメントを分割するものとする。
その後、セグメントの統合処理を行う。統合処理では、各セグメントについて予め定められた統合条件に該当する質問ステートメントを有する場合に、当該質問ステートメントを有するセグメントを直前のセグメントと統合する。ここで、統合条件は、当該質問ステートメントを有するセグメントについて以前のセグメントから内容が継続している(以前のセグメントと結束性が高い)と推測させる表現の指定である。
統合条件としては、例えば、当該質問ステートメントについて、直前の質問ステートメントと共通する単語(固有名詞)がある場合や、指示詞を含む場合などが挙げられる。これらの統合条件に該当する質問ステートメントを有するセグメントは以前のセグメントと結束性が高いと判断し、図9の下段の図に示すように、直前のセグメントと統合する。なお、統合処理については、統合可能なセグメントがなくなるまで繰り返すものとする。
図10は、談話構造解析システム2の結束性解析部50における結束性解析処理の流れの例を示したフローチャートである。結束性解析部50は、結束性解析処理を開始すると、まず、談話データ100の全てのブロックを1つのセグメントに設定する(S301)。具体的には、例えば、全てのブロックにセグメントIDの初期値を割り当てるなどによって設定する。その後、セグメントの分割処理として、談話データ100の各ブロックについて処理を繰り返すループ処理を開始する(S302)。
各ブロックについてのループ処理を開始すると、対象のブロックに質問ステートメントが含まれているか否か(フローが“質問”のステートメントがあるか否か)を判定する(S303)。質問ステートメントが含まれている場合は、対象のブロックと直前のブロックとの間でセグメントを分割する(S304)。具体的には、例えば、対象のブロック以降の全てのブロックに次のセグメントIDを割り当てるなどによって分割する。その後、次のブロックの処理に移る(S305、S302)。
各ブロックについてのループ処理(分割処理)が終了した場合は、次に、セグメントの結合処理として、上記の分割処理で分割した各セグメントについて処理を繰り返すループ処理を開始する(S306)。各セグメントについてのループ処理を開始すると、対象のセグメントに上記の統合条件に該当する質問ステートメントがあるか否かを判定する(S307)。
統合条件に該当する質問ステートメントがある場合は、対象のセグメントと直前のセグメントとを統合する(S308)。具体的には、例えば、対象のセグメントに含まれる各ブロックのセグメントIDを直前のセグメントのセグメントIDに更新するなどによって統合する。このとき、以降の各セグメントに含まれる各ブロックのセグメントIDを順次繰り上げてもよい。その後、次のセグメントの処理に移る(S309、S306)。各セグメントについてのループ処理(統合処理)が終了した場合は、各ブロックのIDと対応する(各ブロックが含まれる)セグメントのIDのリストの情報を結束性情報51として出力して、結束性解析処理を終了する。
これにより、フロー解析によって得られたフロー情報21に基づいて談話データ100内の各ステートメントをセグメント化し、談話セマンティクス200を利用する種々のアプリケーションに対する有用な情報とすることができる。
なお、上述のフロー解析、固有表現解析、結束性解析の各処理によって出力された談話セマンティクス200に含まれるフロー情報21、固有表現情報41、結束性情報51については、談話構造解析システム2において、ユーザが内容を参照して適宜修正することが可能なインタフェースを設けてもよい。
[話題解析]
以下では、図1に示した談話要約生成システム1の話題解析部60による話題解析の処理の詳細について説明する。話題解析の処理は、上述した談話構造解析システム2の固有表現解析部40における固有表現解析の処理と同様である。すなわち、図7に示した固有表現解析ルール42と同様の構成のデータ(指定内容は異なる)を有する話題解析ルール62を有し、談話データ101のステートメント中の話題を示すと推測される文字列を、話題解析ルール62に指定された、形態素情報31の形態素列の表現も考慮した正規表現によって特定する。従って、話題解析ルール62の内容や話題解析部60での処理の流れの詳細についての説明は省略する。
話題解析ルール62に指定する正規表現によって特定される話題は、談話データ101、もしくは結束性情報51に保持された談話データ101の各セグメントの主要な内容を特徴付ける文言である。従って、例えば、“○○について”や“○○の件”などの談話の対象を示す文言を正規表現によって特定することによって、“○○”の部分を話題として特定することができる。
[談話要約]
以下では、図1に示した談話要約生成システム1の談話要約部70による談話要約の処理の詳細について説明する。図11は、談話要約生成システム1での談話要約の例について示した図である。図11の上段は、談話データ101についての談話構造解析の結果の例を示しており、談話データ101の各ステートメントに対して、談話セマンティクス200の各情報と話題情報61の内容(図11の例では、各ステートメントのフロー、および“企業名”や“人名”などの固有表現と話題)を示している。
これらの情報に対して、本実施の形態の談話要約生成システム1では、図11の下段の左に示すように、予め要約300の項目(“基本情報”や“用件”、“対応”等)や記載内容について規定した要約テンプレート74を用意しておく。図11の例において、要約テンプレート74中の記載内容において“□”で示された部分は、談話データ101における対応する内容の文字列によって置換されるプレースホルダを示している。
また、本実施の形態の談話要約生成ステム1では、要約テンプレート74に談話データ101の内容をマッピングする(すなわち、プレースホルダを談話データ101における対応する内容で置換する)際のルールであるマッピングルール72、および言い換えルール73を設定しておく。これらのルールに従って、談話要約部70が談話データ101の固有表現や話題などの内容を要約テンプレート74にマッピングすることにより、図11の下段の右に示すように談話データ101についての要約300を得ることができる。
図12は、要約テンプレート74と、マッピングルール72、言い換えルール73の内容の具体例について示した図である。図12の上段は、要約テンプレート74の具体例について示している。ここで、各項目における“@××××”の部分がプレースホルダである。各プレースホルダは“××××”の部分の文字列によって識別される。この要約テンプレート74は、例えば、テキストデータやXMLなどを利用したデータ構造として表される。
図12の下段の左は、マッピングルール72の具体例について示している。マッピングルール72には、上記の要約テンプレート74の各プレースホルダについて、談話データ101における対応する内容をマッピングする(対象のプレースホルダを置換する)際の、対応する内容を特定するためのルールを設定する。
例えば、図中の“@CALL_AT”のプレースホルダでは、図2の音声認識エンジン3等によって談話データ101に自動的に設定された“通話開始日時”のデータによって置換することを示している。また、例えば、“@CUSTOMER_CORP”のプレースホルダでは、談話データ101において、顧客(“customer”)によって発話され、ブロックのシーケンスIDが“3”以下のブロックにおける“陳述”のフローが設定されたステートメント中の“企業名”の属性が設定された固有表現の文字列によって置換することを示している。
また、例えば、“@TOPIC”のプレースホルダでは、談話データ101において、顧客(“customer”)によって発話され、“陳述”のフローが設定されたステートメント中の“話題”の属性が設定された文字列(話題解析部60において話題として特定された文字列)によって置換することを示している。また、例えば、“@QUESTION”のプレースホルダでは、談話データ101において、顧客(“customer”)によって発話され、上述の“@TOPIC”のプレースホルダを置換した話題を含むステートメントの後に最初に現れる“質問”のフローが設定されたステートメントの内容によって置換することを示している。
また、例えば、図12の上段の要約テンプレート74の“@EMOTION”のプレースホルダに対して、顧客の感情を示す属性を有する固有表現に基づいて、“怒り”や“感謝”等の感情を示す表現によって置換するようなプレースホルダを指定してもよい。
このように、マッピングルール72には、各プレースホルダを置換する内容として、談話セマンティクス200の各情報と話題情報61の内容に基づいて、例えば、ステートメントのフローや、話者、ステートメントもしくはブロックの位置(談話の流れにおける発話タイミング)などの、置換する内容を含むステートメントを特定する条件、および置換する内容となる固有表現や話題、ステートメントの内容などを指定する。
図12の下段の右は、言い換えルール73の具体例について示している。言い換えルール73には、上記の要約テンプレート74のプレースホルダ毎に、プレースホルダをマッピングルール72に従って置換する際に、話し言葉を含む表現を、要約300のための表現に言い換える(変換する)ためのルールを設定する。図12の例では、例えば、“@QUESTION”や“@TREATMENT”のプレースホルダを置換する際のルールを示しており、“−>”の左辺の正規表現にマッチする部分を右辺の表現に言い換えたうえで置換することを示している。
本実施の形態では、元の文字列(左辺)における“(.+)”にマッチする部分を言い換え後の文字列(右辺)における“¥1”にバインドして言い換える。例えば、図11の上段の例における“何件以上の契約でメリットが出るのでしょうか。”という“質問”ステートメントの内容は、“何件以上の契約でメリットが出るか”という表現に言い換えられる。
上記のマッピングルール72、言い換えルール73の指定内容に従って、要約テンプレート74のプレースホルダを談話データ101における対応する内容の文字列と置換することで要約300を生成する。なお、図12の例における指定内容は、例えば、コールセンターでのやり取りについての要約300である応対記録を作成することを目的とした例であり、要約300を作成する対象の談話の種類に応じて複数のものを予め用意してユーザが対象の業務に応じて切り替えられるようにしてもよい。また、マッピングルール72、言い換えルール73、および要約テンプレート74の内容をユーザが編集可能とするようなインタフェースを設けてもよい。
図13は、談話要約生成システム1の談話要約部70における談話要約処理の流れの例を示したフローチャートである。談話要約部70は、談話要約処理を開始すると、まず、要約テンプレート74の各プレースホルダについて処理を繰り返すループ処理を開始する(S401)。各プレースホルダについてのループ処理を開始すると、マッピングルール72から対象のプレースホルダに対応するルールを取得し(S402)、取得したルールによって特定される文字列を、談話セマンティクス200の各情報および話題情報61の内容に基づいて談話データ101から取得する(S403)。
その後、言い換えルール73に対象のプレースホルダに対する言い換えルールが指定されているか否かを判定し(S404)、指定されている場合は、当該言い換えルールに従って、ステップS403で取得した文字列の表現を言い換える(S405)。その後、当該文字列によって要約テンプレート74の対象のプレースホルダを置換し(S406)、次のプレースホルダの処理に移る(S407、S401)。各プレースホルダについてのループ処理が終了した場合は、プレースホルダが置換された要約テンプレート74を要約300として出力して、談話要約処理を終了する。
なお、上述した例では、要約300を生成する際に、要約テンプレート74にマッピングする文字列を談話データ101全体を対象として取得しているが、談話セマンティクス200の結束性情報51に保持された談話データ101のセグメントの情報に基づいて、セグメント毎に上記の処理を繰り返して、セグメント毎の要約300を生成するようにしてもよい。
また、要約300を生成する対象の談話データ101もしくはセグメントにおいて、マッピングルール72に指定された内容に従って話題を特定する際に、話題が複数特定される場合は、例えば、特定された話題毎に要約300を生成し、生成された各要約300に対して、予めユーザ等により指定されたキーワード群とのマッチング等の処理を行うことによりそれぞれ適合度をスコアリングし、上位のものからランキングしてユーザに要約300のリストを提示するようにしてもよい。また、要約300のリストからユーザが必要なものを取捨選択することができるようなインタフェースを設けてもよい。
以上に説明したように、本実施の形態の談話要約生成システム1によれば、予め指定された要約テンプレート74に対して、マッピングルール72および言い換えルール73に従って、談話セマンティクス200の各情報と話題情報61の内容に基づいて談話データ101の対応する内容をマッピングする。これにより、要約テンプレート74に指定した項目や内容を確実に含む要約300を得ることができる。また、談話データ101の内容から必要な部分のみを抽出して要約300を生成するため、他の不要な部分にノイズ等が含まれている場合でも、これらからは影響を受けずに要約300を生成することができる。
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
本発明は、音声認識処理により得られた談話データの構造を解析した結果から談話の要約を生成する談話要約生成システムおよび談話要約生成プログラムに利用可能である。
1…談話要約生成システム、2…談話構造解析システム、3…音声認識エンジン、
10…前処理部、
20…フロー解析部、21…フロー情報、22…フロー解析ルール、
30…形態素解析部、31…形態素情報
40…固有表現解析部、41…固有表現情報、42…固有表現解析ルール、
50…結束性解析部、51…結束性情報、
60…話題解析部、61…話題情報、62…話題解析ルール、
70…談話要約部、72…マッピングルール、73…言い換えルール、74…要約テンプレート、
100、101…談話データ、200…談話セマンティクス、300…要約。

Claims (8)

  1. 音声認識処理によって談話の内容がテキスト化された談話データ、および前記談話データにおける前記談話の構造の解析結果である、前記談話全体の意味内容を把握するための情報である談話セマンティクスを入力とし、前記談話についての要約を生成して出力する談話要約生成システムであって、
    前記談話セマンティクスは、前記談話データにおける各ステートメントの意味内容を示すフローの情報を含むフロー情報と、前記各ステートメントを形態素に分割して品詞を判別した形態素列の情報を含む形態素情報と、前記各ステートメントにおいて特定された前記談話データにおける固有表現のリストを含む固有表現情報とを含み、
    前記要約の項目および記載内容を規定し、前記記載内容の一部または全部をプレースホルダとして指定した要約テンプレートと、
    前記プレースホルダを置換する、前記談話データにおける対応する内容を、前記談話セマンティクスに基づいて特定するためのルールを指定したマッピングルールと、
    前記要約テンプレートの前記各プレースホルダに対して、前記マッピングルールの指定内容に従って、前記談話データにおける対応する内容の文字列を取得して、前記プレースホルダを前記文字列によって置換して、前記要約を生成して出力する談話要約部と
    前記談話データにおける前記各ステートメント中の話題を特定するための、前記形態素の情報を考慮した正規表現と、前記正規表現とマッチする部分の前記形態素列から前記話題を特定して抽出するための規則との対応のリストからなる話題解析ルールと、
    前記談話データにおける前記各ステートメントに対して、前記話題解析ルールにおける前記正規表現とのマッチングを行い、マッチした前記正規表現における前記規則に基づいて、対応する前記形態素列を抽出して前記話題として特定し、前記各ステートメントと前記各ステートメントにおいて特定された前記話題のリストとの対応からなる話題情報を出力する話題解析部とを有し、
    前記マッピングルールは、前記各プレースホルダを置換する内容を特定するための条件として、前記談話セマンティクスおよび前記話題情報の内容に基づいて、前記プレースホルダを置換する内容を含む前記ステートメントを特定するための前記フローの指定を含む条件、および特定された前記ステートメントにおける前記プレースホルダを置換する内容とする前記固有表現もしくは前記話題もしくは前記ステートメントの内容の指定を有することを特徴とする談話要約生成システム。
  2. 請求項1に記載の談話要約生成システムにおいて、
    さらに、前記要約テンプレートの前記各プレースホルダを前記談話データにおける対応する内容の文字列によって置換する際に、前記プレースホルダ毎に所定の表現を前記要約のための表現に言い換えるためのルールを指定した言い換えルールを有し、
    前記談話要約部は、前記マッピングルールの指定内容に従って、前記談話データにおける対応する内容の文字列を取得し、前記言い換えルールに従って表現を変換して、変換した文字列によって前記プレースホルダを置換することを特徴とする談話要約生成システム。
  3. 請求項1または2に記載の談話要約生成システムにおいて、
    前記談話セマンティクスは、さらに、前記談話データを内容の切り替わりが推測される単位で分割したセグメントの情報を含む結束性情報を有し、
    前記談話要約部は、前記セグメント毎に、前記セグメントに属する各ステートメントに基づいて前記要約を生成することを特徴とする談話要約生成システム。
  4. 請求項のいずれか1項に記載の談話要約生成システムにおいて、
    前記談話要約部は、前記要約テンプレートの前記各プレースホルダに対して、置換するための文字列として、前記談話データもしくは前記談話データの前記セグメントにおける前記話題の内容を取得する際に、対象の前記話題が複数ある場合は、対象の前記話題毎に前記要約を生成し、生成した前記各要約をユーザに提示して前記ユーザによる取捨選択を可能とすることを特徴とする談話要約生成システム。
  5. 音声認識処理によって談話の内容がテキスト化された談話データ、および前記談話データにおける前記談話の構造の解析結果である、前記談話全体の意味内容を把握するための情報である談話セマンティクスを入力とし、前記談話についての要約を生成して出力する談話要約生成システムとしてコンピュータを機能させる談話要約生成プログラムであって、
    前記談話セマンティクスは、前記談話データにおける各ステートメントの意味内容を示すフローの情報を含むフロー情報と、前記各ステートメントを形態素に分割して品詞を判別した形態素列の情報を含む形態素情報と、前記各ステートメントにおいて特定された前記談話データにおける固有表現のリストを含む固有表現情報とを含み、
    前記要約の項目および記載内容を規定し、前記記載内容の部分をプレースホルダとして指定した要約テンプレートと、
    前記プレースホルダを置換する前記談話データにおける対応する内容を、前記談話セマンティクスに基づいて特定するためのルールを指定したマッピングルールと、
    前記要約テンプレートの前記各プレースホルダに対して、前記マッピングルールの指定内容に従って、前記談話データにおける対応する内容の文字列を取得して、前記プレースホルダを前記文字列によって置換して、前記要約を生成して出力する談話要約部と
    前記談話データにおける前記各ステートメント中の話題を特定するための、前記形態素の情報を考慮した正規表現と、前記正規表現とマッチする部分の前記形態素列から前記話題を特定して抽出するための規則との対応のリストからなる話題解析ルールと、
    前記談話データにおける前記各ステートメントに対して、前記話題解析ルールにおける前記正規表現とのマッチングを行い、マッチした前記正規表現における前記規則に基づいて、対応する前記形態素列を抽出して前記話題として特定し、前記各ステートメントと前記各ステートメントにおいて特定された前記話題のリストとの対応からなる話題情報を出力する話題解析部とを有し、
    前記マッピングルールは、前記各プレースホルダを置換する内容を特定するための条件として、前記談話セマンティクスおよび前記話題情報の内容に基づいて、前記プレースホルダを置換する内容を含む前記ステートメントを特定するための前記フローの指定を含む条件、および特定された前記ステートメントにおける前記プレースホルダを置換する内容とする前記固有表現もしくは前記話題もしくは前記ステートメントの内容の指定を有することを特徴とする談話要約生成プログラム。
  6. 請求項に記載の談話要約生成プログラムにおいて、
    さらに、前記要約テンプレートの前記各プレースホルダを前記談話データにおける対応する内容の文字列によって置換する際に、前記プレースホルダ毎に所定の表現を前記要約のための表現に言い換えるためのルールを指定した言い換えルールを有し、
    前記談話要約部は、前記マッピングルールの指定内容に従って、前記談話データにおける対応する内容の文字列を取得し、前記言い換えルールに従って表現を変換して、変換した文字列によって前記プレースホルダを置換することを特徴とする談話要約生成プログラム。
  7. 請求項5または6に記載の談話要約生成プログラムにおいて、
    前記談話セマンティクスは、さらに、前記談話データを内容の切り替わりが推測される単位で分割したセグメントの情報を含む結束性情報を有し、
    前記談話要約部は、前記セグメント毎に、前記セグメントに属する各ステートメントに基づいて前記要約を生成することを特徴とする談話要約生成プログラム。
  8. 請求項のいずれか1項に記載の談話要約生成プログラムにおいて、
    前記談話要約部は、前記要約テンプレートの前記各プレースホルダに対して、置換するための文字列として、前記談話データもしくは前記談話データの前記セグメントにおける前記話題の内容を取得する際に、対象の前記話題が複数ある場合は、対象の前記話題毎に前記要約を生成し、生成した前記各要約をユーザに提示して前記ユーザによる取捨選択を可能とすることを特徴とする談話要約生成プログラム。
JP2009271782A 2009-11-30 2009-11-30 談話要約生成システムおよび談話要約生成プログラム Expired - Fee Related JP5341732B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009271782A JP5341732B2 (ja) 2009-11-30 2009-11-30 談話要約生成システムおよび談話要約生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009271782A JP5341732B2 (ja) 2009-11-30 2009-11-30 談話要約生成システムおよび談話要約生成プログラム

Publications (2)

Publication Number Publication Date
JP2011113490A JP2011113490A (ja) 2011-06-09
JP5341732B2 true JP5341732B2 (ja) 2013-11-13

Family

ID=44235746

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009271782A Expired - Fee Related JP5341732B2 (ja) 2009-11-30 2009-11-30 談話要約生成システムおよび談話要約生成プログラム

Country Status (1)

Country Link
JP (1) JP5341732B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5774459B2 (ja) * 2011-12-08 2015-09-09 株式会社野村総合研究所 談話要約テンプレート作成システムおよび談話要約テンプレート作成プログラム
JP6622165B2 (ja) * 2016-09-16 2019-12-18 株式会社東芝 対話ログ分析装置、対話ログ分析方法およびプログラム
JP7024533B2 (ja) * 2018-03-20 2022-02-24 日本電気株式会社 検出パターン評価モデル生成システム、方法およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3614055B2 (ja) * 1999-05-28 2005-01-26 日本電信電話株式会社 要約文作成方法及び装置及び要約文作成プログラムを格納した記憶媒体
US7610190B2 (en) * 2003-10-15 2009-10-27 Fuji Xerox Co., Ltd. Systems and methods for hybrid text summarization
WO2007113903A1 (ja) * 2006-04-04 2007-10-11 Fujitsu Limited 要約文書作成プログラム、要約文書作成装置、要約文書作成方法及びコンピュータ読み取り可能記録媒体

Also Published As

Publication number Publication date
JP2011113490A (ja) 2011-06-09

Similar Documents

Publication Publication Date Title
JP5774459B2 (ja) 談話要約テンプレート作成システムおよび談話要約テンプレート作成プログラム
JP5468474B2 (ja) トークスクリプト利用状況算出システムおよびトークスクリプト利用状況算出プログラム
US9236047B2 (en) Voice stream augmented note taking
CN100424632C (zh) 用于高级交互接口的语义对象同步理解
CN102176310B (zh) 具有巨大词汇量的语音识别系统
CN108364632B (zh) 一种具备情感的中文文本人声合成方法
Gardner-Bonneau et al. Human factors and voice interactive systems
US20080077869A1 (en) Conference supporting apparatus, method, and computer program product
JP2019207648A (ja) 対話型業務支援システム
JP2013167985A (ja) 談話要約生成システムおよび談話要約生成プログラム
JP5574842B2 (ja) Faq候補抽出システムおよびfaq候補抽出プログラム
JP5495967B2 (ja) 談話要約生成システムおよび談話要約生成プログラム
WO2009107441A1 (ja) 音声合成装置、テキスト生成装置およびその方法並びにプログラム
JP5495968B2 (ja) 談話構造解析システムおよび談話構造解析プログラム
JP5341732B2 (ja) 談話要約生成システムおよび談話要約生成プログラム
Dutrey et al. A CRF-based approach to automatic disfluency detection in a French call-centre corpus.
JP2011123565A (ja) Faq候補抽出システムおよびfaq候補抽出プログラム
JP5457284B2 (ja) 談話内訳算出システムおよび談話内訳算出プログラム
JP5856198B2 (ja) 談話要約生成システムおよび談話要約生成プログラム
JP2006236037A (ja) 音声対話コンテンツ作成方法、装置、プログラム、記録媒体
JP6639431B2 (ja) 用件判定装置、要約文表示装置、用件判定方法、要約文表示方法、及びプログラム
JP2017167433A (ja) サマリ生成装置、サマリ生成方法及びサマリ生成プログラム
JP5633318B2 (ja) 文生成装置及びプログラム
Whetten et al. Evaluating Automatic Speech Recognition and Natural Language Understanding in an Incremental Setting
JP7211384B2 (ja) 音声認識装置、個人識別方法および個人識別プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130808

R150 Certificate of patent or registration of utility model

Ref document number: 5341732

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees