JP6517419B1

JP6517419B1 - 対話要約生成装置、対話要約生成方法およびプログラム

Info

Publication number: JP6517419B1
Application number: JP2018205370A
Authority: JP
Inventors: 一仁横内; 鈴木　茂; 鈴木　　茂
Original assignee: Evoice
Current assignee: Evoice
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2019-05-22
Anticipated expiration: 2038-10-31
Also published as: JP2020071675A

Abstract

【課題】対話音声から、十分に短縮化され、かつ対話の重要要素が欠落することが有効に防止された高精度な要約文を生成する。【解決手段】対話要約生成装置は、対話音声データから対話の話者を識別する話者識別部と、識別された話者ごとに、対話音声データを発話単位に分離する音声分離部と、対話音声データを、分離された発話単位で音声認識して対話音声テキストを生成する音声認識部と、生成された対話音声テキストを要約して要約文テキストを生成する要約生成部と、第１の話者の対話音声テキストから所定時間長内の短い発話を検出し、検出された短い発話に対応する第２の話者の対話音声データの発話単位に基づいて、第１の話者の短い発話が受け答えか否かを判定し、受け答えと判定された短い発話を、生成された要約文テキストに付加する受け答え判定部とを備える。【選択図】図２

Description

本発明は、対話要約生成装置、対話要約生成成方法およびプログラムに関する。より詳細には、本発明は、例えば顧客と応対担当者の電話もしくは対面でなされた対話を録音蓄積して管理するＣｕｓｔｏｍｅｒＲｅｌａｔｉｏｎｓｈｉｐＭａｎａｇｅｍｅｎｔ（ＣＲＭ）システムに利用可能な、録音された対話音声から要約を作成し、生成された要約を出力するための技術に関する。

顧客と事業者との間でなされた対話音声を事業者側において録音して管理する各種技術が提案されている。近年では、事業者のコンプライアンス遵守、顧客からのクレーム対策、および事業者側オペレータの評価や教育等の目的のため、電話での通話に限らず、対面による対話を含めて、あらゆる場面で対話内容の録音蓄積が要請されている。

一例として、顧客からの電話応対部署であるコールセンタにおけるオペレータの通話内容をデータ化して録音するとともに検索するための通話録音システムにおいては、一般に、事業者が運営するコールセンタ等の構内には、公衆電話交換回線網（ＰｕｂｌｉＳｗｉｔｃｈｅｄＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋ：ＰＳＴＮ）からの発信および受信が集中する交換機（ＰＢＸ）が設置され、この交換機により音声通話がコールセンタ構内の固定電話に分配される。

このため、この交換機から分岐する通話録音サーバを設ければ、通話を音声データファイルに録音蓄積することができる。オペレータ側には、音声応対用内線電話とともに、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）等の端末装置が設けられてよく、このオペレータ端末装置には、例えば、発話者が告げた顧客名をキーとして顧客情報を検索する機能や、当該顧客の過去の通話履歴を表示する機能が備えられてよい。

このように音声データファイルに録音蓄積された顧客とオペレータとの間の音声通話につき、１回の電話応対ごと、その概要を応対履歴として記録保持し、通話終了後にこの応対履歴を閲覧およびレポートとして出力可能とすることが要請される。この応対履歴の内容を迅速に確認および照査するため、録音された音声通話からテキスト化された要約を生成することが望まれる。
このような音声データから要約テキストを作成する技術において、音声データファイル中の音声を音声認識処理により文字コード化し、文字コード化された音声テキストデータから要約テキストを生成する技術がある。テキスト化された要約を生成することで、応対履歴の内容の把握が容易となり、一覧性が提供され、さらにテキスト中の単語をキーワードに用いて検索を実行できる等、コンピュータとの柔軟な連携が可能となる。

例えば、特許文献１は、ビデオテープレコーダ（ＶＴＲ）により記録媒体に録音された音声を音声認識して文字コード列に変換し、この音声認識された文字コード列中の文の構成要素の重要度、典型的には名詞・動詞・助詞・形容詞等の品詞別、主格・目的格・述部等の句別に付与された重要度、を予め登録された重要度テーブルを参照することにより判定し、重要度が高いと判定された文中構成要素を組み合わせることで要約文を自動生成する技術を開示する。

また、特許文献２は、音声から重要区間を抽出し、抽出された重要区間の出現分布を用いて話題境界を検出し、それぞれの話題区間に含まれる重要区間を意味分類して、重要区間の音声から話題ごとに分割されたテキストによる要約を生成する技術を開示する。

特開平８−２１２２２８号公報特開２０００−２８４７９３号公報

しかしながら、上記各特許文献に開示される技術を、例えばコールセンタにおける電話応対業務に直ちに適用することは困難である。なぜなら、顧客とオペレータ間の音声通話は、通常、顧客情報の取得・確認、問い合わせ内容の取得・確認、問い合わせへの回答内容の取得・確認、顧客の理解度および免責内容の提示・確認等、多くの段階を経るため不可避的に冗長であり、また、同じ発話内容が繰り返された結果、対話が長時間に亘ることも多いからである。加えて、多数のオペレータについて終日録音蓄積される通話録音データは膨大なものとなるため、応対履歴の迅速な確認および照査を困難にする。

このため、音声通話をそのまま音声認識して得られる音声通話テキストに公知の要約文作成技術を適用しても、生成される要約文もまた不可避的に冗長かつ長文となってしまう不都合があり、利便性が乏しかった。

一方、要約を短縮化しようとすると、重要な対話要素が要約から欠落するおそれがあった。例えば、「はい」等の相槌の発話は、通常、要約に含まれることなく削除されるが、中には承諾の意思表示がなされたことの証拠として要約に含めるべき場合も想定され得る。
しかしながら、従来の技術では、これらの発話を要約に含めるべきか否かについて適切に区別することができなかった。

本発明は、上記課題に鑑みてなされたものであり、その目的は、対話音声から、十分に短縮化され、かつ対話の重要要素が欠落することが有効に防止された高精度な要約文を生成することが可能な対話要約生成装置、対話要約生成方法およびプログラムを提供することにある。

上記課題を解決するために、本発明のある態様によれば対話音声データから対話の話者を識別する話者識別部と、前記話者識別部により識別された話者ごとに、前記対話音声データを発話単位に分離する音声分離部と、前記対話音声データを、前記音声分離部により分離された前記発話単位で音声認識して対話音声テキストを生成する音声認識部と、前記音声認識部により生成された前記対話音声テキストを要約して要約文テキストを生成する要約生成部と、第１の話者の前記対話音声テキストから所定時間長内の短い発話を検出し、検出された前記短い発話に対応する第２の話者の前記対話音声データの発話単位に基づいて、前記第１の話者の前記短い発話が受け答えか否かを判定し、受け答えと判定された前記短い発話を、前記要約生成部により生成された前記要約文テキストに付加する受け答え判定部と、を備える対話要約生成装置が提供される。

前記音声分離部は、前記対話音声データから、第１の閾値以上の時間長の無音区間を検出し、前記無音区間で区切られた有音区間を前記発話単位として分離してよい。
前記受け答え判定部は、検出された前記短い発話に対応する前記第２の話者の前記対話音声データの発話単位中に、前記第１の閾値より小さい第２の閾値以上の時間長の無音区間が検出できるか否かを判定し、前記第２の閾値以上の時間長の前記無音区間が検出できる場合に、前記第１の話者の前記短い発話を、前記受け答えと判定してよい。

前記受け答え判定部は、検出された前記短い発話が受け答えであると判定した場合に、前記短い発話に対応する第２の話者の前記対話音声データの発話単位を前記無音区間の前後で分離し、分離された前記無音区間の直前の発話区間の対話音声データを音声認識して得られた対話音声テキストと、受け答えと判定された前記短い発話とを対にして、前記要約文テキストに付加してよい。
前記受け答え判定部は、前記受け答えでないと判定された前記第１の話者の前記短い発話を相槌と判定し、判定された前記相槌を前記要約生成部に入力すべき前記対話音声テキストから削除してよい。

前記音声認識部により生成された前記対話音声テキストを解析して複数の要素に区切り、区切られた複数の要素で名詞が連続するか否かを判定し、名詞が連続すると判定された複数の要素を結合して１つの要約単位を生成し、生成された要約単位で、前記要約生成部へ前記対話音声テキストを供給する音声認識後処理部をさらに備えてよい。
前記音声認識後処理部は、生成された前記要約単位のそれぞれに重みと種別を付与してよい。
通話音声または対面での対話音声を録音して前記対話音声データを取得する音声取得部をさらに備えてよい。

本発明の他の態様によれば、対話音声データから対話の話者を識別するステップと、識別された話者ごとに、前記対話音声データを発話単位に分離するステップと、前記対話音声データを、分離された前記発話単位で音声認識して対話音声テキストを生成するステップと、生成された前記対話音声テキストを要約して要約文テキストを生成するステップと、第１の話者の前記対話音声テキストから所定時間長内の短い発話を検出し、検出された前記短い発話に対応する第２の話者の前記対話音声データの発話単位に基づいて、前記第１の話者の前記短い発話が受け答えか否かを判定し、受け答えと判定された前記短い発話を、前記要約生成部により生成された前記要約文テキストに付加するステップと、を含むことを特徴とする対話要約生成方法が提供される。

本発明の他の態様によれば、対話要約生成処理をコンピュータに実行させるための対話要約生成プログラムであって、該プログラムは、前記コンピュータに、対話音声データから対話の話者を識別する話者識別処理と、識別された話者ごとに、前記対話音声データを発話単位に分離する音声分離処理と、前記対話音声データを、分離された前記発話単位で音声認識して対話音声テキストを生成する音声認識処理と、生成された前記対話音声テキストを要約して要約文テキストを生成する要約生成処理と、第１の話者の前記対話音声テキストから所定時間長内の短い発話を検出し、検出された前記短い発話に対応する第２の話者の前記対話音声データの発話単位に基づいて、前記第１の話者の前記短い発話が受け答えか否かを判定し、受け答えと判定された前記短い発話を、前記要約生成部により生成された前記要約文テキストに付加する受け答え判定処理と、を含む処理を実行させるためのものであることを特徴とする対話要約生成プログラムが提供される。

本発明に係る対話要約生成装置、対話要約生成方法およびプログラムによれば、対話音声から、十分に短縮化され、かつ対話の重要要素が欠落することが有効に防止された高精度な要約文を生成することができる。よって、対話音声の要約の有用性向上に資する。

本発明の実施形態に係る音声処理システムのネットワーク構成の一例を示す図である。図１の音声処理システムを構成する音声認識サーバの機能構成の一例を示すブロック図である。図１の音声処理システムを構成する要約生成サーバの機能構成の一例を示すブロック図である。図２の音声認識サーバが実行する音声認識処理の処理フローの一例を示すフローチャートである。音声データに対する図４の話者識別（Ｓ２）および音声の発話単位への分離（Ｓ３）を説明する図である。図３の要約生成サーバが実行する要約生成処理の処理フローの一例を示すフローチャートである。図４の自然発話への変換・要約単位への分離（Ｓ５）の詳細処理フローの一例を示すフローチャートである。図７の要約単位への分離（Ｓ５３）の詳細処理フローの一例を示すフローチャートである。図４のＳ４の実行により発話単位に音声認識された認識結果テキストの一例を示す図である。図９の認識結果テキストの構文解析結果の一例を示す図である。図９の認識結果テキストの形態素解析結果の一例を示す図である。図９の認識結果テキストが、図４のＳ５の実行により要約単位に分離された認識結果テキストの一例を示す図である。図４の相槌解析（Ｓ６）の詳細処理フローの一例を示すフローチャートである。図５の音声データに対する図４の相槌解析（Ｓ６）を説明する図である。認識結果テキストに対して適用される句読点テーブルの一例を示す図である。認識結果テキストに対して適用される単位重みテーブルの一例を示す図である。認識結果テキストに対して適用される不要語テーブルの一例を示す図である。認識結果テキストに対して適用される文字置換テーブルの一例を示す図である。認識結果テキストに対して適用される重要語テーブルの一例を示す図である。認識結果テキストに対して適用される肯定語テーブルの一例を示す図である。認識結果テキストに対して適用される否定語テーブルの一例を示す図である。顧客の対話音声に対する感情解析結果の出力の一例を示す図である。オペレータの対話音声に対する感情解析結果の出力の一例を示す図である。オペレータの複数の対話音声に対する感情解析結果の出力の一例を示す図である。認識結果テキストに対して適用される感情語テーブルの一例を示す図である。感情解析結果が付加された要約テキストの一例を示す図である。図２５の感情語テーブルの要約テキストへの適用例を示す図である。音声対話の認識結果テキストを話者ごと要約単位に分離した一例を示す図である。音声対話の認識結果テキストを話者ごと要約単位に分離した他の例を示す図である。図２９の認識結果テキストから生成された要約文の一例を示す図である。対話音声の要約表示のユーザインタフェースの一例を示す図である。対話音声の要約とともに表示可能な感情解析結果の表示例を示す図である。対話音声の音声認識結果、自然言語処理結果、および対応する要約結果の表示例を示す図である。本実施形態における各装置のハードウエア構成の一例を示す図である。

以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。なお、以下に説明する実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施形態に必ずしも限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

＜本実施形態の音声処理システムのネットワーク構成＞
以下では、顧客と、コールセンタのオペレータとの間で電話網を介してなされた通話を録音する例を説明するが、本実施形態はこれに限定されない。本実施形態は、例えば、通話に替えて、対面での対話をマイクロフォン等の集音装置により集音し録音した対話音声についても、同様に要約文を生成することができる。
図１は、本実施形態に係る音声処理システムのネットワーク構成の非限定的一例を示す図である。図１を参照して、音声処理システムは、ＰＢＸ（交換機）１、音声取得サーバ２、通話録音サーバ３、制御サーバ４、音声認識サーバ５、感情解析サーバ６、要約生成サーバ７、および対話要約照会用に利用可能なＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）９を備える。ＰＢＸ１、音声取得サーバ２、通話録音サーバ３、制御サーバ４、音声認識サーバ５、感情解析サーバ６、要約生成サーバ７、およびＰＣ９の全部または一部は、コールセンタ構内に設置され、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）／ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）等のイントラネット８等のＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）ネットワークにより相互接続されてよい。

或いは代替的に、音声取得サーバ２、通話録音サーバ３、制御サーバ４、音声認識サーバ５、感情解析サーバ６、要約生成サーバ７、およびＰＣ９の全部または一部は、インターネット等の遠隔ＩＰ接続を介して適宜コールセンタ外部に設置されてもよい。
特に、コールセンタのオペレータ以外の管理者等が対話要約照会用ＰＣ９を操作して要約文データベース内の応対履歴である対話音声要約の照会ないし更新処理を行う場合には、当該対話要約照会ＰＣ９は、オペレータ近傍に設置される必要はなく、遠隔ＩＰ接続を介して適宜コールセンタ外部に設置されることが好適である。

音声処理システムは、さらに、イントラネット８或いはインターネットを介して音声処理システムに接続される、マイクロフォンを接続または内蔵する他のＰＣ１０を備えてよい。このように構成すれば、ＰＣ１０のマイクロフォンで集音した対面でなされた対話音声を、本実施形態に係る音声処理システムに入力し、対面でなされた対話音声の要約文を生成することができる。

ＰＢＸ１は、コールセンタ内の内線電話を収容し、これら内線電話同士を接続するとともに、各オペレータの電話端末１２を、構内回線１１ａ、１１ｂ、１１ｃ・・・を介してＰＳＴＮ（公衆電話網）１３に回線交換接続して、各オペレータの電話端末１２と、ＰＳＴＮ１３に接続される顧客の電話端末１４との間の通話を実現する。

なお、図１におけるＰＢＸ１は、ＰＳＴＮ１３等の公衆電話交換回線網を介して顧客の電話端末１４に接続されているが、これに替えて、或いはこれに加えて、ＩＰ網接続機能を備えることにより、ＶｏＩＰ（ＶｏｉｃｅＯｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）ネットワーク等の音声パケット通信ネットワークを介して、ＩＰ電話機能を備える顧客のＩＰ通話端末に接続されてよく、この場合、後述する音声取得サーバ２は、顧客のＩＰ通話端末およびオペレータの電話端末１２の間の音声通話を取得することができる。顧客の電話端末１４は、固定電話機或いは携帯電話機やスマートフォンのいずれであってもよい。
＜各サーバ装置の機能構成＞

音声取得サーバ２は、ＰＢＸ１に分岐接続され、各オペレータの電話端末１２と顧客の電話端末１４との通話音声を取得するとともに、取得された通話音声をオペレータの電話端末１２の識別子（例えば内線番号）と対応付けて各サーバに供給する。代替的に、この音声取得サーバ２は、ＰＳＴＮ１３の終端装置（ＤＳＵ）とＰＢＸ１との間の回線に分岐接続されてもよい。

通話録音サーバ３は、制御サーバ４の制御の下、着呼後に音声取得サーバ２から供給される通話音声を必要に応じて圧縮し、取得された音声データを、例えばＮＡＳ（ＮｅｔｗｏｒｋＡｐｐｌｉａｎｃｅＳｔｏｒａｇｅ）等の大規模外部記憶装置により構成される対話音声ファイル（図２の対話音声ファイル３１）のデータベースに蓄積記憶する。
好適には、通話録音サーバ３は、音声取得サーバ２からアナログ音声が供給された場合、このアナログ音声波形を電圧で表したものを所定のビット深度と所定のサンプリング周波数でサンプリングすることによりデジタル音声に変換し、対話音声ファイル３１に蓄積保存する。

このデジタル音声データは、圧縮後に対話音声ファイル３１に蓄積保存されてよい。録音音声の圧縮には、種々の公知の手法を種々の圧縮率で用いることができ、非限定的一例として、モノラル５分の１圧縮、モノラル１０分の１圧縮、或いはステレオ無圧縮等により録音音声が圧縮される。代替的に、通話録音サーバ３は、音声取得サーバ２から供給される音声データを変換圧縮することなく、通話音声ファイル３１に蓄積保存してもよい。

通話録音サーバ３はまた、対話音声ファイル３１内に蓄積保存された１通話単位ごとの対話音声データに関連付けて、呼情報ファイル（不図示）に通話の制御情報として取得される呼情報を書き出す。この呼情報は、ＰＢＸ１により供給される。
通話録音サーバ３により取得される呼情報は、例えば、着信開始情報（着信開始タイムスタンプを含む）、発信開始情報（発信開始タイムスタンプを含む）、通話開始情報（通話開始タイムスタンプを含む）、通話終了情報（通話終了タイムスタンプを含む）等の呼制御情報と、発信元電話番号、発信先電話番号、発信元チャネル番号、発信者番号、着信チャネル番号、着信電話番号（着信先内線番号等）等の呼識別情報とを含む。

この呼情報はさらに、録音された通話内の発話が、インバウンド、すなわち顧客側からの発話であるか、アウトバウンド、すなわちオペレータ側からの発話であるかの極性を識別する話者識別情報を含む。この話者識別情報は、ＰＢＸ１により取得可能であり、例えばＳＩＰ（ＳｅｓｓｉｏｎＩｎｉｔｉａｔｉｏｎＰｒｏｔｏｃｏｌ）の場合には、呼生成の際のセッション構成時に把握可能であり、具体的には、例えば、セッション構成時に、発呼側から着呼側に送信されるＩｎｖｉｔｅコマンド中で、セッション開始に必要な情報を記述するＳＤＰ（ＳｅｓｓｉｏｎＤｅｓｃｒｉｐｔｉｏｎＰｒｏｔｏｃｏｌ）内に発呼側が受信に使用するＩＰアドレスとポート番号を指定し、一方これに応答して着呼側から発呼側へ送信される２００ＯＫメッセージ中のＳＤＰ内に着呼側が受信に使用するＩＰアドレスとポート番号を指定し、このそれぞれ指定されたＩＰアドレスとポート番号を使用してＲＴＰ（ＲｅａｌｔｉｍｅＴｒａｎｓｐｏｒｔＰｒｏｔｏｃｏｌ）プロトコル上音声データが送受信される。このため、これら発呼側および着呼側がそれぞれ受信に使用するＩＰアドレスとポート番号を取得することにより、１通話内の発話それぞれの話者識別情報を得ることができ、１通話内の顧客の発話とオペレータの発話とを必要に応じて区別或いは分離することができる。
ＩＳＤＮの場合には、話者識別情報は、回線終端装置（ＤｉｇｉｔａｌＳｅｒｖｉｃｅＵｎｉｔ：ＤＳＵ）の物理的なピン位置として取得可能である。

これら呼情報は、好適には、ＣＴＩ（ＣｏｍｐｕｔｅｒＴｅｌｅｐｈｏｎｙＩｎｔｅｇｒａｔｉｏｎ）プロトコルを実装した制御サーバ４上ないしオペレータのＰＣ９上で稼動するＣＴＩプログラムと連携して、これらの表示装置上に呼情報をリアルタイムに表示してよい。

通話録音サーバ３はまた、すでに応対履歴のある顧客を中心とする顧客の情報が事前登録された顧客情報データベース（不図示）を備える。この顧客情報は、顧客を識別する個人情報を含み、例えば顧客氏名、住所、登録された顧客電話番号、生年月日、年齢層、性別、その他顧客属性、製品購入履歴、応対履歴等を含むものとし、オペレータが操作可能な端末装置に、オペレータの指示入力に応じて適宜出力され得る。

なお、通話録音サーバ３は、構内回線８に接続するのに替えて、例えば、ＰＳＴＮ１３とＰＢＸ１との間に接続されてよく、このように構成すれば、通話録音サーバ３は、上記の話者識別情報を直接取得することができる。さらに代替的に、音声取得サーバ２を別途設置することなく、通話録音サーバ３は、構内回線８に接続され、構内回線８に供給される通話音声を直接取得してよい。

制御サーバ４は、音声取得サーバ２、通話録音サーバ３、音声認識サーバ５、感情解析サーバ６、および要約生成サーバ７から供給されるデータおよび制御情報に基づいて、これらサーバが実行する処理、これらサーバ間のデータトラフィックおよび制御情報の送受信を制御する。代替的に、音声認識サーバ５および要約生成サーバ７は、通話録音サーバ３が保有する通話音声ファイル３１や呼情報ファイルへのアクセスや対話要約照会用ＰＣ９へのインターフェースを、制御サーバ４を介することなく直接提供してもよい。この場合、音声処理システムは、別途制御サーバ４を備えなくてよい。

音声認識サーバ５は、制御サーバ４の制御の下、対話音声ファイル３１に蓄積保存された対話音声データを、オフフックからオンフックまでの１通話分ごと読み出し、１通話分の対話音声を複数の発話単位に分離する。この発話単位への分離は、無音区間を識別して対話音声をこの無音区間で区切るものであり、図５を参照して後述する。
本実施形態において、音声認識サーバ５は、分離された発話単位ごとに対話音声データを解析して特徴量を抽出し、音声認識辞書（図２の音声認識辞書３２）等の各種認識用辞書を参照し、公知の音声認識技術を適用して対話音声データを文字コード列に変換し、さらに変換された文字コード列を対話音声テキストとしてファイルに出力する。本実施形態において、音声認識サーバ５が出力する対話音声テキストは、要約単位に区切られたテキスト（図２の要約単位テキスト）を含む。この対話音声テキストを要約単位に区切る処理は、図４、図７、および図８を参照して後述する。

感情解析サーバ６は、通話録音サーバ３から供給される対話音声データを入力として、話者ごとに例えば、喜怒、満足度、ストレス度、信頼度等の話者の感情を示す定量的指標を話者の感情解析結果として出力する。この感情解析結果は、１通話内あるいは終日等、所定期間における各感情指標の変化として出力することができる。感情解析サーバ６が実行するこの感情解析処理の詳細は、図６、図２２ないし図２４を参照して後述する。

要約生成サーバ７は、対話音声テキストファイル３３に格納された、要約単位に区切られた対話音声テキストを１通話分ごと読み出して、要約生成処理を実行し、生成された対話要約文を、要約文テキスト（図３の要約文テキスト３８）として出力する。この要約生成処理の詳細は、図６を参照して後述する。

要約生成サーバ７は、１通話内の一方の話者、例えばオペレータの発話の対話音声テキストを読み出して要約文を生成してもよく、他方の話者、例えば顧客の発話から抽出された受け答え部分（後述）を要約文に付加してもよく、双方の話者の対話音声テキストから要約文を作成してもよい。後者の場合、話者の識別情報を対話音声テキストに対応付けることが好適である。

この１通話ごとに生成される要約文は、適宜、照会入力に応答して、対話要約照会用のＰＣ９等のディスプレイ装置やプリンタ装置等の出力装置に出力可能であり、好適には、呼情報からデコードされた通話開始時間、通話終了時間、通話の発信者識別情報（顧客から着信した通話か、オペレータから発信した通話かを識別する情報）等と関連付けて出力されてよい。
好適には、ＰＣ９等に表示出力される要約文は、操作者の修正入力により、適宜更新され得る。この更新結果を学習し、要約文生成の際に参照されるべき重要語テーブル、不要語テーブル、各種変換テーブル等を適宜更新することにより、より高精度かつ簡明な要約文を生成することが可能となる。
本実施形態において、要約生成サーバ７はさらに、音声認識サーバ５から供給される対話音声テキストを入力として、感情語テーブル（図３の感情語テーブル３７）等を参照して、対話音声テキスト中の感情表現部分を抽出し、要約文に含めるべき感情表現語に変換する。

なお、図１に示すネットワークおよびハードウエアの構成は非限定的一例に過ぎず、各サーバおよびデータベースを必要に応じて一体としてもよく、或いは各コンポーネントをＡＳＰ（ＡｐｐｌｉｃａｔｉｏｎＳｅｒｖｉｃｅＰｒｏｖｉｄｅ）等の外部設備に設置してもよい。

＜音声認識サーバ５の機能構成例＞
図２は、本実施形態に係る音声認識サーバ５の機能構成の非限定的一例を示す図である。
図２に示す音声認識サーバ５の各機能モジュールのうち、ソフトウエアにより実現される機能については、各機能モジュールの機能を提供するためのプログラムがＲＯＭ等のメモリに記憶され、ＲＡＭに読み出してＣＰＵが実行することにより実現される。ハードウエアにより実現される機能については、例えば、所定のコンパイラを用いることで、各機能モジュールの機能を実現するためのプログラムからＦＰＧＡ上に自動的に専用回路を生成すればよい。ＦＰＧＡとは、ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙの略である。また、ＦＰＧＡと同様にしてＧａｔｅＡｒｒａｙ回路を形成し、ハードウエアとして実現するようにしてもよい。また、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）により実現するようにしてもよい。なお、図２に示した機能ブロックの構成は一例であり、複数の機能ブロックが１つの機能ブロックを構成するようにしてもよいし、いずれかの機能ブロックが複数の機能を行うブロックに分かれてもよい。図３に示す要約生成サーバ７、および他のサーバ装置の機能構成についても同様である。
図２を参照して、音声認識サーバ５は、音声認識前処理部５１、音声認識部５２、音声認識後処理部５３、および相槌解析部５４を備える。

音声認識前処理部５１は、通話録音サーバ３が蓄積保存した対話音声ファイル３１から１通話ごとの対話音声のファイルを読み出して、読み出された１通話の対話音声ファイルから無音区間を検出し、検出された無音区間を境界として、対話における発話単位に区切る。音声認識前処理部５１はまた、１通話の対話音声ファイルから区切られた複数の発話単位を、発話単位ごとに音声認識部５２へ供給して、音声認識部５２に発話単位での音声認識処理を実行させる。

音声認識部５２は、音声認識前処理部５１から供給される発話単位ごとの対話音声を入力として、音声認識処理を実行し、発話単位ごとの対話音声テキストを音声認識後処理部５３へ供給する。音声認識部５２は、例えば正確に認識されるべき重要語や重要文を定義可能な音声認識辞書３２を参照して、対話音声の音声データを対話音声テキストに変換することができる。なお、音声認識部５２を公知の音声認識エンジンに実装し、一方、音声認識前処理部５１、音声認識後処理部５３、および相槌解析部５４を例えば制御サーバ４に実装してもよい。

音声認識後処理部５３は、音声認識部５２が出力する発話単位ごとの対話音声テキストに対して、構文解析および形態素解析等を実行して、対話音声テキストを要約単位に区切り、要約単位に区切られた対話音声テキスト３３として出力する。構文解析結果および形態素解析結果は、要約単位に区切られた通話音声テキストに対応付けられてよい。この要約単位とは、発話単位の通話音声テキストから要約文生成を容易かつ高精度化できるよう、要約生成処理の処理単位としてさらに細分化された区切りの単位であり、その詳細は図８を参照して後述する。

音声認識後処理部５３はまた、各重要語について重み付けを定義する音声認識用辞書３２を参照して、抽出した要約単位ごとに重み付けを付与してもよい。例えば、日付、時間、住所、電話番号等は要約文に残すべき重要語であることが多く、音声認識後処理部５３によりこれらの語を重み付けすることにより、誤変換を低減することができる。

相槌解析部５４は、音声認識後処理部５３により供給される要約単位に区切られた対話音声テキストから、例えば「はい」、「いいえ」等の受け答えと推定されるテキストを検出し、検出されたテキストが相槌か、或いは受け答えかを判定する。相槌解析部５４は、この判定結果に基づいて、相槌と判定されたテキストを、音声認識後処理部５３が出力する要約単位に区切られた対話音声テキスト３３から削除する。
一方、相槌解析部５４はまた、受け答えと判定されたテキストは、要約生成サーバ７が生成する要約文に含まれるよう、対話音声テキスト３３に含めるとともに、対話音声テキスト中で当該テキストに「受け答え」である旨をタグ付けする。この相槌解析処理の詳細は、図１３および図１４を参照して後述する。

＜要約生成サーバ７の機能構成例＞
図３は、本実施形態に係る要約生成サーバ７の機能構成の非限定的一例を示す図である。
図３を参照して、要約生成サーバ７は、テキスト補正部７１、冗長性排除部７２、要約文生成部７３、感情解析部７４、および要約文短縮部７５を備える。

テキスト補正部７１は、要約単位に区切られた対話音声テキスト３３を読み出して、構文解析結果および形態素解析結果に基づいて、要約文生成を容易化するため、対話音声テキストを補正し、補正された対話音声テキストを冗長性排除部７２へ出力する。

冗長性排除部７２は、テキスト補正部７１から供給される補正された対話音声テキストの冗長性を排除する。具体的には、冗長性排除部７２は、例えば不要語テーブル３５を参照することにより、対話音声テキストから不要語や重複する文等を削除して、要約文生成部７３に供給すべき対話音声テキストを短縮化する。冗長性排除部７２は、冗長性が排除された短縮化対話音声テキストを、要約文生成部７３へ出力する。

要約文生成部７３は、冗長性排除部７２から供給される短縮化対話音声テキストを読み出し、重要語テーブル３４、不要語テーブル３５、および各種変換テーブル３６を参照して、要約文テキストを生成する。要約文生成部７３は、１通話ごとに１つの要約文テキストを生成してよい。要約文生成部７３が出力する要約文は、例えば、通話音声テキストの話し言葉を変換して得られる報告調の簡潔な文体、例えば体言止めの文体であってよい。

本実施形態において、要約文生成部７３は、感情解析サーバ６から、対話中の話者の感情を示す定量的指標を、話者の感情解析結果として取得し、取得された話者の感情解析結果を、生成すべき要約文テキストに含めたり、要約文テキストと同時にまたは関連して表示装置上に表示させたりすることができる。感情解析サーバ６から供給される話者の感情解析結果は、話者ごとに例えば、喜怒、満足度、ストレス度、信頼度等の定量的指標を含む。

感情解析部７４は、要約文生成部７３が生成する要約文から、感情語テーブル３７を参照して、要約文テキスト中の感情表現部分を抽出し、要約文に含めるべき端的な感情表現語に変換して、変換された感情表現語で、要約文テキスト中で抽出された感情表現部分を置き換える。
要約文短縮部７５は、要約文生成部７３から供給される要約文が、所定長、例えば所定文字数の閾値を超えた場合に、当該閾値内の要約文長となるよう、要約文を短縮し、短縮化された要約文を要約文テキスト３８として出力する。

＜音声認識サーバ５における音声認識処理の処理手順＞
図４は、音声認識サーバ５の各部が実行する音声認識処理の処理手順の非限定的一例を示すフローチャートである。
Ｓ１で、音声認識サーバ５の音声認識前処理部５１は、対話音声ファイル３１から、１通話ごとにファイル化された対話音声データを読み出す。
Ｓ２で、音声認識サーバ５の音声認識前処理部５１は、Ｓ１で読み出された対話音声中の話者を識別する。具体的には、音声認識前処理部５１は、対話音声ファイルに対応付けられた呼情報の話者識別情報を参照することにより、対話音声から話者、例えば顧客とオペレータ、を識別することができる。

具体的には、音声認識前処理部５１は、呼情報データベース（不図示）を参照して、１通話内の話者識別情報を判別することにより、１通話内の発話のそれぞれの発話者が顧客であるかオペレータであるかを識別することができる。
後段の音声認識部５２では、識別された話者ごとに、対話音声データが音声認識されるとともに、音声認識された対話音声テキストから要約を生成する要約生成サーバ７の要約文生成部７３では、対話録音のタイムスタンプを参照して、双方の話者の認識結果のテキストを対応付けることができる。

音声認識前処理部５１は、一方の話者、例えばオペレータの発話であると識別された発話の対話音声データを他方の話者、例えば顧客の発話であると識別された発話の対話音声データより優先して、要約生成サーバ７に供給してもよい。これは、要約文生成源として、一方の発話者、典型的にはオペレータの発話の方が、応対履歴を要約するに足る情報がより効率的に得られるとの知見に基づく。
代替的に、音声認識前処理部５１は、一方の話者のみ、例えばオペレータの発話であると識別された発話の対話音声データのみを音声認識して、対話音声テキストに変換してもよい。音声認識の対象を制限することで、高負荷な音声認識を行う音声認識サーバ５内におけるハードウエア資源が低減でき、音声認識処理や要約文生成処理のリアルタイム性が向上するとともに、対話音声テキストファイル等のリソース容量も削減できる。

Ｓ３で、音声認識サーバ５の音声認識前処理部５１は、１通話ごとに読み出された話者が分離された対話音声データを、発話単位に分離して、発話単位に分離された対話音声を、音声認識部５２に供給する。
具体的には、音声認識前処理部５１は、対話音声データ中で一定の無音区間を検出し、検出された無音区間で音声を区切ることにより、有音区間を切り出して発話単位の対話音声として分離する。

図５に示すように、１通話分の対話音声ファイルは、ＣＨ１とＣＨ２の２チャネルで構成される。ＣＨ１の音声は例えば顧客の発話であり、ＣＨ２の音声は例えばオペレータの発話であるものとする。
音声認識前処理部５１は、一定の長さの無音区間を検出する。検出すべき無音区間は、例えば、１．５秒以上の無音区間であってよく、例えば１秒から２秒の間でその下限値が調整されてよい。この無音区間の下限値を、第１の閾値という。この無音区間の下限値は、例えば息継ぎに要する時間を考慮して設定することができる。また、この無音区間の下限値は、例えば「言ったよね」の発話中の撥音「っ」を誤って無音区間として検出しないよう設定されることが好適である。

図５を参照して、音声認識前処理部５１は、ＣＨ１の顧客の音声から、第１の閾値以上の長さの無音区間（ＳＬ１１、ＳＬ１２、・・・、ＳＬ１６）を検出し、検出された２つの無音区間の間にある有音区間（ＳＰ１１、ＳＰ１２、・・・、Ｓ１７）を抽出する。抽出された有音区間（ＳＰ１１、ＳＰ１２、・・・、Ｓ１７）のそれぞれが、顧客として識別された音声中の１つの発話単位となり、本実施形態において、音声認識部５２に供給される音声認識単位となる。有音区間のそれぞれは、息継ぎなしで発話された区間と見做すことができる。
同様に、図５を参照して、音声認識前処理部５１は、ＣＨ２のオペレータの音声から、第１の閾値を下限値とする無音区間（ＳＬ２１、ＳＬ２２、・・・、ＳＬ２６）を検出し、検出された２つの無音区間の間にある有音区間（ＳＰ２１、ＳＰ２２、・・・、Ｓ２７）を抽出する。抽出された有音区間（ＳＰ２１、ＳＰ２２、・・・、Ｓ２７）のそれぞれが、オペレータとして識別された音声中の１つの発話単位となる。

図４に戻り、Ｓ４で、音声認識サーバ５の音声認識部５２は、音声認識前処理部５１から発話単位で入力される対話音声データに対して、識別された話者ごとに音声認識処理を実行して、テキスト化された対話音声である対話音声テキストを出力する。
本実施形態においては、このように対話音声データを発話単位で音声認識処理を実行する。上記の無音区間は、当該無音区間中に話者が切り替わったこと、あるいは同一の話者が話題ないし内容を転換したことを推認させる。このため、無音区間の前後では発話内容における連続性が乏しいと推定でき、発話単位で対話音声テキストを音声認識することで、認識精度の向上が期待できる。

この音声認識処理には、公知の音声認識エンジンを適用することができる。
音声認識部５２が実行する音声認識処理における文字コード列への変換の一例として、例えば、対話音声データ中の、必要に応じて各種変換処理された音声波形から抽出される特徴量を、予め定義されている音素ごとの参照音響パターンと比較処理することにより、音声波形データを文字コード列に変換することができる。

音声認識部５２および音声認識後処理部５３により参照される音声認識辞書３２には、予め音声認識の対象と想定され、かつ要約文に含まれるべき重要情報を含む重要語（ないし重要文）のデータが定義されているため、この音声認識辞書３２に定義された重要語に相当する対話音声データの音素列のみが抽出されて意味づけされてよい。また、音声認識辞書３２に定義される重要語（ないし重要文）には重み付けが付与されてよい。音声認識部５２により読み出された対話音声データのうち、この定義された重要語に相当する対話音声データ箇所が対話音声テキストに変換され、音声認識結果として出力されてよい。

図９は、Ｓ４で音声認識部５２が出力する、対話音声データから生成される発話単位の音声認識結果である対話音声テキストの非限定的一例を示す。図９の例では、「対話要約処理は不要な発言や表現の削除のほか話し言葉から書き言葉への変換などで構成されますなお処理対象データの特性に応じて選択することができます」が、２つの無音区間の間で抽出された発話単位となる。図９に示すように、Ｓ４で出力される発話単位の音声認識結果は、句読点等で区切られない複数の文章を１つのまとまりとして含み得る。

図４に戻り、Ｓ５で、音声認識サーバ５の音声認識後処理部５３は、Ｓ４で音声認識部５２が出力する音声認識結果を自然発話へ変換するとともに、要約単位に区切る。音声認識後処理部５３はまた、Ｓ５で区切った要約単位の対話音声テキストに、構文解析や形態素解析結果に基づいて、種別や重み付けを付与することができる。
なお、Ｓ５における変換処理の詳細は、図７および図８を参照して後述する。

Ｓ６で、音声認識サーバ５の相槌解析部５４は、要約単位に区切られた対話音声テキストから、例えば「はい」、「いいえ」等の受け答えと推定されるテキストを検出し、検出されたテキストが相槌か、或いは受け答えかを判定する。
相槌解析部５４は、この判定結果に基づいて、相槌と判定されたテキストを、音声認識後処理部５３が出力する要約単位に区切られた対話音声テキスト３３から削除する。一方、相槌解析部５４は、受け答えと判定されたテキストを、要約生成サーバ７が生成する要約文に含まれるよう、通話音声テキスト３３に含めるとともに、対話音声テキスト中で当該テキスト要素に「受け答え」である旨をタグ付け（種別付与）する。なお、Ｓ６における相槌解析処理の詳細は、図１３および図１４を参照して後述する。
Ｓ７で、相槌解析部５４は、受け答えと判定されたテキストを付加した要約単位に区切られた対話音声テキストを出力する。

＜音声認識後処理部５３における音声認識後処理の詳細処理手順＞
図７は、図４のＳ５で音声認識後処理部５３が実行する音声認識後処理の詳細処理手順の一例を示すフローチャートである。
図７を参照して、Ｓ５１で、音声認識サーバ５の音声認識後処理部５３は、音声認識辞書３２を参照して、Ｓ４で音声認識部５２が出力する音声認識結果である発話単位の対話音声テキストの構文解析を実行する。
Ｓ５２で、音声認識後処理部５３は、音声認識辞書３２を参照して、発話単位の対話音声テキストの形態素解析を実行する。なお、Ｓ５１の構文解析およびＳ５２の形態素解析は、いずれかを先に実行してもよく、同時並行的に実行されてよい。

図１０は、図９に示す発話単位の対話音声テキストに対して、Ｓ５１における構文解析処理を実行して得られる構文解析結果の非限定的一例を示す。図１０に示すように、Ｓ５１で出力される構文解析結果では、テキスト中の形態素間の関係が構造化されている。
図１１は、図９に示す発話単位の対話音声テキストに対して、Ｓ５２における形態素解析処理を実行して得られる形態素解析結果の非限定的一例を示す。図１１に示すように、形態素解析結果は、抽出された形態素ごとに、書字、読み、取得された品詞種別（大分類、中分類、小分類）を含んでよい。

図７に戻り、Ｓ５３で、音声認識後処理部５３は、Ｓ５１およびＳ５２の構文解析および形態素解析の解析結果に基づいて、発話単位の対話音声テキストを、要約単位に細分する。
図８は、図７のＳ５３で音声認識後処理部５３が実行する要約単位への分離処理の詳細処理手順の一例を示すフローチャートである。
Ｓ５３１で、音声認識後処理部５３は、形態素解析および構文解析の結果得られた区切り単位の品詞種別が、名詞か否かを判定する。解析の結果得られた区切り単位の品詞種別が名詞である場合Ｓ（Ｓ５３１：Ｙ）、Ｓ５３２に進む。一方、解析の結果得られた区切り単位の品詞種別が名詞以外である場合、Ｓ５３２以降の処理をスキップして処理を終了し、Ｓ６へ進む。

Ｓ５３２で、音声認識後処理部５３は、形態素解析および構文解析結果得られた区切り単位の群（まとまり）の先頭が、名詞以外か否かを判定する。区切り単位の群の先頭が名詞以外である場合（Ｓ５３２：Ｙ）、Ｓ５３３以降の処理をスキップして処理を終了し、Ｓ６へ進む。一方、区切り単位の群の先頭が名詞である場合（Ｓ５３２３：Ｎ）、Ｓ５３３に進む。

Ｓ５３３で、音声認識後処理部５３は、形態素解析および構文解析の結果得られた区切り単位が名詞＋αであるか否かを判定する。区切り単位が名詞＋αである場合、すなわち末尾に助詞等、名詞以外を含む場合（Ｓ５３３：Ｙ）、Ｓ５３４で、音声認識後処理部５３は、当該区切り単位を直前の区切り単位に結合して、処理を終了し、Ｓ６に進む。一方、区切り単位が名詞＋αでない場合、すなわち名詞のみである場合（Ｓ５３３：Ｎ）、Ｓ５３５で、音声認識後処理部５３は、当該区切り単位を直前の区切り単位に結合した上で、Ｓ５３２に戻り、Ｓ５３２およびＳ５３３の区切り単位の判定を繰り返す。

図１２は、図９に示す発話単位の対話音声テキストを入力とし、図１０に示す構文解析結果および図１１に示す形態素解析結果を経て、図４のＳ５で、音声認識後処理部４３が出力する対話音声テキストの一例である。
図１２中の四角記号は、それぞれ要約単位の区切りを示す。図１２に示すように、Ｓ５の自然発話への変換および要約単位への分離処理を実行することにより、連続する「対話」、「要約」、「処理は」が１つの要約単位に、また、連続する「処理」、「対象」、「データの」が他の１つの要約単位に、それぞれ結合されて、要約単位を構成している。
音声認識サーバ５の音声認識後処理部４３はさらに、分離された要約単位の対話音声テキストのそれぞれに、音声認識辞書３２を参照することにより、種別や重み付けを付加してよい。図１２では、要約単位「対話要約処理は」および要約単位「処理対象データの」が、それぞれ要約文に含められるべき重要要約単位として重み付けされている。

＜相槌解析部５４における相槌解析処理の詳細処理手順＞
図１３は、図４のＳ６で音声認識サーバ５の相槌解析部５４が実行する相槌解析処理の詳細処理手順の非限定的一例を示すフローチャートである。
図１３を参照して、Ｓ６１で、音声認識サーバ５の相槌解析部５４は、双方の話者、例えば顧客およびオペレータの対話音声を対話音声ファイル３１から取得する。対話音声ファイル３１には、１通話ごとに双方の話者を対応付けることが可能なタイムスタンプが付与されているため、相槌解析部４４は、１通話単位を構成する双方の話者の対話音声を取得することができる。或いは、通話単位ごとに当該通話単位を構成する話者の対話音声それぞれに共通の識別子が付与されることにより、双方の話者の対話音声を対応付けてもよい。Ｓ６１では、取得された双方の話者の対話音声とともに、当該対話音声を音声認識して得られた対話音声テキストが入力される。

Ｓ６２で、相槌解析部５４は、顧客およびオペレータの双方の対話音声を対比し、対話の相手が発話している間に短い発話が検出できるか否かを判定する。
図１４（ａ）を参照して、ＣＨ１の顧客の対話音声中の短い発話（ＳＰ１４）は、対話の相手であるＣＨ２のオペレータの発話（ＳＰ２４）の間になされた短い発話であるため、Ｓ６２で検出される。Ｓ６２で検出すべき短い発話とは、例えば２秒未満であってよい。
相手が発話中に短い発話が検出されない場合（Ｓ６２：Ｎ）、Ｓ６３からＳ６８の処理をスキップして処理を終了し、Ｓ７へ進む。一方、相手が発話中に短い発話が検出された場合（Ｓ６２：Ｙ）、Ｓ６３に進む。

Ｓ６３で、相槌解析部５４は、Ｓ６２で検出された短い発話と同一のタイムスタンプを有する音声認識結果の対話音声テキストを検索し、当該短い発話の音声認識結果が受け答えと推定できるか否か、すなわち受け答えの候補となるか否かを判定する。例えば、短い発話が「はい」、「ええ」、「いいえ」、「いや」等のテキストであれば、受け答えの候補と判定できる。例えばこの受け答え候補は予め相槌解析部５４に設定しておけばよい。

短い発話の音声認識結果が受け答え候補でない場合（Ｓ６３：Ｎ）、Ｓ６４に進んで、当該短い発話は相槌であると判定して、要約生成に入力すべき対話音声テキストから削除する。すなわち、Ｓ６４で相槌と判定された短い発話は、要約作成において意味のない相槌であるため、要約文生成源とされない。一方、短い発話の音声認識結果が受け答え候補である場合（Ｓ６３：Ｙ）、Ｓ６５に進む。

Ｓ６５では、相槌解析部５４はさらに、Ｓ６３で検出された受け答え候補である短い発話の発話中に、対話の相手の音声に短い無音期間があるか否かを判定する。
図１４（ａ）を参照して、ＣＨ１の顧客の音声中の短い発話（ＳＰ１４）に対応するＣＨ２のオペレータの発話では、図４のＳ３で音声認識前処理部４１により、第１の閾値以上の長さの無音区間を含まないため、１つの発話単位ＳＰ２４として検出されている。Ｓ６５では、この第１の閾値より小さい第２の閾値を用いて、対話の相手の音声に短い無音区間が検出できるか否かが判定される。この第２の閾値は、第１の閾値より小さい値を持ち、例えば、１秒であり、０．５秒から１．５秒の間で調整されてよい。

Ｓ６５で、受け答え候補である短い発話の発話中に、対話の相手の発話単位（有音区間）中に、第２の閾値以上の長さを持つ短い無音区間が検出された場合（Ｓ６５：Ｙ）、Ｓ６６で当該短い発話は受け答えであると判定してＳ６７に進む。一方、受け答え候補である短い発話の発話中に、対話の相手の発話単位（有音区間）中に、第２の閾値以上の長さを持つ短い無音区間が検出されない場合（Ｓ６５：Ｎ）、Ｓ６４に進んで、受け答え候補であった当該短い発話は、相槌であると判定して、要約生成に入力すべき対話音声テキストから削除する。
Ｓ６７で、相槌解析部５４は、Ｓ６６で受け答えと判定された短い発話の前後で、対話の相手の音声を２つの発話単位に分離する。

図１４（ｂ）を参照して、ＣＨ１の顧客の短い発話区間（ＳＰ１４）の音声認識結果が受け答え候補と判定されたものとすると、この発話（ＳＰ１４）中に、ＣＨ２のオペレータの発話区間（ＳＰ２４）には、第２の閾値以上かつ第１の閾値より小さい無音区間（ＳＬ２４ａ）が検出できる。この場合、相槌解析部５４は、検出されたこの無音区間（ＳＬ２４ａ）の前後で、オペレータの発話区間（ＳＰ２４）を分離して、無音区間（ＳＬ２４ａ）直前の発話区間（ＳＰ２４ａ）と無音区間（ＳＬ２４ａ）直後の発話区間（ＳＰ２４ｂ）とを取得する。

Ｓ６８で、相槌解析部５４は、Ｓ６７で分離された、短い無音区間（ＳＬ２４ａ）直前の発話区間（ＳＰ２４ａ）を音声認識して得られた対話音声テキストを、Ｓ６６で受け答えと判定された音声テキストと対になるべき対話音声テキストであると判定し、この対のテキストを、受け答えのテキストと、当該受け答えを促した、何に対する受け答えであるかを特定するテキストとして、相互に対応付けて「受け答え」の種別を付与して、要約単位の対話音声テキストファイル３３へ出力する。

＜要約生成サーバ７における要約生成処理の処理手順＞
図６は、要約生成サーバ７の各部が実行する要約生成処理の処理手順の非限定的一例を示すフローチャートである。
図６を参照して、Ｓ１０で、要約生成サーバ７のテキスト補正部７１は、要約単位に区切られた対話音声テキスト３３から１通話単位の対話音声テキストを読み出す。

Ｓ１１で、テキスト補正部７１は、Ｓ１０で読み出した対話音声テキストを補正する。具体的には、テキスト補正部７１は、図１２に示すように要約単位（要約生成の処理単位）で区切られた１つの発話単位の対話音声テキストに、句読点を挿入した上で、句点の位置で改行を挿入する。
図１５は、テキスト補正部７１が参照する句読点テーブルの非限定的一例を示す。図１５の句読点テーブルは、句点または読点を直後に挿入すべき用語を定義する。図１５において、「１」は読点の挿入、「０」は句点の挿入を示す。テキスト補正部７１は、図１５の句読点テーブルを参照して、要約単位の区切り記号から後方一致で、句読点テーブルに定義される「ますが」、「ますか」、「ます」、「はい」等の語を検索し、検索された語の直後に、句読点テーブルの定義に従って句点または読点を挿入していく。テキスト補正部７１は、図１５の句読点テーブルに定義される検索語のうち、字数の多いものから順に検索してよい。

テキスト補正部７１はさらに、形態素解析で抽出された数詞を検索し、検索された数値の意味を解析する。応対履歴のための要約文生成においては、数詞が要約におけるキーワードとなる重要語であることが多い。このため、テキスト補正部７１は、検索された数詞の意味を解析して、解析された数詞の意味に応じた種別を取得し、取得された種別に応じた単位や重みを付与する。
数詞の意味としては、例えば、「日付」、「時間」、「金額」、「電話番号」、「個数」等が付与され得るがこれに限定されない。

図１６は、テキスト補正部７１が、解析された数詞の要素へ、種別、単位（表記）、重み付けをそれぞれ付与するために参照する数詞種別テーブルである。図１６を参照して、例えば日付や時刻や金額（円）には、個数（個）や温度（度）より高い重みが付与されている。
一方、テキスト補正部７１は、対話音声テキスト中に前後の語に関連しない数詞が検索された場合、誤認識と判定して、対話音声テキストから当該数詞を削除してよい。また、テキスト補正部７１は、要約文中における視認性および明瞭性向上のため、検索された数詞を半角数字に変換してよい。

図６に戻り、Ｓ１２で、要約生成サーバ７の冗長性排除部７２は、音声認識された対話音声テキスト中の冗長性を排除してより簡明化ないし単純化された対話音声テキストを出力する。
具体的には、冗長性排除部７２は、不要語テーブル３５を参照して、対話音声テキストから不要語を削除する。
図１７は、冗長性排除部７２が参照する不要語テーブル３５の非限定的一例を示す。図１７を参照して、不要語テーブル３５には、「えー」等の間投詞、「いつもお世話になっております。」等の定型挨拶文等が不要語として定義されている。

冗長性排除部７２はさらに、１通話分の対話音声テキストから、同一ないし類似内容を記述する文（ないし句、語等の意味を有するまとまりであってもよい）が複数回出現した場合に、重複する文を対話音声テキストから適宜削除してよい。好適には、冗長性排除部７２は、１通話分の対話音声テキスト中に同一ないし類似内容を記述する文等が複数回出願した場合には、通話開始から終了までの時系列上前方に出現した文を削除し、最後に出現した文を残してよい。通話終了時点に近い文が、より応対における最終的な結論を記述する蓋然性が高いからである。また、最後に出現した文は、オペレータによる復唱であると推定でき、この場合、復唱された文がより応対履歴として要約に残すべき正確な内容を記述してものであると期待できるからである。

冗長性排除部７２は、さらに、重要語テーブル３４を参照し、重要語テーブル３４に登録済みであるキーワードの言い淀みや繰り返しを削除してもよい。
例えば、重要語テーブル３４にキーワードとして表記「ｅＶｏｉｃｅ」、読み「イーボイス」と登録されていたものとする。
この場合、認識結果が「明日の１０時にいいｅＶｏｉｃｅへ伺います。」であったとすると、冗長性排除部７２は、登録済みのキーワードの直前に読みが先頭から部分一致するものを検索し、検索された語を削除する。これにより、言い淀み箇所を対話音声テキストから削除することができる。
同様に、認識結果が「明日の１０時にｅＶｏｉｃｅへｅＶｏｉｃｅにお伺いします。」であったとすると、冗長性排除部７２は、上記のように、登録済みのキーワードの繰り返しは前方を削除する。これにより、繰り返し箇所を対話音声テキストから削除することができる。

図６に戻り、Ｓ１３で、要約生成サーバ７の要約文生成部７３は、冗長性排除部７２が出力する対話音声テキストから、応対履歴の要約文を生成する。具体的には、要約文生成部７３は、会話体で記述された対話音声テキストを文章体に整形する。好適には、要約文生成部７３は、会話体で記述された対話音声テキストを体言止めの文章体に整形する。

図１８は、要約文生成部７３が参照する文体変換テーブル３６の非限定的一例を示す。図１８を参照して、文体変換テーブル３６には、左欄に変換元の会話体の語（「ございますね」、「と申します」、「おっしゃっていました」等）が、右欄に変換先の文章体の語（「ですね」、「です」、「言っていた」等）が、それぞれ定義されている。要約文生成部７２は、対話音声テキストから、文体変換テーブル３６に定義された変換元の会話体の語を検索し、検索された会話体の語を文体変換テーブル３６に定義される対応する文章体の語に変換する。これにより、対話音声テキスト中の丁寧語が簡潔な報告調の文章体に変換される。
なお、図１９の文体変換テーブル３６中、変換元の「ちょっと」の語には対応する変換先の文章体の語が定義されていない。この場合、要約文生成部７２は、変換元の語を対話音声テキストから削除すればよい。

図６に戻り、Ｓ１３で、要約文生成部７３はさらに、対話音声テキストから予め定義された重要語を検索し、検索された重要語を出力すべき要約文に含める。
図１９、図２０および図２１はそれぞれ、要約文生成部７３が参照する重要語テーブル３４の非限定的一例を示す。図１７を参照して、重要語テーブル３４には、「連絡」、および「確認」の語が重要語として定義されている。重要語テーブル３４には、重要語を可変の重み（ポイント）とともに定義してよい。図１９には、「連絡」、および「確認」の語には、いずれも重み「１」が定義されている。また、ユーザが追加や削除等の編集可能な他の重要語テーブル３４を提供し、固有名詞等を適宜定義可能としてよい。
要約文生成部７３は、対話音声テキストから、重要語テーブル３４に定義された重要語を検索し、検索された重要語を対応する重みに応じて重み付けして、生成すべき要約文に含める。

図２０は、肯定表現である重要語（「はい」、「わかった」、「いいよ」、）了解」等）を定義する重要語テーブル３４の非限定的一例を示し、図２１は、否定表現である重要語（「いいえ」、「やだよ」、「断る」、「承認しない」等）を定義する重要語テーブル３４の非限定的一例を示す。要約文生成部７３は、これらの重要語テーブル３４も参照して、対話音声テキストから重要語を検索し、検索された重要語を対応する重みに応じて重み付けして、生成すべき要約文に含める。図２０および図２１に含まれる肯定ないし否定表現としての重要語は、適宜文章体（「承諾」、「拒否」等）に変換されてよい。
なお、好適には、要約文生成部７３は、冗長性排除部７２から複数の文が供給された場合と単独の文が供給された場合のいずれであっても、１つの通話単位について１つの要約文を生成してよい。

図６に戻り、Ｓ１４で、要約生成サーバ７の要約文短縮部７５は、要約文生成部７３により生成された要約文が、所定長、例えば所定文字数の閾値を超えた場合に、該閾値内の要約文長となるよう、要約文を短縮する。
好適には、要約文短縮部７５は、対話要約文が一覧表示される照会結果表示画面において、１通話単位の要約文表示用に設けられた出力欄に要約文全文がスクロールを要することなく一瞥して可読な範囲の文字数を閾値として設定してよい。これにより、要約文確認のための追加的操作が不要となり、要約文全体の迅速な視認が可能となる。

より詳細には、要約文短縮部７５は、各種重要語テーブル３４を参照して、要約文中に出現する重要語に付与された重み（重要度ポイント）に基づいて、要約文を短縮してよい。
一例として、要約文短縮部７５は、冗長性排除部７２から供給される対話音声テキストを、句点（「。」）ごとに区切り、１つの対話音声テキスト文ごとに、文中に出現する重要語の重要度ポイントを加算し、高い重要度が算出された通話テキスト文を優先的に選択してよい。
要約文短縮部７５は、短縮された要約文を、要約文テキスト３８のファイルへ出力する。

図６のＳ１５で、本実施形態において、要約文生成部７３は、音声認識サーバ５の相槌解析部５４が生成した、「受け答え」の種別が付与された対のテキストを、出力すべき要約文に付加する。
音声認識サーバ５の相槌解析部５４により実行された図１３の相槌解析処理により、一方の話者（例えば、顧客）により発話された、受け答えと判定された対話音声テキストと、当該受け答えの直前に他方の話者（例えば、オペレータ）により発話された、当該受け答えを促した、何に対する受け答えであるかを特定する対話音声テキストとが対となり、「受け答え」の種別が付与されて、一問一答形式の対話として対話音声テキストに含まれている。

要約文生成部７３は、この「受け答え」の種別が付与された対話音声テキストの対を重要語として取り扱い、各種変換テーブル３６を参照して、要約文用の文体に変換した上で、出力すべき要約文に付加する。例えば、「受け答え」の種別が付与された対話音声テキストが「発送は二三日後でよろしかったでしょうか（オペレータの問い）」と「はい（顧客の受け答え）」の対であるとする。この場合、要約文生成部７３は、この対話音声テキストの対から「二三日後の発送を了承」等に変換し、変換後のテキストを応対履歴における重要語（重要文）として出力すべき要約文に含める。

他の例として、「受け答え」の種別が付与された対話音声テキストが「ご注文の品は対話要約ｅＶ−Ｏｕｔｌｉｎｅでよろしいでしょうか（オペレータの問い）」と「はい、お願いします（顧客の受け答え）」の対であるとする。この場合、要約文生成部７３は、この対話音声テキストの対から「注文の品は対話要約ｅＶ−Ｏｕｔｌｉｎｅを確認」等に変換し、変換後のテキストを応対履歴における重要語（重要文）として出力すべき要約文に含める。

Ｓ１６で、要約生成サーバ７の感情解析部７４は、対話音声テキストに基づいて、対話の話者の感情解析処理を実行する。また、感情解析部７４は、要約生成部７３から感情解析サーバ６へのインターフェースを提供し、感情解析サーバ６に感情解析処理を実行させ、感情解析処理の実行結果を要約文生成部７３へ供給してもよい。あるいは感情解析サーバ６を別途設けることなく、感情解析部７４が要約文を生成すべき対話の話者の感情解析処理を実行してもよい。以下では、前者の感情解析サーバ６を使用して感情解析処理を実行する例を説明する。

感情解析処理は、対話音声データを使用した非言語的感情解析処理と、音声認識結果である対話音声テキストを使用した言語的感情解析処理とを含む。
前者の対話音声データに基づく感情解析処理において、感情解析部７４から呼び出された感情解析サーバ６は、通話録音サーバ３から供給される対話音声データを入力として、話者ごとに例えば、喜怒、満足度、ストレス度、信頼度等の話者の感情を数値化した定量的指標を話者の感情解析結果として出力する。

感情解析サーバ６が提供するこの感情解析処理は、話者の脳波の動きと声帯の動きとが連動するものであり、発話のプロセスにおいて人間は感情を制御することができず感情が声に現れるとの知見に基づくものである。このため、感情解析サーバ６は、話者の発話の言語に依存することなく、対話音声データから話者の感情を数値化することができる。
後者の対話音声テキストに基づく感情解析処理において、要約生成サーバ７の感情解析部７４は、音声認識サーバ５から供給される対話音声テキストを入力として、対話音声テキスト中の感情語を抽出し、感情語テーブル３７を参照して、要約文に含めるべき感情表現に変換する。

図２２は、感情解析サーバ６が、１つの通話単位の一方の話者（顧客）の対話音声データに対して、感情解析処理を実行した結果の非限定的出力例を示す。図２２を参照して、顧客（ＣＳ）の１通話中の顧客の感情の遷移が時系列上出力されている。図２２は、顧客からのクレーム対応で、通話中にオペレータが顧客を納得させた例を示す。図２２において、「喜怒」および「満足度」の感情指標は、中盤から後半にかけてともに数値が上昇しており、一方、「ストレス度」の感情指標は、中盤から後半にかけて数値が減少しており、１つの通話単位の中盤から後半にかけて、顧客の怒りおよびストレスが低下して不満が満足に転化しているとの感情の遷移を読み取ることができる。

また、図２２に例示される顧客の感情解析結果から、他方の話者であるオペレータの応対の品質を評価する指標を得ることができる。
例えば、通話の始めから「喜怒」の感情指標がマイナスで「怒り」が高いが、通話の最後には、「喜怒」の感情指標が０またはプラスに転化して「喜び」の傾向を示し、かつ「満足度」の感情指標も０またはプラスに転化して「満足」の傾向を示している場合、オペレータの応対履歴の評価は、優れた応対を示す「応対優良」としてよい。
ただし、通話の最後に、例えば顧客の「信頼度」の感情指標がマイナスで「不信」の傾向を示している場合、当該顧客の発話内容の信頼度が低いと評価することができるため、当該顧客の発言につき要注意であることを示す「顧客注意」を注記してもよい。

一方、通話の途中で突然「喜怒」の感情指標がマイナスに大きく転化するとともに「満足度」の感情指標もマイナスに大きく転化し、「怒り」かつ「不満」の傾向がその後も継続した場合、マイナス転化の直前のオペレータの発言が顧客の怒りや不満を誘発したと評価することができるため、当該オペレータの応対を確認することが必要であることを示す「応対注意」としてよい。
この場合も、通話の最後に、例えば顧客の「信頼度」の感情指標がマイナスで「不信」の傾向を示している場合、当該顧客の発話内容の信頼度が低いと評価することができるため、当該顧客の発言につき要注意であることを示す「顧客注意」を注記してもよい。
また、上記のような傾向が示されなかった場合には、妥当な応対であることを示す「応対通常」としてよい。

図２３は、感情解析サーバ６が、１つの通話単位の他方の話者（オペレータ）の対話音声データに対して、感情解析処理を実行した結果の非限定的出力例を示す。図２３は、顧客との通話でオペレータがストレスを感じている例を示す。図２３において、「ストレス度」の感情指標は、通話の始めから終わりにかけて数値が上昇しており、オペレータのストレスが高まっているとの感情の遷移を読み取ることができる。
この場合、例えば、前回までのストレス度の感情指標の数値の遷移と比較して今回の通話でのストレスが高まっている場合には、オペレータの評価指標を、当該オペレータのストレス状態を引き続き監視すべきであることを示す「応対注意」としてよい。

図２４は、ある期間内（１日、１週間等）における複数回（図２４では１５回）の通話間での感情の遷移を示す。図２４において、通話回数が増加するにつれて、オペレータの「ストレス度」の感情指標の平均数値が徐々に上昇しており、通話回数が増加するにつれて、オペレータのストレスが高まっているとの感情の遷移を読み取ることができる。
この場合、オペレータの評価指標を、当該オペレータの応対を中止させ、直ちにヒヤリングを実施すべきであることを示す「応対中止」としてよい。

図２５は、要約生成サーバ７の感情解析部７４が参照する感情語テーブル３７の非限定的一例を示す。図２５を参照して、感情語テーブル３７には、左欄に変換元の感情語（「まあいいか」、「それでいいよ。ありがとう」、「がっかりしたよ」、「大丈夫だよな」、「なんとかしろよ」、「いい加減にしろよ」等）が、右欄に変換先の感情表現（「渋々承諾」、「快諾」、「落胆」、「不安」、「不快」等）が、それぞれ定義されている。要約生成サーバ７の感情解析部７４は、対話音声テキストから、感情語テーブル３７に定義された変換元の感情語を検索し、検索された感情語を感情語テーブル３７に定義される対応する感情表現に変換する。これにより、対話音声テキスト中の感情語が簡潔な感情表現に変換される。

図２７は、図２５の感情語テーブル３７を参照して、感情解析部７４が音声認識結果である対話音声テキストから感情表現を組み入れた要約文を生成する非限定的一例を示す。図２６を参照して、感情解析部７４は、図２７上段の対話音声テキスト「機器を交換したけど、また壊れて、がっかりだよ」を、図２７下段の「機器交換したが故障し落胆」の要約文へ変換する。出力すべき要約文に音声認識結果である対話音声テキストから把握される感情表現を含めることができる。変換後の「落胆」の語が話者（顧客）の感情表現を示すものであり、出力される要約文に含められる。

一方、図２６は、感情解析サーバ７が対話音声データ（声色）から感情解析処理を実行して得られた感情表現を、要約文テキストに括弧書で付加した非限定的一例を示す。図２６を参照して、感情解析サーバ７は、図２６上段の対話音声テキスト「食品に虫が入っているんだよ」の基となった対話音声データに対して感情解析処理を実行し、例えば当該音声データの「信頼度」の感情指標がマイナスで「不信」の傾向を示している場合、当該顧客の発言につき要注意であることを示す「顧客注意」の感情表現を生成して、要約生成サーバ７の感情解析部７４を解して要約文生成部７３へ供給する。要約生成サーバ７の要約文生成部７３は、図２６上段の対話音声テキストから生成された図２６下段の要約文「食品に虫が混入」に、感情解析サーバ６から供給された「顧客注意」を括弧書で付加する。
上記のように、生成される要約文に話者の感情表現を反映させることにより、話者の感情遷移の状況把握や、対策を取るべき問題通話の自動抽出が容易に可能となる。

図６に戻り、要約生成サーバ７の要約生成部７３は、Ｓ１７で、上記のような感情解析結果を用いて、図２７に示すように、要約文中の感情語からより端的でカテゴライズされた感情表現に置き換え、および図２６に示すように、出力すべき要約文に付加する。
Ｓ１８で、要約文生成部７３または要約文短縮部７５は、最終的に生成された要約文を要約文テキスト３８のファイルへ出力する。

図２８ないし図３０を参照して、音声認識サーバ５が出力する要約単位に区切られた対話音声テキストから最終的に出力される要約文を生成するまでの抽出変換処理の一例を説明する。
図２８は、音声認識サーバ５が出力し、要約生成サーバ７に入力される１つの通話単位の対話音声テキストの非限定的一例を示す。図２８の対話音声テキストは、識別された話者（オペレータ（ＯＰ）または顧客（ＣＳ））ごとに、各行に１つの発話単位の対話音声テキストが示されており、各行の対話音声テキストは、四角で示される要約単位の区切りが挿入されている。
図２９は、図２８に示す対話音声テキストから、要約生成サーバ７の要約文生成部７３が中間的に出力する要約文テキストの非限定的一例を示す。図２９に示すように、図２８の２０発話単位のテキストから、６発話単位のテキスト（３番目、６番目、９番目、１１番目、１４番目、および１５番目の発話単位のテキスト）が抽出されるとともに、抽出された発話単位のテキストのそれぞれが、要約文用のより簡潔なテキストに変換されている。要約文生成部７３は、重要語テーブル３４、不要語テーブル３５、および各種変換テーブル３６を参照することにより、図２８の１通話全体の対話音声テキストから図２９の中間的要約文テキストに変換する。

図３０は、図２９の中間的に出力する要約文テキストから、要約文生成部７３ないし要約文短縮部７５が最終的に出力する要約文テキストの非限定的一例を示す。図３０に示すように、図２９で抽出され変換された６発話単位のテキストから、５行の要約文が生成されており、各要約文の末尾は体言止めの「希望」、「確認」等に変換されている。特に、図２９の５行目のオペレータの発話（問い）と６行目の顧客の発話（受け答え）との対は、図３０において、「作成し郵送するので二三日待つ事を快諾」と１つの要約文に集約されている。要約文生成部７３は、重要語テーブル３４や各種変換テーブル３６を参照することにより、応対履歴として機能する図３０の最終的に出力される要約文テキストを生成する。図３０の５行目の要約文の文末は、上記の感情解析処理を適用して、話者（顧客）の感情表現を反映した「快諾」に変換されている。

図３１は、図２８の対話音声テキストを照会した結果表示装置等に出力されるユーザインタフェースの非限定的一例を示す。図３１を参照して、ユーザインタフェースは、識別された話者３１１、発話単位の応対内容３１２、再生ボタン３１３、および話者の感情解析結果アイコン３１４を含んでよい。所望する発話に対応する再生ボタン３１３を選択することにより、当該発話の音声ファイルが再生される。
図３２は、感情解析結果として、図３１で照会された通話単位についての、話者ごとの感情指標について、感情指標の数値から得られる感情解析結果が、「喜怒」が「通常」、満足感が「普通」ないし「やや高い」、ストレスが「なし」、「若干あり」等と示されている。図３１と図３２は同時に視認可能に表示装置上表示されてよい。

図３３は、１通話単位（録音時間１．２５．７１６）について話者識別された発話単位の対話音声の音声認識結果、対応するユーザ辞書等を参照した自然言語処理結果、および音声ファイルのリンク、開始および終了時間を一覧で示す非限定的表示例である。図３３左下にあるように、当該通話単位について生成された要約文が表示されており、各処理結果と要約文との間の相互参照を容易にしている。図３３のユーザインタフェースは、音声ファイルを再生した後、音声認識結果や自然言語処理結果を、ユーザにエラー訂正させるべく、編集可能に表示してもよい。
また、図３３左下の生成された要約文には、対話において最終的に「サクサファンドの目論見書をインターネットで見ることを了承」したことが示されているが、当該要約文部分のうち「了承」に対して、複数の感情指標の数値から得られる感情解析結果を、例えば、「了承（快諾）」または「了承（渋々承諾）」のように括弧書等で付加してもよく、「了承」を「快諾」ないし「渋々承諾」等の感情解析結果を含む表現で置き換えてもよい。
本実施形態によれば、このように対話録音データ、対話音声の音声認識結果、自然言語処理結果、感情解析結果、および生成された要約文を統合して出力することができる。

（各装置のハードウエア構成の一例）
図３４は、音声処理システムにおける各装置が備えるハードウエア構成の一例を示す図である。音声取得サーバ２、通話録音サーバ３、制御サーバ４、音声認識サーバ５、感情解析サーバ６、要約生成サーバ７、およびＰＣ９，１０は、図３４に示すハードウエアコンポーネントの全部又は一部を備える。図３４に示す各装置１００は、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、外部メモリ１０４、入力部１０５、表示部１０６、通信Ｉ／Ｆ１０７及びシステムバス１０８を備えてよい。

ＣＰＵ１０１は、装置における動作を統括的に制御するものであり、システムバス１０８８を介して各構成部（１０２〜１０７）を制御する。ＣＰＵ１０１は音声認識処理、要約生成処理または感情解析処理等の各処理を実行する処理部として機能する。ＲＯＭ１０２は、ＣＰＵ１０１が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは外部メモリ１０４や着脱可能な記憶媒体（図示せず）に記憶されていてもよい。ＲＡＭ１０３は、ＣＰＵ１０１の主メモリ、ワークエリア等として機能する。よって、ＣＰＵ１０１は、処理の実行に際してＲＯＭ１０２から必要なプログラム等をＲＡＭ１０３にロードし、当該プログラム等を実行することで各種の機能動作を実現する。

外部メモリ１０４は例えば、ＣＰＵ１０１がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶する。また、外部メモリ１０４には例えば、ＣＰＵ１０１がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。入力部１０５はキーボード、タブレット等各種入力デバイスから構成される。表示部１０６は例えば液晶ディスプレイ等からなる。通信Ｉ／Ｆ１０７は、外部装置と通信するためのインターフェースであり、例えば無線ＬＡＮ（Ｗｉ−Ｆｉ）インターフェースやＢｌｕｅｔｏｏｔｈ（登録商標）インターフェースを備える。システムバス１０８は、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、外部メモリ１０４、入力部１０５、表示部１０６及び通信Ｉ／Ｆ１０７を通信可能に接続する。

以上説明したように、本実施形態によれば、対話音声から、十分に短縮化され、かつ対話の重要要素が欠落することが有効に防止された高精度な要約文を生成することができる。よって、対話音声の要約の有用性向上に資する。
なお、上述した各実施形態は、その複数を組み合わせて実現することが可能である。
また、本発明は、上述の実施形態の一部または１以上の機能を実現するプログラムによっても実現可能である。すなわち、そのプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータ（またはＣＰＵやＭＰＵ等）における１つ以上のプロセッサがプログラムを読出し実行する処理により実現可能である。また、そのプログラムをコンピュータ可読な記録媒体に記録して提供してもよい。
また、コンピュータが読みだしたプログラムを実行することにより、実施形態の機能が実現されるものに限定されない。例えば、プログラムの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム（ＯＳ）などが実際の処理の一部または全部を行い、その処理によって上記した実施形態の機能が実現されてもよい。

以上、本発明の実施形態について詳細に説明したが、上記実施形態は、本発明を実施するにあたっての具体例を示したに過ぎない。本発明の技術的範囲は、前記実施形態に限定されるものではない。本発明は、その趣旨を逸脱しない範囲において種々の変更が可能であり、それらも本発明の技術的範囲に含まれる。

１ＰＢＸ
２音声取得サーバ
３通話録音サーバ
４制御サーバ
５音声認識サーバ
６感情解析サーバ
７要約生成サーバ
８構内回線
９、１０ＰＣ
３１対話音声
３２音声認識辞書
３３要約単位テキスト
３４重用語テーブル
３５不要語テーブル
３６変換テーブル
３７感情語テーブル
５１音声認識前処理部
５２音声認識部
５３音声認識後処理部
５４相槌解析部
７１テキスト補正部
７２冗長性排除部
７３要約文生成部
７４感情解析部
７５要約文短縮部

Claims

対話音声データから対話の話者を識別する話者識別部と、
前記話者識別部により識別された話者ごとに、前記対話音声データを発話単位に分離する音声分離部と、
前記対話音声データを、前記音声分離部により分離された前記発話単位で音声認識して対話音声テキストを生成する音声認識部と、
前記音声認識部により生成された前記対話音声テキストを要約して要約文テキストを生成する要約生成部と、
第１の話者の前記対話音声テキストから所定時間長内の短い発話を検出し、検出された前記短い発話中の、第２の話者の前記対話音声データの発話単位が短い無音区間を含む場合に、前記第１の話者の前記短い発話が受け答えであると判定し、受け答えと判定された前記短い発話を、前記要約生成部により生成された前記要約文テキストに付加する受け答え判定部と、
を備えることを特徴とする対話要約生成装置。
前記音声分離部は、前記対話音声データから、第１の閾値以上の時間長の無音区間を検出し、前記無音区間で区切られた有音区間を前記発話単位として分離する、
ことを特徴とする請求項１に記載の対話要約生成装置。
前記受け答え判定部は、検出された前記短い発話に対応する前記第２の話者の前記対話音声データの発話単位中に、前記第１の閾値より小さい第２の閾値以上の時間長の無音区間が検出できるか否かを判定し、前記第２の閾値以上の時間長の前記無音区間が検出できる場合に、前記第１の話者の前記短い発話を、前記受け答えと判定する、
ことを特徴とする請求項２に記載の対話要約生成装置。
前記受け答え判定部は、検出された前記短い発話が受け答えであると判定した場合に、前記短い発話に対応する第２の話者の前記対話音声データの発話単位を前記無音区間の前後で分離し、分離された前記無音区間の直前の発話区間の対話音声データを音声認識して得られた対話音声テキストと、受け答えと判定された前記短い発話とを対にして、前記要約文テキストに付加する、
ことを特徴とする請求項３に記載の対話要約生成装置。
前記受け答え判定部は、前記受け答えでないと判定された前記第１の話者の前記短い発話を相槌と判定し、判定された前記相槌を前記要約生成部に入力すべき前記対話音声テキストから削除する、
ことを特徴とする請求項１から４のいずれか１項に記載の対話要約生成装置。
前記音声認識部により生成された前記対話音声テキストを解析して複数の要素に区切り、区切られた複数の要素で名詞が連続するか否かを判定し、名詞が連続すると判定された複数の要素を結合して１つの要約単位を生成し、生成された要約単位で、前記要約生成部へ前記対話音声テキストを供給する音声認識後処理部をさらに備える、
ことを特徴とする請求項１から５のいずれか１項に記載の対話要約生成装置。
前記音声認識後処理部は、生成された前記要約単位のそれぞれに重みと種別を付与する、
ことを特徴とする請求項６に記載の対話要約生成装置。
通話音声または対面での対話音声を録音して前記対話音声データを取得する音声取得部をさらに備える、
ことを特徴とする請求項１から７のいずれか１項に記載の対話要約生成装置。
話者識別部と、音声分離部と、音声認識部と、要約生成部と、および受け答え判定部とを備える対話要約生成装置が実行する対話要約生成方法であって、
前記話者識別部が、対話音声データから対話の話者を識別するステップと、
前記音声分離部が、識別された話者ごとに、前記対話音声データを発話単位に分離するステップと、
前記音声認識部が、前記対話音声データを、分離された前記発話単位で音声認識して対話音声テキストを生成するステップと、
前記要約生成部が、生成された前記対話音声テキストを要約して要約文テキストを生成するステップと、
前記受け答え判定部が、第１の話者の前記対話音声テキストから所定時間長内の短い発話を検出し、検出された前記短い発話中の、第２の話者の前記対話音声データの発話単位が短い無音区間を含む場合に、前記第１の話者の前記短い発話が受け答えであると判定し、受け答えと判定された前記短い発話を、前記要約生成部により生成された前記要約文テキストに付加するステップと、
を含むことを特徴とする対話要約生成方法。
対話要約生成処理をコンピュータに実行させるための対話要約生成プログラムであって、該プログラムは、前記コンピュータに、
対話音声データから対話の話者を識別する話者識別処理と、
識別された話者ごとに、前記対話音声データを発話単位に分離する音声分離処理と、
前記対話音声データを、分離された前記発話単位で音声認識して対話音声テキストを生成する音声認識処理と、
生成された前記対話音声テキストを要約して要約文テキストを生成する要約生成処理と、
第１の話者の前記対話音声テキストから所定時間長内の短い発話を検出し、検出された前記短い発話中の、第２の話者の前記対話音声データの発話単位が短い無音区間を含む場合に、前記第１の話者の前記短い発話が受け答えであると判定し、受け答えと判定された前記短い発話を、前記要約生成処理により生成された前記要約文テキストに付加する受け答え判定処理と、を含む処理を実行させるためのものである、
ことを特徴とする対話要約生成プログラム。