JP2017111190A

JP2017111190A - 対話テキスト要約装置及び方法

Info

Publication number: JP2017111190A
Application number: JP2015243243A
Authority: JP
Inventors: 藤田　雄介; Yusuke Fujita; 雄介藤田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2015-12-14
Filing date: 2015-12-14
Publication date: 2017-06-22
Anticipated expiration: 2035-12-14
Also published as: JP6604836B2; US20170169822A1

Abstract

【課題】対話構造を利用して単語単位で対話テキストを読み易く訂正する要約技術を提供する。
【解決手段】対話テキスト要約装置は、対話形式のテキストから認識された単語と、前記単語の時系列情報と、前記単語の発言者を識別する識別情報とをデータベースから取得する認識結果取得部と、前記単語と前記単語の時系列情報と前記識別情報と要約モデルに基づいて前記単語を訂正し、訂正結果を前記データベースに出力するテキスト要約部とを有する。
【選択図】図１

Description

本発明は、対話形式のテキスト又はメッセージ（以下、「対話形式のテキスト」又は「対話テキスト」という。）を自動的に要約する技術に関する。

顧客からの問い合わせ等に対応するコールセンタの多くでは、オペレータと顧客の間で交わされた通話の内容を通話録音装置に録音している。今日、通話録音データベースに録音される音声情報のサイズは年々増加している。現在、録音された音声情報を自動的にテキスト化し、コールセンタ業務の品質や効率の向上に繋げようとする考えがある。

しかし、自動でテキスト化されたデータは、人間にとって読みづらいという問題がある。その要因として、認識精度が不十分である点と、重要な箇所のみを要約してテキスト化することが困難であるという点が挙げられる。

特許文献１の要約には、「対話内容から１つ以上の重要文を抽出して要約データを生成する対話要約システム１であって、対話内容における各ステートメントの情報、および各ステートメントについての重要度を示すスコアの情報と、話者毎の連続したステートメントを単位とするブロックの情報とを有する対話構造データ１４に基づいて、所定の要約条件を満たすまで、スコアが最も高いステートメントを重要文として対話構造データ１４から抽出し、重要文を抽出した第１のブロックおよびその近辺の第２のブロックに対して所定のスコアを割り当て、第１および第２のブロックに含まれる各ステートメントのスコアに対して所定のスコアを所定の条件に従って割り当てて加算する重要文抽出部１３を有する」対話要約システムが記載されている。以下では、この技術を「従来の方法」という。

特開２０１３−１２０５１４号公報

前述したように、従来の方法は、文章単位（ブロック単位）で重要度を決定して要約する手法であり、単語単位での重要度の決定は想定されていない。また、従来の方法は、仮に単語単位で重要度を決定できたとしても、対話の構造に基づいて単語単位の重要度を決定することは想定されていない。

対話の構造に基づいて単語単位の重要度を決定する機能は、例えば以下のような場面のテキストを要約する場合に有用になる、と発明者は考える。
・場面１：相手が話し続けている状態での相槌
このような場面での相槌は重要度が低く削除した方が読みやすいテキストになる。
・場面２：相手方の発言を受けての相槌や返しの発言
このような発言は重要度が高く、積極的に残すことが望まれる。
・場面３：「なるほど」と顧客から言われた直前のオペレータの発言
このような発言は重要度が高く、積極的に残すことが望まれる。
・場面４：重要単語を含む発言でも認識誤りがある場合
顧客側の誤りをオペレータが復唱して正している場合は、誤った発言を削除してしまった方が読みやすいテキストとなる。

そこで、本発明者は、対話構造を利用して単語単位で対話テキストを読み易く訂正する要約技術を提供する。

上記課題を解決するために、本発明は、例えば特許請求の範囲に記載の構成を採用する。本明細書は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、「対話形式のテキストから認識された単語と、前記単語の時系列情報と、前記単語の発言者を識別する識別情報とをデータベースから取得する認識結果取得部と、前記単語と前記単語の時系列情報と前記識別情報と要約モデルに基づいて前記単語を訂正し、訂正結果を前記データベースに出力するテキスト要約部と、を有する対話テキスト要約装置」を特徴とする。

本発明によれば、対話形式のテキストを単語単位で自動的に訂正した読み易い要約を作成することができる。前述した以外の課題、構成及び効果は、以下の実施の形態の説明により明らかにされる。

実施例１のシステム構成を示すブロック図。テキスト要約動作の概要を示すフローチャート。通話録音ＤＢのデータ構造例を示す図。通話認識結果ＤＢのデータ構造例を示す図。テキスト要約部による単語訂正の例を示す図。要約モデルの構造例を示す図。通話可視化動作を説明するフローチャート。結果表示画面で要約表示が選択された場合の表示例を示す図。結果表示画面で要約表示が選択されなかった場合の表示例を示す図。実施例２のシステム構成を示すブロック図。実施例２におけるテキスト要約動作を説明する図。

以下、図面に基づいて、本発明の実施の形態を説明する。なお、本発明の実施の態様は、後述する実施例に限定されるものではなく、その技術思想の範囲において、種々の変形が可能である。

（１）実施例１
（１−１）システム構成
図１に、本実施例に係る通話録音認識要約システムの全体構成を示す。当該システムは、顧客電話機１００、オペレータ電話機２００、通話録音認識要約装置３００、通話録音可視化端末装置４００で構成される。顧客電話機１００は顧客が使用する電話機であり、例えば固定電話機、携帯電話機、スマートフォンなどである。オペレータ電話機２００は、コールセンタのオペレータが使用する電話機である。図１では、顧客電話機１００とオペレータ電話機２００が各１台の例を示しているが、各電話機は複数台であってよい。

通話録音認識要約装置３００は、オペレータと顧客の間で交わされた音声情報を自動的にテキスト化する機能と、テキスト化により作成された対話テキストの要約を自動的に作成する機能と、要求に応じて対話テキストの要約を提供する機能とを提供する。多くの場合、通話録音認識要約装置３００はサーバとして実現される。例えば通話録音認識要約装置３００の構成要素のうちデータベースを除く機能部は、コンピュータ（CPU、RAM、ROM等）上で実行されるプログラムを通じて実現される。

通話録音可視化端末装置４００は、要約された対話テキストを可視化する際に使用する端末である。通話録音可視化端末装置４００は、モニタを有する端末であればよく、例えばデスクトップコンピュータ、ラップトップコンピュータ、スマートフォンなどである。図１では、通話録音可視化端末装置４００が１台の例を示しているが、複数台あってもよい。

本実施例の場合、オペレータ電話機２００、通話録音認識要約装置３００及び通話録音可視化端末装置４００は単一のコールセンタ内に配置される。もっとも、オペレータ電話機２００、通話録音認識要約装置３００及び通話録音可視化端末装置４００の構成要素の全てが単一のコールセンタ内に存在するとは限らず、複数の拠点や複数の事業者に分散される形態も考えられる。

通話録音認識要約装置３００は、通話録音部１１と、発言者識別部１２と、通話録音ＤＢ１３と、通話録音取得部１４と、音声認識部１５と、通話認識結果ＤＢ１６と、通話認識結果取得部１７と、テキスト要約部１８と、要約モデル１９と、クエリ受付部２２と、通話検索部２３と、結果送信部２４とを備えている。図１は、通話録音認識要約装置３００を構成する全ての機能部が単一の事業者の管理下にある場合を想定している。

通話録音部１１は、顧客電話機１００とオペレータ電話機２００との間で送受信される音声（通話）を取得し、通話毎に音声ファイルを作成する。通話録音部１１は、例えばＩＰ電話に基づく既知の録音システムを通じて該当する機能を実現する。通話録音部１１は、個々の音声ファイルに録音時刻、内線番号、相手先の電話番号などを紐づけて管理する。発言者識別部１２は、紐づけ情報を利用して、音声の発言者（送信者か受信者か）を識別する。すなわち、発言者がオペレータか顧客かを識別する。通話録音部１１と発言者識別部１２は、１つの通話から、送信側の音声ファイルと受信側の音声ファイルを作成し、通話録音データベース（ＤＢ:data base）１３に保存する。通話録音ＤＢ１３は大容量のストレージ装置又はシステムであり、記録媒体はハードディスク、光ディスク、磁気テープ等で構成される。通話録音ＤＢ１３は、DAS(Direct Attached Storage)、NAS(Network Attached Storage)、SAN(Storage Area Network)として構成されてもよい。

通話録音取得部１４は、通話毎に音声ファイル（送信者の音声ファイルと受信者の音声ファイル）を通話録音ＤＢ１３から読出し、音声認識部１５に与える。音声ファイルの読出しは、通話中（リアルタイム）に、又は、通話終了後の任意のタイミングに実行される。本実施例では、音声ファイルの読出しは、通話中（リアルタイム）に実行されるものとする。音声認識部１５は、２つの音声ファイルの内容を音声認識してテキスト情報に変換する。音声認識には公知の技術を使用する。ただし、後段で実行される要約処理を考慮すると、テキスト情報を単語単位で時系列に出力できる音声認識技術が望ましい。音声認識結果は、通話認識結果ＤＢ１６に登録される。通話認識結果ＤＢ１６も大容量のストレージ装置又はシステムであり、通話録音ＤＢ１３と同様の媒体や形態として実現される。なお、通話録音ＤＢ１３と通話認識結果ＤＢ１６は同じストレージ装置又はシステムの異なる記憶領域として管理されてもよい。

通話認識結果取得部１７は、通話認識結果ＤＢ１６から録音ＩＤに紐づけられている通話認識結果を取得して単語の出現時刻順にソートする。ここでのソートにより、１つの録音ＩＤに対して発言者ＩＤが付与された単語の時系列が得られる。テキスト要約部１８は、通話認識結果取得部１７が作成した単語の時系列を入力すると、要約モデル１９を適用し、単語単位でテキストを要約する。本実施例の場合、要約モデル１９として、リカレントニューラルネットワークを想定する。テキスト要約部１８による要約は、単語単位での訂正処理を伴う。単語単位の訂正情報は、テキスト要約部１８から通話認識結果ＤＢ１６にフィードバックされる。結果的に、通話認識結果ＤＢ１６には、前述した１つの録音ＩＤに対して発言者ＩＤが付与された単語の時系列に、単語単位の訂正情報が紐付けられて保存される。

クエリ受付部２２は、通話録音可視化端末装置４００からクエリを受け付ける処理を実行する。クエリには、録音ＩＤの他、要約表示の実行の有無等が含まれてもよい。通話検索部２３は、クエリによって特定された録音ＩＤに基づいて、発言者毎の単語の時系列を通話認識結果ＤＢ１６から読み出す。結果送信部２４は、読み出した発言者毎の単語の時系列を通話録音可視化端末装置４００に送信する。

通話録音可視化端末装置４００は、クエリの入力を受け付けるクエリ送信部２１と、対話テキストを可視化する結果表示部２５とを有している。通話録音可視化端末装置４００はモニタを有し、クエリに入力や対話テキストの表示はモニタの画面上に表示されるインタフェース画面を通じて実行される。

（１−２）テキスト要約動作
図２に、通話録音認識要約装置３００で実行されるテキスト要約動作の概要を示す。まず、通話録音部１１が、顧客電話機１００とオペレータ電話機２００の間で送受信される音声（通話）を取得し、通話毎に音声ファイルを作成する（ステップＳ２０１）。前述したように、音声ファイルには、録音時刻、内線番号、相手先の電話番号などが紐づけられる。発言者識別部１２は、この紐づけ情報を利用して音声の発言者（送信者か受信者か）を識別する（ステップＳ２０２）。通話録音部１１および発言者識別部１２は、１つの通話から送信側の音声ファイルと受信側の音声ファイルを作成し、通話録音ＤＢ１３に保存する（ステップＳ２０３）。

図３に、通話録音ＤＢ１３のデータ構造例を示す。通話録音ＤＢ１３には、１つの通話に対して、録音ＩＤ、内線番号、電話番号、録音時刻、ファイル名、各ファイルのパスなどの情報が記録される。内線番号によってオペレータ電話機２００が特定され、電話番号によって顧客電話機１００が特定される。

図２の説明に戻る。次に、通話録音取得部１４は、通話録音ＤＢ１３から、録音された音声ファイルとして２つの音声ファイルを取得し、音声認識部１５に与える（ステップＳ２０４）。音声認識部１５は、音声認識技術を用いて２つの音声ファイルの内容をテキスト情報に変換する（ステップＳ２０５）。さらに、音声認識部１５は、音声認識結果であるテキスト情報を単語単位で通話認識結果ＤＢ１６に登録する（ステップＳ２０６）。

図４に、通話認識結果ＤＢ１６のデータ構造例を示す。通話認識結果ＤＢ１６は、音声区間テーブル４０１と通話認識結果テーブル４０２を備えている。音声区間テーブル４０１には、通話録音ＤＢ１３の録音ＩＤ、発言者ＩＤ（本実施例の場合、送信側は“Ｏ”、受信側は“Ｃ”である。）、音声区間の開始時刻、終了時刻が記録される。ここでの音声区間は、音声認識部１５による音声ファイルの処理結果として検出された呼気段落の開始と終了を単位として記録される。通話認識結果テーブル４０２には、録音ＩＤ、発言者ＩＤ、単語、単語の出現時刻が記録される。音声認識部１５による情報の記録時には、訂正後単語の欄は空白である。

図２の説明に戻る。次に、通話認識結果取得部１７は、通話認識結果ＤＢ１６から通話認識結果を取得する（ステップＳ２０７）。具体的には、通話認識結果取得部１７は、新たに録音された録音ＩＤに紐づけられている通話認識結果を通話認識結果テーブル４０２から取得し、取得された単語を出現時刻順にソートする。ここでのソートにより、１つの録音ＩＤに対して発言者ＩＤが付与された単語の時系列が得られる。得られた単語の時系列は、テキスト要約部１８に入力される。テキスト要約部１８は、単語の時系列を入力すると、要約モデル１９を適用し、単語単位でテキストを要約する（ステップＳ２０８）。

図５に、テキスト要約部１８による単語訂正の例を示す。テキスト要約部１８は、単語毎に訂正の必要性を評価し、その結果を出力する。テキスト要約部１８は、例えば訂正の必要がある場合には訂正後の単語を出力し、削除の必要がある場合には「ＤＥＬＥＴＥ」を出力し、訂正の必要が無い場合には空白や特定の符号等を出力する。図５では、訂正の必要性が無いこと空白で表している。

図５に示すように、同じ単語「はい」であっても、顧客（発言者ＩＤが“Ｃ”）の発言中にオペレータ（発信者ＩＤが“Ｏ”）が行った相槌と捉えられる場合は削除され、相手の発言が終了した後の相槌と捉えられる場合には残されている。また、「あのー」や、「はい」の後に出現する「そうです」などの読み易さを妨げる単語は削除されている。また、前後の文脈の判断に基づいて「ません」が「ます」に訂正されている。さらに、顧客の発言のうち認識誤りと判定されたテキスト（例えば「日立製削除で」）については削除している。本実施例では、このように単語単位の削除や訂正を、発言者ＩＤ及び時系列の文脈に基づいて行い、認識結果の読み易さを向上させている。

本実施例の場合、要約モデル１９には、リカレントニューラルネットワークを使用する。図６に、リカレントニューラルネットワークの構成例を示す。以下、図６に基づいて、リカレントニューラルネットワークによる処理概要を説明する。入力層には、ｉ番目の単語を表現するベクトルｘ（ｉ）と発言者ＩＤを表現する値ｄ（ｉ）とが与えられる。隠れ層の出力ｓ（i）は、ｉ−１番目の隠れ層の出力ｓ（ｉ−１）と、入力層に与えられるｉ番目の単語を表現するベクトルｘ（ｉ）と、同じく入力層に与えられる発言者ＩＤを表現するｄ（ｉ）と、入力重み行列Ｕと、シグモイド関数σ（・）を用いて次式で表わされる。
ｓ（ｉ）＝ σ（Ｕ[ｘ（ｉ）ｄ（ｉ）ｓ（ｉ−ｉ）]） …（式１）

出力層の出力ｙ（ｉ）は、隠れ層の出力ｓ（ｉ）と、出力重み行列Ｖと、ソフトマックス関数ｓｏｆｔｍａｘ（・）を用いて次式で表わされる。
ｙ（ｉ）＝ｓｏｆｔｍａｘ（Ｖｓ（ｉ）） …（式２）

このように計算された出力ｙ（ｉ）を、ｉ番目の単語の訂正後の単語を表現するベクトルとする。ここで、入力重み行列Ｕと出力重み行列Ｖとは、学習によって事前に求めておく。このような学習は、入出力関係の正解を多数与えておけば、例えば通時的誤差逆伝播法などを用いて実現できる。ここで、入出力関係の正解を、音声認識結果の単語系列と、それを人間が要約した結果の単語系列とを用いて作成しておくことで、適切な要約モデルができる。実際には、このような正解の中には、冗長な単語の削除、認識誤り単語の訂正、文脈を考慮した不要文の削除などが混在することになるが、リカレントニューラルネットワークによる要約モデルではこれらを同じ枠組みで動作させることが可能となる。

なお、要約モデル１９には、前述したリカレントニューラルネットワーク以外の仕組みを採用することもできる。例えば該当単語と、その前後に出現する単語と、それぞれの発言者ＩＤとが予め定めた条件に合致する場合に訂正又は削除を指定するようなルールベースの仕組みを採用してもよい。また、要約モデル１９は、リカレントニューラルネットワークのように時系列の履歴を考慮する方法でなくともよい。例えば削除すべき単語か否かの判定用として、前後の単語や発言者ＩＤから構成した特徴量に基づいて、条件付き確率場等の識別モデルを用いてもよい。

（１−３）通話可視化動作
図７に、通話可視化時に実行される一連の動作を示す。通話可視化動作は、通話録音可視化端末装置４００を起点に開始される。まず、クエリ送信部２１が、インタフェース画面を通じて受け付けた所望の録音ＩＤをクエリとして通話録音認識要約装置３００に送信する（ステップＳ７０１）。ただし、録音ＩＤは、通話録音ＤＢ１３へのアクセスなどの別の手法により事前に取得され、選択可能にユーザに対して提示されるものとする。

クエリ受付部２２は、クエリ送信部２１が送信したクエリを受け付けて通話探索部２３に与える（ステップＳ７０２）。通話検索部２３は、クエリ受付部２２が受け付けたクエリに含まれる録音ＩＤに基づいて通話認識結果ＤＢ１６を検索し、該当する音声区間の情報と認識結果の情報にアクセスする（ステップＳ７０３）。ここでは、音声区間テーブル４０１と通話認識結果テーブル４０２の両方を検索結果として結果送信部２４に出力とする。結果送信部２４は、通話検索部２３が出力する検索結果を通話録音可視化端末装置４００に送信する（ステップＳ７０４）。結果表示部２５は、受信した検索結果をモニタに表示する（Ｓ７０５）。

図８に、結果表示画面８０１の例を示す。録音ＩＤ欄８０２には、検索された録音ＩＤが表示される。なお、録音ＩＤ欄８０２は、クエリを受け付ける際の録音ＩＤの入力にも用いられる。検索ボタン８０３が画面上でクリックされると、録音ＩＤ欄８０２に入力された録音ＩＤを一部とするクエリが通話録音認識要約装置３００に送信される。要約表示チェックボックス欄８０４は、要約表示の選択用である。図８では、要約表示チェックボックス欄８０４にチェックが入っている。この場合、結果表示部２５は、訂正結果を反映した対話テキストを表示する。この表示が要約表示である。

結果表示部２５は、まず、検索結果に基づき、顧客（発言者ＩＤが“Ｃ”）の音声区間を意味する矩形を左側に、オペレータ（発言者ＩＤが“Ｏ”）の音声区間を意味する矩形を右側に配置する。各矩形の中には、同じ音声区間内で発言されている単語を順に配置する。矩形内に単語を配置する際に、訂正後単語が「ＤＥＬＥＴＥ」となっている場合、結果表示部２５は、該当する単語を表示しない。訂正後単語が空白以外の場合、結果表示部２５は、該当する単語の代わりに訂正後単語を表示する。

訂正後の音声区間内に単語が存在しなくなる場合や相手の音声区間に全て包含されている場合は相槌と考えられるため、結果表示部２５は、矩形自体を削除する。また、相手の音声区間に包含されていない場合、認識誤りを削除した結果と考えられるため、結果表示部２５は、「・・・」のように、発言はあるが認識出来なかったことを意味する表示に置き換える。各矩形は時間順に高さ（行）を代えて表示される。このように単語単位で要約した結果、読み易い表示が得られる。なお、訂正箇所の存在を該当するテキストのハイライト表示、フォントサイズの変更、フォント色の変更、修飾の付加等によって明示しても良い。ここで、結果表示画面８０１の表示内容やレイアウトは結果送信部２４が作成して結果表示部２５に送信してもよい。

図９に、要約表示チェックボックス欄８０４にチェックが入っていない場合、すなわち検索結果を要約表示しない場合の例を示す。この場合、テキスト要約前の原文をそのまま表示することも可能であるが、図９の例では、訂正結果の内容を確認可能に表示する例を表している。例えば要約により「ＤＥＬＥＴＥ」となる単語集合を括弧で括った上、小さな文字で表示する。このような表記を採用することで、ユーザは、該当する記載部分を必要な際には読むが、不要な際には簡単に読み飛ばすことができる。また、訂正前後の単語を括弧で括って表示することとし、更に訂正前の単語は小さい文字で表示することにより、どのような訂正がなされたのかが明らかとなる。このような表示は、主として、音声全体を聞きながら評価するような際に有効である。例えば、要約によって削除されたしまった単語付近に頭出しして再生したいというケースで有効である。なお、図８と図９を同じ画面上に並列表示してもよい。

（１−４）実施例の効果
以上説明したように、本実施例に係る通話録音認識要約システムでは、対話テキストを単語レベルに分割した後、通話録音の対話の構造（具体的には、各単語の発言者を識別する情報と単語の時系列情報）を利用して、単語単位でテキストを訂正した要約を作成することができる。この結果、従来の方法に比して読み易い対話テキストの要約を作成することができる。

例えば相手が話し続けている状態での相槌や認識誤りのあるテキストを削除することができる。また、相手方の発言を受けての相槌や返しの発言や「なるほど」と顧客から言われた直前のオペレータの発言のように重要度の高い発言は積極的に残すことができる。その結果、重要度の高い単語を残しながらも読み易い要約を作成できる。また、本実施例では、要約表示するか否かの選択が可能であり、必要に応じて要約された内容を確認することができる。

（２）実施例２
実施例１では、通話の録音と同時に、音声認識と要約処理とを一つの装置内で実施する場合について述べたが、本実施例では、利用者の要求に応じて必要な通話録音の音声認識と要約処理を実行し、その結果を可視化する通話録音認識要約システムについて説明する。

図１０に、本実施例に係る通話録音認識要約システムの全体構成を示す。当該システムの場合、通話録音認識要約装置３００は、通話録音装置３０１、通話認識装置３０２、通話要約装置３０３に分割されている。通話録音装置３０１は、通話録音部１１と、発言者識別部１２と、通話録音ＤＢ１３とを備える。通話認識装置３０２は、通話録音取得部１４と、音声認識部１５と通話認識結果ＤＢ１６とを備える。通話要約装置３０３は、通話認識結果取得部１７と、テキスト要約部１８と、要約モデル１９と、クエリ受付部２２と、通話検索部２３と、結果送信部２４とを備える。通話録音装置３０１、通話認識装置３０２、通話要約装置３０３は、同一の拠点に配置されてもよいし、複数の拠点に分散して配置されてもよい。また、通話録音装置３０１、通話認識装置３０２、通話要約装置３０３は、それぞれ異なる事業者が管理運営してもよい。

図１１に、本実施例におけるテキスト要約動作を説明する。図１１に示すように、テキスト要約動作は、録音動作と通話可視化動作（音声認識動作、要約動作）で構成される。すなわち、本実施例では、通話可視化のクエリを受け付けた後に、音声認識（ステップＳ１１０１）と要約（ステップＳ１１０２）を実行する。このため、図２のステップＳ２０４〜Ｓ２０９の処理が通話可視化動作内で実行される。なお、個々の動作ステップで実行される動作の内容は、実施例１と同等である。

本実施例の場合、音声認識動作Ｓ１１０１は、全ての録音ＩＤについて実行するのではなく、通話可視化動作において受け付けたクエリに含まれる録音ＩＤに対してのみ実行される。音声認識動作の終了後に実行される要約動作Ｓ１１０２も同様である。以上のように構成すれば、ユーザが指定した必要な録音のみを音声認識し、要約して可視化することができる。このため、計算資源の有効活用が可能となる。

なお、本実施例では、音声認識動作と要約動作を通話可視化動作の一部として実行しているが、通話可視化動作の一部として実行するのは要約動作のみとしてもよい。この場合、音声認識動作は実施例１と同様、顧客とオペレータの通話の録音時に、又は、少なくとも通話可視化動作の開始前までに実行される。このような動作手法を採用しても計算資源の有効活用が可能になる。

（３）他の実施例
本発明は、上述した実施例に限定されるものでなく、様々な変形例を含んでいる。例えば上述した実施例では、通話音声を可視化するシステムを示したが、本発明は、音声に限らず対話を含んだデータの検索に広く適用できる。例えば、テキストチャットなどにおいても、テキスト内容およびメッセージの送信時刻の系列から、同様の要約が可能である。また、対象は２名による対話に限らない。発言者ＩＤとして３名以上を対象とすることで、ＴＶ会議システム等、３名以上の対話への応用も可能である。

また、本発明は、上述した実施例で説明した全ての構成を必ずしも備える必要はない。また、ある実施例の一部を他の実施例の構成に置き換えることができる。また、ある実施例の構成に他の実施例の構成を加えることもできる。また、各実施例に他の構成要素を追加してもよく、各実施例の一部の構成要素を他の構成要素と置換してもよい。

また、上述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。例えばサーバのＣＰＵ上で実行されるプログラムにより実現される通話録音、認識、要約の各種機能一部又は全部を集積回路等の電子部品を用いたハードウェアにより実現してもよい。

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD（Solid State Drive）等の記憶装置、又は、ICカード、SDカード、DVD等の記憶媒体に格納することができる。また、制御線や情報線は、説明上必要と考えられるものを示すものであり、製品上必要な全ての制御線や情報線を表すものでない。実際にはほとんど全ての構成が相互に接続されていると考えてよい。

１１…通話録音部、
１２…発言者識別部、
１３…通話録音ＤＢ、
１４…通話録音取得部、
１５…音声認識部、
１６…通話認識結果ＤＢ、
１７…通話認識結果取得部、
１８…テキスト要約部、
１９…要約モデル、
２１…クエリ送信部、
２２…クエリ受付部、
２３…通話検索部、
２４…結果送信部、
２５…結果表示部、
１００…顧客電話機、
２００…オペレータ電話機、
３００…通話録音認識要約装置、
３０１…通話録音装置、
３０２…通話認識装置、
３０３…通話要約装置、
４００…通話録音可視化端末装置。

Claims

対話形式のテキストから認識された単語と、前記単語の時系列情報と、前記単語の発言者を識別する識別情報とを第１のデータベースから取得する認識結果取得部と、
前記単語と前記単語の時系列情報と前記識別情報と要約モデルに基づいて前記単語を訂正し、訂正結果を前記第１のデータベースに出力するテキスト要約部と、
を有する対話テキスト要約装置。
請求項１に記載のテキスト要約装置において、
前記テキスト要約部は、前記要約モデルを用いた判定により重要でないと判定された単語を削除する
ことを特徴とする対話テキスト要約装置。
請求項１に記載の対話テキスト要約装置において、
前記テキスト要約部は、前記要約モデルを用いた判定により認識誤りと判定された単語を削除する
ことを特徴とする対話テキスト要約装置。
請求項１に記載の対話テキスト要約装置において、
前記テキスト要約部は、前記要約モデルにリカレントニューラルネットワークを使用して単語を訂正する
ことを特徴とする対話テキスト要約装置。
請求項１に記載の対話テキスト要約装置において、
前記訂正結果を含む前記対話形式のテキストを表示する場合に、訂正箇所及び／又は訂正内容を確認可能な態様で表示する結果表示部を更に有する
ことを特徴とする対話テキスト要約装置。
請求項１に記載の対話テキスト要約装置において、
前記訂正結果を反映した前記対話形式のテキストと前記訂正結果を含む前記対話形式のテキストとを並列表示する結果表示部を更に有する
ことを特徴とする対話テキスト要約装置。
請求項１に記載の対話テキスト要約装置において、
前記対話形式のテキストに含まれる単語を認識する処理と、前記認識された前記単語ごとに時系列情報を管理する処理と、前記単語の発言者を識別する識別情報を管理する処理とを認識処理として実行する認識部を更に有する
ことを特徴とする対話テキスト要約装置。
請求項７に記載の対話テキスト要約装置において、
前記認識部は、前記対話形式のテキストを指定するクエリを外部端末から受け付けた後、前記クエリで指定された前記対話形式のテキストを第２のデータベースから取得して前記認識処理を実行し、更に処理結果を前記第１のデータベースに格納し、
前記認識結果取得部は、前記認識部の認識結果が得られた後、前記クエリで指定された前記対話形式のテキストに関する前記単語と、前記単語の時系列情報と、前記識別情報を前記テキスト要約部に出力する
ことを特徴とする対話テキスト要約装置。
請求項７に記載の対話テキスト要約装置において、
前記認識結果取得部は、前記対話形式のテキストを指定するクエリを外部端末から受け付けた後に、前記クエリで指定された前記対話形式のテキストに関する前記単語と、前記単語の時系列情報と、前記識別情報を前記第１のデータベースから取得する
ことを特徴とする対話テキスト要約装置。
認識結果取得部が、対話形式のテキストから認識された単語と、前記単語の時系列情報と、前記単語の発言者を識別する識別情報とを第１のデータベースから取得する処理と、
テキスト要約部が、前記単語と前記単語の時系列情報と前記識別情報と要約モデルに基づいて前記単語を訂正し、訂正結果を前記第１のデータベースに出力する処理と、
を有する対話テキスト要約方法。
請求項１０に記載のテキスト要約方法において、
前記テキスト要約部は、前記要約モデルを用いた判定により重要でないと判定された単語を削除する
ことを特徴とする対話テキスト要約方法。
請求項１０に記載の対話テキスト要約方法において、
前記テキスト要約部は、前記要約モデルを用いた判定により認識誤りと判定された単語を削除する
ことを特徴とする対話テキスト要約方法。
請求項１０に記載の対話テキスト要約方法において、
前記テキスト要約部は、前記要約モデルにリカレントニューラルネットワークを使用して単語を訂正する
ことを特徴とする対話テキスト要約方法。
請求項１０に記載の対話テキスト要約方法において、
前記テキスト要約部は、前記訂正結果を含む前記対話形式のテキストを表示する場合に、訂正箇所及び／又は訂正内容を確認可能な態様で表示する
ことを特徴とする対話テキスト要約方法。
請求項１０に記載の対話テキスト要約方法において、
認識部が、前記対話形式のテキストに含まれる単語を認識する処理と、前記認識された前記単語ごとに時系列情報を管理する処理と、前記単語の発言者を識別する識別情報を管理する処理とを実行する
ことを特徴とする対話テキスト要約方法。