JP2019062404A

JP2019062404A - 通話音声処理システム及び通話音声処理方法

Info

Publication number: JP2019062404A
Application number: JP2017185610A
Authority: JP
Inventors: 孝章佐々木; Takaaki Sasaki
Original assignee: Hitachi Information and Telecommunication Engineering Ltd
Current assignee: Hitachi Information and Telecommunication Engineering Ltd
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2019-04-18
Anticipated expiration: 2037-09-27
Also published as: JP6920153B2; US20190096399A1

Abstract

【課題】顧客との通話中に使用言語に応じた最適な音声認識エンジンを採用して音声認識の認識率を向上させる。【解決手段】着信時に音声認識制御装置１１１は通話情報に対応する言語として第１の言語（日本語）を自動的に決定し、音声認識装置１１３は第１の言語に対応する第１の音声認識エンジン１１３ａを用いて着信時の通話中の音声情報を認識し、着信後に音声認識制御装置１１１は第１の言語から第２の言語（英語）への切替えを指示する切替え指示に応答して第１の言語を第２の言語に切替え、音声認識装置１１３は第２の言語に対応する第２の音声認識エンジン１１３ｂを用いて着信後の通話中の音声情報を認識する。【選択図】図１

Description

本発明は、通話音声処理システム及び通話音声処理方法に関する。

コールセンタやオフィスにおいて、通話先の顧客とオペレータの通話内容を録音して、後日のトラブルに備えたり、内容をレビューしたりすることが行われている。録音データは、音声認識してテキストデータに変換することにより、コンピュータシステムで検索したり表示あるいは印刷できるようになり、業務データとしてより有効活用することができる。

コールセンタで行われる音声認識に関して、特許文献１では、異なる言語ごとに用意された異なる音声認識エンジン（辞書）を用いて音声認識を行っている。

特開２０１７−７８７５３号公報

特許文献１では、異なる言語ごとに音声認識エンジンを採用して音声を認識している。しかし、特許文献１では、録音した音声を通話終了後に音声認識エンジンを用いて認識している。顧客との通話中は音声認識エンジンを切替えてはおらず、通話中は同じ音声認識エンジンを使用し続けている。

このように、特許文献１では、顧客との通話中に使用言語に応じた最適な音声認識エンジンを採用して音声認識の認識率を向上させることについては考慮されていない。

本発明の目的は、顧客との通話中に使用言語に応じた最適な音声認識エンジンを採用して音声認識の認識率を向上させることにある。

本発明の一態様の通話音声処理システムは、複数の言語を音声認識するための複数の音声認識エンジンを有する音声認識装置と、複数の通話情報と前記複数の言語とを対応付ける言語対応テーブルと、前記複数の言語の中からいずれか一つの言語に切替える切替え用テーブルとを有する通話録音情報管理装置と、前記複数の言語を前記複数の音声認識エンジンにそれぞれ対応付ける音声認識エンジン選択テーブルを有する音声認識制御装置とを備え、着信時に、前記音声認識制御装置は、前記言語対応テーブルを参照して前記通話情報に対応する言語として第１の言語を自動的に決定し、前記音声認識装置は、前記音声認識エンジン選択テーブルを参照して、前記第１の言語に対応する第１の音声認識エンジンを用いて前記着信時の通話中の音声情報を認識し、前記着信後に、前記音声認識制御装置は、前記第１の言語から前記第１の言語とは異なる第２の言語への切替えを指示する切替え指示に応答して、前記切り替え用テーブルを参照して前記第１の言語を前記第２の言語に切替え、前記音声認識装置は、前記音声認識エンジン選択テーブルを参照して、前記第２の言語に対応する第２の音声認識エンジンを用いて前記着信後の通話中の音声情報を認識することを特徴とする。

本発明の一態様の通話音声処理方法は、第１の言語を音声認識するための第１の音声認識エンジンと、前記第１の言語とは異なる第２の言語を音声認識するための第２の音声認識エンジンとを用意し、着信時に、通話情報に対応する言語として前記第１の言語を自動的に決定し、前記第１の言語に対応する前記第１の音声認識エンジンを用いて前記着信時の通話中の音声情報を認識し、着信後に、前記第１の言語から前記第２の言語への切替えを指示する切替え指示に応答して、前記第２の言語に対応する前記第２の音声認識エンジンが利用中か否かを判断し、前記第２の音声認識エンジンが利用中でなく前記第２の音声認識エンジンを使用可能と判断した場合には、前記第１の言語を前記第２の言語に切替え、前記第２の言語に対応する前記第２の音声認識エンジンを用いて前記着信後の通話中の音声情報を認識し、前記第２の音声認識エンジンが利用中により、前記第２の音声認識エンジンを使用不可能と判断した場合には、前記第２の言語に対応する前記第２の音声認識エンジンを用いて前記着信後の音声情報を通話終了後に認識することを特徴とする。

本発明の一態様によれば、顧客との通話中に使用言語に応じた最適な音声認識エンジンを採用して音声認識の認識率を向上させることができる。

コールセンタシステムの全体構成図である。オペレータ用端末のオペレータＰＣ画面を示す図である。着番号・言語対応テーブル（Ｔ−４）を示す図である。手動切替え用テーブル（Ｔ−５）を示す図である。通話情報テーブル（Ｔ−６）を示す図である。音声認識エンジン選択テーブル（Ｔ−７）を示す図である。音声認識結果テーブル（Ｔ−８）を示す図である。着信時の動作を説明するためのフローチャートである。オペレータ操作による音声認識エンジン切替え時の動作を説明するためのフローチャートである。着信時の動作を説明するためのシステム構成図である。オペレータ操作による音声認識エンジン切替え時の動作を説明するためのシステム構成図である。失敗時再実行時の動作を説明するためのシステム構成図である。着信時の書換え前後の通話情報テーブルを示す図である。手動切替え時の書換え前後の通話情報テーブルを示す図である。書換え前後の音声認識エンジン選択テーブルを示す図である。手動切替え時の書換え前後の手動切替え用テーブルを示す図である。

通話音声処理システムは、コールセンタ等の電話応対業務において、顧客とオペレータの通話内容をリアルタイムに認識し、認識結果を管理して保存するシステムである。

コールセンタにおけるリアルタイムの通話音声処理システムでは、一般的に着番号等のＣＴＩ（ＣｏｍｐｕｔｅｒＴｅｌｅｐｈｏｎｙＩｎｔｅｇｒａｔｉｏｎ）情報を音声認識エンジン（辞書）に紐付けて、音声認識を行う。ＣＴＩ情報は、言語を特定することができる情報である。多言語を扱う場合、音声認識エンジンは言語ごとに用意する。ここで、ＣＴＩとは、電話とコンピューターを連携して利用する技術の総称をいう。コールセンタなどで、顧客の電話番号から顧客情報をデータベースに照会したり、自動発信や自動転送したりする技術である。

複数言語に対応するオペレータの通話対応時において、顧客の言語とＣＴＩ情報に紐づく言語が一致していない場合、適切な音声認識エンジンが選択されず、認識精度が落ちる場合がある。

従来の通話音声処理システムは、着番号等のＣＴＩ情報と音声認識エンジンの紐付けで音声認識エンジンが選択されるため、会話内容に対して適切な音声認識エンジンが選択できず、認識精度が落ちる場合がある。

また、ＣＴＩ情報に依存させずに多言語に対応する方法として、システムで利用可能な複数の音声認識エンジンを並列に動作させる方法が考えられるが、システムリソースが多く必要となりコストが多くかかる。

本発明の実施形態では、ＣＴＩ情報による音声認識エンジンの自動選択に加え、オペレータがマニュアル操作で音声認識エンジンを選択できるようにする。これにより、システムリソースの利用を抑えて適切な音声認識エンジンを選択可能になる。

本発明の実施形態では、複数の音声認識エンジンを並列に動作させる方式と比較して、少ないシステムリソースで多言語対応のリアルタイムシステムを実現する。具体的には、オペレータのマニュアル操作により、ＣＴＩ情報のみに依存せず、最適な音声認識エンジンを使うことで認識率を高める。また、複数の音声認識エンジンを同時に動作させることなく、システムリソースを効率的に利用する。

本発明の実施形態では、顧客との通話中に異なる言語ごとに最適な認識エンジンを採用することを可能にして通話中における音声の認識率を向上させる。
以下、図面を参照して、本発明の実施例について説明する。

最初に、図１を参照して、コールセンタシステムについて説明する。
図１に示されるように、コールセンタシステムは、ネットワーク１００を介して、ＩＰ−ＰＢＸ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＰｒｉｖａｔｅＢｒａｎｃｈｅＸｃｈａｎｇｅ：ＩＰ回線対応構内交換機）装置１０１、ＣＴＩ装置１０２、音声通話処理システム１０３及びオペレータ用端末１０４が接続されて構成されている。

ＩＰ−ＰＢＸ装置１０１は、顧客１０５の通話端末１０６からの呼を受けて、ＩＰ網と公衆網１０７のプロトコル変換、発着信の呼制御などをおこなう。

ＣＴＩ装置１０２は、ＩＰ−ＰＢＸ装置１０１から通話情報（着番号等）を取得して、音声通話処理システム１０３に送信する。

オペレータ用端末１０４は、オペレータ１０８がオペレータ業務に使うオペレータＰＣ端末であり、顧客１０５の通話端末１０６と公衆網１０７を介して通話を行う。

顧客１０５の通話端末１０６から公衆網１０７を介して接続されるＩＰ−ＰＢＸ装置１０１が、ネットワーク１００を介してオペレータ用端末１０４と接続して通話を行う。オペレータ１０８は、オペレータ用端末１０４から電話操作をすることができ、顧客１０５からの着信がオペレータ用端末１０４に表示されると、オペレータ用端末１０４から応答を操作して顧客１０５とオペレータ１０８は通話状態になる。

音声通話処理システム１０３は、通話録音情報管理装置１０９、通話録音装置１１０、音声認識制御装置１１１、音声認識結果管理装置１１２、音声認識装置１１３を有する。

通話録音装置１１０は、通話端末１０６でやりとりされる通話のデータストリームを、ＩＰ−ＰＢＸ装置１０１を介して録音データとして録音する装置である。通話端末１０６での通話は、通話録音装置１１０に送られて録音ファイルとして保存される。通話録音装置１１０は、ミラーリングした通話音声を取得して録音して音声認識装置１１３に送信する。通話録音情報管理装置１０９は、通話情報と録音情報を対応付けて管理するためのサーバである。

音声認識装置１１３は、録音データを音声認識エンジンにより、テキストデータに変換する。音声認識装置１１３は、日本語用エンジン１１３ａと英語語用エンジン１１３ｂを有する。通常、顧客１０５が日本語で通話する場合には日本語用エンジン１１３ａが用いられ、顧客１０５が英語で通話する場合には英語用エンジン１１３ｂが用いられる。日本語用エンジン１１３ａ及び英語用エンジン１１３ｂは、音声認識のアルゴリズム処理を行い、認識結果をテキストデータとして出力する。音声認識装置１１３は、各言語に対し複数の音声認識エンジンを持つことも可能である。

音声認識制御装置１１１は、オペレータ用端末１０４からの音声認識要求を受けて、音声認識装置１１３に指示を与える。音声認識結果管理装置１１２は、音声認識装置１１３が出力するテキストデータをデータベースに格納して音声認識結果を蓄積する。ブラウザアクセスで認識した結果や言語選択画面をオペレータ用端末１０４に表示させる。

次に、実施例の通話音声処理システムについて説明する。

図２に示すように、オペレータ用端末１０４のオペレータＰＣ画面は、通話内容表示領域２００と、通話内容表示領域２００に隣接した言語選択領域２１０を有する。音声認識装置１１３の音声認識エンジンを用いて音声を認識した認識結果は、音声認識結果管理装置１１２を介してオペレータ用端末１０４の通話内容表示領域２００に表示される。言語選択画面は、言語選択領域２１０に表示される。

オペレータ用端末１０４のオペレータＰＣ画面は、音声認識結果が表示される通話内容表示領域２００と言語選択領域２１０をウェブブラウザで表示する。言語選択領域２１０では、音声認識装置１１３が対応可能な言語が表示されており、言語を選択すると通話録音情報管理装置１１２に通知する。音声をリアルタイム認識する際、開始時（着信時）はＣＴＩ情報（例えば、着番号）により予め決められた音声認識エンジンが選択される。

オペレータ１０８が音声認識エンジンの言語を切替える際に、オペレータ１０８は言語選択領域２１０で言語を選択する。選択した言語に対応する音声認識エンジンをテーブルを用いて決定し、音声認識エンジンを即時に切替える。

言語選択領域は、日本語と英語（Ｅｎｇｌｉｓｈ）が選択可能なオペレータＰＣ画面である。オペレータ１０８は、オペレータ用端末１０４を操作して言語選択領域２１０ら言語を選択する。この場合は、オペレータ１０８は、言語選択領域２１０から日本語か英語（Ｅｎｇｌｉｓｈ）を選択可能である。言語を選択したら、言語選択領域２１０の“ｓｕｂｍｉｔ”のボタン２２０を押して言語を決定する。通話内容表示領域２００には、音声認識結果管理装置１１２に蓄積されたが音声認識結果２３０が表示される。

通話録音情報管理装置１０９は、着番号・言語対応テーブル３００（図３のテーブル（Ｔ−４））、手動切替え用テーブル４００（図４のテーブル（Ｔ−５）、通話情報テーブル５００（図５のテーブル（Ｔ−６））及び音声認識結果テーブル７００（図７のテーブル（Ｔ−８））を有する。音声認識制御装置１１は、音声認識エンジン選択テーブル６００（図６のテーブル（Ｔ−７））を有する。

図３に示すように、着番号・言語対応テーブル（Ｔ−４）３００は、着番号３００ａと言語３００ｂを対応付けるテーブルである。例えば、着番号３００ａの“１１１”には、言語３００ｂの“日本語”が対応している。

図４に示すように、手動切替え用のテーブル（Ｔ−５）４００は、切替えＩＤ４００ａと言語４００ｂを対応付けるテーブルである。オペレータ１０８による言語選択時にオペレータ１０８が手動で日本語か英語を切り替えて選択するテーブルである。例えば、切替えＩＤ４００ａの“Ｆ００１”には、言語４００ｂの”日本語”が対応し、切替えＩＤ４００ａの“Ｆ００２”には言語４００ｂの“英語”が対応している。

図５に示すように、通話情報テーブル（Ｔ−６）５００は、通話識別ＩＤ５００ａ、着番号５００ｂ、エンジンＩＤ５００ｃ及び言語５００ｄを対応付けて管理するテーブルである。例えば、通話識別ＩＤ５００ａの“ＡＡＡＡ”、着番号５００ｂの“１１１３”、エンジンＩＤ５００ｃの“１”には、言語５００ｄの“日本語”が対応する。また、通話識別ＩＤ５００ａ“のＢＢＢＢ”、着番号５００ｂの“１１１１”、エンジンＩＤ５００ｃの“４”には、言語５００ｄの“英語”が対応している。

図６に示すように、音声認識エンジン選択テーブル（Ｔ−７）６００は、音声認識エンジンを選択するためのテーブルである。音声認識エンジン選択テーブル（Ｔ−７）６００は、同じ言語用エンジンが複数ある場合の対応も考慮して、ＩＤ６００ａ、言語６００ｂ、音声認識エンジンアドレス６００ｃ、利用状態６００ｄを対応付けて管理する。ここで、音声認識エンジン選択テーブル（Ｔ−７）６００では省略するが、方言別の言語のエンジンを用意しても良い。方言別の言語とは、英語の場合には、ＵＫ英語あるいはＵＳ英語などである。例えば、ＩＤ６００ａの“１”、言語６００ｂの“日本語”、音声認識エンジンアドレス６００ｃの“ｘｘｘ．ｘｘｘ．ｘｘｘ．１００．５００００”では、利用状態６００ｄは“利用中”となっている。

図７に示すように、音声認識結果テーブル（Ｔ−８）７００は、通話を識別するための通話識別ＩＤ７０ａ、音声認識結果の出力順に付与されるシーケンス番号７００ｂ、認識実行日時７００ｃ（テーブル追加日時に等しい）、認識結果語彙７００ｄ（１レコードは、１有音区間分のデータを持つ）を有する。音声認識結果管理装置１１２は、音声認識装置１１３から音声認識結果を受信したら音声認識結果テーブル（Ｔ−８）７００に格納する。音声認識結果テーブル（Ｔ−８）の認識実行日時によって、通話中のリアルタイムの認識か、通話終了後の認識かを判断する。例えば、通話識別ＩＤ７００ａの“ＢＢＢＢＢ”シーケンス番号７００ｂの“１”、認識実行日時７００ｃの“２０１７／０９／０４１３：００：０５”には、認識結果語彙７００ｄの“波浪”が対応している。

次に、実施例の通話音声処理システムの動作について説明する。

例として、日本語と英語に対応している通話音声処理システムにおいて、自動選択で日本語用エンジン１１３ａが選択された後、英語用エンジン１１３ｂに切替える場合を説明する。

図８及び図１０を参照して、着信時の動作について説明する。

最初に、通話録音情報管理装置１０９は、ＣＴＩ装置１０２からＣＴＩ情報（通話情報）として着番号を受信する（Ｓ８００）。

通話録音情報管理装置１０９は、着番号と言語を対応付ける着番号・言語対応テーブル３００（図３のテーブル（Ｔ−４））を参照して言語として日本語を選択して着番号言語変換処理（Ｓ８０１）を行い、言語として日本語を使用することを音声認識制御装置１１１へ通知する（Ｓ８０２）。

音声認識制御装置１１１は、音声認識エンジンとして日本語用エンジン１１３ａを選択する音声認識エンジン選択処理（Ｓ８０３）を行い、音声認識エンジン選択テーブル６００（図６のテーブル（Ｔ−７））を書換え、音声認識エンジンアドレスとＩＤを通話録音情報管理装置１０９に返す（Ｓ８０４）。

ここで、書換え前後の音声認識エンジン選択テーブルをそれぞれ図１５（ａ）、（ｂ）に示す。テーブル（Ｔ−７ａ）６００Ａが書換え前のテーブル（図１５（ａ））であり、テーブル（Ｔ−７ａ’）６００Ｂが書換え後のテーブル（図１５（ｂ））である。具体的には、着信時書換え前の音声認識エンジン選択テーブル（Ｔ−７ａ）６００ＡのＩＤ“１”の“日本語”が“空き”の状態から、着信時書換え後の音声認識エンジン選択テーブル（Ｔ−７ａ’）６００ＢのＩＤ“１”の“日本語”が“利用中”の状態になる。

通話録音情報管理装置１０９は、通話情報を設定（Ｓ８０５）して、音声認識エンジンアドレスを通話録音装置１１０に送る（Ｓ８０６）。この場合は、通話録音装置１１０に日本語用エンジン１１３ａのアドレスを送る。通話録音情報管理装置１０９は、図５の通話情報テーブル（Ｔ−６ａ）５００に当該通話情報を追加する。具体的には、図１３（ａ）、（ｂ）に示すように、着信時書換え前の通話情報テーブル（Ｔ−６ａ）５００Ａに、通話識別ＩＤ“ＢＢＢＢＢ”、着番号“１１１３”、エンジンＩＤ“１”、言語“日本語”を追加して、着信時書換え後の通話情報テーブル（Ｔ−６ａ’）５００Ｂを作成する。

通話録音装置１１０は、通話を録音し、エンジンアドレス（日本語用エンジンアドレス）を設定してミラーリングされた通話音声を音声認識装置１１１に送る（Ｓ８０８）。

音声認識装置１１３は、日本語用エンジン１１３ａで音声認識を実行し（Ｓ８０９）、認識結果を音声認識結果管理装置に送る（Ｓ８１０）。

音声認識結果管理装置１１２は、音声認識装置１１３から送られてきた認識結果を蓄積する（Ｓ８１１）。

音声認識結果管理装置１１２に蓄積された認識結果は、オペレータ用端末１０４（オペレータＰＣ）に送られて、音声認識結果がオペレータＰＣ画面の通話内容表示領域２００（図２参照）に表示される（Ｓ８１２）。

オペレータ１０８は、オペレータＰＣ画面の通話内容表示領域２００に表示された認識結果を閲覧する（Ｓ８１３）。

この際、図１０に示すように、顧客１０５が日本語ではなく英語で通話を行った場合には、音声認識装置１１３は、日本語用エンジン１１３ａで音声認識を実行し音声認識結果管理装置１１２に認識結果を送る。この場合、音声認識結果管理装置１１２は、音声認識装置１１３から送られてきた間違った認識結果を蓄積して記録する。そして、音声認識結果管理装置１１２に蓄積された間違った認識結果は、オペレータ用端末（オペレータＰＣ）１０４に送られて間違った音声認識結果がオペレータＰＣ画面の通話内容表示領域２００に表示される。

オペレータ１０８は、オペレータＰＣ画面の通話内容表示領域２００に表示された間違った認識結果を閲覧する。

例えば、顧客１０５が“Ｈｅｌｌｏ”という音声を発した場合には、音声認識装置１１３は日本語用エンジン１１３ａで音声認識を実行し“波浪”と認識する。この結果、音声認識結果管理装置１１２には間違った認識結果（“波浪”）が蓄積される。音声認識結果管理装置１１２に蓄積された間違った認識結果（“波浪”）は、オペレータＰＣ画面の通話内容表示領域２００に表示される。

次に、図９及び図１１を参照して、オペレータ操作による音声認識エンジン切替え時の動作について説明する。

オペレータ１０８は、オペレータＰＣ画面の通話内容表示領域２００に表示された間違った認識結果（図１０の“波浪”）を閲覧・確認して、音声認識エンジンの誤りに気付いて、音声認識の言語を日本語から英語（Ｅｎｇｌｉｓｈ）に切替える。オペレータ１０８は、音声認識の言語を英語に切り替えるため、オペレータＰＣ画面に表示された言語選択領域２１０で英語（Ｅｎｇｌｉｓｈ）を選択し、“ｓｕｂｍｉｔ”のボタン２２０を押して言語として英語を選択し決定する（Ｓ９００）。そして、英語用の切替えＩＤ（Ｆ００２）が通話録音情報管理装置１０９に通知される（Ｓ９０１）。

通話録音情報管理装置１０９は、手動切替え用テーブル４００（図４のテーブル（Ｔ−５））を参照して、英語用切替えＩＤ（Ｆ００２）に対応した言語である英語に変換する（Ｓ９０２）。

通話録音情報管理装置１０９は、手動切替え用テーブル４００（図４のテーブル（Ｔ−５））を用いて変換した言語である英語を音声認識制御装置１１１へ通知して、音声認識エンジンとして英語用エンジンを利用することを音声認識制御装置１１１へ知らせる（Ｓ９０３）。

音声認識制御装置１１１は、音声認識エンジンとして英語用エンジン１１３ｂを選択（Ｓ９０４）して、音声認識エンジン選択テーブル６００（図６のテーブル（Ｔ−７））の書換え利用可能な英語用エンジンアドレスとＩＤを返す（Ｓ９０５）。ここで、切替え時の書換え前後のテーブルをそれぞれ図１６（ａ）、（ｂ）に示すテーブル（Ｔ−７ｂ）６００Ｃ、テーブルＴ−７ｂ’（６００Ｄ）に示す。

具体的には、手動切替え時書換え前の音声認識エンジン選択テーブル（Ｔ−７ｂ）６００ＣのＩＤ“１”の“日本語”が“利用中”の状態から、手動切替え時書換え後の音声認識エンジン選択テーブル（Ｔ−７ｂ’）６００ＤのＩＤ“１”の“日本語”が“空き”の状態になる。さらに、手動切替え時書換え前の音声認識エンジン選択テーブル（Ｔ−７ｂ）６００ＣのＩＤ“３”の“英語”が“空き”の状態から、手動切替え時書換え後の音声認識エンジン選択テーブル（Ｔ−７ｂ’）６００ＤのＩＤ“３”の“英語”が“利用中”の状態になる。

通話録音情報管理装置１０９は、通話情報を更新する（Ｓ９０６）。具体的には、通話情報に紐付いた音声認識エンジンのＩＤを利用する英語用エンジン１１３ｂのＩＤに更新する。そして、通話録音情報管理装置１０９は、通話録音装置１１０に英語用のエンジンアドレスを送る（Ｓ９０７）。

通話録音情報管理装置１０９は、図１４（ａ）、（ｂ）に示すように、手動切替え時書換え前の通話情報テーブル（Ｔ−６ｂ）５００Ｃを手動切替え時書換え後の通話情報テーブル（Ｔ−６ｂ’）５００Ｄに切替える。具体的には、手動切替え時書換え前の通話情報テーブル（Ｔ−６ｂ）５００Ｃの通話識別ＩＤ“ＢＢＢＢＢ”のエンジンＩＤを“１”から“３”に、言語を“日本語”から“英語”に切替えて、手動切替え時書換え後の通話情報テーブル（Ｔ−６ｂ’）５００Ｄを作成する。

通話録音装置１１０は、音声認識エンジンのアドレスを更新して（Ｓ９０８）、通話音声を音声認識装置に送る（Ｓ９０９）。

音声認識装置１１３は、切替えた英語用エンジン１１３ｂを用いて音声認識を実行し（Ｓ９１０）、音声認識結果管理装置１１２に認識結果を送信する（Ｓ９１１）。

音声認識結果管理装置１１２は、音声認識装置１１３から送られてきた認識結果を蓄積する（Ｓ９１２）。

音声認識結果管理装置１１２に蓄積された認識結果は、オペレータ用端末（オペレータＰＣ）１０４に送られて音声認識結果がオペレータＰＣ画面の通話内容表示領域２００（図２参照）に表示される（Ｓ９１３）。

オペレータ１０８は、オペレータＰＣ画面の通話内容表示領域２００に表示された認識結果を閲覧する（Ｓ９１４）。

この際、図１１に示すように、顧客１０５が英語で通話を行った場合には、音声認識装置１１３は、英語用エンジン１１３ｂで音声認識を実行し音声認識結果管理装置１１２に認識結果を送る。この場合、音声認識結果管理装置１１２は、音声認識装置１１３から送られてきた正しい（顧客の言語に合った）認識結果を蓄積する。そして、音声認識結果管理装置１１２に蓄積された正しい認識結果は、オペレータ用端末（オペレータＰＣ）１０４に送られて正しい音声認識結果がオペレータＰＣ画面の通話内容表示領域２２０に表示される。オペレータ１０８は、オペレータＰＣ画面の通話内容表示領域２００に表示された正しい認識結果を閲覧する。

例えば、顧客１０５が“Ｐｌｅａｓｅ”という音声を発した場合には、音声認識装置１１３は英語用エンジン１１３ｂで音声認識を実行し“Ｐｌｅａｓｅ”と認識して、音声認識結果管理装置１１２に正しい認識結果（“Ｐｌｅａｓｅ”）が蓄積される。音声認識結果管理装置１１２に蓄積された正しい認識結果（“Ｐｌｅａｓｅ”）は、オペレータＰＣ画面の通話内容表示領域２００に表示される。

最後に、図１２を参照して、認識エンジンの切替え失敗時の再実行動作について説明する。
通話終了後、通話録音装置１１０は通話の録音を録音ファイル１１０ａに出力し、音声認識装置１１３に送る。音声認識装置１１３は、録音ファイル１１０ａに対して音声認識を実行し音声認識結果管理装置１１２に認識結果を蓄積する。

具体的には、通話中に英語用エンジン１１３ｂが利用中により英語用エンジン１１３ｂへの即時切替えができなかった場合は、英語用エンジン１１３ｂが利用可能になった時点である通話終了後に出力される録音ファイル１１０ａを音声認識装置１１３に送る。そして、通話終了後に英語用エンジン１１３ｂを用いて音声認識を実行する。

具体的には、着信後に、英語用エンジン１１３ｂが利用中か否かを判断する。この判断の結果、英語用エンジン１１３ｂが利用中でなく、英語用エンジン１１３ｂを使用可能と判断した場合には、英語用エンジン１１３ｂを用いて着信後の通話中の音声情報を認識する。

一方、上記判断の結果、英語用エンジン１１３ｂが利用中により、英語用エンジン１１３ｂを使用不可能と判断した場合には、通話終了後に、英語用エンジン１１３ｂを用いて着信後の音声情報を通話終了後に認識する。

実施例によれば、ＣＴＩ情報による音声認識エンジンの自動選択に加え、オペレータがマニュアル操作で音声認識エンジンを選択できるようにする。これにより、システムリソースの利用を抑えて適切な音声認識エンジンを選択することが可能になる。

１００ネットワーク
１０１ＩＰ−ＰＢＸ装置
１０２ＣＴＩ装置
１０３音声通話処理システム
１０４オペレータ用端末
１０５顧客
１０６通話端末
１０７公衆網
１０８オペレータ
１０９通話録音情報管理装置
１１０通話録音装置
１１１音声認識制御装置
１１２音声認識結果管理装置
１１３音声認識装置

Claims

複数の言語を音声認識するための複数の音声認識エンジンを有する音声認識装置と、
複数の通話情報と前記複数の言語とを対応付ける言語対応テーブルと、前記複数の言語の中からいずれか一つの言語に切替える切替え用テーブルとを有する通話録音情報管理装置と、
前記複数の言語を前記複数の音声認識エンジンにそれぞれ対応付ける音声認識エンジン選択テーブルを有する音声認識制御装置と、を備え、
着信時に、前記音声認識制御装置は、
前記言語対応テーブルを参照して前記通話情報に対応する言語として第１の言語を自動的に決定し、
前記音声認識装置は、前記音声認識エンジン選択テーブルを参照して、前記第１の言語に対応する第１の音声認識エンジンを用いて前記着信時の通話中の音声情報を認識し、
前記着信後に、前記音声認識制御装置は、
前記第１の言語から前記第１の言語とは異なる第２の言語への切替えを指示する切替え指示に応答して、前記切り替え用テーブルを参照して前記第１の言語を前記第２の言語に切替え、
前記音声認識装置は、
前記音声認識エンジン選択テーブルを参照して、前記第２の言語に対応する第２の音声認識エンジンを用いて前記着信後の通話中の音声情報を認識することを特徴とする通話音声処理システム。
前記通話の音声情報を録音ファイルに録音する通話録音装置を更に有し、
着信時に、前記通話録音装置は、前記着信時の通話中の音声情報を前記録音ファイルに録音し、
前記音声認識装置は、前記第１の音声認識エンジンを用いて前記録音ファイルに録音された前記着信時の通話中の音声情報を認識し、
前記着信後に、前記通話録音装置は、前記着信後の通話中の音声情報を前記録音ファイルに録音し、
前記音声認識装置は、前記第２の音声認識エンジンを用いて前記録音ファイルに録音された前記着信後の通話中の音声情報を認識することを特徴とする請求項１に記載の通話音声処理システム。
前記着信後に、前記音声認識制御装置は、
オペレータが操作する操作端末に表示された言語選択画面を介して指示される前記切替え指示に応答して、前記第１の言語を前記第２の言語に切り替えることを特徴とする請求項１に記載の通話音声処理システム。
前記音声認識装置の前記音声認識エンジンを用いて前記音声情報を認識した音声認識結果を前記操作端末の通話内容表示領域に表示させ、前記言語選択画面を前記通話内容表示領域に隣接した言語選択領域に表示させる音声認識結果管理装置を更に有することを特徴とする請求項３に記載の通話音声処理システム。
前記音声認識結果管理装置は、
前記第１の音声認識エンジンを用いて前記着信時の音声情報を認識した前記音声認識結果を蓄積し、蓄積された前記音声認識結果を前記通話内容表示領域に表示し、
前記音声認識結果に応じて、前記第１の言語から前記第２の言語への切替え指示を前記通話録音情報管理装置に通知することを特徴とする請求項１に記載の通話音声処理システム。
前記第１の言語から前記第２の言語への切替え指示を通知された前記通話録音情報管理装置は、
前記音声認識装置に対して、前記第２の音声認識エンジンを用いて前記着信後の音声情報を認識することを通知し、該通知に応答して、前記第２の音声認識エンジンを用いて前記着信後の通話中の音声情報を認識した前記音声認識結果を蓄積し、蓄積された前記音声認識結果を前記通話内容表示領域に表示することを特徴とする請求項５に記載の通話音声処理システム。
前記通話録音情報管理装置の有する前記言語対応テーブルは、前記通話情報としての着番号と前記複数の言語とを対応付ける着番号言語対応テーブルであることを特徴とする請求項１に記載の通話音声処理システム。
第１の言語を音声認識するための第１の音声認識エンジンと、前記第１の言語とは異なる第２の言語を音声認識するための第２の音声認識エンジンとを用意し、
着信時に、通話情報に対応する言語として前記第１の言語を自動的に決定し、
前記第１の言語に対応する前記第１の音声認識エンジンを用いて前記着信時の通話中の音声情報を認識し、
着信後に、前記第１の言語から前記第２の言語への切替えを指示する切替え指示に応答して、前記第２の言語に対応する前記第２の音声認識エンジンが利用中か否かを判断し、
前記第２の音声認識エンジンが利用中でなく前記第２の音声認識エンジンを使用可能と判断した場合には、前記第１の言語を前記第２の言語に切替え、前記第２の言語に対応する前記第２の音声認識エンジンを用いて前記着信後の通話中の音声情報を認識し、
前記第２の音声認識エンジンが利用中により、前記第２の音声認識エンジンを使用不可能と判断した場合には、前記第２の言語に対応する前記第２の音声認識エンジンを用いて前記着信後の音声情報を通話終了後に認識することを特徴とする通話音声処理方法。
前記通話中の前記音声情報を録音ファイルに録音し、
前記通話終了後に、前記第２の音声認識エンジンを用いて前記録音ファイルに録音された前記音声情報を認識することを特徴とする請求項８に記載の通話音声処理方法。
前記着信後に、オペレータが操作する操作端末に表示された言語選択画面を介して指示される前記切替え指示に応答して、前記第１の言語を前記第２の言語に切り替えることを特徴とする請求項８に記載の通話音声処理方法。
前記第１の音声認識エンジンを用いて前記着信時の音声情報を認識した音声認識結果を表示し、
前記着信後に、前記音声認識結果に応じて、前記第１の言語から前記第２の言語への切替えを指示し、
前記指示に基づいて、前記第２の音声認識エンジンを用いて前記着信後の音声情報を認識し、
前記第２の音声認識エンジンを用いて前記着信後の音声情報を認識した音声認識結果を表示することを特徴とする請求項８に記載の通話音声処理方法。