JP6767796B2

JP6767796B2 - 通話管理システム及びその音声認識制御方法

Info

Publication number: JP6767796B2
Application number: JP2016135812A
Authority: JP
Inventors: 英寿有川
Original assignee: Hitachi Information and Telecommunication Engineering Ltd
Current assignee: Hitachi Information and Telecommunication Engineering Ltd
Priority date: 2016-07-08
Filing date: 2016-07-08
Publication date: 2020-10-14
Anticipated expiration: 2036-07-08
Also published as: US10170120B2; US20180012600A1; JP2018005167A

Description

本発明は、通話管理システム及びその音声認識制御方法に係り、特に、コールセンタにおいて、顧客とオペレータとの通話内容の録音内容を、音声認識する場合に、ハードウェアリソースの消費を抑えつつ、音声認識の結果を利用した顧客対応により顧客の満足度を高めるのに好適な通話管理システム及びその音声認識制御方法に関する。

コールセンタにおいて、サービス品質向上などの目的で通話内容をリアルタイムでテキスト化し監視するということが行なわれている。音声認識を行う音声認識エンジンは、リアルタイムで生成された音声ファイルが作成、更新されるごとに音声をテキスト化する。センタのスーパバイザ（監視者）は、そのテキストをモニタで確認することにより、問題のありそうな通話に対して、その通話を担当するオペレータを熟練したオペレータに切り換えたり、オペレータに対して有効な情報を提供するなどの対応をとることができる。

コールセンタにおける音声認識技術に関しては、例えば、特許文献１がある。特許文献１の通話データ管理システムの音声認識サーバは、音声データから通話開始タイミングを取得して、通話開始タイミングの直後に音声認識を開始させる。

特開２０１５−１７７４１１号公報

特許文献１の通話データ管理システムの音声認識サーバは、上記のように音声データから通話開始タイミングを取得することにより、通話をリアルタイムで音声認識をするものであった。

しかしながら、音声認識のハードウェアのリソースの最適化については考慮されていない。一般に、音声認識の中核となるモジュールである音声認識エンジンは、ハードウェアリソース(ＣＰＵ（Central Processing Unitやメインメモリ)を多く消費するため、音声認識エンジンを多数稼動させるためには多くのマシンが必要であるという問題点があった。

一方、コールセンタにおける通話内容については、通話内容が簡単な問合せであるなどの比較的対処が容易なものから、顧客のクレームの対応など慎重に対処すべきものなど多岐にわたるのが現状である。したがって、全てのオペレータの通話を逐一監視する必要は必ずしもなく、真に監視が必要な通話に対して、コールセンタのハードウェアリソース、ソフトウェアリソース、ヒューマンリソースをつぎこむのが望ましい。

本発明は、上記問題点を解決するためになされたもので、その目的は、通話内容の録音内容を、音声認識する場合に、ハードウェアリソースの消費を抑えつつ、通話管理システムの運営を効率的に行うことのできる通話管理システム及びその音声認識制御方法を提供することにある。

本発明に係る通話管理システムは、外部回線からの呼にかかる通話を録音して、音声認識して通話をテキスト化して表示する通話管理システムであって、通話データの録音データを音声認識して、テキストデータを出力する音声認識サーバを備える。そして、音声認識サーバは、音声データを音声認識して、テキスト化する音声認識エンジンと、通話ごとに音声認識のモードを保持するモード制御テーブルとを有し、音声認識エンジンは、言語化部に対して、音声認識のモードを指示するモード管理部と、音声認識によりテキスト化された認識結果データを解析する出力解析部とを有し、出力解析部は、音声認識によりテキスト化された認識結果データを解析した結果にしたがって、モード管理部に音声認識のモードを指示し、モード管理部は、出力解析部の指示にしたがい通話ごとにモード制御テーブルに保持された音声認識のモードを書き換え、通話ごとにモード制御テーブルに保持された音声認識のモードにしたがって、言語化部に音声認識のモードを指示する。

本発明によれば、通話内容の録音内容を、音声認識する場合に、ハードウェアリソースの消費を抑えつつ、通話管理システムの運営を効率的に行うことのできる通話管理システム及びその音声認識制御方法を提供することができる。

コールセンタにおける通話管理システムの全体構成図である。第一の実施形態に係る通話管理システムの機能関連図である。コールセンタに設置されるサーバのハードウェア・ソフトウェア構成図である。コールセンタに設置されるサーバにおける並列処理の様子を説明する模式図である。認識エンジンの構成図である。通話管理テーブル１００の一例を示す図である。モード制御テーブル３０１の一例を示す図である。デフォルトモードテーブル３０２の一例を示す図である。出力解析管理テーブル３０３の一例を示す図である。オペレータＮＧワードリスト３０４の一例を示す図である。カスタマーＮＧワードリスト３０５の一例を示す図である。モード変更閾値テーブル３０６の一例を示す図である。第一の実施形態におけるコールセンタにおける通話管理システムの処理を示すシーケンス図である。一般的な音声認識エンジンにおける音声認識処理を示すシーケンス図である。第一の実施形態における音声認識エンジンにおける音声認識処理を示すシーケンス図である（その一）。第一の実施形態における音声認識エンジンにおける音声認識処理を示すシーケンス図である（その二）。言語化部における候補を、通常モードと高認識モードの場合で対比して示した図である。音声認識エンジンにおける音声認識のモードを切り換えるときの処理を示すシーケンス図である。デフォルトモード設定を説明する模式図である。第一の実施形態におけるモード設定を説明する模式図である。音声認識エンジンの出力解析部の認識結果を解析して認識モードを判定する処理を示すフローチャートである。第二の実施形態に係る通話管理システムの機能関連図である。第二の実施形態におけるモード設定を説明する模式図である。要注意電話番号テーブルの一例を示す図である。

以下、本発明に係る各実施形態を、図１ないし図２２を用いて説明する。

〔実施形態１〕
以下、本発明に係る第一の実施形態を、図１ないし図１９を用いて説明する。

先ず、図１ないし図５を用いて、本発明の第一の実施形態に係るコールセンタにおける通話管理システムの構成について説明する。
図１は、コールセンタにおける通話管理システムの全体構成図である。
図２は、第一の実施形態に係る通話管理システムの機能関連図である。
図３は、コールセンタに設置されるサーバのハードウェア・ソフトウェア構成図である。
図４は、コールセンタに設置されるサーバにおける並列処理の様子を説明する模式図である。
図５は、認識エンジンの構成図である。

本実施形態のコールセンタにおける通話管理システムは、図１に示されるように、顧客等のカスタマー電話機５１から公衆網６を介して接続されるＩＰ−ＰＢＸ（Internet Protocol−Private Branch eXchange、ＩＰ回線対応構内交換機）８０が、ネットワーク７を介して、オペレータ電話機５０と接続し通話をする構成を有する。オペレータは、カスタマー電話機５１からの発信を受け、ＩＰ−ＰＢＸ８０により、交換処理されて、オペレータ電話機５０の通話者であるオペレータと通話し、顧客からの問合せに応えたり、サービスを提供する。

コールセンタシステムは、ネットワーク７を介して、ＩＰ−ＰＢＸ８０、ネットワークスイッチ４０、通話録音サーバ３０、センタ管理サーバ１０、音声認識サーバ２０、オペレータ電話機５０、監視ＰＣ６０が接続されて構成されている。

ＩＰ−ＰＢＸ８０は、顧客のカスタマー電話機５１からの呼を受けて、ＩＰ網と公衆網６のプロトコル変換、発着信の呼制御などを行う。

ネットワークスイッチ４０は、ネットワーク上を流れるパケットの転送経路を学習し、パケットの転送処理を行う装置である。なお、図１では、ＩＰ−ＰＢＸ８０と、オペレータ電話機５０、通話録音サーバ３０のみがネットワークスイッチ４０に接続されているが、センタ管理サーバ１０、音声認識サーバ２０、監視ＰＣ６０がネットワークスイッチ４０に接続されていてもよい。

通話録音サーバ３０は、オペレータ電話機５０でやりとりされる通話のデータストリームを、ＩＰ−ＰＢＸ８０経由で、録音データとして録音するサーバである。

センタ管理サーバ１０は、通話情報と、録音情報、音声認識情報を対応付けて管理し、音声認識サーバ２０に音声認識に関する指示を与えるサーバである。センタ管理サーバ１０は、データベースとして、通話管理テーブル１００、音声ファイル１２０、認識結果ファイル１４０を保持して管理している。

音声認識サーバ２０は、音声データである録音データをテキストデータに変換するサーバである。音声認識サーバ２０は、データベースとして、音声認識制御ＤＢ３００をアクセスする。

オペレータ電話機５０は、各オペレータが、オペレータの通話業務に使う機器である。オペレータ電話機５０は、顧客のカスタマー電話機５１と、公衆網６を介した外線による通話をするための装置である。

監視ＰＣ６０は、コールセンタの監視者が、コールセンタにおける運営状況や通話に関する情報を表示したり、監視者がコールセンタの機器の制御やオペレータの指示を入力する装置である。特に、本実施形態では、監視ＰＣ６０に顧客とオペレータの通話を音声認識したテキストを表示する。

次に、図２を用いてコールセンタにおける通話管理システムの各部の機能とデータの関連について説明する。

監視ＰＣ６０は、通話・録音情報取得部６０１、音声認識要求部６０２、モード条件設定部６０３、認識結果取得部６０４の各機能ブロックを有する。

通話・録音情報取得部６０１は、監視者が通話・録音情報のセンタ管理サーバ１０が保持する通話管理テーブル１００から、コールセンタにおける通話情報や録音情報を取得する部分である。

音声認識要求部６０２は、センタ管理サーバ１０に対して録音データの音声認識を要求する部分である。

モード条件設定部６０３は、音声認識サーバ２０の音声認識モードに関する情報を設定する部分である。音声認識モードについては、後に詳述する。

音声認識結果取得部６０４は、音声認識サーバ２０に要求した録音データの音声認識結果をテキストとして受取る部分である。

オペレータ電話機５０での通話は、ＩＰ網でのＲＴＰ（Real-time Transport Protocol）によるものであり、通話録音サーバ３０に送られて、センタ管理サーバ１０に転送され、一定時間ごとに分割された音声ファイル１２０として保存される。

また、ＩＰ−ＰＢＸ８０は、通話情報をセンタ管理サーバ１０に送信する。

音声認識サーバ２０は、要求解析制御部２１０、音声認識エンジン２００、認識結果管理部２２０、制御ＤＢ設定部２３０からなり、音声認識制御のためのデータベースとして、音声認識制御ＤＢ３００を保持している。

要求解析制御部２１０は、センタ管理サーバ１０からの音声認識要求、監視ＰＣ６０からモード条件の設定の要求、認識結果取得の要求を受けて、音声認識エンジン２００、認識結果管理部２２０、制御ＤＢ設定部２３０に指示を与える部分である。音声認識エンジン２００は、録音データを、設定された音響モデル、言語モデルに基づいて、その言葉の対応するテキストデータに変換する部分である。認識結果管理部２２０は、音声認識エンジン２００が出力するテキストデータを認識結果ファイル１４０として格納し、アクセスを管理する部分である。また、監視ＰＣ６０の認識結果取得部６０４からの要求により、認識結果ファイル１４０のデータを送信する機能も有する。

音声認識制御ＤＢ３００には、音声認識エンジン２００の音声認識処理を制御するためのテーブル類が格納される。音声認識制御ＤＢ３００に格納されるテーブル類の詳細は後に説明する。

センタ管理サーバ１０は、通話情報登録部１０１、音声認識制御部１０２の機能ブロックを有し、通話情報管理テーブル１１０、音声ファイル１２０、認識結果ファイル１４０を保持する。

通話情報登録部１０１は、ＩＰ−ＰＢＸから転送される通話情報を、通話録音サーバ３０から転送される音声情報、音声認識サーバ２０の音声認識エンジンで認識した認識結果情報を関連付けて、通話情報管理テーブル１１０に登録する。

音声認識制御部１０２は、監視ＰＣ６０からの要求を受け、音声認識サーバ２０に対して、通話の音声認識を指示する。

通話情報管理テーブル１１０は、通話とその音声情報、その音声を認識した認識結果に関する情報を格納するテーブルである。通話情報管理テーブル１１０の詳細については、後述する。

音声認識エンジン２００は、通話管理テーブル１００の情報と、音声ファイル１２０を読み出して、指定された通話の音声情報を認識して、テキスト化し、認識結果ファイル１４０に書き出す。

次に、図３を用いてコールセンタに設置されるサーバのハードウェア・ソフトウェア構成図である。

本実施形態でコールセンタに設置されるサーバ４００は、マルチプロセッサ・マルチコアの並列アーキテクチャを有するプロセッサで、音声認識サーバ２０の機能と、他の業務プログラムを実行するサーバの機能（ファイルサーバ、データベースサーバ、Ｗｅｂサーバなど）を含む場合について説明する。また、図３に示したサーバ４００は、図１及び図２で説明したセンタ管理サーバ１０、通話録音サーバ３０の機能を提供するサーバであってもよい。

コールセンタに設置されるサーバ４００のハードウェア構成は、図３に示されるようにＣＰＵ４１０、メインメモリ４０２、表示Ｉ／Ｆ４０１、入出力Ｉ／Ｆ４０３、ネットワークＩ／Ｆ４０５、補助記憶Ｉ／Ｆ４０４がバスにより接続されたものである。

ＣＰＵ４１０は、サーバ４００の各部を制御し、メインメモリ４０２に必要なプログラムをロードして実行する。特に、本実施形態のサーバ４００は、複数のＣＰＵ４１０を有する対称型マルチプロセッシング（ＳＭＰ：Symmetric Multiprocessing）アーキテクチャであり、メインメモリ４０２を共有している。また、ＣＰＵ４１０は、複数のコア４１２を有し、コア４１２からＣＰＵ４１０内で高速にアクセスするキャシュメモリ４１３を有している。ＣＰＵ４１０内では、ＯＳ（Operating System）から処理のスケジュール単位として、スレッドという制御単位で処理を割当てられて実行される。

メインメモリ４０２は、通常、ＲＡＭなどの揮発メモリで構成され、ＣＰＵ４１０が実行するプログラム、参照するデータが記憶される。ネットワークＩ／Ｆ４０５は、ネットワーク７と接続するためのインタフェースである。表示Ｉ／Ｆ４０１は、ＬＣＤ（Liquid Crystal Display）などの表示装置４２０を接続するためのインタフェースである。

入出力Ｉ／Ｆ４０３は、入出力装置を接続するためのインタフェースである。図３の例では、キーボード４２１とポインティングデバイスのマウス４２２が接続されている。

補助記憶Ｉ／Ｆ４０４は、ＨＤＤ（Hard Disk Drive）４３０やＳＳＤ（Solid State Drive）などの補助記憶装置を接続するためのインタフェースである。特に、サーバでは、ＨＤＤをアレイ状に構成して、ディスクアレイを形成する場合もある。

ＨＤＤ４３０は、大容量の記憶容量を有しており、本実施形態を実行するためのプログラムが格納されている。サーバ４００は、ＯＳ４４０、音声認識サーバ制御プログラム４３２、音声認識エンジンプログラム４３４、コールセンタ業務プログラム４３６が格納されている。

ＯＳ４４０は、サーバ４００のハードウェアリソース、ソフトウェアリソースを管理し、アプリケーションプログラムを実行する。特に、本実施形態では、処理をプロセスやスレッドという単位でスケジューリングする並列処理可能ＯＳであるものとする。

音声認識サーバ制御プログラム４３２、音声認識エンジンプログラム４３４は、図２で示した音声認識サーバ２０の機能として実行されるプログラムであり、音声認識サーバ制御プログラム４３２は、ＣＰＵ４１０で実行されることにより、要求解析制御部２１０、認識結果管理部２２０、制御ＤＢ設定部２３０の機能を実現するプログラムであり、音声認識エンジンプログラム４３４は、音声認識エンジン２００の機能を実現するプログラムである。

次に、図３を用いてサーバ４００における並列処理とハードウェアリソースの消費の関係について説明する。

本実施形態の音声認識サーバは、その音声認識の仕方の違いにより、通常モードと高認識モードの二種のモードが存在する。これらのモードにおける音声認識の詳細については、後に詳述する。

通常モードは、音声認識サーバ２０の音声認識エンジン２００の処理負荷が比較的軽い動作モードであり、高認識モードは、通常モードと比較して、処理負荷が比較的重く、ハードウェアリソースを消費するが、音声認識の結果は、高精度で認識できるモードである。

通常モードの場合は、図４（ａ）に示されるように、一つのＣＰＵ４１０のコア４１２で、音声認識エンジン２００の処理するスレッド（以下、「認識エンジンスレッド」という、図４も同じ）が、二つ同時に処理でき、他のコアは、他の業務アプリケーションプログラムによるスレッドを処理するようにスケジューリングできることになる。

一方、高認識モードの場合は、図４（ｂ）に示されるように、一つのＣＰＵ４１０のコア４１２で、認識エンジンスレッドが、一つしか処理できず、二つのコア４１２が占有されて、他の業務アプリケーションプログラムによるスレッドは、スケジューリングされないようになる。

したがって、ハードウェアリソースの節減という面からみれば、通常モードで音声認識を行うことが好ましく、必要に応じて、高認識モードに切り換えることが望ましいことになる。

次に、図５を用いて音声認識エンジンの構成について説明する。

音声認識エンジン２００は、音声データから言語の特徴に基づいて認識を行ないテキスト化するモジュールである。音声認識は、現在の一般的な技法としては、音声データから音声区間を検出し、音声スペクトルの計算などから特徴量を抽出する。そして、その特徴量から音素情報の計算と言語化を行うことにより音声として認識するものである。本実施形態の音声認識エンジン２００は、図５に示されるように、音声区間検出部２０１、特徴量検出部２０２、音素情報計算部２０３、言語化部２０４、出力部２０５、モード管理部２０６、出力解析部２０７からなる。なお、モード管理部２０６、出力解析部２０７が、一般的な音声エンジンに対して付け加わっている本実施形態の特徴的な部分である。

音声区間検出部２０１は、音声データから音声区間を検出する部分である。音声区間検出部２０１は、雑音除去などを行なった後に、音量が小さくなった瞬間を音声の区切り目とみなし、その後、非同期に特徴量抽出部以下を開始する。

特徴量検出部２０２は、音声データから特徴量を検出する部分である。ここで、特徴量とは、音声データのどの波長がどのくらい含まれているかを表す量であり、例えば、音声スペクトル、音量、その差分などの量である。

音素情報計算部２０３は、音響モデル２５０を用いて、特徴量から音声区間の音声がどの音素(a, k, iなどの発音記号に相当）に該当するかを計算する部分である。音響モデル２５０は、どういう特徴量を持っていればどの音素に近いかを記録しているモデルである。

言語化部２０４は、音素と言語モデル２６０を用いて何を話していたかを確定させる部分である。言語モデル２６０とは、音声認識における言語処理において、文の品詞や統語構造、単語と単語、文書と文書などの関係性について定式化したモデルである。言語化部２０４では、言語化の候補の展開の仕方を通常モードと高認識モードで切り換える。言語化の候補の展開の詳細については、後に説明する。

出力部２０５は、音声認識の結果をテキスト化して出力する部分である。

モード管理部２０６は、音声制御ＤＢ３００に格納された情報に基づいて、言語化部２０４に、通常モードと高認識モードの切り換えを指示する部分である。

出力解析部２０７は、出力部から出力される音声認識の結果を解析して、音声認識ＤＢ３００に反映し、モード管理部２０６に対して通常モードと高認識モードの切り換えを指示する。

次に、図６ないし図９を用いて第一の実施形態の通話管理システムで使用されるデータ構造について説明する。
図６は、通話管理テーブル１００の一例を示す図である。
図７は、モード制御テーブル３０１の一例を示す図である。
図８は、デフォルトモードテーブル３０２の一例を示す図である。
図９は、出力解析管理テーブル３０３の一例を示す図である。
図１０は、オペレータＮＧワードリスト３０４の一例を示す図である。
図１１は、カスタマーＮＧワードリスト３０５の一例を示す図である。
図１２は、モード変更閾値テーブル３０６の一例を示す図である。

通話管理テーブル１００は、センタ管理サーバ１０において、通話情報、録音情報、認識結果テキストを関連付けるためのテーブルであり、図６に示されるように、通話識別ＩＤ１００ａ、オペレータＩＤ１００ｂ、発番号１００ｃ、着番号１００ｄ、開始時刻１００ｅ、終了時刻１００ｆ、録音状態１００ｇ、音声ファイル１００ｈ、認識結果１００ｉの各フィールドからなる。

通話識別ＩＤ１００ａは、カスタマーとオペレータ間の通話の識別子を格納するフィールドである。オペレータＩＤ１００ｂは、カスタマーに対応したオペレータの識別子を格納するフィールドである。発番号１００ｃ、着番号１００ｄは、それぞれ通話の発信番号、着信番号を格納するフィールドである。開始時刻１００ｅ、終了時刻１００ｆは、録音状態１００ｇは、カレントの音声の録音状態を格納するフィールドである。音声ファイル１００ｈは、録音した音声ファイルのセンタ管理サーバ１０におけるパスを格納するフィールドである。音声ファイルは、例えば、ｗａｖ形式のファイルで格納される。認識結果１００ｉは、音声認識したテキストファイルのセンタ管理サーバ１０におけるパスを格納するフィールドである。音声認識したテキストファイルは、例えば、ｔｘｔ形式のファイルで格納される。

以下のモード制御テーブル３０１、デフォルトモードテーブル３０２、出力解析管理テーブル３０３、オペレータＮＧワードリスト３０４、カスタマーＮＧワードリスト３０５、モード変更閾値テーブル３０６は、音声認識制御ＤＢ３００に格納されるテーブルである。

本実施形態でのＮＧワードは、オペレータＮＧワードとカスタマーＮＧワードがあり、オペレータの発話に表れると要監視であるとされるワードを、オペレータＮＧとし、カスタマーの発話に表れると要監視であるされるワードを、カスタマーＮＧワードとする。オペレータＮＧワード、カスタマーＮＧワードの具体例は、後述する。

モード制御テーブル３０１は、音声認識エンジンにおける音声認識のモードを制御するためのテーブルであり、図７に示されるように、通話識別ＩＤ３０１ａ、オペレータＩＤ３０１ｂ、現モード３０１ｃの各フィールドからなる。

通話識別ＩＤ３０１ａは、音声認識しようとしている通話の識別ＩＤを格納するフィールドである。オペレータＩＤ３０１ｂは、音声認識しようとしている通話に係るオペレータの識別子を格納するフィールドである。現モード３０１ｃは、音声認識エンジンにおけるカレントの音声認識のモードを格納するフィールドである。

デフォルトモードテーブル３０２は、オペレータに対する音声認識エンジンにおける音声認識のデフォルトのモードを格納するためのテーブルであり、図８に示されるように、オペレータＩＤ３０２ａ、デフォルトモード３０２ｂの各フィールドからなる。

オペレータＩＤ３０２ａは、デフォルトモードを設定するオペレータの識別子を格納するフィールドである。デフォルトモード３０２ｂは、オペレータＩＤ３０２ａに対して、音声認識エンジンにおけるデフォルトの音声認識のモードを格納するフィールドである。

出力解析管理テーブル３０３は、音声認識エンジン２００の出力解析部２０７が、音声認識のテキストを解析した結果を格納するテーブルであり、図９に示されるように、通話識別ＩＤ３０３ａ、オペレータＩＤ３０３ｂ、累積オペレータＮＧワード回数３０３ｃ、累積カスタマーＮＧワード回数３０３ｄ、累積かぶり回数３０３ｅ、累積音量激変回数３０３ｆの各フィールドからなる。

通話識別ＩＤ３０３ａは、カスタマーとオペレータ間の通話の識別子を格納するフィールドである。オペレータＩＤ３０３ｂは、カスタマーに対応したオペレータの識別子を格納するフィールドである。累積オペレータＮＧワード回数３０３ｃは、後述の累積オペレータＮＧリスト３０４に登録されたオペレータＮＧワードのその通話における累積回数である。累積カスタマーＮＧワード回数３０３ｄは、後述の累積カスタマーＮＧリスト３０５に登録されたカスタマーＮＧワードのその通話における累積回数である。累積かぶり回数３０３ｅは、その通話において、オペレータレータとカスタマーの会話の発声が所定の時間より重なったと判定された累積回数である。累積音量激変回数３０３ｆは、その通話において、オペレータレータとカスタマーの会話の発声が所定の音量より大きくなったと判定された累積回数である。

累積オペレータＮＧワード回数３０３ｃ、累積カスタマーＮＧワード回数３０３ｄ、累積かぶり回数３０３ｅ、累積音量激変回数３０３ｆは、全て値が大きいほど、その通話が要監視になっていくことを意味する。

オペレータＮＧワードリスト３０４は、このワードがオペレータの発話に含まれているときに、監視が必要であるとみなすワード（オペレータＮＧワード）のリストであり、例えば、図１０に示されるように、「申し訳ありません」「こまります」「できません」などのワードが格納される。

カスタマーＮＧワードリスト３０５は、このワードがカスタマーの発話に含まれているときに、監視が必要であるとみなすワード（カスタマーＮＧワード）のリストであり、例えば、図１１に示されるように、「分からない」「ふざけるな」「意味不明」などのワードが格納される。

モード変更閾値テーブル３０６は、音声認識エンジン２００のモード管理部２０６が、図９の出力解析管理テーブルの値がこの値を超えているときに、音声認識モードを通常モードから高精度モードに切り換えることを、言語化部２０４に指示するためのテーブルであり、図１２に示されるように、オペレータＮＧワード回数閾値３０６ａ、カスタマーＮＧワード回数閾値３０６ｂ、かぶり回数閾値３０６ｅ、音量激変回数閾値３０６ｆの各フィールドよりなる。

オペレータＮＧワード回数閾値３０６ａ、カスタマーＮＧワード回数閾値３０６ｂ、かぶり回数閾値３０６ｅ、音量激変回数閾値３０６ｆは、それぞれ、累積カスタマーＮＧワード回数３０３ｄ、累積かぶり回数３０３ｅ、累積音量激変回数３０３ｆが、この値を超えたときに、音声認識エンジン２００の音声認識モードを通常モードから高精度モードに切り換えることを意味している。

次に、図１３ないし図１９を用いて第一の実施形態に係るコールセンタにおける通話管理システムの処理について説明する。

先ず、図１３を用いてコールセンタにおける通話管理システムの一般的な処理を説明する。
図１３は、第一の実施形態におけるコールセンタにおける通話管理システムの処理を示すシーケンス図である。

先ず、通話録音サーバ３０が通話開始を検知する（Ｓ１００）。次に、通話録音サーバ３０は、センタ管理サーバ１０に通話開始を通知する（Ａ１０１）。センタ管理サーバ１０は、通話に通話識別ＩＤを付与し、通話管理テーブル１００に登録する（Ｓ１０１）。次に、センタ管理サーバ１０は、通話ＩＤとオペレータＩＤを渡して、音声認識サーバ２０に通話開始を通知する（Ａ１０２）。音声認識サーバ２０の音声認識エンジン２００のモード管理部２０６は、渡された通話ＩＤとオペレータＩＤに基づき、モード制御テーブル３０１に音声認識の現モードを設定する（Ｓ１０２）。また、音声認識サーバ２０は、データを受信するための情報（ポート番号、装置ＩＤなど）を伝達する（Ｓ１０２、Ａ１０３、Ａ１０４）。デフォルトでは、図８に示したデフォルトモードテーブル３０２を参照して、音声認識のモードが設定される。次に、通話録音サーバ３０は、一定秒数ごとに、音声認識サーバ２０からの情報に基づいて、録音データを音声認識サーバ２０に伝達する（Ｓ１０３、Ａ１０５）。次に、音声認識サーバ２０は、認識結果が出るごとに、センタ管理サーバ１０に認識結果を送付する（Ｓ１０４、Ａ１０６）。次に、通話録音サーバ３０は、通話終了を検知する（Ｓ１０６）。次に、通話録音サーバ３０は、通話終了をセンタ管理サーバ１０に通知する（Ａ１０７）。最後に、センタ管理サーバ１０は、音声認識サーバ２０に通話終了を通知する（Ｓ１０７、Ａ１０８）。

次に、図１４ないし図１９を用いて音声認識エンジンにおける音声認識処理の詳細と認識モードの切り換えについて説明する。
図１４は、一般的な音声認識エンジンにおける音声認識処理を示すシーケンス図である。
図１５Ａ、図１５Ｂは、第一の実施形態における音声認識エンジンにおける音声認識処理を示すシーケンス図である。
図１６は、言語化部における候補を、通常モードと高認識モードの場合で対比して示した図である。
図１７は、音声認識エンジンにおける音声認識のモードを切り換えるときの処理を示すシーケンス図である。
図１８Ａは、デフォルトモード設定を説明する模式図である。
図１８Ｂは、第一の実施形態におけるモード設定を説明する模式図である。
図１９は、音声認識エンジンの出力解析部の認識結果を解析して認識モードを判定する処理を示すフローチャートである。

先ず、図１４を用いて一般的な音声認識エンジンにおける音声認識処理について説明する。

音声認識処理は、既に説明したように、音声データから音声区間を検出し、音声スペクトルの計算などから特徴量を抽出し、その特徴量から音素情報の計算と言語化を行うことにより音声として認識するものである。

先ず、音声区間検出部２０１は、音声データをバッファリングして、音声区間を検出する（Ｓ１０、Ａ０１）。この処理では、音声区間検出部２０１は、雑音除去などを行なった後、音量が小さくなった瞬間を音声の区切り目とみなす。その後、非同期に特徴量抽出部以下の処理を開始する（Ｓ１１）。特徴量検出部２０２は、認識開始の指示をうけ（Ａ０２）、音声データから特徴量を検出する（Ｓ１２、Ａ０３）。次に、音素情報計算部２０３は、特徴量検出部２０２から認識の指示を受け（Ａ０４）、音響モデル２５０を用いて特徴量から音声区間の音声がどの音素に該当するかを計算する（Ｓ１３、Ａ０５）。次に、言語化部２０４は、音素情報計算部２０３からから認識の指示を受け（Ａ０６）、音素情報計算部２０３で計算された音素と言語モデル２６０を用いて何を話していたかを確定させ（言語化し）（Ｓ１４、Ａ０７）、出力部にテキストとして出力の指示をし（Ａ０８）、そして、出力部２０５は、音声認識エンジン２００の外部に、音声認識したテキストを出力する（Ｓ１５、Ａ０９）。

次に、図１６、図１８Ａ、図１８Ｂを用いて音声認識のモードについて説明する。

上記で説明した一般的な音声認識の技法においては、言語化部２０４は、図１６に示されるように、候補となる文を図３に示すメインメモリ４０２上に展開して、その内に一つを選んで確定させ、音声区間が終わると、そのときの一番有力な候補の文を出力部２０５に対して出力依頼をする（図１３のＡ０８）。

ところが、音声を認識するには、言語モデルに文章を大量（例：３５０ＭＢのデータベース）に登録し、候補を多数（例：２０４８件）覚えておく必要がある。したがって、候補の展開時には、メインメモリ４０２のエリアが大量に必要となり（例：１認識処理あたり５００ＭＢ）、かつ、そのためのＣＰＵ負荷も過大なものになる。したがって、オペレータが多数いるコールセンタでは、その数に対応したＣＰＵの能力と、広大なメインメモリの容量が必要となる。図３、図４の例では、認識エンジンスレッドを処理するためのＣＰＵ４１０のコア４１２と、十分な容量のメインメモリ４０２が必要となる。ＣＰＵ４１０のコア４１２の能力が不足するとき、また、認識エンジンスレッドを処理するＣＰＵ４１０のコア４１２が少ないときには、プロセスの待ち行列ができ、リアルタイムに音声認識ができないという事態になる。また、メインメモリ４０２のエリアが不足するときには、メインメモリ４０２とＨＤＤ４３０との間でスワッピングが生じて、処理能力が大幅に低下する。

しかしながら、コールセンタの監視者が、リアルタイムに監視したい通話は、カスタマーとトラブルが起きている通話、オペレータの対応能力が不足する場合の通話などであり、すべての通話を監視したいわけではない。

本実施形態の音声認識エンジン２００は、少なくとも二つの音声認識のモードを有する。すなわち、音声認識エンジン２００を実行するためのハードウェアリソース消費量が多く、認識率が高いモード（「高認識モード」とよぶことにする）と、ハードウェアリソース消費量が少なく、認識率が低いモード（「通常モード」とよぶことにする）を有するものとする。通常モードで音声認識エンジン２００を実行するためには、（１）言語モデル２６０に登録する文の量を少なくする（２）一時的に覚えておく、候補の数を少なくする、の二要件を満たすようにする。

例えば、通常モードの場合には、図１６（ａ）に示されるように、極端にすると、候補文は、ほぼ全てひらがなになり、候補も少なくなる。高認識モードの場合には、図１６（ｂ）に示されるように、候補が多くなり、音声認識の精度は格段に向上する。

そして、出力解析部２０７が、通話になんらかの異常を検出したとき、例えば、カスタマーＮＧワード、オペレータＮＧワードを、一定数以上検出したときに、通常モードからから高認識モードに切り換える。すなわち、カスタマーが満足していない場合や、オペレータの対応能力を超える場合には、ＮＧワードが発せられたり（カスタマーからは、「まだ？」「全然わからないよ」、オペレータからは、「申し訳ございません」「大変お待たせしております」など）、カスタマーの通話の音量が上がったり、会話のかぶりが多くなったりする傾向があることに注目して、通常モードからから高認識モードに切り換えるトリガーにする。

先ず、センタの管理者は、図１８Ａに示されるように、オペレータの習熟度が低い、トラブルが多いなど、予め、その通話が高認識モードでの音声認識が必要と管理者が判断した場合には、デフォルトモードとして、高認識モードを設定することができる（図８のデフォルトモードテーブル３０２）。音声認識サーバ２０は、センタ管理サーバ１０から通話の音声認識を指示されたときに、通話ＩＤ、オペレータＩＤを受取り、デフォルトモードテーブル３０２を参照し、それらの値に基づいて音声認識サーバ２０の音声認識エンジンのモード管理部が、モード制御テーブル３０１のモードを設定する。

また、図１８Ｂに示されるように、予め、オペレータＮＧワードリスト（図１０のオペレータＮＧワードリスト３０４）、カスタマーNGワードリスト（図１１のカスタマーＮＧワードリスト３０５）、モード変更閾値（図１２のモード変更閾値テーブル３０６）を設定しておく。

次に、図１５Ａないし図１９を用いて音声認識のモードの設定と切り換えの処理について説明する。
図１３に示した一般的な音声認識エンジンにおける音声認識処理の場合のＳ１０〜Ｓ１３、Ａ０１〜Ａ０６までは同様である。以下、言語化部２０４以降の処理について説明する。
図１５Ａに示されるように、言語化部２０４は、音素情報計算部２０３から認識の指示を受け（Ａ０６）、モード管理部２０６にモード取得要求を行ない（図１５ＢのＳ１４、Ａ２０）、モード管理部２０６は、図７のモード制御テーブル３０１を参照し、その通話の現在のモードを返答する（Ｓ２０、Ａ２１）。言語化部２０４では、現モードにしたがって、モードに応じた言語化の処理を行う（Ａ２２）。次に、言語化部２０４から出力部２０５に対して、出力の指示をする（Ａ２３）。出力部２０５では、出力解析部２０７に、認識したテキストの解析を依頼する（Ａ２４）。出力解析部２０７は、認識したテキストの解析処理をする（Ｓ２２、Ａ２５）。具体的には、そのテキストからオペレータＮＧワード、カスタマーＮＧワードがあるときは、抜き出し、図９の出力解析管理テーブル３０３ｃの累積オペレータＮＧワード回数３０３ｃ、累積カスタマーＮＧワード回数３０３ｄに、それぞれ付け加える。また、通話内容のかぶりがあるとき、音量の激変が見られるときに、累積かぶり回数３０３ｅ、累積音量激変回数３０３ｆに、それぞれ付け加える。

そして、出力解析部２０７は、各々の値がモード変更閾値テーブル３０６の値を超えるときには、モード設定の指示を行う（Ｓ２２、Ａ２６）。モード管理部２０６は、その指示を受けて、モード制御テーブル２０１を書き換えることにより、モード設定を行う（Ｓ２３、Ａ２７）。そして、音声認識したテキストを出力する（Ａ３０）。

次に、図１７を用いて音声認識エンジンの音声認識のモードが、通常モードから高認識モードに変わるときの処理について、より具体的に説明する。

言語化部２０６に、認識開始の指示が与えられるまでは、図１４のＡ０６、図１５ＡのＡ０６までの処理と同様である。
図１７に示されるように、言語化部２０４は、音素情報計算部２０３から認識の指示を受け、モード管理部２０６にモード取得要求を行う（Ｓ４０、Ａ４０）。モード管理部２０６は、図７のモード制御テーブル３０１を参照し、その通話の現在のモードである「通常モード」を返答する（Ｓ４０、Ａ４１）。言語化部２０４では、通常モードに応じた言語化の処理を行う（Ａ４２）。次に、言語化部２０４から出力部２０５に対して、出力の指示をする（Ａ４３）。出力部２０５は、出力解析部２０７に、認識したテキストの解析を依頼する（Ｓ４２、Ａ４４）。出力解析部２０７は、認識したテキストの解析処理をする（Ｓ４３、Ａ４５）。ここで、解析の結果、音声認識のモードが変更する条件が発声してときには、出力解析部２０７は、モード管理部２０６に、「高認識モード」に設定する指示を行う（Ａ４６）。モード管理部２０６は、その通話のモード管理テーブル３０１の現モード３０１ｃに「高認識モード」を設定する（Ｓ４４、Ａ４７）。そして、出力部２０５は、音声認識したテキストを出力する。

それ以降で、言語化部２０４が、音素情報計算部２０３から認識の指示を受けたときに、モード管理部２０６に対してモード取得指示をした場合には（Ｓ５０、Ａ６０）、モード管理部２０６は、その通話の現在のモードが「高認識モード」であることを返答し（Ｓ５１、Ａ６１）、モード管理部２０６は、高認識モードで言語化の処理を行うことになる。

次に、図１９を用いて出力解析部の認識結果を解析して認識モードを判定する処理の詳細について説明する。

出力解析部２０７は、音声認識の結果のテキストにおいて、オペレータＮＧワードリスト３０４に登録されたワードが表れる回数を検索する（Ｓ２００）。

次に、出力解析部２０７は、音声認識の結果のテキストにおいて、カスタマーＮＧワードリスト３０５に登録されたワードが表れる回数を検索する（Ｓ２０１）。

次に、出力解析部２０７は、音声認識の結果において、通話のかぶりが表れる回数を検索する（Ｓ２０２）。

次に、出力解析部２０７は、音声認識の結果において、音量が激変した回数を検索する（Ｓ２０３）。

そして、Ｓ２００〜Ｓ２０３で検索した回数を、出力解析管理テーブル３０３のそれぞれ該当するフィールドに登録する（Ｓ２０４）。

なお、Ｓ２００〜Ｓ２０３は、順不同であり、また、その処理が終わったときに、逐次、出力解析管理テーブル３０３に登録してもよい。

次に、各フィールドの回数が、該当するモード変更閾値テーブルのフィールドと比較し、どれかその閾値を超えたか否かを判定する（Ｓ２０５）。

Ｓ２０５の判定で、閾値を超えたものがある場合には、出力解析部２０７は、モード管理部２０６に対して、その通話の音声認識のモードを、高認識モードに変更するように指示する（Ｓ２０６）。

ただし、モード認識の変更になる要件のうち、その内二つが閾値を超えたときに、高認識モードに変更する、また、全て閾値を超えたときに、高認識モードに変更するなど、閾値の値と同様、システム要件に合わせて、自由に設定することも可能である。

〔実施形態２〕
以下、本発明に係る第二の実施形態を、図２０及び図２１を用いて説明する。
図２０は、第二の実施形態に係る通話管理システムの機能関連図である。
図２１は、第二の実施形態におけるモード設定を説明する模式図である。

本実施形態は、第一の実施形態に加えて、通話の途中で、オペレータ又は監視者がモードを切り換えることができるようにしたものである。例えば、以下の場合が想定される。
・オペレータ自ら監視者へ聞かせたい場合（ヘルプを呼びたい場合）
・一時的に、監視者があるオペレータに注目する場合
・監視者が通話内容をチェックしたが問題ないので、「高認識モード」から「通常モード」に切り換える
本実施形態の通話管理システムは、図２０に示されるように、第一の実施形態の図２と比較して、オペレータＰＣ７０と、監視ＰＣ６０に現モード設定部６０５が付け加わっている。
図２１に示されように、オペレータＰＣ７０を操作するオペレータ、監視ＰＣ６０を操作する監視者は、現モードを設定するときには、音声認識サーバ２０の要求解析制御部２１０に、その通話ＩＤを特定して、その認識モードを送信する。要求解析制御部２１０は、音声認識エンジン２００のモード管理部２０６に対して、その情報を送信し、モード管理部２０６は、それを受けて、モード制御テーブル３０１の対応する現モード３０１ｃの値を設定するように指示する。

〔実施形態３〕
以下、本発明に係る第三の実施形態を、図２２を用いて説明する。
図２２は、要注意電話番号テーブルの一例を示す図である。

本実施形態では、過去に、その電話番号から発信された通話が、「高認識モード」に変更された電話番号と、その累計回数を、図２２に示されるように、要注意電話番号テーブル３０７の電話番号３０７ａ、累計高認識モード回数３０７ｂにそれぞれを記録しておく。通話開始時、これらの電話番号からかかってきた場合、デフォルトモードによらず、音声認識エンジン２００のモード管理部２０６は、それを受けて、モード制御テーブル３０１の対応する現モード３０１ｃの値を「高認識モード」に設定する（図１３のＳ１０２）。

これにより、そのカスタマーの過去の履歴に応じた適切な音声認識のモードを選択することが可能になる。

６…公衆網
７…ネットワーク
１０…センタ管理サーバ、
２０…音声認識サーバ
２００…音声認識エンジン
２１０…要求解析制御部
２２０…認識結果管理部
２３０…制御ＤＢ設定部
３０…通話録音サーバ
５０…オペレータ電話機
６０…監視ＰＣ
７０…オペレータＰＣ
８０…ＩＰ−ＰＢＸ
１００…通話管理テーブル
１２０…音声ファイル
１４０…認識結果ファイル
３００…音声認識制御ＤＢ

Claims

外部回線からの呼にかかる通話を録音して、音声認識して通話をテキスト化して表示する通話管理システムであって、
通話データの録音データを音声認識して、テキストデータを出力する音声認識サーバを備え、
前記音声認識サーバは、
音声データを音声認識して、テキスト化する音声認識エンジンと、
通話ごとに音声認識のモードを保持するモード制御テーブルとを有し、
前記音声認識エンジンは、
言語化部に対して、音声認識のモードを指示するモード管理部と、
音声認識によりテキスト化された認識結果データを解析する出力解析部とを有し、
前記出力解析部は、音声認識によりテキスト化された認識結果データを解析した結果にしたがって、前記モード管理部に音声認識のモードを指示し、
前記モード管理部は、前記出力解析部の指示にしたがい前記通話ごとに前記モード制御テーブルに保持された音声認識のモードを書き換え、通話ごとに前記モード制御テーブルに保持された音声認識のモードにしたがって、前記言語化部に音声認識のモードを指示し、
前記音声認識の第一のモードでは、前記言語化部は、参照するモデルの言語モデルの数を少なくし、中間結果として展開する候補の数を少なくし、
前記音声認識の第二のモードでは、前記言語化部は、参照するモデルの言語モデルの数を多くし、中間結果として展開する候補の数を多くし、
前記音声認識サーバは、
通話に出現するＮＧワードリストと、
ＮＧワードリストの出現の閾値を保持するモード変更閾値テーブルと、
通話ごとに、ＮＧワードの累積出現回数を保持する出力解析管理テーブルとを有し、
前記出力解析部は、前記出力解析管理テーブルに、通話ごとに前記音声認識によりテキスト化された認識結果データに出現する前記ＮＧワードリストに記録されたＮＧワードが出現した累計出現回数を記録し
前記出力解析部は、前記出力解析管理テーブルを参照し、通話ごとに前記ＮＧワードの累積出現回数が、前記モード変更閾値テーブルのＮＧワードリストの出現の閾値を超えたときに、前記音声認識のモードを前記第一のモードから前記第二のモードから切り換えることを前記モード管理部に指示することを特徴とすることを特徴とする通話管理システム。
前記音声認識サーバは、
通話のかぶり出現回数、通話の音量激変回数の出現の閾値を保持するモード変更閾値テーブルと、
通話ごとに、通話のかぶりの累積出現回数、通話の音量激変の累積出力回数を保持する出力解析管理テーブルとを有し、
前記出力解析部は、前記出力解析管理テーブルに、通話ごとに前記音声認識によりテキスト化された認識結果データに出現する通話のかぶりの累積出現回数、通話の音量激変の累積出力回数を記録し
前記出力解析部は、前記出力解析管理テーブルを参照し、通話ごとに前記通話のかぶりの累積出現回数、前記通話の音量激変の累積出力回数が、それぞれ、前記モード変更閾値テーブルの通話のかぶり出現回数、通話の音量激変回数の出現の閾値を超えたときに、前記音声認識のモードを前記第一のモードから前記第二のモードから切り換えることを前記モード管理部に指示することを特徴とする請求項１記載の通話管理システム。
前記音声認識サーバは、
さらに、オペレータごとにデフォルトの音声認識のモードを保持するデフォルトモードテーブルを有し、
前記モード制御テーブルは、通話ごとにオペレータを識別するオペレータＩＤを保持し、
前記通話ごとに、通話のオペレータのオペレータＩＤがデフォルトモードテーブルに登録されているときに、前記モード管理部は、音声認識の最初に、デフォルトモードテーブルのデフォルトの音声認識のモードを、前記モード制御テーブルの音声認識のモードに書き換えることを特徴とする請求項１記載の通話管理システム。
監視ＰＣ又はオペレータＰＣを有し、
前記監視ＰＣ又はオペレータＰＣから、前記音声認識サーバに、音声認識のモードを設定する手段を有し、
前記音声認識サーバの前記音声認識エンジンのモード管理部は、前記モード制御テーブルの音声認識のモードを、前記監視ＰＣ又はオペレータＰＣから設定された音声認識エンジンのモードに書き換えることを特徴とする請求項１記載の通話管理システム。
前記音声認識サーバは、
さらに、通話の電話番号ごとに、過去、第二の認識モードにした累積回数を保持する要注意番号テーブルを保持し、
前記音声認識サーバの前記音声認識エンジンのモード管理部は、音声認識にかかる通話の発信番号が、前記要注意番号テーブルの通話の電話番号であり、前記第二の認識モードにした累積回数が所定の閾値を超えたときには、前記モード制御テーブルの音声認識のモードを第二の認識モードに書き換えることを特徴とする請求項１記載の通話管理システム。
さらに、管理サーバを有し、
前記管理サーバは、通話ＩＤ、オペレータＩＤ、録音した音声ファイルの関係を保持する通話管理テーブルを有し、
前記通話管理サーバは、前記通話ＩＤ、前記オペレータＩＤをパラメタとして、前記音声認識サーバに、通話に関する音声認識の指示を行うことを特徴とする請求項１記載の通話管理システム。
外部回線からの呼にかかる通話を録音して、音声認識して通話をテキスト化して表示する通話管理システムの音声認識方法であって、
前記通話管理システムは、通話データの録音データを音声認識して、テキストデータを出力する音声認識サーバを備え、
前記音声認識サーバは、
音声データを音声認識して、テキスト化する音声認識エンジンと、
通話ごとに音声認識のモードを保持するモード制御テーブルとを有し、
前記音声認識エンジンは、
言語化部に対して、音声認識のモードを指示するモード管理部と、
音声認識によりテキスト化された認識結果データを解析する出力解析部とを有し、
前記出力解析部が、音声認識によりテキスト化された認識結果データを解析した結果にしたがって、前記モード管理部に音声認識のモードを指示するステップと、
前記モード管理部が、前記出力解析部の指示にしたがい前記通話ごとに前記モード制御テーブルに保持された音声認識のモードを書き換えるステップと、
前記モード管理部が、通話ごとに前記モード制御テーブルに保持された音声認識のモードにしたがって、前記言語化部に音声認識のモードを指示し、
前記音声認識の第一のモードでは、前記言語化部は、参照するモデルの言語モデルの数を少なくし、中間結果として展開する候補の数を少なくし、
前記音声認識の第二のモードでは、前記言語化部は、参照するモデルの言語モデルの数を多くし、中間結果として展開する候補の数を多し、
前記音声認識サーバは、
通話に出現するＮＧワードリストと、
ＮＧワードリストの出現の閾値を保持するモード変更閾値テーブルと、
通話ごとに、ＮＧワードの累積出現回数を保持する出力解析管理テーブルとを有し、
さらに、前記出力解析部が、前記出力解析管理テーブルに、通話ごとに前記音声認識によりテキスト化された認識結果データに出現する前記ＮＧワードリストに記録されたＮＧワードが出現した累計出現回数を記録するステップと
前記出力解析部は、前記出力解析管理テーブルを参照し、通話ごとに前記ＮＧワードの累積出現回数が、前記モード変更閾値テーブルのＮＧワードリストの出現の閾値を超えたときに、前記音声認識のモードを前記第一のモードから前記第二のモードから切り換えることを前記モード管理部に指示するステップとを有することを特徴とすることを特徴とする通話管理システムの音声制御方法。
前記音声認識サーバは、
通話のかぶり出現回数、通話の音量激変回数の出現の閾値を保持するモード変更閾値テーブルと、
通話ごとに、通話のかぶりの累積出現回数、通話の音量激変の累積出力回数を保持する出力解析管理テーブルとを有し、
前記出力解析部が、前記出力解析管理テーブルに、通話ごとに前記音声認識によりテキスト化された認識結果データに出現する通話のかぶりの累積出現回数、通話の音量激変の累積出力回数を記録するステップと
前記出力解析部が、前記出力解析管理テーブルを参照し、通話ごとに前記通話のかぶりの累積出現回数、前記通話の音量激変の累積出力回数が、それぞれ、前記モード変更閾値テーブルの通話のかぶり出現回数、通話の音量激変回数の出現の閾値を超えたときに、前記音声認識のモードを前記第一のモードから前記第二のモードから切り換えることを前記モード管理部に指示するステップとを有することを特徴とする請求項７記載の通話管理システムの音声制御方法。