JP5593759B2

JP5593759B2 - 通話音声処理装置、通話音声制御装置および方法

Info

Publication number: JP5593759B2
Application number: JP2010063568A
Authority: JP
Inventors: 友人大久保
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-03-19
Filing date: 2010-03-19
Publication date: 2014-09-24
Anticipated expiration: 2030-03-19
Also published as: JP2011199550A

Description

本発明は、通話音声処理装置、通話音声制御装置および通話音声制御方法に関する。

近年、製品を購入した顧客やサービスの提供を受けた顧客からの問い合わせを受け付ける手段として、問い合わせを電話によって受け付けるコールセンタが広く利用されている。コールセンタのオペレータは、顧客が問い合わせの目的を達成して満足を得るような応対をすることが求められる。例えば、オペレータは、顧客の発言や態度に関係なく常に落ち着いて対応することや、顧客満足度を低下させるような不適切な発言をしないことが求められる。

オペレータの業務を改善する技術の例として、オペレータの音声の音量、音圧などに基づいて語気を判定し、あるいは、オペレータの音声を認識することで不適切な語句を発したか否かを判定して、それらの判定結果を画面に表示することが考えられている。また、オペレータの音声ピッチの変動量が所定しきい値以上になった回数、あるいは、オペレータの音声から禁止語句が検出された回数が所定回数を超えた場合に、そのオペレータを他のオペレータと交代させることも考えられている。

また、音声入力によって対象物を操作する際の業務を改善する技術としては、音声の信号成分からオペレータの心理状態が平常でないと判定された場合に、オペレータに正しい操作を誘導するための支援を行うものがあった。

特開２００８−２１１２７１号公報特開２００９−７１４０３号公報特開平９−２６５３７８号公報

しかしながら、電話オペレータの業務を改善する上記の技術では、顧客に対して不適切な語句が発せられてしまうことを未然に防止するものではなく、顧客満足度のさらなる向上を目指す上で限界のある技術であった。

本発明はこのような点に鑑みてなされたものであり、通話者によって発せられた不適切なフレーズが通話相手に届く可能性を低減した通話音声処理装置、通話音声制御装置および通話音声制御方法を提供することを目的とする。

上記目的を達成するために、通話音声処理装置が提供される。この通話音声処理装置は、第１の通話手段から第２の通話手段に対する通話音声信号の送信を禁止する送信禁止手段と、前記第１の通話手段から前記送信禁止手段に入力される通話音声信号から所定のフレーズを認識する音声認識手段と、あらかじめ決められた認識対象フレーズが前記音声認識手段によって認識された場合に、認識された前記認識対象フレーズに対応する通話音声信号の送信を禁止するように前記送信禁止手段を制御する制御手段と、を有する。

また、上記目的を達成するために、通話音声制御装置が提供される。この通話音声制御装置は、第１の通話手段と第２の通話手段との間の通話音声信号が通過する通信装置から、前記第１の通話手段からの通話音声信号を受信し、受信した通話音声信号から所定のフレーズを認識する音声認識手段と、あらかじめ決められた認識対象フレーズが前記音声認識手段によって認識された場合に、前記第１の通話手段から前記第２の通話手段への通信音声信号のうち、認識された前記認識対象フレーズに対応する通話音声信号の送信を禁止するように、前記通信装置が有する送信禁止手段を制御する制御手段と、を有する。

さらに、上記目的を達成するために、上記の通話音声制御装置と同様の処理を行う通話音声制御方法が提供される。

上記の通話音声処理装置、通話音声制御装置および通話音声制御方法によれば、第１の通話手段で通話する通話者が発した不適切なフレーズが、第２の通話手段で通話する通話者に届く可能性が低減される。

第１の実施の形態に係る通話音声処理装置の構成例を示す図である。第２の実施の形態に係る電話対応システムの全体構成例を示す図である。ＰＢＸのハードウェア構成例を示す図である。電話対応システム内の各機器が備える処理機能の例を示すブロック図である。フレーズデータベースに登録される情報の例を示す図である。オペレータデータベースに登録される情報の例を示す図である。顧客対応履歴データベースに登録される情報の例を示す情報である。オペレータがシステムにログインする際の処理例を示すシーケンス図である。顧客からの着信を検知し、オペレータと顧客との間で通話が開始されるまでの処理例を示すシーケンス図である。音声処理サーバにおける、送話音声データおよび受話音声データに基づく制御処理手順を示すフローチャートである。図１０のステップＳ２０１の処理内容を詳細に示すフローチャートである。ＰＢＸの音声ミュート部の内部構成例を示す図である。オペレータ側のＰＣのモニタにおけるガイダンス情報の表示例を示す図である。図１０のステップＳ２０３の処理内容を詳細に示すフローチャートである。第３の実施の形態に係る電話対応システムに適用されるＰＢＸの構成例を示す図である。速度調整部の動作を説明する図である。速度調整部の内部構成例を示す図である。第４の実施の形態に係る電話対応システムに適用されるＰＢＸの構成例を示す図である。速度調整部の内部構成例を示す図である。速度調整部の動作を説明する図である。第５の実施の形態に係る電話応対システムの構成例を示す図である。

以下、実施の形態を図面を参照して詳細に説明する。
［第１の実施の形態］
図１は、第１の実施の形態に係る通話音声処理装置の構成例を示す図である。

図１に示す通話音声処理装置１０は、通話手段２１と通話手段２２との間の通話音声に対して処理を施す装置である。ここで、通話手段２１，２２は、例えば電話機である。例えば、通話手段２１は、コールセンタ内のオペレータが通話する電話機とすることができる。この場合、通話手段２２は、顧客が通話する電話機となる。

また、例えば、通話手段２１は、通話者が発する声を音声信号に変換するマイクロフォンや、通話相手が発した声を通話者に伝達するスピーカであってもよい。この場合、通話音声処理装置１０は、マイクロフォンやスピーカが接続された通話端末装置であってもよい。

通話音声処理装置１０は、送信禁止手段１１、音声認識手段１２および制御手段１３を有する。また、通話音声処理装置１０は、さらに、音声合成手段１４を備えていてもよい。なお、送信禁止手段１１、音声認識手段１２、制御手段１３および音声合成手段１４の処理は、例えば、通話音声処理装置１０が備えるＣＰＵ（Central Processing Unit）によって所定のプログラムが実行されることで実現される。また、これらの各処理手段による処理の一部が、専用の回路によって実行されてもよい。

送信禁止手段１１は、通話手段２１から通話手段２２に対する通話音声信号の送信を、制御手段１３からの要求に応じて禁止する。ここで、通話音声信号の送信を禁止する処理としては、例えば、通話音声信号中の音声レベルを“０”に変換するミュート処理を適用できる。

音声認識手段１２は、通話手段２１から送信禁止手段１１に入力される通話音声信号から、所定のフレーズを認識する。音声認識手段１２は、例えば、制御手段１３から指定された複数のフレーズを、通話音声信号から認識することが可能である。

制御手段１３は、あらかじめ決められた認識対象フレーズが音声認識手段１２によって認識された場合に、送信禁止手段１１に、認識された認識対象フレーズに対応する通話音声信号の送信を禁止させる。このような処理により、例えば、通話手段２１で通話する通話者が、通話相手の気分を害するような不適切なフレーズを発した場合に、そのフレーズが通話相手に届かないようにすることができる。通話手段２１の通話者がコールセンタのオペレータである場合には、このような処理により顧客満足度を向上させる効果が得られる。

また、音声合成手段１４が設けられている場合、制御手段は、あらかじめ決められた認識対象フレーズが音声認識手段１２によって認識されたときに、音声合成手段１４に所定の音声信号を合成させることもできる。例えば、通話手段２１の通話者が不適切なフレーズを発した場合に、通話者に警告音を聞かせることができる。通話手段２１の通話者がコールセンタのオペレータである場合には、このような処理により、オペレータは不適切な発言をしないように注意するようになり、その結果、オペレータが提供するサービスの品質が向上する。

また、制御手段１３は、音声認識手段１２によって認識対象フレーズが認識されたときに、送信禁止手段１１に通話音声信号の送信を禁止させるか否か、あるいは、音声合成手段１４に音声信号を合成させるか否かについて、認識された認識対象フレーズごとに判定してもよい。また、制御手段１３は、音声合成手段１４に合成させる音声信号を、認識された認識対象フレーズごとに判定してもよい。

例えば、認識対象フレーズは、必ずしも通話手段２２の通話者に対して発せられることが好ましくないフレーズである必要はない。コールセンタなどでは、顧客に対して発言することが推奨されるフレーズがあり、そのようなフレーズを認識対象フレーズとして設定することもできる。この場合、認識対象フレーズが音声認識手段１２により認識された場合には、制御手段１３は、音声合成手段１４に、好ましい発言であることを通知する音声信号を合成させる。しかし、送信禁止手段１１には、通話音声信号の送信を禁止させない。

このように、制御手段１３は、音声認識手段１２により認識された認識対象フレーズの性質などに応じて、送信禁止手段１１および音声合成手段１４を適応的に制御することが可能である。

なお、上記の通話音声処理装置１０が具備する各処理機能は、必ずしも１つの装置内に設けられている必要はない。例えば、送信禁止手段１１および音声合成手段１４が、ＰＢＸ（Private Branch eXchange）など、電話機間に配置される通信装置に設けられ、音声認識手段１２および制御手段１３が、この通信装置とは別の装置に設けられてもよい。

次に、上記の通話音声処理装置１０が備える処理機能を、ＩＰ（Internet Protocol）ベースの電話対応システムに適用した場合の実施の形態について説明する。
［第２の実施の形態］
図２は、第２の実施の形態に係る電話対応システムの全体構成例を示す図である。

図２に示す電話対応システムは、例えば、製品の製造または販売を行う事業者やサービスの提供事業者が、顧客からの電話による問い合わせに対応するコールセンタ１００などに構築されるシステムである。この電話対応システムは、電話機１１０、ＰＣ（Personal Computer）１２０、ＰＢＸ２００、音声処理サーバ３００、ＣＴＩ（Computer Telephony Integration）サーバ４１０およびＣＲＭ（Customer Relationship Management）サーバ４２０を有する。

コールセンタ１００内のオペレータは、電話機１１０を用いて顧客と通話する。ＰＣ１２０は、電話機１１０を用いて通話するオペレータが操作する端末装置である。ＰＣ１２０にはモニタが接続されており、オペレータは、例えば、モニタ上に通話相手の顧客に関する情報などを表示させた状態で、通話することが可能になっている。なお、電話対応システムは、電話機１１０およびＰＣ１２０を複数組備えていてもよい。

ＰＢＸ２００は、オペレータが通話する電話機１１０と、顧客が通話する電話機５１０とを接続し、これらの電話機間の通話動作を制御する。本実施の形態では、ＰＢＸ２００はいわゆるＩＰ−ＰＢＸであり、電話機間の通話音声をデジタルデータとして取り扱う。ＰＢＸ２００は、オペレータ側の電話機１１０に対してＬＡＮ４３０を通じて接続し、顧客側の電話機５１０に対してＩＰネットワークである公衆回線網５２０を通じて接続する。また、ＰＢＸ２００は、オペレータ側の電話機１１０だけでなく、音声処理サーバ３００、ＣＴＩサーバ４１０およびＣＲＭサーバ４２０とも、ＬＡＮ４３０を通じて接続されている。

音声処理サーバ３００は、オペレータ側の電話機１１０と顧客側の電話機５１０との間の通話音声の検知結果に応じて、通話音声に対するミュート処理や音声合成処理をＰＢＸ２００に実行させる。後述するように、音声処理サーバ３００は、オペレータ側の電話機１１０から顧客側の電話機５１０への送話音声のデータをリアルタイムに受信し、その音声データを基に所定のフレーズを検出する音声認識機能を備えている。また、音声処理サーバ３００は、通話音声の検知結果に応じて、オペレータ側のＰＣ１２０のモニタに所望の情報を表示させることを要求する機能も備えている。

ＣＴＩサーバ４１０は、ＰＢＸ２００がＣＲＭサーバ４２０などの他のコンピュータと連携するためのインタフェースを提供する。なお、ＣＴＩサーバ４１０の機能は、ＰＢＸ２００内に組み込まれていてもよい。

ＣＲＭサーバ４２０は、オペレータおよび顧客についての情報を管理するサーバであり、例えば、オペレータ側のＰＣ１２０のモニタに対して、通話相手の顧客の情報などを表示させる。

図３は、ＰＢＸのハードウェア構成例を示す図である。
ＰＢＸ２００は、例えば、図３に示すようなコンピュータとして実現される。ＰＢＸ２００は、ＣＰＵ２０１によって装置全体が制御されている。ＣＰＵ２０１には、バス２０２を介して、ＲＡＭ（Random Access Memory）２０３と複数の周辺機器が接続されている。

ＲＡＭ２０３は、ＰＢＸ２００の主記憶装置として使用される。ＲＡＭ２０３には、ＣＰＵ２０１に実行させるＯＳ（Operating System）のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ２０３には、ＣＰＵ２０１による処理に必要な各種データが格納される。

バス２０２に接続されている周辺機器としては、ハードディスクドライブ（ＨＤＤ：Hard Disk Drive）２０４、グラフィック処理回路２０５、入力インタフェース２０６、光学ドライブ２０７、通信インタフェース２０８，２０９および音声処理回路２１０がある。

ＨＤＤ２０４は、内蔵した磁気ディスクに対してデータの書き込みおよび読み出しを行う。ＨＤＤ２０４は、ＰＢＸ２００の二次記憶装置として使用される。ＨＤＤ２０４には、ＯＳのプログラム、アプリケーションプログラム、および各種データが格納される。なお、二次記憶装置としては、フラッシュメモリなどの半導体記憶装置を使用することもできる。

グラフィック処理回路２０５には、モニタ２０５ａが接続されている。グラフィック処理回路２０５は、ＣＰＵ２０１からの命令に従って、画像をモニタ２０５ａの画面に表示させる。モニタ２０５ａとしては、液晶表示装置などがある。

入力インタフェース２０６には、キーボード２０６ａとマウス２０６ｂとが接続されている。入力インタフェース２０６は、キーボード２０６ａやマウス２０６ｂから送られてくる信号をＣＰＵ２０１に送信する。なお、マウス２０６ｂは、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。

光学ドライブ２０７は、レーザ光などを利用して、光ディスク２０７ａに記録されたデータの読み取りを行う。
通信インタフェース２０８は、ＬＡＮ４３０に接続され、ＬＡＮ４３０を介して、音声処理サーバ３００などの他の機器との間でデータを送受信する。通信インタフェース２０９は、公衆回線網５２０に接続され、公衆回線網５２０を通じて、顧客側の電話機５１０などの他の機器との間でデータを送受信する。

音声処理回路２１０は、音声データを処理する専用の回路であり、例えばＤＳＰ（Digital Signal Processor）として実現される。ＰＢＸ２００において、音声処理回路２１０は、通話音声データから音量を検出する音声レベル検出処理や、通話音声データからフレーズを切り出し、あらかじめ決められたフレーズか否かを認識する音声認識処理などを実行する。

なお、図２に示した音声処理サーバ３００は、例えば、図３に示した構成のうち通信インタフェース２０９を除いたハードウェア構成によって実現可能である。また、図２に示したＣＴＩサーバ４１０、ＣＲＭサーバ４２０およびＰＣ１２０は、例えば、図３に示した構成のうち通信インタフェース２０９および音声処理回路２１０を除いたハードウェア構成によって実現可能である。

また、ＰＢＸ２００、音声処理サーバ３００、ＣＴＩサーバ４１０およびＣＲＭサーバ４２０のうちの少なくとも１つは、例えば、ラックマウントタイプのコンピュータとして実現されてもよい。ラックマウントタイプのコンピュータは、ラック内に設けられた複数のスロットの１つに挿入できるようになっている。そして、例えばＰＢＸ２００と音声処理サーバ３００など、ラックマウントタイプの複数のコンピュータは、１つのラック内に挿入された状態で販売・流通される場合もある。

次に、図４は、電話対応システム内の各機器が備える処理機能の例を示すブロック図である。
ＰＢＸ２００は、接続制御部２２１、レベル検出部２２２、音声ミュート部２２３，２２４および音声合成部２２５を備えている。ここで、接続制御部２２１の処理は、例えば、ＰＢＸ２００が備えるＣＰＵ２０１によって所定のプログラムが実行されることで実現される。また、レベル検出部２２２、音声ミュート部２２３，２２４および音声合成部２２５の処理は、例えば、ＰＢＸ２００が備える音声処理回路２１０によって実現される。あるいは、レベル検出部２２２、音声ミュート部２２３，２２４および音声合成部２２５のそれぞれの処理のうちの少なくとも一部は、ＰＢＸ２００が備えるＣＰＵ２０１によって所定のプログラムが実行されることで実現されてもよい。

接続制御部２２１は、ログイン情報２３１に登録された情報を基に、オペレータ側の電話機１１０と顧客側の電話機５１０との通話動作を制御する。ログイン情報２３１には、ログイン状態のオペレータ、すなわち、顧客との通話の準備が整っている状態のオペレータを識別するオペレータＩＤと、ログイン状態のオペレータが使用する電話機１１０のＩＰアドレスとが登録されている。なお、ログイン情報２３１は、例えば、ＰＢＸ２００が備えるＲＡＭ２０３あるいはＨＤＤ２０４などに記憶されている。

接続制御部２２１は、顧客側の電話機５１０からの着信を検出すると、ログイン情報２３１に登録されたオペレータＩＤのうち１つを選択し、選択したオペレータＩＤに対応付けられたＩＰアドレスを読み出す。そして、読み出したＩＰアドレスを持つ電話機１１０と接続し、接続した電話機１１０と顧客側の電話機５１０との間の通話動作を開始させる。

通話動作を開始させると、接続制御部２２１は、選択したオペレータＩＤを音声処理サーバ３００に送信する。これとともに、接続制御部２２１は、オペレータ側の電話機１１０からＰＢＸ２００に送出された音声データ（以下、“送話音声データ”と呼ぶ）と、顧客側の電話機５１０からＰＢＸ２００に送出された音声データ（以下、“受話音声データ”と呼ぶ）とを、音声処理サーバ３００に転送する。

また、接続制御部２２１は、ＣＴＩサーバ４１０を介してＣＲＭサーバ４２０と通信することもできる。例えば、ログインしたオペレータのオペレータＩＤおよびＩＰアドレスは、ＣＲＭサーバ４２０からＣＴＩサーバ４１０を介してＰＢＸ２００に送信され、接続制御部２２１は、受信したオペレータＩＤおよびＩＰアドレスをログイン情報２３１に登録する。

レベル検出部２２２は、オペレータ側の電話機１１０から送出された送話音声データから、音声レベルを検出する。検出された音声レベルは、音声処理サーバ３００に送信される。

音声ミュート部２２３は、音声処理サーバ３００からの要求に応じて、レベル検出部２２２から顧客側の電話機５１０に送出する送話音声データ中の音声レベルを“０”に書き替えるミュート処理を実行する。なお、ミュート処理は、例えば、送話音声データから人間の音声成分のみを除去する処理であってもよい。

音声ミュート部２２４は、顧客側の電話機５１０から送出された受話音声データに対して、音声処理サーバ３００からの要求に応じて、前述のミュート処理を施す。
音声合成部２２５は、音声ミュート部２２４からオペレータ側の電話機１１０に送出される受話音声データに対して、音声処理サーバ３００から要求された音声データを合成する処理を行う。音声処理サーバ３００は、音声処理サーバ３００から音声ＩＤを受信し、受信した音声ＩＤに対応する音声データを音声データベース２３２から読み出す。そして、読み出した音声データを受話音声データに合成して出力する。

後述するように、音声データベース２３２には、例えば、オペレータを落ち着かせるための音楽や、オペレータに警告を発する警告音などの音声データが、それぞれ音声ＩＤに対応付けて記憶される。なお、音声データベース２３２は、例えば、ＰＢＸ２００が備えるＨＤＤ２０４などの不揮発性記録装置に記憶される。

なお、音声ミュート部２２４によるミュート処理と、音声合成部２２５による音声合成処理については、いずれか一方のみが実行される。従って、例えば、音声ミュート部２２４と音声合成部２２５との接続順は逆であってもよく、また、音声ミュート部２２４と音声合成部２２５の各処理が並列に実行されてもよい。

次に、ＣＲＭサーバ４２０について説明する。ＣＲＭサーバ４２０は、オペレータ端末制御部４２１およびオペレータ情報送信部４２２を備えている。これらのオペレータ端末制御部４２１およびオペレータ情報送信部４２２の処理は、例えば、ＣＲＭサーバ４２０が備えるＣＰＵ（図示せず）によって所定のプログラムが実行されることで実現される。

オペレータ端末制御部４２１は、オペレータのログイン処理や、ログインしたオペレータが使用するＰＣ１２０のモニタに対する情報の表示処理を制御する。例えば、オペレータ端末制御部４２１は、ＰＣ１２０からログインが要求されると、要求元のＰＣ１２０のＩＰアドレスと、ログインを要求したオペレータのオペレータＩＤとを、ＣＴＩサーバ４１０を介してＰＢＸ２００に通知する。

また、オペレータ端末制御部４２１は、ログインしたオペレータに対して通知すべき注意事項を、オペレータデータベース４２３や顧客対応履歴データベース４２４に登録された情報を基に抽出し、ＰＣ１２０のモニタに表示させる。さらに、オペレータ端末制御部４２１は、オペレータと顧客との通話が開始されると、通話相手の顧客に関する情報を顧客データベース４２５や顧客対応履歴データベース４２４から読み出し、ＰＣ１２０のモニタに表示させる。

オペレータデータベース４２３には、オペレータに関するオペレータ情報が、オペレータＩＤに対応付けて登録されている。顧客対応履歴データベース４２４には、オペレータと顧客との通話時において発生した事象に関する情報が、オペレータＩＤおよび顧客ＩＤとともに履歴として登録されている。顧客データベース４２５には、顧客の個人情報などが顧客ＩＤに対応付けて登録されている。これらのオペレータデータベース４２３、顧客対応履歴データベース４２４および顧客データベース４２５は、ＣＲＭサーバ４２０が備えるＨＤＤ（図示せず）などの不揮発性記憶装置に記憶される。なお、オペレータデータベース４２３および顧客対応履歴データベース４２４の内容については、後に詳しく説明する。

また、オペレータ端末制御部４２１は、オペレータと顧客との通話中において、音声処理サーバ３００から表示を要求されたガイダンス情報を、オペレータが操作するＰＣ１２０のモニタに表示させる。さらに、オペレータ端末制御部４２１は、音声処理サーバ３００から送信された情報を用いて、顧客対応履歴データベース４２４を更新する。

オペレータ情報送信部４２２は、通話を開始したオペレータのオペレータＩＤを音声処理サーバ３００から受信すると、受信したオペレータＩＤに対応付けられたオペレータ情報のうち必要な情報をオペレータデータベース４２３から読み出す。そして、読み出したオペレータ情報を音声処理サーバ３００に送信する。

次に、音声処理サーバ３００について説明する。音声処理サーバ３００は、音声／表示制御部３２１と音声認識部３２２とを備えている。ここで、音声／表示制御部３２１の処理は、例えば、音声処理サーバ３００が備えるＣＰＵ（図示せず）によって所定のプログラムが実行されることで実現される。また、音声認識部３２２の処理は、例えば、音声処理サーバ３００が備える音声処理回路（図示せず）によって実現される。あるいは、音声認識部３２２の処理のうちの少なくとも一部は、音声処理サーバ３００が備えるＣＰＵによって所定のプログラムが実行されることで実現されてもよい。

音声認識部３２２は、ＰＢＸ２００から送信された送話音声データおよび受話音声データから、音声／表示制御部３２１から指定されたフレーズを認識する。音声認識部３２２は、例えば、入力された音声データからひとまとまりのフレーズを判別して切り出し、切り出したフレーズが、音声／表示制御部３２１から指定されたフレーズと一致するか否かを判定する。指定されたフレームと一致した場合、音声認識部３２２は、一致したフレーズを示す情報とともに音声／表示制御部３２１に通知する。

音声認識部３２２で認識させるフレーズは、フレーズデータベース３３１に登録されたフレーズから音声／表示制御部３２１によって選択されて、音声認識部３２２に対して指定される。また、音声／表示制御部３２１は、送話音声データから認識させるフレーズと、受話音声データから認識させるフレーズとを、それぞれ個別に音声認識部３２２に指定する。

音声／表示制御部３２１は、オペレータと顧客との間の通話音声からの各種の検知結果に基づいて、次の（１）〜（４）の４種類の処理を統括的に制御する。
（１）送話ミュート処理：ＰＢＸ２００の音声ミュート部２２３における送話音声データのミュート処理
（２）受話ミュート処理：ＰＢＸ２００の音声ミュート部２２４における受話音声データのミュート処理
（３）音声合成処理：ＰＢＸ２００の音声合成部２２５における受話音声データに対する音声合成処理
（４）ガイダンス表示処理：オペレータ側のＰＣ１２０のモニタにガイダンス情報を表示させる処理
また、音声／表示制御部３２１は、上記の（１）〜（４）の処理を、次の（Ａ）〜（Ｃ）の３種類の情報に基づいて制御する。

（Ａ）音声認識部３２２によって送話音声データからのフレーズの認識結果
（Ｂ）音声認識部３２２によって受話音声データからのフレーズの認識結果
（Ｃ）ＰＢＸ２００のレベル検出部２２２によって検出された、送話音声データの音声レベル
これらの情報のうち、（Ｃ）の音声レベルに基づく処理では、あらかじめ決められた処理が実行される。本実施の形態では、例として、（Ｃ）の音声レベルに基づいて（３）の音声合成処理が制御される。より具体的には、音声／表示制御部３２１は、送話音声データの音声レベルが所定の音声レベル基準値を超えた場合に、音声合成部２２５に対して、あらかじめ決められた音楽の音声データを合成するように要求する。これにより、顧客を不快にさせることなどをできるだけ回避し、顧客満足度の向上を図る。

ここで、送話音声データの音声レベルと比較する音声レベル基準値は、オペレータごとに任意に設定される。オペレータごとの音声レベル基準値は、オペレータＩＤに対応付けてオペレータデータベース４２３に登録される。そして、音声／表示制御部３２１は、オペレータと顧客との通話が開始されると、オペレータＩＤに対応する音声レベル基準値を、オペレータ情報送信部４２２を通じてオペレータデータベース４２３から取得する。

次に、上記の（Ａ），（Ｂ）に対応する、フレーズの認識結果に基づく処理について説明する。通話音声データから所定のフレーズが認識された場合にどのような処理を実行するかを示す情報は、フレーズデータベース３３１において認識対象のフレーズごとに登録される。

ここで、図５は、フレーズデータベースに登録される情報の例を示す図である。なお、このフレーズデータベース３３１は、音声処理サーバ３００が備えるＨＤＤ（図示せず）などの不揮発性記憶装置に記憶される。

フレーズデータベース３３１には、送話音声データまたは受話音声データから認識されるフレーズ（認識対象フレーズ３３１ｂ）が、そのフレーズを識別するフレーズＩＤ３３１ａに対応付けて登録されている。ここで、認識対象フレーズ３３１ｂに登録されるフレーズは、送話音声データおよび受話音声データのどちらからでも認識させることが可能である。

さらに、フレーズデータベース３３１には、各フレーズＩＤ３３１ａに対応付けて、ガイダンス情報３３１ｃ、送話ミュートフラグ３３１ｄ、受話ミュートフラグ３３１ｅおよび合成音声３３１ｆが登録される。

ガイダンス情報３３１ｃには、認識対象フレーズ３３１ｂに登録されたフレーズが認識されたときにＰＣ１２０のモニタに表示させるガイダンス情報の内容が、必要に応じて登録される。例えば、認識対象フレーズ３３１ｂとして、顧客を不快にさせるような不適切なフレーズが登録された場合、ガイダンス情報３３１ｃには、そのフレーズを発言しないようにオペレータに指示する情報が登録される。この場合、登録された不適切なフレーズが送話音声データから認識された場合に、そのフレーズを発言しないように指示する情報がオペレータ側のＰＣ１２０のモニタに表示されるようになる。

逆に、認識対象フレーズ３３１ｂとして、顧客に対して発言することが好ましいフレーズが登録された場合には、ガイダンス情報３３１ｃには、そのフレーズを発言することをオペレータに奨励するような情報が登録される。この場合、登録された好ましいフレーズが送話音声データから認識された場合に、そのフレーズの発言を奨励する情報がオペレータ側のＰＣ１２０のモニタに表示されるようになる。

また、ガイダンス情報３３１ｃとしては、認識対象フレーズ３３１ｂに登録されたフレーズが受話音声データから認識された場合を想定した情報を登録することもできる。例えば、認識対象フレーズ３３１ｂとして、オペレータに対して精神的ダメージを与えるようなフレーズが登録された場合には、ガイダンス情報３３１ｃには、オペレータを落ち着かせるような情報が登録される。この場合、登録されたフレーズが受話音声データから認識された場合に、オペレータを落ち着かせる情報がオペレータ側のＰＣ１２０のモニタに表示されるようになる。

送話ミュートフラグ３３１ｄには、認識対象フレーズ３３１ｂに登録されたフレーズが送話音声データから認識されたときに、顧客側の電話機５１０に送出する送話音声データをミュートするか否かを示すフラグ情報が登録される。例えば、顧客を不快にさせるフレーズや、顧客に誤解を与えるフレーズなど、顧客に発するフレーズとして不適切なフレーズに対応する送話ミュートフラグ３３１ｄは、“ＯＮ”に設定されればよい。この場合、送話音声データから不適切なフレーズが認識された場合に、そのフレーズを含む送話音声データがミュートされ、そのフレーズが顧客に伝達されないようになる。

受話ミュートフラグ３３１ｅには、認識対象フレーズ３３１ｂに登録されたフレーズが受話音声データから認識されたときに、オペレータ側の電話機１１０に送出する受話音声データをミュートするか否かを示すフラグ情報が登録される。例えば、オペレータの生命を脅かすフレーズや、オペレータの人格を攻撃するフレーズなど、オペレータに精神的なダメージを与えるようなフレーズに対応する受話ミュートフラグ３３１ｅには、“ＯＮ”に設定されればよい。この場合、オペレータに精神的ダメージを与えるフレーズが受話音声データから認識されたときに、そのフレーズを含む受話音声データがミュートされ、そのフレーズがオペレータに伝達されないようになる。

なお、オペレータと顧客の両方に対して伝達されない方がよいフレーズについては、送話ミュートフラグ３３１ｄと受話ミュートフラグ３３１ｅの両方が“ＯＮ”に設定されてもよい。

合成音声３３１ｆには、認識対象フレーズ３３１ｂに登録されたフレーズが認識されたときに受話音声データに合成する音声を示す音声ＩＤが、必要に応じて登録される。例えば、顧客を不快にさせるような不適切なフレーズに対応する合成音声３３１ｆとして、そのフレーズが不適切であることをオペレータに警告する警告音の音声ＩＤが設定されればよい。この場合、不適切なフレーズが送話音声データから認識されたときに、オペレータ側の電話機１１０に送出される受話音声データに警告音の音声データが合成されるようになる。

また、合成音声３３１ｆには、認識対象フレーズ３３１ｂに登録されたフレーズが受話音声データから認識された場合を想定した音声ＩＤを登録することもできる。例えば、認識対象フレーズ３３１ｂとして、オペレータに対して精神的ダメージを与えるようなフレーズが登録された場合には、合成音声３３１ｆには、オペレータを落ち着かせるような音楽の音声ＩＤが登録される。この場合、登録されたフレーズが受話音声データから認識されたときに、オペレータ側の電話機１１０に送出される受話音声データに、オペレータを落ち着かせる音楽の音声データが合成されるようになる。

以上説明したフレーズデータベース３３１には、顧客に聞かせない方がよい不適切なフレーズの他、オペレータに精神的ダメージを与えるような、オペレータに聞かせない方がよいフレーズも登録することができる。さらに、フレーズデータベース３３１には、顧客またはオペレータに聞かせない方がよいフレーズだけでなく、オペレータの発言として推奨される適切なフレーズについても登録できるようになっている。なお、適切なフレーズについては、送話ミュートフラグ３３１ｄおよび受話ミュートフラグ３３１ｅの両方が“ＯＦＦ”に設定されることになる。

上記のように、フレーズデータベース３３１には、送話音声データまたは受話音声データから所定のフレーズが認識された場合にどのような処理を実行するかを示す情報が、認識対象のフレーズごとに登録される。一方、音声処理サーバ３００の音声／表示制御部３２１は、送話音声データおよび受話音声データのそれぞれから、フレーズデータベース３３１に登録されたもののうちどのフレーズを認識させるかを、オペレータごとに判断する。音声／表示制御部３２１は、このような判断を、オペレータデータベース４２３から取得した情報に基づいて行う。

図６は、オペレータデータベースに登録される情報の例を示す図である。
オペレータデータベース４２３には、オペレータを識別するオペレータＩＤ４２３ａのそれぞれに対して、フレーズ指定４２３ｂおよび音声レベル基準値４２３ｃが登録される。

フレーズ指定４２３ｂには、送話音声データから認識させるフレーズを示すフレーズＩＤと、受話音声データから認識させるフレーズを示すフレーズＩＤとが、それぞれ個別に登録される。音声／表示制御部３２１は、通話を開始したオペレータのオペレータＩＤに対応づけてフレーズ指定４２３ｂに登録されたフレーズＩＤを、オペレータ情報送信部４２２を通じて取得する。そして、取得したフレーズＩＤに対応するフレーズをフレーズデータベース３３１から読み出し、送話音声データおよび受話音声データのそれぞれから認識すべきフレーズを音声認識部３２２に設定する。

音声レベル基準値４２３ｃは、音声／表示制御部３２１が、ＰＢＸ２００のレベル検出部２２２によって検出された音声レベルと比較する値である。すなわち、音声／表示制御部３２１は、レベル検出部２２２によって検出された音声レベルが、音声レベル基準値４２３ｃに登録された値を超えた場合に、オペレータに感情の抑揚が発生していると判定する。そして、所定の音楽の音声データを顧客からの受話音声データに合成するように、ＰＢＸ２００の音声合成部２２５に要求する。

なお、音声レベル基準値４２３ｃに登録される情報は、例えば、事前の研修期間などにオペレータが通話したときに送話音声データから検出された音声レベルの平均値などに基づいて決定される。

次に、図７は、顧客対応履歴データベースに登録される情報の例を示す情報である。
顧客対応履歴データベース４２４には、オペレータと顧客との通話中に発生した事象が、音声／表示制御部３２１からの要求に応じて登録される。図７では、音声／表示制御部３２１から指定されたフレーズが音声認識部３２２によって認識された場合に、顧客対応履歴データベース４２４に登録される情報の例を示す。

図７に示す顧客対応履歴データベース４２４には、通話する顧客とオペレータをそれぞれ識別する顧客ＩＤ４２４ａおよびオペレータＩＤ４２４ｂと、送話音声データおよび受話音声データのそれぞれから認識されたフレーズを示す認識フレーズ４２４ｃと、フレーズが認識された日時４２４ｄとが登録される。

音声／表示制御部３２１は、音声認識部３２２により、指定したフレーズが送話音声データまたは受話音声データから認識されると、ＣＲＭサーバ４２０のオペレータ端末制御部４２１に対して、顧客対応履歴データベース４２４への登録を要求する。このとき、音声／表示制御部３２１は、通話中のオペレータＩＤと、認識されたフレーズを示すフレーズＩＤと、認識された音声データが送話音声データか受話音声データかを示す識別情報とを、オペレータ端末制御部４２１に送信する。

オペレータ端末制御部４２１は、音声／表示制御部３２１から受信した情報に、通話相手の顧客を示す顧客ＩＤと現在の日時とを付加し、顧客対応履歴データベース４２４に対して、顧客ＩＤ４２４ａ、オペレータＩＤ４２４ｂ、認識フレーズ４２４ｃおよび日時４２４ｄからなる１つのエントリを登録する。なお、オペレータ端末制御部４２１は、例えば、オペレータと顧客との通話が開始された直後に、オペレータの操作入力に応じてＰＣ１２０から通話相手の顧客を示す顧客ＩＤを受信する。

さらに、顧客対応履歴データベース４２４には、顧客ＩＤ４２４ａおよびオペレータＩＤ４２４ｂに対応付けて備考欄４２４ｅが設けられている。備考欄４２４ｅには、例えば、顧客に対応する上での注意点などを記録しておくことができる。この場合、備考欄４２４ｅに記録する情報は、例えば、通話が終了したときに、オペレータの操作によってＰＣ１２０からオペレータ端末制御部４２１に送信される。

顧客対応履歴データベース４２４に登録された情報は、電話対応業務を改善するための種々の処理に利用できる。例えば、顧客対応履歴データベース４２４に登録された情報を、顧客と通話する際にオペレータに注意を喚起するための情報を生成する際に利用することができる。

一例として、オペレータ端末制御部４２１は、あるオペレータが電話対応業務を開始する際に、そのオペレータに対応するエントリを顧客対応履歴データベース４２４から抽出する。そして、そのオペレータが過去に発言した不適切なフレーズやその回数などを集計し、オペレータ側のＰＣ１２０のモニタに表示させて注意を喚起する。また、他の例として、オペレータ端末制御部４２１は、オペレータと顧客との通話が開始されると、通話相手の顧客に対応するエントリを顧客対応履歴データベース４２４から抽出する。そして、抽出したエントリ中の備考欄４２４ｅに記録された情報を、オペレータ側のＰＣ１２０のモニタに表示させて注意を喚起する。

次に、本実施の形態の電話対応システムで実行される処理を、順を追って説明する。まず、図８は、オペレータがシステムにログインする際の処理例を示すシーケンス図である。

［ステップＳ１０１］オペレータは、ＰＣ１２０を操作して、自分のオペレータＩＤを入力し、ＣＲＭサーバ４２０に対してログインを要求する。このとき、ＰＣ１２０からはＣＲＭサーバ４２０に対して、ログイン要求とともにオペレータＩＤが送信される。

［ステップＳ１０２］ＣＲＭサーバ４２０のオペレータ端末制御部４２１は、ＰＣ１２０からログイン要求を受けると、例えば、ログイン要求元のＰＣ１２０に対応付けられた電話機１１０のＩＰアドレスと、ＰＣ１２０から受信したオペレータＩＤとを、ＰＢＸ２００に対して送信する。なお、図示を省略するが、オペレータＩＤとＩＰアドレスは、実際にはＣＴＩサーバ４１０を介してＰＢＸ２００に送信される。

［ステップＳ１０３］ＰＢＸ２００の接続制御部２２１は、オペレータＩＤとＩＰアドレスを受信すると、受信したオペレータＩＤとＩＰアドレスとを対応付けてログイン情報２３１に登録する。

以上がログイン時の基本的な処理手順であるが、次に示すように、ＣＲＭサーバ４２０により、ログインしたオペレータに対して注意を喚起する情報などを視認させる処理が行われてもよい。

［ステップＳ１０４］オペレータ端末制御部４２１は、顧客対応履歴データベース４２４を検索し、ログインしたオペレータのオペレータＩＤに対応するエントリを抽出する。そして、そのオペレータが過去に発言した不適切なフレーズやその回数などを集計し、集計結果の情報や、不適切なフレーズを発言しないように指示する情報などを含む注意事項を生成する。

［ステップＳ１０５］オペレータ端末制御部４２１は、生成した注意事項をＰＣ１２０に送信し、モニタへの表示を要求する。
［ステップＳ１０６］ＰＣ１２０は、受信した注意事項をモニタに表示させる。

次に、図９は、顧客からの着信を検知し、オペレータと顧客との間で通話が開始されるまでの処理例を示すシーケンス図である。
［ステップＳ１１１］ＰＢＸ２００の接続制御部２２１は、顧客からの着信を検知する。

［ステップＳ１１２］接続制御部２２１は、ログイン情報２３１から、現在通話中でないオペレータのオペレータＩＤを選択する。
［ステップＳ１１３］接続制御部２２１は、選択したオペレータＩＤを音声処理サーバ３００に対して送信する。

［ステップＳ１１４］音声処理サーバ３００の音声／表示制御部３２１は、接続制御部２２１から送信されたオペレータＩＤを受信し、受信したオペレータＩＤに対応するオペレータ情報の送信を、ＣＲＭサーバ４２０に対して要求する。

［ステップＳ１１５］ＣＲＭサーバ４２０のオペレータ情報送信部４２２は、オペレータデータベース４２３を検索し、音声／表示制御部３２１から受信したオペレータＩＤに対応するエントリを抽出する。

［ステップＳ１１６］オペレータ情報送信部４２２は、抽出されたエントリから、フレーズ指定４２３ｂに登録されたフレーズＩＤと、音声レベル基準値４２３ｃに登録された値（以下、単に“音声レベル基準値”と呼ぶ）とを、音声処理サーバ３００の音声／表示制御部３２１に対して送信する。

［ステップＳ１１７］音声／表示制御部３２１は、受信した音声レベル基準値を、音声処理サーバ３００内のＲＡＭなどに設定する。また、音声／表示制御部３２１は、受信したフレーズＩＤに対応するフレーズ（認識対象フレーズ３３１ｂ）をフレーズデータベース３３１から読み出し、音声認識部３２２に対して指定する。このとき、送話音声データから認識するフレーズと受話音声データから認識するフレーズとが、それぞれ個別に指定される。

以上の処理により、音声／表示制御部３２１は、前述の（１）〜（４）の処理を制御する準備が整った状態となる。
［ステップＳ１１８］ＰＢＸ２００の接続制御部２２１は、ステップＳ１１３においてオペレータＩＤを送信した後、ステップＳ１１２で選択したオペレータＩＤに対応付けられたＩＰアドレスをログイン情報２３１から読み出す。そして、読み出したＩＰアドレスを持つオペレータ側の電話機１１０に対して発呼する。これにより、選択されたオペレータの電話機１１０と顧客の電話機５１０との間の通話が開始される。

［ステップＳ１１９］通話が開始されると、ＰＢＸ２００は、オペレータ側の電話機１１０から送出された送話音声データと、顧客側の電話機５１０から送出された受話音声データとを、音声処理サーバ３００に転送する。また、ＰＢＸ２００は、レベル検出部２２２によって検出された音声レベルを、例えば一定時間ごとに音声処理サーバ３００に送信する。

このステップＳ１１９の後、音声処理サーバ３００では、前述の（１）〜（４）の処理に対する制御が開始されるが、この制御処理手順については、次の図１０においてあらためて説明する。

［ステップＳ１２０］顧客との通話を開始したオペレータは、顧客から聞き取った顧客ＩＤをＰＣ１２０に入力し、入力した顧客ＩＤをＰＣ１２０からＣＲＭサーバ４２０に送信させて、顧客ＩＤに対応する顧客情報を要求する。

［ステップＳ１２１］ＣＲＭサーバ４２０のオペレータ端末制御部４２１は、顧客データベース４２５を検索し、ＰＣ１２０から受信した顧客ＩＤに対応付けられた各種の顧客情報を抽出する。

このとき、オペレータ端末制御部４２１は、顧客対応履歴データベース４２４に登録された情報に基づき、顧客に関して注意を喚起する情報などをオペレータに通知する処理を行ってもよい。例えば、オペレータ端末制御部４２１は、顧客ＩＤに対応するエントリ（または、顧客ＩＤと、顧客情報を要求したオペレータのオペレータＩＤとに対応するエントリ）を顧客対応履歴データベース４２４から抽出する。そして、抽出したエントリ中の備考欄４２４ｅに記録された情報や、過去に顧客が発した不適切なフレーズの情報などを含む注意事項を生成する。

［ステップＳ１２２］オペレータ端末制御部４２１は、顧客データベース４２５から抽出した顧客情報と、顧客対応履歴データベース４２４の登録情報を基に生成した注意事項とを、ＰＣ１２０に送信する。

［ステップＳ１２３］ＰＣ１２０は、オペレータ端末制御部４２１から受信した顧客情報と注意事項とを、モニタに表示させる。
次に、図１０は、音声処理サーバにおける、送話音声データおよび受話音声データに基づく制御処理手順を示すフローチャートである。音声処理サーバ３００では、図９に示したステップＳ１１９以降に、次のステップＳ２０１〜Ｓ２０３に示す各処理が並行して実行される。

［ステップＳ２０１］音声処理サーバ３００は、音声認識部３２２による送話音声データからのフレーズの認識結果に基づいて、ＰＢＸ２００の音声ミュート部２２３における送話ミュート処理、ＰＢＸ２００の音声合成部２２５によって受話音声データに所定の音声データを合成させる処理、および、オペレータ側のＰＣ１２０にガイダンス情報を表示させる処理を制御する。

［ステップＳ２０２］音声処理サーバ３００は、音声認識部３２２による受話音声データからのフレーズの認識結果に基づいて、ＰＢＸ２００の音声ミュート部２２４における受話ミュート処理、ＰＢＸ２００の音声合成部２２５によって受話音声データに所定の音声データを合成させる処理、および、オペレータ側のＰＣ１２０にガイダンス情報を表示させる処理を制御する。

［ステップＳ２０３］音声処理サーバ３００は、ＰＢＸ２００のレベル検出部２２２による音声レベルの検出結果に基づいて、ＰＢＸ２００の音声合成部２２５によって受話音声データに所定の音声データを合成させる処理を制御する。

図１１は、図１０のステップＳ２０１の処理内容を詳細に示すフローチャートである。
［ステップＳ２１１］音声認識部３２２は、ＰＢＸ２００から受信した送話音声データから、１つのフレーズを認識する。

［ステップＳ２１２］音声認識部３２２は、認識したフレーズが、音声／表示制御部３２１から指定されたフレーズと一致するか否かを判定する。
フレーズ同士が一致した場合、音声認識部３２２は、フレーズが一致したことを音声／表示制御部３２１に通知するとともに、一致したフレーズを示すフレーズＩＤを音声／表示制御部３２１に通知する。この後、ステップＳ２１３の処理が実行される。一方、認識したフレーズが、音声／表示制御部３２１から指定されたすべてのフレーズと一致しなかった場合には、ステップＳ２２１の処理が実行される。

［ステップＳ２１３］音声／表示制御部３２１は、音声認識部３２２から通知されたフレーズＩＤに対応付けられたエントリをフレーズデータベース３３１から抽出する。
［ステップＳ２１４］音声／表示制御部３２１は、ステップＳ２１３で抽出したエントリ内の送話ミュートフラグ３３１ｄの値を参照する。音声認識部３２２は、送話ミュートフラグ３３１ｄに“ＯＮ”が設定されていた場合には、ステップＳ２１５の処理を実行し、送話ミュートフラグ３３１ｄに“ＯＦＦ”が設定されていた場合には、ステップＳ２１６の処理を実行する。

［ステップＳ２１５］音声／表示制御部３２１は、ＰＢＸ２００の音声ミュート部２２３に対して、顧客側の電話機５１０に対して送出する送話音声データをミュートするように要求する。音声ミュート部２２３は、音声／表示制御部３２１からの要求に応じて、レベル検出部２２２から出力された音声データに対して、所定の時間だけ、音声レベルを“０”に書き替える処理を行う。なお、音声ミュート部２２３の構成については、次の図１２において説明する。この後、ステップＳ２１６の処理が実行される。

［ステップＳ２１６］音声／表示制御部３２１は、ステップＳ２１３で抽出したエントリ内のガイダンス情報３３１ｃに、情報が登録されているか否かを判定する。音声／表示制御部３２１は、情報が登録されていた場合にはステップＳ２１７の処理を実行し、情報が登録されていなかった場合にはステップＳ２１８の処理を実行する。

［ステップＳ２１７］音声／表示制御部３２１は、ガイダンス情報３３１ｃに登録されていた情報（以下、単に“ガイダンス情報”と呼ぶ）を読み出す。そして、読み出したガイダンス情報と、ステップＳ２１１で認識されたフレーズとをＣＲＭサーバ４２０のオペレータ端末制御部４２１に送信し、ガイダンス情報の表示を要求する。このとき、通話中のオペレータのオペレータＩＤもオペレータ端末制御部４２１に送信される。この後、ステップＳ２１８の処理が実行される。

オペレータ端末制御部４２１は、音声／表示制御部３２１から受信したガイダンス情報およびフレーズを、受信したオペレータＩＤに対応するオペレータが操作しているＰＣ１２０に送信し、ガイダンス情報およびフレーズをモニタに表示するように要求する。なお、ＰＣ１２０のモニタにおけるガイダンス情報の表示例については、後の図１３に示す。

なお、オペレータ端末制御部４２１は、オペレータがログインした段階（図８のステップＳ１０１）で、ログインしたオペレータのオペレータＩＤと、ログインしたオペレータが操作するＰＣ１２０のＩＰアドレスとを認識する。従って、オペレータ端末制御部４２１は、ステップＳ２１７において、音声／表示制御部３２１から受信したオペレータＩＤを基に、ガイダンス情報を表示させるＰＣ１２０を特定することができる。

［ステップＳ２１８］音声／表示制御部３２１は、ステップＳ２１３で抽出したエントリ内の合成音声３３１ｆに、音声ＩＤが登録されているか否かを判定する。音声／表示制御部３２１は、音声ＩＤが登録されていた場合にはステップＳ２１９の処理を実行し、音声ＩＤが登録されていない場合にはステップＳ２２０の処理を実行する。

［ステップＳ２１９］音声／表示制御部３２１は、合成音声３３１ｆに登録されていた音声ＩＤをＰＢＸ２００の音声合成部２２５に送信し、送信した音声ＩＤに対応する音声データの合成処理を実行するように要求する。この後、ステップＳ２２０の処理が実行される。

要求を受けた音声合成部２２５は、受信した音声ＩＤに対応する音声データを音声データベース２３２から読み出し、読み出した音声データを、音声ミュート部２２４から出力された受話音声データに合成する。このとき、音声合成部２２５は、音声データの合成処理を、例えば、あらかじめ決められた時間を限度として実行する。

［ステップＳ２２０］音声／表示制御部３２１は、ステップＳ２１２において音声認識部３２２から通知されたフレーズＩＤと、通話中のオペレータのオペレータＩＤとを、ＣＲＭサーバ４２０のオペレータ端末制御部４２１に送信し、顧客対応履歴データベース４２４に登録するように要求する。この後、ステップＳ２２１の処理が実行される。

フレーズＩＤおよびオペレータＩＤを受信したオペレータ端末制御部４２１は、これらの受信情報と、通話相手の顧客の顧客ＩＤと、現在の日時とを含むエントリを、顧客対応履歴データベース４２４に登録する。このとき、音声／表示制御部３２１から受信したフレーズＩＤは、認識フレーズ４２４ｃの登録欄に、送話音声データから認識されたフレーズのフレーズＩＤとして登録される。

［ステップＳ２２１］オペレータと顧客との通話が続いている場合にはステップＳ２１１の処理が実行され、通話が終了した場合には、処理が終了される。なお、通話が終了したことを検出する方法としては、例えば、ＰＢＸ２００の接続制御部２２１から通話終了の通知を受ける方法、あるいは、ＰＢＸ２００からの送話音声データまたは受話音声データの転送が終了したことを検知する方法などを適用できる。

図１２は、ＰＢＸの音声ミュート部の内部構成例を示す図である。音声ミュート部２２３は、音声データバッファ２２３ａと音声データ書き替え部２２３ｂとを備える。
音声データバッファ２２３ａは、レベル検出部２２２から出力された送話音声データを一時的に保持し、所定の時間だけ遅延させて音声データ書き替え部２２３ｂに出力する。音声データバッファ２２３ａによる出力遅延時間は、基本的に、音声処理サーバ３００の音声認識部３２２において、送話音声データから１フレーズを認識し、そのフレーズが所定のフレーズと一致するか否かを判定するのに要する時間とされる。

ここで、１フレーズの発話に要する時間は、発話速度およびフレーズ自体の長さによって異なる。このため、例えば、音声データバッファ２２３ａによる出力遅延時間を次のような手順であらかじめ算出する。まず、音声認識部３２２で認識させるフレーズのそれぞれを、通話の際に考え得る様々な速度で発話したときに要した発話時間を平均化して、基準発話時間を算出する。次に、算出した基準発話時間に、音声認識部３２２においてフレーズの一致判定を行うのに要する判定時間の平均値である基準判定時間を加算した時間を、音声データバッファ２２３ａによる出力遅延時間とする。

音声データ書き替え部２２３ｂは、音声処理サーバ３００の音声／表示制御部３２１からミュート要求を受けたタイミングを起点として、所定の期間だけ、音声データバッファ２２３ａから出力された送話音声データの音声レベルを“０”に書き替えて出力する。ここで、音声レベルの書き替えを実行する期間を、上記の基準発話時間とする。

このような処理により、音声ミュート部２２３では、音声をミュートするタイミングと、ミュートすべきフレーズが実際に送話音声に現れるタイミングとを精度よく合わせることができる。なお、上記の基準発話時間としては、例えば、発話時間の平均値の代わりに、発話時間の平均値と最大値との間の任意の値が設定されてもよい。この場合、対象のフレーズが送話音声に現れる期間のうちできるだけ多くの期間において、出力音声がミュートされるようになる。

図１３は、オペレータ側のＰＣのモニタにおけるガイダンス情報の表示例を示す図である。
図１１のステップＳ２１７では、オペレータ側のＰＣ１２０のモニタには、例えば、図１３に示すような画面が表示される。通話が開始された後、ＰＣ１２０のモニタには、図９のステップＳ１２３で説明したように、通話相手の顧客についての顧客情報１２１が表示される。ステップＳ２１７では、顧客情報１２１が表示された画面の一部に、ガイダンス表示画像１２２が合成表示される。ガイダンス表示画像１２２の上部には、認識されたフレーズが表示され、下部には、フレーズデータベース３３１から抽出されたガイダンス情報が表示される。ガイダンス表示画像１２２は、例えば、その背景が目立つ色とされる、あるいは点滅表示されるなどして、オペレータに視認されやすい状態で表示される。

以上で説明した図１０のステップＳ２０１の処理によれば、オペレータの発言内容から所定のフレーズが検出された場合に、検出されたフレーズの性質などに応じた、フレーズごとにあらかじめ決められた処理を実行できる。例えば、検出されたフレーズが顧客に発言するものとして不適切な場合には、そのフレーズが顧客に聞かれなくなるようにしたり、警告音や表示によってオペレータに警告することができる。また、検出されたフレーズが顧客に発言するものとして推奨されるものである場合には、そのことを表示や音声によってオペレータに通知することもできる。

さらに、送話音声データからどのフレーズを認識するかは、通話するオペレータごとに決定されるので、オペレータの能力や経験度、性格などに応じた処理を実行できるようになる。その結果、顧客に対して不適切な発言が発せられることが減り、逆に顧客に対して適切な発言が行われるようになり、顧客満足度を向上させることができる。

次に、図１０のステップＳ２０２の処理について説明する。ステップＳ２０２の詳細な処理手順は、基本的に、図１１に示したステップＳ２０１の処理手順と同じである。このため、ここでは、図１１に示した処理と異なる部分のみを説明する。

ステップＳ２１１では、音声認識部３２２は、送話音声データの代わりに、ＰＢＸ２００から受信した受話音声データから、１つのフレーズを認識する。
ステップＳ２１４では、音声／表示制御部３２１は、ステップＳ２１３で抽出したエントリ内の受話ミュートフラグ３３１ｅの値を参照して、判定処理を行う。そして、ステップＳ２１５では、音声／表示制御部３２１は、ＰＢＸ２００の音声ミュート部２２４に対して、オペレータ側の電話機１１０に対して送出する音声データ（受話音声データ）をミュートするように要求する。音声ミュート部２２４は、ステップＳ２１４での音声ミュート部２２３の処理と同じ処理を実行し、所定の時間だけ受話音声データの音声レベルを“０”に書き替える。なお、音声ミュート部２２４の構成は、図１２に示した音声ミュート部２２３と同様の構成とされる。

ステップＳ２２０では、ＣＲＭサーバ４２０のオペレータ端末制御部４２１は、顧客対応履歴データベース４２４を更新する際に、音声／表示制御部３２１から受信したフレーズＩＤを、認識フレーズ４２４ｃの登録欄に、受話音声データから認識されたフレーズのフレーズＩＤとして登録する。

以上のステップＳ２０２の処理によれば、顧客の発言内容から所定のフレーズが検出された場合に、検出されたフレーズの性質などに応じた、フレーズごとにあらかじめ決められた処理を実行できる。例えば、検出されたフレーズがオペレータに精神的ダメージを与えるものである場合には、そのフレーズがオペレータに聞かれなくなるようにしたり、音楽や表示によってオペレータの感情を静めることができる。

また、受話音声データからどのフレーズを認識するかは、通話するオペレータごとに決定されるので、オペレータの能力や経験度、性格などに応じた処理を実行できるようになる。このため、オペレータができるだけ感情を安定させた状態で通話できるようになり、結果的に、顧客満足度を向上させることができる。

次に、図１４は、図１０のステップＳ２０３の処理内容を詳細に示すフローチャートである。なお、この処理では、音声処理サーバ３００のＲＡＭなどに一時的に保持されるレベル超過フラグが使用される。

［ステップＳ２３１］音声／表示制御部３２１は、ＰＢＸ２００のレベル検出部２２２によって検出された音声レベルを受信する。
［ステップＳ２３２］音声／表示制御部３２１は、受信した音声レベルが、音声レベル基準値より大きいか否かを判定する。音声レベルが音声レベル基準値より大きい場合、ステップＳ２３３の処理が実行され、音声レベルが音声レベル基準値より小さい場合、ステップＳ２３５の処理が実行される。なお、このステップＳ２３２で使用される音声レベル基準値は、図９のステップＳ１１６においてＣＲＭサーバ４２０から送信された値である。

［ステップＳ２３３］音声／表示制御部３２１は、レベル超過フラグの値が“１”である場合には、ステップＳ２３８の処理を実行し、レベル超過フラグの値が“０”である場合には、ステップＳ２３４の処理を実行する。

［ステップＳ２３４］音声／表示制御部３２１は、あらかじめ決められた音声ＩＤをＰＢＸ２００の音声合成部２２５に送信し、送信した音声ＩＤに対応する音声データの合成処理を開始するように要求する。この後、ステップＳ２３８の処理が実行される。

要求を受けた音声合成部２２５は、受信した音声ＩＤに対応する音声データを音声データベース２３２から読み出し、読み出した音声データを、音声ミュート部２２４から出力された受話音声データに合成する。また、音声合成部２２５は、この後に音声／表示制御部３２１から合成処理の終了が要求されるまでの間、音声データの合成処理を続行する。

なお、音声合成部２２５は、ステップＳ２３４での合成処理要求と、図１１のステップＳ２１９での合成処理要求とを重複して受け付けた場合には、それらのうちどちらかで要求された音声ＩＤに対応する音声データの合成処理のみを行う。例えば、各ステップのうち一方で要求された音声データの合成処理を実行しているときに、他方のステップによる音声合成要求を受けた場合には、先に実行していた合成処理を優先的に実行する。

［ステップＳ２３５］音声／表示制御部３２１は、レベル超過フラグの値が“０”である場合には、ステップＳ２３８の処理を実行し、レベル超過フラグの値が“１”である場合には、ステップＳ２３６の処理を実行する。

［ステップＳ２３６］音声／表示制御部３２１は、ＰＢＸ２００の音声合成部２２５に対して、ステップＳ２３４で要求した音声データの合成処理を終了するように要求する。要求を受けた音声合成部２２５は、音声データの合成処理を終了する。

［ステップＳ２３７］音声／表示制御部３２１は、音声レベルの超過が発生したことを、顧客対応履歴データベース４２４に登録してもよい。この場合、音声／表示制御部３２１は、通話中のオペレータのオペレータＩＤをＣＲＭサーバ４２０のオペレータ端末制御部４２１に送信し、音声レベルの超過が発生したことの履歴を顧客対応履歴データベース４２４に登録するように要求する。

オペレータＩＤを受信したオペレータ端末制御部４２１は、例えば、音声レベルの超過が発生したことを示す識別情報を、受信したオペレータＩＤと、通話相手の顧客の顧客ＩＤと、現在の日時とに対応付けて、顧客対応履歴データベース４２４に登録する。

［ステップＳ２３８］オペレータと顧客との通話が続いている場合にはステップＳ２３１の処理が実行され、通話が終了した場合には、処理が終了される。
以上のステップＳ２０３の処理によれば、送話音声データの音声レベルが音声レベル基準値を超えてから、音声レベルが音声レベル基準値以下に下がるまでの間、オペレータ側の電話機１１０に送出される音声データに、あらかじめ決められた音声ＩＤに対応する音声データが合成される。合成される音声データとしては、例えば、オペレータの感情を静めるような音楽のデータなどが選択され、これにより、オペレータの感情の抑揚が抑制され、結果的に顧客満足度を向上させることができる。

［第３の実施の形態］
図１５は、第３の実施の形態に係る電話対応システムに適用されるＰＢＸの構成例を示す図である。なお、図１５では、図４に対応する構成要素には同じ符号を付して示している。

図１５に示したＰＢＸ２００ａは、図４に示したＰＢＸ２００に対して、速度調整部２２６，２２７を追加したものである。速度調整部２２６は、音声ミュート部２２３から出力された送話音声データを処理し、音声ミュート部２２３によって生成された無音区間を短縮するとともに、無音区間の前後の音声のつながりが自然に聞こえるようにする役割を果たす。速度調整部２２７は、音声ミュート部２２４から出力される受話音声データを処理し、音声ミュート部２２４によって生成された無音区間を短縮するとともに、無音区間の前後の音声のつながりが自然に聞こえるようにする役割を果たす。速度調整部２２７から出力される音声データは、音声合成部２２５に供給される。

図１６は、速度調整部の動作を説明する図である。ここでは例として、速度調整部２２６での動作を説明する。
図１６では、速度調整部２２６に入力される送話音声データのうち、音声レベルが所定レベル以下の区間を“無音区間”と称し、それ以外の区間を“有音区間”と称する。速度調整部２２６は、例えば、入力された送話音声データの音声レベルが所定レベル以下となる時間が所定の基準時間だけ続いたとき、無音区間が開始されたと判定する。ただし、無音区間の開始位置を判定する基準時間は、音声処理サーバ３００の音声認識部３２２によって認識される１フレーズの最短時間よりも短いものとする。

速度調整部２２６は、基本的に、有音区間の音声データを、音の高さを変化させずに一定の速度まで減速して再生し、逆に、無音区間を短縮する。これにより、無音区間が短縮された場合でも、無音区間の前後の音声が自然につながるようになる。また、有音区間の音声データの再生時間は減速再生により長くなるが、無音区間が短縮されることで、音声データの再生時間が長くならないようにできる。

図１６の例では、速度調整部２２６に入力される送話音声データに、無音区間２５１〜２５３が出現したものとする。また、これらのうち無音区間２５３は、音声ミュート部２２３によってミュートされたことにより生じた“ミュート区間”であるものとする。速度調整部２２６から出力される音声データでは、有音区間が一定の倍率で長くなり、有音区間同士の間の無音区間が短縮される。図１６の例では、無音区間２５１，２５２は削除され、無音区間２５３は、無音区間２５３の次の有音区間が開始されるタイミングまでの期間に短縮される。

図１７は、速度調整部の内部構成例を示す図である。
速度調整部２２６は、図１６のような動作を実現する処理機能として、無音区間検出部２２６ａ、音声データバッファ２２６ｂおよび減速処理部２２６ｃを有する。

無音区間検出部２２６ａは、音声ミュート部２２３から音声データバッファ２２６ｂに入力される送話音声データの音声レベルを検出する。そして、音声レベルが所定の基準レベル以下となる時間が所定の基準時間だけ続いたとき、無音区間が開始されたと判定する。また、無音区間の開始を判定した後、音声レベルが上記の基準レベルを超えたとき、無音区間が終了したと判定する。

さらに、無音区間検出部２２６ａは、無音区間が開始されたと判定したタイミングでの音声データバッファ２２６ｂへの音声データの書き込みアドレスを、無音区間が開始されたことを示す“開始アドレス”として減速処理部２２６ｃに通知する。また、無音区間検出部２２６ａは、無音区間が終了したと判定したタイミングでの音声データバッファ２２６ｂへの音声データの書き込みアドレスを、無音区間が終了したことを示す“終了アドレス”として減速処理部２２６ｃに通知する。

音声データバッファ２２６ｂは、送話音声データを一時的に保持し、減速処理部２２６ｃに出力する。音声データバッファ２２６ｂの記憶領域はＰＢＸ２００ａが備えるＲＡＭに確保され、例えばリングバッファとして管理される。

減速処理部２２６ｃは、音声データバッファ２２６ｂから読み出した音声データの再生速度を、一定の倍率で減速する。このとき、再生される音声の高さが変化しないように信号処理する。また、減速処理部２２６ｃは、無音区間検出部２２６ａから通知された開始アドレスおよび終了アドレスを、その順番を保ったまま保持する。そして、音声データバッファ２２６ｂからの音声データの読み出しアドレスが開始アドレスと一致すると、音声データの読み出しアドレスを、次に通知された終了アドレスに変更する。このような読み出しアドレスの制御が行われることで、無音区間が短縮される。

なお、速度調整部２２７も、速度調整部２２６と同様の構成によって実現される。
また、上記の例では、減速処理部２２６ｃでの再生速度の減速率を一定としたが、この減速率を可変とすることもできる。例えば、音声データバッファ２２６ｂへ入力される音声データにおける無音区間の終了時刻を検出し、ある無音区間の終了時刻からｎ個の無音区間が現れて終了するまでの時刻の差分を“入力データ長”とする。一方、音声データバッファ２２６ｂから減速処理部２２６ｃに出力される音声データにおける無音区間の終了時刻（すなわち、終了アドレスからデータが読み出される時刻）を検出し、ある無音区間の終了時刻からｎ個の無音区間が現れて終了するまでの時刻の差分を“出力データ長”とする。

上記の入力データ長および出力データ長を定期的に検出し、入力データ長より出力データ長の方が大きい場合には、減速処理部２２６ｃにおける再生速度を一時的に速くする。これにより、送話音声が極端に遅延することが防止される。

以上の第３の実施の形態では、送話音声データあるいは受話音声データから所定のフレーズが認識され、そのフレーズをミュートする処理が行われた場合でも、音声データの送出先の顧客またはオペレータに、ミュートが行われたことをできるだけ意識させないようにすることができる。

［第４の実施の形態］
図１８は、第４の実施の形態に係る電話対応システムに適用されるＰＢＸの構成例を示す図である。なお、図１５では、図４に対応する構成要素には同じ符号を付して示している。

図１８に示すＰＢＸ２００ｂは、図４に示したＰＢＸ２００において、音声ミュート部２２３，２２４の代わりに速度調整部２２８，２２９をそれぞれ配置したものである。速度調整部２２８，２２９は、それぞれ、音声処理サーバ３００からミュート要求を受け付けると、音声処理サーバ３００において所定のフレーズが認識された区間の音声データをスキップし、その後に続く一定時間分の音声データを減速させて再生する。なお、減速再生時には、音声の高さを変えないように処理する。

図１９は、速度調整部の内部構成例を示す図である。
速度調整部２２８は、音声データバッファ２２８ａ、減速処理部２２８ｂおよび読み出し制御部２２８ｃを有する。

音声データバッファ２２８ａは、レベル検出部２２２から供給された送話音声データを一時的に保持し、減速処理部２２８ｂに出力する。音声データバッファ２２８ａの記憶領域はＰＢＸ２００ｂが備えるＲＡＭに確保され、例えばリングバッファとして管理される。

減速処理部２２８ｂは、読み出し制御部２２８ｃからの要求に応じて、音声データバッファ２２８ａから読み出した音声データの再生速度を、一定の倍率で減速する。このとき、再生される音声の高さが変化しないように信号処理する。

読み出し制御部２２８ｃは、音声データバッファ２２８ａからのデータ読み出しと、減速処理部２２８ｂの処理とを制御する。この読み出し制御部２２８ｃの処理については、次の図２０を用いて説明する。

図２０は、速度調整部の動作を説明する図である。
読み出し制御部２２８ｃは、音声処理サーバ３００からミュート要求が送信されていない通常状態では、音声データバッファ２２８ａに入力された音声データを、遅延時間ｔ１だけ遅延させて減速処理部２２８ｂに読み出す。遅延時間ｔ１は、音声処理サーバ３００において１つのフレーズを認識する処理に要する時間に対応する。例えば、遅延時間ｔ１を、１つのフレーズの認識に要する平均時間とすることができる。また、この通常状態では、減速処理部２２８ｂは、音声データバッファ２２８ａから読み出された音声データをそのまま出力する。

ここで、音声データバッファ２２８ａに入力される音声データのうち、タイミングＴ１１〜Ｔ１２の期間で認識対象のフレーズが現れ、このフレーズが音声処理サーバ３００で認識されて、タイミングＴ１２において、音声処理サーバ３００からミュート要求が送信されたものとする。ミュート要求を受けた読み出し制御部２２８ｃは、音声データバッファ２２８ａから減速処理部２２８ｂへの読み出しアドレスを、認識されたフレーズの分だけ先に進める。ここで、読み出しアドレスを進める長さは、例えば固定値とされる。これとともに、読み出し制御部２２８ｃは、減速処理部２２８ｂに対して再生速度を減速するように要求する。減速処理部２２８ｂは、読み出し制御部２２８ｃからの要求に応じて、一定時間ｔ２だけ再生速度を減速する。

図２０の例では、タイミングＴ１１〜Ｔ１２の期間に音声データバッファ２２８ａに入力された音声データ、すなわち、認識対象のフレーズを含む音声データは、減速処理部２２８ｂに読み出されずに破棄される。そして、タイミングＴ１２以降に入力された音声データが、タイミングＴ１１以前に入力された音声データに続いて、減速処理部２２８ｂに読み出される。この結果、タイミングＴ１２〜Ｔ１３の期間に音声データバッファ２２８ａに入力された音声データが、減速再生される。

なお、速度調整部２２９も、速度調整部２２８と同様の構成によって実現される。
以上の第４の実施の形態では、送話音声データあるいは受話音声データから所定のフレーズが認識された場合に、認識された音声が通話相手に送出されないようにすることができる。また、認識されたフレーズが出現した期間において、その後に出現する音声を減速して再生することにより、不自然な無音期間が生じず、通話相手に対して音声がより自然に届くようになる。

なお、上記の速度調整部２２８，２２９では、音声処理サーバ３００からミュート要求を受けたとき、認識されたフレーズの後の音声データの再生速度を減速したが、その代わりに、認識されたフレーズの前の音声データの再生速度を減速してもよい。ただし、この場合には、通常時に音声データバッファからの読み出しを遅延させる遅延時間ｔ１が、図２０の場合より大きくされる。そして、認識されたフレーズの直前の音声データのうち、図２０の場合より遅延時間ｔ１を拡大した時間分の音声データについて、減速再生が行われる。

［第５の実施の形態］
図２１は、第５の実施の形態に係る電話応対システムの構成例を示す図である。なお、図２１では、図４に対応する構成要素には同じ符号を付して示している。

図２１に示すＰＢＸ２００ｃは、図４に示したＰＢＸ２００の処理機能と、音声処理サーバ３００の処理機能とを、同一のコンピュータによって実現したものである。この場合、例えば、レベル検出部２２２、音声ミュート部２２３，２２４、音声合成部２２５および音声認識部３２２の処理を、共通の音声処理回路に実行させることができる。

なお、ＰＢＸ２００ｃでは、例えば、音声ミュート部２２３，２２４のそれぞれの後段に、図１５に示した速度調整部２２６，２２７が設けられてもよい。あるいは、音声ミュート部２２３，２２４の代わりに、図１８に示した速度調整部２２８，２２９がそれぞれ設けられてもよい。

なお、上記の処理機能は、コンピュータによって実現することができる。その場合、上記各実施の形態のシステム内の各装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記憶装置には、ハードディスク装置（ＨＤＤ）、フレキシブルディスク（ＦＤ）、磁気テープなどがある。光ディスクには、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ、ＣＤ−ＲＯＭ（Compact Disc-Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）などがある。光磁気記録媒体には、ＭＯ（Magneto-Optical disk）などがある。

プログラムを流通させる場合には、例えば、そのプログラムが記録されたＤＶＤ、ＣＤ−ＲＯＭなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。

プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、ネットワークを介して接続されたサーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。

また、上記の処理機能の少なくとも一部を、ＤＳＰ、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）などの電子回路で実現することもできる。

以上の各実施の形態に関し、さらに以下の付記を開示する。
（付記１）第１の通話手段から第２の通話手段に対する通話音声信号の送信を禁止する送信禁止手段と、
前記第１の通話手段から前記送信禁止手段に入力される通話音声信号から所定のフレーズを認識する音声認識手段と、
あらかじめ決められた認識対象フレーズが前記音声認識手段によって認識された場合に、認識された前記認識対象フレーズに対応する通話音声信号の送信を禁止するように前記送信禁止手段を制御する制御手段と、
を有することを特徴とする通話音声処理装置。

（付記２）前記制御手段は、複数の前記認識対象フレーズのうちの１つが前記音声認識手段によって認識された場合に、認識された前記認識対象フレーズに対応する通話音声信号の送信を前記送信禁止手段に禁止させるか否かを、認識された前記認識対象フレーズごとに判定することを特徴とする付記１記載の通話音声処理装置。

（付記３）前記第２の通話手段から前記第１の通話手段に対して出力される通話音声信号に、所定の音声信号を合成する音声合成手段をさらに有し、
前記制御手段は、前記認識対象フレーズが前記音声認識手段によって認識された場合に、前記音声合成手段に音声信号を合成させる、
ことを特徴とする付記１または２記載の通話音声処理装置。

（付記４）前記制御手段は、複数の前記認識対象フレーズのうちの１つが前記音声認識手段によって認識された場合に、認識された前記認識対象フレーズに対応する通話音声信号の送信を前記送信禁止手段に禁止させるか否か、および、前記音声合成手段に音声信号を合成させるか否かのそれぞれについて、認識された前記認識対象フレーズごとに判定することを特徴とする付記３記載の通話音声処理装置。

（付記５）前記制御手段は、前記音声合成手段に音声信号を合成させる場合に、合成させる音声信号を、前記音声認識手段によって認識された前記認識対象フレーズごとに指定することを特徴とする付記４記載の通話音声処理装置。

（付記６）前記制御手段は、
前記認識対象フレーズが前記音声認識手段によって認識された場合に、前記第１の通話手段で通話する利用者が視認する表示装置に所定の情報を表示させる機能を有し、
複数の前記認識対象フレーズのうちの１つが前記音声認識手段によって認識された場合に、認識された前記認識対象フレーズに対応する通話音声信号の送信を前記送信禁止手段に禁止させるか否か、および、前記表示装置に所定の情報を表示させるか否かのそれぞれについて、認識された前記認識対象フレーズごとに判定する、
ことを特徴とする付記１または２記載の通話音声処理装置。

（付記７）前記制御手段は、前記表示装置に所定の情報を表示させる場合に、表示させる情報を、前記音声認識手段によって認識された前記認識対象フレーズごとに指定することを特徴とする付記６記載の通話音声処理装置。

（付記８）前記音声認識手段に認識させる前記認識対象フレーズは、前記第１の通話手段で通話する利用者ごとに設定されることを特徴とする付記１〜７のいずれか１つに記載の通話音声処理装置。

（付記９）前記送信禁止手段は、前記制御手段からの制御により、前記音声認識手段によって認識された前記認識対象フレーズに対応する通話音声信号の送信を禁止するとき、当該認識対象フレーズに対応する通話音声信号の音声レベルを０に変更することを特徴とする付記１〜８のいずれか１つに記載の通話音声処理装置。

（付記１０）前記送信禁止手段から出力された音声信号のうち、音声レベルが所定レベル以下の低レベル区間を短縮するとともに、前記低レベル区間以外の音声信号の出力速度を低下させる音声処理手段をさらに有することを特徴とする付記９記載の通話音声処理装置。

（付記１１）前記送信禁止手段は、前記制御手段からの制御により、前記音声認識手段によって認識された前記認識対象フレーズに対応する通話音声信号の送信を禁止するとき、当該認識対象フレーズを含むフレーズ出現期間の通話音声信号を破棄して、当該フレーズ出現期間の前後の通話音声信号を接続するとともに、当該フレーズ出現期間の前側または後側の通話音声信号の出力速度を低下させることを特徴とする付記１〜８のいずれか１つに記載の通話音声処理装置。

（付記１２）前記第１の通話手段から前記第２の通話手段に対する通話音声信号の送信を、前記制御手段からの制御の下で禁止する第１の送信禁止手段と、
前記第１の通話手段から前記第１の送信禁止手段に入力される通話音声信号から所定のフレーズを認識する第１の音声認識手段と、
前記第２の通話手段から前記第１の通話手段に対する通話音声信号の送信を、前記制御手段からの制御の下で禁止する第２の送信禁止手段と、
前記第２の通話手段から前記第２の送信禁止手段に入力される通話音声信号から所定のフレーズを認識する第２の音声認識手段と、
を有し、
前記制御手段は、複数の前記認識対象フレーズのうちの１つが前記第１の音声認識手段によって認識された場合に、認識された前記認識対象フレーズに対応する通話音声信号の送信を前記第１の送信禁止手段に禁止させるか否か、および、複数の前記認識対象フレーズのうちの１つが前記第２の音声認識手段によって認識された場合に、認識された前記認識対象フレーズに対応する通話音声信号の送信を前記第２の送信禁止手段に禁止させるか否かのそれぞれについて、前記第１または第２の音声認識手段によって認識された前記認識対象フレーズごとに判定する、
ことを特徴とする付記１記載の通話音声処理装置。

（付記１３）第１の通話手段と第２の通話手段との間の通話音声信号が通過する通信装置から、前記第１の通話手段からの通話音声信号を受信し、受信した通話音声信号から所定のフレーズを認識する音声認識手段と、
あらかじめ決められた認識対象フレーズが前記音声認識手段によって認識された場合に、前記第１の通話手段から前記第２の通話手段への通信音声信号のうち、認識された前記認識対象フレーズに対応する通話音声信号の送信を禁止するように、前記通信装置が有する送信禁止手段を制御する制御手段と、
を有することを特徴とする通話音声制御装置。

（付記１４）前記制御手段は、複数の前記認識対象フレーズのうちの１つが前記音声認識手段によって認識された場合に、認識された前記認識対象フレーズに対応する通話音声信号の送信を前記送信禁止手段に禁止させるか否かを、認識された前記認識対象フレーズごとに判定することを特徴とする付記１３記載の通話音声制御装置。

（付記１５）情報処理装置が、第１の通話手段と第２の通話手段との間の通話音声信号が通過する通信装置から、前記第１の通話手段からの通話音声信号を受信して、受信した通話音声信号から所定のフレーズを認識する音声認識ステップと、
前記情報処理装置が、あらかじめ決められた認識対象フレーズが前記音声認識ステップで認識された場合に、前記第１の通話手段から前記第２の通話手段への通信音声信号のうち、認識された前記認識対象フレーズに対応する通話音声信号の送信を禁止するように、前記通信装置が有する送信禁止手段を制御する制御ステップと、
を含むことを特徴とする通話音声制御方法。

１０通話音声処理装置
１１送信禁止手段
１２音声認識手段
１３制御手段
１４音声合成手段
２１，２２通話手段

Claims

第１の通話手段から第２の通話手段に対する通話音声信号の送信を禁止する送信禁止手段と、
前記第１の通話手段を用いて通話する通話者に所定の情報を通知するための表示情報を出力する表示情報出力手段と、
前記第１の通話手段から前記送信禁止手段に入力される通話音声信号から所定のフレーズを認識する音声認識手段と、
あらかじめ決められた複数の認識対象フレーズのうちの１つが前記音声認識手段によって認識された場合に、認識された前記認識対象フレーズに対応する通話音声信号の送信を前記送信禁止手段に禁止させるか否か、および、認識された前記認識対象フレーズに対応する情報を通知するための前記表示情報を前記表示情報出力手段に出力させるか否かを、認識された前記認識対象フレーズごとに決定する制御手段と、
を有することを特徴とする通話音声処理装置。
前記第２の通話手段から前記第１の通話手段に対して出力される通話音声信号に、所定の音声信号を合成する音声合成手段をさらに有し、
前記制御手段は、前記認識対象フレーズが前記音声認識手段によって認識された場合に、前記音声合成手段に音声信号を合成させる、
ことを特徴とする請求項１記載の通話音声処理装置。
前記送信禁止手段は、前記制御手段からの制御により、前記音声認識手段によって認識された前記認識対象フレーズに対応する通話音声信号の送信を禁止するとき、当該認識対象フレーズに対応する通話音声信号の音声レベルを０に変更することを特徴とする請求項１または２記載の通話音声処理装置。
前記送信禁止手段から出力された音声信号のうち、音声レベルが所定レベル以下の低レベル区間を短縮するとともに、前記低レベル区間以外の音声信号の出力速度を低下させる音声処理手段をさらに有することを特徴とする請求項３記載の通話音声処理装置。
第１の通話手段と第２の通話手段との間の通話音声信号が通過する通信装置から、前記第１の通話手段からの通話音声信号を受信し、受信した通話音声信号から所定のフレーズを認識する音声認識手段と、
あらかじめ決められた複数の認識対象フレーズのうちの１つが前記音声認識手段によって認識された場合に、認識された前記認識対象フレーズに対応する通話音声信号の送信を、前記通信装置が有する送信禁止手段に禁止させるか否か、および、認識された前記認識対象フレーズに対応する情報を前記第１の通話手段を用いて通話する通話者に通知するための表示情報を表示情報出力装置に出力させるか否かを、認識された前記認識対象フレーズごとに決定する制御手段と、
を有することを特徴とする通話音声制御装置。
情報処理装置が、第１の通話手段と第２の通話手段との間の通話音声信号が通過する通信装置から、前記第１の通話手段からの通話音声信号を受信して、受信した通話音声信号から所定のフレーズを認識する音声認識ステップと、
前記情報処理装置が、あらかじめ決められた複数の認識対象フレーズのうちの１つが前記音声認識ステップで認識された場合に、前記第１の通話手段から前記第２の通話手段への通信音声信号のうち、認識された前記認識対象フレーズに対応する通話音声信号の送信を禁止するか否か、および、認識された前記認識対象フレーズに対応する情報を前記第１の通話手段を用いて通話する通話者に通知するための表示情報を出力するか否かを、認識された前記認識対象フレーズごとに決定する制御ステップと、
を含むことを特徴とする通話音声制御方法。