以下、実施の形態を図面を参照して詳細に説明する。
[第1の実施の形態]
図1は、第1の実施の形態に係る通話音声処理装置の構成例を示す図である。
図1に示す通話音声処理装置10は、通話手段21と通話手段22との間の通話音声に対して処理を施す装置である。ここで、通話手段21,22は、例えば電話機である。例えば、通話手段21は、コールセンタ内のオペレータが通話する電話機とすることができる。この場合、通話手段22は、顧客が通話する電話機となる。
また、例えば、通話手段21は、通話者が発する声を音声信号に変換するマイクロフォンや、通話相手が発した声を通話者に伝達するスピーカであってもよい。この場合、通話音声処理装置10は、マイクロフォンやスピーカが接続された通話端末装置であってもよい。
通話音声処理装置10は、送信禁止手段11、音声認識手段12および制御手段13を有する。また、通話音声処理装置10は、さらに、音声合成手段14を備えていてもよい。なお、送信禁止手段11、音声認識手段12、制御手段13および音声合成手段14の処理は、例えば、通話音声処理装置10が備えるCPU(Central Processing Unit)によって所定のプログラムが実行されることで実現される。また、これらの各処理手段による処理の一部が、専用の回路によって実行されてもよい。
送信禁止手段11は、通話手段21から通話手段22に対する通話音声信号の送信を、制御手段13からの要求に応じて禁止する。ここで、通話音声信号の送信を禁止する処理としては、例えば、通話音声信号中の音声レベルを“0”に変換するミュート処理を適用できる。
音声認識手段12は、通話手段21から送信禁止手段11に入力される通話音声信号から、所定のフレーズを認識する。音声認識手段12は、例えば、制御手段13から指定された複数のフレーズを、通話音声信号から認識することが可能である。
制御手段13は、あらかじめ決められた認識対象フレーズが音声認識手段12によって認識された場合に、送信禁止手段11に、認識された認識対象フレーズに対応する通話音声信号の送信を禁止させる。このような処理により、例えば、通話手段21で通話する通話者が、通話相手の気分を害するような不適切なフレーズを発した場合に、そのフレーズが通話相手に届かないようにすることができる。通話手段21の通話者がコールセンタのオペレータである場合には、このような処理により顧客満足度を向上させる効果が得られる。
また、音声合成手段14が設けられている場合、制御手段は、あらかじめ決められた認識対象フレーズが音声認識手段12によって認識されたときに、音声合成手段14に所定の音声信号を合成させることもできる。例えば、通話手段21の通話者が不適切なフレーズを発した場合に、通話者に警告音を聞かせることができる。通話手段21の通話者がコールセンタのオペレータである場合には、このような処理により、オペレータは不適切な発言をしないように注意するようになり、その結果、オペレータが提供するサービスの品質が向上する。
また、制御手段13は、音声認識手段12によって認識対象フレーズが認識されたときに、送信禁止手段11に通話音声信号の送信を禁止させるか否か、あるいは、音声合成手段14に音声信号を合成させるか否かについて、認識された認識対象フレーズごとに判定してもよい。また、制御手段13は、音声合成手段14に合成させる音声信号を、認識された認識対象フレーズごとに判定してもよい。
例えば、認識対象フレーズは、必ずしも通話手段22の通話者に対して発せられることが好ましくないフレーズである必要はない。コールセンタなどでは、顧客に対して発言することが推奨されるフレーズがあり、そのようなフレーズを認識対象フレーズとして設定することもできる。この場合、認識対象フレーズが音声認識手段12により認識された場合には、制御手段13は、音声合成手段14に、好ましい発言であることを通知する音声信号を合成させる。しかし、送信禁止手段11には、通話音声信号の送信を禁止させない。
このように、制御手段13は、音声認識手段12により認識された認識対象フレーズの性質などに応じて、送信禁止手段11および音声合成手段14を適応的に制御することが可能である。
なお、上記の通話音声処理装置10が具備する各処理機能は、必ずしも1つの装置内に設けられている必要はない。例えば、送信禁止手段11および音声合成手段14が、PBX(Private Branch eXchange)など、電話機間に配置される通信装置に設けられ、音声認識手段12および制御手段13が、この通信装置とは別の装置に設けられてもよい。
次に、上記の通話音声処理装置10が備える処理機能を、IP(Internet Protocol)ベースの電話対応システムに適用した場合の実施の形態について説明する。
[第2の実施の形態]
図2は、第2の実施の形態に係る電話対応システムの全体構成例を示す図である。
図2に示す電話対応システムは、例えば、製品の製造または販売を行う事業者やサービスの提供事業者が、顧客からの電話による問い合わせに対応するコールセンタ100などに構築されるシステムである。この電話対応システムは、電話機110、PC(Personal Computer)120、PBX200、音声処理サーバ300、CTI(Computer Telephony Integration)サーバ410およびCRM(Customer Relationship Management)サーバ420を有する。
コールセンタ100内のオペレータは、電話機110を用いて顧客と通話する。PC120は、電話機110を用いて通話するオペレータが操作する端末装置である。PC120にはモニタが接続されており、オペレータは、例えば、モニタ上に通話相手の顧客に関する情報などを表示させた状態で、通話することが可能になっている。なお、電話対応システムは、電話機110およびPC120を複数組備えていてもよい。
PBX200は、オペレータが通話する電話機110と、顧客が通話する電話機510とを接続し、これらの電話機間の通話動作を制御する。本実施の形態では、PBX200はいわゆるIP−PBXであり、電話機間の通話音声をデジタルデータとして取り扱う。PBX200は、オペレータ側の電話機110に対してLAN430を通じて接続し、顧客側の電話機510に対してIPネットワークである公衆回線網520を通じて接続する。また、PBX200は、オペレータ側の電話機110だけでなく、音声処理サーバ300、CTIサーバ410およびCRMサーバ420とも、LAN430を通じて接続されている。
音声処理サーバ300は、オペレータ側の電話機110と顧客側の電話機510との間の通話音声の検知結果に応じて、通話音声に対するミュート処理や音声合成処理をPBX200に実行させる。後述するように、音声処理サーバ300は、オペレータ側の電話機110から顧客側の電話機510への送話音声のデータをリアルタイムに受信し、その音声データを基に所定のフレーズを検出する音声認識機能を備えている。また、音声処理サーバ300は、通話音声の検知結果に応じて、オペレータ側のPC120のモニタに所望の情報を表示させることを要求する機能も備えている。
CTIサーバ410は、PBX200がCRMサーバ420などの他のコンピュータと連携するためのインタフェースを提供する。なお、CTIサーバ410の機能は、PBX200内に組み込まれていてもよい。
CRMサーバ420は、オペレータおよび顧客についての情報を管理するサーバであり、例えば、オペレータ側のPC120のモニタに対して、通話相手の顧客の情報などを表示させる。
図3は、PBXのハードウェア構成例を示す図である。
PBX200は、例えば、図3に示すようなコンピュータとして実現される。PBX200は、CPU201によって装置全体が制御されている。CPU201には、バス202を介して、RAM(Random Access Memory)203と複数の周辺機器が接続されている。
RAM203は、PBX200の主記憶装置として使用される。RAM203には、CPU201に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM203には、CPU201による処理に必要な各種データが格納される。
バス202に接続されている周辺機器としては、ハードディスクドライブ(HDD:Hard Disk Drive)204、グラフィック処理回路205、入力インタフェース206、光学ドライブ207、通信インタフェース208,209および音声処理回路210がある。
HDD204は、内蔵した磁気ディスクに対してデータの書き込みおよび読み出しを行う。HDD204は、PBX200の二次記憶装置として使用される。HDD204には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、二次記憶装置としては、フラッシュメモリなどの半導体記憶装置を使用することもできる。
グラフィック処理回路205には、モニタ205aが接続されている。グラフィック処理回路205は、CPU201からの命令に従って、画像をモニタ205aの画面に表示させる。モニタ205aとしては、液晶表示装置などがある。
入力インタフェース206には、キーボード206aとマウス206bとが接続されている。入力インタフェース206は、キーボード206aやマウス206bから送られてくる信号をCPU201に送信する。なお、マウス206bは、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
光学ドライブ207は、レーザ光などを利用して、光ディスク207aに記録されたデータの読み取りを行う。
通信インタフェース208は、LAN430に接続され、LAN430を介して、音声処理サーバ300などの他の機器との間でデータを送受信する。通信インタフェース209は、公衆回線網520に接続され、公衆回線網520を通じて、顧客側の電話機510などの他の機器との間でデータを送受信する。
音声処理回路210は、音声データを処理する専用の回路であり、例えばDSP(Digital Signal Processor)として実現される。PBX200において、音声処理回路210は、通話音声データから音量を検出する音声レベル検出処理や、通話音声データからフレーズを切り出し、あらかじめ決められたフレーズか否かを認識する音声認識処理などを実行する。
なお、図2に示した音声処理サーバ300は、例えば、図3に示した構成のうち通信インタフェース209を除いたハードウェア構成によって実現可能である。また、図2に示したCTIサーバ410、CRMサーバ420およびPC120は、例えば、図3に示した構成のうち通信インタフェース209および音声処理回路210を除いたハードウェア構成によって実現可能である。
また、PBX200、音声処理サーバ300、CTIサーバ410およびCRMサーバ420のうちの少なくとも1つは、例えば、ラックマウントタイプのコンピュータとして実現されてもよい。ラックマウントタイプのコンピュータは、ラック内に設けられた複数のスロットの1つに挿入できるようになっている。そして、例えばPBX200と音声処理サーバ300など、ラックマウントタイプの複数のコンピュータは、1つのラック内に挿入された状態で販売・流通される場合もある。
次に、図4は、電話対応システム内の各機器が備える処理機能の例を示すブロック図である。
PBX200は、接続制御部221、レベル検出部222、音声ミュート部223,224および音声合成部225を備えている。ここで、接続制御部221の処理は、例えば、PBX200が備えるCPU201によって所定のプログラムが実行されることで実現される。また、レベル検出部222、音声ミュート部223,224および音声合成部225の処理は、例えば、PBX200が備える音声処理回路210によって実現される。あるいは、レベル検出部222、音声ミュート部223,224および音声合成部225のそれぞれの処理のうちの少なくとも一部は、PBX200が備えるCPU201によって所定のプログラムが実行されることで実現されてもよい。
接続制御部221は、ログイン情報231に登録された情報を基に、オペレータ側の電話機110と顧客側の電話機510との通話動作を制御する。ログイン情報231には、ログイン状態のオペレータ、すなわち、顧客との通話の準備が整っている状態のオペレータを識別するオペレータIDと、ログイン状態のオペレータが使用する電話機110のIPアドレスとが登録されている。なお、ログイン情報231は、例えば、PBX200が備えるRAM203あるいはHDD204などに記憶されている。
接続制御部221は、顧客側の電話機510からの着信を検出すると、ログイン情報231に登録されたオペレータIDのうち1つを選択し、選択したオペレータIDに対応付けられたIPアドレスを読み出す。そして、読み出したIPアドレスを持つ電話機110と接続し、接続した電話機110と顧客側の電話機510との間の通話動作を開始させる。
通話動作を開始させると、接続制御部221は、選択したオペレータIDを音声処理サーバ300に送信する。これとともに、接続制御部221は、オペレータ側の電話機110からPBX200に送出された音声データ(以下、“送話音声データ”と呼ぶ)と、顧客側の電話機510からPBX200に送出された音声データ(以下、“受話音声データ”と呼ぶ)とを、音声処理サーバ300に転送する。
また、接続制御部221は、CTIサーバ410を介してCRMサーバ420と通信することもできる。例えば、ログインしたオペレータのオペレータIDおよびIPアドレスは、CRMサーバ420からCTIサーバ410を介してPBX200に送信され、接続制御部221は、受信したオペレータIDおよびIPアドレスをログイン情報231に登録する。
レベル検出部222は、オペレータ側の電話機110から送出された送話音声データから、音声レベルを検出する。検出された音声レベルは、音声処理サーバ300に送信される。
音声ミュート部223は、音声処理サーバ300からの要求に応じて、レベル検出部222から顧客側の電話機510に送出する送話音声データ中の音声レベルを“0”に書き替えるミュート処理を実行する。なお、ミュート処理は、例えば、送話音声データから人間の音声成分のみを除去する処理であってもよい。
音声ミュート部224は、顧客側の電話機510から送出された受話音声データに対して、音声処理サーバ300からの要求に応じて、前述のミュート処理を施す。
音声合成部225は、音声ミュート部224からオペレータ側の電話機110に送出される受話音声データに対して、音声処理サーバ300から要求された音声データを合成する処理を行う。音声処理サーバ300は、音声処理サーバ300から音声IDを受信し、受信した音声IDに対応する音声データを音声データベース232から読み出す。そして、読み出した音声データを受話音声データに合成して出力する。
後述するように、音声データベース232には、例えば、オペレータを落ち着かせるための音楽や、オペレータに警告を発する警告音などの音声データが、それぞれ音声IDに対応付けて記憶される。なお、音声データベース232は、例えば、PBX200が備えるHDD204などの不揮発性記録装置に記憶される。
なお、音声ミュート部224によるミュート処理と、音声合成部225による音声合成処理については、いずれか一方のみが実行される。従って、例えば、音声ミュート部224と音声合成部225との接続順は逆であってもよく、また、音声ミュート部224と音声合成部225の各処理が並列に実行されてもよい。
次に、CRMサーバ420について説明する。CRMサーバ420は、オペレータ端末制御部421およびオペレータ情報送信部422を備えている。これらのオペレータ端末制御部421およびオペレータ情報送信部422の処理は、例えば、CRMサーバ420が備えるCPU(図示せず)によって所定のプログラムが実行されることで実現される。
オペレータ端末制御部421は、オペレータのログイン処理や、ログインしたオペレータが使用するPC120のモニタに対する情報の表示処理を制御する。例えば、オペレータ端末制御部421は、PC120からログインが要求されると、要求元のPC120のIPアドレスと、ログインを要求したオペレータのオペレータIDとを、CTIサーバ410を介してPBX200に通知する。
また、オペレータ端末制御部421は、ログインしたオペレータに対して通知すべき注意事項を、オペレータデータベース423や顧客対応履歴データベース424に登録された情報を基に抽出し、PC120のモニタに表示させる。さらに、オペレータ端末制御部421は、オペレータと顧客との通話が開始されると、通話相手の顧客に関する情報を顧客データベース425や顧客対応履歴データベース424から読み出し、PC120のモニタに表示させる。
オペレータデータベース423には、オペレータに関するオペレータ情報が、オペレータIDに対応付けて登録されている。顧客対応履歴データベース424には、オペレータと顧客との通話時において発生した事象に関する情報が、オペレータIDおよび顧客IDとともに履歴として登録されている。顧客データベース425には、顧客の個人情報などが顧客IDに対応付けて登録されている。これらのオペレータデータベース423、顧客対応履歴データベース424および顧客データベース425は、CRMサーバ420が備えるHDD(図示せず)などの不揮発性記憶装置に記憶される。なお、オペレータデータベース423および顧客対応履歴データベース424の内容については、後に詳しく説明する。
また、オペレータ端末制御部421は、オペレータと顧客との通話中において、音声処理サーバ300から表示を要求されたガイダンス情報を、オペレータが操作するPC120のモニタに表示させる。さらに、オペレータ端末制御部421は、音声処理サーバ300から送信された情報を用いて、顧客対応履歴データベース424を更新する。
オペレータ情報送信部422は、通話を開始したオペレータのオペレータIDを音声処理サーバ300から受信すると、受信したオペレータIDに対応付けられたオペレータ情報のうち必要な情報をオペレータデータベース423から読み出す。そして、読み出したオペレータ情報を音声処理サーバ300に送信する。
次に、音声処理サーバ300について説明する。音声処理サーバ300は、音声/表示制御部321と音声認識部322とを備えている。ここで、音声/表示制御部321の処理は、例えば、音声処理サーバ300が備えるCPU(図示せず)によって所定のプログラムが実行されることで実現される。また、音声認識部322の処理は、例えば、音声処理サーバ300が備える音声処理回路(図示せず)によって実現される。あるいは、音声認識部322の処理のうちの少なくとも一部は、音声処理サーバ300が備えるCPUによって所定のプログラムが実行されることで実現されてもよい。
音声認識部322は、PBX200から送信された送話音声データおよび受話音声データから、音声/表示制御部321から指定されたフレーズを認識する。音声認識部322は、例えば、入力された音声データからひとまとまりのフレーズを判別して切り出し、切り出したフレーズが、音声/表示制御部321から指定されたフレーズと一致するか否かを判定する。指定されたフレームと一致した場合、音声認識部322は、一致したフレーズを示す情報とともに音声/表示制御部321に通知する。
音声認識部322で認識させるフレーズは、フレーズデータベース331に登録されたフレーズから音声/表示制御部321によって選択されて、音声認識部322に対して指定される。また、音声/表示制御部321は、送話音声データから認識させるフレーズと、受話音声データから認識させるフレーズとを、それぞれ個別に音声認識部322に指定する。
音声/表示制御部321は、オペレータと顧客との間の通話音声からの各種の検知結果に基づいて、次の(1)〜(4)の4種類の処理を統括的に制御する。
(1)送話ミュート処理:PBX200の音声ミュート部223における送話音声データのミュート処理
(2)受話ミュート処理:PBX200の音声ミュート部224における受話音声データのミュート処理
(3)音声合成処理:PBX200の音声合成部225における受話音声データに対する音声合成処理
(4)ガイダンス表示処理:オペレータ側のPC120のモニタにガイダンス情報を表示させる処理
また、音声/表示制御部321は、上記の(1)〜(4)の処理を、次の(A)〜(C)の3種類の情報に基づいて制御する。
(A)音声認識部322によって送話音声データからのフレーズの認識結果
(B)音声認識部322によって受話音声データからのフレーズの認識結果
(C)PBX200のレベル検出部222によって検出された、送話音声データの音声レベル
これらの情報のうち、(C)の音声レベルに基づく処理では、あらかじめ決められた処理が実行される。本実施の形態では、例として、(C)の音声レベルに基づいて(3)の音声合成処理が制御される。より具体的には、音声/表示制御部321は、送話音声データの音声レベルが所定の音声レベル基準値を超えた場合に、音声合成部225に対して、あらかじめ決められた音楽の音声データを合成するように要求する。これにより、顧客を不快にさせることなどをできるだけ回避し、顧客満足度の向上を図る。
ここで、送話音声データの音声レベルと比較する音声レベル基準値は、オペレータごとに任意に設定される。オペレータごとの音声レベル基準値は、オペレータIDに対応付けてオペレータデータベース423に登録される。そして、音声/表示制御部321は、オペレータと顧客との通話が開始されると、オペレータIDに対応する音声レベル基準値を、オペレータ情報送信部422を通じてオペレータデータベース423から取得する。
次に、上記の(A),(B)に対応する、フレーズの認識結果に基づく処理について説明する。通話音声データから所定のフレーズが認識された場合にどのような処理を実行するかを示す情報は、フレーズデータベース331において認識対象のフレーズごとに登録される。
ここで、図5は、フレーズデータベースに登録される情報の例を示す図である。なお、このフレーズデータベース331は、音声処理サーバ300が備えるHDD(図示せず)などの不揮発性記憶装置に記憶される。
フレーズデータベース331には、送話音声データまたは受話音声データから認識されるフレーズ(認識対象フレーズ331b)が、そのフレーズを識別するフレーズID331aに対応付けて登録されている。ここで、認識対象フレーズ331bに登録されるフレーズは、送話音声データおよび受話音声データのどちらからでも認識させることが可能である。
さらに、フレーズデータベース331には、各フレーズID331aに対応付けて、ガイダンス情報331c、送話ミュートフラグ331d、受話ミュートフラグ331eおよび合成音声331fが登録される。
ガイダンス情報331cには、認識対象フレーズ331bに登録されたフレーズが認識されたときにPC120のモニタに表示させるガイダンス情報の内容が、必要に応じて登録される。例えば、認識対象フレーズ331bとして、顧客を不快にさせるような不適切なフレーズが登録された場合、ガイダンス情報331cには、そのフレーズを発言しないようにオペレータに指示する情報が登録される。この場合、登録された不適切なフレーズが送話音声データから認識された場合に、そのフレーズを発言しないように指示する情報がオペレータ側のPC120のモニタに表示されるようになる。
逆に、認識対象フレーズ331bとして、顧客に対して発言することが好ましいフレーズが登録された場合には、ガイダンス情報331cには、そのフレーズを発言することをオペレータに奨励するような情報が登録される。この場合、登録された好ましいフレーズが送話音声データから認識された場合に、そのフレーズの発言を奨励する情報がオペレータ側のPC120のモニタに表示されるようになる。
また、ガイダンス情報331cとしては、認識対象フレーズ331bに登録されたフレーズが受話音声データから認識された場合を想定した情報を登録することもできる。例えば、認識対象フレーズ331bとして、オペレータに対して精神的ダメージを与えるようなフレーズが登録された場合には、ガイダンス情報331cには、オペレータを落ち着かせるような情報が登録される。この場合、登録されたフレーズが受話音声データから認識された場合に、オペレータを落ち着かせる情報がオペレータ側のPC120のモニタに表示されるようになる。
送話ミュートフラグ331dには、認識対象フレーズ331bに登録されたフレーズが送話音声データから認識されたときに、顧客側の電話機510に送出する送話音声データをミュートするか否かを示すフラグ情報が登録される。例えば、顧客を不快にさせるフレーズや、顧客に誤解を与えるフレーズなど、顧客に発するフレーズとして不適切なフレーズに対応する送話ミュートフラグ331dは、“ON”に設定されればよい。この場合、送話音声データから不適切なフレーズが認識された場合に、そのフレーズを含む送話音声データがミュートされ、そのフレーズが顧客に伝達されないようになる。
受話ミュートフラグ331eには、認識対象フレーズ331bに登録されたフレーズが受話音声データから認識されたときに、オペレータ側の電話機110に送出する受話音声データをミュートするか否かを示すフラグ情報が登録される。例えば、オペレータの生命を脅かすフレーズや、オペレータの人格を攻撃するフレーズなど、オペレータに精神的なダメージを与えるようなフレーズに対応する受話ミュートフラグ331eには、“ON”に設定されればよい。この場合、オペレータに精神的ダメージを与えるフレーズが受話音声データから認識されたときに、そのフレーズを含む受話音声データがミュートされ、そのフレーズがオペレータに伝達されないようになる。
なお、オペレータと顧客の両方に対して伝達されない方がよいフレーズについては、送話ミュートフラグ331dと受話ミュートフラグ331eの両方が“ON”に設定されてもよい。
合成音声331fには、認識対象フレーズ331bに登録されたフレーズが認識されたときに受話音声データに合成する音声を示す音声IDが、必要に応じて登録される。例えば、顧客を不快にさせるような不適切なフレーズに対応する合成音声331fとして、そのフレーズが不適切であることをオペレータに警告する警告音の音声IDが設定されればよい。この場合、不適切なフレーズが送話音声データから認識されたときに、オペレータ側の電話機110に送出される受話音声データに警告音の音声データが合成されるようになる。
また、合成音声331fには、認識対象フレーズ331bに登録されたフレーズが受話音声データから認識された場合を想定した音声IDを登録することもできる。例えば、認識対象フレーズ331bとして、オペレータに対して精神的ダメージを与えるようなフレーズが登録された場合には、合成音声331fには、オペレータを落ち着かせるような音楽の音声IDが登録される。この場合、登録されたフレーズが受話音声データから認識されたときに、オペレータ側の電話機110に送出される受話音声データに、オペレータを落ち着かせる音楽の音声データが合成されるようになる。
以上説明したフレーズデータベース331には、顧客に聞かせない方がよい不適切なフレーズの他、オペレータに精神的ダメージを与えるような、オペレータに聞かせない方がよいフレーズも登録することができる。さらに、フレーズデータベース331には、顧客またはオペレータに聞かせない方がよいフレーズだけでなく、オペレータの発言として推奨される適切なフレーズについても登録できるようになっている。なお、適切なフレーズについては、送話ミュートフラグ331dおよび受話ミュートフラグ331eの両方が“OFF”に設定されることになる。
上記のように、フレーズデータベース331には、送話音声データまたは受話音声データから所定のフレーズが認識された場合にどのような処理を実行するかを示す情報が、認識対象のフレーズごとに登録される。一方、音声処理サーバ300の音声/表示制御部321は、送話音声データおよび受話音声データのそれぞれから、フレーズデータベース331に登録されたもののうちどのフレーズを認識させるかを、オペレータごとに判断する。音声/表示制御部321は、このような判断を、オペレータデータベース423から取得した情報に基づいて行う。
図6は、オペレータデータベースに登録される情報の例を示す図である。
オペレータデータベース423には、オペレータを識別するオペレータID423aのそれぞれに対して、フレーズ指定423bおよび音声レベル基準値423cが登録される。
フレーズ指定423bには、送話音声データから認識させるフレーズを示すフレーズIDと、受話音声データから認識させるフレーズを示すフレーズIDとが、それぞれ個別に登録される。音声/表示制御部321は、通話を開始したオペレータのオペレータIDに対応づけてフレーズ指定423bに登録されたフレーズIDを、オペレータ情報送信部422を通じて取得する。そして、取得したフレーズIDに対応するフレーズをフレーズデータベース331から読み出し、送話音声データおよび受話音声データのそれぞれから認識すべきフレーズを音声認識部322に設定する。
音声レベル基準値423cは、音声/表示制御部321が、PBX200のレベル検出部222によって検出された音声レベルと比較する値である。すなわち、音声/表示制御部321は、レベル検出部222によって検出された音声レベルが、音声レベル基準値423cに登録された値を超えた場合に、オペレータに感情の抑揚が発生していると判定する。そして、所定の音楽の音声データを顧客からの受話音声データに合成するように、PBX200の音声合成部225に要求する。
なお、音声レベル基準値423cに登録される情報は、例えば、事前の研修期間などにオペレータが通話したときに送話音声データから検出された音声レベルの平均値などに基づいて決定される。
次に、図7は、顧客対応履歴データベースに登録される情報の例を示す情報である。
顧客対応履歴データベース424には、オペレータと顧客との通話中に発生した事象が、音声/表示制御部321からの要求に応じて登録される。図7では、音声/表示制御部321から指定されたフレーズが音声認識部322によって認識された場合に、顧客対応履歴データベース424に登録される情報の例を示す。
図7に示す顧客対応履歴データベース424には、通話する顧客とオペレータをそれぞれ識別する顧客ID424aおよびオペレータID424bと、送話音声データおよび受話音声データのそれぞれから認識されたフレーズを示す認識フレーズ424cと、フレーズが認識された日時424dとが登録される。
音声/表示制御部321は、音声認識部322により、指定したフレーズが送話音声データまたは受話音声データから認識されると、CRMサーバ420のオペレータ端末制御部421に対して、顧客対応履歴データベース424への登録を要求する。このとき、音声/表示制御部321は、通話中のオペレータIDと、認識されたフレーズを示すフレーズIDと、認識された音声データが送話音声データか受話音声データかを示す識別情報とを、オペレータ端末制御部421に送信する。
オペレータ端末制御部421は、音声/表示制御部321から受信した情報に、通話相手の顧客を示す顧客IDと現在の日時とを付加し、顧客対応履歴データベース424に対して、顧客ID424a、オペレータID424b、認識フレーズ424cおよび日時424dからなる1つのエントリを登録する。なお、オペレータ端末制御部421は、例えば、オペレータと顧客との通話が開始された直後に、オペレータの操作入力に応じてPC120から通話相手の顧客を示す顧客IDを受信する。
さらに、顧客対応履歴データベース424には、顧客ID424aおよびオペレータID424bに対応付けて備考欄424eが設けられている。備考欄424eには、例えば、顧客に対応する上での注意点などを記録しておくことができる。この場合、備考欄424eに記録する情報は、例えば、通話が終了したときに、オペレータの操作によってPC120からオペレータ端末制御部421に送信される。
顧客対応履歴データベース424に登録された情報は、電話対応業務を改善するための種々の処理に利用できる。例えば、顧客対応履歴データベース424に登録された情報を、顧客と通話する際にオペレータに注意を喚起するための情報を生成する際に利用することができる。
一例として、オペレータ端末制御部421は、あるオペレータが電話対応業務を開始する際に、そのオペレータに対応するエントリを顧客対応履歴データベース424から抽出する。そして、そのオペレータが過去に発言した不適切なフレーズやその回数などを集計し、オペレータ側のPC120のモニタに表示させて注意を喚起する。また、他の例として、オペレータ端末制御部421は、オペレータと顧客との通話が開始されると、通話相手の顧客に対応するエントリを顧客対応履歴データベース424から抽出する。そして、抽出したエントリ中の備考欄424eに記録された情報を、オペレータ側のPC120のモニタに表示させて注意を喚起する。
次に、本実施の形態の電話対応システムで実行される処理を、順を追って説明する。まず、図8は、オペレータがシステムにログインする際の処理例を示すシーケンス図である。
[ステップS101]オペレータは、PC120を操作して、自分のオペレータIDを入力し、CRMサーバ420に対してログインを要求する。このとき、PC120からはCRMサーバ420に対して、ログイン要求とともにオペレータIDが送信される。
[ステップS102]CRMサーバ420のオペレータ端末制御部421は、PC120からログイン要求を受けると、例えば、ログイン要求元のPC120に対応付けられた電話機110のIPアドレスと、PC120から受信したオペレータIDとを、PBX200に対して送信する。なお、図示を省略するが、オペレータIDとIPアドレスは、実際にはCTIサーバ410を介してPBX200に送信される。
[ステップS103]PBX200の接続制御部221は、オペレータIDとIPアドレスを受信すると、受信したオペレータIDとIPアドレスとを対応付けてログイン情報231に登録する。
以上がログイン時の基本的な処理手順であるが、次に示すように、CRMサーバ420により、ログインしたオペレータに対して注意を喚起する情報などを視認させる処理が行われてもよい。
[ステップS104]オペレータ端末制御部421は、顧客対応履歴データベース424を検索し、ログインしたオペレータのオペレータIDに対応するエントリを抽出する。そして、そのオペレータが過去に発言した不適切なフレーズやその回数などを集計し、集計結果の情報や、不適切なフレーズを発言しないように指示する情報などを含む注意事項を生成する。
[ステップS105]オペレータ端末制御部421は、生成した注意事項をPC120に送信し、モニタへの表示を要求する。
[ステップS106]PC120は、受信した注意事項をモニタに表示させる。
次に、図9は、顧客からの着信を検知し、オペレータと顧客との間で通話が開始されるまでの処理例を示すシーケンス図である。
[ステップS111]PBX200の接続制御部221は、顧客からの着信を検知する。
[ステップS112]接続制御部221は、ログイン情報231から、現在通話中でないオペレータのオペレータIDを選択する。
[ステップS113]接続制御部221は、選択したオペレータIDを音声処理サーバ300に対して送信する。
[ステップS114]音声処理サーバ300の音声/表示制御部321は、接続制御部221から送信されたオペレータIDを受信し、受信したオペレータIDに対応するオペレータ情報の送信を、CRMサーバ420に対して要求する。
[ステップS115]CRMサーバ420のオペレータ情報送信部422は、オペレータデータベース423を検索し、音声/表示制御部321から受信したオペレータIDに対応するエントリを抽出する。
[ステップS116]オペレータ情報送信部422は、抽出されたエントリから、フレーズ指定423bに登録されたフレーズIDと、音声レベル基準値423cに登録された値(以下、単に“音声レベル基準値”と呼ぶ)とを、音声処理サーバ300の音声/表示制御部321に対して送信する。
[ステップS117]音声/表示制御部321は、受信した音声レベル基準値を、音声処理サーバ300内のRAMなどに設定する。また、音声/表示制御部321は、受信したフレーズIDに対応するフレーズ(認識対象フレーズ331b)をフレーズデータベース331から読み出し、音声認識部322に対して指定する。このとき、送話音声データから認識するフレーズと受話音声データから認識するフレーズとが、それぞれ個別に指定される。
以上の処理により、音声/表示制御部321は、前述の(1)〜(4)の処理を制御する準備が整った状態となる。
[ステップS118]PBX200の接続制御部221は、ステップS113においてオペレータIDを送信した後、ステップS112で選択したオペレータIDに対応付けられたIPアドレスをログイン情報231から読み出す。そして、読み出したIPアドレスを持つオペレータ側の電話機110に対して発呼する。これにより、選択されたオペレータの電話機110と顧客の電話機510との間の通話が開始される。
[ステップS119]通話が開始されると、PBX200は、オペレータ側の電話機110から送出された送話音声データと、顧客側の電話機510から送出された受話音声データとを、音声処理サーバ300に転送する。また、PBX200は、レベル検出部222によって検出された音声レベルを、例えば一定時間ごとに音声処理サーバ300に送信する。
このステップS119の後、音声処理サーバ300では、前述の(1)〜(4)の処理に対する制御が開始されるが、この制御処理手順については、次の図10においてあらためて説明する。
[ステップS120]顧客との通話を開始したオペレータは、顧客から聞き取った顧客IDをPC120に入力し、入力した顧客IDをPC120からCRMサーバ420に送信させて、顧客IDに対応する顧客情報を要求する。
[ステップS121]CRMサーバ420のオペレータ端末制御部421は、顧客データベース425を検索し、PC120から受信した顧客IDに対応付けられた各種の顧客情報を抽出する。
このとき、オペレータ端末制御部421は、顧客対応履歴データベース424に登録された情報に基づき、顧客に関して注意を喚起する情報などをオペレータに通知する処理を行ってもよい。例えば、オペレータ端末制御部421は、顧客IDに対応するエントリ(または、顧客IDと、顧客情報を要求したオペレータのオペレータIDとに対応するエントリ)を顧客対応履歴データベース424から抽出する。そして、抽出したエントリ中の備考欄424eに記録された情報や、過去に顧客が発した不適切なフレーズの情報などを含む注意事項を生成する。
[ステップS122]オペレータ端末制御部421は、顧客データベース425から抽出した顧客情報と、顧客対応履歴データベース424の登録情報を基に生成した注意事項とを、PC120に送信する。
[ステップS123]PC120は、オペレータ端末制御部421から受信した顧客情報と注意事項とを、モニタに表示させる。
次に、図10は、音声処理サーバにおける、送話音声データおよび受話音声データに基づく制御処理手順を示すフローチャートである。音声処理サーバ300では、図9に示したステップS119以降に、次のステップS201〜S203に示す各処理が並行して実行される。
[ステップS201]音声処理サーバ300は、音声認識部322による送話音声データからのフレーズの認識結果に基づいて、PBX200の音声ミュート部223における送話ミュート処理、PBX200の音声合成部225によって受話音声データに所定の音声データを合成させる処理、および、オペレータ側のPC120にガイダンス情報を表示させる処理を制御する。
[ステップS202]音声処理サーバ300は、音声認識部322による受話音声データからのフレーズの認識結果に基づいて、PBX200の音声ミュート部224における受話ミュート処理、PBX200の音声合成部225によって受話音声データに所定の音声データを合成させる処理、および、オペレータ側のPC120にガイダンス情報を表示させる処理を制御する。
[ステップS203]音声処理サーバ300は、PBX200のレベル検出部222による音声レベルの検出結果に基づいて、PBX200の音声合成部225によって受話音声データに所定の音声データを合成させる処理を制御する。
図11は、図10のステップS201の処理内容を詳細に示すフローチャートである。
[ステップS211]音声認識部322は、PBX200から受信した送話音声データから、1つのフレーズを認識する。
[ステップS212]音声認識部322は、認識したフレーズが、音声/表示制御部321から指定されたフレーズと一致するか否かを判定する。
フレーズ同士が一致した場合、音声認識部322は、フレーズが一致したことを音声/表示制御部321に通知するとともに、一致したフレーズを示すフレーズIDを音声/表示制御部321に通知する。この後、ステップS213の処理が実行される。一方、認識したフレーズが、音声/表示制御部321から指定されたすべてのフレーズと一致しなかった場合には、ステップS221の処理が実行される。
[ステップS213]音声/表示制御部321は、音声認識部322から通知されたフレーズIDに対応付けられたエントリをフレーズデータベース331から抽出する。
[ステップS214]音声/表示制御部321は、ステップS213で抽出したエントリ内の送話ミュートフラグ331dの値を参照する。音声認識部322は、送話ミュートフラグ331dに“ON”が設定されていた場合には、ステップS215の処理を実行し、送話ミュートフラグ331dに“OFF”が設定されていた場合には、ステップS216の処理を実行する。
[ステップS215]音声/表示制御部321は、PBX200の音声ミュート部223に対して、顧客側の電話機510に対して送出する送話音声データをミュートするように要求する。音声ミュート部223は、音声/表示制御部321からの要求に応じて、レベル検出部222から出力された音声データに対して、所定の時間だけ、音声レベルを“0”に書き替える処理を行う。なお、音声ミュート部223の構成については、次の図12において説明する。この後、ステップS216の処理が実行される。
[ステップS216]音声/表示制御部321は、ステップS213で抽出したエントリ内のガイダンス情報331cに、情報が登録されているか否かを判定する。音声/表示制御部321は、情報が登録されていた場合にはステップS217の処理を実行し、情報が登録されていなかった場合にはステップS218の処理を実行する。
[ステップS217]音声/表示制御部321は、ガイダンス情報331cに登録されていた情報(以下、単に“ガイダンス情報”と呼ぶ)を読み出す。そして、読み出したガイダンス情報と、ステップS211で認識されたフレーズとをCRMサーバ420のオペレータ端末制御部421に送信し、ガイダンス情報の表示を要求する。このとき、通話中のオペレータのオペレータIDもオペレータ端末制御部421に送信される。この後、ステップS218の処理が実行される。
オペレータ端末制御部421は、音声/表示制御部321から受信したガイダンス情報およびフレーズを、受信したオペレータIDに対応するオペレータが操作しているPC120に送信し、ガイダンス情報およびフレーズをモニタに表示するように要求する。なお、PC120のモニタにおけるガイダンス情報の表示例については、後の図13に示す。
なお、オペレータ端末制御部421は、オペレータがログインした段階(図8のステップS101)で、ログインしたオペレータのオペレータIDと、ログインしたオペレータが操作するPC120のIPアドレスとを認識する。従って、オペレータ端末制御部421は、ステップS217において、音声/表示制御部321から受信したオペレータIDを基に、ガイダンス情報を表示させるPC120を特定することができる。
[ステップS218]音声/表示制御部321は、ステップS213で抽出したエントリ内の合成音声331fに、音声IDが登録されているか否かを判定する。音声/表示制御部321は、音声IDが登録されていた場合にはステップS219の処理を実行し、音声IDが登録されていない場合にはステップS220の処理を実行する。
[ステップS219]音声/表示制御部321は、合成音声331fに登録されていた音声IDをPBX200の音声合成部225に送信し、送信した音声IDに対応する音声データの合成処理を実行するように要求する。この後、ステップS220の処理が実行される。
要求を受けた音声合成部225は、受信した音声IDに対応する音声データを音声データベース232から読み出し、読み出した音声データを、音声ミュート部224から出力された受話音声データに合成する。このとき、音声合成部225は、音声データの合成処理を、例えば、あらかじめ決められた時間を限度として実行する。
[ステップS220]音声/表示制御部321は、ステップS212において音声認識部322から通知されたフレーズIDと、通話中のオペレータのオペレータIDとを、CRMサーバ420のオペレータ端末制御部421に送信し、顧客対応履歴データベース424に登録するように要求する。この後、ステップS221の処理が実行される。
フレーズIDおよびオペレータIDを受信したオペレータ端末制御部421は、これらの受信情報と、通話相手の顧客の顧客IDと、現在の日時とを含むエントリを、顧客対応履歴データベース424に登録する。このとき、音声/表示制御部321から受信したフレーズIDは、認識フレーズ424cの登録欄に、送話音声データから認識されたフレーズのフレーズIDとして登録される。
[ステップS221]オペレータと顧客との通話が続いている場合にはステップS211の処理が実行され、通話が終了した場合には、処理が終了される。なお、通話が終了したことを検出する方法としては、例えば、PBX200の接続制御部221から通話終了の通知を受ける方法、あるいは、PBX200からの送話音声データまたは受話音声データの転送が終了したことを検知する方法などを適用できる。
図12は、PBXの音声ミュート部の内部構成例を示す図である。音声ミュート部223は、音声データバッファ223aと音声データ書き替え部223bとを備える。
音声データバッファ223aは、レベル検出部222から出力された送話音声データを一時的に保持し、所定の時間だけ遅延させて音声データ書き替え部223bに出力する。音声データバッファ223aによる出力遅延時間は、基本的に、音声処理サーバ300の音声認識部322において、送話音声データから1フレーズを認識し、そのフレーズが所定のフレーズと一致するか否かを判定するのに要する時間とされる。
ここで、1フレーズの発話に要する時間は、発話速度およびフレーズ自体の長さによって異なる。このため、例えば、音声データバッファ223aによる出力遅延時間を次のような手順であらかじめ算出する。まず、音声認識部322で認識させるフレーズのそれぞれを、通話の際に考え得る様々な速度で発話したときに要した発話時間を平均化して、基準発話時間を算出する。次に、算出した基準発話時間に、音声認識部322においてフレーズの一致判定を行うのに要する判定時間の平均値である基準判定時間を加算した時間を、音声データバッファ223aによる出力遅延時間とする。
音声データ書き替え部223bは、音声処理サーバ300の音声/表示制御部321からミュート要求を受けたタイミングを起点として、所定の期間だけ、音声データバッファ223aから出力された送話音声データの音声レベルを“0”に書き替えて出力する。ここで、音声レベルの書き替えを実行する期間を、上記の基準発話時間とする。
このような処理により、音声ミュート部223では、音声をミュートするタイミングと、ミュートすべきフレーズが実際に送話音声に現れるタイミングとを精度よく合わせることができる。なお、上記の基準発話時間としては、例えば、発話時間の平均値の代わりに、発話時間の平均値と最大値との間の任意の値が設定されてもよい。この場合、対象のフレーズが送話音声に現れる期間のうちできるだけ多くの期間において、出力音声がミュートされるようになる。
図13は、オペレータ側のPCのモニタにおけるガイダンス情報の表示例を示す図である。
図11のステップS217では、オペレータ側のPC120のモニタには、例えば、図13に示すような画面が表示される。通話が開始された後、PC120のモニタには、図9のステップS123で説明したように、通話相手の顧客についての顧客情報121が表示される。ステップS217では、顧客情報121が表示された画面の一部に、ガイダンス表示画像122が合成表示される。ガイダンス表示画像122の上部には、認識されたフレーズが表示され、下部には、フレーズデータベース331から抽出されたガイダンス情報が表示される。ガイダンス表示画像122は、例えば、その背景が目立つ色とされる、あるいは点滅表示されるなどして、オペレータに視認されやすい状態で表示される。
以上で説明した図10のステップS201の処理によれば、オペレータの発言内容から所定のフレーズが検出された場合に、検出されたフレーズの性質などに応じた、フレーズごとにあらかじめ決められた処理を実行できる。例えば、検出されたフレーズが顧客に発言するものとして不適切な場合には、そのフレーズが顧客に聞かれなくなるようにしたり、警告音や表示によってオペレータに警告することができる。また、検出されたフレーズが顧客に発言するものとして推奨されるものである場合には、そのことを表示や音声によってオペレータに通知することもできる。
さらに、送話音声データからどのフレーズを認識するかは、通話するオペレータごとに決定されるので、オペレータの能力や経験度、性格などに応じた処理を実行できるようになる。その結果、顧客に対して不適切な発言が発せられることが減り、逆に顧客に対して適切な発言が行われるようになり、顧客満足度を向上させることができる。
次に、図10のステップS202の処理について説明する。ステップS202の詳細な処理手順は、基本的に、図11に示したステップS201の処理手順と同じである。このため、ここでは、図11に示した処理と異なる部分のみを説明する。
ステップS211では、音声認識部322は、送話音声データの代わりに、PBX200から受信した受話音声データから、1つのフレーズを認識する。
ステップS214では、音声/表示制御部321は、ステップS213で抽出したエントリ内の受話ミュートフラグ331eの値を参照して、判定処理を行う。そして、ステップS215では、音声/表示制御部321は、PBX200の音声ミュート部224に対して、オペレータ側の電話機110に対して送出する音声データ(受話音声データ)をミュートするように要求する。音声ミュート部224は、ステップS214での音声ミュート部223の処理と同じ処理を実行し、所定の時間だけ受話音声データの音声レベルを“0”に書き替える。なお、音声ミュート部224の構成は、図12に示した音声ミュート部223と同様の構成とされる。
ステップS220では、CRMサーバ420のオペレータ端末制御部421は、顧客対応履歴データベース424を更新する際に、音声/表示制御部321から受信したフレーズIDを、認識フレーズ424cの登録欄に、受話音声データから認識されたフレーズのフレーズIDとして登録する。
以上のステップS202の処理によれば、顧客の発言内容から所定のフレーズが検出された場合に、検出されたフレーズの性質などに応じた、フレーズごとにあらかじめ決められた処理を実行できる。例えば、検出されたフレーズがオペレータに精神的ダメージを与えるものである場合には、そのフレーズがオペレータに聞かれなくなるようにしたり、音楽や表示によってオペレータの感情を静めることができる。
また、受話音声データからどのフレーズを認識するかは、通話するオペレータごとに決定されるので、オペレータの能力や経験度、性格などに応じた処理を実行できるようになる。このため、オペレータができるだけ感情を安定させた状態で通話できるようになり、結果的に、顧客満足度を向上させることができる。
次に、図14は、図10のステップS203の処理内容を詳細に示すフローチャートである。なお、この処理では、音声処理サーバ300のRAMなどに一時的に保持されるレベル超過フラグが使用される。
[ステップS231]音声/表示制御部321は、PBX200のレベル検出部222によって検出された音声レベルを受信する。
[ステップS232]音声/表示制御部321は、受信した音声レベルが、音声レベル基準値より大きいか否かを判定する。音声レベルが音声レベル基準値より大きい場合、ステップS233の処理が実行され、音声レベルが音声レベル基準値より小さい場合、ステップS235の処理が実行される。なお、このステップS232で使用される音声レベル基準値は、図9のステップS116においてCRMサーバ420から送信された値である。
[ステップS233]音声/表示制御部321は、レベル超過フラグの値が“1”である場合には、ステップS238の処理を実行し、レベル超過フラグの値が“0”である場合には、ステップS234の処理を実行する。
[ステップS234]音声/表示制御部321は、あらかじめ決められた音声IDをPBX200の音声合成部225に送信し、送信した音声IDに対応する音声データの合成処理を開始するように要求する。この後、ステップS238の処理が実行される。
要求を受けた音声合成部225は、受信した音声IDに対応する音声データを音声データベース232から読み出し、読み出した音声データを、音声ミュート部224から出力された受話音声データに合成する。また、音声合成部225は、この後に音声/表示制御部321から合成処理の終了が要求されるまでの間、音声データの合成処理を続行する。
なお、音声合成部225は、ステップS234での合成処理要求と、図11のステップS219での合成処理要求とを重複して受け付けた場合には、それらのうちどちらかで要求された音声IDに対応する音声データの合成処理のみを行う。例えば、各ステップのうち一方で要求された音声データの合成処理を実行しているときに、他方のステップによる音声合成要求を受けた場合には、先に実行していた合成処理を優先的に実行する。
[ステップS235]音声/表示制御部321は、レベル超過フラグの値が“0”である場合には、ステップS238の処理を実行し、レベル超過フラグの値が“1”である場合には、ステップS236の処理を実行する。
[ステップS236]音声/表示制御部321は、PBX200の音声合成部225に対して、ステップS234で要求した音声データの合成処理を終了するように要求する。要求を受けた音声合成部225は、音声データの合成処理を終了する。
[ステップS237]音声/表示制御部321は、音声レベルの超過が発生したことを、顧客対応履歴データベース424に登録してもよい。この場合、音声/表示制御部321は、通話中のオペレータのオペレータIDをCRMサーバ420のオペレータ端末制御部421に送信し、音声レベルの超過が発生したことの履歴を顧客対応履歴データベース424に登録するように要求する。
オペレータIDを受信したオペレータ端末制御部421は、例えば、音声レベルの超過が発生したことを示す識別情報を、受信したオペレータIDと、通話相手の顧客の顧客IDと、現在の日時とに対応付けて、顧客対応履歴データベース424に登録する。
[ステップS238]オペレータと顧客との通話が続いている場合にはステップS231の処理が実行され、通話が終了した場合には、処理が終了される。
以上のステップS203の処理によれば、送話音声データの音声レベルが音声レベル基準値を超えてから、音声レベルが音声レベル基準値以下に下がるまでの間、オペレータ側の電話機110に送出される音声データに、あらかじめ決められた音声IDに対応する音声データが合成される。合成される音声データとしては、例えば、オペレータの感情を静めるような音楽のデータなどが選択され、これにより、オペレータの感情の抑揚が抑制され、結果的に顧客満足度を向上させることができる。
[第3の実施の形態]
図15は、第3の実施の形態に係る電話対応システムに適用されるPBXの構成例を示す図である。なお、図15では、図4に対応する構成要素には同じ符号を付して示している。
図15に示したPBX200aは、図4に示したPBX200に対して、速度調整部226,227を追加したものである。速度調整部226は、音声ミュート部223から出力された送話音声データを処理し、音声ミュート部223によって生成された無音区間を短縮するとともに、無音区間の前後の音声のつながりが自然に聞こえるようにする役割を果たす。速度調整部227は、音声ミュート部224から出力される受話音声データを処理し、音声ミュート部224によって生成された無音区間を短縮するとともに、無音区間の前後の音声のつながりが自然に聞こえるようにする役割を果たす。速度調整部227から出力される音声データは、音声合成部225に供給される。
図16は、速度調整部の動作を説明する図である。ここでは例として、速度調整部226での動作を説明する。
図16では、速度調整部226に入力される送話音声データのうち、音声レベルが所定レベル以下の区間を“無音区間”と称し、それ以外の区間を“有音区間”と称する。速度調整部226は、例えば、入力された送話音声データの音声レベルが所定レベル以下となる時間が所定の基準時間だけ続いたとき、無音区間が開始されたと判定する。ただし、無音区間の開始位置を判定する基準時間は、音声処理サーバ300の音声認識部322によって認識される1フレーズの最短時間よりも短いものとする。
速度調整部226は、基本的に、有音区間の音声データを、音の高さを変化させずに一定の速度まで減速して再生し、逆に、無音区間を短縮する。これにより、無音区間が短縮された場合でも、無音区間の前後の音声が自然につながるようになる。また、有音区間の音声データの再生時間は減速再生により長くなるが、無音区間が短縮されることで、音声データの再生時間が長くならないようにできる。
図16の例では、速度調整部226に入力される送話音声データに、無音区間251〜253が出現したものとする。また、これらのうち無音区間253は、音声ミュート部223によってミュートされたことにより生じた“ミュート区間”であるものとする。速度調整部226から出力される音声データでは、有音区間が一定の倍率で長くなり、有音区間同士の間の無音区間が短縮される。図16の例では、無音区間251,252は削除され、無音区間253は、無音区間253の次の有音区間が開始されるタイミングまでの期間に短縮される。
図17は、速度調整部の内部構成例を示す図である。
速度調整部226は、図16のような動作を実現する処理機能として、無音区間検出部226a、音声データバッファ226bおよび減速処理部226cを有する。
無音区間検出部226aは、音声ミュート部223から音声データバッファ226bに入力される送話音声データの音声レベルを検出する。そして、音声レベルが所定の基準レベル以下となる時間が所定の基準時間だけ続いたとき、無音区間が開始されたと判定する。また、無音区間の開始を判定した後、音声レベルが上記の基準レベルを超えたとき、無音区間が終了したと判定する。
さらに、無音区間検出部226aは、無音区間が開始されたと判定したタイミングでの音声データバッファ226bへの音声データの書き込みアドレスを、無音区間が開始されたことを示す“開始アドレス”として減速処理部226cに通知する。また、無音区間検出部226aは、無音区間が終了したと判定したタイミングでの音声データバッファ226bへの音声データの書き込みアドレスを、無音区間が終了したことを示す“終了アドレス”として減速処理部226cに通知する。
音声データバッファ226bは、送話音声データを一時的に保持し、減速処理部226cに出力する。音声データバッファ226bの記憶領域はPBX200aが備えるRAMに確保され、例えばリングバッファとして管理される。
減速処理部226cは、音声データバッファ226bから読み出した音声データの再生速度を、一定の倍率で減速する。このとき、再生される音声の高さが変化しないように信号処理する。また、減速処理部226cは、無音区間検出部226aから通知された開始アドレスおよび終了アドレスを、その順番を保ったまま保持する。そして、音声データバッファ226bからの音声データの読み出しアドレスが開始アドレスと一致すると、音声データの読み出しアドレスを、次に通知された終了アドレスに変更する。このような読み出しアドレスの制御が行われることで、無音区間が短縮される。
なお、速度調整部227も、速度調整部226と同様の構成によって実現される。
また、上記の例では、減速処理部226cでの再生速度の減速率を一定としたが、この減速率を可変とすることもできる。例えば、音声データバッファ226bへ入力される音声データにおける無音区間の終了時刻を検出し、ある無音区間の終了時刻からn個の無音区間が現れて終了するまでの時刻の差分を“入力データ長”とする。一方、音声データバッファ226bから減速処理部226cに出力される音声データにおける無音区間の終了時刻(すなわち、終了アドレスからデータが読み出される時刻)を検出し、ある無音区間の終了時刻からn個の無音区間が現れて終了するまでの時刻の差分を“出力データ長”とする。
上記の入力データ長および出力データ長を定期的に検出し、入力データ長より出力データ長の方が大きい場合には、減速処理部226cにおける再生速度を一時的に速くする。これにより、送話音声が極端に遅延することが防止される。
以上の第3の実施の形態では、送話音声データあるいは受話音声データから所定のフレーズが認識され、そのフレーズをミュートする処理が行われた場合でも、音声データの送出先の顧客またはオペレータに、ミュートが行われたことをできるだけ意識させないようにすることができる。
[第4の実施の形態]
図18は、第4の実施の形態に係る電話対応システムに適用されるPBXの構成例を示す図である。なお、図15では、図4に対応する構成要素には同じ符号を付して示している。
図18に示すPBX200bは、図4に示したPBX200において、音声ミュート部223,224の代わりに速度調整部228,229をそれぞれ配置したものである。速度調整部228,229は、それぞれ、音声処理サーバ300からミュート要求を受け付けると、音声処理サーバ300において所定のフレーズが認識された区間の音声データをスキップし、その後に続く一定時間分の音声データを減速させて再生する。なお、減速再生時には、音声の高さを変えないように処理する。
図19は、速度調整部の内部構成例を示す図である。
速度調整部228は、音声データバッファ228a、減速処理部228bおよび読み出し制御部228cを有する。
音声データバッファ228aは、レベル検出部222から供給された送話音声データを一時的に保持し、減速処理部228bに出力する。音声データバッファ228aの記憶領域はPBX200bが備えるRAMに確保され、例えばリングバッファとして管理される。
減速処理部228bは、読み出し制御部228cからの要求に応じて、音声データバッファ228aから読み出した音声データの再生速度を、一定の倍率で減速する。このとき、再生される音声の高さが変化しないように信号処理する。
読み出し制御部228cは、音声データバッファ228aからのデータ読み出しと、減速処理部228bの処理とを制御する。この読み出し制御部228cの処理については、次の図20を用いて説明する。
図20は、速度調整部の動作を説明する図である。
読み出し制御部228cは、音声処理サーバ300からミュート要求が送信されていない通常状態では、音声データバッファ228aに入力された音声データを、遅延時間t1だけ遅延させて減速処理部228bに読み出す。遅延時間t1は、音声処理サーバ300において1つのフレーズを認識する処理に要する時間に対応する。例えば、遅延時間t1を、1つのフレーズの認識に要する平均時間とすることができる。また、この通常状態では、減速処理部228bは、音声データバッファ228aから読み出された音声データをそのまま出力する。
ここで、音声データバッファ228aに入力される音声データのうち、タイミングT11〜T12の期間で認識対象のフレーズが現れ、このフレーズが音声処理サーバ300で認識されて、タイミングT12において、音声処理サーバ300からミュート要求が送信されたものとする。ミュート要求を受けた読み出し制御部228cは、音声データバッファ228aから減速処理部228bへの読み出しアドレスを、認識されたフレーズの分だけ先に進める。ここで、読み出しアドレスを進める長さは、例えば固定値とされる。これとともに、読み出し制御部228cは、減速処理部228bに対して再生速度を減速するように要求する。減速処理部228bは、読み出し制御部228cからの要求に応じて、一定時間t2だけ再生速度を減速する。
図20の例では、タイミングT11〜T12の期間に音声データバッファ228aに入力された音声データ、すなわち、認識対象のフレーズを含む音声データは、減速処理部228bに読み出されずに破棄される。そして、タイミングT12以降に入力された音声データが、タイミングT11以前に入力された音声データに続いて、減速処理部228bに読み出される。この結果、タイミングT12〜T13の期間に音声データバッファ228aに入力された音声データが、減速再生される。
なお、速度調整部229も、速度調整部228と同様の構成によって実現される。
以上の第4の実施の形態では、送話音声データあるいは受話音声データから所定のフレーズが認識された場合に、認識された音声が通話相手に送出されないようにすることができる。また、認識されたフレーズが出現した期間において、その後に出現する音声を減速して再生することにより、不自然な無音期間が生じず、通話相手に対して音声がより自然に届くようになる。
なお、上記の速度調整部228,229では、音声処理サーバ300からミュート要求を受けたとき、認識されたフレーズの後の音声データの再生速度を減速したが、その代わりに、認識されたフレーズの前の音声データの再生速度を減速してもよい。ただし、この場合には、通常時に音声データバッファからの読み出しを遅延させる遅延時間t1が、図20の場合より大きくされる。そして、認識されたフレーズの直前の音声データのうち、図20の場合より遅延時間t1を拡大した時間分の音声データについて、減速再生が行われる。
[第5の実施の形態]
図21は、第5の実施の形態に係る電話応対システムの構成例を示す図である。なお、図21では、図4に対応する構成要素には同じ符号を付して示している。
図21に示すPBX200cは、図4に示したPBX200の処理機能と、音声処理サーバ300の処理機能とを、同一のコンピュータによって実現したものである。この場合、例えば、レベル検出部222、音声ミュート部223,224、音声合成部225および音声認識部322の処理を、共通の音声処理回路に実行させることができる。
なお、PBX200cでは、例えば、音声ミュート部223,224のそれぞれの後段に、図15に示した速度調整部226,227が設けられてもよい。あるいは、音声ミュート部223,224の代わりに、図18に示した速度調整部228,229がそれぞれ設けられてもよい。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、上記各実施の形態のシステム内の各装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記憶装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc-Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、ネットワークを介して接続されたサーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。
また、上記の処理機能の少なくとも一部を、DSP、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)などの電子回路で実現することもできる。
以上の各実施の形態に関し、さらに以下の付記を開示する。
(付記1) 第1の通話手段から第2の通話手段に対する通話音声信号の送信を禁止する送信禁止手段と、
前記第1の通話手段から前記送信禁止手段に入力される通話音声信号から所定のフレーズを認識する音声認識手段と、
あらかじめ決められた認識対象フレーズが前記音声認識手段によって認識された場合に、認識された前記認識対象フレーズに対応する通話音声信号の送信を禁止するように前記送信禁止手段を制御する制御手段と、
を有することを特徴とする通話音声処理装置。
(付記2) 前記制御手段は、複数の前記認識対象フレーズのうちの1つが前記音声認識手段によって認識された場合に、認識された前記認識対象フレーズに対応する通話音声信号の送信を前記送信禁止手段に禁止させるか否かを、認識された前記認識対象フレーズごとに判定することを特徴とする付記1記載の通話音声処理装置。
(付記3) 前記第2の通話手段から前記第1の通話手段に対して出力される通話音声信号に、所定の音声信号を合成する音声合成手段をさらに有し、
前記制御手段は、前記認識対象フレーズが前記音声認識手段によって認識された場合に、前記音声合成手段に音声信号を合成させる、
ことを特徴とする付記1または2記載の通話音声処理装置。
(付記4) 前記制御手段は、複数の前記認識対象フレーズのうちの1つが前記音声認識手段によって認識された場合に、認識された前記認識対象フレーズに対応する通話音声信号の送信を前記送信禁止手段に禁止させるか否か、および、前記音声合成手段に音声信号を合成させるか否かのそれぞれについて、認識された前記認識対象フレーズごとに判定することを特徴とする付記3記載の通話音声処理装置。
(付記5) 前記制御手段は、前記音声合成手段に音声信号を合成させる場合に、合成させる音声信号を、前記音声認識手段によって認識された前記認識対象フレーズごとに指定することを特徴とする付記4記載の通話音声処理装置。
(付記6) 前記制御手段は、
前記認識対象フレーズが前記音声認識手段によって認識された場合に、前記第1の通話手段で通話する利用者が視認する表示装置に所定の情報を表示させる機能を有し、
複数の前記認識対象フレーズのうちの1つが前記音声認識手段によって認識された場合に、認識された前記認識対象フレーズに対応する通話音声信号の送信を前記送信禁止手段に禁止させるか否か、および、前記表示装置に所定の情報を表示させるか否かのそれぞれについて、認識された前記認識対象フレーズごとに判定する、
ことを特徴とする付記1または2記載の通話音声処理装置。
(付記7) 前記制御手段は、前記表示装置に所定の情報を表示させる場合に、表示させる情報を、前記音声認識手段によって認識された前記認識対象フレーズごとに指定することを特徴とする付記6記載の通話音声処理装置。
(付記8) 前記音声認識手段に認識させる前記認識対象フレーズは、前記第1の通話手段で通話する利用者ごとに設定されることを特徴とする付記1〜7のいずれか1つに記載の通話音声処理装置。
(付記9) 前記送信禁止手段は、前記制御手段からの制御により、前記音声認識手段によって認識された前記認識対象フレーズに対応する通話音声信号の送信を禁止するとき、当該認識対象フレーズに対応する通話音声信号の音声レベルを0に変更することを特徴とする付記1〜8のいずれか1つに記載の通話音声処理装置。
(付記10) 前記送信禁止手段から出力された音声信号のうち、音声レベルが所定レベル以下の低レベル区間を短縮するとともに、前記低レベル区間以外の音声信号の出力速度を低下させる音声処理手段をさらに有することを特徴とする付記9記載の通話音声処理装置。
(付記11) 前記送信禁止手段は、前記制御手段からの制御により、前記音声認識手段によって認識された前記認識対象フレーズに対応する通話音声信号の送信を禁止するとき、当該認識対象フレーズを含むフレーズ出現期間の通話音声信号を破棄して、当該フレーズ出現期間の前後の通話音声信号を接続するとともに、当該フレーズ出現期間の前側または後側の通話音声信号の出力速度を低下させることを特徴とする付記1〜8のいずれか1つに記載の通話音声処理装置。
(付記12) 前記第1の通話手段から前記第2の通話手段に対する通話音声信号の送信を、前記制御手段からの制御の下で禁止する第1の送信禁止手段と、
前記第1の通話手段から前記第1の送信禁止手段に入力される通話音声信号から所定のフレーズを認識する第1の音声認識手段と、
前記第2の通話手段から前記第1の通話手段に対する通話音声信号の送信を、前記制御手段からの制御の下で禁止する第2の送信禁止手段と、
前記第2の通話手段から前記第2の送信禁止手段に入力される通話音声信号から所定のフレーズを認識する第2の音声認識手段と、
を有し、
前記制御手段は、複数の前記認識対象フレーズのうちの1つが前記第1の音声認識手段によって認識された場合に、認識された前記認識対象フレーズに対応する通話音声信号の送信を前記第1の送信禁止手段に禁止させるか否か、および、複数の前記認識対象フレーズのうちの1つが前記第2の音声認識手段によって認識された場合に、認識された前記認識対象フレーズに対応する通話音声信号の送信を前記第2の送信禁止手段に禁止させるか否かのそれぞれについて、前記第1または第2の音声認識手段によって認識された前記認識対象フレーズごとに判定する、
ことを特徴とする付記1記載の通話音声処理装置。
(付記13) 第1の通話手段と第2の通話手段との間の通話音声信号が通過する通信装置から、前記第1の通話手段からの通話音声信号を受信し、受信した通話音声信号から所定のフレーズを認識する音声認識手段と、
あらかじめ決められた認識対象フレーズが前記音声認識手段によって認識された場合に、前記第1の通話手段から前記第2の通話手段への通信音声信号のうち、認識された前記認識対象フレーズに対応する通話音声信号の送信を禁止するように、前記通信装置が有する送信禁止手段を制御する制御手段と、
を有することを特徴とする通話音声制御装置。
(付記14) 前記制御手段は、複数の前記認識対象フレーズのうちの1つが前記音声認識手段によって認識された場合に、認識された前記認識対象フレーズに対応する通話音声信号の送信を前記送信禁止手段に禁止させるか否かを、認識された前記認識対象フレーズごとに判定することを特徴とする付記13記載の通話音声制御装置。
(付記15) 情報処理装置が、第1の通話手段と第2の通話手段との間の通話音声信号が通過する通信装置から、前記第1の通話手段からの通話音声信号を受信して、受信した通話音声信号から所定のフレーズを認識する音声認識ステップと、
前記情報処理装置が、あらかじめ決められた認識対象フレーズが前記音声認識ステップで認識された場合に、前記第1の通話手段から前記第2の通話手段への通信音声信号のうち、認識された前記認識対象フレーズに対応する通話音声信号の送信を禁止するように、前記通信装置が有する送信禁止手段を制御する制御ステップと、
を含むことを特徴とする通話音声制御方法。