JP2015055790A - 音声応答システム、音声処理装置、音声応答装置、音声応答方法、及び音声処理プログラム - Google Patents

音声応答システム、音声処理装置、音声応答装置、音声応答方法、及び音声処理プログラム Download PDF

Info

Publication number
JP2015055790A
JP2015055790A JP2013189709A JP2013189709A JP2015055790A JP 2015055790 A JP2015055790 A JP 2015055790A JP 2013189709 A JP2013189709 A JP 2013189709A JP 2013189709 A JP2013189709 A JP 2013189709A JP 2015055790 A JP2015055790 A JP 2015055790A
Authority
JP
Japan
Prior art keywords
voice
announcement
unit
background noise
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013189709A
Other languages
English (en)
Inventor
静磨 酒井
Shizumaro Sakai
静磨 酒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2013189709A priority Critical patent/JP2015055790A/ja
Publication of JP2015055790A publication Critical patent/JP2015055790A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】音響信号に含まれる発話している区間を検出する精度を向上させる。【解決手段】実施形態の音声応答システムは、アナウンス再生部、背景雑音測定部、音声検出部、音声認識部、及び、応答フロー制御部を備える。アナウンス再生部は発話者の発話を促すアナウンスを再生する。背景雑音測定部は、アナウンスと発話者の発話との間における無音区間において取得した音響信号に基づいて背景雑音量を測定する。音声検出部は、背景雑音測定部が検出した背景雑音量に基づいて音声検出閾値を更新し、当該音声検出閾値を用いて発話者の発話している区間を検出する。音声認識部は、音声検出部が検出した区間における発話者の発話の内容を認識処理する。応答フロー制御部は、音声認識部の認識結果に基づいて、アナウンス再生部が再生するアナウンスを選択する。【選択図】図2

Description

本発明の実施形態は、音声応答システム、音声処理装置、音声応答装置、音声応答方法、及び音声処理プログラムに関する。
IVR(Interactive Voice Response;音声応答)システムでは、発信者からの要求を取得するためにPB(Push Button;プッシュボタン)信号を受け付けることが一般に行われている。しかし、予め定められた複数の選択肢から発信者が要求するものを選択させる手法では、発信者の要求に応じた対応が十分に行われないことがある。そこで、発信者の発話内容を音声認識処理することで、より具体的な要求を取得することが検討されている。このような処理においては、発信者が発話しているか否かを判定することが行われている。
特開2005−156887号公報
しかしながら、音量に基づいて顧客が発話しているか否かを判定する場合、発信者の発話環境により背景雑音量が異なるため、発信者が発話していないときであっても発話していると判定し、発話している区間を検出する精度が低下してしまうことがある。このような場合には、発話している区間と発話していない区間とを含む音響信号に対して音声認識処理を行うことになり、認識精度が低下してしまうという課題がある。
本発明が解決しようとする課題は、音響信号に含まれる発話している区間を検出する精度を向上させることができる音声応答システム、音声処理装置、音声応答装置、音声応答方法、及び音声処理プログラムを提供することである。
実施形態の音声応答システムは、アナウンス再生部、背景雑音測定部、音声検出部、音声認識部、及び、応答フロー制御部を備える。アナウンス再生部は発話者の発話を促すアナウンスを再生する。背景雑音測定部は、アナウンスと発話者の発話との間における無音区間において取得した音響信号に基づいて背景雑音量を測定する。音声検出部は、背景雑音測定部が検出した背景雑音量に基づいて音声検出閾値を更新し、当該音声検出閾値を用いて発話者の発話している区間を検出する。音声認識部は、音声検出部が検出した区間における発話者の発話の内容を認識処理する。応答フロー制御部は、音声認識部の認識結果に基づいて、アナウンス再生部が再生するアナウンスを選択する。
実施形態の音声処理装置は、背景雑音測定部、音声検出部、及び、音声認識部を備える。背景雑音測定部は、発話者の発話を促すアナウンスと当該発話者の発話との間における無音区間において取得した音響信号に基づいて背景雑音量を測定する。音声検出部は、背景雑音測定部が検出した背景雑音量に基づいて音声検出閾値を更新し、当該音声検出閾値を用いて発話者の発話している区間を検出する。音声認識部は、音声検出部が検出した区間における発話者の発話の内容を認識処理する。
実施形態の音声応答装置はアナウンス再生部を備える。アナウンス再生部は、発話者の発話を促すアナウンスと当該発話者の発話との間に予め定められた無音区間を設けて当該アナウンスを再生する。
実施形態の音声応答方法は、アナウンス再生ステップ、背景雑音測定ステップ、音声検出ステップ、音声認識ステップ、及び、応答フロー制御ステップを有する。アナウンス再生ステップでは、発話者の発話を促すアナウンスを再生する。背景雑音測定ステップでは、アナウンスと発話者の発話との間における無音区間において取得した音響信号に基づいて背景雑音量を測定する。音声検出ステップでは、背景雑音測定ステップにおいて検出した背景雑音量に基づいて音声検出閾値を更新し、当該音声検出閾値を用いて発話者の発話している区間を検出する。音声認識ステップでは、音声検出ステップにおいて検出した区間における発話者の発話の内容を認識処理する。応答フロー制御ステップでは、音声認識ステップにおける認識結果に基づいて、次に再生するアナウンスを選択する。
実施形態の音声処理プログラムは、背景雑音測定ステップ、音声検出ステップ、及び、音声認識ステップをコンピュータに実行させるプログラムである。背景雑音測定ステップでは、発話者の発話を促すアナウンスと当該発話者の発話との間における無音区間において取得した音響信号に基づいて背景雑音量を測定する。音声検出ステップでは、背景雑音測定ステップにおいて検出した背景雑音量に基づいて音声検出閾値を更新し、当該音声検出閾値を用いて発話者の発話している区間を検出する。音声認識ステップでは、音声検出ステップにおいて検出した区間における発話者の発話の内容を認識処理する。
第1の実施形態に係る音声応答システム1が含まれる通信システムの構成例を示すブロック図である。 同実施形態における音声応答装置11と音声認識装置12との構成例を示すブロック図である。 同実施形態における音声検出部125が発話区間を検出する処理の概要を示す図である。 同実施形態における音声応答システム1の動作例を示すタイムチャートである。 第2の実施形態における音声応答システム1の動作例を示すタイムチャートである。
<第1の実施形態>
図1は、第1の実施形態に係る音声応答システム1が含まれる通信システムの構成例を示すブロック図である。音声応答システム1は、同図に示すように、構内交換機2を介して公衆回線網4に接続されている。また、構内交換機2には複数の電話機3が接続されている。構内交換機2と音声応答システム1と電話機3とはIPネットワークを介して接続されている。音声応答システム1と構内交換機2と複数の電話機3とはコールセンタに配置されている。
構内交換機2は、公衆回線網4を介して、顧客やユーザなどの発信者の端末装置5からのコールセンタ宛ての発信を受け付ける。構内交換機2は、端末装置5からの着信を音声応答システム1に接続するか、電話機3に接続するかを端末装置5の発信先に応じて決定し、決定した先に当該着信を接続する。構内交換機2は、端末装置5から音声応答システム1及び電話機3への中継において音声を含む信号をIPパケットに変換し、音声応答システム1及び電話機3から端末装置5への中継においてIPパケットを音声信号に変換する。
なお、本実施形態では、構内交換機2と端末装置5とは公衆回線網4を介して通信する構成を説明するが、公衆回線網4に代えて特定の利用者の間で用いられるネットワークなどであってもよい。また、発信者が利用する端末装置5は、音声通信が可能であれば、固定電話や、携帯電話、スマートフォンや、コンピュータなどであってもよい。
音声応答システム1は、端末装置5と接続されると、予め定められた音声アナウンスを再生し、発信者に発話を促して発信者(発話者)の発話内容に応じた処理を行う。発話内容に応じた処理は、例えば、更に発信者の要求を特定するための音声アナウンスを再生することや、端末装置5の接続先を音声応答システム1から電話機3へ変更してオペレータによる対応に切り替えることなどである。
音声応答システム1は、図1に示すように、音声応答装置11と音声認識装置12とを備えている。音声応答装置11は、構内交換機2から端末装置5との通信が接続されると音声アナウンスを再生する。また、音声応答装置11は、音声認識装置12による発信者の発話内容の認識結果に基づいて音声アナウンスを再生する。音声認識装置12は、音声応答システム1と端末装置5との通話(通信)において取得する発信者の発話及び発話内容を認識処理し、認識結果を音声応答装置11に送信する。ここで、認識処理とは、発話された音声をテキスト化する処理を示し、認識結果とは、例えばテキスト化された情報を示す。音声応答システム1は、音声応答装置11と音声認識装置12とが協調して動作することにより、発信者からの要求に応じた処理を行う。
図2は、本実施形態における音声応答装置11と音声認識装置12との構成例を示すブロック図である。同図に示すように、音声応答装置11は、通信インタフェース111、通信プロトコル制御部112、応答フロー記憶部113、応答フロー制御部114、アナウンスデータ記憶部115、及び、アナウンス再生部116を備えている。
通信インタフェース111は、音声応答装置11宛てのIPパケットを受信し、受信したIPパケットを通信プロトコル制御部112に出力する。また、通信インタフェース111は、通信プロトコル制御部112から入力されるIPパケットを音声認識装置12や構内交換機2に送信し、アナウンス再生部116から入力される音声情報を含むIPパケットを構内交換機2に送信する。
通信プロトコル制御部112は、通信インタフェース111を介して入力されるIPパケットや応答フロー制御部114から入力される制御情報の宛先などに基づいて、当該パケットや当該情報を転送する。
応答フロー記憶部113には、音声応答システム1における発信者の発話内容に応じた処理の手順や、音声認識装置12における認識結果に対して行う処理の手順などが予め記憶されている。
応答フロー制御部114は、構内交換機2から入力されるIPパケットや、音声認識装置12から受信する認識結果と、応答フロー記憶部113に記憶されている処理の手順とに基づいて、音声応答システム1における動作を決定する。応答フロー制御部114は、通信プロトコル制御部112を介して、決定した動作に対応する動作を要求する制御情報をアナウンス再生部116や音声認識装置12、構内交換機2に送信する。
アナウンスデータ記憶部115には、音声応答システム1において発信者に向けて出力する音声信号と当該音声信号を識別する情報との組み合わせがアナウンスとして予め記憶されている。アナウンスの音声信号の先頭部分には、予め定められた期間の無音の区間(以下、無音区間という。)が設けられている。無音区間は、例えば、音声の再生が無い区間や、所定の音量以下の音を再生する区間などである。
アナウンス再生部116は、応答フロー制御部114からの制御情報に基づいて、アナウンスデータ記憶部115に記憶されているアナウンスを読み出して再生する。アナウンス再生部116が再生したアナウンスは、IPパケットとして通信インタフェース111に出力され、構内交換機2を介して端末装置5に送信される。
音声認識装置12は、図2に示すように、通信インタフェース121、通信プロトコル制御部122、及び、音声処理部123を備えている。
通信インタフェース121は、音声認識装置12宛てのIPパケットを受信し、受信したIPパケットを通信プロトコル制御部122に出力する。また、通信インタフェース121は、通信プロトコル制御部122から入力されるIPパケットを音声応答装置11に送信する。
通信プロトコル制御部122は、通信インタフェース111を介して入力されるIPパケットや、音声処理部123から入力されるIPパケットの宛先に基づいて、当該パケットを転送する。
音声処理部123は、背景雑音測定部124、音声検出部125、音響信号記憶部126、及び、音声認識部127を備えている。
背景雑音測定部124は、アナウンス再生部116が再生するアナウンスと発信者の発話との間における無音区間において、端末装置5から受信する音響信号に基づいて背景雑音量を測定する。背景雑音量には、例えば、発信者の周囲の環境において生じている音の音圧レベルや、音響信号の尖頭値又は平均値などを用いる。発信者の周囲の環境において生じている音の例としては、屋外においては車から発せられる音や、屋内においてはテレビなどから発せられる音などである。背景雑音測定部124は、測定した背景雑音量を示す情報を音声検出部125に出力する。
音声検出部125は、背景雑音測定部124が測定した背景雑音量に基づいて、音声検出閾値を定める。音声検出閾値は、測定した背景雑音量の背景雑音が存在する環境下において発信者が発話しているか否かを判定するための閾値である。この音声検出閾値には、例えば、背景雑音量に対して所定の音量を加えた値や、背景雑音量に対して所定の定数を乗じて得られた値を用いる。また、実験や測定により得られた関数を用いて背景雑音量に対応する値を音声検出閾値としてもよい。
音声検出部125は、アナウンス再生部116によるアナウンスの再生が完了した後に、端末装置5から受信する音響信号において音声検出閾値以上の音量が得られる区間を、発信者が発話している区間(以下、発話区間という。)として検出する。一般に、発話者は、自身の周囲の環境において背景雑音の音量が大きくなると、相手にはっきりと発話内容を伝えようとする意志がはたらき、より大きな声で発話する傾向がある。音声検出部125は、この傾向を利用して、発話者(発信者)が背景雑音より大きい声で発話しているとみなして発話区間を検出する。換言すると、音声検出部125は、発信者の音声及び周囲の環境において生じている音を端末装置5のマイクで取得して得られる音響信号における発話区間を検出する。
図3は、本実施形態における音声検出部125が発話区間を検出する処理の概要を示す図である。同図において横軸は時間を示している。発話区間の検出において、音声検出部125は、アナウンスの再生完了後に音声検出閾値以上の音量が得られた時点(時刻t1)を発話区間の始点と判定する。また、音声検出部125は、音声検出閾値以上の音量が得られない期間が所定の時間(判定時間)継続した場合(時刻t3)に発話が終了していると判定し、当該期間の開始時点、すなわち音声検出閾値未満の音量になった時点(時刻t2)を発話区間の終点と判定する。
図2に戻り、音声認識装置12の構成の説明を続ける。
音響信号記憶部126は、端末装置5から受信する音響信号を逐次記憶する。
音声認識部127は、端末装置5から受信する音響信号のうち、音声検出部125が検出した発話区間の音響信号に基づいて発信者の発話内容を認識処理する。具体的には、音声認識部127は、音声検出部125が検出した発話区間に対応する音響信号を音響信号記憶部126から読み出し、読み出した音響信号に対して音声認識の処理を行う。音声認識部127における音声認識の処理には、公知の技術を用いるようにしてもよい。音声認識部127は、発話内容に対する認識結果を示す情報を、通信プロトコル制御部122を介して音声応答装置11に送信する。
図4は、本実施形態における音声応答システム1の動作例を示すタイムチャートである。同図において横軸は時間を示している。
発信者の操作に応じて端末装置5がコールセンタに発信すると(ステップS1)、当該発信を受け付けた構内交換機2は音声応答システム1に接続する。
音声応答装置11の応答フロー制御部114は、端末装置5からの着信が接続されると、応答フロー記憶部113に記憶されている処理の手順に基づいて、着信応答としてアナウンス再生部116に応答アナウンスを再生させることを選択する(ステップS2)。応答フロー制御部114は、応答アナウンスの再生を指示する制御情報を、通信プロトコル制御部112を介してアナウンス再生部116に送信する。また、応答フロー制御部114は、背景雑音量の測定を指示する制御情報を、通信プロトコル制御部112を介して音声認識装置12に送信する(ステップS3)。
アナウンス再生部116は、応答フロー制御部114から受信する制御情報に基づいて、アナウンスデータ記憶部115に記憶されている所定のアナウンスを読み出して再生して発信者に発話を促す(ステップS4)。
このとき、音声認識装置12に備えられている背景雑音測定部124は、応答フロー制御部114から受信する制御情報に基づいて、アナウンスの先頭部分に設けられている無音区間にて端末装置5から受信する音響信号の音量を測定する。背景雑音測定部124は、測定した音量を背景雑音量して音声検出部125に出力する(ステップS5)。
音声検出部125は、背景雑音測定部124により測定された背景雑音量に基づいて、音声検出閾値を設定する(ステップS6)。
ステップS4におけるアナウンスの再生に促されて発信が発話する(ステップS7)。
ステップS4におけるアナウンスの再生が完了すると、音声認識装置12の音声検出部125は、ステップS6において設定した音声検出閾値に基づいて発話区間の検出を行う(ステップS8)。
音声認識部127は、端末装置5から受信する音響信号のうち、音声検出部125により検出された発話区間における音響信号に対して音声認識の処理を行い、得られた認識結果を示す情報を音声応答装置11に送信する(ステップS9)。
応答フロー制御部114は、応答フロー記憶部113に記憶されている処理の手順に基づいて、音声認識部127から受信した認識結果に対するアナウンスの再生を選択する(ステップS10)。応答フロー制御部114は、応答アナウンスの再生を指示する制御情報を、通信プロトコル制御部112を介してアナウンス再生部116に送信する。また、応答フロー制御部114は、背景雑音量の測定を指示する制御情報を、通信プロトコル制御部112を介して音声認識装置12に送信する(ステップS11)。
アナウンス再生部116は、応答フロー制御部114から受信する制御情報に基づいて、アナウンスデータ記憶部115に記憶されている所定のアナウンスを読み出して再生して発信者に発話を促す(ステップS12)。
このとき、音声認識装置12に備えられている背景雑音測定部124は、応答フロー制御部114から受信する制御情報に基づいて、アナウンスの先頭部分に設けられている無音区間にて端末装置5から受信する音響信号の音量を測定する。背景雑音測定部124は、測定した音量を背景雑音量して音声検出部125に出力する(ステップS13)。
音声検出部125は、背景雑音測定部124により測定された背景雑音量に基づいて、音声検出閾値を更新する(ステップS14)。
以後、音声応答システム1では、前述したステップS7以降の処理と同様の処理を繰り返すことにより、発信者の要求を満たすアナウンスを再生したり、発信者の要求を受け付ける処理を行ったり、発信者の要求に対応できるオペレータの電話機3に接続を切り替えたりする。
以上のように、本実施形態における音声応答システム1では、発信者の発話を促すアナウンスの先頭部分に予め設けられた無音区間において、背景雑音測定部124が発信者の周囲の環境において生じている音(背景雑音)の音量を測定し、音声検出部125が背景雑音量に基づいて音声検出閾値を更新する。音声検出部125は音声検出閾値基づいて発信者の発話区間を検出し、音声認識部127は当該発話区間に対して音声認識処理を行う。
このように、音声応答装置11が着信に応答したとき、及び通話途中においてアナウンスが再生される都度、すなわち発信者の発話を促す都度、音声検出部125が音声検出閾値を更新することで、通話途中における背景雑音量の変化に音声検出閾値を追従させることができる。具体的には、通話の途中において発信者の周囲環境で背景雑音量が大きくなると背景雑音量の増大に応じて音声検出閾値を高くし、背景雑音量が小さくなると音声検出閾値を低くすることになる。これにより、音声検出部125による発話区間の検出の精度を向上させることができる。その結果、発信者の発話が含まれていない区間が、音声認識部127の処理対象に含まれることを抑えて、より正確な認識結果が得られるようになる。
なお、上述した本実施形態に係る音声応答システム1は、上述の態様に限定されるものでなく、以下のように変形可能である。例えば、アナウンスデータ記憶部115に記憶されているアナウンスの先頭部分に無音区間を予め設ける構成に代えて、アナウンス再生部116は、応答フロー制御部114から受信する制御情報に基づいてアナウンスを再生する際に、所定の時間が経過した後にアナウンスの再生を開始する構成にしてもよい。この構成を用いることにより、アナウンスの音声信号の先頭に無音区間を設けずとも無音区間を設けることができ、既存のアナウンスを利用することができる。
<第2の実施形態>
第1の実施形態における音声応答システム1は、アナウンスを再生する前に無音区間を設け、当該無音区間において背景雑音量の測定を行っていた。これに対して、第2の実施形態における音声応答システムでは、アナウンスに促されて発信者が発話し、当該発話が終了した後の区間において背景雑音量の測定を行って音声検出閾値を更新する。本実施形態における音声応答システムの構成は、第1の実施形態における音声応答システム1(図2)の構成と同じであるので、構成の説明を省略し、同じ機能部名及び符号を用いて動作を説明する。
図5は、第2の実施形態における音声応答システム1の動作例を示すタイムチャートである。同図において横軸は時間を示している。また、同図におけるステップS1からステップS8までの処理は、第1の実施形態における図4の動作例と同じであるので各ステップの説明を省略し、ステップS9以降の処理について説明する。
音声認識部127は、端末装置5から受信する音響信号のうち、音声検出部125により検出された発話区間における音響信号に対して音声認識の処理を行い、得られた認識結果を示す情報を音声応答装置11に送信する(ステップS21)。
このとき、背景雑音測定部124は、音響信号記憶部126に記憶されている音響信号のうち、音声検出部125により検出された発話区間の終了時点から所定の時間(判定時間)までの区間の音響信号から背景雑音量を測定する(ステップS22)。
音声検出部125は、背景雑音測定部124により測定された背景雑音量に基づいて、音声検出閾値を更新する(ステップS23)。
アナウンス再生部116は、応答フロー制御部114から受信する制御情報に基づいて、アナウンスデータ記憶部115に記憶されている所定のアナウンスを読み出して再生して発信者に発話を促す(ステップS24)。
以後、音声応答システム1では、前述したステップS7以降の処理と同様の処理を繰り返すことにより、発信者の要求を満たすアナウンスを再生したり、発信者の要求を受け付ける処理を行ったり、発信者の要求に対応できるオペレータの電話機3に接続を切り替えたりする。
以上のように、本実施形態における音声応答システム1では、発信者の発話に対する発話区間の検出において生じる区間であって音響信号の音量が音声検出閾値未満の区間を無音区間とし、当該無音区間において背景雑音測定部124が背景雑音量を測定し、音声検出部125が背景雑音量に基づいて音声検出閾値を更新する。
このように、音声応答装置11が着信に応答したとき、及び通話途中において発信者の発話が終了する都度、音声検出部125が音声検出閾値を更新することで、通話途中における背景雑音量の変化に音声検出閾値を追従させることができる。これにより、音声検出部125による発話区間の検出の精度を向上させることができ、発信者の発話が含まれていない区間が音声認識部127の処理対象に含まれることを抑えて、より正確な認識結果が得られるようになる。
以上に述べた少なくとも一つの実施形態の音声応答システム1によれば、無音区間において測定した背景雑音量に基づいて音量検出閾値を更新することにより、通話途中における背景雑音量が変化する場合であっても、発話区間の検出を精度よく行うことができ、より正確な認識結果が得られるようになる。
なお、上述した各実施形態に係る音声応答システム1は、上述の態様に限定されるものでなく、以下のように変形可能である。例えば、音声応答システム1が構内交換機2との間で音声信号を含むIPパケットの送受信を行うことにより動作する構成について説明したが、他の通信プロトコルに基づいて端末装置5との通信を行う構成であってもよい。
また、音声応答システム1が音声応答装置11と音声認識装置12との2つの装置を備える構成について説明したが、音声応答システム1を一つの装置として構成してもよいし、三つ以上の装置を備える構成としてもよい。三つ以上の装置により音声応答システム1を構成する場合、各装置はネットワーク等を介して通信可能に接続される。
また、各実施形態における音声応答システム1では、アナウンスを再生する都度、又は発信者が発話する都度、音声検出部125が音声検出閾値を更新する構成について説明したが、予め定めた時間が経過すると音声検出部125が音声検出閾値を更新するようにしてもよい。
また、上述した音声応答装置11と音声認識装置12とは、一般的な半導体集積回路によって実装されるものであってもよいし、例えば、FPGA(Field Programmable Gate Array)等のカスタマイズ可能な電子回路によって実装されるものであってもよい。
また、音声応答装置11と音声認識装置12との機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音声応答システム1として動作させてもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。更に「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。更に、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合みせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものとする。
1…音声応答システム
11…音声応答装置
111…通信インタフェース
112…通信プロトコル制御部
113…応答フロー記憶部
114…応答フロー制御部
115…アナウンスデータ記憶部
116…アナウンス再生部
12…音声認識装置
121…通信インタフェース
122…通信プロトコル制御部
123…音声処理部
124…背景雑音測定部
125…音声検出部
126…音響信号記憶部
127…音声認識部
2…構内交換機
3…電話機
4…公衆回線網
5…端末装置

Claims (9)

  1. 発話者の発話を促すアナウンスを再生するアナウンス再生部と、
    前記アナウンスと前記発話者の発話との間における無音区間において取得した音響信号に基づいて背景雑音量を測定する背景雑音測定部と、
    前記背景雑音測定部が検出した背景雑音量に基づいて音声検出閾値を更新し、当該音声検出閾値を用いて前記発話者の発話している区間を検出する音声検出部と、
    前記音声検出部が検出した区間における前記発話者の発話の内容を認識処理する音声認識部と、
    前記音声認識部の認識結果に基づいて、前記アナウンス再生部が再生するアナウンスを選択する応答フロー制御部と、
    を備えることを特徴とする音声応答システム。
  2. 前記アナウンス再生部が再生するアナウンスの先頭部分には、無音区間が予め設けられている
    ことを特徴とする請求項1に記載の音声応答システム。
  3. 前記アナウンス再生部は、
    アナウンスを再生する前に予め定められた時間が経過してから当該アナウンスの再生を開始する
    ことを特徴とする請求項1に記載の音声応答システム。
  4. 前記背景雑音測定部は、
    前記音声検出部により前記発話者の発話が終了したと判定してから前記アナウンス再生部がアナウンスを再生するまでの区間を前記無音区間として背景雑音量を測定する
    ことを特徴とする請求項1に音声応答システム。
  5. 前記音声検出部は、
    前記アナウンス再生部がアナウンスを再生する都度、音声検出閾値を更新する
    ことを特徴とする請求項1から請求項4のいずれか一項に記載の音声応答システム。
  6. 発話者の発話を促すアナウンスと当該発話者の発話との間における無音区間において取得した音響信号に基づいて背景雑音量を測定する背景雑音測定部と、
    前記背景雑音測定部が検出した背景雑音量に基づいて音声検出閾値を更新し、当該音声検出閾値を用いて前記発話者の発話している区間を検出する音声検出部と、
    前記音声検出部が検出した区間における前記発話者の発話の内容を認識処理する音声認識部と
    を備えることを特徴とする音声処理装置。
  7. 発話者の発話を促すアナウンスと当該発話者の発話との間に予め定められた無音区間を設けて当該アナウンスを再生するアナウンス再生部
    を備えることを特徴とする音声応答装置。
  8. 発話者の発話を促すアナウンスを再生するアナウンス再生ステップと、
    前記アナウンスと前記発話者の発話との間における無音区間において取得した音響信号に基づいて背景雑音量を測定する背景雑音測定ステップと、
    前記背景雑音測定ステップにおいて検出した背景雑音量に基づいて音声検出閾値を更新し、当該音声検出閾値を用いて前記発話者の発話している区間を検出する音声検出ステップと、
    前記音声検出ステップにおいて検出した区間における前記発話者の発話の内容を認識処理する音声認識ステップと、
    前記音声認識ステップにおける認識結果に基づいて、次に再生するアナウンスを選択する応答フロー制御ステップと
    を有することを特徴とする音声応答方法。
  9. 発話者の発話を促すアナウンスと当該発話者の発話との間における無音区間において取得した音響信号に基づいて背景雑音量を測定する背景雑音測定ステップと、
    前記背景雑音測定ステップにおいて検出した背景雑音量に基づいて音声検出閾値を更新し、当該音声検出閾値を用いて前記発話者の発話している区間を検出する音声検出ステップと、
    前記音声検出ステップにおいて検出した区間における前記発話者の発話の内容を認識処理する音声認識ステップと
    をコンピュータに実行させるための音声処理プログラム。
JP2013189709A 2013-09-12 2013-09-12 音声応答システム、音声処理装置、音声応答装置、音声応答方法、及び音声処理プログラム Pending JP2015055790A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013189709A JP2015055790A (ja) 2013-09-12 2013-09-12 音声応答システム、音声処理装置、音声応答装置、音声応答方法、及び音声処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013189709A JP2015055790A (ja) 2013-09-12 2013-09-12 音声応答システム、音声処理装置、音声応答装置、音声応答方法、及び音声処理プログラム

Publications (1)

Publication Number Publication Date
JP2015055790A true JP2015055790A (ja) 2015-03-23

Family

ID=52820211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013189709A Pending JP2015055790A (ja) 2013-09-12 2013-09-12 音声応答システム、音声処理装置、音声応答装置、音声応答方法、及び音声処理プログラム

Country Status (1)

Country Link
JP (1) JP2015055790A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114365217A (zh) * 2019-09-13 2022-04-15 国际商业机器公司 优化排队等候的呼叫

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114365217A (zh) * 2019-09-13 2022-04-15 国际商业机器公司 优化排队等候的呼叫

Similar Documents

Publication Publication Date Title
US11570292B1 (en) Providing hands-free service to multiple devices
KR102458806B1 (ko) 공유된 음성 작동 디바이스상의 호출 핸들링
US8117036B2 (en) Non-disruptive side conversation information retrieval
KR101626438B1 (ko) 오디오 데이터 프로세싱을 위한 방법, 디바이스, 및 시스템
JP2017138536A (ja) 音声処理装置
US8244535B2 (en) Audio frequency remapping
US20130151248A1 (en) Apparatus, System, and Method For Distinguishing Voice in a Communication Stream
JP2015055790A (ja) 音声応答システム、音声処理装置、音声応答装置、音声応答方法、及び音声処理プログラム
JP2017216525A (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP2024510367A (ja) 音声データ処理方法と装置及びコンピュータ機器とプログラム
JP2008249893A (ja) 音声応答装置及びその方法
JP6610195B2 (ja) 端末装置、通信方法
JP2018160798A (ja) 通信装置、通信方法、および、通信プログラム
JP6822540B2 (ja) 端末装置、通信方法及び通信プログラム
JP2015002386A (ja) 通話装置、音声変更方法、及び音声変更プログラム
JP5853540B2 (ja) 音声通信装置及びプログラム
TW201336290A (zh) 通信裝置及通信方法
JP5321687B2 (ja) 音声通話装置
CN112737870B (zh) Mcptt业务的时延测试系统及方法
JP4819642B2 (ja) 通信装置及び通信方法
JP2017097093A (ja) 端末装置、通信方法
JP2017163198A (ja) 音声認識システム、コネクト装置および音声認識方法
JP2013135462A (ja) 携帯端末、制御方法、及びプログラム
JP2837577B2 (ja) 留守番電話機
JP2014060601A (ja) 電話装置