JP3984526B2 - 音声対話システム及び方法 - Google Patents
音声対話システム及び方法 Download PDFInfo
- Publication number
- JP3984526B2 JP3984526B2 JP2002306299A JP2002306299A JP3984526B2 JP 3984526 B2 JP3984526 B2 JP 3984526B2 JP 2002306299 A JP2002306299 A JP 2002306299A JP 2002306299 A JP2002306299 A JP 2002306299A JP 3984526 B2 JP3984526 B2 JP 3984526B2
- Authority
- JP
- Japan
- Prior art keywords
- barge
- voice
- input
- user
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 30
- 238000012545 processing Methods 0.000 claims description 59
- 230000005236 sound signal Effects 0.000 claims description 36
- 230000005540 biological transmission Effects 0.000 claims description 31
- 230000003993 interaction Effects 0.000 claims description 23
- 230000007613 environmental effect Effects 0.000 claims description 21
- 238000011156 evaluation Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 description 78
- 230000003044 adaptive effect Effects 0.000 description 21
- 238000000605 extraction Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 12
- 230000007257 malfunction Effects 0.000 description 9
- 230000001629 suppression Effects 0.000 description 8
- 238000002592 echocardiography Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000011410 subtraction method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 210000004258 portal system Anatomy 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Description
【発明の属する技術分野】
本発明は、ユーザによる音声入力の内容に応じて、音声出力あるいは音声出力と他の情報伝達手段との併用によってユーザへ情報を伝達する音声対話システムに関する。特に、音声出力あるいは音声出力と他の情報伝達手段との併用によってユーザへ情報を伝達している途中において、ユーザ音声による割り込みがあった場合、情報伝達を中断してユーザによる割り込み音声入力について処理するバージイン機能を備えた音声対話システムに関する。
【0002】
【従来の技術】
コンピュータ技術の急速な進展に伴って、音声信号の処理に関する技術も長足の進歩を遂げている。それに伴って、インターネット等を介して急速に普及しているボイスポータルに代表される音声対話システムでは、ユーザとシステムとが擬似的な対話を行うことによって、ユーザが所望の情報を合成音声等の音声出力を介して提供している。また、次世代携帯電話や携帯端末(PDA等)では、音声信号に加えて画像情報も扱うことができるため、音声と画像を組み合わせたマルチメディア情報を提供する音声対話システムについても、今後の進展が期待されている。
【0003】
近年、市場に普及しつつあるボイスポータルは、ユーザビリティを向上させる目的で、ポータルサイト(音声対話システム)からの音声案内の途中であっても、ユーザが割り込みをかけて発声することが可能なバージイン機能が搭載されている場合が多い。当該バージイン機能は、ユーザによる音声入力が通信回線等を経由してシステムに入力されることにより、ユーザによる音声入力の開始を検出し、音声出力による案内等を中断して、ユーザによる音声入力を促すものである。ここで、システムへの入力がユーザ音声のみであれば、例えば入力のパワー変動等を監視することによって正確にユーザによる音声入力の開始を検出することができ、音声出力による案内等を中断することが可能であることから、バージイン機能は正常に動作する。
【0004】
しかしながら、実際にはシステムからの音声出力による案内等が通信回線系で反射して戻る回線エコーや、ハンズフリー電話機等におけるシステムの案内音声が送話器から受話器へ回り込む音響エコー、さらにはユーザ周辺環境から混入する定常あるいは非定常な環境雑音や、通信回線系の雑音等が、ユーザ音声に重畳してシステムに入力される。かかる問題を解決するため、一般的には音響処理によるエコー抑制処理や雑音抑圧処理が行われている。
【0005】
例えば(特許文献1)においては、入力された音声のスペクトル分析を行うことによって、音声の回り込みによるエコーを除去することができる音声対話システムが開示されている。
【0006】
【特許文献1】
特開平9−252268号公報
【0007】
【発明が解決しようとする課題】
上述したように、エコーについては、様々な方法を用いたエコーキャンセラにより抑圧するのが一般的であるが、通信回線系によっては完全にエコーを抑圧することができず、エコーが残留するケースが多いことも事実である。
【0008】
また、雑音についてはノイズキャンセラで抑圧するのが一般的であるが、定常性雑音については効果的に抑圧することができるのに対して、非定常性雑音については抑圧することが困難であるという問題点もあった。
【0009】
さらに、エコーキャンセラあるいはノイズキャンセラの双方について、その抑圧効果を高めるようにパラメタ調整を行うことが多いが、パラメタ調整を行うことによって、同時にユーザによる音声入力自体を歪ませることとなり、結果的に音声認識率が低下してしまうという問題点も残されていた。
【0010】
そして、上記のような理由で発生する残留エコーレベルや非定常性雑音レベルが高い場合においては、従来の音声対話システムでは、バージイン機能を用いることで残留エコーや非定常性雑音をユーザによる音声入力であると誤判断してしまうことから、音声出力による案内等を停止させた上、音声認識が残留エコーや非定常性雑音を誤認識してしまう場合があり、音声対話システムの誤動作を起こす大きな要因の一つにもなっている。
【0011】
本発明は、上記問題点を解決するために、様々なエコーや雑音に起因する不測のバージインと、それに伴う誤認識によるシステムの誤動作の両者を抑止することで、ユーザにとって利便性の高い音声対話システム及び方法を提供することを目的とする。
【0012】
【課題を解決するための手段】
上記目的を達成するために本発明にかかる音声対話システムは、入力された音信号に対して音響的な信号処理を行う音響処理部と、音響的な信号処理後の音信号に含まれる音声の内容を認識する音声認識部と、音声の内容に基づいて、音声出力あるいは音声出力と他の情報伝達手段との併用によって、ユーザへ情報を伝達する音声対話部と、情報を伝達する途中に、音響処理部の入力又は出力あるいは外部入力からの入力信号により、情報の伝達を中止するバージイン機能を有するバージイン制御部を含み、バージイン制御部が、音響処理部の入力又は出力あるいは外部入力からの入力信号から1つ以上の特徴量を検出し、1つ以上の特徴量に基づいてバージイン機能の有効又は無効を決定することを特徴とする。
【0013】
かかる構成により、バージイン制御部において検出される種々の特徴量に応じて、音声認識部におけるバージイン機能の有効/無効を判断することが可能となり、雑音やエコー等に起因する不測のバージインを抑止することができるとともに、雑音区間をユーザ音声区間と判断することに起因する誤認識も回避することができ、結果的に音声対話システムの誤動作を未然に防止することが可能となる。
【0014】
また、本発明にかかる音声対話システムは、1つ以上の特徴量のうち少なくとも1つが雑音特徴量であり、雑音特徴量が所定のしきい値を越えた場合にバージイン機能を無効にすることが好ましい。雑音信号のパワー等の大小に応じてバージインを行うべきか否かを判断できるからである。
【0015】
また、本発明にかかる音声対話システムは、1つ以上の特徴量のうち少なくとも1つがユーザ音声のS/Nであり、S/Nが所定のしきい値を越えた場合にバージイン機能を有効にすることが好ましい。雑音信号のS/Nの大小に応じてバージインを行うべきか否かを判断できるからである。
【0016】
また、本発明にかかる音声対話システムは、1つ以上の特徴量のうち少なくとも1つが外部入力からの入力信号から検出されたユーザの位置情報であり、位置情報と環境情報に基づいてユーザがいる地点の環境評価値を算出し、環境評価値が所定のしきい値を越えた場合にバージイン機能を無効にすることが好ましい。ユーザの現在位置がどこであるかに基づいて、雑音信号が多い環境であるか否かを判断することができ、バージインを行うべきか否かを判断できるからである。
【0017】
また、本発明にかかる音声対話システムは、音声対話部が、音声あるいは他の情報伝達手段の少なくとも1つ以上を用いて、バージイン機能の有効または無効の状態をユーザに通知することが好ましい。ユーザが音声出力の中途で入力することができるか否かを判断できるからである。
【0018】
また、本発明は、上記のような音声対話システムの機能をコンピュータの処理ステップとして実行するソフトウェアを特徴とするものであり、具体的には、入力された音信号に対して音響的な信号処理を行う第一の工程と、音響的な信号処理後の音信号に含まれる音声の内容を認識する第二の工程と、音声の内容に基づいて、音声出力あるいは音声出力と他の情報伝達手段との併用によって、ユーザへ情報を伝達する第三の工程と、情報を伝達する途中に、第一の工程における入力又は出力あるいは外部入力からの入力信号により、情報の伝達を中止するバージイン機能を有する第四の工程を含み、第四の工程において、第一の工程における入力又は出力あるいは外部入力からの入力信号から1つ以上の特徴量を検出し、1つ以上の特徴量に基づいてバージイン機能の有効又は無効を決定する音声対話方法並びにそのような工程を具現化するコンピュータ実行可能なプログラムであることを特徴とする。
【0019】
かかる構成により、コンピュータ上へ当該プログラムをロードさせ実行することで、検出される種々の特徴量に応じて、バージイン機能を有効にするか否かを判断することが可能となり、雑音やエコー等に起因する不測のバージインを抑止することができるとともに、雑音区間をユーザ音声区間と判断することに起因する誤認識も回避することができ、結果的に音声対話システムの誤動作を未然に防止することができる音声対話システムを実現することが可能となる。
【0020】
【発明の実施の形態】
以下、本発明の実施の形態にかかる音声対話システムについて、図面を参照しながら説明する。図1は本発明の実施の形態にかかる音声対話システムの基本構成図である。
【0021】
図1において、11は入力された音信号に対して音響的な信号処理を行う音響処理部を、12は入力された音信号に含まれる音声の内容を認識するとともに、合成音声等による音声出力を含む情報伝達の途中において、ユーザにより入力された音信号により、情報の伝達を中止するバージイン機能を提供する音声認識部を、13は音声出力あるいは音声出力と他の情報伝達手段との併用によって、ユーザへ情報を伝達する音声対話部を、それぞれ示している。
【0022】
また、14はバージイン制御部を示しており、入力された音信号から1つ以上の特徴量を検出し、1つ以上の特徴量に基づいてバージイン機能の有効又は無効を決定するものである。
【0023】
まず音響処理部11は、入力された音信号に対して音響的な信号処理を行うことにより、当該音信号に含まれている様々な雑音を抑圧し、音声認識部12における音声認識の精度を高めることになる。ここで雑音とは、例えば電話回線を用いたボイスポータルシステムの場合においては、環境雑音や電話回線網雑音等の雑音のほか、回線エコーや音響エコー等の音声の回り込み等に起因するエコー雑音が考えられる。
【0024】
環境雑音とは、ユーザが電話をかけている周辺を取り巻く環境において発生する種々の音信号が重畳した雑音を意味する。また電話回線雑音とは、公衆回線網上、特に伝送路上や交換機上で発生する各種のノイズ信号が重畳した雑音を意味している。
【0025】
さらに、回線エコーとは、ボイスポータルがユーザへ提供する音声出力が、電話回線上において反射することにより重畳する雑音を意味する。また音響エコーとは、例えばハンズフリー電話を使用した場合、ボイスポータルからの音声出力は電話機の送話器で拡声して再生されるため、再生された音声出力が受話器側へ筐体振動によって回り込んだり、あるいは居室内における天井や壁、床などで反射して受話器へ回り込むことで重畳する雑音を意味している。
【0026】
音響処理部11において、入力された音信号に含まれている上述したような雑音を抑圧するには、広く知られているノイズキャンセラ技術を利用することが多い。ノイズキャンセラ技術の代表例としては、スペクトルサブトラクション法が挙げられる。スペクトルサブトラクション法では、雑音区間において定常性雑音の振幅スペクトルを推定し、雑音区間ならびに雑音が重畳した音区間から、推定した振幅スペクトルを除去することによって雑音の抑圧を行うものである。ただし、ノイズキャンセラ技術として、これに限定されるものではない。
【0027】
また、音響処理部11において、入力された音信号に含まれている回線エコーや音響エコーの抑圧には、広く知られているエコーキャンセラ技術を利用することが多い。エコーキャンセラ技術の代表例としては、適応フィルタが挙げられる。適応フィルタは、FIRフィルタと呼ばれるディジタルフィルタで構成されており、エコーの発生源となる音信号である参照音(本実施の形態では音声出力信号)と入力された音信号との二乗誤差を最小とするように適応フィルタ係数を随時自動更新しながら、エコー抑圧を行うフィルタである。
【0028】
次に、音声認識部12は、雑音を抑圧した後の音響処理部11の出力を入力としており、音響処理部11の出力の特徴量を所定のしきい値と比較することによって、音響処理部11の出力に含まれるユーザ音声信号区間を検出するように構成されている。
【0029】
例えば、考えられる検出方法として、所定のしきい値に対して、入力された音信号の振幅あるいはパワーがしきい値を超えている区間をユーザによる音声区間と、超えていない区間を雑音区間と判定するように構成することになる。なお、音響処理部11からの出力の特徴量については、後述するバージイン制御部14において検出する特徴量と同一の特徴量であることが好ましいが、異なる特徴量であっても良い。
【0030】
また、音声認識部12は、種々の音声認識技術を用いることにより、検出したユーザによる音声区間のユーザ発話内容を認識する。そして、認識結果については、音声対話部13へ出力することになる。
【0031】
次に、音声対話部13は、音声認識部12における音声認識結果に基づいて、ユーザに対して所望の情報を出力する。出力方法(情報伝達方法)としては、合成音声等による音声出力あるいは音声出力とその他の情報伝達手段の組み合わせが考えられる。なお、「その他の情報伝達手段」とは、例えば画像、音、光、振動等による情報伝達手段を意味している。
【0032】
また、音声対話部13は、バージイン制御部14においてバージイン機能が有効であると判断されており、バージインの発生が通知された場合、ユーザへの情報伝達を即座に中断する。さらに、必要に応じて音声対話部13が、ユーザへの情報伝達区間(音声出力時間)に関する情報を音響処理部11に出力する。
【0033】
次に、バージイン制御部14は、入力又は音響処理部12の出力、あるいは外部入力のうち、少なくとも1つの特徴量を検出することによって、音声認識部12においてバージインを行うか否か、すなわちバージイン機能を有効にするか、無効にするかを判断するものである。ここで特徴量とは、例えば雑音信号の特徴量、S/N、ユーザの位置情報等が考えられる。
【0034】
また、バージイン制御部14はバージイン機能を備えている。バージイン機能が有効であると判断されている場合、音響処理部11の出力の特徴量と所定のしきい値とを比較することによって、当該バージイン機能がユーザにより入力された音信号の立ち上がり(音声入力の開始)を検出することになる。また、バージイン機能が有効であると判断されている場合には、音声対話部13に対してバージインの発生を通知する。
【0035】
図2は、特徴量を雑音信号の特徴量とした場合のバージイン制御部14の構成図である。図2においては、ユーザにより入力された音信号、あるいは音響処理部11において処理された後の音声信号の、少なくとも1つを入力としている。
【0036】
そして、かかる入力から雑音特徴量を検出する雑音特徴量抽出部141と、雑音特徴量抽出部141で抽出された特徴量を所定のしきい値と比較することにより、バージイン機能を有効にするか否かを判定し、判定結果を音声認識部12及び音声対話部13、あるいは必要に応じて音響処理部11に出力するバージイン判定部142を備えている。
【0037】
雑音特徴量抽出部141において検出される雑音特徴量としては、例えば雑音の特徴量を数値化した雑音の振幅値、あるいはその平均値や変化量を用いることが考えられる。ただし、これらに限定されるものではなく、パワー値や振幅スペクトル値、あるいはパワースペクトル値を用いても良い。
【0038】
また、バージイン判定部142において、雑音特徴量と比較する所定のしきい値は、バージイン機能がユーザにより入力された音信号の立ち上がり(音声入力の開始)を検出するために用いる音響処理部11の出力の特徴量と比較する所定のしきい値よりも小さな値を設定することが好ましい。そうしなければ、音声出力途上に何らかの音信号(雑音だけの場合であっても)が入力されるごとにバージイン機能が有効になってしまうことから、使い勝手が悪くなってしまうからである。
【0039】
また、雑音特徴量が当該所定のしきい値を超える場合には、雑音レベルが高く、不測のバージインが発生する可能性が高いと判断され、バージイン判定部142がバージイン機能を無効にするよう判断することになる。なお、バージイン判定部142における所定のしきい値は、固定値であっても良いし、条件に応じて動的に変化する可変値であっても良い。
【0040】
このような構成にすることで、バージイン制御部14において検出された雑音特徴量に応じて、バージイン機能の有効/無効を判断することが可能となり、雑音に起因する不測のバージインを抑止することができるとともに、雑音区間をユーザ音声区間と判断することに起因する誤認識も回避することができ、結果的に音声対話システムの誤動作を未然に防止することが可能となる。
【0041】
同様に図3は、特徴量をS/N(Sound/Noise)とした場合のバージイン制御部14の構成図である。図3に示すように、ユーザにより入力された音入力信号、あるいは音響処理部11において処理された後の音声信号の、少なくとも1つを入力としている。
【0042】
そして、かかる入力からS/Nを検出するS/N抽出部143と、S/N抽出部143で抽出されたS/Nを所定のしきい値と比較することにより、バージイン機能を有効にするか否かを判定し、判定結果を音声認識部12及び音声対話部13、あるいは必要に応じて音響処理部11に出力するバージイン判定部142を備えている。
【0043】
また、バージイン判定部142において、S/Nと比較する所定のしきい値は、バージイン機能がユーザにより入力された音信号の立ち上がり(音声入力の開始)を検出するために用いる音響処理部11の出力の特徴量と比較する所定のしきい値よりも大きな値を設定することが好ましい。そうしなければ、音声出力途上にユーザ音声よりもレベルの高い非定常雑音が入力されるごとにバージイン機能が有効になってしまうことから、使い勝手が悪くなってしまうからである。
【0044】
また、S/Nが当該所定のしきい値を超えない場合には、ユーザにより入力される音信号のS/Nが低く、レベルの高い非定常雑音による不測のバージインが発生する可能性が高いと判断され、バージイン判定部142がバージイン機能を無効にするように判断することになる。なお、バージイン判定部142における所定のしきい値は、固定値であっても良いし、条件に応じて動的に変化する可変値であっても良い。
【0045】
このような構成にすることで、バージイン制御部14において検出されたS/Nに応じて、バージイン機能の有効/無効を判断することが可能となり、ユーザ音声よりもレベルの高い非定常雑音に起因する不測のバージインを抑止することができるとともに、雑音区間をユーザ音声区間と判断することに起因する誤認識も回避することができ、結果的に音声対話システムの誤動作を未然に防止することが可能となる。
【0046】
同様に図4は、特徴量をユーザの位置情報とした場合のバージイン制御部14の構成図である。図4に示すように、ユーザにより入力される音声とは相違する、別の外部入力を入力としている。例えばGPSからの位置情報等である。
【0047】
そして、かかる入力からユーザの位置情報を検出する位置情報抽出部144と、位置情報抽出部144で抽出されたユーザの位置情報に基づいて周辺環境の評価値を算出する環境評価値算出部145と、環境評価値算出部145において算出された評価値を所定のしきい値と比較することにより、バージイン機能を有効にするか否かを判定し、判定結果を音声認識部12及び音声対話部13、あるいは必要に応じて音響処理部11に出力するバージイン判定部142を備えている。
【0048】
図4に示す位置情報抽出部144は、外部入力から、例えばGPS等によって得られるユーザの位置座標を取得することになる。そして、環境評価値算出部145は、位置情報抽出部144により抽出されたユーザの位置座標と、事前に登録しておいたマップ情報等の環境情報とを照合することによって所定の環境評価値を算出し、バージイン判定部142では、算出された環境評価値に基づいて、バージイン機能を有効にするか否かを判断することになる。ここでマップ情報とは、例えば環境雑音が多いと予測されるエリア(例えば幹線主要道路付近等)を高雑音エリア、環境雑音の少ないエリア(閑静な住宅街等)を低雑音エリアとして登録したエリア情報データベース等が考えられる。もちろん、これに限定されるものではない。
【0049】
また、環境評価値としては、周辺環境における環境雑音の期待値等が考えられる。すなわち、ユーザの位置座標から現在ユーザが位置する周辺の環境を推定することができ、例えば周辺環境における環境雑音の期待値が所定のしきい値を超える場合には、環境雑音の大きな場所にいるものと判断され、不測のバージインが発生する可能性が高いと判断でき、バージイン判定部14においてバージイン機能を無効にするように判断することになる。なお、バージイン判定部142における所定のしきい値は、固定値であっても良いし、条件に応じて動的に変化する可変値であっても良い。
【0050】
このような構成にすることで、バージイン制御部14において検出されたユーザの位置情報に基づいて算出された環境評価値に応じて、バージイン機能の有効/無効を判断することが可能となり、ユーザの周辺環境による環境雑音に起因する不測のバージインを抑止することができるとともに、雑音区間をユーザ音声区間と判断することに起因する誤認識も回避することができ、結果的に音声対話システムの誤動作を未然に防止することが可能となる。
【0051】
また、上述した3つの特徴量抽出手段を組み合わせても良い。すなわち、バージイン制御部14に、雑音特徴量抽出部141と、S/N抽出部143と、位置情報抽出部144とを設け、それぞれ雑音特徴量としきい値A、S/Nとしきい値B、ユーザの位置情報に基づく評価値としきい値Cの比較を行い、バージイン機能を有効にするか否かを判断することになる。なお、本実施の形態においては、3種類の特徴量抽出手段を設ける場合について説明しているが、3種類以上設けても良く、また3種類のうちのいずれか2種を設ける構成であっても良い。
【0052】
このように異なる種類の特徴量抽出手段を併用することで、バージイン機能を有効にするべきか否かの判断精度の向上が期待でき、不測のバージインの抑制、及び雑音区間をユーザ音声区間と判断することに起因する誤認識の抑制を、より効果的に行うことが期待できる。
【0053】
以下、特徴量として雑音信号の特徴量を用いる場合を例に挙げて、具体的な処理について図面を参照しながら説明する。図5は、本発明の実施の形態にかかる音声対話システムであって、初期状態において音声認識部12におけるバージイン機能が無効とされている場合の入出力状態及びバージイン機能の有効/無効の状態を示す図である。
【0054】
図5において、バージイン制御部14は、ユーザによる音声入力区間を除く区間において雑音特徴量を検出し、雑音特徴量に応じてバージイン機能が有効であるか否かを判断することになる。
【0055】
ここで、バージイン機能が初期状態において無効に設定されている場合、少なくともユーザが音声対話システムへアクセスを開始した直後から、音声対話部13における音声出力による情報伝達が終了するまでの区間、すなわち図5における区間▲1▼−A及び▲1▼−Bにおいては、雑音特徴量に関係なくバージイン機能を無効に設定するようにする。すなわち、ユーザが音声対話システムへアクセスを開始した直後は音声対話システムにとって雑音レベルが未知であることから、雑音等による不測のバージイン発生防止を目的として、区間▲1▼−A及び▲1▼−Bにおいてバージイン機能を無効とするものである。
【0056】
また、バージイン制御部14で検出する雑音特徴量は、区間▲1▼における区間▲1▼−A及び▲1▼−Cで検出することになる。当該区間においては、環境雑音や回線網雑音等の雑音特徴量を確実に検出することができるからである。一方、区間▲1▼−Bでは、環境雑音や回線網雑音等の雑音に加えて、残留回線エコーや残留音響エコー等の残留エコーを重ね合わせた雑音特徴量を検出することになるため、正確さを欠くおそれも残されている。
【0057】
なお、雑音特徴量を検出する区間としては区間▲1▼全体に限定されるものではなく、例えば区間▲1▼−A、▲1▼−B、及び▲1▼−Cのいずれか1つの区間であっても良く、あるいは区間▲1▼−A、▲1▼−B、及び▲1▼−Cの一部区間に限定しても良い。
【0058】
そして、バージイン制御部14は、区間▲1▼における雑音特徴量と所定のしきい値との比較を行い、雑音特徴量が所定のしきい値を超えた場合には、雑音レベルが高く、不測のバージインが発生する可能性が高いと判断して、バージイン機能を無効にするよう設定することになる。ただし、図5では、雑音特徴量が所定のしきい値を超えていない場合について示しており、バージイン制御部14はバージイン機能を有効にするよう設定している。
【0059】
なお、図5ではバージイン制御部14が区間▲1▼−B終了後に音声認識部12におけるバージイン機能を有効/無効のいずれかに設定するようにしているが、バージイン機能の設定タイミングはこれに限定されるものではなく、区間▲1▼における任意の位置において有効/無効のいずれかに設定するようにすれば良い。
【0060】
次に、バージイン制御部14は、ユーザによる音声入力区間では特徴量検出を行わず、バージイン機能は区間▲1▼−B終了後に設定した状態、すなわち有効である状態を保持している。ユーザによる音声入力が行われている間は、雑音にユーザによる音声入力が重畳するため、バージイン制御部14における雑音特徴量は、雑音の特徴量のみを検出することが困難であることから、雑音の特徴量のみを検出できる区間▲1▼−Cにおいてバージイン機能を有効にするためである。
【0061】
そして、バージイン機能が有効と設定されている場合、ユーザによる音声入力の終了後から、音声対話部13において音声出力が開始され、所定の時間を経過した区間▲2▼において雑音特徴量を検出し、ある所定のしきい値を超えた場合、図5に示すようにバージイン機能を無効にするよう設定する。
【0062】
なお、雑音特徴量を検出する区間を▲2▼としているが、例えば区間▲2▼−Aあるいは▲2▼−Bのいずれかに限定しても良く、また区間▲2▼−A及び▲2▼−Bの一部区間に限定しても良い。区間▲2▼において、音声対話部13から音声出力が開始され、所定の時間を経過した区間▲2▼−Bは、例えば音声対話部13から音声出力が開始されてからユーザによる音声入力が開始される(バージインの場合も含む)直前までとしても良く、予め所定の時間長さを設定しておいても良い。ただし、後者の場合、音声対話部13から音声出力が開始され、ユーザによる音声入力によるバージインが発生する区間より短い区間を予測して設定することになる。
【0063】
また、図5に示すように、状況に応じて動的にバージイン機能の有効/無効を切り替えるのではなく、例えば図6に示すように初期状態においてはバージイン機能が無効になるよう設定されており、条件を具備した場合に1回のみ有効になるように切り替える方法や、あるいは図7に示すように初期状態においてはバージイン機能が有効になるよう設定されており、条件を具備した場合に1回のみ無効になるように切り替える方法も考えられる。
【0064】
ここで、初期状態においてバージイン機能が無効になるよう設定することは、ユーザが音声対話システムにアクセスした際、未知レベルの様々な雑音に対し、不測のバージイン発生を防止する効果があるからである。
【0065】
そして、図6に示すように、バージイン制御部14は、区間▲1▼における雑音特徴量が、例えばある所定のしきい値を超えない場合には、雑音レベルが低く、不測のバージインが発生する可能性が低いと判断して、バージイン機能が有効となるよう設定し、有効状態のまま固定することになる。なお、図6では区間▲1▼−B終了後にバージイン機能を有効にするよう設定しているが、特にこの位置に限定されるものではなく、区間▲1▼の任意の位置において、バージイン機能を有効にするよう設定しても良い。
【0066】
また、初期状態においてバージインを有効に設定することは、音声対話システムからの音声出力による情報伝達の途中であっても、ユーザの所望のタイミングで割り込みをかけられるというメリットがある。
【0067】
そして、バージイン制御部14は、区間▲1▼における雑音特徴量が、例えばある所定のしきい値を超える場合には、雑音レベルが高く、不測のバージインが発生する可能性が高いと判断して、バージイン機能を無効となるよう設定し、無効状態のまま固定することになる。図7では、区間▲1▼−B終了後にバージイン機能を無効にするよう設定しているが、特にこの位置に限定されるものではなく、区間▲1▼の途中でバージイン機能が無効になるよう設定しても良い。
【0068】
このように、初期状態から1回のみ状態を切り替えることによって、結果的に音声対話システムの誤動作を防止することが可能であるとともに、バージイン制御部14の構成を単純化するこができ、音声対話システム全体の低コスト化を図ることも可能となる。
【0069】
なお、前述した適応フィルタを用いる場合には、以下のような問題に留意する必要がある。すなわち、一般に適応フィルタは、入力される音信号と参照音信号とが相関が低いことを前提としており、適応アルゴリズムを用いた適応処理によって、逐次FIRフィルタ係数を更新するものである。しかし、実際の入力音はエコー音だけではなく、場合によってはユーザによる音声自体が重畳する場合もある。この場合、同一の音声の回り込み等であることから相関が高くなってしまうため、音響処理部12が適応フィルタを備えている場合には適応処理によって誤ったフィルタ係数に更新してしまい、エコー抑圧効果が低減するとともに、ユーザにより入力された音声自体を歪ませることになり、ユーザにより入力された音声の内容を認識できないという問題である。
【0070】
したがって、バージイン機能が無効となるように設定されている場合、適応フィルタによる適応処理区間を、音声対話部13から音声出力している音声情報伝達区間のみに限定し、非音声情報伝達区間では適応処理を行わないようにする必要がある。
【0071】
このようにすることで、音声対話部13が音声出力している情報伝達区間においてはバージインが発生しないため、エコー音にユーザによる入力音声が重畳することがなく、適応処理及び適応フィルタ係数の更新が正常に行われるとともに、ユーザによる入力音声自体が歪むこともなく、雑音であるエコー音のみを抑圧することが可能となる。
【0072】
さらに、音響処理部11が適応フィルタによって構成されている場合、バージイン機能が有効となるよう設定されていると、音声対話部13からの音声出力開始から所定の時間までの区間に限定して、適応フィルタによる適応処理とそれにかかる適応フィルタ係数の更新を行うようにする。
【0073】
ここで「所定の時間」とは、長くとも音声対話部13からの音声出力の開始時刻から、ユーザによる音声入力によるバージイン開始時刻までの時間であれば良く、あるいは事前に設定した時間であっても良い。ただし、後者の場合、ユーザによる音声入力によるバージイン開始より短い時間を推定して設定する必要がある。
【0074】
このようにすることで、音響処理部11における適応処理と適応フィルタ係数の更新が、音声対話部13が音声出力を開始してから長くともユーザによるバージインが発生するまでの区間に限定して行われることから、雑音であるエコー音にユーザ音声が重畳することが無く、適応処理と適応フィルタ係数の更新が正常に行われるとともに、ユーザによる入力音声自体が歪むこともなく、雑音であるエコー音のみを抑圧することが可能となる。
【0075】
次に、本発明の実施の形態にかかる音声対話システムを実現するプログラムの処理の流れについて説明する。図8に本発明の実施の形態にかかる音声対話システムを実現するプログラムの処理の流れ図を示す。
【0076】
図8において、まずユーザにより入力された音声信号を受信し(ステップS801)、音響的な信号処理を行うことにより、当該音声信号に含まれている様々な雑音を抑圧する(ステップS802)。
【0077】
次に、雑音抑圧後の音声信号について、その特徴量を抽出し(ステップS803)、抽出された特徴量を所定のしきい値と比較する(ステップS804)。特徴量が所定のしきい値よりも大きい場合には(ステップS804:Yes)、当該区間をユーザによる音声信号区間として検出することになる(ステップS805)。特徴量が所定のしきい値以下である場合には(ステップS804:No)、当該区間をユーザによる雑音信号区間として検出することになる(ステップS808)。
【0078】
ユーザによる音声信号区間として検出された区間については、種々の音声認識技術を用いることによって、発話内容を認識する(ステップS806)。そして、認識結果に対応してユーザに伝達するべき情報が、ユーザに対して音声出力によって伝達される(ステップS807)。
【0079】
一方、雑音信号区間として検出された区間については、少なくとも1種類の特徴量を抽出する(ステップS809)。そして、抽出された特徴量を所定のしきい値と比較して(ステップS810)、所定のしきい値より大きい場合には(ステップS810:Yes)バージイン機能を有効にし(ステップS811)、所定のしきい値以下である場合には(ステップS810:No)バージイン機能を無効にする(ステップS815)。なお、特徴量の種類によっては、所定のしきい値を超えていない場合にバージイン機能を有効にし、超えている場合に無効にするよう制御される。
【0080】
次に、バージイン機能が有効である場合には(ステップS811)、継続して入力されている雑音抑圧後の音声信号について、その特徴量を所定のしきい値と比較する等して、ユーザによる音声入力の開始を検出する(ステップS812)。同時に、音声対話部13に対してバージインの発生を通知する(ステップS813)。
【0081】
そして、バージイン機能が有効であると判断されており(ステップS811)、かつバージインの発生が通知された場合(ステップS813)、ユーザへの音声出力が中断される(ステップS814)。
【0082】
なお、本発明の実施の形態にかかる音声対話システムを実現するプログラムは、図9に示すように、CD−ROM92−1やフレキシブルディスク92−2等の可搬型記録媒体92だけでなく、通信回線の先に備えられた他の記憶装置91や、コンピュータ93のハードディスクやRAM等の記録媒体94のいずれに記憶されるものであっても良く、プログラム実行時には、プログラムはローディングされ、主メモリ上で実行される。
【0083】
また、本発明の実施の形態にかかる音声対話システムにより用いられる各特徴量に対応したバージイン機能の有効/無効判断のためのしきい値データ等についても、図9に示すように、CD−ROM92−1やフレキシブルディスク92−2等の可搬型記録媒体92だけでなく、通信回線の先に備えられた他の記憶装置91や、コンピュータ93のハードディスクやRAM等の記録媒体94のいずれに記憶されるものであっても良く、例えば本発明にかかる音声対話システムを利用する際にコンピュータ93により読み取られる。
【0084】
【発明の効果】
以上のように本発明にかかる音声対話システムによれば、バージイン制御部において検出される種々の特徴量に応じて、バージイン機能の有効/無効を判断することが可能となり、雑音やエコー等に起因する不測のバージインを抑止することができるとともに、雑音区間をユーザ音声区間と判断することに起因する誤認識も回避することができ、結果的に音声対話システムの誤動作を未然に防止することが可能となる。
【図面の簡単な説明】
【図1】 本発明の実施の形態にかかる音声対話システムの構成図
【図2】 本発明の実施の形態にかかる音声対話システムにおけるバージイン制御部の構成図
【図3】 本発明の実施の形態にかかる音声対話システムにおけるバージイン制御部の構成図
【図4】 本発明の実施の形態にかかる音声対話システムにおけるバージイン制御部の構成図
【図5】 本発明の実施の形態にかかる音声対話システムにおけるバージイン機能の有効/無効制御の説明図
【図6】 本発明の実施の形態にかかる音声対話システムにおけるバージイン機能の有効/無効制御の説明図
【図7】 本発明の実施の形態にかかる音声対話システムにおけるバージイン機能の有効/無効制御の説明図
【図8】 本発明の実施の形態にかかる音声対話システムにおける処理の流れ図
【図9】 コンピュータ環境の例示図
【符号の説明】
11 音響処理部
12 音声認識部
13 音声対話部
14 バージイン制御部
91 回線先の記憶装置
92 CD−ROMやフレキシブルディスク等の可搬型記録媒体
92−1 CD−ROM
92−2 フレキシブルディスク
93 コンピュータ
94 コンピュータ上のRAM/ハードディスク等の記録媒体
141 雑音特徴量抽出部
142 バージイン判定部
143 S/N抽出部
144 位置情報抽出部
145 環境評価値算出部
Claims (6)
- 入力された音信号に対して音響的な信号処理を行う音響処理部と、
音響的な信号処理後の前記音信号に含まれる音声の内容を認識する音声認識部と、
前記音声の内容に基づいて、音声出力あるいは音声出力と他の情報伝達手段との併用によって、ユーザへ情報を伝達する音声対話部と、
情報を伝達する途中に、前記音響処理部の入力又は出力あるいは外部入力からの入力信号により、音声入力が検出された場合に情報の伝達を中止するバージイン機能を有するバージイン制御部を含み、
前記バージイン制御部は、前記音響処理部の入力又は出力あるいは外部入力からの入力信号から1つ以上の特徴量を検出し、前記1つ以上の特徴量に基づいて不測のバージインが発生する可能性が高いと判断できる場合に前記バージイン機能を無効にすることによって、前記バージイン機能の有効又は無効を決定し、
前記1つ以上の特徴量のうち少なくとも1つが前記外部入力からの入力信号から検出された前記ユーザの位置情報であり、前記位置情報と環境情報に基づいて前記ユーザがいる地点の環境評価値を算出し、前記環境評価値が所定のしきい値を越えた場合に前記バージイン機能を無効にすることを特徴とする音声対話システム。 - 前記1つ以上の特徴量は、前記ユーザの位置情報に加えて、ユーザ音声のS/Nを含み、前記S/Nが所定のしきい値を越えた場合に前記バージイン機能を有効にする請求項1に記載の音声対話システム。
- 前記1つ以上の特徴量は、前記ユーザの位置情報に加えて、雑音特徴量を含み、前記雑音特徴量が所定のしきい値を越えた場合に前記バージイン機能を無効にする請求項1に記載の音声対話システム。
- 前記音声対話部が、音声あるいは他の情報伝達手段の少なくとも1つ以上を用いて、前記バージイン機能の有効または無効の状態をユーザに通知する請求項1から4のいずれか一項に記載の音声対話システム。
- 入力された音信号に対して音響的な信号処理を行う第一の工程と、
音響的な信号処理後の前記音信号に含まれる音声の内容を認識する第二の工程と、
前記音声の内容に基づいて、音声出力あるいは音声出力と他の情報伝達手段との併用によって、ユーザへ情報を伝達する第三の工程と、
情報を伝達する途中に、前記第一の工程における入力又は出力あるいは外部入力からの入力信号により、音声入力が検出された場合に情報の伝達を中止するバージイン処理を実行する第四の工程を含み、
前記第一の工程における入力又は出力あるいは外部入力からの入力信号から1つ以上の特徴量を検出し、前記1つ以上の特徴量に基づいて不測のバージインが発生する可能性が高いと判断できる場合に前記第四の工程における前記バージイン処理を無効にすることによって、前記バージイン処理の有効又は無効を決定し、
前記1つ以上の特徴量のうち少なくとも1つが前記外部入力からの入力信号から検出された前記ユーザの位置情報であり、前記位置情報と環境情報に基づいて前記ユーザがいる地点の環境評価値を算出し、前記環境評価値が所定のしきい値を越えた場合に前記バージイン機能を無効にすることを特徴とする音声対話方法。 - 入力された音信号に対して音響的な信号処理を行う第一の処理と、
音響的な信号処理後の前記音信号に含まれる音声の内容を認識する第二の処理と、
前記音声の内容に基づいて、音声出力あるいは音声出力と他の情報伝達手段との併用によって、ユーザへ情報を伝達する第三の処理と、
情報を伝達する途中に、前記第一の処理における入力又は出力あるいは外部入力からの入力信号により、音声入力が検出された場合に情報の伝達を中止するバージイン処理を含む第四の処理と、
前記第一の処理における入力又は出力あるいは外部入力からの入力信号から1つ以上の特徴量を検出し、前記1つ以上の特徴量に基づいて不測のバージインが発生する可能性が高いと判断できる場合に前記第四の処理における前記バージイン処理を無効にすることによって、前記バージイン処理の有効又は無効を決定する処理とをコンピュータに実行させ、
前記1つ以上の特徴量のうち少なくとも1つが前記外部入力からの入力信号から検出された前記ユーザの位置情報であり、前記位置情報と環境情報に基づいて前記ユーザがいる地点の環境評価値が算出され、前記環境評価値が所定のしきい値を越えた場合に前記バージイン機能の無効が決定されることを特徴とする、コンピュータ実行可能なプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002306299A JP3984526B2 (ja) | 2002-10-21 | 2002-10-21 | 音声対話システム及び方法 |
US10/687,594 US7412382B2 (en) | 2002-10-21 | 2003-10-20 | Voice interactive system and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002306299A JP3984526B2 (ja) | 2002-10-21 | 2002-10-21 | 音声対話システム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004144791A JP2004144791A (ja) | 2004-05-20 |
JP3984526B2 true JP3984526B2 (ja) | 2007-10-03 |
Family
ID=32105202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002306299A Expired - Fee Related JP3984526B2 (ja) | 2002-10-21 | 2002-10-21 | 音声対話システム及び方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7412382B2 (ja) |
JP (1) | JP3984526B2 (ja) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10251113A1 (de) * | 2002-11-02 | 2004-05-19 | Philips Intellectual Property & Standards Gmbh | Verfahren zum Betrieb eines Spracherkennungssystems |
US7966188B2 (en) * | 2003-05-20 | 2011-06-21 | Nuance Communications, Inc. | Method of enhancing voice interactions using visual messages |
JP4283212B2 (ja) * | 2004-12-10 | 2009-06-24 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 |
US7809569B2 (en) * | 2004-12-22 | 2010-10-05 | Enterprise Integration Group, Inc. | Turn-taking confidence |
US7684990B2 (en) * | 2005-04-29 | 2010-03-23 | Nuance Communications, Inc. | Method and apparatus for multiple value confirmation and correction in spoken dialog systems |
US7366672B2 (en) * | 2005-05-13 | 2008-04-29 | Nokia Corporation | Method and device for recovering interrupted voice input |
JP2007057844A (ja) * | 2005-08-24 | 2007-03-08 | Fujitsu Ltd | 音声認識システムおよび音声処理システム |
US8185400B1 (en) | 2005-10-07 | 2012-05-22 | At&T Intellectual Property Ii, L.P. | System and method for isolating and processing common dialog cues |
US7852792B2 (en) * | 2006-09-19 | 2010-12-14 | Alcatel-Lucent Usa Inc. | Packet based echo cancellation and suppression |
US9514746B2 (en) * | 2006-09-26 | 2016-12-06 | Storz Endoskop Produktions Gmbh | System and method for hazard mitigation in voice-driven control applications |
JP5074759B2 (ja) * | 2006-12-20 | 2012-11-14 | トヨタ自動車株式会社 | 対話制御装置、対話制御方法及び対話制御プログラム |
US8762143B2 (en) | 2007-05-29 | 2014-06-24 | At&T Intellectual Property Ii, L.P. | Method and apparatus for identifying acoustic background environments based on time and speed to enhance automatic speech recognition |
EP2107553B1 (en) * | 2008-03-31 | 2011-05-18 | Harman Becker Automotive Systems GmbH | Method for determining barge-in |
JP5188902B2 (ja) * | 2008-07-30 | 2013-04-24 | クラリオン株式会社 | 音声再生装置および音声再生装置の制御方法 |
JP5267982B2 (ja) * | 2008-09-02 | 2013-08-21 | Necカシオモバイルコミュニケーションズ株式会社 | 音声入力装置、雑音除去方法及びコンピュータプログラム |
TWI384423B (zh) * | 2008-11-26 | 2013-02-01 | Ind Tech Res Inst | 以聲音事件為基礎之緊急通報方法與系統以及行為軌跡建立方法 |
EP2453979B1 (en) * | 2009-07-17 | 2019-07-24 | Implantica Patent Ltd. | A system for voice control of a medical implant |
WO2011015237A1 (en) * | 2009-08-04 | 2011-02-10 | Nokia Corporation | Method and apparatus for audio signal classification |
US8639513B2 (en) * | 2009-08-05 | 2014-01-28 | Verizon Patent And Licensing Inc. | Automated communication integrator |
JP5431282B2 (ja) * | 2010-09-28 | 2014-03-05 | 株式会社東芝 | 音声対話装置、方法、プログラム |
JP5649488B2 (ja) * | 2011-03-11 | 2015-01-07 | 株式会社東芝 | 音声判別装置、音声判別方法および音声判別プログラム |
US9711162B2 (en) * | 2011-07-05 | 2017-07-18 | Texas Instruments Incorporated | Method and apparatus for environmental noise compensation by determining a presence or an absence of an audio event |
CN103187076B (zh) * | 2011-12-28 | 2017-07-18 | 上海博泰悦臻电子设备制造有限公司 | 语音式音乐控制装置 |
US9183845B1 (en) * | 2012-06-12 | 2015-11-10 | Amazon Technologies, Inc. | Adjusting audio signals based on a specific frequency range associated with environmental noise characteristics |
US8965005B1 (en) | 2012-06-12 | 2015-02-24 | Amazon Technologies, Inc. | Transmission of noise compensation information between devices |
US9288421B2 (en) * | 2012-07-12 | 2016-03-15 | Samsung Electronics Co., Ltd. | Method for controlling external input and broadcast receiving apparatus |
US9202463B2 (en) * | 2013-04-01 | 2015-12-01 | Zanavox | Voice-activated precision timing |
CN107742518B (zh) * | 2014-03-10 | 2021-10-22 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN110661927B (zh) * | 2019-09-18 | 2022-08-26 | 平安科技(深圳)有限公司 | 语音交互方法、装置、计算机设备及存储介质 |
US11848019B2 (en) * | 2021-06-16 | 2023-12-19 | Hewlett-Packard Development Company, L.P. | Private speech filterings |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57212495A (en) | 1981-06-24 | 1982-12-27 | Nissan Motor | Voice load driver for vehicle |
JPS5953400A (ja) | 1982-09-21 | 1984-03-28 | 中野 勇 | 揚降装置 |
JPS62150295A (ja) | 1985-12-24 | 1987-07-04 | 松下電器産業株式会社 | 音声認識方法 |
JP2711678B2 (ja) | 1988-06-21 | 1998-02-10 | 株式会社ゼクセル | 自動車用空調装置 |
JPH02103599A (ja) | 1988-10-13 | 1990-04-16 | Ricoh Co Ltd | 音声認識装置 |
JPH07175498A (ja) | 1993-12-20 | 1995-07-14 | Nec Corp | 音声認識応答装置 |
JP2921472B2 (ja) * | 1996-03-15 | 1999-07-19 | 日本電気株式会社 | 音声および雑音の除去装置、音声認識装置 |
US5765130A (en) * | 1996-05-21 | 1998-06-09 | Applied Language Technologies, Inc. | Method and apparatus for facilitating speech barge-in in connection with voice recognition systems |
US5956675A (en) * | 1997-07-31 | 1999-09-21 | Lucent Technologies Inc. | Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection |
US7143039B1 (en) * | 2000-08-11 | 2006-11-28 | Tellme Networks, Inc. | Providing menu and other services for an information processing system using a telephone or other audio interface |
US6952672B2 (en) * | 2001-04-25 | 2005-10-04 | International Business Machines Corporation | Audio source position detection and audio adjustment |
GB2376394B (en) * | 2001-06-04 | 2005-10-26 | Hewlett Packard Co | Speech synthesis apparatus and selection method |
US6941268B2 (en) * | 2001-06-21 | 2005-09-06 | Tellme Networks, Inc. | Handling of speech recognition in a declarative markup language |
JP2003248498A (ja) | 2002-02-25 | 2003-09-05 | Nippon Telegr & Teleph Corp <Ntt> | 音声出入力装置、音声出入力方法、及び音声出入力プログラム |
-
2002
- 2002-10-21 JP JP2002306299A patent/JP3984526B2/ja not_active Expired - Fee Related
-
2003
- 2003-10-20 US US10/687,594 patent/US7412382B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004144791A (ja) | 2004-05-20 |
US20040083107A1 (en) | 2004-04-29 |
US7412382B2 (en) | 2008-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3984526B2 (ja) | 音声対話システム及び方法 | |
JP4247002B2 (ja) | マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置 | |
US10841431B2 (en) | Detection of acoustic echo cancellation | |
US6574601B1 (en) | Acoustic speech recognizer system and method | |
US20030083874A1 (en) | Non-target barge-in detection | |
US7536006B2 (en) | Method and system for near-end detection | |
US9558757B1 (en) | Selective de-reverberation using blind estimation of reverberation level | |
KR20160009344A (ko) | 귓속말 인식 방법 및 장치 | |
US20080249779A1 (en) | Speech dialog system | |
US8761386B2 (en) | Sound processing apparatus, method, and program | |
JPWO2007080886A1 (ja) | 音声認識装置、音声認識方法、および音声認識プログラム、ならびに妨害軽減装置、妨害軽減方法、および妨害軽減プログラム | |
EP2920949B1 (en) | Echo suppression | |
US8831210B2 (en) | Method and system for detection of onset of near-end signal in an echo cancellation system | |
JP2008060938A (ja) | 通話判定装置 | |
JPWO2007083349A1 (ja) | エコー消去装置 | |
JPH10322441A (ja) | ハンズフリー電話機 | |
JPH1174822A (ja) | 音響反響制御システム、音響反響制御システムの同時通話検出器及び音響反響制御システムの同時通話制御方法 | |
JP3524370B2 (ja) | 音声起動システム | |
US8150027B2 (en) | Control of echo cancellation filters | |
US20150317980A1 (en) | Energy post qualification for phrase spotting | |
JP4888262B2 (ja) | 通話状態判定装置および該通話状態判定装置を備えたエコーキャンセラ | |
KR101842777B1 (ko) | 음질 개선 방법 및 시스템 | |
JP2017216525A (ja) | 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム | |
WO2019169272A1 (en) | Enhanced barge-in detector | |
EP2760024B1 (en) | Noise estimation control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060718 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060908 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070115 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070305 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070416 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070706 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100713 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100713 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110713 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110713 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120713 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120713 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130713 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |