JP3984526B2

JP3984526B2 - 音声対話システム及び方法

Info

Publication number: JP3984526B2
Application number: JP2002306299A
Authority: JP
Inventors: 拓也野田; 信之鷲尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-10-21
Filing date: 2002-10-21
Publication date: 2007-10-03
Anticipated expiration: 2022-10-21
Also published as: JP2004144791A; US20040083107A1; US7412382B2

Description

【０００１】
【発明の属する技術分野】
本発明は、ユーザによる音声入力の内容に応じて、音声出力あるいは音声出力と他の情報伝達手段との併用によってユーザへ情報を伝達する音声対話システムに関する。特に、音声出力あるいは音声出力と他の情報伝達手段との併用によってユーザへ情報を伝達している途中において、ユーザ音声による割り込みがあった場合、情報伝達を中断してユーザによる割り込み音声入力について処理するバージイン機能を備えた音声対話システムに関する。
【０００２】
【従来の技術】
コンピュータ技術の急速な進展に伴って、音声信号の処理に関する技術も長足の進歩を遂げている。それに伴って、インターネット等を介して急速に普及しているボイスポータルに代表される音声対話システムでは、ユーザとシステムとが擬似的な対話を行うことによって、ユーザが所望の情報を合成音声等の音声出力を介して提供している。また、次世代携帯電話や携帯端末（ＰＤＡ等）では、音声信号に加えて画像情報も扱うことができるため、音声と画像を組み合わせたマルチメディア情報を提供する音声対話システムについても、今後の進展が期待されている。
【０００３】
近年、市場に普及しつつあるボイスポータルは、ユーザビリティを向上させる目的で、ポータルサイト（音声対話システム）からの音声案内の途中であっても、ユーザが割り込みをかけて発声することが可能なバージイン機能が搭載されている場合が多い。当該バージイン機能は、ユーザによる音声入力が通信回線等を経由してシステムに入力されることにより、ユーザによる音声入力の開始を検出し、音声出力による案内等を中断して、ユーザによる音声入力を促すものである。ここで、システムへの入力がユーザ音声のみであれば、例えば入力のパワー変動等を監視することによって正確にユーザによる音声入力の開始を検出することができ、音声出力による案内等を中断することが可能であることから、バージイン機能は正常に動作する。
【０００４】
しかしながら、実際にはシステムからの音声出力による案内等が通信回線系で反射して戻る回線エコーや、ハンズフリー電話機等におけるシステムの案内音声が送話器から受話器へ回り込む音響エコー、さらにはユーザ周辺環境から混入する定常あるいは非定常な環境雑音や、通信回線系の雑音等が、ユーザ音声に重畳してシステムに入力される。かかる問題を解決するため、一般的には音響処理によるエコー抑制処理や雑音抑圧処理が行われている。
【０００５】
例えば（特許文献１）においては、入力された音声のスペクトル分析を行うことによって、音声の回り込みによるエコーを除去することができる音声対話システムが開示されている。
【０００６】
【特許文献１】
特開平９−２５２２６８号公報
【０００７】
【発明が解決しようとする課題】
上述したように、エコーについては、様々な方法を用いたエコーキャンセラにより抑圧するのが一般的であるが、通信回線系によっては完全にエコーを抑圧することができず、エコーが残留するケースが多いことも事実である。
【０００８】
また、雑音についてはノイズキャンセラで抑圧するのが一般的であるが、定常性雑音については効果的に抑圧することができるのに対して、非定常性雑音については抑圧することが困難であるという問題点もあった。
【０００９】
さらに、エコーキャンセラあるいはノイズキャンセラの双方について、その抑圧効果を高めるようにパラメタ調整を行うことが多いが、パラメタ調整を行うことによって、同時にユーザによる音声入力自体を歪ませることとなり、結果的に音声認識率が低下してしまうという問題点も残されていた。
【００１０】
そして、上記のような理由で発生する残留エコーレベルや非定常性雑音レベルが高い場合においては、従来の音声対話システムでは、バージイン機能を用いることで残留エコーや非定常性雑音をユーザによる音声入力であると誤判断してしまうことから、音声出力による案内等を停止させた上、音声認識が残留エコーや非定常性雑音を誤認識してしまう場合があり、音声対話システムの誤動作を起こす大きな要因の一つにもなっている。
【００１１】
本発明は、上記問題点を解決するために、様々なエコーや雑音に起因する不測のバージインと、それに伴う誤認識によるシステムの誤動作の両者を抑止することで、ユーザにとって利便性の高い音声対話システム及び方法を提供することを目的とする。
【００１２】
【課題を解決するための手段】
上記目的を達成するために本発明にかかる音声対話システムは、入力された音信号に対して音響的な信号処理を行う音響処理部と、音響的な信号処理後の音信号に含まれる音声の内容を認識する音声認識部と、音声の内容に基づいて、音声出力あるいは音声出力と他の情報伝達手段との併用によって、ユーザへ情報を伝達する音声対話部と、情報を伝達する途中に、音響処理部の入力又は出力あるいは外部入力からの入力信号により、情報の伝達を中止するバージイン機能を有するバージイン制御部を含み、バージイン制御部が、音響処理部の入力又は出力あるいは外部入力からの入力信号から１つ以上の特徴量を検出し、１つ以上の特徴量に基づいてバージイン機能の有効又は無効を決定することを特徴とする。
【００１３】
かかる構成により、バージイン制御部において検出される種々の特徴量に応じて、音声認識部におけるバージイン機能の有効／無効を判断することが可能となり、雑音やエコー等に起因する不測のバージインを抑止することができるとともに、雑音区間をユーザ音声区間と判断することに起因する誤認識も回避することができ、結果的に音声対話システムの誤動作を未然に防止することが可能となる。
【００１４】
また、本発明にかかる音声対話システムは、１つ以上の特徴量のうち少なくとも１つが雑音特徴量であり、雑音特徴量が所定のしきい値を越えた場合にバージイン機能を無効にすることが好ましい。雑音信号のパワー等の大小に応じてバージインを行うべきか否かを判断できるからである。
【００１５】
また、本発明にかかる音声対話システムは、１つ以上の特徴量のうち少なくとも１つがユーザ音声のＳ／Ｎであり、Ｓ／Ｎが所定のしきい値を越えた場合にバージイン機能を有効にすることが好ましい。雑音信号のＳ／Ｎの大小に応じてバージインを行うべきか否かを判断できるからである。
【００１６】
また、本発明にかかる音声対話システムは、１つ以上の特徴量のうち少なくとも１つが外部入力からの入力信号から検出されたユーザの位置情報であり、位置情報と環境情報に基づいてユーザがいる地点の環境評価値を算出し、環境評価値が所定のしきい値を越えた場合にバージイン機能を無効にすることが好ましい。ユーザの現在位置がどこであるかに基づいて、雑音信号が多い環境であるか否かを判断することができ、バージインを行うべきか否かを判断できるからである。
【００１７】
また、本発明にかかる音声対話システムは、音声対話部が、音声あるいは他の情報伝達手段の少なくとも１つ以上を用いて、バージイン機能の有効または無効の状態をユーザに通知することが好ましい。ユーザが音声出力の中途で入力することができるか否かを判断できるからである。
【００１８】
また、本発明は、上記のような音声対話システムの機能をコンピュータの処理ステップとして実行するソフトウェアを特徴とするものであり、具体的には、入力された音信号に対して音響的な信号処理を行う第一の工程と、音響的な信号処理後の音信号に含まれる音声の内容を認識する第二の工程と、音声の内容に基づいて、音声出力あるいは音声出力と他の情報伝達手段との併用によって、ユーザへ情報を伝達する第三の工程と、情報を伝達する途中に、第一の工程における入力又は出力あるいは外部入力からの入力信号により、情報の伝達を中止するバージイン機能を有する第四の工程を含み、第四の工程において、第一の工程における入力又は出力あるいは外部入力からの入力信号から１つ以上の特徴量を検出し、１つ以上の特徴量に基づいてバージイン機能の有効又は無効を決定する音声対話方法並びにそのような工程を具現化するコンピュータ実行可能なプログラムであることを特徴とする。
【００１９】
かかる構成により、コンピュータ上へ当該プログラムをロードさせ実行することで、検出される種々の特徴量に応じて、バージイン機能を有効にするか否かを判断することが可能となり、雑音やエコー等に起因する不測のバージインを抑止することができるとともに、雑音区間をユーザ音声区間と判断することに起因する誤認識も回避することができ、結果的に音声対話システムの誤動作を未然に防止することができる音声対話システムを実現することが可能となる。
【００２０】
【発明の実施の形態】
以下、本発明の実施の形態にかかる音声対話システムについて、図面を参照しながら説明する。図１は本発明の実施の形態にかかる音声対話システムの基本構成図である。
【００２１】
図１において、１１は入力された音信号に対して音響的な信号処理を行う音響処理部を、１２は入力された音信号に含まれる音声の内容を認識するとともに、合成音声等による音声出力を含む情報伝達の途中において、ユーザにより入力された音信号により、情報の伝達を中止するバージイン機能を提供する音声認識部を、１３は音声出力あるいは音声出力と他の情報伝達手段との併用によって、ユーザへ情報を伝達する音声対話部を、それぞれ示している。
【００２２】
また、１４はバージイン制御部を示しており、入力された音信号から１つ以上の特徴量を検出し、１つ以上の特徴量に基づいてバージイン機能の有効又は無効を決定するものである。
【００２３】
まず音響処理部１１は、入力された音信号に対して音響的な信号処理を行うことにより、当該音信号に含まれている様々な雑音を抑圧し、音声認識部１２における音声認識の精度を高めることになる。ここで雑音とは、例えば電話回線を用いたボイスポータルシステムの場合においては、環境雑音や電話回線網雑音等の雑音のほか、回線エコーや音響エコー等の音声の回り込み等に起因するエコー雑音が考えられる。
【００２４】
環境雑音とは、ユーザが電話をかけている周辺を取り巻く環境において発生する種々の音信号が重畳した雑音を意味する。また電話回線雑音とは、公衆回線網上、特に伝送路上や交換機上で発生する各種のノイズ信号が重畳した雑音を意味している。
【００２５】
さらに、回線エコーとは、ボイスポータルがユーザへ提供する音声出力が、電話回線上において反射することにより重畳する雑音を意味する。また音響エコーとは、例えばハンズフリー電話を使用した場合、ボイスポータルからの音声出力は電話機の送話器で拡声して再生されるため、再生された音声出力が受話器側へ筐体振動によって回り込んだり、あるいは居室内における天井や壁、床などで反射して受話器へ回り込むことで重畳する雑音を意味している。
【００２６】
音響処理部１１において、入力された音信号に含まれている上述したような雑音を抑圧するには、広く知られているノイズキャンセラ技術を利用することが多い。ノイズキャンセラ技術の代表例としては、スペクトルサブトラクション法が挙げられる。スペクトルサブトラクション法では、雑音区間において定常性雑音の振幅スペクトルを推定し、雑音区間ならびに雑音が重畳した音区間から、推定した振幅スペクトルを除去することによって雑音の抑圧を行うものである。ただし、ノイズキャンセラ技術として、これに限定されるものではない。
【００２７】
また、音響処理部１１において、入力された音信号に含まれている回線エコーや音響エコーの抑圧には、広く知られているエコーキャンセラ技術を利用することが多い。エコーキャンセラ技術の代表例としては、適応フィルタが挙げられる。適応フィルタは、ＦＩＲフィルタと呼ばれるディジタルフィルタで構成されており、エコーの発生源となる音信号である参照音（本実施の形態では音声出力信号）と入力された音信号との二乗誤差を最小とするように適応フィルタ係数を随時自動更新しながら、エコー抑圧を行うフィルタである。
【００２８】
次に、音声認識部１２は、雑音を抑圧した後の音響処理部１１の出力を入力としており、音響処理部１１の出力の特徴量を所定のしきい値と比較することによって、音響処理部１１の出力に含まれるユーザ音声信号区間を検出するように構成されている。
【００２９】
例えば、考えられる検出方法として、所定のしきい値に対して、入力された音信号の振幅あるいはパワーがしきい値を超えている区間をユーザによる音声区間と、超えていない区間を雑音区間と判定するように構成することになる。なお、音響処理部１１からの出力の特徴量については、後述するバージイン制御部１４において検出する特徴量と同一の特徴量であることが好ましいが、異なる特徴量であっても良い。
【００３０】
また、音声認識部１２は、種々の音声認識技術を用いることにより、検出したユーザによる音声区間のユーザ発話内容を認識する。そして、認識結果については、音声対話部１３へ出力することになる。
【００３１】
次に、音声対話部１３は、音声認識部１２における音声認識結果に基づいて、ユーザに対して所望の情報を出力する。出力方法（情報伝達方法）としては、合成音声等による音声出力あるいは音声出力とその他の情報伝達手段の組み合わせが考えられる。なお、「その他の情報伝達手段」とは、例えば画像、音、光、振動等による情報伝達手段を意味している。
【００３２】
また、音声対話部１３は、バージイン制御部１４においてバージイン機能が有効であると判断されており、バージインの発生が通知された場合、ユーザへの情報伝達を即座に中断する。さらに、必要に応じて音声対話部１３が、ユーザへの情報伝達区間（音声出力時間）に関する情報を音響処理部１１に出力する。
【００３３】
次に、バージイン制御部１４は、入力又は音響処理部１２の出力、あるいは外部入力のうち、少なくとも１つの特徴量を検出することによって、音声認識部１２においてバージインを行うか否か、すなわちバージイン機能を有効にするか、無効にするかを判断するものである。ここで特徴量とは、例えば雑音信号の特徴量、Ｓ／Ｎ、ユーザの位置情報等が考えられる。
【００３４】
また、バージイン制御部１４はバージイン機能を備えている。バージイン機能が有効であると判断されている場合、音響処理部１１の出力の特徴量と所定のしきい値とを比較することによって、当該バージイン機能がユーザにより入力された音信号の立ち上がり（音声入力の開始）を検出することになる。また、バージイン機能が有効であると判断されている場合には、音声対話部１３に対してバージインの発生を通知する。
【００３５】
図２は、特徴量を雑音信号の特徴量とした場合のバージイン制御部１４の構成図である。図２においては、ユーザにより入力された音信号、あるいは音響処理部１１において処理された後の音声信号の、少なくとも１つを入力としている。
【００３６】
そして、かかる入力から雑音特徴量を検出する雑音特徴量抽出部１４１と、雑音特徴量抽出部１４１で抽出された特徴量を所定のしきい値と比較することにより、バージイン機能を有効にするか否かを判定し、判定結果を音声認識部１２及び音声対話部１３、あるいは必要に応じて音響処理部１１に出力するバージイン判定部１４２を備えている。
【００３７】
雑音特徴量抽出部１４１において検出される雑音特徴量としては、例えば雑音の特徴量を数値化した雑音の振幅値、あるいはその平均値や変化量を用いることが考えられる。ただし、これらに限定されるものではなく、パワー値や振幅スペクトル値、あるいはパワースペクトル値を用いても良い。
【００３８】
また、バージイン判定部１４２において、雑音特徴量と比較する所定のしきい値は、バージイン機能がユーザにより入力された音信号の立ち上がり（音声入力の開始）を検出するために用いる音響処理部１１の出力の特徴量と比較する所定のしきい値よりも小さな値を設定することが好ましい。そうしなければ、音声出力途上に何らかの音信号（雑音だけの場合であっても）が入力されるごとにバージイン機能が有効になってしまうことから、使い勝手が悪くなってしまうからである。
【００３９】
また、雑音特徴量が当該所定のしきい値を超える場合には、雑音レベルが高く、不測のバージインが発生する可能性が高いと判断され、バージイン判定部１４２がバージイン機能を無効にするよう判断することになる。なお、バージイン判定部１４２における所定のしきい値は、固定値であっても良いし、条件に応じて動的に変化する可変値であっても良い。
【００４０】
このような構成にすることで、バージイン制御部１４において検出された雑音特徴量に応じて、バージイン機能の有効／無効を判断することが可能となり、雑音に起因する不測のバージインを抑止することができるとともに、雑音区間をユーザ音声区間と判断することに起因する誤認識も回避することができ、結果的に音声対話システムの誤動作を未然に防止することが可能となる。
【００４１】
同様に図３は、特徴量をＳ／Ｎ（Sound/Noise）とした場合のバージイン制御部１４の構成図である。図３に示すように、ユーザにより入力された音入力信号、あるいは音響処理部１１において処理された後の音声信号の、少なくとも１つを入力としている。
【００４２】
そして、かかる入力からＳ／Ｎを検出するＳ／Ｎ抽出部１４３と、Ｓ／Ｎ抽出部１４３で抽出されたＳ／Ｎを所定のしきい値と比較することにより、バージイン機能を有効にするか否かを判定し、判定結果を音声認識部１２及び音声対話部１３、あるいは必要に応じて音響処理部１１に出力するバージイン判定部１４２を備えている。
【００４３】
また、バージイン判定部１４２において、Ｓ／Ｎと比較する所定のしきい値は、バージイン機能がユーザにより入力された音信号の立ち上がり（音声入力の開始）を検出するために用いる音響処理部１１の出力の特徴量と比較する所定のしきい値よりも大きな値を設定することが好ましい。そうしなければ、音声出力途上にユーザ音声よりもレベルの高い非定常雑音が入力されるごとにバージイン機能が有効になってしまうことから、使い勝手が悪くなってしまうからである。
【００４４】
また、Ｓ／Ｎが当該所定のしきい値を超えない場合には、ユーザにより入力される音信号のＳ／Ｎが低く、レベルの高い非定常雑音による不測のバージインが発生する可能性が高いと判断され、バージイン判定部１４２がバージイン機能を無効にするように判断することになる。なお、バージイン判定部１４２における所定のしきい値は、固定値であっても良いし、条件に応じて動的に変化する可変値であっても良い。
【００４５】
このような構成にすることで、バージイン制御部１４において検出されたＳ／Ｎに応じて、バージイン機能の有効／無効を判断することが可能となり、ユーザ音声よりもレベルの高い非定常雑音に起因する不測のバージインを抑止することができるとともに、雑音区間をユーザ音声区間と判断することに起因する誤認識も回避することができ、結果的に音声対話システムの誤動作を未然に防止することが可能となる。
【００４６】
同様に図４は、特徴量をユーザの位置情報とした場合のバージイン制御部１４の構成図である。図４に示すように、ユーザにより入力される音声とは相違する、別の外部入力を入力としている。例えばＧＰＳからの位置情報等である。
【００４７】
そして、かかる入力からユーザの位置情報を検出する位置情報抽出部１４４と、位置情報抽出部１４４で抽出されたユーザの位置情報に基づいて周辺環境の評価値を算出する環境評価値算出部１４５と、環境評価値算出部１４５において算出された評価値を所定のしきい値と比較することにより、バージイン機能を有効にするか否かを判定し、判定結果を音声認識部１２及び音声対話部１３、あるいは必要に応じて音響処理部１１に出力するバージイン判定部１４２を備えている。
【００４８】
図４に示す位置情報抽出部１４４は、外部入力から、例えばＧＰＳ等によって得られるユーザの位置座標を取得することになる。そして、環境評価値算出部１４５は、位置情報抽出部１４４により抽出されたユーザの位置座標と、事前に登録しておいたマップ情報等の環境情報とを照合することによって所定の環境評価値を算出し、バージイン判定部１４２では、算出された環境評価値に基づいて、バージイン機能を有効にするか否かを判断することになる。ここでマップ情報とは、例えば環境雑音が多いと予測されるエリア（例えば幹線主要道路付近等）を高雑音エリア、環境雑音の少ないエリア（閑静な住宅街等）を低雑音エリアとして登録したエリア情報データベース等が考えられる。もちろん、これに限定されるものではない。
【００４９】
また、環境評価値としては、周辺環境における環境雑音の期待値等が考えられる。すなわち、ユーザの位置座標から現在ユーザが位置する周辺の環境を推定することができ、例えば周辺環境における環境雑音の期待値が所定のしきい値を超える場合には、環境雑音の大きな場所にいるものと判断され、不測のバージインが発生する可能性が高いと判断でき、バージイン判定部１４においてバージイン機能を無効にするように判断することになる。なお、バージイン判定部１４２における所定のしきい値は、固定値であっても良いし、条件に応じて動的に変化する可変値であっても良い。
【００５０】
このような構成にすることで、バージイン制御部１４において検出されたユーザの位置情報に基づいて算出された環境評価値に応じて、バージイン機能の有効／無効を判断することが可能となり、ユーザの周辺環境による環境雑音に起因する不測のバージインを抑止することができるとともに、雑音区間をユーザ音声区間と判断することに起因する誤認識も回避することができ、結果的に音声対話システムの誤動作を未然に防止することが可能となる。
【００５１】
また、上述した３つの特徴量抽出手段を組み合わせても良い。すなわち、バージイン制御部１４に、雑音特徴量抽出部１４１と、Ｓ／Ｎ抽出部１４３と、位置情報抽出部１４４とを設け、それぞれ雑音特徴量としきい値Ａ、Ｓ／Ｎとしきい値Ｂ、ユーザの位置情報に基づく評価値としきい値Ｃの比較を行い、バージイン機能を有効にするか否かを判断することになる。なお、本実施の形態においては、３種類の特徴量抽出手段を設ける場合について説明しているが、３種類以上設けても良く、また３種類のうちのいずれか２種を設ける構成であっても良い。
【００５２】
このように異なる種類の特徴量抽出手段を併用することで、バージイン機能を有効にするべきか否かの判断精度の向上が期待でき、不測のバージインの抑制、及び雑音区間をユーザ音声区間と判断することに起因する誤認識の抑制を、より効果的に行うことが期待できる。
【００５３】
以下、特徴量として雑音信号の特徴量を用いる場合を例に挙げて、具体的な処理について図面を参照しながら説明する。図５は、本発明の実施の形態にかかる音声対話システムであって、初期状態において音声認識部１２におけるバージイン機能が無効とされている場合の入出力状態及びバージイン機能の有効／無効の状態を示す図である。
【００５４】
図５において、バージイン制御部１４は、ユーザによる音声入力区間を除く区間において雑音特徴量を検出し、雑音特徴量に応じてバージイン機能が有効であるか否かを判断することになる。
【００５５】
ここで、バージイン機能が初期状態において無効に設定されている場合、少なくともユーザが音声対話システムへアクセスを開始した直後から、音声対話部１３における音声出力による情報伝達が終了するまでの区間、すなわち図５における区間▲１▼−Ａ及び▲１▼−Ｂにおいては、雑音特徴量に関係なくバージイン機能を無効に設定するようにする。すなわち、ユーザが音声対話システムへアクセスを開始した直後は音声対話システムにとって雑音レベルが未知であることから、雑音等による不測のバージイン発生防止を目的として、区間▲１▼−Ａ及び▲１▼−Ｂにおいてバージイン機能を無効とするものである。
【００５６】
また、バージイン制御部１４で検出する雑音特徴量は、区間▲１▼における区間▲１▼−Ａ及び▲１▼−Ｃで検出することになる。当該区間においては、環境雑音や回線網雑音等の雑音特徴量を確実に検出することができるからである。一方、区間▲１▼−Ｂでは、環境雑音や回線網雑音等の雑音に加えて、残留回線エコーや残留音響エコー等の残留エコーを重ね合わせた雑音特徴量を検出することになるため、正確さを欠くおそれも残されている。
【００５７】
なお、雑音特徴量を検出する区間としては区間▲１▼全体に限定されるものではなく、例えば区間▲１▼−Ａ、▲１▼−Ｂ、及び▲１▼−Ｃのいずれか１つの区間であっても良く、あるいは区間▲１▼−Ａ、▲１▼−Ｂ、及び▲１▼−Ｃの一部区間に限定しても良い。
【００５８】
そして、バージイン制御部１４は、区間▲１▼における雑音特徴量と所定のしきい値との比較を行い、雑音特徴量が所定のしきい値を超えた場合には、雑音レベルが高く、不測のバージインが発生する可能性が高いと判断して、バージイン機能を無効にするよう設定することになる。ただし、図５では、雑音特徴量が所定のしきい値を超えていない場合について示しており、バージイン制御部１４はバージイン機能を有効にするよう設定している。
【００５９】
なお、図５ではバージイン制御部１４が区間▲１▼−Ｂ終了後に音声認識部１２におけるバージイン機能を有効／無効のいずれかに設定するようにしているが、バージイン機能の設定タイミングはこれに限定されるものではなく、区間▲１▼における任意の位置において有効／無効のいずれかに設定するようにすれば良い。
【００６０】
次に、バージイン制御部１４は、ユーザによる音声入力区間では特徴量検出を行わず、バージイン機能は区間▲１▼−Ｂ終了後に設定した状態、すなわち有効である状態を保持している。ユーザによる音声入力が行われている間は、雑音にユーザによる音声入力が重畳するため、バージイン制御部１４における雑音特徴量は、雑音の特徴量のみを検出することが困難であることから、雑音の特徴量のみを検出できる区間▲１▼−Ｃにおいてバージイン機能を有効にするためである。
【００６１】
そして、バージイン機能が有効と設定されている場合、ユーザによる音声入力の終了後から、音声対話部１３において音声出力が開始され、所定の時間を経過した区間▲２▼において雑音特徴量を検出し、ある所定のしきい値を超えた場合、図５に示すようにバージイン機能を無効にするよう設定する。
【００６２】
なお、雑音特徴量を検出する区間を▲２▼としているが、例えば区間▲２▼−Ａあるいは▲２▼−Ｂのいずれかに限定しても良く、また区間▲２▼−Ａ及び▲２▼−Ｂの一部区間に限定しても良い。区間▲２▼において、音声対話部１３から音声出力が開始され、所定の時間を経過した区間▲２▼−Ｂは、例えば音声対話部１３から音声出力が開始されてからユーザによる音声入力が開始される（バージインの場合も含む）直前までとしても良く、予め所定の時間長さを設定しておいても良い。ただし、後者の場合、音声対話部１３から音声出力が開始され、ユーザによる音声入力によるバージインが発生する区間より短い区間を予測して設定することになる。
【００６３】
また、図５に示すように、状況に応じて動的にバージイン機能の有効／無効を切り替えるのではなく、例えば図６に示すように初期状態においてはバージイン機能が無効になるよう設定されており、条件を具備した場合に１回のみ有効になるように切り替える方法や、あるいは図７に示すように初期状態においてはバージイン機能が有効になるよう設定されており、条件を具備した場合に１回のみ無効になるように切り替える方法も考えられる。
【００６４】
ここで、初期状態においてバージイン機能が無効になるよう設定することは、ユーザが音声対話システムにアクセスした際、未知レベルの様々な雑音に対し、不測のバージイン発生を防止する効果があるからである。
【００６５】
そして、図６に示すように、バージイン制御部１４は、区間▲１▼における雑音特徴量が、例えばある所定のしきい値を超えない場合には、雑音レベルが低く、不測のバージインが発生する可能性が低いと判断して、バージイン機能が有効となるよう設定し、有効状態のまま固定することになる。なお、図６では区間▲１▼−Ｂ終了後にバージイン機能を有効にするよう設定しているが、特にこの位置に限定されるものではなく、区間▲１▼の任意の位置において、バージイン機能を有効にするよう設定しても良い。
【００６６】
また、初期状態においてバージインを有効に設定することは、音声対話システムからの音声出力による情報伝達の途中であっても、ユーザの所望のタイミングで割り込みをかけられるというメリットがある。
【００６７】
そして、バージイン制御部１４は、区間▲１▼における雑音特徴量が、例えばある所定のしきい値を超える場合には、雑音レベルが高く、不測のバージインが発生する可能性が高いと判断して、バージイン機能を無効となるよう設定し、無効状態のまま固定することになる。図７では、区間▲１▼−Ｂ終了後にバージイン機能を無効にするよう設定しているが、特にこの位置に限定されるものではなく、区間▲１▼の途中でバージイン機能が無効になるよう設定しても良い。
【００６８】
このように、初期状態から１回のみ状態を切り替えることによって、結果的に音声対話システムの誤動作を防止することが可能であるとともに、バージイン制御部１４の構成を単純化するこができ、音声対話システム全体の低コスト化を図ることも可能となる。
【００６９】
なお、前述した適応フィルタを用いる場合には、以下のような問題に留意する必要がある。すなわち、一般に適応フィルタは、入力される音信号と参照音信号とが相関が低いことを前提としており、適応アルゴリズムを用いた適応処理によって、逐次ＦＩＲフィルタ係数を更新するものである。しかし、実際の入力音はエコー音だけではなく、場合によってはユーザによる音声自体が重畳する場合もある。この場合、同一の音声の回り込み等であることから相関が高くなってしまうため、音響処理部１２が適応フィルタを備えている場合には適応処理によって誤ったフィルタ係数に更新してしまい、エコー抑圧効果が低減するとともに、ユーザにより入力された音声自体を歪ませることになり、ユーザにより入力された音声の内容を認識できないという問題である。
【００７０】
したがって、バージイン機能が無効となるように設定されている場合、適応フィルタによる適応処理区間を、音声対話部１３から音声出力している音声情報伝達区間のみに限定し、非音声情報伝達区間では適応処理を行わないようにする必要がある。
【００７１】
このようにすることで、音声対話部１３が音声出力している情報伝達区間においてはバージインが発生しないため、エコー音にユーザによる入力音声が重畳することがなく、適応処理及び適応フィルタ係数の更新が正常に行われるとともに、ユーザによる入力音声自体が歪むこともなく、雑音であるエコー音のみを抑圧することが可能となる。
【００７２】
さらに、音響処理部１１が適応フィルタによって構成されている場合、バージイン機能が有効となるよう設定されていると、音声対話部１３からの音声出力開始から所定の時間までの区間に限定して、適応フィルタによる適応処理とそれにかかる適応フィルタ係数の更新を行うようにする。
【００７３】
ここで「所定の時間」とは、長くとも音声対話部１３からの音声出力の開始時刻から、ユーザによる音声入力によるバージイン開始時刻までの時間であれば良く、あるいは事前に設定した時間であっても良い。ただし、後者の場合、ユーザによる音声入力によるバージイン開始より短い時間を推定して設定する必要がある。
【００７４】
このようにすることで、音響処理部１１における適応処理と適応フィルタ係数の更新が、音声対話部１３が音声出力を開始してから長くともユーザによるバージインが発生するまでの区間に限定して行われることから、雑音であるエコー音にユーザ音声が重畳することが無く、適応処理と適応フィルタ係数の更新が正常に行われるとともに、ユーザによる入力音声自体が歪むこともなく、雑音であるエコー音のみを抑圧することが可能となる。
【００７５】
次に、本発明の実施の形態にかかる音声対話システムを実現するプログラムの処理の流れについて説明する。図８に本発明の実施の形態にかかる音声対話システムを実現するプログラムの処理の流れ図を示す。
【００７６】
図８において、まずユーザにより入力された音声信号を受信し（ステップＳ８０１）、音響的な信号処理を行うことにより、当該音声信号に含まれている様々な雑音を抑圧する（ステップＳ８０２）。
【００７７】
次に、雑音抑圧後の音声信号について、その特徴量を抽出し（ステップＳ８０３）、抽出された特徴量を所定のしきい値と比較する（ステップＳ８０４）。特徴量が所定のしきい値よりも大きい場合には（ステップＳ８０４：Ｙｅｓ）、当該区間をユーザによる音声信号区間として検出することになる（ステップＳ８０５）。特徴量が所定のしきい値以下である場合には（ステップＳ８０４：Ｎｏ）、当該区間をユーザによる雑音信号区間として検出することになる（ステップＳ８０８）。
【００７８】
ユーザによる音声信号区間として検出された区間については、種々の音声認識技術を用いることによって、発話内容を認識する（ステップＳ８０６）。そして、認識結果に対応してユーザに伝達するべき情報が、ユーザに対して音声出力によって伝達される（ステップＳ８０７）。
【００７９】
一方、雑音信号区間として検出された区間については、少なくとも１種類の特徴量を抽出する（ステップＳ８０９）。そして、抽出された特徴量を所定のしきい値と比較して（ステップＳ８１０）、所定のしきい値より大きい場合には（ステップＳ８１０：Ｙｅｓ）バージイン機能を有効にし（ステップＳ８１１）、所定のしきい値以下である場合には（ステップＳ８１０：Ｎｏ）バージイン機能を無効にする（ステップＳ８１５）。なお、特徴量の種類によっては、所定のしきい値を超えていない場合にバージイン機能を有効にし、超えている場合に無効にするよう制御される。
【００８０】
次に、バージイン機能が有効である場合には（ステップＳ８１１）、継続して入力されている雑音抑圧後の音声信号について、その特徴量を所定のしきい値と比較する等して、ユーザによる音声入力の開始を検出する（ステップＳ８１２）。同時に、音声対話部１３に対してバージインの発生を通知する（ステップＳ８１３）。
【００８１】
そして、バージイン機能が有効であると判断されており（ステップＳ８１１）、かつバージインの発生が通知された場合（ステップＳ８１３）、ユーザへの音声出力が中断される（ステップＳ８１４）。
【００８２】
なお、本発明の実施の形態にかかる音声対話システムを実現するプログラムは、図９に示すように、ＣＤ−ＲＯＭ９２−１やフレキシブルディスク９２−２等の可搬型記録媒体９２だけでなく、通信回線の先に備えられた他の記憶装置９１や、コンピュータ９３のハードディスクやＲＡＭ等の記録媒体９４のいずれに記憶されるものであっても良く、プログラム実行時には、プログラムはローディングされ、主メモリ上で実行される。
【００８３】
また、本発明の実施の形態にかかる音声対話システムにより用いられる各特徴量に対応したバージイン機能の有効／無効判断のためのしきい値データ等についても、図９に示すように、ＣＤ−ＲＯＭ９２−１やフレキシブルディスク９２−２等の可搬型記録媒体９２だけでなく、通信回線の先に備えられた他の記憶装置９１や、コンピュータ９３のハードディスクやＲＡＭ等の記録媒体９４のいずれに記憶されるものであっても良く、例えば本発明にかかる音声対話システムを利用する際にコンピュータ９３により読み取られる。
【００８４】
【発明の効果】
以上のように本発明にかかる音声対話システムによれば、バージイン制御部において検出される種々の特徴量に応じて、バージイン機能の有効／無効を判断することが可能となり、雑音やエコー等に起因する不測のバージインを抑止することができるとともに、雑音区間をユーザ音声区間と判断することに起因する誤認識も回避することができ、結果的に音声対話システムの誤動作を未然に防止することが可能となる。
【図面の簡単な説明】
【図１】本発明の実施の形態にかかる音声対話システムの構成図
【図２】本発明の実施の形態にかかる音声対話システムにおけるバージイン制御部の構成図
【図３】本発明の実施の形態にかかる音声対話システムにおけるバージイン制御部の構成図
【図４】本発明の実施の形態にかかる音声対話システムにおけるバージイン制御部の構成図
【図５】本発明の実施の形態にかかる音声対話システムにおけるバージイン機能の有効／無効制御の説明図
【図６】本発明の実施の形態にかかる音声対話システムにおけるバージイン機能の有効／無効制御の説明図
【図７】本発明の実施の形態にかかる音声対話システムにおけるバージイン機能の有効／無効制御の説明図
【図８】本発明の実施の形態にかかる音声対話システムにおける処理の流れ図
【図９】コンピュータ環境の例示図
【符号の説明】
１１音響処理部
１２音声認識部
１３音声対話部
１４バージイン制御部
９１回線先の記憶装置
９２ＣＤ−ＲＯＭやフレキシブルディスク等の可搬型記録媒体
９２−１ＣＤ−ＲＯＭ
９２−２フレキシブルディスク
９３コンピュータ
９４コンピュータ上のＲＡＭ／ハードディスク等の記録媒体
１４１雑音特徴量抽出部
１４２バージイン判定部
１４３Ｓ／Ｎ抽出部
１４４位置情報抽出部
１４５環境評価値算出部

Claims

入力された音信号に対して音響的な信号処理を行う音響処理部と、
音響的な信号処理後の前記音信号に含まれる音声の内容を認識する音声認識部と、
前記音声の内容に基づいて、音声出力あるいは音声出力と他の情報伝達手段との併用によって、ユーザへ情報を伝達する音声対話部と、
情報を伝達する途中に、前記音響処理部の入力又は出力あるいは外部入力からの入力信号により、音声入力が検出された場合に情報の伝達を中止するバージイン機能を有するバージイン制御部を含み、
前記バージイン制御部は、前記音響処理部の入力又は出力あるいは外部入力からの入力信号から１つ以上の特徴量を検出し、前記１つ以上の特徴量に基づいて不測のバージインが発生する可能性が高いと判断できる場合に前記バージイン機能を無効にすることによって、前記バージイン機能の有効又は無効を決定し、
前記１つ以上の特徴量のうち少なくとも１つが前記外部入力からの入力信号から検出された前記ユーザの位置情報であり、前記位置情報と環境情報に基づいて前記ユーザがいる地点の環境評価値を算出し、前記環境評価値が所定のしきい値を越えた場合に前記バージイン機能を無効にすることを特徴とする音声対話システム。
前記１つ以上の特徴量は、前記ユーザの位置情報に加えて、ユーザ音声のＳ／Ｎを含み、前記Ｓ／Ｎが所定のしきい値を越えた場合に前記バージイン機能を有効にする請求項１に記載の音声対話システム。
前記１つ以上の特徴量は、前記ユーザの位置情報に加えて、雑音特徴量を含み、前記雑音特徴量が所定のしきい値を越えた場合に前記バージイン機能を無効にする請求項１に記載の音声対話システム。
前記音声対話部が、音声あるいは他の情報伝達手段の少なくとも１つ以上を用いて、前記バージイン機能の有効または無効の状態をユーザに通知する請求項１から４のいずれか一項に記載の音声対話システム。
入力された音信号に対して音響的な信号処理を行う第一の工程と、
音響的な信号処理後の前記音信号に含まれる音声の内容を認識する第二の工程と、
前記音声の内容に基づいて、音声出力あるいは音声出力と他の情報伝達手段との併用によって、ユーザへ情報を伝達する第三の工程と、
情報を伝達する途中に、前記第一の工程における入力又は出力あるいは外部入力からの入力信号により、音声入力が検出された場合に情報の伝達を中止するバージイン処理を実行する第四の工程を含み、
前記第一の工程における入力又は出力あるいは外部入力からの入力信号から１つ以上の特徴量を検出し、前記１つ以上の特徴量に基づいて不測のバージインが発生する可能性が高いと判断できる場合に前記第四の工程における前記バージイン処理を無効にすることによって、前記バージイン処理の有効又は無効を決定し、
前記１つ以上の特徴量のうち少なくとも１つが前記外部入力からの入力信号から検出された前記ユーザの位置情報であり、前記位置情報と環境情報に基づいて前記ユーザがいる地点の環境評価値を算出し、前記環境評価値が所定のしきい値を越えた場合に前記バージイン機能を無効にすることを特徴とする音声対話方法。
入力された音信号に対して音響的な信号処理を行う第一の処理と、
音響的な信号処理後の前記音信号に含まれる音声の内容を認識する第二の処理と、
前記音声の内容に基づいて、音声出力あるいは音声出力と他の情報伝達手段との併用によって、ユーザへ情報を伝達する第三の処理と、
情報を伝達する途中に、前記第一の処理における入力又は出力あるいは外部入力からの入力信号により、音声入力が検出された場合に情報の伝達を中止するバージイン処理を含む第四の処理と、
前記第一の処理における入力又は出力あるいは外部入力からの入力信号から１つ以上の特徴量を検出し、前記１つ以上の特徴量に基づいて不測のバージインが発生する可能性が高いと判断できる場合に前記第四の処理における前記バージイン処理を無効にすることによって、前記バージイン処理の有効又は無効を決定する処理とをコンピュータに実行させ、
前記１つ以上の特徴量のうち少なくとも１つが前記外部入力からの入力信号から検出された前記ユーザの位置情報であり、前記位置情報と環境情報に基づいて前記ユーザがいる地点の環境評価値が算出され、前記環境評価値が所定のしきい値を越えた場合に前記バージイン機能の無効が決定されることを特徴とする、コンピュータ実行可能なプログラム。