JP4552368B2

JP4552368B2 - 機器制御システム、音声認識装置及び方法、並びにプログラム

Info

Publication number: JP4552368B2
Application number: JP2001242995A
Authority: JP
Inventors: 滋加福
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2001-08-09
Filing date: 2001-08-09
Publication date: 2010-09-29
Anticipated expiration: 2021-08-09
Also published as: JP2003058184A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識結果に基づいて機器を制御する機器制御システム、及び、このような機器制御システムに適用して好適な音声認識装置等に関する。
【０００２】
【従来の技術】
従来の音声認識装置では、話者が発声した音声を分析して得られた特徴を基に音素モデルを参照し、音響的にどの単語の発生確率が高いかを示す尤度を求めている。さらに尤度が最も高い単語が言語的に正しいかを検証するための言語モデルを参照して言語的な発生確率を求め、音響的な発生確率と言語的な発生確率とを組み合わせて最適と考えられる単語を、音声認識結果として出力している。
【０００３】
このような音声認識装置の適用範囲としては様々なものが従来から知られているが、そのうちの１つとして家電機器などの動作を制御するシステムが知られている。このようなシステムでは、制御対象となる機器を１つだけとしているものもあるが、１つの制御装置で複数の機器を制御するものもある。
【０００４】
【発明が解決しようとする課題】
ところで、従来の音声認識装置では、話者が発した音声の音響的特徴と言語的特徴だけで音声認識を行っているため、言語モデルの精度がよくないと、本来認識されるべき発話内容（単語）を棄却したり、棄却すべき発話内容が棄却されないといった認識処理の誤りが生じることとなる。
【０００５】
また、上記の複数の家電機器を制御するシステムで適用した場合、機器名が様々であっても、その動作としては共通していることが多い。このため、機器名だけが誤って認識されたとしても言語的な特徴として矛盾が生じないものとなってしまう。例えば「風呂を入れる」も「エアコンを入れる」も言語的な特徴として何の問題もない。このため、話者が「エアコンを入れる」と発したのにも関わらず、機器名だけが誤って認識されて「風呂を入れる」という音声認識結果が誤って得られたとすると、話者の意思とは関係なく、風呂の電源が入ってしまうこととなる。
【０００６】
本発明は、上記従来技術の問題点を解消するためになされたものであり、環境条件に応じて単語が発せられる確率を考慮することで、精度の高い音声認識結果を得ることができる音声認識装置等を提供することを目的とする。
【０００７】
本発明は、また、環境条件に合わせた正確な音声認識を行うことで、制御対象となる機器が誤動作することを防ぐことができる機器制御システムを提供することを目的とする。
【０００８】
【課題を解決するための手段】
上記目的を達成するため、本発明の第１の観点にかかる機器制御システムは、
音声入力手段に接続され、該音声入力手段から入力された音声を音声認識して、その音声認識結果を出力する音声認識手段と、制御対象となる機器に接続され、前記音声認識手段の音声認識結果に基づいて前記機器を制御する機器制御手段とを備える機器制御システムであって、
前記音声認識手段は、
認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段と、
認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を格納した単語辞書格納手段と、
前記単語辞書格納手段に格納された各単語が環境条件によって発話される確率をモデル化した環境モデルを格納した環境モデル格納手段と、
前記音声入力手段から入力された音声を前記音素モデル及び前記単語辞書を参照して、前記単語辞書に登録された各種類の単語の最大音響尤度を算出し、該算出した音響尤度に対応する単語を、認識結果として出力される単語の候補として選出する単語候補選出手段と、
環境条件を検知する検知手段に接続され、該検知手段が検知した環境条件に従って前記環境モデルを参照して、前記単語候補選出手段が候補として選出した単語の環境尤度を算定する環境尤度算出手段と、
前記単語候補選出手段が算出した音響尤度と前記環境尤度算出手段が算出した環境尤度に基づいて単語尤度を算出するとともに、前記単語候補選出手段が連続して同じ単語を候補として選出した場合、または一定期間に一定回数以上同じ単語を候補として選出した場合には、前記環境尤度の重みを小さくして単語尤度を算出する単語尤度算出手段と、
前記単語尤度算出手段が算出した単語尤度が所定の範囲にあるかどうかを判定する単語尤度判定手段と、
前記単語尤度判定手段が所定の範囲にあると判定したときに、前記単語候補選出手段が候補として選出した単語を音声認識結果として、前記機器制御手段に出力する結果出力手段とを備える
ことを特徴とする。
【０００９】
上記機器制御システムにおいて、音声認識手段は、環境モデル格納手段を備え、環境条件を考慮して音声認識を行っている。このため、環境条件にそぐわないような音声認識結果が誤って得られることがなくなり、制御対象となる機器を誤動作させることがない。
【００１０】
上記目的を達成するため、本発明の第２の観点にかかる音声認識装置は、
認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段と、
認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を格納した単語辞書格納手段と、
前記単語辞書格納手段に格納された各単語が環境条件によって発話される確率をモデル化した環境モデルを格納した環境モデル格納手段と、
入力された音声を前記音素モデル及び前記単語辞書を参照して、前記単語辞書に登録された各種類の単語の最大音響尤度を算出し、該算出した音響尤度に対応する単語を、認識結果として出力される単語の候補として選出する単語候補選出手段と、
環境条件を検知する検知手段に接続され、該検知手段が検知した環境条件に従って前記環境モデルを参照して、前記単語候補選出手段が候補として選出した単語の環境尤度を算出する環境尤度算出手段と、
前記単語候補選出手段が算出した音響尤度と前記環境尤度算出手段が算出した環境尤度に基づいて単語尤度を算出するとともに、前記単語候補選出手段が連続して同じ単語を候補として選出した場合、または一定期間に一定回数以上同じ単語を候補として選出した場合には、前記環境尤度の重みを小さくして単語尤度を算出する単語尤度算出手段と、
前記単語尤度算出手段が算出した単語尤度が所定の範囲にあるかどうかを判定する単語尤度判定手段と、
前記単語尤度判定手段が所定の範囲にあると判定したときに、前記単語候補選出手段が候補として選出した単語を音声認識結果として出力する結果出力手段と
を備えることを特徴とする。
【００１１】
上記音声認識装置では、候補の単語の音響尤度だけに基づいて音声認識結果を出力するのではなく、環境尤度算出手段が求めた環境尤度を考慮した単語尤度に基づいて音声認識結果を出力するようにしている。このため、環境条件にそぐわないような音声認識結果が出力されることがなく、音声認識の精度を高くすることができる。
【００１２】
上記音声認識装置において、
前記環境モデル格納手段は、複数種類の環境モデルを格納していてもよい。この場合において、
前記環境尤度算出手段は、複数種類の環境モデルのそれぞれに基づく環境尤度を算出し、該算出した各環境尤度から環境尤度を算出するものとすることができる。
【００１３】
この場合には、複数の環境条件に従って環境尤度を求めることが可能となり、さらに音声認識の精度を高くすることができる。
【００１４】
上記音声認識装置において、
前記単語候補選出手段は、音響尤度の大きいものから複数の単語を候補として選出し、
前記環境尤度算出手段は、前記単語候補選出手段が候補として選出した複数の単語のそれぞれについて環境尤度を算出し、
前記単語尤度算出手段は、複数の単語のそれぞれについて音響尤度と環境尤度に基づいて、単語毎の環境尤度を算出することができる。この場合において、
前記結果出力手段は、前記単語尤度算出手段が算出した単語尤度が最も高い単語であって、前記単語尤度判定手段が所定の範囲にあると判定した単語を音声認識結果として出力するものとすることができる。
【００１５】
この場合には、音声認識結果として何も出力されないというような場合を少なくすることができる。
【００１８】
上記音声認識装置において、
前記音素モデルは、例えば、認識対象となる音声に含まれる各音素を隠れマルコフモデルでモデル化したものであってもよい。この場合、
前記単語候補選出手段は、前記入力された音声を所定時間を単位として複数の区間に分割し、該分割した区間のうちの音声区間について音響特徴ベクトルを求め、各区間の音響特徴ベクトルと前記音素モデルとに基づいて連続音素認識を行い、各フレームでの音響尤度の合計が最大となる単語を候補として選出するものとすることができる。
【００１９】
上記目的を達成するため、本発明の第３の観点にかかる音声認識方法は、
入力された音声を、認識対象となる音声に含まれる各音素をモデル化した音素モデル及び認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を参照して、前記単語辞書に登録された各種類の単語の最大音響尤度を算出し、該算出した音響尤度に基づいて、認識結果として出力される単語の候補を選出する単語候補選出ステップと、
環境条件を検知する検知手段に接続され、該検知手段が検知した環境条件に従って、各単語が環境条件によって発話される確率をモデル化した環境モデルを参照して、前記単語候補選出ステップで候補として選出した単語の環境尤度を算出する環境尤度算出ステップと、
前記単語候補選出ステップで算出した音響尤度と前記環境尤度算出ステップで算出した環境尤度に基づいて単語尤度を算出するとともに、前記単語候補選出ステップで連続して同じ単語を候補として選出した場合、または一定期間に一定回数以上同じ単語を候補として選出した場合には、前記環境尤度の重みを小さくして単語尤度を算出する単語尤度算出ステップと、
前記単語尤度算出ステップで算出した単語尤度が所定の範囲にあるかどうかを判定する単語尤度判定ステップと、
前記単語尤度判定ステップで所定の範囲にあると判定したときに、前記単語候補選出ステップで候補として選出した単語を音声認識結果として出力する結果出力ステップと
を含むことを特徴とする。
【００２０】
上記目的を達成するため、本発明の第４の観点にかかるプログラムは、
入力された音声を、認識対象となる音声に含まれる各音素をモデル化した音素モデル及び認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を参照して、前記単語辞書に登録された各種類の単語の最大音響尤度を算出し、該算出した音響尤度に基づいて、認識結果として出力される単語の候補を選出する単語候補選出手段、
環境条件を検知する検知手段に接続され、該検知手段が検知した環境条件に従って、各単語が環境条件によって発話される確率をモデル化した環境モデルを参照して、前記単語候補選出手段が候補として選出した単語の環境尤度を算出する環境尤度算出手段、
前記単語候補選出手段が算出した音響尤度と前記環境尤度算出手段が算出した環境尤度とに基づいて単語尤度を算出するとともに、前記単語候補選出手段が連続して同じ単語を候補として選出した場合、または一定期間に一定回数以上同じ単語を候補として選出した場合には、前記環境尤度の重みを小さくして単語尤度を算出する単語尤度算出手段、
前記単語尤度算出手段が算出した単語尤度が所定の範囲にあるかどうかを判定する単語尤度判定手段、
前記単語尤度判定手段が所定の範囲にあると判定したときに、前記単語候補選出手段が候補として選出した単語を音声認識結果として出力する結果出力手段
としてコンピュータ装置を機能させることを特徴とする。
【００２１】
【発明の実施の形態】
以下、添付図面を参照して、本発明の実施の形態について説明する。
【００２２】
図１は、この実施の形態にかかる家電機器制御システムの構成を示すブロック図である。図示するように、この家電機器制御システムは、サーバ装置１と、家電機器２と、マイクロフォン３と、スピーカ４と、電話機５とを備えている。これらは室内に置かれているが、住人が室外にいるときも、携帯電話機６から携帯電話網７を介して電話機５に接続して、家電機器２を遠隔制御することができるようになっている。
【００２３】
サーバ装置１は、家電機器２を制御するための音声を入力するマイクロフォン３と、家電機器２の制御動作に応じた音声を出力するスピーカ４と、携帯電話網７を介して携帯電話機６その他の電話機と通話を行う電話機５とに接続されている。サーバ装置１は、家電機器リモート制御部１１と、音声認識部１２と、音声合成部１３とを備えている。
【００２４】
家電機器リモート制御部１１は、家電機器ネットワーク２０を介して家電機器２にそれぞれ接続され、音声認識部１２の音声認識結果に応じて家電機器２を制御する。音声認識部１２は、マイクロフォン３から入力された音声、または電話機５が受信した音声を音声認識し、その結果を家電機器リモート制御部１１と音声合成部１３とに出力する。音声認識部１２の詳細に構成については後述する。
音声合成部１３は、音声認識部１２の音声認識結果に基づく家電機器２の制御動作に応じた音声を確認のためにスピーカ４から出力し、或いは電話機５から接続状態にある携帯電話機６に送信させる。
【００２５】
家電機器２は、家電機器リモート制御部１１による制御対象となる機器であり、ここでは、テレビ２−１、エアコン２−２、ステレオ２−３及び照明２−４が含まれている。制御対象となる家電機器２であるテレビ２−１、エアコン２−２、ステレオ２−３及び照明２−４は、それぞれ家電機器ネットワーク２０を介してサーバ装置１の家電機器リモート制御部１１に接続される。
【００２６】
電話機５は、自動応答機能を備え、携帯電話網７を介して携帯電話機６との間で呼が設定されると、家電機器２を制御するための音声を受信して、音声認識部１２に渡す。また、音声合成部１３が合成した音声を携帯電話網７を介して携帯電話機６に送信する。
【００２７】
図２は、図１の音声認識部１２の構成を示すブロック図である。Ａ／Ｄ変換器１０１と、音声データ格納部１０２と、パワー算出部１０３と、音声区間検出部１０４と、音声特徴抽出部１０５と、音素モデル格納部１０６と、単語辞書格納部１０７と、音響尤度計算部１０８と、環境モデル格納部２００と、環境尤度計算部２１０と、尤度評価部２２１と、出力部２２２とを備えている。
【００２８】
Ａ／Ｄ変換器１０１は、不特定話者から入力された音声（アナログ信号）をアナログ／デジタル変換して、この音声を時系列で示すデジタル音声信号（例えば、ＰＣＭ信号）に出力する。音声データ格納部１０２は、Ａ／Ｄ変換器１０１から出力されたデジタル音声信号を格納する。
【００２９】
パワー算出部１０３は、音声データ格納部１０２に格納されたデジタル音声信号を、所定の時間間隔（２．０〜４．０ミリ秒）で音声データを、時間窓などのハミング窓によって複数のフレームに区分し、区分した各フレームから音声データを切り出してパワー成分を求める。音声区間検出部１０４は、パワー算出部１０３が算出したパワー成分が所定の閾値を超えたフレームを音声区間として検出する。例えば、１秒以内にパワー成分が閾値を下回ったフレームは、音声区間としない。音声特徴抽出部１０５は、音声区間検出部１０４が検出した音声区間について、それぞれパワー算出部１０３が算出したパワー成分に基づいて音響特徴ベクトルＸ（ｔ）を計算する。
【００３０】
音素モデル格納部１０６は、認識対象となる音声を構成する全ての音素をモデル化した音素モデルを格納している。音素モデルとしては、例えば隠れマルコフモデル（ＨＭＭ）が適用される。単語辞書格納部１０７は、単語毎の音素パターン系列情報を登録した単語辞書を格納している。この単語辞書は、例えば、“テレビ”という単語について、ｔ→ｅ→ｒ→ｅ→ｂ→ｉという音素パターン系列を登録している。
【００３１】
音響尤度計算部１０８は、音響特徴ベクトルＸ（ｔ）とＨＭＭによる音素モデルとを参照してフレーム毎の連続音素認識を行い、各フレームの音響尤度の合計が最大となるものを暫定的に候補の単語として抽出する。
【００３２】
環境モデル格納部２００は、制御対象となる家電機器２を操作するための音声として、室内環境によって単語（短い文章となる場合を含む）がどのような確率で統計的に発音されるかを示す統計的発音モデルを格納するものである。ここでは、環境モデルとして時間モデル、温度モデル、照度モデルを用意しており、それぞれ時間モデル格納部２０１、温度モデル格納部２０２、照度モデル格納部２０３に格納している。
【００３３】
図３（ａ）〜（ｃ）は、環境モデルをグラフにして示したものであり、それぞれ時間モデル、温度モデル及び照度モデルを示している。図３（ａ）に示す時間モデルは、単語辞書格納部１０７の単語辞書に登録されている単語毎に、一日２４時間のうちの時間に従って発音されやすい確率を表したモデルである。図３（ｂ）に示す温度モデルは、単語辞書に登録されている単語毎に、室内温度に従って発音されやすい確率を表したモデルである。図３（ｃ）に示す照度モデルは、単語辞書に登録されている単語毎に、室内の明るさに従って発音されやすい確率を表したモデルである。
【００３４】
例えば、「エアコンを入れる」という単語は、特に時間によって発音される確率が変化する単語であり、図３（ａ）の時間モデルに示すように、発音される頻度の高い時間帯で確率が高くなっている。但し、発音される頻度が低い時間帯でも、時間モデル、温度モデル及び照度モデルにおいて、確率が０となることはない。
【００３５】
なお、後述するように音声合成部１３で合成された音声に対する応答として発音される「はい」または「いいえ」といった単語は、環境条件によって発音される確率が影響を受けないので、時間モデル、温度モデル及び照度モデルにおいて発音される確率が一定に設定されている。また、図３（ａ）〜（ｃ）に示した発音される確率は季節や曜日によって変化することがあるので、季節や曜日によって異なる時間モデル、温度モデルおよび／または照度モデルを用いるものとしてもよい。
【００３６】
なお、図４は、環境モデル格納部２００のデータ構造を、時間モデルを例として示している。すなわち、単語毎に、時間と発音されやすさの確率（時間環境尤度）を対応付けて記憶するものである。例えば、「エアコンを入れる」という単語が１：００に発話されたときの時間環境尤度は、０．１２ということとなる。
【００３７】
図２に示す環境尤度計算部２１０は、室内に設けられた計時部３０１、温度センサ３０２及び照度センサ３０３に接続されている。計時部３０１は、時計が計時している時間に応じた信号を入力するものである。温度センサ３０２は、室内の温度を検知するセンサであり、照度センサ３０３は、室内の照度を検知するセンサである。
【００３８】
環境尤度計算部２１０は、音響尤度計算部１０８が候補とした単語について、計時部３０１が計時している時間に基づいて時間モデル格納部２０１を参照し、時間環境尤度を取得する。また、その候補の単語について、温度センサ３０２が検知した温度に基づいて温度モデル格納部２０２を参照し、温度環境尤度を取得する。また、その候補の単語について、照度センサ３０３が検知した照度に基づいて照度モデル格納部２０３を参照し、照度環境尤度を取得する。
【００３９】
環境尤度計算部２１０は、こうして取得した時間環境尤度、温度環境尤度及び照度環境尤度を用いて次式に示す演算を行い、その演算結果を環境尤度として求める。
【数１】
（環境尤度）＝（時間環境尤度）×（温度環境尤度）×（照度環境尤度）
【００４０】
尤度評価部２２１は、音響尤度計算部１０８が求めた音響尤度と環境尤度計算部２１０が求めた環境尤度を用いて次式に示す演算を行い、その演算結果を単語尤度として求める。
【数２】
（単語尤度）＝（音響尤度）×（環境尤度）
【００４１】
尤度評価部２２１は、こうして求めた単語尤度が予め定められた閾値Ｍよりも大きいかどうかを判定し、単語尤度が閾値Ｍよりも大きい場合には、音響尤度計算部１０８が候補として抽出した単語を出力部２２２に渡す。単語尤度が閾値Ｍ以下であった場合には、当該単語を棄却する。出力部２２２は、尤度評価部２２１から渡された単語を、最終的な音声認識結果として家電機器リモート制御部１１と音声合成部１３とに出力する。
【００４２】
なお、上記の音声認識部１２を含むサーバ装置１は、パーソナルコンピュータなどの汎用コンピュータをプラットフォームとして実現することができる。音声データ格納部１０２、音素モデル格納部１０６、単語辞書格納部１０７、環境モデル格納部２００は、それぞれに対応した領域がメモリに確保されることによって実現される。音素モデル格納部１０６が格納する音素モデル、単語辞書格納部１０７が格納する単語辞書、環境モデル格納部２００が格納する各環境モデルは、音声認識処理を行う前に予め外部装置から読み込まれてメモリに記憶される。
パワー算出部１０３、音声区間検出部１０４、音声特徴抽出部１０５、音響尤度計算部１０８、環境尤度計算部２１０及び尤度評価部２２１は、ＣＰＵ（Central Processing Unit）がメモリに記憶されたプログラムを実行することによって実現される。
【００４３】
以下、この実施の形態にかかる家電機器制御システムの動作について説明する。
【００４４】
図５は、この実施の形態にかかる家電機器制御システムにおいてサーバ装置１が実行する処理を示すフローチャートである。まず、住人が家電機器２のうちのいずれかに何らかの動作を行わせようとする場合、その行わせたい動作に応じた単語を音声でマイクロフォン３から入力する。住人が外出している場合には、携帯電話機６から電話機５に電話をかけ、電話機５からの応答に従って、家電機器２に行わせたい動作に応じた単語を携帯電話機６から遠隔入力する（ステップＳ１０１）。
【００４５】
家電機器２に行わせた動作に応じた単語が音声で入力されると、音声認識部１２は、その音声を音声認識する（ステップＳ１０２）。なお、音声認識部１１音声認識部１２による音声認識の処理の詳細については後述する。そして、この音声認識処理において、後述するように音声認識結果として何らかの単語が出力されたかどうかを判定する（ステップＳ１０３）。
【００４６】
ステップＳ１０２の音声認識処理において何らかの単語が出力されていた場合には、その単語が確認としての応答である「はい」または「いいえ」（これらと同等の意味を有する単語、例えば「イエス」や「ノー」といったものを含む）であったかどうかを判定する（ステップＳ１０４）。
【００４７】
出力された単語が「はい」でも「いいえ」でもないと判定された場合は、その単語は、家電機器２のいずれかにさせようとする動作を指示したものである。そこで、家電機器リモート制御部１１は、当該出力された単語を一時保存する（ステップＳ１０５）。また、音声合成部１３は、当該出力された単語を音声合成してスピーカ４から出力する。但し、ステップＳ１０１で音声が遠隔入力された場合には、電話機５から携帯電話網７を介して音声信号を送信し、携帯電話機６から出力させる（ステップＳ１０６）。そして、処理を終了して、次の音声入力の待ち状態となる。
【００４８】
なお、ステップＳ１０５で家電機器リモート制御部１１内に保存された単語は、後述するステップＳ１１１において破棄される他、次の音声入力が一定期間されない場合も破棄される。また、次に音声入力待ちの状態となった後に、ステップＳ１０５で新たな単語が保存されることとなると、それまでに保存されていた単語は破棄される。
【００４９】
また、ステップＳ１０４において出力された単語が「はい」または「いいえ」であると判定された場合には、家電機器リモート制御部１１内に、ステップＳ１０５で保存された単語があるかどうかを判定する（ステップＳ１０７）。ステップＳ１０５で保存された単語がなければ、そのまま処理を終了して、次の音声入力の待ち状態となる。一方、ステップＳ１０５で保存された単語があった場合には、さらにステップＳ１０２の音声認識処理で出力された単語が「はい」（同等の意味を有する単語を含む）であるかどうかを判定する（ステップＳ１０８）。
【００５０】
出力された単語が「はい」であると判定された場合には、家電機器リモート制御部１１は、ステップＳ１０５で保存された単語に基づいて、制御すべき家電機器２と動作させるべき制御指令とを抽出する（ステップＳ１０９）。さらに家電機器ネットワーク２０を介して抽出した家電機器２に制御指令を送出する（ステップＳ１１０）。これで、制御指令の送られた家電機器は、制御指令に応じた動作を行うものとなる。そして、処理を終了して、次の音声入力の待ち状態となる。
【００５１】
一方、ステップＳ１０８において出力された単語が「いいえ」（同等の意味を有する単語を含む）であると判定された場合には、家電機器リモート制御部１１は、ステップＳ１０５で保存された単語を破棄する（ステップＳ１１１）。そして、処理を終了して、次の音声入力の待ち状態となる。
【００５２】
図６は、ステップＳ１０２において音声認識部１２が実行する音声認識処理を詳細に示すフローチャートである。まず、Ａ／Ｄ変換器１０１は、ステップＳ１０１で入力された音声を時系列のデジタル音声信号に変換して音声データ格納部１０２に格納する（ステップＳ２０１）。次に、パワー算出部１０３は、音声データ格納部１０２に格納したデジタル音声信号を所定時間毎で複数のフレームに区分し、各フレームのパワー成分を算出する（ステップＳ２０２）。
【００５３】
次に、音声区間検出部１０４は、ステップＳ２０２で算出した各フレームのパワー成分を所定の閾値と比較し、閾値を上回ったフレームを音声区間として抽出する（ステップＳ２０３）。そして、この処理で候補の単語を抽出するのに必要なだけの音声区間が検出されたかどうかを判定する（ステップＳ２０４）。必要なだけの音声区間が検出されていなければ、処理を終了する。必要なだけの音声区間が検出された場合には、音声特徴抽出部１０５は、ステップＳ２０２で算出した各フレームのパワー成分に基づいて、ステップＳ２０３で抽出した音声区間の音響特徴ベクトルＸ（ｔ）を計算する（ステップＳ２０５）。
【００５４】
次に、音響尤度計算部１０８は、ステップＳ２０５で算出した音声特徴ベクトルＸ（ｔ）と音響モデル格納部１０６に格納されている音素モデルとしての隠れマルコフモデルに基づいて、単語辞書格納部１０７に格納されている単語辞書に登録された単語のうちで尤度が最も高くなるものを、候補の単語として抽出する（ステップＳ２０６）。
【００５５】
次に、環境尤度計算部２１０は、計時部３０１が計時している時間、温度センサ３０２が検知している温度、及び照度センサ３０３が検知している照度をそれぞれ取得する。そして、音響尤度計算部１０８が候補とした単語について、取得した時間、温度及び照度に基づいてそれぞれ時間モデル格納部２０１、温度モデル格納部２０２及び照度モデル格納部２０３を参照し、時間環境尤度、温度環境尤度及び照度環境尤度を取得する。そして、時間環境尤度の値、温度環境尤度の値及び照度環境尤度の値を乗算し、その乗算結果を環境尤度として求める（ステップＳ２０７）。
【００５６】
次に、尤度評価部２２１は、音響尤度計算部１０８が求めた音響尤度の値と、環境尤度計算部２１０が求めた環境尤度の値とを乗算し、その乗算結果を単語尤度として求める（ステップＳ２０８）。さらに尤度評価部２２１は、求めた単語尤度の値が予め定められた閾値Ｍよりも大きいかどうかを判定する（ステップＳ２０９）。
【００５７】
単語尤度の値が閾値Ｍよりも大きければ、音響尤度計算部１０８が抽出した候補の単語を出力部２２２に渡し、出力部２２２が、この単語を音声認識結果として出力する（ステップＳ２１０）。そして、このフローチャートの処理を終了し、メインルーチン（図５）に復帰する。一方、単語尤度の値が閾値Ｍ以下であれば、音響尤度計算部１０８が抽出した候補の単語を棄却して音声認識結果として何の単語も出力せずに（ステップＳ２１１）、このフローチャートの処理を終了し、メインルーチン（図５）に復帰する。
【００５８】
以上説明したように、本発明の実施の形態にかかる家電機器制御システムで適用されている音声認識部１２は、環境モデル格納部２００と環境尤度計算部２１０を有しており、音響尤度計算部１０８が抽出した候補の単語についての環境尤度を求めている。そして、尤度評価部２２１は、この環境尤度を音響尤度計算部１０８が求めた音響尤度に掛けて単語尤度を求め、一定の閾値Ｍを上回る場合にのみ、候補の単語を音声認識結果として出力するようにしている。つまり、候補の単語の音響尤度が高くても環境尤度が低ければ、その単語が音声認識結果として出力されることがないため、環境条件にそぐわないような音声認識結果が出力されることがなく、音声認識の精度を高くすることができる。
【００５９】
また、環境モデル格納部２００に格納されている環境モデルとしては、時間モデル、温度モデル及び照度モデルの３種類があり、各モデルに従って取得された時間環境尤度、温度環境尤度及び照度環境尤度を乗算して、候補の単語の環境尤度を求めている。このため、複数の環境条件に従って環境尤度を求めることが可能となる。
【００６０】
さらに、家電機器リモート制御部１１は、音声認識部１２が環境条件を考慮して音声認識した結果に従って、家電機器２をそれぞれ制御するものとしている。
このため、環境条件にそぐわないような場面で家電機器２に制御指令を送出することがなく、家電機器２が誤動作することを防ぐことができる。
【００６１】
本発明は、上記の実施の形態に限られず、種々の変形、応用が可能である。以下、本発明に適用可能な上記の実施の形態の変形態様について説明する。
【００６２】
上記の実施の形態では、音響尤度計算部１０８は、出力部２２２から出力する音声認識結果の候補として、単語を１つだけ抽出するものとしていた。しかしながら、音響尤度の高いものから複数の単語を候補として抽出するものとしてもよい。この場合、環境尤度計算部２１０は、抽出された複数の単語それぞれについて、環境モデル格納部２００を参照して環境尤度を求めるものとすればよい。そして、尤度評価部２２１は、抽出された複数の単語のそれぞれについて音響尤度計算部１０８が求めた音響尤度と環境尤度計算部２１０が求めた環境尤度とを乗算して単語尤度を求め、単語尤度が閾値Ｍを超えるものの中で最も高い値を示す単語を音声認識結果として出力部２２２から出力させるものとすることができる。これにより、音声認識結果として何も出力されないという場合を少なくすることができる。
【００６３】
上記の実施の形態では、環境尤度計算部２１０は、時間モデル、温度モデル及び照度モデルをそれぞれ参照して得た時間環境尤度、温度環境尤度及び照度環境尤度を単純に乗算して、その積を環境尤度として求めていたが、他の演算方法を適用することもできる。例えば、時間環境尤度、温度環境尤度及び照度環境尤度を加算した和を環境尤度としてもよい。或いは、時間環境尤度、温度環境尤度及び照度環境尤度にそれぞれ重み付をして、乗算または加算するものとしてもよい。また、尤度評価部２２１も、音響尤度と環境尤度とに乗算以外の他の演算を施して、単語尤度を求めるものとしてもよい。音響尤度と環境尤度とにそれぞれ重み付をしてもよい。
【００６４】
上記の実施の形態では、尤度評価部２２１は、常に音響尤度と環境尤度とを乗算することで単語尤度を求めるものとしていたので、候補の単語の環境尤度が低ければ音響尤度が高くても音声認識結果として出力されることがない。ところが、稀にではあるが、試運転させる場合などのように環境条件にそぐわない場面で家電機器２を動作させたいときも生じる。そこで、音響尤度計算部１０８が候補の単語として同じ単語を連続して抽出したとき、或いは一定の期間に一定回数以上抽出したときは、環境尤度の重みを小さくして単語尤度を求めたり、環境尤度を考慮せずに音響尤度そのものを単語尤度として用いるものとしてもよい。これにより、環境条件にそぐわない単語を音声認識結果として意図的に出力させることができる。
【００６５】
上記の実施の形態では、環境モデル格納部２００に格納される環境モデルとして、時間モデルと、温度モデルと、照度モデルとの３種類を用意していた。しかしながら、本発明はこれに限られるものではなく、制御対象となる機器、その機器が置かれる環境によって、他の環境モデルを適用することもできる。そして、用意した環境モデルに応じた環境条件を検出する手段（例えば、湿度モデルであれば湿度センサ）を接続して、その検出信号を環境尤度計算部２１０に入力するものとすればよい。
【００６６】
上記の実施の形態では、環境モデルとしての時間モデル、温度モデル及び照度モデルは、予め用意されたものが固定的に用いられるものとしていた。これに対して、初期段階では、予め用意されたものをデフォルトで用いるが、制御対象となる家電機器２がそれぞれ操作されたときの環境条件の履歴を蓄積しておき、蓄積された履歴に従って時間モデル、温度モデル及び照度モデルを変更していくものとしてもよい。
【００６７】
上記の実施の形態では、制御対象となる機器として、テレビ２−１、エアコン２−２、ステレオ２−３、照明２−４などの家電機器を適用していた。しかしながら、本発明はこれに限られるものではなく、他の機器の制御に適用してもよい。例えば、カーナビゲーションシステムの制御に適用する場合には、環境モデルとして、自動車の速度に応じて各単語が発音される確率をモデル化した速度モデルなどを環境モデルとして用いることができる。
【００６８】
上記の実施の形態では、図５及び図６に示したフローチャートの処理を実行させるためのプログラムは、汎用コンピュータのメモリに記憶されているものとして説明した。そして、ＣＰＵがメモリに記憶されたプログラムを実行することで、パワー算出部１０３、音声区間検出部１０４、音声特徴抽出部１０５、音響尤度計算部１０８、環境尤度計算部２１０及び尤度評価部２２１が実現されるものとしていた。これに対して、図５及び図６のフローチャートの処理を汎用コンピュータに実行させ、パワー算出部１０３、音声区間検出部１０４、音声特徴抽出部１０５、音響尤度計算部１０８、環境尤度計算部２１０及び尤度評価部２２１を実現させるためのプログラムを、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭなどのコンピュータ読み取り可能な記録媒体に格納して配布してもよい。または、これらのプログラムをＷｅｂサーバ装置が有する固定ディスク装置に格納しておき、インターネットを汎用コンピュータにダウンロードさせるものとしてもよい。
【００６９】
【発明の効果】
以上説明したように、本発明によれば、環境条件を考慮して音声認識を行っているために、環境条件に合わせて正確な音声認識結果を得ることができる。
【００７０】
また、環境条件を考慮した音声認識結果に基づいて制御対象となる機器を制御しているため、機器の誤動作を防ぐことができる。
【図面の簡単な説明】
【図１】図１は、本発明の実施の形態にかかる家電機器制御システムの構成を示すブロック図である。
【図２】図１の音声認識部の構成を示すブロック図である。
【図３】（ａ）〜（ｃ）は、それぞれ時間モデル、温度モデル、照度モデルをグラフにして示す図である。
【図４】環境モデル格納部のデータ構造を示す図である。
【図５】図１のサーバ装置が実行する処理を示すフローチャートである。
【図６】図５の音声認識処理を詳細に示すフローチャートである。
【符号の説明】
１・・・サーバ装置、２・・・家電機器、３・・・マイクロフォン、４・・・スピーカ、５・・・電話機、６・・・携帯電話機、７・・・携帯電話網、１１・・・家電機器リモート制御部、１２・・・音声認識部、１３・・・音声合成部、１０１・・・Ａ／Ｄ変換器、１０２・・・音声データ格納部、１０３・・・パワー算出部、１０４・・・音声区間検出部、１０５・・・音声特徴抽出部、１０６・・・音素モデル格納部、１０７・・・単語辞書格納部、１０８・・・音響尤度計算部、２００・・・環境モデル格納部、２０１・・・時間モデル格納部、２０２・・・温度モデル格納部、２０３・・・照度モデル格納部、２１０・・・環境尤度計算部、２２１・・・尤度評価部、２２２・・・出力部、３０１・・・計時部、３０２・・・温度センサ、３０３・・・照度センサ

Claims

音声入力手段に接続され、該音声入力手段から入力された音声を音声認識して、その音声認識結果を出力する音声認識手段と、制御対象となる機器に接続され、前記音声認識手段の音声認識結果に基づいて前記機器を制御する機器制御手段とを備える機器制御システムであって、
前記音声認識手段は、
認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段と、
認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を格納した単語辞書格納手段と、
前記単語辞書格納手段に格納された各単語が環境条件によって発話される確率をモデル化した環境モデルを格納した環境モデル格納手段と、
前記音声入力手段から入力された音声を前記音素モデル及び前記単語辞書を参照して、前記単語辞書に登録された各種類の単語の最大音響尤度を算出し、該算出した音響尤度に対応する単語を、認識結果として出力される単語の候補として選出する単語候補選出手段と、
環境条件を検知する検知手段に接続され、該検知手段が検知した環境条件に従って前記環境モデルを参照して、前記単語候補選出手段が候補として選出した単語の環境尤度を算定する環境尤度算出手段と、
前記単語候補選出手段が算出した音響尤度と前記環境尤度算出手段が算出した環境尤度に基づいて単語尤度を算出するとともに、前記単語候補選出手段が連続して同じ単語を候補として選出した場合、または一定期間に一定回数以上同じ単語を候補として選出した場合には、前記環境尤度の重みを小さくして単語尤度を算出する単語尤度算出手段と、
前記単語尤度算出手段が算出した単語尤度が所定の範囲にあるかどうかを判定する単語尤度判定手段と、
前記単語尤度判定手段が所定の範囲にあると判定したときに、前記単語候補選出手段が候補として選出した単語を音声認識結果として、前記機器制御手段に出力する結果出力手段とを備える
ことを特徴とする機器制御システム。
認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段と、
認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を格納した単語辞書格納手段と、
前記単語辞書格納手段に格納された各単語が環境条件によって発話される確率をモデル化した環境モデルを格納した環境モデル格納手段と、
入力された音声を前記音素モデル及び前記単語辞書を参照して、前記単語辞書に登録された各種類の単語の最大音響尤度を算出し、該算出した音響尤度に対応する単語を、認識結果として出力される単語の候補として選出する単語候補選出手段と、
環境条件を検知する検知手段に接続され、該検知手段が検知した環境条件に従って前記環境モデルを参照して、前記単語候補選出手段が候補として選出した単語の環境尤度を算出する環境尤度算出手段と、
前記単語候補選出手段が算出した音響尤度と前記環境尤度算出手段が算出した環境尤度に基づいて単語尤度を算出するとともに、前記単語候補選出手段が連続して同じ単語を候補として選出した場合、または一定期間に一定回数以上同じ単語を候補として選出した場合には、前記環境尤度の重みを小さくして単語尤度を算出する単語尤度算出手段と、
前記単語尤度算出手段が算出した単語尤度が所定の範囲にあるかどうかを判定する単語尤度判定手段と、
前記単語尤度判定手段が所定の範囲にあると判定したときに、前記単語候補選出手段が候補として選出した単語を音声認識結果として出力する結果出力手段と
を備えることを特徴とする音声認識装置。
前記環境モデル格納手段は、複数種類の環境モデルを格納しており、
前記環境尤度算出手段は、複数種類の環境モデルのそれぞれに基づく環境尤度を算出し、該算出した各環境尤度から環境尤度を算出する
ことを特徴とする請求項２に記載の音声認識装置。
前記単語候補選出手段は、音響尤度の大きいものから複数の単語を候補として選出し、
前記環境尤度算出手段は、前記単語候補選出手段が候補として選出した複数の単語のそれぞれについて環境尤度を算出し、
前記単語尤度算出手段は、複数の単語のそれぞれについて音響尤度と環境尤度に基づいて、単語毎の環境尤度を算出し、
前記結果出力手段は、前記単語尤度算出手段が算出した単語尤度が最も高い単語であって、前記単語尤度判定手段が所定の範囲にあると判定した単語を音声認識結果として出力する
ことを特徴とする請求項２または３に記載の音声認識装置。
前記音素モデルは、認識対象となる音声に含まれる各音素を隠れマルコフモデルでモデル化したものであり、
前記単語候補選出手段は、前記入力された音声を所定時間を単位として複数の区間に分割し、該分割した区間のうちの音声区間について音響特徴ベクトルを求め、各区間の音響特徴ベクトルと前記音素モデルとに基づいて連続音素認識を行い、各フレームでの音響尤度の合計が最大となる単語を候補として選出する
ことを特徴とする請求項２乃至４のいずれか１項に記載の音声認識装置。
入力された音声を、認識対象となる音声に含まれる各音素をモデル化した音素モデル及び認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を参照して、前記単語辞書に登録された各種類の単語の最大音響尤度を算出し、該算出した音響尤度に基づいて、認識結果として出力される単語の候補を選出する単語候補選出ステップと、
環境条件を検知する検知手段に接続され、該検知手段が検知した環境条件に従って、各単語が環境条件によって発話される確率をモデル化した環境モデルを参照して、前記単語候補選出ステップで候補として選出した単語の環境尤度を算出する環境尤度算出ステップと、
前記単語候補選出ステップで算出した音響尤度と前記環境尤度算出ステップで算出した環境尤度に基づいて単語尤度を算出するとともに、前記単語候補選出ステップで連続して同じ単語を候補として選出した場合、または一定期間に一定回数以上同じ単語を候補として選出した場合には、前記環境尤度の重みを小さくして単語尤度を算出する単語尤度算出ステップと、
前記単語尤度算出ステップで算出した単語尤度が所定の範囲にあるかどうかを判定する単語尤度判定ステップと、
前記単語尤度判定ステップで所定の範囲にあると判定したときに、前記単語候補選出ステップで候補として選出した単語を音声認識結果として出力する結果出力ステップと
を含むことを特徴とする音声認識方法。
入力された音声を、認識対象となる音声に含まれる各音素をモデル化した音素モデル及び認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を参照して、前記単語辞書に登録された各種類の単語の最大音響尤度を算出し、該算出した音響尤度に基づいて、認識結果として出力される単語の候補を選出する単語候補選出手段、
環境条件を検知する検知手段に接続され、該検知手段が検知した環境条件に従って、各単語が環境条件によって発話される確率をモデル化した環境モデルを参照して、前記単語候補選出手段が候補として選出した単語の環境尤度を算出する環境尤度算出手段、
前記単語候補選出手段が算出した音響尤度と前記環境尤度算出手段が算出した環境尤度とに基づいて単語尤度を算出するとともに、前記単語候補選出手段が連続して同じ単語を候補として選出した場合、または一定期間に一定回数以上同じ単語を候補として選出した場合には、前記環境尤度の重みを小さくして単語尤度を算出する単語尤度算出手段、
前記単語尤度算出手段が算出した単語尤度が所定の範囲にあるかどうかを判定する単語尤度判定手段、
前記単語尤度判定手段が所定の範囲にあると判定したときに、前記単語候補選出手段が候補として選出した単語を音声認識結果として出力する結果出力手段
としてコンピュータ装置を機能させるためのプログラム。