JP2003058184A

JP2003058184A - 機器制御システム、音声認識装置及び方法、並びにプログラム

Info

Publication number: JP2003058184A
Application number: JP2001242995A
Authority: JP
Inventors: Shigeru Kafuku; 滋加福
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2001-08-09
Filing date: 2001-08-09
Publication date: 2003-02-28
Anticipated expiration: 2021-08-09
Also published as: JP4552368B2

Abstract

(57)【要約】【課題】環境条件に応じて単語が発せられる確率を考
慮することで、精度の高い音声認識結果を得る。【解決手段】音響尤度計算部１０８は、音素モデル及
び単語辞書を参照して、マイクロフォン３から入力され
た音声を音素的要素及び言語的要素に従って音声認識
し、発音の確率を示す音響尤度が最も高い単語を候補と
して抽出する。環境尤度計算部２１０は、計時部３０
１、温度センサ３０２及び照度センサ３０３から入力さ
れる環境条件に従って時間モデル、温度モデル及び照度
モデルを参照し、環境条件によって発音される確率を示
す環境尤度を求める。尤度評価部２２１は、音響尤度計
算部１０８が求めた音響尤度と環境尤度計算部２１０が
求めた環境尤度とを乗算し、その乗算結果を単語尤度と
して求める。そして、求めた単語尤度が所定の閾値より
も大きい場合に、音響尤度計算部１０８が候補として抽
出した単語を音声認識結果として出力部２２２から出力
する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識結果に基
づいて機器を制御する機器制御システム、及び、このよ
うな機器制御システムに適用して好適な音声認識装置等
に関する。

【０００２】

【従来の技術】従来の音声認識装置では、話者が発声し
た音声を分析して得られた特徴を基に音素モデルを参照
し、音響的にどの単語の発生確率が高いかを示す尤度を
求めている。さらに尤度が最も高い単語が言語的に正し
いかを検証するための言語モデルを参照して言語的な発
生確率を求め、音響的な発生確率と言語的な発生確率と
を組み合わせて最適と考えられる単語を、音声認識結果
として出力している。

【０００３】このような音声認識装置の適用範囲として
は様々なものが従来から知られているが、そのうちの１
つとして家電機器などの動作を制御するシステムが知ら
れている。このようなシステムでは、制御対象となる機
器を１つだけとしているものもあるが、１つの制御装置
で複数の機器を制御するものもある。

【０００４】

【発明が解決しようとする課題】ところで、従来の音声
認識装置では、話者が発した音声の音響的特徴と言語的
特徴だけで音声認識を行っているため、言語モデルの精
度がよくないと、本来認識されるべき発話内容（単語）
を棄却したり、棄却すべき発話内容が棄却されないとい
った認識処理の誤りが生じることとなる。

【０００５】また、上記の複数の家電機器を制御するシ
ステムで適用した場合、機器名が様々であっても、その
動作としては共通していることが多い。このため、機器
名だけが誤って認識されたとしても言語的な特徴として
矛盾が生じないものとなってしまう。例えば「風呂を入
れる」も「エアコンを入れる」も言語的な特徴として何
の問題もない。このため、話者が「エアコンを入れる」
と発したのにも関わらず、機器名だけが誤って認識され
て「風呂を入れる」という音声認識結果が誤って得られ
たとすると、話者の意思とは関係なく、風呂の電源が入
ってしまうこととなる。

【０００６】本発明は、上記従来技術の問題点を解消す
るためになされたものであり、環境条件に応じて単語が
発せられる確率を考慮することで、精度の高い音声認識
結果を得ることができる音声認識装置等を提供すること
を目的とする。

【０００７】本発明は、また、環境条件に合わせた正確
な音声認識を行うことで、制御対象となる機器が誤動作
することを防ぐことができる機器制御システムを提供す
ることを目的とする。

【０００８】

【課題を解決するための手段】上記目的を達成するた
め、本発明の第１の観点にかかる機器制御システムは、
音声入力手段に接続され、該音声入力手段から入力され
た音声を音声認識して、その音声認識結果を出力する音
声認識手段と、制御対象となる機器に接続され、前記音
声認識手段の音声認識結果に基づいて前記機器を制御す
る機器制御手段とを備える機器制御システムであって、
前記音声認識手段は、認識対象となる音声に含まれる各
音素をモデル化した音素モデルを格納した音素モデル格
納手段と、認識結果として出力されるべき複数種類の単
語の音素パターン系列をそれぞれ登録した単語辞書を格
納した単語辞書格納手段と、前記単語辞書格納手段に格
納された各単語が環境条件によって発話される確率をモ
デル化した環境モデルを格納した環境モデル格納手段
と、前記音声入力手段から入力された音声を前記音素モ
デル及び前記単語辞書を参照して、前記単語辞書に登録
された各種類の単語の最大音響尤度を算出し、該算出し
た音響尤度に対応する単語を、認識結果として出力され
る単語の候補として選出する単語候補選出手段と、環境
条件を検知する検知手段に接続され、該検知手段が検知
した環境条件に従って前記環境モデルを参照して、前記
単語候補選出手段が候補として選出した単語の環境尤度
を算定する環境尤度算出手段と、前記単語候補選出手段
が算出した音響尤度と前記環境尤度算出手段が算出した
環境尤度に基づいて単語尤度を算出する単語尤度算出手
段と、前記単語尤度算出手段が算出した単語尤度が所定
の範囲にあるかどうかを判定する単語尤度判定手段と、
前記単語尤度判定手段が所定の範囲にあると判定したと
きに、前記単語候補選出手段が候補として選出した単語
を音声認識結果として、前記機器制御手段に出力する結
果出力手段とを備えることを特徴とする。

【０００９】上記機器制御システムにおいて、音声認識
手段は、環境モデル格納手段を備え、環境条件を考慮し
て音声認識を行っている。このため、環境条件にそぐわ
ないような音声認識結果が誤って得られることがなくな
り、制御対象となる機器を誤動作させることがない。

【００１０】上記目的を達成するため、本発明の第２の
観点にかかる音声認識装置は、認識対象となる音声に含
まれる各音素をモデル化した音素モデルを格納した音素
モデル格納手段と、認識結果として出力されるべき複数
種類の単語の音素パターン系列をそれぞれ登録した単語
辞書を格納した単語辞書格納手段と、前記単語辞書格納
手段に格納された各単語が環境条件によって発話される
確率をモデル化した環境モデルを格納した環境モデル格
納手段と、入力された音声を前記音素モデル及び前記単
語辞書を参照して、前記単語辞書に登録された各種類の
単語の最大音響尤度を算出し、該算出した音響尤度に対
応する単語を、認識結果として出力される単語の候補と
して選出する単語候補選出手段と、環境条件を検知する
検知手段に接続され、該検知手段が検知した環境条件に
従って前記環境モデルを参照して、前記単語候補選出手
段が候補として選出した単語の環境尤度を算出する環境
尤度算出手段と、前記単語候補選出手段が算出した音響
尤度と前記環境尤度算出手段が算出した環境尤度に基づ
いて単語尤度を算出する単語尤度算出手段と、前記単語
尤度算出手段が算出した単語尤度が所定の範囲にあるか
どうかを判定する単語尤度判定手段と、前記単語尤度判
定手段が所定の範囲にあると判定したときに、前記単語
候補選出手段が候補として選出した単語を音声認識結果
として出力する結果出力手段とを備えることを特徴とす
る。

【００１１】上記音声認識装置では、候補の単語の音響
尤度だけに基づいて音声認識結果を出力するのではな
く、環境尤度算出手段が求めた環境尤度を考慮した単語
尤度に基づいて音声認識結果を出力するようにしてい
る。このため、環境条件にそぐわないような音声認識結
果が出力されることがなく、音声認識の精度を高くする
ことができる。

【００１２】上記音声認識装置において、前記環境モデ
ル格納手段は、複数種類の環境モデルを格納していても
よい。この場合において、前記環境尤度算出手段は、複
数種類の環境モデルのそれぞれに基づく環境尤度を算出
し、該算出した各環境尤度から環境尤度を算出するもの
とすることができる。

【００１３】この場合には、複数の環境条件に従って環
境尤度を求めることが可能となり、さらに音声認識の精
度を高くすることができる。

【００１４】上記音声認識装置において、前記単語候補
選出手段は、音響尤度の大きいものから複数の単語を候
補として選出し、前記環境尤度算出手段は、前記単語候
補選出手段が候補として選出した複数の単語のそれぞれ
について環境尤度を算出し、前記単語尤度算出手段は、
複数の単語のそれぞれについて音響尤度と環境尤度に基
づいて、単語毎の環境尤度を算出することができる。こ
の場合において、前記結果出力手段は、前記単語尤度算
出手段が算出した単語尤度が最も高い単語であって、前
記単語尤度判定手段が所定の範囲にあると判定した単語
を音声認識結果として出力するものとすることができ
る。

【００１５】この場合には、音声認識結果として何も出
力されないというような場合を少なくすることができ
る。

【００１６】上記音声認識装置において、前記単語候補
選出手段が連続して同じ単語を候補として選出した場
合、または一定期間に一定回数以上同じ単語を候補とし
て選出した場合には、前記単語尤度算出手段は、前記環
境尤度の重みを小さくして単語尤度を算出するものとし
てもよい。

【００１７】この場合には、環境条件にそぐわない単語
を意図的に出力させることも可能となる。

【００１８】上記音声認識装置において、前記音素モデ
ルは、例えば、認識対象となる音声に含まれる各音素を
隠れマルコフモデルでモデル化したものであってもよ
い。この場合、前記単語候補選出手段は、前記入力され
た音声を所定時間を単位として複数の区間に分割し、該
分割した区間のうちの音声区間について音響特徴ベクト
ルを求め、各区間の音響特徴ベクトルと前記音素モデル
とに基づいて連続音素認識を行い、各フレームでの音響
尤度の合計が最大となる単語を候補として選出するもの
とすることができる。

【００１９】上記目的を達成するため、本発明の第３の
観点にかかる音声認識方法は、入力された音声を、認識
対象となる音声に含まれる各音素をモデル化した音素モ
デル及び認識結果として出力されるべき複数種類の単語
の音素パターン系列をそれぞれ登録した単語辞書を参照
して、前記単語辞書に登録された各種類の単語の最大音
響尤度を算出し、該算出した音響尤度に基づいて、認識
結果として出力される単語の候補を選出する単語候補選
出ステップと、環境条件を検知する検知手段に接続さ
れ、該検知手段が検知した環境条件に従って、各単語が
環境条件によって発話される確率をモデル化した環境モ
デルを参照して、前記単語候補選出ステップで候補とし
て選出した単語の環境尤度を算出する環境尤度算出ステ
ップと、前記単語候補選出ステップで算出した音響尤度
と前記環境尤度算出ステップで算出した環境尤度に基づ
いて単語尤度を算出する単語尤度算出ステップと、前記
単語尤度算出ステップで算出した単語尤度が所定の範囲
にあるかどうかを判定する単語尤度判定ステップと、前
記単語尤度判定ステップで所定の範囲にあると判定した
ときに、前記候補単語選出ステップで候補として選出し
た単語を音声認識結果として出力する結果出力ステップ
とを含むことを特徴とする。

【００２０】上記目的を達成するため、本発明の第４の
観点にかかるプログラムは、入力された音声を、認識対
象となる音声に含まれる各音素をモデル化した音素モデ
ル及び認識結果として出力されるべき複数種類の単語の
音素パターン系列をそれぞれ登録した単語辞書を参照し
て、前記単語辞書に登録された各種類の単語の最大音響
尤度を算出し、該算出した音響尤度に基づいて、認識結
果として出力される単語の候補を選出する単語候補選出
手段、環境条件を検知する検知手段に接続され、該検知
手段が検知した環境条件に従って、各単語が環境条件に
よって発話される確率をモデル化した環境モデルを参照
して、前記単語候補選出手段が候補として選出した単語
の環境尤度を算出する環境尤度算出手段、前記単語候補
選出手段が算出した音響尤度と前記環境尤度算出手段が
算出した環境尤度とに基づいて単語尤度を算出する単語
尤度算出手段、前記単語尤度算出手段が算出した単語尤
度が所定の範囲にあるかどうかを判定する単語尤度判定
手段、前記単語尤度判定手段が所定の範囲にあると判定
したときに、前記単語候補選出手段が候補として選出し
た単語を音声認識結果として出力する結果出力手段とし
てコンピュータ装置を機能させることを特徴とする。

【００２１】

【発明の実施の形態】以下、添付図面を参照して、本発
明の実施の形態について説明する。

【００２２】図１は、この実施の形態にかかる家電機器
制御システムの構成を示すブロック図である。図示する
ように、この家電機器制御システムは、サーバ装置１
と、家電機器２と、マイクロフォン３と、スピーカ４
と、電話機５とを備えている。これらは室内に置かれて
いるが、住人が室外にいるときも、携帯電話機６から携
帯電話網７を介して電話機５に接続して、家電機器２を
遠隔制御することができるようになっている。

【００２３】サーバ装置１は、家電機器２を制御するた
めの音声を入力するマイクロフォン３と、家電機器２の
制御動作に応じた音声を出力するスピーカ４と、携帯電
話網７を介して携帯電話機６その他の電話機と通話を行
う電話機５とに接続されている。サーバ装置１は、家電
機器リモート制御部１１と、音声認識部１２と、音声合
成部１３とを備えている。

【００２４】家電機器リモート制御部１１は、家電機器
ネットワーク２０を介して家電機器２にそれぞれ接続さ
れ、音声認識部１２の音声認識結果に応じて家電機器２
を制御する。音声認識部１２は、マイクロフォン３から
入力された音声、または電話機５が受信した音声を音声
認識し、その結果を家電機器リモート制御部１１と音声
合成部１３とに出力する。音声認識部１２の詳細に構成
については後述する。音声合成部１３は、音声認識部１
２の音声認識結果に基づく家電機器２の制御動作に応じ
た音声を確認のためにスピーカ４から出力し、或いは電
話機５から接続状態にある携帯電話機６に送信させる。

【００２５】家電機器２は、家電機器リモート制御部１
１による制御対象となる機器であり、ここでは、テレビ
２−１、エアコン２−２、ステレオ２−３及び照明２−
４が含まれている。制御対象となる家電機器２であるテ
レビ２−１、エアコン２−２、ステレオ２−３及び照明
２−４は、それぞれ家電機器ネットワーク２０を介して
サーバ装置１の家電機器リモート制御部１１に接続され
る。

【００２６】電話機５は、自動応答機能を備え、携帯電
話網７を介して携帯電話機６との間で呼が設定される
と、家電機器２を制御するための音声を受信して、音声
認識部１２に渡す。また、音声合成部１３が合成した音
声を携帯電話網７を介して携帯電話機６に送信する。

【００２７】図２は、図１の音声認識部１２の構成を示
すブロック図である。Ａ／Ｄ変換器１０１と、音声デー
タ格納部１０２と、パワー算出部１０３と、音声区間検
出部１０４と、音声特徴抽出部１０５と、音素モデル格
納部１０６と、単語辞書格納部１０７と、音響尤度計算
部１０８と、環境モデル格納部２００と、環境尤度計算
部２１０と、尤度評価部２２１と、出力部２２２とを備
えている。

【００２８】Ａ／Ｄ変換器１０１は、不特定話者から入
力された音声（アナログ信号）をアナログ／デジタル変
換して、この音声を時系列で示すデジタル音声信号（例
えば、ＰＣＭ信号）に出力する。音声データ格納部１０
２は、Ａ／Ｄ変換器１０１から出力されたデジタル音声
信号を格納する。

【００２９】パワー算出部１０３は、音声データ格納部
１０２に格納されたデジタル音声信号を、所定の時間間
隔（２．０〜４．０ミリ秒）で音声データを、時間窓な
どのハミング窓によって複数のフレームに区分し、区分
した各フレームから音声データを切り出してパワー成分
を求める。音声区間検出部１０４は、パワー算出部１０
３が算出したパワー成分が所定の閾値を超えたフレーム
を音声区間として検出する。例えば、１秒以内にパワー
成分が閾値を下回ったフレームは、音声区間としない。
音声特徴抽出部１０５は、音声区間検出部１０４が検出
した音声区間について、それぞれパワー算出部１０３が
算出したパワー成分に基づいて音響特徴ベクトルＸ
（ｔ）を計算する。

【００３０】音素モデル格納部１０６は、認識対象とな
る音声を構成する全ての音素をモデル化した音素モデル
を格納している。音素モデルとしては、例えば隠れマル
コフモデル（ＨＭＭ）が適用される。単語辞書格納部１
０７は、単語毎の音素パターン系列情報を登録した単語
辞書を格納している。この単語辞書は、例えば、“テレ
ビ”という単語について、ｔ→ｅ→ｒ→ｅ→ｂ→ｉとい
う音素パターン系列を登録している。

【００３１】音響尤度計算部１０８は、音響特徴ベクト
ルＸ（ｔ）とＨＭＭによる音素モデルとを参照してフレ
ーム毎の連続音素認識を行い、各フレームの音響尤度の
合計が最大となるものを暫定的に候補の単語として抽出
する。

【００３２】環境モデル格納部２００は、制御対象とな
る家電機器２を操作するための音声として、室内環境に
よって単語（短い文章となる場合を含む）がどのような
確率で統計的に発音されるかを示す統計的発音モデルを
格納するものである。ここでは、環境モデルとして時間
モデル、温度モデル、照度モデルを用意しており、それ
ぞれ時間モデル格納部２０１、温度モデル格納部２０
２、照度モデル格納部２０３に格納している。

【００３３】図３（ａ）〜（ｃ）は、環境モデルをグラ
フにして示したものであり、それぞれ時間モデル、温度
モデル及び照度モデルを示している。図３（ａ）に示す
時間モデルは、単語辞書格納部１０７の単語辞書に登録
されている単語毎に、一日２４時間のうちの時間に従っ
て発音されやすい確率を表したモデルである。図３
（ｂ）に示す温度モデルは、単語辞書に登録されている
単語毎に、室内温度に従って発音されやすい確率を表し
たモデルである。図３（ｃ）に示す照度モデルは、単語
辞書に登録されている単語毎に、室内の明るさに従って
発音されやすい確率を表したモデルである。

【００３４】例えば、「エアコンを入れる」という単語
は、特に時間によって発音される確率が変化する単語で
あり、図３（ａ）の時間モデルに示すように、発音され
る頻度の高い時間帯で確率が高くなっている。但し、発
音される頻度が低い時間帯でも、時間モデル、温度モデ
ル及び照度モデルにおいて、確率が０となることはな
い。

【００３５】なお、後述するように音声合成部１３で合
成された音声に対する応答として発音される「はい」ま
たは「いいえ」といった単語は、環境条件によって発音
される確率が影響を受けないので、時間モデル、温度モ
デル及び照度モデルにおいて発音される確率が一定に設
定されている。また、図３（ａ）〜（ｃ）に示した発音
される確率は季節や曜日によって変化することがあるの
で、季節や曜日によって異なる時間モデル、温度モデル
および／または照度モデルを用いるものとしてもよい。

【００３６】なお、図４は、環境モデル格納部２００の
データ構造を、時間モデルを例として示している。すな
わち、単語毎に、時間と発音されやすさの確率（時間環
境尤度）を対応付けて記憶するものである。例えば、
「エアコンを入れる」という単語が１：００に発話され
たときの時間環境尤度は、０．１２ということとなる。

【００３７】図２に示す環境尤度計算部２１０は、室内
に設けられた計時部３０１、温度センサ３０２及び照度
センサ３０３に接続されている。計時部３０１は、時計
が計時している時間に応じた信号を入力するものであ
る。温度センサ３０２は、室内の温度を検知するセンサ
であり、照度センサ３０３は、室内の照度を検知するセ
ンサである。

【００３８】環境尤度計算部２１０は、音響尤度計算部
１０８が候補とした単語について、計時部３０１が計時
している時間に基づいて時間モデル格納部２０１を参照
し、時間環境尤度を取得する。また、その候補の単語に
ついて、温度センサ３０２が検知した温度に基づいて温
度モデル格納部２０２を参照し、温度環境尤度を取得す
る。また、その候補の単語について、照度センサ３０３
が検知した照度に基づいて照度モデル格納部２０３を参
照し、照度環境尤度を取得する。

【００３９】環境尤度計算部２１０は、こうして取得し
た時間環境尤度、温度環境尤度及び照度環境尤度を用い
て次式に示す演算を行い、その演算結果を環境尤度とし
て求める。

【数１】（環境尤度）＝（時間環境尤度）×（温度環境
尤度）×（照度環境尤度）

【００４０】尤度評価部２２１は、音響尤度計算部１０
８が求めた音響尤度と環境尤度計算部２１０が求めた環
境尤度を用いて次式に示す演算を行い、その演算結果を
単語尤度として求める。

【数２】（単語尤度）＝（音響尤度）×（環境尤度）

【００４１】尤度評価部２２１は、こうして求めた単語
尤度が予め定められた閾値Ｍよりも大きいかどうかを判
定し、単語尤度が閾値Ｍよりも大きい場合には、音響尤
度計算部１０８が候補として抽出した単語を出力部２２
２に渡す。単語尤度が閾値Ｍ以下であった場合には、当
該単語を棄却する。出力部２２２は、尤度評価部２２１
から渡された単語を、最終的な音声認識結果として家電
機器リモート制御部１１と音声合成部１３とに出力す
る。

【００４２】なお、上記の音声認識部１２を含むサーバ
装置１は、パーソナルコンピュータなどの汎用コンピュ
ータをプラットフォームとして実現することができる。
音声データ格納部１０２、音素モデル格納部１０６、単
語辞書格納部１０７、環境モデル格納部２００は、それ
ぞれに対応した領域がメモリに確保されることによって
実現される。音素モデル格納部１０６が格納する音素モ
デル、単語辞書格納部１０７が格納する単語辞書、環境
モデル格納部２００が格納する各環境モデルは、音声認
識処理を行う前に予め外部装置から読み込まれてメモリ
に記憶される。パワー算出部１０３、音声区間検出部１
０４、音声特徴抽出部１０５、音響尤度計算部１０８、
環境尤度計算部２１０及び尤度評価部２２１は、ＣＰＵ
（Central Processing Unit）がメモリに記憶されたプ
ログラムを実行することによって実現される。

【００４３】以下、この実施の形態にかかる家電機器制
御システムの動作について説明する。

【００４４】図５は、この実施の形態にかかる家電機器
制御システムにおいてサーバ装置１が実行する処理を示
すフローチャートである。まず、住人が家電機器２のう
ちのいずれかに何らかの動作を行わせようとする場合、
その行わせたい動作に応じた単語を音声でマイクロフォ
ン３から入力する。住人が外出している場合には、携帯
電話機６から電話機５に電話をかけ、電話機５からの応
答に従って、家電機器２に行わせたい動作に応じた単語
を携帯電話機６から遠隔入力する（ステップＳ１０
１）。

【００４５】家電機器２に行わせた動作に応じた単語が
音声で入力されると、音声認識部１２は、その音声を音
声認識する（ステップＳ１０２）。なお、音声認識部１
１音声認識部１２による音声認識の処理の詳細について
は後述する。そして、この音声認識処理において、後述
するように音声認識結果として何らかの単語が出力され
たかどうかを判定する（ステップＳ１０３）。

【００４６】ステップＳ１０２の音声認識処理において
何らかの単語が出力されていた場合には、その単語が確
認としての応答である「はい」または「いいえ」（これ
らと同等の意味を有する単語、例えば「イエス」や「ノ
ー」といったものを含む）であったかどうかを判定する
（ステップＳ１０４）。

【００４７】出力された単語が「はい」でも「いいえ」
でもないと判定された場合は、その単語は、家電機器２
のいずれかにさせようとする動作を指示したものであ
る。そこで、家電機器リモート制御部１１は、当該出力
された単語を一時保存する（ステップＳ１０５）。ま
た、音声合成部１３は、当該出力された単語を音声合成
してスピーカ４から出力する。但し、ステップＳ１０１
で音声が遠隔入力された場合には、電話機５から携帯電
話網７を介して音声信号を送信し、携帯電話機６から出
力させる（ステップＳ１０６）。そして、処理を終了し
て、次の音声入力の待ち状態となる。

【００４８】なお、ステップＳ１０５で家電機器リモー
ト制御部１１内に保存された単語は、後述するステップ
Ｓ１１１において破棄される他、次の音声入力が一定期
間されない場合も破棄される。また、次に音声入力待ち
の状態となった後に、ステップＳ１０５で新たな単語が
保存されることとなると、それまでに保存されていた単
語は破棄される。

【００４９】また、ステップＳ１０４において出力され
た単語が「はい」または「いいえ」であると判定された
場合には、家電機器リモート制御部１１内に、ステップ
Ｓ１０５で保存された単語があるかどうかを判定する
（ステップＳ１０７）。ステップＳ１０５で保存された
単語がなければ、そのまま処理を終了して、次の音声入
力の待ち状態となる。一方、ステップＳ１０５で保存さ
れた単語があった場合には、さらにステップＳ１０２の
音声認識処理で出力された単語が「はい」（同等の意味
を有する単語を含む）であるかどうかを判定する（ステ
ップＳ１０８）。

【００５０】出力された単語が「はい」であると判定さ
れた場合には、家電機器リモート制御部１１は、ステッ
プＳ１０５で保存された単語に基づいて、制御すべき家
電機器２と動作させるべき制御指令とを抽出する（ステ
ップＳ１０９）。さらに家電機器ネットワーク２０を介
して抽出した家電機器２に制御指令を送出する（ステッ
プＳ１１０）。これで、制御指令の送られた家電機器
は、制御指令に応じた動作を行うものとなる。そして、
処理を終了して、次の音声入力の待ち状態となる。

【００５１】一方、ステップＳ１０８において出力され
た単語が「いいえ」（同等の意味を有する単語を含む）
であると判定された場合には、家電機器リモート制御部
１１は、ステップＳ１０５で保存された単語を破棄する
（ステップＳ１１１）。そして、処理を終了して、次の
音声入力の待ち状態となる。

【００５２】図６は、ステップＳ１０２において音声認
識部１２が実行する音声認識処理を詳細に示すフローチ
ャートである。まず、Ａ／Ｄ変換器１０１は、ステップ
Ｓ１０１で入力された音声を時系列のデジタル音声信号
に変換して音声データ格納部１０２に格納する（ステッ
プＳ２０１）。次に、パワー算出部１０３は、音声デー
タ格納部１０２に格納したデジタル音声信号を所定時間
毎で複数のフレームに区分し、各フレームのパワー成分
を算出する（ステップＳ２０２）。

【００５３】次に、音声区間検出部１０４は、ステップ
Ｓ２０２で算出した各フレームのパワー成分を所定の閾
値と比較し、閾値を上回ったフレームを音声区間として
抽出する（ステップＳ２０３）。そして、この処理で候
補の単語を抽出するのに必要なだけの音声区間が検出さ
れたかどうかを判定する（ステップＳ２０４）。必要な
だけの音声区間が検出されていなければ、処理を終了す
る。必要なだけの音声区間が検出された場合には、音声
特徴抽出部１０５は、ステップＳ２０２で算出した各フ
レームのパワー成分に基づいて、ステップＳ２０３で抽
出した音声区間の音響特徴ベクトルＸ（ｔ）を計算する
（ステップＳ２０５）。

【００５４】次に、音響尤度計算部１０８は、ステップ
Ｓ２０５で算出した音声特徴ベクトルＸ（ｔ）と音響モ
デル格納部１０６に格納されている音素モデルとしての
隠れマルコフモデルに基づいて、単語辞書格納部１０７
に格納されている単語辞書に登録された単語のうちで尤
度が最も高くなるものを、候補の単語として抽出する
（ステップＳ２０６）。

【００５５】次に、環境尤度計算部２１０は、計時部３
０１が計時している時間、温度センサ３０２が検知して
いる温度、及び照度センサ３０３が検知している照度を
それぞれ取得する。そして、音響尤度計算部１０８が候
補とした単語について、取得した時間、温度及び照度に
基づいてそれぞれ時間モデル格納部２０１、温度モデル
格納部２０２及び照度モデル格納部２０３を参照し、時
間環境尤度、温度環境尤度及び照度環境尤度を取得す
る。そして、時間環境尤度の値、温度環境尤度の値及び
照度環境尤度の値を乗算し、その乗算結果を環境尤度と
して求める（ステップＳ２０７）。

【００５６】次に、尤度評価部２２１は、音響尤度計算
部１０８が求めた音響尤度の値と、環境尤度計算部２１
０が求めた環境尤度の値とを乗算し、その乗算結果を単
語尤度として求める（ステップＳ２０８）。さらに尤度
評価部２２１は、求めた単語尤度の値が予め定められた
閾値Ｍよりも大きいかどうかを判定する（ステップＳ２
０９）。

【００５７】単語尤度の値が閾値Ｍよりも大きければ、
音響尤度計算部１０８が抽出した候補の単語を出力部２
２２に渡し、出力部２２２が、この単語を音声認識結果
として出力する（ステップＳ２１０）。そして、このフ
ローチャートの処理を終了し、メインルーチン（図５）
に復帰する。一方、単語尤度の値が閾値Ｍ以下であれ
ば、音響尤度計算部１０８が抽出した候補の単語を棄却
して音声認識結果として何の単語も出力せずに（ステッ
プＳ２１１）、このフローチャートの処理を終了し、メ
インルーチン（図５）に復帰する。

【００５８】以上説明したように、本発明の実施の形態
にかかる家電機器制御システムで適用されている音声認
識部１２は、環境モデル格納部２００と環境尤度計算部
２１０を有しており、音響尤度計算部１０８が抽出した
候補の単語についての環境尤度を求めている。そして、
尤度評価部２２１は、この環境尤度を音響尤度計算部１
０８が求めた音響尤度に掛けて単語尤度を求め、一定の
閾値Ｍを上回る場合にのみ、候補の単語を音声認識結果
として出力するようにしている。つまり、候補の単語の
音響尤度が高くても環境尤度が低ければ、その単語が音
声認識結果として出力されることがないため、環境条件
にそぐわないような音声認識結果が出力されることがな
く、音声認識の精度を高くすることができる。

【００５９】また、環境モデル格納部２００に格納され
ている環境モデルとしては、時間モデル、温度モデル及
び照度モデルの３種類があり、各モデルに従って取得さ
れた時間環境尤度、温度環境尤度及び照度環境尤度を乗
算して、候補の単語の環境尤度を求めている。このた
め、複数の環境条件に従って環境尤度を求めることが可
能となる。

【００６０】さらに、家電機器リモート制御部１１は、
音声認識部１２が環境条件を考慮して音声認識した結果
に従って、家電機器２をそれぞれ制御するものとしてい
る。このため、環境条件にそぐわないような場面で家電
機器２に制御指令を送出することがなく、家電機器２が
誤動作することを防ぐことができる。

【００６１】本発明は、上記の実施の形態に限られず、
種々の変形、応用が可能である。以下、本発明に適用可
能な上記の実施の形態の変形態様について説明する。

【００６２】上記の実施の形態では、音響尤度計算部１
０８は、出力部２２２から出力する音声認識結果の候補
として、単語を１つだけ抽出するものとしていた。しか
しながら、音響尤度の高いものから複数の単語を候補と
して抽出するものとしてもよい。この場合、環境尤度計
算部２１０は、抽出された複数の単語それぞれについ
て、環境モデル格納部２００を参照して環境尤度を求め
るものとすればよい。そして、尤度評価部２２１は、抽
出された複数の単語のそれぞれについて音響尤度計算部
１０８が求めた音響尤度と環境尤度計算部２１０が求め
た環境尤度とを乗算して単語尤度を求め、単語尤度が閾
値Ｍを超えるものの中で最も高い値を示す単語を音声認
識結果として出力部２２２から出力させるものとするこ
とができる。これにより、音声認識結果として何も出力
されないという場合を少なくすることができる。

【００６３】上記の実施の形態では、環境尤度計算部２
１０は、時間モデル、温度モデル及び照度モデルをそれ
ぞれ参照して得た時間環境尤度、温度環境尤度及び照度
環境尤度を単純に乗算して、その積を環境尤度として求
めていたが、他の演算方法を適用することもできる。例
えば、時間環境尤度、温度環境尤度及び照度環境尤度を
加算した和を環境尤度としてもよい。或いは、時間環境
尤度、温度環境尤度及び照度環境尤度にそれぞれ重み付
をして、乗算または加算するものとしてもよい。また、
尤度評価部２２１も、音響尤度と環境尤度とに乗算以外
の他の演算を施して、単語尤度を求めるものとしてもよ
い。音響尤度と環境尤度とにそれぞれ重み付をしてもよ
い。

【００６４】上記の実施の形態では、尤度評価部２２１
は、常に音響尤度と環境尤度とを乗算することで単語尤
度を求めるものとしていたので、候補の単語の環境尤度
が低ければ音響尤度が高くても音声認識結果として出力
されることがない。ところが、稀にではあるが、試運転
させる場合などのように環境条件にそぐわない場面で家
電機器２を動作させたいときも生じる。そこで、音響尤
度計算部１０８が候補の単語として同じ単語を連続して
抽出したとき、或いは一定の期間に一定回数以上抽出し
たときは、環境尤度の重みを小さくして単語尤度を求め
たり、環境尤度を考慮せずに音響尤度そのものを単語尤
度として用いるものとしてもよい。これにより、環境条
件にそぐわない単語を音声認識結果として意図的に出力
させることができる。

【００６５】上記の実施の形態では、環境モデル格納部
２００に格納される環境モデルとして、時間モデルと、
温度モデルと、照度モデルとの３種類を用意していた。
しかしながら、本発明はこれに限られるものではなく、
制御対象となる機器、その機器が置かれる環境によっ
て、他の環境モデルを適用することもできる。そして、
用意した環境モデルに応じた環境条件を検出する手段
（例えば、湿度モデルであれば湿度センサ）を接続し
て、その検出信号を環境尤度計算部２１０に入力するも
のとすればよい。

【００６６】上記の実施の形態では、環境モデルとして
の時間モデル、温度モデル及び照度モデルは、予め用意
されたものが固定的に用いられるものとしていた。これ
に対して、初期段階では、予め用意されたものをデフォ
ルトで用いるが、制御対象となる家電機器２がそれぞれ
操作されたときの環境条件の履歴を蓄積しておき、蓄積
された履歴に従って時間モデル、温度モデル及び照度モ
デルを変更していくものとしてもよい。

【００６７】上記の実施の形態では、制御対象となる機
器として、テレビ２−１、エアコン２−２、ステレオ２
−３、照明２−４などの家電機器を適用していた。しか
しながら、本発明はこれに限られるものではなく、他の
機器の制御に適用してもよい。例えば、カーナビゲーシ
ョンシステムの制御に適用する場合には、環境モデルと
して、自動車の速度に応じて各単語が発音される確率を
モデル化した速度モデルなどを環境モデルとして用いる
ことができる。

【００６８】上記の実施の形態では、図５及び図６に示
したフローチャートの処理を実行させるためのプログラ
ムは、汎用コンピュータのメモリに記憶されているもの
として説明した。そして、ＣＰＵがメモリに記憶された
プログラムを実行することで、パワー算出部１０３、音
声区間検出部１０４、音声特徴抽出部１０５、音響尤度
計算部１０８、環境尤度計算部２１０及び尤度評価部２
２１が実現されるものとしていた。これに対して、図５
及び図６のフローチャートの処理を汎用コンピュータに
実行させ、パワー算出部１０３、音声区間検出部１０
４、音声特徴抽出部１０５、音響尤度計算部１０８、環
境尤度計算部２１０及び尤度評価部２２１を実現させる
ためのプログラムを、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭな
どのコンピュータ読み取り可能な記録媒体に格納して配
布してもよい。または、これらのプログラムをＷｅｂサ
ーバ装置が有する固定ディスク装置に格納しておき、イ
ンターネットを汎用コンピュータにダウンロードさせる
ものとしてもよい。

【００６９】

【発明の効果】以上説明したように、本発明によれば、
環境条件を考慮して音声認識を行っているために、環境
条件に合わせて正確な音声認識結果を得ることができ
る。

【００７０】また、環境条件を考慮した音声認識結果に
基づいて制御対象となる機器を制御しているため、機器
の誤動作を防ぐことができる。

【図面の簡単な説明】

【図１】図１は、本発明の実施の形態にかかる家電機器
制御システムの構成を示すブロック図である。

【図２】図１の音声認識部の構成を示すブロック図であ
る。

【図３】（ａ）〜（ｃ）は、それぞれ時間モデル、温度
モデル、照度モデルをグラフにして示す図である。

【図４】環境モデル格納部のデータ構造を示す図であ
る。

【図５】図１のサーバ装置が実行する処理を示すフロー
チャートである。

【図６】図５の音声認識処理を詳細に示すフローチャー
トである。

【符号の説明】

１・・・サーバ装置、２・・・家電機器、３・・・マイクロフォ
ン、４・・・スピーカ、５・・・電話機、６・・・携帯電話機、
７・・・携帯電話網、１１・・・家電機器リモート制御部、１
２・・・音声認識部、１３・・・音声合成部、１０１・・・Ａ／
Ｄ変換器、１０２・・・音声データ格納部、１０３・・・パワ
ー算出部、１０４・・・音声区間検出部、１０５・・・音声特
徴抽出部、１０６・・・音素モデル格納部、１０７・・・単語
辞書格納部、１０８・・・音響尤度計算部、２００・・・環境
モデル格納部、２０１・・・時間モデル格納部、２０２・・・
温度モデル格納部、２０３・・・照度モデル格納部、２１
０・・・環境尤度計算部、２２１・・・尤度評価部、２２２・・
・出力部、３０１・・・計時部、３０２・・・温度センサ、３
０３・・・照度センサ

Claims

【特許請求の範囲】

【請求項１】音声入力手段に接続され、該音声入力手段
から入力された音声を音声認識して、その音声認識結果
を出力する音声認識手段と、制御対象となる機器に接続
され、前記音声認識手段の音声認識結果に基づいて前記
機器を制御する機器制御手段とを備える機器制御システ
ムであって、前記音声認識手段は、認識対象となる音声に含まれる各音素をモデル化した音
素モデルを格納した音素モデル格納手段と、認識結果として出力されるべき複数種類の単語の音素パ
ターン系列をそれぞれ登録した単語辞書を格納した単語
辞書格納手段と、前記単語辞書格納手段に格納された各単語が環境条件に
よって発話される確率をモデル化した環境モデルを格納
した環境モデル格納手段と、前記音声入力手段から入力された音声を前記音素モデル
及び前記単語辞書を参照して、前記単語辞書に登録され
た各種類の単語の最大音響尤度を算出し、該算出した音
響尤度に対応する単語を、認識結果として出力される単
語の候補として選出する単語候補選出手段と、環境条件を検知する検知手段に接続され、該検知手段が
検知した環境条件に従って前記環境モデルを参照して、
前記単語候補選出手段が候補として選出した単語の環境
尤度を算定する環境尤度算出手段と、前記単語候補選出手段が算出した音響尤度と前記環境尤
度算出手段が算出した環境尤度に基づいて単語尤度を算
出する単語尤度算出手段と、前記単語尤度算出手段が算出した単語尤度が所定の範囲
にあるかどうかを判定する単語尤度判定手段と、前記単語尤度判定手段が所定の範囲にあると判定したと
きに、前記単語候補選出手段が候補として選出した単語
を音声認識結果として、前記機器制御手段に出力する結
果出力手段とを備えることを特徴とする機器制御システ
ム。
【請求項２】認識対象となる音声に含まれる各音素をモ
デル化した音素モデルを格納した音素モデル格納手段
と、認識結果として出力されるべき複数種類の単語の音素パ
ターン系列をそれぞれ登録した単語辞書を格納した単語
辞書格納手段と、前記単語辞書格納手段に格納された各単語が環境条件に
よって発話される確率をモデル化した環境モデルを格納
した環境モデル格納手段と、入力された音声を前記音素モデル及び前記単語辞書を参
照して、前記単語辞書に登録された各種類の単語の最大
音響尤度を算出し、該算出した音響尤度に対応する単語
を、認識結果として出力される単語の候補として選出す
る単語候補選出手段と、環境条件を検知する検知手段に接続され、該検知手段が
検知した環境条件に従って前記環境モデルを参照して、
前記単語候補選出手段が候補として選出した単語の環境
尤度を算出する環境尤度算出手段と、前記単語候補選出手段が算出した音響尤度と前記環境尤
度算出手段が算出した環境尤度に基づいて単語尤度を算
出する単語尤度算出手段と、前記単語尤度算出手段が算出した単語尤度が所定の範囲
にあるかどうかを判定する単語尤度判定手段と、前記単語尤度判定手段が所定の範囲にあると判定したと
きに、前記単語候補選出手段が候補として選出した単語
を音声認識結果として出力する結果出力手段とを備える
ことを特徴とする音声認識装置。
【請求項３】前記環境モデル格納手段は、複数種類の環
境モデルを格納しており、前記環境尤度算出手段は、複数種類の環境モデルのそれ
ぞれに基づく環境尤度を算出し、該算出した各環境尤度
から環境尤度を算出することを特徴とする請求項２に記
載の音声認識装置。
【請求項４】前記単語候補選出手段は、音響尤度の大き
いものから複数の単語を候補として選出し、前記環境尤度算出手段は、前記単語候補選出手段が候補
として選出した複数の単語のそれぞれについて環境尤度
を算出し、前記単語尤度算出手段は、複数の単語のそれぞれについ
て音響尤度と環境尤度に基づいて、単語毎の環境尤度を
算出し、前記結果出力手段は、前記単語尤度算出手段が算出した
単語尤度が最も高い単語であって、前記単語尤度判定手
段が所定の範囲にあると判定した単語を音声認識結果と
して出力することを特徴とする請求項２または３に記載
の音声認識装置。
【請求項５】前記単語候補選出手段が連続して同じ単語
を候補として選出した場合、または一定期間に一定回数
以上同じ単語を候補として選出した場合には、前記単語
尤度算出手段は、前記環境尤度の重みを小さくして単語
尤度を算出することを特徴とする請求項２乃至４のいず
れか１項に記載の音声認識装置。
【請求項６】前記音素モデルは、認識対象となる音声に
含まれる各音素を隠れマルコフモデルでモデル化したも
のであり、前記単語候補選出手段は、前記入力された音声を所定時
間を単位として複数の区間に分割し、該分割した区間の
うちの音声区間について音響特徴ベクトルを求め、各区
間の音響特徴ベクトルと前記音素モデルとに基づいて連
続音素認識を行い、各フレームでの音響尤度の合計が最
大となる単語を候補として選出することを特徴とする請
求項２乃至５のいずれか１項に記載の音声認識装置。
【請求項７】入力された音声を、認識対象となる音声に
含まれる各音素をモデル化した音素モデル及び認識結果
として出力されるべき複数種類の単語の音素パターン系
列をそれぞれ登録した単語辞書を参照して、前記単語辞
書に登録された各種類の単語の最大音響尤度を算出し、
該算出した音響尤度に基づいて、認識結果として出力さ
れる単語の候補を選出する単語候補選出ステップと、環境条件を検知する検知手段に接続され、該検知手段が
検知した環境条件に従って、各単語が環境条件によって
発話される確率をモデル化した環境モデルを参照して、
前記単語候補選出ステップで候補として選出した単語の
環境尤度を算出する環境尤度算出ステップと、前記単語候補選出ステップで算出した音響尤度と前記環
境尤度算出ステップで算出した環境尤度に基づいて単語
尤度を算出する単語尤度算出ステップと、前記単語尤度算出ステップで算出した単語尤度が所定の
範囲にあるかどうかを判定する単語尤度判定ステップ
と、前記単語尤度判定ステップで所定の範囲にあると判定し
たときに、前記単語候補選出ステップで候補として選出
した単語を音声認識結果として出力する結果出力ステッ
プとを含むことを特徴とする音声認識方法。
【請求項８】入力された音声を、認識対象となる音声に
含まれる各音素をモデル化した音素モデル及び認識結果
として出力されるべき複数種類の単語の音素パターン系
列をそれぞれ登録した単語辞書を参照して、前記単語辞
書に登録された各種類の単語の最大音響尤度を算出し、
該算出した音響尤度に基づいて、認識結果として出力さ
れる単語の候補を選出する単語候補選出手段、環境条件を検知する検知手段に接続され、該検知手段が
検知した環境条件に従って、各単語が環境条件によって
発話される確率をモデル化した環境モデルを参照して、
前記単語候補選出手段が候補として選出した単語の環境
尤度を算出する環境尤度算出手段、前記単語候補選出手段が算出した音響尤度と前記環境尤
度算出手段が算出した環境尤度とに基づいて単語尤度を
算出する単語尤度算出手段、前記単語尤度算出手段が算出した単語尤度が所定の範囲
にあるかどうかを判定する単語尤度判定手段、前記単語尤度判定手段が所定の範囲にあると判定したと
きに、前記単語候補選出手段が候補として選出した単語
を音声認識結果として出力する結果出力手段としてコン
ピュータ装置を機能させるためのプログラム。