JP4552368B2 - 機器制御システム、音声認識装置及び方法、並びにプログラム - Google Patents

機器制御システム、音声認識装置及び方法、並びにプログラム Download PDF

Info

Publication number
JP4552368B2
JP4552368B2 JP2001242995A JP2001242995A JP4552368B2 JP 4552368 B2 JP4552368 B2 JP 4552368B2 JP 2001242995 A JP2001242995 A JP 2001242995A JP 2001242995 A JP2001242995 A JP 2001242995A JP 4552368 B2 JP4552368 B2 JP 4552368B2
Authority
JP
Japan
Prior art keywords
word
likelihood
environmental
candidate
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001242995A
Other languages
English (en)
Other versions
JP2003058184A (ja
Inventor
滋 加福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2001242995A priority Critical patent/JP4552368B2/ja
Publication of JP2003058184A publication Critical patent/JP2003058184A/ja
Application granted granted Critical
Publication of JP4552368B2 publication Critical patent/JP4552368B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識結果に基づいて機器を制御する機器制御システム、及び、このような機器制御システムに適用して好適な音声認識装置等に関する。
【0002】
【従来の技術】
従来の音声認識装置では、話者が発声した音声を分析して得られた特徴を基に音素モデルを参照し、音響的にどの単語の発生確率が高いかを示す尤度を求めている。さらに尤度が最も高い単語が言語的に正しいかを検証するための言語モデルを参照して言語的な発生確率を求め、音響的な発生確率と言語的な発生確率とを組み合わせて最適と考えられる単語を、音声認識結果として出力している。
【0003】
このような音声認識装置の適用範囲としては様々なものが従来から知られているが、そのうちの1つとして家電機器などの動作を制御するシステムが知られている。このようなシステムでは、制御対象となる機器を1つだけとしているものもあるが、1つの制御装置で複数の機器を制御するものもある。
【0004】
【発明が解決しようとする課題】
ところで、従来の音声認識装置では、話者が発した音声の音響的特徴と言語的特徴だけで音声認識を行っているため、言語モデルの精度がよくないと、本来認識されるべき発話内容(単語)を棄却したり、棄却すべき発話内容が棄却されないといった認識処理の誤りが生じることとなる。
【0005】
また、上記の複数の家電機器を制御するシステムで適用した場合、機器名が様々であっても、その動作としては共通していることが多い。このため、機器名だけが誤って認識されたとしても言語的な特徴として矛盾が生じないものとなってしまう。例えば「風呂を入れる」も「エアコンを入れる」も言語的な特徴として何の問題もない。このため、話者が「エアコンを入れる」と発したのにも関わらず、機器名だけが誤って認識されて「風呂を入れる」という音声認識結果が誤って得られたとすると、話者の意思とは関係なく、風呂の電源が入ってしまうこととなる。
【0006】
本発明は、上記従来技術の問題点を解消するためになされたものであり、環境条件に応じて単語が発せられる確率を考慮することで、精度の高い音声認識結果を得ることができる音声認識装置等を提供することを目的とする。
【0007】
本発明は、また、環境条件に合わせた正確な音声認識を行うことで、制御対象となる機器が誤動作することを防ぐことができる機器制御システムを提供することを目的とする。
【0008】
【課題を解決するための手段】
上記目的を達成するため、本発明の第1の観点にかかる機器制御システムは、
音声入力手段に接続され、該音声入力手段から入力された音声を音声認識して、その音声認識結果を出力する音声認識手段と、制御対象となる機器に接続され、前記音声認識手段の音声認識結果に基づいて前記機器を制御する機器制御手段とを備える機器制御システムであって、
前記音声認識手段は、
認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段と、
認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を格納した単語辞書格納手段と、
前記単語辞書格納手段に格納された各単語が環境条件によって発話される確率をモデル化した環境モデルを格納した環境モデル格納手段と、
前記音声入力手段から入力された音声を前記音素モデル及び前記単語辞書を参照して、前記単語辞書に登録された各種類の単語の最大音響尤度を算出し、該算出した音響尤度に対応する単語を、認識結果として出力される単語の候補として選出する単語候補選出手段と、
環境条件を検知する検知手段に接続され、該検知手段が検知した環境条件に従って前記環境モデルを参照して、前記単語候補選出手段が候補として選出した単語の環境尤度を算定する環境尤度算出手段と、
前記単語候補選出手段が算出した音響尤度と前記環境尤度算出手段が算出した環境尤度に基づいて単語尤度を算出するとともに、前記単語候補選出手段が連続して同じ単語を候補として選出した場合、または一定期間に一定回数以上同じ単語を候補として選出した場合には、前記環境尤度の重みを小さくして単語尤度を算出する単語尤度算出手段と、
前記単語尤度算出手段が算出した単語尤度が所定の範囲にあるかどうかを判定する単語尤度判定手段と、
前記単語尤度判定手段が所定の範囲にあると判定したときに、前記単語候補選出手段が候補として選出した単語を音声認識結果として、前記機器制御手段に出力する結果出力手段とを備える
ことを特徴とする。
【0009】
上記機器制御システムにおいて、音声認識手段は、環境モデル格納手段を備え、環境条件を考慮して音声認識を行っている。このため、環境条件にそぐわないような音声認識結果が誤って得られることがなくなり、制御対象となる機器を誤動作させることがない。
【0010】
上記目的を達成するため、本発明の第2の観点にかかる音声認識装置は、
認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段と、
認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を格納した単語辞書格納手段と、
前記単語辞書格納手段に格納された各単語が環境条件によって発話される確率をモデル化した環境モデルを格納した環境モデル格納手段と、
入力された音声を前記音素モデル及び前記単語辞書を参照して、前記単語辞書に登録された各種類の単語の最大音響尤度を算出し、該算出した音響尤度に対応する単語を、認識結果として出力される単語の候補として選出する単語候補選出手段と、
環境条件を検知する検知手段に接続され、該検知手段が検知した環境条件に従って前記環境モデルを参照して、前記単語候補選出手段が候補として選出した単語の環境尤度を算出する環境尤度算出手段と、
前記単語候補選出手段が算出した音響尤度と前記環境尤度算出手段が算出した環境尤度に基づいて単語尤度を算出するとともに、前記単語候補選出手段が連続して同じ単語を候補として選出した場合、または一定期間に一定回数以上同じ単語を候補として選出した場合には、前記環境尤度の重みを小さくして単語尤度を算出する単語尤度算出手段と、
前記単語尤度算出手段が算出した単語尤度が所定の範囲にあるかどうかを判定する単語尤度判定手段と、
前記単語尤度判定手段が所定の範囲にあると判定したときに、前記単語候補選出手段が候補として選出した単語を音声認識結果として出力する結果出力手段と
を備えることを特徴とする。
【0011】
上記音声認識装置では、候補の単語の音響尤度だけに基づいて音声認識結果を出力するのではなく、環境尤度算出手段が求めた環境尤度を考慮した単語尤度に基づいて音声認識結果を出力するようにしている。このため、環境条件にそぐわないような音声認識結果が出力されることがなく、音声認識の精度を高くすることができる。
【0012】
上記音声認識装置において、
前記環境モデル格納手段は、複数種類の環境モデルを格納していてもよい。この場合において、
前記環境尤度算出手段は、複数種類の環境モデルのそれぞれに基づく環境尤度を算出し、該算出した各環境尤度から環境尤度を算出するものとすることができる。
【0013】
この場合には、複数の環境条件に従って環境尤度を求めることが可能となり、さらに音声認識の精度を高くすることができる。
【0014】
上記音声認識装置において、
前記単語候補選出手段は、音響尤度の大きいものから複数の単語を候補として選出し、
前記環境尤度算出手段は、前記単語候補選出手段が候補として選出した複数の単語のそれぞれについて環境尤度を算出し、
前記単語尤度算出手段は、複数の単語のそれぞれについて音響尤度と環境尤度に基づいて、単語毎の環境尤度を算出することができる。この場合において、
前記結果出力手段は、前記単語尤度算出手段が算出した単語尤度が最も高い単語であって、前記単語尤度判定手段が所定の範囲にあると判定した単語を音声認識結果として出力するものとすることができる。
【0015】
この場合には、音声認識結果として何も出力されないというような場合を少なくすることができる。
【0018】
上記音声認識装置において、
前記音素モデルは、例えば、認識対象となる音声に含まれる各音素を隠れマルコフモデルでモデル化したものであってもよい。この場合、
前記単語候補選出手段は、前記入力された音声を所定時間を単位として複数の区間に分割し、該分割した区間のうちの音声区間について音響特徴ベクトルを求め、各区間の音響特徴ベクトルと前記音素モデルとに基づいて連続音素認識を行い、各フレームでの音響尤度の合計が最大となる単語を候補として選出するものとすることができる。
【0019】
上記目的を達成するため、本発明の第3の観点にかかる音声認識方法は、
入力された音声を、認識対象となる音声に含まれる各音素をモデル化した音素モデル及び認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を参照して、前記単語辞書に登録された各種類の単語の最大音響尤度を算出し、該算出した音響尤度に基づいて、認識結果として出力される単語の候補を選出する単語候補選出ステップと、
環境条件を検知する検知手段に接続され、該検知手段が検知した環境条件に従って、各単語が環境条件によって発話される確率をモデル化した環境モデルを参照して、前記単語候補選出ステップで候補として選出した単語の環境尤度を算出する環境尤度算出ステップと、
前記単語候補選出ステップで算出した音響尤度と前記環境尤度算出ステップで算出した環境尤度に基づいて単語尤度を算出するとともに、前記単語候補選出ステップで連続して同じ単語を候補として選出した場合、または一定期間に一定回数以上同じ単語を候補として選出した場合には、前記環境尤度の重みを小さくして単語尤度を算出する単語尤度算出ステップと、
前記単語尤度算出ステップで算出した単語尤度が所定の範囲にあるかどうかを判定する単語尤度判定ステップと、
前記単語尤度判定ステップで所定の範囲にあると判定したときに、前記単語候補選出ステップで候補として選出した単語を音声認識結果として出力する結果出力ステップと
を含むことを特徴とする。
【0020】
上記目的を達成するため、本発明の第4の観点にかかるプログラムは、
入力された音声を、認識対象となる音声に含まれる各音素をモデル化した音素モデル及び認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を参照して、前記単語辞書に登録された各種類の単語の最大音響尤度を算出し、該算出した音響尤度に基づいて、認識結果として出力される単語の候補を選出する単語候補選出手段、
環境条件を検知する検知手段に接続され、該検知手段が検知した環境条件に従って、各単語が環境条件によって発話される確率をモデル化した環境モデルを参照して、前記単語候補選出手段が候補として選出した単語の環境尤度を算出する環境尤度算出手段、
前記単語候補選出手段が算出した音響尤度と前記環境尤度算出手段が算出した環境尤度とに基づいて単語尤度を算出するとともに、前記単語候補選出手段が連続して同じ単語を候補として選出した場合、または一定期間に一定回数以上同じ単語を候補として選出した場合には、前記環境尤度の重みを小さくして単語尤度を算出する単語尤度算出手段、
前記単語尤度算出手段が算出した単語尤度が所定の範囲にあるかどうかを判定する単語尤度判定手段、
前記単語尤度判定手段が所定の範囲にあると判定したときに、前記単語候補選出手段が候補として選出した単語を音声認識結果として出力する結果出力手段
としてコンピュータ装置を機能させることを特徴とする。
【0021】
【発明の実施の形態】
以下、添付図面を参照して、本発明の実施の形態について説明する。
【0022】
図1は、この実施の形態にかかる家電機器制御システムの構成を示すブロック図である。図示するように、この家電機器制御システムは、サーバ装置1と、家電機器2と、マイクロフォン3と、スピーカ4と、電話機5とを備えている。これらは室内に置かれているが、住人が室外にいるときも、携帯電話機6から携帯電話網7を介して電話機5に接続して、家電機器2を遠隔制御することができるようになっている。
【0023】
サーバ装置1は、家電機器2を制御するための音声を入力するマイクロフォン3と、家電機器2の制御動作に応じた音声を出力するスピーカ4と、携帯電話網7を介して携帯電話機6その他の電話機と通話を行う電話機5とに接続されている。サーバ装置1は、家電機器リモート制御部11と、音声認識部12と、音声合成部13とを備えている。
【0024】
家電機器リモート制御部11は、家電機器ネットワーク20を介して家電機器2にそれぞれ接続され、音声認識部12の音声認識結果に応じて家電機器2を制御する。音声認識部12は、マイクロフォン3から入力された音声、または電話機5が受信した音声を音声認識し、その結果を家電機器リモート制御部11と音声合成部13とに出力する。音声認識部12の詳細に構成については後述する。
音声合成部13は、音声認識部12の音声認識結果に基づく家電機器2の制御動作に応じた音声を確認のためにスピーカ4から出力し、或いは電話機5から接続状態にある携帯電話機6に送信させる。
【0025】
家電機器2は、家電機器リモート制御部11による制御対象となる機器であり、ここでは、テレビ2−1、エアコン2−2、ステレオ2−3及び照明2−4が含まれている。制御対象となる家電機器2であるテレビ2−1、エアコン2−2、ステレオ2−3及び照明2−4は、それぞれ家電機器ネットワーク20を介してサーバ装置1の家電機器リモート制御部11に接続される。
【0026】
電話機5は、自動応答機能を備え、携帯電話網7を介して携帯電話機6との間で呼が設定されると、家電機器2を制御するための音声を受信して、音声認識部12に渡す。また、音声合成部13が合成した音声を携帯電話網7を介して携帯電話機6に送信する。
【0027】
図2は、図1の音声認識部12の構成を示すブロック図である。A/D変換器101と、音声データ格納部102と、パワー算出部103と、音声区間検出部104と、音声特徴抽出部105と、音素モデル格納部106と、単語辞書格納部107と、音響尤度計算部108と、環境モデル格納部200と、環境尤度計算部210と、尤度評価部221と、出力部222とを備えている。
【0028】
A/D変換器101は、不特定話者から入力された音声(アナログ信号)をアナログ/デジタル変換して、この音声を時系列で示すデジタル音声信号(例えば、PCM信号)に出力する。音声データ格納部102は、A/D変換器101から出力されたデジタル音声信号を格納する。
【0029】
パワー算出部103は、音声データ格納部102に格納されたデジタル音声信号を、所定の時間間隔(2.0〜4.0ミリ秒)で音声データを、時間窓などのハミング窓によって複数のフレームに区分し、区分した各フレームから音声データを切り出してパワー成分を求める。音声区間検出部104は、パワー算出部103が算出したパワー成分が所定の閾値を超えたフレームを音声区間として検出する。例えば、1秒以内にパワー成分が閾値を下回ったフレームは、音声区間としない。音声特徴抽出部105は、音声区間検出部104が検出した音声区間について、それぞれパワー算出部103が算出したパワー成分に基づいて音響特徴ベクトルX(t)を計算する。
【0030】
音素モデル格納部106は、認識対象となる音声を構成する全ての音素をモデル化した音素モデルを格納している。音素モデルとしては、例えば隠れマルコフモデル(HMM)が適用される。単語辞書格納部107は、単語毎の音素パターン系列情報を登録した単語辞書を格納している。この単語辞書は、例えば、“テレビ”という単語について、t→e→r→e→b→iという音素パターン系列を登録している。
【0031】
音響尤度計算部108は、音響特徴ベクトルX(t)とHMMによる音素モデルとを参照してフレーム毎の連続音素認識を行い、各フレームの音響尤度の合計が最大となるものを暫定的に候補の単語として抽出する。
【0032】
環境モデル格納部200は、制御対象となる家電機器2を操作するための音声として、室内環境によって単語(短い文章となる場合を含む)がどのような確率で統計的に発音されるかを示す統計的発音モデルを格納するものである。ここでは、環境モデルとして時間モデル、温度モデル、照度モデルを用意しており、それぞれ時間モデル格納部201、温度モデル格納部202、照度モデル格納部203に格納している。
【0033】
図3(a)〜(c)は、環境モデルをグラフにして示したものであり、それぞれ時間モデル、温度モデル及び照度モデルを示している。図3(a)に示す時間モデルは、単語辞書格納部107の単語辞書に登録されている単語毎に、一日24時間のうちの時間に従って発音されやすい確率を表したモデルである。図3(b)に示す温度モデルは、単語辞書に登録されている単語毎に、室内温度に従って発音されやすい確率を表したモデルである。図3(c)に示す照度モデルは、単語辞書に登録されている単語毎に、室内の明るさに従って発音されやすい確率を表したモデルである。
【0034】
例えば、「エアコンを入れる」という単語は、特に時間によって発音される確率が変化する単語であり、図3(a)の時間モデルに示すように、発音される頻度の高い時間帯で確率が高くなっている。但し、発音される頻度が低い時間帯でも、時間モデル、温度モデル及び照度モデルにおいて、確率が0となることはない。
【0035】
なお、後述するように音声合成部13で合成された音声に対する応答として発音される「はい」または「いいえ」といった単語は、環境条件によって発音される確率が影響を受けないので、時間モデル、温度モデル及び照度モデルにおいて発音される確率が一定に設定されている。また、図3(a)〜(c)に示した発音される確率は季節や曜日によって変化することがあるので、季節や曜日によって異なる時間モデル、温度モデルおよび/または照度モデルを用いるものとしてもよい。
【0036】
なお、図4は、環境モデル格納部200のデータ構造を、時間モデルを例として示している。すなわち、単語毎に、時間と発音されやすさの確率(時間環境尤度)を対応付けて記憶するものである。例えば、「エアコンを入れる」という単語が1:00に発話されたときの時間環境尤度は、0.12ということとなる。
【0037】
図2に示す環境尤度計算部210は、室内に設けられた計時部301、温度センサ302及び照度センサ303に接続されている。計時部301は、時計が計時している時間に応じた信号を入力するものである。温度センサ302は、室内の温度を検知するセンサであり、照度センサ303は、室内の照度を検知するセンサである。
【0038】
環境尤度計算部210は、音響尤度計算部108が候補とした単語について、計時部301が計時している時間に基づいて時間モデル格納部201を参照し、時間環境尤度を取得する。また、その候補の単語について、温度センサ302が検知した温度に基づいて温度モデル格納部202を参照し、温度環境尤度を取得する。また、その候補の単語について、照度センサ303が検知した照度に基づいて照度モデル格納部203を参照し、照度環境尤度を取得する。
【0039】
環境尤度計算部210は、こうして取得した時間環境尤度、温度環境尤度及び照度環境尤度を用いて次式に示す演算を行い、その演算結果を環境尤度として求める。
【数1】
(環境尤度)=(時間環境尤度)×(温度環境尤度)×(照度環境尤度)
【0040】
尤度評価部221は、音響尤度計算部108が求めた音響尤度と環境尤度計算部210が求めた環境尤度を用いて次式に示す演算を行い、その演算結果を単語尤度として求める。
【数2】
(単語尤度)=(音響尤度)×(環境尤度)
【0041】
尤度評価部221は、こうして求めた単語尤度が予め定められた閾値Mよりも大きいかどうかを判定し、単語尤度が閾値Mよりも大きい場合には、音響尤度計算部108が候補として抽出した単語を出力部222に渡す。単語尤度が閾値M以下であった場合には、当該単語を棄却する。出力部222は、尤度評価部221から渡された単語を、最終的な音声認識結果として家電機器リモート制御部11と音声合成部13とに出力する。
【0042】
なお、上記の音声認識部12を含むサーバ装置1は、パーソナルコンピュータなどの汎用コンピュータをプラットフォームとして実現することができる。音声データ格納部102、音素モデル格納部106、単語辞書格納部107、環境モデル格納部200は、それぞれに対応した領域がメモリに確保されることによって実現される。音素モデル格納部106が格納する音素モデル、単語辞書格納部107が格納する単語辞書、環境モデル格納部200が格納する各環境モデルは、音声認識処理を行う前に予め外部装置から読み込まれてメモリに記憶される。
パワー算出部103、音声区間検出部104、音声特徴抽出部105、音響尤度計算部108、環境尤度計算部210及び尤度評価部221は、CPU(Central Processing Unit)がメモリに記憶されたプログラムを実行することによって実現される。
【0043】
以下、この実施の形態にかかる家電機器制御システムの動作について説明する。
【0044】
図5は、この実施の形態にかかる家電機器制御システムにおいてサーバ装置1が実行する処理を示すフローチャートである。まず、住人が家電機器2のうちのいずれかに何らかの動作を行わせようとする場合、その行わせたい動作に応じた単語を音声でマイクロフォン3から入力する。住人が外出している場合には、携帯電話機6から電話機5に電話をかけ、電話機5からの応答に従って、家電機器2に行わせたい動作に応じた単語を携帯電話機6から遠隔入力する(ステップS101)。
【0045】
家電機器2に行わせた動作に応じた単語が音声で入力されると、音声認識部12は、その音声を音声認識する(ステップS102)。なお、音声認識部11音声認識部12による音声認識の処理の詳細については後述する。そして、この音声認識処理において、後述するように音声認識結果として何らかの単語が出力されたかどうかを判定する(ステップS103)。
【0046】
ステップS102の音声認識処理において何らかの単語が出力されていた場合には、その単語が確認としての応答である「はい」または「いいえ」(これらと同等の意味を有する単語、例えば「イエス」や「ノー」といったものを含む)であったかどうかを判定する(ステップS104)。
【0047】
出力された単語が「はい」でも「いいえ」でもないと判定された場合は、その単語は、家電機器2のいずれかにさせようとする動作を指示したものである。そこで、家電機器リモート制御部11は、当該出力された単語を一時保存する(ステップS105)。また、音声合成部13は、当該出力された単語を音声合成してスピーカ4から出力する。但し、ステップS101で音声が遠隔入力された場合には、電話機5から携帯電話網7を介して音声信号を送信し、携帯電話機6から出力させる(ステップS106)。そして、処理を終了して、次の音声入力の待ち状態となる。
【0048】
なお、ステップS105で家電機器リモート制御部11内に保存された単語は、後述するステップS111において破棄される他、次の音声入力が一定期間されない場合も破棄される。また、次に音声入力待ちの状態となった後に、ステップS105で新たな単語が保存されることとなると、それまでに保存されていた単語は破棄される。
【0049】
また、ステップS104において出力された単語が「はい」または「いいえ」であると判定された場合には、家電機器リモート制御部11内に、ステップS105で保存された単語があるかどうかを判定する(ステップS107)。ステップS105で保存された単語がなければ、そのまま処理を終了して、次の音声入力の待ち状態となる。一方、ステップS105で保存された単語があった場合には、さらにステップS102の音声認識処理で出力された単語が「はい」(同等の意味を有する単語を含む)であるかどうかを判定する(ステップS108)。
【0050】
出力された単語が「はい」であると判定された場合には、家電機器リモート制御部11は、ステップS105で保存された単語に基づいて、制御すべき家電機器2と動作させるべき制御指令とを抽出する(ステップS109)。さらに家電機器ネットワーク20を介して抽出した家電機器2に制御指令を送出する(ステップS110)。これで、制御指令の送られた家電機器は、制御指令に応じた動作を行うものとなる。そして、処理を終了して、次の音声入力の待ち状態となる。
【0051】
一方、ステップS108において出力された単語が「いいえ」(同等の意味を有する単語を含む)であると判定された場合には、家電機器リモート制御部11は、ステップS105で保存された単語を破棄する(ステップS111)。そして、処理を終了して、次の音声入力の待ち状態となる。
【0052】
図6は、ステップS102において音声認識部12が実行する音声認識処理を詳細に示すフローチャートである。まず、A/D変換器101は、ステップS101で入力された音声を時系列のデジタル音声信号に変換して音声データ格納部102に格納する(ステップS201)。次に、パワー算出部103は、音声データ格納部102に格納したデジタル音声信号を所定時間毎で複数のフレームに区分し、各フレームのパワー成分を算出する(ステップS202)。
【0053】
次に、音声区間検出部104は、ステップS202で算出した各フレームのパワー成分を所定の閾値と比較し、閾値を上回ったフレームを音声区間として抽出する(ステップS203)。そして、この処理で候補の単語を抽出するのに必要なだけの音声区間が検出されたかどうかを判定する(ステップS204)。必要なだけの音声区間が検出されていなければ、処理を終了する。必要なだけの音声区間が検出された場合には、音声特徴抽出部105は、ステップS202で算出した各フレームのパワー成分に基づいて、ステップS203で抽出した音声区間の音響特徴ベクトルX(t)を計算する(ステップS205)。
【0054】
次に、音響尤度計算部108は、ステップS205で算出した音声特徴ベクトルX(t)と音響モデル格納部106に格納されている音素モデルとしての隠れマルコフモデルに基づいて、単語辞書格納部107に格納されている単語辞書に登録された単語のうちで尤度が最も高くなるものを、候補の単語として抽出する(ステップS206)。
【0055】
次に、環境尤度計算部210は、計時部301が計時している時間、温度センサ302が検知している温度、及び照度センサ303が検知している照度をそれぞれ取得する。そして、音響尤度計算部108が候補とした単語について、取得した時間、温度及び照度に基づいてそれぞれ時間モデル格納部201、温度モデル格納部202及び照度モデル格納部203を参照し、時間環境尤度、温度環境尤度及び照度環境尤度を取得する。そして、時間環境尤度の値、温度環境尤度の値及び照度環境尤度の値を乗算し、その乗算結果を環境尤度として求める(ステップS207)。
【0056】
次に、尤度評価部221は、音響尤度計算部108が求めた音響尤度の値と、環境尤度計算部210が求めた環境尤度の値とを乗算し、その乗算結果を単語尤度として求める(ステップS208)。さらに尤度評価部221は、求めた単語尤度の値が予め定められた閾値Mよりも大きいかどうかを判定する(ステップS209)。
【0057】
単語尤度の値が閾値Mよりも大きければ、音響尤度計算部108が抽出した候補の単語を出力部222に渡し、出力部222が、この単語を音声認識結果として出力する(ステップS210)。そして、このフローチャートの処理を終了し、メインルーチン(図5)に復帰する。一方、単語尤度の値が閾値M以下であれば、音響尤度計算部108が抽出した候補の単語を棄却して音声認識結果として何の単語も出力せずに(ステップS211)、このフローチャートの処理を終了し、メインルーチン(図5)に復帰する。
【0058】
以上説明したように、本発明の実施の形態にかかる家電機器制御システムで適用されている音声認識部12は、環境モデル格納部200と環境尤度計算部210を有しており、音響尤度計算部108が抽出した候補の単語についての環境尤度を求めている。そして、尤度評価部221は、この環境尤度を音響尤度計算部108が求めた音響尤度に掛けて単語尤度を求め、一定の閾値Mを上回る場合にのみ、候補の単語を音声認識結果として出力するようにしている。つまり、候補の単語の音響尤度が高くても環境尤度が低ければ、その単語が音声認識結果として出力されることがないため、環境条件にそぐわないような音声認識結果が出力されることがなく、音声認識の精度を高くすることができる。
【0059】
また、環境モデル格納部200に格納されている環境モデルとしては、時間モデル、温度モデル及び照度モデルの3種類があり、各モデルに従って取得された時間環境尤度、温度環境尤度及び照度環境尤度を乗算して、候補の単語の環境尤度を求めている。このため、複数の環境条件に従って環境尤度を求めることが可能となる。
【0060】
さらに、家電機器リモート制御部11は、音声認識部12が環境条件を考慮して音声認識した結果に従って、家電機器2をそれぞれ制御するものとしている。
このため、環境条件にそぐわないような場面で家電機器2に制御指令を送出することがなく、家電機器2が誤動作することを防ぐことができる。
【0061】
本発明は、上記の実施の形態に限られず、種々の変形、応用が可能である。以下、本発明に適用可能な上記の実施の形態の変形態様について説明する。
【0062】
上記の実施の形態では、音響尤度計算部108は、出力部222から出力する音声認識結果の候補として、単語を1つだけ抽出するものとしていた。しかしながら、音響尤度の高いものから複数の単語を候補として抽出するものとしてもよい。この場合、環境尤度計算部210は、抽出された複数の単語それぞれについて、環境モデル格納部200を参照して環境尤度を求めるものとすればよい。そして、尤度評価部221は、抽出された複数の単語のそれぞれについて音響尤度計算部108が求めた音響尤度と環境尤度計算部210が求めた環境尤度とを乗算して単語尤度を求め、単語尤度が閾値Mを超えるものの中で最も高い値を示す単語を音声認識結果として出力部222から出力させるものとすることができる。これにより、音声認識結果として何も出力されないという場合を少なくすることができる。
【0063】
上記の実施の形態では、環境尤度計算部210は、時間モデル、温度モデル及び照度モデルをそれぞれ参照して得た時間環境尤度、温度環境尤度及び照度環境尤度を単純に乗算して、その積を環境尤度として求めていたが、他の演算方法を適用することもできる。例えば、時間環境尤度、温度環境尤度及び照度環境尤度を加算した和を環境尤度としてもよい。或いは、時間環境尤度、温度環境尤度及び照度環境尤度にそれぞれ重み付をして、乗算または加算するものとしてもよい。また、尤度評価部221も、音響尤度と環境尤度とに乗算以外の他の演算を施して、単語尤度を求めるものとしてもよい。音響尤度と環境尤度とにそれぞれ重み付をしてもよい。
【0064】
上記の実施の形態では、尤度評価部221は、常に音響尤度と環境尤度とを乗算することで単語尤度を求めるものとしていたので、候補の単語の環境尤度が低ければ音響尤度が高くても音声認識結果として出力されることがない。ところが、稀にではあるが、試運転させる場合などのように環境条件にそぐわない場面で家電機器2を動作させたいときも生じる。そこで、音響尤度計算部108が候補の単語として同じ単語を連続して抽出したとき、或いは一定の期間に一定回数以上抽出したときは、環境尤度の重みを小さくして単語尤度を求めたり、環境尤度を考慮せずに音響尤度そのものを単語尤度として用いるものとしてもよい。これにより、環境条件にそぐわない単語を音声認識結果として意図的に出力させることができる。
【0065】
上記の実施の形態では、環境モデル格納部200に格納される環境モデルとして、時間モデルと、温度モデルと、照度モデルとの3種類を用意していた。しかしながら、本発明はこれに限られるものではなく、制御対象となる機器、その機器が置かれる環境によって、他の環境モデルを適用することもできる。そして、用意した環境モデルに応じた環境条件を検出する手段(例えば、湿度モデルであれば湿度センサ)を接続して、その検出信号を環境尤度計算部210に入力するものとすればよい。
【0066】
上記の実施の形態では、環境モデルとしての時間モデル、温度モデル及び照度モデルは、予め用意されたものが固定的に用いられるものとしていた。これに対して、初期段階では、予め用意されたものをデフォルトで用いるが、制御対象となる家電機器2がそれぞれ操作されたときの環境条件の履歴を蓄積しておき、蓄積された履歴に従って時間モデル、温度モデル及び照度モデルを変更していくものとしてもよい。
【0067】
上記の実施の形態では、制御対象となる機器として、テレビ2−1、エアコン2−2、ステレオ2−3、照明2−4などの家電機器を適用していた。しかしながら、本発明はこれに限られるものではなく、他の機器の制御に適用してもよい。例えば、カーナビゲーションシステムの制御に適用する場合には、環境モデルとして、自動車の速度に応じて各単語が発音される確率をモデル化した速度モデルなどを環境モデルとして用いることができる。
【0068】
上記の実施の形態では、図5及び図6に示したフローチャートの処理を実行させるためのプログラムは、汎用コンピュータのメモリに記憶されているものとして説明した。そして、CPUがメモリに記憶されたプログラムを実行することで、パワー算出部103、音声区間検出部104、音声特徴抽出部105、音響尤度計算部108、環境尤度計算部210及び尤度評価部221が実現されるものとしていた。これに対して、図5及び図6のフローチャートの処理を汎用コンピュータに実行させ、パワー算出部103、音声区間検出部104、音声特徴抽出部105、音響尤度計算部108、環境尤度計算部210及び尤度評価部221を実現させるためのプログラムを、CD−ROMやDVD−ROMなどのコンピュータ読み取り可能な記録媒体に格納して配布してもよい。または、これらのプログラムをWebサーバ装置が有する固定ディスク装置に格納しておき、インターネットを汎用コンピュータにダウンロードさせるものとしてもよい。
【0069】
【発明の効果】
以上説明したように、本発明によれば、環境条件を考慮して音声認識を行っているために、環境条件に合わせて正確な音声認識結果を得ることができる。
【0070】
また、環境条件を考慮した音声認識結果に基づいて制御対象となる機器を制御しているため、機器の誤動作を防ぐことができる。
【図面の簡単な説明】
【図1】図1は、本発明の実施の形態にかかる家電機器制御システムの構成を示すブロック図である。
【図2】図1の音声認識部の構成を示すブロック図である。
【図3】(a)〜(c)は、それぞれ時間モデル、温度モデル、照度モデルをグラフにして示す図である。
【図4】環境モデル格納部のデータ構造を示す図である。
【図5】図1のサーバ装置が実行する処理を示すフローチャートである。
【図6】図5の音声認識処理を詳細に示すフローチャートである。
【符号の説明】
1・・・サーバ装置、2・・・家電機器、3・・・マイクロフォン、4・・・スピーカ、5・・・電話機、6・・・携帯電話機、7・・・携帯電話網、11・・・家電機器リモート制御部、12・・・音声認識部、13・・・音声合成部、101・・・A/D変換器、102・・・音声データ格納部、103・・・パワー算出部、104・・・音声区間検出部、105・・・音声特徴抽出部、106・・・音素モデル格納部、107・・・単語辞書格納部、108・・・音響尤度計算部、200・・・環境モデル格納部、201・・・時間モデル格納部、202・・・温度モデル格納部、203・・・照度モデル格納部、210・・・環境尤度計算部、221・・・尤度評価部、222・・・出力部、301・・・計時部、302・・・温度センサ、303・・・照度センサ

Claims (7)

  1. 音声入力手段に接続され、該音声入力手段から入力された音声を音声認識して、その音声認識結果を出力する音声認識手段と、制御対象となる機器に接続され、前記音声認識手段の音声認識結果に基づいて前記機器を制御する機器制御手段とを備える機器制御システムであって、
    前記音声認識手段は、
    認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段と、
    認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を格納した単語辞書格納手段と、
    前記単語辞書格納手段に格納された各単語が環境条件によって発話される確率をモデル化した環境モデルを格納した環境モデル格納手段と、
    前記音声入力手段から入力された音声を前記音素モデル及び前記単語辞書を参照して、前記単語辞書に登録された各種類の単語の最大音響尤度を算出し、該算出した音響尤度に対応する単語を、認識結果として出力される単語の候補として選出する単語候補選出手段と、
    環境条件を検知する検知手段に接続され、該検知手段が検知した環境条件に従って前記環境モデルを参照して、前記単語候補選出手段が候補として選出した単語の環境尤度を算定する環境尤度算出手段と、
    前記単語候補選出手段が算出した音響尤度と前記環境尤度算出手段が算出した環境尤度に基づいて単語尤度を算出するとともに、前記単語候補選出手段が連続して同じ単語を候補として選出した場合、または一定期間に一定回数以上同じ単語を候補として選出した場合には、前記環境尤度の重みを小さくして単語尤度を算出する単語尤度算出手段と、
    前記単語尤度算出手段が算出した単語尤度が所定の範囲にあるかどうかを判定する単語尤度判定手段と、
    前記単語尤度判定手段が所定の範囲にあると判定したときに、前記単語候補選出手段が候補として選出した単語を音声認識結果として、前記機器制御手段に出力する結果出力手段とを備える
    ことを特徴とする機器制御システム。
  2. 認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段と、
    認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を格納した単語辞書格納手段と、
    前記単語辞書格納手段に格納された各単語が環境条件によって発話される確率をモデル化した環境モデルを格納した環境モデル格納手段と、
    入力された音声を前記音素モデル及び前記単語辞書を参照して、前記単語辞書に登録された各種類の単語の最大音響尤度を算出し、該算出した音響尤度に対応する単語を、認識結果として出力される単語の候補として選出する単語候補選出手段と、
    環境条件を検知する検知手段に接続され、該検知手段が検知した環境条件に従って前記環境モデルを参照して、前記単語候補選出手段が候補として選出した単語の環境尤度を算出する環境尤度算出手段と、
    前記単語候補選出手段が算出した音響尤度と前記環境尤度算出手段が算出した環境尤度に基づいて単語尤度を算出するとともに、前記単語候補選出手段が連続して同じ単語を候補として選出した場合、または一定期間に一定回数以上同じ単語を候補として選出した場合には、前記環境尤度の重みを小さくして単語尤度を算出する単語尤度算出手段と、
    前記単語尤度算出手段が算出した単語尤度が所定の範囲にあるかどうかを判定する単語尤度判定手段と、
    前記単語尤度判定手段が所定の範囲にあると判定したときに、前記単語候補選出手段が候補として選出した単語を音声認識結果として出力する結果出力手段と
    を備えることを特徴とする音声認識装置。
  3. 前記環境モデル格納手段は、複数種類の環境モデルを格納しており、
    前記環境尤度算出手段は、複数種類の環境モデルのそれぞれに基づく環境尤度を算出し、該算出した各環境尤度から環境尤度を算出する
    ことを特徴とする請求項2に記載の音声認識装置。
  4. 前記単語候補選出手段は、音響尤度の大きいものから複数の単語を候補として選出し、
    前記環境尤度算出手段は、前記単語候補選出手段が候補として選出した複数の単語のそれぞれについて環境尤度を算出し、
    前記単語尤度算出手段は、複数の単語のそれぞれについて音響尤度と環境尤度に基づいて、単語毎の環境尤度を算出し、
    前記結果出力手段は、前記単語尤度算出手段が算出した単語尤度が最も高い単語であって、前記単語尤度判定手段が所定の範囲にあると判定した単語を音声認識結果として出力する
    ことを特徴とする請求項2または3に記載の音声認識装置。
  5. 前記音素モデルは、認識対象となる音声に含まれる各音素を隠れマルコフモデルでモデル化したものであり、
    前記単語候補選出手段は、前記入力された音声を所定時間を単位として複数の区間に分割し、該分割した区間のうちの音声区間について音響特徴ベクトルを求め、各区間の音響特徴ベクトルと前記音素モデルとに基づいて連続音素認識を行い、各フレームでの音響尤度の合計が最大となる単語を候補として選出する
    ことを特徴とする請求項2乃至のいずれか1項に記載の音声認識装置。
  6. 入力された音声を、認識対象となる音声に含まれる各音素をモデル化した音素モデル及び認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を参照して、前記単語辞書に登録された各種類の単語の最大音響尤度を算出し、該算出した音響尤度に基づいて、認識結果として出力される単語の候補を選出する単語候補選出ステップと、
    環境条件を検知する検知手段に接続され、該検知手段が検知した環境条件に従って、各単語が環境条件によって発話される確率をモデル化した環境モデルを参照して、前記単語候補選出ステップで候補として選出した単語の環境尤度を算出する環境尤度算出ステップと、
    前記単語候補選出ステップで算出した音響尤度と前記環境尤度算出ステップで算出した環境尤度に基づいて単語尤度を算出するとともに、前記単語候補選出ステップで連続して同じ単語を候補として選出した場合、または一定期間に一定回数以上同じ単語を候補として選出した場合には、前記環境尤度の重みを小さくして単語尤度を算出する単語尤度算出ステップと、
    前記単語尤度算出ステップで算出した単語尤度が所定の範囲にあるかどうかを判定する単語尤度判定ステップと、
    前記単語尤度判定ステップで所定の範囲にあると判定したときに、前記単語候補選出ステップで候補として選出した単語を音声認識結果として出力する結果出力ステップと
    を含むことを特徴とする音声認識方法。
  7. 入力された音声を、認識対象となる音声に含まれる各音素をモデル化した音素モデル及び認識結果として出力されるべき複数種類の単語の音素パターン系列をそれぞれ登録した単語辞書を参照して、前記単語辞書に登録された各種類の単語の最大音響尤度を算出し、該算出した音響尤度に基づいて、認識結果として出力される単語の候補を選出する単語候補選出手段、
    環境条件を検知する検知手段に接続され、該検知手段が検知した環境条件に従って、各単語が環境条件によって発話される確率をモデル化した環境モデルを参照して、前記単語候補選出手段が候補として選出した単語の環境尤度を算出する環境尤度算出手段、
    前記単語候補選出手段が算出した音響尤度と前記環境尤度算出手段が算出した環境尤度とに基づいて単語尤度を算出するとともに、前記単語候補選出手段が連続して同じ単語を候補として選出した場合、または一定期間に一定回数以上同じ単語を候補として選出した場合には、前記環境尤度の重みを小さくして単語尤度を算出する単語尤度算出手段、
    前記単語尤度算出手段が算出した単語尤度が所定の範囲にあるかどうかを判定する単語尤度判定手段、
    前記単語尤度判定手段が所定の範囲にあると判定したときに、前記単語候補選出手段が候補として選出した単語を音声認識結果として出力する結果出力手段
    としてコンピュータ装置を機能させるためのプログラム。
JP2001242995A 2001-08-09 2001-08-09 機器制御システム、音声認識装置及び方法、並びにプログラム Expired - Fee Related JP4552368B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001242995A JP4552368B2 (ja) 2001-08-09 2001-08-09 機器制御システム、音声認識装置及び方法、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001242995A JP4552368B2 (ja) 2001-08-09 2001-08-09 機器制御システム、音声認識装置及び方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2003058184A JP2003058184A (ja) 2003-02-28
JP4552368B2 true JP4552368B2 (ja) 2010-09-29

Family

ID=19073172

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001242995A Expired - Fee Related JP4552368B2 (ja) 2001-08-09 2001-08-09 機器制御システム、音声認識装置及び方法、並びにプログラム

Country Status (1)

Country Link
JP (1) JP4552368B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005300989A (ja) * 2004-04-13 2005-10-27 Mitsubishi Electric Corp 音声認識システム
JP2005311864A (ja) * 2004-04-23 2005-11-04 Toshiba Corp 家電機器、アダプタ装置および家電機器システム
JP4282590B2 (ja) * 2004-11-29 2009-06-24 株式会社東芝 音声移動制御装置および音声移動制御方法
JP4804052B2 (ja) * 2005-07-08 2011-10-26 アルパイン株式会社 音声認識装置、音声認識装置を備えたナビゲーション装置及び音声認識装置の音声認識方法
JP5877418B2 (ja) * 2011-12-09 2016-03-08 株式会社国際電気通信基礎技術研究所 シナリオ生成装置およびシナリオ生成方法
JP6236805B2 (ja) * 2013-03-05 2017-11-29 日本電気株式会社 発話コマンド認識システム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096389A (ja) * 1995-06-22 1997-01-10 Seiko Epson Corp 音声認識対話処理方法および音声認識対話装置
JPH117293A (ja) * 1997-06-17 1999-01-12 Oki Electric Ind Co Ltd 音声認識方法及び音声認識装置
JP2001154689A (ja) * 1999-11-25 2001-06-08 Nippon Seiki Co Ltd 音声認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096389A (ja) * 1995-06-22 1997-01-10 Seiko Epson Corp 音声認識対話処理方法および音声認識対話装置
JPH117293A (ja) * 1997-06-17 1999-01-12 Oki Electric Ind Co Ltd 音声認識方法及び音声認識装置
JP2001154689A (ja) * 1999-11-25 2001-06-08 Nippon Seiki Co Ltd 音声認識装置

Also Published As

Publication number Publication date
JP2003058184A (ja) 2003-02-28

Similar Documents

Publication Publication Date Title
US11138977B1 (en) Determining device groups
US11037574B2 (en) Speaker recognition and speaker change detection
US9373321B2 (en) Generation of wake-up words
EP0077194B1 (en) Speech recognition system
JPH096389A (ja) 音声認識対話処理方法および音声認識対話装置
CN1639768B (zh) 自动语音识别方法及装置
KR20100081587A (ko) 로봇의 소리 인식 장치 및 그 제어 방법
US20090132250A1 (en) Robot apparatus with vocal interactive function and method therefor
US20130151254A1 (en) Speech recognition using speech characteristic probabilities
JP3000999B1 (ja) 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体
GB2347252A (en) Voice recognition system
JP2007017620A (ja) 発話区間検出装置、そのためのコンピュータプログラム及び記録媒体
JP4552368B2 (ja) 機器制御システム、音声認識装置及び方法、並びにプログラム
JP2014048534A (ja) 話者認識装置、話者認識方法及び話者認識プログラム
KR101145401B1 (ko) 로봇의 음성인식 성능 평가장치 및 평가 방법
US10818298B2 (en) Audio processing
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
CN109271480B (zh) 一种语音搜题方法及电子设备
JP2017116876A (ja) 話者認識装置、判別値生成方法及びプログラム
CN112820281B (zh) 一种语音识别方法、装置及设备
JP3001000B1 (ja) 音声認識装置における連続単語認識方法および音声認識装置における連続単語認識処理プログラムを記録した記録媒体
JP4449380B2 (ja) 話者正規化方法及びそれを用いた音声認識装置
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
CN117456988A (zh) 阈值生成方法、阈值生成装置以及程序
JP2004004182A (ja) 音声認識装置、音声認識方法及び音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070625

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100405

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100622

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100705

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130723

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees