JP2003058184A - 機器制御システム、音声認識装置及び方法、並びにプログラム - Google Patents

機器制御システム、音声認識装置及び方法、並びにプログラム

Info

Publication number
JP2003058184A
JP2003058184A JP2001242995A JP2001242995A JP2003058184A JP 2003058184 A JP2003058184 A JP 2003058184A JP 2001242995 A JP2001242995 A JP 2001242995A JP 2001242995 A JP2001242995 A JP 2001242995A JP 2003058184 A JP2003058184 A JP 2003058184A
Authority
JP
Japan
Prior art keywords
word
likelihood
environmental
candidate
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001242995A
Other languages
English (en)
Other versions
JP4552368B2 (ja
Inventor
Shigeru Kafuku
滋 加福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2001242995A priority Critical patent/JP4552368B2/ja
Publication of JP2003058184A publication Critical patent/JP2003058184A/ja
Application granted granted Critical
Publication of JP4552368B2 publication Critical patent/JP4552368B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 環境条件に応じて単語が発せられる確率を考
慮することで、精度の高い音声認識結果を得る。 【解決手段】 音響尤度計算部108は、音素モデル及
び単語辞書を参照して、マイクロフォン3から入力され
た音声を音素的要素及び言語的要素に従って音声認識
し、発音の確率を示す音響尤度が最も高い単語を候補と
して抽出する。環境尤度計算部210は、計時部30
1、温度センサ302及び照度センサ303から入力さ
れる環境条件に従って時間モデル、温度モデル及び照度
モデルを参照し、環境条件によって発音される確率を示
す環境尤度を求める。尤度評価部221は、音響尤度計
算部108が求めた音響尤度と環境尤度計算部210が
求めた環境尤度とを乗算し、その乗算結果を単語尤度と
して求める。そして、求めた単語尤度が所定の閾値より
も大きい場合に、音響尤度計算部108が候補として抽
出した単語を音声認識結果として出力部222から出力
する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識結果に基
づいて機器を制御する機器制御システム、及び、このよ
うな機器制御システムに適用して好適な音声認識装置等
に関する。
【0002】
【従来の技術】従来の音声認識装置では、話者が発声し
た音声を分析して得られた特徴を基に音素モデルを参照
し、音響的にどの単語の発生確率が高いかを示す尤度を
求めている。さらに尤度が最も高い単語が言語的に正し
いかを検証するための言語モデルを参照して言語的な発
生確率を求め、音響的な発生確率と言語的な発生確率と
を組み合わせて最適と考えられる単語を、音声認識結果
として出力している。
【0003】このような音声認識装置の適用範囲として
は様々なものが従来から知られているが、そのうちの1
つとして家電機器などの動作を制御するシステムが知ら
れている。このようなシステムでは、制御対象となる機
器を1つだけとしているものもあるが、1つの制御装置
で複数の機器を制御するものもある。
【0004】
【発明が解決しようとする課題】ところで、従来の音声
認識装置では、話者が発した音声の音響的特徴と言語的
特徴だけで音声認識を行っているため、言語モデルの精
度がよくないと、本来認識されるべき発話内容(単語)
を棄却したり、棄却すべき発話内容が棄却されないとい
った認識処理の誤りが生じることとなる。
【0005】また、上記の複数の家電機器を制御するシ
ステムで適用した場合、機器名が様々であっても、その
動作としては共通していることが多い。このため、機器
名だけが誤って認識されたとしても言語的な特徴として
矛盾が生じないものとなってしまう。例えば「風呂を入
れる」も「エアコンを入れる」も言語的な特徴として何
の問題もない。このため、話者が「エアコンを入れる」
と発したのにも関わらず、機器名だけが誤って認識され
て「風呂を入れる」という音声認識結果が誤って得られ
たとすると、話者の意思とは関係なく、風呂の電源が入
ってしまうこととなる。
【0006】本発明は、上記従来技術の問題点を解消す
るためになされたものであり、環境条件に応じて単語が
発せられる確率を考慮することで、精度の高い音声認識
結果を得ることができる音声認識装置等を提供すること
を目的とする。
【0007】本発明は、また、環境条件に合わせた正確
な音声認識を行うことで、制御対象となる機器が誤動作
することを防ぐことができる機器制御システムを提供す
ることを目的とする。
【0008】
【課題を解決するための手段】上記目的を達成するた
め、本発明の第1の観点にかかる機器制御システムは、
音声入力手段に接続され、該音声入力手段から入力され
た音声を音声認識して、その音声認識結果を出力する音
声認識手段と、制御対象となる機器に接続され、前記音
声認識手段の音声認識結果に基づいて前記機器を制御す
る機器制御手段とを備える機器制御システムであって、
前記音声認識手段は、認識対象となる音声に含まれる各
音素をモデル化した音素モデルを格納した音素モデル格
納手段と、認識結果として出力されるべき複数種類の単
語の音素パターン系列をそれぞれ登録した単語辞書を格
納した単語辞書格納手段と、前記単語辞書格納手段に格
納された各単語が環境条件によって発話される確率をモ
デル化した環境モデルを格納した環境モデル格納手段
と、前記音声入力手段から入力された音声を前記音素モ
デル及び前記単語辞書を参照して、前記単語辞書に登録
された各種類の単語の最大音響尤度を算出し、該算出し
た音響尤度に対応する単語を、認識結果として出力され
る単語の候補として選出する単語候補選出手段と、環境
条件を検知する検知手段に接続され、該検知手段が検知
した環境条件に従って前記環境モデルを参照して、前記
単語候補選出手段が候補として選出した単語の環境尤度
を算定する環境尤度算出手段と、前記単語候補選出手段
が算出した音響尤度と前記環境尤度算出手段が算出した
環境尤度に基づいて単語尤度を算出する単語尤度算出手
段と、前記単語尤度算出手段が算出した単語尤度が所定
の範囲にあるかどうかを判定する単語尤度判定手段と、
前記単語尤度判定手段が所定の範囲にあると判定したと
きに、前記単語候補選出手段が候補として選出した単語
を音声認識結果として、前記機器制御手段に出力する結
果出力手段とを備えることを特徴とする。
【0009】上記機器制御システムにおいて、音声認識
手段は、環境モデル格納手段を備え、環境条件を考慮し
て音声認識を行っている。このため、環境条件にそぐわ
ないような音声認識結果が誤って得られることがなくな
り、制御対象となる機器を誤動作させることがない。
【0010】上記目的を達成するため、本発明の第2の
観点にかかる音声認識装置は、認識対象となる音声に含
まれる各音素をモデル化した音素モデルを格納した音素
モデル格納手段と、認識結果として出力されるべき複数
種類の単語の音素パターン系列をそれぞれ登録した単語
辞書を格納した単語辞書格納手段と、前記単語辞書格納
手段に格納された各単語が環境条件によって発話される
確率をモデル化した環境モデルを格納した環境モデル格
納手段と、入力された音声を前記音素モデル及び前記単
語辞書を参照して、前記単語辞書に登録された各種類の
単語の最大音響尤度を算出し、該算出した音響尤度に対
応する単語を、認識結果として出力される単語の候補と
して選出する単語候補選出手段と、環境条件を検知する
検知手段に接続され、該検知手段が検知した環境条件に
従って前記環境モデルを参照して、前記単語候補選出手
段が候補として選出した単語の環境尤度を算出する環境
尤度算出手段と、前記単語候補選出手段が算出した音響
尤度と前記環境尤度算出手段が算出した環境尤度に基づ
いて単語尤度を算出する単語尤度算出手段と、前記単語
尤度算出手段が算出した単語尤度が所定の範囲にあるか
どうかを判定する単語尤度判定手段と、前記単語尤度判
定手段が所定の範囲にあると判定したときに、前記単語
候補選出手段が候補として選出した単語を音声認識結果
として出力する結果出力手段とを備えることを特徴とす
る。
【0011】上記音声認識装置では、候補の単語の音響
尤度だけに基づいて音声認識結果を出力するのではな
く、環境尤度算出手段が求めた環境尤度を考慮した単語
尤度に基づいて音声認識結果を出力するようにしてい
る。このため、環境条件にそぐわないような音声認識結
果が出力されることがなく、音声認識の精度を高くする
ことができる。
【0012】上記音声認識装置において、前記環境モデ
ル格納手段は、複数種類の環境モデルを格納していても
よい。この場合において、前記環境尤度算出手段は、複
数種類の環境モデルのそれぞれに基づく環境尤度を算出
し、該算出した各環境尤度から環境尤度を算出するもの
とすることができる。
【0013】この場合には、複数の環境条件に従って環
境尤度を求めることが可能となり、さらに音声認識の精
度を高くすることができる。
【0014】上記音声認識装置において、前記単語候補
選出手段は、音響尤度の大きいものから複数の単語を候
補として選出し、前記環境尤度算出手段は、前記単語候
補選出手段が候補として選出した複数の単語のそれぞれ
について環境尤度を算出し、前記単語尤度算出手段は、
複数の単語のそれぞれについて音響尤度と環境尤度に基
づいて、単語毎の環境尤度を算出することができる。こ
の場合において、前記結果出力手段は、前記単語尤度算
出手段が算出した単語尤度が最も高い単語であって、前
記単語尤度判定手段が所定の範囲にあると判定した単語
を音声認識結果として出力するものとすることができ
る。
【0015】この場合には、音声認識結果として何も出
力されないというような場合を少なくすることができ
る。
【0016】上記音声認識装置において、前記単語候補
選出手段が連続して同じ単語を候補として選出した場
合、または一定期間に一定回数以上同じ単語を候補とし
て選出した場合には、前記単語尤度算出手段は、前記環
境尤度の重みを小さくして単語尤度を算出するものとし
てもよい。
【0017】この場合には、環境条件にそぐわない単語
を意図的に出力させることも可能となる。
【0018】上記音声認識装置において、前記音素モデ
ルは、例えば、認識対象となる音声に含まれる各音素を
隠れマルコフモデルでモデル化したものであってもよ
い。この場合、前記単語候補選出手段は、前記入力され
た音声を所定時間を単位として複数の区間に分割し、該
分割した区間のうちの音声区間について音響特徴ベクト
ルを求め、各区間の音響特徴ベクトルと前記音素モデル
とに基づいて連続音素認識を行い、各フレームでの音響
尤度の合計が最大となる単語を候補として選出するもの
とすることができる。
【0019】上記目的を達成するため、本発明の第3の
観点にかかる音声認識方法は、入力された音声を、認識
対象となる音声に含まれる各音素をモデル化した音素モ
デル及び認識結果として出力されるべき複数種類の単語
の音素パターン系列をそれぞれ登録した単語辞書を参照
して、前記単語辞書に登録された各種類の単語の最大音
響尤度を算出し、該算出した音響尤度に基づいて、認識
結果として出力される単語の候補を選出する単語候補選
出ステップと、環境条件を検知する検知手段に接続さ
れ、該検知手段が検知した環境条件に従って、各単語が
環境条件によって発話される確率をモデル化した環境モ
デルを参照して、前記単語候補選出ステップで候補とし
て選出した単語の環境尤度を算出する環境尤度算出ステ
ップと、前記単語候補選出ステップで算出した音響尤度
と前記環境尤度算出ステップで算出した環境尤度に基づ
いて単語尤度を算出する単語尤度算出ステップと、前記
単語尤度算出ステップで算出した単語尤度が所定の範囲
にあるかどうかを判定する単語尤度判定ステップと、前
記単語尤度判定ステップで所定の範囲にあると判定した
ときに、前記候補単語選出ステップで候補として選出し
た単語を音声認識結果として出力する結果出力ステップ
とを含むことを特徴とする。
【0020】上記目的を達成するため、本発明の第4の
観点にかかるプログラムは、入力された音声を、認識対
象となる音声に含まれる各音素をモデル化した音素モデ
ル及び認識結果として出力されるべき複数種類の単語の
音素パターン系列をそれぞれ登録した単語辞書を参照し
て、前記単語辞書に登録された各種類の単語の最大音響
尤度を算出し、該算出した音響尤度に基づいて、認識結
果として出力される単語の候補を選出する単語候補選出
手段、環境条件を検知する検知手段に接続され、該検知
手段が検知した環境条件に従って、各単語が環境条件に
よって発話される確率をモデル化した環境モデルを参照
して、前記単語候補選出手段が候補として選出した単語
の環境尤度を算出する環境尤度算出手段、前記単語候補
選出手段が算出した音響尤度と前記環境尤度算出手段が
算出した環境尤度とに基づいて単語尤度を算出する単語
尤度算出手段、前記単語尤度算出手段が算出した単語尤
度が所定の範囲にあるかどうかを判定する単語尤度判定
手段、前記単語尤度判定手段が所定の範囲にあると判定
したときに、前記単語候補選出手段が候補として選出し
た単語を音声認識結果として出力する結果出力手段とし
てコンピュータ装置を機能させることを特徴とする。
【0021】
【発明の実施の形態】以下、添付図面を参照して、本発
明の実施の形態について説明する。
【0022】図1は、この実施の形態にかかる家電機器
制御システムの構成を示すブロック図である。図示する
ように、この家電機器制御システムは、サーバ装置1
と、家電機器2と、マイクロフォン3と、スピーカ4
と、電話機5とを備えている。これらは室内に置かれて
いるが、住人が室外にいるときも、携帯電話機6から携
帯電話網7を介して電話機5に接続して、家電機器2を
遠隔制御することができるようになっている。
【0023】サーバ装置1は、家電機器2を制御するた
めの音声を入力するマイクロフォン3と、家電機器2の
制御動作に応じた音声を出力するスピーカ4と、携帯電
話網7を介して携帯電話機6その他の電話機と通話を行
う電話機5とに接続されている。サーバ装置1は、家電
機器リモート制御部11と、音声認識部12と、音声合
成部13とを備えている。
【0024】家電機器リモート制御部11は、家電機器
ネットワーク20を介して家電機器2にそれぞれ接続さ
れ、音声認識部12の音声認識結果に応じて家電機器2
を制御する。音声認識部12は、マイクロフォン3から
入力された音声、または電話機5が受信した音声を音声
認識し、その結果を家電機器リモート制御部11と音声
合成部13とに出力する。音声認識部12の詳細に構成
については後述する。音声合成部13は、音声認識部1
2の音声認識結果に基づく家電機器2の制御動作に応じ
た音声を確認のためにスピーカ4から出力し、或いは電
話機5から接続状態にある携帯電話機6に送信させる。
【0025】家電機器2は、家電機器リモート制御部1
1による制御対象となる機器であり、ここでは、テレビ
2−1、エアコン2−2、ステレオ2−3及び照明2−
4が含まれている。制御対象となる家電機器2であるテ
レビ2−1、エアコン2−2、ステレオ2−3及び照明
2−4は、それぞれ家電機器ネットワーク20を介して
サーバ装置1の家電機器リモート制御部11に接続され
る。
【0026】電話機5は、自動応答機能を備え、携帯電
話網7を介して携帯電話機6との間で呼が設定される
と、家電機器2を制御するための音声を受信して、音声
認識部12に渡す。また、音声合成部13が合成した音
声を携帯電話網7を介して携帯電話機6に送信する。
【0027】図2は、図1の音声認識部12の構成を示
すブロック図である。A/D変換器101と、音声デー
タ格納部102と、パワー算出部103と、音声区間検
出部104と、音声特徴抽出部105と、音素モデル格
納部106と、単語辞書格納部107と、音響尤度計算
部108と、環境モデル格納部200と、環境尤度計算
部210と、尤度評価部221と、出力部222とを備
えている。
【0028】A/D変換器101は、不特定話者から入
力された音声(アナログ信号)をアナログ/デジタル変
換して、この音声を時系列で示すデジタル音声信号(例
えば、PCM信号)に出力する。音声データ格納部10
2は、A/D変換器101から出力されたデジタル音声
信号を格納する。
【0029】パワー算出部103は、音声データ格納部
102に格納されたデジタル音声信号を、所定の時間間
隔(2.0〜4.0ミリ秒)で音声データを、時間窓な
どのハミング窓によって複数のフレームに区分し、区分
した各フレームから音声データを切り出してパワー成分
を求める。音声区間検出部104は、パワー算出部10
3が算出したパワー成分が所定の閾値を超えたフレーム
を音声区間として検出する。例えば、1秒以内にパワー
成分が閾値を下回ったフレームは、音声区間としない。
音声特徴抽出部105は、音声区間検出部104が検出
した音声区間について、それぞれパワー算出部103が
算出したパワー成分に基づいて音響特徴ベクトルX
(t)を計算する。
【0030】音素モデル格納部106は、認識対象とな
る音声を構成する全ての音素をモデル化した音素モデル
を格納している。音素モデルとしては、例えば隠れマル
コフモデル(HMM)が適用される。単語辞書格納部1
07は、単語毎の音素パターン系列情報を登録した単語
辞書を格納している。この単語辞書は、例えば、“テレ
ビ”という単語について、t→e→r→e→b→iとい
う音素パターン系列を登録している。
【0031】音響尤度計算部108は、音響特徴ベクト
ルX(t)とHMMによる音素モデルとを参照してフレ
ーム毎の連続音素認識を行い、各フレームの音響尤度の
合計が最大となるものを暫定的に候補の単語として抽出
する。
【0032】環境モデル格納部200は、制御対象とな
る家電機器2を操作するための音声として、室内環境に
よって単語(短い文章となる場合を含む)がどのような
確率で統計的に発音されるかを示す統計的発音モデルを
格納するものである。ここでは、環境モデルとして時間
モデル、温度モデル、照度モデルを用意しており、それ
ぞれ時間モデル格納部201、温度モデル格納部20
2、照度モデル格納部203に格納している。
【0033】図3(a)〜(c)は、環境モデルをグラ
フにして示したものであり、それぞれ時間モデル、温度
モデル及び照度モデルを示している。図3(a)に示す
時間モデルは、単語辞書格納部107の単語辞書に登録
されている単語毎に、一日24時間のうちの時間に従っ
て発音されやすい確率を表したモデルである。図3
(b)に示す温度モデルは、単語辞書に登録されている
単語毎に、室内温度に従って発音されやすい確率を表し
たモデルである。図3(c)に示す照度モデルは、単語
辞書に登録されている単語毎に、室内の明るさに従って
発音されやすい確率を表したモデルである。
【0034】例えば、「エアコンを入れる」という単語
は、特に時間によって発音される確率が変化する単語で
あり、図3(a)の時間モデルに示すように、発音され
る頻度の高い時間帯で確率が高くなっている。但し、発
音される頻度が低い時間帯でも、時間モデル、温度モデ
ル及び照度モデルにおいて、確率が0となることはな
い。
【0035】なお、後述するように音声合成部13で合
成された音声に対する応答として発音される「はい」ま
たは「いいえ」といった単語は、環境条件によって発音
される確率が影響を受けないので、時間モデル、温度モ
デル及び照度モデルにおいて発音される確率が一定に設
定されている。また、図3(a)〜(c)に示した発音
される確率は季節や曜日によって変化することがあるの
で、季節や曜日によって異なる時間モデル、温度モデル
および/または照度モデルを用いるものとしてもよい。
【0036】なお、図4は、環境モデル格納部200の
データ構造を、時間モデルを例として示している。すな
わち、単語毎に、時間と発音されやすさの確率(時間環
境尤度)を対応付けて記憶するものである。例えば、
「エアコンを入れる」という単語が1:00に発話され
たときの時間環境尤度は、0.12ということとなる。
【0037】図2に示す環境尤度計算部210は、室内
に設けられた計時部301、温度センサ302及び照度
センサ303に接続されている。計時部301は、時計
が計時している時間に応じた信号を入力するものであ
る。温度センサ302は、室内の温度を検知するセンサ
であり、照度センサ303は、室内の照度を検知するセ
ンサである。
【0038】環境尤度計算部210は、音響尤度計算部
108が候補とした単語について、計時部301が計時
している時間に基づいて時間モデル格納部201を参照
し、時間環境尤度を取得する。また、その候補の単語に
ついて、温度センサ302が検知した温度に基づいて温
度モデル格納部202を参照し、温度環境尤度を取得す
る。また、その候補の単語について、照度センサ303
が検知した照度に基づいて照度モデル格納部203を参
照し、照度環境尤度を取得する。
【0039】環境尤度計算部210は、こうして取得し
た時間環境尤度、温度環境尤度及び照度環境尤度を用い
て次式に示す演算を行い、その演算結果を環境尤度とし
て求める。
【数1】(環境尤度)=(時間環境尤度)×(温度環境
尤度)×(照度環境尤度)
【0040】尤度評価部221は、音響尤度計算部10
8が求めた音響尤度と環境尤度計算部210が求めた環
境尤度を用いて次式に示す演算を行い、その演算結果を
単語尤度として求める。
【数2】(単語尤度)=(音響尤度)×(環境尤度)
【0041】尤度評価部221は、こうして求めた単語
尤度が予め定められた閾値Mよりも大きいかどうかを判
定し、単語尤度が閾値Mよりも大きい場合には、音響尤
度計算部108が候補として抽出した単語を出力部22
2に渡す。単語尤度が閾値M以下であった場合には、当
該単語を棄却する。出力部222は、尤度評価部221
から渡された単語を、最終的な音声認識結果として家電
機器リモート制御部11と音声合成部13とに出力す
る。
【0042】なお、上記の音声認識部12を含むサーバ
装置1は、パーソナルコンピュータなどの汎用コンピュ
ータをプラットフォームとして実現することができる。
音声データ格納部102、音素モデル格納部106、単
語辞書格納部107、環境モデル格納部200は、それ
ぞれに対応した領域がメモリに確保されることによって
実現される。音素モデル格納部106が格納する音素モ
デル、単語辞書格納部107が格納する単語辞書、環境
モデル格納部200が格納する各環境モデルは、音声認
識処理を行う前に予め外部装置から読み込まれてメモリ
に記憶される。パワー算出部103、音声区間検出部1
04、音声特徴抽出部105、音響尤度計算部108、
環境尤度計算部210及び尤度評価部221は、CPU
(Central Processing Unit)がメモリに記憶されたプ
ログラムを実行することによって実現される。
【0043】以下、この実施の形態にかかる家電機器制
御システムの動作について説明する。
【0044】図5は、この実施の形態にかかる家電機器
制御システムにおいてサーバ装置1が実行する処理を示
すフローチャートである。まず、住人が家電機器2のう
ちのいずれかに何らかの動作を行わせようとする場合、
その行わせたい動作に応じた単語を音声でマイクロフォ
ン3から入力する。住人が外出している場合には、携帯
電話機6から電話機5に電話をかけ、電話機5からの応
答に従って、家電機器2に行わせたい動作に応じた単語
を携帯電話機6から遠隔入力する(ステップS10
1)。
【0045】家電機器2に行わせた動作に応じた単語が
音声で入力されると、音声認識部12は、その音声を音
声認識する(ステップS102)。なお、音声認識部1
1音声認識部12による音声認識の処理の詳細について
は後述する。そして、この音声認識処理において、後述
するように音声認識結果として何らかの単語が出力され
たかどうかを判定する(ステップS103)。
【0046】ステップS102の音声認識処理において
何らかの単語が出力されていた場合には、その単語が確
認としての応答である「はい」または「いいえ」(これ
らと同等の意味を有する単語、例えば「イエス」や「ノ
ー」といったものを含む)であったかどうかを判定する
(ステップS104)。
【0047】出力された単語が「はい」でも「いいえ」
でもないと判定された場合は、その単語は、家電機器2
のいずれかにさせようとする動作を指示したものであ
る。そこで、家電機器リモート制御部11は、当該出力
された単語を一時保存する(ステップS105)。ま
た、音声合成部13は、当該出力された単語を音声合成
してスピーカ4から出力する。但し、ステップS101
で音声が遠隔入力された場合には、電話機5から携帯電
話網7を介して音声信号を送信し、携帯電話機6から出
力させる(ステップS106)。そして、処理を終了し
て、次の音声入力の待ち状態となる。
【0048】なお、ステップS105で家電機器リモー
ト制御部11内に保存された単語は、後述するステップ
S111において破棄される他、次の音声入力が一定期
間されない場合も破棄される。また、次に音声入力待ち
の状態となった後に、ステップS105で新たな単語が
保存されることとなると、それまでに保存されていた単
語は破棄される。
【0049】また、ステップS104において出力され
た単語が「はい」または「いいえ」であると判定された
場合には、家電機器リモート制御部11内に、ステップ
S105で保存された単語があるかどうかを判定する
(ステップS107)。ステップS105で保存された
単語がなければ、そのまま処理を終了して、次の音声入
力の待ち状態となる。一方、ステップS105で保存さ
れた単語があった場合には、さらにステップS102の
音声認識処理で出力された単語が「はい」(同等の意味
を有する単語を含む)であるかどうかを判定する(ステ
ップS108)。
【0050】出力された単語が「はい」であると判定さ
れた場合には、家電機器リモート制御部11は、ステッ
プS105で保存された単語に基づいて、制御すべき家
電機器2と動作させるべき制御指令とを抽出する(ステ
ップS109)。さらに家電機器ネットワーク20を介
して抽出した家電機器2に制御指令を送出する(ステッ
プS110)。これで、制御指令の送られた家電機器
は、制御指令に応じた動作を行うものとなる。そして、
処理を終了して、次の音声入力の待ち状態となる。
【0051】一方、ステップS108において出力され
た単語が「いいえ」(同等の意味を有する単語を含む)
であると判定された場合には、家電機器リモート制御部
11は、ステップS105で保存された単語を破棄する
(ステップS111)。そして、処理を終了して、次の
音声入力の待ち状態となる。
【0052】図6は、ステップS102において音声認
識部12が実行する音声認識処理を詳細に示すフローチ
ャートである。まず、A/D変換器101は、ステップ
S101で入力された音声を時系列のデジタル音声信号
に変換して音声データ格納部102に格納する(ステッ
プS201)。次に、パワー算出部103は、音声デー
タ格納部102に格納したデジタル音声信号を所定時間
毎で複数のフレームに区分し、各フレームのパワー成分
を算出する(ステップS202)。
【0053】次に、音声区間検出部104は、ステップ
S202で算出した各フレームのパワー成分を所定の閾
値と比較し、閾値を上回ったフレームを音声区間として
抽出する(ステップS203)。そして、この処理で候
補の単語を抽出するのに必要なだけの音声区間が検出さ
れたかどうかを判定する(ステップS204)。必要な
だけの音声区間が検出されていなければ、処理を終了す
る。必要なだけの音声区間が検出された場合には、音声
特徴抽出部105は、ステップS202で算出した各フ
レームのパワー成分に基づいて、ステップS203で抽
出した音声区間の音響特徴ベクトルX(t)を計算する
(ステップS205)。
【0054】次に、音響尤度計算部108は、ステップ
S205で算出した音声特徴ベクトルX(t)と音響モ
デル格納部106に格納されている音素モデルとしての
隠れマルコフモデルに基づいて、単語辞書格納部107
に格納されている単語辞書に登録された単語のうちで尤
度が最も高くなるものを、候補の単語として抽出する
(ステップS206)。
【0055】次に、環境尤度計算部210は、計時部3
01が計時している時間、温度センサ302が検知して
いる温度、及び照度センサ303が検知している照度を
それぞれ取得する。そして、音響尤度計算部108が候
補とした単語について、取得した時間、温度及び照度に
基づいてそれぞれ時間モデル格納部201、温度モデル
格納部202及び照度モデル格納部203を参照し、時
間環境尤度、温度環境尤度及び照度環境尤度を取得す
る。そして、時間環境尤度の値、温度環境尤度の値及び
照度環境尤度の値を乗算し、その乗算結果を環境尤度と
して求める(ステップS207)。
【0056】次に、尤度評価部221は、音響尤度計算
部108が求めた音響尤度の値と、環境尤度計算部21
0が求めた環境尤度の値とを乗算し、その乗算結果を単
語尤度として求める(ステップS208)。さらに尤度
評価部221は、求めた単語尤度の値が予め定められた
閾値Mよりも大きいかどうかを判定する(ステップS2
09)。
【0057】単語尤度の値が閾値Mよりも大きければ、
音響尤度計算部108が抽出した候補の単語を出力部2
22に渡し、出力部222が、この単語を音声認識結果
として出力する(ステップS210)。そして、このフ
ローチャートの処理を終了し、メインルーチン(図5)
に復帰する。一方、単語尤度の値が閾値M以下であれ
ば、音響尤度計算部108が抽出した候補の単語を棄却
して音声認識結果として何の単語も出力せずに(ステッ
プS211)、このフローチャートの処理を終了し、メ
インルーチン(図5)に復帰する。
【0058】以上説明したように、本発明の実施の形態
にかかる家電機器制御システムで適用されている音声認
識部12は、環境モデル格納部200と環境尤度計算部
210を有しており、音響尤度計算部108が抽出した
候補の単語についての環境尤度を求めている。そして、
尤度評価部221は、この環境尤度を音響尤度計算部1
08が求めた音響尤度に掛けて単語尤度を求め、一定の
閾値Mを上回る場合にのみ、候補の単語を音声認識結果
として出力するようにしている。つまり、候補の単語の
音響尤度が高くても環境尤度が低ければ、その単語が音
声認識結果として出力されることがないため、環境条件
にそぐわないような音声認識結果が出力されることがな
く、音声認識の精度を高くすることができる。
【0059】また、環境モデル格納部200に格納され
ている環境モデルとしては、時間モデル、温度モデル及
び照度モデルの3種類があり、各モデルに従って取得さ
れた時間環境尤度、温度環境尤度及び照度環境尤度を乗
算して、候補の単語の環境尤度を求めている。このた
め、複数の環境条件に従って環境尤度を求めることが可
能となる。
【0060】さらに、家電機器リモート制御部11は、
音声認識部12が環境条件を考慮して音声認識した結果
に従って、家電機器2をそれぞれ制御するものとしてい
る。このため、環境条件にそぐわないような場面で家電
機器2に制御指令を送出することがなく、家電機器2が
誤動作することを防ぐことができる。
【0061】本発明は、上記の実施の形態に限られず、
種々の変形、応用が可能である。以下、本発明に適用可
能な上記の実施の形態の変形態様について説明する。
【0062】上記の実施の形態では、音響尤度計算部1
08は、出力部222から出力する音声認識結果の候補
として、単語を1つだけ抽出するものとしていた。しか
しながら、音響尤度の高いものから複数の単語を候補と
して抽出するものとしてもよい。この場合、環境尤度計
算部210は、抽出された複数の単語それぞれについ
て、環境モデル格納部200を参照して環境尤度を求め
るものとすればよい。そして、尤度評価部221は、抽
出された複数の単語のそれぞれについて音響尤度計算部
108が求めた音響尤度と環境尤度計算部210が求め
た環境尤度とを乗算して単語尤度を求め、単語尤度が閾
値Mを超えるものの中で最も高い値を示す単語を音声認
識結果として出力部222から出力させるものとするこ
とができる。これにより、音声認識結果として何も出力
されないという場合を少なくすることができる。
【0063】上記の実施の形態では、環境尤度計算部2
10は、時間モデル、温度モデル及び照度モデルをそれ
ぞれ参照して得た時間環境尤度、温度環境尤度及び照度
環境尤度を単純に乗算して、その積を環境尤度として求
めていたが、他の演算方法を適用することもできる。例
えば、時間環境尤度、温度環境尤度及び照度環境尤度を
加算した和を環境尤度としてもよい。或いは、時間環境
尤度、温度環境尤度及び照度環境尤度にそれぞれ重み付
をして、乗算または加算するものとしてもよい。また、
尤度評価部221も、音響尤度と環境尤度とに乗算以外
の他の演算を施して、単語尤度を求めるものとしてもよ
い。音響尤度と環境尤度とにそれぞれ重み付をしてもよ
い。
【0064】上記の実施の形態では、尤度評価部221
は、常に音響尤度と環境尤度とを乗算することで単語尤
度を求めるものとしていたので、候補の単語の環境尤度
が低ければ音響尤度が高くても音声認識結果として出力
されることがない。ところが、稀にではあるが、試運転
させる場合などのように環境条件にそぐわない場面で家
電機器2を動作させたいときも生じる。そこで、音響尤
度計算部108が候補の単語として同じ単語を連続して
抽出したとき、或いは一定の期間に一定回数以上抽出し
たときは、環境尤度の重みを小さくして単語尤度を求め
たり、環境尤度を考慮せずに音響尤度そのものを単語尤
度として用いるものとしてもよい。これにより、環境条
件にそぐわない単語を音声認識結果として意図的に出力
させることができる。
【0065】上記の実施の形態では、環境モデル格納部
200に格納される環境モデルとして、時間モデルと、
温度モデルと、照度モデルとの3種類を用意していた。
しかしながら、本発明はこれに限られるものではなく、
制御対象となる機器、その機器が置かれる環境によっ
て、他の環境モデルを適用することもできる。そして、
用意した環境モデルに応じた環境条件を検出する手段
(例えば、湿度モデルであれば湿度センサ)を接続し
て、その検出信号を環境尤度計算部210に入力するも
のとすればよい。
【0066】上記の実施の形態では、環境モデルとして
の時間モデル、温度モデル及び照度モデルは、予め用意
されたものが固定的に用いられるものとしていた。これ
に対して、初期段階では、予め用意されたものをデフォ
ルトで用いるが、制御対象となる家電機器2がそれぞれ
操作されたときの環境条件の履歴を蓄積しておき、蓄積
された履歴に従って時間モデル、温度モデル及び照度モ
デルを変更していくものとしてもよい。
【0067】上記の実施の形態では、制御対象となる機
器として、テレビ2−1、エアコン2−2、ステレオ2
−3、照明2−4などの家電機器を適用していた。しか
しながら、本発明はこれに限られるものではなく、他の
機器の制御に適用してもよい。例えば、カーナビゲーシ
ョンシステムの制御に適用する場合には、環境モデルと
して、自動車の速度に応じて各単語が発音される確率を
モデル化した速度モデルなどを環境モデルとして用いる
ことができる。
【0068】上記の実施の形態では、図5及び図6に示
したフローチャートの処理を実行させるためのプログラ
ムは、汎用コンピュータのメモリに記憶されているもの
として説明した。そして、CPUがメモリに記憶された
プログラムを実行することで、パワー算出部103、音
声区間検出部104、音声特徴抽出部105、音響尤度
計算部108、環境尤度計算部210及び尤度評価部2
21が実現されるものとしていた。これに対して、図5
及び図6のフローチャートの処理を汎用コンピュータに
実行させ、パワー算出部103、音声区間検出部10
4、音声特徴抽出部105、音響尤度計算部108、環
境尤度計算部210及び尤度評価部221を実現させる
ためのプログラムを、CD−ROMやDVD−ROMな
どのコンピュータ読み取り可能な記録媒体に格納して配
布してもよい。または、これらのプログラムをWebサ
ーバ装置が有する固定ディスク装置に格納しておき、イ
ンターネットを汎用コンピュータにダウンロードさせる
ものとしてもよい。
【0069】
【発明の効果】以上説明したように、本発明によれば、
環境条件を考慮して音声認識を行っているために、環境
条件に合わせて正確な音声認識結果を得ることができ
る。
【0070】また、環境条件を考慮した音声認識結果に
基づいて制御対象となる機器を制御しているため、機器
の誤動作を防ぐことができる。
【図面の簡単な説明】
【図1】図1は、本発明の実施の形態にかかる家電機器
制御システムの構成を示すブロック図である。
【図2】図1の音声認識部の構成を示すブロック図であ
る。
【図3】(a)〜(c)は、それぞれ時間モデル、温度
モデル、照度モデルをグラフにして示す図である。
【図4】環境モデル格納部のデータ構造を示す図であ
る。
【図5】図1のサーバ装置が実行する処理を示すフロー
チャートである。
【図6】図5の音声認識処理を詳細に示すフローチャー
トである。
【符号の説明】
1・・・サーバ装置、2・・・家電機器、3・・・マイクロフォ
ン、4・・・スピーカ、5・・・電話機、6・・・携帯電話機、
7・・・携帯電話網、11・・・家電機器リモート制御部、1
2・・・音声認識部、13・・・音声合成部、101・・・A/
D変換器、102・・・音声データ格納部、103・・・パワ
ー算出部、104・・・音声区間検出部、105・・・音声特
徴抽出部、106・・・音素モデル格納部、107・・・単語
辞書格納部、108・・・音響尤度計算部、200・・・環境
モデル格納部、201・・・時間モデル格納部、202・・・
温度モデル格納部、203・・・照度モデル格納部、21
0・・・環境尤度計算部、221・・・尤度評価部、222・・
・出力部、301・・・計時部、302・・・温度センサ、3
03・・・照度センサ

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】音声入力手段に接続され、該音声入力手段
    から入力された音声を音声認識して、その音声認識結果
    を出力する音声認識手段と、制御対象となる機器に接続
    され、前記音声認識手段の音声認識結果に基づいて前記
    機器を制御する機器制御手段とを備える機器制御システ
    ムであって、 前記音声認識手段は、 認識対象となる音声に含まれる各音素をモデル化した音
    素モデルを格納した音素モデル格納手段と、 認識結果として出力されるべき複数種類の単語の音素パ
    ターン系列をそれぞれ登録した単語辞書を格納した単語
    辞書格納手段と、 前記単語辞書格納手段に格納された各単語が環境条件に
    よって発話される確率をモデル化した環境モデルを格納
    した環境モデル格納手段と、 前記音声入力手段から入力された音声を前記音素モデル
    及び前記単語辞書を参照して、前記単語辞書に登録され
    た各種類の単語の最大音響尤度を算出し、該算出した音
    響尤度に対応する単語を、認識結果として出力される単
    語の候補として選出する単語候補選出手段と、 環境条件を検知する検知手段に接続され、該検知手段が
    検知した環境条件に従って前記環境モデルを参照して、
    前記単語候補選出手段が候補として選出した単語の環境
    尤度を算定する環境尤度算出手段と、 前記単語候補選出手段が算出した音響尤度と前記環境尤
    度算出手段が算出した環境尤度に基づいて単語尤度を算
    出する単語尤度算出手段と、 前記単語尤度算出手段が算出した単語尤度が所定の範囲
    にあるかどうかを判定する単語尤度判定手段と、 前記単語尤度判定手段が所定の範囲にあると判定したと
    きに、前記単語候補選出手段が候補として選出した単語
    を音声認識結果として、前記機器制御手段に出力する結
    果出力手段とを備えることを特徴とする機器制御システ
    ム。
  2. 【請求項2】認識対象となる音声に含まれる各音素をモ
    デル化した音素モデルを格納した音素モデル格納手段
    と、 認識結果として出力されるべき複数種類の単語の音素パ
    ターン系列をそれぞれ登録した単語辞書を格納した単語
    辞書格納手段と、 前記単語辞書格納手段に格納された各単語が環境条件に
    よって発話される確率をモデル化した環境モデルを格納
    した環境モデル格納手段と、 入力された音声を前記音素モデル及び前記単語辞書を参
    照して、前記単語辞書に登録された各種類の単語の最大
    音響尤度を算出し、該算出した音響尤度に対応する単語
    を、認識結果として出力される単語の候補として選出す
    る単語候補選出手段と、 環境条件を検知する検知手段に接続され、該検知手段が
    検知した環境条件に従って前記環境モデルを参照して、
    前記単語候補選出手段が候補として選出した単語の環境
    尤度を算出する環境尤度算出手段と、 前記単語候補選出手段が算出した音響尤度と前記環境尤
    度算出手段が算出した環境尤度に基づいて単語尤度を算
    出する単語尤度算出手段と、 前記単語尤度算出手段が算出した単語尤度が所定の範囲
    にあるかどうかを判定する単語尤度判定手段と、 前記単語尤度判定手段が所定の範囲にあると判定したと
    きに、前記単語候補選出手段が候補として選出した単語
    を音声認識結果として出力する結果出力手段とを備える
    ことを特徴とする音声認識装置。
  3. 【請求項3】前記環境モデル格納手段は、複数種類の環
    境モデルを格納しており、 前記環境尤度算出手段は、複数種類の環境モデルのそれ
    ぞれに基づく環境尤度を算出し、該算出した各環境尤度
    から環境尤度を算出することを特徴とする請求項2に記
    載の音声認識装置。
  4. 【請求項4】前記単語候補選出手段は、音響尤度の大き
    いものから複数の単語を候補として選出し、 前記環境尤度算出手段は、前記単語候補選出手段が候補
    として選出した複数の単語のそれぞれについて環境尤度
    を算出し、 前記単語尤度算出手段は、複数の単語のそれぞれについ
    て音響尤度と環境尤度に基づいて、単語毎の環境尤度を
    算出し、 前記結果出力手段は、前記単語尤度算出手段が算出した
    単語尤度が最も高い単語であって、前記単語尤度判定手
    段が所定の範囲にあると判定した単語を音声認識結果と
    して出力することを特徴とする請求項2または3に記載
    の音声認識装置。
  5. 【請求項5】前記単語候補選出手段が連続して同じ単語
    を候補として選出した場合、または一定期間に一定回数
    以上同じ単語を候補として選出した場合には、前記単語
    尤度算出手段は、前記環境尤度の重みを小さくして単語
    尤度を算出することを特徴とする請求項2乃至4のいず
    れか1項に記載の音声認識装置。
  6. 【請求項6】前記音素モデルは、認識対象となる音声に
    含まれる各音素を隠れマルコフモデルでモデル化したも
    のであり、 前記単語候補選出手段は、前記入力された音声を所定時
    間を単位として複数の区間に分割し、該分割した区間の
    うちの音声区間について音響特徴ベクトルを求め、各区
    間の音響特徴ベクトルと前記音素モデルとに基づいて連
    続音素認識を行い、各フレームでの音響尤度の合計が最
    大となる単語を候補として選出することを特徴とする請
    求項2乃至5のいずれか1項に記載の音声認識装置。
  7. 【請求項7】入力された音声を、認識対象となる音声に
    含まれる各音素をモデル化した音素モデル及び認識結果
    として出力されるべき複数種類の単語の音素パターン系
    列をそれぞれ登録した単語辞書を参照して、前記単語辞
    書に登録された各種類の単語の最大音響尤度を算出し、
    該算出した音響尤度に基づいて、認識結果として出力さ
    れる単語の候補を選出する単語候補選出ステップと、 環境条件を検知する検知手段に接続され、該検知手段が
    検知した環境条件に従って、各単語が環境条件によって
    発話される確率をモデル化した環境モデルを参照して、
    前記単語候補選出ステップで候補として選出した単語の
    環境尤度を算出する環境尤度算出ステップと、 前記単語候補選出ステップで算出した音響尤度と前記環
    境尤度算出ステップで算出した環境尤度に基づいて単語
    尤度を算出する単語尤度算出ステップと、 前記単語尤度算出ステップで算出した単語尤度が所定の
    範囲にあるかどうかを判定する単語尤度判定ステップ
    と、 前記単語尤度判定ステップで所定の範囲にあると判定し
    たときに、前記単語候補選出ステップで候補として選出
    した単語を音声認識結果として出力する結果出力ステッ
    プとを含むことを特徴とする音声認識方法。
  8. 【請求項8】入力された音声を、認識対象となる音声に
    含まれる各音素をモデル化した音素モデル及び認識結果
    として出力されるべき複数種類の単語の音素パターン系
    列をそれぞれ登録した単語辞書を参照して、前記単語辞
    書に登録された各種類の単語の最大音響尤度を算出し、
    該算出した音響尤度に基づいて、認識結果として出力さ
    れる単語の候補を選出する単語候補選出手段、 環境条件を検知する検知手段に接続され、該検知手段が
    検知した環境条件に従って、各単語が環境条件によって
    発話される確率をモデル化した環境モデルを参照して、
    前記単語候補選出手段が候補として選出した単語の環境
    尤度を算出する環境尤度算出手段、 前記単語候補選出手段が算出した音響尤度と前記環境尤
    度算出手段が算出した環境尤度とに基づいて単語尤度を
    算出する単語尤度算出手段、 前記単語尤度算出手段が算出した単語尤度が所定の範囲
    にあるかどうかを判定する単語尤度判定手段、 前記単語尤度判定手段が所定の範囲にあると判定したと
    きに、前記単語候補選出手段が候補として選出した単語
    を音声認識結果として出力する結果出力手段としてコン
    ピュータ装置を機能させるためのプログラム。
JP2001242995A 2001-08-09 2001-08-09 機器制御システム、音声認識装置及び方法、並びにプログラム Expired - Fee Related JP4552368B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001242995A JP4552368B2 (ja) 2001-08-09 2001-08-09 機器制御システム、音声認識装置及び方法、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001242995A JP4552368B2 (ja) 2001-08-09 2001-08-09 機器制御システム、音声認識装置及び方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2003058184A true JP2003058184A (ja) 2003-02-28
JP4552368B2 JP4552368B2 (ja) 2010-09-29

Family

ID=19073172

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001242995A Expired - Fee Related JP4552368B2 (ja) 2001-08-09 2001-08-09 機器制御システム、音声認識装置及び方法、並びにプログラム

Country Status (1)

Country Link
JP (1) JP4552368B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005300989A (ja) * 2004-04-13 2005-10-27 Mitsubishi Electric Corp 音声認識システム
JP2005311864A (ja) * 2004-04-23 2005-11-04 Toshiba Corp 家電機器、アダプタ装置および家電機器システム
JP2006154190A (ja) * 2004-11-29 2006-06-15 Toshiba Corp 音声移動制御装置および音声移動制御方法
JP2007017731A (ja) * 2005-07-08 2007-01-25 Alpine Electronics Inc 音声認識装置、音声認識装置を備えたナビゲーション装置及び音声認識装置の音声認識方法
JP2013119155A (ja) * 2011-12-09 2013-06-17 Advanced Telecommunication Research Institute International シナリオ生成装置およびシナリオ生成方法
JP2014170185A (ja) * 2013-03-05 2014-09-18 Nec Corp 発話コマンド認識システム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096389A (ja) * 1995-06-22 1997-01-10 Seiko Epson Corp 音声認識対話処理方法および音声認識対話装置
JPH117293A (ja) * 1997-06-17 1999-01-12 Oki Electric Ind Co Ltd 音声認識方法及び音声認識装置
JP2001154689A (ja) * 1999-11-25 2001-06-08 Nippon Seiki Co Ltd 音声認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096389A (ja) * 1995-06-22 1997-01-10 Seiko Epson Corp 音声認識対話処理方法および音声認識対話装置
JPH117293A (ja) * 1997-06-17 1999-01-12 Oki Electric Ind Co Ltd 音声認識方法及び音声認識装置
JP2001154689A (ja) * 1999-11-25 2001-06-08 Nippon Seiki Co Ltd 音声認識装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005300989A (ja) * 2004-04-13 2005-10-27 Mitsubishi Electric Corp 音声認識システム
JP2005311864A (ja) * 2004-04-23 2005-11-04 Toshiba Corp 家電機器、アダプタ装置および家電機器システム
JP2006154190A (ja) * 2004-11-29 2006-06-15 Toshiba Corp 音声移動制御装置および音声移動制御方法
JP2007017731A (ja) * 2005-07-08 2007-01-25 Alpine Electronics Inc 音声認識装置、音声認識装置を備えたナビゲーション装置及び音声認識装置の音声認識方法
JP2013119155A (ja) * 2011-12-09 2013-06-17 Advanced Telecommunication Research Institute International シナリオ生成装置およびシナリオ生成方法
JP2014170185A (ja) * 2013-03-05 2014-09-18 Nec Corp 発話コマンド認識システム

Also Published As

Publication number Publication date
JP4552368B2 (ja) 2010-09-29

Similar Documents

Publication Publication Date Title
JP6574169B2 (ja) 多方向の復号をする音声認識
JP4263614B2 (ja) リモートコントロール装置及び情報端末装置
JPH096389A (ja) 音声認識対話処理方法および音声認識対話装置
JP4246703B2 (ja) 自動音声認識の方法
JPH0394299A (ja) 音声認識方法と音声認識装置訓練方法
US9202470B2 (en) Speech recognition using speech characteristic probabilities
JP3000999B1 (ja) 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体
JP2004198831A (ja) 音声認識装置および方法、プログラム、並びに記録媒体
WO2002091355A1 (en) High-order entropy error functions for neural classifiers
EP1110207B1 (en) A method and a system for voice dialling
JP4552368B2 (ja) 機器制御システム、音声認識装置及び方法、並びにプログラム
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
CN111145748B (zh) 音频识别置信度确定方法、装置、设备及存储介质
JP5988077B2 (ja) 発話区間検出装置及び発話区間検出のためのコンピュータプログラム
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
US10818298B2 (en) Audio processing
CN112820281B (zh) 一种语音识别方法、装置及设备
JP2019015950A (ja) 音声認識方法、プログラム、音声認識装置、及びロボット
JP2003177788A (ja) 音声対話システムおよびその方法
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
JP4449380B2 (ja) 話者正規化方法及びそれを用いた音声認識装置
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP2004004182A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN117456988A (zh) 阈值生成方法、阈值生成装置以及程序
CN115705840A (zh) 语音唤醒方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070625

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100405

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100622

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100705

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130723

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees