JP4784056B2

JP4784056B2 - 音声認識機能付制御装置

Info

Publication number: JP4784056B2
Application number: JP2004238741A
Authority: JP
Inventors: 朗馬場; 新平日比谷; はるか天沼; 吉彦徳永; 賢二中北
Original assignee: Panasonic Corp; Matsushita Electric Works Ltd
Current assignee: Panasonic Corp; Panasonic Electric Works Co Ltd
Priority date: 2004-08-18
Filing date: 2004-08-18
Publication date: 2011-09-28
Anticipated expiration: 2024-08-18
Also published as: JP2006058479A

Description

本発明は、人が発する操作命令を認識して制御対象の機器を制御する音声認識機能付制御装置に関するものである。

従来より、人が発する操作命令を認識して制御対象の照明負荷を点灯又は消灯させる音声認識機能付制御装置が提供されている（例えば特許文献１参照）。

また、制御対象機器を操作する手段として、制御対象機器を直接操作するための操作手段と、機器を操作するために人が発した操作命令を認識する音声認識手段とを備え、操作手段による操作入力および音声認識手段による認識結果を用いて制御対象機器を動作させる音声認識機能付制御装置も従来から提供されている。

図６はこのような従来の音声認識機能付制御装置のブロック図であり、この音声認識機能付制御装置Ａは、マイク１と、特徴量抽出部２と、音響モデル保存部３と、認識部４と、スイッチ５と、制御部６と、入力音声保存制御部７と、音響モデル学習部８とを主要な構成として備えている。

マイク１には、制御対象機器Ｂに所望の動作を行わせるために人が発した操作命令（音声）または雑音の何れかである音が入力され、入力音をアナログの電気信号である音声信号に変換して出力する。

特徴量抽出部２は、マイク１からの音声信号の入力を検知すると、入力された音声信号を例えば量子化ビット数を１６、標本化周波数を１６ｋＨｚとしてＡ／Ｄ変換し、その後分析フレーム長２５ミリ秒、分析間隔を１０ミリ秒として周波数変換した後、音声信号の特徴量を抽出する。ここで音声信号の特徴量としては例えばメル周波数ケプストラム係数などを用いることができ、抽出した特徴量は認識部４に出力される。また特徴量抽出部２は、マイク１から入力された音声信号を入力音声保存制御部７に出力する。

音響モデル保存部３には、制御対象機器Ｂを制御するための１乃至複数の操作命令について、多数の話者が発した操作命令の特徴量を例えばＨＭＭ（隠れマルコフモデル）を用いてモデル化した「命令語」音響モデル、および、使用環境において想定される雑音の特徴量をモデル化した「雑音」音響モデルを含む音響モデルが保存されている。なお音響モデルの例としては、例えば制御対象機器Ｂが照明装置の場合には、「命令語」音響モデルとして、照明器具の点灯を指示するために用いる「あかり」という語彙に対応した「あかり」音響モデルが保存されるとともに、ドアの開閉音などの物音や「あかり」に関する語彙以外の音声に対応した「雑音」音響モデルが保存されるのである。

認識部４は、特徴量抽出部２で抽出された特徴量と、音響モデル保存部３に保存された音響モデルとを比較して、抽出された特徴量と類似度の高いモデルに対応する音（操作命令または雑音）を認識結果として制御部６および入力音声保存制御部７に出力する。つまり、音響モデル保存部３に「あかり」、「雑音」という２つの音響モデルが保存されている場合、入力音声の内容が「あかり」に関連している場合は「あかり」という認識結果が得られ、入力音がドアの閉まる音の場合は「雑音」という認識結果が得られるのである。

スイッチ５は制御対象の制御対象機器Ｂを直接操作するために設けられ、スイッチ５の操作に応じた制御信号が制御対象機器Ｂに出力される。例えば制御対象機器Ｂが照明器具の場合、スイッチ５から制御信号として照明器具を点灯（オン）させるオン操作信号、消灯（オフ）させるオフ操作信号が出力される。

制御部６は、認識部４の認識結果に基づいて認識結果に対応する動作を行わせるための制御信号を制御対象機器Ｂに出力する。すなわち、制御対象機器Ｂにはスイッチ５と制御部６の両方から制御信号が入力され、スイッチ５からの制御信号、又は、制御部６からの制御信号のうち最新の制御信号に応じた動作を行うようになっている。

入力音声保存制御部７は、特徴量抽出部２から入力された音声信号と、認識部４から入力された認識結果とを対応付けて保存するとともに、新たに入力された認識結果とこの認識結果に対応する１乃至複数の音声信号を音響モデル学習部８に出力する。

そして、音響モデル学習部８は、入力音声保存制御部７から入力された認識結果と該認識結果に対応する１乃至複数の音声信号とを用いて、認識結果に対応する音響モデルを、ＭＬＬＲ（Maximum Liklihood Lenier Regression）法やＭＡＰ推定法（Maximum A Posteriori Probability Pstimation）などにより適応化させており、認識精度の向上を図っている。
特開２００２−２８９３７１号公報

上記構成の音声認識機能付制御装置では、音響モデル保存部３に組み込まれた音響モデルを用いて音声認識を行っているので、音響モデルの作成に使用した音と、使用時にマイク１に入力される音（ユーザの声など）との類似性が低い場合には、認識の精度が低下するという問題がある。例えば「命令語」音響モデルの場合、人間の声質、抑揚などは個人毎に異なるので、実際に使用する人の特性（声質や抑揚など）に合わせた音響モデルを音響モデル保存部３に予め組み込んでおくことは困難であり、その結果認識部４による音声認識の精度が低下してしまうという問題があった。また雑音モデルの場合も同様であり、この装置の使用環境によって、入力される雑音の性質は大きく異なるので、実使用時に入力される雑音に合わせた雑音モデルを音響モデル保存部３に予め組み込んでおくことは困難であり、この結果音声認識の精度が低下してしまう可能性があった。

そこで、上述の音声認識機能付制御装置では、音響モデル学習部８が、実使用時に入力される音声又は雑音の音声信号と、この音声信号に対する認識部４の認識結果とを用いて音響モデルを再学習することで、音響モデルを逐次更新して実際の使用環境に適応させているのであるが、入力された音声信号に対して誤った認識結果が出力された場合、この誤った認識結果を用いて音響モデルを再学習するため、音響モデルが不正確なものになり、結果的に音声認識の認識性能が低下してしまう可能性があった。

本発明は上記問題点に鑑みて為されたものであり、その目的とするところは、実使用時に入力される音声や雑音などの音に合わせて音響モデルを適応化させることで認識精度を向上させた音声認識機能付制御装置を提供することにある。

上記目的を達成するために、請求項１の発明は、制御対象機器を操作するために人が発した音声または雑音の何れかである音が入力され、入力音を電気信号である音声信号に変換して出力する音変換部と、音声信号より入力音の特徴量を抽出する特徴量抽出部と、複数の音声および雑音の各々について特徴量をモデル化した音響モデルを保存する音響モデル部と、特徴量抽出部が抽出した特徴量と音響モデル部に保存された音響モデルとを比較することによって入力音を認識する認識部と、認識部の認識結果に応じた動作を行わせるための制御信号を制御対象機器に出力する制御部と、操作に応じた制御信号を制御対象機器に直接出力する操作部と、音声信号と認識部の認識結果とを対応付けて保存する入力音声保存部と、入力音声保存部に保存された認識結果と該認識結果に対応する音声信号とを用いて認識結果に対応する入力音の音響モデルを再学習し、音響モデル部に保存された音響モデルを更新する音響モデル学習部と、認識部から制御部へ認識結果が入力された時点より所定の限時時間を限時するタイマ部とを備え、タイマ部の限時動作中に認識部の認識結果とは制御内容が異なる制御信号が操作部から出力された場合、入力音声保存部は、保存している認識結果を、操作部から出力された制御信号の内容に基づいて修正し、前記音響モデル学習部が該修正された認識結果と入力音声とを用いて修正された認識結果に対応する入力音の音響モデルを再学習し、制御対象機器がオフしている状態で認識部が入力音を雑音と認識してからタイマ部の限時動作が終了するまでの間に操作部から制御対象機器をオンさせる制御信号が出力されると、入力音声保存部は、雑音と認識された認識結果をオン操作のための音声に修正して保存することを特徴とする。

ところで、認識部が入力音を誤認識し、誤った認識結果によって制御部が制御対象機器を誤動作させた場合、使用者は制御対象機器を所望の動作状態とするために操作部を直接操作すると考えられるが、本発明によれば、タイマ部の限時動作中、つまり認識部から制御部へ認識結果が入力された時点から所定の限時時間が経過するまでの間に、認識部の認識結果とは制御内容が異なる制御信号が操作部から出力されると、入力音声保存部が保存している認識結果を修正しており、誤認識された入力音の音声信号と修正された認識結果とを用いて音響モデル学習部が音響モデルを再学習することで、次回同じ音が入力された場合に誤認識が起きる可能性が低くなり、音声認識の正解率を向上させて装置の信頼性を高めることができる。

請求項２の発明は、制御対象機器を操作するために人が発した音声または雑音の何れかである音が入力され、入力音を電気信号である音声信号に変換して出力する音変換部と、音声信号より入力音の特徴量を抽出する特徴量抽出部と、複数の音声および雑音の各々について特徴量をモデル化した音響モデルを保存する音響モデル部と、特徴量抽出部が抽出した特徴量と音響モデル部に保存された音響モデルとを比較することによって入力音を認識する認識部と、認識部の認識結果に応じた動作を行わせるための制御信号を制御対象機器に出力する制御部と、操作に応じた制御信号を制御対象機器に直接出力する操作部と、音声信号と認識部の認識結果とを対応付けて保存する入力音声保存部と、入力音声保存部に保存された認識結果と該認識結果に対応する音声信号とを用いて認識結果に対応する入力音の音響モデルを再学習し、音響モデル部に保存された音響モデルを更新する音響モデル学習部と、認識部から制御部へ認識結果が入力された時点より所定の限時時間を限時するタイマ部とを備え、タイマ部の限時動作中に認識部の認識結果とは制御内容が異なる制御信号が操作部から出力された場合、入力音声保存部は、保存している認識結果を、操作部から出力された制御信号の内容に基づいて修正し、前記音響モデル学習部が該修正された認識結果と入力音声とを用いて修正された認識結果に対応する入力音の音響モデルを再学習し、制御対象機器がオフしている状態で認識部が入力音をオン操作のための音声と認識してからタイマ部の限時動作が終了するまでの間に操作部から制御対象機器をオフさせる制御信号が出力されると、入力音声保存部はオン操作のための音声と認識された認識結果を雑音に修正して保存することを特徴とする。請求項２の発明によれば、タイマ部の限時動作中、つまり認識部から制御部へ認識結果が入力された時点から所定の限時時間が経過するまでの間に、認識部の認識結果とは制御内容が異なる制御信号が操作部から出力されると、入力音声保存部が保存している認識結果を修正しており、誤認識された入力音の音声信号と修正された認識結果とを用いて音響モデル学習部が音響モデルを再学習することで、次回同じ音が入力された場合に誤認識が起きる可能性が低くなり、音声認識の正解率を向上させて装置の信頼性を高めることができる。

請求項３の発明は、制御対象機器を操作するために人が発した音声または雑音の何れかである音が入力され、入力音を電気信号である音声信号に変換して出力する音変換部と、音声信号より入力音の特徴量を抽出する特徴量抽出部と、複数の音声および雑音の各々について特徴量をモデル化した音響モデルを保存する音響モデル部と、特徴量抽出部が抽出した特徴量と音響モデル部に保存された音響モデルとを比較することによって入力音を認識する認識部と、認識部の認識結果に応じた動作を行わせるための制御信号を制御対象機器に出力する制御部と、操作に応じた制御信号を制御対象機器に直接出力する操作部と、音声信号と認識部の認識結果とを対応付けて保存する入力音声保存部と、入力音声保存部に保存された認識結果と該認識結果に対応する音声信号とを用いて認識結果に対応する入力音の音響モデルを再学習し、音響モデル部に保存された音響モデルを更新する音響モデル学習部と、認識部から制御部へ認識結果が入力された時点より所定の限時時間を限時するタイマ部とを備え、タイマ部の限時動作中に認識部の認識結果とは制御内容が異なる制御信号が操作部から出力された場合、入力音声保存部は、保存している認識結果を、操作部から出力された制御信号の内容に基づいて修正し、前記音響モデル学習部が該修正された認識結果と入力音声とを用いて修正された認識結果に対応する入力音の音響モデルを再学習し、制御対象機器の動作状態を記憶する制御状態記憶部を備え、入力音が、制御状態記憶部に記憶されている現在の動作状態に制御対象機器を操作するための音声であると認識部が認識した場合、入力音声保存部は操作のための音声と認識された認識結果を雑音に修正して保存することを特徴とする。

一般に使用者が制御対象機器を音声で操作する際に、現在の動作状態に操作するような命令を発することはないと考えられるが、請求項３の発明によれば、現在の動作状態に操作する命令であると入力音が認識された場合、入力音声保存部は、操作するための音声と認識された認識結果を雑音に修正して保存しているので、誤認識された入力音の音声信号と修正された認識結果とを用いて音響モデル学習部が音響モデルを再学習することで、次回同じ音が入力された場合に誤認識が起きる可能性を低減することができる。

請求項４の発明は、制御対象機器を操作するために人が発した音声または雑音の何れかである音が入力され、入力音を電気信号である音声信号に変換して出力する音変換部と、音声信号より入力音の特徴量を抽出する特徴量抽出部と、複数の音声および雑音の各々について特徴量をモデル化した音響モデルを保存する音響モデル部と、特徴量抽出部が抽出した特徴量と音響モデル部に保存された音響モデルとを比較することによって入力音を認識する認識部と、認識部の認識結果に応じた動作を行わせるための制御信号を制御対象機器に出力する制御部と、操作に応じた制御信号を制御対象機器に直接出力する操作部と、音声信号と認識部の認識結果とを対応付けて保存する入力音声保存部と、入力音声保存部に保存された認識結果と該認識結果に対応する音声信号とを用いて認識結果に対応する入力音の音響モデルを再学習し、音響モデル部に保存された音響モデルを更新する音響モデル学習部と、認識部から制御部へ認識結果が入力された時点より所定の限時時間を限時するタイマ部とを備え、タイマ部の限時動作中に認識部の認識結果とは制御内容が異なる制御信号が操作部から出力された場合、入力音声保存部は、保存している認識結果を、操作部から出力された制御信号の内容に基づいて修正し、前記音響モデル学習部が該修正された認識結果と入力音声とを用いて修正された認識結果に対応する入力音の音響モデルを再学習し、音変換部の集音範囲を少なくとも含む検知エリア内で人の存否を検知する人感センサを設け、当該人感センサが人の存在を検知していない状態で、認識部が入力音を操作のための音声と認識した場合、入力音声保存部は、操作のための音声と認識された認識結果を雑音と修正して保存することを特徴とする。

ところで、音変換部の集音範囲に人がいない場合は音変換部に入力される音が雑音であることは自明であり、請求項４の発明によれば、人感センサが人の存在を検知していない状態で入力音が操作のための音声と認識された場合、入力音声保存部は認識結果を雑音と修正して保存しているので、誤認識された入力音の音声信号と修正された認識結果とを用いて音響モデル学習部が音響モデルを再学習することで、次回同じ音が入力された場合に誤認識が起きる可能性を低減することができる。

請求項５の発明は、制御対象機器を操作するために人が発した音声または雑音の何れかである音が入力され、入力音を電気信号である音声信号に変換して出力する音変換部と、音声信号より入力音の特徴量を抽出する特徴量抽出部と、複数の音声および雑音の各々について特徴量をモデル化した音響モデルを保存する音響モデル部と、特徴量抽出部が抽出した特徴量と音響モデル部に保存された音響モデルとを比較することによって入力音を認識する認識部と、認識部の認識結果に応じた動作を行わせるための制御信号を制御対象機器に出力する制御部と、操作に応じた制御信号を制御対象機器に直接出力する操作部と、音声信号と認識部の認識結果とを対応付けて保存する入力音声保存部と、入力音声保存部に保存された認識結果と該認識結果に対応する音声信号とを用いて認識結果に対応する入力音の音響モデルを再学習し、音響モデル部に保存された音響モデルを更新する音響モデル学習部と、認識部から制御部へ認識結果が入力された時点より所定の限時時間を限時するタイマ部とを備え、タイマ部の限時動作中に認識部の認識結果とは制御内容が異なる制御信号が操作部から出力された場合、入力音声保存部は、保存している認識結果を、操作部から出力された制御信号の内容に基づいて修正し、前記音響モデル学習部が該修正された認識結果と入力音声とを用いて修正された認識結果に対応する入力音の音響モデルを再学習し、認識部が入力音を音声と認識してから一定時間が経過するまでの間に、認識部が新たな入力音を雑音と判断した場合、入力音声保存部は雑音と認識された認識結果とこの認識結果に対応する音声信号のデータを削除することを特徴とする。

請求項５の発明によれば、一定時間内に入力音が連続して入力される場合、雑音と認識された認識結果とこの認識結果に対応する音声信号のデータを入力音声保存部が削除しているので、連続して操作のための音声が入力されるような機器では、雑音と誤認識された入力音の音声信号とその認識結果のデータを削除することで、音響モデル学習部が誤ったデータに基づいて再学習するのを防止でき、次回同じ音が入力された場合に誤認識が起きる可能性を低減することができる。

以上説明したように、本発明によれば、タイマ部の限時動作中、つまり認識部から制御部へ認識結果が入力された時点から所定の限時時間が経過するまでの間に、認識部の認識結果とは制御内容が異なる制御信号が操作部から出力されると、入力音声保存部が保存している認識結果を修正しており、誤認識された入力音の音声信号と修正された認識結果とを用いて音響モデル学習部が音響モデルを再学習することで、次回同じ入力音が入力された場合に誤認識が起きる可能性が低くなり、音声認識の正解率を向上させて装置の信頼性を高めることができるという効果がある。

以下に本発明の実施の形態を図面に基づいて説明する。

（実施形態１）
図１は本実施形態の音声認識機能付制御装置のブロック図であり、この音声認識機能付制御装置Ａは、マイク１と、特徴量抽出部２と、音響モデル保存部３と、認識部４と、スイッチ５と、制御部６と、入力音声保存制御部７と、音響モデル学習部８と、タイマ部９とを主要な構成として備えている。尚、タイマ部９を付加した点以外は背景技術で説明した図６の音声認識機能付制御装置Ａと略同様であるので、共通する構成要素には同一の符号を付して、その説明は省略する。

タイマ部９は制御部６からのトリガ信号を受けて限時動作を開始する。すなわち、制御部６では、認識部４から認識結果が入力されると、認識結果に応じた動作を行わせるための制御信号を制御対象機器（例えば照明装置Ｂ）に出力するとともに、タイマ部９にトリガ信号を出力する。タイマ部９では、トリガ信号を受け取ると所定時間の限時動作を開始し、限時動作が完了すると、タイマ動作完了信号を入力音声保存制御部７に出力する。

一方、入力音声保存制御部７では、特徴量抽出部２から入力された音声信号と、認識部４から入力された認識結果とを対応付けて保存するとともに、タイマ動作完了信号が入力されると、今回入力された認識結果とこの認識結果に対応する１乃至複数の音声信号を音響モデル学習部８に出力する。また、入力音声保存制御部７にはスイッチ５の操作入力も与えられるようになっており、認識部４から認識結果が入力された時点（タイマ動作開始時点）から、タイマ部９よりタイマ動作完了信号が入力されるまでの間にスイッチ５から認識結果とは異なる制御内容の制御信号が与えられると、認識結果を制御信号の制御内容に一致するように書き換えており、その後タイマ動作完了信号が入力されると、修正した認識結果と、この認識結果に対応する音声信号を音響モデル学習部８に出力し、音響モデルの再学習を行わせる。

図２は本装置Ａを照明器具の制御用に適用した場合の施工例を示しており、部屋２０の天井２１に制御対象の照明装置Ｂが設置されるとともに、外部に通じるドア２２付近の壁２３には照明装置Ｂを直接操作するためのスイッチ５が配設され、さらにこのスイッチ５の近傍（上側）にマイク１が配設されている。スイッチ５は部屋２０に出入りする際に操作されることが多いため、ドア２２の近傍に設置されており、同様の理由でドア２２の近傍に居る人が発する操作命令を確実に集音できるよう、マイク１もドア２２（スイッチ５）の近傍に設置されている。

しかしながら、マイク１をドア２２の近傍に設置したために、ドア２２を開閉する音がマイク１に集音されやすくなり、ドア２２の開閉音を操作命令と誤認識し、ユーザの意図に反して照明装置Ｂが点灯又は消灯する可能性があった。また、人の発した操作命令をドア２２の開閉音と誤認識し、ユーザの意図に反して照明装置Ｂが点灯しない、或いは消灯しない可能性もあった。

ここで、認識部４が雑音を命令語と誤認識したり、逆に操作命令を雑音と誤認識した結果、照明装置Ｂの動作がユーザの意図と異なる動作になった場合、ユーザはスイッチ５を直接操作して、照明装置Ｂの動作を自分の意図する動作に一致させるものと考えられる。したがって、タイマ部９の限時時間を、認識部４の認識結果が制御部６に入力された時点より、ユーザがスイッチ５を直接操作して照明装置Ｂの動作を変更するまでに必要な時間よりも若干長めに設定しておけば、認識部４の認識結果とユーザの意図する動作とが異なる場合はタイマ動作完了信号が入力されるよりも前にスイッチ５からの操作入力が入力音声保存制御部７に与えられ、認識部４の認識結果とユーザの意図する動作とが一致している場合はタイマ動作完了信号が入力されるまでの間にスイッチ５からの操作入力は与えられないものと判断できる。

背景技術で説明したように入力音声保存制御部７には、特徴量抽出部２に入力された音声信号と認識部４による認識結果とが対応付けて保存されており、認識結果とこの認識結果に対応する１乃至複数の音声信号とが音響モデル学習部８に出力され、音響モデル学習部８によって音響モデルが再学習されるのであるが、入力音声保存制御部７では、認識部４から認識結果が入力された時点より、タイマ部９からタイマ動作完了信号が入力されるまでの間にスイッチ５から認識結果とは異なる制御内容の制御信号が与えられると、認識結果を制御信号の制御内容に一致するように修正しているので、認識結果をユーザの発した操作命令に合致するように修正することができる。したがって、修正後の認識結果とそれに対応する音声信号を用いて音響モデル学習部８が音響モデルを再学習することで、音響モデルを正確なものとして、音声認識の認識性能を向上させることができる。

例えば照明装置Ｂが消灯（オフ）している状態でユーザが照明装置Ｂを点灯させる操作命令（例えば「あかり」）を発話したにも関わらず、認識部４が特徴量抽出部２から入力された特徴量を音響モデル保存部３に保存された音響モデルと比較して、「雑音」の音響モデルに類似していると判断した場合、制御部６および入力音声保存制御部７に「雑音」という認識結果を出力する。制御部６に「雑音」という認識結果が与えられると、制御部６はタイマ部９に対してトリガ信号を出力するとともに、照明装置Ｂに対しては何ら制御信号を出力しないため、照明装置Ｂは消灯したままとなる。このとき、ユーザは「あかり」と発話したにも関わらず、照明装置Ｂが点灯しないため、「あかり」というオン操作命令が正しく認識されなかったと判断し、スイッチ５を直接オン操作して照明装置Ｂを点灯させようとする。スイッチ５がオン操作されると、スイッチ５のオン操作信号が照明装置Ｂに与えられて照明装置Ｂが点灯するとともに、オン操作信号が入力音声保存制御部７に与えられる。入力音声保存制御部７では、特徴量抽出部２から入力される音声信号と認識部４の認識結果とを対応付けて保存してあり、タイマ部９からタイマ動作完了信号を受け取ると今回の認識結果とそれに対応する１乃至複数の音声信号の特徴量とを音響モデル学習部８に出力するのであるが、タイマ動作完了信号を受け取るよりも前に、認識部４の認識結果（「雑音」）と異なるオン操作信号がスイッチ５から与えられると、入力音声保存制御部７は誤認識が発生したと判断して、今回の認識結果を「雑音」から「あかり」に変更し、変更後の「あかり」という認識結果と対応する音声信号とを音響モデル学習部８に出力する。このとき、音響モデル学習部８は、「雑音」と誤認識された音声信号を用いて「あかり」音響モデルの再学習を行うので、使用者が次に「あかり」と発話した場合にこの発話を「あかり」と認識できる可能性が高くなり、認識精度を向上させることが可能になる。

また例えば照明装置Ｂが消灯（オフ）している状態でマイク１に雑音が入力され、特徴量抽出部２が雑音の特徴量を抽出して認識部４に出力した場合に、認識部４が特徴量抽出部２から入力された特徴量を音響モデル保存部３に保存された音響モデルと比較して、「あかり」の音響モデルに類似していると判断した場合、制御部６および入力音声保存制御部７に「あかり」という認識結果が出力される。制御部６に「あかり」という認識結果が与えられると、制御部６はタイマ部９に対してトリガ信号を出力するとともに、照明装置Ｂに対して点灯制御信号を出力して、照明装置Ｂを点灯（オン）させる。このとき、ユーザは「あかり」と発話していないにも関わらず、照明装置Ｂが点灯してしまうため、雑音が「あかり」と誤認識されたと判断し、スイッチ５を直接オフ操作して照明装置Ｂを消灯させようとする。スイッチ５がオフ操作されると、スイッチ５のオフ操作信号が照明装置Ｂに与えられて照明装置Ｂが消灯するとともに、オフ操作信号が入力音声保存制御部７に与えられる。入力音声保存制御部７では、タイマ部９からタイマ動作完了信号を受け取るよりも前に、認識部４の認識結果（「あかり」）と異なるオフ操作信号がスイッチ５から与えられるので、誤認識が発生したと判断して、保存している認識結果を「あかり」から「雑音」に変更し、変更後の「雑音」という認識結果と音声信号の特徴量とを音響モデル学習部８に出力する。このとき、音響モデル学習部８は、「あかり」と誤認識された「雑音」の音声信号を用いて、「雑音」音響モデルを再学習するので、次回「雑音」がマイク１に入力された場合にこの音声信号を「雑音」と正しく認識できる可能性が高くなり、認識精度を向上させることが可能になる。

このように、認識部４の誤認識によって照明装置Ｂが使用者の意図と異なる動作を行うと、使用者はスイッチ５を直接操作して照明装置Ｂの動作状態を所望の動作に修正するような操作を行うので、使用者がスイッチ５を用いて修正する操作を検知することで、音響モデルの再学習に用いる音声信号とその認識結果との対応関係を正しく修正することができる。したがって、正しい認識結果を用いて音響モデルを再学習することで、次回同じ音が入力された際に認識部４が正しく認識する確率が向上するのである。

（実施形態２）
本発明の実施形態２を図３に基づいて説明する。図３は本実施形態の音声認識機能付制御装置のブロック図であり、この音声認識機能付制御装置Ａは、マイク１と、特徴量抽出部２と、音響モデル保存部３と、認識部４と、スイッチ５と、制御部６と、入力音声保存制御部７と、音響モデル学習部８と、タイマ部９と、制御状態記憶部１０とを主要な構成として備えている。尚、制御状態記憶部１０を付加した点以外は実施形態１で説明した音声認識機能付制御装置Ａと略同様であるので、共通する構成要素には同一の符号を付して、その説明は省略する。

制御状態記憶部１０には、制御部６から照明装置Ｂに与えられる制御信号と、スイッチ５から照明装置Ｂに与えられる制御信号とが入力されており、これらの制御信号のうち最新の制御信号をもとに照明装置Ｂの現在の制御状態を判断し、判断結果を保存する。そして、制御状態記憶部１０は、入力音声保存制御部７から制御状態の問い合わせがあると、現在記憶している制御状態（照明装置Ｂの場合は「点灯」あるいは「非点灯」）のデータを入力音声保存制御部７に出力する。

ここで、入力音声保存制御部７は、特徴量抽出部２に入力される音声信号と、認識部４による認識結果とを対応付けて保存しており、認識部４から新たな認識結果が入力されると、制御状態記憶部１０に照明装置Ｂの現在の制御状態を問い合わせる。そして、現在の制御状態と認識部４の認識結果が示す状態とが同じ状態になった場合、一般的に現在の制御状態と同じ状態に切り替えるような命令は出されないので、入力音声保存制御部７は音声信号を誤認識したと判断し、保存している認識結果を修正する。例えば入力音声保存制御部７に「あかり」という認識結果が入力された際に、制御状態記憶部１０から取り込んだ現在の制御状態が「点灯」であった場合、入力音声保存制御部７は、照明装置Ｂが既に点灯しているにも関わらず、「あかり」という命令が入力されることはないと判断できるので、認識結果を「あかり」から「雑音」に修正し、修正後の認識結果とそれに対応する音声信号を音響モデル学習部８に出力する。而して音響モデル学習部８では、「あかり」と誤認識した雑音信号を用いて、「雑音」音響モデルを再学習することができ、「雑音」音響モデルの精度を高めることで、次回同じ雑音が入力された場合に「雑音」と正しく認識できる可能性が向上する。したがって、照明装置Ｂの消灯中に同じ雑音信号が入力されたとしても、「雑音」と正しく認識できる可能性が高いから、「雑音」と誤認識して照明装置Ｂが点灯してしまうのを防止できる。

（実施形態３）
本発明の実施形態３を図４に基づいて説明する。本実施形態の音声認識機能付制御装置は、実施形態１の音声認識機能付制御装置Ａにおいて人感センサ１１を付加してある。なお、人感センサ１１以外の構成は実施形態１で説明した音声認識機能付制御装置Ａと同様であるので、共通する構成要素には同一の符号を付して、その説明は省略する。

人感センサ１１は、例えば超音波を用いて検知エリア内の物体を検知する超音波センサや、人体から放射される熱線を検知することによって検知エリア内で人の存否を検知する焦電型の赤外線検出素子からなり、マイク１の設置位置から所定の距離範囲に設定した検知エリア（マイク１の集音範囲を含む）内で人の存否を検出しており、検出結果を入力音声保存制御部７に出力する。

一方、入力音声保存制御部７は、特徴量抽出部２から入力された音声信号と、認識部４から入力された認識結果とを対応付けて保存しており、認識部４から認識結果が入力されると、この認識結果とそれに対応する１乃至複数の音声信号とを音響モデル学習部８に出力し、音響モデル学習部８に音響モデルを再学習させる。ただし、入力音声保存制御部７では、認識部４から操作命令という認識結果が入力された場合に人感センサ１１が人の存在を検知していない場合、雑音をユーザの声（命令語）と誤認識したと判断して、入力された認識結果を「雑音」に修正し、修正後の認識結果とそれに対応する音声信号を音響モデル学習部８に出力する。而して音響モデル学習部８では、命令語（例えば「あかり」や「消灯」など）と誤認識された雑音の音声信号を用いて、「雑音」音響モデルを再学習することができ、「雑音」音響モデルの精度を高めることで、次回同じ雑音信号が入力された場合に「雑音」と正しく認識できる可能性が向上する。

なお本実施形態は、照明装置Ｂの操作手段として音声認識による操作手段と、スイッチ５を用いて直接操作する手段を備えているが、人感センサ１１の検出結果を照明装置Ｂに出力させ、照明装置Ｂにおいて人感センサ１１から人体を検知したという信号が入力された場合のみ照明負荷を点灯可能とするようにしても良い。

（実施形態４）
本発明の実施形態４を図５に基づいて説明する。尚、音声認識機能付制御装置Ａの基本的な構成は実施形態１〜３と同様であるので、共通する構成要素には同一の符号を付して、その説明は省略する。

図５（ａ）（ｂ）は、例えば台所に設置され、料理に使用する材料名から料理のレシピを検索してユーザに提示する料理レシピ検索装置Ｃの音声入力用に音声認識機能付制御装置Ａを適用した場合の施工例を示している。この検索装置Ｃの器体３０は台所４０のシンク周りの壁４１に設置されており、器体３０の前面にはレシピの検索条件や検索結果を表示するタッチスイッチ付の表示パネル３１とマイク１とが配置されている。

この検索装置Ｃは、操作手段として検索装置Ｃを直接操作するためタッチパネル式のスイッチ５を備え、スイッチ５から入力される制御信号に応じて所望の動作を行うのであるが、例えば料理中にユーザの手が汚れていてタッチパネルの操作ができない場合を想定して、検索装置Ｃを操作するために人が発した命令語を認識する認識部４を備え、認識部４の認識結果に応じて制御部６から出力される制御信号に応じて所望の動作を行うようになっている。なお、料理レシピの検索用に用いる場合には音響モデル保存部３に保存される音響モデルとして、表示パネル３１の画面を検索画面に遷移させるための命令語である「材料検索」という語彙に対応した「材料検索」音響モデルや、材料名を入力する際に発する材料名に対応した材料名音響モデル、例えば林檎という語彙に対応した「林檎」音響モデルや、検索処理を実行させるための命令語である「検索」という語彙に対応した「検索」音響モデルなど多数の命令語の音響モデルからなる「命令語」音響モデルと、装置を操作するための音声以外の音声や物音などの音に対応する「雑音」音響モデルとが保存されている。

ところで、上述の実施形態１では認識部４から制御部６に認識結果が入力されると、制御部６がタイマ部９にトリガ信号を出力して限時動作を開始させているが、本実施形態では、認識部４から制御部６に入力音が音声であるという認識結果が入力されると、制御部６が、認識結果に応じて制御信号を制御対象機器（検索装置Ｃ）に出力するとともに、図示しない第２タイマにトリガ信号を出力して、一定時間の限時動作を開始させる。この第２タイマは、一定時間を限時すると入力音声保存制御部７にタイマ完了信号を出力しており、限時動作中に制御部６から再度トリガ信号が入力されると、一定時間の限時動作を再度初めから行っており、いわゆるリトリガブル機能を有している。

一方、入力音声保存制御部７では、特徴量抽出部２から入力された音声信号と、認識部４から入力された認識結果とを対応付けて保存しており、認識部４から認識結果が入力されると保存している認識結果の内、今回入力された認識結果とその前に入力された認識結果を除く全ての認識結果と、それらに対応した１乃至複数の音声データとを音響モデル学習部８に出力し、音響モデル学習部８に音響モデルを再学習させている。ただし、２つ前に入力された認識結果が「材料検索」などのような音声操作を表す語彙であり、その後第２タイマのタイマ完了信号が入力されるよりも前に入力された１つ前の認識結果が「雑音」であり、さらにその後に第２タイマのタイマ完了信号が入力されるよりも前に今回の認識結果として「林檎」のような音声操作を表す語彙を受け取った場合、入力音声保存制御部７は「雑音」という結果になった１つ前の認識結果と、この認識結果に対応する音声信号のデータを削除する。

本実施形態のように、料理レシピ検索装置Ｃのような連続して音声入力を行う装置に音声認識機能付制御装置Ａを適用した場合、ユーザが本装置Ａを利用している時には、例えば「材料検索」と発話して材料検索画面に切り替え、「林檎」などと材料名を発話した後、連続して「検索」と発話して検索動作を実行させるというように、連続的に音声が入力されるので、第２タイマが限時動作を終了するまでの間に入力される音は雑音ではなく音声である可能性が高い。すなわち、第２タイマの限時動作が終了するまでの間（つまり音声という認識結果が得られてから一定時間が経過するまでの間）にマイク１に入力される音は音声である可能性が高いので、この間に認識部４から「雑音」という認識結果が入力された場合には、「雑音」と認定された音は実際には音声であると判断することができ、入力音声保存制御部７では「雑音」という認識結果と、「雑音」と認識された音声信号のデータとを破棄させることで、音響モデル学習部８が誤った認識結果を用いて音響モデルを再学習するのを防止することができる。

実施形態１のブロック図である。同上を照明装置に適用した使用例の説明図である。実施形態２のブロック図である。実施形態３のブロック図である。（ａ）（ｂ）は実施形態４を料理レシピ検索装置に適用した使用例の説明図である。従来例のブロック図である。

符号の説明

Ａ音声認識機能付制御装置
Ｂ照明装置
２特徴量抽出部
３音響モデル保存部
４認識部
５スイッチ
６制御部
７入力音声保存制御部
８音響モデル学習部

Claims

制御対象機器を操作するために人が発した音声または雑音の何れかである音が入力され、入力音を電気信号である音声信号に変換して出力する音変換部と、
前記音声信号より入力音の特徴量を抽出する特徴量抽出部と、
複数の音声および雑音の各々について特徴量をモデル化した音響モデルを保存する音響モデル部と、
前記特徴量抽出部が抽出した特徴量と前記音響モデル部に保存された音響モデルとを比較することによって入力音を認識する認識部と、
前記認識部の認識結果に応じた動作を行わせるための制御信号を制御対象機器に出力する制御部と、
操作に応じた制御信号を制御対象機器に直接出力する操作部と、
前記音声信号と前記認識部の認識結果とを対応付けて保存する入力音声保存部と、
前記入力音声保存部に保存された認識結果と該認識結果に対応する音声信号とを用いて前記認識結果に対応する入力音の音響モデルを再学習し、前記音響モデル部に保存された音響モデルを更新する音響モデル学習部と、
前記認識部から前記制御部へ認識結果が入力された時点より所定の限時時間を限時するタイマ部とを備え、
前記タイマ部の限時動作中に前記認識部の認識結果とは制御内容が異なる制御信号が前記操作部から出力された場合、前記入力音声保存部は、保存している認識結果を、前記操作部から出力された制御信号の内容に基づいて修正し、前記音響モデル学習部が該修正された認識結果と入力音声とを用いて前記修正された認識結果に対応する入力音の音響モデルを再学習し、
制御対象機器がオフしている状態で前記認識部が入力音を雑音と認識してから前記タイマ部の限時動作が終了するまでの間に前記操作部から制御対象機器をオンさせる制御信号が出力されると、前記入力音声保存部は、雑音と認識された認識結果をオン操作のための音声に修正して保存することを特徴とする音声認識機能付制御装置。
制御対象機器を操作するために人が発した音声または雑音の何れかである音が入力され、入力音を電気信号である音声信号に変換して出力する音変換部と、
前記音声信号より入力音の特徴量を抽出する特徴量抽出部と、
複数の音声および雑音の各々について特徴量をモデル化した音響モデルを保存する音響モデル部と、
前記特徴量抽出部が抽出した特徴量と前記音響モデル部に保存された音響モデルとを比較することによって入力音を認識する認識部と、
前記認識部の認識結果に応じた動作を行わせるための制御信号を制御対象機器に出力する制御部と、
操作に応じた制御信号を制御対象機器に直接出力する操作部と、
前記音声信号と前記認識部の認識結果とを対応付けて保存する入力音声保存部と、
前記入力音声保存部に保存された認識結果と該認識結果に対応する音声信号とを用いて前記認識結果に対応する入力音の音響モデルを再学習し、前記音響モデル部に保存された音響モデルを更新する音響モデル学習部と、
前記認識部から前記制御部へ認識結果が入力された時点より所定の限時時間を限時するタイマ部とを備え、
前記タイマ部の限時動作中に前記認識部の認識結果とは制御内容が異なる制御信号が前記操作部から出力された場合、前記入力音声保存部は、保存している認識結果を、前記操作部から出力された制御信号の内容に基づいて修正し、前記音響モデル学習部が該修正された認識結果と入力音声とを用いて前記修正された認識結果に対応する入力音の音響モデルを再学習し、
制御対象機器がオフしている状態で前記認識部が入力音をオン操作のための音声と認識してから前記タイマ部の限時動作が終了するまでの間に前記操作部から制御対象機器をオフさせる制御信号が出力されると、前記入力音声保存部はオン操作のための音声と認識された認識結果を雑音に修正して保存することを特徴とする音声認識機能付制御装置。
制御対象機器を操作するために人が発した音声または雑音の何れかである音が入力され、入力音を電気信号である音声信号に変換して出力する音変換部と、
前記音声信号より入力音の特徴量を抽出する特徴量抽出部と、
複数の音声および雑音の各々について特徴量をモデル化した音響モデルを保存する音響モデル部と、
前記特徴量抽出部が抽出した特徴量と前記音響モデル部に保存された音響モデルとを比較することによって入力音を認識する認識部と、
前記認識部の認識結果に応じた動作を行わせるための制御信号を制御対象機器に出力する制御部と、
操作に応じた制御信号を制御対象機器に直接出力する操作部と、
前記音声信号と前記認識部の認識結果とを対応付けて保存する入力音声保存部と、
前記入力音声保存部に保存された認識結果と該認識結果に対応する音声信号とを用いて前記認識結果に対応する入力音の音響モデルを再学習し、前記音響モデル部に保存された音響モデルを更新する音響モデル学習部と、
前記認識部から前記制御部へ認識結果が入力された時点より所定の限時時間を限時するタイマ部とを備え、
前記タイマ部の限時動作中に前記認識部の認識結果とは制御内容が異なる制御信号が前記操作部から出力された場合、前記入力音声保存部は、保存している認識結果を、前記操作部から出力された制御信号の内容に基づいて修正し、前記音響モデル学習部が該修正された認識結果と入力音声とを用いて前記修正された認識結果に対応する入力音の音響モデルを再学習し、
制御対象機器の動作状態を記憶する制御状態記憶部を備え、入力音が、前記制御状態記憶部に記憶されている現在の動作状態に制御対象機器を操作するための音声であると前記認識部が認識した場合、前記入力音声保存部は操作のための音声と認識された認識結果を雑音に修正して保存することを特徴とする音声認識機能付制御装置。
制御対象機器を操作するために人が発した音声または雑音の何れかである音が入力され、入力音を電気信号である音声信号に変換して出力する音変換部と、
前記音声信号より入力音の特徴量を抽出する特徴量抽出部と、
複数の音声および雑音の各々について特徴量をモデル化した音響モデルを保存する音響モデル部と、
前記特徴量抽出部が抽出した特徴量と前記音響モデル部に保存された音響モデルとを比較することによって入力音を認識する認識部と、
前記認識部の認識結果に応じた動作を行わせるための制御信号を制御対象機器に出力する制御部と、
操作に応じた制御信号を制御対象機器に直接出力する操作部と、
前記音声信号と前記認識部の認識結果とを対応付けて保存する入力音声保存部と、
前記入力音声保存部に保存された認識結果と該認識結果に対応する音声信号とを用いて前記認識結果に対応する入力音の音響モデルを再学習し、前記音響モデル部に保存された音響モデルを更新する音響モデル学習部と、
前記認識部から前記制御部へ認識結果が入力された時点より所定の限時時間を限時するタイマ部とを備え、
前記タイマ部の限時動作中に前記認識部の認識結果とは制御内容が異なる制御信号が前記操作部から出力された場合、前記入力音声保存部は、保存している認識結果を、前記操作部から出力された制御信号の内容に基づいて修正し、前記音響モデル学習部が該修正された認識結果と入力音声とを用いて前記修正された認識結果に対応する入力音の音響モデルを再学習し、
前記音変換部の集音範囲を少なくとも含む検知エリア内で人の存否を検知する人感センサを設け、当該人感センサが人の存在を検知していない状態で、前記認識部が入力音を操作のための音声と認識した場合、前記入力音声保存部は、操作のための音声と認識された認識結果を雑音と修正して保存することを特徴とする音声認識機能付制御装置。
制御対象機器を操作するために人が発した音声または雑音の何れかである音が入力され、入力音を電気信号である音声信号に変換して出力する音変換部と、
前記音声信号より入力音の特徴量を抽出する特徴量抽出部と、
複数の音声および雑音の各々について特徴量をモデル化した音響モデルを保存する音響モデル部と、
前記特徴量抽出部が抽出した特徴量と前記音響モデル部に保存された音響モデルとを比較することによって入力音を認識する認識部と、
前記認識部の認識結果に応じた動作を行わせるための制御信号を制御対象機器に出力する制御部と、
操作に応じた制御信号を制御対象機器に直接出力する操作部と、
前記音声信号と前記認識部の認識結果とを対応付けて保存する入力音声保存部と、
前記入力音声保存部に保存された認識結果と該認識結果に対応する音声信号とを用いて前記認識結果に対応する入力音の音響モデルを再学習し、前記音響モデル部に保存された音響モデルを更新する音響モデル学習部と、
前記認識部から前記制御部へ認識結果が入力された時点より所定の限時時間を限時するタイマ部とを備え、
前記タイマ部の限時動作中に前記認識部の認識結果とは制御内容が異なる制御信号が前記操作部から出力された場合、前記入力音声保存部は、保存している認識結果を、前記操作部から出力された制御信号の内容に基づいて修正し、前記音響モデル学習部が該修正された認識結果と入力音声とを用いて前記修正された認識結果に対応する入力音の音響モデルを再学習し、
前記認識部が入力音を音声と認識してから一定時間が経過するまでの間に、前記認識部が新たな入力音を雑音と判断した場合、前記入力音声保存部は雑音と認識された認識結果とこの認識結果に対応する音声信号のデータを削除することを特徴とする音声認識機能付制御装置。