JP2010230852A

JP2010230852A - コマンド認識装置

Info

Publication number: JP2010230852A
Application number: JP2009076789A
Authority: JP
Inventors: Yuji Hisaminato; 裕司久湊
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2009-03-26
Filing date: 2009-03-26
Publication date: 2010-10-14
Anticipated expiration: 2029-03-26
Also published as: JP5476760B2

Abstract

【課題】音声を用いたコマンドコントロールシステムにおいて、コマンドと関係のない音声による誤動作を軽減することのできる技術を提供する。
【解決手段】撮影装置１の制御部１１は、入力されたコマンド音節に含まれる音素に対応する音素を音素辞書から選択して、音素の列で構成されたコマンド音素列を生成する。また、制御部１１は、生成したコマンド音素列と所定の類似度を有するダミーコマンド音素列を、予め定められたアルゴリズムに従って生成する。制御部１１は、マイクロホン１５によって収音された音声を表す音声信号を解析し、解析結果とコマンド音素列との類似度及び解析結果とダミーコマンド音素列との類似度に応じて、コマンドの認識処理を実行する。
【選択図】図１

Description

本発明は、音声によるコマンドを認識する技術に関する。

音声を用いて電子機器を操作する音声コマンドコントロール、あるいは単にコマンドコントロールと呼ばれる機能がある。例えば音声でカメラのシャッターを切るというような用途に用いられる。具体的には、例えば、カメラに向かって「はい、チーズ」と言うと、その音声に反応してシャッターが切れるものが提案されている（例えば、特許文献１参照）。

特開２０００−５９６６４号公報

上述したようなコマンドコントロールでは、「はい、チーズ」という音声に対してのみ反応し、その他の音声に対しては反応しないことが望まれる。例えば、複数の人の写真をとる場合に、「はい、写真とるよ」、「はい、集まって」などということがあるが、そのような声に反応してシャッターが切れては困るという問題がある。

従来のＤＰマッチングを用いた手法では、或る人の「はい、チーズ」という音声を予めテンプレート登録しておく。そしてそのテンプレートと発音した音声とを比較してその類似度がある閾値以上であるかという基準をもとに「はい、チーズ」と言ったかどうかを判定する。閾値を上げれば「はい、チーズ」以外の音声による誤動作は防ぐことができるが、逆に「はい、チーズ」と言ったにもかかわらず動作しない誤棄却が増えてしまい、閾値の設定が重要になる。
しかしながら、登録した発話内容によって閾値は異なり、また周囲の騒音によりその基準も変わるため、様々なユーザの発話に対して期待した動作をさせるようなプリセットの閾値を事前に設定することは困難である。

また、従来のＨＭＭ（隠れマルコフモデル）を用いた大語彙音声認識システムを使った方法をこのようなコマンドコントロールに利用する場合には、辞書に大量の単語、形態素が登録されているため、「はい、チーズ」とそれ以外の音声も区別して認識することができる。従って「はい、チーズ」のみに反応して動作するコマンドコントロールは可能である。しかしながら、大語彙音声認識では、高速で動作するＣＰＵあるいはＤＳＰを必要とし、数十ＭＢｙｔｅ以上の単位のメモリが必要になってくるためコンパクトな機器に搭載することは困難である。

ここで、従来のＨＭＭを使い数語のみを辞書に登録しておく方法の問題点について図面を参照しつつ説明する。図１４は、従来のコマンドコントロールシステムの一例を示す図である。このシステムには予め音響モデル２２１と辞書（コマンドリスト）２２２が与えられている。なお、辞書はユーザ自身が作成することもできる。図１４に示すコマンドコントロールシステムにおいて、音響モデルとは、各音素の音響的な特徴を表したモデルであるＨＭＭ（隠れマルコフモデル）が用いられる。日本語のモノフォンの音響モデルの場合には、「ａ」，「ｉ」，「ｕ」，「ｅ」，「ｏ」の母音に加え、「ｐ」，「ｔ」，「ｓ」といった子音も加え約４０個程度の音素を用いる。辞書には、ユーザが何と言ったときにどのような動作に対応させるかを記載しておく。例えば、図１５に示すように、１列目に動作、２列目にそれに対応する発音（音素記号列）を記述しておく。

認識エンジン部２１１は、辞書、音響モデルから、例えば「はいチーズ」という音声に対応する音の標準的なモデルつまりコマンドの音響モデルＷ１を内部に構築する。同様に「フラッシュ」についても音響モデルＷ２を構築する。また、認識エンジン部２１１は、人が発話した音声を分析して、音響モデルと同じ表現の特徴パラメータの時系列Ｘに変換し、音響モデルＷ１から音声Ｘが出現する確率Ｐ（Ｘ｜Ｗ１）を前向きアルゴリズム等を用いて算出する。同様にＰ（Ｘ｜Ｗ２）も求めることができる。（Ｐ（Ｘ｜Ｗ）はＷという単語を発話しようとしたときにＸという音が発話される確率と言い換えることができる）。

発話した音声ＸがＷ１であるのか、それともＷ２であるのかを判定するには事後確率Ｐ（Ｗ１｜Ｘ）Ｐ（Ｗ２｜Ｘ）を比較しなければならない。そこで一般的な音声認識システムにおいては、ベイズの定理を用いて、Ｐ（Ｗ｜Ｘ）＝Ｐ（Ｗ）Ｐ（Ｘ｜Ｗ）／Ｐ（Ｘ）としてＰ（Ｘ）はある音声については一定であるのでＰ（Ｗ｜Ｘ）∝Ｐ（Ｗ）Ｐ（Ｘ｜Ｗ）とみなしてＰ（Ｘ｜Ｗ）を比較することでどちらの単語である確率が高いと相対的に判断する。
しかしながら、この方法では、Ｐ（Ｗ｜Ｘ）は絶対的な確率値ではないために、辞書に含まれていない単語であるかどうかは判定することができない。

本発明は、音声を用いたコマンドコントロールシステムにおいて、コマンドと関係のない音声による誤動作を軽減することのできる技術を提供することを目的とする。

上記課題を解決するために、本発明は、１又は複数の音節に対応する表記で構成されたコマンド音節の音節と音素とを対応付けて記憶する記憶手段と、入力されたコマンド音節に含まれる音節に対応する音素を前記記憶手段から選択して、音素の列で構成されたコマンド音素列を生成するコマンド音素列生成手段と、前記コマンド音素列生成手段によって生成されたコマンド音素列と所定の類似度を有するダミーコマンド音素列を、予め定められたアルゴリズムに従って生成するダミーコマンド音素列生成手段と、音声信号が入力される音声信号入力手段と、前記音声信号入力手段に入力された音声信号を解析し、解析結果と前記コマンド音素列との類似度及び該解析結果と前記ダミーコマンド音素列との類似度に応じて、コマンドの認識処理を行うコマンド認識手段とを具備することを特徴とするコマンド認識装置を提供する。

本発明の好ましい態様において、前記ダミーコマンド生成手段は、前記コマンド音素列に含まれる母音を予め定められた母音に置き換えたものをダミーコマンド音素列として生成してもよい。

本発明の更に好ましい態様において、前記ダミーコマンド生成手段は、前記コマンド音素列に含まれる母音を予め定められた母音に置き換えた場合に、該コマンド音素列との音素の差分が１音素のみである場合にはその音素列をダミーコマンド音素列として生成しないようにしてもよい。

本発明によれば、音声を用いたコマンドコントロールシステムにおいて、コマンドと関係のない音声による誤動作を軽減することができる。

撮影装置のハードウェア構成の一例を示すブロック図である。コマンド音素列テーブルの内容の一例を示す図である。撮影装置の機能的構成の一例を示すブロック図である。ダミーコマンドの内容の一例を示す図である。コマンドの特徴パラメータと確率Ｐ（Ｘ｜Ｗ）の対応関係の一例を示す図である。コマンドの特徴パラメータと確率Ｐ（Ｗ｜Ｘ）の対応関係の一例を示す図である。コマンドの特徴パラメータと確率Ｐ（Ｘ｜Ｗ）の対応関係の一例を示す図である。コマンド及びダミーコマンドの特徴パラメータと確率Ｐ（Ｗ｜Ｘ）の対応関係の一例を示す図である。コマンド及びダミーコマンドの特徴パラメータと確率Ｐ（Ｗ｜Ｘ）の対応関係の一例を示す図である。置換テーブルの内容の一例を示す図である。ダミーコマンド音素列の一例を示す図である。置換テーブルの内容の一例を示す図である。ダミーコマンド音素列の一例を示す図である。撮影装置の機能的構成の一例を示す図である。辞書の内容の一例を示す図である。

＜Ａ：構成＞
図１は、この発明の一実施形態である撮影装置１のハードウェア構成の一例を示すブロック図である。撮影装置１は、静止画像や動画像を撮影する機能を備えた装置であり、例えばデジタルカメラである。図１において、制御部１１は、ＣＰＵ（Central Processing Unit）やＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）を備え、ＲＯＭ又は記憶部１２に記憶されているコンピュータプログラムを読み出して実行することにより、バスＢＵＳを介して撮影装置１の各部を制御する。記憶部１２は、制御部１１によって実行されるコンピュータプログラムやその実行時に使用されるデータを記憶するための記憶手段であり、例えばハードディスク装置である。表示部１３は、液晶パネル等を備え、制御部１１による制御の下に各種の画像を表示する。操作部１４は、撮影装置１の利用者による操作に応じた信号を制御部１１に出力する。操作部１４は、十字キー（図示略）や、録音を開始・終了させるためのボタン（図示略）、静止画像の撮影及び動画像の撮影を開始・終了させるためのボタン（図示略）等の各種のボタンを備えており、撮影装置１の利用者は、これらのボタンを押下することで、録音や撮影等を行うことができる。なお、静止画の撮影と動画像の撮影との切替は、撮影装置１に設けられた切替スイッチ（図示略）によって切り替えられるようになっている。撮影部１８は、撮影用レンズ等を備え、撮影し、撮影した映像を表す映像データを出力する。なお、本実施形態に係る映像データは、静止画像を表すデータや動画像を表すデータを含む。

マイクロホン１５は、収音し、収音した音声を表すアナログ信号を出力する収音手段である。音声処理部１６は、マイクロホン１５が出力するアナログ信号をＡ／Ｄ変換してデジタルデータを生成する。また、音声処理部１６は、制御部１１の制御の下、デジタル形式の音声データをＤ／Ａ変換してアナログ信号を生成し、生成した音声信号をスピーカ１７に出力する。スピーカ１７は、音声処理部１６から供給されるアナログ信号に応じた強度で放音する放音手段である。

なお、この実施形態では、マイクロホン１５とスピーカ１７とが撮影装置１に含まれている場合について説明するが、音声処理部１６に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続するとしても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロホン１５から音声処理部１６へ入力される音声信号及び音声処理部１６からスピーカ１７へ出力される音声信号がアナログ音声信号である場合について説明するが、デジタル音声データを入出力するようにしても良い。このような場合には、音声処理部１６にてＡ／Ｄ変換やＤ／Ａ変換を行う必要はない。表示部１３、操作部１４、撮影部１８についても同様であり、撮影装置１に内蔵される形式であってもよく、外付けされる形式であってもよい。

記憶部１２は、図示のように、音響モデルデータベースＤＢ１記憶領域１２１と、コマンド音素列テーブルＴＢＬ１記憶領域１２２と、ダミーコマンド音素列テーブルＴＢＬ２記憶領域１２３と、音素辞書記憶領域１２４とを有している。音響モデルデータベースＤＢ１記憶領域１２１には、各音素の音響的な特徴を表したモデルであるＨＭＭ（隠れマルコフモデル）が記憶されている。この実施形態では、日本語のモノフォンの音響モデルとして、「ａ」，「ｉ」，「ｕ」，「ｅ」，「ｏ」の母音に加え、「ｐ」，「ｔ」，「ｓ」といった子音も加え約４０個程度の音素の特徴を表すデータ（以下「音素特徴データ」という）が記憶されている。

コマンド音素列テーブルＴＢＬ１記憶領域１２２には、ユーザが何と言ったときにどのような動作に対応させるかを示すデータが記憶される。図２は、コマンド音素列テーブルＴＢＬ１記憶領域１２２の記憶内容の一例を示す図である。図示のように、この記憶領域には、「動作内容」と「音素記号列」との各項目が互いに関連付けて記憶される。「動作内容」の項目には、「シャッターを切る」、「フラッシュをつける」といったような、撮影装置１が行う動作の内容を表すデータが記憶されている。「音素記号列」の項目には、各動作に対応する音声コマンドの音素記号列を表すデータ（以下「コマンド音素列」という）が記憶される。

ダミーコマンド音素列テーブルＴＢＬ２記憶領域１２３には、撮影装置１の制御部１１が後述するダミーコマンド生成処理を実行することによって生成されるダミーコマンドが記憶される。なお、この記憶領域に記憶されるダミーコマンドについては後述することとし、ここではその詳細な説明を省略する。音素辞書記憶領域１２４には、音節と音素とが対応付けて記憶されている。

次に、撮影装置１の機能的構成の一例について図面を参照しつつ説明する。図３は、撮影装置１の機能的構成の一例を示す図である。図において、認識エンジン部１１１、コマンド判定部１１２、コマンド実行部１１３及びダミーコマンド生成部１１４は、撮影装置１の制御部１１がＲＯＭ又は記憶部１２に記憶されたコンピュータプログラムを読み出して実行することによって実現される。なお、図中の矢印は、データの流れを概略的に示すものである。

認識エンジン部１１１には、マイクロホン１５によって収音された音声を表す音声信号が入力される。認識エンジン部１１１は、入力された音声信号を解析し、解析結果とコマンド音素列テーブルＴＢＬ１記憶領域１２２に記憶されたコマンド音素列との類似度及び解析結果とダミーコマンド音素列テーブルＴＢＬ２記憶領域１２３に記憶されたダミーコマンド音素列との類似度に応じて、コマンドの認識処理を実行する。より具体的には、まず、認識エンジン部１１１は、入力された音声信号から音声の特徴を抽出し、抽出した特徴を表すデータ（以下「音響モデル」という）を生成する。具体的には、例えば、認識エンジン部１１１は、辞書、音響モデルから「はいチーズ」という音声に対応する音の標準的なモデル、すなわちコマンドの音響モデルＷ１を内部に構築する。同様に「フラッシュ」についても音響モデルＷ２を構築する。

また、認識エンジン部１１１は、マイクロホン１５によって収音された音声から音声の特徴を抽出し、抽出した特徴を、音響モデルと同じ表現の特徴パラメータの時系列Ｘに変換する。この実施形態では、音響モデルの特徴パラメータとして、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）の２６次元パラメータを用いる。更に、認識エンジン部１１１は、音響モデルＷ１から音声Ｘが出現する確率Ｐ（Ｘ｜Ｗ１）を、前向きアルゴリズム等を用いて算出する。同様に、認識エンジン部１１１は、音響モデルＷ２から音声Ｘが出現する確率Ｐ（Ｘ｜Ｗ２）を、前向きアルゴリズム等を用いて算出する。なお、Ｐ（Ｘ｜Ｗ）は、Ｗという単語を発話しようとしたときにＸという語が発話される確率と言い換えることができる。

認識エンジン部１１１は、下記の（１）式にしたがって事後確率を求める。
Ｐ（Ｗ_ｉ｜Ｘ）＝Ｐ（Ｗ_ｉ）Ｐ（Ｘ｜Ｗ_ｉ）／Σ_ｊＰ（Ｘ｜Ｗ_ｊ） …（１）

コマンド判定部１１２は、認識エンジン部１１１の解析結果に基づいて、コマンドを受理するか棄却するかを判定する。コマンド判定部１１２は、コマンドを受理すると判定した場合には、受理したコマンドをコマンド実行部１１３へ通知する。コマンド実行部１１３はコマンド判定部１１２から通知されるコマンドに従って各種の処理を実行する。

この実施形態では、コマンド判定部１１２は、認識エンジン部１１１によって算出されたＰ（Ｗ_ｉ｜Ｘ）の最大値Ｍａｘ（Ｐ（Ｗ_ｉ｜Ｘ））が予め定められた閾値より大きく、かつ、最大となるＷ_ｉがダミーコマンドでない場合は、このコマンドを受理する一方、それ以外なら棄却する。

この方式ではＰ（Ｗ_ｉ｜Ｘ）は０〜１の値をとるので、どのようなコマンドであるかによらず一定の閾値を用いて判定を行うことができる。しかしながら、ここでΣ_ｊＰ（Ｘ｜Ｗ_ｊ）はＸという音声を観測する確率Ｐ（Ｘ）であり、ある言語でありえるすべての単語Ｗｊについて和を求めないと正確な値を得られない。とはいえ、「はえチーズ」と言おうとしたときに「ハイチーズ」と似た発音になるのは考えられるが、「はいちーず」というコマンドとまったくかけ離れた「朝」と言おうとしたときに「はいちーず」に似た発音になることはほとんどゼロに近いはずである。そこで本実施形態では、認識したいコマンドに加えて、そのコマンドの音声に近いダミーコマンドのみを追加しておくことで近似的に精度の高いＰ（Ｘ）を得ようというものである。

ダミーコマンド生成部１１４は、コマンド音素列テーブルに登録されたコマンド音素列と所定の類似度を有するダミーコマンド音素列を、予め定められたアルゴリズムに従って生成する。この実施形態では、ダミーコマンド生成部１１４は、以下の（i）乃至（iv）の基準で、コマンド音素列テーブルＴＢＬ１記憶領域１２２に記憶されたコマンドからダミーコマンド音素列を生成する。
（i）コマンドに含まれる母音のそれぞれをａ，ｉ，ｕ，ｅ，ｏのいずれかに置き換える。
（ii）ただし置き換える母音の個数は２個以上、４個以下とする。
（iii）ただしもとのコマンドとの違いが１音素だけの場合には追加しない。
（iv）子音を取り除いたダミーコマンド音素列を生成する。

すなわち、（i）の生成基準に従って、ダミーコマンド生成部１１４は、コマンド音素列に含まれる母音を予め定められた母音に置き換えたものをダミーコマンド音素列として生成する。更に、ダミーコマンド生成部１１４は、（iii）の生成基準に従って、コマンド音素列に含まれる母音を予め定められた母音に置き換えた場合に、そのコマンド音素列との音素の差分が１音素のみである音素列についてはダミーコマンドとして採用しない。

ここで、ダミーコマンド音素列（以下、単に「ダミーコマンド」という）の具体的な内容の一例について、図４を参照しつつ説明する。図４は、ダミーコマンド生成部１１４が生成するダミーコマンドの一例を示す図である。ダミーコマンド生成部１１４は、「シャッターを切る」というコマンドについては、図４に示すような６個のダミーコマンドを生成する。また、ダミーコマンド生成部１１４は、「フラッシュ」というコマンドに対しては、図４に示すように５個のダミーコマンドを生成する。図４に示すように、「フラッシュ」というコマンドに対しては、「ｆｕｒｕｓｈｕ」というダミーコマンドは生成されない（上述の（iii）の生成基準参照）。

ダミーコマンドの追加により確率Ｐ（Ｘ）の精度が上がり、本来のコマンドに似た単語を発話したときには、ほぼ理想に近い確率Ｐ（Ｘ）が得られる。確率Ｐ（Ｗ｜Ｘ）は０から１に正規化された値となるため、一定の閾値を用いてコマンドか否かを判定することが可能になる。これを模式的に表したのが図５及び図６である。図５は、「はいチーズ」というコマンドＷと「フラッシュ」というコマンドＷの特徴パラメータと確率Ｐ（Ｘ｜Ｗ）の対応関係の一例を示す図である。また、図６は、音声の特徴パラメータと確率Ｐ（Ｗ｜Ｘ）の対応関係の一例を示す図である。なお、図５及び図６では、説明を容易にするため、音声の特徴パラメータを１次元のパラメータとして図示している。

また、ダミーコマンド生成部１１４によって生成されたダミーコマンドを用いて認識エンジン部１１１が行う確率の算出処理の具体的な一例について、図７乃至図９を参照しつつ説明する。図７は、「はいチーズ」というコマンドと「はいチーズ」のコマンドのダミーコマンドとして生成された「ほおちょーぞ」というダミーコマンドの音声の特徴パラメータと確率Ｐ（Ｘ｜Ｗ）との対応関係の一例を示す図である。

図７において、例えば、「はいどーぞ」というような、コマンドにはない中間的な発話をした場合に、Ｐ（Ｘ｜ｈａｉｃｈｉ：ｚｕ）＝０．０３，Ｐ（Ｘ｜ｈｏｏｃｈｏ：ｚｏ）＝０．０２でその他は無視してよい程度に小さい確率だったとする。このときＰ（ｈａｉｃｈｉ：ｚｕ｜Ｘ）＝０．０２／（０．０３＋０．０２）＝０．６で、Ｐ（ｈｏｏｃｈｏ：ｚｏ｜Ｘ）＝０．０２／（０．０３＋０．０２）＝０．４となる。このとき閾値が予め０．８という値が設定されていたとすると、Ｐ（ｈａｉｃｈｉ：ｚｕ｜Ｘ）は０．８以下であるのでコマンドとして受け付けずに棄却するという動作をすることになる（図７参照）。

本実施形態においては、どのようなダミーコマンドを登録しておくかが重要である。あまりにも本来のコマンドに似たダミーコマンドがあると少し不明瞭な発音をしただけで同程度の確率となるダミーコマンドが増えて、却下される割合が増えてしまう。これはコマンドコントロールを用いるユーザにとっては非常に不便である。逆に、本来のコマンドに似たダミーコマンドがないと、コマンドを発話したつもりでなくても似た言葉に反応して誤動作することになってしまう。図８は、「はいチーズ」のダミーコマンドである「ほおちょーぞ」と「はあちゃーざ」の音声の特徴パラメータと確率Ｐ（Ｗ｜Ｘ）の対応関係を示す図である。また、図９は、ダミーコマンドとして「ほおちょーぞ」と「はあチーズ」とを用いる場合の音声の特徴パラメータと確率Ｐ（Ｗ｜Ｘ）の対応関係の一例を示す図である。図９に示すように、本来のコマンドに似すぎているダミーコマンドを用いると、少し不明瞭な発音をしただけで却下される割合が高くなってしまう。それに対し、本実施形態では、ダミーコマンド生成部１１４が、元のコマンドとの違いが１音素だけの場合にはダミーコマンドとして追加しないことにより、本来のコマンドに似すぎているダミーコマンドが登録されるのを防ぎ、これにより、誤動作を軽減することができる。

＜Ｂ：動作＞
＜Ｂ−１：コマンド登録動作＞
次に、撮影装置１の動作について説明する。まず、コマンドの登録動作について説明する。まず、ユーザは、操作部１４を操作してコマンドを登録するための操作を行う。より具体的には、ユーザは、操作部１４を操作してコマンドの文字列を表すテキストデータを入力する。制御部１１は、操作部１４からの信号に応じて、入力されたテキストデータ（コマンド音節）を取得する。すなわち、制御部１１には、１又は複数の音節に対応する表記で構成されたコマンド音節が入力される。制御部１１は、入力されたコマンド音節に対応する音素を音素辞書記憶領域１２４に記憶された音素辞書を参照して選択し、音素の列で構成されたコマンド音素列を生成する。制御部１１は、生成したコマンド音素列をコマンド音素列テーブルＴＢＬ１記憶領域１２２に記憶する。

コマンドをコマンド音素列テーブルに登録すると、次いで、制御部１１は、入力されたコマンドからダミーコマンドを生成し、生成したダミーコマンドをダミーコマンド音素列テーブルＴＢＬ２記憶領域１２３に記憶する。例えば、「はいチーズ」というコマンドが入力された場合には、図４に示すような６個のダミーコマンドが生成される。

＜Ｂ−２：コマンド認識動作＞
次に、撮影装置１がコマンドを認識する動作について説明する。制御部１１は、音声が入力されるまで待機し、音声が入力されると、入力された音声を解析し、解析結果とコマンド音素列との類似度及び解析結果とダミーコマンド音素列との類似度に応じて、コマンドが入力されたか否かを判定する。コマンドが入力されたと判定された場合には、制御部１１は、入力されたコマンドに対応する処理を実行する。具体的には、例えば、「はいチーズ」という音声コマンドが入力された場合には、制御部１１は、入力された音声コマンドに応じて、静止画像を撮影する処理を実行する。また、例えば、「フラッシュ」という音声コマンドが入力された場合には、制御部１１は、入力された音声コマンドに応じて、フラッシュを点灯（又は消灯）する処理を実行する。

＜Ｃ：実施形態の効果＞
以上説明したように本実施形態によれば、音声を用いたコマンドコントロールシステムにおいて、登録されたコマンドの音素列に類似するダミーコマンドを生成し、生成したダミーコマンドを用いてコマンド認識処理を実行することにより、コマンドと関係のない音声による誤動作を軽減する。このように、認識させたいコマンドの音声に適度に似せた音声をダミーとしてコマンドリストに登録しておくことにより、本来のコマンド以外の音声が入力されたときにコマンドとして認識されないようにし、誤動作を軽減ことができる。
また、本実施形態によれば、大語彙の辞書を用いる手法に対して、メモリの消費量を少なくすることができるとともに、ＣＰＵの負荷も軽減することができる。

また、本実施形態によれば、ダミーコマンドを追加することによりＰ（Ｘ）の精度が上がり、本来のコマンドに似た言葉を発話したときには、ほぼ理想に近いＰ（Ｘ）を得ることができる。Ｐ（Ｗ｜Ｘ）は０から１に正規化された値となるため、一定の閾値を使ってコマンドか否かを判定することが可能になる（図５及び図６参照）。

＜Ｄ：変形例＞
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。なお、以下の各態様を適宜に組み合わせてもよい。
（１）上述の実施形態では、本発明に係るコマンド認識装置をデジタルカメラ等の撮影装置に適用した例について説明したが、本発明に係るコマンド認識装置が適用される装置はデジタルカメラに限らず、例えば、パーソナルコンピュータ、携帯電話端末、コンピュータゲーム機等であってもよく、本発明に係るコマンド認識装置は様々な装置に適用可能である。また、本発明に係るコマンド認識装置が、撮影装置等の他の装置に外部接続される構成であってもよい。この場合は、コマンド認識装置が認識したコマンドを、外部Ｉ／Ｆを介して他の装置に通知するようにすればよい。

（２）上述の実施形態では、制御部１１が、上述した（i）乃至（iv）の生成基準に従ってダミーコマンド音素列を生成したが、制御部１１がダミーコマンド音素列を生成する態様はこれに限らず、他の態様であってもよい。例えば、制御部１１が、上述した（i）、（ii）、（iv）の生成基準に従ってダミーコマンド音素列を生成するようにしてもよい。要は、制御部１１が、コマンド音素列と所定の類似度を有するダミーコマンド音素列を、予め定められたアルゴリズムに従って生成するようにすればよい。

（３）上述の実施形態では、日本語のコマンドを認識する場合について説明したが、これに限らず、他の言語のコマンドを認識する装置においても本発明は適用可能である。ここで、英語のコマンドを認識する場合の具体的な内容の一例について説明する。英語の場合は、母音数が、長母音や二重母音もあわせると２４個以上もあるため、全てを置き換えた語をダミーコマンドとして登録すると無駄が多くなってしまう。そこで、この態様においては、音的に近い母音だけを用いることとする。ここで、”yes we can”と”say cheese”の場合の例について以下に説明する。”yes we can”の場合、コマンド音素列は「ｊｅｓｗｉ：ｋ｛ｎ」となる。なお、この音素列を表す発音記号はＳＡＭＰＡ（Speech Assessment Methods Phonetic Alphabet）に準拠している。

この例では、音韻的距離を考慮して各母音あたり４〜５母音程度のテーブルを予め用意しておく。この例では、例えば、図１０に示すような置換テーブルを撮影装置１の記憶部１２に予め記憶しておく。制御部１１は、この置換テーブルを参照してコマンド音素列の母音部分を順に書き換え、図１１に示すようなダミーコマンド音素列を生成する。なお、図１１に示す例においては、ダミーコマンド音素列の数が多くなるため組み合わせは考えないものとしている。

次に、“say cheese”のコマンドについて説明する。このコマンドのコマンド音素列は「ｓｅＩｃｈｉ：ｚ」となる。この例でも、上述のコマンドと同様に、音韻的距離を考慮した置換テーブルを予め用意しておく。例えば、図１２に示すような置換テーブルを撮影装置１の記憶部１２に予め記憶しておく。制御部１１は、この置換テーブルを参照してコマンド音素列の母音部分を順に書き換え、図１３に示すようなダミーコマンド音素列を生成する。この場合も、上述した実施形態と同様に、制御部１１は、コマンド音素列と生成したダミーコマンド音素列とを用いてコマンドの認識処理を実行する。

（４）上述の実施形態では、制御部１１に入力されるコマンド音素列として、コマンドの文字列を表すテキストデータが入力されるようにしたが、入力されるコマンド音素列はテキストデータに限らず、例えば、発音記号を表すデータがコマンド音素列として入力されるようにしてもよい。要は、制御部１１に、１又は複数の音節に対応する表記で構成されたコマンド音節が入力されるものであればよい。

（５）上述の実施形態における撮影装置１の制御部１１によって実行されるプログラムは、磁気記録媒体（磁気テープ、磁気ディスクなど）、光記録媒体（光ディスクなど）、光磁気記録媒体、半導体メモリなどのコンピュータが読取可能な記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由で撮影装置１にダウンロードさせることも可能である。なお、このような制御を行う制御手段としてはＣＰＵ以外にも種々の装置を適用することができ、例えば、専用のプロセッサなどを用いてもよい。

１…撮影装置、１１…制御部、１２…記憶部、１３…表示部、１４…操作部、１５…マイクロホン、１６…音声処理部、１７…スピーカ、１８…撮影部、１１１…認識エンジン部、１１２…コマンド判定部、１１３…コマンド実行部、１１４…ダミーコマンド生成部、１２１…音響モデルデータベースＤＢ１記憶領域、１２２…コマンド音素列テーブルＴＢＬ１記憶領域、１２３…ダミーコマンド音素列テーブルＴＢＬ２記憶領域、１２４…音素辞書記憶領域。

Claims

１又は複数の音節に対応する表記で構成されたコマンド音節の音節と音素とを対応付けて記憶する記憶手段と、
入力されたコマンド音節に含まれる音節に対応する音素を前記記憶手段から選択して、音素の列で構成されたコマンド音素列を生成するコマンド音素列生成手段と、
前記コマンド音素列生成手段によって生成されたコマンド音素列と所定の類似度を有するダミーコマンド音素列を、予め定められたアルゴリズムに従って生成するダミーコマンド音素列生成手段と、
音声信号が入力される音声信号入力手段と、
前記音声信号入力手段に入力された音声信号を解析し、解析結果と前記コマンド音素列との類似度及び該解析結果と前記ダミーコマンド音素列との類似度に応じて、コマンドの認識処理を行うコマンド認識手段と
を具備することを特徴とするコマンド認識装置。
前記ダミーコマンド生成手段は、前記コマンド音素列に含まれる母音を予め定められた母音に置き換えたものをダミーコマンド音素列として生成する
ことを特徴とする請求項１に記載のコマンド認識装置。
前記ダミーコマンド生成手段は、前記コマンド音素列に含まれる母音を予め定められた母音に置き換えた場合に、該コマンド音素列との音素の差分が１音素のみである場合にはその音素列をダミーコマンド音素列として生成しない
ことを特徴とする請求項２に記載のコマンド認識装置。