JP2010230852A - コマンド認識装置 - Google Patents

コマンド認識装置 Download PDF

Info

Publication number
JP2010230852A
JP2010230852A JP2009076789A JP2009076789A JP2010230852A JP 2010230852 A JP2010230852 A JP 2010230852A JP 2009076789 A JP2009076789 A JP 2009076789A JP 2009076789 A JP2009076789 A JP 2009076789A JP 2010230852 A JP2010230852 A JP 2010230852A
Authority
JP
Japan
Prior art keywords
command
dummy
phoneme
phoneme string
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009076789A
Other languages
English (en)
Other versions
JP5476760B2 (ja
Inventor
Yuji Hisaminato
裕司 久湊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2009076789A priority Critical patent/JP5476760B2/ja
Publication of JP2010230852A publication Critical patent/JP2010230852A/ja
Application granted granted Critical
Publication of JP5476760B2 publication Critical patent/JP5476760B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】音声を用いたコマンドコントロールシステムにおいて、コマンドと関係のない音声による誤動作を軽減することのできる技術を提供する。
【解決手段】撮影装置1の制御部11は、入力されたコマンド音節に含まれる音素に対応する音素を音素辞書から選択して、音素の列で構成されたコマンド音素列を生成する。また、制御部11は、生成したコマンド音素列と所定の類似度を有するダミーコマンド音素列を、予め定められたアルゴリズムに従って生成する。制御部11は、マイクロホン15によって収音された音声を表す音声信号を解析し、解析結果とコマンド音素列との類似度及び解析結果とダミーコマンド音素列との類似度に応じて、コマンドの認識処理を実行する。
【選択図】図1

Description

本発明は、音声によるコマンドを認識する技術に関する。
音声を用いて電子機器を操作する音声コマンドコントロール、あるいは単にコマンドコントロールと呼ばれる機能がある。例えば音声でカメラのシャッターを切るというような用途に用いられる。具体的には、例えば、カメラに向かって「はい、チーズ」と言うと、その音声に反応してシャッターが切れるものが提案されている(例えば、特許文献1参照)。
特開2000−59664号公報
上述したようなコマンドコントロールでは、「はい、チーズ」という音声に対してのみ反応し、その他の音声に対しては反応しないことが望まれる。例えば、複数の人の写真をとる場合に、「はい、写真とるよ」、「はい、集まって」などということがあるが、そのような声に反応してシャッターが切れては困るという問題がある。
従来のDPマッチングを用いた手法では、或る人の「はい、チーズ」という音声を予めテンプレート登録しておく。そしてそのテンプレートと発音した音声とを比較してその類似度がある閾値以上であるかという基準をもとに「はい、チーズ」と言ったかどうかを判定する。閾値を上げれば「はい、チーズ」以外の音声による誤動作は防ぐことができるが、逆に「はい、チーズ」と言ったにもかかわらず動作しない誤棄却が増えてしまい、閾値の設定が重要になる。
しかしながら、登録した発話内容によって閾値は異なり、また周囲の騒音によりその基準も変わるため、様々なユーザの発話に対して期待した動作をさせるようなプリセットの閾値を事前に設定することは困難である。
また、従来のHMM(隠れマルコフモデル)を用いた大語彙音声認識システムを使った方法をこのようなコマンドコントロールに利用する場合には、辞書に大量の単語、形態素が登録されているため、「はい、チーズ」とそれ以外の音声も区別して認識することができる。従って「はい、チーズ」のみに反応して動作するコマンドコントロールは可能である。しかしながら、大語彙音声認識では、高速で動作するCPUあるいはDSPを必要とし、数十MByte以上の単位のメモリが必要になってくるためコンパクトな機器に搭載することは困難である。
ここで、従来のHMMを使い数語のみを辞書に登録しておく方法の問題点について図面を参照しつつ説明する。図14は、従来のコマンドコントロールシステムの一例を示す図である。このシステムには予め音響モデル221と辞書(コマンドリスト)222が与えられている。なお、辞書はユーザ自身が作成することもできる。図14に示すコマンドコントロールシステムにおいて、音響モデルとは、各音素の音響的な特徴を表したモデルであるHMM(隠れマルコフモデル)が用いられる。日本語のモノフォンの音響モデルの場合には、「a」,「i」,「u」,「e」,「o」の母音に加え、「p」,「t」,「s」といった子音も加え約40個程度の音素を用いる。辞書には、ユーザが何と言ったときにどのような動作に対応させるかを記載しておく。例えば、図15に示すように、1列目に動作、2列目にそれに対応する発音(音素記号列)を記述しておく。
認識エンジン部211は、辞書、音響モデルから、例えば「はいチーズ」という音声に対応する音の標準的なモデルつまりコマンドの音響モデルW1を内部に構築する。同様に「フラッシュ」についても音響モデルW2を構築する。また、認識エンジン部211は、人が発話した音声を分析して、音響モデルと同じ表現の特徴パラメータの時系列Xに変換し、音響モデルW1から音声Xが出現する確率P(X|W1)を前向きアルゴリズム等を用いて算出する。同様にP(X|W2)も求めることができる。(P(X|W)はWという単語を発話しようとしたときにXという音が発話される確率と言い換えることができる)。
発話した音声XがW1であるのか、それともW2であるのかを判定するには事後確率P(W1|X)P(W2|X)を比較しなければならない。そこで一般的な音声認識システムにおいては、ベイズの定理を用いて、P(W|X)=P(W)P(X|W)/P(X)としてP(X)はある音声については一定であるのでP(W|X)∝P(W)P(X|W)とみなしてP(X|W)を比較することでどちらの単語である確率が高いと相対的に判断する。
しかしながら、この方法では、P(W|X)は絶対的な確率値ではないために、辞書に含まれていない単語であるかどうかは判定することができない。
本発明は、音声を用いたコマンドコントロールシステムにおいて、コマンドと関係のない音声による誤動作を軽減することのできる技術を提供することを目的とする。
上記課題を解決するために、本発明は、1又は複数の音節に対応する表記で構成されたコマンド音節の音節と音素とを対応付けて記憶する記憶手段と、入力されたコマンド音節に含まれる音節に対応する音素を前記記憶手段から選択して、音素の列で構成されたコマンド音素列を生成するコマンド音素列生成手段と、前記コマンド音素列生成手段によって生成されたコマンド音素列と所定の類似度を有するダミーコマンド音素列を、予め定められたアルゴリズムに従って生成するダミーコマンド音素列生成手段と、音声信号が入力される音声信号入力手段と、前記音声信号入力手段に入力された音声信号を解析し、解析結果と前記コマンド音素列との類似度及び該解析結果と前記ダミーコマンド音素列との類似度に応じて、コマンドの認識処理を行うコマンド認識手段とを具備することを特徴とするコマンド認識装置を提供する。
本発明の好ましい態様において、前記ダミーコマンド生成手段は、前記コマンド音素列に含まれる母音を予め定められた母音に置き換えたものをダミーコマンド音素列として生成してもよい。
本発明の更に好ましい態様において、前記ダミーコマンド生成手段は、前記コマンド音素列に含まれる母音を予め定められた母音に置き換えた場合に、該コマンド音素列との音素の差分が1音素のみである場合にはその音素列をダミーコマンド音素列として生成しないようにしてもよい。
本発明によれば、音声を用いたコマンドコントロールシステムにおいて、コマンドと関係のない音声による誤動作を軽減することができる。
撮影装置のハードウェア構成の一例を示すブロック図である。 コマンド音素列テーブルの内容の一例を示す図である。 撮影装置の機能的構成の一例を示すブロック図である。 ダミーコマンドの内容の一例を示す図である。 コマンドの特徴パラメータと確率P(X|W)の対応関係の一例を示す図である。 コマンドの特徴パラメータと確率P(W|X)の対応関係の一例を示す図である。 コマンドの特徴パラメータと確率P(X|W)の対応関係の一例を示す図である。 コマンド及びダミーコマンドの特徴パラメータと確率P(W|X)の対応関係の一例を示す図である。 コマンド及びダミーコマンドの特徴パラメータと確率P(W|X)の対応関係の一例を示す図である。 置換テーブルの内容の一例を示す図である。 ダミーコマンド音素列の一例を示す図である。 置換テーブルの内容の一例を示す図である。 ダミーコマンド音素列の一例を示す図である。 撮影装置の機能的構成の一例を示す図である。 辞書の内容の一例を示す図である。
<A:構成>
図1は、この発明の一実施形態である撮影装置1のハードウェア構成の一例を示すブロック図である。撮影装置1は、静止画像や動画像を撮影する機能を備えた装置であり、例えばデジタルカメラである。図1において、制御部11は、CPU(Central Processing Unit)やROM(Read Only Memory)、RAM(Random Access Memory)を備え、ROM又は記憶部12に記憶されているコンピュータプログラムを読み出して実行することにより、バスBUSを介して撮影装置1の各部を制御する。記憶部12は、制御部11によって実行されるコンピュータプログラムやその実行時に使用されるデータを記憶するための記憶手段であり、例えばハードディスク装置である。表示部13は、液晶パネル等を備え、制御部11による制御の下に各種の画像を表示する。操作部14は、撮影装置1の利用者による操作に応じた信号を制御部11に出力する。操作部14は、十字キー(図示略)や、録音を開始・終了させるためのボタン(図示略)、静止画像の撮影及び動画像の撮影を開始・終了させるためのボタン(図示略)等の各種のボタンを備えており、撮影装置1の利用者は、これらのボタンを押下することで、録音や撮影等を行うことができる。なお、静止画の撮影と動画像の撮影との切替は、撮影装置1に設けられた切替スイッチ(図示略)によって切り替えられるようになっている。撮影部18は、撮影用レンズ等を備え、撮影し、撮影した映像を表す映像データを出力する。なお、本実施形態に係る映像データは、静止画像を表すデータや動画像を表すデータを含む。
マイクロホン15は、収音し、収音した音声を表すアナログ信号を出力する収音手段である。音声処理部16は、マイクロホン15が出力するアナログ信号をA/D変換してデジタルデータを生成する。また、音声処理部16は、制御部11の制御の下、デジタル形式の音声データをD/A変換してアナログ信号を生成し、生成した音声信号をスピーカ17に出力する。スピーカ17は、音声処理部16から供給されるアナログ信号に応じた強度で放音する放音手段である。
なお、この実施形態では、マイクロホン15とスピーカ17とが撮影装置1に含まれている場合について説明するが、音声処理部16に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続するとしても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロホン15から音声処理部16へ入力される音声信号及び音声処理部16からスピーカ17へ出力される音声信号がアナログ音声信号である場合について説明するが、デジタル音声データを入出力するようにしても良い。このような場合には、音声処理部16にてA/D変換やD/A変換を行う必要はない。表示部13、操作部14、撮影部18についても同様であり、撮影装置1に内蔵される形式であってもよく、外付けされる形式であってもよい。
記憶部12は、図示のように、音響モデルデータベースDB1記憶領域121と、コマンド音素列テーブルTBL1記憶領域122と、ダミーコマンド音素列テーブルTBL2記憶領域123と、音素辞書記憶領域124とを有している。音響モデルデータベースDB1記憶領域121には、各音素の音響的な特徴を表したモデルであるHMM(隠れマルコフモデル)が記憶されている。この実施形態では、日本語のモノフォンの音響モデルとして、「a」,「i」,「u」,「e」,「o」の母音に加え、「p」,「t」,「s」といった子音も加え約40個程度の音素の特徴を表すデータ(以下「音素特徴データ」という)が記憶されている。
コマンド音素列テーブルTBL1記憶領域122には、ユーザが何と言ったときにどのような動作に対応させるかを示すデータが記憶される。図2は、コマンド音素列テーブルTBL1記憶領域122の記憶内容の一例を示す図である。図示のように、この記憶領域には、「動作内容」と「音素記号列」との各項目が互いに関連付けて記憶される。「動作内容」の項目には、「シャッターを切る」、「フラッシュをつける」といったような、撮影装置1が行う動作の内容を表すデータが記憶されている。「音素記号列」の項目には、各動作に対応する音声コマンドの音素記号列を表すデータ(以下「コマンド音素列」という)が記憶される。
ダミーコマンド音素列テーブルTBL2記憶領域123には、撮影装置1の制御部11が後述するダミーコマンド生成処理を実行することによって生成されるダミーコマンドが記憶される。なお、この記憶領域に記憶されるダミーコマンドについては後述することとし、ここではその詳細な説明を省略する。音素辞書記憶領域124には、音節と音素とが対応付けて記憶されている。
次に、撮影装置1の機能的構成の一例について図面を参照しつつ説明する。図3は、撮影装置1の機能的構成の一例を示す図である。図において、認識エンジン部111、コマンド判定部112、コマンド実行部113及びダミーコマンド生成部114は、撮影装置1の制御部11がROM又は記憶部12に記憶されたコンピュータプログラムを読み出して実行することによって実現される。なお、図中の矢印は、データの流れを概略的に示すものである。
認識エンジン部111には、マイクロホン15によって収音された音声を表す音声信号が入力される。認識エンジン部111は、入力された音声信号を解析し、解析結果とコマンド音素列テーブルTBL1記憶領域122に記憶されたコマンド音素列との類似度及び解析結果とダミーコマンド音素列テーブルTBL2記憶領域123に記憶されたダミーコマンド音素列との類似度に応じて、コマンドの認識処理を実行する。より具体的には、まず、認識エンジン部111は、入力された音声信号から音声の特徴を抽出し、抽出した特徴を表すデータ(以下「音響モデル」という)を生成する。具体的には、例えば、認識エンジン部111は、辞書、音響モデルから「はいチーズ」という音声に対応する音の標準的なモデル、すなわちコマンドの音響モデルW1を内部に構築する。同様に「フラッシュ」についても音響モデルW2を構築する。
また、認識エンジン部111は、マイクロホン15によって収音された音声から音声の特徴を抽出し、抽出した特徴を、音響モデルと同じ表現の特徴パラメータの時系列Xに変換する。この実施形態では、音響モデルの特徴パラメータとして、MFCC(Mel-Frequency Cepstrum Coefficient)の26次元パラメータを用いる。更に、認識エンジン部111は、音響モデルW1から音声Xが出現する確率P(X|W1)を、前向きアルゴリズム等を用いて算出する。同様に、認識エンジン部111は、音響モデルW2から音声Xが出現する確率P(X|W2)を、前向きアルゴリズム等を用いて算出する。なお、P(X|W)は、Wという単語を発話しようとしたときにXという語が発話される確率と言い換えることができる。
認識エンジン部111は、下記の(1)式にしたがって事後確率を求める。
P(W|X)=P(W)P(X|W)/ΣP(X|W) …(1)
コマンド判定部112は、認識エンジン部111の解析結果に基づいて、コマンドを受理するか棄却するかを判定する。コマンド判定部112は、コマンドを受理すると判定した場合には、受理したコマンドをコマンド実行部113へ通知する。コマンド実行部113はコマンド判定部112から通知されるコマンドに従って各種の処理を実行する。
この実施形態では、コマンド判定部112は、認識エンジン部111によって算出されたP(W|X)の最大値Max(P(W|X))が予め定められた閾値より大きく、かつ、最大となるWがダミーコマンドでない場合は、このコマンドを受理する一方、それ以外なら棄却する。
この方式ではP(W|X)は0〜1の値をとるので、どのようなコマンドであるかによらず一定の閾値を用いて判定を行うことができる。しかしながら、ここでΣP(X|W)はXという音声を観測する確率P(X)であり、ある言語でありえるすべての単語Wjについて和を求めないと正確な値を得られない。とはいえ、「はえチーズ」と言おうとしたときに「ハイチーズ」と似た発音になるのは考えられるが、「はいちーず」というコマンドとまったくかけ離れた「朝」と言おうとしたときに「はいちーず」に似た発音になることはほとんどゼロに近いはずである。そこで本実施形態では、認識したいコマンドに加えて、そのコマンドの音声に近いダミーコマンドのみを追加しておくことで近似的に精度の高いP(X)を得ようというものである。
ダミーコマンド生成部114は、コマンド音素列テーブルに登録されたコマンド音素列と所定の類似度を有するダミーコマンド音素列を、予め定められたアルゴリズムに従って生成する。この実施形態では、ダミーコマンド生成部114は、以下の(i)乃至(iv)の基準で、コマンド音素列テーブルTBL1記憶領域122に記憶されたコマンドからダミーコマンド音素列を生成する。
(i)コマンドに含まれる母音のそれぞれをa,i,u,e,oのいずれかに置き換える。
(ii)ただし置き換える母音の個数は2個以上、4個以下とする。
(iii)ただしもとのコマンドとの違いが1音素だけの場合には追加しない。
(iv)子音を取り除いたダミーコマンド音素列を生成する。
すなわち、(i)の生成基準に従って、ダミーコマンド生成部114は、コマンド音素列に含まれる母音を予め定められた母音に置き換えたものをダミーコマンド音素列として生成する。更に、ダミーコマンド生成部114は、(iii)の生成基準に従って、コマンド音素列に含まれる母音を予め定められた母音に置き換えた場合に、そのコマンド音素列との音素の差分が1音素のみである音素列についてはダミーコマンドとして採用しない。
ここで、ダミーコマンド音素列(以下、単に「ダミーコマンド」という)の具体的な内容の一例について、図4を参照しつつ説明する。図4は、ダミーコマンド生成部114が生成するダミーコマンドの一例を示す図である。ダミーコマンド生成部114は、「シャッターを切る」というコマンドについては、図4に示すような6個のダミーコマンドを生成する。また、ダミーコマンド生成部114は、「フラッシュ」というコマンドに対しては、図4に示すように5個のダミーコマンドを生成する。図4に示すように、「フラッシュ」というコマンドに対しては、「furushu」というダミーコマンドは生成されない(上述の(iii)の生成基準参照)。
ダミーコマンドの追加により確率P(X)の精度が上がり、本来のコマンドに似た単語を発話したときには、ほぼ理想に近い確率P(X)が得られる。確率P(W|X)は0から1に正規化された値となるため、一定の閾値を用いてコマンドか否かを判定することが可能になる。これを模式的に表したのが図5及び図6である。図5は、「はいチーズ」というコマンドWと「フラッシュ」というコマンドWの特徴パラメータと確率P(X|W)の対応関係の一例を示す図である。また、図6は、音声の特徴パラメータと確率P(W|X)の対応関係の一例を示す図である。なお、図5及び図6では、説明を容易にするため、音声の特徴パラメータを1次元のパラメータとして図示している。
また、ダミーコマンド生成部114によって生成されたダミーコマンドを用いて認識エンジン部111が行う確率の算出処理の具体的な一例について、図7乃至図9を参照しつつ説明する。図7は、「はいチーズ」というコマンドと「はいチーズ」のコマンドのダミーコマンドとして生成された「ほおちょーぞ」というダミーコマンドの音声の特徴パラメータと確率P(X|W)との対応関係の一例を示す図である。
図7において、例えば、「はいどーぞ」というような、コマンドにはない中間的な発話をした場合に、P(X|haichi:zu)=0.03,P(X|hoocho:zo)=0.02でその他は無視してよい程度に小さい確率だったとする。このときP(haichi:zu|X)=0.02/(0.03+0.02)=0.6で、P(hoocho:zo|X)=0.02/(0.03+0.02)=0.4となる。このとき閾値が予め0.8という値が設定されていたとすると、P(haichi:zu|X)は0.8以下であるのでコマンドとして受け付けずに棄却するという動作をすることになる(図7参照)。
本実施形態においては、どのようなダミーコマンドを登録しておくかが重要である。あまりにも本来のコマンドに似たダミーコマンドがあると少し不明瞭な発音をしただけで同程度の確率となるダミーコマンドが増えて、却下される割合が増えてしまう。これはコマンドコントロールを用いるユーザにとっては非常に不便である。逆に、本来のコマンドに似たダミーコマンドがないと、コマンドを発話したつもりでなくても似た言葉に反応して誤動作することになってしまう。図8は、「はいチーズ」のダミーコマンドである「ほおちょーぞ」と「はあちゃーざ」の音声の特徴パラメータと確率P(W|X)の対応関係を示す図である。また、図9は、ダミーコマンドとして「ほおちょーぞ」と「はあチーズ」とを用いる場合の音声の特徴パラメータと確率P(W|X)の対応関係の一例を示す図である。図9に示すように、本来のコマンドに似すぎているダミーコマンドを用いると、少し不明瞭な発音をしただけで却下される割合が高くなってしまう。それに対し、本実施形態では、ダミーコマンド生成部114が、元のコマンドとの違いが1音素だけの場合にはダミーコマンドとして追加しないことにより、本来のコマンドに似すぎているダミーコマンドが登録されるのを防ぎ、これにより、誤動作を軽減することができる。
<B:動作>
<B−1:コマンド登録動作>
次に、撮影装置1の動作について説明する。まず、コマンドの登録動作について説明する。まず、ユーザは、操作部14を操作してコマンドを登録するための操作を行う。より具体的には、ユーザは、操作部14を操作してコマンドの文字列を表すテキストデータを入力する。制御部11は、操作部14からの信号に応じて、入力されたテキストデータ(コマンド音節)を取得する。すなわち、制御部11には、1又は複数の音節に対応する表記で構成されたコマンド音節が入力される。制御部11は、入力されたコマンド音節に対応する音素を音素辞書記憶領域124に記憶された音素辞書を参照して選択し、音素の列で構成されたコマンド音素列を生成する。制御部11は、生成したコマンド音素列をコマンド音素列テーブルTBL1記憶領域122に記憶する。
コマンドをコマンド音素列テーブルに登録すると、次いで、制御部11は、入力されたコマンドからダミーコマンドを生成し、生成したダミーコマンドをダミーコマンド音素列テーブルTBL2記憶領域123に記憶する。例えば、「はいチーズ」というコマンドが入力された場合には、図4に示すような6個のダミーコマンドが生成される。
<B−2:コマンド認識動作>
次に、撮影装置1がコマンドを認識する動作について説明する。制御部11は、音声が入力されるまで待機し、音声が入力されると、入力された音声を解析し、解析結果とコマンド音素列との類似度及び解析結果とダミーコマンド音素列との類似度に応じて、コマンドが入力されたか否かを判定する。コマンドが入力されたと判定された場合には、制御部11は、入力されたコマンドに対応する処理を実行する。具体的には、例えば、「はいチーズ」という音声コマンドが入力された場合には、制御部11は、入力された音声コマンドに応じて、静止画像を撮影する処理を実行する。また、例えば、「フラッシュ」という音声コマンドが入力された場合には、制御部11は、入力された音声コマンドに応じて、フラッシュを点灯(又は消灯)する処理を実行する。
<C:実施形態の効果>
以上説明したように本実施形態によれば、音声を用いたコマンドコントロールシステムにおいて、登録されたコマンドの音素列に類似するダミーコマンドを生成し、生成したダミーコマンドを用いてコマンド認識処理を実行することにより、コマンドと関係のない音声による誤動作を軽減する。このように、認識させたいコマンドの音声に適度に似せた音声をダミーとしてコマンドリストに登録しておくことにより、本来のコマンド以外の音声が入力されたときにコマンドとして認識されないようにし、誤動作を軽減ことができる。
また、本実施形態によれば、大語彙の辞書を用いる手法に対して、メモリの消費量を少なくすることができるとともに、CPUの負荷も軽減することができる。
また、本実施形態によれば、ダミーコマンドを追加することによりP(X)の精度が上がり、本来のコマンドに似た言葉を発話したときには、ほぼ理想に近いP(X)を得ることができる。P(W|X)は0から1に正規化された値となるため、一定の閾値を使ってコマンドか否かを判定することが可能になる(図5及び図6参照)。
<D:変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。なお、以下の各態様を適宜に組み合わせてもよい。
(1)上述の実施形態では、本発明に係るコマンド認識装置をデジタルカメラ等の撮影装置に適用した例について説明したが、本発明に係るコマンド認識装置が適用される装置はデジタルカメラに限らず、例えば、パーソナルコンピュータ、携帯電話端末、コンピュータゲーム機等であってもよく、本発明に係るコマンド認識装置は様々な装置に適用可能である。また、本発明に係るコマンド認識装置が、撮影装置等の他の装置に外部接続される構成であってもよい。この場合は、コマンド認識装置が認識したコマンドを、外部I/Fを介して他の装置に通知するようにすればよい。
(2)上述の実施形態では、制御部11が、上述した(i)乃至(iv)の生成基準に従ってダミーコマンド音素列を生成したが、制御部11がダミーコマンド音素列を生成する態様はこれに限らず、他の態様であってもよい。例えば、制御部11が、上述した(i)、(ii)、(iv)の生成基準に従ってダミーコマンド音素列を生成するようにしてもよい。要は、制御部11が、コマンド音素列と所定の類似度を有するダミーコマンド音素列を、予め定められたアルゴリズムに従って生成するようにすればよい。
(3)上述の実施形態では、日本語のコマンドを認識する場合について説明したが、これに限らず、他の言語のコマンドを認識する装置においても本発明は適用可能である。ここで、英語のコマンドを認識する場合の具体的な内容の一例について説明する。英語の場合は、母音数が、長母音や二重母音もあわせると24個以上もあるため、全てを置き換えた語をダミーコマンドとして登録すると無駄が多くなってしまう。そこで、この態様においては、音的に近い母音だけを用いることとする。ここで、”yes we can”と”say cheese”の場合の例について以下に説明する。”yes we can”の場合、コマンド音素列は「jeswi:k{n」となる。なお、この音素列を表す発音記号はSAMPA(Speech Assessment Methods Phonetic Alphabet)に準拠している。
この例では、音韻的距離を考慮して各母音あたり4〜5母音程度のテーブルを予め用意しておく。この例では、例えば、図10に示すような置換テーブルを撮影装置1の記憶部12に予め記憶しておく。制御部11は、この置換テーブルを参照してコマンド音素列の母音部分を順に書き換え、図11に示すようなダミーコマンド音素列を生成する。なお、図11に示す例においては、ダミーコマンド音素列の数が多くなるため組み合わせは考えないものとしている。
次に、“say cheese”のコマンドについて説明する。このコマンドのコマンド音素列は「seIchi:z」となる。この例でも、上述のコマンドと同様に、音韻的距離を考慮した置換テーブルを予め用意しておく。例えば、図12に示すような置換テーブルを撮影装置1の記憶部12に予め記憶しておく。制御部11は、この置換テーブルを参照してコマンド音素列の母音部分を順に書き換え、図13に示すようなダミーコマンド音素列を生成する。この場合も、上述した実施形態と同様に、制御部11は、コマンド音素列と生成したダミーコマンド音素列とを用いてコマンドの認識処理を実行する。
(4)上述の実施形態では、制御部11に入力されるコマンド音素列として、コマンドの文字列を表すテキストデータが入力されるようにしたが、入力されるコマンド音素列はテキストデータに限らず、例えば、発音記号を表すデータがコマンド音素列として入力されるようにしてもよい。要は、制御部11に、1又は複数の音節に対応する表記で構成されたコマンド音節が入力されるものであればよい。
(5)上述の実施形態における撮影装置1の制御部11によって実行されるプログラムは、磁気記録媒体(磁気テープ、磁気ディスクなど)、光記録媒体(光ディスクなど)、光磁気記録媒体、半導体メモリなどのコンピュータが読取可能な記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由で撮影装置1にダウンロードさせることも可能である。なお、このような制御を行う制御手段としてはCPU以外にも種々の装置を適用することができ、例えば、専用のプロセッサなどを用いてもよい。
1…撮影装置、11…制御部、12…記憶部、13…表示部、14…操作部、15…マイクロホン、16…音声処理部、17…スピーカ、18…撮影部、111…認識エンジン部、112…コマンド判定部、113…コマンド実行部、114…ダミーコマンド生成部、121…音響モデルデータベースDB1記憶領域、122…コマンド音素列テーブルTBL1記憶領域、123…ダミーコマンド音素列テーブルTBL2記憶領域、124…音素辞書記憶領域。

Claims (3)

  1. 1又は複数の音節に対応する表記で構成されたコマンド音節の音節と音素とを対応付けて記憶する記憶手段と、
    入力されたコマンド音節に含まれる音節に対応する音素を前記記憶手段から選択して、音素の列で構成されたコマンド音素列を生成するコマンド音素列生成手段と、
    前記コマンド音素列生成手段によって生成されたコマンド音素列と所定の類似度を有するダミーコマンド音素列を、予め定められたアルゴリズムに従って生成するダミーコマンド音素列生成手段と、
    音声信号が入力される音声信号入力手段と、
    前記音声信号入力手段に入力された音声信号を解析し、解析結果と前記コマンド音素列との類似度及び該解析結果と前記ダミーコマンド音素列との類似度に応じて、コマンドの認識処理を行うコマンド認識手段と
    を具備することを特徴とするコマンド認識装置。
  2. 前記ダミーコマンド生成手段は、前記コマンド音素列に含まれる母音を予め定められた母音に置き換えたものをダミーコマンド音素列として生成する
    ことを特徴とする請求項1に記載のコマンド認識装置。
  3. 前記ダミーコマンド生成手段は、前記コマンド音素列に含まれる母音を予め定められた母音に置き換えた場合に、該コマンド音素列との音素の差分が1音素のみである場合にはその音素列をダミーコマンド音素列として生成しない
    ことを特徴とする請求項2に記載のコマンド認識装置。
JP2009076789A 2009-03-26 2009-03-26 コマンド認識装置 Expired - Fee Related JP5476760B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009076789A JP5476760B2 (ja) 2009-03-26 2009-03-26 コマンド認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009076789A JP5476760B2 (ja) 2009-03-26 2009-03-26 コマンド認識装置

Publications (2)

Publication Number Publication Date
JP2010230852A true JP2010230852A (ja) 2010-10-14
JP5476760B2 JP5476760B2 (ja) 2014-04-23

Family

ID=43046758

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009076789A Expired - Fee Related JP5476760B2 (ja) 2009-03-26 2009-03-26 コマンド認識装置

Country Status (1)

Country Link
JP (1) JP5476760B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2018173293A1 (ja) * 2017-03-24 2019-11-07 ヤマハ株式会社 音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法
WO2021177049A1 (ja) * 2020-03-02 2021-09-10 菱洋エレクトロ株式会社 音声認識システム、及び音声認識装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09244691A (ja) * 1996-03-07 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> 入力音声リジェクト方法およびこの方法を実施する装置
JP2001147698A (ja) * 1999-11-22 2001-05-29 Hitachi Ltd 音声認識用疑似単語生成方法及び音声認識装置
JP2005092310A (ja) * 2003-09-12 2005-04-07 Kddi Corp 音声キーワード認識装置
JP2005292346A (ja) * 2004-03-31 2005-10-20 Nec Corp 音声認識用棄却辞書生成システム、音声認識用棄却語彙生成方法及び音声認識用棄却語彙生成プログラム
JP2006154658A (ja) * 2004-12-01 2006-06-15 Nec Corp 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09244691A (ja) * 1996-03-07 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> 入力音声リジェクト方法およびこの方法を実施する装置
JP2001147698A (ja) * 1999-11-22 2001-05-29 Hitachi Ltd 音声認識用疑似単語生成方法及び音声認識装置
JP2005092310A (ja) * 2003-09-12 2005-04-07 Kddi Corp 音声キーワード認識装置
JP2005292346A (ja) * 2004-03-31 2005-10-20 Nec Corp 音声認識用棄却辞書生成システム、音声認識用棄却語彙生成方法及び音声認識用棄却語彙生成プログラム
JP2006154658A (ja) * 2004-12-01 2006-06-15 Nec Corp 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2018173293A1 (ja) * 2017-03-24 2019-11-07 ヤマハ株式会社 音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法
US11302318B2 (en) 2017-03-24 2022-04-12 Yamaha Corporation Speech terminal, speech command generation system, and control method for a speech command generation system
WO2021177049A1 (ja) * 2020-03-02 2021-09-10 菱洋エレクトロ株式会社 音声認識システム、及び音声認識装置
JP2021139935A (ja) * 2020-03-02 2021-09-16 菱洋エレクトロ株式会社 音声認識システム、及び音声認識装置

Also Published As

Publication number Publication date
JP5476760B2 (ja) 2014-04-23

Similar Documents

Publication Publication Date Title
US11496582B2 (en) Generation of automated message responses
US11810548B2 (en) Speech translation method and system using multilingual text-to-speech synthesis model
US10347244B2 (en) Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
US9640175B2 (en) Pronunciation learning from user correction
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
KR100742888B1 (ko) 음성 인식 방법
CN110706714B (zh) 说话者模型制作系统
Aggarwal et al. Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I)
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
JP2017513047A (ja) 音声認識における発音予測
JP4729902B2 (ja) 音声対話システム
JP2010020102A (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP2018013549A (ja) 発話内容認識装置
US20230298564A1 (en) Speech synthesis method and apparatus, device, and storage medium
JP2001188779A (ja) 情報処理装置および方法、並びに記録媒体
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2010197644A (ja) 音声認識システム
Manjunath et al. Development of phonetic engine for Indian languages: Bengali and Oriya
JP5476760B2 (ja) コマンド認識装置
US20230148275A1 (en) Speech synthesis device and speech synthesis method
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
JP2017198790A (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
JP2011039468A (ja) 電子辞書で音声認識を用いた単語探索装置及びその方法
JP2002372988A (ja) 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130308

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130723

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131017

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20131025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140127

R150 Certificate of patent or registration of utility model

Ref document number: 5476760

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees