JP6001944B2

JP6001944B2 - 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム

Info

Publication number: JP6001944B2
Application number: JP2012163465A
Authority: JP
Inventors: 大喜渡邊; 亮増村; 宮崎　泰彦; 泰彦宮崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-07-24
Filing date: 2012-07-24
Publication date: 2016-10-05
Anticipated expiration: 2032-07-24
Also published as: JP2014021475A

Description

本発明は、音声認識による文字データを制御する技術に関する。

利用者の発話音声をマイク等の音声入力装置から入力して音声認識を行い、それにより解析された文字データを所定のコマンドに変換してテレビ等の操作対象装置に入力させることにより、そのコマンドに応じた操作を実行させる音声コマンド制御装置がある。

まず、図７を参照しながら、従来の音声コマンド制御装置について説明する。一般に、音声を文字データに変換する音声認識では、音響モデル及び言語モデルが用いられている。

そこで、音響モデル処理部は、単語辞書データに登録された各単語の音素や音節の発音パターンを生成して音響モデルとして保持しておき、入力音声Ｘに対する各発音パターンとの照合処理を行って各単語Ｗとの適合度を確率Ｐ（Ｘ｜Ｗ）として計算する。

また、単一の単語だけでなく連続する単語や文章を適切に認識するため、言語モデル処理部は、単語辞書データに登録された単語間の連鎖度を事前確率Ｐ（Ｗ）として計算し、言語モデルとして保持しておく。

ここで、音声認識とは未知の入力音声Ｘを１つ又は複数の単語列Ｗに解読することであり、即ちそれは事後確率Ｐ（Ｗ｜Ｘ）が最大となる単語列Ｗを探索することにある。ゆえに、デコード処理部は、ベイズの定理を利用した式（１）を用いて、事後確率Ｐ（Ｗ｜Ｘ）が最大の単語列Ｗを計算する（非特許文献１参照）。

このとき、分母のＰ（Ｘ）は単語列Ｗの決定に影響しないため、無視することができる。従って実際には、確率Ｐ（Ｘ｜Ｗ）と事前確率Ｐ（Ｗ）の積が最大となる単語列Ｗを探索することがデコード処理部の役割となる。

そして、デコード処理部は、その計算によって探索した単語列Ｗ（図８の音素識別子欄に示すようなローマ字等の表音文字全体）に対応するコマンドをコマンド辞書データ（図８参照）から取得し、後述する信頼度判定部を介して操作対象装置に入力させる。

しかしながら、利用者の意図しない発話が認識され、それがコマンドとして解釈されてしまい、操作対象装置に誤作動が生じることがある。例えば、「てれびつけて」、「おんりょうあげて」、「ちゃんねるかえて」といった各単語列を音声認識した際に、これがコマンドとして機能する場合を考える。このとき、利用者同士の会話で「今日の夕飯は外に食べに行こうよ」というコマンド入力を意図しない発話があるとする。これを「てれびつけて」と誤認識すると操作対象装置が誤作動してしまう。

このような誤認識を防止するため、従来から様々な対策が行われてきた。例えば、単純なパターン認識では、全ての単語列Ｗにおいてその事前確率Ｐ（Ｗ）は等しいと仮定するため、確率Ｐ（Ｘ｜Ｗ）のみを考慮すればよく、単純にコマンド以外に利用者が発しうる単語列Ｗを不要語として定義しておけば、誤認識を防ぐことができる（図８の不要語の欄参照）。

特に、単語列Ｗが複数の単語からなる単語列Ｗ＝｛ｗ_１，ｗ_２，…，ｗ_ｎ｝として表される連続音声認識では、言語モデルによる事前確率Ｐ（Ｗ）を考慮して、文法的意味的に正しくないものを除外することにより、探索対象を絞り込むことができる。

ここで、言語モデルは、決定的な記述文法に基づくものと、統計的なモデルに基づくものに大別できる。記述文法では、認識できる文法をネットワークの形式で有限オートマトンとして記述し、単語列が受理されるかどうかを判別する。これもコマンド以外にユーザが発する単語を含めて文法を記述しておくことにより、誤認識を防ぐことができる。

また、ドメインが大規模であり人手でコマンド以外の文法をすべて記述することが困難な場合には、統計的モデルを利用すれば、自動でモデルを作成することができる。統計的なモデルでは、事前確率Ｐ（Ｗ）はＮグラムモデルにより近似的に推定できるため、コーパスから統計的にＮグラム確率を算出して、これを言語モデルとして活用している。

いずれの場合においても、誤認識を防止するため、コマンド以外に利用者が発すると推定される単語を予測してモデルに保持しておくようにすることが従来から行われてきた。

しかしながら、利用者から発せられた音声特徴量が全くモデルに与えられていない場合もある。この場合には、音声認識処理結果に対する信頼度を定義しておき、図７に示したように、デコード処理部と操作対象装置との間に信頼度判定部を介在させ、コマンドと共に取得した単語列Ｗに係る信頼度が低下したときにその探索結果を棄却する。

例えば、特許文献１には、音声認識の探索結果におけるＮコスト単語候補間のスコア差をもとに算出した音響的な信頼度に、単語間の関連度をもとに算出した文脈的な信頼度を加味して認識信頼度を付与する手法が開示されている。認識信頼度が定められた閾値未満であるならば結果を棄却し、信頼度の高い単語のみを結果として残すことが可能である。

このように、従来の音声コマンド制御装置は、まず利用者のコマンド入力を意図しない発話がモデル内に保持されていればそれを排除し、次に信頼度の閾値により棄却する、といった二重の対策を講じることで誤認識を防いでいた。

特開２０１２−２２０７０号公報

河原、外１名、「連続音声認識ソフトウェア Julius」、人工知能学会誌、Vol.20、No.1、2005年、p.41-49

従来の音声コマンド制御装置は、音声対話による観光案内やバスの時刻表検索等、タスクドメインが限られた中で利用されることが一般的であった。このような場合には、上述したように、言語モデルや信頼度の閾値を適切にチューニングすることにより誤認識を防ぐことができる。

しかしながら、利用するドメインが限定されていない場合、これらを適切にチューニングすることは極めて難しい。例えば、家庭宅内に配置されたテレビを制御することを想定する。テレビにはマイクが取り付けられており、周囲の日常会話や生活音を含むあらゆる音声を常に入力し、音声認識を常々行ってコマンド出力を継続している。また、利用者はマイクから近い位置でも離れた位置でも音声がマイクに届くならば、どこからでも音声によるコマンド入力を行うことができる。

このように、利用者の発話から特定のコマンドを操作対象装置に入力させるという目的において、利用者の利用状況を想定し、上記チューニングを行うことで誤認識を防止するには以下のような問題がある。

一つは、ある状況や特定のドメインに特化しているため、別の状況に関してその制約が逆効果に作用する可能性がある。特に利用状況がダイナミックに変化する環境においては、チューニングを行うことは難しい。上述の例の場合、テレビの前では、見ているテレビ番組に関する会話が多いだろうと仮定してチューニングを行ったとしても、実際は職場や学校に関する会話の方が家庭によっては多い場合もあり、うまく機能しないことがあり得る。このように従来技術では、利用者の言い回しや会話のドメインが限定されず言語モデルに含まれる不要語を予測することは難しい。また、周囲の騒音やマイクからの距離等もその都度変わるため、信頼度の閾値を一意に定めることも難しい。

もう一つは、チューニングを行うにあたり専門的な知識や技術の前提を理解している必要がある。ドメインを仮定して言語モデルを構築するにも、学習コーパスの選定や利用状況における文法的な制約を設計者は把握していなければならない。上述の例の場合、利用者が独自にコマンドを登録したり、番組名などを追加でコマンドに登録したりするにあたって、いちいち言語モデルやドメインを意識して登録することは非常に煩わしいことである。

本発明は、上記を鑑みてなされたものであり、利用者の意図しない誤った操作命令情報（コマンド）が操作対象装置に入力されるのを防止することを課題とする。

請求項１に記載の音声コマンド制御装置は、複数の単語が登録された単語辞書データを記憶しておく記憶手段と、前記複数の単語の各発音パターンをそれぞれ生成しておき、入力音声に対する前記複数の発音パターンとの適合度をそれぞれ算出する手段と、前記単語辞書データに登録されている各単語の他の単語との間での意味的な連鎖度をそれぞれ算出して簡易言語モデルとして保持する手段と、単語単位の表音文字と、前記表音文字を識別する表音単語識別子とを関連付けた第１対応関係を記憶しておく第１記憶手段と、前記表音文字間の接続が意味的に連鎖するように前記表音単語識別子を複数連続させた連続表音単語識別子と、操作対象装置への操作命令情報とを関連付けた第２対応関係を記憶しておく第２記憶手段と、前記適合度と前記連鎖度との積が最大となる単語を探索して音声認識処理結果とし、前記第１対応関係を用いて前記入力音声の音声認識処理結果を単語単位で前記表音単語識別子に変換し、当該変換による複数の表音単語識別子を連続させた連続データを生成する手段と、前記第２記憶手段から前記第２対応関係を読み出して、前記連続データに含まれる一部又は全部の表音単語識別子の連続順序が前記連続表音単語識別子で定めた表音単語識別子の連続順序に合致する場合のみ、当該連続順序の連続表音単語識別子に対応する前記操作命令情報を前記操作対象装置に出力する手段と、を有し、前記簡易言語モデルにおける単語間の意味的な連鎖度は一定であることを特徴とする。

本発明によれば、第１対応関係を用いて入力音声の音声認識処理結果を単語単位で前記表音単語識別子に変換し、その変換による複数の表音単語識別子を連続させた連続データを生成し、その連続データに含まれる一部又は全部の表音単語識別子の連続順序が第２対応関係の連続表音単語識別子で定めた表音単語識別子の連続順序に合致する場合のみ、その連続順序の連続表音単語識別子に対応する操作命令情報を操作対象装置に出力するため、特定の状況を想定した言語モデルの構築や不要語の登録、信頼度閾値の設定など特別なチューニングを要する手段を用いることなく、利用者の意図しない誤った操作命令情報が操作対象装置に入力されるのを防止することができる。また、それにより、従来課題とされていた想定外の状況での利用でも、安定して入力音声の誤認識を防ぐことができる。

本発明によれば、単語間の意味的な連鎖度を一定とする簡易言語モデルを用いて音声認識処理を行うため、言語モデルで扱う単語の数や種類等に係る制限を抑制し、限定のない任意の単語を対象にすることができる。

請求項２に記載の音声コマンド制御装置は、請求項１に記載の音声コマンド制御装置において、前記第１対応関係と前記第２対応関係は、前記音声コマンド制御装置に通信可能に接続された他の装置により生成されることを特徴とする。

本発明によれば、第１対応関係と第２対応関係は、音声コマンド制御装置に通信可能に接続された他の装置により生成されるため、従来の言語モデルを何ら調整しないことから、言語モデルでの専門的なチューニングの知識が不要となり、簡易に操作命令情報等を登録することができる。

請求項３に記載の音声コマンド制御方法は、音声コマンド制御装置で実行される音声コマンド制御方法であって、複数の単語が登録された単語辞書データを記憶手段に記憶しておくステップと、前記複数の単語の各発音パターンをそれぞれ生成しておき、入力音声に対する前記複数の発音パターンとの適合度をそれぞれ算出するステップと、前記単語辞書データに登録されている各単語の他の単語との間での意味的な連鎖度をそれぞれ算出して簡易言語モデルとして保持するステップと、単語単位の表音文字と、前記表音文字を識別する表音単語識別子とを関連付けた第１対応関係を第１記憶手段に記憶しておくステップと、前記表音文字間の接続が意味的に連鎖するように前記表音単語識別子を複数連続させた連続表音単語識別子と、操作対象装置への操作命令情報とを関連付けた第２対応関係を第２記憶手段に記憶しておくステップと、前記適合度と前記連鎖度との積が最大となる単語を探索して音声認識処理結果とし、前記第１対応関係を用いて前記入力音声の音声認識処理結果を単語単位で前記表音単語識別子に変換し、当該変換による複数の表音単語識別子を連続させた連続データを生成するステップと、前記第２記憶手段から前記第２対応関係を読み出して、前記連続データに含まれる一部又は全部の表音単語識別子の連続順序が前記連続表音単語識別子で定めた表音単語識別子の連続順序に合致する場合のみ、当該連続順序の連続表音単語識別子に対応する前記操作命令情報を前記操作対象装置に出力するステップと、を有し、前記簡易言語モデルにおける単語間の意味的な連鎖度は一定であることを特徴とする。

請求項４に記載の音声コマンド制御方法は、請求項３に記載の音声コマンド制御方法において、前記第１対応関係と前記第２対応関係は、前記音声コマンド制御装置に通信可能に接続された他の装置により生成されることを特徴とする。

請求項５に記載の音声コマンド制御プログラムは、請求項３又は４に記載の音声コマンド制御方法をコンピュータに実行させることを特徴とする。

本発明によれば、利用者の意図しない誤った操作命令情報（コマンド）が操作対象装置に入力されるのを防止することができる。

音声コマンド制御装置の機能ブロック構成を示す図である。コード辞書データの例を示す図である。シーケンス辞書データの例を示す図である。音声コマンド制御装置の処理フローを示す図である。音声コマンド制御システムの機能ブロック構成を示す図である。シーケンス辞書生成装置の処理フローを示す図である。従来の音声コマンド制御装置の機能ブロック構成を示す図である。コマンド辞書データの例を示す図である。

本発明は、音声認識後の文字データ（表音文字全体）をコマンドに直接変換するのに代えて、その文字データを単語単位でコードに変換して複数のコードを連続させたコード列を生成し、そのコードの連続順序が所定の規則的制約を満たす場合にのみコマンドに変換して操作対象装置に出力することを特徴とする。

これは、コード列に利用者の意図しない単語のコードが含まれていた場合、そのコードが規則的な制約を満たしている確率よりも、その規則的制約を満たしていない確率の方が格段に大きいことに着目している。

以下、本発明を実施する一実施の形態について図面を用いて説明する。但し、本発明は多くの異なる様態で実施することが可能であり、本実施の形態の記載内容に限定して解釈すべきではない。

〔第１の実施の形態〕
図１は、音声コマンド制御装置１００の機能ブロック構成を示す図である。音声コマンド制御装置１００は、通信ネットワークを介して他の装置と通信可能であって、音声入力装置５００から入力された音声を操作対象装置７００で解釈可能なコマンドに変換する装置である。

具体的には、単語辞書記憶部１１と、音響モデル処理部１２と、簡易言語モデル処理部１３と、コード辞書記憶部１４と、デコード処理部１５と、シーケンス辞書記憶部１６と、変換文解析部１７とで主に構成される。

それら複数の機能部のうち符号１１〜１５の各機能部は、音声コマンド制御装置１００において音声コード変換部として機能する。この音声コード変換部で行う音声認識処理としては様々な方法が存在するが、例えば、単語の連続性に規則的な制約のない連続単語認識手法を用いることができる。例えば、オープンソースのｊｕｌｉｕｓを利用してそれら各機能部を実現することができる（非特許文献１参照）。以下、各機能部について説明する。

尚、音声入力装置５００は、利用者の音声を集音して音声コマンド制御装置１００に送信可能な装置であり、例えば、マイクを用いることができる。また、操作対象装置７００は、音声コマンド制御装置１００から受け取ったコマンドに基づき操作を決定し、それによって定められた操作を行う装置であり、例えば、コマンド信号用の入力インタフェースを備えたデジタルテレビを用いることができる。

単語辞書記憶部１１は、モデル化処理を行う際に用いられる多種多様な単語からなる単語辞書データを記憶しておく機能を有している。

音響モデル処理部１２は、単語辞書データに登録されている各単語の音素や音節の発音パターンを生成して音響モデルとして保持しておき、入力音声Ｘに対する各発音パターンとの照合処理を行って各単語Ｗとの適合度（音響的信頼度）を確率Ｐ（Ｘ｜Ｗ）として計算する機能を有している。

尚、このような音響モデルとしては、利用するユーザや環境に応じて汎用的なものを利用可能であり、例えば、不特定話者のトライフォンモデルを用いることができる。トライフォンモデルでは、連続的に発生された音素の前後関係に応じて別のテンプレートを用意する手法を採用している。例えば、子音／ｋ／に対して、先行する母音／ａ／と後続する母音／ｉ／又は／ａ／を三つ組として／ａｋｉ／や／ａｋａ／というテンプレートを用意して照合処理を実行する。

簡易言語モデル処理部１３は、単語辞書データに登録されている単語間の意味的な連鎖度（文脈的つながり度）を事前確率Ｐ（Ｗ）として計算し、簡易言語モデルとして保持しておく機能を有している。尚、簡易言語モデルについては後述する。

コード辞書記憶部１４は、音声認識後の文字データ（表音文字全体）に含まれる各単語を個々のコードに変換するため、単語単位の文字データ（ローマ字等の表音文字）と、それを識別するコード（表音単語識別子）とを関連付けたコード辞書データ（第１対応関係）を記憶しておく機能を有している（図２参照）。

デコード処理部１５は、確率Ｐ（Ｘ｜Ｗ）と事前確率Ｐ（Ｗ）の積が最大となる単語列Ｗからなる文字データを探索計算し、それにより決定された文字データ内の各単語をコード辞書データを用いて各コードにそれぞれ変換して、その文字データ内の各単語の連続順で各コードを連続させたコード列（連続データ）を出力する機能を有している。

シーケンス辞書記憶部１６は、コード列を操作対象装置７００の操作用コマンドに変換するため、コード辞書データに登録されている２つ以上のコードの接続が意味的に連鎖するように複数のコードを連続させたシーケンスコード（連続表音単語識別子）と、その意味内容の操作を操作対象装置に実行させるためのコマンド（操作命令情報）とを関連付けたシーケンス辞書データ（第２対応関係）を記憶しておく機能を有している（図３参照）。

変換文解析部１７は、デコード処理部１５から受け取ったコード列内にシーケンス辞書データに登録されている連続順序のコード列が含まれているかどうかを解析し、含まれている場合にのみシーケンス辞書データを用いてそれに対応するコマンドに変換して外部出力し、含まれていない場合には何らコマンドを出力しない機能を有している。

続いて、簡易言語モデルについて説明する。簡易言語モデルは、従来の言語モデルより言語的な制約が少なく、簡易に作成することを意識した言語モデルである。

例えば、コード辞書データに登録されているような単語間において、全ての接続が等しい確率で起こるような単語列Ｗ＝｛ｗ_１，ｗ_２，…，ｗ_ｎ｝（但し、ｎは１以上の自然数）を与えられるように用意する。

ここで、単語列Ｗの事前確率Ｐ（Ｗ）（＝生起確率）は、式（２）（但し、ｉ＝１，…，ｎ）で表されるが、全ての接続確率（単語間の意味的な連鎖度）が等しいとすれば、単語列Ｗの長さのみに制約を受けることとなり、意味的なつながりによる偏りは考慮されない。

即ち、簡易言語モデル処理部１３は、図２のコード辞書データに示すように「「てれび」「つけて」」や「「ちゃんねる」「かえて」」等、入力音声に含まれる単語の数がいつも同じと仮定して、固定の事前確率Ｐ（Ｗ）を出力する。そして、デコード処理部１５では、事前確率Ｐ（Ｗ）は等しく音響モデルによる確率Ｐ（Ｘ｜Ｗ）のみを考慮して単語列Ｗを計算する。つまり、文法的意味的な制限が小さくなるように事前確率Ｐ（Ｗ）を設定する。このとき、必ずしも単語間の接続は等確率でなく偏りがあってもよいが、モデルの言語的な制限を小さくできることは、本実施の形態による効果である。

本実施の形態では、全ての単語間の意味的な連鎖度が等しい簡易言語モデルをｊｕｌｉｕｓを用いて実施するために、等確率で接続される制限をバイグラムと逆向きトライグラムで表現して簡易言語モデルを構築した。具体的には、ｎ個の単語が単語辞書データに登録されているとして、バイグラムを式（３）のように表現し、すべて単語間のバイグラムを固定値とした。

一方、トライグラムも同様に式（４）のように表現する。

Ｊｕｌｉｕｓでは２つのパスによる探索アルゴリズムを採用しており、第１パスで単語バイグラムモデルを用いて荒い照合処理を行い、その中間結果に対して第２パスで単語トライグラムモデルを適用して、最終的な音声認識結果を計算する。そして、デコード処理部１５では、このようなモデルを利用して一区間分（単語分）の入力音声をコード列の羅列文に変換し、変換文解析部１７に送信する。

次に、音声コマンド制御装置１００の動作について説明する。図４は、音声コマンド制御装置１００の処理フローを示す図である。但し、入力音声を受信する前に、音響モデル及び簡易言語モデルが予め生成されているものとする。

最初に、音声入力装置５００から利用者の発話音声が入力されると、音響モデル処理部１２が、その入力音声Ｘに対する音響モデル内の各単語の発音パターンとの照合処理を行って各単語Ｗとの適合度を計算し、確率Ｐ（Ｘ｜Ｗ）として後段のデコード処理部１５に出力する（ステップＳ１０１）。

次に、デコード処理部１５が、音響モデル処理部１２から各単語との適合度（確率Ｐ（Ｘ｜Ｗ））を受け取り、更に、簡易言語モデル処理部１３から単語辞書データに登録された単語間の連鎖度（事前確率Ｐ（Ｗ））を取得して、確率Ｐ（Ｘ｜Ｗ）と事前確率Ｐ（Ｗ）の積が最大となる単語列Ｗを探索計算する（ステップＳ１０２）。

ここで、入力音声Ｘに含まれる単語の数がいつも同じと仮定する場合、簡易言語モデル処理部１３は、予め設定した固定率を事前確率Ｐ（Ｗ）として出力し、デコード処理部１５は、その固定率を事前確率Ｐ（Ｗ）に用いて上記探索計算を行う。

次に、デコード処理部１５は、コード辞書記憶部１４からコード辞書データを読み出して、探索計算によって得られた文字データを構成する各単語を各コードにそれぞれ変換し、それら各単語の連続順で各コードを連続させたコード列を生成して、後段の変換文解析部１７に出力する（ステップＳ１０３）。仮に、「えーと、テレビをつけてください」という音声が入力された場合には、例えば、「ｋ５ｋ１ｋ７ｋ７」のコード列を出力する。

次に、変換文解析部１７は、シーケンス辞書記憶部１６からシーケンス辞書データを読み出して、デコード処理部１５から受け取ったコード列に含まれる一部又は全部のコード連続順序が、シーケンス辞書データのシーケンスコードに登録されているコード連続順序に合致するか（Ｙｅｓ）否か（Ｎｏ）を判定する（ステップＳ１０４）。

ステップＳ１０４の判定結果がＹｅｓの場合、変換文解析部１７は、そのシーケンスコードを対応するコマンドをシーケンス辞書データから取得することによりコマンド変換を行い（ステップＳ１０５）、そのコマンドを出力して操作対象装置７００に入力させる（ステップＳ１０６）。

上記例であれば、「ｋ５ｋ１ｋ７ｋ７」というコード列の中から図３のシーケンスコードが含まれているかどうかを解析し、ここでは「ｋ１ｋ７」という並びが一致するので、コマンド「００１」に変換して操作対象装置７００に送信する。

一方、ステップＳ１０４の判定結果がＮｏの場合、変換文解析部１７は、操作対象装置７００に対して何らコマンドを出力することなく、本処理を終了する。

以上より、本実施の形態によれば、デコード処理部１５が、コード辞書データを用いて入力音声の音声認識処理結果を単語単位でコードに変換し、その変換による複数のコードを連続させたコード列を生成し、変換文解析部１７が、そのコード列に含まれる一部又は全部のコード連続順序がシーケンス辞書データのシーケンスコードで定めたコード連続順序に合致する場合のみ、その連続順序のシーケンスコードに対応するコマンドを操作対象装置７００に出力するので、特定の状況を想定した言語モデルの構築や不要語の登録、信頼度閾値の設定など特別なチューニングを要する手段を用いることなく、利用者の意図しない誤ったコマンドが操作対象装置７００に入力されるのを防止することができる。また、それにより、従来課題とされていた想定外の状況での利用でも、安定して入力音声の誤認識を防ぐことができる。

また、本実施の形態によれば、単語間の意味的な連鎖度を一定とする簡易言語モデルを用いて音声認識処理を行うので、言語モデルで扱う単語の数や種類等に係る制限を抑制し、限定のない任意の単語を対象にすることができる。

〔第２の実施の形態〕
図５は、音声コマンド制御システムの機能ブロック構成を示す図である。本実施の形態では、シーケンス辞書データを生成して音声コマンド制御装置１００に登録するシーケンス辞書生成装置３００を更に備えている。これにより、利用者は、特別に言語モデルを考慮することなく、新たなコマンドを簡易に追加することができる。

ここで、シーケンス辞書生成装置３００の動作について説明する。図６は、シーケンス辞書生成装置の処理フローを示す図である。但し、音声コマンド制御装置１００において、コード辞書データ及びシーケンス辞書データには何らデータ登録されていないものとする。尚、以下説明する処理フローは、シーケンス辞書データを１行ずつ追加生成していく過程を説明するものであり、複数行追加する場合にはこの過程を繰り返す必要がある。

最初に、連続させると文脈的に意味のあるＮ個（Ｎは２以上の自然数）の単語を音素文字列ｗ［Ｎ−１］として入力し、その意味内容の操作を操作対象装置７００に実行させるためのコマンドをコマンドｃｍｄとして入力する（ステップＳ２０１）。例えば、２つ（Ｎ＝２）のｗ［０］＝“ｔｅｒｅｂｉ”，ｗ［１］＝“ｔｓｕｋｅｔｅ”と、コマンドｃｍｄ＝００１が入力される。

次に、本処理で変数として使用する文字列ｂｕｆｆと文字列ｓｅｑを初期化し（ステップＳ２０２）、変数ｉ（ｉ＝０，…，Ｎ−１）をインクリメントしながら入力単語数分、以下説明するステップＳ２０３〜ステップＳ２０６を繰り返し実行する。

まず、音素文字列ｗ［ｉ］が、音声コマンド制御装置１００のコード辞書データに登録されているか（Ｙｅｓ）否か（Ｎｏ）を判定する（ステップＳ２０３）。

ステップＳ２０３の判定結果がＹｅｓの場合、音素文字列ｗ［ｉ］が一致するコードｃｏｄｅをコード辞書データから取得する（ステップＳ２０４）。

一方、ステップＳ２０３の判定結果がＮｏの場合、その音素文字列ｗ［ｉ］を音素識別子としてコード辞書データに登録し、その音素識別子ｗ［ｉ］を区別可能なコードｃｏｄｅを割り振り関連付けてコード辞書データに登録する（ステップＳ２０５）。

上記例であれば、ｉ＝０の場合には、「ｔｅｒｅｂｉ」を音素識別子とし、それを識別する例えば「ｋ１」をコードとして関連付けてコード辞書データに登録する。また、ｉ＝１の場合には、「ｔｓｕｋｅｔｅ」を音素識別子とし、それを識別する例えば「ｋ７」をコードとして関連付けてコード辞書データに登録する。

続いて、ステップＳ２０４又はステップＳ２０５の後、文字列ｂｕｆｆとコードｃｏｄｅを連結し、文字列ｂｕｆｆに格納する（ステップＳ２０６）。

上記例であれば、ｉ＝０の場合には、ｂｕｆｆ＝“”（空文字）＋“ｋ１”＝“ｋ１”が文字列ｂｕｆｆに格納され、ｉ＝１の場合には、ｂｕｆｆ＝“ｋ１”＋“ｋ２”＝“ｋ１ｋ２”が文字列ｂｕｆｆに格納される。

その後、文字列ｂｕｆｆ内の文字列を文字列ｓｅｑに格納し（ステップＳ２０７）、文字列ｓｅｑに格納された文字列とステップＳ２０１で入力されたコマンドｃｍｄとを関連付けてシーケンス辞書データに登録する（ステップＳ２０８）。上記例であれば、“ｋ１ｋ２”をシーケンスコードとし、ｃｍｄ＝００１をコマンドとしてシーケンス辞書データに登録する。

以上より、本実施の形態によれば、コード辞書データとシーケンス辞書データを、音声コマンド制御装置に通信可能に接続されたシーケンス辞書生成装置３００により生成するので、従来の言語モデルを何ら調整しないことから、言語モデルでの専門的なチューニングの知識が不要となり、簡易にコマンド等を登録することができる。

最後に、各実施の形態で説明した音声コマンド制御装置１００及びシーケンス辞書生成装置３００は、メモリ等の記憶手段やＣＰＵ等の計算・制御手段を備えたコンピュータにより実現可能である。また、それら装置１００，３００の動作は、プログラムによって実行される。

１００…音声コマンド制御装置
１１…単語辞書記憶部
１２…音響モデル処理部
１３…簡易言語モデル処理部
１４…コード辞書記憶部（第１記憶手段）
１５…デコード処理部
１６…シーケンス辞書記憶部（第２記憶手段）
１７…変換文解析部
３００…シーケンス辞書生成装置
５００…音声入力装置
７００…操作対象装置
Ｓ１０１〜Ｓ１０６、Ｓ２０１〜Ｓ２０８…ステップ

Claims

複数の単語が登録された単語辞書データを記憶しておく記憶手段と、
前記複数の単語の各発音パターンをそれぞれ生成しておき、入力音声に対する前記複数の発音パターンとの適合度をそれぞれ算出する手段と、
前記単語辞書データに登録されている各単語の他の単語との間での意味的な連鎖度をそれぞれ算出して簡易言語モデルとして保持する手段と、
単語単位の表音文字と、前記表音文字を識別する表音単語識別子とを関連付けた第１対応関係を記憶しておく第１記憶手段と、
前記表音文字間の接続が意味的に連鎖するように前記表音単語識別子を複数連続させた連続表音単語識別子と、操作対象装置への操作命令情報とを関連付けた第２対応関係を記憶しておく第２記憶手段と、
前記適合度と前記連鎖度との積が最大となる単語を探索して音声認識処理結果とし、前記第１対応関係を用いて前記入力音声の音声認識処理結果を単語単位で前記表音単語識別子に変換し、当該変換による複数の表音単語識別子を連続させた連続データを生成する手段と、
前記第２記憶手段から前記第２対応関係を読み出して、前記連続データに含まれる一部又は全部の表音単語識別子の連続順序が前記連続表音単語識別子で定めた表音単語識別子の連続順序に合致する場合のみ、当該連続順序の連続表音単語識別子に対応する前記操作命令情報を前記操作対象装置に出力する手段と、を有し、
前記簡易言語モデルにおける単語間の意味的な連鎖度は一定であることを特徴とする音声コマンド制御装置。
前記第１対応関係と前記第２対応関係は、
前記音声コマンド制御装置に通信可能に接続された他の装置により生成されることを特徴とする請求項１に記載の音声コマンド制御装置。
音声コマンド制御装置で実行される音声コマンド制御方法であって、
複数の単語が登録された単語辞書データを記憶手段に記憶しておくステップと、
前記複数の単語の各発音パターンをそれぞれ生成しておき、入力音声に対する前記複数の発音パターンとの適合度をそれぞれ算出するステップと、
前記単語辞書データに登録されている各単語の他の単語との間での意味的な連鎖度をそれぞれ算出して簡易言語モデルとして保持するステップと、
単語単位の表音文字と、前記表音文字を識別する表音単語識別子とを関連付けた第１対応関係を第１記憶手段に記憶しておくステップと、
前記表音文字間の接続が意味的に連鎖するように前記表音単語識別子を複数連続させた連続表音単語識別子と、操作対象装置への操作命令情報とを関連付けた第２対応関係を第２記憶手段に記憶しておくステップと、
前記適合度と前記連鎖度との積が最大となる単語を探索して音声認識処理結果とし、前記第１対応関係を用いて前記入力音声の音声認識処理結果を単語単位で前記表音単語識別子に変換し、当該変換による複数の表音単語識別子を連続させた連続データを生成するステップと、
前記第２記憶手段から前記第２対応関係を読み出して、前記連続データに含まれる一部又は全部の表音単語識別子の連続順序が前記連続表音単語識別子で定めた表音単語識別子の連続順序に合致する場合のみ、当該連続順序の連続表音単語識別子に対応する前記操作命令情報を前記操作対象装置に出力するステップと、を有し、
前記簡易言語モデルにおける単語間の意味的な連鎖度は一定であることを特徴とする音声コマンド制御方法。
前記第１対応関係と前記第２対応関係は、
前記音声コマンド制御装置に通信可能に接続された他の装置により生成されることを特徴とする請求項３に記載の音声コマンド制御方法。
請求項３又は４に記載の音声コマンド制御方法をコンピュータに実行させることを特徴とする音声コマンド制御プログラム。