JP2014021475A - 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム - Google Patents

音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム Download PDF

Info

Publication number
JP2014021475A
JP2014021475A JP2012163465A JP2012163465A JP2014021475A JP 2014021475 A JP2014021475 A JP 2014021475A JP 2012163465 A JP2012163465 A JP 2012163465A JP 2012163465 A JP2012163465 A JP 2012163465A JP 2014021475 A JP2014021475 A JP 2014021475A
Authority
JP
Japan
Prior art keywords
command control
continuous
phonetic
voice command
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012163465A
Other languages
English (en)
Other versions
JP6001944B2 (ja
Inventor
Hiroyoshi Watanabe
大喜 渡邊
Akira Masumura
亮 増村
Yasuhiko Miyazaki
泰彦 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012163465A priority Critical patent/JP6001944B2/ja
Publication of JP2014021475A publication Critical patent/JP2014021475A/ja
Application granted granted Critical
Publication of JP6001944B2 publication Critical patent/JP6001944B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】利用者の意図しない誤ったコマンドが操作対象装置に入力されるのを防止すること。
【解決手段】デコード処理部15が、コード辞書データを用いて入力音声の音声認識処理結果を単語単位でコードに変換し、その変換による複数のコードを連続させたコード列を生成し、変換文解析部17が、そのコード列に含まれる一部又は全部のコード連続順序がシーケンス辞書データのシーケンスコードで定めたコード連続順序に合致する場合のみ、その連続順序のシーケンスコードに対応するコマンドを操作対象装置700に出力する。
【選択図】図1

Description

本発明は、音声認識による文字データを制御する技術に関する。
利用者の発話音声をマイク等の音声入力装置から入力して音声認識を行い、それにより解析された文字データを所定のコマンドに変換してテレビ等の操作対象装置に入力させることにより、そのコマンドに応じた操作を実行させる音声コマンド制御装置がある。
まず、図7を参照しながら、従来の音声コマンド制御装置について説明する。一般に、音声を文字データに変換する音声認識では、音響モデル及び言語モデルが用いられている。
そこで、音響モデル処理部は、単語辞書データに登録された各単語の音素や音節の発音パターンを生成して音響モデルとして保持しておき、入力音声Xに対する各発音パターンとの照合処理を行って各単語Wとの適合度を確率P(X|W)として計算する。
また、単一の単語だけでなく連続する単語や文章を適切に認識するため、言語モデル処理部は、単語辞書データに登録された単語間の連鎖度を事前確率P(W)として計算し、言語モデルとして保持しておく。
ここで、音声認識とは未知の入力音声Xを1つ又は複数の単語列Wに解読することであり、即ちそれは事後確率P(W|X)が最大となる単語列Wを探索することにある。ゆえに、デコード処理部は、ベイズの定理を利用した式(1)を用いて、事後確率P(W|X)が最大の単語列Wを計算する(非特許文献1参照)。
Figure 2014021475
このとき、分母のP(X)は単語列Wの決定に影響しないため、無視することができる。従って実際には、確率P(X|W)と事前確率P(W)の積が最大となる単語列Wを探索することがデコード処理部の役割となる。
そして、デコード処理部は、その計算によって探索した単語列W(図8の音素識別子欄に示すようなローマ字等の表音文字全体)に対応するコマンドをコマンド辞書データ(図8参照)から取得し、後述する信頼度判定部を介して操作対象装置に入力させる。
しかしながら、利用者の意図しない発話が認識され、それがコマンドとして解釈されてしまい、操作対象装置に誤作動が生じることがある。例えば、「てれびつけて」、「おんりょうあげて」、「ちゃんねるかえて」といった各単語列を音声認識した際に、これがコマンドとして機能する場合を考える。このとき、利用者同士の会話で「今日の夕飯は外に食べに行こうよ」というコマンド入力を意図しない発話があるとする。これを「てれびつけて」と誤認識すると操作対象装置が誤作動してしまう。
このような誤認識を防止するため、従来から様々な対策が行われてきた。例えば、単純なパターン認識では、全ての単語列Wにおいてその事前確率P(W)は等しいと仮定するため、確率P(X|W)のみを考慮すればよく、単純にコマンド以外に利用者が発しうる単語列Wを不要語として定義しておけば、誤認識を防ぐことができる(図8の不要語の欄参照)。
特に、単語列Wが複数の単語からなる単語列W={w,w,…,w}として表される連続音声認識では、言語モデルによる事前確率P(W)を考慮して、文法的意味的に正しくないものを除外することにより、探索対象を絞り込むことができる。
ここで、言語モデルは、決定的な記述文法に基づくものと、統計的なモデルに基づくものに大別できる。記述文法では、認識できる文法をネットワークの形式で有限オートマトンとして記述し、単語列が受理されるかどうかを判別する。これもコマンド以外にユーザが発する単語を含めて文法を記述しておくことにより、誤認識を防ぐことができる。
また、ドメインが大規模であり人手でコマンド以外の文法をすべて記述することが困難な場合には、統計的モデルを利用すれば、自動でモデルを作成することができる。統計的なモデルでは、事前確率P(W)はNグラムモデルにより近似的に推定できるため、コーパスから統計的にNグラム確率を算出して、これを言語モデルとして活用している。
いずれの場合においても、誤認識を防止するため、コマンド以外に利用者が発すると推定される単語を予測してモデルに保持しておくようにすることが従来から行われてきた。
しかしながら、利用者から発せられた音声特徴量が全くモデルに与えられていない場合もある。この場合には、音声認識処理結果に対する信頼度を定義しておき、図7に示したように、デコード処理部と操作対象装置との間に信頼度判定部を介在させ、コマンドと共に取得した単語列Wに係る信頼度が低下したときにその探索結果を棄却する。
例えば、特許文献1には、音声認識の探索結果におけるNコスト単語候補間のスコア差をもとに算出した音響的な信頼度に、単語間の関連度をもとに算出した文脈的な信頼度を加味して認識信頼度を付与する手法が開示されている。認識信頼度が定められた閾値未満であるならば結果を棄却し、信頼度の高い単語のみを結果として残すことが可能である。
このように、従来の音声コマンド制御装置は、まず利用者のコマンド入力を意図しない発話がモデル内に保持されていればそれを排除し、次に信頼度の閾値により棄却する、といった二重の対策を講じることで誤認識を防いでいた。
特開2012−22070号公報
河原、外1名、「連続音声認識ソフトウェア Julius」、人工知能学会誌、Vol.20、No.1、2005年、p.41-49
従来の音声コマンド制御装置は、音声対話による観光案内やバスの時刻表検索等、タスクドメインが限られた中で利用されることが一般的であった。このような場合には、上述したように、言語モデルや信頼度の閾値を適切にチューニングすることにより誤認識を防ぐことができる。
しかしながら、利用するドメインが限定されていない場合、これらを適切にチューニングすることは極めて難しい。例えば、家庭宅内に配置されたテレビを制御することを想定する。テレビにはマイクが取り付けられており、周囲の日常会話や生活音を含むあらゆる音声を常に入力し、音声認識を常々行ってコマンド出力を継続している。また、利用者はマイクから近い位置でも離れた位置でも音声がマイクに届くならば、どこからでも音声によるコマンド入力を行うことができる。
このように、利用者の発話から特定のコマンドを操作対象装置に入力させるという目的において、利用者の利用状況を想定し、上記チューニングを行うことで誤認識を防止するには以下のような問題がある。
一つは、ある状況や特定のドメインに特化しているため、別の状況に関してその制約が逆効果に作用する可能性がある。特に利用状況がダイナミックに変化する環境においては、チューニングを行うことは難しい。上述の例の場合、テレビの前では、見ているテレビ番組に関する会話が多いだろうと仮定してチューニングを行ったとしても、実際は職場や学校に関する会話の方が家庭によっては多い場合もあり、うまく機能しないことがあり得る。このように従来技術では、利用者の言い回しや会話のドメインが限定されず言語モデルに含まれる不要語を予測することは難しい。また、周囲の騒音やマイクからの距離等もその都度変わるため、信頼度の閾値を一意に定めることも難しい。
もう一つは、チューニングを行うにあたり専門的な知識や技術の前提を理解している必要がある。ドメインを仮定して言語モデルを構築するにも、学習コーパスの選定や利用状況における文法的な制約を設計者は把握していなければならない。上述の例の場合、利用者が独自にコマンドを登録したり、番組名などを追加でコマンドに登録したりするにあたって、いちいち言語モデルやドメインを意識して登録することは非常に煩わしいことである。
本発明は、上記を鑑みてなされたものであり、利用者の意図しない誤った操作命令情報(コマンド)が操作対象装置に入力されるのを防止することを課題とする。
請求項1記載の音声コマンド制御装置は、単語単位の表音文字と、前記表音文字を識別する表音単語識別子とを関連付けた第1対応関係を記憶しておく第1記憶手段と、前記表音文字間の接続が意味的に連鎖するように前記表音単語識別子を複数連続させた連続表音単語識別子と、前記意味内容の操作を操作対象装置に実行させるための操作命令情報とを関連付けた第2対応関係を記憶しておく第2記憶手段と、前記第1対応関係を用いて入力音声の音声認識処理結果を単語単位で前記表音単語識別子に変換し、当該変換による複数の表音単語識別子を連続させた連続データを生成する手段と、前記第2記憶手段から前記第2対応関係を読み出して、前記連続データに含まれる一部又は全部の表音単語識別子の連続順序が前記連続表音単語識別子で定めた表音単語識別子の連続順序に合致する場合のみ、当該連続順序の連続表音単語識別子に対応する前記操作命令情報を前記操作対象装置に出力する手段と、を有することを特徴とする。
本発明によれば、第1対応関係を用いて入力音声の音声認識処理結果を単語単位で前記表音単語識別子に変換し、その変換による複数の表音単語識別子を連続させた連続データを生成し、その連続データに含まれる一部又は全部の表音単語識別子の連続順序が第2対応関係の連続表音単語識別子で定めた表音単語識別子の連続順序に合致する場合のみ、その連続順序の連続表音単語識別子に対応する操作命令情報を操作対象装置に出力するため、特定の状況を想定した言語モデルの構築や不要語の登録、信頼度閾値の設定など特別なチューニングを要する手段を用いることなく、利用者の意図しない誤った操作命令情報が操作対象装置に入力されるのを防止することができる。また、それにより、従来課題とされていた想定外の状況での利用でも、安定して入力音声の誤認識を防ぐことができる。
請求項2記載の音声コマンド制御装置は、請求項1記載の音声コマンド制御装置において、前記音声認識処理は、単語間の意味的な連鎖度を一定とする簡易言語モデルを用いて行われることを特徴とする。
本発明によれば、単語間の意味的な連鎖度を一定とする簡易言語モデルを用いて音声認識処理を行うため、言語モデルで扱う単語の数や種類等に係る制限を抑制し、限定のない任意の単語を対象にすることができる。
請求項3記載の音声コマンド制御装置は、請求項1又は2記載の音声コマンド制御装置において、前記第1対応関係と前記第2対応関係は、前記音声コマンド制御装置に通信可能に接続された他の装置により生成されることを特徴とする。
本発明によれば、第1対応関係と第2対応関係は、音声コマンド制御装置に通信可能に接続された他の装置により生成されるため、従来の言語モデルを何ら調整しないことから、言語モデルでの専門的なチューニングの知識が不要となり、簡易に操作命令情報等を登録することができる。
請求項4記載の音声コマンド制御方法は、コンピュータにより、単語単位の表音文字と、前記表音文字を識別する表音単語識別子とを関連付けた第1対応関係を第1記憶手段に記憶しておくステップと、前記表音文字間の接続が意味的に連鎖するように前記表音単語識別子を複数連続させた連続表音単語識別子と、前記意味内容の操作を操作対象装置に実行させるための操作命令情報とを関連付けた第2対応関係を第2記憶手段に記憶しておくステップと、前記第1対応関係を用いて入力音声の音声認識処理結果を単語単位で前記表音単語識別子に変換し、当該変換による複数の表音単語識別子を連続させた連続データを生成するステップと、前記第2記憶手段から前記第2対応関係を読み出して、前記連続データに含まれる一部又は全部の表音単語識別子の連続順序が前記連続表音単語識別子で定めた表音単語識別子の連続順序に合致する場合のみ、当該連続順序の連続表音単語識別子に対応する前記操作命令情報を前記操作対象装置に出力するステップと、を有することを特徴とする。
請求項5記載の音声コマンド制御方法は、請求項4記載の音声コマンド制御方法において、前記音声認識処理は、単語間の意味的な連鎖度を一定とする簡易言語モデルを用いて行われることを特徴とする。
請求項6記載の音声コマンド制御方法は、請求項4又は5記載の音声コマンド制御方法において、前記第1対応関係と前記第2対応関係は、前記音声コマンド制御装置に通信可能に接続された他の装置により生成されることを特徴とする。
請求項7記載の音声コマンド制御プログラムは、請求項4乃至6のいずれかに記載の音声コマンド制御方法をコンピュータに実行させることを特徴とする。
本発明によれば、利用者の意図しない誤った操作命令情報(コマンド)が操作対象装置に入力されるのを防止することができる。
音声コマンド制御装置の機能ブロック構成を示す図である。 コード辞書データの例を示す図である。 シーケンス辞書データの例を示す図である。 音声コマンド制御装置の処理フローを示す図である。 音声コマンド制御システムの機能ブロック構成を示す図である。 シーケンス辞書生成装置の処理フローを示す図である。 従来の音声コマンド制御装置の機能ブロック構成を示す図である。 コマンド辞書データの例を示す図である。
本発明は、音声認識後の文字データ(表音文字全体)をコマンドに直接変換するのに代えて、その文字データを単語単位でコードに変換して複数のコードを連続させたコード列を生成し、そのコードの連続順序が所定の規則的制約を満たす場合にのみコマンドに変換して操作対象装置に出力することを特徴とする。
これは、コード列に利用者の意図しない単語のコードが含まれていた場合、そのコードが規則的な制約を満たしている確率よりも、その規則的制約を満たしていない確率の方が格段に大きいことに着目している。
以下、本発明を実施する一実施の形態について図面を用いて説明する。但し、本発明は多くの異なる様態で実施することが可能であり、本実施の形態の記載内容に限定して解釈すべきではない。
〔第1の実施の形態〕
図1は、音声コマンド制御装置100の機能ブロック構成を示す図である。音声コマンド制御装置100は、通信ネットワークを介して他の装置と通信可能であって、音声入力装置500から入力された音声を操作対象装置700で解釈可能なコマンドに変換する装置である。
具体的には、単語辞書記憶部11と、音響モデル処理部12と、簡易言語モデル処理部13と、コード辞書記憶部14と、デコード処理部15と、シーケンス辞書記憶部16と、変換文解析部17とで主に構成される。
それら複数の機能部のうち符号11〜15の各機能部は、音声コマンド制御装置100において音声コード変換部として機能する。この音声コード変換部で行う音声認識処理としては様々な方法が存在するが、例えば、単語の連続性に規則的な制約のない連続単語認識手法を用いることができる。例えば、オープンソースのjuliusを利用してそれら各機能部を実現することができる(非特許文献1参照)。以下、各機能部について説明する。
尚、音声入力装置500は、利用者の音声を集音して音声コマンド制御装置100に送信可能な装置であり、例えば、マイクを用いることができる。また、操作対象装置700は、音声コマンド制御装置100から受け取ったコマンドに基づき操作を決定し、それによって定められた操作を行う装置であり、例えば、コマンド信号用の入力インタフェースを備えたデジタルテレビを用いることができる。
単語辞書記憶部11は、モデル化処理を行う際に用いられる多種多様な単語からなる単語辞書データを記憶しておく機能を有している。
音響モデル処理部12は、単語辞書データに登録されている各単語の音素や音節の発音パターンを生成して音響モデルとして保持しておき、入力音声Xに対する各発音パターンとの照合処理を行って各単語Wとの適合度(音響的信頼度)を確率P(X|W)として計算する機能を有している。
尚、このような音響モデルとしては、利用するユーザや環境に応じて汎用的なものを利用可能であり、例えば、不特定話者のトライフォンモデルを用いることができる。トライフォンモデルでは、連続的に発生された音素の前後関係に応じて別のテンプレートを用意する手法を採用している。例えば、子音/k/に対して、先行する母音/a/と後続する母音/i/又は/a/を三つ組として/aki/や/aka/というテンプレートを用意して照合処理を実行する。
簡易言語モデル処理部13は、単語辞書データに登録されている単語間の意味的な連鎖度(文脈的つながり度)を事前確率P(W)として計算し、簡易言語モデルとして保持しておく機能を有している。尚、簡易言語モデルについては後述する。
コード辞書記憶部14は、音声認識後の文字データ(表音文字全体)に含まれる各単語を個々のコードに変換するため、単語単位の文字データ(ローマ字等の表音文字)と、それを識別するコード(表音単語識別子)とを関連付けたコード辞書データ(第1対応関係)を記憶しておく機能を有している(図2参照)。
デコード処理部15は、確率P(X|W)と事前確率P(W)の積が最大となる単語列Wからなる文字データを探索計算し、それにより決定された文字データ内の各単語をコード辞書データを用いて各コードにそれぞれ変換して、その文字データ内の各単語の連続順で各コードを連続させたコード列(連続データ)を出力する機能を有している。
シーケンス辞書記憶部16は、コード列を操作対象装置700の操作用コマンドに変換するため、コード辞書データに登録されている2つ以上のコードの接続が意味的に連鎖するように複数のコードを連続させたシーケンスコード(連続表音単語識別子)と、その意味内容の操作を操作対象装置に実行させるためのコマンド(操作命令情報)とを関連付けたシーケンス辞書データ(第2対応関係)を記憶しておく機能を有している(図3参照)。
変換文解析部17は、デコード処理部15から受け取ったコード列内にシーケンス辞書データに登録されている連続順序のコード列が含まれているかどうかを解析し、含まれている場合にのみシーケンス辞書データを用いてそれに対応するコマンドに変換して外部出力し、含まれていない場合には何らコマンドを出力しない機能を有している。
続いて、簡易言語モデルについて説明する。簡易言語モデルは、従来の言語モデルより言語的な制約が少なく、簡易に作成することを意識した言語モデルである。
例えば、コード辞書データに登録されているような単語間において、全ての接続が等しい確率で起こるような単語列W={w,w,…,w}(但し、nは1以上の自然数)を与えられるように用意する。
ここで、単語列Wの事前確率P(W)(=生起確率)は、式(2)(但し、i=1,…,n)で表されるが、全ての接続確率(単語間の意味的な連鎖度)が等しいとすれば、単語列Wの長さのみに制約を受けることとなり、意味的なつながりによる偏りは考慮されない。
Figure 2014021475
即ち、簡易言語モデル処理部13は、図2のコード辞書データに示すように「「てれび」「つけて」」や「「ちゃんねる」「かえて」」等、入力音声に含まれる単語の数がいつも同じと仮定して、固定の事前確率P(W)を出力する。そして、デコード処理部15では、事前確率P(W)は等しく音響モデルによる確率P(X|W)のみを考慮して単語列Wを計算する。つまり、文法的意味的な制限が小さくなるように事前確率P(W)を設定する。このとき、必ずしも単語間の接続は等確率でなく偏りがあってもよいが、モデルの言語的な制限を小さくできることは、本実施の形態による効果である。
本実施の形態では、全ての単語間の意味的な連鎖度が等しい簡易言語モデルをjuliusを用いて実施するために、等確率で接続される制限をバイグラムと逆向きトライグラムで表現して簡易言語モデルを構築した。具体的には、n個の単語が単語辞書データに登録されているとして、バイグラムを式(3)のように表現し、すべて単語間のバイグラムを固定値とした。
Figure 2014021475
一方、トライグラムも同様に式(4)のように表現する。
Figure 2014021475
Juliusでは2つのパスによる探索アルゴリズムを採用しており、第1パスで単語バイグラムモデルを用いて荒い照合処理を行い、その中間結果に対して第2パスで単語トライグラムモデルを適用して、最終的な音声認識結果を計算する。そして、デコード処理部15では、このようなモデルを利用して一区間分(単語分)の入力音声をコード列の羅列文に変換し、変換文解析部17に送信する。
次に、音声コマンド制御装置100の動作について説明する。図4は、音声コマンド制御装置100の処理フローを示す図である。但し、入力音声を受信する前に、音響モデル及び簡易言語モデルが予め生成されているものとする。
最初に、音声入力装置500から利用者の発話音声が入力されると、音響モデル処理部12が、その入力音声Xに対する音響モデル内の各単語の発音パターンとの照合処理を行って各単語Wとの適合度を計算し、確率P(X|W)として後段のデコード処理部15に出力する(ステップS101)。
次に、デコード処理部15が、音響モデル処理部12から各単語との適合度(確率P(X|W))を受け取り、更に、簡易言語モデル処理部13から単語辞書データに登録された単語間の連鎖度(事前確率P(W))を取得して、確率P(X|W)と事前確率P(W)の積が最大となる単語列Wを探索計算する(ステップS102)。
ここで、入力音声Xに含まれる単語の数がいつも同じと仮定する場合、簡易言語モデル処理部13は、予め設定した固定率を事前確率P(W)として出力し、デコード処理部15は、その固定率を事前確率P(W)に用いて上記探索計算を行う。
次に、デコード処理部15は、コード辞書記憶部14からコード辞書データを読み出して、探索計算によって得られた文字データを構成する各単語を各コードにそれぞれ変換し、それら各単語の連続順で各コードを連続させたコード列を生成して、後段の変換文解析部17に出力する(ステップS103)。仮に、「えーと、テレビをつけてください」という音声が入力された場合には、例えば、「k5k1k7k7」のコード列を出力する。
次に、変換文解析部17は、シーケンス辞書記憶部16からシーケンス辞書データを読み出して、デコード処理部15から受け取ったコード列に含まれる一部又は全部のコード連続順序が、シーケンス辞書データのシーケンスコードに登録されているコード連続順序に合致するか(Yes)否か(No)を判定する(ステップS104)。
ステップS104の判定結果がYesの場合、変換文解析部17は、そのシーケンスコードを対応するコマンドをシーケンス辞書データから取得することによりコマンド変換を行い(ステップS105)、そのコマンドを出力して操作対象装置700に入力させる(ステップS106)。
上記例であれば、「k5k1k7k7」というコード列の中から図3のシーケンスコードが含まれているかどうかを解析し、ここでは「k1k7」という並びが一致するので、コマンド「001」に変換して操作対象装置700に送信する。
一方、ステップS104の判定結果がNoの場合、変換文解析部17は、操作対象装置700に対して何らコマンドを出力することなく、本処理を終了する。
以上より、本実施の形態によれば、デコード処理部15が、コード辞書データを用いて入力音声の音声認識処理結果を単語単位でコードに変換し、その変換による複数のコードを連続させたコード列を生成し、変換文解析部17が、そのコード列に含まれる一部又は全部のコード連続順序がシーケンス辞書データのシーケンスコードで定めたコード連続順序に合致する場合のみ、その連続順序のシーケンスコードに対応するコマンドを操作対象装置700に出力するので、特定の状況を想定した言語モデルの構築や不要語の登録、信頼度閾値の設定など特別なチューニングを要する手段を用いることなく、利用者の意図しない誤ったコマンドが操作対象装置700に入力されるのを防止することができる。また、それにより、従来課題とされていた想定外の状況での利用でも、安定して入力音声の誤認識を防ぐことができる。
また、本実施の形態によれば、単語間の意味的な連鎖度を一定とする簡易言語モデルを用いて音声認識処理を行うので、言語モデルで扱う単語の数や種類等に係る制限を抑制し、限定のない任意の単語を対象にすることができる。
〔第2の実施の形態〕
図5は、音声コマンド制御システムの機能ブロック構成を示す図である。本実施の形態では、シーケンス辞書データを生成して音声コマンド制御装置100に登録するシーケンス辞書生成装置300を更に備えている。これにより、利用者は、特別に言語モデルを考慮することなく、新たなコマンドを簡易に追加することができる。
ここで、シーケンス辞書生成装置300の動作について説明する。図6は、シーケンス辞書生成装置の処理フローを示す図である。但し、音声コマンド制御装置100において、コード辞書データ及びシーケンス辞書データには何らデータ登録されていないものとする。尚、以下説明する処理フローは、シーケンス辞書データを1行ずつ追加生成していく過程を説明するものであり、複数行追加する場合にはこの過程を繰り返す必要がある。
最初に、連続させると文脈的に意味のあるN個(Nは2以上の自然数)の単語を音素文字列w[N−1]として入力し、その意味内容の操作を操作対象装置700に実行させるためのコマンドをコマンドcmdとして入力する(ステップS201)。例えば、2つ(N=2)のw[0]=“terebi”,w[1]=“tsukete”と、コマンドcmd=001が入力される。
次に、本処理で変数として使用する文字列buffと文字列seqを初期化し(ステップS202)、変数i(i=0,…,N−1)をインクリメントしながら入力単語数分、以下説明するステップS203〜ステップS206を繰り返し実行する。
まず、音素文字列w[i]が、音声コマンド制御装置100のコード辞書データに登録されているか(Yes)否か(No)を判定する(ステップS203)。
ステップS203の判定結果がYesの場合、音素文字列w[i]が一致するコードcodeをコード辞書データから取得する(ステップS204)。
一方、ステップS203の判定結果がNoの場合、その音素文字列w[i]を音素識別子としてコード辞書データに登録し、その音素識別子w[i]を区別可能なコードcodeを割り振り関連付けてコード辞書データに登録する(ステップS205)。
上記例であれば、i=0の場合には、「terebi」を音素識別子とし、それを識別する例えば「k1」をコードとして関連付けてコード辞書データに登録する。また、i=1の場合には、「tsukete」を音素識別子とし、それを識別する例えば「k7」をコードとして関連付けてコード辞書データに登録する。
続いて、ステップS204又はステップS205の後、文字列buffとコードcodeを連結し、文字列buffに格納する(ステップS206)。
上記例であれば、i=0の場合には、buff=“”(空文字)+“k1”=“k1”が文字列buffに格納され、i=1の場合には、buff=“k1”+“k2”=“k1k2”が文字列buffに格納される。
その後、文字列buff内の文字列を文字列seqに格納し(ステップS207)、文字列seqに格納された文字列とステップS201で入力されたコマンドcmdとを関連付けてシーケンス辞書データに登録する(ステップS208)。上記例であれば、“k1k2”をシーケンスコードとし、cmd=001をコマンドとしてシーケンス辞書データに登録する。
以上より、本実施の形態によれば、コード辞書データとシーケンス辞書データを、音声コマンド制御装置に通信可能に接続されたシーケンス辞書生成装置300により生成するので、従来の言語モデルを何ら調整しないことから、言語モデルでの専門的なチューニングの知識が不要となり、簡易にコマンド等を登録することができる。
最後に、各実施の形態で説明した音声コマンド制御装置100及びシーケンス辞書生成装置300は、メモリ等の記憶手段やCPU等の計算・制御手段を備えたコンピュータにより実現可能である。また、それら装置100,300の動作は、プログラムによって実行される。
100…音声コマンド制御装置
11…単語辞書記憶部
12…音響モデル処理部
13…簡易言語モデル処理部
14…コード辞書記憶部(第1記憶手段)
15…デコード処理部
16…シーケンス辞書記憶部(第2記憶手段)
17…変換文解析部
300…シーケンス辞書生成装置
500…音声入力装置
700…操作対象装置
S101〜S106、S201〜S208…ステップ

Claims (7)

  1. 単語単位の表音文字と、前記表音文字を識別する表音単語識別子とを関連付けた第1対応関係を記憶しておく第1記憶手段と、
    前記表音文字間の接続が意味的に連鎖するように前記表音単語識別子を複数連続させた連続表音単語識別子と、前記意味内容の操作を操作対象装置に実行させるための操作命令情報とを関連付けた第2対応関係を記憶しておく第2記憶手段と、
    前記第1対応関係を用いて入力音声の音声認識処理結果を単語単位で前記表音単語識別子に変換し、当該変換による複数の表音単語識別子を連続させた連続データを生成する手段と、
    前記第2記憶手段から前記第2対応関係を読み出して、前記連続データに含まれる一部又は全部の表音単語識別子の連続順序が前記連続表音単語識別子で定めた表音単語識別子の連続順序に合致する場合のみ、当該連続順序の連続表音単語識別子に対応する前記操作命令情報を前記操作対象装置に出力する手段と、
    を有することを特徴とする音声コマンド制御装置。
  2. 前記音声認識処理は、
    単語間の意味的な連鎖度を一定とする簡易言語モデルを用いて行われることを特徴とする請求項1記載の音声コマンド制御装置。
  3. 前記第1対応関係と前記第2対応関係は、
    前記音声コマンド制御装置に通信可能に接続された他の装置により生成されることを特徴とする請求項1又は2記載の音声コマンド制御装置。
  4. コンピュータにより、
    単語単位の表音文字と、前記表音文字を識別する表音単語識別子とを関連付けた第1対応関係を第1記憶手段に記憶しておくステップと、
    前記表音文字間の接続が意味的に連鎖するように前記表音単語識別子を複数連続させた連続表音単語識別子と、前記意味内容の操作を操作対象装置に実行させるための操作命令情報とを関連付けた第2対応関係を第2記憶手段に記憶しておくステップと、
    前記第1対応関係を用いて入力音声の音声認識処理結果を単語単位で前記表音単語識別子に変換し、当該変換による複数の表音単語識別子を連続させた連続データを生成するステップと、
    前記第2記憶手段から前記第2対応関係を読み出して、前記連続データに含まれる一部又は全部の表音単語識別子の連続順序が前記連続表音単語識別子で定めた表音単語識別子の連続順序に合致する場合のみ、当該連続順序の連続表音単語識別子に対応する前記操作命令情報を前記操作対象装置に出力するステップと、
    を有することを特徴とする音声コマンド制御方法。
  5. 前記音声認識処理は、
    単語間の意味的な連鎖度を一定とする簡易言語モデルを用いて行われることを特徴とする請求項4記載の音声コマンド制御方法。
  6. 前記第1対応関係と前記第2対応関係は、
    前記音声コマンド制御装置に通信可能に接続された他の装置により生成されることを特徴とする請求項4又は5記載の音声コマンド制御方法。
  7. 請求項4乃至6のいずれかに記載の音声コマンド制御方法をコンピュータに実行させることを特徴とする音声コマンド制御プログラム。
JP2012163465A 2012-07-24 2012-07-24 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム Expired - Fee Related JP6001944B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012163465A JP6001944B2 (ja) 2012-07-24 2012-07-24 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012163465A JP6001944B2 (ja) 2012-07-24 2012-07-24 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム

Publications (2)

Publication Number Publication Date
JP2014021475A true JP2014021475A (ja) 2014-02-03
JP6001944B2 JP6001944B2 (ja) 2016-10-05

Family

ID=50196357

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012163465A Expired - Fee Related JP6001944B2 (ja) 2012-07-24 2012-07-24 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム

Country Status (1)

Country Link
JP (1) JP6001944B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200006566A (ko) * 2017-10-03 2020-01-20 구글 엘엘씨 사용자 프로그래머블 자동화 어시스턴트
US10546574B2 (en) 2016-09-01 2020-01-28 Samsung Electronics Co., Ltd. Voice recognition apparatus and method
JP2021182068A (ja) * 2020-05-19 2021-11-25 Necパーソナルコンピュータ株式会社 映像表示装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0215573A1 (en) * 1985-08-20 1987-03-25 National Research Development Corporation Apparatus and methods for speech recognition
JPS62111296A (ja) * 1985-08-20 1987-05-22 ブリティッシュ・テクノロジー・グループ・リミテッド 音声認識方法およびその装置
JPH06295198A (ja) * 1993-03-03 1994-10-21 Philips Electron Nv 音声信号の所定の語彙のワードシーケンスを決める方法
JPH0792994A (ja) * 1993-09-28 1995-04-07 Nippon Telegr & Teleph Corp <Ntt> 認識候補抽出処理装置
JPH07219587A (ja) * 1994-01-28 1995-08-18 Canon Inc 音声処理装置および方法
JP2003140685A (ja) * 2001-10-30 2003-05-16 Nippon Hoso Kyokai <Nhk> 連続音声認識装置およびそのプログラム
JP2010145930A (ja) * 2008-12-22 2010-07-01 Nissan Motor Co Ltd 音声認識装置及び方法
JP2011144034A (ja) * 2010-01-18 2011-07-28 Mitsubishi Electric Building Techno Service Co Ltd 音声認識によるエレベータの操作装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0215573A1 (en) * 1985-08-20 1987-03-25 National Research Development Corporation Apparatus and methods for speech recognition
JPS62111296A (ja) * 1985-08-20 1987-05-22 ブリティッシュ・テクノロジー・グループ・リミテッド 音声認識方法およびその装置
JPH06295198A (ja) * 1993-03-03 1994-10-21 Philips Electron Nv 音声信号の所定の語彙のワードシーケンスを決める方法
JPH0792994A (ja) * 1993-09-28 1995-04-07 Nippon Telegr & Teleph Corp <Ntt> 認識候補抽出処理装置
JPH07219587A (ja) * 1994-01-28 1995-08-18 Canon Inc 音声処理装置および方法
JP2003140685A (ja) * 2001-10-30 2003-05-16 Nippon Hoso Kyokai <Nhk> 連続音声認識装置およびそのプログラム
JP2010145930A (ja) * 2008-12-22 2010-07-01 Nissan Motor Co Ltd 音声認識装置及び方法
JP2011144034A (ja) * 2010-01-18 2011-07-28 Mitsubishi Electric Building Techno Service Co Ltd 音声認識によるエレベータの操作装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10546574B2 (en) 2016-09-01 2020-01-28 Samsung Electronics Co., Ltd. Voice recognition apparatus and method
KR20210150622A (ko) * 2017-10-03 2021-12-10 구글 엘엘씨 사용자 프로그래머블 자동화 어시스턴트
JP2020535452A (ja) * 2017-10-03 2020-12-03 グーグル エルエルシー ユーザプログラマブル自動アシスタント
JP2021144228A (ja) * 2017-10-03 2021-09-24 グーグル エルエルシーGoogle LLC ユーザプログラマブル自動アシスタント
KR102337820B1 (ko) 2017-10-03 2021-12-09 구글 엘엘씨 사용자 프로그래머블 자동화 어시스턴트
KR20200006566A (ko) * 2017-10-03 2020-01-20 구글 엘엘씨 사용자 프로그래머블 자동화 어시스턴트
US11276400B2 (en) 2017-10-03 2022-03-15 Google Llc User-programmable automated assistant
KR20220103187A (ko) * 2017-10-03 2022-07-21 구글 엘엘씨 사용자 프로그래머블 자동화 어시스턴트
KR102424261B1 (ko) 2017-10-03 2022-07-25 구글 엘엘씨 사용자 프로그래머블 자동화 어시스턴트
KR102625761B1 (ko) 2017-10-03 2024-01-16 구글 엘엘씨 사용자 프로그래머블 자동화 어시스턴트
US11887595B2 (en) 2017-10-03 2024-01-30 Google Llc User-programmable automated assistant
JP2021182068A (ja) * 2020-05-19 2021-11-25 Necパーソナルコンピュータ株式会社 映像表示装置
JP7132974B2 (ja) 2020-05-19 2022-09-07 Necパーソナルコンピュータ株式会社 映像表示装置

Also Published As

Publication number Publication date
JP6001944B2 (ja) 2016-10-05

Similar Documents

Publication Publication Date Title
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US10121467B1 (en) Automatic speech recognition incorporating word usage information
Czech A System for Recognizing Natural Spelling of English Words
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
Jelinek Statistical methods for speech recognition
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US8423351B2 (en) Speech correction for typed input
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
CN107705787A (zh) 一种语音识别方法及装置
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
Neubig et al. Bayesian learning of a language model from continuous speech
US20150179169A1 (en) Speech Recognition By Post Processing Using Phonetic and Semantic Information
Droppo et al. Context dependent phonetic string edit distance for automatic speech recognition
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
Neubig et al. Learning a language model from continuous speech
JP6001944B2 (ja) 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム
JP4089861B2 (ja) 音声認識文章入力装置
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
KR102637025B1 (ko) 자동 음성 인식을 위한 다언어 리스코어링 모델들
JP2011007862A (ja) 音声認識装置、音声認識プログラム、および音声認識方法
JP2012255867A (ja) 音声認識装置
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JPH11143493A (ja) 音声言語理解装置及び音声言語理解システム
KR20110119478A (ko) 음성 인식 장치 및 음성 인식 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141017

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160902

R150 Certificate of patent or registration of utility model

Ref document number: 6001944

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees