JP2007248529A - 音声認識装置、音声認識プログラム、及び音声動作可能な装置 - Google Patents
音声認識装置、音声認識プログラム、及び音声動作可能な装置 Download PDFInfo
- Publication number
- JP2007248529A JP2007248529A JP2006068163A JP2006068163A JP2007248529A JP 2007248529 A JP2007248529 A JP 2007248529A JP 2006068163 A JP2006068163 A JP 2006068163A JP 2006068163 A JP2006068163 A JP 2006068163A JP 2007248529 A JP2007248529 A JP 2007248529A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic feature
- speech recognition
- repeated
- unit
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】突発的な雑音に対しても頑健に音声認識を行なうことができる音声認識装置を提供する。
【解決手段】音声認識装置は、与えられる音声信号中の繰返発声部分を検出する繰返発声検出部220と、検出された繰返発声をDPマッチングし、繰返発声中で互いに対応する音声フレームのパワースペクトル上の各周波数ビンでパワーの小さな方を選択することにより、繰返発声を統合したパワースペクトルを生成する繰返発声統合部222と、繰返発声統合部222により統合されたパワースペクトルを用いて音声認識し、繰返発声を構成する発声単位を出力するための音声認識処理部224とを含む。
【選択図】 図6
【解決手段】音声認識装置は、与えられる音声信号中の繰返発声部分を検出する繰返発声検出部220と、検出された繰返発声をDPマッチングし、繰返発声中で互いに対応する音声フレームのパワースペクトル上の各周波数ビンでパワーの小さな方を選択することにより、繰返発声を統合したパワースペクトルを生成する繰返発声統合部222と、繰返発声統合部222により統合されたパワースペクトルを用いて音声認識し、繰返発声を構成する発声単位を出力するための音声認識処理部224とを含む。
【選択図】 図6
Description
この発明は音声認識装置に関し、特に、突発性の雑音にも頑健な音声認識装置及び当該音声認識装置を含む、音声によって動作可能な装置に関する。
コンピュータ技術の発展に伴い、種々の装置にコンピュータが組み込まれるようになっている。コンピュータそのものがプログラムによって様々な動作が可能であるという特徴を持つため、コンピュータを組み込んだ装置の機能も、ますます多彩になっている。
しかし、装置の機能が複雑化するに伴い、その操作も複雑化するという問題がある。例えば、DVD(Digital Versatile Disc)の再生装置は、単にDVDの再生に留まらず、地上波放送、衛星放送、ケーブルテレビジョン放送のいずれかを選択してテレビジョンに中継したり、放送される番組をハードディスクに録画しつつ再生したり、録画予約にしたがって放送番組を録画したり、という多彩な作業を行なう。したがってこうした装置を操作するためのユーザインタフェースも非常に複雑となる。例えばDVDの再生装置の場合、ボタンが70以上になるものも存在する。装置が多機能化するにしたがいこうした問題はさらに大きくなる。したがって、こうした装置ではユーザインタフェースをいかにして簡単なものにするかという問題がある。
こうした問題に対する一つの答えが音声を用いたユーザインタフェースである。もともと人間の間のコミュニケーションの大部分は音声を用いて行なわれている。もしも種々の装置が人間と同様、音声を用いて人間との相互対話をすることが可能になれば、ユーザインタフェースは非常に簡単なものになることが期待できる。
音声を用いたユーザインタフェースの重要な要素に、音声認識技術がある。音声認識において問題となるのは、その認識精度である。現在のところ、音声認識の一部には、音声認識に適した一定の環境下では十分な認識精度を示すものがある。例えば利用者がヘッドセットを装着して発声した音声に対する音声認識では高い認識精度を示すものがある。しかし、日常生活に用いられる装置を操作する場合、一々ヘッドセットを装着するのは煩雑である。ヘッドセットを用いずに音声認識を行なうと、現在の技術では、環境雑音の影響などにより認識精度が大きく落ちてしまい、事実上、実用にならないという問題点がある。
ところで、音声認識の最終目標は、大語彙の自由発声を正確に認識することであろう。しかし、装置の操作では、必ずしも自由発声を認識する必要はない。例えばカーナビゲーションシステムでは、行先の地名又は施設名、及び装置に対するコマンドが正確に認識できればよい。これらは、大語彙で正確な音声認識が期待されているシステムということができる。
しかし、期待される音声認識のレベルはこれ以外にも様々なものがある。例えば、誤認識をするがそれを自覚する音声認識装置が考えられる。この場合、聞き返しなどの応答を行なうことができるので、人間に近いインターフェースを実現できる可能性がある。さらに、小語彙でも確実に音声認識を行なうことさえできればよいシステムも考えられる。例えば、ごく限られたコマンド、例えば「電源オン」及び「電源オフ」というコマンドのみを確実に認識できるようなシステムが考えられる。こうしたシステムは小型化が可能で、かつ生産コストも非常に小さくできる可能性がある。こうしたシステムを例えば家電製品の電源部分に組込むことにより、あらゆる装置の電源のオン及びオフを音声で操作できるようになることが期待できる。
特開2005-62572号公報
しかし、こうした応用で問題となるのは、雑音である。大語彙にせよ小語彙にせよ、音声認識システムに入力される音声信号に雑音が重畳されていると、その認識精度は大きく低下することが知られている。定常的な雑音についてはそれを予測する技術が開発されているが、非定常的な雑音を排除するための有効な技術は存在していない。家電製品等で音声認識による操作を実現するためには、このような突発的な雑音に対しても頑健な音声認識装置を実現することが重要である。また、そうした音声認識装置を種々の装置に組み込むためには、音声認識装置を容易に小型化できる必要がある。
したがって、本発明の目的は、突発的な雑音に対しても頑健に音声認識を行なうことができる音声認識装置、及びそのような音声認識装置を使用したインターフェースを有する装置を提供することである。
本発明の他の目的は、突発的な雑音に対しても頑健に音声認識を行なうことができる、小型化が可能な音声認識装置、及びそのような音声認識装置を使用したインターフェースを有する機器を提供することである。
本発明の第1の局面に係る音声認識装置は、与えられる音声信号をフレーム化し、各フレームから所定の音響特徴量を抽出して音響特徴量の系列を出力するための音響特徴量抽出手段と、音響特徴量抽出手段により出力された音響特徴量の系列に基づいて、音声信号中の繰返発声部分を音声認識し、当該繰返発声を構成する発声単位を出力するための繰返発声認識手段とを含む。
音響特徴量抽出手段は、音声信号をフレーム化し、各フレームから所定の音響特徴量を抽出することで音響特徴量の系列を出力する。繰返発声認識手段は、この音響特徴量の系列に基づいて、音声信号中の繰返発声部分を音声認識する。そして、音声認識された繰返発声を構成する発声単位を出力する。繰返発声は、日常会話では発生頻度が低いため、特定の語彙を、日常会話の中で誤って認識する危険性を小さくできる。
好ましくは、繰返発声認識手段は、所定の統計的音響モデルを格納するための音響モデル格納手段と、各々、所定回数繰返された単語からなる1又は複数の繰返単語を格納したコンピュータ読取可能な辞書を格納するための辞書格納手段と、音響特徴量抽出手段から出力される音響特徴量の系列を受け、音響モデル格納手段に格納された統計的音響モデルと、辞書格納手段に格納された辞書とを用い、辞書内の1又は複数の繰返単語の内から、音響特徴量抽出手段から与えられる音響特徴量の系列により算出される尤度が最も高いものを選択し、当該繰返単語を構成する単語を出力するための単語出力手段とを含む。
辞書は1又は複数の繰返単語を格納している。この繰返単語は、所定回数繰返された単語からなっている。こうした辞書と統計的音響モデルとを用いて尤度計算を行なうことにより、入力される音響特徴量の系列に対応する可能性のある繰返単語のみが選択され、その中で尤度が最も高いものが出力される。辞書の構成を変化させるだけで、既存の音声認識装置の構成をそのまま用い、特定の語彙を日常会話の中で誤って認識する危険性を小さくできる。
好ましくは、単語出力手段は、音響特徴量抽出手段から出力される音響特徴量の系列と、音響モデル格納手段に格納された統計的音響モデルと、辞書格納手段に格納された辞書とを用い、辞書内の複数の繰返単語の内から、音響特徴量抽出手段から与えられる音響特徴量の系列により表される尤度が最も高いものを選択するための繰返単語選択手段と、繰返単語選択手段が選択した繰返単語の尤度が所定のしきい値より大きいか否かを判定し、しきい値より大きな尤度を持つ繰返単語を構成する単語を出力するための判定手段とを含む。
繰返単語選択手段が選択する繰返単語であっても尤度が所定のしきい値より大きくなければ、単語は出力されない。尤度計算の結果、繰返単語である可能性が低い場合に、誤って繰返単語が検出されてしまう危険性を排除できる。
好ましくは、繰返発声認識手段は、所定の統計的音響モデルを格納するための音響モデル格納手段と、1又は複数の単語を格納したコンピュータ読取可能な辞書を格納するための辞書格納手段と、音響特徴量抽出手段から出力される音響特徴量の系列に対し、音響モデル格納手段に格納された統計的音響モデルと、辞書格納手段に格納された辞書とを用いた音声認識を行ない、認識結果を出力するための音声認識手段と、音声認識手段により、同一単語が連続して出力されたことに応答して、当該単語を音声認識結果として出力するための手段とを含む。
通常の構成の音声認識手段を用い、同一の単語が2回認識結果として出力されると、その単語が音声認識結果として出力される。通常の構成の音声認識手段を用い、繰返発声を構成する単語を確認することができる。
より好ましくは、繰返発声認識手段はさらに、辞書に格納された語彙よりも少ない数の、予め定められた特定単語のみを記憶した特定単語記憶手段と、出力するための手段が出力する音声認識結果が特定単語記憶手段に格納されているか否かを判定し、格納されている場合のみ当該音声認識結果の出力を許容するための手段とを含む。
音声認識手段での音声認識には比較的大語彙の辞書を用いるので、音声認識の精度を高くすることができる。さらに、得られた音声認識結果のうち、特定単語記憶手段に記憶された特定単語のみが音声認識結果として出力されるので、特定単語以外の単語が偶然繰返された場合に、そうした単語を出力から排除することができる。その結果、誤認識が少なく、かつ偶発的な繰返発声を誤って許容してしまうことが防止できる。
好ましくは、繰返発声認識手段は、音響特徴量抽出手段から出力された音響特徴量の系列の内で、連続した第1及び第2の音響特徴量系列からなるセグメント対であって、互いの相関を表す予め定められた相関尺度が所定値よりも高いセグメント対を検出し、当該セグメント対を構成する各セグメント内の音響特徴量系列の間の対応関係を特定するためのセグメント対検出手段と、セグメント対検出手段により検出されたセグメント対を互いに統合することにより、一つの統合セグメントを構成する統合音響特徴量の系列を生成するための統合手段と、所定の統計的音響モデルを格納するための音響モデル格納手段と、1又は複数の単語を格納したコンピュータ読取可能な辞書を格納するための辞書格納手段と、統合手段により生成された統合音響特徴量の系列に対し、音響モデル格納手段に格納された統計的音響モデルと、辞書格納手段に格納された辞書とを用いた音声認識を行ない、認識結果を出力するための音声認識手段とを含む。
セグメント対検出手段は、音響特徴量抽出手段から出力された音響特徴量の系列の内で、連続した第1及び第2の音響特徴量系列からなるセグメント対であって、互いの相関を表す予め定められた相関尺度が所定値よりも高いセグメント対を検出する。セグメント対検出手段はさらに、当該セグメント対を構成する各セグメント内の音響特徴量系列の間の対応関係を特定する。統合手段は、こうして得られた二つのセグメント対を互いに統合し、一つの統合セグメント対を構成する統合音響特徴量の系列を生成する。こうして得られた統合音響特徴量の系列に対し、音声認識手段が通常の音声認識を行なう。統合音響特徴量の系列に対する音声認識は、通常の構成の音声認識手段を用いて行なうことができる。したがって、繰返発声を構成する単語を、容易に準備可能な音声認識手段を用いて認識することができ、その際の誤認識の可能性を低くすることができる。
好ましくは、統合手段は、セグメント対検出手段により検出されたセグメント対において、互いに対応付けられたフレーム同士のパワースペクトルの間で、周波数ビンごとに最小値をとることにより、統合後のセグメントのパワースペクトル系列を生成するための最小値選択手段と、最小値選択手段により生成されたパワースペクトル系列から、音声認識手段のための統合音響特徴量の系列を生成して音声認識手段に与えるための手段とを含む。
統合手段は、セグメント対で互いに対応付けられたフレーム同士のパワースペクトルにつき、周波数ビンごとに最小値をとることによって、統合後のセグメントのパワースペクトル系列を生成する。このパワースペクトル系列から得られた音響特徴量に対し、音声認識を行なう。繰返発声の途中に突発的なノイズが混入した場合、その時点でのパワースペクトルはノイズのない場合と比較して確実に大きくなる。繰返発声の、対応するフレーム同士において、パワースペクトルの最小値の方をとって新たなパワースペクトル系列を作成する際には、ノイズが含まれているフレームからのパワースペクトルが捨てられる可能性が高い。したがって、ノイズの影響を除去し、確実に音声認識を行なうことができる。
好ましくは、最小値選択手段は、セグメント対検出手段により検出されたセグメント対において、互いに対応付けられたフレーム同士のパワースペクトルを包絡と微細構造とに分離するための分離手段と、分離手段により分離された包絡の間で、周波数ビンごとに最小値をとることにより、パワースペクトルの包絡を統合するための包絡統合手段と、包絡統合手段により出力されたパワースペクトルの包絡と所定の音源信号とを畳み込むことにより、パワースペクトルを生成し、さらに当該パワースペクトルから音声認識装置のための音響特徴量を抽出するためのパワースペクトル生成手段とを含む。
パワースペクトルは、パワースペクトルの包絡に、音源により規定される基本周波数の整数倍の周波数にピークを持つ微細構造が重畳された形状を持っている。したがって、対応するフレームのパワースペクトルの最小値を周波数ビンごとにとってスペクトルを統合すると、微細構造の谷の部分が優先的に選択され、その結果得られるパワースペクトルの包絡形状が、元の繰返発声から得られるパワースペクトルの包絡形状と大きく異なる場合があり得る。そうした場合には、音声認識の結果の信頼性が低下する。そこで、対応するフレーム同士のパワースペクトルを、それぞれ包絡と微細構造とに分離し、包絡のみに対し、上記したような最小値を選択する処理を行なう。この構成により、微細構造の谷を選択することによる包絡形状の変化がなくなり、音声認識の精度を向上させることができる。
好ましくは、パワースペクトル生成手段は、包絡統合手段により出力されたパワースペクトルの包絡と、分離手段により分離された微細構造のうちで、包絡統合手段により選択されたビン数の多い方の包絡に対応する微細構造とを畳み込むことにより、パワースペクトルを生成し、さらに当該パワースペクトルから音声認識装置のための音響特徴量を抽出するための手段を含む。
スペクトル包絡を統合した後、音源信号との畳み込みを行なう。この畳み込みには、スペクトル包絡の統合において選択されたビン数の多い方の包絡に対応する微細構造を用いることにより、元の繰返発声を構成する発声単位の音響特徴量をより適切に再現できる。その結果、音声認識結果の精度をさらに上げることが可能になる。
好ましくは、最小値選択手段は、セグメント対検出手段により検出されたセグメント対において、互いに対応付けられたフレーム同士のパワースペクトルから包絡を分離するための分離手段と、分離手段により分離された包絡の間で、周波数ビンごとに最小値をとることにより、パワースペクトルの包絡を統合するための包絡統合手段と、包絡統合手段により出力された包絡から音声認識装置のための音響特徴量を抽出するための手段とを含む。
パワースペクトルは、パワースペクトルの包絡に、音源により規定される基本周波数の整数倍の周波数にピークを持つ微細構造が重畳された形状を持つ。したがって、対応するフレームのパワースペクトルの最小値を周波数ビンごとにとってスペクトルを統合すると、微細構造の谷の部分が優先的に選択され、その結果得られるパワースペクトルの包絡形状が、元の繰返発声から得られるパワースペクトルの包絡形状と大きく異なる場合があり得る。そうした場合には、音声認識の結果の信頼性が低下する。そこで、対応するフレーム同士のパワースペクトルから包絡を分離し、包絡のみに対し、上記したような最小値を選択する処理を行なう。この構成により、微細構造の谷を選択することによる包絡形状の変化がなくなり、音声認識の精度を向上させることができる。
好ましくは、セグメント対検出手段は、音響特徴量抽出手段から与えられた音響特徴量の系列の内に見出される発声区間内の、所与の第1の部分及び第2の部分にそれぞれ含まれるフレームの音響特徴量をDPマッチングして得られるDP距離を出力するためのDPマッチング手段と、発声区間内の所定の中間点より前に始点を持つ第1の部分と、第1の部分の始点より後に始点を持ち、発声区間内の所定の中間点より後に終点を持つ第2の部分との組合せのうちで、DPマッチング手段によって得られるDP距離が最も小さくなるような第1の部分及び第2の部分を特定し、各部分に含まれる音響特徴量の系列をそれぞれ第1のセグメント及び第2のセグメントとして出力するためのセグメント対出力手段とを含む。
発声区間の所定の中間点より前に始点を持つ第1の部分と、第1の部分の始点より後に始点を持ち、発声区間内の所定の中間点より後に終点を持つ第2の部分との組合せのうちで、互いの間のDP距離を最も小さくするような第1の部分と第2の部分とがセグメント対出力手段により選ばれ、そのときにDPマッチング手段により算出されるDP距離が出力される。繰返発声を構成する発声区間として可能性の高い区間がDPマッチングにより決定できる。
好ましくは、セグメント対検出手段は、音響特徴量抽出手段から与えられた音響特徴量の系列の内に見出される発声区間内の、所与の第1の部分及び第2の部分にそれぞれ含まれるフレームの音響特徴量をDPマッチングし、得られるDP距離を出力するためのDPマッチング手段と、発声区間内の所定の中間点より前に始点を持つ第1の部分と、第1の部分の始点より後に始点を持ち、発声区間内の所定の中間点より後に終点を持つ第2の部分との組合せのうちで、DPマッチング手段によって得られるDP距離が最も小さくなるような第1の部分及び第2の部分を特定し、各部分に含まれる音響特徴量の系列をそれぞれ第1のセグメント及び第2のセグメントとして出力するためのセグメント対出力手段と、セグメント対出力手段により出力されるセグメント対に含まれる各フレームのうち、DPマッチング手段によって互いに対応付けられたフレームとの間のDP距離が所定のしきい値より大きなフレームを音声認識手段による音声認識の対象から除外する処理を行なうための手段とを含む。
DPマッチング手段によって互いに対応付けられたフレームのうち、対応するフレームとの間のフレーム間DP距離が所定のしきい値より大きなフレーム対は、互いにかなり異なっており、両者にノイズが混入していたり、対応付けがうまくできていなかったりする可能性が高い。こうした部分を音声認識の対象から除外することで、音声のうち、より信頼性の高い部分のみを用いて音声認識を行なうことができる。
好ましくは、繰返発声認識手段は、音響特徴量抽出手段から与えられた音響特徴量の系列の内で、連続した第1及び第2の音響特徴量系列からなるセグメント対であって、互いの相関を表す予め定められた相関尺度が所定値よりも高いセグメント対を検出し、当該セグメント対を構成する各セグメント内の音響特徴量系列の間の対応関係を特定するためのセグメント対検出手段と、所定の統計的音響モデルを格納するための音響モデル格納手段と、1又は複数の単語を格納したコンピュータ読取可能な辞書を格納するための辞書格納手段と、セグメント対検出手段から第1及び第2の音響特徴量系列からなるセグメント対を入力として受け、当該第1及び第2の音響特徴量系列に対し、音響モデル格納手段に格納された統計的音響モデルと、辞書格納手段に格納された辞書とを用い、辞書内の1又は複数の単語の内から、第1及び第2の音響特徴量系列により表される尤度が最も高いものを選択して出力するための2入力音声認識手段とを含み、2入力音声認識手段は、第1及び第2の音響特徴量系列のうち、互いに対応するフレームから得られた音響特徴量に対し、各音素について統計的音響モデルから得られた尤度の最大値を用いて各音素の尤度計算を行なうことにより、辞書内の各単語の尤度を計算して音声認識を行なう。
2入力音声認識手段は、第1及び第2の音響特徴量系列に対する音声認識を行なって単一の音声認識結果を出力する。この音声認識の際には、2入力音声認識手段は、各音素に対する尤度計算において、第1及び第2の音響特徴量系列のうち、互いに対応するフレームから得られた尤度の最大値を用いる。互いに対応すると思われる二つの音響特徴量系列の各フレームの一方にノイズが重畳している場合、そのフレームに対して各音素につき音響モデルから算出される尤度は小さくなる可能性が非常に高い。したがって、大きな方の値を採用して尤度計算を行なうことにより、ノイズの影響を除去した音声認識を行なうことができる。このようなことが可能なのは、繰返発声を入力として採用したためである。
本発明の第2の局面に係る装置は、所定の機能を実行するための機能部を有し、音声入力にしたがった処理を実行する音声動作可能な装置であって、音声を電気信号である音声信号に変換するための変換手段と、変換手段の出力する音声信号を入力として受けるように接続された、上記したいずれかの音声認識装置と、音声認識装置の出力する音声認識結果をコマンドとして解釈し、当該コマンドに対応する機能を実行するように機能部を制御するための機器制御手段とを含む。
本発明の第3の局面に係る音声認識プログラムは、記憶手段と、音声入力装置が接続可能な入出力装置と、所定のプログラムを実行することにより記憶手段と入出力装置とを制御する処理を行なうための処理手段とを含むコンピュータによって実行されるプログラムであって、当該コンピュータを、音声入力装置から与えられる音声信号に対して、上記したいずれかの音声認識装置として動作させる。
以下、本発明に係る音声認識装置の実施の形態について説明する。以下の説明において、同じ部品には同じ参照符号を付してある。それらの名称及び機能も同一である。したがって、それらについての詳細な説明は繰返さない。
なお、以下の説明では、音声認識装置を組み込んだ装置の機能については特に具体的には述べないが、音声認識の結果得られた文字列を解釈する機能を持つ装置であれば、どのようなものにでも本願発明が適用可能であることはいうまでもない。また、以下に説明する各実施の形態では、音声認識により「コマンド」を入力することとしているが、ここでいう「コマンド」とは、いわゆる動作を指定するためのものだけでなく、カーナビゲーションにおいて目的地を指定する地名、音楽の再生装置であれば再生すべき曲名等も含む概念である。
さらに、本明細書で「パワースペクトル」という場合、特に断らない限り、通常は「対数パワースペクトル」のことを指す。フレーム化された波形データにFFT処理を施すことで当該フレームのパワースペクトルが得られ、さらにパワースペクトルを対数化することで対数パワースペクトルが得られる。以下の説明では、フレーム化された波形データにFFT処理を行なう際には、その出力に同時に対数化も行ない、対数パワースペクトルが出力されるものとする。
このように本明細書で「パワースペクトル」は「対数パワースペクトル」のことを指す関係上、以下の説明で「スペクトル包絡」と「微細構造」との間の畳み込みと呼ぶ処理は、実際には、対数パワースペクトルの包絡と、微細構造の対数パワースペクトルとの間の加算処理となる。
また、当業者であれば容易に理解できるように、以下に述べる各実施の形態の装置は、実質的にはコンピュータと同様のハードウェアを含み、これらハードウェアで所定のプログラムを実行することによりその機能が実現される。
[第1の実施の形態]
−構成−
図1に、本発明の第1の実施の形態に係る音声認識を汲み込んだ機器50のブロック図を示す。図1を参照して、機器50は、マイクロフォン60と、マイクロフォン60から与えられる音声信号に対する音声認識を行ない、機器50に対するコマンドであれば当該コマンドを示す情報を出力するためのコマンド認識部62と、コマンド認識部62がコマンドを示す情報を出力したことに応答して、機器50内の図示しない機能ブロックを制御し、当該コマンドに対応する処理を実行させるための機器制御部64とを含む。機器制御部64はさらに、利用者が機器50に対する操作を行なう際に使用する、図示しない表示装置、スピーカ、及びボタン等を有する操作部66を含む。
−構成−
図1に、本発明の第1の実施の形態に係る音声認識を汲み込んだ機器50のブロック図を示す。図1を参照して、機器50は、マイクロフォン60と、マイクロフォン60から与えられる音声信号に対する音声認識を行ない、機器50に対するコマンドであれば当該コマンドを示す情報を出力するためのコマンド認識部62と、コマンド認識部62がコマンドを示す情報を出力したことに応答して、機器50内の図示しない機能ブロックを制御し、当該コマンドに対応する処理を実行させるための機器制御部64とを含む。機器制御部64はさらに、利用者が機器50に対する操作を行なう際に使用する、図示しない表示装置、スピーカ、及びボタン等を有する操作部66を含む。
コマンド認識部62は、マイクロフォン60から音声信号を受け、音声を所定窓長で所定間隔のフレームにフレーム化するためのフレーム化処理部80と、フレーム化処理部80の出力する各フレームから、音声認識のための所定の特徴量を抽出するための特徴抽出部82と、特徴抽出部82がフレームごとに出力する特徴量の系列に基づき、音声認識を行ない、得られた仮説をその尤度とともに出力するための音声認識処理部84と、音声認識処理部84が音声認識の際に使用する、予めコンピュータ読取可能な形式で準備された隠れマルコフモデル(HMM)により構成された音素モデルを多数含む音響モデル88を記憶するための記憶装置と、音声認識処理部84が音声認識の際に使用する、機器50に対するコマンドを示すテキスト文字列(以下「コマンド文字列」と呼ぶ。)を予め格納した辞書90と、音声認識処理部84が出力する尤度が所定のしきい値より高いか否かを調べることにより、音声認識処理部84が出力する仮説を採用するか棄却するかを判定するため判定部86とを含む。
以下の説明では、「系列」というときには、一連のフレームにおいて、フレームごとに算出されるある値(又はベクトル)によって生成される一連の値(又はベクトル)の並びのことをいう。
なお、機器50においては、利用者が一連の作業をコマンドとして登録できることが想定されている。そのためにコマンド認識部62は、操作部66に接続され、操作部66を用いて利用者が入力するコマンド文字列に対し、当該コマンド文字列を二度繰返した文字列を生成して辞書90に登録する機能を持つ辞書登録部92をさらに含む。
本実施の形態に係るコマンド認識部62の特徴は、辞書90に登録されたコマンド文字列が、機器制御部64に与えるコマンドを二度発声したものである点である。すなわち、コマンド認識部62は、同じ単語を二度発声したものをコマンドとして認識し、そのコマンドを機器制御部64に与える機能を持つ。具体的には、判定部86が、仮説を採用する際には仮説の前半部のみをコマンドとして出力する。利用者は、あるコマンドを機器50に対し与えるときには、そのコマンドを二度発声する必要がある。このように同じ内容を二度発声することを、以下「繰返発声」と呼ぶ。なお、以下の説明から容易に理解できるように、同じ単語を三度以上繰返して発声したものをコマンドと認識することも可能である。
一般家庭で用いられる機器の場合、様々な人間の会話及び周囲の雑音が絶え間なく音声として入力されてくる。周囲の雑音の中には、テレビジョン放送からの音声も考えられる。そうした様々な発声の中から特定のコマンドを抽出することは、通常はきわめて困難である。
ところが、日常会話の中で繰返発声が発生する頻度は低い。したがって、繰返発声を検出したときにのみ、それをコマンドと解釈することにより、誤動作を極めて少なくできる可能性が高い。本実施の形態では、そのために、予め辞書90には、機器50で利用可能なコマンド文字列を二度繰返した文字列のみを登録しておく。
図2に、辞書90に登録されている単語列の構成をグラフ形式で示す。図2を参照して、辞書90に登録されている単語列では、発声の始点100と終点102との間に、同じ単語が連続した経路(単語104及び106からなる経路、単語108及び110からなる経路、並びに単語112及び114からなる経路等)のみが想定されている。図2において、単語104及び106、単語108及び110、並びに単語112及び114はそれぞれ互いに同一の単語対であり、かつこれらを構成する個々の単語は、いずれも機器50で利用可能なコマンドを示す文字列である。
本実施の形態では、特徴抽出部82が音声信号の各フレームから抽出する音響特徴量は各フレームの音声のパワースペクトルから算出されるMFCC(Mel−Frequency Cepstrum Coefficients)である。
音響モデル88は、HMMにより構成された音素モデルからなる。各音素モデルは、与えられる特徴量の系列が各音素に対応する確率を示す尤度を算出するために用いられる。
音声認識処理部84は、特徴抽出部82から与えられる特徴量の系列について、音響モデル88を用いた尤度計算を行なって音声認識結果の仮説を生成する機能を持つ。音声認識処理部84はさらに、こうして得られた仮説を辞書90と照合することによって、辞書90に登録されているものと同じ仮説が得られれば、当該仮説をその尤度とともに音響モデル86に出力する機能を持つ。特徴抽出部82が処理するのは、所定数のフレームから得られた特徴量の系列である。特徴抽出部82は、所定数のフレームに対しこの処理を行なっても辞書90に登録された文字列からなる仮説が得られなければ、フレーム位置を移動させて同じ処理を実行する。
−動作−
図1を参照して、本実施の形態に係る機器50は以下のように動作する。学習済みの音響モデル88が予め準備されるものとする。また、辞書90についても予め機器50の提供者により準備されているものとする。
図1を参照して、本実施の形態に係る機器50は以下のように動作する。学習済みの音響モデル88が予め準備されるものとする。また、辞書90についても予め機器50の提供者により準備されているものとする。
マイクロフォン60は、音声を電気信号(音声信号)に変換しフレーム化処理部80に与える。
フレーム化処理部80は、この音声信号を所定長及び所定のシフト長でフレーム化し、特徴抽出部82に与える。
特徴抽出部82は、フレーム化処理部80から与えられる各フレームに対し、そのパワースペクトルを算出し、さらにパワースペクトルからMFCCを音響特徴量として算出する。特徴抽出部82は、各フレームに対し算出された音響特徴量を、各フレームについての音響特徴量ベクトルという形式で音声認識処理部84に与える。
音声認識処理部84は、与えられたフレームごとの音響特徴量ベクトルからなる系列を用い、音響モデル88を用いた尤度計算を行なって、尤度の高い音素列の系列を算出する。これらのうちで辞書90に登録された文字列と一致するものがあれば、音声認識処理部84はその文字列を仮説としてその尤度とともに判定部86に出力する。一致するものがなければ、音声認識処理部84は次のフレームの音響特徴量ベクトルの入力を待って、同様の処理を繰返す。
判定部86は、音声認識処理部84から仮説とその尤度とが与えられると、尤度を所定のしきい値と比較する。もしも尤度がしきい値より高ければ、判定部86は仮説がコマンドを示すものであると判定し、仮説の前半部の文字列をコマンドとして機器制御部64に与える。
機器制御部64は、コマンド文字列が与えられると、当該コマンド文字列により定められる処理を実行するよう、機器50内の各機能ブロック(図示せず)を制御する。
利用者が辞書90にコマンドを登録する際には、以下のような処理が行なわれる。利用者は、操作部66を用いて辞書登録部92にコマンド登録処理を実行させる。コマンド登録処理では、コマンド文字列と、そのコマンドにより実行すべき処理とが操作部66を用いた操作により特定される。辞書登録部92は、入力されたコマンド文字列を自動的に二度繰返して新たな文字列を作成し、辞書90に登録する。辞書登録部92はまた、機器制御部64がこのコマンドを実行できるよう、入力されたコマンド文字列(繰返し前)と、対応する処理を特定する情報とを、機器制御部64がコマンド実行の際に参照する利用者コマンド辞書(図示せず)に登録する。
機器制御部64は、判定部86から与えられるコマンド文字列が機器制御部64の本来のコマンド以外のコマンド文字列であれば、この利用者コマンド辞書の中で当該コマンド文字列を検索し、対応する処理を実行する。
以上のように本実施の形態によれば、コマンドを二度繰返すことで、機器50が音声認識によってコマンドを検出する。日常会話には、同じ文字列を二度繰返す場面が少ないため、日常会話がコマンドとして誤認識される可能性は低い。その上、仮にコマンド以外の繰返発声が発生したとしても、辞書90に登録されているコマンドのみがコマンドとして認識されるため、誤認識の可能性はさらに低くなる。また、利用者がコマンドを登録する際に、入力されたコマンド文字列を自動的に繰返して新たな文字列を生成し、辞書90に登録する機能を持たせた。その結果、利用者が辞書90にコマンドを登録する際に、わざわざ同じ文字列を二度入力する必要がない。したがって機器50の機能を容易に拡張することができる。
[第2の実施の形態]
−構成−
第1の実施の形態では、コマンド文字列を繰返した文字列を辞書90に登録し、音声認識では辞書90に登録された単語のみを仮説として出力している。しかし本発明はそのような実施の形態には限定されない。第1の実施の形態のように限定された語彙だけではなく、大語彙の音声認識を利用すると、会話中の単語の認識を同時に行なうこともできるため、応用が広がる可能性がある。それだけではなく、大語彙の音声認識を行なうことにより、個々の単語の認識精度も向上する可能性が高い。そこで本実施の形態では、大語彙音声認識を利用して上記したコマンド検出を行なう。
−構成−
第1の実施の形態では、コマンド文字列を繰返した文字列を辞書90に登録し、音声認識では辞書90に登録された単語のみを仮説として出力している。しかし本発明はそのような実施の形態には限定されない。第1の実施の形態のように限定された語彙だけではなく、大語彙の音声認識を利用すると、会話中の単語の認識を同時に行なうこともできるため、応用が広がる可能性がある。それだけではなく、大語彙の音声認識を行なうことにより、個々の単語の認識精度も向上する可能性が高い。そこで本実施の形態では、大語彙音声認識を利用して上記したコマンド検出を行なう。
図3に、この第2の実施の形態に係る機器130のブロック図を示す。図3を参照して、機器130は、マイクロフォン60と、マイクロフォン60の出力する音声信号に対し、大語彙音声認識を行ない、その結果を用いてコマンドの検出を行なうためのコマンド認識部140と、コマンド認識部140により認識されたコマンドを実行するための機器制御部64と、図1に示すものと同様の操作部66とを含む。
コマンド認識部140は、図1に示すものと同様のフレーム化処理部80、特徴抽出部82、及び音響モデル88を含む。コマンド認識部140はさらに、日常会話の認識にも用いられる大語彙辞書152と、特徴抽出部82から与えられる音響特徴量の系列に対し、音響モデル88及び大語彙辞書152を用いた大語彙音声認識を行ない、音声認識された単語の仮説を出力するための音声認識処理部150と、音声認識処理部150が認識の結果出力する仮説を記憶するための認識結果記憶部154と、認識結果記憶部154に記憶された、音声認識処理部150により一つ前に出力された仮説と、音声認識処理部150が現在の音声認識処理の結果出力する仮説とを比較し、両者が同一のときに当該仮説を出力するための比較部156とを含む。
コマンド認識部140はさらに、予め準備された、機器130で利用可能なコマンドを示すコマンド文字列を格納した辞書160と、比較部156が出力する仮説が辞書160に格納されているか否かを判定し、格納されている場合のみコマンド認識部140の出力として許容し、当該仮説を機器制御部64に与えるための判定部158とを含む。
本実施の形態でも、辞書160に対する新たなコマンドの登録が可能であることが想定されている。そのためにコマンド認識部140はさらに、操作部66及び辞書160に接続され、操作部66を用いて利用者が入力するコマンド文字列と、当該コマンドに対応する処理を特定する情報とを受け、コマンド文字列を辞書160に、処理を特定する情報を図示しない利用者コマンド辞書に、それぞれ登録するための辞書登録部162を含む。第1の実施の形態における辞書登録部92と異なり、辞書登録部162は、入力されるコマンド列を繰返さず、そのまま辞書160に登録する機能を持つ。さらに辞書登録部162は、入力されるコマンドが大語彙辞書152に登録されていない単語である場合には、そのコマンドを大語彙辞書152に登録する機能も持つ。
本実施の形態における音声認識で許容される単語列を、単語グラフ形式で図4に示す。図4を参照して、本実施の形態では、発声の始点170と終点172との間で、大語彙辞書152を用いた音声認識による仮説180、182、184などの自由な単語認識が許容される。さらに、その次の音声認識では、同様に先の認識時の終点172を新たな始点とし、終点174との間で自由な単語認識が許容される。この点で、音声認識の段階で既に二つの単語の繰返発声のみを許容する第1の実施の形態と相違する。
−動作−
第2の実施の形態に係る機器130は以下のように動作する。図3を参照して、マイクロフォン60は音声を音声信号に変換し、フレーム化処理部80に与える。フレーム化処理部80はこの音声信号をフレーム化し、特徴抽出部82に与える。特徴抽出部82は、フレームごとに所定の音響特徴量を抽出し、音声認識処理部150に与える。
第2の実施の形態に係る機器130は以下のように動作する。図3を参照して、マイクロフォン60は音声を音声信号に変換し、フレーム化処理部80に与える。フレーム化処理部80はこの音声信号をフレーム化し、特徴抽出部82に与える。特徴抽出部82は、フレームごとに所定の音響特徴量を抽出し、音声認識処理部150に与える。
音声認識処理部150は、この音響特徴量の系列に基づき、音響モデル88及び大語彙辞書152を用いた大語彙音声認識を行ない、音声認識結果の単語を仮説として出力する。比較部156は、音声認識処理部150から与えられた仮説と、認識結果記憶部154に記憶されている一つ前に認識された仮説とを比較する。両者が一致する場合、比較部156はその仮説の単語を判定部158に与える。判定部158は、与えられた単語が辞書160に登録されているか否かを判定する。判定部158は、単語が辞書160に登録されていればその単語をコマンドとして機器制御部64に与える。機器制御部64は、与えられたコマンドにしたがって機器130の各機能ブロック(図示せず)を制御する。判定部158は、単語が辞書160に登録されていなければ何もしない。
一方、比較部156は、比較が終了すると、認識結果記憶部154に対して音声認識処理部150の出力する認識結果を格納させる。
こうして、コマンド認識部140は、マイクロフォン60からの音声信号に対して大語彙音声認識を繰返し行なう。比較部156によって、認識された単語列の中に同じ単語が二回繰返された箇所があるか否かを検出する。もしあれば、その単語がコマンドかどうかを辞書160を用いて検証する。
大語彙音声認識を行なうので、機器130の機能を拡張する際にも、通常は辞書160の内容だけを変更すればよく、大語彙辞書152の内容を交換したりする必要はない。ただし、大語彙辞書152に登録されていない単語からなるコマンドを使用する場合には、そのコマンドを大語彙辞書152にも登録する必要がある。ただしこの登録は、辞書登録部162により、辞書160へのコマンドの登録と同時に行なわれるので、利用者が大語彙辞書152の内容を特に変更する必要はない。また、認識結果に対する検証も、認識結果記憶部154と、比較部156と、判定部158とで行なわれるため、誤動作の可能性も小さくなる。
[第3の実施の形態]
−構成−
第1の実施の形態では、音声認識の過程で繰返発声の検出も同時に行なっている。第2の実施の形態では、音声認識後に、繰返発声の検出を行なっている。この場合、音声認識を常に行なうことになり、処理負荷が高くなる。装置の小型化を図るためには、繰返発声を音声認識処理以前に検出し、繰返発声が検出された音声のみに対して音声認識を行なうようにすることが望ましい。第3の実施の形態は、そのような繰返発声の検出機能を持ち、さらに検出された繰返発声から、音声認識対象の音響特徴量の系列を一つだけ作成して音声認識し、その結果にしたがい、最初に検出された繰返発声がコマンドか否かを判定する。
−構成−
第1の実施の形態では、音声認識の過程で繰返発声の検出も同時に行なっている。第2の実施の形態では、音声認識後に、繰返発声の検出を行なっている。この場合、音声認識を常に行なうことになり、処理負荷が高くなる。装置の小型化を図るためには、繰返発声を音声認識処理以前に検出し、繰返発声が検出された音声のみに対して音声認識を行なうようにすることが望ましい。第3の実施の形態は、そのような繰返発声の検出機能を持ち、さらに検出された繰返発声から、音声認識対象の音響特徴量の系列を一つだけ作成して音声認識し、その結果にしたがい、最初に検出された繰返発声がコマンドか否かを判定する。
そのために、本実施の形態では以下のような考え方を採用する。図5を参照して、繰返発声を含む音声波形200が検出されたものとする。音声波形200が、1回目の発声の音声波形202と、2回目の発声の音声波形204とを含むものとする。本実施の形態では、1回目の発声の音声波形202と2回目の発声の音声波形204とを実質的に合成して合成波形206を作成し、合成波形206に対して音声認識を行なう。ただし、この処理は波形データに対して行なうのではなく、スペクトルデータに変換してから行なう。
図6に、第3の実施の形態に係る機器のブロック図を示す。なお、本実施の形態を含め、発明が主として関係するのはコマンド認識装置の部分のみであるから、コマンド認識装置のみについて説明することにし、このコマンド認識装置を含む機器のそれ以外の部分については、関連する部分について必要最小限の説明をするにとどめることとする。
図6を参照して、第3の実施の形態に係るコマンド認識装置210は、マイクロフォン60からの音声信号を受け、当該音声信号の波形中に存在する、繰返発声に相当する波形を検出し、その音声波形のデータをフレーム単位のスペクトル系列として出力し、あわせて、1回目と2回目との繰返発声の音声波形の位置をフレーム単位で特定するセグメント情報を出力するための繰返発声検出部220と、繰返発声検出部220により出力されるスペクトル系列とセグメント情報とを受け、1回目と2回目とのスペクトル系列を統合した統合後のスペクトル系列を作成し、さらに所定の音響特徴量の系列を出力するための繰返発声統合部222と、繰返発声統合部222により出力される音響特徴量の系列に対して音声認識を行ない、その結果を機器制御部64に対して出力するための音声認識処理部224とを含む。
図7は、図6に示す繰返発声検出部220のより詳細なブロック図である。図7を参照して、繰返発声検出部220は、マイクロフォン60からの音声信号を所定長及び所定シフト長でフレーム化しフレーム系列として出力するためのフレーム化処理部240と、フレーム化処理部240からフレーム系列を受け、各フレームから算出されるMFCCから構成される音響特徴量の系列と、各フレームから算出されるパワースペクトルの系列とを出力するための特徴抽出部242と、特徴抽出部242から出力される音響特徴量の系列の中に見出される発声区間のうち、中間点より前に始点を持つ第1の部分と、第1の部分の始点より後に始点を持ち、中間点より後に終点を持つ第2の部分とのDPマッチングを行ない、音響特徴量の系列間の類似度を示すDP距離が最小となるような第1の部分と第2の部分とを特定してそれぞれ第1の発声部分と第2の発声部分に定め、それぞれの発声部分のフレーム位置を示すセグメント情報と、両者の間のDP距離とを出力するためのDPマッチング処理部244と、DPマッチング処理部244からのDP距離を受け、このDP距離が所定のしきい値以下か否かを判定し、判定結果を示す信号を出力するための判定部246とを含む。
なお、DPマッチング処理部244は、後述するように、分割点の左右にそれぞれ所定数のマージンとなるフレームを想定し、DPマッチングの前半部と後半部とがこのマージン部分のフレームで互いに重なるようにしてマッチングを行なう。
判定部246から出力される判定結果信号は、本実施の形態ではDP距離がしきい値以下のときにHレベルを、それ以外のときにLレベルを、それぞれとるものとする。
繰返発声検出部220はさらに、特徴抽出部242からのパワースペクトルの系列と、DPマッチング処理部244からのセグメント情報とを一旦保持し、判定部246からの判定結果信号がHレベルのときには保持したパワースペクトルの系列とセグメント情報とを後段の繰返発声統合部222(図6参照)に出力し、それ以外のときには出力しない機能を持つバッファ248とを含む。
図8に、図7の特徴抽出部242のより詳細なブロック図を示す。図8を参照して、特徴抽出部242は、フレーム化処理部240の出力する各フレームの音声信号についてFFT変換処理を行なってパワースペクトルを出力するためのFFT処理部250と、FFT処理部250の出力するパワースペクトルからMFCCを算出するためのフィルタバンク252及びコサイン変換部254とを含む。FFT処理部250の出力するパワースペクトルは図7に示すバッファ248に与えられる。コサイン変換部254の出力するMFCCは図7に示すDPマッチング処理部244に与えられる。なお、FFT処理部250の出力するパワースペクトルは、前述のように対数パワースペクトルであり、ここでのフィルタバンク252は、対数パワースペクトルを入力とするものとする。
図9に、DPマッチング処理部244が行なうDPマッチング処理について示す。図9を参照して、音声波形200のうち、発声部分に関しては、その開始点260(以下この開始点を「点S」として説明することがある。)及び終了点262(以下この終点を「点E」として説明することがある。)は既存の発声部分検出技術を用いて特定される。以下、開始点260のフレーム番号をS、終了点262のフレーム番号をEとする。DPマッチング処理部244は、開始点Sと終了点Eとの間の中間付近に中間の分割点264を考え、分割点264のフレーム番号をM(以下、このフレームに対応する点を「中間点M」と呼ぶ。)とすると、α、βをいずれも0以上の整数として、区間S−(M+α)と区間(M−β)−Eという、(α+β)個のフレームだけ互いに重なりを持つ区間同士について、端点を固定しないDPマッチングを行ない、以下の式にしたがって最小のDP距離を与えるセグメント情報(S1,E1,S2,E2)を特定する。
判定部246は、DPマッチング処理部244から与えられるこのDP距離を所定のしきい値と比較する機能を持つ。
図10に、DPマッチング処理部244によりDPマッチングが行なわれた後の1回目の発声の音声波形202(図5参照)に対応するパワースペクトルベクトル系列270と、2回目の発声の音声波形204(図5参照)に対応するパワースペクトルベクトル系列272との対応関係の例を示す。図10を参照して、パワースペクトルベクトル系列270はフレーム280,282〜292(合計Nフレーム分とする。)のパワースペクトルベクトルを含み、パワースペクトルベクトル系列272はフレーム300,302〜314(合計Lフレーム分とする。)のパワースペクトルベクトルを含むものとする。
図10に示すように、本例においては、パワースペクトルベクトル系列270のフレーム280がパワースペクトルベクトル系列272のフレーム300及び302に対応し、フレーム282及び284がフレーム304に対応し、以下同様である。パワースペクトルベクトル系列270を基準として考えると、パワースペクトルベクトル系列270の各フレームには、パワースペクトルベクトル系列272の一つのフレームが対応する場合もあり得るし、複数のフレームが対応する場合もあり得るし、対応するフレームがない場合もあり得る。これらはDPマッチング処理によって決定される。
こうしてフレーム単位で互いに対応付けられたパワースペクトルベクトル系列270及びパワースペクトルベクトル系列272が、図6に示す繰返発声統合部222による統合処理320で一つのパワースペクトルベクトル系列330に統合される。パワースペクトルベクトル系列330は、本実施の形態の場合にはパワースペクトルベクトル系列270と同数(N個)のフレーム332〜338を含む。もちろん、統合後のフレーム数がL個となるようにしてもよい。
図6に示す繰返発声統合部222は、以下のようにしてパワースペクトルベクトル系列270及びパワースペクトルベクトル系列272を統合し、パワースペクトルベクトル系列330を得る。
繰返発声中に、突発性の雑音が発生したものとする。この場合、図11に示すように、繰返発声の音声波形350のうち、突発性雑音の発生部では、そのパワーが他の部分と比較して大きくなる。図11においては、突発性雑音はピーク352により示されている。
ところで、突発性雑音は、繰返発声のどちらか一方のみで発生することが大部分である。そしてこの場合、突発性雑音がある部分のパワースペクトルの値は、雑音がない場合と比較して大きな値となる。そこで、繰返発声の特徴量ベクトル列の間に図10に示すようなフレーム間の対応関係が特定された場合、それらフレームのパワースペクトル上で、周波数のビンごとに最小の値をとって新たなパワースペクトルを作成する。突発性雑音が発生した場合にはかならずそのパワースペクトル上でのパワーは雑音がない発声と比較して大きくなるので、このようにすることにより、雑音がない方の発声のパワースペクトルのみを使用して発声を統合できる。
統合処理について、図12を参照してさらに説明する。図12の上段は繰返発声の第1の発声のスペクトログラム、下段は第2の発声のスペクトログラムとする。上記した統合を実現するために、本実施の形態では、既に述べたように、まず二つの発声のフレーム同士の対応をとる。例えば第1の発声の時刻t1におけるフレームと、第2の発声の時刻t2におけるフレームとが互いに対応付けられたものとする。こうして対応付けられた各フレームのパワースペクトル上で、同一のビン(例えばk番目のビン356及び358)に着目する。このように、フレーム同士の対応付けとビンによる対応付けとにより、図12に示すように第1の発声のスペクトログラムと第2の発声のスペクトログラムとがそれぞれ格子状に分けられ、第1の発声の格子と、第2の発声の格子との間が対応付けられる。互いに対応する格子におけるパワーのうち、小さな値の方を、統合後の発声信号のスペクトログラム上の対応する格子におけるパワー、すなわち統合後の音声信号の、その時点に対応するフレームにおけるスペクトル上のk番目のビンのパワーとする。
統合後の発声のフレーム数を1番目の発声のフレーム数と同じとすると、以下の式により統合後の発声の時刻t1におけるフレームのk番目のビンのパワーY(t1,k)を算出する。
こうして得られた統合後のパワースペクトルベクトル列330から得られるMFCC特徴量ベクトルを用いて、図6に示す音声認識処理部224で音響モデル88と辞書90とを利用した通常の音声認識を行なうことにより、統合後のパワースペクトルベクトル列330からコマンドを認識することができる。
−動作−
図6〜図10に構成を示すコマンド認識装置210は以下のように動作する。図6を参照して、マイクロフォン60は、音声を音声信号に変換し、繰返発声検出部220に与える。
図6〜図10に構成を示すコマンド認識装置210は以下のように動作する。図6を参照して、マイクロフォン60は、音声を音声信号に変換し、繰返発声検出部220に与える。
図7を参照して、フレーム化処理部240は、この音声信号を所定長かつ所定シフト長でフレーム化し、特徴抽出部242に与える。
図8を参照して、特徴抽出部242のFFT処理部250は、与えられた各フレームの音声信号に対しFFT変換を行ない、得られたパワースペクトルを図7に示すバッファ248及び図8に示すフィルタバンク252に与える。フィルタバンク252及びコサイン変換部254は、FFT処理部250からのパワースペクトルに対するフィルタバンク処理及びコサイン変換処理を行なう。その結果、フレームごとにMFCCからなる音響特徴量ベクトルが得られる。コサイン変換部254は、この音響特徴量ベクトルを図7に示すDPマッチング処理部244に与える。
DPマッチング処理部244は、特徴抽出部242から与えられた音響特徴量ベクトルの系列に対し、図9に示すような開始点260及び終了点262、並びに分割点264を用い、かつα+βだけ重なりを持たせた条件で、繰返発声の前半部と後半部との間で端点を固定しないDPマッチングを行なうことにより、第1及び第2の発声のセグメント情報(S1,E1,S2,E2)を特定し、第1及び第2の発声から得られた音響特徴量ベクトルの系列間でのフレーム単位での対応付けを行なう。フレームの対応付けを示すセグメント情報は図7に示すバッファ248に与えられ、一時保持される。このときの音響特徴量ベクトルの系列間のDP距離は図7に示す判定部246に与えられる。
判定部246は、DPマッチング処理部244からのDP距離を受け、このDP距離が所定のしきい値以下か否かを判定する。判定部246は、DP距離がしきい値以下ならばHレベルの判定結果信号をバッファ248に与え、さもなければLレベルの判定結果信号をバッファ248に与える。
バッファ248は、判定部246からの判定結果信号がHレベルであればパワースペクトルの系列とDPマッチング処理部244からのセグメント情報とを図6に示す繰返発声統合部222に与える。判定結果信号がLレベルであれば、バッファ248は繰返発声統合部222に対して何も与えない。
図6を参照して、判定結果信号は繰返発声統合部222に対しても与えられている。仮に判定結果信号がLレベルであれば繰返発声統合部222は何もしない。判定結果信号がHレベルとなると、繰返発声統合部222は、図7に示すDPマッチング処理部244によるセグメント情報により示されるフレーム間の対応関係を用い、対応するフレームのパワースペクトルベクトルの周波数ビンごとの最小値をとることによってパワースペクトルを統合し、さらにこの統合後のパワースペクトル系列からMFCC系列を算出して音声認識処理部224に与える。
音声認識処理部224は、繰返発声統合部222から与えられたMFCC系列に対する音声認識処理を実行する。音声認識処理部224は、音声認識結果を機器制御部64に与える。機器制御部64は、音声認識結果として与えられた文字列をコマンド文字列として取り扱い、当該文字列によって指定されるコマンドを実行する。
本実施の形態では、予め繰返発声検出部220によって繰返発声の発生を検出し、その場合のみ繰返発声統合部222と音声認識処理部224とによる処理を行なう。負荷の高い音声認識処理が、繰返発声の検出された場合のみ実行されるので、通常は処理の負荷は高くなく、装置に過大な負担をかけるおそれが少なくなる。
また本実施の形態では、繰返発声のフレームごとの対応付けを行なった後、対応するフレームの第1及び第2の発声のパワースペクトル上の各ビンにおいて、いずれかパワーの小さなほうを採用して、繰返発声のパワースペクトルの統合を行なう。このパワースペクトルから得られる音響特徴量を使用して、音声認識を行なう。雑音が発生したフレームの、その雑音に起因するパワーが存在するビンにおいては、雑音による大きなパワーを持つ発声ではなく、雑音の生じなかった発声のパワーを用いて統合後のパワースペクトルが作成される。したがって、雑音の影響を排除した音響特徴量を用いて音声認識を行なうことができ、突発性の雑音に対しても頑健なコマンド認識を実現することができる。
[第4の実施の形態]
−構成−
上記した第3の実施の形態では、フレームごとの対応付けが可能であることを前提として発声の統合処理を行なっている。しかし、DPマッチングでは、フレームの対応付けが必ずしも明確に行なえない場合があり得る。例えば大部分のフレームについては対応付けができるが、残りの一部のフレームについては、対応が弱く、必ずしも対応しているといえないような場合である。こうした場合には、むしろそのように対応関係が弱いフレーム同士については、音声認識の過程で考慮しないようにする方が良い結果をもたらす、という考え方がある。そのような考え方を「ミッシングフィーチャー理論」(MFT)と呼ぶ。
−構成−
上記した第3の実施の形態では、フレームごとの対応付けが可能であることを前提として発声の統合処理を行なっている。しかし、DPマッチングでは、フレームの対応付けが必ずしも明確に行なえない場合があり得る。例えば大部分のフレームについては対応付けができるが、残りの一部のフレームについては、対応が弱く、必ずしも対応しているといえないような場合である。こうした場合には、むしろそのように対応関係が弱いフレーム同士については、音声認識の過程で考慮しないようにする方が良い結果をもたらす、という考え方がある。そのような考え方を「ミッシングフィーチャー理論」(MFT)と呼ぶ。
例えば、特許文献1にはMFTを用いた音声認識装置が開示されている。端的に言えば、MFTは、入力される音声信号のフレームのうち、雑音の混入等で信頼性が低いと思われるフレームについては、音声認識の際に音響モデルから算出される尤度を、全ての音素について同じとみなす。こうすることにより、信頼性が低いフレームを音声認識での考慮の対象から実質的に除外することができ、雑音の影響に対し頑健な音声認識を行なうことができる。
第3の実施の形態に係るシステムにMFTを適用するのは、比較的簡単である。すなわち、DPマッチングの際に、フレーム間の対応度が低いものについては、そのフレームの信頼性が低いと考える。繰返発声では、全く同じ発声が繰返されるわけではないが、人間が同一の発声をしようと意図しながら発声するのであるから、DPマッチングで多くの場合にはフレーム間の対応関係を付けることが可能と考えられる。そうした対応関係がうまく付けられないという現象には、何らかの原因があると考えられる。そうした原因として最も可能性の高いのは、繰返発声の一方において突発性の雑音が発生した場合である。したがって、DPマッチングの際にフレーム間の対応度が低いと考えられるフレームについては、信頼できないものとして音声認識で考慮しないものとする。そのための判定基準としては、DPマッチングにより最終的に選択された対応関係の中で、対応するフレーム間で算出されるDP距離(以下「フレーム間DP距離」と呼ぶ。)を用いるのが適切である。
本実施の形態では、繰返発声のフレーム同士の対応関係をDPマッチングによって求めた後、繰返発声の1番目の発声と2番目の発声とをそれぞれ別個に音声認識する。しかしDPマッチングの際に、対応するフレームとのフレーム間DP距離が所定のしきい値よりも大きなフレームについては、音声認識の際に考慮しないようにする。そして、それぞれ別個に音声認識された結果を比較して、発声がコマンドの繰返発声か否かを判定する。
図13に、第4の実施の形態に係るコマンド認識装置360のブロック図を示す。図13を参照して、このコマンド認識装置360は、繰返発声を検出するための繰返発声検出部370と、繰返発声検出部370により繰返発声が検出されたことに応答して、繰返発声の第1の発声部分と第2の発声部分のフレーム間の対応関係をDPマッチングにより付け、対応するフレームとのフレーム間DP距離が所定のしきい値よりも大きなフレームについては、ミッシングフィーチャーフレームとしてMFTフレームマークを付する処理を行なうためのMFTフレームマーキング部372と、MFTフレームマーキング部372から出力される、MFTフレームマークが付されたフレームを含む可能性のあるフレーム列(第1の発声と第2の発声とからそれぞれ得られた二つのフレーム列)に対してそれぞれMFTを用いた音声認識を行ない、第1の発声に対する音声認識結果と、第2の発声に対する音声認識結果とを出力するためのMFTによる音声認識処理部374とを含む。
コマンド認識装置360はさらに、音声認識処理部374が音声認識の際に使用する音響モデル88及び辞書90と、音声認識処理部374から出力される第1の発声に対する音声認識結果と第2の発声に対する音声認識結果とが互いに等しいか否かを判定し、両者が等しいときに、当該コマンドが利用者から与えられたものとして機器制御部64にそのコマンド文字列を与えるための判定部376を含む。
図14に、繰返発声検出部370のより詳細な構成をブロック図で示す。図14を参照して、繰返発声検出部370は、マイクロフォン60から与えられる音声信号を所定長及び所定シフト長でフレーム化するためのフレーム化処理部240と、フレーム化処理部240が出力するフレーム系列から、音響特徴量としてMFCC系列及びパワースペクトル系列を抽出するための特徴抽出部242と、特徴抽出部242により出力されるMFCC系列において、繰返発声の検出のためのDPマッチングを行ない、マッチングの結果にしたがって、MFCC系列の間のDP距離(フレーム間DP距離と区別するために、以下「系列間DP距離」と呼ぶ。)、MFCC系列内の第1及び第2の音声信号で対応付けられたフレームの関係を示すセグメント情報、並びに第1及び第2の音声信号で対応付けられたフレーム間の距離を示すフレーム間DP距離を出力するためのDPマッチング処理部384と、DPマッチング処理部384から与えられる系列間DP距離を所定のしきい値と比較して、系列間DP距離がしきい値以下の場合にHレベル、それ以外の場合にLレベルをとる判定結果信号を出力するための判定部380とを含む。
繰返発声検出部370はさらに、特徴抽出部242から与えられるパワースペクトル系列と、DPマッチング処理部384から与えられるセグメント情報及びフレーム間DP距離の系列とを一時保持し、判定部380からHレベルの判定結果信号が与えられると後続の判定部376(図13参照)に対し出力し、それ以外の場合にはそうした出力を行なわないように構成されたバッファ382を含む。
図15を参照して、図13に示すMFTフレームマーキング部372は、繰返発声検出部370(図14参照)のバッファ382から繰返発声のパワースペクトル系列及びセグメント情報を受け、セグメント情報を用いて繰返発声の第1の発声(第1のセグメント)のパワースペクトル系列と、第2の発声(第2のセグメント)のパワースペクトル系列とに分割し、かつフレーム間の対応情報を付して出力するためのフレーム分割部400と、フレーム分割部400から出力される二つのパワースペクトル系列の間の対応情報と、バッファ382から与えられるフレーム間DP距離とを用い、対応するフレームであってフレーム間DP距離が所定のしきい値より大きなフレーム群にそれぞれMFTフレームマークを付して、それ以外のフレームにはMFTフレームマークを付さずに、二つのパワースペクトル系列をそれぞれ出力するためのMFT判定部402とを含む。
MFTフレームマーキング部372はさらに、MFT判定部402から出力される二つのパワースペクトル系列のパワースペクトルからMFCCを算出するための、フィルタバンク404及びコサイン変換部406を含む。コサイン変換部406からは、第1のセグメントの音響特徴量ベクトル系列と、第2のセグメントの音響特徴量ベクトル系列とが出力される。フィルタバンク404は、対数パワースペクトルを入力とするものである。
図16に、図10に示すパワースペクトルベクトル系列270及び272で、MFT判定部402によってMFTフレームマークが付されたフレームを有する例を模式的に示す。図16において、MFTフレームマークが付されたフレームには斜線を付してある。図16に示す例では、パワースペクトルベクトル系列270のフレーム280と、パワースペクトルベクトル系列272のフレーム300及び302とが対応付けられている。これらの間のフレーム間DP距離はしきい値以下である。したがって、これらについてはMFTフレームマークは付されておらず、これらフレームについては、音声認識で尤度が算出され認識結果に影響を与える。
パワースペクトルベクトル系列270のフレーム282及び284と、パワースペクトルベクトル系列272のフレーム304とも互いに対応付けられている。しかし、この例では、両者(フレーム282とフレーム304、フレーム284とフレーム304)の間のフレーム間DP距離はいずれもしきい値より大きい。したがってこれら3つのフレームにはいずれもMFTフレームマークが付されている。これらフレームについては、図13に示す音声認識処理部374による音声認識時に算出される尤度は、どの音素に対しても同じ値であるものとして取り扱われる。したがって、これらフレームは、音声認識の過程では考慮の対象から排除される。
−動作−
上記した第4の実施の形態に係るコマンド認識装置360は以下のように動作する。図13を参照して、マイクロフォン60が音声信号を繰返発声検出部370に与えると、図14に示すフレーム化処理部240は、この音声信号を所定長かつ所定シフト長でフレーム化する。フレーム化処理部240は、このフレーム系列を特徴抽出部242に与える。
上記した第4の実施の形態に係るコマンド認識装置360は以下のように動作する。図13を参照して、マイクロフォン60が音声信号を繰返発声検出部370に与えると、図14に示すフレーム化処理部240は、この音声信号を所定長かつ所定シフト長でフレーム化する。フレーム化処理部240は、このフレーム系列を特徴抽出部242に与える。
特徴抽出部242は、フレーム化処理部240から与えられる各フレームに対し、パワースペクトルとMFCCとを算出し、パワースペクトル系列をバッファ382に、MFCC系列をDPマッチング処理部384に、それぞれ与える。バッファ382はこのパワースペクトル系列を一旦保持する。
DPマッチング処理部384は、特徴抽出部242から与えられるMFCC系列に対し、図9に示した方法によるDPマッチングを行なう。DPマッチング処理部384は、このDPマッチングの結果得られたセグメント情報と、対応するフレーム間で算出されるフレーム間DP距離と、DPマッチングにより対応付けられた第1のセグメントと第2のセグメントとのMFCC系列の間で算出される系列間DP距離とを出力する。セグメント情報とフレーム間DP距離とはバッファ382に与えられ、保持される。系列間DP距離は判定部380に与えられる。
判定部380は、系列間DP距離をしきい値と比較し、判定結果信号のレベルを、系列間DP距離がしきい値以下であればHレベル、それ以外であればLレベルに設定する。
バッファ382は、判定部380からの判定結果信号がHレベルとなれば、保持しているパワースペクトル系列、セグメント情報、及びフレーム間DP距離の系列を後段のMFTフレームマーキング部372(図13参照)に与える。
図15を参照して、MFTフレームマーキング部372のフレーム分割部400は、バッファ382から与えられるセグメント情報を用い、同じくバッファ382から与えられるパワースペクトル系列を第1のセグメント及び第2のセグメントのパワースペクトル系列に分割し、MFT判定部402に与える。
MFT判定部402は、第1のセグメントのパワースペクトル系列及び第2のセグメントのパワースペクトル系列の各々について、対応するフレームとの間のフレーム間DP距離をしきい値と比較し、しきい値より大きなDP間距離を持つフレームにMFTフレームマークを付し、それ以外のフレームには何もせず、フィルタバンク404に与える。
フィルタバンク404及びコサイン変換部406は、与えられる第1のセグメントのパワースペクトル系列及び第2のセグメントのパワースペクトル系列の各々について、フィルタバンク処理及びコサイン変換処理を行なうことにより、MFCCを算出し、第1のセグメントのMFCC系列及び第2のセグメントのMFCC系列を出力する。
図13を参照して、音声認識処理部374は、こうして得られた第1及び第2のセグメントのMFCC系列の各々に対してMFTを用いた音声認識を行ない、結果を出力する。この際、音声認識処理部374は、MFTフレームマークが付されたフレームについては、音響モデルによる尤度計算の際に、全ての音素モデルについて同じ尤度が得られたものとして、音声認識を行なう。音声認識処理部374は、第1及び第2のセグメントのMFCC系列に対して得られた二つの音声認識結果の文字列を判定部376に与える。
判定部376は、与えられた二つの音声認識結果が互いに等しいか否かを判定する。両者が等しい場合、判定部376はその音声認識結果がコマンドであるとして、音声認識結果の文字列を機器制御部64に与える。両者が等しくないとき、判定部376は繰返発声がコマンド入力のためのものではない、偶発的なものであるとして、機器制御部64に対してコマンド文字列を与えない。したがってこの場合、機器制御部64は動作しない。
以上のように本実施の形態では、繰返発声の検出の際のDPマッチング結果を用いて、各フレームが信頼できるか否かを判定する。そして、繰返発声の第1のセグメント及び第2のセグメントの各々について、独立に音声認識を行なう。音声認識では、信頼できないフレームとしてMFTフレームマークが付けられた部分については考慮しない。したがって、突発的な雑音が生じたときに、その雑音が生じた部分を除外して音声認識を行なうことができる。その結果、突発性の雑音に対して頑健な音声認識を行なうことができる。さらに、得られた音声認識結果が、第1のセグメントと第2のセグメントとで同一か否かを判定し、同一の場合のみコマンドとして機器制御部64に与える。したがって、MFTによる音声認識の結果が一致していなければ機器は動作せず、誤動作を防止することができる。
[第5の実施の形態]
第4の実施の形態では、MFTを用いた音声認識を行なっている。しかし、MFTを用いた音声認識以外の音声認識を行なうようにしてもよい。繰返発声が検出されることを前提とすれば、繰返発声の第1のセグメントと第2のセグメントとの双方を同時に入力として、単一の結果を得るような音声認識を行なってもよい。ここでは、そうした音声認識を「2入力音声認識」と呼ぶ。
第4の実施の形態では、MFTを用いた音声認識を行なっている。しかし、MFTを用いた音声認識以外の音声認識を行なうようにしてもよい。繰返発声が検出されることを前提とすれば、繰返発声の第1のセグメントと第2のセグメントとの双方を同時に入力として、単一の結果を得るような音声認識を行なってもよい。ここでは、そうした音声認識を「2入力音声認識」と呼ぶ。
具体的には、DPマッチングによってフレーム間の対応付けが行なわれた二つの音響特徴量系列が与えられたときに、各系列について音響モデルを用いて独立に、音素別の尤度計算を行ない、各音素について尤度が高いほうの尤度を用いて音声認識を行なうようにすればよい。
以下、図17を参照して、2入力音声認識を用いて繰返発声により入力されるコマンドの認識を行なう、本発明の第5の実施の形態に係るコマンド認識装置420の構成及び動作について説明する。
−構成−
図17を参照して、コマンド認識装置420は、図6に示すものと同じ繰返発声検出部220と、繰返発声検出部220から出力される、互いにフレーム間の対応付けがされた第1のセグメント及び第2のセグメントのパワースペクトル系列から、音響特徴量として、互いにフレーム間の対応付けがされた第1及び第2のMFCC系列を算出するための特徴抽出部430と、特徴抽出部430から出力される第1及び第2のMFCC系列に対する2入力音声認識処理を行なって、単一の音声認識結果を機器制御部64に対して出力するための2入力音声認識処理部432と、2入力音声認識処理部432が使用する音響モデル88及び辞書90とを含む。辞書90には、機器制御部64で解釈可能なコマンドの文字列のみが登録されている。
図17を参照して、コマンド認識装置420は、図6に示すものと同じ繰返発声検出部220と、繰返発声検出部220から出力される、互いにフレーム間の対応付けがされた第1のセグメント及び第2のセグメントのパワースペクトル系列から、音響特徴量として、互いにフレーム間の対応付けがされた第1及び第2のMFCC系列を算出するための特徴抽出部430と、特徴抽出部430から出力される第1及び第2のMFCC系列に対する2入力音声認識処理を行なって、単一の音声認識結果を機器制御部64に対して出力するための2入力音声認識処理部432と、2入力音声認識処理部432が使用する音響モデル88及び辞書90とを含む。辞書90には、機器制御部64で解釈可能なコマンドの文字列のみが登録されている。
図18に、2入力音声認識処理部432のより詳細な機能的ブロック図を示す。図18を参照して、2入力音声認識処理部432は、第1のセグメントのMFCC系列に対し、音響モデル88を参照して状態ごとの各音素の出力尤度を算出するための第1の尤度算出部450と、第2のセグメントのMFCC系列に対し、音響モデル88を参照して状態ごとの各音素の出力尤度を算出するための第2の尤度算出部452と、各音素について第1の尤度算出部450と第2の尤度算出部452とにより状態ごとに算出された出力尤度のうちの最大値を音素ごとに選択するための最大値回路454と、最大値回路454により各音素に対して最大値が算出された出力尤度を用い、通常の音声認識と同様に、辞書90に登録された文字列の尤度を算出し、それらのうちで最大の尤度となる文字列を出力するための音素列尤度算出部456とを含む。
すなわち、最大値回路454は、状態ごとの各音素の音響尤度の算出において、次の式を用いる。
このようにして、各状態における音素ごとの出力尤度P(Xt|Si)が算出されることにより、2入力音声認識処理部432はこの出力尤度系列を用いて、通常の音声認識処理と同様にして音声認識を行なうことができる。認識される語彙は辞書90に登録されているものに限定される。
−動作−
上記したコマンド認識装置420は以下のように動作する。図17を参照して、繰返発声検出部220は、第3の実施の形態と同様、マイクロフォン60から与えられる音声信号の波形中に存在する、繰返発声に相当する波形を検出する。繰返発声検出部220は、繰返発声を検出すると、繰返発声を検出したことを示す検出信号を特徴抽出部430に与える。繰返発声検出部220は、その音声波形のデータをフレーム単位のスペクトル系列として出力する。繰返発声検出部220はさらに、1回目と2回目との繰返発声の音声波形(それぞれ第1及び第2のセグメント情報と呼ぶ。)の位置をフレーム単位で特定するセグメント情報を出力する。
上記したコマンド認識装置420は以下のように動作する。図17を参照して、繰返発声検出部220は、第3の実施の形態と同様、マイクロフォン60から与えられる音声信号の波形中に存在する、繰返発声に相当する波形を検出する。繰返発声検出部220は、繰返発声を検出すると、繰返発声を検出したことを示す検出信号を特徴抽出部430に与える。繰返発声検出部220は、その音声波形のデータをフレーム単位のスペクトル系列として出力する。繰返発声検出部220はさらに、1回目と2回目との繰返発声の音声波形(それぞれ第1及び第2のセグメント情報と呼ぶ。)の位置をフレーム単位で特定するセグメント情報を出力する。
特徴抽出部430は、繰返発声検出部220から出力されたパワースペクトル系列とセグメント情報とに基づき、第1及び第2のセグメントにパワースペクトル系列を分割し、それぞれの音響特徴量であるMFCC系列を抽出し出力する。以下、第1のセグメントから得られたMFCC系列を第1のMFCC系列、第2のセグメントから得られたMFCC系列を第2のMFCC系列と呼ぶ。
図18を参照して、2入力音声認識処理部432の第1の尤度算出部450は、第1のMFCC系列を受け、音響モデル88を参照して各状態における各音素の出力尤度を順次算出して最大値回路454に与える。第2の尤度算出部452は、第2のMFCC系列を受け、音響モデル88を参照して各状態における各音素の出力尤度を順次算出して最大値回路454に与える。
最大値回路454は、状態ごとに、各音素について第1の尤度算出部450及び第2の尤度算出部452から与えられる出力尤度の最大値を選択し、音素列尤度算出部456に与える。
音素列尤度算出部456は、最大値回路454から与えられる状態ごとの各音素の出力尤度に基づき、入力音声の音素列が辞書90に格納された各単語に対応する尤度を各単語について算出する。音素列尤度算出部456はさらに、辞書90に格納された各単語についてこうして算出された尤度が最も大きな単語を選択し、機器制御部64に与える。もちろん、この場合、音素列尤度算出部456は所定のしきい値よりも尤度が大きくなった単語のみを出力する。
機器制御部64は、こうして与えられた単語がコマンド文字列であるものとして解釈し、対応する処理を実行する。
以上のように本実施の形態では、既存の音声認識装置をわずかに改良し、二つのMFCC系列から算出される、状態ごとの各音素の尤度の最大値を用いて、2入力から一つの単語を認識する。繰返発声が繰返発声検出部220により検出されることを前提とすると、このように出力尤度の最大値を音声認識で使用することにより、突発性雑音などに起因して正しい音素の尤度が低くなってしまうという問題を避けることができる。その結果、簡単な構成で、繰返発声を用いて突発性雑音に対し頑健なコマンド認識を行なうことができる。
[第6の実施の形態]
第3の実施の形態では、繰返発声の第1のセグメントと第2のセグメントとの間でフレームごとの対応関係をとり、さらに対応するフレームのパワースペクトル上において、いずれか小さい方の値をとってパワースペクトルを統合することにより、突発性の雑音の悪影響を排除している。
第3の実施の形態では、繰返発声の第1のセグメントと第2のセグメントとの間でフレームごとの対応関係をとり、さらに対応するフレームのパワースペクトル上において、いずれか小さい方の値をとってパワースペクトルを統合することにより、突発性の雑音の悪影響を排除している。
しかしこの方式では、統合した結果得られたパワースペクトルに基づいて、仮に音声を発生させると、その音質が低下するという問題がある。これは次の原因によると思われる。
図19(A)及び(B)に、ほぼ同じ形状のスペクトル包絡482及び492を持つ音声のスペクトル分布480及び490の例を示す。このスペクトル分布480及び490においては、スペクトル包絡の形状は互いによく似ているものの、発声時の基本周波数が異なっている。基本周波数の相違は、スペクトル包絡上に重畳されて現れる微細構造の相違として現れる。この微細構造の相違により、スペクトル上のピークは基本周波数の倍数の位置に生じる。したがって、基本周波数が異なると、スペクトル分布480及び490上のピークの位置が異なってくる。その結果、谷の位置もまた異なる。
例えば、図19において一点鎖線で示す位置では、包絡の形状は互いにほぼ一致しているものの、スペクトルの値そのものは両者で異なっている。第3の実施の形態においては、二つのスペクトル分布の各周波数ビンにおいて、パワーの小さな方を選択することにより、スペクトルを統合している。しかしこうした統合を行なうと、結果としてスペクトル分布の谷の位置を優先的に選択することになる。この谷の位置は、前述したとおり基本周波数によって異なってくる。そして、人間が繰返発声を行なう場合、1回目と2回目とで基本周波数が異なってくることもよくあると考えられる。その結果、統合して得られたスペクトル分布の包絡の形状が、元の二つのスペクトル分布の包絡のいずれとも異なるものとなってしまう可能性がある。音声による言語的情報の伝達は、スペクトル包絡の形状によって主として行なわれ、音声認識も原理的にはスペクトル包絡の形状に基づいて行なわれる。したがって、このように統合の結果得られたスペクトル包絡の形状が基になる音声信号のスペクトル包絡の形状と異なっていると、それに基づいて音声を合成したときに全く異なった音声となる危険性がある上、音声認識の結果も誤ってしまう可能性がある。そのような可能性は、できるだけ排除しておくことが望ましい。
以下に説明する第6の実施の形態は、図20に示すように、スペクトル分布480をスペクトル包絡482と微細構造484とに一旦分離し、スペクトル包絡482の形状のみを統合した後、再度音源信号に基づいて統合後のスペクトル分布を作成することによって、スペクトル包絡の形状の変化を回避する機能を持つ。ここでは、ケプストラム分析によってスペクトル包絡482と微細構造484との分離を実現する。
パワースペクトルに対し逆FFT変換を行なうことにより、所定次数までのケプストラム係数が得られる。これらケプストラム係数のうち、低次のものはスペクトル包絡を表し、高次のものは微細構造を表す。したがって、パワースペクトルに対してケプストラム分析を行ない、低次のケプストラム係数のみからなるベクトルと、高次のケプストラム係数のみからなるベクトルとに分離し、それぞれ独立にFFT処理を施すことで、パワースペクトルをスペクトル包絡成分と微細構造成分とに分離できる。
−構成−
図21を参照して、第6の実施の形態に係るコマンド認識装置500は、図6に示すものと同じ繰返発声検出部220と、繰返発声検出部220により出力されるスペクトル系列とセグメント情報とを受け、1回目と2回目との音声波形(第1及び第2のセグメント)から得られるスペクトルの包絡を統合し、さらに所定の音源信号とこのスペクトル包絡とを畳み込むことにより、第1及び第2のセグメントを統合した波形データを作成し、さらにそこから算出した音響特徴量の系列を出力するための繰返発声統合部510と、繰返発声統合部510により出力される音響特徴量の系列に対して音声認識を行ない、その結果を機器制御部64に対して出力するための音声認識処理部224とを含む。
図21を参照して、第6の実施の形態に係るコマンド認識装置500は、図6に示すものと同じ繰返発声検出部220と、繰返発声検出部220により出力されるスペクトル系列とセグメント情報とを受け、1回目と2回目との音声波形(第1及び第2のセグメント)から得られるスペクトルの包絡を統合し、さらに所定の音源信号とこのスペクトル包絡とを畳み込むことにより、第1及び第2のセグメントを統合した波形データを作成し、さらにそこから算出した音響特徴量の系列を出力するための繰返発声統合部510と、繰返発声統合部510により出力される音響特徴量の系列に対して音声認識を行ない、その結果を機器制御部64に対して出力するための音声認識処理部224とを含む。
コマンド認識装置500はさらに、音声認識処理部224が音声認識の際に使用する音響モデル88と、機器制御部64で利用可能なコマンド文字列を格納した辞書90とを含む。
図22に、繰返発声統合部510のより詳細なブロック図を示す。図22を参照して、繰返発声統合部510は、繰返発声検出部220から与えられるパワースペクトル系列及びセグメント情報にしたがい、パワースペクトルを第1のセグメントと第2のセグメントとに分離し、両者に対するケプストラム分析を行ない、第1及び第2のケプストラム係数系列を出力するためのケプストラム算出部532と、ケプストラム算出部532により出力される第1及び第2のケプストラム係数系列の各々について、低次のケプストラム係数のみからなるスペクトル包絡情報と、高次のケプストラム係数のみからなる微細構造情報とに分離するための分離部534とを含む。
繰返発声統合部510はさらに、分離部534によって分離された第1及び第2のセグメントのパワースペクトルの低次ケプストラム係数をそれぞれ記憶するための第1及び第2の包絡記憶部536及び538と、分離部534によって分離された第1及び第2のセグメントのパワースペクトルの高次ケプストラム係数をそれぞれ記憶するための第1及び第2の微細構造記憶部540及び542とを含む。
繰返発声統合部510はさらに、第1及び第2の包絡記憶部536及び538に記憶された第1及び第2のセグメントの低次ケプストラム係数に対してFFTを行なってスペクトル包絡をそれぞれ作成し、第3の実施の形態で行なわれたとの同様、パワースペクトル上でビンごとに両者のスペクトル包絡のうち小さな方の値をとることにより、両者を統合するための包絡統合部544と、第1及び第2のセグメントのうち、包絡統合部544でより多くのビンが選択された方のセグメントから得られた高次ケプストラム係数を第1及び第2の微細構造記憶部540及び542のいずれかから読出すための微細構造選択部546とを含む。
ここでは、包絡統合部544は、低次ケプストラム係数のみから第1及び第2のセグメントについて生成されたスペクトル包絡を用いてスペクトル包絡の統合処理を行なう。したがって、第3の実施の形態の場合と異なり、パワースペクトル上の微細構造の谷を優先して選択してしまうことがなく、元のスペクトル包絡をよく反映し、かつ雑音の影響が取り除かれたスペクトル包絡形状を得ることができる。また、微細構造は、こうして選択されたスペクトル包絡形状を再度音源信号で励起するために用いられる。この際、どのような音源信号を用いるかについては様々な考え方があり得る。ここでは、スペクトル包絡形状の統合の際に、より多くのビンが選択された方のセグメントに対応する微細構造を用いるものとする。こうすることにより、このスペクトル包絡と微細構造とを畳み込んで得られるスペクトル形状は、自然なものとなることが期待でき、その結果、そうして得られたスペクトル形状に基づいて行なう音声認識の精度も高くなることが期待できる。
繰返発声統合部510はさらに、包絡統合部544により得られたスペクトル包絡と、微細構造選択部546により選択された高次ケプストラム係数にFFTを施すことにより得られる微細構造とを畳み込んだパワースペクトル形状をフレームごとに算出し、パワースペクトル系列として出力するための畳み込み処理部548と、畳み込み処理部548の出力するパワースペクトル系列から音声認識のための音響特徴量となるMFCC系列を算出するためのフィルタバンク550及びコサイン変換部552とを含む。フィルタバンク550は、対数パワースペクトルを入力とするものとする。
図22に示す繰返発声統合部510は、コンピュータプログラムにより実現できる。そのプログラムの概略フローチャートを図23に示す。図23を参照して、このプログラムは、第1及び第2のセグメントから得られるパワースペクトル系列の各々を、ケプストラム分析により低次ケプストラム係数ベクトルと高次ケプストラム係数ベクトルとに分離するステップ570と、第1及び第2のセグメントから得られた低次ケプストラム係数にそれぞれFFTを施すことにより、第1及び第2のセグメントのスペクトル包絡を生成するステップ572と、第1及び第2のセグメントの、互いに対応付けられたフレームに対し、ステップ572で生成されたスペクトル包絡上で周波数のビンごとに最小値をとることにより、スペクトル包絡を統合するステップ574と、ステップ574において選択されたビンの数が多いほうのセグメントから得られた高次ケプストラム係数に対してFFTを施すことにより、微細構造を生成するステップ576と、ステップ574において得られた統合後のスペクトル包絡と、ステップ576で得られた微細構造とを畳み込むことにより、統合後のパワースペクトルを生成するステップ578とを含む。
−動作−
第6の実施の形態に係る繰返発声統合部510は以下のように動作する。図21を参照して、繰返発声検出部220は、マイクロフォン60から与えられる音声信号をフレーム化し、DPマッチングによって繰返発声があるか否かを検出する。繰返発声検出部220は、繰返発声が検出された場合には、繰返発声を構成する音声信号のパワースペクトル系列と、繰返発声の第1及び第2のセグメント並びに対応するフレームを特定するセグメント情報とを繰返発声統合部510に与える。
第6の実施の形態に係る繰返発声統合部510は以下のように動作する。図21を参照して、繰返発声検出部220は、マイクロフォン60から与えられる音声信号をフレーム化し、DPマッチングによって繰返発声があるか否かを検出する。繰返発声検出部220は、繰返発声が検出された場合には、繰返発声を構成する音声信号のパワースペクトル系列と、繰返発声の第1及び第2のセグメント並びに対応するフレームを特定するセグメント情報とを繰返発声統合部510に与える。
図22を参照して、ケプストラム算出部532は、繰返発声検出部220から与えられるパワースペクトル系列とセグメント情報とに基づき、第1及び第2のセグメントの所定次数までのケプストラム係数をフレームごとに算出し、分離部534に与える。
分離部534は、フレームごとに、第1及び第2のセグメントについて与えられるケプストラム係数の低次部分からなる低次ケプストラム係数ベクトルと、高次部分からなる高次ケプストラム係数ベクトルとをそれぞれ作成する。分離部534は、第1及び第2のセグメントについて得られた低次ケプストラム係数ベクトルをそれぞれ第1及び第2の包絡記憶部536及び538に格納する。分離部534はさらに、第1及び第2のセグメントについて得られた高次ケプストラム係数ベクトルを、それぞれ第1及び第2の微細構造記憶部540及び542に格納する。
包絡統合部544は、第1及び第2の包絡記憶部536及び538に記憶された第1及び第2のセグメントの低次ケプストラム係数に対してそれぞれFFTを施すことにより、第1及び第2のセグメントから得られる第1及び第2のケプストラム包絡を生成する。包絡統合部544はさらに、こうして得られた第1及び第2のケプストラム包絡に対し第3の実施の形態で行なわれたのと同様、各周波数ビンごとにパワーの最小値をとることにより、統合後のパワースペクトルを生成し畳み込み処理部548に与える。
微細構造選択部546は、包絡統合部544でのパワースペクトルの統合の際に選択されたビンの数が多かった方のセグメントから得られた高次ケプストラム係数を第1及び第2の微細構造記憶部540及び542のいずれかから読出す。微細構造選択部546はさらに、読出した高次ケプストラム係数にFFTを施すことにより、微細構造を生成し、畳み込み処理部548に与える。
畳み込み処理部548は、各フレームに対し、包絡統合部544から与えられた統合後のスペクトル包絡と、微細構造選択部546から与えられた微細構造とを畳み込むことにより、パワースペクトル系列を生成し、フィルタバンク550に与える。フィルタバンク550及びコサイン変換部552は、このパワースペクトル系列に対するフィルタバンク処理及びコサイン変換処理を行なうことにより、MFCC系列を生成して図21に示す音声認識処理部224に与える。
音声認識処理部224は、このMFCC系列に対し、音響モデル88及び辞書90を使用した音声認識を行ない、得られた文字列をコマンド文字列として機器制御部64に与える。
機器制御部64はこのコマンド文字列を解釈し、対応する処理を実行する。
以上のように本実施の形態では、繰返発声を検出し、繰返発声を構成する第1及び第2のセグメントから得られたパワースペクトルの系列について、フレームごとの対応付けを行なう。さらに、対応付けされたフレームの各々について、パワースペクトルを包絡部分と微細構造部分とに分離する。その後、包絡部分のみについて、第1及び第2のセグメントの包絡の各周波数のビンでの最小値を選択することにより、統合後のスペクトル包絡を生成する。スペクトル包絡には微細構造が重畳されていないため、パワースペクトルのうち、谷の部分が優先して選択されてしまうことによるスペクトル包絡の変形はなく、統合後のスペクトル包絡の形状は元のスペクトル包絡の形状をよく反映したものとなる。このスペクトル包絡と、微細構造とを畳み込んで得られたパワースペクトルから音声認識のための音響特徴量を算出する。微細構造は、スペクトル包絡の統合の際に主として使用されたセグメントから得られたものを使用する。
したがって、本実施の形態によれば、繰返発声が検出された後、第1及び第2のセグメントを統合したパワースペクトルが元のパワースペクトルをよく反映したものとなる。したがって、統合後のパワースペクトルに対する音声認識の精度が高くなることが期待でき、繰返発声によるコマンドを確実に検出できる。その結果、誤動作が極めて少ない、音声を用いたインターフェースを提供することができる。
[第6の実施の形態の変形例]
第6の実施の形態では、パワースペクトルをスペクトル包絡(低次ケプストラム係数)と微細構造(高次ケプストラム係数)とに分離した後、スペクトル包絡を統合する。さらに、こうして得られたスペクトル包絡に、微細構造を畳み込んでパワースペクトルを逆生成して、このパワースペクトルから音声認識のための音響特徴量を算出している。しかし、本発明はそのような実施の形態には限定されない。
第6の実施の形態では、パワースペクトルをスペクトル包絡(低次ケプストラム係数)と微細構造(高次ケプストラム係数)とに分離した後、スペクトル包絡を統合する。さらに、こうして得られたスペクトル包絡に、微細構造を畳み込んでパワースペクトルを逆生成して、このパワースペクトルから音声認識のための音響特徴量を算出している。しかし、本発明はそのような実施の形態には限定されない。
前述したとおり、音声認識のための情報は、主としてパワースペクトルの包絡から得られる。したがって、第6の実施の形態において行なったようにスペクトル包絡の統合後に再度微細構造を畳み込んでパワースペクトルを逆生成することを省略することもできる。すなわち、統合後のスペクトル包絡を直接にフィルタバンク処理及びコサイン変換にかけてMFCC系列を作成し、このMFCC系列を音声認識に用いることもできる。この場合には、微細構造の畳み込み処理が不要となるので装置にかかる負荷を小さくすることができる。さらには、MFCCに代えて、ケプストラムを特徴量とする音声認識を用いることで、統合したスペクトル包絡からケプストラムを直接計算し、音声認識への入力とすることも可能である。
[コンピュータによる実現]
上記した各実施の形態のコマンド認識装置は、実質的にコンピュータハードウェア及びそうしたコンピュータハードウェア上で実行されるプログラムとにより実現できる。この場合、ハードウェアはこれらコマンド認識装置を含む機器のものを利用することができる。
上記した各実施の形態のコマンド認識装置は、実質的にコンピュータハードウェア及びそうしたコンピュータハードウェア上で実行されるプログラムとにより実現できる。この場合、ハードウェアはこれらコマンド認識装置を含む機器のものを利用することができる。
図24に、そうした機器を構成するコンピュータハードウェアのブロック図を示す。図24を参照して、この機器630は、DVD(Digital Versatile Disc)662のためのDVDドライブ650及びメモリ664のためのメモリドライブ652を備えたコンピュータ640と、コンピュータ640に一体的に接続されたモニタ642と、コンピュータ640に固定された、操作のためのボタン等を備えた操作盤646と、コンピュータ640に固定的に取付けられたマイクロフォン60及びスピーカ674とを含む。
コンピュータ640は、DVDドライブ650及びメモリドライブ652に加えて、CPU(中央処理装置)656と、CPU656、DVDドライブ650及びメモリドライブ652に接続されたバス666と、DVDドライブ650のためのブートアッププログラム等を記憶する読出専用メモリ(ROM)658と、バス666に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)660と、バス666、マイクロフォン60及びスピーカ674に接続されるサウンドボード670と、バス666に接続され、音響モデル及び辞書などの大容量のデータを記憶するためのハードディスク654と、携帯型音楽プレイヤなどからなる携帯機器672をコンピュータ640に接続するための携帯機器インターフェース(I/F)668とを含む。コンピュータシステム630はさらに、図示しない小型プリンタを含んでもよい。
コンピュータシステム630に上記した各実施の形態に係るコマンド認識装置としての動作を行なわせるためのコンピュータプログラムは、DVDドライブ650又はメモリドライブ652に装着されるDVD662又はメモリ664に記憶され、さらにハードディスク654に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ640に送信されハードディスク654に記憶されてもよい。プログラムは実行の際にRAM660にロードされる。DVD662から、メモリ664から、又はネットワークを介して、直接にRAM660にプログラムをロードしてもよい。
このプログラムは、コンピュータ640にこの実施の形態のコマンド認識装置として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ640上で動作するオペレーティングシステム(OS)若しくはサードパーティのプログラム、又はコンピュータ640にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又は「ツール」を呼出すことにより、上記したコマンド認識としての動作を実行する命令のみを含んでいればよい。コンピュータシステム630の動作は周知であるので、ここでは繰返さない。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
50 機器
60 マイクロフォン
62,140,210,360,420,500 コマンド認識装置
64 機器制御部
66 操作部
80,240 フレーム化処理部
82,242,430 特徴抽出部
84,150,224,374 音声認識処理部
86,158,246,376,380 判定部
88 音響モデル
90,160 辞書
92,162 辞書登録部
220,370 繰返発声検出部
222,510 繰返発声統合部
244,384 DPマッチング処理部
372 MFTフレームマーキング部
432 2入力音声認識処理部
534 分離部
544 包絡統合部
546 微細構造選択部
60 マイクロフォン
62,140,210,360,420,500 コマンド認識装置
64 機器制御部
66 操作部
80,240 フレーム化処理部
82,242,430 特徴抽出部
84,150,224,374 音声認識処理部
86,158,246,376,380 判定部
88 音響モデル
90,160 辞書
92,162 辞書登録部
220,370 繰返発声検出部
222,510 繰返発声統合部
244,384 DPマッチング処理部
372 MFTフレームマーキング部
432 2入力音声認識処理部
534 分離部
544 包絡統合部
546 微細構造選択部
Claims (15)
- 与えられる音声信号をフレーム化し、各フレームから所定の音響特徴量を抽出して音響特徴量の系列を出力するための音響特徴量抽出手段と、
前記音響特徴量抽出手段により出力された音響特徴量の系列に基づいて、前記音声信号中の繰返発声部分を音声認識し、当該繰返発声を構成する発声単位を出力するための繰返発声認識手段とを含む、音声認識装置。 - 前記繰返発声認識手段は、
所定の統計的音響モデルを格納するための音響モデル格納手段と、
各々、所定回数繰返された単語からなる1又は複数の繰返単語を格納したコンピュータ読取可能な辞書を格納するための辞書格納手段と、
前記音響特徴量抽出手段から出力される音響特徴量の系列を受け、前記音響モデル格納手段に格納された前記統計的音響モデルと、前記辞書格納手段に格納された前記辞書とを用い、前記辞書内の前記1又は複数の繰返単語の内から、前記音響特徴量抽出手段から与えられる音響特徴量の系列により算出される尤度が最も高いものを選択し、当該繰返単語を構成する単語を出力するための単語出力手段とを含む、請求項1に記載の音声認識装置。 - 前記単語出力手段は、
前記音響特徴量抽出手段から出力される音響特徴量の系列と、前記音響モデル格納手段に格納された前記統計的音響モデルと、前記辞書格納手段に格納された前記辞書とを用い、前記辞書内の前記複数の繰返単語の内から、前記音響特徴量抽出手段から与えられる音響特徴量の系列により表される尤度が最も高いものを選択するための繰返単語選択手段と、
前記繰返単語選択手段が選択した繰返単語の尤度が所定のしきい値より大きいか否かを判定し、前記しきい値より大きな尤度を持つ繰返単語を構成する単語を出力するための判定手段とを含む、請求項2に記載の音声認識装置。 - 前記繰返発声認識手段は、
所定の統計的音響モデルを格納するための音響モデル格納手段と、
1又は複数の単語を格納したコンピュータ読取可能な辞書を格納するための辞書格納手段と、
前記音響特徴量抽出手段から出力される音響特徴量の系列に対し、前記音響モデル格納手段に格納された前記統計的音響モデルと、前記辞書格納手段に格納された前記辞書とを用いた音声認識を行ない、認識結果を出力するための音声認識手段と、
前記音声認識手段により、同一単語が連続して出力されたことに応答して、当該単語を音声認識結果として出力するための手段とを含む、請求項1に記載の音声認識装置。 - 前記繰返発声認識手段はさらに、
前記辞書に格納された語彙よりも少ない数の、予め定められた特定単語のみを記憶した特定単語記憶手段と、
前記出力するための手段が出力する音声認識結果が前記特定単語記憶手段に格納されているか否かを判定し、格納されている場合のみ当該音声認識結果の出力を許容するための手段とを含む、請求項4に記載の音声認識装置。 - 前記繰返発声認識手段は、
前記音響特徴量抽出手段から出力された前記音響特徴量の系列の内で、連続した第1及び第2の音響特徴量系列からなるセグメント対であって、互いの相関を表す予め定められた相関尺度が所定値よりも高いセグメント対を検出し、当該セグメント対を構成する各セグメント内の音響特徴量系列の間の対応関係を特定するためのセグメント対検出手段と、
前記セグメント対検出手段により検出されたセグメント対を互いに統合することにより、一つの統合セグメントを構成する統合音響特徴量の系列を生成するための統合手段と、
所定の統計的音響モデルを格納するための音響モデル格納手段と、
1又は複数の単語を格納したコンピュータ読取可能な辞書を格納するための辞書格納手段と、
前記統合手段により生成された前記統合音響特徴量の系列に対し、前記音響モデル格納手段に格納された前記統計的音響モデルと、前記辞書格納手段に格納された前記辞書とを用いた音声認識を行ない、認識結果を出力するための音声認識手段とを含む、請求項1に記載の音声認識装置。 - 前記統合手段は、
前記セグメント対検出手段により検出されたセグメント対において、互いに対応付けられたフレーム同士のパワースペクトルの間で、周波数ビンごとに最小値をとることにより、統合後のセグメントのパワースペクトル系列を生成するための最小値選択手段と、
前記最小値選択手段により生成されたパワースペクトル系列から、前記音声認識手段のための統合音響特徴量の系列を生成して前記音声認識手段に与えるための手段とを含む、請求項6に記載の音声認識装置。 - 前記最小値選択手段は、
前記セグメント対検出手段により検出されたセグメント対において、互いに対応付けられたフレーム同士のパワースペクトルを包絡と微細構造とに分離するための分離手段と、
前記分離手段により分離された包絡の間で、周波数ビンごとに最小値をとることにより、パワースペクトルの包絡を統合するための包絡統合手段と、
前記包絡統合手段により出力されたパワースペクトルの包絡と所定の音源信号とを畳み込むことにより、パワースペクトルを生成し、さらに当該パワースペクトルから前記音声認識装置のための音響特徴量を抽出するためのパワースペクトル生成手段とを含む、請求項7に記載の音声認識装置。 - 前記パワースペクトル生成手段は、前記包絡統合手段により出力されたパワースペクトルの包絡と、前記分離手段により分離された微細構造のうちで、前記包絡統合手段により選択されたビン数の多い方の微細構造とを畳み込むことにより、パワースペクトルを生成し、さらに当該パワースペクトルから前記音声認識装置のための音響特徴量を抽出するための手段を含む、請求項8に記載の音声認識装置。
- 前記最小値選択手段は、
前記セグメント対検出手段により検出されたセグメント対において、互いに対応付けられたフレーム同士のパワースペクトルから包絡を分離するための分離手段と、
前記分離手段により分離された包絡の間で、周波数ビンごとに最小値をとることにより、パワースペクトルの包絡を統合するための包絡統合手段と、
前記包絡統合手段により出力された包絡から前記音声認識装置のための音響特徴量を抽出するための手段とを含む、請求項7に記載の音声認識装置。 - 前記セグメント対検出手段は、
前記音響特徴量抽出手段から与えられた前記音響特徴量の系列の内に見出される発声区間内の、所与の第1の部分及び第2の部分にそれぞれ含まれるフレームの音響特徴量をDPマッチングして得られるDP距離を出力するためのDPマッチング手段と、
前記発声区間内の所定の中間点より前に始点を持つ第1の部分と、前記第1の部分の始点より後に始点を持ち、前記発声区間内の前記所定の中間点より後に終点を持つ第2の部分との組合せのうちで、前記DPマッチング手段によって得られるDP距離が最も小さくなるような第1の部分及び第2の部分を特定し、各部分に含まれる音響特徴量の系列をそれぞれ第1のセグメント及び第2のセグメントとして出力するためのセグメント対出力手段とを含む、請求項6又は請求項7に記載の音声認識装置。 - 前記セグメント対検出手段は、
前記音響特徴量抽出手段から与えられた前記音響特徴量の系列の内に見出される発声区間内の、所与の第1の部分及び第2の部分にそれぞれ含まれるフレームの音響特徴量をDPマッチングし、得られるDP距離を出力するためのDPマッチング手段と、
前記発声区間内の所定の中間点より前に始点を持つ第1の部分と、前記第1の部分の始点より後に始点を持ち、前記発声区間内の前記所定の中間点より後に終点を持つ第2の部分との組合せのうちで、前記DPマッチング手段によって得られるDP距離が最も小さくなるような第1の部分及び第2の部分を特定し、各部分に含まれる音響特徴量の系列をそれぞれ前記第1のセグメント及び前記第2のセグメントとして出力するためのセグメント対出力手段と、
前記セグメント対出力手段により出力されるセグメント対に含まれる各フレームのうち、前記DPマッチング手段によって互いに対応付けられたフレームとの間のDP距離が所定のしきい値より大きなフレームを前記音声認識手段による音声認識の対象から除外する処理を行なうための手段とを含む、請求項7に記載の音声認識装置。 - 前記繰返発声認識手段は、
前記音響特徴量抽出手段から与えられた前記音響特徴量の系列の内で、連続した第1及び第2の音響特徴量系列からなるセグメント対であって、互いの相関を表す予め定められた相関尺度が所定値よりも高いセグメント対を検出し、当該セグメント対を構成する各セグメント内の音響特徴量系列の間の対応関係を特定するためのセグメント対検出手段と、
所定の統計的音響モデルを格納するための音響モデル格納手段と、
1又は複数の単語を格納したコンピュータ読取可能な辞書を格納するための辞書格納手段と、
前記セグメント対検出手段から第1及び第2の音響特徴量系列からなるセグメント対を入力として受け、当該第1及び第2の音響特徴量系列に対し、前記音響モデル格納手段に格納された前記統計的音響モデルと、前記辞書格納手段に格納された前記辞書とを用い、前記辞書内の前記1又は複数の単語の内から、前記第1及び第2の音響特徴量系列により表される尤度が最も高いものを選択して出力するための2入力音声認識手段とを含み、
前記2入力音声認識手段は、前記第1及び第2の音響特徴量系列のうち、互いに対応するフレームから得られた音響特徴量に対し、各音素について前記統計的音響モデルから得られた尤度の最大値を用いて各音素の尤度計算を行なうことにより、前記辞書内の各単語の尤度を計算して音声認識を行なう、請求項1に記載の音声認識装置。 - 所定の機能を実行するための機能部を有し、音声入力にしたがった処理を実行する音声動作可能な装置であって、
音声を電気信号である音声信号に変換するための変換手段と、
前記変換手段の出力する音声信号を入力として受けるように接続された、請求項1〜請求項13のいずれかに記載の音声認識装置と、
前記音声認識装置の出力する音声認識結果をコマンドとして解釈し、当該コマンドに対応する機能を実行するように前記機能部を制御するための機器制御手段とを含む、装置。 - 記憶手段と、音声入力装置が接続可能な入出力装置と、所定のプログラムを実行することにより前記記憶手段と前記入出力装置とを制御する処理を行なうための処理手段とを含むコンピュータによって実行されるプログラムであって、当該コンピュータを、前記音声入力装置から与えられる音声信号に対して、請求項1〜請求項13のいずれかに記載の音声認識装置として動作させる、音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006068163A JP2007248529A (ja) | 2006-03-13 | 2006-03-13 | 音声認識装置、音声認識プログラム、及び音声動作可能な装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006068163A JP2007248529A (ja) | 2006-03-13 | 2006-03-13 | 音声認識装置、音声認識プログラム、及び音声動作可能な装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007248529A true JP2007248529A (ja) | 2007-09-27 |
Family
ID=38592942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006068163A Pending JP2007248529A (ja) | 2006-03-13 | 2006-03-13 | 音声認識装置、音声認識プログラム、及び音声動作可能な装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007248529A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107819964A (zh) * | 2017-11-10 | 2018-03-20 | 广东欧珀移动通信有限公司 | 提高通话质量的方法、装置、终端和计算机可读存储介质 |
US10665227B2 (en) | 2016-09-15 | 2020-05-26 | Fujitsu Limited | Voice recognition device and voice recognition method |
JP2020122958A (ja) * | 2019-01-29 | 2020-08-13 | 富士ゼロックス株式会社 | 時間的視覚的な顔の特徴に基づく認知及び発話障害検出のための方法、サーバ及びプログラム |
-
2006
- 2006-03-13 JP JP2006068163A patent/JP2007248529A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10665227B2 (en) | 2016-09-15 | 2020-05-26 | Fujitsu Limited | Voice recognition device and voice recognition method |
CN107819964A (zh) * | 2017-11-10 | 2018-03-20 | 广东欧珀移动通信有限公司 | 提高通话质量的方法、装置、终端和计算机可读存储介质 |
JP2020122958A (ja) * | 2019-01-29 | 2020-08-13 | 富士ゼロックス株式会社 | 時間的視覚的な顔の特徴に基づく認知及び発話障害検出のための方法、サーバ及びプログラム |
JP7392492B2 (ja) | 2019-01-29 | 2023-12-06 | 富士フイルムビジネスイノベーション株式会社 | 時間的視覚的な顔の特徴に基づく認知及び発話障害検出のための方法、サーバ及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11276390B2 (en) | Audio interval detection apparatus, method, and recording medium to eliminate a specified interval that does not represent speech based on a divided phoneme | |
JP4542974B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP4274962B2 (ja) | 音声認識システム | |
JP4942860B2 (ja) | 認識辞書作成装置、音声認識装置及び音声合成装置 | |
JP2007500367A (ja) | 音声認識方法およびコミュニケーション機器 | |
US7181395B1 (en) | Methods and apparatus for automatic generation of multiple pronunciations from acoustic data | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
KR20040088368A (ko) | 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법 | |
JP2004198831A (ja) | 音声認識装置および方法、プログラム、並びに記録媒体 | |
Kadyan et al. | Developing children’s speech recognition system for low resource Punjabi language | |
JP2009003008A (ja) | 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム | |
JP4700522B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP2008216488A (ja) | 音声処理装置及び音声認識装置 | |
JP2007248529A (ja) | 音声認識装置、音声認識プログラム、及び音声動作可能な装置 | |
JP2009116075A (ja) | 音声認識装置 | |
JP4610451B2 (ja) | 音声認識装置及びプログラム | |
US11043212B2 (en) | Speech signal processing and evaluation | |
JP2005283646A (ja) | 音声認識率推定装置 | |
KR101066472B1 (ko) | 초성 기반 음성인식장치 및 음성인식방법 | |
JP4798606B2 (ja) | 音声認識装置、およびプログラム | |
JP4877112B2 (ja) | 音声処理装置およびプログラム | |
JP4962930B2 (ja) | 発音評定装置、およびプログラム | |
JP2006145694A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
JP2004139049A (ja) | 話者正規化方法及びそれを用いた音声認識装置 | |
JP7222265B2 (ja) | 音声区間検出装置、音声区間検出方法及びプログラム |