JP4532576B2

JP4532576B2 - 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム

Info

Publication number: JP4532576B2
Application number: JP2008122288A
Authority: JP
Inventors: 生聖渡部; 清宏鹿野; ゴメスランディ
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2008-05-08
Filing date: 2008-05-08
Publication date: 2010-08-25
Anticipated expiration: 2028-05-08
Also published as: US20090281804A1; US8645130B2; JP2009271359A

Description

本発明は、処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラムに関する。

利用者が発した音声信号を検出して音声認識処理を行う音声認識装置が利用されている（特許文献１、２）。このような音声認識装置では、例えば、ハンズフリーマイク等のマイクロフォンを用いて、発話者が発した音声を集音する。そして、マイクロフォンによって検出された音声信号に対して音声認識処理を行う。

ハンズフリーフォンなどのマイクロフォンで集音する場合、部屋やマイク周辺の形状による影響を受けてしまうことがある。例えば、発話者が発した音声とともに、壁等で反射された反射音がマイクロフォンに集音されてしまう。従って、壁等で反射された反射音が残響として検出されてしまう。この残響の影響によって、音声認識率が低下してしまう。このような残響は、発話者自身の声によるものであるため、残響による影響を除去するのは困難である。特許文献３に、壁などで反射される反射波を除去する方法が開示されている。しかしながら、特許文献３の方法では、複数のマイクが必要になってしまう。

さらに、残響の影響を除去して、音声認識率を向上するための技術が開示されている（特許文献４、５）。例えば、特許文献４、５の残響除去方法では、残響成分を除去するため逆フィルタを推定している。さらに、特許文献４の残響除去方法では、観測信号が直接音と初期反射成分と後部残響成分とに分けられる点が記載されている。そして、初期反射成分が直接音と相関があり、後部残響成分が直接音、及び初期反射音声分と無相関である点が記載されている（段落００１２〜００１４）。

これらの残響除去方法では、入力された音響信号に基づいて逆フィルタを推定している。そして、推定した逆フィルタを用いて、周波数領域の音響信号に対して逆フィルタ処理を行っている。さらに、逆フィルタ処理が行われた周波数領域の出力信号を時間領域に変換している。

特開２００６−７２１２７号公報特開２００６−３６１７号公報特開２００７−６５２０４号公報特開２００６−７２０５２号公報特開２００６−２３４８８８号公報

しかしながら、特許文献４、５の残響除去方法では、入力された音響信号に対して逆フィルタを推定している。そのため、リアルタイムで処理する必要があるが、データの処理量が膨大になるため、リアルタイムでの処理が困難になるという問題点がある。よって、認識率を向上させることが困難である。

本発明は、かかる課題を解決するためになされたものであり、音声の認識率を向上することができる処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラムを提供することを目的とする。

本発明の第１の態様にかかる処理装置は、音声認識を行うための処理を行う処理装置であって、環境中で発生したインパルス応答の残響パターンから拡散残響成分を取り除いた初期反射成分を抽出する初期反射成分抽出処理部と、前記初期反射成分を学習用の音声データに反映させて、前記音声認識に用いられる音響モデルを学習する音響モデル学習処理部と、を備えるものである。これにより、音響モデル１５の学習に初期反射成分を反映させることができる。よって、より優れた音響モデル１５を構築することができ、音声の認識率を向上することができる。

本発明の第２の態様にかかる処理装置は、上記の処理装置であって、前記環境中で発生したインパルス応答の残響パターンから前記拡散残響成分を抽出する拡散残響成分抽出処理部と、前記拡散残響成分のスペクトル成分を減算するフィルタを作成するフィルタ作成部と、をさらに備えるものである。これにより、音声信号の拡散残響成分を除去することができるため、認識率を向上することができる。

本発明の第３の態様にかかる処理装置は、上記の処理装置であって、前記音響モデルを参照して音声認識を行う認識処理を行う認識処理部をさらに備え、前記フィルタが音声認識に繰り返し用いられるものである。これにより、簡便にフィルタを作成することができる。

本発明の第４の態様にかかる処理装置は、上記の処理装置であって、前記初期反射成分と前記拡散残響成分の時間的な境界を示す減衰時間境界が、前記音響モデルの分析長に応じて設定され、前記減衰時間境界の前側が前記初期反射成分となり、後側が拡散残響成分となることを特徴とするものである。これにより、初期反射成分を適切に抽出することができ、認識率を向上することができる。

本発明の第５の態様にかかる音声認識装置は、環境中に設けられたマイクロフォンで検出した音声信号に対して音声認識を行う音声認識装置であって、前記マイクロフォンで検出された音声信号をスペクトルデータに変換するスペクトル変換処理部と、前記環境中で発生したインパルス応答の残響パターンから拡散残響成分を取り除いた初期反射成分が反映された音響モデルを用いて、スペクトルデータに応じた特徴量から音声を認識する認識処理部とを備えるものである。これにより、初期反射成分が反映された音響モデルを用いて音声認識を行うことができる。よって、音声の認識率を向上することができる。

本発明の第６の態様にかかる音声認識装置は、上記の音声認識装置であって、前記音声信号のスペクトルデータから、フィルタを用いて、インパルス応答の残響パターンから抽出された前記拡散残響成分のスペクトル成分を減算するスペクトル減算処理部をさらに備え、前記スペクトル減算処理部で前記拡散残響成分のスペクトル成分が減算された減算データに基づいて前記音声が認識されているものである。これにより、音声信号の拡散残響成分を除去することができるため、認識率を向上することができる。

本発明の第７の態様にかかる音声認識装置は、上記の音声認識装置であって、前記フィルタが同じ環境での音声認識に繰り返し用いられることを特徴とするものである。これにより、簡便にフィルタを作成することができる。

本発明の第８の態様にかかる音声認識システムは、上記の音声認識装置と、環境中で発生した音を受音して、前記音声認識装置に音声信号を出力するマイクロフォンと、を有するものである。これにより、音響モデル１５の学習に初期反射成分が反映させることができる。よって、より優れた音響モデル１５を構築することができ、音声の認識率を向上することができる。
も

本発明の第９の態様にかかる音声認識方法は、環境中に設けられたマイクロフォンで検出した音声信号に対して音声認識を行う音声認識方法であって、環境中で発生したインパルス応答の残響パターンから拡散残響成分を取り除いた初期反射成分を抽出するステップと、前記初期反射成分を学習用の音声データに反映させて、前記音声認識に用いられる音響モデルを学習するステップと、を有するものである。これにより、音響モデル１５の学習に初期反射成分が反映させることができる。よって、より優れた音響モデル１５を構築することができ、音声の認識率を向上することができる。

本発明の第１０の態様にかかる音声認識方法は、上記の音声認識方法であって、前記環境中で発生したインパルス応答の残響パターンから拡散残響成分を抽出し、前記拡散残響成分のスペクトル成分を減算するフィルタを作成し、前記フィルタを用いて前記音声信号から前記拡散残響成分のスペクトル成分を減算した減算データに基づいて音声認識を行うものである。これにより、音声信号の拡散残響成分を除去することができるため、認識率を向上することができる。

本発明の第１１の態様にかかる音声認識方法は、上記の音声認識方法であって、前記音響モデルを参照して音声認識を行うステップをさらに備え、前記フィルタが音声認識に繰り返し用いられるものである。これにより、簡便にフィルタを作成することができる。

本発明の第１２の態様にかかる音声認識方法は、上記の音声認識方法であって、前記初期反射成分と前記拡散残響成分の時間的な境界を示す減衰時間境界が、前記音響モデルの分析長に応じて設定され、前記減衰時間境界の前側が前記初期反射成分となり、後側が拡散残響成分となることを特徴とするものである。これにより、初期反射成分を適切に抽出することができ、認識率を向上することができる。

本発明の第１３の態様にかかる音声認識プログラムは、環境中に設けられたマイクロフォンで検出した音声信号に対して音声認識を行う音声認識プログラムであって、コンピュータに対して、前記環境中で発生した基準音を検出して、前記基準音の残響パターンから初期反射成分を抽出させるステップと、前記初期反射成分を学習用の音声データに反映させて、前記音声認識に用いられる音響モデルを学習させるステップと、を有するものである。

本発明の第１４の態様にかかる音声認識プログラムは、上記の音声認識プログラムであって、前記環境中で発生したインパルス応答の残響パターンから拡散残響成分を抽出し、前記拡散残響成分のスペクトル成分を減算するフィルタを作成し、前記フィルタを用いて前記音声信号から前記拡散残響成分のスペクトル成分を減算した減算データに基づいて音声認識を行うものである。これにより、音声信号の拡散残響成分を除去することができるため、認識率を向上することができる。

本発明の第１５の態様にかかる音声認識プログラムは、上記の音声認識プログラムであって、前記音響モデルを参照して音声認識を行うステップをさらに備え、前記フィルタが音声認識に繰り返し用いられるものである。これにより、簡便にフィルタを作成することができる。

本発明の第１６の態様にかかる音声認識プログラムは、上記の音声認識プログラムであって、前記初期反射成分と前記拡散残響成分の時間的な境界を示す減衰時間境界が、前記音響モデルの分析長に応じて設定され、前記減衰時間境界の前側が前記初期反射成分となり、後側が拡散残響成分となることを特徴とするものである。これにより、初期反射成分を適切に抽出することができ、認識率を向上することができる。

本発明によれば、正確な音声認識を簡便に行なうことができる音声認識方法、音声認識装置、並びにそれを用いた移動体、ロボットを提供することができる。

本実施の形態にかかる音声認識システムについて、図１を用いて説明する。図１は、音声認識システムの構成を示すブロック図である。音声認識システムは、マイクロフォン１（以下、マイク１）と、音声認識装置２とを備えている。

マイク１は、環境中に設けられ、環境中で発生した音を受音する。従って、マイク１は、発話者が話した音声を集音して、音声に応じた音声信号を音声認識装置２に出力する。マイク１は、例えば、建物の部屋内に設置されている。マイク１は、環境内の予め定められた場所に設置されている。

音声認識装置２は、マイク１からの音声信号に対してデータ処理を行って音声認識を行う。音声認識装置２は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、通信用のインターフェースなどを有する処理装置であり、音声認識に必要なデータ処理を行う。さらに、音声認識装置２は、着脱可能なＨＤＤ、光ディスク、光磁気ディスク等を有し、各種プログラムや制御パラメータなどを記憶し、そのプログラムやデータを必要に応じてメモリ（不図示）等に供給する。例えば、音声認識装置２は、マイク１からの信号をデジタル信号に変換して、演算処理を行う。さらに、音声認識装置２は、ＲＯＭやＨＤＤに格納されたプログラムに従って音声認識処理を実行する。すなわち、音声認識装置２は、音声認識するためのプログラムが格納されており、そのプログラムにより音声認識装置２がデジタル信号に対して各種処理を行う。

音声認識装置２は、初期反射成分抽出処理部１１と、畳み込み処理部１２と、学習用音声データベース１３と、音響モデル学習処理部１４と、音響モデル１５と、拡散残響成分抽出処理部２１と、スペクトル変換処理部２２と、フィルタ作成部２３と、スペクトル変換処理部３１と、スペクトル減算処理部３２と、音声認識特徴量変換部３３と、パターンマッチング処理部３４と、を有している。

初期反射成分抽出処理部１１と、畳み込み処理部１２と、学習用音声データベース１３と、音響モデル学習処理部１４とは音声認識に必要な音響モデル１５を作成するための処理を行う。これにより、音声信号の残響パターンの初期反射成分を反映した音響モデル１５が作成される。ここでは音響モデル１５として、隠れマルコフモデル（ＨＭＭ）が用いられている。ここでの処理は、予めオフラインで行われている。すなわち、音声認識する音声信号を検出する前に、音響モデル１５を予め作成しておく。

拡散残響成分抽出処理部２１と、スペクトル変換処理部２２と、フィルタ作成部２３とは、拡散残響成分を除去するための処理を行う。これにより、拡散残響成分を減算するための減算フィルタが作成される。ここでの処理は、予めオフラインで行われている。すなわち、音声認識する音声信号を検出する前に、減算フィルタを予め作成しておく。

スペクトル変換処理部３１と、スペクトル減算処理部３２、音声認識特徴量変換部３３と、パターンマッチング処理部３４とは、入力音声に対して音声認識処理を行う。音声認識処理は、上記の減算フィルタ、及び音響モデル１５を用いて行われる。そして、これらの処理が、入力音声に対してオンラインで行われることで、随時、音声を認識していく。

まず、残響パターンに含まれる初期反射成分と拡散残響成分とについて図２、及び図３を用いて説明する。図２は、室内で発生した音が反射する様子を模式的に示す図である。図３は、環境中に設置されたマイク１で検出された信号の一例を示す図である。図３において、横軸は時間、縦軸は信号のパワーを示している。図３では、インパルス応答計測をしたときの計測信号の波形が離散的に示されている。

図２では、図１で示した音声認識システムがロボット４に搭載されているとして示されている。図２に示すように、室内で発話者５が発話した音は、ロボット４に搭載されたマイク１に到達して、測音される。さらに、音が直接マイク１に伝播する場合と、壁面３で反射してマイク１まで伝播する場合がある。もちろん、壁面３だけではなく、天井や床や机などで反射することもある。壁面３などで反射した音は、マイク１に直接、到達した音に比べて遅れる。すなわち、マイク１に直接、到達した直接音と、壁面３で反射してからマイク１に到達した反射音とは、マイク１で測音されるタイミングが異なっている。さらに、壁面３で反射した音のうち、繰り返し反射した音には、さらに時間遅れが生じる。このように音の伝播距離等に応じて、測音タイミングが異なっている。なお、室内では、壁面３だけでなく、天井や床面や机などでも音が反射される。

図２に示すような室内で、非常に幅の狭い単一パルスからなるインパルスを発生させた場合、計測信号は、図３に示す波形となる。インパルスの時間応答では、壁面３で反射されずに直接マイク１に到達する直接音が最も早い時間（ｔ＝０）に測音される。そして、壁面３で反射された反射音が、直接音の後に測音されていく。反射音は、壁面３などでの吸収があるため、直接音よりもパワーが低くなっている。そして、繰り返し反射した反射音が時間ともに測音されていく。

ここで、インパルス応答の残響パターンを、初期反射成分と拡散残響成分とに分ける。そのため、インパルス応答から残響成分を測定し、測定した残響成分を初期反射成分と、拡散残響成分とに分割する。残響パターンのうち、前半が初期反射成分となり、後半が拡散残響成分となる。従って、初期反射成分の後が拡散残響成分となる。初期反射成分は、１次反射や２次反射などの低次反射成分が含まれている。また、拡散残響成分には高次反射成分が含まれている。

ここで、初期反射成分と拡散残響成分を区切る時間的な境界を減衰時間境界とする。従って、直接音がマイク１で測音された時間から減衰時間境界までの成分が初期反射成分となり、減衰時間境界以降の成分が拡散残響成分となる。例えば、減衰時間境界を７０ｍｓｅｃとすると、ｔ＝０のデータが直接音となり、０〜７０ｍｓｅｃの範囲（ｔ＝０、ｔ＝７０は含まず）のデータが初期反射成分として抽出され、７０ｍｓｅｃ以降のデータが拡散残響成分として抽出される。

ここで初期反射成分と拡散残響成分との減衰時間境界を、音響モデル１５の分析長に応じて設定している。例えば、分析フレーム長を２５ｍｓｅｃ、フレームシフトを１０ｍｓｅｃ、１セグメントに含まれるフレーム数を５とした場合、分析長は２５＋１０×（５−１）＝６５ｍｓｅｃとなる。すなわち、複数のフレームを含む１セグメントの長さである分析長は、６５ｍｓｅｃとなる。この場合、減衰時間境界を、例えば、７０ｍｓｅｃとして、分析長に応じた長さとする。音響モデル１５の分析長を長くする場合は、減衰時間境界を後ろ側にずらず。すなわち、分析長を長くする場合は、減衰時間境界の値を大きくし、分析長を短くする場合は、減衰時間境界の値を小さくにする。このように、初期反射成分の時間幅を分析長に応じて決定することで、認識率を向上することができる。もちろん、音響モデル１５の分析長と減衰時間境界を等しくもよい。音響モデル１５で学習する単位である分析長に応じて減衰時間境界を設定することができる。こうすることで、初期反射成分と拡散残響成分とを適切に分割することができる。

このように、インパルス応答の残響パターンの中から、初期反射成分と拡散残響成分を抽出する。すなわち、減衰時間境界を境界として、直接音の後のデータを、初期反射成分と、拡散残響成分とに分ける。具体的には、残響パターンから拡散残響成分を取り除くことによって、初期反射成分が抽出される。また、残響パターンから初期反射成分を取り除くことによって、拡散残響成分が抽出される。

このようにして抽出された初期反射成分と拡散残響成分が、音声認識に利用される。すなわち、マイク１で実測された音声信号から、初期反射成分と拡散残響成分の影響を除去することで、音声の認識率を向上することができる。ここでは、初期反射成分と拡散残響成分とに対して異なる処理を行うことによって、認識率を向上している。初期反射成分は、音響モデル１５の学習に用いられている。一方、拡散残響成分は、スペクトル成分を減算する減算フィルタの作成に用いられている。

次に、初期反射成分を用いた音響モデル１５の学習について図１、及び図４を用いて説明する。図４は、音響モデルの学習フローを示す図である。図４で示した処理はオフラインで行われる。すなわち、音声認識を行うための音声信号を取得する前に、図４に示す処理フローで音響モデル１５を作成する。

図１に示したように、初期反射成分抽出処理部１１がインパルス応答入力から、拡散残響成分を取り除いた初期反射成分を抽出する。すなわち、上記のように、マイク１で計測されたインパルス応答の残響成分のうち、減衰時間境界よりも前のデータを初期反射成分として抽出する。図４に示すように、初期反射成分をｈ_Ｅとする。畳み込み処理部１２は、初期反射成分ｈ_Ｅを用いて畳み込み処理を行う。

学習用音声データベース１３には、クリーンな学習用の音声データが記憶されている。例えば、学習用音声データベース１３には、音素単位の音声データがデータベースとして記憶されている。この音声データは、雑音や残響がない場所で測定されたものであり、例えば、１時間分の会話をコーパスとしている。そして、コーパスに含まれるそれぞれの音素に対して、「あ」、「い」などのラベルが付けられている。このように、学習用音声データベース１３には、音素に対するクリーンな音声データが記憶されている。そして、畳み込み処理部１２は、学習用音声データベース１３に記憶されているクリーンな音声データｓに対して、初期反射成分ｈ_Ｅを畳み込む。これにより、初期反射成分ｈ_Ｅが反映された畳み込みデータｘ_Ｅが生成される。音素単位のそれぞれの音声データｓに対して初期反射成分ｈ_Ｅを畳み込むことで、それぞれの音素に対する畳み込みデータｘ_Ｅが算出される。

音響モデル学習処理部１４は、初期反射成分が反映された畳み込みデータｘ_Ｅに基づいて音響モデル学習処理を行う。音響モデル１５がＨＭＭである場合、音響モデル学習処理部１４は、ＨＭＭ学習を行う。具体的には、畳み込みデータｘ_Ｅから特徴量を抽出する。そして、音素単位の特徴量をデータベースとして記憶させる。すなわち、各音素に対する特徴量ベクトルがテンプレートモデルとなる。特徴量ベクトルは、例えば、分析長毎に抽出される。

具体的には、畳み込みデータｘ_ＥをＦＦＴ（高速フーリエ変換）等によってスペクトルデータに変換する。そして、人間の聴覚特性に合わせたフィルタを用いて、スペクトルデータを対数変換し、さらにＩＦＦＴ（逆高速フーリエ変換）によって、時間データに変換する。このようにすることで、メルケプストラムが求められる。メルケプストラム空間では、スペクトルの包絡が低次に表れ、微細な振動が高次に表れる。そして、低次の部分を取り出して、ＭＦＣＣを算出する。ここでは、１２次元のＭＦＣＣを算出している。さらには、その１次差分と、パワーの１次差分を特徴量として抽出している。この場合、特徴量ベクトルは２５次元（１２＋１２＋１）となる。もちろん、特徴量を抽出するための処理がこれに限られるものではない。

そして、ＭＦＣＣのデータ群によって学習を行う。なお、大量のコーパスに含まれる音声データｓに対して処理を行うことで、１つの音素に対する特徴量が平均と分散を持っている。音響モデル１５は、平均と分散の値を保持する。そして、音響モデル学習処理部１４は、特徴量の平均と分散に応じてＨＭＭの状態遷移確率や出力確率などを決定する。音響モデル学習処理部１４は、例えば、ＥＭアルゴリズムによってＨＭＭを学習する。もちろん、ＥＭアルゴリズム以外の公知のアルゴリズムを用いてもよい。このようにして、音響モデル１５が学習される。

音響モデル学習処理部１４で学習された音響モデル１５がデータベースとして記憶される。この音響モデル１５は、初期反射を考慮したものとなる。すなわち、初期反射成分をＨＭＭでモデル化推定する。これにより、初期反射成分を学習済みの音響モデル１５が構築される。この音響モデル１５を用いることで、音声信号に含まれる初期反射成分の影響を低減することができ、認識率を向上することができる。

次に、拡散残響成分を用いたフィルタ作成処理について、図１、図５、及び図６を用いて説明する。図５は、フィルタを作成するための近似計算を説明するための概念図である。図６は、フィルタ作成の処理フローを示す図である。

図１に示すように、拡散残響成分抽出処理部２１は、インパルス応答入力に対して、拡散残響成分抽出処理を行う。これにより、インパルス応答の残響パターンの中から初期反射成分が取り除かれた拡散残響成分が抽出される。すなわち、マイク１で計測されたインパルス応答の残響成分のうち、減衰時間境界よりも後のデータを拡散残響成分とする。スペクトル変換処理部２２は、インパルス応答の時間データをスペクトルデータに変換する。すなわち、時間領域の拡散残響成分のデータを周波数領域のデータに変換する。ここでは、フーリエ変換などを用いて、拡散残響成分のデータを変換している。すなわち、ＦＦＴ（高速フーリエ変換）などによって、周波数領域のデータに変換する。なお、スペクトル変換処理部２２は、スペクトルデータに変換する前に、上記の分析フレーム長、及びフレームシフトに応じてフレーム化処理を行っている。

フィルタ作成部２３は、拡散残響成分のデータを用いて、拡散残響を除去するための減算フィルタを作成する。まず、図５を用いてフィルタを作成するための近似計算について説明する。図５は、音声認識を行うためのオンライン処理が示されている。

図５のように、発話者が話した音声による音声信号を入力ｘとし、インパルス応答での拡散残響成分を後部インパルス応答ｈ_Ｌとする。入力ｘに対する後部拡散残響ｘ_Ｌを入力ｘから除去するためにスペクトル減算処理を行う。スペクトル減算をした後、特徴量に変換し、パターンマッチングにより音声認識を行う。

しかしながら、入力ｘに対する後部拡散残響ｘ_Ｌを直接観測することができない。すなわち、後部拡散残響ｘ_Ｌのみを観察することは不可能である。そこで、事前に観測した後部インパルス応答ｈ_Ｌを用いて後部拡散残響ｘ_Ｌを近似する。すなわち、ｘ'_Ｌ（＝ｘ＊ｈ_Ｌ）をｘ_Ｌに近似することができれば、拡散残響成分のスペクトル成分を減算することが可能になる。従って、入力ｘに後部インパルス応答を畳み込んだものを後部拡散残響ｘ_Ｌと近似することができるようなフィルタを作成する。

このように近似するためのオフライン処理について図６を用いて説明する。ここでは、インパルス応答を計測して、クリーンな学習用の音声データｓからフィルタδを作成している。学習用音声データベース１３に記憶されている音声データｓに後部インパルス応答ｈ_Ｌ（ｔ）を畳み込む。これにより、後部拡散残響ｘ_Ｌが作成される。また、学習用音声データベース１３に記憶されている音声データｓに対してインパルス応答ｈを畳み込む。すなわち、インパルス応答ｈの全部を音声データｓに対して畳み込む。これにより、クリーンな音声を発した場合における入力ｘが生成される。さらに、入力ｘに対して、後部インパルス応答ｈ_Ｌ（ｔ）を畳み込む。すなわち、音声データｓに対してインパルス応答ｈを畳み込んだ後、そのデータに後部インパルス応答ｈ_Ｌ（ｔ）をさらに畳み込む。この後部インパルス応答ｈ_Ｌ（ｔ）は、クリーンな音声データに畳み込まれた後部インパルス応答ｈ_Ｌ（ｔ）と同一のものである。

上記の処理を学習用音声データベース１３に含まれる音声データｓに対してそれぞれ行う。そして、算出された後部拡散残響ｘ_Ｌとｘ'_Ｌが近くなるようなフィルタδを推定する。すなわち、ｘ_Ｌ≒δｘ'_Ｌとなる係数を算出する。ここでは、最小２乗誤差計算によって、フィルタδを推定している。すなわち、ｘ_Ｌがδｘ'_Ｌとの誤差関数を最小にするように処理を行う。これにより、δｘ'_Ｌがｘ_Ｌに最も近くなるようなδを算出することができる。ここで、周波数帯で最適な係数が異なる。従って、フィルタδを、周波数帯別に推定する。図６の右上に示すように、周波数帯毎に最適な係数を算出する。具体的には、１２次元のフィルタδ（δ_１、δ_２、δ_３、δ_４、・・・・δ_１２）を推定する。このフィルタδを用いて、スペクトル減算することで、音声信号から拡散残響成分を除去することができる。すなわち、フィルタδは、拡散残響成分を減算することができる減算フィルタとなる。

次に、オンラインの音声認識処理について図１、及び図７を用いて説明する。図７は、音声認識の処理フローを示す図である。まず、マイク１で検出された入力音声が音声認識装置２に入力される。図７では、入力音声を入力ｘとしている。スペクトル変換処理部３１は、入力ｘをスペクトルデータに変換する。すなわち、ＦＦＴなどによって、時間領域のデータを周波数領域のデータに変換する。スペクトル変換処理部３１は、スペクトルデータに変換する前に、上記の分析フレーム長、及びフレームシフトに応じてフレーム化処理を行っている。

スペクトル減算処理部３２は、フィルタδを用いてスペクトルデータから拡散残響成分を減算する。このようにフィルタδを用いたスペクトル減算処理を行うことで、音声信号から拡散残響成分の影響が除去される。拡散残響成分のスペクトルが減算された減算データに基づいて、以下のように音声が認識される。

音声認識特徴量変換部３３は、スペクトルデータを音声認識の特徴量に変換する。音声認識特徴量変換部３３は、拡散残響成分が減算された減算データに基づいて特徴量を抽出する。特徴量としては、例えば、１２次元のメル周波数ケプストラム係数（ＭＦＣＣ：ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）を用いることができる。そのため、メルフィルタによるフィルタバンク分析を行う。そして、対数変換（Ｌｏｇ変換）を行い、離散コサイン変換（ＤＣＴ）を行うことでＭＦＣＣが算出される。ここでは、上記のように、ＭＦＣＣの１次差分と、パワーの１次差分を含む２５次元の特徴量ベクトルが算出される。

音声認識の特徴量にＭＦＣＣを用いる場合、認識率をより向上することができる。すなわち、スペクトル減算のような非線形処理は、音声信号に戻す場合には、ひずみの原因となるが、ＭＦＣＣに変換する場合は全く問題とならない。すなわち、音声信号に戻さずに、拡散残響成分が除去されたスペクトルデータをＭＦＣＣに直接変換するので、ひずみの発生を防ぐことができる。

そして、パターンマッチング処理部３４は、音響モデル１５の特徴量ベクトルを用いてパターンマッチング処理を行う。これにより、検出した音声信号に対する特徴量ベクトルに最も近いパターンの音素が認識される。すなわち、パターンマッチング処理部３４は、音響モデル１５を参照して、音声認識処理を行う認識処理部となる。

このように、初期反射成分が反映された音響モデル１５が用いられているため、より優れた音響モデル１５を構築することができる。学習する分析長を超えて影響する拡散残響成分（高次反射成分）を除去した初期反射成分を学習に用いているため、正確な音韻学習を行うことができる。初期反射成分による影響をＨＭＭ学習によって吸収することができるため、音声の認識率を向上することができる。

さらに、拡散残響成分はスペクトル減算のフィルタδに利用されている。このため、入力音声の拡散残響成分を除去することができる。これにより、拡散残響成分の影響を低減することができ、音声の認識率を向上することができる。

本実施形態では、実際に音声認識される音声信号が取得される環境と同一環境でインパルス応答を計測し、そのインパルス応答の残響パターンから初期反射成分と拡散残響成分とを抽出する。ここでは、マイク１が設置された部屋でインパルス応答計測を行っている。部屋の残響やマイク周辺の形状は部屋を移るなどの大きな変化がない限り、ほぼ同一とすることができる。したがって、環境が同じであれば、拡散残響成分は、直接音によらず、ほぼ一定とみなすことができる。すなわち、拡散残響成分は、発話した音声によらず、ほぼ一定となる。マイクを設置する方法を定めた後、部屋のインパルス応答に対する残響を１回だけ測定することで、初期反射成分と拡散残響成分を分割推定することが可能になる。

すなわち、環境中でインパルス応答を予め計測して、初期反射成分と拡散反射成分を抽出する。そして、初期反射成分が反映された音響モデル１５と、拡散反射成分に基づいて作成されたフィルタδとを、その環境における音声認識に繰り返し使用する。すなわち、同じ環境中で検出された音声信号に対して同じフィルタδ、及び音響モデル１５を用いる。予めインパルス応答を一度計測するだけでよいため、音響モデル１５の学習、及びフィルタδの作成を簡便に行うことができる。また、予め作成された音響モデル１５とフィルタδを用いているため、オンラインでの処理量を低減することができる。よって、簡便な処理で、認識率の高い音声認識を行うことができる。

発話者５が部屋を移るなどして環境が変わった場合は、その環境でインパルス応答計測を一度行う。そして、同様の処理によって音響モデル１５の学習、及びフィルタδの作成を行う。環境に応じてモデル学習、及びフィルタ作成を行うことで、認識率を向上することができる。あるいは、マイク１を交換した場合も、交換したマイク１でインパルス応答計測を行い、同様に処理する。もちろん、環境は室内に限らず、車内や屋外であってもよい。例えば、音声認識システムをカーナビゲーションシステムなどに搭載してもよい。

なお、音響モデル１５はＨＭＭ以外の音響モデルであってもよい。すなわち、ＨＭＭ以外の音響モデル１５の学習に、初期反射成分を用いてもよい。また、１つのマイク１で残響を除去することができるため、システムの構成を簡素化することができる。

さらに、各処理が異なるコンピュータによって行われていもよい。例えば、音響モデル学習、及びフィルタ作成の処理を行うコンピュータと、音声認識を行うコンピュータを物理的に異なるものとしてもよい。この場合、オンライン処理とオフライン処理が異なる装置によって行われる。

具体的には、初期反射成分抽出処理部１１と畳み込み処理部１２と学習用音声データベース１３と音響モデル学習処理部１４と、拡散残響成分抽出処理部２１とスペクトル変換処理部２２とフィルタ作成部２３とを有する処理装置で、音響モデル１５とフィルタδを予め作成する。そして、スペクトル変換処理部３１とスペクトル減算処理部３２と音声認識特徴量変換部３３とパターンマッチング処理部３４と有する音声認識装置に、作成された音響モデル１５とフィルタδを予め記憶させておく。そして、音声認識装置２に接続されたマイク１で音声信号を検出して、その音声信号に上記の処理を行う。このようにしても、認識率の高い音声認識処理を簡便に行うことができる。あるいは、処理装置などの他のコンピュータに格納されている音響モデル１５、及びフィルタδを参照して、音声認識を行うコンピュータが処理を行ってもよい。

さらには、音響モデル学習を行うコンピュータと、フィルタ作成を行うコンピュータを物理的に異なるものとしてもよい。また、フィルタ作成と音響モデル学習との間で異なるインパルス応答の計測結果を用いてもよい。すなわち、異なるインパルス応答計測から、初期反射成分と、拡散残響成分を抽出してもよい。例えば、２回インパルス応答計測を行い、一方のインパルス応答計測に基づき初期反射成分を抽出し、他方のインパルス応答計測に基づき拡散残響成分を抽出してもよい。上記の音声認識システムを音声応答型のロボットに搭載することで、的確な音声応答を行うことができる。なお、連続音声による音声信号が入力される場合は、さらに、言語モデルを用いて音声を認識してもよい。

本発明の実施の形態にかかる音声認識システムの構成を示す図である。環境内で発生した音が反射する様子を示す図である。本発明の実施の形態にかかる音声認識システムで検出された音声信号を模式的に示す図である。本発明の実施の形態にかかる音声認識システムにおける音響モデル学習の処理フローを示す図である。本発明の実施の形態にかかる音声認識システムにおけるフィルタ作成処理の近似計算を示す図である。本発明の実施の形態にかかる音声認識システムにおけるフィルタ作成の処理フローを示す図である。本発明の実施の形態にかかる音声認識システムにおける処理フローを示す図である。

符号の説明

１マイク
２音声認識装置
１１初期反射成分抽出処理部
１２畳み込み処理部
１３学習用音声データベース
１４音響モデル学習処理部
１５音響モデルデータベース
２１拡散残響成分抽出処理部
２２スペクトル変換処理部
２３フィルタ作成部
３１スペクトル変換処理部
３２スペクトル減算処理部
３３音声認識特徴量変換部
３４パターンマッチング処理部

Claims

音声認識を行うための処理を行う処理装置であって、
環境中で発生したインパルス応答の残響パターンであって、前記インパルス応答の初期反射成分と前記初期反射成分の後の高次反射成分を含む拡散残響成分とを有する残響パターンから前記拡散残響成分を取り除いた前記初期反射成分を抽出する初期反射成分抽出処理部と、
前記初期反射成分を学習用の音声データに反映させて、前記音声認識に用いられる音響モデルを学習する音響モデル学習処理部と、を備える処理装置。
前記環境中で発生したインパルス応答の残響パターンから前記拡散残響成分を抽出する拡散残響成分抽出処理部と、
前記拡散残響成分のスペクトル成分を減算するフィルタを作成するフィルタ作成部と、をさらに備える請求項１に記載の処理装置。
前記音響モデルを参照して音声認識を行う認識処理を行う認識処理部をさらに備え、
前記フィルタが音声認識に繰り返し用いられる請求項２に記載の処理装置。
前記初期反射成分と前記拡散残響成分の時間的な境界を示す減衰時間境界が、前記音響モデルの分析長に応じて設定され、
前記減衰時間境界の前側が前記初期反射成分となり、後側が拡散残響成分となることを特徴とする請求項１乃至３のいずれか１項に記載の処理装置。
環境中に設けられたマイクロフォンで検出した音声信号に対して音声認識を行う音声認識装置であって、
前記マイクロフォンで検出された音声信号をスペクトルデータに変換するスペクトル変換処理部と、
前記環境中で発生したインパルス応答の残響パターンであって、前記インパルス応答の初期反射成分と前記初期反射成分の後の高次反射成分を含む拡散残響成分とを有する残響パターンから前記拡散残響成分を取り除いた前記初期反射成分が反映された音響モデルを用いて、スペクトルデータに応じた特徴量から音声を認識する認識処理部とを備える音声認識装置。
前記音声信号のスペクトルデータから、フィルタを用いて、インパルス応答の残響パターンから抽出された前記拡散残響成分のスペクトル成分を減算するスペクトル減算処理部を、さらに備え
前記スペクトル減算処理部で前記拡散残響成分のスペクトル成分が減算された減算データに基づいて音声を認識する請求項５に記載の音声認識装置。
前記フィルタが同じ環境での音声認識に繰り返し用いられることを特徴とする請求項６に記載の音声認識装置。
請求項５乃至７のいずれか１項に記載の音声認識装置と、
前記環境中で発生した音を受音して、前記音声認識装置に音声信号を出力するマイクロフォンと、を有する音声認識システム。
環境中に設けられたマイクロフォンで検出した音声信号に対して音声認識を行う音声認識方法であって、
環境中で発生したインパルス応答の残響パターンであって、前記インパルス応答の初期反射成分と前記初期反射成分の後の高次反射成分を含む拡散残響成分とを有する残響パターンから前記拡散残響成分を取り除いた前記初期反射成分を抽出するステップと、
前記初期反射成分を学習用の音声データに反映させて、前記音声認識に用いられる音響モデルを学習するステップと、を有する音声認識方法。
前記環境中で発生したインパルス応答の残響パターンから拡散残響成分を抽出し、
前記拡散残響成分のスペクトル成分を減算するフィルタを作成し、
前記フィルタを用いて前記音声信号から前記拡散残響成分のスペクトル成分を減算した減算データに基づいて、音声認識を行う請求項９に記載の音声認識方法。
前記音響モデルを参照して音声認識を行うステップをさらに備え、
前記フィルタが音声認識に繰り返し用いられる請求項１０に記載の音声認識方法。
前記初期反射成分と前記拡散残響成分の時間的な境界を示す減衰時間境界が、前記音響モデルの分析長に応じて設定され、
前記減衰時間境界の前側が前記初期反射成分となり、後側が拡散残響成分となることを特徴とする請求項９乃至１１のいずれか１項に記載の音声認識方法。
環境中に設けられたマイクロフォンで検出した音声信号に対して音声認識を行う音声認識プログラムであって、
コンピュータに対して、
前記環境中で発生した基準音を検出して、前記基準音の残響パターンであって、前記基準音の初期反射成分と前記初期反射成分の後の高次反射成分を含む拡散残響成分とを有する残響パターンから前記初期反射成分を抽出させるステップと、
前記初期反射成分を学習用の音声データに反映させて、前記音声認識に用いられる音響モデルを学習させるステップと、を有する音声認識プログラム。
前記環境中で発生したインパルス応答の残響パターンから拡散残響成分を抽出し、
前記拡散残響成分のスペクトル成分を減算するフィルタを作成し、
前記フィルタを用いて前記音声信号から前記拡散残響成分のスペクトル成分を減算した減算データに基づいて音声認識を行う請求項１３に記載の音声認識プログラム。
前記音響モデルを参照して音声認識を行うステップをさらに備え、
前記フィルタが音声認識に繰り返し用いられる請求項１４に記載の音声認識プログラム。
前記初期反射成分と前記拡散残響成分の時間的な境界を示す減衰時間境界が、前記音響モデルの分析長に応じて設定され、
前記減衰時間境界の前側が前記初期反射成分となり、後側が拡散残響成分となることを特徴とする請求項１３乃至１５のいずれか１項に記載の音声認識プログラム。