JP6711765B2

JP6711765B2 - 形成装置、形成方法および形成プログラム

Info

Publication number: JP6711765B2
Application number: JP2017019449A
Authority: JP
Inventors: 卓哉樋口; 慶介木下; 中谷　智広; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-02-06
Filing date: 2017-02-06
Publication date: 2020-06-17
Anticipated expiration: 2037-02-06
Also published as: JP2018128500A

Description

本発明は、形成装置、形成方法および形成プログラムに関する。

従来、音声認識を行う前に、雑音を抑制して音声強調を行ったビームを形成するビームフォーマを算出する技術が開示されている（非特許文献１、２参照）。また、より明確に音声認識を行えるように、環境に応じて音声強調のためのパラメータを推定する技術が開示されている（非特許文献３参照）。

T.Higuchi，N.Ito，T.Yoshioka，T.Nakatani,"ROBUST MVDR BEAMFORMING USING TIME-FREQUENCY MASKS FOR ONLINE/OFFLINE ASR IN NOISE"，2016 IEEE International Conference on Acoustics Speech and Signal Processing(ICASSP)，2016年3月，pp.5210-5214 L.J.Griffiths，C.W.Jim，"An Alternative Approach to Linearly Constrained Adaptive Beamforming"，IEEE Transactions on antennas and propagation，vol.AP-30，NO.1，1982年1月，pp.27-34 T.Higuchi，T.Yoshioka，T.Nakatani，"Optimization of Speech Enhancement Front-end with Speech Recognition-level Criterion"，Interspeech 2016，2016年，pp.3808-3812

しかしながら、従来の技術においては、音声強調と音声認識とを切り離して行っているため、必ずしも音声認識に最適に音声強調がなされているとは限らなかった。また、非特許文献３に記載されている時間周波数マスクによる音声強調の技術に依っても、音声認識率の改善幅はビームフォーマによる認識率改善幅より小さかった。

本発明は、上記に鑑みてなされたものであって、環境に応じて音声認識に最適な音声強調を行うことを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る形成装置は、音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する取得部と、周波数ごとに音響信号のビームを形成するための所定のビームフォーマを用いて、前記観測信号のうち前記目的音声の音響信号を強調した強調音声の音響信号を算出する音声強調部と、前記算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する音声認識部と、前記参照ラベルと前記強調音声の音素の確率分布との差を最小化するように、前記ビームフォーマを最適化する最適化部と、を備えることを特徴とする。

本発明によれば、環境に応じて音声認識に最適な音声強調を行うことが可能となる。

図１は、本発明の一実施形態に係る形成装置の概略構成を示す模式図である。図２は、本実施形態の推定部の処理を説明するための説明図である。図３は、本実施形態の最適化部の処理を説明するための説明図である。図４は、本実施形態の形成処理手順を示すフローチャートである。図５は、形成プログラムを実行するコンピュータを例示する図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［形成装置の構成］
まず、図１を参照して、本実施形態に係る形成装置の概略構成を説明する。図１に示すように、本実施形態に係る形成装置１は、ワークステーションやパソコン等の汎用コンピュータで実現され、入力部１１と出力部１２と通信制御部１３と、記憶部１４と、制御部１５とを備える。形成装置１は、後述する形成処理を実行して、音声認識に最適に目的音声の音声強調を行ったビームを形成する。

入力部１１は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部１５に対して各種指示情報を入力する。出力部１２は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置、情報通信装置、スピーカ等によって実現され、例えば、後述する形成処理を実行した後、強調音声や音声認識結果等を操作者に対して出力する。

通信制御部１３は、ＮＩＣ（Network Interface Card）等で実現され、ＬＡＮ（Local Area Network）やインターネットなどの電気通信回線を介したサーバ等の外部の装置と制御部１５との通信を制御する。

記憶部１４は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１４には、形成装置１を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。また、この記憶部１４は、通信制御部１３を介して制御部１５と通信する構成でもよい。

制御部１５は、ＣＰＵ（Central Processing Unit）等の演算処理装置がメモリに記憶された処理プログラムを実行することにより、図１に例示するように、取得部１５ａ、時間周波数分析部１５ｂ、推定部１５ｃ、音声強調部１５ｄ、音声認識部１５ｅおよび最適化部１５ｆとして機能する。

取得部１５ａは、音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する。具体的に、取得部１５ａは、音声認識の対象である１つの目的音声の音源からの音響信号と、背景の雑音の音響信号とが混在する状況において、Ｍ箇所の異なる地点に設置されているマイクで収録されたＭ個の観測信号からなる多チャンネル観測信号を取得する。

時間周波数分析部１５ｂは、取得部１５ａが取得したＭ個の観測信号を対象に、短時間フーリエ変換等の短時間信号分析を行って、所定の長さの同一の短時間区間の周波数（以下、時間周波数とも記す）ごとに観測信号を抽出する。また、時間周波数分析部１５ｂは、抽出した時間周波数ごとの観測信号を用いてＭ次元縦ベクトルである観測ベクトルを生成する。

ここで、目的音声はスパース性を有するため、目的音声が含まれない雑音のみの時間周波数の点が存在するものと仮定する（非特許文献１参照）。その場合、観測ベクトルｙ_ｆ，ｔは、次式（１）または次式（２）で表すことができる。ここで、ｔは１〜Ｔの整数であり、時間の番号を表す。また、ｆは０〜Ｆの整数であり、周波数の番号を表す。

なお、ステアリングベクトルとは、目的音声の音源や雑音の音源から各マイクまでの伝達特性を成分とするベクトルであり、音源の空間情報を含む。

推定部１５ｃは、観測信号の所定の長さの同一の短時間区間における周波数ごとの信号の組み合わせのうち、目的音声の音響信号を含まない信号の組み合わせの確率分布を分離して推定することにより、周波数ごとに目的音声の音源の空間情報を含むステアリングベクトルを推定し、該ステアリングベクトルを用いてビームフォーマを算出する。

具体的に、まず、推定部１５ｃは、観測信号の所定の長さの同一の短時間区間における周波数ごとの信号の組み合わせとして、時間周波数分析部１５ｂから観測ベクトルｙ_ｆ，ｔを取得する。次に、推定部１５ｃは、観測ベクトルを目的音声と雑音とのクラスタと、目的音声を含まない雑音のみのクラスタとに分類して、各クラスタに対応する空間相関行列を推定する。また、推定部１５ｃは、これを用いて目的音声の空間相関行列を推定する。この空間相関行列から、目的音声の音源の空間情報を含むステアリングベクトルが導出される。

ここで、図２を参照して、推定部１５ｃの処理を説明する。図２に示すように、推定部１５ｃは、パラメータ推定部１５１、マスク推定部１５２、空間相関行列計算部１５３、ステアリングベクトル計算部１５４、およびビームフォーマ推定部１５５を含む。

まず、観測ベクトルｙ_ｆ，ｔの確率分布は、次式（３）に示すように、目的音声と雑音とのクラスタの確率分布（以下、事後確率とも記す）と雑音のみのクラスタの事後確率との混合分布でモデル化して表すことができる。

この場合に、パラメータ推定部１５１は、上記式（３）の各パラメータ（以下、分布パラメータと記す）を推定する。その際、パラメータ推定部１５１は、次式（４）に示す尤度関数を目的関数とする。

すなわち、パラメータ推定部１５１は、観測ベクトルの分布を近似的に表す混合分布の分布パラメータとして、上記式（４）に示す目的関数を局所最大化する分布パラメータを求める。

そこで、パラメータ推定部１５１は、ＥＭ（Expectation-Maximization）アルゴリズムを適用するため、次式（５）に示すように、対数尤度関数の条件付期待値を表すＱ関数を定義する。

上記式（５）の補助パラメータは、観測ベクトルが各クラスタに属する度合いを表すマスクに相当し、Ｅ（期待値）ステップにおいて次式（６）のように算出できる。

また、分布パラメータの更新式は、Ｍ（最大化）ステップにおいて、上記式（５）に示すＱ関数をそれぞれのパラメータで偏微分して０とすることにより、次式（７）および次式（８）のように導出される。

パラメータ推定部１５１が、Ｍステップにおける上記式（７）および式（８）による分布パラメータの更新を行う。また、マスク推定部１５２が、Ｅステップにおける、更新された分布パラメータを用いた上記式（６）による補助パラメータの算出を行う。推定部１５ｃは、この分布パラメータの更新と補助パラメータの算出とを反復的に行う。これにより、パラメータ推定部１５１は、上記式（４）に示す目的関数を局所最大化する分布パラメータを推定する。また、マスク推定部１５２が、補助パラメータすなわちマスクを推定する。

ここで、観測信号に雑音のみのクラスタに対応する補助パラメータλ^（ｎ） _ｆ，ｔを掛け合わせることにより、雑音のみの観測信号が得られる。したがって、雑音のみの空間相関行列は、次式（９）により得ることができる。

そこで、空間相関行列計算部１５３は、次式（１０）に示すように、観測信号の空間相関行列から雑音のみの空間相関行列を差し引くことにより、目的音声の空間相関行列を求めることができる。

次に、ステアリングベクトル計算部１５４が、目的音声のステアリングベクトルとして、目的音声の空間相関行列を固有値分解して第一固有値に対応する固有ベクトルを導出する。

また、ビームフォーマ推定部１５５は、推定された目的音声のステアリングベクトルを用いて、目的音声を強調するビームを形成するビームフォーマｗ_ｆを算出する。具体的に、ビームフォーマ推定部１５５は、次式（１１）に示す条件下において、次式（１２）に示す目的関数を最小化することにより、ビームフォーマｗ_ｆを算出する（非特許文献２参照）。

ここで算出されるビームフォーマｗ_ｆは、目的音声の音源の空間情報を含むステアリングベクトル方向の音響信号のパワーを減衰させることなく、その他の方向の雑音の音響信号のパワーを減衰させることにより、雑音を抑制するビームを形成することができる。

図１の説明に戻る。音声強調部１５ｄは、周波数ｆごとに音響信号のビームを形成するための所定のビームフォーマｗ_ｆを用いて、観測信号のうち目的音声の音響信号を強調した強調音声の音響信号を算出する。具体的に、音声強調部１５ｄは、目的音声のステアリングベクトルを用いて算出されたビームフォーマｗ_ｆを初期値として用いて、次式（１３）に示すように、観測ベクトルとビームフォーマｗ_ｆとの内積をとることにより強調音声のビームを形成する。

音声認識部１５ｅは、算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する。

ここで、以下の説明において、Ｍ個のマイクロホンで収録された観測信号を、次式（１４）に示すように表す。

また、観測ベクトルｙ_ｆ，ｔを、短時間離散フーリエ変換や短時間離散コサイン変換等の短時間信号分析を適用して求められた時間周波数ごとの信号特徴量Ｙ_m,f,tを用いて、次式（１５）のように表す。

この場合に、音声認識部１５ｅは、次式（１６）で表される演算を行って、上記式（１３）により求められた強調音声の各時刻における音素の確率分布（以下、音素の事後確率または音素状態事後確率とも記す）を求める。

ここで、強調音声は、各周波数における強調音声を用いて、次式（１７）に示すベクトルで表される。

具体的に、音声認識部１５ｅは、音声強調部１５ｄから上記式（１７）に示す強調音声を受け取って、事前に学習されたパラメータの初期値を用いて、線形演算と非線形演算とを複数回繰り返し、次式（１８）で表される各時刻の音素の事後確率を出力する。

また、音声認識部１５ｅは、次式（１９）で表されるように、各時刻の強調音声の音素を示すバイナリの参照ラベルを付与する。

最適化部１５ｆは、参照ラベルと強調音声の音素の確率分布との差を最小化するように、ビームフォーマｗ_ｆを最適化する。すなわち、最適化部１５ｆは、音声強調部１５ｄおよび音声認識部１５ｅで構成されるネットワークを、観測ベクトルを入力すると強調音声の音素状態事後確率を出力するネットワークとみなし、出力の最適化を行う。

具体的に、最適化部１５ｆは、上記式（１８）で表される各時刻の音素の事後確率と、上記式（１９）で表される各時刻の音素の参照ラベルとの間で、次式（２０）に示すように定義されるクロスエントロピーを目的関数として、この目的関数を最小化する。

ここで、最急降下法を適用することにより、ビームフォーマｗ_ｆの更新式は、次式（２１）のように表される。

この場合に、次式（２２）に示すように、目的関数の勾配は、微分法における連鎖律を適用してＡ×Ｂの形に変形することにより算出できる。

すなわち、上記式（２２）のＡの部分は、ニューラルネットワークのパラメータ推定に適用されるバックプロパゲーションに基づく周知の手法を用いて算出することができる。また、上記式（２２）のＢの部分については、上記式（１３）に基づいて、次式（２３）により算出できる。

ここで、図３を参照して、最適化部１５ｆの処理を説明する。図３に示すように、最適化部１５ｆは、パラメータ初期化部１５６、勾配計算部１５７、パラメータ更新部１５８および収束判定部１５９を含む。

パラメータ初期化部１５６は、最適化部１５ｆ内の処理に用いられる各種のパラメータの初期値を設定する。例えば、パラメータ初期化部１５６は、推定部１５ｃが算出したビームフォーマｗ_ｆを初期値として勾配計算部１５７に引き渡す。なお、パラメータ初期化部１５６は、単位ベクトルをビームフォーマｗ_ｆの初期値として勾配計算部１５７に引き渡してもよい。また、パラメータ初期化部１５６は、上記式（２１）に用いられる学習率αをパラメータ更新部１５８に引き渡す。

勾配計算部１５７は、上記式（２２）に示す勾配を算出し、引き渡されたビームフォーマｗ_ｆの初期値と算出した勾配とをパラメータ更新部１５８に引き渡す。パラメータ更新部１５８は、学習率αとビームフォーマｗ_ｆと勾配とを受け取って、上記式（２１）を用いてビームフォーマｗ_ｆの更新値を算出し、算出したビームフォーマｗ_ｆを収束判定部１５９に引き渡す。

収束判定部１５９は、所定の収束条件を満たしているか否かを判定する。収束条件とは、例えば、上記式（２１）に示す更新式の反復回数が所定の回数を満たしていること、あるいは、上記式（１７）に示した目的関数が収束すること等が例示される。収束条件を満たしていない場合には、収束判定部１５９は、パラメータ更新部１５８から受け取ったビームフォーマｗ_ｆを勾配計算部１５７に引き渡す。勾配計算部１５７は、収束判定部１５９から受け取ったビームフォーマｗ_ｆを初期値として、上記の処理を繰り返す。これにより、所定の収束条件を満たすまで、パラメータ更新部１５８がビームフォーマｗ_ｆの更新値を算出する。

所定の収束条件を満たしている場合に、音声認識に最適に更新されたビームフォーマｗ_ｆが導出されたことを意味する。この場合に、収束判定部１５９は、ビームフォーマｗ_ｆの更新値を、直接あるいは推定部１５ｃを介して、音声強調部１５ｄに引き渡す。

なお、音声認識に最適に更新されたビームフォーマｗ_ｆを受け取った音声強調部１５ｄが、このビームフォーマｗ_ｆを用いて、上記式（１３）に示すように、音声認識に最適な強調音声のビームを形成し、スピーカ等で実現される出力部１２が強調音声を出力する。

［形成処理］
次に、図４を参照して、形成装置１の形成処理について説明する。図４は、形成装置１の形成処理手順を示すフローチャートである。図４のフローチャートは、例えば、処理の開始を指示する操作入力があったタイミングで開始される。

まず、取得部１５ａが、音声認識の対象である目的音声の音響信号と、目的音声以外の雑音の音響信号とを含む複数の地点に設置されたマイクで収録された多チャンネルの観測信号を取得する（ステップＳ１）。

次に、観測信号から時間周波数分析部１５ｂが生成した観測ベクトルを用いて、推定部１５ｃが目的音声の音源の空間情報を含むステアリングベクトルを推定する（ステップＳ２）。また、推定部１５ｃは、推定されたステアリングベクトルを用いて、ステアリングベクトル方向の音響信号を強調する強調音声のビームを形成するビームフォーマｗ_ｆを算出する。

音声強調部１５ｄが、推定されたステアリングベクトルを用いて算出されるビームフォーマｗ_ｆを用いて、強調音声の音響信号を算出する（ステップＳ３）。

次に、音声認識部１５ｅが、算出された強調音声の音声認識を行う（ステップＳ４）。すなわち、音声認識部１５ｅは、強調音声の音素の確率分布を推定する。また、音声認識部１５ｅは、強調音声に音素を示す参照ラベルを付与する。

最適化部１５ｆは、参照ラベルと強調音声の音素の確率分布との差を最小化するように、ビームフォーマｗ_ｆを最適化する。すなわち、最適化部１５ｆは、強調音声の音声認識を最適化するビームフォーマｗ_ｆを導出することにより、強調音声を最適化する（ステップＳ５）。

また、出力部１２が、最適化された強調音声を出力する（ステップＳ６）。これにより、一連の形成処理が終了する。

以上、説明したように、本実施形態の形成装置１では、取得部１５ａは、音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する。また、音声強調部１５ｄは、周波数ごとに音響信号のビームを形成するための所定のビームフォーマｗ_ｆを用いて、観測信号のうち該目的音声の音響信号を強調した強調音声の音響信号を算出する。また、音声認識部１５ｅは、算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する。また、最適化部１５ｆは、参照ラベルと強調音声の音素の確率分布との差を最小化するように、ビームフォーマｗ_ｆを最適化する。

これにより、形成装置１は、雑音を抑制して目的音声の音声を強調したビームを、音声認識に最適に形成することができる。したがって、環境に応じて音声認識に最適な音声強調を行うことが可能となる。例えば、雑音下でのスマートフォンの操作や検索、会話や講義の自動書き起こし等の際に高精度な音声認識を行える。

なお、推定部１５ｃが、観測信号の所定の長さの同一の短時間区間ｔにおける周波数ｆごとの信号の組み合わせのうち、目的音声の音響信号を含まない信号の組み合わせの確率分布を分離して推定することにより、周波数毎に目的音声の音源の空間情報を含むステアリングベクトルを推定し、推定したステアリングベクトルを用いてビームフォーマｗ_ｆを算出する。これにより、最適化部１５ｆの処理に用いられるビームフォーマｗ_ｆの初期値として、雑音を抑制するビームを形成するビームフォーマｗ_ｆを算出できる。

また、最適化部１５ｆは、周波数ｆごとのビームフォーマｗ_ｆの全てを更新しなくてもよい。背景雑音の状況等に応じて、例えば、一部の周波数ｆについてのみが更新されてもよい。あるいは、各周波数ｆについてのビームフォーマｗ_ｆの成分のうち、ベクトルの一部の成分のみが更新されてもよい。これにより、形成処理１の処理負荷を軽減することができる。

［実施例］
上記実施形態に係る形成装置１を用いて、バスの中やカフェ等の背景雑音が存在する環境において、一人の話者がタブレットに向かって文章を読み上げる音声を、タブレットに装着されたＭ＝６個のマイクで収録した場合について、実験を行った。ここで、学習率αは６×１０^３とした。また、ビームフォーマｗ_ｆの初期値は、上記式（４）に示す尤度関数を最大化するように求めた値とした。また、上記式（２１）に示すビームフォーマｗ_ｆの更新式の反復回数は３０回とした。

この場合に、形成装置１を用いずに音声認識を行った場合の単語認識誤差率は１６．８０％であった。これ対し、最適化部１５ｆによる処理を行う前のビームフォーマｗ_ｆの初期値による強調音声の音声認識を行った場合の単語認識誤差率は９．０６％であった。また、最適化部１５ｆにより更新したビームフォーマによる強調音声の音声認識を行った場合の単語認識誤差率は８．８９％であった。このように、本実施形態の形成装置１による形成処理の効果を確認できた。

［プログラム］
上記実施形態に係る形成装置１が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、形成装置１は、パッケージソフトウェアやオンラインソフトウェアとして上記の形成処理を実行する形成プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の形成プログラムを情報処理装置に実行させることにより、情報処理装置を形成装置１として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）などの移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistants）などのスレート端末などがその範疇に含まれる。また、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の形成処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、形成装置１は、観測信号を入力とし、強調音声を出力する形成処理サービスを提供するサーバ装置として実装される。この場合、形成装置１は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の形成処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。以下に、形成装置１と同様の機能を実現する形成プログラムを実行するコンピュータの一例を説明する。

図５に示すように、形成プログラムを実行するコンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１０６１が接続される。

ここで、図５に示すように、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各テーブルは、例えばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

また、形成プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した形成装置１が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

また、形成プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、例えば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

なお、形成プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、形成プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

１形成装置
１１入力部
１２出力部
１３通信制御部
１４記憶部
１５制御部
１５ａ取得部
１５ｂ時間周波数分析部
１５ｃ推定部
１５ｄ音声強調部
１５ｅ音声認識部
１５ｆ最適化部

Claims

音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する取得部と、
前記観測信号の所定の長さの同一の短時間区間における周波数ごとの信号の組み合わせのうち、前記目的音声の音響信号を含まない信号の組み合わせの確率分布を分離して推定することにより、周波数ごとに前記目的音声の音源の空間情報を含むステアリングベクトルを推定し、該ステアリングベクトルを用いて、周波数ごとに音響信号のビームを形成するためのビームフォーマを算出する推定部と、
算出された前記ビームフォーマを初期値として用いて、前記観測信号のうち前記目的音声の音響信号を強調した強調音声の音響信号を算出する音声強調部と、
前記算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する音声認識部と、
前記参照ラベルと前記強調音声の音素の確率分布との差を最小化するように、前記ビームフォーマを最適化する最適化部と、
を備えることを特徴とする形成装置。
前記最適化部は、一部の周波数について、または、ベクトルの一部の成分について、前記ビームフォーマを最適化することを特徴とする請求項１に記載の形成装置。
形成装置で実行される形成方法であって、
音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する取得工程と、
前記観測信号の所定の長さの同一の短時間区間における周波数ごとの信号の組み合わせのうち、前記目的音声の音響信号を含まない信号の組み合わせの確率分布を分離して推定することにより、周波数ごとに前記目的音声の音源の空間情報を含むステアリングベクトルを推定し、該ステアリングベクトルを用いて、周波数ごとに音響信号のビームを形成するためのビームフォーマを算出する推定工程と、
算出された前記ビームフォーマを初期値として用いて、前記観測信号のうち前記目的音声の音響信号を強調した強調音声の音響信号を算出する音声強調工程と、
前記算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する音声認識工程と、
前記参照ラベルと前記強調音声の音素の確率分布との差を最小化するように、前記ビームフォーマを最適化する最適化工程と、
を含むことを特徴とする形成方法。
音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する取得ステップと、
前記観測信号の所定の長さの同一の短時間区間における周波数ごとの信号の組み合わせのうち、前記目的音声の音響信号を含まない信号の組み合わせの確率分布を分離して推定することにより、周波数ごとに前記目的音声の音源の空間情報を含むステアリングベクトルを推定し、該ステアリングベクトルを用いて、周波数ごとに音響信号のビームを形成するためのビームフォーマを算出する推定ステップと、
算出された前記ビームフォーマを初期値として用いて、前記観測信号のうち前記目的音声の音響信号を強調した強調音声の音響信号を算出する音声強調ステップと、
前記算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する音声認識ステップと、
前記参照ラベルと前記強調音声の音素の確率分布との差を最小化するように、前記ビームフォーマを最適化する最適化ステップと、
をコンピュータに実行させることを特徴とする形成プログラム。