JP6711765B2 - 形成装置、形成方法および形成プログラム - Google Patents

形成装置、形成方法および形成プログラム Download PDF

Info

Publication number
JP6711765B2
JP6711765B2 JP2017019449A JP2017019449A JP6711765B2 JP 6711765 B2 JP6711765 B2 JP 6711765B2 JP 2017019449 A JP2017019449 A JP 2017019449A JP 2017019449 A JP2017019449 A JP 2017019449A JP 6711765 B2 JP6711765 B2 JP 6711765B2
Authority
JP
Japan
Prior art keywords
voice
acoustic signal
emphasized
speech
beamformer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017019449A
Other languages
English (en)
Other versions
JP2018128500A (ja
Inventor
卓哉 樋口
卓哉 樋口
慶介 木下
慶介 木下
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017019449A priority Critical patent/JP6711765B2/ja
Publication of JP2018128500A publication Critical patent/JP2018128500A/ja
Application granted granted Critical
Publication of JP6711765B2 publication Critical patent/JP6711765B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、形成装置、形成方法および形成プログラムに関する。
従来、音声認識を行う前に、雑音を抑制して音声強調を行ったビームを形成するビームフォーマを算出する技術が開示されている(非特許文献1、2参照)。また、より明確に音声認識を行えるように、環境に応じて音声強調のためのパラメータを推定する技術が開示されている(非特許文献3参照)。
T.Higuchi,N.Ito,T.Yoshioka,T.Nakatani,"ROBUST MVDR BEAMFORMING USING TIME-FREQUENCY MASKS FOR ONLINE/OFFLINE ASR IN NOISE",2016 IEEE International Conference on Acoustics Speech and Signal Processing(ICASSP),2016年3月,pp.5210-5214 L.J.Griffiths,C.W.Jim,"An Alternative Approach to Linearly Constrained Adaptive Beamforming",IEEE Transactions on antennas and propagation,vol.AP-30,NO.1,1982年1月,pp.27-34 T.Higuchi,T.Yoshioka,T.Nakatani,"Optimization of Speech Enhancement Front-end with Speech Recognition-level Criterion",Interspeech 2016,2016年,pp.3808-3812
しかしながら、従来の技術においては、音声強調と音声認識とを切り離して行っているため、必ずしも音声認識に最適に音声強調がなされているとは限らなかった。また、非特許文献3に記載されている時間周波数マスクによる音声強調の技術に依っても、音声認識率の改善幅はビームフォーマによる認識率改善幅より小さかった。
本発明は、上記に鑑みてなされたものであって、環境に応じて音声認識に最適な音声強調を行うことを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る形成装置は、音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する取得部と、周波数ごとに音響信号のビームを形成するための所定のビームフォーマを用いて、前記観測信号のうち前記目的音声の音響信号を強調した強調音声の音響信号を算出する音声強調部と、前記算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する音声認識部と、前記参照ラベルと前記強調音声の音素の確率分布との差を最小化するように、前記ビームフォーマを最適化する最適化部と、を備えることを特徴とする。
本発明によれば、環境に応じて音声認識に最適な音声強調を行うことが可能となる。
図1は、本発明の一実施形態に係る形成装置の概略構成を示す模式図である。 図2は、本実施形態の推定部の処理を説明するための説明図である。 図3は、本実施形態の最適化部の処理を説明するための説明図である。 図4は、本実施形態の形成処理手順を示すフローチャートである。 図5は、形成プログラムを実行するコンピュータを例示する図である。
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[形成装置の構成]
まず、図1を参照して、本実施形態に係る形成装置の概略構成を説明する。図1に示すように、本実施形態に係る形成装置1は、ワークステーションやパソコン等の汎用コンピュータで実現され、入力部11と出力部12と通信制御部13と、記憶部14と、制御部15とを備える。形成装置1は、後述する形成処理を実行して、音声認識に最適に目的音声の音声強調を行ったビームを形成する。
入力部11は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部15に対して各種指示情報を入力する。出力部12は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置、情報通信装置、スピーカ等によって実現され、例えば、後述する形成処理を実行した後、強調音声や音声認識結果等を操作者に対して出力する。
通信制御部13は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネットなどの電気通信回線を介したサーバ等の外部の装置と制御部15との通信を制御する。
記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部14には、形成装置1を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。また、この記憶部14は、通信制御部13を介して制御部15と通信する構成でもよい。
制御部15は、CPU(Central Processing Unit)等の演算処理装置がメモリに記憶された処理プログラムを実行することにより、図1に例示するように、取得部15a、時間周波数分析部15b、推定部15c、音声強調部15d、音声認識部15eおよび最適化部15fとして機能する。
取得部15aは、音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する。具体的に、取得部15aは、音声認識の対象である1つの目的音声の音源からの音響信号と、背景の雑音の音響信号とが混在する状況において、M箇所の異なる地点に設置されているマイクで収録されたM個の観測信号からなる多チャンネル観測信号を取得する。
時間周波数分析部15bは、取得部15aが取得したM個の観測信号を対象に、短時間フーリエ変換等の短時間信号分析を行って、所定の長さの同一の短時間区間の周波数(以下、時間周波数とも記す)ごとに観測信号を抽出する。また、時間周波数分析部15bは、抽出した時間周波数ごとの観測信号を用いてM次元縦ベクトルである観測ベクトルを生成する。
ここで、目的音声はスパース性を有するため、目的音声が含まれない雑音のみの時間周波数の点が存在するものと仮定する(非特許文献1参照)。その場合、観測ベクトルyf,tは、次式(1)または次式(2)で表すことができる。ここで、tは1〜Tの整数であり、時間の番号を表す。また、fは0〜Fの整数であり、周波数の番号を表す。
Figure 0006711765
Figure 0006711765
なお、ステアリングベクトルとは、目的音声の音源や雑音の音源から各マイクまでの伝達特性を成分とするベクトルであり、音源の空間情報を含む。
推定部15cは、観測信号の所定の長さの同一の短時間区間における周波数ごとの信号の組み合わせのうち、目的音声の音響信号を含まない信号の組み合わせの確率分布を分離して推定することにより、周波数ごとに目的音声の音源の空間情報を含むステアリングベクトルを推定し、該ステアリングベクトルを用いてビームフォーマを算出する。
具体的に、まず、推定部15cは、観測信号の所定の長さの同一の短時間区間における周波数ごとの信号の組み合わせとして、時間周波数分析部15bから観測ベクトルyf,tを取得する。次に、推定部15cは、観測ベクトルを目的音声と雑音とのクラスタと、目的音声を含まない雑音のみのクラスタとに分類して、各クラスタに対応する空間相関行列を推定する。また、推定部15cは、これを用いて目的音声の空間相関行列を推定する。この空間相関行列から、目的音声の音源の空間情報を含むステアリングベクトルが導出される。
ここで、図2を参照して、推定部15cの処理を説明する。図2に示すように、推定部15cは、パラメータ推定部151、マスク推定部152、空間相関行列計算部153、ステアリングベクトル計算部154、およびビームフォーマ推定部155を含む。
まず、観測ベクトルyf,tの確率分布は、次式(3)に示すように、目的音声と雑音とのクラスタの確率分布(以下、事後確率とも記す)と雑音のみのクラスタの事後確率との混合分布でモデル化して表すことができる。
Figure 0006711765
この場合に、パラメータ推定部151は、上記式(3)の各パラメータ(以下、分布パラメータと記す)を推定する。その際、パラメータ推定部151は、次式(4)に示す尤度関数を目的関数とする。
Figure 0006711765
すなわち、パラメータ推定部151は、観測ベクトルの分布を近似的に表す混合分布の分布パラメータとして、上記式(4)に示す目的関数を局所最大化する分布パラメータを求める。
そこで、パラメータ推定部151は、EM(Expectation-Maximization)アルゴリズムを適用するため、次式(5)に示すように、対数尤度関数の条件付期待値を表すQ関数を定義する。
Figure 0006711765
上記式(5)の補助パラメータは、観測ベクトルが各クラスタに属する度合いを表すマスクに相当し、E(期待値)ステップにおいて次式(6)のように算出できる。
Figure 0006711765
また、分布パラメータの更新式は、M(最大化)ステップにおいて、上記式(5)に示すQ関数をそれぞれのパラメータで偏微分して0とすることにより、次式(7)および次式(8)のように導出される。
Figure 0006711765
Figure 0006711765
パラメータ推定部151が、Mステップにおける上記式(7)および式(8)による分布パラメータの更新を行う。また、マスク推定部152が、Eステップにおける、更新された分布パラメータを用いた上記式(6)による補助パラメータの算出を行う。推定部15cは、この分布パラメータの更新と補助パラメータの算出とを反復的に行う。これにより、パラメータ推定部151は、上記式(4)に示す目的関数を局所最大化する分布パラメータを推定する。また、マスク推定部152が、補助パラメータすなわちマスクを推定する。
ここで、観測信号に雑音のみのクラスタに対応する補助パラメータλ(n) f,tを掛け合わせることにより、雑音のみの観測信号が得られる。したがって、雑音のみの空間相関行列は、次式(9)により得ることができる。
Figure 0006711765
そこで、空間相関行列計算部153は、次式(10)に示すように、観測信号の空間相関行列から雑音のみの空間相関行列を差し引くことにより、目的音声の空間相関行列を求めることができる。
Figure 0006711765
次に、ステアリングベクトル計算部154が、目的音声のステアリングベクトルとして、目的音声の空間相関行列を固有値分解して第一固有値に対応する固有ベクトルを導出する。
また、ビームフォーマ推定部155は、推定された目的音声のステアリングベクトルを用いて、目的音声を強調するビームを形成するビームフォーマwを算出する。具体的に、ビームフォーマ推定部155は、次式(11)に示す条件下において、次式(12)に示す目的関数を最小化することにより、ビームフォーマwを算出する(非特許文献2参照)。
Figure 0006711765
Figure 0006711765
ここで算出されるビームフォーマwは、目的音声の音源の空間情報を含むステアリングベクトル方向の音響信号のパワーを減衰させることなく、その他の方向の雑音の音響信号のパワーを減衰させることにより、雑音を抑制するビームを形成することができる。
図1の説明に戻る。音声強調部15dは、周波数fごとに音響信号のビームを形成するための所定のビームフォーマwを用いて、観測信号のうち目的音声の音響信号を強調した強調音声の音響信号を算出する。具体的に、音声強調部15dは、目的音声のステアリングベクトルを用いて算出されたビームフォーマwを初期値として用いて、次式(13)に示すように、観測ベクトルとビームフォーマwとの内積をとることにより強調音声のビームを形成する。
Figure 0006711765
音声認識部15eは、算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する。
ここで、以下の説明において、M個のマイクロホンで収録された観測信号を、次式(14)に示すように表す。
Figure 0006711765
また、観測ベクトルyf,tを、短時間離散フーリエ変換や短時間離散コサイン変換等の短時間信号分析を適用して求められた時間周波数ごとの信号特徴量Ym,f,tを用いて、次式(15)のように表す。
Figure 0006711765
この場合に、音声認識部15eは、次式(16)で表される演算を行って、上記式(13)により求められた強調音声の各時刻における音素の確率分布(以下、音素の事後確率または音素状態事後確率とも記す)を求める。
Figure 0006711765
ここで、強調音声は、各周波数における強調音声を用いて、次式(17)に示すベクトルで表される。
Figure 0006711765
具体的に、音声認識部15eは、音声強調部15dから上記式(17)に示す強調音声を受け取って、事前に学習されたパラメータの初期値を用いて、線形演算と非線形演算とを複数回繰り返し、次式(18)で表される各時刻の音素の事後確率を出力する。
Figure 0006711765
また、音声認識部15eは、次式(19)で表されるように、各時刻の強調音声の音素を示すバイナリの参照ラベルを付与する。
Figure 0006711765
最適化部15fは、参照ラベルと強調音声の音素の確率分布との差を最小化するように、ビームフォーマwを最適化する。すなわち、最適化部15fは、音声強調部15dおよび音声認識部15eで構成されるネットワークを、観測ベクトルを入力すると強調音声の音素状態事後確率を出力するネットワークとみなし、出力の最適化を行う。
具体的に、最適化部15fは、上記式(18)で表される各時刻の音素の事後確率と、上記式(19)で表される各時刻の音素の参照ラベルとの間で、次式(20)に示すように定義されるクロスエントロピーを目的関数として、この目的関数を最小化する。
Figure 0006711765
ここで、最急降下法を適用することにより、ビームフォーマwの更新式は、次式(21)のように表される。
Figure 0006711765
この場合に、次式(22)に示すように、目的関数の勾配は、微分法における連鎖律を適用してA×Bの形に変形することにより算出できる。
Figure 0006711765
すなわち、上記式(22)のAの部分は、ニューラルネットワークのパラメータ推定に適用されるバックプロパゲーションに基づく周知の手法を用いて算出することができる。また、上記式(22)のBの部分については、上記式(13)に基づいて、次式(23)により算出できる。
Figure 0006711765
ここで、図3を参照して、最適化部15fの処理を説明する。図3に示すように、最適化部15fは、パラメータ初期化部156、勾配計算部157、パラメータ更新部158および収束判定部159を含む。
パラメータ初期化部156は、最適化部15f内の処理に用いられる各種のパラメータの初期値を設定する。例えば、パラメータ初期化部156は、推定部15cが算出したビームフォーマwを初期値として勾配計算部157に引き渡す。なお、パラメータ初期化部156は、単位ベクトルをビームフォーマwの初期値として勾配計算部157に引き渡してもよい。また、パラメータ初期化部156は、上記式(21)に用いられる学習率αをパラメータ更新部158に引き渡す。
勾配計算部157は、上記式(22)に示す勾配を算出し、引き渡されたビームフォーマwの初期値と算出した勾配とをパラメータ更新部158に引き渡す。パラメータ更新部158は、学習率αとビームフォーマwと勾配とを受け取って、上記式(21)を用いてビームフォーマwの更新値を算出し、算出したビームフォーマwを収束判定部159に引き渡す。
収束判定部159は、所定の収束条件を満たしているか否かを判定する。収束条件とは、例えば、上記式(21)に示す更新式の反復回数が所定の回数を満たしていること、あるいは、上記式(17)に示した目的関数が収束すること等が例示される。収束条件を満たしていない場合には、収束判定部159は、パラメータ更新部158から受け取ったビームフォーマwを勾配計算部157に引き渡す。勾配計算部157は、収束判定部159から受け取ったビームフォーマwを初期値として、上記の処理を繰り返す。これにより、所定の収束条件を満たすまで、パラメータ更新部158がビームフォーマwの更新値を算出する。
所定の収束条件を満たしている場合に、音声認識に最適に更新されたビームフォーマwが導出されたことを意味する。この場合に、収束判定部159は、ビームフォーマwの更新値を、直接あるいは推定部15cを介して、音声強調部15dに引き渡す。
なお、音声認識に最適に更新されたビームフォーマwを受け取った音声強調部15dが、このビームフォーマwを用いて、上記式(13)に示すように、音声認識に最適な強調音声のビームを形成し、スピーカ等で実現される出力部12が強調音声を出力する。
[形成処理]
次に、図4を参照して、形成装置1の形成処理について説明する。図4は、形成装置1の形成処理手順を示すフローチャートである。図4のフローチャートは、例えば、処理の開始を指示する操作入力があったタイミングで開始される。
まず、取得部15aが、音声認識の対象である目的音声の音響信号と、目的音声以外の雑音の音響信号とを含む複数の地点に設置されたマイクで収録された多チャンネルの観測信号を取得する(ステップS1)。
次に、観測信号から時間周波数分析部15bが生成した観測ベクトルを用いて、推定部15cが目的音声の音源の空間情報を含むステアリングベクトルを推定する(ステップS2)。また、推定部15cは、推定されたステアリングベクトルを用いて、ステアリングベクトル方向の音響信号を強調する強調音声のビームを形成するビームフォーマwを算出する。
音声強調部15dが、推定されたステアリングベクトルを用いて算出されるビームフォーマwを用いて、強調音声の音響信号を算出する(ステップS3)。
次に、音声認識部15eが、算出された強調音声の音声認識を行う(ステップS4)。すなわち、音声認識部15eは、強調音声の音素の確率分布を推定する。また、音声認識部15eは、強調音声に音素を示す参照ラベルを付与する。
最適化部15fは、参照ラベルと強調音声の音素の確率分布との差を最小化するように、ビームフォーマwを最適化する。すなわち、最適化部15fは、強調音声の音声認識を最適化するビームフォーマwを導出することにより、強調音声を最適化する(ステップS5)。
また、出力部12が、最適化された強調音声を出力する(ステップS6)。これにより、一連の形成処理が終了する。
以上、説明したように、本実施形態の形成装置1では、取得部15aは、音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する。また、音声強調部15dは、周波数ごとに音響信号のビームを形成するための所定のビームフォーマwを用いて、観測信号のうち該目的音声の音響信号を強調した強調音声の音響信号を算出する。また、音声認識部15eは、算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する。また、最適化部15fは、参照ラベルと強調音声の音素の確率分布との差を最小化するように、ビームフォーマwを最適化する。
これにより、形成装置1は、雑音を抑制して目的音声の音声を強調したビームを、音声認識に最適に形成することができる。したがって、環境に応じて音声認識に最適な音声強調を行うことが可能となる。例えば、雑音下でのスマートフォンの操作や検索、会話や講義の自動書き起こし等の際に高精度な音声認識を行える。
なお、推定部15cが、観測信号の所定の長さの同一の短時間区間tにおける周波数fごとの信号の組み合わせのうち、目的音声の音響信号を含まない信号の組み合わせの確率分布を分離して推定することにより、周波数毎に目的音声の音源の空間情報を含むステアリングベクトルを推定し、推定したステアリングベクトルを用いてビームフォーマwを算出する。これにより、最適化部15fの処理に用いられるビームフォーマwの初期値として、雑音を抑制するビームを形成するビームフォーマwを算出できる。
また、最適化部15fは、周波数fごとのビームフォーマwの全てを更新しなくてもよい。背景雑音の状況等に応じて、例えば、一部の周波数fについてのみが更新されてもよい。あるいは、各周波数fについてのビームフォーマwの成分のうち、ベクトルの一部の成分のみが更新されてもよい。これにより、形成処理1の処理負荷を軽減することができる。
[実施例]
上記実施形態に係る形成装置1を用いて、バスの中やカフェ等の背景雑音が存在する環境において、一人の話者がタブレットに向かって文章を読み上げる音声を、タブレットに装着されたM=6個のマイクで収録した場合について、実験を行った。ここで、学習率αは6×10とした。また、ビームフォーマwの初期値は、上記式(4)に示す尤度関数を最大化するように求めた値とした。また、上記式(21)に示すビームフォーマwの更新式の反復回数は30回とした。
この場合に、形成装置1を用いずに音声認識を行った場合の単語認識誤差率は16.80%であった。これ対し、最適化部15fによる処理を行う前のビームフォーマwの初期値による強調音声の音声認識を行った場合の単語認識誤差率は9.06%であった。また、最適化部15fにより更新したビームフォーマによる強調音声の音声認識を行った場合の単語認識誤差率は8.89%であった。このように、本実施形態の形成装置1による形成処理の効果を確認できた。
[プログラム]
上記実施形態に係る形成装置1が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、形成装置1は、パッケージソフトウェアやオンラインソフトウェアとして上記の形成処理を実行する形成プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の形成プログラムを情報処理装置に実行させることにより、情報処理装置を形成装置1として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)などの移動体通信端末、さらには、PDA(Personal Digital Assistants)などのスレート端末などがその範疇に含まれる。また、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の形成処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、形成装置1は、観測信号を入力とし、強調音声を出力する形成処理サービスを提供するサーバ装置として実装される。この場合、形成装置1は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の形成処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。以下に、形成装置1と同様の機能を実現する形成プログラムを実行するコンピュータの一例を説明する。
図5に示すように、形成プログラムを実行するコンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
ここで、図5に示すように、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各テーブルは、例えばハードディスクドライブ1031やメモリ1010に記憶される。
また、形成プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した形成装置1が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
また、形成プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
なお、形成プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、形成プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
1 形成装置
11 入力部
12 出力部
13 通信制御部
14 記憶部
15 制御部
15a 取得部
15b 時間周波数分析部
15c 推定部
15d 音声強調部
15e 音声認識部
15f 最適化部

Claims (4)

  1. 音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する取得部と、
    前記観測信号の所定の長さの同一の短時間区間における周波数ごとの信号の組み合わせのうち、前記目的音声の音響信号を含まない信号の組み合わせの確率分布を分離して推定することにより、周波数ごとに前記目的音声の音源の空間情報を含むステアリングベクトルを推定し、該ステアリングベクトルを用いて、周波数ごとに音響信号のビームを形成するためのビームフォーマを算出する推定部と、
    算出された前記ビームフォーマを初期値として用いて、前記観測信号のうち前記目的音声の音響信号を強調した強調音声の音響信号を算出する音声強調部と、
    前記算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する音声認識部と、
    前記参照ラベルと前記強調音声の音素の確率分布との差を最小化するように、前記ビームフォーマを最適化する最適化部と、
    を備えることを特徴とする形成装置。
  2. 前記最適化部は、一部の周波数について、または、ベクトルの一部の成分について、前記ビームフォーマを最適化することを特徴とする請求項に記載の形成装置。
  3. 形成装置で実行される形成方法であって、
    音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する取得工程と、
    前記観測信号の所定の長さの同一の短時間区間における周波数ごとの信号の組み合わせのうち、前記目的音声の音響信号を含まない信号の組み合わせの確率分布を分離して推定することにより、周波数ごとに前記目的音声の音源の空間情報を含むステアリングベクトルを推定し、該ステアリングベクトルを用いて、周波数ごとに音響信号のビームを形成するためのビームフォーマを算出する推定工程と、
    算出された前記ビームフォーマを初期値として用いて、前記観測信号のうち前記目的音声の音響信号を強調した強調音声の音響信号を算出する音声強調工程と、
    前記算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する音声認識工程と、
    前記参照ラベルと前記強調音声の音素の確率分布との差を最小化するように、前記ビームフォーマを最適化する最適化工程と、
    を含むことを特徴とする形成方法。
  4. 音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する取得ステップと、
    前記観測信号の所定の長さの同一の短時間区間における周波数ごとの信号の組み合わせのうち、前記目的音声の音響信号を含まない信号の組み合わせの確率分布を分離して推定することにより、周波数ごとに前記目的音声の音源の空間情報を含むステアリングベクトルを推定し、該ステアリングベクトルを用いて、周波数ごとに音響信号のビームを形成するためのビームフォーマを算出する推定ステップと、
    算出された前記ビームフォーマを初期値として用いて、前記観測信号のうち前記目的音声の音響信号を強調した強調音声の音響信号を算出する音声強調ステップと、
    前記算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する音声認識ステップと、
    前記参照ラベルと前記強調音声の音素の確率分布との差を最小化するように、前記ビームフォーマを最適化する最適化ステップと、
    をコンピュータに実行させることを特徴とする形成プログラム。
JP2017019449A 2017-02-06 2017-02-06 形成装置、形成方法および形成プログラム Active JP6711765B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017019449A JP6711765B2 (ja) 2017-02-06 2017-02-06 形成装置、形成方法および形成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017019449A JP6711765B2 (ja) 2017-02-06 2017-02-06 形成装置、形成方法および形成プログラム

Publications (2)

Publication Number Publication Date
JP2018128500A JP2018128500A (ja) 2018-08-16
JP6711765B2 true JP6711765B2 (ja) 2020-06-17

Family

ID=63172697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017019449A Active JP6711765B2 (ja) 2017-02-06 2017-02-06 形成装置、形成方法および形成プログラム

Country Status (1)

Country Link
JP (1) JP6711765B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7182168B2 (ja) * 2019-02-26 2022-12-02 国立大学法人 筑波大学 音情報処理装置及びプログラム
CN112216298B (zh) * 2019-07-12 2024-04-26 大众问问(北京)信息科技有限公司 双麦克风阵列声源定向方法、装置及设备
US20230239616A1 (en) 2020-06-19 2023-07-27 Nippon Telegraph And Telephone Corporation Target sound signal generation apparatus, target sound signal generation method, and program

Also Published As

Publication number Publication date
JP2018128500A (ja) 2018-08-16

Similar Documents

Publication Publication Date Title
US11763834B2 (en) Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method
Drude et al. NARA-WPE: A Python package for weighted prediction error dereverberation in Numpy and Tensorflow for online and offline processing
JP6434657B2 (ja) 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム
JP6517760B2 (ja) マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム
WO2018159402A1 (ja) 音声合成システム、音声合成プログラムおよび音声合成方法
JP6992709B2 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
JP2015040903A (ja) 音声処理装置、音声処理方法、及び、プログラム
JP6711765B2 (ja) 形成装置、形成方法および形成プログラム
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP7423056B2 (ja) 推論器および推論器の学習方法
JP7112348B2 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP6910609B2 (ja) 信号解析装置、方法、及びプログラム
JP6636973B2 (ja) マスク推定装置、マスク推定方法およびマスク推定プログラム
JP2016206442A (ja) 閾値推定装置、音声合成装置、その方法及びプログラム
WO2020184210A1 (ja) 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム
JP6930408B2 (ja) 推定装置、推定方法および推定プログラム
JP6564744B2 (ja) 信号解析装置、方法、及びプログラム
WO2023013081A1 (ja) 学習装置、推定装置、学習方法及び学習プログラム
WO2016092837A1 (ja) 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
JP6553561B2 (ja) 信号解析装置、方法、及びプログラム
JP2013178343A (ja) 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム
JP2017151222A (ja) 信号解析装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200528

R150 Certificate of patent or registration of utility model

Ref document number: 6711765

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150