JP2017134321A - 信号処理方法、信号処理装置及び信号処理プログラム - Google Patents

信号処理方法、信号処理装置及び信号処理プログラム Download PDF

Info

Publication number
JP2017134321A
JP2017134321A JP2016015464A JP2016015464A JP2017134321A JP 2017134321 A JP2017134321 A JP 2017134321A JP 2016015464 A JP2016015464 A JP 2016015464A JP 2016015464 A JP2016015464 A JP 2016015464A JP 2017134321 A JP2017134321 A JP 2017134321A
Authority
JP
Japan
Prior art keywords
signal processing
feature amount
feature
unit
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016015464A
Other languages
English (en)
Other versions
JP6499095B2 (ja
Inventor
厚徳 小川
Atsunori Ogawa
厚徳 小川
慶介 木下
Keisuke Kinoshita
慶介 木下
マーク デルクロア
Marc Delcroix
マーク デルクロア
拓也 吉岡
Takuya Yoshioka
拓也 吉岡
智広 中谷
Tomohiro Nakatani
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016015464A priority Critical patent/JP6499095B2/ja
Publication of JP2017134321A publication Critical patent/JP2017134321A/ja
Application granted granted Critical
Publication of JP6499095B2 publication Critical patent/JP6499095B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】入力信号に類似するクリーン音声の探索に対する雑音や残響の影響を低減する。【解決手段】信号処理装置1は、入力信号から生成された、例えばメル周波数ケプストラム係数を、雑音又は残響(音響歪み)の低減処理を施したボトルネック特徴量に変換する特徴量変換部14と、混合分布モデルで表現された事例モデルのパラメータを基に、ボトルネック特徴量が混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を入力信号に対応するクリーン音声特徴量として求めるマッチング部15と、該求めたクリーン音声特徴量から構成されるフィルタを入力信号に乗算した強調音声を出力する音声強調フィルタリング部16と、を有する。【選択図】図1

Description

本発明は、信号処理方法、信号処理装置及び信号処理プログラムに関する。
従来、音声認識システム、補聴器、TV会議システム、機械制御インターフェース、楽曲の検索及び採譜のための音楽情報処理システム等において、マイクロホンを用いて音響信号を収音し、目的の音声信号の成分を抽出する技術が利用されている。
一般的に、雑音や残響のある実環境でマイクロホンを用いて音響信号を収音すると、収音目的の音声信号だけでなく、雑音や残響(音響歪み)が重畳された信号が観測される。しかしながら、これらの雑音や残響が信号に重畳されると、収音目的の音声信号の成分の抽出が困難となり、音声信号の明朗度や聞き取りやすさを大きく低下させてしまう要因となる。この結果、例えば、音声認識システムの認識率が低下してしまうという問題があった。
そこで、音声信号に重畳した雑音や残響を取り除く技術が提案されている(例えば、非特許文献1参照)。例えば、図10を参照して、従来の音声信号の信号処理装置について説明する。図10は、従来の信号処理装置の構成の一例を示すブロック図である。なお、図10に示す信号処理装置1Pは、ガウス混合分布モデル(GMM:Gaussian Mixture Model)によって表現された事例モデルを用いて、入力音声を変換した特徴量との類似度を調べ、高い類似度を示した事例モデルを収音目的の音声信号候補としていく。
この従来の信号処理装置1Pには、事例モデル記憶部11Pに、事前に学習された混合分布モデルによって表現された事例モデルが記憶されている。具体的には、事例モデル記憶部11Pには、各事例に対応したクリーン音声の振幅スペクトルと、フレームごとの特徴量(例えば、メル周波数ケプストラム係数)に対して最大の尤度を与えるガウス混合分布のインデックスの系列(セグメント)を含む事例モデルとが記憶されている。
まず、フーリエ変換部12Pが、音響歪みを含む入力信号を離散フーリエ変換して振幅スペクトルを取得し、特徴量生成部13Pが、振幅スペクトルから、特徴量のセグメントを生成する。
続いて、マッチング部15Pは、特徴量生成部13Pが生成した特徴量のセグメントと事例モデル記憶部11Pの事例モデルに含まれるセグメントとのマッチングを行い、事例モデルの中から、特徴量生成部13Pが生成した特徴量のセグメントに対して最も高い類似度を示すセグメントを探索する。具体的には、マッチング部15Pが、事例モデルのセグメントの中から、特徴量生成部13Pが生成した特徴量のセグメントに対して最大の事後確率を与えるセグメントを探索する。
そして、音声強調フィルタリング部16Pが、マッチング部15Pが探索した事例モデルのセグメントの特徴量に対応するクリーン音声の振幅スペクトルを、入力信号に最も類似するクリーン音声の振幅スペクトルとみなし、事例モデル記憶部11Pから、このクリーン音声の振幅スペクトルを読み出して音声強調のためのフィルタを作成する。このフィルタで入力信号をフィルタリングすることによって、入力信号から音響歪みが除去された強調音声信号が得られる。
J. Ming and R. Srinivasan, and D. Crookes, "A Corpus-Based Approach to Speech Enhancement From Nonstationary Noise," IEEE Transactions on Audio, Speech, and Language Processing, Vol.19, No.4, pp.822-836, 2011
このように、従来の信号処理装置1Pは、入力音声に最も類似するクリーン音声の振幅スペクトルを求めるために、特徴量生成部13Pが生成した特徴量のセグメントを用いて、事例モデル記憶部11Pの事例モデルの中から、最大の事後確率を与えるセグメントを探索する。
しかしながら、セグメント探索に用いるメル周波数ケプストラム係数は、振幅スペクトルから得られる単純な特徴量である。このため、入力信号に雑音や残響が含まれる場合には、メル周波数ケプストラム係数も雑音や残響の影響を含むものとなり、マッチング部15Pによるセグメント探索は、必ずしも高精度であるとは言えなかった。
また、事例モデルは、種々の音響歪み環境を想定して準備するものの、現実的に、全ての音響歪み環境に対応する事例モデルを準備することは困難であるため、マッチング部15Pは、特徴量生成部13Pが生成した特徴量のセグメントと高い類似度を有するセグメントを事例モデルの中から探索できない場合があった。
したがって、従来の信号処理装置では、探索に用いる特徴量が雑音や残響の影響を受けるため、入力信号に類似するクリーン音声の特徴量を探索する精度にも限界があった。
本発明は、上記に鑑みてなされたものであって、入力信号に類似するクリーン音声の探索に対する雑音や残響の影響を低減した信号処理方法、信号処理装置及び信号処理プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る信号処理方法は、信号処理装置で実行される信号処理方法であって、前記信号処理装置は、雑音又は音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する記憶部を有し、前記信号処理装置が、入力信号から第1の特徴量を生成する特徴量生成工程と、前記信号処理装置が、前記第1の特徴量を、雑音又は音響歪みの低減処理を施した第2の特徴量に変換する特徴量変換工程と、前記信号処理装置が、前記記憶部に記憶された前記混合分布モデルのパラメータを基に、前記第2の特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を前記入力信号に対応するクリーン音声特徴量として求める照合工程と、前記信号処理装置が、前記照合工程において求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声信号を出力する出力工程と、を含んだことを特徴とする。
本発明によれば、入力信号に類似するクリーン音声の探索に対する雑音や残響の影響を低減することができる。
図1は、実施の形態1に係る信号処理装置の構成の一例を模式的に示す図である。 図2は、セグメントの一例を説明するための図である。 図3は、図1に示す特徴量変換部の処理を説明するための概念図である。 図4は、図1に示す信号処理装置が実行する処理手順を示すフローチャートである。 図5は、実施の形態1に係る事例モデル生成装置の機能構成例を示すブロック図である。 図6は、図5に示す事例モデル生成装置による事例モデル生成処理の処理手順を示すフローチャートである。 図7は、実施の形態2に係る信号処理装置の構成を示すブロック図である。 図8は、図7に示す信号処理装置が実行する処理手順を示すフローチャートである。 図9は、プログラムが実行されることにより、信号処理装置が実現されるコンピュータの一例を示す図である。 図10は、従来の信号処理装置の構成の一例を示すブロック図である。
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[実施の形態1]
まず、実施の形態1に係る信号処理装置について説明する。この信号処理装置は、雑音及び残響(音響歪み)を含む入力信号から音響歪みを除去し、明瞭な強調音声信号を出力する処理を行う装置である。
[信号処理装置の構成]
図1は、実施の形態1に係る信号処理装置の構成の一例を模式的に示す図である。実施の形態1に係る信号処理装置1は、例えば、例えばROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。
図1に示すように、信号処理装置1は、事例モデル記憶部11、フーリエ変換部12、特徴量生成部13、特徴量変換部14、マッチング部15(照合部)及び音声強調フィルタリング部16(出力部)を有する。信号処理装置1は、GMMによって表現された事例モデルMを用いて、入力信号を変換した特徴量との類似度を調べ、高い類似度を示した事例モデルMを収音目的の音声信号候補として利用する。
事例モデル記憶部11は、音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する。具体的には、事例モデル記憶部11は、事例に対応したクリーン音声のデータと、事例モデルMとが記憶される。クリーン音声のデータは、例えば、事例に対応したクリーン音声の振幅スペクトルのことである。また、事例モデルMは、フレームごとの特徴量に対して最大の尤度を与えるガウス混合分布のインデックスの系列(セグメント)を、混合分布モデルのパラメータとして含む。
ここで、事例モデルMは、事前に事例モデル生成装置2(後述)によって生成され、事例モデル記憶部11に格納される。事例モデル生成装置2は、音声コーパスなどから得られる大量のクリーン音声と、種々の環境で得られる雑音及び残響データ(雑音信号の波形や、室内インパルス応答等)とを用い、様々な環境での観測信号を学習用の音声信号として模擬生成し、その模擬観測信号を特徴量領域へ変換したものを用いて、事例モデルMを生成する。
具体的には、事例モデル生成装置2(後述)によって、学習用の音声信号の特徴量を基に、各時間フレームiに対して最大の尤度を与えるガウス混合モデルgの中のガウス分布のインデックスmが求められ、該求められたインデックスmの時間系列(セグメント)が、事例モデルMの一つとなる。この事例モデルMは、ガウス混合モデルgの中のガウス分布のインデックスmの集合とガウス混合モデルgとを用いて以下の(1)式に示すように表される。
Figure 2017134321
なお、mは、i番目のフレームの特徴量kに対して最大の尤度を与えるガウス分布のインデックスであり、ガウス混合分布mの中のガウス分布g(k|m)を表している。Iは学習用の音声信号の総フレーム数を表す。例えば、1時間の学習データを仮定すると、I=3.5×10となる。
そして、事例モデルMに含まれるセグメントの例を説明する。図2は、セグメントの一例を説明するための図である。例えば、図2に示すセグメントの各セルは、Iフレームのうちi番目の時間フレームに対応する。各セル内の数字は最大の尤度を与えるガウス混合モデルg中のガウス分布のインデックスmを表す。
フーリエ変換部12は、入力信号をフレームごとに振幅スペクトルに変換する。この入力信号として、雑音及び残響を含む音声信号がフーリエ変換部12に入力される。まず、フーリエ変換部12は、入力信号の波形データを短い時間幅で切り出す。例えば、フーリエ変換部12は、30(msec)程度の短時間ハミング窓等の窓関数を掛け合わせて入力信号を短い時間幅で切り出す。続いて、フーリエ変換部12は、切り出した入力信号に離散フーリエ変換処理を実行し、振幅スペクトルに変換する。なお、振幅スペクトルとは、周波数スペクトルの振幅データのことである。フーリエ変換部12は、変換後の振幅スペクトルを、特徴量生成部13及び音声強調フィルタリング部16に入力する。
特徴量生成部13は、フーリエ変換部12から出力された振幅スペクトルから特徴量(第1の特徴量)xを生成する。言い換えると、特徴量生成部13は、フーリエ変換部12から入力された振幅スペクトルから特徴量xのセグメントを生成する。なお、tは、処理対象のフレームとする。特徴量生成部13は、フーリエ変換部12から出力された振幅スペクトルの全てを、例えば、メル周波数ケプストラム係数に変換する。これによって、入力信号は、フレームごとに、特徴量ベクトルのセグメントとして表される。
ここで、一般的に使用されているメル周波数ケプストラム係数は、10〜20次程度である。信号処理装置1では、事例モデルMを正確に表すために、一般的に使用されている次数よりも高い次数(例えば、30〜100次程度)のメル周波数ケプストラム係数を用いる。このため、特徴量生成部13は、フーリエ変換部12から出力された振幅スペクトルの全てを、例えば、30〜100次程度のメル周波数ケプストラム係数に変換する。なお、特徴量生成部13は、メル周波数ケプストラム係数以外の特徴量(例えば、ケプストラム係数等)を用いてもよい。特徴量生成部13は、生成した特徴量xを、特徴量変換部14に入力する。
特徴量変換部14は、特徴量生成部13が生成した特徴量xを、雑音又は残響(音響歪み)の低減処理を施した特徴量(第2の特徴量)に変換する。すなわち、特徴量変換部14は、特徴量生成部13で生成された、例えばメル周波数ケプストラム係数等の特徴量を、音響歪み耐性が高い特徴量に変換する。
具体的には、特徴量変換部14は、特徴量生成部13が生成した特徴量xを、DNN(Deep Neural Network;ディープニューラルネットワーク)−HMM(Hidden Markov Model;隠れマルコフモデル)音響モデルにおける非線形な特徴量変換を多段に適用して変換した、音響歪み耐性の高いボトルネック特徴量bを生成する。この場合、特徴量変換部14は、処理対象フレームの特徴量のセグメントのみでなく、その前後の所定数のフレームの特徴量のセグメントも用いて、ボトルネック特徴量bを生成する。ボトルネック特徴量bは、ニューラルネットワークの中間層のユニットを少なく抑えたボトルネック構造のネットワークから抽出される。ボトルネック構造の中間層で抽出している特徴量は、入力特徴量を次元圧縮された音響歪み耐性がある特徴量である。特徴量変換部14は、生成したボトルネック特徴量bを、マッチング部15に入力する。
なお、「音響歪み耐性がある特徴量」とは、同じ入力音声に対して、例えば、異なる二つの音響歪みが付加されていると仮定した場合に、これら二つの異なる音響歪みが付加された入力音声に対して生成した二つの特徴量が「似通っている」ことをいう。言い換えれば、「音響歪み耐性がある特徴量」は、音響歪みの影響が軽減された特徴量である。
マッチング部15は、事例モデルMを用いて、入力された入力音声の特徴量との類似度を調べ、高い類似度を示した事例モデルMに対応するクリーン音声を収音目的の音声信号候補としていく。具体的には、マッチング部15は、事例モデル記憶部11に記憶された混合分布モデルのパラメータを基に、入力された特徴量(特徴量変換部14が変換したボトルネック特徴量b)が混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を入力信号に対応するクリーン音声の特徴量として求める。
言い換えると、マッチング部15は、特徴量変換部14から入力された特徴量(ボトルネック特徴量b)のセグメントと事例モデル記憶部11の事例モデルMに含まれるセグメントとのマッチングを行い、事例モデル記憶部11の事例モデルMの中から、入力された特徴量のセグメントに対して最も高い事後確率をとるセグメントを探索する。マッチング部15は、探索により見つかった事例モデルM中のセグメントについての情報を、音声強調フィルタリング部16に入力する。なお、マッチング部15の処理の詳細については、後述する。
音声強調フィルタリング部16は、マッチング部15によって求められたクリーン音声特徴量から構成されるフィルタを入力信号に乗算した強調音声信号を出力する。具体的には、音声強調フィルタリング部16は、マッチング部15が探索した事例モデルMのセグメントの特徴量に対応するクリーン音声の振幅スペクトルを、入力信号に最も類似するクリーン音声の振幅スペクトルとみなし、事例モデル記憶部11から、このクリーン音声の振幅スペクトルを読み出す。続いて、音声強調フィルタリング部16は、読み出したクリーン音声の振幅スペクトルを用いて音声強調のためのフィルタを作成し、該フィルタを用いて入力信号をフィルタリングする。この結果、音声強調フィルタリング部16から、入力信号から音響歪みが除去された強調音声信号が出力される。
[特徴量変換部の処理]
次に、特徴量変換部14の処理について詳細に説明する。特徴量変換部14は,特徴量生成部13で生成された、例えばメル周波数ケプストラム係数等の特徴量を、音響歪み耐性が高いボトルネック特徴量bに変換する。この特徴量変換部14には、前述したように、DNN−HMM音響モデルが適用される。そこで、図3を参照して、特徴量変換部14の処理を説明する。
図3は、DNN−HMM音響モデルを用いて構成した特徴量変換部14の処理を説明するための概念図である。特徴量変換部14は、特徴量生成部13で生成された、例えばメル周波数ケプストラム係数等の特徴量xを入力データとして受け取る。このとき、特徴量変換部14は、処理対象のフレームtの特徴量xだけでなく、その前後数フレーム分の特徴量も受け取る。
例えば、特徴量変換部14は、当該フレームtの40次元の特徴量x(行ベクトル)に加えて、前後5フレーム分の特徴量xt−5,xt−4,xt−3,xt−2,xt−1,xt+1,xt+2,xt+3,xt+4,xt+5を受け取る。この場合、特徴量変換部14は、合計11フレーム分で440次元の特徴量[xt−5^T,・・・,x^T,・・・,xt+5^T]^T(Tはベクトルの転置を表す)を受け取ることになる。
なお、処理対象のフレームtの特徴量xは、静的な特徴量だけでなく、例えば、その1次,2次回帰係数で構成される場合もある。この場合、特徴量変換部14が受け取る特徴量の次元数も増える。例えば、xが静的な40次元の特徴量と、その1次,2次回帰係数とで構成されるとすると、次元数は合計で120次元となる。これの前後5フレーム分を考慮すると、特徴量変換部14が受け取る特徴量の次元数は、1320次元となる。
続いて、440次元の特徴量を受け取った特徴量変換部14は、これをDNN-HMM音響モデルによる、例えば2048ノードの中間層を何層か(典型的には5〜10層程度)通し、最終的に、例えば80ノードのボトルネック層により80次元程度に次元圧縮されたボトルネック特徴量bを取得する。特徴量変換部14は、このボトルネック特徴量bをマッチング部15に入力する。
特徴量変換部14は、DNN−HMM音響モデルにおいて非線形な特徴量変換を多段に適用することにより,音響歪み耐性が高いボトルネック特徴量bを得ることができる。そして、マッチング部15は、特徴量変換部14から入力されたボトルネック特徴量bを用いてセグメントの探索を行うことで、精度の高いセグメント探索を行うことができる。そこで、このボトルネック特徴量bを用いたマッチング部15の処理について説明する。
[マッチング部の処理]
ここでは、説明の簡易化のため、あるひとつの雑音/残響環境の事例モデルMのみを考える。また、説明の簡易化のため、入力信号の特徴量のセグメントyと学習データセグメントのマッチングの際の時間伸縮は考えないものとする。実施の形態1では、入力信号の特徴量のセグメントyとして、前段の特徴量変換部14から、特徴量変換部14が変換したボトルネック特徴量bが入力される。
まず、マッチング部15は、入力された特徴量のセグメントyと事例モデル記憶部11に記憶された事例モデルMのセグメントとのマッチングを行う。続いて、マッチング部15は、事例モデルMのセグメントの中から、入力信号の特徴量の系列yt:t+τに最も近いセグメントを探索し、入力信号に含まれるクリーン音声に最も類似するクリーン音声系列を与えると思われるセグメントM u:u+τmaxを求めて、出力する。これは、(2)式のように定式化することができる。
Figure 2017134321
ここで、入力される特徴量yは、L個の時間フレームから成るとし、その入力信号の特徴量系列をy={y:t=1,2,・・・,L}とする。また、yt:t+τを入力信号の特徴量の時間フレームtからt+τまでの系列とする。そして、Mu:u+τ={g,m:i=u,u+1,・・・,u+τ}を、事例モデルMの中のu番目からu+τ番目までの連続する時間フレームに対応するガウス分布系列とする。
入力信号の特徴量の系列yt:t+τと事例モデルMの中のあるセグメントとの距離の定義や、入力信号の特徴量系列yt:t+τと一番近い事例モデルMの探索方法として、ユークリッド距離など、他のいくつかの方法を考えることができる。ここでは、入力信号の特徴量系列に対する一番近い事例モデルMのセグメントは、入力信号の特徴量系列によく一致する事例モデルMのセグメントの中でも長さの最も長いものとする。つまり、入力信号の特徴量系列に最も近い事例モデルMのセグメントM u:u+τは、(3)式に示す事後確率を最大化することで求めることができる。
Figure 2017134321
この場合、p(Mu:u+τ|yt:t+τ)は、事後確率を表し、yt:t+τとMu:u+τが比較的よく一致している場合、τが長ければ長いほど高い事後確率を与えるという特徴を持っている。より長いセグメントを探索するという方法を取ることで、ある時間に局所的に存在する雑音などの影響を受けにくくなり、雑音などに対して比較的ロバストなマッチングが行われると思われる。
なお、(3)式の分子の項p(yt:t+τ|Mu:u+τ)は、Mu:u+τに対応する事例モデルMのセグメントに対するyt:t+τの尤度である。この尤度は、(4)式で計算される。
Figure 2017134321
ここでは、簡単のため、隣り合うフレームは独立であることを仮定している。(3)式の分母の第1項は、事例モデルMの中のあらゆる時間フレームu’を開始点として,p(yt:t+τ|Mu’:u’+τ)の和を取ったものである。そして、(3)式の分母の第2項は、ガウス混合モデルgに対するyt:t+τの尤度であり、(5)式で計算される。
Figure 2017134321
続いて、マッチング部15におけるセグメント探索処理の手順をさらに具体的に記述する。まず、セグメントの最大長を(τlim+1)フレームに制限する。例えば、セグメントの最大長を30フレームと制限するならば、τlim=29である。
まず、マッチング部15は、この制限の下で、τ=0、すなわち、セグメント長=1として、(3)式に従い、最大事後確率を与えるセグメント長=1のセグメントを探索する。次に、マッチング部15は、τ=1、すなわち、セグメント長=2として、(3)式に従い、最大事後確率を与えるセグメント長=2のセグメントを探索する。
マッチング部15は、この処理をτ=τlimまで繰り返す。そして、マッチング部15は、探索した長さの異なるセグメント候補の中から、最大事後確率を与えるセグメントを見つける。τmaxは、この最大事後確率を与えるセグメントの長さである。このようなマッチング部15におけるセグメント探索処理は、図2に示すような、Iフレーム分のリニアなメモリで表現できる事例モデルM上で行うことができる。
そして、マッチング部15は、探索した最大事後確率を与えるセグメント、すなわち、入力信号に含まれるクリーン音声に最も類似するクリーン音声系列を与えると思われる事例モデルMのセグメントM u:u+τmaxについての情報を、音声強調フィルタリング部16に入力する。これによって、音声強調フィルタリング部16は、セグメントM u:u+τmaxに対応する事例モデル記憶部11内のクリーン音声の振幅スペクトルを用いて、音声強調のためのフィルタを作成し、該フィルタで入力信号をフィルタリングすることによって、強調音声信号を出力する。
[信号処理装置における信号処理方法]
次に、信号処理装置1における信号処理方法について説明する。図4は、図1に示す信号処理装置1が実行する処理手順を示すフローチャートである。
まず、フーリエ変換部12は、入力信号を振幅スペクトルに変換するフーリエ変換処理(ステップS1)を行う。特徴量生成部13は、フーリエ変換部12から出力された振幅スペクトルから、メル周波数ケプストラム係数等の特徴量を生成する特徴量生成処理(ステップS2)を行う。
特徴量変換部14は、特徴量生成部13が生成した特徴量を、雑音又は残響(音響歪み)の低減処理を施したボトルネック特徴量に変換する特徴量変換処理(ステップS3)を行う。
マッチング部15は、事例モデル記憶部11の事例モデルMのセグメントと、入力されたボトルネック特徴量のセグメントとのマッチングを行い、事例モデルMのセグメントの中から、入力されたボトルネック特徴量のセグメントに対して最も高い事後確率をとるセグメントをとるセグメントを探索するマッチング処理(ステップS4)を行う。
音声強調フィルタリング部16は、マッチング部15が探索した事例モデルMのセグメントの特徴量に対応するクリーン音声の振幅スペクトルを用いて音声強調のためのフィルタを作成し、該フィルタを入力信号に乗算した強調音声を出力する音声強調フィルタリング処理(ステップS5)を行う。
[本実施の形態1の効果]
このように、本実施の形態1に係る信号処理装置1は、マッチング部15がセグメント探索に用いる特徴量yとして、メル周波数ケプストラム係数等の振幅スペクトルから単純に得られる特徴量xではなく、この特徴量xに対して、さらに雑音又は残響(音響歪み)の低減処理を施したボトルネック特徴量bを用いている。言い換えれば,マッチング部15は、音響歪み耐性が高いボトルネック特徴量bを用いてセグメント探索を行うため、セグメント探索に対する雑音又は残響の影響を低減でき、セグメント探索の精度を高めることができる。したがって、信号処理装置1によれば、入力信号に類似するクリーン音声の特徴量を高精度で探索でき、入力信号を明瞭な強調音声信号に変換することができる。
[事例モデル生成装置]
また、信号処理装置1の事例モデル記憶部11に記憶される事例モデルMを生成する事例モデル生成装置2について説明する。この事例モデル生成装置2においても、例えば、学習用の音声信号から生成されたメル周波数ケプストラム係数等の特徴量xに対して、雑音又は残響(音響歪み)の低減処理を施したボトルネック特徴量bを用いて、事例モデルMの生成を行っている。
図5は、事例モデル生成装置2の機能構成例を示すブロック図である。図5に示す事例モデル生成装置2は、例えば、例えばROM、RAM、CPU等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。事例モデル生成装置2は、フーリエ変換部12、特徴量生成部13、特徴量変換部14、ガウス混合モデル学習部25及び最尤ガウス分布計算部26を有する。
まず、事例モデル生成装置2に入力される学習用の音声信号について説明する。事例モデル生成装置2に入力される信号は、様々な雑音/残響環境の音声信号である。この様々な雑音/残響環境の音声信号の中には、クリーン環境の音声信号が含まれている。具体的には、音声コーパスなどから得られる大量のクリーン音声と、種々の環境で得られる雑音及び残響データ(雑音信号の波形や、室内インパルス応答等)とを用い、さまざまな環境での観測信号を模擬生成した模擬観測信号が、学習用の音声信号として事例モデル生成装置2に入力される。これらの学習用の音声信号のそれぞれについて以下の処理が行われる。
フーリエ変換部12、特徴量生成部13及び特徴量変換部14は、図1に示す信号処理装置1におけるフーリエ変換部12、特徴量生成部13及び特徴量変換部14とそれぞれ同様の処理を、学習用の音声信号に対して実行する。特徴量変換部14は、学習用の音声信号に対応する特徴量xをボトルネック特徴量bに変換し、ガウス混合モデル学習部25に入力する。
ガウス混合モデル学習部25は、各短時間フレームtでの特徴量bを学習データとして、通常の最尤推定法によりガウス混合モデルgを得る。ここで、ガウス混合モデル学習部25では、前段の特徴量変換部14から入力されたボトルネック特徴量bを学習データとして用いてガウス混合モデルgを得る。このガウス混合モデルgは、(6)式により示される。また、ガウス混合モデルgの中のガウス分布を表すg(b|m)は、(7)式により示される。なお、bは、i番目のフレームのボトルネック特徴量である。
Figure 2017134321
Figure 2017134321
g(b|m)は、平均μ、分散Σを持つm番目のガウス分布を表す。g(b|m)は、多くの場合多次元ガウス分布であり、その次元数は特徴量bの次元数と同じである。g(b|m)が多次元ガウス分布である場合、平均μ及び分散Σのそれぞれはベクトルとなる。ここでは、g(b|m)が多次元ガウス分布であっても、記載の簡略化のため、g(b|m)のことを単にガウス分布と表現する。w(m)は、m番目のガウス分布に対する混合重みを表す。Qは、混合数を表す。Qには、例えば、4096や8192など、かなり大きな値を設定する。
最尤ガウス分布計算部26は、各時間フレームiに対して最大の尤度を与えるガウス混合モデルgの中のガウス分布のインデックスmを求め、そのインデックスmの時間系列を、事例モデルMの一つのセグメントとして取得する。なお、事例モデルMは、ガウス分布のインデックスmの集合とガウス混合モデルgを用いて、前述した(1)式のように表される。
事例モデルMのセグメントの生成は、学習用の音声信号のそれぞれに対して行われ、生成された各セグメントを含む事例モデルMは、事例モデル記憶部11(図1)に記憶される。また、環境がクリーンの場合は、フーリエ変換部12から出力された振幅スペクトルデータもクリーン音声の振幅スペクトルとして事例モデル記憶部11(図1)に記憶される。
[事例モデル生成処理]
次に、事例モデル生成処理について説明する。図6は、事例モデル生成装置2による事例モデル生成処理の処理手順を示すフローチャートである。
事例モデル生成装置2において、フーリエ変換部12、特徴量生成部13及び特徴量変換部14は、入力された学習用の音声信号に対し、図4に示すステップS1〜S3と同様の手順でステップS11〜ステップS13の処理を行う。
ガウス混合モデル学習部25は、前段の特徴量変換部14から入力されたボトルネック特徴量bを学習データとして用い、通常の最尤推定法によりガウス混合モデルgを得るガウス混合モデル学習処理を行う(ステップS14)。
続いて、最尤ガウス分布計算部26は、各時間フレームiに対して最大の尤度を与えるガウス混合モデルgの中のガウス分布のインデックスmを求め、求めたインデックスmの時間系列を、事例モデルMの一つのセグメントとして取得する最尤ガウス分布計算処理を行う(ステップS15)。そして、事例モデル生成装置2は、このインデックスmの時間系列を、事例モデルMの一つのセグメントとして信号処理装置1の事例モデル記憶部11に格納する格納処理を行う(ステップS16)。
このように、事例モデル生成装置2では、信号処理装置1に対応させて、ボトルネック特徴量bを用いて事例モデルMの生成を行っている。
[実施の形態2]
次に、実施の形態2について説明する。実施の形態2では、音響歪みの影響を軽減させるとともに、話者性を考慮したセグメント探索を行う信号処理装置について説明する。
[信号処理装置の構成]
図7は、実施の形態2に係る信号処理装置の構成を示すブロック図である。図7に示すように、実施の形態2に係る信号処理装置201は、図1に示す信号処理装置1と比して、特徴量変換部14と並列に設けられた話者特徴量生成部217と、特徴量変換部14及び話者特徴量生成部217の後段に設けられた連結部218と、をさらに有する。
話者特徴量生成部217は、話者の特徴を表現した話者特徴量を生成する。話者特徴量生成部217は、特徴量生成部13から出力されるメルケプストラム等の特徴量xを受け取り、この特徴量xを用いて、話者性を表現する例えばi-vector等の数十〜数百次元程度の話者特徴量wを生成する。
連結部218は、特徴量変換部14が変換したボトルネック特徴量bと、話者特徴量生成部217が生成した話者特徴量wとを連結した連結特徴量[b^T,w^T]^T(Tはベクトルの転置を表す)を生成し、後段のマッチング部15に入力する。
そして、マッチング部15は、連結特徴量[b^T,w^T]^Tが混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を入力信号に対応するクリーン音声特徴量として求める。
[話者特徴量生成部の処理]
ここで、話者特徴量生成部217による話者特徴量wの生成処理について説明する。ここでは、話者特徴量生成部217が、話者の特徴を数十〜数百次元程度のベクトルで表現したi-vectorと呼ばれる特徴量ベクトル(ベクトルw)を生成する場合について説明する。また、ここでは、GMM−UBM(Universal Background Model)アプローチで、話者認識におけるi-vectorを抽出する方法について説明する。GMM−UBMアプローチは、「音声らしい」モデル(UBM)を多数の不特定話者の大量のUBM学習用の音声データを用いて学習しておき、新たな話者のモデル(GMM)は、当該話者の少量の音声データを用いてUBMを適応して得るという手法である。UBMは、図示しない記憶部に記憶されている。
以下、i-vectorであるベクトルwの具体的な一連の抽出手順について述べる。i-vectorwを求めるため、まず、実施の形態1に示した(3)式を用いて、信号処理装置201に入力された入力信号eから得られるLフレームの特徴量ベクトル系列Xの各フレームの特徴量x(t=1,2,・・・,L)がUBMのm番目のガウス分布から生成される事後確率γ(m)を計算する。続いて、(3)式で計算した事後確率γt(m)を用いて、下記の(8)式〜(12)式に従い、i-vectorwを計算する。
事後確率γt(m)を用いると、UBMを用いた入力信号eに対する0次、1次のBaum-Welch統計量Ne,m、ベクトルFe,mは、下記の(8)式及び(9)式のようにそれぞれ書くことができる。ただし、ベクトルFe,mは、D次元のベクトルである。
Figure 2017134321
Figure 2017134321
さらに、(8)式及び(9)式を用いて、(10)式及び(11)式のように、0次、1次のBaum-Welch統計量である行列N、ベクトルFを定義する。ただし、行列NはCD次元×CD次元の行列であり、ベクトルFはD次元のベクトルである。
Figure 2017134321
Figure 2017134321
ここで、上記の(10)式の対角成分に現れる行列Iは、D次元×D次元の単位行列である。また、行列Tは、全変動行列と呼ばれるCD次元×M次元の矩形行列(M<<CD)である。行列Σを全変動行列Tで表現できない残留変動成分をモデル化するD次元×D次元の対角共分散行列とする。以上を用いてi-vectorwは、(12)式のように計算できる。
Figure 2017134321
なお、(12)式における行列Iは、M次元×M次元の単位行列である。(12)式に示すベクトルwが入力音声データeに対するM次元のi-vectorである。話者特徴量生成部217は、このベクトルwを、話者特徴量wとして、連結部218に出力する。
[信号処理装置の処理]
そこで、信号処理装置201が強調音声信号を出力するまでの処理について説明する。
図8は、信号処理装置201が実行する処理手順を示すフローチャートである。
ステップS21〜ステップS23は、図1に示すステップS1〜S3である。そして、話者特徴量生成部217は、入力された特徴量xを用いて、話者特徴量wを生成する話者特徴量生成処理を行う(ステップS24)。なお、ステップS23及びステップS24は、例えば、並列に実行される。
連結部218は、特徴量変換部14が変換したボトルネック特徴量bと、話者特徴量生成部217が生成した話者特徴量wとを連結した連結特徴量[b^T,w^T]^T(Tはベクトルの転置を表す)を生成する連結処理を行う(ステップS25)。
マッチング部15は、事例モデル記憶部11の事例モデルMのセグメントに対するマッチング対象として、連結部218が生成した連結特徴量[b^T,w^T]^Tを用い、図4のステップS4と同様の処理手順を行って、マッチング処理を行う(ステップS26)。図8に示すステップS27は、図4に示すステップS5である。
[実施の形態2の効果]
音声認識においては、話者性は不要な情報であるので、DNN−HMM音響モデルを通す特徴量変換処理では、話者性を軽減するような特徴量変換を行う。したがって、特徴量変換部14においては、DNN−HMM音響モデルを通してボトルネック特徴量を抽出する際に、話者性も軽減している。そこで、実施の形態2では、話者性が軽減されたボトルネック特徴量bに話者特徴量wを連結した連結特徴量を用いて、マッチング部15によるセグメント探索を行ことによって、最終的に信号処理装置201から出力される強調音声信号を、話者性を含ませたものとすることができる。
このように、実施の形態2では、音響歪みの影響を軽減したボトルネック特徴量と話者性を表現する話者特徴量とを連結して用いることで、マッチング部15において、音響歪みの影響が軽減し、かつ、話者性を考慮したセグメント探索を行うことが可能になる。
[信号処理装置及び事例モデル生成装置の構成について]
なお、この発明は、複数の音響歪み(雑音/残響環境)の事例モデルを考慮する際の時間、及び、マッチング時に時間伸縮について考慮する際の時間は、非特許文献1に記載されているように、拡張可能である。また、事例モデル記憶部11は、例えば、出願人による特開2015−152704号公報に記載された木構造化構成を適用したセグメントを含む事例モデルMを記憶していてもよい。この場合、マッチング部15は、この木構造化構成のセグメントを含む事例モデルMから、入力信号に対応するセグメントに最も類似したセグメントを探索してもよい。また、マッチング部15は、例えば、出願人による特開2015−152705号公報に記載されたセグメント評価関数を用いてセグメント探索を行ってもよい。
[システム構成等]
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。例えば、信号処理装置1,201及び事例モデル生成装置2は、一体の装置であってもよい。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。また、本実施形態において説明した各処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
図9は、プログラムが実行されることにより、信号処理装置或いは学習モデル生成装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、信号処理装置、学習モデル生成装置の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1031に記憶される。例えば、信号処理装置、学習モデル生成装置における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。なお、ハードディスクドライブ1031は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN、WAN等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
1,1P,201 信号処理装置
2 事例モデル生成装置
11,11P 事例モデル記憶部
12,12P フーリエ変換部
13,13P 特徴量生成部
14 特徴量変換部
15,15P マッチング部
16,16P 音声強調フィルタリング部
25 ガウス混合モデル学習部
26 最尤ガウス分布計算部
217 話者特徴量生成部
218 連結部

Claims (6)

  1. 信号処理装置で実行される信号処理方法であって、
    前記信号処理装置は、雑音又は音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する記憶部を有し、
    前記信号処理装置が、入力信号から第1の特徴量を生成する特徴量生成工程と、
    前記信号処理装置が、前記第1の特徴量を、雑音又は音響歪みの低減処理を施した第2の特徴量に変換する特徴量変換工程と、
    前記信号処理装置が、前記記憶部に記憶された前記混合分布モデルのパラメータを基に、前記第2の特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を前記入力信号に対応するクリーン音声特徴量として求める照合工程と、
    前記信号処理装置が、前記照合工程において求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声信号を出力する出力工程と、
    を含んだことを特徴とする信号処理方法。
  2. 前記低減処理は、DNN(Deep Neural Network;ディープニューラルネットワーク)−HMM(Hidden Markov Model;隠れマルコフモデル)音響モデルからボトルネック特徴量を得る処理であることを特徴とする請求項1に記載の信号処理方法。
  3. 前記信号処理装置が、話者の特徴を表現した話者特徴量を生成する話者特徴量生成工程と、
    前記信号処理装置が、前記第2の特徴量と前記話者特徴量とを連結した連結特徴量を生成する連結工程と、
    をさらに含み、
    前記照合工程は、前記特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算することを特徴とする請求項1または2に記載の信号処理方法。
  4. 前記信号処理装置が、学習用の入力信号から第3の特徴量を生成する学習用特徴量生成工程と、
    前記信号処理装置が、前記第3の特徴量に対して前記雑音又は音響歪みの低減処理を施した第4の特徴量を生成する学習用特徴量変換工程と、
    前記信号処理装置が、前記第4の特徴量を学習データとして、最尤推定法によりガウス混合分布モデルを取得するガウス混合モデル学習工程と、
    前記信号処理装置が、各時間に対して最大の尤度を与える前記ガウス混合分布モデルの中のガウス分布のインデックスを求め、該インデックスの時間系列を取得する最尤ガウス分布計算工程と、
    前記信号処理装置が、前記インデックスの時間系列を、前記混合分布モデルのパラメータとして前記記憶部に格納する格納工程と、
    を含んだことを特徴とする請求項1〜3のいずれか一つに記載の信号処理方法。
  5. 雑音又は音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する記憶部と、
    入力信号から第1の特徴量を生成する特徴量生成部と、
    前記第1の特徴量を、雑音又は音響歪みの低減処理を施した第2の特徴量に変換する特徴量変換部と、
    前記記憶部に記憶された前記混合分布モデルのパラメータを基に、前記第2の特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を前記入力信号に対応するクリーン音声特徴量として求める照合部と、
    前記照合部によって求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声を出力する出力部と、
    を有することを特徴とする信号処理装置。
  6. 信号処理装置に実行させるための信号処理プログラムであって、
    前記信号処理装置は、雑音又は音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する記憶部を有し、
    入力信号から第1の特徴量を生成する特徴量生成ステップと、
    前記第1の特徴量を、雑音又は音響歪みの低減処理を施した第2の特徴量に変換する特徴量変換ステップと、
    前記記憶部に記憶された前記混合分布モデルのパラメータを基に、前記第2の特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を前記入力信号に対応するクリーン音声特徴量として求める照合ステップと、
    前記照合ステップにおいて求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声信号を出力する出力ステップと、
    を前記信号処理装置に実行させるための信号処理プログラム。
JP2016015464A 2016-01-29 2016-01-29 信号処理方法、信号処理装置及び信号処理プログラム Active JP6499095B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016015464A JP6499095B2 (ja) 2016-01-29 2016-01-29 信号処理方法、信号処理装置及び信号処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016015464A JP6499095B2 (ja) 2016-01-29 2016-01-29 信号処理方法、信号処理装置及び信号処理プログラム

Publications (2)

Publication Number Publication Date
JP2017134321A true JP2017134321A (ja) 2017-08-03
JP6499095B2 JP6499095B2 (ja) 2019-04-10

Family

ID=59502775

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016015464A Active JP6499095B2 (ja) 2016-01-29 2016-01-29 信号処理方法、信号処理装置及び信号処理プログラム

Country Status (1)

Country Link
JP (1) JP6499095B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018146683A (ja) * 2017-03-02 2018-09-20 日本電信電話株式会社 信号処理装置、信号処理方法及び信号処理プログラム
CN110379412A (zh) * 2019-09-05 2019-10-25 腾讯科技(深圳)有限公司 语音处理的方法、装置、电子设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015040931A (ja) * 2013-08-21 2015-03-02 日本電気株式会社 信号処理装置、音声処理装置、信号処理方法および音声処理方法
JP2015152705A (ja) * 2014-02-13 2015-08-24 日本電信電話株式会社 信号処理装置、方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015040931A (ja) * 2013-08-21 2015-03-02 日本電気株式会社 信号処理装置、音声処理装置、信号処理方法および音声処理方法
JP2015152705A (ja) * 2014-02-13 2015-08-24 日本電信電話株式会社 信号処理装置、方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
張 兆峰: "DNNに基づく特徴変換による残響環境話者認識", 電子情報通信学会技術研究報告, vol. Vol.114 No.365, JPN6018045771, 8 December 2014 (2014-12-08), JP, pages P.111−116 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018146683A (ja) * 2017-03-02 2018-09-20 日本電信電話株式会社 信号処理装置、信号処理方法及び信号処理プログラム
CN110379412A (zh) * 2019-09-05 2019-10-25 腾讯科技(深圳)有限公司 语音处理的方法、装置、电子设备及计算机可读存储介质
WO2021042870A1 (zh) * 2019-09-05 2021-03-11 腾讯科技(深圳)有限公司 语音处理的方法、装置、电子设备及计算机可读存储介质
CN110379412B (zh) * 2019-09-05 2022-06-17 腾讯科技(深圳)有限公司 语音处理的方法、装置、电子设备及计算机可读存储介质
US11948552B2 (en) 2019-09-05 2024-04-02 Tencent Technology (Shenzhen) Company Limited Speech processing method, apparatus, electronic device, and computer-readable storage medium

Also Published As

Publication number Publication date
JP6499095B2 (ja) 2019-04-10

Similar Documents

Publication Publication Date Title
EP3469582B1 (en) Neural network-based voiceprint information extraction method and apparatus
JP5423670B2 (ja) 音響モデル学習装置および音声認識装置
US11450332B2 (en) Audio conversion learning device, audio conversion device, method, and program
JP6437581B2 (ja) 話者適応型の音声認識
JP2014056235A (ja) 音声処理システム
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
KR102406512B1 (ko) 음성인식 방법 및 그 장치
CN111292763A (zh) 重音检测方法及装置、非瞬时性存储介质
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
JP7423056B2 (ja) 推論器および推論器の学習方法
Chang et al. On the importance of modeling and robustness for deep neural network feature
JP6784255B2 (ja) 音声処理装置、音声処理システム、音声処理方法、およびプログラム
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
JP6367773B2 (ja) 音声強調装置、音声強調方法及び音声強調プログラム
JP2011033879A (ja) サンプルを用いずあらゆる言語を識別可能な識別方法
JP6142401B2 (ja) 音声合成モデル学習装置、方法、及びプログラム
Harvianto et al. Analysis and voice recognition In Indonesian language using MFCC and SVM method
JP6734233B2 (ja) 信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラム
JP6699945B2 (ja) 音響モデル学習装置、その方法、及びプログラム
JP6728083B2 (ja) 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム
JP6139430B2 (ja) 信号処理装置、方法及びプログラム
JP2019028406A (ja) 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム
Pawar et al. Realization of Hidden Markov Model for English Digit Recognition
JP4004368B2 (ja) 音声認識システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190314

R150 Certificate of patent or registration of utility model

Ref document number: 6499095

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150