JP6367773B2

JP6367773B2 - 音声強調装置、音声強調方法及び音声強調プログラム

Info

Publication number: JP6367773B2
Application number: JP2015159490A
Authority: JP
Inventors: 慶介木下; マークデルクロア; 小川　厚徳; 厚徳小川; 中谷　智広; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-08-12
Filing date: 2015-08-12
Publication date: 2018-08-01
Anticipated expiration: 2035-08-12
Also published as: JP2017037250A

Description

本発明は、音声強調装置、音声強調方法及び音声強調プログラムに関する。

実環境でマイクロホンを用いて音声を収音すると、一般的に、目的音声信号だけでなく、雑音や残響が目的音声に重畳した信号が観測される。これらの雑音や残響は、目的音声の明瞭度や聞き取りやすさを大きく低下させてしまう要因となる。

そこで、観測音声信号から雑音や音響歪みを除去する技術がある。例えば、非特許文献１等に開示されているように、雑音や残響を含む観測信号から観測信号特徴量（例えば、対数メルスペクトル等）が抽出される。そして、観測信号特徴量が、雑音や残響を含まないクリーン音声の特徴量に変換される。この変換のための処理は、ニューラルネットワークによる非線形処理であり、そのニューラルネットワークのパラメータは、学習データを用いて事前に学習されているものである。そして、クリーン音声の特徴量と観測信号特徴量を用いてウィナーフィルタ等が計算され、ウィナーフィルタが観測信号に乗算されることで観測信号から音響歪みが取り除かれた音声強調信号が得られる。

Andrew L. Maas, Quoc V. Le, Tyler M. O’Neil, Oriol Vinyals, Patrick Nguyen, and Andrew Y. Ng, "Recurrent Neural Networks for Noise Reduction in Robust ASR," [online], 9-13 September, 2012, in INTERSPEECH 2012, [平成２７年７月１５日検索], インターネット< http://www.isca-speech.org/archive/archive_papers/interspeech_2012/i12_0022.pdf > Pedro J. Moreno, Chris Joerg, Jean-Manuel Van Thong, and Oren Glickman, "A RECURSIVE ALGORITHM FOR THE FORCED ALIGNMENT OF VERY LONG AUDIO SEGMENTS," [online], 30 November - 14 December 1998, in ICSLP'98 Proceedings, [平成２７年７月１５日検索], インターネット< http://www.mirlab.org/conference_papers/International_Conference/ICSLP%201998/PDF/AUTHOR/SL980068.PDF > Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patric Nguyen, Tara N. Sainath, and Brian Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition," [online], IEEE SIGNAL PROCESSING MAGAZINE 2012, Volume:29 , Issue: 6, p.82 - p.97, [平成２７年７月１５日検索], インターネット< http://www.isip.piconepress.com/courses/temple/ece_8527/lectures/2014_spring/lecture_38_spmag.pdf > Heiga Zen, Andrew Senior, Mike Schuster, "STATISTICAL PARAMETRIC SPEECH SYNTHESIS USING DEEP NEURAL NETWORKS," [online], May 26- 31, 2013, in Acoustics, Speech and Signal Processing (ICASSP) 2013 IEEE International Conference, [平成２７年７月１５日検索], インターネット< http://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/40837.pdf >

しかしながら、上記技術では、観測信号は、学習データに基づき最適化されたニューラルネットワークを用いてクリーン音声特徴量に変換されるため、例えば学習データに出現していないパターンの雑音や残響が観測信号に重畳している場合には、音声強調の精度が低下する。

本願が開示する実施形態の一例は、音声強調の精度低下を低減することを目的とする。

本願の実施形態の一例において、入力を受け付けた観測信号から観測信号特徴量を抽出する。また、入力を受け付けた発話内容テキストから、抽出された観測信号特徴量と対応する発話内容特徴量を抽出する。そして、観測信号特徴量及び発話内容特徴量を連結した特徴量にニューラルネットワークを用いてクリーン音声特徴量を推定する。そして、推定されたクリーン音声特徴量から構成されるフィルタを観測信号に乗算した強調音声を出力する。

本願が開示する実施形態の一例によれば、例えば、音声強調の精度低下を低減することができる。

図１は、実施形態に係る音声強調装置の一例を示す図である。図２は、実施形態に係る発話内容特徴量抽出部の一例を示す図である。図３は、実施形態に係る音声強調処理の一例を示すフローチャートである。図４は、実施形態の評価実験結果を示す図である。図５は、プログラムが実行されることにより、実施形態に係る音声強調装置が実現されるコンピュータの一例を示す図である。

以下、本願の開示技術に関する実施形態の一例について、図面を参照して説明する。なお、以下の実施形態により、本願の開示技術が限定されるものではない。また、以下の変形例を含む実施形態は、適宜組合せてもよい。

［実施形態に係る音声強調装置］
図１は、実施形態に係る音声強調装置の一例を示す図である。実施形態に係る音声強調装置１００は、例えばＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＣＰＵ（Central Processing Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。音声強調装置１００は、観測信号特徴量抽出部１０、発話内容特徴量抽出部２０、クリーン音声推定部３０、クリーン音声信号出力部４０を含む。

（観測信号特徴量抽出部）
観測信号特徴量抽出部１０は、発話による音声を含む観測信号を入力として受け付ける。観測信号特徴量抽出部１０は、一般的な音声特徴量抽出を行う。観測信号特徴量抽出部１０は、窓関数等を用いて観測信号を例えば３０ｍｓ程度の短時間フレームに分割する。そして、観測信号特徴量抽出部１０は、分割した各短時間フレームにフーリエ変換を施し、フーリエ変換後の信号の絶対値の二乗の対数を取った対数スペクトルに対してメルフィルタバンクの処理を施し、線形周波数からメル周波数形式へ変換する。

すなわち、観測信号特徴量抽出部１０は、各短時間フレームと対応する観測信号特徴量を示すメル周波数形式の観測信号特徴量ベクトルｙ（ｎ）（ｎ＝１，２，・・・Ｎ）を算出する。なお、ｎは短時間フレームのインデックスである。観測信号特徴量抽出部１０は、観測信号特徴量ベクトルｙ（ｎ）（ｎ＝１，２，・・・Ｎ）を発話内容特徴量抽出部２０へ出力する。また、観測信号特徴量抽出部１０は、観測信号特徴量ベクトルｙ（ｎ）（ｎ＝１，２，・・・Ｎ）をクリーン音声推定部３０へ出力する。また、観測信号特徴量抽出部１０は、観測信号特徴量ベクトルｙ（ｎ）（ｎ＝１，２，・・・Ｎ）をクリーン音声信号出力部４０へ出力する。

（発話内容特徴量抽出部）
図２は、実施形態に係る発話内容特徴量抽出部の一例を示す図である。図２に示すように、発話内容特徴量抽出部２０は、発音情報抽出部２１、タイミング情報計算部２２を含む。発音情報抽出部２１は、発話内容をテキスト変換したテキスト情報（以下、発話内容テキストと呼ぶ）を入力として受け付ける。発話内容テキストは、観測信号の中に含まれるセリフ情報であり、例えば目的音声が「おはよう」という発話であれば、発話内容テキストは「おはよう」である。発音情報抽出部２１は、入力された発話内容テキストから、一般的な発音情報（音素情報）を抽出する。例えば、テキスト情報が「おはよう」である場合、音素情報は「silence,o,h,a,yh,o,u,silence」となる。発音情報抽出部２１は、抽出の際に、一般的な音声認識システムの中で用いられている発音辞書（各単語がどのような発音となるかを示した辞書）等を用いることができる。発音情報抽出部２１は、抽出した発音情報をタイミング情報計算部２２へ出力する。

タイミング情報計算部２２は、発音情報抽出部２１により抽出された発音情報と、観測信号特徴量抽出部１０により抽出された観測特徴量ベクトルｙ（ｎ）の全フレーム分(観測信号ベクトルがＮ個のフレームからなる場合はｙ（１）〜ｙ（Ｎ）までの全ての観測特徴量ベクトル)を入力とし、各短時間フレームｎがいずれの音素情報を持つかというラベル付けを行う。タイミング情報計算部２２は、ラベル付けの際に、音声認識の音響モデル学習等の際に行われる「強制アラインメント」（非特許文献２参照）という技術を用いることができる。強制アラインメントとは、入力として音声特徴量とそれに対応する音素列が与えられた際に、音声特徴量の各短時間フレームが音素列のどの要素に該当するかを強制的に割り当てる処理である。

すなわち、タイミング情報計算部２２は、各短時間フレームｎと対応する発話内容特徴量ベクトルｕ（ｎ）を計算する。発話内容特徴量は、発話情報特徴量とも言う。発話内容特徴量ベクトルｕ（ｎ）は、観測信号内のある短時間フレームｎと対応する音素をベクトルで表す情報である。発話内容特徴量ベクトルｕ（ｎ）は、例えば「おはよう」を「silence,o,h,a,yh,o,u,silence」という形の音素表記にする場合、該当の短時間フレームｎはどの音素に対応するか、という情報をベクトル形式で表現したものである。言い換えると、発話内容特徴量ベクトルｕ（ｎ）は、各短時間フレームｎにおける音素ラベルをベクトル形式で表現したものである。発話内容特徴量ベクトルｕ（ｎ）は、観測信号の全ての短時間フレームについて算出される。例えば、全音素の空間がα個の音素で構成されるα次元の空間とする。例えば音素“o”と対応する基底が、α個の要素の内のβ番目の要素に該当するとする。すると、音素“o”は、発話内容特徴量ベクトルｕ（ｎ）＝［0,0,・・・,0,1,0,0,・・・,0,0］と表現できる（ただし、発話内容特徴量ベクトルｕ（ｎ）のβ番目の成分が“1”であり、それ以外の成分が“0”である）。

以下、発話内容特徴量ベクトルｕ（ｎ）の例について、言語が英語である場合の具体例１〜５を挙げる。実施形態では、少なくも以下の具体例１〜５のいずれかを発話内容特徴量ベクトルｕ（ｎ）として用いることができる。なお、英語には、２０母音及び２４子音の合計４４個の音素が存在する。

（発話内容特徴量ベクトルｕ（ｎ）の具体例１）
具体例１では、次元数４４のベクトルを用意し、ベクトルの各次元が音素空間の一つの音素に対応するものと見なし、発話内容特徴量で示すべき音素に対応する次元のみ値１を持ち、他の次元は０とする。

（発話内容特徴量ベクトルｕ（ｎ）の具体例２）
具体例２では、現在フレームに関する音素情報のみでなく、その直前、直後のフレーム群に現れる音素情報も一緒に現在フレームの音素情報として表す。こうすることにより、より精緻に音素情報を表すことができることが知られている。例えば、１３２次元（４４×３）のベクトルを用意し、最初の４４次元は現在フレームに該当する音素情報、次の４４次元ではその音素の直前の音素情報、次の４４次元ではその音素の直後の音素情報を表すような値を具体例１に従って割り当てる。

（発話内容特徴量ベクトルｕ（ｎ）の具体例３）
音声認識機の中では、一般的に具体例２で挙げた音素情報をより細かく表現した情報であるＨＭＭ（Hidden Markov Model）状態情報が用いられている（非特許文献３参照）。そこで、具体例３では、各ＨＭＭ状態がベクトルの各次元に対応するようにベクトルを設計し、現在フレームに該当するＨＭＭ状態にのみ値１を割り当て、それ以外の次元には値０を割り当てる。

（発話内容特徴量ベクトルｕ（ｎ）の具体例４）
一般的に、音素は、International Phonetic Associationにより定められているPhonetic Questionsと言われるもので定義することが出来ることが知られている。Phonetic Questionsは、ある音素が、母音か子音か、無声か有声か、その音の発音場所はどこか（両唇、唇歯、歯、歯茎、後部歯茎、そり舌、硬口蓋、軟口蓋、口蓋垂、咽頭、声門等）、発音の様式は何か（破裂、鼻、ふるえ、はじき、摩擦、側面摩擦、接近、側面接近など）を問うための一連の質問である。例えば、/s/の発音は、無声、歯茎、摩擦性の子音である。

よって、Phonetic Questionsは、発音方法の種別により音素を分類することができる。そこで、具体例４では、Phonetic Questionsの各質問をベクトルの各次元に割り当て、現在フレームに関する音素情報がベクトルの各次元に対応する質問に対してYesである場合は値１をその次元に割り当て、Noである場合は値０を割り当てることで、音素情報を音声学の知見を反映したバイナリベクトル形式で表す。この発話内容特徴量ベクトルｕ（ｎ）の表現形式は、例えば、音声合成に関する文献（非特許文献４参照）で用いられている。

（発話内容特徴量ベクトルｕ（ｎ）の具体例５）
具体例５は、上記の具体例１〜４で挙げたベクトルに、該当短時間フレームｎで表される音素の持続時間情報、該当短時間フレームｎはその音素の中で何番目のフレームに該当するか表す情報等を付加したベクトル形式である。

なお、英語以外の言語の場合は、各言語に応じた音素を採用することとする。また、観測信号を分割する単位は、短時間フレームに限らず、所定単位であってもよい。また、観測信号の各短時間フレームｎ又は所定単位に対する強制アライメントのラベル付けは、音素情報をラベル付けするものに限らず、音素を識別可能なラベルであればいずれでもよい。

以上のように、発話内容特徴量抽出部２０は、入力を受け付けた発話内容テキストを、観測信号特徴量抽出部１０から入力された観測信号特徴量ベクトルｙ（ｎ）（ｎ＝１，２，・・・Ｎ）をもとに、発話内容特徴量ベクトルｕ（ｎ）を生成し、クリーン音声推定部３０へ出力する。

（クリーン音声推定部）
クリーン音声推定部３０は、各短時間フレームｎにおける観測信号特徴量ベクトルｙ（ｎ）と、発話内容特徴量ベクトルｕ（ｎ）とを結合したベクトルの各要素がニューラルネットワークの各入力ノードの入力値として与えられた時に、対応する短時間フレームにおけるクリーン音声特徴量ｚを推定する。ここで、結合とは、各短時間フレームにおける観測信号特徴量ベクトルｙ（ｎ）を縦ベクトルとし、各短時間フレームにおける発話内容特徴量ベクトルｕ（ｎ）を縦ベクトルとした場合に、それらをｘ（ｎ）＝［ｙ（ｎ）^TＵ（ｎ）^T］^T（ここでＴは行列又はベクトルの転置を表す）という形で連結した新たな縦ベクトルｘ（ｎ）に格納する処理を指す。クリーン音声推定部３０で得られたクリーン音声特徴量ｚは、クリーン音声信号出力部４０へ出力される。

例えば、一般的な全結合Feed-forward型のニューラルネットワーク（非特許文献３参照）であれば、ｌ番目の隠れ層への入力の値ｘ_ｌは、下記の（１）式に従い、ｌ＋１番目の隠れ層の入力に変換される。ただし、ｌ＝０，１，・・・，Ｌ−１である。

なお、上記の（１）式において、ｘ_０（ｌ＝０）は、ニューラルネットワークへ入力する特徴量であり、本実施形態では、各短時間フレームｎの観測信号特徴量ベクトルと該当の短時間フレームｎに対応する発話情報特徴量ベクトルを結合したベクトルである。ここで、行列Ｗ_ｌやベクトルｂ_ｌはニューラルネットワークのパラメータであり、学習データを用いてあらかじめ最適化されるものである。また、関数ｓ（・）は活性化関数と呼ばれ、シグモイド関数等が一般的に用いられる。また、本実施形態で用いるニューラルネットワークの最終層（つまり、出力層）は、活性化関数を持たず、下記の（２）式のような線形変換に従う。

上記の（２）式において、ベクトルｚはネットワークからの出力を表すベクトルであり、ｘ_Ｌは最終層への入力を表す。本実施形態では、典型的なニューラルネットワークである全結合Feed-forward型のニューラルネットワークを用いるものとするが、開示技術はそれに限定されるものではなく、他のニューラルネットワーク形式（リカレントニューラルネットワーク等）も同様に用いることができる。

（クリーン音声信号出力部）
クリーン音声信号出力部４０は、観測信号特徴量抽出部１０からの観測信号特徴量ベクトルｙ（ｎ）と、クリーン音声推定部３０からのクリーン音声特徴量ｚとを用いてウィナーフィルタ等のフィルタを計算し、フィルタを観測信号特徴量ベクトルｙ（ｎ）に乗算することで観測信号から音響歪みを取り除き、クリーン音声信号を出力する。

［音声強調処理］
図３は、実施形態に係る音声強調処理の一例を示すフローチャートである。先ず、観測信号特徴量抽出部１０は、入力された観測信号を分割してから各短時間フレームと対応する観測信号特徴量を示すメル周波数形式の観測信号特徴量ベクトルｙ（ｎ）（ｎ＝１，２，・・・Ｎ）を算出する（ステップＳ１１）。次に、発話内容特徴量抽出部２０は、入力された発話内容テキストを、観測信号特徴量抽出部１０から入力された観測信号特徴量ベクトルｙ（ｎ）（ｎ＝１，２，・・・Ｎ）をもとに、発話内容特徴量ベクトルｕ（ｎ）へ変換する（ステップＳ１２）。次に、クリーン音声推定部３０は、各短時間フレームｎにおける観測信号特徴量ベクトルｙ（ｎ）と、発話内容特徴量ベクトルｕ（ｎ）とを結合したベクトルの各要素がニューラルネットワークの各入力ノードの入力値として与えられた時に、対応する短時間フレームにおけるクリーン音声特徴量ｚを推定する（ステップＳ１３）。次に、クリーン音声信号出力部４０は、観測信号特徴量抽出部１０からの観測信号特徴量ベクトルｙ（ｎ）と、クリーン音声推定部３０からのクリーン音声特徴量ｚとを用いてウィナーフィルタ等を計算し、ウィナーフィルタを観測信号特徴量ベクトルｙ（ｎ）に乗算することで観測信号から音響歪みを取り除き、クリーン音声信号を出力する（ステップＳ１４）。ステップＳ１４が終了すると、音声強調装置１００は、音声強調処理を終了する。

［評価実験］
上記の実施形態の音声強調の性能を評価する目的で評価実験を行った。実験には、雑音残響下音声コーパスAurora4を用いた。Aurora4には種々の雑音や残響を含んだ学習データが用意されているため、その全データについて観測信号特徴量と発話情報特徴量、観測信号特徴量に対応するクリーン音声特徴量をあらかじめ算出し、それを学習データセットとしてニューラルネットワークのパラメータを最適化した。最適化には、ニューラルネットワークのパラメータ最適化方法として広く用いられている確率的勾配法を用いた誤差逆伝搬法を用いた（非特許文献３参照）。学習データを用いてパラメータを最適化した後は、Aurora4のテストデータ（学習データとは異なる雑音、残響、発話者を含む）を用いて手法の評価を行った。

学習データとして、あらゆる雑音や歪みのパターンを網羅することは不可能であるが、ある言語で起こり得る音素を網羅した学習データは、比較的容易に用意することができる。実施形態は、発話内容テキストを観測信号と同時にシステムの入力信号として用い、ニューラルネットワークの枠組みでその情報をクリーン音声特徴量の推定に反映させることで、例えば学習データに出現していないパターンの雑音が観測信号に重畳している場合においても、精度の良い音声強調が可能となる。

実施形態に係る、観測音声信号から雑音や音響歪みを除去する技術は、例えば、実環境下で収音された音から目的信号を抽出して聞き取り易さを向上させる補聴システム、音編集システムなどに利用することが出来る。

実施形態と比較する従来技術は、非特許文献１に記載の従来技術とした。図４は、実施形態の評価実験結果を示す図である。図４は、各種音声のスペクトログラムを示す。図４において、横軸は時刻に該当するFrame index、縦軸は周波数に該当するMel-fbank bin indexである。図４によると、観測信号や従来技術による処理音はクリーン音声とは大きく異なる特徴を持つのに対し、実施形態による出力音はクリーン音声と非常に良く似た特徴を持つことが分かる。

また、下記の（表１）及び（表２）に示すように、ケプストラム距離を用いて実施形態の定量的な評価を行った。ケプストラム距離は低い値であるほど性能が良いことを示す。下記の（１）表及び（２）表において、数値の単位はｄＢである。また、下記の（１）表及び（２）表において、“clean”は「クリーン音声」、“car”は「自動車室内」、“babble”は「雑踏」、“restaurant”は「レストラン」、“street”は「通り」、“airport”は「空港」、“train”は「列車内」であり、各音響条件を示す。下記の（１）表及び（２）表から分かる通り、実施形態は、すべてのテスト環境で従来法を安定して上回る性能を発揮していることが分かる。このように実施形態に係る音声強調装置によれば、未知の雑音、残響環境においても精度の良い音声強調が可能であることが確認できた。

なお、実施形態における発話内容テキストは、「観測信号を人が一度聞き取り、その内容を書き起こしたもの」、「観測信号を自動音声認識により自動的に書き起こしたもの」等、その生成方法については種々の方法がある。

音声強調装置１００において行われる各処理は、全部又は任意の一部が、ＣＰＵ等の処理装置及び処理装置により解析実行されるプログラムにて実現されてもよい。また、音声強調装置１００において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともできる。もしくは、実施形態において説明した各処理のうち、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

（プログラムについて）
図５は、プログラムが実行されることにより、実施形態に係る音声強調装置が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。コンピュータ１０００において、これらの各部はバス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１０４１に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１０５１、キーボード１０５２に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１０６１に接続される。

ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、音声強調装置１００の各処理を規定するプログラムは、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、例えばハードディスクドライブ１０３１に記憶される。例えば、音声強調装置１００における機能構成と同様の情報処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

また、実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３やプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３やプログラムデータ１０９４は、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

実施形態及び変形例（各種具体例）は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１０観測信号特徴量抽出部
２０発話内容特徴量抽出部
２１発音情報抽出部
２２タイミング情報計算部
３０クリーン音声推定部
４０クリーン音声信号出力部
１００音声強調装置
１０００コンピュータ
１０１０メモリ
１０２０ＣＰＵ

Claims

入力を受け付けた観測信号から観測信号特徴量を抽出する観測信号特徴量抽出部と、
入力を受け付けた発話内容テキストから、前記観測信号特徴量抽出部により抽出された観測信号特徴量と対応する発話内容特徴量を抽出する発話内容特徴量抽出部と、
前記観測信号特徴量及び前記発話内容特徴量を連結した特徴量にニューラルネットワークを用いてクリーン音声特徴量を推定するクリーン特徴量推定部と、
前記クリーン特徴量推定部により推定されたクリーン音声特徴量から構成されるフィルタを前記観測信号に乗算した強調音声を出力する出力部と
を備えることを特徴とする音声強調装置。
前記発話内容特徴量は、音素に関わる情報である
ことを特徴とする請求項１に記載の音声強調装置。
前記観測信号特徴量抽出部は、前記観測信号からフレーム単位の観測信号特徴量を抽出し、
前記発話内容特徴量抽出部は、前記発話内容テキストから、前記観測信号特徴量抽出部により抽出された各前記フレーム単位の観測信号特徴量と対応する前記音素に関わる情報を抽出する
ことを特徴とする請求項２に記載の音声強調装置。
前記音素に関わる情報は、各前記フレーム単位の観測信号特徴量が該音素に関わる情報を構成する音素空間の要素である各音素情報のいずれと対応するかを示す情報、各前記フレーム単位の観測信号特徴量及び当該フレームの直前直後のフレーム群の観測信号特徴量がいずれの前記音素情報と対応するかを示す情報、各前記フレーム単位の観測信号特徴量が前記音素情報に基づくいずれのＨＭＭ（Hidden Markov Model）状態情報と対応するかを示す情報、各前記フレーム単位の観測信号特徴量がPhonetic Questionsのいずれの回答と対応するかを示す情報のいずれかの情報である
ことを特徴とする請求項３に記載の音声強調装置。
音声強調装置が行う音声強調方法であって、
入力を受け付けた観測信号から観測信号特徴量を抽出する観測信号特徴量抽出ステップと、
入力を受け付けた発話内容テキストから、前記観測信号特徴量抽出ステップにより抽出された観測信号特徴量と対応する発話内容特徴量を抽出する発話内容特徴量抽出ステップと、
前記観測信号特徴量及び前記発話内容特徴量を連結した特徴量にニューラルネットワークを用いてクリーン音声特徴量を推定するクリーン特徴量推定ステップと、
前記クリーン特徴量推定ステップにより推定されたクリーン音声特徴量から構成されるフィルタを前記観測信号に乗算した強調音声を出力する出力ステップと
を含んだことを特徴とする音声強調方法。
請求項１〜４のいずれか１つに記載の音声強調装置としてコンピュータを機能させるための音声強調プログラム。