JP6367773B2 - 音声強調装置、音声強調方法及び音声強調プログラム - Google Patents

音声強調装置、音声強調方法及び音声強調プログラム Download PDF

Info

Publication number
JP6367773B2
JP6367773B2 JP2015159490A JP2015159490A JP6367773B2 JP 6367773 B2 JP6367773 B2 JP 6367773B2 JP 2015159490 A JP2015159490 A JP 2015159490A JP 2015159490 A JP2015159490 A JP 2015159490A JP 6367773 B2 JP6367773 B2 JP 6367773B2
Authority
JP
Japan
Prior art keywords
feature amount
speech
observation signal
utterance content
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015159490A
Other languages
English (en)
Other versions
JP2017037250A (ja
Inventor
慶介 木下
慶介 木下
マーク デルクロア
マーク デルクロア
小川 厚徳
厚徳 小川
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015159490A priority Critical patent/JP6367773B2/ja
Publication of JP2017037250A publication Critical patent/JP2017037250A/ja
Application granted granted Critical
Publication of JP6367773B2 publication Critical patent/JP6367773B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声強調装置、音声強調方法及び音声強調プログラムに関する。
実環境でマイクロホンを用いて音声を収音すると、一般的に、目的音声信号だけでなく、雑音や残響が目的音声に重畳した信号が観測される。これらの雑音や残響は、目的音声の明瞭度や聞き取りやすさを大きく低下させてしまう要因となる。
そこで、観測音声信号から雑音や音響歪みを除去する技術がある。例えば、非特許文献1等に開示されているように、雑音や残響を含む観測信号から観測信号特徴量(例えば、対数メルスペクトル等)が抽出される。そして、観測信号特徴量が、雑音や残響を含まないクリーン音声の特徴量に変換される。この変換のための処理は、ニューラルネットワークによる非線形処理であり、そのニューラルネットワークのパラメータは、学習データを用いて事前に学習されているものである。そして、クリーン音声の特徴量と観測信号特徴量を用いてウィナーフィルタ等が計算され、ウィナーフィルタが観測信号に乗算されることで観測信号から音響歪みが取り除かれた音声強調信号が得られる。
Andrew L. Maas, Quoc V. Le, Tyler M. O’Neil, Oriol Vinyals, Patrick Nguyen, and Andrew Y. Ng, "Recurrent Neural Networks for Noise Reduction in Robust ASR," [online], 9-13 September, 2012, in INTERSPEECH 2012, [平成27年7月15日検索], インターネット< http://www.isca-speech.org/archive/archive_papers/interspeech_2012/i12_0022.pdf > Pedro J. Moreno, Chris Joerg, Jean-Manuel Van Thong, and Oren Glickman, "A RECURSIVE ALGORITHM FOR THE FORCED ALIGNMENT OF VERY LONG AUDIO SEGMENTS," [online], 30 November - 14 December 1998, in ICSLP'98 Proceedings, [平成27年7月15日検索], インターネット< http://www.mirlab.org/conference_papers/International_Conference/ICSLP%201998/PDF/AUTHOR/SL980068.PDF > Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patric Nguyen, Tara N. Sainath, and Brian Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition," [online], IEEE SIGNAL PROCESSING MAGAZINE 2012, Volume:29 , Issue: 6, p.82 - p.97, [平成27年7月15日検索], インターネット< http://www.isip.piconepress.com/courses/temple/ece_8527/lectures/2014_spring/lecture_38_spmag.pdf > Heiga Zen, Andrew Senior, Mike Schuster, "STATISTICAL PARAMETRIC SPEECH SYNTHESIS USING DEEP NEURAL NETWORKS," [online], May 26- 31, 2013, in Acoustics, Speech and Signal Processing (ICASSP) 2013 IEEE International Conference, [平成27年7月15日検索], インターネット< http://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/40837.pdf >
しかしながら、上記技術では、観測信号は、学習データに基づき最適化されたニューラルネットワークを用いてクリーン音声特徴量に変換されるため、例えば学習データに出現していないパターンの雑音や残響が観測信号に重畳している場合には、音声強調の精度が低下する。
本願が開示する実施形態の一例は、音声強調の精度低下を低減することを目的とする。
本願の実施形態の一例において、入力を受け付けた観測信号から観測信号特徴量を抽出する。また、入力を受け付けた発話内容テキストから、抽出された観測信号特徴量と対応する発話内容特徴量を抽出する。そして、観測信号特徴量及び発話内容特徴量を連結した特徴量にニューラルネットワークを用いてクリーン音声特徴量を推定する。そして、推定されたクリーン音声特徴量から構成されるフィルタを観測信号に乗算した強調音声を出力する。
本願が開示する実施形態の一例によれば、例えば、音声強調の精度低下を低減することができる。
図1は、実施形態に係る音声強調装置の一例を示す図である。 図2は、実施形態に係る発話内容特徴量抽出部の一例を示す図である。 図3は、実施形態に係る音声強調処理の一例を示すフローチャートである。 図4は、実施形態の評価実験結果を示す図である。 図5は、プログラムが実行されることにより、実施形態に係る音声強調装置が実現されるコンピュータの一例を示す図である。
以下、本願の開示技術に関する実施形態の一例について、図面を参照して説明する。なお、以下の実施形態により、本願の開示技術が限定されるものではない。また、以下の変形例を含む実施形態は、適宜組合せてもよい。
[実施形態に係る音声強調装置]
図1は、実施形態に係る音声強調装置の一例を示す図である。実施形態に係る音声強調装置100は、例えばROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。音声強調装置100は、観測信号特徴量抽出部10、発話内容特徴量抽出部20、クリーン音声推定部30、クリーン音声信号出力部40を含む。
(観測信号特徴量抽出部)
観測信号特徴量抽出部10は、発話による音声を含む観測信号を入力として受け付ける。観測信号特徴量抽出部10は、一般的な音声特徴量抽出を行う。観測信号特徴量抽出部10は、窓関数等を用いて観測信号を例えば30ms程度の短時間フレームに分割する。そして、観測信号特徴量抽出部10は、分割した各短時間フレームにフーリエ変換を施し、フーリエ変換後の信号の絶対値の二乗の対数を取った対数スペクトルに対してメルフィルタバンクの処理を施し、線形周波数からメル周波数形式へ変換する。
すなわち、観測信号特徴量抽出部10は、各短時間フレームと対応する観測信号特徴量を示すメル周波数形式の観測信号特徴量ベクトルy(n)(n=1,2,・・・N)を算出する。なお、nは短時間フレームのインデックスである。観測信号特徴量抽出部10は、観測信号特徴量ベクトルy(n)(n=1,2,・・・N)を発話内容特徴量抽出部20へ出力する。また、観測信号特徴量抽出部10は、観測信号特徴量ベクトルy(n)(n=1,2,・・・N)をクリーン音声推定部30へ出力する。また、観測信号特徴量抽出部10は、観測信号特徴量ベクトルy(n)(n=1,2,・・・N)をクリーン音声信号出力部40へ出力する。
(発話内容特徴量抽出部)
図2は、実施形態に係る発話内容特徴量抽出部の一例を示す図である。図2に示すように、発話内容特徴量抽出部20は、発音情報抽出部21、タイミング情報計算部22を含む。発音情報抽出部21は、発話内容をテキスト変換したテキスト情報(以下、発話内容テキストと呼ぶ)を入力として受け付ける。発話内容テキストは、観測信号の中に含まれるセリフ情報であり、例えば目的音声が「おはよう」という発話であれば、発話内容テキストは「おはよう」である。発音情報抽出部21は、入力された発話内容テキストから、一般的な発音情報(音素情報)を抽出する。例えば、テキスト情報が「おはよう」である場合、音素情報は「silence,o,h,a,yh,o,u,silence」となる。発音情報抽出部21は、抽出の際に、一般的な音声認識システムの中で用いられている発音辞書(各単語がどのような発音となるかを示した辞書)等を用いることができる。発音情報抽出部21は、抽出した発音情報をタイミング情報計算部22へ出力する。
タイミング情報計算部22は、発音情報抽出部21により抽出された発音情報と、観測信号特徴量抽出部10により抽出された観測特徴量ベクトルy(n)の全フレーム分(観測信号ベクトルがN個のフレームからなる場合はy(1)〜y(N)までの全ての観測特徴量ベクトル)を入力とし、各短時間フレームnがいずれの音素情報を持つかというラベル付けを行う。タイミング情報計算部22は、ラベル付けの際に、音声認識の音響モデル学習等の際に行われる「強制アラインメント」(非特許文献2参照)という技術を用いることができる。強制アラインメントとは、入力として音声特徴量とそれに対応する音素列が与えられた際に、音声特徴量の各短時間フレームが音素列のどの要素に該当するかを強制的に割り当てる処理である。
すなわち、タイミング情報計算部22は、各短時間フレームnと対応する発話内容特徴量ベクトルu(n)を計算する。発話内容特徴量は、発話情報特徴量とも言う。発話内容特徴量ベクトルu(n)は、観測信号内のある短時間フレームnと対応する音素をベクトルで表す情報である。発話内容特徴量ベクトルu(n)は、例えば「おはよう」を「silence,o,h,a,yh,o,u,silence」という形の音素表記にする場合、該当の短時間フレームnはどの音素に対応するか、という情報をベクトル形式で表現したものである。言い換えると、発話内容特徴量ベクトルu(n)は、各短時間フレームnにおける音素ラベルをベクトル形式で表現したものである。発話内容特徴量ベクトルu(n)は、観測信号の全ての短時間フレームについて算出される。例えば、全音素の空間がα個の音素で構成されるα次元の空間とする。例えば音素“o”と対応する基底が、α個の要素の内のβ番目の要素に該当するとする。すると、音素“o”は、発話内容特徴量ベクトルu(n)=[0,0,・・・,0,1,0,0,・・・,0,0]と表現できる(ただし、発話内容特徴量ベクトルu(n)のβ番目の成分が“1”であり、それ以外の成分が“0”である)。
以下、発話内容特徴量ベクトルu(n)の例について、言語が英語である場合の具体例1〜5を挙げる。実施形態では、少なくも以下の具体例1〜5のいずれかを発話内容特徴量ベクトルu(n)として用いることができる。なお、英語には、20母音及び24子音の合計44個の音素が存在する。
(発話内容特徴量ベクトルu(n)の具体例1)
具体例1では、次元数44のベクトルを用意し、ベクトルの各次元が音素空間の一つの音素に対応するものと見なし、発話内容特徴量で示すべき音素に対応する次元のみ値1を持ち、他の次元は0とする。
(発話内容特徴量ベクトルu(n)の具体例2)
具体例2では、現在フレームに関する音素情報のみでなく、その直前、直後のフレーム群に現れる音素情報も一緒に現在フレームの音素情報として表す。こうすることにより、より精緻に音素情報を表すことができることが知られている。例えば、132次元(44×3)のベクトルを用意し、最初の44次元は現在フレームに該当する音素情報、次の44次元ではその音素の直前の音素情報、次の44次元ではその音素の直後の音素情報を表すような値を具体例1に従って割り当てる。
(発話内容特徴量ベクトルu(n)の具体例3)
音声認識機の中では、一般的に具体例2で挙げた音素情報をより細かく表現した情報であるHMM(Hidden Markov Model)状態情報が用いられている(非特許文献3参照)。そこで、具体例3では、各HMM状態がベクトルの各次元に対応するようにベクトルを設計し、現在フレームに該当するHMM状態にのみ値1を割り当て、それ以外の次元には値0を割り当てる。
(発話内容特徴量ベクトルu(n)の具体例4)
一般的に、音素は、International Phonetic Associationにより定められているPhonetic Questionsと言われるもので定義することが出来ることが知られている。Phonetic Questionsは、ある音素が、母音か子音か、無声か有声か、その音の発音場所はどこか(両唇、唇歯、歯、歯茎、後部歯茎、そり舌、硬口蓋、軟口蓋、口蓋垂、咽頭、声門等)、発音の様式は何か(破裂、鼻、ふるえ、はじき、摩擦、側面摩擦、接近、側面接近など)を問うための一連の質問である。例えば、/s/の発音は、無声、歯茎、摩擦性の子音である。
よって、Phonetic Questionsは、発音方法の種別により音素を分類することができる。そこで、具体例4では、Phonetic Questionsの各質問をベクトルの各次元に割り当て、現在フレームに関する音素情報がベクトルの各次元に対応する質問に対してYesである場合は値1をその次元に割り当て、Noである場合は値0を割り当てることで、音素情報を音声学の知見を反映したバイナリベクトル形式で表す。この発話内容特徴量ベクトルu(n)の表現形式は、例えば、音声合成に関する文献(非特許文献4参照)で用いられている。
(発話内容特徴量ベクトルu(n)の具体例5)
具体例5は、上記の具体例1〜4で挙げたベクトルに、該当短時間フレームnで表される音素の持続時間情報、該当短時間フレームnはその音素の中で何番目のフレームに該当するか表す情報等を付加したベクトル形式である。
なお、英語以外の言語の場合は、各言語に応じた音素を採用することとする。また、観測信号を分割する単位は、短時間フレームに限らず、所定単位であってもよい。また、観測信号の各短時間フレームn又は所定単位に対する強制アライメントのラベル付けは、音素情報をラベル付けするものに限らず、音素を識別可能なラベルであればいずれでもよい。
以上のように、発話内容特徴量抽出部20は、入力を受け付けた発話内容テキストを、観測信号特徴量抽出部10から入力された観測信号特徴量ベクトルy(n)(n=1,2,・・・N)をもとに、発話内容特徴量ベクトルu(n)を生成し、クリーン音声推定部30へ出力する。
(クリーン音声推定部)
クリーン音声推定部30は、各短時間フレームnにおける観測信号特徴量ベクトルy(n)と、発話内容特徴量ベクトルu(n)とを結合したベクトルの各要素がニューラルネットワークの各入力ノードの入力値として与えられた時に、対応する短時間フレームにおけるクリーン音声特徴量zを推定する。ここで、結合とは、各短時間フレームにおける観測信号特徴量ベクトルy(n)を縦ベクトルとし、各短時間フレームにおける発話内容特徴量ベクトルu(n)を縦ベクトルとした場合に、それらをx(n)=[y(n)TU(n)TT(ここでTは行列又はベクトルの転置を表す)という形で連結した新たな縦ベクトルx(n)に格納する処理を指す。クリーン音声推定部30で得られたクリーン音声特徴量zは、クリーン音声信号出力部40へ出力される。
例えば、一般的な全結合Feed-forward型のニューラルネットワーク(非特許文献3参照)であれば、l番目の隠れ層への入力の値xは、下記の(1)式に従い、l+1番目の隠れ層の入力に変換される。ただし、l=0,1,・・・,L−1である。
なお、上記の(1)式において、x(l=0)は、ニューラルネットワークへ入力する特徴量であり、本実施形態では、各短時間フレームnの観測信号特徴量ベクトルと該当の短時間フレームnに対応する発話情報特徴量ベクトルを結合したベクトルである。ここで、行列Wやベクトルbはニューラルネットワークのパラメータであり、学習データを用いてあらかじめ最適化されるものである。また、関数s(・)は活性化関数と呼ばれ、シグモイド関数等が一般的に用いられる。また、本実施形態で用いるニューラルネットワークの最終層(つまり、出力層)は、活性化関数を持たず、下記の(2)式のような線形変換に従う。
上記の(2)式において、ベクトルzはネットワークからの出力を表すベクトルであり、xは最終層への入力を表す。本実施形態では、典型的なニューラルネットワークである全結合Feed-forward型のニューラルネットワークを用いるものとするが、開示技術はそれに限定されるものではなく、他のニューラルネットワーク形式(リカレントニューラルネットワーク等)も同様に用いることができる。
(クリーン音声信号出力部)
クリーン音声信号出力部40は、観測信号特徴量抽出部10からの観測信号特徴量ベクトルy(n)と、クリーン音声推定部30からのクリーン音声特徴量zとを用いてウィナーフィルタ等のフィルタを計算し、フィルタを観測信号特徴量ベクトルy(n)に乗算することで観測信号から音響歪みを取り除き、クリーン音声信号を出力する。
[音声強調処理]
図3は、実施形態に係る音声強調処理の一例を示すフローチャートである。先ず、観測信号特徴量抽出部10は、入力された観測信号を分割してから各短時間フレームと対応する観測信号特徴量を示すメル周波数形式の観測信号特徴量ベクトルy(n)(n=1,2,・・・N)を算出する(ステップS11)。次に、発話内容特徴量抽出部20は、入力された発話内容テキストを、観測信号特徴量抽出部10から入力された観測信号特徴量ベクトルy(n)(n=1,2,・・・N)をもとに、発話内容特徴量ベクトルu(n)へ変換する(ステップS12)。次に、クリーン音声推定部30は、各短時間フレームnにおける観測信号特徴量ベクトルy(n)と、発話内容特徴量ベクトルu(n)とを結合したベクトルの各要素がニューラルネットワークの各入力ノードの入力値として与えられた時に、対応する短時間フレームにおけるクリーン音声特徴量zを推定する(ステップS13)。次に、クリーン音声信号出力部40は、観測信号特徴量抽出部10からの観測信号特徴量ベクトルy(n)と、クリーン音声推定部30からのクリーン音声特徴量zとを用いてウィナーフィルタ等を計算し、ウィナーフィルタを観測信号特徴量ベクトルy(n)に乗算することで観測信号から音響歪みを取り除き、クリーン音声信号を出力する(ステップS14)。ステップS14が終了すると、音声強調装置100は、音声強調処理を終了する。
[評価実験]
上記の実施形態の音声強調の性能を評価する目的で評価実験を行った。実験には、雑音残響下音声コーパスAurora4を用いた。Aurora4には種々の雑音や残響を含んだ学習データが用意されているため、その全データについて観測信号特徴量と発話情報特徴量、観測信号特徴量に対応するクリーン音声特徴量をあらかじめ算出し、それを学習データセットとしてニューラルネットワークのパラメータを最適化した。最適化には、ニューラルネットワークのパラメータ最適化方法として広く用いられている確率的勾配法を用いた誤差逆伝搬法を用いた(非特許文献3参照)。学習データを用いてパラメータを最適化した後は、Aurora4のテストデータ(学習データとは異なる雑音、残響、発話者を含む)を用いて手法の評価を行った。
学習データとして、あらゆる雑音や歪みのパターンを網羅することは不可能であるが、ある言語で起こり得る音素を網羅した学習データは、比較的容易に用意することができる。実施形態は、発話内容テキストを観測信号と同時にシステムの入力信号として用い、ニューラルネットワークの枠組みでその情報をクリーン音声特徴量の推定に反映させることで、例えば学習データに出現していないパターンの雑音が観測信号に重畳している場合においても、精度の良い音声強調が可能となる。
実施形態に係る、観測音声信号から雑音や音響歪みを除去する技術は、例えば、実環境下で収音された音から目的信号を抽出して聞き取り易さを向上させる補聴システム、音編集システムなどに利用することが出来る。
実施形態と比較する従来技術は、非特許文献1に記載の従来技術とした。図4は、実施形態の評価実験結果を示す図である。図4は、各種音声のスペクトログラムを示す。図4において、横軸は時刻に該当するFrame index、縦軸は周波数に該当するMel-fbank bin indexである。図4によると、観測信号や従来技術による処理音はクリーン音声とは大きく異なる特徴を持つのに対し、実施形態による出力音はクリーン音声と非常に良く似た特徴を持つことが分かる。
また、下記の(表1)及び(表2)に示すように、ケプストラム距離を用いて実施形態の定量的な評価を行った。ケプストラム距離は低い値であるほど性能が良いことを示す。下記の(1)表及び(2)表において、数値の単位はdBである。また、下記の(1)表及び(2)表において、“clean”は「クリーン音声」、“car”は「自動車室内」、“babble”は「雑踏」、“restaurant”は「レストラン」、“street”は「通り」、“airport”は「空港」、“train”は「列車内」であり、各音響条件を示す。下記の(1)表及び(2)表から分かる通り、実施形態は、すべてのテスト環境で従来法を安定して上回る性能を発揮していることが分かる。このように実施形態に係る音声強調装置によれば、未知の雑音、残響環境においても精度の良い音声強調が可能であることが確認できた。
なお、実施形態における発話内容テキストは、「観測信号を人が一度聞き取り、その内容を書き起こしたもの」、「観測信号を自動音声認識により自動的に書き起こしたもの」等、その生成方法については種々の方法がある。
音声強調装置100において行われる各処理は、全部又は任意の一部が、CPU等の処理装置及び処理装置により解析実行されるプログラムにて実現されてもよい。また、音声強調装置100において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともできる。もしくは、実施形態において説明した各処理のうち、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。
(プログラムについて)
図5は、プログラムが実行されることにより、実施形態に係る音声強調装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。コンピュータ1000において、これらの各部はバス1080によって接続される。
メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、例えばディスプレイ1061に接続される。
ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、音声強調装置100の各処理を規定するプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、例えばハードディスクドライブ1031に記憶される。例えば、音声強調装置100における機能構成と同様の情報処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
また、実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093やプログラムデータ1094は、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
実施形態及び変形例(各種具体例)は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
10 観測信号特徴量抽出部
20 発話内容特徴量抽出部
21 発音情報抽出部
22 タイミング情報計算部
30 クリーン音声推定部
40 クリーン音声信号出力部
100 音声強調装置
1000 コンピュータ
1010 メモリ
1020 CPU

Claims (6)

  1. 入力を受け付けた観測信号から観測信号特徴量を抽出する観測信号特徴量抽出部と、
    入力を受け付けた発話内容テキストから、前記観測信号特徴量抽出部により抽出された観測信号特徴量と対応する発話内容特徴量を抽出する発話内容特徴量抽出部と、
    前記観測信号特徴量及び前記発話内容特徴量を連結した特徴量にニューラルネットワークを用いてクリーン音声特徴量を推定するクリーン特徴量推定部と、
    前記クリーン特徴量推定部により推定されたクリーン音声特徴量から構成されるフィルタを前記観測信号に乗算した強調音声を出力する出力部と
    を備えることを特徴とする音声強調装置。
  2. 前記発話内容特徴量は、音素に関わる情報である
    ことを特徴とする請求項1に記載の音声強調装置。
  3. 前記観測信号特徴量抽出部は、前記観測信号からフレーム単位の観測信号特徴量を抽出し、
    前記発話内容特徴量抽出部は、前記発話内容テキストから、前記観測信号特徴量抽出部により抽出された各前記フレーム単位の観測信号特徴量と対応する前記音素に関わる情報を抽出する
    ことを特徴とする請求項2に記載の音声強調装置。
  4. 前記音素に関わる情報は、各前記フレーム単位の観測信号特徴量が該音素に関わる情報を構成する音素空間の要素である各音素情報のいずれと対応するかを示す情報、各前記フレーム単位の観測信号特徴量及び当該フレームの直前直後のフレーム群の観測信号特徴量がいずれの前記音素情報と対応するかを示す情報、各前記フレーム単位の観測信号特徴量が前記音素情報に基づくいずれのHMM(Hidden Markov Model)状態情報と対応するかを示す情報、各前記フレーム単位の観測信号特徴量がPhonetic Questionsのいずれの回答と対応するかを示す情報のいずれかの情報である
    ことを特徴とする請求項3に記載の音声強調装置。
  5. 音声強調装置が行う音声強調方法であって、
    入力を受け付けた観測信号から観測信号特徴量を抽出する観測信号特徴量抽出ステップと、
    入力を受け付けた発話内容テキストから、前記観測信号特徴量抽出ステップにより抽出された観測信号特徴量と対応する発話内容特徴量を抽出する発話内容特徴量抽出ステップと、
    前記観測信号特徴量及び前記発話内容特徴量を連結した特徴量にニューラルネットワークを用いてクリーン音声特徴量を推定するクリーン特徴量推定ステップと、
    前記クリーン特徴量推定ステップにより推定されたクリーン音声特徴量から構成されるフィルタを前記観測信号に乗算した強調音声を出力する出力ステップと
    を含んだことを特徴とする音声強調方法。
  6. 請求項1〜4のいずれか1つに記載の音声強調装置としてコンピュータを機能させるための音声強調プログラム。
JP2015159490A 2015-08-12 2015-08-12 音声強調装置、音声強調方法及び音声強調プログラム Active JP6367773B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015159490A JP6367773B2 (ja) 2015-08-12 2015-08-12 音声強調装置、音声強調方法及び音声強調プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015159490A JP6367773B2 (ja) 2015-08-12 2015-08-12 音声強調装置、音声強調方法及び音声強調プログラム

Publications (2)

Publication Number Publication Date
JP2017037250A JP2017037250A (ja) 2017-02-16
JP6367773B2 true JP6367773B2 (ja) 2018-08-01

Family

ID=58048625

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015159490A Active JP6367773B2 (ja) 2015-08-12 2015-08-12 音声強調装置、音声強調方法及び音声強調プログラム

Country Status (1)

Country Link
JP (1) JP6367773B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6673861B2 (ja) * 2017-03-02 2020-03-25 日本電信電話株式会社 信号処理装置、信号処理方法及び信号処理プログラム
US10475465B2 (en) * 2017-07-03 2019-11-12 Yissum Research Development Company, of The Hebrew University of Jerusalem Ltd. Method and system for enhancing a speech signal of a human speaker in a video using visual information

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6208963B1 (en) * 1998-06-24 2001-03-27 Tony R. Martinez Method and apparatus for signal classification using a multilayer network
JP4946293B2 (ja) * 2006-09-13 2012-06-06 富士通株式会社 音声強調装置、音声強調プログラムおよび音声強調方法
WO2010092915A1 (ja) * 2009-02-13 2010-08-19 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム

Also Published As

Publication number Publication date
JP2017037250A (ja) 2017-02-16

Similar Documents

Publication Publication Date Title
Arora et al. Automatic speech recognition: a review
Gutkin et al. TTS for low resource languages: A Bangla synthesizer
JP6440967B2 (ja) 文末記号推定装置、この方法及びプログラム
Bailey Automatic detection of sociolinguistic variation using forced alignment
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
JP6580882B2 (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
JP6305955B2 (ja) 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
KR101068122B1 (ko) 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
Yusnita et al. Acoustic analysis of formants across genders and ethnical accents in Malaysian English using ANOVA
Goyal et al. A comparison of Laryngeal effect in the dialects of Punjabi language
Gutkin et al. Building statistical parametric multi-speaker synthesis for bangladeshi bangla
JP6367773B2 (ja) 音声強調装置、音声強調方法及び音声強調プログラム
Zealouk et al. Noise effect on Amazigh digits in speech recognition system
Nanmalar et al. Literary and colloquial dialect identification for Tamil using acoustic features
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Terbeh et al. Probabilistic approach for detection of vocal pathologies in the arabic speech
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Habeeb et al. An ensemble technique for speech recognition in noisy environments
JP2016186516A (ja) 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム
JP2011033879A (ja) サンプルを用いずあらゆる言語を識別可能な識別方法
JP2011180308A (ja) 音声認識装置及び記録媒体
Combei CorAIt–A non-native speech database for Italian

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180705

R150 Certificate of patent or registration of utility model

Ref document number: 6367773

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150