JP2015040931A - 信号処理装置、音声処理装置、信号処理方法および音声処理方法 - Google Patents

信号処理装置、音声処理装置、信号処理方法および音声処理方法 Download PDF

Info

Publication number
JP2015040931A
JP2015040931A JP2013171052A JP2013171052A JP2015040931A JP 2015040931 A JP2015040931 A JP 2015040931A JP 2013171052 A JP2013171052 A JP 2013171052A JP 2013171052 A JP2013171052 A JP 2013171052A JP 2015040931 A JP2015040931 A JP 2015040931A
Authority
JP
Japan
Prior art keywords
speech
expected value
speaker
standard
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013171052A
Other languages
English (en)
Inventor
秀治 古明地
Hideji Komeichi
秀治 古明地
剛範 辻川
Takenori Tsujikawa
剛範 辻川
健 花沢
Takeshi Hanazawa
健 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013171052A priority Critical patent/JP2015040931A/ja
Publication of JP2015040931A publication Critical patent/JP2015040931A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】入力信号の音源が特異音源である場合でも、推定目的音を精度よく求める、信号処理装置を提供する。【解決手段】標準的な音源の特徴量とは異なる特徴量を有する特異な音源の入力信号、前記標準的な音源の特徴量を表す標準音源モデル、並びに、前記特異な音源の特徴量を表す特異音源モデル、を用いて、第1の期待値を算出する第1の期待値算出手段と、前記入力信号および前記特異音源モデルを用いて、第2の期待値を算出する第2の期待値算出手段と、前記第1の期待値および前記第2の期待値を用いて、フィルタを算出するフィルタ算出手段と、前記入力信号に対し、前記フィルタのフィルタリング処理を行うフィルタリング手段と、を備えることを特徴とする信号処理装置。【選択図】 図9

Description

本発明は、信号処理装置、音声処理装置、信号処理方法および音声処理方法に関する。
近年、音声モデルを抑圧に用いるモデルベースの雑音抑圧/音声強調技術が発展している。このような技術は、単純に目的音の品質を上げるだけでは解消しない歪みを軽減し、より音声認識および異常音検出に適した変換を行うことが目的となっている。
特許文献1には、音声モデルを用いた雑音抑制システムが開示されている。特許文献1の雑音抑制システムは、入力信号と雑音の平均スペクトルとからスペクトル領域で仮推定音声を求め、標準パタンを用いて仮推定音声を補正している。そして、前記雑音抑制システムは、補正した仮推定音声と雑音平均スペクトルとから雑音低減フィルタを算出し、当該雑音低減フィルタと入力信号スペクトルとから推定音声を算出している。
特許第4765461号公報
Pedro J. Moreno, Bhiksha Raj and Richard M. Stern,"A Vector Taylor Series Approach for Environment Independent Speech Recognition", Proc. ICASSP1996, pp. 733-736 vol. 2, 1996. 篠田浩一、渡辺隆夫、「音声認識における自立的なモデル複雑度制御を用いた話者適応化」、電子情報通信学会論文誌、1996年12月、Vol.J79‐D‐II、No.12、pp.2054―2061
しかし、入力信号の音源が、標準パタンにない特異性をもつ場合(以下、このような音源を特異音源と記す)、推定目的音を正しく推定できない。
例えば、音声認識のための雑音抑圧を想定した場合、特許文献1の技術では、予め定められた範囲内(例えば、成人男性など)に含まれる話者の音声で学習した話者モデルが標準パタンとなる。そのため、特許文献1の技術では、標準パタンに含まれない話者(例えば、老人や子供等)の推定音声を正しく求められないため、音声認識精度が低下する。
また、異常音検出のための雑音抑圧を想定した場合、例えば、予め定められた正常音からなる学習データで学習したモデルが前記標準パタンに相当する。このとき、特許文献1の技術では、前記学習データに含まれない正常音の推定音声を正しく求められないため、誤検出を誘発する場合がある。
本発明は、上記問題に鑑みてなされたものであり、その目的は、入力信号の音源が特異音源である場合でも、推定目的音を精度よく求める、信号処理装置を提供することにある。
本発明の一態様に係る信号処理装置は、標準的な音源の特徴量とは異なる特徴量を有する特異な音源の入力信号、前記標準的な音源の特徴量を表す標準音源モデル、並びに、前記特異な音源の特徴量を表す特異音源モデル、を用いて、前記入力信号が前記標準的な音源の信号であるとした場合における信号スペクトルの期待値である第1の期待値を算出する第1の期待値算出手段と、前記入力信号および前記特異音源モデルを用いて、前記入力信号が前記特異な音源の信号であるとした場合における信号スペクトルの期待値である第2の期待値を算出する第2の期待値算出手段と、前記第1の期待値および前記第2の期待値を用いて、フィルタを算出するフィルタ算出手段と、前記入力信号に対し、前記フィルタのフィルタリング処理を行うフィルタリング手段と、を備える。
本発明の一態様に係る信号処理装置は、標準的な音源の特徴量とは異なる特徴量を有する特異な音源の入力信号から推定された雑音が除去された仮推定信号、前記標準的な音源の特徴量を表す標準音源モデル、並びに、前記特異な音源の特徴量を表す特異音源モデル、を用いて、前記入力信号が前記標準的な音源の信号であるとした場合における信号スペクトルの期待値である第1の期待値を算出する第1の期待値算出手段と、前記仮推定信号および前記特異音源モデルを用いて、前記入力信号が前記特異な音源の信号であるとした場合における信号スペクトルの期待値である第2の期待値を算出する第2の期待値算出手段と、前記推定された雑音、前記第1の期待値および前記第2の期待値を用いて、雑音を抑圧する抑圧フィルタを算出するフィルタ算出手段と、前記入力信号に対し、前記抑圧フィルタのフィルタリング処理を行うフィルタリング手段と、を備える。
本発明の一態様に係る信号処理装置は、標準的な話者の音声の特徴量とは異なる特徴量を有する特異な話者の入力音声から推定された雑音が除去された仮推定音声、前記標準的な話者の音声の特徴量を表す標準音声モデル、並びに、前記特異な話者の音声の特徴量を表す特異音声モデル、を用いて、前記入力音声が前記標準的な話者の音声信号であるとした場合における音声スペクトルの期待値である第1の期待値を算出する第1の期待値算出手段と、前記仮推定音声および前記特異音声モデルを用いて、前記入力音声が前記特異な話者の音声信号であるとした場合における音声スペクトルの期待値である第2の期待値を算出する第2の期待値算出手段と、前記推定された雑音、前記第1の期待値および前記第2の期待値を用いて、雑音を抑圧する抑圧フィルタを算出するフィルタ算出手段と、前記入力音声に対し、前記抑圧フィルタのフィルタリング処理を行うフィルタリング手段と、を備える。
本発明の一態様に係る音声処理装置は、標準的な話者の音声の特徴量とは異なる特徴量を有する特異な話者の入力音声に含まれる雑音を推定する雑音推定手段と、前記入力音声から前記雑音推定手段が推定した雑音を除去して仮推定音声を算出する仮推定音声算出手段と、前記仮推定音声、前記標準的な話者の音声の特徴量を表す標準音声モデル、並びに、前記特異な話者の音声の特徴量を表す特異音声モデルを用いて、前記入力音声が前記標準的な話者の音声信号であるとした場合における音声スペクトルの期待値である第1の期待値を算出する第1の期待値算出手段と、前記仮推定音声および前記特異音声モデルを用いて、前記入力音声が前記特異な話者の音声信号であるとした場合における音声スペクトルの期待値である第2の期待値を算出する第2の期待値算出手段と、前記推定した雑音、前記第1の期待値および前記第2の期待値を用いて、雑音を抑圧する抑圧フィルタを算出するフィルタ算出手段と、前記入力音声に対し、前記抑圧フィルタのフィルタリング処理を行うことにより出力信号を出力するフィルタリング手段と、を備える。
本発明の一態様に係る信号処理装置の信号処理方法は、標準的な音源の特徴量とは異なる特徴量を有する特異な音源の入力信号、前記標準的な音源の特徴量を表す標準音源モデル、並びに、前記特異な音源の特徴量を表す特異音源モデル、を用いて、前記入力信号が前記標準的な音源の信号であるとした場合における信号スペクトルの期待値である第1の期待値を算出し、前記入力信号および前記特異音源モデルを用いて、前記入力信号が前記特異な音源の信号であるとした場合における信号スペクトルの期待値である第2の期待値を算出し、前記第1の期待値および前記第2の期待値を用いて、フィルタを算出し、前記入力信号に対し、前記フィルタのフィルタリング処理を行う。
本発明の一態様に係る信号処理装置の信号処理方法は、標準的な話者の音声の特徴量とは異なる特徴量を有する特異な話者の入力音声から推定された雑音が除去された仮推定音声、前記標準的な話者の音声の特徴量を表す標準音声モデル、並びに、前記特異な話者の音声の特徴量を表す特異音声モデル、を用いて、前記入力音声が前記標準的な話者の音声信号であるとした場合における音声スペクトルの期待値である第1の期待値を算出し、前記仮推定音声および前記特異音声モデルを用いて、前記入力音声が前記特異な話者の音声信号であるとした場合における音声スペクトルの期待値である第2の期待値を算出し、前記推定された雑音、前記第1の期待値および前記第2の期待値を用いて、雑音を抑圧する抑圧フィルタを算出し、前記入力音声に対し、前記抑圧フィルタのフィルタリング処理を行う。
本発明の一態様に係る音声処理装置の音声処理方法は、標準的な話者の音声の特徴量とは異なる特徴量を有する特異な話者の入力音声に含まれる雑音を推定し、前記入力音声から前記雑音推定手段が推定した雑音を除去して仮推定音声を算出し、前記仮推定音声、前記標準的な話者の音声の特徴量を表す標準音声モデル、並びに、前記特異な話者の音声の特徴量を表す特異音声モデルを用いて、前記入力音声が前記標準的な話者の音声信号であるとした場合における音声スペクトルの期待値である第1の期待値を算出し、前記仮推定音声および前記特異音声モデルを用いて、前記入力音声が前記特異な話者の音声信号であるとした場合における音声スペクトルの期待値である第2の期待値を算出し、前記推定した雑音、前記第1の期待値および前記第2の期待値を用いて、雑音を抑圧する抑圧フィルタを算出し、前記入力音声に対し、前記抑圧フィルタのフィルタリング処理を行うことにより出力信号を出力する。
本発明によれば、入力信号の音源が、特異音源である場合でも、推定目的音を精度よく求めることができる。
本発明の第1の実施の形態に係る音声処理装置の機能構成を示す機能ブロック図である。 第1の実施の形態に係る音声処理装置のハードウェア構成を示す図である。 第1の実施の形態に係る音声処理装置の雑音抑制処理の流れの一例を示すフローチャートである。 本発明の第2の実施の形態に係る音声処理装置の機能構成を示す機能ブロック図である。 第2の実施の形態に係る音声処理装置の話者適応処理の流れの一例を示すフローチャートである。 本発明の第3の実施の形態に係る音声処理装置の機能構成を示す機能ブロック図である。 第3の実施の形態に係る音声処理装置の処理の流れの一例を示すフローチャートである。 本発明の第4の実施の形態に係る信号処理装置の機能構成を示す機能ブロック図である。 本発明の第5の実施の形態に係る信号処理装置の機能構成を示す機能ブロック図である。
本発明を実施するための形態について、図面を参照して詳細に説明する。なお、ここで説明する全ての実施の形態では、雑音抑圧する目的音(特異音源)を老人、子供などの特異話者の音声とする。
なお、以下の説明においては特異音源を特異話者に限定する。しかし、特異音源とは、特異環境音、特異環境下で発声された音声、特異回線を通して収録された音、雑音除去後の音声等、他の音源に拡張が可能である。
<実施の形態1>
以下、本発明の一実施の形態について、図面を参照して以下に説明する。
(音声処理装置の構成)
図1は、本発明の一実施の形態に係る音声処理装置の機能構成を示す機能ブロック図である。図1に示すとおり、音声処理装置1は、入力信号取得部10、雑音推定部20、仮推定音声算出部30、記憶部40、標準話者期待値算出部50、特異話者期待値算出部60、フィルタ算出部70およびフィルタリング部80を備えている。なお、図1に破線で囲われた部材(標準話者期待値算出部50、特異話者期待値算出部60、フィルタ算出部70およびフィルタリング部80)は、信号処理装置を構成している。
(入力信号取得部10)
入力信号取得部10は、入力信号(入力音声)を取得する手段である。入力信号取得部10が取得する入力信号は、例えば、(1)マイクロフォン等からA/D変換機を通して取得される入力信号、(2)ハードディスクより読み出される入力信号、(3)通信パケットから得られる入力信号、などが挙げられるが、本発明はこれに限定されるものではない。
入力信号取得部10は、取得した入力信号のデジタルデータを単位時間毎に切り出す。以下、単位時間毎に切り出されるデジタルデータを、入力信号のフレームと呼ぶ。また、時刻tにおける入力信号のフレームを、x(t−τ)(但し、τ=0,...,T−1:Tはフレームに含まれるサンプル数)で表現する。
例えば、デジタルデータが、リニアPCM(Pulse Code Modulation)で変換された、サンプリング周波数8000Hzの16ビットである場合、当該デジタルデータは、1秒当り8000点分の値を含む。このとき、1フレームの長さを25ミリ秒とすると、1フレームは200点分の値を含む。つまり、T=200となる。
なお、入力信号取得部10は、入力信号のフレームを、短時間離散フーリエ変換を用いて、スペクトルの絶対値またはパワースペクトルに変換してもよい。本実施の形態では、入力信号がスペクトルの絶対値であると想定するが、本発明はこれに限定されるものではない。以下、スペクトルの絶対値を、単にスペクトルとも呼ぶ。
時刻tにおける入力信号のスペクトルを、X(t,k)とする。ここで、kは周波数ビン(k=0,...,K−1:Kはナイキスト周波数)である。
入力信号取得部10は、入力信号のスペクトルX(t,k)を、雑音推定部20、仮推定音声算出部30およびフィルタリング部80に夫々供給する。
(雑音推定部20)
雑音推定部20は、入力信号のスペクトルに含まれる雑音成分のスペクトルを推定する手段である。具体的には、雑音推定部20は、入力信号取得部10から入力信号のスペクトルX(t,k)(但し、k=0,...,K−1)を受信する。そして、雑音推定部20は、受信した入力信号のスペクトルX(t,k)に含まれる雑音成分のスペクトルを推定する。雑音推定部20は、推定した雑音成分のスペクトルを仮推定音声算出部30およびフィルタ算出部70に夫々供給する。
以下、雑音推定部20が推定した雑音成分を推定雑音と呼ぶ。また、推定雑音のスペクトルを、推定値を示すハット(^)を用いて、N^(t,k)(但し、k=0,...,K−1)とする。なお、ハット記号を、本明細書では直前文字の右に記しているが、当該ハット記号(^)は、直前の文字の上側に配置される。なお、本実施の形態において、雑音推定部20は、推定雑音を公知技術の重み付き雑音推定法(Weighted Noise Estimation; WiNE)等を用いて算出したが、本発明はこれに限定されるものではない。雑音推定部20は、所望の方法で推定雑音を算出してもよい。
(仮推定音声算出部30)
仮推定音声算出部30は、入力信号のスペクトルから推定雑音を除去し、仮推定音声のスペクトルを算出する手段である。具体的には、仮推定音声算出部30は、入力信号取得部10から入力信号のスペクトルX(t,k)(但し、k=0,...,K−1)を受信する。また、仮推定音声算出部30は、雑音推定部20から推定雑音N^(t,k)(但し、k=0,...,K−1)を受信する。そして、仮推定音声算出部30は、受信した入力信号のスペクトルX(t,k)と、推定雑音N^(t,k)とから仮推定音声のスペクトルを算出する。仮推定音声算出部30は、算出した仮推定音声のスペクトルを標準話者期待値算出部50および特異話者期待値算出部60に、夫々供給する。
以下、仮推定音声算出部30が算出した仮推定音声のスペクトルを、S^(t,k)(但し、k=0,...,K−1)とする。なお、本実施の形態において、仮推定音声算出部30は、仮推定音声を、公知技術(例えば、スペクトル減算法(Spectral Subtraction:SS)、ウィナーフィルタ法(Wiener Filter:WF)等)を用いて算出したが、本発明はこれに限定されるものではない。仮推定音声算出部30は、所望の方法で仮推定音声を算出してもよい。
(記憶部40)
記憶部40には、話者の音声の特徴量をモデル化した音声モデル(話者モデルとも呼ぶ)が格納されている。具体的には、記憶部40には、図1に示すように、標準話者モデル401と特異話者モデル402とが格納されている。
標準話者モデル401は、予め収集した標準的な不特定話者による音声データから抽出した特徴量を、学習データとして作成した音声モデルである。具体的には、標準話者モデル401は、予め定められた範囲内(例えば、成人男性など)に含まれる不特定話者の音声の特徴量を学習データとして作成したものである。標準話者モデル401は、例えば、成人による音声データの平均値を学習データとして用いて、作成されたものであってもよい。なお、本実施の形態において、標準話者モデル401を平均話者モデルまたは標準音声モデルとも呼ぶ。以降、標準話者モデル401が用いた音声データの話者を標準話者とも呼ぶ。
本実施の形態では、当該標準話者モデルをGMM(Gaussian Mixture Model:混合ガウスモデル)とする。また、本実施の形態では、記憶部40に格納された標準話者モデル401は、具体的には、GMMの重み、平均ベクトル、および分散行列であるとする。
以降、GMMの混合数をNSIM、重みをwi,SIM(但し、i=1,...,NSIM)、平均ベクトルをμi,SIM(但し、i=1,...,NSIM)、分散行列をΣi,SIM(但し、i=1,...,NSIM)とする。
不特定話者による音声データは、仮推定音声算出部30と同様の仮推定音声算出処理が施されていることが好ましい。なお、音声データの特徴量とは、対数スペクトル及びその動的成分をさらに含むもの、あるいは、メルケプストラム、及びその動的成分をさらに含むものとしてもよい。
特異話者モデル402は、予め収集した認識対象の話者であって、標準話者モデル401に用いた音声データの話者以外の話者による音声データから抽出した特徴量を学習データとして作成した音声モデルである。上述したように、標準話者モデル401が成人による音声データを用いた音声モデルである場合、特異話者モデル402は、例えば、老人、子供等予め定められた範囲外の話者による音声データを用いた音声モデルである。つまり、特異話者モデルは、標準的な話者の音声の特徴量とは異なる特徴量を有する話者の音声の特徴量を表すものである。
本実施の形態においては、標準話者モデル401は、成人による音声データを用いた音声モデルであり、特異話者モデル402は、老人および/または子供による音声データを用いた音声モデルであるとするが、本発明はこれに限定されるものではない。以降、特異話者モデル402が用いた音声データの話者を特異話者とも呼ぶ。また、本実施の形態において、特異話者モデル402を特定話者モデルまたは特異音声モデルとも呼ぶ。
本実施の形態では、記憶部40に格納された特異話者モデル402は、具体的には、GMMの重み、平均ベクトル、および分散行列であるとする。
以降、GMMの混合数をNSDM、重みをwi,SDM(但し、i=1,...,NSDM)、平均ベクトルをμi,SDM(但し、i=1,...,NSDM)、分散行列をΣi,SDM(但し、i=1,...,NSDM)とする。
なお、標準話者モデル401と特異話者モデル402との間でGMMの混合番号iは対応している必要がある。例えば、標準話者モデル401のGMM混合番号iが音素/a/に対応するならば、特異話者モデル402のGMM混合番号iも音素/a/に対応している必要がある。
認識対象の話者による音声データは、仮推定音声算出部30と同様の仮推定音声算出処理が施されていることが好ましい。なお、音声データの特徴量とは、対数スペクトル及びその動的成分をさらに含むもの、あるいは、メルケプストラム及びその動的成分をさらに含むものとしてもよい。
なお、本実施の形態では、認識対象の話者の音声データを予め収集するとしたが、本発明はこれに限定されない。例えば、音声処理装置1の使用前に、別に用意したモデル学習装置に向かって発声することによって、音声データを収集してもよい。なお、当該モデル学習装置は本発明には含まないが、既知の技術であるため、ここでは説明を省略する。
また、本実施の形態では、標準話者モデル401と特異話者モデル402とが同じ記憶部40に記録されていることを例に説明を行ったが、本発明はこれに限定されるものではない。標準話者モデル401と特異話者モデル402とは夫々異なる記憶部に記憶されていてもよい。
また、記憶部40は、音声処理装置1に内蔵されていてもよいし、音声処理装置1に外付けされていてもよい。
(標準話者期待値算出手段50)
標準話者期待値算出部50(第1の期待値算出手段)は、仮推定音声のスペクトル、標準話者モデル401および特異話者モデル402を用いて、入力信号が標準話者の音声信号であるとした場合における標準話者の音声スペクトルの期待値(以降、標準話者期待値と呼ぶ)を算出する。具体的には、標準話者期待値算出部50は、仮推定音声算出部30から仮推定音声のスペクトルS^(t,k)(但し、k=0,...,K−1)を受信する。また、標準話者期待値算出部50は、記憶部40から標準話者モデル401を取得する。更に、標準話者期待値算出部50は、記憶部40から特異話者モデル402を取得する。
そして、標準話者期待値算出部50は、受信した仮推定音声のスペクトルと、取得した標準話者モデル401および特異話者モデル402とから、標準話者期待値を算出する。ここで、標準話者期待値を、S^SIM(t,k)(但し、k=0,...,K−1)とする。以下、標準話者期待値の算出方法について説明する。
まず、標準話者期待値算出部50は、仮推定音声のスペクトルS^(t,k)(但し、k=0,...,K−1)を特徴量ベクトルに変換する。この仮推定音声のスペクトルの特徴量は、標準話者モデル401であるGMMの特徴量と同一のものである。
仮推定音声のスペクトルの特徴量ベクトルをs^とし、標準話者期待値の特徴量ベクトルs^SIMとすると、標準話者期待値の特徴量ベクトルs^SIMは、以下の式(1)で表すことができる。
Figure 2015040931
ここで、N(x;μ,Σ)は、以下の式(2)で表すことができる。
Figure 2015040931
なお、mは特徴量ベクトルの次元数である。
次に、標準話者期待値算出部50は、標準話者期待値の特徴量ベクトルs^SIMを、スペクトル領域に逆変換し、標準話者期待値S^SIM(t,k)(但し、k=0,...,K−1)を取得する。
そして、標準話者期待値算出部50は、算出した標準話者期待値をフィルタ算出部70に供給する。
(特異話者期待値算出手段60)
特異話者期待値算出部60(第2の期待値算出手段)は、仮推定音声のスペクトルおよび特異話者モデル402を用いて、入力信号が特異話者の音声信号であるとした場合における特異話者の音声スペクトルの期待値(以降、特異話者期待値と呼ぶ)を算出する。具体的には、特異話者期待値算出部60は、仮推定音声算出部30から仮推定音声のスペクトルS^(t,k)(但し、k=0,...,K−1)を受信する。また、特異話者期待値算出部60は、記憶部40から特異話者モデル402を取得する。
そして、特異話者期待値算出部60は、受信した仮推定音声のスペクトルと、取得した特異話者モデル402とから、特異話者期待値を算出する。ここで、特異話者期待値を、S^SDM(t,k)(但し、k=0,...,K−1)とする。以下、特異話者期待値の算出方法について説明する。
まず、特異話者期待値算出部60は、仮推定音声のスペクトルS^(t,k)(但し、k=0,...,K−1)を特徴量ベクトルに変換する。この仮推定音声のスペクトルの特徴量は、特異話者モデル402であるGMMの特徴量と同じものである。
特異話者期待値の特徴量ベクトルs^SDMとすると、特異話者期待値の特徴量ベクトルs^SDMは、以下の式(3)で表すことができる。
Figure 2015040931
次に、特異話者期待値算出部60は、特異話者期待値の特徴量ベクトルs^SDMを、スペクトル領域に逆変換し、特異話者期待値S^SDM(t,k)(但し、k=0,...,K−1)を取得する。
そして、特異話者期待値算出部60は、算出した特異話者期待値をフィルタ算出部70に供給する。
(フィルタ算出部70)
フィルタ算出部70は、推定雑音のスペクトルと標準話者期待値と特異話者期待値とから雑音を抑圧する抑圧フィルタを算出する手段である。具体的には、フィルタ算出部70は、雑音推定部20から推定雑音のスペクトルN^(t,k)(但し、k=0,...,K−1)を受信する。また、フィルタ算出部70は、標準話者期待値算出部50から標準話者期待値S^SIM(t,k)(但し、k=0,...,K−1)を受信する。更に、フィルタ算出部70は、特異話者期待値算出部60から特異話者期待値S^SDM(t,k)(但し、k=0,...,K−1)を受信する。そして、フィルタ算出部70は、受信した推定雑音のスペクトルと標準話者期待値と特異話者期待値とから抑圧フィルタを算出する。ここで、抑圧フィルタを、W(t,k)(但し、k=0,...,K−1)とする。フィルタ算出部70は、以下の式(4)を用いて、抑圧フィルタW(t,k)を算出する。
Figure 2015040931
その後、フィルタ算出部70は、算出した抑圧フィルタW(t,k)をフィルタリング部80に供給する。
(フィルタリング部80)
フィルタリング部80は、入力信号に対し、抑圧フィルタのフィルタリング処理を行うことにより、推定音声(出力信号)を出力する手段である。具体的には、フィルタリング部80は、入力信号取得部10から入力信号のスペクトルX(t,k)(但し、k=0,...,K−1)を受信する。また、フィルタリング部80は、フィルタ算出部70から抑圧フィルタW(t,k)(但し、k=0,...,K−1)を受信する。そして、フィルタリング部80は、受信した入力信号のスペクトルと、抑圧フィルタとを用いて、音声処理装置1が出力する推定音声のスペクトルを算出する。ここで、推定音声のスペクトルを、S^OUT(t,k)(但し、k=0,...,K−1)とする。フィルタリング部80は、以下の式(5)を用いて、推定音声のスペクトルを算出する。
S^out(t,k)=W(t,k)X(t,k) ・・・(5)
フィルタリング部80は、上記式(5)を用いて算出した推定音声のスペクトルを出力する。なお、フィルタリング部80は、音声認識装置に出力する場合は、当該推定音声のスペクトルを特徴量ベクトルに変換して、推定音声の特徴量ベクトルを出力する。また、フィルタリング部80は、スピーカ等の音声再生装置に出力する場合は、当該推定音声のスペクトルを逆フーリエ変換し、デジタルデータに変換して、当該デジタルデータを出力する。
(音声処理装置1のハードウェア構成)
次に、図2を参照して音声処理装置1のハードウェア構成について説明する。図2は、本実施の形態に係る音声処理装置1のハードウェア構成を示す図である。図2に示すとおり、音声処理装置1は、CPU11、ネットワーク接続用の通信I/F(通信インターフェース)12、メモリ13、プログラムを格納するハードディスク等の記憶装置14、入力装置15および出力装置16を含み、夫々、システムバス9を介して接続している。
CPU11は、オペレーティングシステムを動作させて本実施の形態に係る音声処理装置1を制御する。また、CPU11は、例えば、ドライブ装置に装着された記録媒体からメモリ13にプログラムやデータを読み出す。
また、CPU11は、例えば、本実施の形態の入力信号取得部10、雑音推定部20、仮推定音声算出部30、標準話者期待値算出部50、特異話者期待値算出部60、フィルタ算出部70およびフィルタリング部80の一部として機能し、プログラムに基づいて各種の処理を実行する。
記憶装置14は、例えば、光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク、または半導体メモリ等である。記憶装置14の一部の記憶媒体は、不揮発性記憶装置であり、そこにプログラムを記憶している。また、プログラムは通信網に接続されている図示しない外部コンピュータからダウンロードされてもよい。記憶装置14は、例えば、本実施の形態における記憶部40として機能する。
入力装置15は、例えば、タッチセンサなどで実現され、入力操作に用いられる。また、出力装置16は、例えば、ディスプレイで実現され、出力を確認するために用いられる。
以上のように、本実施の形態に係る音声処理装置1は、図2に示されるハードウェア構成によって実現される。但し、音声処理装置1が備える各部の実現手段は特に限定されない。
(音声処理装置1の処理)
次に、図3を参照して音声処理装置1の処理の流れについて説明する。図3は、本実施の形態に係る音声処理装置1の雑音抑制処理の流れの一例を示すフローチャートである。
図3に示すとおり、まず、音声処理装置1の入力信号取得部10が、入力信号を取得する(S31)。入力信号取得部10は、取得した入力信号からのデジタルデータを単位時間毎のフレームに切り出す。そして、入力信号取得部10は、切り出したフレームをスペクトルの絶対値に変換する(S32)。そして、入力信号取得部10は、当該スペクトルの絶対値(入力信号スペクトル)を出力する。
次に、雑音推定部20は、入力信号取得部10から出力された入力信号スペクトルから雑音成分のスペクトルを推定し、推定雑音スペクトルを出力する(S33)。
仮推定音声算出部30は、入力信号取得部10から出力された入力信号スペクトルと、雑音推定部20から出力された推定雑音スペクトルとを用いて、仮推定音声のスペクトルを算出する(S34)。そして、仮推定音声算出部30は、算出した仮推定音声のスペクトルを出力する。
次に、標準話者期待値算出部50は、仮推定音声算出部30から出力された仮推定音声のスペクトルと、記憶部40に格納された標準話者モデル401および特異話者モデル402とを用いて、標準話者期待値を算出する(S35)。標準話者期待値算出部50は、算出した標準話者期待値をフィルタ算出部70に出力する。
また、特異話者期待値算出部60は、仮推定音声算出部30から出力された仮推定音声のスペクトルと、記憶部40に格納された特異話者モデル402とを用いて、特異話者期待値を算出する(S36)。特異話者期待値算出部60は、算出した特異話者期待値をフィルタ算出部70に出力する。
なお、上述したS35およびS36は、同時に行ってもよい。また、S36の後にS35を行う構成であってもよい。
フィルタ算出部70は、雑音推定部20が出力した推定雑音スペクトルと、標準話者期待値算出部50が出力した標準話者期待値と、特異話者期待値算出部60が出力した特異話者期待値とを用いて、抑圧フィルタを算出する(S37)。フィルタ算出部70は、算出した抑圧フィルタをフィルタリング部80に出力する。
そして、フィルタリング部80は、入力信号取得部10が出力した入力信号スペクトルと、フィルタ算出部70が出力した抑圧フィルタとを用いて、推定音声を算出する(S38)。
その後、入力信号取得部10は、入力信号が有るか否かを確認し(S39)、入力信号がある場合(S39にてYES)、S31に処理を戻す。入力信号がない場合(S39にてNO)、処理を終了する。
(効果)
本実施の形態における音声処理装置1は、特異な話者の入力音声から推定された雑音が除去された仮推定音声および標準的な話者の音声の特徴量とは異なる特徴量を有する特異な話者の音声の特徴量を表す特異話者モデル402を用いて特異話者期待値を算出する。また、音声処理装置1は、仮推定音声、標準的な話者の音声の特徴量を表す標準話者モデル401、並びに、特異話者モデル402、を用いて標準話者期待値を算出する。このように、本実施の形態に係る音声処理装置1は、標準話者モデル401を用いて標準話者期待値を算出するため、当該音声処理装置1が出力する信号に含まれる特異性を軽減することができる。また、本実施の形態に係る音声処理装置1は、特異話者モデル402を用いて標準話者期待値を算出するため、雑音抑圧性能を向上させることができる。
そして、音声処理装置1のフィルタリング部80が、上記標準話者期待値と特異話者期待と推定雑音とを用いてフィルタ算出部70が算出した抑圧フィルタを用いてフィルタリング処理を行うことにより、より精度よく雑音を除去することができる。
したがって、本実施の形態における音声処理装置1は、特異話者による入力音声から雑音を高い精度で除去することができる。
なお、本実施の形態で使用した特異話者モデル402は、特異話者1人に付き1つでなくてもよい。例えば、類似した音質を持つ特異話者をグループ化し、当該グループに含まれる複数の話者に対し、1つの特異話者モデルが対応付けられていてもよい。特異話者モデル402の例として、例えば、子ども音声に対応した特異話者モデル、高齢者音声に対応した特異話者モデル、などが挙げられる。
なお、本実施の形態の雑音抑圧は、例えば、式(5)に示すような、モデルベースウィーナーフィルタリング法に類するものを採用しているが、本発明はこれに限定されない。本実施の形態の雑音抑制は、モデルベースの雑音抑圧であればよく、例えば、非特許文献1に記載のベクトルテイラー級数展開の形で行ってもよい。
<実施の形態2>
次に、本発明の第2の実施の形態について、図面を参照して説明する。
(音声処理装置の構成)
図4は、本実施の形態に係る音声処理装置2の機能構成を示す機能ブロック図である。なお、説明の便宜上、前述した第1の実施の形態で説明した図面に含まれる部材と同じ機能を有する部材については、同じ符号を付し、その説明を省略する。また、本実施の形態に係る音声処理装置2のハードウェア構成は、図2に示す音声処理装置1のハードウェア構成と同様である。
図4に示すとおり、音声処理装置2は、入力信号取得部10、雑音推定部20、仮推定音声算出部30、記憶部40、標準話者期待値算出部50、特異話者期待値算出部60、フィルタ算出部70、フィルタリング部80、話者適応部90および音素列表示部91を備えている。
(話者適応部90)
話者適応部90は、標準話者モデル401を、仮推定音声の特徴に適応(話者適応)させて、特異話者モデル402を得る手段である。具体的には、話者適応部90は、仮推定音声算出部30から仮推定音声のスペクトルS^(t,k)(但し、k=0,...,K−1)を受信する。また、話者適応部90は、記憶部40から、標準話者モデル401であるGMM(パラメータ:混合数NSIM、重みwi,SIM(但し、i=1,...,NSIM)、平均ベクトルμi,SIM(但し、i=1,...,NSIM)、分散行列Σi,SIM(但し、i=1,...,NSIM)を取得する。
話者適応部90は、標準話者モデル401であるGMMのパラメータを、仮推定音声のスペクトルに話者適応する。そして、話者適応部90は、特異話者モデル402として話者適応後の音声モデルを得る。具体的には、話者適応部90は、特異話者モデル402であるGMM(パラメータ:混合数NSIM、重みwi,SDM(但し、i=1,...,NSIM)、平均ベクトルμi,SDM(但し、i=1,...,NSIM)、分散行列Σi,SDM(但し、i=1,...,NSIM)を得る。
そして、話者適応部90は、特異話者モデル402であるGMMのパラメータを、記憶部40に格納する。なお、話者適応には、例えば、非特許文献2記載の方法を用いてもよい。
(音素列表示部91)
音素列表示部91は、話者適応部90が話者適応する標準話者モデル401であるGMMの各ガウス分布に相当する音素列を表示する手段である。音素列表示部91は、例えば、ディスプレイ等によって実現される。
音素列表示部91が表示する音素列は、例えば、「おはようございます」、「きょうのてんきははれです」などがあるが、これに限定されるものではない。音素列表示部91に表示する音素列をユーザに発話してもらうことにより、入力信号取得部10が取得した入力信号のスペクトルが、どの音素列に相当するかが明確になる。これにより、話者適応部90は、より正確な特異話者モデル402を得ることができる。
(音声処理装置2の処理)
次に、図5を参照して音声処理装置2の処理の流れについて説明する。図5は、本実施の形態に係る音声処理装置2の話者適応処理の流れの一例を示すフローチャートである。
話者適応のための動作は、図示しないボタン操作等によるユーザ操作をトリガとして開始される。
図5に示すとおり、まず、音素列表示部91が音素列を表示する(S51)。その後、音素列表示部91に表示された音素列をユーザが発生すると、入力信号取得部10が、入力された音声信号(入力信号)を取得する(S52)。入力信号取得部10は、取得した入力信号からのデジタルデータを単位時間毎のフレームに切り出す。そして、入力信号取得部10は、切り出したフレームをスペクトルの絶対値に変換する(S53)。そして、入力信号取得部10は、当該スペクトルの絶対値(入力信号スペクトル)を出力する。
次に、雑音推定部20は、入力信号取得部10から出力された入力信号スペクトルから雑音成分のスペクトルを推定し、推定雑音スペクトルを出力する(S54)。
仮推定音声算出部30は、入力信号取得部10から出力された入力信号スペクトルと、雑音推定部20から出力された推定雑音スペクトルとを用いて、仮推定音声のスペクトルを算出する(S55)。そして、仮推定音声算出部30は、算出した仮推定音声のスペクトルを出力する。
その後、入力信号取得部10は、入力信号が有るか否かを確認し(S56)、入力信号がある場合(S56にてYES)、S51に処理を戻す。入力信号がない場合(S56にてNO)、S57に進む。
次に、話者適応部90は、仮推定音声算出部30から出力された仮推定音声のスペクトルに、標準話者モデル401を適応する(S57)。そして、話者適応部90は、話者適応されたモデルを特異話者モデル402として、記憶部40に格納する。
本実施の形態に係る音声処理装置2の雑音抑圧のための処理は、上記話者適応処理にて取得した特異話者モデル402を用いる。なお、本実施の形態に係る音声処理装置2の雑音抑制処理は、図3に示すフローチャートと同様の処理であるため、説明を省略する。
(効果)
本実施の形態に係る音声処理装置2は、上述の第1の実施の形態に係る音声処理装置1に、話者適応部90と音素列表示部91とを更に備えた構成である。本実施の形態に係る音声処理装置2の話者適応部90は、標準話者モデル401を仮推定音声の特徴に話者適応させて、特異話者モデル402を取得する。
標準話者期待値算出部50は、仮推定音声と、標準話者モデル401と、話者適応部90が取得した特異話者モデル402とを用いて、標準話者期待値を算出する。
また、特異話者期待値算出部60は、仮推定音声と、話者適応部90が取得した特異話者モデル402と、を用いて特異話者期待値を算出する。
そして、フィルタ算出部70は、推定雑音スペクトルと、標準話者期待値と、特異話者期待値とを用いて抑圧フィルタを算出する。
このように、本実施の形態に係る音声処理装置2は、特異話者モデル402を逐次的に更新させる機能を有している。標準話者期待値および特異話者期待値は、更新した特異話者モデル402を用いて算出される。そして、フィルタ算出部70は、これらの期待値を用いて抑圧フィルタを算出する。
これにより、特異話者の音声の特徴が反映された抑圧フィルタが算出されるため、本実施の形態に係る音声処理装置2は、より好適に、特異話者の雑音抑圧精度を向上させることができる。また、本実施の形態に係る音声処理装置2は、新たな特異話者が利用する場合において、その新たな特異話者の雑音抑圧精度を向上させることができる。
<実施の形態3>
次に、本発明の第3の実施の形態について、図面を参照して説明する。
(音声処理装置の構成)
図6は、本実施の形態に係る音声処理装置3の機能構成を示す機能ブロック図である。なお、説明の便宜上、前述した第1および第2の実施の形態で説明した図面に含まれる部材と同じ機能を有する部材については、同じ符号を付し、その説明を省略する。また、本実施の形態に係る音声処理装置3のハードウェア構成は、図2に示す音声処理装置1のハードウェア構成と同様である。
図6に示すとおり、音声処理装置3は、入力信号取得部10、雑音推定部20、仮推定音声算出部30、記憶部40a、記憶部40b、標準話者期待値算出部50、特異話者期待値算出部60、フィルタ算出部70、フィルタリング部80および話者選択部92を備えている。
(記憶部40a、記憶部40b)
記憶部40aには、標準話者モデル401が格納されている。また、記憶部40bには複数の特異話者モデル402−1〜402−N(Nは自然数)が格納されている。本実施の形態において、標準話者モデル401を格納している記憶部40aと複数の特異話者モデル402−1〜402−Nを格納している記憶部40bとは、夫々異なる部材であることを例に説明を行うが、本発明はこれに限定されるものではない。記憶部40aおよび記憶部40bは、同じ部材であってもよい。
(話者選択部92)
話者選択部92は、仮推定音声算出部30から受信した仮推定音声の特徴量と最も近い特徴量を有する特異話者モデルを選択する手段である。具体的には、話者選択部92は、仮推定音声算出部30から仮推定音声のスペクトルを受信する。そして、話者選択部92は、受信した仮推定音声のスペクトルを特徴量ベクトルに変換する。また、話者選択部92は、記憶部40bに格納された特異話者モデル402−1〜402−Nを夫々取得する。話者選択部92は、取得した特異話者モデル402−1〜402−Nの夫々の特徴量ベクトルと、仮推定音声の特徴量ベクトルとを比較する。そして、話者選択部92は、仮推定音声の特徴量ベクトルと最も近似した特徴量ベクトルを有する特異話者モデルを選択する。その後、話者選択部92は、選択した特徴量ベクトルを標準話者期待値算出部50および特異話者期待値算出部60に夫々供給する。
なお、話者選択部92は、各特異話者モデルのうち、仮推定音声の特徴量ベクトルと最もマッチする特徴量ベクトルを有する特異話者モデルを、最尤基準により選択してもよい。
(音声処理装置3の処理)
次に、図7を参照して音声処理装置3の処理の流れについて説明する。図7は、本実施の形態に係る音声処理装置3の雑音抑制処理の流れの一例を示すフローチャートである。
図3に示すS71〜S74の処理は、図3のS31〜S34の処理と同じ処理であるため、説明を省略する。
S74の後、話者選択部92は、仮推定音声に基づき、複数の特異話者モデルから、特定の特異話者モデルを選択する(S75)。話者選択部92は、選択した特異話者モデルを標準話者期待値算出部50および特異話者期待値算出部60に夫々供給する。
次に、標準話者期待値算出部50は、仮推定音声算出部30から出力された仮推定音声のスペクトルと、記憶部40aに格納された標準話者モデル401と、話者選択部92から供給された特異話者モデルとを用いて、標準話者期待値を算出する(S76)。標準話者期待値算出部50は、算出した標準話者期待値をフィルタ算出部70に出力する。
また、特異話者期待値算出部60は、仮推定音声算出部30から出力された仮推定音声のスペクトルと、話者選択部92から供給された特異話者モデルとを用いて、特異話者期待値を算出する(S77)。特異話者期待値算出部60は、算出した特異話者期待値をフィルタ算出部70に出力する。
なお、上述したS76およびS77は、同時に行ってもよい。また、S77の後にS76を行う構成であってもよい。
フィルタ算出部70は、雑音推定部20が出力した推定雑音スペクトルと、標準話者期待値算出部50が出力した標準話者期待値と、特異話者期待値算出部60が出力した特異話者期待値とを用いて、抑圧フィルタを算出する(S78)。フィルタ算出部70は、算出した抑圧フィルタをフィルタリング部80に出力する。
そして、フィルタリング部80は、入力信号取得部10が出力した入力信号スペクトルと、フィルタ算出部70が出力した抑圧フィルタとを用いて、推定音声を算出する(S79)。
その後、入力信号取得部10は、入力信号が有るか否かを確認し(S80)、入力信号がある場合(S80にてYES)、S71に処理を戻す。入力信号がない場合(S80にてNO)、処理を終了する。
(効果)
本実施の形態に係る音声処理装置3の話者選択部92は、仮推定音声に基づき、複数の特異話者モデルから、特定の特異話者モデルを選択する。そして、標準話者期待値算出部50は、仮推定音声と、標準話者モデルと、話者選択部92によって選択された特異話者モデルと、を用いて標準話者期待値を算出する。また、特異話者期待値算出部60は、仮推定音声と、話者選択部92によって選択された特異話者モデルと、を用いて特異話者期待値を算出する。
そして、フィルタ算出部70は、推定雑音スペクトルと、標準話者期待値と、特異話者期待値とを用いて抑圧フィルタを算出する。
このように、本実施の形態に係る音声処理装置3は、複数の特異話者モデルから、仮推定音声に基づいて、特定の特異話者モデルを選択し、当該選択した特異話者モデルを用いて、各期待値を算出する。したがって、フィルタ算出部70は、選択された特異話者モデルの特徴が反映された抑圧フィルタを算出する。つまり、フィルタ算出部70は、入力信号の特徴が反映された抑圧フィルタを算出する。
よって、本実施の形態に係る音声処理装置3は、より好適に、特異話者の雑音抑圧精度を向上させることができる。
<実施の形態4>
次に、本発明の第4の実施の形態について、図面を参照して説明する。上述した第1の実施の形態から第3の実施の形態の音声処理装置は、本実施の形態にかかる信号処理装置を含んでいる。本実施の形態では、信号処理装置について説明を行う。
(信号処理装置の構成)
図8は、本実施の形態に係る信号処理装置100の機能構成を示す機能ブロック図である。なお、説明の便宜上、前述した第1から第3の実施の形態で説明した図面に含まれる部材と同じ機能を有する部材については、同じ符号を付す。また、本実施の形態に係る信号処理装置100のハードウェア構成は、上述した音声処理装置1〜3と同様のハードウェア構成(図2)を有しているものとする。
図8に示すとおり、本実施の形態に係る信号処理装置100は、標準話者期待値算出部50と特異話者期待値算出部60と、フィルタ算出部70とフィルタリング部80とを備えている。
標準話者期待値算出部50は、特異な話者の入力音声(入力信号)から推定された雑音が除去された仮推定音声と、標準音声モデルと、特異音声モデルと、を用いて、入力音声が標準的な話者の音声信号であるとした場合における音声スペクトルの期待値(標準話者期待値)を算出する。ここで、標準音声モデルとは、標準的な話者(例えば、成人男性など所定の範囲内の話者)の音声の特徴量を表している。また、特異音声モデルとは、標準的な話者の音声の特徴量とは異なる特徴量を有する特異な話者(例えば、老人および子供など、上記所定の範囲内には含まれない話者)の特徴量を表している。
なお、標準音声モデルおよび特異音声モデルは、信号処理装置100内の図示しない記憶部内に格納されていてもよいし、外部から取得されるものであってもよい。
特異話者期待値算出部60は、仮推定音声および特異音声モデルを用いて、入力音声が特異な話者の音声信号であるとした場合における音声スペクトルの期待値(特異話者期待値)を算出する。
フィルタ算出部70は、推定された雑音(推定雑音)と、標準話者期待値算出部50が算出した標準話者期待値と、特異話者期待値算出部60が算出した特異話者期待値とを用いて、雑音を抑圧する抑圧フィルタを算出する。
フィルタリング部80は、入力音声に対し、フィルタ算出部70が算出した抑圧フィルタのフィルタリング処理を行う。フィルタリング部80は、フィルタリング処理を行った入力信号を、出力信号(推定音声)として出力する。
(効果)
本実施の形態における信号処理装置100の標準話者期待値算出部50は、仮推定音声、標準音声モデルおよび特異音声モデルを用いて標準話者期待値を算出する。また、信号処理装置100の特異話者期待値算出部60が仮推定音声および特異音声モデルを用いて特異話者期待値を算出する。このように、標準音声モデルを用いて標準話者期待値を算出するため、当該信号処理装置100が出力する信号に含まれる特異性を軽減することができる。また、本実施の形態に係る信号処理装置100は、特異音声モデルを用いて標準話者期待値を算出するため、雑音抑圧性能を向上させることができる。
そして、信号処理装置100のフィルタリング部80が、上記標準話者期待値と特異話者期待値と推定雑音とを用いてフィルタ算出部70が算出した抑圧フィルタを用いてフィルタリング処理を行うことにより、より精度よく雑音を除去することができる。
したがって、本実施の形態における信号処理装置100は、特異話者による入力音声から雑音を高い精度で除去することができる。
なお、本実施の形態では、入力される音源(特異音源)を特異話者の音声に限定して説明を行ったが、上述したとおり、本実施の形態に係る信号処理装置100に入力される、特異音源は、特異環境音、特異環境下で発声された音声、特異回線を通して収録された音、雑音除去後の音声等、他の音源に拡張が可能である。
<実施の形態5>
次に、本発明の第5の実施の形態について、図面を参照して説明する。上述した第4の実施の形態に係る信号処理装置では、入力信号から推定された雑音である推定雑音および当該雑音が除去された仮推定音声を用いて、信号処理を行うことを例に説明を行ったが、信号処理装置は、入力信号そのものを用いて信号処理を行ってもよい。
(信号処理装置の構成)
図9は、本実施の形態に係る信号処理装置100の機能構成を示す機能ブロック図である。なお、説明の便宜上、前述した第1から第4の実施の形態で説明した図面に含まれる部材と同じ機能を有する部材については、同じ符号を付す。また、本実施の形態に係る信号処理装置100のハードウェア構成は、上述した音声処理装置1〜3と同様のハードウェア構成(図2)を有しているものとする。
図9に示すとおり、本実施の形態に係る信号処理装置100は、第1の期待値算出部50と第2の期待値算出部60と、フィルタ算出部70とフィルタリング部80とを備えている。
第1の期待値算出部50は、標準的な音源の特徴量とは異なる特徴量を有する特異な音源の入力信号と、標準音源モデルと、特異音源モデルと、を用いて、入力信号が標準的な音源の信号であるとした場合における信号スペクトルの期待値(第1の期待値)を算出する。ここで、標準音源モデルとは、標準的な音源の特徴量を表している。また、特異音源モデルとは、標準的な音源の特徴量とは異なる特徴量を有する特異な音源の特徴量を表している。
なお、標準音源モデルおよび特異音源モデルは、信号処理装置100内の図示しない記憶部内に格納されていてもよいし、外部から取得されるものであってもよい。
第2の期待値算出部60は、入力信号および特異音源モデルを用いて、入力信号が特異な音源の信号であるとした場合における信号スペクトルの期待値(第2の期待値)を算出する。
フィルタ算出部70は、第1の期待値算出部50が算出した第1の期待値と、第2の期待値算出部60が算出した第2の期待値とを用いて、フィルタを算出する。
フィルタリング部80は、入力信号に対し、フィルタ算出部70が算出したフィルタのフィルタリング処理を行う。フィルタリング部80は、フィルタリング処理を行った入力信号を、出力信号(推定音声)として出力する。
(効果)
本実施の形態における信号処理装置100の第1の期待値算出部50は、特異な音源の入力信号、標準音源モデルおよび特異音源モデルを用いて第1の期待値を算出する。また、信号処理装置100の第2の期待値算出部60が特異な音源の入力信号および特異音源モデルを用いて第2の期待値を算出する。このように、標準音源モデルを用いて第1の期待値を算出するため、当該信号処理装置100が出力する信号に含まれる特異性を軽減することができる。また、本実施の形態に係る信号処理装置100は、特異音源モデルを用いて第1の期待値を算出するため、雑音抑圧性能を向上させることができる。
そして、信号処理装置100のフィルタリング部80が、上記第1の期待値と第2の期待値とを用いてフィルタ算出部70が算出したフィルタを用いてフィルタリング処理を行うことにより、より精度よく雑音を除去することができる。
したがって、本実施の形態における信号処理装置100は、特異な音源による入力信号から雑音を高い精度で除去することができる。
なお、上述した各実施の形態は、本発明の好適な実施の形態であり、上記各実施の形態にのみ本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において当業者が上記各実施の形態の修正や代用を行い、種々の変更を施した形態を構築することが可能である。
例えば、上述した実施の形態における各動作は、ハードウェアまたはソフトウェア、あるいはその両方の複合構成によって実行することも可能である。
なお、ソフトウェアによる処理を実行する場合には、例えば、上記各処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。また、上記プログラムは、例えば、ハードディスクなどの記録媒体に記録しておくことが可能である。
上記の実施の形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)標準的な音源の特徴量とは異なる特徴量を有する特異な音源の入力信号、前記標準的な音源の特徴量を表す標準音源モデル、並びに、前記特異な音源の特徴量を表す特異音源モデル、を用いて、前記入力信号が前記標準的な音源の信号であるとした場合における信号スペクトルの期待値である第1の期待値を算出する第1の期待値算出手段と、前記入力信号および前記特異音源モデルを用いて、前記入力信号が前記特異な音源の信号であるとした場合における信号スペクトルの期待値である第2の期待値を算出する第2の期待値算出手段と、前記第1の期待値および前記第2の期待値を用いて、フィルタを算出するフィルタ算出手段と、前記入力信号に対し、前記フィルタのフィルタリング処理を行うフィルタリング手段と、を備えることを特徴とする信号処理装置。
(付記2)標準的な音源の特徴量とは異なる特徴量を有する特異な音源の入力信号から推定された雑音が除去された仮推定信号、前記標準的な音源の特徴量を表す標準音源モデル、並びに、前記特異な音源の特徴量を表す特異音源モデル、を用いて、前記入力信号が前記標準的な音源の信号であるとした場合における信号スペクトルの期待値である第1の期待値を算出する第1の期待値算出手段と、前記仮推定信号および前記特異音源モデルを用いて、前記入力信号が前記特異な音源の信号であるとした場合における信号スペクトルの期待値である第2の期待値を算出する第2の期待値算出手段と、前記推定された雑音、前記第1の期待値および前記第2の期待値を用いて、雑音を抑圧する抑圧フィルタを算出するフィルタ算出手段と、前記入力信号に対し、前記抑圧フィルタのフィルタリング処理を行うフィルタリング手段と、を備えることを特徴とする信号処理装置。
(付記3)標準的な話者の音声の特徴量とは異なる特徴量を有する特異な話者の入力音声から推定された雑音が除去された仮推定音声、前記標準的な話者の音声の特徴量を表す標準音声モデル、並びに、前記特異な話者の音声の特徴量を表す特異音声モデル、を用いて、前記入力音声が前記標準的な話者の音声信号であるとした場合における音声スペクトルの期待値である第1の期待値を算出する第1の期待値算出手段と、前記仮推定音声および前記特異音声モデルを用いて、前記入力音声が前記特異な話者の音声信号であるとした場合における音声スペクトルの期待値である第2の期待値を算出する第2の期待値算出手段と、前記推定された雑音、前記第1の期待値および前記第2の期待値を用いて、雑音を抑圧する抑圧フィルタを算出するフィルタ算出手段と、前記入力音声に対し、前記抑圧フィルタのフィルタリング処理を行うフィルタリング手段と、を備えることを特徴とする信号処理装置。
(付記4)前記標準音声モデルを前記仮推定音声の特徴に話者適応させて、特異音声モデルを取得する話者適応手段を更に備え、前記第1の期待値算出手段は、前記仮推定音声と、前記標準音声モデルと、前記話者適応手段によって取得された前記特異音声モデルと、を用いて第1の期待値を算出し、前記第2の期待値算出手段は、前記仮推定音声と、前記話者適応手段によって取得された前記特異音声モデルと、を用いて第2の期待値を算出する、ことを特徴とする付記3に記載の信号処理装置。
(付記5)前記話者適応手段が前記標準音声モデルに対して話者適応するための音素列を表示する音素列表示手段を更に備え、前記話者適応手段は、前記標準音声モデルに対して、前記音素列表示手段が表示した音素列をユーザが発話した際の入力音声の仮推定音声の特徴に話者適応させて、特異音声モデルを取得する、ことを特徴とする付記4に記載の信号処理装置。
(付記6)前記仮推定音声に基づき、複数の前記特異音声モデルから、特定の特異音声モデルを選択する選択手段を更に備え、前記第1の期待値算出手段は、前記仮推定音声と、前記標準音声モデルと、前記選択手段によって選択された前記特異音声モデルと、を用いて第1の期待値を算出し、前記第2の期待値算出手段は、前記仮推定音声と、前記選択手段によって選択された前記特異音声モデルと、を用いて第2の期待値を算出する、ことを特徴とする付記3に記載の信号処理装置。
(付記7)標準的な話者の音声の特徴量とは異なる特徴量を有する特異な話者の入力音声に含まれる雑音を推定する雑音推定手段と、前記入力音声から前記雑音推定手段が推定した雑音を除去して仮推定音声を算出する仮推定音声算出手段と、前記仮推定音声、前記標準的な話者の音声の特徴量を表す標準音声モデル、並びに、前記特異な話者の音声の特徴量を表す特異音声モデルを用いて、前記入力音声が前記標準的な話者の音声信号であるとした場合における音声スペクトルの期待値である第1の期待値を算出する第1の期待値算出手段と、前記仮推定音声および前記特異音声モデルを用いて、前記入力音声が前記特異な話者の音声信号であるとした場合における音声スペクトルの期待値である第2の期待値を算出する第2の期待値算出手段と、前記推定した雑音、前記第1の期待値および前記第2の期待値を用いて、雑音を抑圧する抑圧フィルタを算出するフィルタ算出手段と、前記入力音声に対し、前記抑圧フィルタのフィルタリング処理を行うことにより出力信号を出力するフィルタリング手段と、を備えることを特徴とする音声処理装置。
(付記8)前記標準音声モデルを前記仮推定音声の特徴に話者適応させて、特異音声モデルを取得する話者適応手段を更に備え、前記第1の期待値算出手段は、前記仮推定音声と、前記標準音声モデルと、前記話者適応手段によって取得された前記特異音声モデルと、を用いて第1の期待値を算出し、前記第2の期待値算出手段は、前記仮推定音声と、前記話者適応手段によって取得された前記特異音声モデルと、を用いて第2の期待値を算出する、ことを特徴とする付記7に記載の音声処理装置。
(付記9)前記話者適応手段が前記標準音声モデルに対して話者適応するための音素列を表示する音素列表示手段を更に備え、前記話者適応手段は、前記標準音声モデルに対して、前記音素列表示手段が表示した音素列をユーザが発話した際の入力音声の仮推定音声の特徴に話者適応させて、特異音声モデルを取得する、ことを特徴とする付記8に記載の音声処理装置。
(付記10)前記仮推定音声に基づき、複数の前記特異音声モデルから、特定の特異音声モデルを選択する選択手段を更に備え、前記第1の期待値算出手段は、前記仮推定音声と、前記標準音声モデルと、前記選択手段によって選択された前記特異音声モデルと、を用いて第1の期待値を算出し、前記第2の期待値算出手段は、前記仮推定音声と、前記選択手段によって選択された前記特異音声モデルと、を用いて第2の期待値を算出する、ことを特徴とする付記7に記載の音声理装置。
(付記11)信号処理装置における信号処理方法であって、標準的な音源の特徴量とは異なる特徴量を有する特異な音源の入力信号、前記標準的な音源の特徴量を表す標準音源モデル、並びに、前記特異な音源の特徴量を表す特異音源モデル、を用いて、前記入力信号が前記標準的な音源の信号であるとした場合における信号スペクトルの期待値である第1の期待値を算出し、前記入力信号および前記特異音源モデルを用いて、前記入力信号が前記特異な音源の信号であるとした場合における信号スペクトルの期待値である第2の期待値を算出し、前記第1の期待値および前記第2の期待値を用いて、フィルタを算出し、前記入力信号に対し、前記フィルタのフィルタリング処理を行う、ことを特徴とする信号処理方法。
(付記12)信号処理装置における信号処理方法であって、標準的な音源の特徴量とは異なる特徴量を有する特異な音源の入力信号から推定された雑音が除去された仮推定信号、前記標準的な音源の特徴量を表す標準音源モデル、並びに、前記特異な音源の特徴量を表す特異音源モデル、を用いて、前記入力信号が前記標準的な音源の信号であるとした場合における信号スペクトルの期待値である第1の期待値を算出し、前記仮推定信号および前記特異音源モデルを用いて、前記入力信号が前記特異な音源の信号であるとした場合における信号スペクトルの期待値である第2の期待値を算出し、前記推定された雑音、前記第1の期待値および前記第2の期待値を用いて、雑音を抑圧する抑圧フィルタを算出し、前記入力信号に対し、前記抑圧フィルタのフィルタリング処理を行う、ことを特徴とする信号処理方法。
(付記13)信号処理装置における信号処理方法であって、標準的な話者の音声の特徴量とは異なる特徴量を有する特異な話者の入力音声から推定された雑音が除去された仮推定音声、前記標準的な話者の音声の特徴量を表す標準音声モデル、並びに、前記特異な話者の音声の特徴量を表す特異音声モデル、を用いて、前記入力音声が前記標準的な話者の音声信号であるとした場合における音声スペクトルの期待値である第1の期待値を算出し、前記仮推定音声および前記特異音声モデルを用いて、前記入力音声が前記特異な話者の音声信号であるとした場合における音声スペクトルの期待値である第2の期待値を算出し、前記推定された雑音、前記第1の期待値および前記第2の期待値を用いて、雑音を抑圧する抑圧フィルタを算出し、前記入力音声に対し、前記抑圧フィルタのフィルタリング処理を行う、ことを特徴とする信号処理方法。
(付記14)音声処理装置における音声処理方法であって、標準的な話者の音声の特徴量とは異なる特徴量を有する特異な話者の入力音声に含まれる雑音を推定し、前記入力音声から前記雑音推定手段が推定した雑音を除去して仮推定音声を算出し、前記仮推定音声、前記標準的な話者の音声の特徴量を表す標準音声モデル、並びに、前記特異な話者の音声の特徴量を表す特異音声モデルを用いて、前記入力音声が前記標準的な話者の音声信号であるとした場合における音声スペクトルの期待値である第1の期待値を算出し、前記仮推定音声および前記特異音声モデルを用いて、前記入力音声が前記特異な話者の音声信号であるとした場合における音声スペクトルの期待値である第2の期待値を算出し、前記推定した雑音、前記第1の期待値および前記第2の期待値を用いて、雑音を抑圧する抑圧フィルタを算出し、前記入力音声に対し、前記抑圧フィルタのフィルタリング処理を行うことにより出力信号を出力する、ことを特徴とする音声処理方法。
(付記15)標準的な音源の特徴量とは異なる特徴量を有する特異な音源の入力信号、前記標準的な音源の特徴量を表す標準音源モデル、並びに、前記特異な音源の特徴量を表す特異音源モデル、を用いて、前記入力信号が前記標準的な音源の信号であるとした場合における信号スペクトルの期待値である第1の期待値を算出する処理と、前記入力信号および前記特異音源モデルを用いて、前記入力信号が前記特異な音源の信号であるとした場合における信号スペクトルの期待値である第2の期待値を算出する処理と、前記第1の期待値および前記第2の期待値を用いて、フィルタを算出する処理と、前記入力信号に対し、前記フィルタのフィルタリング処理を行う処理と、をコンピュータに実行させることを特徴とするプログラム。
(付記16)標準的な音源の特徴量とは異なる特徴量を有する特異な音源の入力信号から推定された雑音が除去された仮推定信号、前記標準的な音源の特徴量を表す標準音源モデル、並びに、前記特異な音源の特徴量を表す特異音源モデル、を用いて、前記入力信号が前記標準的な音源の信号であるとした場合における信号スペクトルの期待値である第1の期待値を算出する処理と、前記仮推定信号および前記特異音源モデルを用いて、前記入力信号が前記特異な音源の信号であるとした場合における信号スペクトルの期待値である第2の期待値を算出する処理と、前記推定された雑音、前記第1の期待値および前記第2の期待値を用いて、雑音を抑圧する抑圧フィルタを算出する処理と、前記入力信号に対し、前記抑圧フィルタのフィルタリング処理を行う処理と、をコンピュータに実行させることを特徴とするプログラム。
(付記17)標準的な話者の音声の特徴量とは異なる特徴量を有する特異な話者の入力音声から推定された雑音が除去された仮推定音声、前記標準的な話者の音声の特徴量を表す標準音声モデル、並びに、前記特異な話者の音声の特徴量を表す特異音声モデル、を用いて、前記入力音声が前記標準的な話者の音声信号であるとした場合における音声スペクトルの期待値である第1の期待値を算出する処理と、前記仮推定音声および前記特異音声モデルを用いて、前記入力音声が前記特異な話者の音声信号であるとした場合における音声スペクトルの期待値である第2の期待値を算出する処理と、前記推定された雑音、前記第1の期待値および前記第2の期待値を用いて、雑音を抑圧する抑圧フィルタを算出する処理と、前記入力音声に対し、前記抑圧フィルタのフィルタリング処理を行う処理と、をコンピュータに実行させることを特徴とするプログラム。
(付記18)標準的な話者の音声の特徴量とは異なる特徴量を有する特異な話者の入力音声に含まれる雑音を推定する処理と、前記入力音声から前記雑音推定手段が推定した雑音を除去して仮推定音声を算出する処理と、前記仮推定音声、前記標準的な話者の音声の特徴量を表す標準音声モデル、並びに、前記特異な話者の音声の特徴量を表す特異音声モデルを用いて、前記入力音声が前記標準的な話者の音声信号であるとした場合における音声スペクトルの期待値である第1の期待値を算出する処理と、前記仮推定音声および前記特異音声モデルを用いて、前記入力音声が前記特異な話者の音声信号であるとした場合における音声スペクトルの期待値である第2の期待値を算出する処理と、前記推定した雑音、前記第1の期待値および前記第2の期待値を用いて、雑音を抑圧する抑圧フィルタを算出する処理と、前記入力音声に対し、前記抑圧フィルタのフィルタリング処理を行うことにより出力信号を出力するする処理と、をコンピュータに実行させることを特徴とするプログラム。
(付記19)付記15から18の何れかに記載のプログラムを記録した記憶媒体。
1 音声処理装置
2 音声処理装置
3 音声処理装置
10 入力信号取得部
20 雑音推定部
30 仮推定音声算出部
40 記憶部
50 標準話者期待値算出部
60 特異話者期待値算出部
70 フィルタ算出部
80 フィルタリング部
90 話者適応部
91 音素列表示部
92 話者選択部
100 信号処理装置
401 標準話者モデル
402 特異話者モデル

Claims (10)

  1. 標準的な音源の特徴量とは異なる特徴量を有する特異な音源の入力信号、前記標準的な音源の特徴量を表す標準音源モデル、並びに、前記特異な音源の特徴量を表す特異音源モデル、を用いて、前記入力信号が前記標準的な音源の信号であるとした場合における信号スペクトルの期待値である第1の期待値を算出する第1の期待値算出手段と、
    前記入力信号および前記特異音源モデルを用いて、前記入力信号が前記特異な音源の信号であるとした場合における信号スペクトルの期待値である第2の期待値を算出する第2の期待値算出手段と、
    前記第1の期待値および前記第2の期待値を用いて、フィルタを算出するフィルタ算出手段と、
    前記入力信号に対し、前記フィルタのフィルタリング処理を行うフィルタリング手段と、を備えることを特徴とする信号処理装置。
  2. 標準的な音源の特徴量とは異なる特徴量を有する特異な音源の入力信号から推定された雑音が除去された仮推定信号、前記標準的な音源の特徴量を表す標準音源モデル、並びに、前記特異な音源の特徴量を表す特異音源モデル、を用いて、前記入力信号が前記標準的な音源の信号であるとした場合における信号スペクトルの期待値である第1の期待値を算出する第1の期待値算出手段と、
    前記仮推定信号および前記特異音源モデルを用いて、前記入力信号が前記特異な音源の信号であるとした場合における信号スペクトルの期待値である第2の期待値を算出する第2の期待値算出手段と、
    前記推定された雑音、前記第1の期待値および前記第2の期待値を用いて、雑音を抑圧する抑圧フィルタを算出するフィルタ算出手段と、
    前記入力信号に対し、前記抑圧フィルタのフィルタリング処理を行うフィルタリング手段と、を備えることを特徴とする信号処理装置。
  3. 標準的な話者の音声の特徴量とは異なる特徴量を有する特異な話者の入力音声から推定された雑音が除去された仮推定音声、前記標準的な話者の音声の特徴量を表す標準音声モデル、並びに、前記特異な話者の音声の特徴量を表す特異音声モデル、を用いて、前記入力音声が前記標準的な話者の音声信号であるとした場合における音声スペクトルの期待値である第1の期待値を算出する第1の期待値算出手段と、
    前記仮推定音声および前記特異音声モデルを用いて、前記入力音声が前記特異な話者の音声信号であるとした場合における音声スペクトルの期待値である第2の期待値を算出する第2の期待値算出手段と、
    前記推定された雑音、前記第1の期待値および前記第2の期待値を用いて、雑音を抑圧する抑圧フィルタを算出するフィルタ算出手段と、
    前記入力音声に対し、前記抑圧フィルタのフィルタリング処理を行うフィルタリング手段と、を備えることを特徴とする信号処理装置。
  4. 前記標準音声モデルを前記仮推定音声の特徴に話者適応させて、特異音声モデルを取得する話者適応手段を更に備え、
    前記第1の期待値算出手段は、前記仮推定音声と、前記標準音声モデルと、前記話者適応手段によって取得された前記特異音声モデルと、を用いて第1の期待値を算出し、
    前記第2の期待値算出手段は、前記仮推定音声と、前記話者適応手段によって取得された前記特異音声モデルと、を用いて第2の期待値を算出する、ことを特徴とする請求項3に記載の信号処理装置。
  5. 前記話者適応手段が前記標準音声モデルに対して話者適応するための音素列を表示する音素列表示手段を更に備え、
    前記話者適応手段は、前記標準音声モデルに対して、前記音素列表示手段が表示した音素列をユーザが発話した際の入力音声の仮推定音声の特徴に話者適応させて、特異音声モデルを取得する、ことを特徴とする請求項4に記載の信号処理装置。
  6. 前記仮推定音声に基づき、複数の前記特異音声モデルから、特定の特異音声モデルを選択する選択手段を更に備え、
    前記第1の期待値算出手段は、前記仮推定音声と、前記標準音声モデルと、前記選択手段によって選択された前記特異音声モデルと、を用いて第1の期待値を算出し、
    前記第2の期待値算出手段は、前記仮推定音声と、前記選択手段によって選択された前記特異音声モデルと、を用いて第2の期待値を算出する、ことを特徴とする請求項3に記載の信号処理装置。
  7. 標準的な話者の音声の特徴量とは異なる特徴量を有する特異な話者の入力音声に含まれる雑音を推定する雑音推定手段と、
    前記入力音声から前記雑音推定手段が推定した雑音を除去して仮推定音声を算出する仮推定音声算出手段と、
    前記仮推定音声、前記標準的な話者の音声の特徴量を表す標準音声モデル、並びに、前記特異な話者の音声の特徴量を表す特異音声モデルを用いて、前記入力音声が前記標準的な話者の音声信号であるとした場合における音声スペクトルの期待値である第1の期待値を算出する第1の期待値算出手段と、
    前記仮推定音声および前記特異音声モデルを用いて、前記入力音声が前記特異な話者の音声信号であるとした場合における音声スペクトルの期待値である第2の期待値を算出する第2の期待値算出手段と、
    前記推定した雑音、前記第1の期待値および前記第2の期待値を用いて、雑音を抑圧する抑圧フィルタを算出するフィルタ算出手段と、
    前記入力音声に対し、前記抑圧フィルタのフィルタリング処理を行うことにより出力信号を出力するフィルタリング手段と、を備えることを特徴とする音声処理装置。
  8. 信号処理装置における信号処理方法であって、
    標準的な音源の特徴量とは異なる特徴量を有する特異な音源の入力信号、前記標準的な音源の特徴量を表す標準音源モデル、並びに、前記特異な音源の特徴量を表す特異音源モデル、を用いて、前記入力信号が前記標準的な音源の信号であるとした場合における信号スペクトルの期待値である第1の期待値を算出し、
    前記入力信号および前記特異音源モデルを用いて、前記入力信号が前記特異な音源の信号であるとした場合における信号スペクトルの期待値である第2の期待値を算出し、
    前記第1の期待値および前記第2の期待値を用いて、フィルタを算出し、前記入力信号に対し、前記フィルタのフィルタリング処理を行う、ことを特徴とする信号処理方法。
  9. 信号処理装置における信号処理方法であって、
    標準的な話者の音声の特徴量とは異なる特徴量を有する特異な話者の入力音声から推定された雑音が除去された仮推定音声、前記標準的な話者の音声の特徴量を表す標準音声モデル、並びに、前記特異な話者の音声の特徴量を表す特異音声モデル、を用いて、前記入力音声が前記標準的な話者の音声信号であるとした場合における音声スペクトルの期待値である第1の期待値を算出し、
    前記仮推定音声および前記特異音声モデルを用いて、前記入力音声が前記特異な話者の音声信号であるとした場合における音声スペクトルの期待値である第2の期待値を算出し、
    前記推定された雑音、前記第1の期待値および前記第2の期待値を用いて、雑音を抑圧する抑圧フィルタを算出し、
    前記入力音声に対し、前記抑圧フィルタのフィルタリング処理を行う、ことを特徴とする信号処理方法。
  10. 音声処理装置における音声処理方法であって、
    標準的な話者の音声の特徴量とは異なる特徴量を有する特異な話者の入力音声に含まれる雑音を推定し、
    前記入力音声から前記雑音推定手段が推定した雑音を除去して仮推定音声を算出し、
    前記仮推定音声、前記標準的な話者の音声の特徴量を表す標準音声モデル、並びに、前記特異な話者の音声の特徴量を表す特異音声モデルを用いて、前記入力音声が前記標準的な話者の音声信号であるとした場合における音声スペクトルの期待値である第1の期待値を算出し、
    前記仮推定音声および前記特異音声モデルを用いて、前記入力音声が前記特異な話者の音声信号であるとした場合における音声スペクトルの期待値である第2の期待値を算出し、
    前記推定した雑音、前記第1の期待値および前記第2の期待値を用いて、雑音を抑圧する抑圧フィルタを算出し、
    前記入力音声に対し、前記抑圧フィルタのフィルタリング処理を行うことにより出力信号を出力する、ことを特徴とする音声処理方法。
JP2013171052A 2013-08-21 2013-08-21 信号処理装置、音声処理装置、信号処理方法および音声処理方法 Pending JP2015040931A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013171052A JP2015040931A (ja) 2013-08-21 2013-08-21 信号処理装置、音声処理装置、信号処理方法および音声処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013171052A JP2015040931A (ja) 2013-08-21 2013-08-21 信号処理装置、音声処理装置、信号処理方法および音声処理方法

Publications (1)

Publication Number Publication Date
JP2015040931A true JP2015040931A (ja) 2015-03-02

Family

ID=52695138

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013171052A Pending JP2015040931A (ja) 2013-08-21 2013-08-21 信号処理装置、音声処理装置、信号処理方法および音声処理方法

Country Status (1)

Country Link
JP (1) JP2015040931A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017134321A (ja) * 2016-01-29 2017-08-03 日本電信電話株式会社 信号処理方法、信号処理装置及び信号処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017134321A (ja) * 2016-01-29 2017-08-03 日本電信電話株式会社 信号処理方法、信号処理装置及び信号処理プログラム

Similar Documents

Publication Publication Date Title
KR101153093B1 (ko) 다감각 음성 향상을 위한 방법 및 장치
JP4245617B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP5000647B2 (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
JP5949550B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP2007279444A (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP6004792B2 (ja) 音響処理装置、音響処理方法、及び音響処理プログラム
CN101432799B (zh) 基于高斯混合模型的变换中的软校准
JP4516157B2 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
WO2012020717A1 (ja) 音声区間判定装置、音声区間判定方法および音声区間判定プログラム
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP2009003008A (ja) 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム
JP2001125588A (ja) 音声認識装置及び方法ならびに記録媒体
JP4883750B2 (ja) 音響評定装置、およびプログラム
JP2019020678A (ja) ノイズ低減装置および音声認識装置
JP4505597B2 (ja) 雑音除去装置
JP2015040931A (ja) 信号処理装置、音声処理装置、信号処理方法および音声処理方法
JP2016206442A (ja) 閾値推定装置、音声合成装置、その方法及びプログラム
JP5320341B2 (ja) 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
JP4877113B2 (ja) 音響モデル処理装置およびプログラム
JP2004509364A (ja) 音声認識システム
JP2005321539A (ja) 音声認識方法、その装置およびプログラム、その記録媒体
WO2016092837A1 (ja) 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
JP2021099454A (ja) 音声合成装置、音声合成プログラム及び音声合成方法
JP4177751B2 (ja) 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ
JP2006145694A (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体