JP2017134321A - 信号処理方法、信号処理装置及び信号処理プログラム - Google Patents
信号処理方法、信号処理装置及び信号処理プログラム Download PDFInfo
- Publication number
- JP2017134321A JP2017134321A JP2016015464A JP2016015464A JP2017134321A JP 2017134321 A JP2017134321 A JP 2017134321A JP 2016015464 A JP2016015464 A JP 2016015464A JP 2016015464 A JP2016015464 A JP 2016015464A JP 2017134321 A JP2017134321 A JP 2017134321A
- Authority
- JP
- Japan
- Prior art keywords
- signal processing
- feature amount
- feature
- unit
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
まず、実施の形態1に係る信号処理装置について説明する。この信号処理装置は、雑音及び残響(音響歪み)を含む入力信号から音響歪みを除去し、明瞭な強調音声信号を出力する処理を行う装置である。
図1は、実施の形態1に係る信号処理装置の構成の一例を模式的に示す図である。実施の形態1に係る信号処理装置1は、例えば、例えばROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。
次に、特徴量変換部14の処理について詳細に説明する。特徴量変換部14は,特徴量生成部13で生成された、例えばメル周波数ケプストラム係数等の特徴量を、音響歪み耐性が高いボトルネック特徴量btに変換する。この特徴量変換部14には、前述したように、DNN−HMM音響モデルが適用される。そこで、図3を参照して、特徴量変換部14の処理を説明する。
ここでは、説明の簡易化のため、あるひとつの雑音/残響環境の事例モデルMのみを考える。また、説明の簡易化のため、入力信号の特徴量のセグメントytと学習データセグメントのマッチングの際の時間伸縮は考えないものとする。実施の形態1では、入力信号の特徴量のセグメントytとして、前段の特徴量変換部14から、特徴量変換部14が変換したボトルネック特徴量btが入力される。
次に、信号処理装置1における信号処理方法について説明する。図4は、図1に示す信号処理装置1が実行する処理手順を示すフローチャートである。
このように、本実施の形態1に係る信号処理装置1は、マッチング部15がセグメント探索に用いる特徴量ytとして、メル周波数ケプストラム係数等の振幅スペクトルから単純に得られる特徴量xtではなく、この特徴量xtに対して、さらに雑音又は残響(音響歪み)の低減処理を施したボトルネック特徴量btを用いている。言い換えれば,マッチング部15は、音響歪み耐性が高いボトルネック特徴量btを用いてセグメント探索を行うため、セグメント探索に対する雑音又は残響の影響を低減でき、セグメント探索の精度を高めることができる。したがって、信号処理装置1によれば、入力信号に類似するクリーン音声の特徴量を高精度で探索でき、入力信号を明瞭な強調音声信号に変換することができる。
また、信号処理装置1の事例モデル記憶部11に記憶される事例モデルMを生成する事例モデル生成装置2について説明する。この事例モデル生成装置2においても、例えば、学習用の音声信号から生成されたメル周波数ケプストラム係数等の特徴量xtに対して、雑音又は残響(音響歪み)の低減処理を施したボトルネック特徴量btを用いて、事例モデルMの生成を行っている。
次に、事例モデル生成処理について説明する。図6は、事例モデル生成装置2による事例モデル生成処理の処理手順を示すフローチャートである。
次に、実施の形態2について説明する。実施の形態2では、音響歪みの影響を軽減させるとともに、話者性を考慮したセグメント探索を行う信号処理装置について説明する。
図7は、実施の形態2に係る信号処理装置の構成を示すブロック図である。図7に示すように、実施の形態2に係る信号処理装置201は、図1に示す信号処理装置1と比して、特徴量変換部14と並列に設けられた話者特徴量生成部217と、特徴量変換部14及び話者特徴量生成部217の後段に設けられた連結部218と、をさらに有する。
ここで、話者特徴量生成部217による話者特徴量wtの生成処理について説明する。ここでは、話者特徴量生成部217が、話者の特徴を数十〜数百次元程度のベクトルで表現したi-vectorと呼ばれる特徴量ベクトル(ベクトルwe)を生成する場合について説明する。また、ここでは、GMM−UBM(Universal Background Model)アプローチで、話者認識におけるi-vectorを抽出する方法について説明する。GMM−UBMアプローチは、「音声らしい」モデル(UBM)を多数の不特定話者の大量のUBM学習用の音声データを用いて学習しておき、新たな話者のモデル(GMM)は、当該話者の少量の音声データを用いてUBMを適応して得るという手法である。UBMは、図示しない記憶部に記憶されている。
そこで、信号処理装置201が強調音声信号を出力するまでの処理について説明する。
図8は、信号処理装置201が実行する処理手順を示すフローチャートである。
音声認識においては、話者性は不要な情報であるので、DNN−HMM音響モデルを通す特徴量変換処理では、話者性を軽減するような特徴量変換を行う。したがって、特徴量変換部14においては、DNN−HMM音響モデルを通してボトルネック特徴量を抽出する際に、話者性も軽減している。そこで、実施の形態2では、話者性が軽減されたボトルネック特徴量btに話者特徴量wtを連結した連結特徴量を用いて、マッチング部15によるセグメント探索を行ことによって、最終的に信号処理装置201から出力される強調音声信号を、話者性を含ませたものとすることができる。
なお、この発明は、複数の音響歪み(雑音/残響環境)の事例モデルを考慮する際の時間、及び、マッチング時に時間伸縮について考慮する際の時間は、非特許文献1に記載されているように、拡張可能である。また、事例モデル記憶部11は、例えば、出願人による特開2015−152704号公報に記載された木構造化構成を適用したセグメントを含む事例モデルMを記憶していてもよい。この場合、マッチング部15は、この木構造化構成のセグメントを含む事例モデルMから、入力信号に対応するセグメントに最も類似したセグメントを探索してもよい。また、マッチング部15は、例えば、出願人による特開2015−152705号公報に記載されたセグメント評価関数を用いてセグメント探索を行ってもよい。
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。例えば、信号処理装置1,201及び事例モデル生成装置2は、一体の装置であってもよい。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
図9は、プログラムが実行されることにより、信号処理装置或いは学習モデル生成装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
2 事例モデル生成装置
11,11P 事例モデル記憶部
12,12P フーリエ変換部
13,13P 特徴量生成部
14 特徴量変換部
15,15P マッチング部
16,16P 音声強調フィルタリング部
25 ガウス混合モデル学習部
26 最尤ガウス分布計算部
217 話者特徴量生成部
218 連結部
Claims (6)
- 信号処理装置で実行される信号処理方法であって、
前記信号処理装置は、雑音又は音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する記憶部を有し、
前記信号処理装置が、入力信号から第1の特徴量を生成する特徴量生成工程と、
前記信号処理装置が、前記第1の特徴量を、雑音又は音響歪みの低減処理を施した第2の特徴量に変換する特徴量変換工程と、
前記信号処理装置が、前記記憶部に記憶された前記混合分布モデルのパラメータを基に、前記第2の特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を前記入力信号に対応するクリーン音声特徴量として求める照合工程と、
前記信号処理装置が、前記照合工程において求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声信号を出力する出力工程と、
を含んだことを特徴とする信号処理方法。 - 前記低減処理は、DNN(Deep Neural Network;ディープニューラルネットワーク)−HMM(Hidden Markov Model;隠れマルコフモデル)音響モデルからボトルネック特徴量を得る処理であることを特徴とする請求項1に記載の信号処理方法。
- 前記信号処理装置が、話者の特徴を表現した話者特徴量を生成する話者特徴量生成工程と、
前記信号処理装置が、前記第2の特徴量と前記話者特徴量とを連結した連結特徴量を生成する連結工程と、
をさらに含み、
前記照合工程は、前記特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算することを特徴とする請求項1または2に記載の信号処理方法。 - 前記信号処理装置が、学習用の入力信号から第3の特徴量を生成する学習用特徴量生成工程と、
前記信号処理装置が、前記第3の特徴量に対して前記雑音又は音響歪みの低減処理を施した第4の特徴量を生成する学習用特徴量変換工程と、
前記信号処理装置が、前記第4の特徴量を学習データとして、最尤推定法によりガウス混合分布モデルを取得するガウス混合モデル学習工程と、
前記信号処理装置が、各時間に対して最大の尤度を与える前記ガウス混合分布モデルの中のガウス分布のインデックスを求め、該インデックスの時間系列を取得する最尤ガウス分布計算工程と、
前記信号処理装置が、前記インデックスの時間系列を、前記混合分布モデルのパラメータとして前記記憶部に格納する格納工程と、
を含んだことを特徴とする請求項1〜3のいずれか一つに記載の信号処理方法。 - 雑音又は音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する記憶部と、
入力信号から第1の特徴量を生成する特徴量生成部と、
前記第1の特徴量を、雑音又は音響歪みの低減処理を施した第2の特徴量に変換する特徴量変換部と、
前記記憶部に記憶された前記混合分布モデルのパラメータを基に、前記第2の特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を前記入力信号に対応するクリーン音声特徴量として求める照合部と、
前記照合部によって求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声を出力する出力部と、
を有することを特徴とする信号処理装置。 - 信号処理装置に実行させるための信号処理プログラムであって、
前記信号処理装置は、雑音又は音響歪みを含む音声或いはクリーン音声を学習した混合分布モデルを記憶する記憶部を有し、
入力信号から第1の特徴量を生成する特徴量生成ステップと、
前記第1の特徴量を、雑音又は音響歪みの低減処理を施した第2の特徴量に変換する特徴量変換ステップと、
前記記憶部に記憶された前記混合分布モデルのパラメータを基に、前記第2の特徴量が前記混合分布モデルの各分布に該当する確率を示す事後確率を計算し、最も高い事後確率をとるクリーン音声特徴量を前記入力信号に対応するクリーン音声特徴量として求める照合ステップと、
前記照合ステップにおいて求められたクリーン音声特徴量から構成されるフィルタを前記入力信号に乗算した強調音声信号を出力する出力ステップと、
を前記信号処理装置に実行させるための信号処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016015464A JP6499095B2 (ja) | 2016-01-29 | 2016-01-29 | 信号処理方法、信号処理装置及び信号処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016015464A JP6499095B2 (ja) | 2016-01-29 | 2016-01-29 | 信号処理方法、信号処理装置及び信号処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017134321A true JP2017134321A (ja) | 2017-08-03 |
JP6499095B2 JP6499095B2 (ja) | 2019-04-10 |
Family
ID=59502775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016015464A Active JP6499095B2 (ja) | 2016-01-29 | 2016-01-29 | 信号処理方法、信号処理装置及び信号処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6499095B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018146683A (ja) * | 2017-03-02 | 2018-09-20 | 日本電信電話株式会社 | 信号処理装置、信号処理方法及び信号処理プログラム |
CN110379412A (zh) * | 2019-09-05 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 语音处理的方法、装置、电子设备及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015040931A (ja) * | 2013-08-21 | 2015-03-02 | 日本電気株式会社 | 信号処理装置、音声処理装置、信号処理方法および音声処理方法 |
JP2015152705A (ja) * | 2014-02-13 | 2015-08-24 | 日本電信電話株式会社 | 信号処理装置、方法及びプログラム |
-
2016
- 2016-01-29 JP JP2016015464A patent/JP6499095B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015040931A (ja) * | 2013-08-21 | 2015-03-02 | 日本電気株式会社 | 信号処理装置、音声処理装置、信号処理方法および音声処理方法 |
JP2015152705A (ja) * | 2014-02-13 | 2015-08-24 | 日本電信電話株式会社 | 信号処理装置、方法及びプログラム |
Non-Patent Citations (1)
Title |
---|
張 兆峰: "DNNに基づく特徴変換による残響環境話者認識", 電子情報通信学会技術研究報告, vol. Vol.114 No.365, JPN6018045771, 8 December 2014 (2014-12-08), JP, pages P.111−116 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018146683A (ja) * | 2017-03-02 | 2018-09-20 | 日本電信電話株式会社 | 信号処理装置、信号処理方法及び信号処理プログラム |
CN110379412A (zh) * | 2019-09-05 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 语音处理的方法、装置、电子设备及计算机可读存储介质 |
WO2021042870A1 (zh) * | 2019-09-05 | 2021-03-11 | 腾讯科技(深圳)有限公司 | 语音处理的方法、装置、电子设备及计算机可读存储介质 |
CN110379412B (zh) * | 2019-09-05 | 2022-06-17 | 腾讯科技(深圳)有限公司 | 语音处理的方法、装置、电子设备及计算机可读存储介质 |
US11948552B2 (en) | 2019-09-05 | 2024-04-02 | Tencent Technology (Shenzhen) Company Limited | Speech processing method, apparatus, electronic device, and computer-readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP6499095B2 (ja) | 2019-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3469582B1 (en) | Neural network-based voiceprint information extraction method and apparatus | |
JP5423670B2 (ja) | 音響モデル学習装置および音声認識装置 | |
US11450332B2 (en) | Audio conversion learning device, audio conversion device, method, and program | |
JP6437581B2 (ja) | 話者適応型の音声認識 | |
JP2014056235A (ja) | 音声処理システム | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
CN111292763A (zh) | 重音检测方法及装置、非瞬时性存储介质 | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
JP7423056B2 (ja) | 推論器および推論器の学習方法 | |
Chang et al. | On the importance of modeling and robustness for deep neural network feature | |
JP6784255B2 (ja) | 音声処理装置、音声処理システム、音声処理方法、およびプログラム | |
JP4964194B2 (ja) | 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 | |
JP6367773B2 (ja) | 音声強調装置、音声強調方法及び音声強調プログラム | |
JP2011033879A (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
JP6142401B2 (ja) | 音声合成モデル学習装置、方法、及びプログラム | |
Harvianto et al. | Analysis and voice recognition In Indonesian language using MFCC and SVM method | |
JP6734233B2 (ja) | 信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラム | |
JP6699945B2 (ja) | 音響モデル学習装置、その方法、及びプログラム | |
JP6728083B2 (ja) | 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム | |
JP6139430B2 (ja) | 信号処理装置、方法及びプログラム | |
JP2019028406A (ja) | 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム | |
Pawar et al. | Realization of Hidden Markov Model for English Digit Recognition | |
JP4004368B2 (ja) | 音声認識システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171211 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190314 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6499095 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |