JP5662276B2 - 音響信号処理装置および音響信号処理方法 - Google Patents
音響信号処理装置および音響信号処理方法 Download PDFInfo
- Publication number
- JP5662276B2 JP5662276B2 JP2011172409A JP2011172409A JP5662276B2 JP 5662276 B2 JP5662276 B2 JP 5662276B2 JP 2011172409 A JP2011172409 A JP 2011172409A JP 2011172409 A JP2011172409 A JP 2011172409A JP 5662276 B2 JP5662276 B2 JP 5662276B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic signal
- signal
- acoustic
- basis matrix
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
Description
第1の実施形態の音響信号処理装置は、音声信号および非音声信号を含んだ音響信号から音声信号を分離するものである。例えば、本実施形態の音響信号処理装置を音声認識の前処理として利用することにより、音声認識の認識性能を向上させることができる。
図1は、第1の実施形態にかかる音響信号処理装置を示すブロック図である。本実施形態の音響信号処理装置は、音声信号と非音声信号を含んだ音響信号を取得する音響取得部101と、音響信号から音声信号および非音声信号の特徴を表す音響特徴を抽出し、この音響特徴を利用して、音響信号に音声信号が含まれる尤もらしさを表す音声尤度と非音声信号が含まれる尤もらしさを表す非音声尤度を計算する尤度計算部102と、音声尤度と非音声尤度を利用して、音響信号の所定区間ごとに音声・非音声を判別する音声・非音声判別部103と、音響信号をフーリエ変換してスペクトログラムを抽出するスペクトル特徴抽出部104と、非音声信号と判別された区間の音響信号から抽出されたスペクトログラムを利用して、非音声信号の特徴を表す第1の基底行列を作成する第1基底行列作成部105と、音声尤度を利用して、第1の基底行列から音声信号との関連性が高い列ベクトルの成分を除外して第2の基底行列を作成する第2基底行列作成部106と、スペクトログラムを前記第2の基底行列を用いて非負行列因子分解することにより、音声信号の特徴を表す第3の基底行列および第1の係数行列を計算し、この第3の基底行列および第1の係数行列の積により、音響信号に含まれる音声信号のスペクトログラムを推定するスペクトル特徴推定部107と、推定された音声信号のスペクトログラムを逆フーリエ変換により時間信号に変換する逆変換部108とを備える。
本実施形態の音響信号処理装置は、図2に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するCPU(Central Processing Unit)等の制御部201と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部202と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部203と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部204と、外部装置との通信を制御する通信部205と、ユーザの発声を取得するマイク206と、これらを接続するバス208とを備えている。
音響取得部101は、マイク206に入力された音響信号を取得する。この音響信号には、ユーザの音声である音声信号だけでなく背景雑音や音楽などの非音声信号が含まれる。なお、本実施形態の音響信号は、16kHzでサンプリングされたデジタル信号であるとする。なお、音響取得部101は、マイク206ではなく、外部記憶部203や通信部205によって接続された外部装置から音響信号を取得してもよい。
図5のフローチャートを利用して、本実施形態にかかる音声信号処理装置の処理を説明する。まず、ステップS501では、音響取得部101は、分離対象となる音響信号を取得する。
図6のフローチャートを利用して、第2の基底行列Bを作成する図5のステップS508の詳細を説明する。まず、ステップS601では、第2基底行列作成部106は、係数行列Uの各行ごとに正規化を実行することにより係数行列U’を得る。
このように、本実施形態の音響信号処理装置は、作成された非音声信号の第1の基底行列から音声信号との関連性が高い成分を除外することで第2の基底行列を作成する。これにより、非音声信号の基底行列を正確に作成することができ、結果として、音声信号の分離性能を向上させることができる。
本実施形態の音響信号処理装置では、音声信号と非音声信号の分離を対象としていたが、他の信号の分離に応用することもできる。例えば、音楽信号と非音楽信号の分離も同様な方法で実現することができる。
102 尤度計算部
103 音声・非音声判別部
104 スペクトル特徴抽出部
105 第1基底行列作成部
106 第2基底行列作成部
107 スペクトル特徴推定部
108 逆変換部
201 制御部
202 記憶部
203 外部記憶部
204 操作部
205 通信部
206 マイク
208 バス
301 非負行列因子分解
302 音声尤度
303 最大値を示す要素
401 非負行列因子分解
402 音声信号のスペクトログラム
701 音響信号のスペクトログラム
702〜704 推定された音声信号のスペクトログラム
705 非音声信号と判別された区間
706 音声尤度が低い区間
Claims (10)
- 音声信号と非音声信号を含んだ音響信号を取得する音響取得手段と、
前記音響信号から前記音声信号および前記非音声信号の特徴を表す音響特徴を抽出し、この音響特徴を利用して前記音響信号に前記音声信号が含まれる尤もらしさを表す尤度を計算する尤度計算手段と、
前記音響信号を周波数解析してスペクトル特徴を抽出するスペクトル特徴抽出手段と、
前記スペクトル特徴を利用して、前記非音声信号の特徴を表す第1の基底行列を作成する第1基底行列作成手段と、
前記尤度を利用して、前記第1の基底行列において前記音声信号との関連性が高い成分を特定し、この成分を除外して第2の基底行列を作成する第2基底行列作成手段と、
前記スペクトル特徴を前記第2の基底行列を用いて非負行列因子分解することにより、前記音声信号のスペクトル特徴あるいは前記非音声信号のスペクトル特徴を推定するスペクトル特徴推定手段と、
を備えた音響信号処理装置。 - 前記スペクトル特徴推定手段が、前記第2の基底行列を用いた非負行列因子分解により、前記音声信号の特徴を表す第3の基底行列および第1の係数行列を作成し、この第3の基底行列と第1の係数行列の積により、前記音響信号に含まれる音声信号のスペクトル特徴を推定する請求項1記載の音響信号処理装置。
- 前記第2基底行列作成手段が、前記第1の基底行列から前記音声信号との関連性が高い列ベクトルを除外して前記第2の基底行列を作成する請求項1乃至請求項2記載の音響信号処理装置。
- 前記第2基底行列作成手段が、前記第1の基底行列から前記音声信号との関連性が高い列ベクトルの値を0に置き換えて前記第2の基底行列を作成する請求項1乃至請求項2記載の音響信号処理装置。
- 前記第2基底行列作成手段が、前記尤度と所定の閾値を比較することにより前記第1の基底行列において前記音声信号との関連性が高い成分を特定する請求項1から請求項4の何れか1項に記載の音響信号処理装置。
- 前記音響信号から前記音声信号および前記非音声信号の特徴を表す音響特徴を抽出し、この音響特徴を利用して前記音響信号が音声信号であるか非音声信号であるかを判別する音声・非音声判別手段を更に備え、
前記第1基底行列作成手段が、前記音声・非音声判別手段で非音声信号であると判別された前記音響信号のスペクトル特徴を利用して、前記非音声信号の特徴を表す第1の基底行列を作成する請求項1から請求項5の何れか1項に記載の音響信号処理装置。 - 前記スペクトル特徴推定手段が、前記第2の基底行列を用いた非負行列因子分解により、非音声信号の特徴を表す第2の係数行列を作成し、前記第2の基底行列とこの第2の係数行列の積により、前記音響信号に含まれる非音声信号のスペクトル特徴を推定する請求項1から請求項6の何れか1項に記載の音響信号処理装置。
- 前記スペクトル特徴推定手段で推定されたスペクトル特徴を時間信号に変換する逆変換手段を更に備える請求項1から請求項7の何れか1項に記載の音響信号処理装置。
- 第1の音響信号および前記第1の音響信号とは異なる第2の音響信号を含んだ第3の音響信号を取得する音響取得手段と、
前記第3の音響信号から前記第1の音響信号および前記第2の音響信号の特徴を表す音響特徴を抽出し、この音響特徴を利用して前記第3の音響信号に前記第1の音響信号が含まれる尤もらしさを表す尤度を計算する尤度計算手段と、
前記第3の音響信号を周波数解析してスペクトル特徴を抽出するスペクトル特徴抽出手段と、
前記スペクトル特徴を利用して、前記第2の音響信号の特徴を表す第1の基底行列を作成する第1基底行列作成手段と、
前記尤度を利用して、前記第1の基底行列において前記第1の音響信号との関連性が高い成分を特定し、この成分を除外して第2の基底行列を作成する第2基底行列作成手段と、
前記スペクトル特徴を前記第2の基底行列を用いて非負行列因子分解することにより、前記第1の音響信号のスペクトル特徴あるいは前記第2の音響信号のスペクトル特徴を推定するスペクトル特徴推定手段と、
を備えた音響信号処理装置。 - 第1の音響信号および前記第1の音響信号とは異なる第2の音響信号を含んだ第3の音響信号を取得するステップと、
前記第3の音響信号から前記第1の音響信号および前記第2の音響信号の特徴を表す音響特徴を抽出し、この音響特徴を利用して前記第3の音響信号に前記第1の音響信号が含まれる尤もらしさを表す尤度を計算するステップと、
前記第3の音響信号を周波数解析してスペクトル特徴を抽出するステップと、
前記スペクトル特徴を利用して、前記第2の音響信号の特徴を表す第1の基底行列を作成するステップと、
前記尤度を利用して、前記第1の基底行列において前記第1の音響信号との関連性が高い成分を特定し、この成分を除外して第2の基底行列を作成するステップと、
前記スペクトル特徴を前記第2の基底行列を用いて非負行列因子分解することにより、前記第1の音響信号のスペクトル特徴あるいは前記第2の音響信号のスペクトル特徴を推定するステップと、
を備えた音響信号処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011172409A JP5662276B2 (ja) | 2011-08-05 | 2011-08-05 | 音響信号処理装置および音響信号処理方法 |
US13/420,912 US9224392B2 (en) | 2011-08-05 | 2012-03-15 | Audio signal processing apparatus and audio signal processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011172409A JP5662276B2 (ja) | 2011-08-05 | 2011-08-05 | 音響信号処理装置および音響信号処理方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014245910A Division JP2015064602A (ja) | 2014-12-04 | 2014-12-04 | 音響信号処理装置、音響信号処理方法および音響信号処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013037152A JP2013037152A (ja) | 2013-02-21 |
JP5662276B2 true JP5662276B2 (ja) | 2015-01-28 |
Family
ID=47627520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011172409A Active JP5662276B2 (ja) | 2011-08-05 | 2011-08-05 | 音響信号処理装置および音響信号処理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9224392B2 (ja) |
JP (1) | JP5662276B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015064602A (ja) * | 2014-12-04 | 2015-04-09 | 株式会社東芝 | 音響信号処理装置、音響信号処理方法および音響信号処理プログラム |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013080449A1 (ja) * | 2011-12-02 | 2013-06-06 | パナソニック株式会社 | 音声処理装置、方法、プログラムおよび集積回路 |
JP6054142B2 (ja) | 2012-10-31 | 2016-12-27 | 株式会社東芝 | 信号処理装置、方法およびプログラム |
JP6203003B2 (ja) | 2012-12-20 | 2017-09-27 | 株式会社東芝 | 信号処理装置、信号処理方法およびプログラム |
JP6299140B2 (ja) * | 2013-10-17 | 2018-03-28 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
JP6334895B2 (ja) * | 2013-11-15 | 2018-05-30 | キヤノン株式会社 | 信号処理装置及びその制御方法、プログラム |
JP2015118361A (ja) * | 2013-11-15 | 2015-06-25 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP6371516B2 (ja) * | 2013-11-15 | 2018-08-08 | キヤノン株式会社 | 音響信号処理装置および方法 |
WO2015097818A1 (ja) | 2013-12-26 | 2015-07-02 | 株式会社 東芝 | テレビシステムとサーバ装置及びテレビ装置 |
JP6039108B2 (ja) | 2013-12-26 | 2016-12-07 | 株式会社東芝 | 電子機器、制御方法およびプログラム |
JP6143887B2 (ja) | 2013-12-26 | 2017-06-07 | 株式会社東芝 | 方法、電子機器およびプログラム |
JP6482173B2 (ja) * | 2014-01-20 | 2019-03-13 | キヤノン株式会社 | 音響信号処理装置およびその方法 |
JP6274872B2 (ja) * | 2014-01-21 | 2018-02-07 | キヤノン株式会社 | 音処理装置、音処理方法 |
US10013975B2 (en) * | 2014-02-27 | 2018-07-03 | Qualcomm Incorporated | Systems and methods for speaker dictionary based speech modeling |
US9978394B1 (en) * | 2014-03-11 | 2018-05-22 | QoSound, Inc. | Noise suppressor |
US9830929B1 (en) | 2014-06-29 | 2017-11-28 | Google Inc. | Accurate extraction of chroma vectors from an audio signal |
JP6501259B2 (ja) * | 2015-08-04 | 2019-04-17 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
JP6559576B2 (ja) | 2016-01-05 | 2019-08-14 | 株式会社東芝 | 雑音抑圧装置、雑音抑圧方法及びプログラム |
JP6521886B2 (ja) * | 2016-02-23 | 2019-05-29 | 日本電信電話株式会社 | 信号解析装置、方法、及びプログラム |
IL263655B2 (en) * | 2016-06-14 | 2023-03-01 | Netzer Omry | Automatic speech recognition |
JP6791816B2 (ja) * | 2017-07-21 | 2020-11-25 | 株式会社デンソーアイティーラボラトリ | 音声区間検出装置、音声区間検出方法、およびプログラム |
US10580427B2 (en) | 2017-10-30 | 2020-03-03 | Starkey Laboratories, Inc. | Ear-worn electronic device incorporating annoyance model driven selective active noise control |
CN110619885B (zh) * | 2019-08-15 | 2022-02-11 | 西北工业大学 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
CN113053409B (zh) * | 2021-03-12 | 2024-04-12 | 科大讯飞股份有限公司 | 音频测评方法及装置 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3040499B2 (ja) | 1991-01-22 | 2000-05-15 | 旭硝子株式会社 | 液晶表示素子の製造方法 |
US7415392B2 (en) * | 2004-03-12 | 2008-08-19 | Mitsubishi Electric Research Laboratories, Inc. | System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution |
JP4313728B2 (ja) | 2004-06-17 | 2009-08-12 | 日本電信電話株式会社 | 音声認識方法、その装置およびプログラム、その記録媒体 |
KR100754385B1 (ko) * | 2004-09-30 | 2007-08-31 | 삼성전자주식회사 | 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법 |
US8346692B2 (en) * | 2005-12-23 | 2013-01-01 | Societe De Commercialisation Des Produits De La Recherche Appliquee-Socpra-Sciences Et Genie S.E.C. | Spatio-temporal pattern recognition using a spiking neural network and processing thereof on a portable and/or distributed computer |
US20080071540A1 (en) * | 2006-09-13 | 2008-03-20 | Honda Motor Co., Ltd. | Speech recognition method for robot under motor noise thereof |
US8015003B2 (en) | 2007-11-19 | 2011-09-06 | Mitsubishi Electric Research Laboratories, Inc. | Denoising acoustic signals using constrained non-negative matrix factorization |
US8223988B2 (en) * | 2008-01-29 | 2012-07-17 | Qualcomm Incorporated | Enhanced blind source separation algorithm for highly correlated mixtures |
US8577677B2 (en) * | 2008-07-21 | 2013-11-05 | Samsung Electronics Co., Ltd. | Sound source separation method and system using beamforming technique |
US20100174389A1 (en) * | 2009-01-06 | 2010-07-08 | Audionamix | Automatic audio source separation with joint spectral shape, expansion coefficients and musical state estimation |
KR20100111499A (ko) * | 2009-04-07 | 2010-10-15 | 삼성전자주식회사 | 목적음 추출 장치 및 방법 |
US8080724B2 (en) * | 2009-09-14 | 2011-12-20 | Electronics And Telecommunications Research Institute | Method and system for separating musical sound source without using sound source database |
US20110078224A1 (en) | 2009-09-30 | 2011-03-31 | Wilson Kevin W | Nonlinear Dimensionality Reduction of Spectrograms |
JP5407723B2 (ja) * | 2009-10-07 | 2014-02-05 | 株式会社デンソーアイティーラボラトリ | 認識装置、認識方法及びプログラム |
JP5580585B2 (ja) * | 2009-12-25 | 2014-08-27 | 日本電信電話株式会社 | 信号分析装置、信号分析方法及び信号分析プログラム |
US8577678B2 (en) * | 2010-03-11 | 2013-11-05 | Honda Motor Co., Ltd. | Speech recognition system and speech recognizing method |
US9049532B2 (en) * | 2010-10-19 | 2015-06-02 | Electronics And Telecommunications Research Instittute | Apparatus and method for separating sound source |
US8874441B2 (en) * | 2011-01-19 | 2014-10-28 | Broadcom Corporation | Noise suppression using multiple sensors of a communication device |
JP2012163918A (ja) * | 2011-02-09 | 2012-08-30 | Sony Corp | 音声信号処理装置、および音声信号処理方法、並びにプログラム |
JP2013171089A (ja) * | 2012-02-17 | 2013-09-02 | Toshiba Corp | 音声補正装置、方法、及びプログラム |
-
2011
- 2011-08-05 JP JP2011172409A patent/JP5662276B2/ja active Active
-
2012
- 2012-03-15 US US13/420,912 patent/US9224392B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015064602A (ja) * | 2014-12-04 | 2015-04-09 | 株式会社東芝 | 音響信号処理装置、音響信号処理方法および音響信号処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20130035933A1 (en) | 2013-02-07 |
JP2013037152A (ja) | 2013-02-21 |
US9224392B2 (en) | 2015-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5662276B2 (ja) | 音響信号処理装置および音響信号処理方法 | |
US20110125496A1 (en) | Speech recognition device, speech recognition method, and program | |
TW514867B (en) | Method and apparatus for constructing voice templates for a speaker-independent voice recognition system | |
US9478232B2 (en) | Signal processing apparatus, signal processing method and computer program product for separating acoustic signals | |
JP6908045B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP6501259B2 (ja) | 音声処理装置及び音声処理方法 | |
JP2017520784A (ja) | オンザフライの音源分離の方法及びシステム | |
KR101616112B1 (ko) | 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법 | |
US9437208B2 (en) | General sound decomposition models | |
US9460714B2 (en) | Speech processing apparatus and method | |
JP7176627B2 (ja) | 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
WO2013030134A1 (en) | Method and apparatus for acoustic source separation | |
CN108369803B (zh) | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 | |
CN111292763A (zh) | 重音检测方法及装置、非瞬时性存储介质 | |
JPWO2018163279A1 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
US11580989B2 (en) | Training method of a speaker identification model based on a first language and a second language | |
JP6487650B2 (ja) | 音声認識装置及びプログラム | |
JP6724290B2 (ja) | 音響処理装置、音響処理方法、及び、プログラム | |
US11580967B2 (en) | Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium | |
KR100766170B1 (ko) | 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법 | |
JP2015064602A (ja) | 音響信号処理装置、音響信号処理方法および音響信号処理プログラム | |
KR20170124854A (ko) | 음성/비음성 구간 검출 장치 및 방법 | |
CN111243618A (zh) | 用于确定音频中的特定人声片段的方法、装置和电子设备 | |
WO2020195924A1 (ja) | 信号処理装置および方法、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141024 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141204 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5662276 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |