JP6622159B2 - 信号処理システム、信号処理方法およびプログラム - Google Patents
信号処理システム、信号処理方法およびプログラム Download PDFInfo
- Publication number
- JP6622159B2 JP6622159B2 JP2016169999A JP2016169999A JP6622159B2 JP 6622159 B2 JP6622159 B2 JP 6622159B2 JP 2016169999 A JP2016169999 A JP 2016169999A JP 2016169999 A JP2016169999 A JP 2016169999A JP 6622159 B2 JP6622159 B2 JP 6622159B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- unit
- negative
- basis
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 79
- 238000003672 processing method Methods 0.000 title claims description 3
- 239000013598 vector Substances 0.000 claims description 83
- 239000011159 matrix material Substances 0.000 claims description 65
- 230000000694 effects Effects 0.000 claims description 54
- 238000000926 separation method Methods 0.000 claims description 43
- 238000000354 decomposition reaction Methods 0.000 claims description 38
- 238000001228 spectrum Methods 0.000 claims description 38
- 238000000034 method Methods 0.000 claims description 24
- 230000003595 spectral effect Effects 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 9
- 238000012880 independent component analysis Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000013518 transcription Methods 0.000 description 5
- 230000035897 transcription Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Otolaryngology (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
複数の線形空間フィルタの出力から、特定方向(領域)の音源信号を推定する技術が提案されている。このような技術は、例えば、線形空間フィルタの複数の出力信号のパワースペクトル密度を、各方向(領域)の音源信号のパワースペクトル密度と事前に準備したゲイン行列の積としてモデル化し、そのゲイン行列の(擬似)逆行列を線形空間フィルタの出力ベクトルに掛けることで、特定方向の音源信号を推定している。その際、ゲイン行列は、マイクの空間的配置と線形空間フィルタのパラメータから事前に計算される。上述のように、空間の音響特性の変動等に起因して、事前に想定した環境と、観測信号の実際の環境との間に齟齬が生じ、推定結果の品質が低下する場合がある。
次に、本実施形態の詳細についてさらに説明する。ます、空間フィルタバンクを用いた信号の観測モデルおよび分解モデルについて説明する。空間フィルタバンクは、複数のマイクによる観測信号を入力とし、複数の線形空間フィルタからそれぞれ出力信号を出力する。ここでは、この空間フィルタバンクの系を通して混合信号を観測する際の観測モデルを考える。
空間フィルタバンクを用いて、観測信号をパワースペクトルドメインで(10)式のような分解モデルによって表せることを示した。以下では、この問題がNMFの問題として解けることを説明する。
第2の実施形態にかかる信号処理システムは、多チャネルの振幅またはパワースペクトルを、3階のテンソルと見たときの非負値テンソル因子分解(NTF:Nonnegative Tensor Factorization)の問題として、音源分離の問題を定式化する。第2の実施形態は、周波数毎の分解として定式化した第1の実施形態を周波数方向にも拡張した形態に相当する。
NMF(第1の実施形態)およびNTF(第2の実施形態)で求めた係数により音声強調、または、音源分離を実施するには、推定係数によりゲイン係数または分離行列を求めて適用する。
上述の係数の更新では、音源kに関する情報は事前に与えていないため、通常のブラインド音源分離の問題と同様に、どれが所望の音源かは直接知ることはできない。音声強調への応用では、例えば、音源数K=2として、音声および雑音の2つの音源を考えるが、k=1がいずれの音源となるかは不明である。
第3の実施形態では、信号処理システムを音声入力装置に応用した例を説明する。本実施形態の信号処理システムでは、推定された音源信号を用いて、雑音下などの通常では音声認識(音声を文字に変換する技術)が困難な環境でも高精度に音声認識を行う。そして、その結果を用いて機器の操作を行う、および、ユーザに音声認識の結果を表示する、などの制御を行う。
ここまで説明した信号処理システムの実際の利用例を説明する。
利用例として、会議の際に会議室に設置され、会議の発言内容を書き起こす、会議書き起こしシステムを考える。当システムは、上記実施形態の信号処理システムを備え、例えば会議室の会議テーブルの中央に設置される。本体に備えた複数のマイクにより、複数の話者から到来する音声信号を観測し、話者毎に推定した推定音声信号を出力する。出力された話者毎の推定音源信号をそれぞれ、音声認識装置(識別部105−3)にて認識し、各話者の発話内容を文字化する。書き起こし内容は、会議の内容を後々振り返る際に活用できる。
別の利用例として、雑音下での音声応答システムが考えられる。音声応答システムは、ユーザの質問や要望を音声により受け付け、その内容を理解し、データベースにアクセスするなどして、ユーザの望む回答を提示する。本システムが、駅や店舗などの公共スペースに設置されていると、周囲の雑音により、正しくユーザの音声を聞き取れないことがある。そこで、音声応答システムに、上記実施形態の音声入力装置を適用する。
101 マイクアレイ
102 フィルタ部
103 変換部
104 推定部
105−3 識別部
106−3 算出部
107−3 出力制御部
110、110−2 分解部
120−3 表示部
Claims (8)
- 複数の時系列の入力信号に対して異なる空間特性を有するフィルタであって、前記入力信号の独立成分分析によって推定されたN個(Nは2以上の整数)のフィルタを適用し、N個の出力信号を出力するフィルタ部と、
前記出力信号を、非負の値である非負信号に変換する変換部と、
信号源の個数に応じたK個(Kは2以上の整数)の第1要素、N個の第2要素、および、周波数の個数であるI個(Iは2以上の整数)の第3要素、の3次元の非負の要素を含む空間基底と、I次元の列ベクトルで表されるL個(Lは2以上の整数)の非負のスペクトル基底ベクトルを含むL行I列のスペクトル基底行列と、L次元の非負の活性度ベクトルと、に前記非負信号を分解する分解部と、
前記空間基底と、前記スペクトル基底行列と、前記活性度ベクトルと、を用いて、前記出力信号から信号源の信号を表す音源信号を推定する推定部と、
前記音源信号に基づく識別処理を実行する識別部と、
前記空間基底に基づき、前記フィルタにより信号源が分離される度合いを示す分離度を算出する算出部と、
前記分離度に応じて、前記識別処理の処理結果の出力を変更する制御を行う出力制御部と、
を備える信号処理システム。 - 前記分解部は、
前記出力信号と、前記スペクトル基底行列と、前記活性度ベクトルと、を参照して、前記空間基底を更新する空間基底更新部と、
前記出力信号と、前記空間基底と、前記活性度ベクトルと、を参照して、前記スペクトル基底行列を更新するスペクトル基底更新部と、
前記出力信号と、前記空間基底と、前記スペクトル基底行列と、を参照して、前記活性度ベクトルを更新する活性度更新部と、を備える、
請求項1に記載の信号処理システム。 - 前記分解部は、前記空間基底、前記スペクトル基底行列、および、前記活性度ベクトルの積と、前記出力信号と、の間の距離がより小さくなるように、前記空間基底、前記スペクトル基底行列、および、前記活性度ベクトルを更新する、
請求項2に記載の信号処理システム。 - 前記距離は、板倉齋藤距離、または、ユークリッド距離である、
請求項3に記載の信号処理システム。 - 前記分解部は、学習データから事前に学習した値を前記スペクトル基底ベクトルの初期値として更新を行う、
請求項2に記載の信号処理システム。 - 前記変換部は、前記出力信号を、前記出力信号の絶対値、または、前記出力信号の絶対値の2乗である前記非負信号に変換する、
請求項1に記載の信号処理システム。 - 複数の時系列の入力信号に対して異なる空間特性を有するフィルタであって、前記入力信号の独立成分分析によって推定されたN個(Nは2以上の整数)のフィルタを適用し、N個の出力信号を出力するフィルタステップと、
前記出力信号を、非負の値である非負信号に変換する変換ステップと、
信号源の個数に応じたK個(Kは2以上の整数)の第1要素、N個の第2要素、および、周波数の個数であるI個(Iは2以上の整数)の第3要素、の3次元の非負の要素を含む空間基底と、I次元の列ベクトルで表されるL個(Lは2以上の整数)の非負のスペクトル基底ベクトルを含むL行I列のスペクトル基底行列と、L次元の非負の活性度ベクトルと、に前記非負信号を分解する分解ステップと、
前記空間基底と、前記スペクトル基底行列と、前記活性度ベクトルと、を用いて、前記出力信号から信号源の信号を表す音源信号を推定する推定ステップと、
前記音源信号に基づく識別処理を実行する識別ステップと、
前記空間基底に基づき、前記フィルタにより信号源が分離される度合いを示す分離度を算出する算出ステップと、
前記分離度に応じて、前記識別処理の処理結果の出力を変更する制御を行う出力制御ステップと、
を含む信号処理方法。 - コンピュータを、
複数の時系列の入力信号に対して異なる空間特性を有するフィルタであって、前記入力信号の独立成分分析によって推定されたN個(Nは2以上の整数)のフィルタを適用し、N個の出力信号を出力するフィルタ部と、
前記出力信号を、非負の値である非負信号に変換する変換部と、
信号源の個数に応じたK個(Kは2以上の整数)の第1要素、N個の第2要素、および、周波数の個数であるI個(Iは2以上の整数)の第3要素、の3次元の非負の要素を含む空間基底と、I次元の列ベクトルで表されるL個(Lは2以上の整数)の非負のスペクトル基底ベクトルを含むL行I列のスペクトル基底行列と、L次元の非負の活性度ベクトルと、に前記非負信号を分解する分解部と、
前記空間基底と、前記スペクトル基底行列と、前記活性度ベクトルと、を用いて、前記出力信号から信号源の信号を表す音源信号を推定する推定部と、
前記音源信号に基づく識別処理を実行する識別部と、
前記空間基底に基づき、前記フィルタにより信号源が分離される度合いを示す分離度を算出する算出部と、
前記分離度に応じて、前記識別処理の処理結果の出力を変更する制御を行う出力制御部と、
として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016169999A JP6622159B2 (ja) | 2016-08-31 | 2016-08-31 | 信号処理システム、信号処理方法およびプログラム |
US15/433,336 US10373628B2 (en) | 2016-08-31 | 2017-02-15 | Signal processing system, signal processing method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016169999A JP6622159B2 (ja) | 2016-08-31 | 2016-08-31 | 信号処理システム、信号処理方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018036526A JP2018036526A (ja) | 2018-03-08 |
JP6622159B2 true JP6622159B2 (ja) | 2019-12-18 |
Family
ID=61243281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016169999A Active JP6622159B2 (ja) | 2016-08-31 | 2016-08-31 | 信号処理システム、信号処理方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10373628B2 (ja) |
JP (1) | JP6622159B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109089004B (zh) * | 2018-08-14 | 2020-10-09 | 西南交通大学 | 一种基于相关熵诱导的集员自适应回声消除方法 |
CN110503970B (zh) * | 2018-11-23 | 2021-11-23 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
CN110081964A (zh) * | 2019-04-25 | 2019-08-02 | 西北工业大学 | 基于稀疏谱拟合的水下声源位置及功率谱联合估计方法 |
CN111863014A (zh) * | 2019-04-26 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种音频处理方法、装置、电子设备和可读存储介质 |
CN111009256B (zh) * | 2019-12-17 | 2022-12-27 | 北京小米智能科技有限公司 | 一种音频信号处理方法、装置、终端及存储介质 |
CN113109763B (zh) * | 2020-01-13 | 2023-08-25 | 北京地平线机器人技术研发有限公司 | 声源位置确定方法和装置、可读存储介质、电子设备 |
CN113241090B (zh) * | 2021-04-21 | 2023-10-17 | 西北工业大学 | 一种基于最小体积约束的多通道盲声源分离方法 |
WO2023276068A1 (ja) * | 2021-06-30 | 2023-01-05 | 日本電信電話株式会社 | 音響信号強調装置、音響信号強調方法、プログラム |
CN114220453B (zh) * | 2022-01-12 | 2022-08-16 | 中国科学院声学研究所 | 基于频域卷积传递函数的多通道非负矩阵分解方法及系统 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5528328B2 (ja) | 1972-07-04 | 1980-07-26 | ||
JPS5520883A (en) | 1978-07-31 | 1980-02-14 | Nitto Electric Ind Co | Panel for making roof |
JP4724054B2 (ja) | 2006-06-15 | 2011-07-13 | 日本電信電話株式会社 | 特定方向収音装置、特定方向収音プログラム、記録媒体 |
JP4928382B2 (ja) | 2007-08-10 | 2012-05-09 | 日本電信電話株式会社 | 特定方向収音装置、特定方向収音方法、特定方向収音プログラム、記録媒体 |
JP5520883B2 (ja) | 2011-05-17 | 2014-06-11 | 日本電信電話株式会社 | 信号分解装置、方法、及びプログラム |
JP5942420B2 (ja) * | 2011-07-07 | 2016-06-29 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
JP6005443B2 (ja) | 2012-08-23 | 2016-10-12 | 株式会社東芝 | 信号処理装置、方法及びプログラム |
JP2014215461A (ja) | 2013-04-25 | 2014-11-17 | ソニー株式会社 | 音声処理装置および方法、並びにプログラム |
JP2015118361A (ja) * | 2013-11-15 | 2015-06-25 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US9721202B2 (en) * | 2014-02-21 | 2017-08-01 | Adobe Systems Incorporated | Non-negative matrix factorization regularized by recurrent neural networks for audio processing |
CN105989851B (zh) * | 2015-02-15 | 2021-05-07 | 杜比实验室特许公司 | 音频源分离 |
CN105989852A (zh) * | 2015-02-16 | 2016-10-05 | 杜比实验室特许公司 | 分离音频源 |
-
2016
- 2016-08-31 JP JP2016169999A patent/JP6622159B2/ja active Active
-
2017
- 2017-02-15 US US15/433,336 patent/US10373628B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10373628B2 (en) | 2019-08-06 |
JP2018036526A (ja) | 2018-03-08 |
US20180061432A1 (en) | 2018-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6622159B2 (ja) | 信号処理システム、信号処理方法およびプログラム | |
Kuklasiński et al. | Maximum likelihood PSD estimation for speech enhancement in reverberation and noise | |
JP5124014B2 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
US9668066B1 (en) | Blind source separation systems | |
JP2019191558A (ja) | 音声を増幅する方法及び装置 | |
JP2005091732A (ja) | ブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法 | |
JP2020034624A (ja) | 信号生成装置、信号生成システム、信号生成方法およびプログラム | |
JP6371516B2 (ja) | 音響信号処理装置および方法 | |
Zhang et al. | Multi-channel multi-frame ADL-MVDR for target speech separation | |
Asaei et al. | Binary sparse coding of convolutive mixtures for sound localization and separation via spatialization | |
Wang et al. | Leveraging real conversational data for multi-channel continuous speech separation | |
JP7315087B2 (ja) | 信号処理装置、信号処理方法、および、信号処理プログラム | |
KR101658001B1 (ko) | 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법 | |
JP4946330B2 (ja) | 信号分離装置及び方法 | |
Lee et al. | Improved Mask-Based Neural Beamforming for Multichannel Speech Enhancement by Snapshot Matching Masking | |
JP2017152825A (ja) | 音響信号解析装置、音響信号解析方法、及びプログラム | |
US20180061433A1 (en) | Signal processing device, signal processing method, and computer program product | |
Yu | Post-filter optimization for multichannel automotive speech enhancement | |
JP6961545B2 (ja) | 音信号処理装置、音信号処理方法、およびプログラム | |
CN113241090A (zh) | 一种基于最小体积约束的多通道盲声源分离方法 | |
Han et al. | Unsupervised multi-channel separation and adaptation | |
JP5044581B2 (ja) | 複数信号強調装置とその方法と、プログラム | |
Saruwatari et al. | Semi-blind speech extraction for robot using visual information and noise statistics | |
Kodrasi et al. | Instrumental and perceptual evaluation of dereverberation techniques based on robust acoustic multichannel equalization | |
JP2020148880A (ja) | 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180904 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190806 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191007 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191023 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191121 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6622159 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |