JP2020095224A - 音声補正装置および音声補正方法 - Google Patents
音声補正装置および音声補正方法 Download PDFInfo
- Publication number
- JP2020095224A JP2020095224A JP2018234912A JP2018234912A JP2020095224A JP 2020095224 A JP2020095224 A JP 2020095224A JP 2018234912 A JP2018234912 A JP 2018234912A JP 2018234912 A JP2018234912 A JP 2018234912A JP 2020095224 A JP2020095224 A JP 2020095224A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- information
- voice
- noise suppression
- power spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 186
- 238000000034 method Methods 0.000 title claims description 91
- 238000012545 processing Methods 0.000 claims abstract description 272
- 230000001629 suppression Effects 0.000 claims abstract description 261
- 238000010801 machine learning Methods 0.000 claims description 25
- 230000005236 sound signal Effects 0.000 abstract description 47
- 238000001228 spectrum Methods 0.000 description 284
- 238000004364 calculation method Methods 0.000 description 46
- 238000010586 diagram Methods 0.000 description 38
- 230000006870 function Effects 0.000 description 32
- 230000006854 communication Effects 0.000 description 27
- 238000013528 artificial neural network Methods 0.000 description 23
- 238000004891 communication Methods 0.000 description 23
- 238000013459 approach Methods 0.000 description 10
- 238000007796 conventional method Methods 0.000 description 7
- 239000004065 semiconductor Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
前記第1音声情報と、前記強調情報とを基にして、モデルを機械学習する学習部と、
前記学習部によって機械学習されたモデルを基にして、雑音抑圧処理の行われた第3音声情報を補正した補正音声情報を生成する補正部と
を有することを特徴とする音声補正装置。
雑音が発生している際に録音された音声情報であって、かつ、雑音抑圧処理の行われた第1音声情報と、雑音の発生していない環境で録音された音声情報を示す第2音声情報とを取得し、前記第2音声情報の帯域のうち、前記第1音声情報のSNR(Signal Noise Ratio)が低い帯域に対応する帯域の成分を強調した強調情報を生成し、
前記第1音声情報と、前記強調情報とを基にして、モデルを機械学習し、
機械学習された前記モデルを基にして、雑音抑圧処理の行われた第3音声情報を補正した補正音声情報を生成する
処理を実行することを特徴とする音声補正方法。
110,210,310,410 記憶部
110a,310a 雑音抑圧信号データベース
210a,410a 雑音抑圧信号データ
110b,310b 教師信号データベース
210b,410b 補正音声信号データ
110c,310c 学習モデル情報
120a,120b,220,320a,320b,420 窓掛部
130a,130b,230,330a,330b,430 FFT処理部
140a,140b,240,340a,340b,440 パワースペクトル算出部
145,345 強調部
150,350 学習部
160,360 通知部
200,400 音声補正装置
205,405 取得部
250,450 補正部
255,455 逆強調部
260,460 IFFT処理部
270,470 オーバーラップ加算部
280,480 通信部
Claims (6)
- 雑音が発生している際に録音された音声情報であって、かつ、雑音抑圧処理の行われた第1音声情報と、雑音の発生していない環境で録音された音声情報を示す第2音声情報とを取得し、前記第2音声情報の帯域のうち、前記第1音声情報のSNR(Signal Noise Ratio)が低い帯域に対応する帯域の成分を強調した強調情報を生成する強調部と、
前記第1音声情報と、前記強調情報とを基にして、モデルを機械学習する学習部と、
前記学習部によって機械学習されたモデルを基にして、雑音抑圧処理の行われた第3音声情報を補正した補正音声情報を生成する補正部と
を有することを特徴とする音声補正装置。 - 前記強調部は、前記第2音声情報の帯域のうち、成分の値が閾値未満となる帯域を強調対象の帯域として特定し、前記第2音声情報の帯域のうち、前記強調対象の帯域に対応する帯域の成分に1より大きいゲインを乗算することで、前記強調情報を生成することを特徴とする請求項1に記載の音声補正装置。
- 前記補正部によって補正された前記補正音声情報の帯域のうち、前記強調対象の帯域に対応する帯域の成分を前記ゲインで除算する逆強調部と、前記補正音声情報の帯域のうち、前記強調対象の帯域に対応する帯域の成分を前記ゲインで除算された情報を基にして音声認識を行う音声認識部を更に有することを特徴とする請求項2に記載の音声補正装置。
- 前記強調部は、前記第2音声情報から前記第1音声情報を減算することで、前記強調情報を生成することを特徴とする請求項1に記載の音声補正装置。
- 前記補正部によって補正された前記補正音声情報に、前記第3音声情報を加算する逆強調部と、前記補正音声情報に前記第3音声情報が加算された情報を基にして音声認識を行う音声認識部を更に有することを特徴とする請求項4に記載の音声補正装置。
- コンピュータが、
雑音が発生している際に録音された音声情報であって、かつ、雑音抑圧処理の行われた第1音声情報と、雑音の発生していない環境で録音された音声情報を示す第2音声情報とを取得し、前記第2音声情報の帯域のうち、前記第1音声情報のSNR(Signal Noise Ratio)が低い帯域に対応する帯域の成分を強調した強調情報を生成し、
前記第1音声情報と、前記強調情報とを基にして、モデルを機械学習し、
機械学習された前記モデルを基にして、雑音抑圧処理の行われた第3音声情報を補正した補正音声情報を生成する
処理を実行することを特徴とする音声補正方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018234912A JP7095586B2 (ja) | 2018-12-14 | 2018-12-14 | 音声補正装置および音声補正方法 |
US16/674,803 US11308970B2 (en) | 2018-12-14 | 2019-11-05 | Voice correction apparatus and voice correction method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018234912A JP7095586B2 (ja) | 2018-12-14 | 2018-12-14 | 音声補正装置および音声補正方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020095224A true JP2020095224A (ja) | 2020-06-18 |
JP7095586B2 JP7095586B2 (ja) | 2022-07-05 |
Family
ID=71072804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018234912A Active JP7095586B2 (ja) | 2018-12-14 | 2018-12-14 | 音声補正装置および音声補正方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11308970B2 (ja) |
JP (1) | JP7095586B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7095586B2 (ja) * | 2018-12-14 | 2022-07-05 | 富士通株式会社 | 音声補正装置および音声補正方法 |
US20240073599A1 (en) * | 2022-08-29 | 2024-02-29 | L3 Technologies, Inc. | Method for suppressing vibration coupled signals in a microphone for flight recorders |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11327593A (ja) * | 1998-05-14 | 1999-11-26 | Denso Corp | 音声認識システム |
JP2016145944A (ja) * | 2015-02-09 | 2016-08-12 | 沖電気工業株式会社 | 雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム |
JP2017520803A (ja) * | 2014-10-21 | 2017-07-27 | 三菱電機株式会社 | ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6529868B1 (en) * | 2000-03-28 | 2003-03-04 | Tellabs Operations, Inc. | Communication system noise cancellation power signal calculation techniques |
JP4249697B2 (ja) | 2004-12-24 | 2009-04-02 | 日本電信電話株式会社 | 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体 |
JP4580409B2 (ja) * | 2007-06-11 | 2010-11-10 | 富士通株式会社 | 音量制御装置および方法 |
ES2678415T3 (es) * | 2008-08-05 | 2018-08-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica |
JP5232121B2 (ja) | 2009-10-02 | 2013-07-10 | 株式会社東芝 | 信号処理装置 |
JP5175262B2 (ja) | 2009-12-02 | 2013-04-03 | 日本電信電話株式会社 | 音声取得装置 |
JP6135106B2 (ja) * | 2012-11-29 | 2017-05-31 | 富士通株式会社 | 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム |
JP6536320B2 (ja) * | 2015-09-28 | 2019-07-03 | 富士通株式会社 | 音声信号処理装置、音声信号処理方法及びプログラム |
JP6878776B2 (ja) * | 2016-05-30 | 2021-06-02 | 富士通株式会社 | 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム |
JP7095586B2 (ja) * | 2018-12-14 | 2022-07-05 | 富士通株式会社 | 音声補正装置および音声補正方法 |
-
2018
- 2018-12-14 JP JP2018234912A patent/JP7095586B2/ja active Active
-
2019
- 2019-11-05 US US16/674,803 patent/US11308970B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11327593A (ja) * | 1998-05-14 | 1999-11-26 | Denso Corp | 音声認識システム |
JP2017520803A (ja) * | 2014-10-21 | 2017-07-27 | 三菱電機株式会社 | ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 |
JP2016145944A (ja) * | 2015-02-09 | 2016-08-12 | 沖電気工業株式会社 | 雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20200194020A1 (en) | 2020-06-18 |
US11308970B2 (en) | 2022-04-19 |
JP7095586B2 (ja) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110197670B (zh) | 音频降噪方法、装置及电子设备 | |
CN110634497B (zh) | 降噪方法、装置、终端设备及存储介质 | |
CN109215677B (zh) | 一种适用于语音和音频的风噪检测和抑制方法和装置 | |
US20200066260A1 (en) | Signal generation device, signal generation system, signal generation method, and computer program product | |
CN110706719B (zh) | 一种语音提取方法、装置、电子设备及存储介质 | |
JP6764923B2 (ja) | 音声処理方法、装置、デバイスおよび記憶媒体 | |
CN109147798B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
JP2002132289A (ja) | 音声認識方法および音声認識処理プログラムを記録した記録媒体ならびに音声認識装置 | |
EP2985761B1 (en) | Signal processing apparatus, signal processing method, signal processing program | |
US20140177853A1 (en) | Sound processing device, sound processing method, and program | |
CN113646833A (zh) | 语音对抗样本检测方法、装置、设备及计算机可读存储介质 | |
JP7095586B2 (ja) | 音声補正装置および音声補正方法 | |
EP3276621A1 (en) | Noise suppression device and noise suppressing method | |
KR20150032390A (ko) | 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법 | |
US9002030B2 (en) | System and method for performing voice activity detection | |
Dash et al. | Speech intelligibility based enhancement system using modified deep neural network and adaptive multi-band spectral subtraction | |
CN115989681A (zh) | 信号处理系统、方法、装置及存储介质 | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP7077645B2 (ja) | 音声認識装置 | |
JP7013789B2 (ja) | 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法 | |
CN115985337B (zh) | 一种基于单麦克风的瞬态噪声检测与抑制的方法及装置 | |
Rahali et al. | Robust Features for Speech Recognition using Temporal Filtering Technique in the Presence of Impulsive Noise | |
JPWO2015093025A1 (ja) | 音声処理装置、音声処理方法、及び、音声処理プログラム | |
JP2015031913A (ja) | 音声処理装置、音声処理方法、及びプログラム | |
JP6720772B2 (ja) | 信号処理装置、信号処理方法、及び、信号処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210909 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220524 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220525 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220606 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7095586 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |