JP2019215514A - 音声処理方法、装置、デバイスおよび記憶媒体 - Google Patents
音声処理方法、装置、デバイスおよび記憶媒体 Download PDFInfo
- Publication number
- JP2019215514A JP2019215514A JP2018244655A JP2018244655A JP2019215514A JP 2019215514 A JP2019215514 A JP 2019215514A JP 2018244655 A JP2018244655 A JP 2018244655A JP 2018244655 A JP2018244655 A JP 2018244655A JP 2019215514 A JP2019215514 A JP 2019215514A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- vad
- frames
- audio
- masking threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 230000000873 masking effect Effects 0.000 claims abstract description 88
- 238000012545 processing Methods 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000013528 artificial neural network Methods 0.000 claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 21
- 238000009499 grossing Methods 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims 2
- 230000006866 deterioration Effects 0.000 abstract description 7
- 230000001629 suppression Effects 0.000 abstract description 6
- 230000000694 effects Effects 0.000 description 17
- 238000000926 separation method Methods 0.000 description 12
- 239000013598 vector Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
N(ただしNは1より大きい正の整数である)個の音声フレームにおけるそれぞれの音声フレームの第1の音響特徴量を取得する取得モジュールと、
ニューラルネットワークアルゴリズムを利用してN個の第1の音響特徴量から第1のマスキング閾値を得るトレーニングモジュールと、
N個の音声フレームの音声区間検出(VAD)情報に基づき第1のマスキング閾値を補正して第2のマスキング閾値を得る補正モジュールと、
第2のマスキング閾値に基づきN個の第1の音響特徴量に対して処理を行って第2の音響特徴量を得る第1の処理モジュールとを含む。
M1個の音声フレームにおけるM2個の音声フレームに対応するVAD値およびP1個の音声フレームにおけるM2個の音声フレームに隣接するP2個の音声フレームに対応するVAD値に対して平滑化処理を行うことで、M2個の音声フレームおよびP2個の音声フレームに対応するVAD値を0から1に、または1から0に少しずつ変化させる第2の処理モジュールとをさらに含み、ただし1≦M2≦M1であり、1≦P2≦P1である。
場面1:目的話し手の音声を複数の話し手による音声から抽出する。例えば、リビングルームに座ってニュース番組を見ているユーザは、テーブルに置かれたスマートスピーカーに対して音声指令を出したら、スピーカーが、ユーザの音声指令およびニュース番組のアナウンサの音声を同時に受信する。すなわち同一の時点に、2人が同時に話す。
場面2:音声を背景雑音から抽出する。例えば、運転手が運転する間に、車と携帯電話のマイクロフォンは、風の音、道路での騒音、クラクションを鳴らした音など様々な雑音を受けるが、ブラインド信号源分離によりこれらの環境雑音を抑圧して、混雑している音の中から運転者の音声を抽出することができる。
1.背景音が除去されていない。すなわちブラインド信号源分離を行ったが、雑音を全て除去できず、所望の雑音除去効果を得られない。
2.目的音声も除去されている。すなわちブラインド信号源分離を行った結果、雑音だけではなく、目的音声も同時に抑圧される。
3.雑音が十分に除去されず、目的音声も劣化する。これは最もよく発生する問題であり、すなわち一部の時点−周波数に雑音が残っていたり、また一部の時点−周波数には目的音声が除去されたりする。
ステップS101において、N(ただしNは1より大きい正の整数である)個の音声フレームにおけるそれぞれの音声フレームの第1の音響特徴量を取得する。
ステップS102において、ニューラルネットワークアルゴリズムを利用してN個の第1の音響特徴量から第1のマスキング閾値を得る。
ステップS103において、N個の音声フレームのVAD情報に基づき第1のマスキング閾値を補正して第2のマスキング閾値を得る。
ステップS104において、第2のマスキング閾値に基づき前記N個の第1の音響特徴量に対して処理を行って第2の音響特徴量を得る。
任意選択的な実施形態1として、VAD情報はN個の音声フレームにおけるそれぞれの音声フレームに対応するVAD値を含む。なお、N個の音声フレームに無音フレームが含まれる場合に、無音フレームに対応するVAD値を0に設定し、逆の場合に、N個の音声フレームに有音フレームが含まれる場合に、当該無音フレームに対応するVAD値を0より大きく1以下とする。「無音フレーム」というのは音声状態が無音の音声フレームのことを指し、「有音フレーム」というのは音声状態が有音の音声フレームのことを指す。
ステップS1031において、N個の音声フレームにおけるVAD値が1のM1個の音声フレームおよびM1個の音声フレームに隣接するVAD値が0のP1個の音声フレームを決定する。
ステップS1032において、M1個の音声フレームにおけるM2個の音声フレームに対応するVAD値およびP1個の音声フレームにおけるM2個の音声フレームに隣接するP2個の音声フレームに対応するVAD値に対して平滑化処理を行うことで、M2個の音声フレームおよびP2個の音声フレームに対応するVAD値を0から1に、または1から0に少しずつ変化させる。
取得モジュール401は、N(ただしNは1より大きい正の整数である)個の音声フレームにおけるそれぞれの音声フレームの第1の音響特徴量を取得する。
トレーニングモジュール402は、ニューラルネットワークアルゴリズムを利用して、取得モジュール401の取得したN個の第1の音響特徴量から第1のマスキング閾値を得る。
補正モジュール403は、N個の音声フレームの音声区間検出(VAD)情報に基づきトレーニングモジュール402で得られた第1のマスキング閾値を補正して第2のマスキング閾値を得る。
第1の処理モジュール404は、補正モジュール403で得られた第2のマスキング閾値に基づきN個の第1の音響特徴量に対して処理を行って第2の音響特徴量を得る。
決定モジュール406は、N個の音声フレームにおけるVAD値が1のM1個の音声フレームおよびM1個の音声フレームに隣接するVAD値が0のP1個の音声フレームを決定し、ただしM1およびP1はともに1より大きい正の整数である。
第2の処理モジュール407は、M1個の音声フレームにおけるM2個の音声フレームに対応するVAD値およびP1個の音声フレームにおけるM2個の音声フレームに隣接するP2個の音声フレームに対応するVAD値に対して平滑化処理を行うことで、M2個の音声フレームおよびP2個の音声フレームに対応するVAD値を0から1に、または1から0に少しずつ変化させ、ただし1≦M2≦M1であり、1≦P2≦P1である。
Claims (14)
- 音声処理方法であって、
N(ただしNは1より大きい正の整数である)個の音声フレームにおけるそれぞれの音声フレームの第1の音響特徴量を取得するステップと、
ニューラルネットワークアルゴリズムを利用してN個の前記第1の音響特徴量から第1のマスキング閾値を得るステップと、
前記N個の音声フレームの音声区間検出(VAD)情報に基づき、前記第1のマスキング閾値を補正して第2のマスキング閾値を得るステップと、
前記第2のマスキング閾値に基づき、N個の前記第1の音響特徴量に対して処理を行って第2の音響特徴量を得るステップと、
を含むことを特徴とする音声処理方法。 - 前記N個の音声フレームのVAD情報に基づき、前記第1のマスキング閾値を補正する前記ステップは、
前記VAD情報と前記第1のマスキング閾値との積を算出して前記第2のマスキング閾値を得ることを含む、
ことを特徴とする請求項1に記載の方法。 - 前記VAD情報は、それぞれの前記音声フレームに対応するVAD値を含み、
前記N個の音声フレームに無音フレームが含まれる場合に、前記無音フレームに対応するVAD値を0に設定する、
ことを特徴とする請求項1または2に記載の方法。 - 前記VAD情報は、それぞれの前記音声フレームに対応するVAD値を含み、
これに応じて、前記N個の音声フレームのVAD情報に基づき前記第1のマスキング閾値を補正する前に、
前記N個の音声フレームにおけるVAD値が1のM1(ただしM1は1より大きい正の整数である)個の音声フレームおよび前記M1個の音声フレームに隣接するVAD値が0のP1(ただしP1は1より大きい正の整数である)個の音声フレームを決定するステップと、
前記M1個の音声フレームにおけるM2個の音声フレームに対応するVAD値および前記P1個の音声フレームにおける前記M2個の音声フレームに隣接するP2個の音声フレームに対応するVAD値に対して平滑化処理を行うことで、前記M2個の音声フレームおよび前記P2個の音声フレームに対応するVAD値を0から1に、または1から0に少しずつ変化させるステップと、
を含み、
ただし1≦M2≦M1であり、1≦P2≦P1である、
ことを特徴とする請求項1または2に記載の方法。 - 前記N個の音声フレームにおけるVAD値が1のM1個の音声フレームおよびVAD値が0のP1個の音声フレームを決定する前記ステップは、
前記N個の音声フレームにおけるそれぞれの音声フレームに対応する音声状態を無音、または有音に決定することと、
前記音声状態が無音の音声フレームをVAD値が0の音声フレームとして決定することと、
前記音声状態が有音の音声フレームをVAD値が1の音声フレームとして決定することと
を含むことを特徴とする請求項4に記載の方法。 - M2およびP2は、ハミング窓関数(hamming窓)、三角窓関数またはハニング窓関数(hanning窓)により決定される、
ことを特徴とする請求項5に記載の方法。 - 音声処理装置であって、
N(ただしNは1より大きい正の整数である)個の音声フレームにおけるそれぞれの音声フレームの第1の音響特徴量を取得するための取得モジュールと、
ニューラルネットワークアルゴリズムを利用してN個の前記第1の音響特徴量から第1のマスキング閾値を得るためのトレーニングモジュールと、
前記N個の音声フレームの音声区間検出(VAD)情報に基づき、前記第1のマスキング閾値を補正して第2のマスキング閾値を得るための補正モジュールと、
前記第2のマスキング閾値に基づき、N個の前記第1の音響特徴量に対して処理を行って第2の音響特徴量を得るための第1の処理モジュールと、
を含むことを特徴とする音声処理装置。 - 前記補正モジュールは、
前記VAD情報と前記第1のマスキング閾値との積を算出して前記第2のマスキング閾値を得るのに用いられる、
ことを特徴とする請求項7に記載の装置。 - 前記VAD情報は、それぞれの前記音声フレームに対応するVAD値を含み、
これに応じて、前記装置はさらに、
前記N個の音声フレームに無音フレームが含まれる場合に、前記無音フレームに対応するVAD値を0に設定するための設定モジュールを含む、
ことを特徴とする請求項7または8に記載の装置。 - 前記VAD情報は、それぞれの前記音声フレームに対応するVAD値を含み、
これに応じて、前記装置はさらに、
前記N個の音声フレームにおけるVAD値が1のM1(ただしM1は1より大きい正の整数である)個の音声フレームおよび前記M1個の音声フレームに隣接するVAD値が0のP1(ただしP1は1より大きい正の整数である)個の音声フレームを決定するための決定モジュールと、
前記M1個の音声フレームにおけるM2個の音声フレームに対応するVAD値および前記P1個の音声フレームにおけるM2個の音声フレームに隣接するP2個の音声フレームに対応するVAD値に対して平滑化処理を行うことで、前記M2個の音声フレームおよび前記P2個の音声フレームに対応するVAD値を0から1に、または1から0に少しずつ変化させるための第2の処理モジュールと、
を含み、
ただし1≦M2≦M1であり、1≦P2≦P1である、
ことを特徴とする請求項7または8に記載の装置。 - 前記決定モジュールは、
前記N個の音声フレームにおけるそれぞれの音声フレームに対応する音声状態を無音、または有音に決定し、
前記音声状態が無音の音声フレームをVAD値が0の音声フレームとして決定し、
前記音声状態が有音の音声フレームをVAD値が1の音声フレームとして決定するのに用いられる、
ことを特徴とする請求項10に記載の装置。 - M2およびP2は、ハミング窓関数、三角窓関数またはハニング窓関数により決定される、ことを特徴とする請求項11に記載の装置。
- プロセッサと、前記プロセッサに請求項1〜6のいずれか一項に記載の方法を実行させるための前記プロセッサ用実行命令を記憶するメモリとを含むことを特徴とする音声処理デバイス。
- 請求項1〜6のいずれか一項に記載の方法を実施するためのコンピュータ実行可能命令を含むことを特徴とする記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810595783.0 | 2018-06-11 | ||
CN201810595783.0A CN108806707B (zh) | 2018-06-11 | 2018-06-11 | 语音处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019215514A true JP2019215514A (ja) | 2019-12-19 |
JP6764923B2 JP6764923B2 (ja) | 2020-10-07 |
Family
ID=64088192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018244655A Active JP6764923B2 (ja) | 2018-06-11 | 2018-12-27 | 音声処理方法、装置、デバイスおよび記憶媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10839820B2 (ja) |
JP (1) | JP6764923B2 (ja) |
CN (1) | CN108806707B (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110970046B (zh) * | 2019-11-29 | 2022-03-11 | 北京搜狗科技发展有限公司 | 一种音频数据处理的方法及装置、电子设备、存储介质 |
CN111028858B (zh) * | 2019-12-31 | 2022-02-18 | 云知声智能科技股份有限公司 | 一种人声起止时间检测方法及装置 |
US20210256993A1 (en) * | 2020-02-18 | 2021-08-19 | Facebook, Inc. | Voice Separation with An Unknown Number of Multiple Speakers |
CN116403564B (zh) * | 2023-05-15 | 2023-09-26 | 清华大学 | 一种音频编辑方法及装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006126859A (ja) * | 2000-08-31 | 2006-05-18 | Matsushita Electric Ind Co Ltd | 音声処理装置及び音声処理方法 |
JP2008129077A (ja) * | 2006-11-16 | 2008-06-05 | Matsushita Electric Ind Co Ltd | ノイズ除去装置 |
WO2010089976A1 (ja) * | 2009-02-09 | 2010-08-12 | パナソニック株式会社 | 補聴器 |
JP2010204392A (ja) * | 2009-03-03 | 2010-09-16 | Nec Corp | 雑音抑圧の方法、装置、及びプログラム |
JP2017191332A (ja) * | 2017-06-22 | 2017-10-19 | 株式会社Jvcケンウッド | 雑音検出装置、雑音検出方法、雑音低減装置、雑音低減方法、通信装置およびプログラム。 |
JP2018031967A (ja) * | 2016-08-26 | 2018-03-01 | 日本電信電話株式会社 | 音源強調装置、その方法、及びプログラム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7620546B2 (en) * | 2004-03-23 | 2009-11-17 | Qnx Software Systems (Wavemakers), Inc. | Isolating speech signals utilizing neural networks |
JP4587160B2 (ja) * | 2004-03-26 | 2010-11-24 | キヤノン株式会社 | 信号処理装置および方法 |
RU2469419C2 (ru) * | 2007-03-05 | 2012-12-10 | Телефонактиеболагет Лм Эрикссон (Пабл) | Способ и устройство для управления сглаживанием стационарного фонового шума |
CN101621024B (zh) | 2008-07-02 | 2013-06-19 | 楼氏电子(苏州)有限公司 | 崩片机及崩片方法 |
CN102456351A (zh) * | 2010-10-14 | 2012-05-16 | 清华大学 | 一种语音增强的系统 |
US8650029B2 (en) * | 2011-02-25 | 2014-02-11 | Microsoft Corporation | Leveraging speech recognizer feedback for voice activity detection |
CN102157156B (zh) * | 2011-03-21 | 2012-10-10 | 清华大学 | 一种单通道语音增强的方法和系统 |
CN103325388B (zh) * | 2013-05-24 | 2016-05-25 | 广州海格通信集团股份有限公司 | 基于最小能量小波框架的静音检测方法 |
CN103280225B (zh) * | 2013-05-24 | 2015-07-01 | 广州海格通信集团股份有限公司 | 一种低复杂度的静音检测方法 |
US9997172B2 (en) * | 2013-12-02 | 2018-06-12 | Nuance Communications, Inc. | Voice activity detection (VAD) for a coded speech bitstream without decoding |
CN103778920B (zh) * | 2014-02-12 | 2016-03-09 | 北京工业大学 | 数字助听器中语音增强和频响补偿相融合方法 |
US20180277134A1 (en) * | 2014-06-30 | 2018-09-27 | Knowles Electronics, Llc | Key Click Suppression |
CN105261375B (zh) * | 2014-07-18 | 2018-08-31 | 中兴通讯股份有限公司 | 激活音检测的方法及装置 |
US10128890B2 (en) * | 2014-09-09 | 2018-11-13 | Ppip Llc | Privacy and security systems and methods of use |
CN106683661B (zh) * | 2015-11-05 | 2021-02-05 | 阿里巴巴集团控股有限公司 | 基于语音的角色分离方法及装置 |
CN107845389B (zh) * | 2017-12-21 | 2020-07-17 | 北京工业大学 | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 |
US10553236B1 (en) * | 2018-02-27 | 2020-02-04 | Amazon Technologies, Inc. | Multichannel noise cancellation using frequency domain spectrum masking |
-
2018
- 2018-06-11 CN CN201810595783.0A patent/CN108806707B/zh active Active
- 2018-12-27 JP JP2018244655A patent/JP6764923B2/ja active Active
- 2018-12-28 US US16/236,261 patent/US10839820B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006126859A (ja) * | 2000-08-31 | 2006-05-18 | Matsushita Electric Ind Co Ltd | 音声処理装置及び音声処理方法 |
JP2008129077A (ja) * | 2006-11-16 | 2008-06-05 | Matsushita Electric Ind Co Ltd | ノイズ除去装置 |
WO2010089976A1 (ja) * | 2009-02-09 | 2010-08-12 | パナソニック株式会社 | 補聴器 |
JP2010204392A (ja) * | 2009-03-03 | 2010-09-16 | Nec Corp | 雑音抑圧の方法、装置、及びプログラム |
JP2018031967A (ja) * | 2016-08-26 | 2018-03-01 | 日本電信電話株式会社 | 音源強調装置、その方法、及びプログラム |
JP2017191332A (ja) * | 2017-06-22 | 2017-10-19 | 株式会社Jvcケンウッド | 雑音検出装置、雑音検出方法、雑音低減装置、雑音低減方法、通信装置およびプログラム。 |
Non-Patent Citations (1)
Title |
---|
溝口聡,外3名: "カートシスマッチングに基づく低ミュージカルノイズDNN音声強調の評価", 電子情報通信学会技術研究報告, vol. 第118巻,第312号, JPN6020006282, 14 November 2018 (2018-11-14), JP, pages 19 - 24, ISSN: 0004217532 * |
Also Published As
Publication number | Publication date |
---|---|
CN108806707A (zh) | 2018-11-13 |
CN108806707B (zh) | 2020-05-12 |
JP6764923B2 (ja) | 2020-10-07 |
US20190378529A1 (en) | 2019-12-12 |
US10839820B2 (en) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6764923B2 (ja) | 音声処理方法、装置、デバイスおよび記憶媒体 | |
EP2979358B1 (en) | Volume leveler controller and controlling method | |
EP3598448B1 (en) | Apparatuses and methods for audio classifying and processing | |
EP3232567B1 (en) | Equalizer controller and controlling method | |
CA2732723C (en) | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction | |
US9530427B2 (en) | Speech processing | |
JP6169849B2 (ja) | 音響処理装置 | |
WO2020224217A1 (zh) | 语音处理方法、装置、计算机设备及存储介质 | |
CN109036460B (zh) | 基于多模型神经网络的语音处理方法和装置 | |
Kim et al. | Nonlinear enhancement of onset for robust speech recognition. | |
WO2005124739A1 (ja) | 雑音抑圧装置および雑音抑圧方法 | |
Sadjadi et al. | Blind spectral weighting for robust speaker identification under reverberation mismatch | |
WO2016135741A1 (en) | A method and system for suppressing noise in speech signals in hearing aids and speech communication devices | |
EP3685378A1 (en) | Signal processor and method for providing a processed audio signal reducing noise and reverberation | |
CN113571047A (zh) | 一种音频数据的处理方法、装置及设备 | |
WO2015132798A2 (en) | Method and system for consonant-vowel ratio modification for improving speech perception | |
Waddi et al. | Speech enhancement using spectral subtraction and cascaded-median based noise estimation for hearing impaired listeners | |
JP2000330597A (ja) | 雑音抑圧装置 | |
JP2023536104A (ja) | 機械学習を用いたノイズ削減 | |
JPH11296192A (ja) | 音声認識における音声特徴量の補正方法、音声認識方法、音声認識装置及び音声認識プログラムを記録した記録媒体 | |
US11308970B2 (en) | Voice correction apparatus and voice correction method | |
CN112489692A (zh) | 语音端点检测方法和装置 | |
CN116057626A (zh) | 使用机器学习的降噪 | |
CN116312606A (zh) | 高频噪声的抑制方法、装置、终端设备及存储介质 | |
Hydari et al. | Speech Signals Enhancement Using LPC Analysis based on Inverse Fourier Methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200522 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200901 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200914 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6764923 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |