JP2021503633A - 音声ノイズ軽減方法、装置、サーバー及び記憶媒体 - Google Patents
音声ノイズ軽減方法、装置、サーバー及び記憶媒体 Download PDFInfo
- Publication number
- JP2021503633A JP2021503633A JP2020528147A JP2020528147A JP2021503633A JP 2021503633 A JP2021503633 A JP 2021503633A JP 2020528147 A JP2020528147 A JP 2020528147A JP 2020528147 A JP2020528147 A JP 2020528147A JP 2021503633 A JP2021503633 A JP 2021503633A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- noise reduction
- activity detection
- frame
- acoustic microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 125
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 230000005236 sound signal Effects 0.000 claims abstract description 223
- 230000000694 effects Effects 0.000 claims abstract description 209
- 238000001514 detection method Methods 0.000 claims abstract description 188
- 238000009826 distribution Methods 0.000 claims description 58
- 238000012549 training Methods 0.000 claims description 29
- 230000000116 mitigating effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 54
- 230000007613 environmental effect Effects 0.000 description 13
- 206010002953 Aphonia Diseases 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 210000000988 bone and bone Anatomy 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000006467 substitution reaction Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 230000005534 acoustic noise Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000003054 facial bone Anatomy 0.000 description 1
- 210000004907 gland Anatomy 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1083—Reduction of ambient noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/033—Headphones for stereophonic communication
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2420/00—Details of connection covered by H04R, not provided for in its groups
- H04R2420/07—Applications of wireless loudspeakers or wireless microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/13—Hearing devices using bone conduction transducers
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Machine Translation (AREA)
Abstract
Description
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得することと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることとを含む。
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する音声信号取得モジュールと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得る音声アクティビティ検出モジュールと、
前記音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得る音声ノイズ軽減モジュールとを含む。
されているプログラムを呼び出す少なくとも1つのプロセッサーとを含み、
前記プログラムは、
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得することと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることとを実行する。
はプロセッサーによって実行される時、上記の音声ノイズ軽減方法の各ステップを実現することを特徴とする。
、当該方法は以下ステップを含むことができる。
数範囲は120〜500Hzである。また、前記非音響学マイクは周波数が2000Hz以下の言語信号を収集できるため、前記非音響学マイクで収集された音声信号から完全な基本周波数情報を決定することができる。
て決定された前記非音響学マイクで収集された音声信号の基本周波数情報の分布を説明し、図2に示すように、基本周波数情報は周波数が50〜500Hzにある部分である。
又は、周波数単位の音声アクティビティ検出、
又は、フレーム単位の音声アクティビティ検出及び周波数単位の音声アクティビティ検出を合わせた音声アクティビティ検出。
る。
ャンセリングフィルターを更新することで、更新されたブロッキング行列、適応ノイズ
キャンセリングフィルターを用いて前記音響学マイクで収集された音声信号に対してノイズ軽減を行うことができる。そのうち、更新されたブロッキング行列、適応ノイズキャンセリングフィルターを用いて前記音響学マイクで収集された音声信号に対してノイズ軽減を行うには従来技術を参照できるため、ここで省略する。
記音響学マイクで収集された音声信号のノイズ成分を低減させ、第1のノイズ軽減処理後
の音響学マイク音声信号の音声成分をより顕在化させることができる。
。
例えば、前記基本周波数情報にそれぞれ2、3、4、…、N(前記Nは1以上の数とする)をかけると理解される。
予め決められた周波数拡張値である。
された音声信号に対して第2のノイズ軽減処理を行い、第2のノイズ軽減処理後の音響学マイクで収集された音声信号を得る。
ノイズ成分を低減させ、第2のノイズ軽減処理後の音響学マイク音声信号の音声成分をよ
り顕在化させることができる。
きる。
かけ、周波数が前記高周波数でないものに第2ゲイン値をかけ、前記第1ゲイン値が前記第2ゲイン値より大きいことを含むことができる。
より小さい値に設定してもよい。具体的に、0より大きく且つ0.5より小さい数値範囲から任意の値を前記第2ゲイン値として選択する。
は第iの周波数が高周波数であることを表し、
Gminは第2ゲイン値であり、
は第iの周波数が非高周波数であることを表す。
きる。
点の音声フレームを取得し、それを処理対象音声フレームとする。
値をかけ、周波数が前記高周波数でないものに第2ゲイン値をかけ、前記第1ゲインが前記第2ゲインより大きいことを含むことができる。
を行い、つぎに第2のノイズ軽減処理後の音響学マイクで収集された音声信号をゲインア
ップすることで、音響学マイクで収集された音声信号のノイズ成分をさらに低減させ、ゲインアップされた音響学マイク音声信号の音声成分をより顕在化させることができる。
理後の音響学マイクで収集された音声信号に対して第2のノイズ軽減処理を行い、第2のノ
イズ軽減処理後の音響学マイクで収集された音声信号を得る。
た音声信号のノイズ成分を低減させた後、周波数単位の音声アクティビティ検出結果を用いて、第1のノイズ軽減処理後の音響学マイクで収集された音声信号に対して第2のノイズ軽減処理を行い、第1のノイズ軽減処理後の音響学マイクで収集された音声信号のノイズ
成分をさらに低減させ、第2のノイズ軽減処理後の音響学マイク音声信号の音声成分をよ
り顕在化させることができる。
点の音声フレームを取得し、それを処理対象音声フレームとする。
周波数が前記高周波数でないものに第2ゲイン値をかけ、前記第1ゲイン値が前記第2ゲイ
ン値より大きいことを含んでもよい。
された音声信号のノイズ成分を低減させた上で、周波数単位の音声アクティビティ検出結果を用いて、第1のノイズ軽減処理後の音響学マイクで収集された音声信号をゲインアッ
プし、第1のノイズ軽減処理後の音響学マイクで収集された音声信号のノイズ成分を低減
させ、ゲインアップされた音響学マイク音声信号の音声成分をより顕在化させることができる。
理後の音響学マイクで収集された音声信号に対して第2のノイズ軽減処理を行い、第2のノイズ軽減処理後の音響学マイクで収集された音声信号を得る。
点の音声フレームを取得し、それを処理対象音声フレームとする。
値をかけ、周波数が前記高周波数でないものに第2ゲイン値をかけ、前記第1ゲインが前記第2ゲインより大きいことを含むことができる。
であると理解される。
された音声信号のノイズ成分を低減させた上で、周波数単位の音声アクティビティ検出結果を用いて、第1のノイズ軽減処理後の音響学マイクで収集された音声信号に対して第2のノイズ軽減処理を行い、第1のノイズ軽減処理後の音響学マイクで収集された音声信号の
ノイズ成分を低減させた上で、第2のノイズ軽減処理後の音響学マイクで収集された音声
信号をゲインアップし、第2のノイズ軽減処理後の音響学マイクで収集された音声信号の
ノイズ成分を低減させ、ゲインアップされた音響学マイク音声信号の音声成分をより顕在化させることができる。
音声信号におけるすべての異なる要因の出現回数の分布は設定される分布条件を満たすこと、
及び/又は、音声信号に含まれる異なる要因の組み合せ方式の種類は設定される組み合せ
方式の種類要求を満たすことを含んでもよい。
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する音声信号取得モジュール11と、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得る音声アクティビティ検出モジュール12と、
前記音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズが軽減された音声信号を得る音声ノイズ軽減モジュール13とを含むことができる。
前記非音響学マイクで収集された音声信号の基本周波数情報を決定する基本周波数情報決定モジュールと、
前記基本周波数情報を用いて音声アクティビティ検出を行い、音声アクティビティ検出結果を得る音声アクティビティ検出サブモジュールとを含む。
前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得るフレーム単位の音声アクティビティ検出モジュールを含むことができる。
前記フレーム単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対して1次ノイズ軽減を行い、1次ノイズ軽減後の音響学マイクで収集された音声信号を得る1次ノイズ軽減モジュールを含むことができる。
前記基本周波数情報により、音声の高周波数分布情報を決定する高周波数分布情報決定モジュールと、
前記高周波数分布情報により、前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームに対して、周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る周波数単位の音声アクティビティ検出モジュールとをさらに含むことができる。
前記周波数単位の音声アクティビティ検出結果により、前記1次ノイズ軽減後の音響学
マイクで収集された音声信号に対して2次ノイズ軽減を行い、2次ノイズ軽減後の音響学マイクで収集された音声信号を得る2次ノイズ軽減モジュールをさらに含むことができる。
前記基本周波数情報がゼロであるか否かを検出する基本周波数情報検出モジュールを含み、
前記基本周波数情報がゼロでなければ、前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれることを決定し、
前記基本周波数情報がゼロであれば、前記音響学マイクで収集された音声信号の信号強度を検出し、検出された前記音響学マイクで収集された音声信号の信号強度が低ければ、前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれないことを決定する。
前記基本周波数情報に倍数をかけ、倍数乗算した基本周波数情報を得る倍数乗算モジュールと、
予め決められた周波数拡張値により、前記倍数乗算した基本周波数情報を拡張し、音声の高周波数分布区間を取得し、それを前記音声の高周波数分布情報とする基本周波数情報拡張モジュールとを含むことができる。
前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームのうち、周波数が前記高周波数であるものを、音声信号を含む周波数として決定し、周波数が前記高周波数でないものを、音声信号を含まない周波数として決定する周波数単位の音声アクティビティ検出サブモジュールを含むことができる。
前記有声音信号に含まれる各音声フレームの時点により、前記2次ノイズ軽減後の音響
学マイクで収集された音声信号から同じ時点の音声フレームを取得し、それを処理対象音声フレームとする音声フレーム取得モジュールと、
前記処理対象音声フレームの各周波数をゲインアップし、ゲインアップされた音声フレームを取得し、前記ゲインアップされた各音声フレームは3次ノイズ軽減後の音響学マイ
クで収集された有声音信号を構成するゲインアップモジュールとをさらに含むことができる。
け、周波数が前記高周波数でないものに第2ゲイン値をかけ、前記第1ゲイン値が前記第2
ゲイン値より大きいことを含むことができる。
前記ノイズ軽減後の有声音信号を無声音予測モデルに入力し、前記無声音予測モデルから出力された無声音信号を取得し、前記無声音予測モデルは無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録している訓練音声信号を予め用いて訓練されたものである無声音信号予測モジュールと、
前記無声音信号及び前記ノイズ軽減後の有声音信号を組み合せ、組み合わせた音声信号を得る音声信号組合モジュールとをさらに含むことができる。
訓練音声信号を取得し、前記訓練音声信号における無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録し、無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録している訓練音声信号を用いて、無声音予測モデルを訓練する無声音予測モデル訓練モジュールをさらに含むことができる。
予め設定された訓練条件を満たす音声信号を選択する訓練音声信号取得モジュールを含むことができ、前記予め設定された訓練条件は、
音声信号におけるすべての異なる要因の出現回数の分布は設定される分布条件を満たすこと、及び/又は
音声信号に含まれる異なる要因の組み合せ方式の種類は設定される組み合せ方式の種類要求を満たすことを含む。
前記音響学マイク・アレイで収集された音声信号により、発話者の方位区間を決定し、また前記非音響学マイクで収集された音声信号と前記音響学マイクで同期的に収集された音声信号において、同じ時点に対応する音声フレームには音声信号が含まれるか否かを検出し、検出結果を取得し、また前記検出結果により、前記対象発話者の方位区間から前記対象発話者の方位を決定する発話者方位決定モジュールをさらに含むことができる。
の通信バス4を含むことができる。
ス4の数は少なくとも1つ、且つプロセッサー1、通信インターフェース2、メモリ3は通信
バス4を介して相互通信を行う。
)、又は本発明の実施例を実施するための1つ又は複数の集積回路などであってもよい。
不揮発性メモリ(non-volatile memory)などを含むこともできる。
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得することと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることとを実行する。
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得することと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることとを実行する。
体或いは操作の間に何らかの実際の関係又は順序が存在することを必ずしも要求又は示唆するものではない。さらに、用語「含む」、「含み」又はそれらのあらゆる変形は、要素のリストを含む過程、方法、物品及び装置がそれらの要素に限らないが、そのような過程、方法、物品及び装置に明確に記載されていない他の要素、又はそのような過程、方法、物品及び装置に固有の他の要素を含み得るように、非排他的な包含をカバーすることを意図している。「1つの…を含む」という文言によって限定される要素は、それ以上の制限
がない限り、前記要素を含む過程、方法、物品又は装置に同様の要素が他にも存在することは排除されない。
ウェアにおいて実現することができる。
でき、1台のコンピューター装置(パソコン、サーバ、又はネットワーク機器などであっ
てもよい)に本明細書の各実施例または実施例の一部に記載の方法を実行させるためのいくつかの命令を含む。
Claims (20)
- 音声ノイズ軽減方法であって、
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得することと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることと、
を含むことを特徴とする、方法。 - 前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、
音声アクティビティ検出結果を得ることは、
前記非音響学マイクで収集された音声信号の基本周波数情報を決定することと、
前記基本周波数情報を用いて音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
を含むことを特徴とする請求項1に記載の方法。 - 前記基本周波数情報を用いて音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることは、
前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得ることを含み、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることは、
前記フレーム単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対して1次ノイズ軽減を行い、1次ノイズ軽減後の音響学マイクで収集された音声信号を得ることを含む、
ことを特徴とする請求項2に記載の方法。 - 前記基本周波数情報を用いて音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることは、
前記基本周波数情報により、音声の高周波数分布情報を決定することと、
前記高周波数分布情報により、前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームに対して、周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得ることとを含み、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることは、
前記周波数単位の音声アクティビティ検出結果により、前記1次ノイズ軽減後の音響学
マイクで収集された音声信号に対して2次ノイズ軽減を行い、2次ノイズ軽減後の音響学マイクで収集された音声信号を得ることをさらに含む、
ことを特徴とする請求項3に記載の方法。 - 前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得ることは、
前記基本周波数情報がゼロであるか否かを検出することを含み、
前記基本周波数情報がゼロでなければ、前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれることを決定し、
前記基本周波数情報がゼロであれば、前記音響学マイクで収集された音声信号の信号強
度を検出し、検出された前記音響学マイクで収集された音声信号の信号強度が低ければ、前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれないことを決定する、
ことを特徴とする請求項3に記載の方法。 - 前記基本周波数情報により、音声の高周波数分布情報を決定することは、
前記基本周波数情報に倍数をかけ、倍数乗算した基本周波数情報を得ることと、
予め決められた周波数拡張値に従って、前記倍数乗算した基本周波数情報を拡張し、音声の高周波数分布区間を取得し、それを音声の高周波数分布情報とすることとを含む、
ことを特徴とする請求項4に記載の方法。 - 前記高周波数分布情報により、前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームに対して周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得ることは、
前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームのうち、周波数が高周波数であるものを、音声信号を含む周波数として決定し、周波数が高周波数でないものを、音声信号を含まない周波数として決定することを含む、
ことを特徴とする請求項4に記載の方法。 - 前記非音響学マイクで収集された音声信号は有声音信号であり、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることは、
前記有声音信号に含まれる各音声フレームの時点により、前記2次ノイズ軽減後の音響
学マイクで収集された音声信号から同じ時点の音声フレームを取得し、それを処理対象音声フレームとすることと、
前記処理対象音声フレームの各周波数をゲインアップ処理し、ゲインアップされた音声フレームを取得し、前記ゲインアップされた各音声フレームは3次ノイズ軽減後の音響学
マイクで収集された有声音信号を構成することとをさらに含み、
そのうち、ゲインアップ処理は、周波数が高周波数であるものに第1ゲイン値をかけ、
周波数が高周波数でないものに第2ゲイン値をかけ、前記第1ゲイン値が前記第2ゲイン値
より大きいことを含む、
ことを特徴とする請求項4に記載の方法。 - 前記ノイズ軽減後の音声信号はノイズ軽減後の有声音信号であり、当該方法は、
前記ノイズ軽減後の有声音信号を無声音予測モデルに入力し、前記無声音予測モデルから出力された無声音信号を取得し、前記無声音予測モデルは無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録している訓練音声信号を予め用いて訓練されたものであることと、
前記無声音信号及び前記ノイズ軽減後の有声音信号を組み合せ、組み合わせた音声信号を得ることとをさらに含む、
ことを特徴とする請求項1ないし8のいずれかの1項に記載の方法。 - 音声ノイズ軽減装置であって、
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する音声信号取得モジュールと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得る音声アクティビティ検出モジュールと、
前記音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対
してノイズ軽減を行い、ノイズ軽減後の音声信号を得る音声ノイズ軽減モジュールとを含む、
ことを特徴とする装置。 - 前記音声アクティビティ検出モジュールは、
前記非音響学マイクで収集された音声信号の基本周波数情報を決定する基本周波数情報決定モジュールと、
前記基本周波数情報を用いて音声アクティビティ検出を行い、音声アクティビティ検出結果を得る音声アクティビティ検出サブモジュールとを含む、
ことを特徴とする請求項10に記載の装置。 - 前記音声アクティビティ検出サブモジュールは、
前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得るフレーム単位の音声アクティビティ検出モジュールを含み、
前記音声ノイズ軽減モジュールは、
前記フレーム単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対して1次ノイズ軽減を行い、1次ノイズ軽減後の音響学マイクで収集された音声信号を得る1次ノイズ軽減モジュールを含む、
ことを特徴とする請求項11に記載の装置。 - 前記装置は、
前記基本周波数情報により、音声の高周波数分布情報を決定する高周波数分布情報決定モジュールと、
前記高周波数分布情報により、前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームに対して、周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る周波数単位の音声アクティビティ検出モジュールとをさらに含み、
前記音声ノイズ軽減モジュールは、
前記周波数単位の音声アクティビティ検出結果により、前記1次ノイズ軽減後の音響学
マイクで収集された音声信号に対して2次ノイズ軽減を行い、2次ノイズ軽減後の音響学マイクで収集された音声信号を得る2次ノイズ軽減モジュールをさらに含む、
ことを特徴とする請求項12に記載の装置。 - 前記フレーム単位の音声アクティビティ検出モジュールは、
前記基本周波数情報がゼロであるか否かを検出する基本周波数情報検出モジュールを含み、
前記基本周波数情報がゼロでなければ、前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれることを決定し、
前記基本周波数情報がゼロであれば、前記音響学マイクで収集された音声信号の信号強度を検出し、検出された前記音響学マイクで収集された音声信号の信号強度が低ければ、前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれないことを決定する、
ことを特徴とする請求項12に記載の装置。 - 前記高周波数分布情報決定モジュールは、
前記基本周波数情報に倍数をかけ、倍数乗算した基本周波数情報を得る倍数乗算モジュールと、
予め決められた周波数拡張値により、前記倍数乗算した基本周波数情報を拡張し、音声の高周波数分布区間を取得し、それを前記音声の高周波数分布情報とする基本周波数情報
拡張モジュールとを含む、
ことを特徴とする請求項13に記載の装置。 - 前記周波数単位の音声アクティビティ検出モジュールは、
前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームのうち、周波数が高周波数であるものを、音声信号を含む周波数として決定し、周波数が高周波数でないものを、音声信号を含まない周波数として決定する周波数単位の音声アクティビティ検出サブモジュールを含む、
ことを特徴とする請求項13に記載の装置。 - 前記非音響学マイクで収集された音声信号は有声音信号であり、
前記音声ノイズ軽減モジュールは、
前記有声音信号に含まれる各音声フレームの時点により、前記2次ノイズ軽減後の音響
学マイクで収集された音声信号から同じ時点の音声フレームを取得し、それを処理対象音声フレームとする音声フレーム取得モジュールと、
前記処理対象音声フレームの各周波数をゲインアップし、ゲインアップされた音声フレームを取得し、前記ゲインアップされた各音声フレームは3次ノイズ軽減後の音響学マイ
クで収集された有声音信号を構成するゲインアップモジュールとをさらに含み、
そのうち、ゲインアップ処理は、周波数が高周波数であるものに第1ゲイン値をかけ、
周波数が高周波数でないものに第2ゲイン値をかけ、前記第1ゲイン値が前記第2ゲイン値
より大きい、
ことを含むことを特徴とする請求項13に記載の装置。 - 前記ノイズ軽減後の音声信号はノイズ軽減後の有声音信号であり、該装置は、
前記ノイズ軽減後の有声音信号を無声音予測モデルに入力し、前記無声音予測モデルから出力された無声音信号を取得し、前記無声音予測モデルは無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録している訓練音声信号を予め用いて訓練されたものである無声音信号予測モジュールと、
前記無声音信号及び前記ノイズ軽減後の有声音信号を組み合せ、組み合わせた音声信号を得る音声信号組合モジュールとをさらに含む、
ことを特徴とする請求項10ないし17のいずれかの1項に記載の装置。 - サーバーであって、プログラムを格納する少なくとも1つのメモリと、前記メモリに格
納されているプログラムを呼び出す少なくとも1つのプロセッサーとを含み、前記プログ
ラムは、
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得することと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることと、
を実行することを特徴とするサーバ。 - コンピュータープログラムを格納する記憶媒体であって、前記コンピュータープログラムはプロセッサーによって実行される時、請求項1ないし9のいずれかの1項に記載の音声
ノイズ軽減方法の各ステップを実現することを特徴とする記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711458315.0 | 2017-12-28 | ||
CN201711458315.0A CN107910011B (zh) | 2017-12-28 | 2017-12-28 | 一种语音降噪方法、装置、服务器及存储介质 |
PCT/CN2018/091459 WO2019128140A1 (zh) | 2017-12-28 | 2018-06-15 | 一种语音降噪方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021503633A true JP2021503633A (ja) | 2021-02-12 |
JP7109542B2 JP7109542B2 (ja) | 2022-07-29 |
Family
ID=61871821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020528147A Active JP7109542B2 (ja) | 2017-12-28 | 2018-06-15 | 音声ノイズ軽減方法、装置、サーバー及び記憶媒体 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11064296B2 (ja) |
EP (1) | EP3734599B1 (ja) |
JP (1) | JP7109542B2 (ja) |
KR (1) | KR102456125B1 (ja) |
CN (1) | CN107910011B (ja) |
ES (1) | ES2960555T3 (ja) |
WO (1) | WO2019128140A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023171124A1 (ja) * | 2022-03-07 | 2023-09-14 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107910011B (zh) * | 2017-12-28 | 2021-05-04 | 科大讯飞股份有限公司 | 一种语音降噪方法、装置、服务器及存储介质 |
CN108766454A (zh) * | 2018-06-28 | 2018-11-06 | 浙江飞歌电子科技有限公司 | 一种语音噪声抑制方法及装置 |
CN109346073A (zh) * | 2018-09-30 | 2019-02-15 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN109584894A (zh) * | 2018-12-20 | 2019-04-05 | 西京学院 | 一种基于雷达语音与麦克风语音相融合的语音增强方法 |
CN110074759B (zh) * | 2019-04-23 | 2023-06-06 | 平安科技(深圳)有限公司 | 语音数据辅助诊断方法、装置、计算机设备及存储介质 |
CN110782912A (zh) * | 2019-10-10 | 2020-02-11 | 安克创新科技股份有限公司 | 音源的控制方法以及扬声设备 |
CN111341304A (zh) * | 2020-02-28 | 2020-06-26 | 广州国音智能科技有限公司 | 一种基于gan的说话人语音特征训练方法、装置和设备 |
CN111681659A (zh) * | 2020-06-08 | 2020-09-18 | 北京高因科技有限公司 | 一种应用于便携式设备的自动语音识别系统及其工作方法 |
CN111916101B (zh) * | 2020-08-06 | 2022-01-21 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 |
CN113115190B (zh) * | 2021-03-31 | 2023-01-24 | 歌尔股份有限公司 | 音频信号处理方法、装置、设备及存储介质 |
CN113241089B (zh) * | 2021-04-16 | 2024-02-23 | 维沃移动通信有限公司 | 语音信号增强方法、装置及电子设备 |
CN113470676A (zh) * | 2021-06-30 | 2021-10-01 | 北京小米移动软件有限公司 | 声音处理方法、装置、电子设备和存储介质 |
CN113724694B (zh) * | 2021-11-01 | 2022-03-08 | 深圳市北科瑞声科技股份有限公司 | 语音转换模型训练方法、装置、电子设备及存储介质 |
CN116110422B (zh) * | 2023-04-13 | 2023-07-04 | 南京熊大巨幕智能科技有限公司 | 全向级联麦克风阵列降噪方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03241400A (ja) * | 1990-02-20 | 1991-10-28 | Fujitsu Ltd | 音声検出器 |
JPH03274098A (ja) * | 1990-03-23 | 1991-12-05 | Ricoh Co Ltd | 雑音除去方式 |
JP2002537585A (ja) * | 1999-02-19 | 2002-11-05 | ザ リージェンツ オブ ザ ユニヴァーシティ オブ カリフォルニア | 音声およびアコースティック信号の有声音化励起を特徴付けて、音声からアコースティック・ノイズを除去し、音声を合成するシステムおよび方法 |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07101853B2 (ja) * | 1991-01-30 | 1995-11-01 | 長野日本無線株式会社 | 雑音低減方法 |
US6006175A (en) * | 1996-02-06 | 1999-12-21 | The Regents Of The University Of California | Methods and apparatus for non-acoustic speech characterization and recognition |
US20070233479A1 (en) * | 2002-05-30 | 2007-10-04 | Burnett Gregory C | Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors |
US7246058B2 (en) * | 2001-05-30 | 2007-07-17 | Aliph, Inc. | Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors |
US8019091B2 (en) * | 2000-07-19 | 2011-09-13 | Aliphcom, Inc. | Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression |
KR20040096662A (ko) * | 2002-03-05 | 2004-11-16 | 앨리프컴 | 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께이용하기 위한 방법 |
US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7499686B2 (en) * | 2004-02-24 | 2009-03-03 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
US7574008B2 (en) * | 2004-09-17 | 2009-08-11 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US8503686B2 (en) * | 2007-05-25 | 2013-08-06 | Aliphcom | Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems |
US8488803B2 (en) * | 2007-05-25 | 2013-07-16 | Aliphcom | Wind suppression/replacement component for use with electronic systems |
EP2151821B1 (en) | 2008-08-07 | 2011-12-14 | Nuance Communications, Inc. | Noise-reduction processing of speech signals |
US9418675B2 (en) * | 2010-10-04 | 2016-08-16 | LI Creative Technologies, Inc. | Wearable communication system with noise cancellation |
EP2555189B1 (en) | 2010-11-25 | 2016-10-12 | Goertek Inc. | Method and device for speech enhancement, and communication headphones with noise reduction |
US10230346B2 (en) * | 2011-01-10 | 2019-03-12 | Zhinian Jing | Acoustic voice activity detection |
US8949118B2 (en) * | 2012-03-19 | 2015-02-03 | Vocalzoom Systems Ltd. | System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise |
FR2992459B1 (fr) * | 2012-06-26 | 2014-08-15 | Parrot | Procede de debruitage d'un signal acoustique pour un dispositif audio multi-microphone operant dans un milieu bruite. |
US9094749B2 (en) * | 2012-07-25 | 2015-07-28 | Nokia Technologies Oy | Head-mounted sound capture device |
US20140126743A1 (en) * | 2012-11-05 | 2014-05-08 | Aliphcom, Inc. | Acoustic voice activity detection (avad) for electronic systems |
CN103208291A (zh) * | 2013-03-08 | 2013-07-17 | 华南理工大学 | 一种可用于强噪声环境的语音增强方法及装置 |
CN203165457U (zh) | 2013-03-08 | 2013-08-28 | 华南理工大学 | 一种可用于强噪声环境的语音采集装置 |
US9532131B2 (en) * | 2014-02-21 | 2016-12-27 | Apple Inc. | System and method of improving voice quality in a wireless headset with untethered earbuds of a mobile device |
CN104091592B (zh) * | 2014-07-02 | 2017-11-14 | 常州工学院 | 一种基于隐高斯随机场的语音转换系统 |
US9311928B1 (en) * | 2014-11-06 | 2016-04-12 | Vocalzoom Systems Ltd. | Method and system for noise reduction and speech enhancement |
WO2017017569A1 (en) * | 2015-07-26 | 2017-02-02 | Vocalzoom Systems Ltd. | Enhanced automatic speech recognition |
EP3157266B1 (en) | 2015-10-16 | 2019-02-27 | Nxp B.V. | Controller for a haptic feedback element |
CN105940445B (zh) * | 2016-02-04 | 2018-06-12 | 曾新晓 | 一种语音通信系统及其方法 |
CN106101351A (zh) | 2016-07-26 | 2016-11-09 | 哈尔滨理工大学 | 一种用于移动终端的多mic降噪方法 |
CN106686494A (zh) * | 2016-12-27 | 2017-05-17 | 广东小天才科技有限公司 | 一种可穿戴设备的语音输入控制方法及可穿戴设备 |
CN106952653B (zh) * | 2017-03-15 | 2021-05-04 | 科大讯飞股份有限公司 | 噪声去除方法、装置和终端设备 |
CN107093429B (zh) * | 2017-05-08 | 2020-07-10 | 科大讯飞股份有限公司 | 主动降噪方法、系统及汽车 |
CN107910011B (zh) * | 2017-12-28 | 2021-05-04 | 科大讯飞股份有限公司 | 一种语音降噪方法、装置、服务器及存储介质 |
-
2017
- 2017-12-28 CN CN201711458315.0A patent/CN107910011B/zh active Active
-
2018
- 2018-06-15 JP JP2020528147A patent/JP7109542B2/ja active Active
- 2018-06-15 WO PCT/CN2018/091459 patent/WO2019128140A1/zh unknown
- 2018-06-15 ES ES18894296T patent/ES2960555T3/es active Active
- 2018-06-15 EP EP18894296.5A patent/EP3734599B1/en active Active
- 2018-06-15 US US16/769,444 patent/US11064296B2/en active Active
- 2018-06-15 KR KR1020207015043A patent/KR102456125B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03241400A (ja) * | 1990-02-20 | 1991-10-28 | Fujitsu Ltd | 音声検出器 |
JPH03274098A (ja) * | 1990-03-23 | 1991-12-05 | Ricoh Co Ltd | 雑音除去方式 |
JP2002537585A (ja) * | 1999-02-19 | 2002-11-05 | ザ リージェンツ オブ ザ ユニヴァーシティ オブ カリフォルニア | 音声およびアコースティック信号の有声音化励起を特徴付けて、音声からアコースティック・ノイズを除去し、音声を合成するシステムおよび方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023171124A1 (ja) * | 2022-03-07 | 2023-09-14 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム |
Also Published As
Publication number | Publication date |
---|---|
KR20200074199A (ko) | 2020-06-24 |
EP3734599B1 (en) | 2023-07-26 |
JP7109542B2 (ja) | 2022-07-29 |
CN107910011A (zh) | 2018-04-13 |
EP3734599A4 (en) | 2021-09-01 |
ES2960555T3 (es) | 2024-03-05 |
WO2019128140A1 (zh) | 2019-07-04 |
EP3734599A1 (en) | 2020-11-04 |
CN107910011B (zh) | 2021-05-04 |
US11064296B2 (en) | 2021-07-13 |
KR102456125B1 (ko) | 2022-10-17 |
US20200389728A1 (en) | 2020-12-10 |
EP3734599C0 (en) | 2023-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021503633A (ja) | 音声ノイズ軽減方法、装置、サーバー及び記憶媒体 | |
US11289087B2 (en) | Context-based device arbitration | |
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
US11138977B1 (en) | Determining device groups | |
US20210035563A1 (en) | Per-epoch data augmentation for training acoustic models | |
US10504539B2 (en) | Voice activity detection systems and methods | |
US9830924B1 (en) | Matching output volume to a command volume | |
JP6279181B2 (ja) | 音響信号強調装置 | |
US11380326B2 (en) | Method and apparatus for performing speech recognition with wake on voice (WoV) | |
JP5649488B2 (ja) | 音声判別装置、音声判別方法および音声判別プログラム | |
JP2017506767A (ja) | 話者辞書に基づく発話モデル化のためのシステムおよび方法 | |
JP2004347761A (ja) | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 | |
JP2020115206A (ja) | システム及び方法 | |
US20190180758A1 (en) | Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium for storing program | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
US11290802B1 (en) | Voice detection using hearable devices | |
US11521635B1 (en) | Systems and methods for noise cancellation | |
WO2019207912A1 (ja) | 情報処理装置及び情報処理方法 | |
JP6794887B2 (ja) | 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法 | |
US11727926B1 (en) | Systems and methods for noise reduction | |
JP2022544065A (ja) | 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置 | |
JP2017009657A (ja) | 音声強調装置、および音声強調方法 | |
JP6559576B2 (ja) | 雑音抑圧装置、雑音抑圧方法及びプログラム | |
KR20220044530A (ko) | 음향 장치 및 그 동작 방법 | |
WO2017154279A1 (ja) | 音声処理装置および音声処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210525 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210825 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220511 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20220511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20220516 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20220602 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20220607 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220719 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7109542 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |