JP2021503633A - 音声ノイズ軽減方法、装置、サーバー及び記憶媒体 - Google Patents

音声ノイズ軽減方法、装置、サーバー及び記憶媒体 Download PDF

Info

Publication number
JP2021503633A
JP2021503633A JP2020528147A JP2020528147A JP2021503633A JP 2021503633 A JP2021503633 A JP 2021503633A JP 2020528147 A JP2020528147 A JP 2020528147A JP 2020528147 A JP2020528147 A JP 2020528147A JP 2021503633 A JP2021503633 A JP 2021503633A
Authority
JP
Japan
Prior art keywords
voice
noise reduction
activity detection
frame
acoustic microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020528147A
Other languages
English (en)
Other versions
JP7109542B2 (ja
Inventor
ワン,ハイクン
マー,フォン
ワン,チグォ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Publication of JP2021503633A publication Critical patent/JP2021503633A/ja
Application granted granted Critical
Publication of JP7109542B2 publication Critical patent/JP7109542B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Machine Translation (AREA)

Abstract

本出願は、音声ノイズ軽減方法、装置、サーバー及び記憶媒体を提供し、音声ノイズ軽減方法は、音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得すること(S100)と、非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得ること(S110)と、音声アクティビティ検出結果により、音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ること(S120)とを含む。本出願において、上記の方式によりノイズ軽減の効果を高め、音声信号の品質を向上させることができる。

Description

本出願は、2017年12月28日に中国特許局へ提出した出願番号201711458315.0、発明名称「音声ノイズ軽減方法、装置、サーバー及び記憶媒体」である中国特許出願の優先権を主張し、そのすべての内容はここで参照として本出願に引用される。
音声技術の急速な発展に伴い、日常生活や仕事の多くの分野で幅広く使用され、人々の生活や仕事に大きな利便性を提供している。
しかしながら、音声技術の応用において、一般的にノイズの干渉などの要因により音声信号の品質は低下し、音声信号の品質低下は音声信号の応用(例えば、音声識別、音声再生など)に直接影響を与える。したがって、音声信号の品質向上は早急な解決が必要とされている課題である。
上記の課題を解決するために、本出願の実施例は、音声信号の品質を向上させるという目的を達成するための音声ノイズ軽減方法、装置、サーバー及び記憶媒体を提供し、技術案は以下の通りである。
音声ノイズ軽減方法であり、
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得することと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることとを含む。
音声ノイズ軽減装置であり、
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する音声信号取得モジュールと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得る音声アクティビティ検出モジュールと、
前記音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得る音声ノイズ軽減モジュールとを含む。
サーバーであり、プログラムを格納する少なくとも1つのメモリと、前記メモリに格納
されているプログラムを呼び出す少なくとも1つのプロセッサーとを含み、
前記プログラムは、
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得することと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることとを実行する。
コンピュータープログラムを格納する記憶媒体であり、前記コンピュータープログラム
はプロセッサーによって実行される時、上記の音声ノイズ軽減方法の各ステップを実現することを特徴とする。
従来技術と比べ、本出願の好適な効果は以下の通りである。
本出願において、音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得し、そのうち、非音響学マイクは環境ノイズと無関係の方式(例えば、人の皮膚や咽喉の振動を検出するなど)で音声信号を収集することができ、このもとで、非音響学マイクで収集された音声信号により音声アクティビティ検出を行うことは、音響学マイクで収集された音声信号により音声アクティビティ検出を行うことを比較して、環境ノイズの影響を低減させ、検出の精度を高めることで、非音響学マイクで収集された音声信号により得られた音声アクティビティ検出結果により、音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減の効果を高め、ノイズ軽減後の音声信号の品質を向上させるため、後続の音声信号の応用に高品質の音声信号を提供することができる。
本出願の実施例の技術案をより明確に説明するためには、以下、実施例を説明するために必要な図面を簡単に説明する。明らかに、下記の図面は、本出願の実施例の一部に過ぎず、当業者であれば、発明の労力を払うことなくこれらの図面に従って他の図面を得ることができる。
図1は本発明の実施例に係る音声ノイズ軽減方法のフローチャートである。 図2は非音響学マイクで収集された音声信号の基本周波数情報の分布を示す図である。 図3は本発明の実施例に係る音声ノイズ軽減方法の別のフローチャートである。 図4は本発明の実施例に係る音声ノイズ軽減方法の別のフローチャートである。 図5は本発明の実施例に係る音声ノイズ軽減方法の別のフローチャートである。 図6は本発明の実施例に係る音声ノイズ軽減方法の別のフローチャートである。 図7は本発明の実施例に係る音声ノイズ軽減方法の別のフローチャートである。 図8は本発明の実施例に係る音声ノイズ軽減方法の別のフローチャートである。 図9は本発明の実施例に係る音声ノイズ軽減方法の別のフローチャートである。 図10は本発明の実施例に係る音声ノイズ軽減方法の別のフローチャートである。 図11は本発明の実施例に係る音声ノイズ軽減装置の論理構造を示す図である。 図12はサーバーのハードウェア構造を示すブロック図。
以下、本出願の実施形態の図面を併せて、本出願の実施例の技術案を明確かつ詳細に説明する。記載された実施例は本出願の実施例の一部に過ぎず、それらのすべてではないことは明らかである。本出願の実施例に基づき、当業者は、創造的な作業なしに得られた本発明のすべての他の実施例は本発明の保護範囲内にある。
本出願の実施例で開示される音声ノイズ軽減方法を説明する前に、まず本出願の実施例で開示される音声ノイズ軽減方法の構想プロセスを簡単に説明し、具体的に以下の通りである。
音声信号の品質を向上させるための既知の技術処理方式としては、音声ノイズ軽減技術を用いて音声強調を行い、音声の識別性を高めることが挙げられる。既知の音声ノイズ軽減技術は、単一指向性マイクを用いた音声ノイズ軽減方法又はマイク・アレイを用いた音声ノイズ軽減方法を含むことができる。
そのうち、単一指向性マイクを用いた音声ノイズ軽減方法は、ノイズ及び音声信号の統計的特性を十分に考慮し、定常ノイズに優れた抑制効果があるが、統計的特性が安定でない非定常ノイズを予測できず、ある程度の音声歪みが存在する。したがって、単一指向性マイクを用いた音声ノイズ軽減方法の音声ノイズ軽減能力は限られている。
ただし、マイク・アレイを用いた音声ノイズ軽減方法は音声信号のタイミング情報及び空間情報を融合するので、信号のタイミング情報しか利用しない単一指向性マイクを用いた音声ノイズ軽減方法より、ノイズ抑制の振幅と音声歪みの制御との関係を適切にバランスさせ、非定常ノイズにも一定の抑制効果がある。しかし、コストと機器サイズの制限により、一部の応用場面で数え切れないほど大量なマイクを使用することができないので、音声ノイズを軽減するにはマイク・アレイを使用しても、満足できる音声ノイズの軽減効果が得られない。
単一指向性マイクを用いた音声ノイズ軽減方法及びマイク・アレイを用いた音声ノイズ軽減方法に存在する問題を考慮し、出願人は音響学マイク(例えば、単一指向性マイクやマイク・アレイなど)ではなく、環境ノイズと無関係の信号収集装置(本明細書で「非音響学マイク」といい、例えば、骨伝導マイク、光学マイク)を採用し、環境ノイズと無関係の方式(例えば、骨伝導マイクは主に顔または喉の骨に強く当てて骨の振動を検出し、音声信号に変換する。レーザーマイクとも呼ばれる光学マイクは、レーザー送信機を介して喉或いは顔の皮膚にレーザー光を放射し、皮膚の振動による反射信号を受信機で受信した後、放射光と反射光との差分を分析し、音声信号に変換する)を用いて音声信号を収集することで、音声通信又は音声識別に対するノイズの干渉を大幅に低減させることを研究中である。
ただし、上記の非音響学マイクにも一定の制限があり、まず、骨と皮膚の振動周波数が速すぎてはいけない。したがって、非音響学マイクで収集された信号の上限は低くてほぼ2000Hz以下である。また有声音(濁音)を発する時だけ声帯が振動するが、無声音(清音)を発する時に振動しないため、非音響学マイクは有声音信号しか収集できない。以上の原因により、非音響学マイクで収集された音声信号は高いノイズ耐性があるが、収集された言語信号は不完全なものであり、非音響学マイクを単に使用すると、ほとんどの場合においても音声通信及び音声識別の要求を満足することができない。この結果、出願人は下記の音声ノイズ軽減方法を提供し、音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得し、前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を取得し、また前記音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を取得し、音声のノイズ軽減を実現する。
つぎに、本出願の実施例で開示される音声ノイズ軽減方法を説明し、図1に示すように
、当該方法は以下ステップを含むことができる。
S100:音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する。
本実施例において、音響学マイクは単一の音響学マイク又は音響学マイク・アレイを含むことができる。
音響学マイクは音声信号を収集できる任意の位置に配置して音声信号の収集を行ってもよいことは理解できるだろう。ただし、非音響学マイクは音声信号を収集できる領域に配置して(例えば、骨伝導マイクは喉または顔の骨に強く当てなければならず、光学マイクは、レーザーが話す人の皮膚振動領域、すなわち、顔側面及び喉の位置に配置しなければならない)、音声信号の収集を行う必要がある。
音響学マイク及び非音響学マイクで同期的に収集された音声信号は、音響学マイクで収集された音声信号と非音響学マイクで収集された音声信号との一致性、音声信号の処理利便性を高めることができる。
S110:前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得る。
一般的には、音声ノイズ軽減過程の中で音声の有無を検出する必要があるが、信号対雑音比が低い環境で、音響学マイクで収集された音声信号だけで音声の有無を検出するのは、精度が高くないので、音声の有無の検出精度を高めるよう、本実施例では非音響学マイクで収集された音声信号を用いて、音声アクティビティ検出を行い、音声の有無の検出を実現することで、検出に対する環境ノイズの影響を低減させ、音声の有無の検出精度を高めることができる。
もちろん、音声の有無の検出精度を高めることは、最終な音声ノイズ軽減効果を高めることもできる。
S120:前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得る。
前記音声アクティビティ検出結果を利用し、前記音響学マイクで収集された音声信号に対してノイズ軽減処理を行うことで、前記音響学マイクで収集された音声信号のノイズ成分を低減させ、ノイズ軽減処理後の音響学マイク音声信号の音声成分をより顕在化させることができる。
本出願において、音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得し、そのうち、非音響学マイクは環境ノイズと無関係の方式(例えば、人の皮膚や咽喉の振動を検出するなど)で音声信号を収集することができ、このもとで、非音響学マイクで収集された音声信号により音声アクティビティ検出を行うことは、音響学マイクで収集された音声信号により音声アクティビティ検出を行うことと比較して、環境ノイズの影響を低減させ、検出の精度を高めることができ、非音響学マイクで収集された音声信号により得られた音声アクティビティ検出結果により、音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減の効果を高め、ノイズ軽減後の音声信号の品質を向上させるため、後続の音声信号の応用に高品質の音声信号を提供することができる。
本出願の別の実施例において、上記の実施例のS110「前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得る」ことを説明し、具体的に以下を含むことができる。
A1:前記非音響学マイクで収集された音声信号の基本周波数情報を決定する。
本ステップから決定される前記非音響学マイクで収集された音声信号の基本周波数情報は音声信号の基音の周波数(すなわち、人が話す時に声門が閉じる周波数)として理解される。
一般的には、男性の音声の基本周波数範囲は50〜250Hzであり、女性の音声の基本周波
数範囲は120〜500Hzである。また、前記非音響学マイクは周波数が2000Hz以下の言語信号を収集できるため、前記非音響学マイクで収集された音声信号から完全な基本周波数情報を決定することができる。
図2を参照しながら、光学マイクで収集された音声信号を例として、音声信号内におい
て決定された前記非音響学マイクで収集された音声信号の基本周波数情報の分布を説明し、図2に示すように、基本周波数情報は周波数が50〜500Hzにある部分である。
A2:前記基本周波数情報を用いて音声アクティビティ検出を行い、音声アクティビティ検出結果を得る。
基本周波数情報は、前記非音響学マイクで収集された音声信号のより明瞭なオーディオ情報であるため、本実施例では非音響学マイクで収集された音声信号の基本周波数情報を使用して、音声アクティビティ検出を行い、音声有無の検出を実現することで、検出に対する環境ノイズの影響を低減させ、音声有無検出の精度を高めることができる。
説明すべき点については、音声アクティビティ検出を具体的に実施するための形態はさまざまあり以下を含むがこれらに限らない。
フレーム単位の音声アクティビティ検出、
又は、周波数単位の音声アクティビティ検出、
又は、フレーム単位の音声アクティビティ検出及び周波数単位の音声アクティビティ検出を合わせた音声アクティビティ検出。
また、注意すべき点については、前述の音声アクティビティ検出を具体的に実施するための形態別に対応して、上記の実施例のS120「前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得る」の具体的な実施形態も異なる。
それから、前述の音声アクティビティ検出を具体的に実施するための各形態に基づき、「前記基本周波数情報を用いて音声アクティビティ検出を行う」、及びそれに対応する上記の実施例のS120「前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得る」の具体的な実施形態をそれぞれに説明する。
まず、フレーム単位の音声アクティビティ検出を実施するための形態に対応する音声ノイズ軽減方法を説明する。図3に示すように、当該方法は以下ステップを含むことができ
る。
S200:音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する。
S200は上記の実施例のS100と同じであり、S200の詳細過程については上記の実施例のS100の説明を参照でき、ここで省略する。
S210:前記非音響学マイクで収集された音声信号の基本周波数情報を決定する。
S210は上記の実施例のステップA1と同じであり、S210の詳細過程については上記の実施例のステップA1の説明を参照でき、ここで省略する。
S220:前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得る。
このステップは上記の実施例のA2「前記基本周波数情報を用いて音声アクティビティ検出を行い、音声アクティビティ検出結果を得る」の具体的な一実施形態である。
前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得る具体的な過程は以下ステップを含むことができる。
B1:前記基本周波数情報がゼロであるか否かを検出する。
前記基本周波数情報がゼロでなければ、ステップB2を実行し、前記基本周波数情報がゼロであれば、ステップB3を実行する。
B2:前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれることを決定する。
B3:前記音響学マイクで収集された音声信号の信号強度を検出する。
前記音響学マイクで収集された音声信号の信号強度が低いことを検出したら、ステップB4を実行する。
B4:前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれないことを決定する。
前記基本周波数情報がゼロであることを検出した上で、さらに前記音響学マイクで収集された音声信号の信号強度を検出することにより、前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれないことを決定するという結果の精度を高める。
本実施例において、基本周波数情報は非音響学マイクで収集された音声信号の基本周波数情報であるため、非音響学マイクは環境ノイズと無関係の方式で音声信号を収集し、基本周波数情報に対応する音声フレームに音声信号が含まれるか否かを検出することで、検出に対する環境ノイズの影響を低減させ、検出の精度を高めることができる。
S230:前記フレーム単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対して第1のノイズ軽減処理を行い、第1のノイズ軽減処理後の音響学マイクで収集された音声信号を得る。
このステップは上記の実施例のA2「前記基本周波数情報を用いて音声アクティビティ検出を行い、音声アクティビティ検出結果を得る」の具体的な一実施形態である。
説明すべき点については、前記音響学マイクに含まれている単一の音響学マイク或いは音響学マイク・アレイの場合は、前記フレーム単位の音声アクティビティ検出結果に基づき、前記音響学マイクで収集された音声信号に対してノイズ軽減を行う過程とは異なる。
単一の音響学マイクの場合は、フレーム単位の音声アクティビティ検出結果を用いて、ノイズスペクトル推定の更新を行い、ノイズ種類をより正確に推定することで、更新されたノイズスペクトル推定を用いて前記音響学マイクで収集された音声信号に対してノイズ軽減を行うことができる。そのうち、更新されたノイズスペクトル推定を用いて前記音響学マイクで収集された音声信号に対してノイズ軽減を行うには、従来技術のノイズスペクトル推定を用いたノイズ軽減の過程を参照できるため、ここで省略する。
音響学マイク・アレイの場合は、フレーム単位の音声アクティビティ検出結果を用いて、音響学マイク・アレイの音声ノイズ軽減システムのブロッキング行列、適応ノイズ キ
ャンセリングフィルターを更新することで、更新されたブロッキング行列、適応ノイズ
キャンセリングフィルターを用いて前記音響学マイクで収集された音声信号に対してノイズ軽減を行うことができる。そのうち、更新されたブロッキング行列、適応ノイズキャンセリングフィルターを用いて前記音響学マイクで収集された音声信号に対してノイズ軽減を行うには従来技術を参照できるため、ここで省略する。
本実施例では、非音響学マイクで収集された音声信号の基本周波数情報を用いて、フレーム単位の音声アクティビティ検出を行い、音声有無の検出を実現することで、検出に対する環境ノイズの影響を低減させ、音声有無検出の精度を高めることができる。また、音声有無検出の精度を高める上で、フレーム単位の音声アクティビティ検出結果を用いて、前記音響学マイクで収集された音声信号に対して第1のノイズ軽減処理を行うことで、前
記音響学マイクで収集された音声信号のノイズ成分を低減させ、第1のノイズ軽減処理後
の音響学マイク音声信号の音声成分をより顕在化させることができる。
本出願の別の実施例において、周波数単位の音声アクティビティ検出の実施形態に対応する音声ノイズ軽減方法を説明し、図4に示すように、以下ステップを含むことができる
S300:音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する。
S300は上記の実施例のS100と同じであり、S300の詳細過程については上記の実施例のS100の説明を参照でき、ここで省略する。
S310:前記非音響学マイクで収集された音声信号の基本周波数情報を決定する。
S310は上記の実施例のステップA1と同じであり、S310の詳細過程については上記の実施例のステップA1「前記非音響学マイクで収集された音声信号の基本周波数情報を決定する」の説明を参照でき、ここで省略する。
S320:前記基本周波数情報により、音声の高周波数分布情報を決定する。
音声信号は広帯域信号であり、スペクトルでまばらに分布することは明らかである。つまり、音声信号の特定の音声フレームの中に一部の周波数は音声成分であるが、一部の周波数はノイズ成分である。ノイズ周波数をよりよく抑制し、音声周波数を保留するため、音声周波数の決定を最優先する。音声周波数の決定方式は本ステップで提案された「前記基本周波数情報により、音声の高周波数分布情報を決定する」ことである。
音声の高周波数はノイズ成分ではなく音声成分であると理解される。
説明すべき点については、ある特定の環境(ノイズが高い環境)で、一部の周波数成分の信号対雑音比は負の値であり、音響学マイクだけならば、周波数が音声成分か、ノイズ成分かを正確に推定するのは困難であるため、本実施例では、非音響学マイクの音声信号の基本周波数情報により、音声周波数(すなわち、音声の高周波数分布情報を決定する)を推定することで、音声周波数の推定精度を高めることを採用する。
「前記基本周波数情報により、音声の高周波数分布情報を決定する」の具体的な過程は以下ステップを含むことができる。
C1:前記基本周波数情報に倍数をかけ、倍数乗算した基本周波数情報を得る。
前記基本周波数情報に倍数をかけることは、前記基本周波数情報に1以上の数をかけ、
例えば、前記基本周波数情報にそれぞれ2、3、4、…、N(前記Nは1以上の数とする)をかけると理解される。
C2:予め決められた周波数拡張値に従って、前記倍数乗算した基本周波数情報を拡張し、音声の高周波数分布区間を取得し、それを前記音声の高周波数分布情報とする。
説明すべき点については、音声ノイズ軽減の過程で、残留ノイズに耐えられるが、音声成分の損失を受け入れられない。したがって、音声成分をできるだけ多く保留するよう、予め決められた周波数拡張値に従って前記倍数乗算した基本周波数情報を拡張し、基本周波数情報に基づいて決定される高周波数の欠落数を減らすことができる。
予め決められた周波数拡張値を1又は2で設定することが好ましい。
本実施例において、音声の高周波数分布区間は次の数式で表される:
Figure 2021503633
ここで、fは基本周波数情報、2*f, 3*f, ..., N*fは倍数乗算した基本周波数情報、Δは
予め決められた周波数拡張値である。
S330:前記高周波数分布情報により、前記音響学マイクで収集された音声信号に対して周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る。
上記のS320で、音声の高周波数分布情報を決定した後、前記高周波数分布情報により、前記音響学マイクで収集された音声信号に対して周波数単位の音声アクティビティ検出を行い、音声フレームの高周波数は音声成分であり、非高周波数はノイズ成分であると決定する。それに基づいて、「前記高周波数分布情報により、前記音響学マイクで収集された音声信号に対して周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る」の具体的な過程は以下ステップを含むことができる。
前記音響学マイクで収集された音声信号において、周波数が前記高周波数であるものを、音声信号を含む周波数として決定し、周波数が前記高周波数でないものを、音声信号を含まない周波数として決定する。
S340:前記周波数単位の音声アクティビティ検出結果により、前記音響学マイクで収集
された音声信号に対して第2のノイズ軽減処理を行い、第2のノイズ軽減処理後の音響学マイクで収集された音声信号を得る。
具体的には、前記周波数単位の音声アクティビティ検出結果により、単一の音響学マイク又は音響学マイク・アレイで収集された音声信号に対してノイズ軽減を行う過程は、上記の実施例のS230で説明された「フレーム単位の音声アクティビティ検出結果に対してノイズ軽減を行う」の過程を参照でき、ここで省略する。
説明すべき点については、本実施例において、前記周波数単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対してノイズ軽減処理を行い、上記の実施例の第1のノイズ軽減処理過程を区別するため、ここで第2のノイズ軽減処理方式と定義する。
本実施例において、前記高周波数分布情報により、周波数単位の音声アクティビティ検出を行い、音声有無の検出を実現することで、検出に対する環境ノイズの影響を低減させ、音声有無検出の精度を高めることができる。また、音声有無検出の精度を高める上で、周波数単位の音声アクティビティ検出結果を用いて、前記音響学マイクで収集された音声信号に対して第2のノイズ軽減処理を行うことで、音響学マイクで収集された音声信号の
ノイズ成分を低減させ、第2のノイズ軽減処理後の音響学マイク音声信号の音声成分をよ
り顕在化させることができる。
本出願の別の実施例において、周波数単位の音声アクティビティ検出の実施形態に対応する別の音声ノイズ軽減方法を説明し、図5に示すように、以下ステップを含むことがで
きる。
S400:音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する。
具体的には、非音響学マイクで収集された音声信号は有声音信号である。
S410:前記非音響学マイクで収集された音声信号の基本周波数情報を決定する。
前記非音響学マイクで収集された音声信号の基本周波数情報を決定することは、前記有声音信号の基本周波数情報を決定すると理解される。
S420:前記基本周波数情報により、音声の高周波数分布情報を決定する。
S430:前記高周波数分布情報により、前記音響学マイクで収集された音声信号に対して周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る。
S440:前記非音響学マイクで収集された有声音信号に含まれている各音声フレームの時点により、前記音響学マイクで収集された音声信号から同じ時点の音声フレームを取得し、それを処理対象音声フレームとする。
S450:前記周波数単位の音声アクティビティ検出結果により、前記処理対象音声フレームの各周波数をゲインアップし、ゲインアップされた音声フレームを取得し、前記ゲインアップされた各音声フレームはゲインアップされた、音響学マイクで収集された有声音信号を構成する。
このうち、ゲインアップの過程は、周波数が前記高周波数であるものに第1ゲイン値を
かけ、周波数が前記高周波数でないものに第2ゲイン値をかけ、前記第1ゲイン値が前記第2ゲイン値より大きいことを含むことができる。
第1ゲイン値が第2ゲイン値より大きく、高周波数は音声成分であるため、周波数が前記高周波数であるものに第1ゲイン値をかけ、周波数が前記高周波数でないものに第2ゲイン値をかけることにより、音声成分はノイズ成分より大幅に強化され、ゲインアップされた音声フレームを、強化された音声フレームとし、強化された各音声フレームは強化された有声音信号を構成するため、音響学マイクで収集された音声信号の強化を実現する。
一般的に、第1ゲイン値を1に設定し、第2ゲイン値の数値範囲を、0より大きく且つ0.5
より小さい値に設定してもよい。具体的に、0より大きく且つ0.5より小さい数値範囲から任意の値を前記第2ゲイン値として選択する。
選択肢として、前記処理対象音声フレームの各周波数をゲインアップし、ゲインアップされた音声フレームを取得することについては、次のゲインアップ関係式により計算する。
Figure 2021503633
SSEiはゲインアップされた音声フレームであり、SAiは処理対象音声フレームの第iの周波数であり、iは周波数であり、Mは処理対象音声フレームの周波数の総数である。
Combiはゲイン値であり、Combiの大きさは次の代入関係式により決定する。
Figure 2021503633
GHは第1ゲイン値であり、fは基本周波数情報であり、hfpは高周波数分布情報であり、
Figure 2021503633

は第iの周波数が高周波数であることを表し、
Gminは第2ゲイン値であり、
Figure 2021503633

は第iの周波数が非高周波数であることを表す。
また、説明すべき点については、音声に基づく高周波数分布区間は
Figure 2021503633

の実施形態で表され、n*f±Δは前述の代入関係式のhfpを置き換え、代入関係式
Figure 2021503633

を最適化し、最適化された後の代入関係式は次の通りである。
Figure 2021503633
本実施例では、前記高周波数分布情報により、周波数単位の音声アクティビティ検出を行い、音声有無の検出を実現することで、検出に対する環境ノイズの影響を低減させ、音声有無検出の精度を高めることができる。また、音声有無検出の精度を高める上で、周波数単位の音声アクティビティ検出結果を用いて、前記音響学マイクで収集された音声信号に対してゲインアップ処理(ゲインアップ過程はノイズ軽減処理の過程とも見なされる)を行い、ゲインアップされた後の音響学マイク音声信号の音声成分をより顕在化させることができる。
本出願の別の実施例において、周波数単位の音声アクティビティ検出の実施形態に対応する別の音声ノイズ軽減方法を説明し、図6に示すように、以下ステップを含むことがで
きる。
S500:音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する。
具体的には、非音響学マイクで収集された音声信号は有声音信号である。
S510:前記非音響学マイクで収集された音声信号の基本周波数情報を決定する。
前記非音響学マイクで収集された音声信号の基本周波数情報を決定することは、前記有声音信号の基本周波数情報を決定すると理解される。
S520:前記基本周波数情報により、音声の高周波数分布情報を決定する。
S530:前記高周波数分布情報により、前記音響学マイクで収集された音声信号に対して周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る。
S540:前記周波数単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対して第2のノイズ軽減処理を行い、第2のノイズ軽減処理後の音響学マイクで収集された音声信号を得る。
S500〜S540と上記の実施例のS300〜S340とはそれぞれに対応し、S500〜S540の詳細過程は上記の実施例のS300〜S340の説明を参照でき、ここで省略する。
S550:前記非音響学マイクで収集された有声音信号に含まれている各音声フレームの時点により、前記第2のノイズ軽減処理後の音響学マイクで収集された音声信号から同じ時
点の音声フレームを取得し、それを処理対象音声フレームとする。
S560:前記周波数単位の音声アクティビティ検出結果により、前記処理対象音声フレームの各周波数をゲインアップし、ゲインアップされた音声フレームを取得し、前記ゲインアップされた各音声フレームはゲインアップされた、音響学マイクで収集された有声音信号を構成する。
そのうち、前記ゲインアップの過程は、周波数が前記高周波数であるものに第1ゲイン
値をかけ、周波数が前記高周波数でないものに第2ゲイン値をかけ、前記第1ゲインが前記第2ゲインより大きいことを含むことができる。
S550〜S560の詳細過程はS440〜S450の関連説明を参照でき、ここで省略する。
本実施例では、まず音響学マイクで収集された音声信号に対して第2のノイズ軽減処理
を行い、つぎに第2のノイズ軽減処理後の音響学マイクで収集された音声信号をゲインア
ップすることで、音響学マイクで収集された音声信号のノイズ成分をさらに低減させ、ゲインアップされた音響学マイク音声信号の音声成分をより顕在化させることができる。
本出願の別の実施例において、フレーム単位の音声アクティビティ検出と周波数単位の音声アクティビティ検出を合わせた実施形態に対応する音声ノイズ軽減方法を説明し、図7に示すように、以下ステップを含むことができる。
S600:音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する。
S610:前記非音響学マイクで収集された音声信号の基本周波数情報を決定する。
S620:前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得る。
S630:前記フレーム単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対して第1のノイズ軽減処理を行い、第1のノイズ軽減処理後の音響学マイクで収集された音声信号を得る。
S600〜S630と上記の実施例のS200〜S230とはそれぞれに対応し、S600〜S630の詳細過程は上記の実施例のS200〜S230の関連説明を参照でき、ここで省略する。
S640:前記基本周波数情報により、音声の高周波数分布情報を決定する。
本ステップの詳細過程は上記の実施例のS320の関連説明を参照でき、ここで省略する。
S650:前記高周波数分布情報により、前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームに対して、周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る。
「前記高周波数分布情報により、前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームに対して、周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る」の具体的な過程は以下ステップを含むことができる。
前記高周波数分布情報により、前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームのうち、周波数が前記高周波数であるものを、音声信号を含む周波数として決定し、周波数が前記高周波数でないものを、音声信号を含まない周波数として決定する。
S660:前記周波数単位の音声アクティビティ検出結果により、前記第1のノイズ軽減処
理後の音響学マイクで収集された音声信号に対して第2のノイズ軽減処理を行い、第2のノ
イズ軽減処理後の音響学マイクで収集された音声信号を得る。
本実施例では、まずフレーム単位の音声アクティビティ検出結果を用いて、音響学マイクで収集された音声信号に対して第1のノイズ軽減処理を行い、音響学マイクで収集され
た音声信号のノイズ成分を低減させた後、周波数単位の音声アクティビティ検出結果を用いて、第1のノイズ軽減処理後の音響学マイクで収集された音声信号に対して第2のノイズ軽減処理を行い、第1のノイズ軽減処理後の音響学マイクで収集された音声信号のノイズ
成分をさらに低減させ、第2のノイズ軽減処理後の音響学マイク音声信号の音声成分をよ
り顕在化させることができる。
本出願の別の実施例において、フレーム単位の音声アクティビティ検出と周波数単位の音声アクティビティ検出を合わせた実施形態に対応する別の音声ノイズ軽減方法を説明し、図8に示すように、以下ステップを含むことができる。
S700:音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する。
具体的には、非音響学マイクで収集された音声信号は有声音信号である。
S710:前記非音響学マイクで収集された音声信号の基本周波数情報を決定する。
S720:前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得る。
S730:前記フレーム単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対して第1のノイズ軽減処理を行い、第1のノイズ軽減処理後の音響学マイクで収集された音声信号を得る。
S700〜S730と上記の実施例のS200〜S230とはそれぞれに対応し、S700〜S730の詳細過程は上記の実施例のS700〜S730の関連説明を参照でき、ここで省略する。
S740:前記基本周波数情報により、音声の高周波数分布情報を決定する。
S750:前記高周波数分布情報により、前記音響学マイクで収集された音声信号に対して周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る。
S760:前記非音響学マイクで収集された有声音信号に含まれている各音声フレームの時点により、前記第1のノイズ軽減処理後の音響学マイクで収集された音声信号から同じ時
点の音声フレームを取得し、それを処理対象音声フレームとする。
S770:前記周波数単位の音声アクティビティ検出結果により、前記処理対象音声フレームの各周波数をゲインアップし、ゲインアップされた音声フレームを取得し、前記ゲインアップされた各音声フレームはゲインアップされた、音響学マイクで収集された有声音信号を構成する。
前記ゲインアップの過程は、周波数が前記高周波数であるものに第1ゲイン値をかけ、
周波数が前記高周波数でないものに第2ゲイン値をかけ、前記第1ゲイン値が前記第2ゲイ
ン値より大きいことを含んでもよい。
S770の詳細過程は上記の実施例のS450の詳細過程を参照でき、ここで省略する。
本実施例では、まずフレーム単位の音声アクティビティ検出結果を用いて、音響学マイクで収集された音声信号に対して第1のノイズ軽減処理を行い、前記音響学マイクで収集
された音声信号のノイズ成分を低減させた上で、周波数単位の音声アクティビティ検出結果を用いて、第1のノイズ軽減処理後の音響学マイクで収集された音声信号をゲインアッ
プし、第1のノイズ軽減処理後の音響学マイクで収集された音声信号のノイズ成分を低減
させ、ゲインアップされた音響学マイク音声信号の音声成分をより顕在化させることができる。
上記の実施例に基づき、フレーム単位の音声アクティビティ検出と周波数単位の音声アクティビティ検出を合わせ、本出願の別の実施例において、別の音声ノイズ軽減方法を説明し、図9に示すように、以下ステップを含むことができる。
S800:音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する。
具体的には、非音響学マイクで収集された音声信号は有声音信号である。
S810:前記非音響学マイクで収集された音声信号の基本周波数情報を決定する。
S820:前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得る。
S830:前記フレーム単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対して1次のノイズ軽減を行い、1次のノイズ軽減後の音響学マイクで収集された音声信号を得る。
S840:前記基本周波数情報により、音声の高周波数分布情報を決定する。
S850:前記高周波数分布情報により、前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームに対して、周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る。
S860:前記周波数単位の音声アクティビティ検出結果により、前記第1のノイズ軽減処
理後の音響学マイクで収集された音声信号に対して第2のノイズ軽減処理を行い、第2のノイズ軽減処理後の音響学マイクで収集された音声信号を得る。
S800〜S860の詳細過程は上記の実施例のS600〜S660の関連説明を参照でき、ここで省略する。
S870:前記非音響学マイクで収集された有声音信号に含まれている各音声フレームの時点により、前記第2のノイズ軽減処理後の音響学マイクで収集された音声信号から同じ時
点の音声フレームを取得し、それを処理対象音声フレームとする。
S880:前記周波数単位の音声アクティビティ検出結果により、前記処理対象音声フレームの各周波数をゲインアップし、ゲインアップされた音声フレームを取得し、前記ゲインアップされた各音声フレームはゲインアップされた、音響学マイクで収集された有声音信号を構成する。
そのうち、前記ゲインアップの過程は、周波数が前記高周波数であるものに第1ゲイン
値をかけ、周波数が前記高周波数でないものに第2ゲイン値をかけ、前記第1ゲインが前記第2ゲインより大きいことを含むことができる。
本ステップの詳細過程は上記の実施例のS450の詳細過程を参照でき、ここで省略する。
ゲインアップ過程はノイズ軽減過程ともみなすため、ゲインアップされた、音響学マイクで収集された有声音信号は、3次ノイズ軽減後の音響学マイクで収集された有声音信号
であると理解される。
本実施例では、まずフレーム単位の音声アクティビティ検出結果を用いて、音響学マイクで収集された音声信号に対して第1のノイズ軽減処理を行い、前記音響学マイクで収集
された音声信号のノイズ成分を低減させた上で、周波数単位の音声アクティビティ検出結果を用いて、第1のノイズ軽減処理後の音響学マイクで収集された音声信号に対して第2のノイズ軽減処理を行い、第1のノイズ軽減処理後の音響学マイクで収集された音声信号の
ノイズ成分を低減させた上で、第2のノイズ軽減処理後の音響学マイクで収集された音声
信号をゲインアップし、第2のノイズ軽減処理後の音響学マイクで収集された音声信号の
ノイズ成分を低減させ、ゲインアップされた音響学マイク音声信号の音声成分をより顕在化させることができる。
上記の各実施例の内容に基づき、本出願の別の実施例において、別の音声ノイズ軽減方法が新しく拡張され、図10に示すように、以下ステップを含むことができる。
S900:音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する。
具体的には、非音響学マイクで収集された音声信号は有声音信号である。
S910:前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得る。
S920:前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズが軽減された有声音信号を得る。
S900〜S920の詳細過程は上記の各実施例の関連ステップの説明を参照でき、ここで省略する。
S930:ノイズ軽減後の有声音信号を無声音予測モデルに入力し、前記無声音予測モデルから出力された無声音信号を得る。
前記無声音予測モデルは無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録している訓練音声信号を予め用いて訓練されたものである。
一般的に、音声には同時に有声音信号及び無声音信号が含まれるため、ノイズ軽減後の有声音信号が得られた後、音声の無声音信号を予測しなければならない。具体的に、無声音信号の予測には、無声音予測モデルを使用することができる。
前記無声音予測モデルはDNN(Deep Neural Network、ディープニューラルネットワーク)モデルであってもよく、これに限らない。
前記無声音予測モデルは無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録している訓練音声信号を予め用いて無声音予測モデルを訓練し、訓練された無声音予測モデルが無声音信号を正確的に予測できることを保証することが理解される。
S940:前記無声音信号及び前記ノイズ軽減後の有声音信号を組合せ、組み合わせた音声信号を得る。
前記無声音信号及び前記ノイズ軽減後の有声音信号を組み合わせる過程は既存の音声信号組み合せ過程を参照でき、前記無声音信号及び前記ノイズ軽減後の有声音信号を組み合わせる詳細な過程をここで省略する。
組み合わせた音声信号は、無声音信号及びノイズ軽減後の有声音信号の両方を含む完全な音声信号と理解される。
本出願の別の実施例において、前記無声音予測モデルの訓練過程を説明し、具体的に以下ステップを含むことができる。
D1:訓練音声信号を取得する。
訓練の精度を保証するため、訓練音声信号には無声音信号及び有声音信号が含まれなければならない。
D2:前記訓練音声信号における無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録する。
D3:無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録している訓練音声信号を用いて、無声音予測モデルを訓練する。
訓練された無声音予測モデルは上記の実施例のS930で使用される無声音予測モデルである。
本出願の別の実施例において、取得される上記の訓練音声信号を説明し、具体的に以下を含む。
予め設定された訓練条件を満たす音声信号を選択する。
前記予め設定された訓練条件は、
音声信号におけるすべての異なる要因の出現回数の分布は設定される分布条件を満たすこと、
及び/又は、音声信号に含まれる異なる要因の組み合せ方式の種類は設定される組み合せ
方式の種類要求を満たすことを含んでもよい。
好ましくは、設定される分布条件は均一分布であってもよい。
もちろん、設定される分布条件は大半の要因の出現回数が均一な分布であり、個別又は少数の要因の出現回数が非均一な分布であってもよい。
好ましくは、設定される組み合わせ方式の種類要求はすべての組み合せ方式の種類を含むことであってもよい。
もちろん、設定される組み合わせ方式の種類要求は予め設定された個数の組み合わせ方式の種類を含むことであってもよい。
音声信号におけるすべての異なる要因の出現回数の分布は設定される分布条件を満たすことは、選択された、予め設定された訓練条件を満たす音声信号におけるすべての異なる要因の出現回数の分布はできるだけ均一分布であることを保証することができ、音声信号に含まれている異なる要因の組み合わせ方式の種類は設定される組み合わせ方式の種類要求を満たすことは、選択された、予め設定された訓練条件を満たす音声信号における異なる要因の間の組み合わせ方式はできるだけ豊富で全面的であることを保証することができる。
予め設定された訓練条件を満たす音声信号を選択することで、訓練精度の要求を満たすとともに、訓練音声信号の数据量を低減させ、さらに訓練効率を高めることができる。
上記の各実施例で説明された内容に基づいて、前記音響学マイクは、音響学マイク・アレイを含む場合、本出願の別の実施例において、新しく拡張される他の音声ノイズ軽減方法として、当該音声ノイズ軽減方法はさらに以下ステップを含むことができる。
S1:前記音響学マイク・アレイで収集された音声信号により、発話者の方位区間を決定する。
S2:前記非音響学マイクで収集された音声信号と前記音響学マイクで同期的に収集された音声信号において、同じ時点に対応する音声フレームに音声信号が含まれるか否かを検出し、検出結果を得る。
検出結果としては、前記非音響学マイクで収集された音声信号と前記音響学マイクで同期的に収集された音声信号において、同じ時点に対応する音声フレームにはいずれも音声信号が含まれること、又はいずれも音声信号が含まれないことが挙げられる。
S3:前記検出結果により、前記対象発話者の方位区間から前記対象発話者の方位を決定する。
S2の前記非音響学マイクで収集された音声信号と前記音響学マイクで同期的に収集された音声信号において、同じ時点に対応する音声フレームにはいずれも音声信号が含まれるか、いずれも音声信号が含まれないという検出結果により、同じ時点に対応する音声フレームにはいずれも音声信号が含まれること、又は音声信号が含まれないことを判別し、音響学マイクで収集された音声信号及び非音響学マイクで収集された音声信号は同一の発話者からのものであることを決定することで、さらに非音響学マイクで収集された音声信号により、前記対象発話者の方位区間から前記対象発話者の方位を決定する。
複数の人が同時に話す場合、音響学マイク・アレイで収集された音声信号だけで、ある特定の対象発話者的方位を決定することは困難であるが、非音響学マイクで収集された音声信号によって発話者の方位を決定するのを補助できると理解される。具体的に本実施例のS1〜S3によって実現される。
以下、本発明の実施例に係る音声ノイズ軽減装置を説明する。下文に述べられている音声ノイズ軽減装置は、本発明の実施例に係る音声ノイズ軽減方法を実現するため、サーバーに配置されるプログラムモジュールであると考えられる。下文に述べられている音声ノイズ軽減装置の内容は、上文に述べられている音声ノイズ軽減方法の内容と互いに対応して参照することができる。
図11は本発明の実施例に係る音声ノイズ軽減装置の論理構造を示す図であり、当該装置はサーバーに応用されることができ、図11に示すように、当該音声ノイズ軽減装置は、
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する音声信号取得モジュール11と、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得る音声アクティビティ検出モジュール12と、
前記音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズが軽減された音声信号を得る音声ノイズ軽減モジュール13とを含むことができる。
本実施例において、前記音声アクティビティ検出モジュール12は、
前記非音響学マイクで収集された音声信号の基本周波数情報を決定する基本周波数情報決定モジュールと、
前記基本周波数情報を用いて音声アクティビティ検出を行い、音声アクティビティ検出結果を得る音声アクティビティ検出サブモジュールとを含む。
本実施例において、前記音声アクティビティ検出サブモジュールは、
前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得るフレーム単位の音声アクティビティ検出モジュールを含むことができる。
それに対応し、前記音声ノイズ軽減モジュールは、
前記フレーム単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対して1次ノイズ軽減を行い、1次ノイズ軽減後の音響学マイクで収集された音声信号を得る1次ノイズ軽減モジュールを含むことができる。
本実施例において、上述の音声ノイズ軽減装置は、
前記基本周波数情報により、音声の高周波数分布情報を決定する高周波数分布情報決定モジュールと、
前記高周波数分布情報により、前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームに対して、周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る周波数単位の音声アクティビティ検出モジュールとをさらに含むことができる。
それに対応し、前記音声ノイズ軽減モジュールは、
前記周波数単位の音声アクティビティ検出結果により、前記1次ノイズ軽減後の音響学
マイクで収集された音声信号に対して2次ノイズ軽減を行い、2次ノイズ軽減後の音響学マイクで収集された音声信号を得る2次ノイズ軽減モジュールをさらに含むことができる。
本実施例において、前記フレーム単位の音声アクティビティ検出モジュールは、
前記基本周波数情報がゼロであるか否かを検出する基本周波数情報検出モジュールを含み、
前記基本周波数情報がゼロでなければ、前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれることを決定し、
前記基本周波数情報がゼロであれば、前記音響学マイクで収集された音声信号の信号強度を検出し、検出された前記音響学マイクで収集された音声信号の信号強度が低ければ、前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれないことを決定する。
本実施例において、前記高周波数分布情報を決定するモジュールは、
前記基本周波数情報に倍数をかけ、倍数乗算した基本周波数情報を得る倍数乗算モジュールと、
予め決められた周波数拡張値により、前記倍数乗算した基本周波数情報を拡張し、音声の高周波数分布区間を取得し、それを前記音声の高周波数分布情報とする基本周波数情報拡張モジュールとを含むことができる。
本実施例において、前記周波数単位の音声アクティビティ検出モジュールは、
前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームのうち、周波数が前記高周波数であるものを、音声信号を含む周波数として決定し、周波数が前記高周波数でないものを、音声信号を含まない周波数として決定する周波数単位の音声アクティビティ検出サブモジュールを含むことができる。
本実施例において、前記非音響学マイクで収集された音声信号は有声音信号であってもよい。
前記非音響学マイクで収集された音声信号を有声音信号とする実施形態に基づき、前記音声ノイズ軽減モジュールは、
前記有声音信号に含まれる各音声フレームの時点により、前記2次ノイズ軽減後の音響
学マイクで収集された音声信号から同じ時点の音声フレームを取得し、それを処理対象音声フレームとする音声フレーム取得モジュールと、
前記処理対象音声フレームの各周波数をゲインアップし、ゲインアップされた音声フレームを取得し、前記ゲインアップされた各音声フレームは3次ノイズ軽減後の音響学マイ
クで収集された有声音信号を構成するゲインアップモジュールとをさらに含むことができる。
そのうち、ゲインアップ処理は、周波数が前記高周波数であるものに第1ゲイン値をか
け、周波数が前記高周波数でないものに第2ゲイン値をかけ、前記第1ゲイン値が前記第2
ゲイン値より大きいことを含むことができる。
上述の音声ノイズ軽減装置に基づき、前記ノイズ軽減後の音声信号はノイズ軽減後の有声音信号であってもよく、これを踏まえて、音声ノイズ軽減装置は、
前記ノイズ軽減後の有声音信号を無声音予測モデルに入力し、前記無声音予測モデルから出力された無声音信号を取得し、前記無声音予測モデルは無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録している訓練音声信号を予め用いて訓練されたものである無声音信号予測モジュールと、
前記無声音信号及び前記ノイズ軽減後の有声音信号を組み合せ、組み合わせた音声信号を得る音声信号組合モジュールとをさらに含むことができる。
本実施例において、上述の音声ノイズ軽減装置は、
訓練音声信号を取得し、前記訓練音声信号における無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録し、無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録している訓練音声信号を用いて、無声音予測モデルを訓練する無声音予測モデル訓練モジュールをさらに含むことができる。
無声音予測モデル訓練モジュールは、
予め設定された訓練条件を満たす音声信号を選択する訓練音声信号取得モジュールを含むことができ、前記予め設定された訓練条件は、
音声信号におけるすべての異なる要因の出現回数の分布は設定される分布条件を満たすこと、及び/又は
音声信号に含まれる異なる要因の組み合せ方式の種類は設定される組み合せ方式の種類要求を満たすことを含む。
前述の音声ノイズ軽減装置に基づき、前記音響学マイクは、音響学マイク・アレイを含む場合に、当該音声ノイズ軽減装置は、
前記音響学マイク・アレイで収集された音声信号により、発話者の方位区間を決定し、また前記非音響学マイクで収集された音声信号と前記音響学マイクで同期的に収集された音声信号において、同じ時点に対応する音声フレームには音声信号が含まれるか否かを検出し、検出結果を取得し、また前記検出結果により、前記対象発話者の方位区間から前記対象発話者の方位を決定する発話者方位決定モジュールをさらに含むことができる。
本発明の実施例に係る音声ノイズ軽減装置はサーバー(例えば、通信サーバー)に応用されることができる。選択肢として、図12はサーバーのハードウェア構造ブロック図を示し、図12に示すように、サーバーのハードウェア構造は、少なくとも1つのプロセッサー1、少なくとも1つの通信インターフェース2、少なくとも1つのメモリ3及び少なくとも1つ
の通信バス4を含むことができる。
本発明の実施例において、プロセッサー1、通信インターフェース2、メモリ3、通信バ
ス4の数は少なくとも1つ、且つプロセッサー1、通信インターフェース2、メモリ3は通信
バス4を介して相互通信を行う。
プロセッサー1は、CPU、又は特定のASIC(Application Specific Integrated Circuit
)、又は本発明の実施例を実施するための1つ又は複数の集積回路などであってもよい。
メモリ3は高速RAMを含むことができ、さらに少なくとも1つの磁気ディスク装置など、
不揮発性メモリ(non-volatile memory)などを含むこともできる。
そのうち、メモリにはプログラムが格納され、プロセッサーはメモリに格納されているプログラムを呼び出すことができ、前記プログラムは、
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得することと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることとを実行する。
選択肢として、前記プログラムの細分化機能及び拡張機能は上文の説明を参照することができる。
本発明の実施例ではさらに記憶媒体を提供し、当該記憶媒体はプロセッサー実行に適するプログラムを格納することができ、前記プログラムは、
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得することと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることとを実行する。
選択肢として、前記プログラムの細分化機能及び拡張機能は上文の説明を参照することができる。
説明すべき点については、本明細書の各実施例はプログレッシブな方式で記載され、各実施例はその他の実施形態との相違点について重点を置いて記載され、各実施例の間の同じまたは類似の部分は互いに参照してよい。装置に関する実施例は、方法に関する実施例とほぼ類似であるため、簡単に記載され、関連する部分について方法に関する実施例の説明を参照してよい。
最後、説明すべき点については、本明細書で、「第1」及び「第2」のような関係用語は1つの実体或いは操作を、別の実体或いは操作から区別するために使用され、これらの実
体或いは操作の間に何らかの実際の関係又は順序が存在することを必ずしも要求又は示唆するものではない。さらに、用語「含む」、「含み」又はそれらのあらゆる変形は、要素のリストを含む過程、方法、物品及び装置がそれらの要素に限らないが、そのような過程、方法、物品及び装置に明確に記載されていない他の要素、又はそのような過程、方法、物品及び装置に固有の他の要素を含み得るように、非排他的な包含をカバーすることを意図している。「1つの…を含む」という文言によって限定される要素は、それ以上の制限
がない限り、前記要素を含む過程、方法、物品又は装置に同様の要素が他にも存在することは排除されない。
以上の装置は、説明の便宜上、機能を様々なユニットに分けて説明する。もちろん、本出願を実施する時に、各ユニットの機能を同一又は複数のソフトウェア及び/又はハード
ウェアにおいて実現することができる。
以上の実施形態の説明から分かるように、当業者は、本出願がソフトウェアに必要な汎用ハードウェアプラットフォームを加えた方式で実現され得ることを明確に理解することができる。このような理解に基づいて、本出願の技術案は本質的に、又は現有技術に貢献する部分はソフトウェア製品の形式で具現化することができ、当該コンピューターソフトウェア製品は、ROM/RAM、磁気ディスク、光ディスクなどの記憶媒体に格納されることが
でき、1台のコンピューター装置(パソコン、サーバ、又はネットワーク機器などであっ
てもよい)に本明細書の各実施例または実施例の一部に記載の方法を実行させるためのいくつかの命令を含む。
本出願で提供される音声ノイズ軽減方法、装置、サーバー及び記憶媒体の詳細については、本出願の原理及び実施形態を具体的な例で説明したように、本明細書において記載されているが、以上の実施例に対する説明は、本出願の方法及びその肝心となる思想の理解を助けるための目的であり、また、当業者にとっては、本出願のアイデアに基づいて具体的な実施形態及び応用範囲を変更することができる。以上のことから、本明細書の内容は本出願への制限と理解すべきではない。

Claims (20)

  1. 音声ノイズ軽減方法であって、
    音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得することと、
    前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
    前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることと、
    を含むことを特徴とする、方法。
  2. 前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、
    音声アクティビティ検出結果を得ることは、
    前記非音響学マイクで収集された音声信号の基本周波数情報を決定することと、
    前記基本周波数情報を用いて音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
    を含むことを特徴とする請求項1に記載の方法。
  3. 前記基本周波数情報を用いて音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることは、
    前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得ることを含み、
    前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることは、
    前記フレーム単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対して1次ノイズ軽減を行い、1次ノイズ軽減後の音響学マイクで収集された音声信号を得ることを含む、
    ことを特徴とする請求項2に記載の方法。
  4. 前記基本周波数情報を用いて音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることは、
    前記基本周波数情報により、音声の高周波数分布情報を決定することと、
    前記高周波数分布情報により、前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームに対して、周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得ることとを含み、
    前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることは、
    前記周波数単位の音声アクティビティ検出結果により、前記1次ノイズ軽減後の音響学
    マイクで収集された音声信号に対して2次ノイズ軽減を行い、2次ノイズ軽減後の音響学マイクで収集された音声信号を得ることをさらに含む、
    ことを特徴とする請求項3に記載の方法。
  5. 前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得ることは、
    前記基本周波数情報がゼロであるか否かを検出することを含み、
    前記基本周波数情報がゼロでなければ、前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれることを決定し、
    前記基本周波数情報がゼロであれば、前記音響学マイクで収集された音声信号の信号強
    度を検出し、検出された前記音響学マイクで収集された音声信号の信号強度が低ければ、前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれないことを決定する、
    ことを特徴とする請求項3に記載の方法。
  6. 前記基本周波数情報により、音声の高周波数分布情報を決定することは、
    前記基本周波数情報に倍数をかけ、倍数乗算した基本周波数情報を得ることと、
    予め決められた周波数拡張値に従って、前記倍数乗算した基本周波数情報を拡張し、音声の高周波数分布区間を取得し、それを音声の高周波数分布情報とすることとを含む、
    ことを特徴とする請求項4に記載の方法。
  7. 前記高周波数分布情報により、前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームに対して周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得ることは、
    前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームのうち、周波数が高周波数であるものを、音声信号を含む周波数として決定し、周波数が高周波数でないものを、音声信号を含まない周波数として決定することを含む、
    ことを特徴とする請求項4に記載の方法。
  8. 前記非音響学マイクで収集された音声信号は有声音信号であり、
    前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることは、
    前記有声音信号に含まれる各音声フレームの時点により、前記2次ノイズ軽減後の音響
    学マイクで収集された音声信号から同じ時点の音声フレームを取得し、それを処理対象音声フレームとすることと、
    前記処理対象音声フレームの各周波数をゲインアップ処理し、ゲインアップされた音声フレームを取得し、前記ゲインアップされた各音声フレームは3次ノイズ軽減後の音響学
    マイクで収集された有声音信号を構成することとをさらに含み、
    そのうち、ゲインアップ処理は、周波数が高周波数であるものに第1ゲイン値をかけ、
    周波数が高周波数でないものに第2ゲイン値をかけ、前記第1ゲイン値が前記第2ゲイン値
    より大きいことを含む、
    ことを特徴とする請求項4に記載の方法。
  9. 前記ノイズ軽減後の音声信号はノイズ軽減後の有声音信号であり、当該方法は、
    前記ノイズ軽減後の有声音信号を無声音予測モデルに入力し、前記無声音予測モデルから出力された無声音信号を取得し、前記無声音予測モデルは無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録している訓練音声信号を予め用いて訓練されたものであることと、
    前記無声音信号及び前記ノイズ軽減後の有声音信号を組み合せ、組み合わせた音声信号を得ることとをさらに含む、
    ことを特徴とする請求項1ないし8のいずれかの1項に記載の方法。
  10. 音声ノイズ軽減装置であって、
    音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する音声信号取得モジュールと、
    前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得る音声アクティビティ検出モジュールと、
    前記音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対
    してノイズ軽減を行い、ノイズ軽減後の音声信号を得る音声ノイズ軽減モジュールとを含む、
    ことを特徴とする装置。
  11. 前記音声アクティビティ検出モジュールは、
    前記非音響学マイクで収集された音声信号の基本周波数情報を決定する基本周波数情報決定モジュールと、
    前記基本周波数情報を用いて音声アクティビティ検出を行い、音声アクティビティ検出結果を得る音声アクティビティ検出サブモジュールとを含む、
    ことを特徴とする請求項10に記載の装置。
  12. 前記音声アクティビティ検出サブモジュールは、
    前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得るフレーム単位の音声アクティビティ検出モジュールを含み、
    前記音声ノイズ軽減モジュールは、
    前記フレーム単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対して1次ノイズ軽減を行い、1次ノイズ軽減後の音響学マイクで収集された音声信号を得る1次ノイズ軽減モジュールを含む、
    ことを特徴とする請求項11に記載の装置。
  13. 前記装置は、
    前記基本周波数情報により、音声の高周波数分布情報を決定する高周波数分布情報決定モジュールと、
    前記高周波数分布情報により、前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームに対して、周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る周波数単位の音声アクティビティ検出モジュールとをさらに含み、
    前記音声ノイズ軽減モジュールは、
    前記周波数単位の音声アクティビティ検出結果により、前記1次ノイズ軽減後の音響学
    マイクで収集された音声信号に対して2次ノイズ軽減を行い、2次ノイズ軽減後の音響学マイクで収集された音声信号を得る2次ノイズ軽減モジュールをさらに含む、
    ことを特徴とする請求項12に記載の装置。
  14. 前記フレーム単位の音声アクティビティ検出モジュールは、
    前記基本周波数情報がゼロであるか否かを検出する基本周波数情報検出モジュールを含み、
    前記基本周波数情報がゼロでなければ、前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれることを決定し、
    前記基本周波数情報がゼロであれば、前記音響学マイクで収集された音声信号の信号強度を検出し、検出された前記音響学マイクで収集された音声信号の信号強度が低ければ、前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれないことを決定する、
    ことを特徴とする請求項12に記載の装置。
  15. 前記高周波数分布情報決定モジュールは、
    前記基本周波数情報に倍数をかけ、倍数乗算した基本周波数情報を得る倍数乗算モジュールと、
    予め決められた周波数拡張値により、前記倍数乗算した基本周波数情報を拡張し、音声の高周波数分布区間を取得し、それを前記音声の高周波数分布情報とする基本周波数情報
    拡張モジュールとを含む、
    ことを特徴とする請求項13に記載の装置。
  16. 前記周波数単位の音声アクティビティ検出モジュールは、
    前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームのうち、周波数が高周波数であるものを、音声信号を含む周波数として決定し、周波数が高周波数でないものを、音声信号を含まない周波数として決定する周波数単位の音声アクティビティ検出サブモジュールを含む、
    ことを特徴とする請求項13に記載の装置。
  17. 前記非音響学マイクで収集された音声信号は有声音信号であり、
    前記音声ノイズ軽減モジュールは、
    前記有声音信号に含まれる各音声フレームの時点により、前記2次ノイズ軽減後の音響
    学マイクで収集された音声信号から同じ時点の音声フレームを取得し、それを処理対象音声フレームとする音声フレーム取得モジュールと、
    前記処理対象音声フレームの各周波数をゲインアップし、ゲインアップされた音声フレームを取得し、前記ゲインアップされた各音声フレームは3次ノイズ軽減後の音響学マイ
    クで収集された有声音信号を構成するゲインアップモジュールとをさらに含み、
    そのうち、ゲインアップ処理は、周波数が高周波数であるものに第1ゲイン値をかけ、
    周波数が高周波数でないものに第2ゲイン値をかけ、前記第1ゲイン値が前記第2ゲイン値
    より大きい、
    ことを含むことを特徴とする請求項13に記載の装置。
  18. 前記ノイズ軽減後の音声信号はノイズ軽減後の有声音信号であり、該装置は、
    前記ノイズ軽減後の有声音信号を無声音予測モデルに入力し、前記無声音予測モデルから出力された無声音信号を取得し、前記無声音予測モデルは無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録している訓練音声信号を予め用いて訓練されたものである無声音信号予測モジュールと、
    前記無声音信号及び前記ノイズ軽減後の有声音信号を組み合せ、組み合わせた音声信号を得る音声信号組合モジュールとをさらに含む、
    ことを特徴とする請求項10ないし17のいずれかの1項に記載の装置。
  19. サーバーであって、プログラムを格納する少なくとも1つのメモリと、前記メモリに格
    納されているプログラムを呼び出す少なくとも1つのプロセッサーとを含み、前記プログ
    ラムは、
    音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得することと、
    前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
    前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることと、
    を実行することを特徴とするサーバ。
  20. コンピュータープログラムを格納する記憶媒体であって、前記コンピュータープログラムはプロセッサーによって実行される時、請求項1ないし9のいずれかの1項に記載の音声
    ノイズ軽減方法の各ステップを実現することを特徴とする記憶媒体。
JP2020528147A 2017-12-28 2018-06-15 音声ノイズ軽減方法、装置、サーバー及び記憶媒体 Active JP7109542B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201711458315.0 2017-12-28
CN201711458315.0A CN107910011B (zh) 2017-12-28 2017-12-28 一种语音降噪方法、装置、服务器及存储介质
PCT/CN2018/091459 WO2019128140A1 (zh) 2017-12-28 2018-06-15 一种语音降噪方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
JP2021503633A true JP2021503633A (ja) 2021-02-12
JP7109542B2 JP7109542B2 (ja) 2022-07-29

Family

ID=61871821

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020528147A Active JP7109542B2 (ja) 2017-12-28 2018-06-15 音声ノイズ軽減方法、装置、サーバー及び記憶媒体

Country Status (7)

Country Link
US (1) US11064296B2 (ja)
EP (1) EP3734599B1 (ja)
JP (1) JP7109542B2 (ja)
KR (1) KR102456125B1 (ja)
CN (1) CN107910011B (ja)
ES (1) ES2960555T3 (ja)
WO (1) WO2019128140A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023171124A1 (ja) * 2022-03-07 2023-09-14 ソニーグループ株式会社 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107910011B (zh) * 2017-12-28 2021-05-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
CN108766454A (zh) * 2018-06-28 2018-11-06 浙江飞歌电子科技有限公司 一种语音噪声抑制方法及装置
CN109346073A (zh) * 2018-09-30 2019-02-15 联想(北京)有限公司 一种信息处理方法及电子设备
CN109584894A (zh) * 2018-12-20 2019-04-05 西京学院 一种基于雷达语音与麦克风语音相融合的语音增强方法
CN110074759B (zh) * 2019-04-23 2023-06-06 平安科技(深圳)有限公司 语音数据辅助诊断方法、装置、计算机设备及存储介质
CN110782912A (zh) * 2019-10-10 2020-02-11 安克创新科技股份有限公司 音源的控制方法以及扬声设备
CN111341304A (zh) * 2020-02-28 2020-06-26 广州国音智能科技有限公司 一种基于gan的说话人语音特征训练方法、装置和设备
CN111681659A (zh) * 2020-06-08 2020-09-18 北京高因科技有限公司 一种应用于便携式设备的自动语音识别系统及其工作方法
CN111916101B (zh) * 2020-08-06 2022-01-21 大象声科(深圳)科技有限公司 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统
CN113115190B (zh) * 2021-03-31 2023-01-24 歌尔股份有限公司 音频信号处理方法、装置、设备及存储介质
CN113241089B (zh) * 2021-04-16 2024-02-23 维沃移动通信有限公司 语音信号增强方法、装置及电子设备
CN113470676A (zh) * 2021-06-30 2021-10-01 北京小米移动软件有限公司 声音处理方法、装置、电子设备和存储介质
CN113724694B (zh) * 2021-11-01 2022-03-08 深圳市北科瑞声科技股份有限公司 语音转换模型训练方法、装置、电子设备及存储介质
CN116110422B (zh) * 2023-04-13 2023-07-04 南京熊大巨幕智能科技有限公司 全向级联麦克风阵列降噪方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03241400A (ja) * 1990-02-20 1991-10-28 Fujitsu Ltd 音声検出器
JPH03274098A (ja) * 1990-03-23 1991-12-05 Ricoh Co Ltd 雑音除去方式
JP2002537585A (ja) * 1999-02-19 2002-11-05 ザ リージェンツ オブ ザ ユニヴァーシティ オブ カリフォルニア 音声およびアコースティック信号の有声音化励起を特徴付けて、音声からアコースティック・ノイズを除去し、音声を合成するシステムおよび方法

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07101853B2 (ja) * 1991-01-30 1995-11-01 長野日本無線株式会社 雑音低減方法
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US20070233479A1 (en) * 2002-05-30 2007-10-04 Burnett Gregory C Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US7246058B2 (en) * 2001-05-30 2007-07-17 Aliph, Inc. Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US8019091B2 (en) * 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
KR20040096662A (ko) * 2002-03-05 2004-11-16 앨리프컴 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께이용하기 위한 방법
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7499686B2 (en) * 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7574008B2 (en) * 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US8503686B2 (en) * 2007-05-25 2013-08-06 Aliphcom Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
US8488803B2 (en) * 2007-05-25 2013-07-16 Aliphcom Wind suppression/replacement component for use with electronic systems
EP2151821B1 (en) 2008-08-07 2011-12-14 Nuance Communications, Inc. Noise-reduction processing of speech signals
US9418675B2 (en) * 2010-10-04 2016-08-16 LI Creative Technologies, Inc. Wearable communication system with noise cancellation
EP2555189B1 (en) 2010-11-25 2016-10-12 Goertek Inc. Method and device for speech enhancement, and communication headphones with noise reduction
US10230346B2 (en) * 2011-01-10 2019-03-12 Zhinian Jing Acoustic voice activity detection
US8949118B2 (en) * 2012-03-19 2015-02-03 Vocalzoom Systems Ltd. System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise
FR2992459B1 (fr) * 2012-06-26 2014-08-15 Parrot Procede de debruitage d'un signal acoustique pour un dispositif audio multi-microphone operant dans un milieu bruite.
US9094749B2 (en) * 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
US20140126743A1 (en) * 2012-11-05 2014-05-08 Aliphcom, Inc. Acoustic voice activity detection (avad) for electronic systems
CN103208291A (zh) * 2013-03-08 2013-07-17 华南理工大学 一种可用于强噪声环境的语音增强方法及装置
CN203165457U (zh) 2013-03-08 2013-08-28 华南理工大学 一种可用于强噪声环境的语音采集装置
US9532131B2 (en) * 2014-02-21 2016-12-27 Apple Inc. System and method of improving voice quality in a wireless headset with untethered earbuds of a mobile device
CN104091592B (zh) * 2014-07-02 2017-11-14 常州工学院 一种基于隐高斯随机场的语音转换系统
US9311928B1 (en) * 2014-11-06 2016-04-12 Vocalzoom Systems Ltd. Method and system for noise reduction and speech enhancement
WO2017017569A1 (en) * 2015-07-26 2017-02-02 Vocalzoom Systems Ltd. Enhanced automatic speech recognition
EP3157266B1 (en) 2015-10-16 2019-02-27 Nxp B.V. Controller for a haptic feedback element
CN105940445B (zh) * 2016-02-04 2018-06-12 曾新晓 一种语音通信系统及其方法
CN106101351A (zh) 2016-07-26 2016-11-09 哈尔滨理工大学 一种用于移动终端的多mic降噪方法
CN106686494A (zh) * 2016-12-27 2017-05-17 广东小天才科技有限公司 一种可穿戴设备的语音输入控制方法及可穿戴设备
CN106952653B (zh) * 2017-03-15 2021-05-04 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
CN107093429B (zh) * 2017-05-08 2020-07-10 科大讯飞股份有限公司 主动降噪方法、系统及汽车
CN107910011B (zh) * 2017-12-28 2021-05-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03241400A (ja) * 1990-02-20 1991-10-28 Fujitsu Ltd 音声検出器
JPH03274098A (ja) * 1990-03-23 1991-12-05 Ricoh Co Ltd 雑音除去方式
JP2002537585A (ja) * 1999-02-19 2002-11-05 ザ リージェンツ オブ ザ ユニヴァーシティ オブ カリフォルニア 音声およびアコースティック信号の有声音化励起を特徴付けて、音声からアコースティック・ノイズを除去し、音声を合成するシステムおよび方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023171124A1 (ja) * 2022-03-07 2023-09-14 ソニーグループ株式会社 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム

Also Published As

Publication number Publication date
KR20200074199A (ko) 2020-06-24
EP3734599B1 (en) 2023-07-26
JP7109542B2 (ja) 2022-07-29
CN107910011A (zh) 2018-04-13
EP3734599A4 (en) 2021-09-01
ES2960555T3 (es) 2024-03-05
WO2019128140A1 (zh) 2019-07-04
EP3734599A1 (en) 2020-11-04
CN107910011B (zh) 2021-05-04
US11064296B2 (en) 2021-07-13
KR102456125B1 (ko) 2022-10-17
US20200389728A1 (en) 2020-12-10
EP3734599C0 (en) 2023-07-26

Similar Documents

Publication Publication Date Title
JP2021503633A (ja) 音声ノイズ軽減方法、装置、サーバー及び記憶媒体
US11289087B2 (en) Context-based device arbitration
US11823679B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
US11138977B1 (en) Determining device groups
US20210035563A1 (en) Per-epoch data augmentation for training acoustic models
US10504539B2 (en) Voice activity detection systems and methods
US9830924B1 (en) Matching output volume to a command volume
JP6279181B2 (ja) 音響信号強調装置
US11380326B2 (en) Method and apparatus for performing speech recognition with wake on voice (WoV)
JP5649488B2 (ja) 音声判別装置、音声判別方法および音声判別プログラム
JP2017506767A (ja) 話者辞書に基づく発話モデル化のためのシステムおよび方法
JP2004347761A (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
JP2020115206A (ja) システム及び方法
US20190180758A1 (en) Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium for storing program
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
US11290802B1 (en) Voice detection using hearable devices
US11521635B1 (en) Systems and methods for noise cancellation
WO2019207912A1 (ja) 情報処理装置及び情報処理方法
JP6794887B2 (ja) 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
US11727926B1 (en) Systems and methods for noise reduction
JP2022544065A (ja) 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置
JP2017009657A (ja) 音声強調装置、および音声強調方法
JP6559576B2 (ja) 雑音抑圧装置、雑音抑圧方法及びプログラム
KR20220044530A (ko) 음향 장치 및 그 동작 방법
WO2017154279A1 (ja) 音声処理装置および音声処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210825

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220511

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220516

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220602

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220719

R150 Certificate of patent or registration of utility model

Ref document number: 7109542

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150