JP2021503633A

JP2021503633A - 音声ノイズ軽減方法、装置、サーバー及び記憶媒体

Info

Publication number: JP2021503633A
Application number: JP2020528147A
Authority: JP
Inventors: ワン，ハイクン; マー，フォン; ワン，チグォ
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2017-12-28
Filing date: 2018-06-15
Publication date: 2021-02-12
Anticipated expiration: 2038-06-15
Also published as: KR20200074199A; EP3734599B1; JP7109542B2; CN107910011A; EP3734599A4; ES2960555T3; WO2019128140A1; EP3734599A1; CN107910011B; US11064296B2; KR102456125B1; US20200389728A1; EP3734599C0

Abstract

本出願は、音声ノイズ軽減方法、装置、サーバー及び記憶媒体を提供し、音声ノイズ軽減方法は、音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得すること（S100）と、非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得ること（S110）と、音声アクティビティ検出結果により、音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ること（S120）とを含む。本出願において、上記の方式によりノイズ軽減の効果を高め、音声信号の品質を向上させることができる。

Description

本出願は、2017年12月28日に中国特許局へ提出した出願番号201711458315.0、発明名称「音声ノイズ軽減方法、装置、サーバー及び記憶媒体」である中国特許出願の優先権を主張し、そのすべての内容はここで参照として本出願に引用される。

音声技術の急速な発展に伴い、日常生活や仕事の多くの分野で幅広く使用され、人々の生活や仕事に大きな利便性を提供している。

しかしながら、音声技術の応用において、一般的にノイズの干渉などの要因により音声信号の品質は低下し、音声信号の品質低下は音声信号の応用（例えば、音声識別、音声再生など）に直接影響を与える。したがって、音声信号の品質向上は早急な解決が必要とされている課題である。

上記の課題を解決するために、本出願の実施例は、音声信号の品質を向上させるという目的を達成するための音声ノイズ軽減方法、装置、サーバー及び記憶媒体を提供し、技術案は以下の通りである。

音声ノイズ軽減方法であり、
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得することと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることとを含む。

音声ノイズ軽減装置であり、
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する音声信号取得モジュールと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得る音声アクティビティ検出モジュールと、
前記音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得る音声ノイズ軽減モジュールとを含む。

サーバーであり、プログラムを格納する少なくとも1つのメモリと、前記メモリに格納
されているプログラムを呼び出す少なくとも1つのプロセッサーとを含み、
前記プログラムは、
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得することと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることとを実行する。

コンピュータープログラムを格納する記憶媒体であり、前記コンピュータープログラム
はプロセッサーによって実行される時、上記の音声ノイズ軽減方法の各ステップを実現することを特徴とする。

従来技術と比べ、本出願の好適な効果は以下の通りである。

本出願において、音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得し、そのうち、非音響学マイクは環境ノイズと無関係の方式（例えば、人の皮膚や咽喉の振動を検出するなど）で音声信号を収集することができ、このもとで、非音響学マイクで収集された音声信号により音声アクティビティ検出を行うことは、音響学マイクで収集された音声信号により音声アクティビティ検出を行うことを比較して、環境ノイズの影響を低減させ、検出の精度を高めることで、非音響学マイクで収集された音声信号により得られた音声アクティビティ検出結果により、音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減の効果を高め、ノイズ軽減後の音声信号の品質を向上させるため、後続の音声信号の応用に高品質の音声信号を提供することができる。

本出願の実施例の技術案をより明確に説明するためには、以下、実施例を説明するために必要な図面を簡単に説明する。明らかに、下記の図面は、本出願の実施例の一部に過ぎず、当業者であれば、発明の労力を払うことなくこれらの図面に従って他の図面を得ることができる。

図1は本発明の実施例に係る音声ノイズ軽減方法のフローチャートである。図2は非音響学マイクで収集された音声信号の基本周波数情報の分布を示す図である。図3は本発明の実施例に係る音声ノイズ軽減方法の別のフローチャートである。図4は本発明の実施例に係る音声ノイズ軽減方法の別のフローチャートである。図5は本発明の実施例に係る音声ノイズ軽減方法の別のフローチャートである。図6は本発明の実施例に係る音声ノイズ軽減方法の別のフローチャートである。図7は本発明の実施例に係る音声ノイズ軽減方法の別のフローチャートである。図8は本発明の実施例に係る音声ノイズ軽減方法の別のフローチャートである。図9は本発明の実施例に係る音声ノイズ軽減方法の別のフローチャートである。図10は本発明の実施例に係る音声ノイズ軽減方法の別のフローチャートである。図11は本発明の実施例に係る音声ノイズ軽減装置の論理構造を示す図である。図12はサーバーのハードウェア構造を示すブロック図。

以下、本出願の実施形態の図面を併せて、本出願の実施例の技術案を明確かつ詳細に説明する。記載された実施例は本出願の実施例の一部に過ぎず、それらのすべてではないことは明らかである。本出願の実施例に基づき、当業者は、創造的な作業なしに得られた本発明のすべての他の実施例は本発明の保護範囲内にある。

本出願の実施例で開示される音声ノイズ軽減方法を説明する前に、まず本出願の実施例で開示される音声ノイズ軽減方法の構想プロセスを簡単に説明し、具体的に以下の通りである。

音声信号の品質を向上させるための既知の技術処理方式としては、音声ノイズ軽減技術を用いて音声強調を行い、音声の識別性を高めることが挙げられる。既知の音声ノイズ軽減技術は、単一指向性マイクを用いた音声ノイズ軽減方法又はマイク・アレイを用いた音声ノイズ軽減方法を含むことができる。

そのうち、単一指向性マイクを用いた音声ノイズ軽減方法は、ノイズ及び音声信号の統計的特性を十分に考慮し、定常ノイズに優れた抑制効果があるが、統計的特性が安定でない非定常ノイズを予測できず、ある程度の音声歪みが存在する。したがって、単一指向性マイクを用いた音声ノイズ軽減方法の音声ノイズ軽減能力は限られている。

ただし、マイク・アレイを用いた音声ノイズ軽減方法は音声信号のタイミング情報及び空間情報を融合するので、信号のタイミング情報しか利用しない単一指向性マイクを用いた音声ノイズ軽減方法より、ノイズ抑制の振幅と音声歪みの制御との関係を適切にバランスさせ、非定常ノイズにも一定の抑制効果がある。しかし、コストと機器サイズの制限により、一部の応用場面で数え切れないほど大量なマイクを使用することができないので、音声ノイズを軽減するにはマイク・アレイを使用しても、満足できる音声ノイズの軽減効果が得られない。

単一指向性マイクを用いた音声ノイズ軽減方法及びマイク・アレイを用いた音声ノイズ軽減方法に存在する問題を考慮し、出願人は音響学マイク（例えば、単一指向性マイクやマイク・アレイなど）ではなく、環境ノイズと無関係の信号収集装置（本明細書で「非音響学マイク」といい、例えば、骨伝導マイク、光学マイク）を採用し、環境ノイズと無関係の方式（例えば、骨伝導マイクは主に顔または喉の骨に強く当てて骨の振動を検出し、音声信号に変換する。レーザーマイクとも呼ばれる光学マイクは、レーザー送信機を介して喉或いは顔の皮膚にレーザー光を放射し、皮膚の振動による反射信号を受信機で受信した後、放射光と反射光との差分を分析し、音声信号に変換する）を用いて音声信号を収集することで、音声通信又は音声識別に対するノイズの干渉を大幅に低減させることを研究中である。

ただし、上記の非音響学マイクにも一定の制限があり、まず、骨と皮膚の振動周波数が速すぎてはいけない。したがって、非音響学マイクで収集された信号の上限は低くてほぼ2000Hz以下である。また有声音（濁音）を発する時だけ声帯が振動するが、無声音（清音）を発する時に振動しないため、非音響学マイクは有声音信号しか収集できない。以上の原因により、非音響学マイクで収集された音声信号は高いノイズ耐性があるが、収集された言語信号は不完全なものであり、非音響学マイクを単に使用すると、ほとんどの場合においても音声通信及び音声識別の要求を満足することができない。この結果、出願人は下記の音声ノイズ軽減方法を提供し、音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得し、前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を取得し、また前記音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を取得し、音声のノイズ軽減を実現する。

つぎに、本出願の実施例で開示される音声ノイズ軽減方法を説明し、図1に示すように
、当該方法は以下ステップを含むことができる。

S100：音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する。

本実施例において、音響学マイクは単一の音響学マイク又は音響学マイク・アレイを含むことができる。

音響学マイクは音声信号を収集できる任意の位置に配置して音声信号の収集を行ってもよいことは理解できるだろう。ただし、非音響学マイクは音声信号を収集できる領域に配置して（例えば、骨伝導マイクは喉または顔の骨に強く当てなければならず、光学マイクは、レーザーが話す人の皮膚振動領域、すなわち、顔側面及び喉の位置に配置しなければならない）、音声信号の収集を行う必要がある。

音響学マイク及び非音響学マイクで同期的に収集された音声信号は、音響学マイクで収集された音声信号と非音響学マイクで収集された音声信号との一致性、音声信号の処理利便性を高めることができる。

S110：前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得る。

一般的には、音声ノイズ軽減過程の中で音声の有無を検出する必要があるが、信号対雑音比が低い環境で、音響学マイクで収集された音声信号だけで音声の有無を検出するのは、精度が高くないので、音声の有無の検出精度を高めるよう、本実施例では非音響学マイクで収集された音声信号を用いて、音声アクティビティ検出を行い、音声の有無の検出を実現することで、検出に対する環境ノイズの影響を低減させ、音声の有無の検出精度を高めることができる。

もちろん、音声の有無の検出精度を高めることは、最終な音声ノイズ軽減効果を高めることもできる。

S120：前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得る。

前記音声アクティビティ検出結果を利用し、前記音響学マイクで収集された音声信号に対してノイズ軽減処理を行うことで、前記音響学マイクで収集された音声信号のノイズ成分を低減させ、ノイズ軽減処理後の音響学マイク音声信号の音声成分をより顕在化させることができる。

本出願において、音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得し、そのうち、非音響学マイクは環境ノイズと無関係の方式（例えば、人の皮膚や咽喉の振動を検出するなど）で音声信号を収集することができ、このもとで、非音響学マイクで収集された音声信号により音声アクティビティ検出を行うことは、音響学マイクで収集された音声信号により音声アクティビティ検出を行うことと比較して、環境ノイズの影響を低減させ、検出の精度を高めることができ、非音響学マイクで収集された音声信号により得られた音声アクティビティ検出結果により、音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減の効果を高め、ノイズ軽減後の音声信号の品質を向上させるため、後続の音声信号の応用に高品質の音声信号を提供することができる。

本出願の別の実施例において、上記の実施例のS110「前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得る」ことを説明し、具体的に以下を含むことができる。

A1：前記非音響学マイクで収集された音声信号の基本周波数情報を決定する。

本ステップから決定される前記非音響学マイクで収集された音声信号の基本周波数情報は音声信号の基音の周波数（すなわち、人が話す時に声門が閉じる周波数）として理解される。

一般的には、男性の音声の基本周波数範囲は50〜250Hzであり、女性の音声の基本周波
数範囲は120〜500Hzである。また、前記非音響学マイクは周波数が2000Hz以下の言語信号を収集できるため、前記非音響学マイクで収集された音声信号から完全な基本周波数情報を決定することができる。

図2を参照しながら、光学マイクで収集された音声信号を例として、音声信号内におい
て決定された前記非音響学マイクで収集された音声信号の基本周波数情報の分布を説明し、図2に示すように、基本周波数情報は周波数が50〜500Hzにある部分である。

A2：前記基本周波数情報を用いて音声アクティビティ検出を行い、音声アクティビティ検出結果を得る。

基本周波数情報は、前記非音響学マイクで収集された音声信号のより明瞭なオーディオ情報であるため、本実施例では非音響学マイクで収集された音声信号の基本周波数情報を使用して、音声アクティビティ検出を行い、音声有無の検出を実現することで、検出に対する環境ノイズの影響を低減させ、音声有無検出の精度を高めることができる。

説明すべき点については、音声アクティビティ検出を具体的に実施するための形態はさまざまあり以下を含むがこれらに限らない。

フレーム単位の音声アクティビティ検出、
又は、周波数単位の音声アクティビティ検出、
又は、フレーム単位の音声アクティビティ検出及び周波数単位の音声アクティビティ検出を合わせた音声アクティビティ検出。

また、注意すべき点については、前述の音声アクティビティ検出を具体的に実施するための形態別に対応して、上記の実施例のS120「前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得る」の具体的な実施形態も異なる。

それから、前述の音声アクティビティ検出を具体的に実施するための各形態に基づき、「前記基本周波数情報を用いて音声アクティビティ検出を行う」、及びそれに対応する上記の実施例のS120「前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得る」の具体的な実施形態をそれぞれに説明する。

まず、フレーム単位の音声アクティビティ検出を実施するための形態に対応する音声ノイズ軽減方法を説明する。図3に示すように、当該方法は以下ステップを含むことができ
る。

S200：音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する。

S200は上記の実施例のS100と同じであり、S200の詳細過程については上記の実施例のS100の説明を参照でき、ここで省略する。

S210：前記非音響学マイクで収集された音声信号の基本周波数情報を決定する。

S210は上記の実施例のステップA1と同じであり、S210の詳細過程については上記の実施例のステップA1の説明を参照でき、ここで省略する。

S220：前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得る。

このステップは上記の実施例のA2「前記基本周波数情報を用いて音声アクティビティ検出を行い、音声アクティビティ検出結果を得る」の具体的な一実施形態である。

前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得る具体的な過程は以下ステップを含むことができる。

B1：前記基本周波数情報がゼロであるか否かを検出する。

前記基本周波数情報がゼロでなければ、ステップB2を実行し、前記基本周波数情報がゼロであれば、ステップB3を実行する。

B2：前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれることを決定する。

B3：前記音響学マイクで収集された音声信号の信号強度を検出する。

前記音響学マイクで収集された音声信号の信号強度が低いことを検出したら、ステップB4を実行する。

B4：前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれないことを決定する。

前記基本周波数情報がゼロであることを検出した上で、さらに前記音響学マイクで収集された音声信号の信号強度を検出することにより、前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれないことを決定するという結果の精度を高める。

本実施例において、基本周波数情報は非音響学マイクで収集された音声信号の基本周波数情報であるため、非音響学マイクは環境ノイズと無関係の方式で音声信号を収集し、基本周波数情報に対応する音声フレームに音声信号が含まれるか否かを検出することで、検出に対する環境ノイズの影響を低減させ、検出の精度を高めることができる。

S230：前記フレーム単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対して第1のノイズ軽減処理を行い、第1のノイズ軽減処理後の音響学マイクで収集された音声信号を得る。

説明すべき点については、前記音響学マイクに含まれている単一の音響学マイク或いは音響学マイク・アレイの場合は、前記フレーム単位の音声アクティビティ検出結果に基づき、前記音響学マイクで収集された音声信号に対してノイズ軽減を行う過程とは異なる。

単一の音響学マイクの場合は、フレーム単位の音声アクティビティ検出結果を用いて、ノイズスペクトル推定の更新を行い、ノイズ種類をより正確に推定することで、更新されたノイズスペクトル推定を用いて前記音響学マイクで収集された音声信号に対してノイズ軽減を行うことができる。そのうち、更新されたノイズスペクトル推定を用いて前記音響学マイクで収集された音声信号に対してノイズ軽減を行うには、従来技術のノイズスペクトル推定を用いたノイズ軽減の過程を参照できるため、ここで省略する。

音響学マイク・アレイの場合は、フレーム単位の音声アクティビティ検出結果を用いて、音響学マイク・アレイの音声ノイズ軽減システムのブロッキング行列、適応ノイズキ
ャンセリングフィルターを更新することで、更新されたブロッキング行列、適応ノイズ
キャンセリングフィルターを用いて前記音響学マイクで収集された音声信号に対してノイズ軽減を行うことができる。そのうち、更新されたブロッキング行列、適応ノイズキャンセリングフィルターを用いて前記音響学マイクで収集された音声信号に対してノイズ軽減を行うには従来技術を参照できるため、ここで省略する。

本実施例では、非音響学マイクで収集された音声信号の基本周波数情報を用いて、フレーム単位の音声アクティビティ検出を行い、音声有無の検出を実現することで、検出に対する環境ノイズの影響を低減させ、音声有無検出の精度を高めることができる。また、音声有無検出の精度を高める上で、フレーム単位の音声アクティビティ検出結果を用いて、前記音響学マイクで収集された音声信号に対して第1のノイズ軽減処理を行うことで、前
記音響学マイクで収集された音声信号のノイズ成分を低減させ、第1のノイズ軽減処理後
の音響学マイク音声信号の音声成分をより顕在化させることができる。

本出願の別の実施例において、周波数単位の音声アクティビティ検出の実施形態に対応する音声ノイズ軽減方法を説明し、図4に示すように、以下ステップを含むことができる
。

S300：音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する。

S300は上記の実施例のS100と同じであり、S300の詳細過程については上記の実施例のS100の説明を参照でき、ここで省略する。

S310：前記非音響学マイクで収集された音声信号の基本周波数情報を決定する。

S310は上記の実施例のステップA1と同じであり、S310の詳細過程については上記の実施例のステップA1「前記非音響学マイクで収集された音声信号の基本周波数情報を決定する」の説明を参照でき、ここで省略する。

S320：前記基本周波数情報により、音声の高周波数分布情報を決定する。

音声信号は広帯域信号であり、スペクトルでまばらに分布することは明らかである。つまり、音声信号の特定の音声フレームの中に一部の周波数は音声成分であるが、一部の周波数はノイズ成分である。ノイズ周波数をよりよく抑制し、音声周波数を保留するため、音声周波数の決定を最優先する。音声周波数の決定方式は本ステップで提案された「前記基本周波数情報により、音声の高周波数分布情報を決定する」ことである。

音声の高周波数はノイズ成分ではなく音声成分であると理解される。

説明すべき点については、ある特定の環境（ノイズが高い環境）で、一部の周波数成分の信号対雑音比は負の値であり、音響学マイクだけならば、周波数が音声成分か、ノイズ成分かを正確に推定するのは困難であるため、本実施例では、非音響学マイクの音声信号の基本周波数情報により、音声周波数（すなわち、音声の高周波数分布情報を決定する）を推定することで、音声周波数の推定精度を高めることを採用する。

「前記基本周波数情報により、音声の高周波数分布情報を決定する」の具体的な過程は以下ステップを含むことができる。

C1：前記基本周波数情報に倍数をかけ、倍数乗算した基本周波数情報を得る。

前記基本周波数情報に倍数をかけることは、前記基本周波数情報に1以上の数をかけ、
例えば、前記基本周波数情報にそれぞれ2、3、4、…、N（前記Nは1以上の数とする）をかけると理解される。

C2：予め決められた周波数拡張値に従って、前記倍数乗算した基本周波数情報を拡張し、音声の高周波数分布区間を取得し、それを前記音声の高周波数分布情報とする。

説明すべき点については、音声ノイズ軽減の過程で、残留ノイズに耐えられるが、音声成分の損失を受け入れられない。したがって、音声成分をできるだけ多く保留するよう、予め決められた周波数拡張値に従って前記倍数乗算した基本周波数情報を拡張し、基本周波数情報に基づいて決定される高周波数の欠落数を減らすことができる。

予め決められた周波数拡張値を1又は2で設定することが好ましい。

本実施例において、音声の高周波数分布区間は次の数式で表される：

ここで、fは基本周波数情報、2*f, 3*f, ..., N*fは倍数乗算した基本周波数情報、Δは
予め決められた周波数拡張値である。

S330：前記高周波数分布情報により、前記音響学マイクで収集された音声信号に対して周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る。

上記のS320で、音声の高周波数分布情報を決定した後、前記高周波数分布情報により、前記音響学マイクで収集された音声信号に対して周波数単位の音声アクティビティ検出を行い、音声フレームの高周波数は音声成分であり、非高周波数はノイズ成分であると決定する。それに基づいて、「前記高周波数分布情報により、前記音響学マイクで収集された音声信号に対して周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る」の具体的な過程は以下ステップを含むことができる。

前記音響学マイクで収集された音声信号において、周波数が前記高周波数であるものを、音声信号を含む周波数として決定し、周波数が前記高周波数でないものを、音声信号を含まない周波数として決定する。

S340：前記周波数単位の音声アクティビティ検出結果により、前記音響学マイクで収集
された音声信号に対して第2のノイズ軽減処理を行い、第2のノイズ軽減処理後の音響学マイクで収集された音声信号を得る。

具体的には、前記周波数単位の音声アクティビティ検出結果により、単一の音響学マイク又は音響学マイク・アレイで収集された音声信号に対してノイズ軽減を行う過程は、上記の実施例のS230で説明された「フレーム単位の音声アクティビティ検出結果に対してノイズ軽減を行う」の過程を参照でき、ここで省略する。

説明すべき点については、本実施例において、前記周波数単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対してノイズ軽減処理を行い、上記の実施例の第1のノイズ軽減処理過程を区別するため、ここで第2のノイズ軽減処理方式と定義する。

本実施例において、前記高周波数分布情報により、周波数単位の音声アクティビティ検出を行い、音声有無の検出を実現することで、検出に対する環境ノイズの影響を低減させ、音声有無検出の精度を高めることができる。また、音声有無検出の精度を高める上で、周波数単位の音声アクティビティ検出結果を用いて、前記音響学マイクで収集された音声信号に対して第2のノイズ軽減処理を行うことで、音響学マイクで収集された音声信号の
ノイズ成分を低減させ、第2のノイズ軽減処理後の音響学マイク音声信号の音声成分をよ
り顕在化させることができる。

本出願の別の実施例において、周波数単位の音声アクティビティ検出の実施形態に対応する別の音声ノイズ軽減方法を説明し、図5に示すように、以下ステップを含むことがで
きる。

S400：音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する。

具体的には、非音響学マイクで収集された音声信号は有声音信号である。

S410：前記非音響学マイクで収集された音声信号の基本周波数情報を決定する。

前記非音響学マイクで収集された音声信号の基本周波数情報を決定することは、前記有声音信号の基本周波数情報を決定すると理解される。

S420：前記基本周波数情報により、音声の高周波数分布情報を決定する。

S430：前記高周波数分布情報により、前記音響学マイクで収集された音声信号に対して周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る。

S440：前記非音響学マイクで収集された有声音信号に含まれている各音声フレームの時点により、前記音響学マイクで収集された音声信号から同じ時点の音声フレームを取得し、それを処理対象音声フレームとする。

S450：前記周波数単位の音声アクティビティ検出結果により、前記処理対象音声フレームの各周波数をゲインアップし、ゲインアップされた音声フレームを取得し、前記ゲインアップされた各音声フレームはゲインアップされた、音響学マイクで収集された有声音信号を構成する。

このうち、ゲインアップの過程は、周波数が前記高周波数であるものに第1ゲイン値を
かけ、周波数が前記高周波数でないものに第2ゲイン値をかけ、前記第1ゲイン値が前記第2ゲイン値より大きいことを含むことができる。

第1ゲイン値が第2ゲイン値より大きく、高周波数は音声成分であるため、周波数が前記高周波数であるものに第1ゲイン値をかけ、周波数が前記高周波数でないものに第2ゲイン値をかけることにより、音声成分はノイズ成分より大幅に強化され、ゲインアップされた音声フレームを、強化された音声フレームとし、強化された各音声フレームは強化された有声音信号を構成するため、音響学マイクで収集された音声信号の強化を実現する。

一般的に、第1ゲイン値を1に設定し、第2ゲイン値の数値範囲を、0より大きく且つ0.5
より小さい値に設定してもよい。具体的に、0より大きく且つ0.5より小さい数値範囲から任意の値を前記第2ゲイン値として選択する。

選択肢として、前記処理対象音声フレームの各周波数をゲインアップし、ゲインアップされた音声フレームを取得することについては、次のゲインアップ関係式により計算する。

S_SEiはゲインアップされた音声フレームであり、S_Aiは処理対象音声フレームの第iの周波数であり、iは周波数であり、Mは処理対象音声フレームの周波数の総数である。

Comb_iはゲイン値であり、Comb_iの大きさは次の代入関係式により決定する。

G_Hは第1ゲイン値であり、fは基本周波数情報であり、hfpは高周波数分布情報であり、

は第iの周波数が高周波数であることを表し、
G_minは第2ゲイン値であり、

は第iの周波数が非高周波数であることを表す。

また、説明すべき点については、音声に基づく高周波数分布区間は

の実施形態で表され、n*f±Δは前述の代入関係式のhfpを置き換え、代入関係式

を最適化し、最適化された後の代入関係式は次の通りである。

本実施例では、前記高周波数分布情報により、周波数単位の音声アクティビティ検出を行い、音声有無の検出を実現することで、検出に対する環境ノイズの影響を低減させ、音声有無検出の精度を高めることができる。また、音声有無検出の精度を高める上で、周波数単位の音声アクティビティ検出結果を用いて、前記音響学マイクで収集された音声信号に対してゲインアップ処理（ゲインアップ過程はノイズ軽減処理の過程とも見なされる）を行い、ゲインアップされた後の音響学マイク音声信号の音声成分をより顕在化させることができる。

本出願の別の実施例において、周波数単位の音声アクティビティ検出の実施形態に対応する別の音声ノイズ軽減方法を説明し、図6に示すように、以下ステップを含むことがで
きる。

S500：音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する。

S510：前記非音響学マイクで収集された音声信号の基本周波数情報を決定する。

S520：前記基本周波数情報により、音声の高周波数分布情報を決定する。

S530：前記高周波数分布情報により、前記音響学マイクで収集された音声信号に対して周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る。

S540：前記周波数単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対して第2のノイズ軽減処理を行い、第2のノイズ軽減処理後の音響学マイクで収集された音声信号を得る。

S500〜S540と上記の実施例のS300〜S340とはそれぞれに対応し、S500〜S540の詳細過程は上記の実施例のS300〜S340の説明を参照でき、ここで省略する。

S550：前記非音響学マイクで収集された有声音信号に含まれている各音声フレームの時点により、前記第2のノイズ軽減処理後の音響学マイクで収集された音声信号から同じ時
点の音声フレームを取得し、それを処理対象音声フレームとする。

S560：前記周波数単位の音声アクティビティ検出結果により、前記処理対象音声フレームの各周波数をゲインアップし、ゲインアップされた音声フレームを取得し、前記ゲインアップされた各音声フレームはゲインアップされた、音響学マイクで収集された有声音信号を構成する。

そのうち、前記ゲインアップの過程は、周波数が前記高周波数であるものに第1ゲイン
値をかけ、周波数が前記高周波数でないものに第2ゲイン値をかけ、前記第1ゲインが前記第2ゲインより大きいことを含むことができる。

S550〜S560の詳細過程はS440〜S450の関連説明を参照でき、ここで省略する。

本実施例では、まず音響学マイクで収集された音声信号に対して第2のノイズ軽減処理
を行い、つぎに第2のノイズ軽減処理後の音響学マイクで収集された音声信号をゲインア
ップすることで、音響学マイクで収集された音声信号のノイズ成分をさらに低減させ、ゲインアップされた音響学マイク音声信号の音声成分をより顕在化させることができる。

本出願の別の実施例において、フレーム単位の音声アクティビティ検出と周波数単位の音声アクティビティ検出を合わせた実施形態に対応する音声ノイズ軽減方法を説明し、図7に示すように、以下ステップを含むことができる。

S600：音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する。

S610：前記非音響学マイクで収集された音声信号の基本周波数情報を決定する。

S620：前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得る。

S630：前記フレーム単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対して第1のノイズ軽減処理を行い、第1のノイズ軽減処理後の音響学マイクで収集された音声信号を得る。

S600〜S630と上記の実施例のS200〜S230とはそれぞれに対応し、S600〜S630の詳細過程は上記の実施例のS200〜S230の関連説明を参照でき、ここで省略する。

S640：前記基本周波数情報により、音声の高周波数分布情報を決定する。

本ステップの詳細過程は上記の実施例のS320の関連説明を参照でき、ここで省略する。

S650：前記高周波数分布情報により、前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームに対して、周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る。

「前記高周波数分布情報により、前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームに対して、周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る」の具体的な過程は以下ステップを含むことができる。

前記高周波数分布情報により、前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームのうち、周波数が前記高周波数であるものを、音声信号を含む周波数として決定し、周波数が前記高周波数でないものを、音声信号を含まない周波数として決定する。

S660：前記周波数単位の音声アクティビティ検出結果により、前記第1のノイズ軽減処
理後の音響学マイクで収集された音声信号に対して第2のノイズ軽減処理を行い、第2のノ
イズ軽減処理後の音響学マイクで収集された音声信号を得る。

本実施例では、まずフレーム単位の音声アクティビティ検出結果を用いて、音響学マイクで収集された音声信号に対して第1のノイズ軽減処理を行い、音響学マイクで収集され
た音声信号のノイズ成分を低減させた後、周波数単位の音声アクティビティ検出結果を用いて、第1のノイズ軽減処理後の音響学マイクで収集された音声信号に対して第2のノイズ軽減処理を行い、第1のノイズ軽減処理後の音響学マイクで収集された音声信号のノイズ
成分をさらに低減させ、第2のノイズ軽減処理後の音響学マイク音声信号の音声成分をよ
り顕在化させることができる。

本出願の別の実施例において、フレーム単位の音声アクティビティ検出と周波数単位の音声アクティビティ検出を合わせた実施形態に対応する別の音声ノイズ軽減方法を説明し、図8に示すように、以下ステップを含むことができる。

S700：音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する。

S710：前記非音響学マイクで収集された音声信号の基本周波数情報を決定する。

S720：前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得る。

S730：前記フレーム単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対して第1のノイズ軽減処理を行い、第1のノイズ軽減処理後の音響学マイクで収集された音声信号を得る。

S700〜S730と上記の実施例のS200〜S230とはそれぞれに対応し、S700〜S730の詳細過程は上記の実施例のS700〜S730の関連説明を参照でき、ここで省略する。

S740：前記基本周波数情報により、音声の高周波数分布情報を決定する。

S750：前記高周波数分布情報により、前記音響学マイクで収集された音声信号に対して周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る。

S760：前記非音響学マイクで収集された有声音信号に含まれている各音声フレームの時点により、前記第1のノイズ軽減処理後の音響学マイクで収集された音声信号から同じ時
点の音声フレームを取得し、それを処理対象音声フレームとする。

S770：前記周波数単位の音声アクティビティ検出結果により、前記処理対象音声フレームの各周波数をゲインアップし、ゲインアップされた音声フレームを取得し、前記ゲインアップされた各音声フレームはゲインアップされた、音響学マイクで収集された有声音信号を構成する。

前記ゲインアップの過程は、周波数が前記高周波数であるものに第1ゲイン値をかけ、
周波数が前記高周波数でないものに第2ゲイン値をかけ、前記第1ゲイン値が前記第2ゲイ
ン値より大きいことを含んでもよい。

S770の詳細過程は上記の実施例のS450の詳細過程を参照でき、ここで省略する。

本実施例では、まずフレーム単位の音声アクティビティ検出結果を用いて、音響学マイクで収集された音声信号に対して第1のノイズ軽減処理を行い、前記音響学マイクで収集
された音声信号のノイズ成分を低減させた上で、周波数単位の音声アクティビティ検出結果を用いて、第1のノイズ軽減処理後の音響学マイクで収集された音声信号をゲインアッ
プし、第1のノイズ軽減処理後の音響学マイクで収集された音声信号のノイズ成分を低減
させ、ゲインアップされた音響学マイク音声信号の音声成分をより顕在化させることができる。

上記の実施例に基づき、フレーム単位の音声アクティビティ検出と周波数単位の音声アクティビティ検出を合わせ、本出願の別の実施例において、別の音声ノイズ軽減方法を説明し、図9に示すように、以下ステップを含むことができる。

S800：音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する。

S810：前記非音響学マイクで収集された音声信号の基本周波数情報を決定する。

S820：前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得る。

S830：前記フレーム単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対して1次のノイズ軽減を行い、1次のノイズ軽減後の音響学マイクで収集された音声信号を得る。

S840：前記基本周波数情報により、音声の高周波数分布情報を決定する。

S850：前記高周波数分布情報により、前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームに対して、周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る。

S860：前記周波数単位の音声アクティビティ検出結果により、前記第1のノイズ軽減処
理後の音響学マイクで収集された音声信号に対して第2のノイズ軽減処理を行い、第2のノイズ軽減処理後の音響学マイクで収集された音声信号を得る。

S800〜S860の詳細過程は上記の実施例のS600〜S660の関連説明を参照でき、ここで省略する。

S870：前記非音響学マイクで収集された有声音信号に含まれている各音声フレームの時点により、前記第2のノイズ軽減処理後の音響学マイクで収集された音声信号から同じ時
点の音声フレームを取得し、それを処理対象音声フレームとする。

S880：前記周波数単位の音声アクティビティ検出結果により、前記処理対象音声フレームの各周波数をゲインアップし、ゲインアップされた音声フレームを取得し、前記ゲインアップされた各音声フレームはゲインアップされた、音響学マイクで収集された有声音信号を構成する。

本ステップの詳細過程は上記の実施例のS450の詳細過程を参照でき、ここで省略する。

ゲインアップ過程はノイズ軽減過程ともみなすため、ゲインアップされた、音響学マイクで収集された有声音信号は、3次ノイズ軽減後の音響学マイクで収集された有声音信号
であると理解される。

本実施例では、まずフレーム単位の音声アクティビティ検出結果を用いて、音響学マイクで収集された音声信号に対して第1のノイズ軽減処理を行い、前記音響学マイクで収集
された音声信号のノイズ成分を低減させた上で、周波数単位の音声アクティビティ検出結果を用いて、第1のノイズ軽減処理後の音響学マイクで収集された音声信号に対して第2のノイズ軽減処理を行い、第1のノイズ軽減処理後の音響学マイクで収集された音声信号の
ノイズ成分を低減させた上で、第2のノイズ軽減処理後の音響学マイクで収集された音声
信号をゲインアップし、第2のノイズ軽減処理後の音響学マイクで収集された音声信号の
ノイズ成分を低減させ、ゲインアップされた音響学マイク音声信号の音声成分をより顕在化させることができる。

上記の各実施例の内容に基づき、本出願の別の実施例において、別の音声ノイズ軽減方法が新しく拡張され、図10に示すように、以下ステップを含むことができる。

S900：音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する。

S910：前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得る。

S920：前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズが軽減された有声音信号を得る。

S900〜S920の詳細過程は上記の各実施例の関連ステップの説明を参照でき、ここで省略する。

S930：ノイズ軽減後の有声音信号を無声音予測モデルに入力し、前記無声音予測モデルから出力された無声音信号を得る。

前記無声音予測モデルは無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録している訓練音声信号を予め用いて訓練されたものである。

一般的に、音声には同時に有声音信号及び無声音信号が含まれるため、ノイズ軽減後の有声音信号が得られた後、音声の無声音信号を予測しなければならない。具体的に、無声音信号の予測には、無声音予測モデルを使用することができる。

前記無声音予測モデルはDNN（Deep Neural Network、ディープニューラルネットワーク）モデルであってもよく、これに限らない。

前記無声音予測モデルは無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録している訓練音声信号を予め用いて無声音予測モデルを訓練し、訓練された無声音予測モデルが無声音信号を正確的に予測できることを保証することが理解される。

S940：前記無声音信号及び前記ノイズ軽減後の有声音信号を組合せ、組み合わせた音声信号を得る。

前記無声音信号及び前記ノイズ軽減後の有声音信号を組み合わせる過程は既存の音声信号組み合せ過程を参照でき、前記無声音信号及び前記ノイズ軽減後の有声音信号を組み合わせる詳細な過程をここで省略する。

組み合わせた音声信号は、無声音信号及びノイズ軽減後の有声音信号の両方を含む完全な音声信号と理解される。

本出願の別の実施例において、前記無声音予測モデルの訓練過程を説明し、具体的に以下ステップを含むことができる。

D1：訓練音声信号を取得する。

訓練の精度を保証するため、訓練音声信号には無声音信号及び有声音信号が含まれなければならない。

D2：前記訓練音声信号における無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録する。

D3：無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録している訓練音声信号を用いて、無声音予測モデルを訓練する。

訓練された無声音予測モデルは上記の実施例のS930で使用される無声音予測モデルである。

本出願の別の実施例において、取得される上記の訓練音声信号を説明し、具体的に以下を含む。

予め設定された訓練条件を満たす音声信号を選択する。

前記予め設定された訓練条件は、
音声信号におけるすべての異なる要因の出現回数の分布は設定される分布条件を満たすこと、
及び/又は、音声信号に含まれる異なる要因の組み合せ方式の種類は設定される組み合せ
方式の種類要求を満たすことを含んでもよい。

好ましくは、設定される分布条件は均一分布であってもよい。

もちろん、設定される分布条件は大半の要因の出現回数が均一な分布であり、個別又は少数の要因の出現回数が非均一な分布であってもよい。

好ましくは、設定される組み合わせ方式の種類要求はすべての組み合せ方式の種類を含むことであってもよい。

もちろん、設定される組み合わせ方式の種類要求は予め設定された個数の組み合わせ方式の種類を含むことであってもよい。

音声信号におけるすべての異なる要因の出現回数の分布は設定される分布条件を満たすことは、選択された、予め設定された訓練条件を満たす音声信号におけるすべての異なる要因の出現回数の分布はできるだけ均一分布であることを保証することができ、音声信号に含まれている異なる要因の組み合わせ方式の種類は設定される組み合わせ方式の種類要求を満たすことは、選択された、予め設定された訓練条件を満たす音声信号における異なる要因の間の組み合わせ方式はできるだけ豊富で全面的であることを保証することができる。

予め設定された訓練条件を満たす音声信号を選択することで、訓練精度の要求を満たすとともに、訓練音声信号の数据量を低減させ、さらに訓練効率を高めることができる。

上記の各実施例で説明された内容に基づいて、前記音響学マイクは、音響学マイク・アレイを含む場合、本出願の別の実施例において、新しく拡張される他の音声ノイズ軽減方法として、当該音声ノイズ軽減方法はさらに以下ステップを含むことができる。

S1：前記音響学マイク・アレイで収集された音声信号により、発話者の方位区間を決定する。

S2：前記非音響学マイクで収集された音声信号と前記音響学マイクで同期的に収集された音声信号において、同じ時点に対応する音声フレームに音声信号が含まれるか否かを検出し、検出結果を得る。

検出結果としては、前記非音響学マイクで収集された音声信号と前記音響学マイクで同期的に収集された音声信号において、同じ時点に対応する音声フレームにはいずれも音声信号が含まれること、又はいずれも音声信号が含まれないことが挙げられる。

S3：前記検出結果により、前記対象発話者の方位区間から前記対象発話者の方位を決定する。

S2の前記非音響学マイクで収集された音声信号と前記音響学マイクで同期的に収集された音声信号において、同じ時点に対応する音声フレームにはいずれも音声信号が含まれるか、いずれも音声信号が含まれないという検出結果により、同じ時点に対応する音声フレームにはいずれも音声信号が含まれること、又は音声信号が含まれないことを判別し、音響学マイクで収集された音声信号及び非音響学マイクで収集された音声信号は同一の発話者からのものであることを決定することで、さらに非音響学マイクで収集された音声信号により、前記対象発話者の方位区間から前記対象発話者の方位を決定する。

複数の人が同時に話す場合、音響学マイク・アレイで収集された音声信号だけで、ある特定の対象発話者的方位を決定することは困難であるが、非音響学マイクで収集された音声信号によって発話者の方位を決定するのを補助できると理解される。具体的に本実施例のS1〜S3によって実現される。

以下、本発明の実施例に係る音声ノイズ軽減装置を説明する。下文に述べられている音声ノイズ軽減装置は、本発明の実施例に係る音声ノイズ軽減方法を実現するため、サーバーに配置されるプログラムモジュールであると考えられる。下文に述べられている音声ノイズ軽減装置の内容は、上文に述べられている音声ノイズ軽減方法の内容と互いに対応して参照することができる。

図11は本発明の実施例に係る音声ノイズ軽減装置の論理構造を示す図であり、当該装置はサーバーに応用されることができ、図11に示すように、当該音声ノイズ軽減装置は、
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する音声信号取得モジュール11と、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得る音声アクティビティ検出モジュール12と、
前記音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズが軽減された音声信号を得る音声ノイズ軽減モジュール13とを含むことができる。

本実施例において、前記音声アクティビティ検出モジュール12は、
前記非音響学マイクで収集された音声信号の基本周波数情報を決定する基本周波数情報決定モジュールと、
前記基本周波数情報を用いて音声アクティビティ検出を行い、音声アクティビティ検出結果を得る音声アクティビティ検出サブモジュールとを含む。

本実施例において、前記音声アクティビティ検出サブモジュールは、
前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得るフレーム単位の音声アクティビティ検出モジュールを含むことができる。

それに対応し、前記音声ノイズ軽減モジュールは、
前記フレーム単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対して1次ノイズ軽減を行い、1次ノイズ軽減後の音響学マイクで収集された音声信号を得る1次ノイズ軽減モジュールを含むことができる。

本実施例において、上述の音声ノイズ軽減装置は、
前記基本周波数情報により、音声の高周波数分布情報を決定する高周波数分布情報決定モジュールと、
前記高周波数分布情報により、前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームに対して、周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る周波数単位の音声アクティビティ検出モジュールとをさらに含むことができる。

それに対応し、前記音声ノイズ軽減モジュールは、
前記周波数単位の音声アクティビティ検出結果により、前記1次ノイズ軽減後の音響学
マイクで収集された音声信号に対して2次ノイズ軽減を行い、2次ノイズ軽減後の音響学マイクで収集された音声信号を得る2次ノイズ軽減モジュールをさらに含むことができる。

本実施例において、前記フレーム単位の音声アクティビティ検出モジュールは、
前記基本周波数情報がゼロであるか否かを検出する基本周波数情報検出モジュールを含み、
前記基本周波数情報がゼロでなければ、前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれることを決定し、
前記基本周波数情報がゼロであれば、前記音響学マイクで収集された音声信号の信号強度を検出し、検出された前記音響学マイクで収集された音声信号の信号強度が低ければ、前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれないことを決定する。

本実施例において、前記高周波数分布情報を決定するモジュールは、
前記基本周波数情報に倍数をかけ、倍数乗算した基本周波数情報を得る倍数乗算モジュールと、
予め決められた周波数拡張値により、前記倍数乗算した基本周波数情報を拡張し、音声の高周波数分布区間を取得し、それを前記音声の高周波数分布情報とする基本周波数情報拡張モジュールとを含むことができる。

本実施例において、前記周波数単位の音声アクティビティ検出モジュールは、
前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームのうち、周波数が前記高周波数であるものを、音声信号を含む周波数として決定し、周波数が前記高周波数でないものを、音声信号を含まない周波数として決定する周波数単位の音声アクティビティ検出サブモジュールを含むことができる。

本実施例において、前記非音響学マイクで収集された音声信号は有声音信号であってもよい。

前記非音響学マイクで収集された音声信号を有声音信号とする実施形態に基づき、前記音声ノイズ軽減モジュールは、
前記有声音信号に含まれる各音声フレームの時点により、前記2次ノイズ軽減後の音響
学マイクで収集された音声信号から同じ時点の音声フレームを取得し、それを処理対象音声フレームとする音声フレーム取得モジュールと、
前記処理対象音声フレームの各周波数をゲインアップし、ゲインアップされた音声フレームを取得し、前記ゲインアップされた各音声フレームは3次ノイズ軽減後の音響学マイ
クで収集された有声音信号を構成するゲインアップモジュールとをさらに含むことができる。

そのうち、ゲインアップ処理は、周波数が前記高周波数であるものに第1ゲイン値をか
け、周波数が前記高周波数でないものに第2ゲイン値をかけ、前記第1ゲイン値が前記第2
ゲイン値より大きいことを含むことができる。

上述の音声ノイズ軽減装置に基づき、前記ノイズ軽減後の音声信号はノイズ軽減後の有声音信号であってもよく、これを踏まえて、音声ノイズ軽減装置は、
前記ノイズ軽減後の有声音信号を無声音予測モデルに入力し、前記無声音予測モデルから出力された無声音信号を取得し、前記無声音予測モデルは無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録している訓練音声信号を予め用いて訓練されたものである無声音信号予測モジュールと、
前記無声音信号及び前記ノイズ軽減後の有声音信号を組み合せ、組み合わせた音声信号を得る音声信号組合モジュールとをさらに含むことができる。

本実施例において、上述の音声ノイズ軽減装置は、
訓練音声信号を取得し、前記訓練音声信号における無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録し、無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録している訓練音声信号を用いて、無声音予測モデルを訓練する無声音予測モデル訓練モジュールをさらに含むことができる。

無声音予測モデル訓練モジュールは、
予め設定された訓練条件を満たす音声信号を選択する訓練音声信号取得モジュールを含むことができ、前記予め設定された訓練条件は、
音声信号におけるすべての異なる要因の出現回数の分布は設定される分布条件を満たすこと、及び/又は
音声信号に含まれる異なる要因の組み合せ方式の種類は設定される組み合せ方式の種類要求を満たすことを含む。

前述の音声ノイズ軽減装置に基づき、前記音響学マイクは、音響学マイク・アレイを含む場合に、当該音声ノイズ軽減装置は、
前記音響学マイク・アレイで収集された音声信号により、発話者の方位区間を決定し、また前記非音響学マイクで収集された音声信号と前記音響学マイクで同期的に収集された音声信号において、同じ時点に対応する音声フレームには音声信号が含まれるか否かを検出し、検出結果を取得し、また前記検出結果により、前記対象発話者の方位区間から前記対象発話者の方位を決定する発話者方位決定モジュールをさらに含むことができる。

本発明の実施例に係る音声ノイズ軽減装置はサーバー（例えば、通信サーバー）に応用されることができる。選択肢として、図12はサーバーのハードウェア構造ブロック図を示し、図12に示すように、サーバーのハードウェア構造は、少なくとも1つのプロセッサー1、少なくとも1つの通信インターフェース2、少なくとも1つのメモリ3及び少なくとも1つ
の通信バス4を含むことができる。

本発明の実施例において、プロセッサー1、通信インターフェース2、メモリ3、通信バ
ス4の数は少なくとも1つ、且つプロセッサー1、通信インターフェース2、メモリ3は通信
バス4を介して相互通信を行う。

プロセッサー1は、CPU、又は特定のASIC（Application Specific Integrated Circuit
）、又は本発明の実施例を実施するための1つ又は複数の集積回路などであってもよい。

メモリ3は高速RAMを含むことができ、さらに少なくとも1つの磁気ディスク装置など、
不揮発性メモリ（non-volatile memory）などを含むこともできる。

そのうち、メモリにはプログラムが格納され、プロセッサーはメモリに格納されているプログラムを呼び出すことができ、前記プログラムは、
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得することと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることとを実行する。

選択肢として、前記プログラムの細分化機能及び拡張機能は上文の説明を参照することができる。

本発明の実施例ではさらに記憶媒体を提供し、当該記憶媒体はプロセッサー実行に適するプログラムを格納することができ、前記プログラムは、
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得することと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることとを実行する。

説明すべき点については、本明細書の各実施例はプログレッシブな方式で記載され、各実施例はその他の実施形態との相違点について重点を置いて記載され、各実施例の間の同じまたは類似の部分は互いに参照してよい。装置に関する実施例は、方法に関する実施例とほぼ類似であるため、簡単に記載され、関連する部分について方法に関する実施例の説明を参照してよい。

最後、説明すべき点については、本明細書で、「第1」及び「第2」のような関係用語は1つの実体或いは操作を、別の実体或いは操作から区別するために使用され、これらの実
体或いは操作の間に何らかの実際の関係又は順序が存在することを必ずしも要求又は示唆するものではない。さらに、用語「含む」、「含み」又はそれらのあらゆる変形は、要素のリストを含む過程、方法、物品及び装置がそれらの要素に限らないが、そのような過程、方法、物品及び装置に明確に記載されていない他の要素、又はそのような過程、方法、物品及び装置に固有の他の要素を含み得るように、非排他的な包含をカバーすることを意図している。「1つの…を含む」という文言によって限定される要素は、それ以上の制限
がない限り、前記要素を含む過程、方法、物品又は装置に同様の要素が他にも存在することは排除されない。

以上の装置は、説明の便宜上、機能を様々なユニットに分けて説明する。もちろん、本出願を実施する時に、各ユニットの機能を同一又は複数のソフトウェア及び/又はハード
ウェアにおいて実現することができる。

以上の実施形態の説明から分かるように、当業者は、本出願がソフトウェアに必要な汎用ハードウェアプラットフォームを加えた方式で実現され得ることを明確に理解することができる。このような理解に基づいて、本出願の技術案は本質的に、又は現有技術に貢献する部分はソフトウェア製品の形式で具現化することができ、当該コンピューターソフトウェア製品は、ROM/RAM、磁気ディスク、光ディスクなどの記憶媒体に格納されることが
でき、1台のコンピューター装置（パソコン、サーバ、又はネットワーク機器などであっ
てもよい）に本明細書の各実施例または実施例の一部に記載の方法を実行させるためのいくつかの命令を含む。

本出願で提供される音声ノイズ軽減方法、装置、サーバー及び記憶媒体の詳細については、本出願の原理及び実施形態を具体的な例で説明したように、本明細書において記載されているが、以上の実施例に対する説明は、本出願の方法及びその肝心となる思想の理解を助けるための目的であり、また、当業者にとっては、本出願のアイデアに基づいて具体的な実施形態及び応用範囲を変更することができる。以上のことから、本明細書の内容は本出願への制限と理解すべきではない。

Claims

音声ノイズ軽減方法であって、
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得することと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることと、
を含むことを特徴とする、方法。
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、
音声アクティビティ検出結果を得ることは、
前記非音響学マイクで収集された音声信号の基本周波数情報を決定することと、
前記基本周波数情報を用いて音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
を含むことを特徴とする請求項1に記載の方法。
前記基本周波数情報を用いて音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることは、
前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得ることを含み、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることは、
前記フレーム単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対して1次ノイズ軽減を行い、1次ノイズ軽減後の音響学マイクで収集された音声信号を得ることを含む、
ことを特徴とする請求項2に記載の方法。
前記基本周波数情報を用いて音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることは、
前記基本周波数情報により、音声の高周波数分布情報を決定することと、
前記高周波数分布情報により、前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームに対して、周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得ることとを含み、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることは、
前記周波数単位の音声アクティビティ検出結果により、前記1次ノイズ軽減後の音響学
マイクで収集された音声信号に対して2次ノイズ軽減を行い、2次ノイズ軽減後の音響学マイクで収集された音声信号を得ることをさらに含む、
ことを特徴とする請求項3に記載の方法。
前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得ることは、
前記基本周波数情報がゼロであるか否かを検出することを含み、
前記基本周波数情報がゼロでなければ、前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれることを決定し、
前記基本周波数情報がゼロであれば、前記音響学マイクで収集された音声信号の信号強
度を検出し、検出された前記音響学マイクで収集された音声信号の信号強度が低ければ、前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれないことを決定する、
ことを特徴とする請求項3に記載の方法。
前記基本周波数情報により、音声の高周波数分布情報を決定することは、
前記基本周波数情報に倍数をかけ、倍数乗算した基本周波数情報を得ることと、
予め決められた周波数拡張値に従って、前記倍数乗算した基本周波数情報を拡張し、音声の高周波数分布区間を取得し、それを音声の高周波数分布情報とすることとを含む、
ことを特徴とする請求項4に記載の方法。
前記高周波数分布情報により、前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームに対して周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得ることは、
前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームのうち、周波数が高周波数であるものを、音声信号を含む周波数として決定し、周波数が高周波数でないものを、音声信号を含まない周波数として決定することを含む、
ことを特徴とする請求項4に記載の方法。
前記非音響学マイクで収集された音声信号は有声音信号であり、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることは、
前記有声音信号に含まれる各音声フレームの時点により、前記2次ノイズ軽減後の音響
学マイクで収集された音声信号から同じ時点の音声フレームを取得し、それを処理対象音声フレームとすることと、
前記処理対象音声フレームの各周波数をゲインアップ処理し、ゲインアップされた音声フレームを取得し、前記ゲインアップされた各音声フレームは3次ノイズ軽減後の音響学
マイクで収集された有声音信号を構成することとをさらに含み、
そのうち、ゲインアップ処理は、周波数が高周波数であるものに第1ゲイン値をかけ、
周波数が高周波数でないものに第2ゲイン値をかけ、前記第1ゲイン値が前記第2ゲイン値
より大きいことを含む、
ことを特徴とする請求項４に記載の方法。
前記ノイズ軽減後の音声信号はノイズ軽減後の有声音信号であり、当該方法は、
前記ノイズ軽減後の有声音信号を無声音予測モデルに入力し、前記無声音予測モデルから出力された無声音信号を取得し、前記無声音予測モデルは無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録している訓練音声信号を予め用いて訓練されたものであることと、
前記無声音信号及び前記ノイズ軽減後の有声音信号を組み合せ、組み合わせた音声信号を得ることとをさらに含む、
ことを特徴とする請求項1ないし8のいずれかの1項に記載の方法。
音声ノイズ軽減装置であって、
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得する音声信号取得モジュールと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得る音声アクティビティ検出モジュールと、
前記音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対
してノイズ軽減を行い、ノイズ軽減後の音声信号を得る音声ノイズ軽減モジュールとを含む、
ことを特徴とする装置。
前記音声アクティビティ検出モジュールは、
前記非音響学マイクで収集された音声信号の基本周波数情報を決定する基本周波数情報決定モジュールと、
前記基本周波数情報を用いて音声アクティビティ検出を行い、音声アクティビティ検出結果を得る音声アクティビティ検出サブモジュールとを含む、
ことを特徴とする請求項10に記載の装置。
前記音声アクティビティ検出サブモジュールは、
前記基本周波数情報を用いて、前記音響学マイクで収集された音声信号に対してフレーム単位の音声アクティビティ検出を行い、フレーム単位の音声アクティビティ検出結果を得るフレーム単位の音声アクティビティ検出モジュールを含み、
前記音声ノイズ軽減モジュールは、
前記フレーム単位の音声アクティビティ検出結果により、前記音響学マイクで収集された音声信号に対して1次ノイズ軽減を行い、1次ノイズ軽減後の音響学マイクで収集された音声信号を得る1次ノイズ軽減モジュールを含む、
ことを特徴とする請求項11に記載の装置。
前記装置は、
前記基本周波数情報により、音声の高周波数分布情報を決定する高周波数分布情報決定モジュールと、
前記高周波数分布情報により、前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームに対して、周波数単位の音声アクティビティ検出を行い、周波数単位の音声アクティビティ検出結果を得る周波数単位の音声アクティビティ検出モジュールとをさらに含み、
前記音声ノイズ軽減モジュールは、
前記周波数単位の音声アクティビティ検出結果により、前記1次ノイズ軽減後の音響学
マイクで収集された音声信号に対して2次ノイズ軽減を行い、2次ノイズ軽減後の音響学マイクで収集された音声信号を得る2次ノイズ軽減モジュールをさらに含む、
ことを特徴とする請求項12に記載の装置。
前記フレーム単位の音声アクティビティ検出モジュールは、
前記基本周波数情報がゼロであるか否かを検出する基本周波数情報検出モジュールを含み、
前記基本周波数情報がゼロでなければ、前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれることを決定し、
前記基本周波数情報がゼロであれば、前記音響学マイクで収集された音声信号の信号強度を検出し、検出された前記音響学マイクで収集された音声信号の信号強度が低ければ、前記音響学マイクで収集された音声信号において、前記基本周波数情報に対応する音声フレームに音声信号が含まれないことを決定する、
ことを特徴とする請求項12に記載の装置。
前記高周波数分布情報決定モジュールは、
前記基本周波数情報に倍数をかけ、倍数乗算した基本周波数情報を得る倍数乗算モジュールと、
予め決められた周波数拡張値により、前記倍数乗算した基本周波数情報を拡張し、音声の高周波数分布区間を取得し、それを前記音声の高周波数分布情報とする基本周波数情報
拡張モジュールとを含む、
ことを特徴とする請求項13に記載の装置。
前記周波数単位の音声アクティビティ検出モジュールは、
前記音響学マイクで収集された音声信号において、フレーム単位の音声アクティビティ検出結果から音声信号を含むことが示されている音声フレームのうち、周波数が高周波数であるものを、音声信号を含む周波数として決定し、周波数が高周波数でないものを、音声信号を含まない周波数として決定する周波数単位の音声アクティビティ検出サブモジュールを含む、
ことを特徴とする請求項13に記載の装置。
前記非音響学マイクで収集された音声信号は有声音信号であり、
前記音声ノイズ軽減モジュールは、
前記有声音信号に含まれる各音声フレームの時点により、前記2次ノイズ軽減後の音響
学マイクで収集された音声信号から同じ時点の音声フレームを取得し、それを処理対象音声フレームとする音声フレーム取得モジュールと、
前記処理対象音声フレームの各周波数をゲインアップし、ゲインアップされた音声フレームを取得し、前記ゲインアップされた各音声フレームは3次ノイズ軽減後の音響学マイ
クで収集された有声音信号を構成するゲインアップモジュールとをさらに含み、
そのうち、ゲインアップ処理は、周波数が高周波数であるものに第1ゲイン値をかけ、
周波数が高周波数でないものに第2ゲイン値をかけ、前記第1ゲイン値が前記第2ゲイン値
より大きい、
ことを含むことを特徴とする請求項13に記載の装置。
前記ノイズ軽減後の音声信号はノイズ軽減後の有声音信号であり、該装置は、
前記ノイズ軽減後の有声音信号を無声音予測モデルに入力し、前記無声音予測モデルから出力された無声音信号を取得し、前記無声音予測モデルは無声音信号及び有声音信号のそれぞれ現れる開始時刻と終了時刻を記録している訓練音声信号を予め用いて訓練されたものである無声音信号予測モジュールと、
前記無声音信号及び前記ノイズ軽減後の有声音信号を組み合せ、組み合わせた音声信号を得る音声信号組合モジュールとをさらに含む、
ことを特徴とする請求項10ないし17のいずれかの1項に記載の装置。
サーバーであって、プログラムを格納する少なくとも1つのメモリと、前記メモリに格
納されているプログラムを呼び出す少なくとも1つのプロセッサーとを含み、前記プログ
ラムは、
音響学マイク及び非音響学マイクで同期的に収集された音声信号を取得することと、
前記非音響学マイクで収集された音声信号により音声アクティビティ検出を行い、音声アクティビティ検出結果を得ることと、
前記音声アクティビティ検出結果により前記音響学マイクで収集された音声信号に対してノイズ軽減を行い、ノイズ軽減後の音声信号を得ることと、
を実行することを特徴とするサーバ。
コンピュータープログラムを格納する記憶媒体であって、前記コンピュータープログラムはプロセッサーによって実行される時、請求項1ないし9のいずれかの1項に記載の音声
ノイズ軽減方法の各ステップを実現することを特徴とする記憶媒体。