JP2022095689A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2022095689A5 JP2022095689A5 JP2022044968A JP2022044968A JP2022095689A5 JP 2022095689 A5 JP2022095689 A5 JP 2022095689A5 JP 2022044968 A JP2022044968 A JP 2022044968A JP 2022044968 A JP2022044968 A JP 2022044968A JP 2022095689 A5 JP2022095689 A5 JP 2022095689A5
- Authority
- JP
- Japan
- Prior art keywords
- noise reduction
- audio data
- noise
- data
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Description
本開示は、データ処理技術分野に関し、具体的には車両のインターネット、スマートコックピット、スマートボイス、音声認識等の人工知能技術分野に関し、特に音声データノイズ低減方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムに関する。
電子情報技術とインテリジェンスが徐々に車両に広がることに伴い、車載端末はますます多くの機能を持つようになる。しかし、車載端末は、その複雑さと適応の難しさのために、交換が難しく、技術の更新の速度に追いついていない。
小型で適応がそれほど難しくない車載電子機器(スマートバックミラーなど)を後付けて、古い車載端末と連携してユーザーエクスペリエンスを共同で向上させる方法が提供されている。つまり、スマートバックミラーは、収集したデータ、又は表示、再生すべきデータを、車載端末に送信して表示または再生することができる。
本開示の実施例は、音声データノイズ低減方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムを提供する。
第1の形態では、本開示の実施例は、伝送された再生すべき第1の音声データを受信することと、第1の音声データの再生中に合成音声割り込み信号が検出されなかったことに応じて、事前設定された第1のノイズ低減アルゴリズムを呼び出して第1の音声データ以外のノイズデータをフィルタリングすることとを含む音声データノイズ低減方法を提供する。
第2の形態では、本開示の実施例は、伝送された再生すべき第1の音声データを受信するように配置される第1の音声データ受信ユニットと、第1の音声データの再生中に合成音声割り込み信号が検出されなかったことに応じて、事前設定された第1のノイズ低減アルゴリズムを呼び出して第1の音声データ以外のノイズデータをフィルタリングするように配置される第1のノイズ低減ユニットとを含む音声データノイズ低減装置を提供する。
第3の形態では、本開示の実施例は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶しており、当該命令は、少なくとも1つのプロセッサによって実行され、少なくとも1つのプロセッサに実行されると、第1の形態のいずれかの実現方式に説明される音声データノイズ低減方法が実現される電子機器を提供する。
第4の形態では、本開示の実施例は、コンピュータを実行させると、第1の形態のいずれかの実現方式に説明される音声データノイズ低減方法を実現するためのコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
第5の形態では、本開示の実施例は、プロセッサによって実行されると、第1の形態のいずれかの実現方式に説明される音声データノイズ低減方法を実現するコンピュータプログラムを提供する。
本開示の実施例に係る音声データノイズ低減方法は、まず、伝送された再生すべき第1の音声データを受信し、次に、第1の音声データの再生中に合成音声割り込み信号が検出されなかった場合、事前設定された第1のノイズ低減アルゴリズムを呼び出して第1の音声データ以外のノイズデータをフィルタリングする。当該方法は、車載端末が他の電子機器から伝送された音声データを受信して再生するシーンでは、合成音声割り込み信号を検出したかどうかに応じて、異なるノイズ低減方法を選択し、特に合成音声割り込み信号が検出されていない場合に、間もなく現れる人声の特徴を可能な限り強調するノイズ低減モードに代わり、第1の音声データの原音の特徴を可能な限り強調するノイズ低減モードが採用されており、これにより、人声が現れていないシーンでは第1の音声データの原音を可能な限り維持することができ、同時に、当該ノイズ低減モードでのデータ演算速度がより速いため、遅延がより少なくなる。
このセクションで説明される内容は、本開示の実施例の主な又は重要な特徴を特定することを意図するものではなく、また、本開示の範囲を制限することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。
以下の図面を参照して非限定的な実施例の詳細な説明を読むことにより、本開示の他の特徴、目的、および利点がより明らかになる。
本開示が適応可能な例示的なシステムアーキテクチャである。
本開示の実施例に係る音声データノイズ低減方法のフローチャートである。
本開示の実施例に係る別の音声データノイズ低減方法の流れフローチャートである。
本開示の実施例に係る、アプリケーション下での音声データノイズ低減方法のフローチャート模式図である。
本開示の実施例に係る音声データノイズ低減装置の構造ブロック図である。
本開示の実施例に係る、音声データノイズ低減方法を実行するのに適した電子機器の概略模式図である。
以下、理解を容易にするために、本開示の実施例の様々な詳細を含む図面を参照しながら、本開示の例示的な実施例を説明し、これらは、単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に説明される実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明確かつ簡潔にするために、以下の説明では、よく知られている機能及び構造の説明を省略している。ただし、本開示における実施例及び実施例における特徴は、矛盾がない場合、互いに組み合わせることができる。
本開示の技術的解決策では、関連するユーザの個人情報の取得、保存、および適用は、関連する法律および規制に準拠し、必要な機密保持措置が講じられており、公序良俗に違反していない。
図1は本開示の音声データノイズ低減方法、装置、電子機器及コンピュータ読み取り可能な記憶媒体が適応可能な実施例の例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、端末機器101(図ではスマートバックミラーを例とする)、車載端末102を含んでもよい。端末機器101は、例えばUSBデータケーブルを介した有線通信、Wi-Fi(登録商標)、ブルートゥース(登録商標)、ローカルエリアネットワークなどの無線通信方法などの様々な方法で、車載端末102とのデータ通信を確立することができる。
ユーザは、端末機器101を制御して、収集または格納されたデータ、例えば音声、画像データ等を車載端末102に送信して表示することができ、車載端末の既存の機能ハードウェアを最大限に活用することができる。具体的には、上記過程は、例えばオーディオ収集類アプリケーション、オーディオ伝送類アプリケーション、ノイズ低減類アプリケーション等の、端末機器101及び車載端末102にインストールすることができるアプリケーションによって実現することができる。
車載端末102は、様々な組み込みアプリケーションを通じて様々なサービスを提供することができる。騒音低減サービスを提供することができる騒音低減アプリケーションを例にとると、車両端末102は、そのようなアプリケーションを実行する時に以下の効果を達成することができる。まず、端末機器101から伝送された第1の音声データをUSBデータケーブルで受信し、第1の音声データの再生中に合成音声割り込み信号が検出されなかった場合、事前設定された第1のノイズ低減アルゴリズムを呼び出して第1の音声データ以外のノイズデータをフィルタリングする。
図1における端末機器101、車載端末の数は、単なる例示であることが理解される。実現の必要性に応じて、任意の数の端末機器101、車載端末が存在し得る。
図2を参照すると、図2は、本開示の実施例に係る音声データノイズ低減方法のフローチャートであり、フロー200は、次のステップを含む。
ステップ201:伝送された再生すべき第1の音声データを受信する。
本ステップの目的は、音声データノイズ低減方法の実行体(例えば、図1に示す車載端末102)によって、伝送された再生すべき第1の音声データを受信することである。
第1の音声データは、端末機器(例えば図1に示す端末機器101)上で動作するアプリケーションによって生成されたオーディオであってもよく、当該端末機器によって収集された特定の場所または周辺の場所に現れる音声信号であってもよく、読み取られた、他のユーザによって投稿または公開されたオーディオであってもよく、ここでは特に制限されない。当該端末機器は、表現形態の相違に応じて、具体的には、スマートバックミラー、スマートドライビングレコーダー、スマートカー再生機器等であってもよく、音声データを伝送できる他の機能を備えた他の車載機器であってもよく、ここでは特に制限されない。
ステップ202:第1の音声データの再生中に合成音声割り込み信号が検出されなかったことに応じて、事前設定された第1のノイズ低減アルゴリズムを呼び出して第1の音声データ以外のノイズデータをフィルタリングする。
ステップ201に基づいて、本ステップは、第1の音声データの再生中に合成音声割り込み信号が検出されなかったことに基づいて確立されており、上記実行体によって、事前設定された第1のノイズ低減アルゴリズムを呼び出して第1の音声データ以外のノイズデータをフィルタリングすることを目的し、つまり、第1の音声データにおける原音の特徴を可能な限り強調することを目的とする。
第1のノイズ低減アルゴリズムの呼び出しは、実行体のノイズ低減モードを切り替えることで実現でき、例えば、第1のノイズ低減アルゴリズムは事前設定された第1のノイズ低減モードで唯一のノイズ低減アルゴリズムであり、その場合、第1のノイズ低減アルゴリズムの呼び出しは、現在のノイズ低減モードを第1のノイズ低減モードに切り替えることで実現でき、従って、第1のノイズ低減モードでの第1のノイズ低減アルゴリズムは動作状態にある。
第1の音声データにおける原音の特徴を可能な限り強調することは、実際に、例えば、風切り音、エンジン音、振動、摩擦音など、車内のいくつかの干渉音を除去することと同等であることを理解されるべきである。このようなノイズの除去は、ノイズの特徴の分析、マッチング、ターゲットのフィルタリングの方式によって実現できる。このようなノイズの除去方式は比較的成熟しており、処理されるデータの量が少ないため、遅延を可能な限り低くすることができる。
合成音声割り込み信号は、TTS割り込み信号とも呼ばれ、そのうち、TTSは英語のフルネームText To Speechの英語の略語であり、TTS音声とは、機械の音声を指し、TTS割り込み信号は、実際には、機械をトリガーして機械の音声を生成することと同じであり、つまり、TTS割り込み信号は、機械が機械の音声を生成または発信するときに生成される象徴的な信号である。TTS音声は主にさまざまな音声アシスタントによって発せられるため、合成音声割り込み信号が検出されたことは、通常、音声アシスタントがトリガーされることと同じである。
本開示の実施例に係る音声データノイズ低減方法は、車載端末がスマート車載機器から伝送される音声データを受信して再生するシーンで、合成音声割り込み信号を検出したかどうかに応じて、異なるノイズ低減方法を選択し、特に合成音声割り込み信号が検出されていない場合に、間もなく現れる人声特徴を可能な限り強調するノイズ低減モードに代わり、第1の音声データの原音の特徴を可能な限り強調するノイズ低減モードが採用されており、これにより、人声が現れていないシーンでは第1の音声データの原音を可能な限り維持することができ、同時に、当該ノイズ低減モードでのデータ演算速度がより速いため、遅延がより少なくなる。
上記の実施例に基づいて、第1の音声データの再生中に合成音声割り込み信号が検出された状況に対して、事前設定された第2のノイズ低減アルゴリズムを呼び出して第2の音声データにおける人声データ以外の音声データをフィルタリングすることも選択できる。そのうち、第2の音声データは、合成音声割り込み信号に基づいて生成され、生成後に上記実行体に伝送される。上記の、合成音声割り込み信号の具体的な表現に対する説明と組み合わせると、第2の音声データは、通常、音声アシスタントをトリガーしたユーザによって発行された後続の音声命令であると考えることもできる。
ステップ202で対象とする、合成音声割り込み信号が検出されていないシーンとは異なり、本ステップは、第1の音声データの再生中に合成音声割り込み信号が検出されたことに基づいており、上記実行体事前設定された第2のノイズ低減アルゴリズムを呼び出して第2の音声データにおける人声データ以外の音声データをフィルタリングする、つまり、第2の音声データにおける人声データを可能な限り強調する。
第2のノイズ低減アルゴリズムの呼び出しは、実行体のノイズ低減モードを切り替えることで実現でき、例えば、第2のノイズ低減アルゴリズムは事前設定された第2のノイズ低減モードで唯一のノイズ低減アルゴリズムであり、その場合、第2のノイズ低減アルゴリズムの呼び出しは、現在のノイズ低減モードを第2のノイズ低減モードに切り替えることで実現でき、従って、第2のノイズ低減モードでの第1のノイズ低減アルゴリズムは動作状態にある。
第1のノイズ低減アルゴリズムが第1の音声データにおける原音の特徴を強調するという特性と異なり、第2のノイズ低減アルゴリズムは、音声アシスタントがウェイクアップされたとき、第2の音声データにおける人声データを可能な限り強調することにより、人声に含まれる情報の認識精度を向上させる。従って、第2のノイズ低減アルゴリズムでは、第1の音声データも一種のノイズとして扱われる。
このステップは、ステップ202で対象とするシーンと異なる別のシーンを対象とし、つまり、両者は、異なるシーンに対して異なる処理方式を提供する。
つまり、2つの異なるシーンを同時に含む実施例では、当該実施例は、合成音声割り込み信号を検出したかどうかに応じて、異なるシーンで音声データに対してシーンのニーズに最適なノイズ低減処理を施すように、2つの異なるノイズ低減アルゴリズムをそれぞれ事前に構成しており、合成音声割り込み信号が検出されていない場合、第1の音声データの原音の特徴を可能な限り強調し、合成音声割り込み信号が検出された場合、第2の音声データにおける人声特徴を可能な限り強調する。
上記の任意の実施例に基づいて、前回合成音声割り込み信号が検出されてからの期間が事前設定された期間を超えた場合、第1のノイズ低減アルゴリズムを再度呼び出して、第1の音声データ以外のノイズデータをフィルタリングすることができる。前の実施例に係る第2のノイズ低減モードと組み合わせると、第2のノイズ低減モードから第1のノイズ低減モードに戻ることとして簡単に理解することもできる。また、着信要求が検出されると、第1の音声データの再生を一時停止して、電話の音声の品質を最大限に確保することもできる。
図3を参照すると、図3は、本開示の実施例に係る別の音声データノイズ低減方法のフローチャートであり、フロー300、次のステップを含む。
ステップ301:スマートバックミラーから伝送される第1の音声データを受信して再生する。
本実施例は、具体的には、スマートバックミラーを例として具体的な実現スキームを展開する。
ステップ302:第1の音声データの再生中に合成音声割り込み信号が検出されたかどうかを判断し、検出されてない場合、ステップ303を実行し、さもないと、ステップ305を実行する。
ステップ303:事前設定された車内の従来型ノイズ特徴セットに基づいて、車内の従来型ノイズを識別する。
車内の従来型ノイズ特徴セットは、風切り音特徴、エンジンノイズ特徴、振動ノイズ特徴、摩擦ノイズ特徴のうちの少なくとも1つを含む。もちろん、車内の従来型ノイズは、車内に現れる可能性のある他の種類のノイズも含まれる可能性がある。
ステップ304:第1の音声データと混合して再生される車内の従来型ノイズを除去する。
ステップ303-ステップ304は、具体的には、事前設定された様々なノイズ特徴を通じて、車内の従来型ノイズをターゲットとして除去するためのスキームを提供し、具体的には、ノイズが属する周波数帯域を直接確定して、周波数帯域に基づくフィルタリング方法を行うことにより実現することができる。上記実行体が時間遅延要件を満たす演算能力を有する場合、より良いノイズ除去効果を達成するために、訓練によってノイズ除去モデルを得る方式により実現することもできる。
ステップ305:事前設定された車内の従来型ノイズ特徴セットに基づいて、車内の従来型ノイズを識別する。
ステップ306:第1の音声データを車内の追加ノイズとする。
ステップ307:第2の音声データと混合して再生される車内の従来型ノイズ及び車内の追加ノイズを除去する。
ステップ305-ステップ307では、ステップ303で使用されたのと同じ方式で車内の従来型ノイズを確定するだけでなく、ステップ306により第1の音声データを車内の追加ノイズとし、次に、ステップ307において、第2の音声データと混合して再生される車内の従来型ノイズ及び車内の追加ノイズを除去する。第2の音声データは、通常、音声アシスタントをトリガーしたユーザによって発行された後続の音声命令であるため、ほとんどが人声データである。従って、ノイズ低減の中心は他の干渉要因を除去するためにのみ使用すればよい。
フロー200に示す実施例に基づいて、本実施例は、図3に示すフロー300を介してより具体的な実現方式を提供する。ステップ302で、現在のシーンを判定し、合成音声割り込み信号が検出されていないシーンに対して、第1の音声データの原音の特徴を可能な限り維持するように、具体的にステップ303-ステップ304の処理方式を提供し、合成音声割り込み信号が検出されたシーンに対して、第2の音声データにおける人声データを可能な限り強調するように、具体的にステップ305-ステップ307の処理方式を提供する。
上記の任意の実施例に基づいて、第2の音声データにおける人声データを可能な限り強調するために、自動利得制御(Automatic Gain Control、AGC)技術及び非線形歪み技術を順次に使用して、第1の音声データ、第2の音声データ及び車内の従来型ノイズで形成された混合音声信号を処理することもでき、このように、AGC技術によるある部分のオーディオへの利得処理及び非線形歪み技術処理による歪み処理により、人声の特徴を可能な限り強調する。同時に、非線形歪み技術はAGC技術によって処理されたオーディオデータに対してより敏感であるため、両者は、最初にAGCを使用し、次に非線形歪み処理を使用するという処理方式により、単独で使用するよりもはるかに優れた処理効果を実現できる。
具体的な処理ステップは、
まず、自動利得制御技術で混合音声信号における人声を利得増幅して、人声利得後の音声データを取得することであって、当該混合音声信号は第1の音声データ、第2の音声データ及び車内の従来型ノイズを混合することによって形成されることと、
次に、人声を増幅した後の音声データにおける人間以外の声を非線形歪み技術で歪み処理して、第2の音声データにおける人声データ以外の音声データがフィルタリングされた音声データを取得することとを含む。
まず、自動利得制御技術で混合音声信号における人声を利得増幅して、人声利得後の音声データを取得することであって、当該混合音声信号は第1の音声データ、第2の音声データ及び車内の従来型ノイズを混合することによって形成されることと、
次に、人声を増幅した後の音声データにおける人間以外の声を非線形歪み技術で歪み処理して、第2の音声データにおける人声データ以外の音声データがフィルタリングされた音声データを取得することとを含む。
上記の任意の実施例に基づいて、第1の音声データにおける人声データが上記実行体に合成音声割り込み信号を誤って生成させる可能性があることを考慮すると、合成音声割り込み信号のトリガーメカニズムが第1の音声データにおける人声データを遮蔽するように制御することもでき、トリガーメカニズムは、車載端末に配置される音声アシスタントのウェイクアップメカニズムを含む。
理解を深めるために、本開示は、具体的な適用シーンと組み合わせて、具体的な実現スキームを提供する。
本開示の実施例は、すべてのシーンを通常のシーンと割り込みシーンに分割する。
通常のシーン:内部ノイズに音楽などの干渉音が含まれていても、人声とは十分に異なるため、区別と除去が容易であり、環境ノイズの大部分は定常状態のノイズであるため、ノイズ低減は難しくないため、全体的な音声インタラクション効果のために、ノイズ低減処理をわずかに増やすだけで最良の効果が得られ、ノイズ低減の程度を上げると、逆に、人声が抑制されるため、効果が悪化する。
割り込みシーン:放送中の内部ノイズTTSサウンドを除去する必要があるが、残りの人声は非常に似ているため、より理想的な効果を得るには、ノイズ低減の程度は十分に強くする必要があり、更にAGC及び非線形歪み処理などの特殊な操作も追加する必要がある。
通常のシーンの特性及びこのシーンでのノイズ低減要件に対して、本開示の実施例は、他のソースからの人声に対する抑制程度が小さいノイズ低減モードAが事前に構成され、割り込みシーンの特性及びこのシーンでのノイズ低減要件に対して、本開示の実施例は、他のソースからの人声に対する抑制程度が大きいノイズ低減モードBが事前に構成される。
図4に示すフローチャート模式図を参照する。
1)車載端末での音声アシスタントが初期化され、通常のシーンでのノイズ低減モードAに入る。
2)ユーザは、スタンバイ状態にある音声アシスタントを手動または音声でウェイクアップすると、音声アシスタントはウェルカムメッセージをブロードキャストする。
3)ユーザは実行したい音声命令を話す。
4)音声アシスタントは、受信した音声命令を認識し、対話管理モジュールを介して、音声命令を機械が認識できるセマンティック結果に変換する。
5)音声アシスタントは、セマンティック結果に従って割り込みモードに入るかどうかを判断し、
a.割り込みモードに入る必要がある場合、現在のノイズ低減モードをノイズ低減モードBに切り替え、ユーザ命令に対応するTTテキストブロードキャスト中に、可能性のある人声の録音を開始し、
b.割り込みモードに入る必要がない場合、ノイズ低減モードを変更しない。
a.割り込みモードに入る必要がある場合、現在のノイズ低減モードをノイズ低減モードBに切り替え、ユーザ命令に対応するTTテキストブロードキャスト中に、可能性のある人声の録音を開始し、
b.割り込みモードに入る必要がない場合、ノイズ低減モードを変更しない。
6)音声アシスタントがTTS音声の終了をブロードキャストし、マルチラウンドインタラクションに入る必要があるかどうかを判断し、
a.マルチラウンドに入る必要がある場合、ノイズ低減モードをノイズ低減モードAに復元し、可能な命令を記録し続け、
b.マルチラウンドに入る必要がない場合と、ノイズ低減モードをノイズ低減モードAに復元し、音声インタラクションを終了させ、ユーザの次の音声ウェイクアップを待つ。
a.マルチラウンドに入る必要がある場合、ノイズ低減モードをノイズ低減モードAに復元し、可能な命令を記録し続け、
b.マルチラウンドに入る必要がない場合と、ノイズ低減モードをノイズ低減モードAに復元し、音声インタラクションを終了させ、ユーザの次の音声ウェイクアップを待つ。
上記から分かるように、本開示の実施例に係る上記スキームは、異なるシーンを区別して、2種類の異なるタイプのノイズ環境を分類することにより、2種類のシーンに対してより理想的な効果を達成し、より良い全体的な効果を得ることができる。つまり、通常のシーンでは、ノイズ低減強度が小さい低減モードAであって、人声の質を可能な限り維持しながら、内部および外部のノイズを除去するノイズ低減モードAが採用され、割り込みシーンでは、複雑な人声のノイズをより効果的に除去して音声認識効果を向上させることができるノイズ低減モードBが採用される。
上記2つのシーンの分割とモードの定義により、本発明は、遅延ジッタのために追加する必要のある特別な処理の範囲を最小化し、通常のシーンでのウェイクアップ率と認識率を保証し、割り込みシーンで発生されたTTSの誤入力の問題を回避することができる。
さらに図5を参照すると、上記各図に示す方法に対する実現として、本開示は音声データノイズ低減装置の1つ実施例を提供し、当該装置の実施例は図2に示す方法の実施例と対応し、当該装置は具体的に様々な電子機器に適用することができる。
図5に示すように、本実施例の音声データノイズ低減装置500は、第1の音声データ受信ユニット501、第1のノイズ低減ユニット502を含んでもよい。第1の音声データ受信ユニット501は、伝送された再生すべき第1の音声データを受信するように配置され、第1のノイズ低減ユニット502は、第1の音声データの再生中に合成音声割り込み信号が検出されなかったことに応じて、事前設定された第1のノイズ低減アルゴリズムを呼び出して第1の音声データ以外のノイズデータをフィルタリングするように配置される。
本実施例では、音声データノイズ低減装置500において、第1の音声データ受信ユニット501、第1のノイズ低減ユニット502の具体的な処理及びそれらによってもたらされる技術的効果は、図2の対応する実施例のステップ201-202の関連する説明を参照することができ、ここでは繰り返しない。
本実施例のいくつかのオプションの実現方式では、音声データノイズ低減装置500は、
第1の音声データの再生中に合成音声割り込み信号が検出されたことに応じて、合成音声割り込み信号に基づいて伝送された第2の音声データを受信し、事前設定された第2のノイズ低減アルゴリズムを呼び出して第2の音声データにおける人声データ以外の音声データをフィルタリングするように配置される第2のノイズ低減ユニット503を更に含んでもよい。
第1の音声データの再生中に合成音声割り込み信号が検出されたことに応じて、合成音声割り込み信号に基づいて伝送された第2の音声データを受信し、事前設定された第2のノイズ低減アルゴリズムを呼び出して第2の音声データにおける人声データ以外の音声データをフィルタリングするように配置される第2のノイズ低減ユニット503を更に含んでもよい。
本実施例のいくつかのオプションの実現方式では、第1のノイズ低減ユニットは、更に
事前設定された車内の従来型ノイズ特徴セットに基づいて、車内の従来型ノイズを識別し、
第1の音声データと混合して再生される車内の従来型ノイズを除去するように配置されてもよい。
事前設定された車内の従来型ノイズ特徴セットに基づいて、車内の従来型ノイズを識別し、
第1の音声データと混合して再生される車内の従来型ノイズを除去するように配置されてもよい。
本実施例のいくつかのオプションの実現方式では、第2のノイズ低減ユニットは、更に、
事前設定された車内の従来型ノイズ特徴セットに基づいて、車内の従来型ノイズを識別し、
第1の音声データを車内の追加ノイズとし、
第2の音声データと混合して再生される車内の従来型ノイズ及び車内の追加ノイズを除去するように配置されてもよい。
事前設定された車内の従来型ノイズ特徴セットに基づいて、車内の従来型ノイズを識別し、
第1の音声データを車内の追加ノイズとし、
第2の音声データと混合して再生される車内の従来型ノイズ及び車内の追加ノイズを除去するように配置されてもよい。
本実施例のいくつかのオプションの実現方式では、第2のノイズ低減ユニットは、更に、
自動利得制御技術で混合音声信号における人声を利得増幅して、人声利得後の音声データを取得し、混合音声信号は第1の音声データ、第2の音声データ及び車内の従来型ノイズを混合することによって形成され、
人声を増幅した後の音声データにおける人間以外の声を非線形歪み技術で歪み処理して、第2の音声データにおける人声データ以外の音声データがフィルタリングされた音声データを取得するように配置されてもよい。
自動利得制御技術で混合音声信号における人声を利得増幅して、人声利得後の音声データを取得し、混合音声信号は第1の音声データ、第2の音声データ及び車内の従来型ノイズを混合することによって形成され、
人声を増幅した後の音声データにおける人間以外の声を非線形歪み技術で歪み処理して、第2の音声データにおける人声データ以外の音声データがフィルタリングされた音声データを取得するように配置されてもよい。
本実施例のいくつかのオプションの実現方式では、音声データノイズ低減装置500は、
合成音声割り込み信号のトリガーメカニズムを制御して、第1の音声データにおける人声データをシールドするように配置される異常トリガーアイテムシールドユニットを更に含み、トリガーメカニズムは、車載端末における音声アシスタント用に構成されたウェイクアップメカニズムを含んでもよい。
合成音声割り込み信号のトリガーメカニズムを制御して、第1の音声データにおける人声データをシールドするように配置される異常トリガーアイテムシールドユニットを更に含み、トリガーメカニズムは、車載端末における音声アシスタント用に構成されたウェイクアップメカニズムを含んでもよい。
本実施例のいくつかのオプションの実現方式では、前記第1の音声データはスマートバックミラー、スマートドライビングレコーダー、またはスマートカー再生機器によって伝送される。
本実施例のいくつかのオプションの実現方式では、音声データノイズ低減装置500は、
前回合成音声割り込み信号が検出されてからの期間は事前設定された期間を超えたことに応じて、第1のノイズ低減アルゴリズム再度呼び出して、第1の音声データ以外のノイズデータをフィルタリングするように配置されるノイズ低減アルゴリズムスイッチングユニットを更に含んでもよい。
前回合成音声割り込み信号が検出されてからの期間は事前設定された期間を超えたことに応じて、第1のノイズ低減アルゴリズム再度呼び出して、第1の音声データ以外のノイズデータをフィルタリングするように配置されるノイズ低減アルゴリズムスイッチングユニットを更に含んでもよい。
本実施例は、上記方法の実施例に対応する装置の実施例として存在し、本実施例に係る音声データノイズ低減装置は、車載端末が他の電子機器から伝送された第1の音声データを受信して再生するシーンで、合成音声割り込み信号を検出したかどうかに応じて、異なるノイズ低減方法を選択し、特に合成音声割り込み信号が検出されていない場合に、間もなく現れる人声特徴を可能な限り強調するノイズ低減モードに代わり、第1の音声データの原音の特徴を可能な限り強調するノイズ低減モードが採用されており、これにより、人声が現れていないシーンでは第1の音声データの原音を可能な限り維持することができ、同時に、当該ノイズ低減モードでのデータ演算速度がより速いため、遅延がより少なくなる。
本開示の実施例によれば、本開示は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶しており、当該命令は、少なくとも1つのプロセッサによって実行され、少なくとも1つのプロセッサに実行されると、上記いずれかの実施例に説明される音声データノイズ低減方法が実現される電子機器を更に提供する。
本開示の実施例によれば、本開示は、コンピュータを実行させると、上記いずれかの実施例に説明される音声データノイズ低減方法を実現するためのコンピュータ命令が記憶されている読み取り可能な記憶媒体を更に提供する。
本開示の実施例は、プロセッサによって実行されると、上記いずれかの実施例に説明される音声データノイズ低減方法を実現するコンピュータプログラム製品を更に提供する。
図6は、本開示の実施例を実施可能な例示的な電子機器600の模式ブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形式のデジタルコンピュータを表すことを意図している。電子機器は、例えば、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、ウェアラブル機器、及びその他の類似の計算装置など、様々な形式の移動装置を示してもよい。本明細書に示されている部材、それらの接続と関係、及びそれらの機能は単なる例であるが、本明細書の説明及び/又は要求される本開示の実現を制限することを意図はしない。
図6に示すように、機器600は、読み取り専用(ROM)602に記憶されたコンピュータプログラム又は記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる計算ユニット601を含む。RAM603には、機器600の操作に必要な様々なプログラム及びデータが記憶されてもよい。計算ユニット601、ROM602及びRAM603は、バス604を介して互いに接続されている。入力/出力(I/O)インターフェース605もバス604に接続されている。
機器600の複数の部材はI/Oインターフェース605に接続され、マウス、キーボード等の入力ユニット606、たとえば、様々なタイプのディスプレイ、スピーカー等の出力ユニット607、磁気ディスク、光ディスク等の記憶ユニット608、及びネットワークカード、モデム、無線通信トランシーバ等の通信ユニット609を含む。通信ユニット609は、機器600が例えばインターネットのコンピュータネットワーク及び/又は各種の電信ネットワークを介して他の機器と情報/データを交換することを可能とする。
計算ユニット601は、処理能力及び計算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット601のいくつかの例には、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどが含まれるが、これらに限定されるものではない。計算ユニット601は、上述した様々な方法及び処理、例えば、音声データノイズ低減方法を実行する。例えば、いくつかの実施例では、音声データノイズ低減方法は、記憶ユニット608などの機械読み取り可能な媒体に物理的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部を、ROM 602及び/又は通信ユニット609を介して機器600にロード及び/又はインストールすることができる。コンピュータプログラムがRAM 603にロードされ、計算ユニット601によって実行されると、上述した音声データノイズ低減方法の1つ又は複数のステップを実行することができる。オプションとして、別の実施例では、計算ユニット601は、他の任意の適切な方式で(例えば、ファームウェアによって)、音声データノイズ低減方法を実行するように構成されてもよい。
本明細書に記載のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブルロジック機器(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び/又は解釈され得、このプログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令をこのストレージシステム、この少なくとも1つの入力装置、及びこの少なくとも1つの出力装置に送信することができる。
本開示の方法を実施するためのプログラムコードは1つ又は複数のプログラミング言語の任意の組み合わせで作成することができる。これらのプログラムコードは汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができ、それによりプログラムコードはプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に規定された機能/動作が実施される。プログラムコードは機械で完全に実行されてもよく、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして一部が機械で実行されかつ一部が遠隔機械で実行されるか、又は完全に遠隔機械又はサーバで実行されてもよい。
本開示の文脈において、機械読み取り可能な媒体はプログラムを含む又は記憶した有形媒体であってもよく、このプログラムは、命令実行システム、装置又は機器により使用されるか、又はそれらと組み合わせて使用されてもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、例えば電子的、磁気的、光学的、電磁的、赤外線、又は半導体のシステム、装置又は機器、又は以上の任意の組み合わせを含むことができるが、これらに限られない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のワイヤによる電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラム可読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶機器、磁気記憶機器、又は上記の任意の適切な組み合わせを含む。
ユーザと対話できるように、ここで記載されるシステム及び技術をコンピュータに実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニター)、ユーザがコンピュータに入力することを可能とするキーボード及びポインティング装置(例えば、マウスやトラックボール)を有する。他の種類の装置も、ユーザとの対話を提供することができ、例えば、ユーザに提供するフィードバックは、任意の形式の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック)であってもよく、そして、ユーザからの入力は、任意の形式(音響入力、音声入力、又は触覚入力を含む)で受信できる。
ここで記載されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとして)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はネットワークブラウザーを備えたユーザコンピュータが挙げられ、ユーザはこのグラフィカルユーザインターフェース又はこのネットワークブラウザーを介してここで記載されるシステム及び技術の実施形態と対話できる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムにおいて実施できる。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して相互に接続できる。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットが含まれる。
コンピュータシステムには、クライアントとサーバを含むことができる。クライアントとサーバは通常、互いに遠く離れており、通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、対応するコンピュータで実行され互いにクライアント-サーバの関係を持つコンピュータプログラムによって生成される。サーバは、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれるクラウドサーバであってもよく、これは、従来の物理ホストと仮想プライベートサーバ(VPS、Virtual Private Server)サービスにおいて管理が難しく、ビジネスのスケーラビリティが弱いという欠点を解決するためのクラウドコンピューティングサービスシステムのホスト製品である。
車載端末がスマート車載機器から伝送される音声データを受信して再生するシーンで、合成音声割り込み信号を検出したかどうかに応じて、異なるノイズ低減方法を選択し、特に合成音声割り込み信号が検出されていない場合に、間もなく現れる人声特徴を可能な限り強調するノイズ低減モードに代わり、第1の音声データの原音の特徴を可能な限り強調するノイズ低減モードが採用されており、これにより、人声が現れていないシーンでは第1の音声データの原音可能な限り維持することができ、同時に、当該ノイズ低減モードでのデータ演算速度がより速く、遅延がより少なくなる。
なお、上記の様々な形式のプロセスを用いて、ステップを改めて並べ替えたり、追加したり、削除したりすることができる。例えば、本開示に記載の各ステップは、本開示で開示された技術案の所望の結果が達成できる限り、並行して実施しても、順次実施しても、異なる順次で実施してもよく、本明細書ではそれについて限定しない。
上記の具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者にとって自明なように、設計要件及び他の要因に従って様々な修正、組み合わせ、サブコンビネーション及び置換を行うことができる。本開示の精神及び原則の範囲内で行われた修正、同等の置き換え及び改善等は、本開示の保護範囲に含まれるものとする。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110589120.XA CN113362845B (zh) | 2021-05-28 | 2021-05-28 | 声音数据降噪方法、装置、设备、存储介质及程序产品 |
CN202110589120.X | 2021-05-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022095689A JP2022095689A (ja) | 2022-06-28 |
JP2022095689A5 true JP2022095689A5 (ja) | 2023-06-16 |
Family
ID=77528015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022044968A Pending JP2022095689A (ja) | 2021-05-28 | 2022-03-22 | 音声データノイズ低減方法、装置、機器、記憶媒体及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11798573B2 (ja) |
EP (1) | EP4020465A3 (ja) |
JP (1) | JP2022095689A (ja) |
KR (1) | KR102607120B1 (ja) |
CN (1) | CN113362845B (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362845B (zh) * | 2021-05-28 | 2022-12-23 | 阿波罗智联(北京)科技有限公司 | 声音数据降噪方法、装置、设备、存储介质及程序产品 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3257832B2 (ja) * | 1992-09-04 | 2002-02-18 | 富士通テン株式会社 | 音声認識装置用騒音低減回路 |
KR20020030144A (ko) * | 2000-10-16 | 2002-04-24 | 이대일 | 차량용 음성인식 핸드프리장치 |
US20020097884A1 (en) * | 2001-01-25 | 2002-07-25 | Cairns Douglas A. | Variable noise reduction algorithm based on vehicle conditions |
KR101239318B1 (ko) * | 2008-12-22 | 2013-03-05 | 한국전자통신연구원 | 음질 향상 장치와 음성 인식 시스템 및 방법 |
US9947333B1 (en) * | 2012-02-10 | 2018-04-17 | Amazon Technologies, Inc. | Voice interaction architecture with intelligent background noise cancellation |
JP6473972B2 (ja) * | 2013-02-12 | 2019-02-27 | 日本電気株式会社 | 音声処理装置、音声処理方法、音声処理プログラムおよび音声処理装置の取り付け方法、天井部材、ならびに車両 |
US9767784B2 (en) * | 2014-07-09 | 2017-09-19 | 2236008 Ontario Inc. | System and method for acoustic management |
CN105551498A (zh) * | 2015-10-28 | 2016-05-04 | 东莞酷派软件技术有限公司 | 一种语音识别的方法及装置 |
JP6843701B2 (ja) * | 2016-09-28 | 2021-03-17 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音響信号処理のパラメータ予測装置及びパラメータ予測方法 |
US10181323B2 (en) * | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
CN106910500B (zh) * | 2016-12-23 | 2020-04-17 | 北京小鸟听听科技有限公司 | 对带麦克风阵列的设备进行语音控制的方法及设备 |
CN106782591B (zh) * | 2016-12-26 | 2021-02-19 | 惠州Tcl移动通信有限公司 | 一种在背景噪音下提高语音识别率的装置及其方法 |
US10621981B2 (en) * | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
EP3776169A4 (en) * | 2017-12-29 | 2022-01-26 | Polk Audio, LLC | VOICE CONTROLLED SPEAKER SYSTEM WITH DEDICATED DSP SETTINGS FOR VOICE ASSISTANT AND MODE SWITCHING METHOD |
EP3732679A1 (en) * | 2017-12-29 | 2020-11-04 | Harman International Industries, Incorporated | Acoustical in-cabin noise cancellation system for far-end telecommunications |
CN110138463B (zh) * | 2018-02-02 | 2021-03-26 | 比亚迪股份有限公司 | 用于车内通信降噪的方法、车载终端及车辆 |
JP6728261B2 (ja) * | 2018-03-28 | 2020-07-22 | ソフトバンク株式会社 | 音声で操作可能な情報処理装置、制御方法及びプログラム |
CN111768794A (zh) * | 2019-03-15 | 2020-10-13 | 上海博泰悦臻网络技术服务有限公司 | 一种语音降噪方法、语音降噪系统、设备及存储介质 |
US11011182B2 (en) * | 2019-03-25 | 2021-05-18 | Nxp B.V. | Audio processing system for speech enhancement |
US10681453B1 (en) * | 2019-06-12 | 2020-06-09 | Bose Corporation | Automatic active noise reduction (ANR) control to improve user interaction |
CN111541919B (zh) * | 2020-05-13 | 2022-07-29 | 阿波罗智联(北京)科技有限公司 | 视频帧传输方法、装置、电子设备及可读存储介质 |
CN112019967B (zh) * | 2020-09-09 | 2022-07-22 | 歌尔科技有限公司 | 一种耳机降噪方法、装置、耳机设备及存储介质 |
CN113362845B (zh) * | 2021-05-28 | 2022-12-23 | 阿波罗智联(北京)科技有限公司 | 声音数据降噪方法、装置、设备、存储介质及程序产品 |
CN113470618A (zh) * | 2021-06-08 | 2021-10-01 | 阿波罗智联(北京)科技有限公司 | 唤醒测试的方法、装置、电子设备和可读存储介质 |
-
2021
- 2021-05-28 CN CN202110589120.XA patent/CN113362845B/zh active Active
-
2022
- 2022-03-22 JP JP2022044968A patent/JP2022095689A/ja active Pending
- 2022-04-18 KR KR1020220047269A patent/KR102607120B1/ko active IP Right Grant
- 2022-05-16 EP EP22173557.4A patent/EP4020465A3/en active Pending
- 2022-05-25 US US17/824,623 patent/US11798573B2/en active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11502859B2 (en) | Method and apparatus for waking up via speech | |
CN108564966B (zh) | 语音测试的方法及其设备、具有存储功能的装置 | |
KR102320708B1 (ko) | 영상 재생 방법, 장치, 전자 기기 및 판독 가능 저장 매체 | |
WO2022022536A1 (zh) | 音频播放方法、音频播放装置和电子设备 | |
CN107977185A (zh) | 音频输出控制方法和装置 | |
CN110311858B (zh) | 一种发送会话消息的方法与设备 | |
CN114203163A (zh) | 音频信号处理方法及装置 | |
EP4044178A2 (en) | Method and apparatus of performing voice wake-up in multiple speech zones, method and apparatus of performing speech recognition in multiple speech zones, device, and storage medium | |
US8868419B2 (en) | Generalizing text content summary from speech content | |
CN108874363A (zh) | 用于ar场景的对象控制方法、装置、设备及存储介质 | |
CN111540370A (zh) | 音频处理方法、装置、计算机设备及计算机可读存储介质 | |
CN110808030A (zh) | 语音唤醒方法、系统、存储介质及电子设备 | |
WO2022228377A1 (zh) | 录音方法、装置、电子设备和可读存储介质 | |
JP2022095689A5 (ja) | ||
CN113035223B (zh) | 音频处理方法、装置、设备及存储介质 | |
JP2022095689A (ja) | 音声データノイズ低減方法、装置、機器、記憶媒体及びプログラム | |
CN113823313A (zh) | 语音处理方法、装置、设备以及存储介质 | |
CN108495160A (zh) | 智能控制方法、系统、设备及存储介质 | |
CN112017651B (zh) | 电子设备的语音控制方法、装置、计算机设备和存储介质 | |
KR102556815B1 (ko) | 전자 장치 및 이의 제어 방법 | |
CN114333912B (zh) | 语音激活检测方法、装置、电子设备和存储介质 | |
CN114040317B (zh) | 音响的声道补偿方法及装置、电子设备和存储介质 | |
CN115756258A (zh) | 音频特效的编辑方法、装置、设备及存储介质 | |
CN112433697B (zh) | 一种资源展示方法、装置、电子设备及存储介质 | |
CN114333017A (zh) | 一种动态拾音方法、装置、电子设备及存储介质 |