JP2022095689A5

JP2022095689A5 -

Info

Publication number: JP2022095689A5
Application number: JP2022044968A
Authority: JP
Filing date: 2022-03-22
Publication date: 2023-06-16

Description

本開示は、データ処理技術分野に関し、具体的には車両のインターネット、スマートコックピット、スマートボイス、音声認識等の人工知能技術分野に関し、特に音声データノイズ低減方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムに関する。

電子情報技術とインテリジェンスが徐々に車両に広がることに伴い、車載端末はますます多くの機能を持つようになる。しかし、車載端末は、その複雑さと適応の難しさのために、交換が難しく、技術の更新の速度に追いついていない。

小型で適応がそれほど難しくない車載電子機器（スマートバックミラーなど）を後付けて、古い車載端末と連携してユーザーエクスペリエンスを共同で向上させる方法が提供されている。つまり、スマートバックミラーは、収集したデータ、又は表示、再生すべきデータを、車載端末に送信して表示または再生することができる。

本開示の実施例は、音声データノイズ低減方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムを提供する。

第１の形態では、本開示の実施例は、伝送された再生すべき第１の音声データを受信することと、第１の音声データの再生中に合成音声割り込み信号が検出されなかったことに応じて、事前設定された第１のノイズ低減アルゴリズムを呼び出して第１の音声データ以外のノイズデータをフィルタリングすることとを含む音声データノイズ低減方法を提供する。

第２の形態では、本開示の実施例は、伝送された再生すべき第１の音声データを受信するように配置される第１の音声データ受信ユニットと、第１の音声データの再生中に合成音声割り込み信号が検出されなかったことに応じて、事前設定された第１のノイズ低減アルゴリズムを呼び出して第１の音声データ以外のノイズデータをフィルタリングするように配置される第１のノイズ低減ユニットとを含む音声データノイズ低減装置を提供する。

第３の形態では、本開示の実施例は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されたメモリと、メモリは、少なくとも１つのプロセッサによって実行可能な命令を記憶しており、当該命令は、少なくとも１つのプロセッサによって実行され、少なくとも１つのプロセッサに実行されると、第１の形態のいずれかの実現方式に説明される音声データノイズ低減方法が実現される電子機器を提供する。

第４の形態では、本開示の実施例は、コンピュータを実行させると、第１の形態のいずれかの実現方式に説明される音声データノイズ低減方法を実現するためのコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供する。

第５の形態では、本開示の実施例は、プロセッサによって実行されると、第１の形態のいずれかの実現方式に説明される音声データノイズ低減方法を実現するコンピュータプログラムを提供する。

本開示の実施例に係る音声データノイズ低減方法は、まず、伝送された再生すべき第１の音声データを受信し、次に、第１の音声データの再生中に合成音声割り込み信号が検出されなかった場合、事前設定された第１のノイズ低減アルゴリズムを呼び出して第１の音声データ以外のノイズデータをフィルタリングする。当該方法は、車載端末が他の電子機器から伝送された音声データを受信して再生するシーンでは、合成音声割り込み信号を検出したかどうかに応じて、異なるノイズ低減方法を選択し、特に合成音声割り込み信号が検出されていない場合に、間もなく現れる人声の特徴を可能な限り強調するノイズ低減モードに代わり、第１の音声データの原音の特徴を可能な限り強調するノイズ低減モードが採用されており、これにより、人声が現れていないシーンでは第１の音声データの原音を可能な限り維持することができ、同時に、当該ノイズ低減モードでのデータ演算速度がより速いため、遅延がより少なくなる。

このセクションで説明される内容は、本開示の実施例の主な又は重要な特徴を特定することを意図するものではなく、また、本開示の範囲を制限することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。

以下の図面を参照して非限定的な実施例の詳細な説明を読むことにより、本開示の他の特徴、目的、および利点がより明らかになる。
本開示が適応可能な例示的なシステムアーキテクチャである。本開示の実施例に係る音声データノイズ低減方法のフローチャートである。本開示の実施例に係る別の音声データノイズ低減方法の流れフローチャートである。本開示の実施例に係る、アプリケーション下での音声データノイズ低減方法のフローチャート模式図である。本開示の実施例に係る音声データノイズ低減装置の構造ブロック図である。本開示の実施例に係る、音声データノイズ低減方法を実行するのに適した電子機器の概略模式図である。

以下、理解を容易にするために、本開示の実施例の様々な詳細を含む図面を参照しながら、本開示の例示的な実施例を説明し、これらは、単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に説明される実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明確かつ簡潔にするために、以下の説明では、よく知られている機能及び構造の説明を省略している。ただし、本開示における実施例及び実施例における特徴は、矛盾がない場合、互いに組み合わせることができる。

本開示の技術的解決策では、関連するユーザの個人情報の取得、保存、および適用は、関連する法律および規制に準拠し、必要な機密保持措置が講じられており、公序良俗に違反していない。

図１は本開示の音声データノイズ低減方法、装置、電子機器及コンピュータ読み取り可能な記憶媒体が適応可能な実施例の例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、端末機器１０１（図ではスマートバックミラーを例とする）、車載端末１０２を含んでもよい。端末機器１０１は、例えばＵＳＢデータケーブルを介した有線通信、Ｗｉ－Ｆｉ（登録商標）、ブルートゥース（登録商標）、ローカルエリアネットワークなどの無線通信方法などの様々な方法で、車載端末１０２とのデータ通信を確立することができる。

ユーザは、端末機器１０１を制御して、収集または格納されたデータ、例えば音声、画像データ等を車載端末１０２に送信して表示することができ、車載端末の既存の機能ハードウェアを最大限に活用することができる。具体的には、上記過程は、例えばオーディオ収集類アプリケーション、オーディオ伝送類アプリケーション、ノイズ低減類アプリケーション等の、端末機器１０１及び車載端末１０２にインストールすることができるアプリケーションによって実現することができる。

車載端末１０２は、様々な組み込みアプリケーションを通じて様々なサービスを提供することができる。騒音低減サービスを提供することができる騒音低減アプリケーションを例にとると、車両端末１０２は、そのようなアプリケーションを実行する時に以下の効果を達成することができる。まず、端末機器１０１から伝送された第１の音声データをＵＳＢデータケーブルで受信し、第１の音声データの再生中に合成音声割り込み信号が検出されなかった場合、事前設定された第１のノイズ低減アルゴリズムを呼び出して第１の音声データ以外のノイズデータをフィルタリングする。

図１における端末機器１０１、車載端末の数は、単なる例示であることが理解される。実現の必要性に応じて、任意の数の端末機器１０１、車載端末が存在し得る。

図２を参照すると、図２は、本開示の実施例に係る音声データノイズ低減方法のフローチャートであり、フロー２００は、次のステップを含む。

ステップ２０１：伝送された再生すべき第１の音声データを受信する。

本ステップの目的は、音声データノイズ低減方法の実行体（例えば、図１に示す車載端末１０２）によって、伝送された再生すべき第１の音声データを受信することである。

第１の音声データは、端末機器（例えば図１に示す端末機器１０１）上で動作するアプリケーションによって生成されたオーディオであってもよく、当該端末機器によって収集された特定の場所または周辺の場所に現れる音声信号であってもよく、読み取られた、他のユーザによって投稿または公開されたオーディオであってもよく、ここでは特に制限されない。当該端末機器は、表現形態の相違に応じて、具体的には、スマートバックミラー、スマートドライビングレコーダー、スマートカー再生機器等であってもよく、音声データを伝送できる他の機能を備えた他の車載機器であってもよく、ここでは特に制限されない。

ステップ２０２：第１の音声データの再生中に合成音声割り込み信号が検出されなかったことに応じて、事前設定された第１のノイズ低減アルゴリズムを呼び出して第１の音声データ以外のノイズデータをフィルタリングする。

ステップ２０１に基づいて、本ステップは、第１の音声データの再生中に合成音声割り込み信号が検出されなかったことに基づいて確立されており、上記実行体によって、事前設定された第１のノイズ低減アルゴリズムを呼び出して第１の音声データ以外のノイズデータをフィルタリングすることを目的し、つまり、第１の音声データにおける原音の特徴を可能な限り強調することを目的とする。

第１のノイズ低減アルゴリズムの呼び出しは、実行体のノイズ低減モードを切り替えることで実現でき、例えば、第１のノイズ低減アルゴリズムは事前設定された第１のノイズ低減モードで唯一のノイズ低減アルゴリズムであり、その場合、第１のノイズ低減アルゴリズムの呼び出しは、現在のノイズ低減モードを第１のノイズ低減モードに切り替えることで実現でき、従って、第１のノイズ低減モードでの第１のノイズ低減アルゴリズムは動作状態にある。

第１の音声データにおける原音の特徴を可能な限り強調することは、実際に、例えば、風切り音、エンジン音、振動、摩擦音など、車内のいくつかの干渉音を除去することと同等であることを理解されるべきである。このようなノイズの除去は、ノイズの特徴の分析、マッチング、ターゲットのフィルタリングの方式によって実現できる。このようなノイズの除去方式は比較的成熟しており、処理されるデータの量が少ないため、遅延を可能な限り低くすることができる。

合成音声割り込み信号は、ＴＴＳ割り込み信号とも呼ばれ、そのうち、ＴＴＳは英語のフルネームＴｅｘｔＴｏＳｐｅｅｃｈの英語の略語であり、ＴＴＳ音声とは、機械の音声を指し、ＴＴＳ割り込み信号は、実際には、機械をトリガーして機械の音声を生成することと同じであり、つまり、ＴＴＳ割り込み信号は、機械が機械の音声を生成または発信するときに生成される象徴的な信号である。ＴＴＳ音声は主にさまざまな音声アシスタントによって発せられるため、合成音声割り込み信号が検出されたことは、通常、音声アシスタントがトリガーされることと同じである。

本開示の実施例に係る音声データノイズ低減方法は、車載端末がスマート車載機器から伝送される音声データを受信して再生するシーンで、合成音声割り込み信号を検出したかどうかに応じて、異なるノイズ低減方法を選択し、特に合成音声割り込み信号が検出されていない場合に、間もなく現れる人声特徴を可能な限り強調するノイズ低減モードに代わり、第１の音声データの原音の特徴を可能な限り強調するノイズ低減モードが採用されており、これにより、人声が現れていないシーンでは第１の音声データの原音を可能な限り維持することができ、同時に、当該ノイズ低減モードでのデータ演算速度がより速いため、遅延がより少なくなる。

上記の実施例に基づいて、第１の音声データの再生中に合成音声割り込み信号が検出された状況に対して、事前設定された第２のノイズ低減アルゴリズムを呼び出して第２の音声データにおける人声データ以外の音声データをフィルタリングすることも選択できる。そのうち、第２の音声データは、合成音声割り込み信号に基づいて生成され、生成後に上記実行体に伝送される。上記の、合成音声割り込み信号の具体的な表現に対する説明と組み合わせると、第２の音声データは、通常、音声アシスタントをトリガーしたユーザによって発行された後続の音声命令であると考えることもできる。

ステップ２０２で対象とする、合成音声割り込み信号が検出されていないシーンとは異なり、本ステップは、第１の音声データの再生中に合成音声割り込み信号が検出されたことに基づいており、上記実行体事前設定された第２のノイズ低減アルゴリズムを呼び出して第２の音声データにおける人声データ以外の音声データをフィルタリングする、つまり、第２の音声データにおける人声データを可能な限り強調する。

第２のノイズ低減アルゴリズムの呼び出しは、実行体のノイズ低減モードを切り替えることで実現でき、例えば、第２のノイズ低減アルゴリズムは事前設定された第２のノイズ低減モードで唯一のノイズ低減アルゴリズムであり、その場合、第２のノイズ低減アルゴリズムの呼び出しは、現在のノイズ低減モードを第２のノイズ低減モードに切り替えることで実現でき、従って、第２のノイズ低減モードでの第１のノイズ低減アルゴリズムは動作状態にある。

第１のノイズ低減アルゴリズムが第１の音声データにおける原音の特徴を強調するという特性と異なり、第２のノイズ低減アルゴリズムは、音声アシスタントがウェイクアップされたとき、第２の音声データにおける人声データを可能な限り強調することにより、人声に含まれる情報の認識精度を向上させる。従って、第２のノイズ低減アルゴリズムでは、第１の音声データも一種のノイズとして扱われる。

このステップは、ステップ２０２で対象とするシーンと異なる別のシーンを対象とし、つまり、両者は、異なるシーンに対して異なる処理方式を提供する。

つまり、２つの異なるシーンを同時に含む実施例では、当該実施例は、合成音声割り込み信号を検出したかどうかに応じて、異なるシーンで音声データに対してシーンのニーズに最適なノイズ低減処理を施すように、２つの異なるノイズ低減アルゴリズムをそれぞれ事前に構成しており、合成音声割り込み信号が検出されていない場合、第１の音声データの原音の特徴を可能な限り強調し、合成音声割り込み信号が検出された場合、第２の音声データにおける人声特徴を可能な限り強調する。

上記の任意の実施例に基づいて、前回合成音声割り込み信号が検出されてからの期間が事前設定された期間を超えた場合、第１のノイズ低減アルゴリズムを再度呼び出して、第１の音声データ以外のノイズデータをフィルタリングすることができる。前の実施例に係る第２のノイズ低減モードと組み合わせると、第２のノイズ低減モードから第１のノイズ低減モードに戻ることとして簡単に理解することもできる。また、着信要求が検出されると、第１の音声データの再生を一時停止して、電話の音声の品質を最大限に確保することもできる。

図３を参照すると、図３は、本開示の実施例に係る別の音声データノイズ低減方法のフローチャートであり、フロー３００、次のステップを含む。

ステップ３０１：スマートバックミラーから伝送される第１の音声データを受信して再生する。

本実施例は、具体的には、スマートバックミラーを例として具体的な実現スキームを展開する。

ステップ３０２：第１の音声データの再生中に合成音声割り込み信号が検出されたかどうかを判断し、検出されてない場合、ステップ３０３を実行し、さもないと、ステップ３０５を実行する。

ステップ３０３：事前設定された車内の従来型ノイズ特徴セットに基づいて、車内の従来型ノイズを識別する。

車内の従来型ノイズ特徴セットは、風切り音特徴、エンジンノイズ特徴、振動ノイズ特徴、摩擦ノイズ特徴のうちの少なくとも１つを含む。もちろん、車内の従来型ノイズは、車内に現れる可能性のある他の種類のノイズも含まれる可能性がある。

ステップ３０４：第１の音声データと混合して再生される車内の従来型ノイズを除去する。

ステップ３０３－ステップ３０４は、具体的には、事前設定された様々なノイズ特徴を通じて、車内の従来型ノイズをターゲットとして除去するためのスキームを提供し、具体的には、ノイズが属する周波数帯域を直接確定して、周波数帯域に基づくフィルタリング方法を行うことにより実現することができる。上記実行体が時間遅延要件を満たす演算能力を有する場合、より良いノイズ除去効果を達成するために、訓練によってノイズ除去モデルを得る方式により実現することもできる。

ステップ３０５：事前設定された車内の従来型ノイズ特徴セットに基づいて、車内の従来型ノイズを識別する。

ステップ３０６：第１の音声データを車内の追加ノイズとする。

ステップ３０７：第２の音声データと混合して再生される車内の従来型ノイズ及び車内の追加ノイズを除去する。

ステップ３０５－ステップ３０７では、ステップ３０３で使用されたのと同じ方式で車内の従来型ノイズを確定するだけでなく、ステップ３０６により第１の音声データを車内の追加ノイズとし、次に、ステップ３０７において、第２の音声データと混合して再生される車内の従来型ノイズ及び車内の追加ノイズを除去する。第２の音声データは、通常、音声アシスタントをトリガーしたユーザによって発行された後続の音声命令であるため、ほとんどが人声データである。従って、ノイズ低減の中心は他の干渉要因を除去するためにのみ使用すればよい。

フロー２００に示す実施例に基づいて、本実施例は、図３に示すフロー３００を介してより具体的な実現方式を提供する。ステップ３０２で、現在のシーンを判定し、合成音声割り込み信号が検出されていないシーンに対して、第１の音声データの原音の特徴を可能な限り維持するように、具体的にステップ３０３－ステップ３０４の処理方式を提供し、合成音声割り込み信号が検出されたシーンに対して、第２の音声データにおける人声データを可能な限り強調するように、具体的にステップ３０５－ステップ３０７の処理方式を提供する。

上記の任意の実施例に基づいて、第２の音声データにおける人声データを可能な限り強調するために、自動利得制御（ＡｕｔｏｍａｔｉｃＧａｉｎＣｏｎｔｒｏｌ、ＡＧＣ）技術及び非線形歪み技術を順次に使用して、第１の音声データ、第２の音声データ及び車内の従来型ノイズで形成された混合音声信号を処理することもでき、このように、ＡＧＣ技術によるある部分のオーディオへの利得処理及び非線形歪み技術処理による歪み処理により、人声の特徴を可能な限り強調する。同時に、非線形歪み技術はＡＧＣ技術によって処理されたオーディオデータに対してより敏感であるため、両者は、最初にＡＧＣを使用し、次に非線形歪み処理を使用するという処理方式により、単独で使用するよりもはるかに優れた処理効果を実現できる。

具体的な処理ステップは、
まず、自動利得制御技術で混合音声信号における人声を利得増幅して、人声利得後の音声データを取得することであって、当該混合音声信号は第１の音声データ、第２の音声データ及び車内の従来型ノイズを混合することによって形成されることと、
次に、人声を増幅した後の音声データにおける人間以外の声を非線形歪み技術で歪み処理して、第２の音声データにおける人声データ以外の音声データがフィルタリングされた音声データを取得することとを含む。

上記の任意の実施例に基づいて、第１の音声データにおける人声データが上記実行体に合成音声割り込み信号を誤って生成させる可能性があることを考慮すると、合成音声割り込み信号のトリガーメカニズムが第１の音声データにおける人声データを遮蔽するように制御することもでき、トリガーメカニズムは、車載端末に配置される音声アシスタントのウェイクアップメカニズムを含む。

理解を深めるために、本開示は、具体的な適用シーンと組み合わせて、具体的な実現スキームを提供する。

本開示の実施例は、すべてのシーンを通常のシーンと割り込みシーンに分割する。

通常のシーン：内部ノイズに音楽などの干渉音が含まれていても、人声とは十分に異なるため、区別と除去が容易であり、環境ノイズの大部分は定常状態のノイズであるため、ノイズ低減は難しくないため、全体的な音声インタラクション効果のために、ノイズ低減処理をわずかに増やすだけで最良の効果が得られ、ノイズ低減の程度を上げると、逆に、人声が抑制されるため、効果が悪化する。

割り込みシーン：放送中の内部ノイズＴＴＳサウンドを除去する必要があるが、残りの人声は非常に似ているため、より理想的な効果を得るには、ノイズ低減の程度は十分に強くする必要があり、更にＡＧＣ及び非線形歪み処理などの特殊な操作も追加する必要がある。

通常のシーンの特性及びこのシーンでのノイズ低減要件に対して、本開示の実施例は、他のソースからの人声に対する抑制程度が小さいノイズ低減モードＡが事前に構成され、割り込みシーンの特性及びこのシーンでのノイズ低減要件に対して、本開示の実施例は、他のソースからの人声に対する抑制程度が大きいノイズ低減モードＢが事前に構成される。

図４に示すフローチャート模式図を参照する。

１）車載端末での音声アシスタントが初期化され、通常のシーンでのノイズ低減モードＡに入る。

２）ユーザは、スタンバイ状態にある音声アシスタントを手動または音声でウェイクアップすると、音声アシスタントはウェルカムメッセージをブロードキャストする。

３）ユーザは実行したい音声命令を話す。

４）音声アシスタントは、受信した音声命令を認識し、対話管理モジュールを介して、音声命令を機械が認識できるセマンティック結果に変換する。

５）音声アシスタントは、セマンティック結果に従って割り込みモードに入るかどうかを判断し、
ａ．割り込みモードに入る必要がある場合、現在のノイズ低減モードをノイズ低減モードＢに切り替え、ユーザ命令に対応するＴＴテキストブロードキャスト中に、可能性のある人声の録音を開始し、
ｂ．割り込みモードに入る必要がない場合、ノイズ低減モードを変更しない。

６）音声アシスタントがＴＴＳ音声の終了をブロードキャストし、マルチラウンドインタラクションに入る必要があるかどうかを判断し、
ａ．マルチラウンドに入る必要がある場合、ノイズ低減モードをノイズ低減モードＡに復元し、可能な命令を記録し続け、
ｂ．マルチラウンドに入る必要がない場合と、ノイズ低減モードをノイズ低減モードＡに復元し、音声インタラクションを終了させ、ユーザの次の音声ウェイクアップを待つ。

上記から分かるように、本開示の実施例に係る上記スキームは、異なるシーンを区別して、２種類の異なるタイプのノイズ環境を分類することにより、２種類のシーンに対してより理想的な効果を達成し、より良い全体的な効果を得ることができる。つまり、通常のシーンでは、ノイズ低減強度が小さい低減モードＡであって、人声の質を可能な限り維持しながら、内部および外部のノイズを除去するノイズ低減モードＡが採用され、割り込みシーンでは、複雑な人声のノイズをより効果的に除去して音声認識効果を向上させることができるノイズ低減モードＢが採用される。

上記２つのシーンの分割とモードの定義により、本発明は、遅延ジッタのために追加する必要のある特別な処理の範囲を最小化し、通常のシーンでのウェイクアップ率と認識率を保証し、割り込みシーンで発生されたＴＴＳの誤入力の問題を回避することができる。

さらに図５を参照すると、上記各図に示す方法に対する実現として、本開示は音声データノイズ低減装置の１つ実施例を提供し、当該装置の実施例は図２に示す方法の実施例と対応し、当該装置は具体的に様々な電子機器に適用することができる。

図５に示すように、本実施例の音声データノイズ低減装置５００は、第１の音声データ受信ユニット５０１、第１のノイズ低減ユニット５０２を含んでもよい。第１の音声データ受信ユニット５０１は、伝送された再生すべき第１の音声データを受信するように配置され、第１のノイズ低減ユニット５０２は、第１の音声データの再生中に合成音声割り込み信号が検出されなかったことに応じて、事前設定された第１のノイズ低減アルゴリズムを呼び出して第１の音声データ以外のノイズデータをフィルタリングするように配置される。

本実施例では、音声データノイズ低減装置５００において、第１の音声データ受信ユニット５０１、第１のノイズ低減ユニット５０２の具体的な処理及びそれらによってもたらされる技術的効果は、図２の対応する実施例のステップ２０１－２０２の関連する説明を参照することができ、ここでは繰り返しない。

本実施例のいくつかのオプションの実現方式では、音声データノイズ低減装置５００は、
第１の音声データの再生中に合成音声割り込み信号が検出されたことに応じて、合成音声割り込み信号に基づいて伝送された第２の音声データを受信し、事前設定された第２のノイズ低減アルゴリズムを呼び出して第２の音声データにおける人声データ以外の音声データをフィルタリングするように配置される第２のノイズ低減ユニット５０３を更に含んでもよい。

本実施例のいくつかのオプションの実現方式では、第１のノイズ低減ユニットは、更に
事前設定された車内の従来型ノイズ特徴セットに基づいて、車内の従来型ノイズを識別し、
第１の音声データと混合して再生される車内の従来型ノイズを除去するように配置されてもよい。

本実施例のいくつかのオプションの実現方式では、第２のノイズ低減ユニットは、更に、
事前設定された車内の従来型ノイズ特徴セットに基づいて、車内の従来型ノイズを識別し、
第１の音声データを車内の追加ノイズとし、
第２の音声データと混合して再生される車内の従来型ノイズ及び車内の追加ノイズを除去するように配置されてもよい。

本実施例のいくつかのオプションの実現方式では、第２のノイズ低減ユニットは、更に、
自動利得制御技術で混合音声信号における人声を利得増幅して、人声利得後の音声データを取得し、混合音声信号は第１の音声データ、第２の音声データ及び車内の従来型ノイズを混合することによって形成され、
人声を増幅した後の音声データにおける人間以外の声を非線形歪み技術で歪み処理して、第２の音声データにおける人声データ以外の音声データがフィルタリングされた音声データを取得するように配置されてもよい。

本実施例のいくつかのオプションの実現方式では、音声データノイズ低減装置５００は、
合成音声割り込み信号のトリガーメカニズムを制御して、第１の音声データにおける人声データをシールドするように配置される異常トリガーアイテムシールドユニットを更に含み、トリガーメカニズムは、車載端末における音声アシスタント用に構成されたウェイクアップメカニズムを含んでもよい。

本実施例のいくつかのオプションの実現方式では、前記第１の音声データはスマートバックミラー、スマートドライビングレコーダー、またはスマートカー再生機器によって伝送される。

本実施例のいくつかのオプションの実現方式では、音声データノイズ低減装置５００は、
前回合成音声割り込み信号が検出されてからの期間は事前設定された期間を超えたことに応じて、第１のノイズ低減アルゴリズム再度呼び出して、第１の音声データ以外のノイズデータをフィルタリングするように配置されるノイズ低減アルゴリズムスイッチングユニットを更に含んでもよい。

本実施例は、上記方法の実施例に対応する装置の実施例として存在し、本実施例に係る音声データノイズ低減装置は、車載端末が他の電子機器から伝送された第１の音声データを受信して再生するシーンで、合成音声割り込み信号を検出したかどうかに応じて、異なるノイズ低減方法を選択し、特に合成音声割り込み信号が検出されていない場合に、間もなく現れる人声特徴を可能な限り強調するノイズ低減モードに代わり、第１の音声データの原音の特徴を可能な限り強調するノイズ低減モードが採用されており、これにより、人声が現れていないシーンでは第１の音声データの原音を可能な限り維持することができ、同時に、当該ノイズ低減モードでのデータ演算速度がより速いため、遅延がより少なくなる。

本開示の実施例によれば、本開示は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されたメモリとを含み、メモリは、少なくとも１つのプロセッサによって実行可能な命令を記憶しており、当該命令は、少なくとも１つのプロセッサによって実行され、少なくとも１つのプロセッサに実行されると、上記いずれかの実施例に説明される音声データノイズ低減方法が実現される電子機器を更に提供する。

本開示の実施例によれば、本開示は、コンピュータを実行させると、上記いずれかの実施例に説明される音声データノイズ低減方法を実現するためのコンピュータ命令が記憶されている読み取り可能な記憶媒体を更に提供する。

本開示の実施例は、プロセッサによって実行されると、上記いずれかの実施例に説明される音声データノイズ低減方法を実現するコンピュータプログラム製品を更に提供する。

図６は、本開示の実施例を実施可能な例示的な電子機器６００の模式ブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形式のデジタルコンピュータを表すことを意図している。電子機器は、例えば、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、ウェアラブル機器、及びその他の類似の計算装置など、様々な形式の移動装置を示してもよい。本明細書に示されている部材、それらの接続と関係、及びそれらの機能は単なる例であるが、本明細書の説明及び／又は要求される本開示の実現を制限することを意図はしない。

図６に示すように、機器６００は、読み取り専用（ＲＯＭ）６０２に記憶されたコンピュータプログラム又は記憶ユニット６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる計算ユニット６０１を含む。ＲＡＭ６０３には、機器６００の操作に必要な様々なプログラム及びデータが記憶されてもよい。計算ユニット６０１、ＲＯＭ６０２及びＲＡＭ６０３は、バス６０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース６０５もバス６０４に接続されている。

機器６００の複数の部材はＩ／Ｏインターフェース６０５に接続され、マウス、キーボード等の入力ユニット６０６、たとえば、様々なタイプのディスプレイ、スピーカー等の出力ユニット６０７、磁気ディスク、光ディスク等の記憶ユニット６０８、及びネットワークカード、モデム、無線通信トランシーバ等の通信ユニット６０９を含む。通信ユニット６０９は、機器６００が例えばインターネットのコンピュータネットワーク及び／又は各種の電信ネットワークを介して他の機器と情報／データを交換することを可能とする。

計算ユニット６０１は、処理能力及び計算能力を有する様々な汎用及び／又は専用の処理コンポーネントであってもよい。計算ユニット６０１のいくつかの例には、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどが含まれるが、これらに限定されるものではない。計算ユニット６０１は、上述した様々な方法及び処理、例えば、音声データノイズ低減方法を実行する。例えば、いくつかの実施例では、音声データノイズ低減方法は、記憶ユニット６０８などの機械読み取り可能な媒体に物理的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部を、ＲＯＭ６０２及び／又は通信ユニット６０９を介して機器６００にロード及び／又はインストールすることができる。コンピュータプログラムがＲＡＭ６０３にロードされ、計算ユニット６０１によって実行されると、上述した音声データノイズ低減方法の１つ又は複数のステップを実行することができる。オプションとして、別の実施例では、計算ユニット６０１は、他の任意の適切な方式で（例えば、ファームウェアによって）、音声データノイズ低減方法を実行するように構成されてもよい。

本明細書に記載のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、ロードプログラマブルロジック機器（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムにおいて実施され、この１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び／又は解釈され得、このプログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令をこのストレージシステム、この少なくとも１つの入力装置、及びこの少なくとも１つの出力装置に送信することができる。

本開示の方法を実施するためのプログラムコードは１つ又は複数のプログラミング言語の任意の組み合わせで作成することができる。これらのプログラムコードは汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができ、それによりプログラムコードはプロセッサ又はコントローラにより実行されると、フローチャート及び／又はブロック図に規定された機能／動作が実施される。プログラムコードは機械で完全に実行されてもよく、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして一部が機械で実行されかつ一部が遠隔機械で実行されるか、又は完全に遠隔機械又はサーバで実行されてもよい。

本開示の文脈において、機械読み取り可能な媒体はプログラムを含む又は記憶した有形媒体であってもよく、このプログラムは、命令実行システム、装置又は機器により使用されるか、又はそれらと組み合わせて使用されてもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、例えば電子的、磁気的、光学的、電磁的、赤外線、又は半導体のシステム、装置又は機器、又は以上の任意の組み合わせを含むことができるが、これらに限られない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のワイヤによる電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光記憶機器、磁気記憶機器、又は上記の任意の適切な組み合わせを含む。

ユーザと対話できるように、ここで記載されるシステム及び技術をコンピュータに実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニター）、ユーザがコンピュータに入力することを可能とするキーボード及びポインティング装置（例えば、マウスやトラックボール）を有する。他の種類の装置も、ユーザとの対話を提供することができ、例えば、ユーザに提供するフィードバックは、任意の形式の感覚フィードバック（例えば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック）であってもよく、そして、ユーザからの入力は、任意の形式（音響入力、音声入力、又は触覚入力を含む）で受信できる。

ここで記載されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとして）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインターフェース又はネットワークブラウザーを備えたユーザコンピュータが挙げられ、ユーザはこのグラフィカルユーザインターフェース又はこのネットワークブラウザーを介してここで記載されるシステム及び技術の実施形態と対話できる）、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムにおいて実施できる。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介して相互に接続できる。通信ネットワークの例には、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、及びインターネットが含まれる。

コンピュータシステムには、クライアントとサーバを含むことができる。クライアントとサーバは通常、互いに遠く離れており、通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、対応するコンピュータで実行され互いにクライアント－サーバの関係を持つコンピュータプログラムによって生成される。サーバは、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれるクラウドサーバであってもよく、これは、従来の物理ホストと仮想プライベートサーバ（ＶＰＳ、ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ）サービスにおいて管理が難しく、ビジネスのスケーラビリティが弱いという欠点を解決するためのクラウドコンピューティングサービスシステムのホスト製品である。

車載端末がスマート車載機器から伝送される音声データを受信して再生するシーンで、合成音声割り込み信号を検出したかどうかに応じて、異なるノイズ低減方法を選択し、特に合成音声割り込み信号が検出されていない場合に、間もなく現れる人声特徴を可能な限り強調するノイズ低減モードに代わり、第１の音声データの原音の特徴を可能な限り強調するノイズ低減モードが採用されており、これにより、人声が現れていないシーンでは第１の音声データの原音可能な限り維持することができ、同時に、当該ノイズ低減モードでのデータ演算速度がより速く、遅延がより少なくなる。

なお、上記の様々な形式のプロセスを用いて、ステップを改めて並べ替えたり、追加したり、削除したりすることができる。例えば、本開示に記載の各ステップは、本開示で開示された技術案の所望の結果が達成できる限り、並行して実施しても、順次実施しても、異なる順次で実施してもよく、本明細書ではそれについて限定しない。

上記の具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者にとって自明なように、設計要件及び他の要因に従って様々な修正、組み合わせ、サブコンビネーション及び置換を行うことができる。本開示の精神及び原則の範囲内で行われた修正、同等の置き換え及び改善等は、本開示の保護範囲に含まれるものとする。