JP7301154B2

JP7301154B2 - 音声データの処理方法並びにその、装置、電子機器及びコンピュータプログラム

Info

Publication number: JP7301154B2
Application number: JP2021558880A
Authority: JP
Inventors: 俊黄; 燕南王
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-23
Filing date: 2020-07-28
Publication date: 2023-06-30
Anticipated expiration: 2040-07-28
Also published as: CN110648680A; JP2022527527A; US20220013133A1; EP3920183A1; WO2021057239A1; EP3920183A4

Description

関連出願の相互参照
本願は、２０１９年９月２３日に中国国家知識産権局に提出された、出願番号第２０１９１０９０００６０．１号、出願名「音声データの処理方法、装置、電子機器及び読み取り可能な記憶媒体」の中国特許出願の優先権を主張し、その内容の全てが参照によって本願に組み込まれる。

本願は、インターネット技術分野に関し、具体的に言えば、本願は、音声データの処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体に関する。

音声強調（ＳｐｅｅｃｈＥｎｈａｎｃｅｍｅｎｔ）の本質は音声のノイズ低減であり、マイクで収集された音声は、一般的には、異なるノイズが伴っている音声であり、音声強調の主な目的はノイズが伴っている音声からノイズがない音声を回復することである。音声強調によって様々な干渉信号を効果的に抑制し、対象音声信号を強調することができ、音声の明瞭度及び音声の品質を向上させるだけでなく、さらに音声認識の向上に役立つ。

処理対象の音声に対して音声強調を行う場合、まず１つの汎用のノイズ低減モデルを訓練して生成し、続いて異なる発言者に対して、各発言者に対応する音声データを用いてノイズ低減モデル全体又はモデルにおける一部の層に対して自己適応訓練を行い、異なる発言者にそれぞれ対応するノイズ低減モデルを取得し且つ記憶する。実際に適用する場合、異なる発言者に対して、対応するノイズ低減モデルを取得し、且つノイズ低減モデルを用いて該発言者の音声データに対してノイズ低減処理を行う。

本願の実施例は、音声データの処理方法を提供し、該方法はサーバによって実行され、
送信側が送信した第１音声データを受信し、且つ対応する音声強調パラメータを取得するステップと、
取得した音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って、第１音声強調データを取得し、且つ前記第１音声データに基づいて第１音声強調パラメータを決定するステップと、
前記第１音声強調データを受信側に送信し、且つ前記第１音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得するステップであって、送信側が送信した第２音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第２音声データに対して音声強調処理を行う、ステップと、を含む。

本願の実施例は音声データの処理装置を提供し、該装置は、
送信側が送信した第１音声データを受信するために用いられる受信モジュールと、
対応する音声強調パラメータを取得するために用いられる取得モジュールと、
取得した音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って、第１音声強調データを取得し、且つ前記第１音声データに基づいて第１音声強調パラメータを決定するために用いられる処理モジュールと、
前記第１音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得して、送信側が送信した第２音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第２音声データに対して音声強調処理を行うために用いられる更新モジュールと、
前記第１音声強調データを受信側に送信するために用いられる送信モジュールと、を含む。

本願の実施例は、さらに電子機器を提供し、該電子機器は、
プロセッサと、メモリと、バスと、を含み、
前記バスは、前記プロセッサと前記メモリとを接続するために用いられ、
前記メモリは、操作コマンドを記憶するために用いられ、
前記プロセッサは、前記操作コマンドを呼び出すことにより、コマンドを実行してプロセッサに本願の上記音声データの処理方法に対応する操作を実行可能とするために用いられる。

本願の実施例は、さらにコンピュータ読み取り可能な記憶媒体を提供し、コンピュータ読み取り可能な記憶媒体にはコンピュータプログラムが記憶されており、該プログラムがプロセッサによって実行される場合に本願の上記音声データの処理方法を実現する。

本願の実施例における技術的解決手段をより明確に説明するために、以下では本願の実施例の説明に必要な図面を簡単に説明する。

本願の実施例が提供する音声データの処理方法が適用されるシステムのアーキテクチャ図である。本願の１つの実施例が提供する音声データの処理方法のフローチャートである。本願におけるＬＳＴＭモデルの構造概略図である。本願における音声特徴抽出の論理的なステップの概略図である。本願のもう１つの実施例が提供する音声データの処理装置の構造概略図である。本願のもう１つの実施例が提供する音声データの処理のための電子機器の構造概略図である。

以下、本願の実施例について詳細に説明し、前記実施例の例は図面に示され、その中で、全体にわたって同一若しくは類似の符号は同一若しくは類似の要素、又は同一若しくは類似の機能を有する要素を示す。以下では図面を参照して説明する実施例は例示的なものであり、本発明の説明のみに用いられ、本発明を限定するものとして解釈することができない。

当業者であれば、特に明記しない限り、本明細書で使用される単数形「一」、「１つ」、「前記」及び「該」は、複数形を含んでもよいことを理解することができる。本願の明細書で使用される「含む」という用語とは、記載された特徴、整数、ステップ、操作、要素及び／又はモジュールの存在を指すが、１つ以上の他の機能、整数、ステップ、操作、要素、モジュール及び／又はそれらのグループの存在又は追加を排除するものではないことをさらに理解されたい。要素が別の要素に「接続される」又は「結合される」と言う場合、その要素は他の要素に直接接続又は結合されてもよく、又は介在要素が存在してもよいと理解されたい。また、ここで使用される「接続」又は「結合」は、無線接続又は無線結合を含んでもよい。本明細書で使用される「及び／又は」という用語は、１つ又はより多くの関連するリストアイテムのすべて又はいずれか１つのユニット及びすべての組み合わせを含む。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）とは、デジタルコンピュータ又はデジタルコンピュータで制御される機械を利用して人間の知能をシミュレートし、延伸し且つ拡張し、環境を感知し、知識を取得し且つ知識を用いて最適な結果を得る理論、方法、技術及び応用システムのことである。言い換えれば、人工知能はコンピュータ科学の１つの包括的な技術であり、それは知能の本質を理解し、且つ人間の知能に類似する形態で反応できる新しいスマートマシンを生み出そうとしている。人工知能は様々なスマートマシンの設計原理と実現方法を研究し、機器に感知、推理及び意思決定という機能を持たせる。

人工知能技術は、ハードウェアレベルの技術とソフトウェアレベルの技術の両方を含む幅広い分野をカバーする包括的な学科である。人工知能の基本的な技術には、一般的に、センサ、特定用途向けの人工知能チップ、クラウドコンピューティング、分散メモリ、ビッグデータ処理技術、オペレーティング／インタラクションシステム、メカトロニクスなどの技術が含まれている。人工知能ソフトウェア技術は、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習又は深層学習などの数方向を含む。

音声技術（ＳｐｅｅｃｈＴｅｃｈｎｏｌｏｇｙ）の重要な技術には、自動音声認識技術（ＡＳＲ）、音声合成技術（ＴＴＳ）及び声紋認証技術がある。コンピュータを聞かせたり、見させたり、話させたり、感じさせたりすることは、マンマシンインタラクションの将来の発展方向であり、その中で音声は将来最も有望なマンマシンインタラクションの形態の１つになる。

本願の目的、技術的解決手段及び利点をより明確にするために、以下では図面と組み合わせて本願の実施形態をより詳細に説明する。

先に説明したように、処理対象の音声に対して音声強調を行う場合、異なる発言者に対して、該発言者に対応するノイズ低減モデルを取得し、且つノイズ低減モデルを用いて該発言者の音声データに対してノイズ低減処理を行う必要がある。このように各発言者に対応するノイズ低減モデルをいずれも記憶する必要があり、記憶量上の要求が高い。

したがって、本願の実施例は音声データの処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体を提供し、関連技術における上記技術的問題を解決することを目的とする。

以下では具体的な実施例によって本願の技術的解決手段及び本願の技術的解決手段が上記技術的問題を如何に解決するかについて詳細に説明する。以下のいくつかの具体的な実施例は互いに組み合わせることができ、同一又は類似の概念又はプロセスについてはいくつかの実施例において説明を省略することがある。以下では図面と組み合わせて、本願の実施例について説明する。

図１Ａは、本願の実施例が提供する音声処理方法を適用するシステムのアーキテクチャ図である。図１Ａを参照すると、該システムのアーキテクチャ図は、サーバ１１、ネットワーク１２及び端末機器１３と１４を含み、そのうち、サーバ１１はネットワーク１２を介して端末機器１３及び端末機器１４との接続を確立する。

本願のいくつかの例において、サーバ１１は送信側が送信した音声データを受信した後、受信した音声データを処理するバックグラウンドサーバである。サーバ１１は、端末機器１３及び端末機器１４と共にユーザにサービスを提供し、例えば、サーバ１１は送信側に対応する端末機器１３（端末機器１４としてもよい）が送信した音声データを処理した後、取得した音声強調データを受信側に対応する端末機器１４（端末機器１３としてもよい）に送信することでユーザに提供し、ただし、サーバ１１は単独のサーバであってもよく、複数のサーバから構成されたクラスタサーバであってもよい。

ネットワーク１２は、有線ネットワーク及び無線ネットワークを含んでもよい。図１Ａに示すように、アクセスネットワーク側では、端末機器１３及び端末機器１４は、無線方式又は有線方式によってネットワーク１２にアクセスすることができる。コアネットワーク側では、サーバ１１は、一般的には、有線方式によってネットワーク１２に接続される。当然のことながら、上記サーバ１１は無線方式によってネットワーク１２に接続されてもよい。

上記端末機器１３及び端末機器１４は、データ計算処理機能を有するスマート機器であってもよく、例えば、サーバが提供する処理後の音声強調データを再生することができる。端末機器１３及び端末機器１４は、（通信モジュールが取り付けられる）スマートフォン、パーソナルデジタルアシスタント、タブレットコンピュータ等を含むが、これらに限定されない。端末機器１３及び端末機器１４には、Ａｎｄｒｏｉｄ（登録商標）オペレーティングシステム、Ｓｙｍｂｉａｎ（登録商標）オペレーティングシステム、Ｗｉｎｄｏｗｓ（登録商標）ｍｏｂｉｌｅオペレーティングシステム及びアップルｉＰｈｏｎｅ（登録商標）ＯＳオペレーティングシステムなどを含むが、これらに限定されないオペレーティングシステムがそれぞれインストールされる。

図１Ａに示すシステムのアーキテクチャ図に基づき、本願の実施例は音声データの処理方法を提供し、該処理方法は図１Ａのサーバ１１によって実行される。図１Ｂに示すように、該方法はステップＳ１０１～Ｓ１０３を含む。

ステップＳ１０１において、送信側が送信した第１音声データを受信した場合、対応する音声強調パラメータを取得する。

いくつかの実施例において、対応する音声強調パラメータを取得する過程において、予め記憶された前記送信側に対応する音声強調パラメータを取得する。前記送信側に対応する音声強調パラメータを取得しなかった場合、予め設定された音声強調パラメータを取得する。

実際の適用において、本願の実施例は、例えば、電話会議、ビデオ会議など、ネットワークに基づく音声通信の適用シーンに適用することができる。ここで、送信側は音声データを送信する側であってもよく、例えば、ユーザＡは端末機器１３を介して発言する場合、端末機器１３は送信側としてもよく、ユーザＡの発言内容は第１音声データとしてもよく、第１音声データはネットワークを介してサーバに伝送され、サーバは第１音声データを受信すると、対応する音声強調パラメータを取得することができ、さらに第１音声データに対して音声強調処理を行う。ここで、サーバにおいてＬＳＴＭ（Ｌｏｎｇ－ＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ、長短期記憶）モデルを実行することができ、該モデルは音声データに対して音声強調処理を行うために用いることができる。

ステップＳ１０２において、取得した音声強調パラメータに基づいて前記音声データに対して音声強調処理を行って、第１音声強調データを取得し、且つ前記第１音声データに基づいて第１音声強調パラメータを決定する。

いくつかの実施例において、前記送信側に対応する音声強調パラメータを取得しなかった場合、前記予め設定された音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って、第１音声強調データを取得する。

いくつかの実施例において、前記送信側に対応する音声強調パラメータを取得した場合、前記送信側に対応する音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って第１音声強調データを取得する。

実際の適用において、送信側に対応する音声強調パラメータを取得しなかった場合、予め設定された音声強調パラメータに基づいて第１音声データに対して音声強調処理を行う。前記送信側に対応する音声強調パラメータを取得した場合、前記送信側に対応する音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行う。

いくつかの実施例において、前記送信側に対応する音声強調パラメータを取得しなかった場合、前記予め設定された音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って、第１音声強調データを取得する前記ステップ、及び前記第１音声データに基づいて第１音声強調パラメータを決定する前記ステップは、訓練後の音声強調モデルにより、前記第１音声データに対して特徴シーケンス処理を行い、第１音声特徴シーケンスを取得擦るステップであって、前記音声強調モデルには前記予め設定された音声強調パラメータが設定されているステップと、前記予め設定された音声強調パラメータを用いて前記第１音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第１音声特徴シーケンス及び前記第１音声強調パラメータを取得するステップと、前記処理後の第１音声特徴シーケンスに対して特徴逆変換処理を行い、前記第１音声強調データを取得するステップと、を含む。

いくつかの実施例において、前記送信側に対応する音声強調パラメータを取得した場合、前記送信側に対応する音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って第１音声強調データを取得する前記ステップ、及び前記第１音声データに基づいて第１音声強調パラメータを決定する前記ステップは、訓練後の音声強調モデルにより、前記第１音声データに対して特徴シーケンス処理を行い、第２音声特徴シーケンスを取得するステップと、前記送信側に対応する音声強調パラメータを用いて前記第２音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第２音声特徴シーケンス及び第２音声強調パラメータを取得するステップと、前記処理後の第２音声特徴シーケンスに対して特徴逆変換処理を行い、処理後の第２音声強調データを取得し、且つ前記処理後の第２音声強調データを前記第１音声強調データとするステップと、を含む。

ステップＳ１０３において、前記第１音声強調データを受信側に送信し、且つ前記第１音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得して、送信側が送信した第２音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第２音声データに対して音声強調処理を行うために用いる。

いくつかの実施例において、前記送信側に対応する音声強調パラメータを取得しなかった場合、前記第１音声強調パラメータに基づいて取得した予め設定された音声強調パラメータを更新し、更新後の音声強調パラメータを取得し、且つ前記第１音声強調パラメータを前記送信側に対応する音声強調パラメータとする。

いくつかの実施例において、前記送信側に対応する音声強調パラメータを取得した場合、前記第１音声強調パラメータを用いて前記送信側に対応する音声強調パラメータを更新し、更新後の音声強調パラメータを取得する。

具体的に言えば、第１音声データに基づいて第１音声強調パラメータを決定した後、記憶容器には送信側に対応する音声強調パラメータがない場合、第１音声強調パラメータを送信側に対応する音声強調パラメータとし且つ記憶容器に記憶してもよい。記憶容器には送信側に対応する音声強調パラメータが既に保存されている場合、第１音声強調パラメータで既に保存されている音声強調パラメータを置き換えてもよい。また、サーバは音声強調処理によって取得した第１音声強調データを受信側に送信し、受信側は第１音声強調データを受信した後に再生すればよい。

いくつかの実施例において、前記訓練後の音声強調モデルは、ノイズを含む第１音声サンプルデータを取得し、且つ前記第１音声サンプルデータに対して音声特徴抽出を行い、第１音声特徴シーケンスを取得し、ノイズを含まない第２音声サンプルデータを取得し、且つ前記第２音声サンプルデータに対して音声特徴抽出を行い、第２音声特徴シーケンスを取得し、前記第１音声特徴シーケンスを用いて予め設定された音声強調モデルを訓練し、訓練後の音声強調モデルから出力された第１音声特徴シーケンスを取得し、且つ前記音声強調モデルを訓練して取得した前記第１音声特徴シーケンスと前記第２音声特徴シーケンスとの類似度が予め設定された類似度閾値を超えるまで、前記音声強調モデルを訓練して取得した前記第１音声特徴シーケンスと前記第２音声特徴シーケンスとの類似度を計算し、訓練後の音声強調モデルを取得するという形態により生成される。

いくつかの実施例において、音声特徴シーケンス抽出の方式は、音声サンプルデータに対して音声のフレーム分割及びウィンドウ処理を行い、前記音声サンプルデータの少なくとも２つの音声フレームを取得するステップと、各音声フレームに対してそれぞれ高速フーリエ変換を行い、各音声フレームにそれぞれ対応する各離散パワースペクトルを取得するステップと、各離散パワースペクトルに対してそれぞれ対数計算を行い、各音声フレームにそれぞれ対応する各対数パワースペクトルを取得し、且つ各対数パワースペクトルを前記音声サンプルデータの音声特徴シーケンスとするステップと、を含む。

本願の実施例において、送信側が送信した第１音声データを受信した場合、対応する音声強調パラメータを取得し、そして取得した音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行い、第１音声強調データを取得し、且つ前記第１音声データに基づいて第１音声強調パラメータを決定し、さらに前記第１音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得して、送信側が送信した第２音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第２音声データに対して音声強調処理を行うために用い、且つ前記第１音声強調データを受信側に送信する。このように、サーバは送信側に対応する音声強調パラメータに基づいて送信側の音声データに対して音声強調処理を行うことができ、異なる送信側に対応する音声強調パラメータが異なるため、異なる送信側に対して音声強調処理を行って得た音声強調効果も異なり、複数のモデルを必要としない場合で、音声強調は依然として方向性を持つだけでなく、音声強調パラメータを記憶すればよいことを実現し、複数のモデルを記憶する必要がなく、記憶量上の要求が低い。

本願の実施例は、図１Ｂに示す音声データの処理方法を詳細に説明する。

実際の適用において、本願の実施例は、例えば、電話会議、ビデオ会議など、ネットワークに基づく音声通信の適用シーンに適用することができる。ここで、送信側は音声データを送信する側であってもよく、例えば、ユーザＡは端末機器１３を介して発言する場合、端末機器１３は送信側としてもよく、ユーザＡの発言内容は第１音声データとしてもよく、第１音声データはネットワークを介してサーバに伝送され、サーバは第１音声データを受信すると、対応する音声強調パラメータを取得することができ、さらに第１音声データに対して音声強調処理を行う。

ここで、サーバにおいてＬＳＴＭ（Ｌｏｎｇ－ＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ、長短期記憶）モデルを実行することができ、該モデルは音声データに対して音声強調処理を行うために用いることができる。

音声強調（ＳｐｅｅｃｈＥｎｈａｎｃｅｍｅｎｔ）の本質は音声のノイズ低減であり、マイクで収集された音声は、一般的には、異なるノイズが伴っている音声であり、音声強調の主な目的はノイズが伴っている音声からノイズがない音声を回復することである。音声強調によって様々な干渉信号を効果的に抑制し、対象音声信号を強調することができ、音声の明瞭度及び音声の品質を向上させることができるだけでなく、さらに音声認識の向上に役立つ。

ＬＳＴＭモデルの基本構造は図２に示すように、フロントエンドのＬＳＴＭ層、バッチ処理層及びバックエンドのＬＳＴＭを含む。ここで、Ｘは音声データにおけるフレームごとの音声であり、ｔは時間ウィンドウである。

１フレームの音声とは、音声信号における１つのショートセグメントのことである。具体的には、音声信号はマクロ的には安定しておらず、ミクロ的には安定しており、短期間の安定性（１０～３０ｍｓ以内に音声信号がほぼ変化しないと考えられる）を有し、これで音声信号をいくつかのショートセグメントに分けて処理することができ、各ショートセグメントは１フレームと呼ばれる。例えば、ある１Ｓの音声において、１フレームの音声の長さが１０ｍｓであれば、該セグメントの音声は１００フレームを含む。

ＬＳＴＭモデルが音声データを処理する場合、フロントエンドのＬＳＴＭ層、バッチ処理層及びバックエンドのＬＳＴＭは同時に異なる時間ウィンドウの音声フレームを計算し、ただし、バッチ処理層は音声データに対応する音声強調パラメータ、例えば平均値及び分散値を計算するために用いられる。

さらに、本願の実施例において、端末機器１３及び端末機器１４は、さらに以下の特徴を有することができる。

（１）ハードウェアアーキテクチャでは、機器は、中央処理装置、メモリ、入力部品及び出力部品を備え、即ち、機器は、多くの場合、通信機能を備えたマイクロコンピュータデバイスである。また、キーボード、マウス、タッチパネル、マイク、カメラなど、様々な入力形態をさらに備えてもよく、且つ必要に応じて調整して入力してもよい。また、機器は、多くの場合、レシーバ、ディスプレイなど、様々な出力形態を備え、必要に応じて調整することもできる。

（２）ソフトウェアアーキテクチャでは、機器は、ＷｉｎｄｏｗｓＭｏｂｉｌｅ、Ｓｙｍｂｉａｎ、Ｐａｌｍ、Ａｎｄｒｏｉｄ、ｉＯＳなどのようなオペレーティングシステムを備えなければならない。また、これらのオペレーティングシステムは益々オープンになり、これらのオープンなオペレーティングシステムプラットフォームに基づいて開発されたパーソナライズアプリケーションプログラムは次々と現れており、例えば通信帳、スケジュール、メモ、計算機及び各種類のゲームなどが挙げられ、個人的なユーザのニーズを大幅に満たす。

（３）通信能力では、機器は柔軟なアクセス方式及び高帯域通信性能を有し、且つ選択したサービス及び位置する環境に応じて、選択する通信方式を自動的に調整することができ、それによりユーザの使用に利便性を提供する。機器は、ＧＳＭ（ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅＣｏｍｍｕｎｉｃａｔｉｏｎ、グローバル移動体通信システム）、ＷＣＤＭＡ（登録商標）（ＷｉｄｅｂａｎｄＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ、広帯域符号分割多元接続）、ＣＤＭＡ２０００（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ、符号分割多元接続）、ＴＤＳＣＤＭＡ（ＴｉｍｅＤｉｖｉｓｉｏｎ－ＳｙｎｃｈｒｏｎｏｕｓＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ、時間分割同期符号分割多元接続）、Ｗｉ－Ｆｉ（Ｗｉｒｅｌｅｓｓ－Ｆｉｄｅｌｉｔｙ、ワイヤレスフィデリティ）及びＷｉＭＡＸ（ＷｏｒｌｄｗｉｄｅＩｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒＭｉｃｒｏｗａｖｅＡｃｃｅｓｓ、世界規模相互運用マイクロ波アクセス）などをサポートすることができ、それにより複数の方式のネットワークに適応し、音声サービスをサポートするだけでなく、複数の無線データサービスをさらにサポートする。

（４）機能の使用では、機器はヒューマニゼーション、個人化及び多機能化をさらに重視する。コンピュータ技術の発展に伴い、機器は「機器を中心とする」モードから「人を中心とする」モードに入り、組み込み計算、制御技術、人工知能技術及び生体認証技術などを集積し、人間本位の要旨を充分に表現する。ソフトウェア技術の発展により、機器は個人のニーズに応じて設定を調整することができ、より個人的になる。また、機器自体は多くのソフトウェアとハードウェアを集積し、機能も益々強くなっている。

本願の好ましい実施例において、対応する音声強調パラメータを取得する前記ステップは、
前記送信側に対応する音声強調パラメータを取得するステップと、
前記送信側に対応する音声強調パラメータを取得しなかった場合、予め設定された音声強調パラメータを取得するステップと、を含む。

具体的に言えば、サーバは第１音声データを受信した後、訓練後のＬＳＴＭモデルを用いて第１音声データに対して音声強調処理を行うことができる。訓練後のＬＳＴＭモデルは１つの汎用モデルであり、予め設定された音声強調パラメータ、即ち訓練後のＬＳＴＭモデルにおける音声強調パラメータを有し、訓練後のＬＳＴＭモデルはいずれかのユーザの音声データに対して音声強調処理を行うことができる。

本願の実施例において、異なるユーザに対して方向性のある音声強調を提供するために、ユーザの音声データを用いて訓練後のＬＳＴＭモデルを訓練し、該ユーザの音声強調パラメータを取得することができ、このように、該ユーザの音声データに対して音声強調処理を行う場合、該ユーザの音声強調パラメータを用いて該ユーザの音声データに対して音声強調処理を行うことができる。

例えば、ユーザＡの音声データを用いて訓練後のＬＳＴＭモデルを訓練し、ユーザＡの音声強調パラメータを取得する。ユーザＡの後続する音声データに対して音声強調処理を行う場合、訓練後のＬＳＴＭモデルはユーザＡの音声強調パラメータを用いて音声強調処理を行うことができる。

したがって、サーバはユーザの第１音声データを受信する場合、まず該ユーザの音声強調パラメータを取得することができる。本願の実施例において、各ユーザに対応する音声強調パラメータはサーバの記憶容器に記憶されてもよく、他の機器の記憶容器に記憶されてもよく、本発明の実施例はこれについて限定しない。

サーバは該ユーザの音声強調パラメータを取得しなかった場合、サーバは初めて該ユーザの音声データを受信することが示され、この場合に予め設定された音声強調パラメータを取得すればよい。

ステップＳ１０２において、取得した音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って、第１音声強調データを取得し、且つ前記第１音声データに基づいて第１音声強調パラメータを決定する。

本願の好ましい実施例において、前記送信側に対応する音声強調データを取得しなかった場合、取得した音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って、第１音声強調データを取得し、且つ前記第１音声データに基づいて第１音声強調パラメータを決定する前記ステップは、
訓練後の音声強調モデルにより、前記第１音声データに対して特徴シーケンス処理を行い、第１音声特徴シーケンスを取得するステップであって、前記音声強調モデルには前記予め設定された音声強調パラメータが設定されているステップと、
前記予め設定された音声強調パラメータを用いて前記第１音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第１音声特徴シーケンスを取得するステップと、
前記処理後の第１音声特徴シーケンスに対して特徴逆変換処理を行い、前記第１音声強調データを取得し、且つ第１音声データに基づいて第１音声強調パラメータを決定するステップと、を含む。

具体的に言えば、送信側に対応する音声強調パラメータを取得しなかった場合、第１音声データを訓練後のＬＳＴＭモデルに入力することができ、訓練後のＬＳＴＭモデルは第１音声データに対して特徴シーケンス処理を行い、第１音声データに対応する第１音声特徴シーケンスを取得し、ただし、第１音声特徴シーケンスは少なくとも２つの音声特徴を含み、そして予め設定された音声強調パラメータを用いて第１音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第１音声特徴シーケンスを取得し、さらに処理後の第１音声特徴シーケンスに対して特徴逆変換処理を行い、第１音声強調データを取得することができ、即ち訓練後のＬＳＴＭモデル（汎用モデル）を用いて第１音声データに対して音声強調処理を行う。ここで、バッチ処理計算は、以下の式（１）及び式（２）を用いることができる。

μ_Ｂは音声強調パラメータにおける平均値であり、

は音声強調パラメータにおける分散値であり、ｘ_ｉは入力された音声特徴であり、ｙ_ｉは出力された音声強調後の音声特徴であり、ε、γ、βはそれぞれ変量パラメータである。
また、第１音声データを用いて訓練後のＬＳＴＭモデルを訓練し、第１音声強調パラメータ、即ち送信側に対応する音声強調パラメータを取得し、そして記憶する。ここで、訓練後のＬＳＴＭモデルを訓練するために以下の式（３）及び式（４）を用いることができる。

μ_Ｂは音声強調パラメータにおける平均値であり、

は音声強調パラメータにおける分散値であり、ｘ_ｉは入力された音声特徴であり、ｍは音声特徴の数である。

なお、取得した音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行うステップと、前記第１音声データに基づいて第１音声強調パラメータを決定するステップの実行順序は、前後に実行してもよく、並列して実行してもよく、実際の適用において実際のニーズに応じて調整してもよく、本願の実施例は実行順序について限定しない。

本願の好ましい実施例において、前記送信側に対応する音声強調データを取得した場合、取得した音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って、第１音声強調データを取得し、且つ前記第１音声データに基づいて第１音声強調パラメータを決定する前記ステップは、
訓練後の音声強調モデルにより、前記第１音声データに対して特徴シーケンス処理を行い、第２音声特徴シーケンスを取得するステップと、
前記音声強調パラメータを用いて前記第２音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第２音声特徴シーケンスを取得するステップと、
前記処理後の第２音声特徴シーケンスに対して特徴逆変換処理を行い、処理後の第２音声強調データを取得し、且つ前記処理後の第２音声強調データを前記第１音声強調データとし、且つ前記第１音声強調データに基づいて第２音声強調パラメータを決定するステップと、を含む。

具体的に言えば、送信側に対応する音声強調パラメータを取得した場合、第１音声データを訓練後のＬＳＴＭモデルに入力することができ、訓練後のＬＳＴＭモデルは第１音声データに対して特徴シーケンス処理を行い、第１音声データに対応する第２音声特徴シーケンスを取得し、ただし、第２音声特徴シーケンスは少なくとも２つの音声特徴を含み、そして送信側に対応する音声強調パラメータを用いて第２音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第２音声特徴シーケンスを取得し、さらに処理後の第２音声特徴シーケンスに対して特徴逆変換処理を行うと、第２音声強調データを取得することができ、即ち送信側に対応する音声強調パラメータで訓練後のＬＳＴＭモデルにおける音声強調パラメータを置き換え、そして更新後のＬＳＴＭモデルを用いて第２音声データに対して音声強調処理を行う。ここで、バッチ処理計算は式（１）及び式（２）を用いてもよく、ここでは説明を省略する。

また、第１音声データを用いて更新後のＬＳＴＭモデルを訓練し、第２音声強調パラメータ、即ち送信側に対応する最新の音声強調パラメータを取得し、そして記憶する。ここで、更新後のＬＳＴＭモデルを訓練するために式（３）及び式（４）を用いてもよく、ここでは説明を省略する。

本願の好ましい実施例において、前記訓練後の音声強調モデルは、
ノイズを含む第１音声サンプルデータを取得し、且つ前記第１音声サンプルデータに対して音声特徴抽出を行い、第１音声特徴を取得し、
ノイズを含まない第２音声サンプルデータを取得し、且つ前記第２音声サンプルデータに対して音声特徴抽出を行い、第２音声特徴を取得し、
前記第１音声特徴を用いて予め設定された音声強調モデルを訓練し、訓練後の第１音声特徴を取得し、
前記訓練後の第１音声特徴と前記第２音声特徴との類似度が予め設定された類似度閾値を超えるまで、前記訓練後の第１音声特徴と前記第２音声特徴との類似度を計算し、訓練後の音声強調モデルを取得するという形態により生成される。

具体的に言えば、ノイズを含む第１音声サンプルデータを取得し、且つ第１音声サンプルデータに対して音声特徴抽出を行い、第１音声特徴ａを取得し、また、ノイズを含まない第２音声サンプルデータを取得し、且つ第２音声サンプルデータに対して音声特徴抽出を行い、第２音声特徴ｂを取得し、続いて音声特徴ａを元のＬＳＴＭモデルに入力し、音声特徴ｂを訓練対象とし、元のＬＳＴＭモデルに対して単方向的訓練を行い、即ちＬＳＴＭモデルにおける全てのパラメータを単方向的に調整し、訓練後の第１音声特徴ａ’を取得し、ただし、全てのパラメータは音声強調パラメータを含み、さらに訓練後の第１音声特徴ａ’と第２音声特徴ｂとの類似度が予め設定された類似度閾値を超えるまで、前記訓練後の第１音声特徴ａ’と前記第２音声特徴ｂとの類似度を計算し、それにより訓練後のＬＳＴＭモデルを取得する。

ここで、類似度計算は角度余弦、ピアソンの相関係数など、類似度測定の方式を採用してもよく、ユークリッド距離、マンデル距離など、距離測定の方式を採用してもよく、当然のことながら、他の計算方式を採用してもよく、具体的な計算方式は実際のニーズに応じて設定することができ、本願の実施例はこれについて限定しない。

本願の好ましい実施例において、音声特徴抽出の方式は、
音声サンプルデータに対して音声のフレーム分割及びウィンドウ処理を行い、前記音声サンプルデータの少なくとも２つの音声フレームを取得するステップと、
各音声フレームに対してそれぞれ高速フーリエ変換を行い、各音声フレームにそれぞれ対応する各離散パワースペクトルを取得するステップと、
各離散パワースペクトルに対してそれぞれ対数計算を行い、各音声フレームにそれぞれ対応する各対数パワースペクトルを取得し、且つ各対数パワースペクトルを前記音声サンプルデータの音声特徴とするステップと、を含む。

具体的に言えば、音声サンプルデータは音声信号であり、音声信号は時間領域信号であり、プロセッサは時間領域信号に対して処理を直接行うことができないため、音声サンプルデータに対して音声のフレーム分割及びウィンドウ処理を行う必要があり、音声サンプルデータの少なくとも２つの音声フレームを取得し、それにより時間領域信号をプロセッサが処理可能な周波数領域信号に変換し、図３に示すように、続いて各音声フレームに対してそれぞれＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍａｔｉｏｎ、高速フーリエ変換）を行い、各音声フレームに対応する離散パワースペクトルを取得し、さらに各離散パワースペクトルに対して対数計算を行い、各音声フレームにそれぞれ対応する各対数パワースペクトルを取得し、それにより各音声フレームにそれぞれ対応する音声特徴を取得し、すべての音声特徴の集合は該音声サンプルデータに対応する音声特徴シーケンスである。音声特徴シーケンスに対して特徴逆変換処理を行うと、周波数領域の音声特徴シーケンスを時間領域の音声信号に変換することができる。

なお、第１音声サンプルデータに対して特徴抽出を行う方式と第２音声サンプルデータに対して特徴抽出を行う方式は同様であるため、説明の便宜上、本願の実施例は第１音声サンプルデータ及び第２音声サンプルデータを音声サンプルデータとして総称する。

通常、訓練により発言者に対応するノイズ低減モデルを取得する場合、自己適応訓練を行う必要があり、自己適応訓練に必要なデータ量が比較的多いため、自己適応訓練の時間が比較的長く、効率が比較的低い。

本願の実施例において、第１音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得すればよく、このように、自己適応訓練を行う必要がない。

具体的に言えば、第１音声データに基づいて第１音声強調パラメータを決定した後、記憶容器には送信側に対応する音声強調パラメータがない場合、第１音声強調パラメータを送信側に対応する音声強調パラメータとし且つ記憶容器に保存することができる。記憶容器に送信側に対応する音声強調パラメータが既に保存されている場合、第１音声強調パラメータで既に保存されている音声強調パラメータを置き換えることができる。

送信側が送信した第２音声データを受信した場合、第１音声強調パラメータ、即ち更新後の音声強調パラメータに基づいて第２音声データに対して音声強調処理を行うことができる。このように、サーバは送信側が送信した最新の音声データに基づいて訓練後のＬＳＴＭモデルに対して単方向的訓練を継続的に行い、それにより送信側に対応する音声強調パラメータを継続的に更新することができ、音声強調パラメータと送信側とのマッチングレベルが益々高くなり、送信側のための音声強調効果も益々高くなる。

また、サーバは音声強調処理によって取得した第１音声強調データを受信側に送信し、受信側は第１音声強調データを受信した後に再生すればよい。

なお、サーバが音声強調パラメータの更新を行うことと音声強調データを送信することの実行順序は前後順序であってもよく、並列順序であってもよく、実際の適用において実際のニーズに応じて設定することができ、本願の実施例はこれについて限定しない。

容易に理解できるように、本願の実施例は以下の事例により詳細に説明する。

ユーザＡ、ユーザＢ及びユーザＣは電話会議を行い、サーバにおいて訓練後のＬＳＴＭモデルが実行されており、訓練後のＬＳＴＭモデルは汎用音声強調パラメータを有し、且つサーバにおける記憶容器又は他の記憶容器にはいずれもユーザＡの音声強調パラメータがないと想定する。

この場合、ユーザＡが１文目の発言を完了すると、ユーザＡに対応する端末機器は１文目の発言をサーバに送信し、サーバはユーザＡの１文目の発言を受信すると、ユーザＡに対応する音声強調パラメータを検索し、サーバにおける記憶容器又は他の記憶容器にはいずれもユーザＡの音声強調パラメータがないため、ユーザＡの音声強調パラメータを取得することができず、したがって、訓練後のＬＳＴＭモデルの汎用音声強調パラメータを取得し、且つ汎用音声強調パラメータを用いて１文目の発言に対して音声強調処理を行い、強調後の１文目の発言を取得し、且つ強調後の１文目の発言をユーザＢ及びユーザＣに対応する端末機器に送信し、また、１文目の発言を用いて訓練後のＬＳＴＭモデルに対して単方向的訓練を行い、ユーザＡの第１音声強調パラメータを取得し且つ記憶する。

ユーザＡが２文目の発言を完了すると、端末機器は２文目の発言をサーバに送信し、サーバはユーザＡの２文目の発言を受信すると、ユーザＡに対応する音声強調パラメータを検索し、今回は検索に成功し、ユーザＡの第１音声強調パラメータを取得し、且つ第１音声強調パラメータで訓練後のＬＳＴＭモデルにおける汎用音声強調パラメータを置き換え、更新後のＬＳＴＭモデルを取得し、続いて更新後のＬＳＴＭモデルを用いて２文目の発言に対して音声強調処理を行い、強調後の２文目の発言を取得し、且つ強調後の２文目の発言をユーザＢ及びユーザＣに対応する端末機器に送信し、また、２文目の発言を用いてト更新後のＬＳＴＭモデルに対して単方向的訓練を行い、ユーザＡの第２音声強調パラメータを取得し、且つ第２音声強調パラメータで第１音声強調パラメータを置き換える。後続する発言に対する音声強調処理プロセスは以下同様であり、ここでは説明を省略する。

さらに、サーバは送信側が送信した最新の音声データに基づいて訓練後のＬＳＴＭモデルに対して単方向的訓練を継続的に行い、それにより送信側に対応する音声強調パラメータを継続的に更新することができ、音声強調パラメータと送信側とのマッチングレベルが益々高くなり、送信側のための音声強調効果も益々高くなる。また、単方向的訓練を継続する過程で、音声強調パラメータを訓練すればよく、訓練後のＬＳＴＭモデル全体又はモデルにおける層全体を訓練する必要がなく、訓練のコスト及び速度を高める。

図４は本願のもう１つの実施例が提供する音声データの処理装置の構造概略図であり、図４に示すように、本実施例の装置は、
送信側が送信した第１音声データを受信するために用いられる受信モジュール４０１と、
対応する音声強調パラメータを取得するために用いられる取得モジュール４０２と、
取得した音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って、第１音声強調データを取得し、且つ前記第１音声データに基づいて第１音声強調パラメータを決定するために用いられる処理モジュール４０３と、
前記第１音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得して、送信側が送信した第２音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第２音声データに対して音声強調処理を行うために用いるために用いられる更新モジュール４０４と、
前記第１音声強調データを受信側に送信するために用いられる送信モジュール４０５と、を含む。

本願の好ましい実施例において、前記取得モジュールは、具体的には、
予め記憶された前記送信側に対応する音声強調パラメータを取得し、前記送信側に対応する音声強調パラメータを取得しなかった場合、予め設定された音声強調パラメータを取得するために用いられる。

いくつかの実施例において、前記送信側に対応する音声強調パラメータを取得しなかった場合、前記更新モジュールは、さらに、前記第１音声強調パラメータに基づいて取得した予め設定された音声強調パラメータを更新し、更新後の音声強調パラメータを取得し、且つ前記第１音声強調パラメータを前記送信側に対応する音声強調パラメータとするために用いられる。

いくつかの実施例において、前記送信側に対応する音声強調パラメータを取得した場合、前記更新モジュールは、さらに、前記第１音声強調パラメータを用いて前記送信側に対応する音声強調パラメータを更新し、更新後の音声強調パラメータを取得するために用いられる。

いくつかの実施例において、前記送信側に対応する音声強調パラメータを取得しなかった場合、前記処理モジュールは、さらに、前記予め設定された音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って、第１音声強調データを取得するために用いられる。

本願のいくつかの実施例において、前記処理モジュールは、特徴シーケンス処理サブモジュールと、バッチ処理計算サブモジュールと、特徴逆変換処理サブモジュールと、を含む。

前記送信側に対応する音声強調パラメータを取得しなかった場合、特徴シーケンス処理サブモジュールは、訓練後の音声強調モデルにより、前記第１音声データに対して特徴シーケンス処理を行い、第１音声特徴シーケンスを取得するために用いられ、前記音声強調モデルには前記予め設定された音声強調パラメータが設定されている。

バッチ処理計算サブモジュールは、前記予め設定された音声強調パラメータを用いて前記第１音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第１音声特徴シーケンス及び前記第１音声強調パラメータを取得するために用いられる。

特徴逆変換処理サブモジュールは、前記処理後の第１音声特徴シーケンスに対して特徴逆変換処理を行い、前記第１音声強調データを取得するために用いられる。

いくつかの実施例において、前記送信側に対応する音声強調パラメータを取得した場合、前記処理モジュールは、さらに、前記送信側に対応する音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って第１音声強調データを取得するために用いられる。

前記送信側に対応する音声強調パラメータを取得した場合、前記特徴シーケンス処理サブモジュールは、さらに、訓練後の音声強調モデルにより、前記第１音声データに対して特徴シーケンス処理を行い、第２音声特徴シーケンスを取得するために用いられる。

前記バッチ処理計算サブモジュールは、さらに、前記音声強調パラメータを用いて前記第２音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第２音声特徴シーケンス及び第２音声強調パラメータを取得するために用いられる。

前記特徴逆変換処理サブモジュールは、さらに、前記処理後の第２音声特徴シーケンスに対して特徴逆変換処理を行い、処理後の第２音声強調データを取得し、且つ前記処理後の第２音声強調データを前記第１音声強調データとするために用いられる。

本願の好ましい実施例において、前記訓練後の音声強調モデルは、
ノイズを含む第１音声サンプルデータを取得し、且つ前記第１音声サンプルデータに対して音声特徴抽出を行い、第１音声特徴シーケンスを取得し、
ノイズを含まない第２音声サンプルデータを取得し、且つ前記第２音声サンプルデータに対して音声特徴抽出を行い、第２音声特徴シーケンスを取得し、
前記第１音声特徴シーケンスを用いて予め設定された音声強調モデルを訓練し、訓練後の音声強調モデルが出力した第１音声特徴シーケンスを取得し、
前記音声強調モデルを訓練して取得した前記第１音声特徴シーケンスと前記第２音声特徴シーケンスとの類似度が予め設定された類似度閾値を超えるまで、前記音声強調モデルを訓練して取得した前記第１音声特徴シーケンスと前記第２音声特徴シーケンスとの類似度を計算し、訓練後の音声強調モデルを取得するという形態により生成される。

本願のいくつかの好ましい実施例において、音声特徴シーケンス抽出の方式は、
音声サンプルデータに対して音声のフレーム分割及びウィンドウ処理を行い、前記音声サンプルデータの少なくとも２つの音声フレームを取得するステップと、
各音声フレームに対してそれぞれ高速フーリエ変換を行い、各音声フレームにそれぞれ対応する各離散パワースペクトルを取得するステップと、
各離散パワースペクトルに対してそれぞれ対数計算を行い、各音声フレームにそれぞれ対応する各対数パワースペクトルを取得し、且つ各対数パワースペクトルを前記音声サンプルデータの音声特徴シーケンスとするステップと、を含む。

本実施例の音声データの処理装置は本願の第１実施例に示す音声データの処理方法を実行することができ、その実現原理は類似し、ここでは説明を省略する。

本願のもう１つの実施例は電子機器を提供し、該電子機器は、メモリ及びプロセッサを含み、少なくとも１つのプログラムは、メモリに記憶されており、プロセッサに実行される場合、以下を実現するために用いられる。本願の実施例において、送信側が送信した第１音声データを受信した場合、対応する音声強調パラメータを取得し、そして取得した音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行い、第１音声強調データを取得し、且つ前記第１音声データに基づいて第１音声強調パラメータを決定し、さらに前記第１音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得して、送信側が送信した第２音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第２音声データに対して音声強調処理を行うために用い、且つ前記第１音声強調データを受信側に送信する。このように、サーバは送信側に対応する音声強調パラメータに基づいて送信側の音声データに対して音声強調処理を行うことができ、異なる送信側に対応する音声強調パラメータが異なるため、異なる送信側に対して音声強調処理を行って得た音声強調効果も異なり、複数のモデルを必要としない場合で、音声強調は依然として方向性を持つだけでなく、音声強調パラメータを記憶すればよいことを実現し、複数のモデルを記憶する必要がなく、記憶量上の要求が低い。

いくつかの実施例において、電子機器を提供し、図５に示すように、図５に示す電子機器５０００は、プロセッサ５００１及びメモリ５００３を含む。そのうち、プロセッサ５００１とメモリ５００３は接続され、例えばバス５００２を介して接続される。電子機器５０００は、さらに、送受信機５００４を含んでもよい。なお、実際の適用において送受信機５００４は１つに限定されるものではなく、該電子機器５０００の構成は、本願の実施例を限定するものではない。

プロセッサ５００１はＣＰＵ、汎用プロセッサ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡ又は他のプログラマブルロジックデバイス、トランジスタロジックデバイス、ハードウェア部品又はそれらの任意の組み合わせであってもよい。それは本願に開示された内容に説明された様々な例示的なロジックブロック、モジュール及び回路を実現し又は実行することができる。プロセッサ５００１も、計算機能を実現する組み合わせであってもよく、例えば、１つ以上のマイクロプロセッサを含む組み合わせ、ＤＳＰとマイクロプロセッサとの組み合わせなどが挙げられる。

バス５００２は、上記モジュールの間で情報を伝送する経路を含んでもよい。バス５００２は、ＰＣＩバス又はＥＩＳＡバスなどであってもよい。バス５００２は、アドレスバス、データバス、コントロールバスなどに分けられてもよい。示しやすいために、図５では、１本の太線で示しているが、バスが１本のみ又はバスが１種類のみであることを表しない。

メモリ５００３はＲＯＭ、又は静的情報及びコマンドを記憶することができる他のタイプのスタティックメモリ、ＲＡＭ又は情報及びコマンドを記憶することができる他のタイプのダイナミックメモリであってもよく、ＥＥＰＲＯＭ、ＣＤ－ＲＯＭ若しくは他の光ディスクメモリ、光ディスクメモリ（コンパクトディスク、レーザーディスク（登録商標）、光ディスク、デジタル多用途ディスク、ブルーレイディスクなどを含む）、磁気ディスク記憶媒体若しくはその他の磁気記憶機器、又はコマンド又はデータ構造形態を備える所望のプログラムコードを携帯したり記憶したりするために用いることができ、且つコンピュータによってアクセスすることができる他の媒体であってもよいが、これらに限定されるものではない。

メモリ５００３は、本願の解決手段を実行するアプリケーションプログラムコードを記憶するために用いられ、且つプロセッサ５００１によって制御されて実行される。プロセッサ５００１は、前述したいずれか１つの方法の実施例に示される内容を実現するように、メモリ５００３に記憶されたアプリケーションプログラムコードを実行するために用いられる。

ただし、電子機器は携帯電話、ノートパソコン、デジタル放送受信機、ＰＤＡ（パーソナルデジタルアシスタント）、ＰＡＤ（タブレットコンピュータ）、ＰＭＰ（ポータブルマルチメディアプレーヤ）、車載端末（例えば車載ナビゲーション端末）などのモバイル端末及びデジタルＴＶ、デスクトップコンピュータなどの固定端末を含むが、これらに限定されるものではない。

本願の他の実施例は、コンピュータ読み取り可能な記憶媒体を提供し、該コンピュータ読み取り可能な記憶媒体にコンピュータプログラムが記憶されており、コンピュータで実行される場合、コンピュータに前述した方法の実施例における対応する内容を実行させる。本願の実施例において、送信側が送信した第１音声データを受信した場合、対応する音声強調パラメータを取得し、そして取得した音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行い、第１音声強調データを取得し、且つ前記第１音声データに基づいて第１音声強調パラメータを決定し、さらに前記第１音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得して、送信側が送信した第２音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第２音声データに対して音声強調処理を行うために用い、且つ前記第１音声強調データを受信側に送信する。このように、サーバは送信側に対応する音声強調パラメータに基づいて送信側の音声データに対して音声強調処理を行うことができ、異なる送信側に対応する音声強調パラメータが異なるため、異なる送信側に対して音声強調処理を行って得た音声強調効果も異なり、複数のモデルを必要としない場合で、音声強調は依然として方向性を持つだけでなく、音声強調パラメータを記憶すればよいことを実現し、複数のモデルを記憶する必要がなく、記憶量上の要求が低い。

なお、図面のフローチャートにおける各ステップは、矢印で示されるように順に表示されているが、これらのステップは必ずしも矢印に示される順序で順に実行される必要はない。本明細書で明示的に説明されていない限り、これらのステップの実行は厳密に順序が制限されておらず、他の順序で実行されてもよい。また、図面のフローチャートにおける少なくとも一部のステップは、複数のサブステップ又は複数の段階を含んでもよく、それらのサブステップ又は段階は、必ずしも同一のタイミングで実行されて完了するものではなく、異なるタイミングで実行されてもよく、その実行順序は必ずしも順番で行うものではなく、他のステップ又は他のステップのサブステップ若しくは段階の少なくとも一部と順番に又は交替で実行されてもよい。

以上に記載の内容は本願の一部の実施形態にすぎず、当業者であれば、本願の原理を逸脱せず、いくつかの改良及び修飾を行うことができ、これらの改良及び修飾も本願の保護範囲とみなされるべきであることを指摘すべできである。

１１サーバ
１２ネットワーク
１３，１４端末機器
４０１受信モジュール
４０２取得モジュール
４０３処理モジュール
４０４更新モジュール
４０５送信モジュール
５０００電子機器
５００１プロセッサ
５００２バス
５００３メモリ
５００４送受信機

Claims

サーバが実行する音声データの処理方法であって、
送信側が送信した第１音声データを受信し、且つ前記送信側に対応する音声強調パラメータを取得するステップと、
取得した音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って、第１音声強調データを取得し、且つ前記第１音声データに基づいて第１音声強調パラメータを決定するステップと、
前記第１音声強調データを受信側に送信し、且つ前記第１音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得するステップであって、前記送信側が送信した第２音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第２音声データに対して音声強調処理を行う、ステップと、を含む、音声データの処理方法。
前記送信側に対応する音声強調パラメータを取得する前記ステップは、
予め記憶された前記送信側に対応する音声強調パラメータを取得するステップと、
前記送信側に対応する音声強調パラメータを取得しなかった場合、予め設定された音声強調パラメータを取得するステップと、を含む、請求項１に記載の音声データの処理方法。
前記送信側に対応する音声強調パラメータを取得しなかった場合、前記第１音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得する前記ステップは、
前記第１音声強調パラメータに基づいて取得された予め設定された音声強調パラメータを更新し、更新後の音声強調パラメータを取得し、且つ前記第１音声強調パラメータを前記送信側に対応する音声強調パラメータとするステップを含む、請求項２に記載の音声データの処理方法。
前記送信側に対応する音声強調パラメータを取得した場合、前記第１音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得する前記ステップは、
前記第１音声強調パラメータを用いて前記送信側に対応する音声強調パラメータを更新し、更新後の音声強調パラメータを取得するステップを含む、請求項２に記載の音声データの処理方法。
前記送信側に対応する音声強調パラメータを取得しなかった場合、取得した音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って、第１音声強調データを取得する前記ステップは、
前記予め設定された音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って、第１音声強調データを取得するステップを含む、請求項２に記載の音声データの処理方法。
前記送信側に対応する音声強調パラメータを取得しなかった場合、前記予め設定された音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って、第１音声強調データを取得する前記ステップ、及び前記第１音声データに基づいて第１音声強調パラメータを決定する前記ステップは、
訓練後の音声強調モデルにより、前記第１音声データに対して特徴シーケンス処理を行い、第１音声特徴シーケンスを取得するステップであって、前記音声強調モデルには前記予め設定された音声強調パラメータが設定されているステップと、
前記予め設定された音声強調パラメータを用いて前記第１音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第１音声特徴シーケンス及び前記第１音声強調パラメータを取得するステップと、
前記処理後の第１音声特徴シーケンスに対して特徴逆変換処理を行い、前記第１音声強調データを取得するステップと、を含む、請求項５に記載の音声データの処理方法。
前記送信側に対応する音声強調パラメータを取得した場合、取得した音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って、第１音声強調データを取得する前記ステップは、
前記送信側に対応する音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って、第１音声強調データを取得するステップを含む、請求項２に記載の音声データの処理方法。
前記送信側に対応する音声強調パラメータを取得した場合、前記送信側に対応する音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って、第１音声強調データを取得する前記ステップ、及び前記第１音声データに基づいて第１音声強調パラメータを決定する前記ステップは、
訓練後の音声強調モデルにより、前記第１音声データに対して特徴シーケンス処理を行い、第２音声特徴シーケンスを取得するステップと、
前記送信側に対応する音声強調パラメータを用いて前記第２音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第２音声特徴シーケンス及び第２音声強調パラメータを取得するステップと、
前記処理後の第２音声特徴シーケンスに対して特徴逆変換処理を行い、処理後の第２音声強調データを取得し、且つ前記処理後の第２音声強調データを前記第１音声強調データとするステップと、を含む、請求項７に記載の音声データの処理方法。
前記訓練後の音声強調モデルは、
ノイズを含む第１音声サンプルデータを取得し、且つ前記第１音声サンプルデータに対して音声特徴抽出を行い、第１音声特徴シーケンスを取得し、
ノイズを含まない第２音声サンプルデータを取得し、且つ前記第２音声サンプルデータに対して音声特徴抽出を行い、第２音声特徴シーケンスを取得し、
前記第１音声特徴シーケンスを用いて予め設定された音声強調モデルを訓練し、訓練後の音声強調モデルから出力された第１音声特徴シーケンスを取得し、且つ前記音声強調モデルを訓練して取得した前記第１音声特徴シーケンスと前記第２音声特徴シーケンスとの類似度が予め設定された類似度閾値を超えるまで、前記音声強調モデルを訓練して取得した前記第１音声特徴シーケンスと前記第２音声特徴シーケンスとの類似度を計算し、訓練後の音声強調モデルを取得するという形態により生成される、請求項６又は８に記載の音声データの処理方法。
音声特徴シーケンス抽出の方式は、
音声サンプルデータに対して音声のフレーム分割及びウィンドウ処理を行い、前記音声サンプルデータの少なくとも２つの音声フレームを取得するステップと、
各音声フレームに対してそれぞれ高速フーリエ変換を行い、各音声フレームにそれぞれ対応する各離散パワースペクトルを取得するステップと、
各離散パワースペクトルに対してそれぞれ対数計算を行い、各音声フレームにそれぞれ対応する各対数パワースペクトルを取得し、且つ各対数パワースペクトルを前記音声サンプルデータの音声特徴シーケンスとするステップと、を含む、請求項９に記載の音声データの処理方法。
音声データの処理装置であって、
送信側が送信した第１音声データを受信するために用いられる受信モジュールと、
前記送信側に対応する音声強調パラメータを取得するために用いられる取得モジュールと、
取得した音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って、第１音声強調データを取得し、且つ前記第１音声データに基づいて第１音声強調パラメータを決定するために用いられる処理モジュールと、
前記第１音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得するために用いられる更新モジュールであって、前記送信側が送信した第２音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第２音声データに対して音声強調処理を行うために用いられる更新モジュールと、
前記第１音声強調データを受信側に送信するために用いられる送信モジュールと、を含む、音声データの処理装置。
前記取得モジュールは、さらに、予め記憶された前記送信側に対応する音声強調パラメータを取得し、前記送信側に対応する音声強調パラメータを取得しなかった場合、予め設定された音声強調パラメータを取得するために用いられる、請求項１１に記載の装置。
前記送信側に対応する音声強調パラメータを取得しなかった場合、前記更新モジュールは、さらに、前記第１音声強調パラメータに基づいて取得した予め設定された音声強調パラメータを更新し、更新後の音声強調パラメータを取得し、且つ前記第１音声強調パラメータを前記送信側に対応する音声強調パラメータとするために用いられる、請求項１２に記載の装置。
前記送信側に対応する音声強調パラメータを取得した場合、前記更新モジュールは、さらに、前記第１音声強調パラメータを用いて前記送信側に対応する音声強調パラメータを更新し、更新後の音声強調パラメータを取得するために用いられる、請求項１２に記載の装置。
前記送信側に対応する音声強調パラメータを取得しなかった場合、前記処理モジュールは、さらに、前記予め設定された音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って、第１音声強調データを取得するために用いられる、請求項１２に記載の装置。
前記処理モジュールは、特徴シーケンス処理サブモジュールと、バッチ処理計算サブモジュールと、特徴逆変換処理サブモジュールと、を含み、
前記送信側に対応する音声強調パラメータを取得しなかった場合、前記特徴シーケンス処理サブモジュールは、訓練後の音声強調モデルにより、前記第１音声データに対して特徴シーケンス処理を行い、第１音声特徴シーケンスを取得するために用いられ、前記音声強調モデルには前記予め設定された音声強調パラメータが設定されており、
前記バッチ処理計算サブモジュールは、前記予め設定された音声強調パラメータを用いて前記第１音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第１音声特徴シーケンス及び前記第１音声強調パラメータを取得するために用いられ、
前記特徴逆変換処理サブモジュールは、前記処理後の第１音声特徴シーケンスに対して特徴逆変換処理を行い、前記第１音声強調データを取得するために用いられる、請求項１５に記載の装置。
前記送信側に対応する音声強調パラメータを取得した場合、前記処理モジュールは、さらに、前記予め設定された音声強調パラメータに基づいて前記第１音声データに対して音声強調処理を行って、第１音声強調データを取得するために用いられる、請求項１２に記載の装置。
前記処理モジュールは、特徴シーケンス処理サブモジュールと、バッチ処理計算サブモジュールと、特徴逆変換処理サブモジュールと、を含み、
前記送信側に対応する音声強調パラメータを取得した場合、前記特徴シーケンス処理サブモジュールは、訓練後の音声強調モデルにより、前記第１音声データに対して特徴シーケンス処理を行い、第２音声特徴シーケンスを取得するために用いられ、
前記バッチ処理計算サブモジュールは、前記送信側に対応する音声強調パラメータを用いて前記第２音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第２音声特徴シーケンス及び第２音声強調パラメータを取得するために用いられ、
前記特徴逆変換処理サブモジュールは、前記処理後の第２音声特徴シーケンスに対して特徴逆変換処理を行い、処理後の第２音声強調データを取得し、且つ前記処理後の第２音声強調データを前記第１音声強調データとする、請求項１７に記載の装置。
電子機器であって、
プロセッサ、メモリ及びバスを含み、
前記バスは、前記プロセッサと前記メモリとを接続するために用いられ、
前記メモリは、操作コマンドを記憶するために用いられ、
前記プロセッサは、前記操作コマンドを呼び出すことにより、請求項１から１０のいずれか一項に記載の音声データの処理方法を実行するために用いられる、電子機器。
コンピュータに請求項１から１０のいずれか一項に記載の音声データの処理方法を実行させる、コンピュータプログラム。