JP7301154B2 - 音声データの処理方法並びにその、装置、電子機器及びコンピュータプログラム - Google Patents

音声データの処理方法並びにその、装置、電子機器及びコンピュータプログラム Download PDF

Info

Publication number
JP7301154B2
JP7301154B2 JP2021558880A JP2021558880A JP7301154B2 JP 7301154 B2 JP7301154 B2 JP 7301154B2 JP 2021558880 A JP2021558880 A JP 2021558880A JP 2021558880 A JP2021558880 A JP 2021558880A JP 7301154 B2 JP7301154 B2 JP 7301154B2
Authority
JP
Japan
Prior art keywords
speech
speech enhancement
data
processing
enhancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021558880A
Other languages
English (en)
Other versions
JP2022527527A (ja
Inventor
俊 黄
燕南 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201910900060.1A external-priority patent/CN110648680B/zh
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022527527A publication Critical patent/JP2022527527A/ja
Application granted granted Critical
Publication of JP7301154B2 publication Critical patent/JP7301154B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Description

関連出願の相互参照
本願は、2019年9月23日に中国国家知識産権局に提出された、出願番号第201910900060.1号、出願名「音声データの処理方法、装置、電子機器及び読み取り可能な記憶媒体」の中国特許出願の優先権を主張し、その内容の全てが参照によって本願に組み込まれる。
本願は、インターネット技術分野に関し、具体的に言えば、本願は、音声データの処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体に関する。
音声強調(Speech Enhancement)の本質は音声のノイズ低減であり、マイクで収集された音声は、一般的には、異なるノイズが伴っている音声であり、音声強調の主な目的はノイズが伴っている音声からノイズがない音声を回復することである。音声強調によって様々な干渉信号を効果的に抑制し、対象音声信号を強調することができ、音声の明瞭度及び音声の品質を向上させるだけでなく、さらに音声認識の向上に役立つ。
処理対象の音声に対して音声強調を行う場合、まず1つの汎用のノイズ低減モデルを訓練して生成し、続いて異なる発言者に対して、各発言者に対応する音声データを用いてノイズ低減モデル全体又はモデルにおける一部の層に対して自己適応訓練を行い、異なる発言者にそれぞれ対応するノイズ低減モデルを取得し且つ記憶する。実際に適用する場合、異なる発言者に対して、対応するノイズ低減モデルを取得し、且つノイズ低減モデルを用いて該発言者の音声データに対してノイズ低減処理を行う。
本願の実施例は、音声データの処理方法を提供し、該方法はサーバによって実行され、
送信側が送信した第1音声データを受信し、且つ対応する音声強調パラメータを取得するステップと、
取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得し、且つ前記第1音声データに基づいて第1音声強調パラメータを決定するステップと、
前記第1音声強調データを受信側に送信し、且つ前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得するステップであって、送信側が送信した第2音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第2音声データに対して音声強調処理を行う、ステップと、を含む。
本願の実施例は音声データの処理装置を提供し、該装置は、
送信側が送信した第1音声データを受信するために用いられる受信モジュールと、
対応する音声強調パラメータを取得するために用いられる取得モジュールと、
取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得し、且つ前記第1音声データに基づいて第1音声強調パラメータを決定するために用いられる処理モジュールと、
前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得して、送信側が送信した第2音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第2音声データに対して音声強調処理を行うために用いられる更新モジュールと、
前記第1音声強調データを受信側に送信するために用いられる送信モジュールと、を含む。
本願の実施例は、さらに電子機器を提供し、該電子機器は、
プロセッサと、メモリと、バスと、を含み、
前記バスは、前記プロセッサと前記メモリとを接続するために用いられ、
前記メモリは、操作コマンドを記憶するために用いられ、
前記プロセッサは、前記操作コマンドを呼び出すことにより、コマンドを実行してプロセッサに本願の上記音声データの処理方法に対応する操作を実行可能とするために用いられる。
本願の実施例は、さらにコンピュータ読み取り可能な記憶媒体を提供し、コンピュータ読み取り可能な記憶媒体にはコンピュータプログラムが記憶されており、該プログラムがプロセッサによって実行される場合に本願の上記音声データの処理方法を実現する。
本願の実施例における技術的解決手段をより明確に説明するために、以下では本願の実施例の説明に必要な図面を簡単に説明する。
本願の実施例が提供する音声データの処理方法が適用されるシステムのアーキテクチャ図である。 本願の1つの実施例が提供する音声データの処理方法のフローチャートである。 本願におけるLSTMモデルの構造概略図である。 本願における音声特徴抽出の論理的なステップの概略図である。 本願のもう1つの実施例が提供する音声データの処理装置の構造概略図である。 本願のもう1つの実施例が提供する音声データの処理のための電子機器の構造概略図である。
以下、本願の実施例について詳細に説明し、前記実施例の例は図面に示され、その中で、全体にわたって同一若しくは類似の符号は同一若しくは類似の要素、又は同一若しくは類似の機能を有する要素を示す。以下では図面を参照して説明する実施例は例示的なものであり、本発明の説明のみに用いられ、本発明を限定するものとして解釈することができない。
当業者であれば、特に明記しない限り、本明細書で使用される単数形「一」、「1つ」、「前記」及び「該」は、複数形を含んでもよいことを理解することができる。本願の明細書で使用される「含む」という用語とは、記載された特徴、整数、ステップ、操作、要素及び/又はモジュールの存在を指すが、1つ以上の他の機能、整数、ステップ、操作、要素、モジュール及び/又はそれらのグループの存在又は追加を排除するものではないことをさらに理解されたい。要素が別の要素に「接続される」又は「結合される」と言う場合、その要素は他の要素に直接接続又は結合されてもよく、又は介在要素が存在してもよいと理解されたい。また、ここで使用される「接続」又は「結合」は、無線接続又は無線結合を含んでもよい。本明細書で使用される「及び/又は」という用語は、1つ又はより多くの関連するリストアイテムのすべて又はいずれか1つのユニット及びすべての組み合わせを含む。
人工知能(Artificial Intelligence、AI)とは、デジタルコンピュータ又はデジタルコンピュータで制御される機械を利用して人間の知能をシミュレートし、延伸し且つ拡張し、環境を感知し、知識を取得し且つ知識を用いて最適な結果を得る理論、方法、技術及び応用システムのことである。言い換えれば、人工知能はコンピュータ科学の1つの包括的な技術であり、それは知能の本質を理解し、且つ人間の知能に類似する形態で反応できる新しいスマートマシンを生み出そうとしている。人工知能は様々なスマートマシンの設計原理と実現方法を研究し、機器に感知、推理及び意思決定という機能を持たせる。
人工知能技術は、ハードウェアレベルの技術とソフトウェアレベルの技術の両方を含む幅広い分野をカバーする包括的な学科である。人工知能の基本的な技術には、一般的に、センサ、特定用途向けの人工知能チップ、クラウドコンピューティング、分散メモリ、ビッグデータ処理技術、オペレーティング/インタラクションシステム、メカトロニクスなどの技術が含まれている。人工知能ソフトウェア技術は、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習又は深層学習などの数方向を含む。
音声技術(Speech Technology)の重要な技術には、自動音声認識技術(ASR)、音声合成技術(TTS)及び声紋認証技術がある。コンピュータを聞かせたり、見させたり、話させたり、感じさせたりすることは、マンマシンインタラクションの将来の発展方向であり、その中で音声は将来最も有望なマンマシンインタラクションの形態の1つになる。
本願の目的、技術的解決手段及び利点をより明確にするために、以下では図面と組み合わせて本願の実施形態をより詳細に説明する。
先に説明したように、処理対象の音声に対して音声強調を行う場合、異なる発言者に対して、該発言者に対応するノイズ低減モデルを取得し、且つノイズ低減モデルを用いて該発言者の音声データに対してノイズ低減処理を行う必要がある。このように各発言者に対応するノイズ低減モデルをいずれも記憶する必要があり、記憶量上の要求が高い。
したがって、本願の実施例は音声データの処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体を提供し、関連技術における上記技術的問題を解決することを目的とする。
以下では具体的な実施例によって本願の技術的解決手段及び本願の技術的解決手段が上記技術的問題を如何に解決するかについて詳細に説明する。以下のいくつかの具体的な実施例は互いに組み合わせることができ、同一又は類似の概念又はプロセスについてはいくつかの実施例において説明を省略することがある。以下では図面と組み合わせて、本願の実施例について説明する。
図1Aは、本願の実施例が提供する音声処理方法を適用するシステムのアーキテクチャ図である。図1Aを参照すると、該システムのアーキテクチャ図は、サーバ11、ネットワーク12及び端末機器13と14を含み、そのうち、サーバ11はネットワーク12を介して端末機器13及び端末機器14との接続を確立する。
本願のいくつかの例において、サーバ11は送信側が送信した音声データを受信した後、受信した音声データを処理するバックグラウンドサーバである。サーバ11は、端末機器13及び端末機器14と共にユーザにサービスを提供し、例えば、サーバ11は送信側に対応する端末機器13(端末機器14としてもよい)が送信した音声データを処理した後、取得した音声強調データを受信側に対応する端末機器14(端末機器13としてもよい)に送信することでユーザに提供し、ただし、サーバ11は単独のサーバであってもよく、複数のサーバから構成されたクラスタサーバであってもよい。
ネットワーク12は、有線ネットワーク及び無線ネットワークを含んでもよい。図1Aに示すように、アクセスネットワーク側では、端末機器13及び端末機器14は、無線方式又は有線方式によってネットワーク12にアクセスすることができる。コアネットワーク側では、サーバ11は、一般的には、有線方式によってネットワーク12に接続される。当然のことながら、上記サーバ11は無線方式によってネットワーク12に接続されてもよい。
上記端末機器13及び端末機器14は、データ計算処理機能を有するスマート機器であってもよく、例えば、サーバが提供する処理後の音声強調データを再生することができる。端末機器13及び端末機器14は、(通信モジュールが取り付けられる)スマートフォン、パーソナルデジタルアシスタント、タブレットコンピュータ等を含むが、これらに限定されない。端末機器13及び端末機器14には、Android(登録商標)オペレーティングシステム、Symbian(登録商標)オペレーティングシステム、Windows(登録商標)mobileオペレーティングシステム及びアップルiPhone(登録商標)OSオペレーティングシステムなどを含むが、これらに限定されないオペレーティングシステムがそれぞれインストールされる。
図1Aに示すシステムのアーキテクチャ図に基づき、本願の実施例は音声データの処理方法を提供し、該処理方法は図1Aのサーバ11によって実行される。図1Bに示すように、該方法はステップS101~S103を含む。
ステップS101において、送信側が送信した第1音声データを受信した場合、対応する音声強調パラメータを取得する。
いくつかの実施例において、対応する音声強調パラメータを取得する過程において、予め記憶された前記送信側に対応する音声強調パラメータを取得する。前記送信側に対応する音声強調パラメータを取得しなかった場合、予め設定された音声強調パラメータを取得する。
実際の適用において、本願の実施例は、例えば、電話会議、ビデオ会議など、ネットワークに基づく音声通信の適用シーンに適用することができる。ここで、送信側は音声データを送信する側であってもよく、例えば、ユーザAは端末機器13を介して発言する場合、端末機器13は送信側としてもよく、ユーザAの発言内容は第1音声データとしてもよく、第1音声データはネットワークを介してサーバに伝送され、サーバは第1音声データを受信すると、対応する音声強調パラメータを取得することができ、さらに第1音声データに対して音声強調処理を行う。ここで、サーバにおいてLSTM(Long-Short Term Memory、長短期記憶)モデルを実行することができ、該モデルは音声データに対して音声強調処理を行うために用いることができる。
ステップS102において、取得した音声強調パラメータに基づいて前記音声データに対して音声強調処理を行って、第1音声強調データを取得し、且つ前記第1音声データに基づいて第1音声強調パラメータを決定する。
いくつかの実施例において、前記送信側に対応する音声強調パラメータを取得しなかった場合、前記予め設定された音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得する。
いくつかの実施例において、前記送信側に対応する音声強調パラメータを取得した場合、前記送信側に対応する音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って第1音声強調データを取得する。
実際の適用において、送信側に対応する音声強調パラメータを取得しなかった場合、予め設定された音声強調パラメータに基づいて第1音声データに対して音声強調処理を行う。前記送信側に対応する音声強調パラメータを取得した場合、前記送信側に対応する音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行う。
いくつかの実施例において、前記送信側に対応する音声強調パラメータを取得しなかった場合、前記予め設定された音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得する前記ステップ、及び前記第1音声データに基づいて第1音声強調パラメータを決定する前記ステップは、訓練後の音声強調モデルにより、前記第1音声データに対して特徴シーケンス処理を行い、第1音声特徴シーケンスを取得擦るステップであって、前記音声強調モデルには前記予め設定された音声強調パラメータが設定されているステップと、前記予め設定された音声強調パラメータを用いて前記第1音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第1音声特徴シーケンス及び前記第1音声強調パラメータを取得するステップと、前記処理後の第1音声特徴シーケンスに対して特徴逆変換処理を行い、前記第1音声強調データを取得するステップと、を含む。
いくつかの実施例において、前記送信側に対応する音声強調パラメータを取得した場合、前記送信側に対応する音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って第1音声強調データを取得する前記ステップ、及び前記第1音声データに基づいて第1音声強調パラメータを決定する前記ステップは、訓練後の音声強調モデルにより、前記第1音声データに対して特徴シーケンス処理を行い、第2音声特徴シーケンスを取得するステップと、前記送信側に対応する音声強調パラメータを用いて前記第2音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第2音声特徴シーケンス及び第2音声強調パラメータを取得するステップと、前記処理後の第2音声特徴シーケンスに対して特徴逆変換処理を行い、処理後の第2音声強調データを取得し、且つ前記処理後の第2音声強調データを前記第1音声強調データとするステップと、を含む。
ステップS103において、前記第1音声強調データを受信側に送信し、且つ前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得して、送信側が送信した第2音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第2音声データに対して音声強調処理を行うために用いる。
いくつかの実施例において、前記送信側に対応する音声強調パラメータを取得しなかった場合、前記第1音声強調パラメータに基づいて取得した予め設定された音声強調パラメータを更新し、更新後の音声強調パラメータを取得し、且つ前記第1音声強調パラメータを前記送信側に対応する音声強調パラメータとする。
いくつかの実施例において、前記送信側に対応する音声強調パラメータを取得した場合、前記第1音声強調パラメータを用いて前記送信側に対応する音声強調パラメータを更新し、更新後の音声強調パラメータを取得する。
具体的に言えば、第1音声データに基づいて第1音声強調パラメータを決定した後、記憶容器には送信側に対応する音声強調パラメータがない場合、第1音声強調パラメータを送信側に対応する音声強調パラメータとし且つ記憶容器に記憶してもよい。記憶容器には送信側に対応する音声強調パラメータが既に保存されている場合、第1音声強調パラメータで既に保存されている音声強調パラメータを置き換えてもよい。また、サーバは音声強調処理によって取得した第1音声強調データを受信側に送信し、受信側は第1音声強調データを受信した後に再生すればよい。
いくつかの実施例において、前記訓練後の音声強調モデルは、ノイズを含む第1音声サンプルデータを取得し、且つ前記第1音声サンプルデータに対して音声特徴抽出を行い、第1音声特徴シーケンスを取得し、ノイズを含まない第2音声サンプルデータを取得し、且つ前記第2音声サンプルデータに対して音声特徴抽出を行い、第2音声特徴シーケンスを取得し、前記第1音声特徴シーケンスを用いて予め設定された音声強調モデルを訓練し、訓練後の音声強調モデルから出力された第1音声特徴シーケンスを取得し、且つ前記音声強調モデルを訓練して取得した前記第1音声特徴シーケンスと前記第2音声特徴シーケンスとの類似度が予め設定された類似度閾値を超えるまで、前記音声強調モデルを訓練して取得した前記第1音声特徴シーケンスと前記第2音声特徴シーケンスとの類似度を計算し、訓練後の音声強調モデルを取得するという形態により生成される。
いくつかの実施例において、音声特徴シーケンス抽出の方式は、音声サンプルデータに対して音声のフレーム分割及びウィンドウ処理を行い、前記音声サンプルデータの少なくとも2つの音声フレームを取得するステップと、各音声フレームに対してそれぞれ高速フーリエ変換を行い、各音声フレームにそれぞれ対応する各離散パワースペクトルを取得するステップと、各離散パワースペクトルに対してそれぞれ対数計算を行い、各音声フレームにそれぞれ対応する各対数パワースペクトルを取得し、且つ各対数パワースペクトルを前記音声サンプルデータの音声特徴シーケンスとするステップと、を含む。
本願の実施例において、送信側が送信した第1音声データを受信した場合、対応する音声強調パラメータを取得し、そして取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行い、第1音声強調データを取得し、且つ前記第1音声データに基づいて第1音声強調パラメータを決定し、さらに前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得して、送信側が送信した第2音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第2音声データに対して音声強調処理を行うために用い、且つ前記第1音声強調データを受信側に送信する。このように、サーバは送信側に対応する音声強調パラメータに基づいて送信側の音声データに対して音声強調処理を行うことができ、異なる送信側に対応する音声強調パラメータが異なるため、異なる送信側に対して音声強調処理を行って得た音声強調効果も異なり、複数のモデルを必要としない場合で、音声強調は依然として方向性を持つだけでなく、音声強調パラメータを記憶すればよいことを実現し、複数のモデルを記憶する必要がなく、記憶量上の要求が低い。
本願の実施例は、図1Bに示す音声データの処理方法を詳細に説明する。
ステップS101において、送信側が送信した第1音声データを受信した場合、対応する音声強調パラメータを取得する。
実際の適用において、本願の実施例は、例えば、電話会議、ビデオ会議など、ネットワークに基づく音声通信の適用シーンに適用することができる。ここで、送信側は音声データを送信する側であってもよく、例えば、ユーザAは端末機器13を介して発言する場合、端末機器13は送信側としてもよく、ユーザAの発言内容は第1音声データとしてもよく、第1音声データはネットワークを介してサーバに伝送され、サーバは第1音声データを受信すると、対応する音声強調パラメータを取得することができ、さらに第1音声データに対して音声強調処理を行う。
ここで、サーバにおいてLSTM(Long-Short Term Memory、長短期記憶)モデルを実行することができ、該モデルは音声データに対して音声強調処理を行うために用いることができる。
音声強調(Speech Enhancement)の本質は音声のノイズ低減であり、マイクで収集された音声は、一般的には、異なるノイズが伴っている音声であり、音声強調の主な目的はノイズが伴っている音声からノイズがない音声を回復することである。音声強調によって様々な干渉信号を効果的に抑制し、対象音声信号を強調することができ、音声の明瞭度及び音声の品質を向上させることができるだけでなく、さらに音声認識の向上に役立つ。
LSTMモデルの基本構造は図2に示すように、フロントエンドのLSTM層、バッチ処理層及びバックエンドのLSTMを含む。ここで、Xは音声データにおけるフレームごとの音声であり、tは時間ウィンドウである。
1フレームの音声とは、音声信号における1つのショートセグメントのことである。具体的には、音声信号はマクロ的には安定しておらず、ミクロ的には安定しており、短期間の安定性(10~30ms以内に音声信号がほぼ変化しないと考えられる)を有し、これで音声信号をいくつかのショートセグメントに分けて処理することができ、各ショートセグメントは1フレームと呼ばれる。例えば、ある1Sの音声において、1フレームの音声の長さが10msであれば、該セグメントの音声は100フレームを含む。
LSTMモデルが音声データを処理する場合、フロントエンドのLSTM層、バッチ処理層及びバックエンドのLSTMは同時に異なる時間ウィンドウの音声フレームを計算し、ただし、バッチ処理層は音声データに対応する音声強調パラメータ、例えば平均値及び分散値を計算するために用いられる。
さらに、本願の実施例において、端末機器13及び端末機器14は、さらに以下の特徴を有することができる。
(1)ハードウェアアーキテクチャでは、機器は、中央処理装置、メモリ、入力部品及び出力部品を備え、即ち、機器は、多くの場合、通信機能を備えたマイクロコンピュータデバイスである。また、キーボード、マウス、タッチパネル、マイク、カメラなど、様々な入力形態をさらに備えてもよく、且つ必要に応じて調整して入力してもよい。また、機器は、多くの場合、レシーバ、ディスプレイなど、様々な出力形態を備え、必要に応じて調整することもできる。
(2)ソフトウェアアーキテクチャでは、機器は、Windows Mobile、Symbian、Palm、Android、iOSなどのようなオペレーティングシステムを備えなければならない。また、これらのオペレーティングシステムは益々オープンになり、これらのオープンなオペレーティングシステムプラットフォームに基づいて開発されたパーソナライズアプリケーションプログラムは次々と現れており、例えば通信帳、スケジュール、メモ、計算機及び各種類のゲームなどが挙げられ、個人的なユーザのニーズを大幅に満たす。
(3)通信能力では、機器は柔軟なアクセス方式及び高帯域通信性能を有し、且つ選択したサービス及び位置する環境に応じて、選択する通信方式を自動的に調整することができ、それによりユーザの使用に利便性を提供する。機器は、GSM(Global System for Mobile Communication、グローバル移動体通信システム)、WCDMA(登録商標)(Wideband Code Division Multiple Access、広帯域符号分割多元接続)、CDMA2000(Code Division Multiple Access、符号分割多元接続)、TDSCDMA(Time Division-Synchronous Code Division Multiple Access、時間分割同期符号分割多元接続)、Wi-Fi(Wireless-Fidelity、ワイヤレスフィデリティ)及びWiMAX(Worldwide Interoperability for Microwave Access、世界規模相互運用マイクロ波アクセス)などをサポートすることができ、それにより複数の方式のネットワークに適応し、音声サービスをサポートするだけでなく、複数の無線データサービスをさらにサポートする。
(4)機能の使用では、機器はヒューマニゼーション、個人化及び多機能化をさらに重視する。コンピュータ技術の発展に伴い、機器は「機器を中心とする」モードから「人を中心とする」モードに入り、組み込み計算、制御技術、人工知能技術及び生体認証技術などを集積し、人間本位の要旨を充分に表現する。ソフトウェア技術の発展により、機器は個人のニーズに応じて設定を調整することができ、より個人的になる。また、機器自体は多くのソフトウェアとハードウェアを集積し、機能も益々強くなっている。
本願の好ましい実施例において、対応する音声強調パラメータを取得する前記ステップは、
前記送信側に対応する音声強調パラメータを取得するステップと、
前記送信側に対応する音声強調パラメータを取得しなかった場合、予め設定された音声強調パラメータを取得するステップと、を含む。
具体的に言えば、サーバは第1音声データを受信した後、訓練後のLSTMモデルを用いて第1音声データに対して音声強調処理を行うことができる。訓練後のLSTMモデルは1つの汎用モデルであり、予め設定された音声強調パラメータ、即ち訓練後のLSTMモデルにおける音声強調パラメータを有し、訓練後のLSTMモデルはいずれかのユーザの音声データに対して音声強調処理を行うことができる。
本願の実施例において、異なるユーザに対して方向性のある音声強調を提供するために、ユーザの音声データを用いて訓練後のLSTMモデルを訓練し、該ユーザの音声強調パラメータを取得することができ、このように、該ユーザの音声データに対して音声強調処理を行う場合、該ユーザの音声強調パラメータを用いて該ユーザの音声データに対して音声強調処理を行うことができる。
例えば、ユーザAの音声データを用いて訓練後のLSTMモデルを訓練し、ユーザAの音声強調パラメータを取得する。ユーザAの後続する音声データに対して音声強調処理を行う場合、訓練後のLSTMモデルはユーザAの音声強調パラメータを用いて音声強調処理を行うことができる。
したがって、サーバはユーザの第1音声データを受信する場合、まず該ユーザの音声強調パラメータを取得することができる。本願の実施例において、各ユーザに対応する音声強調パラメータはサーバの記憶容器に記憶されてもよく、他の機器の記憶容器に記憶されてもよく、本発明の実施例はこれについて限定しない。
サーバは該ユーザの音声強調パラメータを取得しなかった場合、サーバは初めて該ユーザの音声データを受信することが示され、この場合に予め設定された音声強調パラメータを取得すればよい。
ステップS102において、取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得し、且つ前記第1音声データに基づいて第1音声強調パラメータを決定する。
実際の適用において、送信側に対応する音声強調パラメータを取得しなかった場合、予め設定された音声強調パラメータに基づいて第1音声データに対して音声強調処理を行う。前記送信側に対応する音声強調パラメータを取得した場合、前記送信側に対応する音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行う。
本願の好ましい実施例において、前記送信側に対応する音声強調データを取得しなかった場合、取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得し、且つ前記第1音声データに基づいて第1音声強調パラメータを決定する前記ステップは、
訓練後の音声強調モデルにより、前記第1音声データに対して特徴シーケンス処理を行い、第1音声特徴シーケンスを取得するステップであって、前記音声強調モデルには前記予め設定された音声強調パラメータが設定されているステップと、
前記予め設定された音声強調パラメータを用いて前記第1音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第1音声特徴シーケンスを取得するステップと、
前記処理後の第1音声特徴シーケンスに対して特徴逆変換処理を行い、前記第1音声強調データを取得し、且つ第1音声データに基づいて第1音声強調パラメータを決定するステップと、を含む。
具体的に言えば、送信側に対応する音声強調パラメータを取得しなかった場合、第1音声データを訓練後のLSTMモデルに入力することができ、訓練後のLSTMモデルは第1音声データに対して特徴シーケンス処理を行い、第1音声データに対応する第1音声特徴シーケンスを取得し、ただし、第1音声特徴シーケンスは少なくとも2つの音声特徴を含み、そして予め設定された音声強調パラメータを用いて第1音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第1音声特徴シーケンスを取得し、さらに処理後の第1音声特徴シーケンスに対して特徴逆変換処理を行い、第1音声強調データを取得することができ、即ち訓練後のLSTMモデル(汎用モデル)を用いて第1音声データに対して音声強調処理を行う。ここで、バッチ処理計算は、以下の式(1)及び式(2)を用いることができる。
Figure 0007301154000001
μは音声強調パラメータにおける平均値であり、
Figure 0007301154000002
は音声強調パラメータにおける分散値であり、xは入力された音声特徴であり、yは出力された音声強調後の音声特徴であり、ε、γ、βはそれぞれ変量パラメータである。
また、第1音声データを用いて訓練後のLSTMモデルを訓練し、第1音声強調パラメータ、即ち送信側に対応する音声強調パラメータを取得し、そして記憶する。ここで、訓練後のLSTMモデルを訓練するために以下の式(3)及び式(4)を用いることができる。
Figure 0007301154000003
μは音声強調パラメータにおける平均値であり、
Figure 0007301154000004
は音声強調パラメータにおける分散値であり、xは入力された音声特徴であり、mは音声特徴の数である。
なお、取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行うステップと、前記第1音声データに基づいて第1音声強調パラメータを決定するステップの実行順序は、前後に実行してもよく、並列して実行してもよく、実際の適用において実際のニーズに応じて調整してもよく、本願の実施例は実行順序について限定しない。
本願の好ましい実施例において、前記送信側に対応する音声強調データを取得した場合、取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得し、且つ前記第1音声データに基づいて第1音声強調パラメータを決定する前記ステップは、
訓練後の音声強調モデルにより、前記第1音声データに対して特徴シーケンス処理を行い、第2音声特徴シーケンスを取得するステップと、
前記音声強調パラメータを用いて前記第2音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第2音声特徴シーケンスを取得するステップと、
前記処理後の第2音声特徴シーケンスに対して特徴逆変換処理を行い、処理後の第2音声強調データを取得し、且つ前記処理後の第2音声強調データを前記第1音声強調データとし、且つ前記第1音声強調データに基づいて第2音声強調パラメータを決定するステップと、を含む。
具体的に言えば、送信側に対応する音声強調パラメータを取得した場合、第1音声データを訓練後のLSTMモデルに入力することができ、訓練後のLSTMモデルは第1音声データに対して特徴シーケンス処理を行い、第1音声データに対応する第2音声特徴シーケンスを取得し、ただし、第2音声特徴シーケンスは少なくとも2つの音声特徴を含み、そして送信側に対応する音声強調パラメータを用いて第2音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第2音声特徴シーケンスを取得し、さらに処理後の第2音声特徴シーケンスに対して特徴逆変換処理を行うと、第2音声強調データを取得することができ、即ち送信側に対応する音声強調パラメータで訓練後のLSTMモデルにおける音声強調パラメータを置き換え、そして更新後のLSTMモデルを用いて第2音声データに対して音声強調処理を行う。ここで、バッチ処理計算は式(1)及び式(2)を用いてもよく、ここでは説明を省略する。
また、第1音声データを用いて更新後のLSTMモデルを訓練し、第2音声強調パラメータ、即ち送信側に対応する最新の音声強調パラメータを取得し、そして記憶する。ここで、更新後のLSTMモデルを訓練するために式(3)及び式(4)を用いてもよく、ここでは説明を省略する。
本願の好ましい実施例において、前記訓練後の音声強調モデルは、
ノイズを含む第1音声サンプルデータを取得し、且つ前記第1音声サンプルデータに対して音声特徴抽出を行い、第1音声特徴を取得し、
ノイズを含まない第2音声サンプルデータを取得し、且つ前記第2音声サンプルデータに対して音声特徴抽出を行い、第2音声特徴を取得し、
前記第1音声特徴を用いて予め設定された音声強調モデルを訓練し、訓練後の第1音声特徴を取得し、
前記訓練後の第1音声特徴と前記第2音声特徴との類似度が予め設定された類似度閾値を超えるまで、前記訓練後の第1音声特徴と前記第2音声特徴との類似度を計算し、訓練後の音声強調モデルを取得するという形態により生成される。
具体的に言えば、ノイズを含む第1音声サンプルデータを取得し、且つ第1音声サンプルデータに対して音声特徴抽出を行い、第1音声特徴aを取得し、また、ノイズを含まない第2音声サンプルデータを取得し、且つ第2音声サンプルデータに対して音声特徴抽出を行い、第2音声特徴bを取得し、続いて音声特徴aを元のLSTMモデルに入力し、音声特徴bを訓練対象とし、元のLSTMモデルに対して単方向的訓練を行い、即ちLSTMモデルにおける全てのパラメータを単方向的に調整し、訓練後の第1音声特徴a’を取得し、ただし、全てのパラメータは音声強調パラメータを含み、さらに訓練後の第1音声特徴a’と第2音声特徴bとの類似度が予め設定された類似度閾値を超えるまで、前記訓練後の第1音声特徴a’と前記第2音声特徴bとの類似度を計算し、それにより訓練後のLSTMモデルを取得する。
ここで、類似度計算は角度余弦、ピアソンの相関係数など、類似度測定の方式を採用してもよく、ユークリッド距離、マンデル距離など、距離測定の方式を採用してもよく、当然のことながら、他の計算方式を採用してもよく、具体的な計算方式は実際のニーズに応じて設定することができ、本願の実施例はこれについて限定しない。
本願の好ましい実施例において、音声特徴抽出の方式は、
音声サンプルデータに対して音声のフレーム分割及びウィンドウ処理を行い、前記音声サンプルデータの少なくとも2つの音声フレームを取得するステップと、
各音声フレームに対してそれぞれ高速フーリエ変換を行い、各音声フレームにそれぞれ対応する各離散パワースペクトルを取得するステップと、
各離散パワースペクトルに対してそれぞれ対数計算を行い、各音声フレームにそれぞれ対応する各対数パワースペクトルを取得し、且つ各対数パワースペクトルを前記音声サンプルデータの音声特徴とするステップと、を含む。
具体的に言えば、音声サンプルデータは音声信号であり、音声信号は時間領域信号であり、プロセッサは時間領域信号に対して処理を直接行うことができないため、音声サンプルデータに対して音声のフレーム分割及びウィンドウ処理を行う必要があり、音声サンプルデータの少なくとも2つの音声フレームを取得し、それにより時間領域信号をプロセッサが処理可能な周波数領域信号に変換し、図3に示すように、続いて各音声フレームに対してそれぞれFFT(Fast Fourier Transformation、高速フーリエ変換)を行い、各音声フレームに対応する離散パワースペクトルを取得し、さらに各離散パワースペクトルに対して対数計算を行い、各音声フレームにそれぞれ対応する各対数パワースペクトルを取得し、それにより各音声フレームにそれぞれ対応する音声特徴を取得し、すべての音声特徴の集合は該音声サンプルデータに対応する音声特徴シーケンスである。音声特徴シーケンスに対して特徴逆変換処理を行うと、周波数領域の音声特徴シーケンスを時間領域の音声信号に変換することができる。
なお、第1音声サンプルデータに対して特徴抽出を行う方式と第2音声サンプルデータに対して特徴抽出を行う方式は同様であるため、説明の便宜上、本願の実施例は第1音声サンプルデータ及び第2音声サンプルデータを音声サンプルデータとして総称する。
ステップS103において、前記第1音声強調データを受信側に送信し、且つ前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得して、送信側が送信した第2音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第2音声データに対して音声強調処理を行うために用いる。
通常、訓練により発言者に対応するノイズ低減モデルを取得する場合、自己適応訓練を行う必要があり、自己適応訓練に必要なデータ量が比較的多いため、自己適応訓練の時間が比較的長く、効率が比較的低い。
本願の実施例において、第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得すればよく、このように、自己適応訓練を行う必要がない。
具体的に言えば、第1音声データに基づいて第1音声強調パラメータを決定した後、記憶容器には送信側に対応する音声強調パラメータがない場合、第1音声強調パラメータを送信側に対応する音声強調パラメータとし且つ記憶容器に保存することができる。記憶容器に送信側に対応する音声強調パラメータが既に保存されている場合、第1音声強調パラメータで既に保存されている音声強調パラメータを置き換えることができる。
送信側が送信した第2音声データを受信した場合、第1音声強調パラメータ、即ち更新後の音声強調パラメータに基づいて第2音声データに対して音声強調処理を行うことができる。このように、サーバは送信側が送信した最新の音声データに基づいて訓練後のLSTMモデルに対して単方向的訓練を継続的に行い、それにより送信側に対応する音声強調パラメータを継続的に更新することができ、音声強調パラメータと送信側とのマッチングレベルが益々高くなり、送信側のための音声強調効果も益々高くなる。
また、サーバは音声強調処理によって取得した第1音声強調データを受信側に送信し、受信側は第1音声強調データを受信した後に再生すればよい。
なお、サーバが音声強調パラメータの更新を行うことと音声強調データを送信することの実行順序は前後順序であってもよく、並列順序であってもよく、実際の適用において実際のニーズに応じて設定することができ、本願の実施例はこれについて限定しない。
容易に理解できるように、本願の実施例は以下の事例により詳細に説明する。
ユーザA、ユーザB及びユーザCは電話会議を行い、サーバにおいて訓練後のLSTMモデルが実行されており、訓練後のLSTMモデルは汎用音声強調パラメータを有し、且つサーバにおける記憶容器又は他の記憶容器にはいずれもユーザAの音声強調パラメータがないと想定する。
この場合、ユーザAが1文目の発言を完了すると、ユーザAに対応する端末機器は1文目の発言をサーバに送信し、サーバはユーザAの1文目の発言を受信すると、ユーザAに対応する音声強調パラメータを検索し、サーバにおける記憶容器又は他の記憶容器にはいずれもユーザAの音声強調パラメータがないため、ユーザAの音声強調パラメータを取得することができず、したがって、訓練後のLSTMモデルの汎用音声強調パラメータを取得し、且つ汎用音声強調パラメータを用いて1文目の発言に対して音声強調処理を行い、強調後の1文目の発言を取得し、且つ強調後の1文目の発言をユーザB及びユーザCに対応する端末機器に送信し、また、1文目の発言を用いて訓練後のLSTMモデルに対して単方向的訓練を行い、ユーザAの第1音声強調パラメータを取得し且つ記憶する。
ユーザAが2文目の発言を完了すると、端末機器は2文目の発言をサーバに送信し、サーバはユーザAの2文目の発言を受信すると、ユーザAに対応する音声強調パラメータを検索し、今回は検索に成功し、ユーザAの第1音声強調パラメータを取得し、且つ第1音声強調パラメータで訓練後のLSTMモデルにおける汎用音声強調パラメータを置き換え、更新後のLSTMモデルを取得し、続いて更新後のLSTMモデルを用いて2文目の発言に対して音声強調処理を行い、強調後の2文目の発言を取得し、且つ強調後の2文目の発言をユーザB及びユーザCに対応する端末機器に送信し、また、2文目の発言を用いてト更新後のLSTMモデルに対して単方向的訓練を行い、ユーザAの第2音声強調パラメータを取得し、且つ第2音声強調パラメータで第1音声強調パラメータを置き換える。後続する発言に対する音声強調処理プロセスは以下同様であり、ここでは説明を省略する。
本願の実施例において、送信側が送信した第1音声データを受信した場合、対応する音声強調パラメータを取得し、そして取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行い、第1音声強調データを取得し、且つ前記第1音声データに基づいて第1音声強調パラメータを決定し、さらに前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得して、送信側が送信した第2音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第2音声データに対して音声強調処理を行うために用い、且つ前記第1音声強調データを受信側に送信する。このように、サーバは送信側に対応する音声強調パラメータに基づいて送信側の音声データに対して音声強調処理を行うことができ、異なる送信側に対応する音声強調パラメータが異なるため、異なる送信側に対して音声強調処理を行って得た音声強調効果も異なり、複数のモデルを必要としない場合で、音声強調は依然として方向性を持つだけでなく、音声強調パラメータを記憶すればよいことを実現し、複数のモデルを記憶する必要がなく、記憶量上の要求が低い。
さらに、サーバは送信側が送信した最新の音声データに基づいて訓練後のLSTMモデルに対して単方向的訓練を継続的に行い、それにより送信側に対応する音声強調パラメータを継続的に更新することができ、音声強調パラメータと送信側とのマッチングレベルが益々高くなり、送信側のための音声強調効果も益々高くなる。また、単方向的訓練を継続する過程で、音声強調パラメータを訓練すればよく、訓練後のLSTMモデル全体又はモデルにおける層全体を訓練する必要がなく、訓練のコスト及び速度を高める。
図4は本願のもう1つの実施例が提供する音声データの処理装置の構造概略図であり、図4に示すように、本実施例の装置は、
送信側が送信した第1音声データを受信するために用いられる受信モジュール401と、
対応する音声強調パラメータを取得するために用いられる取得モジュール402と、
取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得し、且つ前記第1音声データに基づいて第1音声強調パラメータを決定するために用いられる処理モジュール403と、
前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得して、送信側が送信した第2音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第2音声データに対して音声強調処理を行うために用いるために用いられる更新モジュール404と、
前記第1音声強調データを受信側に送信するために用いられる送信モジュール405と、を含む。
本願の好ましい実施例において、前記取得モジュールは、具体的には、
予め記憶された前記送信側に対応する音声強調パラメータを取得し、前記送信側に対応する音声強調パラメータを取得しなかった場合、予め設定された音声強調パラメータを取得するために用いられる。
いくつかの実施例において、前記送信側に対応する音声強調パラメータを取得しなかった場合、前記更新モジュールは、さらに、前記第1音声強調パラメータに基づいて取得した予め設定された音声強調パラメータを更新し、更新後の音声強調パラメータを取得し、且つ前記第1音声強調パラメータを前記送信側に対応する音声強調パラメータとするために用いられる。
いくつかの実施例において、前記送信側に対応する音声強調パラメータを取得した場合、前記更新モジュールは、さらに、前記第1音声強調パラメータを用いて前記送信側に対応する音声強調パラメータを更新し、更新後の音声強調パラメータを取得するために用いられる。
いくつかの実施例において、前記送信側に対応する音声強調パラメータを取得しなかった場合、前記処理モジュールは、さらに、前記予め設定された音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得するために用いられる。
本願のいくつかの実施例において、前記処理モジュールは、特徴シーケンス処理サブモジュールと、バッチ処理計算サブモジュールと、特徴逆変換処理サブモジュールと、を含む。
前記送信側に対応する音声強調パラメータを取得しなかった場合、特徴シーケンス処理サブモジュールは、訓練後の音声強調モデルにより、前記第1音声データに対して特徴シーケンス処理を行い、第1音声特徴シーケンスを取得するために用いられ、前記音声強調モデルには前記予め設定された音声強調パラメータが設定されている。
バッチ処理計算サブモジュールは、前記予め設定された音声強調パラメータを用いて前記第1音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第1音声特徴シーケンス及び前記第1音声強調パラメータを取得するために用いられる。
特徴逆変換処理サブモジュールは、前記処理後の第1音声特徴シーケンスに対して特徴逆変換処理を行い、前記第1音声強調データを取得するために用いられる。
いくつかの実施例において、前記送信側に対応する音声強調パラメータを取得した場合、前記処理モジュールは、さらに、前記送信側に対応する音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って第1音声強調データを取得するために用いられる。
本願のいくつかの実施例において、前記処理モジュールは、特徴シーケンス処理サブモジュールと、バッチ処理計算サブモジュールと、特徴逆変換処理サブモジュールと、を含む。
前記送信側に対応する音声強調パラメータを取得した場合、前記特徴シーケンス処理サブモジュールは、さらに、訓練後の音声強調モデルにより、前記第1音声データに対して特徴シーケンス処理を行い、第2音声特徴シーケンスを取得するために用いられる。
前記バッチ処理計算サブモジュールは、さらに、前記音声強調パラメータを用いて前記第2音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第2音声特徴シーケンス及び第2音声強調パラメータを取得するために用いられる。
前記特徴逆変換処理サブモジュールは、さらに、前記処理後の第2音声特徴シーケンスに対して特徴逆変換処理を行い、処理後の第2音声強調データを取得し、且つ前記処理後の第2音声強調データを前記第1音声強調データとするために用いられる。
本願の好ましい実施例において、前記訓練後の音声強調モデルは、
ノイズを含む第1音声サンプルデータを取得し、且つ前記第1音声サンプルデータに対して音声特徴抽出を行い、第1音声特徴シーケンスを取得し、
ノイズを含まない第2音声サンプルデータを取得し、且つ前記第2音声サンプルデータに対して音声特徴抽出を行い、第2音声特徴シーケンスを取得し、
前記第1音声特徴シーケンスを用いて予め設定された音声強調モデルを訓練し、訓練後の音声強調モデルが出力した第1音声特徴シーケンスを取得し、
前記音声強調モデルを訓練して取得した前記第1音声特徴シーケンスと前記第2音声特徴シーケンスとの類似度が予め設定された類似度閾値を超えるまで、前記音声強調モデルを訓練して取得した前記第1音声特徴シーケンスと前記第2音声特徴シーケンスとの類似度を計算し、訓練後の音声強調モデルを取得するという形態により生成される。
本願のいくつかの好ましい実施例において、音声特徴シーケンス抽出の方式は、
音声サンプルデータに対して音声のフレーム分割及びウィンドウ処理を行い、前記音声サンプルデータの少なくとも2つの音声フレームを取得するステップと、
各音声フレームに対してそれぞれ高速フーリエ変換を行い、各音声フレームにそれぞれ対応する各離散パワースペクトルを取得するステップと、
各離散パワースペクトルに対してそれぞれ対数計算を行い、各音声フレームにそれぞれ対応する各対数パワースペクトルを取得し、且つ各対数パワースペクトルを前記音声サンプルデータの音声特徴シーケンスとするステップと、を含む。
本実施例の音声データの処理装置は本願の第1実施例に示す音声データの処理方法を実行することができ、その実現原理は類似し、ここでは説明を省略する。
本願の実施例において、送信側が送信した第1音声データを受信した場合、対応する音声強調パラメータを取得し、そして取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行い、第1音声強調データを取得し、且つ前記第1音声データに基づいて第1音声強調パラメータを決定し、さらに前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得して、送信側が送信した第2音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第2音声データに対して音声強調処理を行うために用い、且つ前記第1音声強調データを受信側に送信する。このように、サーバは送信側に対応する音声強調パラメータに基づいて送信側の音声データに対して音声強調処理を行うことができ、異なる送信側に対応する音声強調パラメータが異なるため、異なる送信側に対して音声強調処理を行って得た音声強調効果も異なり、複数のモデルを必要としない場合で、音声強調は依然として方向性を持つだけでなく、音声強調パラメータを記憶すればよいことを実現し、複数のモデルを記憶する必要がなく、記憶量上の要求が低い。
さらに、サーバは送信側が送信した最新の音声データに基づいて訓練後のLSTMモデルに対して単方向的訓練を継続的に行い、それにより送信側に対応する音声強調パラメータを継続的に更新することができ、音声強調パラメータと送信側とのマッチングレベルが益々高くなり、送信側のための音声強調効果も益々高くなる。また、単方向的訓練を継続する過程で、音声強調パラメータを訓練すればよく、訓練後のLSTMモデル全体又はモデルにおける層全体を訓練する必要がなく、訓練のコスト及び速度を高める。
本願のもう1つの実施例は電子機器を提供し、該電子機器は、メモリ及びプロセッサを含み、少なくとも1つのプログラムは、メモリに記憶されており、プロセッサに実行される場合、以下を実現するために用いられる。本願の実施例において、送信側が送信した第1音声データを受信した場合、対応する音声強調パラメータを取得し、そして取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行い、第1音声強調データを取得し、且つ前記第1音声データに基づいて第1音声強調パラメータを決定し、さらに前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得して、送信側が送信した第2音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第2音声データに対して音声強調処理を行うために用い、且つ前記第1音声強調データを受信側に送信する。このように、サーバは送信側に対応する音声強調パラメータに基づいて送信側の音声データに対して音声強調処理を行うことができ、異なる送信側に対応する音声強調パラメータが異なるため、異なる送信側に対して音声強調処理を行って得た音声強調効果も異なり、複数のモデルを必要としない場合で、音声強調は依然として方向性を持つだけでなく、音声強調パラメータを記憶すればよいことを実現し、複数のモデルを記憶する必要がなく、記憶量上の要求が低い。
さらに、サーバは送信側が送信した最新の音声データに基づいて訓練後のLSTMモデルに対して単方向的訓練を継続的に行い、それにより送信側に対応する音声強調パラメータを継続的に更新することができ、音声強調パラメータと送信側とのマッチングレベルが益々高くなり、送信側のための音声強調効果も益々高くなる。また、単方向的訓練を継続する過程で、音声強調パラメータを訓練すればよく、訓練後のLSTMモデル全体又はモデルにおける層全体を訓練する必要がなく、訓練のコスト及び速度を高める。
いくつかの実施例において、電子機器を提供し、図5に示すように、図5に示す電子機器5000は、プロセッサ5001及びメモリ5003を含む。そのうち、プロセッサ5001とメモリ5003は接続され、例えばバス5002を介して接続される。電子機器5000は、さらに、送受信機5004を含んでもよい。なお、実際の適用において送受信機5004は1つに限定されるものではなく、該電子機器5000の構成は、本願の実施例を限定するものではない。
プロセッサ5001はCPU、汎用プロセッサ、DSP、ASIC、FPGA又は他のプログラマブルロジックデバイス、トランジスタロジックデバイス、ハードウェア部品又はそれらの任意の組み合わせであってもよい。それは本願に開示された内容に説明された様々な例示的なロジックブロック、モジュール及び回路を実現し又は実行することができる。プロセッサ5001も、計算機能を実現する組み合わせであってもよく、例えば、1つ以上のマイクロプロセッサを含む組み合わせ、DSPとマイクロプロセッサとの組み合わせなどが挙げられる。
バス5002は、上記モジュールの間で情報を伝送する経路を含んでもよい。バス5002は、PCIバス又はEISAバスなどであってもよい。バス5002は、アドレスバス、データバス、コントロールバスなどに分けられてもよい。示しやすいために、図5では、1本の太線で示しているが、バスが1本のみ又はバスが1種類のみであることを表しない。
メモリ5003はROM、又は静的情報及びコマンドを記憶することができる他のタイプのスタティックメモリ、RAM又は情報及びコマンドを記憶することができる他のタイプのダイナミックメモリであってもよく、EEPROM、CD-ROM若しくは他の光ディスクメモリ、光ディスクメモリ(コンパクトディスク、レーザーディスク(登録商標)、光ディスク、デジタル多用途ディスク、ブルーレイディスクなどを含む)、磁気ディスク記憶媒体若しくはその他の磁気記憶機器、又はコマンド又はデータ構造形態を備える所望のプログラムコードを携帯したり記憶したりするために用いることができ、且つコンピュータによってアクセスすることができる他の媒体であってもよいが、これらに限定されるものではない。
メモリ5003は、本願の解決手段を実行するアプリケーションプログラムコードを記憶するために用いられ、且つプロセッサ5001によって制御されて実行される。プロセッサ5001は、前述したいずれか1つの方法の実施例に示される内容を実現するように、メモリ5003に記憶されたアプリケーションプログラムコードを実行するために用いられる。
ただし、電子機器は携帯電話、ノートパソコン、デジタル放送受信機、PDA(パーソナルデジタルアシスタント)、PAD(タブレットコンピュータ)、PMP(ポータブルマルチメディアプレーヤ)、車載端末(例えば車載ナビゲーション端末)などのモバイル端末及びデジタルTV、デスクトップコンピュータなどの固定端末を含むが、これらに限定されるものではない。
本願の他の実施例は、コンピュータ読み取り可能な記憶媒体を提供し、該コンピュータ読み取り可能な記憶媒体にコンピュータプログラムが記憶されており、コンピュータで実行される場合、コンピュータに前述した方法の実施例における対応する内容を実行させる。本願の実施例において、送信側が送信した第1音声データを受信した場合、対応する音声強調パラメータを取得し、そして取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行い、第1音声強調データを取得し、且つ前記第1音声データに基づいて第1音声強調パラメータを決定し、さらに前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得して、送信側が送信した第2音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第2音声データに対して音声強調処理を行うために用い、且つ前記第1音声強調データを受信側に送信する。このように、サーバは送信側に対応する音声強調パラメータに基づいて送信側の音声データに対して音声強調処理を行うことができ、異なる送信側に対応する音声強調パラメータが異なるため、異なる送信側に対して音声強調処理を行って得た音声強調効果も異なり、複数のモデルを必要としない場合で、音声強調は依然として方向性を持つだけでなく、音声強調パラメータを記憶すればよいことを実現し、複数のモデルを記憶する必要がなく、記憶量上の要求が低い。
さらに、サーバは送信側が送信した最新の音声データに基づいて訓練後のLSTMモデルに対して単方向的訓練を継続的に行い、それにより送信側に対応する音声強調パラメータを継続的に更新することができ、音声強調パラメータと送信側とのマッチングレベルが益々高くなり、送信側のための音声強調効果も益々高くなる。また、単方向的訓練を継続する過程で、音声強調パラメータを訓練すればよく、訓練後のLSTMモデル全体又はモデルにおける層全体を訓練する必要がなく、訓練のコスト及び速度を高める。
なお、図面のフローチャートにおける各ステップは、矢印で示されるように順に表示されているが、これらのステップは必ずしも矢印に示される順序で順に実行される必要はない。本明細書で明示的に説明されていない限り、これらのステップの実行は厳密に順序が制限されておらず、他の順序で実行されてもよい。また、図面のフローチャートにおける少なくとも一部のステップは、複数のサブステップ又は複数の段階を含んでもよく、それらのサブステップ又は段階は、必ずしも同一のタイミングで実行されて完了するものではなく、異なるタイミングで実行されてもよく、その実行順序は必ずしも順番で行うものではなく、他のステップ又は他のステップのサブステップ若しくは段階の少なくとも一部と順番に又は交替で実行されてもよい。
以上に記載の内容は本願の一部の実施形態にすぎず、当業者であれば、本願の原理を逸脱せず、いくつかの改良及び修飾を行うことができ、これらの改良及び修飾も本願の保護範囲とみなされるべきであることを指摘すべできである。
11 サーバ
12 ネットワーク
13,14 端末機器
401 受信モジュール
402 取得モジュール
403 処理モジュール
404 更新モジュール
405 送信モジュール
5000 電子機器
5001 プロセッサ
5002 バス
5003 メモリ
5004 送受信機

Claims (20)

  1. サーバが実行する音声データの処理方法であって、
    送信側が送信した第1音声データを受信し、且つ前記送信側に対応する音声強調パラメータを取得するステップと、
    取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得し、且つ前記第1音声データに基づいて第1音声強調パラメータを決定するステップと、
    前記第1音声強調データを受信側に送信し、且つ前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得するステップであって、前記送信側が送信した第2音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第2音声データに対して音声強調処理を行う、ステップと、を含む、音声データの処理方法。
  2. 前記送信側に対応する音声強調パラメータを取得する前記ステップは、
    予め記憶された前記送信側に対応する音声強調パラメータを取得するステップと、
    前記送信側に対応する音声強調パラメータを取得しなかった場合、予め設定された音声強調パラメータを取得するステップと、を含む、請求項1に記載の音声データの処理方法。
  3. 前記送信側に対応する音声強調パラメータを取得しなかった場合、前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得する前記ステップは、
    前記第1音声強調パラメータに基づいて取得された予め設定された音声強調パラメータを更新し、更新後の音声強調パラメータを取得し、且つ前記第1音声強調パラメータを前記送信側に対応する音声強調パラメータとするステップを含む、請求項2に記載の音声データの処理方法。
  4. 前記送信側に対応する音声強調パラメータを取得した場合、前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得する前記ステップは、
    前記第1音声強調パラメータを用いて前記送信側に対応する音声強調パラメータを更新し、更新後の音声強調パラメータを取得するステップを含む、請求項2に記載の音声データの処理方法。
  5. 前記送信側に対応する音声強調パラメータを取得しなかった場合、取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得する前記ステップは、
    前記予め設定された音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得するステップを含む、請求項2に記載の音声データの処理方法。
  6. 前記送信側に対応する音声強調パラメータを取得しなかった場合、前記予め設定された音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得する前記ステップ、及び前記第1音声データに基づいて第1音声強調パラメータを決定する前記ステップは、
    訓練後の音声強調モデルにより、前記第1音声データに対して特徴シーケンス処理を行い、第1音声特徴シーケンスを取得するステップであって、前記音声強調モデルには前記予め設定された音声強調パラメータが設定されているステップと、
    前記予め設定された音声強調パラメータを用いて前記第1音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第1音声特徴シーケンス及び前記第1音声強調パラメータを取得するステップと、
    前記処理後の第1音声特徴シーケンスに対して特徴逆変換処理を行い、前記第1音声強調データを取得するステップと、を含む、請求項5に記載の音声データの処理方法。
  7. 前記送信側に対応する音声強調パラメータを取得した場合、取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得する前記ステップは、
    前記送信側に対応する音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得するステップを含む、請求項2に記載の音声データの処理方法。
  8. 前記送信側に対応する音声強調パラメータを取得した場合、前記送信側に対応する音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得する前記ステップ、及び前記第1音声データに基づいて第1音声強調パラメータを決定する前記ステップは、
    訓練後の音声強調モデルにより、前記第1音声データに対して特徴シーケンス処理を行い、第2音声特徴シーケンスを取得するステップと、
    前記送信側に対応する音声強調パラメータを用いて前記第2音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第2音声特徴シーケンス及び第2音声強調パラメータを取得するステップと、
    前記処理後の第2音声特徴シーケンスに対して特徴逆変換処理を行い、処理後の第2音声強調データを取得し、且つ前記処理後の第2音声強調データを前記第1音声強調データとするステップと、を含む、請求項7に記載の音声データの処理方法。
  9. 前記訓練後の音声強調モデルは、
    ノイズを含む第1音声サンプルデータを取得し、且つ前記第1音声サンプルデータに対して音声特徴抽出を行い、第1音声特徴シーケンスを取得し、
    ノイズを含まない第2音声サンプルデータを取得し、且つ前記第2音声サンプルデータに対して音声特徴抽出を行い、第2音声特徴シーケンスを取得し、
    前記第1音声特徴シーケンスを用いて予め設定された音声強調モデルを訓練し、訓練後の音声強調モデルから出力された第1音声特徴シーケンスを取得し、且つ前記音声強調モデルを訓練して取得した前記第1音声特徴シーケンスと前記第2音声特徴シーケンスとの類似度が予め設定された類似度閾値を超えるまで、前記音声強調モデルを訓練して取得した前記第1音声特徴シーケンスと前記第2音声特徴シーケンスとの類似度を計算し、訓練後の音声強調モデルを取得するという形態により生成される、請求項6又は8に記載の音声データの処理方法。
  10. 音声特徴シーケンス抽出の方式は、
    音声サンプルデータに対して音声のフレーム分割及びウィンドウ処理を行い、前記音声サンプルデータの少なくとも2つの音声フレームを取得するステップと、
    各音声フレームに対してそれぞれ高速フーリエ変換を行い、各音声フレームにそれぞれ対応する各離散パワースペクトルを取得するステップと、
    各離散パワースペクトルに対してそれぞれ対数計算を行い、各音声フレームにそれぞれ対応する各対数パワースペクトルを取得し、且つ各対数パワースペクトルを前記音声サンプルデータの音声特徴シーケンスとするステップと、を含む、請求項9に記載の音声データの処理方法。
  11. 音声データの処理装置であって、
    送信側が送信した第1音声データを受信するために用いられる受信モジュールと、
    前記送信側に対応する音声強調パラメータを取得するために用いられる取得モジュールと、
    取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得し、且つ前記第1音声データに基づいて第1音声強調パラメータを決定するために用いられる処理モジュールと、
    前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得するために用いられる更新モジュールであって、前記送信側が送信した第2音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第2音声データに対して音声強調処理を行うために用いられる更新モジュールと、
    前記第1音声強調データを受信側に送信するために用いられる送信モジュールと、を含む、音声データの処理装置。
  12. 前記取得モジュールは、さらに、予め記憶された前記送信側に対応する音声強調パラメータを取得し、前記送信側に対応する音声強調パラメータを取得しなかった場合、予め設定された音声強調パラメータを取得するために用いられる、請求項11に記載の装置。
  13. 前記送信側に対応する音声強調パラメータを取得しなかった場合、前記更新モジュールは、さらに、前記第1音声強調パラメータに基づいて取得した予め設定された音声強調パラメータを更新し、更新後の音声強調パラメータを取得し、且つ前記第1音声強調パラメータを前記送信側に対応する音声強調パラメータとするために用いられる、請求項12に記載の装置。
  14. 前記送信側に対応する音声強調パラメータを取得した場合、前記更新モジュールは、さらに、前記第1音声強調パラメータを用いて前記送信側に対応する音声強調パラメータを更新し、更新後の音声強調パラメータを取得するために用いられる、請求項12に記載の装置。
  15. 前記送信側に対応する音声強調パラメータを取得しなかった場合、前記処理モジュールは、さらに、前記予め設定された音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得するために用いられる、請求項12に記載の装置。
  16. 前記処理モジュールは、特徴シーケンス処理サブモジュールと、バッチ処理計算サブモジュールと、特徴逆変換処理サブモジュールと、を含み、
    前記送信側に対応する音声強調パラメータを取得しなかった場合、前記特徴シーケンス処理サブモジュールは、訓練後の音声強調モデルにより、前記第1音声データに対して特徴シーケンス処理を行い、第1音声特徴シーケンスを取得するために用いられ、前記音声強調モデルには前記予め設定された音声強調パラメータが設定されており、
    前記バッチ処理計算サブモジュールは、前記予め設定された音声強調パラメータを用いて前記第1音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第1音声特徴シーケンス及び前記第1音声強調パラメータを取得するために用いられ、
    前記特徴逆変換処理サブモジュールは、前記処理後の第1音声特徴シーケンスに対して特徴逆変換処理を行い、前記第1音声強調データを取得するために用いられる、請求項15に記載の装置。
  17. 前記送信側に対応する音声強調パラメータを取得した場合、前記処理モジュールは、さらに、前記予め設定された音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得するために用いられる、請求項12に記載の装置。
  18. 前記処理モジュールは、特徴シーケンス処理サブモジュールと、バッチ処理計算サブモジュールと、特徴逆変換処理サブモジュールと、を含み、
    前記送信側に対応する音声強調パラメータを取得した場合、前記特徴シーケンス処理サブモジュールは、訓練後の音声強調モデルにより、前記第1音声データに対して特徴シーケンス処理を行い、第2音声特徴シーケンスを取得するために用いられ、
    前記バッチ処理計算サブモジュールは、前記送信側に対応する音声強調パラメータを用いて前記第2音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第2音声特徴シーケンス及び第2音声強調パラメータを取得するために用いられ、
    前記特徴逆変換処理サブモジュールは、前記処理後の第2音声特徴シーケンスに対して特徴逆変換処理を行い、処理後の第2音声強調データを取得し、且つ前記処理後の第2音声強調データを前記第1音声強調データとする、請求項17に記載の装置。
  19. 電子機器であって、
    プロセッサ、メモリ及びバスを含み、
    前記バスは、前記プロセッサと前記メモリとを接続するために用いられ、
    前記メモリは、操作コマンドを記憶するために用いられ、
    前記プロセッサは、前記操作コマンドを呼び出すことにより、請求項1から10のいずれか一項に記載の音声データの処理方法を実行するために用いられる、電子機器。
  20. コンピュータに請求項1から10のいずれか一項に記載の音声データの処理方法を実行させる、コンピュータプログラム。
JP2021558880A 2019-09-23 2020-07-28 音声データの処理方法並びにその、装置、電子機器及びコンピュータプログラム Active JP7301154B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910900060.1 2019-09-23
CN201910900060.1A CN110648680B (zh) 2019-09-23 语音数据的处理方法、装置、电子设备及可读存储介质
PCT/CN2020/105034 WO2021057239A1 (zh) 2019-09-23 2020-07-28 语音数据的处理方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
JP2022527527A JP2022527527A (ja) 2022-06-02
JP7301154B2 true JP7301154B2 (ja) 2023-06-30

Family

ID=69011077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021558880A Active JP7301154B2 (ja) 2019-09-23 2020-07-28 音声データの処理方法並びにその、装置、電子機器及びコンピュータプログラム

Country Status (4)

Country Link
US (1) US20220013133A1 (ja)
EP (1) EP3920183A4 (ja)
JP (1) JP7301154B2 (ja)
WO (1) WO2021057239A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114999508B (zh) * 2022-07-29 2022-11-08 之江实验室 一种利用多源辅助信息的通用语音增强方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007116585A (ja) 2005-10-24 2007-05-10 Matsushita Electric Ind Co Ltd ノイズキャンセル装置およびノイズキャンセル方法
US20110307253A1 (en) 2010-06-14 2011-12-15 Google Inc. Speech and Noise Models for Speech Recognition
JP2016109933A (ja) 2014-12-08 2016-06-20 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法ならびに音声認識システムおよびそれに含まれる音声入力装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102800322B (zh) * 2011-05-27 2014-03-26 中国科学院声学研究所 一种噪声功率谱估计与语音活动性检测方法
JP5916054B2 (ja) * 2011-06-22 2016-05-11 クラリオン株式会社 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム
US9058820B1 (en) * 2013-05-21 2015-06-16 The Intellisis Corporation Identifying speech portions of a sound model using various statistics thereof
JP2015004959A (ja) * 2013-05-22 2015-01-08 ヤマハ株式会社 音響処理装置
US9208794B1 (en) * 2013-08-07 2015-12-08 The Intellisis Corporation Providing sound models of an input signal using continuous and/or linear fitting
GB2519117A (en) * 2013-10-10 2015-04-15 Nokia Corp Speech processing
CN104952448A (zh) * 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统
CN106898348B (zh) * 2016-12-29 2020-02-07 北京小鸟听听科技有限公司 一种出声设备的去混响控制方法和装置
CN109427340A (zh) * 2017-08-22 2019-03-05 杭州海康威视数字技术股份有限公司 一种语音增强方法、装置及电子设备
TWI708243B (zh) * 2018-03-19 2020-10-21 中央研究院 於分散式語音辨識中基於小波轉換之語音特徵壓縮及重建系統與方法
CN108615533B (zh) * 2018-03-28 2021-08-03 天津大学 一种基于深度学习的高性能语音增强方法
US10811000B2 (en) * 2018-04-13 2020-10-20 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for recognizing simultaneous speech by multiple speakers
CN108877823B (zh) * 2018-07-27 2020-12-18 三星电子(中国)研发中心 语音增强方法和装置
CN109273021B (zh) * 2018-08-09 2021-11-30 厦门亿联网络技术股份有限公司 一种基于rnn的实时会议降噪方法及装置
CN109102823B (zh) * 2018-09-05 2022-12-06 河海大学 一种基于子带谱熵的语音增强方法
CN109979478A (zh) * 2019-04-08 2019-07-05 网易(杭州)网络有限公司 语音降噪方法及装置、存储介质及电子设备
KR102260216B1 (ko) * 2019-07-29 2021-06-03 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버
CN110648681B (zh) * 2019-09-26 2024-02-09 腾讯科技(深圳)有限公司 语音增强的方法、装置、电子设备及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007116585A (ja) 2005-10-24 2007-05-10 Matsushita Electric Ind Co Ltd ノイズキャンセル装置およびノイズキャンセル方法
US20110307253A1 (en) 2010-06-14 2011-12-15 Google Inc. Speech and Noise Models for Speech Recognition
JP2016109933A (ja) 2014-12-08 2016-06-20 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法ならびに音声認識システムおよびそれに含まれる音声入力装置

Also Published As

Publication number Publication date
CN110648680A (zh) 2020-01-03
JP2022527527A (ja) 2022-06-02
US20220013133A1 (en) 2022-01-13
EP3920183A1 (en) 2021-12-08
WO2021057239A1 (zh) 2021-04-01
EP3920183A4 (en) 2022-06-08

Similar Documents

Publication Publication Date Title
JP7034339B2 (ja) オーディオ信号処理システム、及び入力オーディオ信号を変換する方法
CN110709924B (zh) 视听语音分离
CN111933110B (zh) 视频生成方法、生成模型训练方法、装置、介质及设备
CN107210039B (zh) 环境调节的讲话人标识
US20190103124A1 (en) Method and device for eliminating background sound, and terminal device
US8996372B1 (en) Using adaptation data with cloud-based speech recognition
US11043207B2 (en) System and method for array data simulation and customized acoustic modeling for ambient ASR
CN112435684B (zh) 语音分离方法、装置、计算机设备和存储介质
US20210020160A1 (en) Sample-efficient adaptive text-to-speech
US10923101B2 (en) Pausing synthesized speech output from a voice-controlled device
US10593318B2 (en) Initiating synthesized speech outpout from a voice-controlled device
CN106165015B (zh) 用于促进基于加水印的回声管理的装置和方法
US20160027435A1 (en) Method for training an automatic speech recognition system
CN107680584B (zh) 用于切分音频的方法和装置
JP7301154B2 (ja) 音声データの処理方法並びにその、装置、電子機器及びコンピュータプログラム
US20230335148A1 (en) Speech Separation Method, Electronic Device, Chip, and Computer-Readable Storage Medium
US20230386470A1 (en) Speech instruction recognition method, electronic device, and non-transient computer readable storage medium
US10657951B2 (en) Controlling synthesized speech output from a voice-controlled device
JP2023162265A (ja) テキストエコー消去
CN116312570A (zh) 一种基于声纹识别的语音降噪方法、装置、设备及介质
CN111916095B (zh) 语音增强方法、装置、存储介质及电子设备
CN110648680B (zh) 语音数据的处理方法、装置、电子设备及可读存储介质
CN112017662B (zh) 控制指令确定方法、装置、电子设备和存储介质
CN113393834A (zh) 一种控制方法及装置
CN112542157A (zh) 语音处理方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211001

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211001

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230612

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230620

R150 Certificate of patent or registration of utility model

Ref document number: 7301154

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150