JP7301154B2 - 音声データの処理方法並びにその、装置、電子機器及びコンピュータプログラム - Google Patents
音声データの処理方法並びにその、装置、電子機器及びコンピュータプログラム Download PDFInfo
- Publication number
- JP7301154B2 JP7301154B2 JP2021558880A JP2021558880A JP7301154B2 JP 7301154 B2 JP7301154 B2 JP 7301154B2 JP 2021558880 A JP2021558880 A JP 2021558880A JP 2021558880 A JP2021558880 A JP 2021558880A JP 7301154 B2 JP7301154 B2 JP 7301154B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speech enhancement
- data
- processing
- enhancement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Description
本願は、2019年9月23日に中国国家知識産権局に提出された、出願番号第201910900060.1号、出願名「音声データの処理方法、装置、電子機器及び読み取り可能な記憶媒体」の中国特許出願の優先権を主張し、その内容の全てが参照によって本願に組み込まれる。
送信側が送信した第1音声データを受信し、且つ対応する音声強調パラメータを取得するステップと、
取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得し、且つ前記第1音声データに基づいて第1音声強調パラメータを決定するステップと、
前記第1音声強調データを受信側に送信し、且つ前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得するステップであって、送信側が送信した第2音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第2音声データに対して音声強調処理を行う、ステップと、を含む。
送信側が送信した第1音声データを受信するために用いられる受信モジュールと、
対応する音声強調パラメータを取得するために用いられる取得モジュールと、
取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得し、且つ前記第1音声データに基づいて第1音声強調パラメータを決定するために用いられる処理モジュールと、
前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得して、送信側が送信した第2音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第2音声データに対して音声強調処理を行うために用いられる更新モジュールと、
前記第1音声強調データを受信側に送信するために用いられる送信モジュールと、を含む。
プロセッサと、メモリと、バスと、を含み、
前記バスは、前記プロセッサと前記メモリとを接続するために用いられ、
前記メモリは、操作コマンドを記憶するために用いられ、
前記プロセッサは、前記操作コマンドを呼び出すことにより、コマンドを実行してプロセッサに本願の上記音声データの処理方法に対応する操作を実行可能とするために用いられる。
前記送信側に対応する音声強調パラメータを取得するステップと、
前記送信側に対応する音声強調パラメータを取得しなかった場合、予め設定された音声強調パラメータを取得するステップと、を含む。
訓練後の音声強調モデルにより、前記第1音声データに対して特徴シーケンス処理を行い、第1音声特徴シーケンスを取得するステップであって、前記音声強調モデルには前記予め設定された音声強調パラメータが設定されているステップと、
前記予め設定された音声強調パラメータを用いて前記第1音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第1音声特徴シーケンスを取得するステップと、
前記処理後の第1音声特徴シーケンスに対して特徴逆変換処理を行い、前記第1音声強調データを取得し、且つ第1音声データに基づいて第1音声強調パラメータを決定するステップと、を含む。
また、第1音声データを用いて訓練後のLSTMモデルを訓練し、第1音声強調パラメータ、即ち送信側に対応する音声強調パラメータを取得し、そして記憶する。ここで、訓練後のLSTMモデルを訓練するために以下の式(3)及び式(4)を用いることができる。
訓練後の音声強調モデルにより、前記第1音声データに対して特徴シーケンス処理を行い、第2音声特徴シーケンスを取得するステップと、
前記音声強調パラメータを用いて前記第2音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第2音声特徴シーケンスを取得するステップと、
前記処理後の第2音声特徴シーケンスに対して特徴逆変換処理を行い、処理後の第2音声強調データを取得し、且つ前記処理後の第2音声強調データを前記第1音声強調データとし、且つ前記第1音声強調データに基づいて第2音声強調パラメータを決定するステップと、を含む。
ノイズを含む第1音声サンプルデータを取得し、且つ前記第1音声サンプルデータに対して音声特徴抽出を行い、第1音声特徴を取得し、
ノイズを含まない第2音声サンプルデータを取得し、且つ前記第2音声サンプルデータに対して音声特徴抽出を行い、第2音声特徴を取得し、
前記第1音声特徴を用いて予め設定された音声強調モデルを訓練し、訓練後の第1音声特徴を取得し、
前記訓練後の第1音声特徴と前記第2音声特徴との類似度が予め設定された類似度閾値を超えるまで、前記訓練後の第1音声特徴と前記第2音声特徴との類似度を計算し、訓練後の音声強調モデルを取得するという形態により生成される。
音声サンプルデータに対して音声のフレーム分割及びウィンドウ処理を行い、前記音声サンプルデータの少なくとも2つの音声フレームを取得するステップと、
各音声フレームに対してそれぞれ高速フーリエ変換を行い、各音声フレームにそれぞれ対応する各離散パワースペクトルを取得するステップと、
各離散パワースペクトルに対してそれぞれ対数計算を行い、各音声フレームにそれぞれ対応する各対数パワースペクトルを取得し、且つ各対数パワースペクトルを前記音声サンプルデータの音声特徴とするステップと、を含む。
送信側が送信した第1音声データを受信するために用いられる受信モジュール401と、
対応する音声強調パラメータを取得するために用いられる取得モジュール402と、
取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得し、且つ前記第1音声データに基づいて第1音声強調パラメータを決定するために用いられる処理モジュール403と、
前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得して、送信側が送信した第2音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第2音声データに対して音声強調処理を行うために用いるために用いられる更新モジュール404と、
前記第1音声強調データを受信側に送信するために用いられる送信モジュール405と、を含む。
予め記憶された前記送信側に対応する音声強調パラメータを取得し、前記送信側に対応する音声強調パラメータを取得しなかった場合、予め設定された音声強調パラメータを取得するために用いられる。
ノイズを含む第1音声サンプルデータを取得し、且つ前記第1音声サンプルデータに対して音声特徴抽出を行い、第1音声特徴シーケンスを取得し、
ノイズを含まない第2音声サンプルデータを取得し、且つ前記第2音声サンプルデータに対して音声特徴抽出を行い、第2音声特徴シーケンスを取得し、
前記第1音声特徴シーケンスを用いて予め設定された音声強調モデルを訓練し、訓練後の音声強調モデルが出力した第1音声特徴シーケンスを取得し、
前記音声強調モデルを訓練して取得した前記第1音声特徴シーケンスと前記第2音声特徴シーケンスとの類似度が予め設定された類似度閾値を超えるまで、前記音声強調モデルを訓練して取得した前記第1音声特徴シーケンスと前記第2音声特徴シーケンスとの類似度を計算し、訓練後の音声強調モデルを取得するという形態により生成される。
音声サンプルデータに対して音声のフレーム分割及びウィンドウ処理を行い、前記音声サンプルデータの少なくとも2つの音声フレームを取得するステップと、
各音声フレームに対してそれぞれ高速フーリエ変換を行い、各音声フレームにそれぞれ対応する各離散パワースペクトルを取得するステップと、
各離散パワースペクトルに対してそれぞれ対数計算を行い、各音声フレームにそれぞれ対応する各対数パワースペクトルを取得し、且つ各対数パワースペクトルを前記音声サンプルデータの音声特徴シーケンスとするステップと、を含む。
12 ネットワーク
13,14 端末機器
401 受信モジュール
402 取得モジュール
403 処理モジュール
404 更新モジュール
405 送信モジュール
5000 電子機器
5001 プロセッサ
5002 バス
5003 メモリ
5004 送受信機
Claims (20)
- サーバが実行する音声データの処理方法であって、
送信側が送信した第1音声データを受信し、且つ前記送信側に対応する音声強調パラメータを取得するステップと、
取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得し、且つ前記第1音声データに基づいて第1音声強調パラメータを決定するステップと、
前記第1音声強調データを受信側に送信し、且つ前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得するステップであって、前記送信側が送信した第2音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第2音声データに対して音声強調処理を行う、ステップと、を含む、音声データの処理方法。 - 前記送信側に対応する音声強調パラメータを取得する前記ステップは、
予め記憶された前記送信側に対応する音声強調パラメータを取得するステップと、
前記送信側に対応する音声強調パラメータを取得しなかった場合、予め設定された音声強調パラメータを取得するステップと、を含む、請求項1に記載の音声データの処理方法。 - 前記送信側に対応する音声強調パラメータを取得しなかった場合、前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得する前記ステップは、
前記第1音声強調パラメータに基づいて取得された予め設定された音声強調パラメータを更新し、更新後の音声強調パラメータを取得し、且つ前記第1音声強調パラメータを前記送信側に対応する音声強調パラメータとするステップを含む、請求項2に記載の音声データの処理方法。 - 前記送信側に対応する音声強調パラメータを取得した場合、前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得する前記ステップは、
前記第1音声強調パラメータを用いて前記送信側に対応する音声強調パラメータを更新し、更新後の音声強調パラメータを取得するステップを含む、請求項2に記載の音声データの処理方法。 - 前記送信側に対応する音声強調パラメータを取得しなかった場合、取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得する前記ステップは、
前記予め設定された音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得するステップを含む、請求項2に記載の音声データの処理方法。 - 前記送信側に対応する音声強調パラメータを取得しなかった場合、前記予め設定された音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得する前記ステップ、及び前記第1音声データに基づいて第1音声強調パラメータを決定する前記ステップは、
訓練後の音声強調モデルにより、前記第1音声データに対して特徴シーケンス処理を行い、第1音声特徴シーケンスを取得するステップであって、前記音声強調モデルには前記予め設定された音声強調パラメータが設定されているステップと、
前記予め設定された音声強調パラメータを用いて前記第1音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第1音声特徴シーケンス及び前記第1音声強調パラメータを取得するステップと、
前記処理後の第1音声特徴シーケンスに対して特徴逆変換処理を行い、前記第1音声強調データを取得するステップと、を含む、請求項5に記載の音声データの処理方法。 - 前記送信側に対応する音声強調パラメータを取得した場合、取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得する前記ステップは、
前記送信側に対応する音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得するステップを含む、請求項2に記載の音声データの処理方法。 - 前記送信側に対応する音声強調パラメータを取得した場合、前記送信側に対応する音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得する前記ステップ、及び前記第1音声データに基づいて第1音声強調パラメータを決定する前記ステップは、
訓練後の音声強調モデルにより、前記第1音声データに対して特徴シーケンス処理を行い、第2音声特徴シーケンスを取得するステップと、
前記送信側に対応する音声強調パラメータを用いて前記第2音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第2音声特徴シーケンス及び第2音声強調パラメータを取得するステップと、
前記処理後の第2音声特徴シーケンスに対して特徴逆変換処理を行い、処理後の第2音声強調データを取得し、且つ前記処理後の第2音声強調データを前記第1音声強調データとするステップと、を含む、請求項7に記載の音声データの処理方法。 - 前記訓練後の音声強調モデルは、
ノイズを含む第1音声サンプルデータを取得し、且つ前記第1音声サンプルデータに対して音声特徴抽出を行い、第1音声特徴シーケンスを取得し、
ノイズを含まない第2音声サンプルデータを取得し、且つ前記第2音声サンプルデータに対して音声特徴抽出を行い、第2音声特徴シーケンスを取得し、
前記第1音声特徴シーケンスを用いて予め設定された音声強調モデルを訓練し、訓練後の音声強調モデルから出力された第1音声特徴シーケンスを取得し、且つ前記音声強調モデルを訓練して取得した前記第1音声特徴シーケンスと前記第2音声特徴シーケンスとの類似度が予め設定された類似度閾値を超えるまで、前記音声強調モデルを訓練して取得した前記第1音声特徴シーケンスと前記第2音声特徴シーケンスとの類似度を計算し、訓練後の音声強調モデルを取得するという形態により生成される、請求項6又は8に記載の音声データの処理方法。 - 音声特徴シーケンス抽出の方式は、
音声サンプルデータに対して音声のフレーム分割及びウィンドウ処理を行い、前記音声サンプルデータの少なくとも2つの音声フレームを取得するステップと、
各音声フレームに対してそれぞれ高速フーリエ変換を行い、各音声フレームにそれぞれ対応する各離散パワースペクトルを取得するステップと、
各離散パワースペクトルに対してそれぞれ対数計算を行い、各音声フレームにそれぞれ対応する各対数パワースペクトルを取得し、且つ各対数パワースペクトルを前記音声サンプルデータの音声特徴シーケンスとするステップと、を含む、請求項9に記載の音声データの処理方法。 - 音声データの処理装置であって、
送信側が送信した第1音声データを受信するために用いられる受信モジュールと、
前記送信側に対応する音声強調パラメータを取得するために用いられる取得モジュールと、
取得した音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得し、且つ前記第1音声データに基づいて第1音声強調パラメータを決定するために用いられる処理モジュールと、
前記第1音声強調パラメータを用いて取得した音声強調パラメータを更新し、更新後の音声強調パラメータを取得するために用いられる更新モジュールであって、前記送信側が送信した第2音声データを受信した場合、前記更新後の音声強調パラメータに基づいて前記第2音声データに対して音声強調処理を行うために用いられる更新モジュールと、
前記第1音声強調データを受信側に送信するために用いられる送信モジュールと、を含む、音声データの処理装置。 - 前記取得モジュールは、さらに、予め記憶された前記送信側に対応する音声強調パラメータを取得し、前記送信側に対応する音声強調パラメータを取得しなかった場合、予め設定された音声強調パラメータを取得するために用いられる、請求項11に記載の装置。
- 前記送信側に対応する音声強調パラメータを取得しなかった場合、前記更新モジュールは、さらに、前記第1音声強調パラメータに基づいて取得した予め設定された音声強調パラメータを更新し、更新後の音声強調パラメータを取得し、且つ前記第1音声強調パラメータを前記送信側に対応する音声強調パラメータとするために用いられる、請求項12に記載の装置。
- 前記送信側に対応する音声強調パラメータを取得した場合、前記更新モジュールは、さらに、前記第1音声強調パラメータを用いて前記送信側に対応する音声強調パラメータを更新し、更新後の音声強調パラメータを取得するために用いられる、請求項12に記載の装置。
- 前記送信側に対応する音声強調パラメータを取得しなかった場合、前記処理モジュールは、さらに、前記予め設定された音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得するために用いられる、請求項12に記載の装置。
- 前記処理モジュールは、特徴シーケンス処理サブモジュールと、バッチ処理計算サブモジュールと、特徴逆変換処理サブモジュールと、を含み、
前記送信側に対応する音声強調パラメータを取得しなかった場合、前記特徴シーケンス処理サブモジュールは、訓練後の音声強調モデルにより、前記第1音声データに対して特徴シーケンス処理を行い、第1音声特徴シーケンスを取得するために用いられ、前記音声強調モデルには前記予め設定された音声強調パラメータが設定されており、
前記バッチ処理計算サブモジュールは、前記予め設定された音声強調パラメータを用いて前記第1音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第1音声特徴シーケンス及び前記第1音声強調パラメータを取得するために用いられ、
前記特徴逆変換処理サブモジュールは、前記処理後の第1音声特徴シーケンスに対して特徴逆変換処理を行い、前記第1音声強調データを取得するために用いられる、請求項15に記載の装置。 - 前記送信側に対応する音声強調パラメータを取得した場合、前記処理モジュールは、さらに、前記予め設定された音声強調パラメータに基づいて前記第1音声データに対して音声強調処理を行って、第1音声強調データを取得するために用いられる、請求項12に記載の装置。
- 前記処理モジュールは、特徴シーケンス処理サブモジュールと、バッチ処理計算サブモジュールと、特徴逆変換処理サブモジュールと、を含み、
前記送信側に対応する音声強調パラメータを取得した場合、前記特徴シーケンス処理サブモジュールは、訓練後の音声強調モデルにより、前記第1音声データに対して特徴シーケンス処理を行い、第2音声特徴シーケンスを取得するために用いられ、
前記バッチ処理計算サブモジュールは、前記送信側に対応する音声強調パラメータを用いて前記第2音声特徴シーケンスに対してバッチ処理計算を行い、処理後の第2音声特徴シーケンス及び第2音声強調パラメータを取得するために用いられ、
前記特徴逆変換処理サブモジュールは、前記処理後の第2音声特徴シーケンスに対して特徴逆変換処理を行い、処理後の第2音声強調データを取得し、且つ前記処理後の第2音声強調データを前記第1音声強調データとする、請求項17に記載の装置。 - 電子機器であって、
プロセッサ、メモリ及びバスを含み、
前記バスは、前記プロセッサと前記メモリとを接続するために用いられ、
前記メモリは、操作コマンドを記憶するために用いられ、
前記プロセッサは、前記操作コマンドを呼び出すことにより、請求項1から10のいずれか一項に記載の音声データの処理方法を実行するために用いられる、電子機器。 - コンピュータに請求項1から10のいずれか一項に記載の音声データの処理方法を実行させる、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910900060.1 | 2019-09-23 | ||
CN201910900060.1A CN110648680B (zh) | 2019-09-23 | 语音数据的处理方法、装置、电子设备及可读存储介质 | |
PCT/CN2020/105034 WO2021057239A1 (zh) | 2019-09-23 | 2020-07-28 | 语音数据的处理方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022527527A JP2022527527A (ja) | 2022-06-02 |
JP7301154B2 true JP7301154B2 (ja) | 2023-06-30 |
Family
ID=69011077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021558880A Active JP7301154B2 (ja) | 2019-09-23 | 2020-07-28 | 音声データの処理方法並びにその、装置、電子機器及びコンピュータプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220013133A1 (ja) |
EP (1) | EP3920183A4 (ja) |
JP (1) | JP7301154B2 (ja) |
WO (1) | WO2021057239A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114999508B (zh) * | 2022-07-29 | 2022-11-08 | 之江实验室 | 一种利用多源辅助信息的通用语音增强方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007116585A (ja) | 2005-10-24 | 2007-05-10 | Matsushita Electric Ind Co Ltd | ノイズキャンセル装置およびノイズキャンセル方法 |
US20110307253A1 (en) | 2010-06-14 | 2011-12-15 | Google Inc. | Speech and Noise Models for Speech Recognition |
JP2016109933A (ja) | 2014-12-08 | 2016-06-20 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声認識方法ならびに音声認識システムおよびそれに含まれる音声入力装置 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102800322B (zh) * | 2011-05-27 | 2014-03-26 | 中国科学院声学研究所 | 一种噪声功率谱估计与语音活动性检测方法 |
JP5916054B2 (ja) * | 2011-06-22 | 2016-05-11 | クラリオン株式会社 | 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム |
US9058820B1 (en) * | 2013-05-21 | 2015-06-16 | The Intellisis Corporation | Identifying speech portions of a sound model using various statistics thereof |
JP2015004959A (ja) * | 2013-05-22 | 2015-01-08 | ヤマハ株式会社 | 音響処理装置 |
US9208794B1 (en) * | 2013-08-07 | 2015-12-08 | The Intellisis Corporation | Providing sound models of an input signal using continuous and/or linear fitting |
GB2519117A (en) * | 2013-10-10 | 2015-04-15 | Nokia Corp | Speech processing |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
CN106898348B (zh) * | 2016-12-29 | 2020-02-07 | 北京小鸟听听科技有限公司 | 一种出声设备的去混响控制方法和装置 |
CN109427340A (zh) * | 2017-08-22 | 2019-03-05 | 杭州海康威视数字技术股份有限公司 | 一种语音增强方法、装置及电子设备 |
TWI708243B (zh) * | 2018-03-19 | 2020-10-21 | 中央研究院 | 於分散式語音辨識中基於小波轉換之語音特徵壓縮及重建系統與方法 |
CN108615533B (zh) * | 2018-03-28 | 2021-08-03 | 天津大学 | 一种基于深度学习的高性能语音增强方法 |
US10811000B2 (en) * | 2018-04-13 | 2020-10-20 | Mitsubishi Electric Research Laboratories, Inc. | Methods and systems for recognizing simultaneous speech by multiple speakers |
CN108877823B (zh) * | 2018-07-27 | 2020-12-18 | 三星电子(中国)研发中心 | 语音增强方法和装置 |
CN109273021B (zh) * | 2018-08-09 | 2021-11-30 | 厦门亿联网络技术股份有限公司 | 一种基于rnn的实时会议降噪方法及装置 |
CN109102823B (zh) * | 2018-09-05 | 2022-12-06 | 河海大学 | 一种基于子带谱熵的语音增强方法 |
CN109979478A (zh) * | 2019-04-08 | 2019-07-05 | 网易(杭州)网络有限公司 | 语音降噪方法及装置、存储介质及电子设备 |
KR102260216B1 (ko) * | 2019-07-29 | 2021-06-03 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버 |
CN110648681B (zh) * | 2019-09-26 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 语音增强的方法、装置、电子设备及计算机可读存储介质 |
-
2020
- 2020-07-28 JP JP2021558880A patent/JP7301154B2/ja active Active
- 2020-07-28 EP EP20868291.4A patent/EP3920183A4/en active Pending
- 2020-07-28 WO PCT/CN2020/105034 patent/WO2021057239A1/zh unknown
-
2021
- 2021-09-13 US US17/447,536 patent/US20220013133A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007116585A (ja) | 2005-10-24 | 2007-05-10 | Matsushita Electric Ind Co Ltd | ノイズキャンセル装置およびノイズキャンセル方法 |
US20110307253A1 (en) | 2010-06-14 | 2011-12-15 | Google Inc. | Speech and Noise Models for Speech Recognition |
JP2016109933A (ja) | 2014-12-08 | 2016-06-20 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声認識方法ならびに音声認識システムおよびそれに含まれる音声入力装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110648680A (zh) | 2020-01-03 |
JP2022527527A (ja) | 2022-06-02 |
US20220013133A1 (en) | 2022-01-13 |
EP3920183A1 (en) | 2021-12-08 |
WO2021057239A1 (zh) | 2021-04-01 |
EP3920183A4 (en) | 2022-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7034339B2 (ja) | オーディオ信号処理システム、及び入力オーディオ信号を変換する方法 | |
CN110709924B (zh) | 视听语音分离 | |
CN111933110B (zh) | 视频生成方法、生成模型训练方法、装置、介质及设备 | |
CN107210039B (zh) | 环境调节的讲话人标识 | |
US20190103124A1 (en) | Method and device for eliminating background sound, and terminal device | |
US8996372B1 (en) | Using adaptation data with cloud-based speech recognition | |
US11043207B2 (en) | System and method for array data simulation and customized acoustic modeling for ambient ASR | |
CN112435684B (zh) | 语音分离方法、装置、计算机设备和存储介质 | |
US20210020160A1 (en) | Sample-efficient adaptive text-to-speech | |
US10923101B2 (en) | Pausing synthesized speech output from a voice-controlled device | |
US10593318B2 (en) | Initiating synthesized speech outpout from a voice-controlled device | |
CN106165015B (zh) | 用于促进基于加水印的回声管理的装置和方法 | |
US20160027435A1 (en) | Method for training an automatic speech recognition system | |
CN107680584B (zh) | 用于切分音频的方法和装置 | |
JP7301154B2 (ja) | 音声データの処理方法並びにその、装置、電子機器及びコンピュータプログラム | |
US20230335148A1 (en) | Speech Separation Method, Electronic Device, Chip, and Computer-Readable Storage Medium | |
US20230386470A1 (en) | Speech instruction recognition method, electronic device, and non-transient computer readable storage medium | |
US10657951B2 (en) | Controlling synthesized speech output from a voice-controlled device | |
JP2023162265A (ja) | テキストエコー消去 | |
CN116312570A (zh) | 一种基于声纹识别的语音降噪方法、装置、设备及介质 | |
CN111916095B (zh) | 语音增强方法、装置、存储介质及电子设备 | |
CN110648680B (zh) | 语音数据的处理方法、装置、电子设备及可读存储介质 | |
CN112017662B (zh) | 控制指令确定方法、装置、电子设备和存储介质 | |
CN113393834A (zh) | 一种控制方法及装置 | |
CN112542157A (zh) | 语音处理方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211001 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211001 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230612 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230620 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7301154 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |