JP2022552382A - 音声伝送方法及びそのシステム、装置、コンピュータプログラム、並びにコンピュータ機器 - Google Patents
音声伝送方法及びそのシステム、装置、コンピュータプログラム、並びにコンピュータ機器 Download PDFInfo
- Publication number
- JP2022552382A JP2022552382A JP2022522692A JP2022522692A JP2022552382A JP 2022552382 A JP2022552382 A JP 2022552382A JP 2022522692 A JP2022522692 A JP 2022522692A JP 2022522692 A JP2022522692 A JP 2022522692A JP 2022552382 A JP2022552382 A JP 2022552382A
- Authority
- JP
- Japan
- Prior art keywords
- encoded data
- audio
- current encoded
- packet loss
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 115
- 230000005540 biological transmission Effects 0.000 title claims abstract description 88
- 238000004590 computer program Methods 0.000 title description 3
- 238000011084 recovery Methods 0.000 claims abstract description 215
- 230000008569 process Effects 0.000 claims abstract description 61
- 238000010801 machine learning Methods 0.000 claims abstract description 51
- 230000000875 corresponding effect Effects 0.000 claims description 191
- 230000005236 sound signal Effects 0.000 claims description 69
- 238000012549 training Methods 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 35
- 230000002596 correlated effect Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000002265 prevention Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012372 quality testing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/0001—Systems modifying transmission characteristics according to link quality, e.g. power backoff
- H04L1/0002—Systems modifying transmission characteristics according to link quality, e.g. power backoff by adapting the transmission rate
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/0001—Systems modifying transmission characteristics according to link quality, e.g. power backoff
- H04L1/0009—Systems modifying transmission characteristics according to link quality, e.g. power backoff by adapting the channel coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/0001—Systems modifying transmission characteristics according to link quality, e.g. power backoff
- H04L1/0015—Systems modifying transmission characteristics according to link quality, e.g. power backoff characterised by the adaptation strategy
- H04L1/0019—Systems modifying transmission characteristics according to link quality, e.g. power backoff characterised by the adaptation strategy in which mode-switching is based on a statistical approach
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/0001—Systems modifying transmission characteristics according to link quality, e.g. power backoff
- H04L1/0023—Systems modifying transmission characteristics according to link quality, e.g. power backoff characterised by the signalling
- H04L1/0026—Transmission of channel quality indication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/004—Arrangements for detecting or preventing errors in the information received by using forward error control
- H04L1/0041—Arrangements at the transmitter end
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
Abstract
Description
本願は、2020年02月20日に中国特許庁に提出された、出願番号が202010104793.7であり、発明の名称が「音声伝送方法及びそのシステム、装置、コンピュータ可読記憶媒体、並びにコンピュータ機器」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照により本願に援用される。
本願は、コンピュータ技術分野、特に、音声伝送方法及びそのシステム、装置、コンピュータ可読記憶媒体、並びにコンピュータ機器に関するものである。
音声符号化ビットストリームにおける現在の符号化データを取得するステップと、
機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するステップと、
前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断するステップと、
冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送するステップと、
冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するステップと、を含む。
前記送信側は、音声符号化ビットストリームにおける現在の符号化データを取得し、機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するように構成され、
前記送信側は更に、前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するように構成され、
前記受信側は、前記現在の符号化データを受信した場合、前記現在の符号化データに対して音声復号化を直接に実行して、前記現在の符号化データに対応する音声信号を取得するように構成され、前記受信側は更に、前記現在の符号化データを受信せず、前記冗長パケットを受信した場合、前記冗長パケットに基づき冗長復号化処理を実行して、前記現在の符号化データを取得してから、前記現在の符号化データに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するように構成され、
前記受信側は更に、前記現在の符号化データ及び前記冗長パケットを受信しなかった場合、前記現在の符号化データに対してパケット損失回復処理を実行して、前記現在の符号化データに対応する回復パケットを取得し、前記回復パケットに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するように構成される。
音声符号化ビットストリームにおける現在の符号化データを取得するように構成される取得モジュールと、
機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するように構成される、予測モジュールと、
前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するように構成される、冗長符号化判断モジュールと、を備える。
1つの実施例において、音声伝送方法は、
受信側が現在の符号化データ及び前記冗長パケットを受信しなかった場合、受信側によって、現在の符号化データに対してパケット損失回復処理を実行して、現在の符号化データに対応する回復パケットを取得し、回復パケットに対して音声復号化を実行して、現在の符号化データに対応する音声信号を取得するステップを更に含む。
送信側110は更に、パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成した後、現在の符号化データ及び冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、現在の符号化データを受信側に直接伝送するように構成され、
受信側120は、現在の符号化データを受信した場合、現在の符号化データに対して音声復号化を直接に実行して、現在の符号化データに対応する音声信号を取得するように構成され、受信側120は更に、現在の符号化データを受信せず、冗長パケットを受信した場合、冗長パケットに基づき冗長復号化処理を実行して、現在の符号化データを取得してから、現在の符号化データに対して音声復号化を実行して、現在の符号化データに対応する音声信号を取得するように構成され、
受信側120は更に、現在の符号化データ及び冗長パケットを受信しなかった場合、現在の符号化データに対してパケット損失回復処理を実行して、現在の符号化データに対応する回復パケットを取得し、回復パケットに対して音声復号化を実行して、現在の符号化データに対応する音声信号を取得するように構成される。
902 取得モジュール
904 予測モジュール
906 冗長符号化判断モジュール
Claims (20)
- コンピュータが実行する音声伝送方法であって、
音声符号化ビットストリームにおける現在の符号化データを取得するステップと、
機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するステップと、
前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断するステップと、
冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送するステップと、
冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するステップと、を含む、前記音声伝送方法。 - 前記音声伝送方法は、
元の音声信号を取得するステップと、
元の音声信号を分割して、元の音声シーケンスを取得するステップと、
前記元の音声シーケンス内の音声セグメントに対して音声符号化を順次実行して、音声符号化ビットストリームを取得するステップと、を更に含む、
請求項1に記載の音声伝送方法。 - 前記音声伝送方法は、
元の音声シーケンス内の音声セグメントのそれぞれに対応する音声符号化特徴パラメータを取得するステップと、
前記音声符号化特徴パラメータに従って、対応する音声セグメントに対して音声符号化を実行して、対応する符号化データを生成してから、音声符号化ビットストリームを取得するステップと、
音声符号化プロセスにおいて各符号化データによって使用される音声符号化特徴パラメータをキャッシュするステップと、を更に含む、
請求項1に記載の音声伝送方法。 - 前記機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得する前記ステップは、
前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとをパケット損失回復能力予測モデルに入力するステップと、
前記パケット損失回復能力予測モデルを介して、前記第1音声符号化特徴パラメータ及び前記第2音声符号化特徴パラメータに従って、前記現在の符号化データを直接復号化することで決定された第1音声品質スコアと、前記現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第2音声品質スコアとの間のスコア差を出力するステップと、
前記スコア差に従って前記現在の符号化データに対応するパケット損失回復能力を決定するステップと、を含み、
前記現在の符号化データに対応するパケット損失回復能力は、前記スコア差と逆相関する、
請求項1に記載の音声伝送方法。 - 前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送する前記ステップは、
受信側によってフィードバックされたパケット損失状態情報を取得するステップと、
前記パケット損失状態情報に従って、前記現在の符号化データに対応する冗長率を決定するステップと、
前記冗長率に応じて、前記現在の符号化データに基づいて冗長パケットを生成した後、前記現在の符号化データ及び前記冗長パケットを前記受信側に伝送するステップと、を含む、
請求項1に記載の音声伝送方法。 - 前記音声伝送方法は、
前記受信側が前記現在の符号化データを受信した場合、前記現在の符号化データに対して音声復号化を直接に実行して、前記現在の符号化データに対応する音声信号を取得するステップ、及び
前記受信側が前記現在の符号化データを受信せず、前記冗長パケットを受信した場合、前記冗長パケットに基づき前記受信側を介して冗長復号化処理を実行して、前記現在の符号化データを取得してから、前記現在の符号化データに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するステップ、を更に含む、
請求項1に記載の音声伝送方法。 - 前記音声伝送方法は、
前記受信側が前記現在の符号化データ及び前記冗長パケットを受信しなかった場合、前記受信側によって、前記現在の符号化データに対してパケット損失回復処理を実行して、前記現在の符号化データに対応する回復パケットを取得し、前記回復パケットに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するステップを更に含む、
請求項1に記載の音声伝送方法。 - 前記パケット損失回復能力予測モデルは、以下のステップによって決定され、前記ステップは、
訓練集合におけるサンプル音声シーケンスを取得するステップと、
前記サンプル音声シーケンスに対して音声符号化を実行して、サンプル音声符号化ビットストリームを取得するステップと、
前記サンプル音声符号化ビットストリームにおける現在の符号化データによって使用される第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データによって使用される第2音声符号化特徴パラメータとを抽出するステップと、
前記サンプル音声符号化ビットストリームを直接に復号化して第1音声信号を取得した後、前記第1音声信号に基づいて決定された第1音声品質スコアを取得するステップと、
前記現在の符号化データに対して、シミュレートされたパケット損失回復処理を実行することにより回復パケットを取得し、前記回復パケットを復号化して第2音声信号を取得した後、前記第2音声信号に基づいて決定された第2音声品質スコアを取得するステップと、
前記第1音声品質スコアと前記第2音声品質スコアとの間のスコア差に従って、前記現在の符号化データに対応する実際のパケット損失回復能力を決定するステップと、
前記第1音声符号化特徴パラメータ及び前記第2音声符号化特徴パラメータを機械学習モデルに入力し、前記機械学習モデルを介して、前記現在の符号化データに対応する予測パケット損失回復能力を出力するステップと、
前記実際のパケット損失回復能力と前記予測パケット損失回復能力との差に従って前記機械学習モデルのモデルパラメータを調整した後、前記訓練集合におけるサンプル音声シーケンスを取得するステップに戻り、訓練終了条件を満たすまで訓練を続行するステップと、を含む、
請求項1ないし7のいずれか一項に記載の音声伝送方法。 - 音声伝送システムであって、
送信側と受信側を含み、
前記送信側は、音声符号化ビットストリームにおける現在の符号化データを取得し、機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するように構成され、
前記送信側は更に、前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するように構成され、
前記受信側は、前記現在の符号化データを受信した場合、前記現在の符号化データに対して音声復号化を直接に実行して、前記現在の符号化データに対応する音声信号を取得するように構成され、前記受信側は更に、前記現在の符号化データを受信せず、前記冗長パケットを受信した場合、前記冗長パケットに基づき冗長復号化処理を実行して、前記現在の符号化データを取得してから、前記現在の符号化データに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するように構成され、
前記受信側は更に、前記現在の符号化データ及び前記冗長パケットを受信しなかった場合、前記現在の符号化データに対してパケット損失回復処理を実行して、前記現在の符号化データに対応する回復パケットを取得し、前記回復パケットに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するように構成される、前記音声伝送システム。 - 前記送信側は更に、元の音声シーケンス内の音声セグメントのそれぞれに対応する音声符号化特徴パラメータを取得し、前記音声符号化特徴パラメータに従って、対応する音声セグメントに対して音声符号化を実行して、対応する符号化データを生成してから、音声符号化ビットストリームを取得し、前記音声符号化プロセスにおいて各符号化データによって使用される音声符号化特徴パラメータをキャッシュするように構成される。
請求項9に記載の音声伝送システム。 - 前記送信側は更に、前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとをパケット損失回復能力予測モデルに入力し、前記パケット損失回復能力予測モデルを介して、前記第1音声符号化特徴パラメータ及び前記第2音声符号化特徴パラメータに従って、前記現在の符号化データを直接復号化することで決定された第1音声品質スコアと、前記現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第2音声品質スコアとの間のスコア差を出力し、前記スコア差に従って前記現在の符号化データに対応するパケット損失回復能力を決定するように構成され、ここで、前記現在の符号化データに対応するパケット損失回復能力は、前記スコア差と逆相関する、
請求項9に記載の音声伝送システム。 - 前記送信側は更に、受信側によってフィードバックされたパケット損失状態情報を取得し、前記パケット損失状態情報に従って前記現在の符号化データに対応する冗長率を決定し、前記冗長率に応じて、前記現在の符号化データに基づいて冗長パケットを生成した後、前記現在の符号化データ及び前記冗長パケットを前記受信側に伝送するように構成される、
請求項9に記載の音声伝送システム。 - 音声伝送装置であって、
音声符号化ビットストリームにおける現在の符号化データを取得するように構成される取得モジュールと、
機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するように構成される、予測モジュールと、
前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するように構成される、冗長符号化判断モジュールと、を備える、前記音声伝送装置。 - 前記音声伝送装置は更に、
元の音声信号を取得し、元の音声信号を分割して、元の音声シーケンスを取得し、前記元の音声シーケンス内の音声セグメントに対して音声符号化を順次実行して、音声符号化ビットストリームを取得するように構成される、音声符号化モジュールを備える、
請求項13に記載の音声伝送装置。 - 前記音声伝送装置は更に、音声符号化モジュール及びキャッシュモジュールを備え、
前記音声符号化モジュールは、元の音声シーケンス内の音声セグメントのそれぞれに対応する音声符号化特徴パラメータを取得し、前記音声符号化特徴パラメータに従って、対応する音声セグメントに対して音声符号化を実行して、対応する符号化データを生成してから、音声符号化ビットストリームを取得するように構成され、
前記キャッシュモジュールは、音声符号化プロセスにおいて各符号化データによって使用される音声符号化特徴パラメータをキャッシュするように構成される、
請求項13に記載の音声伝送装置。 - 前記予測モジュールは更に、前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとをパケット損失回復能力予測モデルに入力し、前記パケット損失回復能力予測モデルを介して、前記第1音声符号化特徴パラメータ及び前記第2音声符号化特徴パラメータに従って、前記現在の符号化データを直接復号化することで決定された第1音声品質スコアと、前記現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第2音声品質スコアとの間のスコア差を出力し、前記スコア差に従って前記現在の符号化データに対応するパケット損失回復能力を決定するように構成され、ここで、前記現在の符号化データに対応するパケット損失回復能力は、前記スコア差と逆相関する、
請求項13に記載の音声伝送装置。 - 前記冗長符号化判断モジュールは更に、前記受信側が前記現在の符号化データを受信した場合、前記現在の符号化データに対して音声復号化を直接に実行して、前記現在の符号化データに対応する音声信号を取得し、前記受信側が前記現在の符号化データを受信せず、前記冗長パケットを受信した場合、前記冗長パケットに基づき前記受信側を介して冗長復号化処理を実行して、前記現在の符号化データを取得してから、前記現在の符号化データに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するように構成される、
請求項13に記載の音声伝送装置。 - 前記冗長符号化判断モジュールは更に、前記受信側が前記現在の符号化データ及び前記冗長パケットを受信しなかった場合、前記受信側によって、前記現在の符号化データに対してパケット損失回復処理を実行して、前記現在の符号化データに対応する回復パケットを取得し、前記回復パケットに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するように構成される、
請求項13ないし17のいずれか一項に記載の音声伝送装置。 - コンピュータ可読命令が記憶されている1つ又は複数の不揮発性コンピュータ可読記憶媒体であって、
前記コンピュータ可読命令が1つ又は複数のプロセッサによって実行されるときに、1つ又は複数のプロセッサに、請求項1ないし8のいずれか一項に記載の方法を実行させる、前記不揮発性コンピュータ可読記憶媒体。 - コンピュータ機器であって、
メモリと、1つ又は複数のプロセッサとを備え、前記メモリには、コンピュータ可読命令が記憶されており、前記コンピュータ可読命令が前記1つ又は複数のプロセッサによって実行されるときに、前記1つ又は複数のプロセッサに、請求項1ないし8のいずれか一項に記載の方法を実行させる、前記コンピュータ機器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010104793.7 | 2020-02-20 | ||
CN202010104793.7A CN112820306B (zh) | 2020-02-20 | 2020-02-20 | 语音传输方法、系统、装置、计算机可读存储介质和设备 |
PCT/CN2020/124263 WO2021164303A1 (zh) | 2020-02-20 | 2020-10-28 | 语音传输方法、系统、装置、计算机可读存储介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022552382A true JP2022552382A (ja) | 2022-12-15 |
JP7383138B2 JP7383138B2 (ja) | 2023-11-17 |
Family
ID=75852966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022522692A Active JP7383138B2 (ja) | 2020-02-20 | 2020-10-28 | 音声伝送方法及びそのシステム、装置、コンピュータプログラム、並びにコンピュータ機器 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220189491A1 (ja) |
EP (1) | EP4012705A4 (ja) |
JP (1) | JP7383138B2 (ja) |
CN (1) | CN112820306B (ja) |
WO (1) | WO2021164303A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220052783A1 (en) * | 2020-08-12 | 2022-02-17 | Vmware, Inc. | Packet reconstruction and error correction for network endpoints |
CN113192520B (zh) * | 2021-07-01 | 2021-09-24 | 腾讯科技(深圳)有限公司 | 一种音频信息处理方法、装置、电子设备及存储介质 |
CN116073946A (zh) * | 2021-11-01 | 2023-05-05 | 中兴通讯股份有限公司 | 抗丢包方法、装置、电子设备及存储介质 |
CN114513418B (zh) * | 2022-04-21 | 2022-06-24 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及相关设备 |
CN114978427B (zh) * | 2022-05-19 | 2024-04-19 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、程序产品、计算机设备和介质 |
CN117498892B (zh) * | 2024-01-02 | 2024-05-03 | 深圳旷世科技有限公司 | 基于uwb的音频传输方法、装置、终端及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10327109A (ja) * | 1997-05-26 | 1998-12-08 | Nec Corp | 通信装置及び通信システム |
JP2012529243A (ja) * | 2009-06-04 | 2012-11-15 | クゥアルコム・インコーポレイテッド | スピーチフレーム内の情報のロスを防ぐためのシステムおよび方法 |
JP2015510313A (ja) * | 2012-01-12 | 2015-04-02 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | クリティカリティ閾値制御のためのシステム、方法、装置、およびコンピュータ可読媒体 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7668712B2 (en) * | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
CN102036061B (zh) * | 2009-09-30 | 2012-11-21 | 华为技术有限公司 | 视频数据传输处理、发送处理方法、装置和网络系统 |
CN102143367B (zh) * | 2010-01-30 | 2013-01-30 | 华为技术有限公司 | 一种纠错校验方法、设备和系统 |
CN102752184A (zh) * | 2011-04-20 | 2012-10-24 | 河海大学 | 用于实时多播业务的数据通信系统及其方法 |
CN103716718B (zh) * | 2013-12-16 | 2017-03-01 | 广州华多网络科技有限公司 | 数据包的传输方法及装置 |
WO2015134579A1 (en) * | 2014-03-04 | 2015-09-11 | Interactive Intelligence Group, Inc. | System and method to correct for packet loss in asr systems |
EP3228037B1 (en) * | 2015-10-01 | 2018-04-11 | Telefonaktiebolaget LM Ericsson (publ) | Method and apparatus for removing jitter in audio data transmission |
CN106937134B (zh) * | 2015-12-31 | 2021-03-02 | 深圳市潮流网络技术有限公司 | 一种数据传输的编码方法、编码发送装置及系统 |
CN107592540B (zh) * | 2016-07-07 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 一种视频数据处理方法及装置 |
CN108011686B (zh) * | 2016-10-31 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 信息编码帧丢失恢复方法和装置 |
KR102051891B1 (ko) * | 2017-08-10 | 2019-12-04 | 한양대학교 산학협력단 | 대립쌍 구조 기반의 생성모델을 이용한 패킷손실은닉 방법 및 장치 |
US10714098B2 (en) * | 2017-12-21 | 2020-07-14 | Dolby Laboratories Licensing Corporation | Selective forward error correction for spatial audio codecs |
CN110087140B (zh) * | 2018-01-26 | 2022-07-05 | 腾讯科技(深圳)有限公司 | 一种传输流媒体数据的方法、装置、介质及设备 |
CN109218083B (zh) * | 2018-08-27 | 2021-08-13 | 广州猎游信息科技有限公司 | 一种语音数据传输方法及装置 |
CN109616129B (zh) * | 2018-11-13 | 2021-07-30 | 南京南大电子智慧型服务机器人研究院有限公司 | 用于提升语音丢帧补偿性能的混合多描述正弦编码器方法 |
US10784988B2 (en) * | 2018-12-21 | 2020-09-22 | Microsoft Technology Licensing, Llc | Conditional forward error correction for network data |
CN109862440A (zh) * | 2019-02-22 | 2019-06-07 | 深圳市凯迪仕智能科技有限公司 | 音视频传输前向纠错方法、装置、计算机设备及存储介质 |
CN110265046B (zh) * | 2019-07-25 | 2024-05-17 | 腾讯科技(深圳)有限公司 | 一种编码参数调控方法、装置、设备及存储介质 |
CN111312264B (zh) * | 2020-02-20 | 2023-04-21 | 腾讯科技(深圳)有限公司 | 语音传输方法、系统、装置、计算机可读存储介质和设备 |
-
2020
- 2020-02-20 CN CN202010104793.7A patent/CN112820306B/zh active Active
- 2020-10-28 EP EP20920497.3A patent/EP4012705A4/en active Pending
- 2020-10-28 WO PCT/CN2020/124263 patent/WO2021164303A1/zh unknown
- 2020-10-28 JP JP2022522692A patent/JP7383138B2/ja active Active
-
2022
- 2022-03-02 US US17/685,242 patent/US20220189491A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10327109A (ja) * | 1997-05-26 | 1998-12-08 | Nec Corp | 通信装置及び通信システム |
JP2012529243A (ja) * | 2009-06-04 | 2012-11-15 | クゥアルコム・インコーポレイテッド | スピーチフレーム内の情報のロスを防ぐためのシステムおよび方法 |
JP2015510313A (ja) * | 2012-01-12 | 2015-04-02 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | クリティカリティ閾値制御のためのシステム、方法、装置、およびコンピュータ可読媒体 |
Also Published As
Publication number | Publication date |
---|---|
US20220189491A1 (en) | 2022-06-16 |
EP4012705A1 (en) | 2022-06-15 |
CN112820306B (zh) | 2023-08-15 |
EP4012705A4 (en) | 2022-12-28 |
WO2021164303A1 (zh) | 2021-08-26 |
JP7383138B2 (ja) | 2023-11-17 |
CN112820306A (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022552382A (ja) | 音声伝送方法及びそのシステム、装置、コンピュータプログラム、並びにコンピュータ機器 | |
CN111312264B (zh) | 语音传输方法、系统、装置、计算机可读存储介质和设备 | |
US11227612B2 (en) | Audio frame loss and recovery with redundant frames | |
US8965545B2 (en) | Progressive encoding of audio | |
CN111371534B (zh) | 一种数据重传方法、装置、电子设备和存储介质 | |
US20200152208A1 (en) | Frame error concealment | |
US9985855B2 (en) | Call quality estimation by lost packet classification | |
CN113889076B (zh) | 语音识别及编解码方法、装置、电子设备及存储介质 | |
CN114333862B (zh) | 音频编码方法、解码方法、装置、设备、存储介质及产品 | |
EP3913808A1 (en) | Split gain shape vector coding | |
CN113763973A (zh) | 音频信号增强方法、装置、计算机设备和存储介质 | |
CN112992161A (zh) | 音频编码方法、音频解码方法、装置、介质及电子设备 | |
US11646042B2 (en) | Digital voice packet loss concealment using deep learning | |
CN115713939A (zh) | 语音识别方法、装置及电子设备 | |
CN114842857A (zh) | 语音处理方法、装置、系统、设备及存储介质 | |
CN116580716B (zh) | 音频编码方法、装置、存储介质及计算机设备 | |
US20240153514A1 (en) | Machine Learning Based Enhancement of Audio for a Voice Call | |
US20230075562A1 (en) | Audio Transcoding Method and Apparatus, Audio Transcoder, Device, and Storage Medium | |
Benamirouche et al. | Low complexity forward error correction for CELP-type speech coding over erasure channel transmission | |
US20230386486A1 (en) | Adaptive block switching with deep neural networks | |
CN113823297A (zh) | 语音数据处理方法、装置、设备及存储介质 | |
Lau | A Survey On Deep Learning in Real Time Speech Packet-loss Concealment Methods | |
CN115206330A (zh) | 音频处理方法、音频处理装置、电子设备和存储介质 | |
CN117854516A (zh) | 音频编解码方法、装置和设备 | |
CN117789701A (zh) | 数据传输方法、模型训练方法、装置、芯片及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220414 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220414 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230412 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230424 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230711 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231023 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231107 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7383138 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |