JP7599030B2 - オーディオ符号化方法、オーディオ復号化方法、装置、コンピューター機器及びコンピュータープログラム - Google Patents
オーディオ符号化方法、オーディオ復号化方法、装置、コンピューター機器及びコンピュータープログラム Download PDFInfo
- Publication number
- JP7599030B2 JP7599030B2 JP2023538141A JP2023538141A JP7599030B2 JP 7599030 B2 JP7599030 B2 JP 7599030B2 JP 2023538141 A JP2023538141 A JP 2023538141A JP 2023538141 A JP2023538141 A JP 2023538141A JP 7599030 B2 JP7599030 B2 JP 7599030B2
- Authority
- JP
- Japan
- Prior art keywords
- audio
- encoding
- code rate
- sample
- encoding code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本願は、出願番号が第202110380547.9号であり、出願日が2021年4月9日である中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照により本願に組み込まれる。
第1サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するステップと、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るステップと、
前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するステップと、
前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第2サンプルオーディオを得るステップと、
前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するステップであって、前記サンプル符号化品質スコアは前記第1サンプルオーディオと前記第2サンプルオーディオによって決定されるものである、ステップと、を含む。
オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを取得するステップと、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るステップであって、前記符号化コードレート予測モデルは、目標符号化品質スコアに到達するときに各前記オーディオフレームに対応するオーディオ符号化コードレートを予測するために使用される、ステップと、
前記オーディオ符号化コードレートに基づいて前記オーディオフレームに対してオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいて目標オーディオデータを生成するステップと、を含む。
上記のオーディオ符号化方法により符号化された後の目標オーディオデータを取得するステップと、
オーディオ符号化コードレートに対応するオーディオ復号化コードレートにより前記符号化された後の目標オーディオデータに対してオーディオ復号化を行い、復号化後の前記目標オーディオデータを得るステップと、を含む。
第1サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するように構成される第1取得モジュールと、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るように構成される第1処理モジュールと、
前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するように構成される第1符号化モジュールと、
前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第2サンプルオーディオを得るように構成されるオーディオ復号化モジュールと、
前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するように構成されるトレーニングモジュールであって、前記サンプル符号化品質スコアは前記第1サンプルオーディオと前記第2サンプルオーディオによって決定されるものである、トレーニングモジュールと、を備える。
オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを取得するように構成される第4取得モジュールと、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るように構成される第2処理モジュールであって、前記符号化コードレート予測モデルは、目標符号化品質スコアに到達するときに各前記オーディオフレームに対応するオーディオ符号化コードレートを予測するために使用される、第2処理モジュールと、
前記オーディオ符号化コードレートに基づいて前記オーディオフレームに対してオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいて目標オーディオデータを生成するように構成される第2符号化モジュールと、を備える。
上記のオーディオ符号化方法により符号化された後の目標オーディオデータを取得するように構成される第5取得モジュールと、
オーディオ符号化コードレートに対応するオーディオ復号化コードレートにより前記符号化された後の目標オーディオデータに対してオーディオ復号化を行い、復号化後の前記目標オーディオデータを得るように構成される復号化モジュールと、を備える。
1)オーディオ符号化:オーディオ符号化は、初めて収集されたオリジナルロスレスオーディオ信号に対して、オーディオモデルにより時間領域と周波数領域の冗長分析及び圧縮を行い、それによって音声伝送帯域幅とストレージ空間を低減させる同時に、良好なオーディオ品質を維持することである。オーディオエンコーダの入力パラメータは、サンプリングレート、チャネル数及び符号化コードレートなどを含み、ここで、オーディオ符号化の時に使用される符号化コードレートが大きいほど、音声符号化の品質がよくなるが、符号化コードストリームが占有する帯域幅が多くなり、オーディオ符号化後のオーディオファイルが占有するストレージ空間が大きくなる。
2)人工知能(AI:Artificial Intelligence)は、デジタルコンピューター又はデジタルコンピューターによって制御される機械を使用して、人間の知能をシミュレート、延伸、拡張し、環境を感知し、知識を取得し、知識を使用して最適な結果を取得する理論、方法、技術、及び応用システムである。つまり、人工知能は、コンピューター科学の総合技術であり、知能の本質を理解し、人間の知能に似た方法で反応する新しい知能機械を生産しようとするものである。人工知能は、つまり、各種の知能機械の設計原理と実現方法を研究し、機械に感知、推理と決定の機能を持たせる。人工知能基礎技術は一般的に、例えばセンサー、専用人工知能チップ、クラウドコンピューティング、分散型ストレージ、ビッグデータ処理技術、操作/インタラクションシステム、機電一体化などの技術を含む。人工知能ソフトウェア技術は主にコンピュータービジョン技術、音声処理技術、自然言語処理技術及び機械学習/深層学習などのいくつかのテーマを含む。
第1サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するように構成される第1取得モジュール1101と、符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るように構成される第1処理モジュール1102と、前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するように構成される第1符号化モジュール1103と、前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第2サンプルオーディオを得るように構成されるオーディオ復号化モジュール1104と、前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するように構成されるトレーニングモジュール1105であって、前記サンプル符号化品質スコアは前記第1サンプルオーディオと前記第2サンプルオーディオによって決定されるものである、トレーニングモジュール1105と、を備えてもよい。
前記第1処理モジュール1102は、前記符号化コードレート予測モデルによりi番目のサンプルオーディオ特徴パラメータ及び前記i-1番目のサンプル符号化コードレートに対して符号化コードレート予測処理を行い、iフレーム目のサンプルオーディオフレームに対応するi番目のサンプル符号化コードレートを得るように構成される第2処理ユニットを備え、iは逓増する整数であり、且つ値の範囲が1<i≦Nであり、Nは前記サンプルオーディオフレームの数であり、Nは1より大きい整数である。
オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを取得するように構成される第4取得モジュール1201と、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るように構成される第2処理モジュール1202であって、前記符号化コードレート予測モデルは、目標符号化品質スコアに到達するときに各前記オーディオフレームに対応するオーディオ符号化コードレートを予測するために使用される、第2処理モジュール1202と、
前記オーディオ符号化コードレートに基づいて前記オーディオフレームに対してオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいて目標オーディオデータを生成するように構成される第2符号化モジュール1203と、を備えてもよい。
前記オーディオ符号化装置は、さらに、
受信端によってフィードバックされる現在のネットワーク状態パラメータを取得するように構成される第5取得モジュールであって、前記受信端はネットワークを介して伝送される目標オーディオデータを受信するために使用される、第5取得モジュールを備え、前記第2処理モジュール1202は、前記符号化コードレート予測モデルにより前記現在のネットワーク状態パラメータ及び前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るように構成される第3処理ユニットを備える。
j-1フレーム目のオーディオフレームに対応するj-1番目のオーディオ符号化コードレートを取得するように構成される第6取得モジュールを備え、前記第2処理モジュール1202は、前記符号化コードレート予測モデルにより前記j-1番目のオーディオ符号化コードレート及びjフレーム目のオーディオフレームに対応するj番目のオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、jフレーム目のオーディオフレームに対応するj番目のオーディオ符号化コードレートを得るように構成される第4処理ユニットを備え、ここで、jは逓増する整数であり、且つ値の範囲が1<j≦Mであり、Mは前記オーディオフレームの数であり、Mは1より大きい整数である。
符号化された後の目標オーディオデータを取得するように構成される第5取得モジュールと、オーディオ符号化コードレートに対応するオーディオ復号化コードレートにより前記符号化された後の目標オーディオデータに対してオーディオ復号化を行い、復号化後の前記目標オーディオデータを得るように構成される復号化モジュールと、を備えてもよい。
前記コンピューター機器1300は、中央処理ユニット(CPU:Central Processing Unit)1301、ランダムアクセスメモリ(RAM:Random Access Memory)1302及び読み取り専用メモリ(ROM:Read-Only Memory)1303を含むシステムメモリ1304、及びシステムメモリ1304と中央処理ユニット1301とを接続するシステムバス1305を含む。前記コンピューター機器1300は、コンピューター機器内の各デバイス間の情報伝送を支援する基本入力/出力システム(I/Oシステム:Input/Outputシステム)1306と、オペレーティングシステム1313、アプリケーションプログラム1314及び他のプログラムモジュール1315を記憶するための大容量記憶装置1307とをさらに含む。
102 受信端
103 オリジナル音声
104 設定される符号化パラメータ
105 声信号
106 パケットロス状態
210 第1端末
220 サーバ
230 第2端末
701 第1サンプル音声
702 符号化コードレート予測モデル
703 ネットワークパケットロスフラグ
704 サンプルオーディオ特徴パラメータ
705 現在のフレームの符号化コードレート
706 第2サンプル音声
1001 ネットワークパケットロスフラグ
1002 オーディオ特徴パラメータ
1003 符号化コードレート予測モデル
1004 現在のフレームの符号化コードレート
1101 第1取得モジュール
1102 第1処理モジュール
1103 第1符号化モジュール
1104 オーディオ復号化モジュール
1105 トレーニングモジュール
1201 第4取得モジュール
1202 第2処理モジュール
1203 第2符号化モジュール
1300 コンピューター機器
1301 中央処理ユニット
1302 ランダムアクセスメモリ
1303 読み取り専用メモリ
1304 システムメモリ
1305 システムバス
1306 入力/出力システム
1307 大容量記憶装置
1308 ディスプレイ
1309 入力装置
1310 入出力コントローラ
1311 ネットワークインターフェースユニット
1312 ネットワーク
1313 オペレーティングシステム
1314 アプリケーションプログラム
1315 他のプログラムモジュール
Claims (17)
- コンピューター機器が実行する、オーディオ符号化方法であって、
第1サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するステップと、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るステップと、
前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するステップと、
前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第2サンプルオーディオを得るステップと、
前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するステップであって、前記サンプル符号化品質スコアは、前記第1サンプルオーディオと前記第2サンプルオーディオとの差異によって決定されるものである、ステップと、を含む、
オーディオ符号化方法。 - 符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得る前に、前記オーディオ符号化方法は、
前記第1サンプルオーディオのサンプルネットワーク状態パラメータを取得するステップをさらに含み、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得る前記ステップは、
前記符号化コードレート予測モデルにより前記サンプルネットワーク状態パラメータ及び前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るステップを含む、
請求項1に記載のオーディオ符号化方法。 - 符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得る前に、前記オーディオ符号化方法は、
i-1フレーム目のサンプルオーディオフレームに対応するi-1番目のサンプル符号化コードレートを取得するステップをさらに含み、
前記符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得る前記ステップは、
前記符号化コードレート予測モデルによりi番目のサンプルオーディオ特徴パラメータ及び前記i-1番目のサンプル符号化コードレートに対して符号化コードレート予測処理を行い、iフレーム目のサンプルオーディオフレームに対応するi番目のサンプル符号化コードレートを得るステップを含み、
iは逓増する整数であり、且つ値の範囲が1<i≦Nであり、Nは前記サンプルオーディオフレームの数であり、Nは1より大きい整数である、
請求項1に記載のオーディオ符号化方法。 - 前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングする前記ステップは、
前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記第1サンプルオーディオに対応する前記サンプル符号化品質スコアを決定するステップと、
前記サンプル符号化品質スコアと前記目標符号化品質スコアに基づいて、前記符号化コードレート予測モデルをトレーニングするステップと、を含む、
請求項1から3のいずれか一項に記載のオーディオ符号化方法。 - 前記サンプル符号化品質スコアと前記目標符号化品質スコアに基づいて、前記符号化コードレート予測モデルをトレーニングする前記ステップは、
前記第1サンプルオーディオに対応する平均符号化コードレートを決定するステップであって、前記平均符号化コードレートは各フレームのサンプルオーディオフレームに対応する前記サンプル符号化コードレートによって決定されるものである、ステップと、
前記平均符号化コードレート、前記サンプル符号化品質スコア及び前記目標符号化品質スコアに基づいて、前記第1サンプルオーディオに対応する第1符号化損失を構築するステップと、
前記第1符号化損失と所定の符号化損失に基づいて、前記符号化コードレート予測モデルをトレーニングするステップと、を含む、
請求項4に記載のオーディオ符号化方法。 - 前記平均符号化コードレート、前記サンプル符号化品質スコア及び前記目標符号化品質スコアに基づいて、前記第1サンプルオーディオに対応する第1符号化損失を構築する前記ステップは、
前記平均符号化コードレートに対応する第1損失重み、及び符号化品質スコアに対応する第2損失重みを取得するステップであって、前記符号化品質スコアは前記サンプル符号化品質スコアと前記目標符号化品質スコアによって決定されるものである、ステップと、
前記平均符号化コードレート、前記第1損失重み、前記符号化品質スコア及び前記第2損失重みに基づいて、前記第1サンプルオーディオに対応する前記第1符号化損失を構築するステップと、を含む、
請求項5に記載のオーディオ符号化方法。 - 前記サンプルオーディオ特徴パラメータのタイプは、固定ゲイン、適応ゲイン、ピッチ周期、ピッチ周波数及び線スペクトル対パラメータのうちの少なくとも1つを含む、
請求項1から3のいずれか一項に記載のオーディオ符号化方法。 - コンピューター機器が実行する、オーディオ符号化方法であって、
オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを取得するステップと、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るステップであって、前記符号化コードレート予測モデルは、目標符号化品質スコアに到達するときの各前記オーディオフレームに対応するオーディオ符号化コードレートを予測するために使用される、ステップと、
前記オーディオ符号化コードレートに基づいて前記オーディオフレームに対してオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいて目標オーディオデータを生成するステップと、を含み、
前記符号化コードレート予測モデルは、
第1サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するステップと、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るステップと、
前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するステップと、
前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第2サンプルオーディオを得るステップと、
前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するステップであって、前記サンプル符号化品質スコアは、前記第1サンプルオーディオと前記第2サンプルオーディオとの差異によって決定されるものである、ステップと、によってトレーニングされる、
オーディオ符号化方法。 - 前記目標オーディオデータはネットワーク伝送に使用され、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得る前に、前記オーディオ符号化方法は、
受信端によってフィードバックされる現在のネットワーク状態パラメータを取得するステップであって、前記受信端はネットワークを介して伝送される目標オーディオデータを受信するために使用される、ステップをさらに含み、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得る前記ステップは、
前記符号化コードレート予測モデルにより前記現在のネットワーク状態パラメータ及び前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るステップを含む、
請求項8に記載のオーディオ符号化方法。 - 符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得る前に、前記オーディオ符号化方法は、
j-1フレーム目のオーディオフレームに対応するj-1番目のオーディオ符号化コードレートを取得するステップをさらに含み、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得る前記ステップは、
前記符号化コードレート予測モデルにより前記j-1番目のオーディオ符号化コードレート及びjフレーム目のオーディオフレームに対応するj番目のオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、jフレーム目のオーディオフレームに対応するj番目のオーディオ符号化コードレートを得るステップを含み、
jは逓増する整数であり、且つ値の範囲が1<j≦Mであり、Mは前記オーディオフレームの数であり、Mは1より大きい整数である、
請求項8に記載のオーディオ符号化方法。 - 前記オーディオ特徴パラメータのタイプは、固定ゲイン、適応ゲイン、ピッチ周期、ピッチ周波数及び線スペクトル対パラメータのうちの少なくとも1つを含む、
請求項8から10のいずれか一項に記載のオーディオ符号化方法。 - コンピューター機器が実行する、オーディオ復号化方法であって、前記オーディオ復号化方法は、請求項8から11のいずれか一項に記載のオーディオ符号化方法によって符号化された後の目標オーディオデータに適用され、
前記オーディオ復号化方法は、
前記符号化された後の目標オーディオデータを取得するステップと、
オーディオ符号化コードレートに対応するオーディオ復号化コードレートにより前記符号化された後の目標オーディオデータに対してオーディオ復号化を行い、復号化後の前記目標オーディオデータを得るステップと、を含む、
オーディオ復号化方法。 - オーディオ符号化装置であって、
第1サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するように構成される第1取得モジュールと、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るように構成される第1処理モジュールと、
前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するように構成される第1符号化モジュールと、
前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第2サンプルオーディオを得るように構成されるオーディオ復号化モジュールと、
前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するように構成されるトレーニングモジュールであって、前記サンプル符号化品質スコアは前記第1サンプルオーディオと前記第2サンプルオーディオとの差異によって決定されるものである、トレーニングモジュールと、を備える、
オーディオ符号化装置。 - オーディオ符号化装置であって、
オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを取得するように構成される第4取得モジュールと、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るように構成される第2処理モジュールであって、前記符号化コードレート予測モデルは、目標符号化品質スコアに到達するときの各前記オーディオフレームに対応するオーディオ符号化コードレートを予測するために使用される、第2処理モジュールと、
前記オーディオ符号化コードレートに基づいて前記オーディオフレームに対してオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいて目標オーディオデータを生成するように構成される第2符号化モジュールと、を備え、
前記符号化コードレート予測モデルは、
第1サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するように構成される第1取得モジュールと、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るように構成される第1処理モジュールと、
前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するように構成される第1符号化モジュールと、
前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第2サンプルオーディオを得るように構成されるオーディオ復号化モジュールと、
前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するように構成されるトレーニングモジュールであって、前記サンプル符号化品質スコアは前記第1サンプルオーディオと前記第2サンプルオーディオとの差異によって決定されるものである、トレーニングモジュールと、によってトレーニングされる、
オーディオ符号化装置。 - オーディオ復号化装置であって、
請求項8から11のいずれか一項に記載のオーディオ符号化方法によって符号化された後の目標オーディオデータを取得するように構成される第5取得モジュールと、
オーディオ符号化コードレートに対応するオーディオ復号化コードレートにより前記符号化された後の目標オーディオデータに対してオーディオ復号化を行い、復号化後の前記目標オーディオデータを得るように構成される復号化モジュールと、を備える、
オーディオ復号化装置。 - コンピューター機器であって、
プロセッサと、
前記プロセッサにロードおよび実行されると、前記プロセッサに、請求項1から7のいずれか一項に記載のオーディオ符号化方法を実現させ、又は請求項8から11のいずれか一項に記載のオーディオ符号化方法を実現させ、又は請求項12に記載のオーディオ復号化方法を実現させる、少なくとも1つのプログラムを記憶するメモリと、を含む、
コンピューター機器。 - コンピューターに、請求項1から7のいずれか一項に記載のオーディオ符号化方法を実行させ、又は請求項8から11のいずれか一項に記載のオーディオ符号化方法を実行させ、又は請求項12に記載のオーディオ復号化方法を実行させる、コンピュータープログラム。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202110380547.9A CN112767956B (zh) | 2021-04-09 | 2021-04-09 | 音频编码方法、装置、计算机设备及介质 |
| CN202110380547.9 | 2021-04-09 | ||
| PCT/CN2022/081414 WO2022213787A1 (zh) | 2021-04-09 | 2022-03-17 | 音频编码方法、音频解码方法、装置、计算机设备、存储介质及计算机程序产品 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2024501933A JP2024501933A (ja) | 2024-01-17 |
| JP7599030B2 true JP7599030B2 (ja) | 2024-12-12 |
Family
ID=75691260
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023538141A Active JP7599030B2 (ja) | 2021-04-09 | 2022-03-17 | オーディオ符号化方法、オーディオ復号化方法、装置、コンピューター機器及びコンピュータープログラム |
Country Status (5)
| Country | Link |
|---|---|
| US (2) | US12444427B2 (ja) |
| EP (1) | EP4239630A4 (ja) |
| JP (1) | JP7599030B2 (ja) |
| CN (1) | CN112767956B (ja) |
| WO (1) | WO2022213787A1 (ja) |
Families Citing this family (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113518250B (zh) * | 2020-08-07 | 2022-08-02 | 腾讯科技(深圳)有限公司 | 一种多媒体数据处理方法、装置、设备及可读存储介质 |
| CN112767956B (zh) * | 2021-04-09 | 2021-07-16 | 腾讯科技(深圳)有限公司 | 音频编码方法、装置、计算机设备及介质 |
| CN113192520B (zh) * | 2021-07-01 | 2021-09-24 | 腾讯科技(深圳)有限公司 | 一种音频信息处理方法、装置、电子设备及存储介质 |
| CN117813652A (zh) * | 2022-05-10 | 2024-04-02 | 北京小米移动软件有限公司 | 音频信号编码方法、装置、电子设备和存储介质 |
| CN115334349B (zh) * | 2022-07-15 | 2024-01-02 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及存储介质 |
| CN115831133A (zh) * | 2022-09-29 | 2023-03-21 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及存储介质 |
| CN116095373B (zh) * | 2023-01-03 | 2025-10-28 | 北京达佳互联信息技术有限公司 | 一种资源处理方法、装置、设备及存储介质 |
| CN116524951A (zh) * | 2023-03-30 | 2023-08-01 | 鼎道智芯(上海)半导体有限公司 | 音频处理方法和装置 |
| WO2025177340A1 (ja) * | 2024-02-19 | 2025-08-28 | ソフトバンク株式会社 | 通信システム、通信方法、通信システムを構成するueおよびサーバ |
| CN117793078B (zh) * | 2024-02-27 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 一种音频数据的处理方法、装置、电子设备和存储介质 |
| CN119030959B (zh) * | 2024-07-17 | 2025-03-07 | 深圳市厚利联明信息技术有限公司 | 一种基于智能ai的外呼语音通讯质量优化方法 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110992963A (zh) | 2019-12-10 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 网络通话方法、装置、计算机设备及存储介质 |
| CN111798858A (zh) | 2020-07-03 | 2020-10-20 | 腾讯科技(深圳)有限公司 | 音频播放方法、装置、电子设备及存储介质 |
| CN111862995A (zh) | 2020-06-22 | 2020-10-30 | 北京达佳互联信息技术有限公司 | 一种码率确定模型训练方法、码率确定方法及装置 |
Family Cites Families (78)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5710863A (en) * | 1995-09-19 | 1998-01-20 | Chen; Juin-Hwey | Speech signal quantization using human auditory models in predictive coding systems |
| US5778335A (en) * | 1996-02-26 | 1998-07-07 | The Regents Of The University Of California | Method and apparatus for efficient multiband celp wideband speech and music coding and decoding |
| TW416044B (en) * | 1996-06-19 | 2000-12-21 | Texas Instruments Inc | Adaptive filter and filtering method for low bit rate coding |
| US5995923A (en) * | 1997-06-26 | 1999-11-30 | Nortel Networks Corporation | Method and apparatus for improving the voice quality of tandemed vocoders |
| US6172974B1 (en) * | 1997-10-31 | 2001-01-09 | Nortel Networks Limited | Network element having tandem free operation capabilities |
| US6249758B1 (en) * | 1998-06-30 | 2001-06-19 | Nortel Networks Limited | Apparatus and method for coding speech signals by making use of voice/unvoiced characteristics of the speech signals |
| US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
| US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
| US6456964B2 (en) * | 1998-12-21 | 2002-09-24 | Qualcomm, Incorporated | Encoding of periodic speech using prototype waveforms |
| US6370502B1 (en) * | 1999-05-27 | 2002-04-09 | America Online, Inc. | Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec |
| US6963833B1 (en) * | 1999-10-26 | 2005-11-08 | Sasken Communication Technologies Limited | Modifications in the multi-band excitation (MBE) model for generating high quality speech at low bit rates |
| US6377916B1 (en) * | 1999-11-29 | 2002-04-23 | Digital Voice Systems, Inc. | Multiband harmonic transform coder |
| US6745024B1 (en) * | 2000-01-10 | 2004-06-01 | Qualcomm Incorporated | System and method for preparing and sending an electronic mail communication using a wireless communications device |
| US7080009B2 (en) * | 2000-05-01 | 2006-07-18 | Motorola, Inc. | Method and apparatus for reducing rate determination errors and their artifacts |
| US7062445B2 (en) * | 2001-01-26 | 2006-06-13 | Microsoft Corporation | Quantization loop with heuristic approach |
| CA2365203A1 (en) * | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
| US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
| US7035700B2 (en) * | 2002-03-13 | 2006-04-25 | The United States Of America As Represented By The Secretary Of The Air Force | Method and apparatus for embedding data in audio signals |
| JP3881943B2 (ja) * | 2002-09-06 | 2007-02-14 | 松下電器産業株式会社 | 音響符号化装置及び音響符号化方法 |
| KR100837451B1 (ko) * | 2003-01-09 | 2008-06-12 | 딜리시움 네트웍스 피티와이 리미티드 | 향상된 품질의 음성 변환부호화를 위한 방법 및 장치 |
| US6917914B2 (en) * | 2003-01-31 | 2005-07-12 | Harris Corporation | Voice over bandwidth constrained lines with mixed excitation linear prediction transcoding |
| US20050256702A1 (en) * | 2004-05-13 | 2005-11-17 | Ittiam Systems (P) Ltd. | Algebraic codebook search implementation on processors with multiple data paths |
| US7116266B1 (en) * | 2004-06-16 | 2006-10-03 | Rockwell Collins, Inc. | Traffic alert and collision avoidance system enhanced surveillance system and method |
| US7542761B2 (en) * | 2004-10-06 | 2009-06-02 | At&T Mobility Ii Llc | Voice quality on a communication link based on customer feedback |
| US20110102553A1 (en) * | 2007-02-28 | 2011-05-05 | Tessera Technologies Ireland Limited | Enhanced real-time face models from stereo imaging |
| US7680655B2 (en) * | 2005-05-20 | 2010-03-16 | Alcatel-Lucent Usa Inc. | Method and apparatus for measuring the quality of speech transmissions that use speech compression |
| US20070011009A1 (en) * | 2005-07-08 | 2007-01-11 | Nokia Corporation | Supporting a concatenative text-to-speech synthesis |
| KR100851970B1 (ko) * | 2005-07-15 | 2008-08-12 | 삼성전자주식회사 | 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치 |
| SG136836A1 (en) * | 2006-04-28 | 2007-11-29 | St Microelectronics Asia | Adaptive rate control algorithm for low complexity aac encoding |
| US8589151B2 (en) * | 2006-06-21 | 2013-11-19 | Harris Corporation | Vocoder and associated method that transcodes between mixed excitation linear prediction (MELP) vocoders with different speech frame rates |
| US7873511B2 (en) * | 2006-06-30 | 2011-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
| US8682652B2 (en) * | 2006-06-30 | 2014-03-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
| EP2023339B1 (en) * | 2007-07-30 | 2010-08-25 | Global IP Solutions (GIPS) AB | A low-delay audio coder |
| TWI374671B (en) * | 2007-07-31 | 2012-10-11 | Realtek Semiconductor Corp | Audio encoding method with function of accelerating a quantization iterative loop process |
| US9111525B1 (en) * | 2008-02-14 | 2015-08-18 | Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) | Apparatuses, methods and systems for audio processing and transmission |
| US8897370B1 (en) * | 2009-11-30 | 2014-11-25 | Google Inc. | Bitrate video transcoding based on video coding complexity estimation |
| US8842738B2 (en) * | 2010-09-01 | 2014-09-23 | Electronics And Telecommunications Research Institute | Signal processing method and apparatus based on multiple textures using video audio excitation signals |
| CN102985969B (zh) * | 2010-12-14 | 2014-12-10 | 松下电器(美国)知识产权公司 | 编码装置、解码装置和编码方法、解码方法 |
| NO2669468T3 (ja) * | 2011-05-11 | 2018-06-02 | ||
| US9576590B2 (en) * | 2012-02-24 | 2017-02-21 | Nokia Technologies Oy | Noise adaptive post filtering |
| US8645142B2 (en) * | 2012-03-27 | 2014-02-04 | Avaya Inc. | System and method for method for improving speech intelligibility of voice calls using common speech codecs |
| US9396732B2 (en) * | 2012-10-18 | 2016-07-19 | Google Inc. | Hierarchical deccorelation of multichannel audio |
| JP6173484B2 (ja) * | 2013-01-08 | 2017-08-02 | ドルビー・インターナショナル・アーベー | 臨界サンプリングされたフィルタバンクにおけるモデル・ベースの予測 |
| JP6096934B2 (ja) * | 2013-01-29 | 2017-03-15 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | 周波数拡張されたオーディオ信号を生成するためのデコーダ、復号化方法、符号化された信号を生成するためのエンコーダ、およびコンパクトな選択サイド情報を使用する符号化方法 |
| CN104517612B (zh) * | 2013-09-30 | 2018-10-12 | 上海爱聊信息科技有限公司 | 基于amr-nb语音信号的可变码率编码器和解码器及其编码和解码方法 |
| CN105100508B (zh) * | 2014-05-05 | 2018-03-09 | 华为技术有限公司 | 一种网络语音质量评估方法、装置和系统 |
| CN106448688B (zh) * | 2014-07-28 | 2019-11-05 | 华为技术有限公司 | 音频编码方法及相关装置 |
| WO2016168591A1 (en) * | 2015-04-16 | 2016-10-20 | Robert Bosch Gmbh | System and method for automated sign language recognition |
| JP6804528B2 (ja) * | 2015-09-25 | 2020-12-23 | ヴォイスエイジ・コーポレーション | ステレオ音声信号をプライマリチャンネルおよびセカンダリチャンネルに時間領域ダウンミックスするために左チャンネルと右チャンネルとの間の長期相関差を使用する方法およびシステム |
| CN106816158B (zh) * | 2015-11-30 | 2020-08-07 | 华为技术有限公司 | 一种语音质量评估方法、装置及设备 |
| CA3045515A1 (en) * | 2016-01-03 | 2017-07-13 | Auro Technologies Nv | A signal encoder, decoder and methods using predictor models |
| CN105610635B (zh) * | 2016-02-29 | 2018-12-07 | 腾讯科技(深圳)有限公司 | 语音编码发送方法和装置 |
| CN108701265A (zh) * | 2016-03-14 | 2018-10-23 | 欧姆龙株式会社 | 学习服务提供装置 |
| WO2018002234A1 (en) * | 2016-06-29 | 2018-01-04 | Telefonaktiebolaget Lm Ericsson (Publ) | Quality estimation of adaptive multimedia streaming |
| US20180288420A1 (en) * | 2017-03-30 | 2018-10-04 | Qualcomm Incorporated | Zero block detection using adaptive rate model |
| US10433075B2 (en) * | 2017-09-12 | 2019-10-01 | Whisper.Ai, Inc. | Low latency audio enhancement |
| US11593633B2 (en) * | 2018-04-13 | 2023-02-28 | Microsoft Technology Licensing, Llc | Systems, methods, and computer-readable media for improved real-time audio processing |
| CN109147804B (zh) * | 2018-06-05 | 2024-08-20 | 安克创新科技股份有限公司 | 一种基于深度学习的音质特性处理方法及系统 |
| EP3644313A1 (en) * | 2018-10-26 | 2020-04-29 | Fraunhofer Gesellschaft zur Förderung der Angewand | Perceptual audio coding with adaptive non-uniform time/frequency tiling using subband merging and time domain aliasing reduction |
| US11477502B2 (en) * | 2018-11-08 | 2022-10-18 | Nippon Telegraph And Telephone Corporation | Distribution design support method, distribution design support apparatus and program |
| CN109495660B (zh) * | 2018-11-29 | 2021-05-18 | 广州市百果园信息技术有限公司 | 一种音频数据的编码方法、装置、设备和存储介质 |
| EP3938962B1 (en) * | 2019-03-15 | 2025-11-26 | Dolby International AB | Method and apparatus for updating a neural network |
| AU2020242078B2 (en) * | 2019-03-20 | 2026-01-29 | Research Foundation Of The City University Of New York | Method for extracting speech from degraded signals by predicting the inputs to a speech vocoder |
| US11704178B2 (en) * | 2019-05-14 | 2023-07-18 | Micron Technology, Inc. | Estimating a bit error rate of data stored by a memory subsystem using machine learning |
| US11437050B2 (en) * | 2019-09-09 | 2022-09-06 | Qualcomm Incorporated | Artificial intelligence based audio coding |
| CN110767243A (zh) * | 2019-11-04 | 2020-02-07 | 重庆百瑞互联电子技术有限公司 | 一种音频编码方法、装置及设备 |
| EP4070309A1 (en) * | 2019-12-05 | 2022-10-12 | Dolby Laboratories Licensing Corporation | A psychoacoustic model for audio processing |
| CN111243608A (zh) * | 2020-01-17 | 2020-06-05 | 中国人民解放军国防科技大学 | 一种基于深度自编码机低速率语音编码方法 |
| CN111370032B (zh) * | 2020-02-20 | 2023-02-14 | 厦门快商通科技股份有限公司 | 语音分离方法、系统、移动终端及存储介质 |
| CN111429926B (zh) * | 2020-03-24 | 2022-04-15 | 北京百瑞互联技术有限公司 | 一种优化音频编码速度的方法和装置 |
| WO2021236059A1 (en) * | 2020-05-19 | 2021-11-25 | Google Llc | Dynamic parameter selection for quality-normalized video transcoding |
| CN113518250B (zh) * | 2020-08-07 | 2022-08-02 | 腾讯科技(深圳)有限公司 | 一种多媒体数据处理方法、装置、设备及可读存储介质 |
| WO2022091171A1 (ja) * | 2020-10-26 | 2022-05-05 | 日本電信電話株式会社 | マクロフロー生成装置、マクロフロー生成方法及びプログラム |
| CN112289328B (zh) * | 2020-10-28 | 2024-06-21 | 北京百瑞互联技术股份有限公司 | 一种确定音频编码码率的方法及系统 |
| US12206921B2 (en) * | 2020-11-05 | 2025-01-21 | Nippon Telegraph And Telephone Corporation | Throughput estimation apparatus, throughput estimation method and program |
| WO2022159247A1 (en) * | 2021-01-22 | 2022-07-28 | Google Llc | Trained generative model speech coding |
| CN117768655A (zh) * | 2021-02-25 | 2024-03-26 | 华为技术有限公司 | 音视频或图像分层压缩方法和装置 |
| CN112767956B (zh) * | 2021-04-09 | 2021-07-16 | 腾讯科技(深圳)有限公司 | 音频编码方法、装置、计算机设备及介质 |
-
2021
- 2021-04-09 CN CN202110380547.9A patent/CN112767956B/zh active Active
-
2022
- 2022-03-17 WO PCT/CN2022/081414 patent/WO2022213787A1/zh not_active Ceased
- 2022-03-17 JP JP2023538141A patent/JP7599030B2/ja active Active
- 2022-03-17 EP EP22783856.2A patent/EP4239630A4/en active Pending
- 2022-11-01 US US17/978,905 patent/US12444427B2/en active Active
-
2025
- 2025-08-26 US US19/310,756 patent/US20250378840A1/en active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110992963A (zh) | 2019-12-10 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 网络通话方法、装置、计算机设备及存储介质 |
| CN111862995A (zh) | 2020-06-22 | 2020-10-30 | 北京达佳互联信息技术有限公司 | 一种码率确定模型训练方法、码率确定方法及装置 |
| CN111798858A (zh) | 2020-07-03 | 2020-10-20 | 腾讯科技(深圳)有限公司 | 音频播放方法、装置、电子设备及存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP4239630A1 (en) | 2023-09-06 |
| CN112767956A (zh) | 2021-05-07 |
| WO2022213787A1 (zh) | 2022-10-13 |
| US20230046509A1 (en) | 2023-02-16 |
| CN112767956B (zh) | 2021-07-16 |
| EP4239630A4 (en) | 2024-08-21 |
| US20250378840A1 (en) | 2025-12-11 |
| US12444427B2 (en) | 2025-10-14 |
| JP2024501933A (ja) | 2024-01-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7599030B2 (ja) | オーディオ符号化方法、オーディオ復号化方法、装置、コンピューター機器及びコンピュータープログラム | |
| CN110223705B (zh) | 语音转换方法、装置、设备及可读存储介质 | |
| US12027165B2 (en) | Computer program, server, terminal, and speech signal processing method | |
| JP6876752B2 (ja) | 応答方法及び装置 | |
| KR20240097874A (ko) | 자기 회귀 생성 신경망을 사용한 오디오 생성 | |
| CN112750462B (zh) | 一种音频处理方法、装置及设备 | |
| CN112185363B (zh) | 音频处理方法及装置 | |
| WO2022142850A1 (zh) | 音频处理方法、装置、声码器、电子设备、计算机可读存储介质及计算机程序产品 | |
| JP2016519784A (ja) | オーディオ分類および処理のための装置および方法 | |
| WO2022227935A1 (zh) | 语音识别方法、装置、设备、存储介质及程序产品 | |
| CN114783410A (zh) | 语音合成方法、系统、电子设备和存储介质 | |
| CN114283788B (zh) | 发音评测方法、发音评测系统的训练方法、装置及设备 | |
| CN113571079A (zh) | 语音增强方法、装置、设备及存储介质 | |
| CN112233649A (zh) | 机器同声传译输出音频动态合成方法、装置以及设备 | |
| CN115294962A (zh) | 语音合成模型的训练方法、装置、设备及存储介质 | |
| CN112767955B (zh) | 音频编码方法及装置、存储介质、电子设备 | |
| CN120898241A (zh) | 使用非自回归解码来生成音频 | |
| US20180082703A1 (en) | Suitability score based on attribute scores | |
| US11011174B2 (en) | Method and system for determining speaker-user of voice-controllable device | |
| CN112420015A (zh) | 一种音频合成方法、装置、设备及计算机可读存储介质 | |
| CN115171707A (zh) | 语音流丢包补偿方法及其装置、设备、介质、产品 | |
| HK40043822A (en) | Audio encoding method and apparatus, computer device and medium | |
| HK40043822B (en) | Audio encoding method and apparatus, computer device and medium | |
| CN116110424B (zh) | 一种语音带宽扩展方法及相关装置 | |
| KR20250048809A (ko) | 동기 통신을 위한 오디오 합성 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230621 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230621 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240610 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240910 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241118 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241202 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7599030 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |