JP7387879B2 - オーディオ符号化方法および装置 - Google Patents

オーディオ符号化方法および装置 Download PDF

Info

Publication number
JP7387879B2
JP7387879B2 JP2022517444A JP2022517444A JP7387879B2 JP 7387879 B2 JP7387879 B2 JP 7387879B2 JP 2022517444 A JP2022517444 A JP 2022517444A JP 2022517444 A JP2022517444 A JP 2022517444A JP 7387879 B2 JP7387879 B2 JP 7387879B2
Authority
JP
Japan
Prior art keywords
parameter set
encoding
audio data
combination
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022517444A
Other languages
English (en)
Other versions
JP2022548299A (ja
Inventor
卓 王
萌 王
泛 范
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2022548299A publication Critical patent/JP2022548299A/ja
Application granted granted Critical
Publication of JP7387879B2 publication Critical patent/JP7387879B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/80Services using short range communication, e.g. near-field communication [NFC], radio-frequency identification [RFID] or low energy communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Otolaryngology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

本出願は、2019年9月18日に中国国家知識産権局に出願された、「オーディオ符号化方法および装置」と題された中国特許出願第201910883038.0号の優先権を主張するものであり、その全体は参照によりここに組み込まれる。
本出願は、オーディオ処理技術に関し、特に、オーディオ符号化方法および装置に関する。
トゥルーワイヤレスステレオ(True Wireless Stereo、TWS)ヘッドセット、スマートサウンドボックス、およびスマートウォッチなどのワイヤレスブルートゥース(登録商標)デバイスが日常生活で広く使用されるにつれて、様々なシナリオで高品質の音楽再生体験を追求する人々の要求がますます緊急になっている。ブルートゥース(登録商標)チャネルによってデータ送信サイズが制限されているため、オーディオデータは、ブルートゥース(登録商標)デバイスの送信端のオーディオエンコーダによってオーディオデータに対してデータ圧縮が実行された後にのみ、復号化および再生のためにブルートゥース(登録商標)デバイスの受信端に送信され得る。現在、主流のブルートゥース(登録商標)符号化および復号化技術は、デフォルトの高度オーディオ配信プロファイル(Advanced Audio Distribution Profile、A 2DP)のサブバンド符号化(Sub-band Coding、SBC)、動画専門家集団(Moving Picture Experts Group、MPEG)の高度オーディオ符号化(Advanced Audio Coding、AAC)、ソニー(Sony)のLDAC、およびクアルコム(Qualcomm)のaptXなどを含む。
現在、オーディオ送信プロセスにおいて、オーディオ品質は、ブルートゥース(登録商標)接続リンクのスループットおよび安定性に大きく依存している。ブルートゥース(登録商標)接続リンクのチャネル品質が阻害されているとき、送信プロセスにおいて、ビットレートが大きく変動すると、オーディオデータが消失する。加えて、オーディオ再生中、音のスタッタリングおよび中断が発生し、これはユーザ体験に大きく影響を及ぼす。ビットレート変動範囲は、関連技術を使用して制御され得る。しかしながら、この制御方法は比較的大雑把であり、音の連続性とオーディオ品質との両方を保証し得ない。
本出願は、ブルートゥース(登録商標)チャネルの状態に適応的に適合し、連続的なオーディオ聴取体験を提供しながらオーディオ品質を最大限に保証するために、オーディオ符号化方法および装置を提供する。
第1の態様によれば、本出願は、
第1のオーディオデータを取得するステップと、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプを取得するステップであって、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプはブルートゥース(登録商標)チャネルの現在の状態に対応する、ステップと、第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに基づいて、事前訓練によって取得されたニューラルネットワークを使用してビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得するステップであって、ビットプールパラメータセット内のパラメータは、符号化に使用され得るビットストリーム内の残りのビット数を示すために使用され、心理音響パラメータセット内のパラメータは、異なる周波数での符号化に必要なビット数の割り当てを示すために使用され、スペクトル帯域幅パラメータセット内のパラメータは、符号化後に取得されるオーディオスペクトルの最高カットオフ周波数を示すために使用される、ステップと、送信されるべきビットストリームを取得するために、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上に基づいて第1のオーディオデータを符号化するステップとを含むオーディオ符号化方法を提供する。
本出願では、オーディオデータと、ブルートゥース(登録商標)チャネルの現在の状態に対応するターゲットビットレートおよびブルートゥース(登録商標)パケットタイプとに基づいて、ニューラルネットワークを使用して、符号化のための関連パラメータが取得される。このようにして、オーディオ送信中の耐干渉性能を改善し、連続的なオーディオ聴取体験を提供しながらオーディオ品質を最大限に保証するために、ブルートゥース(登録商標)チャネルの状態に適応的に適合され得、オーディオ符号化のビットレート変動が効果的に低減され得る。
可能な実施態様では、第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに基づいて、事前訓練によって取得されたニューラルネットワークを使用してビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得するステップは、第1の特徴ベクトルを取得するために第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに対して特徴抽出を実行するステップと、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得するために第1の特徴ベクトルをニューラルネットワークに入力するステップとを含む。
可能な実施態様では、ブルートゥース(登録商標)パケットタイプは、ブルートゥース(登録商標)を介して送信されるパケットのタイプを示し、2DH1、2DH3、2DH5、3DH1、3DH3、および3DH5のうちのいずれか1つを含み得る。
可能な実施態様では、ターゲットビットレートは、指定された期間に符号化によって生成されるデータパケットの平均バイト数を示すために使用される。
可能な実施態様では、第1のオーディオデータを取得するステップの前に、本方法は、ニューラルネットワークの訓練データセットを構築するステップであって、訓練データセットは、第1の値の組み合わせと第2の値の組み合わせとの対応関係を含み、第1の値の組み合わせは、オーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプの複数の値の組み合わせのうちのいずれか1つであり、第2の値の組み合わせは、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせのうちの1つであり、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせは、複数のODGグレードに対応し、第2の値の組み合わせは、最も高いODGグレードに対応する、ステップと、訓練データセットに基づく訓練によってニューラルネットワークを取得するステップとをさらに含む。
本出願では、ニューラルネットワークの訓練プロセスにおいて、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプは両方とも、ブルートゥース(登録商標)チャネルの状態に対応する。したがって、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプに対応する、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの最適値の組み合わせも、ブルートゥース(登録商標)チャネルの状態に対応する。ブルートゥース(登録商標)チャネルの状態の変化と、ブルートゥース(登録商標)チャネルの状態に適合する関連パラメータの最適値の組み合わせとが両方とも、ニューラルネットワークに関して考えられていることが知られ得る。
可能な実施態様では、ニューラルネットワークの訓練データセットを構築するステップは、複数のオーディオデータを取得するステップと、第1の値の組み合わせにおけるビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせを使用して第2のオーディオデータを別々に符号化するステップであって、第2のオーディオデータは、複数のオーディオデータのうちのいずれか1つである、ステップと、符号化結果に基づいて複数のODGグレードを取得するステップと、複数のODGグレードの中で最も高いODGグレードに対応する値の組み合わせを第2の値の組み合わせとして決定するステップと、第1の値の組み合わせおよび第2の値の組み合わせを訓練データセットに追加するステップとを含む。
第2の態様によれば、本出願は、
第1のオーディオデータを取得し、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプを取得し、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプはブルートゥース(登録商標)チャネルの現在の状態に対応する、ように構成された入力モジュールと、第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに基づいて、事前訓練によって取得されたニューラルネットワークを使用してビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得し、ビットプールパラメータセット内のパラメータは、符号化に使用され得るビットストリーム内の残りのビット数を示すために使用され、心理音響パラメータセット内のパラメータは、異なる周波数での符号化に必要なビット数の割り当てを示すために使用され、スペクトル帯域幅パラメータセット内のパラメータは、符号化後に取得されるオーディオスペクトルの最高カットオフ周波数を示すために使用される、ように構成されたパラメータ取得モジュールと、送信されるべきビットストリームを取得するために、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上に基づいて第1のオーディオデータを符号化するように構成された符号化モジュールとを含むオーディオ符号化装置を提供する。
可能な実施態様では、パラメータ取得モジュールは、第1の特徴ベクトルを取得するために第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに対して特徴抽出を実行し、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得するために第1の特徴ベクトルをニューラルネットワークに入力するように特に構成される。
可能な実施態様では、ブルートゥース(登録商標)パケットタイプは、ブルートゥース(登録商標)を介して送信されるパケットのタイプを示し、2DH1、2DH3、2DH5、3DH1、3DH3、および3DH5のうちのいずれか1つを含み得る。
可能な実施態様では、ターゲットビットレートは、指定された期間に符号化によって生成されるデータパケットの平均バイト数を示すために使用される。
可能な実施態様では、パラメータ取得モジュールは、ニューラルネットワークの訓練データセットを構築し、訓練データセットは、第1の値の組み合わせと第2の値の組み合わせとの対応関係を含み、第1の値の組み合わせは、オーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプの複数の値の組み合わせのうちのいずれか1つであり、第2の値の組み合わせは、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせのうちの1つであり、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせは、複数のODGグレードに対応し、第2の値の組み合わせは、最も高いODGグレードに対応し、訓練データセットに基づく訓練によってニューラルネットワークを取得するようにさらに構成される。
可能な実施態様では、パラメータ取得モジュールは、複数のオーディオデータを取得し、第1の値の組み合わせにおけるビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせを使用して第2のオーディオデータを別々に符号化し、第2のオーディオデータは、複数のオーディオデータのうちのいずれか1つであり、符号化結果に基づいて複数のODGグレードを取得し、複数のODGグレードの中で最も高いODGグレードに対応する値の組み合わせを第2の値の組み合わせとして決定し、第1の値の組み合わせおよび第2の値の組み合わせを訓練データセットに追加するように特に構成される。
第3の態様によれば、本出願は、
1つ以上のプロセッサと、
1つ以上のプログラムを記憶するように構成されたメモリと
を含む端末デバイスを提供する。
1つ以上のプログラムが1つ以上のプロセッサによって実行されるとき、1つ以上のプロセッサは、第1の態様の可能な実施態様のうちのいずれか1つによる方法を実施することが可能である。
第4の態様によれば、本出願は、コンピュータプログラムを含むコンピュータ可読記憶媒体を提供する。コンピュータプログラムがコンピュータ上で実行されるとき、コンピュータは、第1の態様の可能な実施態様のうちのいずれか1つによる方法を実行することが可能である。
第5の態様によれば、本出願はコンピュータプログラム製品を提供する。コンピュータプログラム製品は、コンピュータプログラムコードを含む。コンピュータプログラムコードがコンピュータ上で実行されるとき、コンピュータは、第1の態様の実施態様のうちのいずれか1つによる方法を実行することが可能である。
本出願によるオーディオ符号化方法が適用される適用シナリオの一例の例示的な図である。 本出願によるオーディオ符号化システムの一例の例示的な図である。 本出願によるオーディオ符号化方法の一実施形態のフローチャートである。 心理音響プロセスの一例の概略図である。 パラメータ取得方法の一例の概略図である。 訓練データセットの構築方法の概略図である。 本出願によるオーディオ符号化装置の一実施形態の構造の概略図である。 本出願による端末デバイスの構造の概略図である。
本出願の目的、技術的解決策、および利点をより明確にするために、以下では、本出願の添付の図面を参照して本出願の技術的解決策を明確かつ十分に説明する。説明されている実施形態は、本出願の実施形態の全部ではなく一部であることは明らかである。創造的な努力なしに本出願の実施形態に基づいて当業者によって得られる他のすべての実施形態は、本出願の保護範囲内にあるものとする。
本出願における本明細書の実施形態、特許請求の範囲、および添付の図面では、「第1」および「第2」などの用語は区別および説明のために使用されているにすぎず、相対的な重要性または順序を示すまたは暗示するものとして理解されてはならない。加えて、「含む」および「有する」という用語ならびにこれらの任意の変形は、非排他的な包含に該当することを意図されており、例えば、一連のステップまたはユニットを含む。方法、システム、製品、またはデバイスは、明示的に列挙されているステップまたはユニットに必ずしも限定されず、明示的に列挙されていない、またはこのようなプロセス、方法、製品、もしくはデバイスに固有の他のステップまたはユニットを含み得る。
本出願では、「少なくとも1つ」は1つ以上を意味し、「複数の」は2つ以上を意味することを理解されたい。「および/または」という用語は、関連付けられた対象間の関連付け関係を記述するために使用され、3つの関係が存在し得ることを表す。例えば、「Aおよび/またはB」は、以下の3つのケース、すなわち、Aのみが存在するケース、Bのみが存在するケース、およびAとBとの両方が存在するケースを表し得、AおよびBは単数であっても複数であってもよい。記号「/」は一般に、関連付けられた対象間の「または」関係を示す。「以下のもの(要素)のうちの少なくとも1つ」またはその同様の表現は、単一のもの(要素)または複数のもの(要素)の任意の組み合わせを含む、これらのものの任意の組み合わせを示す。例えば、a、b、またはcのうちの少なくとも1つ(の要素)は、a、b、c、「aおよびb」、「aおよびc」、「bおよびc」、または「a、b、およびc」を表し得、a、b、およびcは単数であっても複数であってもよい。
図1は、本出願によるオーディオ符号化方法が適用される適用シナリオの一例の例示的な図である。図1に示されているように、適用シナリオは、端末デバイスおよびブルートゥース(登録商標)デバイスを含む。端末デバイスおよびブルートゥース(登録商標)デバイスは、ブルートゥース(登録商標)接続機能を有し、かつAAC規格をサポートするデバイスであってもよい。端末デバイスは、例えば、携帯電話、コンピュータ(ノートブックおよびデスクトップなどを含む)、またはタブレット(ハンドヘルドパネルおよび車載パネルなどを含む)であってもよい。ブルートゥース(登録商標)再生デバイスは、例えば、TWSヘッドセット、ワイヤレスヘッドマウントヘッドセット、またはワイヤレスネックバンドヘッドセットであってもよい。ブルートゥース(登録商標)デバイスはさらに、例えば、スマートサウンドボックス、スマートウォッチ、スマートグラス、または車載サウンドボックスであってもよい。本出願における最も頻度の高い適用シナリオは、携帯電話とブルートゥース(登録商標)デバイスとの間、すなわち、携帯電話とTWSヘッドセット、ワイヤレスヘッドマウントヘッドセット、およびワイヤレスネックバンドヘッドセットなどの各々との間、または携帯電話とスマートサウンドボックス、スマートウォッチ、スマートグラス、および車載サウンドボックスなどの各々との間である。しかしながら、本出願はこれに限定されない。
図2は、本出願によるオーディオ符号化システムの一例の例示的な図である。図2に示されているように、オーディオ符号化システムは、入力モジュール、処理モジュール、および出力モジュールを含む。
入力モジュールによって取得されるデータは、オーディオパルス符号変調(Pulse Code Modulation、PCM)ビットストリームなどのオーディオデータ、ならびにブルートゥース(登録商標)チャネルの状態に基づいて決定されるターゲットビットレートおよびブルートゥース(登録商標)パケットタイプを含む。ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプは、ブルートゥース(登録商標)チャネルの現在の状態に対応する。ターゲットビットレートは、指定された期間に符号化によって生成されるデータパケットの平均バイト数を示すために使用される。ブルートゥース(登録商標)パケットタイプは、ブルートゥース(登録商標)を介して送信されるパケットのタイプを示す。ブルートゥース(登録商標)接続リンクにおいて、オーディオビットストリームを送信するために非同期コネクションレス(Asynchronous Connection-Less、ACL)で使用されるブルートゥース(登録商標)パケットタイプは、2DH1(送信されるオーディオビットストリーム内のデータパケットは、最大31バイトに制限され得る)、2DH3(送信されるオーディオビットストリーム内のデータパケットは、最大356バイトに制限され得る)、2DH5(送信されるオーディオビットストリーム内のデータパケットは、最大656バイトに制限され得る)、3DH1(送信されるオーディオビットストリーム内のデータパケットは、最大11バイトに制限され得る)、3DH3(送信されるオーディオビットストリーム内のデータパケットは、最大536バイトに制限され得る)、および3DH5(送信されるオーディオビットストリーム内のデータパケットは、最大986バイトに制限され得る)のうちのいずれか1つを含み得る。ここで、2DH1、2DH3、および2DH5に使用される変調方式は、π/4差動四相位相偏移変調(Differential Quadrature Reference Phase Shift Keying、DQPSK)であり、3DH1、3DH3、および3DH5に使用される変調方式は、8DQPSKである。ブルートゥース(登録商標)がわずかに干渉されており、チャネルが良好な状態である場合、2DH5または3DH5が優先的に選択される。これら2つのブルートゥース(登録商標)パケットタイプは、より高いデータ送信能力およびより低い干渉防止能力を有し、これにより、オーディオエンコーダは、より高いオーディオ品質で送信を実施するために、128kbpsを上回るターゲットビットレートで動作し得る。ブルートゥース(登録商標)が大きく干渉されており、チャネルが不良状態である場合、2DH3、3DH3、2DH1、または3DH1が優先的に選択される。これらのブルートゥース(登録商標)パケットタイプは、より高い干渉防止能力およびより低いデータ送信能力を有し、これにより、オーディオエンコーダは、オーディオ送信の連続性を優先的に保証するために、96kbpsを下回るターゲットビットレートで動作し得る。
処理モジュールは、パラメータ調整サブモジュール、符号化サブモジュール、および補助サブモジュールを含む。パラメータ調整サブモジュールは、ニューラルネットワークによる特徴抽出および訓練の2つの機能を有し、入力モジュールによって入力されたデータに基づいて符号化パラメータの最適値の組み合わせを決定するように構成される。符号化サブモジュールは、パラメータ構成、符号化、および復号化の3つの機能を有し、符号化パラメータの最適値の組み合わせに基づいてオーディオデータを符号化し、ビットストリームを復号化するように構成される。補助サブモジュールは、ビットレート変動の統計収集および主観的差分グレーディング(すなわち、ODGグレード)の2つの機能を有し、符号化によって生成されたデータパケットのバイト数の変化の統計を収集し、符号化および復号化後のオーディオのオーディオ品質をグレーディングするように構成される。ODGグレードは、国際電気通信連合(International Telecommunication Union、ITU)BS.1387-1のオーディオ品質の知覚評価(Perceptual Evaluation of Audio Quality、PEAQ)によって取得される。グレードの値の範囲は、-4から0である。0により近いグレードが、符号化および復号化後のオーディオのより高いオーディオ品質を示す。
出力モジュールによって出力されるデータは、符号化によって生成されたデータパケットがブルートゥース(登録商標)パケットタイプに基づいてカプセル化された後に形成されたオーディオビットストリームである。
図3は、本出願によるオーディオ符号化方法の一実施形態のフローチャートである。図3に示されているように、この実施形態の方法は、図1の端末デバイス、例えば、携帯電話、コンピュータ(ノートブックおよびデスクトップなどを含む)、またはタブレット(ハンドヘルドパネルおよび車載パネルなどを含む)によって実行され得る。オーディオ符号化方法は、以下のステップを含み得る。
ステップ301:第1のオーディオデータを取得する。
第1のオーディオデータは、符号化されるべきオーディオデータである。端末デバイスは、ローカルメモリから第1のオーディオデータを直接読み出してもよいし、別のデバイスから第1のオーディオデータを受信してもよい。これは本出願では特に限定されない。
ステップ302:ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプを取得し、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプはブルートゥース(登録商標)チャネルの現在の状態に対応する。
ターゲットビットレートは、指定された期間に符号化によって生成されるデータパケットの平均バイト数を示すために使用される。言い換えれば、ターゲットビットレートは、第1のオーディオデータが符号化された後に取得されると期待されるデータパケットの平均バイト数であると考えられ得る。複数の要因の影響により、符号化によって生成される各データパケットのバイト数(すなわち、ビットレート)がターゲットビットレートに達する可能性は低い。したがって、指定された期間内の複数のデータパケットの平均ビットレートがターゲットビットレートを満たすならば、各データパケットのビットレートがターゲットビットレートの近くの小さい範囲内で変動することが許容され得る。ブルートゥース(登録商標)パケットタイプは、ブルートゥース(登録商標)を介して送信されるパケットのタイプを示す。ブルートゥース(登録商標)パケットタイプは、2DH1、2DH3、2DH5、3DH1、3DH3、および3DH5のうちのいずれか1つを含み得る。各ブルートゥース(登録商標)パケットタイプは、ビットレート変動の上限に対応する。本出願では、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプは両方とも、ブルートゥース(登録商標)チャネルの現在の状態に対応する。言い換えれば、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプは両方とも、ブルートゥース(登録商標)チャネルの状態に基づいて決定される。したがって、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプは、ブルートゥース(登録商標)チャネルの状態も反映する。
図3に示されている実施形態では、ステップ301とステップ302との間に順序はない。
ステップ303:第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに基づいて、事前訓練によって取得されたニューラルネットワークを使用して、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得する。
ビットプールパラメータセット内のパラメータは、符号化に使用され得るビットストリーム内の残りのビット数を示すために使用される。関連技術では、瞬間的な変動および長期的な収束のビットレート特徴を実施するために、固定ビットレート(Constant Bit rate、CBR)符号化モードにおけるビットレート変動は、ビットプールのサイズを調整することによって制御される。この方法では、CBR符号化モードにおいてビットレート変動が許容される。より高いオーディオ品質を提供するために、異なるビット数が異なるオーディオデータに割り当てられる。実際に割り当てられたビット数(ビットレート)がターゲットビット数(ターゲットビットレート)未満である場合、残りのビットはビットプールに配置される。実際に割り当てられたビット数がターゲットビット数よりも大きい場合、いくつかのビットが、使用のためにビットプールから抽出される。ビットプールは無限ではないため、CBR符号化モードにおいて、符号化プロセスにおける長期間の平均ビットレートは、依然としてターゲットビットレートの近くになるように制限される。この方法におけるビットプールの状態は、すべての履歴フレームおよび現在のフレームによって一緒に判定される。ビットプールの状態は、過去の状態から現在の状態までの全期間におけるビットレート変動および圧縮の難易度を反映する。ビットプールが大きい場合、大きいビットレート変動が許容され得、したがって、符号化オーディオ品質は高い。ビットプールが小さい場合、小さいビットレート変動が許容され得、したがって、符号化オーディオ品質は低い。
心理音響パラメータセット内のパラメータは、異なる周波数での符号化に必要なビット数の割り当てを示すために使用される。関連技術では、符号化プロセスにおいてオーディオセグメントに予約される必要がある一次情報および符号化中に無視され得る二次情報は、心理音響モデルを使用して決定される。例えば、図4は、心理音響プロセスの一例の概略図である。図4に示されているように、高エネルギーの900Hzのマスクが存在し、点線より下のデシベルに相当するエネルギーの、マスクの近くのオーディオは人には聞こえない。これは、点線より下の情報は符号化されなくてもよく、このため、符号化におけるビット数が削減されることを示す。マスキングは、帯域内マスキングパラメータdr、低帯域マスキング減衰速度k1、および高帯域マスキング減衰速度k2の3つの部分によって決定される。3つのパラメータdr、k1、およびk2は、AAC量子化プロセスにおいて符号化によって生成されるデータパケットのビット数(ビットレート)を直接決定する。データパケットの実際のビットレートがターゲットビットレートよりも大きい場合、drは低減される。データパケットの実際のビットレートがターゲットビットレート未満である場合、drは増加される。
スペクトル帯域幅パラメータセット内のパラメータは、符号化オーディオスペクトルの最高カットオフ周波数を示すために使用される。より高いカットオフ周波数は、対応するより豊富な高周波数オーディオ成分を示し、オーディオ品質をある程度改善し得る。
端末デバイスは、第1の特徴ベクトルを取得するために、第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに対して特徴抽出を実行し、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得するために、第1の特徴ベクトルをニューラルネットワークに入力し得る。図5は、パラメータ取得方法の一例の概略図である。図5に示されているように、端末デバイスは、特徴ベクトル、例えば、ビットレートおよび音楽特徴を示すメル周波数ケプストラム係数または音楽特徴を示す線形予測ケプストラム係数を抽出するために、第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに対して特徴変換を実行する。特徴抽出プロセスでは、計算量をさらに削減するために、データ次元が削減されてもよい。端末デバイスは、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得するために、特徴ベクトルを事前訓練されたニューラルネットワークに入力する。
本出願では、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上は、ニューラルネットワークを使用して取得されることに留意されたい。加えて、前述のパラメータセットは、代わりに、人工知能(Artificial Intelligence、AI)または数学的演算の別の方法などの方法で取得されてもよい。これは本出願では特に限定されない。
本出願では、端末デバイスは、ニューラルネットワークの訓練データセットを構築し得る。訓練データセットは、第1の値の組み合わせと第2の値の組み合わせとの対応関係を含む。第1の値の組み合わせは、オーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプの複数の値の組み合わせのうちのいずれか1つである。第2の値の組み合わせは、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせのうちの1つである。ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせは、複数のODGグレードに対応する。第2の値の組み合わせは、最も高いODGグレードに対応する。端末デバイスは、訓練データセットに基づく訓練によってニューラルネットワークを取得する。
例えば、図6は、訓練データセットの構築方法の概略図である。図6に示されているように、端末デバイスは、複数のオーディオデータを取得する。端末デバイスは、第1の値の組み合わせにおけるビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせを使用して、第2のオーディオデータを別々に符号化する。第2のオーディオデータは、複数のオーディオデータのうちのいずれか1つである。端末デバイスは、符号化結果に基づいて複数のODGグレードを取得する。端末デバイスは、第2の値の組み合わせとして、複数のODGグレードの中で最も高いODGグレードに対応する値の組み合わせを決定する。端末デバイスは、第1の値の組み合わせおよび第2の値の組み合わせを訓練データセットに追加する。具体的には、端末デバイスは最初に大量の音楽ファイルを収集する。これらの音楽ファイルのスタイルおよびタイプなどは異なる。次に、各音楽ファイル内のオーディオデータに関して、オーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプの値の組み合わせの各々において、対応する値の組み合わせを使用してオーディオデータを符号化するために、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの値の組み合わせは常に変化する。加えて、符号化によって生成された複数のデータパケットのビットレート変動の統計が収集され、符号化のたびにODG方法を使用してグレーディングが実行される。最後に、x=(ブルートゥース(登録商標)パケットタイプ、ターゲットビットレート、およびオーディオデータの値の組み合わせ)と、y=(ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの最適値の組み合わせ)との対応関係を取得するためにるために、ビットレート変動要件を満たす最も高いODGグレードに対応する、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの値の組み合わせが出力される。ここで、xはニューラルネットワークの入力であり、yはニューラルネットワークの出力であり、(x,y)はニューラルネットワークの訓練データセットを示す。
訓練データセットに基づいて、端末デバイスは、訓練のために、抽出された特徴ベクトルをニューラルネットワークに入力し、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットを出力し、これらのセットと訓練データセット内の最適値の組み合わせとを比較してニューラルネットワークの損失を取得し、最後に、大量の逆伝播訓練によって、異なるターゲットレート、異なるブルートゥース(登録商標)パケットタイプ、および異なるオーディオデータを予測するために使用され得る収束したニューラルネットワークを取得し得る。
ニューラルネットワークの訓練プロセスにおいて、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプは両方とも、ブルートゥース(登録商標)チャネルの状態に対応する。したがって、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプに対応する、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの最適値の組み合わせも、ブルートゥース(登録商標)チャネルの状態に対応する。ブルートゥース(登録商標)チャネルの状態の変化と、ブルートゥース(登録商標)チャネルの状態に適合する関連パラメータの最適値の組み合わせとが両方とも、ニューラルネットワークに関して考えられていることが知られ得る。
ステップ304:送信されるべきビットストリームを取得するために、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上に基づいて第1のオーディオデータを符号化する。
符号化ビットストリームを取得するために、端末デバイスは、エンコーダのためにビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上の中のパラメータを設定し、第1のオーディオデータを符号化し得る。本出願では、ステップ303の符号化技術を参照して、第1のオーディオデータは、このステップで取得されたビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上に基づいて符号化される。実施原理は同様である。ここでは詳細は再び説明されない。このようにして、ブルートゥース(登録商標)に関してビットレート変動が制限され得、比較的高いオーディオ品質レベルが保証され得る。
本出願では、オーディオデータと、ブルートゥース(登録商標)チャネルの現在の状態に対応するターゲットビットレートおよびブルートゥース(登録商標)パケットタイプとに基づいて、符号化エンド(すなわち、端末デバイス)は、ニューラルネットワークを使用して符号化のための関連パラメータを取得する。このようにして、オーディオ送信中の耐干渉性能を改善し、連続的なオーディオ聴取体験を提供しながらオーディオ品質を最大限に保証するために、ブルートゥース(登録商標)チャネルの状態に適応的に適合され得、オーディオ符号化のビットレート変動が効果的に低減され得る。
図7は、本出願によるオーディオ符号化装置の一実施形態の構造の概略図である。図7に示されているように、この実施形態における装置700は、入力モジュール701、パラメータ取得モジュール702、および符号化モジュール703を含み得る。入力モジュール701は、第1のオーディオデータを取得し、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプを取得し、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプはブルートゥース(登録商標)チャネルの現在の状態に対応する、ように構成される。ターゲットビットレートは、指定された期間に符号化によって生成される複数のデータパケットの平均バイト数を示すために使用される。ブルートゥース(登録商標)パケットタイプは、ブルートゥース(登録商標)を介して送信されるパケットのタイプを示す。パラメータ取得モジュール702は、第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに基づいて、事前訓練によって取得されたニューラルネットワークを使用して、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得するように構成される。ビットプールパラメータセット内のパラメータは、符号化に使用され得るビットストリーム内の残りのビット数を示すために使用される。心理音響パラメータセット内のパラメータは、異なる周波数での符号化に必要なビット数の割り当てを示すために使用される。スペクトル帯域幅パラメータセット内のパラメータは、符号化後に取得されるオーディオスペクトルの最高カットオフ周波数を示すために使用される。符号化モジュール703は、送信されるべきビットストリームを取得するために、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上に基づいて第1のオーディオデータを符号化するように構成される。
可能な実施態様では、パラメータ取得モジュール702は、第1の特徴ベクトルを取得するために第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに対して特徴抽出を実行し、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得するために第1の特徴ベクトルをニューラルネットワークに入力するように特に構成される。
可能な実施態様では、ブルートゥース(登録商標)パケットタイプは、2DH1、2DH3、2DH5、3DH1、3DH3、および3DH5のうちのいずれか1つを含む。
可能な実施態様では、パラメータ取得モジュール702は、ニューラルネットワークの訓練データセットを構築し、訓練データセットは、第1の値の組み合わせと第2の値の組み合わせとの対応関係を含み、第1の値の組み合わせは、オーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプの複数の値の組み合わせのうちのいずれか1つであり、第2の値の組み合わせは、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせのうちの1つであり、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせは、複数のODGグレードに対応し、第2の値の組み合わせは、最も高いODGグレードに対応し、訓練データセットに基づく訓練によってニューラルネットワークを取得するようにさらに構成される。
可能な実施態様では、パラメータ取得モジュール702は、複数のオーディオデータを取得し、第1の値の組み合わせにおけるビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせを使用して第2のオーディオデータを別々に符号化し、第2のオーディオデータは、複数のオーディオデータのうちのいずれか1つであり、符号化結果に基づいて複数のODGグレードを取得し、複数のODGグレードの中で最も高いODGグレードに対応する値の組み合わせを第2の値の組み合わせとして決定し、第1の値の組み合わせおよび第2の値の組み合わせを訓練データセットに追加するように特に構成される。
この実施形態における装置700は、図3から図6に示されている方法の実施形態の技術的解決策を実行するように構成され得る。その実施原理および技術的効果は同様であり、ここでは再び説明されない。
図8は、本出願による端末デバイスの構造の概略図である。図8に示されているように、端末デバイス800は、プロセッサ801およびトランシーバ802を含む。
任意選択で、端末デバイス800はメモリ803をさらに含む。プロセッサ801、トランシーバ802、およびメモリ803は、制御信号および/またはデータ信号を送信するために、内部接続経路を介して互いに通信し得る。
メモリ803は、コンピュータプログラムを記憶するように構成される。プロセッサ801は、前述の装置の実施形態におけるオーディオ符号化装置の機能を実施するために、メモリ803に記憶されたコンピュータプログラムを実行するように構成される。
任意選択で、メモリ803は、プロセッサ801に統合されてもよいし、プロセッサ801から独立していてもよい。
任意選択で、端末デバイス800は、トランシーバ802によって出力された信号を送信するように構成されたアンテナ804をさらに含んでもよい。代わりに、トランシーバ802は、アンテナを介して信号を受信する。
任意選択で、端末デバイス800は、端末デバイス内の様々な構成要素または回路に電力を供給するように構成された電源805をさらに含んでもよい。
加えて、端末デバイスのより多くの機能を実施するために、端末デバイス800は、入力ユニット806、表示ユニット807(出力ユニットと考えられてもよい)、オーディオ回路808、カメラ809、およびセンサ810などのうちの1つ以上をさらに含んでもよい。オーディオ回路は、スピーカ8081およびマイクロフォン8082などをさらに含んでもよい。ここでは詳細は説明されない。
この実施形態における装置800は、図3から図6に示されている方法の実施形態の技術的解決策を実行するように構成され得る。その実施原理および技術的効果は同様であり、ここでは再び説明されない。
実施プロセスでは、前述の方法の実施形態におけるステップは、プロセッサ内のハードウェア集積論理回路を使用して、またはソフトウェアの形態の命令を使用して実施され得る。プロセッサは、汎用プロセッサ、デジタル信号プロセッサ(digital signal processor、DSP)、特定用途向け集積回路(application-specific integrated circuit、ASIC)、フィールドプログラマブルゲートアレイ(field programmable gate array、FPGA)もしくは別のプログラマブル論理デバイス、ディスクリートゲートもしくはトランジスタ論理デバイス、またはディスクリートハードウェア構成要素であってもよい。汎用プロセッサはマクロプロセッサであってよいし、このプロセッサは任意の従来のプロセッサなどであってよい。本出願の実施形態に開示されている方法のステップは、ハードウェア符号化プロセッサを使用して直接実行および遂行されてもよいし、符号化プロセッサのハードウェアおよびソフトウェアモジュールの組み合わせを使用して実行および遂行されてもよい。ソフトウェアモジュールは、当技術分野の成熟した記憶媒体、例えば、ランダムアクセスメモリ、フラッシュメモリ、読み出し専用メモリ、プログラマブル読み出し専用メモリ、電気的消去可能プログラマブルメモリ、またはレジスタに配置されてもよい。記憶媒体は、メモリ内に配置され、プロセッサは、メモリ内の情報を読み出し、プロセッサのハードウェアと共に前述の方法におけるステップを遂行する。
前述の実施形態におけるメモリは、揮発性メモリまたは不揮発性メモリであってもよいし、揮発性メモリと不揮発性メモリとの両方を含んでもよい。不揮発性メモリは、読み出し専用メモリ(read-only memory、ROM)、プログラマブル読み出し専用メモリ(programmable ROM、PROM)、消去可能プログラマブル読み出し専用メモリ(erasable PROM、EPROM)、電気的消去可能プログラマブル読み出し専用メモリ(electrically EPROM、EEPROM)、またはフラッシュメモリであってもよい。揮発性メモリは、ランダムアクセスメモリ(random access memory、RAM)であってもよく、外部キャッシュとして使用されてもよい。限定的な説明ではなく例として、多くの形態のRAM、例えば、スタティックランダムアクセスメモリ(static RAM、SRAM)、ダイナミックランダムアクセスメモリ(dynamic RAM、DRAM)、シンクロナス・ダイナミック・ランダム・アクセス・メモリ(synchronous DRAM、SDRAM)、ダブル・データ・レート・シンクロナス・ダイナミック・ランダム・アクセス・メモリ(double data rate SDRAM、DDR SDRAM)、拡張シンクロナス・ダイナミック・ランダム・アクセス・メモリ(enhanced SDRAM、ESDRAM)、シンクリンク・ダイナミック・ランダム・アクセス・メモリ(synchlink DRAM、SLDRAM)、およびダイレクト・ラムバス・ランダム・アクセス・メモリ(direct rambus RAM、DR RAM)が使用されてもよい。本明細書で説明されているシステムおよび方法におけるメモリは、これらのメモリおよび別の適切なタイプの任意のメモリを含むが、これらに限定されないことに留意されたい。
当業者は、本明細書に開示されている実施形態で説明された例との組み合わせにおいて、ユニットおよびアルゴリズムステップが、電子ハードウェアまたはコンピュータソフトウェアと電子ハードウェアとの組み合わせによって実施され得ることを認識し得る。機能がハードウェアとソフトウェアのどちらによって実行されるかは、技術的解決策の特定の用途および設計上の制約に依存する。当業者は、各特定の用途の説明された機能を実施するために異なる方法を使用し得るが、その実施が本出願の範囲を超えると考えられてはならない。
簡便な説明のために、前述のシステム、装置、およびユニットの詳細な動作プロセスについては、前述の方法の実施形態における対応するプロセスを参照し、ここでは詳細は再び説明されないことが、当業者によって明確に理解されよう。
本出願で提供されるいくつかの実施形態において、開示されたシステム、装置、および方法が別の方法で実施され得ることを理解されたい。例えば、説明された装置の実施形態は例にすぎない。例えば、ユニットへの分割は、論理的な機能の分割にすぎず、実際の実施態様では他の分割であってもよい。例えば、複数のユニットまたは構成要素は、別のシステムに組み合わされてもよい、または統合されてもよいし、いくつかの機能は無視されてもよい、もしくは実行されなくてもよい。加えて、提示されたまたは述べられた相互結合または直接的な結合もしくは通信接続は、いくつかのインターフェースを使用して実施されてもよい。装置またはユニット間の間接的な結合または通信接続は、電子的形態、機械的形態、または別の形態で実施されてもよい。
別個の部分として説明されたユニットは、物理的に別個であってもなくてもよく、ユニットとして提示された部分は、物理的なユニットであってもなくてもよく、また、1つの位置に配置されてもよいし、複数のネットワークユニットに分散されてもよい。ユニットの一部または全部は、実施形態の解決策の目的を達成するために実際の要件に基づいて選択されてもよい。
加えて、本出願の実施形態における機能ユニットは1つの処理ユニットに統合されてもよいし、これらのユニットの各々は物理的に単独で存在してもよいし、2つ以上のユニットが1つのユニットに統合される。
機能がソフトウェア機能ユニットの形態で実施され、独立した製品として販売または使用される場合、機能はコンピュータ可読記憶媒体に記憶されてよい。このような理解に基づいて、本質的に本出願の技術的解決策、または従来技術に寄与する部分、または技術的解決策の一部は、ソフトウェア製品の形態で実施されてもよい。ソフトウェア製品は、記憶媒体に記憶され、コンピュータデバイス(パーソナルコンピュータ、サーバ、またはネットワークデバイスなど)に、本出願の実施形態で説明された方法のステップの全部または一部を実行するように命令するためのいくつかの命令を含む。記憶媒体は、USBフラッシュドライブ、リムーバブルハードディスク、読み出し専用メモリ(read-only memory、ROM)、ランダムアクセスメモリ(random access memory、RAM)、磁気ディスク、または光ディスクなどの、プログラムコードを記憶し得る任意の媒体を含む。
前述の説明は、本出願の特定の実施態様にすぎず、本出願の保護範囲を限定することを意図されていない。本出願に開示されている技術的範囲内で当業者によって容易に考え出されるいかなる変形または置換も、本出願の保護範囲内にあるものとする。したがって、本出願の保護範囲は、特許請求の範囲の保護範囲に従うものとする。
700 装置
701 入力モジュール
702 パラメータ取得モジュール
703 符号化モジュール
800 端末デバイス
801 プロセッサ
802 トランシーバ
803 メモリ
804 アンテナ
805 電源
806 入力ユニット
807 表示ユニット
808 オーディオ回路
809 カメラ
810 センサ
8081 スピーカ
8082 マイクロフォン

Claims (15)

  1. 情報処理装置によって第1のオーディオデータを取得するステップと、
    前記情報処理装置によってターゲットビットレートおよびブルートゥースパケットタイプを取得するステップであって、前記ターゲットビットレートおよび前記ブルートゥースパケットタイプはブルートゥースチャネルの現在の状態に対応する、ステップと、
    前記情報処理装置によって前記第1のオーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプに基づいて、事前訓練によって取得されたニューラルネットワークを使用してビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得するステップであって、前記ビットプールパラメータセット内のパラメータは、符号化に使用され得るビットストリーム内の残りのビット数を示すために使用され、前記心理音響パラメータセット内のパラメータは、異なる周波数での符号化に必要なビット数の割り当てを示すために使用され、前記スペクトル帯域幅パラメータセット内のパラメータは、符号化オーディオスペクトルの最高カットオフ周波数を示すために使用される、ステップと、
    前記情報処理装置によって送信されるべきビットストリームを取得するために、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットのうちの1つ以上に基づいて前記第1のオーディオデータを符号化するステップと
    を含むオーディオ符号化方法。
  2. 前記第1のオーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプに基づいて、事前訓練によって取得されたニューラルネットワークを使用してビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得する前記ステップは、
    記第1のオーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプに対して特徴抽出を実行して第1の特徴ベクトルを取得するステップと、
    前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットのうちの1つ以上を取得するために前記第1の特徴ベクトルを前記ニューラルネットワークに入力するステップと
    を含む、請求項1に記載の方法。
  3. 前記ブルートゥースパケットタイプは、2DH1、2DH3、2DH5、3DH1、3DH3、および3DH5のうちのいずれか1つを含む、請求項1または2に記載の方法。
  4. 前記ターゲットビットレートは、指定された期間に符号化によって生成されるデータパケットの平均バイト数を示すために使用される、請求項1から3のいずれか一項に記載の方法。
  5. 第1のオーディオデータを取得する前記ステップの前に、前記方法は、
    前記情報処理装置によって前記ニューラルネットワークの訓練データセットを構築するステップであって、前記訓練データセットは、第1の値の組み合わせと第2の値の組み合わせとの対応関係を含み、前記第1の値の組み合わせは、前記オーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプの複数の値の組み合わせのうちのいずれか1つであり、前記第2の値の組み合わせは、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットの複数の値の組み合わせのうちの1つであり、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットの前記複数の値の組み合わせは、複数の客観品質劣化度合(ODGに対応し、前記第2の値の組み合わせは、最も高いODG対応する、ステップと、
    前記情報処理装置によって前記訓練データセットに基づく訓練によって前記ニューラルネットワークを取得するステップと
    をさらに含む、請求項1から4のいずれか一項に記載の方法。
  6. 前記ニューラルネットワークの訓練データセットを構築する前記ステップは、
    複数のオーディオデータを取得するステップと、
    前記第1の値の組み合わせにおける前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットの前記複数の値の組み合わせを使用して第2のオーディオデータを別々に符号化するステップであって、前記第2のオーディオデータは、前記複数のオーディオデータのうちのいずれか1つである、ステップと、
    符号化結果に基づいて前記複数のODG取得するステップと、
    前記複数のODG中で最も高いODG対応する値の組み合わせを前記第2の値の組み合わせとして決定するステップと、
    前記第1の値の組み合わせおよび前記第2の値の組み合わせを前記訓練データセットに追加するステップと
    を含む、請求項5に記載の方法。
  7. 第1のオーディオデータを取得し、ターゲットビットレートおよびブルートゥースパケットタイプを取得し、前記ターゲットビットレートおよび前記ブルートゥースパケットタイプはブルートゥースチャネルの現在の状態に対応する、ように構成された入力モジュールと、
    前記第1のオーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプに基づいて、事前訓練によって取得されたニューラルネットワークを使用してビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得し、前記ビットプールパラメータセット内のパラメータは、符号化に使用され得るビットストリーム内の残りのビット数を示すために使用され、前記心理音響パラメータセット内のパラメータは、異なる周波数での符号化に必要なビット数の割り当てを示すために使用され、前記スペクトル帯域幅パラメータセット内のパラメータは、符号化オーディオスペクトルの最高カットオフ周波数を示すために使用される、ように構成されたパラメータ取得モジュールと、
    送信されるべきビットストリームを取得するために、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットのうちの1つ以上に基づいて前記第1のオーディオデータを符号化するように構成された符号化モジュールと
    を備えるオーディオ符号化装置。
  8. 前記パラメータ取得モジュールは、記第1のオーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプに対して特徴抽出を実行して第1の特徴ベクトルを取得し、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットのうちの1つ以上を取得するために前記第1の特徴ベクトルを前記ニューラルネットワークに入力するように特に構成されている、請求項7に記載の装置。
  9. 前記ブルートゥースパケットタイプは、2DH1、2DH3、2DH5、3DH1、3DH3、および3DH5のうちのいずれか1つを含む、請求項7または8に記載の装置。
  10. 前記ターゲットビットレートは、指定された期間に符号化によって生成されるデータパケットの平均バイト数を示すために使用される、請求項7から9のいずれか一項に記載の装置。
  11. 前記パラメータ取得モジュールは、前記ニューラルネットワークの訓練データセットを構築し、前記訓練データセットは、第1の値の組み合わせと第2の値の組み合わせとの対応関係を含み、前記第1の値の組み合わせは、前記オーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプの複数の値の組み合わせのうちのいずれか1つであり、前記第2の値の組み合わせは、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットの複数の値の組み合わせのうちの1つであり、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットの前記複数の値の組み合わせは、複数の客観品質劣化度合(ODGに対応し、前記第2の値の組み合わせは、最も高いODG対応し、前記訓練データセットに基づく訓練によって前記ニューラルネットワークを取得するようにさらに構成されている、請求項7から10のいずれか一項に記載の装置。
  12. 前記パラメータ取得モジュールは、複数のオーディオデータを取得し、前記第1の値の組み合わせにおける前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットの前記複数の値の組み合わせを使用して第2のオーディオデータを別々に符号化し、前記第2のオーディオデータは、前記複数のオーディオデータのうちのいずれか1つであり、符号化結果に基づいて前記複数のODG取得し、前記複数のODG中で最も高いODG対応する値の組み合わせを前記第2の値の組み合わせとして決定し、前記第1の値の組み合わせおよび前記第2の値の組み合わせを前記訓練データセットに追加するように特に構成されている、請求項11に記載の装置。
  13. 1つ以上のプロセッサと、
    1つ以上のプログラムを記憶するように構成されたメモリと
    を備え、前記1つ以上のプログラムが前記1つ以上のプロセッサによって実行されるとき、前記1つ以上のプロセッサは、請求項1から6のいずれか一項に記載のオーディオ符号化方法を実施することが可能である、
    端末デバイス。
  14. コンピュータプログラムを含むコンピュータ可読記憶媒体であって、前記コンピュータプログラムがコンピュータ上で実行されるとき、前記コンピュータは、請求項1から6のいずれか一項に記載のオーディオ符号化方法を実行することが可能である、コンピュータ可読記憶媒体。
  15. コンピュータプログラム製品であって、前記コンピュータプログラム製品はコンピュータプログラムコードを含み、前記コンピュータプログラムコードがコンピュータ上で実行されるとき、前記コンピュータは、請求項1から6のいずれか一項に記載のオーディオ符号化方法を実行することが可能である、コンピュータプログラム製品。
JP2022517444A 2019-09-18 2020-09-14 オーディオ符号化方法および装置 Active JP7387879B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910883038.0 2019-09-18
CN201910883038.0A CN112530444B (zh) 2019-09-18 2019-09-18 音频编码方法和装置
PCT/CN2020/115123 WO2021052293A1 (zh) 2019-09-18 2020-09-14 音频编码方法和装置

Publications (2)

Publication Number Publication Date
JP2022548299A JP2022548299A (ja) 2022-11-17
JP7387879B2 true JP7387879B2 (ja) 2023-11-28

Family

ID=74883171

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022517444A Active JP7387879B2 (ja) 2019-09-18 2020-09-14 オーディオ符号化方法および装置

Country Status (6)

Country Link
US (1) US20220208200A1 (ja)
EP (1) EP4024394A4 (ja)
JP (1) JP7387879B2 (ja)
KR (1) KR20220066316A (ja)
CN (1) CN112530444B (ja)
WO (1) WO2021052293A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530444B (zh) * 2019-09-18 2023-10-03 华为技术有限公司 音频编码方法和装置
CN114550732B (zh) * 2022-04-15 2022-07-08 腾讯科技(深圳)有限公司 一种高频音频信号的编解码方法和相关装置
CN114783452B (zh) * 2022-06-17 2022-12-13 荣耀终端有限公司 音频播放方法、装置及存储介质
CN114863940B (zh) * 2022-07-05 2022-09-30 北京百瑞互联技术有限公司 音质转换的模型训练方法、提升音质的方法、装置及介质
CN117440440B (zh) * 2023-12-21 2024-03-15 艾康恩(深圳)电子科技有限公司 一种蓝牙耳机低延迟传输方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130304458A1 (en) 2012-05-14 2013-11-14 Yonathan Shavit Bandwidth dependent audio quality adjustment
JP2015505991A (ja) 2011-12-12 2015-02-26 モトローラ モビリティ エルエルシーMotorola Mobility Llc オーディオ符号化のための方法および装置

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5185800A (en) * 1989-10-13 1993-02-09 Centre National D'etudes Des Telecommunications Bit allocation device for transformed digital audio broadcasting signals with adaptive quantization based on psychoauditive criterion
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
BR0213596A (pt) * 2001-09-26 2004-10-26 Interact Devices Inc Sistema e metodo para transmitir sinais de midia
EP1873753A1 (en) * 2004-04-01 2008-01-02 Beijing Media Works Co., Ltd Enhanced audio encoding/decoding device and method
CN1677492A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
CN101136202B (zh) * 2006-08-29 2011-05-11 华为技术有限公司 音频信号处理系统、方法以及音频信号收发装置
WO2008132850A1 (ja) * 2007-04-25 2008-11-06 Panasonic Corporation ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
CN101308659B (zh) * 2007-05-16 2011-11-30 中兴通讯股份有限公司 一种基于先进音频编码器的心理声学模型的处理方法
US20090099851A1 (en) * 2007-10-11 2009-04-16 Broadcom Corporation Adaptive bit pool allocation in sub-band coding
CN100562117C (zh) * 2007-11-19 2009-11-18 华为技术有限公司 一种码流调度方法、装置和系统
CN101350199A (zh) * 2008-07-29 2009-01-21 北京中星微电子有限公司 音频编码器及音频编码方法
CN101853663B (zh) * 2009-03-30 2012-05-23 华为技术有限公司 比特分配方法、编码装置及解码装置
CN101847413B (zh) * 2010-04-09 2011-11-16 北京航空航天大学 一种使用新型心理声学模型和快速比特分配实现数字音频编码的方法
CN102479514B (zh) * 2010-11-29 2014-02-19 华为终端有限公司 一种编码方法、解码方法、装置和系统
US8793557B2 (en) * 2011-05-19 2014-07-29 Cambrige Silicon Radio Limited Method and apparatus for real-time multidimensional adaptation of an audio coding system
CN102436819B (zh) * 2011-10-25 2013-02-13 杭州微纳科技有限公司 无线音频压缩、解压缩方法及音频编码器和音频解码器
CN103532936A (zh) * 2013-09-28 2014-01-22 福州瑞芯微电子有限公司 一种蓝牙音频自适应传输方法
US10127914B2 (en) * 2014-03-21 2018-11-13 Dolby Laboratories Licensing Corporation Method for compressing a higher order ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
US10721471B2 (en) * 2017-10-26 2020-07-21 Intel Corporation Deep learning based quantization parameter estimation for video encoding
EP3483882A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
US11416742B2 (en) * 2017-11-24 2022-08-16 Electronics And Telecommunications Research Institute Audio signal encoding method and apparatus and audio signal decoding method and apparatus using psychoacoustic-based weighted error function
CN109981545A (zh) * 2017-12-28 2019-07-05 北京松果电子有限公司 编码码率调整装置、方法及电子设备
CN109785847B (zh) * 2019-01-25 2021-04-30 东华大学 基于动态残差网络的音频压缩算法
EP4114052B1 (en) * 2019-07-26 2023-12-20 Google LLC Method for managing a plurality of multimedia communication links in a point-to-multipoint bluetooth network
CN112530444B (zh) * 2019-09-18 2023-10-03 华为技术有限公司 音频编码方法和装置
WO2022018483A1 (en) * 2020-07-20 2022-01-27 Telefonaktiebolaget Lm Ericsson (Publ) 5g optimized game rendering
WO2022079545A1 (en) * 2020-10-13 2022-04-21 Nokia Technologies Oy Carriage and signaling of neural network representations

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015505991A (ja) 2011-12-12 2015-02-26 モトローラ モビリティ エルエルシーMotorola Mobility Llc オーディオ符号化のための方法および装置
US20130304458A1 (en) 2012-05-14 2013-11-14 Yonathan Shavit Bandwidth dependent audio quality adjustment

Also Published As

Publication number Publication date
EP4024394A1 (en) 2022-07-06
KR20220066316A (ko) 2022-05-24
CN112530444B (zh) 2023-10-03
WO2021052293A1 (zh) 2021-03-25
US20220208200A1 (en) 2022-06-30
EP4024394A4 (en) 2022-10-26
JP2022548299A (ja) 2022-11-17
CN112530444A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
JP7387879B2 (ja) オーディオ符号化方法および装置
US10218856B2 (en) Voice signal processing method, related apparatus, and system
US11568882B2 (en) Inter-channel phase difference parameter encoding method and apparatus
WO2013156814A1 (en) Stereo audio signal encoder
WO2021208792A1 (zh) 音频信号编码方法、解码方法、编码设备以及解码设备
WO2021244418A1 (zh) 一种音频编码方法和音频编码装置
WO2021213128A1 (zh) 音频信号编码方法和装置
EP3903309B1 (en) High resolution audio coding
KR102628755B1 (ko) 다운믹스된 신호 계산 방법 및 장치
US20230105508A1 (en) Audio Coding Method and Apparatus
JP5006975B2 (ja) 背景雑音情報の復号化方法および背景雑音情報の復号化手段
JP2005114814A (ja) 音声符号化・復号化方法、音声符号化・復号化装置、音声符号化・復号化プログラム、及びこれを記録した記録媒体
CN105761724B (zh) 一种语音频信号处理方法和装置
EP4375999A1 (en) Audio device with signal parameter-based processing, related methods and systems
US11715478B2 (en) High resolution audio coding
CN111261175A (zh) 一种蓝牙音频信号传输方法和装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220428

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220428

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231115

R150 Certificate of patent or registration of utility model

Ref document number: 7387879

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150