CN112767956A - 音频编码方法、装置、计算机设备及介质 - Google Patents
音频编码方法、装置、计算机设备及介质 Download PDFInfo
- Publication number
- CN112767956A CN112767956A CN202110380547.9A CN202110380547A CN112767956A CN 112767956 A CN112767956 A CN 112767956A CN 202110380547 A CN202110380547 A CN 202110380547A CN 112767956 A CN112767956 A CN 112767956A
- Authority
- CN
- China
- Prior art keywords
- audio
- coding rate
- coding
- sample
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 124
- 238000012549 training Methods 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 22
- 230000005540 biological transmission Effects 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000001276 controlling effect Effects 0.000 abstract description 6
- 230000001105 regulatory effect Effects 0.000 abstract description 5
- 230000005236 sound signal Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 210000004704 glottis Anatomy 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请是关于一种音频编码方法、装置、计算机设备及介质,属于音视频技术领域。该方法包括:获取原始音频中各个音频帧对应的音频特征参数;将所述音频特征参数输入编码码率预测模型中,得到所述编码码率预测模型输出的音频编码码率,其中,不同音频特征参数对应不同音频编码码率;基于所述音频编码码率对所述音频帧进行语音编码,并基于各帧音频帧对应的编码结果生成目标音频数据。通过分析原始音频中各个音频帧对应的音频特征参数,以实现基于音频特征参数动态调控音频编码码率的目的,可以为各个音频帧确定较适合的音频编码码率,从而提高整个音频的编码质量。
Description
技术领域
本申请实施例涉及音视频技术领域,特别涉及一种音频编码方法、装置、计算机设备及介质。
背景技术
语音编码技术指的是:将采集到的原始无损音频信号,通过音频模型对时域和频域的冗余分析和压缩,从而降低语音传输带宽和存储空间,同时保持较好的音频质量。一般语音编码器的输入参数包括:采样率、通道数和编码码率等,其中,编码码率越大则编码码流占用带宽越多、编码文件占用的存储越多,语音编码质量越高。
相关技术中,一般通过实验经验值设置编码码率,比如,在实验室环境下使用PESQ的方法测量不同编码参数下对应的PESQ值,再根据PESQ值和语音质量目标要求进行匹配,进而确定所需要的语音编码码率,该语音编码码率被用于实际业务中,在语音编码压缩的整个过程中,编码码率通常是固定不变的。
显然,采用相关技术中的固定编码码率的语音编码方法,由于语音信号本身是时变信号,不同时刻、不同语音信号在语音编码器内部的压缩过程存在较大差异,会使得相同编码码率下对不同语音信号的编码质量差异较大,无法保证语音编码的质量。
发明内容
本申请实施例提供了一种音频编码方法、装置、计算机设备及介质,可以提高音频编码的质量,该技术方案包括如下方面。
一方面,提供了一种音频编码方法,所述方法包括:
获取第一样本音频中各个样本音频帧对应的样本音频特征参数;
将所述样本音频特征参数输入编码码率预测模型中,得到所述编码码率预测模型输出的样本编码码率;
基于所述样本编码码率对所述样本音频帧进行音频编码,并基于各帧样本音频帧对应的编码结果生成样本音频数据;
对所述样本音频数据进行音频解码,生成所述样本音频数据对应的第二样本音频;
基于所述第一样本音频和所述第二样本音频,训练所述编码码率预测模型。
另一方面,提供了一种音频编码方法,所述方法包括:
获取原始音频中各个音频帧对应的音频特征参数;
将所述音频特征参数输入编码码率预测模型中,得到所述编码码率预测模型输出的音频编码码率;
基于所述音频编码码率对所述音频帧进行语音编码,并基于各帧音频帧对应的编码结果生成目标音频数据。
另一方面,提供了一种音频编码装置,所述装置包括:
第一获取模块,用于获取第一样本音频中各个样本音频帧对应的样本音频特征参数;
第一处理模块,用于将所述样本音频特征参数输入编码码率预测模型中,得到所述编码码率预测模型输出的样本编码码率;
第一编码模块,用于基于所述样本编码码率对所述样本音频帧进行音频编码,并基于各帧样本音频帧对应的编码结果生成样本音频数据;
音频解码模块,用于对所述样本音频数据进行音频解码,生成所述样本音频数据对应的第二样本音频;
训练模块,用于基于所述第一样本音频和所述第二样本音频,训练所述编码码率预测模型。
另一方面,提供了一种音频编码装置,所述装置包括:
第四获取模块,用于获取原始音频中各个音频帧对应的音频特征参数;
第二处理模块,用于将所述音频特征参数输入编码码率预测模型中,得到所述编码码率预测模型输出的音频编码码率;
第二编码模块,用于基于所述音频编码码率对所述音频帧进行语音编码,并基于各帧音频帧对应的编码结果生成目标音频数据。
另一方面,提供了一种计算机设备,所述计算机设备包含处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如上述方面所述音频编码方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如上述方面所述音频编码方法。
根据本申请的另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述可选实现方式中提供的音频编码方法。
本申请提供的技术方案可以包括以下有益效果:
在音频编码场景中,通过分析原始音频中各个音频帧对应的音频特征参数,以实现基于音频特征参数动态调控音频帧对应的音频编码码率的目的,可以为各个音频帧确定较适合的音频编码码率,从而提高整个音频的编码质量;相比于相关技术中采用固定编码码率,本实施例中采用动态编码码率进行音频编码,可以在音频编码质量满足目标要求的同时,尽可能的减小音频编码码率,进而可以降低音频数据的存储空间,以及减少传输音频数据过程中的带宽消耗。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1示出了相关技术中音频编码的过程示意图;
图2示出了本申请一个实施例提供的实施环境的示意图;
图3示出了本申请一个示例性实施例示出的音频编码方法的流程图;
图4示出了本申请一个示例性实施例示出的音频编码方法的流程图;
图5示出了本申请另一个示例性实施例示出的音频编码方法的流程图;
图6示出了本申请另一个示例性实施例示出的音频编码方法的流程图;
图7示出了本申请一个示例性实施例示出的完整模型训练过程的示意图;
图8示出了本申请另一个示例性实施例示出的音频编码方法的流程图;
图9示出了本申请另一个示例性实施例示出的音频编码方法的流程图;
图10示出了本申请一个示例性实施例示出的音频编码过程的示意图;
图11示出了本申请一个示例性实施例示出的音频编码装置的结构方框图;
图12示出了本申请一个示例性实施例示出的音频编码装置的结构方框图;
图13示出了本申请一个示例性实施例提供的计算机设备的结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
为了便于理解,下面对本申请涉及的名词进行解释。
1)音频编码:音频编码是将原始采集到的原始无损音频信号,通过音频模型对时域和频域的冗余分析和压缩,从而降低语音传输带宽和存储空间,同时保持较好的音频质量。最常规的音频编码器的输入参数包括:采样率、通道数、编码码率等;其中,当音频编码时所采用的编码码率越大时,语音编码质量越好,但是编码码流占用带宽越多,且音频编码后的音频文件占用的存储空间越大。
2)人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
需要说明的是,本申请实施例主要涉及到人工智能技术领域中的机器学习技术领域。
请参考图1,其示出了相关技术中音频编码的过程示意图。以语音通话场景中的音频编码为例,往往在语音通话启动之前,就预先基于实验经验值为音频编码器设置固定的编码参数,当发送端101启动语音通话时,基于当前语音通话场景配置的编码参数104,对采集到的原始语音103进行语音编码和信道编码后,并将编码结果经过互联网传输至接收端102,接收端102对编码结果进行信道解码和语音解码,生成对应的声音信号105。在整个语音通话过程中,编码参数(编码码率)一般是固定不变的,仅会根据丢包状态106进行适当调节。
显然,以固定编码码率对音频信号进行编码,由于语音信号本身是时变信号,不同时刻、不同语音信号在语音编码器内部的压缩过程存在较大差异,会使得相同编码码率下对不同语音信号的编码质量差异较大,无法保证语音编码的质量。
针对相关技术中的问题,本申请实施例提供了一种基于音频特征参数动态调整音频编码码率的方法,请参考图2,其示出了本申请一个实施例提供的实施环境的示意图。该实施环境可以包括:第一终端210、服务器220和第二终端230。
第一终端210中安装和运行有支持网络通话技术的应用程序。其可以是诸如智能手机、台式电脑、平板电脑、多媒体播放设备、智能手表、智能音箱,膝上型便携计算机等电子设备。其中,该应用程序可以是社交类程序、直播类程序、购物类程序、游戏类程序、视频类程序、音频类程序、即时通讯类程序等。本实施例中,第一终端210中存储有编码码率预测模型,该编码码率预测模型可以基于音频信号对应的音频特征参数,动态调控音频编码码率,并基于预测得到的音频编码码率进行音频编码,并将编码得到的音频数据流通过服务器220推送至第二终端230;可选的,当编码后的音频数据需要通过网络传输时,为了使得音频数据可以以较好的质量传输至接收端(比如,第二终端230),可以在预测编码码率时加入接收端反馈的网络状态参数。可选的,除了特定场景(该特定场景可以是:音视频通话场景、直播场景)下需要将编码得到的音频数据通过网络传输至接收端,在其他可能的应用场景下,编码后的音频数据无需通过网络传输,仅需要存储在本地或其他存储介质中,对应的,在预测音频编码码率时,也就无需考虑网络状态参数。
第一终端210与服务器220之间可以通过无线网络或有线网络相连。
服务器220用于为第一终端210或第二终端230中的应用程序(如能够进行网络通话的应用程序)提供后台服务。例如,服务器220可以是上述应用程序的后台服务器。服务器220可以是一台服务器,也可以是由多台服务器组成的服务器集群,其中多个服务器可组成为一区块链,而服务器为区块链上的节点,或者是一个云计算服务中心。本申请实施例中,服务器220可以接收来自第一终端210的音频数据流,并向指示的第二终端230推送该音频数据流。可选的,服务器220可以接收第二终端230反馈的网络状态参数,并将该网络状态参数反馈给第一终端210,以便第一终端210基于该网络状态参数调整音频编码码率。
第二终端230与服务器220之间可以通过无线网络或有线网络相连。
第二终端230中安装和运行有支持网络通话技术的应用程序。其可以是诸如智能手机、台式电脑、平板电脑、多媒体播放设备、智能手表、智能音箱,膝上型便携计算机等电子设备。其中,该应用程序可以是社交类程序、直播类应用程序、购物类程序、游戏类程序、视频类程序、音频类程序、即时通讯类程序等。本实施例中,第二终端230可以接收第一终端210发送的音频数据流,并对音频数据流进行解码,呈现传输的音频。可选的,第二终端230可以向第一终端210反馈网络状态参数,使得第一终端210可以基于网络状态参数动态调整音频编码码率。可选的,第一终端210中预先存储的编码码率预测模型可以是由其他计算机设备(图中未示出)训练完成,并将该编码码率预测模型推送至第一终端210中,使得第一终端210在实际应用过程中,可以基于该编码码率预测模型实现动态调整音频编码码率的目的。可选的,该计算机设备可以是第一终端210中应用程序对应的后台服务器。
请参考图3,其示出了本申请一个示例性实施例示出的音频编码方法的流程图,本申请实施例以该方法应用于图2所示的第一终端210为例进行说明,该方法包括如下步骤。
步骤301,获取原始音频中各个音频帧对应的音频特征参数。
其中,原始音频可以是终端采集到的语音,示意性的,原始音频可以是网络语音通话或视频通话场景中采集到的声音信号,也可以是直播场景中采集到的声音信号,也可以是在线K歌场景中采集到的声音信号,也可以是语音广播场景中采集到的声音信号;可选的,原始音频也可以是语音存储场景中获取到的音频,示意性的,原始音频可以是语音、音乐、视频等,本申请实施例对原始音频不构成限定。
为了使得音频可以更易存储和远距离传输,通常需要对获取到的原始音频进行音频编码,以减少音频存储的空间,或远距离传输所消耗的流量带宽,相关技术中,在进行音频编码过程中,一般通过前期测量得到不同应用场景下所适用的音频编码码率,从而在实际应用过程中,采用该音频编码码率对获取到的原始音频进行编码,也就是说,对于某个应用场景下的所有音频,均采用固定编码码率。以语音信号为例,语音信号本身是时变信号,若采用固定编码码率对不同语音信号进行编码,不同时刻、不同语音信号在音频编码器内部的压缩质量显然存在较大差异,可能无法达到较好的语音编码质量。
本实施例中,考虑到音频信号的特征(可变性),为了提高音频编码指令,在一种可能的实施方式中,通过分析同一原始音频中各个音频帧对应的音频特征参数,以便基于该音频特征参数分别预测得到各个音频帧对应的音频编码码率,使得音频编码码率可以基于不同音频特征参数进行动态调控,从而使得每一帧音频帧都可以达到较好的编码质量,进而提高了原始音频的编码质量。
可选的,对原始音频进行音频帧划分时,可以设定预设时长进行划分,示意性的,20ms为一帧音频帧。
可选的,音频特征参数可以包括固定增益、自适应增益、基音周期、线谱对参数等,本申请实施例对该音频特征参数不构成限定。
基音周期是用于反映声门相邻两次开闭之间的时间间隔或开闭的频率;示意性的,人在发音时,声带振动产生浊音(清音由空气摩擦产生)。浊音的发音过程是:来自肺部的气流冲击声门,造成声门的一张一合,形成一系列准周期的气流脉冲,经过声道(含口腔、鼻腔)的谐振及唇齿辐射最终形成语音信号。故浊音波形呈现一定的准周期性,而基音周期,就是对这种准周期而言的。可选的,在提取音频信号对应的基音周期时,可以采用自相关法、倒谱法、平均幅度差函数法、线性预测法、小波-自相关函数法,谱减-自相关函数法等。示意性的,一般浊音需要较高的编码码率,而清音需要较低的编码码率,因此针对不同语音信号,使其达到预设编码质量时所需要采用的编码码率也不相同,对应的,在训练编码码率预测模型过程中,通过提取音频帧所对应的基音周期,进一步分析该基音周期对应的音频帧所需要采用的编码码率。
由于手机等设备采集的原始音频往往有时候响度偏低,有时候响度偏高,造成声音忽大忽小,影响听众的主观感受,因此,在进行音频编码过程中,需要对输入声音进行正向/负向调节,使得输出的声音适宜人耳的主观感受。该过程即为对原始音频的增益调控过程,而不同时刻的语音信号由于响度高低的差异,对应的自适应增益存在差异,在对音频帧进行增益过程中,也同样会增加音频信号中的噪声信号,而音频编码的实质是为了减少音频中的冗余(即噪声信号),显然,不同增益显然会影响该音频信号的编码码率,因此,需要基于不同音频帧对应的增益确定其对应的编码码率。
线谱对参数用于反映音频信号的频谱特征,线谱对参数具有误差相对独立性,即某个频率点上的线谱对参数偏差只对该频率附近的语音频谱产生影响,而对其它频率上的线谱对参数语音频谱影响不大。这样有利于线谱对参数的量化和插值,以相对少的编码码率达到相同质量的编码音频,可见音频信号对应的线谱对参数可以指导编码码率的确定。
可选的,可以设置对应的音频特征提取模型,将原始音频输入该音频特征提取模型,对原始音频中包含的各个音频帧进行音频特征提取,从而输出各帧音频帧对应的音频特征参数。
可选的,由于音频特征参数包含较多特征维度,为了提高音频特征提取的效率,在一种可能的实施方式中,可以从中选择出对编码结果影响较大的N种音频特征维度上的特征参数,对应的,仅需要提取该N种音频特征维度上的音频特征参数即可。N为正整数。
可选的,针对不同音频种类,可以设置不同音频特征提取维度。
步骤302,将音频特征参数输入编码码率预测模型中,得到编码码率预测模型输出的音频编码码率,其中,不同音频特征参数对应不同音频编码码率。
其中,编码码率预测模型是以目标编码质量分值为目标进行训练的,因此,在应用该编码码率预测模型进行编码码率预测过程中,可以基于各个音频帧对应的音频特征参数,预测出使得原始音频对应的音频编码质量达到目标编码质量分值时,各个音频帧所对应的音频编码码率。
其中,终端中设置有编码码率预测模型,该编码码率预测模型可以基于各个音频帧对应的音频特征参数,动态调控各个音频帧对应的音频编码码率。在一种可能的实施方式中,将每一帧音频帧对应的音频特征参数输入该编码码率预测模型中,从而可以得到该帧音频帧对应的音频编码码率,以便后续可以基于该音频编码码率对音频帧进行音频编码。
示意性的,编码码率预测模型的训练过程可以参考下文实施例,本实施例在此不做赘述。
步骤303,基于音频编码码率对音频帧进行语音编码,并基于各帧音频帧对应的编码结果生成目标音频数据。
在一种可能的实施方式中,当获取到不同音频帧对应的音频编码码率后,可以基于该音频编码码率对音频帧进行编码,进而基于各个音频帧对应的编码结果生成原始音频对应的目标音频数据。
示意性的,若原始音频被划分为音频帧1~音频帧50,对应的,各个音频帧对应音频特征参数1~音频特征参数50,将各个音频帧对应的音频特征参数分别属于编码码率预测模型中,得到各个音频帧对应的编码码率1~编码码率50,再分别基于各个音频帧对应的音频编码码率对音频帧进行音频编码,得到各个音频帧对应的音频编码结果1~音频编码结果50,从而组合为原始音频对应的目标音频数据。
可选的,该目标音频数据可以存储在终端中,也可以通过网络传输至其他设备。
可选的,对于同一原始音频中,一般连续几帧音频帧之间的音频特征差异较小,对应的音频编码码率的差异也较小,或一般对应相同音频编码码率,为了避免编码码率预测模型出现偶然误差影响音频编码结果,在一种可能的实施方式中,可以对获得的各个音频帧对应的音频编码码率进行平滑处理,以降低预测误差对音频编码质量的影响。
综上所述,本申请实施例中,通过分析原始音频中各个音频帧对应的音频特征参数,以实现基于音频特征参数动态调控音频帧对应的音频编码码率的目的,可以为各个音频帧确定较适合的音频编码码率,从而提高整个音频的编码质量;相比于相关技术中采用固定编码码率,本实施例中采用动态编码码率进行音频编码,可以在音频编码质量满足目标要求的同时,尽可能的减小音频编码码率,进而可以降低音频数据的存储空间,以及减少传输音频数据过程中的带宽消耗。
为了使得编码码率预测模型可以实现动态调控音频编码码率的目标,需要预先通过大量样本音频对编码码率预测模型进行训练,使得该编码码率预测模型可以学习到对应不同音频特征参数的音频所适用的音频编码码率,以便在应用过程中可以基于该编码码率预测模型动态调控音频编码码率。
请参考图4,其示出了本申请一个示例性实施例示出的音频编码方法的流程图,本申请实施例以计算机设备为例进行示例性说明,该方法包括如下步骤。
步骤401,获取第一样本音频中各个样本音频帧对应的样本音频特征参数。
编码码率预测模型是用于匹配不同音频特征参数所对应的音频编码码率的,对应在编码码率预测模型的训练过程中,需要获取到大量的样本音频,以及样本音频中各个样本音频帧对应的样本音频特征参数,用于训练编码码率预测模型。
可选的,样本音频特征参数可以由音频特征提取模型提取得到。
可选的,为了使得编码码率预测模型可以具备较大的应用场景,在获取第一样本音频时,可以获取不同种类的音频,比如,语音、音乐、音视频中的音频等。
示意性的,第一样本音频的数量越多,编码码率预测模型的准确性越高;第一样本音频的种类越丰富,编码码率预测模型的预测范围和预测准确性也越高。
可选的,在选择第一样本音频帧时,除了可以选择不同类型的音频,对于同一类型的音频,也可以选取不同音频内容、不同音频时长的样本音频;对于同一样本音频,也可以对第一样本音频划分为不同音频帧,用于后续提取音频特征参数。
步骤402,将样本音频特征参数输入编码码率预测模型中,得到编码码率预测模型输出的样本编码码率,不同样本音频特征参数对应不同样本编码码率。
在一种可能的实施方式中,将各个样本音频帧对应的样本音频特征参数输入编码码率预测模型中,可以得到编码码率预测模型输出的各个样本音频帧对应的样本编码码率。
可选的,编码码率预测模型可以采用全连接网络作为主网络,也可以采用深度神经网络(Deep Neural Networks,DNN)、卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)等神经网络,或者开发人员基于实际需求搭建神经网络,本实施例对编码码率预测模型所使用的神经网络不构成限定。
步骤403,基于样本编码码率对样本音频帧进行音频编码,并基于各帧样本音频帧对应的编码结果生成样本音频数据。
由于编码码率预测模型输出的样本编码码率或音频编码码率是用于对音频编码场景,对应的,在评估编码码率预测模型输出的编码码率是否适合音频帧时,需要利用该样本编码码率对样本音频帧进行音频编码后,再基于音频编码结果作为训练编码码率预测模型的依据之一。
在一种可能的实施方式中,对于第一样本音频,获取到该第一样本音频中各个样本音频帧对应的样本编码码率,并基于各个样本音频帧对应的样本编码码率对各个样本音频帧进行音频编码,从而基于各帧样本音频帧对应的编码结果生成样本音频数据,以用于后续评估第一样本音频对应的本次语音编码质量。
步骤404,对样本音频数据进行音频解码,生成样本音频数据对应的第二样本音频。
为了评估语音编码质量,在一种可能的实施方式中,通过对样本音频数据进行音频解码,得到基于样本音频数据生成的第二样本音频,以便通过比较第二样本音频和原始样本音频,进而确定第一样本音频的音频编码质量。
步骤405,基于第一样本音频和第二样本音频,训练编码码率预测模型。
在一种可能的实施方式中,通过比较原始音频(第一样本音频)和经过音频编解码之后的音频(第二样本音频),来确定本次编码参数所对应的编码质量,从而基于该编码质量调整编码码率预测模型的各个参数,进而通过若干训练周期完成编码码率预测模型的训练过程。
在训练编码码率预测模型过程中,当采用编码码率预测模型输出的编码码率对样本音频进行音频编码后,可以使得样本音频的样本编码质量分值达到目标编码质量分值时,确定编码码率预测模型训练完成。示意性的,该目标编码质量分值可以是5分。可选的,也可以基于实际应用场景需求设置编码码率预测模型对应的目标编码质量分值。
其中,针对确定样本编码质量的方式,可以采用主观语音质量评估(PerceptualEvaluation of Speech Quality,PESQ)测试方法,通过计算出第一样本音频和第二样本音频对应的差异值,进而映射到平均意见值(Mean Opinion Score,MOS),若第一样本音频和第二样本音频差异越大,对应的语音编码质量越差,MOS值越低。
综上所述,本申请实施例中,通过训练编码码率预测模型,使得编码码率预测模型可以基于样本音频帧对应的样本音频特征参数,动态调控音频编码码率,在实际应用过程中,使得基于编码码率预测模型预测得到的音频编码码率更符合音频信号的特征,可以在音频编码质量满足目标要求的同时,尽可能的减小音频编码码率,进而可以降低音频数据的存储空间,以及减少传输音频数据过程中的带宽消耗。
对于一段音频,虽然不同时刻均是变化的,但是连续多帧音频帧之间的差异较小,也就是说,相邻音频帧之间的音频特征参数差异较小,在预测当前音频帧对应的音频编码码率时,前一帧音频帧对应的音频编码码率对其具有一定的参考意义,为了进一步提高音频编码码率的预测准确性,在一种可能的实施方式中,可以将前一帧音频帧对应的音频编码码率回归到下一帧音频帧的编码码率预测过程中。
请参考图5,其示出了本申请另一个示例性实施例示出的音频编码方法的流程图,本申请实施例以计算机设备为例进行示例性说明,该方法包括如下步骤。
步骤501,获取第一样本音频中各个样本音频帧对应的样本音频特征参数。
步骤501的实施方式可以参考步骤401,本实施例在此不做赘述。
可选的,样本音频特征参数可以包括固定增益、自适应增益、基音周期、基音频率、线谱对参数中的至少一种。
步骤502,获取第i-1帧样本音频帧对应的第i-1样本编码码率,其中,i为大于1的整数。
本实施例中,通过将前一帧样本音频帧对应的样本编码码率回归到编码码率预测模型中,使得在预测下一帧样本音频帧对应的样本编码码率时,可以参考前一帧的样本编码码率,可以尽量避免出现样本编码码率波动较大的情况。
步骤503,将第i帧样本音频帧对应的第i样本音频特征参数和第i-1样本编码码率输入编码码率预测模型中,得到编码码率预测模型输出的第i样本编码码率。
在一种可能的实施方式中,在预测第i帧样本音频帧对应的第i样本编码码率时,可以将获取到的第i-1帧样本编码码率和第i样本音频特征参数一起输入编码码率预测模型中,为第i样本编码码率提供预测依据,可以进一步提高编码码率的预测准确性。
示意性的,若第一样本音频被划分为样本音频帧1~样本音频帧60,对应的,在编码码率预测过程中,当编码码率预测模型输出第10帧样本音频帧对应的第10样本编码码率时,预测第11帧样本音频帧对应的第11样本编码码率时,可以将第10样本编码码率和第11样本音频特征参数一起输入编码码率预测模型中,得到第11样本编码码率。
步骤504,基于样本编码码率对样本音频帧进行音频编码,并基于各帧样本音频帧对应的编码结果生成样本音频数据。
步骤505,对样本音频数据进行音频解码,生成样本音频数据对应的第二样本音频。
步骤504和步骤505的实施方式可以参考上文实施例,本实施例在此不做赘述。
步骤506,基于第一样本音频和第二样本音频,确定第一样本音频对应的样本编码质量分值。
在一种可能的实施方式中,通过对第一样本音频和第二样本音频进行PSEQ测试,进而将测量结果映射到MOS值,将该MOS值确定为第一样本音频对应的样本编码质量分值。
示意性的,MOS值的取值范围可以是0~5,其中,分值越高,表示音频编码质量越好。
步骤507,基于样本编码质量分值和目标编码质量分值,训练编码码率预测模型。
其中,目标编码质量分值指示音频编码的预期目标,由开发人员进行设置,可以基于编码码率预测模型的应用场景设置不同的目标编码质量分值,示意性的,若编码码率预测模型适用于语音通话场景,可以设置目标编码质量分值为4,若编码码率预测模型适用于音频存储场景,可以设置目标编码质量分值为5。
可选的,也可以针对不同目标编码质量分值训练出不同的编码码率预测模型,以便在实际应用过程中,可以基于实际应用场景对目标编码质量分值的要求,选择对应的编码码率预测模型。
在一种可能的实施方式中,通过比较样本编码质量分值和目标编码质量分值,确定本次编码结果与预期目标之间的差距,进而基于该音频差距训练编码码率预测模型,从而更新编码码率预测模型中的各个参数。
在音频编码过程中,除了目标编码质量分值之外,编码码率的选取也应该作为评价编码质量的指标之一,示意性的,对于同一音频信号,若采用编码码率A和编码码率B均可以达到相同的编码质量,但是编码码率A小于编码码率B,而编码码率越大,可能会消耗更多的存储空间和流量带宽,因此,还需要从编码码率A和编码码率B中决策出选择较小的编码码率,对应的,在模型训练过程中,将编码码率较小也作为编码码率预测模型的损失参数之一。
在一个示例性的例子中,训练编码码率预测模型的过程还可以包括如下步骤。
一、确定第一样本音频对应的平均编码码率,平均编码码率由各帧样本音频帧对应的样本编码码率确定。
本实施例在音频编码过程中,针对每一帧样本音频帧均预测除了对应的样本编码码率,在评价是否可以达到较小的样本编码码率时,可以对各帧样本音频帧对应的样本编码码率取平均值,求得平均编码码率,进而将该平均编码码率确定为评价音频编码质量的参数之一。
二、基于平均编码码率、样本编码质量分值和目标编码质量分值,计算第一样本音频对应的第一编码损失。
在一种可能的实施方式中,通过综合编码码率和编码质量分值两个参数维度,共同评价第一样本音频对应的编码损失,即基于平均编码码率、样本编码质量分值和目标编码质量分值,计算得到第一样本音频对应的第一编码损失。
可选的,开发人员可以基于应用场景的需求,自行调整两个参数维度上的权重,示意性的,对于语音通话场景下,可以为编码码率设置较大的权重;对于音频存储场景,可以为编码质量分值设置较大的权重。
在一个示例性的例子中,计算第一编码损失的过程还可以包括如下步骤。
1. 获取平均编码码率的第一损失权重,以及编码质量分值对应的第二损失权重,编码质量分值由样本编码质量分值和目标编码质量分值确定。
在一种可能的实施方式中,在计算编码损失时,可以分别获取到平均编码码率和编码质量分值对应损失权重,进而基于各个参数对应的损失权重,计算得到第一编码损失。
可选的,第一损失权重和第二损失权重由开发人员进行设置。可以基于编码码率预测模型应用场景的不同,分别设置不同的第一损失权重和第二损失权重,使得训练得到的编码码率预测模型更适用于该应用场景的需求。
可选的,也可以针对不同损失权重的组合训练不同的编码码率预测模型,进而在实际应用过程中,可以针对不同应用场景的需求选择对应的编码码率预测模型。
2. 基于平均编码码率、第一损失权重、编码质量分值以及第二损失权重,计算得到第一样本音频对应的第一编码损失。
在一个示例性的例子中,计算第一编码损失的公式可以表示为:
其中,a表示值为0~1的加权系数(即损失权重);average(bitrate)表示求平均函数;bitrate表示编码码率;power(x)表示幂函数;MOS_SET表示语音客观质量mos分的预设目标值(目标编码质量分值),mos表示样本编码质量分值:函数f(x)定义为当x<=0时,f =0,而x>0时,f=x。
在一种可能的实施方式中,将平均编码码率、第一损失权重、样本编码质量分值、目标编码质量分值、第二损失权重带入上述公式,可以计算得到第一样本音频对应的第一编码损失。
三、基于第一编码损失和预设编码损失,训练编码码率预测模型。
在一种可能的实施方式中,在训练编码码率预测模型过程中使用交叉熵(Cross-Entropy)准则,也就是说,预先设置有预设编码损失,只有当第一编码损失无限接近于预设编码损失时,可以确定编码码率预测模型训练完成。
本实施例中,通过将前一帧样本编码码率回归到编码码率预测模型中,可以为后一帧样本编码码率的预测提供一定的参考价值,从而避免预测过程中编码码率波动幅度较大,进而可以提高编码码率的预测准确性;此外,以编码码率较小和编码质量较好为目标训练编码码率预测模型,使得编码码率预测模型在应用过程中控制语音编码码率时,达到语音编码质量满足目标要求的前提下编码码率做到最小, 对应的,在同等带宽或存储空间条件下,可以使音频编码质量做到最佳。
在特定应用场景中,经过音频编码之后的音频数据需要经过网络传输至其他终端,比如,语音通话场景下,需要将编码后的语音数据传输至其他客户端,而接收端是否可以获取到较好的音频信号不仅取决于编码码率,还与网络传输过程的网络环境状态有关,因此,为了使得在该特定场景下接收端可以获得质量较好的音频信号,在预测音音频编码码率的过程中,还需要考虑到当前网络状态参数,对应的,在模型训练过程中,也需要网络状态参数参与模型训练。
在一个示例性的例子中,在图4的基础上,如图6所示,步骤402可以被替换为步骤601和步骤602。
步骤601,获取样本网络状态参数。
在训练编码码率预测模型中,为了使得预测出的音频编码码率适用于当前网络状态,在一种可能的实施方式中,可以将网络状态参数也加入到训练编码码率预测模型的训练样本中。示意性的,样本网络状态参数可以是丢包率、网络传输速率等。
可选的,可以随机模拟所需要的样本网络状态参数。示意性的,可以针对不同样本音频生成不同的样本网络状态参数,或针对不同样本音频帧生成对应的样本网络状态参数,或每隔预设时间段生成对应的样本网络状态参数。
对应的,在预测样本音频帧对应的样本编码码率时,可以将样本网络状态参数和该样本音频帧对应的样本音频特征参数共同输入编码码率预测模型中,进行编码码率预测。
步骤602,将样本网络状态参数和样本音频特征参数输入编码码率预测模型中,得到编码码率预测模型输出的样本编码码率。
在一种可能的实施方式中,在预测样本音频帧对应的样本编码码率时,除了需要获取到该样本音频帧对应的样本音频特征参数,还需要获取到本次预测所使用的样本网络状态参数,并将样本网络状态参数和该样本音频特征参数共同输入编码码率预测模型中,从而得到编码码率预测模型输出的样本编码码率。
可选的,为了进一步提高特定应用场景下的编码预测准确性,在进行编码码率预测过程中,也可以将前一帧样本音频帧对应的样本编码码率回归到编码码率预测模型中,为预测下一帧样本音频帧对应的样本编码码率提供预测参考。
在一种可能的实施方式中,可以将样本网络状态参数、第i-1样本编码码率(第i-1帧样本音频帧对应的编码码率)和第i样本音频特征参数输入编码码率预测模型中,其中,样本网络状态参数提供当前网络状态参考,第i-1样本编码码率提供编码码率预测参考,进而生成第i样本音频帧对应的第i样本编码码率。
本实施例中,通过在训练过程中添加网络状态参数,使得编码码率预测模型在预测编码码率时可以考虑到网络状态对编码码率的影响,进一步提高在特定场景下(比如,语音通话场景下)对应的音频编码质量。
请参考图7,其示出了本申请一个示例性实施例示出的完整模型训练过程的示意图。基于第一样本语音701对编码码率预测模型702进行训练的过程中,将第一样本语音701划分为若干样本音频帧,并将各个样本音频帧对应的样本音频特征参数704、网络丢包标志703输入编码码率预测模型702中,得到编码码率预测模型702输出的当前帧编码码率705,该当前帧编码码率705不仅用于语音编码,还可以将当前帧编码码率705回归到编码码率预测模型702中,用于预测下一帧编码码率;基于各帧样本音频帧对应的编码码率进行音频编码,得到音频编码结果,再将语音编码结果经过语音解码后,生成第二样本语音706,以便通过对第一样本语音701和第二样本语音706进行PESQ测试,继而基于测试结果训练编码码率预测模型702。
在一个示例性的例子中,编码码率预测模型702在网络结构方面可以由全连接层(DENSE)和门控循环单元(GRU)构成,示意性的,GRU1地神经元数量为24,DENSE2的神经元数量为96,GRU2、GRU3神经元数量为256,DENSE3神经元数量为1;将网络丢包标志703输入DENSE1中,提取网络状态特征;同时将样本音频特征参数704输入DENSE2中,用于提取音频特征,再通过GRU2、GRU3进行特征融合,输入DENSE3中,由DENSE3输出各个预设编码码率的概率,进而将概率最高的预设编码码率确定为当前样本音频帧对应的当前帧编码码率。
可选的,编码码率预测模型702还可以采用其他网络结构,比如,编码码率预测模型702全部由全连接层构成。
在模型训练过程中,通过将前一帧编码码率回归到网络模型中,以作为预测下一帧编码码率的依据,对应的,在实际应用过程中,为了进一步提高音频编码质量,在一种可能的实施方式中,也可以将每帧编码码率预测模型输出的音频编码码率回归到模型中,为下一帧编码码率预测提供参考。
在图3的基础上,如图8所示,步骤302可以被替换为步骤801和步骤802。
步骤801,获取第j-1帧音频帧对应的第j-1音频编码码率,其中,j为大于1的整数。
在一种可能的实施方式中,当编码码率预测模型预测出第j-1帧音频帧对应的第j-1音频编码码率后,除了应用于后续基于该第j-1音频编码码率对第j-1音频帧进行音频编码之外,还可以将第j-1音频编码码率重新输入编码码率预测模型中,用于为预测第j帧音频帧对应的第j音频编码码率提供参考依据。
步骤802,将第j-1音频编码码率和第j帧音频帧对应的第j音频特征参数输入编码码率预测模型中,得到编码码率预测模型输出的第j音频编码码率。
在一种可能的实施方式中,在预测第j帧音频帧对应的第j音频编码码率时,可以获取到第j-1帧音频帧对应的第j-1音频编码码率,以便将第j-1音频编码码率和第j音频特征参数共同输入编码码率预测模型中,由第j-1音频编码码率为第j音频编码码率提供预测依据,进而得到编码码率预测模型输出的第j音频编码码率。
本实施例中,通过将前一帧音频编码码率回归到编码码率预测模型中,可以为后一帧音频编码码率的预测起到参考作用,可以避免编码码率预测过程中音频编码码率波动幅度较大,进而可以提高音频编码码率的预测准确性。
对于某些特定应用场景下,比如,语音通话场景下、直播场景下等需要在线传输音频数据的场景,网络状态会影响到接收端接收到的语音质量,因此,在该特定应用场景下,为了避免网络状态对语音质量的影响,需要在生成音频编码码率时考虑当前网络状态的影响。
在图3的基础上,如图9所示,步骤302可以被替换为步骤901和步骤902。
步骤901,获取接收端反馈的当前网络状态参数,接收端用于接收经过网络传输的目标音频数据。
在一种可能的应用场景下,经过音频编码的目标音频数据需要经过网络传输至其他终端(即接收端),而网络状态对音频编码过程也具有一定的影响,示意性的,若网络状态较差,对应的,采用较小的编码码率,网络状态较好,采用较大的编码码率,因此,对于用于网络传输的音频数据,在预测编码码率过程中,还需要考虑到接收端反馈的当前网络状态参数。
其中,该网络状态参数可以由接收端返回,以网络状态参数为丢包率为例,在一种可能的实施方式中,接收端通过统计一定时间内的网络丢包率,并将该网络丢包率返回至发送端,当发送端接收到该丢包率时,即可将该丢包率作为网络状态参数,输入编码码率预测模型中,使得在预测音频编码码率时,可以考虑到当前的网络状态。
示意性的,发送终端可以每隔预定时间从接收端获取网络状态参数,或接收端每隔预定时间向发送终端反馈网络状态参数。其中,预定时间可以是30min。
步骤902,将当前网络状态参数和音频特征参数输入编码码率预测模型中,得到编码码率预测模型输出的音频编码码率。
在一种可能的实施方式中,在预测音频帧对应的音频编码码率时,考虑到当前网络状态的影响,可以将获取到的当前网络状态参数和音频帧对应的音频特征参数输入编码码率预测模型中,使得在预测音频编码码率时,兼顾当前网络状态这一影响因素,从而得到编码码率预测模型输出的音频编码码率。
当发送端基于该音频编码码率对音频进行编码后,并将编码结果通过网络传输至接收端后,由于在音频编码过程中所使用的音频编码码率已经考虑到当前网络状态,可以保证接收端收到较好的音频信号。
可选的,为了进一步提高特定应用场景下的编码预测准确性,在进行编码码率预测过程中,也可以将前一帧音频帧对应的音频编码码率回归到编码码率预测模型中,为预测下一帧音频帧对应的音频编码码率提供预测参考。
在一种可能的实施方式中,可以将网络状态参数、第j-1音频编码码率(第j-1音频帧对应的音频编码码率)和第j音频特征参数输入编码码率预测模型中,由网络状态参数为第j音频编码码率提供网络状态参考,由第j-1音频编码码率为第j音频编码码率提供编码码率预测参考,进而由编码码率预测模型输出第j音频帧对应的第j音频编码码率,j为大于1的整数。
本实施例中,通过在预测音频编码码率的过程中,添加网络状态参数,使得编码码率预测模型在预测编码码率时可以考虑到网络状态对编码码率的影响,进一步提高在特定场景下(比如,语音通话场景下)对应的音频编码质量。
请参考图10,其示出了本申请一个示例性实施例示出的音频编码过程的示意图。在模型应用过程中,可以将网络丢包标志1001(即网络状态参数)和音频特征参数1002输入编码码率预测模型1003中,从而输出当前帧编码码率1004;可选的,还可以将当前帧编码码率1004输入编码码率预测模型中,用于为预测下一帧编码码率提高参考依据;进而基于各帧音频帧对应的音频编码码率进行音频编码,基于各帧音频帧对应的编码结果生成原始音频对应的音频编码数据。
请参考图11,其示出了本申请一个示例性实施例示出的音频编码装置的结构方框图。该音频编码装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分。该音频编码装置可以包括:
第一获取模块1101,用于获取第一样本音频中各个样本音频帧对应的样本音频特征参数;
第一处理模块1102,用于将所述样本音频特征参数输入编码码率预测模型中,得到所述编码码率预测模型输出的样本编码码率,不同样本音频特征参数对应不同样本编码码率;
第一编码模块1103,用于基于所述样本编码码率对所述样本音频帧进行音频编码,并基于各帧样本音频帧对应的编码结果生成样本音频数据;
音频解码模块1104,用于对所述样本音频数据进行音频解码,生成所述样本音频数据对应的第二样本音频;
训练模块1105,用于基于所述第一样本音频和所述第二样本音频,训练所述编码码率预测模型,其中,所述编码码率预测模型在样本编码质量分值达到目标编码质量分值时训练结束,所述样本编码质量分值由所述第一样本音频和所述第二样本音频确定。
可选的,所述装置还包括:
第二获取模块,用于获取样本网络状态参数;
所述第一处理模块1102,包括:
第一处理单元,用于将所述样本网络状态参数和所述样本音频特征参数输入所述编码码率预测模型中,得到所述编码码率预测模型输出的所述样本编码码率。
可选的,所述装置还包括:
第三获取模块,用于获取第i-1帧样本音频帧对应的第i-1样本编码码率,其中,i为大于1的整数;
所述第一处理模块1102,包括:
第二处理单元,用于将第i帧样本音频帧对应的第i样本音频特征参数和所述第i-1样本编码码率输入所述编码码率预测模型中,得到所述编码码率预测模型输出的第i样本编码码率。
可选的,所述训练模块1105,包括:
确定单元,用于基于所述第一样本音频和所述第二样本音频,确定所述第一样本音频对应的所述样本编码质量分值;
训练单元,用于基于所述样本编码质量分值和所述目标编码质量分值,训练所述编码码率预测模型。
可选的,所述训练单元,还用于:
确定所述第一样本音频对应的平均编码码率,所述平均编码码率由各帧样本音频帧对应的所述样本编码码率确定;
基于所述平均编码码率、所述样本编码质量分值和所述目标编码质量分值,计算所述第一样本音频对应的第一编码损失;
基于所述第一编码损失和预设编码损失,训练所述编码码率预测模型。
可选的,所述训练单元,还用于:
获取所述平均编码码率的第一损失权重,以及编码质量分值对应的第二损失权重,所述编码质量分值由所述样本编码质量分值和所述目标编码质量分值确定;
基于所述平均编码码率、所述第一损失权重、所述编码质量分值以及所述第二损失权重,计算得到所述第一样本音频对应的所述第一编码损失。
可选的,所述样本音频特征参数包括固定增益、自适应增益、基音周期、基音频率、线谱对参数中的至少一种。
综上所述,本申请实施例中,通过在训练编码码率预测模型过程中,分析样本音频中各个样本音频帧对应的样本音频特征参数,以便基于样本音频特征参数预测各帧样本音频帧对应的样本音频编码码率,进而基于各帧对应的样本编码码率对样本音频帧进行音频编码,在对音频编码结果进行音频解码后,通过比较音频解码后的音频和原始音频之间的关系,训练编码码率预测模型,使得在实际应用过程中,编码码率预测模型具备可以基于音频特征参数动态调控音频编码码率的功能,可以在音频编码质量满足目标要求的同时,尽可能的减小音频编码码率,进而可以降低音频数据的存储空间,以及减少传输音频数据过程中的带宽消耗。
请参考图12,其示出了本申请一个示例性实施例示出的音频编码装置的结构方框图。该音频编码装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分。该音频编码装置可以包括:
第四获取模块1201,用于获取原始音频中各个音频帧对应的音频特征参数;
第二处理模块1202,用于将所述音频特征参数输入编码码率预测模型中,得到所述编码码率预测模型输出的音频编码码率,其中,不同音频特征参数对应不同音频编码码率,所述编码码率预测模型用于预测达到目标编码质量分值时各个所述音频帧对应的音频编码码率;
第二编码模块1203,用于基于所述音频编码码率对所述音频帧进行语音编码,并基于各帧音频帧对应的编码结果生成目标音频数据。
可选的,所述目标音频数据用于网络传输;
所述装置还包括:
第五获取模块,用于获取接收端反馈的当前网络状态参数,所述接收端用于接收经过网络传输的目标音频数据;
所述第二处理模块1202,包括:
第三处理单元,用于将所述当前网络状态参数和所述音频特征参数输入所述编码码率预测模型中,得到所述编码码率预测模型输出的所述音频编码码率。
可选的,所述装置还包括:
第六获取模块,用于获取第j-1帧音频帧对应的第j-1音频编码码率,其中,j为大于1的整数;
所述第二处理模块1202,包括:
第四处理单元,用于将所述第j-1音频编码码率和所述第j帧音频帧对应的第j音频特征参数输入所述编码码率预测模型中,得到所述编码码率预测模型输出的第j音频编码码率。
可选的,所述音频特征参数包括固定增益、自适应增益、基音周期、基音频率、线谱对参数中的至少一种。
综上所述,本申请实施例中,通过分析原始音频中各个音频帧对应的音频特征参数,以实现基于音频特征参数动态调控音频帧对应的音频编码码率的目的,可以为各个音频帧确定较适合的音频编码码率,从而提高整个音频的编码质量;相比于相关技术中采用固定编码码率,本实施例中采用动态编码码率进行音频编码,可以在音频编码质量满足目标要求的同时,尽可能的减小音频编码码率,进而可以降低音频数据的存储空间,以及减少传输音频数据过程中的带宽消耗。
请参考图13,其示出了本申请一个示例性实施例提供的计算机设备的结构框图。该计算机设备可用于实施上述实施例中提供的音频编码方法。具体来讲:
所述计算机设备1300包括中央处理单元(Central Processing Unit,CPU)1301、包括随机存取存储器(Random Access Memory ,RAM)1302和只读存储器(Read-OnlyMemory ,ROM)1303的系统存储器1304,以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述计算机设备1300还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统(Input /Output 系统,I/O系统)1306,和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。
所述基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读存储介质为计算机设备1300提供非易失性存储。也就是说,所述大容量存储设备1307可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机可读存储介质(未示出)。
不失一般性,所述计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读存储指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read OnlyMemory,EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable ProgrammableRead-Only Memory,EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字多功能光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。
存储器存储有一个或多个程序,一个或多个程序被配置成由一个或多个中央处理单元1301执行,一个或多个程序包含用于实现上述方法实施例的指令,中央处理单元1301执行该一个或多个程序实现上述各个方法实施例提供的方法。
根据本申请的各种实施例,所述计算机设备1300还可以通过诸如因特网等网络连接到网络上的远程服务器运行。也即计算机设备1300可以通过连接在所述系统总线1305上的网络接口单元1311连接到网络1312,或者说,也可以使用网络接口单元1311来连接到其他类型的网络或远程服务器系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中计算机设备所执行的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的音频编码方法。
根据本申请的另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述可选实现方式中提供的音频编码方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (15)
1.一种音频编码方法,其特征在于,所述方法包括:
获取第一样本音频中各个样本音频帧对应的样本音频特征参数;
将所述样本音频特征参数输入编码码率预测模型中,得到所述编码码率预测模型输出的样本编码码率,不同样本音频特征参数对应不同样本编码码率;
基于所述样本编码码率对所述样本音频帧进行音频编码,并基于各帧样本音频帧对应的编码结果生成样本音频数据;
对所述样本音频数据进行音频解码,生成所述样本音频数据对应的第二样本音频;
基于所述第一样本音频和所述第二样本音频,训练所述编码码率预测模型,其中,所述编码码率预测模型在样本编码质量分值达到目标编码质量分值时训练结束,所述样本编码质量分值由所述第一样本音频和所述第二样本音频确定。
2.根据权利要求1所述的方法,其特征在于,所述将所述样本音频特征参数输入编码码率预测模型中,得到所述编码码率预测模型输出的样本编码码率之前,所述方法还包括:
获取样本网络状态参数;
所述将所述样本音频特征参数输入编码码率预测模型中,得到所述编码码率预测模型输出的样本编码码率,包括:
将所述样本网络状态参数和所述样本音频特征参数输入所述编码码率预测模型中,得到所述编码码率预测模型输出的所述样本编码码率。
3.根据权利要求1所述的方法,其特征在于,所述将所述样本音频特征参数输入编码码率预测模型中,得到所述编码码率预测模型输出的样本编码码率之前,所述方法还包括:
获取第i-1帧样本音频帧对应的第i-1样本编码码率,其中,i为大于1的整数;
所述将所述样本音频特征参数输入编码码率预测模型中,得到所述编码码率预测模型输出的样本编码码率,包括:
将第i帧样本音频帧对应的第i样本音频特征参数和所述第i-1样本编码码率输入所述编码码率预测模型中,得到所述编码码率预测模型输出的第i样本编码码率。
4.根据权利要求1至3任一所述的方法,其特征在于,所述基于所述第一样本音频和所述第二样本音频,训练所述编码码率预测模型,包括:
基于所述第一样本音频和所述第二样本音频,确定所述第一样本音频对应的所述样本编码质量分值;
基于所述样本编码质量分值和所述目标编码质量分值,训练所述编码码率预测模型。
5.根据权利要求4所述的方法,其特征在于,所述基于所述样本编码质量分值和目标编码质量分值,训练所述编码码率预测模型,包括:
确定所述第一样本音频对应的平均编码码率,所述平均编码码率由各帧样本音频帧对应的所述样本编码码率确定;
基于所述平均编码码率、所述样本编码质量分值和所述目标编码质量分值,计算所述第一样本音频对应的第一编码损失;
基于所述第一编码损失和预设编码损失,训练所述编码码率预测模型。
6.根据权利要求5所述的方法,其特征在于,所述基于所述平均编码码率、所述样本编码质量分值和所述目标编码质量分值,计算所述第一样本音频对应的第一编码损失,包括:
获取所述平均编码码率的第一损失权重,以及编码质量分值对应的第二损失权重,所述编码质量分值由所述样本编码质量分值和所述目标编码质量分值确定;
基于所述平均编码码率、所述第一损失权重、所述编码质量分值以及所述第二损失权重,计算得到所述第一样本音频对应的所述第一编码损失。
7.根据权利要求1至3任一所述的方法,其特征在于,所述样本音频特征参数包括固定增益、自适应增益、基音周期、基音频率、线谱对参数中的至少一种。
8.一种音频编码方法,其特征在于,所述方法包括:
获取原始音频中各个音频帧对应的音频特征参数;
将所述音频特征参数输入编码码率预测模型中,得到所述编码码率预测模型输出的音频编码码率,其中,不同音频特征参数对应不同音频编码码率,所述编码码率预测模型用于预测达到目标编码质量分值时各个所述音频帧对应的音频编码码率;
基于所述音频编码码率对所述音频帧进行语音编码,并基于各帧音频帧对应的编码结果生成目标音频数据。
9.根据权利要求8所述的方法,其特征在于,所述目标音频数据用于网络传输;
所述将所述音频特征参数输入编码码率预测模型中,得到所述编码码率预测模型输出的音频编码码率之前,所述方法还包括:
获取接收端反馈的当前网络状态参数,所述接收端用于接收经过网络传输的目标音频数据;
所述将所述音频特征参数输入编码码率预测模型中,得到所述编码码率预测模型输出的音频编码码率,包括:
将所述当前网络状态参数和所述音频特征参数输入所述编码码率预测模型中,得到所述编码码率预测模型输出的所述音频编码码率。
10.根据权利要求8所述的方法,其特征在于,所述将所述音频特征参数输入编码码率预测模型中,得到所述编码码率预测模型输出的音频编码码率之前,所述方法还包括:
获取第j-1帧音频帧对应的第j-1音频编码码率,其中,j为大于1的整数;
所述将所述音频特征参数输入编码码率预测模型中,得到所述编码码率预测模型输出的音频编码码率,包括:
将所述第j-1音频编码码率和所述第j帧音频帧对应的第j音频特征参数输入所述编码码率预测模型中,得到所述编码码率预测模型输出的第j音频编码码率。
11.根据权利要求8至10任一所述的方法,其特征在于,所述音频特征参数包括固定增益、自适应增益、基音周期、基音频率、线谱对参数中的至少一种。
12.一种音频编码装置,其特征在于,所述装置包括:
第一获取模块,用于获取第一样本音频中各个样本音频帧对应的样本音频特征参数;
第一处理模块,用于将所述样本音频特征参数输入编码码率预测模型中,得到所述编码码率预测模型输出的样本编码码率;
第一编码模块,用于基于所述样本编码码率对所述样本音频帧进行音频编码,并基于各帧样本音频帧对应的编码结果生成样本音频数据;
音频解码模块,用于对所述样本音频数据进行音频解码,生成所述样本音频数据对应的第二样本音频;
训练模块,用于基于所述第一样本音频和所述第二样本音频,训练所述编码码率预测模型。
13.一种音频编码装置,其特征在于,所述装置包括:
第四获取模块,用于获取原始音频中各个音频帧对应的音频特征参数;
第二处理模块,用于将所述音频特征参数输入编码码率预测模型中,得到所述编码码率预测模型输出的音频编码码率;
第二编码模块,用于基于所述音频编码码率对所述音频帧进行语音编码,并基于各帧音频帧对应的编码结果生成目标音频数据。
14.一种计算机设备,其特征在于,所述计算机设备包含处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7任一所述的音频编码方法,或实现如权利要求8至11任一所述的音频编码方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现权利要求1至7任一所述的音频编码方法,或实现如权利要求8至11任一所述的音频编码方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110380547.9A CN112767956B (zh) | 2021-04-09 | 2021-04-09 | 音频编码方法、装置、计算机设备及介质 |
PCT/CN2022/081414 WO2022213787A1 (zh) | 2021-04-09 | 2022-03-17 | 音频编码方法、音频解码方法、装置、计算机设备、存储介质及计算机程序产品 |
EP22783856.2A EP4239630A1 (en) | 2021-04-09 | 2022-03-17 | Audio encoding method, audio decoding method, apparatus, computer device, storage medium, and computer program product |
JP2023538141A JP2024501933A (ja) | 2021-04-09 | 2022-03-17 | オーディオ符号化方法、オーディオ復号化方法、装置、コンピューター機器及びコンピュータープログラム |
US17/978,905 US20230046509A1 (en) | 2021-04-09 | 2022-11-01 | Audio encoding method, audio decoding method, apparatus, computer device, storage medium, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110380547.9A CN112767956B (zh) | 2021-04-09 | 2021-04-09 | 音频编码方法、装置、计算机设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112767956A true CN112767956A (zh) | 2021-05-07 |
CN112767956B CN112767956B (zh) | 2021-07-16 |
Family
ID=75691260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110380547.9A Active CN112767956B (zh) | 2021-04-09 | 2021-04-09 | 音频编码方法、装置、计算机设备及介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230046509A1 (zh) |
EP (1) | EP4239630A1 (zh) |
JP (1) | JP2024501933A (zh) |
CN (1) | CN112767956B (zh) |
WO (1) | WO2022213787A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113192520A (zh) * | 2021-07-01 | 2021-07-30 | 腾讯科技(深圳)有限公司 | 一种音频信息处理方法、装置、电子设备及存储介质 |
WO2022213787A1 (zh) * | 2021-04-09 | 2022-10-13 | 腾讯科技(深圳)有限公司 | 音频编码方法、音频解码方法、装置、计算机设备、存储介质及计算机程序产品 |
CN115334349A (zh) * | 2022-07-15 | 2022-11-11 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及存储介质 |
WO2023216119A1 (zh) * | 2022-05-10 | 2023-11-16 | 北京小米移动软件有限公司 | 音频信号编码方法、装置、电子设备和存储介质 |
CN117793078A (zh) * | 2024-02-27 | 2024-03-29 | 腾讯科技(深圳)有限公司 | 一种音频数据的处理方法、装置、电子设备和存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113518250B (zh) * | 2020-08-07 | 2022-08-02 | 腾讯科技(深圳)有限公司 | 一种多媒体数据处理方法、装置、设备及可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009015944A1 (en) * | 2007-07-30 | 2009-02-05 | Global Ip Solutions (Gips) Ab | A low-delay audio coder |
JP4825944B2 (ja) * | 2000-05-01 | 2011-11-30 | モトローラ モビリティ インコーポレイテッド | レート判定誤りとそのアーティファクトの低減方法及び装置 |
CN104517612A (zh) * | 2013-09-30 | 2015-04-15 | 上海爱聊信息科技有限公司 | 基于amr-nb语音信号的可变码率编码器和解码器及其编码和解码方法 |
CN105610635A (zh) * | 2016-02-29 | 2016-05-25 | 腾讯科技(深圳)有限公司 | 语音编码发送方法和装置 |
US20180288419A1 (en) * | 2017-03-30 | 2018-10-04 | Qualcomm Incorporated | Zero block detection using adaptive rate model |
CN110767243A (zh) * | 2019-11-04 | 2020-02-07 | 重庆百瑞互联电子技术有限公司 | 一种音频编码方法、装置及设备 |
CN110992963A (zh) * | 2019-12-10 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 网络通话方法、装置、计算机设备及存储介质 |
CN111429926A (zh) * | 2020-03-24 | 2020-07-17 | 北京百瑞互联技术有限公司 | 一种优化音频编码速度的方法和装置 |
CN111862995A (zh) * | 2020-06-22 | 2020-10-30 | 北京达佳互联信息技术有限公司 | 一种码率确定模型训练方法、码率确定方法及装置 |
CN112289328A (zh) * | 2020-10-28 | 2021-01-29 | 北京百瑞互联技术有限公司 | 一种确定音频编码码率的方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8897370B1 (en) * | 2009-11-30 | 2014-11-25 | Google Inc. | Bitrate video transcoding based on video coding complexity estimation |
CN104143335B (zh) * | 2014-07-28 | 2017-02-01 | 华为技术有限公司 | 音频编码方法及相关装置 |
CN109495660B (zh) * | 2018-11-29 | 2021-05-18 | 广州市百果园信息技术有限公司 | 一种音频数据的编码方法、装置、设备和存储介质 |
CN111243608A (zh) * | 2020-01-17 | 2020-06-05 | 中国人民解放军国防科技大学 | 一种基于深度自编码机低速率语音编码方法 |
CN111370032B (zh) * | 2020-02-20 | 2023-02-14 | 厦门快商通科技股份有限公司 | 语音分离方法、系统、移动终端及存储介质 |
CN112767956B (zh) * | 2021-04-09 | 2021-07-16 | 腾讯科技(深圳)有限公司 | 音频编码方法、装置、计算机设备及介质 |
-
2021
- 2021-04-09 CN CN202110380547.9A patent/CN112767956B/zh active Active
-
2022
- 2022-03-17 EP EP22783856.2A patent/EP4239630A1/en active Pending
- 2022-03-17 WO PCT/CN2022/081414 patent/WO2022213787A1/zh active Application Filing
- 2022-03-17 JP JP2023538141A patent/JP2024501933A/ja active Pending
- 2022-11-01 US US17/978,905 patent/US20230046509A1/en active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4825944B2 (ja) * | 2000-05-01 | 2011-11-30 | モトローラ モビリティ インコーポレイテッド | レート判定誤りとそのアーティファクトの低減方法及び装置 |
WO2009015944A1 (en) * | 2007-07-30 | 2009-02-05 | Global Ip Solutions (Gips) Ab | A low-delay audio coder |
CN104517612A (zh) * | 2013-09-30 | 2015-04-15 | 上海爱聊信息科技有限公司 | 基于amr-nb语音信号的可变码率编码器和解码器及其编码和解码方法 |
CN105610635A (zh) * | 2016-02-29 | 2016-05-25 | 腾讯科技(深圳)有限公司 | 语音编码发送方法和装置 |
US20180288419A1 (en) * | 2017-03-30 | 2018-10-04 | Qualcomm Incorporated | Zero block detection using adaptive rate model |
CN110767243A (zh) * | 2019-11-04 | 2020-02-07 | 重庆百瑞互联电子技术有限公司 | 一种音频编码方法、装置及设备 |
CN110992963A (zh) * | 2019-12-10 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 网络通话方法、装置、计算机设备及存储介质 |
CN111429926A (zh) * | 2020-03-24 | 2020-07-17 | 北京百瑞互联技术有限公司 | 一种优化音频编码速度的方法和装置 |
CN111862995A (zh) * | 2020-06-22 | 2020-10-30 | 北京达佳互联信息技术有限公司 | 一种码率确定模型训练方法、码率确定方法及装置 |
CN112289328A (zh) * | 2020-10-28 | 2021-01-29 | 北京百瑞互联技术有限公司 | 一种确定音频编码码率的方法及系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022213787A1 (zh) * | 2021-04-09 | 2022-10-13 | 腾讯科技(深圳)有限公司 | 音频编码方法、音频解码方法、装置、计算机设备、存储介质及计算机程序产品 |
CN113192520A (zh) * | 2021-07-01 | 2021-07-30 | 腾讯科技(深圳)有限公司 | 一种音频信息处理方法、装置、电子设备及存储介质 |
WO2023216119A1 (zh) * | 2022-05-10 | 2023-11-16 | 北京小米移动软件有限公司 | 音频信号编码方法、装置、电子设备和存储介质 |
CN115334349A (zh) * | 2022-07-15 | 2022-11-11 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN115334349B (zh) * | 2022-07-15 | 2024-01-02 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN117793078A (zh) * | 2024-02-27 | 2024-03-29 | 腾讯科技(深圳)有限公司 | 一种音频数据的处理方法、装置、电子设备和存储介质 |
CN117793078B (zh) * | 2024-02-27 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 一种音频数据的处理方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20230046509A1 (en) | 2023-02-16 |
EP4239630A1 (en) | 2023-09-06 |
WO2022213787A1 (zh) | 2022-10-13 |
JP2024501933A (ja) | 2024-01-17 |
CN112767956B (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112767956B (zh) | 音频编码方法、装置、计算机设备及介质 | |
CN110223705B (zh) | 语音转换方法、装置、设备及可读存储介质 | |
CN108900725B (zh) | 一种声纹识别方法、装置、终端设备及存储介质 | |
CN112185363B (zh) | 音频处理方法及装置 | |
WO2022227935A1 (zh) | 语音识别方法、装置、设备、存储介质及程序产品 | |
CN112750462A (zh) | 一种音频处理方法、装置及设备 | |
CN114338623B (zh) | 音频的处理方法、装置、设备及介质 | |
CN111245734B (zh) | 音频数据传输方法、装置、处理设备及存储介质 | |
CN111863033A (zh) | 音频质量识别模型的训练方法、装置、服务器和存储介质 | |
US11687576B1 (en) | Summarizing content of live media programs | |
CN112767955A (zh) | 音频编码方法及装置、存储介质、电子设备 | |
CN113823303A (zh) | 音频降噪方法、装置及计算机可读存储介质 | |
CN116798405A (zh) | 语音合成方法、装置、存储介质和电子设备 | |
US20180082703A1 (en) | Suitability score based on attribute scores | |
EP4040436A1 (en) | Speech encoding method and apparatus, computer device, and storage medium | |
CN115171707A (zh) | 语音流丢包补偿方法及其装置、设备、介质、产品 | |
CN114842857A (zh) | 语音处理方法、装置、系统、设备及存储介质 | |
Baskaran et al. | Dominant speaker detection in multipoint video communication using Markov chain with non-linear weights and dynamic transition window | |
CN111951821A (zh) | 通话方法和装置 | |
CN117854509B (zh) | 一种耳语说话人识别模型训练方法和装置 | |
CN114078464B (zh) | 音频处理方法、装置及设备 | |
CN116580716B (zh) | 音频编码方法、装置、存储介质及计算机设备 | |
US11011174B2 (en) | Method and system for determining speaker-user of voice-controllable device | |
US20240127838A1 (en) | Media segment prediction for media generation | |
Issing | Adaptation to Varying Network Conditions and Conversation Patterns for Robust High Quality Audio Communication over the Internet Protocol |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40043822 Country of ref document: HK |