CN112767953B - 语音编码方法、装置、计算机设备和存储介质 - Google Patents
语音编码方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112767953B CN112767953B CN202010585545.9A CN202010585545A CN112767953B CN 112767953 B CN112767953 B CN 112767953B CN 202010585545 A CN202010585545 A CN 202010585545A CN 112767953 B CN112767953 B CN 112767953B
- Authority
- CN
- China
- Prior art keywords
- frame
- voice frame
- encoded
- voice
- code rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000004364 calculation method Methods 0.000 claims description 81
- 230000006870 function Effects 0.000 claims description 53
- 230000008859 change Effects 0.000 claims description 44
- 238000001514 detection method Methods 0.000 claims description 44
- 238000005070 sampling Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 13
- 230000035772 mutation Effects 0.000 claims description 4
- 230000001105 regulatory effect Effects 0.000 abstract description 9
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Abstract
本申请涉及一种语音编码方法、装置、计算机设备和存储介质。所述方法包括:提取待编码语音帧对应的待编码语音帧特征,基于待编码语音帧特征得到待编码语音帧对应的待编码语音帧关键性;提取后向语音帧对应的后向语音帧特征,基于后向语音帧特征得到后向语音帧对应的后向语音帧关键性;基于待编码语音帧关键性和后向语音帧关键性获取关键性趋势特征,使用关键性趋势特征确定待编码语音帧对应的编码码率;根据编码码率对待编码语音帧进行编码,得到编码结果。采用本方法能够使能够每个待编码语音帧都有调控好的编码码率,然后根据调控好的编码码率进行编码,从而有效提升编码质量。
Description
技术领域
本申请涉及互联网技术领域,特别是涉及一种语音编码方法、装置、计算机设备和存储介质。
背景技术
随着通讯技术的发展,语音编解码在现代通讯系统中占有重要的地位。目前在非实时的语音编解码应用场景中,比如会议录音、音频广播等等,通常是预先设置好语音编码的码率参数,在进行编码时,使用预先设置好的码率参数进行语音编码,然而,目前的使用预先设置好的码率参数进行语音编码的方式,可能存在冗余编码,导致编码质量低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够自适应控制各个待编码语音帧对应的编码码率,避免冗余编码,为各个待编码语音帧分配匹配的编码码率,提高语音编码质量的语音编码方法、装置、计算机设备和存储介质。
一种语音编码方法,所述方法包括:
获取待编码语音帧,及与待编码语音帧对应的后向语音帧;
提取待编码语音帧对应的待编码语音帧特征,基于待编码语音帧特征得到待编码语音帧对应的待编码语音帧关键性;
提取后向语音帧对应的后向语音帧特征,基于后向语音帧特征得到后向语音帧对应的后向语音帧关键性;
基于待编码语音帧关键性和后向语音帧关键性获取关键性趋势特征,使用关键性趋势特征确定待编码语音帧对应的编码码率;
根据编码码率对待编码语音帧进行编码,得到编码结果。
在一个实施例中,根据编码码率对待编码语音帧进行编码,得到编码结果,包括:
将编码码率通过接口传入标准编码器,得到编码结果,标准编码器用于使用编码码率对待编码语音帧进行编码。
一种语音编码装置,所述装置包括:
语音帧获取模块,用于获取待编码语音帧,及与待编码语音帧对应的后向语音帧;
第一关键性计算模块,用于提取待编码语音帧对应的待编码语音帧特征,基于待编码语音帧特征得到待编码语音帧对应的待编码语音帧关键性;
第二关键性计算模块,用于提取后向语音帧对应的后向语音帧特征,基于后向语音帧特征得到后向语音帧对应的后向语音帧关键性;
码率计算模块,用于基于待编码语音帧关键性和后向语音帧关键性获取关键性趋势特征,使用关键性趋势特征确定待编码语音帧对应的编码码率;
编码模块,用于根据编码码率对待编码语音帧进行编码,得到编码结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待编码语音帧,及与待编码语音帧对应的后向语音帧;
提取待编码语音帧对应的待编码语音帧特征,基于待编码语音帧特征得到待编码语音帧对应的待编码语音帧关键性;
提取后向语音帧对应的后向语音帧特征,基于后向语音帧特征得到后向语音帧对应的后向语音帧关键性;
基于待编码语音帧关键性和后向语音帧关键性获取关键性趋势特征,使用关键性趋势特征确定待编码语音帧对应的编码码率;
根据编码码率对待编码语音帧进行编码,得到编码结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待编码语音帧,及与待编码语音帧对应的后向语音帧;
提取待编码语音帧对应的待编码语音帧特征,基于待编码语音帧特征得到待编码语音帧对应的待编码语音帧关键性;
提取后向语音帧对应的后向语音帧特征,基于后向语音帧特征得到后向语音帧对应的后向语音帧关键性;
基于待编码语音帧关键性和后向语音帧关键性获取关键性趋势特征,使用关键性趋势特征确定待编码语音帧对应的编码码率;
根据编码码率对待编码语音帧进行编码,得到编码结果。
上述语音编码方法、装置、计算机设备和存储介质,通过获取待编码语音帧,及与待编码语音帧对应的后向语音帧,分别计算待编码语音帧对应的待编码语音帧关键性和后向语音帧对应的后向语音帧关键性,然后根据待编码语音帧关键性和后向语音帧关键性获取关键性趋势特征,使用关键性趋势特征确定待编码语音帧对应的编码码率,从而使用编码码率进行编码,得到编码结果,即可以根据语音帧的关键性趋势特征来调控编码码率,使每个待编码语音帧都有调控好的编码码率,然后根据调控好的编码码率进行编码,从而可以在关键性趋势变强时,对待编码语音帧分配较高的编码码率进行编码,在关键性趋势变弱时,对待编码语音帧分配较低的编码码率进行编码,使得能够自适应的控制各个待编码语音帧对应的编码码率,避免冗余编码,提高语音编码质量。
附图说明
图1为一个实施例中语音编码方法的应用环境图;
图2为一个实施例中语音编码方法的流程示意图;
图3为一个实施例中特征提取的流程示意图;
图4为一个实施例中计算待编码语音帧关键性的流程示意图;
图5为一个实施例中计算编码码率的流程示意图;
图6为一个实施例中得到关键性差异程度的流程示意图;
图7为一个实施例中确定编码码率的流程示意图;
图8为一个具体实施例中计算待编码语音帧关键性的流程示意图;
图9为图8具体实施例中计算后向语音帧关键性的流程示意图;
图10为图8具体实施例中得到编码结果的流程示意图;
图11为一个具体实施例中广播音频的流程示意图;
图12为一个具体实施例中语音编码方法的应用环境图;
图13为一个实施例中语音编码装置的结构框图;
图14为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的语音编码方法,可以应用于如图1所示的应用环境中。其中,终端102采集用户发出的声音信号。终端102获取待编码语音帧,及与待编码语音帧对应的后向语音帧;提取待编码语音帧对应的待编码语音帧特征,终端102基于待编码语音帧特征得到待编码语音帧对应的待编码语音帧关键性;终端102提取后向语音帧对应的后向语音帧特征,基于后向语音帧特征得到后向语音帧对应的后向语音帧关键性;终端102基于待编码语音帧关键性和后向语音帧关键性获取关键性趋势特征,使用关键性趋势特征确定待编码语音帧对应的编码码率;终端102根据编码码率对待编码语音帧进行编码,得到编码结果。其中,终端102可以但不限于是各种具有录音功能的个人计算机、具有录音功能的笔记本电脑、具有录音功能的智能手机、具有录音功能的平板电脑和音频广播。可以理解的是,该语音编码方法也可以应用于服务器,还可以应用于包括终端和服务器的系统中。
在一个实施例中,如图2所示,提供了一种语音编码方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤202,获取待编码语音帧,及与待编码语音帧对应的后向语音帧。
其中,语音帧是语音进行分帧后得到的。待编码语音帧是指当前需要进行编码的语音帧。后向语音帧是指待编码语音帧对应的未来时间的语音帧,是指在待编码语音帧后采集到的语音信号。
具体地,终端可以通过语言采集装置采集语音信号,该语音采集装置可以是麦克风。终端将采集到的语音信号转换为数字信号,然后从数字信号中获取到待编码语音帧,及与待编码语音帧对应的后向语音帧。其中,后向语音帧可以有多个。比如,获取的后向语音帧的数量为3帧。终端也可获取到内存中预先存储到的语音信号,将语音信号转换为数字信号,然后从数字信号中获取到待编码语音帧,及与待编码语音帧对应的后向语音帧。终端还可以从互联网(internet)中下载到语音信号,将语音信号转换为数字信号,然后从数字信号中获取到待编码语音帧,及与待编码语音帧对应的后向语音帧。终端还可以获取到其他终端或者服务器发送的语音信号,将语音信号转换为数字信号,然后从数字信号中获取到待编码语音帧,及与到待编码语音帧对应的后向语音帧。
步骤204,提取待编码语音帧对应的待编码语音帧特征,基于待编码语音帧特征得到待编码语音帧对应的待编码语音帧关键性。
其中,语音帧特征是指用于衡量该语音帧声音质量高低的特征。语音帧特征包括但不限于语音起始帧特征、能量变化特征、基音周期突变帧特征和非语音帧特征。语音起始帧特征是指该语音帧是否为语音信号开始的语音帧对应的特征。能量变化特征是指当前语音帧对应的帧能量相对比与前一语音帧对应的帧能量变化的特征。基音周期突变帧特征是指该语音帧对应的基音周期的特征。非语音帧特征是指该语音帧为噪声语音帧时对应的特征。待编码语音帧特征是指待编码语音帧对应的语音帧特征。语音帧关键性是指该语音帧声音质量高低对其前后一段时间内的整体语音音质的贡献程度,贡献程度越高,对应的语音帧关键性越高。待编码语音帧关键性是指待编码语音帧对应的语音帧关键性。
具体地,终端根据待编码语音帧对应的语音帧类型提取到待编码语音帧对应的待编码语音帧特征,语音帧类型可以包括语音起始帧、能量突增帧、基音周期突变帧和非语音帧中的至少一种。
当该待编码语音帧为语音起始帧时,根据语音起始帧得到对应的语音起始帧特征。当待编码语音帧为能量突增帧时,根据能量突增帧得到对应的能量变化特征。当待编码语音帧为基音周期突变帧时,根据基音周期突变帧得到对应的基音周期突变帧特征。当待编码语音帧为非语音帧时,根据非语音帧得到对应的非语音帧特征。
然后基于提取到的待编码语音帧特征进行加权计算得到待编码语音帧对应的待编码语音帧关键性。其中,可以对语音起始帧特征、能量变化特征和基音周期突变帧特征进行正向加权计算得到正向的待编码语音帧关键性,对非语音帧特征进行反向加权计算得到反向的待编码语音帧关键性,根据正向的待编码语音帧关键性和反向的待编码语音帧关键性得到最终的待编码语音帧对应的语音帧关键性。
步骤206,提取后向语音帧对应的后向语音帧特征,基于后向语音帧特征得到后向语音帧对应的后向语音帧关键性。
其中,后向语音帧特征是指后向语音帧对应的语音帧特征,每个后向语音帧都有对应的后向语音帧特征。后向语音帧关键性是指后向语音帧对应的语音帧关键性。
具体地,终端根据后向语音帧的语音帧类型提取后向语音帧对应的后向语音帧特征,当该后向语音帧为语音起始帧时,根据语音起始帧得到对应的语音起始帧特征。当后向语音帧为能量突增帧时,根据能量突增帧得到对应的能量变化特征。当后向语音帧为基音周期突变帧时,根据基音周期突变帧得到对应的基音周期突变帧特征。当后向语音帧为非语音帧时,根据非语音帧得到对应的非语音帧特征
然后基于后向语音帧特征进行加权计算得到后向语音帧对应的后向语音帧关键性。其中,可以对语音起始帧特征、能量变化特征和基音周期突变帧特征进行正向加权计算得到正向的后向语音帧关键性,对非语音帧特征进行反向加权计算得到反向的后向语音帧关键性,根据正向的后向语音帧关键性和反向的后向语音帧关键性得到最终的后向语音帧对应的语音帧关键性。
在一个具体的实施例中,在计算待编码语音帧对应的待编码语音帧关键性和后向语音帧对应的后向语音帧关键性时,可以分别将待编码语音帧特征和后向语音帧特征输入到关键性度量模型中进行计算,得到待编码语音帧关键性和后向语音帧对。其中,关键性度量模型是根据历史语音帧特征和历史语音帧关键性使用线性回归算法建立的模型并部署在终端中的。通过关键性度量模型来识别语音帧关键性,能够提高准确性和效率。
步骤208,基于待编码语音帧关键性和后向语音帧关键性获取关键性趋势特征,使用关键性趋势特征确定待编码语音帧对应的编码码率。
其中,关键性趋势是指待编码语音帧和对应的后向语音帧的语音帧关键性的趋势,比如,语音帧关键性越来越高或者语音帧关键性越来越低或者语音帧关键性没有变化。关键性趋势特征是指反映关键性趋势的特征,可以是统计学特征,比如关键性的平均、关键性的差异等等。编码码率用于对待编码语音帧进行编码。
具体地,终端基于待编码语音帧关键性和后向语音帧关键性得到关键性趋势特征,比如,计算待编码语音帧关键性和后向语音帧关键性的统计特征,将计算得到的统计特征作为关键性趋势特征,统计特征可以包括平均语音帧关键性特征、中位数语音帧关键性特征、标准差语音帧关键性特征、众数语音帧关键性特征、极差语音帧关键性特征和语音帧关键性差值特征中的至少一种。使用关键性趋势特征和预先设置好的码率计算函数来计算待编码语音帧对应的编码码率,其中,码率计算函数为单调递增函数,可以根据需求自定义。每一个关键性趋势特征可以有对应的码率计算函数,也可以使用相同的码率计算函数。
步骤210,根据编码码率对待编码语音帧进行编码,得到编码结果。
具体地,当得到编码码率时,使用该编码码率对待编码语音帧进行编码,得到编码结果,该编码结果是指待编码语音帧对应的码流数据。终端可以将码流数据存储到内存中,也可以将码流数据发送到服务器中进行保存。其中,可以通过语音编码器进行编码。
在一个实施例中,当需要播放采集的语音时,获取到保存的码流数据,将码率数据进行解码,最终通过终端的语音播放装置比如扬声器进行播放。
上述语音编码方法中,通过获取待编码语音帧,及与待编码语音帧对应的后向语音帧,分别计算待编码语音帧对应的待编码语音帧关键性和后向语音帧对应的后向语音帧关键性,然后根据待编码语音帧关键性和后向语音帧关键性获取关键性趋势特征,使用关键性趋势特征确定待编码语音帧对应的编码码率,从而使用编码码率进行编码,得到编码结果,即可以根据语音帧的关键性趋势特征来调控编码码率,使每个待编码语音帧都有调控好的编码码率,然后根据调控好的编码码率进行编码,从而可以在关键性趋势变强时,对待编码语音帧分配较高的编码码率进行编码,在关键性趋势变弱时,对待编码语音帧分配较低的编码码率进行编码,使得能够自适应的控制各个待编码语音帧对应的编码码率,避免冗余编码,提高语音编码质量。
在一个实施例中,待编码语音帧特征和后向语音帧特征包括语音起始帧特征和非语音帧特征,如图3所示,语音起始帧特征和非语音帧特征的提取包括以下步骤:
步骤302,获取待提取语音帧,待提取语音帧为待编码语音帧或者为后向语音帧。
步骤304a,基于待提取语音帧进行语音端点检测,得到语音端点检测结果。
其中,待提取语音帧是指需要提取语音帧特征的语音帧,可以是待编码语音帧或者后向语音帧。语音端点检测是指使用语音端点检测(vad,Voice Activity Detection)算法检测语音信号当中的语音起始端点,即语音信号从0到1的跳变点。语音端点检测算法可以是基于子带信噪比判决算法、基于DNN(Deep Neural Networks,深度神经网络)的语音帧判决算法、基于短时能量的语音端点检测算法和基于双门限的语音端点检测算法等等。语音端点检测结果是指待提取语音帧是否为语音端点的检测结果。
具体地,服务器对待提取语音帧使用语音端点检测算法进行语音端点检测,得到语音端点检测结果。
步骤306a,当语音端点检测结果为语音起始端点时,确定待提取语音帧对应的语音起始帧特征为第一目标值和/或待提取语音帧对应的非语音帧特征为第二目标值。
其中,语音起始端点是指该待提取语音帧是语音信号的起始。第一目标值用于表征语音起始帧特征为语音起始端点,第二目标值用于表征非语音帧特征为语音起始端点。比如,第一目标值可以为1,第二目标值可以为0。
具体地,当语音端点检测结果为语音起始端点时,得到待提取语音帧对应的语音起始帧特征为第一目标值和待提取语音帧对应的非语音帧特征为第二目标值。在一个实施例中,当语音端点检测结果为语音起始端点时,得到待提取语音帧对应的语音起始帧特征为第一目标值或者待提取语音帧对应的非语音帧特征为第二目标值。
步骤308a,当语音端点检测结果为非语音起始端点时,确定待提取语音帧对应的语音起始帧特征为第二目标值和/或待提取语音帧对应的非语音帧特征为第一目标值。
其中,非语音起始端点是指待提取语音帧不是语音信号的起始点,即该待提取语音帧是语音信号之前的噪音信号。
具体地,当语音端点检测结果为非语音起始端点时,直接将第二目标值作为待提取语音帧对应的语音起始帧特征,并将第一目标值作为待提取语音帧对应的非语音帧特征。在一个实施例中,当语音端点检测结果为非语音起始端点时,直接将第二目标值作为待提取语音帧对应的语音起始帧特征,或者将第一目标值作为待提取语音帧对应的非语音帧特征。
在上述实施例中,通过对待提取语音帧进行语音端点检测,从而得到语音起始帧特征和非语音帧特征,提高了效率和准确性。
在一个实施例中,待编码语音帧特征和后向语音帧特征包括能量变化特征,如图3所示,能量变化特征的提取包括以下步骤:
步骤302,获取待提取语音帧,待提取语音帧为待编码语音帧或者为后向语音帧。
步骤304b,获取待提取语音帧对应的前向语音帧,计算待提取语音帧对应的待提取帧能量,并计算前向语音帧对应的前向帧能量。
其中,前向语音帧是指待提取语音帧的前一帧,是在获取到待提取语音帧之前已经获取到的语音帧。比如,待提取帧是第8帧,则前向语音帧可以是第7帧。帧能量用于反映该语音帧信号的强弱程度。待提取帧能量是指待提取语音帧对应的帧能量。前向帧能量是指前向语音帧对应的帧能量。
具体地,终端获取待提取语音帧,待提取语音帧为待编码语音帧或者为后向语音帧,获取待提取语音帧对应的前向语音帧,计算待提取语音帧对应的待提取帧能量,并同时计算前向语音帧对应的前向帧能量,其中,可以通过计算待提取语音帧或者前向语音帧中所有数字信号的平方和,得到待提取帧能量或者前向帧能量。也可以从待提取语音帧或者前向语音帧中所有数字信号中进行采样,计算采样数据的平方和,得到待提取帧能量或者前向帧能量。
步骤306c,计算待提取帧能量和前向帧能量的比值,根据比值结果确定待提取语音帧对应的能量变化特征。
具体地,终端计算待提取帧能量和前向帧能量的比值,根据比值结果确定待提取语音帧对应的能量变化特征。其中,当比值结果大于预设阈值时,说明该待提取语音帧的帧能量相比于前一帧的帧能量变化较大,则对应的能量变化特征为1,当比值结果未大于预设阈值时,说明该待提取语音帧相比于前一帧的帧能量变化较小,则对应的能量变化特征为0。在一个实施例中,可以根据比值结果和待提取帧能量确定待提取语音帧对应的能量变化特征,其中,当待提取帧能量大于预设帧能量,且比值结果大于预设阈值时,说明该待提取语音帧为帧能量突然增大的语音帧帧,则对应的能量变化特征为1,当待提取帧能量未大于预设帧能量或者比值结果未大于预设阈值时,说明该待提取语音帧不是帧能量突然增大的语音帧帧,则对应的能量变化特征为0。该预设阈值是指预先设置好的数值,比如,比值结果高于预设倍数。预设帧能量为预先设置好的帧能量阈值。
在上述实施例中,通过计算待提取帧能量和前向帧能量,根据待提取帧能量和前向帧能量确定待提取语音帧对应的能量变化特征,提高了得到能量变化特征的准确性。
在一个实施例中,计算待提取语音帧对应的待提取帧能量,包括
基于待提取语音帧进行数据采样,得到各个样点数据值和样点数量。计算各个样点数据值的平方和,并计算平方和与样点数量的比值,得到待提取帧能量。
其中,样点数据值从待提取语音帧进行采样得到的数据。样点数量是指采用得到的样点数据的总数。
具体地,终端对待提取语音帧进行数据采样,得到各个样点数据值和样点数量。计算各个样点数据值的平方和,然后计算平方和与样点数量的比值,将比值作为待提取帧能量。可以使用如下公式(1)计算待提取帧能量:
其中,m为样点数量,x为样点数据值,第i个样点数据值为x(i)。
在一个具体地实施例中,将20ms作为一帧,采样率为16khz。则进行数据采样后会得到320个样点数据值。每个样点数据值为16为有符合数,取值范围为[-32768,32767],如图第i个样点数据值为x(i),则计算该帧的帧能量为
在一个实施例中,终端基于前向语音帧进行数据采样,得到各个样点数据值和样点数量;计算各个样点数据值的平方和,并计算平方和与样点数量的比值,得到前向帧能量。其中,终端可以使用公式(1)计算前向语音帧对应的前向帧能量。
在上述实施例中,通过对语音帧进行数据采样,然后根据样点数据和样点数量计算帧能量,能够提高得到帧能量的效率。
在一个实施例中,待编码语音帧特征和后向语音帧特征包括基音周期突变帧特征,如图3所述,基音周期突变帧特征的提取包括以下步骤:
步骤302,获取待提取语音帧,待提取语音帧为待编码语音帧或者为后向语音帧;
步骤304c,获取待提取语音帧对应的前向语音帧,检测待提取语音帧和前向语音帧的基音周期,得到待提取基音周期和前向基音周期。
其中,基音周期是指是声带每开启和闭合一次的时间。待提取基音周期是指待提取语音帧对应的基音周期,即是待编码语音帧对应的基音周期或者是后向语音帧对应的基音周期。
具体地,终端获取到待提取语音帧,该待提取语音帧可以是待编码语音帧或者可以是后向语音帧。然后获取到待提取语音帧对应的前向语音帧,使用基音周期检测算法分别检测待提取语音帧和前向语音帧对应的基音周期,得到待提取基音周期和前向基音周期。其中,基音周期检测算法可以分为非基于时间的基音周期检测方法和基于时间的基音周期检测方法,非基于时间的基音周期检测方法包括自相关函数法、平均幅度差函数法和倒谱方法等,基于时间的基音周期检测方法包括波形估计法、相关处理法和变换法等。
步骤306c,根据待提取基音周期和前向基音周期计算基音周期变化程度,根据基音周期变化程度确定待提取语音帧对应的基音周期突变帧特征。
其中,基音周期变化程度用于反映前向语音帧与待提取语音帧之间基音周期的变化程度。
具体地,终端计算前向基音周期与待提取基音周期之间差值的绝对值,得到基音周期变化程度,当基音周期变化程度超过预设周期变化程度阈值时,说明待提取语音帧为基音周期突变帧,此时,得到的基音周期突变帧特征可以用“1”表示。当基音周期变化程度未超过预设周期变化程度阈值时,说明待提取语音帧的基音周期相比于前一帧未发生突变,此时,得到的基音周期突变帧特征可以用“0”表示。
在上述实施例中,通过检测得到前向基音周期与待提取基音周期,根据前向基音周期与待提取基音周期得到基音周期突变帧特征,提高了得到基音周期突变帧特征的准确性。
在一个实施例中,如图4所示,步骤204,即基于待编码语音帧特征得到待编码语音帧对应的待编码语音帧关键性,包括:
步骤402,从待编码语音帧特征中确定正向待编码语音帧特征,对正向待编码语音帧特征进行加权计算,得到正向待编码语音帧关键性,正向待编码语音帧特征包括语音起始帧特征、能量变化特征和基音周期突变帧特征中的至少一种。
其中,正向待编码语音帧特征是指语音帧特征与语音帧关键性呈正向关系的特征,包括语音起始帧特征、能量变化特征和基音周期突变帧特征中的至少一种。正向待编码语音帧特征越明显则语音帧关键性越高。正向待编码语音帧关键性是指根据正向待编码语音帧特征得到的语音帧关键性。
具体地,终端从各个待编码语音帧特征中确定正向待编码语音帧特征,获取到预先设置好的各个正向待编码语音帧特征对应的权重,对每个正向待编码语音帧特征进行加权计算,然后统计加权计算结果,得到正向待编码语音帧关键性。
步骤404,从待编码语音帧特征中确定反向待编码语音帧特征,根据反向待编码语音帧特征确定反向待编码语音帧关键性,反向待编码语音帧特征包括非语音帧特征。
其中,反向待编码语音帧特征是指语音帧特征与语音帧关键性呈反向关系的特征,包括非语音帧特征。反向待编码语音帧特征越明显则语音帧关键性越低。反向待编码语音帧关键性是指根据反向待编码语音帧特征得到的语音帧关键性。
具体地,终端从待编码语音帧特征中确定反向待编码语音帧特征,根据反向待编码语音帧特征确定反向待编码语音帧关键性。在一个具体的实施例中,当非语音帧特征为1时,说明该语音帧为噪声,此时,噪声的语音帧关键性就为0。当非语音帧特征为0时,说明该语音帧为采集的语音。此时,噪声的语音帧关键性就为1.
步骤406,基于正向待编码语音帧关键性和预设正向权重计算得到正向关键性,基于反向待编码语音帧关键性和预设反向权重计算得到反向关键性,基于所述正向关键性和所述反向关键性得到待编码语音帧对应的待编码语音帧关键性。
其中,预设正向权重是指预先设置好的正向待编码语音帧关键性的权重,预设反向权重是指预先设置好的反向待编码语音帧关键性的权重。
具体地,终端计算正向待编码语音帧关键性和预设正向权重的乘积得到正向关键性,计算反向待编码语音帧关键性和预设反向权重的乘积得到反向关键性,将正向关键性和反向关键性相加得到待编码语音帧对应的待编码语音帧关键性。也可以比如可以计算正向关键性和反向关键性的乘积,得到待编码语音帧关键性。在一个具体的实施例中,可以使用如下公式(2)计算待编码语音帧对应的待编码语音帧关键性。
r=b+(1-r4)*(w1*r1+w2*r2+w3*r3)公式(2)
其中,r为待编码语音帧关键性,r1为语音起始帧特征,r2为能量变化特征,r3为基音周期突变帧特征,w为预先设置好的权重,w1为语音起始帧特征对应的权重,w2为能量变化特征对应的权重,w3为基音周期突变帧特征对应的权重。w1*r1+w2*r2+w3*r3为正向待编码语音帧关键性。r4为非语言帧特征,(1-r4)为反向待编码语音帧关键性。b为常数且为正数,为正向偏置。其中,b具体可以为0.1,w1、w2和w3具体可以都为0.3。
在一个实施例中,也可以使用公式(2)根据后向语音帧特征计算得到后向语音帧对应的后向语音帧关键性。具体来说:对后向语音帧对应的语音起始帧特征、能量变化特征和基音周期突变帧特征进行加权计算,得到后向语音帧对应的正向关键性。根据后向语音帧对应的非语音帧特征确定后向语音帧对应的反向关键性。基于正向关键性和反向关键性计算得到后向语音帧对应的后向语音帧关键性。
在上述实施例中,通过从待编码语音帧特征中确定正向待编码语音帧特征和反向待编码语音帧特征,然后分别计算得到对应的正向待编码语音帧关键性和反向待编码语音帧关键性,最后得到待编码语音帧关键性,提高了得到待编码语音帧关键性的准确性。
在一个实施例中,基于待编码语音帧关键性和后向语音帧关键性获取关键性趋势特征,使用关键性趋势特征确定待编码语音帧对应的编码码率,包括:
获取前向语音帧关键性,基于前向语音帧关键性、待编码语音帧关键性和后向语音帧关键性获取目标关键性趋势特征,使用目标关键性趋势特征确定待编码语音帧对应的编码码率。
其中,前向语音帧是指待编码语音帧之前的已经编码的语音帧。前向语音帧关键性是指前向语音帧对应的语音帧关键性。
具体地,终端可以获取到前向语音帧关键性,计算前向语音帧关键性、待编码语音帧关键性和后向语音帧关键性的关键性平均程度,计算前向语音帧关键性、待编码语音帧关键性和后向语音帧关键性的关键性差异程度,根据关键性平均程度和关键性差异程度得到目标关键性趋势特征,使用目标关键性趋势特征确定待编码语音帧对应的编码码率。其中,计算2个前向语音帧的前向语音帧关键性,待编码语音帧关键性和3个后向语音帧的后向语音帧关键性的关键性总和,计算关键性之和与6个语音帧的比值,得到关键性平均程度。计算2个前向语音帧的前向语音帧关键性和待编码语音帧关键性的和,得到关键性部分和,并计算关键性总和与关键性部分和的差值,得到关键性差异程度,从而得到目标关键性趋势特征。
在上述实施例中,通过使用前向语音帧关键性、待编码语音帧关键性和后向语音帧关键性获取目标关键性趋势特征,进而使用目标关键性趋势特征确定待编码语音帧对应的编码码率,使得到的待编码语音帧对应的编码码率更为准确。
在一个实施例中,如图5所示,步骤208,基于待编码语音帧关键性和后向语音帧关键性获取关键性趋势特征,使用关键性趋势特征确定待编码语音帧对应的编码码率,包括:
步骤502,基于待编码语音帧关键性和后向语音帧关键性计算关键性差异程度和关键性平均程度。
其中,关键性差异程度用于反映后向语音帧与待编码语音帧之间关键性的差异。关键性平均程度用于反映待编码语音帧和后向语音帧的关键性均值。
具体地,服务器基于待编码语音帧关键性和后向语音帧关键性进行统计计算,即计算待编码语音帧关键性和后向语音帧关键性的平均关键性,得到关键性平均程度,并计算待编码语音帧关键性和后向语音帧关键性的综合与待编码语音帧关键性的差值,得到关键性差异程度。
步骤504,根据关键性差异程度和关键性平均程度计算得到待编码语音帧对应的编码码率。
具体地,获取到预先设置好的码率计算函数,根据关键性差异程度和关键性平均程度使用码率计算函数来计算待编码语音帧对应的编码码率。其中,码率计算函数用于计算编码码率,是单调递增函数,可以根据应用场景的需要进行自定义。可以根据关键性差异程度对应的码率计算函数计算出码率同时根据关键性平均程度对应的码率计算函数计算出码率,然后再计算码率之和得到待编码语音帧对应的编码码率。也可以使用相同的码率计算函数计算关键性差异程度和关键性平均程度对应的码率,然后计算码率之和得到待编码语音帧对应的编码码率。
在上述实施例中,通过计算得到后向语音帧与待编码语音帧之间的关键性差异程度和关键性平均程度,根据关键性差异程度和关键性平均程度计算得到待编码语音帧对应的编码码率,从而能够使得到的编码码率更加的精确。
在一个实施例中,如图6所示,步骤502,基于待编码语音帧关键性和后向语音帧关键性计算关键性差异程度,包括:
步骤602,计算待编码语音帧关键性与预设第一权重的第一加权值,并计算后向语音帧关键性与预设第二权重的第二加权值。
其中,预设第一权重是指预先设置好的待编码语音帧关键性对应的权重。预设第二权重是指后向语音帧关键性对应的权重,每个后向语音帧都有对应的后向语音帧关键性,每个后向语音帧关键性都有对应的权重。第一加权值是将待编码语音帧关键性进行加权后得到的值。第二加权值是指将后向语音帧关键性进行加权后得到的值
具体地,终端计算待编码语音帧关键性与预设第一权重的乘积,得到第一加权值,并计算后向语音帧关键性与预设第二权重的乘积,得到第二加权值。
步骤604,基于第一加权值和第二加权值计算得到目标加权值,计算目标加权值与待编码语音帧关键性的差值,得到关键性差异程度。
其中,目标加权值是指第一加权值与第二加权值的和。
具体地,终端计算第一加权值和第二加权值之间的和,得到目标加权值,然后计算出目标加权值与待编码语音帧关键性的差值,将该差值作为关键性差异程度。在一个具体的实施例中,可以使用公式(3)计算关键性差异程度:
其中,ΔR(i)是指关键性差异程度,N为待编码语音帧以及后向语音帧的总帧数。r(i)表示待编码语音帧对应的待编码语音帧关键性,r(j)表示第j个后向语音帧对应的后向语音帧关键性。a表示权重取值范围为(0,1),当j=0时,a0为预设第一权重,当j大于0时,aj为预设第二权重,可以有多个预设第二权重,每个后向语音帧对应的预设第二权重可以相同也可以不同,其中,aj可以随着j越大取值越大。表示目标加权值。在一个具体的实施例中,当后向语音帧有3帧时,N为4,a0可以为0.1,a1可以为0.2,a2可以为0.3,a3可以为0.4。
在上述实施例中,通过计算目标加权值,然后使用目标加权值与待编码语音帧关键性计算得到关键性差异程度,提高了得到关键性差异程度的准确性。
在一个实施例中,步骤502,基于待编码语音帧关键性和后向语音帧关键性计算关键性平均程度,包括:
获取待编码语音帧和后向语音帧的帧数量。统计待编码语音帧关键性与后向语音帧关键性得到综合关键性,并计算综合关键性与帧数量的比值,得到关键性平均程度。
其中,帧数量是指待编码语音帧和后向语音帧的总帧数,比如,当后向语音帧有3帧时,得到的总帧数为4。
具体地,终端获取到待编码语音帧和后向语音帧的帧数量。统计待编码语音帧关键性与后向语音帧关键性之和,得到综合关键性。然后计算综合关键性与帧数量的比值,得到关键性平均程度。在一个具体的实施例中,可以使用公式(4)计算关键性平均程度:
其中,为关键性平均程度,N是指待编码语音帧和后向语音帧的帧数量。r是指语音帧关键性,r(i)用于表示待编码语音帧对应的待编码语音帧关键性,r(j)用于表示第j个后向语音帧对应的后向语音帧关键性。
在上述实施例中,通过待编码语音帧和后向语音帧的帧数量和综合关键性计算得到关键性平均程度,提高了得到关键性平均程度的准确性。
在一个实施例中,如图7所示,步骤504,即根据关键性差异程度和关键性平均程度计算得到待编码语音帧对应的编码码率,包括:
步骤702,获取第一码率计算函数和第二码率计算函数。
步骤704,使用关键性平均程度和第一码率计算函数计算得到第一码率,并使用关键性差异程度和第二码率计算函数计算得到第二码率,根据第一码率和第二码率确定综合码率,其中,第一码率与关键性平均程度成正比关系,第二码率与关键性才艺程度成正比关系。
其中,第一码率计算函数是预先设置好的使用关键性平均程度计算码率的函数,第二码率计算函数是预先设置好的使用关键性差异程度计算码率的函数,其中,第一码率计算函数和第二码率计算函数可以根据应用场景具体需要进行设置。第一码率是指使用第一码率计算函数计算得到的码率。第二码率是指使用第二码率计算函数计算得到的码率。综合码率是指综合第一码率和第二码率后得到的码率,比如,可以计算第一码率和第二码率的和,将和作为综合码率。
具体地,终端获取到预先设置好的第一码率计算函数和第二码率计算函数,然后关键性平均程度和关键性差异程度分别进行计算,得到第一码率和第二码率,然后计算第一码率和第二码率的和,将和作为综合码率。
在一个具体的实施例中,可以使用公式(5)计算综合码率。
其中,为关键性平均程度,ΔR(i)为关键性差异程度,f1()为第一码率计算函数,f2()为第二码率计算函数。使用/>计算得到第一码率,使用f2(ΔR(i))计算得到第二码率。
在一个具体的实施例中,可以使用公式(6)作为第一码率计算函数,使用公式(7)作为第二码率计算函数。
其中,p0、c0、b0、p1、c1和b1均为常数,且为正数。
步骤706,获取预设码率上限值和预设码率下限值,基于预设码率上限值、预设码率下限值和综合码率确定编码码率。
具体地,预设码率上限值是指预先设置好的语音帧编码码率的最大值,预设码率下限值是指预先设置好的语音帧编码码率的最小值。终端获取到预设码率上限值和预设码率下限值,将预设码率上限值和预设码率下限值与综合码率进行比较,根据比较结果确定最终的编码码率。
在上述实施例中,通过使用第一码率计算函数和第二码率计算函数计算得到第一码率和第二码率,然后根据第一码率和第二码率得到综合码率,提高了得到综合码率的准确性,最后根据预设码率上限值、预设码率下限值和综合码率确定编码码率,从而使得到的编码码率更加的准确。
在一个实施例中,步骤706,即基于预设码率上限值、预设码率下限值和综合码率确定编码码率,包括:
比较预设码率上限值和综合码率。当综合码率小于预设码率上限值时,比较预设码率下限值和综合码率。当综合码率大于预设码率下限值时,将综合码率作为编码码率。
具体地,终端比较预设码率上限值和综合码率,当综合码率小于预设码率上限值时,说明综合码率未超过预设码率上限值,此时,比较预设码率下限值和综合码率,当综合码率大于预设码率下限值时,说明综合码率超过了预设码率下限值,则直接将综合码率作为编码码率。在一个实施例中,比较预设码率上限值和综合码率,当综合码率大于预设码率上限值时,说明综合码率超过预设码率上限值,此时,直接将预设码率上限值作为编码码率。在一个实施例中,比较预设码率下限值和综合码率,当综合码率小于预设码率下限值时,说明综合码率未超过预设码率下限值,此时,将预设码率下限值作为编码码率。
在一个具体地实施例中,可以使用公式(8)得到编码码率:
其中,max_bitrate是指预设码率上限值。min_bitrate是指预设码率下限值。bitrate(i)表示待编码语音帧的编码码率。
在上述实施例中,通过预设码率上限值、预设码率下限值和综合码率来确定编码码率,从而保证语音帧的编码率在预设的码率范围内容,保证整体的语音编码质量。
在一个实施例中,步骤210,即根据编码码率对待编码语音帧进行编码,得到编码结果,包括:
将编码码率通过接口传入标准编码器,得到编码结果,标准编码器用于使用编码码率对待编码语音帧进行编码。
其中,标准编码器是指用于将待编码语音帧进行语音编码。接口是指标准编码器的外部接口,用于调控编码码率。
具体地,终端将编码码率通过接口传入标准编码器,标准编码器接收到编码码率时,获取到对应的待编码语音帧,使用编码码率对待编码语音帧进行编码,得到编码结果,从而保证得到准确无误的标准编码结果。
在一个具体的实施例中,提供一种语音编码方法,具体来说:
获取到获取待编码语音帧,及与所述待编码语音帧对应的后向语音帧。此时,并行计算待编码语音帧对应的待编码语音帧关键性和后向语音帧对应的后向语音帧关键性。
其中,如图8所示,得到待编码语音帧对应的待编码语音帧关键性包括以下步骤:
步骤802,基于待编码语音帧进行语音端点检测,得到语音端点检测结果,根据语音端点检测结果确定待编码语音帧对应的语音起始帧特征和待编码语音帧对应的非语音帧特征。
步骤804,获取待编码语音帧对应的前向语音帧,计算待编码语音帧对应的待编码帧能量,并计算前向语音帧对应的前向帧能量,计算待编码帧能量和前向帧能量的比值,根据比值结果确定待编码语音帧对应的能量变化特征。
步骤806,检测待编码语音帧和前向语音帧的基音周期,得到待编码基音周期和前向基音周期,根据待编码基音周期和前向基音周期计算基音周期变化程度,根据基音周期变化程度确定待编码语音帧对应的基音周期突变帧特征。
步骤808,从待编码语音帧特征中确定正向待编码语音帧特征,对正向待编码语音帧特征进行加权计算,得到正向待编码语音帧关键性。
步骤810,从待编码语音帧特征中确定反向待编码语音帧特征,根据反向待编码语音帧特征确定反向待编码语音帧关键性。
步骤812,基于正向待编码语音帧关键性和反向待编码语音帧关键性得到待编码语音帧对应的待编码语音帧关键性。
其中,如图9所示,得到后向语音帧对应的后向语音帧关键性包括以下步骤:
步骤902,基于后向语音帧进行语音端点检测,得到语音端点检测结果,根据语音端点检测结果确定后向语音帧对应的语音起始帧特征和后向语音帧对应的非语音帧特征。
步骤904,获取后向语音帧对应的前向语音帧,计算后向语音帧对应的后向帧能量,并计算前向语音帧对应的前向帧能量,计算后向帧能量和前向帧能量的比值,根据比值结果确定后向语音帧对应的能量变化特征。
步骤906,检测后向语音帧和前向语音帧的基音周期,得到后向基音周期和前向基音周期,根据后向基音周期和前向基音周期计算基音周期变化程度,根据基音周期变化程度确定后向语音帧对应的基音周期突变帧特征。
步骤908,对后向语音帧对应的语音起始帧特征、能量变化特征和基音周期突变帧特征进行加权计算,得到后向语音帧对应的正向关键性。
步骤910,根据后向语音帧对应的非语音帧特征确定后向语音帧对应的反向关键性。
步骤912,基于正向关键性和反向关键性得到后向语音帧对应的后向语音帧关键性。
当得到的待编码语音帧对应的待编码语音帧关键性和后向语音帧对应的后向语音帧关键性时,如图10所示,计算待编码语音帧对应的编码码率包括以下步骤:
步骤1002,计算待编码语音帧关键性与预设第一权重的第一加权值,并计算后向语音帧关键性与预设第二权重的第二加权值。
步骤1004,基于第一加权值和第二加权值计算得到目标加权值,计算目标加权值与待编码语音帧关键性的差值,得到关键性差异程度。
步骤1006,获取待编码语音帧和后向语音帧的帧数量,统计待编码语音帧关键性与后向语音帧关键性得到综合关键性,并计算综合关键性与帧数量的比值,得到关键性平均程度。
步骤1008,获取第一码率计算函数和第二码率计算函数。
步骤1010,使用关键性差异程度和第一码率计算函数计算得到第一码率,并使用关键性平均程度和第二码率计算函数计算得到第二码率,根据第一码率和第二码率确定综合码率。
步骤1012,比较预设码率上限值和综合码率,当综合码率小于预设码率上限值时,比较预设码率下限值和综合码率。
步骤1014,当综合码率大于预设码率下限值时,将综合码率作为编码码率。
步骤1016,将编码码率通过接口传入标准编码器,得到编码结果,标准编码器用于使用编码码率对待编码语音帧进行编码。
最后,将得到的编码结果进行保存。
本申请还提供一种应用场景,该应用场景应用上述的语音编码方法。具体地,该语音编码方法在该应用场景的应用如下:
如图11所示,为进行音频广播的流程示意图。此时,广播员进行广播时,麦克风采集到广播员播报的音频信号。此时,读取到音频信号中的多帧语音信号,该多帧语音信号中包括了当前待编码语音帧和3帧的后向语音帧。此时,进行多帧语音关键性的分析,具体来说:提取待编码语音帧对应的待编码语音帧特征,基于待编码语音帧特征得到待编码语音帧对应的待编码语音帧关键性。分别提取3帧后向语音帧对应的后向语音帧特征,基于后向语音帧特征得到每一帧后向语音帧对应的后向语音帧关键性。基于待编码语音帧关键性和每一帧后向语音帧关键性获取关键性趋势特征,使用关键性趋势特征确定待编码语音帧对应的编码码率。然后对编码码率进行设置,即通过外部接口对标准编码器中的码率调节为待编码语音帧对应的编码码率。此时,标准编码器使用待编码语音帧对应的编码码率对当前的待编码语音帧进行编码,得到码率数据,将码率数据进行存储,并在进行播放时,对码率数据进行解码,得到音频信号,通过扬声器播放音频信号,从而使广播的声音更加的清晰。
本申请还另外提供一种应用场景,该应用场景应用上述的语音编码方法。具体地,该语音编码方法在该应用场景的应用如下:
如图12所示,为进行语音交流沟通的应用场景图,包括终端1202,服务器1204以及终端1206,终端1202与服务器1204通过网络进行连接,服务器1204与终端1206通过网络进行连接。其中,用户A通过终端1202中的通讯应用向用户B的终端1206发送语音消息时,终端1202采集到用户A的语音信号,从该语音信号中获取到待编码语音帧和后向语音帧,然后提取待编码语音帧对应的待编码语音帧特征,基于待编码语音帧特征得到待编码语音帧对应的待编码语音帧关键性。提取后向语音帧对应的后向语音帧特征,基于后向语音帧特征得到后向语音帧对应的后向语音帧关键性。基于待编码语音帧关键性和后向语音帧关键性获取关键性趋势特征,使用关键性趋势特征确定待编码语音帧对应的编码码率,使用编码码率对待编码语音帧进行编码得到码流数据,将码流数据通过服务器1204发送到终端1206。当用户B通过终端1206中的通信应用播放用户A发送的语音时,将码率数据进行解码,得到对应的语音信号,将语音信号通过扬声器进行播放,由于提升了语音编码质量,从而使用户B听到的语音更加的清晰,并且节省了网络带宽资源。
本申请还另外提供一种应用场景,该应用场景应用上述的语音编码方法。具体地,该语音编码方法在该应用场景的应用如下:
在进行会议录音时通过麦克风采集到会议音频信号,从会议音频信号中确定获取到待编码语音帧和5帧后向语音帧,然后提取待编码语音帧对应的待编码语音帧特征,基于待编码语音帧特征得到待编码语音帧对应的待编码语音帧关键性。提取每个后向语音帧对应的后向语音帧特征,基于后向语音帧特征得到每个后向语音帧对应的后向语音帧关键性。基于待编码语音帧关键性和每个后向语音帧关键性获取关键性趋势特征,使用关键性趋势特征确定待编码语音帧对应的编码码率,使用编码码率对待编码语音帧进行编码得到码流数据,将码率数据保存到指定的服务器地址中,由于能够调控编码码率,从而能够降低整体的码率,从而节省了服务器的存储资源。后续会议用户其他用户要查看会议内容时,可以从服务器地址中获取到保存了码流数据,将码流数据进行解码,得到会议音频信号,将会议音频信号进行播放,从而能够使会议用户或者其他用户听到会议内容,方便使用。
应该理解的是,虽然图2-10的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-10中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图13所示,提供了一种语音编码装置1300,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:语音帧获取模块1302、第一关键性计算模块1304、第二关键性计算模块1306、码率计算模块1308和编码模块1310,其中:
语音帧获取模块1302,用于获取待编码语音帧,及与待编码语音帧对应的后向语音帧;
第一关键性计算模块1304,用于提取待编码语音帧对应的待编码语音帧特征,基于待编码语音帧特征得到待编码语音帧对应的待编码语音帧关键性;
第二关键性计算模块1306,用于提取后向语音帧对应的后向语音帧特征,基于后向语音帧特征得到后向语音帧对应的后向语音帧关键性;
码率计算模块1308,用于基于待编码语音帧关键性和后向语音帧关键性获取关键性趋势特征,使用关键性趋势特征确定待编码语音帧对应的编码码率;
编码模块1310,用于根据编码码率对待编码语音帧进行编码,得到编码结果。
在一个实施例中,语音编码装置1300,包括:
第一特征提取模块,用于获取待提取语音帧,所述待提取语音帧为所述待编码语音帧或者为所述后向语音帧;基于所述待提取语音帧进行语音端点检测,得到语音端点检测结果,根据所述语音端点检测结果确定所述待提取语音帧对应的语音起始帧特征和所述待提取语音帧对应的非语音帧特征。
在一个实施例中,语音编码装置1300,包括:
第二特征提取模块,用于获取待提取语音帧,所述待提取语音帧为所述待编码语音帧或者为所述后向语音帧;获取所述待提取语音帧对应的前向语音帧,计算所述待提取语音帧对应的待提取帧能量,并计算所述前向语音帧对应的前向帧能量;计算所述待提取帧能量和所述前向帧能量的比值,根据比值结果确定所述待提取语音帧对应的能量变化特征。
在一个实施例中,语音编码装置1300,包括:
帧能量计算模块,用于基于所述待提取语音帧进行数据采样,得到各个样点数据值和样点数量;计算所述各个样点数据值的平方和,并计算所述平方和与所述样点数量的比值,得到所述待提取帧能量。
在一个实施例中,语音编码装置1300,包括:
第三特征提取模块,用获取待提取语音帧,所述待提取语音帧为所述待编码语音帧或者为所述后向语音帧;获取所述待提取语音帧对应的前向语音帧,检测所述待提取语音帧和所述前向语音帧的基音周期,得到待提取基音周期和前向基音周期;根据所述待提取基音周期和所述前向基音周期计算基音周期变化程度,根据所述基音周期变化程度确定所述待提取语音帧对应的基音周期突变帧特征。
在一个实施例中,第一关键性计算模块1304,包括:
正向计算单元,用于从所述待编码语音帧特征中确定正向待编码语音帧特征,对所述正向待编码语音帧特征进行加权计算,得到正向待编码语音帧关键性,所述正向待编码语音帧特征包括语音起始帧特征、能量变化特征和基音周期突变帧特征中的至少一种;
反向计算单元,用于从所述待编码语音帧特征中确定反向待编码语音帧特征,根据所述反向待编码语音帧特征确定反向待编码语音帧关键性,所述反向待编码语音帧特征包括非语音帧特征;
关键性计算单元,用于基于正向待编码语音帧关键性和反向待编码语音帧关键性得到所述待编码语音帧对应的待编码语音帧关键性。
在一个实施例中,码率计算模块1308,包括:
程度计算单元,用于基于所述待编码语音帧关键性和所述后向语音帧关键性计算关键性差异程度和关键性平均程度;
码率得到单元,用于根据所述关键性差异程度和所述关键性平均程度计算得到所述待编码语音帧对应的编码码率。
在一个实施例中,程度计算单元还用于计算所述待编码语音帧关键性与预设第一权重的第一加权值,并计算所述后向语音帧关键性与预设第二权重的第二加权值;基于所述第一加权值和所述第二加权值计算得到目标加权值,计算所述目标加权值与所述待编码语音帧关键性的差值,得到所述关键性差异程度。
在一个实施例中,程度计算单元还用于获取所述待编码语音帧和所述后向语音帧的帧数量;统计所述待编码语音帧关键性与所述后向语音帧关键性得到综合关键性,并计算所述综合关键性与所述帧数量的比值,得到所述关键性平均程度。
在一个实施例中,码率得到单元还用于获取第一码率计算函数和第二码率计算函数;使用所述关键性平均程度和所述第一码率计算函数计算得到第一码率,并使用所述关键性差异程度和所述第二码率计算函数计算得到第二码率,根据所述第一码率和第二码率确定综合码率,其中,所述第一码率与所述关键性平均程度成正比关系,所述第二码率与所述关键性差异程度成正比关系;获取预设码率上限值和预设码率下限值,基于所述预设码率上限值、预设码率下限值和所述综合码率确定所述编码码率。
在一个实施例中,码率得到单元还用于比较所述预设码率上限值和所述综合码率;当所述综合码率小于所述预设码率上限值时,比较所述预设码率下限值和所述综合码率;当所述综合码率大于所述预设码率下限值时,将所述综合码率作为所述编码码率。
在一个实施例中,编码模块1310还用于将所述编码码率通过接口传入标准编码器,得到编码结果,所述标准编码器用于使用所述编码码率对所述待编码语音帧进行编码
关于语音编码装置的具体限定可以参见上文中对于语音编码方法的限定,在此不再赘述。上述语音编码装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏、输入装置和录音装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音编码方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。该计算机设备的语音采集装置可以是麦克风。
本领域技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (26)
1.一种语音编码方法,其特征在于,所述方法包括:
获取待编码语音帧及与所述待编码语音帧对应的后向语音帧;
提取所述待编码语音帧对应的待编码语音帧特征,基于所述待编码语音帧特征得到所述待编码语音帧对应的待编码语音帧关键性;
提取所述后向语音帧对应的后向语音帧特征,基于所述后向语音帧特征得到所述后向语音帧对应的后向语音帧关键性,所述语音帧关键性用于表征语音帧声音质量高低对其前后一段时间内的整体语音音质的贡献程度;
基于所述待编码语音帧关键性和所述后向语音帧关键性获取关键性趋势特征,使用所述关键性趋势特征确定所述待编码语音帧对应的编码码率,包括:基于所述待编码语音帧关键性和所述后向语音帧关键性计算关键性差异程度和关键性平均程度,根据所述关键性差异程度和所述关键性平均程度计算得到所述待编码语音帧对应的编码码率,所述编码码率是基于预设码率上限值、预设码率下限值和综合码率确定的,所述综合码率是根据第一码率和第二码率确定的,所述第一码率与所述关键性平均程度成正比关系,所述第二码率与所述关键性差异程度成正比关系;
根据所述编码码率对所述待编码语音帧进行编码,得到编码结果。
2.根据权利要求1所述的方法,其特征在于,所述待编码语音帧特征和所述后向语音帧特征包括语音起始帧特征和非语音帧特征中的至少一种,所述语音起始帧特征和非语音帧特征的提取包括以下步骤:
获取待提取语音帧,所述待提取语音帧为所述待编码语音帧或者为所述后向语音帧;
基于所述待提取语音帧进行语音端点检测,得到语音端点检测结果;
当所述语音端点检测结果为语音起始端点时,确定所述待提取语音帧对应的语音起始帧特征为第一目标值和/或所述待提取语音帧对应的非语音帧特征为第二目标值;
当所述语音端点检测结果为非语音起始端点时,确定所述待提取语音帧对应的语音起始帧特征为所述第二目标值和/或所述待提取语音帧对应的非语音帧特征为所述第一目标值。
3.根据权利要求1所述的方法,其特征在于,所述待编码语音帧特征和所述后向语音帧特征包括能量变化特征,所述能量变化特征的提取包括以下步骤:
获取待提取语音帧,所述待提取语音帧为所述待编码语音帧或者为所述后向语音帧;
获取所述待提取语音帧对应的前向语音帧,计算所述待提取语音帧对应的待提取帧能量,并计算所述前向语音帧对应的前向帧能量;
计算所述待提取帧能量和所述前向帧能量的比值,根据比值结果确定所述待提取语音帧对应的能量变化特征。
4.根据权利要求3所述的方法,其特征在于,所述计算所述待提取语音帧对应的待提取帧能量,包括:
基于所述待提取语音帧进行数据采样,得到各个样点数据值和样点数量;
计算所述各个样点数据值的平方和,并计算所述平方和与所述样点数量的比值,得到所述待提取帧能量。
5.根据权利要求1所述的方法,其特征在于,所述待编码语音帧特征和所述后向语音帧特征包括基音周期突变帧特征,所述基音周期突变帧特征的提取包括以下步骤:
获取待提取语音帧,所述待提取语音帧为所述待编码语音帧或者为所述后向语音帧;
获取所述待提取语音帧对应的前向语音帧,检测所述待提取语音帧和所述前向语音帧的基音周期,得到待提取基音周期和前向基音周期;
根据所述待提取基音周期和所述前向基音周期计算基音周期变化程度,根据所述基音周期变化程度确定所述待提取语音帧对应的基音周期突变帧特征。
6.根据权利要求1所述的方法,其特征在于,所述基于所述待编码语音帧特征得到所述待编码语音帧对应的待编码语音帧关键性,包括:
从所述待编码语音帧特征中确定正向待编码语音帧特征,对所述正向待编码语音帧特征进行加权计算,得到正向待编码语音帧关键性,所述正向待编码语音帧特征包括语音起始帧特征、能量变化特征和基音周期突变帧特征中的至少一种;
从所述待编码语音帧特征中确定反向待编码语音帧特征,根据所述反向待编码语音帧特征确定反向待编码语音帧关键性,所述反向待编码语音帧特征包括非语音帧特征;
基于所述正向待编码语音帧关键性和预设正向权重计算得到正向关键性,基于所述反向待编码语音帧关键性和预设反向权重计算得到反向关键性,基于所述正向关键性和所述反向关键性得到所述待编码语音帧对应的待编码语音帧关键性。
7.根据权利要求1所述的方法,其特征在于,所述基于所述待编码语音帧关键性和所述后向语音帧关键性获取关键性趋势特征,使用所述关键性趋势特征确定所述待编码语音帧对应的编码码率,包括:
获取前向语音帧关键性,基于所述前向语音帧关键性、所述待编码语音帧关键性和所述后向语音帧关键性获取目标关键性趋势特征,使用所述目标关键性趋势特征确定所述待编码语音帧对应的编码码率。
8.根据权利要求1所述的方法,其特征在于,基于所述待编码语音帧关键性和所述后向语音帧关键性计算关键性差异程度,包括:
计算所述待编码语音帧关键性与预设第一权重的第一加权值,并计算所述后向语音帧关键性与预设第二权重的第二加权值;
基于所述第一加权值和所述第二加权值计算得到目标加权值,计算所述目标加权值与所述待编码语音帧关键性的差值,得到所述关键性差异程度。
9.根据权利要求1所述的方法,其特征在于,所述基于所述待编码语音帧关键性和所述后向语音帧关键性计算关键性平均程度,包括:
获取所述待编码语音帧和所述后向语音帧的帧数量;
统计所述待编码语音帧关键性与所述后向语音帧关键性得到综合关键性,并计算所述综合关键性与所述帧数量的比值,得到所述关键性平均程度。
10.根据权利要求1所述的方法,其特征在于,所述根据所述关键性差异程度和所述关键性平均程度计算得到所述待编码语音帧对应的编码码率,包括:
获取第一码率计算函数和第二码率计算函数;
使用所述关键性平均程度和所述第一码率计算函数计算得到第一码率,并使用所述关键性差异程度和所述第二码率计算函数计算得到第二码率,根据所述第一码率和第二码率确定综合码率,其中,所述第一码率与所述关键性平均程度成正比关系,所述第二码率与所述关键性差异程度成正比关系;
获取预设码率上限值和预设码率下限值,基于所述预设码率上限值、预设码率下限值和所述综合码率确定所述编码码率。
11.根据权利要求10所述的方法,其特征在于,所述基于所述预设码率上限值、预设码率下限值和所述综合码率确定所述编码码率,包括:
比较所述预设码率上限值和所述综合码率;
当所述综合码率小于所述预设码率上限值时,比较所述预设码率下限值和所述综合码率;
当所述综合码率大于所述预设码率下限值时,将所述综合码率作为所述编码码率。
12.根据权利要求1所述的方法,其特征在于,所述根据所述编码码率对所述待编码语音帧进行编码,得到编码结果,包括:
将所述编码码率通过接口传入标准编码器,得到编码结果,标准编码器用于使用所述编码码率对所述待编码语音帧进行编码。
13.一种语音编码装置,其特征在于,所述装置包括:
语音帧获取模块,用于获取待编码语音帧,及与所述待编码语音帧对应的后向语音帧;
第一关键性计算模块,用于提取所述待编码语音帧对应的待编码语音帧特征,基于所述待编码语音帧特征计算得到所述待编码语音帧对应的待编码语音帧关键性;
第二关键性计算模块,用于提取所述后向语音帧对应的后向语音帧特征,基于所述后向语音帧特征计算得到所述后向语音帧对应的后向语音帧关键性,所述语音帧关键性用于表征语音帧声音质量高低对其前后一段时间内的整体语音音质的贡献程度;
码率计算模块,用于基于所述待编码语音帧关键性和所述后向语音帧关键性获取关键性趋势特征,使用所述关键性趋势特征确定所述待编码语音帧对应的编码码率,包括:程度计算单元,用于基于所述待编码语音帧关键性和所述后向语音帧关键性计算关键性差异程度和关键性平均程度,码率得到单元,用于根据所述关键性差异程度和所述关键性平均程度计算得到所述待编码语音帧对应的编码码率,所述编码码率是基于预设码率上限值、预设码率下限值和综合码率确定的,所述综合码率是根据第一码率和第二码率确定的,所述第一码率与所述关键性平均程度成正比关系,所述第二码率与所述关键性差异程度成正比关系;
编码模块,用于根据所述编码码率对所述待编码语音帧进行编码,得到编码结果。
14.根据权利要求13所述的装置,其特征在于,所述待编码语音帧特征和所述后向语音帧特征包括语音起始帧特征和非语音帧特征中的至少一种,所述装置包括:
第一特征提取模块,用于获取待提取语音帧,所述待提取语音帧为所述待编码语音帧或者为所述后向语音帧;基于所述待提取语音帧进行语音端点检测,得到语音端点检测结果;当所述语音端点检测结果为语音起始端点时,确定所述待提取语音帧对应的语音起始帧特征为第一目标值和/或所述待提取语音帧对应的非语音帧特征为第二目标值;当所述语音端点检测结果为非语音起始端点时,确定所述待提取语音帧对应的语音起始帧特征为所述第二目标值和/或所述待提取语音帧对应的非语音帧特征为所述第一目标值。
15.根据权利要求13所述的装置,其特征在于,所述待编码语音帧特征和所述后向语音帧特征包括能量变化特征,所述装置,包括:
第二特征提取模块,用于获取待提取语音帧,所述待提取语音帧为所述待编码语音帧或者为所述后向语音帧;获取所述待提取语音帧对应的前向语音帧,计算所述待提取语音帧对应的待提取帧能量,并计算所述前向语音帧对应的前向帧能量;计算所述待提取帧能量和所述前向帧能量的比值,根据比值结果确定所述待提取语音帧对应的能量变化特征。
16.根据权利要求15所述的装置,其特征在于,所述装置,包括:
帧能量计算模块,用于基于所述待提取语音帧进行数据采样,得到各个样点数据值和样点数量;计算所述各个样点数据值的平方和,并计算所述平方和与所述样点数量的比值,得到所述待提取帧能量。
17.根据权利要求13所述的装置,其特征在于,所述待编码语音帧特征和所述后向语音帧特征包括基音周期突变帧特征,所述装置,包括:
第三特征提取模块,用于获取待提取语音帧,所述待提取语音帧为所述待编码语音帧或者为所述后向语音帧;获取所述待提取语音帧对应的前向语音帧,检测所述待提取语音帧和所述前向语音帧的基音周期,得到待提取基音周期和前向基音周期;根据所述待提取基音周期和所述前向基音周期计算基音周期变化程度,根据所述基音周期变化程度确定所述待提取语音帧对应的基音周期突变帧特征。
18.根据权利要求13所述的装置,其特征在于,所述第一关键性计算模,包括:
正向计算单元,用于从所述待编码语音帧特征中确定正向待编码语音帧特征,对所述正向待编码语音帧特征进行加权计算,得到正向待编码语音帧关键性,所述正向待编码语音帧特征包括语音起始帧特征、能量变化特征和基音周期突变帧特征中的至少一种;
反向计算单元,用于从所述待编码语音帧特征中确定反向待编码语音帧特征,根据所述反向待编码语音帧特征确定反向待编码语音帧关键性,所述反向待编码语音帧特征包括非语音帧特征;
关键性计算单元,用于基于所述正向待编码语音帧关键性和预设正向权重计算得到正向关键性,基于所述反向待编码语音帧关键性和预设反向权重计算得到反向关键性,基于所述正向关键性和所述反向关键性得到所述待编码语音帧对应的待编码语音帧关键性。
19.根据权利要求13所述的装置,其特征在于,所述码率计算模块还用于获取前向语音帧关键性,基于所述前向语音帧关键性、所述待编码语音帧关键性和所述后向语音帧关键性获取目标关键性趋势特征,使用所述目标关键性趋势特征确定所述待编码语音帧对应的编码码率。
20.根据权利要求13所述的装置,其特征在于,所述程度计算单元还用于计算所述待编码语音帧关键性与预设第一权重的第一加权值,并计算所述后向语音帧关键性与预设第二权重的第二加权值;基于所述第一加权值和所述第二加权值计算得到目标加权值,计算所述目标加权值与所述待编码语音帧关键性的差值,得到所述关键性差异程度。
21.根据权利要求13所述的装置,其特征在于,所述程度计算单元还用于获取所述待编码语音帧和所述后向语音帧的帧数量;统计所述待编码语音帧关键性与所述后向语音帧关键性得到综合关键性,并计算所述综合关键性与所述帧数量的比值,得到所述关键性平均程度。
22.根据权利要求13所述的装置,其特征在于,所述码率得到单元还用于获取第一码率计算函数和第二码率计算函数;使用所述关键性平均程度和所述第一码率计算函数计算得到第一码率,并使用所述关键性差异程度和所述第二码率计算函数计算得到第二码率,根据所述第一码率和第二码率确定综合码率,其中,所述第一码率与所述关键性平均程度成正比关系,所述第二码率与所述关键性差异程度成正比关系;获取预设码率上限值和预设码率下限值,基于所述预设码率上限值、预设码率下限值和所述综合码率确定所述编码码率。
23.根据权利要求22所述的装置,其特征在于,所述码率得到单元还用于比较所述预设码率上限值和所述综合码率;当所述综合码率小于所述预设码率上限值时,比较所述预设码率下限值和所述综合码率;当所述综合码率大于所述预设码率下限值时,将所述综合码率作为所述编码码率。
24.根据权利要求13所述的装置,其特征在于,所述编码模块还用于将所述编码码率通过接口传入标准编码器,得到编码结果,标准编码器用于使用所述编码码率对所述待编码语音帧进行编码。
25.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
26.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010585545.9A CN112767953B (zh) | 2020-06-24 | 2020-06-24 | 语音编码方法、装置、计算机设备和存储介质 |
EP21828640.9A EP4040436A4 (en) | 2020-06-24 | 2021-05-25 | SPEECH CODING METHOD AND APPARATUS, COMPUTER DEVICE AND STORAGE MEDIA |
PCT/CN2021/095714 WO2021258958A1 (zh) | 2020-06-24 | 2021-05-25 | 语音编码方法、装置、计算机设备和存储介质 |
JP2022554706A JP7471727B2 (ja) | 2020-06-24 | 2021-05-25 | 音声符号化方法、装置、コンピュータ機器及びコンピュータプログラム |
US17/740,309 US20220270622A1 (en) | 2020-06-24 | 2022-05-09 | Speech coding method and apparatus, computer device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010585545.9A CN112767953B (zh) | 2020-06-24 | 2020-06-24 | 语音编码方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112767953A CN112767953A (zh) | 2021-05-07 |
CN112767953B true CN112767953B (zh) | 2024-01-23 |
Family
ID=75693048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010585545.9A Active CN112767953B (zh) | 2020-06-24 | 2020-06-24 | 语音编码方法、装置、计算机设备和存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220270622A1 (zh) |
EP (1) | EP4040436A4 (zh) |
JP (1) | JP7471727B2 (zh) |
CN (1) | CN112767953B (zh) |
WO (1) | WO2021258958A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767953B (zh) * | 2020-06-24 | 2024-01-23 | 腾讯科技(深圳)有限公司 | 语音编码方法、装置、计算机设备和存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05175941A (ja) * | 1991-12-20 | 1993-07-13 | Fujitsu Ltd | 符号化率可変伝送方式 |
US5911128A (en) * | 1994-08-05 | 1999-06-08 | Dejaco; Andrew P. | Method and apparatus for performing speech frame encoding mode selection in a variable rate encoding system |
CN1976479A (zh) * | 2005-11-15 | 2007-06-06 | 三星电子株式会社 | 在无线网络中发送数据的方法和设备 |
CN101395671A (zh) * | 2005-08-15 | 2009-03-25 | 摩托罗拉公司 | 用于提供内容自适应码率控制的视频编码系统和方法 |
CN102461040A (zh) * | 2009-06-04 | 2012-05-16 | 高通股份有限公司 | 用于防止语音帧内的信息流失的系统与方法 |
CN102543090A (zh) * | 2011-12-31 | 2012-07-04 | 深圳市茂碧信息科技有限公司 | 一种应用于变速率语音和音频编码的码率自动控制系统 |
CN103050122A (zh) * | 2012-12-18 | 2013-04-17 | 北京航空航天大学 | 一种基于melp的多帧联合量化低速率语音编解码方法 |
CN103338375A (zh) * | 2013-06-27 | 2013-10-02 | 公安部第一研究所 | 一种宽带集群系统中基于视频数据重要性的动态码率分配方法 |
CN104517612A (zh) * | 2013-09-30 | 2015-04-15 | 上海爱聊信息科技有限公司 | 基于amr-nb语音信号的可变码率编码器和解码器及其编码和解码方法 |
CN106534862A (zh) * | 2016-12-20 | 2017-03-22 | 杭州当虹科技有限公司 | 一种视频编码方法 |
CN110166780A (zh) * | 2018-06-06 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 视频的码率控制方法、转码处理方法、装置和机器设备 |
CN110740334A (zh) * | 2019-10-18 | 2020-01-31 | 福州大学 | 一种帧级别的应用层动态fec编码方法 |
CN110890945A (zh) * | 2019-11-20 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 数据传输方法、装置、终端及存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69233794D1 (de) * | 1991-06-11 | 2010-09-23 | Qualcomm Inc | Vocoder mit veränderlicher Bitrate |
JP4548348B2 (ja) * | 2006-01-18 | 2010-09-22 | カシオ計算機株式会社 | 音声符号化装置及び音声符号化方法 |
US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
JP5235168B2 (ja) | 2009-06-23 | 2013-07-10 | 日本電信電話株式会社 | 符号化方法、復号方法、符号化装置、復号装置、符号化プログラム、復号プログラム |
US9672840B2 (en) | 2011-10-27 | 2017-06-06 | Lg Electronics Inc. | Method for encoding voice signal, method for decoding voice signal, and apparatus using same |
US9208798B2 (en) | 2012-04-09 | 2015-12-08 | Board Of Regents, The University Of Texas System | Dynamic control of voice codec data rate |
CN103841418B (zh) * | 2012-11-22 | 2016-12-21 | 中国科学院声学研究所 | 一种3g网络中视频监控器码率控制的优化方法及系统 |
CN109151470B (zh) * | 2017-06-28 | 2021-03-16 | 腾讯科技(深圳)有限公司 | 编码分辨率控制方法及终端 |
CN110166781B (zh) * | 2018-06-22 | 2022-09-13 | 腾讯科技(深圳)有限公司 | 一种视频编码方法、装置、可读介质和电子设备 |
US10349059B1 (en) * | 2018-07-17 | 2019-07-09 | Wowza Media Systems, LLC | Adjusting encoding frame size based on available network bandwidth |
CN109729353B (zh) * | 2019-01-31 | 2021-01-19 | 深圳市迅雷网文化有限公司 | 一种视频编码方法、装置、系统及介质 |
CN112767953B (zh) * | 2020-06-24 | 2024-01-23 | 腾讯科技(深圳)有限公司 | 语音编码方法、装置、计算机设备和存储介质 |
CN112767955B (zh) * | 2020-07-22 | 2024-01-23 | 腾讯科技(深圳)有限公司 | 音频编码方法及装置、存储介质、电子设备 |
-
2020
- 2020-06-24 CN CN202010585545.9A patent/CN112767953B/zh active Active
-
2021
- 2021-05-25 WO PCT/CN2021/095714 patent/WO2021258958A1/zh unknown
- 2021-05-25 EP EP21828640.9A patent/EP4040436A4/en active Pending
- 2021-05-25 JP JP2022554706A patent/JP7471727B2/ja active Active
-
2022
- 2022-05-09 US US17/740,309 patent/US20220270622A1/en active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05175941A (ja) * | 1991-12-20 | 1993-07-13 | Fujitsu Ltd | 符号化率可変伝送方式 |
US5911128A (en) * | 1994-08-05 | 1999-06-08 | Dejaco; Andrew P. | Method and apparatus for performing speech frame encoding mode selection in a variable rate encoding system |
CN101395671A (zh) * | 2005-08-15 | 2009-03-25 | 摩托罗拉公司 | 用于提供内容自适应码率控制的视频编码系统和方法 |
CN1976479A (zh) * | 2005-11-15 | 2007-06-06 | 三星电子株式会社 | 在无线网络中发送数据的方法和设备 |
CN102461040A (zh) * | 2009-06-04 | 2012-05-16 | 高通股份有限公司 | 用于防止语音帧内的信息流失的系统与方法 |
CN102543090A (zh) * | 2011-12-31 | 2012-07-04 | 深圳市茂碧信息科技有限公司 | 一种应用于变速率语音和音频编码的码率自动控制系统 |
CN103050122A (zh) * | 2012-12-18 | 2013-04-17 | 北京航空航天大学 | 一种基于melp的多帧联合量化低速率语音编解码方法 |
CN103338375A (zh) * | 2013-06-27 | 2013-10-02 | 公安部第一研究所 | 一种宽带集群系统中基于视频数据重要性的动态码率分配方法 |
CN104517612A (zh) * | 2013-09-30 | 2015-04-15 | 上海爱聊信息科技有限公司 | 基于amr-nb语音信号的可变码率编码器和解码器及其编码和解码方法 |
CN106534862A (zh) * | 2016-12-20 | 2017-03-22 | 杭州当虹科技有限公司 | 一种视频编码方法 |
CN110166780A (zh) * | 2018-06-06 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 视频的码率控制方法、转码处理方法、装置和机器设备 |
CN110740334A (zh) * | 2019-10-18 | 2020-01-31 | 福州大学 | 一种帧级别的应用层动态fec编码方法 |
CN110890945A (zh) * | 2019-11-20 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 数据传输方法、装置、终端及存储介质 |
Non-Patent Citations (2)
Title |
---|
MELP/CELP混合语音编码方法研究;李建磊;马震;陈延萍;;声学与电子工程(01);全文 * |
肖玉娟 ; 赵利 ; .基于MELP的变速率分类型语音编码算法.电声技术.2013,(第02期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
EP4040436A1 (en) | 2022-08-10 |
CN112767953A (zh) | 2021-05-07 |
JP2023517973A (ja) | 2023-04-27 |
JP7471727B2 (ja) | 2024-04-22 |
WO2021258958A1 (zh) | 2021-12-30 |
EP4040436A4 (en) | 2023-01-18 |
US20220270622A1 (en) | 2022-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108900725B (zh) | 一种声纹识别方法、装置、终端设备及存储介质 | |
CN111048119B (zh) | 通话音频混音处理方法、装置、存储介质和计算机设备 | |
JP6689664B2 (ja) | モバイルデバイスのためのスマートオーディオロギングのシステムおよび方法 | |
RU2291499C2 (ru) | Способ передачи речевой активности в распределенной системе распознавания голоса и система для его осуществления | |
CN110838894B (zh) | 语音处理方法、装置、计算机可读存储介质和计算机设备 | |
JP2007534020A (ja) | 信号符号化 | |
WO2008148321A1 (fr) | Appareil de codage et de décodage et procédé de traitement du bruit de fond et dispositif de communication utilisant cet appareil | |
US8868419B2 (en) | Generalizing text content summary from speech content | |
KR102214440B1 (ko) | 통화 기능을 수행하는 단말 장치 및 방법 | |
US8005671B2 (en) | Systems and methods for dynamic normalization to reduce loss in precision for low-level signals | |
JP2004511003A (ja) | 音声コーディングにおける雑音のロバストな分類のための方法 | |
CN112767953B (zh) | 语音编码方法、装置、计算机设备和存储介质 | |
CN112767955B (zh) | 音频编码方法及装置、存储介质、电子设备 | |
CN116132875B (zh) | 一种辅听耳机的多模式智能控制方法、系统及存储介质 | |
CN110689898A (zh) | 用于生猪的音频信号的压缩方法及系统 | |
WO2016173675A1 (en) | Suitability score based on attribute scores | |
US20130297311A1 (en) | Information processing apparatus, information processing method and information processing program | |
WO2020001570A1 (zh) | 立体声信号的编码方法、解码方法、编码装置和解码装置 | |
CN109150400B (zh) | 数据传输方法、装置、电子设备及计算机可读介质 | |
Wang et al. | Parametric vector quantization for coding percussive sounds in music | |
TWI820333B (zh) | 方法,電腦程式,編碼器和監控裝置 | |
CN113571072B (zh) | 一种语音编码方法、装置、设备、存储介质及产品 | |
WO2022068675A1 (zh) | 发声者语音抽取方法、装置、存储介质及电子设备 | |
US20240029745A1 (en) | Spatial audio parameter encoding and associated decoding | |
KR100388454B1 (ko) | 배경잡음 예측을 통한 음성 출력 이득 조정 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40043826 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |