CN114566174B - 一种优化语音编码的方法、装置、系统、介质及设备 - Google Patents

一种优化语音编码的方法、装置、系统、介质及设备 Download PDF

Info

Publication number
CN114566174B
CN114566174B CN202210448695.4A CN202210448695A CN114566174B CN 114566174 B CN114566174 B CN 114566174B CN 202210448695 A CN202210448695 A CN 202210448695A CN 114566174 B CN114566174 B CN 114566174B
Authority
CN
China
Prior art keywords
code rate
voice data
coding
audio
flatness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210448695.4A
Other languages
English (en)
Other versions
CN114566174A (zh
Inventor
李强
朱勇
叶东翔
王尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Barrot Wireless Co Ltd
Original Assignee
Barrot Wireless Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Barrot Wireless Co Ltd filed Critical Barrot Wireless Co Ltd
Priority to CN202210448695.4A priority Critical patent/CN114566174B/zh
Publication of CN114566174A publication Critical patent/CN114566174A/zh
Application granted granted Critical
Publication of CN114566174B publication Critical patent/CN114566174B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请公开了一种优化语音编码的方法、装置、系统、介质及设备,属于语音编解码技术领域。该方法主要包括:在音频编码的过程中,对当前语音数据分帧并经低延迟改进型离散余弦变换模块,获得每一帧的语音数据分别对应的谱系数;计算平坦度与信噪比,进而获取码率判决因子;更新当前语音数据的码率,获取当前语音数据对应的更新码率;根据更新码率继续进行音频编码的后续步骤,以完成对当前语音数据的编码。通过在LC3音频编码器编码的过程中,利用音频编码器自身的时频转换模块获取谱系数,在频域基于对谱系数的语音激活检测,获取码率判决因子,并更新当前语音数据的码率,以简化编码过程、节省码率、减少系统的运算量、加快编码效率。

Description

一种优化语音编码的方法、装置、系统、介质及设备
技术领域
本申请涉及语音编解码技术领域,特别涉及一种优化语音编码的方法、装置、系统、介质及设备。
背景技术
目前主流的蓝牙音频编解码器包括:SBC音频编解码器,其由A2DP协议强制要求,且音质一般;AAC-LC音频编解码器,其音质较好且应用较为广泛,但由于蓝牙设备一般电池容量有限,处理器运算能力较差且内存有限,且专利费较高,限制了它的使用;aptX系列音频编解码器,其音质较好,但码率很高,且为高通独有的技术,较为封闭;LDAC音频编解码器,其音质较好,但码率也很高,且为索尼独有的技术,也很封闭;LHDC音频编解码器,其码率也很高,并且对蓝牙的基带/射频设计有很高的要求。基于上述原因,蓝牙国际联盟Bluetooth Sig联合众多厂商推出了LC3音频编解码器,其具有较低延迟、较高音质和编码增益以及在蓝牙领域无专利费的优点,受到广大厂商的关注。
为了节省码率,如3GPP和3GPP2中的声码器,都采用了非常复杂的话音激活检测和码率判决算法,虽然可以极大限度的节省码率,但资源消耗都比较大,如代码空间、数据空间以及运算资源。这些方法对于面向低功耗蓝牙平台都不适用,因为低功耗蓝牙平台存储空间和运算能力都较为有限。
在现有技术中,为了节省码率和传输带宽,多采用在音频编码器之前,利用傅里叶变换(FFT)将时域的当前语音数据转换到频域,在频域计算频谱的平坦度,进而进行话音激活检测和码率判决,若当前语音数据中包含有效语音,则根据标准的编码流程以标准码率对当前语音数据进行编码传输;若当前语音数据中不包含有效语音,则根据标准的编码流程以较低码率对当前语音数据进行编码传输,或利用较低码率的舒适噪音代替当前语音数据进行编码传输,以达到在不影响音质的前提下降低码率和传输带宽的目的。
然而,上述的方法,需要在音频编码之前单独进行时域到频域的转换,音频编码器中也需要进行时域到频域的转换,相当于上述的方式需要进行两次时域到频域的转换,而,时域到频域的转换非常消耗系统的运算量,且时域到频域转换的过程中,对处理器的主频和功耗的要求非常高;另外上述方式只依靠平坦度做码率的判决,其准确性不是很高,因此采用上述方式后,并不能有效的节省的码率和传输带宽。
发明内容
针对现有技术存在的非常消耗系统的运算量、对处理器的主频和功耗的要求非常高以及只依靠平坦度做码率的判决,其准确性不是很高以致不能有效的节省的码率和传输带宽的问题,本申请主要提供一种优化语音编码的方法、装置、系统、介质及设备。
为了实现上述目的,本申请采用的一个技术方案是:提供一种优化语音编码的方法,其包括:在音频编码的过程中,对音频编码器接收到的当前语音数据分帧,并经低延迟改进型离散余弦变换模块,获得每一帧的语音数据分别对应的谱系数;根据谱系数计算当前语音数据对应伪谱的平坦度与信噪比,获取谱系数的码率判决因子;根据码率判决因子更新当前语音数据的码率,获取当前语音数据对应的更新码率;以及根据更新码率继续进行音频编码的后续步骤,以完成对当前语音数据的编码。
本申请采用的另一个技术方案是:提供一种优化语音编码的装置,其包括:时频变换模块,其用于在音频编码的过程中,对音频编码器接收到的当前语音数据分帧,并经低延迟改进型离散余弦变换模块,获得每一帧的语音数据分别对应的谱系数;语音激活检测模块,其用于根据谱系数计算当前语音数据对应伪谱的平坦度与信噪比,获取谱系数的码率判决因子;码率更新模块,其用于根据码率判决因子更新当前语音数据的码率,获取当前语音数据对应的更新码率;以及编码后续模块,其用于根据更新码率继续进行音频编码的后续步骤,以完成对当前语音数据的编码。
本申请采用的另一个技术方案是:提供一种优化语音编码的系统,其包括方案二中所述的优化语音编码的装置,其中优化语音编码的装置包括时频变换模块,其用于在音频编码的过程中,对音频编码器接收到的当前语音数据分帧,并经低延迟改进型离散余弦变换模块,获得每一帧的语音数据分别对应的谱系数;语音激活检测模块,其用于根据谱系数计算当前语音数据对应伪谱的平坦度与信噪比,获取谱系数的码率判决因子;码率更新模块,其用于根据码率判决因子更新当前语音数据的码率,获取当前语音数据对应的更新码率;以及编码后续模块,其用于根据更新码率继续进行音频编码的后续步骤,以完成对当前语音数据的编码。
本申请采用的另一个技术方案是:提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被操作以执行方案一中的优化语音编码的方法。
本申请采用的另一个技术方案是:提供一种计算机设备,其包括:至少一个处理器;以及与至少一个处理器进行通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机指令,至少一个处理器操作计算机指令以执行方案一中的优化语音编码的方法。
本申请的技术方案可以达到的有益效果是:本申请通过在LC3音频编码器编码的过程中,利用LC3音频编码器自身的时频转换模块将当前语音数据转换为频域的谱系数,并在频域基于对谱系数的语音激活检测,获取码率判决因子,根据码率判决因子更新当前语音数据的码率,以简化编码过程、节省码率、减少系统的运算量、加快编码效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一种优化语音编码的方法的一个可选实施方式的示意图;
图2示出了本申请优化语音编码的方法中噪声的时域波形与噪声对应伪谱的平坦度的一个可选实例;
图3示出了本申请优化语音编码的方法中人声的时域波形与人声对应伪谱的平坦度的一个可选实例;
图4出了本申请优化语音编码的方法中噪声的码率判决因子与人声的码率判决因子的一个可选实例;
图5是本申请一种优化语音编码的装置的一个可选实施方式的示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
下面结合附图对本申请的较佳实施例进行详细阐述,以使本申请的优点和特征能更易于被本领域技术人员理解,从而对本申请的保护范围做出更为清楚明确的界定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在现有技术中,由于目前市场主流的音频编解码器的编码码率较高,稳定支持高码率的环境复杂且困难,技术较为封闭且专利费较高等一系列的原因,蓝牙国际联盟Bluetooth Sig联合众多厂商推出了LC3音频编解码器,主要面向低功耗蓝牙,其具有较低延迟、较高音质和编码增益以及在蓝牙领域无专利费的优点,受到广大厂商的关注。在现有技术中,为了节省码率和传输带宽,多采用在音频编码器之前,利用傅里叶变换(FFT)将时域的当前语音数据转换到频域,在频域计算频谱的平坦度,进而进行话音激活检测和码率判决,若当前语音数据中包含有效语音,则根据标准的编码流程以标准码率对当前语音数据进行编码传输;若当前语音数据中不包含有效语音,则根据标准的编码流程以较低码率对当前语音数据进行编码传输,或利用较低码率的舒适噪音代替当前语音数据进行编码传输,以达到在不影响音质的前提下降低码率和传输带宽的目的。
然而,上述的方法,需要在音频编码之前单独进行时域到频域的转换,音频编码器中也需要进行时域到频域的转换,相当于上述的方式需要进行两次时域到频域的转换,而,时域到频域的转换非常消耗系统的运算量,且时域到频域转换的过程中,对处理器的主频和功耗的要求非常高;另外上述方式只依靠平坦度做码率的判决,其准确性不是很高,因此采用上述方式后,并不能有效的节省的码率和传输带宽。
针对现有技术存在的非常消耗系统的运算量、对处理器的主频和功耗的要求非常高以及只依靠平坦度做码率的判决,其准确性不是很高以致不能有效的节省的码率和传输带宽的问题,本申请主要提供一种优化语音编码的方法、装置、系统、介质及设备。该优化语音编码的方法主要包括:在音频编码的过程中,对音频编码器接收到的当前语音数据分帧,并经低延迟改进型离散余弦变换模块,获得每一帧的语音数据分别对应的谱系数;根据谱系数计算当前语音数据对应伪谱的平坦度与信噪比,获取谱系数的码率判决因子;根据码率判决因子更新当前语音数据的码率,获取当前语音数据对应的更新码率;以及根据更新码率继续进行音频编码的后续步骤,以完成对当前语音数据的编码。
本申请通过在LC3音频编码器编码的过程中,利用LC3音频编码器自身的时频转换模块将当前语音数据转换为频域的谱系数,并在频域基于对谱系数的语音激活检测,获取码率判决因子,根据码率判决因子更新当前语音数据的码率,以简化编码过程、节省码率、减少系统的运算量、加快编码效率。
下面,以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面述及的具体的实施例可以相互结合形成新的实施例。对于在一个实施例中描述过的相同或相似的思想或过程,可能在其他某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请一种优化语音编码的方法的一个可选实施方式。
在图1所示的可选实施方式中,优化语音编码的方法主要包括步骤S101,在音频编码的过程中,对音频编码器接收到的当前语音数据分帧,并经低延迟改进型离散余弦变换模块,获得每一帧的语音数据分别对应的谱系数。
在该可选实施方式中,音频编码器接收到当前语音数据后,根据音频编码的标准规范对当前语音数据分帧,获得当前语音数据对应的每一帧音频数据;并分别对每一帧语音数据进行时域到频域的转换,获取每一帧的语音数据分别对应的谱系数,即将每一帧音频数据输入低延迟改进型离散余弦变换模块,由该低延迟改进型离散余弦变换模块输出每一帧的语音数据分别对应的谱系数;本方案利用音频编码器自身的低延迟改进型离散余弦变换模块直接进行时域到频域的转换获取谱系数,在音频编码器中进行码率判决等步骤、以使得只进行一次时频转换即可达到节省码率与传输带宽的目的,极大地节省了系统的运算量、加快了系统的运算速率。
在本申请的一个可选实例中,根据LC3音频编码的标准规范对当前语音数据分帧,,获得当前语音数据对应的每一帧音频数据;并分别对每一帧语音数据进行时域到频域的转换,获取每一帧的语音数据分别对应的谱系数,其中,时域到频域转换的计算公式如下:
Figure DEST_PATH_IMAGE001
Figure 751453DEST_PATH_IMAGE002
上述公式中的
Figure DEST_PATH_IMAGE003
为谱系数的数量,
Figure 321106DEST_PATH_IMAGE004
为当前语音数据,
Figure 972667DEST_PATH_IMAGE005
为当前语音数据对应频域的谱系数。
在图1所示的可选实施方式中,优化语音编码的方法还包括步骤S102,根据谱系数计算当前语音数据对应伪谱的平坦度与信噪比,获取谱系数的码率判决因子。
在该可选实施方式中,基于现有技术中通过仅计算当前语音数据对应谱系数的平坦度,获得的谱系数的码率判决因子,存在准确度不高的现象,本申请通过计算当前语音数据对应谱系数的平坦度与信噪比,获取谱系数的码率判决因子,通过两个因素确定谱系数的码率判决因子,提高码率判决因子的准确率,进而提高用户的体验效果。
并且,由于现有技术中通过傅里叶变换(FFT)进行码率判决因子的获取,通过傅里叶变换(FFT)获取的谱系数与时域的当前语音数据的频率存在较为准确的对应的关系;而本方案通过离散余弦变换获取当前语音数据的谱系数,该方式获取的谱系数与时域的当前语音数据的频率存在偏差,为了使得避免上述偏差,保证码率判决因子准确率,本方案加入伪谱,通过计算伪谱的平坦度与信噪比,获取谱系数的码率判决因子,以避免上述偏差,保证码率判决因子准确率。
在本申请的一个可选实施例中,根据谱系数计算当前语音数据对应伪谱的平坦度与信噪比,获取谱系数的码率判决因子,进一步包括:根据谱系数计算伪谱,获取伪谱对应的伪谱系数;对伪谱系数进行子带划分,获取多个子带分别对应的子带伪谱系数;根据子带伪谱系数分别计算平坦度与信噪比;以及根据平坦度与信噪比,计算获取码率判决因子。
在该可选实施例中,根据谱系数计算该谱系数对应的伪谱,获取该伪谱对应的伪谱系数;根据预设的子带划分标准,对伪谱系数进行子带划分,获取多带分别对应的子带伪谱系数,其中预设的子带划分标准包括但不限于平均划分;根据子带伪谱系数分别计算伪谱的几何平均值与算术平均值,利用几何平均值与算术平均值计算获得平坦度;根据子带伪谱系数分别计算当前语音数据对应的谱系数中语音频带归一化能量与噪声频带归一化能量,根据语音频带归一化能量与噪声频带归一化能量计算获得信噪比;利用信噪比逐帧计算谱系数的码率判决因子,以保证码率判决因子准确率。
在本申请的一个可选实例中,当前语音数据的采样率为16kHz,帧长为10ms时,计算获取当前语音数据对应谱系数对应的伪谱,其计算公式如下:
Figure 221246DEST_PATH_IMAGE006
其中,
Figure 288559DEST_PATH_IMAGE007
, 当
Figure 837352DEST_PATH_IMAGE008
Figure 863077DEST_PATH_IMAGE003
时上述公式中的
Figure 897872DEST_PATH_IMAGE003
为谱系数的数量,
Figure 96772DEST_PATH_IMAGE004
为当前语音数据,
Figure 437754DEST_PATH_IMAGE005
为当前语音数据对应频域的谱系数,
Figure 634380DEST_PATH_IMAGE009
为谱系数对应伪谱的伪谱系数。根据上述公式计算获得的伪谱的谱系数分别为
Figure 388710DEST_PATH_IMAGE010
Figure 63405DEST_PATH_IMAGE011
;将伪谱的谱系数平均划分为16个子带,每一子带拥有10个伪谱系数,其中第1个子带的伪谱系数分别:
Figure 586790DEST_PATH_IMAGE010
Figure 954317DEST_PATH_IMAGE012
;第2个子带的伪谱系数分别:
Figure 133626DEST_PATH_IMAGE013
Figure 674329DEST_PATH_IMAGE014
;第16个子带的伪谱系数分别为:
Figure 989904DEST_PATH_IMAGE015
Figure 262753DEST_PATH_IMAGE016
在本申请的一个可选实施例中,根据子带伪谱系数计算平坦度,进一步包括:在多个子带中选中预选子带,根据预选子带的子带谱系数索引计算获取平坦度。
在该可选实施例中,根据伪谱索引选取预选子带,根据预选子带的子带谱系数计算获取平坦度,以保证平坦度的准确度。
在本申请的一个可选实例中,当前语音数据的采样率为16kHz,帧长为10ms时;在前述获得的每一子带分别对应的伪谱系数中,检索幅度最大的伪谱系数所在的子带,设该子带所在的子带谱系数索引为
Figure 991675DEST_PATH_IMAGE017
,其中
Figure 8172DEST_PATH_IMAGE018
表示为该子带的伪谱系数对应的起始索引,
Figure 443833DEST_PATH_IMAGE019
表示为该子带的带宽;使得满足
Figure 949901DEST_PATH_IMAGE020
,其中
Figure DEST_PATH_IMAGE021
为该子带的子带谱系数索引;
基于上述的子带谱系数索引,计算获取伪谱的几何平均值,其计算公式如下:
Figure 41484DEST_PATH_IMAGE022
上述公式中的
Figure 923990DEST_PATH_IMAGE023
为伪谱的几何平均值,
Figure 214157DEST_PATH_IMAGE024
为子带的带宽,
Figure DEST_PATH_IMAGE025
为最大的伪谱系数的索引,
Figure 359967DEST_PATH_IMAGE009
为谱系数对应伪谱的伪谱系数。
并根据上述的子带谱系数索引,计算获取伪谱的算术平均值,其计算公式如下:
Figure 470006DEST_PATH_IMAGE026
上述公式中的
Figure 828306DEST_PATH_IMAGE027
为伪谱的算术平均值,
Figure 300876DEST_PATH_IMAGE024
为子带的带宽,
Figure 80570DEST_PATH_IMAGE018
为最大的伪谱系数的索引,
Figure 5800DEST_PATH_IMAGE009
为谱系数对应伪谱的伪谱系数。
利用上述获得的几何平均值与算术平均值计算获取伪谱的平坦度,其计算公式如下:
Figure 167791DEST_PATH_IMAGE028
上述公式中的
Figure 432551DEST_PATH_IMAGE027
为伪谱的算术平均值,
Figure 716901DEST_PATH_IMAGE023
为伪谱的几何平均值,
Figure 67111DEST_PATH_IMAGE029
为伪谱的平坦度。
在本申请的一个可选实例中,根据语音编码的相关理论可知,语音信号的能量多集中在0~3kHz;因此在当前语音数据的采样率为16kHz,帧长为10ms,带宽为8kHz时,可将语音的频带范围设定为150~2650Hz,将噪声频带设定为2650~8000Hz,计算语音频带的归一化能量,其计算公式如下:
Figure 829531DEST_PATH_IMAGE030
其中
Figure 948797DEST_PATH_IMAGE031
,上述公式中的
Figure 607311DEST_PATH_IMAGE032
为语音频带的归一化能量,
Figure DEST_PATH_IMAGE033
为语音频带起始点的谱系数索引,
Figure 179238DEST_PATH_IMAGE034
为语音频带结束点的谱系数索引,
Figure 745348DEST_PATH_IMAGE035
为语音频带的带宽。
计算噪声频带的归一化能量,其计算公式如下:
Figure 719121DEST_PATH_IMAGE036
上述公式中的
Figure 282957DEST_PATH_IMAGE037
为噪声频带的归一化能量,
Figure 607759DEST_PATH_IMAGE038
为噪声频带起始点的谱系数索引,
Figure 711982DEST_PATH_IMAGE039
为噪声频带结束点的谱系数索引,
Figure 805839DEST_PATH_IMAGE040
为噪声频带的带宽。
计算伪谱的信噪比,其计算公式如下:
Figure 540577DEST_PATH_IMAGE041
上述公式中的
Figure 149413DEST_PATH_IMAGE042
为噪声频带的归一化能量,
Figure 260589DEST_PATH_IMAGE043
为语音频带的归一化能量,
Figure 271270DEST_PATH_IMAGE044
为子带对应伪谱的信噪比。
分别计算每一音频帧的码率判决因子,其计算公式如下:
Figure 442488DEST_PATH_IMAGE045
上述公式中的
Figure 210724DEST_PATH_IMAGE043
为噪声频带的归一化能量,
Figure 656749DEST_PATH_IMAGE046
为伪谱的平坦度,
Figure 725199DEST_PATH_IMAGE047
为码率判决因子。
图2示出了本申请优化语音编码的方法中噪声的时域波形与噪声对应伪谱的平坦度的一个可选实例。
在图2所示的实例中,图2中的横轴表示采样点的数量,纵轴表示幅值,由图2(a)可以看出噪声的幅值为-0.5~0.5,由图2(b)可以看出噪声对应伪谱的平坦度即噪声平坦度的幅值为0.8,由图2(c)可以看出噪声对应伪谱的信噪比即噪声信噪比的幅值为0~0.3。
图3出了本申请优化语音编码的方法中人声的时域波形与人声对应伪谱的平坦度的一个可选实例。
在图3所示的实例中,图3中的横轴表示采样点的数量,纵轴表示幅值,由图3(a)可以看出人声的幅值为-0.3~0.3,由图3(b)可以看出人声对应伪谱的平坦度即人声平坦度的幅值为0~0.2,语音过渡带对应伪谱的平坦度的幅值为0.4~0.8,由图3(c)可以看出人声对应伪谱的信噪比即人声信噪比的幅值为0~3×105
在图1所示的可选实施方式中,优化语音编码的方法还包括步骤S103,根据码率判决因子更新当前语音数据的码率,获取当前语音数据对应的更新码率。
在该可选实施方式中,根据前述获得的码率判决因子设定当前语音数据的更新码率,以便于后续的编码步骤根据更新码率对当前语音数据进行后续的编码步骤,直至码流封装完成编码,使得编码速率加快,系统运行速率提高。
在本申请的一个可选实施例中,根据码率判决因子更新当前语音数据的码率,获取当前语音数据对应的更新码率,进一步包括:判断码率判决因子与预设门限值之间的关系,获取更新码率,其中,若码率判决因子大于预设门限值,则将音频编码过程中的标准码率设定为更新码率,若码率判决因子小于或等于预设门限值,则根据预设的码率设定规则设定更新码率。
在该可选实施例中,根据预设门限值判断码率判决因子,用以区分当前语音数据中的人声与噪声,当码率判决因子大于预设门限值时,表示该码率判决因子对应子带所在的音频帧为人声,此时将音频编码过程中的标准码率作为该音频帧的更新码率,对该音频帧进行编码,确保人声的音质;当码率判决因子小于或等于预设门限值时,表示该码率判决因子对应子带所在的音频帧不是人声,因此,可以适当的降低码率,以降低后的更新码率对该音频帧进行编码,提高编码的速率。
图4出了本申请优化语音编码的方法中噪声的码率判决因子与人声的码率判决因子的一个可选实例。
在图4所示的实例中,图4中的横轴表示采样点的数量,纵轴表示幅值,由图4(a)可以看出噪声的码率判决因子的幅值为0~3.0,由图4(b)可以看出人声的码率判决因子的幅值相较于噪声的码率判决因子非常大。经对图4(b)进行放大,获知当预设门限值设置为40时,可以有效的区分语音与噪声。
在本申请的一个可选实施例中,根据预设的码率设定规则设定更新码率,进一步包括:判断码率判决因子所在音频帧的所属类别,根据音频帧的类别确定更新码率,其中,若音频帧为过度音,则将预设的中等码率设定为更新码率,其中中等码率不大标准码率;否则,将预设的低等码率设定为更新码率,其中,低等码率不大于中等码率,且低等码率不小于音频编码过程中的最低码率。
在该可选实施例中,由于当前语音数据中,除噪声与人声外,还存在过度音,为了使用户在听当前语音数据时,音质不受损,需要对过度音设定相应的更新码率进行传输;因此当码率判决因子小于或等于预设门限值时,判断该码率判决因子所在音频帧的所属类别是否为过度音,若音频帧为过度音,则将预设的中等码率设定为更新码率,使得过度音按照中等码率进行编码步骤,若音频帧不是过度音,即音频帧为噪声,则将预设的低等码率设定为更新码率,使得噪声按照中等码率进行编码步骤,以在保证音质的同时,提高编码效率。优选地,预设的低等码率可以设置为LC3音频编码过程中允许的最低码率。
在本申请的一个可选实施例中,判断码率判决因子与预设门限值之间的关系,获取更新码率,还包括:若码率判决因子小于或等于预设门限值,则在音频编码的过程中,取消长期后置滤波器模块。
在该可选实施例中,由于长期后置滤波器模块的作用是根据当前语音数据的基音成分,在编码器中提取相关参数,使得在解码器中根据上述相关参数对基音及其谐波进行增强,以达到提高音质的目的。在长期后置滤波器模块需要进行重采样、高通滤波、下采样、基音检测和基音延迟估计等步骤,该模块在LC3音频编解码器中为运算量相对较大的模块,且按照LC3音频编解码的标准规范,每一帧音频帧均需执行该模块的任务,需要非常大的运算量;然而实际上,在一段语音数据中包含基因的音频帧并不多,因此造成运算量非常大的消耗,导致算力的浪费。
由于只有在当码率判决因子大于预设门限值时,即音频帧为人声时才存在检测到基音帧的可能,因此本方案通过仅当更新码率为标准码率时,对该音频帧执行长期后置滤波器模块的相关操作,当更新码率为其他码率时,对该音频帧不执行长期后置滤波器模块的相关操作,以完成对当前语音数据的编码,使得编码过程运算量大大减少,提高编码的效率。
在图1所示的可选实施方式中,优化语音编码的方法还包括步骤S104,根据更新码率继续进行音频编码的后续步骤,以完成对当前语音数据的编码。
在该可选实施方式中,在根据前述获得更新码率后,根据更新的码率继续完成音频编码的后续编码步骤,以使得对当前语音数据的编码得以完成。其中,后续编码步骤包括长期后置滤波器、带宽检测、频域噪声整形、时域噪声整形、量化、噪声电平估计、算术编码与残差编码和码流封装。
图5示出了本申请一种优化语音编码的装置的可选实施方式。
在图5所示的可选实施方式中,优化语音编码的装置主要包括:时频变换模块501,其用于在音频编码的过程中,对音频编码器接收到的当前语音数据分帧,并经低延迟改进型离散余弦变换模块,获得每一帧的语音数据分别对应的谱系数;语音激活检测模块502,其用于根据谱系数计算当前语音数据对应伪谱的平坦度与信噪比,获取谱系数的码率判决因子;码率更新模块503,其用于根据码率判决因子更新当前语音数据的码率,获取当前语音数据对应的更新码率;以及编码后续模块504,其用于根据更新码率继续进行音频编码的后续步骤,以完成对当前语音数据的编码。
在本申请的一个可选实施例中,本申请一种优化语音编码的装置中各功能模块可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
本申请提供的优化语音编码的装置,可用于执行上述任一实施例描述的优化语音编码的方法,其实现原理和技术效果类似,在此不再赘述。
在本申请的另一个可选实施方式中,一种优化语音编码的装置,其包括上述方案所述的优化语音编码的装置,其中优化语音编码的装置主要包括:时频变换模块,其用于在音频编码的过程中,对音频编码器接收到的当前语音数据分帧,并经低延迟改进型离散余弦变换模块,获得每一帧的语音数据分别对应的谱系数;语音激活检测模块,其用于根据谱系数计算当前语音数据对应伪谱的平坦度与信噪比,获取谱系数的码率判决因子;码率更新模块,其用于根据码率判决因子更新当前语音数据的码率,获取当前语音数据对应的更新码率;以及编码后续模块,其用于根据更新码率继续进行音频编码的后续步骤,以完成对当前语音数据的编码。
本申请提供的优化语音编码的系统,可用于执行上述任一实施例描述的优化语音编码的方法,其实现原理和技术效果类似,在此不再赘述。
在本申请的另一个可选实施方式中,一种计算机可读存储介质,其存储有计算机指令,计算机指令被操作以执行上述实施例中描述的优化语音编码的方法。
在本申请的一个可选实施方式中,一种计算机设备,其包括:至少一个处理器;以及与至少一个处理器进行通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机指令,至少一个处理器操作计算机指令以执行上述实施例中描述的优化语音编码的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种优化语音编码的方法,其特征在于,包括:
在音频编码的过程中,对音频编码器接收到的当前语音数据分帧,并经低延迟改进型离散余弦变换模块,获得每一帧的语音数据分别对应的谱系数;
根据所述谱系数计算所述当前语音数据对应伪谱的平坦度与信噪比,并将所述平坦度与所述信噪比对应噪声频带的归一化能量之间的乘积作为所述谱系数的码率判决因子;
根据所述码率判决因子更新所述当前语音数据的码率,获取所述当前语音数据对应的更新码率;以及
根据所述更新码率继续进行所述音频编码的后续步骤,以完成对所述当前语音数据的编码。
2.根据权利要求1所述的优化语音编码的方法,其特征在于,所述根据所述谱系数计算所述当前语音数据对应伪谱的平坦度与信噪比,并将所述平坦度与所述信噪比中噪声频带的归一化能量之间的乘积作为所述谱系数的码率判决因子,进一步包括:
根据所述谱系数计算所述伪谱,获取所述伪谱对应的伪谱系数;
对所述伪谱系数进行子带划分,获取多个所述子带分别对应的子带伪谱系数;
根据所述子带伪谱系数分别计算所述平坦度与所述信噪比;以及
根据所述平坦度与所述信噪比,计算获取所述码率判决因子。
3.根据权利要求2所述的优化语音编码的方法,其特征在于,根据所述子带伪谱系数计算所述平坦度,进一步包括:
在多个所述子带中选中预选子带,并根据所述预选子带的子带谱系数索引计算获取所述平坦度。
4.根据权利要求1-3任一项所述的优化语音编码的方法,其特征在于,所述根据所述码率判决因子更新所述当前语音数据的码率,获取所述当前语音数据对应的更新码率,进一步包括:
判断所述码率判决因子与预设门限值之间的关系,获取所述更新码率,其中,若所述码率判决因子大于所述预设门限值,则将所述音频编码过程中的标准码率设定为所述更新码率,
若所述码率判决因子小于或等于所述预设门限值,则根据预设的码率设定规则设定所述更新码率。
5.根据权利要求4所述的优化语音编码的方法,其特征在于,所述根据预设的码率设定规则设定所述更新码率,进一步包括:
判断所述码率判决因子所在音频帧的所属类别,根据所述音频帧的类别确定所述更新码率,其中,
若所述音频帧为过度音,则将预设的中等码率设定为所述更新码率,其中所述中等码率不大于所述标准码率;
否则,将预设的低等码率设定为所述更新码率,其中,所述低等码率不大于所述中等码率,且所述低等码率不小于所述音频编码过程中的最低码率。
6.根据权利要求4所述的优化语音编码的方法,其特征在于,所述判断所述码率判决因子与预设门限值之间的关系,获取所述更新码率,还包括:
若所述码率判决因子小于或等于所述预设门限值,则在所述音频编码的过程中,取消长期后置滤波器模块。
7.一种优化语音编码的装置,其特征在于,包括:
时频变换模块,其用于在音频编码的过程中,对音频编码器接收到的当前语音数据分帧,并经低延迟改进型离散余弦变换模块,获得每一帧的语音数据分别对应的谱系数;
语音激活检测模块,其用于根据所述谱系数计算所述当前语音数据对应伪谱的平坦度与信噪比,并将所述平坦度与所述信噪比对应噪声频带的归一化能量之间的乘积作为所述谱系数的码率判决因子;
码率更新模块,其用于根据所述码率判决因子更新所述当前语音数据的码率,获取所述当前语音数据对应的更新码率;以及
编码后续模块,其用于根据所述更新码率继续进行所述音频编码的后续步骤,以完成对所述当前语音数据的编码。
8.一种优化语音编码的系统,其特征在于,所述优化语音编码的系统包括如权利要求7所述的优化语音编码的装置。
9.一种计算机可读存储介质,其存储有计算机指令,其特征在于,所述计算机指令被操作以执行权利要求1-6中任一项所述的优化语音编码的方法。
10.一种计算机设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器进行通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的计算机指令,所述至少一个处理器操作所述计算机指令以执行如权利要求1-6任一项所述的优化语音编码的方法。
CN202210448695.4A 2022-04-24 2022-04-24 一种优化语音编码的方法、装置、系统、介质及设备 Active CN114566174B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210448695.4A CN114566174B (zh) 2022-04-24 2022-04-24 一种优化语音编码的方法、装置、系统、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210448695.4A CN114566174B (zh) 2022-04-24 2022-04-24 一种优化语音编码的方法、装置、系统、介质及设备

Publications (2)

Publication Number Publication Date
CN114566174A CN114566174A (zh) 2022-05-31
CN114566174B true CN114566174B (zh) 2022-07-19

Family

ID=81721322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210448695.4A Active CN114566174B (zh) 2022-04-24 2022-04-24 一种优化语音编码的方法、装置、系统、介质及设备

Country Status (1)

Country Link
CN (1) CN114566174B (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070094035A1 (en) * 2005-10-21 2007-04-26 Nokia Corporation Audio coding
SG136836A1 (en) * 2006-04-28 2007-11-29 St Microelectronics Asia Adaptive rate control algorithm for low complexity aac encoding
CN101662288B (zh) * 2008-08-28 2012-07-04 华为技术有限公司 音频编码、解码方法及装置、系统
CN102543090B (zh) * 2011-12-31 2013-12-04 深圳市茂碧信息科技有限公司 一种应用于变速率语音和音频编码的码率自动控制系统
CN103035238B (zh) * 2012-11-27 2014-09-17 中国科学院自动化研究所 音频数据的编码方法及解码方法
CN104103276B (zh) * 2013-04-12 2017-04-12 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
CN108683622A (zh) * 2018-05-22 2018-10-19 电子科技大学 一种基于信号平方谱平坦系数的调制识别方法
CN111681664A (zh) * 2020-07-24 2020-09-18 北京百瑞互联技术有限公司 一种降低音频编码码率的方法、系统、存储介质及设备
CN113507606A (zh) * 2021-07-07 2021-10-15 深圳市朗强科技有限公司 超高清视频压缩算法的选择方法、选择装置及选择设备

Also Published As

Publication number Publication date
CN114566174A (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
CN103117067B (zh) 一种低信噪比下语音端点检测方法
CN113724725A (zh) 一种蓝牙音频啸叫检测抑制方法、装置、介质及蓝牙设备
CN103137133B (zh) 非激活音信号参数估计方法及舒适噪声产生方法及系统
KR101770237B1 (ko) 오디오 데이터 처리 방법, 장치 및 시스템
JP6987929B2 (ja) オーディオ信号内の雑音を推定するための方法、雑音推定器、オーディオ符号化器、オーディオ復号器、およびオーディオ信号を送信するためのシステム
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
CN113870885B (zh) 蓝牙音频啸叫检测和抑制方法、装置、介质及设备
CN112289328A (zh) 一种确定音频编码码率的方法及系统
EP3127112A1 (en) Apparatus and methods of switching coding technologies at a device
CN112599140A (zh) 一种优化语音编码速率和运算量的方法、装置及存储介质
CN114566174B (zh) 一种优化语音编码的方法、装置、系统、介质及设备
CN115881142A (zh) 一种骨导语音编码模型的训练方法、装置及存储介质
CN112992166B (zh) 一种动态调整lc3音频编码速率的方法、装置及存储介质
US10950251B2 (en) Coding of harmonic signals in transform-based audio codecs
CN113823277A (zh) 基于深度学习的关键词识别方法、系统、介质及设备
CN113205826B (zh) 一种lc3音频噪声消除方法、装置及存储介质
CN114863942B (zh) 音质转换的模型训练方法、提升语音音质的方法及装置
CN115527545A (zh) 一种音频带宽扩展方法、装置、编码方法及介质
CN116504256A (zh) 一种语音编码方法、装置、介质、设备和程序产品
CN116884423A (zh) 混响检测与抑制方法、系统、介质及设备
CN114743559A (zh) 一种语音降噪方法、装置、系统、介质及设备
CN115188388A (zh) 一种音频后置滤波方法、装置、存储介质及设备
CN114999503A (zh) 一种基于生成对抗网络的全带宽谱系数生成方法及系统
CN115346549A (zh) 一种基于深度学习的音频带宽扩展方法、系统及编码方法
CN114582371A (zh) 基于谱平坦度的啸叫检测及抑制方法、系统、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: A1009, floor 9, block a, No. 9, Shangdi Third Street, Haidian District, Beijing 100085

Patentee after: Beijing Bairui Internet Technology Co.,Ltd.

Address before: A1009, floor 9, block a, No. 9, Shangdi Third Street, Haidian District, Beijing 100085

Patentee before: BARROT WIRELESS Co.,Ltd.