CN112735449B - 优化频域噪声整形的音频编码方法及装置 - Google Patents

优化频域噪声整形的音频编码方法及装置 Download PDF

Info

Publication number
CN112735449B
CN112735449B CN202011600985.3A CN202011600985A CN112735449B CN 112735449 B CN112735449 B CN 112735449B CN 202011600985 A CN202011600985 A CN 202011600985A CN 112735449 B CN112735449 B CN 112735449B
Authority
CN
China
Prior art keywords
audio signal
frame
speech
noise shaping
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011600985.3A
Other languages
English (en)
Other versions
CN112735449A (zh
Inventor
李强
王尧
叶东翔
朱勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Barrot Wireless Co Ltd
Original Assignee
Barrot Wireless Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Barrot Wireless Co Ltd filed Critical Barrot Wireless Co Ltd
Priority to CN202011600985.3A priority Critical patent/CN112735449B/zh
Publication of CN112735449A publication Critical patent/CN112735449A/zh
Application granted granted Critical
Publication of CN112735449B publication Critical patent/CN112735449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明公开了一种优化频域噪声整形的音频编码方法及装置,属于音频编解码技术领域。该方法包括:根据经过低延迟改进型离散余弦变换的音频信号计算音频信号的语音能量熵;根据音频信号的当前帧的语音能量熵及预设的门限值对当前帧是否为非语音帧进行判断得到非语音帧音频信号;对非语音帧音频信号在经过频域噪声整形的第一阶段分裂矢量量化之后,不进行频域噪声整形过程的第二阶段金字塔矢量量化。本发明的应用通过增加少量运算,在音质几乎不变的情况下减少了频域噪声整形模块调用第二阶段金字塔矢量量化的次数,降低了频域噪声整形模块的总体运算量。

Description

优化频域噪声整形的音频编码方法及装置
技术领域
本申请涉及音频编解码领域,特别是一种优化频域噪声整形的音频编码方法及装置。
背景技术
在LC3蓝牙音频编码器中,频域噪声整形模块(Spectral Noise Shaping,简称SNS)属于比较复杂且消耗资源较多的模块,在实验测试中频域噪声整形模块所消耗的计算资源平均占比约为17.77%。
在频域噪声整形模块编码过程中包括比例因子计算估计步骤、第一阶段分裂矢量量化步骤、第二阶段金字塔矢量量化步骤、比例因子内插步骤以及频谱整形步骤,在上述步骤中,第二阶段金字塔矢量量化步骤复杂度最高、运算量最大。但在实际的音频编码过程中,特别是蓝牙领域通话时,音频信号通常有语音部分也有非语音部分,对非语音部分调用第二阶段金字塔矢量量化步骤或不调用第二阶段金字塔矢量量化步骤实际上几乎不会影响音质,而且对非语音部分调用第二阶段金字塔矢量量化步骤会增加频域噪声整形模块的运算量。
发明内容
本发明提供一种优化频域噪声整形的音频编码方法及装置,通过增加少量运算,在音质几乎不变的情况下减少了频域噪声整形模块调用第二阶段金字塔矢量量化的次数,降低了频域噪声整形模块的总体运算量。
为了解决上述问题,本发明采用的一个技术方案是:提供一种优化频域噪声整形的音频编码方法,包括:
根据经过低延迟改进型离散余弦变换的音频信号计算音频信号的语音能量熵;
根据音频信号的当前帧的语音能量熵及预设的门限值对当前帧是否为非语音帧进行判断得到非语音帧音频信号;
对非语音帧音频信号在经过频域噪声整形的第一阶段分裂矢量量化之后,不进行所频域噪声整形过程的第二阶段金字塔矢量量化。
本发明采用的另一个技术方案是:提供一种优化频域噪声整形的音频编码装置,其包括:
用于根据经过低延迟改进型离散余弦变换的音频信号计算音频信号的语音能量熵的模块;
用于根据音频信号的当前帧的语音能量熵及预设的门限值对当前帧是否为非语音帧进行判断得到非语音帧音频信号的模块;
用于对非语音帧音频信号在经过频域噪声整形的第一阶段分裂矢量量化之后,不进行频域噪声整形过程的第二阶段金字塔矢量量化的模块。
本申请技术方案可以达到的有益效果是:此方法通过增加少量运算,在音质几乎不变的情况下减少了频域噪声整形模块调用第二阶段金字塔矢量量化的次数,降低了频域噪声整形模块的总体运算量。
附图说明
图1为本发明一种优化频域噪声整形的音频编码方法一个实施方式的示意图;
图2为本发明一种优化频域噪声整形的音频编码装置另一个实施方式的示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
图1所示为本发明一种优化频域噪声整形的音频编码方法一个实施方式的示意图。
在该具体实施方式中,优化频域噪声整形的音频编码方法主要包括:过程S101:根据经过低延迟改进型离散余弦变换的音频信号计算音频信号的语音能量熵;过程S102:根据音频信号的当前帧的语音能量熵及预设的门限值对当前帧是否为非语音帧进行判断得到非语音帧音频信号;过程S103:对非语音帧音频信号在经过频域噪声整形的第一阶段分裂矢量量化之后,不进行所频域噪声整形过程的第二阶段金字塔矢量量化。
在图1所示的具体实施方式中,本申请的优化频域噪声整形的音频编码方法包括过程S101,根据经过低延迟改进型离散余弦变换的音频信号计算音频信号的语音能量熵,此过程便于进一步对音频信号的当前帧是否为非语音帧进行判断。
在本发明的一个具体实施例中,上述根据经过低延迟改进型离散余弦变换的音频信号计算音频信号的语音能量熵的过程包括,根据经过低延迟改进型离散余弦变换的音频信号计算音频信号的语音子带能量;根据音频信号的语音子带能量计算音频信号的语音子带总能量;根据音频信号的语音子带总能量计算音频信号的语音子带能量概率;根据音频信号的语音子带能量概率计算音频信号的语音能量熵。此过程便于进一步对音频信号的当前帧是否为非语音帧进行判断。
在本发明的一个具体实例中,上述根据经过低延迟改进型离散余弦变换的音频信号计算音频信号的语音子带能量的过程包括,经过低延迟改进型离散余弦变换的音频信号已经成为频域信号,实际上是根据频域信号计算其语音子带能量。对于任意的采样率,将0~4000Hz分为若干个语音子带,0~4000Hz的语音子带数表示为subband_num,每个语音子带占据蓝牙信道的带宽表示为subband_width,每个语音子带占据蓝牙信道的带宽计算方法如公式1,
Figure BDA0002871379030000031
例如当语音子带数subband_num为20时,每个语音子带占据蓝牙信道的带宽subband_width为200。
语音子带能量计算方法如公式2,
Figure BDA0002871379030000032
在本发明的一个具体实例中,上述根据音频信号的语音子带能量计算音频信号的语音子带总能量的过程包括,语音子带总能量计算方法如公式3,
Figure BDA0002871379030000033
通常认为有效的语音频带是300Hz~3400Hz,该具体实例中取200Hz~3600Hz。
在本发明的一个具体实例中,上述根据音频信号的语音子带总能量计算音频信号的语音子带能量概率的过程包括,语音子带能量概率计算方法如公式4,
Figure BDA0002871379030000034
在本发明的一个具体实例中,上述根据音频信号的语音子带能量概率计算音频信号的语音能量熵的过程包括,语音能量熵计算方法如公式5,
Figure BDA0002871379030000041
在图1所示的具体实施方式中,本申请的优化频域噪声整形的音频编码方法包括过程S102,根据音频信号的当前帧的语音能量熵及预设的门限值对当前帧是否为非语音帧进行判断得到非语音帧音频信号。此过程筛选出非语音帧音频信号,以便于进一步减少频域噪声整形模块调用第二阶段金字塔矢量量化的次数,降低频域噪声整形模块的总体运算量。
在本发明的一个具体实施例中,上述根据音频信号的当前帧的语音能量熵及预设的门限值对当前帧是否为非语音帧进行判断得到非语音帧音频信号的过程包括,根据状态转移计数器的当前值对当前帧是语音帧、疑似语音帧还是非语音帧进行判断,得到语音帧音频信号、疑似语音帧音频信号或者非语音帧音频信号。此过程以便于避免将语音帧或疑似语音帧误判为非语音帧,导致后续编码造成音质降低的问题。
在本发明的一个具体实施例中,上述优化频域噪声整形的音频编码方法的过程还包括,根据当前帧的判断结果,对状态转移计数器的当前值进行设置或者对第二阶段金字塔矢量量化的输出索引和输出向量进行设置。此过程对状态转移计数器的当前值进行设置,以便于减少过渡时间,保证编码音质几乎不变,对第二阶段金字塔矢量量化的输出索引和输出向量进行设置,以便于非语音帧进一步顺利进行后续编码。
在本发明的一个具体实施例中,上述根据状态转移计数器的当前值对当前帧是语音帧、疑似语音帧还是非语音帧进行判断,得到语音帧音频信号、疑似语音帧音频信号或者非语音帧音频信号的过程包括,根据状态转移计数器的当前值对音频信号的当前帧的前一帧音频信号是否被判断为非语音帧进行判断。此过程以便于防止在语音帧或者疑似语音帧转换为非语音帧的过程中产生的误判。
在本发明的一个具体实例中,上述根据状态转移计数器的当前值对音频信号的当前帧的前一帧音频信号是否被判断为非语音帧进行判断的过程包括,状态转移计数器的当前值通常为0到5,当状态转移计数器的当前值为0时,表示当前帧的前一帧音频信号一定是非语音帧音频信号,并且是按照非语音帧进行编码的,当状态转移计数器的当前值为1到5时,表示当前帧的前一帧音频信号为语音帧或疑似语音帧,并且都是按照语音帧进行编码的。
在本发明的一个具体实施例中,上述根据状态转移计数器的当前值对当前帧是语音帧、疑似语音帧还是非语音帧进行判断,得到语音帧音频信号、疑似语音帧音频信号或者非语音帧音频信号的过程包括,当当前帧的语音能量熵大于门限值并且前一帧音频信号被判断为非语音帧时,将当前帧判断为非语音帧音频信号;当当前帧的语音能量熵大于门限值并且前一帧音频信号被判断为语音帧时,将当前帧判断为疑似语音帧音频信号;当当前帧的语音能量熵不大于门限值时,将当前帧判断为语音帧音频信号。此过程将音频信号划分为语音帧音频信号、疑似语音帧音频信号或者非语音帧音频信号,以便于进一步在非语音帧音频信号编码时,跳过第二阶段金字塔矢量量化,降低运算量。
在本发明的一个具体实例中,上述门限值取0.8。当当前帧的语音能量熵低于0.8时,其含义为谱较为不平坦,其预示有较大概率是语音帧,需要执行完整的频域噪声整形模块的计算;否则,其含义为谱比较平坦,其预示有较大概率是非语音帧,此时对于比例因子的残差是否量化对音质没有影响或影响很小,所以跳过第二阶段金字塔矢量量化步骤。
在本发明的一个具体实例中,上述当当前帧的语音能量熵大于门限值并且前一帧音频信号被判断为非语音帧时,将当前帧判断为非语音帧音频信号的过程表示,当前帧的语音能量熵大于0.8,并且状态转移计数器的当前值为0,则将当前帧判断为非语音帧音频信号。
在本发明的一个具体实例中,上述当当前帧的语音能量熵大于门限值并且前一帧音频信号被判断为语音帧时,将当前帧判断为疑似语音帧音频信号的过程表示,当前帧的语音能量熵大于0.8,并且状态转移计数器的当前值为1到5,则将当前帧判断为疑似语音帧音频信号。
在本发明的一个具体实例中,上述当当前帧的语音能量熵不大于门限值时,将当前帧判断为语音帧音频信号的过程表示,当前帧的语音能量熵不大于0.8,无论前一帧音频信号被判断为语音帧或非语音帧,都将当前帧判断为语音帧音频信号。
在本发明的一个具体实施例中,上述根据当前帧的判断结果,对状态转移计数器的当前值进行设置或者对第二阶段金字塔矢量量化的输出索引和输出向量进行设置的过程包括,当当前帧被判断为非语音帧时,将第二阶段金字塔矢量量化的输出索引和输出向量清零;当当前帧被判断为语音帧时,状态转移计数器的当前值设置为一预设的安全值;当当前帧被判断为疑似语音帧时,状态转移计数器的当前值减去预设值。此过程对状态转移计数器的当前值进行设置,以便于减少过渡时间,保证编码音质几乎不变,对第二阶段金字塔矢量量化的输出索引和输出向量进行设置,以便于非语音帧进一步顺利进行后续编码。
在本发明的一个具体实例中,上述当当前帧被判断为非语音帧时,将第二阶段金字塔矢量量化的输出索引和输出向量清零的过程包括,当当前帧被判断为非语音帧时,将规范中规定的第二阶段金字塔矢量量化的输出索引清0,即index[i]=0,i=2,3,4,5,6;将第二阶段金字塔矢量量化的输出向量清0,即st2_vector[k]=0,k=0,1,2,…,15。
在本发明的一个具体实例中,上述当当前帧被判断为语音帧时,状态转移计数器的当前值设置为一预设的安全值的过程包括,当前帧的语音能量熵不大于0.8,无论前一帧音频信号被判断为语音帧或非语音帧,都将当前帧判断为语音帧音频信号,将状态转移计数器的当前值设置为一预设的安全值,例如将安全值设置为5,表示在语音帧过渡到非语音帧前,将5帧过渡帧视为语音帧编码。
在本发明的一个具体实例中,上述当当前帧被判断为疑似语音帧时,状态转移计数器的当前值减去预设值的过程包括,当前帧的语音能量熵大于0.8,并且状态转移计数器的当前值为1到5,则将当前帧判断为疑似语音帧音频信号,将状态转移计数器的当前值减去预设值,例如取预设值为1,表示距离过渡到非语音帧又近了一步。
在图1所示的具体实施方式中,本申请的优化频域噪声整形的音频编码方法包括过程S103,对非语音帧音频信号在经过频域噪声整形的第一阶段分裂矢量量化之后,不进行频域噪声整形过程的第二阶段金字塔矢量量化。此过程减少频域噪声整形模块调用第二阶段金字塔矢量量化的次数,以便于降低频域噪声整形模块的总体运算量。
图2所示为本发明一种优化频域噪声整形的音频编码装置另一个实施方式的示意图。
在该具体实施方式中优化频域噪声整形的音频编码装置主要包括:模块201:用于根据经过低延迟改进型离散余弦变换的音频信号计算音频信号的语音能量熵的模块;模块202:用于根据音频信号的当前帧的语音能量熵及预设的门限值对当前帧是否为非语音帧进行判断得到非语音帧音频信号的模块;以及模块203:用于对非语音帧音频信号在经过频域噪声整形的第一阶段分裂矢量量化之后,不进行频域噪声整形过程的第二阶段金字塔矢量量化的模块。
在本发明的一个具体实施例中,上述优化频域噪声整形的音频编码装置还包括,用于根据当前帧的判断结果,对状态转移计数器的当前值进行设置或者对第二阶段金字塔矢量量化的输出索引和输出向量进行设置的模块。此模块对状态转移计数器的当前值进行设置,以便于减少过渡时间,保证编码音质几乎不变,对第二阶段金字塔矢量量化的输出索引和输出向量进行设置,以便于非语音帧进一步顺利进行后续编码。
在本发明的一个具体实施例中,上述模块202:用于根据音频信号的当前帧的语音能量熵及预设的门限值对当前帧是否为非语音帧进行判断得到非语音帧音频信号的模块还包括,用于根据状态转移计数器的当前值对当前帧是语音帧、疑似语音帧还是非语音帧进行判断,得到语音帧音频信号、疑似语音帧音频信号或者非语音帧音频信号的子模块。此子模块以便于避免将语音帧或疑似语音帧误判为非语音帧,导致后续编码造成音质降低的问题。
在本发明的一个具体实施例中,模块201:用于根据经过低延迟改进型离散余弦变换的音频信号计算音频信号的语音能量熵的模块,其工作内容还包括,根据经过低延迟改进型离散余弦变换的音频信号计算音频信号的语音子带能量;根据音频信号的语音子带能量计算音频信号的语音子带总能量;根据音频信号的语音子带总能量计算音频信号的语音子带能量概率;根据音频信号的语音子带能量概率计算音频信号的语音能量熵。此过程便于进一步对音频信号的当前帧是否为非语音帧进行判断。
在本发明的一个具体实施例中,上述用于根据状态转移计数器的当前值对当前帧是语音帧、疑似语音帧还是非语音帧进行判断,得到语音帧音频信号、疑似语音帧音频信号或者非语音帧音频信号的子模块,其工作内容还包括,根据状态转移计数器的当前值对音频信号的当前帧的前一帧音频信号是否被判断为非语音帧进行判断。此过程以便于防止在语音帧或者疑似语音帧转换为非语音帧的过程中产生的误判。
在本发明的一个具体实施例中,上述用于根据状态转移计数器的当前值对当前帧是语音帧、疑似语音帧还是非语音帧进行判断,得到语音帧音频信号、疑似语音帧音频信号或者非语音帧音频信号的子模块,其工作内容还包括,当当前帧的语音能量熵大于门限值并且前一帧音频信号被判断为非语音帧时,将当前帧判断为非语音帧音频信号;当当前帧的语音能量熵大于门限值并且前一帧音频信号被判断为语音帧时,将当前帧判断为疑似语音帧音频信号;当当前帧的语音能量熵不大于门限值时,将当前帧判断为语音帧音频信号。此过程将音频信号划分为语音帧音频信号、疑似语音帧音频信号或者非语音帧音频信号,以便于进一步在非语音帧音频信号编码时,跳过第二阶段金字塔矢量量化,降低运算量。
在本发明的一个具体实施例中,上述用于根据当前帧的判断结果,对状态转移计数器的当前值进行设置或者对第二阶段金字塔矢量量化的输出索引和输出向量进行设置的模块,其工作内容还包括,当当前帧被判断为非语音帧时,将第二阶段金字塔矢量量化的输出索引和输出向量清零;当当前帧被判断为语音帧时,状态转移计数器的当前值设置为一预设的安全值;当当前帧被判断为疑似语音帧时,状态转移计数器的当前值减去预设值。此过程以便于非语音帧进一步顺利进行后续编码,并且保证编码音质几乎不变。
通过本发明优化频域噪声整形的音频编码装置的应用,增加少量运算,在音质几乎不变的情况下减少了频域噪声整形模块调用第二阶段金字塔矢量量化的次数,降低了频域噪声整形模块的总体运算量。
本发明提供的优化频域噪声整形的音频编码装置,可用于执行上述任一实施例描述的优化频域噪声整形的音频编码方法,其实现原理和技术效果类似,在此不再赘述。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
在本申请所提供的实施方式中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (9)

1.一种优化频域噪声整形的音频编码方法,其特征在于,包括:
根据经过低延迟改进型离散余弦变换的音频信号计算所述音频信号的语音能量熵;
根据状态转移计数器的当前值、所述音频信号的当前帧的所述语音能量熵及预设的门限值,对所述当前帧进行判断得到非语音帧音频信号、疑似语音帧音频信号或者语音帧音频信号;
当所述当前帧是非语音帧频信号时,对所述非语音帧音频信号在经过频域噪声整形的第一阶段分裂矢量量化之后,不进行所述频域噪声整形过程的第二阶段金字塔矢量量化;
当所述当前帧是疑似语音帧音频信号或者语音帧音频信号时,对所述疑似语音帧音频信号或者语音帧音频信号在经过频域噪声整形的第一阶段分裂矢量量化之后,进行所述频域噪声整形过程的第二阶段金字塔矢量量化;以及
对所述当前帧进行后续编码处理,得到编码结果;
其中,根据所述状态转移计数器的所述当前值对所述音频信号的所述当前帧的前一帧音频信号是否被判断为所述非语音帧进行判断。
2.如权利要求1所述的优化频域噪声整形的音频编码方法,其特征在于,所述根据经过低延迟改进型离散余弦变换的音频信号计算所述音频信号的语音能量熵的过程包括,
根据经过低延迟改进型离散余弦变换的音频信号计算所述音频信号的语音子带能量;
根据所述音频信号的语音子带能量计算所述音频信号的语音子带总能量;
根据所述音频信号的语音子带总能量计算所述音频信号的语音子带能量概率;
根据所述音频信号的所述语音子带能量概率计算所述音频信号的所述语音能量熵。
3.如权利要求1所述的优化频域噪声整形的音频编码方法,其特征在于,所述根据状态转移计数器的当前值、所述音频信号的当前帧的所述语音能量熵及预设的门限值,对所述当前帧进行判断得到非语音帧音频信号、疑似语音帧音频信号或者语音帧音频信号的过程包括,
根据所述当前帧的上一帧的判断结果,对所述状态转移计数器的所述当前值进行设置。
4.如权利要求1所述的优化频域噪声整形的音频编码方法,其特征在于还包括,对所述第二阶段金字塔矢量量化的输出索引和输出向量进行设置。
5.如权利要求1所述的优化频域噪声整形的音频编码方法,其特征在于,所述根据状态转移计数器的当前值、所述音频信号的当前帧的所述语音能量熵及预设的门限值,对所述当前帧进行判断得到非语音帧音频信号、疑似语音帧音频信号或者语音帧音频信号的过程包括,
当所述当前帧的所述语音能量熵大于所述门限值并且前一帧音频信号被判断为所述非语音帧时,将所述当前帧判断为所述非语音帧音频信号;
当所述当前帧的所述语音能量熵大于所述门限值并且所述前一帧音频信号被判断为所述语音帧时,将所述当前帧判断为所述疑似语音帧音频信号;
当所述当前帧的所述语音能量熵不大于所述门限值时,将所述当前帧判断为所述语音帧音频信号。
6.如权利要求4所述的优化频域噪声整形的音频编码方法,其特征在于,所述对所述第二阶段金字塔矢量量化的输出索引和输出向量进行设置的过程包括,
当所述当前帧被判断为所述非语音帧时,将所述第二阶段金字塔矢量量化的输出索引和输出向量清零;
当所述当前帧被判断为所述语音帧时,所述状态转移计数器的所述当前值设置为一预设的安全值;
当所述当前帧被判断为所述疑似语音帧时,所述状态转移计数器的所述当前值减去预设值。
7.一种优化频域噪声整形的音频编码装置,其特征在于,包括:
用于根据经过低延迟改进型离散余弦变换的音频信号计算所述音频信号的语音能量熵的模块;
用于根据状态转移计数器的当前值、所述音频信号的当前帧的所述语音能量熵及预设的门限值,对所述当前帧进行判断得到非语音帧音频信号、疑似语音帧音频信号或者语音帧音频信号的模块;
用于当所述当前帧是非语音帧频信号时,对所述非语音帧音频信号在经过频域噪声整形的第一阶段分裂矢量量化之后,不进行所述频域噪声整形过程的第二阶段金字塔矢量量化;
用于当所述当前帧是疑似语音帧音频信号或者语音帧音频信号时,对所述疑似语音帧音频信号或者语音帧音频信号在经过频域噪声整形的第一阶段分裂矢量量化之后,进行所述频域噪声整形过程的第二阶段金字塔矢量量化的模块;以及
用于对所述当前帧进行后续编码处理,得到编码结果的模块;
其中,根据所述状态转移计数器的所述当前值对所述音频信号的所述当前帧的前一帧音频信号是否被判断为所述非语音帧进行判断。
8.如权利要求7所述的优化频域噪声整形的音频编码装置,其特征在于,还包括
用于对第二阶段金字塔矢量量化的输出索引和输出向量进行设置的模块。
9.如权利要求7所述的优化频域噪声整形的音频编码装置,其特征在于,所述用于根据状态转移计数器的当前值、所述音频信号的当前帧的所述语音能量熵及预设的门限值,对所述当前帧进行判断得到非语音帧音频信号、疑似语音帧音频信号或者语音帧音频信号的模块包括,用于根据所述当前帧的上一帧的判断结果,对所述状态转移计数器的所述当前值进行设置。
CN202011600985.3A 2020-12-30 2020-12-30 优化频域噪声整形的音频编码方法及装置 Active CN112735449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011600985.3A CN112735449B (zh) 2020-12-30 2020-12-30 优化频域噪声整形的音频编码方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011600985.3A CN112735449B (zh) 2020-12-30 2020-12-30 优化频域噪声整形的音频编码方法及装置

Publications (2)

Publication Number Publication Date
CN112735449A CN112735449A (zh) 2021-04-30
CN112735449B true CN112735449B (zh) 2023-04-14

Family

ID=75611597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011600985.3A Active CN112735449B (zh) 2020-12-30 2020-12-30 优化频域噪声整形的音频编码方法及装置

Country Status (1)

Country Link
CN (1) CN112735449B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951251B (zh) * 2021-05-13 2021-08-06 北京百瑞互联技术有限公司 一种lc3音频混合方法、装置及存储介质
CN112951252B (zh) * 2021-05-13 2021-08-03 北京百瑞互联技术有限公司 一种lc3音频码流的混音方法、装置、介质及设备
CN113643713B (zh) * 2021-10-13 2021-12-24 北京百瑞互联技术有限公司 一种蓝牙音频编码方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1285945A (zh) * 1998-01-07 2001-02-28 艾利森公司 一种用于对声音编码、同时抑制声学背景噪声的系统和方法
CN101609681A (zh) * 2008-06-18 2009-12-23 北京工业大学 编码方法、编码器、解码方法及解码器
CN105264597A (zh) * 2013-01-29 2016-01-20 弗劳恩霍夫应用研究促进协会 感知转换音频编码中的噪声填充
CN110050304A (zh) * 2016-12-16 2019-07-23 瑞典爱立信有限公司 用于处理包络表示系数的方法、编码器和解码器
CN111681663A (zh) * 2020-07-24 2020-09-18 北京百瑞互联技术有限公司 一种降低音频编码运算量的方法、系统、存储介质及设备
CN112002338A (zh) * 2020-09-01 2020-11-27 北京百瑞互联技术有限公司 一种优化音频编码量化次数的方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
GB2466670B (en) * 2009-01-06 2012-11-14 Skype Speech encoding

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1285945A (zh) * 1998-01-07 2001-02-28 艾利森公司 一种用于对声音编码、同时抑制声学背景噪声的系统和方法
CN101609681A (zh) * 2008-06-18 2009-12-23 北京工业大学 编码方法、编码器、解码方法及解码器
CN105264597A (zh) * 2013-01-29 2016-01-20 弗劳恩霍夫应用研究促进协会 感知转换音频编码中的噪声填充
CN110050304A (zh) * 2016-12-16 2019-07-23 瑞典爱立信有限公司 用于处理包络表示系数的方法、编码器和解码器
CN111681663A (zh) * 2020-07-24 2020-09-18 北京百瑞互联技术有限公司 一种降低音频编码运算量的方法、系统、存储介质及设备
CN112002338A (zh) * 2020-09-01 2020-11-27 北京百瑞互联技术有限公司 一种优化音频编码量化次数的方法及系统

Also Published As

Publication number Publication date
CN112735449A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN112735449B (zh) 优化频域噪声整形的音频编码方法及装置
US10446162B2 (en) System, method, and non-transitory computer readable medium storing a program utilizing a postfilter for filtering a prefiltered audio signal in a decoder
RU2641464C1 (ru) Способ, устройство и система для обработки аудиоданных
RU2417456C2 (ru) Системы, способы и устройства для обнаружения изменения сигналов
CN105210149A (zh) 用于音频信号解码或编码的时域电平调整
CN111681663B (zh) 一种降低音频编码运算量的方法、系统、存储介质及设备
US11257506B2 (en) Decoding device, encoding device, decoding method, and encoding method
US10984811B2 (en) Audio coding method and related apparatus
EP3550563B1 (en) Encoder, decoder, encoding method, decoding method, and associated programs
CN114550732A (zh) 一种高频音频信号的编解码方法和相关装置
AU2023254936A1 (en) Multi-channel signal generator, audio encoder and related methods relying on a mixing noise signal
CN112951251B (zh) 一种lc3音频混合方法、装置及存储介质
EP2229675A1 (en) Apparatus and method of enhancing quality of speech codec
CN112599140A (zh) 一种优化语音编码速率和运算量的方法、装置及存储介质
EP3707713B1 (en) Controlling bandwidth in encoders and/or decoders
CN112995425B (zh) 一种等响度混音方法及装置
EP3975174A1 (en) Stereo coding method and device, and stereo decoding method and device
EP3975175A1 (en) Stereo encoding method, stereo decoding method and devices
TW200906199A (en) Audio encoding method with function of accelerating a quantization iterative loop process
CN112002338A (zh) 一种优化音频编码量化次数的方法及系统
CN113205826B (zh) 一种lc3音频噪声消除方法、装置及存储介质
CN113539277B (zh) 一种保护听力的蓝牙音频解码方法、装置、介质及设备
CN116884423A (zh) 混响检测与抑制方法、系统、介质及设备
CN116504256A (zh) 一种语音编码方法、装置、介质、设备和程序产品
KR100547898B1 (ko) 오디오 정보 제공 시스템 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: A1009, floor 9, block a, No. 9, Shangdi Third Street, Haidian District, Beijing 100085

Patentee after: Beijing Bairui Internet Technology Co.,Ltd.

Address before: 7-1-1, building C, 7 / F, building 2-1, No.2, Shangdi Information Road, Haidian District, Beijing 100085

Patentee before: BARROT WIRELESS Co.,Ltd.