CN112995425B - 一种等响度混音方法及装置 - Google Patents
一种等响度混音方法及装置 Download PDFInfo
- Publication number
- CN112995425B CN112995425B CN202110520103.0A CN202110520103A CN112995425B CN 112995425 B CN112995425 B CN 112995425B CN 202110520103 A CN202110520103 A CN 202110520103A CN 112995425 B CN112995425 B CN 112995425B
- Authority
- CN
- China
- Prior art keywords
- current frame
- audio
- loudness
- spectral coefficient
- audio spectral
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Abstract
本发明公开了一种等响度混音方法及装置,属于音频编解码、语音合成技术领域。该方法主要包括将多路LC3音频码流分别进行进行部分LC3解码步骤,得到每一路音频码流的当前帧音频谱系数;计算得到全部或者部分当前帧音频谱系数的当前帧响度,并根据所有当前帧响度计算得到每一个当前帧响度对应的当前帧音频谱系数的权重;根据每一个当前帧响度对应的当前帧音频谱系数的权重对相应当前帧音频谱系数进行调节,并将所有调节后的当前帧音频谱系数进行混合得到当前帧混合音频谱系数。本发明能够减少混音时的运算量,同时实现了等响度混音为电话会议提供更好的体验。
Description
技术领域
本发明涉及音频编解码、蓝牙音频、语音合成技术领域,特别涉及一种等响度混音方法及装置。
背景技术
随着LC3编解码器的大规模商用,其在会议电话中得到了广泛的应用。在会议电话中多路音频信号的响度常常存在差异,将这些存在响度差异的音频信号进行混音时混音后的音频信号也会存在响度差异,这种现象导致用户听到的各路响度大小不同,给用户带来糟糕的使用体验,影响了会议的效果。
现有技术在对响度大小不同的音频信号进行调节时,如图1所示,如CN201610939143.8需将语音信号经DFT(离散傅里叶变换)至频域以计算响度,并根据每一路语音信号的响度占总响度的比值来计算每一路语音的权重,基于此权重调节待混音的语音信号,最后得到等响度的各路语音,然后再混音,该方法算法复杂且计算量大。
发明内容
针对现有技术存在的问题,本发明主要提供一种等响度混音方法及装置。
为了实现上述目的,本发明采用的一个技术方案是:提供一种等响度混音的方法,其包括:将多路LC3音频码流分别进行部分LC3解码步骤,得到每一路音频码流的当前帧音频谱系数;计算得到全部或者部分当前帧音频谱系数的当前帧响度,并根据所有当前帧响度计算得到每一个当前帧响度对应的当前帧音频谱系数的权重;以及,根据每一个当前帧响度对应的当前帧音频谱系数的权重对相应当前帧音频谱系数进行调节,并将所有调节后的当前帧音频谱系数进行混合得到当前帧混合音频谱系数;其中,部分LC3解码步骤包括码流解析、算术及残差解码步骤、噪声填充步骤、全局增益步骤、时域噪声整形解码步骤和变换域噪声整形解码步骤。
本发明采用的另一个技术方案是:提供一种等响度混音装置,其包括:谱系数获取模块,用于将多路LC3音频码流分别进行部分LC3解码步骤,得到每一路音频码流的当前帧音频谱系数;谱系数权重计算模块,用于计算得到全部或者部分当前帧音频谱系数的当前帧响度,并根据所有当前帧响度计算得到每一个当前帧响度对应的当前帧音频谱系数的权重;以及,
谱系数权重调节及混合模块,用于根据每一个当前帧响度对应的当前帧音频谱系数的权重对相应当前帧音频谱系数进行调节,并将所有调节后的当前帧音频谱系数进行混合得到当前帧混合音频谱系数;其中,部分LC3解码步骤包括码流解析、算术及残差解码步骤、噪声填充步骤、全局增益步骤、时域噪声整形解码步骤和变换域噪声整形解码步骤。
本发明的技术方案可以达到的有益效果是:本发明设计了等响度混音方法及装置。该方法能够减少混音时的运算量,同时实现等响度混音,为蓝牙语音通话提供更好地环境。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术中实现等响度混音方法的一个具体实施例的示意图;
图2是现有技术中实现等响度混音方法的另一个具体实施例的示意图;
图3是本发明一种等响度混音方法的一个具体实施方式的示意图;
图4是本发明一种等响度混音方法一个具体实施例中进行语音检测的工作流程示意图;
图5是本发明一种等响度混音方法的一个具体实施例的示意图;
图6是标准的LC3解码过程的示意图;
图7是标准的LC3编码过程的示意图;
图8是本发明一种等响度混音装置的另一个具体实施方式的示意图。
通过上述附图,已示出本发明的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在一些需要对多路LC3语音进行混音的场景下,多路音频信号的响度常常存在差异,将这些存在响度差异的音频信号进行混音时混音后的音频信号也会存在响度差异,这种现象导致用户听到的各路响度大小不同,给用户带来糟糕的使用体验。
对LC3音频进行混音有两种混音方案,如图2所示。
分布式混音方案:多路音频解码后在时域混音、饱和处理、然后输出到音箱;
集中式混音方案:多路音频解码后在时域混音、饱和处理、编码、然后通过网络传输到终端;
用现有技术中的对响度大小不同的音频信号进行调节方法,对多路LC3音频根据响度大小,进行调节时,分布式混音方案和集中式混音方案都需要执行完整的LC3解码之后再执行DFT,运算量也很大;并且,集中式混音方案中还需要执行完整的编码,运算量更大。
图3示出了本发明一种等响度混音方法的一个具体实施方式。
在该具体实施方式中,等响度混音方法主要包括步骤S101,将多路LC3音频码流分别进行部分LC3解码步骤,得到每一路音频码流的当前帧音频谱系数;步骤S102,计算得到全部或者部分当前帧音频谱系数的当前帧响度,并根据所有当前帧响度计算得到每一个当前帧响度对应的当前帧音频谱系数的权重;以及,步骤S103,根据每一个当前帧响度对应的当前帧音频谱系数的权重对相应当前帧音频谱系数进行调节,并将所有调节后的当前帧音频谱系数进行混合得到当前帧混合音频谱系数;其中,部分LC3解码步骤包括码流解析、算术及残差解码步骤、噪声填充步骤、全局增益步骤、时域噪声整形解码步骤和变换域噪声整形解码步骤。
在本发明的一个具体实施例中,将多路LC3编码码流输入到LC3解码器中,经过LC3解码器中的码流解析、算术及残差解码、噪声填充、全局增益、时域噪声整形解码和变换域噪声整形解码处理,将LC3编码码流解码成为音频谱系数,然后将各路音频谱系数进行响度计算和权重调节,将调节后的各路音频谱系数相加得到各路音频谱系数的混音音频谱系数,将混音音频谱系数经过饱和处理得到符合精度要求的混音音频谱系数。
该具体实施例,能够使混音音频信号中的每一路音频信号响度相同,提升用户体验感;同时,本发明在频域完成音频混音,避免执行完整的LC3解码之后再执行DFT,能够大大减少在进行音频混音时的运算量。
在图3所示的具体实施方式中本发明等响度混音方法包括,步骤S101,将多路LC3音频码流分别进行部分LC3解码步骤,得到每一路音频码流的当前帧音频谱系数。
在本发明的一个具体实施例中,LC3解码器将接收到的多个LC3码流按照顺序进行码流解析、算术及残差解码、噪声填充、全局增益、时域噪声整形解码和变换域噪声整形解码后得到各路LC3码流对应的当前帧音频谱系数。
该具体实施例,利用LC3解码器将LC3码流转换为频域的谱系数,为对每一路信号进行响度计算和响度调整奠定了基础。
在图3所示的具体实施方式中,等响度混音方法,还包括步骤S102,将多路谱系数进行响度计算并根据计算结果将多路谱系数中的每一路谱系数进行权重调节。
在本发明的一个具体实施例中,将多路谱系数进行语音活动检测,将完成语音活动检测的多路谱系数进行响度计算以及权重计算与调节,根据计算得到的权重结果和响度结果,调整多路谱系数的响度。
该具体实施例,通过计算响度和权重,为进一步调整各路谱系数所对应的码流的响度大小提供技术基础,为用户提供更好的使用体验。
在本发明的一个具体实施例中,步骤S102还包括,计算得到全部或者部分当前帧音频谱系数的当前帧响度,并根据所有当前帧响度计算得到每一个当前帧响度对应的当前帧音频谱系数的权重。
在本发明的一个具体实例中,利用语音活动检测步骤对多路谱系数的语音激活检测,即利用语音活动检测步骤确认在当前帧中是否包含有效语音。如果当前帧是当前语音帧音频谱系数,则将该音频谱系数进行混音。如果当前帧是当前非语音帧音频谱系数,则将该当前非语音帧音频谱系数舍弃不加入混音,或者将该当前非语音帧音频谱系数进行衰减之后加入混音。且语音活动检测步骤是否存在不影响本发明的完整性。
在本发明的一个具体实例中,语音活动检测步骤的工作原理如图4。在频域内对每一路音频信号的当前帧音频谱系数进行语音活动检测,根据当前帧音频谱系数在解码过程中的基音检测结果对当前帧音频谱系数是否为语音信号进行判断,若能够检测到基音,则将当前帧音频谱系数确定为当前语音帧音频谱系数;若不能检测到基音,则计算当前帧音频谱系数中的语音子带能量熵,并根据语音子带能量熵以及预设的门限值对当前帧音频谱系数是否为语音信号进行判断。
其中,Pitch(基音)_present是’LC3解码模块1’的输出,包含在LC3标准码流里面,可以在解码过程中得到;
‘Pitch(基音)_present=1’时,表示此帧音频信号中有很强的基音成分,表示此帧音频有很大的概率是语音信号;
‘Pitch(基音)_present=0’时,表示此帧音频信号中有较低概率是语音信号或者不能判断是否是语音信号,需要使用能量熵的步骤进一步判断,提高精度
在本申请的一个具体实例中,计算语音子带能量熵的计算过程如下:
(1)计算低频段语音子带能量:以采样率48kHz为例,在LC3编解码器中,其有效频带范围是20Hz ~ 20kHz,语音主要占用300Hz ~ 3500Hz,简单起见,计算子带能量时只计算200Hz ~ 3600Hz,将0~4000Hz分为若干个子带SUBBAND_NUM(取20),每个子带占据带宽为SUBBAND_WIDTH=4000/SUBBAND_NUM=200Hz,频谱分辨率为50Hz,所以每个子带的能量由4个频谱系数得到。子带能量计算方法如下:
SUBBAND_ENERYG(1) = 0;
SUBBAND_ENERYG(19) = 0;
SUBBAND_ENERYG(20) = 0;
上述的子带数量、子带宽度是一个实施例的典型值,实际应用中也可以根据需要调整。
(2)计算低频段子带总能量:
通常认为有效的语音频带是300Hz ~ 3500Hz。
(3)计算语音子带能量概率:
(4)计算语音子带能量熵;
该具体实例,可以有效的降低后续模块处理后造成的谱系数饱和现象,从而进一步提升混音后音质。
在本发明的一个具体实施例中,步骤S102还包括,在计算全部或者部分当前帧音频谱系数的当前帧响度之前,对每一路音频码流的当前帧音频谱系数进行语音活动检测,得到至少一个当前语音帧音频谱系数和/或至少一个当前非语音帧音频谱系数;在得到至少一个当前非语音帧音频谱系数时,舍弃全部当前非语音帧音频谱系数,或者将至少一个当前非语音帧音频谱系数进行衰减处理;计算得到所有当前语音帧音频谱系数的当前帧响度,或者计算得到所有当前语音帧音频谱系数以及衰减后的当前非语音帧音频谱系数的当前帧响度,并根据所有当前帧响度计算得到每一个当前帧响度对应的当前帧音频谱系数的权重。
该具体实施例,删除或衰减了非语音帧音频谱系数,能够减少有效地减少混音服务中LC3解码过程中对非语音帧音频谱系数的处理,降低了算力需求,节省了功耗。
在本发明的一个具体实施例中,利用离散余弦变换系数计算得到当前帧音频谱系数的当前帧移动平均功率谱,利用当前帧移动平均功率谱计算得到当前帧音频谱系数的加权功率,利用当前帧音频谱系数的加权功率的得到当前帧音频谱系数的响度。
该具体实例,通过量化每一路谱系数的响度,为后续针对每一路谱系数的响度调整权重奠定基础。
在本发明的一个具体实施例中,步骤S102还包括,根据全部或者部分当前帧音频谱系数的当前帧响度之和,与其中每一个当前帧响度,计算得到每一个当前帧响度对应的当前帧音频谱系数的权重。
该具体实施例,通过计算各路谱系数的响度权重,为进一步根据响度权重调整权重奠定基础。
在图3所示的具体实施方式中,等响度混音方法,还包括步骤S103,根据每一个当前帧响度对应的当前帧音频谱系数的权重对相应当前帧音频谱系数进行调节,并将所有调节后的当前帧音频谱系数进行混合得到当前帧混合音频谱系数。
在本发明的一个具体实施例中,根据所有当前帧响度和其对应的当前帧音频谱系数的权重,计算得到权重调节后的当前帧音频谱系数。
该具体实例,能够获得满足需求的谱系数,为进行等响度混音奠定基础。
在本发明的一个具体实施例中,将所有完成权重调节后的当前帧音频谱系数相加得到多路当前帧音频谱系数的当前帧混合音频谱系数。
该具体实例,实现了在频域的音频混音,避免了在时域进行混音时每一路音频都需要进行完整的LC3解码,从而节省了算力。
在本发明的一个具体实施例中,本发明等响度混音方法采用分布式混音方案,还包括当前帧混合音频谱系数进行低延迟改进型离散余弦逆变换解码,得到PCM音频数据并进行本地输出。
该具体实施例,避免了在LC3解码器中进行长期后置滤波器处理步骤,可以减少混音音频在进行本地输出时得运算量,降低了混音的能耗。
在本发明的一个具体实施例中,将多路LC3码流进行如图6中的LC3解码模块一的处理,即就是进行由码流解析至变换域噪声整形解码的标准LC3解码步骤,得到对应的当前帧音频谱系数。将多路当前帧音频谱系数利用语音活动检测步骤进行语音活动检测,确认多路当前帧音频谱系数中是否存在有效语音、利用响度计算模块对多路当前帧音频谱系数进行响度计算,以及,利用权重计算与调节模块计算多路当前帧音频谱系数对应的权重,并根据其对应的权重调整多路当前帧音频谱系数得到调整后多路当前帧音频谱系数。将调整后多路当前帧音频谱系数进行混音得到当前帧混音谱系数,将当前帧混音谱系数进行如图6中的LC3解码模块二的处理,即进行低延迟改进型离散余弦逆变换解码,得到对应的PCM音频数据并进行本地输出。
该具体实施例,删除或减少了非语音帧音频谱系数,在省去长期后置滤波器处理步骤的前提下,减少有效地减少混音服务中LC3解码过程中对非语音帧音频谱系数的处理,进一步降低了算力需求,节省了功耗。
在本申请的一个具体实施例中,本发明等响度混音方法采用集中式混音方案,还包括利用当前帧混合音频谱系数,进行部分编码步骤得到混合LC3音频数据,并进行网络传输;其中,部分编码步骤包括,变换域噪声整形步骤、时域噪声整形步骤、量化步骤、噪声电平估计步骤、算术编码和残差编码步骤以及码流封装步骤。
该具体实施例,避免了在LC3解码器中进行长期后置滤波器处理步骤和低延迟改进型离散余弦反变换处理步骤,以及在LC3编码器中进行低延迟改进型离散余弦变换处理步骤和长期后置滤波器处理步骤,减少了混音和编码过程中的运算量,提升了用户体验感。
在本发明的一个具体实施例中,将多路LC3码流进行如图6中的LC3解码模块一的处理,即就是进行由码流解析至变换域噪声整形解码的标准LC3解码步骤,得到对应的当前帧音频谱系数。将多路当前帧音频谱系数利用语音活动检测步骤进行语音活动检测,确认多路当前帧音频谱系数中是否存在有效语音、利用响度计算模块对多路当前帧音频谱系数进行响度计算,以及,利用权重计算与调节模块计算多路当前帧音频谱系数对应的权重并根据其对应的权重调整多路当前帧音频谱系数得到调整后多路当前帧音频谱系数。将调整后多路当前帧音频谱系数进行混音得到当前帧混音谱系数,将当前帧混音谱系数进行如图7中的LC3编码模块3的处理,即进行变换域噪声整形步骤、时域噪声整形步骤、量化步骤、噪声电平估计步骤、算术编码和残差编码步骤以及码流封装步骤的处理,得到对应的LC3码流。将LC3码流利用蓝牙传输至网络设备端。
该具体实施例,删除或减少了非语音帧音频谱系数,在省去LC3解码器中进行长期后置滤波器处理步骤和低延迟改进型离散余弦反变换处理步骤,以及LC3编码器中进行低延迟改进型离散余弦变换处理步骤和长期后置滤波器处理步骤的前提下,有效地减少混音服务中LC3解码过程中对非语音帧音频谱系数的处理,进一步降低了算力需求,节省了功耗。
在图3所示的具体实施方式中,等响度混音方法还包括,在将所有调节后的当前帧音频谱系数进行混合得到当前帧混合音频谱系数之后,将当前帧混合音频谱系数调整至预定的定点化谱系数表示范围内,得到调整后的当前帧混合音频谱系数;将调整后的当前帧混合音频谱系数进行低延迟改进型离散余弦逆变换解码,得到PCM音频数据并进行本地输出,或者利用调整后的当前帧混合音频谱系数,进行部分编码步骤得到混合LC3音频数据,并进行网络传输;其中,部分编码步骤包括,变换域噪声整形步骤、时域噪声整形步骤、量化步骤、噪声电平估计步骤、算术编码和残差编码步骤以及码流封装步骤。
在本发明的一个具体实施例中,常见的谱系数可以用32bit表示,而当前帧混合音频谱系数的取值范围有可能超过32bit,对于超过32bit的,需要将其限制在32bit范围,具体就是:
该具体实施例,通过对当前帧混合音频谱系数根据预定的定点化谱系数表示范围进行调整,能够使得混音后音频谱系数可以用原有的谱系数精度表示,能够保证混音后音频谱系数的数据完整性。
在本发明的一个具体实例中,如图5,本发明在进行分布式混音处理时,将三路LC3码流S1、S2和S3进行如图6中的LC3解码模块一的处理,即就是进行由码流解析至变换域噪声整形解码的标准LC3解码步骤,得到对应的当前帧音频谱系数X1、X2和X3,将X1、X2和X3利用VAD模块进行语音活动检测确认X1、X2和X3中是否存在有效语音、利用响度计算模块对X1、X2和X3进行响度计算,以及,利用权重计算与调节模块计算X1、X2和X3响度所对应的权重,并根据其对应的权重值调整X1、X2和X3得到调整后当前帧音频谱系数1、2和3。
将1、2和3进行混音得到当前帧混合音频谱系数。将利用饱和处理模块进行饱和处理得到,将利用如图6中的LC3解码模块二进行处理。即利用低延迟改进型离散余弦反变换模块进行处理,得到音频数据x并将音频数据x进行本地输出。
该具体实施例,在保证数据完整性的条件下,避免了在LC3解码器中进行长期后置滤波器处理步骤,可以减少混音音频在进行本地输出时得运算量,降低了混音的能耗,而长期后置滤波解码步骤在音频码率较低时对音质有一定的提升作用,但会议电话混音场景时的语音信号一般可以设置稍高的码率,此时该模块对音质提升有限,且运算量较大。
在本发明的一个具体实例中,如图5,本发明在进行集中式混音处理时,将三路LC3码流S1、S2和S3进行如图6中的LC3解码模块一的处理,即就是进行由码流解析至变换域噪声整形解码的标准LC3解码步骤,得到对应的当前帧音频谱系数X1、X2和X3,将X1、X2和X3利用VAD模块进行语音活动检测确认X1、X2和X3中是否存在有效语音、利用响度计算模块对X1、X2和X3进行响度计算,以及,利用权重计算与调节模块计算X1、X2和X3响度所对应的权重,并根据其对应的权重值调整X1、X2和X3得到调整后当前帧音频谱系数1、2和3。
将1、2和3进行混音得到当前帧混合音频谱系数。将利用饱和处理模块进行饱和处理得到,将利用如图7中的LC3编码模块三进行处理,即从变换域噪声整形至码流封装的标准LC3编码过程,得到对应的编码码流S。将编码码流S利用蓝牙通讯传输至网络端设备
本实施例直接利用调整后的当前帧混合音频谱系数进行编码,省略了标准LC3解码过程中的LD-IMDCT步骤以及LTPF解码步骤,即低延迟改进型离散余弦反变换步骤以及长期后置滤波解码步骤,减少了混音处理在进行集中式混音进行输出时得运算量,降低了混音的能耗。
该具体实施例,在保证数据完整性的条件下,避免了在LC3解码器中进行长期后置滤波器处理步骤和低延迟改进型离散余弦反变换处理步骤,以及在LC3编码器中进行低延迟改进型离散余弦变换处理步骤和长期后置滤波器处理步骤,减少了混音并编码过程中的运算量,提升了用户体验感。
图8示出了本发明等响度混音装置的具体实施方式。
在该具体实施方式中,等响度混音装置主要包括:谱系数获取模块801,用于将多路LC3音频码流分别进行部分解码步骤,得到每一路音频码流的当前帧音频谱系数的模块;
谱系数权重计算模块802,用于计算得到全部或者部分当前帧音频谱系数的当前帧响度,并根据所有当前帧响度计算得到每一个当前帧响度对应的当前帧音频谱系数的权重的模块;
谱系数权重调节及混合模块803,用于根据每一个当前帧响度对应的当前帧音频谱系数的权重对相应当前帧音频谱系数进行调节,并将所有调节后的当前帧音频谱系数进行混合得到当前帧混合音频谱系数的模块;
其中,部分LC3解码步骤包括码流解析、算术及残差解码步骤、噪声填充步骤、全局增益步骤、时域噪声整形解码步骤和变换域噪声整形解码步骤。
在本发明的一个具体实施例中,等响度混音装置还包括,谱系数权重调节及混合模块,用于将当前帧混合音频谱系数进行低延迟改进型离散余弦逆变换解码,得到PCM音频数据并进行本地输出的模块,或者用于利用当前帧混合音频谱系数,进行部分编码步骤得到混合LC3音频数据,并进行网络传输的模块,其中,部分编码步骤包括,变换域噪声整形步骤、时域噪声整形步骤、量化步骤、噪声电平估计步骤、算术编码和残差编码步骤以及码流封装步骤。
该具体实施例,利用该模块可以避免使用LC3解码器中的长期后置滤波器模块进行计算,或者,能够避免使用LC3解码器中的长期后置滤波器模块和低延迟改进型离散余弦反变换模块进行计算,以及LC3编码器中的长期后置滤波器模块和低延迟改进型离散余弦变换模块的使用,因此减少混音音频在进行本地输出时得运算量,降低了能耗。
在本发明的一个具体实施例中,等响度混音装置还包括,混合谱系数调整模块,用于在将所有调节后的当前帧音频谱系数进行混合得到当前帧混合音频谱系数的模块之后,进行用于将当前帧混合音频谱系数调整至预定的定点化谱系数表示范围内,得到调整后的当前帧混合音频谱系数;
在本具体实施例中,混合谱系数处理输出模块,用于将调整后的当前帧混合音频谱系数进行低延迟改进型离散余弦逆变换解码,得到PCM音频数据并进行本地输出,或者利用调整后的当前帧混合音频谱系数,进行部分编码步骤得到混合LC3音频数据,并进行网络传输的模块,其中,部分编码步骤包括,变换域噪声整形步骤、时域噪声整形步骤、量化步骤、噪声电平估计步骤、算术编码和残差编码步骤以及码流封装步骤。
该具体实施例,在保证音频信号的完整性的条件下,减少了音频进行等响度混音时的计算量,节省了算力。
在本发明的一个具体实施例中,本发明的等响度混音装置还包括,语音活动检测处理模块,用于在所述计算全部或者部分所述当前帧音频谱系数的当前帧响度之前,对每一路所述音频码流的所述当前帧音频谱系数进行语音活动检测,得到至少一个当前语音帧音频谱系数和/或至少一个当前非语音帧音频谱系数,并在得到至少一个所述当前非语音帧音频谱系数时,舍弃全部所述当前非语音帧音频谱系数,或者将至少一个所述当前非语音帧音频谱系数进行衰减处理;
在本具体实施例中,谱系数权重计算模块,用于计算得到所有所述当前语音帧音频谱系数的当前帧响度,或者计算得到所有所述当前语音帧音频谱系数以及衰减后的所述当前非语音帧音频谱系数的当前帧响度,并根据所有所述当前帧响度计算得到每一个所述当前帧响度对应的所述当前帧音频谱系数的权重。
该实具体施例,删除或衰减了非语音帧音频谱系数,能够减少有效地减少混音服务中LC3解码过程中对非语音帧音频谱系数的处理,降低了算力需求,节省了功耗。
在本发明的一个具体实施例中,本发明等响度混音装置中各功能模块可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
本发明提供的等响度混音装置,可用于执行上述任一实施例描述的等响度混音方法,其实现原理和技术效果类似,在此不再赘述。
在本发明的另一个具体实施方式中,一种计算机可读存储介质,其存储有计算机指令,计算机指令被操作以执行方案一中的等响度混音方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (6)
1.一种等响度混音方法,其特征在于,包括,
将多路LC3音频码流分别进行部分LC3解码步骤,得到每一路所述音频码流的当前帧音频谱系数;
计算得到全部或者部分所述当前帧音频谱系数的当前帧响度,并根据所有所述当前帧响度计算得到每一个所述当前帧响度对应的所述当前帧音频谱系数的权重;以及,
根据每一个所述当前帧响度对应的所述当前帧音频谱系数的权重对相应所述当前帧音频谱系数进行调节,并将所有调节后的所述当前帧音频谱系数进行混合得到当前帧混合音频谱系数;
其中,所述部分LC3解码步骤包括码流解析、算术及残差解码步骤、噪声填充步骤、全局增益步骤、时域噪声整形解码步骤和变换域噪声整形解码步骤;
还包括,将所述当前帧混合音频谱系数进行低延迟改进型离散余弦逆变换解码,得到PCM音频数据并进行本地输出;
还包括,利用所述当前帧混合音频谱系数,进行部分编码步骤得到混合LC3音频数据,并进行网络传输,其中,所述部分编码步骤包括,变换域噪声整形步骤、时域噪声整形步骤、量化步骤、噪声电平估计步骤、算术编码和残差编码步骤以及码流封装步骤;
上述计算得到全部或者部分所述当前帧音频谱系数的当前帧响度,并根据所有所述当前帧响度计算得到每一个所述当前帧响度对应的所述当前帧音频谱系数的权重还包括,
在所述计算得到全部或者部分所述当前帧音频谱系数的当前帧响度之前,对每一路所述音频码流的所述当前帧音频谱系数进行语音活动检测,得到至少一个当前语音帧音频谱系数和/或至少一个当前非语音帧音频谱系数;计算得到所有所述当前语音帧音频谱系数的当前帧响度,或者计算得到所有所述当前语音帧音频谱系数以及衰减后的所述当前非语音帧音频谱系数的当前帧响度,并根据所有所述当前帧响度计算得到每一个所述当前帧响度对应的所述当前帧音频谱系数的权重。
2.如权利要求1所述的等响度混音方法,其特征在于,
在所述将所有调节后的所述当前帧音频谱系数进行混合得到当前帧混合音频谱系数之后,将所述当前帧混合音频谱系数调整至预定的定点化谱系数表示范围内,得到调整后的当前帧混合音频谱系数。
3.如权利要求1所述的等响度混音方法,其特征在于,
在得到至少一个所述当前非语音帧音频谱系数时,舍弃全部所述当前非语音帧音频谱系数,或者将至少一个所述当前非语音帧音频谱系数进行衰减处理。
4.如权利要求1所述的等响度混音方法,其特征在于,所述根据所有所述当前帧响度计算得到每一个所述当前帧响度对应的所述当前帧音频谱系数的权重的过程包括,
根据全部或者部分所述当前帧音频谱系数的所述当前帧响度之和,与其中每一个所述当前帧响度,计算得到每一个所述当前帧响度对应的所述当前帧音频谱系数的权重。
5.一种等响度混音装置,其特征在于,包括,
谱系数获取模块,用于将多路LC3音频码流分别进行部分LC3解码步骤,得到每一路所述音频码流的当前帧音频谱系数;
谱系数权重计算模块,用于计算得到全部或者部分所述当前帧音频谱系数的当前帧响度,并根据所有所述当前帧响度计算得到每一个所述当前帧响度对应的所述当前帧音频谱系数的权重;以及,
谱系数权重调节及混合模块,用于根据每一个所述当前帧响度对应的所述当前帧音频谱系数的权重对相应所述当前帧音频谱系数进行调节,并将所有调节后的所述当前帧音频谱系数进行混合得到当前帧混合音频谱系数;
其中,所述部分LC3解码步骤包括码流解析、算术及残差解码步骤、噪声填充步骤、全局增益步骤、时域噪声整形解码步骤和变换域噪声整形解码步骤;
还包括,混合谱系数处理输出模块,用于将所述当前帧混合音频谱系数进行低延迟改进型离散余弦逆变换解码,得到PCM音频数据并进行本地输出,或者,用于利用所述当前帧混合音频谱系数,进行部分编码步骤得到混合LC3音频数据,并进行网络传输;其中,所述部分编码步骤包括,变换域噪声整形步骤、时域噪声整形步骤、量化步骤、噪声电平估计步骤、算术编码和残差编码步骤以及码流封装步骤;
还包括,语音活动检测处理模块,用于在所述计算全部或者部分所述当前帧音频谱系数的当前帧响度之前,对每一路所述音频码流的所述当前帧音频谱系数进行语音活动检测,得到至少一个当前语音帧音频谱系数和/或至少一个当前非语音帧音频谱系数,并在得到至少一个所述当前非语音帧音频谱系数时,舍弃全部所述当前非语音帧音频谱系数,或者将至少一个所述当前非语音帧音频谱系数进行衰减处理;
所述谱系数权重计算模块,还用于计算得到所有所述当前语音帧音频谱系数的当前帧响度,或者计算得到所有所述当前语音帧音频谱系数以及衰减后的所述当前非语音帧音频谱系数的当前帧响度,并根据所有所述当前帧响度计算得到每一个所述当前帧响度对应的所述当前帧音频谱系数的权重。
6.如权利要求5所述的等响度混音装置,其特征在于,还包括,
混合谱系数调整模块,用于在所述将所有调节后的所述当前帧音频谱系数进行混合得到当前帧混合音频谱系数的模块之后,进行用于将所述当前帧混合音频谱系数调整至预定的定点化谱系数表示范围内,得到调整后的当前帧混合音频谱系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110520103.0A CN112995425B (zh) | 2021-05-13 | 2021-05-13 | 一种等响度混音方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110520103.0A CN112995425B (zh) | 2021-05-13 | 2021-05-13 | 一种等响度混音方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112995425A CN112995425A (zh) | 2021-06-18 |
CN112995425B true CN112995425B (zh) | 2021-09-07 |
Family
ID=76337670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110520103.0A Active CN112995425B (zh) | 2021-05-13 | 2021-05-13 | 一种等响度混音方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112995425B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113963726B (zh) * | 2021-09-29 | 2023-11-07 | 稿定(厦门)科技有限公司 | 音频响度均衡方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504758A (zh) * | 2016-10-25 | 2017-03-15 | 大连理工大学 | 混音器及混音方法 |
CN107426651A (zh) * | 2017-08-10 | 2017-12-01 | 长沙世邦通信技术有限公司 | 多通道的混音方法及装置 |
CN110675885A (zh) * | 2019-10-17 | 2020-01-10 | 浙江大华技术股份有限公司 | 混音方法、装置及存储介质 |
CN112002334A (zh) * | 2010-12-03 | 2020-11-27 | 杜比实验室特许公司 | 音频解码方法和装置及用于处理媒体数据的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013164029A1 (en) * | 2012-05-03 | 2013-11-07 | Telefonaktiebolaget L M Ericsson (Publ) | Detecting wind noise in an audio signal |
-
2021
- 2021-05-13 CN CN202110520103.0A patent/CN112995425B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112002334A (zh) * | 2010-12-03 | 2020-11-27 | 杜比实验室特许公司 | 音频解码方法和装置及用于处理媒体数据的方法 |
CN106504758A (zh) * | 2016-10-25 | 2017-03-15 | 大连理工大学 | 混音器及混音方法 |
CN107426651A (zh) * | 2017-08-10 | 2017-12-01 | 长沙世邦通信技术有限公司 | 多通道的混音方法及装置 |
CN110675885A (zh) * | 2019-10-17 | 2020-01-10 | 浙江大华技术股份有限公司 | 混音方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112995425A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8290783B2 (en) | Apparatus for mixing a plurality of input data streams | |
CN102084418B (zh) | 用于调整多通道音频信号的空间线索信息的设备和方法 | |
US8473301B2 (en) | Method and apparatus for audio decoding | |
EP2856776B1 (en) | Stereo audio signal encoder | |
JPH0856163A (ja) | 適応的デジタルオーディオ符号化システム | |
CN114550732B (zh) | 一种高频音频信号的编解码方法和相关装置 | |
US20230206930A1 (en) | Multi-channel signal generator, audio encoder and related methods relying on a mixing noise signal | |
CN112951251B (zh) | 一种lc3音频混合方法、装置及存储介质 | |
CN112995425B (zh) | 一种等响度混音方法及装置 | |
CN115917645A (zh) | 多模式空间音频编码的舒适噪声生成 | |
US8548615B2 (en) | Encoder | |
US10242683B2 (en) | Optimized mixing of audio streams encoded by sub-band encoding | |
JP2008129250A (ja) | Aacのためのウィンドウ切り替え方法およびm/s符号化の帯域決定方法 | |
CN112951252B (zh) | 一种lc3音频码流的混音方法、装置、介质及设备 | |
US20110191112A1 (en) | Encoder | |
CN113035210A (zh) | 一种lc3音频混合方法、装置及存储介质 | |
JP2002182695A (ja) | 高能率符号化方法及び装置 | |
CN116884423A (zh) | 混响检测与抑制方法、系统、介质及设备 | |
CN116504256A (zh) | 一种语音编码方法、装置、介质、设备和程序产品 | |
Chen et al. | Fast time-frequency transform algorithms and their applications to real-time software implementation of AC-3 audio codec | |
CN115346540A (zh) | 一种联合立体声音频编解码方法及装置 | |
CN115083429A (zh) | 语音降噪的模型训练方法、语音降噪方法、装置及介质 | |
CN117437925A (zh) | 优化音频编解码的方法、系统、介质及设备 | |
AU2012202581A1 (en) | Mixing of input data streams and generation of an output data stream therefrom | |
JPH06291679A (ja) | オーディオ信号のためのしきい値制御量子化決定法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211220 Address after: 518101 Seven Star Property Co., Ltd., district 71, Xingdong community, Xin'an street, Bao'an District, Shenzhen, Guangdong 601 Patentee after: Shenzhen Bairui Internet Technology Co.,Ltd. Address before: 7-1-1, building C, 7 / F, building 2-1, No.2, Shangdi Information Road, Haidian District, Beijing 100085 Patentee before: BARROT WIRELESS Co.,Ltd. |