CN112951251B - 一种lc3音频混合方法、装置及存储介质 - Google Patents

一种lc3音频混合方法、装置及存储介质 Download PDF

Info

Publication number
CN112951251B
CN112951251B CN202110520150.5A CN202110520150A CN112951251B CN 112951251 B CN112951251 B CN 112951251B CN 202110520150 A CN202110520150 A CN 202110520150A CN 112951251 B CN112951251 B CN 112951251B
Authority
CN
China
Prior art keywords
audio signal
frame
current
audio
spectral coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110520150.5A
Other languages
English (en)
Other versions
CN112951251A (zh
Inventor
李强
王尧
叶东翔
朱勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Barrot Wireless Co Ltd
Original Assignee
Barrot Wireless Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Barrot Wireless Co Ltd filed Critical Barrot Wireless Co Ltd
Priority to CN202110520150.5A priority Critical patent/CN112951251B/zh
Publication of CN112951251A publication Critical patent/CN112951251A/zh
Application granted granted Critical
Publication of CN112951251B publication Critical patent/CN112951251B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请公开了一种LC3音频混合方法、装置及存储介质,属于音频合成技术领域。包括,在频域将多路LC3音频信号谱系数进行混合之前,对每一路当前帧进行语音活动检测,并在得到至少一个非语音帧音频信号谱系数时,舍弃全部非语音帧音频信号频谱系数,或者将至少一个当前非语音帧音频信号谱系数进行衰减处理;将所有当前语音帧音频信号谱系数,或者将所有当前语音帧音频信号谱系数以及衰减后的当前非语音帧音频信号谱系数进行混合得到当前帧混合频域音频信号;以及,对当前帧混合频域音频信号继续执行LC3标准解码,得到当前帧混合PCM音频数据。本申请可以使得混音后的总能量减少,减少算力,减少饱和溢出的可能性。

Description

一种LC3音频混合方法、装置及存储介质
技术领域
本发明涉及音频合成技术领域,尤其涉及一种LC3音频混合方法、装置及存储介质。
背景技术
目前主流的蓝牙音频编码器中,“子带编码技术(SBC)”是使用最为广泛,是所有的蓝牙音频设备必须支持的,但音质一般;“高级音频编码技术(AAC-LC)” 音质较好且应用较为广泛,很多主流的手机都支持,但是其内存占用较大,且运算复杂度高,很多蓝牙设备都基于嵌入式平台,电池容量有限,处理器运算能力较差且内存有限;“高通蓝牙音频编码技术(aptX系列)”和“索尼蓝牙音频编码技术(LDAC)”,音质较好但是码率很高,且其分别为高通和索尼独有技术,较为封闭。基于上述原因,蓝牙国际联盟联合众多厂商推出了LC3,其具有较低延迟、较高音质和编码增益以及在蓝牙领域无专利费得优点,受到广大厂商的关注。
随着LC3编解码器的大规模商用,在一些使用场景下需要进行混音,在频域将音频信号进行混合后解码得到的混合PCM数据容易饱和溢出。常见的避免溢出的方法,诸如钳位算法,会造成音频削顶的效果,另外,平均调整权重法,随着混音路数的增加,各个语音分量衰减的幅度越来越大,原有语音会因为加入的新的语音路数而出现声音不断变小的情况。还有一些其他的方法,譬如自适应加权法,通常适合时域混音算法,不适用于在频域进行混音。
发明内容
针对现有技术存在的问题,本申请主要提供一种LC3音频混合方法、装置及存储介质,通过在频域对混音前标准LC3解码过程中的音频信号谱系数进行语音活动检测,并将得到的非语音帧音频信号谱系数舍弃或部分舍弃后加入到混合音频信号,使得混音后的总能量减少,减少溢出的可能性并减少算力。
为了实现上述目的,本申请采用的一个技术方案是:提供一种LC3音频混合方法,其包括:
在频域将多路进行LC3标准解码的音频信号谱系数进行混合之前,对每一路音频信号谱系数的当前帧谱系数进行语音活动检测,得到至少一个当前语音帧音频信号谱系数和/或至少一个当前非语音帧音频信号谱系数,并在得到至少一个非语音帧音频信号谱系数时,舍弃全部当前非语音帧音频信号谱系数,或者将至少一个当前非语音帧音频信号谱系数进行衰减处理;将所有当前语音帧音频信号谱系数,或者将所有当前语音帧音频信号谱系数以及衰减后的当前非语音帧音频信号谱系数进行混合得到当前帧混合频域音频信号;以及,对当前帧混合频域音频信号继续执行LC3标准解码,得到当前帧混合PCM音频数据。
本申请采用的另一个技术方案是:提供一种LC3音频混合方法装置,其包括:
频域音频信号判断处理模块,用于在频域将多路进行LC3标准解码的音频信号谱系数进行混合之前,对每一路音频信号谱系数的当前帧谱系数进行语音活动检测,得到至少一个当前语音帧音频信号谱系数和/或至少一个当前非语音帧音频信号谱系数,并在得到至少一个非语音帧音频信号谱系数时,舍弃全部当前非语音帧,或者将至少一个当前非语音帧音频信号谱系数进行衰减处理;频域语音信号混合模块,用于将所有当前语音帧音频信号谱系数,或者将所有当前语音帧音频信号谱系数以及衰减后的当前非语音帧音频信号谱系数进行混合得到当前帧混合频域音频信号;以及,PCM音频数据获取模块,用于对当前帧混合频域音频信号继续执行LC3标准解码,得到当前帧混合PCM音频数据。
本申请采用的另一个技术方案是:提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被操作以执行第一种方案中的LC3音频混合方法
本申请的技术方案可以达到的有益效果是:提供一种LC3音频混合方法、装置及存储介质,在频域进行音频信号谱系数混合时,对混音前标准LC3解码过程中的音频信号谱系数进行语音活动检测来判断音频信号谱系数是否为语音信号,并将非语音音频信号舍弃,或衰减后与语音音频信号进行混合,使得混音后的总能量减少,减少饱和溢出的可能性,并且因为在频域将频谱系数进行混合,可以将多路频域转时域的过程合并为一路,从而减少算力。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一种LC3音频混合方法的一个具体实施方式的流程示意图;
图2是本申请一种LC3音频混合方法的一个具体实施例中语音活动检测的流程示意图;
图3是本申请一种LC3音频混合方法的一个具体实施例的流程示意图;
图4是本申请一种LC3音频混合方法的一个具体实施例中当前帧PCM音频数据内最大值与下一帧增益的映射图;
图5是本申请一种LC3音频混合装置的一个具体实施方式的示意图;
图6是本申请一种LC3音频混合装置的一个具体实施例示意图;
图7是本申请一种LC3音频混合装置的一个具体实例示意图;
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
下面结合附图对本申请的较佳实施例进行详细阐述,以使本申请的优点和特征能更易于被本领域技术人员理解,从而对本申请的保护范围做出更为清楚明确的界定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
随着LC3编解码器的大规模商用,在一些使用场景下需要进行混音,在频域将音频信号进行混合后解码得到的混合PCM数据容易饱和溢出。在音频信号处理,特别是语音信号处理中,通常用16bit精度来表示采样点,即每个采样点的范围是:
无符号数:0 ~ 65535;
有符号数:-32768 ~ 32767。
其中有符号数表示方法使用范围更广,本文的叙述主要以此为例。假定有N路音频,
Input1, input2, …, inputN
每路音频有M个采样点,
Input1[1], input1[2],…,input1[M]
Input2[1], input2[2],…,input2[M]
,…,
InputN[1], inputN[2],…, inputN[M]
使用线性叠加进行混音,第k个采样点混音的结果是:
Output[k] = Input1[k] + Input2[k] +,…,+InputN[k]
简单起见,假定有4路输入,即N=4,那么Output[k]的取值范围是:
-131072 ~ 131068
上述信号需要18bit来表示,为了能让输出使用16bit表示,总结下常用的混音方法有:
直接线性叠加法:即前述的方法,缺点是可能溢出导致噪声;
线性叠加饱和混音法:当混音值超过量化上限时就用上限值代替,当混音值低于量化下限时就用下限值代替,此算法能够避免溢出,但是会造成消顶,破坏了音频信号的时域特性,会导致爆破声和声音不连续的现象。
平均调整权重法:最后输出的结果是Output[k]/N,这样处理之后避免了数据的上溢和下溢,但随着混音路数的增加,各个语音分量衰减的幅度越来越大,原有语音会因为加入的新的语音路数而出现声音不断变小的情况。
还有一些其他的方法,诸如钳位算法,会造成音频削顶的效果,自适应加权法,通常适合时域混音算法,不适用于在频域进行混音
提供一种LC3音频混合方法、装置及存储介质,通过在频域对混音前标准LC3解码过程中的音频信号进行语音活动检测即VAD判断,此VAD与常规的VAD方法有所不同,主要利用码流中的参数和LC3解码模块1时输出的谱系数结合判断,常规的VAD一般基于时域信号判断;VAD=1的,则指示当前帧是语音帧,直接相加混音;VAD=0的,可能为噪声或静音,可以不加入混音或者衰减后加入混音,使得混音后的总能量减少,减少饱和溢出的可能性。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请一种LC3音频混合方法的一个具体实施方式。
在图1示出的具体实施方式中,本申请LC3音频混合方法包括,过程S101,在频域将多路进行LC3标准解码的音频信号谱系数进行混合之前,对每一路音频信号谱系数的当前帧谱系数进行语音活动检测,得到至少一个当前语音帧音频信号谱系数和/或至少一个当前非语音帧音频信号谱系数,并在得到至少一个非语音帧音频信号谱系数时,舍弃全部当前非语音帧,或者将至少一个当前非语音帧音频信号谱系数进行衰减处理;过程S102,将所有当前语音帧音频信号谱系数,或者将所有当前语音帧音频信号谱系数以及衰减后的当前非语音帧音频信号谱系数进行混合得到当前帧混合频域音频信号;以及,过程S103对当前帧混合频域音频信号继续执行LC3标准解码,得到当前帧混合PCM音频数据。
通过在频域对音频信号谱系数是否为语音信号进行判断,并将非语音音频信号谱系数舍弃或者衰减后与语音音频信号谱系数进行混合,使得混音后的总能量减少,减少饱和溢出的可能性。
过程S101,在频域将多路进行LC3标准解码的音频信号谱系数进行混合之前,对每一路音频信号谱系数的当前帧进行语音活动检测,得到至少一个当前语音帧音频信号谱系数和/或至少一个当前非语音帧音频信号谱系数,并在得到至少一个非语音帧音频信号谱系数时,舍弃全部当前非语音帧,或者将至少一个当前非语音帧音频信号谱系数进行衰减处理的过程,能够减少混音后的总能量,减少饱和溢出的可能性。
在本申请的一个具体实施例中,上述在频域将多路进行LC3标准解码的音频信号谱系数进行混合之前,对每一路音频信号谱系数的当前帧进行语音活动检测,得到至少一个当前语音帧音频信号谱系数和/或至少一个当前非语音帧音频信号谱系数的过程包括,如图2所示,根据当前帧谱系数在解码过程中的基音检测结果对当前帧谱系数是否为语音信号进行判断,若能够检测到基音,则将当前帧谱系数确定为当前语音帧音频信号谱系数;若不能检测到基音,则计算当前帧谱系数中的语音子带能量熵,并根据语音子带能量熵以及预设的门限值对当前帧谱系数是否为音频信号进行判断。
Pitch(基音)_present是’LC3解码模块1’的输出,包含在LC3标准码流里面,可以在解码过程中得到;
‘Pitch(基音)_present=1’时,表示此帧音频信号中有很强的基音成分,表示此帧音频有很大的概率是语音信号;
‘Pitch(基音)_present=0’时,表示此帧音频信号中有较低概率是语音信号或者不能判断是否是语音信号,需要使用能量熵的步骤进一步判断,提高精度
在本申请的一个具体实例中,计算语音子带能量熵的计算过程如下,如图2所示:
(1)计算低频段语音子带能量:以采样率48kHz为例,在LC3编解码器中,其有效频带范围是20Hz ~ 20kHz,语音主要占用300Hz ~ 3500Hz,简单起见,计算子带能量时只计算200Hz ~ 3600Hz,将0~4000Hz分为若干个子带SUBBAND_NUM(取20),每个子带占据带宽为SUBBAND_WIDTH=4000/SUBBAND_NUM=200Hz,频谱分辨率为50Hz,所以每个子带的能量由4个频谱系数得到。子带能量计算方法如下:
Figure 733094DEST_PATH_IMAGE001
其中
Figure 443430DEST_PATH_IMAGE002
, k= 0, 1, 2, 3, … , 79为当前音频帧的低频谱系数(注:全部的谱系数序号为0, 1, 2, 3, … , 399),
Figure 810957DEST_PATH_IMAGE003
上述的子带数量、子带宽度是一个实施例的典型值,实际应用中也可以根据需要调整。
(2)计算低频段子带总能量:
Figure 239533DEST_PATH_IMAGE004
通常认为有效的语音频带是300Hz ~ 3500Hz,本发明取200Hz ~ 3600Hz.
(3)计算语音子带能量概率
Figure 452340DEST_PATH_IMAGE005
(4)计算语音子带能量熵;
Figure 282762DEST_PATH_IMAGE006
在本申请的一个具体实施例中,上述根据语音子带能量熵以及预设的门限值对当前帧谱系数是否为音频信号进行判断的过程包括,若低频段子带能量熵小于门限值,则将当前帧谱系数确定为当前语音帧音频信号谱系数,若低频段子带能量熵不小于门限值,则将当前帧谱系数确定为当前非语音帧音频信号谱系数。
在本申请的一个具体实施例中,上述预设门限值根据典型的语音素材统计获得,例如,上述预设门限值取0.8。
在本申请的一个具体实施例中,上述将至少一个当前非语音帧音频信号谱系数进行衰减处理的过程包括,将至少一个当前非语音帧音频信号谱系数乘以预设的衰减因子,例如经验值0.1,其中衰减因子不等于零。
衰减之后有如下好处,一是降低混音后的总能量,减少溢出的可能性,二是增强了用户体验,因为与会者听到的噪音音量变小,三是仍然保留了一些能量,避免了参会者不发言时没有存在感。
在本申请的一个具体实例中,如图2所示,根据vadFlag判断当前帧谱系数是否是语音信号。
vadFlag=0:则当前帧谱系数中没有语音成分,通常为噪音或静音信号,所有的频谱系数乘以衰减因子,此处频谱系数即
Figure 555611DEST_PATH_IMAGE007
, k= 0, 1, 2, 3, … , 399;
vadFlag=1:则当前帧谱系数中没有语音成分,表示此帧信号中有语音成分,此时直接输出所有的频谱系数。
在本申请的一个具体实施例中,如图3的过程S303所示,本申请的LC3音频混合方法还包括,对当前帧混合频域音频信号继续执行LC3标准解码之前,根据语音帧音频信号的数目,将当前帧混合频域音频信号的高频谱系数清零,在确保语音的可懂度,同时有效的避免溢出的发生。
在本申请的一个具体实施例中,将当前帧混合频域音频信号的高频成分清零,此部分可以增加语音的明亮度,但对可懂度没有影响,使得对应的时域信号能量也会相应的减小,从而降低了溢出的概率。
在本申请的一个具体实施例中,进行混合的音频信号为三路,如果三路音频信号的当前帧都为语音帧音频信号,则只保留窄带信号(NB:0Hz~4kHz)此时语音可懂度仍然很高但损失了一些明亮度。
在本申请的一个具体实施例中,进行混合的音频信号为三路,如果三路音频信号中的两路的当前帧都为语音帧音频信号则可以保留宽带信号(WB: 0Hz~8kHz),此时语音可懂度仍然很高但轻微的损失了明亮度。
如果输入的信号多余三路,则原理类似,即有效输入的语音信号数量越多,则保留的信号带宽越窄。
在本申请的一个具体实施例中,如图3的过程S305所示,本申请的LC3音频混合方法还包括,根据当前帧混合PCM音频数据中的最大PCM数据值,对下一帧混合频域音频信号设置增益,利用了语音的短时平稳特性预测下一帧溢出的可能性,从而进一步避免了语音的溢出。
其中,上述PCM音频数据值,以48kHz采样率和10ms帧长的配置举例,以帧为单位处理,每一路每次收到一帧的码率,正常解码后得到长度为480的PCM数据:x0, x1, x2, ...,x478, x479,总共480个数。PCM数据有两中典型的方法表示,浮点表示和定点表示
浮点表示:范围是 -1 ~+1
定点表示:范围是-32768 ~ 32767,使用16bit有符号数。因此上述480个数用浮点表示时每个数大小范围在-1到1之间。
xmix是混音之后的PCM数据,其范围取决于混音的路数,本发明中已经有vad和谱系数调整,如果没有这些处理,即最原始的混音,那么它们的范围和路数直接相关,即,如果是2路,那么其最大范围是-2~2,本发明中加上vad和谱系数调整后,其范围会变小。
在本申请的一个具体实施例中,当前帧混合PCM音频数据中的最大PCM数据值越大,如图4所示,对下一帧混合频域音频信号设置越小的增益,能够根据语音都是短时平稳信号的原理,减少溢出的可能性。
在本申请的一个具体实施例中,如图4所示,若当前帧混合PCM音频数据中的最大PCM数据值小于对应的最大范围的绝对最大值,则下一帧混合频域音频信号的增益设置为1即不做改变。
在本申请的一个具体实例中,如图7所示,包括步骤,
将3路音频信号s1 ,s2及 s3经过标准LC3解码,得到变换域噪声整形之后步骤之后,低延迟改进型离散余弦反变换之前的音频信号谱系数X1、X2、及X3;
对X1、X2、及X3,进行语音活动检测,得到至少一个当前语音帧音频信号谱系数和/或至少一个当前非语音帧音频信号谱系数,并舍弃所述至少一个所述当前非语音帧,或者将至少一个所述当前非语音帧音频信号谱系数进行衰减处理,得到包括每一路音频的当前语音帧,或者当前语音帧及衰减后的当前非语音帧的各路混合音频Xv1、 Xv2及 Xv3;
将Xv1、 Xv2及 Xv3混合得到当前帧混合频域音频信号Xmix;
将当前帧混合音频信号Xmix进行谱系数调整,根据所述语音帧音频信号的数目,将所述当前帧混合频域音频信号的高频谱系数清零,得到谱系数调整后的音频信号谱系数Xlpf;
将Xlpf继续进行标准LC3解码,得到当前帧混合PCM音频数据xmix,并根据前混合PCM音频数据xmix中最大PCM数据值,对下一帧混合频域音频信号设置增益Gadj,以便减少下一帧混合频域音频信号溢出的可能性。
将当前帧混合PCM音频数据xmix进行饱和处理得到最终混合音频x,并将最终混音x进行输出。
图5示出了本申请一种LC3音频混合装置的一个具体实施方式。
在图5示出的具体实施方式中,本申请的LC3音频混合装置包括,模块501,频域音频信号判断处理模块,用于在频域将多路进行LC3标准解码的音频信号谱系数进行混合之前,对每一路音频信号谱系数的当前帧进行语音活动检测,得到至少一个当前语音帧音频信号谱系数和/或至少一个当前非语音帧音频信号谱系数,并在得到至少一个非语音帧音频信号谱系数时,舍弃全部当前非语音帧,或者将至少一个当前非语音帧音频信号谱系数进行衰减处理;模块502,频域语音信号混合模块,用于将所有当前语音帧音频信号谱系数,或者将所有当前语音帧音频信号谱系数以及衰减后的当前非语音帧音频信号谱系数进行混合得到当前帧混合频域音频信号;以及,模块503,PCM音频数据获取模块,用于对当前帧混合频域音频信号继续执行LC3标准解码,得到当前帧混合PCM音频数据。
本申请LC3音频混合装置能够通过在频域对音频信号谱系数是否为语音信号进行判断,并将非语音音频信号谱系数舍弃或者衰减后与语音音频信号谱系数进行混合,使得混音后的总能量减少,减少饱和溢出的可能性。
在本申请的一个具体实施例中,上述频域音频信号判断处理模块501,能够根据当前帧谱系数在解码过程中的基音检测结果对当前帧是否为语音信号进行判断,若能够检测到基音,则将当前帧确定为当前语音帧音频信号谱系数;若不能检测到基音,则计算当前帧谱系数中的语音子带能量熵,并根据语音子带能量熵以及预设的门限值对当前帧谱系数是否为音频信号进行判断,如图2所示。
在本申请的一个具体实施例中,上述频域音频信号判断处理模块501,能够在若低频段子带能量熵小于门限值时,则将当前帧谱系数确定为当前语音帧音频信号谱系数,若低频段子带能量熵不小于门限值时,则将当前帧谱系数确定为当前非语音帧音频信号谱系数。
在本申请的一个具体实施例中,上述频域音频信号判断处理模块501,将至少一个当前非语音帧音频信号谱系数乘以预设的衰减因子,例如经验值0.1,其中衰减因子不等于零。
衰减之后有如下好处,一是降低混音后的总能量,减少溢出的可能性,二是增强了用户体验,因为与会者听到的噪音音量变小,三是仍然保留了一些能量,避免了参会者不发言时没有存在感。
在本申请的一个具体实施例中,本申请的LC3音频混合装置还包括,谱系数调整模块,如图6的模块603所示,用于对所述当前帧混合频域音频信号继续执行LC3标准解码之前,根据所述语音帧音频信号的数目,将所述当前帧混合频域音频信号的高频谱系数清零,将当前帧混合频域音频信号的高频谱系数清零,在确保语音的可懂度,同时有效的避免溢出的发生。
在本申请的一个具体实施例中,上述谱系数调整模块603,能够将当前帧混合频域音频信号的高频成分清零,此部分可以增加语音的明亮度,但对可懂度没有影响,使得对应的时域信号能量也会相应的减小,从而降低了溢出的概率。
在本申请的一个具体实施例中,本申请的LC3音频混合装置还包括,混合频域音频信号增益设置模块,如图6的模块605所示,用于根据所述当前帧混合PCM音频数据中的最大PCM数据值,对下一帧混合频域音频信号设置增益,根据当前帧混合PCM音频数据中的最大PCM数据值,对下一帧混合频域音频信号设置增益,利用了语音的短时平稳特性预测下一帧溢出的可能性,从而进一步避免了语音的溢出。
在本申请的一个具体实施例中,上述PCM音频数据增益设置模块605,能够在当前帧混合PCM音频数据中的最大PCM数据值越大时,如图4所示,对下一帧混合频域音频信号设置越小的增益,能够根据语音都是短时平稳信号的原理,减少溢出的可能性。
在本申请的一个具体实施例中,上述PCM音频数据增益设置模块605,能够在当前帧混合PCM音频数据中的最大PCM数据值小于对应的最大范围的绝对最大值时,将下一帧混合频域音频信号的增益设置为1即不做改变。
在本申请的一个具体实例中,本申请的LC3音频混合装置还包括,饱和处理模块,如图7所示,用于将上述当前帧PCM音频数据进行饱和处理得到最终混合音频。
在本申请的一个具体实例中,本申请的LC3音频混合装置还包括,混音输出模块,如图7所示,用于将经饱和处理得到的最终混合音频进行输出。
在本申请的一个具体实施例中,本申请一种LC3音频混合装置中各功能模块可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
在本申请的另一个具体实施方式中,一种计算机可读存储介质,其存储有计算机指令,计算机指令被操作以执行上述方案中的LC3音频混合方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种LC3音频混合方法,其特征在于,包括,
在频域将多路进行LC3标准解码的音频信号谱系数进行混合之前,对每一路所述音频信号谱系数的当前帧谱系数进行语音活动检测,得到至少一个当前语音帧音频信号谱系数和/或至少一个当前非语音帧音频信号谱系数,并在得到至少一个所述当前非语音帧音频信号谱系数时,舍弃全部所述当前非语音帧音频信号谱系数,或者将至少一个所述当前非语音帧音频信号谱系数进行衰减处理;
将所有所述当前语音帧音频信号谱系数,或者将所有所述当前语音帧音频信号谱系数以及衰减后的所述当前非语音帧音频信号谱系数进行混合得到当前帧混合频域音频信号;以及,
对所述当前帧混合频域音频信号继续执行所述LC3标准解码,得到当前帧混合PCM音频数据。
2.根据权利要求1所述的音频混合方法,其特征在于,还包括,
对所述当前帧混合频域音频信号继续执行所述LC3标准解码之前,根据所述语音帧音频信号的数目,将所述当前帧混合频域音频信号的高频谱系数清零。
3.根据权利要求1所述的音频混合方法,其特征在于,还包括,
根据所述当前帧混合PCM音频数据中的最大PCM数据值,对下一帧混合频域音频信号设置增益。
4.根据权利要求1-3任一所述的音频混合方法,其特征在于,所述在频域将多路进行LC3标准解码的音频信号谱系数进行混合之前,对每一路所述音频信号谱系数的当前帧音进行语音活动检测,得到至少一个当前语音帧音频信号谱系数和/或至少一个当前非语音帧音频信号谱系数的过程包括,
根据所述当前帧谱系数在解码过程中的基音检测结果对所述当前帧谱系数是否为语音信号进行判断,
若能够检测到所述基音,则将所述当前帧谱系数确定为当前语音帧音频信号谱系数;
若不能检测到所述基音,则计算所述当前帧谱系数中的语音子带能量熵,并根据所述语音子带能量熵以及预设的门限值对所述当前帧谱系数是否为语音信号进行判断。
5.根据权利要求4所述的音频混合方法,其特征在于,所述根据所述语音子带能量熵以及预设的门限值对所述当前帧谱系数是否为音频信号进行判断的过程包括,
若所述语音子带能量熵小于所述门限值,则将所述当前帧谱系数确定为当前语音帧音频信号谱系数,若所述语音子带能量熵不小于所述门限值,则将所述当前帧谱系数确定为当前非语音帧音频信号谱系数。
6.根据权利要求1-3任一所述的音频混合方法,其特征在于,所述将至少一个所述当前非语音帧音频信号谱系数进行衰减处理的过程包括,
将至少一个所述当前非语音帧音频信号谱系数乘以预设的衰减因子,其中所述衰减因子不等于零。
7.一种LC3音频混合装置,其特征在于,包括,
频域音频信号判断处理模块,用于在频域将多路进行LC3标准解码的音频信号谱系数进行混合之前,对每一路所述音频信号谱系数的当前帧谱系数进行语音活动检测,得到至少一个当前语音帧音频信号谱系数和/或至少一个当前非语音帧音频信号谱系数,并舍弃至少一个所述当前非语音帧,或者将至少一个所述当前非语音帧音频信号谱系数进行衰减处理;
频域音频信号混合模块,用于将所有所述当前语音帧音频信号谱系数,或者将所有所述当前语音帧音频信号谱系数以及衰减后的所述当前非语音帧音频信号谱系数进行混合得到当前帧混合频域音频信号;以及,
PCM音频数据获取模块,用于对所述当前帧混合频域音频信号继续执行所述LC3标准解码,得到当前帧混合PCM音频数据。
8.根据权利要求7所述的LC3音频混合装置,其特征在于,还包括,
谱系数调整模块,用于对所述当前帧混合频域音频信号继续执行所述LC3标准解码之前,根据所述语音帧音频信号的数目,将所述当前帧混合频域音频信号的高频谱系数清零。
9.根据权利要求7或8所述的LC3音频混合装置,其特征在于,还包括,
混合频域音频信号增益设置模块,用于根据所述当前帧混合PCM音频数据中的最大PCM数据值,对下一帧混合频域音频信号设置增益。
10.一种计算机可读存储介质,其存储计算机指令,其特征在于,所述计算机指令被操作以执行权利要求1-6中任一项所述的LC3音频混合方法。
CN202110520150.5A 2021-05-13 2021-05-13 一种lc3音频混合方法、装置及存储介质 Active CN112951251B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110520150.5A CN112951251B (zh) 2021-05-13 2021-05-13 一种lc3音频混合方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110520150.5A CN112951251B (zh) 2021-05-13 2021-05-13 一种lc3音频混合方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN112951251A CN112951251A (zh) 2021-06-11
CN112951251B true CN112951251B (zh) 2021-08-06

Family

ID=76233794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110520150.5A Active CN112951251B (zh) 2021-05-13 2021-05-13 一种lc3音频混合方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112951251B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257257B (zh) * 2021-07-14 2021-11-09 统信软件技术有限公司 多路语音信号的混音处理方法、装置、设备及存储介质
CN114827656A (zh) * 2022-04-22 2022-07-29 深圳市皓丽软件有限公司 麦克风数据中混合多路音频的处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109920445A (zh) * 2019-03-04 2019-06-21 北京佳讯飞鸿电气股份有限公司 一种混音方法、装置及设备
CN110675885A (zh) * 2019-10-17 2020-01-10 浙江大华技术股份有限公司 混音方法、装置及存储介质
CN111048119A (zh) * 2020-03-12 2020-04-21 腾讯科技(深圳)有限公司 通话音频混音处理方法、装置、存储介质和计算机设备
CN112735449A (zh) * 2020-12-30 2021-04-30 北京百瑞互联技术有限公司 优化频域噪声整形的音频编码方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2933287T3 (es) * 2016-04-12 2023-02-03 Fraunhofer Ges Forschung Codificador de audio para codificar una señal de audio, método para codificar una señal de audio y programa informático en consideración de una región espectral del pico detectada en una banda de frecuencia superior

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109920445A (zh) * 2019-03-04 2019-06-21 北京佳讯飞鸿电气股份有限公司 一种混音方法、装置及设备
CN110675885A (zh) * 2019-10-17 2020-01-10 浙江大华技术股份有限公司 混音方法、装置及存储介质
CN111048119A (zh) * 2020-03-12 2020-04-21 腾讯科技(深圳)有限公司 通话音频混音处理方法、装置、存储介质和计算机设备
CN112735449A (zh) * 2020-12-30 2021-04-30 北京百瑞互联技术有限公司 优化频域噪声整形的音频编码方法及装置

Also Published As

Publication number Publication date
CN112951251A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
US20210074312A1 (en) Method and Apparatus for Detecting a Voice Activity in an Input Audio Signal
CN102411933B (zh) 解码装置和解码方法
KR101667865B1 (ko) 음성 주파수 신호 처리 방법 및 장치
US7430506B2 (en) Preprocessing of digital audio data for improving perceptual sound quality on a mobile phone
EP0790599A1 (en) A noise suppressor and method for suppressing background noise in noisy speech, and a mobile station
US8391212B2 (en) System and method for frequency domain audio post-processing based on perceptual masking
CN112951251B (zh) 一种lc3音频混合方法、装置及存储介质
US7260225B2 (en) Method and device for processing a stereo audio signal
KR100876794B1 (ko) 이동 단말에서 음성의 명료도 향상 장치 및 방법
AU2015291897B2 (en) Acoustic signal encoding device, acoustic signal decoding device, method for encoding acoustic signal, and method for decoding acoustic signal
CN101494054B (zh) 一种音频码率控制方法及系统
CN110767243A (zh) 一种音频编码方法、装置及设备
JP2002507291A (ja) 音声通信システムにおける音声強調方法およびその装置
US20080312916A1 (en) Receiver Intelligibility Enhancement System
CN112599140B (zh) 一种优化语音编码速率和运算量的方法、装置及存储介质
US20190198033A1 (en) Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
CN112995425B (zh) 一种等响度混音方法及装置
CN112151046A (zh) Lc3编码器自适应调节多声道传输码率的方法、装置及介质
CN112771610A (zh) 用压扩对密集瞬态事件进行译码
Richardson et al. Subband coding with adaptive prediction for 56 kbits/s audio
JP2002182695A (ja) 高能率符号化方法及び装置
JP3478267B2 (ja) ディジタルオーディオ信号圧縮方法および圧縮装置
CN115188388B (zh) 一种音频后置滤波方法、装置、存储介质及设备
JP5295380B2 (ja) 符号化装置、復号化装置およびこれらの方法
CN116884423A (zh) 混响检测与抑制方法、系统、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: A1009, floor 9, block a, No. 9, Shangdi Third Street, Haidian District, Beijing 100085

Patentee after: Beijing Bairui Internet Technology Co.,Ltd.

Address before: 7-1-1, building C, 7 / F, building 2-1, No.2, Shangdi Information Road, Haidian District, Beijing 100085

Patentee before: BARROT WIRELESS Co.,Ltd.