CN111583942B - 语音会话的编码码率控制方法、装置和计算机设备 - Google Patents

语音会话的编码码率控制方法、装置和计算机设备 Download PDF

Info

Publication number
CN111583942B
CN111583942B CN202010452591.1A CN202010452591A CN111583942B CN 111583942 B CN111583942 B CN 111583942B CN 202010452591 A CN202010452591 A CN 202010452591A CN 111583942 B CN111583942 B CN 111583942B
Authority
CN
China
Prior art keywords
audio frame
signal
channel
voice channel
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010452591.1A
Other languages
English (en)
Other versions
CN111583942A (zh
Inventor
梁俊斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010452591.1A priority Critical patent/CN111583942B/zh
Publication of CN111583942A publication Critical patent/CN111583942A/zh
Application granted granted Critical
Publication of CN111583942B publication Critical patent/CN111583942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本申请涉及一种语音会话的编码码率控制方法、装置、计算机设备和存储介质。该方法包括:获取语音会话的各语音通道中当前音频帧的音频信号;根据各音频信号,分别生成在当前音频帧各语音通道的混音信号;对于各语音通道中的每一目标语音通道,确定在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比;根据混音贡献占比确定目标语音通道下一音频帧的编码码率;编码码率与混音贡献占比正相关;后续指示目标语音通道对应的终端,使得终端按照编码码率对采集的下一音频帧进行编码,实现控制各个语音通道的音频信号的编码码率,对在混音信号中参与度较低的语音通道的音频信号设置较低的编码码率,减少网络带宽资源的消耗。

Description

语音会话的编码码率控制方法、装置和计算机设备
技术领域
本申请涉及语音处理技术领域,特别是涉及一种语音会话的编码码率控制方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,线上多人语音通话越来越普遍,例如多人语音聊天、多人音视频会员等。实现线上多人语音通话,通常为各个会话方通过不同的终端进行音频信号采集,然后对采集到的音频信号进行语音编码得到语音编码数据,并将语音编码数据通过网络发送到混音设备,混音设备将语音编码数据解码后进行音频信号的混合叠加处理,最后各个会话方的终端根据相应的混音结果信号进行声音播放。其中,各个会话方对应终端发送采集到的音频信号至混音设备的过程,需要消耗网络带宽资源,特别是会话方数量较多的大型语音会议,网络带宽资源的消耗量巨大。
发明内容
基于此,有必要针对上述技术问题,提供一种语音会话的语音编码码率控制方法、装置、计算机设备和存储介质。
一种语音会话的编码码率控制方法,所述方法包括:
获取语音会话的各语音通道中当前音频帧的音频信号;
根据各所述音频信号,分别生成在当前音频帧各语音通道的混音信号;
对于各语音通道中的每一目标语音通道,确定在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比;
根据所述混音贡献占比确定所述目标语音通道下一音频帧的编码码率;所述编码码率与所述混音贡献占比正相关。
一种语音会话的编码码率控制装置,所述装置包括:
第一信号获取模块,用于获取语音会话的各语音通道中当前音频帧的音频信号;
混音信号获取模块,用于根据各所述音频信号,分别生成在当前音频帧各语音通道的混音信号;
混音占比获取模块,用于对于各语音通道中的每一目标语音通道,确定在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比;
第一编码码率确定模块,用于根据所述混音贡献占比确定所述目标语音通道下一音频帧的编码码率;所述编码码率与所述混音贡献占比正相关。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取语音会话的各语音通道中当前音频帧的音频信号;
根据各所述音频信号,分别生成在当前音频帧各语音通道的混音信号;
对于各语音通道中的每一目标语音通道,确定在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比;
根据所述混音贡献占比确定所述目标语音通道下一音频帧的编码码率;所述编码码率与所述混音贡献占比正相关。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取语音会话的各语音通道中当前音频帧的音频信号;
根据各所述音频信号,分别生成在当前音频帧各语音通道的混音信号;
对于各语音通道中的每一目标语音通道,确定在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比;
根据所述混音贡献占比确定所述目标语音通道下一音频帧的编码码率;所述编码码率与所述混音贡献占比正相关。
上述语音会话的编码码率控制方法、装置、计算机设备和存储介质,通过获取语音会话的各语音通道中当前音频帧的音频信号;根据各音频信号,分别生成在当前音频帧各语音通道的混音信号;对于各语音通道中的每一目标语音通道,确定在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比;根据混音贡献占比确定目标语音通道下一音频帧的编码码率;编码码率与混音贡献占比正相关,后续根据编码码率指示目标语音通道对应的终端,使得终端按照编码码率对采集的下一音频帧进行编码,实现控制各个语音通道的音频信号的编码码率,对在混音信号中参与度较低的语音通道的音频信号设置较低的编码码率,避免混音参与度较低的语音通道的音频信号的传输消耗过多的网络带宽资源。
一种语音会话的语音编码码率控制方法,所述方法包括:
获取语音会话的各语音通道中当前音频帧的音频信号的语音特征值;
根据在当前音频帧各所述语音通道对应的语音特征值,确定各所述语音通道的混音选入概率值;所述混音选入概率值用于反映语音通道的音频信号被选中进行混音处理的概率;
对于各语音通道中的每一目标语音通道,根据在当前音频帧所述目标语音通道的混音选入概率值,确定所述目标语音通道下一音频帧的编码码率,所述编码码率与所述混音选入概率值正相关。
一种语音会话的编码码率控制装置,所述装置包括:
第二信号获取模块,用于获取语音会话的各语音通道中当前音频帧的音频信号的语音特征值;
选路状态获取模块,用于根据在当前音频帧各所述语音通道对应的语音特征值,确定各所述语音通道的混音选入概率值;所述混音选入概率值用于反映语音通道的音频信号被选中进行混音处理的概率;
第二编码码率获取模块,用于对于各语音通道中的每一目标语音通道,根据在当前音频帧所述目标语音通道的混音选入概率值,确定所述目标语音通道下一音频帧的编码码率,所述编码码率与所述混音选入概率值正相关。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取语音会话的各语音通道中当前音频帧的音频信号;
根据各所述音频信号,分别生成在当前音频帧各语音通道的混音信号;
对于各语音通道中的每一目标语音通道,确定在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比;
根据所述混音贡献占比确定所述目标语音通道下一音频帧的编码码率;所述编码码率与所述混音贡献占比正相关。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取语音会话的各语音通道中当前音频帧的音频信号的语音特征值;
根据在当前音频帧各所述语音通道对应的语音特征值,确定各所述语音通道的混音选入概率值;所述混音选入概率值用于反映语音通道的音频信号被选中进行混音处理的概率;
对于各语音通道中的每一目标语音通道,根据在当前音频帧所述目标语音通道的混音选入概率值,确定所述目标语音通道下一音频帧的编码码率,所述编码码率与所述混音选入概率值正相关。
上述语音会话的编码码率控制方法、装置、计算机设备和存储介质,通过获取语音会话的各语音通道中当前音频帧的音频信号;根据各音频信号,分别生成在当前音频帧各语音通道的混音信号;对于各语音通道中的每一目标语音通道,确定在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比;根据混音贡献占比确定目标语音通道下一音频帧的编码码率;编码码率与混音贡献占比正相关,后续根据编码码率指示目标语音通道对应的终端,使得终端按照编码码率对采集的下一音频帧进行编码,实现控制各个语音通道的音频信号的编码码率,对混音选入概率值较低的语音通道的音频信号设置较低的编码码率,避免混音参与度较低的语音通道的音频信号的传输消耗过多的网络带宽资源。
附图说明
图1为一个实施例中语音会话的编码码率控制方法的应用环境图;
图2为一个实施例中语音会话的编码码率控制方法的流程示意图;
图3为一个实施例中确定在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比步骤的流程示意图;
图4为另一个实施例中根据贡献信号总量以及混音信号总量,获取在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比步骤的流程示意图;
图5为一个实施例中语音会话的编码码率控制方法的流程示意图;
图6为一个实施例中根据在当前音频帧目标语音通道的混音选入概率值,确定目标语音通道下一音频帧的编码码率步骤的流程示意图;
图7为另一个实施例中根据在当前音频帧目标语音通道的混音选入概率值,确定目标语音通道下一音频帧的编码码率步骤的流程示意图;
图8a为另一个实施例中语音会话的编码码率控制方法的应用环境图;
图8b为一个实施例中终端与服务器交互的时序图;
图8c为一个实施例中语音会话的编码码率控制方法的流程图;
图8d为另一个实施例中终端与服务器交互的时序图;
图8e为另一个实施例中语音会话的编码码率控制方法的流程图;
图9为一个实施例中语音会话的编码码率控制装置的结构框图;
图10为另一个实施例中语音会话的编码码率控制装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
现有的混音方法包括服务器混音技术以及服务器选路技术。
在服务器混音技术中,任意一个会话终端在采集到音频信号后,对音频信号进行编码得到音频码流,并将音频信号对应的音频码流发送至服务器中。服务器接收所有参与语音会话的会话终端发送的音频码流后,对音频码流进行解码,以获取各个语音通道的音频信号;服务器在获得各个语音通道的音频信号后,对于任意语音通道,服务器将除该语音通道以外的语音通道的音频信号进行混音处理后,将混音后的信号发送至该语音通道对应的会话终端。可以理解的是,由于各个会话终端对应的混音信号不同,需要分别进行编码压缩。
在服务器选路技术中,当有多个会话终端参与语音会话时,任意一个会话终端在采集到音频信号后,从音频信号提取音频信号的语音特征信息,并对音频信号进行编码得到音频码流,进而将音频信号对应的语音特征信息以及音频码流发送至服务器中。服务器在接收到各个会话终端所发送的音频信号对应的语音特征信息以及音频码流后,根据各个语音通道的语音特征信息,判决哪些语音通道参与本次的语音会话,哪些语音通道不参与本次的语音会话,确定被选中的语音通路。然后,服务器将被选中的语音通路的音频码流发送至各个会话终端中,各个会话终端接收到被选中的语音通路的音频码流后,将音频码流进行解码,获得被选中的语音通路的音频信号,并在本地对被选中的语音通路的音频信号(可以滤除本身对应语音通道的音频信号)进行混音处理,最终对混音处理得到的混音信号进行播放。
本申请提供的语音会话的编码码率控制方法,可以应用于如图1所示的应用环境中。参照图1,该语音会话的编码码率控制方法的应用环境包括第一终端102、第二终端104、第三终端106和服务器108,其中,第一终端102、第二终端104以及第三终端106是安装了可实现语音会话功能的应用程序的终端,第一终端102、第二终端104以及第三终端106既可以用于发送语音信号,也可以用于接收语音信号。第一终端102、第二终端104以及第三终端106可分别通过网络与服务器108建立语音通道,继而实现语音会话。其中,第一终端102、第二终端104以及第三终端106可以是相同或不同的终端,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器108可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
第一终端102可通过当前登录的第一用户标识加入相应的语音会话,第一终端102可以通过语音采集装置,例如麦克风,采集第一用户标识对应用户在参与语音会话过程中的音频信号,并采集到将音频信号发送至服务器108中。同样的,第二终端104以及第三终端106可通过当前登陆的用户标识加入到相应的语音会话,并通过语音采集装置,例如麦克风,采集对应用户在参与语音会话过程中音频信号,并将采集到的音频信号发送至服务器108中。服务器108在接收到各个终端通过对应的语音通道所发送的音频信号后,根据各语音通道的音频信号,分别生各语音通道的混音信号,进而对于语音通道中的任意一路目标语音通道,确定该目标语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比;然后,根据该混音贡献占比确定该目标语音通道的编码码率;所述编码码率与所述混音贡献占比正相关;指示所述目标语音通道对应的终端,使得所述终端按照所述编码码率对采集的音频信号进行编码。
在一个实施例中,如图2所示,提供了一种语音会话的编码码率控制方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,获取语音会话的各语音通道中当前音频帧的音频信号。
其中,语音会话是指至少两个终端进行语音交互的过程,语音会话可以根据参与语音会话的终端的数量分为双人会话或多人会话,仅由两个终端进行的会话称为双人语音会话,超过两个终端进行的会话称为多人会话。语音会话可以是群语音会话、群视频会话或语音直播等。语音通道是会话方对应终端与服务器间建立的进行语音传输的链路,是与会话方对应终端一一对应的。
其中,音频信号是指语音会话的过程中,通过会话方对应终端采集的声音数据;音频帧是音频信号的最小处理单位,是单位时长的音频信号。在一个实施例中,对于每一路语音通道的音频信号,会话方对应终端可根据音频信号采集时序,实时对音频信号进行分帧处理,得到多个音频帧的音频信号,进而对每一音频帧的音频信号进行语音编码处理,并将每一音频帧的编码后音频信号发送至服务器中。服务器接收各个与会方对应语音通道的每一音频帧的音频信号后,对音频信号进行解码,得到相应音频帧的音频信号。
具体地,不同会话方对应终端上安装有可进行语音会话的应用程序,各个会话方对应的会话用户通过该应用程序可实现与其它与会方间进行语音通话的功能。会话方对应终端上可通过声音装置采集用户在参与语音会话时音频信号,并将采集到的音频信号发送至服务器,服务器接收到各个会话方对应的音频信号。
步骤S204,根据各音频信号,分别生成在当前音频帧各语音通道的混音信号。
其中,混音信号是指利用混音算法对多路语音通道的音频信号进行线性叠加处理所得到的音频信号。在一个实施例中,各个语音通道的混音信号,可以是对除自身语音通道以外的其它语音通道的音频信号进行线性叠加处理得到;也可以是对所有语音通道的音频信号进行线性叠加处理得到;还可以根据除自身语音通道以外的语音通道的音频信号的语音特征值,从除自身语音通道以外的语音通道筛选进行混音处理的语音通道,通过对被选中进行混音处理的语音通道的音频信号进行线性叠加处理得到。进一步地,在生成混音信号过程中,服务器为可以对各个语音通道的音频信号设置混音权重,从而根据需要进行线性叠加处理的语音通道的音频信号及其对应的混音权重,获取对各个语音通道的音频信号进行混音处理以获取混音信号。
在一个实施例中,服务器在生成与各个语音通道对应的混音信号后,可以将各个语音通道的混音信号发送给对应语音通道的会话终端,各个会话终端接收服务器发来的混音信号,并对混音信号进行播放。
步骤S206,对于各语音通道中的每一目标语音通道,确定在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比。
其中,混音贡献占比用于反映目标语音通道的音频信号在其它语音通道的混音信号中的贡献量,具体地,可以是指某一语音通道的音频信号的信号值在其它语音通道的混音信号的信号值的占比,也可以是指某一语音通道的音频信号的信号能量在其它语音通道的混音信号的信号能量的占比。可以理解的是,混音贡献占比越大,混音参与度越高,表示该语音通道中的音频信号为有效语音(例如为与会方用户发出语音)的可能性越大,反之,混音贡献占比越小,混音参与度越低,表示该语音通道中的音频信号为有效语音的可能性越小。
具体地,服务器在获取到各个语音通道的音频信号以及混音信号后,针对任意一路语音通道的音频信号,获取该语音通道的音频信号在其它各个语音通道的贡献信号,进而获取其它各个语音通道的贡献信号与对应混音信号间的比值,确定该语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比。
步骤S208,根据混音贡献占比确定目标语音通道下一音频帧的编码码率;编码码率与混音贡献占比正相关。
其中,编码码率是指数据传输时单位时间传输的数据位数。可以理解的是,对音频信号的编码码率越大,音频信号对应的语音质量越好。其中,当混音贡献占比越大,混音参与度越高,该目标语音通道中的音频信号为有效语音的可能性越大,则将该目标语音通道的音频信号的编码码率调整为较高的编码码率,以提高音频信号对应语音的语音质量;当混音贡献占比越小,混音参与度越低,该目标语音通道中的音频信号为有效语音的可能性越小,此时将该目标语音通道的音频信号的编码码率调整为较低的编码码率,以降低该目标语音通道的音频信号的传输所占用的网络带宽资源。
其中,服务器在获取到在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比后,根据目标语音通道对应的混音贡献占比,确定目标语音通道下一语音帧的编码码率。具体地,服务器可以通过设置一个编码码率映射函数,当目标语音通道对应的混音贡献占比的值落入某一取值区间,则将该目标语音通道的编码码率调整为与取值区间对应的编码码率,该编码码率用于指示终端对下一音频帧的音频信号进行编码。进一步地,在一个实施例中,服务器还可以设置一个混音贡献阈值,当目标语音通道对应的混音贡献占比大于混音贡献阈值,将该目标语音通道的编码码率调整为一个较高的编码码率;当目标语音通道对应的混音贡献占比小于混音贡献阈值时,将目标语音通道的编码码率调整为一个较低的编码码率。
在一个实施例中,根据混音贡献占比确定目标语音通道下一音频帧的编码码率的步骤之后,还包括:指示目标语音通道对应的终端,使得终端按照编码码率对采集的下一音频帧进行编码。具体地,服务器在确定到各个语音通道的编码码率后,将各个语音通道的编码码率对应返回至各个语音通道对应的终端,终端在获取服务器返回的编码码率后,根据接收到的编码码率对下一音频帧的音频信号进行编码。
可以理解的是,服务器可以按照各个音频帧的时序,一个一个的处理不同音频帧,实现根据目标语音通道在前一时序的音频帧的音频信号在混音信号中的混音贡献占比,确定后一时序的音频帧的音频信号的编码码率,直至语音会话结束。
上述语音会话的编码码率控制方法中,获取语音会话的各语音通道中当前音频帧的音频信号;根据各音频信号,分别生成在当前音频帧各语音通道的混音信号;对于各语音通道中的每一目标语音通道,确定在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比;根据混音贡献占比确定目标语音通道下一音频帧的编码码率,编码码率与混音贡献占比正相关;指示目标语音通道对应的终端,使得终端按照编码码率对采集的下一音频帧进行编码。本方法实现控制各个语音通道的音频信号的编码码率,对在混音信号中参与度较低的语音通道的音频信号设置较低的编码码率,避免混音参与度较低的语音通道的音频信号的传输消耗过多的网络带宽资源,同时,对在混音信号中参与度较高的语音通道的音频信号设置较高的编码码率,提高混音参与度较高的语音通道的音频信号的语音质量,提高语音会话的语音质量。
在一个实施例中,如图3所示,对于各语音通道中的每一目标语音通道,确定在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比的步骤,包括:
步骤S302,根据在当前音频帧各语音通道的混音信号,确定在当前音频帧的混音信号总量。
其中,混音信号总量是指参与语音会话的各路语音通道的混音信号的信号总量。如上述,各个语音通道的混音信号,可以是对除自身语音通道以外的其它语音通道的音频信号进行线性叠加处理得到的,不同语音通道的混音信号是不同的,因此,服务器在获取到各路语音通道的在当前音频帧的混音信号后,可以对各路语音通道的混音信号进行线性叠加处理,得到当前音频帧的混音信号总量。
步骤S304,对于各语音通道中的每一目标语音通道,获取在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的贡献信号。
其中,贡献信号是指目标语音通道的音频信号,在其它各个语音通道的混音信号中的混音贡献。其中,由于在获取各个语音通道的混音信号时,服务器往往对各个语音通道的音频信号设置混音权重,贡献信号可根据语音通道的音频信号以及该语音通道的混音权重进行确定。
例如,对于包括M路会话方的语音会话,当目标通道的混音信号为除自身语音通道以外的其它语音通道的音频信号进行线性叠加处理得到的时候,对于任意一路的目标语音通道的混音信号,可以表示为以下公式(1):
Figure BDA0002508152760000111
其中,M为参与语音会话的会话方数量(即语音通道数量),M为正整数;ai(t)是第i路语音通道的音频信号,bj(t)是指第j路语音通道的混音信号,Wij(t)是第i路语音通道的混音权重。对此,目标语音通道的在各个其它语音通道的混音信号中的贡献信号为:cij(t)=Wij(t)*ai(t)(即第i路语音通道的音频数据在第j路语音通道的混音数据中的贡献信号)。
又例如,对于包括M路会话方的语音会话,当目标语音通道的混音信号为从除自身语音通道以外的语音通道筛选进行混音处理的语音通道,通过对被选中进行混音处理的语音通道的音频信号进行线性叠加处理得到的时候,对于任意一路的目标语音通道的混音信号,可以表示为以下公式(2):
Figure BDA0002508152760000112
其中,M为参与语音会话的会话方数量(即语音通道数量),N为被选中进行混音处理的语音通道,M以及N为正整数,且N小于M;bj(t)是指第j路语音通道的混音信号;ai(t)是第i路被选中进行混音处理的语音通道的音频信号;Wij(t)是第i路被选中进行混音处理的语音通道的混音权重。对此,当目标语音通道被选中进行混音处理,其音频信号在各个其它语音通道的混音信号中的贡献信号,为:cij(t)=Wij(t)*ai(t);当目标语音通道未被选中进行混音处理,其音频信号在其他语音通道的混音信号中的贡献信号为空值。
步骤S306,根据在当前音频帧目标语音通道的音频信号在其它语音通道的贡献信号,确定在当前音频帧目标语音通道的贡献信号总量。
步骤S308,根据贡献信号总量以及混音信号总量,获取在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比。
其中,贡献信号总量是指目标语音通道的音频信号在其它各个语音通道的贡献信号的信号总量。在确定到目标语音通道当前语音帧的音频信号的贡献信号总量、以及混音信号总量后,可以将贡献信号总量与混音信号总量间的比值,确定为在当前音频帧,目标语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比。
由于各个语音通道的混音信号往往并不相同,通过将所有语音通道的混音信号作进一步的累加获取混音信号总量,以及获取目标语音通道的音频信号在其它各个语音通道的混音信号中的贡献信号总量,从而根据贡献信号总量与混音信号总量间的比值,确定在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比,提高混音贡献占比的准确度。
在一个实施例中,如图4所示,步骤S308,根据贡献信号总量以及混音信号总量,获取在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比,包括:
步骤S308a,对在当前音频帧的混音信号总量进行平滑处理,获得在当前音频帧的混音信号平滑值。
其中,对于每一语音帧,服务器均对混音信号总量进行时域平滑处理,以避免由于噪声或其它因素造成当前音频帧的混音信号总量的误差,提高当前混音信号总量的准确度。具体地,服务器可以通过历史音频帧的混音信号总量对当前音频帧的混音信号进行平滑处理,以获取当前音频帧的混音信号平滑值。其中,历史音频帧可以是一帧历史音频帧或者多于一帧的历史音频帧。例如,历史音频帧可以是当前音频帧的前1帧音频帧,或者是当前音频帧的前N帧音频帧,N为大于1的正整数。
在一个实施例中,服务器获取在历史音频帧的混音信号平滑值;对在历史音频帧的混音信号平滑值、以及在当前音频帧的混音信号总量进行加权求和,得到在当前音频帧的混音信号平滑值。
具体地,服务器可以通过下述公式(3)获取当前音频帧的混音信号平滑值:
Figure BDA0002508152760000131
其中ball(t)表示第t语音帧的混音信号平滑值;ball(t-1)表示第(t-1)语音帧的混音信号平滑值;β表示第一平滑系数;bj(t)表示第j路语音通道在第t语音帧的混音信号;M表示语音通道的数量。
步骤S308b,对在当前音频帧目标语音通道的贡献信号总量进行平滑处理,获得在当前音频帧目标语音通道的贡献信号平滑值;
同样的,对于每一语音帧,服务器均对贡献信号总量进行时域平滑处理,以避免由于噪声或其它因素造成当前音频帧的贡献信号总量的误差,提高当前音频帧的贡献信号总量的准确度。其中,服务器可以通过历史音频帧的贡献信号总量对当前音频帧的贡献信号总量进行平滑处理,以获取当前音频帧的贡献信号平滑值。其中,历史音频帧可以是一帧历史音频帧或者多于一帧的历史音频帧。例如,历史音频帧可以是当前音频帧的前1帧音频帧,或者是当前音频帧的前N帧音频帧,其中,N为大于1的正整数。
在一个实施例中,服务器获取在历史音频帧目标语音通道的贡献信号平滑值;对在历史音频帧目标语音通道的贡献信号平滑值、以及在当前音频帧的目标语音通道的音频信号在其它语音通道的贡献信号总量进行加权求和,得到在当前音频帧目标语音通道的贡献信号平滑值。
具体地,服务器可以通过下述公式(4)获取在当前音频帧目标语音通道的贡献信号平滑值:
Figure BDA0002508152760000132
其中,
Figure BDA0002508152760000133
表示第i路语音通道的音频信号在第t语音帧的贡献信号平滑值;
Figure BDA0002508152760000134
表示第i路语音通道的音频信号在第(t-1)语音帧的贡献信号平滑值;cij(t)表示第i路语音通道的音频信号在第j路语音通道的混音信号中的贡献信号;β表示第一平滑系数;M表示语音通道的数量。
步骤S308c,根据在当前音频帧的贡献信号平滑值与混音信号平滑值间的比值,确定在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比。
其中,服务器在获取到当前音频帧的贡献信号平滑值以及混音信号平滑值后,可以计算在当前音频帧的贡献信号平滑值与混音信号平滑值间的比值,将该比值确定为在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比。
上述实施例中,通过对混音信号总量以及贡献信号总量进行平滑处理,以减少噪声或其它因素对混音信号总量或贡献信号总量所造成的误差,提高混音信号总量或贡献信号总量的准确度,进而提高混音贡献占比的准确性。
在一个实施例中,所述对在当前音频帧的所述混音信号总量进行平滑处理,获得在当前音频帧的混音信号平滑值,包括:获取在历史音频帧的混音信号总量;对所述在历史音频帧的混音信号总量、以及所述在当前音频帧的混音信号总量进行加权求和,得到在当前音频帧的混音信号平滑值。
具体地,服务器获取到历史音频帧的混音信号总量,然后对历史音频帧的混音信号总量以及在当前音频帧的混音信号总量进行加权求和,获取当前音频帧的混音信号平滑值,其中,对于各个音频帧的加权系数,距离当前音频帧越远的历史音频帧的混音信号总量的加权系数越小。基于历史音频帧的混音信号总量,对当前音频帧的混音信号总量进行平滑处理,实现跟踪混音信号总量的变化,减少当前音频帧的混音信号总量的误差。
在一个实施例中,所述对在当前音频帧所述目标语音通道的贡献信号总量进行平滑处理,获得在当前音频帧所述目标语音通道的贡献信号平滑值的步骤,包括:获取在历史音频帧所述目标语音通道的音频信号在其它所述语音通道的贡献信号总量;对在历史音频帧所述目标语音通道的音频信号在其它所述语音通道的贡献信号总量、以及在当前音频帧的所述目标语音通道的音频信号在其它所述语音通道的贡献信号总量进行加权求和,得到在当前音频帧所述目标语音通道的贡献信号平滑值。
具体地,服务器获取在历史音频帧目标语音通道的音频信号在其它所述语音通道的贡献信号总量,然后对在历史音频帧的贡献信号总量以及在当前音频帧的贡献信号总量进行加权求和,获取当前音频帧的贡献信号平滑值,其中对于各个音频帧的加权系数,距离当前音频帧越远的历史音频帧的贡献信号总量的加权系数越小。基于历史音频帧的贡献信号总量,对当前音频帧的贡献信号总量进行平滑处理,实现跟踪贡献信号总量的变化,减少当前音频帧的贡献信号总量的误差。
在一个实施例中,所述对于各语音通道中的每一目标语音通道,确定在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比,通过以下公式(5)、(6)以及(7)实现:
Figure BDA0002508152760000151
Figure BDA0002508152760000152
Figure BDA0002508152760000153
其中,ball(t)表示第t语音帧的混音信号平滑值;ball(t-1)表示第(t-1)语音帧的混音信号平滑值;β表示第一平滑系数;bj(t)表示第j路语音通道在第t语音帧的混音信号;M表示语音通道的数量;
Figure BDA0002508152760000154
表示第i路语音通道的音频信号在第t语音帧的贡献信号平滑值;/>
Figure BDA0002508152760000155
表示第i路语音通道的音频信号在第(t-1)语音帧的贡献信号平滑值;cij(t)表示第i路语音通道的音频信号在第j路语音通道的混音信号中的贡献信号;ri(t)表示在第t语音帧第i路语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比。
进一步地,在获取到目标语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比ri(t)后,可以根据bitratei(t)=f(ri(t))获取目标语音通道下一音频帧的音频信号的编码码率,其中,函数f(·)可以是一个单调递增函数,确保音频信号的编码码率随着选路状态平滑值提升而提升。
在一个实施例中,语音会话的编码码率控制方法还包括:获取码率控制方式配置;当所述码率控制方式配置表示采用第一码率控制方式时,执行根据各所述音频信号,分别生成在当前音频帧各语音通道的混音信号的步骤;当所述码率控制方式配置表示采用第二码率控制方式时,执行以下步骤:获取语音会话的各语音通道中当前音频帧的音频信号的语音特征值;根据在当前音频帧各所述语音通道对应的语音特征值,确定各所述语音通道的混音选入概率值;所述混音选入概率值用于反映语音通道的音频信号被选中进行混音处理的概率;对于各语音通道中的每一目标语音通道,根据在当前音频帧所述目标语音通道的混音选入概率值,确定所述目标语音通道下一音频帧的编码码率,所述编码码率与所述选路状态信息正相关。
其中,码率控制方式配置用于指示服务器采用第一码率控制方式或第二码率控制方式进行编码码率控制。其中,第一码率控制方式是指,在获取到语音会话的各语音通道中当前音频帧的音频信号后,根据各音频信号,分别生成在当前音频帧各语音通道的混音信号,进而对于各语音通道中的每一目标语音通道,确定在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比,最后根据混音贡献占比确定目标语音通道下一音频帧的编码码率。而第二码率控制方式是指,在获取到语音会话的各语音通道中当前音频帧的音频信号后,获取各语音通道中当前音频帧的音频信号的语音特征值,进而根据在当前音频帧各语音通道对应的语音特征值,确定各语音通道的混音选入概率值;最后根据在当前音频帧目标语音通道的混音选入概率值,确定目标语音通道下一音频帧的编码码率。
可以理解的是,当服务器采用的混音方法为现有的服务器混音技术,则码率控制方式配置表示采用第一码率控制方式,通过第一码率控制方式获取会话终端对应音频帧的编码码率。当服务器采用的混音方法为现有的服务器选路技术,则码率控制方式配置表示采用第二码率控制方式,通过第二码率控制方式获取会话终端对应音频帧的编码码率。
在一个实施例中,如图5所示,提供了一种语音会话的编码码率控制方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S502,获取语音会话的各语音通道中当前音频帧的音频信号的语音特征值。
其中,语音通道是会话方对应终端与服务器间建立的进行语音传输的链路,是与会话方对应终端一一对应的。音频信号是指与会方在参与会话的过程中通过会话方终端采集的用户声音数据,音频帧是音频信号的最小处理单位,是单位时长的音频信号,音频信号的语音特征值可以是音频信号的信号能量、信噪比等。
在一个实施例中,对于每一路语音通道,对应会话终端可通过语音采集装置实时采集当前音频帧的音频信号,并对采集到的当前音频帧的音频信号进行语音特征提取,得到音频信号的语音特征值,并将当前音频帧的音频信号的语音特征值发送至服务器中。后续服务器根据各个会话终端对应语音通道的音频信息的语音特征值,从多个会话终端对应的语音通道中,确定参与当前音频帧混音处理的语音通道,然后将所选中的语音通道在当前音频帧的音频信号转发至各个会话终端中,各个会话终端在接收到被选中进行混音处理的语音通道的音频信号后,对接收到的音频信号进行混音处理得到当前音频帧的混音信号,并对混音信号进行播放。
步骤S504,根据在当前音频帧各语音通道对应的语音特征值,确定各语音通道的混音选入概率值;混音选入概率值用于反映语音通道的音频信号被选中进行混音处理的概率。
其中,服务器在接收到各个语音通道在当前音频帧的音频信号的语音特征值后,可以对各个语音通道的音频信号进行筛选,从各个语音通道的音频信号中选取出参与混音处理的音频信号,确定各个语音通道的音频信号被选入进行混音处理的概率。
在一个实施例中,服务器具体可以根据各个语音通道的音频信号的语音特征值,获取各个语音通道的混音选入概率值,当某一语音通道在当前音频帧的音频信号的语音特征值越大,其混音选入概率值越大,当在当前音频帧的音频信号的语音特征值越小,其混音选入概率值越小。例如,当音频信号的语音特征值选取为音频信号的信号能量时,服务器可以是根据各个语音通道的音频信号的信号能量,获取各个语音通道的混音选入概率值,具体地,当某一语音通道在当前音频帧的音频信号的信号能量越大,其混音选入概率值越大,当在当前音频帧的音频信号的信号能量越小,其混音选入概率值越小;同样的,当音频信号的语音特征值选取为音频信号的信噪比时,服务器可以根据各个语音通道的音频信号的信噪比,获取各个语音通道的选入概率值,例如,当某一语音通道在当前音频帧的音频信号的信噪比越大,其混音选入概率值越大,当在当前音频帧的音频信号的信噪比越小,其混音选入概率值越小。
进一步的,在一个实施例中,服务器具体还可以设置一个选取阈值,当某一语音通道在当前音频帧的音频信号的语音特征值大于选取阈值时,将该语音通道在当前音频帧的混音选入概率值确定为1,即该语音通道的音频信号在当前音频帧被选中进行混音处理;当该语音通道在当前音频帧的音频信号的语音特征值小于选取阈值时,将该语音通道在当前音频帧的混音选入概率值确定为0,即该语音通道的音频信号在当前音频帧未被选中进行混音处理。
步骤S506,对于各语音通道中的每一目标语音通道,根据在当前音频帧目标语音通道的混音选入概率值,确定目标语音通道下一音频帧的编码码率,编码码率与混音选入概率值正相关。
其中,在获取到各个会话终端对应语音通道的混音选入概率值后,根据混音选入概率值,对应确定各个语音通道在下一语音帧的编码码率。可以理解的是,当语音通道中的音频信号为有效语音(例如与会人员的发言的语音),该语音通道的音频信号的信号能量或信噪比等语音特征值越大,混音选入概率值越大,即该语音通道的音频信号被选中间混音处理的概率越高,则将该目标语音通道的音频信号的编码码率调整为较高的编码码率,以提高音频信号对应语音的语音质量;当语音通道中的音频信号为无效语音(例如环境噪声),该语音通道的音频信号的信号能量或信噪比等语音特征值越小,混音选入概率值越小,即该语音通道的音频信号被选中进行混音处理的概率越低,则将该目标语音通道的音频信号的编码码率调整为较低的编码码率,以降低该目标语音通道的音频信号的传输所占用的网络带宽资源。
在一个实施例中,根据在当前音频帧目标语音通道的混音选入概率值,确定目标语音通道下一音频帧的编码码率的步骤之后,还包括:指示目标语音通道对应的终端,使得终端按照编码码率对采集的下一音频帧进行编码。具体地,服务器在确定到各个语音通道的编码码率后,将各个语音通道的编码码率对应返回至各个语音通道对应的终端,终端在获取服务器返回的编码码率后,根据接收到的编码码率对下一音频帧的音频信号进行编码。
可以理解的是,服务器可以按照各个音频帧的时序顺序,一个一个的处理不同音频帧,实现根据目标语音通道在前一时序的音频帧的音频信号的选入状态概率值,确定后一时序的音频帧的音频信号的编码码率,直至语音会话结束。
上述语音会话的编码码率控制方法,通过获取语音会话的各语音通道中当前音频帧的音频信号的语音特征值;根据在当前音频帧各语音通道对应的语音特征值,确定各语音通道的混音选入概率值;混音选入概率值用于反映语音通道的音频信号被选中进行混音处理的概率;对于各语音通道中的每一目标语音通道,根据在当前音频帧目标语音通道的混音选入概率值,确定目标语音通道下一音频帧的编码码率,编码码率与混音选入概率值正相关;指示目标语音通道对应的终端,使得终端按照编码码率对采集的下一音频帧进行编码。本方法实现控制各个语音通道的音频信号的编码码率,对混音选入概率值较低的语音通道的音频信号设置较低的编码码率,避免混音参与度较低的语音通道的音频信号的传输消耗过多的网络带宽资源,同时,对混音选入概率值较高的语音通道的音频信号设置较高的编码码率,提高混音参与度较高的语音通道的音频信号的语音质量,提高语音会话的语音质量。
在一个实施例中,如图6所示,根据在当前音频帧目标语音通道的混音选入概率值,确定目标语音通道下一音频帧的编码码率的步骤,包括:
步骤S602,根据在当前音频帧目标语音通道的混音选入概率值,确定在当前音频帧目标语音通道的选路状态,选路状态用于反映目标语音通道的音频信号是否被选中进行混音处理。
具体地,服务器可以设置一个混音选入概率阈值,在获取到当前音频帧目标语音通道的混音选入概率值后,根据混音选入概率值与混音选入概率阈值进行对比,以确定在当前音频帧目标语音通道的选路状态,其中,当混音选入概率值大于混音选入概率阈值时,则在当前目标帧目标语音通道的音频信号被选中进行混音处理,即目标语音通道的选路状态为选中状态;当混音选入概率值小于或等于混音选入概率阈值时,则在当前目标帧目标语音通道的音频信号未被选中进行混音处理,即目标语音通道的选路状态为未选中状态。
步骤S604,在当前音频帧目标语音通道的选路状态为选中状态时,将目标语音通道下一音频帧的编码码率设置为第一编码码率。
步骤S606,在当前音频帧目标语音通道的选路状态为未选中状态时,将目标语音通道下一音频帧的编码码率设置为第二编码码率;其中,第一编码码率大于第二编码码率。
其中,在确定到在当前音频帧目标语音通道的选路状态后,服务器根据选路状态确定目标语音通道的下一音频帧的编码码率,具体地,当前音频帧目标语音通道的选路状态为选中状态时,将所述目标语音通道下一音频帧的编码码率设置为编码率较高的第一编码码率;当前音频帧目标语音通道的选路状态为未选中状态时,将所述目标语音通道下一音频帧的编码码率设置为编码率较低的第二编码码率。
可以理解的是,服务器可以按照各个音频帧的时序,一个一个地处理不同音频帧,实现根据目标语音通道在前一时序的音频帧的选路状态,确定后一时序的音频帧的音频信号的编码码率,直至语音会话结束。
本实施例中,语音编码码率是在当前音频帧语音通道的选路状态来决定,当某一语音通道的选路状态为选中状态,则采用较高的编码码率对音频信号进行编码;相反,当某一语音通道的选路状态为未选中状态,则采用较低的编码码率对音频信号进行编码,避免某些语音通道在不被选中进行混音处理以获取混音信号的情况下,仍消耗大量网络带宽资源对该语音通道的音频数据进行传输的情况,避免网络带宽资源的浪费。
进一步地,在一个实施例中,如图7所示,根据在当前音频帧目标语音通道的混音选入概率值,确定目标语音通道下一音频帧的编码码率的步骤,包括:
步骤S702,根据在当前音频帧目标语音通道的混音选入概率值,确定在当前音频帧目标语音通道的选路状态,并获取选路状态对应的值。
具体地,服务器在获取到当前音频帧目标语音通道的混音选入概率值后,根据混音选入概率值确定在当前音频帧目标语音通道的选路状态,并获取当前音频帧目标语音通道的选路状态所对应的选路状态值。其中,选路状态对应的值(即选路状态值)用于标识选路状态,在一个实施例中,在当前目标帧目标语音通道的音频信号被选中进行混音处理,即目标语音通道的选路状态为选中状态时,目标语音通道的选路状态值可以设置为1;在当前目标帧目标语音通道的音频信号未被选中进行混音处理,即目标语音通道的选路状态为未选中状态时,目标语音通道的选路状态值可以设置为0。
步骤S704,基于在历史音频帧目标语音通道的选路状态值,对在当前音频帧目标语音通道的选路状态值进行平滑处理,得到在当前音频帧目标语音通道的选路状态平滑值。
其中,对于任意一目标语音通道的任意音频帧,服务器均对该语音帧的选路状态值进行时域平滑处理,以获取该目标语音通道在该音频帧的选路状态平滑值。具体地,可以获取该目标语音通道在历史音频帧的选路状态值,对目标语音通道在当前音频帧的选路状态值进行时序平滑处理。可以理解的是,历史音频帧具体可以是一帧历史音频帧或多于一帧历史音频帧,其中,历史音频帧具体可以是当前音频帧的前一帧音频帧或前N帧的音频帧等,其中,N为大于1的正整数。
步骤S706,根据在当前音频帧目标语音通道的选路状态平滑值,获取目标语音通道下一音频帧的音频信号的编码码率。
其中,当选路状态平滑值越接近选路状态为选中状态时的选路状态值时,编码码率越大,当选路状态平滑值越接近选路状态为未选中状态时的选路状态值时,编码码率越大;例如,以选路状态为选中状态时的选路状态值为1、选路状态为未选中状态时的选路状态值为0为例,此时,编码码率与选路状态平滑值成正相关,即当选路状态平滑值越接近1,编码码率越大,当选路状态平滑值越接近0,编码码率越小。
可以理解的是,服务器可以按照各个音频帧的时序顺序,一个一个的处理不同音频帧,实现根据前一时序的音频帧的选路状态平滑值,确定后一时序的音频帧的音频信号的编码码率,直至语音会话结束。
本实施例中,通过对目标语音通道在当前音频帧的选路状态值进行时序平滑处理,获得当前语音帧的选路状态平滑值,由于对于各个语音通道的选路状态是有一定波动的,例如人声语音可能存在一定的停顿,此时对应的语音帧可能会不被选中,通过利用该语音通道在历史音频帧的选路状态值,对任意语音通道在当前音频帧的选路状态值进行时序平滑处理,以获取可反映当前音频帧的选路状态趋势的选路状态平滑值,可避免噪音或语音停顿等情况对当前音频帧的选路状态造成影响,减小选路状态确认的误差。
在一个实施例中,所述基于在历史音频帧所述目标语音通道的选路状态值,对在当前音频帧所述目标语音通道的选路状态值进行平滑处理,得到在当前音频帧所述目标语音通道的选路状态平滑值的步骤,包括:当所示选路状态为选中状态时,所述选路状态值为1;通过以下公式(8)实现基于在历史音频帧所述目标语音通道的选路状态值,对在当前音频帧所述目标语音通道的选路状态值进行平滑处理,得到在当前音频帧所述目标语音通道的选路状态平滑值的步骤:
Figure BDA0002508152760000221
其中,
Figure BDA0002508152760000222
表示第i语音通道在第t音频帧的选路状态平滑值;/>
Figure BDA0002508152760000223
表示第i语音通道在第(t-1)音频帧的选路状态平滑值;α表示第二平滑系数;
当所示选路状态为选中状态时,所述选路状态值为1;通过以下公式(9)实现基于在历史音频帧所述目标语音通道的选路状态值,对在当前音频帧所述目标语音通道的选路状态值进行平滑处理,得到在当前音频帧所述目标语音通道的选路状态平滑值的步骤:
Figure BDA0002508152760000224
其中,
Figure BDA0002508152760000225
表示第i语音通道在第t音频帧的选路状态平滑值;/>
Figure BDA0002508152760000226
表示第i语音通道在第(t-1)音频帧的选路状态平滑值;η表示第三平滑系数。
具体地,α取值为0到1的值,在一个实施例中,α可取值为0.1。同样的,η取值为0到1的值,在一个实施例中,η可取值为0.98。
进一步地,在获取到所述目标语音通道在当前音频帧的选路状态平滑值
Figure BDA0002508152760000227
后,可以根据/>
Figure BDA0002508152760000231
获取目标语音通道下一音频帧的音频信号的编码码率,其中,函数f(·)可以是一个单调递增函数,确保音频信号的编码码率随着选路状态平滑值提升而提升。
本申请还提供一种应用场景,该应用场景应用上述的语音会话的编码码率控制方法。具体地,如图8a所示,该语音会话的编码码率控制方法的应用环境包括终端802、终端804、终端806、终端808和服务器810。该语音会话的编码码率控制方法在该应用场景的应用如下:对于任意一个终端,终端在采集到音频信号后,对音频信号进行编码得到音频码流,并将音频信号对应的音频码流发送至服务器中。服务器接收所有参与语音会话的终端所发送的音频码流后,对音频码流进行解码,以获取各个语音通道的音频信号;服务器在获得各个语音通道的音频信号后,对于任意终端对应语音通道,服务器将除该语音通道以外的语音通道的音频信号进行混音处理后,将混音后的信号发送至该语音通道对应的会话终端。其中,对于任意终端对应语音通道,服务器将除该语音通道以外的语音通道的音频信号进行混音处理,可通过以下公式(10)实现:
Figure BDA0002508152760000232
其中,M为参与语音会话的会话方数量(即语音通道数量),ai(t)是第i路语音通道的音频信号,bj(t)是指第j路语音通道的混音信号,Wij(t)是第i路语音通道的混音权重。其中,对于混音权重Wij(t)的获取方式可以是平均权重法,Wij(t)=1/M,也可以通过其他方法获取混音权重,在此不进行限定。
同时,对于各语音通道中的每一目标语音通道,服务器确定在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比,并根据所述混音贡献占比确定所述目标语音通道下一音频帧的编码码率;后续通过将该编码码率返回至目标语音通道对应终端中,使得所述终端按照所述编码码率对采集的下一音频帧进行编码。
例如,参见图8b以及图8c,以终端802(对应的语音通道1)为例,服务器将终端804(对应语音通道2)、终端806(对应的语音通道3)和终端808(对应的语音通道4)所的音频信号进行混音处理,得到终端802对应的混音信号;对于终端804,服务器将终端802、终端806和终端808所对应语音通道的音频信号进行混音处理,得到终端804对应的混音信号,如此类推,服务器获得各个语音通道对应的混音信号。然后,服务器并获取语音通道1在当前音频帧音频信号在语音通道2的贡献信号、在语音通道3的贡献信号以及在语音通道4的贡献信号,并计算这三个贡献信号的和值,得到在当前音频帧语音通道1的贡献信号总量。同时,服务器获取在当前音频帧语音通道1的混音信号、语音通道2的混音信号、语音通道3的混音信号与语音通道4的混音信号间的和值,得到在当前音频帧的混音信号总量。最后,服务器根据在当前音频帧语音通道1的贡献信号总量与混音信号总量的比值,确定语音通道1的音频信号在当前音频帧的混音贡献占比,服务器根据该混音贡献占比,获取语音通道1的编码码率,并将该编码码率返回至与语音通道1对应的终端802中,使得终端802根据该编码码率对下一音频帧的音频信号进行编码。
进一步地,如图8a所示的应用场景应用上述的语音会话的编码码率控制方法,还可以如下:参见图8d以及图8e,对于任意一个终端,终端在采集到音频信号后,从音频信号中提取语音特征信息,并对音频信号进行编码得到音频码流,进而将音频信号对应的语音特征信息以及音频码流发送至服务器中。服务器在接收到各个会话终端所发送的音频信号对应的语音特征信息以及音频码流后,根据各个语音通道的语音特征信息,获取各个语音通道的混音选入概率值,并根据各个语音通道的混音选入概率确定被选中进行混音处理的语音通道。然后,服务器将被选中进行混音处理的语音通路的音频信号发送至各个会话终端中,各个会话终端接收到被选中的语音通路的音频信号后,将音频码流进行解码,并对解码后的音频信号(可以滤除本身对应语音通道的音频信号)进行混音处理,最终对混音处理得到的混音信号进行播放。同时,服务器根据各个语音通道的混音选入概率值,确定各个语音通道对应的编码码率,并将该编码码率返回至对应语音通道的终端中,使得终端按照所述编码码率对采集的下一音频帧进行编码。
应该理解的是,虽然图2至图7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2至图7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种语音会话的编码码率控制装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:第一信号获取模块902、混音信号获取模块904、混音占比获取模块906和第一编码码率确定模块908,其中:
第一信号获取模块902,用于获取语音会话的各语音通道中当前音频帧的音频信号;
混音信号获取模块904,用于根据各音频信号,分别生成在当前音频帧各语音通道的混音信号;
混音占比获取模块906,用于对于各语音通道中的每一目标语音通道,确定在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比;
第一编码码率确定模块908,用于根据混音贡献占比确定目标语音通道下一音频帧的编码码率;编码码率与混音贡献占比正相关。
在一个实施例中,混音占比获取模块,用于:根据在当前音频帧各语音通道的混音信号,确定在当前音频帧的混音信号总量;对于各语音通道中的每一目标语音通道,获取在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的贡献信号;根据在当前音频帧目标语音通道的音频信号在其它语音通道的贡献信号,确定在当前音频帧目标语音通道的贡献信号总量;根据贡献信号总量以及混音信号总量,获取在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比。
在一个实施例中,混音占比获取模块,用于:对在当前音频帧的混音信号总量进行平滑处理,获得在当前音频帧的混音信号平滑值;对在当前音频帧目标语音通道的贡献信号总量进行平滑处理,获得在当前音频帧目标语音通道的贡献信号平滑值;根据在当前音频帧的贡献信号平滑值与混音信号平滑值间的比值,确定在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比。
在一个实施例中,混音占比获取模块,用于:获取在历史音频帧的混音信号总量;对在历史音频帧的混音信号总量、以及在当前音频帧的混音信号总量进行加权求和,得到在当前音频帧的混音信号平滑值。
在一个实施例中,混音占比获取模块,用于:获取在历史音频帧目标语音通道的音频信号在其它语音通道的贡献信号总量;对在历史音频帧目标语音通道的音频信号在其它语音通道的贡献信号总量、以及在当前音频帧的目标语音通道的音频信号在其它语音通道的贡献信号总量进行加权求和,得到在当前音频帧目标语音通道的贡献信号平滑值。
在一个实施例中,语音会话的编码码率控制装置还包括:配置方式获取模块,用于获取码率控制方式配置;在码率控制方式配置表示采用第一码率控制方式时,触发混音信号获取模块执行根据各音频信号,分别生成在当前音频帧各语音通道的混音信号;在码率控制方式配置表示采用第二码率控制方式时,执行以下步骤:获取语音会话的各语音通道中当前音频帧的音频信号的语音特征值;根据在当前音频帧各语音通道对应的语音特征值,确定各语音通道的混音选入概率值;混音选入概率值用于反映语音通道的音频信号被选中进行混音处理的概率;对于各语音通道中的每一目标语音通道,根据在当前音频帧目标语音通道的混音选入概率值,确定目标语音通道下一音频帧的编码码率,编码码率与选路状态信息正相关。
在一个实施例中,混音占比获取模块,用于:对于各语音通道中的每一目标语音通道,确定在当前音频帧目标语音通道的音频信号在其它语音通道的混音信号中的混音贡献占比,通过以下公式(11)、(12)以及(13)实现:
Figure BDA0002508152760000261
Figure BDA0002508152760000271
Figure BDA0002508152760000272
其中,ball(t)表示第t语音帧的混音信号平滑值;ball(t-1)表示第(t-1)语音帧的混音信号平滑值;β表示第一平滑系数;bj(t)表示第j语音通道的混音信号,j=;M表示语音通道的数量;
Figure BDA0002508152760000273
表示第t语音帧的贡献信号平滑值;/>
Figure BDA0002508152760000274
表示第(t-1)语音帧的混音信号平滑值;cij(t)表示第i通道的音频信号在第j通道的共现信号;ri(t)表示第t语音帧第i通道的音频信号在其它语音通道的混音信号中的混音贡献占比。
在一个实施例中,如图10所示,提供了一种语音会话的编码码率控制装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:
第二信号获取模块1002,用于获取语音会话的各语音通道中当前音频帧的音频信号的语音特征值;
选路状态获取模块1004,用于根据在当前音频帧各语音通道对应的语音特征值,确定各语音通道的混音选入概率值;混音选入概率值用于反映语音通道的音频信号被选中进行混音处理的概率;
第二编码码率确定模块1006,用于对于各语音通道中的每一目标语音通道,根据在当前音频帧目标语音通道的混音选入概率值,确定目标语音通道下一音频帧的编码码率,编码码率与混音选入概率值正相关。
在一个实施例中,第二编码码率确定模块,用于:根据在当前音频帧目标语音通道的混音选入概率值,确定在当前音频帧目标语音通道的选路状态,选路状态用于反映目标语音通道的音频信号是否被选中进行混音处理;在当前音频帧目标语音通道的选路状态为选中状态时,将语音通道下一音频帧的编码码率设置为第一编码码率;在当前音频帧目标语音通道的选路状态为未选中状态时,将语音通道下一音频帧的编码码率设置为第二编码码率;其中,第一编码码率大于第二编码码率。
在一个实施例中,第二编码码率确定模块,用于:根据在当前音频帧目标语音通道的混音选入概率值,确定在当前音频帧目标语音通道的选路状态,并获取选路状态对应的值;基于在历史音频帧目标语音通道的选路状态值,对在当前音频帧目标语音通道的选路状态值进行平滑处理,得到在当前音频帧目标语音通道的选路状态平滑值;根据在当前音频帧目标语音通道的选路状态平滑值,获取目标语音通道下一音频帧的音频信号的编码码率。
在一个实施例中,第二编码码率确定模块,用于:在当前音频帧目标语音通道的选路状态为选中状态时,选路状态值为1,通过以下公式(14)实现:
Figure BDA0002508152760000281
/>
其中,
Figure BDA0002508152760000282
表示第i语音通道在第t音频帧的选路状态平滑值;/>
Figure BDA0002508152760000283
表示第i语音通道在第(t-1)音频帧的选路状态平滑值;α表示第二平滑系数;
在当前音频帧目标语音通道的选路状态为未选中状态时,选路状态值为0,通过以下公式(15)实现:
Figure BDA0002508152760000284
其中,
Figure BDA0002508152760000285
表示第i语音通道在第t音频帧的选路状态平滑值;/>
Figure BDA0002508152760000286
表示第i语音通道在第(t-1)音频帧的选路状态平滑值;η表示第三平滑系数。
关于语音会话的编码码率控制装置的具体限定可以参见上文中对于语音会话的编码码率控制方法的限定,在此不再赘述。上述语音会话的编码码率控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音会话的编码码率控制数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音会话的编码码率控制方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (20)

1.一种语音会话的编码码率控制方法,其特征在于,所述方法包括:
获取语音会话的各语音通道中当前音频帧的音频信号;
获取码率控制方式配置;
当所述码率控制方式配置表示采用第一码率控制方式时,根据各所述音频信号,分别生成在当前音频帧各语音通道的混音信号,对于各语音通道中的每一目标语音通道,确定在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比,根据所述混音贡献占比确定所述目标语音通道下一音频帧的编码码率;所述编码码率与所述混音贡献占比正相关;
当所述码率控制方式配置表示采用第二码率控制方式时,获取语音会话的各语音通道中当前音频帧的音频信号的语音特征值,根据在当前音频帧各所述语音通道对应的语音特征值,确定各所述语音通道的混音选入概率值,所述混音选入概率值用于反映语音通道的音频信号被选中进行混音处理的概率,对于各语音通道中的每一目标语音通道,根据在当前音频帧所述目标语音通道的混音选入概率值,确定所述目标语音通道下一音频帧的编码码率,所述编码码率与所述混音选入概率值正相关。
2.根据权利要求1所述的方法,其特征在于,所述对于各语音通道中的每一目标语音通道,确定在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比的步骤,包括:
根据在当前音频帧各所述语音通道的混音信号,确定在当前音频帧的混音信号总量;
对于各语音通道中的每一目标语音通道,获取在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的混音信号中的贡献信号;
根据在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的贡献信号,确定在当前音频帧所述目标语音通道的贡献信号总量;
根据所述贡献信号总量以及所述混音信号总量,获取在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比。
3.根据权利要求2所述的方法,其特征在于,所述根据所述贡献信号总量以及所述混音信号总量,获取在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比的步骤,包括:
对在当前音频帧的所述混音信号总量进行平滑处理,获得在当前音频帧的混音信号平滑值;
对在当前音频帧所述目标语音通道的贡献信号总量进行平滑处理,获得在当前音频帧所述目标语音通道的贡献信号平滑值;
根据在当前音频帧的所述贡献信号平滑值与所述混音信号平滑值间的比值,确定在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比。
4.根据权利要求3所述的方法,其特征在于,所述对在当前音频帧的所述混音信号总量进行平滑处理,获得在当前音频帧的混音信号平滑值,包括:
获取在历史音频帧的混音信号总量;
对所述在历史音频帧的混音信号总量、以及所述在当前音频帧的混音信号总量进行加权求和,得到在当前音频帧的混音信号平滑值。
5.根据权利要求3所述的方法,其特征在于,所述对在当前音频帧所述目标语音通道的贡献信号总量进行平滑处理,获得在当前音频帧所述目标语音通道的贡献信号平滑值的步骤,包括:
获取在历史音频帧所述目标语音通道的音频信号在其它所述语音通道的贡献信号总量;
对在历史音频帧所述目标语音通道的音频信号在其它所述语音通道的贡献信号总量、以及在当前音频帧的所述目标语音通道的音频信号在其它所述语音通道的贡献信号总量进行加权求和,得到在当前音频帧所述目标语音通道的贡献信号平滑值。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述对于各语音通道中的每一目标语音通道,确定在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比,通过以下公式实现:
Figure FDA0004172404940000021
Figure FDA0004172404940000031
Figure FDA0004172404940000032
其中,ball(t)表示第t语音帧的混音信号平滑值;ball(t-1)表示第(t-1)语音帧的混音信号平滑值;β表示第一平滑系数;bj(t)表示第j路语音通道在第t语音帧的混音信号;M表示语音通道的数量;
Figure FDA0004172404940000033
表示第i路语音通道的音频信号在第t语音帧的贡献信号平滑值;
Figure FDA0004172404940000034
表示第i路语音通道的音频信号在第(t-1)语音帧的贡献信号平滑值;cij(t)表示第i路语音通道的音频信号在第j路语音通道的混音信号中的贡献信号;ri(t)表示在第t语音帧第i路语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比。
7.根据权利要求1所述的方法,其特征在于,所述根据在当前音频帧所述目标语音通道的混音选入概率值,确定所述目标语音通道下一音频帧的编码码率的步骤,包括:
根据在当前音频帧所述目标语音通道的混音选入概率值,确定在当前音频帧所述目标语音通道的选路状态,所述选路状态用于反映所述目标语音通道的音频信号是否被选中进行混音处理;
在当前音频帧所述目标语音通道的选路状态为选中状态时,将所述语音通道下一音频帧的编码码率设置为第一编码码率;
在当前音频帧所述目标语音通道的选路状态为未选中状态时,将所述语音通道下一音频帧的编码码率设置为第二编码码率;其中,第一编码码率大于所述第二编码码率。
8.根据权利要求1所述的方法,其特征在于,所述根据在当前音频帧所述目标语音通道的混音选入概率值,确定所述目标语音通道下一音频帧的编码码率的步骤,包括:
根据在当前音频帧所述目标语音通道的混音选入概率值,确定在当前音频帧所述目标语音通道的选路状态,并获取所述选路状态对应的值;
基于在历史音频帧所述目标语音通道的选路状态值,对在当前音频帧所述目标语音通道的选路状态值进行平滑处理,得到在当前音频帧所述目标语音通道的选路状态平滑值;
根据在当前音频帧所述目标语音通道的所述选路状态平滑值,获取所述目标语音通道下一音频帧的音频信号的编码码率。
9.根据权利要求8所述的方法,其特征在于,所述基于在历史音频帧所述目标语音通道的选路状态值,对在当前音频帧所述目标语音通道的选路状态值进行平滑处理,得到在当前音频帧所述目标语音通道的选路状态平滑值的步骤,包括:
当所示选路状态为选中状态时,所述选路状态值为1;通过以下公式实现基于在历史音频帧所述目标语音通道的选路状态值,对在当前音频帧所述目标语音通道的选路状态值进行平滑处理,得到在当前音频帧所述目标语音通道的选路状态平滑值的步骤:
Figure FDA0004172404940000041
其中,
Figure FDA0004172404940000042
表示第i语音通道在第t音频帧的选路状态平滑值;/>
Figure FDA0004172404940000043
表示第i语音通道在第(t-1)音频帧的选路状态平滑值;α表示第二平滑系数;
当所示选路状态为选中状态时,所述选路状态值为1;通过以下公式实现基于在历史音频帧所述目标语音通道的选路状态值,对在当前音频帧所述目标语音通道的选路状态值进行平滑处理,得到在当前音频帧所述目标语音通道的选路状态平滑值的步骤:
Figure FDA0004172404940000044
其中,
Figure FDA0004172404940000045
表示第i语音通道在第t音频帧的选路状态平滑值;/>
Figure FDA0004172404940000046
表示第i语音通道在第(t-1)音频帧的选路状态平滑值;η表示第三平滑系数。
10.一种语音会话的编码码率控制装置,其特征在于,所述装置包括:
第一信号获取模块,用于获取语音会话的各语音通道中当前音频帧的音频信号;
配置方式获取模块,用于获取码率控制方式配置;
混音信号获取模块,用于当所述码率控制方式配置表示采用第一码率控制方式时,根据各所述音频信号,分别生成在当前音频帧各语音通道的混音信号,混音占比获取模块,用于对于各语音通道中的每一目标语音通道,确定在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比,第一编码码率确定模块,用于根据所述混音贡献占比确定所述目标语音通道下一音频帧的编码码率;所述编码码率与所述混音贡献占比正相关;
第二信号获取模块,用于当所述码率控制方式配置表示采用第二码率控制方式时,获取语音会话的各语音通道中当前音频帧的音频信号的语音特征值,选路状态获取模块,用于根据在当前音频帧各所述语音通道对应的语音特征值,确定各所述语音通道的混音选入概率值,所述混音选入概率值用于反映语音通道的音频信号被选中进行混音处理的概率,第二编码码率获取模块,用于对于各语音通道中的每一目标语音通道,根据在当前音频帧所述目标语音通道的混音选入概率值,确定所述目标语音通道下一音频帧的编码码率,所述编码码率与所述混音选入概率值正相关。
11.根据权利要求10所述的装置,其特征在于,所述混音占比获取模块,用于:根据在当前音频帧各所述语音通道的混音信号,确定在当前音频帧的混音信号总量,对于各语音通道中的每一目标语音通道,获取在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的混音信号中的贡献信号,根据在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的贡献信号,确定在当前音频帧所述目标语音通道的贡献信号总量,根据所述贡献信号总量以及所述混音信号总量,获取在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比。
12.根据权利要求11所述的装置,其特征在于,所述混音占比获取模块,用于:对在当前音频帧的所述混音信号总量进行平滑处理,获得在当前音频帧的混音信号平滑值,对在当前音频帧所述目标语音通道的贡献信号总量进行平滑处理,获得在当前音频帧所述目标语音通道的贡献信号平滑值,根据在当前音频帧的所述贡献信号平滑值与所述混音信号平滑值间的比值,确定在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比。
13.根据权利要求12所述的装置,其特征在于,所述混音占比获取模块,用于:获取在历史音频帧的混音信号总量,对所述在历史音频帧的混音信号总量、以及所述在当前音频帧的混音信号总量进行加权求和,得到在当前音频帧的混音信号平滑值。
14.根据权利要求12所述的装置,其特征在于,所述混音占比获取模块,用于:获取在历史音频帧所述目标语音通道的音频信号在其它所述语音通道的贡献信号总量,对在历史音频帧所述目标语音通道的音频信号在其它所述语音通道的贡献信号总量、以及在当前音频帧的所述目标语音通道的音频信号在其它所述语音通道的贡献信号总量进行加权求和,得到在当前音频帧所述目标语音通道的贡献信号平滑值。
15.根据权利要求10至14中任一项所述的装置,其特征在于,
所述对于各语音通道中的每一目标语音通道,确定在当前音频帧所述目标语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比,通过以下公式实现:
Figure FDA0004172404940000061
Figure FDA0004172404940000062
Figure FDA0004172404940000063
其中,ball(t)表示第t语音帧的混音信号平滑值;ball(t-1)表示第(t-1)语音帧的混音信号平滑值;β表示第一平滑系数;bj(t)表示第j路语音通道在第t语音帧的混音信号;M表示语音通道的数量;
Figure FDA0004172404940000064
表示第i路语音通道的音频信号在第t语音帧的贡献信号平滑值;
Figure FDA0004172404940000065
表示第i路语音通道的音频信号在第(t-1)语音帧的贡献信号平滑值;cij(t)表示第i路语音通道的音频信号在第j路语音通道的混音信号中的贡献信号;ri(t)表示在第t语音帧第i路语音通道的音频信号在其它所述语音通道的混音信号中的混音贡献占比。
16.根据权利要求10所述的装置,其特征在于,所述第二编码码率确定模块,用于:根据在当前音频帧所述目标语音通道的混音选入概率值,确定在当前音频帧所述目标语音通道的选路状态,所述选路状态用于反映所述目标语音通道的音频信号是否被选中进行混音处理,在当前音频帧所述目标语音通道的选路状态为选中状态时,将所述语音通道下一音频帧的编码码率设置为第一编码码率,在当前音频帧所述目标语音通道的选路状态为未选中状态时,将所述语音通道下一音频帧的编码码率设置为第二编码码率;其中,第一编码码率大于所述第二编码码率。
17.根据权利要求10所述的装置,其特征在于,所述第二编码码率确定模块,用于:根据在当前音频帧所述目标语音通道的混音选入概率值,确定在当前音频帧所述目标语音通道的选路状态,并获取所述选路状态对应的值,基于在历史音频帧所述目标语音通道的选路状态值,对在当前音频帧所述目标语音通道的选路状态值进行平滑处理,得到在当前音频帧所述目标语音通道的选路状态平滑值,根据在当前音频帧所述目标语音通道的所述选路状态平滑值,获取所述目标语音通道下一音频帧的音频信号的编码码率。
18.根据权利要求17所述的装置,其特征在于,所述第二编码码率确定模块,用于:
当所示选路状态为选中状态时,所述选路状态值为1;通过以下公式实现基于在历史音频帧所述目标语音通道的选路状态值,对在当前音频帧所述目标语音通道的选路状态值进行平滑处理,得到在当前音频帧所述目标语音通道的选路状态平滑值的步骤:
Figure FDA0004172404940000071
其中,
Figure FDA0004172404940000072
表示第i语音通道在第t音频帧的选路状态平滑值;/>
Figure FDA0004172404940000073
表示第i语音通道在第(t-1)音频帧的选路状态平滑值;α表示第二平滑系数;
当所示选路状态为选中状态时,所述选路状态值为1;通过以下公式实现基于在历史音频帧所述目标语音通道的选路状态值,对在当前音频帧所述目标语音通道的选路状态值进行平滑处理,得到在当前音频帧所述目标语音通道的选路状态平滑值的步骤:
Figure FDA0004172404940000074
其中,
Figure FDA0004172404940000075
表示第i语音通道在第t音频帧的选路状态平滑值;/>
Figure FDA0004172404940000076
表示第i语音通道在第(t-1)音频帧的选路状态平滑值;η表示第三平滑系数。
19.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。
20.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
CN202010452591.1A 2020-05-26 2020-05-26 语音会话的编码码率控制方法、装置和计算机设备 Active CN111583942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010452591.1A CN111583942B (zh) 2020-05-26 2020-05-26 语音会话的编码码率控制方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010452591.1A CN111583942B (zh) 2020-05-26 2020-05-26 语音会话的编码码率控制方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN111583942A CN111583942A (zh) 2020-08-25
CN111583942B true CN111583942B (zh) 2023-06-13

Family

ID=72114032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010452591.1A Active CN111583942B (zh) 2020-05-26 2020-05-26 语音会话的编码码率控制方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN111583942B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951813A (zh) * 2020-07-20 2020-11-17 腾讯科技(深圳)有限公司 语音编码控制方法、装置及存储介质
CN112735452B (zh) * 2020-12-31 2023-03-21 北京百瑞互联技术有限公司 实现超低编码速率的编码方法、装置、存储介质及设备
CN113299299B (zh) * 2021-05-22 2024-03-19 深圳市健成云视科技有限公司 音频处理设备、方法及计算机可读存储介质
CN113257257B (zh) * 2021-07-14 2021-11-09 统信软件技术有限公司 多路语音信号的混音处理方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5668925A (en) * 1995-06-01 1997-09-16 Martin Marietta Corporation Low data rate speech encoder with mixed excitation
CN1259800A (zh) * 1998-11-16 2000-07-12 日本胜利株式会社 声音编码装置和解码装置、光记录介质及声音传输方法
CN1517407A (zh) * 2003-01-14 2004-08-04 帏翔精密股份有限公司 改善聚酰胺6t共聚合体射出成型的耐温性的方法
CN1848242A (zh) * 1995-12-01 2006-10-18 数字剧场系统股份有限公司 多通道音频编码器
CN101202042A (zh) * 2006-12-14 2008-06-18 中兴通讯股份有限公司 可扩展的数字音频编码框架及其扩展方法
CN101964202A (zh) * 2010-09-09 2011-02-02 南京中兴特种软件有限责任公司 一种混合多种编码格式的音频数据文件播放处理方法
CN103500580A (zh) * 2013-09-23 2014-01-08 广东威创视讯科技股份有限公司 混音处理方法及系统
CN107241564A (zh) * 2016-03-29 2017-10-10 华为技术有限公司 基于ims网络架构的多流视频会议方法、装置及系统
CN109495660A (zh) * 2018-11-29 2019-03-19 广州市百果园信息技术有限公司 一种音频数据的编码方法、装置、设备和存储介质
CN110060696A (zh) * 2018-01-19 2019-07-26 腾讯科技(深圳)有限公司 混音方法及装置、终端及可读存储介质
CN111048119A (zh) * 2020-03-12 2020-04-21 腾讯科技(深圳)有限公司 通话音频混音处理方法、装置、存储介质和计算机设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5668925A (en) * 1995-06-01 1997-09-16 Martin Marietta Corporation Low data rate speech encoder with mixed excitation
CN1848242A (zh) * 1995-12-01 2006-10-18 数字剧场系统股份有限公司 多通道音频编码器
CN101872618A (zh) * 1995-12-01 2010-10-27 Dts(Bvi)有限公司 多通道音频编码器
CN1259800A (zh) * 1998-11-16 2000-07-12 日本胜利株式会社 声音编码装置和解码装置、光记录介质及声音传输方法
CN1517407A (zh) * 2003-01-14 2004-08-04 帏翔精密股份有限公司 改善聚酰胺6t共聚合体射出成型的耐温性的方法
CN101202042A (zh) * 2006-12-14 2008-06-18 中兴通讯股份有限公司 可扩展的数字音频编码框架及其扩展方法
CN101964202A (zh) * 2010-09-09 2011-02-02 南京中兴特种软件有限责任公司 一种混合多种编码格式的音频数据文件播放处理方法
CN103500580A (zh) * 2013-09-23 2014-01-08 广东威创视讯科技股份有限公司 混音处理方法及系统
CN107241564A (zh) * 2016-03-29 2017-10-10 华为技术有限公司 基于ims网络架构的多流视频会议方法、装置及系统
CN110060696A (zh) * 2018-01-19 2019-07-26 腾讯科技(深圳)有限公司 混音方法及装置、终端及可读存储介质
CN109495660A (zh) * 2018-11-29 2019-03-19 广州市百果园信息技术有限公司 一种音频数据的编码方法、装置、设备和存储介质
CN111048119A (zh) * 2020-03-12 2020-04-21 腾讯科技(深圳)有限公司 通话音频混音处理方法、装置、存储介质和计算机设备

Also Published As

Publication number Publication date
CN111583942A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111583942B (zh) 语音会话的编码码率控制方法、装置和计算机设备
US9456273B2 (en) Audio mixing method, apparatus and system
US7417983B2 (en) Decentralized architecture and protocol for voice conferencing
US9331887B2 (en) Peer-aware ranking of voice streams
CN102648584B (zh) 使用前向纠错检验可用带宽的系统、方法和介质
CN110060696B (zh) 混音方法及装置、终端及可读存储介质
US9311920B2 (en) Voice processing method, apparatus, and system
WO2008109387A1 (en) Multipoint conference video switching
CN111585776B (zh) 数据传输方法、装置、设备及计算机可读存储介质
CN113965751A (zh) 屏幕内容编码方法、装置、设备及存储介质
US20010038638A1 (en) Method and apparatus for automatic cross-media selection and scaling
EP2158753B1 (en) Selection of audio signals to be mixed in an audio conference
CN111951821B (zh) 通话方法和装置
US11431855B1 (en) Encoder pools for conferenced communications
CN111245566B (zh) 不可靠网络的抗丢包方法、装置、存储介质及电子设备
CN113450797A (zh) 基于在线会议的音频处理方法、设备、存储介质及系统
Baskaran et al. Audio mixer with automatic gain controller for software based multipoint control unit
CN115623126A (zh) 语音通话方法、系统、装置、计算机设备和存储介质
CN113573004A (zh) 视频会议处理方法、装置、计算机设备及存储介质
CN115242757B (zh) 一种数据处理方法、装置、电子设备及存储介质
CN115550690B (zh) 帧率调整方法、装置、设备及存储介质
KR20170139988A (ko) 영상 회의 서버
CN111756723B (zh) 应用于多方通话的音频处理方法、装置及设备
Soja et al. Determination of efficient bandwidth utilization during multicast using data envelopment analysis
CN116032897A (zh) 音频处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40027362

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant