CN111951813A - 语音编码控制方法、装置及存储介质 - Google Patents
语音编码控制方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111951813A CN111951813A CN202010696857.7A CN202010696857A CN111951813A CN 111951813 A CN111951813 A CN 111951813A CN 202010696857 A CN202010696857 A CN 202010696857A CN 111951813 A CN111951813 A CN 111951813A
- Authority
- CN
- China
- Prior art keywords
- call
- audio
- call terminal
- terminal
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/72—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
Abstract
本发明提供一种语音编码控制方法、装置及存储介质。通过对多人通话场景中各通话终端提供的通话音频进行混音处理,得到混音结果,计算各通话终端对于混音结果的听感贡献度,根据听感贡献度确定各通话终端的目标编码参数,并将目标编码参数返回给对应的通话终端,使各通话终端根据目标编码参数调整当前的编码参数。本发明基于多人通话场景中各通话终端对混合音频的听感贡献度,来动态调整各通话终端的编码参数,在节省网络带宽的同时提升了用户的主观听感。
Description
技术领域
本发明涉及语音通信技术领域,尤其涉及一种语音编码控制方法、装置及存储介质。
背景技术
多人通话是指参与通话的多方通过不同的设备(终端)进行音频信号采集及各种音频处理,然后经过语音编码及网络传输打包,经过网络发送到音频混音设备,混音设备将语音编码数据解码后做声音的混合叠加处理,最后各与会方的终端根据相应的混音结果信号进行声音播放。
由于人耳对同一时间来自不同声源的混合信号的有效辨识能力比较有限,通常情况下人耳只能识别4人以下的同时说话声,当同一时刻说话人达到或超过4人,则混音后的声音人耳难以辨别,感觉声音杂乱而听不清楚。为了解决这个问题,多人通话的混音算法或者选路混音算法会对来自不同与会方的声音信号做加权处理或选路筛选处理,其结果将突出有限的几路声音,避免一些非主要的或者干扰的声音信号混入进而影响人耳收听效果。例如选路方案中,50人通话,其中有10人有发声,如果预设最大选路方数为3,则每一时刻只有3方的声音最终被选中,其余未被选中的通话数据将不被转发到接收客户端。
多人通话的语音编码质量决定了通话质量的天花板,而语音编码参数中的编码码率是影响语音编码质量的重要参数,常规应用中语音编码码率都是在通话前根据质量要求设定,在通话过程中一般不去改变。
发明内容
本发明提供了一种语音编码控制方法、装置及存储介质,能够提升用户主观听感,同时节省网络带宽。
第一方面,本发明提供了一种语音编码控制方法,包括:
接收参与多人通话的各通话终端发送的通话音频,所述通话音频是通话终端基于当前的编码参数对采集的声音信号进行语音编码得到的;
对接收到的所述通话音频进行混音处理,得到混音结果;
确定各所述通话终端在所述混音结果中的听感贡献度,所述听感贡献度用于反映与所述通话终端对应的成员参与通话的活跃程度;
根据所述听感贡献度确定各所述通话终端的目标编码参数;
将所述目标编码参数返回至对应的通话终端,以便基于所述目标编码参数调整各通话终端当前的编码参数。
第二方面,本发明提供了一种语音编码控制装置,包括:
通话音频接收单元,用于接收参与多人通话的各通话终端发送的通话音频,所述通话音频是通话终端基于当前的编码参数对采集的声音信号进行语音编码得到的;
混音处理单元,用于对接收到的所述通话音频进行混音处理,得到混音结果;
听感贡献度确定单元,用于确定各所述通话终端在所述混音结果中的听感贡献度,所述听感贡献度用于反映与所述通话终端对应的成员参与通话的活跃程度;
目标编码参数确定单元,用于根据所述听感贡献度确定各所述通话终端的目标编码参数;
目标编码参数发送单元,用于将所述目标编码参数返回至对应的通话终端,以便基于所述目标编码参数调整各通话终端当前的编码参数。
第三方面,本发明提供一种计算机存储介质,所述存储介质中存储有至少一条指令或者至少一段程序,所述至少一条指令或者至少一段程序由处理器加载并执行以实现如上述第一方面提供的语音编码控制方法。
第四方面,本发明提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述的语音编码控制方法。
根据本发明的一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面提供的语音编码控制方法。
本发明提供的一种语音编码控制方法、装置及存储介质,具有如下技术效果:
通过对多人通话场景中各通话终端提供的通话音频进行混音处理,得到混音结果,计算各通话终端对于混音结果的听感贡献度,根据听感贡献度确定各通话终端的目标编码参数,并将目标编码参数返回给对应的通话终端,使各通话终端根据目标编码参数调整当前的编码参数。基于多人通话场景中各通话终端对混合音频的听感贡献度,来动态调整各通话终端的编码参数,对于贡献度高者给予更高的编码码率,使其语音质量高,而对于贡献度低者则给予较低的编码码率,降低网络带宽同时不影响听者收听效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例提供的语音编码控制方法的一个可选的应用场景示意图;
图2是本发明实施例示出的数据共享系统;
图3是现有的多人会话中服务器混音方法的流程示意图;
图4是本发明实施例提供的多人会话中服务器混音方法的流程示意图;
图5是本发明实施例提供的语音编码控制方法的流程示意图;
图6是本发明实施例提供的确定通话终端在混音结果中的听感贡献度的方法的流程示意图;
图7是本发明实施例提供的确定通话终端在混合音频中的混音贡献的方法的流程示意图;
图8是本发明实施例提供的语音编码控制装置的结构示意图;
图9是本发明提供的服务器的一种实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1为一个实施例中语音编码控制方法的应用环境图。参照图1,该语音编码控制方法应用于通话音频处理系统。该通话音频处理系统包括终端102和服务器104。终端102和服务器104通过网络连接,网络300可以是广域网或者局域网,又或者是二者的组合。终端102具体可以是智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端等类型的实体设备,也可以包括运行于实体设备中的软体,例如具有语音通话功能的应用程序等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可以理解,本申请实施例中所提及的终端102具体可以是参与通话的通话成员所对应的终端,也可称作通话成员终端。其中,在多人会话场景中,终端102的数量为至少两个。每个终端102可以发起通话,也可以接受通话。各终端102分别通过网络与服务器104建立语音通话链路,进而可实现通话。
可以理解,不同用户分别通过不同终端102参与到通话中,各终端102分别基于当前的编码参数对采集的声音信号进行语音编码得到通话音频,将通话音频上传至服务器104,服务器104对参与通话的各个通话成员所对应的通话音频进行混音处理,得到混音结果,以及确定各通话终端在混音结果中的听感贡献度,该听感贡献度用于反映与通话终端对应的成员参与通话的活跃程度,并根据听感贡献度确定各通话终端的目标编码参数,将目标编码参数返回至对应的通话终端,以便各通话终端基于接收到的目标编码参数调整当前的编码参数。
服务器104还可以将各通话终端对应的混合音频反馈至参与通话的各终端102处。各终端102在接收到混合音频后可通过扬声器进行播放。
本发明实施例涉及的语音编码控制方法的场景中的服务器可以是由多个节点(接入网络中的任意形式的计算设备,如服务器、客户端)通过网络通信的形式连接形成的数据共享系统。
参见图2所示的数据共享系统,数据共享系统400是指用于进行节点与节点之间数据共享的系统,该数据共享系统中可以包括多个节点101,多个节点101可以是指数据共享系统中各个客户端。每个节点101在进行正常工作可以接收到输入信息,并基于接收到的输入信息维护该数据共享系统内的共享数据。为了保证数据共享系统内的信息互通,数据共享系统中的每个节点之间可以存在信息连接,节点之间可以通过上述信息连接进行信息传输。例如,当数据共享系统中的任意节点接收到输入信息时,数据共享系统中的其他节点便根据共识算法获取该输入信息,将该输入信息作为共享数据中的数据进行存储,使得数据共享系统中全部节点上存储的数据均一致。
对于数据共享系统中的每个节点,均具有与其对应的节点标识,而且数据共享系统中的每个节点均可以存储有数据共享系统中其他节点的节点标识,以便后续根据其他节点的节点标识,将生成的区块广播至数据共享系统中的其他节点。每个节点中可维护一个如下表所示的节点标识列表,将节点名称和节点标识对应存储至该节点标识列表中。其中,节点标识可为IP(Internet Protocol,网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息。
图3是现有的多人会话中服务器混音方法的流程示意图。如图3所示,在多人会话场景中,各与会方通过声音采集设备获取数字声音信号,并进行语音编码处理,编码后的数据进行网络打包后传输到混音服务器,混音服务器收到相关数据包后进行语音解码得到PCM(Pulse Code Modulation,脉冲编码调制)线性声音信号,根据混音算法进行多路声音混音处理,得到各通道对应的混音结果,之后,各通道对应的混音结果经过服务器的二次语音编码后进行网络数据打包发送到各与会方设备,各与会方设备收到服务器发来的数据后进行解码,获得混合音频并播放。这里发送端的语音编码参数通常是在通话创建时根据质量要求设定,在通话过程中基本保持不变。
基于同一个应用开发的多人混音方案中,所有与会方都是相同配置参数,语音编码参数都是一样的。但是对于多人通话应用,尤其是大规模会议场景,通常都是只有少数人发言,不同与会方的发言时长并不均衡,也就是有很大一部分与会方在较长时间里处于不发言或者是非有效发言,例如低声议论声、打字声、翻页声等,所以在这种不对称语音应用场景下,现有方案为了确保语音通话质量,对所有与会方都配置了较高的语音编码码率,然而对于绝大部分与会方的混音加权值较低,甚至为0而混音后不被感知,对于这些与会方,其占用较高带宽是不合理的,导致了用户通话成本和运营成本的增加,尤其在一些超大规模会议(超过一百方通话)里面,这种带宽的消耗是非常可观的。
针对现有技术中发送端语音编码参数被设置为固定值存在带宽消耗大,而音质提升效果不好的问题,本申请提出在多人通话应用场景中应对发送端的语音编码参数区分对待。具体的,本发明提出一种基于多人通话混音贡献度预测的语音参数调节方案,区分不同与会方混音后的听感贡献度,对于贡献度高者给予更高的编码码率,使其语音质量高,而对于贡献度低者则给予较低的编码码率,降低网络带宽同时不影响听者收听效果。图4是本发明实施例提供的多人会话中服务器混音方法的流程示意图,请参见图4,本发明与现有的多人音频处理方案不同的是,各通道的语音编码参数是动态配置的,而配置值的计算是基于混音服务器对各通道的混音贡献度估计得到的,实现有针对性地控制语音编码参数,让处于不活跃的通道使用较低的语音编码码率,减少不必要的带宽消耗,而对参与到最终多人混音的通道给予较高的语音编码码率,使其声音质量较高,从而提升用户的主观听感,同时节省网络带宽,节约用户和运营商成本。
以下结合附图5-7介绍本发明语音编码控制方法的一种实施例,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
图5是本发明实施例提供的语音编码控制方法的流程示意图。请参见图5,该语音编码控制方法应用于图1中的服务器104,具体包括如下步骤:
S501:接收参与多人通话的各通话终端发送的通话音频,所述通话音频是通话终端基于当前的编码参数对采集的声音信号进行语音编码得到的。
其中,通话是通过至少两个用户通过各自对应的通话终端进行语音交互的行为,通话数据中为区别来自不同用户的语音,会将各语音与用户的用户标识相对应。通话可根据参与用户标识的数量分为双人通话和多人通话。仅由两个用户标识参与的通话为双人通话,由超过两个用户标识参与的通话为多人通话。通话可以是群语音通话或群视频通话。用户标识用于唯一标识一个用户成员,可以是包括数字、字母和符号中至少一种字符的字符串,具体可以是用户账号或用户手机号等。通话成员是参与该通话的用户成员,也可称作与会方。通话终端是参与通话的通话成员所对应的终端。通话音频是通话成员在参与通话的过程中,通过通话成员终端采集的经语音编码处理的用户声音数据。
具体地,通话终端上可运行通话应用,通话终端通过该通话应用可实现不同用户间互相语音通话的功能。通话成员终端可通过声音装置采集(比如麦克风)用户在参与通话过程中发出的语音数据,并基于当前的编码参数对语音数据进行语音编码生成通话音频,将通话音频发送至服务器。服务器接收参与该通话的各个通话成员所对应的通话终端发送的通话音频。其中,通话应用具体可以是即时通信客户端,如微信客户端或qq客户端等。
语音编码为信源编码,是将模拟语音信号转变为数字信号以便在信道中传输。语音编码的目的是在保持一定的算法复杂程度和通信时延的前提下,占用尽可能少的通信容量,传送尽可能高质量的语音。语音编码的基本方法可分为波形编码、参量编码和混合编码。
在多人通话场景中,由于每个通话用户都可能参与通话,会为每个通话终端分配相同或相近的编码参数,以获得每个通话用户的语音,同时,为确保获得质量较好的通话语音,会为各通话终端设置较高的语音编码码率,造成带宽消耗高的问题。然而,根据人耳通常情况下只能识别少于4人的同时说话的声音,加上通话过程中并非所有用户都一直参与发言,为处于非活跃的通话终端设置与活跃的通话终端相同的编码参数,带宽浪费较大,同时受带宽限制,活跃的通话终端不能获得更高的编码参数,限制了语音质量的提升。鉴于此现状,本发明实施例提出采用动态配置通话终端的编码参数的方式,在带宽一定的情况下,降低不活跃的通话终端的编码参数,提高活跃的通话终端的编码参数,提升用户的主观听觉感受。其中,通话终端的编码参数主要是指语音编码码率。在对编码参数进行调整之前,通话终端当前的编码参数是指设置的编码参数,具体可以是在通话创建时根据质量要求设定的编码参数。
S503:对接收到的所述通话音频进行混音处理,得到混音结果。
服务器对通话音频进行混音处理可以包括:
S5031、对接收到的通话音频进行语音解码,得到与各所述通话终端对应的声音信号。
具体地,服务器在接收到各个通话终端发送的音频编码数据时,可采用相应的解码方式对音频编码数据进行解码,得到相应的通话音频。通过编解码的方式传输通话音频,可提高通话音频的传输效率和安全性。
S5033、针对每个通话终端,根据预设的混音算法对除自身之外的其他终端对应的声音信号进行混音处理,得到与各通话终端对应的混合音频。
在一个可选的实施例中,针对每个通话终端,可以通过执行如下处理步骤获得对应的混合音频:
将参与多人通话的通话终端中除自身之外的其他通话终端作为第一目标通话终端;获取各第一目标通话终端对应的声音信号和预设混音权重;根据各第一目标通话终端的声音信号和预设混音权重,确定与所述通话终端对应的混合音频。
其中,第一目标通话终端对应的声音信号是指服务器对第一目标通话终端提供的通话音频解码后获得的声音信号。混音权重用于反映声音信号在混合音频中的重要程度,各语音输入方的混音权重Wij(t)可以通过以下任一方法计算得到:
(1)平均权重法:将各通话终端提供的声音信号叠加后取平均,即得混音权重Wij(t)=1/M,其中,M为参与多人通话的通话终端的数量。
(2)对齐权重法:分别计算各通道音频信号采样值的各自最大绝对值以及计算各通道线性叠加后的最大绝对值则各通道的混音权重为其中Lj∈[1,2Q-1/TotalMaxj],这里Q值为音频信号位数。其中,本实施例中,通道与通话终端对应,通道对应的数据即通话终端对应的数据。
混合音频可以基于基于时域上的处理,采用以下公式(1)计算获得:
其中,M为参与多人通话的通话终端的数量,ai(t)是第i个通话终端的输入信号,bj(t)是向第j个通话终端的混音输出信号,Wij(t)为第i个通话终端输入的混音权重。
另外,混音算法可以根据需要对各通道信号的幅值进行放大或衰减,对于一些通道的干扰声,例如噪声、小杂音信号,混音算法可以通过对判为干扰或者可被忽视的通道信号进行信号衰减处理,使最终混音后用户听到的是有限通道的有效声音信号,而弱化后的干扰信号将不会影响用户收听。
S505:确定各所述通话终端在所述混音结果中的听感贡献度,所述听感贡献度用于反映与所述通话终端对应的成员参与通话的活跃程度。
图6是本发明实施例提供的确定通话终端在混合音频中的混音贡献的方法的流程示意图。请参见图6,在一个可行的实施例中,确定通话终端在混音结果中的听感贡献度可以包括如下步骤:
S601、计算所有通话终端对应的混合音频的累计平滑值。
S603、确定每个通话终端在各混合音频中的混音贡献,所述混音贡献是根据通话终端提供的通话音频的混音权重和混合音频确定的。
S605、根据通话终端在各混合音频中的混音贡献,确定每个通话终端在所有混合音频中的贡献累计平滑值。
S607、确定各通话终端的贡献累计平滑值在所述累计平滑值中的贡献比例,将所述贡献比例作为所述通话终端在所述混音结果中的听感贡献度。
图7是本发明实施例提供的确定通话终端在混合音频中的混音贡献的方法的流程示意图。请参见图7,可以将待获取混音贡献的通话终端作为第二目标通话终端,对于每个第二目标通话终端,通过执行步骤S701-S705来确定其在各混合音频中的混音贡献。
S701、获取所述第二目标通话终端的预设混音权重.
S703、获取参与通话的每个通话终端的混合音频。
S705、根据各通话终端的混合音频和所述第二目标通话终端的预设混音权重,确定所述第二目标通话终端在各混合音频中的混音贡献。
服务器混音方案的混音算法如前面公式(1)所示,第t时刻,第j通道混音结果为bj(t),其中第i通道的混音贡献为cij(t)=Wij(t)*ai(t)。
S307:根据所述听感贡献度确定各所述通话终端的目标编码参数。
在一个可行的实施例中,确定各所述通话终端的目标编码参数可以包括:获取各通话终端当前的编码参数;根据各通话终端对应的听感贡献度和当前的编码参数,按照预设的计算模型,计算得到各通话终端的目标编码参数。
本发明实施例根据各通道的混音贡献度估计值来控制各通道的语音编码码率,这里以第i通道为例进行展开说明:
1、根据公式(2)计算所有通道的混音结果的累计平滑值ball(t),式中,β为平滑系数,取值范围为0-1;j=1,2,...,M,M为参与多人通话的通话终端的数量,t代表时刻数,t为大于1的整数,相邻两个时刻数所对应的时间点的差值为一时间周期,例如,设时间周期为1min,第t时刻对应的时间点为10:30,则第t-1时刻对应的时间点为10:29。
3、根据公式(4)计算第i通道的混音贡献比例值,即第i通道对应的通话终端在混音结果中的听感贡献度为ri(t)。
4、第i通道的语音编码码率bitratei(t)可以根据公式(5)确定。
bitratei(t)=f(ri(t))*BR (5)
其中,BR为预设的语音编码码率,可以通话创建时根据质量要求设定,f(ri(t))函数可以是单调递增函数,以确保语音编码码率随着听感贡献度提升而提升。
S509:将所述目标编码参数返回至对应的通话终端,以便基于所述目标编码参数调整各通话终端当前的编码参数。
具体实施时,可以将目标编码参数返回至对应的通话终端,以便各通话终端将当前的编码参数更新为接收到的目标编码参数,基于更新后的目标编码参数对采集的声音信号进行语音编码。从而动态调整客户端的编码参数,为会话参与度高的客户端提供更高的编码码率,降低会话参与度低的客户端的编码码率,实现在确保会话质量的同时降低网络带宽消耗。
在步骤S503对接收到的通话音频进行混音处理得到混音结果之后,还包括向通话终端返回混音结果的步骤,具体包括:对各通话终端对应的混合音频进行语音编码,得到与各通话终端对应的混合编码数据,这里服务器采用与通话终端一致的编码方式进行语音编码,以便通话终端在接收到编码数据后能够顺利解码获得对应的音频数据;将混合编码数据返回至对应的通话终端,以便各通话终端对接收到的混合编码数据进行解码处理,得到相应的混合音频。
本发明实施例通过对多人通话场景中各通话终端提供的通话音频进行混音处理,得到混音结果,计算各通话终端对于混音结果的听感贡献度,根据听感贡献度确定各通话终端的目标编码参数,并将目标编码参数返回给对应的通话终端,使各通话终端根据目标编码参数调整当前的编码参数。基于多人通话场景中各通话终端对混合音频的听感贡献度,来动态调整各通话终端的编码参数,对于贡献度高者给予更高的编码码率,使其语音质量高,而对于贡献度低者则给予较低的编码码率,降低网络带宽同时不影响听者收听效果。
本发明实施例还提供了一种语音编码控制装置,所述语音编码控制装置可以设置在服务器端,图8是本发明实施例提供的语音编码控制装置的结构示意图,请参见图8,所述装置包括通话音频接收单元810、混音处理单元820、听感贡献度确定单元830、目标编码参数确定单元840和目标编码参数发送单元850。
其中,通话音频接收单元810,用于接收参与多人通话的各通话终端发送的通话音频,所述通话音频是通话终端基于当前的编码参数对采集的声音信号进行语音编码得到的;
混音处理单元820,用于对接收到的所述通话音频进行混音处理,得到混音结果;
听感贡献度确定单元830,用于确定各所述通话终端在所述混音结果中的听感贡献度,所述听感贡献度用于反映与所述通话终端对应的成员参与通话的活跃程度;
目标编码参数确定单元840,用于根据所述听感贡献度确定各所述通话终端的目标编码参数;
目标编码参数发送单元850,用于将所述目标编码参数返回至对应的通话终端,以便基于所述目标编码参数调整各通话终端当前的编码参数。
本实施例中的语音编码控制装置与图3-7对应的方法实施例基于同样地发明构思。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的语音编码控制方法。
本发明实施例提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令和至少一段程序,所述至少一条指令或者至少一段程序由处理器加载并执行以实现如图3-7对应的语音编码控制方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本发明实施例还提供了一种服务器的结构示意图,请参阅图9,该服务器900用于实施上述实施例中提供的语音编码控制方法,具体来讲,所述服务器结构可以包括上述语音编码控制装置。该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)910(例如,一个或一个以上处理器)和存储器930,一个或一个以上存储应用程序923或数据922的存储介质920(例如一个或一个以上海量存储设备)。其中,存储器930和存储介质920可以是短暂存储或持久存储。存储在存储介质920的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器910可以设置为与存储介质920通信,在服务器900上执行存储介质920中的一系列指令操作。服务器900还可以包括一个或一个以上电源960,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口940,和/或,一个或一个以上操作系统921,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本发明的实施例还提供了一种存储介质,所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种语音编码控制方法相关的至少一条指令和至少一段程序,该至少一条指令和该至少一段程序由该处理器加载并执行以实现上述图3-7对应的语音编码控制方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音编码控制方法,其特征在于,包括:
接收参与多人通话的各通话终端发送的通话音频,所述通话音频是通话终端基于当前的编码参数对采集的声音信号进行语音编码得到的;
对接收到的所述通话音频进行混音处理,得到混音结果;
确定各所述通话终端在所述混音结果中的听感贡献度,所述听感贡献度用于反映与所述通话终端对应的成员参与通话的活跃程度;
根据所述听感贡献度确定各所述通话终端的目标编码参数;
将所述目标编码参数返回至对应的通话终端,以便基于所述目标编码参数调整各通话终端当前的编码参数。
2.根据权利要求1所述的方法,其特征在于,所述对接收到的通话音频进行混音处理,得到混音结果包括:
对接收到的通话音频进行语音解码,得到与各所述通话终端对应的声音信号;
针对每个通话终端,根据预设的混音算法对除自身之外的其他终端对应的声音信号进行混音处理,得到与各通话终端对应的混合音频。
3.根据权利要求2所述的方法,其特征在于,所述确定各所述通话终端在所述混音结果中的听感贡献度,包括:
计算所有通话终端对应的混合音频的累计平滑值;
确定每个通话终端在各混合音频中的混音贡献,所述混音贡献是根据通话终端提供的通话音频的混音权重和混合音频确定的;
根据通话终端在各混合音频中的混音贡献,确定每个通话终端在所有混合音频中的贡献累计平滑值;
确定各通话终端的贡献累计平滑值在所述累计平滑值中的贡献比例,将所述贡献比例作为所述通话终端在所述混音结果中的听感贡献度。
4.根据权利要求1所述的方法,其特征在于,
所述根据所述听感贡献度确定各所述通话终端的目标编码参数,包括:
获取各通话终端当前的编码参数;
根据各通话终端对应的听感贡献度和当前的编码参数,按照预设的计算模型,计算得到各通话终端的目标编码参数;
所述将所述目标编码参数返回至对应的通话终端,以便基于所述目标编码参数调整各通话终端当前的编码参数,包括:
将所述目标编码参数返回至对应的通话终端,以便各通话终端将当前的编码参数更新为接收到的目标编码参数,基于所述目标编码参数对采集的声音信号进行语音编码。
5.根据权利要求2所述的方法,其特征在于,所述针对每个通话终端,根据预设的混音算法对除自身之外的其他终端对应的声音信号进行混音处理,得到与各通话终端对应的混合音频,包括:
对于每个通话终端,执行如下处理步骤:
将参与多人通话的通话终端中除自身之外的其他通话终端作为第一目标通话终端;
获取各第一目标通话终端对应的声音信号和预设混音权重;
根据各第一目标通话终端的声音信号和预设混音权重,确定与所述通话终端对应的混合音频。
6.根据权利要求3所述的方法,其特征在于,所述确定每个通话终端在各混合音频中的混音贡献,包括:
将待获取混音贡献的通话终端作为第二目标通话终端,对于每个第二目标通话终端,执行如下处理:
获取所述第二目标通话终端的预设混音权重;
获取参与通话的每个通话终端的混合音频;
根据各通话终端的混合音频和所述第二目标通话终端的预设混音权重,确定所述第二目标通话终端在各混合音频中的混音贡献。
7.根据权利要求2所述的方法,其特征在于,所述对接收到的所述通话音频进行混音处理,得到混音结果之后,还包括:
对各通话终端对应的混合音频进行语音编码,得到与各通话终端对应的混合编码数据;
将混合编码数据返回至对应的通话终端,以便各通话终端对接收到的混合编码数据进行解码处理,得到相应的混合音频。
8.一种语音编码控制装置,其特征在于,包括:
通话音频接收单元,用于接收参与多人通话的各通话终端发送的通话音频,所述通话音频是通话终端基于当前的编码参数对采集的声音信号进行语音编码得到的;
混音处理单元,用于对接收到的所述通话音频进行混音处理,得到混音结果;
听感贡献度确定单元,用于确定各所述通话终端在所述混音结果中的听感贡献度,所述听感贡献度用于反映与所述通话终端对应的成员参与通话的活跃程度;
目标编码参数确定单元,用于根据所述听感贡献度确定各所述通话终端的目标编码参数;
目标编码参数发送单元,用于将所述目标编码参数返回至对应的通话终端,以便基于所述目标编码参数调整各通话终端当前的编码参数。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令或者至少一段程序,所述至少一条指令或者至少一段程序由处理器加载并执行以实现如权利要求1-7任一所述的语音编码控制方法。
10.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7任一所述的语音编码控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010696857.7A CN111951813A (zh) | 2020-07-20 | 2020-07-20 | 语音编码控制方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010696857.7A CN111951813A (zh) | 2020-07-20 | 2020-07-20 | 语音编码控制方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111951813A true CN111951813A (zh) | 2020-11-17 |
Family
ID=73340769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010696857.7A Pending CN111951813A (zh) | 2020-07-20 | 2020-07-20 | 语音编码控制方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111951813A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112911193A (zh) * | 2021-01-29 | 2021-06-04 | 浪潮软件科技有限公司 | 基于WebRTC视频通话的带宽控制方法及装置 |
CN114221739A (zh) * | 2021-12-08 | 2022-03-22 | 惠州Tcl移动通信有限公司 | 一种语音通话方法、装置和计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6453642A (en) * | 1987-02-27 | 1989-03-01 | Hitachi Ltd | Method and system for transmitting variable rate sound signal |
US20060116872A1 (en) * | 2004-11-26 | 2006-06-01 | Kyung-Jin Byun | Method for flexible bit rate code vector generation and wideband vocoder employing the same |
CN101414463A (zh) * | 2007-10-19 | 2009-04-22 | 华为技术有限公司 | 一种混音编码方法、装置和系统 |
CN110070878A (zh) * | 2019-03-26 | 2019-07-30 | 苏州科达科技股份有限公司 | 音频码流的解码方法及电子设备 |
CN110072021A (zh) * | 2014-02-28 | 2019-07-30 | 杜比实验室特许公司 | 电话会议中的在感知上连续的混合 |
CN111371957A (zh) * | 2020-05-26 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 一种冗余度控制方法、装置、电子设备和存储介质 |
CN111583942A (zh) * | 2020-05-26 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 语音会话的编码码率控制方法、装置和计算机设备 |
-
2020
- 2020-07-20 CN CN202010696857.7A patent/CN111951813A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6453642A (en) * | 1987-02-27 | 1989-03-01 | Hitachi Ltd | Method and system for transmitting variable rate sound signal |
US20060116872A1 (en) * | 2004-11-26 | 2006-06-01 | Kyung-Jin Byun | Method for flexible bit rate code vector generation and wideband vocoder employing the same |
CN101414463A (zh) * | 2007-10-19 | 2009-04-22 | 华为技术有限公司 | 一种混音编码方法、装置和系统 |
CN110072021A (zh) * | 2014-02-28 | 2019-07-30 | 杜比实验室特许公司 | 电话会议中的在感知上连续的混合 |
CN110070878A (zh) * | 2019-03-26 | 2019-07-30 | 苏州科达科技股份有限公司 | 音频码流的解码方法及电子设备 |
CN111371957A (zh) * | 2020-05-26 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 一种冗余度控制方法、装置、电子设备和存储介质 |
CN111583942A (zh) * | 2020-05-26 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 语音会话的编码码率控制方法、装置和计算机设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112911193A (zh) * | 2021-01-29 | 2021-06-04 | 浪潮软件科技有限公司 | 基于WebRTC视频通话的带宽控制方法及装置 |
CN114221739A (zh) * | 2021-12-08 | 2022-03-22 | 惠州Tcl移动通信有限公司 | 一种语音通话方法、装置和计算机可读存储介质 |
CN114221739B (zh) * | 2021-12-08 | 2024-04-09 | 惠州Tcl移动通信有限公司 | 一种语音通话方法、装置和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3948904B2 (ja) | エッジポイントミキシングを有する遠隔会議ブリッジ | |
US7206404B2 (en) | Communications system and method utilizing centralized signal processing | |
JP5523551B2 (ja) | 拡張通信ブリッジ | |
US20060067500A1 (en) | Teleconferencing bridge with edgepoint mixing | |
US8606249B1 (en) | Methods and systems for enhancing audio quality during teleconferencing | |
CN101675623B (zh) | 多点会议中的媒体检测和分组分发 | |
US8589153B2 (en) | Adaptive conference comfort noise | |
US20120076305A1 (en) | Spatial Audio Mixing Arrangement | |
EP2342884B1 (en) | Method of controlling a system and signal processing system | |
KR20080065236A (ko) | 멀티미디어 회의 방법 및 신호 | |
WO2014052431A1 (en) | Method for improving perceptual continuity in a spatial teleconferencing system | |
CN111951813A (zh) | 语音编码控制方法、装置及存储介质 | |
WO2015130508A2 (en) | Perceptually continuous mixing in a teleconference | |
US8553520B2 (en) | System and method for echo suppression in web browser-based communication | |
EP2158753B1 (en) | Selection of audio signals to be mixed in an audio conference | |
CN111628992B (zh) | 一种多人通话控制方法、装置、电子设备及存储介质 | |
US8515039B2 (en) | Method for carrying out a voice conference and voice conference system | |
US20230146871A1 (en) | Audio data processing method and apparatus, device, and storage medium | |
US20220392478A1 (en) | Speech enhancement techniques that maintain speech of near-field speakers | |
CN111951821B (zh) | 通话方法和装置 | |
CN112565668B (zh) | 一种网络会议共享声音的方法 | |
Baskaran et al. | Audio mixer with automatic gain controller for software based multipoint control unit | |
CN117118956B (zh) | 音频处理方法、装置、电子设备及计算机可读存储介质 | |
JP5602688B2 (ja) | 音像定位制御システム、コミュニケーション用サーバ、多地点接続装置、及び音像定位制御方法 | |
CN117079661A (zh) | 一种声源处理方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |