CN111951821B - 通话方法和装置 - Google Patents

通话方法和装置 Download PDF

Info

Publication number
CN111951821B
CN111951821B CN202010811883.XA CN202010811883A CN111951821B CN 111951821 B CN111951821 B CN 111951821B CN 202010811883 A CN202010811883 A CN 202010811883A CN 111951821 B CN111951821 B CN 111951821B
Authority
CN
China
Prior art keywords
channel
gating
prediction state
value
coding parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010811883.XA
Other languages
English (en)
Other versions
CN111951821A (zh
Inventor
梁俊斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010811883.XA priority Critical patent/CN111951821B/zh
Publication of CN111951821A publication Critical patent/CN111951821A/zh
Application granted granted Critical
Publication of CN111951821B publication Critical patent/CN111951821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请提供了一种通话方法和装置。该方法包括:获取用于传输通话数据的多个通道中每个通道的选通预测状态,并获取与每个通道对应的第一编码参数;基于选通预测状态调整与选通预测状态对应于同一通道的第一编码参数,得到与每个通道对应的第二编码参数;将第二编码参数发送至与第二编码参数对应于同一通道的发送客户端,以使发送客户端按照第二编码参数对通话数据进行编码得到语音码流;获取与多个通道对应的多个发送客户端编码得到的多个语音码流;在多个语音码流中选择选通码流,将选通码流使用人工智能领域中的语音合成技术合成,基于合成后的选通码流进行通话,相比于直接基于多个语音码流进行通话,降低了接收客户端的用户无法听清的风险。

Description

通话方法和装置
技术领域
本申请涉及通信技术领域,特别涉及一种通话方法和装置。
背景技术
在多人通话中,经常会有多人同时说话的时刻,多个说话人通过多个发送客户端向同一个接收客户端发送通话数据。
但是人耳对同一时间来自不同声源的声音辨识能力有限,人耳只能识别有限数量的人的同时说话声,当发送客户端的用户数量过多时,处于接收客户端的用户会感觉声音杂乱而无法听清。
发明内容
本申请旨在提供一种通话方法,其能够降低接收客户端的用户无法听清的风险。
根据本申请实施例的一个方面,提供了一种通话方法,包括:获取用于传输通话数据的多个通道中每个通道的选通预测状态,并获取与所述每个通道对应的第一编码参数;基于所述选通预测状态调整与所述选通预测状态对应于同一通道的第一编码参数,得到与所述每个通道对应的第二编码参数;将所述第二编码参数发送至与所述第二编码参数对应于同一通道的发送客户端,以使所述发送客户端按照所述第二编码参数对所述通话数据进行编码得到语音码流;获取与所述多个通道对应的多个发送客户端编码得到的多个语音码流;在所述多个语音码流中选择选通码流,基于所述选通码流进行通话。
根据本申请实施例的一个方面,提供了一种通话装置,包括:获取模块,配置为获取用于传输通话数据的多个通道中每个通道的选通预测状态,并获取与所述每个通道对应的第一编码参数;调整模块,配置为基于所述选通预测状态调整与所述选通预测状态对应于同一通道的第一编码参数,得到与所述每个通道对应的第二编码参数;编码模块,配置为将所述第二编码参数发送至与所述第二编码参数对应于同一通道的发送客户端,以使所述发送客户端按照所述第二编码参数对所述通话数据进行编码得到语音码流;通话模块,配置为在所述多个语音码流中选择选通码流,基于所述选通码流进行通话。
在本申请的一些实施例中,基于前述方案,所述获取模块配置为:获取与所述每个通道对应的通话数据的数据特征;基于所述通话数据的数据特征,确定所述每个通道的选通概率;基于所述选通概率,确定所述每个通道的所述选通预测状态。
在本申请的一些实施例中,基于前述方案,所述获取模块配置为:获取通话质量标准;基于所述通话质量标准确定所述多个通道占用的带宽之和;将所述带宽之和平均分配至所述每个通道,得到与所述每个通道对应的第一编码码率。
在本申请的一些实施例中,基于前述方案,所述调整模块配置为:基于所述选通预测状态确定与所述每个通道对应的预测状态值;对所述预测状态值进行平滑处理得到与所述每个通道对应的预测状态平滑值;基于所述预测状态平滑值调整与所述预测状态平滑值对应于同一通道的第一编码参数,得到与所述每个通道对应的所述第二编码参数。
在本申请的一些实施例中,基于前述方案,所述调整模块配置为:若所述选通预测状态为被选通,则确定与所述选通预测状态对应于同一通道的预测状态值为1;若所述选通预测状态为未被选通,则确定与所述选通预测状态对应于同一通道的预测状态值为0。
在本申请的一些实施例中,基于前述方案,所述调整模块配置为:获取对所述每个通道对应的上一次预测状态值进行平滑处理之后得到的上一次预测状态平滑值;获取与所述上一次预测状态平滑值对应的第一权重,获取与所述预测状态值对应的第二权重;计算与所述每个通道对应的所述上一次预测状态平滑值与所述预测状态值的加权和,将所述加权和作为与所述每个通道对应的所述预测状态平滑值。
在本申请的一些实施例中,基于前述方案,所述调整模块配置为:所述第一权重与所述第二权重的和为1;若所述选通预测状态为被选通,则所述第一权重小于所述第二权重;若所述选通预测状态为未被选通,则所述第一权重大于所述第二权重。
在本申请的一些实施例中,基于前述方案,所述调整模块配置为:将所述预测状态平滑值代入预设函数,得到与所述每个通道对应的函数值;将所述函数值乘以与所述函数值对应于同一通道的第一编码参数,得到与所述每个通道对应的所述第二编码参数。
在本申请的一些实施例中,基于前述方案,所述通话模块配置为:获取通话的选路算法,基于所述选路算法从所述多个语音码流中选择设定数量个选通码流;将所述设定数量个选通码流发送至接收客户端以进行解码,得到设定数量个语音;将所述设定数量个语音进行混音得到待播放语音;播放所述待播放语音以实现所述通话。
根据本申请实施例的一个方面,提供了一种计算机可读程序介质,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行上任一项所述的方法。
根据本申请实施例的一个方面,提供了一种电子装置,包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上任一项所述的方法。
本申请的实施例提供的技术方案可以包括以下有益效果:
在本申请的一些实施例所提供的技术方案中,通过获取用于传输通话数据的多个通道中每个通道的选通预测状态,并获取与每个通道对应的第一编码参数,基于选通预测状态调整与选通预测状态对应于同一通道的第一编码参数,得到与每个通道对应的第二编码参数,与每个通道对应的第二编码参数与该通道的选通预测状态相关,以使被选通的通道和未被选通的通道具有不同的编码参数,将第二编码参数发送至与第二编码参数对应于同一通道的发送客户端,以使发送客户端按照第二编码参数对通话数据进行编码得到语音码流,以使每个通道得到的语音码流的质量与该通道的选通预测状态相关,以使不同选通预测状态的通道对应的语音码流质量不同,相比于为所有通道设置相同的编码参数,更有利于语音数据的传输,再获取与多个通道对应的多个发送客户端编码得到的多个语音码流,在多个语音码流中选择选通码流,基于选通码流进行通话,相比于直接基于多个语音码流进行通话,降低了接收客户端的用户无法听清的风险。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并于说明书一起用于解释本申请的原理。
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图;
图2示意性示出了根据本申请的一个实施例的通话方法的流程图;
图3示意性示出了根据本申请的一个实施例的通话方法的流程图;
图4示意性示出了根据本申请的一个实施例的通话装置的框图;
图5是根据一示例性实施例示出的一种电子装置的硬件图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
在多人通话中,经常会有多人同时说话的时刻,多个说话人通过多个发送客户端发送通话数据,多个发送客户端的通话数据通过语音合成技术合成后发送至同一个接收客户端,从而实现接受客户端的用户接受到多个发送客户端的说话人发送的语音。
图1示出了可以应用本申请实施例的技术方案的示例性系统架构100的示意图。
如图1所示,系统架构100可以包括发送客户端101(发送客户端可以为智能手机、平板电脑、便携式计算机、台式计算机中的一种或多种)、网络102、服务器103和接收客户端104(接收客户端可以为智能手机、平板电脑、便携式计算机、台式计算机中的一种或多种)。网络102用以在发送客户端101、服务器103和接收客户端104之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
应该理解,图1中的发送客户端101、网络102、服务器103和接收客户端104的数目仅仅是示意性的。根据实现需要,可以具有任意数目的发送客户端101、网络102、服务器103和接收客户端104。比如服务器103可以是多个服务器组成的服务器集群等。
在本申请的一个实施例中,参与通话的多方通过发送客户端101进行音频信号采集及各种音频处理,然后经过语音编码及网络传输打包,经过网络发送到音频混音或选路设备进行处理,处理后语音编码数据包将转发至各接收客户端104进行解码或解码并混音等处理,最后由扬声器播放出声音。
在该实施例中,音频混音或选路设备可以是服务器103。
在该实施例中,服务器103可以是选路服务器,音频混音设备可以是接收客户端104。
在本申请的一个实施例中,服务器103可以获取用于传输通话数据的多个通道中每个通道的选通预测状态,并获取与每个通道对应的第一编码参数,基于选通预测状态调整与选通预测状态对应于同一通道的第一编码参数,得到与每个通道对应的第二编码参数,与每个通道对应的第二编码参数与该通道的选通预测状态相关,以使被选通的通道和未被选通的通道具有不同的编码参数,将第二编码参数发送至与第二编码参数对应于同一通道的发送客户端,以使发送客户端按照第二编码参数对通话数据进行编码得到语音码流,以使每个通道得到的语音码流的质量与该通道的选通预测状态相关,以使不同选通预测状态的通道对应的语音码流质量不同,相比于为所有通道设置相同的编码参数,更有利于语音数据的传输,再获取与多个通道对应的多个发送客户端101编码得到的多个语音码流,在多个语音码流中选择选通码流,基于选通码流进行通话,相比于直接基于多个语音码流进行通话,降低了接收客户端104的用户无法听清的风险。
需要说明的是,本申请实施例所提供的通话方法一般由服务器103执行,相应地,通话装置一般设置于服务器103中。但是,在本申请的其它实施例中,发送客户端101或接收客户端104也可以与服务器103具有相似的功能,从而执行本申请实施例所提供的通话方法。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图2示意性示出了根据本申请的一个实施例的通话方法的流程图,该通话方法的执行主体可以是服务器,比如可以是图1中所示的服务器103。
参照图2所示,该通话方法至少包括步骤S210至步骤S250,详细介绍如下:
在步骤S210中,获取用于传输通话数据的多个通道中每个通道的选通预测状态,并获取与每个通道对应的第一编码参数。
在本申请的一个实施例中,通话数据可以是语音数据、视频数据或文本数据。
在本申请的一个实施例中,发明人经过反复测试发现,人耳最多能够同时辨识四人的说话声音,因此多个通道的数量可以大于四,可以从超过四个通道中选取四个通道,选取的四个通道的选通预测状态为选通,其余的通道的选通预测状态为未被选通。
在本申请的一个实施例中,可以获取与每个通道对应的通话数据的数据特征,基于通话数据的数据特征确定每个通道的选通概率,基于选通概率确定每个通道的选通预测状态,根据通话数据的数据特征计算通道的选通概率,能够使更适合发送至接收客户端的通话数据被传输,能够提高通话质量。
在本申请的一个实施例中,可以根据选通概率由大至小选取设定数量个通道,将选取的设定数量的通道的选通预测状态为被选通,其余通道的选通预测状态为未被选通。
在本申请的一个实施例中,可以在选通概率达到设定阈值的通道中由大至小选取设定数量的通道,选通概率未达到设定阈值的通道的选通预测状态为未被选通。
在本申请的一个实施例中,通话数据的数据特征可以是通话数据中语音数据的音调、音量、音色、频率、能量、信噪比、密度、失真度、清晰度等。
在本申请的一个实施例中,可以根据人耳特征和通话设备的传输能力设定数据特征范围,将数据特征不在数据特征范围内的语音数据对应的通道的选通预测状态设定为未被选通,确定余下的通道的选通概率,基于余下的通道的选通概率确定余下的通道的选通预测状态,通过使用数据特征范围对通道进行筛选,减少了需要确定选通概率的通道的数量,节约了计算成本,减少了计算时间。
在本申请的一个实施例中,可以根据数据特征查找预设的数据特征与选通概率对照表,获得数据特征对应的通道的选通概率,其中,数据特征与选通概率对照表可以根据历史数据设置。
在本申请的一个实施例中,当一个通道的数据特征有多个时,可以分别根据多个数据特征查找预设的数据特征与选通概率对照表,将获得的多个概率求和得到多个数据特征对应的该通道的选通概率。
在本申请的一个实施例中,与每个通道对应的第一编码参数可以是每个通道需要传输的通话数据的的第一编码参数。
在本申请的一个实施例中,第一编码参数可以是编码码率、分辨率、编码级别、编码格式等。
在本申请的一个实施例中,第一编码参数的值可以根据需要设定的。
在本申请的一个实施例中,可以获取通话质量标准,基于通话质量标准确定多个通道占用的带宽之和,将带宽之和平均分配至每个通道,得到与每个通道对应的第一编码码率,先假设多个通道根据第一编码码率编码得到的语音码流质量均相同,方便后续对各个通道编码码率进行调整。
在本申请的一个实施例中,多个通道占用的带宽之和可以包括:在通话质量标准下预计传输的通话数据占用的带宽之和再加上传输通话数据需要的包头数据占用的带宽之和,以确保通话质量达到通话质量标准。
在本申请的一个实施例中,通话质量标准可以是数据通信标准,可以根据数据通信标准确定多个通道占用的带宽之和。
在本申请的一个实施例中,通话质量标准可以是语音数据的保真度。
在本申请的一个实施例中,可以获取根据第一编码码率编码得到的语音码流,对根据第一编码码率编码得到的语音码流解码得到解码语音,比较解码语音与发送客户端的用户实际发出的声音的相似度,根据相似度确定语音数据的保真度。
继续参照图2,在步骤S220中,基于选通预测状态调整与选通预测状态对应于同一通道的第一编码参数,得到与每个通道对应的第二编码参数。
在本申请的一个实施例中,第二编码参数可以是编码码率、分辨率、编码级别、编码格式等。
在本申请的一个实施例中,可以基于选通预测状态调整与选通预测状态对应于同一通道的第一编码码率,得到与每个通道对应的第二编码码率。
在本申请的一个实施例中,可以基于选通预测状态确定与每个通道对应的预测状态值,对预测状态值进行平滑处理得到与每个通道对应的预测状态平滑值,基于预测状态平滑值调整与预测状态平滑值对应于同一通道的第一编码参数,得到与每个通道对应的第二编码参数,以使基于选通预测状态调整第一编码参数的同时,能够为被预测选通的编码参数和没有被预测选通的编码参数都分配码率,能够将被预测选通的编码参数和没有被预测选通的编码参数都发送至服务器103,以避免服务器103的选通结果和选通预测状态不同导致遗漏传输通话数据。
在本申请的一个实施例中,若选通预测状态为被选通,可以确定与选通预测状态对应于同一通道的预测状态值为1;若选通预测状态为未被选通,可以确定与选通预测状态对应于同一通道的预测状态值为0,以将选通预测状态为被选通和未被选通的通道区分开。
在本申请的一个实施例中,可以获取对每个通道对应的上一次预测状态值进行平滑处理之后得到的上一次预测状态平滑值,获取与上一次预测状态平滑值对应的第一权重,获取与预测状态值对应的第二权重,计算与每个通道对应的上一次预测状态平滑值与预测状态值的加权和,将加权和作为与每个通道对应的预测状态平滑值。
在该实施例中,在同一次通话中,同一发送客户端发送的通话数据的数据特征大致相同,若两次平滑处理的时间间隔较近时,两次预测状态值相同的可能性较大,以避免通话断断续续,因此本次预测状态值与上一次预测状态值相关,根据上一次预测状态平滑值与预测状态值得到的本次预测状态平滑值更加准确。
在本申请的一个实施例中,第一权重与第二权重的和可以为1,若选通预测状态为被选通,则第一权重小于第二权重;若选通预测状态为未被选通,则第一权重大于第二权重。
在该实施例中,若选通预测状态为被选通,则上一次预测状态平滑值所占的权重更小,本次预测状态值所占的权重更大,本次预测状态平滑值受本次预测状态值的影响更大,由于本次选通预测状态为被选通时,本次预测状态值为1,将第一权重设置成比第二权重小,能够减少平滑处理对本次编码的影响,有利于选通预测状态为被选通的通道进行语音数据编码。
在该实施例中,若选通预测状态为未被选通,则上一次预测状态平滑值所占的权重更大,本次预测状态值所占的权重更小,本次预测状态平滑值受上次预测状态值的影响更大,本次预测状态平滑值受本次预测状态值的影响更小,本次选通预测状态为未被选通时,本次预测状态值为0,将第二权重设置成比第一权重小,能够减少本次选通预测状态对本次编码的影响,有利于选通预测状态为未被选通的通道进行语音数据编码。
在本申请的一个实施例中,上一次预测状态值可以是上一时刻的预测状态值。
在本申请的一个实施例中,可以将预测状态平滑值代入预设函数,得到与每个通道对应的函数值,将函数值乘以与函数值对应于同一通道的第一编码参数,得到与每个通道对应的第二编码参数,以根据预测状态平滑值对第一编码参数进行调整,以实现根据选通预测状态对第一编码参数进行调整相比于直接将预测状态平滑值乘以第一编码参数,通过函数进行调整能够实现更多的调整方式,使调整更加切合实际。
在本申请的一个实施例中,预设函数可以为预测状态平滑值的单调递增函数。
在本申请的一个实施例中,预设函数可以是根据需要设定的其他函数。
在本申请的一个实施例中,可以实时获取选通预测状态,实时调整第一编码参数。
在本申请的一个实施例中,可以间隔设定时间获取选通预测状态,间隔设定时间调整第一编码参数。
继续参照图2,在步骤S230中,将第二编码参数发送至与第二编码参数对应于同一通道的发送客户端,以使发送客户端按照第二编码参数对通话数据进行编码得到语音码流。
在本申请的一个实施例中,发送客户端可以是图1中的发送客户端101。
在本申请的一个实施例中,可以按照步骤S210与S220得到多个通道的第二编码参数,将每个第二编码参数都发送至与第二编码参数对应于同一通道的发送客户端,以使多个发送客户端按照各自对应的第二编码参数对各自的通话数据进行编码,得到多个语音码流。
在步骤S240中,获取与多个通道对应的多个发送客户端编码得到的多个语音码流。
在本申请的一个实施例中,可以获取多个发送客户端101发送给服务器103的多个语音码流。
在步骤S250中,在多个语音码流中选择选通码流,基于选通码流进行通话。
在本申请的一个实施例中,可以获取通话的选路算法,基于选路算法从多个语音码流中选择设定数量个选通码流,将设定数量个选通码流发送至接收客户端以进行解码,得到设定数量个语音,将设定数量个语音进行混音得到待播放语音,播放待播放语音以实现通话。
在本申请的一个实施例中,由于人耳能够同时识别四人讲话,设定数量可以为小于或等于四。
在本申请的一个实施例中,若参与多人通话的用户为50人,其中有10人有发声,如果设定数量为3,则每一时刻只有3方的声音最终被选中,其余未被选中的通话数据将不被转发到接收客户端104。
在本申请的一个实施例中,选路算法可以根据通话数据的数据特征以及语音码流的码流特征来选择选通码流。
在本申请的一个实施例中,语音码流的码流特征可以包括:丢包率、码流完整程度、码流损坏程度等。
在本申请的一个实施例中,可以是低能量或者低信噪比的通道会大概率不被选中,而能量较大且信噪比较高的通道信号将被选中。通过选路算法能有效地降低干扰或可被忽视的通道信号最终不会出现在客户端混音信号里面,使最终混音后用户听到的是有限通道的有效声音信号。
在图2的实施例中,通过获取用于传输通话数据的多个通道中每个通道的选通预测状态,并获取与每个通道对应的第一编码参数,基于选通预测状态调整与选通预测状态对应于同一通道的第一编码参数,得到与每个通道对应的第二编码参数,与每个通道对应的第二编码参数与该通道的选通预测状态相关,以使被选通的通道和未被选通的通道具有不同的编码参数,将第二编码参数发送至与第二编码参数对应于同一通道的发送客户端,以使发送客户端按照第二编码参数对通话数据进行编码得到语音码流,以使每个通道得到的语音码流的质量与该通道的选通预测状态相关,以使不同选通预测状态的通道对应的语音码流质量不同,相比于为所有通道设置相同的编码参数,更有利于语音数据的传输,再获取与多个通道对应的多个发送客户端编码得到的多个语音码流,在多个语音码流中选择选通码流,基于选通码流进行通话,相比于直接基于多个语音码流进行通话,降低了接收客户端的用户无法听清的风险。
在本申请的一个实施例中提出了一种通话方法,图3示意性示出了根据本申请的一个实施例的通话方法的流程图,该通话方法的执行主体可以是服务器,比如可以是图1中所示的服务器103。
在图3所示的通话方法中,可以首先进行各通道音频信号采集处理与特征提取,再进行语音编码,再将语音编码通过网络传输至选路服务器中,选路服务器通过选路算法对各通道进行选路状态预测,根据选路状态预测结果调整动态参数,以使语音编码根据动态参数调整,将调整后的语音编码再次通过网络传输至选路服务器,选路服务器再次根据选路算法通过网络传输至解码端,解码端对各通道语音解码,之后进行混音,再将各通道的音频信号播放,以完成通话。
在本申请的一个实施例中,在设置编码参数时,所有与会方都可以是相同配置参数,语音编码参数都可以是一样的,但是对于多人通话,尤其是大规模会议场景,通常都是只有少数人发言,不同与会方的发言时长并不均衡,也就是有很大一部分与会方在较长时间里处于不发言或者是非有效发言,例如低声议论声、打字声、翻页声等,所以在这种不对称语音应用场景下,会为了确保语音通话质量,可以对所有与会方都配置相同的编码参数。而有些编码参数的总量是一定的,例如编码码率,多人通话的语音编码质量决定了通话质量的天花板,而语音编码参数中的编码码率是影响语音编码质量的重要参数,为了确保语音通话质量,可以对所有与会方都配置较高的语音编码码率,然而对于绝大部分与会方最终并没有被选路算法选中而不会参与通话混音而被感知,对于这些不被选中的与会方,其占用较高带宽是不合理的,导致了用户通话成本和运营成本的增加,尤其在一些超大规模会议(超过一百方通话)里面,这种带宽的消耗是非常可观的,所以在多人通话应用场景语音编码参数应该基于一定规则下区分对待,在图3所示的通话方法中,各通道的语音编码参数是动态配置的,而配置值的计算是基于选路服务器对各通道的选路状态预测得到的,根据人耳感知特性和多人通话的混音属性,有针对性地控制语音编码参数,让处于不活跃的通道使用较低的语音编码码率,减少不必要的带宽消耗,而对于处于参与到最终多人混音的通道给予较高的语音编码码率,使其声音质量较高,对于最终用户的主观听感有明显提升,同时节省了网络带宽,节约用户和运营商成本。
在本申请的一个实施例中,服务器选路方案的选路算法可以输出第i通道是否被选通的选通预测状态,将被选通的通道的预测状态值设定为Si(t)=1,将未被选通的通道的预测状态值设定为Si(t)=0,对预测状态值进行平滑处理时,可以通过执行以下程序实现:
if(Si(t)==1then
if(Si(t)==0then
其中,α的值可以设为0~1的值,例如α=0.1;β的值可以设为0~1的值,例如α=0.98。
第二编码码率bitratei(t)与预设的语音编码码率BR的关系可以为:
其中,f(x)可以为单调递增函数,的值越大,则得到的编码码率越高,/>的值越小,则得到的编码码率越低,使语音编码码率随着选路状态平滑值提升而提升。
在上述程序中,α的值可以尽可能小,以使被选通的通道的预测状态值经过平滑处理后的值受平滑处理的影响小,能够使被选通的通道仍能获得较高的编码码;β的值可以尽可能大,以使未被选通的通道的预测状态值经过平滑处理后能够获得一定的编码码率。
在该实施例中,预设的语音编码码率BR作为第一编码码率,预设的语音编码码率BR的值可以根据用户需求进行自定义。
在该实施例中,区分不同与会方的选路状态,部分与会方参与最终混音者,则给予更高的编码码率,使其具有较高的语音质量,而另外部分与会方不参与最终混音者则给予较低的编码码率,降低网络带宽同时不影响听者收听效果。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的通话方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的通话方法的实施例。
图4示意性示出了根据本申请的一个实施例的通话装置的框图。
参照图4所示,根据本申请的一个实施例的通话装置400,包括获取模块401、调整模块402、编码模块403和通话模块404。
在本申请的一些实施例中,基于前述方案,获取模块401配置为获取用于传输通话数据的多个通道中每个通道的选通预测状态,并获取与每个通道对应的第一编码参数;调整模块402配置为基于选通预测状态调整与选通预测状态对应于同一通道的第一编码参数,得到与每个通道对应的第二编码参数;编码模块403配置为将第二编码参数发送至与第二编码参数对应于同一通道的发送客户端,以使发送客户端按照第二编码参数对通话数据进行编码得到语音码流;通话模块404配置为在多个语音码流中选择选通码流,基于选通码流进行通话。
在本申请的一些实施例中,基于前述方案,获取模块401配置为:获取与每个通道对应的通话数据的数据特征;基于通话数据的数据特征,确定每个通道的选通概率;基于选通概率,确定每个通道的选通预测状态。
在本申请的一些实施例中,基于前述方案,获取模块401配置为:获取通话质量标准;基于通话质量标准确定多个通道占用的带宽之和;将带宽之和平均分配至每个通道,得到与每个通道对应的第一编码码率。
在本申请的一些实施例中,基于前述方案,调整模块402配置为:基于选通预测状态确定与每个通道对应的预测状态值;对预测状态值进行平滑处理得到与每个通道对应的预测状态平滑值;基于预测状态平滑值调整与预测状态平滑值对应于同一通道的第一编码参数,得到与每个通道对应的第二编码参数。
在本申请的一些实施例中,基于前述方案,调整模块402配置为:若选通预测状态为被选通,则确定与选通预测状态对应于同一通道的预测状态值为1;若选通预测状态为未被选通,则确定与选通预测状态对应于同一通道的预测状态值为0。
在本申请的一些实施例中,基于前述方案,调整模块402配置为:获取对每个通道对应的上一次预测状态值进行平滑处理之后得到的上一次预测状态平滑值;获取与上一次预测状态平滑值对应的第一权重,获取与预测状态值对应的第二权重;计算与每个通道对应的上一次预测状态平滑值与预测状态值的加权和,将加权和作为与每个通道对应的预测状态平滑值。
在本申请的一些实施例中,基于前述方案,调整模块402配置为:第一权重与第二权重的和为1;若选通预测状态为被选通,则第一权重小于第二权重;若选通预测状态为未被选通,则第一权重大于第二权重。
在本申请的一些实施例中,基于前述方案,调整模块402配置为:将预测状态平滑值代入预设函数,得到与每个通道对应的函数值;将函数值乘以与函数值对应于同一通道的第一编码参数,得到与每个通道对应的第二编码参数。
在本申请的一些实施例中,基于前述方案,通话模块404配置为:获取通话的选路算法,基于选路算法从多个语音码流中选择设定数量个选通码流;将设定数量个选通码流发送至接收客户端以进行解码,得到设定数量个语音;将设定数量个语音进行混音得到待播放语音;播放待播放语音以实现通话。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图5来描述根据本申请的这种实施方式的电子设备50。图5显示的电子设备50仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,电子设备50以通用计算设备的形式表现。电子设备50的组件可以包括但不限于:上述至少一个处理单元51、上述至少一个存储单元52、连接不同系统组件(包括存储单元52和处理单元51)的总线53、显示单元54。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元51执行,使得所述处理单元51执行本说明书上述“实施例方法”部分中描述的根据本申请各种示例性实施方式的步骤。
存储单元52可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)521和/或高速缓存存储单元522,还可以进一步包括只读存储单元(ROM)523。
存储单元52还可以包括具有一组(至少一个)程序模块525的程序/实用工具524,这样的程序模块525包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线53可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备50也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备50交互的设备通信,和/或与使得该电子设备50能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口55进行。并且,电子设备50还可以通过网络适配器56与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器56通过总线53与电子设备50的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备50使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。
根据本申请一个实施例,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本申请的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。
根据本申请一个实施例,用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (12)

1.一种通话方法,其特征在于,所述方法包括:
获取用于传输通话数据的多个通道中每个通道的选通预测状态,并获取与所述每个通道对应的第一编码参数;其中,所述选通预测状态用于表示所述通道是否被选通;
基于所述选通预测状态调整与所述选通预测状态对应于同一通道的第一编码参数,得到与所述每个通道对应的第二编码参数;
将所述第二编码参数发送至与所述第二编码参数对应于同一通道的发送客户端,以使所述发送客户端按照所述第二编码参数对所述通话数据进行编码得到语音码流;
获取与所述多个通道对应的多个发送客户端编码得到的多个语音码流;
在所述多个语音码流中选择选通码流,基于所述选通码流进行通话。
2.根据权利要求1所述的通话方法,其特征在于,所述获取用于传输通话数据的多个通道中每个通道的选通预测状态,包括:
获取与所述每个通道对应的通话数据的数据特征;
基于所述通话数据的数据特征,确定所述每个通道的选通概率;
基于所述选通概率,确定所述每个通道的所述选通预测状态。
3.根据权利要求1所述的通话方法,其特征在于,在第一次调整所述与每个通道对应的编码参数之前,所述获取与所述每个通道对应的第一编码参数,包括:
获取通话质量标准;
基于所述通话质量标准确定所述多个通道占用的带宽之和;
将所述带宽之和平均分配至所述每个通道,得到与所述每个通道对应的第一编码码率。
4.根据权利要求1所述的通话方法,其特征在于,所述基于所述选通预测状态调整与所述选通预测状态对应于同一通道的第一编码参数,得到与所述每个通道对应的第二编码参数,包括:
基于所述选通预测状态确定与所述每个通道对应的预测状态值;
对所述预测状态值进行平滑处理得到与所述每个通道对应的预测状态平滑值;
基于所述预测状态平滑值调整与所述预测状态平滑值对应于同一通道的第一编码参数,得到与所述每个通道对应的所述第二编码参数。
5.根据权利要求4所述的通话方法,其特征在于,所述基于所述选通预测状态确定与所述每个通道对应的预测状态值,包括:
若所述选通预测状态为被选通,则确定与所述选通预测状态对应于同一通道的预测状态值为1;
若所述选通预测状态为未被选通,则确定与所述选通预测状态对应于同一通道的预测状态值为0。
6.根据权利要求4所述的通话方法,其特征在于,所述对所述预测状态值进行平滑处理得到与所述每个通道对应的预测状态平滑值,包括:
获取对所述每个通道对应的上一次预测状态值进行平滑处理之后得到的上一次预测状态平滑值;
获取与所述上一次预测状态平滑值对应的第一权重,获取与所述预测状态值对应的第二权重;
计算与所述每个通道对应的所述上一次预测状态平滑值与所述预测状态值的加权和,将所述加权和作为与所述每个通道对应的所述预测状态平滑值。
7.根据权利要求6所述的通话方法,其特征在于,所述获取与所述上一次预测状态平滑值对应的第一权重,获取与所述预测状态值对应的第二权重,包括:
所述第一权重与所述第二权重的和为1;
若所述选通预测状态为被选通,则所述第一权重小于所述第二权重;
若所述选通预测状态为未被选通,则所述第一权重大于所述第二权重。
8.根据权利要求4所述的通话方法,其特征在于,所述基于所述预测状态平滑值调整与所述预测状态平滑值对应于同一通道的第一编码参数,得到与所述每个通道对应的所述第二编码参数,包括:
将所述预测状态平滑值代入预设函数,得到与所述每个通道对应的函数值;
将所述函数值乘以与所述函数值对应于同一通道的第一编码参数,得到与所述每个通道对应的所述第二编码参数。
9.根据权利要求1所述的通话方法,其特征在于,所述在所述多个语音码流中选择选通码流,基于所述选通码流进行通话,包括:
获取通话的选路算法,基于所述选路算法从所述多个语音码流中选择设定数量个选通码流;
将所述设定数量个选通码流发送至接收客户端以进行解码,得到设定数量个语音;
将所述设定数量个语音进行混音得到待播放语音;
播放所述待播放语音以实现所述通话。
10.一种通话装置,其特征在于,包括:
获取模块,配置为获取用于传输通话数据的多个通道中每个通道的选通预测状态,并获取与所述每个通道对应的第一编码参数;其中,所述选通预测状态用于表示所述通道是否被选通;
调整模块,配置为基于所述选通预测状态调整与所述选通预测状态对应于同一通道的第一编码参数,得到与所述每个通道对应的第二编码参数;
编码模块,配置为将所述第二编码参数发送至与所述第二编码参数对应于同一通道的发送客户端,以使所述发送客户端按照所述第二编码参数对所述通话数据进行编码得到语音码流;
通话模块,配置为在所述多个语音码流中选择选通码流,基于所述选通码流进行通话。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的通话方法。
12.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至9中任一项所述的通话方法。
CN202010811883.XA 2020-08-13 2020-08-13 通话方法和装置 Active CN111951821B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010811883.XA CN111951821B (zh) 2020-08-13 2020-08-13 通话方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010811883.XA CN111951821B (zh) 2020-08-13 2020-08-13 通话方法和装置

Publications (2)

Publication Number Publication Date
CN111951821A CN111951821A (zh) 2020-11-17
CN111951821B true CN111951821B (zh) 2023-10-24

Family

ID=73332849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010811883.XA Active CN111951821B (zh) 2020-08-13 2020-08-13 通话方法和装置

Country Status (1)

Country Link
CN (1) CN111951821B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111818091B (zh) * 2020-08-07 2022-10-25 重庆虚拟实境科技有限公司 多人语音交互系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006116750A2 (en) * 2005-04-28 2006-11-02 Apple Computer, Inc. Multi-participant conferencing
CN105791735A (zh) * 2014-12-24 2016-07-20 中国电信股份有限公司 用于视频通话码流动态调整的方法和系统
CN105991577A (zh) * 2015-02-11 2016-10-05 腾讯科技(深圳)有限公司 一种语音通话处理方法、系统和云端服务器
CN110060696A (zh) * 2018-01-19 2019-07-26 腾讯科技(深圳)有限公司 混音方法及装置、终端及可读存储介质
CN111048119A (zh) * 2020-03-12 2020-04-21 腾讯科技(深圳)有限公司 通话音频混音处理方法、装置、存储介质和计算机设备
CN111276152A (zh) * 2020-04-30 2020-06-12 腾讯科技(深圳)有限公司 一种音频处理方法、终端及服务器

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140280595A1 (en) * 2013-03-15 2014-09-18 Polycom, Inc. Cloud Based Elastic Load Allocation for Multi-media Conferencing
CN104272713A (zh) * 2013-11-12 2015-01-07 华为技术有限公司 一种多方通话方法及装置
US9922656B2 (en) * 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9998711B2 (en) * 2014-11-11 2018-06-12 Isee Vc Pty Ltd Reducing data content on a data system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006116750A2 (en) * 2005-04-28 2006-11-02 Apple Computer, Inc. Multi-participant conferencing
CN105791735A (zh) * 2014-12-24 2016-07-20 中国电信股份有限公司 用于视频通话码流动态调整的方法和系统
CN105991577A (zh) * 2015-02-11 2016-10-05 腾讯科技(深圳)有限公司 一种语音通话处理方法、系统和云端服务器
CN110060696A (zh) * 2018-01-19 2019-07-26 腾讯科技(深圳)有限公司 混音方法及装置、终端及可读存储介质
CN111048119A (zh) * 2020-03-12 2020-04-21 腾讯科技(深圳)有限公司 通话音频混音处理方法、装置、存储介质和计算机设备
CN111276152A (zh) * 2020-04-30 2020-06-12 腾讯科技(深圳)有限公司 一种音频处理方法、终端及服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Maureen O‘ReillyRoche et al..Call Party Handling Using the Connection View State Approach: A Foundation for Intelligent Control of Multiparty Calls.《IEEE Communications Magazine》.1998,全文. *
陈舜儿 ; 黄志宏 ; 周楚雯 ; 李西明 ; 刘伟平 ; .基于包转发的电话会议系统的研究与实现.计算机工程与设计.2008,(02),全文. *

Also Published As

Publication number Publication date
CN111951821A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
US11115541B2 (en) Post-teleconference playback using non-destructive audio transport
US9460729B2 (en) Layered approach to spatial audio coding
EP2973552B1 (en) Spatial comfort noise
CN111583942B (zh) 语音会话的编码码率控制方法、装置和计算机设备
US20150112668A1 (en) Voice processing method, apparatus, and system
CN112104836A (zh) 一种音频服务器混音方法、系统、存储介质及设备
US8265941B2 (en) Method and an apparatus for decoding an audio signal
CN111951821B (zh) 通话方法和装置
US7020613B2 (en) Method and apparatus of mixing audios
CN111863011A (zh) 音频处理方法及电子设备
US8515039B2 (en) Method for carrying out a voice conference and voice conference system
US11488612B2 (en) Audio fingerprinting for meeting services
CN112767955B (zh) 音频编码方法及装置、存储介质、电子设备
CN117079661A (zh) 一种声源处理方法及相关装置
US7308325B2 (en) Audio system
WO2022156336A1 (zh) 音频数据处理方法、装置、设备、存储介质及程序产品
US11803351B2 (en) Scalable voice scene media server
US11562761B2 (en) Methods and apparatus for enhancing musical sound during a networked conference
Baskaran et al. Audio mixer with automatic gain controller for software based multipoint control unit
CN114638237A (zh) 一种实现同声传译的方法、装置及系统
RU2807215C2 (ru) Медиасервер с масштабируемой сценой для голосовых сигналов
WO2022179406A1 (zh) 音频转码方法、装置、音频转码器、设备以及存储介质
EP4362013A1 (en) Speech coding method and apparatus, speech decoding method and apparatus, computer device, and storage medium
US20240112684A1 (en) Three-dimensional audio signal processing method and apparatus
CN115914761A (zh) 多人连麦方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant