CN116453534A

CN116453534A - 远程介入手术的混音方法、装置、设备和介质

Info

Publication number: CN116453534A
Application number: CN202310484202.7A
Authority: CN
Inventors: 邓家宝
Original assignee: Shenzhen Aibo Medical Robot Co Ltd
Current assignee: Shenzhen Aibo Medical Robot Co Ltd
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-07-18

Abstract

本申请属于语音处理技术领域，公开了一种远程介入手术的混音方法、装置、设备和介质，其中方法包括：对音频数据进行语音检测，筛选出仅包含人声的多个目标音频信号；根据叠加音频信号的第i帧信号值与预设衰减因子，得到第i帧衰减信号值；若第i帧衰减信号值大于音频信号最大值，从小于信号比值的范围内选取最大整数值，得到第i帧衰减因子；根据第i帧衰减因子确定第i帧输出值，将第i帧衰减因子与预设调节因子的平均值作为第i+1帧衰减因子；将混音数据包分发至各个远程客户端以对混音数据包进行播报。上述方法能够去除杂声，将第i帧衰减因子与预设调节因子的平均值作为第i+1帧衰减因子，能够避免混音数据包中的人声的音量偏小。

Description

远程介入手术的混音方法、装置、设备和介质

技术领域

本申请涉及语音处理技术领域，尤其涉及一种远程介入手术的混音方法、装置、设备和介质。

背景技术

随着信息技术的不断发展，远程手术得到了越来越广泛的应用，远程手术具有速度快、处理及时以及不需要患者来回奔波的优点。在远程手术中需要进行多人语音通话，通常是一个做手术的主刀医生操作一个远程客户端，不同区域(例如不同省市)的多个医生分别操作各自远程客户端，以进行多人语音通话。

现有技术例如CN109863553A公开了通过语音传感器获取声音命令，通过信号发送器将声音命令转换为语音信号，将一个或多个语音信号发送至处理器。信号发送器相当于媒体服务器，语音传感器相当于一个远程客户端，处理器相当于另一个远程客户端。该现有技术无法分辨人声和杂声，会将一个远程客户端的人声和杂声一起发送至另一个远程客户端。现有技术例如CN109510905B公开了选择集中式混音策略或分布式混音策略，基于自适应归一化混音算法对音频数据流进行混音。但是，目前的自适应归一化混音算法将衰减因子和迭代步长直接相加以更新衰减因子，可能会导致混音结果中的人声偏小。

综上所述，现有混音技术方案应用在远程介入手术中，存在会将一个远程客户端的人声和杂声一起发送至另一个远程客户端的问题，和/或将衰减因子和迭代步长直接相加以更新衰减因子，可能会导致混音结果中的人声偏小。且应用现有混音方案，远程介入手术过程中，每个远程客户端播放混音时存在太多人同时说话，医生难以听清说话内容，不利于进行远程介入手术。

发明内容

本申请目的在于：提供一种远程介入手术的混音方法、装置、设备和介质，其能够解决现有技术存在一个远程客户端的用户听不清另一个远程客户端的用户的语音，会将一个远程客户端的人声和杂声一起发送至另一个远程客户端，以及每个远程客户端播放混音时存在太多人同时说话，医生难以听清说话内容的问题。

为达到上述目的，本申请提供了一种远程介入手术的混音方法，应用于远程介入手术系统，所述远程介入手术系统包括媒体服务器和与所述媒体服务器连接的多个远程客户端，所述方法包括所述媒体服务器执行的如下步骤：

获取多个远程客户端的音频数据，对所述音频数据进行语音检测，筛选出仅包含人声的多个目标音频信号，其中，所述音频数据为在远程介入手术中进行多人通话时产生的数据；

对所有所述目标音频信号进行叠加，得到叠加音频信号；

根据所述叠加音频信号的第i帧信号值与预设衰减因子，得到第i帧衰减信号值；

若所述第i帧衰减信号值大于音频信号最大值，则计算所述音频信号最大值和所述第i帧衰减信号值的信号比值，从小于所述信号比值的范围内选取最大整数值，得到第i帧衰减因子；

根据所述第i帧衰减因子确定第i帧输出值，将所述第i帧衰减因子与预设调节因子的平均值作为第i+1帧衰减因子；

基于所述第i+1帧衰减因子和所述第i帧输出值，获取混音数据包；将所述混音数据包分发至各个所述远程客户端以对所述混音数据包进行播报，其中，所述混音数据包中不同人声的音量均衡。

优选地，所述对所述音频数据进行语音检测，筛选出仅包含人声的多个目标音频信号，包括：

通过VAD方法对所述音频数据进行语音检测，得到每一音频数据对应的音频信号；或，提取所述音频数据的语音特征，将所述语音特征输入已训练语音检测模型，得到每一音频数据对应的音频信号；

检测所述音频信号的总数是否大于信号阈值数，若是，则计算出每一音频信号对应的音量阈值；

从所有所述音量阈值中筛选出N个目标阈值；

根据N个所述目标阈值筛选出多个所述目标音频信号。

优选地，所述从所有所述音量阈值中筛选出N个目标阈值，包括：

采用冒泡排序法对所有所述音量阈值进行升序排序，得到阈值序列；

将所述阈值序列的最后N个所述音量阈值作为N个所述目标阈值。

优选地，所述得到第i帧衰减信号值之后，还包括：

若所述第i帧衰减信号值小于音频信号最小值，则计算所述音频信号最小值和所述第i帧衰减信号值的所述信号比值，从大于所述信号比值的范围内选取最小整数值，得到所述第i帧衰减因子；

根据所述第i帧衰减因子将所述第i帧输出值设置为所述音频信号最小值。

优选地，所述基于所述第i+1帧衰减因子和所述第i帧输出值，获取混音数据包，包括：

将所述叠加音频信号的第i+1帧信号值和所述第i+1帧衰减因子相乘，得到第i+1帧衰减信号值；

若所述第i+1帧衰减信号值大于所述音频信号最大值，则使用所述第i+1帧衰减因子和预设步长的差值作为第i+2帧衰减因子；

若所述第i+1帧衰减信号值小于所述音频信号最小值，则计算所述音频信号最小值与所述第i+1帧衰减信号值的所述信号比值，从大于所述信号比值的范围内选取最小整数值，作为所述第i+2帧衰减因子；

检测所述叠加音频信号的第i+1帧是否为所述叠加音频信号的最后一帧，若是，则根据所述第i+1帧衰减信号值计算第i+1帧输出值，将第1帧输出值至所述第i+1帧输出值组成所述混音数据包；

若所述叠加音频信号的第i+1帧不为所述叠加音频信号的最后一帧，则根据所述叠加音频信号的第i+2帧信号值和所述第i+2帧衰减因子计算第i+2帧输出值。

优选地，所述将所述混音数据包分发至各个所述远程客户端以对所述混音数据包进行播报，包括：

检测所述混音数据包中是否存在目标远程客户端对应的人声，若存在，则将所述目标远程客户端作为第一目标远程客户端；去除所述第一目标远程客户端对应的人声，得到去回声数据包；将所述去回声数据包分发至所述第一目标远程客户端，并控制所述第一目标远程客户端播报所述去回声数据包；

若所述混音数据包中不存在所述目标远程客户端对应的人声，则将所述目标远程客户端作为第二目标远程客户端；将所述混音数据包分发至所述第二目标远程客户端，并控制所述第二目标远程客户端播报所述混音数据包。

优选地，所述根据所述第i帧衰减因子确定第i帧输出值，包括：

将所述音频信号最大值作为所述第i帧输出值。

本申请提供了一种远程介入手术的混音装置，应用于远程介入手术系统，所述远程介入手术系统包括媒体服务器和与所述媒体服务器连接的多个远程客户端，所述装置位于所述媒体服务器上，所述装置包括：

目标音频信号筛选模块，用于获取多个远程客户端的音频数据，对所述音频数据进行语音检测，筛选出仅包含人声的多个目标音频信号，其中，所述音频数据为在远程介入手术中进行多人通话时产生的数据；

信号叠加模块，用于对所有所述目标音频信号进行叠加，得到叠加音频信号；

第i帧衰减信号值计算模块，用于根据所述叠加音频信号的第i帧信号值与预设衰减因子，得到第i帧衰减信号值；

第i帧衰减因子选取模块，用于若所述第i帧衰减信号值大于音频信号最大值，则计算所述音频信号最大值和所述第i帧衰减信号值的信号比值，从小于所述信号比值的范围内选取最大整数值，得到第i帧衰减因子；

第i+1帧衰减因子计算模块，用于根据所述第i帧衰减因子确定第i帧输出值，将所述第i帧衰减因子与预设调节因子的平均值作为第i+1帧衰减因子；

数据包播报模块，用于基于所述第i+1帧衰减因子和所述第i帧输出值，获取混音数据包；将所述混音数据包分发至各个所述远程客户端以对所述混音数据包进行播报，其中，所述混音数据包中不同人声的音量均衡。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的一种远程介入手术的混音方法和/或上述任一项所述的远程介入手术的混音方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的一种远程介入手术的混音方法和/或上述任一项所述的远程介入手术的混音方法的步骤。

本申请的一种远程介入手术的混音方法，应用于远程介入手术系统，所述远程介入手术系统包括媒体服务器和与所述媒体服务器连接的多个远程客户端，所述方法由媒体服务器执行。通过语音检测从音频数据中筛选出仅包含人声的目标音频信号，能够去除杂声，避免由于存在杂声干扰使得用户无法辨识混音数据包中的语音内容。若第i帧衰减信号值大于音频信号最大值，从小于信号比值的范围内选取最大整数值作为第i帧衰减因子，能够将第i帧信号值减小为预设范围中的最大值。将第i帧衰减因子与预设调节因子的平均值作为第i+1帧衰减因子，相比于直接将第i帧衰减因子和迭代步长相加，能够避免混音数据包中的人声的音量偏小。另外，从小于信号比值的范围内选取最大整数值作为第i帧衰减因子，相比于选取小数作为第i帧衰减因子，能够减少第i帧衰减因子带来的计算量，提高混音效率，减少对数据存储空间的占用。

附图说明

图1为一实施例的远程介入手术的混音方法的流程示意图；

图2为一实施例的筛选多个目标音频信号的流程示意图；

图3为一实施例的设置第i帧输出值的流程示意图；

图4为一实施例的获取混音数据包的流程示意图；

图5为一实施例的对混音数据包进行播报的流程示意图；

图6为一实施例的远程介入手术的混音装置的结构示意框图；

图7为一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“上述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件、模块和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、模块、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一模块和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

在一个实施例中，参照图1，是本申请公开的远程介入手术的混音方法的流程示意图，所述方法应用于远程介入手术系统，所述远程介入手术系统包括媒体服务器和与所述媒体服务器连接的多个远程客户端，所述方法包括所述媒体服务器执行的如下步骤：

S1：获取多个远程客户端的音频数据，对所述音频数据进行语音检测，筛选出仅包含人声的多个目标音频信号，其中，所述音频数据为在远程介入手术中进行多人通话时产生的数据。

远程客户端可以是手机APP，也可以是电脑软件，还可以是具有接收远程语音功能和远程发送语音功能的设备，此处不作限定。

在远程介入手术中进行远程多人通话，需要使用媒体服务器和多个远程客户端，媒体服务器用于获取音频数据并对音频数据进行处理，远程客户端用于接收音频数据和发送音频数据。

从音频数据中筛选出仅包含人声的多个目标音频信号，能够避免杂声对人声的干扰，使得基于目标音频信号得到的混音数据包中仅包含人声，提升参与远程多人通话的用户的体验感。

S2：对所有所述目标音频信号进行叠加，得到叠加音频信号。

一个远程客户端对应一个目标音频信号，将所有目标音频信号进行叠加，能够反映当前参与远程多人通话的所有人的说话内容。

作为示例，一共有10个远程客户端，有6个远程客户端附近有用户说话，媒体服务器对该6个远程客户端对应的目标音频信号进行叠加，得到叠加音频信号。

S3：根据所述叠加音频信号的第i帧信号值与预设衰减因子，得到第i帧衰减信号值。

叠加音频信号包含多帧，所有帧按照时间先后顺序排列，每一帧有信号值。将第i帧信号值与预设衰减因子相乘，得到第i帧衰减信号值，计算公式如下：

d[i]＝mixing[i]×f[0]；

其中，mixing[i]为第i帧信号值，f[0]为预设衰减因子，d[i]为第i帧衰减信号值，i≤M，M为叠加音频信号的总帧数，其中，i和M均为正整数。

预设衰减因子的取值范围为0.8-1.2，优选地，将预设衰减因子设置为1。

S4：若所述第i帧衰减信号值大于音频信号最大值，则计算所述音频信号最大值和所述第i帧衰减信号值的信号比值，从小于所述信号比值的范围内选取最大整数值，得到第i帧衰减因子。

若第i帧衰减信号值大于音频信号最大值，即d[i]＞MAX，需要计算出第i帧衰减因子，使得d[i]×f[i]＜MAX，从而避免信号溢出，防止混音出现错误。计算音频信号最大值和第i帧衰减信号值的信号比值，即

从小于所述信号比值的范围内选取最大整数值，得到第i帧衰减因子。作为示例，信号比值为0.95，将0作为第i帧衰减因子。

目标音频信号为32位的信号，音频信号最大值为32767。

S5：根据所述第i帧衰减因子确定第i帧输出值，将所述第i帧衰减因子与预设调节因子的平均值作为第i+1帧衰减因子。

通过如下公式计算第i+1帧衰减因子：

其中，f[i+1]为第i+1帧衰减因子，a为预设调节因子，f[i]为第i帧衰减因子。

预设调节因子大于或等于1，优选地，将预设调节因子设置为1。

经过步骤S4之后，第i帧衰减因子的取值小于1，将第i帧衰减因子与预设调节因子的平均值作为第i+1帧衰减因子，能够将第i帧衰减因子增大，从而避免在处理第i+1帧信号值时导致第i+1帧输出值偏小，以及混音数据包中的人声的音量偏小。若第i帧衰减因子小于1，则将音频信号最大值作为第i帧输出值。若第i帧衰减因子大于1，则将音频信号最小值作为第i帧输出值。

S6：基于所述第i+1帧衰减因子和所述第i帧输出值，获取混音数据包；将所述混音数据包分发至各个所述远程客户端以对所述混音数据包进行播报，其中，所述混音数据包中不同人声的音量均衡。

检测所述叠加音频信号的第i+1帧是否为所述叠加音频信号的最后一帧，若是，则根据所述第i+1帧衰减信号值计算第i+1帧输出值，将第1帧输出值至所述第i+1帧输出值组成所述混音数据包。

在第i帧为第一帧的情况下，第i帧输出值为第一帧输出值；在第i帧为最后一帧的情况下，第i帧输出值为最后一帧输出值。将第一帧输出值至最后一帧输出值组成混音数据包，也即将所有的第i帧输出值组成混音数据包。

混音数据包为包含了所有远程客户端的人声的数据包，混音数据包的发送分为两种不同的情况，第一种情况是混音数据包中不包含待发送的远程客户端的人声；第二种情况是混音数据包中包含待发送的远程客户端的人声，本申请实施例对上述两种情况采用不同的处理方式。

本申请实施例的一种远程介入手术的混音方法，应用于远程介入手术系统，所述远程介入手术系统包括媒体服务器和与所述媒体服务器连接的多个远程客户端，所述方法由媒体服务器执行。通过语音检测从音频数据中筛选出仅包含人声的目标音频信号，能够去除杂声，避免由于存在杂声干扰使得用户无法辨识混音数据包中的语音内容。若第i帧衰减信号值大于音频信号最大值，从小于信号比值的范围内选取最大整数值作为第i帧衰减因子，能够将第i帧信号值减小为预设范围中的最大值。将第i帧衰减因子与预设调节因子的平均值作为第i+1帧衰减因子，相比于直接将第i帧衰减因子和迭代步长相加，能够避免混音数据包中的人声的音量偏小。另外，从小于信号比值的范围内选取最大整数值作为第i帧衰减因子，相比于选取小数作为第i帧衰减因子，能够减少第i帧衰减因子带来的计算量，提高混音效率，减少对数据存储空间的占用。

在一个实施例中，参照图2，所述对所述音频数据进行语音检测，筛选出仅包含人声的多个目标音频信号，包括：

S12：通过VAD方法对所述音频数据进行语音检测，得到每一音频数据对应的音频信号；或，提取所述音频数据的语音特征，将所述语音特征输入已训练语音检测模型，得到每一音频数据对应的音频信号。

在步骤S12之前，还包括步骤S11：获取多个远程客户端的音频数据。

每个远程客户端的音频数据的帧数相同，不同远程客户端的音频数据的序号相同的帧对应的时刻相同。

VAD(Vioce Activation Detection，语音激活检测)方法用于检测音频数据中的人声，具体地，对音频数据使用VAD方法检测出音频数据中的空隙，根据空隙分割将音频数据分割为多个短音频，通过短时能量和短时过零率进行人声识别。短时能量为短音频中一帧语音的能量，短时过零率为短音频中一帧语音的时域信号穿过0的次数。通过VAD方法从每一音频数据中筛选出多个仅包含人声的音频信号。

作为另一种实施方式，可以提取每一音频数据的梅尔倒谱系数、基频、响度中的一种或多种，得到语音特征，将语音特征输入已训练语音检测模型例如WaveNet，筛选出与每一音频数据对应的多个仅包含人声的音频信号。

S13：检测所述音频信号的总数是否大于信号阈值数，若是，则计算出每一音频信号对应的音量阈值。

可以将信号阈值数设置为3，也可以设置为其他数值，此处不作限定，本申请实施例以信号阈值数为3为例。

作为示例，音频信号的总数为6，大于信号阈值数，分别计算6个音频信号的音量阈值。

可以将每个音频信号的平均音量作为对应的音量阈值，也可以将每个音频信号的最大音量作为对应的音量阈值，此处不作限定，本申请实施例以将每个音频信号的平均音量作为对应的音量阈值为例。

S14：从所有所述音量阈值中筛选出N个目标阈值。

先按照远程客户端的顺序或编号将音量阈值进行随机排序，再使用冒泡排序法对音量阈值进行升序排序，冒泡排序法是比较相邻的音量阈值，如果前一个音量阈值比后一个音量阈值大，就将这两个音量阈值进行交换，直到将最后两个音量阈值比较完毕。

阈值序列中的音量阈值是按从小到大的顺序排列的，阈值序列的最后N个音量阈值比其他的音量阈值更大，音量阈值越大，说明对应的人声音量越大，在远程手术中的多人语音通话的效果越好。因此，将阈值序列的最后N个音量阈值作为N个目标阈值，能够实现最好的多人语音通话效果，解决了手术过程中声音混乱，无法得到有效信息的问题。

S15：根据N个所述目标阈值筛选出多个所述目标音频信号。

将N个目标阈值对应的N个音频信号作为N个目标音频信号。

如上所述，对音频数据进行语音检测，筛选出仅包含人声的多个目标音频信号，包括通过VAD方法对音频数据进行语音检测，得到每一音频数据对应的音频信号；或，提取音频数据的语音特征，将语音特征输入已训练语音检测模型，得到每一音频数据对应的音频信号。检测音频信号的总数是否大于信号阈值数，若是，则计算出每一音频信号对应的音量阈值。从所有音量阈值中筛选出N个目标阈值，根据N个目标阈值筛选出多个目标音频信号。阈值序列的最后N个音量阈值比其他的音量阈值更大，将阈值序列的最后N个音量阈值作为N个目标阈值，能够实现最好的多人语音通话效果，解决了手术过程中声音混乱，无法得到有效信息的问题。

在一个实施例中，参照图3，所述得到第i帧衰减信号值之后，还包括：

S41’：若所述第i帧衰减信号值小于音频信号最小值，则计算所述音频信号最小值和所述第i帧衰减信号值的所述信号比值，从大于所述信号比值的范围内选取最小整数值，得到所述第i帧衰减因子。

若第i帧衰减信号值小于音频信号最小值，说明第i帧衰减信号值衰减的幅度过大，可能导致接收第i帧衰减信号值的远程客户端的用户听不清语音内容。

计算音频信号最小值和第i帧衰减信号值的信号比值，即从大于所述信号比值的范围内选取最小整数值，得到第i帧衰减因子。作为示例，计算出音频信号最小值和第i帧衰减信号值的信号比值为1.65，第i帧衰减因子为2。

S42’：根据所述第i帧衰减因子将所述第i帧输出值设置为所述音频信号最小值。

此时第i帧衰减因子大于1，将第i帧输出值设置为音频信号最小值，其中，音频信号最小值为-32768。将第i帧衰减因子与叠加音频信号的第i+1帧信号值相乘，得到第i+1帧衰减信号值。

如上所述，得到第i帧衰减信号值之后，还包括若第i帧衰减信号值小于音频信号最小值，则计算音频信号最小值和第i帧衰减信号值的信号比值，从大于信号比值的范围内选取最小整数值，得到第i帧衰减因子。此时第i帧衰减因子大于1，将第i帧输出值设置为音频信号最小值。在第i帧衰减信号值小于音频信号最小值的情况下，选取的第i帧衰减因子大于1。一般情况下第i帧信号值和第i+1帧信号值较为接近，将第i帧衰减因子与叠加音频信号的第i+1帧信号值的乘积作为第i+1帧衰减信号值，能够更好地对第i+1帧信号值进行处理，使得处理结果更加平滑。

在一个实施例中，参照图4，所述基于所述第i+1帧衰减因子和所述第i帧输出值，获取混音数据包，包括：

S61：将所述叠加音频信号的第i+1帧信号值和所述第i+1帧衰减因子相乘，得到第i+1帧衰减信号值。

第i+1帧衰减信号值的计算公式为：

d[i+1]＝mixing[i+1]×f[i+1]；

其中，d[i+1]为第i+1帧衰减信号值，mixing[i+1]为叠加音频信号的第i+1帧信号值，f[i+1]为第i+1帧衰减因子。

当第i+1帧衰减信号值小于或等于音频信号最大值，且大于或等于音频信号最小值时，将第i+1帧衰减信号值作为第i+1帧输出值。

S62：若所述第i+1帧衰减信号值大于所述音频信号最大值，则使用所述第i+1帧衰减因子和预设步长的差值作为第i+2帧衰减因子。

预设步长是预先设置的一个固定数值，用于调整第i+1帧衰减因子。

更新第i+1帧衰减因子的公式如下：

f[i+2]＝f[i+1]-stepsize；

其中，f[i+2]为第i+2帧衰减因子，f[i+1]为第i+1帧衰减因子，stepsize为预设步长。

预设步长的取值范围为0.01-0.2，优选地，将预设步长设置为0.05。

计算出第i+2帧衰减因子之后，计算第i+2帧衰减因子和第i+2帧信号值的乘积，若该乘积小于或等于音频信号最大值，且大于或等于音频信号最小值，则将该乘积作为第i+2帧输出值。若该乘积大于音频信号最大值，或小于音频信号最小值，则将音频信号最大值作为第i+2帧输出值。

S63：若所述第i+1帧衰减信号值小于所述音频信号最小值，则计算所述音频信号最小值与所述第i+1帧衰减信号值的所述信号比值，从大于所述信号比值的范围内选取最小整数值，作为所述第i+2帧衰减因子。

计算音频信号最小值与第i+1帧衰减信号值的信号比值，即作为示例，信号比值为1.7，将第i+2帧衰减因子d[i+2]设置为2。

S64：检测所述叠加音频信号的第i+1帧是否为所述叠加音频信号的最后一帧，若是，则根据所述第i+1帧衰减信号值计算第i+1帧输出值，将第1帧输出值至所述第i+1帧输出值组成所述混音数据包。

若第i+1帧衰减信号值大于音频信号最大值，将第i+1帧输出值设置为音频信号最大值。

若第i+1帧衰减信号值小于音频信号最小值，将第i+1帧输出值设置为音频信号最小值。

当叠加音频信号的第i+1帧为叠加音频信号的最后一帧时，说明叠加音频信号的所有帧均处理完毕，将第一帧输出值至第i帧输出值，以及第i+1帧输出值组成混音数据包。

若叠加音频信号的第i+1帧不为叠加音频信号的最后一帧时，继续计算叠加音频信号中后续各帧的衰减信号值并更新对应的衰减因子。

如上所述，基于第i+1帧衰减因子和第i帧输出值，获取混音数据包，包括将叠加音频信号的第i+1帧信号值和第i+1帧衰减因子相乘，得到第i+1帧衰减信号值。若第i+1帧衰减信号值大于音频信号最大值，则使用第i+1帧衰减因子和预设步长的差值作为第i+2帧衰减因子；若第i+1帧衰减信号值小于音频信号最小值，则计算音频信号最小值与第i+1帧衰减信号值的信号比值，从大于信号比值的范围内选取最小整数值，作为第i+2帧衰减因子；检测叠加音频信号的第i+1帧是否为叠加音频信号的最后一帧，若是，则根据第i+1帧衰减信号值计算第i+1帧输出值，将第1帧输出值至第i+1帧输出值组成混音数据包；若叠加音频信号的第i+1帧不为叠加音频信号的最后一帧，则根据叠加音频信号的第i+2帧信号值和第i+2帧衰减因子计算第i+2帧输出值。使用第i+1帧衰减因子和预设步长的差值作为第i+2帧衰减因子，能够防止第i+2帧衰减因子较小，导致后续帧对应的输出值偏小。

在一个实施例中，参照图5，所述将所述混音数据包分发至各个所述远程客户端以对所述混音数据包进行播报，包括：

S65：检测所述混音数据包中是否存在目标远程客户端对应的人声，若存在，则将所述目标远程客户端作为第一目标远程客户端；去除所述第一目标远程客户端对应的人声，得到去回声数据包；将所述去回声数据包分发至所述第一目标远程客户端，并控制所述第一目标远程客户端播报所述去回声数据包。

作为示例，一共有10个远程客户端，第1个至第3个远程客户端均为目标远程客户端，检测到混音数据包中包括第1个至第3个远程客户端的人声，将第1个至第3个远程客户端均作为第一目标远程客户端，去除第1个至第3个远程客户端对应的人声，得到去回声数据包。将去回声数据包分发至第1个至第3个远程客户端，并控制第1个至第3个远程客户端播报去回声数据包。

S66：若所述混音数据包中不存在所述目标远程客户端对应的人声，则将所述目标远程客户端作为第二目标远程客户端；将所述混音数据包分发至所述第二目标远程客户端，并控制所述第二目标远程客户端播报所述混音数据包。

作为示例，第4个至第10个远程客户端均为目标远程客户端，混音数据包中不存在第4个至第10个远程客户端的人声，将第4个至第10个远程客户端作为第二目标远程客户端，将混音数据包分发至第4个至第10个远程客户端，并控制第4个至第10个远程客户端播报混音数据包。

如上所述，先选择目标远程客户端，然后检测混音数据包中是否存在目标远程客户端对应的人声，采取不同的策略分发数据包。向第一目标远程客户端发送去回声数据包，向第二目标远程客户端发送混音数据包，可以在有效防止出现回声的情况下播放其他远程客户端的人声。

参照图6，是本申请公开的一种远程介入手术的混音装置的结构示意框图，远程介入手术的混音装置应用于远程介入手术系统，所述远程介入手术系统包括媒体服务器和与所述媒体服务器连接的多个远程客户端，所述装置位于所述媒体服务器上，所述装置包括：

目标音频信号筛选模块10，用于获取多个远程客户端的音频数据，对所述音频数据进行语音检测，筛选出仅包含人声的多个目标音频信号，其中，所述音频数据为在远程介入手术中进行多人通话时产生的数据；

信号叠加模块20，用于对所有所述目标音频信号进行叠加，得到叠加音频信号；

第i帧衰减信号值计算模块30，用于根据所述叠加音频信号的第i帧信号值与预设衰减因子，得到第i帧衰减信号值；

第i帧衰减因子选取模块40，用于若所述第i帧衰减信号值大于音频信号最大值，则计算所述音频信号最大值和所述第i帧衰减信号值的信号比值，从小于所述信号比值的范围内选取最大整数值，得到第i帧衰减因子；

第i+1帧衰减因子计算模块50，用于根据所述第i帧衰减因子确定第i帧输出值，将所述第i帧衰减因子与预设调节因子的平均值作为第i+1帧衰减因子；

数据包播报模块60，用于基于所述第i+1帧衰减因子和所述第i帧输出值，获取混音数据包；将所述混音数据包分发至各个所述远程客户端以对所述混音数据包进行播报，其中，所述混音数据包中不同人声的音量均衡。

如上所述，远程介入手术的混音装置能够实现远程介入手术的混音方法。

在一个实施例中，所述目标音频信号筛选模块10还包括：

音频信号提取单元，用于通过VAD方法对所述音频数据进行语音检测，得到每一音频数据对应的音频信号；或，提取所述音频数据的语音特征，将所述语音特征输入已训练语音检测模型，得到每一音频数据对应的音频信号；

音量阈值计算单元，用于检测所述音频信号的总数是否大于信号阈值数，若是，则计算出每一音频信号对应的音量阈值；

目标阈值筛选单元，用于从所有所述音量阈值中筛选出N个目标阈值；

目标音频信号筛选单元，用于根据N个所述目标阈值筛选出多个所述目标音频信号。

在一个实施例中，目标阈值筛选单元还包括：

排序子单元，用于采用冒泡排序法对所有所述音量阈值进行升序排序，得到阈值序列；

目标阈值定义子单元，用于将所述阈值序列的最后N个所述音量阈值作为N个所述目标阈值。

在一个实施例中，所述远程介入手术的混音装置还包括：

第i帧衰减因子计算模块，用于若所述第i帧衰减信号值小于音频信号最小值，则计算所述音频信号最小值和所述第i帧衰减信号值的所述信号比值，从大于所述信号比值的范围内选取最小整数值，得到所述第i帧衰减因子；

第i帧输出值设置模块，用于根据所述第i帧衰减因子将所述第i帧输出值设置为所述音频信号最小值。

在一个实施例中，所述数据包播报模块60还包括：

第i+1帧衰减信号值计算单元，用于将所述叠加音频信号的第i+1帧信号值和所述第i+1帧衰减因子相乘，得到第i+1帧衰减信号值；

第i+2帧衰减因子第一计算单元，用于若所述第i+1帧衰减信号值大于所述音频信号最大值，则使用所述第i+1帧衰减因子和预设步长的差值作为第i+2帧衰减因子；

第i+2帧衰减因子第二计算单元，用于若所述第i+1帧衰减信号值小于所述音频信号最小值，则计算所述音频信号最小值与所述第i+1帧衰减信号值的所述信号比值，从大于所述信号比值的范围内选取最小整数值，作为所述第i+2帧衰减因子

混音数据包组成单元，用于检测所述叠加音频信号的第i+1帧是否为所述叠加音频信号的最后一帧，若是，则根据所述第i+1帧衰减信号值计算第i+1帧输出值，将第1帧输出值至所述第i+1帧输出值组成所述混音数据包。

在一个实施例中，所述数据包播报模块60还包括：

回声数据包播报单元，用于检测所述混音数据包中是否存在目标远程客户端对应的人声，若存在，则将所述目标远程客户端作为第一目标远程客户端；去除所述第一目标远程客户端对应的人声，得到去回声数据包；将所述去回声数据包分发至所述第一目标远程客户端，并控制所述第一目标远程客户端播报所述去回声数据包；

混音数据包播报单元，用于若所述混音数据包中不存在所述目标远程客户端对应的人声，则将所述目标远程客户端作为第二目标远程客户端；将所述混音数据包分发至所述第二目标远程客户端，并控制所述第二目标远程客户端播报所述混音数据包。

在一个实施例中，所述第i+1帧衰减因子计算模块50还包括：

第i帧输出值确定单元，将所述音频信号最大值作为所述第i帧输出值。

参照图7，本申请实施例中还提供一种计算机设备，该计算机设备的内部结构可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作装置、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储第i帧衰减因子等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。进一步地，上述计算机设备还可以设置有输入装置和显示屏等。该计算机程序被处理器执行时以实现远程介入手术的混音方法，应用于远程介入手术系统，所述远程介入手术系统包括媒体服务器和与所述媒体服务器连接的多个远程客户端，所述方法包括所述媒体服务器执行的如下步骤：获取多个远程客户端的音频数据，对所述音频数据进行语音检测，筛选出仅包含人声的多个目标音频信号，其中，所述音频数据为在远程介入手术中进行多人通话时产生的数据；对所有所述目标音频信号进行叠加，得到叠加音频信号；根据所述叠加音频信号的第i帧信号值与预设衰减因子，得到第i帧衰减信号值；若所述第i帧衰减信号值大于音频信号最大值，则计算所述音频信号最大值和所述第i帧衰减信号值的信号比值，从小于所述信号比值的范围内选取最大整数值，得到第i帧衰减因子；根据所述第i帧衰减因子确定第i帧输出值，将所述第i帧衰减因子与预设调节因子的平均值作为第i+1帧衰减因子；基于所述第i+1帧衰减因子和所述第i帧输出值，获取混音数据包；将所述混音数据包分发至各个所述远程客户端以对所述混音数据包进行播报，其中，所述混音数据包中不同人声的音量均衡。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现远程介入手术的混音方法，应用于远程介入手术系统，所述远程介入手术系统包括媒体服务器和与所述媒体服务器连接的多个远程客户端，所述方法包括所述媒体服务器执行的如下步骤：获取多个远程客户端的音频数据，对所述音频数据进行语音检测，筛选出仅包含人声的多个目标音频信号，其中，所述音频数据为在远程介入手术中进行多人通话时产生的数据；对所有所述目标音频信号进行叠加，得到叠加音频信号；根据所述叠加音频信号的第i帧信号值与预设衰减因子，得到第i帧衰减信号值；若所述第i帧衰减信号值大于音频信号最大值，则计算所述音频信号最大值和所述第i帧衰减信号值的信号比值，从小于所述信号比值的范围内选取最大整数值，得到第i帧衰减因子；根据所述第i帧衰减因子确定第i帧输出值，将所述第i帧衰减因子与预设调节因子的平均值作为第i+1帧衰减因子；基于所述第i+1帧衰减因子和所述第i帧输出值，获取混音数据包；将所述混音数据包分发至各个所述远程客户端以对所述混音数据包进行播报，其中，所述混音数据包中不同人声的音量均衡。

可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种远程介入手术的混音方法，其特征在于，应用于远程介入手术系统，所述远程介入手术系统包括媒体服务器和与所述媒体服务器连接的多个远程客户端，所述方法包括所述媒体服务器执行的如下步骤：

对所有所述目标音频信号进行叠加，得到叠加音频信号；

2.根据权利要求1所述的远程介入手术的混音方法，其特征在于，所述对所述音频数据进行语音检测，筛选出仅包含人声的多个目标音频信号，包括：

从所有所述音量阈值中筛选出N个目标阈值；

根据N个所述目标阈值筛选出多个所述目标音频信号。

3.根据权利要求2所述的远程介入手术的混音方法，其特征在于，所述从所有所述音量阈值中筛选出N个目标阈值，包括：

4.根据权利要求1所述的远程介入手术的混音方法，其特征在于，所述得到第i帧衰减信号值之后，还包括：

5.根据权利要求4所述的远程介入手术的混音方法，其特征在于，所述基于所述第i+1帧衰减因子和所述第i帧输出值，获取混音数据包，包括：

6.根据权利要求1所述的远程介入手术的混音方法，其特征在于，所述将所述混音数据包分发至各个所述远程客户端以对所述混音数据包进行播报，包括：

7.根据权利要求1所述的远程介入手术的混音方法，其特征在于，所述根据所述第i帧衰减因子确定第i帧输出值，包括：

将所述音频信号最大值作为所述第i帧输出值。

8.一种远程介入手术的混音装置，其特征在于，应用于远程介入手术系统，所述远程介入手术系统包括媒体服务器和与所述媒体服务器连接的多个远程客户端，所述装置位于所述媒体服务器上，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的远程介入手术的混音方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的远程介入手术的混音方法的步骤。