CN116866321B

CN116866321B - 一种无中心多路声音一致性选择方法及系统

Info

Publication number: CN116866321B
Application number: CN202311127010.7A
Authority: CN
Inventors: 张现; 龚盖
Original assignee: Zhongke Rongxin Technology Co ltd
Current assignee: Zhongke Rongxin Technology Co ltd
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2023-12-08
Anticipated expiration: 2043-09-04
Also published as: CN116866321A

Abstract

本发明公开了一种无中心多路声音一致性选择方法及系统，涉及语音通信技术领域，所述方法包括：获取其他服务器发送的经过第一次筛选的声音数据，并将其与本地服务器经过第一次筛选的声音数据合并；根据预设筛选策略对合并后的声音数据进行第二次筛选，确定出目标声音数据；根据预设传输策略将所述目标声音数据发送至目标客户端。本发明在大量声音数据传输时可进行无中心筛选，解决了现有技术无法主动筛选，导致声音数据传输量大、声音质量差，服务器压力大等问题。

Description

一种无中心多路声音一致性选择方法及系统

技术领域

本发明涉及语音通信技术领域，具体涉及一种无中心多路声音一致性选择方法及系统。

背景技术

目前，在多人(N)参加的在线会议中，采用"全量订阅"的方式进行声音数据的传输，任意一个参会人员要听到除自己之外的其他参会人员的声音，还需要听到除自己外的N-1路音频流。

但是，随着会议人数的增加，这种所有声音数据都传输方式会导致服务器压力呈指数级增加，且回产生数量庞大的音频数据链路，进而导致服务器的性能降低，声音延时增加。

发明内容

针对现有技术中的缺陷，本发明提供一种无中心多路声音一致性选择方法及系统。

一方面，提供一种无中心多路声音一致性选择方法，包括：

获取其他服务器发送的经过第一次筛选的声音数据，并将其与本地服务器经过第一次筛选的声音数据合并；

根据预设筛选策略对合并后的声音数据进行第二次筛选，确定出目标声音数据；

根据预设传输策略将所述目标声音数据发送至目标客户端。

优选地，所述第一次筛选包括：

获取客户端上传的声音数据，并根据预设筛选策略对所述声音数据进行第一次筛选。

优选地，根据预设筛选策略对合并后的声音数据进行第二次筛选，确定出目标声音数据，包括：

根据预设筛选策略确定语音质量；

根据所述语音质量对所述声音数据进行第二次筛选，确定出满足预设数量的目标声音数据。

优选地，根据预设筛选策略确定语音质量，包括：

对声音数据进行分帧，提取每个声音帧的声音特征，所述声音特征包括短时能量和过零率；

根据所述声音特征确定语音段，对所述语音段进行语音识别分析；

根据语音识别分析结果确定声音质量。

优选地，对所述语音段进行语音识别分析，包括：

提取所述语音段的音频特征，所述音频特征包括MFCC特征、梅尔能量特征、LPC特征、LPPC特征、小波特征；

将所述音频特征输入对应的语音识别模型，得到字符识别结果；

根据字符识别结果的一致性确定字符识别度；

将字符识别度最高的字符进行组合；

对各个组合进行内容通顺分析，以确定内容可靠度。

优选地，根据语音识别分析结果确定声音质量的公式为：

式中，表示声音质量，表示噪声影响度、字符识别度、内容可靠度。

优选地，根据预设传输策略将所述目标声音数据发送至目标客户端，包括：

根据所述目标声音数据的元数据信息，确定上传所述目标声音数据的客户端；

将所述目标声音数据按照预设发送策略发送到除了上传所述目标声音数据的客户端之外的客户端中。

优选地，将所述目标声音数据按照预设发送策略发送到除了上传所述目标声音数据的客户端之外的客户端中，包括：

获取服务器与客户端之间传输链路的通信质量；

根据声音数据的声音质量以及所述传输链路的通信质量为每个声音数据配置目标传输链路。

优选地，将所述目标声音数据按照预设发送策略发送到除了上传所述目标声音数据的客户端之外的客户端中，还包括：

根据声音质量从配置系数表中确定出与所述声音质量对应的通信质量系数，所述通信质量系数包括时延系数、丢包率系数和带宽系数；

根据所述通信质量系数计算每条传输链路在给定声音质量下的通信质量；

将通信质量大于预设阈值的传输链路作为目标传输链路对声音数据进行分组传输。

另一方面，提供一种无中心多路声音一致性选择系统，包括：

获取模块，用于获取其他服务器发送的经过第一次筛选的声音数据，并将其与本地服务器经过第一次筛选的声音数据合并；

筛选模块，用于根据预设筛选策略对合并后的声音数据进行第二次筛选，确定出目标声音数据；

传输模块，用于根据预设传输策略将所述目标声音数据发送至目标客户端。

本发明的有益效果体现在：本发明实施例提供了一种无中心多路声音一致性选择方法，能够获取其他服务器发送的经过第一次筛选的声音数据，并将其与本地服务器经过第一次筛选的声音数据合并；根据预设筛选策略对合并后的声音数据进行第二次筛选，确定出目标声音数据；根据预设传输策略将所述目标声音数据发送至目标客户端。本实施例的方法在大量声音数据传输时可进行无中心筛选，解决了现有技术无法主动筛选，导致声音数据传输量大、声音质量差，服务器压力大等问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明实施例提供的一种无中心多路声音一致性选择方法的流程图；

图2为本发明实施例提供的一种无中心多路声音一致性选择系统的示意图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

实施例1

图1为本公开实施例一所提供的一种无中心多路声音一致性选择方法流程示意图，本公开实施例适用于多人在线交流的场景，特别适用于多人线上会议的情形。该方法可以由配置于服务器的中心多路声音一致性选择装置来执行，该装置可以通过软件和/或硬件的形式实现，该装置可配置于电子设备中，例如配置于服务器设备中。

如图1所示，一种无中心多路声音一致性选择方法，包括：

步骤1，获取其他服务器发送的经过第一次筛选的声音数据，并将其与本地服务器经过第一次筛选的声音数据合并；

在本发明实施例中，所述第一次筛选包括：获取客户端上传的声音数据，并根据预设筛选策略对所述声音数据进行第一次筛选。

在多人在线交流时，例如，多人网络会议，在一个游戏房间内的多人游戏，每一个人都可以是发言者，通过具有多人在线交流功能的客户端将声音数据发送至其对应的服务器，以便让其他用户客户端接收对应的声音数据。每一个人也都可以是倾听者，通过具有多人在线交流功能的客户端接收其他用户发言的声音数据。

由于一个人可以听清楚的声音是限的，例如，发言的客户有100个，实际上其他客户可以听到的声音数据其实只有4-6个，因此，多人在线交流场景下，需要对声音数据进行筛选，既能降低服务器压力，又能保证声音数据的快速传输。

为了实现上述目的，本实施例通过无中心的方式实现声音数据的传输，在传输前，每个服务器都需要对接收到的本地客户端发送的声音数据进行第一筛选，然后再将第一次筛选后的声音数据发送至与其关联服务器。

步骤2，根据预设筛选策略对合并后的声音数据进行第二次筛选，确定出目标声音数据；

在本发明实施例中，根据预设筛选策略对合并后的声音数据进行第二次筛选，确定出目标声音数据，包括：根据预设筛选策略确定语音质量；根据所述语音质量对所述声音数据进行第二次筛选，确定出满足预设数量的目标声音数据。

服务器能够从经过第一次筛选后的本地声音数据和经过第一次筛选后的其他服务器发送的声音数据再次筛选出预设数量的声音数据，从而解决现有技术存在的问题。其中，预设数量可以是2、3、4、5、6，根据实际情况设置，在本发明实施例中不做限制。

具体的，根据预设筛选策略确定语音质量，包括：对声音数据进行分帧，提取每个声音帧的声音特征，所述声音特征包括短时能量和过零率；根据所述声音特征确定语音段，对所述语音段进行语音识别分析；根据语音识别分析结果确定声音质量。

短时能量是对每个声音帧中的样本进行平方运算，然后将平方结果相加，短时能量反映了声音帧内信号的总能量大小；过零率是指在一个声音帧内，信号穿过零点（即从正向变为负向或从负向变为正向）的频率或数量。

其中，计算短时能量和过零率的方法包括：获取声音数据，对声音数据进行分帧得到分帧后声音帧，帧数为，然后，计算每帧信号的短时能量及过零率，根据预设短时能量和过零率和实际短时能量和过零率从声音数据中确定出语音段，若两者均超过预设值，则确定为语音段，从而减少后续运算量，提供后续语音识别的精度。

式中，N为信号长度，为符号函数。

需要说明的，根据语音识别分析结果确定声音质量的公式为：

其中，噪音影响度可以根据噪音长度和噪音强度进行分析，根据这两个特征可以估计噪音的覆盖率和深度，从而确定噪音影响度。具体的，噪音覆盖率指的是噪音在语音信号中的覆盖范围或占比，通过计算噪音段的长度与语音段总长度的比例来估计噪音的覆盖率；噪音深度指的是噪音对语音信号的影响程度或严重程度，通过计算噪音段在语音信号中的能量或功率与整个语音段的能量或功率之比来估计噪音的深度。噪音影响度是综合考虑噪音覆盖率和噪音深度的指标，用于描述语音信号中噪音的程度，通过将噪音覆盖率和噪音深度进行加权平均来计算，其中不同的加权系数可以根据具体的应用需求进行调整，在本实施例中不做限制。

其中，字符识别度可以根据不同字符识别模型的识别率进行分析。具体的，提取所述语音段的音频特征，所述音频特征包括MFCC特征、梅尔能量特征、LPC特征、LPPC特征、小波特征；将所述音频特征输入对应的语音识别模型，得到字符识别结果；根据字符识别结果的一致性确定字符识别度。

梅尔特征（包括MFCC、梅尔能量）通过将频率转换为梅尔尺度的方式，更好地匹配人耳的听觉感知效果。其中，MFCC对噪声及干扰的变化较敏感，能更好地反映受扰语音数据的声学特征。此外，由于MFCC的计算过程中使用了离散余弦变换进行去相关，其更加适用于各类机器学习算法。LPC和LPCC表征了发音过程中的声道变化特性，且LPC是求解LPCC的理论和计算基础，其基本思想是语音信号样点之间存在较强的相关性，可利用过去若干个样值或它们的线性组合对当前或未来时刻的样值进行预测。小波统计特征[则是在小波变换的基础上，利用小波基函数对受扰语音信号进行分解，并提取分解后每一层近似系数的统计特征而获得。

将不同的音频特征输入对应的预先训练的字符识别模型，可获取与语音段对应的字符，根据字符相似程度确定字符识别度，若多个模型输出的字符均一致，则字符相识别度高，若不一致较多，则字符识别度低。

其中，内容可靠度可以根据不同字符的组合情况进行分析，具体的，将字符识别度最高的字符进行组合；对各个组合进行内容通顺分析，以确定内容可靠度。

在进行组合分析之前，需要构建预先会议词典，即可根据会议领域、关键词等信息构建专用词典，以对内容通顺情况进行分析。例如，在法学院的离婚案例研究会议中，可调取对应的法学会议词典或者离婚案词典等，将其与常规词典结合，一同对内容通顺进行分析，越通顺可靠度越高。其中，可以通过N-gram模型、RNN（循环神经网络）、Transformer模型来进行内容通顺分析，学习语音的概率分布，进而根据概率分布确定内容通顺度，概率越高，内容通顺度越高。

本实施例将声音选择与声音识别同步进行，进一步提高了声音数据的传输效率。

步骤3，根据预设传输策略将所述目标声音数据发送至目标客户端。

在本发明实施例中，根据预设传输策略将所述目标声音数据发送至目标客户端，包括：根据所述目标声音数据的元数据信息，确定上传所述目标声音数据的客户端；将所述目标声音数据按照预设发送策略发送到除了上传所述目标声音数据的客户端之外的客户端中。

具体的，声音数据包括元数据信息和声音数据包。其中，元数据是在实时通信媒体的信息交互中需要使用SDP(Session Description Protocol)数据格式，主要包含会话信息和媒体信息。例如，采集到目声音频数据的客户端链接地址，音频数据的传输时效，传输端口号，编码类型，编码参数等信息。

本地服务器会将目标声音数据的元数据推送到目标客户端，但是由于确定的目标声音数据可能包含本地客户端发送的目标声音数据，因此，在传输目标声音数据时，无需向对应客户端发送目标声音数据。

在本发明实施例中，将所述目标声音数据按照预设发送策略发送到除了上传所述目标声音数据的客户端之外的客户端中，包括：获取服务器与客户端之间传输链路的通信质量；根据声音数据的声音质量以及所述传输链路的通信质量为每个声音数据配置目标传输链路。

在本发明实施例中，将所述目标声音数据按照预设发送策略发送到除了上传所述目标声音数据的客户端之外的客户端中，还包括：根据声音质量从配置系数表中确定出与所述声音质量对应的通信质量系数，所述通信质量系数包括时延系数、丢包率系数和带宽系数；根据所述通信质量系数计算每条传输链路在给定声音质量下的通信质量；将通信质量大于预设阈值的传输链路作为目标传输链路对声音数据进行分组传输。

由于传输链路的传输情况会影响目标声音数据达到客户端的实际声音质量，因此，本实施例针对不同的声音质量为不同的传输链路配置了不同的权重系数，构建了对应的配置系数表，根据该表中的数据以及传输链路的实际情况进行加权平均，可确定出传输链路在给定声音质量下的通信质量，进而可以筛选出较优的传输链路进行声音数据的传输。

综上，本发明实施例提供了一种无中心多路声音一致性选择方法，能够获取其他服务器发送的经过第一次筛选的声音数据，并将其与本地服务器经过第一次筛选的声音数据合并；根据预设筛选策略对合并后的声音数据进行第二次筛选，确定出目标声音数据；根据预设传输策略将所述目标声音数据发送至目标客户端。本实施例的方法在大量声音数据传输时可进行无中心筛选，解决了现有技术无法主动筛选，导致声音数据传输量大、声音质量差，服务器压力大的问题。

实施例2

如图2所示，本发明实施例提供了一种无中心多路声音一致性选择系统，包括：获取模块100，用于获取其他服务器发送的经过第一次筛选的声音数据，并将其与本地服务器经过第一次筛选的声音数据合并；筛选模块200，用于根据预设筛选策略对合并后的声音数据进行第二次筛选，确定出目标声音数据；传输模块300，用于根据预设传输策略将所述目标声音数据发送至目标客户端。

应当理解地，本发明实施例提供的一种无中心多路声音一致性选择系统与上述实施例提供的一种无中心多路声音一致性选择方法出于相同的发明构思，关于本发明实施例中各个模块更加具体的工作原理可参考上述实施例，在本发明实施例中不做赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种无中心多路声音一致性选择方法，其特征在于，包括：

根据预设传输策略将所述目标声音数据发送至目标客户端；

根据预设筛选策略对合并后的声音数据进行第二次筛选，确定出目标声音数据，包括：

根据预设筛选策略确定语音质量；

根据所述语音质量对所述声音数据进行第二次筛选，确定出满足预设数量的目标声音数据；

其中，根据预设筛选策略确定语音质量，包括：

其中，根据语音识别分析结果确定声音质量；对所述语音段进行语音识别分析，包括：

根据字符识别结果的一致性确定字符识别度；

将字符识别度最高的字符进行组合；

对各个组合进行内容通顺分析，以确定内容可靠度。

2.根据权利要求1所述的一种无中心多路声音一致性选择方法，其特征在于，所述第一次筛选包括：

3.根据权利要求1所述的一种无中心多路声音一致性选择方法，其特征在于，根据语音识别分析结果确定声音质量的公式为：

式中，π表示声音质量，α表示噪声影响度、_β表示字符识别度、_χ表示内容可靠度。

4.根据权利要求3所述的一种无中心多路声音一致性选择方法，其特征在于，根据预设传输策略将所述目标声音数据发送至目标客户端，包括：

5.根据权利要求4所述的一种无中心多路声音一致性选择方法，其特征在于，将所述目标声音数据按照预设发送策略发送到除了上传所述目标声音数据的客户端之外的客户端中，包括：

获取服务器与客户端之间传输链路的通信质量；

6.根据权利要求5所述的一种无中心多路声音一致性选择方法，其特征在于，将所述目标声音数据按照预设发送策略发送到除了上传所述目标声音数据的客户端之外的客户端中，还包括：

7.一种无中心多路声音一致性选择系统，适用于权利要求1-6任一项所述的方法，其特征在于，包括：