CN115643242B

CN115643242B - 一种多路音频数据处理方法和系统

Info

Publication number: CN115643242B
Application number: CN202211253489.4A
Authority: CN
Inventors: 王安良; 温嘉奇; 谢辰同; 肖昊; 刘海亮; 丁弘华
Original assignee: Beijing Huajian Yunding Technology Co ltd
Current assignee: Beijing Huajian Yunding Technology Co ltd
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2023-07-07
Anticipated expiration: 2042-10-13
Also published as: CN115643242A

Abstract

本发明提供了一种多路音频数据处理方法，包括：处于同一会议场景中的任一媒体服务器获取第一音频流；媒体服务器将第一音频流拼接得到的拼接音频流发送给处于同一会议场景k中的其它媒体服务器；媒体服务器获取第二音频流；媒体服务器将第二拼接音频流发送给会议场景中的任一终端设备；该终端设备基于自身的会议状态标识和第二拼接音频流中的每个数据对应的终端设备的会议状态标识，选择需要混音的数据进行混音并播放。本发明还提供了一种多路音频数据处理系统。本发明能够减少媒体服务器的负载，能够减少音频和提高音频通信效果。

Description

一种多路音频数据处理方法和系统

技术领域

本发明涉及网络技术领域，特别是涉及一种多路音频数据处理方法和系统。

背景技术

随着移动通信技术和互联网技术的发展，基于多媒体服务器多终端开展的音频通信的应用越来越广泛。

在音频通信过程中，参与会议的媒体服务器会将所属的终端的音频流进行混音，生成混音数据并发送给会议中的其它媒体服务器，同时会接收其它媒体服务器发送的混音数据，并将接收到的混音数据与自身的混音数据进行混音处理后发送给每个所属的终端，以使得每个终端的用户能够听见会议中其它终端的用户的声音。然而，在媒体服务器存在多个终端并且终端不是处于同一会议场景中而是处于不同会议场景中时即多路音频组会场景时，每个媒体服务器就需要进行多次的混音处理操作，这会导致媒体服务器的负载过大，进而会增加音频延迟，降低音频通信效果。

发明内容

针对上述技术问题，本发明采用的技术方案为：

本发明一实施例提供一种多路音频数据处理方法，用于对多媒体服务器级联模式下的多路音频组会议场景中的任一会议场景k中的音频数据进行处理，k的取值为1到C，C为会议场景的数量，所述方法包括以下步骤：

S100，处于同一会议场景k中的任一媒体服务器i获取第一音频流D1_i ^k＝(D1^k _i1，D1^k _i2，…，D1^k _ih，…，D1^k _it(i))，D1^k _ih为与媒体服务器i连接的终端设备中参与会议场景k的第h个终端设备T^k _ih的音频数据，h的取值为1到t(i)，t(i)为与媒体服务器i连接的终端设备中参与会议场景k的终端设备的数量，i的取值为1到n，n为会议场景k中的媒体服务器的数量；其中，D1^k _ih中包括对应的终端设备的会议状态标识，所述会议状态标识基于终端设备的用户权限和终端设备的声音输入设备和声音输出设备的状态确定；

S120，媒体服务器i将第一拼接音频流SD1^k _i＝D1^k _i1+D1^k _i2+…+D1^k _ih+…+D1^k _it(i)发送给处于同一会议场景k中的其它媒体服务器；+表示拼接；

S140，媒体服务器i获取第二音频流D2_i ^k＝(D2^k _i1，D2^k _i2，…，D2^p _ih，…，D2^k _im)，D2^p _ih为处于会议场景k中与媒体服务器i连接的第p个媒体服务器拼接的音频数据，p的取值为1到m，m为处于会议场景k中的媒体服务器数量；其中，D2^p _ih中包括对应的终端设备的会议状态标识；

S160，媒体服务器i将混合音频流SD2^k _ih发送给T^k _ih；SD2^k _ih包括SD1^k _i和D2_i ^k。

S180，基于T^k _ih的会议状态标识和SD2^k _ih中的每个数据对应的终端设备的会议状态标识，从接收到的SD2^k _ih中选择需要混音的数据进行混音并播放。

本发明另一实施例提供一种多路音频数据处理系统，包括：通信连接的多个媒体服务器，任一媒体服务器与多个终端设备连接；其中，在所述系统执行多路音频组会议场景时，处于同一会议场景k中的任一媒体服务器i用于执行计算机程序以实现如下步骤：

S200，媒体服务器i获取第一音频流D1_i ^k＝(D1^k _i1，D1^k _i2，…，D1^k _ih，…，D1^k _it(i))，D1^k _ih为与媒体服务器i连接的终端设备中参与会议场景k的第h个终端设备T^k _ih的音频数据，h的取值为1到t(i)，t(i)为与媒体服务器i连接的终端设备中参与会议场景k的终端设备的数量，i的取值为1到n，n为会议场景k中的媒体服务器的数量；其中，D1^k _ih中包括对应的终端设备的会议状态标识，所述会议状态标识基于终端设备的用户权限和终端设备的声音输入设备和声音输出设备的状态确定；

S220，媒体服务器i将第一拼接音频流SD1^k _i＝D1^k _i1+D1^k _i2+…+D1^k _ih+…+D1^k _it(i)发送给处于同一会议场景k中的其它媒体服务器；+表示拼接；

S240，媒体服务器i获取第二音频流D2_i ^k＝(D2^k _i1，D2^k _i2，…，D2^p _ih，…，D2^k _im)，D2^p _ih为处于会议场景k中与媒体服务器i连接的第p个媒体服务器拼接的音频数据，p的取值为1到m，m为处于会议场景k中的媒体服务器数量；其中，D2^p _ih中包括对应的终端设备的会议状态标识；

S260，媒体服务器i将混合音频流SD2^k _ih发送给T^k _ih；SD2^k _ih包括SD1^k _i和D2_i ^k。

其中，基于T^k _ih的会议状态标识和SD2^k _ih中的每个数据对应的终端设备的会议状态标识，从接收到的SD2^k _ih中选择需要混音的数据进行混音并播放。

本发明至少具有以下有益效果：

本发明实施例提供的多路音频数据处理方法和系统，对于每个会议场景，由于该会议场景中的媒体服务器只是对接收到的音频流进行简单的拼接和转发操作，而不做较为复杂的混音处理，因此，能够减少媒体服务器的负载，能够减少音频和提高音频通信效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的多路音频数据处理方法的流程图。

图2为本发明实施例提供的多路音频数据处理系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的多路音频数据处理方法的流程图。

本发明实施例提供一种多路音频数据处理方法，用于对多媒体服务器级联模式下的多路音频组会议场景中的任一会议场景k中的音频数据进行处理，k的取值为1到C，C为会议场景的数量。多媒体服务器级联模式可如图2所示。如图2所示，多媒体服务器级联模式可包括多个媒体服务器，每个媒体服务器可与多个终端设备连接。终端设备可包括音频设备和音视频设备。媒体服务器还可与服务器端(未图示)连接。媒体服务器可基于服务器端发送的控制指令发起对应的会议场景，也可基于设定的规则自动发起对应的会议场景。

如图1所示，本发明实施例提供的多路音频数据处理方法可包括以下步骤：

S100，处于同一会议场景k中的任一媒体服务器i获取第一音频流D1_i ^k＝(D1^k _i1，D1^k _i2，…，D1^k _ih，…，D1^k _it(i))，D1^k _ih为与媒体服务器i连接的终端设备中参与会议场景k的第h个终端设备T^k _ih的音频数据，h的取值为1到t(i)，t(i)为与媒体服务器i连接的终端设备中参与会议场景k的终端设备的数量，i的取值为1到n，n为会议场景k中的媒体服务器的数量；其中，D1^k _ih中包括对应的终端设备的会议状态标识，所述会议状态标识基于终端设备的用户权限和终端设备的声音输入设备和声音输出设备的状态确定。

服务器可基于现有方式获取每个终端设备的音频流。在获取到音频流后，基于对应的终端设备的ID、状态标识对音频流进行标记处理。这样，每个音频数据会包含对应终端设备的ID以及会议状态标识。

在本发明实施例中，用户权限可包括越级、会议和通播等。当某个终端设备的用户权限为越级或者会议时，则对应的用户能听见会议场景中的其它用户的声音，也能向其它用户说话，即该终端设备的声音输入设备和声音输出设备均处于开启状态即非静音状态。当某个终端设备的用户权限为通播时，则对应的用户只能听见用户权限为越级的用户的声音，其它用户的声音无法听见，也能够向越级用户说话，即通播用户的终端设备的声音输入设备和声音输出设备只针对越级用户为开启状态。声音输入设备和声音输出设备可为现有的音频产品，例如，声音输入设备可为麦克风，声音输出设备可为喇叭或者扬声器等。

进一步地，在本发明实施例中，所述会议状态标识包括第一状态标识、第二状态标识、第三状态标识和第四状态标识。

其中，如果某个终端设备的状态标识为第一状态标识，则表示该终端设备的声音输出设备处于静音状态，但声音输入设备处于非静音状态，即自己的声音别人可以听见但不能听见别人的声音。第一状态标识可基于自定义的字符表示，例如，在一个示意性实施例中，可用字符0101表示。在另一个示意性实施例中，可用字符1表示等。

如果某个终端设备的状态标识为第二状态标识，则表示该终端设备的声音输出设备处于非静音状态，但声音输入设备处于静音状态，即能听见别人的声音，但自己的声音别人听不见。第二状态标识可基于自定义的字符表示，例如，在一个示意性实施例中，可用字符0102表示。在另一个示意性实施例中，可用字符2表示等。

如果某个终端设备的状态标识为第三状态标识，则表示该终端设备的声音输出设备处于静音状态，并且声音输入设备处于静音状态，即既不能听见别人的声音，别人也听不见自己的声音。第三状态标识可基于自定义的字符表示，例如，在一个示意性实施例中，可用字符0103表示。在另一个示意性实施例中，可用字符3表示等。

如果某个终端设备的状态标识为第四状态标识，则表示该终端设备的声音输出设备处于静音状态，但声音输入设备只对于用户权限为设定权限的终端设备处于非静音状态，即别人听不见自己的声音，但是用户权限为设定权限的用户可以听见自己的声音。在一个示意性实施例中，设定权限是指越级。第四状态标识可基于自定义的字符表示，例如，在一个示意性实施例中，可用字符0104表示。在另一个示意性实施例中，可用字符4表示等。

如果某个终端设备的状态标识为第五状态标识，则表示该终端设备的声音输出设备只对于用户权限为设定权限的终端设备处于非静音状态，但声音输入设备处于静音状态，即能够听见用户权限为设定权限的用户的声音，但是别听不见自己的声音。

在本发明实施例中，如果T^k _ih的会议状态标识表示声音输入设备处于静音状态，则媒体服务器i获取到的对应音频流为0。

S120，媒体服务器i将第一拼接音频流SD1^k _i＝D1^k _i1+D1^k _i2+…+D1^k _ih+…+D1^k _it(i)发送给处于同一会议场景k中的其它媒体服务器；+表示拼接。

在本发明实施例中，媒体服务器会将拼接后的音频流发送到设定的音频流通道中，例如，RSTP通道中，其它服务器通过该通道获取即可。

本领域技术人员知晓，对音频流进行拼接可为现有技术。媒体服务器向其它媒体服务器发送的拼接音频流是添加了协议信息后的音频流。协议信息为媒体服务器能够解析的协议。

S140，媒体服务器i获取第二音频流D2_i ^k＝(D2^k _i1，D2^k _i2，…，D2^p _ih，…，D2^k _im)，D2^p _ih为处于会议场景k中与媒体服务器i连接的第p个媒体服务器拼接的音频数据，p的取值为1到m，m为处于会议场景k中的媒体服务器数量；其中，D2^p _ih中包括对应的终端设备的会议状态标识。

与媒体服务器i连接的第p个媒体服务器拼接音频数据的方式与媒体服务器i拼接音频数据的方式相同。

S160，媒体服务器i将混合音频流SD2^k _ih发送给T^k _ih；SD2^k _ih包括SD1^k _i和D2_i ^k；即媒体服务器i将同一会议场景中的所有音频流都发送给所属的每个终端设备。

在本发明实施例中，媒体服务器会将第一拼接音频流和获取的所属的每个终端设备的音频流发送到设定的音频流通道中，例如，RSTP通道中，所属的终端设备通过该通道获取即可。

在该步骤中，T^k _ih会对接收到的SD2^k _ih进行解压处理，得到会议场景中的所有音频数据。

S180进一步包括：

S181，如果T^k _ih的会议状态标识为第二状态标识或者第五状态标识，即能够听见会议场景中的别的用户声音，执行S182；否则，即不能听见别的用户的声音，执行S184。

S182，如果T^k _ih的会议状态标识为第二状态标识即能够听见会议场景中所有用户的声音，T^k _ih从SD2^k _ih中获取为第一状态标识和第四状态标识的数据进行混音并进行播放。

S183，如果T^k _ih的会议状态标识为第五状态标识即只能听见会议场景中越级用户的声音，T^k _ih从SD2^k _ih中获取为第一状态标识的数据进行混音并进行播放。

S184，将SD2^k _ih中数据设置为0，即T^k _ih的声音输出设备将不能输出声音。可通过T^k _ih将SD2^k _ih中数据设置为0，也可通过T^k _ih对应的媒体服务器将SD2^k _ih中数据设置为0。

图2为本发明实施例提供的多路音频数据处理系统的结构框图。如图2所示，本发明另一实施例提供一种多路音频数据处理系统，包括：通信连接的多个媒体服务器，任一媒体服务器与多个终端设备连接；其中，在所述系统执行至少一个会议场景时，处于同一会议场景k中的任一媒体服务器i用于执行计算机程序以实现如下步骤：

S200，媒体服务器i获取第一音频流D1_i ^k＝(D1^k _i1，D1^k _i2，…，D1^k _ih，…，D1^k _it(i))，D1^k _ih为与媒体服务器i连接的终端设备中参与会议场景k的第h个终端设备T^k _ih的音频数据，h的取值为1到t(i)，t(i)为与媒体服务器i连接的终端设备中参与会议场景k的终端设备的数量，i的取值为1到n，n为会议场景k中的媒体服务器的数量；其中，D1^k _ih中包括对应的终端设备的会议状态标识，所述会议状态标识基于终端设备的用户权限和终端设备的声音输入设备和声音输出设备的状态确定。

在本发明实施例中，用户权限可包括越级、会议和通播等。当某个终端设备的用户权限为越级时，则对应的用户能听见会议场景中的其它用户的声音，也能向其它用户说话，即该终端设备的声音输入设备和声音输出设备均处于开启状态即非静音状态。当某个终端设备的用户权限为通播时，则对应的用户只能听见用户权限为越级的用户的声音，其它用户的声音无法听见，也能够向越级用户说话，即通播用户的终端设备的声音输入设备和声音输出设备只针对越级用户为开启状态。声音输入设备和声音输出设备可为现有的音频产品，例如，声音输入设备可为麦克风，声音输出设备可为喇叭或者扬声器等。

S220，媒体服务器i将第一拼接音频流SD1^k _i＝D1^k _i1+D1^k _i2+…+D1^k _ih+…+D1^k _it(i)发送给处于同一会议场景k中的其它媒体服务器；+表示拼接。

本领域技术人员知晓，对音频流进行拼接可为现有技术。媒体服务器向其它媒体服务器发送的拼接音频流是添加了协议信息后的音频流。

S240，媒体服务器i获取第二音频流D2_i ^k＝(D2^k _i1，D2^k _i2，…，D2^p _ih，…，D2^k _im)，D2^p _ih为处于会议场景k中与媒体服务器i连接的第p个媒体服务器拼接的音频数据，p的取值为1到m，m为处于会议场景k中的媒体服务器数量；其中，D2^p _ih中包括对应的终端设备的会议状态标识。

S260，媒体服务器i将混合音频流SD2^k _ih发送给T^k _ih；SD2^k _ih包括SD1^k _i和D2_i ^k；即媒体服务器i将同一会议场景中的所有音频流都发送给所属的每个终端设备。

在本发明实施例中，基于T^k _ih的会议状态标识和SD2^k _ih中的每个数据对应的终端设备的会议状态标识，从接收到的SD2^k _ih中选择需要混音的数据进行混音并播放。

在该步骤中，T^k _ih会对接收到的SD2^k _ih进行解压处理，得到会议场景中的所有音频数据。具体地，基于T^k _ih的会议状态标识和SD2^k _ih中的每个数据对应的终端设备的会议状态标识，从接收到的SD2^k _ih中选择需要混音的数据进行混音并播放可包括：

S302，如果T^k _ih的会议状态标识为第二状态标识或者第五状态标识，即能够听见会议场景中的别的用户声音，执行S304；否则，即不能听见别的用户的声音，执行S308。

S304，如果T^k _ih的会议状态标识为第二状态标识即能够听见会议场景中所有用户的声音，从SD2^k _ih中获取为第一状态标识和第四状态标识的数据进行混音并进行播放。

S306，如果T^k _ih的会议状态标识为第五状态标识即只能听见会议场景中越级用户的声音，从SD2^k _ih中获取为第一状态标识的数据进行混音并进行播放。

S308，将SD2^k _ih中数据设置为0，即T^k _ih的声音输出设备将不能输出声音。可通过T^k _ih将SD2^k _ih中数据设置为0，也可通过T^k _ih对应的媒体服务器将SD2^k _ih中数据设置为0。

综上，本发明实施例提供的多路音频数据处理方法和系统，对于每个会议场景，由于该会议场景中的媒体服务器只是对接收到的音频流进行简单的拼接和转发操作，而不做较为复杂的混音处理。混音处理操作分担到每个终端设备处，因此，能够减少媒体服务器的负载，能够减少音频和提高音频通信效果。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种多路音频数据处理方法，其特征在于，用于对多媒体服务器级联模式下的多路音频组会议场景中的任一会议场景k中的音频数据进行处理，k的取值为1到C，C为会议场景的数量，所述方法包括以下步骤：

S140，媒体服务器i获取第二音频流D2_i ^k＝(D2^k _i1，D2^k _i2，…，D2^k _ip，…，D2^k _im)，D2^k _ip为处于会议场景k中与媒体服务器i连接的第p个媒体服务器拼接的音频数据，p的取值为1到m，m为处于会议场景k中与媒体服务器i连接的媒体服务器数量；其中，D2^k _ip中包括对应的终端设备的会议状态标识；

S160，媒体服务器i将混合音频流SD2^k _ih发送给T^k _ih；SD2^k _ih包括SD1^k _i和D2_i ^k；

2.根据权利要求1所述的方法，其特征在于，所述会议状态标识包括第一状态标识、第二状态标识、第三状态标识和第四状态标识；

如果某个终端设备的状态标识为第一状态标识，则表示该终端设备的声音输出设备处于静音状态，但声音输入设备处于非静音状态；

如果某个终端设备的状态标识为第二状态标识，则表示该终端设备的声音输出设备处于非静音状态，但声音输入设备处于静音状态；

如果某个终端设备的状态标识为第三状态标识，则表示该终端设备的声音输出设备处于静音状态，并且声音输入设备处于静音状态；

如果某个终端设备的状态标识为第四状态标识，则表示该终端设备的声音输出设备处于静音状态，但声音输入设备只对于用户权限为设定权限的终端设备处于非静音状态；

如果某个终端设备的状态标识为第五状态标识，则表示该终端设备的声音输出设备只对于用户权限为设定权限的终端设备处于非静音状态，但声音输入设备处于静音状态。

3.根据权利要求2所述的方法，其特征在于，S180进一步包括：

S181，如果T^k _ih的会议状态标识为第二状态标识或者第五状态标识，执行S182；否则，执行S184；

S182，如果T^k _ih的会议状态标识为第二状态标识，从SD2^k _ih中获取为第一状态标识和第四状态标识的数据进行混音并进行播放；

S183，如果T^k _ih的会议状态标识为第五状态标识，从SD2^k _ih中获取为第一状态标识的数据进行混音并进行播放；

S184，将SD2^k _ih中的数据设置为0。

4.根据权利要求1所述的方法，其特征在于，在S160中，SD2^k _ih为加入协议信息后的数据。

5.根据权利要求1所述的方法，其特征在于，在S180中，SD2^k _ih为经过解压处理后的数据。

6.一种多路音频数据处理系统，其特征在于，包括：通信连接的多个媒体服务器，任一媒体服务器与多个终端设备连接；其中，在所述系统执行多路音频组会议场景时，处于同一会议场景k中的任一媒体服务器i用于执行计算机程序以实现如下步骤：

S240，媒体服务器i获取第二音频流D2_i ^k＝(D2^k _i1，D2^k _i2，…，D2^k _ip，…，D2^k _im)，D2^k _ip为处于会议场景k中与媒体服务器i连接的第p个媒体服务器拼接的音频数据，p的取值为1到m，m为处于会议场景k中与媒体服务器i连接的媒体服务器数量；其中，D2^k _ip中包括对应的终端设备的会议状态标识；

S260，媒体服务器i将混合音频流SD2^k _ih发送给T^k _ih；SD2^k _ih包括SD1^k _i和D2_i ^k；

7.根据权利要求6所述的系统，其特征在于，所述会议状态标识包括第一状态标识、第二状态标识、第三状态标识和第四状态标识；

8.根据权利要求7所述的系统，其特征在于，T^k _ih基于自身的会议状态标识和SD2^k _ih中的每个数据对应的终端设备的会议状态标识，从接收到的SD2^k _ih中选择需要混音的数据进行混音并播放，具体包括：

S302，如果T^k _ih的会议状态标识为第二状态标识或者第五状态标识，执行S304；否则，执行S308；

S304，如果T^k _ih的会议状态标识为第二状态标识，从SD2^k _ih中获取为第一状态标识和第四状态标识的数据进行混音并进行播放；

S306，如果T^k _ih的会议状态标识为第五状态标识，从SD2^k _ih中获取为第一状态标识的数据进行混音并进行播放；

S308，将SD2^k _ih中数据设置为0。