CN115643242B - 一种多路音频数据处理方法和系统 - Google Patents

一种多路音频数据处理方法和系统 Download PDF

Info

Publication number
CN115643242B
CN115643242B CN202211253489.4A CN202211253489A CN115643242B CN 115643242 B CN115643242 B CN 115643242B CN 202211253489 A CN202211253489 A CN 202211253489A CN 115643242 B CN115643242 B CN 115643242B
Authority
CN
China
Prior art keywords
state
conference
identifier
media server
terminal device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211253489.4A
Other languages
English (en)
Other versions
CN115643242A (zh
Inventor
王安良
温嘉奇
谢辰同
肖昊
刘海亮
丁弘华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huajian Yunding Technology Co ltd
Original Assignee
Beijing Huajian Yunding Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huajian Yunding Technology Co ltd filed Critical Beijing Huajian Yunding Technology Co ltd
Priority to CN202211253489.4A priority Critical patent/CN115643242B/zh
Publication of CN115643242A publication Critical patent/CN115643242A/zh
Application granted granted Critical
Publication of CN115643242B publication Critical patent/CN115643242B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种多路音频数据处理方法,包括:处于同一会议场景中的任一媒体服务器获取第一音频流;媒体服务器将第一音频流拼接得到的拼接音频流发送给处于同一会议场景k中的其它媒体服务器;媒体服务器获取第二音频流;媒体服务器将第二拼接音频流发送给会议场景中的任一终端设备;该终端设备基于自身的会议状态标识和第二拼接音频流中的每个数据对应的终端设备的会议状态标识,选择需要混音的数据进行混音并播放。本发明还提供了一种多路音频数据处理系统。本发明能够减少媒体服务器的负载,能够减少音频和提高音频通信效果。

Description

一种多路音频数据处理方法和系统
技术领域
本发明涉及网络技术领域,特别是涉及一种多路音频数据处理方法和系统。
背景技术
随着移动通信技术和互联网技术的发展,基于多媒体服务器多终端开展的音频通信的应用越来越广泛。
在音频通信过程中,参与会议的媒体服务器会将所属的终端的音频流进行混音,生成混音数据并发送给会议中的其它媒体服务器,同时会接收其它媒体服务器发送的混音数据,并将接收到的混音数据与自身的混音数据进行混音处理后发送给每个所属的终端,以使得每个终端的用户能够听见会议中其它终端的用户的声音。然而,在媒体服务器存在多个终端并且终端不是处于同一会议场景中而是处于不同会议场景中时即多路音频组会场景时,每个媒体服务器就需要进行多次的混音处理操作,这会导致媒体服务器的负载过大,进而会增加音频延迟,降低音频通信效果。
发明内容
针对上述技术问题,本发明采用的技术方案为:
本发明一实施例提供一种多路音频数据处理方法,用于对多媒体服务器级联模式下的多路音频组会议场景中的任一会议场景k中的音频数据进行处理,k的取值为1到C,C为会议场景的数量,所述方法包括以下步骤:
S100,处于同一会议场景k中的任一媒体服务器i获取第一音频流D1i k=(D1k i1,D1k i2,…,D1k ih,…,D1k it(i)),D1k ih为与媒体服务器i连接的终端设备中参与会议场景k的第h个终端设备Tk ih的音频数据,h的取值为1到t(i),t(i)为与媒体服务器i连接的终端设备中参与会议场景k的终端设备的数量,i的取值为1到n,n为会议场景k中的媒体服务器的数量;其中,D1k ih中包括对应的终端设备的会议状态标识,所述会议状态标识基于终端设备的用户权限和终端设备的声音输入设备和声音输出设备的状态确定;
S120,媒体服务器i将第一拼接音频流SD1k i=D1k i1+D1k i2+…+D1k ih+…+D1k it(i)发送给处于同一会议场景k中的其它媒体服务器;+表示拼接;
S140,媒体服务器i获取第二音频流D2i k=(D2k i1,D2k i2,…,D2p ih,…,D2k im),D2p ih为处于会议场景k中与媒体服务器i连接的第p个媒体服务器拼接的音频数据,p的取值为1到m,m为处于会议场景k中的媒体服务器数量;其中,D2p ih中包括对应的终端设备的会议状态标识;
S160,媒体服务器i将混合音频流SD2k ih发送给Tk ih;SD2k ih包括SD1k i和D2i k
S180,基于Tk ih的会议状态标识和SD2k ih中的每个数据对应的终端设备的会议状态标识,从接收到的SD2k ih中选择需要混音的数据进行混音并播放。
本发明另一实施例提供一种多路音频数据处理系统,包括:通信连接的多个媒体服务器,任一媒体服务器与多个终端设备连接;其中,在所述系统执行多路音频组会议场景时,处于同一会议场景k中的任一媒体服务器i用于执行计算机程序以实现如下步骤:
S200,媒体服务器i获取第一音频流D1i k=(D1k i1,D1k i2,…,D1k ih,…,D1k it(i)),D1k ih为与媒体服务器i连接的终端设备中参与会议场景k的第h个终端设备Tk ih的音频数据,h的取值为1到t(i),t(i)为与媒体服务器i连接的终端设备中参与会议场景k的终端设备的数量,i的取值为1到n,n为会议场景k中的媒体服务器的数量;其中,D1k ih中包括对应的终端设备的会议状态标识,所述会议状态标识基于终端设备的用户权限和终端设备的声音输入设备和声音输出设备的状态确定;
S220,媒体服务器i将第一拼接音频流SD1k i=D1k i1+D1k i2+…+D1k ih+…+D1k it(i)发送给处于同一会议场景k中的其它媒体服务器;+表示拼接;
S240,媒体服务器i获取第二音频流D2i k=(D2k i1,D2k i2,…,D2p ih,…,D2k im),D2p ih为处于会议场景k中与媒体服务器i连接的第p个媒体服务器拼接的音频数据,p的取值为1到m,m为处于会议场景k中的媒体服务器数量;其中,D2p ih中包括对应的终端设备的会议状态标识;
S260,媒体服务器i将混合音频流SD2k ih发送给Tk ih;SD2k ih包括SD1k i和D2i k
其中,基于Tk ih的会议状态标识和SD2k ih中的每个数据对应的终端设备的会议状态标识,从接收到的SD2k ih中选择需要混音的数据进行混音并播放。
本发明至少具有以下有益效果:
本发明实施例提供的多路音频数据处理方法和系统,对于每个会议场景,由于该会议场景中的媒体服务器只是对接收到的音频流进行简单的拼接和转发操作,而不做较为复杂的混音处理,因此,能够减少媒体服务器的负载,能够减少音频和提高音频通信效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的多路音频数据处理方法的流程图。
图2为本发明实施例提供的多路音频数据处理系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的多路音频数据处理方法的流程图。
本发明实施例提供一种多路音频数据处理方法,用于对多媒体服务器级联模式下的多路音频组会议场景中的任一会议场景k中的音频数据进行处理,k的取值为1到C,C为会议场景的数量。多媒体服务器级联模式可如图2所示。如图2所示,多媒体服务器级联模式可包括多个媒体服务器,每个媒体服务器可与多个终端设备连接。终端设备可包括音频设备和音视频设备。媒体服务器还可与服务器端(未图示)连接。媒体服务器可基于服务器端发送的控制指令发起对应的会议场景,也可基于设定的规则自动发起对应的会议场景。
如图1所示,本发明实施例提供的多路音频数据处理方法可包括以下步骤:
S100,处于同一会议场景k中的任一媒体服务器i获取第一音频流D1i k=(D1k i1,D1k i2,…,D1k ih,…,D1k it(i)),D1k ih为与媒体服务器i连接的终端设备中参与会议场景k的第h个终端设备Tk ih的音频数据,h的取值为1到t(i),t(i)为与媒体服务器i连接的终端设备中参与会议场景k的终端设备的数量,i的取值为1到n,n为会议场景k中的媒体服务器的数量;其中,D1k ih中包括对应的终端设备的会议状态标识,所述会议状态标识基于终端设备的用户权限和终端设备的声音输入设备和声音输出设备的状态确定。
服务器可基于现有方式获取每个终端设备的音频流。在获取到音频流后,基于对应的终端设备的ID、状态标识对音频流进行标记处理。这样,每个音频数据会包含对应终端设备的ID以及会议状态标识。
在本发明实施例中,用户权限可包括越级、会议和通播等。当某个终端设备的用户权限为越级或者会议时,则对应的用户能听见会议场景中的其它用户的声音,也能向其它用户说话,即该终端设备的声音输入设备和声音输出设备均处于开启状态即非静音状态。当某个终端设备的用户权限为通播时,则对应的用户只能听见用户权限为越级的用户的声音,其它用户的声音无法听见,也能够向越级用户说话,即通播用户的终端设备的声音输入设备和声音输出设备只针对越级用户为开启状态。声音输入设备和声音输出设备可为现有的音频产品,例如,声音输入设备可为麦克风,声音输出设备可为喇叭或者扬声器等。
进一步地,在本发明实施例中,所述会议状态标识包括第一状态标识、第二状态标识、第三状态标识和第四状态标识。
其中,如果某个终端设备的状态标识为第一状态标识,则表示该终端设备的声音输出设备处于静音状态,但声音输入设备处于非静音状态,即自己的声音别人可以听见但不能听见别人的声音。第一状态标识可基于自定义的字符表示,例如,在一个示意性实施例中,可用字符0101表示。在另一个示意性实施例中,可用字符1表示等。
如果某个终端设备的状态标识为第二状态标识,则表示该终端设备的声音输出设备处于非静音状态,但声音输入设备处于静音状态,即能听见别人的声音,但自己的声音别人听不见。第二状态标识可基于自定义的字符表示,例如,在一个示意性实施例中,可用字符0102表示。在另一个示意性实施例中,可用字符2表示等。
如果某个终端设备的状态标识为第三状态标识,则表示该终端设备的声音输出设备处于静音状态,并且声音输入设备处于静音状态,即既不能听见别人的声音,别人也听不见自己的声音。第三状态标识可基于自定义的字符表示,例如,在一个示意性实施例中,可用字符0103表示。在另一个示意性实施例中,可用字符3表示等。
如果某个终端设备的状态标识为第四状态标识,则表示该终端设备的声音输出设备处于静音状态,但声音输入设备只对于用户权限为设定权限的终端设备处于非静音状态,即别人听不见自己的声音,但是用户权限为设定权限的用户可以听见自己的声音。在一个示意性实施例中,设定权限是指越级。第四状态标识可基于自定义的字符表示,例如,在一个示意性实施例中,可用字符0104表示。在另一个示意性实施例中,可用字符4表示等。
如果某个终端设备的状态标识为第五状态标识,则表示该终端设备的声音输出设备只对于用户权限为设定权限的终端设备处于非静音状态,但声音输入设备处于静音状态,即能够听见用户权限为设定权限的用户的声音,但是别听不见自己的声音。
在本发明实施例中,如果Tk ih的会议状态标识表示声音输入设备处于静音状态,则媒体服务器i获取到的对应音频流为0。
S120,媒体服务器i将第一拼接音频流SD1k i=D1k i1+D1k i2+…+D1k ih+…+D1k it(i)发送给处于同一会议场景k中的其它媒体服务器;+表示拼接。
在本发明实施例中,媒体服务器会将拼接后的音频流发送到设定的音频流通道中,例如,RSTP通道中,其它服务器通过该通道获取即可。
本领域技术人员知晓,对音频流进行拼接可为现有技术。媒体服务器向其它媒体服务器发送的拼接音频流是添加了协议信息后的音频流。协议信息为媒体服务器能够解析的协议。
S140,媒体服务器i获取第二音频流D2i k=(D2k i1,D2k i2,…,D2p ih,…,D2k im),D2p ih为处于会议场景k中与媒体服务器i连接的第p个媒体服务器拼接的音频数据,p的取值为1到m,m为处于会议场景k中的媒体服务器数量;其中,D2p ih中包括对应的终端设备的会议状态标识。
与媒体服务器i连接的第p个媒体服务器拼接音频数据的方式与媒体服务器i拼接音频数据的方式相同。
S160,媒体服务器i将混合音频流SD2k ih发送给Tk ih;SD2k ih包括SD1k i和D2i k;即媒体服务器i将同一会议场景中的所有音频流都发送给所属的每个终端设备。
在本发明实施例中,媒体服务器会将第一拼接音频流和获取的所属的每个终端设备的音频流发送到设定的音频流通道中,例如,RSTP通道中,所属的终端设备通过该通道获取即可。
S180,基于Tk ih的会议状态标识和SD2k ih中的每个数据对应的终端设备的会议状态标识,从接收到的SD2k ih中选择需要混音的数据进行混音并播放。
在该步骤中,Tk ih会对接收到的SD2k ih进行解压处理,得到会议场景中的所有音频数据。
S180进一步包括:
S181,如果Tk ih的会议状态标识为第二状态标识或者第五状态标识,即能够听见会议场景中的别的用户声音,执行S182;否则,即不能听见别的用户的声音,执行S184。
S182,如果Tk ih的会议状态标识为第二状态标识即能够听见会议场景中所有用户的声音,Tk ih从SD2k ih中获取为第一状态标识和第四状态标识的数据进行混音并进行播放。
S183,如果Tk ih的会议状态标识为第五状态标识即只能听见会议场景中越级用户的声音,Tk ih从SD2k ih中获取为第一状态标识的数据进行混音并进行播放。
S184,将SD2k ih中数据设置为0,即Tk ih的声音输出设备将不能输出声音。可通过Tk ih将SD2k ih中数据设置为0,也可通过Tk ih对应的媒体服务器将SD2k ih中数据设置为0。
图2为本发明实施例提供的多路音频数据处理系统的结构框图。如图2所示,本发明另一实施例提供一种多路音频数据处理系统,包括:通信连接的多个媒体服务器,任一媒体服务器与多个终端设备连接;其中,在所述系统执行至少一个会议场景时,处于同一会议场景k中的任一媒体服务器i用于执行计算机程序以实现如下步骤:
S200,媒体服务器i获取第一音频流D1i k=(D1k i1,D1k i2,…,D1k ih,…,D1k it(i)),D1k ih为与媒体服务器i连接的终端设备中参与会议场景k的第h个终端设备Tk ih的音频数据,h的取值为1到t(i),t(i)为与媒体服务器i连接的终端设备中参与会议场景k的终端设备的数量,i的取值为1到n,n为会议场景k中的媒体服务器的数量;其中,D1k ih中包括对应的终端设备的会议状态标识,所述会议状态标识基于终端设备的用户权限和终端设备的声音输入设备和声音输出设备的状态确定。
服务器可基于现有方式获取每个终端设备的音频流。在获取到音频流后,基于对应的终端设备的ID、状态标识对音频流进行标记处理。这样,每个音频数据会包含对应终端设备的ID以及会议状态标识。
在本发明实施例中,用户权限可包括越级、会议和通播等。当某个终端设备的用户权限为越级时,则对应的用户能听见会议场景中的其它用户的声音,也能向其它用户说话,即该终端设备的声音输入设备和声音输出设备均处于开启状态即非静音状态。当某个终端设备的用户权限为通播时,则对应的用户只能听见用户权限为越级的用户的声音,其它用户的声音无法听见,也能够向越级用户说话,即通播用户的终端设备的声音输入设备和声音输出设备只针对越级用户为开启状态。声音输入设备和声音输出设备可为现有的音频产品,例如,声音输入设备可为麦克风,声音输出设备可为喇叭或者扬声器等。
进一步地,在本发明实施例中,所述会议状态标识包括第一状态标识、第二状态标识、第三状态标识和第四状态标识。
其中,如果某个终端设备的状态标识为第一状态标识,则表示该终端设备的声音输出设备处于静音状态,但声音输入设备处于非静音状态,即自己的声音别人可以听见但不能听见别人的声音。第一状态标识可基于自定义的字符表示,例如,在一个示意性实施例中,可用字符0101表示。在另一个示意性实施例中,可用字符1表示等。
如果某个终端设备的状态标识为第二状态标识,则表示该终端设备的声音输出设备处于非静音状态,但声音输入设备处于静音状态,即能听见别人的声音,但自己的声音别人听不见。第二状态标识可基于自定义的字符表示,例如,在一个示意性实施例中,可用字符0102表示。在另一个示意性实施例中,可用字符2表示等。
如果某个终端设备的状态标识为第三状态标识,则表示该终端设备的声音输出设备处于静音状态,并且声音输入设备处于静音状态,即既不能听见别人的声音,别人也听不见自己的声音。第三状态标识可基于自定义的字符表示,例如,在一个示意性实施例中,可用字符0103表示。在另一个示意性实施例中,可用字符3表示等。
如果某个终端设备的状态标识为第四状态标识,则表示该终端设备的声音输出设备处于静音状态,但声音输入设备只对于用户权限为设定权限的终端设备处于非静音状态,即别人听不见自己的声音,但是用户权限为设定权限的用户可以听见自己的声音。在一个示意性实施例中,设定权限是指越级。第四状态标识可基于自定义的字符表示,例如,在一个示意性实施例中,可用字符0104表示。在另一个示意性实施例中,可用字符4表示等。
如果某个终端设备的状态标识为第五状态标识,则表示该终端设备的声音输出设备只对于用户权限为设定权限的终端设备处于非静音状态,但声音输入设备处于静音状态,即能够听见用户权限为设定权限的用户的声音,但是别听不见自己的声音。
在本发明实施例中,如果Tk ih的会议状态标识表示声音输入设备处于静音状态,则媒体服务器i获取到的对应音频流为0。
S220,媒体服务器i将第一拼接音频流SD1k i=D1k i1+D1k i2+…+D1k ih+…+D1k it(i)发送给处于同一会议场景k中的其它媒体服务器;+表示拼接。
在本发明实施例中,媒体服务器会将拼接后的音频流发送到设定的音频流通道中,例如,RSTP通道中,其它服务器通过该通道获取即可。
本领域技术人员知晓,对音频流进行拼接可为现有技术。媒体服务器向其它媒体服务器发送的拼接音频流是添加了协议信息后的音频流。
S240,媒体服务器i获取第二音频流D2i k=(D2k i1,D2k i2,…,D2p ih,…,D2k im),D2p ih为处于会议场景k中与媒体服务器i连接的第p个媒体服务器拼接的音频数据,p的取值为1到m,m为处于会议场景k中的媒体服务器数量;其中,D2p ih中包括对应的终端设备的会议状态标识。
与媒体服务器i连接的第p个媒体服务器拼接音频数据的方式与媒体服务器i拼接音频数据的方式相同。
S260,媒体服务器i将混合音频流SD2k ih发送给Tk ih;SD2k ih包括SD1k i和D2i k;即媒体服务器i将同一会议场景中的所有音频流都发送给所属的每个终端设备。
在本发明实施例中,媒体服务器会将第一拼接音频流和获取的所属的每个终端设备的音频流发送到设定的音频流通道中,例如,RSTP通道中,所属的终端设备通过该通道获取即可。
在本发明实施例中,基于Tk ih的会议状态标识和SD2k ih中的每个数据对应的终端设备的会议状态标识,从接收到的SD2k ih中选择需要混音的数据进行混音并播放。
在该步骤中,Tk ih会对接收到的SD2k ih进行解压处理,得到会议场景中的所有音频数据。具体地,基于Tk ih的会议状态标识和SD2k ih中的每个数据对应的终端设备的会议状态标识,从接收到的SD2k ih中选择需要混音的数据进行混音并播放可包括:
S302,如果Tk ih的会议状态标识为第二状态标识或者第五状态标识,即能够听见会议场景中的别的用户声音,执行S304;否则,即不能听见别的用户的声音,执行S308。
S304,如果Tk ih的会议状态标识为第二状态标识即能够听见会议场景中所有用户的声音,从SD2k ih中获取为第一状态标识和第四状态标识的数据进行混音并进行播放。
S306,如果Tk ih的会议状态标识为第五状态标识即只能听见会议场景中越级用户的声音,从SD2k ih中获取为第一状态标识的数据进行混音并进行播放。
S308,将SD2k ih中数据设置为0,即Tk ih的声音输出设备将不能输出声音。可通过Tk ih将SD2k ih中数据设置为0,也可通过Tk ih对应的媒体服务器将SD2k ih中数据设置为0。
综上,本发明实施例提供的多路音频数据处理方法和系统,对于每个会议场景,由于该会议场景中的媒体服务器只是对接收到的音频流进行简单的拼接和转发操作,而不做较为复杂的混音处理。混音处理操作分担到每个终端设备处,因此,能够减少媒体服务器的负载,能够减少音频和提高音频通信效果。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims (8)

1.一种多路音频数据处理方法,其特征在于,用于对多媒体服务器级联模式下的多路音频组会议场景中的任一会议场景k中的音频数据进行处理,k的取值为1到C,C为会议场景的数量,所述方法包括以下步骤:
S100,处于同一会议场景k中的任一媒体服务器i获取第一音频流D1i k=(D1k i1,D1k i2,…,D1k ih,…,D1k it(i)),D1k ih为与媒体服务器i连接的终端设备中参与会议场景k的第h个终端设备Tk ih的音频数据,h的取值为1到t(i),t(i)为与媒体服务器i连接的终端设备中参与会议场景k的终端设备的数量,i的取值为1到n,n为会议场景k中的媒体服务器的数量;其中,D1k ih中包括对应的终端设备的会议状态标识,所述会议状态标识基于终端设备的用户权限和终端设备的声音输入设备和声音输出设备的状态确定;
S120,媒体服务器i将第一拼接音频流SD1k i=D1k i1+D1k i2+…+D1k ih+…+D1k it(i)发送给处于同一会议场景k中的其它媒体服务器;+表示拼接;
S140,媒体服务器i获取第二音频流D2i k=(D2k i1,D2k i2,…,D2k ip,…,D2k im),D2k ip为处于会议场景k中与媒体服务器i连接的第p个媒体服务器拼接的音频数据,p的取值为1到m,m为处于会议场景k中与媒体服务器i连接的媒体服务器数量;其中,D2k ip中包括对应的终端设备的会议状态标识;
S160,媒体服务器i将混合音频流SD2k ih发送给Tk ih;SD2k ih包括SD1k i和D2i k
S180,基于Tk ih的会议状态标识和SD2k ih中的每个数据对应的终端设备的会议状态标识,从接收到的SD2k ih中选择需要混音的数据进行混音并播放。
2.根据权利要求1所述的方法,其特征在于,所述会议状态标识包括第一状态标识、第二状态标识、第三状态标识和第四状态标识;
如果某个终端设备的状态标识为第一状态标识,则表示该终端设备的声音输出设备处于静音状态,但声音输入设备处于非静音状态;
如果某个终端设备的状态标识为第二状态标识,则表示该终端设备的声音输出设备处于非静音状态,但声音输入设备处于静音状态;
如果某个终端设备的状态标识为第三状态标识,则表示该终端设备的声音输出设备处于静音状态,并且声音输入设备处于静音状态;
如果某个终端设备的状态标识为第四状态标识,则表示该终端设备的声音输出设备处于静音状态,但声音输入设备只对于用户权限为设定权限的终端设备处于非静音状态;
如果某个终端设备的状态标识为第五状态标识,则表示该终端设备的声音输出设备只对于用户权限为设定权限的终端设备处于非静音状态,但声音输入设备处于静音状态。
3.根据权利要求2所述的方法,其特征在于,S180进一步包括:
S181,如果Tk ih的会议状态标识为第二状态标识或者第五状态标识,执行S182;否则,执行S184;
S182,如果Tk ih的会议状态标识为第二状态标识,从SD2k ih中获取为第一状态标识和第四状态标识的数据进行混音并进行播放;
S183,如果Tk ih的会议状态标识为第五状态标识,从SD2k ih中获取为第一状态标识的数据进行混音并进行播放;
S184,将SD2k ih中的数据设置为0。
4.根据权利要求1所述的方法,其特征在于,在S160中,SD2k ih为加入协议信息后的数据。
5.根据权利要求1所述的方法,其特征在于,在S180中,SD2k ih为经过解压处理后的数据。
6.一种多路音频数据处理系统,其特征在于,包括:通信连接的多个媒体服务器,任一媒体服务器与多个终端设备连接;其中,在所述系统执行多路音频组会议场景时,处于同一会议场景k中的任一媒体服务器i用于执行计算机程序以实现如下步骤:
S200,媒体服务器i获取第一音频流D1i k=(D1k i1,D1k i2,…,D1k ih,…,D1k it(i)),D1k ih为与媒体服务器i连接的终端设备中参与会议场景k的第h个终端设备Tk ih的音频数据,h的取值为1到t(i),t(i)为与媒体服务器i连接的终端设备中参与会议场景k的终端设备的数量,i的取值为1到n,n为会议场景k中的媒体服务器的数量;其中,D1k ih中包括对应的终端设备的会议状态标识,所述会议状态标识基于终端设备的用户权限和终端设备的声音输入设备和声音输出设备的状态确定;
S220,媒体服务器i将第一拼接音频流SD1k i=D1k i1+D1k i2+…+D1k ih+…+D1k it(i)发送给处于同一会议场景k中的其它媒体服务器;+表示拼接;
S240,媒体服务器i获取第二音频流D2i k=(D2k i1,D2k i2,…,D2k ip,…,D2k im),D2k ip为处于会议场景k中与媒体服务器i连接的第p个媒体服务器拼接的音频数据,p的取值为1到m,m为处于会议场景k中与媒体服务器i连接的媒体服务器数量;其中,D2k ip中包括对应的终端设备的会议状态标识;
S260,媒体服务器i将混合音频流SD2k ih发送给Tk ih;SD2k ih包括SD1k i和D2i k
其中,基于Tk ih的会议状态标识和SD2k ih中的每个数据对应的终端设备的会议状态标识,从接收到的SD2k ih中选择需要混音的数据进行混音并播放。
7.根据权利要求6所述的系统,其特征在于,所述会议状态标识包括第一状态标识、第二状态标识、第三状态标识和第四状态标识;
如果某个终端设备的状态标识为第一状态标识,则表示该终端设备的声音输出设备处于静音状态,但声音输入设备处于非静音状态;
如果某个终端设备的状态标识为第二状态标识,则表示该终端设备的声音输出设备处于非静音状态,但声音输入设备处于静音状态;
如果某个终端设备的状态标识为第三状态标识,则表示该终端设备的声音输出设备处于静音状态,并且声音输入设备处于静音状态;
如果某个终端设备的状态标识为第四状态标识,则表示该终端设备的声音输出设备处于静音状态,但声音输入设备只对于用户权限为设定权限的终端设备处于非静音状态;
如果某个终端设备的状态标识为第五状态标识,则表示该终端设备的声音输出设备只对于用户权限为设定权限的终端设备处于非静音状态,但声音输入设备处于静音状态。
8.根据权利要求7所述的系统,其特征在于,Tk ih基于自身的会议状态标识和SD2k ih中的每个数据对应的终端设备的会议状态标识,从接收到的SD2k ih中选择需要混音的数据进行混音并播放,具体包括:
S302,如果Tk ih的会议状态标识为第二状态标识或者第五状态标识,执行S304;否则,执行S308;
S304,如果Tk ih的会议状态标识为第二状态标识,从SD2k ih中获取为第一状态标识和第四状态标识的数据进行混音并进行播放;
S306,如果Tk ih的会议状态标识为第五状态标识,从SD2k ih中获取为第一状态标识的数据进行混音并进行播放;
S308,将SD2k ih中数据设置为0。
CN202211253489.4A 2022-10-13 2022-10-13 一种多路音频数据处理方法和系统 Active CN115643242B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211253489.4A CN115643242B (zh) 2022-10-13 2022-10-13 一种多路音频数据处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211253489.4A CN115643242B (zh) 2022-10-13 2022-10-13 一种多路音频数据处理方法和系统

Publications (2)

Publication Number Publication Date
CN115643242A CN115643242A (zh) 2023-01-24
CN115643242B true CN115643242B (zh) 2023-07-07

Family

ID=84945327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211253489.4A Active CN115643242B (zh) 2022-10-13 2022-10-13 一种多路音频数据处理方法和系统

Country Status (1)

Country Link
CN (1) CN115643242B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103491406A (zh) * 2013-09-02 2014-01-01 中山大学 一种基于语音识别的android智能电视系统
CN103856786A (zh) * 2012-12-04 2014-06-11 中山大学深圳研究院 一种基于h.264的流媒体视频加密方法及其加密装置
CN104009991A (zh) * 2014-05-28 2014-08-27 广州华多网络科技有限公司 音频通信系统和方法
CN114513738A (zh) * 2022-02-21 2022-05-17 北京华建云鼎科技股份公司 一种用于模拟虚拟驾驶环境的数据处理系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050062843A1 (en) * 2003-09-22 2005-03-24 Bowers Richard D. Client-side audio mixing for conferencing
CN101877643B (zh) * 2010-06-29 2014-12-10 中兴通讯股份有限公司 多点混音远景呈现方法、装置及系统
US9641576B2 (en) * 2014-07-11 2017-05-02 Amazon Technologies, Inc. Dynamic locale based aggregation of full duplex media streams
CN113038060B (zh) * 2019-12-25 2022-11-18 中国电信股份有限公司 多路音频处理方法和系统
CN112118264A (zh) * 2020-09-21 2020-12-22 苏州科达科技股份有限公司 会议混音方法以及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103856786A (zh) * 2012-12-04 2014-06-11 中山大学深圳研究院 一种基于h.264的流媒体视频加密方法及其加密装置
CN103491406A (zh) * 2013-09-02 2014-01-01 中山大学 一种基于语音识别的android智能电视系统
CN104009991A (zh) * 2014-05-28 2014-08-27 广州华多网络科技有限公司 音频通信系统和方法
CN114513738A (zh) * 2022-02-21 2022-05-17 北京华建云鼎科技股份公司 一种用于模拟虚拟驾驶环境的数据处理系统

Also Published As

Publication number Publication date
CN115643242A (zh) 2023-01-24

Similar Documents

Publication Publication Date Title
US9501259B2 (en) Audio output device to dynamically generate audio ports for connecting to source devices
WO2011015136A1 (zh) 一种会议控制的方法、装置和系统
US9837100B2 (en) Ambient sound rendering for online meetings
KR102425815B1 (ko) 회의를 위한 서브밴드 공간 처리 및 크로스토크 제거 시스템
US9900720B2 (en) Using single bitstream to produce tailored audio device mixes
CN115643242B (zh) 一种多路音频数据处理方法和系统
CN111225177B (zh) 视频会议的处理方法、装置、电子设备及存储介质
JP2007135108A (ja) ネットワーク会議支援プログラムおよびネットワーク会議支援サーバ
CN115801996A (zh) 一种分组会议处理的方法、装置、设备及介质
WO2018094968A1 (zh) 一种音频的处理方法、装置和媒体服务器
CN110502207B (zh) 背景声的静音方法、系统、设备及存储介质
US7489773B1 (en) Stereo conferencing
CN109862305B (zh) 一种视联网开会时调流的方法和装置
CN110753232A (zh) 在线互动场景的音频处理方法、系统和存储介质
CN112422881A (zh) 一种自由组网的p2p视频会议方法
Rumsey Spatial Audio: Channels, Objects, and Ambisonics
CN111107300A (zh) 一种终端会议的开启方法、装置、终端设备及存储介质
US20230421620A1 (en) Method and system for handling a teleconference
JP5002994B2 (ja) 処理系統図表示装置およびプログラム
CN112910827B (zh) 多方互动系统,方法、装置、电子设备及存储介质
Parmentier Sound board: object-based audio
US11924622B2 (en) Centralized processing of an incoming audio stream
US20230188924A1 (en) Spatial Audio Object Positional Distribution within Spatial Audio Communication Systems
CN115499616A (zh) 一种会议处理方法、装置、终端设备和存储介质
JP2019503503A (ja) オーディオ信号を出力するためのシステム及びそれぞれの方法と設定装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant