CN113259618A

CN113259618A - 一种音视频会话方法、装置、第一终端和会话服务器

Info

Publication number: CN113259618A
Application number: CN202110517310.0A
Authority: CN
Inventors: 卞安琪
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Shanghai ICT Co Ltd; CM Intelligent Mobility Network Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Shanghai ICT Co Ltd; CM Intelligent Mobility Network Co Ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-08-13
Anticipated expiration: 2041-05-12
Also published as: CN113259618B

Abstract

本发明提供一种音视频会话方法、装置、第一终端和会话服务器，用于第一终端的方法包括：在所述第一终端处于音视频会话的情况下，接收会话服务器发送的混屏数据流，其中，所述混屏数据流由所述音视频会话中的所有与会者的音视频数据流进行混屏处理得到；接收用户的第一输入；响应于所述第一输入，向所述会话服务器发送混屏策略指示信息；其中，所述混屏策略指示信息用于指示所述会话服务器按照目标混屏策略向所述所有与会者各自对应的终端分别发送相同或不同的音视频数据流。本发明实施例能够提升音视频会话的灵活性。

Description

一种音视频会话方法、装置、第一终端和会话服务器

技术领域

本发明涉及通信技术领域，尤其涉及一种音视频会话方法、装置、第一终端和会话服务器。

背景技术

在当今的互联网时代，随着网络状况的不断升级以及智能终端的不断普及，多方音视频会话的业务形态受到了越来越多的重视和发展。

在相关技术中，多人音视频的视频大多数采用混屏技术，即所有与会人员上传自己的视频流，由服务器进行数据流的混屏然后进行分路的下发，也就是说每一个与会人员接收到相同的混屏数据，这样，每个与会者接收到的混屏数据中包括所有与会者对应的音视频数据，从而造成与会人数越多，则终端上显示的人像很小，且布局也无法改变。

由上可知，相关技术中的音视频会话方法存在灵活性差的缺陷。

发明内容

本发明提供一种音视频会话方法、装置、第一终端和会话服务器，能够解决相关技术中的音视频会话方法存在的灵活性差的问题。

为解决上述技术问题，本发明是这样实现的：

第一方面，本发明提供了一种音视频会话方法，用于第一终端，包括：

在所述第一终端处于音视频会话的情况下，接收会话服务器发送的混屏数据流，其中，所述混屏数据流由所述音视频会话中的所有与会者的音视频数据流进行混屏处理得到；

接收用户的第一输入；

响应于所述第一输入，向所述会话服务器发送混屏策略指示信息；

其中，所述混屏策略指示信息用于指示所述会话服务器按照目标混屏策略向所述所有与会者各自对应的终端分别发送相同或不同的音视频数据流。

第二方面，本发明提供了一种音视频会话方法，用于会话服务器，所述方法包括：

分别接收音视频会话中所有与会者的音视频数据流，并分别向所述所有与会者各自对应的终端发送混屏数据流，其中，所述混屏数据流由所述所有与会者的音视频数据流进行混屏处理得到；

接收目标与会者对应的第一终端发送的混屏策略指示信息；

向所述第一终端或者所述所有与会者各自对应的终端分别发送与所述混屏策略指示信息匹配的音视频数据流；

第三方面，本发明提供了一种音视频会话装置，用于第一终端，所述装置包括：

第一接收模块，用于在所述第一终端处于音视频会话的情况下，接收会话服务器发送的混屏数据流，其中，所述混屏数据流由所述音视频会话中的所有与会者的音视频数据流进行混屏处理得到；

第一用户输入模块，用于接收用户的第一输入；

第一发送模块，用于响应于所述第一输入，向所述会话服务器发送混屏策略指示信息；

第四方面，本发明提供了一种音视频会话装置，用于会话服务器，所述装置包括：

数据传输模块，用于分别接收音视频会话中所有与会者的音视频数据流，并分别向所述所有与会者各自对应的终端发送混屏数据流，其中，所述混屏数据流由所述所有与会者的音视频数据流进行混屏处理得到；

第三接收模块，用于接收目标与会者对应的第一终端发送的混屏策略指示信息；

第二发送模块，用于向所述第一终端或者所述所有与会者各自对应的终端分别发送与所述混屏策略指示信息匹配的音视频数据流；

第五方面，本发明提供了一种第一终端，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述的音视频会话方法中的步骤。

第六方面，本发明提供了一种会话服务器，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第二方面所述的音视频会话方法中的步骤。

第七方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的音视频会话方法中的步骤；或者实现如第二方面所述的音视频会话方法中的步骤。

本发明实施例中，在所述第一终端处于音视频会话的情况下，接收会话服务器发送的混屏数据流，其中，所述混屏数据流由所述音视频会话中的所有与会者的音视频数据流进行混屏处理得到；接收用户的第一输入；响应于所述第一输入，向所述会话服务器发送混屏策略指示信息；其中，所述混屏策略指示信息用于指示所述会话服务器按照目标混屏策略向所述所有与会者各自对应的终端分别发送相同或不同的音视频数据流。这样，第一终端上的与会者可以向会话服务器发送混屏策略指示信息，以基于该混屏策略指示信息调整所有与会者能够接收到的音视频数据流，从而提升音视频会话方法的灵活性。

附图说明

图1是本发明实施例提供的第一种音视频会话方法的流程图；

图2是本发明实施例提供的第二种音视频会话方法的流程图；

图3是本发明实施例提供的第一种音视频会话装置的结构图；

图4是本发明实施例提供的第二种音视频会话装置的结构图；

图5是本发明实施例提供的第一终端的结构图；

图6是本发明实施例提供的会话服务器的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在相关技术中，鉴于网络传输速率有限等限制条件，在多人音视频会话中，多采用混屏技术对多个数据流进行混屏处理，例如：在多人参与的视频会话中，所有与会者上传自己的视频流，由会话服务器进行数据流的混屏，以使得到的混屏数据流中包括每一个与会者的视频，并将该混屏数据流下发到每一个与会者的终端上，这样，终端的显示频上显示的视频会话界面上将显示多个尺寸不可调的子窗口，以在每个子窗口内分别显示对应的与会者的视频。

不难想到，当该混屏技术在应用与手机等显示屏幕有限的终端上时，每个子窗口的显示尺寸将变得很小，再考虑到混屏数据流中的视频保真度往往比较低，这就会造成用户不能够看清各个与会者的视频，从而降低多人视频会话的清晰度和体验感。

而本申请实施例中，用户通过向会话服务器发送混屏策略指示信息，以改变会话服务器的混屏策略，从而基于该混屏策略调整各个与会者的终端所接收到的音视频界面中各个子窗口的数量、排版、突出显示部分子窗口等，以有针对性的调整音视频会话界面的显示内容，从而提升至少部分与会者的视频的清晰度，提升音视频会话界面的灵活性，从而提升音视频会话的体验感。

请参阅图1，是本发明实施例提供的一种音视频会话方法的流程图，该音视频会话方法的执行主体可以是第一终端，如图1所示，该音视频会话方法可以包括以下步骤：

步骤101、在所述第一终端处于音视频会话的情况下，接收会话服务器发送的混屏数据流，其中，所述混屏数据流由所述音视频会话中的所有与会者的音视频数据流进行混屏处理得到。

步骤102、接收用户的第一输入。

步骤103、响应于所述第一输入，向所述会话服务器发送混屏策略指示信息；其中，所述混屏策略指示信息用于指示所述会话服务器按照目标混屏策略向所述所有与会者各自对应的终端分别发送相同或不同的音视频数据流。

在具体实施中，上述第一输入可以是在第一终端上的触控输入，例如：针对音视频会话界面中的一个或者部分子窗口的点击、长按、拖动触控输入，当然，其还可以是针对音视频会话界面中显示的联系人列表的触控输入，在此不作具体限定。

另外，上述混屏策略指示信息可以指示进行混屏处理的音视频数据流的数量、混屏后得到的混屏数据流中各个音视频的显示尺寸、对一部分与会者进行音视频采集，对另一部分与会者不进行音视频采集，且仅将采集到的音视频数据流进行混屏处理、在发送混屏数据流的基础上，还将个别或者少数与会者的高保真音视频数据流转发至所有与会者各自对应的终端或指定的与会者的终端。且上述混屏处理具体可以包括：混音和混频等处理，其具体混屏过程可以参照现有技术中的混屏技术，在此不做具体阐述。

需要说明的是，第一终端在进行音视频会话的过程中，与会话服务器之间建立了信令通道和媒体通道，则上述音视频数据流可以通过媒体通道传输，且上述混屏策略指示信息可以通过信令通道传输。

在具体实施中，当进行音频会话的过程中，可以在音视频界面内显示与会者的头像、语音标识等信息，其中，语音标识终于指示对应的与会者正在录入音频。以音频会话为例，在现有技术中，多人进行音频会话的过程中，仅可以按照矩阵排列的方式在音频会话界面上显示全部与会者的头像信息，而本申请实施中，上述混屏策略指示信息用于指示所述会话服务器按照目标混屏策略向所述所有与会者各自对应的终端分别发送相同或不同的音视频数据流，可以包括以下几种实施方式：

基于目标混屏策略，向全部或者部分与会者各自对应的终端发送一部分与会者的音频数据流，以使全部或者部分与会者的终端上仅能够显示部分与会者的头像，且仅能够听到部分与会者发出的语音信息，例如：将与会者A设置为离席或者禁言状态，则音频会话中的其他与会者不能够接收该与会者A的音频数据流；

基于目标混屏策略，将第一与会者的音频数据流发送至第二与会者的终端，而不将第一与会者的音频数据流发送至第三与会者的终端，其中，第一与会者、第二与会者和第三与会者均为音频会话中的会话者，也就是说，能够不同的会话者展示不同的音频会话内容；

基于目标混屏策略，向全部或者部分与会者各自对应的终端发送某一格式的音频数据流，例如：将部分或者一个与会者的头像与其他与会者的头像进行区分显示。

在一种可选的实施方式中，上述第一终端是音视频会话中的主席与会者对应的终端，此时，上述第一输入可以是该主席与会者在第一终端上执行的用于调整混屏策略的操作，例如：将某一与会者的音视频数据流进行放大的操作。此时，会话服务器将基于该第一输入对应的混屏策略指示信息，向该全部与会者或者指定与会者的终端发送按照目标混屏策略进行混屏后的音视频数据流。

本实施方式中，上述主席与会者可以默认是音视频会话的创建者，或者由创建者指定的与会者。

另外，在实际应用中，可以在音视频会话中设置突出显示区域和混屏区域，其中，突出显示区域用于显示某一与会者或者少数与会者的高保真音视频数据流(以下简称“音视频数据流”其区别于混屏数据流，可以是与会者上传的音视频数据流的原数据)，而混屏区域用于显示混屏数据流。其中，突出显示区域可以默认显示主席与会者的音视频数据流，或者显示主席与会者通过所述混屏策略指示信息执行的一个或者少数其他与会者的音视频数据流。此时，上述第一输入可以是主席与会者将目标与会者的联系人信息或标识信息拖动至突出显示区域。

进一步地，在此基础上，上述混屏数据流中可以不包括突出显示区域内显示的音视频数据流，从而可以在显示某一音视频数据流的高保真数据的情况下，避免会话服务器对该音视频数据流进行混屏处理，并避免在混屏区域显示冗余的内容。

本实施方式中，音视频会话的混屏控制完全由主席与会者进行管理和控制，且在音视频会话过程中的任意时刻，主席与会者都可以通过向会话服务器发送混屏策略指示信息，以变更混屏策略，例如：变更突出显示区域内显示的音视频数据流。

进一步地，在上述主席与会者控制模式下，会话服务器在接收到混屏策略指示信息的情况下，会对该混屏策略指示信息的发送方进行鉴权或者身份认证，以在确定该混屏策略指示信息是由主席与会者发送的基础上，才按照该混屏策略指示信息指示的目标混屏策略进行混屏处理，并将调整混屏策略后得出的混屏数据流发送至全部或者指定与会者的终端。

在另一种实施方式中，上述第一终端可以是音视频会话中的任一与会者对应的终端，此时，上述第一输入可以是任一与会者在其终端上执行的用于调整混屏策略的操作，例如：将某一与会者的音视频数据流进行放大的操作。此时，会话服务器将基于该第一输入对应的混屏策略指示信息，向该任一与会者的终端发送按照目标混屏策略进行混屏后的音视频数据流，而其他与会者的终端接收到的音视频数据流可以不变。

相较于上一主席与会者控制模式的不同之处在于，本实施方式中，所有与会者可以按照各自的需求发送混屏策略指示信息，以使各个与会者能够获取到不同的混屏数据流，因此，本实施方式可以称之为自由控制模式。

在实际应用中，音视频会话的发起者可以对音视频会话的工作模式进行调整，例如：调整为上述主席与会者控制模式或调整为上述自由控制模式，在此不再赘述。

在实际应用中，为了实现基于混屏策略指示信息能够指示会话服务器按照目标混屏策略向所述所有与会者各自对应的终端分别发送相同或不同的音视频数据流。可以在混屏策略指示信息中携带需要调整的音视频数据流的标识，例如：该音视频数据流对应的与会者的名称，或者预先将每一个与会者关联一个标识字符，例如：与会者A至D分别与音视频标识1至4一一对应，当混屏策略指示信息中携带音视频标识1的情况下，可以确定其指向与会者A，从而对与会者B至D不生效。这样，可以通过该音视频标识在混屏策略指示信息中对需要调整的音视频数据流与其他音视频数据流进行区分，或者对音视频数据流的传输目的地进行区分。

作为一种可选的实施方式，在所述混屏策略指示信息用于指示所述会话服务器按照目标混屏策略向所述所有与会者分别发送不同的音视频数据流的情况下，所述混屏策略指示信息携带有目标音视频标识，并用于指示所述会话服务器发送所述目标音视频标识对应的目标音视频数据流至所述第一终端，其中，所述所有与会者的音视频数据流包括所述目标音视频数据流。

在具体实施中，上述目标音视频标识可以是对应与会者所关联的标识符、该与会者的名称或者目标音视频数据流在音视频会话界面中显示的位置等能够区分不同音视频数据流的信息。

需要说明的是，在实际应用中，目标音视频数据流的数量可以大于1个，，在此对目标音视频数据流的数量不作具体限定。

本实施方式中，通过在混屏策略指示信息中携带目标音视频标识的方式，使第一终端能够从会话服务器接收到其指定的与会者的高保真音视频数据流。

可选地，所述方法还包括：

接收所述会话服务器发送的所述目标音视频数据流，并将所述目标音视频数据流与所述混屏数据流区别显示。

在实施中，当第一终端向会话服务器发送用于指示所述会话服务器发送所述目标音视频标识对应的目标音视频数据流至所述第一终端的混屏策略指示信息之后，会话服务器将基于该混屏策略指示信息的指示调整混屏策略，并将基于调整后的目标混屏策略混屏得到的混屏数据流返回至第一终端，其中，基于调整后的目标混屏策略混屏得到的混屏数据流中至少包括所述目标音视频标识对应的目标音视频数据流(高保真音视频数据流)。

此时，第一终端将对接收到的目标音视频数据流与其他混屏数据流进行区别显示，该区别显示可以理解为：不同的显示区域(例如：将目标音视频数据流显示在中心位置，将其他混屏数据流显示在其他混屏数据流的周围)和/或不同的显示尺寸(例如：目标音视频数据流的显示尺寸大于其他混屏数据流的显示尺寸)等。

在具体实施中，通过将上述目标音视频数据流与所述混屏数据流区别显示，可以提升目标音视频数据流的辨识度，以使第一终端上的用户能够获得更加清晰的音视频数据流，以实现对该音视频数据流的发送方进行着重关注，从而使音视频会话更加有针对性。

可选地，在所述将所述目标音视频数据流与所述混屏数据流区别显示之后，所述方法还包括：

接收用户对所述目标音视频标识的第二输入；

响应于所述第二输入，向所述会话服务器发送释放请求，其中，所述释放请求用于请求释放所述目标音视频数据流，以使所述会话服务器停止向所述第一终端发送所述目标音视频数据流。

在具体实施中，上述第二输入可以是在第一终端上的触控输入，例如：针对音视频会话界面中显示有所述目标音视频数据流的子窗口的点击、长按、拖动触控输入，当然，其还可以是针对音视频会话界面中的联系人列表的触控输入，例如：针对联系人列表中与所述目标音视频数据流对应的与会者的触控输入，在此不作具体限定。

本实施方式中，在音视频会话界面中显示有高保真音视频数据流的情况下，可以通过第二输入释放该高保真音视频数据流，以实现在音视频会话界面中不再显示该被释放的高保真音视频数据流。

当然，在释放目标音视频数据流之后，用户还可以通过第一输入指示会话服务器向第一终端发送混屏策略指示信息，以重新获取高保真音视频数据流，在此不作具体阐述。

接收用户的第三输入；

响应于所述第三输入，确定目标显示参数，其中，所述目标显示参数包括以下至少一项：所述目标音视频数据流的第一显示参数和所述混屏数据流的第二显示参数，且所述第一显示参数和所述第二显示参数分别包括显示尺寸和显示位置中的至少一项；

按照所述第一显示参数显示所述目标音视频数据流，和/或，按照所述第二显示参数显示所述混屏数据流。

在具体实施中，上述第三输入可以是在第一终端上用于放大、缩小显示有目标音视频数据流和/或所述混屏数据流的子窗口的输入，例如：在显示有目标音视频数据流的子窗口进行双指分开的滑动触控输入，以增大显示有目标音视频数据流的子窗口的显示尺寸。在基础上，目标显示参数可以包括用户所放大或缩小后的目标音视频数据流和/或所述混屏数据流的子窗口的显示尺寸。

当然，在实际应用中，上述第三输入还可以是用户调整目标音视频数据流和/或所述混屏数据流的子窗口的显示位置的输入，例如：用户将目标音视频数据流的子窗口拖动至目标位置的输入，此时，上述目标显示参数可以包括目标音视频数据流的子窗口的显示于目标位置的显示位置参数。

同理，若用户拖动混屏数据流的子窗口，则上述目标显示参数可以包括混屏数据流的子窗口的显示位置参数，在此不做赘述。

在实际应用中，第一终端可以向会话服务器发送携带有所述目标显示参数、以及目标音视频标识的第二混屏策略指示信息，以使会话服务器根据该第二混屏策略指示信息调整混屏策略，从而将调整后的混屏数据流发送至第一终端，以使第一终端基于该混屏数据流按照所述目标显示参数显示所述目标音视频数据流和所述混屏数据流。

其中，在目标显示参数包括第一显示参数的情况下，上述第一终端基于该混屏数据流按照所述目标显示参数显示所述目标音视频数据流和所述混屏数据流可以包括：第一终端按照所述第一显示参数显示所述目标音视频数据流，例如：若第一显示参数包括第一显示尺寸，则将第一终端上与所述目标音视频数据流对应的子窗口调整为第一显示尺寸；若第一显示参数包括第一显示位置，则在第一终端上的第一显示位置显示所述目标音视频数据流对应的子窗口；若第一显示参数包括第一显示尺寸和第一显示位置，则在第一终端上的第一显示位置显示第一显示尺寸的所述目标音视频数据流对应的子窗口。

另外，在目标显示参数包括第二显示参数的情况下，上述第一终端基于该混屏数据流按照所述目标显示参数显示所述目标音视频数据流和所述混屏数据流可以包括：第一终端按照所述第二显示参数显示所述混屏数据流。其中，第一终端按照所述第二显示参数显示所述混屏数据流的具体实现过程与上述第一终端按照所述第一显示参数显示所述目标音视频数据流的过程相似，在此不再赘述。

当然，在实际应用中，目标显示参数可以同时包括第一显示参数和第二显示参数，此时第一终端将按照所述第一显示参数显示所述目标音视频数据流，并按照所述第二显示参数显示所述混屏数据流。

本实施方式中，可以根据用户在终端上的第三输入，调整目标音视频数据流和/或混屏数据流的显示尺寸和显示位置中的至少一项。

可选地，所述方法还包括：

发送性能参数，其中，所述性能参数包括所述第一终端的设备性能参数和网络质量参数；

接收与所述性能参数匹配的音视频数据流。

在具体实施中，上述第一终端的设备性能参数可以基于移动设备管理(MobileDevice Management，MDM)功能而确定的设备性能参数，在此不再赘述。

另外，上述第一终端的网络质量参数可以包括第一终端所处网络的参数，例如：丢包率参数、信号质量参数等能够反映音视频会话的通信质量的参数，在此不作具体限定。

在实施中，不同的终端，其设备性能参数不同，且所处的网络质量参数不同，从而使其能够支持的音视频数据流不同，例如：老人机不支持混屏数据流的播放，处于WIFI网络下的终端在播放高保真音视频数据流时的丢包率低于处于移动网络下的终端在播放高保真音视频数据流时的丢包率。

此时，上述接收与所述性能参数匹配的音视频数据流，可以理解为：第一终端上接收的音视频数据流为该第一终端支持播放，且丢包率低于预设丢包率阈值(例如：5％)的音视频数据流，例如：向网络状态好的终端A发送包括高保真音视频数据流的混屏数据流，而仅向网络状态较差的终端B发送不包括高保真音视频数据流的混屏数据流。

另外，在实际应用中，当终端接收包括高保真音视频数据流的混屏数据流的过程中，若检测到该音视频会话的丢包率大于预设丢包率阈值的情况下，可以出提示信息，以提示用户当前网络环境较差，建议释放混屏数据流中的高保真音视频数据流。

当然，其也可以在检测到该音视频会话的丢包率大于预设丢包率阈值的情况下，向会话服务器发送释放请求，以释放混屏数据流中的高保真音视频数据流。

本实施方式中，可以是终端接收到的音视频数据流与其设备性能和网络性能匹配，从而提升音视频会话的通信质量。

可选地，所述方法还包括：

发送性能参数，其中，所述性能参数包括所述第一终端的网络质量参数；

在所述接收用户的第一输入之后，所述方法还包括：

接收预警信息，其中，所述预警信息包括基于所述性能参数预测得到的所述第一终端在接收所述目标音视频数据流和所述混屏数据流的情况下，所述音视频会话的丢包率将大于预设丢包率阈值的指示信息。

本实施方式中，上述网络质量参数具体可以包括丢包率、第一终端的接收流量等。

在实施中，会话服务器可以根据接收到的第一终端的丢包率、第一终端当前接收的流量，以及第一输入所请求的流量(即目标音视频数据流的流量)来预测，若所述第一终端在接收所述目标音视频数据流和所述混屏数据流的情况下，所述第一终端进行音视频会话过程中的丢包率是否会大于预设丢包率阈值，从而在预测结果为：所述第一终端在接收所述目标音视频数据流和所述混屏数据流的情况下，所述第一终端进行音视频会话过程中的丢包率会大于预设丢包率阈值，则向第一终端发送所述预警信息，否则，可以不发送所述预警信息。

另外，上述预警信息可以包括用于提示取消请求目标音视频数据流的提示信息，例如：预警信息包括“当前网络不支持目标音视频数据流，是否确认获取预警信息”的提示信息。

进一步地，当接收到用户对所述提示信息的确认操作后，才向会话服务器发送用于指示所述会话服务器发送所述目标音视频标识对应的目标音视频数据流至所述第一终端的混屏策略指示信息。

本实施方式中，能够提前预测第一终端在请求获取目标音视频数据流后的丢包率情况，以及时输出丢包率超限的预警信息，从而避免用户在网络环境不支持的情况下，因接收数据流量大的目标音视频数据流而造成音视频会话质量差甚至中断视频会话的问题，也就是说，本实施方式能够提升音视频会话的可靠性。

请参阅图2，是本发明实施例提供的第二种音视频会话方法的流程图，该第二种音视频会话方法的执行主体可以是会话服务器，如图2所示，该第二种音视频会话方法可以包括以下步骤：

步骤201、分别接收音视频会话中所有与会者的音视频数据流，并分别向所述所有与会者各自对应的终端发送混屏数据流，其中，所述混屏数据流由所述所有与会者的音视频数据流进行混屏处理得到。

步骤202、接收目标与会者对应的第一终端发送的混屏策略指示信息。

步骤203、向所述第一终端或者所述所有与会者各自对应的终端分别发送与所述混屏策略指示信息匹配的音视频数据流；其中，所述混屏策略指示信息用于指示所述会话服务器按照目标混屏策略向所述所有与会者各自对应的终端分别发送相同或不同的音视频数据流。

需要说明的是，如图2所示方法实施例与如图1所示方法实施例相对应，不同之处在于两者的执行主体不同，另外，上述混屏策略指示信息、混屏数据流、音视频数据流具体可以参照如图1所示方法实施例中的说明，在此不再赘述。

可选地，在所述混屏策略指示信息用于指示所述会话服务器按照目标混屏策略向所述所有与会者分别发送不同的音视频数据流的情况下，所述混屏策略指示信息携带有目标音视频标识，并用于指示所述会话服务器发送目标音视频数据流至所述第一终端，所述所有与会者的音视频数据流包括所述目标音视频标识对应的所述目标音视频数据流。

可选地，所述向所述第一终端或者所述所有与会者各自对应的终端分别发送与所述混屏策略指示信息匹配的音视频数据流，包括：

对所述目标与会者进行身份验证，并在所述身份验证通过的情况下，向所述第一终端或者所述所有与会者各自对应的终端分别发送与所述混屏策略指示信息匹配的音视频数据流。

本实施方式具体可以应用于如图1所示方法实施例中，在主席与会者控制模式下，会话服务器对主席与会者对应的第一终端进行鉴权或者身份验证的过程，在此不再赘述。

可选地，在所述接收目标与会者对应的第一终端发送的混屏策略指示信息之后，所述方法还包括：

接收第二终端的性能参数，其中，所述性能参数包括所述第二终端的设备性能参数和网络质量参数，所述所有与会者各自对应的终端包括所述第二终端；

向所述第二终端发送与所述性能参数匹配的音视频数据流。

获取所述第一终端的性能参数，其中，所述性能参数包括所述第一终端的网络质量参数；

基于所述性能参数预测所述第一终端在接收所述目标音视频数据流和所述混屏数据流的情况下，所述音视频会话的丢包率是否大于预设丢包率阈值；

若所述丢包率大于预设丢包率阈值，则向所述第一终端发送预警信息。

本实施方式，上述网络质量参数具体可以包括丢包率、第一终端的接收流量等。与其如图1所示实施例中的以下实施方式对应：会话服务器可以根据接收到的第一终端的丢包率、第一终端当前接收的流量，以及第一输入所请求的流量(即目标音视频数据流的流量)来预测，若所述第一终端在接收所述目标音视频数据流和所述混屏数据流的情况下，所述第一终端进行音视频会话过程中的丢包率是否会大于预设丢包率阈值，从而在预测结果为：所述第一终端在接收所述目标音视频数据流和所述混屏数据流的情况下，所述第一终端进行音视频会话过程中的丢包率会大于预设丢包率阈值，则向第一终端发送所述预警信息，否则，可以不发送所述预警信息。

进一步的，在向所述第一终端发送预警信息之后，若接收到第一终端对所述预警信息反馈的确认信息后，才执行向所述第一终端发送目标音视频数据流的步骤。

本实施方式与如图1所示方法实施例中，第一终端向会话服务器发送性能参数，并接收预警信息的具体实施例，具有相同的有益效果，在此不再赘述。

可选的，所述方法还包括：

接收所述第一终端发送的释放请求，其中，所述释放请求携带有所述目标音视频标识；

响应于所述释放请求，停止向所述第一终端发送所述目标音视频数据流。

本实施方式中，上述释放请求与如图1所示方法实施例中，第一终端向会话服务器发送的释放请求具有相同含义，且与如图1所示方法实施例中第一终端向会话服务器发送释放请求的具体实施例具有相同的有益效果，在此不再赘述。

本申请实施例提供的第二种音视频会话方法中，会话服务器能够接收终端发送的混屏策略指示信息，以及与该混屏策略指示信息调整混屏策略，并基于调整后的混屏策略对接收到的音视频数据流进行混屏处理，然后按照该混屏策略指示信息将混屏处理后的音视频数据流发送至指定的与会者终端，从而能够提升音视频会话方法的灵活性。

为便于说明，以下提供主席与会者控制模式和自由控制模式的实施例，以对音视频会话过程进行进一步说明。

其中，在主席与会者控制模式下，在音视频会话过程中，有明显的主持人的角色(即主席与会者或主席角色)，音视频会话的控制完全由主持人进行管理和控制，则音视频会话过程可以包括以下步骤：

步骤1：所有成员加入音视频会话，音视频会话的发起人可以默认为主席角色，具有音视频会话的管理操作权限。

步骤2：与会人员分别加入音视频会话，每一个与会者都能在音视频会话界面上看到与会人员列表以及与会人员编号，与混屏格中的编号相对应。会话服务器做所有终端的混屏并对每一个与会者的终端做统一的数据分发。会话服务器在收到主席角色的管理指令(即携带有混屏策略指示信息的指令)时，会按照指令调整混屏的策略。

步骤3：所有与会者的终端在加入音视频会话后与会话服务器端建立信令通道和媒体通道两条通道，信令通道用于管理音视频会话状态，比如状态推送，加入退出等，媒体通道用于上传和接受视频流。

步骤4：与会者的终端成功加入音视频会话后，会话服务器的混屏分为两个区域，一个是突出显示区域，一个是混屏区域。混屏区的内容为所有与会者的混屏数据，横向排版为佳。突出显示区显示为可选可控的，默认为主席角色的音视频流，主席也可以根据音视频会话的需要调整突出显示区为其他的某一个与会成员。例如：调整某一与会者处于禁言状态，将与会者A终端调整为仅接收与会者B的音视频数据流等。

步骤5：在音视频会话的任何时刻，主席角色可以变更视频区的突出显示区。例如：主席角色的终端向会话服务器发起管理指令，带着突出显示区需要加载的成员编号，会话服务器在接收到指令后进行鉴权，鉴权通过后会将突出显示区绘制主席要求的与会人，并与混屏区的内容进行混屏，修改后发送给各与会者的终端。

与主席与会者控制模式不同的是，自由控制模式下，每一个与会者的终端都可以向会话服务器发送混屏策略指示信息，以调节各自的混屏策略。在自由控制模式下，视频会话过程可以包括以下步骤：

步骤1：每个参与者如ABCD四方参会，分别都将自己的视频数据发送到会话服务器，会话服务器将做媒体的统一控制管理，进行混音和混频等处理，然后会话服务器将混屏后的数据发给各客户端。

需要说明的是，上述会话服务器对视频数据流进行混屏的混屏模型可以包括蒙版添加模块和区域绘制模块。

其中，蒙版添加模块可以通过以下算法实现：

上述算法用于添加底部蒙版，以使每一个视频数据流与对应的与会者关联，以基于该底部蒙版实现向执行与会者发送视频数据流，或者向全部与会者发送指定与会者的视频数据流。

另外，上述区域绘制模块可以通过以下算法实现：

上述区域绘制模块与现有的混屏技术中的区域绘制模块具有相同工作原理，在此不作具体阐述。

另外，会话服务器还可以通过以下算法实现获取最少需要混频的数量：

在具体实施中，会话服务器可以基于以上算法获取最少需要混屏的视频数据流的数量，例如：在视频会话过程中，从与会者ABCD分别获取视频数据流，且向A发送的混屏数据流可以是对与会者BCD发送的视频会话进行混屏后得到的混屏数据。另外，在与会者A的终端处，可以将与会者A的终端通过摄像头拍摄的视频添加在视频会话界面中。这样，可以减少向与会者A的终端发送的混屏数据中包括的视频数据流的数量。

当然，在具体实施中，也可以向A发送对与会者ABCD发送的视频会话进行混屏后得到的混屏数据后，并在与会者A的终端上，将会者A的终端通过摄像头拍摄的视频覆盖在混屏数据中与会者A对应的视频数据流上，在此不作具体限定。

步骤2：会话服务器下发的所有数据都需要有标识，表示视频数据流的信息内容，也就是说会话服务器向与会者的终端发送携带视频标识的视频数据流。

例如：会话服务器在下发混屏数据流时，在实时传输协议(Real-time TransportProtocol，RTP)包中标记该混屏数据流的标识(即id)为0。一般多人视频业务只需最多支持8路，所以标识只需要3个bit即可。其余与会者的独立视频数据可以结合与会业务进行分配。

比如参会人为4方，分别为A、B、C、D，则对应的视频标识分别为1、2、3、4。在RTP中对应编号的数据就表示来自对应用户的视频数据流。

步骤3：在与会者终端的网络性能和终端性能都比较良好的情况下，客户端以在接收混屏数据的同时，向会话服务器申请独立的高保真视频流。也就是说，与会者终端可以向会话服务器发送用于指示所述会话服务器发送目标视频数据流至所述第一终端的混屏策略指示信息。

其中，终端性能由MDM适配取得，网络性能可以以5％的丢包率为阈值，作为网络传输状况是否良好的界限判断。比如与会者A的终端在收到了ABCD的混屏数据后，想着重的看与会者B的视频，则可以向会话服务器申请编号为2的视频数据。会话服务器在接收到与会者A的终端发送的请求后，会在转发编号为0的混屏数据同时，将与会者B上传的自身数据不做修改的转发到A的终端。这时与会者B上传的自身数据到与会者A的终端的独立数据将采取独立的传输模式，且数据视频流控制协议(RTP Control Protocol，RTCP)也将与会者B上传的自身数据与混屏数据进行区分，以为将与会者B上传的自身数据发送到与会者A的终端提供单独的传输控制机制。

步骤4：与会者A的终端在收到编号为0和2的两股数据流，其分别为混屏数据和与会者B上传的高保真数据。

此时，与会者A可以按照自己的需求自定义的控制两股视频的布局和排版。同时，与会者A也可以继续申请与会者C和与会者D的高保真数据，实现更丰富的需求体验。与此同时，当与会者A的终端接受到的视频流总数大于1(即至少包括一个高保真视频数据流)时，与会者A可以对任何一个视频流做释放请求，会话服务器收到请求后，将不再向与会者A的终端下发请求释放的高保真视频数据。

可选的，上述视频会话还可以包括以下过程：

步骤5：当有多股视频流共存的情况下，与会者A可以根据自己的需求，用手势拖拽的形式将视频框(即子窗口)进行自定义需求的排版和位置放置。拖拽的排版可以有九宫格形式的(所有视频流大小一致放置在九宫格中)和主从模式的(主要观看对象的视频在最中间，且显示尺寸最大，其余视频在下面以小图排成一列)。

步骤6：在传输过程中，与会者A的终端可以通过RTCP获取用于反馈网络质量的网络性能参数，根据经验值，我们将5％作为传输的预设丢包率阈值，即当RTP丢包率达到5％的时候，音视频的质量将受到一定的影响。用户在视频交互过程中，如果数据传输的丢包率大于5％，则终端会自动提示用户当前的网络质量无法承担当前的数据压力，如果与会者A的终端正在接收一股以上的视频数据流，则与会者A的终端会进行自动的提示，例如：建议用户关闭某股视频数据流。

步骤7：与会者A的终端在申请某一路高保真视频时，会话服务器会根据与会者A的终端当前接收的流量(计为：CT，其表示当前接收的视频数据流的流量值)以及丢包率(计为：LR)，加上用户申请的流量(计为：AT，其表示混屏策略指示信息指示向与会者A的终端发送的目标音视频数据流的流量值)是否会造成视频会话的丢包率超过5％来决定是否向客户端推送提醒。

具体的判断公式如下：

ELR＝LR×(1+AT/CT)>5％？。

其中，ELR表示：预测出的与会者A的终端在当前接收的视频数据流的基础上，再增加接收混屏策略指示信息指示向与会者A的终端发送的目标音视频数据流时，与会者A的终端的总丢包率。

本步骤表示，如果判断结果为：ELR>5％，则会话服务器会向与会者A的终端下发通知(即预警信息)，告知与会者A的终端在申请新的视频流后，可能会导致丢包率过高无法保证视频流畅，与会者A的终端可以基于该通知选择继续或者放弃申请新的视频流。

本实施方式中，考虑到参与会话的终端能力与终端的网络状况各不相同，，通过上述自由控制模式的方案，将更多的选择权交给用户，以满足用户自主选择符合自己终端实际情况的体验效果，从而支持更丰富的个性化需求。同时，会话服务器还结合MDM功能，以向用户推荐与各终端性能适配的混屏方式，以保证用户初始状态的最优化。另外，采用质量预警和预测丢包率的方案，能够提升音视频通话的质量。

请参阅图3，是本发明实施例提供的第一种音视频会话装置的结构图，该第一种音视频会话装置用于第一终端，如图3所示，该第一种音视频会话装置300可以包括：

第一接收模块301，用于在所述第一终端处于音视频会话的情况下，接收会话服务器发送的混屏数据流，其中，所述混屏数据流由所述音视频会话中的所有与会者的音视频数据流进行混屏处理得到；

第一用户输入模块302，用于接收用户的第一输入；

第一发送模块303，用于响应于所述第一输入，向所述会话服务器发送混屏策略指示信息；

可选的，在所述混屏策略指示信息用于指示所述会话服务器按照目标混屏策略向所述所有与会者分别发送不同的音视频数据流的情况下，所述混屏策略指示信息携带有目标音视频标识，并用于指示所述会话服务器发送所述目标音视频标识对应的目标音视频数据流至所述第一终端，其中，所述所有与会者的音视频数据流包括所述目标音视频数据流。

可选的，第一种音视频会话装置300还包括：

第三接收模块，用于接收所述会话服务器发送的所述目标音视频数据流，并将所述目标音视频数据流与所述混屏数据流区别显示。

可选的，第一种音视频会话装置300还包括：

第二用户输入模块，用于接收用户对所述目标音视频标识的第二输入；

第三发送模块，用于响应于所述第二输入，向所述会话服务器发送释放请求，其中，所述释放请求用于请求释放所述目标音视频数据流，以使所述会话服务器停止向所述第一终端发送所述目标音视频数据流。

可选的，第一种音视频会话装置300还包括：

第三用户输入模块，用于接收用户的第三输入；

确定模块，用于响应于所述第三输入，确定目标显示参数，其中，所述目标显示参数包括以下至少一项：所述目标音视频数据流的第一显示参数和所述混屏数据流的第二显示参数，且所述第一显示参数和/或所述第二显示参数分别包括显示尺寸和显示位置中的至少一项；

显示模块，用于按照所述第一显示参数显示所述目标音视频数据流，和/或，按照所述第二显示参数显示所述混屏数据流。

可选的，第一种音视频会话装置300还包括：

第四发送模块，用于发送性能参数，其中，所述性能参数包括所述第一终端的设备性能参数和网络质量参数；

第四接收模块，用于接收与所述性能参数匹配的音视频数据流。

可选的，第一种音视频会话装置300还包括：

第五发送模块，用于发送性能参数，其中，所述性能参数包括所述第一终端的网络质量参数；

第五接收模块，用于接收预警信息，其中，所述预警信息包括基于所述性能参数预测得到的所述第一终端在接收所述目标音视频数据流和所述混屏数据流的情况下，所述音视频会话的丢包率将大于预设丢包率阈值的指示信息。

本发明实施例提供的第一种音视频会话装置300能够执行如图1所示方法实施例中第一终端执行的各个步骤，且能够取得相同的有益效果，为避免重复，在此不再赘述。

请参阅图4，是本发明实施例提供的第二种音视频会话装置的结构图，该第二种音视频会话装置用于会话服务器，如图4所示，该第二种音视频会话装置400可以包括：

数据传输模块401，用于分别接收音视频会话中所有与会者的音视频数据流，并分别向所述所有与会者各自对应的终端发送混屏数据流，其中，所述混屏数据流由所述所有与会者的音视频数据流进行混屏处理得到；

第二接收模块402，用于接收目标与会者对应的第一终端发送的混屏策略指示信息；

第二发送模块403，用于向所述第一终端或者所述所有与会者各自对应的终端分别发送与所述混屏策略指示信息匹配的音视频数据流；

可选的，在所述混屏策略指示信息用于指示所述会话服务器按照目标混屏策略向所述所有与会者分别发送不同的音视频数据流的情况下，所述混屏策略指示信息携带有目标音视频标识，并用于指示所述会话服务器发送目标音视频数据流至所述第一终端，所述所有与会者的音视频数据流包括所述目标音视频标识对应的所述目标音视频数据流。

可选的，第二发送模块403，具体用于：

可选的，第二种音视频会话装置400还包括：

第六接收模块，用于接收第二终端的性能参数，其中，所述性能参数包括所述第二终端的设备性能参数和网络质量参数，所述所有与会者各自对应的终端包括所述第二终端；

第六发送模块，用于向所述第二终端发送与所述性能参数匹配的音视频数据流。

可选的，第二种音视频会话装置400还包括：

获取模块，用于获取所述第一终端的性能参数，其中，所述性能参数包括所述第一终端的设备性能参数和网络质量参数；

预测模块，用于基于所述性能参数预测所述第一终端在接收所述目标音视频数据流和所述混屏数据流的情况下，所述音视频会话的丢包率是否大于预设丢包率阈值；

第七发送模块，用于若所述丢包率大于预设丢包率阈值，则向所述第一终端发送预警信息。

可选的，第二种音视频会话装置400还包括：

第七接收模块，用于接收所述第一终端发送的释放请求，其中，所述释放请求携带有所述目标音视频标识；

第八发送模块，用于响应于所述释放请求，停止向所述第一终端发送所述目标音视频数据流。

本发明实施例提供的第二种音视频会话装置400能够执行如图2所示方法实施例中会话服务器执行的各个步骤，且能够取得相同的有益效果，为避免重复，在此不再赘述。

本申请实施例还提供一种第一终端。请参见图5，该第一终端500包括处理器501、存储器502，存储在存储器502上并可在处理器501上运行的程序或指令，该程序或指令被处理器501执行时实现如图1所示音视频会话方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供一种会话服务器。请参见图6，该会话服务器600包括处理器601，存储器602，存储在存储器602上并可在处理器601上运行的程序或指令，该程序或指令被处理器601执行时实现如图2所示音视频会话方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述图1或图2所示的音视频会话方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述的计算机可读存储介质，如ROM、RAM、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种音视频会话方法，用于第一终端，其特征在于，所述方法包括：

接收用户的第一输入；

2.根据权利要求1所述的方法，其特征在于，在所述混屏策略指示信息用于指示所述会话服务器按照目标混屏策略向所述所有与会者分别发送不同的音视频数据流的情况下，所述混屏策略指示信息携带有目标音视频标识，并用于指示所述会话服务器发送所述目标音视频标识对应的目标音视频数据流至所述第一终端，其中，所述所有与会者的音视频数据流包括所述目标音视频数据流。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，在所述将所述目标音视频数据流与所述混屏数据流区别显示之后，所述方法还包括：

接收用户对所述目标音视频标识的第二输入；

5.根据权利要求3所述的方法，其特征在于，在所述将所述目标音视频数据流与所述混屏数据流区别显示之后，所述方法还包括：

接收用户的第三输入；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收与所述性能参数匹配的音视频数据流。

7.根据权利要求2所述的方法，其特征在于，所述方法还包括：

在所述接收用户的第一输入之后，所述方法还包括：

8.一种音视频会话方法，用于会话服务器，其特征在于，所述方法包括：

接收目标与会者对应的第一终端发送的混屏策略指示信息；

9.根据权利要求8所述的方法，其特征在于，在所述混屏策略指示信息用于指示所述会话服务器按照目标混屏策略向所述所有与会者分别发送不同的音视频数据流的情况下，所述混屏策略指示信息携带有目标音视频标识，并用于指示所述会话服务器发送目标音视频数据流至所述第一终端，所述所有与会者的音视频数据流包括所述目标音视频标识对应的所述目标音视频数据流。

10.根据权利要求8所述的方法，其特征在于，所述向所述第一终端或者所述所有与会者各自对应的终端分别发送与所述混屏策略指示信息匹配的音视频数据流，包括：

11.根据权利要求8所述的方法，其特征在于，在所述接收目标与会者对应的第一终端发送的混屏策略指示信息之后，所述方法还包括：

向所述第二终端发送与所述性能参数匹配的音视频数据流。

12.根据权利要求9所述的方法，其特征在于，在所述接收目标与会者对应的第一终端发送的混屏策略指示信息之后，所述方法还包括：

获取所述第一终端的性能参数，其中，所述性能参数包括所述第一终端的设备性能参数和网络质量参数；

13.根据权利要求9所述的方法，其特征在于，所述方法还包括：

14.一种音视频会话装置，用于第一终端，其特征在于，所述装置包括：

第一用户输入模块，用于接收用户的第一输入；

15.一种音视频会话装置，用于会话服务器，其特征在于，所述装置包括：

16.一种第一终端，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的音视频会话方法中的步骤。

17.一种会话服务器，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求8至13中任一项所述的音视频会话方法中的步骤。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的音视频会话方法中的步骤；或者实现如权利要求8至13中任一项所述的音视频会话方法中的步骤。