CN112532913A

CN112532913A - 一种视频混流方法、视频系统及服务器

Info

Publication number: CN112532913A
Application number: CN202011378940.6A
Authority: CN
Inventors: 林正显
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-19

Abstract

本发明提供一种视频混流方法，一方面，服务器在混流视频流时，同时生成每条视频流所携带的标识信息与第一视频图像在混合视频流的视频画面中的显示位置的关联信息。服务器只需进行一次混流处理，减轻了服务器的混流负担。另一方面，客户端可根据关联信息找到与标识信息对应的第一视频图像的显示位置，并将该第一视频图像替换为实时采集的第二视频图像，从而解决了视频画面与本人动作的延迟问题。

Description

一种视频混流方法、视频系统及服务器

技术领域

本发明涉及流媒体技术领域，尤其涉及一种视频混流方法、视频系统及服务器。

背景技术

在视频会议中，参与会议的各用户需要将实时拍摄的视频图像以视频流的形式上传到服务器进行混流处理。处理后的混合视频流下发到各客户端，以使用户在混合视频流的视频画面中能看到其他用户实时获取的视频图像。

服务器有两种混流方法，第一种是将各用户上传的视频都混流合并成一路混合视频流，并返回至各客户端，每个用户接收到的混合视频流都是一样的。用户在所返回的混合视频流的视频画面中会看到包括本人的所有参会人员的视频图像，但由于包括本人的视频图像经过上传、混流、下载，会与本人的动作有延迟，导致用户体验较差。第二种是服务器进行多次不同视频流的组合混流，返回至各客户端的混合视频流并不一样，混合视频流中不包含本人上传的视频流，即当有N个参会人员时，服务器需要进行N次混流。这样虽然能解决上述延迟问题，但参会人员较多时，服务器混流负担过重。

发明内容

本发明提供了一种视频混流方法、视频系统及服务器，既可以解决视频画面与本人动作的延迟问题，又可以减轻服务器的混流负担。

根据本发明实施例的第一方面，提供一种视频混流方法，应用于服务器，所述服务器与至少两个客户端连接，所述方法包括：

接收至少两个客户端发送的视频流，所述视频流中携带与所述客户端对应的标识信息以及第一视频图像；

将所接收到的至少两路视频流进行混流处理，得到混合视频流；

基于所述第一视频图像在所述混合视频流的视频画面中的显示位置，确定所述显示位置与所述标识信息的关联信息；

将所述混合视频流与所述关联信息下发至与所述标识信息对应的客户端，以使所述客户端基于所述关联信息，在所述混合视频流的视频画面中查找与所述标识信息相应的第一目标显示位置，并在所述第一目标显示位置上将所述第一视频图像替换为实时采集的第二视频图像。

根据本发明实施例的第二方面，提供一种视频混流方法，应用于客户端，所述方法包括：

采集第一视频图像；

向服务器上传视频流，所述视频流携带与所述客户端对应的标识信息以及第一视频图像，以使所述服务器将至少两个客户端采集的视频流进行混流处理，得到混合视频流；并基于所述第一视频图像在所述混合视频流的视频画面中的显示位置，确定所述显示位置与所述标识信息的关联信息；

接收所述服务器下发的所述混合视频流与所述关联信息，

基于所述关联信息，在所述混合视频流的视频画面中查找与所述标识信息相应的第一目标显示位置；

将所述第一目标显示位置上的第一视频图像替换为实时采集的第二视频图像。

根据本发明实施例的第三方面，提供一种视频系统，包括服务器和与之相连的至少两个客户端，

所述客户端，用于采集第一视频图像后，向所述服务器上传视频流，所述视频流携带与所述客户端对应的标识信息以及第一视频图像；

所述服务器，用于将所接收到的至少两路视频流进行混流处理，得到混合视频流；以及

基于所述第一视频图像在所述混合视频流的视频画面中的显示位置，确定所述显示位置与所述标识信息的关联信息；以及

将所述混合视频流与所述关联信息下发至与所述标识信息对应的客户端；

所述客户端，还用于基于所述关联信息，在所述混合视频流的视频画面中查找与所述标识信息相应的第一目标显示位置；以及

根据本发明实施例的第四方面，提供一种服务器，所述服务器与至少两个客户端连接，所述服务器包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明提供了一种视频混流方法，一方面，服务器在混流视频流时，同时生成每条视频流所携带的标识信息与第一视频图像在混合视频流的视频画面中的显示位置的关联信息。服务器只需进行一次混流处理，减轻了服务器的混流负担。另一方面，客户端可根据关联信息找到与标识信息对应的第一视频图像的显示位置，并将该第一视频图像替换为实时采集的第二视频图像，从而解决了视频画面与本人动作的延迟问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本发明的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1A是本发明根据一示例性实施例示出的一种视频混流方法的应用场景。

图1B是本发明根据一示例性实施例示出的一种视频混流方法的示意图。

图1C是本发明根据另一示例性实施例示出的一种视频混流方法的示意图。

图2是本发明根据一示例性实施例示出的一种视频混流方法的流程图。

图3是本发明根据一示例性实施例示出的视频画面中显示位置的编号标识。

图4是本发明根据另一示例性实施例示出的一种视频混流方法的流程图。

图5是本发明根据一示例性实施例示出的视频画面。

图6是本发明根据另一示例性实施例示出的一种视频混流方法的应用场景。

图7是本发明根据另一示例性实施例示出的一种视频混流方法的流程图。

图8A是本发明根据另一示例性实施例示出的一种视频混流方法的示意图。

图8B是本发明根据一示例性实施例示出的视频画面显示位置的编号标识。

图9是本发明根据另一示例性实施例示出的一种视频混流方法的流程图。

图10是本发明根据另一示例性实施例示出的一种视频混流方法的流程图。

图11是本发明根据另一示例性实施例示出的一种视频混流方法的流程图。

图12是本发明根据另一示例性实施例示出的一种视频系统的示意图。

图13是本发明根据另一示例性实施例示出的一种服务器的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

接下来对本发明实施例进行详细说明。

参见图1A，为本发明的应用场景。在进行多人线上视频会议，或直播连麦等需要进行视频混流处理时，各客户端可通过网络与服务器相连。如图1A所示，客户端A、B、C、D分别通过网络与服务器相连，其中，所述服务器可以是一个服务器，也可以是包含多个服务器的服务器组。各客户端可以分别将摄像头采集到的第一视频图像A、B、C、D以视频流的形式上传到服务器进行混流处理。其中第一视频图像可以包含用户本人图像。服务器有两种混流方法：第一种如图1B所示，直接将4路携带第一图像的视频流混流为一路混合视频流，混合视频流的视频画面中显示有第一视频图像A、B、C、D。服务器将所述混合视频流下发到各客户端。但由于用户在混合视频流的视频画面中会看到包括本人的第一视频图像，而该第一视频图像经过上传、混流、下载后，会与本人的动作有延迟。第二种如图1C所示，服务器需要进行4次混流，得到4路不同的混合视频流。并将不包含第一视频图像A的混合视频流返回至客户端A，不包含第一视频图像B的混合视频流返回至客户端B，如此类推。这样，返回的视频画面中不包含用户本人的第一视频图像，因此解决了延迟问题，但当有N路视频流需要进行混流时，服务器就需要进行N次混流处理，使得服务器混流压力过大。

为了解决上述技术问题，本发明根据第一实施例提出了一种视频混流方法，应用于服务器，所述服务器与至少两个客户端连接。如图2所示，所述方法包括：

步骤210：接收至少两个客户端发送的视频流，所述视频流中携带与所述客户端对应的标识信息以及第一视频图像；

步骤220：将所接收到的至少两路视频流进行混流处理，得到混合视频流；

步骤230：基于所述第一视频图像在所述混合视频流的视频画面中的显示位置，确定所述显示位置与所述标识信息的关联信息；

步骤240：将所述混合视频流与所述关联信息下发至与所述标识信息对应的客户端，以使所述客户端基于所述关联信息，在所述混合视频流的视频画面中查找与所述标识信息相应的第一目标显示位置，并在所述第一目标显示位置上将所述第一视频图像替换为实时采集的第二视频图像。

在一些实施例中，客户端可调用摄像头采集第一视频图像，在所述第一视频图像按照视频传输标准协议进行编码、压缩、封装时，可加入与所述客户端对应的标识信息，如用户ID、账号等信息。如在上述的例子中，客户端A、B、C、D的标识信息可以分别是A、B、C、D。所述第一视频图像经过编码、压缩和封装后，以视频流的形式上传到服务器。如图1B所示，服务器将接收到的所有视频流进行混流处理，得到混合视频流。本领域技术人员可以根据需要选取不同的视频混流技术进行混流处理，本发明在此不做限制。

得到混合视频流后，服务器还基于所述第一视频图像在所述混合视频流的视频画面中的显示位置，确定所述显示位置与所述标识信息的关联信息。如图3(a)所示，在一些实施例中，混合视频流的视频画面中的各个显示位置可以按照如从上到下、从左到右的顺序依次编号为1、2……N，也可以如图3(b)利用(x，y)坐标来标识各个显示位置。本领域技术人员可根据需要选取显示位置的编号标识方法。本发明在此不做限制。在上述例子中，得到混合视频流后，服务器可以生成如表1所示的关联信息。所述混合视频流与关联信息下发至与所述标识信息对应的客户端。

表1

标识信息	显示位置
		A	(0,1)
B	(0,2)
		C	(1,1)
D	(1,2)
		……	……
N	(x，y)

客户端在接收到所述混合视频流与所述关联信息后，可以在所述关联信息中查找与所述标识信息对应的第一目标显示位置，如客户端C可以在所述关联信息中查找到标识信息C对应的第一目标显示位置是(1,1)，即客户端C所上传的第一视频图像C，显示在混合视频流的视频画面中的位置(1,1)上。并在所述第一目标显示位置上将所述第一视频图像替换为实时采集的第二视频图像。如在上述例子中，客户端C可以将摄像头实时采集到的第二视频图像替换位于位置(1,1)的第一视频图像，使得用户在替换后的视频画面中，在显示位置(1,1)上看到的是摄像头实时采集图像的回显，从而解决了视频画面与本人动作的延迟问题。此外，服务器只需经过一次混流处理，混流负担较轻。

以下为本发明提供的第二实施例：

参见图4、图5，本实施例是在多人线上会议或直播连麦的场景下，在混合视频流的视频画面的每个显示位置区域内还可以显示有音频图标，以表示用户是否在发言。在上述第一实施例的基础上，本实施例还包括如图4的步骤：

步骤410：接收客户端发送的音频流，所述音频流携带所述标识信息；

如在上述例子中，客户端B为发言方，客户端B在确定本端客户端为发言方的情况下，可以将采集到的音频经过编码、封装后以音频流的形式上传到服务器，其中，所述音频流同样携带与客户端对应的标识信息，如用户ID、用户账号等信息。在一些实施例中，发言方可以不只一个用户，如客户端A、B的用户同时讲话，此时，服务器可以接收所有发言方客户端发送的音频流。

步骤420：向所述至少两个客户端下发所述音频流，以使所述客户端基于所述关联信息，在所述混合视频流的视频画面中查找所述音频流所携带的标识信息对应的第二目标显示位置，并在所述第二目标显示位置的区域内添加音频图标。

如上述例子中，服务器接收到客户端A、B发送的音频流后，可以直接将两路音频流下发到客户端A、B、C、D，也可以将两路音频进行混流处理后再下发混合音频流，本发明在此不做限定。客户端A、B、C、D在接收到所述音频流后，可以根据音频流所携带的标识信息A、B，在如上述表1的关联信息中查找与所述标识信息A、B对应的第二目标显示位置，分别是(0,0)与(0,1)。第二目标显示位置的区域可以指该位置的矩形区域或其他形状区域，在一些实施例中，可以是在第二目标显示位置的区域内添加音频图标，以表示该区域内显示的用户正在发言，其他显示位置的区域不显示音频图标(如图5所示)；也可以是所有显示位置区域内都显示有音频图标，而第二目标显示位置区域内的音频图标是闪烁状态或其颜色与其他位置区域的音频图标颜色不同。

值得一提的是，本实施例中步骤410与步骤210的执行没有时间先后顺序。服务器可以先接收客户端发送的视频流，再接收音频流，也可以同时接收。同理，步骤420与步骤240的执行也没有时间先后顺序，服务器可以先下发混合视频流，再下发音频流，也可以同时下发。本发明在此不做限制。

本实施例提供的一种视频混流方法，可以在混合视频流的视频画面中，对发言方所在的显示位置区域添加音频图标，使得用户可快速简便判断出发言方，提高用户体验。

以下为本发明提供的第三实施例：

本实施例的应用场景如图6所示，对于地处不同区域的线上视频会议用户，与其客户端连接的服务器可以不相同。服务器之间可以通过网络连接，也可以组成一个服务器组。例如在一个20人的线上视频会议中，为了减轻服务器的混流压力，20路视频流可以分到两个以上的服务器进行混流。如在图6中，可以有10路视频流分配到服务器1进行混流处理，得到混合视频流1以及关联信息1，所述关联信息1包括该10路视频流的第一视频图像在混合视频流的视频画面中的显示位置与该10个客户端对应的标识信息的关联信息。其余10路视频由服务器2混流，得到混合视频流2以及关联信息2，所述关联信息2包括其余10路视频流的第一视频图像在混合视频流的视频画面中的显示位置与其余10个客户端对应的标识信息的关联信息。在上述第一实施例的基础上，本实施例还包括如图7的步骤：

步骤710：接收其他服务器发送的混合视频流；

步骤720：将所述混合视频流与所述关联信息以及其他服务器发送的混合视频流下发至与所述标识信息对应的客户端；

步骤730：所述客户端查找所述第一目标显示位置之前，还包括：将接收到的所有混合视频流的视频画面进行合并，得到合并视频画面，并确定所有混合视频流的视频画面在所述合并视频画面中的显示位置。

以服务器1为例，服务器1还可以接收服务器2发送的混合视频流2，同时服务器1也可以向服务器2发送混合视频流1。服务器1可以向与其连接的客户端下发混合视频流1、关联信息1、以及混合视频流2。如图8A所示，客户端可以将所有接收到的混合视频流的视频画面进行渲染合并，得到合并视频画面。

在一些实施例中，如图8B所示，由于在合并视频画面中，每一个表示显示位置的坐标都对应着两个显示位置，即合并视频画面中有两个显示位置是用相同坐标表示的。实际上，当客户端对N路混合视频流的视频画面进行合并时，合并视频画面中就有N个显示位置是用同一坐标表示的，因此无法准确定位第一目标显示位置。为了解决上述问题，客户端在根据所述关联信息查找第一目标显示位置之前，还需要先确定所有混合视频流的视频画面在合并视频画面中的显示位置。其中，所述显示位置的编号标识方法如第一实施例所述，本发明在此不再赘述。此外，混合视频流的视频画面在合并视频画面中的显示位置可以由服务器确定编排，客户端根据服务器确定的显示位置信息对视频画面进行合并；该显示位置也可以由客户端确定编排，本发明在此不做限制。如图8A、B所示，混合视频流1的视频画面在合并视频画面中的显示位置为(0,1)，混合视频流2的视频画面在合并视频画面中的显示位置为(0,2)。客户端在确定混合视频流的视频画面在所述合并视频画面中的显示位置后，再根据所述关联信息查找第一目标显示位置。

在一些实施例中，服务器2在生成混合视频流2与关联信息2后，可以将所述混合视频流2与所述关联信息2下发给客户端，只将混合视频流2转发给服务器1。这样，客户端只会接收到一份关联信息2，在确定出混合视频流的视频画面在合并视频画面中的显示位置后，基于一份关联信息2，便可查找到与标识信息对应的第一目标显示位置。

在另外一些实施例中，为了节省服务器的处理资源，服务器2可以将所述混合视频流2与所述关联信息2发送到客户端与服务器1。这样，服务器1向客户端下发混合视频流1与所述关联信息1，以及混合视频流2时，混合视频流2中还携带所述关联信息2。客户端需要历遍关联信息1、2才能找到与标识信息对应的第一目标位置。为了节约客户端处理资源，本实施例中，所述关联信息还可以携带有流标识，所述流标识用于标识生成所述混合视频流的服务器。作为一个例子，流标识可以是服务器的IP地址，也可以是其他能使客户端区分出自己所连接的服务器与其他服务器的标识信息。如在上述例子中，客户端在向服务器1上传视频流时，所封装的数据包中会携带服务器1的IP地址1。当关联信息1携带服务器1的IP地址1，关联信息2携带服务器2的IP地址2时，客户端可以先根据IP地址1查找对应的关联信息1，再在所述关联信息1中查找与标识信息对应的第一目标位置，这样客户端就不必历遍所有关联信息。

本发明所提供的一种视频混流方法，一方面，服务器在混流视频流时，同时生成每条视频流所携带的标识信息与第一视频图像在混合视频流的视频画面中的显示位置的关联信息。服务器只需进行一次混流处理，减轻了服务器的混流负担。另一方面，客户端可根据关联信息找到与标识信息对应的第一视频图像的显示位置，并将该第一视频图像替换为实时采集的第二视频图像，从而解决了视频画面与本人动作的延迟问题。

基于上述第一实施例，本发明还提供了一种应用在客户端侧的视频混流方法，包括如图9的步骤：

步骤910：采集第一视频图像；

客户端可调用摄像头采集第一视频图像；

步骤920：向服务器上传视频流，所述视频流携带与所述客户端对应的标识信息以及第一视频图像，以使所述服务器将至少两个客户端采集的视频流进行混流处理，得到混合视频流；并基于所述第一视频图像在所述混合视频流的视频画面中的显示位置，确定所述显示位置与所述标识信息的关联信息；

步骤930：接收所述服务器下发的所述混合视频流与所述关联信息；

步骤940：基于所述关联信息，在所述混合视频流的视频画面中查找与所述标识信息相应的第一目标显示位置；

步骤950：将所述第一目标显示位置上的第一视频图像替换为实时采集的第二视频图像。

步骤920-950的实施方式参见第一实施例，本发明在此不再赘述。

基于上述第二实施例，本发明还提供了一种应用在客户端侧的视频混流方法，包括如图10的步骤：

步骤1010：接收所述服务器下发的音频流，所述音频流携带所述标识信息；

步骤1020：基于所述关联信息，在所述混合视频流的视频画面中查找所述音频流所携带的标识信息对应的第二目标显示位置，并在所述第二目标显示位置的区域内添加音频图标；

步骤1010-1020的实施方式参见第二实施例，本发明在此不再赘述。

在一些实施例中，对于发言方的客户端，在执行步骤1010之前，还可以在确定本端客户端为发言方的情况下，先向所述服务器上传音频流，所述音频流携带所述标识信息。

基于上述第三实施例，本发明还提供了一种应用在客户端侧的视频混流方法，包括如图11的步骤：

步骤1110：接收所述服务器下发的来自其他服务器的混合视频流；

步骤1120：查找所述第一目标显示位置之前，还包括：将所有接收到的混合视频流的视频画面进行合并，得到合并视频画面；

步骤1130：确定所有混合视频流的视频画面在所述合并视频画面中的显示位置；

步骤1110-1130的实施方式参见第三实施例，本发明在此不再赘述。

在一些实施例中，所述其他服务器发送的混合视频流还携带有：其他客户端的第一视频图像在混合视频流的视频画面中的显示位置与其他客户端对应的标识信息的关联信息；所述关联信息还携带流标识，所述流标识用于标识生成所述混合视频流的服务器；客户端在查找所述第一目标显示位置之前，还包括：根据所述流标识查找对应的关联信息。具体实施方式参见第三实施例，本发明在此不再赘述。

基于上述第一实施例，本发明还提供了一种视频系统，包括服务器和与之相连的至少两个客户端。如图12所示，以服务器30与客户端10、20连接为例，包括以下步骤：

步骤1210：客户端10采集第一视频图像10；客户端20采集第一视频图像20；

步骤1220：客户端10向服务器30上传视频流10，所述视频流携带与客户端10对应的标识信息10以及第一视频图像10；客户端20向服务器30上传视频流20，所述视频流携带与客户端20对应的标识信息20以及第一视频图像20；

步骤1230：服务器30将所述视频流10与所述视频流20进行混流处理，得到混合视频流30；

步骤1240：服务器30基于所述第一视频图像10、20在所述混合视频流30的视频画面中的显示位置，确定所述显示位置与所述标识信息的关联信息30；

步骤1250：服务器30向客户端10、20下发所述混合视频流30与所述关联信息30；

步骤1260：客户端10基于所述关联信息30，在所述混合视频流30的视频画面中查找与所述标识信息10相应的第一目标显示位置10；客户端20基于所述关联信息30，在所述混合视频流30的视频画面中查找与所述标识信息20相应的第一目标显示位置20；

步骤1270：客户端10将所述第一目标显示位置10上的第一视频图像10替换为实时采集的第二视频图像10；客户端20将所述第一目标显示位置20上的第一视频图像20替换为实时采集的第二视频图像20；

步骤1210-1270的具体实施方式参见上述第一实施例，本发明在此不再赘述。

基于上述任意实施例所述的视频混流方法，本发明还提供了如图13所示的服务器的结构示意图。如图13，在硬件层面，该服务器包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述任意实施例所述的视频混流方法。

上述对本发明特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

Claims

1.一种视频混流方法，应用于服务器，所述服务器与至少两个客户端连接，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收客户端发送的音频流，所述音频流携带所述标识信息；

向所述至少两个客户端下发所述音频流，以使所述客户端基于所述关联信息，在所述混合视频流的视频画面中查找所述音频流所携带的标识信息对应的第二目标显示位置，并在所述第二目标显示位置的区域内添加音频图标。

3.根据权利要求1所述的方法，其特征在于，所述服务器还与其他服务器连接，所述方法还包括：

接收其他服务器发送的混合视频流；

将所述混合视频流与所述关联信息以及其他服务器发送的混合视频流下发至与所述标识信息对应的客户端；

所述客户端查找所述第一目标显示位置之前，还包括：

将接收到的所有混合视频流的视频画面进行合并，得到合并视频画面，并确定所有混合视频流的视频画面在所述合并视频画面中的显示位置。

4.根据权利要求3所述的方法，其特征在于，所述其他服务器发送的混合视频流还携带有：

其他客户端的第一视频图像在混合视频流的视频画面中的显示位置与其他客户端对应的标识信息的关联信息；

所述关联信息还携带流标识，所述流标识用于标识生成所述混合视频流的服务器；

所述客户端查找所述第一目标显示位置之前，还包括：

根据所述流标识查找对应的关联信息。

5.一种视频混流方法，应用于客户端，其特征在于，所述方法包括：

采集第一视频图像；

接收所述服务器下发的所述混合视频流与所述关联信息；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

接收所述服务器下发的音频流，所述音频流携带所述标识信息；

基于所述关联信息，在所述混合视频流的视频画面中查找所述音频流所携带的标识信息对应的第二目标显示位置，并在所述第二目标显示位置的区域内添加音频图标。

7.根据权利要求6所述的方法，其特征在于，所述接收所述服务器下发的音频流前，还包括：

在确定本端客户端为发言方的情况下，向所述服务器上传音频流，所述音频流携带所述标识信息。

8.根据权利要求5所述的方法，其特征在于，所述服务器还与其他服务器连接，并接收其他服务器发送的混合视频流；所述方法还包括：

接收所述服务器下发的来自其他服务器的混合视频流，

查找所述第一目标显示位置之前，还包括：

将所有接收到的混合视频流的视频画面进行合并，得到合并视频画面；

确定所有混合视频流的视频画面在所述合并视频画面中的显示位置。

9.根据权利要求8所述的方法，其特征在于，所述其他服务器发送的混合视频流还携带有：

查找所述第一目标显示位置之前，还包括：

根据所述流标识查找对应的关联信息。

10.一种视频系统，其特征在于，包括服务器和与所述服务器相连的至少两个客户端，

11.一种服务器，所述服务器与至少两个客户端连接，其特征在于，所述服务器包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：