CN112752037A

CN112752037A - 混合音视频流的处理方法和装置

Info

Publication number: CN112752037A
Application number: CN201911044849.8A
Authority: CN
Inventors: 林建平
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2021-05-04

Abstract

本发明公开了一种混合音视频流的处理方法和装置。其中，该方法包括：获取远程庭审的庭审信息；对庭审信息进行解析得到参与音视频通话的音视频流的数量，以及每路音视频流的参数，其中，参数至少包括：每路音视频流对应的视频画面中的对象数量；基于机器学习模型处理音视频流的数量和每路音视频流的参数，确定对应的音视频混流布局的布局参数；发送布局参数至前端客户端，以使前端客户端根据布局参数生成每路音视频流对应的视频画面。本发明解决了现有技术中对于不同类型和数量的音频流使用固定的视频画面布局导致混流布局不准确的技术问题。

Description

混合音视频流的处理方法和装置

技术领域

本发明涉及互联网领域，具体而言，涉及一种混合音视频流的处理方法和装置。

背景技术

互联网日益发展的今天，大数据、互联网以及云计算被普遍结合应用、相辅相成。通过互联网，人们可以突破地域限制进行系统连接和数据交互。在法律领域，互联网也能够为广大群众提供审判流程上的无缝结合，利用互动直播视频服务所提供的互动直播、语音识别、人脸核身等相关服务，可以方便地实现远程庭审的场景需求。

在法律领域，通过远程会见媒体管理平台和互联网流媒体管理平台构建远程直播视频服务，便于当事人或代理人、法官、技术专家通过互联网技术快速接入互动直播服务，参与到远程庭审中。其中，远程庭审就是涉讼人员通过互联网方式参与到庭审中。远程庭审时，当事人或代理人、法官、技术专家等通过远程参审客户端接入到远程直播视频服务中(类似于多人视频会议场景)，每个人在自己的客户端上都能看到自己的画面和其他参审人员的画面(类似于手机视频通话，既可以看到自己的画面，也能看到对方的画面)。由于庭审是严肃的司法活动，以及每一场庭审都需要进行音视频录制存档，多个人的画面如何组织呈现，不仅影响当下的远程庭审参审，也影响到后续录制视频的回放效果。

现有的远程庭审中，由于不同案件中，庭审的涉讼人员人数可能不同，不同的人数需要有不同的呈现布局，即需要有不同的混流布局。而现有技术中通常使用始终固定的视频画面布局，导致远程庭审的混流布局效果差。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种混合音视频流的处理方法和装置，以至少解决现有技术中对于不同类型和数量的音频流使用固定的视频画面布局导致混流布局不准确的技术问题。

根据本发明实施例的一个方面，提供了一种混合音视频流的处理方法，包括：获取远程庭审的庭审信息；对庭审信息进行解析得到参与音视频通话的音视频流的数量，以及每路音视频流的参数，其中，参数至少包括：每路音视频流对应的视频画面中的对象数量；基于机器学习模型处理音视频流的数量和每路音视频流的参数，确定对应的音视频混流布局的布局参数；发送布局参数至前端客户端，以使前端客户端根据布局参数生成每路音视频流对应的视频画面。

进一步地，混合音视频流的处理方法还包括：在基于机器学习模型处理音视频流的数量和每路音视频流的参数之前，获取样本数据，其中，样本数据包括：不同类型的样本音视频混流布局的样本布局信息，样本布局信息至少包括：不同类型的样本视频流的参数、样本视频流的布局参数；采用线性回归算法处理样本数据，得到机器学习模型，其中，机器学习模型用于表征不同类型的样本视频流的参数与对应的布局参数之间的对应关系。

进一步地，布局参数包括：图层编号、画面宽度、画面高度、显示位置的横坐标值和显示位置的纵坐标值。

进一步地，混合音视频流的处理方法还包括：对远程庭审信息进行解析得到远程参与音视频通话的多路音视频流；解析每路视频流，得到每路音视频流对应的视频画面中包含的对象，以及对象的特征；统计每个视频画面中包含的对象数量。

进一步地，混合音视频流的处理方法还包括：基于音视频流的数量，确定显示界面中视频画面的数量；基于机器学习模型所确定的对应关系，确定每路音视频流所对应的布局参数；其中，每路音视频流对应的视频画面中的对象数量至少用于确定布局参数中的画面高的和画面宽度。

进一步地，混合音视频流的处理方法还包括：参与音视频通话的任意一路音视频流发生变更的情况下，基于机器学习模型处理动态变化的内容，更新音视频混流布局的布局参数。

根据本发明实施例的另一方面，还提供了一种混合音视频流的处理方法，包括：在显示界面中显示庭审过程中的音视频通话，并获取参与音视频通话的音视频流的数量，以及每路音视频流的参数，其中，参数至少包括：每路音视频流对应的视频画面中的对象数量；基于布局参数，在显示界面中显示每路音视频流对应的视频画面，其中，基于机器学习模型处理音视频流的数量和每路音视频流的参数，确定对应的音视频混流布局的布局参数。

根据本发明实施例的另一方面，还提供了一种混合音视频流的处理装置，包括：获取模块，用于获取远程庭审的庭审信息；解析模块，用于对庭审信息进行解析得到参与音视频通话的音视频流的数量，以及每路音视频流的参数，其中，参数至少包括：每路音视频流对应的视频画面中的对象数量；确定模块，用于基于机器学习模型处理音视频流的数量和每路音视频流的参数，确定对应的音视频混流布局的布局参数；发送模块，用于发送布局参数至前端客户端，以使前端客户端根据布局参数生成每路音视频流对应的视频画面。

根据本发明实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述的混合音视频流的处理方法。

根据本发明实施例的另一方面，还提供了一种电子设备，该电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，处理器、存储器通过总线完成相互间的通信；处理器用于调用存储器中的程序指令，以执行上述的混合音视频流的处理方法。

在本发明实施例中，采用机器学习模型自动计算混流布局的方式，在获取远程庭审的庭审信息，并对庭审信息进行解析得到参与音频通话的视频流的数量以及每路音视频流的参数之后，基于机器学习模型处理音视频流的数据和每路音视频流的参数，以确定对应的音视频混流布局的布局参数，最后发送布局参数至前端客户端，以使前端客户端根据布局参数生成每路音视频流对应的视频画面。

由上述内容可知，本申请是通过对音视频流的数量和每路音视频流的参数来确定音视频混流布局的布局参数的，即在不同的音视频流的数量和每路音视频流的参数下，音视频混流布局是不同的，由此可见，相对于现有技术，本申请所提供混流布局方法更具有灵活性。另外，本申请采用机器学习模型对音视频流的数量和每路音视频流的参数进行处理，通过对机器学习模型的学习样本进行不断的丰富，可以是本申请所提供的方案能够适应更多不同庭审场景的需求。

由此可见，本申请所提供的方案达到了自动对视频画面布局的目的，从而实现了保证混流布局准确性的技术效果，进而解决了现有技术中对于不同类型和数量的音频流使用固定的视频画面布局导致混流布局不准确的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种混合音视频流的处理方法流程图；

图2是根据本发明实施例的一种可选的显示界面的示意图；

图3是根据本发明实施例的一种可选的显示界面的示意图；

图4是根据本发明实施例的一种可选的显示界面的示意图；

图5是根据本发明实施例的一种可选的显示界面的示意图；

图6是根据本发明实施例的一种可选的线性关系的示意图；

图7是根据本发明实施例的一种可选的混合音视频流的处理方法的流程图；

图8是根据本发明实施例的一种混合音视频流的处理方法流程图；

图9是根据本发明实施例的一种混合音视频流的处理装置示意图；以及

图10是根据本发明实施例的一种计算设备的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种混合音视频流的处理方法实施例，需要说明的是，本申请所提供的方案可以应用在多方进行音视频通话的场景中，例如，远程庭审、多方远程会议、远程教学等场景。在本申请中，以远程庭审为例进行说明。另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的混合音视频流的处理方法流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取远程庭审的庭审信息。

在步骤S102中，庭审信息可以包括但不限于参与远程庭审的参与终端的数量、设备信息、每个参与终端所对应的参与人员的数量、每个参与终端所对应的参与人员的身份等。

在一种可选的实施例中，服务器可以作为本申请的执行主体。在进行远程庭审之前，远程庭审的参与人员可以通过参与终端或者其他的计算设备输入庭审信息，例如，参与终端的MAC地址、该参与终端对应的参与人员的数量以及该参与终端对应的参与人员的身份(例如，原告)。然后，参与终端或者其他的计算设备可将庭审信息发送至服务器，从而服务器可以得到本次远程庭审所对应的庭审信息。

在另一种可选的实施例中，服务器可以接收专门的录入人员通过录入终端输入的庭审信息，其中，录入终端可以为但不限于电脑。录入人员在将庭审信息输入至录入终端之后，录入终端将庭审信息发送至服务器，从而服务器可以得到本次远程庭审所对应的庭审信息。

步骤S104，对庭审信息进行解析得到参与音视频通话的音视频流的数量，以及每路音视频流的参数，其中，参数至少包括：每路音视频流对应的视频画面中的对象数量。

可选的，在步骤S104中，每路音视频通话的音视频流对应一个视频画面，例如，在远程庭审场景中，来自法官的音视频流对应一个视频画面，该视频画面显示的是法官；来自原告的音视频流对应一个视频画面，该视频画面显示的是原告；来自被告的音视频流对应一个视频画面，该视频画面显示的是被告。

在一种可选的实施例中，为远程庭审进行服务的服务器可以对庭审信息进行解析，从而得到参与音视频通话的音视频流的数量，以及每路音视频流的参数。例如，在进行远程庭审时，参与远程庭审的参与终端向服务器发出远程连接的请求，服务器可以根据接收到的请求数量以及发出请求的参与终端的标识来确定音视频流的数量。又例如，在进行远程庭审时，服务器还可根据已经与服务器进行远程连接的参与终端的数量来确定音视频流的数量。进一步地，在确定了音视频通话的音视频流的数量之后，服务器可以通过读取每路视频流所对应的音频流的数量来确定每路音视频流对应的视频画面中的对象数量。

需要说明的是，参与音视频通话的音视频流的数量，以及每路音视频流的参数还可以由相关人员输入，例如，在进行远程庭审之前，法官助理输入参与终端的数量以及每个参与终端对应的视频画面中的对象数量。

步骤S106，基于机器学习模型处理音视频流的数量和每路音视频流的参数，确定对应的音视频混流布局的布局参数。

在步骤S106中，混流局部是指将多路音视频流混合在一起所呈现的布局，例如，对于远程庭审，法官对应的音视频流、原告对应的音视频流以及被告对应的音视频流进行混合呈现在显示界面中。另外，布局参数包括：图层编号、画面宽度、画面高度、显示位置的横坐标值和显示位置的纵坐标值。其中，多个图层中除用于布局每路音视频流对应的视频画面的图层之外，其余的每个图层对应一个音视频流，如图2所示的显示界面中，图层1表示用于布局每路音视频流对应的视频画面的图层，图层2至4分别表示每路音视频流对应的视频画面的图层。另外，用于布局每路音视频流对应的视频画面的图层中还可以包括限定发言对象、是否开庭以及结束庭审等功能。

可选的，在得到音视频流的数量和每路音视频流的参数之后，服务器将音视频流的数量和每路音视频流的参数输入至机器学习模型中，机器学习模型对其进行处理，输出对应的音视频混流布局的布局参数。例如，音视频流的数量为3时，其对应的涉讼人员分别为法官、原告、被告。机器学习模型对接收到的3路音频流的参数进行处理，得到如下布局参数

在上述程序中，input_stream_id表示视频流标识符，layout_params表示布局参数集合，其中，布局参数集合中包括：图层编号(image_layer)、画面宽度(image_width)、画面高度(image_height)、显示位置的横坐标值(location_x)和显示位置的纵坐标值(location_y)。

步骤S108，发送布局参数至前端客户端，以使前端客户端根据布局参数生成每路音视频流对应的视频画面。

在得到布局参数之后，服务器基于布局参数在前端客户端的显示界面上显示视频画面，其中，每个视频画面显示的是每路视频流所对应的信息。可选的，图3、图4和图5分别示出了音视频流的数量为3、5和9时的显示界面的示意图，由图3至图5可见，混合音视频流的处理系统可根据音视频通话的音视频流的数量自动调整显示界面的局部，提高了混流布局方法更具有灵活性。

需要说明的是，在步骤S108中，前端客户端可以为参与远程庭审的参与终端。

基于上述步骤S102至步骤S108所限定的方案，可以获知，采用机器学习模型自动计算混流布局的方式，在获取远程庭审的庭审信息，并对庭审信息进行解析得到参与音频通话的视频流的数量以及每路音视频流的参数之后，基于机器学习模型处理音视频流的数据和每路音视频流的参数，以确定对应的音视频混流布局的布局参数，最后发送布局参数至前端客户端，以使前端客户端根据布局参数生成每路音视频流对应的视频画面。

在一种可选的实施例中，在获取参与音视频通话的音视频流的数量，以及每路音视频流的参数之前，服务器对庭审信息进行解析得到远程参与音视频通话的多路音视频流，并对解析每路视频流，得到每路音视频流对应的视频画面中包含的对象，以及对象的特征，然后再统计每个视频画面中包含的对象数量。

在上述过程中，视频画面中包含的对象可以为人物，例如，在远程庭审场景中，对象可以为参与远程庭审的人员，例如，法官、审判员、书记员、原告、被告等。对象的特征可以包括但不限于对象的服饰、动作以及对象在视频画面中的位置等，其中，根据对象的对象特征进行分析可以确定该对象的身份信息，例如，根据对象的服饰、动作以及对象在视频画面中的位置可以确定该对象是审判员还是法官助理。

进一步地，在得到了音视频流的数量和每路音视频流的参数之后，在基于机器学习模型处理音视频流的数量和每路音视频流的参数之前，服务器需要获取机器学习模型。具体的，混合音视频流的处理系统首先获取样本数据，然后采用线性回归算法处理样本数据，得到机器学习模型，其中，样本数据包括：不同类型的样本音视频混流布局的样本布局信息，样本布局信息至少包括：不同类型的样本视频流的参数、样本视频流的布局参数，机器学习模型用于表征不同类型的样本视频流的参数与对应的布局参数之间的对应关系。

可选的，不同类型的样本视频流的参数与对应的布局参数之间的对应关系可以为如图6所示的线性关系，在图6中，x为不同类型的样本视频流的参数，y为布局参数。在线性回归算法中，x与y之间的关系可以表示为y＝ax+b，其中，a为截距，b为斜率(图6中未示出)。通过线性回归算法可以拟合出与图6中的点最接近的目标函数。

更进一步的，在确定了机器学习模型，并得到音视频流的数量和每路音视频流的参数之后，将音视频流的数量和每路音视频流的参数输入至机器学习模型即可得到音视频混流布局的布局参数。具体的，首先，基于音视频流的数量，确定显示界面中视频画面的数量，然后基于机器学习模型所确定的对应关系，确定每路音视频流所对应的布局参数；其中，每路音视频流对应的视频画面中的对象数量至少用于确定布局参数中的画面高的和画面宽度。例如，音视频流的数量为3，则确定视频画面的数量为3个，然后再根据每个视频画面中的对象数量来确定该视频画面的高度和宽度，其中，对象数量越多，视频画面的高度和宽度越大。另外，对于相同数量的对象，如果多个对象在视频画面中位置不同，视频画面的高度和宽度也不相同。

另外，在参与音视频通话的任意一路音视频流发生变更的情况下，基于机器学习模型处理动态变化的内容，更新音视频混流布局的布局参数。例如，对于图5所示的视频画面中，如果证人1和证人2离开，此时，证人1和证人2对应的音视频流将不再进行数据的传输，服务器根据现有的音视频通话的音视频流的数量，以及每路音视频流的参数重新确定音视频混流布局的布局参数，并根据更新后的布局参数进行视频画面的显示。

需要说明的是，根据音视频流的变化动态更新音视频混流布局的布局参数可以进一步提高混流布局的灵活性。

可选的，图7示出了在远程庭审场景下混合音视频流的处理方法的流程图，由图7可知，在得到涉讼人员集合等远程庭审相关信息之后，即得到多路音视频流之后，混合音视频流的处理系统对音视频流进行解析，可得到涉讼人员数量以及涉讼人员的信息列表等参数，并将涉讼人员数量以及涉讼人员的信息列表等参数输入至机器学习模型中，机器学习模型对其进行处理之后，输出布局参数。混合音视频流的处理系统获取布局参数，并基于布局参数进行混流布局，然后在显示界面中显示每路音视频流对应的视频画面。

由上述内容可知，相较于现有技术中采用固定的视频画面布局，本实施例所提供的混合音视频流的处理方法能够为不同的远程庭审场景灵活的提供不同的混流布局，保证了混流布局准确性。

实施例2

根据本发明实施例，还提供了一种混合音视频流的处理方法实施例，其中，图8是根据本发明实施例的混合音视频流的处理方法流程图，如图8所示，该方法包括如下步骤：

步骤S802，在显示界面中显示庭审过程中的音视频通话，并获取参与音视频通话的音视频流的数量，以及每路音视频流的参数，其中，参数至少包括：每路音视频流对应的视频画面中的对象数量。

可选的，在步骤S802中，每路音视频通话的音视频流对应一个视频画面，例如，在远程庭审场景中，来自法官的音视频流对应一个视频画面，该视频画面显示的是法官；来自原告的音视频流对应一个视频画面，该视频画面显示的是原告；来自被告的音视频流对应一个视频画面，该视频画面显示的是被告。

在一种可选的实施例中，为远程庭审进行服务的混合音视频流的处理系统可以获取参与音视频通话的音视频流的数量，以及每路音视频流的参数。例如，在进行远程庭审时，参与远程庭审的参与终端向混合音视频流的处理系统发出远程连接的请求，混合音视频流的处理系统可以根据接收到的请求数量以及发出请求的参与终端的标识来确定音视频流的数量。又例如，在进行远程庭审时，混合音视频流的处理系统还可根据已经与混合音视频流的处理系统进行远程连接的参与终端的数量来确定音视频流的数量。进一步地，在确定了音视频通话的音视频流的数量之后，混合音视频流的处理系统可以通过读取每路视频流所对应的音频流的数量来确定每路音视频流对应的视频画面中的对象数量。

步骤S804，基于布局参数，在显示界面中显示每路音视频流对应的视频画面，其中，基于机器学习模型处理音视频流的数量和每路音视频流的参数，确定对应的音视频混流布局的布局参数。

在步骤S804中，混流局部是指将多路音视频流混合在一起所呈现的布局，例如，对于远程庭审，法官对应的音视频流、原告对应的音视频流以及被告对应的音视频流进行混合呈现在显示界面中。另外，布局参数包括：图层编号、画面宽度、画面高度、显示位置的横坐标值和显示位置的纵坐标值。其中，多个图层中除用于布局每路音视频流对应的视频画面的图层之外，其余的每个图层对应一个音视频流。另外，用于布局每路音视频流对应的视频画面的图层中还可以包括限定发言对象、是否开庭以及结束庭审等功能。

可选的，在得到音视频流的数量和每路音视频流的参数之后，混合音视频流的处理系统将音视频流的数量和每路音视频流的参数输入至机器学习模型中，机器学习模型对其进行处理，输出对应的音视频混流布局的布局参数。在得到布局参数之后，混合音视频流的处理系统基于布局参数在参与终端的显示界面上显示视频画面，其中，每个视频画面显示的是每路视频流所对应的信息。

基于上述步骤S802至步骤S804所限定的方案，可以获知，采用机器学习模型自动计算混流布局的方式，在获取参与音频通话的视频流的数量以及每路音视频流的参数之后，基于机器学习模型处理音视频流的数据和每路音视频流的参数，以确定对应的音视频混流布局的布局参数，最后基于布局参数在显示界面中显示每路音视频流对应的视频画面。

在一种可选的实施例中，在基于机器学习模型处理音视频流的数量和每路音视频流的参数之前，混合音视频流的处理系统需要获取机器学习模型。具体的，混合音视频流的处理系统首先获取样本数据，然后采用线性回归算法处理样本数据，得到机器学习模型，其中，样本数据包括：不同类型的样本音视频混流布局的样本布局信息，样本布局信息至少包括：不同类型的样本视频流的参数、样本视频流的布局参数，机器学习模型用于表征不同类型的样本视频流的参数与对应的布局参数之间的对应关系。

在一种可选的实施例中，在获取参与音视频通话的音视频流的数量，以及每路音视频流的参数之前，混合音视频流的处理系统读取远程参与音视频通话的多路音视频流，并对解析每路视频流，得到每路音视频流对应的视频画面中包含的对象，以及对象的特征，然后再统计每个视频画面中包含的对象数量。

进一步的，在确定了机器学习模型，并得到音视频流的数量和每路音视频流的参数之后，将音视频流的数量和每路音视频流的参数输入至机器学习模型即可得到音视频混流布局的布局参数。具体的，首先，基于音视频流的数量，确定显示界面中视频画面的数量，然后基于机器学习模型所确定的对应关系，确定每路音视频流所对应的布局参数；其中，每路音视频流对应的视频画面中的对象数量至少用于确定布局参数中的画面高的和画面宽度。

另外，在参与音视频通话的任意一路音视频流发生变更的情况下，基于机器学习模型处理动态变化的内容，更新音视频混流布局的布局参数。

实施例3

根据本发明实施例，还提供了一种混合音视频流的处理装置实施例，其中，图9是根据本发明实施例的混合音视频流的处理装置示意图，如图9所示，该装置包括：获取模块1001、解析模块1003、确定模块1005以及发送模块1007。

其中，获取模块1001，用于获取远程庭审的庭审信息；解析模块1003，用于对庭审信息进行解析得到参与音视频通话的音视频流的数量，以及每路音视频流的参数，其中，参数至少包括：每路音视频流对应的视频画面中的对象数量；确定模块1005，用于基于机器学习模型处理音视频流的数量和每路音视频流的参数，确定对应的音视频混流布局的布局参数；发送模块1007，用于发送布局参数至前端客户端，以使前端客户端根据布局参数生成每路音视频流对应的视频画面。

在一种可选的实施例中，混合音视频流的处理装置还包括：第一获取模块以及处理模块。其中，第一获取模块，用于在基于机器学习模型处理音视频流的数量和每路音视频流的参数之前，获取样本数据，其中，样本数据包括：不同类型的样本音视频混流布局的样本布局信息，样本布局信息至少包括：不同类型的样本视频流的参数、样本视频流的布局参数；处理模块，用于采用线性回归算法处理样本数据，得到机器学习模型，其中，机器学习模型用于表征不同类型的样本视频流的参数与对应的布局参数之间的对应关系。

可选的，布局参数包括：图层编号、画面宽度、画面高度、显示位置的横坐标值和显示位置的纵坐标值。

在一种可选的实施例中，混合音视频流的处理装置还包括：第一解析模块、第二解析模块以及统计模块。其中，第一解析模块，用于对庭审信息进行解析得到远程参与音视频通话的多路音视频流；第二解析模块，用于解析每路视频流，得到每路音视频流对应的视频画面中包含的对象，以及对象的特征；统计模块，用于统计每个视频画面中包含的对象数量。

在一种可选的实施例中，确定模块包括：第一确定模块以及第二确定模块。其中，第一确定模块，用于基于音视频流的数量，确定显示界面中视频画面的数量；第二确定模块，用于基于机器学习模型所确定的对应关系，确定每路音视频流所对应的布局参数；其中，每路音视频流对应的视频画面中的对象数量至少用于确定布局参数中的画面高的和画面宽度。

可选的，参与音视频通话的任意一路音视频流发生变更的情况下，基于机器学习模型处理动态变化的内容，更新音视频混流布局的布局参数。

需要说明的是，上述混合音视频流的处理装置包括处理器和存储器，上述获取模块、解析模块、确定模块以及发送模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来通过对音视频流的数量和每路音视频流的参数来确定音视频混流布局的布局参数。

实施例4

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现上述实施例中的混合音视频流的处理方法。

实施例5

本发明实施例提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述实施例中的混合音视频流的处理方法。

实施例6

本发明实施例提供了一种计算设备，如图10所示的计算设备的示意图，由图10可知，该计算设备110包括总线1101、至少一个处理器1102以及与总线连接的至少一个存储器1103；其中，处理器、存储器通过总线完成相互间的通信；处理器用于调用存储器中的程序指令，以执行上述的混合音视频流的处理方法。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取远程庭审的庭审信息；对庭审信息进行解析得到参与音视频通话的音视频流的数量，以及每路音视频流的参数，其中，参数至少包括：每路音视频流对应的视频画面中的对象数量；基于机器学习模型处理音视频流的数量和每路音视频流的参数，确定对应的音视频混流布局的布局参数；发送布局参数至前端客户端，以使前端客户端根据布局参数生成每路音视频流对应的视频画面。

当在数据处理设备上执行时，上述计算机程序产品还适于执行初始化有如下方法步骤的程序：在基于机器学习模型处理音视频流的数量和每路音视频流的参数之前，获取样本数据，其中，样本数据包括：不同类型的样本音视频混流布局的样本布局信息，样本布局信息至少包括：不同类型的样本视频流的参数、样本视频流的布局参数；采用线性回归算法处理样本数据，得到机器学习模型，其中，机器学习模型用于表征不同类型的样本视频流的参数与对应的布局参数之间的对应关系。布局参数包括：图层编号、画面宽度、画面高度、显示位置的横坐标值和显示位置的纵坐标值。

当在数据处理设备上执行时，上述计算机程序产品还适于执行初始化有如下方法步骤的程序：对庭审信息进行解析得到远程参与音视频通话的多路音视频流；解析每路视频流，得到每路音视频流对应的视频画面中包含的对象，以及对象的特征；统计每个视频画面中包含的对象数量。

当在数据处理设备上执行时，上述计算机程序产品还适于执行初始化有如下方法步骤的程序：基于音视频流的数量，确定显示界面中视频画面的数量；基于机器学习模型所确定的对应关系，确定每路音视频流所对应的布局参数；其中，每路音视频流对应的视频画面中的对象数量至少用于确定布局参数中的画面高的和画面宽度。

当在数据处理设备上执行时，上述计算机程序产品还适于执行初始化有如下方法步骤的程序：参与音视频通话的任意一路音视频流发生变更的情况下，基于机器学习模型处理动态变化的内容，更新音视频混流布局的布局参数。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种混合音视频流的处理方法，其特征在于，包括：

获取远程庭审的庭审信息；

对所述庭审信息进行解析得到参与音视频通话的音视频流的数量，以及每路音视频流的参数，其中，所述参数至少包括：每路音视频流对应的视频画面中的对象数量；

基于机器学习模型处理所述音视频流的数量和每路音视频流的参数，确定对应的音视频混流布局的布局参数；

发送所述布局参数至前端客户端，以使所述前端客户端根据所述布局参数生成所述每路音视频流对应的视频画面。

2.根据权利要求1所述的方法，其特征在于，在基于机器学习模型处理所述音视频流的数量和每路音视频流的参数之前，所述方法还包括：

获取样本数据，其中，所述样本数据包括：不同类型的样本音视频混流布局的样本布局信息，所述样本布局信息至少包括：所述不同类型的样本视频流的参数、所述样本视频流的布局参数；

采用线性回归算法处理所述样本数据，得到所述机器学习模型，其中，所述机器学习模型用于表征所述不同类型的样本视频流的参数与对应的布局参数之间的对应关系。

3.根据权利要求2所述的方法，其特征在于，所述布局参数包括：图层编号、画面宽度、画面高度、显示位置的横坐标值和显示位置的纵坐标值。

4.根据权利要求1至3中任意一项所述的方法，其特征在于，对所述庭审信息进行解析得到参与音视频通话的音视频流的数量，以及每路音视频流的参数，包括：

对所述庭审信息进行解析得到远程参与所述音视频通话的多路音视频流；

解析每路视频流，得到所述每路音视频流对应的视频画面中包含的对象，以及所述对象的特征；

统计每个所述视频画面中包含的对象数量。

5.根据权利要求4所述的方法，其特征在于，基于机器学习模型处理所述音视频流的数量和每路音视频流的参数，确定对应的音视频混流布局的布局参数，包括：

基于所述音视频流的数量，确定显示界面中视频画面的数量；

基于所述机器学习模型所确定的对应关系，确定每路音视频流所对应的布局参数；

其中，每路音视频流对应的视频画面中的对象数量至少用于确定所述布局参数中的画面高的和画面宽度。

6.根据权利要求1所述的方法，其特征在于，参与所述音视频通话的任意一路音视频流发生变更的情况下，基于所述机器学习模型处理动态变化的内容，更新所述音视频混流布局的布局参数。

7.一种混合音视频流的处理方法，其特征在于，包括：

在显示界面中显示庭审过程中的音视频通话，并获取参与音视频通话的音视频流的数量，以及每路音视频流的参数，其中，所述参数至少包括：每路音视频流对应的视频画面中的对象数量；

基于布局参数，在所述显示界面中显示所述每路音视频流对应的视频画面，其中，基于机器学习模型处理所述音视频流的数量和每路音视频流的参数，确定对应的音视频混流布局的布局参数。

8.一种混合音视频流的处理装置，其特征在于，包括：

获取模块，用于获取远程庭审的庭审信息；

解析模块，用于对所述庭审信息进行解析得到参与音视频通话的音视频流的数量，以及每路音视频流的参数，其中，所述参数至少包括：每路音视频流对应的视频画面中的对象数量；

确定模块，用于基于机器学习模型处理所述音视频流的数量和每路音视频流的参数，确定对应的音视频混流布局的布局参数；

发送模块，用于发送所述布局参数至前端客户端，以使所述前端客户端根据所述布局参数生成所述每路音视频流对应的视频画面。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的混合音视频流的处理方法。

10.一种电子设备，其特征在于，所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；

其中，所述处理器、所述存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行权利要求1至7中任意一项所述的混合音视频流的处理方法。