CN110378226A

CN110378226A - 基于远程庭审的图像处理方法、装置、计算机设备和存储介质

Info

Publication number: CN110378226A
Application number: CN201910515243.1A
Authority: CN
Inventors: 叶素兰; 窦文伟; 李弘�; 任亮; 严月强; 陆多
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2019-10-25

Abstract

本申请涉及一种基于远程庭审的图像处理方法、装置、计算机设备和存储介质。涉及人工智能领域。所述方法包括：从主视频会话中获取第一庭审角色的视频流，从所述视频流中提取音频数据；识别所述音频数据中的身份字段，根据所述身份字段确定目标第一庭审角色；从所述目标第一庭审角色的视频流中获取目标视频流段；对所述目标视频流段进行微表情识别，得到所述目标第一庭审角色的微表情标签；将所述微表情标签发送至第二庭审角色终端，以使所述第二庭审角色终端将所述微表情标签显示在所述目标庭审角色对应的庭审角色窗口。采用本方法能够在庭审过程中，实时获取到更多线索信息。

Description

基于远程庭审的图像处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于远程庭审的图像处理方法、装置、计算机设备和存储介质。

背景技术

远程庭审，即仲裁员是通过观看视频的方式进行庭审以及庭审判断。在远程庭审中，一般摄录设备仅能够捕捉参审人员的部分行为特征，如脸部行为特征，手的动作等，相应的仲裁员能够观察到的行为特征也是有限的，从该角度上来讲，远程庭审可能会更加不利于仲裁员做出判断，相比于现场庭审，远程庭审增加了仲裁员的仲裁难度。如何在远程庭审中利用计算机技术给仲裁员更多的线索信息以辅助其判断，是远程庭审继续解决的一个问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够在庭审过程中，实时获取到更多线索信息的基于远程庭审的图像处理方法、装置、计算机设备和存储介质。

一种基于远程庭审的图像处理方法，所述方法包括：

从主视频会话中获取第一庭审角色的视频流，从所述视频流中提取音频数据；

识别所述音频数据中的身份字段，根据所述身份字段确定目标第一庭审角色；

从所述目标第一庭审角色的视频流中获取目标视频流段；

对所述目标视频流段进行微表情识别，得到所述目标第一庭审角色的微表情标签；

将所述微表情标签发送至第二庭审角色终端，以使所述第二庭审角色终端将所述微表情标签显示在所述目标庭审角色对应的庭审角色窗口。

在一个实施例中，所述识别所述音频数据中的身份字段，根据所述身份字段确定目标第一庭审角色，包括：

识别所述音频数据，若所述音频数据中携带语音信号，则将带有所述音频数据的视频流输入至所述微表情识别模型，得到所述视频流对应的所述第一庭审角色对应的微表情标签；

识别所述语音信号中的身份字段，根据所述身份字段确定目标第一庭审角色。

在一个实施例中，所述方法还包括：

接收第二庭审角色终端发送的调解请求；

根据所述调解请求创建临时视频会话，所述临时视频会话中包括第二庭审角色和至少一个所述第一庭审角色；

从所述临时视频会话中获取所有所述第一庭审角色的视频流；

将所述视频流输入至所述微表情识别模型中，得到每个第一庭审角色对应的微表情标签；

将所述微表情标签发送给所述第二庭审角色终端。

在一个实施例中，所述方法还包括：

接收所述第二庭审角色终端发送的解散调解指令；

响应所述解散调解指令，解散所述临时视频会话，并将会话通道切换到所述主视频会话中。

在一个实施例中，从所述目标第一庭审角色的视频流中获取目标视频流段，包括：

在识别所述音频数据的身份字段时，确定所述身份字段对应的时间区间；

获取所述目标第一庭审角色对应的所述视频流；

从所述视频流中提取与所述时间区间对应的目标视频流段。

一种基于远程庭审的图像处理装置，所述装置包括：

音频数据获取模块，用于从主视频会话中获取第一庭审角色的视频流，从所述视频流中提取音频数据；

目标第一庭审角色确定模块，用于识别所述音频数据中的身份字段，根据所述身份字段确定目标第一庭审角色；

目标视频流段确定模块，用于从所述目标第一庭审角色的视频流中获取目标视频流段；

微表情识别模块，用于对所述目标视频流段进行微表情识别，得到所述目标第一庭审角色的微表情标签；

信息发送模块，用于将所述微表情标签发送至第二庭审角色终端，以使所述第二庭审角色终端将所述微表情标签显示在所述目标庭审角色对应的庭审角色窗口。

在一个实施例中，所述目标第一庭审角色确定模块，还用于识别所述音频数据，若所述音频数据中携带语音信号，则将带有所述音频数据的视频流输入至所述微表情识别模型，得到所述视频流对应的所述第一庭审角色对应的微表情标签；识别所述语音信号中的身份字段，根据所述身份字段确定目标第一庭审角色。

在一个实施例中，所述装置包括：

调解模块，用于接收第二庭审角色终端发送的调解请求；根据所述调解请求创建临时视频会话，所述临时视频会话中包括第二庭审角色和至少一个所述第一庭审角色；从所述临时视频会话中获取所有所述第一庭审角色的视频流；将所述视频流输入至所述微表情识别模型中，得到每个第一庭审角色对应的微表情标签；将所述微表情标签发送给所述第二庭审角色终端。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的方法的步骤。

上述基于远程庭审的图像处理方法、装置、计算机设备和存储介质，通过从主视频会话获取参审人员的视频流，基于对视频流中音频数据的识别，从众多参审人员中确定需要进行微表情识别的目标参审人员，通过目标参审人员的视频流数据，得到目标参审人员的微表情标签，即远程庭审过程中，自动监控庭审参与人员的发言，自动识别发言关联人的微表情标签，并将微表情标签推送至具有决策权的第二庭审角色终端，为决策者提供更具针对性的庭审辅助信息。

附图说明

图1为一个实施例中基于远程庭审的图像处理方法的应用场景图；

图2为一个实施例中基于远程庭审的图像处理方法的流程示意图；

图3为另一个实施例中基于远程庭审的图像处理步骤的流程示意图；

图4为一个实施例中独任仲裁员的庭审界面图；

图5为一个实施例中独任仲裁员的调解界面图；

图6为一个实施例中基于远程庭审的图像处理装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于远程庭审的图像方法，可以应用于如图1所示的应用环境中。该应用环境包括多个第一庭审角色终端102，与至少一个第二庭审角色终端104，第一庭审角色终端102和第二庭审角色终端通过网络与服务器106通信。服务器106接收第一庭审角色终端102和第二庭审角色终端104的视频音频数据，并在角色终端之间转发这些视频音频数据，以实现群组的远程交互。其中，第一庭审角色终端102和第二庭审角色终端104可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器106可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于远程庭审的图像处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，从主视频会话中获取第一庭审角色的视频流，从视频流中提取音频数据。

服务器创建用于远程庭审的主视频会话，终端申请加入主视频会话时，服务器对终端进行身份认证，并为终端分配庭审角色。服务器预先将庭审角色分配成两个类别，分别为第一角色类别和第二角色类别。对应第一角色类别的庭审角色为第一庭审角色，对应第二角色类别的庭审角色为第二庭审角色。

在一个实施例中，第二庭审角色包括行使仲裁权利、审判权利等权威权利的庭审角色，如仲裁员、法官、检察官等。第一庭审角色包括除第二庭审的庭审角色以外的庭审角色，如原告相关角色、被告相关角色、证人相关角色等。在用于远程庭审的主视频会话中包括多个第一庭审角色终端上传的实时视频流段，如申请人、申请人代理、被申请人、被申请人代理、证人等人的实时视频流段。主视频会话中还包括至少一个第二庭审角色的实时视频流段，如仲裁员、审判员终端上传的实时视频流段。

主视频会话中各角色终端上传的视频流包括由图像帧构成的视频画面，还包括与视频画面对应的音频数据。

步骤204，识别音频数据中的身份字段，根据身份字段确定目标第一庭审角色。

服务器从视频流中提取音频数据，并对音频数据进行特定字段识别。

服务器预先定义主视频会话中每个第一庭审角色对应的身份字段。身份字段包括庭审角色ID(庭审角色标识)、庭审角色ID的衍生字段、庭审角色ID和庭审人姓名的组合、庭审角色ID的衍生字段和庭审人姓名的组合。庭审角色ID可以是申请人、申请人一、被申请人、被申请人一等。庭审角色ID的衍生字段是由庭审角色ID衍生出来的相似身份字段。如申请人一的衍生字段包括第一申请人、1号申请人、申请人刘某。每个第一庭审角色对应一组身份字段。

服务器获取主视频会话中所有第一庭审角色的实时视频流段，采用多线程的方式从每个实时视频流段中提取音频数据，并对音频数据做识别处理，识别音频数据中是否包括身份字段，得到音频处理结果。音频处理结果包括不包括身份字段和包括身份字段。若音频数据中不包括身份字段，则继续从下一段实时视频流段中提取音频数据进行识别。若音频数据中包括身份字段，根据第一庭审角色与身份字段的对应关系，查找与该身份字段对应的目标第一庭审角色。如音频数据中的身份字段为申请人一，则目标第一庭审角色为申请人一。

步骤206，从目标第一庭审角色的视频流中获取目标视频流段。

根据第一庭审角色标识与视频流之间的对应关系，服务器获取与目标第一庭审角色对应的视频流，并从视频流中获取目标视频流段，其中，目标视频流段与该身份字段所在的音频数据对应同一时间区间。

服务器从主视频会话中获取对应同一时间区间的实时视频流段，采用多线程的方式对每个实时视频流段中的音频数据进行识别处理，若任一音频数据包括预先定义的身份字段，查找该身份字段对应的目标第一庭审角色。确定身份字段对应的时间区间，其中身份字段对应的时间区间可以是上述的实时视频流段的时间，也可以是实时视频流段对应的时间区间中的子时间区间。若时间区间就是实时视频流段对应的时间区间，则目标视频流段即为实时视频流段。若时间区间是实时视频流段对应的时间区间的子时间区间，则目标视频流段即为子时间区间对应的目标视频流段。

举例来说，服务器每隔设定的单位时间从主视频会话中获取第一庭审角色的最新视频流段，如单位时间为10秒。若申请人一对应的10秒的最新视频流段中包括被申请人一的身份字段，则服务器获取被申请人一对应的10秒的最新视频流段，该视频流段即为目标视频流段。

在另一个实施例中，目标视频流段不仅包括：包含身份字段的音频数据所在时间区间的视频流段，还包含身份字段的音频数据所在时间区间的下一个时间区间的视频流段。如包含身份字段的音频数据所在时间区间为20s-30s，则下一个时间区间为30s-40s。服务器将对更大时间区间的视频流段进行辅助信息挖掘，可得到更多更有用的辅助信息。

步骤208，对目标视频流段进行微表情识别，得到目标第一庭审角色的微表情标签。

微表情是表达于人的面部，且仅维持一瞬间的情感特征。预先构建微表情识别模型，微表情识别模型的输入是连续的图像帧序列，输出是一个或者多个微表情标签。微表情标签如高兴、害怕、紧张不安、胆颤心惊等。

在一个实施例中，可采用有监督学习的方式训练微表情识别模型。获取视频流段作为训练样本，人工对训练样本添加微表情标签，将带有微表情标签的训练样本输入至预先选定的深度学习模型中，确定深度学习模型的模型参数，构建微表情识别模型，使得微表情识别模型的识别结果与训练样本中携带的微表情标签相同。

步骤210，将微表情标签发送至第二庭审角色终端，以使第二庭审角色终端将微表情标签显示在目标庭审角色对应的庭审角色窗口。

目标视频流段对应目标第一庭审角色，将对目标视频流段识别出的微表情标签与目标第一庭审角色关联。服务器将微表情标签，以及微表情标签与第一庭审角色之间的关联关系发送至第二庭审角色对应的终端，第二庭审角色对应的终端为第二庭审角色终端。第二庭审角色终端的庭审界面中显示所有第一庭审角色的实时视频流，每个第一庭审角色显示成一个视频窗口。第二庭审角色终端接收微表情标签，并将微表情标签显示在对应的第一庭审角色视频窗口。

本实施例中，远程庭审过程中，自动监控庭审参与人员的发言，自动识别发言关联人的微表情标签，并将微表情标签推送至具有决策权的第二庭审角色终端，为决策者提供更具针对性的庭审辅助信息。

本实施例中，不是对所有的庭审参与者(第一庭审角色)进行识别，采取的是选择性微表情识别，对于参与人员众多的庭审环境，减少了大量不必要微表情识别，减少了计算机(包括服务器和第二庭审角色终端)的计算负荷，同时也避免了大量的冗余信息为庭审决策中带来干扰。

在一个实施例中，提供了一种基于远程庭审的图像处理方法，具体包括如下步骤：

步骤一，服务器从主视频会话中获取第一庭审角色的视频流，采用多线程的方式识别每个视频流中的音频数据是否带有语音信号。

识别音频数据的语音信号，包括：从视频流中提取音频数据，从音频数据中提取音频特征，音频特征包括声波频率变化、声波振幅变化。判断音频特征是否在预设的音频特征参数范围内，若是，则音频数据中带有语音信号。或者从音频数据中提取音频特征，将音频特征转化成声波波形，判断声波波形中是否包括满足设定波形条件的波形段，若是，则音频数据中带有语音信号。

步骤二，若音频数据中携带语音信号，则将该音频数据所在的视频流输入至微表情识别模型，得到该视频流对应的第一庭审角色的微表情标签，将微表情标签发送至第二庭审角色终端。

步骤三，识别语音信号中的身份字段，根据身份字段确定目标第一庭审角色。

将语音信号转换成文本，查找文本中是否包含身份字段，若是，根据身份字段确定目标第一庭审角色。

步骤四，获取目标第一庭审角色对应的目标视频流段，将目标视频流段输入至微表情识别模型中，得到目标第一庭审角色对应的微表情标签。

步骤五，将微表情标签发送至第二庭审角色终端，以使第二庭审角色终端将微表情标签显示在目标庭审角色对应的庭审角色窗口。

本实施例中，识别音频数据是否带有语音信号即判断相应庭审角色是否有发言，若是，则对发言者进行微表情识别。此外，若发言者的发言内容中涉及其他庭审角色，则对涉及的其他庭审角色进行微表情识别。

在一个实施例中，步骤208，对目标视频流段进行微表情识别，得到目标第一庭审角色的微表情标签，包括：从目标视频流段中提取音频数据，从音频数据中提取声音特征信息，声音特征信息包括重复语音特征、语气特征、语速特征、音调变化特征。

从目标视频流段中提取图像帧序列，将图像帧序列与声音特征信息均输入至微表情识别模型，得到目标第一庭审角色的微表情标签。

本实施例中，微表情识别模型通过图像帧序列识别人脸的面部特征变化，基于面部特征变化确定微表情标签，同时微表情识别模型还将声音特征信息作为微表情识别的辅助特征信息，进一步强化基于面部特征变化确定的微表情标签，如通过声音特征信息从确定的多个微表情标签筛选出与声音特征信息相符合的微表情标签，或者从确定的多个微表情标签中去除掉与声音特征信息明显不相符合的微表情标签，以得到更加准确的微表情识别结果。

在一个实施例中，如图3所示，基于远程庭审的图像处理方法，还包括：

步骤302，接收第二庭审角色终端发送的调解请求。

步骤304，根据调解请求创建临时视频会话，临时视频会话中包括第二庭审角色和至少一个第一庭审角色。

基于主视频会话，第二庭审角色终端接收服务器转发的所有第一庭审角色的视频流，并在本地庭审界面中显示所有第一庭审角色的实时视频流。第二庭审角色终端的庭审界面如图4所示。在图4的庭审界面中显示了申一、申一代理、被申一、被申一代理四个第一庭审角色的实时视频流，还显示了第二庭审角色独任仲裁员、速录员的实时视频流。

第二庭审终端在庭审界面中触发调解指令，该调解指令中携带至少一个第一庭审角色。服务器接收调解指令，并建立临时视频会话。相应的，第二庭审角色终端以及参与调解的第一庭审角色终端显示调解界面，如图5为独任仲裁员的调解界面。调解界面中显示临时视频会话中所有成员的视频流。基于调解界面，第二庭审角色终端可增加或者减少参与调解的成员。仲裁员点击图5中申一代理刘某所在窗口的调解按钮，即向服务器发送调解成员添加请求，服务器将调解成员添加至临时视频会话中，同时，仲裁员与各参与调解的角色终端的调解界面中将增加新加入的调解成员的视频流。

步骤306，从临时视频会话中获取所有第一庭审角色的视频流。

步骤308，将视频流输入至微表情识别模型中，得到每个第一庭审角色对应的微表情标签。

步骤310，将微表情标签发送给第二庭审角色终端。

在临时视频会话中，服务器对所有第一庭审角色的视频流进行微表情识别，并将识别结果发送至第二庭审角色。第二庭审角色终端将微表情标签显示在调解界面，调解界面中包括每个参与调解的第一庭审角色以及第二庭审角色的视频窗口，第二庭审角色终端提取每个微表情标签关联的第一庭审角色，并将微表情标签显示在相应的第一庭审角色的视频窗口。

步骤312，接收第二庭审角色终端发送的解散调解请求。

步骤314，解散临时视频会话，并将会话通道切换到主视频会话中。

在调解界面中触发解散调解请求，服务器响应于第二庭审角色发送的解散调解请求，停止在临时视频会话中转发会话成员的实时视频流。而是将会话通道切换至主视频会话，即服务器转发主视频会话中各成员的实时视频流，以使主视频会话中的各成员能够接收到其他成员的实时视频信息。

本实施例中，在主视频会话的基础上创建临时视频会话，即在不切断庭审的前提下，灵活便捷地穿插调解成员，实现了庭审与调解的无缝切换。

另外，在调解阶段对所有人进行微表情识别，使得仲裁人员可以实时获取到每个调解人员的状态信息。

在一个实施例中，若主视频会话或临时视频会话中的成员人数小于设定阈值，则对主视频会话或临时视频会话中的所有人进行微表情识别，并将所有人的微表情识别结果发送给临时会话中的仲裁者终端。若主视频会话或临时视频会话中成员人数大于或等于设定阈值，则识别第一庭审角色的视频流，根据视频流中的音频数据所包含的身份字段确定目标第一庭审角色，识别目标第一庭审角色的微表情标签。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种基于远程庭审的图像处理装置，包括：

音频数据获取模块602，用于从主视频会话中获取第一庭审角色的视频流，从所述视频流中提取音频数据。

目标第一庭审角色确定模块604，用于识别所述音频数据中的身份字段，根据所述身份字段确定目标第一庭审角色。

目标视频流段确定模块606，用于从所述目标第一庭审角色的视频流中获取目标视频流段。

微表情识别模块608，用于对所述目标视频流段进行微表情识别，得到所述目标第一庭审角色的微表情标签。

信息发送模块610，用于将所述微表情标签发送至第二庭审角色终端，以使所述第二庭审角色终端将所述微表情标签显示在所述目标庭审角色对应的庭审角色窗口。

在一个实施例中，所述目标第一庭审角色确定模块604，还用于识别所述音频数据，若所述音频数据中携带语音信号，则将带有所述音频数据的视频流输入至所述微表情识别模型，得到所述视频流对应的所述第一庭审角色对应的微表情标签；识别所述语音信号中的身份字段，根据所述身份字段确定目标第一庭审角色。

在一个实施例中，基于远程庭审的图像处理装置包括：调解模块，用于接收所述第二庭审角色终端发送的调解请求；根据所述调解请求创建临时视频会话，所述临时视频会话中包括所述第二庭审角色和至少一个所述第一庭审角色；从所述临时视频会话中获取所有所述第一庭审角色的视频流；将所述视频流输入至所述微表情识别模型中，得到每个第一庭审角色对应的微表情标签；将所述微表情标签发送给所述第二庭审角色终端。

在一个实施例中，调解模块，还用于接收所述第二庭审角色终端发送的解散调解请求；响应所述解散调解请求，解散所述临时视频会话，并将会话通道切换到所述主视频会话中。

在一个实施例中，目标视频流段确定模块606，用于在识别所述音频数据的身份字段时，确定所述身份字段对应的时间区间；获取所述目标第一庭审角色对应的所述视频流；从所述视频流中提取与所述时间区间对应的目标视频流段。

关于基于远程庭审的图像处理装置的具体限定可以参见上文中对于基于远程庭审的图像处理方法的限定，在此不再赘述。上述基于远程庭审的图像处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储身份字段。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于远程庭审的图像处理方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：从主视频会话中获取第一庭审角色的视频流，从所述视频流中提取音频数据；识别所述音频数据中的身份字段，根据所述身份字段确定目标第一庭审角色；从所述目标第一庭审角色的视频流中获取目标视频流段；对所述目标视频流段进行微表情识别，得到所述目标第一庭审角色的微表情标签；将所述微表情标签发送至第二庭审角色终端，以使所述第二庭审角色终端将所述微表情标签显示在所述目标庭审角色对应的庭审角色窗口。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：识别所述音频数据，若所述音频数据中携带语音信号，则将带有所述音频数据的视频流输入至所述微表情识别模型，得到所述视频流对应的所述第一庭审角色对应的微表情标签；识别所述语音信号中的身份字段，根据所述身份字段确定目标第一庭审角色。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：接收第二庭审角色终端发送的调解请求；根据所述调解请求创建临时视频会话，所述临时视频会话中包括第二庭审角色和至少一个所述第一庭审角色；从所述临时视频会话中获取所有所述第一庭审角色的视频流；将所述视频流输入至所述微表情识别模型中，得到每个第一庭审角色对应的微表情标签；将所述微表情标签发送给所述第二庭审角色终端。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：接收所述第二庭审角色终端发送的解散调解请求；响应所述解散调解请求，解散所述临时视频会话，并将会话通道切换到所述主视频会话中。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：在识别所述音频数据的身份字段时，确定所述身份字段对应的时间区间；获取所述目标第一庭审角色对应的所述视频流；从所述视频流中提取与所述时间区间对应的目标视频流段。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：从主视频会话中获取第一庭审角色的视频流，从所述视频流中提取音频数据；识别所述音频数据中的身份字段，根据所述身份字段确定目标第一庭审角色；从所述目标第一庭审角色的视频流中获取目标视频流段；对所述目标视频流段进行微表情识别，得到所述目标第一庭审角色的微表情标签；将所述微表情标签发送至第二庭审角色终端，以使所述第二庭审角色终端将所述微表情标签显示在所述目标庭审角色对应的庭审角色窗口。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：识别所述音频数据，若所述音频数据中携带语音信号，则将带有所述音频数据的视频流输入至所述微表情识别模型，得到所述视频流对应的所述第一庭审角色对应的微表情标签；识别所述语音信号中的身份字段，根据所述身份字段确定目标第一庭审角色。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：接收第二庭审角色终端发送的调解请求；根据所述调解请求创建临时视频会话，所述临时视频会话中包括第二庭审角色和至少一个所述第一庭审角色；从所述临时视频会话中获取所有所述第一庭审角色的视频流；将所述视频流输入至所述微表情识别模型中，得到每个第一庭审角色对应的微表情标签；将所述微表情标签发送给所述第二庭审角色终端。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：接收所述第二庭审角色终端发送的解散调解请求；响应所述解散调解请求，解散所述临时视频会话，并将会话通道切换到所述主视频会话中。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：在识别所述音频数据的身份字段时，确定所述身份字段对应的时间区间；获取所述目标第一庭审角色对应的所述视频流；从所述视频流中提取与所述时间区间对应的目标视频流段。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于远程庭审的图像处理方法，所述方法包括：

从所述目标第一庭审角色的视频流中获取目标视频流段；

2.根据权利要求1所述的方法，其特征在于，所述识别所述音频数据中的身份字段，根据所述身份字段确定目标第一庭审角色，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收第二庭审角色终端发送的调解请求；

将所述微表情标签发送给所述第二庭审角色终端。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

接收所述第二庭审角色终端发送的解散调解请求；

响应所述解散调解请求，解散所述临时视频会话，并将会话通道切换到所述主视频会话中。

5.根据权利要求1所述的方法，其特征在于，从所述目标第一庭审角色的视频流中获取目标视频流段，包括：

获取所述目标第一庭审角色对应的所述视频流；

从所述视频流中提取与所述时间区间对应的目标视频流段。

6.一种基于远程庭审的图像处理装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述目标第一庭审角色确定模块，还用于识别所述音频数据，若所述音频数据中携带语音信号，则将带有所述音频数据的视频流输入至所述微表情识别模型，得到所述视频流对应的所述第一庭审角色对应的微表情标签；识别所述语音信号中的身份字段，根据所述身份字段确定目标第一庭审角色。

8.根据权利要求6所述的装置，其特征在于，所述装置包括：调解模块，用于接收第二庭审角色终端发送的调解请求；根据所述调解请求创建临时视频会话，所述临时视频会话中包括第二庭审角色和至少一个所述第一庭审角色；从所述临时视频会话中获取所有所述第一庭审角色的视频流；将所述视频流输入至所述微表情识别模型中，得到每个第一庭审角色对应的微表情标签；将所述微表情标签发送给所述第二庭审角色终端。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。