CN110415704A

CN110415704A - 庭审笔录数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN110415704A
Application number: CN201910666050.6A
Authority: CN
Inventors: 叶素兰; 窦文伟; 张紫恒; 李弘�; 严月强; 陆多
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-06-14
Filing date: 2019-07-17
Publication date: 2019-11-05

Abstract

本申请涉及声纹识别的一种庭审笔录数据处理方法、装置、计算机设备和存储介质。该方法包括：创建虚拟庭审房间后，接收终端发送的参审请求，根据参审请求中的身份信息对参审人员进行身份验证；验证通过后，获取多个终端上传的音视频数据，提取音视频数据的语音特征信息；通过声纹识别模型对语音特征信息进行声纹识别，得到多个语音片段和对应的声纹标识；根据声纹标识将语音片段转换为对应的文本笔录信息，通过庭审语义分析模型对文本笔录信息进行语义分析，当存在歧义文本时，根据分析结果对歧义文本进行校正，根据校正后的文本笔录信息生成庭审笔录信息，并发送至多个终端并显示。采用本方法能够有效提高庭审音频数据的识别准确率。

Description

庭审笔录数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术技术领域，特别是涉及基于声纹识别的一种庭审笔录数据处理方法、装置、计算机设备和存储介质。

背景技术

随着社会经济的发展与法治体系的日趋完善，人民群众的司法需求日益增长，仲裁案件越来越多，面临工作量超负荷的问题，工作量过大可能导致仲裁效率较低。笔录是司法机关办案工作的重要组成部分和物质载体，笔录在证据体系中占据着举足轻重的地位。

而传统笔录仍处于较低的水平，提高笔录制作水平是提高办案质量和效率的基础和重要内容。长期以来司法机关在办理案件做笔录是大多采取传统的手写或手敲方式，传统庭审记录方式，由于人工记录速度和精力有限，工作环节重复、工作效率较低，庭审笔录往往存在记录不全、记录偏差等问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效提高庭审笔录效率的庭审笔录数据处理方法、装置、计算机设备和存储介质。

一种庭审笔录数据处理方法，所述方法包括：

根据庭审排期和对应的庭审任务创建虚拟庭审房间；

接收参审人员对应的终端发送的参审请求，所述参审请求中携带了参审人员的身份信息；

根据所述身份信息对多个参审人员进行身份验证；

当身份验证通过后，获取多个终端上传的音视频数据；

对所述音视频进行特征提取，得到多个语音特征信息；

获取预设的声纹识别模型，通过所述声纹识别模型对所述语音特征信息进行声纹识别，得到多个语音片段和对应的声纹标识；

根据所述声纹标识将所述多个语音片段转换为对应的文本笔录信息；

获取预设的庭审语义分析模型，通过所述庭审语义分析模型对所述文本笔录信息进行上下文分析，得到对应的分析结果；

当所述分析结果中存在歧义文本时，根据所述歧义文本的位置和分析结果对所述歧义文本进行校正，得到校正后的文本笔录信息；

根据所述校正后的文本笔录信息生成庭审笔录信息，并将所述庭审笔录信息发送至多个终端并进行显示。

在其中一个实施例中，所述庭审任务包括参审人员信息，所述身份信息包括所述参审人员对应的终端录制的短视频数据，所述根据所述身份信息对多个参审人员进行身份验证的步骤包括：根据所述参审人员信息从预设数据库中获取参审人员对应的目标人脸图像；从所述短视频数据中提取对应的人脸图像帧；将所述人脸图像帧与所述参审人员的目标人脸图像进行人脸匹配，并得到对应的匹配度值；当所述匹配度值达到预设匹配度值时，则身份验证通过。

在其中一个实施例中，所述通过所述声纹识别模型对所述语音特征信息进行声纹识别的步骤包括：通过所述声纹识别模型计算多个语音特征信息对应的特征参数序列；根据所述特征参数序列对所述语音特征信息进行切分，得到多个语音片段；对多个语音片段的特征参数序列进行相似度计算，将所述相似度达到预设阈值的多个语音片段进行归类，对归类后的语音片段添加对应的声纹标识。

在其中一个实施例中，所述通过所述庭审语义分析模型对所述文本笔录信息进行上下文分析的步骤包括：通过所述庭审语义分析模型提取所述文本笔录信息中的词法特征、语法特征和语义特征；根据庭审语义分析模型中的庭审语义特征对所述词法特征、语法特征和语义特征进行语义匹配分析，判断所述文本笔录信息中是否存在歧义文本；当分析出所述文本笔录信息中的词法、语法和语义存在歧义时，分析所述歧义文本对应的校正文本；根据所述歧义文本的文本位置和校正文本生成分析结果。

在其中一个实施例中，所述庭审笔录信息中包括多个声纹标识对应的多条庭审笔录信息，所述根据所述校正后的文本笔录信息生成庭审笔录信息之后，还包括：获取预先配置的关键字映射表；所述关键字映射表中包括多个关键字和对应的电子关联数据；将所述庭审笔录信息与所述关键字映射表进行匹配；当匹配到所述庭审笔录信息中存在对应的关键字时，则获取所述关键字对应的电子关联数据；将所述电子关联数据发送至多个参审人员对应的终端，并进行显示。

在其中一个实施例中，所述方法还包括：从所述音视频数据中提取参审人员中当事人对应的人脸图像帧序列；根据预设算法计算所述人脸图像帧序列对应的人脸特征；获取预设的表情识别模型，通过所述表情识别模型计算所述人脸图像帧序列的面部关键点轨迹，对所述人脸图像帧序列对应的人脸特征进行分类，得到所述当事人对应的当前表情类别；将所述当事人对应的当前表情类别推送至仲裁员对应的终端。

一种庭审笔录数据处理装置，所述装置包括：

庭审房间创建模块，用于根据庭审排期和对应的庭审任务创建虚拟庭审房间；

请求接收模块，用于接收参审人员对应的终端发送的参审请求，所述参审请求中携带了参审人员的身份信息；

身份验证模块，用于根据所述身份信息对多个参审人员进行身份验证；当身份验证通过后，获取多个终端上传的音视频数据；

声纹识别模块，用于对所述音视频进行特征提取，得到多个语音特征信息；获取预设的声纹识别模型，通过所述声纹识别模型对所述语音特征信息进行声纹识别，得到多个语音片段和对应的声纹标识；

语音转换模块，用于根据所述声纹标识将所述多个语音片段转换为对应的文本笔录信息；

文本校正模块，用于获取预设的庭审语义分析模型，通过所述庭审语义分析模型对所述文本笔录信息进行上下文分析，得到对应的分析结果；当所述分析结果中存在歧义文本时，根据所述歧义文本的位置和分析结果对所述歧义文本进行校正，得到校正后的文本笔录信息；

庭审笔录信息生成模块，用于根据所述校正后的文本笔录信息生成庭审笔录信息，并将所述庭审笔录信息发送至多个终端并进行显示。

在其中一个实施例中，所述文本校正模块还用于通过所述庭审语义分析模型提取所述文本笔录信息中的词法特征、语法特征和语义特征；根据庭审语义分析模型中的庭审语义特征对所述词法特征、语法特征和语义特征进行语义匹配分析，判断所述文本笔录信息中是否存在歧义文本；当分析出所述文本笔录信息中的词法、语法和语义存在歧义时，分析所述歧义文本对应的校正文本；根据所述歧义文本的文本位置和校正文本生成分析结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请任意一个实施例中提供的庭审笔录数据处理方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请任意一个实施例中提供的庭审笔录数据处理方法的步骤。

上述庭审笔录数据处理方法、装置、计算机设备和存储介质，创建虚拟庭审房间后，接收参审人员对应的终端发送的参审请求，并根据参审请求中携带的身份信息对多个参审人员进行身份验证。当身份验证通过后，获取多个终端上传的音视频数据，对音视频进行特征提取，得到对应的语音特征信息。进而获取预设的声纹识别模型，通过声纹识别模型对语音特征信息进行声纹识别，得到多个语音片段和对应的声纹标识，根据声纹标识将多个语音片段转换为对应的文本笔录信息后，则进一步获取预设的庭审语义分析模型，通过庭审语义分析模型对文本笔录信息进行上下文分析，当分析出文本笔录信息中存在歧义文本时，根据歧义文本的位置和分析结果对歧义文本进行校正，得到校正后的文本笔录信息；进而根据校正后的文本笔录信息生成庭审笔录信息，并将庭审笔录信息发送至多个终端并进行显示。通过声纹识别模型能够准确有效地识别各个参审人员对应的语音信息，并根据识别结果转换为对应的文本信息，通过庭审语义分析模型进一步对文本信息进行分析和校正，由此能够有效地提高庭审过程中语音识别的准确度，从而有效地提高了笔录效率和办案效率。

附图说明

图1为一个实施例中庭审笔录数据处理方法的应用场景图；

图2为一个实施例中庭审笔录数据处理方法的流程示意图；

图3为一个实施例中对语音特征信息进行声纹识别步骤的流程示意图；

图4为一个实施例中对文本笔录信息进行纠错步骤的流程示意图；

图5为一个实施例中庭审笔录数据处理装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的庭审笔录数据处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。其中，终端102可以包括申请人、被申请人、代理人、仲裁员以及仲裁秘书等参审人员对应的终端，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种庭审笔录数据处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，根据庭审排期和对应的庭审任务创建虚拟庭审房间。

仲裁申请人可以通过对应的终端在互联网仲裁平台发起仲裁请求，服务器对仲裁请求，服务器对仲裁请求进行审核并立案后，对仲裁请求分配仲裁案件标识，并建立仲裁档案数据。服务器还可以对仲裁案件创建庭审任务，并进行庭审排期。当庭审任务论排到对应的庭审排期时，服务器则根据庭审排期和对应的庭审任务创建虚拟庭审房间。虚拟庭审房间可以包括庭审任务对应的案件标识或分配的庭审房间号，服务器也可以向对应的秘书终端发送通知信息，以使得秘书终端向服务器发送虚拟庭审房间创建请求，服务器进而根据秘书终端发送的庭审房间创建请求创建对应的虚拟庭审房间。

步骤204，接收参审人员对应的终端发送的参审请求，参审请求中携带了参审人员的身份信息。

步骤206，根据身份信息对多个参审人员进行身份验证。

其中，参审人员可以包括申请人、被申请人、仲裁秘书和仲裁员等。申请人还可以包括对应的代理人。仲裁员可以包括一个或多个。

服务器创建庭审房间后，可以根据庭审任务向参审人员对应的终端发送庭审通知信息，以使得参审人员通过对应的终端向服务器发送参审请求，参审请求中携带了参审人员的身份信息。

在开庭之前，服务器还需要对参审人员的身份进行校验。具体地，服务器可以根据庭审任务获取仲裁案件对应的参审人员信息，并获取终端实时录制的短视频数据中的人脸图像帧，根据参审人员信息从预设数据库中获取参审人员对应的目标人脸图像，将人脸图像帧与参审人员的目标人脸图像进行人脸匹配，相匹配则身份验证通过。

步骤208，当身份验证通过后，获取多个终端上传的音视频数据。

当身份验证通过后，服务器还可以根据庭审任务和身份验证结果自动为参审人员分配庭审角色。各方参审人员则进入该庭审房间进行庭审，例如，远程庭审时，可以通过分配远程音视频进行开庭，申请人、被申请人、仲裁员以及仲裁秘书等从案件详情中进入视频房间，视频房间的界面可以显示各方参审人员对应的头像界面，如同一个房间可以容纳16个人。当事人晚于开庭时间30分钟无法进入房间，视为放弃开庭。各个终端则将获取的音视频数据实时上传至服务器。

步骤210，对音视频进行特征提取，得到多个语音特征信息。

步骤212，获取预设的声纹识别模型，通过声纹识别模型对语音特征信息进行声纹识别，得到多个语音片段和对应的声纹标识。

步骤214，根据声纹标识将多个语音片段转换为对应的文本笔录信息。

服务器获取多个终端上传的音视频数据中的音频信息，对音频信息进行预处理和特征提取。对语音信号进行预处理，例如首先对音频信息中的语音信号进行噪声抑制处理和语音端点检测，得到预处理后的语音信号数据，并对预处理后的语音信号数据进行特征提取，得到对应的语音特征信息。

服务器进一步获取预设的声纹识别模型，将预处理后的语音特征信息输入至声纹识别模型中，通过声纹识别模型对语音特征信息进行声纹识别，计算出多个语音特征信息对应的特征参数序列，并根据不同的特征参数序列进行切分和归类，将特征参数序列相同的多个语音片段归为同一类并添加对应的声纹标识。服务器进而根据参审人员标识将语音信号转换为对应的文本笔录信息，并对文本笔录信息添加对应的参审人员标识。

步骤216，获取预设的庭审语义分析模型，通过庭审语义分析模型对文本笔录信息进行上下文分析，得到对应的分析结果。

步骤218，当分析结果中存在歧义文本时，根据歧义文本的位置和分析结果对歧义文本进行校正，得到校正后的文本笔录信息。

步骤220，根据校正后的文本笔录信息生成庭审笔录信息，并将庭审笔录信息发送至多个终端并进行显示。

服务器通过声纹识别模型识别出语音特征片段，并根据声纹标识将多个语音片段转换为对应的文本笔录信息后，根据语音数据的时序和用户标识将语音特征片段转换成对应的文本笔录信息。其中，声纹标识与用户标识相对应，声纹标识与用户标识也可以相同。服务器进一步获取预设的庭审语义分析模型，其中，庭审语义分析模型可以是通过预先利用大量的庭审语料数据进行训练后构建的。服务器进而通过庭审语义分析模型对文本笔录信息进行上下文分析，得到对应的分析结果。具体地，服务器通过庭审语义分析模型提取文本笔录信息中的词法特征、语法特征和语义特征，根据庭审语义分析模型中的庭审语义特征对词法特征、语法特征和语义特征进行语义匹配分析，判断文本笔录信息中是否存在歧义文本；当分析出文本笔录信息中的词法、语法和语义存在歧义时，分析歧义文本对应的校正文本，并根据歧义文本的文本位置和校正文本生成分析结果。当分析结果中存在歧义文本时，根据歧义文本的位置和分析结果对歧义文本进行校正修改。

服务器通过庭审语义分析模型识别出文本信息中的歧义文本，并根据上下文分析结果对歧义文本进行修改，得到纠正后的文本笔录信息。服务器进而根据校正后的文本笔录信息生成庭审笔录信息，并将庭审笔录信息发送至多个终端并进行显示。通过庭审语义分析模型对文本笔录信息进行分析并纠错，能够准确地识别出文本笔录信息中的错别字和有误语句，并进行智能纠错，有效地提高了音频识别的准确率。

庭审结束后，服务器则根据时序将多个庭审笔录信息按照预设方式生成对应的笔录档案数据，并发送至秘书终端进行审核。秘书终端审核后并由当事人和仲裁员签字后，对笔录档案数据进行存储。通过声纹识别模型对庭审过程中各方参审人员的语音数据进行语音识别和声纹识别，能够准确有效地识别各个参审人员对应的语音信息，并转换为对应的文本信息，由此能够有效地提高笔录效率和办案效率。

本实施例中，服务器创建虚拟庭审房间后，接收参审人员对应的终端发送的参审请求，并根据参审请求中携带的身份信息对多个参审人员进行身份验证。当身份验证通过后，服务器获取多个终端上传的音视频数据，对音视频进行特征提取，得到对应的语音特征信息。服务器进而获取预设的声纹识别模型，通过声纹识别模型对语音特征信息进行声纹识别，得到多个语音片段和对应的声纹标识。服务器根据声纹标识将多个语音片段转换为对应的文本笔录信息后，进一步获取预设的庭审语义分析模型，通过庭审语义分析模型对文本笔录信息进行上下文分析，当分析出文本笔录信息中存在歧义文本时，根据歧义文本的位置和分析结果对歧义文本进行校正，得到校正后的文本笔录信息；进而根据校正后的文本笔录信息生成庭审笔录信息，并将庭审笔录信息发送至多个终端并进行显示。通过声纹识别模型能够准确有效地识别各个参审人员对应的语音信息，并根据识别结果转换为对应的文本信息，通过庭审语义分析模型进一步对文本信息进行分析和校正，由此能够有效地提高庭审过程中语音识别的准确度，从而有效地提高了笔录效率和办案效率。

在一个实施例中，庭审任务包括参审人员信息，身份信息包括参审人员对应的终端录制的短视频数据，根据身份信息对多个参审人员进行身份验证的步骤，具体包括以下内容：根据参审人员信息从预设数据库中获取参审人员对应的目标人脸图像。从短视频数据中提取对应的人脸图像帧。将人脸图像帧与参审人员的目标人脸图像进行人脸匹配，并得到对应的匹配度值。当匹配度值达到预设匹配度值时，则身份验证通过。

服务器根据庭审排期和对应的庭审任务创建庭审房间后，并在开庭之前，服务器还需要对参审人员的身份进行校验。具体地，在进入程庭审房间的过程中，多方参审人员可以分别通过对应的终端获取用户实时录制的短视频数据，并根据录制的短视频数据向服务器发送参审请求，参审请求中则携带了短视频数据。

进一步地，服务器可以根据庭审任务获取仲裁案件对应的参审人员信息，并根据参审人员信息从预设数据库中获取参审人员对应的目标人脸图像。其中，预设数据库可以是本地庭审数据库，也可以是公安数据库。服务器进而获取终端实时录制的短视频数据，并从短视频数据中获取用户的的人脸图像帧，根据人脸图像帧和参审人员对应的目标人脸图像进行人脸识别校验。具体地，服务器将人脸图像帧与参审人员的目标人脸图像进行匹配，根据预设算法识别人脸图像帧与参审人员的目标人脸图像对应的脸部关键点，根据识别的关键点计算对应的脸部关键点特征，进而根据脸部关键点特征计算人脸图像帧与参审人员的目标人脸图像之间的相似度，得到对应的匹配度值。当匹配度值达到预设匹配度值时，则身份验证通过。例如，当匹配度值达到80％时，则身份验证通过。通过对参审人员进行人脸识别验证，能够精准有效地对参审人员进行身份验证，确保参审人员身份的真实性，进而有效保障了庭审的安全性。

在一个实施例中，如图3所示，通过声纹识别模型对语音特征信息进行声纹识别的步骤，具体包括以下内容：

步骤302，通过声纹识别模型计算多个语音特征信息对应的特征参数序列。

步骤304，根据特征参数序列对语音特征信息进行切分，得到多个语音片段。

步骤306，对多个语音片段的特征参数序列进行相似度计算，将相似度达到预设阈值的多个语音片段进行归类，对归类后的语音片段添加对应的声纹标识。

服务器在获取预设的声纹识别模型之前，还需要预先构建声纹识别模型。具体地，服务器可以预先获取大量的语音样本数据，将语音样本数据分为训练集和验证集，其中，训练集中可以是已经标注的语音样本数据。服务器则将训练集中的语音样本数据输入至预设的声纹识别模型中进行训练，得到初始的声纹识别模型，服务器进而将验证集中的语音样本数据输入至初始的声纹识别模型中进行进一步训练和验证。当验证集中的满足预设匹配度的语音样本数据的数量达到预设阈值时，则停止训练，进而得到训练完成的声纹识别模型。服务器进一步将声纹模型库中用户的声纹输入至训练完成的声纹识别模型中，由此构建出声纹识别模型。

服务器根据庭审排期和对应的庭审任务创建庭审房间后，接收参审人员对应的终端发送的参审请求，并根据参审请求中携带的身份信息对多个参审人员进行身份验证。当身份验证通过后，服务器获取多个终端上传的音视频数据，对音视频进行特征提取，得到对应的语音特征信息。

具体地，服务器提取语音数据中的语音信号，终端上传的语音数据中的语音信号通常为带有噪声的带噪语音信号。服务器获取语音信号后，对语音信号进行加窗分帧，提取出对应的声学特征和频谱特征，并对声学特征和频谱特征进行转换，得到对应的声学特征向量和频谱特征向量。服务器进一步获取预设的语音端点检测模型，将声学特征向量和频谱特征向量输入至语音分类器，得到添加语音标签的声学特征向量和添加语音标签的频谱特征向量。对添加语音标签的声学特征向量和添加语音标签的频谱特征向量进行解析，得到对应的语音信号，根据语音信号的时序确定语音信号对应的起始点和终止点，进而能够有效地得到多个语音特征信息。

服务器对语音信号数据进行特征提取，得到多个语音特征信息后，则获取预设的声纹识别模型，并将多个语音特征信息输入至声纹识别模型中，通过声纹识别模型对语音特征信息进行声纹识别。具体地，服务器通过声纹识别模型计算出每个语音特征信息对应的特征参数序列，并根据不同的特征参数序列进行切分和归类，将特征参数序列相同的多个语音片段归为同一类并添加对应的声纹标识。服务器则对每一个语音片段添加识别出的对应的声纹标识。服务器可以根据语音的来源终端识别该声纹标识对应的参审人员标识。服务器进而根据参审人员标识将语音信号转换为对应的文本笔录信息，并对文本笔录信息添加对应的参审人员标识。

进一步地，参审人员对应的终端在进入庭审房间时上传了短视频数据，服务器根据参审人员的身份信息和短视频对参审人员进行身份验证后，还可以提取短视频数据中的音频数据，识别音频数据中的声纹信息，并对识别出的声纹信息添加对应的参审人员标识，将参审人员的声纹信息存储至声纹模型库中。服务器通过声纹识别模型对语音特征信息进行声纹识别后，并在声纹模型库中进行匹配，得到对应匹配的参审人员标识。服务器则对每一个语音片段添加识别出的对应的参审人员标识。

服务器进而根据每一段语音片段的时序和参审人员标识将语音片段转换为对应的文本笔录信息，并对文本笔录信息添加对应的参审人员标识。服务器则将生成的文本笔录信息实时发送至参审人员对应的终端并进行显示。通过利用声纹识别模型识别庭审过程中的语音信息，能够准确有效地识别出庭审过程中的各个参审人员对应的语音，并转换为对应的文本，由此能够有效地提高庭审效率。

在一个实施例中，如图4所示，通过庭审语义分析模型对文本笔录信息进行上下文分析的步骤，具体包括以下内容：

步骤402，通过庭审语义分析模型提取文本笔录信息中的词法特征、语法特征和语义特征。

步骤404，根据庭审语义分析模型中的庭审语义特征对词法特征、语法特征和语义特征进行语义匹配分析，判断文本笔录信息中是否存在歧义文本。

步骤406，当分析出文本笔录信息中的词法、语法和语义存在歧义时，分析歧义文本对应的校正文本。

步骤408，根据歧义文本的文本位置和校正文本生成分析结果。

服务器创建庭审房间后，接收参审人员对应的终端发送的参审请求，并根据参审请求中携带的身份信息对多个参审人员进行身份验证。当身份验证通过后，服务器获取多个终端上传的音视频数据，对音视频进行特征提取，得到对应的语音特征信息。服务器进而获取预设的声纹识别模型，通过声纹识别模型对语音特征信息进行声纹识别，得到多个语音片段和对应的声纹标识。服务器则根据声纹标识将多个语音片段转换为对应的文本笔录信息。

服务器通过声纹识别模型识别出语音特征片段，并根据声纹标识将多个语音片段转换为对应的文本笔录信息后，根据语音数据的时序和用户标识将语音特征片段转换成对应的文本笔录信息。服务器进一步获取预设的庭审语义分析模型，其中，庭审语义分析模型可以是通过预先利用大量的庭审语料数据进行训练后构建的。服务器进而通过庭审语义分析模型对文本笔录信息进行上下文分析，得到对应的分析结果。具体地，服务器通过庭审语义分析模型提取文本笔录信息中的词法特征、语法特征和语义特征，根据庭审语义分析模型中的庭审语义特征对词法特征、语法特征和语义特征进行语义匹配分析，判断文本笔录信息中是否存在歧义文本；当分析出文本笔录信息中的词法、语法和语义存在歧义时，分析歧义文本对应的校正文本，并根据歧义文本的文本位置和校正文本生成分析结果。当分析结果中存在歧义文本时，根据歧义文本的位置和分析结果对歧义文本进行校正修改。

例如，服务器可以通过庭审语义分析模型分析文本笔录信息中多个相邻词句之间词法、语法和联想语义，如词汇语义、短语语义以及多个句子的上下文语义，例如可以通过拼音的混淆规则、拼音稳定度和拼音相似度等信息以及语法规则分析文本笔录信息中的词法和语法，判断是否存在歧义文本，并分析歧义文本最可能的替换词或替换文本。服务器还可以通过庭审语义分析模型联系上下文分析出多个语句的语义，并根据庭审语义分析模型中预设的庭审语义特征判断多个语句的语义是否符合庭审语义。当文本笔录信息中的语句语义与庭审语义的匹配度没有达到预设阈值时，则表示文本笔录信息中的语句语义与庭审语义存在较大差异，服务器则根据庭审语义分析文本笔录信息中的歧义文本对可能的语义，分析得到对应的校正文本。服务器则根据歧义文本的文本位置和校正文本生成分析结果。例如，通过庭审语义分析模型分析文本笔录信息中的句子和词汇是否合理，当识别出文本笔录信息中一个有错误的句子，首先根据线索确定错误的位置，并在错误的位置上给出可以替换的候选集，将候选集中匹配度最高的候选词对歧义文本进行替换，使其尽可能找到符合概念联想脉络的正确词语。

服务器通过庭审语义分析模型识别出文本信息中的错别字，并根据上下文分析结果对错别字进行修改，得到纠正后的文本笔录数据。通过庭审语义分析模型对文本笔录信息进行分析并纠错，能够准确地识别出文本笔录信息中的错别字和有误语句，并进行智能纠错，有效地提高了庭审过程中音频数据的识别准确率。

在一个实施例中，庭审笔录信息中包括多个声纹标识对应的多条庭审笔录信息，根据校正后的文本笔录信息生成庭审笔录信息之后，还包括：获取预先配置的关键字映射表；关键字映射表中包括多个关键字和对应的电子关联数据；将庭审笔录信息与关键字映射表进行匹配；当匹配到庭审笔录信息中存在对应的关键字时，则获取关键字对应的电子关联数据；将电子关联数据发送至多个参审人员对应的终端，并进行显示。

服务器创建庭审房间后，接收参审人员对应的终端发送的参审请求，并根据参审请求中携带的身份信息对多个参审人员进行身份验证。当身份验证通过后，服务器获取多个终端上传的音视频数据，对音视频进行特征提取，得到对应的语音特征信息。服务器进而获取预设的声纹识别模型，通过声纹识别模型对语音特征信息进行声纹识别，得到多个语音片段和对应的声纹标识。服务器则根据声纹标识将多个语音片段转换为对应的文本笔录信息。服务器进一步获取预设的庭审语义分析模型，通过庭审语义分析模型对文本笔录信息进行上下文分析，得到对应的分析结果；当分析结果中存在歧义文本时，根据歧义文本的位置和分析结果对歧义文本进行校正，得到校正后的文本笔录信息；根据校正后的文本笔录信息生成庭审笔录信息，庭审笔录信息可以是服务器根据多个终端实时上传的语音识别出对应的多条庭审笔录信息。

服务器根据校正后的文本笔录信息生成庭审笔录信息后，还可以进一步获取预先配置的关键字映射表。其中，关键字映射表可以射服务器预先根据仲裁数据以及庭审数据进行配置的，关键字映射表中包括多个关键字和对应的电子关联数据。服务器则将每一条庭审笔录信息与关键字映射表进行匹配。具体地，服务器检测每一条庭审笔录信息中是否存在关键字映射表中相匹配的关键字，当匹配到庭审笔录信息中存在匹配的关键字时，则获取关键字对应的电子关联数据。例如，证据类的关键字可以对应的相关联的证据内容，法条类的关键字可以对应具体的法条内容。当庭审笔录信息中存在于关键字数据映射表中相匹配的关键字时，则获取关键字对应的电子数据。服务器并将获取的电子关联数据实时发送至多个参审人员对应的终端，并进行显示。节省了办案人员在庭审过程中的工作量，由此能够有效地提高庭审效率。

在一个实施例中，该方法还包括：从音视频数据中提取参审人员中当事人对应的人脸图像帧序列；根据预设算法计算人脸图像帧序列对应的人脸特征；获取预设的表情识别模型，通过表情识别模型计算人脸图像帧序列的面部关键点轨迹，对人脸图像帧序列对应的人脸特征进行分类，得到当事人对应的当前表情类别；将当事人对应的当前表情类别推送至仲裁员对应的终端。

服务器创建庭审房间后，接收参审人员对应的终端发送的参审请求，并根据参审请求中携带的身份信息对多个参审人员进行身份验证。当身份验证通过后，则进行庭审。在庭审过程中，服务器获取申请人和被申请人对应的终端上传的音视频数据，并从音视频数据中提取申请人和被申请人对应的人脸图像帧序列。其中，服务器捕捉的人脸图像帧序列可以是多帧静态图片，也可以是动态视频流。

服务器则对人脸图像帧序列进行灰度化处理和归一化处理，并根据预设算法计算人脸图像帧序列对应的人脸特征。具体地，服务器根据预设算法人脸图像帧序列中的关键点，并对人脸图像帧序列进行关键点定位。根据关键点对人脸图像帧序列进行特征提取，得到人脸图像帧序列对应的人脸特征，由此能够有效地识别并提取出人脸图像帧序列对应的人脸特征。

服务器进一步获取预设的表情识别模型，通过表情识别模型计算人脸图像帧序列的面部关键点轨迹，根据人脸图像帧序列的面部关键点轨迹计算对应的动态表情特征，进而计算动态表情特征属于每个表情类别的概率值。服务器则获取概率值最高的表情类别，由此得到对申请人或被申请人用户当前的表情类别。服务器进而将当事人对应的当前表情类别推送至仲裁员对应的终端。以使得仲裁员根据申请人和被申请人在通身过程中的表情进行辅助办案。例如，可以通过微表情识别庭审中双方当事人的心理状态，实时显示当事人当前最新的负面情绪状态，例如可以显示两个微表情，每个情绪状态可以显示三秒，辅助仲裁员进行提问。通过预设的表情识别模型能够准确有效地识别出当事人当前的微表情，进而使得仲裁员能够有效地根据当事人的微表情进行辅助办案，由此能够有效地提高办案效率。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种庭审笔录数据处理装置，包括：庭审房间创建模块502、请求接收模块504、身份验证模块506、声纹识别模块508、语音转换模块510、文本校正模块512和庭审笔录信息生成模块514，其中：

庭审房间创建模块502，用于根据庭审排期和对应的庭审任务创建虚拟庭审房间；

请求接收模块504，用于接收参审人员对应的终端发送的参审请求，参审请求中携带了参审人员的身份信息；

身份验证模块506，用于根据身份信息对多个参审人员进行身份验证；当身份验证通过后，获取多个终端上传的音视频数据；

声纹识别模块508，用于对音视频进行特征提取，得到多个语音特征信息；获取预设的声纹识别模型，通过声纹识别模型对语音特征信息进行声纹识别，得到多个语音片段和对应的声纹标识；

语音转换模块510，用于根据声纹标识将多个语音片段转换为对应的文本笔录信息；

文本校正模块512，用于获取预设的庭审语义分析模型，通过庭审语义分析模型对文本笔录信息进行上下文分析，得到对应的分析结果；当分析结果中存在歧义文本时，根据歧义文本的位置和分析结果对歧义文本进行校正，得到校正后的文本笔录信息；

庭审笔录信息生成模块514，用于根据校正后的文本笔录信息生成庭审笔录信息，并将庭审笔录信息发送至多个终端并进行显示。

在一个实施例中，庭审任务包括参审人员信息，身份信息包括参审人员对应的终端录制的短视频数据，身份验证模块506还用于根据身份信息对多个参审人员进行身份验证的步骤包括：根据参审人员信息从预设数据库中获取参审人员对应的目标人脸图像；从短视频数据中提取对应的人脸图像帧；将人脸图像帧与参审人员的目标人脸图像进行人脸匹配，并得到对应的匹配度值；当匹配度值达到预设匹配度值时，则身份验证通过。

在一个实施例中，声纹识别模块508还用于通过声纹识别模型计算多个语音特征信息对应的特征参数序列；根据特征参数序列对语音特征信息进行切分，得到多个语音片段；对多个语音片段的特征参数序列进行相似度计算，将相似度达到预设阈值的多个语音片段进行归类，对归类后的语音片段添加对应的声纹标识。

在一个实施例中，文本校正模块512还用于通过庭审语义分析模型提取文本笔录信息中的词法特征、语法特征和语义特征；根据庭审语义分析模型中的庭审语义特征对词法特征、语法特征和语义特征进行语义匹配分析，判断文本笔录信息中是否存在歧义文本；当分析出文本笔录信息中的词法、语法和语义存在歧义时，分析歧义文本对应的校正文本；根据歧义文本的文本位置和校正文本生成分析结果。

在一个实施例中，庭审笔录信息中包括多个声纹标识对应的多条庭审笔录信息，装置还包括电子关联数据获取模块，用于获取预先配置的关键字映射表；关键字映射表中包括多个关键字和对应的电子关联数据；将庭审笔录信息与关键字映射表进行匹配；当匹配到庭审笔录信息中存在对应的关键字时，则获取关键字对应的电子关联数据；将电子关联数据发送至多个参审人员对应的终端，并进行显示。

在一个实施例中，装置还包括微表情识别模块，用于从音视频数据中提取参审人员中当事人对应的人脸图像帧序列；根据预设算法计算人脸图像帧序列对应的人脸特征；获取预设的表情识别模型，通过表情识别模型计算人脸图像帧序列的面部关键点轨迹，对人脸图像帧序列对应的人脸特征进行分类，得到所述当事人对应的当前表情类别；将当事人对应的当前表情类别推送至仲裁员对应的终端。

关于庭审笔录数据处理装置的具体限定可以参见上文中对于庭审笔录数据处理方法的限定，在此不再赘述。上述庭审笔录数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储庭审任务、短视频数据、音视频数据、仲裁案件信息、参审人员信息、身份信息等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现本申请任意一个实施例中提供的庭审笔录数据处理方法的步骤。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请任意一个实施例中提供的庭审笔录数据处理方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种庭审笔录数据处理方法，所述方法包括：

根据庭审排期和对应的庭审任务创建虚拟庭审房间；

根据所述身份信息对多个参审人员进行身份验证；

当身份验证通过后，获取多个终端上传的音视频数据；

对所述音视频进行特征提取，得到多个语音特征信息；

2.根据权利要求1所述的方法，其特征在于，所述庭审任务包括参审人员信息，所述身份信息包括所述参审人员对应的终端录制的短视频数据，所述根据所述身份信息对多个参审人员进行身份验证的步骤包括：

根据所述参审人员信息从预设数据库中获取参审人员对应的目标人脸图像；

从所述短视频数据中提取对应的人脸图像帧；

将所述人脸图像帧与所述参审人员的目标人脸图像进行人脸匹配，并得到对应的匹配度值；

当所述匹配度值达到预设匹配度值时，则身份验证通过。

3.根据权利要求1所述的方法，其特征在于，所述通过所述声纹识别模型对所述语音特征信息进行声纹识别的步骤包括：

通过所述声纹识别模型计算多个语音特征信息对应的特征参数序列；

根据所述特征参数序列对所述语音特征信息进行切分，得到多个语音片段；

对多个语音片段的特征参数序列进行相似度计算，将所述相似度达到预设阈值的多个语音片段进行归类，对归类后的语音片段添加对应的声纹标识。

4.根据权利要求1所述的方法，其特征在于，所述通过所述庭审语义分析模型对所述文本笔录信息进行上下文分析的步骤包括：

通过所述庭审语义分析模型提取所述文本笔录信息中的词法特征、语法特征和语义特征；

根据庭审语义分析模型中的庭审语义特征对所述词法特征、语法特征和语义特征进行语义匹配分析，判断所述文本笔录信息中是否存在歧义文本；

当分析出所述文本笔录信息中的词法、语法和语义存在歧义时，分析所述歧义文本对应的校正文本；

根据所述歧义文本的文本位置和校正文本生成分析结果。

5.根据权利要求1所述的方法，其特征在于，所述庭审笔录信息中包括多个声纹标识对应的多条庭审笔录信息，所述根据所述校正后的文本笔录信息生成庭审笔录信息之后，还包括：

获取预先配置的关键字映射表；所述关键字映射表中包括多个关键字和对应的电子关联数据；

将所述庭审笔录信息与所述关键字映射表进行匹配；

当匹配到所述庭审笔录信息中存在对应的关键字时，则获取所述关键字对应的电子关联数据；

将所述电子关联数据发送至多个参审人员对应的终端，并进行显示。

6.根据权利要求1至5任意一项所述的方法，其特征在于，所述方法还包括：

从所述音视频数据中提取参审人员中当事人对应的人脸图像帧序列；

根据预设算法计算所述人脸图像帧序列对应的人脸特征；

获取预设的表情识别模型，通过所述表情识别模型计算所述人脸图像帧序列的面部关键点轨迹，对所述人脸图像帧序列对应的人脸特征进行分类，得到所述当事人对应的当前表情类别；

将所述当事人对应的当前表情类别推送至仲裁员对应的终端。

7.一种庭审笔录数据处理装置，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述文本校正模块还用于通过所述庭审语义分析模型提取所述文本笔录信息中的词法特征、语法特征和语义特征；根据庭审语义分析模型中的庭审语义特征对所述词法特征、语法特征和语义特征进行语义匹配分析，判断所述文本笔录信息中是否存在歧义文本；当分析出所述文本笔录信息中的词法、语法和语义存在歧义时，分析所述歧义文本对应的校正文本；根据所述歧义文本的文本位置和校正文本生成分析结果。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。