CN114638213A

CN114638213A - 记录文本处理方法、装置及计算机可读存储介质

Info

Publication number: CN114638213A
Application number: CN202210157627.2A
Authority: CN
Inventors: 魏梦溪; 张雅婷
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-06-17

Abstract

本发明公开了一种记录文本处理方法、装置及计算机可读存储介质。其中，该方法包括：获取目标记录文本，对目标记录文本进行文本特征提取，得到目标文本特征，基于目标文本特征，对目标记录文本的程序合法性进行预测，得到预测结果。本发明解决了相关技术中，人工审核记录文本而导致的记录文本处理工作重复性高且工作繁重、记录文本处理效率和智能化程度低的技术问题。

Description

记录文本处理方法、装置及计算机可读存储介质

技术领域

本发明涉及文本处理技术领域，具体而言，涉及一种记录文本处理方法、装置及计算机可读存储介质。

背景技术

在一些应用场景中，需要对文本的合法性进行审查。例如，在案件审查流程中，需要根据笔录文本中记载的内容对笔录文本的合法性进行审查。

目前，主要是通过人工审核的方法对记录文本中记载的内容进行识别，并根据内容的识别结果对记录文本程序的合法性进行判断，人工审核记录文本会导致记录文本处理工作重复性高且工作繁重，进而导致记录文本处理效率和智能化程度低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种记录文本处理方法、装置及计算机可读存储介质，以至少解决相关技术中，人工审核记录文本而导致的记录文本处理工作重复性高且工作繁重、记录文本处理效率和智能化程度低的技术问题。

根据本发明实施例的一个方面，提供了一种记录文本处理方法，包括：获取目标记录文本；对所述目标记录文本进行文本特征提取，得到目标文本特征；基于所述目标文本特征，对所述目标记录文本的程序合法性进行预测，得到预测结果。

可选地，所述对所述目标记录文本进行文本特征提取，得到目标文本特征，包括：将所述目标记录文本划分为输入句子序列；对所述输入句子序列进行卷积层操作，得到卷积特征；对得到的所述卷积特征进行池化操作，得到池化特征；对所述池化特征进行全连接层操作，得到所述目标文本特征。

可选的，所述基于所述目标文本特征，对所述目标记录文本的程序合法性进行预测，得到预测结果，包括：基于所述目标文本特征，预测针对所述目标记录文本所包括的程序，当事人被告知对应权利的第一概率；基于所述目标文本特征，预测针对所述目标记录文本所包括的程序，经过当事人核对确认的第二概率；基于所述目标文本特征，预测针对所述目标记录文本所包括的程序，存在证据取样合法性说明的第三概率；其中，所述预测结果包括以下概率至少之一：所述第一概率，所述第二概率，所述第三概率。

可选的，所述基于所述目标文本特征，对所述目标记录文本的程序合法性进行预测，得到预测结果，包括：基于所述目标文本特征，提取所述目标记录文本中对目标对象的第一程序操作时间；获取所述目标对象在其它记录文本中的第二程序操作时间；基于所述第一程序操作时间和所述第二程序操作时间的比对，得到所述目标记录文本中的程序操作时间是否重叠的预测结果。

可选的，所述基于所述目标文本特征，提取所述目标记录文本中对目标对象的第一程序操作时间，包括：将所述目标文本特征输入实体抽取模型，得到所述目标记录文本中基于文本的第一程序操作时间；对所述第一程序操作时间进行标准化处理，得到标准化的第一程序操作时间。

可选的，所述目标记录文本包括以下至少之一：讯问笔录、询问笔录。

根据本发明实施例的另一个方面，提供了一种记录文本处理方法，包括：在交互界面上显示输入控件；响应于对所述输入控件的输入操作，接收目标记录文本；在所述交互界面上显示对所述目标记录文本的程序合法性进行预测得到的预测结果，其中，所述预测结果基于所述目标记录文本的目标文本特征进行预测得到，所述目标文本特征为对所述目标记录文本进行文本特征提取得到。

根据本发明实施例的另一个方面，提供了一种记录文本处理装置，包括：获取模块，用于获取目标记录文本；提取模块，用于对所述目标记录文本进行文本特征提取，得到目标文本特征；预测模块，用于基于所述目标文本特征，对所述目标记录文本的程序合法性进行预测，得到预测结果。

根据本发明实施例的另一个方面，提供了一种记录文本处理装置，包括：第一显示模块，用于在交互界面上显示输入控件；接收模块，用于响应于对所述输入控件的输入操作，接收目标记录文本；第二显示模块，用于在所述交互界面上显示对所述目标记录文本的程序合法性进行预测得到的预测结果，其中，所述预测结果基于所述目标记录文本的目标文本特征进行预测得到，所述目标文本特征为对所述目标记录文本进行文本特征提取得到。

根据本发明实施例的另一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的记录文本处理方法。

根据本发明实施例的另一个方面，提供了一种计算机设备，包括：存储器和处理器，所述存储器存储有计算机程序；所述处理器，用于执行所述存储器中存储的计算机程序，所述计算机程序运行时使得所述处理器执行上述任意一项所述的记录文本处理方法。

在本发明实施例中，采用对目标记录文本进行文本特征进行提取，得到目标文本特征，基于目标文本特征，对目标记录文本的程序合法性进行预测的方式，获取目标记录文本的程序合法性的预测结果。基于目标记录文本的目标文本特征进行目标记录文本的程序合法性预测，获取目标记录文本的程序合法性的预测结果，从而达到了自动处理记录文本的目的，减少了记录文本处理工作的重复性和记录文本处理工作的工作量，提高了记录文本处理效率和智能化程度，解决了相关技术中，人工审核记录文本而导致的记录文本处理工作重复性高且工作繁重、记录文本处理效率和智能化程度低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种用于实现记录文本处理方法的计算机终端的硬件结构框图；

图2是根据本发明实施例的一种可选的记录文本处理方法的流程图；

图3是根据本发明实施例的一种可选的获取目标文本特征的方法的流程图；

图4是根据本发明实施例的一种可选的基于目标文本特征进行目标记录文本程序合法性预测的方法的流程图；

图5是根据本发明实施例的又一种可选的记录文本处理方法的流程图；

图6是根据本发明实施例的一种可选的笔录处理方法的流程图；

图7是根据本发明实施例的一种可选的对目标笔录进行分类处理的模型架构示意图；

图8是根据本发明实施例的一种可选的记录文本处理装置的结构框图；

图9是根据本发明实施例的另一种可选的记录文本处理装置的结构框图；

图10是根据本发明实施例的一种可选的计算机设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

记录文本：用于记录文字内容的文档，包括具有标准格式的文档内容或者非标准格式的文档内容。例如，有标准格式的文档内容包括专业的法律文书，等。

讯问笔录：讯问笔录是案件审查人员在讯问犯罪嫌疑人时制作的，记录犯罪嫌疑人的供述或辩解情况的证据性文书，或记录对犯罪嫌疑人讯问情况的证据性文书。

询问笔录：询问笔录是针对被害人、证人所做的调查笔录，是记录对被害人、证人询问情况的证据性文书。

光学字符识别(Optical Character Recognition，OCR)：用于将不可编辑的文字内容转换为可编辑文本的功能，比如，将图片、照片上的文字内容识别出来并直接转换成可编辑文本的功能。

文本分类模型：文本分类模型应用广泛，例如，可用于辨别垃圾信息或恶意评论、对文章实现倾向分类、对商品的积极评论和消极评论进行分类，等等。文本分类的方法有多种，包括传统机器学习的逻辑回归、SVM(Support Vector Machines，支持向量机)、贝叶斯分类模型、主题模型、深度学习的FastText(快速的文本分类器)、基于CNN(ConvolutionalNeural Network，卷积神经网络模型)或RNN(Recurrent Neural Network，循环网络模型)的分类模型，基于预训练模型的BERT(Bidirectional Encoder Representation fromTransformers，预训练的语言表征模型)，ELMo(Embedding from Language Models，双向语言模型)、GPT(Gererate Pre-Training Model，生成式预训练模型)的分类模型，等等。

预训练语言模型(Pre-trained Language Model)：属于文本分类模型的一种，近年来BERT等预训练语言模型基于大量语料通过语言模型损失函数进行预训练，在一系列自然语言处理NLP(Natural Language Processing，自然语言处理)任务中取得了良好的结果。

预训练的语言表征模型(Bidirectional Encoder Representation fromTransformers，BERT)：BERT为一种预训练语言模型，属于文本分类模型的一种。BERT的输入是一个线性序列，支持单句文本和句对文本，句首用符号[CLS]表示，句尾用符号[SEP]表示，如果是句对，句子之间添加符号[SEP]。输入特征，由Token向量、Segment向量和Position向量三个共同组成，分别代表单词信息、句子信息、位置信息。BERT采用了MLM(Masked Language Model，掩码语言模型)和NSP(Next Sentence Prediction，预测下一句模型)两种策略用于模型预训练。其中，采用MLM模型进行模型预训练时，对输入的单词序列，随机地掩盖15％的单词，然后对掩盖的单词做预测任务，相比传统标准条件语言模型只能left-to-right或right-to-left单向预测目标函数，MLM可以从任意方向预测被掩盖的单词。许多重要的下游任务譬如QA(Question Answer，问答)、NLI(Natural LanguageInference，自然语言推理)需要语言模型理解两个句子之间的关系，而传统的语言模型在训练的过程没有考虑句对关系的学习，NSP模型用于预测下一句，增加了对句子A和B关系的预测任务，在进行预测时，在50％的时间里B是A的下一句，分类标签为IsNext，另外50％的时间里B是随机挑选的句子，并不是A的下一句，分类标签为NotNext。

文本分类模型(Text-Convolutional Neural Network，TextCNN)：是一种利用卷积神经网络CNN来处理文本分类问题的模型，其中，CNN通过卷积操作做特征检测进而得到多个特征映射，然后通过池化操作对特征进行筛选和噪音过滤处理，提取关键信息用来分类。

命名实体识别(Named Entity Recognition，NER)：NER是NLP序列标注任务的一种，用于从输入文本中识别出有特定意义或指代性强的实体，是机器翻译、知识图谱、关系抽取和问答系统的基础。学术上将NER的命名实体分3大类和7小类，其中，3大类指实体类、时间类、数字类，7小类指人名、地名、组织机构名、时间、日期、货币和百分比。因为语言具有语法，语料遵循一定的语法结构，所以CRF(Conditional Random Field Algorithm，随机场算法)、HMM(Hidden Markov Model，隐马尔科夫模型)和MEMM(Maximum Entropy MarkovModel，最大熵马尔科夫模型)等概率图模型可以用来分析标签转移概率。在一些深度学习模型中，一般会加上CRF层来负责句子级别的标签预测。

实施例1

根据本发明实施例，提供了一种记录文本处理方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现记录文本处理方法的计算机终端的硬件结构框图。如图1所示，计算机终端10可以包括一个或多个处理器(图中采用102a、102b，……，102n来示出，处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的记录文本处理方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的记录文本处理方法。图2是根据本发明实施例1的记录文本处理方法的流程图。如图2所示，本申请实施例所提供的记录文本处理方法可以通过如下步骤实现：

步骤S202，获取目标记录文本。

目标记录文本的种类可以有多种，作为一种可选实施例，该目标记录文本可以是一些标准的法律文书，也可以是一些非标准的随手笔记等。举例来说，标准的法律文书可以是具有一些标准格式的文档内容。例如，目标记录文本可以是案件审查人员根据对当事人进行讯问的情况所制作的讯问笔录，也可以是案件审查人员根据对被害人或证人进行询问的情况所制作的询问笔录。

目标记录文本的形式可以有多种，作为一种可选实施例，目标记录文本可以是纸质文件，也可以是电子文档。

步骤S204，对目标记录文本进行文本特征提取，得到目标文本特征。

作为一种可选实施例，可以使用OCR文字提取方法对目标文本进行文字提取，基于提取的目标文本的文字内容获取目标文本特征。

步骤S206，基于目标文本特征，对目标记录文本的程序合法性进行预测，得到预测结果。

作为一种可选实施例，可以使用文本分类模型对目标记录文本的程序合法性进行预测。

进行文本分类的模型有多种，作为一种可选实施例，使用TextCNN模型和BERT模型对目标记录文本的程序合法性进行预测。

通过本申请上述实施例所提供的方案，基于目标记录文本的目标文本特征进行目标记录文本的程序合法性预测，获取目标记录文本的程序合法性的预测结果，从而达到了自动处理记录文本的目的，减少了记录文本处理工作的重复性和记录文本处理工作的工作量，提高了记录文本处理效率和智能化程度，进而解决了相关技术中，人工审核记录文本而导致的记录文本处理工作重复性高且工作繁重、记录文本处理效率和智能化程度低的技术问题。

在对目标记录文本的程序合法性进行预测时，需要获取目标记录文本的目标文本特征，获取目标文本特征的方法有多种。

图3是根据本发明实施例的一种可选的获取目标文本特征的方法的流程图。如图3所示，本申请实施例所提供的获取目标文本特征的方法可以通过如下步骤实现：

步骤S302，将目标记录文本划分为输入句子序列。

步骤S304，对输入句子序列进行卷积层操作，得到卷积特征。

步骤S306，对得到的卷积特征进行池化操作，得到池化特征。

步骤S308，对池化特征进行全连接层操作，得到目标文本特征。

作为一种可选实施例，使用文本分类模型TextCNN获取目标文本特征，TextCNN模型的输入层需要输入一个定长的文本序列，因此需要对目标记录文本进行划分，进而获取定长的输入句子序列作为TextCNN模型的输入量。在获取输入句子序列后，通过TextCNN模型中的卷积层和池化层，利用局部词序信息从给定的目标记录文本的句子序列中，提取初级的目标文本特征，并将初级的目标文本特征进行组合，进而获取高级目标文本特征(池化层特征)。TextCNN模型中的全连接层相当于分类器，用于将经过卷积层和池化层提取的池化层特征输入到分类器中进行分类，最终得到目标文本特征。

在本可选实施例中，通过卷积层和池化层的操作对目标文本进行特征提取，省去了传统机器学习中的特征工程的步骤，提高了目标文本特征提取的效率，使目标文本特征提取过程具备高效智能的的特点，可以实现自动且快速的获取目标文本特征的目的。

作为一种可选实施例，基于目标文本特征，对目标记录文本的程序合法性进行预测，得到预测结果，包括以下至少之一：基于目标文本特征，预测针对目标记录文本所包括的程序，当事人被告知对应权利的第一概率；基于目标文本特征，预测针对目标记录文本所包括的程序，经过当事人核对确认的第二概率；基于目标文本特征，预测针对目标记录文本所包括的程序，存在证据取样合法性说明的第三概率。

需要明白的是，在目标记录文本所记录的程序内容中，应包括当事人被告知对应权利的程序。在获取当事人被告知对应权利的第一概率后，可以根据第一概率进行目标记录文本的程序合法性判断。当第一概率小于第一概率阈值时，表明当事人未被告知诉讼权利，由此可以判定目标记录文本的程序不合法，可以对该程序不合法结果进行错误预警。当第一概率大于或等于第一概率阈值时，表明当事人被告了知诉讼权利，由此可以判定流程无误，即：告知当事人诉讼权利的程序合法。

需要明白的是，在制作目标记录文本后，需要当事人对目标记录文本进行核对确认。在获取目标记录文本经过当事人核对确认的第二概率后，可以根据第二概率进行目标记录文本的程序合法性判断。当第二概率小于第二概率阈值时，表明在制作目标记录文本后，当事人未对目标记录文本进行核对确认，由此可以判定目标记录文本的程序不合法，可以对该程序不合法结果进行错误预警。当第二概率大于或等于第二概率阈值时，表明在制作目标记录文本后，当事人对目标记录文本进行了核对确认，由此可以判定当事人进行目标记录文本核对确认的程序合法。

需要明白的是，目标记录文本中应存在证据取样合法性说明。在获取目标记录文本存在证据取样合法性说明的第三概率后，可以根据第三概率进行目标记录文本的程序合法性判定。当第三概率小于第三概率阈值时，表明目标记录文本中不存在证据取样合法性说明，由此可以判定目标记录文本的程序不合法，可以对该程序不合法结果进行错误预警。当第三概率大于或等于第三概率阈值时，表明在目标记录文本中对证据取样合法性做了说明，由此可以判定目标记录文本中存在证据取样合法性说明的程序合法。

在预测结果包括第一概率、第二概率或第三概率中的一个时，若概率小于对应的概率阈值，可以判定目标记录文本的程序不合法，若概率大于或等于对应的概率阈值，可以判定目标记录文本的程序合法。

在预测结果包括第一概率、第二概率或第三概率中的多个时，当任意一个概率小于对应的概率阈值时，可以判定目标记录文本的程序不合法，当各概率均大于或等于对应的概率阈值时，可以判定目标记录文本的程序合法。

在本可选实施例中，基于目标文本特征，对目标记录文本的程序合法性进行预测，得到第一概率、第二概率和第三概率中的至少一项，并根据获取的概率进行目标记录文本程序合法性的预测，实现了对记录文本的自动处理，减少了记录文本处理工作的重复性和记录文本处理工作的工作量，提高了记录文本处理效率和智能化程度。

基于目标文本特征，对目标记录文本的程序合法性进行预测的方法有多种，可选的，针对记录文本中合法性要素比较集中的特点，使用TextCNN模型对目标文本进行文本分类，以获取预测结果。

TextCNN模型共分为四个层：输入层、卷积层、池化层和全连接softmax输出层，使用TextCNN模型进行文本分类的详细过程如下：对输入长度为n,词向量维度为d的句子，有过滤器大小filter_size＝(2,3,4)的一维卷积层，每个filter(过滤器)有2个channel(通道)，相当于分别提取两个2-gram、3-gram和4-gram特征。通过卷积操作，得到特征映射c。然后通过最大池化操作提取特征映射c中最大的值，不同的filter获得不同的n-gram特征。最后，通过softmax函数得到分类结果，然后，通过三个彼此独立的全连接层，可以分别得到三种程序的合法概率，即：通过三个彼此独立的全连接层，可以分别得到第一概率、第二概率和第三概率，然后基于得到的概率进行目标记录文本的程序合法性预测。

图4是根据本发明实施例的一种可选的基于目标文本特征进行目标记录文本程序合法性预测的方法的流程图，如图4所示，基于目标文本特征，对目标记录文本的程序合法性进行预测，得到预测结果，可包括如下步骤：

步骤S402，基于目标文本特征，提取目标记录文本中对目标对象的第一程序操作时间；

步骤S404，获取目标对象在其它记录文本中的第二程序操作时间；

步骤S406，基于第一程序操作时间和第二程序操作时间的比对，得到目标记录文本中的程序操作时间是否重叠的预测结果。

在本可选实施例中，目标记录文本可包括多份记录文本，基于目标文本特征，提取目标记录文本中对目标对象的第一程序操作时间可以为多份记录文本中的程序操作时间，获取目标对象在其他记录文本中的第二程序操作时间也可以为多个，在对第一程序操作时间和第二程序操作时间进行比对时，若得到目标记录文本中的程序操作时间有重叠，则说明目标记录文本的程序不合法，可以对该程序不合法结果进行错误预警，否则说明目标记录文本的程序合法，说明目标记录文本的流程无误。

在本可选实施例中，对目标对象在目标记录文本中的第一程序操作时间和第二程序操作时间进行比对，得到目标记录文本中的程序操作时间是否重叠的预测结果，并根据该预测结果进行目标记录文本程序是否合法的判定，实现了对记录文本的自动处理，减少了记录文本处理工作的重复性和记录文本处理工作的工作量，提高了记录文本处理效率和智能化程度。

作为一种可选实施例，基于目标文本特征，提取目标记录文本中对目标对象的第一提审时间，可包括如下步骤：

将目标文本特征输入实体抽取模型，得到目标记录文本中基于文本的第一程序操作时间；

对第一程序操作时间进行标准化处理，得到标准化的第一程序操作时间。

基于目标文本特征，提取目标记录文本中对目标对象的第一程序操作时间的方法可以有多种，例如，可以使用文本实体抽取模型提取目标记录文本中对目标对象的第一程序操作时间。

作为一种可选实施例，使用命名实体识别(Named Entity Recognition，NER)方法提取目标记录文本中对目标对象的程序操作时间，具体的，使用预训练模型BERT作为实体抽取模型提取记录文本中的程序操作时间，其中，基于深度双向Transformer的预训练模型BERT，采用的特征提取器是Transformer编码器部分，预训练模型BERT分为预训练和下游任务微调两个阶段。

在本可选实施例中，基于实体抽取模型对目标记录文本进行处理，可自动获取目标记录文本中的程序操作时间，实现了对记录文本的自动处理，减少了记录文本处理工作的重复性和记录文本处理工作的工作量，提高了记录文本处理效率和智能化程度。

在一个实施例中，使用预训练模型BERT对目标文本进行程序操作时间抽取，获取的程序操作时间信息为“21年9月1号下午1点”，对该时间信息进行标准化处理，得到标准化的程序操作时间为“2021-09-01 13:00”，对获取的程序操作时间信息进行标准化处理，便于进行各记录文本中程序操作时间的交叉比对，提高了对各记录文本中的程序操作时间进行重叠性预测的效率，提高了记录文本处理效率。

根据本发明实施例，还提供了另一种记录文本处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

需要说明的是，本申请实施例2所提供的方法实施例可以在如图1所示的计算机终端10或者类似的运算装置中执行。

图5是根据本发明实施例的又一种可选的记录文本处理方法的流程图，如图5所示，本申请实施例所提供的记录文本处理方法可以通过如下方法步骤实现：

步骤S502，在交互界面上显示输入控件；

步骤S504，响应于对输入控件的输入操作，接收目标记录文本；

步骤S506，在交互界面上显示对目标记录文本的程序合法性进行预测得到的预测结果，其中，预测结果基于目标记录文本的目标文本特征进行预测得到，目标文本特征为对目标记录文本进行文本特征提取得到。

通过本申请上述实施例所提供的方案，通过显示控件的输入操作接收目标记录文本，并在交互界面上显示对目标记录文本的程序合法性进行预测得到的预测结果，其中，预测结果是基于目标记录文本的目标文本特征进行目标记录文本的程序合法性预测得到的。方案达到了自动处理记录文本的目的，减少了记录文本处理工作的重复性和记录文本处理工作的工作量，提高了记录文本处理效率和智能化程度，进而解决了相关技术中，人工审核记录文本而导致的记录文本处理工作重复性高且工作繁重、记录文本处理效率和智能化程度低的技术问题。另外，通过在交互界面上显示智能处理记录文本的过程，能够直观地展示记录文本处理的过程和结果，进而能够有效提升用户的体验。

基于上述实施例及可选实施例，提供了一种可选实施方式，下面具体说明。

在本可选实施方式中，以目标记录文本为刑事讯问笔录为例进行说明，以第一次讯问有无告知当事人诉讼权利、制作讯问笔录后是否让当事人对笔录进行核对确认、讯问笔录中是否存在证据取样合法性说明、对同一目标对象进行多次讯问所得到的多份讯问笔录中的提审时间是否存在重叠为分析对象进行讯问笔录的程序合法性审核。

相关技术中，通过人工审核的方式对讯问笔录的程序合法性进行审核，导致基层案件审查人员审查笔录的工作繁重且重复性高，笔录审查工作智能化程度低，影响了案件审查人员的案件审查质效。

鉴于此，在本公开实施方式中，提供了一种讯问笔录处理方法，实现对讯问笔录的智能处理，从技术上减少了笔录处理的重复性工作，提高了笔录处理效率和智能化处理程度，完成了自动化的笔录形式审查，从而提高了审查证据的效率，缓解了“案多人少”的矛盾，减少了法律偏差，提高了案件审查人员公正性，提升了案件审查人员的案件审查质效，

图6是根据本发明实施例的另一种可选的笔录处理方法的流程图。如图6所示，本申请实施例所提供的笔录处理方法可以通过如下步骤实现：

获取原始笔录文档。

使用OCR文字提取方法对原始笔录文档进行文字提取，获取目标笔录(相当于前述实施例中的目标记录文本)。

使用TextCNN模型作为文本分类模型对目标笔录进行分类处理，获取第一次对当事人进行讯问有无告知当事人诉讼权利的概率(相当于前述实施例中的第一概率)、制作讯问笔录后是否让当事人对笔录进行核对确认的概率(相当于前述实施例中的第二概率)、讯问笔录中是否存在证据取样合法性说明的概率(相当于前述实施例中的第三概率)，根据概率获取对应的预测结果。若第一次对当事人进行讯问告知当事人诉讼权利、制作讯问笔录后让当事人对笔录进行核对确认、讯问笔录中存在证据取样合法性说明，则说明目标笔录程序合法，目标笔录的流程是无误的；否则说明目标笔录的程序不合法，对不合法的结果进行错误预警。

图7是根据本发明实施例的一种可选的对目标笔录进行分类处理的模型架构示意图，参考图7所示，在使用文本分类模型对目标笔录进行分类处理时，将目标笔录划分为输入句子序列，再对输入句子序列进行卷积层操作，得到卷积特征。然后得到的卷积特征进行池化操作，得到池化特征。对池化特征进行全连接层操作，得到目标文本特征。基于目标文本特征和三个彼此独立的全连接层，分别获取第一次讯问有无告知当事人诉讼权利、制作讯问笔录后是否让当事人对笔录进行核对确认、讯问笔录中是否存在证据取样合法性说明的预测结果，并根据预测结果进行对应的程序合法性预测。

使用BERT模型作为文本实体抽取对目标笔录中的各讯问笔录进行时间抽取，获取各讯问笔录中的提审时间(即前述实施例中的程序操作时间)，并对各提审时间进行标准化处理，得到标准化的提审时间。然后对各标准化的提审时间进行比对，判断各提审时间是否重叠。是则判定笔录的程序不合法，对该不合法结果进行错误预警，否则判定笔录的程序合法，即笔录的流程无误。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的记录文本处理方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述记录文本处理方法的记录文本处理装置，图8是根据本发明实施例的一种可选的记录文本处理装置的结构框图，如图8所示，该装置包括：

获取模块802，用于获取目标记录文本；提取模块804，连接于上述获取模块802，用于对目标记录文本进行文本特征提取，得到目标文本特征；预测模块806，连接于上述提取模块804，用于基于目标文本特征，对目标记录文本的程序合法性进行预测，得到预测结果。

此处需要说明的是，上述获取模块802、提取模块804和预测模块806分贝对应于实施例1中的步骤S202至步骤S206，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

根据本发明实施例，还提供了另一种用于实施上述记录文本处理方法的记录文本处理装置，图9是根据本发明实施例的另一种可选的记录文本处理装置的结构框图，如图9所示，该装置包括：第一显示模块902，用于在交互界面上显示输入控件；接收模块904，连接于上述第一显示模块902，用于响应于对输入控件的输入操作，接收目标记录文本；第二显示模块906，连接于上述接收模块904，用于在交互界面上显示对目标记录文本的程序合法性进行预测得到的预测结果，其中，预测结果基于目标记录文本的目标文本特征进行预测得到，目标文本特征为对目标记录文本进行文本特征提取得到。

此处需要说明的是，上述第一显示模块902、接收模块904和第二显示模块906对应于实施例2中的步骤S502至步骤S506，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例2所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本可选实施例提供的记录文本处理装置，可用于实现上述记录文本处理方法，通过显示控件的输入操作接收目标记录文本，并在交互界面上显示对目标记录文本的程序合法性进行预测得到的预测结果，其中，预测结果是基于目标记录文本的目标文本特征进行目标记录文本的程序合法性预测得到的。方案达到了自动处理记录文本的目的，减少了记录文本处理工作的重复性和记录文本处理工作的工作量，提高了记录文本处理效率和智能化程度，进而解决了相关技术中，人工审核记录文本而导致的记录文本处理工作重复性高且工作繁重、记录文本处理效率和智能化程度低的技术问题。

实施例3

本发明的实施例还提供了一种计算机可读存储介质。可选地，在本实施例中，上述计算机可读存储介质可以用于保存上述实施例1所提供的记录文本处理方法所执行的程序代码。

可选地，在本实施例中，上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取目标记录文本；对目标记录文本进行文本特征提取，得到目标文本特征；基于目标文本特征，对目标记录文本的程序合法性进行预测，得到预测结果。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：对目标记录文本进行文本特征提取，得到目标文本特征，包括：将目标记录文本划分为输入句子序列；对输入句子序列进行卷积层操作，得到卷积特征；对得到的卷积特征进行池化操作，得到池化特征；对池化特征进行全连接层操作，得到目标文本特征。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：基于目标文本特征，对目标记录文本的程序合法性进行预测，得到预测结果，包括：在目标记录文本包括讯问笔录的情况下，基于目标文本特征，预测针对目标记录文本所包括的程序，当事人被告知对应权利的第一概率；基于目标文本特征，预测针对目标记录文本所包括的程序，经过当事人核对确认的第二概率；基于目标文本特征，预测针对目标记录文本所包括的程序，存在证据取样合法性说明的第三概率；其中，预测结果包括以下概率至少之一：第一概率，第二概率，第三概率。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：基于目标文本特征，对目标记录文本的程序合法性进行预测，得到预测结果，包括：基于目标文本特征，提取目标记录文本中对目标对象的第一提审时间；获取目标对象在其它记录文本中的第二程序操作时间；基于第一程序操作时间和第二程序操作时间的比对，得到目标记录文本中的程序操作时间是否重叠的预测结果。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：基于目标文本特征，提取目标记录文本中对目标对象的第一程序操作时间，包括：将目标文本特征输入实体抽取模型，得到目标记录文本中基于文本的第一程序操作时间；对第一程序操作时间进行标准化处理，得到标准化的第一程序操作时间。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取包括以下至少之一的目标记录文本：讯问笔录、询问笔录。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：在交互界面上显示输入控件；响应于对输入控件的输入操作，接收目标记录文本；在交互界面上显示对目标记录文本的程序合法性进行预测得到的预测结果，其中，预测结果基于目标记录文本的目标文本特征进行预测得到，目标文本特征为对目标记录文本进行文本特征提取得到。

本发明的实施例可以提供一种计算机设备，该计算机设备可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机设备也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机设备可以执行应用程序的记录文本处理方法中以下步骤的程序代码：获取目标记录文本；对目标记录文本进行文本特征提取，得到目标文本特征；基于目标文本特征，对目标记录文本的程序合法性进行预测，得到预测结果。

图10根据本发明实施例的一种可选的计算机设备的结构框图。参照图10所示，计算机设备可以包括：一个或多个(图中仅示出一个)处理器1002、存储器1004等。

其中，存储器1004可用于存储软件程序以及模块，如本发明实施例中的记录文本处理方法和装置对应的程序指令/模块，处理器1002通过运行存储在存储器1004内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的记录文本处理方法。存储器1004可包括高速随机存储器1004，还可以包括非易失性存储器1004，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器1004。在一些实例中，存储器1004可进一步包括相对于处理器1002远程设置的存储器1004，这些远程存储器1004可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器1002可以通过传输装置调用存储器1004存储的信息及应用程序，以执行下述步骤：获取目标记录文本；对目标记录文本进行文本特征提取，得到目标文本特征；基于目标文本特征，对目标记录文本的程序合法性进行预测，得到预测结果。

可选的，上述处理器1002还可以执行如下步骤的程序代码：对目标记录文本进行文本特征提取，得到目标文本特征，包括：将目标记录文本划分为输入句子序列；对输入句子序列进行卷积层操作，得到卷积特征；对得到的卷积特征进行池化操作，得到池化特征；对池化特征进行全连接层操作，得到目标文本特征。

可选的，上述处理器1002还可以执行如下步骤的程序代码：基于目标文本特征，对目标记录文本的程序合法性进行预测，得到预测结果，包括：基于目标文本特征，预测针对目标记录文本所包括的程序，当事人被告知对应权利的第一概率；基于目标文本特征，预测针对目标记录文本所包括的程序，经过当事人核对确认的第二概率；基于目标文本特征，预测针对目标记录文本所包括的程序，存在证据取样合法性说明的第三概率；其中，预测结果包括以下概率至少之一：第一概率，第二概率，第三概率。

可选的，上述处理器1002还可以执行如下步骤的程序代码：基于目标文本特征，对目标记录文本的程序合法性进行预测，得到预测结果，包括：基于目标文本特征，提取目标记录文本中对目标对象的第一程序操作时间；获取目标对象在其它记录文本中的第二程序操作时间；基于第一程序操作时间和第二程序操作时间的比对，得到目标记录文本中的程序操作时间是否重叠的预测结果。

可选的，上述处理器1002还可以执行如下步骤的程序代码：基于目标文本特征，提取目标记录文本中对目标对象的第一程序操作时间，包括：将目标文本特征输入实体抽取模型，得到目标记录文本中基于文本的第一程序操作时间；对第一程序操作时间进行标准化处理，得到标准化的第一程序操作时间。

可选的，上述处理器1002还可以执行如下步骤的程序代码：获取包括以下至少之一的目标记录文本：讯问记录文本、询问记录文本。

处理器1002可以通过传输装置调用存储器1004存储的信息及应用程序，以执行下述步骤：在交互界面上显示输入控件；响应于对输入控件的输入操作，接收目标记录文本；在交互界面上显示对目标记录文本的程序合法性进行预测得到的预测结果，其中，预测结果基于目标记录文本的目标文本特征进行预测得到，目标文本特征为对目标记录文本进行文本特征提取得到。

采用本发明实施例，提供了一种计算机设备的方案。基于目标记录文本的目标文本特征进行目标记录文本的程序合法性预测，获取目标记录文本的程序合法性的预测结果，从而达到了自动处理记录文本的目的，减少了记录文本处理工作的重复性和记录文本处理工作的工作量，提高了记录文本处理效率和智能化程度，进而解决了相关技术中，人工审核记录文本而导致的记录文本处理工作重复性高且工作繁重、记录文本处理效率和智能化程度低的技术问题。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，计算机可读存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种记录文本处理方法，其特征在于，包括：

获取目标记录文本；

对所述目标记录文本进行文本特征提取，得到目标文本特征；

基于所述目标文本特征，对所述目标记录文本的程序合法性进行预测，得到预测结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标记录文本进行文本特征提取，得到目标文本特征，包括：

将所述目标记录文本划分为输入句子序列；

对所述输入句子序列进行卷积层操作，得到卷积特征；

对得到的所述卷积特征进行池化操作，得到池化特征；

对所述池化特征进行全连接层操作，得到所述目标文本特征。

3.根据权利要求1所述的方法，其特征在于，所述基于所述目标文本特征，对所述目标记录文本的程序合法性进行预测，得到预测结果，包括：

基于所述目标文本特征，预测针对所述目标记录文本所包括的程序，当事人被告知对应权利的第一概率；

基于所述目标文本特征，预测针对所述目标记录文本所包括的程序，经过当事人核对确认的第二概率；

基于所述目标文本特征，预测针对所述目标记录文本所包括的程序，存在证据取样合法性说明的第三概率；

其中，所述预测结果包括以下概率至少之一：所述第一概率，所述第二概率，所述第三概率。

4.根据权利要求1所述的方法，其特征在于，所述基于所述目标文本特征，对所述目标记录文本的程序合法性进行预测，得到预测结果，包括：

基于所述目标文本特征，提取所述目标记录文本中对目标对象的第一程序操作时间；

获取所述目标对象在其它记录文本中的第二程序操作时间；

基于所述第一程序操作时间和所述第二程序操作时间的比对，得到所述目标记录文本中的程序操作时间是否重叠的预测结果。

5.根据权利要求4所述的方法，其特征在于，所述基于所述目标文本特征，提取所述目标记录文本中对目标对象的第一程序操作时间，包括：

将所述目标文本特征输入实体抽取模型，得到所述目标记录文本中基于文本的第一程序操作时间；

对所述第一程序操作时间进行标准化处理，得到标准化的第一程序操作时间。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述目标记录文本包括以下至少之一：讯问笔录、询问笔录。

7.一种记录文本处理方法，其特征在于，包括：

在交互界面上显示输入控件；

响应于对所述输入控件的输入操作，接收目标记录文本；

在所述交互界面上显示对所述目标记录文本的程序合法性进行预测得到的预测结果，其中，所述预测结果基于所述目标记录文本的目标文本特征进行预测得到，所述目标文本特征为对所述目标记录文本进行文本特征提取得到。

8.一种记录文本处理装置，其特征在于，包括：

获取模块，用于获取目标记录文本；

提取模块，用于对所述目标记录文本进行文本特征提取，得到目标文本特征；

预测模块，用于基于所述目标文本特征，对所述目标记录文本的程序合法性进行预测，得到预测结果。

9.一种记录文本处理装置，其特征在于，包括：

第一显示模块，用于在交互界面上显示输入控件；

接收模块，用于响应于对所述输入控件的输入操作，接收目标记录文本；

第二显示模块，用于在所述交互界面上显示对所述目标记录文本的程序合法性进行预测得到的预测结果，其中，所述预测结果基于所述目标记录文本的目标文本特征进行预测得到，所述目标文本特征为对所述目标记录文本进行文本特征提取得到。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的记录文本处理方法。

11.一种计算机设备，其特征在于，包括：存储器和处理器，

所述存储器存储有计算机程序；

所述处理器，用于执行所述存储器中存储的计算机程序，所述计算机程序运行时使得所述处理器执行权利要求1至7中任意一项所述的记录文本处理方法。