CN112861757B - 基于文本语义理解的笔录智能审核方法及电子设备 - Google Patents
基于文本语义理解的笔录智能审核方法及电子设备 Download PDFInfo
- Publication number
- CN112861757B CN112861757B CN202110204740.7A CN202110204740A CN112861757B CN 112861757 B CN112861757 B CN 112861757B CN 202110204740 A CN202110204740 A CN 202110204740A CN 112861757 B CN112861757 B CN 112861757B
- Authority
- CN
- China
- Prior art keywords
- text content
- text
- calculation result
- content
- contents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000004364 calculation method Methods 0.000 claims abstract description 90
- 230000007547 defect Effects 0.000 claims abstract description 31
- 230000004044 response Effects 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 49
- 238000007639 printing Methods 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 15
- 230000007935 neutral effect Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 10
- 238000003825 pressing Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000012550 audit Methods 0.000 claims description 4
- 238000007477 logistic regression Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 abstract description 24
- 238000005516 engineering process Methods 0.000 abstract description 14
- 238000012795 verification Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000012015 optical character recognition Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 230000002950 deficient Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 241001622623 Coeliadinae Species 0.000 description 1
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种基于文本语义理解的笔录智能审核方法及电子设备,所述方法包括:获取用户输入的笔录文书,对所述笔录文书进行处理以获得所述笔录文书的文本内容;对所述文本内容进行计算,得到所述文本内容的计算结果;响应于所述计算结果对所述文本内容进行分类,确定所述文本内容的瑕疵类型。本公开基于深度学习的OCR识别、自然语言处理文本语义理解等相关技术,对已有的笔录“瑕疵”类型进行分类,对每一类别的“瑕疵笔录”应用相应的算法进行笔录识别,最终辅以人工校验,实现了对笔录文本的智能识别,保证了案件笔录和证人证言的真实性和可靠性。
Description
技术领域
本公开涉及文本数据处理技术领域,尤其涉及一种基于文本语义理解的笔录智能审核方法及电子设备。
背景技术
笔录是公安机关民警在查办案件过程中,依法向受害人(证人)、嫌疑人调查取证时制作的,如实记录案件事实的法律文书。依规依纪依法对证据和询问笔录等进行综合研判、审核把关是实现个案公平正义的基础保障。证人证言、询问笔录等作为案件重要的证据,往往影响案件的最终定性和质量。由于询问人、记录人和被询问人等的主观因素,司法案件中的笔录类文书经常会存在记录不全、记录不准、笔录伪造、被询问人前后回答矛盾等问题。对于此类问题,司法领域有相应的流程对笔录进行审核、校验。
但由于笔录数量大、逻辑复杂、需要检查的细节多等客观因素,人工笔录审核往往会存在漏审的情况。而目前有关笔录智能识别系统的研发还处于比较初级的阶段,相关产品还比较匮乏。
发明内容
有鉴于此,本公开的目的在于提出一种基于文本语义理解的笔录智能审核方法及电子设备。
基于上述目的,本公开提供了一种基于文本语义理解的笔录智能审核方法,包括:
获取用户输入的笔录文书,对所述笔录文书进行处理以获得所述笔录文书的文本内容;
对所述文本内容进行计算,得到所述文本内容的计算结果;
响应于所述计算结果对所述文本内容进行分类,确定所述文本内容的瑕疵类型。
基于同一发明构思,本公开提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项所述的基于文本语义理解的笔录智能审核方法。
从上面所述可以看出,本公开提供的一种基于文本语义理解的笔录智能审核方法及电子设备,针对当前司法领域对于笔录智能识别系统研发相对匮乏的现状以及人工笔录审核存在漏审的问题,基于深度学习的OCR识别、自然语言处理文本语义理解等相关技术建立了一套笔录智能审核方法。该智能审核方法对已有的笔录“瑕疵”类型进行分类,对每一类别的“瑕疵笔录”应用相应的算法进行笔录识别,实现了对笔录的智能识别,保证了案件笔录和证人证言的真实性和可靠性。
附图说明
为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例的基于文本语义理解的笔录智能审核方法的流程示意图;
图2为本公开实施例的指纹捺印检测示意图;
图3a为本公开实施例的采用OCR技术进行笔录文本识别的示意图;
图3b为公开实施例的通过正则匹配算法对经过识别的笔录文本关键词进行标注的示意图;
图4为本公开实施例的基于文本语义理解的笔录智能审核装置结构示意图;
图5为本公开实施例的电子设备硬件结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
如背景技术部分所述,在证人证言的收集和运用中往往存在着以下一些问题:
(1)多名证人询问笔录内容雷同:有些证人所证明的内容涉及案件同一事实,在作笔录前,询问人也往往是做好“预笔录”,而不是根据证人陈述情况现场制作,这就造成了不同证人询问笔录中的“问”与“答”高度一致,给后期法庭审理造成很大的困扰。辩方会怀疑证言内容不真实,是由调查人员事先“做”出来的,并以此要求法庭通过证人出庭作证,导致带来不确定性的诉讼风险。
(2)被调查人口供或同一证人的证言前后内容不一致:对被调查人和证人进行询问时,可能会需要多次询问和取证,特别是行贿人和关键知情人往往会有多份证言在卷,在实际情况中经常会发生某一被询问人或证人前后言辞不一致的情况。
(3)多份笔录中对于重要事实的论述前后矛盾:同一案件的多份笔录对于重要事实的论述可能存在逻辑上的矛盾或对事实论述的改变。
(4)在询问过程中询问人没有采用中立的询问方式:刑事诉讼法中关于调取证人证言的程序要求,调查人员应依法收集证人证言。询问证人的方式要保持中立,问话不能有倾向性。
(5)在询问过程中采用了诱导式问法:证人是以其感知、记忆的与案件有关的事实向检察机关提供证言,为保证证言内容的客观真实,询问人问话时不得威胁或者误导证人,不得采用诱导方式发问,即不能提出“内容本身包含着答案的问题”。
(6)被询问人的签名捺印缺失:基于对笔录制作的严格规范,询问笔录要经过被询问人的核对、确认和签名捺印。
(7)询问笔录的重要信息缺失:对于一些“瑕疵笔录”,可能存在没有填写询问人、记录人、法定代理人姓名或者询问起止时间、地点的情况。
(8)询问笔录没有记录告知被询问人或证人相关的权利义务的法律责任。
(9)询问笔录反映出同一时段,同一询问人询问不同证人的情况。
由于上述问题的存在,亟需提出一套精准的笔录智能识别方法,能够有效减少和防范上述问题的发生。基于经过智能识别方法识别出的“瑕疵笔录”,询问人员将会被要求弥补原来不规范的做法,或者重新制作一份规范的笔录。这将进一步保证笔录的真实性和可靠性。
本公开实施例中应用了现有的Bert模型,Bert模型的输出有两种形式,一种是字符级别的向量,即输入句子的每个字符对应的有一个向量表示。另外一种是句子级别的向量,即BERT模型输出最左边带有[CLS]特殊符号的向量,这个向量可以代表整个句子的语义。特殊符号[CLS]和[SEP]是Bert模型自动添加的句子开头和结尾的表示符号,输入字符串中每个字符经过Bert模型后都有相应的向量表示,当想要得到一个句子的向量时,Bert模型输出最左边带有[CLS]特殊符号的向量,本公开中用的就是Bert模型的这种句子级别的向量输出。本公开还涉及了光学字符识别技术,光学字符识别OCR(Optical CharacterRecognition)技术是指用电子设备(例如扫描仪等)对文本资料进行扫描,对扫描得到的图像文件进行分析处理,获取文字及版面信息的过程。
以下,通过具体的实施例进一步详细说明本公开的技术方案。
本公开提供了一种基于文本语义理解的笔录智能审核方法,参考图1,包括以下几个步骤:
步骤S101、获取用户输入的笔录文书,对所述笔录文书进行处理以获得所述笔录文书的文本内容。
司法案件中的笔录文书涉及的证人证言作为案件重要的证据,影响案件的最终定性和质量。笔录文书的记录方式通常可以分为电子记录和人工记录,对于电子记录的笔录文书可以直接对所需要判别的内容进行摘取,从而获得笔录文书的文本内容。而对于人工记录的笔录文书则需要先将笔录文书进行扫描形成图片格式,再通过光学字符识别技术对图片中的文字进行自动识别,形成笔录文书的文本内容。文本内容包括证人证言、签字捺印以及一些结构化的关键信息,对文本内容中的各类信息进行识别,继而判断文本内容中是否存在瑕疵内容。
步骤S102、对所述文本内容进行计算,得到所述文本内容的计算结果。
对于步骤S101中的得到的文本内容,往往由于询问人、记录人和被询问人等的主观因素,导致笔录文书存在记录不全、记录不准、笔录伪造、被询问人前后回答矛盾等问题。需要针对不同类型的问题选择相应的算法,通过算法的计算判断文书内容是否属于瑕疵内容,以及具体涉及到哪种或是哪些瑕疵类型。通常算法包括文本相似度算法、文本二分类算法、光学字符识别算法、正则匹配算法等。不同的算法可以针对文本内容中的不同信息进行计算和识别,通过各种算法计算得到相应的计算结果。
步骤S103、响应于所述计算结果对所述文本内容进行分类,确定所述文本内容的瑕疵类型。
对于文本内容中的长文本,通常应用文本相似度算法来计算至少两份文本内容的相似度,相似度较高的两份文本内容即存在笔录内容雷同的可能性,相似度较低则会反映出两份文本内容不一致或是前后矛盾的问题。对于文本内容中的句子,可以采用文本二分类算法进行语义的判别,基于预训练模型及预设的分类类别对句子所属类别的概率进行计算,概率较大的分类则为该句子的分类类别,通过这种判别方式可以分辨笔录文书是否存在非中立式询问或是诱导式询问等瑕疵。对于文本内容中的签字捺印缺失或是位置错误等瑕疵可以通过光学字符识别技术进行识别,笔录文书中往往存在大量的签字捺印,不同的签字捺印位置也有所区别,如果通过人工检测需要耗费大量的时间和精力,借助光学字符识别技术则能够快速准确的判断文本内容中哪些地方存在签字捺印缺失或位置错误这类瑕疵类型。对于文本内容中的关键信息缺失,可通过正则匹配算法将预设的关键信息与文本内容中的关键信息进行比对,识别文本内容中的关键信息是否缺失以及判断同时段同一询问人是否对应同一证人等。
在一些实施例中,计算结果包括相似度计算结果、分类计算结果、签名捺印识别结果及关键信息识别结果中的至少一个。对所述文本内容进行计算,得到所述文本内容的计算结果,包括:对至少两份属于不同所述笔录文书的所述文本内容进行相似度计算,获得相似度计算结果;对所述文本内容中的句子进行分类计算,获得分类计算结果;对所述文本内容中的签名捺印进行识别,获得签名捺印识别结果;对所述文本内容中的预设关键信息进行识别,获得关键信息识别结果。
在一些实施例中,所述对至少两份属于不同所述笔录文书的所述文本内容进行相似度计算,获得相似度计算结果,包括:将至少两份所述文本内容分别输入预训练模型中进行编码,输出至少两份所述文本内容的第一向量表示,基于所述第一向量表示通过神经网络的激活函数计算至少两份所述文本内容的相似度,获得所述相似度计算结果。
在一些实施例中,基于所述相似度计算结果、预设相似度阈值及被询问人,确定所述文本内容中瑕疵内容的瑕疵类型为笔录内容雷同、证言内容不一致、事实论述矛盾中的一种。
具体的,响应于确定所述相似度计算结果满足第一预设相似度阈值且至少两份所述文本内容属于不同证人,则所述文本内容中存在瑕疵内容,且该瑕疵内容的瑕疵类型为笔录内容雷同。
下面通过具体算法举例对确定笔录内容雷同这类瑕疵类型进行说明,所述算法步骤包括:
步骤S201,构建编码模型,这个编码模型用于对文本内容进行语义解析,以得到输入文本内容的第一向量表示。
可选的,选择目前对中文句子句意解析最好的编码模型之一的Language-agnostic Bert模型。对于一篇具有n句话的给定文本内容c,将文本内容表示成一个句子序列:
c=[b1,b2,...,bn]
其中,bi表示文本内容c中的第i个句子,i=1,2,3……n。
将第i个句子bi输入到该编码模型中,得到句子bi的句意向量表示si。基于得到的句子向量表示si,采用BiRNN模型,得到前向和后向的句子序列:
hf=[hf,1,hf,2,...,hf,n]
hb=[hb,1,hb,2,...,hb,n]
其中,hf为前向句子序列,hb为后向句子序列,hf,i=RNN(hf,i-1,si),hb,i=RNN(hb,i+1,si)。
其中,对于一给定输入向量(a,si),RNN(·)的具体运算过程如下:
RNN(a,si)=g(Waa+Wxsi+d)
其中,a代表前一时刻或后一时刻的隐含特征,也就是hf,i-1或hb,i,Wa和Wx分别对应为a和x的权重矩阵,d为偏置向量,g为非线性激活函数。设hi=[hf,i;hb,i],可得到如下向量序列:
[h1,h2,…,hn]
通过将上述向量序列的向量进行加权求和,可得到输入文本内容c的第一向量表示:
其中,αi为权重系数,通过如下计算可得:
步骤S202,对两份文本内容的第一向量表示g1和g2进行相似度计算。将两个第一向量表示g1和g2进行级联得到矩阵g12=[g1;g2],两份文本内容c1和c2的相似度经过如下计算可得:
其中,和为两个全连接层,ReLU(·)为激活函数,σ(·)为sigmoid函数,用来将两份文本内容c1和c2的相似度得分标准化到【0-1】区间,为相似度,u为中间向量。在模型的训练过程中,通过最小化如下损失函数:
在一些实施例中,响应于确定所述相似度计算结果满足第二预设相似度阈值且至少两份所述文本内容属于同一被询问人,则所述文本内容中存在瑕疵内容,且该瑕疵内容的瑕疵类型为证言内容不一致。
具体的,通过相似度算法的计算结果确定瑕疵类型为证言内容不一致的计算过程可参照上述判定方法进行判定,这里不再赘述。
在一些实施例中,响应于确定所述相似度计算结果满足第三预设相似度阈值且每份所述文本内容均属于不同被询问人,则所述文本内容中存在瑕疵内容,且该瑕疵内容的瑕疵类型为事实论述矛盾。
具体的,通过相似度算法的计算结果确定瑕疵类型为事实论述矛盾的计算过程同样可参照上述判定方法进行判定,这里也不再赘述。
可选的,在上述实施例中,第一预设相似度阈值、第二预设相似度阈值及第三预设相似度阈值可以设置为相同的数值,也可以设置为不同的数值。
在一些实施例中,所述对所述文本内容中的句子进行分类计算,获得分类计算结果,包括:将所述文本内容输入预训练模型中进行编码,输出所述文本内容的第二向量表示,基于所述第二向量表示通过逻辑回归模型对所述文本内容中的句子进行分类计算,获得所述分类计算结果。基于所述分类计算结果及预设分类类别,确定所述文本内容中瑕疵内容的瑕疵类型为非中立式询问或诱导式询问。
下面通过具体算法举例对非中立式询问这类瑕疵类型进行说明,所述算法步骤包括:
步骤S301,假设待输入的文本内容的句子为T=(t1,t2,...,tN)T,其中tN代表句子中的第N个字,N表示输入句子中字的个数。将句子T输入Bert预训练模型中进行编码,设每个向量的维数为k,则可得到句子对应的字嵌入矩阵M即第二向量表示为:
M=(m1,m2,...,mN)T
其中,mN是一个k维向量,是字tN的向量表示。矩阵M的每一行对应于句子T中一个字的向量表示。
步骤S302,基于步骤S301得到的句子向量表示对句子进行分类。可选的,采用逻辑回归模型来进行句子的分类。设训练样本集为{(x1,y1),(x2,y2),...,(xm,ym)},其中,xi表示第i个训练样本对应的句子向量,m为训练样本集中句子向量xi的个数,i=1,2,3……m,xi∈Rn,yi∈{0,1}表示第i个训练样本对应的类别数值,yi=0代表“非中立”,yi=1代表“中立”。使用前馈神经网络FFN计算每个样本xi对应于不同类别的得分向量vi=FFN(vi),向量vi=(vi,0,vi,1),每一个分量vi,0或vi,1对应于该句子向量vi对于相应预设类别的得分,这里的预设类别为非中立和中立。为了提高梯度下降法求最优解的速度,对得到的类别得分做归一化处理,这里使用Softmax归一化指数函数得到样本xi属于类别j的概率:
比较得到出现概率较大的类别,即为样本xi所属的类别。
模型的训练通过极小化如下损失函数实现:
其中,yi=0,1代表样本xi的真实类别数值,yi=0为“非中立”,yi=1为“中立”。通过上述对分类模型的预训练得到最终的分类模型,将待测文本内容的句子向量输入上述分类模型,计算得到待测句子向量属于非中立和中立两个类别的概率pij,其中概率pij较大的类别为待测句子向量所属的类别。
具体的,通过文本二分类算法的计算结果确定瑕疵类型为诱导式询问的计算过程可参照上述判定方法进行判定,这里也不再赘述。
在一些实施例中,基于所述签名捺印识别结果及预设签名捺印位置范围,确定所述文本内容中签名捺印的瑕疵类型为签名捺印缺失或签名捺印位置有误。我们可以通过光学字符识别技术进行签名捺印的识别。基于OCR识别技术中的YOLO图像检测模型,我们对指纹捺印图像进行检测,检测结果可以给出笔录文书中是否有指纹捺印以及捺印的具体位置。
具体的,将检测出的捺印位置和捺印应该在的位置进行对比,根据定义好的容错范围判断捺印位置是否正确,从而判断该笔录是否属于签名捺印缺失。指纹捺印检测效果如图2所示,通过光学字符识别可以对签名捺印位置进行识别,检测签名捺印位置是否处于容错范围内,如检测到位置有误则进行错误提示。
在一些实施例中,所述预设关键信息包括笔录重要信息、法律责任告知信息、询问人信息、证人信息、询问时间信息等,基于所述关键信息识别结果确定所述文本内容中瑕疵内容的瑕疵类型为笔录信息缺失、法律责任告知缺失及同一询问人同时段对应不同被询问人中的一种。我们可以通过正则匹配算法对关键信息进行识别。
具体的,对于已经扫描成图像的文本内容,采用OCR识别技术中的字符级文本检测模型CRAFT结合端到端不定长文字识别模型CRNN,得到相应的连续文本信息,如图3a所示。根据预定义好的笔录信息词典,正则匹配得到识别文本内容中相对应的笔录信息关键词,并根据这些关键词对文本进行分割、标注,关键词标注为1,非关键词标注为0,如图3b所示。判断已标注好的文本内容是否存在1后面不是0的情况,如果存在,则该笔录出现了笔录信息缺失的情况。
通过正则匹配算法的计算结果确定瑕疵类型为法律责任告知缺失的计算过程可参照上述方法进行判定,这里不再赘述。
通过正则匹配算法的计算结果确定存在同一时段、同一询问人对应不同证人的情况时,则确定该文本内容的瑕疵类型为同一询问人同时段对应不同证人。
对于经过上述步骤识别得到的具有瑕疵的笔录文本内容,相关询问人员会被要求弥补原来不规范的做法,或者重新制作一份规范的笔录。
本公开提供的笔录智能审核方法对“瑕疵笔录”的识别,是以实际海量纸质笔录数据为基础,使用文本语义理解、OCR识别等深度学习算法训练而成。但受人工智能技术的局限性、新类型笔录材料不断出现以及手写笔录本身可识别性等因素影响,“瑕疵笔录”的准确率和召回率都不可能达到100%。因此,本方法采用“人工智能深度学习+人工校验”的方式,通过人工校验的方式,在被筛选出的“瑕疵笔录”中排除实则没有瑕疵的笔录,提高对“瑕疵笔录”判断的准确率。在后续的算法优化过程中,人工校验的结果会自动反馈到深度学习框架中。算法模型基于校验修正结果,进行自动学习,实现自我优化,从而达到持续提升笔录智能审核准确率的效果。
可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。
需要说明的是,本公开的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,参考图4,本公开提供了一种基于文本语义理解的笔录智能审核装置,包括:
获取模块401,被配置为获取用户输入的笔录文书,并对所述笔录文书进行处理以获得所述笔录文书的文本内容;
计算模块402,被配置为对所述文本内容进行计算,得到所述文本内容的计算结果;
分类模块403,被配置为响应于所述计算结果对所述文本内容进行分类,确定所述文本内容的瑕疵类型。
作为一可选实施例,所述计算模块402具体被配置为,所述计算结果包括相似度计算结果、分类计算结果、签名捺印识别结果及关键信息识别结果中的至少一个;
所述对所述文本内容进行计算,得到所述文本内容的计算结果,包括:
对至少两份属于不同所述笔录文书的所述文本内容进行相似度计算,获得相似度计算结果;
对所述文本内容中的句子进行分类计算,获得分类计算结果;
对所述文本内容中的签名捺印进行识别,获得签名捺印识别结果;
对所述文本内容中的预设关键信息进行识别,获得关键信息识别结果。
作为一可选实施例,所述对至少两份属于不同所述笔录文书的所述文本内容进行相似度计算,获得相似度计算结果,包括:
将至少两份所述文本内容分别输入预训练模型中进行编码,输出至少两份所述文本内容的第一向量表示;
基于所述第一向量表示通过神经网络的激活函数计算至少两份所述文本内容的相似度,获得所述相似度计算结果。
作为一可选实施例,所述分类模块403具体被配置为,基于所述相似度计算结果、预设相似度阈值及被询问人,确定所述文本内容中瑕疵内容的瑕疵类型为笔录内容雷同、证言内容不一致、事实论述矛盾中的一种。
作为一可选实施例,将所述文本内容输入预训练模型中进行编码,输出所述文本内容的第二向量表示;基于所述第二向量表示通过逻辑回归模型对所述文本内容中的句子进行分类计算,获得所述分类计算结果。
作为一可选实施例,基于所述分类计算结果及预设分类类别,确定所述文本内容中瑕疵内容的瑕疵类型为非中立式询问或诱导式询问。
作为一可选实施例,基于所述签名捺印识别结果及预设签名捺印位置范围,确定所述文本内容中签名捺印的瑕疵类型为签名捺印缺失或签名捺印位置有误。
作为一可选实施例,所述预设关键信息包括笔录重要信息、法律责任告知信息、询问人信息、证人信息、询问时间信息。所述响应于所述计算结果对所述文本内容进行分类,确定所述文本内容的瑕疵类型,包括:基于所述关键信息识别结果确定所述文本内容中瑕疵内容的瑕疵类型为笔录信息缺失、法律责任告知缺失及同一询问人同时段对应不同证人中的一种。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述程序时实现如上任意一实施例所述的方法。
图5示出了本公开所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本公开实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本公开实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (7)
1.一种基于文本语义理解的笔录智能审核方法,包括:
获取用户输入的笔录文书,对所述笔录文书进行处理以获得所述笔录文书的文本内容;
对所述文本内容进行计算,得到所述文本内容的计算结果;
所述计算结果包括相似度计算结果、分类计算结果、签名捺印识别结果及关键信息识别结果中的至少一个;
对至少两份属于不同所述笔录文书的所述文本内容进行相似度计算,获得相似度计算结果;
对所述文本内容中的句子进行分类计算,获得分类计算结果;
对所述文本内容中的签名捺印进行识别,获得签名捺印识别结果;
对所述文本内容中的预设关键信息进行识别,获得关键信息识别结果;
响应于所述计算结果对所述文本内容进行分类,确定所述文本内容的瑕疵类型,基于所述相似度计算结果、预设相似度阈值及被询问人,确定所述文本内容中瑕疵内容的瑕疵类型为笔录内容雷同、证言内容不一致、事实论述矛盾中的一种;基于所述分类计算结果及预设分类类别,确定所述文本内容中瑕疵内容的瑕疵类型为非中立式询问或诱导式询问。
2.根据权利要求1所述的审核方法,其中,所述对至少两份属于不同所述笔录文书的所述文本内容进行相似度计算,获得相似度计算结果,包括:
将至少两份所述文本内容分别输入预训练模型中进行编码,输出至少两份所述文本内容的第一向量表示;
基于所述第一向量表示通过神经网络的激活函数计算至少两份所述文本内容的相似度,获得所述相似度计算结果。
3.根据权利要求1所述的审核方法,其中,所述对所述文本内容中的句子进行分类计算,获得分类计算结果,包括:
将所述文本内容输入预训练模型中进行编码,输出所述文本内容的第二向量表示;
基于所述第二向量表示通过逻辑回归模型对所述文本内容中的句子进行分类计算,获得所述分类计算结果。
4.根据权利要求1所述的审核方法,其中,所述响应于所述计算结果对所述文本内容进行分类,确定所述文本内容的瑕疵类型,包括:
基于所述签名捺印识别结果及预设签名捺印位置范围,确定所述文本内容中签名捺印的瑕疵类型为签名捺印缺失或签名捺印位置有误。
5.根据权利要求1所述的审核方法,其中,所述预设关键信息包括笔录重要信息、法律责任告知信息、询问人信息、证人信息、询问时间信息;
所述响应于所述计算结果对所述文本内容进行分类,确定所述文本内容的瑕疵类型,包括:
基于所述关键信息识别结果确定所述文本内容中瑕疵内容的瑕疵类型为笔录信息缺失、法律责任告知缺失及同一询问人同时段对应不同证人中的一种。
6.一种基于文本语义理解的笔录智能审核装置,包括:
获取模块,被配置为获取用户输入的笔录文书,并对所述笔录文书进行处理以获得所述笔录文书的文本内容;
计算模块,被配置为对所述文本内容进行计算,得到所述文本内容的计算结果,所述计算结果包括相似度计算结果、分类计算结果、签名捺印识别结果及关键信息识别结果中的至少一个;
对至少两份属于不同所述笔录文书的所述文本内容进行相似度计算,获得相似度计算结果;
对所述文本内容中的句子进行分类计算,获得分类计算结果;
对所述文本内容中的签名捺印进行识别,获得签名捺印识别结果;
对所述文本内容中的预设关键信息进行识别,获得关键信息识别结果;
分类模块,被配置为响应于所述计算结果对所述文本内容进行分类,确定所述文本内容的瑕疵类型,基于所述相似度计算结果、预设相似度阈值及被询问人,确定所述文本内容中瑕疵内容的瑕疵类型为笔录内容雷同、证言内容不一致、事实论述矛盾中的一种;基于所述分类计算结果及预设分类类别,确定所述文本内容中瑕疵内容的瑕疵类型为非中立式询问或诱导式询问。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如权利要求1至5中任意一项所述的基于文本语义理解的笔录智能审核方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110204740.7A CN112861757B (zh) | 2021-02-23 | 2021-02-23 | 基于文本语义理解的笔录智能审核方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110204740.7A CN112861757B (zh) | 2021-02-23 | 2021-02-23 | 基于文本语义理解的笔录智能审核方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112861757A CN112861757A (zh) | 2021-05-28 |
CN112861757B true CN112861757B (zh) | 2022-11-22 |
Family
ID=75990601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110204740.7A Active CN112861757B (zh) | 2021-02-23 | 2021-02-23 | 基于文本语义理解的笔录智能审核方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861757B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649561A (zh) * | 2016-11-10 | 2017-05-10 | 复旦大学 | 面向税务咨询业务的智能问答系统 |
CN107358550A (zh) * | 2017-06-08 | 2017-11-17 | 上海市高级人民法院 | 刑事案件智能证据校验方法、审查方法及具有其的存储介质和终端设备 |
CN109145299A (zh) * | 2018-08-16 | 2019-01-04 | 北京金山安全软件有限公司 | 一种文本相似度确定方法、装置、设备及存储介质 |
CN110222669A (zh) * | 2019-06-17 | 2019-09-10 | 北京市律典通科技有限公司 | 一种案件证据智能审查方法及系统 |
CN111966837A (zh) * | 2020-08-20 | 2020-11-20 | 苏州浪潮智能科技有限公司 | 一种文章查重的方法、装置、设备及可读介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197449A (zh) * | 2017-12-27 | 2018-06-22 | 廖晓曦 | 一种基于移动终端的询问笔录装置、系统及其笔录方法 |
CN109800304A (zh) * | 2018-12-29 | 2019-05-24 | 北京奇安信科技有限公司 | 案件笔录的处理方法、装置、设备及介质 |
CN110069609B (zh) * | 2019-03-15 | 2023-04-18 | 平安科技(深圳)有限公司 | 裁判文书分析方法、装置、计算机设备及存储介质 |
CN110210037B (zh) * | 2019-06-12 | 2020-04-07 | 四川大学 | 面向循证医学领域的类别检测方法 |
CN110059193A (zh) * | 2019-06-21 | 2019-07-26 | 南京擎盾信息科技有限公司 | 基于法律语义件与文书大数据统计分析的法律咨询系统 |
CN110287489B (zh) * | 2019-06-24 | 2023-07-28 | 北京大米科技有限公司 | 文本生成方法、装置、存储介质和电子设备 |
CN110704571B (zh) * | 2019-08-16 | 2022-02-15 | 平安科技(深圳)有限公司 | 庭审辅助处理方法、审判辅助处理方法、装置、设备及介质 |
CN111782808A (zh) * | 2020-06-29 | 2020-10-16 | 北京市商汤科技开发有限公司 | 文档处理方法、装置、设备及计算机可读存储介质 |
CN112215087A (zh) * | 2020-09-21 | 2021-01-12 | 浙江数链科技有限公司 | 图片审核方法、装置、计算机设备和存储介质 |
CN112380837B (zh) * | 2020-11-13 | 2023-12-22 | 平安科技(深圳)有限公司 | 基于翻译模型的相似句子匹配方法、装置、设备及介质 |
-
2021
- 2021-02-23 CN CN202110204740.7A patent/CN112861757B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649561A (zh) * | 2016-11-10 | 2017-05-10 | 复旦大学 | 面向税务咨询业务的智能问答系统 |
CN107358550A (zh) * | 2017-06-08 | 2017-11-17 | 上海市高级人民法院 | 刑事案件智能证据校验方法、审查方法及具有其的存储介质和终端设备 |
CN109145299A (zh) * | 2018-08-16 | 2019-01-04 | 北京金山安全软件有限公司 | 一种文本相似度确定方法、装置、设备及存储介质 |
CN110222669A (zh) * | 2019-06-17 | 2019-09-10 | 北京市律典通科技有限公司 | 一种案件证据智能审查方法及系统 |
CN111966837A (zh) * | 2020-08-20 | 2020-11-20 | 苏州浪潮智能科技有限公司 | 一种文章查重的方法、装置、设备及可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112861757A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abdullah et al. | Fake news classification bimodal using convolutional neural network and long short-term memory | |
US20230004604A1 (en) | Ai-augmented auditing platform including techniques for automated document processing | |
US20170316066A1 (en) | Concept-based analysis of structured and unstructured data using concept inheritance | |
CN111028934B (zh) | 诊断质检方法、装置、电子设备和存储介质 | |
CN109271627B (zh) | 文本分析方法、装置、计算机设备和存储介质 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
KR102280490B1 (ko) | 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법 | |
Bollé et al. | The role of evaluations in reaching decisions using automated systems supporting forensic analysis | |
CN112287197B (zh) | 动态记忆案件描述的涉案微博评论讽刺句检测方法 | |
CN111950262A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
US11416682B2 (en) | Evaluating chatbots for knowledge gaps | |
CN114372532A (zh) | 标签标注质量的确定方法、装置、设备、介质及产品 | |
CN116484025A (zh) | 漏洞知识图谱构建方法、评估方法、设备及存储介质 | |
CN112257444A (zh) | 金融信息负面实体发现方法、装置、电子设备及存储介质 | |
CN117707922A (zh) | 测试用例的生成方法、装置、终端设备和可读存储介质 | |
CN114037571A (zh) | 试题扩充方法及相关装置、电子设备和存储介质 | |
Odeh et al. | Using Multinomial Naive Bayes Machine Learning Method To Classify, Detect, And Recognize Programming Language Source Code | |
CN112131354B (zh) | 答案筛选方法、装置、终端设备和计算机可读存储介质 | |
US20230368557A1 (en) | Image reading systems, methods and storage medium for performing entity extraction, grouping and validation | |
CN112116181B (zh) | 课堂质量模型的训练方法、课堂质量评价方法及装置 | |
CN112861757B (zh) | 基于文本语义理解的笔录智能审核方法及电子设备 | |
CN111581975A (zh) | 案件的笔录文本的处理方法、装置、存储介质和处理器 | |
CN117859122A (zh) | 包括用于自动化文档处理的技术的ai增强的审计平台 | |
CN113850085B (zh) | 企业的等级评估方法、装置、电子设备及可读存储介质 | |
Jony et al. | Domain specific fine tuning of pre-trained language model in NLP |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |