CN112668581A - 一种文书标题识别方法和装置 - Google Patents

一种文书标题识别方法和装置 Download PDF

Info

Publication number
CN112668581A
CN112668581A CN202011589624.3A CN202011589624A CN112668581A CN 112668581 A CN112668581 A CN 112668581A CN 202011589624 A CN202011589624 A CN 202011589624A CN 112668581 A CN112668581 A CN 112668581A
Authority
CN
China
Prior art keywords
title
target
text
preset
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011589624.3A
Other languages
English (en)
Inventor
陈孝良
冯大航
赵昂
常乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202011589624.3A priority Critical patent/CN112668581A/zh
Publication of CN112668581A publication Critical patent/CN112668581A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明提供一种文书标题识别方法和装置,其中,文书标题识别方法,包括:获取待处理卷宗的文本信息;将所述文本信息划分为文书划分单元,并确定每一个文书划分单元对应的标题行;在所述标题行中的目标标题行与预设标题库匹配不成功的情况下,基于所述目标标题行和目标正文之间的关联关系对所述目标标题行进行纠错处理,以得到纠错后的目标标题行,其中,所述目标正文为所述目标标题行对应的文书划分单元中的正文文本;在所述纠错后的目标标题行与所述预设标题库匹配成功的情况下,输出所述纠错后的目标标题行。本申请实施例能够对出错的标题行进行纠正,从而提升输出的标题行的可靠性。

Description

一种文书标题识别方法和装置
技术领域
本发明涉及图文领域,尤其涉及一种文书标题识别方法和装置。
背景技术
随着信息化水平的提高和人工智能技术的进步,图文光学字符识别(OpticalCharacter Recognition,OCR)识别在越来越多的场景中得以应用,例如:公检法领域的无纸化办公、医疗卫生领域的电子档病历等。其中,在公检法领域的无纸化办公过程中,主要通过电子卷宗管理系统完成卷宗管理,其中卷宗包括反应案件办理过程和案件办理结果的文字、图像、声像、视频等数字材料。电子卷宗的结构化存储、管理,可以提升办案质量、效率。
电子卷宗编目是电子卷宗管理过程中的重要一环。该电子卷宗编目分为两个步骤:首先,对电子卷宗材料进行分析,将卷宗划分为多个文书划分单元;然后,提取文书划分单元的首页的标题行作为文书标题,以基于该文书标题完成编目过程。
在该电子卷宗编目过程中,文书标题的识别直接依赖于文书划分单元的首页的标题行结果。但是,纸质文书中的标题行可能存在因标题行采用了不同字体的文字、被印章覆盖的文字等因素,而造成标的题行的识别结果出错的问题,进而对编目过程造成严重的错误。
由此可见,相关技术中基于OCR识别出的文书划分单元的首页的标题行进行编目的过程,存在可靠性低的问题。
发明内容
本发明实施例提供一种文书标题识别方法和装置,能够对基于OCR识别出的文书划分单元的首页的标题行进行纠错,从而能够提升编目过程的可靠性。
为解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种文书标题识别方法,包括:
获取待处理卷宗的文本信息;
将所述文本信息划分为文书划分单元,并确定每一个文书划分单元对应的标题行;
在所述标题行中的目标标题行与预设标题库匹配不成功的情况下,基于所述目标标题行和目标正文之间的关联关系对所述目标标题行进行纠错处理,以得到纠错后的目标标题行,其中,所述目标正文为所述目标标题行对应的文书划分单元中的正文文本;
在所述纠错后的目标标题行与所述预设标题库匹配成功的情况下,输出所述纠错后的目标标题行。
第二方面,本发明实施例提供了一种文书标题识别装置,包括:
获取模块,用于获取待处理卷宗的文本信息;
划分模块,用于将所述文本信息划分为文书划分单元,并确定每一个文书划分单元对应的标题行;
纠错模块,用于在所述标题行中的目标标题行与预设标题库匹配不成功的情况下,基于所述目标标题行和目标正文之间的关联关系对所述目标标题行进行纠错处理,以得到纠错后的目标标题行,其中,所述目标正文为所述目标标题行对应的文书划分单元中的正文文本;
输出模块,用于在所述纠错后的目标标题行与所述预设标题库匹配成功的情况下,输出所述纠错后的目标标题行。
第三方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的文书标题识别方法的步骤。
本发明实施例中,获取待处理卷宗的文本信息;将所述文本信息划分为文书划分单元,并确定每一个文书划分单元对应的标题行;在所述标题行中的目标标题行与预设标题库匹配不成功的情况下,基于所述目标标题行和目标正文之间的关联关系对所述目标标题行进行纠错处理,以得到纠错后的目标标题行,其中,所述目标正文为所述目标标题行对应的文书划分单元中的正文文本;在所述纠错后的目标标题行与所述预设标题库匹配成功的情况下,输出所述纠错后的目标标题行。这样,能够在确定出文书划分单元对应的标题行之后,还将该标题行与预设标题库进行匹配,以在匹配不成功的情况下,基于该标题行对应的正文文本对该标题行进行纠错,进而在对待处理卷宗的标题行识别出错的情况下,能够对出错的标题行进行纠正,从而提升输出的标题行的可靠性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文书标题识别方法的流程图;
图2a是能够应用本发明实施例提供的文书标题识别方法的预设纠错模型的结构图之一;
图2b是能够应用本发明实施例提供的文书标题识别方法的预设纠错模型的结构图之二;
图3是本发明实施例提供的另一种文书标题识别方法的流程图;
图4是本发明实施例提供的一种文书标题识别装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着信息化水平的提高,纸质文件在生活中的应用逐渐被电子文档取代。其中,为了便于对纸质文件转化后的电子文档进行结构化存储或和管理等,需要识别纸质文件中的文本内容,以及对文本内容进行文书编目,以根据编目内容,便于用户查询和检索电子文档中的内容。
在相关技术中,首先,对纸质文件的图片进行OCR识别,得到图片的文字解析结果;然后,基于文字信息特征和坐标信息特征进行文书首尾页检测、文书划分;再对划分首页进行标题行检测,得到最终的文书编目结果。该方法可以节约人工编目耗时,提高图文管理质效。
该编目方案中的标题行检测,完全依赖OCR的识别结果,但是,在实际应用中往往存在一些使标题行不能够准确识别的情况。例如:
1.标题行中字符间距可能会影响OCR识别的文本框划分结果,即同一标题行中的标题字符可能会被切碎或者与上下文误合并;
2.标题行的字体与正文文本的字体差别较大,从而影响部分字符的识别结果;
3.标题行中存在手写体、印刷体字符混合的情况,从而影响标题字符的识别结果;
4.标题行中部分区域被签章或者污渍覆盖,从而影响标题行中字符的识别结果;
5.标题行中的文本存在倾斜,从而影响标题行中字符的识别结果;
6.扫描设备本身质量问题或者操作不当,从而影响标题行中字符的识别结果。
而相关技术中,标题行的检测,过于依赖OCR的识别结果,而没有考虑标题识别过程中图像本身的复杂性及OCR方案本身的效果,在OCR识别出错或效果不佳的情况下条,其效果损失将会向下游的文书单元划分任务以及标题行识别任务传递,从而影响最终的编目效果。
本申请实施例中,通过将识别出的标题行与预设标题库进行匹配,以在匹配不成功时,对标题行进行纠错处理,以及时纠正标题行中字符识别不全或者识别出错的情况,从而提升最终确认的标题行的可靠性。
请参阅图1,是本发明实施例提供的一种文书标题识别方法的流程图,如图1所示,该方法可以包括以下步骤:
步骤101、获取待处理卷宗的文本信息。
在具体实施中,上述待处理卷宗可以理解为纸质的卷宗文件,上述获取待处理卷宗的文本信息,可以是采用图文识别技术(例如:OCR识别技术)扫描该纸质的卷宗文件,以得到该纸质的卷宗文件中的文本信息,该文本信息具体可以包括文本行信息(其又可以称之为“文字信息特征”)和每一行文本对应的文本行位置信息(其又可以称之为“坐标信息特征”)。
步骤102、将所述文本信息划分为文书划分单元,并确定每一个文书划分单元对应的标题行。
本步骤中,基于步骤101中得到的文字信息特征和坐标信息特征进行文书首尾页检测和文书划分处理,以将待处理卷宗的文本信息划分为多个文书划分单元,例如:公检法中的办案卷宗可以包括:立案报告、民事起诉状、结案报告等多个文书,本实施方式中,仍然能够将电子档的办案卷宗划分为:立案报告、民事起诉状、结案报告等多个文书划分单元。
在划分文书单元之后,对每一个文书划分单元进行标题行识别处理,以确定每一个文书划分单元对应的标题行,具体的:可以将每一个文书划分单元中的位于首页的首行文本作为该文书划分单元的标题行,即确定该文书划分单元中位于首页的首行文字作为其标题字符。
步骤103、在所述标题行中的目标标题行与预设标题库匹配不成功的情况下,基于所述目标标题行和目标正文之间的关联关系对所述目标标题行进行纠错处理,以得到纠错后的目标标题行,其中,所述目标正文为所述目标标题行对应的文书划分单元中的正文文本。
步骤104、在所述纠错后的目标标题行与所述预设标题库匹配成功的情况下,输出所述纠错后的目标标题行。
上述纠错后的目标标题行与所述预设标题库匹配成功,与上述目标标题行与预设标题库匹配不成功相对,该纠错后的目标标题行与所述预设标题库匹配成功,可以表示纠错后的目标标题行与预设标题库中的预设标题行或者预设标题命名规则相匹配,从而可以确定该纠错后的目标标题行语义正确。
需要说明的是,在实施中可能存在纠错后的目标标题行与所述预设标题库匹配不成功的情况,此时,可以更新纠错处理中输入的目标正文的内容,例如:在根据目标标题行对应的文书划分单元的第一段正文对目标标题行进行纠错后,纠错效果不理想时,可以根据目标标题行对应的文书划分单元的第二段正文对目标标题行进行纠错。
当然,在纠错后的目标标题行与所述预设标题库匹配不成功的情况下,还可以将纠错前的目标标题行输出,并输出对应的提示信息,以提示该目标标题行与预设标题库不匹配,从而便于用户基于该提示信息对目标标题行中的标题字符进行修改、调整或确认等操作。
在应用中,在确定出纠错后的目标标题行之后,可以基于所述纠错后的目标标题行,对所述待处理卷宗进行编目处理。
上述编目处理的过程与现有技术中的编目处理的过程相同,在此不再赘述。
在实施中,上述预设标题库匹配可以是用户预设置的标题库,或者基于历史标题或者用户预先设置的标注数据确认的标题库,其中,标注数据可以包括大量的文书标题,在根据标注数据确认的标题库的过程中,可以统计标注数据中每一种文书标题的出现频率,从而将频率较高的文书标题纳入预设标题库中,以使该预设标题库中存储有大量常见的文书标题,例如:在本申请实施例提供的文书标题识别方法应用于公检法领域的情况下,常见的文书标题可以包括:案由、立案报告、行政起诉状、民事起诉状、行政处罚决定、结案报告等等。在应用中,可以根据应用的技术领域中对标题行的历史使用情况,建立上述预设标题库。当然,在实施中,还可以由用户向预设标题库中手动添加或者修改标题。
作为一种可选的实施方式,所述方法还包括:根据历史标题行信息,确定所述预设标题库,其中,所述预设标题库中包括大于预设使用频率的预设标题行;
在所述预设标题库中不包括与所述目标标题行相同的预设标题行的情况下,确定所述目标标题行与预设标题库匹配不成功。
在实施中,上述历史标题行信息可以包括:执行本申请实施例提供的所述文书标题识别方法的设备中使用过的历史标题信息,例如:执行文书标题识别方法的电脑中存储有多个已经完成编目的文书,则上述历史标题行信息可以是该已经完成编目的文书中的标题行信息。当然,在具体实施中,上述历史标题行信息还可以包括:用户根据文书标题识别方法的使用场景,输入的在该使用场景下常见的标题行信息。
其中,上述所述预设标题库中不包括与所述目标标题行相同的预设标题行,又可以理解为:
所述预设标题库中不包括与目标标题行中的标题字符相同的标题。
相应的,在上述预设标题库中包括与目标标题行中的标题字符相同的标题时,可以确定该目标标题行与预设标题库匹配成功。
当然,在具体实施中,上述预设标题库中还可以存储常见的标题行规则等,以在标题行的格式、与上下文的关系等,满足预设标题库中的标题行规则时,确定该标题行与预设标题库匹配,在此并不具体限定预设标题库中的具体内容。
本实施方式实施中,当目标标题行与预设标题库匹配不成功时,可以理解为,基于文书划分单元的首行文本确定出的目标标题行中可能存在未能准确识别的标题字符,从而能够依此确定需要对该目标标题行进行纠错处理,以纠正未能准确识别的标题字符。
相应的,在某标题行与预设标题库匹配成功时,可以理解为,该标题行中的标题字符识别准确,从而不需要对其进行纠错处理,可以直接基于将该标题行进行编目等后续处理。
作为一种可选的实施方式,所述基于所述目标标题行和目标正文之间的关联关系对所述目标标题行进行纠错处理,以得到纠错后的目标标题行,包括:
将所述目标标题行和所述目标正文输入至预设纠错模型中,以得到纠错后的目标标题行。
在实施中,上述目标标题行和目标正文之间的关联关系,可以理解为:确定目标标题行对应的文书划分单元中的全部或者部分文字为所述目标标题行关联的目标正文。
优选的,该目标标题行关联的目标正文,尤其可以是:目标标题行对应的文书划分单元中的前N个文字,N可以取100,200等任意整数。当然,在目标标题行对应的文书划分单元中的文字数量小于N时,该目标标题行关联的目标正文可以是:目标标题行对应的文书划分单元中的全部文字。
上述预设纠错模型用于根据目标正文中的文字信息与目标标题行中的文字信息进行融合纠错,以发现并纠正目标标题行中的标题字符。
具体的,所述预设纠错模型,可以包括:编码模块和解码模块;
其中,所述编码模块为以下至少一种:
神经网络、卷积神经网络以及翻译模型。
本实施方式中,可以根据正文文本中的语义内容对标题行的标题字符进行纠错,例如:在标题行中识别出“*事起诉状”的情况下,可以基于该标题行下的正文文本中记载的内容“民事起诉状的原告…”,将“*事起诉状”纠正为“民事起诉状”。
在一种可选的实施方式中,上述将所述目标标题行和所述目标正文输入至预设纠错模型中,可以是将所述目标标题行的标题文本特征和所述目标正文的正文文本特征分别作为预设纠错模型的两个输入,以使预设纠错模型基于该正文文本特征对标题文本特征进行纠错。
例如:如图2a所示,预设纠错模型包括编码模块21和解码模块22。
需要说明的是,如图2a所示,在实施中预设纠错模型还可以包括训练编码模块23,其用于在预设纠错模型的训练过程中对训练样本数据(其还可以称之为标注标题文本)进行编码,以将编码后的内容输入至解码模块22,以使解码模块22的输出结果与标注标题文本相同,从而实现对解码模块22的训练作用。
对于如图2a所示预设纠错模型,可以预先经过字嵌入层(Embedding)和位置嵌入层(Position Embedding),对标题文本和正文文本进行特征提取,以初步得到标题文本和正文文本的向量表示,然后经过编码模块21中的Transformer Encoder编码层(其可以由多个相同的Layer(层)组成),把标题文本和正文文本的向量表示编码成一个指定长度的张量c(例如:通过特殊符号将标题文本的特征向量与正文文本的特征向量进行拼接);解码模块22则基于张量c解码输出相应的输出序列(即纠错后的标题文本)。
本实施方式中,将标题文本和正文文本合并为预设纠错模型的一个输入,能够简化预设纠错模型的结构。
作为一种可选的实施方式,所述将所述目标标题行和所述目标正文输入至预设纠错模型中,以得到纠错后的目标标题行,包括:
根据所述目标标题行和所述目标正文,确定标题文本特征和正文特征;
基于所述标题文本特征和所述正文特征,确定索引张量;
将所述索引张量输入至预设纠错模型中,以得到纠错后的目标标题行。
在实施中,上述根据所述目标标题行和所述目标正文,确定标题文本特征和正文特征,具体可以理解为:对目标标题行进行特征提取,以得到标题文本特征,以及对目标正文进行特征提取,以得到正文特征,该标题文本特征进和正文特征分别为特征向量。另外,上述基于所述标题文本特征和所述正文特征,确定索引张量,可以理解为:采用向量拼接、相加、相乘等方式中的至少一种,将标题文本特征和所述正文特征融合为一个索引张量。
本实施方式能够利用如图2a所示的预设纠错模型实现,其原理和过程具体可以参见上述如图2a所示预设纠错模型的原理和过程,在此不再赘述。
在另一种可选的实施方式中,上述将所述目标标题行和所述目标正文输入至预设纠错模型中,还可以是将所述目标标题行和所述目标正文进行融合处理,以对所述目标标题行的标题文本特征和所述目标正文的正文文本特征合并,从而形成预设纠错模型的一个输入。其中,上述融合处理可以包括:拼接处理、相加处理、相乘处理等处理中的至少一项。这样,同样可以基于目标正文对目标标题进行融合纠错,在此不再赘述。
例如:如图2b所示,预设纠错模型包括第一编码模块24、第二编码模块25和解码模块26。
需要说明的是,如图2b所示,在实施中预设纠错模型还可以包括训练编码模块27,其用于在预设纠错模型的训练过程中对训练样本数据(其还可以称之为标注标题文本)进行编码,以将编码后的内容输入至解码模块26,以使解码模块26的输出结果与标注标题文本相同,从而实现对解码模块26的训练作用。
如图2b所示实施例与如图2a所示实施例的不同之处在于,图2b所示实施例中的编码模块为两个,分别用于对标题文本进行编码,以及对正文文本进行编码。然后,可以将该标题文本进行编码后得到的标题特征向量与对正文文本进行编码后得到的正文题特征向量进行张量拼接运算(其也可以是向量加、乘等)以得到标题文本和正文文本的语义向量表示,然后由解码模块26则基于该语义向量表示解码输出相应的输出序列(即纠错后的标题文本)。
本实施方式中,将标题文本和正文文本作为预设纠错模型的两个不同输入,从而无需预先对标题文本和正文文本进行融合处理。
本发明实施例中,获取待处理卷宗的文本信息;将所述文本信息划分为文书划分单元,并确定每一个文书划分单元对应的标题行;在所述标题行中的目标标题行与预设标题库匹配不成功的情况下,基于所述目标标题行和目标正文之间的关联关系对所述目标标题行进行纠错处理,以得到纠错后的目标标题行,其中,所述目标正文为所述目标标题行对应的文书划分单元中的正文文本;在所述纠错后的目标标题行与所述预设标题库匹配成功的情况下,输出所述纠错后的目标标题行。这样,能够在确定出文书划分单元对应的标题行之后,还将该标题行与预设标题库进行匹配,以在匹配不成功的情况下,基于该标题行对应的正文文本对该标题行进行纠错,进而在对待处理卷宗的标题行识别出错的情况下,能够对出错的标题行进行纠正,从而提升输出的标题行的可靠性。
请参见图3,是本发明实施例提供的另一种文书标题识别方法的流程图,如图3所示,该方法可以包括以下步骤:
步骤301、获取识别标题行。
在实施中,上述获取识别标题行可以是通过如图1所示方法实施例中的步骤101至步骤102得到的与文书划分单元对应的标题行。
步骤302、判断所述识别标题行是否存在于标题库。
本步骤与如图所示方法实施例中,判断所述预设标题库中是否包括与目标标题行中的标题字符相同的标题的过程相同,在此不再赘述。
在本步骤的判断结果为“是”的情况下,将所述识别标题行确定为最终的标题行,即不对该识别标题行进行纠错;在本步骤的判断结果为“否”的情况下,执行步骤303。
步骤303、对所述识别标题行进行标题纠错。
本步骤中,上述标题纠错与如图1所示方法实施例中的对目标标题行进行纠错处理的过程相同,在此不再赘述。
步骤304、判断纠错后的标题行是否存在于标题库。
在本步骤的判断结果为“是”的情况下,执行步骤305;在本步骤的判断结果为“否”的情况下,结束文书标题识别过程。
其中,结束文书标题识别过程之后,可以将该标题行作为最终的标题行输出,且还可以同步输出提示信息,以提示标题库中没有与标题行对应的文书标题,此时用户可以根据该提示信息对最终的标题行进行检查、修改等操作。
步骤305、确定纠错生效。
本步骤中,在确定纠错生效时,可以将纠错后的标题行确定为最终的标题行。
与如图1所示方法实施例相比,本实施方式中,在纠错处理之后,还依据纠错后的标题行是否存在于标题库中的方式,确定该纠错后的标题行是否生效,并且在该纠错后的标题行不生效的情况下,输出纠错前的标题行,能够避免了纠错处理将标题行错误的变更为与实际标题不匹配的标题行,从而提升了纠错处理的可靠性。
请参阅图4,是本发明实施例提供的一种文书标题识别装置的结构图,如图4所示,该文书标题识别装置400,包括:
获取模块401,用于获取待处理卷宗的文本信息;
划分模块402,用于将所述文本信息划分为文书划分单元,并确定每一个文书划分单元对应的标题行;
纠错模块403,用于在所述标题行中的目标标题行与预设标题库匹配不成功的情况下,基于所述目标标题行和目标正文之间的关联关系对所述目标标题行进行纠错处理,以得到纠错后的目标标题行,其中,所述目标正文为所述目标标题行对应的文书划分单元中的正文文本;
输出模块404,用于在所述纠错后的目标标题行与所述预设标题库匹配成功的情况下,输出所述纠错后的目标标题行。
可选的,文书标题识别装置400,还包括:
编目模块,用于基于所述纠错后的目标标题行,对所述待处理卷宗进行编目处理。
可选的,纠错模块403,具体用于:
将所述目标标题行和所述目标正文输入至预设纠错模型中,以得到纠错后的目标标题行。
可选的,纠错模块403,包括:
特征提取单元,用于根据所述目标标题行和所述目标正文,确定标题文本特征和正文特征;
确定单元,用于基于所述标题文本特征和所述正文特征,确定索引张量;
纠错单元,用于将所述索引张量输入至预设纠错模型中,以得到纠错后的目标标题行。
可选的,所述预设纠错模型,包括:编码模块和解码模块;
其中,所述编码模块为以下至少一种:
神经网络、卷积神经网络以及翻译模型。
可选的,文书标题识别装置400,还包括:
第一确定模块,用于根据历史标题行信息,确定所述预设标题库,其中,所述预设标题库中包括大于预设使用频率的预设标题行;
第二确定模块,用于在所述预设标题库中不包括与所述目标标题行相同的预设标题行的情况下,确定所述目标标题行与预设标题库匹配不成功。
本申请实施例提供的文书标题识别装置400,能够执行如图1或图3所示方法实施例中的各个步骤,且能够取得相同的有益效果,为避免重复,在此不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述图1或图3所示的文书标题识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述的计算机可读存储介质,如ROM、RAM、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (13)

1.一种文书标题识别方法,其特征在于,包括:
获取待处理卷宗的文本信息;
将所述文本信息划分为文书划分单元,并确定每一个文书划分单元对应的标题行;
在所述标题行中的目标标题行与预设标题库匹配不成功的情况下,基于所述目标标题行和目标正文之间的关联关系对所述目标标题行进行纠错处理,以得到纠错后的目标标题行,其中,所述目标正文为所述目标标题行对应的文书划分单元中的正文文本;
在所述纠错后的目标标题行与所述预设标题库匹配成功的情况下,输出所述纠错后的目标标题行。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述纠错后的目标标题行,对所述待处理卷宗进行编目处理。
3.根据权利要求1所述的方法,其特征在于,所述基于所述目标标题行和目标正文之间的关联关系对所述目标标题行进行纠错处理,以得到纠错后的目标标题行,包括:
将所述目标标题行和所述目标正文输入至预设纠错模型中,以得到纠错后的目标标题行。
4.根据权利要求3所述的方法,其特征在于,所述将所述目标标题行和所述目标正文输入至预设纠错模型中,以得到纠错后的目标标题行,包括:
根据所述目标标题行和所述目标正文,确定标题文本特征和正文特征;
基于所述标题文本特征和所述正文特征,确定索引张量;
将所述索引张量输入至预设纠错模型中,以得到纠错后的目标标题行。
5.根据权利要求3所述的方法,其特征在于,所述预设纠错模型,包括:编码模块和解码模块;
其中,所述编码模块为以下至少一种:
神经网络、卷积神经网络以及翻译模型。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据历史标题行信息,确定所述预设标题库,其中,所述预设标题库中包括大于预设使用频率的预设标题行;
在所述预设标题库中不包括与所述目标标题行相同的预设标题行的情况下,确定所述目标标题行与预设标题库匹配不成功。
7.一种文书标题识别装置,其特征在于,包括:
获取模块,用于获取待处理卷宗的文本信息;
划分模块,用于将所述文本信息划分为文书划分单元,并确定每一个文书划分单元对应的标题行;
纠错模块,用于在所述标题行中的目标标题行与预设标题库匹配不成功的情况下,基于所述目标标题行和目标正文之间的关联关系对所述目标标题行进行纠错处理,以得到纠错后的目标标题行,其中,所述目标正文为所述目标标题行对应的文书划分单元中的正文文本;
输出模块,用于在所述纠错后的目标标题行与所述预设标题库匹配成功的情况下,输出所述纠错后的目标标题行。
8.根据权利要求7所述的装置,其特征在于,还包括:
编目模块,用于基于所述纠错后的目标标题行,对所述待处理卷宗进行编目处理。
9.根据权利要求7所述的装置,其特征在于,所述纠错模块,具体用于:
将所述目标标题行和所述目标正文输入至预设纠错模型中,以得到纠错后的目标标题行。
10.根据权利要求9所述的装置,其特征在于,所述纠错模块,包括:
特征提取单元,用于根据所述目标标题行和所述目标正文,确定标题文本特征和正文特征;
确定单元,用于基于所述标题文本特征和所述正文特征,确定索引张量;
纠错单元,用于将所述索引张量输入至预设纠错模型中,以得到纠错后的目标标题行。
11.根据权利要求9所述的装置,其特征在于,所述预设纠错模型,包括:编码模块和解码模块;
其中,所述编码模块为以下至少一种:
神经网络、卷积神经网络以及翻译模型。
12.根据权利要求7所述的装置,其特征在于,还包括:
第一确定模块,用于根据历史标题行信息,确定所述预设标题库,其中,所述预设标题库中包括大于预设使用频率的预设标题行;
第二确定模块,用于在所述预设标题库中不包括与所述目标标题行相同的预设标题行的情况下,确定所述目标标题行与预设标题库匹配不成功。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的文书标题识别方法的步骤。
CN202011589624.3A 2020-12-29 2020-12-29 一种文书标题识别方法和装置 Pending CN112668581A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011589624.3A CN112668581A (zh) 2020-12-29 2020-12-29 一种文书标题识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011589624.3A CN112668581A (zh) 2020-12-29 2020-12-29 一种文书标题识别方法和装置

Publications (1)

Publication Number Publication Date
CN112668581A true CN112668581A (zh) 2021-04-16

Family

ID=75411703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011589624.3A Pending CN112668581A (zh) 2020-12-29 2020-12-29 一种文书标题识别方法和装置

Country Status (1)

Country Link
CN (1) CN112668581A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657373A (zh) * 2021-05-11 2021-11-16 南京航天数智科技有限公司 一种文书自动编目方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657373A (zh) * 2021-05-11 2021-11-16 南京航天数智科技有限公司 一种文书自动编目方法

Similar Documents

Publication Publication Date Title
CN111476067B (zh) 图像的文字识别方法、装置、电子设备及可读存储介质
CN114821622B (zh) 文本抽取方法、文本抽取模型训练方法、装置及设备
AU2021201141A1 (en) System and method for data extraction and searching
CN112434690A (zh) 动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质
CN113177435A (zh) 试卷分析方法、装置、存储介质及电子设备
CN114550158A (zh) 一种场景文字识别方法及系统
CN114429635A (zh) 书本管理方法
CN112861864A (zh) 一种题目录入方法、题目录入装置、电子设备及计算机可读存储介质
CN112668581A (zh) 一种文书标题识别方法和装置
CN112418813B (zh) 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质
CN102467664B (zh) 辅助光学字符识别的方法和装置
CN109960707B (zh) 一种基于人工智能的高校招生数据采集方法及系统
CN112417087A (zh) 基于文字的溯源方法及系统
CN117037183A (zh) 图像处理方法、装置、电子设备及可读存储介质
CN116311276A (zh) 文档图像矫正方法、装置、电子设备及可读介质
CN110825874A (zh) 一种中文文本分类方法和装置及计算机可读存储介质
CN115543915A (zh) 人事档案目录自动化建库方法及系统
CN113221792B (zh) 一种章节检测模型构建方法、编目方法及其相关设备
CN115909381A (zh) 一种文本图像识别方法、系统及相关装置
CN115273057A (zh) 文本识别方法、装置和听写批改方法、装置及电子设备
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
CN114510925A (zh) 一种中文文本纠错方法、系统、终端设备及存储介质
CN113762160A (zh) 一种日期提取方法、装置、计算机设备及存储介质
CN115512375A (zh) 文本纠错模型的训练方法、文本识别方法及相关设备
CN110909737A (zh) 图片文字识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination