CN110334710A - 法律文书识别方法、装置、计算机设备及存储介质 - Google Patents
法律文书识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110334710A CN110334710A CN201910619446.5A CN201910619446A CN110334710A CN 110334710 A CN110334710 A CN 110334710A CN 201910619446 A CN201910619446 A CN 201910619446A CN 110334710 A CN110334710 A CN 110334710A
- Authority
- CN
- China
- Prior art keywords
- text
- image data
- legal documents
- document image
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及法律文书识别方法、装置、计算机设备及存储介质,该方法包括获取需要识别的法律文书,以得到待识别法律文书;对待识别法律文书进行转换,以得到文书图像数据;采用识别模型对文书图像数据进行文本识别,以得到文本内容;输出识别结果。本发明通过对PDF格式的待识别法律文书进行切分和排序,以得到格式转换后的文书图像数据,采用集合了目标检测子模型以及文本识别子模型的识别模型对文书图像数据进行文本识别,以得到文本内容,并输出该文本内容,实现对法律文书的自动识别,且识别效率高,提高了法律文书的识别准确率。
Description
技术领域
本发明涉及文本识别方法,更具体地说是指法律文书识别方法、装置、计算机设备及存储介质。
背景技术
文本识别是指利用计算机自动识别字符,是模式识别应用的一个重要领域。人们在生产和生活中,要处理大量的文字、报表和文本,为了减轻人们的劳动,提高处理效率,一般采用OCR(光学字符识别,Optical Character Recognition)技术,对文本进行识别。
OCR是指使用电子设备例如扫描仪、数码相机等检查纸上打印的字符,通过检测暗、亮、灰的模式确定其形状,然后使用字符识别的方法将其形状翻译成计算机可识别的文字的过程;即针对印刷体类字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
传统的OCR流程是对影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间。从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正,将结果输出。
目前的文本识别一般要求原数据格式为图片,也就是OCR是从图片内识别出文本,但是,对于法律文书等PDF格式的文件则无法采用OCR技术进行文本识别。
因此,有必要设计一种新的识别方法,实现对法律文书的自动识别。
发明内容
本发明的目的在于克服现有技术的缺陷,提供法律文书识别方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:法律文书识别方法,包括:
获取需要识别的法律文书,以得到待识别法律文书;
对待识别法律文书进行转换,以得到文书图像数据;
采用识别模型对所述文书图像数据进行文本识别,以得到文本内容;
输出所述识别结果。
其进一步技术方案为:所述对待识别法律文书进行转换,以得到文书图像数据,包括:
将待识别法律文书转换为数字矩阵,以得到矩阵;
对所述矩阵进行列切分,以得到子数字矩阵;
对所述子数字矩阵根据页码规律排序,以得到标准数字矩阵;
将标准数字矩阵转换为图像,以得到文书图像数据。
其进一步技术方案为:所述采用识别模型对所述文书图像数据进行文本识别,以得到文本内容,包括:
采用识别模型内的目标检测子模型对文书图像数据进行文本定位,以得到文字所在位置的像素信息;
根据所述文字所在位置的像素信息截取所述文书图像数据对应的图片块,以得到中间图片块;
对中间图片块进行排序,以得到中间文书图像数据;
采用识别模型内的文本识别子模型对中间文书图像数据进行文字识别,以得到文本内容;
其中,所述目标检测子模型是通过带有文字所在位置的基准像素信息的文书图像数据作为第一样本集进行深度学习训练所得的;
所述文本识别子模型是通过带有基准文本内容标签的中间文书图像数据作为第二样本集进行神经网络训练所得的。
其进一步技术方案为:所述目标检测子模型是通过带有文字所在位置的基准像素信息的文书图像数据作为第一样本集进行深度学习训练所得的,包括:
获取携带有文字所在位置的基准像素信息的文书图像数据,以得到第一样本集;
构建深度学习卷积神经网络模型以及对应的第一损失函数;
将第一样本集输入深度学习卷积神经网络模型内,并根据第一损失函数对深度学习卷积神经网络模型的网络参数进行训练,以得到目标检测子模型。
其进一步技术方案为:所述文本识别子模型是通过带有基准文本内容标签的中间文书图像数据作为第二样本集进行神经网络训练所得的,包括:
获取带有基准文本内容标签的中间文书图像数据,以得到第二样本集;
构建卷积循环神经网络模型以及对应的第二损失函数;
将第二样本集输入卷积循环神经网络模型内,并根据第二损失函数对卷积循环神经网络模型的网络参数进行训练,以得到文本识别子模型。
其进一步技术方案为:所述第一损失函数包括均方误差函数。
其进一步技术方案为:所述深度学习卷积神经网络模型包括YOLO V3模型。
本发明还提供了法律文书识别装置,包括:
文书获取单元,用于获取需要识别的法律文书,以得到待识别法律文书;
转换单元,用于对待识别法律文书进行转换,以得到文书图像数据;
识别单元,用于采用识别模型对所述文书图像数据进行文本识别,以得到文本内容;
输出单元,用于输出所述识别结果。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过对PDF格式的待识别法律文书进行切分和排序,以得到格式转换后的文书图像数据,采用集合了目标检测子模型以及文本识别子模型的识别模型对文书图像数据进行文本识别,以得到文本内容,并输出该文本内容,实现对法律文书的自动识别,且识别效率高,提高了法律文书的识别准确率。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的法律文书识别方法的应用场景示意图;
图2为本发明实施例提供的法律文书识别方法的流程示意图;
图3为本发明实施例提供的法律文书识别方法的子流程示意图;
图4为本发明实施例提供的法律文书识别方法的子流程示意图;
图5为本发明实施例提供的法律文书识别方法的子流程示意图;
图6为本发明实施例提供的法律文书识别方法的子流程示意图;
图7为本发明实施例提供的矩阵切分与数字子矩阵排序的示意图;
图8为本发明实施例提供的文本内容的示意图;
图9为本发明实施例提供的法律文书识别装置的示意性框图;
图10为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的法律文书识别方法的应用场景示意图。图2为本发明实施例提供的法律文书识别方法的示意性流程图。该法律文书识别方法应用于服务器中,该服务器与终端进行数据交互,服务器从终端获取到待识别法律文书后,进行格式转换和切分处理,以得到图像数据,对图像数据采用识别模型进行识别,以输出文本内容的识别结果。
图2是本发明实施例提供的法律文书识别方法的流程示意图。如图2所示,该方法包括以下步骤S110至S140。
S110、获取需要识别的法律文书,以得到待识别法律文书。
在本实施例中,待识别法律文书是指格式为PDF的法律文件,对于格式为PDF的文件,一般其文书内容并不是按页码顺序排列的。
S120、对待识别法律文书进行转换,以得到文书图像数据。
在本实施例中,文书图像数据是指按照页码顺序排列文书内容的图像。
在一实施例中,请参阅图3,上述的步骤S120可包括步骤S121~S124。
S121、将待识别法律文书转换为数字矩阵,以得到矩阵;
在本实施例中,矩阵是指通过python的image to pdf工具包转换PDF文件所得的结果。
在本实施例中,该待识别法律文书一般总共包含2页,第一页PDF包含了原法律文书的第四页和第一页的文书信息,第二页PDF包含了原法律文书的第二页和第三页的文书信息,根据这一规律,首先将2页PDF格式的待识别法律文书通过python的image to pdf工具包将全部转换为数字矩阵。
S122、对所述矩阵进行列切分,以得到子数字矩阵。
在本实施例中,子数字矩阵是指将所获取的数字矩阵按照列进行切分所形成的矩阵。
通过对矩阵的列切分,将每页PDF的数字矩阵按列切分为等大小的两个子数字矩阵,这时4个子数字矩阵的排序是:原法律文书第四页、第一页、第二页以及第三页。
S123、对所述子数字矩阵根据页码规律排序,以得到标准数字矩阵。
在本实施例中,标准数字矩阵是指将子数字矩阵按照页码的先后顺序进行排序所得到的矩阵;切分后进行页码规律排序后如图7所示。
S124、将标准数字矩阵转换为图像,以得到文书图像数据。
在本实施例中,文书图像数据是指带有法律文书的文本内容的图像数据,可采用matlab或者其他方式将矩阵转换为图像。
S130、采用识别模型对所述文书图像数据进行文本识别,以得到文本内容。
在本实施例中,文本内容是指能代表法律文书实际表述内容的文字。
在一实施例中,请参阅图4,上述的步骤S130可包括步骤S131~S134。
S131、采用识别模型内的目标检测子模型对文书图像数据进行文本定位,以得到文字所在位置的像素信息。
在本实施例中,文字所在位置的像素信息是指文本内容在该文书图像数据的像素位置信息。
上述的目标检测子模型是通过带有文字所在位置的基准像素信息的文书图像数据作为第一样本集进行深度学习训练所得的。
在一实施例中,请参阅图5,上述的目标检测子模型是通过带有文字所在位置的基准像素信息的文书图像数据作为第一样本集进行深度学习训练所得的,可包括步骤S1311~S1313。
S1311、获取携带有文字所在位置的基准像素信息的文书图像数据,以得到第一样本集。
在本实施例中,第一样本集是指若干个带有文字所在位置的基准像素信息标注的文书图像数据的集合。
S1312、构建深度学习卷积神经网络模型以及对应的第一损失函数。
在本实施例中,上述的深度学习卷积神经网络模型为Yolo V3模型,具体用于文本的定位,且训练该模型所采用的第一损失函数为均方误差函数。
S1313、将第一样本集输入深度学习卷积神经网络模型内,并根据第一损失函数对深度学习卷积神经网络模型的网络参数进行训练,以得到目标检测子模型。
首先用文书图像数据作为第一样本集训练Yolo V3模型,标签是文字所在位置的基准像素信息。训练好目标检测子模型之后,输入一个文书图像数据就可以输出文字所在位置的像素信息。第一损失函数的原理是计算预测出的像素信息和基准像素信息的均方误差,并根据该均方误差调整上述Yolo V3模型的网络参数,直到均方误差达到一定的阈值,就可以停止训练,在本实施例中,阈值设置为0.001,当然,于其他实施例中,还可以根据实际情况设置为其他数值。
S132、根据所述文字所在位置的像素信息截取所述文书图像数据对应的图片块,以得到中间图片块。
在本实施例中,中间图片块是指仅包含文字的图像数据。
S133、对中间图片块进行排序,以得到中间文书图像数据。
在本实施例中,中间文书图像数据是指按照中间图片块在文书图像数据的位置进行排序和布置所得的图像数据。
S134、采用识别模型内的文本识别子模型对中间文书图像数据进行文本识别,以得到文本内容。
具体地,上述的文本识别子模型是通过带有基准文本内容标签的中间文书图像数据作为第二样本集进行神经网络训练所得的。
在一实施例中,请参阅图6,上述的文本识别子模型是通过带有基准文本内容标签的中间文书图像数据作为第二样本集进行神经网络训练所得的,可包括步骤S1341~S1343。
S1341、获取带有基准文本内容标签的中间文书图像数据,以得到第二样本集。
在本实施例中,第二样本集是指若干个带有基准文本内容标签的且仅具备文本内容的图像数据的集合。
S1342、构建卷积循环神经网络模型以及对应的第二损失函数。
在本实施例中,上述的卷积循环神经网络模型是一种端到端的文本识别的网络模型,用于解决基于图像的序列识别问题,特别是场景文本识别问题。具体用于文本识别,且训练该模型所采用的第二损失函数为均方误差函数。
S1343、将第二样本集输入卷积循环神经网络模型内,并根据第二损失函数对卷积循环神经网络模型的网络参数进行训练,以得到文本识别子模型。
首先用带有基准文本内容标签的中间文书图像数据作为第二样本集训练卷积循环神经网络模型,且第二样本集只包含一行数据,标签是文本内容,训练好文本识别子模型之后,输入一个中间文书图像就可以输出对应的文本内容。第二损失函数的原理是先将数字转换成所有中文词库中的序列号(词库中中文为5990个),计算预测标签和真实标签的均方误差,并根据该均方误差调整上述卷积循环神经网络模型的网络参数,直到均方误差达到一定的阈值,就可以停止训练,在本实施例中,阈值设置为0.001,当然,于其他实施例中,还可以根据实际情况设置为其他数值。
S140、输出所述识别结果。
具体地,将识别结果输出至终端进行显示,以供用户快速获取法律文书内具有代表性的信息。
在近期数据中验证识别模型的准确性:
从数据库中提取出300份法律文书数据作为预测数据,具体验证步骤如下:
从数据库中抽取300份法律文书数据作为预测数据;将预测数据做好切分并且排序,图片排序准确率可约达百分之百;用已经训练好的目标检测子模型和文本识别子模型进行文本内容的预测;将预测的文本内容与真实的文本内容标签对比,正确率达到95%左右,预测效果如图8所示。
上述的法律文书识别方法,通过对PDF格式的待识别法律文书进行切分和排序,以得到格式转换后的文书图像数据,采用集合了目标检测子模型以及文本识别子模型的识别模型对文书图像数据进行文本识别,以得到文本内容,并输出该文本内容,实现对法律文书的自动识别,且识别效率高,提高了法律文书的识别准确率。
图9是本发明实施例提供的一种法律文书识别装置300的示意性框图。如图9所示,对应于以上法律文书识别方法,本发明还提供一种法律文书识别装置300。该法律文书识别装置300包括用于执行上述法律文书识别方法的单元,该装置可以被配置于服务器中。
具体地,请参阅图9,该法律文书识别装置300包括:
文书获取单元301,用于获取需要识别的法律文书,以得到待识别法律文书;
转换单元302,用于对待识别法律文书进行转换,以得到文书图像数据;
识别单元303,用于采用识别模型对所述文书图像数据进行文本识别,以得到文本内容;
输出单元304,用于输出所述识别结果。
在一实施例中,所述转换单元302包括:
矩阵转换子单元,用于将待识别法律文书转换为数字矩阵,以得到矩阵;
切分子单元,用于对所述矩阵进行列切分,以得到子数字矩阵;
排序子单元,用于对所述子数字矩阵根据页码规律排序,以得到标准数字矩阵;
图像转换子单元,用于将标准数字矩阵转换为图像,以得到文书图像数据。
在一实施例中,所述识别单元303包括:
文本定位子单元,用于采用识别模型内的目标检测子模型对文书图像数据进行文本定位,以得到文字所在位置的像素信息;
截取子单元,用于根据所述文字所在位置的像素信息截取所述文书图像数据对应的图片块,以得到中间图片块;
图片块排序子单元,用于对中间图片块进行排序,以得到中间文书图像数据;
文本识别子单元,用于采用识别模型内的文本识别子模型对中间文书图像数据进行文本识别,以得到文本内容;
另外,上述的识别单元303还包括:
第一训练子单元,用于通过带有文字所在位置的基准像素信息的文书图像数据作为第一样本集进行深度学习训练,以得到目标检测子模型;
第二训练子单元,用于通过带有基准文本内容标签的中间文书图像数据作为第二样本集进行神经网络训练,以得到文本识别子模型。
在一实施例中,所述第一训练子单元包括:
第一样本集获取模块,用于获取携带有文字所在位置的基准像素信息的文书图像数据,以得到第一样本集;
第一构建模块,用于构建深度学习卷积神经网络模型以及对应的第一损失函数;
第一模型训练模块,用于将第一样本集输入深度学习卷积神经网络模型内,并根据第一损失函数对深度学习卷积神经网络模型的网络参数进行训练,以得到目标检测子模型。
在一实施例中,所述第二训练子单元包括:
第二样本集获取模块,用于获取带有基准文本内容标签的中间文书图像数据,以得到第二样本集;
第二构建模块,用于构建卷积循环神经网络模型以及对应的第二损失函数;
第二模型训练模块,用于将第二样本集输入卷积循环神经网络模型内,并根据第二损失函数对卷积循环神经网络模型的网络参数进行训练,以得到文本识别子模型。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述法律文书识别装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述法律文书识别装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图10所示的计算机设备上运行。
请参阅图10,图10是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是终端,也可以是服务器,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图10,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种法律文书识别方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种法律文书识别方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取需要识别的法律文书,以得到待识别法律文书;
对待识别法律文书进行转换,以得到文书图像数据;
采用识别模型对所述文书图像数据进行文本识别,以得到文本内容;
输出所述识别结果。
在一实施例中,处理器502在实现所述对待识别法律文书进行转换,以得到文书图像数据步骤时,具体实现如下步骤:
将待识别法律文书转换为数字矩阵,以得到矩阵;
对所述矩阵进行列切分,以得到子数字矩阵;
对所述子数字矩阵根据页码规律排序,以得到标准数字矩阵;
将标准数字矩阵转换为图像,以得到文书图像数据。
在一实施例中,处理器502在实现所述采用识别模型对所述文书图像数据进行文本识别,以得到文本内容步骤时,具体实现如下步骤:
采用识别模型内的目标检测子模型对文书图像数据进行文本定位,以得到文字所在位置的像素信息;
根据所述文字所在位置的像素信息截取所述文书图像数据对应的图片块,以得到中间图片块;
对中间图片块进行排序,以得到中间文书图像数据;
采用识别模型内的文本识别子模型对中间文书图像数据进行文字识别,以得到文本内容;
其中,所述目标检测子模型是通过带有文字所在位置的基准像素信息的文书图像数据作为第一样本集进行深度学习训练所得的;
所述文本识别子模型是通过带有基准文本内容标签的中间文书图像数据作为第二样本集进行神经网络训练所得的。
在一实施例中,处理器502在实现所述目标检测子模型是通过带有文字所在位置的基准像素信息的文书图像数据作为第一样本集进行深度学习训练所得的步骤时,具体实现如下步骤:
获取携带有文字所在位置的基准像素信息的文书图像数据,以得到第一样本集;
构建深度学习卷积神经网络模型以及对应的第一损失函数;
将第一样本集输入深度学习卷积神经网络模型内,并根据第一损失函数对深度学习卷积神经网络模型的网络参数进行训练,以得到目标检测子模型。
其中,所述第一损失函数包括均方误差函数。所述深度学习卷积神经网络模型包括YOLO V3模型。
在一实施例中,处理器502在实现所述文本识别子模型是通过带有基准文本内容标签的中间文书图像数据作为第二样本集进行神经网络训练所得的步骤时,具体实现如下步骤:
获取带有基准文本内容标签的中间文书图像数据,以得到第二样本集;
构建卷积循环神经网络模型以及对应的第二损失函数;
将第二样本集输入卷积循环神经网络模型内,并根据第二损失函数对卷积循环神经网络模型的网络参数进行训练,以得到文本识别子模型。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取需要识别的法律文书,以得到待识别法律文书;
对待识别法律文书进行转换,以得到文书图像数据;
采用识别模型对所述文书图像数据进行文本识别,以得到文本内容;
输出所述识别结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对待识别法律文书进行转换,以得到文书图像数据步骤时,具体实现如下步骤:
将待识别法律文书转换为数字矩阵,以得到矩阵;
对所述矩阵进行列切分,以得到子数字矩阵;
对所述子数字矩阵根据页码规律排序,以得到标准数字矩阵;
将标准数字矩阵转换为图像,以得到文书图像数据。
在一实施例中,所述处理器在执行所述计算机程序而实现所述采用识别模型对所述文书图像数据进行文本识别,以得到文本内容步骤时,具体实现如下步骤:
采用识别模型内的目标检测子模型对文书图像数据进行文本定位,以得到文字所在位置的像素信息;
根据所述文字所在位置的像素信息截取所述文书图像数据对应的图片块,以得到中间图片块;
对中间图片块进行排序,以得到中间文书图像数据;
采用识别模型内的文本识别子模型对中间文书图像数据进行文字识别,以得到文本内容;
其中,所述目标检测子模型是通过带有文字所在位置的基准像素信息的文书图像数据作为第一样本集进行深度学习训练所得的;
所述文本识别子模型是通过带有基准文本内容标签的中间文书图像数据作为第二样本集进行神经网络训练所得的。
在一实施例中,所述处理器在执行所述计算机程序而实现所述目标检测子模型是通过带有文字所在位置的基准像素信息的文书图像数据作为第一样本集进行深度学习训练所得的步骤时,具体实现如下步骤:
获取携带有文字所在位置的基准像素信息的文书图像数据,以得到第一样本集;
构建深度学习卷积神经网络模型以及对应的第一损失函数;
将第一样本集输入深度学习卷积神经网络模型内,并根据第一损失函数对深度学习卷积神经网络模型的网络参数进行训练,以得到目标检测子模型。
其中,所述第一损失函数包括均方误差函数。
所述深度学习卷积神经网络模型包括YOLO V3模型。
在一实施例中,所述处理器在执行所述计算机程序而实现所述文本识别子模型是通过带有基准文本内容标签的中间文书图像数据作为第二样本集进行神经网络训练所得的步骤时,具体实现如下步骤:
获取带有基准文本内容标签的中间文书图像数据,以得到第二样本集;
构建卷积循环神经网络模型以及对应的第二损失函数;
将第二样本集输入卷积循环神经网络模型内,并根据第二损失函数对卷积循环神经网络模型的网络参数进行训练,以得到文本识别子模型。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.法律文书识别方法,其特征在于,包括:
获取需要识别的法律文书,以得到待识别法律文书;
对待识别法律文书进行转换,以得到文书图像数据;
采用识别模型对所述文书图像数据进行文本识别,以得到文本内容;
输出所述识别结果。
2.根据权利要求1所述的法律文书识别方法,其特征在于,所述对待识别法律文书进行转换,以得到文书图像数据,包括:
将待识别法律文书转换为数字矩阵,以得到矩阵;
对所述矩阵进行列切分,以得到子数字矩阵;
对所述子数字矩阵根据页码规律排序,以得到标准数字矩阵;
将标准数字矩阵转换为图像,以得到文书图像数据。
3.根据权利要求1所述的法律文书识别方法,其特征在于,所述采用识别模型对所述文书图像数据进行文本识别,以得到文本内容,包括:
采用识别模型内的目标检测子模型对文书图像数据进行文本定位,以得到文字所在位置的像素信息;
根据所述文字所在位置的像素信息截取所述文书图像数据对应的图片块,以得到中间图片块;
对中间图片块进行排序,以得到中间文书图像数据;
采用识别模型内的文本识别子模型对中间文书图像数据进行文字识别,以得到文本内容;
其中,所述目标检测子模型是通过带有文字所在位置的基准像素信息的文书图像数据作为第一样本集进行深度学习训练所得的;
所述文本识别子模型是通过带有基准文本内容标签的中间文书图像数据作为第二样本集进行神经网络训练所得的。
4.根据权利要求3所述的法律文书识别方法,其特征在于,所述目标检测子模型是通过带有文字所在位置的基准像素信息的文书图像数据作为第一样本集进行深度学习训练所得的,包括:
获取携带有文字所在位置的基准像素信息的文书图像数据,以得到第一样本集;
构建深度学习卷积神经网络模型以及对应的第一损失函数;
将第一样本集输入深度学习卷积神经网络模型内,并根据第一损失函数对深度学习卷积神经网络模型的网络参数进行训练,以得到目标检测子模型。
5.根据权利要求3所述的法律文书识别方法,其特征在于,所述文本识别子模型是通过带有基准文本内容标签的中间文书图像数据作为第二样本集进行神经网络训练所得的,包括:
获取带有基准文本内容标签的中间文书图像数据,以得到第二样本集;
构建卷积循环神经网络模型以及对应的第二损失函数;
将第二样本集输入卷积循环神经网络模型内,并根据第二损失函数对卷积循环神经网络模型的网络参数进行训练,以得到文本识别子模型。
6.根据权利要求4所述的法律文书识别方法,其特征在于,所述第一损失函数包括均方误差函数。
7.根据权利要求4所述的法律文书识别方法,其特征在于,所述深度学习卷积神经网络模型包括YOLO V3模型。
8.法律文书识别装置,其特征在于,包括:
文书获取单元,用于获取需要识别的法律文书,以得到待识别法律文书;
转换单元,用于对待识别法律文书进行转换,以得到文书图像数据;
识别单元,用于采用识别模型对所述文书图像数据进行文本识别,以得到文本内容;
输出单元,用于输出所述识别结果。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910619446.5A CN110334710A (zh) | 2019-07-10 | 2019-07-10 | 法律文书识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910619446.5A CN110334710A (zh) | 2019-07-10 | 2019-07-10 | 法律文书识别方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110334710A true CN110334710A (zh) | 2019-10-15 |
Family
ID=68146096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910619446.5A Pending CN110334710A (zh) | 2019-07-10 | 2019-07-10 | 法律文书识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334710A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434157A (zh) * | 2020-11-05 | 2021-03-02 | 平安直通咨询有限公司上海分公司 | 文书多标签分类方法、装置、电子设备及存储介质 |
CN112508011A (zh) * | 2020-12-02 | 2021-03-16 | 上海逸舟信息科技有限公司 | 一种基于神经网络的ocr识别方法及设备 |
CN113850268A (zh) * | 2021-09-29 | 2021-12-28 | 平安科技(深圳)有限公司 | 基于人工智能的文本识别排序方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268127A (zh) * | 2014-09-22 | 2015-01-07 | 同方知网(北京)技术有限公司 | 一种电子档版式文件阅读顺序分析的方法 |
CN107622230A (zh) * | 2017-08-30 | 2018-01-23 | 中国科学院软件研究所 | 一种基于区域识别与分割的pdf表格数据解析方法 |
CN108764226A (zh) * | 2018-04-13 | 2018-11-06 | 顺丰科技有限公司 | 图像文本识别方法、装置、设备及其存储介质 |
CN109871516A (zh) * | 2017-12-01 | 2019-06-11 | 江苏奥博洋信息技术有限公司 | 一种双层pdf批量生成word的方法 |
CN109933756A (zh) * | 2019-03-22 | 2019-06-25 | 腾讯科技(深圳)有限公司 | 基于ocr的图像转档方法、装置、设备及可读存储介质 |
-
2019
- 2019-07-10 CN CN201910619446.5A patent/CN110334710A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268127A (zh) * | 2014-09-22 | 2015-01-07 | 同方知网(北京)技术有限公司 | 一种电子档版式文件阅读顺序分析的方法 |
CN107622230A (zh) * | 2017-08-30 | 2018-01-23 | 中国科学院软件研究所 | 一种基于区域识别与分割的pdf表格数据解析方法 |
CN109871516A (zh) * | 2017-12-01 | 2019-06-11 | 江苏奥博洋信息技术有限公司 | 一种双层pdf批量生成word的方法 |
CN108764226A (zh) * | 2018-04-13 | 2018-11-06 | 顺丰科技有限公司 | 图像文本识别方法、装置、设备及其存储介质 |
CN109933756A (zh) * | 2019-03-22 | 2019-06-25 | 腾讯科技(深圳)有限公司 | 基于ocr的图像转档方法、装置、设备及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
张继超: "《遥感原理与应用》", 31 August 2018 * |
陈坤斌: "手机动漫智能分割算法与终端适配技术的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434157A (zh) * | 2020-11-05 | 2021-03-02 | 平安直通咨询有限公司上海分公司 | 文书多标签分类方法、装置、电子设备及存储介质 |
CN112434157B (zh) * | 2020-11-05 | 2024-05-17 | 平安直通咨询有限公司上海分公司 | 文书多标签分类方法、装置、电子设备及存储介质 |
CN112508011A (zh) * | 2020-12-02 | 2021-03-16 | 上海逸舟信息科技有限公司 | 一种基于神经网络的ocr识别方法及设备 |
CN113850268A (zh) * | 2021-09-29 | 2021-12-28 | 平安科技(深圳)有限公司 | 基于人工智能的文本识别排序方法、装置、设备及介质 |
CN113850268B (zh) * | 2021-09-29 | 2024-05-31 | 平安科技(深圳)有限公司 | 基于人工智能的文本识别排序方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107247949B (zh) | 基于深度学习的人脸识别方法、装置和电子设备 | |
Burie et al. | ICDAR2015 competition on smartphone document capture and OCR (SmartDoc) | |
CN104239858B (zh) | 一种人脸特征验证的方法和装置 | |
CN110334710A (zh) | 法律文书识别方法、装置、计算机设备及存储介质 | |
Bussa et al. | Smart attendance system using OPENCV based on facial recognition | |
CN112257613B (zh) | 体检报告信息结构化提取方法、装置及计算机设备 | |
CN109359550B (zh) | 基于深度学习技术的满文文档印章提取与去除方法 | |
CN108764195A (zh) | 手写模型训练方法、手写字识别方法、装置、设备及介质 | |
CN104915668B (zh) | 医学影像中的文字信息识别方法及装置 | |
CN101196994A (zh) | 图片内容识别方法及识别系统 | |
CN109190579B (zh) | 一种基于对偶学习的生成式对抗网络sigan的签名笔迹鉴定方法 | |
CN109635805B (zh) | 图像文本定位方法及装置、图像文本识别方法及装置 | |
CN111046879A (zh) | 证件图像分类方法、装置、计算机设备及可读存储介质 | |
CN108846385B (zh) | 基于卷积-反卷积神经网络的图像识别、校正方法和装置 | |
CN103646199B (zh) | 一种基于九宫格密码和人脸图像的身份验证方法 | |
CN105335719A (zh) | 活体检测方法及装置 | |
CN112541443B (zh) | 发票信息抽取方法、装置、计算机设备及存储介质 | |
WO2021179708A1 (zh) | 命名实体识别方法、装置、计算机设备及可读存储介质 | |
CN113901933B (zh) | 基于人工智能的电子发票信息抽取方法、装置及设备 | |
CN114092938B (zh) | 图像的识别处理方法、装置、电子设备及存储介质 | |
CN112384989A (zh) | 一种两阶段疾病诊断系统及其方法 | |
CN108256520B (zh) | 一种识别硬币年份的方法、终端设备及计算机可读存储介质 | |
CN102592142A (zh) | 一种基于计算机系统的手写签名稳定性评估方法 | |
CN112036304A (zh) | 医疗票据版面识别的方法、装置及计算机设备 | |
CN115760500A (zh) | 一种优化老师批阅作业的方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191015 |