CN113536771B

CN113536771B - 基于文本识别的要素信息提取方法、装置、设备及介质

Info

Publication number: CN113536771B
Application number: CN202111094018.9A
Authority: CN
Inventors: 杨东泉; 程佳宇; 王天星; 钱启
Original assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Current assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2021-12-24
Anticipated expiration: 2041-09-17
Also published as: WO2023039942A1; CN113536771A

Abstract

本发明公开了基于文本识别的要素信息提取方法、装置、设备及介质，方法包括：对初始文档进行分页识别以获取文档信息页，根据初始文本识别模型从文档信息页中获取初始文本信息，若文档信息页中包含未识别文档内容，根据手写体识别模型对未识别内容进行识别得到手写体文本信息，根据文本纠错模型对初始文本信息及手写体文本信息进行文本纠错处理得到纠错文本信息并根据要素提取规则从中提取文本要素信息。本发明属于文本识别技术领域，通过初始文本识别模型及手写体识别模型相结合进行文本识别得到文本信息，进行文本纠错处理后提取文本要素信息，大幅提升了进行文本要素信息提取的灵活性，基于文本纠错处理可大幅提高获取文本要素信息的准确性。

Description

基于文本识别的要素信息提取方法、装置、设备及介质

技术领域

本发明涉及文本识别技术领域，尤其涉及一种基于文本识别的要素信息提取方法、装置、设备及介质。

背景技术

企业为了方便对所签订的协议、合同进行管理，通常需要从协议或合同等文档中提取得到关键信息，现有的提取方法均是对电子文档中包含的文本字符进行分析，从而从中获取得到对应的要素信息，现有的提取方法仅通过关键字匹配的方式从电子文档中获取与关键字相匹配的一段信息作为要素信息，这一提取方法无法对图片、PDF文档等文档进行分析，且对要素信息进行提取时存在灵活性不足的问题，其中部分要素信息因不与关键字相匹配而无法被提取，无法实现准确高效地从文档中提取得到相应要素信息。因此，现有技术方法中存在无法准确、高效地从文档中提取得到要素信息的问题。

发明内容

本发明实施例提供了一种基于文本识别的要素信息提取方法、装置、设备及介质，旨在解决现有技术方法中所存在的无法准确、高效地从文档中提取得到要素信息的问题。

第一方面，本发明实施例提供了一种基于文本识别的要素信息提取方法，其包括：

若接收到所输入的初始文档，对所述初始文档进行分页识别以获取其中的文档信息页；

根据预置的初始文本识别模型对每一所述文档信息页中包含的文本内容进行识别得到对应的初始文本信息；

判断所述文档信息页中是否包含未识别文档内容；

若所述文档信息页中包含未识别文档内容，根据预置的手写体识别模型对所述未识别文档内容进行识别得到对应的手写体文本信息；

根据预置的文本纠错模型对所述初始文本信息及所述手写体文本信息进行文本纠错处理，得到对应的纠错文本信息；

根据预置的要素提取规则从所述纠错文本信息中提取得到对应的文本要素信息。

第二方面，本发明实施例提供了一种基于文本识别的要素信息提取装置，其包括：

文档信息页获取单元，用于若接收到所输入的初始文档，对所述初始文档进行分页识别以获取其中的文档信息页；

初始文本信息获取单元，用于根据预置的初始文本识别模型对每一所述文档信息页中包含的文本内容进行识别得到对应的初始文本信息；

文档信息页判断单元，用于判断所述文档信息页中是否包含未识别文档内容；

手写体文本信息获取单元，用于若所述文档信息页中包含未识别文档内容，根据预置的手写体识别模型对所述未识别文档内容进行识别得到对应的手写体文本信息；

纠错文本信息获取单元，用于根据预置的文本纠错模型对所述初始文本信息及所述手写体文本信息进行文本纠错处理，得到对应的纠错文本信息；

文本要素信息获取单元，用于根据预置的要素提取规则从所述纠错文本信息中提取得到对应的文本要素信息。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于文本识别的要素信息提取方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于文本识别的要素信息提取方法。

本发明实施例提供了一种基于文本识别的要素信息提取方法、装置、计算机设备及可读存储介质。对初始文档进行分页识别以获取文档信息页，根据初始文本识别模型从文档信息页中获取初始文本信息，若文档信息页中包含未识别文档内容，根据手写体识别模型对未识别内容进行识别得到手写体文本信息，根据文本纠错模型对初始文本信息及手写体文本信息进行文本纠错处理得到纠错文本信息并根据要素提取规则从中提取文本要素信息。通过上述方法，可通过初始文本识别模型及手写体识别模型相结合进行文本识别得到文本信息，并进行文本纠错处理后提取对应的文本要素信息，大幅提升了进行文本要素信息提取的灵活性，且提高了进行要素信息提取的适用范围，基于文本纠错处理可大幅提高获取文本要素信息的准确性，从而实现了准确、高效地从文档中提取得到要素信息。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于文本识别的要素信息提取方法的流程示意图；

图2为本发明实施例提供的基于文本识别的要素信息提取方法的子流程示意图；

图3为本发明实施例提供的基于文本识别的要素信息提取方法的另一子流程示意图；

图4为本发明实施例提供的基于文本识别的要素信息提取方法的另一子流程示意图；

图5为本发明实施例提供的基于文本识别的要素信息提取方法的另一子流程示意图；

图6为本发明实施例提供的基于文本识别的要素信息提取方法的另一流程示意图；

图7为本发明实施例提供的基于文本识别的要素信息提取方法的另一流程示意图；

图8为本发明实施例提供的基于文本识别的要素信息提取装置的示意性框图；

图9为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1是本发明实施例提供的基于文本识别的要素信息提取方法的流程示意图；该基于文本识别的要素信息提取方法应用于用户终端或管理服务器中，该基于文本识别的要素信息提取方法通过安装于用户终端或管理服务器中的应用软件进行执行，管理服务器即是可执行基于文本识别的要素信息提取方法以对初始文档进行文本识别并提取得到文本要素信息的服务器，管理服务器可以是企业或政府部门内部所构建的服务器端，用户终端即是可执行基于文本识别的要素信息提取方法以对初始文档进行文本识别并提取得到文本要素信息的终端设备，例如台式电脑、笔记本电脑、平板电脑或手机等。如图1所示，该方法包括步骤S110~S160。

S110、若接收到所输入的初始文档，对所述初始文档进行分页识别以获取其中的文档信息页。

若接收到所输入的初始文档，对所述初始文档进行分页识别以获取其中的文档信息页。用户可输入初始文档至用户终端或管理服务器，初始文档即为待识别的合同、协议等文档，初始文档可以是PDF文档或图片集合，初始文档中由多个分页组合而成，可对初始文档中包含的每一分页分别进行识别，以从中获取文档信息页。

如初始文档为合同文档，则包含合同封面页及合同正文页，合同正文页中包含需要进行要素信息提取的内容，则通过分页识别后从该合同文档中获取合同正文页作为文档信息页。

在一实施例中，如图2所示，步骤S110包括子步骤S111、S112、S113和S114。

S111、判断所述初始文档中每一页文档的文字方向是否与预置的标准文字方向相同。

首先可获取初始文档中每一分页中文档的文字方向，对于同一页文档，只能获取对应的一个文字方向，具体的，可获取文档中字符所组成的字符区块形状，每一字符区块即对应一行或一列字符，字符区块之间存在间隙，根据字符区块的形状即可确定对应的文字方向，若字符区块的横向长度大于纵向长度，则确定文字方向为横向，若字符区块的纵向长度大于横向长度，则确定文字方向为纵向。

可判断每一页文档的文字方向是否与预置的标准文字方向相同，标准文字方向即为横向且首句开头非标点符号，则可判断文档的文字方向是否与该标准文字方向相同。

S112、若所述文档的文字方向不与所述标准文字方向相同，对所述文档进行旋转以使文字方向与所述标准文字方向相同。

若文档的文字方向不与标准文字方向相同，则对文档进行旋转，具体的，若文档的文字方向为纵向，则顺时针旋转90度，此时文档的文字方向为横向，判断旋转后文档的首句开头是否为标点符号，若是，则旋转180°，则此时该文档的文字方向即与标准文字方向相同。

S113、判断所述标准文字方向对应的所述文档中的文字占比是否大于预置的占比阈值。

获取与标准文字方向相同的文档中文字占比，具体的，可获取每一文档中字符区块在文档中覆盖区域的比值作为对应的文字占比，也即是计算每一文档中所有字符区块的覆盖面积，除以文档的总面积得到文字占比，并判断每一文档的文字占比是否大于占比阈值。

S114、获取文字占比大于所述占比阈值的文档确定为与所述初始文档对应的文档信息页。

若文档的文字占比大于占比阈值，则表明该页文档即为包含主要内容信息的分页，获取该页文档作为文档信息页，若文档的文字占比不大于占比阈值，则表明该页文档为不包含主要内容信息的封面页。例如，占比阈值可设置为12%。

S120、根据预置的初始文本识别模型对每一所述文档信息页中包含的文本内容进行识别得到对应的初始文本信息。

根据预置的初始文本识别模型对每一所述文档信息页中包含的文本内容进行识别得到对应的初始文本信息。初始文本识别模型即为对文档信息页中非手写字符进行识别的模型，其中，所述初始文本识别模型包括特征向量提取公式、字符数据库及匹配度阈值。可根据初始文本识别模型对每一文档信息页中包含的文本内容进行识别，以获取其中的文本信息作为初始文本信息。

在一实施例中，如图3所示，步骤S120包括子步骤S121、S122、S123、S124、S125、S126和S127。

S121、从每一所述文档信息页中获取每一段落对应的文字笔画。

文档信息页中不同段落对应的非手写字体可能相同，也可能不相同，为提高对文档信息页中所包含文本信息进行识别的准确性，可获取文档信息页中每一段落对应的文字笔画，文字笔画即为从每一段落中获取到的代表性笔画，如横“一”、竖“丨”、走之底“辶”等。

S122、根据所述特征向量提取公式计算与每一所述段落的文字笔画对应的笔画特征向量。

具体的，可获取段落对应的每一文字笔画的笔画图像，并通过特征向量提取公式从笔画图像中提取得到与文字笔画对应的笔画特征向量，笔画特征向量即可用于对该文字笔画的特征进行量化表征。

例如，每一文字笔画对应的笔画图像的分辨率均为50×50，根据特征向量提取公式中第一卷积核的计算公式，以分辨率6*6作为窗口，步长为1，进行卷积操作，以得到大小为45×45的向量矩阵，也即是笔画图像的浅层特征；根据池化计算公式，以分辨率9×9作为窗口，步长为6，进行降采样，以得到大小为7×7的向量矩阵，也即是笔画图像的深层次特征；根据5个第二卷积核中的计算公式，以分辨率3×3作为窗口，步长为2的进行卷积操作，以得到大小为3×3的5个向量矩阵。通过第一全连接计算公式，对所得到的5个3×3的向量矩阵进行计算，第一全连接公式中共包含五个节点，每一个节点均与1个3×3的向量矩阵相关联，也即是分别通过五个计算公式计算得到与5个3×3的向量矩阵相关联的五个节点的值，第一个计算公式可表示为Y₁=a₁×X₁+b₁，其中，Y₁为第一个节点的计算值，X₁为该笔画图像对应的第一个向量矩阵中的数值，a₁和b₁为第一节点与第一个向量矩阵相关联的第一计算公式中所预设的参数值，通过五个计算公式即可计算与对应向量矩阵向关联的五个节点的值；通过第二全连接计算公式对五个节点的值进行计算以得到最终该笔画图像的特征向量，第二全连接计算公式可表示为Z₁=c₁×Y₁+c₂×Y₂+c₃×Y₃+c₄×Y₄+c₅×Y₅；其中Y₁、Y₂、Y₃、Y₄、Y₅为与该笔画图像的向量矩阵相关联的五个节点的值，c₁、c ₂、c ₃、c ₄、c ₅为五个节点至最后输出节点的预设参数值，由于3×3的向量矩阵共包含9个数值，最后得到该笔画图像的特征向量为一个1×9维的向量矩阵，可以采用Z=(z₁，z₂……z₉)来表示。

S123、计算每一所述段落的笔画特征向量与所述字符数据库每一字体之间的字体匹配度。

字符数据库中包含多种字体，以及每一字体与代表性笔画对应的字体笔画特征，则可计算段落的多个笔画特征向量与每一字体的字体笔画特征之间的字体匹配度。具体的，段落的笔画特征向量与某一字体之间的字体匹配度可采用公式（1）计算得到：

（1）；

其中，N为笔画特征向量的总数，Z_i=(z_1i，z_2i……z_9i)为第i个笔画特征向量，R_i=(r_1i，r_2i……r_9i)为某字体中第i个字体笔画特征。

S124、判断与所述笔画特征向量之间字体匹配度大于所述匹配度阈值的字体数量是否大于零；S125、若与所述笔画特征向量之间匹配度大于所述匹配度阈值的字体数量大于零，获取与所述笔画特征向量之间匹配度最高的字体作为与每一所述笔画特征向量相匹配的目标字体。

可根据上述的计算结果，判断与每一段落的笔画特征向量之间字体匹配度大于匹配度阈值的字体数量是否大于零，若与某一段落的笔画特征向量之间字体匹配度大于匹配度阈值的字体数量大于零，则表明字符数据库中至少有一种字体与该段落的字体笔画特征相匹配，则获取与该段落的笔画特征向量之间匹配度最高的字体对应的目标字体。通过上述方式即可确定与每一段落的笔画特征向量相匹配的目标字体。

S126、若与所述笔画特征向量之间匹配度大于所述匹配度阈值的字体数量不大于零，将与所述笔画特征向量对应的段落确定为未识别文档内容。

若与某一段落的笔画特征向量之间字体匹配度大于匹配度阈值的字体数量不大于零，则表明字符数据库中任意一种字体与该段落的字体笔画特征均不相匹配，将该段落所包含的内容确定为未识别文档内容。

S127、根据所述字符数据库中与每一所述笔画特征向量对应的目标字体的字符模板，对与每一所述笔画特征向量对应的段落包含的文本内容进行识别，得到对应的初始文本信息。

字符数据库中还包括与每一种字体分别对应的字符模板，一种字体的字符模板即包含该种字体与每一字符对应的模板，可基于字符数据库中与笔画特征向量相匹配的目标字体的字符模板，对相应段落所包含的文本内容进行识别，也即是通过字符模板与段落中的字符图像进行匹配，以识别每一字符图像所对应的文本内容，通过对与目标字体相匹配的段落所包含的文本内容进行识别即可得到初始文本信息。

S130、判断所述文档信息页中是否包含未识别文档内容。

判断所述文档信息页中是否包含未识别文档内容。可判断文档信息页中是否包含未识别文档内容，未识别文档内容即为笔画特征向量不与字符数据库中任意一种字体相匹配的段落包含的文本内容。

S140、若所述文档信息页中包含未识别文档内容，根据预置的手写体识别模型对所述未识别文档内容进行识别得到对应的手写体文本信息。

若所述文档信息页中包含未识别文档内容，根据预置的手写体识别模型对所述未识别文档内容进行识别得到对应的手写体文本信息。若文档信息页中包含未识别文档内容，则表明文档信息页中包括部分无法通过字符数据库进行识别的内容，则需要通过手写体识别模型对该未识别文档内容进行识别，手写体识别模型即为对采用手写得到的文本内容进行识别的模型，其中，所述手写体识别模型包括特征向量提取公式及手写字符集合。

在一实施例中，如图4所示，步骤S140包括子步骤S141、S142和S143。

S141、根据所述特征向量提取公式计算所述未识别文档中每一字符对应的字符特征向量。

可通过特征向量提取公式计算未识别文档中每一字符的字符特征向量，具体的，可先获取未识别文档中每一字符的字符图像，并基于上述特征向量提取公式计算得到字符图像对应的字符特征向量，计算得到字符特征向量的过程与计算得到笔画特征向量的具体过程相同，在此不作赘述。

S142、计算每一所述字符特征向量与所述手写字符集合中每一手写字符对应特征向量之间的匹配度。

手写字符集合中包含多个手写字符，以及与每一手写字符对应的特征向量，可计算字符特征向量与手写字符的特征向量之间的匹配度，匹配度可采用公式（2）计算得到：

（2）；

其中，Z=(z₁，z₂……z₉)为某字符的字符特征向量，T=（t₁，t₂……t₉）为某一手写字符对应的特征向量。

S143、获取与每一所述字符特征向量之间匹配度最高的一个手写字符并进行顺序组合，得到与所述未识别文档内容对应的手写体文本信息。

获取与每一字符特征向量之间匹配度最高的一个手写字符，并按字符特征向量所对应字符在未识别文档中的位置，对相应手写字符按顺序进行组合，得到与未识别文档内容对应的手写体文本信息。

S150、根据预置的文本纠错模型对所述初始文本信息及所述手写体文本信息进行文本纠错处理，得到对应的纠错文本信息。

根据预置的文本纠错模型对所述初始文本信息及所述手写体文本信息进行文本纠错处理，得到对应的纠错文本信息。若文档信息页中包含未识别文档内容，则根据文本纠错模型对初始文本信息及手写体文本信息进行文本纠错处理；若文档信息也中不包含未识别文档内容，则根据文本纠错模型仅对初始文本信息进行文本纠错处理。初始文本信息及手写体文本信息中很有可能出现识别错误的字符，为提高要素信息提取的准确性，可对获取到的文本信息进行文本纠错处理，也即是对其中出现识别错误的字符进行替换/删除等处理，以使得到的纠错文本信息中所包含的文本信息表意正确。其中，所述文本纠错模型包括转换词典及纠错神经网络。

在一实施例中，如图5所示，步骤S150包括子步骤S151、S152、S153和S154。

S151、对所述初始文本信息及所述手写体文本信息进行预处理得到对应的预处理文本信息。

可对初始文本信息及手写体文本信息按顺序进行组合，并对其中的字符进行预处理得到对应的预处理文本信息。

在一实施例中，如图6所示，步骤S151包括子步骤S1511和S1512。

S1511、对所述初始文本信息及所述手写体文本信息中无效字符进行滤除，得到对应的有效文本信息。

具体的，可首先对初始文本信息及手写体文本信息中无效字符进行滤除，如对符号、空格等无效字符进行滤除，得到仅包含有效字符的有效文本信息。

S1512、根据所述初始文本信息及所述手写体文本信息中包含的文本语句对所述有效文本信息进行分段，得到包含多个文本段的预处理文本信息。

根据初始文本信息及手写体文本信息中包含的文本语句对有效文本信息进行分段，得到预处理文本信息，文本语句即为能够表达完整含义的一句话，则预处理文本信息中包含多个文本段，每一文本段及对应一个文本语句。

S152、根据所述转换词典对所述预处理文本信息中每一文本段所包含的字符进行转换得到对应的文本编码信息。

根据转换词典对预处理文本中每一文本段包含的字符进行转换，转换词典中包含与每一字符对应的字符编码，则可通过转换词典获取文本段中每一字符对应的字符编码，得到文本编码信息。

S153、将所述文本编码信息中与每一所述文本段对应的编码序列依次输入所述纠错神经网络得到对应的纠错编码序列。

纠错神经网络即是用于文本信息进行纠错的智能神经网络，纠错神经网络可以是基于BERT（Bidirectional Encoder Representations from Transformers）网络及自然语言处理神经网络（Natural Language Processing Transformer，NLP神经网络）构建得到的神经网络，NLP神经网络可以是基于多头自注意力网络（Multi-Head Self-Attention）构建得到的神经网络，NLP神经网络由多个编码器和多个解码器组合而成。可先将任意一条编码序列输入BERT网络进行计算得到对应的表征向量，将所得到的表征向量输入NLP神经网络进行计算得到对应的纠错编码序列。其中，BERT网络由一个输入层、多个中间层及一个输出层组成，输入层与首个中间层之间、中间层与其他中间层之间、末尾中间层与输出层之间均通过关联公式进行连接，关联公式均可采用一次函数进行表示，将任意一个文本段的编码序列输入BERT网络，即可从输出层得到对应的表征向量，表征向量的大小为（J，K），也即是一个J行K列的向量矩阵，其中J即等于编码序列中所包含字符编码的数量，表征向量中每一向量值均属于[0，1]这一取值范围。通过NLP神经网络中的多个编码器和多个解码器对表征向量进行计算即可得到对应的纠错编码序列，所得到的纠错编码序列中字符编码的数量与文本段的编码序列中包含的字符编码的数量可以相等也可以不相等，若纠错编码序列中字符编码的数量与所输入的编码序列中包含的字符编码的数量相等，则表明所输入的编码序列中不存在错误或仅存在替换错误；若纠错编码序列中字符编码的数量与所输入的编码序列中包含的字符编码的数量不相等，则表明所输入的编码序列中存在插入错误或删除错误。

S154、根据所述转换词典对每一所述纠错编码序列进行逆转换得到对应的纠错文本信息。

转换词典中包含字符与字符编码之间的对应关系，则可根据转换词典对所得到的每一纠错编码序列进行逆转换，逆转换也即是将纠错编码序列中包含的字符编码转换为对应的字符，逆转换所得到的字符进行顺序排列即可作为与相应文本段对应的纠错文本，获取与每一文本段对应的纠错文本即组合成对应的纠错文本信息。

S160、根据预置的要素提取规则从所述纠错文本信息中提取得到对应的文本要素信息。

根据预置的要素提取规则从所述纠错文本信息中提取得到对应的文本要素信息。可根据要素提取规则从纠错文本信息中提取文本要素信息，文本要素信息即为用于体现协议文档或合同文档中重要内容的要素信息。其中，所述要素提取规则包括要素映射表及要素检验式。

在一实施例中，如图7所示，步骤S160包括子步骤S161、S162和S163。

S161、根据所述要素映射表中每一要素所映射的要素标签定位所述纠错文本信息与每一所述要素对应的要素字段。

可根据要素映射表对纠错文本信息中与每一要素对应的要素字段进行定位，要素映射表中包含与每一要素对应的要素标签。例如，要素映射表中包含的部分信息如表1所示。

表1

中包含四种要素，分别为日期、编号、数值、文本。表1中所示即为与文本这一种要素对应的要素标签，可根据要素标签定位纠错文本信息中与每一要素标签相匹配的一段文字信息作为对应要素的一个要素字段。

S162、根据所述要素检验式对与每一所述要素对应的要素字段进行检验，以得到是否通过的检验结果。

可根据与每一种要素对应的要素检验式对要素的要素字段进行检验，具体的，要素检验式可以是正则表达式，如日期这一种要素对应的正则表达式为仅数字和汉文数字、且字符数量小于等于8；编号这一种要素对应的正则表达式为仅数字和字母组合、且字符数量大于2，文本这一种要素对应的正则表达式为仅汉字。若要素对应的要素字段与该要素所属要素种类的正则表达式相匹配，则校验结果为校验通过；否则校验结果为校验不通过。

S163、获取检验结果为通过的所述要素字段并确定为与所述纠错文本信息对应的文本要素信息。

获取所有校验结果为通过的要素字段作为与纠错文本信息对应的文本要素信息。可对获取到的文本要素信息进行列表展示，具体的，将校验结果为通过的要素字段作为具体内容，与该要素字段对应的要素作为要素名称，生成信息表进行展示，从而更方便使用者察看所提取到的文本要素信息。若要素字段对应的校验结果为不通过，则表明要素字段不符合相应要求，该要素字段不可作为从文档中提取到的文本要素信息。

在本发明实施例所提供的基于文本识别的要素信息提取方法中，对初始文档进行分页识别以获取文档信息页，根据初始文本识别模型从文档信息页中获取初始文本信息，若文档信息页中包含未识别文档内容，根据手写体识别模型对未识别内容进行识别得到手写体文本信息，根据文本纠错模型对初始文本信息及手写体文本信息进行文本纠错处理得到纠错文本信息并根据要素提取规则从中提取文本要素信息。通过上述方法，可通过初始文本识别模型及手写体识别模型相结合进行文本识别得到文本信息，并进行文本纠错处理后提取对应的文本要素信息，大幅提升了进行文本要素信息提取的灵活性，且提高了进行要素信息提取的适用范围，基于文本纠错处理可大幅提高获取文本要素信息的准确性，从而实现了准确、高效地从文档中提取得到要素信息。

本发明实施例还提供一种基于文本识别的要素信息提取装置，该基于文本识别的要素信息提取装置可配置于用户终端或管理服务器中，该基于文本识别的要素信息提取装置用于执行前述的基于文本识别的要素信息提取方法的任一实施例。具体地，请参阅图8，图8为本发明实施例提供的基于文本识别的要素信息提取装置的示意性框图。

如图8所示，基于文本识别的要素信息提取装置100包括文档信息页获取单元110、初始文本信息获取单元120、文档信息页判断单元130、手写体文本信息获取单元140、纠错文本信息获取单元150和文本要素信息获取单元160。

文档信息页获取单元110，用于若接收到所输入的初始文档，对所述初始文档进行分页识别以获取其中的文档信息页。

在一具体实施例中，所述文档信息页获取单元110包括子单元：文字方向判断单元，用于判断所述初始文档中每一页文档的文字方向是否与预置的标准文字方向相同；文档旋转单元，用于若所述文档的文字方向不与所述标准文字方向相同，对所述文档进行旋转以使文字方向与所述标准文字方向相同；文字占比判断单元，用于判断所述标准文字方向对应的所述文档中的文字占比是否大于预置的占比阈值；文档信息页确定单元，用于获取文字占比大于所述占比阈值的文档确定为与所述初始文档对应的文档信息页。

初始文本信息获取单元120，用于根据预置的初始文本识别模型对每一所述文档信息页中包含的文本内容进行识别得到对应的初始文本信息。

在一具体实施例中，所述初始文本信息获取单元120包括子单元：文字笔画获取单元，用于从每一所述文档信息页中获取每一段落对应的文字笔画；笔画特征向量获取单元，用于根据所述特征向量提取公式计算与每一所述段落的文字笔画对应的笔画特征向量；字体匹配度计算单元，用于计算每一所述段落的笔画特征向量与所述字符数据库每一字体之间的字体匹配度；字体数量判断单元，用于判断与所述笔画特征向量之间字体匹配度大于所述匹配度阈值的字体数量是否大于零；目标字体获取单元，用于若与所述笔画特征向量之间匹配度大于所述匹配度阈值的字体数量大于零，获取与所述笔画特征向量之间匹配度最高的字体作为与每一所述笔画特征向量相匹配的目标字体；未识别文档内容确定单元，用于若与所述笔画特征向量之间匹配度大于所述匹配度阈值的字体数量不大于零，将与所述笔画特征向量对应的段落确定为未识别文档内容；文本内容识别单元，用于根据所述字符数据库中与每一所述笔画特征向量对应的目标字体的字符模板，对与每一所述笔画特征向量对应的段落包含的文本内容进行识别，得到对应的初始文本信息。

文档信息页判断单元130，用于判断所述文档信息页中是否包含未识别文档内容。

手写体文本信息获取单元140，用于若所述文档信息页中包含未识别文档内容，根据预置的手写体识别模型对所述未识别文档内容进行识别得到对应的手写体文本信息。

在一具体实施例中，所述手写体文本信息获取单元140包括子单元：字符特征向量获取单元，用于根据所述特征向量提取公式计算所述未识别文档中每一字符对应的字符特征向量；匹配度计算单元，用于计算每一所述字符特征向量与所述手写字符集合中每一手写字符对应特征向量之间的匹配度；文本信息获取单元，用于获取与每一所述字符特征向量之间匹配度最高的一个手写字符并进行顺序组合，得到与所述未识别文档内容对应的手写体文本信息。

纠错文本信息获取单元150，用于根据预置的文本纠错模型对所述初始文本信息及所述手写体文本信息进行文本纠错处理，得到对应的纠错文本信息。

在一具体实施例中，所述纠错文本信息获取单元150包括子单元：预处理文本信息获取单元，用于对所述初始文本信息及所述手写体文本信息进行预处理得到对应的预处理文本信息；文本编码信息获取单元，用于根据所述转换词典对所述预处理文本信息中每一文本段所包含的字符进行转换得到对应的文本编码信息。纠错编码序列获取单元，用于将所述文本编码信息中与每一所述文本段对应的编码序列依次输入所述纠错神经网络得到对应的纠错编码序列。序列逆转换单元，用于根据所述转换词典对每一所述纠错编码序列进行逆转换得到对应的纠错文本信息。

在一具体实施例中，所述预处理文本信息获取单元包括子单元：有效文本信息获取单元，用于对所述初始文本信息及所述手写体文本信息中无效字符进行滤除，得到对应的有效文本信息；有效文本信息分段单元，用于根据所述初始文本信息及所述手写体文本信息中包含的文本语句对所述有效文本信息进行分段，得到包含多个文本段的预处理文本信息。

文本要素信息获取单元160，用于根据预置的要素提取规则从所述纠错文本信息中提取得到对应的文本要素信息。

在一具体实施例中，所述文本要素信息获取单元160包括子单元：要素字段定位单元，用于根据所述要素映射表中每一要素所映射的要素标签定位所述纠错文本信息与每一所述要素对应的要素字段；检验结果获取单元，用于根据所述要素检验式对与每一所述要素对应的要素字段进行检验，以得到是否通过的检验结果。文本要素信息确定单元，用于获取检验结果为通过的所述要素字段并确定为与所述纠错文本信息对应的文本要素信息。

在本发明实施例所提供的基于文本识别的要素信息提取装置应用上述基于文本识别的要素信息提取方法，对初始文档进行分页识别以获取文档信息页，根据初始文本识别模型从文档信息页中获取初始文本信息，若文档信息页中包含未识别文档内容，根据手写体识别模型对未识别内容进行识别得到手写体文本信息，根据文本纠错模型对初始文本信息及手写体文本信息进行文本纠错处理得到纠错文本信息并根据要素提取规则从中提取文本要素信息。通过上述方法，可通过初始文本识别模型及手写体识别模型相结合进行文本识别得到文本信息，并进行文本纠错处理后提取对应的文本要素信息，大幅提升了进行文本要素信息提取的灵活性，且提高了进行要素信息提取的适用范围，基于文本纠错处理可大幅提高获取文本要素信息的准确性，从而实现了准确、高效地从文档中提取得到要素信息。

上述基于文本识别的要素信息提取装置可以实现为计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9，图9是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行基于文本识别的要素信息提取方法以对初始文档进行文本识别并提取得到文本要素信息的用户终端或管理服务器。

参阅图9，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。

该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于文本识别的要素信息提取方法，其中，存储介质503可以为易失性的存储介质或非易失性的存储介质。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于文本识别的要素信息提取方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图9中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现上述的基于文本识别的要素信息提取方法中对应的功能。

本领域技术人员可以理解，图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图9所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元 (CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路 (Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为易失性或非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现上述的基于文本识别的要素信息提取方法中所包含的步骤。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备 ( 可以是个人计算机，服务器，或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U 盘、移动硬盘、只读存储器 (ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于文本识别的要素信息提取方法，其特征在于，所述方法包括：

判断所述文档信息页中是否包含未识别文档内容；

根据预置的要素提取规则从所述纠错文本信息中提取得到对应的文本要素信息；

所述初始文本识别模型包括特征向量提取公式、字符数据库及匹配度阈值，所述根据预置的初始文本识别模型对每一所述文档信息页中包含的文本内容进行识别得到对应的初始文本信息，包括：

从每一所述文档信息页中获取每一段落对应的文字笔画；所述文字笔画为从每一所述段落中获取到的代表性笔画；

根据所述特征向量提取公式计算与每一所述段落的文字笔画对应的笔画特征向量；

计算每一所述段落的笔画特征向量与所述字符数据库每一字体之间的字体匹配度；所述字体匹配度的计算公式为：

；其中，N为笔画特征向量的总数，Z_i=(z_1i，z_2i……z_9i)为第i个笔画特征向量，R_i=(r_1i，r_2i…… r_9i)为任一所述字体中第i个字体笔画特征；

判断与所述笔画特征向量之间字体匹配度大于所述匹配度阈值的字体数量是否大于零；

若与所述笔画特征向量之间匹配度大于所述匹配度阈值的字体数量大于零，获取与所述笔画特征向量之间匹配度最高的字体作为与每一所述笔画特征向量相匹配的目标字体；

若与所述笔画特征向量之间匹配度大于所述匹配度阈值的字体数量不大于零，将与所述笔画特征向量对应的段落确定为未识别文档内容；

根据所述字符数据库中与每一所述笔画特征向量对应的目标字体的字符模板，对与每一所述笔画特征向量对应的段落包含的文本内容进行识别，得到对应的初始文本信息。

2.根据权利要求1所述的基于文本识别的要素信息提取方法，其特征在于，所述对所述初始文档进行分页识别以获取其中的文档信息页，包括：

判断所述初始文档中每一页文档的文字方向是否与预置的标准文字方向相同；

若所述文档的文字方向不与所述标准文字方向相同，对所述文档进行旋转以使文字方向与所述标准文字方向相同；

判断所述标准文字方向对应的所述文档中的文字占比是否大于预置的占比阈值；

获取文字占比大于所述占比阈值的文档确定为与所述初始文档对应的文档信息页。

3.根据权利要求1所述的基于文本识别的要素信息提取方法，其特征在于，所述手写体识别模型包括所述特征向量提取公式及手写字符集合，所述根据预置的手写体识别模型对所述未识别文档内容进行识别得到对应的手写体文本信息，包括：

根据所述特征向量提取公式计算所述未识别文档中每一字符对应的字符特征向量；

计算每一所述字符特征向量与所述手写字符集合中每一手写字符对应特征向量之间的匹配度；

获取与每一所述字符特征向量之间匹配度最高的一个手写字符并进行顺序组合，得到与所述未识别文档内容对应的手写体文本信息。

4.根据权利要求1所述的基于文本识别的要素信息提取方法，其特征在于，所述文本纠错模型包括转换词典及纠错神经网络，所述根据预置的文本纠错模型对所述初始文本信息及所述手写体文本信息进行文本纠错处理，得到对应的纠错文本信息，包括：

对所述初始文本信息及所述手写体文本信息进行预处理得到对应的预处理文本信息；

根据所述转换词典对所述预处理文本信息中每一文本段所包含的字符进行转换得到对应的文本编码信息；

将所述文本编码信息中与每一所述文本段对应的编码序列依次输入所述纠错神经网络得到对应的纠错编码序列；

根据所述转换词典对每一所述纠错编码序列进行逆转换得到对应的纠错文本信息。

5.根据权利要求4所述的基于文本识别的要素信息提取方法，其特征在于，所述对所述初始文本信息及所述手写体文本信息进行预处理得到对应的预处理文本信息，包括：

对所述初始文本信息及所述手写体文本信息中无效字符进行滤除，得到对应的有效文本信息；

根据所述初始文本信息及所述手写体文本信息中包含的文本语句对所述有效文本信息进行分段，得到包含多个文本段的预处理文本信息。

6.根据权利要求1所述的基于文本识别的要素信息提取方法，其特征在于，所述要素提取规则包括要素映射表及要素检验式，所述根据预置的要素提取规则从所述纠错文本信息中提取得到对应的文本要素信息，包括：

根据所述要素映射表中每一要素所映射的要素标签定位所述纠错文本信息与每一所述要素对应的要素字段；

根据所述要素检验式对与每一所述要素对应的要素字段进行检验，以得到是否通过的检验结果；

获取检验结果为通过的所述要素字段并确定为与所述纠错文本信息对应的文本要素信息。

7.一种基于文本识别的要素信息提取装置，其特征在于，所述装置包括：

文本要素信息获取单元，用于根据预置的要素提取规则从所述纠错文本信息中提取得到对应的文本要素信息；

8.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于文本识别的要素信息提取方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的基于文本识别的要素信息提取方法。