CN117115844B

CN117115844B - 用于实体文档的智能数据录入方法

Info

Publication number: CN117115844B
Application number: CN202311354296.2A
Authority: CN
Inventors: 王汉林; 王平平; 杨鹏飞
Original assignee: Anhui Keda Chuangzhixin Technology Co ltd
Current assignee: Anhui Keda Chuangzhixin Technology Co ltd
Priority date: 2023-10-19
Filing date: 2023-10-19
Publication date: 2024-01-12
Anticipated expiration: 2043-10-19
Also published as: CN117115844A

Abstract

本发明提供一种用于实体文档的智能数据录入方法，涉及图像识别领域。本发明先基于实体文档图像获取各个段落的文字信息，并基于段落的文字信息和实体文档图像再获取各个段落的格式信息，最终分别判断各个段落的文字信息和格式信息是否已存储至数据库，仅将未存储的数据存储至数据库，已有的数据通过共享的方式来减少存储空间的占用。

Description

用于实体文档的智能数据录入方法

技术领域

本发明涉及图像识别技术领域，具体涉及一种用于实体文档的智能数据录入方法。

背景技术

目前针对实体文档（传真件、打印件等）的录入一般采用摄像头采集文档图像，并配合OCR技术来存储包含文字信息的文档图像的方式来实现实体文档的数字化存储。

但上述方法在存储文档图像时，往往同时会录入其他非文档数据，使得数据存储占用效率较低，同时也会损失一些文档的格式信息。

基于此，需要一种高效准确的实体文档录入技术来解决上述技术问题。

发明内容

（一）解决的技术问题

针对现有技术的不足，本发明提供了一种用于实体文档的智能数据录入方法，解决了传统实体文档录入时，存储占用高，冗余、无用信息多的问题。

（二）技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种用于实体文档的智能数据录入方法，该方法包括：

获取实体文档图像；

基于所述实体文档图像，获取所述实体文档图像中各个段落的文字信息；

基于段落的文字信息和实体文档图像，获取各个段落的格式信息；

判断各个段落的文字信息和格式信息是否已存储至数据库；

若未存储，则将文字信息和段落信息段落格式信息存储至共享数据库，并与该实体文档的其他段落对应的文字信息和段落信息段落格式信息进行关联；

若已存储，则与该实体文档的其他段落对应的文字信息和段落信息段落格式信息进行关联。

进一步的，所述段落的格式信息包括：字体、行间距和段落间距。

进一步的，所述基于段落的文字信息和实体文档图像，获取各个段落的格式信息，包括：

基于实体文档图像，识别各个段落的字体；

基于字体信息，获取各个段落的行间距；

基于字体信息，获取各个段落间的段落间距。

进一步的，所述基于实体文档图像，识别各个段落的字体，包括：

获取标准字体图像库；所述标准字体图像库包括至少一个单字的不同字体下的标准字体图像；

从实体文档图像中截取至少一个单字图像；

对所述单字图像进行图像增强处理；

获取所述单字图像与各个标准字体图像进行相似度计算，将相似度最大的作为段落的字体。

进一步的，所述基于字体信息，获取各个段落的行间距，包括：

获取字体对应的第一字符集和第二字符集，并获取第一字符集和第二字符集的交集，得到最优字符集；所述第一字符集中存储有预先筛选的第一类特定字符，所述第一类特定字符为字符的顶端与字符显示区域的顶端相接触；所述第二字符集中存储有预先筛选的第二类特定字符，所述第二类特定字符为字符的底端与字符显示区域的底端相接触；

基于第n个段落的文字信息和最优字符集，确定文字排布基准线，并基于文字排布基准线构建二维坐标系；

判断第n个段落中第k行和第k+1行中是否均存在属于最优字符集的字符，若是，则将属于最优字符集的字符作为第二参考字符；

识别实体文档图像中第二参考字符的角点信息；

基于所述二维坐标系，获取第k行中第二参考字符的底端角点y轴坐标值，并获取第k+1行中第二参考字符的顶端角点y轴坐标值，并计算两者的差值作为行间距差值；并基于所述行间距差值，得到对应的行间距信息；

其中，n=1,2,...,N，表示实体文档中共有N个段落；

k=1,2,...,K，表示该段落共有K行字符。

进一步的，所述基于第n个段落的文字信息和最优字符集，确定文字排布基准线，并基于文字排布基准线构建二维坐标系，包括：

判断第k行中属于最优字符集的字符数量是否大于2，若是，则将属于最优字符集的字符作为第一参考字符；

以第一参考字符为基准对实体文档图像进行放大和图像增强后，对所述第一参考字符进行角点提取；

获取各个第一参考字符中位于最底端的角点作为拟合点进行直线拟合，得到文字排布基准线；

以所述文字排布基准线为x轴，以垂直与文字排布基准线的方向为y轴，构建二维坐标系。

进一步的，所述基于字体信息，获取各个段落间的段落间距，包括：

判断第n个段落的最后一行和第n+1个段落的首行中是否均存在属于最优字符集的字符，若是，则将属于最优字符集的字符作为第三参考字符；

识别实体文档图像中第三参考字符的角点；

基于所述二维坐标系，获取第n个段落的最后一行中的第三参考字符的底端角点y轴坐标值；并获取第n+1个段落的首行中的第三参考字符的顶端角点y轴坐标值，并计算两者的差值作为段落间距差值；并基于所述段落间距差值，得到对应的段落间距。

（三）有益效果

本发明先基于实体文档图像获取各个段落的文字信息，并基于段落的文字信息和实体文档图像再获取各个段落的格式信息，最终分别判断各个段落的文字信息和格式信息是否已存储至数据库，仅将未存储的数据存储至数据库，已有的数据通过共享的方式来减少存储空间的占用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的流程图；

图2为本发明实施例获取字体的流程图；

图3为本发明实施例获取段落的行间距的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种用于实体文档的智能数据录入方法，解决了传统实体文档录入时，存储占用高，冗余、无用信息多的问题。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提出了一种用于实体文档的智能数据录入方法，参见图1，该方法包括：

获取实体文档图像；

判断各个段落的文字信息和格式信息是否已存储至数据库；

相比于现有技术，本实施的有益效果为：

本发明实施例先基于实体文档图像获取各个段落的文字信息，并基于段落的文字信息和实体文档图像再获取各个段落的格式信息，最终分别判断各个段落的文字信息和格式信息是否已存储至数据库，仅将未存储的数据存储至数据库，已有的数据通过共享的方式来减少存储空间的占用。

下面以纯文本的word文件的实体打印文档为例，对本发明的实现过程进行详细说明：所述word文件为文字稿件，共有N个段落，每个段落至少包含一行文字。

S1、获取实体文档图像。

在具体实施时，可以采用现有的实体文档图像采集系统来获取高清的实体文档图像；所述实体文档图像采集系统具体包括一个实体文档放置台面，以及台面上方的高清摄像头以及补光设备，将打印文档放置在台面上，通过上方摄像头即可拍摄得到清晰的实体文档图像。

S2、基于所述实体文档图像，获取所述实体文档图像中各个段落的文字信息。

在具体实施时，利用文字识别技术对实体文档图像进行文字提取，得到识别实体文档图像中各个段落的文字内容，至少包括如下信息：

其中，表示第n个段落的第k行的第m个字符的可存储信息；

n=1,2,...,N，表示实体文档中共有N个段落；

k=1,2,...,K，表示该段落共有K行字符；

m=1,2,...,M，表示表示该行共有M个字符；

进一步的，每行的字符数M可以设定为一个定值，由人工预先设定，且段落标记或每行的首个字符为空格也可设定为特定的存储信息，以便段落的识别；

S3、基于段落的文字信息和实体文档图像，获取各个段落的格式信息。

在具体实施时，传统的图像存储的方式容易丢失字体信息、行间距信息和段落间距信息，因此本实施例的格式信息包括字体、行间距和段落间距；具体可以采用如下步骤获取：

S3.1、基于实体文档图像，识别第n个段落的字体；

在具体实施时，如图2所示，字体的识别可以按照如下S3.1.1~S3.1.4的步骤实现：

S3.1.1、获取标准字体图像库；

所述标准字体图像库包括至少一个单字的不同字体下的标准字体图像；

S3.1.2、从实体文档图像中截取至少一个单字图像；

S3.1.3、对所述单字图像进行图像增强处理，以获得更清晰的单字图像；

具体可采用超分辨率、对比度增强、图像二值化等算法结合实现图像增强；选择的单字数量可根据标准字体图像库中存储的字体和单字数量结合实际需要进行设置；

S3.1.4、获取所述单字图像与各个标准字体图像进行相似度计算，将相似度最大的作为第n个段落的字体。

S3.2、基于字体信息，获取段落的行间距。

在具体实施时，如图3所示，行间距的识别可以按照如下S3.2.1~S3.2.5的步骤实现：

S3.2.1、获取字体对应的第一字符集和第二字符集，并获取第一字符集和第二字符集的交集，得到最优字符集；

其中，每种字体对应的第一字符集和第二字符集可能存在差异，所述第一字符集中存储有预先筛选的第一类特定字符，所述第一类特定字符为字符的顶端与字符显示区域的顶端相接触；所述第二字符集中存储有预先筛选的第二类特定字符，所述第二类特定字符为字符的底端与字符显示区域的底端相接触；由人工预先输入得到。

例如：假设在仿宋字体下，字符的显示区域高度为W*H的矩形区域，则第一类特定字符至少存在一个点与显示区域的顶端接触/几乎接触（可视为接触）；具体的，可以是含有“宀”、“扌”、“亻”这类偏旁的文字，例如，“宀”的顶端与显示区域的顶端接触。而最优字符集中的字符则是同时满足与字符显示区域的顶端和底端相接触，例如，“扌”的顶端与底端均与显示区域接触。通过对第一字符集和第二字符集中元素的补充，最优字符集的数量也会逐渐增多，适用范围也会更广。

S3.2.2、基于第n个段落的文字信息和最优字符集，确定文字排布基准线，并基于文字排布基准线构建二维坐标系；

在具体实施时，由于拍摄的实体文档图像通常不会是标准姿态，可能会出现倾斜的现象，因此需要先确定文字排布基准线（类似于文字的下划线），并基于文字排布基准线构建二维坐标系，具体可通过如下S3.2.2.1~S3.2.2.4步骤实现：

S3.2.2.1、判断第k行中属于最优字符集的字符数量是否大于2，若是，则将属于最优字符集的字符作为第一参考字符；若否，则继续下一行的判断；直至找到至少一行满足条件即可，如果需要也可使用多行来进行相互校验；

S3.2.2.2、以第一参考字符为基准对实体文档图像进行放大和图像增强（不旋转）后，对其中的第一参考字符进行角点提取；

S3.2.2.3、获取各个第一参考字符中位于最底端的角点作为拟合点进行直线拟合，得到文字排布基准线；

S3.2.2.4，以所述文字排布基准线为x轴，以垂直与文字排布基准线的方向为y轴，构建二维坐标系。

显然，除了可通过最优字符集实现以外，也可根据相同思路，以第一字符集和第二字符集为参考，来确定文字排布基准线；

S3.2.3、判断第n个段落中第k行和第k+1行中是否均存在属于最优字符集的字符，若是，则将属于最优字符集的字符作为第二参考字符；

S3.2.4、识别实体文档图像中第二参考字符的角点；

具体的，角点的识别可参考S3.2.2.2步骤中的方式获取；

S3.2.5、基于所述二维坐标系，获取第k行中第二参考字符的底端角点y轴坐标值，并获取第k+1行中第二参考字符的顶端角点y轴坐标值，并计算两者的差值作为行间距差值；并基于所述行间距差值，得到对应的行间距信息。

S3.3、基于字体信息，获取各个段落间的段落间距；

段落间距的获取方式与行间距类似，具体包括如下S3.3.1~S3.3.2的步骤：

S3.3.1、判断第n个段落的最后一行和第n+1个段落的首行中是否均存在属于最优字符集的字符，若是，则将属于最优字符集的字符作为第三参考字符；

S3.3.2、识别实体文档图像中第三参考字符的角点；

S3.3.3、基于所述二维坐标系，获取第n个段落的最后一行中的第三参考字符的底端角点y轴坐标值；并获取第n+1个段落的首行中的第三参考字符的顶端角点y轴坐标值，并计算两者的差值作为段落间距差值；并基于所述段落间距差值，得到对应的段落间距。

进一步的，如果在相邻两个段落中未有找到最优字符集的字符，还可进一步通过第一字符集和第二字符集来选择对应的字符，进而获得段落间距；此外，也可通过采用其他相邻段落的段落间距作为预测值。

S4、判断各个段落的文字信息和格式信息是否已存储至数据库；若未存储，则将文字信息和段落信息段落格式信息存储至共享数据库，并与该实体文档的其他段落对应的文字信息和段落信息段落格式信息进行关联；若已存储，则与该实体文档的其他段落对应的文字信息和段落信息段落格式信息进行关联。

在具体实施时，文字信息和格式信息可以相互独立的存储，如果段落的文字信息相同，则只需要存储一份文字信息，有效提高数据存储空间的利用效率，需要查看时通过关联关系即时生成数字化文档即可，其次，录入数据仅为重要的文字、格式信息，不会有其他冗余、无用信息被录入，进一步提高存储空间利用率。

综上所述，与现有技术相比，具备以下有益效果：

1、本发明先基于实体文档图像获取各个段落的文字信息，并基于段落的文字信息和实体文档图像再获取各个段落的格式信息，最终分别判断各个段落的文字信息和格式信息是否已存储至数据库，仅将未存储的数据存储至数据库，已有的数据通过共享的方式来减少存储空间的占用。

2、本发明还进一步提供了一种基于实体文档图像的字体、行间距、段落间距的识别方法，以便在对实体文档数据录入时，保留更多的有效信息，去除其他冗余、无用信息。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于实体文档的智能数据录入方法，其特征在于，该方法包括：

获取实体文档图像；

判断各个段落的文字信息和格式信息是否已存储至数据库；

若未存储，则将文字信息和段落格式信息存储至共享数据库，并与该实体文档的其他段落对应的文字信息和段落格式信息进行关联；

若已存储，则与该实体文档的其他段落对应的文字信息和段落格式信息进行关联；

其中，所述段落的格式信息包括：字体、行间距和段落间距；

所述基于段落的文字信息和实体文档图像，获取各个段落的格式信息，包括：

基于实体文档图像，识别各个段落的字体；

基于字体信息，获取各个段落的行间距；

基于字体信息，获取各个段落间的段落间距；

所述基于实体文档图像，识别各个段落的字体，包括：

从实体文档图像中截取至少一个单字图像；

对所述单字图像进行图像增强处理；

获取所述单字图像与各个标准字体图像进行相似度计算，将相似度最大的作为段落的字体；

所述基于字体信息，获取各个段落的行间距，包括：

识别实体文档图像中第二参考字符的角点信息；

其中，n=1,2,...,N，表示实体文档中共有N个段落；

k=1,2,...,K，表示该段落共有K行字符；

所述基于第n个段落的文字信息和最优字符集，确定文字排布基准线，并基于文字排布基准线构建二维坐标系，包括：

以所述文字排布基准线为x轴，以垂直与文字排布基准线的方向为y轴，构建二维坐标系；

所述基于字体信息，获取各个段落间的段落间距，包括：

识别实体文档图像中第三参考字符的角点；