CN105590111B

CN105590111B - 用于识别电子文件中的专用区域的方法

Info

Publication number: CN105590111B
Application number: CN201510592150.0A
Authority: CN
Inventors: 冯亮; 尹亚伟; 费志军
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2015-09-17
Filing date: 2015-09-17
Publication date: 2019-05-10
Anticipated expiration: 2035-09-17
Also published as: CN105590111A

Abstract

本发明提出了用于识别电子文件中的专用区域的方法，所述方法包括：接收上传的目标电子文件；根据预设的关键字列表搜索所述目标电子文件中的关键字，并确定搜索出的关键字的大小和位置；基于所确定的每个关键字的大小和位置限定与其相关联的候选专用区域。本发明所公开的用于识别电子文件中的专用区域的方法具有高的处理效率和准确性。

Description

用于识别电子文件中的专用区域的方法

技术领域

本发明涉及用于识别专用区域的方法，更具体地，涉及用于识别电子文件中的专用区域的方法。

背景技术

目前，随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富，识别电子文件（例如金融领域中的电子合同文本）中的专用区域（例如，需要填写的区域，诸如签名区域）变得越来越重要。

在现有的技术方案中，用户需要在提交电子文件后手动地逐一标识出各个专用区域（例如，需要填写的区域，诸如签名区域），以供后续处理。

上述现有技术存在如下问题：由于需要手动地逐一标识出各个专用区域，故效率较低，并且易于出错。

因此，存在如下需求：提供具有高的处理效率和准确性的用于识别电子文件中的专用区域的方法。

发明内容

为了解决上述现有技术方案所存在的问题，本发明提出了具有高的处理效率和准确性的用于识别电子文件中的专用区域的方法。

本发明的目的是通过以下技术方案实现的：

一种用于识别电子文件中的专用区域的方法，所述用于识别电子文件中的专用区域的方法包括下列步骤：

（A1）接收上传的目标电子文件；

（A2）根据预设的关键字列表搜索所述目标电子文件中的关键字，并确定搜索出的关键字的大小和位置；

（A3）基于所确定的每个关键字的大小和位置限定与其相关联的候选专用区域。

在上面所公开的方案中，优选地，所述步骤（A2）进一步包括：确定所述目标电子文件的格式，并且使用与所述目标电子文件的格式相匹配的分析工具搜索所述目标电子文件中的关键字。

在上面所公开的方案中，优选地，所述步骤（A2）进一步包括：在搜索到关键字后，以所述电子文件的当前页的最左下角为坐标系的原点记录该关键字的最后一个字c的右上角坐标（x_kl,y_kt）和右下角坐标(x_kl,y_kb)，由此所述字c的高度h为y_kt-y_kb。

在上面所公开的方案中，优选地，所述步骤（A2）进一步包括：针对每个搜索出的关键字，以如下方式通过逐步扫描所述关键字后的区域的内容动态地识别所述电子文件的排版格式来确定和划分与所述关键字相关联的专用区域：

（1）从所述字c位置开始逐步向右移动扫描，每步移动的距离为h/t_step，其中t_step是移动宽度因子，在每步移动扫描完成之后判断当前位置至上一次停止移动扫描的位置之间的范围内是否存在字符和标点符号；

（2）如果在所述范围内存在竖线，则计算该竖线的高度，如果该竖线的高度小于h，则确定其为噪音，否则，确定其为表格竖线，并且记录该竖线的横坐标位置x_vl，随后再次逐步向右移动扫描，并且如果再次移动扫描得到的竖线的高度大于等于h,则再次记录该竖线的横坐标的位置x_vr，并且将候选专用区域划定为四个顶点(2*x_vl- x_kl, y_kt)、(2*x_vl- x_kl,y_kb)、(x_vr-x_vl+ x_kl, y_kt)和(x_vr-x_vl+ x_kl, y_kb)所构成的矩形区域；

（3）如果在所述范围内存在字符，并且之前没有扫描到竖线，则记录该字符的左上角的横坐标位置x_kr,并将候选专用区域划定为四个顶点(x_kl+w, y_kt)、(x_kl+w, y_kb)、(x_kr-w,y_kt)和(x_kr-w, y_kb)构成的矩形区域，其中w为字符间隔宽度因子；

（4）如果移动扫描持续至页面右边边缘，并且之前没有扫描到字符，则将候选专用区域划定为四个顶点(x_kl+w, y_kt)、(x_kl+w, y_kb)、(x_r-w, y_kt)和(x_r-w, y_kb)构成的矩形区域，其中x_r是文档右边边缘的横坐标位置，w是字符间隔宽度因子；

（5）计算所述候选专用区域的矩形的长度和宽度，并计算长宽比，如果计算出的长宽比低于预定的阀值th_p，则判断此候选专用区域是不适合的专用区域，并放弃该区域，而如果该候选专用区域的长宽比低于所述预定的阀值th_p，则进一步扫描以四个顶点(0, y_kb+vs)、(0, 2*y_kb+vs-y_kt)、(x_r-w, y_kb+vs)和(x_r-w, 2*y_kb+vs-y_kt)构成的矩形区域，如果该区域不存在字符，则划定该区域为候选专用区域，其中vs是所述电子文件的行间距。

在上面所公开的方案中，优选地，所述方法进一步包括：（A4）将所确定的候选专用区域通过显示器呈现至用户，以致使得用户能够对所述候选专用区域进行确认、和/或修改、和/或添加、和/或删除操作，并提交和保存最终结果。

本发明所公开的用于识别电子文件中的专用区域的方法具有下列优点：由于能够自动地识别与特定关键字相关联的候选专用区域，故显著地提高了电子文件的处理效率和准确性。

附图说明

结合附图，本发明的技术特征以及优点将会被本领域技术人员更好地理解，其中：

图1是根据本发明的实施例的用于识别电子文件中的专用区域的方法的流程图。

具体实施方式

图1是根据本发明的实施例的用于识别电子文件中的专用区域的方法的流程图。如图1所示，本发明所公开的用于识别电子文件中的专用区域的方法包括下列步骤：（A1）接收上传的目标电子文件；（A2）根据预设的关键字列表（例如，签名栏的区域关键字包括：“签名：”、“用户名：”等等，日期栏的区域关键字包括“日期：”、“年月日：”等等）搜索所述目标电子文件中的关键字，并确定搜索出的关键字的大小和位置；（A3）基于所确定的每个关键字的大小和位置限定与其相关联的候选专用区域。

优选地，在本发明所公开的用于识别电子文件中的专用区域的方法中，所述步骤（A2）进一步包括：确定所述目标电子文件的格式，并且使用与所述目标电子文件的格式相匹配的分析工具搜索所述目标电子文件中的关键字（例如，针对Word和PDF文档时，采用相关文档格式的开发包，针对其他图片格式时，采用OCR工具）。

优选地，在本发明所公开的用于识别电子文件中的专用区域的方法中，所述步骤（A2）进一步包括：在搜索到关键字后，以所述电子文件的当前页的最左下角为坐标系的原点记录该关键字的最后一个字c的右上角坐标（x_kl,y_kt）和右下角坐标(x_kl,y_kb)，由此所述字c的高度h为y_kt-y_kb。

优选地，在本发明所公开的用于识别电子文件中的专用区域的方法中，所述步骤（A2）进一步包括：针对每个搜索出的关键字，以如下方式通过逐步扫描所述关键字后的区域的内容动态地识别所述电子文件的排版格式（例如，待确定的专用区域位于表格、下划线以及换行处等等）来确定和划分与所述关键字相关联的专用区域：（1）从所述字c位置开始逐步向右移动扫描，每步移动的距离为h/t_step，其中t_step是移动宽度因子（其值从0到无穷大，并且数值越大，移动的宽度越小，并且越是能够准确定位字符的位置，同时计算量也越大，反之亦然），在每步移动扫描完成之后判断当前位置至上一次停止移动扫描的位置之间的范围内是否存在字符和标点符号；（2）如果在所述范围内存在竖线，则计算该竖线的高度，如果该竖线的高度小于h，则确定其为噪音，否则，确定其为表格竖线，并且记录该竖线的横坐标位置x_vl，随后再次逐步向右移动扫描，并且如果再次移动扫描得到的竖线的高度大于等于h,则再次记录该竖线的横坐标的位置x_vr，并且将候选专用区域划定为四个顶点(2*x_vl- x_kl, y_kt)、(2*x_vl- x_kl, y_kb)、(x_vr-x_vl+ x_kl, y_kt)和(x_vr-x_vl+ x_kl, y_kb)所构成的矩形区域；（3）如果在所述范围内存在字符，并且之前没有扫描到竖线，则记录该字符的左上角的横坐标位置x_kr,并将候选专用区域划定为四个顶点(x_kl+w, y_kt)、(x_kl+w, y_kb)、(x_kr-w,y_kt)和(x_kr-w, y_kb)构成的矩形区域，其中w为字符间隔宽度因子（其值从0到(x_kr- x_kl)/2，数值越大，则表示间隔越大，专用区域越小，反之亦然，示例性地，系统在默认情况下会根据之前扫描获得的文本中连续字符的间隔距离设置w等于字符间隔距离除以2）；（4）如果移动扫描持续至页面右边边缘，并且之前没有扫描到字符，则将候选专用区域划定为四个顶点(x_kl+w, y_kt)、(x_kl+w, y_kb)、(x_r-w, y_kt)和(x_r-w, y_kb)构成的矩形区域，其中x_r是文档右边边缘的横坐标位置，w是字符间隔宽度因子；（5）计算所述候选专用区域的矩形的长度和宽度，并计算长宽比，如果计算出的长宽比低于预定的阀值th_p（其由操作者根据实际需求预先设定），则判断此候选专用区域是不适合的专用区域（例如不适合用户填写），并放弃该区域，而如果该候选专用区域的长宽比低于所述预定的阀值th_p，则进一步扫描以四个顶点(0, y_kb+vs)、(0, 2*y_kb+vs-y_kt)、(x_r-w, y_kb+vs)和(x_r-w, 2*y_kb+vs-y_kt)构成的矩形区域，如果该区域不存在字符，则划定该区域为候选专用区域，其中vs是所述电子文件的行间距。

优选地，本发明所公开的用于识别电子文件中的专用区域的方法进一步包括：（A4）将所确定的候选专用区域通过显示器呈现至用户，以致使得用户能够对所述候选专用区域进行确认、和/或修改、和/或添加、和/或删除操作，并提交和保存最终结果。

由上可见，本发明所公开的用于识别电子文件中的专用区域的方法具有下列优点：由于能够自动地识别与特定关键字相关联的候选专用区域，故显著地提高了电子文件的处理效率和准确性。

尽管本发明是通过上述的优选实施方式进行描述的，但是其实现形式并不局限于上述的实施方式。应该认识到：在不脱离本发明主旨和范围的情况下，本领域技术人员可以对本发明做出不同的变化和修改。

Claims

1.一种用于识别电子文件中的专用区域的方法，所述用于识别电子文件中的专用区域的方法包括下列步骤：

（A1）接收上传的目标电子文件；

（A3）基于所确定的每个关键字的大小和位置限定与其相关联的候选专用区域；以及

（A4）将所确定的候选专用区域通过显示器呈现至用户，使得用户能够对所述候选专用区域进行确认、和/或修改、和/或添加、和/或删除操作。

2.根据权利要求1所述的用于识别电子文件中的专用区域的方法，其特征在于，所述步骤（A2）进一步包括：确定所述目标电子文件的格式，并且使用与所述目标电子文件的格式相匹配的分析工具搜索所述目标电子文件中的关键字。

3.根据权利要求2所述的用于识别电子文件中的专用区域的方法，其特征在于，所述步骤（A2）进一步包括：在搜索到关键字后，以所述电子文件的当前页的最左下角为坐标系的原点记录该关键字的最后一个字c的右上角坐标（x_kl,y_kt）和右下角坐标(x_kl,y_kb)，由此所述字c的高度h为y_kt-y_kb。

4.根据权利要求3所述的用于识别电子文件中的专用区域的方法，其特征在于，所述步骤（A2）进一步包括：针对每个搜索出的关键字，以如下方式通过逐步扫描所述关键字后的区域的内容动态地识别所述电子文件的排版格式来确定和划分与所述关键字相关联的专用区域：

（2）如果在所述范围内存在竖线，则计算该竖线的高度，如果该竖线的高度小于h，则确定其为噪音，否则，确定其为表格竖线，并且记录该竖线的横坐标位置x_vl，随后再次逐步向右移动扫描，并且如果再次移动扫描得到的竖线的高度大于等于h,则再次记录该竖线的横坐标的位置x_vr，并且将候选专用区域划定为四个顶点(2*x_vl- x_kl, y_kt)、(2*x_vl- x_kl, y_kb)、(x_vr-x_vl+ x_kl, y_kt)和(x_vr-x_vl+ x_kl, y_kb)所构成的矩形区域；

（3）如果在所述范围内存在字符，并且之前没有扫描到竖线，则记录该字符的左上角的横坐标位置x_kr,并将候选专用区域划定为四个顶点(x_kl+w, y_kt)、(x_kl+w, y_kb)、(x_kr-w, y_kt)和(x_kr-w, y_kb)构成的矩形区域，其中w为字符间隔宽度因子；

5.根据权利要求4所述的用于识别电子文件中的专用区域的方法，其特征在于，所述步骤（A4）进一步包括：提交和保存最终结果。