CN105590111B - 用于识别电子文件中的专用区域的方法 - Google Patents
用于识别电子文件中的专用区域的方法 Download PDFInfo
- Publication number
- CN105590111B CN105590111B CN201510592150.0A CN201510592150A CN105590111B CN 105590111 B CN105590111 B CN 105590111B CN 201510592150 A CN201510592150 A CN 201510592150A CN 105590111 B CN105590111 B CN 105590111B
- Authority
- CN
- China
- Prior art keywords
- reserved area
- keyword
- electronic document
- candidate
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Document Processing Apparatus (AREA)
- Character Input (AREA)
Abstract
本发明提出了用于识别电子文件中的专用区域的方法,所述方法包括:接收上传的目标电子文件;根据预设的关键字列表搜索所述目标电子文件中的关键字,并确定搜索出的关键字的大小和位置;基于所确定的每个关键字的大小和位置限定与其相关联的候选专用区域。本发明所公开的用于识别电子文件中的专用区域的方法具有高的处理效率和准确性。
Description
技术领域
本发明涉及用于识别专用区域的方法,更具体地,涉及用于识别电子文件中的专用区域的方法。
背景技术
目前,随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富,识别电子文件(例如金融领域中的电子合同文本)中的专用区域(例如,需要填写的区域,诸如签名区域)变得越来越重要。
在现有的技术方案中,用户需要在提交电子文件后手动地逐一标识出各个专用区域(例如,需要填写的区域,诸如签名区域),以供后续处理。
上述现有技术存在如下问题:由于需要手动地逐一标识出各个专用区域,故效率较低,并且易于出错。
因此,存在如下需求:提供具有高的处理效率和准确性的用于识别电子文件中的专用区域的方法。
发明内容
为了解决上述现有技术方案所存在的问题,本发明提出了具有高的处理效率和准确性的用于识别电子文件中的专用区域的方法。
本发明的目的是通过以下技术方案实现的:
一种用于识别电子文件中的专用区域的方法,所述用于识别电子文件中的专用区域的方法包括下列步骤:
(A1)接收上传的目标电子文件;
(A2)根据预设的关键字列表搜索所述目标电子文件中的关键字,并确定搜索出的关键字的大小和位置;
(A3)基于所确定的每个关键字的大小和位置限定与其相关联的候选专用区域。
在上面所公开的方案中,优选地,所述步骤(A2)进一步包括:确定所述目标电子文件的格式,并且使用与所述目标电子文件的格式相匹配的分析工具搜索所述目标电子文件中的关键字。
在上面所公开的方案中,优选地,所述步骤(A2)进一步包括:在搜索到关键字后,以所述电子文件的当前页的最左下角为坐标系的原点记录该关键字的最后一个字c的右上角坐标(xkl,ykt)和右下角坐标(xkl,ykb),由此所述字c的高度h为ykt-ykb。
在上面所公开的方案中,优选地,所述步骤(A2)进一步包括:针对每个搜索出的关键字,以如下方式通过逐步扫描所述关键字后的区域的内容动态地识别所述电子文件的排版格式来确定和划分与所述关键字相关联的专用区域:
(1)从所述字c位置开始逐步向右移动扫描,每步移动的距离为h/t_step,其中t_step是移动宽度因子,在每步移动扫描完成之后判断当前位置至上一次停止移动扫描的位置之间的范围内是否存在字符和标点符号;
(2)如果在所述范围内存在竖线,则计算该竖线的高度,如果该竖线的高度小于h,则确定其为噪音,否则,确定其为表格竖线,并且记录该竖线的横坐标位置xvl,随后再次逐步向右移动扫描,并且如果再次移动扫描得到的竖线的高度大于等于h,则再次记录该竖线的横坐标的位置xvr,并且将候选专用区域划定为四个顶点(2*xvl- xkl, ykt)、(2*xvl- xkl,ykb)、(xvr-xvl+ xkl, ykt)和(xvr-xvl+ xkl, ykb)所构成的矩形区域;
(3)如果在所述范围内存在字符,并且之前没有扫描到竖线,则记录该字符的左上角的横坐标位置xkr,并将候选专用区域划定为四个顶点(xkl+w, ykt)、(xkl+w, ykb)、(xkr-w,ykt)和(xkr-w, ykb)构成的矩形区域,其中w为字符间隔宽度因子;
(4)如果移动扫描持续至页面右边边缘,并且之前没有扫描到字符,则将候选专用区域划定为四个顶点(xkl+w, ykt)、(xkl+w, ykb)、(xr-w, ykt)和(xr-w, ykb)构成的矩形区域,其中xr是文档右边边缘的横坐标位置,w是字符间隔宽度因子;
(5)计算所述候选专用区域的矩形的长度和宽度,并计算长宽比,如果计算出的长宽比低于预定的阀值th_p,则判断此候选专用区域是不适合的专用区域,并放弃该区域,而如果该候选专用区域的长宽比低于所述预定的阀值th_p,则进一步扫描以四个顶点(0, ykb+vs)、(0, 2*ykb+vs-ykt)、(xr-w, ykb+vs)和(xr-w, 2*ykb+vs-ykt)构成的矩形区域,如果该区域不存在字符,则划定该区域为候选专用区域,其中vs是所述电子文件的行间距。
在上面所公开的方案中,优选地,所述方法进一步包括:(A4)将所确定的候选专用区域通过显示器呈现至用户,以致使得用户能够对所述候选专用区域进行确认、和/或修改、和/或添加、和/或删除操作,并提交和保存最终结果。
本发明所公开的用于识别电子文件中的专用区域的方法具有下列优点:由于能够自动地识别与特定关键字相关联的候选专用区域,故显著地提高了电子文件的处理效率和准确性。
附图说明
结合附图,本发明的技术特征以及优点将会被本领域技术人员更好地理解,其中:
图1是根据本发明的实施例的用于识别电子文件中的专用区域的方法的流程图。
具体实施方式
图1是根据本发明的实施例的用于识别电子文件中的专用区域的方法的流程图。如图1所示,本发明所公开的用于识别电子文件中的专用区域的方法包括下列步骤:(A1)接收上传的目标电子文件;(A2)根据预设的关键字列表(例如,签名栏的区域关键字包括:“签名:”、“用户名:”等等,日期栏的区域关键字包括“日期:”、“年月日:”等等)搜索所述目标电子文件中的关键字,并确定搜索出的关键字的大小和位置;(A3)基于所确定的每个关键字的大小和位置限定与其相关联的候选专用区域。
优选地,在本发明所公开的用于识别电子文件中的专用区域的方法中,所述步骤(A2)进一步包括:确定所述目标电子文件的格式,并且使用与所述目标电子文件的格式相匹配的分析工具搜索所述目标电子文件中的关键字(例如,针对Word和PDF文档时,采用相关文档格式的开发包,针对其他图片格式时,采用OCR工具)。
优选地,在本发明所公开的用于识别电子文件中的专用区域的方法中,所述步骤(A2)进一步包括:在搜索到关键字后,以所述电子文件的当前页的最左下角为坐标系的原点记录该关键字的最后一个字c的右上角坐标(xkl,ykt)和右下角坐标(xkl,ykb),由此所述字c的高度h为ykt-ykb。
优选地,在本发明所公开的用于识别电子文件中的专用区域的方法中,所述步骤(A2)进一步包括:针对每个搜索出的关键字,以如下方式通过逐步扫描所述关键字后的区域的内容动态地识别所述电子文件的排版格式(例如,待确定的专用区域位于表格、下划线以及换行处等等)来确定和划分与所述关键字相关联的专用区域:(1)从所述字c位置开始逐步向右移动扫描,每步移动的距离为h/t_step,其中t_step是移动宽度因子(其值从0到无穷大,并且数值越大,移动的宽度越小,并且越是能够准确定位字符的位置,同时计算量也越大,反之亦然),在每步移动扫描完成之后判断当前位置至上一次停止移动扫描的位置之间的范围内是否存在字符和标点符号;(2)如果在所述范围内存在竖线,则计算该竖线的高度,如果该竖线的高度小于h,则确定其为噪音,否则,确定其为表格竖线,并且记录该竖线的横坐标位置xvl,随后再次逐步向右移动扫描,并且如果再次移动扫描得到的竖线的高度大于等于h,则再次记录该竖线的横坐标的位置xvr,并且将候选专用区域划定为四个顶点(2*xvl- xkl, ykt)、(2*xvl- xkl, ykb)、(xvr-xvl+ xkl, ykt)和(xvr-xvl+ xkl, ykb)所构成的矩形区域;(3)如果在所述范围内存在字符,并且之前没有扫描到竖线,则记录该字符的左上角的横坐标位置xkr,并将候选专用区域划定为四个顶点(xkl+w, ykt)、(xkl+w, ykb)、(xkr-w,ykt)和(xkr-w, ykb)构成的矩形区域,其中w为字符间隔宽度因子(其值从0到(xkr- xkl)/2,数值越大,则表示间隔越大,专用区域越小,反之亦然,示例性地,系统在默认情况下会根据之前扫描获得的文本中连续字符的间隔距离设置w等于字符间隔距离除以2);(4)如果移动扫描持续至页面右边边缘,并且之前没有扫描到字符,则将候选专用区域划定为四个顶点(xkl+w, ykt)、(xkl+w, ykb)、(xr-w, ykt)和(xr-w, ykb)构成的矩形区域,其中xr是文档右边边缘的横坐标位置,w是字符间隔宽度因子;(5)计算所述候选专用区域的矩形的长度和宽度,并计算长宽比,如果计算出的长宽比低于预定的阀值th_p(其由操作者根据实际需求预先设定),则判断此候选专用区域是不适合的专用区域(例如不适合用户填写),并放弃该区域,而如果该候选专用区域的长宽比低于所述预定的阀值th_p,则进一步扫描以四个顶点(0, ykb+vs)、(0, 2*ykb+vs-ykt)、(xr-w, ykb+vs)和(xr-w, 2*ykb+vs-ykt)构成的矩形区域,如果该区域不存在字符,则划定该区域为候选专用区域,其中vs是所述电子文件的行间距。
优选地,本发明所公开的用于识别电子文件中的专用区域的方法进一步包括:(A4)将所确定的候选专用区域通过显示器呈现至用户,以致使得用户能够对所述候选专用区域进行确认、和/或修改、和/或添加、和/或删除操作,并提交和保存最终结果。
由上可见,本发明所公开的用于识别电子文件中的专用区域的方法具有下列优点:由于能够自动地识别与特定关键字相关联的候选专用区域,故显著地提高了电子文件的处理效率和准确性。
尽管本发明是通过上述的优选实施方式进行描述的,但是其实现形式并不局限于上述的实施方式。应该认识到:在不脱离本发明主旨和范围的情况下,本领域技术人员可以对本发明做出不同的变化和修改。
Claims (5)
1.一种用于识别电子文件中的专用区域的方法,所述用于识别电子文件中的专用区域的方法包括下列步骤:
(A1)接收上传的目标电子文件;
(A2)根据预设的关键字列表搜索所述目标电子文件中的关键字,并确定搜索出的关键字的大小和位置;
(A3)基于所确定的每个关键字的大小和位置限定与其相关联的候选专用区域;以及
(A4)将所确定的候选专用区域通过显示器呈现至用户,使得用户能够对所述候选专用区域进行确认、和/或修改、和/或添加、和/或删除操作。
2.根据权利要求1所述的用于识别电子文件中的专用区域的方法,其特征在于,所述步骤(A2)进一步包括:确定所述目标电子文件的格式,并且使用与所述目标电子文件的格式相匹配的分析工具搜索所述目标电子文件中的关键字。
3.根据权利要求2所述的用于识别电子文件中的专用区域的方法,其特征在于,所述步骤(A2)进一步包括:在搜索到关键字后,以所述电子文件的当前页的最左下角为坐标系的原点记录该关键字的最后一个字c的右上角坐标(xkl,ykt)和右下角坐标(xkl,ykb),由此所述字c的高度h为ykt-ykb。
4.根据权利要求3所述的用于识别电子文件中的专用区域的方法,其特征在于,所述步骤(A2)进一步包括:针对每个搜索出的关键字,以如下方式通过逐步扫描所述关键字后的区域的内容动态地识别所述电子文件的排版格式来确定和划分与所述关键字相关联的专用区域:
(1)从所述字c位置开始逐步向右移动扫描,每步移动的距离为h/t_step,其中t_step是移动宽度因子,在每步移动扫描完成之后判断当前位置至上一次停止移动扫描的位置之间的范围内是否存在字符和标点符号;
(2)如果在所述范围内存在竖线,则计算该竖线的高度,如果该竖线的高度小于h,则确定其为噪音,否则,确定其为表格竖线,并且记录该竖线的横坐标位置xvl,随后再次逐步向右移动扫描,并且如果再次移动扫描得到的竖线的高度大于等于h,则再次记录该竖线的横坐标的位置xvr,并且将候选专用区域划定为四个顶点(2*xvl- xkl, ykt)、(2*xvl- xkl, ykb)、(xvr-xvl+ xkl, ykt)和(xvr-xvl+ xkl, ykb)所构成的矩形区域;
(3)如果在所述范围内存在字符,并且之前没有扫描到竖线,则记录该字符的左上角的横坐标位置xkr,并将候选专用区域划定为四个顶点(xkl+w, ykt)、(xkl+w, ykb)、(xkr-w, ykt)和(xkr-w, ykb)构成的矩形区域,其中w为字符间隔宽度因子;
(4)如果移动扫描持续至页面右边边缘,并且之前没有扫描到字符,则将候选专用区域划定为四个顶点(xkl+w, ykt)、(xkl+w, ykb)、(xr-w, ykt)和(xr-w, ykb)构成的矩形区域,其中xr是文档右边边缘的横坐标位置,w是字符间隔宽度因子;
(5)计算所述候选专用区域的矩形的长度和宽度,并计算长宽比,如果计算出的长宽比低于预定的阀值th_p,则判断此候选专用区域是不适合的专用区域,并放弃该区域,而如果该候选专用区域的长宽比低于所述预定的阀值th_p,则进一步扫描以四个顶点(0, ykb+vs)、(0, 2*ykb+vs-ykt)、(xr-w, ykb+vs)和(xr-w, 2*ykb+vs-ykt)构成的矩形区域,如果该区域不存在字符,则划定该区域为候选专用区域,其中vs是所述电子文件的行间距。
5.根据权利要求4所述的用于识别电子文件中的专用区域的方法,其特征在于,所述步骤(A4)进一步包括:提交和保存最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510592150.0A CN105590111B (zh) | 2015-09-17 | 2015-09-17 | 用于识别电子文件中的专用区域的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510592150.0A CN105590111B (zh) | 2015-09-17 | 2015-09-17 | 用于识别电子文件中的专用区域的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105590111A CN105590111A (zh) | 2016-05-18 |
CN105590111B true CN105590111B (zh) | 2019-05-10 |
Family
ID=55929681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510592150.0A Active CN105590111B (zh) | 2015-09-17 | 2015-09-17 | 用于识别电子文件中的专用区域的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105590111B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154546A (zh) * | 2017-12-14 | 2018-06-12 | 北京酷我科技有限公司 | 一种移动设备上快速签名的方法 |
CN113553962A (zh) * | 2021-07-27 | 2021-10-26 | 未鲲(上海)科技服务有限公司 | 一种电子签章定位方法、装置、设备及存储介质 |
CN115879165A (zh) * | 2022-05-24 | 2023-03-31 | 北京中关村科金技术有限公司 | 一种电子签名方法、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003016281A (ja) * | 2001-07-02 | 2003-01-17 | Hitachi Ltd | 帳票認識方法 |
CN101627620A (zh) * | 2007-05-31 | 2010-01-13 | 株式会社Pfu | 电子文件加密系统、解密系统、程序以及方法 |
CN101814140A (zh) * | 2010-04-22 | 2010-08-25 | 上海邮政科学研究院 | 一种信封图像地址定位方法 |
CN102855264A (zh) * | 2011-07-01 | 2013-01-02 | 富士通株式会社 | 文档处理方法及其装置 |
CN102968638A (zh) * | 2011-08-31 | 2013-03-13 | 上海夏尔软件有限公司 | 基于关键字光学字符识别的影像清晰度判断的方法 |
CN103839062A (zh) * | 2014-03-11 | 2014-06-04 | 东方网力科技股份有限公司 | 一种图像文字定位方法及装置 |
-
2015
- 2015-09-17 CN CN201510592150.0A patent/CN105590111B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003016281A (ja) * | 2001-07-02 | 2003-01-17 | Hitachi Ltd | 帳票認識方法 |
CN101627620A (zh) * | 2007-05-31 | 2010-01-13 | 株式会社Pfu | 电子文件加密系统、解密系统、程序以及方法 |
CN101814140A (zh) * | 2010-04-22 | 2010-08-25 | 上海邮政科学研究院 | 一种信封图像地址定位方法 |
CN102855264A (zh) * | 2011-07-01 | 2013-01-02 | 富士通株式会社 | 文档处理方法及其装置 |
CN102968638A (zh) * | 2011-08-31 | 2013-03-13 | 上海夏尔软件有限公司 | 基于关键字光学字符识别的影像清晰度判断的方法 |
CN103839062A (zh) * | 2014-03-11 | 2014-06-04 | 东方网力科技股份有限公司 | 一种图像文字定位方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105590111A (zh) | 2016-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106156761B (zh) | 面向移动终端拍摄的图像表格检测与识别方法 | |
CN109685055B (zh) | 一种图像中文本区域的检测方法及装置 | |
US9384389B1 (en) | Detecting errors in recognized text | |
US8838657B1 (en) | Document fingerprints using block encoding of text | |
US11509794B2 (en) | Machine-learning command interaction | |
US20160203625A1 (en) | Providing in-line previews of a source image for aid in correcting ocr errors | |
WO2018233055A1 (zh) | 保单信息录入的方法、装置、计算机设备及存储介质 | |
CN105590111B (zh) | 用于识别电子文件中的专用区域的方法 | |
CN101430714B (zh) | 一种基于样式的内容结构化加工方法及系统 | |
US20130174024A1 (en) | Method and device for converting document format | |
JP2009022009A (ja) | 書類セキュリティ又は注釈のためのインビジブルジャンクション特徴の認識 | |
CN102194117B (zh) | 文稿页面方向检测方法和装置 | |
CN105631393A (zh) | 信息识别方法及装置 | |
JP2008192032A (ja) | 文書処理装置、文書処理方法、プログラム | |
CN103577818A (zh) | 一种图像文字识别的方法和装置 | |
WO2022001256A1 (zh) | 图像标注方法、装置、电子设备及存储介质 | |
US10691885B2 (en) | Extracting structured data from handwritten and audio notes | |
JP2010055142A (ja) | 文書処理装置およびプログラム | |
CN100552670C (zh) | 一种自动识别数字文档版心的方法 | |
CN103559512B (zh) | 一种文字识别输出方法及系统 | |
Bolelli | Indexing of historical document images: Ad hoc dewarping technique for handwritten text | |
CN104915664A (zh) | 联系对象标识获取方法和装置 | |
CN110610170B (zh) | 一种基于图像精确校正的文档比对方法 | |
WO2022206534A1 (zh) | 文本内容识别方法、装置、计算机设备和存储介质 | |
CN109726369A (zh) | 一种基于标准文献的智能模板化题录技术实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |