CN117115844B - 用于实体文档的智能数据录入方法 - Google Patents

用于实体文档的智能数据录入方法 Download PDF

Info

Publication number
CN117115844B
CN117115844B CN202311354296.2A CN202311354296A CN117115844B CN 117115844 B CN117115844 B CN 117115844B CN 202311354296 A CN202311354296 A CN 202311354296A CN 117115844 B CN117115844 B CN 117115844B
Authority
CN
China
Prior art keywords
paragraph
character
information
entity document
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311354296.2A
Other languages
English (en)
Other versions
CN117115844A (zh
Inventor
王汉林
王平平
杨鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Keda Chuangzhixin Technology Co ltd
Original Assignee
Anhui Keda Chuangzhixin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Keda Chuangzhixin Technology Co ltd filed Critical Anhui Keda Chuangzhixin Technology Co ltd
Priority to CN202311354296.2A priority Critical patent/CN117115844B/zh
Publication of CN117115844A publication Critical patent/CN117115844A/zh
Application granted granted Critical
Publication of CN117115844B publication Critical patent/CN117115844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明提供一种用于实体文档的智能数据录入方法,涉及图像识别领域。本发明先基于实体文档图像获取各个段落的文字信息,并基于段落的文字信息和实体文档图像再获取各个段落的格式信息,最终分别判断各个段落的文字信息和格式信息是否已存储至数据库,仅将未存储的数据存储至数据库,已有的数据通过共享的方式来减少存储空间的占用。

Description

用于实体文档的智能数据录入方法
技术领域
本发明涉及图像识别技术领域,具体涉及一种用于实体文档的智能数据录入方法。
背景技术
目前针对实体文档(传真件、打印件等)的录入一般采用摄像头采集文档图像,并配合OCR技术来存储包含文字信息的文档图像的方式来实现实体文档的数字化存储。
但上述方法在存储文档图像时,往往同时会录入其他非文档数据,使得数据存储占用效率较低,同时也会损失一些文档的格式信息。
基于此,需要一种高效准确的实体文档录入技术来解决上述技术问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种用于实体文档的智能数据录入方法,解决了传统实体文档录入时,存储占用高,冗余、无用信息多的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种用于实体文档的智能数据录入方法,该方法包括:
获取实体文档图像;
基于所述实体文档图像,获取所述实体文档图像中各个段落的文字信息;
基于段落的文字信息和实体文档图像,获取各个段落的格式信息;
判断各个段落的文字信息和格式信息是否已存储至数据库;
若未存储,则将文字信息和段落信息段落格式信息存储至共享数据库,并与该实体文档的其他段落对应的文字信息和段落信息段落格式信息进行关联;
若已存储,则与该实体文档的其他段落对应的文字信息和段落信息段落格式信息进行关联。
进一步的,所述段落的格式信息包括:字体、行间距和段落间距。
进一步的,所述基于段落的文字信息和实体文档图像,获取各个段落的格式信息,包括:
基于实体文档图像,识别各个段落的字体;
基于字体信息,获取各个段落的行间距;
基于字体信息,获取各个段落间的段落间距。
进一步的,所述基于实体文档图像,识别各个段落的字体,包括:
获取标准字体图像库;所述标准字体图像库包括至少一个单字的不同字体下的标准字体图像;
从实体文档图像中截取至少一个单字图像;
对所述单字图像进行图像增强处理;
获取所述单字图像与各个标准字体图像进行相似度计算,将相似度最大的作为段落的字体。
进一步的,所述基于字体信息,获取各个段落的行间距,包括:
获取字体对应的第一字符集和第二字符集,并获取第一字符集和第二字符集的交集,得到最优字符集;所述第一字符集中存储有预先筛选的第一类特定字符,所述第一类特定字符为字符的顶端与字符显示区域的顶端相接触;所述第二字符集中存储有预先筛选的第二类特定字符,所述第二类特定字符为字符的底端与字符显示区域的底端相接触;
基于第n个段落的文字信息和最优字符集,确定文字排布基准线,并基于文字排布基准线构建二维坐标系;
判断第n个段落中第k行和第k+1行中是否均存在属于最优字符集的字符,若是,则将属于最优字符集的字符作为第二参考字符;
识别实体文档图像中第二参考字符的角点信息;
基于所述二维坐标系,获取第k行中第二参考字符的底端角点y轴坐标值,并获取第k+1行中第二参考字符的顶端角点y轴坐标值,并计算两者的差值作为行间距差值;并基于所述行间距差值,得到对应的行间距信息;
其中,n=1,2,...,N,表示实体文档中共有N个段落;
k=1,2,...,K,表示该段落共有K行字符。
进一步的,所述基于第n个段落的文字信息和最优字符集,确定文字排布基准线,并基于文字排布基准线构建二维坐标系,包括:
判断第k行中属于最优字符集的字符数量是否大于2,若是,则将属于最优字符集的字符作为第一参考字符;
以第一参考字符为基准对实体文档图像进行放大和图像增强后,对所述第一参考字符进行角点提取;
获取各个第一参考字符中位于最底端的角点作为拟合点进行直线拟合,得到文字排布基准线;
以所述文字排布基准线为x轴,以垂直与文字排布基准线的方向为y轴,构建二维坐标系。
进一步的,所述基于字体信息,获取各个段落间的段落间距,包括:
判断第n个段落的最后一行和第n+1个段落的首行中是否均存在属于最优字符集的字符,若是,则将属于最优字符集的字符作为第三参考字符;
识别实体文档图像中第三参考字符的角点;
基于所述二维坐标系,获取第n个段落的最后一行中的第三参考字符的底端角点y轴坐标值;并获取第n+1个段落的首行中的第三参考字符的顶端角点y轴坐标值,并计算两者的差值作为段落间距差值;并基于所述段落间距差值,得到对应的段落间距。
(三)有益效果
本发明先基于实体文档图像获取各个段落的文字信息,并基于段落的文字信息和实体文档图像再获取各个段落的格式信息,最终分别判断各个段落的文字信息和格式信息是否已存储至数据库,仅将未存储的数据存储至数据库,已有的数据通过共享的方式来减少存储空间的占用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的流程图;
图2为本发明实施例获取字体的流程图;
图3为本发明实施例获取段落的行间距的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种用于实体文档的智能数据录入方法,解决了传统实体文档录入时,存储占用高,冗余、无用信息多的问题。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提出了一种用于实体文档的智能数据录入方法,参见图1,该方法包括:
获取实体文档图像;
基于所述实体文档图像,获取所述实体文档图像中各个段落的文字信息;
基于段落的文字信息和实体文档图像,获取各个段落的格式信息;
判断各个段落的文字信息和格式信息是否已存储至数据库;
若未存储,则将文字信息和段落信息段落格式信息存储至共享数据库,并与该实体文档的其他段落对应的文字信息和段落信息段落格式信息进行关联;
若已存储,则与该实体文档的其他段落对应的文字信息和段落信息段落格式信息进行关联。
相比于现有技术,本实施的有益效果为:
本发明实施例先基于实体文档图像获取各个段落的文字信息,并基于段落的文字信息和实体文档图像再获取各个段落的格式信息,最终分别判断各个段落的文字信息和格式信息是否已存储至数据库,仅将未存储的数据存储至数据库,已有的数据通过共享的方式来减少存储空间的占用。
下面以纯文本的word文件的实体打印文档为例,对本发明的实现过程进行详细说明:所述word文件为文字稿件,共有N个段落,每个段落至少包含一行文字。
S1、获取实体文档图像。
在具体实施时,可以采用现有的实体文档图像采集系统来获取高清的实体文档图像;所述实体文档图像采集系统具体包括一个实体文档放置台面,以及台面上方的高清摄像头以及补光设备,将打印文档放置在台面上,通过上方摄像头即可拍摄得到清晰的实体文档图像。
S2、基于所述实体文档图像,获取所述实体文档图像中各个段落的文字信息。
在具体实施时,利用文字识别技术对实体文档图像进行文字提取,得到识别实体文档图像中各个段落的文字内容,至少包括如下信息:
其中,表示第n个段落的第k行的第m个字符的可存储信息;
n=1,2,...,N,表示实体文档中共有N个段落;
k=1,2,...,K,表示该段落共有K行字符;
m=1,2,...,M,表示表示该行共有M个字符;
进一步的,每行的字符数M可以设定为一个定值,由人工预先设定,且段落标记或每行的首个字符为空格也可设定为特定的存储信息,以便段落的识别;
S3、基于段落的文字信息和实体文档图像,获取各个段落的格式信息。
在具体实施时,传统的图像存储的方式容易丢失字体信息、行间距信息和段落间距信息,因此本实施例的格式信息包括字体、行间距和段落间距;具体可以采用如下步骤获取:
S3.1、基于实体文档图像,识别第n个段落的字体;
在具体实施时,如图2所示,字体的识别可以按照如下S3.1.1~S3.1.4的步骤实现:
S3.1.1、获取标准字体图像库;
所述标准字体图像库包括至少一个单字的不同字体下的标准字体图像;
S3.1.2、从实体文档图像中截取至少一个单字图像;
S3.1.3、对所述单字图像进行图像增强处理,以获得更清晰的单字图像;
具体可采用超分辨率、对比度增强、图像二值化等算法结合实现图像增强;选择的单字数量可根据标准字体图像库中存储的字体和单字数量结合实际需要进行设置;
S3.1.4、获取所述单字图像与各个标准字体图像进行相似度计算,将相似度最大的作为第n个段落的字体。
S3.2、基于字体信息,获取段落的行间距。
在具体实施时,如图3所示,行间距的识别可以按照如下S3.2.1~S3.2.5的步骤实现:
S3.2.1、获取字体对应的第一字符集和第二字符集,并获取第一字符集和第二字符集的交集,得到最优字符集;
其中,每种字体对应的第一字符集和第二字符集可能存在差异,所述第一字符集中存储有预先筛选的第一类特定字符,所述第一类特定字符为字符的顶端与字符显示区域的顶端相接触;所述第二字符集中存储有预先筛选的第二类特定字符,所述第二类特定字符为字符的底端与字符显示区域的底端相接触;由人工预先输入得到。
例如:假设在仿宋字体下,字符的显示区域高度为W*H的矩形区域,则第一类特定字符至少存在一个点与显示区域的顶端接触/几乎接触(可视为接触);具体的,可以是含有“宀”、“扌”、“亻”这类偏旁的文字,例如,“宀”的顶端与显示区域的顶端接触。而最优字符集中的字符则是同时满足与字符显示区域的顶端和底端相接触,例如,“扌”的顶端与底端均与显示区域接触。通过对第一字符集和第二字符集中元素的补充,最优字符集的数量也会逐渐增多,适用范围也会更广。
S3.2.2、基于第n个段落的文字信息和最优字符集,确定文字排布基准线,并基于文字排布基准线构建二维坐标系;
在具体实施时,由于拍摄的实体文档图像通常不会是标准姿态,可能会出现倾斜的现象,因此需要先确定文字排布基准线(类似于文字的下划线),并基于文字排布基准线构建二维坐标系,具体可通过如下S3.2.2.1~S3.2.2.4步骤实现:
S3.2.2.1、判断第k行中属于最优字符集的字符数量是否大于2,若是,则将属于最优字符集的字符作为第一参考字符;若否,则继续下一行的判断;直至找到至少一行满足条件即可,如果需要也可使用多行来进行相互校验;
S3.2.2.2、以第一参考字符为基准对实体文档图像进行放大和图像增强(不旋转)后,对其中的第一参考字符进行角点提取;
S3.2.2.3、获取各个第一参考字符中位于最底端的角点作为拟合点进行直线拟合,得到文字排布基准线;
S3.2.2.4,以所述文字排布基准线为x轴,以垂直与文字排布基准线的方向为y轴,构建二维坐标系。
显然,除了可通过最优字符集实现以外,也可根据相同思路,以第一字符集和第二字符集为参考,来确定文字排布基准线;
S3.2.3、判断第n个段落中第k行和第k+1行中是否均存在属于最优字符集的字符,若是,则将属于最优字符集的字符作为第二参考字符;
S3.2.4、识别实体文档图像中第二参考字符的角点;
具体的,角点的识别可参考S3.2.2.2步骤中的方式获取;
S3.2.5、基于所述二维坐标系,获取第k行中第二参考字符的底端角点y轴坐标值,并获取第k+1行中第二参考字符的顶端角点y轴坐标值,并计算两者的差值作为行间距差值;并基于所述行间距差值,得到对应的行间距信息。
S3.3、基于字体信息,获取各个段落间的段落间距;
段落间距的获取方式与行间距类似,具体包括如下S3.3.1~S3.3.2的步骤:
S3.3.1、判断第n个段落的最后一行和第n+1个段落的首行中是否均存在属于最优字符集的字符,若是,则将属于最优字符集的字符作为第三参考字符;
S3.3.2、识别实体文档图像中第三参考字符的角点;
S3.3.3、基于所述二维坐标系,获取第n个段落的最后一行中的第三参考字符的底端角点y轴坐标值;并获取第n+1个段落的首行中的第三参考字符的顶端角点y轴坐标值,并计算两者的差值作为段落间距差值;并基于所述段落间距差值,得到对应的段落间距。
进一步的,如果在相邻两个段落中未有找到最优字符集的字符,还可进一步通过第一字符集和第二字符集来选择对应的字符,进而获得段落间距;此外,也可通过采用其他相邻段落的段落间距作为预测值。
S4、判断各个段落的文字信息和格式信息是否已存储至数据库;若未存储,则将文字信息和段落信息段落格式信息存储至共享数据库,并与该实体文档的其他段落对应的文字信息和段落信息段落格式信息进行关联;若已存储,则与该实体文档的其他段落对应的文字信息和段落信息段落格式信息进行关联。
在具体实施时,文字信息和格式信息可以相互独立的存储,如果段落的文字信息相同,则只需要存储一份文字信息,有效提高数据存储空间的利用效率,需要查看时通过关联关系即时生成数字化文档即可,其次,录入数据仅为重要的文字、格式信息,不会有其他冗余、无用信息被录入,进一步提高存储空间利用率。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明先基于实体文档图像获取各个段落的文字信息,并基于段落的文字信息和实体文档图像再获取各个段落的格式信息,最终分别判断各个段落的文字信息和格式信息是否已存储至数据库,仅将未存储的数据存储至数据库,已有的数据通过共享的方式来减少存储空间的占用。
2、本发明还进一步提供了一种基于实体文档图像的字体、行间距、段落间距的识别方法,以便在对实体文档数据录入时,保留更多的有效信息,去除其他冗余、无用信息。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (1)

1.一种用于实体文档的智能数据录入方法,其特征在于,该方法包括:
获取实体文档图像;
基于所述实体文档图像,获取所述实体文档图像中各个段落的文字信息;
基于段落的文字信息和实体文档图像,获取各个段落的格式信息;
判断各个段落的文字信息和格式信息是否已存储至数据库;
若未存储,则将文字信息和段落格式信息存储至共享数据库,并与该实体文档的其他段落对应的文字信息和段落格式信息进行关联;
若已存储,则与该实体文档的其他段落对应的文字信息和段落格式信息进行关联;
其中,所述段落的格式信息包括:字体、行间距和段落间距;
所述基于段落的文字信息和实体文档图像,获取各个段落的格式信息,包括:
基于实体文档图像,识别各个段落的字体;
基于字体信息,获取各个段落的行间距;
基于字体信息,获取各个段落间的段落间距;
所述基于实体文档图像,识别各个段落的字体,包括:
获取标准字体图像库;所述标准字体图像库包括至少一个单字的不同字体下的标准字体图像;
从实体文档图像中截取至少一个单字图像;
对所述单字图像进行图像增强处理;
获取所述单字图像与各个标准字体图像进行相似度计算,将相似度最大的作为段落的字体;
所述基于字体信息,获取各个段落的行间距,包括:
获取字体对应的第一字符集和第二字符集,并获取第一字符集和第二字符集的交集,得到最优字符集;所述第一字符集中存储有预先筛选的第一类特定字符,所述第一类特定字符为字符的顶端与字符显示区域的顶端相接触;所述第二字符集中存储有预先筛选的第二类特定字符,所述第二类特定字符为字符的底端与字符显示区域的底端相接触;
基于第n个段落的文字信息和最优字符集,确定文字排布基准线,并基于文字排布基准线构建二维坐标系;
判断第n个段落中第k行和第k+1行中是否均存在属于最优字符集的字符,若是,则将属于最优字符集的字符作为第二参考字符;
识别实体文档图像中第二参考字符的角点信息;
基于所述二维坐标系,获取第k行中第二参考字符的底端角点y轴坐标值,并获取第k+1行中第二参考字符的顶端角点y轴坐标值,并计算两者的差值作为行间距差值;并基于所述行间距差值,得到对应的行间距信息;
其中,n=1,2,...,N,表示实体文档中共有N个段落;
k=1,2,...,K,表示该段落共有K行字符;
所述基于第n个段落的文字信息和最优字符集,确定文字排布基准线,并基于文字排布基准线构建二维坐标系,包括:
判断第k行中属于最优字符集的字符数量是否大于2,若是,则将属于最优字符集的字符作为第一参考字符;
以第一参考字符为基准对实体文档图像进行放大和图像增强后,对所述第一参考字符进行角点提取;
获取各个第一参考字符中位于最底端的角点作为拟合点进行直线拟合,得到文字排布基准线;
以所述文字排布基准线为x轴,以垂直与文字排布基准线的方向为y轴,构建二维坐标系;
所述基于字体信息,获取各个段落间的段落间距,包括:
判断第n个段落的最后一行和第n+1个段落的首行中是否均存在属于最优字符集的字符,若是,则将属于最优字符集的字符作为第三参考字符;
识别实体文档图像中第三参考字符的角点;
基于所述二维坐标系,获取第n个段落的最后一行中的第三参考字符的底端角点y轴坐标值;并获取第n+1个段落的首行中的第三参考字符的顶端角点y轴坐标值,并计算两者的差值作为段落间距差值;并基于所述段落间距差值,得到对应的段落间距。
CN202311354296.2A 2023-10-19 2023-10-19 用于实体文档的智能数据录入方法 Active CN117115844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311354296.2A CN117115844B (zh) 2023-10-19 2023-10-19 用于实体文档的智能数据录入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311354296.2A CN117115844B (zh) 2023-10-19 2023-10-19 用于实体文档的智能数据录入方法

Publications (2)

Publication Number Publication Date
CN117115844A CN117115844A (zh) 2023-11-24
CN117115844B true CN117115844B (zh) 2024-01-12

Family

ID=88796812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311354296.2A Active CN117115844B (zh) 2023-10-19 2023-10-19 用于实体文档的智能数据录入方法

Country Status (1)

Country Link
CN (1) CN117115844B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2180411A1 (en) * 2008-10-27 2010-04-28 Xerox Corporation Methods and apparatuses for intra-document reference identification and resolution
CN108920612A (zh) * 2018-06-28 2018-11-30 山东中孚安全技术有限公司 解析doc二进制格式并提取文档中图片的方法及系统
CN112668316A (zh) * 2020-11-17 2021-04-16 国家计算机网络与信息安全管理中心 word文档关键信息抽取方法
CN114359943A (zh) * 2022-01-13 2022-04-15 北京华宇信息技术有限公司 Ofd版式文档段落识别方法及装置
CN116311317A (zh) * 2022-09-09 2023-06-23 达观数据(苏州)有限公司 一种纸质文档电子化后的段落信息还原方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9330070B2 (en) * 2013-03-11 2016-05-03 Microsoft Technology Licensing, Llc Detection and reconstruction of east asian layout features in a fixed format document
US11688027B2 (en) * 2020-03-20 2023-06-27 Codexo Generating actionable information from documents

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2180411A1 (en) * 2008-10-27 2010-04-28 Xerox Corporation Methods and apparatuses for intra-document reference identification and resolution
CN108920612A (zh) * 2018-06-28 2018-11-30 山东中孚安全技术有限公司 解析doc二进制格式并提取文档中图片的方法及系统
CN112668316A (zh) * 2020-11-17 2021-04-16 国家计算机网络与信息安全管理中心 word文档关键信息抽取方法
CN114359943A (zh) * 2022-01-13 2022-04-15 北京华宇信息技术有限公司 Ofd版式文档段落识别方法及装置
CN116311317A (zh) * 2022-09-09 2023-06-23 达观数据(苏州)有限公司 一种纸质文档电子化后的段落信息还原方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Automatic Line Segmentation and Ground-Truth Alignment of Handwritten Documents";Théodore Bluche etc;《2014 14th International Conference on Frontiers in Handwriting Recognition》;全文 *
Théodore Bluche etc."Automatic Line Segmentation and Ground-Truth Alignment of Handwritten Documents".《2014 14th International Conference on Frontiers in Handwriting Recognition》.2014,全文. *
基于XML技术的Word文档录入及格式检测系统设计;陈国胜;何宗明;;计算机时代(04);全文 *
负关联规则在Web文档分类中的研究;石芙芙;董祥军;陈修宽;;信息化纵横(13);全文 *

Also Published As

Publication number Publication date
CN117115844A (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN111814722B (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
US6151423A (en) Character recognition with document orientation determination
US8036497B2 (en) Method, program and apparatus for storing document and/or image using invariant values calculated from feature points and method, program and apparatus for retrieving document based on stored document and/or image
EP0543593B1 (en) Method for determining boundaries of words in text
US5046114A (en) Method and structure for separating joined patterns for use in pattern and character recognition system
US6917708B2 (en) Handwriting recognition by word separation into silhouette bar codes and other feature extraction
JPH11219407A (ja) 文書画像認識装置および文書画像認識プログラムの記憶媒体
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
US20150278626A1 (en) Character recognition device and character segmentation method
CN112861736B (zh) 基于图像处理的文献表格内容识别与信息提取方法
CN113887484B (zh) 一种卡片式文件图像识别方法和装置
CN111626145A (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN113657377B (zh) 一种机打票据图像结构化识别方法
CN117115844B (zh) 用于实体文档的智能数据录入方法
CN202267974U (zh) 用于二维码的定位系统及二维码的识别设备
CN109101973B (zh) 文字识别方法、电子设备、存储介质
CN109325138A (zh) 一种基于扩展与亚像素矩阵结合的图像快速识别方法
CN111414919B (zh) 带表格印刷体图片文字提取方法、装置、设备及存储介质
JP3957471B2 (ja) 分離文字列統合装置
JP2580976B2 (ja) 文字切出し装置
JP2977244B2 (ja) 文字認識方法及び文字認識装置
JP4231476B2 (ja) 容器の印刷物又は貼付ラベルを入力した入力画像と予め登録してあるマスタ画像を照合する画像処理方法
JP2697790B2 (ja) 文字タイプ決定方法
JP3193472B2 (ja) 複合的な情報の構築方式
JPS6343788B2 (zh)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant