CN110889341A - 基于ai的表单图像识别方法、装置、计算机设备和存储介质 - Google Patents

基于ai的表单图像识别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110889341A
CN110889341A CN201911099936.3A CN201911099936A CN110889341A CN 110889341 A CN110889341 A CN 110889341A CN 201911099936 A CN201911099936 A CN 201911099936A CN 110889341 A CN110889341 A CN 110889341A
Authority
CN
China
Prior art keywords
form image
text information
detection result
image
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911099936.3A
Other languages
English (en)
Inventor
潘炜
陈臣
刘丰威
刘豫滨
邓利民
吕浩晖
陈广开
陈书弘
陈观娣
谭致远
韩丽丽
胡文
史琳
朱少维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangzhou Power Supply Bureau Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Power Supply Bureau Co Ltd filed Critical Guangzhou Power Supply Bureau Co Ltd
Priority to CN201911099936.3A priority Critical patent/CN110889341A/zh
Publication of CN110889341A publication Critical patent/CN110889341A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本申请涉及一种基于AI的表单图像识别方法、装置、计算机设备和存储介质。涉及计算机技术领域。所述方法包括:通过首先获取表单图像,该表单图像包含文字信息;然后获取该表单图像中该文字信息所处的区域;接着检测该文字信息所处的区域,得到检测结果,该检测结果用于指示该表单图像包含的文字信息的内容;最后根据该检测结果中包括的关键词所对应的文字信息类别,对该检测结果进行分类输出。采用本方法能够提高表单识别的效率。

Description

基于AI的表单图像识别方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于AI的表单图像识别方法、装置、计算机设备和存储介质。
背景技术
在日常生活中,表单是一种常见的信息载体,人们可以从表单中获取大量有用信息。若能对表单中的信息进行准确识别,就可以更好的对表单中包含的信息加以利用。通常情况下,往往采用人工识别的方法来获取表单中的信息。
相关的人工识别方法,需要通过人工对表单中的信息进行识别和整理,来得到表单中的有用信息。
然而,相关的利用人工进行表单识别的方法存在效率低下的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高效率的基于人工智能(英文:AI)的表单图像识别方法、装置、计算机设备和存储介质。
第一方面,提供一种基于AI的表单图像识别方法,该方法包括:
获取表单图像,该表单图像包含文字信息;
获取该表单图像中该文字信息所处的区域;
检测该文字信息所处的区域,得到检测结果,该检测结果用于指示该表单图像包含的文字信息的内容;
根据该检测结果中包括的关键词所对应的文字信息类别,对该检测结果进行分类输出。
在其中一个实施例中,该获取该表单图像中该文字信息所处的区域,包括:
利用自然场景文本检测算法对该表单图像进行检测,得到该表单图像中该文字信息所处的区域。
在其中一个实施例中,该检测该文字信息所处的区域,包括:
利用基于序列的图像文本识别算法对该文字信息所处的区域进行检测。
在其中一个实施例中,该获取表单图像,包括:
获取原始表单图像,该原始表单图像包含该文字信息;
对该原始表单图像进行归一化处理,得到该表单图像。
在其中一个实施例中,该对该原始表单图像进行归一化处理,得到该表单图像,包括:
将该原始表单图像转换为未压缩的文件格式,得到未压缩的原始表单图像;
将该未压缩的原始表单图像转换为相同图像格式的图片;
将该原始表单图像统一为正向图片;
将像素点密集度值大于预设阈值的该原始表单图像作为该表单图像。
在其中一个实施例中,该根据该检测结果中包括的关键词所对应的文字信息类别,对该检测结果进行分类输出,包括:
获取该表单图像的类别,每个该表单图像的类别对应至少一个关键词;
根据该表单图像的类别对应的关键词,提取该表单图像包含的文字信息的内容,得到该关键词对应的文字信息;
按照指定格式输出该表单图像包含的文字信息中该关键词对应的文字信息。
在其中一个实施例中,该获取该表单图像的类别,包括:
将该表单图像输入卷积神经网络中,得到该卷积神经网络输出的概率信息,该概率信息用于指示该表单图像的类别。
第二方面,提供一种基于AI的表单图像识别装置,该装置包括:
第一获取模块,该第一获取模块用于获取表单图像,该表单图像包含文字信息;
第二获取模块,该第二获取模块用于获取该表单图像中该文字信息所处的区域;
检测模块,该检测模块用于检测该文字信息所处的区域,得到检测结果,该检测结果用于指示该表单图像包含的文字信息的内容;
输出模块,该输出模块用于根据该检测结果中包括的关键词所对应的文字信息类别,对该检测结果进行分类输出。
在其中一个实施例中,该第二获取模块具体用于,利用自然场景文本检测算法对该表单图像进行检测,得到该表单图像中该文字信息所处的区域。
在其中一个实施例中,该检测模块具体用于,利用基于序列的图像文本识别算法对该文字信息所处的区域进行检测。
在其中一个实施例中,该第一获取模块具体用于,获取原始表单图像,该原始表单图像包含该文字信息;
对该原始表单图像进行归一化处理,得到该表单图像。
在其中一个实施例中,该第一获取模块具体用于,将该原始表单图像转换为未压缩的文件格式,得到未压缩的原始表单图像;
将该未压缩的原始表单图像转换为相同图像格式的图片;
将该原始表单图像统一为正向图片;
将像素点密集度值大于预设阈值的该原始表单图像作为该表单图像。
在其中一个实施例中,该输出模块具体用于,获取该表单图像的类别,每个该表单图像的类别对应至少一个关键词;
根据该表单图像的类别对应的关键词,提取该表单图像包含的文字信息的内容,得到该关键词对应的文字信息;
按照指定格式输出该表单图像包含的文字信息中该关键词对应的文字信息。
在其中一个实施例中,该输出模块具体用于,将该表单图像输入卷积神经网络中,得到该卷积神经网络输出的概率信息,该概率信息用于指示该表单图像的类别。
第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该计算机程序时实现上述第一方面任一所述的方法。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面任一所述的方法
上述基于AI的表单图像识别方法、装置、计算机设备和存储介质,通过首先获取表单图像,该表单图像包含文字信息;然后获取该表单图像中该文字信息所处的区域;接着检测该文字信息所处的区域,得到检测结果,该检测结果用于指示该表单图像包含的文字信息的内容;最后根据该检测结果中包括的关键词所对应的文字信息类别,对该检测结果进行分类输出。因为本申请提供的基于AI的表单图像识别方法,无需依赖人工就可以完成表单识别的整个过程,因此,本申请提供的基于AI的表单图像识别方法相比于传统的人工识别而言,一定程度上提高了表单识别的效率。
附图说明
图1为一个实施例中基于AI的表单图像识别方法的应用场景图;
图2为一个实施例中基于AI的表单图像识别方法的流程示意图;
图3为一个实施例中获取表单图像方法的流程示意图;
图4为一个实施例中对原始表单归一化处理方法的流程示意图;
图5为一个实施例中输出检测结果方法的流程示意图;
图6为一个实施例中基于AI的表单图像识别装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在日常生活中,人们可以使用表格或单据(以下简称表单)作为一种载体来记录信息,然后通过对表单中的信息加以整理和识别,以此提取出有用信息。例如,在电力营销行业,表单的使用非常频繁,大多数有用信息都可以从表单中得到。因此,若能对表单中的信息进行准确识别,那么就可以更好的对表单中的信息加以利用。
传统技术中,往往采用人工识别的方法对表单中的信息进行识别,然后对识别出的信息进行整理归纳,以此得到表单中的有用信息。
但是,实际操作中,表单往往种类繁杂并且数量庞大,若仅依靠人工识别的方法实现对表单中信息的提取和整理,无疑是非常浪费时间的,这就出现了人工识别效率低下的问题。
本申请提供的基于AI的表单图像识别方法,可以应用于如图1所示的应用环境中。其中,终端101通过网络连接与服务器102进行通信。终端101可以将表单图像发送给服务器102,然后服务器102会对接收到的表单图像进行检测,得到检测结果,接着服务器102会根据检测结果中包含的关键词对检测结果进行分类输出,最后将分类后的检测结果发送给终端101,借由终端101展示该分类后的检测结果。
需要指出的是,在一些可能的实现方式中,本申请提供的基于AI的表单图像识别方法所涉及到的实施环境可以只包含终端101。在实施环境只包含终端101的情况下,终端101在获取到表单图像后,可以对该表单图像实施本申请提供的基于AI的表单图像识别方法。
还需要指出的是,在一些可能的实现方式中,本申请提供的基于AI的表单图像识别方法所涉及到的实施环境可以只包含服务器102。在实施环境只包含服务器102的情况下,服务器102可以维护一数据库,该数据库102中可以存储表单图像。服务器102可以对该数据库中的表单图像实施本申请提供的基于AI的表单图像识别方法。
其中,终端101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在本申请实施例中,请参考图2,提供了一种基于AI的表单图像识别方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤201,服务器获取表单图像,该表单图像包含文字信息。
本步骤中,表单图像是格式统一的图片。格式上的统一有利于后续操作中服务器对表单图像进行检测,不至于因为表单图像在格式上的不同而造成的检测过程耗时过长或无法检测的情况。例如,表单图像可以统一是联合图像专家组格式(英文:JPG)的图片。实际应用中,可以对纸质表单的照片、纸质表单的扫描图像或电子文件形式的表单做归一化处理,以得到格式统一的表单图像。
通常情况下,表单图像中包含大量有用的文字信息,这些文字信息可以是印刷体文字或者手写体文字。因此,需要先获取表单图像,才能在后续的检测中得到表单图像中包含的文字信息。
步骤202,服务器获取该表单图像中该文字信息所处的区域。
本步骤中,在对表单图像中的文字信息进行识别之前,需要先将表单图像中的文字信息所在的区域检测出来,目的是为了缩小后续的检测范围。在后续检测中,只需要对包含文字的区域进行检测,无需对不包含文字的区域进行检测,一定程度上提高了检测效率。
步骤203,服务器检测该文字信息所处的区域,得到检测结果。
该检测结果用于指示该表单图像包含的文字信息的内容。本步骤中,对文字信息所在的区域进行进一步检测后,可以得到区域内包含的文字信息的具体内容,进而可以得到整个表单图像中包含的全部文字信息的内容。
步骤204,服务器根据该检测结果中包括的关键词所对应的文字信息类别,对该检测结果进行分类输出。
关键词用于指示表单图像中包含的重点文字信息。
本步骤中,在得到表单图像包含的文字信息的具体内容后,可以根据预先制定的表单图像的类别与关键词的对应关系,确定文字信息的内容中与关键词相匹配的部分,然后按照关键词的不同,将识别出的文字信息的内容分类输出。
例如,在实际应用中,假设表单图像是一张营业执照的图片,那么可以预先规定营业执照类别的表单图像对应的关键词包括名称、住所、法定代表人、成立日期、营业期限、登记机关和登记日期等。在检测得到营业执照的图片包含的所有文字信息的内容后。根据上述关键词在得到的文字信息中匹配相应的文字信息,然后把匹配到的文字信息按照关键词不同进行分类输出。
上述基于AI的表单图像识别方法中,通过首先获取表单图像,该表单图像包含文字信息;然后获取该表单图像中该文字信息所处的区域;接着检测该文字信息所处的区域,得到检测结果,该检测结果用于指示该表单图像包含的文字信息的内容;最后根据该检测结果中包括的关键词所对应的文字信息类别,对该检测结果进行分类输出。因为本申请提供的基于AI的表单图像识别方法,无需依赖人工就可以完成表单识别的整个过程,因此,本申请提供的基于AI的表单图像识别方法相比于传统的人工识别而言,一定程度上提高了表单识别的效率。
在本申请实施例中,提供了一种获得表单图像中文字信息所处区域的方法,该方法包括:利用自然场景文本检测算法(英文:CTPN)对该表单图像进行检测,得到该表单图像中该文字信息所处的区域。
在本申请实施例中,可选的,CTPN可以基于第二代机器学习系统框架(英文:TensorFlow)来实现。CTPN可以用来定位图片中的文字,CTPN通过在卷积神经网络(英文:CNN)的特征图上密集的移动窗口来检测文本行,输出的是一系列的适当尺寸的文本框。由于文本检测不同于物体检测。文本检测无明显封闭边界,同时是一个序列,可能在笔画,字符,单词,文本行和文本等多级组件之间没有明确的区分。因此,文本检测是定义在文本或文本行上的。因此这里为了快速、准确识别文字,这里结合文字的宽度一般是相同的这个特点,利用垂直锚框机制,定位每个文本框的文本与非文本的分数比值和纵轴的位置。
在本申请实施例中,通过使用CTPN算法,预先检测出表单图像中包含文字信息的区域,给后续的操作提供了一个更精确的检测范围,并且,因为CTPN算法本身的特性,使得本申请实施例中得到的文字信息所在的区域更加精确。
在本申请实施例中,提供了一种检测文字信息所处区域的方法,该方法包括:利用基于序列的图像文本识别算法(英文:CRNN)对该文字信息所处的区域进行检测。
在本申请实施例中,CRNN是CNN、循环神经网络(英文:RNN)和连接时序分类网络(英文:CTC)的组合。其中,CNN用于提取表单图像像素特征,RNN用于提取表单图像时序特征,CTC用于归纳字符间的连接特性。CRNN在识别文字信息时,可以由左及右或由右及左,识别每一个图像时序特征对应的字符,使用概率计算出最可能的字符。实际应用中,CRNN除了可以识别印刷体文字外,对手写体文字的识别也有较好的表现。
可选的,为了提高识别的准确率,可以增加匹配因子。例如,一般在表单图像的下部区域,出现盖章、签字或日期的概率较大,因此,可以设置当CRNN在识别表单图像的下部文字信息时,将盖章、签字和日期作为识别结果的可能性权重适当调高。
在本申请实施例中,因为CRNN本身的组成方式以及在识别过程中增加匹配因子,使得检测出来的文字信息的内容更加准确。
在本申请实施例中,请参考图3,提供了一种获取表单图像的方法,该方法包括:
步骤301,服务器获取原始表单图像,该原始表单图像包含该文字信息。
本步骤中,需要先获取原始表单图像,相当于收集大量原始数据,为后续的检测提供大量的数据源。原始表单图像可以是纸质表单的照片、纸质表单的扫描图像或电子文件形式的表单。
步骤302,服务器对该原始表单图像进行归一化处理,得到该表单图像。
本步骤中,服务器并不能直接对原始表单图像进行检测。原始表单图像的格式多种多样,例如照片格式、电子文档格式、电子表格格式或压缩文件格式。因此服务器无法使用统一的方法去检测原始表单图像。为了便于后续的统一操作,需要对原始表单图像进行归一化处理,也就是说,需要将原始表单图像转化成相同格式的图片。原始表单图像在经过归一化处理后,会转变为格式相同的图片,例如,都是JPG格式的图片,这样,服务器就可以按照同一检测方法对表单图像进行检测。
本申请实施例中,获取了多种类型的表单图像,因此表单图像的来源和种类更加丰富全面,最终得到的文字信息包含的内容也更加全面。并且,对原始表单图像进行了归一化操作,便与后续操作中服务器对表单图像的检测。
在本申请实施例中,请参考图4,提供了一种对原始表单归一化处理的方法,该方法包括:
步骤401,服务器将该原始表单图像转换为未压缩的文件格式,得到未压缩的原始表单图像。
本步骤中,若原始表单图像是压缩文件的格式,例如,罗谢尔的归档格式(英文:RAR)或数据压缩文件格式(英文:ZIP),则需要先对原始表单图像进行解压操作,得到未压缩状态的原始表单图像。
步骤402,服务器将该未压缩的原始表单图像转换为相同图像格式的图片。
本步骤中,未压缩的原始表单图像可能存在多种格式,例如便携式网络图形格式(英文:PNG)、标签图像文件格式(英文:TIF)、JPG格式、便携式文档格式(英文:PDF)、档案格式(英文:WORD)和电子表格格式(英文:EXCEL)等。需要将这些原始表单图像转换成相同图像格式的图片,例如,将原始表单图像统一转换为JPG格式的图片,或其他格式的图片。
步骤403,服务器将该原始表单图像统一为正向图片。
本步骤中,某些纸质表单的照片在拍摄时可能因为角度倾斜或抖动等原因造成的原始表单图像呈现出反向和斜角等情况。这种情况不利于后续的检测,因此需要对存在反向或斜角的表单图像进行调整,使其转换为正向图片。
步骤404,服务器将像素点密集度值大于预设阈值的该原始表单图像作为该表单图像。
像素点密集度(英文:DPI),指的是每英寸所拥有的像素数量。可以用DPI来衡量原始表单图像的清晰度。
本步骤中,因为服务器并非对所有表单图像都能进行检测,例如一些清晰度极低的表单图像,服务器无法对其进行有效识别。因此,需要将清晰度不满足要求的原始表单图像去除,然后采用人工识别的方法对清晰度不满足要求的原始表单图像进行识别。可选的,可以根据DPI的值筛选掉清晰度不满足要求的原始表单图像。例如,预设阈值为72,可以将DPI值低于72的原始表单图像筛选出来,然后通过人工对这些DPI值低于72的原始表单图像进行识别。
在本申请实施例中,通过详细的预处理过程,使得最终得到的表单图像在格式上形成统一,便于后续服务器对表单图像的统一检测。
在本申请实施例中,请参考图5,提供了一种输出检测结果的方法,该方法包括:
步骤501,服务器获取该表单图像的类别,每个该表单图像的类别对应至少一个关键词。
本申请实施例中,每个表单图像都有自己对应的类别,例如,表单图像的类别可以包括营业执照、产权证或增减容用电业务申请表等。不同类型的表单图像对应的关键词不同。例如,营业执照的关键词包括名称、住所、法定代表人、成立日期、营业期限、登记机关和登记日期等;产权证的关键词包括权利人、地址、权利性质、使用期限、填发单位和填发日期等;增减容用电业务申请表的关键词包括业务类型、名称和申请容量等。
其中,关键词可以根据实际情况预先制定。本步骤中,可以根据表单图像的类别对应的关键词可以指示表单图像包含的文字信息的重点内容。
步骤502,服务器根据该表单图像的类别对应的关键词,提取该表单图像包含的文字信息的内容,得到该关键词对应的文字信息。
本步骤中,可以使用关键词关联匹配技术实现对文字信息内容的提取。以此得到表单图像中的有用信息。
此外,还可以根据关键词判断表单图像是否完整,具体的,因为预先为每个类别的表单图像都制定了对应的关键词。所以可以根据检测表单图像的文字信息包含的关键词是否涵盖该表单图像的类别对应的全部关键词,来判断该表单图像是否是完整图像。
步骤503,服务器按照指定格式输出该表单图像包含的文字信息中该关键词对应的文字信息。
本步骤中,可选的,指定格式可以根据行业内通用的规则来制定。具体的,在电力行业,可以根据电力行业的营销稽核规则来制定相应格式,然后将提取到的文字信息按照相应的格式输出。
例如,根据电力行业的营销稽核规则将提取到的文字信息按照业务事项、流程、环节、关联附件表单、类型、识别关键匹配信息和是否识别的结构输出。
在本申请实施例中,通过表单图像的类别对应的关键词信息提取表单图像的文字信息的内容,去除了很多不必要的文字信息,使得最终得到的文字信息可以简要的表达表单图像包含的内容。
在本申请实施例中,提供了一种获取表单类别的方法,该方法包括:
将该表单图像输入卷积神经网络中,得到该卷积神经网络输出的概率信息,该概率信息用于指示该表单图像的类别。
在本申请实施例中,可以结合实际应用中的特点,设置特定的表单图像检测区域。例如,在电力行业,可以根据表单图像的名称和特有的签名盖章来判断表单图像的类别。一般情况下,表单图像的名称通常位于表单图像的顶部,签名或盖章一般位于表单图像的底部。因此,可以重点对表单图像的顶部和底部进行识别,以此实现快速判断出表单图像的类别。
可选的,还可以在原有卷积神经网络的基础上增加多个分类器,提高分类的准确度。
在本申请实施例中,通过设置重点识别区域和增加分类器,一定程度上提高了表单图像的分类效率和准确率。
应该理解的是,虽然图2至图5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2至图5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在本申请实施例中,如图6所示,提供了一种基于AI的表单图像识别装置,包括:第一获取模块601、第二获取模块602、检测模块603和输出模块604,其中:
第一获取模块601,用于获取表单图像,该表单图像包含文字信息;
第二获取模块602,用于获取该表单图像中该文字信息所处的区域;
检测模块603,用于检测该文字信息所处的区域,得到检测结果,该检测结果用于指示该表单图像包含的文字信息的内容;
输出模块604,用于根据该检测结果中包括的关键词所对应的文字信息类别,对该检测结果进行分类输出。
在本申请实施例中,该第二获取模块602具体用于,利用自然场景文本检测算法对该表单图像进行检测,得到该表单图像中该文字信息所处的区域。
在本申请实施例中,该检测模块603具体用于,利用基于序列的图像文本识别算法对该文字信息所处的区域进行检测。
在本申请实施例中,该第一获取模块601具体用于,获取原始表单图像,该原始表单图像包含该文字信息;
对该原始表单图像进行归一化处理,得到该表单图像。
在本申请实施例中,该第一获取模块601具体用于,将该原始表单图像转换为未压缩的文件格式,得到未压缩的原始表单图像;
将该未压缩的原始表单图像转换为相同图像格式的图片;
将该原始表单图像统一为正向图片;
将像素点密集度值大于预设阈值的该原始表单图像作为该表单图像。
在本申请实施例中,该输出模块具体604用于,获取该表单图像的类别,每个该表单图像的类别对应至少一个关键词;
根据该表单图像的类别对应的关键词,提取该表单图像包含的文字信息的内容,得到该关键词对应的文字信息;
按照指定格式输出该表单图像包含的文字信息中该关键词对应的文字信息。
在本申请实施例中,该输出模块具体604用于,将该表单图像输入卷积神经网络中,得到该卷积神经网络输出的概率信息,该概率信息用于指示该表单图像的类别。
关于基于AI的表单图像识别装置的具体限定可以参见上文中对于基于AI的表单图像识别方法的限定,在此不再赘述。上述基于AI的表单图像识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在本申请实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于AI的表单图像识别数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于AI的表单图像识别方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本申请实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取表单图像,该表单图像包含文字信息;
获取该表单图像中该文字信息所处的区域;
检测该文字信息所处的区域,得到检测结果,该检测结果用于指示该表单图像包含的文字信息的内容;
根据该检测结果中包括的关键词所对应的文字信息类别,对该检测结果进行分类输出。
在本申请实施例中,处理器执行计算机程序时还实现以下步骤:
利用自然场景文本检测算法对该表单图像进行检测,得到该表单图像中该文字信息所处的区域。
在本申请实施例中,处理器执行计算机程序时还实现以下步骤:
利用基于序列的图像文本识别算法对该文字信息所处的区域进行检测。
在本申请实施例中,处理器执行计算机程序时还实现以下步骤:
获取原始表单图像,该原始表单图像包含该文字信息;
对该原始表单图像进行归一化处理,得到该表单图像。
在本申请实施例中,处理器执行计算机程序时还实现以下步骤:
将该原始表单图像转换为未压缩的文件格式,得到未压缩的原始表单图像;
将该未压缩的原始表单图像转换为相同图像格式的图片;
将该原始表单图像统一为正向图片;
将像素点密集度值大于预设阈值的该原始表单图像作为该表单图像。
在本申请实施例中,处理器执行计算机程序时还实现以下步骤:
获取该表单图像的类别,每个该表单图像的类别对应至少一个关键词;
根据该表单图像的类别对应的关键词,提取该表单图像包含的文字信息的内容,得到该关键词对应的文字信息;
按照指定格式输出该表单图像包含的文字信息中该关键词对应的文字信息。
在本申请实施例中,处理器执行计算机程序时还实现以下步骤:
将该表单图像输入卷积神经网络中,得到该卷积神经网络输出的概率信息,该概率信息用于指示该表单图像的类别。在本申请实施例中,处理器执行计算机程序时还实现以下步骤:
在本申请实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取表单图像,该表单图像包含文字信息;
获取该表单图像中该文字信息所处的区域;
检测该文字信息所处的区域,得到检测结果,该检测结果用于指示该表单图像包含的文字信息的内容;
根据该检测结果中包括的关键词所对应的文字信息类别,对该检测结果进行分类输出。
在本申请实施例中,计算机程序被处理器执行时还实现以下步骤:
利用自然场景文本检测算法对该表单图像进行检测,得到该表单图像中该文字信息所处的区域。
在本申请实施例中,计算机程序被处理器执行时还实现以下步骤:
利用基于序列的图像文本识别算法对该文字信息所处的区域进行检测。
在本申请实施例中,计算机程序被处理器执行时还实现以下步骤:
获取原始表单图像,该原始表单图像包含该文字信息;
对该原始表单图像进行归一化处理,得到该表单图像。
在本申请实施例中,计算机程序被处理器执行时还实现以下步骤:
将该原始表单图像转换为未压缩的文件格式,得到未压缩的原始表单图像;
将该未压缩的原始表单图像转换为相同图像格式的图片;
将该原始表单图像统一为正向图片;
将像素点密集度值大于预设阈值的该原始表单图像作为该表单图像。
在本申请实施例中,计算机程序被处理器执行时还实现以下步骤:
获取该表单图像的类别,每个该表单图像的类别对应至少一个关键词;
根据该表单图像的类别对应的关键词,提取该表单图像包含的文字信息的内容,得到该关键词对应的文字信息;
按照指定格式输出该表单图像包含的文字信息中该关键词对应的文字信息。
在本申请实施例中,计算机程序被处理器执行时还实现以下步骤:
将该表单图像输入卷积神经网络中,得到该卷积神经网络输出的概率信息,该概率信息用于指示该表单图像的类别。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于AI的表单图像识别方法,其特征在于,所述方法包括:
获取表单图像,所述表单图像包含文字信息;
获取所述表单图像中所述文字信息所处的区域;
检测所述文字信息所处的区域,得到检测结果,所述检测结果用于指示所述表单图像包含的文字信息的内容;
根据所述检测结果中包括的关键词所对应的文字信息类别,对所述检测结果进行分类输出。
2.根据权利要求1所述的方法,其特征在于,所述获取所述表单图像中所述文字信息所处的区域,包括:
利用自然场景文本检测算法对所述表单图像进行检测,得到所述表单图像中所述文字信息所处的区域。
3.根据权利要求1所述的方法,其特征在于,所述检测所述文字信息所处的区域,包括:
利用基于序列的图像文本识别算法对所述文字信息所处的区域进行检测。
4.根据权利要求1所述的方法,其特征在于,所述获取表单图像,包括:
获取原始表单图像,所述原始表单图像包含所述文字信息;
对所述原始表单图像进行归一化处理,得到所述表单图像。
5.根据权利要求4所述的方法,其特征在于,所述对所述原始表单图像进行归一化处理,得到所述表单图像,包括:
将所述原始表单图像转换为未压缩的文件格式,得到未压缩的原始表单图像;
将所述未压缩的原始表单图像转换为相同图像格式的图片;
将所述原始表单图像统一为正向图片;
将像素点密集度值大于预设阈值的所述原始表单图像作为所述表单图像。
6.根据权利要求1所述的方法,其特征在于,所述根据所述检测结果中包括的关键词所对应的文字信息类别,对所述检测结果进行分类输出,包括:
获取所述表单图像的类别,每个所述表单图像的类别对应至少一个关键词;
根据所述表单图像的类别对应的关键词,提取所述表单图像包含的文字信息的内容,得到所述关键词对应的文字信息;
按照指定格式输出所述表单图像包含的文字信息中所述关键词对应的文字信息。
7.根据权利要求6所述的方法,其特征在于,所述获取所述表单图像的类别,包括:
将所述表单图像输入卷积神经网络中,得到所述卷积神经网络输出的概率信息,所述概率信息用于指示所述表单图像的类别。
8.一种基于AI的表单图像识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取表单图像,所述表单图像包含文字信息;
第二获取模块,用于获取所述表单图像中所述文字信息所处的区域;
检测模块,用于检测所述文字信息所处的区域,得到检测结果,所述检测结果用于指示所述表单图像包含的文字信息的内容;
输出模块,用于根据所述检测结果中包括的关键词所对应的文字信息类别,对所述检测结果进行分类输出。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201911099936.3A 2019-11-12 2019-11-12 基于ai的表单图像识别方法、装置、计算机设备和存储介质 Pending CN110889341A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911099936.3A CN110889341A (zh) 2019-11-12 2019-11-12 基于ai的表单图像识别方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911099936.3A CN110889341A (zh) 2019-11-12 2019-11-12 基于ai的表单图像识别方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN110889341A true CN110889341A (zh) 2020-03-17

Family

ID=69747344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911099936.3A Pending CN110889341A (zh) 2019-11-12 2019-11-12 基于ai的表单图像识别方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110889341A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541490A (zh) * 2020-12-03 2021-03-23 广州城市规划技术开发服务部有限公司 一种基于深度学习的档案影像信息结构化构建方法及装置
CN114386374A (zh) * 2020-10-19 2022-04-22 昆明安泰得软件股份有限公司 一种将CA签名用于数据整合生成odf文档的方法及其程序
CN114724156A (zh) * 2022-04-20 2022-07-08 北京百度网讯科技有限公司 表单识别方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509885A (zh) * 2018-03-26 2018-09-07 东南大学 一种高效的身份证照片筛选方法
CN109034159A (zh) * 2018-05-28 2018-12-18 北京捷通华声科技股份有限公司 图像信息提取方法和装置
CN109684623A (zh) * 2018-12-28 2019-04-26 贵州小爱机器人科技有限公司 辅助填表设备、系统、方法、装置及存储介质
CN109765988A (zh) * 2018-12-28 2019-05-17 贵州小爱机器人科技有限公司 填表位置的确定装置
CN109766159A (zh) * 2018-12-28 2019-05-17 贵州小爱机器人科技有限公司 填表位置的确定方法、计算机设备以及存储介质
CN110363102A (zh) * 2019-06-24 2019-10-22 北京融汇金信信息技术有限公司 一种pdf文件的对象识别处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509885A (zh) * 2018-03-26 2018-09-07 东南大学 一种高效的身份证照片筛选方法
CN109034159A (zh) * 2018-05-28 2018-12-18 北京捷通华声科技股份有限公司 图像信息提取方法和装置
CN109684623A (zh) * 2018-12-28 2019-04-26 贵州小爱机器人科技有限公司 辅助填表设备、系统、方法、装置及存储介质
CN109765988A (zh) * 2018-12-28 2019-05-17 贵州小爱机器人科技有限公司 填表位置的确定装置
CN109766159A (zh) * 2018-12-28 2019-05-17 贵州小爱机器人科技有限公司 填表位置的确定方法、计算机设备以及存储介质
CN110363102A (zh) * 2019-06-24 2019-10-22 北京融汇金信信息技术有限公司 一种pdf文件的对象识别处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨阳著: "《高效档案管理信息化建设》", 31 January 2019, 吉林文史出版社 *
苗雪兰著: "《面向对象的计算机图形理论与应用技术》", 31 January 2000, 河南大学出版社 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114386374A (zh) * 2020-10-19 2022-04-22 昆明安泰得软件股份有限公司 一种将CA签名用于数据整合生成odf文档的方法及其程序
CN112541490A (zh) * 2020-12-03 2021-03-23 广州城市规划技术开发服务部有限公司 一种基于深度学习的档案影像信息结构化构建方法及装置
CN114724156A (zh) * 2022-04-20 2022-07-08 北京百度网讯科技有限公司 表单识别方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US10943105B2 (en) Document field detection and parsing
US9626555B2 (en) Content-based document image classification
CN109492643B (zh) 基于ocr的证件识别方法、装置、计算机设备及存储介质
US10140511B2 (en) Building classification and extraction models based on electronic forms
CN110569341B (zh) 配置聊天机器人的方法、装置、计算机设备和存储介质
CN110889341A (zh) 基于ai的表单图像识别方法、装置、计算机设备和存储介质
US20200387701A1 (en) On-device partial recognition systems and methods
CN110705233A (zh) 基于文字识别技术的笔记生成方法、装置和计算机设备
CN113378710A (zh) 图像文件的版面分析方法、装置、计算机设备和存储介质
CN110866457A (zh) 一种电子保单的获得方法、装置、计算机设备和存储介质
CN111291741B (zh) 单据识别方法、装置、计算机设备和存储介质
CN114463767A (zh) 信用证识别方法、装置、计算机设备和存储介质
CN112418813A (zh) 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质
CN115994232A (zh) 在线多版本文献同一性鉴别方法、系统及计算机设备
US11928877B2 (en) Systems and methods for automatic context-based annotation
CN113780116A (zh) 发票分类方法、装置、计算机设备和存储介质
CN113762158A (zh) 无边框表格复原模型训练方法、装置、计算机设备和介质
US20150030241A1 (en) Method and system for data identification and extraction using pictorial representations in a source document
CN113065010A (zh) 标牌图像管理方法、装置、计算机设备和存储介质
CN112906798A (zh) 图像匹配方法、装置及计算机存储介质
WO2015012820A1 (en) Method and system for data identification and extraction using pictorial representations in a source document
US11789990B1 (en) Automated splitting of document packages and identification of relevant documents
CN113780131B (zh) 文本图像朝向识别方法和文本内容识别方法、装置、设备
CN113806613B (zh) 训练图像集生成方法、装置、计算机设备及存储介质
US20240071114A1 (en) Image data verification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201021

Address after: 510620 Tianhe District, Guangzhou, Tianhe South Road, No. two, No. 2, No.

Applicant after: Guangzhou Power Supply Bureau of Guangdong Power Grid Co.,Ltd.

Address before: 510620 Tianhe District, Guangzhou, Tianhe South Road, No. two, No. 2, No.

Applicant before: GUANGZHOU POWER SUPPLY Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20200317

RJ01 Rejection of invention patent application after publication