CN116266259A - 图像文字结构化输出方法、装置、电子设备和存储介质 - Google Patents
图像文字结构化输出方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116266259A CN116266259A CN202210711998.0A CN202210711998A CN116266259A CN 116266259 A CN116266259 A CN 116266259A CN 202210711998 A CN202210711998 A CN 202210711998A CN 116266259 A CN116266259 A CN 116266259A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- feature
- text line
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图像文字结构化输出方法、装置、电子设备和存储介质,该方法包括:对待识别图像进行文字行检测,得到文字行数据;对文字行数据进行语义特征编解码操作,得到文字行语义特征,并基于文字行语义特征识别出文字行文本信息;对文字行数据进行特征增强操作和提取图像特征操作,得到文字行图像特征;将文字行语义特征和所述文字行图像特征融合,将融合后的特征经过特征邻接矩阵学习,得到特征邻接矩阵;对文字行数据和特征邻接矩阵进行结构特征提取,识别出文字行结构信息;基于文字行文本信息和文字行结构信息,输出结构化信息。通过上述方式,本发明增强了文字行的图像特征和语义特征,提高了文字结构化的效率和性能。
Description
技术领域
本发明涉及人工智能识别技术领域,具体涉及一种图像文字结构化输出方法、装置、电子设备和存储介质。
背景技术
文字结构化信息提取技术提取实体文本图像如账单图像、身份证图像的语义内容,并转化为结构化文本,实现结构化信息的提取。
现有图片文字结构化方法包括通过文字行的位置坐标和正则匹配的方式输出结构化结果,这种方式需要人工设计模板,对图像质量及文字识别结果依赖强,定制化程度高,不适用于文字识别效果不佳、图片形变、文字结构复杂等情况,鲁棒性较差。
第二种现有方法是采用命名实体识别技术,其通过深度学习识别文字行中文字段的属性,该方法针对单行文字效果好,但文字行之间没有建立关系,对相似字段区分度低。比如,多个数字文本段,无法判断结构化属性。
第三种现有方法是通过识别模型提取文字行的语义特征,采用图卷积的方式学习文字行直接的关系,从而判断文字行的结构属性。然而该方案通过识别模型的提取每个文字行的节点特征向量,文字行的位置关系,通过比对计算作为特征,忽略了文字行图像本身的图像特征,图像文字的颜色、文字形态也是图像标签的一种表达图卷积是基于卷积神经网络发展而来,卷积神经网络计算复杂度较高,直接用于图结构预测,效率上较慢,文字行特征分布并非正矩形,图卷积直接用于文字行特征学习,网络学习能力低。
因此,需要提出新的方案以解决现有技术中存在的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的图像文字结构化输出方法、装置、电子设备和存储介质。
根据本发明的一个方面,提供了一种图像文字结构化输出方法,所述图像文字结构化输出方法包括:
对待识别图像进行文字行检测,得到文字行数据;
对所述文字行数据经语义特征编解码操作,得到文字行语义特征,并基于所述文字行语义特征识别出文字行文本信息;
将所述文字行数据经特征增强操作和提取图像特征操作,得到文字行图像特征;
将所述文字行语义特征和所述文字行图像特征融合,将融合后的特征经过特征邻接矩阵学习,得到特征邻接矩阵;
对所述文字行数据和所述特征邻接矩阵进行结构特征提取,识别出文字行结构信息;
聚合输出所述文字行文本信息和所述文字行结构信息。
可选的,对待识别的图像进行文字行检测,得到文字行数据,包括:
通过文字行检测算法得到所述图像中各文字行的框形内容和框形位置,所述框形位置包括如下的至少一项:框形左上角横纵轴方向值、右上角横纵轴方向值、右下角横纵轴方向值以及左下角横纵轴方向值。
可选的,对所述文字行数据经语义特征编解码操作,得到文字行语义特征,包括:
提取所述文字行数据的文字特征;
对所述文字特征进行语义特征编码和语义特征解码,得到文字行的语义特征矩阵。
可选的,所述特征增强操作,包括:对所述文字行数据进行归一化处理,得到等高等宽的各文字行特征;
所述提取图像特征操作,包括:从各文字行特征中提取出文字行的图像特征矩阵;
将所述文字行语义特征和所述文字行图像特征融合,包括:通过池化网络将所述语义特征矩阵和所述图像特征矩阵融合,得到文字行特征矩阵。
可选的,所述将融合后的特征经过特征邻接矩阵学习,得到特征邻接矩阵,包括:
通过单层感知神经网络学习所述文字行特征矩阵中各文字行特征之间的关联关系,得到特征邻接矩阵,其中所述特征邻接矩阵由能够表征各文字行之间接近程度的损失函数值组成。
可选的,对所述文字行数据和所述特征邻接矩阵进行结构特征提取,识别出文字行结构信息包括:
根据特征邻接矩阵得到表征各文字行相关度的相关矩阵;
根据所述相关矩阵构建各文字行的邻接矩阵;
根据所述邻接矩阵,计算各文字行与其他文字行之间的关系模型,得到带有图关系的关系特征矩阵;
通过图卷积网络从所述关系特征矩阵提取出各文字行的结构特征,得到文字行结构信息。
可选的,图卷积网络的构建步骤,包括:
设置卷积层,其中所述卷积层包含激活函数或者不包含激活函数;
基于所述卷积层组建常规模块,其中常规模块的输出维度与输入维度相等;
以文字行的标签准确率和耗时作为奖励函数,经搜索学习常规模块的个数,从而得到图卷积网络结构。
根据本发明的另一方面,提供了一种图像文字结构化输出装置,所述图像文字结构化输出装置包括:
图像检测模块,适于对待识别图像进行文字行检测,得到文字行数据;
语义识别模块,适于对所述文字行数据进行语义特征编解码操作,得到文字行语义特征,并基于所述文字行语义特征识别出文字行文本信息;
图像特征模块,适于对所述文字行数据进行特征增强操作和提取图像特征操作,得到文字行图像特征
邻接矩阵模块,适于将所述文字行语义特征和所述文字行图像特征融合,将融合后的特征经过特征邻接矩阵学习,得到特征邻接矩阵;
结构识别模块,适于对所述文字行数据和所述特征邻接矩阵进行结构特征提取,识别出文字行结构信息;
信息输出模块,适于聚合输出所述文字行文本信息和所述文字行结构信息。
根据本发明的又一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述图像文字结构化输出方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述图像文字结构化输出方法对应的操作。
根据本发明的上述权利要求公开的技术方案,增强了文字行的图像特征和语义特征,提高了文字结构化的效率和性能。具体包括:通过采用基于Attention机制的神经网络结构,基于其热度图特性,提取的文字的语义特征;通过增强图像数据、对图像做卷积运算,丰富了图卷积的特征表达;通过可学习的特征邻接矩阵增强文字行之间的特征关系,增强图卷积网络输出结果区分度;针对文字行设计了动态卷积层,优化卷积激活函数,符合文字行的特征分布,同时优化了图卷积算法模型,结构化耗时较少,性能更好。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明一实施例提供的图像文字结构化输出方法流程图;
图2示出了本发明一实施例提供的待识别图像的示意图;
图3示出了本发明一实施例提供的利用文字行图像识别出文字和结构特征的示例图;
图4示出了本发明一实施例提供的基于卷积层搜索图卷积网络的流程图;
图5示出了本发明一实施例提供的图像文字结构化输出的整体流程图;
图6示出了本发明一实施例提供的基于图像特征获取文字行标签的流程图;
图7示出了本发明实施例提供的图像文字结构化输出装置的结构示意图;
图8示出了本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明一种图像文字结构化输出方法,该方法可用于能够提供计算资源的电子设备中。参见图1所示的,该方法包括以下步骤:
步骤110:对待识别图像进行文字行检测,得到文字行数据。
其中所述图像优选为结构化的账单、固定表格、身份证件类的图像,本发明实施例用于根据所述图像识别出各标签项中的信息。
上述检测是指从图像中检测出文字行,包括各文字行的位置、长度、像素内容等数据,在图像中存在多行的情况下,可形成数据向量矩阵。
步骤120:对所述文字行数据进行语义特征编解码操作,得到文字行语义特征,并基于所述文字行语义特征识别出文字行文本信息。
可通过神经网络等机器学习模型对文字行数据进行语义编码、解码以及识别等操作,获取各文字行的语段、类型和标签等语义特征,进而识别出具体的文本内容。
步骤130:对所述文字行数据进行特征增强操作和提取图像特征操作,得到文字行图像特征。
其中,特征增强操作包括识别数据中的缺失值、删除有害数据、输入缺失值、对数据进行归一化/标准化等操作;该步骤中的图像特征是各文字行的大小、纹理、长宽比和占空比等结构化的特征,从而为提取各文字行的属性或标签做准备。
步骤140:将所述文字行语义特征和所述文字行图像特征融合,将融合后的特征经过特征邻接矩阵学习,得到特征邻接矩阵。
对检测得到的文字行数据经过图像特征处理,然后进入特征邻接矩阵学习的环节,该特征邻接矩阵学习需要图像特征和语义特征两个方面的矩阵数据。
步骤150:对所述文字行数据和所述特征邻接矩阵进行结构特征提取,识别出文字行结构信息。
该步骤中,需要将初始的文字行数据和特征邻接矩阵数据作为输入,并经过机器学习网络后提取出图像结构特征,进而根据图像结构特征识别出文字行的图像结构信息,比如抽取出各文字行的属性标签。
步骤160:聚合输出所述文字行文本信息和所述文字行结构信息。
结合语义文字信息和结构标签信息,比如将上述文本文字信息和标签化的结构信息采用人工的方式组合在一起,或者将上述两种信息输入到机器学习网络模型进行融合,从而最终输出结构化的各文字行的文字信息。
优选的,在步骤110之前还包括图像采集步骤,通过包括相机、手机等摄像设备拍照、截图等手段获取的图像数据,并利用网站、手机APP、小程序等传输到后台服务器。
综上,通过该实施例的技术方案,增强了文字行的图像特征和语义特征,提高了文字结构化的效率和性能。
在一个或一些实施例中,步骤110中对待识别图像进行文字行检测,得到文字行数据,包括:通过文字行检测算法得到所述图像中各文字行的框形内容和框形位置,所述框形位置包括如下的至少一项:框形左上角横纵轴方向值、右上角横纵轴方向值、右下角横纵轴方向值以及左下角横纵轴方向值。
优选的,可通过Dbnet或Psenet等文字行检测算法得到所述图像中各文字行的框形内容和框形位置信息,所述框形位置信息至少包括框形四个角的向量坐标。比如,在对身份证图像进行文字行进行识别时,可以分别识别出姓名行、性别行、民族行、出生年月日行、住址行以及身份证号码行等的框型位置信息。
其中,Dbnet是一种高效文本检测算法,速度极快,性能好,其核心是基于分割的做法进行文本检测,即将每个文本块都进行语义分割,然后对分割概率图进行简单二值化、最终转化得为box或者poly格式的检测结果。而Psenet是一种基于语义分割的文字检测方法,能区分出图像中每个像素的属性,对每个像素进行语义分类;然后将原始文本行的尺寸进行缩小,解决两行离得很近的文本之间的间距小以至于模型无法检测出来的问题;然后逐步渐进尺寸扩张,保证最终预测结果的尺寸。
在一个或一些实施例中,步骤120中对所述文字行数据进行语义特征编解码操作,得到文字行语义特征,包括:提取所述文字行数据的文字特征;对所述文字特征进行语义特征编码和语义特征解码,得到文字行的语义特征矩阵。
优选的,将初步处理后的文字行数据经过卷积神经网络CNN和LSTM网络层提取文字特征,LSTM网络层用于对所述文字行数据进行语义编码;然后通过Attention网络进行语义解码,获得各文字行的权重热度图,并获得解码后的语义特征;其中,第i个文字识别结果对应的Attention语义特征表示为:
其中θatt为attention的参数,f表示提取的是特征值,则所述图像中文字行的语义特征编码定义为:
Tf=[tf 0+tf 1+...+tf n],
若所述图像中有N个文字行,则语义特征编码表示为:
FT={Tf0;Tf1;...;TfN}。
其中,卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。LSTM为处理具有时间维度以及类似时间维度信息的RNN深度神经网络的一种改进模型,在不少问题上能弥补CNN只能处理空间维度信息的缺陷。在本实施例中,主要利用CNN和LSTM网络层的结合进行语义编码。而基于Attention的文字识别解码算法,把文字识别当成文字翻译任务,即通过AttentionDecoder出文字序列。
比如,在识别图2所示的身份证时,经过语义解码后得到的文字结果如下:{“text_0”:“姓名XX”;“text_1”:“性别X”;“text_2”:“民族XX”;“text_3”:“出生XXXX年XX月XX日”;“text_4”:“住址XXXXX”;“text_5”:“XXXXX(地址补充)”;“text_6”:“公民身份号码XXXXXXX”}。
文字行的宽高、颜色深浅不同,是不同字段的重要表征,为了提高网络辨识能力,在数据处理阶段,对文字行做归一化处理,用于区分不同字段。因此,在一个实施例中,步骤130中对所述文字行数据进行特征增强操作,包括:对各所述文字行进行归一化处理,优选获得等长等宽的各文字行数据;若原图像尺寸的宽高分别为W0、H0,归一化尺寸设置为Win、Hin,若W0小于或等于Win并且H0小于或等于Hin,则对图像矩阵填‘0’扩展到Win、Hin大小;假如W0>Win或者H0>Hin,计算图像缩放比例Scale=Max(W0/Win,H0/Hin),得到原图缩放后的宽W1=W0/Scale,高H1=H0/Scale,缩放后的图片宽W1小于或等于Win,高H1小于或等于Hin,再对缩放后的图像矩阵填‘0’扩展到Win、Hin大小,最终得到输入文字行Iline。
对所述文字行数据进行提取图像特征操作,包括:
利用CNN网络提取各文字行的图像特征编码,则图像特征编码矩阵表示为:
FI={If0;If1;...;IfN}
其中,If=CNN(Iline;θcnn)为各文字行经CNN卷积后输出的结果,0…N为文字行的编号;
将所述文字行语义特征和所述文字行图像特征融合,包括:通过RoI Pooling(感兴趣区域池化)网络将语义特征数据和图像特征数据融合,得到Fp=FT+FI。
其中,RoI Pooling是使用卷积神经网络在目标检测任务中广泛使用的操作。例如,从不同的图像数据源中检测多个文字行,其目的是对非均匀尺寸的输入执行最大池化以获得固定尺寸的特征图。图3为身份证识别中,出生的文字行的语义特征和图像特征融合结果示例。
比如,在身份证识别中,其结构特征如下:文字行图节点定义如下:{“node_0”:“text_0”;“node_1”:“text_1”;“node_2”:“text_2”;“node_3”:“text_3”;“no de_4”:“text_4”;“node_5”:“text_5”;“node_6”:“text_6”}。
在一个或一些实施例中,步骤140中将融合后的特征经过特征邻接矩阵学习,得到特征邻接矩阵,包括:通过单层感知神经网络学习所述文字行特征矩阵中各文字行特征之间的关联关系,得到特征邻接矩阵,其中所述特征邻接矩阵由能够表征各文字行之间接近程度的损失函数值组成。
具体的,可通过单层感知神经网络学习各文字行之间的特征关联,输入为文字行的特征矩阵FP,输出动态特征邻接矩阵A:
Aij=softmax(LeakRelu(w0|fi-fj|)),
其中,w0为待学习参数,f表示不同节点的特征向量,fi与fj特征关系越接近,动态特征邻接矩阵Aij的关系权重越大,因此设计损失函数Loss为:
其中,Lf为损失函数Loss,N为文本行数,α为超参数,用于控制动态特征邻接矩阵A的稀疏度,通常设置为1。
在一个实施例中,步骤150中对所述文字行数据和所述特征邻接矩阵进行结构特征提取,识别出文字行结构信息,包括:根据所述特征邻接矩阵得到表征各文字行相关度的相关矩阵;根据所述相关矩阵构建各文字行的邻接矩阵;根据所述邻接矩阵,计算各文字行与其他文字行之间的关系模型,得到带有图关系的关系特征矩阵;通过图卷积网络从所述关系特征矩阵提取出各文字行的结构特征。
具体的,获得的各文字行的相关度矩阵如下:
di=∑jaij,
D=diag(d0,d1,...,dn),
其中,aij表示节点文字行节点的度,根据动态特征邻接矩阵A得到;而diag函数用于构造一个对角矩阵,不在对角线上元素全为0的方阵,或者以向量的形式返回一个矩阵上对角线元素。
则各文字行的邻接矩阵表示如下:
计算每一文字行与其他文字行之间的物理关系模型H,某一节点i与j节点的特征关系为:
其中,w、b为网络学习参数,Fpic是依据文字行检测的坐标计算得到的节点相对物理关系特征,包括节点本身宽高比和节点间的横向距离、纵向距离、宽度比、高度比、文字长度比等。
图卷积的神经网络的输入特征可以表示为:
Vembedding=H+WSFp
其中,H为物理关系模型,W为可学习权重,S为文字行邻接矩阵,FP为文字行特征,包含语义特征和图像特征。
然后,继续通过图卷积网络提取各文字行的结构特征。优选的,通过神经网络结构搜索算法,寻求最优卷积层结构及卷积模块个数,搜索得出高效快速的图卷积网络结构。
在一个优选实施例中,所述图卷积网络的构建步骤包括:设置卷积层,其中所述卷积层包含激活函数或者不包含激活函数;基于所述卷积层组建常规模块,其中常规模块的输出维度与输入维度相等;以文字行的标签准确率和耗时作为奖励函数,经搜索学习常规模块的个数,从而得到图卷积网络结构。
通常卷积神经网络的卷积层包含权重参数、激活函数和偏移量。该实施例通过神经网络结构搜索,寻求最优卷积层结构及卷积模块nomal module个数,搜索出高效快速的图卷积网络结构。搜索空间及网络结构设计如图4所示。
其中,cell为1x3和1x1的卷积层结构,符合文字行特征矩阵横纵比较大的特点。将cell是否带激活函数设置为搜索空间的两种类型,从而定义出动态cell,而激活函数影响卷积层的性能,然后基于动态cell组建nomal module,其中nomal module的输出维度与输入维度相等,在构建图卷积网络时,可进行叠加使用。可见,作为搜索图神经网络结构的一个重要目标是学习nomal module的个数,在提高图卷积网络性能的同时,优化网络的表达能力。
该实施例中采用基于强化学习方法的搜索策略对网络结构进行优化,以文字行的标签准确率和耗时作为奖励函数,搜索出高效的图卷积神经网络结构。
综上,本发明的上述实施例总体流程图5所示,主要包括三个阶段:
(一)数据采集:主要通过手机截图、拍照等手段获取图像,利用网站、手机APP、小程序等传输到后台服务器。
(二)特征识别:主要提取后台服务器接收到的图片的关键信息。模块(2)用于文字行检测模块和文字行数据处理;(3~5)模块用于识别语义文字行数据;(6)~(12)模块主要用于获得文字行的图像属性,并生成结构化文本数据。
(三)结构化输出:主要是集合文字行数据和结构化文本数据,结构化输出文字行属性信息。
以身份证图像识别为例,在身份证图像文字行识别中,图卷积标签设置如下:
{“姓名”:0;“性别”:1;“民族”:2;“出生”:3;“地址”:4,“身份证号码”:5};
则在上述学习过程中,文字行节点标签更新为:
{“node_0”:0;“node_1”:1;“node_2”:2;“node_3”:3;“node_4”:4;“node_5”:4;“node_6”:5},则最终输出文字行的属性标签如图6所示。
图7示出了本发明图像文字结构化输出装置700实施例的结构示意图。如图7所示,该装置700包括:
图像检测模块710:适于对待识别图像进行文字行检测,得到文字行数据。
其中所述图像优选为结构化的账单、固定表格、身份证件类的图像,本发明实施例用于根据所述图像识别出各标签项中的信息。
上述检测是指从图像中检测出文字行,包括各文字行的位置、长度、像素内容等数据特征。
语义识别模块720:适于对所述文字行数据经语义特征编解码操作,得到文字行语义特征,并基于所述文字行语义特征识别出文字行文本信息。
可通过神经网络等机器学习模型对文字行数据进行语义编码、解码以及识别等操作,获取各文字行的语段、类型和标签等语义特征,进而识别出具体的文字内容。
图像特征模块730:适于将所述文字行数据经特征增强操作和提取图像特征操作,得到文字行图像特征。
邻接矩阵模块740:适于将所述文字行语义特征和所述文字行图像特征融合,将融合后的特征经过特征邻接矩阵学习,得到特征邻接矩阵。
对检测得到的文字行数据经过图像特征处理,然后进入特征邻接矩阵学习的环节,该特征邻接矩阵学习需要图像特征和语义特征两个方面的矩阵数据。
结构识别模块750:适于对所述文字行数据和所述特征邻接矩阵进行结构特征提取,识别出文字行结构信息。
该模块中,需要将初始的文字行数据和特征邻接矩阵数据作为输入,并经过机器学习网络后提取出图像结构特征,进而根据图像结构特征识别出文字行的图像结构信息,比如抽取出各文字行的标签。
信息输出模块760:适于聚合输出所述文字行文本信息和所述文字行结构信息。
结合语义特征数据和图像特征数据,比如将两种信息采用人工的方式组合在一起,或者优选将上述两种数据输入到机器学习网络模型进行融合,从而最终输出结构化的各文字行的文字信息。
综上,通过该实施例的技术方案,增强了文字行的图像特征和语义特征,提高了文字结构化的效率和性能。
在一个或一些实施例中,图像检测模块710适于:
通过文字行检测算法得到所述图像中各文字行的框形内容和框形位置,所述框形位置包括如下的至少一项:框形左上角横纵轴方向值、右上角横纵轴方向值、右下角横纵轴方向值以及左下角横纵轴方向值。
在一个或一些实施例中,语义识别模块720适于:
提取所述文字行数据的文字特征;
对所述文字特征进行语义特征编码和语义特征解码,得到文字行的语义特征矩阵。
在一个实施例中,图像特征模块730适于:对所述文字行数据进行归一化处理,得到等高等宽的各文字行特征。
图像特征模块730还适于:从各文字行特征中提取出文字行的图像特征矩阵。
邻接矩阵模块740适于:通过池化网络将所述语义特征矩阵和所述图像特征矩阵融合,得到文字行特征矩阵。
在一个或一些实施例中,邻接矩阵模块740适于:
通过单层感知神经网络学习所述文字行特征矩阵中各文字行特征之间的关联关系,得到特征邻接矩阵,其中所述特征邻接矩阵由能够表征各文字行之间接近程度的损失函数值组成。
在一个实施例中,结构识别模块750适于:
根据特征邻接矩阵得到表征各文字行相关度的相关矩阵;根据所述相关矩阵构建各文字行的邻接矩阵;根据所述邻接矩阵,计算各文字行与其他文字行之间的关系模型,得到带有图关系的关系特征矩阵;通过图卷积网络从所述关系特征矩阵提取出各文字行的结构特征,得到文字行结构信息。
在一个优选实施例中,结构识别模块750还适于:
设置卷积层,其中所述卷积层包含激活函数或者不包含激活函数;基于所述卷积层组建常规模块,其中常规模块的输出维度与输入维度相等;以文字行的标签准确率和耗时作为奖励函数,经搜索学习常规模块的个数,从而得到图卷积网络结构。
本发明上述实施例的公开的方法和装置有益效果包括:
1.采用基于Attention机制的神经网络结构,基于Attention的热度图特性,提取的文字的语义特征;同时,通过增强图像数据的方式,对图像做卷积运算,增加文字行的图像特征,丰富图卷积的特征表达。
2.通过可学习的特征邻接矩阵增强文字行之间的特征关系,增强图卷积网络输出结果区分度。
3.针对文字行设计了动态卷积层,优化卷积激活函数,符合文字行的特征分布,同时优化了图卷积算法模型,结构化耗时较少,性能更好。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的图像文字结构化输出方法。
图8示出了本发明电子设备实施例的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图8所示,该电子设备可以包括:处理器(processor)802、通信接口(Communications Interface)804、存储器(memory)806、以及通信总线808。
其中:处理器802、通信接口804、以及存储器806通过通信总线808完成相互间的通信。通信接口804,用于与其它设备比如客户端或其它服务器等的网元通信。处理器802,用于执行程序810,具体可以执行上述用于电子设备的方法实施例中的相关步骤。
具体地,程序810可以包括程序代码,该程序代码包括计算机操作指令。
处理器802可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器806,用于存放程序810。存储器806可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序810具体可以用于使得处理器802执行上述任一实施例中图像文字结构化输出方法的操作。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (10)
1.一种图像文字结构化输出方法,所述图像文字结构化输出方法包括:
对待识别图像进行文字行检测,得到文字行数据;
对所述文字行数据经语义特征编解码操作,得到文字行语义特征,并基于所述文字行语义特征识别出文字行文本信息;
将所述文字行数据经特征增强操作和提取图像特征操作,得到文字行图像特征;
将所述文字行语义特征和所述文字行图像特征融合,将融合后的特征经过特征邻接矩阵学习,得到特征邻接矩阵;
对所述文字行数据和所述特征邻接矩阵进行结构特征提取,识别出文字行结构信息;
聚合输出所述文字行文本信息和所述文字行结构信息。
2.根据权利要求1所述的图像文字结构化输出方法,其特征在于,对待识别的图像进行文字行检测,得到文字行数据,包括:
通过文字行检测算法得到所述图像中各文字行的框形内容和框形位置,所述框形位置包括如下的至少一项:框形左上角横纵轴方向值、右上角横纵轴方向值、右下角横纵轴方向值以及左下角横纵轴方向值。
3.根据权利要求1所述的图像文字结构化输出方法,其特征在于,对所述文字行数据经语义特征编解码操作,得到文字行语义特征,包括:
提取所述文字行数据的文字特征;
对所述文字特征进行语义特征编码和语义特征解码,得到文字行的语义特征矩阵。
4.根据权利要求3所述的图像文字结构化输出方法,其特征在于,
所述特征增强操作,包括:对所述文字行数据进行归一化处理,得到等高等宽的各文字行特征;
所述提取图像特征操作,包括:从各文字行特征中提取出文字行的图像特征矩阵;
将所述文字行语义特征和所述文字行图像特征融合,包括:通过池化网络将所述语义特征矩阵和所述图像特征矩阵融合,得到文字行特征矩阵。
5.根据权利要求4所述的图像文字结构化输出方法,其特征在于,所述将融合后的特征经过特征邻接矩阵学习,得到特征邻接矩阵,包括:
通过单层感知神经网络学习所述文字行特征矩阵中各文字行特征之间的关联关系,得到特征邻接矩阵,其中所述特征邻接矩阵由能够表征各文字行之间接近程度的损失函数值组成。
6.根据权利要求1-5中任一项所述的图像文字结构化输出方法,其特征在于,对所述文字行数据和所述特征邻接矩阵进行结构特征提取,识别出文字行结构信息包括:
根据特征邻接矩阵得到表征各文字行相关度的相关矩阵;
根据所述相关矩阵构建各文字行的邻接矩阵;
根据所述邻接矩阵,计算各文字行与其他文字行之间的关系模型,得到带有图关系的关系特征矩阵;
通过图卷积网络从所述关系特征矩阵提取出各文字行的结构特征,得到文字行结构信息。
7.根据权利要求6所述的图像文字结构化输出方法,其特征在于,图卷积网络的构建步骤,包括:
设置卷积层,其中所述卷积层包含激活函数或者不包含激活函数;
基于所述卷积层组建常规模块,其中常规模块的输出维度与输入维度相等;
以文字行的标签准确率和耗时作为奖励函数,经搜索学习常规模块的个数,从而得到图卷积网络结构。
8.一种图像文字结构化输出装置,所述图像文字结构化输出装置包括:
图像检测模块,适于对待识别图像进行文字行检测,得到文字行数据;
语义识别模块,适于对所述文字行数据进行语义特征编解码操作,得到文字行语义特征,并基于所述文字行语义特征识别出文字行文本信息;
图像特征模块,适于对所述文字行数据进行特征增强操作和提取图像特征操作,得到文字行图像特征;
邻接矩阵模块,适于将所述文字行语义特征和所述文字行图像特征融合,将融合后的特征经过特征邻接矩阵学习,得到特征邻接矩阵;
结构识别模块,适于对所述文字行数据和所述特征邻接矩阵进行结构特征提取,识别出文字行结构信息;
信息输出模块,适于聚合输出所述文字行文本信息和所述文字行结构信息。
9.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的图像文字结构化输出方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的图像文字结构化输出方法对应的操作。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210711998.0A CN116266259A (zh) | 2022-06-22 | 2022-06-22 | 图像文字结构化输出方法、装置、电子设备和存储介质 |
PCT/CN2023/101885 WO2023246912A1 (zh) | 2022-06-22 | 2023-06-21 | 图像文字结构化输出方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210711998.0A CN116266259A (zh) | 2022-06-22 | 2022-06-22 | 图像文字结构化输出方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116266259A true CN116266259A (zh) | 2023-06-20 |
Family
ID=86744123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210711998.0A Pending CN116266259A (zh) | 2022-06-22 | 2022-06-22 | 图像文字结构化输出方法、装置、电子设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116266259A (zh) |
WO (1) | WO2023246912A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023246912A1 (zh) * | 2022-06-22 | 2023-12-28 | 中移(苏州)软件技术有限公司 | 图像文字结构化输出方法、装置、电子设备和存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118115819A (zh) * | 2024-04-24 | 2024-05-31 | 深圳格隆汇信息科技有限公司 | 一种基于深度学习的图表图像数据识别方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569846A (zh) * | 2019-09-16 | 2019-12-13 | 北京百度网讯科技有限公司 | 图像文字识别方法、装置、设备及存储介质 |
CN112001368A (zh) * | 2020-09-29 | 2020-11-27 | 北京百度网讯科技有限公司 | 文字结构化提取方法、装置、设备以及存储介质 |
CN113297975B (zh) * | 2021-05-25 | 2024-03-26 | 新东方教育科技集团有限公司 | 表格结构识别的方法、装置、存储介质及电子设备 |
CN116266259A (zh) * | 2022-06-22 | 2023-06-20 | 中移(苏州)软件技术有限公司 | 图像文字结构化输出方法、装置、电子设备和存储介质 |
-
2022
- 2022-06-22 CN CN202210711998.0A patent/CN116266259A/zh active Pending
-
2023
- 2023-06-21 WO PCT/CN2023/101885 patent/WO2023246912A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023246912A1 (zh) * | 2022-06-22 | 2023-12-28 | 中移(苏州)软件技术有限公司 | 图像文字结构化输出方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023246912A1 (zh) | 2023-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111615702B (zh) | 一种从图像中提取结构化数据的方法、装置和设备 | |
WO2022105125A1 (zh) | 图像分割方法、装置、计算机设备及存储介质 | |
CN116266259A (zh) | 图像文字结构化输出方法、装置、电子设备和存储介质 | |
CN111914654B (zh) | 一种文本版面分析方法、装置、设备和介质 | |
CN112699234A (zh) | 一种通用文档识别方法、系统、终端及存储介质 | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
CN112364166B (zh) | 关系抽取模型的建立方法以及关系抽取方法 | |
CN112686243A (zh) | 智能识别图片文字的方法、装置、计算机设备及存储介质 | |
CN114429566A (zh) | 一种图像语义理解方法、装置、设备及存储介质 | |
CN111522979B (zh) | 图片排序推荐方法、装置、电子设备、存储介质 | |
CN114581710A (zh) | 图像识别方法、装置、设备、可读存储介质及程序产品 | |
CN116311214A (zh) | 车牌识别方法和装置 | |
CN114612681A (zh) | 基于gcn的多标签图像分类方法、模型构建方法及装置 | |
CN116563840B (zh) | 基于弱监督跨模态对比学习的场景文本检测与识别方法 | |
CN112966676A (zh) | 一种基于零样本学习的文档关键信息抽取方法 | |
CN113537187A (zh) | 文本识别方法、装置、电子设备及可读存储介质 | |
CN116774973A (zh) | 数据渲染方法、装置、计算机设备及存储介质 | |
CN110851597A (zh) | 一种基于同类实体替换的语句标注的方法及装置 | |
CN115620315A (zh) | 手写文本检测方法、装置、服务器和存储介质 | |
Joshi et al. | Optical Text Translator from Images using Machine Learning | |
CN114692715A (zh) | 一种样本标注方法及装置 | |
CN112749691A (zh) | 图像处理方法及相关设备 | |
Peng et al. | Multitarget Detection in Depth‐Perception Traffic Scenarios | |
CN117557871B (zh) | 三维模型标注方法、装置、设备及存储介质 | |
CN116612466B (zh) | 基于人工智能的内容识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |