CN112990220A - 一种图像中目标文本智能识别方法及系统 - Google Patents

一种图像中目标文本智能识别方法及系统 Download PDF

Info

Publication number
CN112990220A
CN112990220A CN202110417894.4A CN202110417894A CN112990220A CN 112990220 A CN112990220 A CN 112990220A CN 202110417894 A CN202110417894 A CN 202110417894A CN 112990220 A CN112990220 A CN 112990220A
Authority
CN
China
Prior art keywords
text
target text
image
coordinate
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110417894.4A
Other languages
English (en)
Other versions
CN112990220B (zh
Inventor
段东圣
王海洋
佟玲玲
时磊
井雅琪
段运强
任博雅
李�真
张旋
宋吉锋
王丽萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yantai Branch Institute Of Computing Technology Chinese Academy Of Science
National Computer Network and Information Security Management Center
Original Assignee
Yantai Branch Institute Of Computing Technology Chinese Academy Of Science
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yantai Branch Institute Of Computing Technology Chinese Academy Of Science, National Computer Network and Information Security Management Center filed Critical Yantai Branch Institute Of Computing Technology Chinese Academy Of Science
Priority to CN202110417894.4A priority Critical patent/CN112990220B/zh
Publication of CN112990220A publication Critical patent/CN112990220A/zh
Application granted granted Critical
Publication of CN112990220B publication Critical patent/CN112990220B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明涉及人工智能技术领域,特别涉及一种图像中目标文本智能识别方法。该方法步骤如下:将目标文本由像素点坐标表示,输入目标文本像素点坐标值对像素坐标识别神经网络进行训练,获得文本自编码模型和目标文本的表述特征;根据区域的高度值计算背景区域数量,提取覆盖背景区域,剩余区域为前景区域;利用训练好的文本自编码模型在前景区域中获得待识别的文本的表述特征,将文本的表述特征与期望的目标文本的表述特征进行对比判断,若两者误差达到预设阈值,则识别文字为目标文本。本发明还提供一种图像中目标文本智能识别系统。本发明通过基于文本自编码模型来识别目标文本,能够精准定位目标文本在图像中的位置,计算复杂度低,识别准确率高。

Description

一种图像中目标文本智能识别方法及系统
技术领域
本发明涉及人工智能技术领域,特别涉及一种图像中目标文本智能识别方法及系统。
背景技术
随着互联网及智能终端的普及,以社交网络为基础的互联网应用得到快速发展,成为大众信息交流、数据发布的核心载体,随着社交数据爆炸式增长,数据获取及在此基础上的信息分析与挖掘也随之成为工业界与学界的研究热点。
现有技术图像中文本识别,其大致思路是首先定位图像中的文本区域并对文本区域内容进行OCR识别,然后将要标注的文本内容与识别出的文本内容进行匹配,最后将相匹配的文本区域自动标注到原来的图像中。例如,专利号为申CN111310693A的专利提出了一种图像中文本的智能标注方法,如图3其具体方案为:对包含文本信息的内容进行截图,得到待标注图像;对所述页面中的文本内容进行提取,得到所述页面的目标语言文本,即后续需要在待标注图像中匹配与标注的文本;对所述待标注图像进行光学字符识别,得到对应所述待标注图像的光学字符识别文本;获取所述目标语言文本中与所述光学字符识别文本对应的目标文本;基于所述目标文本,对所述待标注图像进行文本标注,得到图像标注样本。该方法可实现对图像中文本的自动标注,但如图4所示,其仅可以“行”为单位,标注图像中的文本区域,无法精准定位用户感兴趣的单个或几个字符在图像中的位置。
发明内容
针对现有技术存在的不足,本发明的目的是提供一种图像中目标文本智能识别方法及系统,能够精准识别出目标文本并定位其在图像中的位置,计算复杂度低,识别准确率高。
本发明为实现上述目的采用的技术方案是:一种图像中目标文本智能识别方法,包括如下步骤:
S1.获取目标文本的图像,将目标文本由像素点坐标表示,构建像素坐标识别神经网络,通过输入目标文本中所有文字的像素点坐标值对像素坐标识别神经网络进行训练,获得文本自编码模型和目标文本的表述特征;
S2.将待处理图像进行区域划分,得到不同像素值的区域,根据区域的高度值计算可以作为背景区域的区域数量,提取覆盖所述背景区域,剩余区域为前景区域;
S3.利用训练好的文本自编码模型在前景区域中获得待识别的文本的表述特征,将上述待识别的文本的表述特征与期望的目标文本的表述特征进行对比判断,若两者误差达到预设阈值,则识别文字为目标文本。
上述的图像中目标文本智能识别方法,在所述步骤S1中,
(1)建立文字像素点坐标系:先根据用户需求给出需要标注的目标文本的参照图像,以每个文字中经过最左侧像素点的垂直线为Y轴,经过最上方像素点的水平线为X轴;然后根据每个文字的像素点分布建立文字像素点坐标系(Xr,Yr),得到每个文字中像素点的坐标
Figure BDA0003026682260000021
(2)建立像素坐标识别神经网络模型:通过输入目标文本中所有文字的像素点坐标值
Figure BDA0003026682260000022
对像素坐标识别神经网络进行训练,最终得到文本自编码模型和目标文本的表述特征T;所述自编码模型包括编码部分和解码部分。
上述的图像中目标文本智能识别方法,所述像素坐标识别神经网络的训练过程包括编码过程和解码过程;所述编码过程如下:根据目标文本中的文字数量R确定输入数据集的维度,输入数据为目标文本所有文字的像素点坐标;每个汉字设定像素点坐标范围为(0,K)×(0,H),每一个连续小区域的坐标值作为输入的矩阵的一行,所有R个汉字排列在一起组成一个矩阵,将像素点坐标以矩阵的形式输入到神经网络:
Figure BDA0003026682260000023
输入层将降噪处理后的数据OutP1发送给映射层。
上述的图像中目标文本智能识别方法,所述映射层将输入的像素点坐标InP2=ω1,2OutP1映射到逻辑空间,ω1,2为输入层到映射层的连接权值,映射函数为:
Figure BDA0003026682260000024
其中,OutP2表示映射层每个神经元的输出,ω2表示映射权值,T表示转置,a表示映射因子,用于映射数据,S为像素坐标矩阵中非零数值的数量,
Figure BDA0003026682260000025
表示所有坐标的均值,k,h为任意一个非零坐标点的横纵坐标位置;映射层将映射后的数据发送给逻辑层。
上述的图像中目标文本智能识别方法,所述逻辑层通过逻辑门组合出能够激活神经元的部分区间,提取文字特征,并将激活的部分进行融合;逻辑层输入为InP3=ω2, 3OutP2,ω2,3为映射层到逻辑层的连接权值;设立逻辑门的控制区间[0,S′],S′≤S,用逻辑门控制当数据落在某个区间时,某些逻辑门被激活,激活函数为:
Figure BDA0003026682260000031
其中,
Figure BDA0003026682260000032
表示数据落在区间j时的激活函数,cj表示不同区间对应的激活因子,
Figure BDA0003026682260000033
表示任意一个区间的输入,b表示偏移量,ω3表示逻辑层的内部权重,对应的线性函数的权重ω3和偏移量b在逻辑门的包裹下变成非0;
构建逻辑门:首先设立开关函数Sf:
Figure BDA0003026682260000034
其中,δaf表示激活阈值,根据实际情况确定或在实验过程中由系统指定;然后通过激活函数构建开关门:
Figure BDA0003026682260000035
其中,Sf(1)表示第1个神经元的开关;然后得到逻辑门:将InP3的第二层信息进行区间划分,每个区间选取最大的值,第一层选取对应的信息;其他的值舍弃,实现特征向量的压缩得到OutP3
所述解码过程为:使用解码的过程将OutP3映射为OutP4,计算神经网络输出OutP4与输入InP1之间的误差,若误差小于预设的误差阈值,则神经网络训练完成,得到文本自编码模型和目标文本的表述特征T=OutP3;否则将每一层的参数进行更新,重新训练。
上述的图像中目标文本智能识别方法,在所述步骤S2中,根据图像中的像素值信息对图像进行区域划分,得到不同像素值的区域;统计每个区域中连续像素点纵向数量最大值作为每个区域的高度值,记为Mhi,i表示第i个区域;根据每个区域的高度值对区域进行排序,计算可以作为背景区域的区域数量:
Figure BDA0003026682260000036
Figure BDA0003026682260000037
Noba2=N(Mhi<εmin)st.3:Mhmin<εmin
其中,Noba表示背景区域数量,Noba1和Noba2分别是不同条件下对应的背景区域数量,Mhmax表示所有区域高度值中的最大值,Mhmin表示所有区域高度值中的最小值,εmax和εmin分别表示图像中文本所在区域的高度上阈值和下阈值,N(Mhi>εmax)表示图像中区域高度值大于文本所在区域的高度上阈值的区域的数量,N(Mhi<εmin)表示图像中区域高度值小于文本所在区域的高度下阈值的区域的数量,st.1、st.2、st.3分别表示三个条件。
上述的图像中目标文本智能识别方法,在所述步骤S3中,根据实际情况设定文本范围阈值,根据文本范围阈值将前景区域中大于阈值的区域进行分割;为分割后的前景区域中的每个独立小区域建立若干坐标系,以每个小区域经过最左侧像素点的垂直线为Y轴,经过最上方像素点的水平线为X轴,根据每个小区域的像素点分布建立小区域u的像素点坐标系(xu,yu),得到每个小区域中像素点的坐标
Figure BDA0003026682260000041
Figure BDA0003026682260000042
表示第u个小区域中的第v个像素点的横坐标,
Figure BDA0003026682260000043
表示第u个小区域中的第v个像素点的纵坐标;设横坐标最大值为U,纵坐标最大值为V。
上述的图像中目标文本智能识别方法,利用训练好的文本自编码模型在小区域中识别出目标文本,以任意一个小区域为开始,选取R个连续小区域的坐标值,每一行结束后从下一行最左侧开始继续选取,R为目标文本中文字的数量;神经网络的输入为:
Figure BDA0003026682260000044
其中,任意一个小区域u的坐标输入为
Figure BDA0003026682260000045
u∈[1,R];文本自编码模型的前半部分编码部分输出所述R个连续小区域坐标值的表述特征Tu,期望值为目标文本的表述特征T=OutP3,基于期望值获得小区域中的内容为目标文本的匹配值:
Figure BDA0003026682260000046
其中,MvD表示小区域中对应的目标文本匹配值,λ表示匹配因子,Sf(1)表示第1个神经元的开关,设定第一个小区域的匹配度高于其余R-1个小区域,τ表示判断因子;若匹配值MvD达到预设阈值,则识别出该小区域为目标文本。
本发明还提供一种图像中目标文本智能识别系统,该系统包括如下模块:
坐标获取模块,用于获取目标文本图像中目标文本的像素点坐标;
模型训练模块,用于构建像素坐标识别神经网络,通过输入目标文本中所有文字的像素点坐标值对像素坐标识别神经网络进行训练,计算神经网络输出与输入之间的误差,若误差小于预设的误差阈值,则神经网络训练完成,得到文本自编码模型和目标文本的表述特征;否则将每一层的参数进行更新,重新训练;
区域划分模块,用于对待处理图像进行区域划分,得到不同像素值的区域,并根据区域的高度值计算可作为背景区域的区域数量,提取所述背景区域对其进行覆盖,剩余区域为前景区域;
文本表述特征获取模块,用于利用训练好的文本自编码模型在前景区域中获得待识别的文本的表述特征;
判断模块,用于将所述待识别的文字的表述特征与期望的目标文本的表述特征进行对比判断,若两者误差达到预设阈值,则识别文字为目标文本。
上述的图像中目标文本智能识别系统,还包括如下模块:
优化模块,用于将输入层的数据进行降噪处理;
智能标注模块,用于对识别出的目标文本进行自动标注。
本发明图像中目标文本智能识别方法,与现有技术相比:本发明摒弃传统的仅以“行”为单位标注图像中目标文本区域的做法,通过采用文本自编码模型来识别目标文本,解决了现有技术无法精准定位用户感兴趣的字符在图像中位置的技术问题。
具体的具有如下优点:
(1)本发明的像素坐标识别神经网络通过输入层的降噪处理,减少噪声对数据的影响;通过映射层将数据映射到逻辑空间;通过逻辑层组合逻辑门对激活神经元的区间数据进行压缩,提取数据有效特征得到文本的表述特征,再对其解码得到重构图像;通过显式地建模卷积特征通道之间的相互依赖性自适应地不断优化权重参数来提高网络的表示能力,有效抑制无效特征,提升有效特征的权重,便于从图像中直接、准确的识别出目标文本及定位其位置。
(2)本发明通过提取背景区域最大程度去除非文本背景区域,降低计算复杂度,且避免传统以“行”为单位进行提取的情况。
(3)本发明通过计算小区域内容与目标文本的匹配程度识别是否为目标文本,并结合匹配因子为匹配程度增加容错机制,使得神经网络可以识别不同字体的目标文本,提高标注准确率。
本发明针对数据获取阶段得到的包含文本信息的图像,自动标注其中用户感兴趣内容或帮助用户快速定位图像中其他所关注的非法违规等敏感内容,可在短时间内为文本检测与识别模型提供高质量标注数据,也可应用于非法或敏感内容取证等实际业务场景中,应用广泛,值得被广泛推广应用。
附图说明
图1为本发明智能识别方法实现流程图;
图2为本发明的文本自编码模型构建流程图;
图3为现有技术中标注方法实现流程图;
图4为现有技术中实现效果示例图。
具体实施方式
下面结合附图及具体实施例对本发明做进一步详细说明;
如图1、2所示,一种图像中目标文本智能识别方法,包括如下步骤:
步骤S1:获取目标文本的图像,将目标文本由像素点坐标表示,构建像素坐标识别神经网络,通过输入目标文本中所有文字的像素点坐标值对像素坐标识别神经网络进行训练,获得文本自编码模型和目标文本的表述特征。
具体的,(1)用户根据个人需求给出需要标注的目标文本的参照图像,以每个文字中经过最左侧像素点的垂直线为Y轴,经过最上方像素点的水平线为X轴,根据每个文字的像素点分布建立文字像素点坐标系(Xr,Yr),得到每个文字中像素点的坐标
Figure BDA0003026682260000061
Figure BDA0003026682260000062
表示参照图像的第r个文字中第i个像素点的横坐标,
Figure BDA0003026682260000063
表示参照图像的第r个文字中第i个像素点的纵坐标。
(2)建立像素坐标识别神经网络,通过输入目标文本中所有文字的像素点坐标值
Figure BDA0003026682260000064
对像素坐标识别神经网络进行训练,最终得到文本自编码模型和目标文本的表述特征T。其中,自编码模型包括编码部分和解码部分。编码部分包括输入层、映射层、逻辑层;解码部分包括反卷积层、卷积层、输出层。
像素坐标识别神经网络训练过程包括编码过程和解码过程。
进一步的,编码过程如下:
输入层:根据目标文本中的文字数量R确定输入数据集的维度,输入数据为目标文本所有文字的像素点坐标;每个汉字设定像素点坐标范围为(0,K)×(0,H),每一个连续小区域的坐标值作为输入的矩阵的一行,所有R个汉字排列在一起组成一个矩阵,将像素点坐标以矩阵的形式输入到神经网络:
Figure BDA0003026682260000065
在本实施例中,输入矩阵中没有像素坐标值的位置用(0,0)填充。输入层先对数据进行降噪处理,降噪处理方法采用现有技术,本发明在此不再赘述。输入层将降噪处理后的数据OutP1发送给映射层。
进一步的,映射层将输入的像素点坐标InP2=ω1,2OutP1映射到逻辑空间,ω1,2为输入层到映射层的连接权值,映射函数为:
Figure BDA0003026682260000071
其中,OutP2表示映射层每个神经元的输出,ω2表示映射权值,T表示转置,a表示映射因子,用于映射数据,S为像素坐标矩阵中非零数值的数量,
Figure BDA0003026682260000072
表示所有坐标的均值,k,h为任意一个非零坐标点的横纵坐标位置。映射层将映射后的数据发送给逻辑层。
进一步的,逻辑层通过逻辑门组合出能够激活神经元的部分区间,提取文字特征,并将激活的部分进行融合;逻辑层输入为InP3=ω2,3OutP2,ω2,3为映射层到逻辑层的连接权值;设立逻辑门的控制区间[0,S′],S′≤S,用逻辑门控制当数据落在某个区间时,某些逻辑门被激活,激活函数为:
Figure BDA0003026682260000073
其中,
Figure BDA0003026682260000074
表示数据落在区间j时的激活函数,cj表示不同区间对应的激活因子,
Figure BDA0003026682260000075
表示任意一个区间的输入,b表示偏移量,ω3表示逻辑层的内部权重,对应的线性函数的权重ω3和偏移量b在逻辑门的包裹下变成非0;
构建逻辑门:首先设立开关函数Sf:
Figure BDA0003026682260000076
其中,δaf表示激活阈值,根据实际情况确定或在实验过程中由系统指定;然后通过激活函数构建开关门:
Figure BDA0003026682260000077
其中,Sf(1)表示第1个神经元的开关。
然后得到逻辑门:将InP3的第二层信息进行区间划分,每个区间选取最大的值,第一层选取对应的信息;其他的值舍弃,实现特征向量的压缩得到OutP3;优选的,对第二层的信息区域上的(8×8)区间进行划分。
解码过程为:使用解码的过程将OutP3映射为OutP4,上述OutP4的尺寸为原始输入的尺寸。解码的过程采用图像上采样,具体过程如下:
(1)使用单层反卷积神经网络进行上采样,优选的,选用8×8×2的反卷积神经网络;
(2)使用包含2个卷积层的卷积网络,得到输出结果OutP4。激活函数选用sigma激活函数。优选的,选用3×3×2的卷积块。
计算神经网络输出OutP4与输入InP1之间的误差,若误差小于预设的误差阈值,则神经网络训练完成,得到文本自编码模型和目标文本的表述特征T=OutP3;否则将每一层的参数进行更新,重新训练。其中,误差计算方法和参数更新方法均为现有技术,本发明在此不再赘述。
文本自编码模型的有益效果为:像素坐标识别神经网络通过输入层的降噪处理,减少噪声对数据的影响;通过映射层将数据映射到逻辑空间;通过逻辑层组合逻辑门对激活神经元的区间数据进行压缩,提取数据有效特征得到文本的表述特征,再对其解码得到重构图像;通过显式地建模卷积特征通道之间的相互依赖性自适应地不断优化权重参数来提高网络的表示能力,有效抑制无效特征,提升有效特征的权重,便于从图像中准确提取出目标文本。
步骤S2:将待处理图像进行区域划分,得到不同像素值的区域,根据区域的高度值计算可以作为背景区域的区域数量,提取覆盖所述背景区域,剩余区域为前景区域。
具体的,先根据图像中的像素值信息对图像进行区域划分,得到不同像素值的区域,区域划分方法为现有技术,本发明不再赘述。
然后,统计每个区域中连续像素点纵向数量最大值作为每个区域的高度值,记为Mhi,i表示第i个区域。最后,根据每个区域的高度值对区域进行排序,计算可以作为背景区域的区域数量:
Figure BDA0003026682260000081
Figure BDA0003026682260000082
Noba2=N(Mhi<εmin)st.3:Mhmin<εmin
其中,Noba表示背景区域数量,Noba1和Noba2分别是不同条件下对应的背景区域数量,Mhmax表示所有区域高度值中的最大值,Mhmin表示所有区域高度值中的最小值,εmax和εmin分别表示图像中文本所在区域的高度上阈值和下阈值,N(Mhi>εmax)表示图像中区域高度值大于文本所在区域的高度上阈值的区域的数量,N(Mhi<εmin)表示图像中区域高度值小于文本所在区域的高度下阈值的区域的数量,st.1、st.2、st.3分别表示三个条件。
文本所在区域的高度上阈值和下阈值根据实际情况由人工确定,可选取图像中文本所占像素的最大纵向数量加一作为高度上阈值,选取文本最小笔画所占像素的最小纵向数量减一作为高度下阈值。通过设定高度上阈值和高度下阈值在高度特征上滤除文本以外的图像区域以及噪声信息,便于提高后续文本提取的准确度。
进一步的,当图像中所有区域高度值中的最大值等于文本所在区域的高度上阈值时,即Mhmax=εmax,背景区域数量为0;当图像中所有区域高度值中的最大值大于文本所在区域的高度上阈值时,即Mhmax>εmax,背景区域数量为N(Mhi>εmax);若图像中所有区域高度值中的最大值等于文本所在区域的高度上阈值,且图像中所有区域高度值中的最小值小于文本所在区域的高度下阈值,即Mhmax=εmax且Mhmin<εmin,则背景区域数量为N(Mhi<εmin);若图像中所有区域高度值中的最大值大于文本所在区域的高度上阈值,且图像中所有区域高度值中的最小值小于文本所在区域的高度下阈值,即Mhmax>εmax且Mhmin<εmin,则背景区域数量为N(Mhi>εmax)+N(Mhi<εmin)。
根据上述方法选择出Noba个背景区域,选取图像中不存在的颜色对背景区域进行覆盖,剩余区域为前景区域。
上述背景区域提取方法的有益效果为:通过提取背景区域最大程度去除非文本背景区域,降低计算复杂度,且避免传统以“行”为单位进行提取的情况。
步骤S3:利用训练好的文本自编码模型在前景区域中获得待识别的文本的表述特征,将上述待识别的文本的表述特征与期望的目标文本的表述特征进行对比判断,若两者误差达到预设阈值,则识别文字为目标文本。
具体步骤如下:
1.经过步骤S2将图像背景区域覆盖后,剩余的前景区域中主要包括文本区域和部分未滤除的噪声信息,根据实际情况设定文本范围阈值,即图像中文本在水平方向和垂直方向所占像素数量的阈值。根据文本范围阈值将前景区域中大于阈值的区域进行分割。
2.为分割后的前景区域中的每个独立小区域建立若干坐标系,以每个小区域经过最左侧像素点的垂直线为Y轴,经过最上方像素点的水平线为X轴,根据每个小区域的像素点分布建立小区域u的像素点坐标系(xu,yu),得到每个小区域中像素点的坐标
Figure BDA0003026682260000101
Figure BDA0003026682260000102
表示第u个小区域中的第v个像素点的横坐标,
Figure BDA0003026682260000103
表示第u个小区域中的第v个像素点的纵坐标。设横坐标最大值为U,纵坐标最大值为V。由于像素坐标识别神经网络的输入为K×H的矩阵,因此,在输入到神经网络之前,需要将坐标数据进行标准化处理,使得
Figure BDA0003026682260000104
U0,V0为调整因子。
3.利用训练好的文本自编码模型在小区域中识别出目标文本。以任意一个小区域为开始,选取R个连续小区域的坐标值,每一行结束后从下一行最左侧开始继续选取,每一个连续小区域的坐标值作为输入的矩阵的一行,R为目标文本中文字的数量;文本自编码模型神经网络的输入为:
Figure BDA0003026682260000105
其中,任意一个小区域u的坐标输入为
Figure BDA0003026682260000106
u∈[1,R]。文本自编码模型的前半部分编码部分输出R个连续小区域坐标值的表述特征Tu,期望值为目标文本的表述特征T=OutP3,基于期望值获得小区域中的内容为目标文本的匹配值:
Figure BDA0003026682260000107
其中,MvD表示小区域中对应的目标文本匹配值,λ表示匹配因子,Sf(1)表示第1个神经元的开关,设定第一个小区域的匹配度高于其余R-1个小区域,τ表示判断因子;若匹配值MvD达到预设阈值,则识别出该小区域为目标文本,对该区域进行自动标注。
通常我们在使用文字自编码模型的时候通常只会使用自编码的前半部分编码部分,上述编码部分就可以得到文本坐标值的表述的精髓。
本发明图像中目标文本的匹配值的计算方法的有益效果为:通过计算小区域内容与目标文本的匹配程度识别是否为目标文本,并结合匹配因子为匹配程度增加容错机制,使得神经网络可以识别不同字体的目标文本,提高标注准确率。
本发明还提供一种图像中目标文本智能识别系统,该系统包括如下模块:
坐标获取模块,用于获取目标文本图像中目标文本的像素点坐标;
具体的,像素点坐标获得方法如下:用户根据个人需求给出需要标注的目标文本的参照图像,以每个文字中经过最左侧像素点的垂直线为Y轴,经过最上方像素点的水平线为X轴,根据每个文字的像素点分布建立文字像素点坐标系(Xr,Yr),得到每个文字中像素点的坐标
Figure BDA0003026682260000111
Figure BDA0003026682260000112
表示参照图像的第r个文字中第i个像素点的横坐标,
Figure BDA0003026682260000113
表示参照图像的第r个文字中第i个像素点的纵坐标。
模型训练模块,用于构建像素坐标识别神经网络,通过输入目标文本中所有文字的像素点坐标值对像素坐标识别神经网络进行训练,计算神经网络输出与输入之间的误差,若误差小于预设的误差阈值,则神经网络训练完成,得到文本自编码模型和目标文本的表述特征;否则将每一层的参数进行更新,重新训练。
在一些实施例中,模型训练模块,包括像素坐标识别神经网络训练模块,通过输入目标文本中所有文字的像素点坐标值
Figure BDA0003026682260000114
对像素坐标识别神经网络进行训练,最终得到文本自编码模型和目标文本的表述特征T。其中,自编码模型包括编码部分和解码部分。编码部分包括输入层、映射层、逻辑层;解码部分包括反卷积层、卷积层、输出层。
进一步的,像素坐标识别神经网络的训练过程包括编码过程和解码过程,编码过程如下:
输入层:先根据目标文本中的文字数量R确定输入数据集的维度,输入数据为目标文本所有文字的像素点坐标。每个汉字设定像素点坐标范围为(0,K)×(0,H),每一个连续小区域的坐标值作为输入的矩阵的一行,所有R个汉字排列在一起组成一个矩阵,将像素点坐标以矩阵的形式输入到神经网络:
Figure BDA0003026682260000115
在本实施例中,输入矩阵中没有像素坐标值的位置用(0,0)填充。输入层先对数据进行降噪处理,降噪处理方法采用现有技术,本发明在此不做过多阐述。输入层将降噪处理后的数据OutP1发送给映射层;
进一步的,映射层将输入的像素点坐标InP2=ω1,2OutP1映射到逻辑空间,ω1,2为输入层到映射层的连接权值,映射函数为:
Figure BDA0003026682260000121
其中,OutP2表示映射层每个神经元的输出,ω2表示映射权值,T表示转置,a表示映射因子,用于映射数据,S为像素坐标矩阵中非零数值的数量,
Figure BDA0003026682260000122
表示所有坐标的均值,k,h为任意一个非零坐标点的横纵坐标位置。映射层将映射后的数据发送给逻辑层。
进一步的,逻辑层通过逻辑门组合出能够激活神经元的部分区间,提取文字特征,并将激活的部分进行融合。逻辑层输入为InP3=ω2,3OutP2,ω2,3为映射层到逻辑层的连接权值。设立逻辑门的控制区间[0,S′],S′≤S,用逻辑门控制当数据落在某个区间时,某些逻辑门被激活。激活函数为:
Figure BDA0003026682260000123
其中,
Figure BDA0003026682260000124
表示数据落在区间j时的激活函数,cj表示不同区间对应的激活因子,
Figure BDA0003026682260000125
表示任意一个区间的输入,b表示偏移量,ω3表示逻辑层的内部权重,对应的线性函数的权重ω3和偏移量b在逻辑门的包裹下变成非0。
构建逻辑门:首先设立开关函数Sf:
Figure BDA0003026682260000126
其中,δaf表示激活阈值,根据实际情况确定或在实验过程中由系统指定;然后通过激活函数构建开关门:
Figure BDA0003026682260000127
其中,Sf(1)表示第1个神经元的开关;
然后得到逻辑门:将InP3的第二层信息进行区间划分,每个区间选取最大的值,第一层选取对应的信息;其他的值舍弃,实现特征向量的压缩得到OutP3;优选的,对第二层的信息区域上的(8×8)区间进行划分。
解码过程如下:使用解码的过程将OutP3映射为OutP4,上述OutP4的尺寸为原始输入的尺寸。解码的过程采用图像上采样,具体过程如下:
(1)使用单层反卷积神经网络进行上采样,优选的,选用8×8×2的反卷积神经网络;
(2)使用包含2个卷积层的卷积网络,得到输出结果OutP4。激活函数选用sigma激活函数。优选的,选用3×3×2的卷积块。
计算神经网络输出OutP4与输入InP1之间的误差,若误差小于预设的误差阈值,则神经网络训练完成,得到文本自编码模型和目标文本的表述特征T=OutP3;否则将每一层的参数进行更新,重新训练。其中,误差计算方法和参数更新方法均为现有技术,本发明不再赘述。
区域划分模块,用于对待处理图像进行区域划分,得到不同像素值的区域,并根据区域的高度值计算可作为背景区域的区域数量,提取所述背景区域对其进行覆盖,剩余区域为前景区域;
具体的,根据区域的高度值计算可作为背景区域的区域数量,提取所述背景区域对其进行覆盖方法为:
统计每个区域中连续像素点纵向数量最大值作为每个区域的高度值,记为Mhi,i表示第i个区域。最后,根据每个区域的高度值对区域进行排序,计算可以作为背景区域的区域数量:
Figure BDA0003026682260000131
Figure BDA0003026682260000132
Noba2=N(Mhi<εmin)st.3:Mhmin<εmin
其中,Noba表示背景区域数量,Noba1和Noba2分别是不同条件下对应的背景区域数量,Mhmax表示所有区域高度值中的最大值,Mhmin表示所有区域高度值中的最小值,εmax和εmin分别表示图像中文本所在区域的高度上阈值和下阈值,N(Mhi>εmax)表示图像中区域高度值大于文本所在区域的高度上阈值的区域的数量,N(Mhi<εmin)表示图像中区域高度值小于文本所在区域的高度下阈值的区域的数量,st.1、st.2、st.3分别表示三个条件。
文本所在区域的高度上阈值和下阈值根据实际情况由人工确定,可选取图像中文本所占像素的最大纵向数量加一作为高度上阈值,选取文本最小笔画所占像素的最小纵向数量减一作为高度下阈值。通过设定高度上阈值和高度下阈值在高度特征上滤除文本以外的图像区域以及噪声信息,便于提高后续文本提取的准确度。
进一步的,当图像中所有区域高度值中的最大值等于文本所在区域的高度上阈值时,即Mhmax=εmax,背景区域数量为0;当图像中所有区域高度值中的最大值大于文本所在区域的高度上阈值时,即Mhmax>εmax,背景区域数量为N(Mhi>εmax);若图像中所有区域高度值中的最大值等于文本所在区域的高度上阈值,且图像中所有区域高度值中的最小值小于文本所在区域的高度下阈值,即Mhmax=εmax且Mhmin<εmin,则背景区域数量为N(Mhi<εmin);若图像中所有区域高度值中的最大值大于文本所在区域的高度上阈值,且图像中所有区域高度值中的最小值小于文本所在区域的高度下阈值,即Mhmax>εmax且Mhmin<εmin,则背景区域数量为N(Mhi>εmax)+N(Mhi<εmin)。
根据上述方法选择出Noba个背景区域,选取图像中不存在的颜色对背景区域进行覆盖,剩余区域为前景区域。
文本表述特征获取模块,用于利用训练好的文本自编码模型在前景区域中获得待识别的文本的表述特征,并根据匹配值识别出目标文本。具体的,将所有待识别文字中R个连续小区域的像素点坐标值输入到上述文字自编码模型,获得所述R个连续小区域中待识别的文字的表述特征,其中R为目标文本中文字的数量。
在一些实施例中,文本表述特征获取模块包括前景区域分割模块、坐标数据处理模块、获取模块。
在一些实施例中,前景区域分割模块,用于根据实际情况设定文本范围阈值,即图像中文本在水平方向和垂直方向所占像素数量的阈值。根据文本范围阈值将前景区域中大于阈值的区域进行分割。
在一些实施例中,坐标数据处理模块,用于为分割后的前景区域中的每个独立小区域建立若干坐标系,以每个小区域经过最左侧像素点的垂直线为Y轴,经过最上方像素点的水平线为X轴,根据每个小区域的像素点分布建立小区域u的像素点坐标系(xu,yu),得到每个小区域中像素点的坐标
Figure BDA0003026682260000141
Figure BDA0003026682260000142
表示第u个小区域中的第v个像素点的横坐标,
Figure BDA0003026682260000143
表示第u个小区域中的第v个像素点的纵坐标。进一步的,设横坐标最大值为U,纵坐标最大值为V。由于像素坐标识别神经网络的输入为K×H的矩阵,因此,在输入到神经网络之前,需要将坐标数据进行标准化处理,使得
Figure BDA0003026682260000144
U0,V0为调整因子。
在一些实施例中,获取模块,用于利用训练好的文本自编码模型在小区域中获得待识别文本的表述特征。以任意一个小区域为开始,选取R个连续小区域的坐标值,每一行结束后从下一行最左侧开始继续选取,每一个连续小区域的坐标值作为输入的矩阵的一行,R为目标文本中文字的数量。神经网络的输入为:
Figure BDA0003026682260000151
其中,任意一个小区域u的坐标输入为
Figure BDA0003026682260000152
u∈[1,R]。文本自编码模型的前半部分编码部分输出所述R个连续小区域坐标值的表述特征Tu
判断模块,用于将所述待识别的文字的表述特征与期望的目标文本的表述特征进行对比判断,若两者误差达到预设阈值,则识别文字为目标文本;
在一些实施例中,判断模块,包括匹配值获取模块和目标文本识别模块。匹配值获取模块,用于基于期望值,即目标文本表述特征,获取图像中待检测文本的匹配值;
期望值为目标文本的表述特征T=OutP3,基于期望值获得小区域中待检测文本为目标文本的匹配值:
Figure BDA0003026682260000153
其中,MvD表示小区域中对应的目标文本匹配值,λ表示匹配因子,用于提高匹配判断的容错率,Sf(1)表示第1个神经元的开关,用于提高匹配判断容错率;设定第一个小区域的匹配度高于其余R-1个小区域,τ表示判断因子。
目标文本识别模块,用于根据匹配值MvD判断待处理图像中文字是否包含目标文本,若匹配值MvD达到预设阈值,则识别出该小区域为目标文本;
在一些实施例中,判断模块,包括匹配值设置模块和目标文本识别模块。
本发明的图像中目标文本智能识别系统,还包括如下模块:
优化模块,用于将输入层的数据进行降噪处理;
智能标注模块,用于对识别出的目标文本进行自动标注。
上述实施例只是为了说明本发明的技术构思及特点,其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所做出的等效的变化或修改,都应涵盖在本发明的保护范围内。

Claims (10)

1.一种图像中目标文本智能识别方法,其特征在于,包括如下步骤:
S1.获取目标文本的图像,将目标文本由像素点坐标表示,构建像素坐标识别神经网络,通过输入目标文本中所有文字的像素点坐标值对像素坐标识别神经网络进行训练,获得文本自编码模型和目标文本的表述特征;
S2.将待处理图像进行区域划分,得到不同像素值的区域,根据区域的高度值计算可以作为背景区域的区域数量,提取覆盖所述背景区域,剩余区域为前景区域;
S3.利用训练好的文本自编码模型在前景区域中获得待识别的文本的表述特征,将上述待识别的文本的表述特征与期望的目标文本的表述特征进行对比判断,若两者误差达到预设阈值,则识别文字为目标文本。
2.根据权利要求1所述的图像中目标文本智能识别方法,其特征在于,在所述步骤S1中,
(1)建立文字像素点坐标系:先根据用户需求给出需要标注的目标文本的参照图像,以每个文字中经过最左侧像素点的垂直线为Y轴,经过最上方像素点的水平线为X轴;然后根据每个文字的像素点分布建立文字像素点坐标系(Xr,Yr),得到每个文字中像素点的坐标
Figure FDA0003026682250000011
(2)建立像素坐标识别神经网络模型:通过输入目标文本中所有文字的像素点坐标值
Figure FDA0003026682250000012
对像素坐标识别神经网络进行训练,最终得到文本自编码模型和目标文本的表述特征T;所述自编码模型包括编码部分和解码部分。
3.根据权利要求2所述的图像中目标文本智能识别方法,其特征在于,所述像素坐标识别神经网络的训练过程包括编码过程和解码过程;所述编码过程如下:根据目标文本中的文字数量R确定输入数据集的维度,输入数据为目标文本所有文字的像素点坐标;每个汉字设定像素点坐标范围为(0,K)×(0,H),每一个连续小区域的坐标值作为输入的矩阵的一行,所有R个汉字排列在一起组成一个矩阵,将像素点坐标以矩阵的形式输入到神经网络:
Figure FDA0003026682250000013
输入层将降噪处理后的数据OutP1发送给映射层。
4.根据权利要求3所述的图像中目标文本智能识别方法,其特征在于,所述映射层将输入的像素点坐标InP2=ω1,2OutP1映射到逻辑空间,ω1,2为输入层到映射层的连接权值,映射函数为:
Figure FDA0003026682250000021
其中,OutP2表示映射层每个神经元的输出,ω2表示映射权值,T表示转置,a表示映射因子,用于映射数据,S为像素坐标矩阵中非零数值的数量,
Figure FDA0003026682250000022
表示所有坐标的均值,k,h为任意一个非零坐标点的横纵坐标位置;映射层将映射后的数据发送给逻辑层。
5.根据权利要求4所述的图像中目标文本智能识别方法,其特征在于,所述逻辑层通过逻辑门组合出能够激活神经元的部分区间,提取文字特征,并将激活的部分进行融合;逻辑层输入为InP3=ω2,3OutP2,ω2,3为映射层到逻辑层的连接权值;设立逻辑门的控制区间[0,S′],S′≤S,用逻辑门控制当数据落在某个区间时,某些逻辑门被激活,激活函数为:
Figure FDA0003026682250000023
其中,
Figure FDA0003026682250000024
表示数据落在区间j时的激活函数,cj表示不同区间对应的激活因子,
Figure FDA0003026682250000025
表示任意一个区间的输入,b表示偏移量,ω3表示逻辑层的内部权重,对应的线性函数的权重ω3和偏移量b在逻辑门的包裹下变成非0;
构建逻辑门:首先设立开关函数Sf:
Figure FDA0003026682250000026
其中,δaf表示激活阈值,根据实际情况确定或在实验过程中由系统指定;然后通过激活函数构建开关门:
Figure FDA0003026682250000027
其中,Sf(1)表示第1个神经元的开关;然后得到逻辑门:将InP3的第二层信息进行区间划分,每个区间选取最大的值,第一层选取对应的信息;其他的值舍弃,实现特征向量的压缩得到OutP3
所述解码过程为:使用解码的过程将OutP3映射为OutP4,计算神经网络输出OutP4与输入InP1之间的误差,若误差小于预设的误差阈值,则神经网络训练完成,得到文本自编码模型和目标文本的表述特征T=OutP3;否则将每一层的参数进行更新,重新训练。
6.根据权利要求1所述的图像中目标文本智能识别方法,其特征在于,在所述步骤S2中,根据图像中的像素值信息对图像进行区域划分,得到不同像素值的区域;统计每个区域中连续像素点纵向数量最大值作为每个区域的高度值,记为Mhi,i表示第i个区域;根据每个区域的高度值对区域进行排序,计算可以作为背景区域的区域数量:
Figure FDA0003026682250000031
Figure FDA0003026682250000032
Noba2=N(Mhi<εmin)st.3:Mhmin<εmin
其中,Noba表示背景区域数量,Noba1和Noba2分别是不同条件下对应的背景区域数量,Mhmax表示所有区域高度值中的最大值,Mhmin表示所有区域高度值中的最小值,εmax和εmin分别表示图像中文本所在区域的高度上阈值和下阈值,N(Mhi<εmax)表示图像中区域高度值大于文本所在区域的高度上阈值的区域的数量,N(Mhi<εmin)表示图像中区域高度值小于文本所在区域的高度下阈值的区域的数量,st.1、st.2、st.3分别表示三个条件。
7.根据权利要求5所述的图像中目标文本智能识别方法,其特征在于,在所述步骤S3中,根据实际情况设定文本范围阈值,根据文本范围阈值将前景区域中大于阈值的区域进行分割;为分割后的前景区域中的每个独立小区域建立若干坐标系,以每个小区域经过最左侧像素点的垂直线为Y轴,经过最上方像素点的水平线为X轴,根据每个小区域的像素点分布建立小区域u的像素点坐标系(xu,yu),得到每个小区域中像素点的坐标
Figure FDA0003026682250000033
Figure FDA0003026682250000034
表示第u个小区域中的第v个像素点的横坐标,
Figure FDA0003026682250000035
表示第u个小区域中的第v个像素点的纵坐标;设横坐标最大值为U,纵坐标最大值为V。
8.根据权利要求7所述的图像中目标文本智能识别方法,其特征在于,利用训练好的文本自编码模型在小区域中识别出目标文本,以任意一个小区域为开始,选取R个连续小区域的坐标值,输入所述文本自编码模型中,每一行结束后从下一行最左侧开始继续选取,R为目标文本中文字的数量;任意一个小区域u的坐标输入为
Figure FDA0003026682250000036
文本自编码模型的前半部分编码部分输出所述R个连续小区域坐标值的表述特征Tu,期望值为目标文本的表述特征T=OutP3,基于期望值获得小区域中的内容为目标文本的匹配值:
Figure FDA0003026682250000041
其中,MvD表示小区域中对应的目标文本匹配值,λ表示匹配因子,Sf(1)表示第1个神经元的开关,设定第一个小区域的匹配度高于其余R-1个小区域,τ表示判断因子;若匹配值MvD达到预设阈值,则识别出该小区域为目标文本。
9.一种图像中目标文本智能识别系统,其特征在于,包括如下模块:
坐标获取模块,用于获取目标文本图像中目标文本的像素点坐标;
模型训练模块,用于构建像素坐标识别神经网络,通过输入目标文本中所有文字的像素点坐标值对像素坐标识别神经网络进行训练,计算神经网络输出与输入之间的误差,若误差小于预设的误差阈值,则神经网络训练完成,得到文本自编码模型和目标文本的表述特征;否则将每一层的参数进行更新,重新训练;
区域划分模块,用于对待处理图像进行区域划分,得到不同像素值的区域,并根据区域的高度值计算可作为背景区域的区域数量,提取所述背景区域对其进行覆盖,剩余区域为前景区域;
文本表述特征获取模块,用于利用训练好的文本自编码模型在前景区域中获得待识别的文本的表述特征;
判断模块,用于将所述待识别的文字的表述特征与期望的目标文本的表述特征进行对比判断,若两者误差达到预设阈值,则识别文字为目标文本。
10.根据权利要求9所述的图像中目标文本智能识别系统,其特征在于,还包括如下模块:
优化模块,用于将输入层的数据进行降噪处理;
智能标注模块,用于对识别出的目标文本进行自动标注。
CN202110417894.4A 2021-04-19 2021-04-19 一种图像中目标文本智能识别方法及系统 Active CN112990220B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110417894.4A CN112990220B (zh) 2021-04-19 2021-04-19 一种图像中目标文本智能识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110417894.4A CN112990220B (zh) 2021-04-19 2021-04-19 一种图像中目标文本智能识别方法及系统

Publications (2)

Publication Number Publication Date
CN112990220A true CN112990220A (zh) 2021-06-18
CN112990220B CN112990220B (zh) 2022-08-05

Family

ID=76341018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110417894.4A Active CN112990220B (zh) 2021-04-19 2021-04-19 一种图像中目标文本智能识别方法及系统

Country Status (1)

Country Link
CN (1) CN112990220B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114494853A (zh) * 2021-12-27 2022-05-13 海信集团控股股份有限公司 终端及书架管理方法
CN115171141A (zh) * 2022-01-19 2022-10-11 维正知识产权科技有限公司 文本图像中下划线的识别定位方法、存储器和装置
CN115205861A (zh) * 2022-08-17 2022-10-18 北京睿企信息科技有限公司 一种获取异常文字识别区域的方法、电子设备及存储介质
US11976940B2 (en) * 2021-09-30 2024-05-07 Woven By Toyota, Inc. Vehicle data collection system and method of using

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912716A (zh) * 2016-04-29 2016-08-31 国家计算机网络与信息安全管理中心 一种短文本分类方法及装置
CN107609549A (zh) * 2017-09-20 2018-01-19 北京工业大学 一种自然场景下证件图像的文本检测方法
CN108647730A (zh) * 2018-05-14 2018-10-12 中国科学院计算技术研究所 一种基于历史行为共现的数据划分方法及系统
CN109102037A (zh) * 2018-06-04 2018-12-28 平安科技(深圳)有限公司 中文模型训练、中文图像识别方法、装置、设备及介质
CN109241904A (zh) * 2018-08-31 2019-01-18 平安科技(深圳)有限公司 文字识别模型训练、文字识别方法、装置、设备及介质
CN109344914A (zh) * 2018-10-31 2019-02-15 焦点科技股份有限公司 一种端到端的不定长文字识别的方法和系统
CN109543667A (zh) * 2018-11-14 2019-03-29 北京工业大学 一种基于注意力机制的文本识别方法
CN109902622A (zh) * 2019-02-26 2019-06-18 中国科学院重庆绿色智能技术研究院 一种用于登机牌信息验证的文字检测识别方法
CN110363252A (zh) * 2019-07-24 2019-10-22 山东大学 趋向于端到端的场景文字检测与识别方法以及系统
CN110503103A (zh) * 2019-08-28 2019-11-26 上海海事大学 一种基于全卷积神经网络的文本行中的字符切分方法
CN111275038A (zh) * 2020-01-17 2020-06-12 平安医疗健康管理股份有限公司 图像文本识别方法、装置、计算机设备及计算机存储介质
CN111666937A (zh) * 2020-04-17 2020-09-15 广州多益网络股份有限公司 一种图像中的文本识别方法及系统
CN111767854A (zh) * 2020-06-29 2020-10-13 浙江大学 一种结合场景文本语义信息的slam回环检测方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912716A (zh) * 2016-04-29 2016-08-31 国家计算机网络与信息安全管理中心 一种短文本分类方法及装置
CN107609549A (zh) * 2017-09-20 2018-01-19 北京工业大学 一种自然场景下证件图像的文本检测方法
CN108647730A (zh) * 2018-05-14 2018-10-12 中国科学院计算技术研究所 一种基于历史行为共现的数据划分方法及系统
CN109102037A (zh) * 2018-06-04 2018-12-28 平安科技(深圳)有限公司 中文模型训练、中文图像识别方法、装置、设备及介质
CN109241904A (zh) * 2018-08-31 2019-01-18 平安科技(深圳)有限公司 文字识别模型训练、文字识别方法、装置、设备及介质
CN109344914A (zh) * 2018-10-31 2019-02-15 焦点科技股份有限公司 一种端到端的不定长文字识别的方法和系统
CN109543667A (zh) * 2018-11-14 2019-03-29 北京工业大学 一种基于注意力机制的文本识别方法
CN109902622A (zh) * 2019-02-26 2019-06-18 中国科学院重庆绿色智能技术研究院 一种用于登机牌信息验证的文字检测识别方法
CN110363252A (zh) * 2019-07-24 2019-10-22 山东大学 趋向于端到端的场景文字检测与识别方法以及系统
CN110503103A (zh) * 2019-08-28 2019-11-26 上海海事大学 一种基于全卷积神经网络的文本行中的字符切分方法
CN111275038A (zh) * 2020-01-17 2020-06-12 平安医疗健康管理股份有限公司 图像文本识别方法、装置、计算机设备及计算机存储介质
CN111666937A (zh) * 2020-04-17 2020-09-15 广州多益网络股份有限公司 一种图像中的文本识别方法及系统
CN111767854A (zh) * 2020-06-29 2020-10-13 浙江大学 一种结合场景文本语义信息的slam回环检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHRISTIAN BARTZ ET AL: ""STN-OCR: A single Neural Network for Text Detection and Text Recognition"", 《ARXIV:1707.08831V1 [CS.CV]》 *
DONGSHENG DUAN ET AL: ""AANE: Anomaly Aware Network Embedding For Anomalous Link Detection"", 《2020 IEEE INTERNATIONAL CONFERENCE ON DATA MINING (ICDM)》 *
唐三立 等: ""一种面向结构化文本图像识别的深度学习模型"", 《杭州电子科技大学学报(自然科学版)》 *
夏清 等: ""基于深度学习的数字几何处理与分析技术研究进展"", 《计算机研究与发展》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11976940B2 (en) * 2021-09-30 2024-05-07 Woven By Toyota, Inc. Vehicle data collection system and method of using
CN114494853A (zh) * 2021-12-27 2022-05-13 海信集团控股股份有限公司 终端及书架管理方法
CN115171141A (zh) * 2022-01-19 2022-10-11 维正知识产权科技有限公司 文本图像中下划线的识别定位方法、存储器和装置
CN115205861A (zh) * 2022-08-17 2022-10-18 北京睿企信息科技有限公司 一种获取异常文字识别区域的方法、电子设备及存储介质
CN115205861B (zh) * 2022-08-17 2023-03-31 北京睿企信息科技有限公司 一种获取异常文字识别区域的方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN112990220B (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN112990220B (zh) 一种图像中目标文本智能识别方法及系统
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
CN110705233B (zh) 基于文字识别技术的笔记生成方法、装置和计算机设备
CN109102037A (zh) 中文模型训练、中文图像识别方法、装置、设备及介质
US20170364757A1 (en) Image processing system to detect objects of interest
CN106529380A (zh) 图像的识别方法及装置
CN108256544A (zh) 图片分类方法和装置、机器人
CN111680690B (zh) 一种文字识别方法及装置
CN111160350A (zh) 人像分割方法、模型训练方法、装置、介质及电子设备
CN110866529A (zh) 字符识别方法、装置、电子设备及存储介质
CN112950477A (zh) 一种基于双路径处理的高分辨率显著性目标检测方法
CN109189965A (zh) 图像文字检索方法及系统
CN113822116A (zh) 文本识别方法、装置、计算机设备和存储介质
CN111199255A (zh) 基于darknet53网络的小目标检测网络模型及检测方法
CN110503103A (zh) 一种基于全卷积神经网络的文本行中的字符切分方法
CN115862045B (zh) 基于图文识别技术的病例自动识别方法、系统、设备及存储介质
CN111339932B (zh) 一种掌纹图像预处理方法和系统
CN110533027B (zh) 一种基于移动设备的文本检测和识别方法与系统
CN115880704A (zh) 一种病例的自动编目方法、系统、设备及存储介质
CN114463537A (zh) 一种车牌的识别方法、装置、终端及可读存储介质
CN110738213B (zh) 一种包括周边环境的图像识别方法及装置
CN113516003A (zh) 一种应用于智慧安防的基于识别模型的识别方法及装置
CN114694133B (zh) 一种基于图像处理与深度学习相结合的文本识别方法
CN113793327A (zh) 一种基于token的高铁异物检测方法
CN111985482B (zh) 一种基于深度学习的多模式多场景的自动车牌识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant