CN112990220B

CN112990220B - 一种图像中目标文本智能识别方法及系统

Info

Publication number: CN112990220B
Application number: CN202110417894.4A
Authority: CN
Inventors: 段东圣; 王海洋; 佟玲玲; 时磊; 井雅琪; 段运强; 任博雅; 李�真; 张旋; 宋吉锋; 王丽萍
Original assignee: Yantai Branch Institute Of Computing Technology Chinese Academy Of Science; National Computer Network and Information Security Management Center
Current assignee: Yantai Branch Institute Of Computing Technology Chinese Academy Of Science; National Computer Network and Information Security Management Center
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2022-08-05
Anticipated expiration: 2041-04-19
Also published as: CN112990220A

Abstract

本发明涉及人工智能技术领域，特别涉及一种图像中目标文本智能识别方法。该方法步骤如下：将目标文本由像素点坐标表示，输入目标文本像素点坐标值对像素坐标识别神经网络进行训练，获得文本自编码模型和目标文本的表述特征；根据区域的高度值计算背景区域数量，提取覆盖背景区域，剩余区域为前景区域；利用训练好的文本自编码模型在前景区域中获得待识别的文本的表述特征，将文本的表述特征与期望的目标文本的表述特征进行对比判断，若两者误差达到预设阈值，则识别文字为目标文本。本发明还提供一种图像中目标文本智能识别系统。本发明通过基于文本自编码模型来识别目标文本，能够精准定位目标文本在图像中的位置，计算复杂度低，识别准确率高。

Description

一种图像中目标文本智能识别方法及系统

技术领域

本发明涉及人工智能技术领域，特别涉及一种图像中目标文本智能识别方法及系统。

背景技术

随着互联网及智能终端的普及，以社交网络为基础的互联网应用得到快速发展，成为大众信息交流、数据发布的核心载体，随着社交数据爆炸式增长，数据获取及在此基础上的信息分析与挖掘也随之成为工业界与学界的研究热点。

现有技术图像中文本识别，其大致思路是首先定位图像中的文本区域并对文本区域内容进行OCR识别，然后将要标注的文本内容与识别出的文本内容进行匹配，最后将相匹配的文本区域自动标注到原来的图像中。例如，专利号为申CN111310693A的专利提出了一种图像中文本的智能标注方法，如图3其具体方案为：对包含文本信息的内容进行截图，得到待标注图像；对所述页面中的文本内容进行提取，得到所述页面的目标语言文本，即后续需要在待标注图像中匹配与标注的文本；对所述待标注图像进行光学字符识别，得到对应所述待标注图像的光学字符识别文本；获取所述目标语言文本中与所述光学字符识别文本对应的目标文本；基于所述目标文本，对所述待标注图像进行文本标注，得到图像标注样本。该方法可实现对图像中文本的自动标注，但如图4所示，其仅可以“行”为单位，标注图像中的文本区域，无法精准定位用户感兴趣的单个或几个字符在图像中的位置。

发明内容

针对现有技术存在的不足，本发明的目的是提供一种图像中目标文本智能识别方法及系统，能够精准识别出目标文本并定位其在图像中的位置，计算复杂度低，识别准确率高。

本发明为实现上述目的采用的技术方案是：一种图像中目标文本智能识别方法，包括如下步骤：

S1.获取目标文本的图像，将目标文本由像素点坐标表示，构建像素坐标识别神经网络，通过输入目标文本中所有文字的像素点坐标值对像素坐标识别神经网络进行训练，获得文本自编码模型和目标文本的表述特征；

S2.将待处理图像进行区域划分，得到不同像素值的区域，根据区域的高度值计算可以作为背景区域的区域数量，提取覆盖所述背景区域，剩余区域为前景区域；

S3.利用训练好的文本自编码模型在前景区域中获得待识别的文本的表述特征，将上述待识别的文本的表述特征与期望的目标文本的表述特征进行对比判断，若两者误差达到预设阈值，则识别文字为目标文本。

上述的图像中目标文本智能识别方法，在所述步骤S1中，

(1)建立文字像素点坐标系：先根据用户需求给出需要标注的目标文本的参照图像，以每个文字中经过最左侧像素点的垂直线为Y轴，经过最上方像素点的水平线为X轴；然后根据每个文字的像素点分布建立文字像素点坐标系(X_r，Y_r)，得到每个文字中像素点的坐标

(2)建立像素坐标识别神经网络模型：通过输入目标文本中所有文字的像素点坐标值

对像素坐标识别神经网络进行训练，最终得到文本自编码模型和目标文本的表述特征T；所述自编码模型包括编码部分和解码部分。

上述的图像中目标文本智能识别方法，所述像素坐标识别神经网络的训练过程包括编码过程和解码过程；所述编码过程如下：根据目标文本中的文字数量R确定输入数据集的维度，输入数据为目标文本所有文字的像素点坐标；每个汉字设定像素点坐标范围为(0，K)×(0，H)，每一个连续小区域的坐标值作为输入的矩阵的一行，所有R个汉字排列在一起组成一个矩阵，将像素点坐标以矩阵的形式输入到神经网络：

输入层将降噪处理后的数据OutP₁发送给映射层。

上述的图像中目标文本智能识别方法，所述映射层将输入的像素点坐标InP₂＝ω_1，2OutP₁映射到逻辑空间，ω_1，2为输入层到映射层的连接权值，映射函数为：

其中，OutP₂表示映射层每个神经元的输出，ω₂表示映射权值，T表示转置，a表示映射因子，用于映射数据，S为像素坐标矩阵中非零数值的数量，

表示所有坐标的均值，k，h为任意一个非零坐标点的横纵坐标位置；映射层将映射后的数据发送给逻辑层。

上述的图像中目标文本智能识别方法，所述逻辑层通过逻辑门组合出能够激活神经元的部分区间，提取文字特征，并将激活的部分进行融合；逻辑层输入为InP₃＝ω_2， ₃OutP₂，ω_2，3为映射层到逻辑层的连接权值；设立逻辑门的控制区间[0，S′]，S′≤S，用逻辑门控制当数据落在某个区间时，某些逻辑门被激活，激活函数为：

其中，

表示数据落在区间j时的激活函数，c_j表示不同区间对应的激活因子，

表示任意一个区间的输入，b表示偏移量，ω₃表示逻辑层的内部权重，对应的线性函数的权重ω₃和偏移量b在逻辑门的包裹下变成非0；

构建逻辑门：首先设立开关函数Sf：

其中，δ_af表示激活阈值，根据实际情况确定或在实验过程中由系统指定；然后通过激活函数构建开关门：

其中，Sf⁽¹⁾表示第1个神经元的开关；然后得到逻辑门：将InP₃的第二层信息进行区间划分，每个区间选取最大的值，第一层选取对应的信息；其他的值舍弃，实现特征向量的压缩得到OutP₃；

所述解码过程为：使用解码的过程将OutP₃映射为OutP₄，计算神经网络输出OutP₄与输入InP₁之间的误差，若误差小于预设的误差阈值，则神经网络训练完成，得到文本自编码模型和目标文本的表述特征T＝OutP₃；否则将每一层的参数进行更新，重新训练。

上述的图像中目标文本智能识别方法，在所述步骤S2中，根据图像中的像素值信息对图像进行区域划分，得到不同像素值的区域；统计每个区域中连续像素点纵向数量最大值作为每个区域的高度值，记为Mh_i，i表示第i个区域；根据每个区域的高度值对区域进行排序，计算可以作为背景区域的区域数量：

Noba₂＝N(Mh_i＜ε_min)st.3：Mh_min＜ε_min

其中，Noba表示背景区域数量，Noba₁和Noba₂分别是不同条件下对应的背景区域数量，Mh_max表示所有区域高度值中的最大值，Mh_min表示所有区域高度值中的最小值，ε_max和ε_min分别表示图像中文本所在区域的高度上阈值和下阈值，N(Mh_i＞ε_max)表示图像中区域高度值大于文本所在区域的高度上阈值的区域的数量，N(Mh_i＜ε_min)表示图像中区域高度值小于文本所在区域的高度下阈值的区域的数量，st.1、st.2、st.3分别表示三个条件。

上述的图像中目标文本智能识别方法，在所述步骤S3中，根据实际情况设定文本范围阈值，根据文本范围阈值将前景区域中大于阈值的区域进行分割；为分割后的前景区域中的每个独立小区域建立若干坐标系，以每个小区域经过最左侧像素点的垂直线为Y轴，经过最上方像素点的水平线为X轴，根据每个小区域的像素点分布建立小区域u的像素点坐标系(x^u，y^u)，得到每个小区域中像素点的坐标

表示第u个小区域中的第v个像素点的横坐标，

表示第u个小区域中的第v个像素点的纵坐标；设横坐标最大值为U，纵坐标最大值为V。

上述的图像中目标文本智能识别方法，利用训练好的文本自编码模型在小区域中识别出目标文本，以任意一个小区域为开始，选取R个连续小区域的坐标值，每一行结束后从下一行最左侧开始继续选取，R为目标文本中文字的数量；神经网络的输入为：

其中，任意一个小区域u的坐标输入为

u∈[1，R]；文本自编码模型的前半部分编码部分输出所述R个连续小区域坐标值的表述特征T_u，期望值为目标文本的表述特征T＝OutP₃，基于期望值获得小区域中的内容为目标文本的匹配值：

其中，Mv_D表示小区域中对应的目标文本匹配值，λ表示匹配因子，Sf⁽¹⁾表示第1个神经元的开关，设定第一个小区域的匹配度高于其余R-1个小区域，τ表示判断因子；若匹配值Mv_D达到预设阈值，则识别出该小区域为目标文本。

本发明还提供一种图像中目标文本智能识别系统，该系统包括如下模块：

坐标获取模块，用于获取目标文本图像中目标文本的像素点坐标；

模型训练模块，用于构建像素坐标识别神经网络，通过输入目标文本中所有文字的像素点坐标值对像素坐标识别神经网络进行训练，计算神经网络输出与输入之间的误差，若误差小于预设的误差阈值，则神经网络训练完成，得到文本自编码模型和目标文本的表述特征；否则将每一层的参数进行更新，重新训练；

区域划分模块，用于对待处理图像进行区域划分，得到不同像素值的区域，并根据区域的高度值计算可作为背景区域的区域数量，提取所述背景区域对其进行覆盖，剩余区域为前景区域；

文本表述特征获取模块，用于利用训练好的文本自编码模型在前景区域中获得待识别的文本的表述特征；

判断模块，用于将所述待识别的文字的表述特征与期望的目标文本的表述特征进行对比判断，若两者误差达到预设阈值，则识别文字为目标文本。

上述的图像中目标文本智能识别系统，还包括如下模块：

优化模块，用于将输入层的数据进行降噪处理；

智能标注模块，用于对识别出的目标文本进行自动标注。

本发明图像中目标文本智能识别方法，与现有技术相比：本发明摒弃传统的仅以“行”为单位标注图像中目标文本区域的做法，通过采用文本自编码模型来识别目标文本，解决了现有技术无法精准定位用户感兴趣的字符在图像中位置的技术问题。

具体的具有如下优点：

(1)本发明的像素坐标识别神经网络通过输入层的降噪处理，减少噪声对数据的影响；通过映射层将数据映射到逻辑空间；通过逻辑层组合逻辑门对激活神经元的区间数据进行压缩，提取数据有效特征得到文本的表述特征，再对其解码得到重构图像；通过显式地建模卷积特征通道之间的相互依赖性自适应地不断优化权重参数来提高网络的表示能力，有效抑制无效特征，提升有效特征的权重，便于从图像中直接、准确的识别出目标文本及定位其位置。

(2)本发明通过提取背景区域最大程度去除非文本背景区域，降低计算复杂度，且避免传统以“行”为单位进行提取的情况。

(3)本发明通过计算小区域内容与目标文本的匹配程度识别是否为目标文本，并结合匹配因子为匹配程度增加容错机制，使得神经网络可以识别不同字体的目标文本，提高标注准确率。

本发明针对数据获取阶段得到的包含文本信息的图像，自动标注其中用户感兴趣内容或帮助用户快速定位图像中其他所关注的非法违规等敏感内容，可在短时间内为文本检测与识别模型提供高质量标注数据，也可应用于非法或敏感内容取证等实际业务场景中，应用广泛，值得被广泛推广应用。

附图说明

图1为本发明智能识别方法实现流程图；

图2为本发明的文本自编码模型构建流程图；

图3为现有技术中标注方法实现流程图；

图4为现有技术中实现效果示例图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步详细说明；

如图1、2所示，一种图像中目标文本智能识别方法，包括如下步骤：

步骤S1：获取目标文本的图像，将目标文本由像素点坐标表示，构建像素坐标识别神经网络，通过输入目标文本中所有文字的像素点坐标值对像素坐标识别神经网络进行训练，获得文本自编码模型和目标文本的表述特征。

具体的，(1)用户根据个人需求给出需要标注的目标文本的参照图像，以每个文字中经过最左侧像素点的垂直线为Y轴，经过最上方像素点的水平线为X轴，根据每个文字的像素点分布建立文字像素点坐标系(X_r，Y_r)，得到每个文字中像素点的坐标

表示参照图像的第r个文字中第i个像素点的横坐标，

表示参照图像的第r个文字中第i个像素点的纵坐标。

(2)建立像素坐标识别神经网络，通过输入目标文本中所有文字的像素点坐标值

对像素坐标识别神经网络进行训练，最终得到文本自编码模型和目标文本的表述特征T。其中，自编码模型包括编码部分和解码部分。编码部分包括输入层、映射层、逻辑层；解码部分包括反卷积层、卷积层、输出层。

像素坐标识别神经网络训练过程包括编码过程和解码过程。

进一步的，编码过程如下：

输入层：根据目标文本中的文字数量R确定输入数据集的维度，输入数据为目标文本所有文字的像素点坐标；每个汉字设定像素点坐标范围为(0，K)×(0，H)，每一个连续小区域的坐标值作为输入的矩阵的一行，所有R个汉字排列在一起组成一个矩阵，将像素点坐标以矩阵的形式输入到神经网络：

在本实施例中，输入矩阵中没有像素坐标值的位置用(0，0)填充。输入层先对数据进行降噪处理，降噪处理方法采用现有技术，本发明在此不再赘述。输入层将降噪处理后的数据OutP₁发送给映射层。

进一步的，映射层将输入的像素点坐标InP₂＝ω_1，2OutP₁映射到逻辑空间，ω_1，2为输入层到映射层的连接权值，映射函数为：

表示所有坐标的均值，k，h为任意一个非零坐标点的横纵坐标位置。映射层将映射后的数据发送给逻辑层。

进一步的，逻辑层通过逻辑门组合出能够激活神经元的部分区间，提取文字特征，并将激活的部分进行融合；逻辑层输入为InP₃＝ω_2，3OutP₂，ω_2，3为映射层到逻辑层的连接权值；设立逻辑门的控制区间[0，S′]，S′≤S，用逻辑门控制当数据落在某个区间时，某些逻辑门被激活，激活函数为：

其中，

构建逻辑门：首先设立开关函数Sf：

其中，Sf⁽¹⁾表示第1个神经元的开关。

然后得到逻辑门：将InP₃的第二层信息进行区间划分，每个区间选取最大的值，第一层选取对应的信息；其他的值舍弃，实现特征向量的压缩得到OutP₃；优选的，对第二层的信息区域上的(8×8)区间进行划分。

解码过程为：使用解码的过程将OutP₃映射为OutP₄，上述OutP₄的尺寸为原始输入的尺寸。解码的过程采用图像上采样，具体过程如下：

(1)使用单层反卷积神经网络进行上采样，优选的，选用8×8×2的反卷积神经网络；

(2)使用包含2个卷积层的卷积网络，得到输出结果OutP₄。激活函数选用sigma激活函数。优选的，选用3×3×2的卷积块。

计算神经网络输出OutP₄与输入InP₁之间的误差，若误差小于预设的误差阈值，则神经网络训练完成，得到文本自编码模型和目标文本的表述特征T＝OutP₃；否则将每一层的参数进行更新，重新训练。其中，误差计算方法和参数更新方法均为现有技术，本发明在此不再赘述。

文本自编码模型的有益效果为：像素坐标识别神经网络通过输入层的降噪处理，减少噪声对数据的影响；通过映射层将数据映射到逻辑空间；通过逻辑层组合逻辑门对激活神经元的区间数据进行压缩，提取数据有效特征得到文本的表述特征，再对其解码得到重构图像；通过显式地建模卷积特征通道之间的相互依赖性自适应地不断优化权重参数来提高网络的表示能力，有效抑制无效特征，提升有效特征的权重，便于从图像中准确提取出目标文本。

步骤S2：将待处理图像进行区域划分，得到不同像素值的区域，根据区域的高度值计算可以作为背景区域的区域数量，提取覆盖所述背景区域，剩余区域为前景区域。

具体的，先根据图像中的像素值信息对图像进行区域划分，得到不同像素值的区域，区域划分方法为现有技术，本发明不再赘述。

然后，统计每个区域中连续像素点纵向数量最大值作为每个区域的高度值，记为Mh_i，i表示第i个区域。最后，根据每个区域的高度值对区域进行排序，计算可以作为背景区域的区域数量：

Noba₂＝N(Mh_i＜ε_min)st.3：Mh_min＜ε_min

文本所在区域的高度上阈值和下阈值根据实际情况由人工确定，可选取图像中文本所占像素的最大纵向数量加一作为高度上阈值，选取文本最小笔画所占像素的最小纵向数量减一作为高度下阈值。通过设定高度上阈值和高度下阈值在高度特征上滤除文本以外的图像区域以及噪声信息，便于提高后续文本提取的准确度。

进一步的，当图像中所有区域高度值中的最大值等于文本所在区域的高度上阈值时，即Mh_max＝ε_max，背景区域数量为0；当图像中所有区域高度值中的最大值大于文本所在区域的高度上阈值时，即Mh_max＞ε_max，背景区域数量为N(Mh_i＞ε_max)；若图像中所有区域高度值中的最大值等于文本所在区域的高度上阈值，且图像中所有区域高度值中的最小值小于文本所在区域的高度下阈值，即Mh_max＝ε_max且Mh_min＜ε_min，则背景区域数量为N(Mh_i＜ε_min)；若图像中所有区域高度值中的最大值大于文本所在区域的高度上阈值，且图像中所有区域高度值中的最小值小于文本所在区域的高度下阈值，即Mh_max＞ε_max且Mh_min＜ε_min，则背景区域数量为N(Mh_i＞ε_max)+N(Mh_i＜ε_min)。

根据上述方法选择出Noba个背景区域，选取图像中不存在的颜色对背景区域进行覆盖，剩余区域为前景区域。

上述背景区域提取方法的有益效果为：通过提取背景区域最大程度去除非文本背景区域，降低计算复杂度，且避免传统以“行”为单位进行提取的情况。

步骤S3：利用训练好的文本自编码模型在前景区域中获得待识别的文本的表述特征，将上述待识别的文本的表述特征与期望的目标文本的表述特征进行对比判断，若两者误差达到预设阈值，则识别文字为目标文本。

具体步骤如下：

1.经过步骤S2将图像背景区域覆盖后，剩余的前景区域中主要包括文本区域和部分未滤除的噪声信息，根据实际情况设定文本范围阈值，即图像中文本在水平方向和垂直方向所占像素数量的阈值。根据文本范围阈值将前景区域中大于阈值的区域进行分割。

2.为分割后的前景区域中的每个独立小区域建立若干坐标系，以每个小区域经过最左侧像素点的垂直线为Y轴，经过最上方像素点的水平线为X轴，根据每个小区域的像素点分布建立小区域u的像素点坐标系(x^u，y^u)，得到每个小区域中像素点的坐标

表示第u个小区域中的第v个像素点的横坐标，

表示第u个小区域中的第v个像素点的纵坐标。设横坐标最大值为U，纵坐标最大值为V。由于像素坐标识别神经网络的输入为K×H的矩阵，因此，在输入到神经网络之前，需要将坐标数据进行标准化处理，使得

U₀，V₀为调整因子。

3.利用训练好的文本自编码模型在小区域中识别出目标文本。以任意一个小区域为开始，选取R个连续小区域的坐标值，每一行结束后从下一行最左侧开始继续选取，每一个连续小区域的坐标值作为输入的矩阵的一行，R为目标文本中文字的数量；文本自编码模型神经网络的输入为：

其中，任意一个小区域u的坐标输入为

u∈[1，R]。文本自编码模型的前半部分编码部分输出R个连续小区域坐标值的表述特征T_u，期望值为目标文本的表述特征T＝OutP₃，基于期望值获得小区域中的内容为目标文本的匹配值：

其中，Mv_D表示小区域中对应的目标文本匹配值，λ表示匹配因子，Sf⁽¹⁾表示第1个神经元的开关，设定第一个小区域的匹配度高于其余R-1个小区域，τ表示判断因子；若匹配值Mv_D达到预设阈值，则识别出该小区域为目标文本，对该区域进行自动标注。

通常我们在使用文字自编码模型的时候通常只会使用自编码的前半部分编码部分，上述编码部分就可以得到文本坐标值的表述的精髓。

本发明图像中目标文本的匹配值的计算方法的有益效果为：通过计算小区域内容与目标文本的匹配程度识别是否为目标文本，并结合匹配因子为匹配程度增加容错机制，使得神经网络可以识别不同字体的目标文本，提高标注准确率。

具体的，像素点坐标获得方法如下：用户根据个人需求给出需要标注的目标文本的参照图像，以每个文字中经过最左侧像素点的垂直线为Y轴，经过最上方像素点的水平线为X轴，根据每个文字的像素点分布建立文字像素点坐标系(X_r，Y_r)，得到每个文字中像素点的坐标

表示参照图像的第r个文字中第i个像素点的横坐标，

表示参照图像的第r个文字中第i个像素点的纵坐标。

模型训练模块，用于构建像素坐标识别神经网络，通过输入目标文本中所有文字的像素点坐标值对像素坐标识别神经网络进行训练，计算神经网络输出与输入之间的误差，若误差小于预设的误差阈值，则神经网络训练完成，得到文本自编码模型和目标文本的表述特征；否则将每一层的参数进行更新，重新训练。

在一些实施例中，模型训练模块，包括像素坐标识别神经网络训练模块，通过输入目标文本中所有文字的像素点坐标值

进一步的，像素坐标识别神经网络的训练过程包括编码过程和解码过程，编码过程如下：

输入层：先根据目标文本中的文字数量R确定输入数据集的维度，输入数据为目标文本所有文字的像素点坐标。每个汉字设定像素点坐标范围为(0，K)×(0，H)，每一个连续小区域的坐标值作为输入的矩阵的一行，所有R个汉字排列在一起组成一个矩阵，将像素点坐标以矩阵的形式输入到神经网络：

在本实施例中，输入矩阵中没有像素坐标值的位置用(0，0)填充。输入层先对数据进行降噪处理，降噪处理方法采用现有技术，本发明在此不做过多阐述。输入层将降噪处理后的数据OutP₁发送给映射层；

进一步的，逻辑层通过逻辑门组合出能够激活神经元的部分区间，提取文字特征，并将激活的部分进行融合。逻辑层输入为InP₃＝ω_2，3OutP₂，ω_2，3为映射层到逻辑层的连接权值。设立逻辑门的控制区间[0，S′]，S′≤S，用逻辑门控制当数据落在某个区间时，某些逻辑门被激活。激活函数为：

其中，

表示任意一个区间的输入，b表示偏移量，ω₃表示逻辑层的内部权重，对应的线性函数的权重ω₃和偏移量b在逻辑门的包裹下变成非0。

构建逻辑门：首先设立开关函数Sf：

其中，Sf⁽¹⁾表示第1个神经元的开关；

解码过程如下：使用解码的过程将OutP₃映射为OutP₄，上述OutP₄的尺寸为原始输入的尺寸。解码的过程采用图像上采样，具体过程如下：

计算神经网络输出OutP₄与输入InP₁之间的误差，若误差小于预设的误差阈值，则神经网络训练完成，得到文本自编码模型和目标文本的表述特征T＝OutP₃；否则将每一层的参数进行更新，重新训练。其中，误差计算方法和参数更新方法均为现有技术，本发明不再赘述。

具体的，根据区域的高度值计算可作为背景区域的区域数量，提取所述背景区域对其进行覆盖方法为：

统计每个区域中连续像素点纵向数量最大值作为每个区域的高度值，记为Mh_i，i表示第i个区域。最后，根据每个区域的高度值对区域进行排序，计算可以作为背景区域的区域数量：

Noba₂＝N(Mh_i＜ε_min)st.3：Mh_min＜ε_min

文本表述特征获取模块，用于利用训练好的文本自编码模型在前景区域中获得待识别的文本的表述特征，并根据匹配值识别出目标文本。具体的，将所有待识别文字中R个连续小区域的像素点坐标值输入到上述文字自编码模型，获得所述R个连续小区域中待识别的文字的表述特征，其中R为目标文本中文字的数量。

在一些实施例中，文本表述特征获取模块包括前景区域分割模块、坐标数据处理模块、获取模块。

在一些实施例中，前景区域分割模块，用于根据实际情况设定文本范围阈值，即图像中文本在水平方向和垂直方向所占像素数量的阈值。根据文本范围阈值将前景区域中大于阈值的区域进行分割。

在一些实施例中，坐标数据处理模块，用于为分割后的前景区域中的每个独立小区域建立若干坐标系，以每个小区域经过最左侧像素点的垂直线为Y轴，经过最上方像素点的水平线为X轴，根据每个小区域的像素点分布建立小区域u的像素点坐标系(x^u，y^u)，得到每个小区域中像素点的坐标

表示第u个小区域中的第v个像素点的横坐标，

表示第u个小区域中的第v个像素点的纵坐标。进一步的，设横坐标最大值为U，纵坐标最大值为V。由于像素坐标识别神经网络的输入为K×H的矩阵，因此，在输入到神经网络之前，需要将坐标数据进行标准化处理，使得

U₀，V₀为调整因子。

在一些实施例中，获取模块，用于利用训练好的文本自编码模型在小区域中获得待识别文本的表述特征。以任意一个小区域为开始，选取R个连续小区域的坐标值，每一行结束后从下一行最左侧开始继续选取，每一个连续小区域的坐标值作为输入的矩阵的一行，R为目标文本中文字的数量。神经网络的输入为：

其中，任意一个小区域u的坐标输入为

u∈[1，R]。文本自编码模型的前半部分编码部分输出所述R个连续小区域坐标值的表述特征T_u。

判断模块，用于将所述待识别的文字的表述特征与期望的目标文本的表述特征进行对比判断，若两者误差达到预设阈值，则识别文字为目标文本；

在一些实施例中，判断模块，包括匹配值获取模块和目标文本识别模块。匹配值获取模块，用于基于期望值，即目标文本表述特征，获取图像中待检测文本的匹配值；

期望值为目标文本的表述特征T＝OutP₃，基于期望值获得小区域中待检测文本为目标文本的匹配值：

其中，Mv_D表示小区域中对应的目标文本匹配值，λ表示匹配因子，用于提高匹配判断的容错率，Sf⁽¹⁾表示第1个神经元的开关，用于提高匹配判断容错率；设定第一个小区域的匹配度高于其余R-1个小区域，τ表示判断因子。

目标文本识别模块，用于根据匹配值Mv_D判断待处理图像中文字是否包含目标文本，若匹配值Mv_D达到预设阈值，则识别出该小区域为目标文本；

在一些实施例中，判断模块，包括匹配值设置模块和目标文本识别模块。

本发明的图像中目标文本智能识别系统，还包括如下模块：

优化模块，用于将输入层的数据进行降噪处理；

智能标注模块，用于对识别出的目标文本进行自动标注。

上述实施例只是为了说明本发明的技术构思及特点，其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所做出的等效的变化或修改，都应涵盖在本发明的保护范围内。

Claims

1.一种图像中目标文本智能识别方法，其特征在于，包括如下步骤：

像素坐标识别神经网络训练过程包括编码过程和解码过程，编码部分包括输入层、映射层、逻辑层；解码部分包括反卷积层、卷积层、输出层；

编码过程：根据目标文本中的文字数量R确定输入数据集的维度，输入数据为目标文本所有文字的像素点坐标；每个汉字设定像素点坐标范围为(0，K)×(0，H)，每一个连续小区域的坐标值作为输入的矩阵的一行，所有R个汉字排列在一起组成一个矩阵，将像素点坐标以矩阵的形式输入到神经网络：

输入层将降噪处理后的数据OutP₁发送给映射层，映射层将输入的像素点坐标InP₂＝ω_1，2OutP₁映射到逻辑空间，ω_1，2为输入层到映射层的连接权值，映射层将映射后的数据发送给逻辑层，逻辑层通过逻辑门组合出能够激活神经元的部分区间，提取文字特征，并将激活的部分进行融合，对其解码得到重构图像；

解码过程：使用单层反卷积神经网络进行上采样，使用包含2个卷积层的卷积网络，得到输出结果，建模卷积特征通道之间的相互依赖性自适应地不断优化权重参数来提高网络的表示能力，有效抑制无效特征，提升有效特征的权重，便于从图像中准确提取出目标文本；

根据图像中的像素值信息对图像进行区域划分，得到不同像素值的区域；统计每个区域中连续像素点纵向数量最大值作为每个区域的高度值，记为Mh_i，i表示第i个区域，根据每个区域的高度值对区域进行排序，计算可以作为背景区域的区域数量：

Noba₂＝N(Mh_i＜ε_min)st.3：Mh_min＜ε_min

其中，Noba表示背景区域数量，Noba₁和Noba₂分别是不同条件下对应的背景区域数量，Mh_max表示所有区域高度值中的最大值，Mh_min表示所有区域高度值中的最小值，ε_max和ε_min分别表示图像中文本所在区域的高度上阈值和下阈值，N(Mh_i＞ε_max)表示图像中区域高度值大于文本所在区域的高度上阈值的区域的数量，N(Mh_i＜ε_min)表示图像中区域高度值小于文本所在区域的高度下阈值的区域的数量，st.1、st.2、st.3分别表示三个条件；

S3.利用训练好的文本自编码模型在前景区域中获得待识别的文本的表述特征，将上述待识别的文本的表述特征与期望的目标文本的表述特征进行对比判断，若两者误差达到预设阈值，则识别文字为目标文本；

以任意一个小区域为开始，选取R个连续小区域的坐标值，每一行结束后从下一行最左侧开始继续选取，每一个连续小区域的坐标值作为输入的矩阵的一行，R为目标文本中文字的数量；文本自编码模型神经网络的输入为：

其中，任意一个小区域u的坐标输入为

文本自编码模型的前半部分编码部分输出R个连续小区域坐标值的表述特征T_u，期望值为目标文本的表述特征T＝OutP₃，基于期望值获得小区域中的内容为目标文本的匹配值：

2.根据权利要求1所述的图像中目标文本智能识别方法，其特征在于，在所述步骤S1中，

3.根据权利要求2所述的图像中目标文本智能识别方法，其特征在于，所述映射层将输入的像素点坐标InP₂＝ω_1，2OutP₁映射到逻辑空间，ω_1，2为输入层到映射层的连接权值，映射函数为：

4.根据权利要求3所述的图像中目标文本智能识别方法，其特征在于，所述逻辑层通过逻辑门组合出能够激活神经元的部分区间，提取文字特征，并将激活的部分进行融合；逻辑层输入为InP₃＝ω_2，3OutP₂，ω_2，3为映射层到逻辑层的连接权值；设立逻辑门的控制区间[0，S′]，S′≤S，用逻辑门控制当数据落在某个区间时，某些逻辑门被激活，激活函数为：

其中，

构建逻辑门：首先设立开关函数Sf：

5.根据权利要求4所述的图像中目标文本智能识别方法，其特征在于，在所述步骤S3中，根据实际情况设定文本范围阈值，根据文本范围阈值将前景区域中大于阈值的区域进行分割；为分割后的前景区域中的每个独立小区域建立若干坐标系，以每个小区域经过最左侧像素点的垂直线为Y轴，经过最上方像素点的水平线为X轴，根据每个小区域的像素点分布建立小区域u的像素点坐标系(x^u，y^u)，得到每个小区域中像素点的坐标

表示第u个小区域中的第v个像素点的横坐标，

6.一种图像中目标文本智能识别系统，其特征在于，包括如下模块：

坐标获取模块，用于获取目标文本图像中目标文本的像素点坐标；像素点坐标获得方法如下：用户根据个人需求给出需要标注的目标文本的参照图像，以每个文字中经过最左侧像素点的垂直线为Y轴，经过最上方像素点的水平线为X轴，根据每个文字的像素点分布建立文字像素点坐标系(X_r，Y_r)，得到每个文字中像素点的坐标

表示参照图像的第r个文字中第i个像素点的横坐标，Y_i ^r表示参照图像的第r个文字中第i个像素点的纵坐标；

模型训练模块，用于构建像素坐标识别神经网络，通过输入目标文本中所有文字的像素点坐标值对像素坐标识别神经网络进行训练，计算神经网络输出与输入之间的误差，若误差小于预设的误差阈值，则神经网络训练完成，得到文本自编码模型和目标文本的表述特征；否则将每一层的参数进行更新，重新训练；模型训练模块包括像素坐标识别神经网络训练模块，通过输入目标文本中所有文字的像素点坐标值

对像素坐标识别神经网络进行训练，最终得到文本自编码模型和目标文本的表述特征；其中，自编码模型包括编码部分和解码部分；编码部分包括输入层、映射层、逻辑层；解码部分包括反卷积层、卷积层、输出层；

区域划分模块，用于对待处理图像进行区域划分，得到不同像素值的区域，并根据区域的高度值计算可作为背景区域的区域数量，提取所述背景区域对其进行覆盖，剩余区域为前景区域；根据区域的高度值计算可作为背景区域的区域数量，提取所述背景区域对其进行覆盖方法为：统计每个区域中连续像素点纵向数量最大值作为每个区域的高度值，记为Mh_i，i表示第i个区域；根据每个区域的高度值对区域进行排序，计算可以作为背景区域的区域数量；

文本表述特征获取模块，用于利用训练好的文本自编码模型在前景区域中获得待识别的文本的表述特征，并根据匹配值识别出目标文本；具体的，将所有待识别文字中R个连续小区域的像素点坐标值输入到上述文本自编码模型，获得所述R个连续小区域中待识别的文字的表述特征，其中R为目标文本中文字的数量；

判断模块，用于将所述待识别的文字的表述特征与期望的目标文本的表述特征进行对比判断，若两者误差达到预设阈值，则识别文字为目标文本；判断模块包括匹配值获取模块和目标文本识别模块；匹配值获取模块，用于基于期望值，即目标文本表述特征，获取图像中待检测文本的匹配值；目标文本识别模块，用于根据匹配值Mv_D判断待处理图像中文字是否包含目标文本，若匹配值Mv_D达到预设阈值，则识别出该小区域为目标文本。

7.根据权利要求6所述的图像中目标文本智能识别系统，其特征在于，还包括如下模块：

优化模块，用于将输入层的数据进行降噪处理；

智能标注模块，用于对识别出的目标文本进行自动标注。