CN113342997A

CN113342997A - 一种基于文本行匹配的跨图文本阅读方法

Info

Publication number: CN113342997A
Application number: CN202110538489.8A
Authority: CN
Inventors: 李宏亮; 戴禹; 李宏瑞; 何书航
Original assignee: Chengdu Kuaiyan Technology Co ltd
Current assignee: Chengdu Kuaiyan Technology Co ltd
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-09-03
Anticipated expiration: 2041-05-18
Also published as: CN113342997B

Abstract

本发明提供一种基于文本行匹配的跨图文本阅读方法，包括：步骤10，获取输入的两张文本图像；步骤20，提取出文本行位置，过滤不可读文本行并进行特征提取，得到文本行特征；步骤30，获得文本行匹配结果：步骤31，将文本行位置和文本行特征进行特征编码得到节点特征；步骤32，对节点特征进行自优化和交叉优化得到优化后的节点特征；步骤33，利用优化后的节点特征计算打分矩阵，得到文本行匹配结果；步骤4，根据文本行匹配结果拼接文本行特征，并提取出对应文本得到文本识别结果；步骤5，融合文本识别结果，得到文本阅读结果。本发明能够充分利用文本的先验信息，在文本行级别上完成跨图文本阅读任务，取得了比像素级合并和阅读方法更好的效果。

Description

一种基于文本行匹配的跨图文本阅读方法

技术领域

本发明涉及文本识别技术领域，具体而言，涉及一种基于文本行匹配的跨图文本阅读方法。

背景技术

文本是知识，文化和想法的重要载体，包含了丰富的语义信息。因此，从文本图像阅读文本是很有意义的。然而，移动设备的视野有限，并且由移动设备捕获的文本图像仅包含整个阅读场景的一部分。为了解决这个问题，我们定义了跨图文本阅读任务：给定两个有重叠部分的文本图像，我们希望按阅读顺序读取没有冗余的文本内容。

为了实现跨图文本阅读任务，一个直接的想法是像素级合并和阅读方法。这种方法先在像素级别进行特征匹配，而后根据特征匹配的结果对两张文本图像进行融合，最后阅读合成图像中的文本。但是，在阅读场景中，文本图像的背景比较简单，特征检测器容易检测到中文字符的边缘特征，而中文的形近字较多，使得特征匹配网络生成错误的匹配。即使文本图像匹配完全正确，不可读的文本也被包括在合成文本中，使得最终的阅读结果出现错误。这些问题的主要原因是像素级合并和阅读方法忽略了阅读场景中形近字带来的匹配错误和阅读顺序的先验信息。

在真实阅读场景中，我们会逐行进行阅读。这种情况下，如果直接对整张图像进行操作，会引入大量的背景冗余。因此，需要在文本行级别上进行跨图文本阅读，在减少背景冗余的同时学习阅读顺序的先验信息。

发明内容

本发明旨在提供一种基于文本行匹配的跨图文本阅读方法，以解决由于阅读场景中存在形近字和不可读文本，导致像素级合并和阅读方法容易生成错误匹配，且阅读结果中会出现冗余文本的问题。

本发明提供的一种基于文本行匹配的跨图文本阅读方法，包括如下步骤：

步骤10，获取输入的两张文本图像；所述两张文本图像为左视角图像和右视角图像；

步骤20，从所述两张文本图像中提取出对应的文本行位置，并利用所述左视角图像的文本行位置通过阈值过滤该左视角图像的不可读文本行，再对过滤了不可读文本行的左视角图像以及右视角图像进行特征提取，得到对应的文本行特征；

步骤30，获得文本行匹配结果：

步骤31，将两张文本图像对应的文本行位置和文本行特征进行特征编码得到对应的节点特征；

步骤32，对所述节点特征进行自优化和交叉优化得到优化后的节点特征；

步骤33，通过利用所述优化后的节点特征计算打分矩阵的方式进行文本行匹配，得到文本行匹配结果；

步骤4，根据所述文本行匹配结果拼接相关的文本行特征，并从拼接后的文本行特征中提取出对应文本，得到文本识别结果；

步骤5，根据阅读顺序融合所述文本识别结果，得到文本阅读结果。

进一步的，步骤20包括如下子步骤：

步骤21，采用文本检测网络对所述两张文本图像进行文本行位置提取，该文本行位置提取操作表示为l_i＝DBNet(i)，得到对应的文本行位置{l_i|i＝A,B}；

其中，A表示左视角图像和B表示右视角图像，DBNet表示所述文本检测网络；i表示取值为输入的左视角图像A和右视角图像B；

步骤22，利用所述左视角图像A的文本行位置构建二值化图像并逐列求和，然后从所述逐列求和的结果中寻找极小值点，判断所述极小值点的值是否大于设定阈值：

(1)如果所述极小值点的值大于设定阈值，则在所述文本行位置中除掉中点在极小值点左边的文本行，该在极小值点左边的文本行即为不可读文本行，并对剩余的文本行根据中点的纵坐标进行排序；

(2)如果所述极小值点的值小于等于设定阈值，则直接对所有文本行根据中点的纵坐标进行排序；

步骤23，再利用所述两张文本图像的文本行位置裁剪经步骤22过滤了不可读文本行的左视角图像A以及右视角图像B，然后采用卷积神经网络对裁剪后的左视角图像A和右视角图像B进行特征提取，该特征提取操作表示为v_i＝CNN(Crop(i,l_i))，得到对应的文本行特征{v_i|i＝A,B}；

其中，CNN表示所述卷积神经网络；Crop表示裁剪操作。

进一步的，步骤31中包括如下子步骤：

步骤311，采用多层感知机对文本行特征{v_i|i＝A,B}和文本行位置{l_i|i＝A,B}进行编码，该编码操作表示为

和

得到编码后的文本行特征

和文本行位置

其中，MLP_v表示文本行特征多层感知机，MLP_l表示文本行位置多层感知机；

步骤312，将编码后的文本行特征

和文本行位置

逐元素相加，该逐元素相加操作表示为

得到节点特征{n_i|i＝A,B}。

进一步的，步骤32包括如下子步骤：

步骤321，将节点特征{n_i|i＝A,B}送入自注意力图网络进行自优化，该自优化操作表示为

得到自优化节点特征

步骤322，将自优化节点特征

送入交叉注意力图网络进行交叉优化，该交叉优化操作表示为：

得到交叉优化节点特征

步骤323，将交叉优化节点特征

再执行步骤321和步骤322的操作并重复执行N次，得到优化后的节点特征；

其中，MLP表示基于多层感知机的线性映射，Multihead表示自注意力图网络和交叉注意力图网络均包含的多头注意力网络，[·]表示拼接操作。

进一步的，步骤33包括如下子步骤：

步骤331，将文本图像A和文本图像B对应的优化后的节点特征通过两个全连接层分别进行线性映射，得到线性映射后的节点特征{f_i|i＝A,B}；

步骤332，对线性映射后的节点特征{f_i|i＝A,B}跨图进行逐个点乘，该跨图进行逐个点乘的操作表示为

其中，

表示文本图像A对应的线性映射后的节点特征，m表示过滤了不可读文本行的左视角图像A包含m个文本行；

表示文本图像B对应的线性映射后的节点特征，n表示右视角图像包含n个文本行；⊙表示点乘；S_m,n表示点乘结果；

步骤333，对点乘结果S_m,n增加一行一列存放不匹配节点对，组成打分矩阵S；

步骤334，将打分矩阵S送入匹配优化网络进行优化，该优化操作表示为S_k＝Sinkhorn(S)，得到优化后的打分矩阵S_k；其中，Sinkhorn表示Sinkhorn最优传输优化算法；

步骤335，设定打分阈值，比较优化后的打分矩阵S_k中的每个位置与打分阈值的大小：优化后的打分矩阵S_k中高于打分阈值的位置对应的匹配为有效匹配，其余位置对应的匹配为无效匹配。

进一步的，步骤4包括如下子步骤：

步骤41，将所述文本行匹配结果中的有效匹配对应的文本行特征进行拼接，并对所述文本行匹配结果中的无效匹配但是在阅读顺序中的左视角图像A的文本行特征补零，得到文本内容特征C；

步骤42，将文本内容特征C通过两个双向长短期记忆人工神经网络和两个全连接网络得到文本识别结果R。

进一步的，步骤5包括如下子步骤：

步骤51，将所述文本识别结果R输入语言编码器进行语言编码，该语言编码操作表示为T＝Bert(R)，得到文本语义特征T；其中，Bert表示基于Bert的语言编码器；

步骤52，将所述文本语义特征T输入编辑编码器进行编辑解码，该编辑解码操作表示为E＝FC(T)，得到编辑结果E；其中，FC表示基于全连接层的编辑解码器；

步骤53，将所述编辑结果E与文本识别结果R进行哈达玛乘积，该哈达玛乘积操作表示为

得到文本阅读结果P；其中，

表示哈达玛乘积。

综上所述，由于采用了上述技术方案，本发明的有益效果是：本发明提取文本行特征，并结合文本行位置进行特征编码，得到节点特征，而后对节点特征进行文本行匹配，再根据匹配结果融合文本行特征，并识别出对应文本，消除文本冗余，从而能够充分利用文本的先验信息，在文本行级别上完成跨图文本阅读任务，取得了比像素级合并和阅读方法更好的效果。具体地：

(1)本发明通过对输入的文本图像进行文本行位置提取，减少背景信息的干扰；

(2)本发明通过对文本行特征和文本行位置信息进行融合，提高了文本行匹配精度；

(3)本发明采用基于注意力的图网络对节点特征进行聚合，使得节点特征更适于文本行匹配任务；

(4)本发明采用语言编码器、编辑解码器对文本输出进行后处理，消除了文本输出中的冗余文本。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例的基于文本行匹配的跨图文本阅读方法的流程图。

图2为本发明实施例的文本行匹配流程图。

图3为本发明实施例的文本识别流程图。

图4为本发明实施例的文本编辑流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，本实施例提出一种基于文本行匹配的跨图文本阅读方法，包括如下步骤：

步骤10，获取输入的两张文本图像；所述两张文本图像为左视角图像A和右视角图像B；

步骤20，从所述两张文本图像中提取出对应的文本行位置，并利用所述左视角图像的文本行位置通过阈值过滤该左视角图像的不可读文本行，再对过滤了不可读文本行的左视角图像以及右视角图像进行特征提取，得到对应的文本行特征；具体包括如下子步骤：

步骤22，利用所述左视角图像A的文本行位置构建二值化图像并逐列求和，然后从所述逐列求和的结果中寻找极小值点，判断所述极小值点的值是否大于设定阈值(为了，能够过滤左视角图像的文本冗余，该设定阈值可以取120-150，经过本实施例实验，设定阈值为140时效果最好)：

其中，CNN表示所述卷积神经网络；Crop表示裁剪操作。

步骤30，获得文本行匹配结果，如图2所示：

步骤31，将两张文本图像对应的文本行位置和文本行特征进行特征编码得到对应的节点特征：

和

得到编码后的文本行特征

和文本行位置

步骤312，将编码后的文本行特征

和文本行位置

逐元素相加，该逐元素相加操作表示为

得到节点特征{n_i|i＝A,B}

步骤32，对所述节点特征进行自优化和交叉优化得到优化后的节点特征：

得到自优化节点特征

步骤322，将自优化节点特征

得到交叉优化节点特征

步骤323，将交叉优化节点特征

再执行步骤321和步骤322的操作并重复执行N次(为了使节点特征适应文本行匹配任务，N可以取值为6-12，经过本实施例实验，N取值为9时效果最好)，得到优化后的节点特征；

步骤33，通过利用所述优化后的节点特征计算打分矩阵的方式进行文本行匹配，得到文本行匹配结果：

其中，

步骤4，根据所述文本行匹配结果拼接相关的文本行特征，并从拼接后的文本行特征中提取出对应文本，得到文本识别结果；如图3所示，具体包括如下子步骤：

步骤42，将文本内容特征C通过两个双向长短期记忆人工神经网络和两个全连接网络得到文本识别结果R。其中，文本内容特征C是依次通过双向长短期记忆人工神经网络、全连接层、双向长短期记忆人工神经网络、全连接层得到文本识别结果R。

步骤5，根据阅读顺序融合所述文本识别结果，得到文本阅读结果；如图4所示，具体包括如下子步骤：

得到文本阅读结果P；其中，

表示哈达玛乘积。

至此，本发明实现了基于文本行匹配的跨图文本阅读方法。由于现有的像素级合并和阅读方法在像素级别上进行图像匹配和融合，没有考虑到文本特征的先验信息。本发明提取文本行特征，并结合文本行位置进行特征编码，得到节点特征，而后对节点特征进行文本行匹配，再根据匹配结果融合文本行特征，并识别出对应文本，消除文本冗余，从而能够充分利用文本的先验信息，在文本行级别上完成跨图文本阅读任务，取得了比像素级合并和阅读方法更好的效果。具体地：

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。