CN113342997A - 一种基于文本行匹配的跨图文本阅读方法 - Google Patents

一种基于文本行匹配的跨图文本阅读方法 Download PDF

Info

Publication number
CN113342997A
CN113342997A CN202110538489.8A CN202110538489A CN113342997A CN 113342997 A CN113342997 A CN 113342997A CN 202110538489 A CN202110538489 A CN 202110538489A CN 113342997 A CN113342997 A CN 113342997A
Authority
CN
China
Prior art keywords
text
text line
image
features
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110538489.8A
Other languages
English (en)
Other versions
CN113342997B (zh
Inventor
李宏亮
戴禹
李宏瑞
何书航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Kuaiyan Technology Co ltd
Original Assignee
Chengdu Kuaiyan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Kuaiyan Technology Co ltd filed Critical Chengdu Kuaiyan Technology Co ltd
Priority to CN202110538489.8A priority Critical patent/CN113342997B/zh
Publication of CN113342997A publication Critical patent/CN113342997A/zh
Application granted granted Critical
Publication of CN113342997B publication Critical patent/CN113342997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于文本行匹配的跨图文本阅读方法,包括:步骤10,获取输入的两张文本图像;步骤20,提取出文本行位置,过滤不可读文本行并进行特征提取,得到文本行特征;步骤30,获得文本行匹配结果:步骤31,将文本行位置和文本行特征进行特征编码得到节点特征;步骤32,对节点特征进行自优化和交叉优化得到优化后的节点特征;步骤33,利用优化后的节点特征计算打分矩阵,得到文本行匹配结果;步骤4,根据文本行匹配结果拼接文本行特征,并提取出对应文本得到文本识别结果;步骤5,融合文本识别结果,得到文本阅读结果。本发明能够充分利用文本的先验信息,在文本行级别上完成跨图文本阅读任务,取得了比像素级合并和阅读方法更好的效果。

Description

一种基于文本行匹配的跨图文本阅读方法
技术领域
本发明涉及文本识别技术领域,具体而言,涉及一种基于文本行匹配的跨图文本阅读方法。
背景技术
文本是知识,文化和想法的重要载体,包含了丰富的语义信息。因此,从文本图像阅读文本是很有意义的。然而,移动设备的视野有限,并且由移动设备捕获的文本图像仅包含整个阅读场景的一部分。为了解决这个问题,我们定义了跨图文本阅读任务:给定两个有重叠部分的文本图像,我们希望按阅读顺序读取没有冗余的文本内容。
为了实现跨图文本阅读任务,一个直接的想法是像素级合并和阅读方法。这种方法先在像素级别进行特征匹配,而后根据特征匹配的结果对两张文本图像进行融合,最后阅读合成图像中的文本。但是,在阅读场景中,文本图像的背景比较简单,特征检测器容易检测到中文字符的边缘特征,而中文的形近字较多,使得特征匹配网络生成错误的匹配。即使文本图像匹配完全正确,不可读的文本也被包括在合成文本中,使得最终的阅读结果出现错误。这些问题的主要原因是像素级合并和阅读方法忽略了阅读场景中形近字带来的匹配错误和阅读顺序的先验信息。
在真实阅读场景中,我们会逐行进行阅读。这种情况下,如果直接对整张图像进行操作,会引入大量的背景冗余。因此,需要在文本行级别上进行跨图文本阅读,在减少背景冗余的同时学习阅读顺序的先验信息。
发明内容
本发明旨在提供一种基于文本行匹配的跨图文本阅读方法,以解决由于阅读场景中存在形近字和不可读文本,导致像素级合并和阅读方法容易生成错误匹配,且阅读结果中会出现冗余文本的问题。
本发明提供的一种基于文本行匹配的跨图文本阅读方法,包括如下步骤:
步骤10,获取输入的两张文本图像;所述两张文本图像为左视角图像和右视角图像;
步骤20,从所述两张文本图像中提取出对应的文本行位置,并利用所述左视角图像的文本行位置通过阈值过滤该左视角图像的不可读文本行,再对过滤了不可读文本行的左视角图像以及右视角图像进行特征提取,得到对应的文本行特征;
步骤30,获得文本行匹配结果:
步骤31,将两张文本图像对应的文本行位置和文本行特征进行特征编码得到对应的节点特征;
步骤32,对所述节点特征进行自优化和交叉优化得到优化后的节点特征;
步骤33,通过利用所述优化后的节点特征计算打分矩阵的方式进行文本行匹配,得到文本行匹配结果;
步骤4,根据所述文本行匹配结果拼接相关的文本行特征,并从拼接后的文本行特征中提取出对应文本,得到文本识别结果;
步骤5,根据阅读顺序融合所述文本识别结果,得到文本阅读结果。
进一步的,步骤20包括如下子步骤:
步骤21,采用文本检测网络对所述两张文本图像进行文本行位置提取,该文本行位置提取操作表示为li=DBNet(i),得到对应的文本行位置{li|i=A,B};
其中,A表示左视角图像和B表示右视角图像,DBNet表示所述文本检测网络;i表示取值为输入的左视角图像A和右视角图像B;
步骤22,利用所述左视角图像A的文本行位置构建二值化图像并逐列求和,然后从所述逐列求和的结果中寻找极小值点,判断所述极小值点的值是否大于设定阈值:
(1)如果所述极小值点的值大于设定阈值,则在所述文本行位置中除掉中点在极小值点左边的文本行,该在极小值点左边的文本行即为不可读文本行,并对剩余的文本行根据中点的纵坐标进行排序;
(2)如果所述极小值点的值小于等于设定阈值,则直接对所有文本行根据中点的纵坐标进行排序;
步骤23,再利用所述两张文本图像的文本行位置裁剪经步骤22过滤了不可读文本行的左视角图像A以及右视角图像B,然后采用卷积神经网络对裁剪后的左视角图像A和右视角图像B进行特征提取,该特征提取操作表示为vi=CNN(Crop(i,li)),得到对应的文本行特征{vi|i=A,B};
其中,CNN表示所述卷积神经网络;Crop表示裁剪操作。
进一步的,步骤31中包括如下子步骤:
步骤311,采用多层感知机对文本行特征{vi|i=A,B}和文本行位置{li|i=A,B}进行编码,该编码操作表示为
Figure BDA0003070670840000031
Figure BDA0003070670840000032
得到编码后的文本行特征
Figure BDA0003070670840000033
和文本行位置
Figure BDA0003070670840000034
其中,MLPv表示文本行特征多层感知机,MLPl表示文本行位置多层感知机;
步骤312,将编码后的文本行特征
Figure BDA0003070670840000035
和文本行位置
Figure BDA0003070670840000041
逐元素相加,该逐元素相加操作表示为
Figure BDA0003070670840000042
得到节点特征{ni|i=A,B}。
进一步的,步骤32包括如下子步骤:
步骤321,将节点特征{ni|i=A,B}送入自注意力图网络进行自优化,该自优化操作表示为
Figure BDA0003070670840000043
得到自优化节点特征
Figure BDA0003070670840000044
步骤322,将自优化节点特征
Figure BDA0003070670840000045
送入交叉注意力图网络进行交叉优化,该交叉优化操作表示为:
Figure BDA0003070670840000046
Figure BDA0003070670840000047
得到交叉优化节点特征
Figure BDA0003070670840000048
步骤323,将交叉优化节点特征
Figure BDA0003070670840000049
再执行步骤321和步骤322的操作并重复执行N次,得到优化后的节点特征;
其中,MLP表示基于多层感知机的线性映射,Multihead表示自注意力图网络和交叉注意力图网络均包含的多头注意力网络,[·]表示拼接操作。
进一步的,步骤33包括如下子步骤:
步骤331,将文本图像A和文本图像B对应的优化后的节点特征通过两个全连接层分别进行线性映射,得到线性映射后的节点特征{fi|i=A,B};
步骤332,对线性映射后的节点特征{fi|i=A,B}跨图进行逐个点乘,该跨图进行逐个点乘的操作表示为
Figure BDA00030706708400000410
其中,
Figure BDA00030706708400000411
表示文本图像A对应的线性映射后的节点特征,m表示过滤了不可读文本行的左视角图像A包含m个文本行;
Figure BDA00030706708400000412
表示文本图像B对应的线性映射后的节点特征,n表示右视角图像包含n个文本行;⊙表示点乘;Sm,n表示点乘结果;
步骤333,对点乘结果Sm,n增加一行一列存放不匹配节点对,组成打分矩阵S;
步骤334,将打分矩阵S送入匹配优化网络进行优化,该优化操作表示为Sk=Sinkhorn(S),得到优化后的打分矩阵Sk;其中,Sinkhorn表示Sinkhorn最优传输优化算法;
步骤335,设定打分阈值,比较优化后的打分矩阵Sk中的每个位置与打分阈值的大小:优化后的打分矩阵Sk中高于打分阈值的位置对应的匹配为有效匹配,其余位置对应的匹配为无效匹配。
进一步的,步骤4包括如下子步骤:
步骤41,将所述文本行匹配结果中的有效匹配对应的文本行特征进行拼接,并对所述文本行匹配结果中的无效匹配但是在阅读顺序中的左视角图像A的文本行特征补零,得到文本内容特征C;
步骤42,将文本内容特征C通过两个双向长短期记忆人工神经网络和两个全连接网络得到文本识别结果R。
进一步的,步骤5包括如下子步骤:
步骤51,将所述文本识别结果R输入语言编码器进行语言编码,该语言编码操作表示为T=Bert(R),得到文本语义特征T;其中,Bert表示基于Bert的语言编码器;
步骤52,将所述文本语义特征T输入编辑编码器进行编辑解码,该编辑解码操作表示为E=FC(T),得到编辑结果E;其中,FC表示基于全连接层的编辑解码器;
步骤53,将所述编辑结果E与文本识别结果R进行哈达玛乘积,该哈达玛乘积操作表示为
Figure BDA0003070670840000051
得到文本阅读结果P;其中,
Figure BDA0003070670840000052
表示哈达玛乘积。
综上所述,由于采用了上述技术方案,本发明的有益效果是:本发明提取文本行特征,并结合文本行位置进行特征编码,得到节点特征,而后对节点特征进行文本行匹配,再根据匹配结果融合文本行特征,并识别出对应文本,消除文本冗余,从而能够充分利用文本的先验信息,在文本行级别上完成跨图文本阅读任务,取得了比像素级合并和阅读方法更好的效果。具体地:
(1)本发明通过对输入的文本图像进行文本行位置提取,减少背景信息的干扰;
(2)本发明通过对文本行特征和文本行位置信息进行融合,提高了文本行匹配精度;
(3)本发明采用基于注意力的图网络对节点特征进行聚合,使得节点特征更适于文本行匹配任务;
(4)本发明采用语言编码器、编辑解码器对文本输出进行后处理,消除了文本输出中的冗余文本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例的基于文本行匹配的跨图文本阅读方法的流程图。
图2为本发明实施例的文本行匹配流程图。
图3为本发明实施例的文本识别流程图。
图4为本发明实施例的文本编辑流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,本实施例提出一种基于文本行匹配的跨图文本阅读方法,包括如下步骤:
步骤10,获取输入的两张文本图像;所述两张文本图像为左视角图像A和右视角图像B;
步骤20,从所述两张文本图像中提取出对应的文本行位置,并利用所述左视角图像的文本行位置通过阈值过滤该左视角图像的不可读文本行,再对过滤了不可读文本行的左视角图像以及右视角图像进行特征提取,得到对应的文本行特征;具体包括如下子步骤:
步骤21,采用文本检测网络对所述两张文本图像进行文本行位置提取,该文本行位置提取操作表示为li=DBnet(i),得到对应的文本行位置{li|i=A,B};
其中,A表示左视角图像和B表示右视角图像,DBNet表示所述文本检测网络;i表示取值为输入的左视角图像A和右视角图像B;
步骤22,利用所述左视角图像A的文本行位置构建二值化图像并逐列求和,然后从所述逐列求和的结果中寻找极小值点,判断所述极小值点的值是否大于设定阈值(为了,能够过滤左视角图像的文本冗余,该设定阈值可以取120-150,经过本实施例实验,设定阈值为140时效果最好):
(1)如果所述极小值点的值大于设定阈值,则在所述文本行位置中除掉中点在极小值点左边的文本行,该在极小值点左边的文本行即为不可读文本行,并对剩余的文本行根据中点的纵坐标进行排序;
(2)如果所述极小值点的值小于等于设定阈值,则直接对所有文本行根据中点的纵坐标进行排序;
步骤23,再利用所述两张文本图像的文本行位置裁剪经步骤22过滤了不可读文本行的左视角图像A以及右视角图像B,然后采用卷积神经网络对裁剪后的左视角图像A和右视角图像B进行特征提取,该特征提取操作表示为vi=CNN(Crop(i,li)),得到对应的文本行特征{vi|i=A,B};
其中,CNN表示所述卷积神经网络;Crop表示裁剪操作。
步骤30,获得文本行匹配结果,如图2所示:
步骤31,将两张文本图像对应的文本行位置和文本行特征进行特征编码得到对应的节点特征:
步骤311,采用多层感知机对文本行特征{vi|i=A,B}和文本行位置{li|i=A,B}进行编码,该编码操作表示为
Figure BDA0003070670840000081
Figure BDA0003070670840000082
得到编码后的文本行特征
Figure BDA0003070670840000083
和文本行位置
Figure BDA0003070670840000084
其中,MLPv表示文本行特征多层感知机,MLPl表示文本行位置多层感知机;
步骤312,将编码后的文本行特征
Figure BDA0003070670840000085
和文本行位置
Figure BDA0003070670840000086
逐元素相加,该逐元素相加操作表示为
Figure BDA0003070670840000087
得到节点特征{ni|i=A,B}
步骤32,对所述节点特征进行自优化和交叉优化得到优化后的节点特征:
步骤321,将节点特征{ni|i=A,B}送入自注意力图网络进行自优化,该自优化操作表示为
Figure BDA0003070670840000091
得到自优化节点特征
Figure BDA0003070670840000092
步骤322,将自优化节点特征
Figure BDA0003070670840000093
送入交叉注意力图网络进行交叉优化,该交叉优化操作表示为:
Figure BDA0003070670840000094
Figure BDA0003070670840000095
得到交叉优化节点特征
Figure BDA0003070670840000096
步骤323,将交叉优化节点特征
Figure BDA0003070670840000097
再执行步骤321和步骤322的操作并重复执行N次(为了使节点特征适应文本行匹配任务,N可以取值为6-12,经过本实施例实验,N取值为9时效果最好),得到优化后的节点特征;
其中,MLP表示基于多层感知机的线性映射,Multihead表示自注意力图网络和交叉注意力图网络均包含的多头注意力网络,[·]表示拼接操作。
步骤33,通过利用所述优化后的节点特征计算打分矩阵的方式进行文本行匹配,得到文本行匹配结果:
步骤331,将文本图像A和文本图像B对应的优化后的节点特征通过两个全连接层分别进行线性映射,得到线性映射后的节点特征{fi|i=A,B};
步骤332,对线性映射后的节点特征{fi|i=A,B}跨图进行逐个点乘,该跨图进行逐个点乘的操作表示为
Figure BDA0003070670840000098
其中,
Figure BDA0003070670840000099
表示文本图像A对应的线性映射后的节点特征,m表示过滤了不可读文本行的左视角图像A包含m个文本行;
Figure BDA00030706708400000910
表示文本图像B对应的线性映射后的节点特征,n表示右视角图像包含n个文本行;⊙表示点乘;Sm,n表示点乘结果;
步骤333,对点乘结果Sm,n增加一行一列存放不匹配节点对,组成打分矩阵S;
步骤334,将打分矩阵S送入匹配优化网络进行优化,该优化操作表示为Sk=Sinkhorn(S),得到优化后的打分矩阵Sk;其中,Sinkhorn表示Sinkhorn最优传输优化算法;
步骤335,设定打分阈值,比较优化后的打分矩阵Sk中的每个位置与打分阈值的大小:优化后的打分矩阵Sk中高于打分阈值的位置对应的匹配为有效匹配,其余位置对应的匹配为无效匹配。
步骤4,根据所述文本行匹配结果拼接相关的文本行特征,并从拼接后的文本行特征中提取出对应文本,得到文本识别结果;如图3所示,具体包括如下子步骤:
步骤41,将所述文本行匹配结果中的有效匹配对应的文本行特征进行拼接,并对所述文本行匹配结果中的无效匹配但是在阅读顺序中的左视角图像A的文本行特征补零,得到文本内容特征C;
步骤42,将文本内容特征C通过两个双向长短期记忆人工神经网络和两个全连接网络得到文本识别结果R。其中,文本内容特征C是依次通过双向长短期记忆人工神经网络、全连接层、双向长短期记忆人工神经网络、全连接层得到文本识别结果R。
步骤5,根据阅读顺序融合所述文本识别结果,得到文本阅读结果;如图4所示,具体包括如下子步骤:
步骤51,将所述文本识别结果R输入语言编码器进行语言编码,该语言编码操作表示为T=Bert(R),得到文本语义特征T;其中,Bert表示基于Bert的语言编码器;
步骤52,将所述文本语义特征T输入编辑编码器进行编辑解码,该编辑解码操作表示为E=FC(T),得到编辑结果E;其中,FC表示基于全连接层的编辑解码器;
步骤53,将所述编辑结果E与文本识别结果R进行哈达玛乘积,该哈达玛乘积操作表示为
Figure BDA0003070670840000111
得到文本阅读结果P;其中,
Figure BDA0003070670840000112
表示哈达玛乘积。
至此,本发明实现了基于文本行匹配的跨图文本阅读方法。由于现有的像素级合并和阅读方法在像素级别上进行图像匹配和融合,没有考虑到文本特征的先验信息。本发明提取文本行特征,并结合文本行位置进行特征编码,得到节点特征,而后对节点特征进行文本行匹配,再根据匹配结果融合文本行特征,并识别出对应文本,消除文本冗余,从而能够充分利用文本的先验信息,在文本行级别上完成跨图文本阅读任务,取得了比像素级合并和阅读方法更好的效果。具体地:
(1)本发明通过对输入的文本图像进行文本行位置提取,减少背景信息的干扰;
(2)本发明通过对文本行特征和文本行位置信息进行融合,提高了文本行匹配精度;
(3)本发明采用基于注意力的图网络对节点特征进行聚合,使得节点特征更适于文本行匹配任务;
(4)本发明采用语言编码器、编辑解码器对文本输出进行后处理,消除了文本输出中的冗余文本。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于文本行匹配的跨图文本阅读方法,其特征在于,包括如下步骤:
步骤10,获取输入的两张文本图像;所述两张文本图像为左视角图像和右视角图像;
步骤20,从所述两张文本图像中提取出对应的文本行位置,并利用所述左视角图像的文本行位置通过阈值过滤该左视角图像的不可读文本行,再对过滤了不可读文本行的左视角图像以及右视角图像进行特征提取,得到对应的文本行特征;
步骤30,获得文本行匹配结果:
步骤31,将两张文本图像对应的文本行位置和文本行特征进行特征编码得到对应的节点特征;
步骤32,对所述节点特征进行自优化和交叉优化得到优化后的节点特征;
步骤33,通过利用所述优化后的节点特征计算打分矩阵的方式进行文本行匹配,得到文本行匹配结果;
步骤4,根据所述文本行匹配结果拼接相关的文本行特征,并从拼接后的文本行特征中提取出对应文本,得到文本识别结果;
步骤5,根据阅读顺序融合所述文本识别结果,得到文本阅读结果。
2.根据权利要求1所述的基于文本行匹配的跨图文本阅读方法,其特征在于,步骤20包括如下子步骤:
步骤21,采用文本检测网络对所述两张文本图像进行文本行位置提取,该文本行位置提取操作表示为li=DBNet(i),得到对应的文本行位置{li|i=A,B};
其中,A表示左视角图像和B表示右视角图像,DBNet表示所述文本检测网络;i表示取值为输入的左视角图像A和右视角图像B;
步骤22,利用所述左视角图像A的文本行位置构建二值化图像并逐列求和,然后从所述逐列求和的结果中寻找极小值点,判断所述极小值点的值是否大于设定阈值:
(1)如果所述极小值点的值大于设定阈值,则在所述文本行位置中除掉中点在极小值点左边的文本行,该在极小值点左边的文本行即为不可读文本行,并对剩余的文本行根据中点的纵坐标进行排序;
(2)如果所述极小值点的值小于等于设定阈值,则直接对所有文本行根据中点的纵坐标进行排序;
步骤23,再利用所述两张文本图像的文本行位置裁剪经步骤22过滤了不可读文本行的左视角图像A以及右视角图像B,然后采用卷积神经网络对裁剪后的左视角图像A和右视角图像B进行特征提取,该特征提取操作表示为vi=CNN(Crop(i,li)),得到对应的文本行特征{vi|i=A,B};
其中,CNN表示所述卷积神经网络;Crop表示裁剪操作。
3.根据权利要求2所述的基于文本行匹配的跨图文本阅读方法,其特征在于,步骤31中包括如下子步骤:
步骤311,采用多层感知机对文本行特征{vi|i=A,B}和文本行位置{li|i=A,B}进行编码,该编码操作表示为
Figure FDA0003070670830000021
Figure FDA0003070670830000022
得到编码后的文本行特征
Figure FDA0003070670830000023
和文本行位置
Figure FDA0003070670830000024
其中,MLPv表示文本行特征多层感知机,MLPl表示文本行位置多层感知机;
步骤312,将编码后的文本行特征
Figure FDA0003070670830000025
和文本行位置
Figure FDA0003070670830000031
逐元素相加,该逐元素相加操作表示为
Figure FDA0003070670830000032
得到节点特征{ni|i=A,B}。
4.根据权利要求3所述的基于文本行匹配的跨图文本阅读方法,其特征在于,步骤32包括如下子步骤:
步骤321,将节点特征{ni|i=A,B}送入自注意力图网络进行自优化,该自优化操作表示为
Figure FDA0003070670830000033
得到自优化节点特征
Figure FDA0003070670830000034
步骤322,将自优化节点特征
Figure FDA0003070670830000035
送入交叉注意力图网络进行交叉优化,该交叉优化操作表示为:
Figure FDA0003070670830000036
Figure FDA0003070670830000037
得到交叉优化节点特征
Figure FDA0003070670830000038
步骤323,将交叉优化节点特征
Figure FDA0003070670830000039
再执行步骤321和步骤322的操作并重复执行N次,得到优化后的节点特征;
其中,MLP表示基于多层感知机的线性映射,Multihead表示自注意力图网络和交叉注意力图网络均包含的多头注意力网络,[·]表示拼接操作。
5.根据权利要求4所述的基于文本行匹配的跨图文本阅读方法,其特征在于,步骤33包括如下子步骤:
步骤331,将文本图像A和文本图像B对应的优化后的节点特征通过两个全连接层分别进行线性映射,得到线性映射后的节点特征{fi|i=A,B};
步骤332,对线性映射后的节点特征{fi|i=A,B}跨图进行逐个点乘,该跨图进行逐个点乘的操作表示为
Figure FDA00030706708300000310
其中,
Figure FDA00030706708300000311
表示文本图像A对应的线性映射后的节点特征,m表示过滤了不可读文本行的左视角图像A包含m个文本行;
Figure FDA00030706708300000312
表示文本图像B对应的线性映射后的节点特征,n表示右视角图像包含n个文本行;⊙表示点乘;Sm,n表示点乘结果;
步骤333,对点乘结果Sm,n增加一行一列存放不匹配节点对,组成打分矩阵S;
步骤334,将打分矩阵S送入匹配优化网络进行优化,该优化操作表示为Sk=Sinkhorn(S),得到优化后的打分矩阵Sk;其中,Sinkhorn表示Sinkhorn最优传输优化算法;
步骤335,设定打分阈值,比较优化后的打分矩阵Sk中的每个位置与打分阈值的大小:优化后的打分矩阵Sk中高于打分阈值的位置对应的匹配为有效匹配,其余位置对应的匹配为无效匹配。
6.根据权利要求5所述的基于文本行匹配的跨图文本阅读方法,其特征在于,步骤4包括如下子步骤:
步骤41,将所述文本行匹配结果中的有效匹配对应的文本行特征进行拼接,并对所述文本行匹配结果中的无效匹配但是在阅读顺序中的左视角图像A的文本行特征补零,得到文本内容特征C;
步骤42,将文本内容特征C通过两个双向长短期记忆人工神经网络和两个全连接网络得到文本识别结果R。
7.根据权利要求6所述的基于文本行匹配的跨图文本阅读方法,其特征在于,步骤5包括如下子步骤:
步骤51,将所述文本识别结果R输入语言编码器进行语言编码,该语言编码操作表示为T=Bert(R),得到文本语义特征T;其中,Bert表示基于Bert的语言编码器;
步骤52,将所述文本语义特征T输入编辑编码器进行编辑解码,该编辑解码操作表示为E=FC(T),得到编辑结果E;其中,FC表示基于全连接层的编辑解码器;
步骤53,将所述编辑结果E与文本识别结果R进行哈达玛乘积,该哈达玛乘积操作表示为
Figure FDA0003070670830000051
得到文本阅读结果P;其中,
Figure FDA0003070670830000052
表示哈达玛乘积。
CN202110538489.8A 2021-05-18 2021-05-18 一种基于文本行匹配的跨图文本阅读方法 Active CN113342997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110538489.8A CN113342997B (zh) 2021-05-18 2021-05-18 一种基于文本行匹配的跨图文本阅读方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110538489.8A CN113342997B (zh) 2021-05-18 2021-05-18 一种基于文本行匹配的跨图文本阅读方法

Publications (2)

Publication Number Publication Date
CN113342997A true CN113342997A (zh) 2021-09-03
CN113342997B CN113342997B (zh) 2022-11-11

Family

ID=77470625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110538489.8A Active CN113342997B (zh) 2021-05-18 2021-05-18 一种基于文本行匹配的跨图文本阅读方法

Country Status (1)

Country Link
CN (1) CN113342997B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012212293A (ja) * 2011-03-31 2012-11-01 Dainippon Printing Co Ltd 文書認識装置、文書認識方法、プログラム及び記憶媒体
CN108471486A (zh) * 2018-03-09 2018-08-31 浙江工业大学 一种适用于电子助视器的智能阅读操作方法及装置
CN109344822A (zh) * 2018-09-03 2019-02-15 电子科技大学 一种基于长短期记忆网络的场景文本检测方法
CN109377834A (zh) * 2018-09-27 2019-02-22 成都快眼科技有限公司 一种辅助盲人阅读的文本转换方法及系统
CN111464881A (zh) * 2019-01-18 2020-07-28 复旦大学 基于自优化机制的全卷积视频描述生成方法
CN111563564A (zh) * 2020-07-20 2020-08-21 南京理工大学智能计算成像研究院有限公司 基于深度学习的散斑图像逐像素匹配方法
CN112016438A (zh) * 2020-08-26 2020-12-01 北京嘀嘀无限科技发展有限公司 一种基于图神经网络识别证件的方法及系统
CN112215223A (zh) * 2020-10-16 2021-01-12 清华大学 基于多元注意力机制的多方向场景文字识别方法及系统
CN112307179A (zh) * 2020-10-21 2021-02-02 深圳技术大学 文本匹配方法、装置、设备及存储介质
CN112464781A (zh) * 2020-11-24 2021-03-09 厦门理工学院 基于图神经网络的文档图像关键信息提取及匹配方法
CN112801097A (zh) * 2021-04-14 2021-05-14 北京世纪好未来教育科技有限公司 文本检测模型的训练方法、装置及可读存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012212293A (ja) * 2011-03-31 2012-11-01 Dainippon Printing Co Ltd 文書認識装置、文書認識方法、プログラム及び記憶媒体
CN108471486A (zh) * 2018-03-09 2018-08-31 浙江工业大学 一种适用于电子助视器的智能阅读操作方法及装置
CN109344822A (zh) * 2018-09-03 2019-02-15 电子科技大学 一种基于长短期记忆网络的场景文本检测方法
CN109377834A (zh) * 2018-09-27 2019-02-22 成都快眼科技有限公司 一种辅助盲人阅读的文本转换方法及系统
CN111464881A (zh) * 2019-01-18 2020-07-28 复旦大学 基于自优化机制的全卷积视频描述生成方法
CN111563564A (zh) * 2020-07-20 2020-08-21 南京理工大学智能计算成像研究院有限公司 基于深度学习的散斑图像逐像素匹配方法
CN112016438A (zh) * 2020-08-26 2020-12-01 北京嘀嘀无限科技发展有限公司 一种基于图神经网络识别证件的方法及系统
CN112215223A (zh) * 2020-10-16 2021-01-12 清华大学 基于多元注意力机制的多方向场景文字识别方法及系统
CN112307179A (zh) * 2020-10-21 2021-02-02 深圳技术大学 文本匹配方法、装置、设备及存储介质
CN112464781A (zh) * 2020-11-24 2021-03-09 厦门理工学院 基于图神经网络的文档图像关键信息提取及匹配方法
CN112801097A (zh) * 2021-04-14 2021-05-14 北京世纪好未来教育科技有限公司 文本检测模型的训练方法、装置及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BAOGUANG SHI 等: "An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition", 《 IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *

Also Published As

Publication number Publication date
CN113342997B (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
CN111259875B (zh) 一种基于自适应语义时空图卷积网络的唇读方法
CN110689012A (zh) 一种端到端的自然场景文本识别方法及系统
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN112712069B (zh) 一种判题方法、装置、电子设备及存储介质
CN112598000A (zh) 题目识别方法、装置、电子设备及计算机存储介质
CN115982350A (zh) 基于多模态Transformer的虚假新闻检测方法
CN115063799B (zh) 一种印刷体数学公式识别方法、装置及存储介质
CN112861795A (zh) 基于多尺度特征融合的遥感图像显著目标检测方法及装置
CN115131638A (zh) 视觉文本预训练模型的训练方法、装置、介质和设备
CN116563751A (zh) 一种基于注意力机制的多模态情感分析方法及系统
CN114490954A (zh) 一种基于任务调节的文档级生成式事件抽取方法
CN113342997B (zh) 一种基于文本行匹配的跨图文本阅读方法
CN117036833A (zh) 一种视频分类方法、装置、设备和计算机可读存储介质
CN113297986A (zh) 手写字符识别方法、装置、介质及电子设备
CN113076720A (zh) 长文本的分段方法及装置、存储介质、电子装置
CN113569068A (zh) 描述内容生成方法、视觉内容的编码、解码方法、装置
CN114708472B (zh) 面向ai实训的多模态数据集标注方法、装置及电子设备
CN115809666A (zh) 一种融合词典信息和注意力机制的命名实体识别方法
CN115690795A (zh) 简历信息提取方法、装置、电子设备和存储介质
CN115310445A (zh) 基于增强序列标注策略的单阶段联合实体关系抽取方法及系统
CN115661482A (zh) 一种基于联合注意力的rgb-t显著目标检测方法
CN112508096B (zh) 一种基于几何自注意力机制的图像自动标注方法
CN115147931A (zh) 基于detr的人物成对解码交互的人与物交互检测方法
CN114372441A (zh) 一种中文文本自动纠错方法及装置
CN111325068B (zh) 基于卷积神经网络的视频描述方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant