CN113342997A - 一种基于文本行匹配的跨图文本阅读方法 - Google Patents
一种基于文本行匹配的跨图文本阅读方法 Download PDFInfo
- Publication number
- CN113342997A CN113342997A CN202110538489.8A CN202110538489A CN113342997A CN 113342997 A CN113342997 A CN 113342997A CN 202110538489 A CN202110538489 A CN 202110538489A CN 113342997 A CN113342997 A CN 113342997A
- Authority
- CN
- China
- Prior art keywords
- text
- text line
- image
- features
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于文本行匹配的跨图文本阅读方法,包括:步骤10,获取输入的两张文本图像;步骤20,提取出文本行位置,过滤不可读文本行并进行特征提取,得到文本行特征;步骤30,获得文本行匹配结果:步骤31,将文本行位置和文本行特征进行特征编码得到节点特征;步骤32,对节点特征进行自优化和交叉优化得到优化后的节点特征;步骤33,利用优化后的节点特征计算打分矩阵,得到文本行匹配结果;步骤4,根据文本行匹配结果拼接文本行特征,并提取出对应文本得到文本识别结果;步骤5,融合文本识别结果,得到文本阅读结果。本发明能够充分利用文本的先验信息,在文本行级别上完成跨图文本阅读任务,取得了比像素级合并和阅读方法更好的效果。
Description
技术领域
本发明涉及文本识别技术领域,具体而言,涉及一种基于文本行匹配的跨图文本阅读方法。
背景技术
文本是知识,文化和想法的重要载体,包含了丰富的语义信息。因此,从文本图像阅读文本是很有意义的。然而,移动设备的视野有限,并且由移动设备捕获的文本图像仅包含整个阅读场景的一部分。为了解决这个问题,我们定义了跨图文本阅读任务:给定两个有重叠部分的文本图像,我们希望按阅读顺序读取没有冗余的文本内容。
为了实现跨图文本阅读任务,一个直接的想法是像素级合并和阅读方法。这种方法先在像素级别进行特征匹配,而后根据特征匹配的结果对两张文本图像进行融合,最后阅读合成图像中的文本。但是,在阅读场景中,文本图像的背景比较简单,特征检测器容易检测到中文字符的边缘特征,而中文的形近字较多,使得特征匹配网络生成错误的匹配。即使文本图像匹配完全正确,不可读的文本也被包括在合成文本中,使得最终的阅读结果出现错误。这些问题的主要原因是像素级合并和阅读方法忽略了阅读场景中形近字带来的匹配错误和阅读顺序的先验信息。
在真实阅读场景中,我们会逐行进行阅读。这种情况下,如果直接对整张图像进行操作,会引入大量的背景冗余。因此,需要在文本行级别上进行跨图文本阅读,在减少背景冗余的同时学习阅读顺序的先验信息。
发明内容
本发明旨在提供一种基于文本行匹配的跨图文本阅读方法,以解决由于阅读场景中存在形近字和不可读文本,导致像素级合并和阅读方法容易生成错误匹配,且阅读结果中会出现冗余文本的问题。
本发明提供的一种基于文本行匹配的跨图文本阅读方法,包括如下步骤:
步骤10,获取输入的两张文本图像;所述两张文本图像为左视角图像和右视角图像;
步骤20,从所述两张文本图像中提取出对应的文本行位置,并利用所述左视角图像的文本行位置通过阈值过滤该左视角图像的不可读文本行,再对过滤了不可读文本行的左视角图像以及右视角图像进行特征提取,得到对应的文本行特征;
步骤30,获得文本行匹配结果:
步骤31,将两张文本图像对应的文本行位置和文本行特征进行特征编码得到对应的节点特征;
步骤32,对所述节点特征进行自优化和交叉优化得到优化后的节点特征;
步骤33,通过利用所述优化后的节点特征计算打分矩阵的方式进行文本行匹配,得到文本行匹配结果;
步骤4,根据所述文本行匹配结果拼接相关的文本行特征,并从拼接后的文本行特征中提取出对应文本,得到文本识别结果;
步骤5,根据阅读顺序融合所述文本识别结果,得到文本阅读结果。
进一步的,步骤20包括如下子步骤:
步骤21,采用文本检测网络对所述两张文本图像进行文本行位置提取,该文本行位置提取操作表示为li=DBNet(i),得到对应的文本行位置{li|i=A,B};
其中,A表示左视角图像和B表示右视角图像,DBNet表示所述文本检测网络;i表示取值为输入的左视角图像A和右视角图像B;
步骤22,利用所述左视角图像A的文本行位置构建二值化图像并逐列求和,然后从所述逐列求和的结果中寻找极小值点,判断所述极小值点的值是否大于设定阈值:
(1)如果所述极小值点的值大于设定阈值,则在所述文本行位置中除掉中点在极小值点左边的文本行,该在极小值点左边的文本行即为不可读文本行,并对剩余的文本行根据中点的纵坐标进行排序;
(2)如果所述极小值点的值小于等于设定阈值,则直接对所有文本行根据中点的纵坐标进行排序;
步骤23,再利用所述两张文本图像的文本行位置裁剪经步骤22过滤了不可读文本行的左视角图像A以及右视角图像B,然后采用卷积神经网络对裁剪后的左视角图像A和右视角图像B进行特征提取,该特征提取操作表示为vi=CNN(Crop(i,li)),得到对应的文本行特征{vi|i=A,B};
其中,CNN表示所述卷积神经网络;Crop表示裁剪操作。
进一步的,步骤31中包括如下子步骤:
步骤311,采用多层感知机对文本行特征{vi|i=A,B}和文本行位置{li|i=A,B}进行编码,该编码操作表示为和得到编码后的文本行特征和文本行位置其中,MLPv表示文本行特征多层感知机,MLPl表示文本行位置多层感知机;
进一步的,步骤32包括如下子步骤:
其中,MLP表示基于多层感知机的线性映射,Multihead表示自注意力图网络和交叉注意力图网络均包含的多头注意力网络,[·]表示拼接操作。
进一步的,步骤33包括如下子步骤:
步骤331,将文本图像A和文本图像B对应的优化后的节点特征通过两个全连接层分别进行线性映射,得到线性映射后的节点特征{fi|i=A,B};
步骤332,对线性映射后的节点特征{fi|i=A,B}跨图进行逐个点乘,该跨图进行逐个点乘的操作表示为其中,表示文本图像A对应的线性映射后的节点特征,m表示过滤了不可读文本行的左视角图像A包含m个文本行;表示文本图像B对应的线性映射后的节点特征,n表示右视角图像包含n个文本行;⊙表示点乘;Sm,n表示点乘结果;
步骤333,对点乘结果Sm,n增加一行一列存放不匹配节点对,组成打分矩阵S;
步骤334,将打分矩阵S送入匹配优化网络进行优化,该优化操作表示为Sk=Sinkhorn(S),得到优化后的打分矩阵Sk;其中,Sinkhorn表示Sinkhorn最优传输优化算法;
步骤335,设定打分阈值,比较优化后的打分矩阵Sk中的每个位置与打分阈值的大小:优化后的打分矩阵Sk中高于打分阈值的位置对应的匹配为有效匹配,其余位置对应的匹配为无效匹配。
进一步的,步骤4包括如下子步骤:
步骤41,将所述文本行匹配结果中的有效匹配对应的文本行特征进行拼接,并对所述文本行匹配结果中的无效匹配但是在阅读顺序中的左视角图像A的文本行特征补零,得到文本内容特征C;
步骤42,将文本内容特征C通过两个双向长短期记忆人工神经网络和两个全连接网络得到文本识别结果R。
进一步的,步骤5包括如下子步骤:
步骤51,将所述文本识别结果R输入语言编码器进行语言编码,该语言编码操作表示为T=Bert(R),得到文本语义特征T;其中,Bert表示基于Bert的语言编码器;
步骤52,将所述文本语义特征T输入编辑编码器进行编辑解码,该编辑解码操作表示为E=FC(T),得到编辑结果E;其中,FC表示基于全连接层的编辑解码器;
综上所述,由于采用了上述技术方案,本发明的有益效果是:本发明提取文本行特征,并结合文本行位置进行特征编码,得到节点特征,而后对节点特征进行文本行匹配,再根据匹配结果融合文本行特征,并识别出对应文本,消除文本冗余,从而能够充分利用文本的先验信息,在文本行级别上完成跨图文本阅读任务,取得了比像素级合并和阅读方法更好的效果。具体地:
(1)本发明通过对输入的文本图像进行文本行位置提取,减少背景信息的干扰;
(2)本发明通过对文本行特征和文本行位置信息进行融合,提高了文本行匹配精度;
(3)本发明采用基于注意力的图网络对节点特征进行聚合,使得节点特征更适于文本行匹配任务;
(4)本发明采用语言编码器、编辑解码器对文本输出进行后处理,消除了文本输出中的冗余文本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例的基于文本行匹配的跨图文本阅读方法的流程图。
图2为本发明实施例的文本行匹配流程图。
图3为本发明实施例的文本识别流程图。
图4为本发明实施例的文本编辑流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,本实施例提出一种基于文本行匹配的跨图文本阅读方法,包括如下步骤:
步骤10,获取输入的两张文本图像;所述两张文本图像为左视角图像A和右视角图像B;
步骤20,从所述两张文本图像中提取出对应的文本行位置,并利用所述左视角图像的文本行位置通过阈值过滤该左视角图像的不可读文本行,再对过滤了不可读文本行的左视角图像以及右视角图像进行特征提取,得到对应的文本行特征;具体包括如下子步骤:
步骤21,采用文本检测网络对所述两张文本图像进行文本行位置提取,该文本行位置提取操作表示为li=DBnet(i),得到对应的文本行位置{li|i=A,B};
其中,A表示左视角图像和B表示右视角图像,DBNet表示所述文本检测网络;i表示取值为输入的左视角图像A和右视角图像B;
步骤22,利用所述左视角图像A的文本行位置构建二值化图像并逐列求和,然后从所述逐列求和的结果中寻找极小值点,判断所述极小值点的值是否大于设定阈值(为了,能够过滤左视角图像的文本冗余,该设定阈值可以取120-150,经过本实施例实验,设定阈值为140时效果最好):
(1)如果所述极小值点的值大于设定阈值,则在所述文本行位置中除掉中点在极小值点左边的文本行,该在极小值点左边的文本行即为不可读文本行,并对剩余的文本行根据中点的纵坐标进行排序;
(2)如果所述极小值点的值小于等于设定阈值,则直接对所有文本行根据中点的纵坐标进行排序;
步骤23,再利用所述两张文本图像的文本行位置裁剪经步骤22过滤了不可读文本行的左视角图像A以及右视角图像B,然后采用卷积神经网络对裁剪后的左视角图像A和右视角图像B进行特征提取,该特征提取操作表示为vi=CNN(Crop(i,li)),得到对应的文本行特征{vi|i=A,B};
其中,CNN表示所述卷积神经网络;Crop表示裁剪操作。
步骤30,获得文本行匹配结果,如图2所示:
步骤31,将两张文本图像对应的文本行位置和文本行特征进行特征编码得到对应的节点特征:
步骤311,采用多层感知机对文本行特征{vi|i=A,B}和文本行位置{li|i=A,B}进行编码,该编码操作表示为和得到编码后的文本行特征和文本行位置其中,MLPv表示文本行特征多层感知机,MLPl表示文本行位置多层感知机;
步骤32,对所述节点特征进行自优化和交叉优化得到优化后的节点特征:
步骤323,将交叉优化节点特征再执行步骤321和步骤322的操作并重复执行N次(为了使节点特征适应文本行匹配任务,N可以取值为6-12,经过本实施例实验,N取值为9时效果最好),得到优化后的节点特征;
其中,MLP表示基于多层感知机的线性映射,Multihead表示自注意力图网络和交叉注意力图网络均包含的多头注意力网络,[·]表示拼接操作。
步骤33,通过利用所述优化后的节点特征计算打分矩阵的方式进行文本行匹配,得到文本行匹配结果:
步骤331,将文本图像A和文本图像B对应的优化后的节点特征通过两个全连接层分别进行线性映射,得到线性映射后的节点特征{fi|i=A,B};
步骤332,对线性映射后的节点特征{fi|i=A,B}跨图进行逐个点乘,该跨图进行逐个点乘的操作表示为其中,表示文本图像A对应的线性映射后的节点特征,m表示过滤了不可读文本行的左视角图像A包含m个文本行;表示文本图像B对应的线性映射后的节点特征,n表示右视角图像包含n个文本行;⊙表示点乘;Sm,n表示点乘结果;
步骤333,对点乘结果Sm,n增加一行一列存放不匹配节点对,组成打分矩阵S;
步骤334,将打分矩阵S送入匹配优化网络进行优化,该优化操作表示为Sk=Sinkhorn(S),得到优化后的打分矩阵Sk;其中,Sinkhorn表示Sinkhorn最优传输优化算法;
步骤335,设定打分阈值,比较优化后的打分矩阵Sk中的每个位置与打分阈值的大小:优化后的打分矩阵Sk中高于打分阈值的位置对应的匹配为有效匹配,其余位置对应的匹配为无效匹配。
步骤4,根据所述文本行匹配结果拼接相关的文本行特征,并从拼接后的文本行特征中提取出对应文本,得到文本识别结果;如图3所示,具体包括如下子步骤:
步骤41,将所述文本行匹配结果中的有效匹配对应的文本行特征进行拼接,并对所述文本行匹配结果中的无效匹配但是在阅读顺序中的左视角图像A的文本行特征补零,得到文本内容特征C;
步骤42,将文本内容特征C通过两个双向长短期记忆人工神经网络和两个全连接网络得到文本识别结果R。其中,文本内容特征C是依次通过双向长短期记忆人工神经网络、全连接层、双向长短期记忆人工神经网络、全连接层得到文本识别结果R。
步骤5,根据阅读顺序融合所述文本识别结果,得到文本阅读结果;如图4所示,具体包括如下子步骤:
步骤51,将所述文本识别结果R输入语言编码器进行语言编码,该语言编码操作表示为T=Bert(R),得到文本语义特征T;其中,Bert表示基于Bert的语言编码器;
步骤52,将所述文本语义特征T输入编辑编码器进行编辑解码,该编辑解码操作表示为E=FC(T),得到编辑结果E;其中,FC表示基于全连接层的编辑解码器;
至此,本发明实现了基于文本行匹配的跨图文本阅读方法。由于现有的像素级合并和阅读方法在像素级别上进行图像匹配和融合,没有考虑到文本特征的先验信息。本发明提取文本行特征,并结合文本行位置进行特征编码,得到节点特征,而后对节点特征进行文本行匹配,再根据匹配结果融合文本行特征,并识别出对应文本,消除文本冗余,从而能够充分利用文本的先验信息,在文本行级别上完成跨图文本阅读任务,取得了比像素级合并和阅读方法更好的效果。具体地:
(1)本发明通过对输入的文本图像进行文本行位置提取,减少背景信息的干扰;
(2)本发明通过对文本行特征和文本行位置信息进行融合,提高了文本行匹配精度;
(3)本发明采用基于注意力的图网络对节点特征进行聚合,使得节点特征更适于文本行匹配任务;
(4)本发明采用语言编码器、编辑解码器对文本输出进行后处理,消除了文本输出中的冗余文本。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于文本行匹配的跨图文本阅读方法,其特征在于,包括如下步骤:
步骤10,获取输入的两张文本图像;所述两张文本图像为左视角图像和右视角图像;
步骤20,从所述两张文本图像中提取出对应的文本行位置,并利用所述左视角图像的文本行位置通过阈值过滤该左视角图像的不可读文本行,再对过滤了不可读文本行的左视角图像以及右视角图像进行特征提取,得到对应的文本行特征;
步骤30,获得文本行匹配结果:
步骤31,将两张文本图像对应的文本行位置和文本行特征进行特征编码得到对应的节点特征;
步骤32,对所述节点特征进行自优化和交叉优化得到优化后的节点特征;
步骤33,通过利用所述优化后的节点特征计算打分矩阵的方式进行文本行匹配,得到文本行匹配结果;
步骤4,根据所述文本行匹配结果拼接相关的文本行特征,并从拼接后的文本行特征中提取出对应文本,得到文本识别结果;
步骤5,根据阅读顺序融合所述文本识别结果,得到文本阅读结果。
2.根据权利要求1所述的基于文本行匹配的跨图文本阅读方法,其特征在于,步骤20包括如下子步骤:
步骤21,采用文本检测网络对所述两张文本图像进行文本行位置提取,该文本行位置提取操作表示为li=DBNet(i),得到对应的文本行位置{li|i=A,B};
其中,A表示左视角图像和B表示右视角图像,DBNet表示所述文本检测网络;i表示取值为输入的左视角图像A和右视角图像B;
步骤22,利用所述左视角图像A的文本行位置构建二值化图像并逐列求和,然后从所述逐列求和的结果中寻找极小值点,判断所述极小值点的值是否大于设定阈值:
(1)如果所述极小值点的值大于设定阈值,则在所述文本行位置中除掉中点在极小值点左边的文本行,该在极小值点左边的文本行即为不可读文本行,并对剩余的文本行根据中点的纵坐标进行排序;
(2)如果所述极小值点的值小于等于设定阈值,则直接对所有文本行根据中点的纵坐标进行排序;
步骤23,再利用所述两张文本图像的文本行位置裁剪经步骤22过滤了不可读文本行的左视角图像A以及右视角图像B,然后采用卷积神经网络对裁剪后的左视角图像A和右视角图像B进行特征提取,该特征提取操作表示为vi=CNN(Crop(i,li)),得到对应的文本行特征{vi|i=A,B};
其中,CNN表示所述卷积神经网络;Crop表示裁剪操作。
5.根据权利要求4所述的基于文本行匹配的跨图文本阅读方法,其特征在于,步骤33包括如下子步骤:
步骤331,将文本图像A和文本图像B对应的优化后的节点特征通过两个全连接层分别进行线性映射,得到线性映射后的节点特征{fi|i=A,B};
步骤332,对线性映射后的节点特征{fi|i=A,B}跨图进行逐个点乘,该跨图进行逐个点乘的操作表示为其中,表示文本图像A对应的线性映射后的节点特征,m表示过滤了不可读文本行的左视角图像A包含m个文本行;表示文本图像B对应的线性映射后的节点特征,n表示右视角图像包含n个文本行;⊙表示点乘;Sm,n表示点乘结果;
步骤333,对点乘结果Sm,n增加一行一列存放不匹配节点对,组成打分矩阵S;
步骤334,将打分矩阵S送入匹配优化网络进行优化,该优化操作表示为Sk=Sinkhorn(S),得到优化后的打分矩阵Sk;其中,Sinkhorn表示Sinkhorn最优传输优化算法;
步骤335,设定打分阈值,比较优化后的打分矩阵Sk中的每个位置与打分阈值的大小:优化后的打分矩阵Sk中高于打分阈值的位置对应的匹配为有效匹配,其余位置对应的匹配为无效匹配。
6.根据权利要求5所述的基于文本行匹配的跨图文本阅读方法,其特征在于,步骤4包括如下子步骤:
步骤41,将所述文本行匹配结果中的有效匹配对应的文本行特征进行拼接,并对所述文本行匹配结果中的无效匹配但是在阅读顺序中的左视角图像A的文本行特征补零,得到文本内容特征C;
步骤42,将文本内容特征C通过两个双向长短期记忆人工神经网络和两个全连接网络得到文本识别结果R。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110538489.8A CN113342997B (zh) | 2021-05-18 | 2021-05-18 | 一种基于文本行匹配的跨图文本阅读方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110538489.8A CN113342997B (zh) | 2021-05-18 | 2021-05-18 | 一种基于文本行匹配的跨图文本阅读方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113342997A true CN113342997A (zh) | 2021-09-03 |
CN113342997B CN113342997B (zh) | 2022-11-11 |
Family
ID=77470625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110538489.8A Active CN113342997B (zh) | 2021-05-18 | 2021-05-18 | 一种基于文本行匹配的跨图文本阅读方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113342997B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012212293A (ja) * | 2011-03-31 | 2012-11-01 | Dainippon Printing Co Ltd | 文書認識装置、文書認識方法、プログラム及び記憶媒体 |
CN108471486A (zh) * | 2018-03-09 | 2018-08-31 | 浙江工业大学 | 一种适用于电子助视器的智能阅读操作方法及装置 |
CN109344822A (zh) * | 2018-09-03 | 2019-02-15 | 电子科技大学 | 一种基于长短期记忆网络的场景文本检测方法 |
CN109377834A (zh) * | 2018-09-27 | 2019-02-22 | 成都快眼科技有限公司 | 一种辅助盲人阅读的文本转换方法及系统 |
CN111464881A (zh) * | 2019-01-18 | 2020-07-28 | 复旦大学 | 基于自优化机制的全卷积视频描述生成方法 |
CN111563564A (zh) * | 2020-07-20 | 2020-08-21 | 南京理工大学智能计算成像研究院有限公司 | 基于深度学习的散斑图像逐像素匹配方法 |
CN112016438A (zh) * | 2020-08-26 | 2020-12-01 | 北京嘀嘀无限科技发展有限公司 | 一种基于图神经网络识别证件的方法及系统 |
CN112215223A (zh) * | 2020-10-16 | 2021-01-12 | 清华大学 | 基于多元注意力机制的多方向场景文字识别方法及系统 |
CN112307179A (zh) * | 2020-10-21 | 2021-02-02 | 深圳技术大学 | 文本匹配方法、装置、设备及存储介质 |
CN112464781A (zh) * | 2020-11-24 | 2021-03-09 | 厦门理工学院 | 基于图神经网络的文档图像关键信息提取及匹配方法 |
CN112801097A (zh) * | 2021-04-14 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 文本检测模型的训练方法、装置及可读存储介质 |
-
2021
- 2021-05-18 CN CN202110538489.8A patent/CN113342997B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012212293A (ja) * | 2011-03-31 | 2012-11-01 | Dainippon Printing Co Ltd | 文書認識装置、文書認識方法、プログラム及び記憶媒体 |
CN108471486A (zh) * | 2018-03-09 | 2018-08-31 | 浙江工业大学 | 一种适用于电子助视器的智能阅读操作方法及装置 |
CN109344822A (zh) * | 2018-09-03 | 2019-02-15 | 电子科技大学 | 一种基于长短期记忆网络的场景文本检测方法 |
CN109377834A (zh) * | 2018-09-27 | 2019-02-22 | 成都快眼科技有限公司 | 一种辅助盲人阅读的文本转换方法及系统 |
CN111464881A (zh) * | 2019-01-18 | 2020-07-28 | 复旦大学 | 基于自优化机制的全卷积视频描述生成方法 |
CN111563564A (zh) * | 2020-07-20 | 2020-08-21 | 南京理工大学智能计算成像研究院有限公司 | 基于深度学习的散斑图像逐像素匹配方法 |
CN112016438A (zh) * | 2020-08-26 | 2020-12-01 | 北京嘀嘀无限科技发展有限公司 | 一种基于图神经网络识别证件的方法及系统 |
CN112215223A (zh) * | 2020-10-16 | 2021-01-12 | 清华大学 | 基于多元注意力机制的多方向场景文字识别方法及系统 |
CN112307179A (zh) * | 2020-10-21 | 2021-02-02 | 深圳技术大学 | 文本匹配方法、装置、设备及存储介质 |
CN112464781A (zh) * | 2020-11-24 | 2021-03-09 | 厦门理工学院 | 基于图神经网络的文档图像关键信息提取及匹配方法 |
CN112801097A (zh) * | 2021-04-14 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 文本检测模型的训练方法、装置及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
BAOGUANG SHI 等: "An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition", 《 IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113342997B (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259875B (zh) | 一种基于自适应语义时空图卷积网络的唇读方法 | |
CN110689012A (zh) | 一种端到端的自然场景文本识别方法及系统 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN112712069B (zh) | 一种判题方法、装置、电子设备及存储介质 | |
CN112598000A (zh) | 题目识别方法、装置、电子设备及计算机存储介质 | |
CN115982350A (zh) | 基于多模态Transformer的虚假新闻检测方法 | |
CN115063799B (zh) | 一种印刷体数学公式识别方法、装置及存储介质 | |
CN112861795A (zh) | 基于多尺度特征融合的遥感图像显著目标检测方法及装置 | |
CN115131638A (zh) | 视觉文本预训练模型的训练方法、装置、介质和设备 | |
CN116563751A (zh) | 一种基于注意力机制的多模态情感分析方法及系统 | |
CN114490954A (zh) | 一种基于任务调节的文档级生成式事件抽取方法 | |
CN113342997B (zh) | 一种基于文本行匹配的跨图文本阅读方法 | |
CN117036833A (zh) | 一种视频分类方法、装置、设备和计算机可读存储介质 | |
CN113297986A (zh) | 手写字符识别方法、装置、介质及电子设备 | |
CN113076720A (zh) | 长文本的分段方法及装置、存储介质、电子装置 | |
CN113569068A (zh) | 描述内容生成方法、视觉内容的编码、解码方法、装置 | |
CN114708472B (zh) | 面向ai实训的多模态数据集标注方法、装置及电子设备 | |
CN115809666A (zh) | 一种融合词典信息和注意力机制的命名实体识别方法 | |
CN115690795A (zh) | 简历信息提取方法、装置、电子设备和存储介质 | |
CN115310445A (zh) | 基于增强序列标注策略的单阶段联合实体关系抽取方法及系统 | |
CN115661482A (zh) | 一种基于联合注意力的rgb-t显著目标检测方法 | |
CN112508096B (zh) | 一种基于几何自注意力机制的图像自动标注方法 | |
CN115147931A (zh) | 基于detr的人物成对解码交互的人与物交互检测方法 | |
CN114372441A (zh) | 一种中文文本自动纠错方法及装置 | |
CN111325068B (zh) | 基于卷积神经网络的视频描述方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |