CN110502655B - 一种嵌入场景文字信息的图像自然描述语句生成方法 - Google Patents

一种嵌入场景文字信息的图像自然描述语句生成方法 Download PDF

Info

Publication number
CN110502655B
CN110502655B CN201910700592.0A CN201910700592A CN110502655B CN 110502655 B CN110502655 B CN 110502655B CN 201910700592 A CN201910700592 A CN 201910700592A CN 110502655 B CN110502655 B CN 110502655B
Authority
CN
China
Prior art keywords
scene
model
image
characters
natural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910700592.0A
Other languages
English (en)
Other versions
CN110502655A (zh
Inventor
肖春霞
赵坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201910700592.0A priority Critical patent/CN110502655B/zh
Publication of CN110502655A publication Critical patent/CN110502655A/zh
Application granted granted Critical
Publication of CN110502655B publication Critical patent/CN110502655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种嵌入场景文字信息的图像自然描述语句生成方法,利用场景文字信息来提升描述语句的语义丰富度。本方法在生成描述语句和检测识别出场景文字的基础上,来进行场景文字的嵌入任务。首先,需要对描述语句中的每一个词进行词性分析,找出其中的名词,每一个名词都能一一对应图像中的一个区域,然后计算名词所对应的图像区域的包围框和场景文字包围框的交并比来衡量两者是否存在依赖关系,如果交并比超过一定的阈值那么两者就存在依赖关系,否则不存在。最后,在保证语法正确性的前提下把场景文字嵌入到描述语句中。

Description

一种嵌入场景文字信息的图像自然描述语句生成方法
技术领域
本发明属于图像自然描述语句生成领域,需要同时使用计算机视觉与自然语言处理两个领域的技术来完成图像信息到语言信息的转换。本发明利用场景文字信息来提升现有方法所生成的描述语句的语义丰富度。
背景技术
计算机视觉是一个让人工智能理解我们生活中的场景的领域,把这个概念具象化,就是让摄像机替代人的眼睛,对现实世界的信息进行收集,在此基础上,利用计算机对搜集的信息进行分析、处理,并做出相应的决策。自然语言处理是一个研究如何让人与计算机之间用自然语言进行有效沟通的领域,更具体地,就是让计算机理解人类的语言,并对人发出自然语言指令做出响应。扫地机器人、无人驾驶车辆、聊天机器人、实时翻译软件等一大批与计算机视觉、自然语言处理相关的技术已经逐渐融入我们的日常生活,让我们的生活更加智能、便捷。我们更期待机器能够将视觉信息与语言信息融会贯通,达到这一目的需要同时使用计算机视觉与自然语言处理这两个领域的技术,这也就是本发明所涉及的领域——图像自然描述语言的生成方法。图像的自然语言描述生成研究是一项极具有前景的工作,从应用层面来说,目前的自动驾驶车辆、无人超市等均需要对场景的感知和理解。从理论层面来说,图像的自然语言描述生成是更高级的人工智能中一项不可缺少的基础研究。
现在主流的方法都是有三个部分组成,第一个部分是视觉特征的提取,第二个部分是注意力机制,第三个部分是语言生成模型。其中视觉特征提取大多是采用目标检测方法,检测出图像中的对象。注意力机制负责生成每个单词的时候应该聚焦于图像中的哪块区域。语言生成模型一般是用循环神经网络来生成具体的单词。但是,现在的方法大多集中在改进算法的准确率,并没有对图像固有的信息进行深层次的挖掘。现实世界的场景当中有很多人造的文字信息,我们把这些文字叫做场景文字,比如广告牌,路标等。场景文字本身含有丰富的语义信息,加入了场景文字的描述语句对图像的描述更加准确,比如,“adelllaptop”,比“alaptop”更准确。图像的自然描述语言显然是要尽可能准确的描述图像中的场景。本发明就是着眼于此,提出了一种嵌入了场景文字信息的图像自然描述语言生成方法。
发明内容
本发明的目的是利用自然场景中的场景文字信息,来提升图像自然描述语句的语义丰富度。本方法的核心在于提出了一个无监督的场景文字嵌入方法,在不需要训练的情况下,能够把检测出来的场景文字嵌入到生成的自然描述语句中。
本发明所设计的嵌入场景文字信息的图像自然描述语句生成方法,其特征在于,包括以下步骤:
步骤1,使用公开的数据集构建两个数据集(D1,D2):D1为训练联合检测场景文字与普通目标的数据集,D2为验证本发明提出的无监督的场景文字嵌入方法的数据集;
步骤2,对Faster R-CNN方法进行改进,以适应联合检测场景文字与普通对象的需要,并使用D1训练改进后的模型;
步骤3,对Top-Down方法进行改进,以减轻过拟合风险,并使用D2数据集训练改进后的模型;
步骤4,在D2中任取一张图像,使用步骤2,步骤3训练好的模型来生成检测结果与自然描述语句,并保留注意力机制产生的中间结果;使用公开的方法或者商业API对每一个检测出的场景文字进行识别,保留识别后的结果。
步骤5,根据步骤4的结果,使用依赖关系分析的方法,分析描述语句成分,提取其中的名词;找出名词对应的图像区域,计算每一个场景文字与每一个图像区域的交并比(IOU),交并比计算公式,如下:
IOU=(A∩B)/(A∪B);
步骤6,找出每个场景文字依赖的对象之后,把场景文字嵌入到生成的自然描述语句中。
进一步地,所述步骤2中Faster R-CNN方法具体改进方式如下:
第一,使用特征图融合的方法来增强模型对多层特征图的利用率;
第二,改变anchor尺寸的大小,丢弃尺寸过大的anchor,新加入小尺寸anchor来提高对小目标的检测效果。
进一步地,所述步骤3中Top-Down方法改进具体如下:
第一,将Top-down模型的注意力函数替换为一个余弦相似度量函数;
第二,使用teacherforcing技术训练模型,加速模型的收敛速度。
进一步的,所述交并比的阈值为0.8。
进一步地,所述改变anchor尺寸的大小具体为:去掉了512×512的anchor,加入64×64的anchor和32×32的anchor。
优选地,所述特征融合的策略是把conv3_4层与conv4_6层进行融合,并采用双线性插值的方法解决像素点无法对齐的问题。
本发明的优点在于:
1)构建了一个联合检测数据集,目标检测和场景文字检测融合进一个模型,并改进相应的公开方法让其适应这一任务。改进主要集中在对小目标的检测上,提出了特征融合与重新设置anchor尺寸这两个方案。
2),针对Top-down方法的不足做出了改进,第一,使用余弦相似度来替换注意力函数,从而减轻过拟合的风险。第二,使用teacherforcing技术来加速模型的收敛。
3),提出了一个无监督的场景文字嵌入方法,该方法具有速度快、准确率高、复杂度低等特点。
附图说明
图1是本发明整体算法流程示意图。
图2是本发明特征融合的示意图。
图3是无监督的嵌入算法示意图。
图4是原始Faster R-CNN结果。
图5是改进后的Faster R-CNN结果。
图6是本发明提出的嵌入算法效果图。
图7是本发明提出的嵌入算法另一效果图。
图8是本发明提出的嵌入算法又一效果图。
具体实施方式
本发明的目的是利用自然场景中的场景文字信息,来提升图像自然描述语句的语义丰富度。本方法的核心在于提出了一个无监督的场景文字嵌入方法,在不需要训练的情况下,能够把检测出来的场景文字嵌入到生成的自然描述语句中。本发明所设计的一种嵌入场景文字信息的图像自然描述语句生成方法过程如下:
步骤1,使用公开的数据集构建两个数据集(D1,D2)。
D1是训练联合检测场景文字与普通目标的数据集,场景文字检测与目标检测的数据集标注方式各不相同,场景文字检测只需要给出包围框的左上角坐标与宽高即可,而目标检测除了给出包围框之外,还需要给出框中物体具体的类别。所以本方法需要在现有的数据集中构建出D1,这样才能联合检测场景文字与普通目标。D2是专门用来验证本发明提出的无监督的场景文字嵌入方法的数据集。公开的数据集比如Microsoft COCO是计算机视觉领域常用的数据集,该数据集含有330000张图像。COCO含有场景文字检测、目标检测的标注,本方法要通过现有的标注,构建D1,D2。COCO含有场景文字标注的COCO-TEXT数据集只占COCO数据集的一部分,大约有63686张图像。把非英文字、手写文字、水印文字去掉还剩下的图像作为D={D1,D2}。本方法从D中划分出20000张图像作为D1,1000张作为D2,每张图像的标注含有场景文字与普通对象,所有的场景文字类别统一为“scenetext”,通过这样的处理,使用D1训练即可训练出一个联合检测模型。
步骤2,对Faster R-CNN方法进行改进,并使用D1训练改进后的模型。
Faster R-CNN主要分为3部分,第一部分为提取图像特征的卷积神经网络,第二部分为选取建议区域的建议区域生成网络,第三部分为输出分类概率和精修包围框的检测网络。本方法主要对建议区域生成网络进行改进,以适应联合检测场景文字与普通对象的需要。Faster R-CNN对小目标的检测效果不好,这对场景文字检测来说是致命的,所以本方法主要增强Faster R-CNN对小目标的检测能力。第一,经过语义分割领域的启发,本方法使用特征图融合的方法来取长补短,给小目标加上更明显的语义信息来弥补卷积神经网络低层特征图语义信息不明显但分辨率高,高层特征图语义信息明显但分辨率低的缺陷。本方法采取的融合策略是把conv3_4层与conv4_6层进行融合,采取这一策略的原因在于,太低层的特征图语义信息不够丰富,所以需要在分辨率和语义信息之间寻找一个平衡,并且如果两个特征图之间尺寸相差的倍数大于4倍,会影响上采样的性能。特征融合的时候需要对特征图进行缩放,缩放过程中难免遇到像素点无法对齐的情况,所以本方法采用双线性插值的方法来解决这一问题。第二,anchor的尺寸决定了网络能够检测出何种大小的目标,要兼顾大量的小尺寸场景文字,且在不增加计算量的前提条件下,修改anchor的尺寸才是可行的,本方法去掉了512×512的anchor,加入64×64的anchor和32×32的anchor。模型的训练采用SGD优化器,学习率为0.02,迭代周期为10万,每一个批次训练图像数为4。
步骤3,对Top-Down方法进行改进。
第一,改进其注意力函数,Top-down模型采用的注意力函数非常复杂,需要用到三个全连接层,为了减轻过拟合的风险,本方法需要替换原有的注意力函数。改进的方法是把注意力函数替换为一个余弦相似度量函数,从本质上来说注意力机制计算出的权值就是两个向量之间的相似度,余弦相似度本质上是计算空间中两个向量夹角的余弦值,而余弦值也能够表示相似度,所以这样的替换是合理的。余弦相似度计算公式详见公式(1)。
Figure BDA0002150675160000041
第二,使用teacherforcing技术来训练模型,语言模型每一个时刻的结果都依赖上一个时刻的结果,假设现在要生成“you are a beautiful girl”中最后一个词“girl”,如果前一个词生成的词是“handsome”那么模型可能会生成“boy”这个词,因为根据语言习惯,“handsome”这个词一般不会用来形容“girl”。考虑最极端的情况,如果第一个词都生成错误的话,那么这句话就会变得完全不正确。所以,teacherforcing技术能够起到加速收敛的作用。使用步骤2得到的模型来预测训练数据集,保留预测结果作为本步骤模型的输入。模型训练采用Adam优化器,学习率为0.0001,训练epoch数为50,每一个批次训练的语句数为64。
步骤4,在D2中任取一张图像,使用步骤2,步骤3训练好的模型来生成检测结果与自然描述语句,并保留注意力机制产生的中间结果。使用公开的方法或者商业API对每一个检测出的场景文字进行识别,保留识别后的结果。
经过步骤2,我们可以得到一个联合检测模型,使用训练好的联合检测模型对D3中的图像进行预测,预测结果中的非场景文字作为语言描述模型的输入,场景文字作为场景文字识别的输入。使用步骤3训练好的语言描述模型生成图像的描述语句。使用公开的场景文字识别方法或者商业API进行场景文字识别。
步骤5:根据步骤4的结果,使用依赖关系分析的方法,分析描述语句成分,提取其中的名词。找出名词对应的图像区域,计算每一个场景文字与每一个图像区域的交并比(IOU),交并比计算公式,详见公式(2)。
IOU=(A∩B)/(A∪B)(2)
其中,A为场景文字,B为图像区域。
如何定位场景文字的嵌入位置,是本发明的重点和目标,嵌入的场景文字要保证不会破坏语句本身的语法结构。要达到这一目的,必须分析清楚英文的语法逻辑。场景文字本身在句子中对某一名词起到修饰的作用,比如“a airplane printed with Delta”,其中“Delta”为场景文字。所以,场景文字依赖于某一名词,而每一个名词在图像中都会有一个对应的区域,名词所对应的区域应该包含场景文字。交并比可以衡量两个物体在空间中的重叠关系,使用交并比就能够确定场景文字是否依赖于某一名词。交并比的阈值选定为0.8,即交并比大于0.8的场景文字和对象存在依赖关系,反之不存在。
步骤6,找出每个场景文字依赖的对象之后,就可以把场景文字嵌入到生成的自然描述语句中。
实施例具体的实施过程说明如下:
由于本方法是无监督的场景文字嵌入方法,在保证句子语法结构正确的前提下,本方法使用从句模板——“printedwith XXX”来进行嵌入。“XXX”代表场景文字,嵌入的时候视为“填空”操作,即把场景文字填入模板。图4为改进前后的Faster R-CNN的效果图,从图中我们
实施例:
本方法适用于解决存在场景文字的自然场景下的图像自然描述语言生成任务,使用本方法设计、训练的模型,可以有效地增加图像自然描述语言的丰富度。图4为原始Faster R-CNN结果,图5为改进后的Faster R-CNN结果,如图5中的箭头处可以看出改进后的模型能够检测出原始Faster R-CNN检测不出来的小目标。
图6图7图8为本方法结果图,图中包围框里的是普通对象,箭头所指的包围框中的是场景文字。其中,普通对象的检测框数量远超过场景文字的检测框数量,出现这一情况的原因在于,第一,普通对象的数量本来就比场景文字多,第二,本方法把检测阈值设置的较小,这样可以尽量的保证普通对象不被漏掉,本文的关键是在生成描述的基础上进行场景文字嵌入,而描述语句的生成依赖于普通对象的检测结果,所以需要给语言模型提供尽量多的检测结果。图6在采用本发明前的识别结果为“A airplane on the runway of anairport”,使用本发明后的识别结果为“A airplane printed with germanwings on therunway of an airport”,相同的图7使用本发明前后的识别结果分别为“a couple oftrains are parked down the railroad”“a couple of trains printed with EWS and60089 are parked down the railroad”,图8使用本发明前后的识别结果分别为“Alaptop is sitting on a table”“A laptop printed with DELL is sitting on atable”。从以上结果可以看出本方法不仅能够应对单个场景文字与单个对象的场景,也能应对多个场景文字与单个对象的场景。嵌入了场景文字之后的描述语言蕴含的信息量明显比嵌入前的描述语言丰富。
本发明的提出的方法采用了先进的技术方案,能够有效的解决场景文字嵌入图像自然描述语句的问题。本方法的创新点在于以下几点:(1),本方法构建了一个联合检测数据集,目标检测和场景文字检测融合进一个模型,并改进相应的公开方法让其适应这一任务。改进主要集中在对小目标的检测上,提出了特征融合与重新设置anchor尺寸这两个方案。(2),本方法针对Top-down方法的不足做出了改进,第一,使用余弦相似度来替换注意力函数,从而减轻过拟合的风险。第二,使用teacherforcing技术来加速模型的收敛。(3),提出了一个无监督的场景文字嵌入方法,该方法具有速度快、准确率高、复杂度低等特点。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (4)

1.一种嵌入场景文字信息的图像自然描述语句生成方法,其特征在于,包括以下步骤:
步骤1,使用公开的数据集构建两个数据集(D1 ,D2):D1为训练联合检测场景文字与普通目标的数据集,D2为验证数据集;
步骤2,对Faster R-CNN方法进行改进,以适应联合检测场景文字与普通对象的需要,并使用D1训练改进后的模型;
其中,所述步骤2中Faster R-CNN方法具体改进方式如下:
第一,使用特征图融合的方法来增强模型对多层特征图的利用率;
第二,改变anchor尺寸的大小,丢弃尺寸过大的anchor,新加入小尺寸anchor来提高对小目标的检测效果;
步骤3,对Top-Down方法进行改进,以减轻过拟合风险,并使用D2数据集训练改进后的模型;
其中,第一,将Top-down模型的注意力函数替换为一个余弦相似度量函数;
第二,使用teacher forcing技术训练模型,加速模型的收敛速度;
步骤4,在D2中任取一张图像,使用步骤2,步骤3训练好的模型来生成检测结果与自然描述语句,并保留注意力机制产生的中间结果;使用公开的方法或者商业API对每一个检测出的场景文字进行识别,保留识别后的结果;
步骤5,根据步骤4的结果,使用依赖关系分析的方法,分析描述语句成分,提取其中的名词;找出名词对应的图像区域,计算每一个场景文字与每一个图像区域的交并比IOU,交并比计算公式,如下:
IOU = (A∩B)/(A∪B) ;
步骤6,找出每个场景文字依赖的对象之后,把场景文字嵌入到生成的自然描述语句中。
2.根据权利要求1所述的一种嵌入场景文字信息的图像自然描述语句生成方法,其特征在于:所述交并比的阈值为0.8。
3.根据权利要求1所述的一种嵌入场景文字信息的图像自然描述语句生成方法,其特征在于:
所述改变anchor尺寸的大小具体为:去掉了512×512的anchor,加入64×64的anchor和32×32的anchor。
4.根据权利要求1所述的一种嵌入场景文字信息的图像自然描述语句生成方法,其特征在于:所述特征融合的策略是把conv3_4层与conv4_6层进行融合,并采用双线性插值的方法解决像素点无法对齐的问题。
CN201910700592.0A 2019-07-31 2019-07-31 一种嵌入场景文字信息的图像自然描述语句生成方法 Active CN110502655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910700592.0A CN110502655B (zh) 2019-07-31 2019-07-31 一种嵌入场景文字信息的图像自然描述语句生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910700592.0A CN110502655B (zh) 2019-07-31 2019-07-31 一种嵌入场景文字信息的图像自然描述语句生成方法

Publications (2)

Publication Number Publication Date
CN110502655A CN110502655A (zh) 2019-11-26
CN110502655B true CN110502655B (zh) 2022-04-01

Family

ID=68586868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910700592.0A Active CN110502655B (zh) 2019-07-31 2019-07-31 一种嵌入场景文字信息的图像自然描述语句生成方法

Country Status (1)

Country Link
CN (1) CN110502655B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598183B (zh) * 2020-05-22 2023-08-15 上海海事大学 一种多特征融合图像描述方法
CN112085122B (zh) * 2020-09-21 2024-03-15 中国科学院上海微系统与信息技术研究所 一种基于本体的半监督图像场景语义深化方法
CN113610025B (zh) * 2021-08-13 2022-08-09 天津大学 一种多模型综合的遥感影像场景描述方法
CN113723420A (zh) * 2021-09-03 2021-11-30 安徽淘云科技股份有限公司 一种扫描方法及其相关设备
CN114781393B (zh) * 2022-04-20 2023-05-26 平安科技(深圳)有限公司 图像描述生成方法和装置、电子设备及存储介质
CN116402630B (zh) * 2023-06-09 2023-09-22 深圳市迪博企业风险管理技术有限公司 一种基于表征学习的财务风险预测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7512537B2 (en) * 2005-03-22 2009-03-31 Microsoft Corporation NLP tool to dynamically create movies/animated scenes
CN106980858A (zh) * 2017-02-28 2017-07-25 中国科学院信息工程研究所 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法
CN108021901A (zh) * 2017-12-18 2018-05-11 北京小米移动软件有限公司 图像处理的方法、装置及计算机可读存储介质
CN108229397A (zh) * 2018-01-04 2018-06-29 华南理工大学 基于Faster R-CNN的图像中文本检测方法
CN109508715A (zh) * 2018-10-30 2019-03-22 南昌大学 一种基于深度学习的车牌定位和识别方法
CN109635808A (zh) * 2018-11-01 2019-04-16 中国科学院信息工程研究所 一种在自然场景图像中对中文关键词及上下文的提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10163022B1 (en) * 2017-06-22 2018-12-25 StradVision, Inc. Method for learning text recognition, method for recognizing text using the same, and apparatus for learning text recognition, apparatus for recognizing text using the same

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7512537B2 (en) * 2005-03-22 2009-03-31 Microsoft Corporation NLP tool to dynamically create movies/animated scenes
CN106980858A (zh) * 2017-02-28 2017-07-25 中国科学院信息工程研究所 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法
CN108021901A (zh) * 2017-12-18 2018-05-11 北京小米移动软件有限公司 图像处理的方法、装置及计算机可读存储介质
CN108229397A (zh) * 2018-01-04 2018-06-29 华南理工大学 基于Faster R-CNN的图像中文本检测方法
CN109508715A (zh) * 2018-10-30 2019-03-22 南昌大学 一种基于深度学习的车牌定位和识别方法
CN109635808A (zh) * 2018-11-01 2019-04-16 中国科学院信息工程研究所 一种在自然场景图像中对中文关键词及上下文的提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"An Anchor-Free Region Proposal Network for Faster R-CNN based Text Detection";Zhuoyao Zhong et al.;《https://arxiv.org/abs/1804.09003》;20180424;第1-8页 *

Also Published As

Publication number Publication date
CN110502655A (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
CN110502655B (zh) 一种嵌入场景文字信息的图像自然描述语句生成方法
WO2022147965A1 (zh) 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统
CN110852368B (zh) 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN111582241B (zh) 视频字幕识别方法、装置、设备及存储介质
CN108537269B (zh) 一种弱交互式的物体检测深度学习方法及其系统
CN113673338B (zh) 自然场景文本图像字符像素弱监督自动标注方法、系统及介质
CN110390363A (zh) 一种图像描述方法
CN111488931A (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN110689012A (zh) 一种端到端的自然场景文本识别方法及系统
Hao Multimedia English teaching analysis based on deep learning speech enhancement algorithm and robust expression positioning
CN113762269B (zh) 基于神经网络的中文字符ocr识别方法、系统及介质
CN114596566B (zh) 文本识别方法及相关装置
CN111598183A (zh) 一种多特征融合图像描述方法
CN113378815B (zh) 一种场景文本定位识别的系统及其训练和识别的方法
CN112037239B (zh) 基于多层次显式关系选择的文本指导图像分割方法
CN112070040A (zh) 一种用于视频字幕的文本行检测方法
CN113723105A (zh) 语义特征提取模型的训练方法、装置、设备及存储介质
CN114898372A (zh) 一种基于边缘注意力引导的越南场景文字检测方法
CN114218379B (zh) 一种面向智能问答系统的无法回答问题的归因方法
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
Lin et al. Radical-based extract and recognition networks for Oracle character recognition
CN110287981A (zh) 基于生物启发性表征学习的显著性检测方法及系统
CN112084788B (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN117011875A (zh) 多媒体页面的生成方法、装置、设备、介质和程序产品
Li Research on methods of english text detection and recognition based on neural network detection model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant