CN112926569A - 一种社交网络中的自然场景图像文本检测方法 - Google Patents

一种社交网络中的自然场景图像文本检测方法 Download PDF

Info

Publication number
CN112926569A
CN112926569A CN202110279656.1A CN202110279656A CN112926569A CN 112926569 A CN112926569 A CN 112926569A CN 202110279656 A CN202110279656 A CN 202110279656A CN 112926569 A CN112926569 A CN 112926569A
Authority
CN
China
Prior art keywords
granularity
loss
text
geometric
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110279656.1A
Other languages
English (en)
Other versions
CN112926569B (zh
Inventor
王国胤
陈卓
刘群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110279656.1A priority Critical patent/CN112926569B/zh
Publication of CN112926569A publication Critical patent/CN112926569A/zh
Application granted granted Critical
Publication of CN112926569B publication Critical patent/CN112926569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于社交网络技术领域,具体涉及一种社交网络中的自然场景图像文本检测方法,该方法包括:实时获取社交网络中待检测的自然场景图像数据;对获取的数据进行预处理;将预处理后的数据输入到训练好的多粒度特征融合模型中,得到数据检测结果;本发明不仅可以提高图像中的文本检测准确率,而且减少了复杂模型所需要的时间开销,优化了自然场景下复杂环境对图像中文本检测的影响。

Description

一种社交网络中的自然场景图像文本检测方法
技术领域
本发明属于社交网络技术领域,具体涉及一种社交网络中的自然场景图像文本检测方法。
背景技术
随着互联网的的发展和移动通讯设备的普及,用户不再仅仅在电脑端使用移动社交网络平台所提供的各种服务,而是随时随地在通过各种移动设备进行着个人的网上社交。在信息时代的大环境下,社交网络已成为人们线上沟通交流,传递信息最常用的工具。目前,社交网络中的用户越来越倾向于用图片来分享自己的生活状态和生活轨迹。文本作为人类文明的标志、信息交流的载体,广泛地存在与社交网络中的自然场景图像中,相较于图像中的其它自然场景内容,如:树木、行人、建筑物等各种景观,自然场景中的文字则具有更强的逻辑性与更概括的表达性,能提供更多的高层语义信息,准确地识别图像中的文本将有助于场景内容的分析与理解,有助于获取社交网络用户的生活足迹相关信息,对用户的社交关系分析起着极其重要的作用。
目前,针对自然场景文本处理的研究工作主要使用两大类方法。第一种是传统的自然场景文本检测方法,该方法又分为基于像素连通域分析的方法和基于滑动检测窗口的方法,该方法主要依赖于图像的像素和文本的形状、排列、笔画宽度等特征,首先获得文本候选区域,然后采用手动设计的特征对所获得的候选区域进行验证,以此确定图像中的文本信息区域。另一种是基于深度学习的自然场景文本检测方法,深度学习的方法通过神经网络模型组合低层特征从而形成高层特征来表示属性类别,并设计专用的损失函数让计算机自动并精准学习图像中文字信息的特征。
但是由于目前对深度神经网络模型的鲁棒性要求越来越高,过于复杂以及多方向与形变文本检测的问题,因此需要综合鲁棒性和模型检测精确度,以达到对社交网络中的图像进行有效分析。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种社交网络中的自然场景图像文本检测方法,该方法包括:实时获取社交网络中待检测的自然场景图像数据;对获取的数据进行预处理;将预处理后的数据输入到训练好的多粒度特征融合模型中,得到数据检测结果;
训练多粒度特征融合模型的过程包括:
S1:采集社交网络中的自然场景图像数据集,对图像中的文本信息进行标注;
S2:将获取的数据集划分为训练集和测试集,对训练集中的数据进行预处理;
S3:将预处理后的数据输入到多粒度特征融合模型中进行训练;
S4:将测试集中的数据输入到训练后的多粒度特征融合模型中,得到该图像文本预测和文本几何图矩阵;
S5:根据可视化文本框计算模型的损失函数;当损失函数最小时,完成模型的训练;
S6:将测试集中的数据输入到模型中,输出文本特征向量,对输出的文本特征向量进行消除冗余计算,在检测图像上生成可视化文本框。
优选的,对数据集中的数据进行划分的过程包括:采用交叉验证的方式将已标注的图像数据随机选取2/3的数据作为训练集,其他数据作为验证集;对于训练集中的数据,根据图像标注信息对标注的文本框加入0、1标签,其中人眼难以识别的包含模糊、细小文本的标注框信息标为0,清晰可见具有语义的文本标注框信息标为1。
优选的,将预处理后的数据输入到多粒度特征融合模型中进行训练的过程包括:
S31:提取输入图像的四个粒度信息,将大小为输入图像的1/4的特征向量设置为粒度1,大小为输入图像的1/8的特征向量设置为粒度2,将大小为输入图像的1/16的特征向量设置为粒度3,将大小为输入图像的1/32的特征向量设置为粒度4;
S32:采用ReLU激活函数对提取的四个粒度信息进行激活;
S33:将激活后的四个粒度信息进行特征融合;其中粒度1和粒度2融合,粒度2和粒度3融合,粒度3和粒度4融合,生成三个多粒度特征图;
S34:将三个多粒度特征向量进行融合得到最终的预测特征。
进一步的,在进行多粒度融合过程中,采用通道注意力机制对残差通道注意力网络进行改进;多粒度融合的表达式为:
hj=concat(Unpool(fj-1),fj)
其中,j∈{2,3,4},concat(·)表示向量的拼接操作,Unpool(·)表示双线性插值计算;
采用通道注意力机制对残差通道注意力网络进行改进的公式为:
CAi=σ(Wihi+bi)
Figure BDA0002978245480000031
其中,i,j∈{1,2,3},h·代表进行粒度融合后的特征向量,Wi,Wj代表可学习的参数,σ(·)代表sigmoid激活函数,CAi和RCAj分别代表生成的通道注意力权重值和残差通道注意力权重值。
进一步的,得到最终的预测特征的表达式为:
Z=σ(Pool(concat(RCA1,RCA2,RCA3)))
其中,concat(·)表示向量的拼接操作,Pool(·)表示最大池化,σ(·)表示ReLU激活函数。
优选的,计算模型的损失函数的过程为:
S51:确定模型的损失函数种类,包括分数图损失和几何图损失;
S52:采用Dice损失函数对分数图进行优化,得到分数图损失Ls
S53:采用IOU损失函数对几何图进行优化,得到几何图损失Lg
S54:根据分数图损失Ls和几何图损失Lg得到模型的损失函数。
进一步的,分数图损失Ls的表达式为:
Figure BDA0002978245480000041
其中,ytrue和ypred分别表示分数图的真实值和预测值。
进一步的,得到几何图损失Lg的过程包括:
S531:采用IOU损失函数对矩形框进行优化,优化后的表达式为:
Figure BDA0002978245480000042
其中,LR表示回归矩形框损失,
Figure BDA0002978245480000043
表示预测的几何形状,R*表示真实的几何形状,∩表示相交,∪表示相并;
S532:计算相交矩形
Figure BDA0002978245480000044
的宽度和高度以及联合区域;根据联合区域以及相交矩形区域计算旋转角度损失;旋转角度损失的表达式为:
Figure BDA0002978245480000045
其中,
Figure BDA0002978245480000046
表示对旋转角度的预测,θ*表示实际值;
S533:根据矩形框损失LR和旋转角度损失计算几何图损失Lg,其表达式为:
Lg=LRθLθ
其中,λθ表示几何图损失的权重参数。
进一步的,模型的损失函数为:
L=LsgLg
其中,λg表示权重。
优选的,在检测图像上生成可视化文本框的过程包括:
S61:根据模型预测输出的几何特征向量生成对应的几何体,判断生成的几何体是否为有效的几何体,若有效,则保留,否则舍弃;
S62:对生成的几何体依次进行IOU计算,若两个几何体的相交面积大于设置的阈值,则对该两个几何体进行合并,得到合并后的几何体,否则不进行合并;
S63:对和并后的几何体进行集合,根据几何体的权值进行降序排列,将该序列记为List,取List中权值最高的几何体x,依次计算该几何体与其它几何体的IoU值,判断该值与设置的阈值的大小,若大于设置的阈值,则保留x,否则丢弃x并将List中的权值剔除;
S64:依次对List中所有的权值重复步骤S63,直到List中所有的权值王朝迭代筛选;
S65:将完成筛选的几何体映射到图像的对应位置,生成最终的文本预测框。
本发明基于基础特征网络提取出的特征,抽取不同卷积层的粒度特征,利用上采样逐层往上将特征两两融合,依层次进行粒度融合的方式使VGG-16网络提取出来的特征图联系更紧密,让神经网络在训练模型的过程中能够更好地学习到不同粒度之间信息的关系,利于增加网络的性能;本发明在进行粒度特征融合的时候加入基于通道注意力改进的残差通道注意力网络,不仅可以提升网络对文本信息的聚焦,也可以通过残差思想将上下有联系的特征相结合,防止有用特征的丢失。
附图说明
图1为本发明的文本检测流程示意图;
图2为本发明的模型训练结构示意图;
图3为本发明的多粒度特征融合网络结构示意图;
图4为基础特征提取网络VGG16结构示意图;
图5为多粒度特征融合模块结构示意图;
图6为残差通道注意力网络模块结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种社交网络中的自然场景图像文本检测方法,如图1所示,该方法包括:实时获取社交网络中待检测的自然场景图像数据;对获取的数据进行预处理;将预处理后的数据输入到训练好的多粒度特征融合模型中,得到数据检测结果。
如图2所示,训练多粒度特征融合模型的过程包括:
S1:采集社交网络中的自然场景图像数据集,对图像中的文本信息进行标注;
S2:将获取的数据集划分为训练集和测试集,对训练集中的数据进行预处理;
S3:将预处理后的数据输入到多粒度特征融合模型中进行训练;
S4:将测试集中的数据输入到训练后的多粒度特征融合模型中,得到该图像文本预测和文本几何图矩阵;
S5:根据可视化文本框计算模型的损失函数;当损失函数最小时,完成模型的训练;
S6:将测试集中的数据输入到训练过的模型中,输出文本特征向量,对输出的文本特征向量进行消除冗余计算,在检测图像上生成可视化文本框。
如图3所示,多粒度特征融合模型的结构包括基础特征提取网络、多粒度特征融合模块以及残差通道注意力模块。
一种基础特征提取网络的具体结构,如图4所示,本发明的基础特征提取网络为VGG-16结构。首先,图像经过VGG-16网络进行特征提取;然后,将提取特征的网络按粒度分层,提取网络层block2的输出为粒度1,提取网络层block3的输出为粒度2,提取网络层block4的输出为粒度3,提取网络层block5的输出为粒度4。采用多粒度特征融合模块将四个粒度进行拼接融合生成三个多粒度特征图,多粒度特征融合模块的结构如图5所示。图5中的RCAB为残差通道注意力模块,其结构如图6所示,将生成的三个多粒度特征图进行卷积操作,提取特征,将提取的特征输入到下一个卷积层,并将前一个卷积层提取的特征与第二个卷积层提取的特征进行乘积,并将乘积结果与输入的特征图进行融合拼接,生成最后的输出特征图。
对数据集中的数据进行划分的过程包括:采用交叉验证的方式将已标注的图像数据随机选取2/3的数据作为训练集,其他数据作为验证集;对于训练集中的数据,根据图像标注信息对标注的文本框加入0、1标签,其中人眼难以识别的包含模糊、细小文本的标注框信息标为0,清晰可见具有语义的文本标注框信息标为1。
将预处理后的数据输入到多粒度特征融合模型中进行训练的过程包括:
S31:提取输入图像的四个粒度信息,将大小为输入图像的1/4的特征向量设置为粒度1,大小为输入图像的1/8的特征向量设置为粒度2,将大小为输入图像的1/16的特征向量设置为粒度3,将大小为输入图像的1/32的特征向量设置为粒度4;
S32:采用ReLU激活函数对提取的四个粒度信息进行激活;激活的公式为:
fi=σ(Conv(fi))
其中,i∈{1,2,3,4},fi为粒度信息,σ(·)为ReLU激活函数,Conv(·)表示卷积操作。
S33:将激活后的四个粒度信息进行特征融合;其中粒度1和粒度2融合,粒度2和粒度3融合,粒度3和粒度4融合,生成三个多粒度特征图;融合的表达式为:
hj=concat(Unpool(fj-1),fj)
其中,j∈{2,3,4},concat(·)表示向量的拼接操作,Unpool(·)表示双线性插值计算;
在进行多粒度融合过程中,采用通道注意力机制对残差通道注意力网络进行改进;其公式为:
CAi=σ(Wihi+bi)
Figure BDA0002978245480000071
其中,i,j∈{1,2,3},h·代表进行粒度融合后的特征向量,Wi,Wj代表可学习的参数,σ(·)代表sigmoid激活函数,CAi和RCAj分别代表生成的通道注意力权重值和残差通道注意力权重值。
S34:将三个多粒度特征向量进行融合得到最终的预测特征。预测特征的表达式为:
Z=σ(Pool(concat(RCA1,RCA2,RCA3)))
其中,concat(·)表示向量的拼接操作,Pool(·)表示最大池化,σ(·)表示ReLU激活函数。
计算模型的损失函数的过程为:
S51:确定模型的损失函数种类,包括分数图损失和几何图损失;将模型的输出分为两部分,一是模型对自然场景图像中的文字像素点的预测分数图,二是模型对文字框的几何特征预测。
S52:采用Dice损失函数对分数图进行优化,得到分数图损失Ls;分数图损失Ls的表达式为:
Figure BDA0002978245480000081
其中,ytrue和ypred分别表示分数图的真实值和预测值。
S53:采用IOU损失函数对几何图进行优化,得到几何图损失Lg
S531:对于自然场景图像,文本的排列往往不是水平排列,对于文本框的几何特征预测,采用IOU损失函数对矩形框进行优化,优化后的表达式为:
Figure BDA0002978245480000082
其中,LR表示回归矩形框损失,
Figure BDA0002978245480000083
表示预测的几何形状,R*表示真实的几何形状,∩表示相交,∪表示相并。
S532:计算相交矩形
Figure BDA0002978245480000084
的宽度和高度以及联合区域;根据联合区域以及相交矩形区域计算旋转角度损失;
相交矩形
Figure BDA0002978245480000091
的宽度和高度分别为:
Figure BDA0002978245480000092
Figure BDA0002978245480000093
其中,d1、d2、d3、d4分别表示特征图中像素到对应矩形的上、右、下、和左边界的距离。
联合区的表达式为:
Figure BDA0002978245480000094
旋转角度损失的表达式为:
Figure BDA0002978245480000095
其中,
Figure BDA0002978245480000096
表示对旋转角度的预测,θ*表示实际值;
S533:根据矩形框损失LR和旋转角度损失计算几何图损失Lg,其表达式为:
Lg=LRθLθ
其中,λθ表示几何图的损失权重参数。
优选的,λθ的值设置为10。
S54:根据分数图损失Ls和几何图损失Lg得到模型的损失函数。模型的损失函数的表达式为:
L=LsgLg
其中,λg表示权重。
优选的,λg的值设置为1。
在检测图像上生成可视化文本框的过程包括:
S61:根据模型预测输出的几何特征向量生成对应的几何体,判断生成的几何体是否为有效的几何体,若有效,则保留,否则舍弃。
根据几何特征向量生成对应的几何体的过程包括根据模型预测输出的得分图和几何图计算生成的几何文本狂;从得分图中可以判断图像中的像素点是否属于文本框;从几何图中的可以判断像素点离文本框的四个距离和倾斜的角度;根据像素点是否属于文本框、素点离文本框的距离以及倾斜角度判断文本框的对角线是否相交,若相交,则为有效几何体,否则为无效几何体。
S62:对生成的几何体依次进行IoU计算,若两个几何体的相交面积大于设置的阈值,则对该两个几何体进行合并,得到合并后的几何体,否则不进行合并。
S63:对和并后的几何体进行集合,根据几何体的权值进行降序排列,将该序列记为List,取List中权值最高的几何体x,依次计算该几何体与其它几何体的IoU值,判断该值与设置的阈值的大小,若大于设置的阈值,则保留x,否则丢弃x并将List中的权值剔除;
S64:依次对List中所有的权值重复步骤S63,直到List中所有的权值王朝迭代筛选;
S65:将完成筛选的几何体映射到图像的对应位置,生成最终的文本预测框。
优选的,设置的阈值为0.3。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种社交网络中的自然场景图像文本检测方法,其特征在于,包括:实时获取社交网络中待检测的自然场景图像数据;对获取的数据进行预处理;将预处理后的数据输入到训练好的多粒度特征融合模型中,得到数据检测结果;
训练多粒度特征融合模型的过程包括:
S1:采集社交网络中的自然场景图像数据集,对图像中的文本信息进行标注;
S2:将获取的数据集划分为训练集和测试集,对训练集中的数据进行预处理;
S3:将预处理后的数据输入到多粒度特征融合模型中进行训练;
S4:将测试集中的数据输入到训练后的多粒度特征融合模型中,得到该图像文本预测和文本几何图矩阵;
S5:根据可视化文本框计算模型的损失函数;当损失函数最小时,完成模型的训练;
S6:将测试集中的数据输入到模型中,输出文本特征向量,对输出的文本特征向量进行消除冗余计算,在检测图像上生成可视化文本框。
2.根据权利要求1所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,对数据集中的数据进行划分的过程包括:采用交叉验证的方式将已标注的图像数据随机选取2/3的数据作为训练集,其他数据作为验证集;对于训练集中的数据,根据图像标注信息对标注的文本框加入0、1标签,其中人眼难以识别的包含模糊、细小文本的标注框信息标为0,清晰可见具有语义的文本标注框信息标为1。
3.根据权利要求1所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,将预处理后的数据输入到多粒度特征融合模型中进行训练的过程包括:
S31:提取输入图像的四个粒度信息,将大小为输入图像的1/4的特征向量设置为粒度1,大小为输入图像的1/8的特征向量设置为粒度2,将大小为输入图像的1/16的特征向量设置为粒度3,将大小为输入图像的1/32的特征向量设置为粒度4;
S32:采用ReLU激活函数对提取的四个粒度信息进行激活;
S33:将激活后的四个粒度信息进行特征融合;其中粒度1和粒度2融合,粒度2和粒度3融合,粒度3和粒度4融合,生成三个多粒度特征图;
S34:将三个多粒度特征向量进行融合得到最终的预测特征。
4.根据权利要求3所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,在进行多粒度融合过程中,采用通道注意力机制对残差通道注意力网络进行改进;多粒度融合的表达式为:
hj=concat(Unpool(fj-1),fj)
其中,j∈{2,3,4},concat(·)表示向量的拼接操作,Unpool(·)表示双线性插值计算;采用通道注意力机制对残差通道注意力网络进行改进的公式为:
CAi=σ(Wihi+bi)
Figure FDA0002978245470000021
其中,i,j∈{1,2,3},h·代表进行粒度融合后的特征向量,Wi,Wj代表可学习的参数,σ(·)代表sigmoid激活函数,CAi和RCAj分别代表生成的通道注意力权重值和残差通道注意力权重值。
5.根据权利要求3所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,得到最终的预测特征的表达式为:
Z=σ(Pool(concat(RCA1,RCA2,RCA3)))
其中,concat(·)表示向量的拼接操作,Pool(·)表示最大池化,σ(·)表示ReLU激活函数。
6.根据权利要求1所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,计算模型的损失函数的过程为:
S51:确定模型的损失函数种类,包括分数图损失和几何图损失;
S52:采用Dice损失函数对分数图进行优化,得到分数图损失Ls
S53:采用IOU损失函数对几何图进行优化,得到几何图损失Lg
S54:根据分数图损失Ls和几何图损失Lg得到模型的损失函数。
7.根据权利要求6所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,分数图损失Ls的表达式为:
Figure FDA0002978245470000031
其中,ytrue和ypred分别表示分数图的真实值和预测值。
8.根据权利要求6所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,得到几何图损失Lg的过程包括:
S531:采用IOU损失函数对矩形框进行优化,优化后的表达式为:
Figure FDA0002978245470000032
其中,LR表示回归矩形框损失,
Figure FDA0002978245470000033
表示预测的几何形状,R*表示真实的几何形状,∩表示相交,∪表示相并;
S532:计算相交矩形
Figure FDA0002978245470000034
的宽度和高度以及联合区域;根据联合区域以及相交矩形区域计算旋转角度损失;旋转角度损失的表达式为:
Figure FDA0002978245470000035
其中,
Figure FDA0002978245470000036
表示对旋转角度的预测,θ*表示实际值;
S533:根据矩形框损失LR和旋转角度损失计算几何图损失Lg,其表达式为:
Lg=LRθLθ
其中,λθ表示几何图损失的权重参数。
9.根据权利要求6所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,模型的损失函数为:
L=LsgLg
其中,λg表示权重。
10.根据权利要求1所述的一种社交网络中的自然场景图像文本检测方法,其特征在于,在检测图像上生成可视化文本框的过程包括:
S61:根据模型预测输出的几何特征向量生成对应的几何体,判断生成的几何体是否为有效的几何体,若有效,则保留,否则舍弃;
S62:对生成的几何体依次进行IOU计算,若两个几何体的相交面积大于设置的阈值,则对该两个几何体进行合并,得到合并后的几何体,否则不进行合并;
S63:对和并后的几何体进行集合,根据几何体的权值进行降序排列,将该序列记为List,取List中权值最高的几何体x,依次计算该几何体与其它几何体的IoU值,判断该值与设置的阈值的大小,若大于设置的阈值,则保留x,否则丢弃x并将List中的权值剔除;
S64:依次对List中所有的权值重复步骤S63,直到List中所有的权值王朝迭代筛选;
S65:将完成筛选的几何体映射到图像的对应位置,生成最终的文本预测框。
CN202110279656.1A 2021-03-16 2021-03-16 一种社交网络中的自然场景图像文本检测方法 Active CN112926569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110279656.1A CN112926569B (zh) 2021-03-16 2021-03-16 一种社交网络中的自然场景图像文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110279656.1A CN112926569B (zh) 2021-03-16 2021-03-16 一种社交网络中的自然场景图像文本检测方法

Publications (2)

Publication Number Publication Date
CN112926569A true CN112926569A (zh) 2021-06-08
CN112926569B CN112926569B (zh) 2022-10-18

Family

ID=76175214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110279656.1A Active CN112926569B (zh) 2021-03-16 2021-03-16 一种社交网络中的自然场景图像文本检测方法

Country Status (1)

Country Link
CN (1) CN112926569B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114362988A (zh) * 2021-09-29 2022-04-15 中国科学院计算机网络信息中心 网络流量的识别方法及装置

Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140270404A1 (en) * 2013-03-15 2014-09-18 Eyelock, Inc. Efficient prevention of fraud
US20140281847A1 (en) * 2013-03-15 2014-09-18 Facebook, Inc. Overlaying Photographs With Text On A Social Networking System
CN105302428A (zh) * 2014-07-29 2016-02-03 腾讯科技(深圳)有限公司 基于社交网络的动态信息展示方法和装置
CN105528618A (zh) * 2015-12-09 2016-04-27 微梦创科网络科技(中国)有限公司 一种基于社交网络的短图片文本识别方法及装置
US20170004374A1 (en) * 2015-06-30 2017-01-05 Yahoo! Inc. Methods and systems for detecting and recognizing text from images
CN107357889A (zh) * 2017-07-11 2017-11-17 北京工业大学 一种基于内容或情感相似性的跨社交平台图片推荐算法
US20180373751A1 (en) * 2017-06-21 2018-12-27 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for recognizing a low-quality news resource, computer device and readable medium
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN109919106A (zh) * 2019-03-11 2019-06-21 同济大学 渐进式目标精细识别与描述方法
CN110084734A (zh) * 2019-04-25 2019-08-02 南京信息工程大学 一种基于物体局部生成对抗网络的大数据权属保护方法
CN110210413A (zh) * 2019-06-04 2019-09-06 哈尔滨工业大学 一种基于深度学习的多学科试卷内容检测与识别系统及方法
CN111079444A (zh) * 2019-12-25 2020-04-28 北京中科研究院 一种基于多模态关系的网络谣言检测方法
CN111104339A (zh) * 2019-12-31 2020-05-05 上海艺赛旗软件股份有限公司 基于多粒度学习的软件界面元素检测方法、系统、计算机设备和存储介质
CN111160452A (zh) * 2019-12-25 2020-05-15 北京中科研究院 一种基于预训练语言模型的多模态网络谣言检测方法
CN111178133A (zh) * 2019-12-03 2020-05-19 哈尔滨工程大学 一种基于剪枝深度模型用于自然场景图像文本识别方法
CN111177447A (zh) * 2019-12-26 2020-05-19 南京大学 一种基于深度网络模型的行人图像识别方法
CN111223483A (zh) * 2019-12-10 2020-06-02 浙江大学 一种基于多粒度知识蒸馏的唇语识别方法
CN111488739A (zh) * 2020-03-17 2020-08-04 天津大学 基于多粒度生成图像增强表示的隐式篇章关系识别方法
CN111582119A (zh) * 2020-04-29 2020-08-25 上海海事大学 一种文档图像处理方法以及二值化模型的训练方法
CN112085090A (zh) * 2020-09-07 2020-12-15 百度在线网络技术(北京)有限公司 翻译方法、装置以及电子设备
CN112241481A (zh) * 2020-10-09 2021-01-19 中国人民解放军国防科技大学 基于图神经网络的跨模态新闻事件分类方法及系统
WO2021022521A1 (zh) * 2019-08-07 2021-02-11 华为技术有限公司 数据处理的方法、训练神经网络模型的方法及设备
CN112418216A (zh) * 2020-11-18 2021-02-26 湖南师范大学 一种复杂自然场景图像中的文字检测方法

Patent Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140270404A1 (en) * 2013-03-15 2014-09-18 Eyelock, Inc. Efficient prevention of fraud
US20140281847A1 (en) * 2013-03-15 2014-09-18 Facebook, Inc. Overlaying Photographs With Text On A Social Networking System
CN105302428A (zh) * 2014-07-29 2016-02-03 腾讯科技(深圳)有限公司 基于社交网络的动态信息展示方法和装置
US20170004374A1 (en) * 2015-06-30 2017-01-05 Yahoo! Inc. Methods and systems for detecting and recognizing text from images
CN105528618A (zh) * 2015-12-09 2016-04-27 微梦创科网络科技(中国)有限公司 一种基于社交网络的短图片文本识别方法及装置
US20180373751A1 (en) * 2017-06-21 2018-12-27 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for recognizing a low-quality news resource, computer device and readable medium
CN107357889A (zh) * 2017-07-11 2017-11-17 北京工业大学 一种基于内容或情感相似性的跨社交平台图片推荐算法
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN109919106A (zh) * 2019-03-11 2019-06-21 同济大学 渐进式目标精细识别与描述方法
CN110084734A (zh) * 2019-04-25 2019-08-02 南京信息工程大学 一种基于物体局部生成对抗网络的大数据权属保护方法
CN110210413A (zh) * 2019-06-04 2019-09-06 哈尔滨工业大学 一种基于深度学习的多学科试卷内容检测与识别系统及方法
WO2021022521A1 (zh) * 2019-08-07 2021-02-11 华为技术有限公司 数据处理的方法、训练神经网络模型的方法及设备
CN111178133A (zh) * 2019-12-03 2020-05-19 哈尔滨工程大学 一种基于剪枝深度模型用于自然场景图像文本识别方法
CN111223483A (zh) * 2019-12-10 2020-06-02 浙江大学 一种基于多粒度知识蒸馏的唇语识别方法
CN111079444A (zh) * 2019-12-25 2020-04-28 北京中科研究院 一种基于多模态关系的网络谣言检测方法
CN111160452A (zh) * 2019-12-25 2020-05-15 北京中科研究院 一种基于预训练语言模型的多模态网络谣言检测方法
CN111177447A (zh) * 2019-12-26 2020-05-19 南京大学 一种基于深度网络模型的行人图像识别方法
CN111104339A (zh) * 2019-12-31 2020-05-05 上海艺赛旗软件股份有限公司 基于多粒度学习的软件界面元素检测方法、系统、计算机设备和存储介质
CN111488739A (zh) * 2020-03-17 2020-08-04 天津大学 基于多粒度生成图像增强表示的隐式篇章关系识别方法
CN111582119A (zh) * 2020-04-29 2020-08-25 上海海事大学 一种文档图像处理方法以及二值化模型的训练方法
CN112085090A (zh) * 2020-09-07 2020-12-15 百度在线网络技术(北京)有限公司 翻译方法、装置以及电子设备
CN112241481A (zh) * 2020-10-09 2021-01-19 中国人民解放军国防科技大学 基于图神经网络的跨模态新闻事件分类方法及系统
CN112418216A (zh) * 2020-11-18 2021-02-26 湖南师范大学 一种复杂自然场景图像中的文字检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YINING MENG ET AL.: "MULTI-LAYER CONVOLUTIONAL NEURAL NETWORK MODEL BASED ON PRIOR KNOWLEDGE OF KNOWLEDGE GRAPH FO TEXT CLASSIFICATION", 《2019 IEEE 4TH INTERNATIONAL CONFERENCE ON CLOUD COMPUTINGAND BIG DATA ANALYSIS》 *
江伟忠等: "基于特征点相关性的行人重识别方法", 《集成技术》 *
王林等: "卷积深度置信网络的场景文本检测", 《计算机系统应用》 *
袁韶祖等: "基于多粒度视频信息和注意力机制的视频场景识别", 《计算机系统应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114362988A (zh) * 2021-09-29 2022-04-15 中国科学院计算机网络信息中心 网络流量的识别方法及装置
CN114362988B (zh) * 2021-09-29 2023-06-20 中国科学院计算机网络信息中心 网络流量的识别方法及装置

Also Published As

Publication number Publication date
CN112926569B (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
US20210012198A1 (en) Method for training deep neural network and apparatus
CN110287960A (zh) 自然场景图像中曲线文字的检测识别方法
CN108564097B (zh) 一种基于深度卷积神经网络的多尺度目标检测方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN107688821A (zh) 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN109726718B (zh) 一种基于关系正则化的视觉场景图生成系统及方法
CN111488873B (zh) 一种基于弱监督学习的字符级场景文字检测方法和装置
CN111241989A (zh) 图像识别方法及装置、电子设备
CN109299303B (zh) 基于可变形卷积与深度网络的手绘草图检索方法
CN114049512A (zh) 模型蒸馏方法、目标检测方法、装置及电子设备
CN112257665A (zh) 图像内容的识别方法、图像识别模型的训练方法及介质
CN111666937A (zh) 一种图像中的文本识别方法及系统
JP2023527615A (ja) 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム
CN112070040A (zh) 一种用于视频字幕的文本行检测方法
CN112926569B (zh) 一种社交网络中的自然场景图像文本检测方法
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN114359917A (zh) 一种手写汉字检测识别及字形评估方法
CN112037239B (zh) 基于多层次显式关系选择的文本指导图像分割方法
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN116258931B (zh) 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统
Wang et al. Self-attention deep saliency network for fabric defect detection
CN117115824A (zh) 一种基于笔划区域分割策略的视觉文本检测方法
CN113688864B (zh) 一种基于分裂注意力的人-物交互关系分类方法
CN114332288B (zh) 基于短语驱动生成对抗网络的文本生成图像的方法及网络

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant