CN111507353A - 一种基于文字识别的中文字段检测方法及系统 - Google Patents

一种基于文字识别的中文字段检测方法及系统 Download PDF

Info

Publication number
CN111507353A
CN111507353A CN202010304190.1A CN202010304190A CN111507353A CN 111507353 A CN111507353 A CN 111507353A CN 202010304190 A CN202010304190 A CN 202010304190A CN 111507353 A CN111507353 A CN 111507353A
Authority
CN
China
Prior art keywords
character
region
chinese field
classifier
sliding window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010304190.1A
Other languages
English (en)
Other versions
CN111507353B (zh
Inventor
杨凯越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Share Technology Services Shenzhen Ltd
Original Assignee
New Share Technology Services Shenzhen Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New Share Technology Services Shenzhen Ltd filed Critical New Share Technology Services Shenzhen Ltd
Priority to CN202010304190.1A priority Critical patent/CN111507353B/zh
Publication of CN111507353A publication Critical patent/CN111507353A/zh
Application granted granted Critical
Publication of CN111507353B publication Critical patent/CN111507353B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Abstract

一种基于文字识别的中文字段检测方法及系统,包括:识别预选区域中的文字区域,集合文字区域并计算相对距离矩阵;基于DBSCAN(基于密度的分层聚类)将矩阵聚类得到字符串区域;将字符串区域通过滑窗提取字符后放入单字符分类器,获得预测中文字段;基于预测中文字段通过CTCLoss正反向训练单字符分类器,并通过softmax函数输出字符概率;将滑窗提取的字符放入训练后的单字符分类器中得到中文字段。通过相对距离矩阵聚字成串和滑窗分类器正反向CTCLoss训练,能够精准的识别复杂环境下的中文字段。解决了字符串提取不精确以及模型时间和空间复杂度过大的问题,能较为精准的识别复杂环境下的中文字段。

Description

一种基于文字识别的中文字段检测方法及系统
技术领域
本发明涉及文字检测技术领域,特别涉及一种基于文字识别的中文字段检测方法及系统。
背景技术
OCR(Optical Character Recognition,光学字符识别)技术能够高速、准确地扫描文档,但传统的OCR方案是利用边缘检测技术获取文字框,再使用字体文件匹配的方式进行识别,只能识别分别率高且背景简单的图像,无法对复杂背景和带有环境噪音的文本进行识别。因此传统的图片预处理方式依赖于标准的图片数据。
而新兴的OCR方案利用了深度学习的方法,通过Two-stage(定位字符串框、对框内文字识别)的识别方式进行。现有的自然场景下的定位方法有:CTPN(Connectionist TextProposal Network,连接文本生成网络)的定位方法、基于Seglink的场景定向文字检测、EAST文本检测等。而定位框采用CTPN的定位方法,是无法进行斜字符串或者不规则字符串的定位;采用Seglink的定位方法需要给定每个字符的定位以及其倾斜角θ,对训练数据质量要求高;采用EAST的定位切割方法对训练标签要求比较高,需要进行像素采样的训练标签。
现有技术的长文本识别手段有CRNN(Convolutional Recurrent NeuralNetwork,卷积循环神经网络)和Attention(注意力网络),两者都采用CTCLoss(Connectionist Temporal Classification)作为损失函数,前者由于利用了RNN(循环神经网络)的手段,其运算效率较低同时很容易过拟合;后者Attention对候选框的特征进行自注意力,需要较大的存储空间进行计算,不易单机部署。
发明内容
(一)发明目的
本发明的目的是提供一种基于文字识别的中文字段检测方法及系统,通过相对距离矩阵聚字成串和滑窗分类器正反向CTCLoss训练,能够精准的识别复杂环境下的中文字段。
(二)技术方案
为解决上述问题,根据本发明的一个方面,本发明提供了一种基于文字识别的中文字段检测方法,包括:识别预选区域中的文字区域;集合文字区域并计算相对距离矩阵,基于DBSCAN(Density-Based Spatial Clustering of Applications with Noise,基于密度的分层聚类算法)将矩阵聚类得到字符串区域;将字符串区域通过滑窗提取字符后放入单字符分类器,获得预测中文字段;基于预测中文字段通过CTCLoss正反向训练单字符分类器;通过softmax函数输出字符概率后,将滑窗提取的字符放入训练后的单字符分类器中,得到中文字段。
进一步的,识别预选区域中的文字区域包括:基于ResNet(残差网络)骨架提取预选区域的特征;利用全景FPN(Feature Pyramid Network,特征金字塔网络)合并预选区域的深层特征和浅层特征;基于RPN(RegionProposal Network,区域生成网络)识别预选区域的文字区域。
进一步的,基于RPN识别预选区域的文字区域之后还包括:通过NMS(Non-maximumsuppression,非极大值抑制算法)筛选并去除重复的文字区域。
进一步的,识别预选区域中的文字区域还包括:识别预选区域中的单个文字,并将单个文字加入至预测中文字段中。
进一步的,相对距离矩阵的计算公式如下:
Figure BDA0002455137630000021
Figure BDA0002455137630000031
Figure BDA0002455137630000032
其中,TL和BR分别表示一个文字区域的左上坐标点和右下坐标点;i和j分别表示第i个区域和第j个区域;x和y分别表示坐标点的x坐标值和y坐标值;
Figure BDA0002455137630000033
表示在宽度方向上第i个区域和第j个区域之间的距离;
Figure BDA0002455137630000034
表示在高度方向上第i个区域和第j个区域之间的距离;D(i,j)表示第i个区域和第j个区域之间的距离;α为宽度方向上第i个区域和第j个区域之间的距离的权重;β为高度方向上第i个区域和第j个区域之间的距离的权重。
进一步的,将字符串区域通过滑窗提取字符后放入单字符分类器,获得预测中文字段包括:基于滑窗选定字符串区域的一部分;从字符串区域的一部分开始按照给定步进遍历字符串区域,得到预测中文字段;将得到的预测中文字段放入单字符分类器中进行池化分类。
进一步的,单字符分类器包括RoIPooling(感兴趣区域池化)和全连接神经网络。
进一步的,基于预测中文字段通过CTCLoss正反向训练单字符分类器还包括:在进行正反向训练时添加信息熵正则项,以防止概率尖峰和单侧偏移。
根据本发明的另一个方面,本发明提供了一种基于文字识别的中文字段检测系统,包括:预选区域回归模块,以识别预选区域中的文字区域;聚字成句模块,以集合文字区域并计算相对距离矩阵,基于DBSCAN将矩阵聚类得到字符串区域;滑动窗生成模块,以将字符串区域通过滑窗提取字符后放入单字符分类器,获得预测中文字段;训练模块,以基于预测中文字段通过CTCLoss正反向训练单字符分类器;执行模块,通过softmax函数输出字符概率后,再将滑窗提取的字符放入训练后的单字符分类器中,得到中文字段。
进一步的,还包括:单字识别模块,以识别预选区域中的单个文字,并将单个文字加入至所述预测中文字段中。
(三)有益效果
本发明的上述技术方案具有如下有益的技术效果:
本发明中特征提取的步骤,能够较为精准的识别复杂环境下的中文字段,能够识别背景复杂或有噪音的文本;之后通过计算文字区域的相对距离矩阵以及DBSCAN的聚类成句解决了字符串提取时不精确的问题;而最后通过窗分类器和CTCLoss的正反向训练解决了现有技术中模型时间和空间复杂度过大的问题,减少了计算的存储空间。
附图说明
图1是本发明提供的基于文字识别的中文字段检测方法的步骤流程图;
图2是本发明提供的滑动窗口的示意图;
图3是本发明提供的基于文字识别的中文字段检测系统的原理图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
下面结合附图和实施例对本发明进行详细说明。
图1是本发明提供的基于文字识别的中文字段检测方法的步骤流程图,请参看图1,本发明提供的一种基于文字识别的中文字段检测方法,包括以下步骤:
S1:基于ResNet(残差网络)骨架提取预选区域的特征。
其中,预选区域为包含有中文字段的图片或文档等。特征提取是将图像转化为一组便于后续处理的数值特征,预选区域的特征被分为深层特征和浅层特征。
S2:利用全景FPN(特征金字塔网络)合并预选区域的深层特征和浅层特征。
具体地,为了防止过深特征图中像素消逝的问题,使用浅层特征层做为特征图;同时将深层特征与浅层特征合并,使得低像素文字也被检测到,提高识别的精准度。
S3:基于RPN(区域生成网络)识别预选区域中的文字区域。
S4:通过NMS(非极大值抑制算法)筛选并去除重复的文字区域。
具体地,通过RPN识别预选区域中可能是文字的区域,会产生多个且互相覆盖的文字区域,因此需要通过NMS筛选掉一部分重复过多的文字区域,增加文本识别的精准度。
S5:将通过NMS筛选后剩余的全部文字区域集合起来,并计算相对距离矩阵,相对距离矩阵的计算公式如下:
Figure BDA0002455137630000051
Figure BDA0002455137630000052
Figure BDA0002455137630000053
其中,TL和BR分别表示一个文字区域的左上坐标点和右下坐标点;i和j分别表示第i个区域和第j个区域;x和y分别表示坐标点的x坐标值和y坐标值;
Figure BDA0002455137630000054
表示在宽度方向上第i个区域和第j个区域之间的距离;
Figure BDA0002455137630000055
表示在高度方向上第i个区域和第j个区域之间的距离;D(i,j)表示第i个区域和第j个区域之间的距离;α为宽度方向上第i个区域和第j个区域之间的距离的权重;β为高度方向上第i个区域和第j个区域之间的距离的权重。
S6:基于DBSCAN(基于密度的分层聚类),将计算得到的上述相对距离矩阵聚类后得到字符串区域。
S7:将字符串区域通过滑窗提取字符后放入单字符分类器,获得预测中文字段,具体包括如下步骤:
S71:通过滑窗选定字符串区域的一部分;
S72:从字符串区域的一部分开始,按照给定步进遍历字符串区域,得到预测中文字段;
S73:将预测中文字段放入单字符分类器中进行池化分类。
具体地,请查看图2,图2表示滑动窗口的示例图。其中滑动窗口为固定的窗口,即正方形的方框,该方框会按照一个步幅由初始端划向尾端(从左往右),每一次步进就会提取该滑动窗口所在的图片,即一个预测中文字段。
如图2所示,该滑动窗口从“文字识别”的“文”开始以将近1/2字体大小为步幅进行右移,依次提取预测中文字段。
可选的,滑动窗口也可以按照一个步幅由尾端划向初始端(从右往左)。
可选的,滑动窗口也可以按照一个步幅由上往下,或者由下往上的形式依次移动。
优选的,单字符分类器包括RoIPooling(感兴趣区域池化)和全连接神经网络,其中,RoIPooling对每一个预测中文字段进行池化,池化后预测中文字段通过全连接神经网络进行分类。其中,RoIPooling能够任意缩放预测中文字段的尺寸至指定尺寸。
S8:基于预测中文字段通过CTCLoss正反向训练单字符分类器,并通过softmax函数输出字符概率。
S9:将滑窗提取的字符放入训练后的单字符分类器中得到中文字段。
具体地,如果在训练时不控制CTC的训练方向,整个卷积神经网络可能会出现感受视野偏右的情况,而实际想要的是正中的感受视野,所以需要随机双向,即正反向的采样。
如图2的由左至右的滑动窗口为“文字识别”,由右至左的滑动窗口则为“别识字文”;而CTCLoss的正反向训练则是随机的对输入的感兴趣区域做左至右的训练和右至左的训练。
其中,步骤S7是通过一个各种权值固定的单字符分类器,得到预测中文字段;步骤S8是对上述单字符分类器进行训练调整,并得到字符概率;步骤S9是通过训练后的单字符分类器获得最终的中文字段。
可选的,在进行正反向训练时还需添加信息熵正则项,以防止概率尖峰和单侧偏移。信息熵正则项的公式为:
Figure BDA0002455137630000071
其中,m为预选区域个数;n为预定的文字概率个数;
Figure BDA0002455137630000072
表示输出的第i个预选区域是第j个文字的概率。
优选的,在步骤S3中,识别预选区域中的文字区域还包括:识别预选区域中的单个文字,并将单个文字加入至预测中文字段中。
图3是本发明提供的基于文字识别的中文字段检测系统的原理图,请查看图3,本发明的另一个方面提供了一种基于文字识别的中文字段检测系统,包括:预选区域回归模块、聚字成句模块、滑动窗生成模块、训练模块和执行模块。
预选区域回归模块以基于RPN(区域生成网络)识别预选区域的文字区域,得到文字区域的坐标。
其中,预选区域回归模块包括:
特征提取单元,以基于ResNet(残差网络)骨架对预选区域进行特征提取,得到一个特征层,该特征层包括深层特征和浅层特征。
特征合并单元,以利用全景FPN(特征金字塔网络)合并深层特征和浅层特征。
筛选单元,以通过NMS(非极大值抑制)筛选并去除重复的文字区域。
聚字成句模块以集合文字区域并计算相对距离矩阵,基于DBSCAN(基于密度的分层聚类)将矩阵聚类得到字符串区域。
滑动窗生成模块以将字符串区域通过滑窗提取字符后放入单字符分类器,获得预测中文字段。
训练模块,以基于预测中文字段通过CTCLoss正反向训练单字符分类器,并通过softmax函数输出字符概率。
执行模块,以将滑窗提取的字符放入训练后的单字符分类器中,得到中文字段。
优选的,一种基于文字识别的中文字段检测系统,还包括:单字识别模块。单字识别模块以识别预选区域中的单个文字,并将单个文字加入至预测的中文字段中。
本发明旨在保护一种基于文字识别的中文字段检测方法及系统,包括:识别预选区域中的文字区域,集合文字区域并计算相对距离矩阵;基于DBSCAN(基于密度的分层聚类)将矩阵聚类得到字符串区域;将字符串区域通过滑窗提取字符后放入单字符分类器,获得预测中文字段;基于预测中文字段通过CTCLoss正反向训练单字符分类器,并通过softmax函数输出字符概率;将滑窗提取的字符放入训练后的单字符分类器中得到中文字段。通过相对距离矩阵聚字成串和滑窗分类器正反向CTCLoss训练,能够精准的识别复杂环境下的中文字段。解决了字符串提取不精确以及模型时间和空间复杂度过大的问题,能较为精准的识别复杂环境下的中文字段。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (10)

1.一种基于文字识别的中文字段检测方法,其特征在于,包括:
识别预选区域中的文字区域;
集合所述文字区域并计算相对距离矩阵;
基于DBSCAN(基于密度的分层聚类)将所述矩阵聚类得到字符串区域;
将所述字符串区域通过滑窗提取字符后放入单字符分类器,获得预测中文字段;
基于所述预测中文字段通过CTCLoss正反向训练所述单字符分类器,并通过softmax函数输出字符概率;
将滑窗提取的所述字符放入训练后的所述单字符分类器中得到中文字段。
2.根据权利要求1所述的方法,其特征在于,所述识别预选区域中的文字区域包括:
基于ResNet(残差网络)骨架提取预选区域的特征;
利用全景FPN(特征金字塔网络)合并所述预选区域的深层特征和浅层特征;
基于RPN(区域生成网络)识别所述预选区域的文字区域。
3.根据权利要求2所述的方法,其特征在于,基于RPN(区域生成网络)识别所述预选区域的文字区域之后还包括:
通过NMS(非极大值抑制)筛选并去除重复的文字区域。
4.根据权利要求1所述的方法,其特征在于,所述识别预选区域中的文字区域还包括:
识别所述预选区域中的单个文字,并将所述单个文字加入至所述预测中文字段中。
5.根据权利要求1所述的方法,其特征在于,所述相对距离矩阵的计算公式如下:
Figure FDA0002455137620000021
Figure FDA0002455137620000022
Figure FDA0002455137620000023
其中,TL和BR分别表示一个所述文字区域的左上坐标点和右下坐标点;i和j分别表示第i个区域和第j个区域;x和y分别表示坐标点的x坐标值和y坐标值;
Figure FDA0002455137620000025
表示在宽度方向上第i个区域和第j个区域之间的距离;
Figure FDA0002455137620000024
表示在高度方向上第i个区域和第j个区域之间的距离;D(i,j)表示第i个区域和第j个区域之间的距离;α为宽度方向上第i个区域和第j个区域之间的距离的权重;β为高度方向上第i个区域和第j个区域之间的距离的权重。
6.根据权利要求1所述的方法,其特征在于,将所述字符串区域通过滑窗提取字符后放入单字符分类器,获得预测中文字段包括:
基于滑窗选定所述字符串区域的一部分;
从所述字符串区域的一部分开始,按照给定步进遍历所述字符串区域,得到预测中文字段;
将得到的预测中文字段放入单字符分类器中进行池化分类。
7.根据权利要求6所述的方法,其特征在于,
所述单字符分类器包括RoIPooling(感兴趣区域池化)和全连接神经网络。
8.根据权利要求1所述的方法,其特征在于,基于所述预测中文字段通过CTCLoss正反向训练所述单字符分类器还包括:
在进行正反向训练时添加信息熵正则项,以防止概率尖峰和单侧偏移。
9.一种基于文字识别的中文字段检测系统,其特征在于,包括:
预选区域回归模块:以识别预选区域中的文字区域;
聚字成句模块,以集合所述文字区域并计算相对距离矩阵,基于DBSCAN(基于密度的分层聚类)将所述矩阵聚类得到字符串区域;
滑动窗生成模块,以将所述字符串区域通过滑窗提取字符后放入单字符分类器,获得预测中文字段;
训练模块,以基于所述预测中文字段通过CTCLoss正反向训练所述单字符分类器,并通过softmax函数输出字符概率;
执行模块,将滑窗提取的所述字符放入训练后的所述单字符分类器中,得到中文字段。
10.根据权利要求9所述的系统,其特征在于,还包括:
单字识别模块,以识别所述预选区域中的单个文字,并将所述单个文字加入至所述预测中文字段中。
CN202010304190.1A 2020-04-17 2020-04-17 一种基于文字识别的中文字段检测方法及系统 Active CN111507353B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010304190.1A CN111507353B (zh) 2020-04-17 2020-04-17 一种基于文字识别的中文字段检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010304190.1A CN111507353B (zh) 2020-04-17 2020-04-17 一种基于文字识别的中文字段检测方法及系统

Publications (2)

Publication Number Publication Date
CN111507353A true CN111507353A (zh) 2020-08-07
CN111507353B CN111507353B (zh) 2023-10-03

Family

ID=71876150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010304190.1A Active CN111507353B (zh) 2020-04-17 2020-04-17 一种基于文字识别的中文字段检测方法及系统

Country Status (1)

Country Link
CN (1) CN111507353B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797821A (zh) * 2020-09-09 2020-10-20 北京易真学思教育科技有限公司 文本检测方法、装置、电子设备及计算机存储介质
CN111814801A (zh) * 2020-08-25 2020-10-23 电子科技大学 一种机械图中标注串的提取方法
CN113762269A (zh) * 2021-09-08 2021-12-07 深圳市网联安瑞网络科技有限公司 基于神经网络的中文字符ocr识别方法、系统、介质及应用

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017215859A (ja) * 2016-06-01 2017-12-07 日本電信電話株式会社 文字列認識装置、方法、及びプログラム
CN107967475A (zh) * 2017-11-16 2018-04-27 广州探迹科技有限公司 一种基于窗口滑动和卷积神经网络的验证码识别方法
EP3422254A1 (en) * 2017-06-29 2019-01-02 Samsung Electronics Co., Ltd. Method and apparatus for separating text and figures in document images
CN109886330A (zh) * 2019-02-18 2019-06-14 腾讯科技(深圳)有限公司 文本检测方法、装置、计算机可读存储介质和计算机设备
CN110119742A (zh) * 2019-04-25 2019-08-13 添维信息科技(天津)有限公司 一种集装箱号的识别方法、装置及移动终端
CN110580462A (zh) * 2019-08-29 2019-12-17 华中科技大学 一种基于非局部网络的自然场景文本检测方法和系统
CN110807422A (zh) * 2019-10-31 2020-02-18 华南理工大学 一种基于深度学习的自然场景文本检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017215859A (ja) * 2016-06-01 2017-12-07 日本電信電話株式会社 文字列認識装置、方法、及びプログラム
EP3422254A1 (en) * 2017-06-29 2019-01-02 Samsung Electronics Co., Ltd. Method and apparatus for separating text and figures in document images
CN107967475A (zh) * 2017-11-16 2018-04-27 广州探迹科技有限公司 一种基于窗口滑动和卷积神经网络的验证码识别方法
CN109886330A (zh) * 2019-02-18 2019-06-14 腾讯科技(深圳)有限公司 文本检测方法、装置、计算机可读存储介质和计算机设备
CN110119742A (zh) * 2019-04-25 2019-08-13 添维信息科技(天津)有限公司 一种集装箱号的识别方法、装置及移动终端
CN110580462A (zh) * 2019-08-29 2019-12-17 华中科技大学 一种基于非局部网络的自然场景文本检测方法和系统
CN110807422A (zh) * 2019-10-31 2020-02-18 华南理工大学 一种基于深度学习的自然场景文本检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
仁青东主 等: "基于深度学习的自然场景藏文识别研究" *
刘俊伯: "基于循环神经网络的光学字符识别研究" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814801A (zh) * 2020-08-25 2020-10-23 电子科技大学 一种机械图中标注串的提取方法
CN111814801B (zh) * 2020-08-25 2022-03-15 电子科技大学 一种机械图中标注串的提取方法
CN111797821A (zh) * 2020-09-09 2020-10-20 北京易真学思教育科技有限公司 文本检测方法、装置、电子设备及计算机存储介质
CN113762269A (zh) * 2021-09-08 2021-12-07 深圳市网联安瑞网络科技有限公司 基于神经网络的中文字符ocr识别方法、系统、介质及应用
CN113762269B (zh) * 2021-09-08 2024-03-22 深圳市网联安瑞网络科技有限公司 基于神经网络的中文字符ocr识别方法、系统及介质

Also Published As

Publication number Publication date
CN111507353B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
CN111931684B (zh) 一种基于视频卫星数据鉴别特征的弱小目标检测方法
US20180114071A1 (en) Method for analysing media content
CN110119703A (zh) 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN111507353B (zh) 一种基于文字识别的中文字段检测方法及系统
CN110263712B (zh) 一种基于区域候选的粗精行人检测方法
WO2023083280A1 (zh) 一种场景文本识别方法和装置
CN105608454A (zh) 基于文字结构部件检测神经网络的文字检测方法及系统
CN110555420B (zh) 一种基于行人区域特征提取和重识别融合模型网络及方法
CN112733822A (zh) 一种端到端文本检测和识别方法
CN110969129A (zh) 一种端到端税务票据文本检测与识别方法
CN112232371B (zh) 一种基于YOLOv3与文本识别的美式车牌识别方法
CN110659550A (zh) 交通标志牌识别方法、装置、计算机设备和存储介质
CN111626292B (zh) 一种基于深度学习技术的楼宇指示标识的文字识别方法
CN109800756A (zh) 一种用于中文历史文献密集文本的文字检测识别方法
CN111046728A (zh) 一种基于特征金字塔网络的秸秆燃烧检测方法
CN112836657A (zh) 一种基于轻量化YOLOv3的行人检测方法及系统
CN112395953A (zh) 一种道面异物检测系统
CN114022837A (zh) 车站遗留物品检测方法、装置、电子设备及存储介质
CN111832497B (zh) 一种基于几何特征的文本检测后处理方法
CN112288702A (zh) 一种基于车联网的道路图像检测方法
CN112288701A (zh) 一种智慧交通图像检测方法
CN116363535A (zh) 基于卷积神经网络的无人机航拍影像中的船舶检测方法
CN116977931A (zh) 一种基于深度学习的高空抛物识别方法
CN115131590B (zh) 目标检测模型的训练方法、目标检测方法及相关设备
CN115953744A (zh) 一种基于深度学习的车辆识别追踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant