CN113298167A - 一种基于轻量级神经网络模型的文字检测方法及系统 - Google Patents
一种基于轻量级神经网络模型的文字检测方法及系统 Download PDFInfo
- Publication number
- CN113298167A CN113298167A CN202110609381.3A CN202110609381A CN113298167A CN 113298167 A CN113298167 A CN 113298167A CN 202110609381 A CN202110609381 A CN 202110609381A CN 113298167 A CN113298167 A CN 113298167A
- Authority
- CN
- China
- Prior art keywords
- text
- neural network
- network model
- character
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003062 neural network model Methods 0.000 title claims abstract description 70
- 238000001514 detection method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 70
- 238000012216 screening Methods 0.000 claims abstract description 20
- 230000001629 suppression Effects 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims description 18
- 238000012805 post-processing Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 239000003086 colorant Substances 0.000 claims description 4
- 230000005764 inhibitory process Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 230000006872 improvement Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于轻量级神经网络模型的文字检测方法及系统,涉及图像处理和神经网络领域,包括:根据空间信息对文本数据进行分类和边框标注,获得训练数据集;构建轻量级神经网络模型,通过训练数据集训练神经网络模型;通过训练后的神经网络模型预测待测文本,获得文字类别、文字边框及边框置信度;针对边框置信度进行置信度筛选,针对文字边框进行非极大值抑制,得到清晰的文本行;对文本行按文字类别进行聚类,得到最终检测结果。本发明实现对图片中的具有空间信息的文字进行分类及检测,进而不需要人工对检测到的文字进行筛选,降低筛选成本。
Description
技术领域
本发明涉及图像处理和神经网络领域,尤其是涉及一种基于轻量级神经网络模型的文字检测方法及系统。
背景技术
在进行网络文字识别的场景下,对于复杂场景的图片文字识别,先对文字的位置进行定位则可以大大提高文字识别的准确率,这个定位的过程称为文字检测,这一直是一个文字热点。此外,目前很多文字检测的需求是在手机端,手机端受限于内存原因对于应用的需求为轻便型,因此研究轻量级神经网络模型也是一大热点。
目前,现有的文字检测方法大多数是对图片中的所有文字进行检测,使得人工筛选成本巨大。
发明内容
针对上述问题,本发明提供了一种基于轻量级神经网络模型的文字检测方法及系统,实现对图片中的具有空间信息的文字进行分类及检测,进而不需要人工对检测到的文字进行筛选,降低筛选成本。
为实现上述目的,本发明提供了一种基于轻量级神经网络模型的文字检测方法,包括:
根据空间信息对文本数据进行分类和边框标注,获得训练数据集;
构建轻量级神经网络模型,通过所述训练数据集训练所述神经网络模型;
通过训练后的所述神经网络模型预测待测文本,获得文字类别、文字边框及边框置信度;
针对所述边框置信度进行置信度筛选,针对所述文字边框进行非极大值抑制,得到清晰的文本行;
对所述文本行按所述文字类别进行聚类,得到最终检测结果。
作为本发明的进一步改进,根据空间信息对文本进行分类和边框标注,获得训练数据集;包括:
预设分类标签;
采用标注工具按所述分类标签对文本数据进行分类;
采用四边形对每一行文字进行边框标注。
作为本发明的进一步改进,所述轻量级神经网络模型采用残差网络;
所述神经网络模型结构包括:CBR、RES残差块、POOL最大池化层和Conv卷积层;
所述神经网络模型的输出包括类别分支和坐标分支,所述类别分支输出文字属于各个类别的置信度;所述坐标分支输出文字的坐标信息。
作为本发明的进一步改进,所述通过所述训练数据集对所述神经网络模型进行训练;包括:
依次通过神经网络模型的类别分支输出所述训练数据集中各训练数据中文字的预测类别;
利用多个宽度固定的矩形框拼接得到文字的边框坐标信息;
根据神经网络模型得到的预测类别和训练数据集中的真实类别计算类别损失;
根据神经网络模型得到的边框坐标信息练数据集中的真实边框坐标信息计算回归任务中的回归损失;
根据所述类别损失和所述回归损失更新神经网络模型的参数,得到训练后的所述神经网络模型。
作为本发明的进一步改进,所述通过所述训练数据集训练所述神经网络模型;还包括:
先将所述训练数据集进行数据增强,增加训练数据的样本数;
所述数据增强的方式包括裁剪图片、改变图片某通道亮度、改变图片三个通道顺序以及利用无关的图片与训练数据集进行融合。
作为本发明的进一步改进,分别利用交叉熵损失及均方误差计算所述类别损失和回归损失;
在计算所述类别损失和所述回归损失时,加入l2正则化,加强网络的泛化能力,避免所述神经网络模型深度学习后过拟合。
作为本发明的进一步改进,所述通过训练后的所述神经网络模型预测待测文本,获得文字类别、文字边框及边框置信度;包括:
识别所述待测文本中各部分文字的类别;
采用不同颜色的竖状矩形框对不同类别的文字进行框选;
输出框选后的所述待测文本图样及各所述竖状矩形框的置信度。
作为本发明的进一步改进,所述针对所述边框置信度进行置信度筛选,针对所述文字边框进行非极大值抑制,得到清晰的文本行;具体包括:
针对所述边框置信度进行置信度筛选,得到置信度最高的边框,输出筛选后的所述待测文本图样;
针对所述文字边框进行非极大值抑制,去除重叠度较高的边框,得到不重叠的清洗文本行。
作为本发明的进一步改进,对所述文本行按所述文字类别进行聚类包括:
将类别相同且距离相近的边框聚为一行;
对同一类别中,文字间隔较大但左右边界固定的边框,再次进行左右边界聚类。
本发明还公开了一种基于轻量级神经网络的文字检测系统,包括:训练数据获取模块、模型训练模块、文本预测模块、后处理模块;
所述训练数据获取模块,用于:
根据空间信息对文本数据进行分类和边框标注,获得训练数据集;
所述模型训练模块,用于:
构建轻量级神经网络模型,通过所述训练数据集训练所述神经网络模型;
所述文本预测模块,用于:
通过训练后的所述神经网络模型预测待测文本,获得文字类别、文字边框及边框置信度;
所述后处理模块,用于:
针对所述边框置信度进行置信度筛选,针对所述文字边框进行非极大值抑制,得到清晰的文本行;
对所述文本行按所述文字类别进行聚类,得到最终检测结果。
与现有技术相比,本发明的有益效果为:
本发明实现对图片中的具有空间信息的文字进行分类及检测,检测速度快,也不再不需要人工对检测到的文字进行筛选,降低了筛选成本;同时在监测过程中,图片中不需要的文字则忽略,提高了监测效率。
本发明尤其适用于“名称:内容”的文字检测,由于文字信息有着序列性的特点,不像其他目标检测任务中的目标是独立的,因此采用多个固定宽度的竖状矩形框来表示,再对竖状矩形框后处理连接成一个完整的大矩形框,提高了检测的准确率,还可以实现对角度倾斜的文字进行检测;同时,在预测文字坐标的同时加入了分类的任务,因此可以检测图片中具有空间信息的文字并将其进行分类,有利于后续的文本识别。
附图说明
图1为本发明一种实施例公开的基于轻量级神经网络模型的文字检测方法流程图;
图2为本发明一种实施例公开的基于轻量级神经网络模型的文字检测系统示意图;
图3为本发明一种实施例公开的训练数据集中训练数据标注效果示意图;
图4为本发明一种实施例公开的神经网络模型结构示意图;
图5为本发明一种实施例公开的神经网络模型输出的竖状矩形框标注图;
图6为本发明一种实施例公开的进行置信度筛选后的竖状矩形框标注图;
图7为本发明一种实施例公开的进行非极大值抑制后的竖状矩形框标注图;
图8为本发明一种实施例公开的同类别边框聚类后的竖状矩形框标注图;
图9为本发明一种实施例公开的左右边界聚类后的竖状矩形框标注图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,本发明提供的一种基于轻量级神经网络模型的文字检测方法,包括:
S1、根据空间信息对文本数据进行分类和边框标注,获得训练数据集;
预设分类标签,如“name”及“content”两个类别;
采用标注工具按分类标签对文本数据进行分类,
采用四边形对每一行文字进行边框标注,其中红色框用于标注“name”类,绿色框用于标注“content”类别,结果如图3所示。
S2、构建轻量级神经网络模型,通过训练数据集训练神经网络模型;
其中,
(1)轻量级神经网络模型采用残差网络;
神经网络模型结构包括:CBR、RES残差块、POOL最大池化层和Conv卷积层;
神经网络模型的输出包括类别分支和坐标分支,类别分支输出文字属于各个类别的置信度;坐标分支输出文字的坐标信息。
(2)神经网络模型训练过程,包括:
S21、先将训练数据集进行数据增强,增加训练数据的样本数;数据增强的方式包括裁剪图片、改变图片某通道亮度、改变图片三个通道顺序以及利用无关的图片与训练数据集进行融合。
S22、依次通过神经网络模型的类别分支输出训练数据集中各训练数据中文字的预测类别;
S23、利用多个宽度固定的矩形框拼接得到文字的边框坐标信息;
S24、根据神经网络模型得到的预测类别和训练数据集中的真实类别计算类别损失;
根据神经网络模型得到的边框坐标信息练数据集中的真实边框坐标信息计算回归任务中的回归损失;其中,分别利用交叉熵损失及均方误差计算类别损失和回归损失;在计算类别损失和回归损失时,加入l2正则化,加强网络的泛化能力,避免神经网络模型深度学习后过拟合。
损失函数的整体表达式如下,其中λ=0.3,μ=0.025:
计算损失后将损失进行反向传播,利用Adam优化器对更新网络参数,由于训练前期网络仍然欠拟合较严重,因此可以利用较大的学习率去更新网络参数,这样可以加快损失函数的下降,然而在训练后期网络逐渐拟合训练数据,如果仍然以较大的学习率来更新网络参数则容易造成网络在最优点附近震荡,因此采用指数衰减的方法来对学习率进行更新。
S25、根据类别损失和回归损失更新神经网络模型的参数,得到训练后的神经网络模型。
S3、通过训练后的神经网络模型预测待测文本,获得文字类别、文字边框及边框置信度;
其中,包括:
识别待测文本中各部分文字的类别;
采用不同颜色的竖状矩形框对不同类别的文字进行框选;
输出框选后的待测文本图样及各竖状矩形框的置信度。
S4、针对边框置信度进行置信度筛选,针对文字边框进行非极大值抑制,得到清晰的文本行;
具体包括:
针对边框置信度进行置信度筛选,得到置信度最高的边框,输出筛选后的待测文本图样;
针对文字边框进行非极大值抑制,去除重叠度较高的边框,得到不重叠的清洗文本行。
S5、对文本行按文字类别进行聚类,得到最终检测结果。
其中,
将类别相同且距离相近的边框聚为一行;
对同一类别中,文字间隔较大但左右边界固定的边框,再次进行左右边界聚类。
如图2所示,本发明还提供了用于实现S1~S5的系统,包括:训练数据获取模块、模型训练模块、文本预测模块、后处理模块;
训练数据获取模块,用于:
根据空间信息对文本数据进行分类和边框标注,获得训练数据集;
模型训练模块,用于:
构建轻量级神经网络模型,通过训练数据集训练神经网络模型;
文本预测模块,用于:
通过训练后的神经网络模型预测待测文本,获得文字类别、文字边框及边框置信度;
后处理模块,用于:
针对边框置信度进行置信度筛选,针对文字边框进行非极大值抑制,得到清晰的文本行;
对文本行按文字类别进行聚类,得到最终检测结果。
实施例:
本发明特别适用于待检测的图片中的元素包括文字的物理空间信息,如:“性别:女”这样的字段,常规的证书文件均为该种格式,已证书类图片识别为例,具体如下:
步骤1、根据空间信息对文本数据进行分类和边框标注,获得训练数据集;
预设分类标签,如“name”及“content”两个类别;
采用标注工具按分类标签对文本数据进行分类,
采用四边形对每一行文字进行边框标注,其中红色框用于标注“name”类,绿色框用于标注“content”类别,结果如图3所示。
步骤2、构建轻量级神经网络模型,如图4所示,通过训练数据集训练神经网络模型;
步骤3、通过训练后的神经网络模型预测待测文本,获得文字类别、文字边框及边框置信度;
其中,包括:
识别待测文本中各部分文字的类别;
采用不同颜色的竖状矩形框对不同类别的文字进行框选;
如图5所示,输出框选后的待测文本图样及各竖状矩形框的置信度;
步骤4、针对边框置信度进行置信度筛选,针对文字边框进行非极大值抑制,得到清晰的文本行;
具体包括:
针对边框置信度进行置信度筛选,得到置信度最高的边框,输出筛选后的待测文本图样,如图6所示;
针对文字边框进行非极大值抑制,去除重叠度较高的边框,得到不重叠的清洗文本行,如图7所示。
步骤5、对文本行按“name”和“content”的边框进行聚类,得到最终检测结果。
其中,
将类别相同且距离相近的边框聚为一行,得到图8所示图样;
对于图8中“name”类别的文字,由于一行中存在每个字之间相隔过远的情况,聚类后可能会出现文字缺失的情况,再次进行左右边界聚类,得到最终检测结果,如图9所示。
本发明的优点:
(1)实现对图片中的具有空间信息的文字进行分类及检测,检测速度快,也不再不需要人工对检测到的文字进行筛选,降低了筛选成本;同时在监测过程中,图片中不需要的文字则忽略,提高了监测效率。
(2)尤其适用于“名称:内容”的文字检测,由于文字信息有着序列性的特点,不像其他目标检测任务中的目标是独立的,因此采用多个固定宽度的竖状矩形框来表示,再对竖状矩形框后处理连接成一个完整的大矩形框,提高了检测的准确率,还可以实现对角度倾斜的文字进行检测;同时,在预测文字坐标的同时加入了分类的任务,因此可以检测图片中具有空间信息的文字并将其进行分类,有利于后续的文本识别。
(3)在本发明中,仅仅使用了9个残差块,相较于常用的残差网络,残差块的使用多达50个,系统模型容量小,不仅仅可以提供云端服务接口,也可以实现在移动端的部署。
(4)本发明训练过程利用指数衰减来更新学习率,可以快速且有效的令网络达到最优点,同时采用不同的方式加载训练数据,增加数据样本,防止网络过拟合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于轻量级神经网络模型的文字检测方法,其特征在于,包括:
根据空间信息对文本数据进行分类和边框标注,获得训练数据集;
构建轻量级神经网络模型,通过所述训练数据集训练所述神经网络模型;
通过训练后的所述神经网络模型预测待测文本,获得文字类别、文字边框及边框置信度;
针对所述边框置信度进行置信度筛选,针对所述文字边框进行非极大值抑制,得到清晰的文本行;
对所述文本行按所述文字类别进行聚类,得到最终检测结果。
2.根据权利要求1所述的文字检测方法,其特征在于:根据空间信息对文本进行分类和边框标注,获得训练数据集;包括:
预设分类标签;
采用标注工具按所述分类标签对文本数据进行分类;
采用四边形对每一行文字进行边框标注。
3.根据权利要求1所述的文字检测方法,其特征在于:所述轻量级神经网络模型采用残差网络;
所述神经网络模型结构包括:CBR、RES残差块、POOL最大池化层和Conv卷积层;
所述神经网络模型的输出包括类别分支和坐标分支,所述类别分支输出文字属于各个类别的置信度;所述坐标分支输出文字的坐标信息。
4.根据权利要求1所述的文字检测方法,其特征在于,所述通过所述训练数据集对所述神经网络模型进行训练;包括:
依次通过神经网络模型的类别分支输出所述训练数据集中各训练数据中文字的预测类别;
利用多个宽度固定的矩形框拼接得到文字的边框坐标信息;
根据神经网络模型得到的预测类别和训练数据集中的真实类别计算类别损失;
根据神经网络模型得到的边框坐标信息练数据集中的真实边框坐标信息计算回归任务中的回归损失;
根据所述类别损失和所述回归损失更新神经网络模型的参数,得到训练后的所述神经网络模型。
5.根据权利要求4所述的文字检测方法,其特征在于,分别利用交叉熵损失及均方误差计算所述类别损失和回归损失;
在计算所述类别损失和所述回归损失时,加入l2正则化。
6.根据权利要求1所述的文字检测方法,其特征在于,所述通过所述训练数据集训练所述神经网络模型;还包括:
先将所述训练数据集进行数据增强,增加训练数据的样本数;
所述数据增强的方式包括裁剪图片、改变图片某通道亮度、改变图片三个通道顺序以及利用无关的图片与训练数据集进行融合。
7.根据权利要求1所述的文字检测方法,其特征在于:所述通过训练后的所述神经网络模型预测待测文本,获得文字类别、文字边框及边框置信度;包括:
识别所述待测文本中各部分文字的类别;
采用不同颜色的竖状矩形框对不同类别的文字进行框选;
输出框选后的所述待测文本图样及各所述竖状矩形框的置信度。
8.根据权利要求1所述的文字检测方法,其特征在于:所述针对所述边框置信度进行置信度筛选,针对所述文字边框进行非极大值抑制,得到清晰的文本行;具体包括:
针对所述边框置信度进行置信度筛选,得到置信度最高的边框,输出筛选后的所述待测文本图样;
针对所述文字边框进行非极大值抑制,去除重叠度较高的边框,得到不重叠的清洗文本行。
9.根据权利要求1所述的文字检测方法,其特征在于,对所述文本行按所述文字类别进行聚类包括:
将类别相同且距离相近的边框聚为一行;
对同一类别中,文字间隔较大但左右边界固定的边框,再次进行左右边界聚类。
10.一种用于实现权利要求1~9任一项所述的文字检测方法的系统,其特征在于,包括:训练数据获取模块、模型训练模块、文本预测模块、后处理模块;
所述训练数据获取模块,用于:
根据空间信息对文本数据进行分类和边框标注,获得训练数据集;
所述模型训练模块,用于:
构建轻量级神经网络模型,通过所述训练数据集训练所述神经网络模型;
所述文本预测模块,用于:
通过训练后的所述神经网络模型预测待测文本,获得文字类别、文字边框及边框置信度;
所述后处理模块,用于:
针对所述边框置信度进行置信度筛选,针对所述文字边框进行非极大值抑制,得到清晰的文本行;
对所述文本行按所述文字类别进行聚类,得到最终检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110609381.3A CN113298167B (zh) | 2021-06-01 | 2021-06-01 | 一种基于轻量级神经网络模型的文字检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110609381.3A CN113298167B (zh) | 2021-06-01 | 2021-06-01 | 一种基于轻量级神经网络模型的文字检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113298167A true CN113298167A (zh) | 2021-08-24 |
CN113298167B CN113298167B (zh) | 2024-10-15 |
Family
ID=77326685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110609381.3A Active CN113298167B (zh) | 2021-06-01 | 2021-06-01 | 一种基于轻量级神经网络模型的文字检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113298167B (zh) |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108734052A (zh) * | 2017-04-13 | 2018-11-02 | 北京旷视科技有限公司 | 文字检测方法、装置和系统 |
CN109034155A (zh) * | 2018-07-24 | 2018-12-18 | 百卓网络科技有限公司 | 一种文字检测及识别的方法及系统 |
CN109166161A (zh) * | 2018-07-04 | 2019-01-08 | 东南大学 | 一种基于噪声伪影抑制卷积神经网络的低剂量ct图像处理系统 |
CN109214383A (zh) * | 2018-07-17 | 2019-01-15 | 北京陌上花科技有限公司 | 一种图像识别方法及装置 |
CN109299274A (zh) * | 2018-11-07 | 2019-02-01 | 南京大学 | 一种基于全卷积神经网络的自然场景文本检测方法 |
CN109961008A (zh) * | 2019-02-13 | 2019-07-02 | 平安科技(深圳)有限公司 | 基于文字定位识别的表格解析方法、介质及计算机设备 |
CN110287959A (zh) * | 2019-06-27 | 2019-09-27 | 浙江工业大学 | 一种基于再识别策略的车牌识别方法 |
CN110363252A (zh) * | 2019-07-24 | 2019-10-22 | 山东大学 | 趋向于端到端的场景文字检测与识别方法以及系统 |
CN110516554A (zh) * | 2019-07-31 | 2019-11-29 | 杭州电子科技大学 | 一种多场景多字体中文文字检测识别方法 |
CN110837835A (zh) * | 2019-10-29 | 2020-02-25 | 华中科技大学 | 一种基于边界点检测的场景文本端到端识别方法 |
CN111310746A (zh) * | 2020-01-15 | 2020-06-19 | 支付宝实验室(新加坡)有限公司 | 文本行检测方法、模型训练方法、装置、服务器及介质 |
CN111401361A (zh) * | 2020-03-06 | 2020-07-10 | 南京理工大学 | 一种端到端的轻量级深度车牌识别方法 |
CN111488873A (zh) * | 2020-04-03 | 2020-08-04 | 中国科学院深圳先进技术研究院 | 一种基于弱监督学习的字符级场景文字检测方法和装置 |
CN111639639A (zh) * | 2019-03-01 | 2020-09-08 | 杭州海康威视数字技术股份有限公司 | 检测文本区域的方法、装置、设备及存储介质 |
CN111753828A (zh) * | 2020-05-19 | 2020-10-09 | 重庆邮电大学 | 一种基于深度卷积神经网络的自然场景水平文字检测方法 |
WO2020206861A1 (zh) * | 2019-04-08 | 2020-10-15 | 江西理工大学 | 基于YOLO v3的针对交通枢纽关键物体的检测方法 |
CN112052352A (zh) * | 2020-09-07 | 2020-12-08 | 北京达佳互联信息技术有限公司 | 视频排序方法、装置、服务器及存储介质 |
CN112150354A (zh) * | 2019-06-26 | 2020-12-29 | 四川大学 | 联合轮廓增强与去噪统计先验的单幅图像超分辨率方法 |
CN112183545A (zh) * | 2020-09-29 | 2021-01-05 | 佛山市南海区广工大数控装备协同创新研究院 | 一种任意形状的自然场景文本识别方法 |
CN112270252A (zh) * | 2020-10-26 | 2021-01-26 | 西安工程大学 | 一种改进YOLOv2模型的多车辆目标识别方法 |
-
2021
- 2021-06-01 CN CN202110609381.3A patent/CN113298167B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108734052A (zh) * | 2017-04-13 | 2018-11-02 | 北京旷视科技有限公司 | 文字检测方法、装置和系统 |
CN109166161A (zh) * | 2018-07-04 | 2019-01-08 | 东南大学 | 一种基于噪声伪影抑制卷积神经网络的低剂量ct图像处理系统 |
CN109214383A (zh) * | 2018-07-17 | 2019-01-15 | 北京陌上花科技有限公司 | 一种图像识别方法及装置 |
CN109034155A (zh) * | 2018-07-24 | 2018-12-18 | 百卓网络科技有限公司 | 一种文字检测及识别的方法及系统 |
CN109299274A (zh) * | 2018-11-07 | 2019-02-01 | 南京大学 | 一种基于全卷积神经网络的自然场景文本检测方法 |
CN109961008A (zh) * | 2019-02-13 | 2019-07-02 | 平安科技(深圳)有限公司 | 基于文字定位识别的表格解析方法、介质及计算机设备 |
CN111639639A (zh) * | 2019-03-01 | 2020-09-08 | 杭州海康威视数字技术股份有限公司 | 检测文本区域的方法、装置、设备及存储介质 |
WO2020206861A1 (zh) * | 2019-04-08 | 2020-10-15 | 江西理工大学 | 基于YOLO v3的针对交通枢纽关键物体的检测方法 |
CN112150354A (zh) * | 2019-06-26 | 2020-12-29 | 四川大学 | 联合轮廓增强与去噪统计先验的单幅图像超分辨率方法 |
CN110287959A (zh) * | 2019-06-27 | 2019-09-27 | 浙江工业大学 | 一种基于再识别策略的车牌识别方法 |
CN110363252A (zh) * | 2019-07-24 | 2019-10-22 | 山东大学 | 趋向于端到端的场景文字检测与识别方法以及系统 |
CN110516554A (zh) * | 2019-07-31 | 2019-11-29 | 杭州电子科技大学 | 一种多场景多字体中文文字检测识别方法 |
CN110837835A (zh) * | 2019-10-29 | 2020-02-25 | 华中科技大学 | 一种基于边界点检测的场景文本端到端识别方法 |
CN111310746A (zh) * | 2020-01-15 | 2020-06-19 | 支付宝实验室(新加坡)有限公司 | 文本行检测方法、模型训练方法、装置、服务器及介质 |
CN111401361A (zh) * | 2020-03-06 | 2020-07-10 | 南京理工大学 | 一种端到端的轻量级深度车牌识别方法 |
CN111488873A (zh) * | 2020-04-03 | 2020-08-04 | 中国科学院深圳先进技术研究院 | 一种基于弱监督学习的字符级场景文字检测方法和装置 |
CN111753828A (zh) * | 2020-05-19 | 2020-10-09 | 重庆邮电大学 | 一种基于深度卷积神经网络的自然场景水平文字检测方法 |
CN112052352A (zh) * | 2020-09-07 | 2020-12-08 | 北京达佳互联信息技术有限公司 | 视频排序方法、装置、服务器及存储介质 |
CN112183545A (zh) * | 2020-09-29 | 2021-01-05 | 佛山市南海区广工大数控装备协同创新研究院 | 一种任意形状的自然场景文本识别方法 |
CN112270252A (zh) * | 2020-10-26 | 2021-01-26 | 西安工程大学 | 一种改进YOLOv2模型的多车辆目标识别方法 |
Non-Patent Citations (2)
Title |
---|
JIANG, BR (JIANG, BORUI)等: "Acquisition of Localization Confidence for Accurate Object Detection", 《 COMPUTER VISION - ECCV 2018, PT XIV》, no. 11218, 31 December 2018 (2018-12-31), pages 816 - 832 * |
陈旭君等: "基于YOLO卷积神经网络的水稻秧苗行线检测", 《江苏农业学报》, no. 04, 30 April 2020 (2020-04-30), pages 930 - 935 * |
Also Published As
Publication number | Publication date |
---|---|
CN113298167B (zh) | 2024-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112884064B (zh) | 一种基于神经网络的目标检测与识别方法 | |
CN110059694B (zh) | 电力行业复杂场景下的文字数据的智能识别方法 | |
CN106960195B (zh) | 一种基于深度学习的人群计数方法及装置 | |
US11151723B2 (en) | Image segmentation method, apparatus, and fully convolutional network system | |
CN111784685A (zh) | 一种基于云边协同检测的输电线路缺陷图像识别方法 | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
CN111105336A (zh) | 一种基于对抗网络的图像去水印的方法 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN108305253B (zh) | 一种基于多倍率深度学习的病理图像分类方法 | |
CN111008632B (zh) | 一种基于深度学习的车牌字符分割方法 | |
CN114155527A (zh) | 一种场景文本识别方法和装置 | |
CN110705412A (zh) | 一种基于运动历史图像的视频目标检测方法 | |
CN111126115A (zh) | 暴力分拣行为识别方法和装置 | |
CN108009548A (zh) | 一种智能路牌识别方法及系统 | |
CN110334703B (zh) | 一种昼夜图像中的船舶检测和识别方法 | |
CN113435407B (zh) | 一种输电系统的小目标识别方法及装置 | |
CN110533068B (zh) | 一种基于分类卷积神经网络的图像对象识别方法 | |
CN110059539A (zh) | 一种基于图像分割的自然场景文本位置检测方法 | |
CN110599453A (zh) | 一种基于图像融合的面板缺陷检测方法、装置及设备终端 | |
CN112036300B (zh) | 一种基于多尺度时空传播层的运动目标检测方法 | |
CN111931572B (zh) | 一种遥感影像的目标检测方法 | |
CN113901924A (zh) | 一种文档表格的检测方法及装置 | |
CN107274425B (zh) | 一种基于脉冲耦合神经网络的彩色图像分割方法及装置 | |
CN110147724B (zh) | 用于检测视频中的文本区域的方法、装置、设备以及介质 | |
CN109902730B (zh) | 基于深度学习的输电线路断股检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |