CN112926637A - 一种文本检测训练集的生成方法 - Google Patents
一种文本检测训练集的生成方法 Download PDFInfo
- Publication number
- CN112926637A CN112926637A CN202110172884.9A CN202110172884A CN112926637A CN 112926637 A CN112926637 A CN 112926637A CN 202110172884 A CN202110172884 A CN 202110172884A CN 112926637 A CN112926637 A CN 112926637A
- Authority
- CN
- China
- Prior art keywords
- target
- training set
- targets
- ratio
- width
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种文本检测训练集的生成方法,首先按照目标的面积占比或者目标的宽度占比统计训练集的目标信息,按照目标的面积占比或者目标的宽度占比将目标分为多个级别,然后将目标从原图按照标注好的框截取下来,按照级别分别保存,通过图像处理抹掉图片上的文字,保留背景信息,作为新的训练集的背景,再将截下来的各级别的目标,按照一定比率写入背景之中,生成新的训练样本。该方法使得目标分布可控,小目标占比提升,可以改善小目标的漏检情况;并且训练集数量可控,以相对少的训练集达到相同的训练效果。
Description
技术领域
本发明属于文本检测技术领域,具体涉及一种文本检测训练集的生成方法。
背景技术
近年来文本检测算法发展迅速,主要用于检测出图片中文本的位置。当前的检测技术,一般采用基于深度学习的检测方法,准确率较高,但会发生漏检(目标没有被检出)、误检(非目标被检出认为是目标)。
发生漏检、误检的一个主要问题是训练样本的均衡性不足。在文本检测中,各种文本行、块均会标记为同一种类别’text’,训练过程中,模型将遇到的大、小样本的分类均向text回归。某些冷门文本,比如非常短,或者是字母、星号(’*’)等小目标,由于样本中覆盖的比较少,容易因训练不充分而导致漏检。
如图1所示,选框中是要检测的目标,这些长短不同,大小不一的框,label只有一种——“text”。从分布来看,“多又好超市”这种文本,目标很大,在以深度学习为主的目标检测算法中,属于比较容易检出的目标,某些时候由于样本占比不高,测试中会发生漏检。而图中的“1”属于目标很小而且占比很少,测试中漏检的概率很高。
现有的深度学习检测算法,标准的流程是,首先对训练集标注,然后将标注后的训练集送入模型训练,默认训练集中的随机样本分布符合真实情况。但是测试集中会出现问题,比如目标占比较少的小目标样本和一些特殊样本,由于被训练的机会不足,使得漏检的可能提高。
当前对这种样本不均衡的解决方法是应用数据增广,例如随机剪切部分内容作为训练集,或者粗暴的对整个样本做复制以调高训练集的多样性或者改变训练集的样本分布,这些方法对准确性的提高有一定的帮助,但依然存在以下问题:
1.样本分布处于一种随机的状态,虽然与真实的情况可能一致,但是依然无法解决部分小目标和特殊样本训练不充分的问题。
2.训练集数量不可控,可能为了解决某个问题,数据增广达到原有训练集的几倍,造成训练集臃肿,训练效率下降。
鉴于此,有必要设计一种新的训练集生成方法,以更好的适应不同条件下的文本检测项目,最大限度的减少漏检、误检。
发明内容
本发明的目的在于克服现有技术的不足,提供一种文本检测训练集的生成方法,该方法使得目标分布可控,小目标占比提升,可以改善小目标的漏检情况;并且训练集数量可控,以相对少的训练集达到相同的训练效果。
本发明是通过以下技术方案实现的:
一种文本检测训练集的生成方法,包括以下步骤:
步骤1:按照目标的面积占比或者目标的宽度占比统计训练集的目标信息;
步骤2:目标分级,按照目标的面积占比或者目标的宽度占比将目标分为多个级别;
步骤3:截图保存,将目标从原图按照标注好的框截取下来,按照级别分别保存;
步骤4:背景生成,通过图像处理抹掉图片上的文字,保留背景信息,作为新的训练集的背景;
步骤5:将截下来的各级别的目标,按照一定比率写入背景之中,生成新的训练样本。
在上述技术方案中,首先将训练集以宽为基准resize到同一尺寸,再按照目标的面积占比或者目标的宽度占比统计训练集的目标信息。
在上述技术方案中,优选为,按照目标的面积占比或者目标的宽度占比将目标分为四个级别。
在上述技术方案中,目标的面积占比是指目标的面积/样本的面积。
在上述技术方案中,目标的宽度占比是指目标的宽度/样本的宽度。
本发明的优点和有益效果为:
1.样本中的目标分布可控,数据增广的数量可控,可以有针对性的生成某种特种的训练样本。
2.实现简单,通过样本信息统计和当前模型的检测结果确定新训练集的目标分布。
3.训练集数量可控,不必像从前一样做粗暴随机的数据增广,可以有效的增加某类目标,以改变该目标在训练集中的分布。
附图说明
图1是背景技术中给出的一种文本检测样本(超市消费小票)的示意图。
本发明实施例一的移载机构的立体结构示意图。
对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据以上附图获得其他的相关附图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合具体实施例进一步说明本发明的技术方案。
实施例一
一种文本检测训练集的生成方法,包括以下步骤:
步骤1:首先将训练集以宽为基准resize到同一尺寸(方便后面的生成操作),按照目标的面积占比(即目标的面积/样本的面积)统计训练集的目标信息。
步骤2:目标分级,按照目标的面积占比将目标分为大目标、中目标、小目标、超小目标四个级别。
步骤3:截图保存,将目标从原图按照标注好的框截取下来,按照四个级别分别保存。
步骤4:背景生成,通过传统的图像处理算法,抹掉图片上的文字,保留背景信息,作为新的训练集的背景,这样做的目的是使得新生成的样本与原有训练集基本一致。
步骤5:将切下来的四个级别的目标,按照一定比率写入背景之中,生成新的训练样本。
如此生成的训练集,其目标分布可控,小目标占比提升,可以改善小目标的漏检情况。训练集数量可控,以相对少的训练集达到相同的训练效果。
实施例二
一种文本检测训练集的生成方法,包括以下步骤:
步骤1:首先将训练集以宽为基准resize到同一尺寸(方便后面的生成操作),按照目标的宽度占比(即目标的宽度/样本的宽度)统计训练集的目标信息。
步骤2:目标分级,按照目标的宽度占比将目标分为大目标、中目标、小目标、超小目标四个级别。
步骤3:截图保存,将目标从原图按照标注好的框截取下来,按照四个级别分别保存。
步骤4:背景生成,通过传统的图像处理算法,抹掉图片上的文字,保留背景信息,作为新的训练集的背景,这样做的目的是使得新生成的样本与原有训练集基本一致。
步骤5:将切下来的四个级别的目标,按照一定比率写入背景之中,生成新的训练样本。
以上对本发明做了示例性的描述,应该说明的是,在不脱离本发明的核心的情况下,任何简单的变形、修改或者其他本领域技术人员能够不花费创造性劳动的等同替换均落入本发明的保护范围。
Claims (5)
1.一种文本检测训练集的生成方法,其特征在于,包括以下步骤:
步骤1:按照目标的面积占比或者目标的宽度占比统计训练集的目标信息;
步骤2:目标分级,按照目标的面积占比或者目标的宽度占比将目标分为多个级别;
步骤3:截图保存,将目标从原图按照标注好的框截取下来,按照级别分别保存;
步骤4:背景生成,通过图像处理抹掉图片上的文字,保留背景信息,作为新的训练集的背景;
步骤5:将截下来的各级别的目标,按照一定比率写入背景之中,生成新的训练样本。
2.根据权利要求1所述的文本检测训练集的生成方法,其特征在于:首先将训练集以宽为基准resize到同一尺寸,再按照目标的面积占比或者目标的宽度占比统计训练集的目标信息。
3.根据权利要求1所述的文本检测训练集的生成方法,其特征在于:按照目标的面积占比或者目标的宽度占比将目标分为四个级别。
4.根据权利要求1所述的文本检测训练集的生成方法,其特征在于:目标的面积占比是指目标的面积/样本的面积。
5.根据权利要求1所述的文本检测训练集的生成方法,其特征在于:目标的宽度占比是指目标的宽度/样本的宽度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110172884.9A CN112926637B (zh) | 2021-02-08 | 2021-02-08 | 一种文本检测训练集的生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110172884.9A CN112926637B (zh) | 2021-02-08 | 2021-02-08 | 一种文本检测训练集的生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112926637A true CN112926637A (zh) | 2021-06-08 |
CN112926637B CN112926637B (zh) | 2023-06-09 |
Family
ID=76171225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110172884.9A Active CN112926637B (zh) | 2021-02-08 | 2021-02-08 | 一种文本检测训练集的生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926637B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590456A (zh) * | 2017-09-06 | 2018-01-16 | 张栖瀚 | 一种高空视频监控中小微目标的检测方法 |
CN110163285A (zh) * | 2019-05-23 | 2019-08-23 | 阳光保险集团股份有限公司 | 票证识别训练样本合成方法和计算机存储介质 |
CN110210362A (zh) * | 2019-05-27 | 2019-09-06 | 中国科学技术大学 | 一种基于卷积神经网络的交通标志检测方法 |
CN110276253A (zh) * | 2019-05-15 | 2019-09-24 | 中国科学院信息工程研究所 | 一种基于深度学习的模糊文字检测识别方法 |
CN110378862A (zh) * | 2019-07-19 | 2019-10-25 | 国网河北省电力有限公司电力科学研究院 | 一种提高输电线路外破目标识别准确度的数据增强方法 |
CN110598698A (zh) * | 2019-08-29 | 2019-12-20 | 华中科技大学 | 基于自适应区域建议网络的自然场景文本检测方法和系统 |
CN110796143A (zh) * | 2019-10-31 | 2020-02-14 | 天津大学 | 一种基于人机协同的场景文本识别方法 |
CN110991447A (zh) * | 2019-11-25 | 2020-04-10 | 北京交通大学 | 基于深度学习的列车车号精确定位与识别方法 |
CN111126359A (zh) * | 2019-11-15 | 2020-05-08 | 西安电子科技大学 | 基于自编码器与yolo算法的高清图像小目标检测方法 |
CN111145106A (zh) * | 2019-12-06 | 2020-05-12 | 深圳市雄帝科技股份有限公司 | 一种图像增强方法、装置、介质及设备 |
CN111368848A (zh) * | 2020-05-28 | 2020-07-03 | 北京同方软件有限公司 | 一种复杂场景下的文字检测方法 |
CN111429912A (zh) * | 2020-03-17 | 2020-07-17 | 厦门快商通科技股份有限公司 | 关键词检测方法、系统、移动终端及存储介质 |
CN111627088A (zh) * | 2020-04-03 | 2020-09-04 | 安徽七天教育科技有限公司 | 一种用于数学试卷图像识别的样本自动生成方法 |
CN111898668A (zh) * | 2020-07-24 | 2020-11-06 | 佛山市南海区广工大数控装备协同创新研究院 | 一种基于深度学习的小目标物体检测方法 |
CN112001397A (zh) * | 2020-08-25 | 2020-11-27 | 广东光速智能设备有限公司 | 一种智慧工地的身份证字符识别训练数据生成方法及系统 |
CN112070074A (zh) * | 2020-11-12 | 2020-12-11 | 中电科新型智慧城市研究院有限公司 | 物体检测方法、装置、终端设备和存储介质 |
CN112232450A (zh) * | 2020-12-15 | 2021-01-15 | 浙江啄云智能科技有限公司 | 一种综合多阶段的难例样本挖掘方法、目标检测方法 |
-
2021
- 2021-02-08 CN CN202110172884.9A patent/CN112926637B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590456A (zh) * | 2017-09-06 | 2018-01-16 | 张栖瀚 | 一种高空视频监控中小微目标的检测方法 |
CN110276253A (zh) * | 2019-05-15 | 2019-09-24 | 中国科学院信息工程研究所 | 一种基于深度学习的模糊文字检测识别方法 |
CN110163285A (zh) * | 2019-05-23 | 2019-08-23 | 阳光保险集团股份有限公司 | 票证识别训练样本合成方法和计算机存储介质 |
CN110210362A (zh) * | 2019-05-27 | 2019-09-06 | 中国科学技术大学 | 一种基于卷积神经网络的交通标志检测方法 |
CN110378862A (zh) * | 2019-07-19 | 2019-10-25 | 国网河北省电力有限公司电力科学研究院 | 一种提高输电线路外破目标识别准确度的数据增强方法 |
CN110598698A (zh) * | 2019-08-29 | 2019-12-20 | 华中科技大学 | 基于自适应区域建议网络的自然场景文本检测方法和系统 |
CN110796143A (zh) * | 2019-10-31 | 2020-02-14 | 天津大学 | 一种基于人机协同的场景文本识别方法 |
CN111126359A (zh) * | 2019-11-15 | 2020-05-08 | 西安电子科技大学 | 基于自编码器与yolo算法的高清图像小目标检测方法 |
CN110991447A (zh) * | 2019-11-25 | 2020-04-10 | 北京交通大学 | 基于深度学习的列车车号精确定位与识别方法 |
CN111145106A (zh) * | 2019-12-06 | 2020-05-12 | 深圳市雄帝科技股份有限公司 | 一种图像增强方法、装置、介质及设备 |
CN111429912A (zh) * | 2020-03-17 | 2020-07-17 | 厦门快商通科技股份有限公司 | 关键词检测方法、系统、移动终端及存储介质 |
CN111627088A (zh) * | 2020-04-03 | 2020-09-04 | 安徽七天教育科技有限公司 | 一种用于数学试卷图像识别的样本自动生成方法 |
CN111368848A (zh) * | 2020-05-28 | 2020-07-03 | 北京同方软件有限公司 | 一种复杂场景下的文字检测方法 |
CN111898668A (zh) * | 2020-07-24 | 2020-11-06 | 佛山市南海区广工大数控装备协同创新研究院 | 一种基于深度学习的小目标物体检测方法 |
CN112001397A (zh) * | 2020-08-25 | 2020-11-27 | 广东光速智能设备有限公司 | 一种智慧工地的身份证字符识别训练数据生成方法及系统 |
CN112070074A (zh) * | 2020-11-12 | 2020-12-11 | 中电科新型智慧城市研究院有限公司 | 物体检测方法、装置、终端设备和存储介质 |
CN112232450A (zh) * | 2020-12-15 | 2021-01-15 | 浙江啄云智能科技有限公司 | 一种综合多阶段的难例样本挖掘方法、目标检测方法 |
Non-Patent Citations (2)
Title |
---|
MATE KISANTAL 等: "Augmentation for small object detection", 《ARXIV》 * |
SONGLIXIANGAIBIN: "一个有效的小目标检测的数据增强方法Mixup及其变体填鸭式", 《HTTPS://BLOG.CSDN.NET/ZENGWUBBB/ARTICLE/DETAILS/113061776》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112926637B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11113618B2 (en) | Detecting the bounds of borderless tables in fixed-format structured documents using machine learning | |
JP6991163B2 (ja) | 情報をプッシュする方法及びデバイス | |
CN101667245B (zh) | 基于支持向量新颖检测分类器级联的人脸检测方法 | |
CN109255565B (zh) | 地址的归属识别和物流任务的分发方法及其装置 | |
CN102098235B (zh) | 一种基于文本特征分析的钓鱼邮件检测方法 | |
CN108388929A (zh) | 基于代价敏感和半监督分类的客户分类方法及装置 | |
WO2022006295A1 (en) | Methods and apparatus to decode documents based on images using artificial intelligence | |
CN102129568B (zh) | 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法 | |
Ackerman et al. | Automatically detecting data drift in machine learning classifiers | |
CN108171175B (zh) | 一种深度学习样本增强系统及其运行方法 | |
CN108241867B (zh) | 一种分类方法及装置 | |
CN101520852A (zh) | 消失点检测装置和检测方法 | |
CN109190630A (zh) | 字符识别方法 | |
CN103903008A (zh) | 一种基于图像识别输电线路的雾等级的方法以及系统 | |
CN109558792B (zh) | 一种基于样本和特征检测互联网徽标内容的方法和系统 | |
CN106778878A (zh) | 一种人物关系分类方法及装置 | |
CN110751606B (zh) | 一种基于神经网络算法的泡沫图像处理方法及系统 | |
CN111611933B (zh) | 文档图像的信息提取方法及系统 | |
CN114333070A (zh) | 一种基于深度学习的考生异常行为检测方法 | |
CN112633392A (zh) | 一种太赫兹人体安检图像目标检测模型训练数据增广方法 | |
CN103793717A (zh) | 判断图像主体显著性及训练其分类器的方法和系统 | |
CN109168051A (zh) | 一种基于蓝光存储的网络直播平台监管取证系统 | |
CN114898372A (zh) | 一种基于边缘注意力引导的越南场景文字检测方法 | |
CN105205476B (zh) | 一种基于lbp特征的人脸识别硬件架构 | |
Intasuwan et al. | Text and object detection on billboards |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |