CN113743416A - 一种ocr领域针对无真实样本情形的数据增强方法 - Google Patents
一种ocr领域针对无真实样本情形的数据增强方法 Download PDFInfo
- Publication number
- CN113743416A CN113743416A CN202110973129.0A CN202110973129A CN113743416A CN 113743416 A CN113743416 A CN 113743416A CN 202110973129 A CN202110973129 A CN 202110973129A CN 113743416 A CN113743416 A CN 113743416A
- Authority
- CN
- China
- Prior art keywords
- gaussian
- ocr
- labeling
- data enhancement
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000002372 labelling Methods 0.000 claims abstract description 19
- 238000001514 detection method Methods 0.000 claims abstract description 10
- 230000001131 transforming effect Effects 0.000 claims abstract description 7
- 238000004590 computer program Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
Images
Landscapes
- Character Input (AREA)
Abstract
本发明公开了一种OCR领域针对无真实样本情形的数据增强方法,包括以下步骤:(1)在对训练数据进行标注的时候,从读取文字方向为正的左上角开始顺时针标注;(2)将高斯热图透视变换到标注框中;(3)将高斯热图的中心点作为标注框的特征中心点;(4)顺序计算特征中心点到标注框四个点在X、Y轴上的坐标差;(5)训练步骤(4)中的坐标差,得到检测模型。本发明在不影响性能的情况下,可一步到位的检测文字角度和方向;本发明能够端到端地检测任意角度的文字,可以提升整体OCR的检测性能。
Description
技术领域
本发明涉及文字检测,特别是一种OCR领域针对无真实样本情形的数据增强方法。
背景技术
随着人工智能科技的发展,OCR技术也应用地越来越广泛。OCR技术首先需要对待识别的文字进行一个检测,提取到有效字符然后进行识别。但是OCR应用场景复杂,各种情况都有,很多时候检测的图片中文字会出现各种角度,文字方向也会有颠倒。如何正确有效地检测到文字并区别文字方向是提升OCR技术的核心问题。科研单位注重方法的新颖性和创新性,会尝试很多新的方法,比如文字检测端到端等,但在保持新颖的时候势必失去很多性能上的优势;科技公司为了追求精度,一般都是先采用文字检测,之后对检测到的文字做一个方向的分类,但这种做法使得整个文字的提取变成了两个步骤的串联,存在误差的传递。
发明内容
发明目的:本发明的目的是提供一种OCR领域针对无真实样本情形的数据增强方法,该方法在不影响性能的前提下,开发可检测任意文字角度的端到端文字检测算法。
技术方案:本发明所述的一种OCR领域针对无真实样本情形的数据增强方法,包括以下步骤:
(1)在对训练数据进行标注的时候,从读取文字方向为正的左上角开始顺时针标注;
(2)将高斯热图透视变换到标注框中;
(3)将高斯热图的中心点作为标注框的特征中心点;
(4)顺序计算特征中心点到标注框四个点在X、Y轴上的坐标差;
(5)训练步骤(4)中的坐标差,得到检测模型。
所述步骤(1)包括:
(1.1)判断读取文字方向为正的方向,各种场景中有的文字是颠倒的,有的文字可能是左右倾斜的;
(1.2)按照步骤(1.1)确认的文字方向为正的方向开始对数据集从此方向的左上角顺时针进行标注。
所述步骤(2)包括:
(2.1)利用高斯函数生成一个高斯热图;
(2.2)通过透视变换将步骤(2.1)中的高斯热图变换到步骤(1)标注的标注框中。
所述步骤(3)具体为:通过查找步骤(2.2)中高斯热图的最大值来得到标注框的特征中心点。
所述步骤(4)包括:
(4.1)顺序计算步骤(3.1)中特征中心点的X坐标和步骤(1.2)中四个标注;
(4.2)顺序计算步骤(3.1)中特征中心点的Y坐标和步骤(1.2)中四个标注点的Y坐标差值;
一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述的OCR领域针对无真实样本情形的数据增强方法。
一种计算机设备,包括储存器、处理器及存储在存储器上并可再处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的OCR领域针对无真实样本情形的数据增强方法。
有益效果:与现有技术相比,本发明具有如下优点:1、在不影响性能的情况下,可一步到位的检测文字角度和方向;2、本发明能够端到端地检测任意角度的文字,可以提升整体OCR的检测性能。
附图说明
图1为本方法的步骤流程图;
图2为训练数据标注样式图;
图3为训练数据高斯热图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
实施例1:
如图1所示,本发明公开了一种OCR领域针对无真实样本情形的数据增强方法,包括以下步骤:
(1)在对训练数据进行标注的时候,从读取文字方向为正的左上角开始顺时针标注;
(1.1)判断读取文字方向为正的方向,各种场景中有的文字是颠倒的,有的文字可能是左右倾斜的;
(1.2)如图2所示,按照步骤(1.1)确认的文字方向为正的方向开始对数据集从此方向的左上角顺时针进行标注。
(2)将高斯热图透视变换到标注框中;
(2.1)如图3所示,利用高斯函数生成一个高斯热图;
(2.2)通过透视变换将步骤(2.1)中的高斯热图变换到步骤(1)标注的标注框中。
(3)将高斯热图的中心点作为标注框的特征中心点:通过查找步骤(2.2)中高斯热图的最大值来得到标注框的特征中心点;
(4)顺序计算特征中心点到标注框四个点在X、Y轴上的坐标差;
(4.1)顺序计算步骤(3.1)中特征中心点的X坐标和步骤(1.2)中四个标注;
(4.2)顺序计算步骤(3.1)中特征中心点的Y坐标和步骤(1.2)中四个标注点的Y坐标差值;
(5)训练步骤(4)中的坐标差,得到检测模型。
实施例2:
本发明公开了一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述的OCR领域针对无真实样本情形的数据增强方法。
实施例3:
本发明公开了一种计算机设备,包括储存器、处理器及存储在存储器上并可再处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的OCR领域针对无真实样本情形的数据增强方法。
Claims (7)
1.一种OCR领域针对无真实样本情形的数据增强方法,其特征在于,包括以下步骤:
(1)在对训练数据进行标注的时候,从读取文字方向为正的左上角开始顺时针标注;
(2)将高斯热图透视变换到标注框中;
(3)将高斯热图的中心点作为标注框的特征中心点;
(4)顺序计算特征中心点到标注框四个点在X、Y轴上的坐标差;
(5)训练步骤(4)中的坐标差,得到检测模型。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)包括:
(1.1)判断读取文字方向为正的方向,各种场景中有的文字是颠倒的,有的文字可能是左右倾斜的;
(1.2)按照步骤(1.1)确认的文字方向为正的方向开始对数据集从此方向的左上角顺时针进行标注。
3.根据权利要求1所述的方法,其特征在于,所述步骤(2)包括:
(2.1)利用高斯函数生成一个高斯热图;
(2.2)通过透视变换将步骤(2.1)中的高斯热图变换到步骤(1)标注的标注框中。
4.根据权利要求1所述的方法,其特征在于,所述步骤(3)具体为:通过查找步骤(2.2)中高斯热图的最大值来得到标注框的特征中心点。
5.根据权利要求1所述的方法,其特征在于,所述步骤(4)包括:
(4.1)顺序计算步骤(3.1)中特征中心点的X坐标和步骤(1.2)中四个标注;
(4.2)顺序计算步骤(3.1)中特征中心点的Y坐标和步骤(1.2)中四个标注点的Y坐标差值。
6.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的OCR领域针对无真实样本情形的数据增强方法。
7.一种计算机设备,包括储存器、处理器及存储在存储器上并可再处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的OCR领域针对无真实样本情形的数据增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110973129.0A CN113743416B (zh) | 2021-08-24 | 2021-08-24 | 一种ocr领域针对无真实样本情形的数据增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110973129.0A CN113743416B (zh) | 2021-08-24 | 2021-08-24 | 一种ocr领域针对无真实样本情形的数据增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113743416A true CN113743416A (zh) | 2021-12-03 |
CN113743416B CN113743416B (zh) | 2024-03-05 |
Family
ID=78732455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110973129.0A Active CN113743416B (zh) | 2021-08-24 | 2021-08-24 | 一种ocr领域针对无真实样本情形的数据增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743416B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926839A (zh) * | 2022-07-22 | 2022-08-19 | 富璟科技(深圳)有限公司 | 基于rpa和ai的图像识别方法及电子设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0346080A (ja) * | 1989-07-13 | 1991-02-27 | Oki Electric Ind Co Ltd | 特徴抽出装置 |
US20090028443A1 (en) * | 2007-07-26 | 2009-01-29 | Palo Alto Research Center Incorporated | Innovative ocr systems and methods that combine a template based generative model with a discriminative model |
US20190286899A1 (en) * | 2018-03-15 | 2019-09-19 | Sureprep, Llc | System and method for automatic detection and verification of optical character recognition data |
CN110378287A (zh) * | 2019-07-19 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 文档方向识别方法、装置及存储介质 |
CN110766008A (zh) * | 2019-10-29 | 2020-02-07 | 北京华宇信息技术有限公司 | 一种面向任意方向和形状的文本检测方法 |
CN111476067A (zh) * | 2019-01-23 | 2020-07-31 | 腾讯科技(深圳)有限公司 | 图像的文字识别方法、装置、电子设备及可读存储介质 |
US20200250415A1 (en) * | 2019-02-01 | 2020-08-06 | Intuit Inc. | Supervised machine learning algorithm application for image cropping and skew rectification |
CN112132038A (zh) * | 2020-09-23 | 2020-12-25 | 深兰科技(上海)有限公司 | 联合学习物体检测神经网络生成、检测方法、系统及介质 |
CN112580507A (zh) * | 2020-12-18 | 2021-03-30 | 合肥高维数据技术有限公司 | 一种基于图像矩矫正的深度学习文本字符检测方法 |
CN112818985A (zh) * | 2021-01-28 | 2021-05-18 | 深圳点猫科技有限公司 | 一种基于分割的文本检测方法、装置、系统及介质 |
CN112966777A (zh) * | 2021-03-26 | 2021-06-15 | 清华大学 | 一种基于人机交互的半自动标注方法及系统 |
CN113033380A (zh) * | 2021-03-23 | 2021-06-25 | 建信览智科技(北京)有限公司 | 一种文本标注方法 |
-
2021
- 2021-08-24 CN CN202110973129.0A patent/CN113743416B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0346080A (ja) * | 1989-07-13 | 1991-02-27 | Oki Electric Ind Co Ltd | 特徴抽出装置 |
US20090028443A1 (en) * | 2007-07-26 | 2009-01-29 | Palo Alto Research Center Incorporated | Innovative ocr systems and methods that combine a template based generative model with a discriminative model |
US20190286899A1 (en) * | 2018-03-15 | 2019-09-19 | Sureprep, Llc | System and method for automatic detection and verification of optical character recognition data |
CN111476067A (zh) * | 2019-01-23 | 2020-07-31 | 腾讯科技(深圳)有限公司 | 图像的文字识别方法、装置、电子设备及可读存储介质 |
US20200250415A1 (en) * | 2019-02-01 | 2020-08-06 | Intuit Inc. | Supervised machine learning algorithm application for image cropping and skew rectification |
CN110378287A (zh) * | 2019-07-19 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 文档方向识别方法、装置及存储介质 |
CN110766008A (zh) * | 2019-10-29 | 2020-02-07 | 北京华宇信息技术有限公司 | 一种面向任意方向和形状的文本检测方法 |
CN112132038A (zh) * | 2020-09-23 | 2020-12-25 | 深兰科技(上海)有限公司 | 联合学习物体检测神经网络生成、检测方法、系统及介质 |
CN112580507A (zh) * | 2020-12-18 | 2021-03-30 | 合肥高维数据技术有限公司 | 一种基于图像矩矫正的深度学习文本字符检测方法 |
CN112818985A (zh) * | 2021-01-28 | 2021-05-18 | 深圳点猫科技有限公司 | 一种基于分割的文本检测方法、装置、系统及介质 |
CN113033380A (zh) * | 2021-03-23 | 2021-06-25 | 建信览智科技(北京)有限公司 | 一种文本标注方法 |
CN112966777A (zh) * | 2021-03-26 | 2021-06-15 | 清华大学 | 一种基于人机交互的半自动标注方法及系统 |
Non-Patent Citations (2)
Title |
---|
"Character Region Awareness for Text Detection", 《ARXIV.ORG》 * |
陶月锋;姜维;张重生;: "场景文字检测算法的漏检问题研究", 河南大学学报(自然科学版), no. 05 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926839A (zh) * | 2022-07-22 | 2022-08-19 | 富璟科技(深圳)有限公司 | 基于rpa和ai的图像识别方法及电子设备 |
CN114926839B (zh) * | 2022-07-22 | 2022-10-14 | 富璟科技(深圳)有限公司 | 基于rpa和ai的图像识别方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113743416B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109117848B (zh) | 一种文本行字符识别方法、装置、介质和电子设备 | |
CN108920580B (zh) | 图像匹配方法、装置、存储介质及终端 | |
TWI726422B (zh) | 二維碼識別方法、裝置及設備 | |
Huang et al. | Mask R-CNN with pyramid attention network for scene text detection | |
El-Gayar et al. | A comparative study of image low level feature extraction algorithms | |
CN111291661B (zh) | 一种屏幕中图标的文本内容的识别方法及设备 | |
CN110751232A (zh) | 一种中文复杂场景文本检测与识别方法 | |
Chiang et al. | Recognition of multi-oriented, multi-sized, and curved text | |
CN105447508A (zh) | 一种字符图像验证码识别的方法及系统 | |
CN113743416B (zh) | 一种ocr领域针对无真实样本情形的数据增强方法 | |
CN114429577A (zh) | 一种基于高置信标注策略的旗帜检测方法及系统及设备 | |
CN107291813B (zh) | 基于语义分割场景的示例搜索方法 | |
CN112991410A (zh) | 一种文本图像配准方法、电子设备及其存储介质 | |
WO2010140983A1 (en) | Method and system for identifying a fiducial marker in an image | |
WO2023273227A1 (zh) | 指甲识别方法、装置、设备及存储介质 | |
Chen et al. | HFPNet: Super Feature Aggregation Pyramid Network for Maritime Remote Sensing Small-Object Detection | |
CN111080703B (zh) | 基于直线匹配的移动机器人重定位方法 | |
CN109190467A (zh) | 一种基于关键点回归的多物体检测方法、系统、终端和存储介质 | |
CN110827259B (zh) | 一种用于目标关键点检测的样本增广的方法与设备 | |
Mooser et al. | Tricodes: A barcode-like fiducial design for augmented reality media | |
CN113902890A (zh) | 用于视觉概念检测的自监督数据增强方法、系统、设备 | |
CN113139533B (zh) | 一种快速识别手写矢量的方法及装置、介质和设备 | |
Liu et al. | Robust corner detection using linear fitting error estimation | |
CN111738250B (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
Oszust | A binary representation for real-valued, local feature descriptors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |