CN110909734A - 一种文献文字检测和识别的方法 - Google Patents

一种文献文字检测和识别的方法 Download PDF

Info

Publication number
CN110909734A
CN110909734A CN201911036448.8A CN201911036448A CN110909734A CN 110909734 A CN110909734 A CN 110909734A CN 201911036448 A CN201911036448 A CN 201911036448A CN 110909734 A CN110909734 A CN 110909734A
Authority
CN
China
Prior art keywords
detection
model
neural network
data set
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911036448.8A
Other languages
English (en)
Inventor
张�雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Cross Strait Information Technology Co Ltd
Original Assignee
Fujian Cross Strait Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Cross Strait Information Technology Co Ltd filed Critical Fujian Cross Strait Information Technology Co Ltd
Priority to CN201911036448.8A priority Critical patent/CN110909734A/zh
Publication of CN110909734A publication Critical patent/CN110909734A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供的一种文献文字检测和识别的方法,通过获取文献图片,并建立训练数据集;创建第一检测模型和第一识别模型,并通过所述训练数据集分别对所述第一检测模型和第一识别模型进行训练,得到训练好的第二检测模型和第二识别模型;根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别,提高了准确度和效率。

Description

一种文献文字检测和识别的方法
技术领域
本发明涉及图像识别技术领域,特别涉及一种文献文字检测和识别的方法。
背景技术
目前中文OCR技术通常先检测出整个图片中的所有文字区域,然后提取文字特征、根据文字特征来识别这部分内容对应的文字。在对文献利用OCR技术进行数字化,制作成电子书时,不仅要利用OCR技术检测识别文字,还需要遵循原书的排版,为此需确定每个文字在图片中的具体坐标。此外,部分种类的文献通常还会出现繁体字,或者存在图片污渍、字体模糊,拍摄照片位置偏差严重等问题,导致准确度低。
因此,需要一种准确度高的文献文字检测和识别的方法。
发明内容
(一)要解决的技术问题
为了解决现有技术的上述问题,本发明提供一种准确度高且效率高的文献文字检测和识别的方法。
(二)技术方案
为了达到上述目的,本发明采用的主要技术方案包括:
一种文献文字检测和识别的方法,包括步骤:
S1、获取文献图片,并建立训练数据集;
S2、创建第一检测模型和第一识别模型,并通过所述训练数据集分别对所述第一检测模型和第一识别模型进行训练,得到训练好的第二检测模型和第二识别模型;
S3、根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别。
(三)有益效果
本发明的有益效果在于:通过获取文献图片,并建立训练数据集;创建第一检测模型和第一识别模型,并通过所述训练数据集分别对所述第一检测模型和第一识别模型进行训练,得到训练好的第二检测模型和第二识别模型;根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别,提高了准确度和效率。
附图说明
图1为本发明实施例的文献文字检测和识别的方法流程图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
一种文献文字检测和识别的方法,包括步骤:
S1、获取文献图片,并建立训练数据集;
S2、创建第一检测模型和第一识别模型,并通过所述训练数据集分别对所述第一检测模型和第一识别模型进行训练,得到训练好的第二检测模型和第二识别模型;
S3、根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别。
从上述描述可知,本发明的有益效果在于:通过获取文献图片,并建立训练数据集;创建第一检测模型和第一识别模型,并通过所述训练数据集分别对所述第一检测模型和第一识别模型进行训练,得到训练好的第二检测模型和第二识别模型;根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别,提高了准确度和效率。
进一步地,步骤S1具体为:
获取不同版式的文献图片,并建立第一检测数据集和第一识别数据集。
进一步地,步骤S1还包括:
分别对所述第一检测数据集和第一识别数据集中的图片进行标记,得到第二检测数据集和第二识别数据集。
由上述描述可知,通过获取获取不同版式的文献图片,并建立第一检测数据集和第一识别数据集,并分别对所述第一检测数据集和第一识别数据集中的图片进行标记,得到第二检测数据集和第二识别数据集,提高了后续检测和识别的准确度。
进一步地,步骤S2具体为:
创建第一神经网络YOLO V3检测模型和第一神经网络GoogLeNet识别模型,并通过所述训练数据集分别对所述第一神经网络YOLO V3检测模型和第一神经网络GoogLeNet识别模型进行训练,得到训练好的第二神经网络YOLO V3检测模型和第二神经网络GoogLeNet识别模型。
由上述描述可知,通过创建第一神经网络YOLO V3检测模型和第一神经网络GoogLeNet识别模型,并通过所述训练数据集分别对所述第一神经网络YOLO V3检测模型和第一神经网络GoogLeNet识别模型进行训练,得到训练好的第二神经网络YOLO V3检测模型和第二神经网络GoogLeNet识别模型,提高了检测和识别的效率和准确度。
进一步地,所述的通过所述训练数据集分别对所述第一神经网络YOLO V3检测模型和第一神经网络GoogLeNet识别模型进行训练具体为:
通过所述第二检测数据集对所述第一神经网络YOLO V3检测模型进行训练;
通过所述第二识别数据集对所述第一神经网络络GoogLeNet识别模型进行训练。
由上述描述可知,通过所述第二检测数据集对所述第一神经网络YOLO V3检测模型进行训练;通过所述第二识别数据集对所述第一神经网络络GoogLeNet识别模型进行训练,保证了训练好的模型检测和识别的准确性。
进一步地,步骤S3具体为:
根据所述第二检测模型对待检测识别的文献图片进行检测,得到检测数据;
所述第二识别模型根据所述检测数据进行识别。
进一步地,步骤S3具体为:
根据所述第二神经网络YOLO V3检测模型对待检测识别的文献图片进行检测,得到检测数据;
所述第二神经网络YOLO V3检测模型根据所述检测数据进行识别。
由上述描述可知,通过第二神经网络YOLO V3检测模型对待检测识别的文献图片进行检测,得到检测数据,并通过第二神经网络YOLO V3检测模型根据所述检测数据进行识别,提高了文献图片检测和识别的效率的准确度。
进一步地,所述的根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别之前还包括:
对待检测识别的文献图片进行标准化处理。
由上述描述可知,通过对待检测识别的文献图片进行标准化处理,便于提高检测和识别的准确度。
实施例一
请参照图1,一种文献文字检测和识别的方法,包括步骤:
S1、获取文献图片,并建立训练数据集;
步骤S1具体为:
获取不同版式的文献图片,并建立第一检测数据集和第一识别数据集。
步骤S1还包括:
分别对所述第一检测数据集和第一识别数据集中的图片进行标记,得到第二检测数据集和第二识别数据集。
S2、创建第一检测模型和第一识别模型,并通过所述训练数据集分别对所述第一检测模型和第一识别模型进行训练,得到训练好的第二检测模型和第二识别模型;
步骤S2具体为:
创建第一神经网络YOLO V3检测模型和第一神经网络GoogLeNet识别模型,并通过所述训练数据集分别对所述第一神经网络YOLO V3检测模型和第一神经网络GoogLeNet识别模型进行训练,得到训练好的第二神经网络YOLO V3检测模型和第二神经网络GoogLeNet识别模型。
所述的通过所述训练数据集分别对所述第一神经网络YOLO V3检测模型和第一神经网络GoogLeNet识别模型进行训练具体为:
通过所述第二检测数据集对所述第一神经网络YOLO V3检测模型进行训练;
通过所述第二识别数据集对所述第一神经网络络GoogLeNet识别模型进行训练。
S3、根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别。
步骤S3具体为:
根据所述第二检测模型对待检测识别的文献图片进行检测,得到检测数据;
所述第二识别模型根据所述检测数据进行识别。
步骤S3具体为:
根据所述第二神经网络YOLO V3检测模型对待检测识别的文献图片进行检测,得到检测数据;
所述第二神经网络YOLO V3检测模型根据所述检测数据进行识别。
所述的根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别之前还包括:
对待检测识别的文献图片进行标准化处理。
实施例二
本实施例和实施例一的区别在于本实施例将结合具体的应用场景进一步说明本发明上述文献文字检测和识别的方法是如何实现的:
一、收集数据
获取文献图片,并建立训练数据集;
获取不同版式的文献图片,并建立第一检测数据集和第一识别数据集。
具体地,根据业务需求收集各种板式的文献图片,进行数据分析和整理。图片尽量多,版式尽量多,数据量在几万张这个数量级。一共会生成两个数据集,单字检测训练数据集和单字识别训练数据集。
单字检测数据集:几万张图片、每张图片都是文献图片。
单字识别数据集:几万张图片、每张图片都是文献图片中单个字的截图。
二、标记数据
分别对所述第一检测数据集和第一识别数据集中的图片进行标记,得到第二检测数据集和第二识别数据集。
1、单字检测数据集标记
把图片中每个文字的坐标都记入TXT文件中,作为这张图片的单字框标签,一张图片一个标签文件。如果图片中有N个文字,则标签文件有N行数据,每行数据的内容如下所示:
X1,Y1,X2,Y2
表1单字检测数据集标签文件内容说明表
Figure BDA0002251630640000071
2、单字识别数据集标记
针对每张单字截图,确定单字所属的文字类别并记入TXT文件中,作为这张图片的文字类别标签,一张图片一个标签文件,具体标签文件内容格式如下:
Class
表2单字识别数据集标签文件内容说明表
参数名称 参数值(例) 参数作用
Class 显示对应单字图片所属的类别
三、训练模型
创建第一神经网络YOLO V3检测模型和第一神经网络GoogLeNet识别模型,并通过所述训练数据集分别对所述第一神经网络YOLO V3检测模型和第一神经网络GoogLeNet识别模型进行训练,得到训练好的第二神经网络YOLO V3检测模型和第二神经网络GoogLeNet识别模型。
1、单字检测模型(第一神经网络YOLO V3检测模型)
建立YOLO V3框架,采用105层的结构,其中主要超参数定义如图2,采用darknet-53特征提取模块和yolo网络的特征交互层。
darknet-53:从第0层一直到74层,一共有53个卷积层,其余为res层。卷积层用于提取图像特征,res层为了解决网络的梯度弥散或者梯度爆炸的现象。作为YOLO V3特征提取的主要网络结构。该结构使用一系列的3*3和1*1的卷积层。
特征交互层:从75到105层网络的特征交互层,分为三个尺度,每个尺度内,通过卷积核的方式实现局部的特征交互,作用类似于全连接层但是通过卷积核(3*3和1*1)的方式实现feature map之间的局部特征(fc层实现的是全局的特征交互)交互。
通过所述第二检测数据集对所述第一神经网络YOLO V3检测模型进行训练;
2、单字识别模型(第一神经网络GoogLeNet识别模型)
采用Googlenet网络结构,通过构建密集的块结构来近似最优的稀疏结构,利用Inception结构使网络深度达到了22层来提取图像特征,最后添加线性分类器来对图片进行分类。
通过所述第二识别数据集对所述第一神经网络络GoogLeNet识别模型进行训练。
四、应用模型
根据所述第二神经网络YOLO V3检测模型对待检测识别的文献图片进行检测,得到检测数据;
所述第二神经网络YOLO V3检测模型根据所述检测数据进行识别。
具体地,经过训练模型阶段以后,得到训练好的单字检测模型(第二神经网络YOLOV3检测模型)和单字识别模型(第二神经网络GoogLeNet识别模型)。围绕这2个模型,编写了代码设计调用接口,供图片进行单字检测和识别功能的调用。
应用模型处理流程如下:
1、对用户输入的待检测识别的文献图片进行第一次标准化预处理。
既所述的根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别之前还包括:
对待检测识别的文献图片进行标准化处理。
单字检测模型对输入的待检测识别的文献图片大小和格式有严格的限制,但是由于用户输入的图片大小、格式的多样性,需要对输入的图片进行规范化的处理。
预处理流程:
将图片统一转化为RGB格式,
大小统一缩放为1024*1024大小,
图片内容统一减去均值。
2、调用单字检测模型。
将经过预处理的图片送入训练好的检测模型,输出检测数据。如果模型检测图片中有N个单字存在,则会输出N行数据,每个数据代表一个单字框的坐标和可信度。每行数据格式如下:
X,Y,W,H,Confidence
表3单字检测模型输出数据说明表
Figure BDA0002251630640000091
3、单字检测模型输出数据的后处理
调用单字检测模型对待检测识别的文献图片进行检测得到的数据并不适合用户直接使用,对模型输出数据进行后处理,得到简洁、易用的单字框数据。如果模型检测有N个单字存在,则会有N行单字框数据。
每行数据格式如下:
X1,Y1,X2,Y2
表4单字检测模型数据后处理输出说明表
Figure BDA0002251630640000101
4、相关数据写入单字检测json文件。
为了使用户更好的使用数据,将图片相关的数据和单字检测模型得到的数据进行整合,统一写入到一个json文件中。
Json文件格式如下:
表5单字检测模型输出json文件内容说明
Figure BDA0002251630640000102
Figure BDA0002251630640000111
5、从json文件中读取相关数据。
因为单字检测模型和单字识别模型处理的图片内容不是相同的,必须分成两个阶段来处理一张图片。在这时,从json文件中提取图片路径、状态码还有单字框的相关信息。
6、对json数据进行第二次预处理
单字识别模型处理的对象是图片中每个单字框的截图而不是一整张文献图。
先根据图片路径提取对应的图片,
根据单字框的相关信息对图片进行裁剪,得到每个单字框对应的一小块图片截图,
将这些截图缩放到64*64大小。
图片内容统一减去均值。
7、调用单字识别模型
单字识别模型对每个单字框截图进行图像特征的提取,根据训练好的参数对这些特征值进行处理,最后判断出这张图像截图归属于各个类别的可能性分别是多少,最后输出所有类别id和相对的概率值。
8、单字识别模型输出数据的后处理
将类别id转换为对应的符号
因为单字识别模型输出的是类别id和对应的概率值,用户并不知道这些id对应的文字类别是哪个,所有需要根据提前准备好的文字类别字典将id转换为汉字或者是其他字符。
输出概率值最高的前五个字符和概率
因为所有类别的总数高达9000+,用户并不需要所有类别的概率。只需对类别概率进行排序,输出可能性最高的五个字符类别和它对应的概率值便可。
9、相关信息重新写入到单字识别json文件中
为了使用户更好的使用数据,将图片相关的数据和单字识别模型最后得到的数据进行整合,统一写入到一个json文件中
json文件格式如下:
表6 json文件内容说明表
Figure BDA0002251630640000121
Figure BDA0002251630640000131
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种文献文字检测和识别的方法,其特征在于,包括步骤:
S1、获取文献图片,并建立训练数据集;
S2、创建第一检测模型和第一识别模型,并通过所述训练数据集分别对所述第一检测模型和第一识别模型进行训练,得到训练好的第二检测模型和第二识别模型;
S3、根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别。
2.根据权利要求1所述的文献文字检测和识别的方法,其特征在于,步骤S1具体为:
获取不同版式的文献图片,并建立第一检测数据集和第一识别数据集。
3.根据权利要求2所述的文献文字检测和识别的方法,其特征在于,步骤S1还包括:
分别对所述第一检测数据集和第一识别数据集中的图片进行标记,得到第二检测数据集和第二识别数据集。
4.根据权利要求1所述的文献文字检测和识别的方法,其特征在于,步骤S2具体为:
创建第一神经网络YOLO V3检测模型和第一神经网络GoogLeNet识别模型,并通过所述训练数据集分别对所述第一神经网络YOLO V3检测模型和第一神经网络GoogLeNet识别模型进行训练,得到训练好的第二神经网络YOLO V3检测模型和第二神经网络GoogLeNet识别模型。
5.根据权利要求4所述的文献文字检测和识别的方法,其特征在于,所述的通过所述训练数据集分别对所述第一神经网络YOLO V3检测模型和第一神经网络GoogLeNet识别模型进行训练具体为:
通过所述第二检测数据集对所述第一神经网络YOLO V3检测模型进行训练;
通过所述第二识别数据集对所述第一神经网络络GoogLeNet识别模型进行训练。
6.根据权利要求1所述的文献文字检测和识别的方法,其特征在于,步骤S3具体为:
根据所述第二检测模型对待检测识别的文献图片进行检测,得到检测数据;
所述第二识别模型根据所述检测数据进行识别。
7.根据权利要求4所述的文献文字检测和识别的方法,其特征在于,步骤S3具体为:
根据所述第二神经网络YOLO V3检测模型对待检测识别的文献图片进行检测,得到检测数据;
所述第二神经网络YOLO V3检测模型根据所述检测数据进行识别。
8.根据权利要求1所述的文献文字检测和识别的方法,其特征在于,所述的根据所述第二检测模型和第二识别模型对待检测识别的文献图片进行检测和识别之前还包括:
对待检测识别的文献图片进行标准化处理。
CN201911036448.8A 2019-10-29 2019-10-29 一种文献文字检测和识别的方法 Pending CN110909734A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911036448.8A CN110909734A (zh) 2019-10-29 2019-10-29 一种文献文字检测和识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911036448.8A CN110909734A (zh) 2019-10-29 2019-10-29 一种文献文字检测和识别的方法

Publications (1)

Publication Number Publication Date
CN110909734A true CN110909734A (zh) 2020-03-24

Family

ID=69814795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911036448.8A Pending CN110909734A (zh) 2019-10-29 2019-10-29 一种文献文字检测和识别的方法

Country Status (1)

Country Link
CN (1) CN110909734A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805223A (zh) * 2018-05-18 2018-11-13 厦门大学 一种基于Incep-CapsNet网络的篆文识别方法及系统
US20190026607A1 (en) * 2016-03-29 2019-01-24 Alibaba Group Holding Limited Character recognition method and device
CN109344914A (zh) * 2018-10-31 2019-02-15 焦点科技股份有限公司 一种端到端的不定长文字识别的方法和系统
CN110276253A (zh) * 2019-05-15 2019-09-24 中国科学院信息工程研究所 一种基于深度学习的模糊文字检测识别方法
CN110348280A (zh) * 2019-03-21 2019-10-18 贵州工业职业技术学院 基于cnn结构神经网络的水书文字识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190026607A1 (en) * 2016-03-29 2019-01-24 Alibaba Group Holding Limited Character recognition method and device
CN108805223A (zh) * 2018-05-18 2018-11-13 厦门大学 一种基于Incep-CapsNet网络的篆文识别方法及系统
CN109344914A (zh) * 2018-10-31 2019-02-15 焦点科技股份有限公司 一种端到端的不定长文字识别的方法和系统
CN110348280A (zh) * 2019-03-21 2019-10-18 贵州工业职业技术学院 基于cnn结构神经网络的水书文字识别方法
CN110276253A (zh) * 2019-05-15 2019-09-24 中国科学院信息工程研究所 一种基于深度学习的模糊文字检测识别方法

Similar Documents

Publication Publication Date Title
CN110210413B (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
CN109800761B (zh) 基于深度学习模型创建纸质文档结构化数据的方法和终端
Afzal et al. Cutting the error by half: Investigation of very deep cnn and advanced training strategies for document image classification
US11348353B2 (en) Document spatial layout feature extraction to simplify template classification
US8744196B2 (en) Automatic recognition of images
CN110569832A (zh) 基于深度学习注意力机制的文本实时定位识别方法
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
CN112733639B (zh) 文本信息结构化提取方法及装置
CN105447522A (zh) 一种复杂图像文字识别系统
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
CN112860905A (zh) 文本信息抽取方法、装置、设备及可读存储介质
CN113963147A (zh) 一种基于语义分割的关键信息提取方法及系统
Akinbade et al. An adaptive thresholding algorithm-based optical character recognition system for information extraction in complex images
CN111414917B (zh) 一种低像素密度文本的识别方法
CN104899551B (zh) 一种表单图像分类方法
CN111213157A (zh) 一种基于智能终端的快递信息录入方法及录入系统
CN113111882B (zh) 一种卡证识别方法、装置、电子设备及存储介质
Choudhary et al. Offline handwritten mathematical expression evaluator using convolutional neural network
CN110909734A (zh) 一种文献文字检测和识别的方法
CN112149523B (zh) 基于深度学习和并查集算法识别并抽取图片的方法及装置
CN114386413A (zh) 处理数字化的手写
CN111126128A (zh) 一种文献版面区域检测分割的方法
Gouveia et al. Handwriting recognition system for mobile accessibility to the visually impaired people
Shetty et al. A Kannada Handwritten Character Recognition System Exploiting Machine Learning Approach
Bhattacharjee et al. A novel approach for character recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200324