CN112906693B - 一种上下标字符识别的方法 - Google Patents
一种上下标字符识别的方法 Download PDFInfo
- Publication number
- CN112906693B CN112906693B CN202110246338.5A CN202110246338A CN112906693B CN 112906693 B CN112906693 B CN 112906693B CN 202110246338 A CN202110246338 A CN 202110246338A CN 112906693 B CN112906693 B CN 112906693B
- Authority
- CN
- China
- Prior art keywords
- character
- characters
- model
- label
- superscript
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 102100032202 Cornulin Human genes 0.000 claims abstract description 13
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims abstract description 13
- 238000002372 labelling Methods 0.000 claims abstract description 7
- 238000005457 optimization Methods 0.000 abstract description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种上下标字符识别的方法,首先获取字体文件,用字体文件产生标注样本作为训练数据。图像的标签为从字符集中随机选取的一行字符,分别定义字符上标和下标类别。其次采用CRNN模型作为序列标注模型,CRNN模型的输入为随机选择的包含上下标的一行字符的图片,输出针对每个字符包含了字符、上标和下标类别3个输出值。然后调整优化模型。最后用调整优化后的模型对包含上下标的一行字符的图片进行识别,并对其中识别出的上下标字符进行对应的转义,并在能展示富文本的文件中写成上下标。本发明能够识别上下标从而为对文本的含义进行准确的提取而服务,解决了现有技术中的文本识别方法都没有包含对上下标的区分的问题。
Description
技术领域
本发明涉及字符识别领域,尤其涉及一种上下标字符识别的方法。
背景技术
在对扫描图片中的文字进行识别时,需要识别上下标以对文本的含义进行准确的提取,对于上下标的识别,目前存在的文本识别方法基本都没有包含对上下标的区分,且没有成熟的解决方案。本发明介绍了一种包含了上下标识别的文本识别方法。
发明内容
本发明目的在于针对现有技术的不足,提出一种上下标字符识别的方法,本发明实现了一种基于CRNN模型的上下标字符识别方法,用于在识别包含一行字符的图片中的字符时,字符中包含上下标的场景。
本发明的目的是通过以下技术方案来实现的:一种上下标字符识别的方法,包括如下步骤:
(1)训练数据的产生
获取字体文件,用字体文件产生标注样本作为训练数据。具体为:随机选取一种字体及字体尺寸,在一张空白图像上用选取的字体写字,所写的字从包含使用场景中的全部字符集中随机选取,图像为能容纳一行字符的长条形,其宽度为固定大小,长度为随机。图像的标签即从字符集中随机选取的一行字符,对于每个字符,分别定义其上标和下标类别。
(2)序列标注模型的定义和训练
采用CRNN模型作为序列标注模型,CRNN模型的输入为随机选择的包含上下标的一行字符的图片,输出针对每个字符包含了字符、上标和下标类别3个输出值;将样本的标签按照在整个字符集中的序号进行数字化表示;得到每个样本的标签后,用步骤(1)随机产生样本的方式,产生每批样本,对CRNN模型进行训练。
(3)用真实样本对模型调整
选取一部分真实场景的图像进行标注,标签格式与步骤(1)生成样本一致。对步骤(2)训练好的模型在真实样本上继续训练进而调整优化模型。
(4)上下标字符识别
用步骤(3)调整优化后的模型对包含上下标的一行字符的图片进行识别,并对其中识别出的上下标字符进行对应的转义,并在能展示富文本的文件中写成上下标。
进一步地,步骤(1)中上标字符在图片中的底线为正常字符高度的上1/2到上1/3,下标字符在图片中的底线为正常字符高度的下1/2到下1/3。
进一步地,将样本的标签按照在整个字符集中的序号进行数字化表示时,对上下标进行转义处理,空格定义为第0个字符。空格字符算一个字符,即对应位置上没有任何字符。
本发明的有益效果:本发明提供了一种包含了上下标识别的文本识别方法,能够识别上下标从而为对文本的含义进行准确的提取而服务,解决了现有技术中的文本识别方法都没有包含对上下标的区分的问题。
附图说明
图1为本发明方法流程图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
本发明针对印刷体文档扫描图片中文字的识别,手写体的识别是类似的。文字识别一般包含文字行检测和文字行识别,本发明是对文字行识别的方法。
如图1所示,本发明提供的一种上下标字符识别的方法,包括如下步骤:
(1)训练数据的产生
为了模型能够对尽可能多的字体进行准确识别,搜集常用字体文件,为了生成的训练数据包含尽可能多的模式,采用在线样本生成的方式,用字体文件产生大量的标注样本作为训练数据。具体为:随机选取一种字体及字体尺寸,在一张空白图像上用选取的字体写字,所写的字从包含使用场景中的全部字符集中随机选取,图像为能容纳一行字符的长条形,其宽度为固定大小(如64像素),长度为随机,如从[64,512]的范围中随机取值。图像的标签即从字符集中随机选取的一行字符,对于每个字符,分别定义其上标和下标类别;如对于字符A,定义A、上标A、下标A为3个不同类型的字符,在模型的输出中为3个不同的类别。对样本的标签中上下标字符如下标记,例如对于字符A,<superscript>A</superscript>表示上标,下标字符记为<subscript>A</subscript>。上标字符在图片中的底线比正常字符高,例如设定为正常字符高度的上1/2到上1/3;下标字符在图片中的底线为正常字符高度的下1/2到下1/3。
(2)序列标注模型的定义和训练
采用CRNN模型作为序列标注模型,CNN模型上叠加RNN模型(如lstm)的基本结构,即CNN的输出作为RNN的输入,具体的,将包含一行文本的图像用CNN提取特征,得到预设固定长度的特征向量,将特征向量作为RNN的输入,再由RNN输出每个位置的字符。与普通的CRNN字符识别模型不同之处在于,CRNN模型的输入为随机选择的包含上下标的一行字符的图片,输出针对每个字符包含了字符、上标和下标类别3个输出值;如使用场景中包含26个字符,模型的输出为78(空格字符算其中的一个字符,即对应位置上没有任何字符)。将样本的标签按照在整个字符集中的序号进行数字化表示;得到每个样本的标签后,用步骤(1)随机产生样本的方式,产生每批样本,对CRNN模型进行训练。如A在整个字符集中占第2位,则用2表示,上标A在整个字符集中占28位,则用28表示,空格定义为第0个字符。转化时对上述上下标进行转义处理。
(3)用真实样本对模型调整
选取一部分真实场景的图像进行标注,标签格式与步骤(1)生成样本一致。对步骤(2)训练好的模型在真实样本上继续训练进而调整优化模型。
(4)上下标字符识别
用步骤(3)调整优化后的模型对包含上下标的一行字符的图片进行识别,并对其中识别出的上下标字符进行对应的转义,并在能展示富文本的文件中写成上下标。如上例中将识别出的28转写为<superscript>A</superscript>,并在能展示富文本的文件中将其写成上标。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (3)
1.一种上下标字符识别的方法,其特征在于,包括如下步骤:
(1)训练数据的产生
获取字体文件,用字体文件产生标注样本作为训练数据;具体为:随机选取一种字体及字体尺寸,在一张空白图像上用选取的字体写字,所写的字从包含使用场景中的全部字符集中随机选取,图像为能容纳一行字符的长条形,其宽度为固定大小,长度为随机;图像的标签即从字符集中随机选取的一行字符,对于每个字符,分别定义其上标和下标类别;
(2)序列标注模型的定义和训练
采用CRNN模型作为序列标注模型,CRNN模型的输入为随机选择的包含上下标的一行字符的图片,输出针对每个字符包含了字符、上标和下标类别3个输出值;将样本的标签按照在整个字符集中的序号进行数字化表示;得到每个样本的标签后,用步骤(1)随机产生样本的方式,产生每批样本,对CRNN模型进行训练;
(3)用真实样本对模型调整
选取一部分真实场景的图像进行标注,标签格式与步骤(1)生成样本一致;对步骤(2)训练好的模型在真实样本上继续训练进而调整优化模型;
(4)上下标字符识别
用步骤(3)调整优化后的模型对包含上下标的一行字符的图片进行识别,并对其中识别出的上下标字符进行对应的转义,并在能展示富文本的文件中写成上下标。
2.根据权利要求1所述的一种上下标字符识别的方法,其特征在于,步骤(1)中上标字符在图片中的底线为正常字符高度的上1/2到上1/3,下标字符在图片中的顶部位置为正常字符高度的下1/2到下1/3。
3.根据权利要求1所述的一种上下标字符识别的方法,其特征在于,将样本的标签按照在整个字符集中的序号进行数字化表示时,对上下标进行转义处理,空格定义为第0个字符;空格字符算一个字符,即对应位置上没有任何字符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110246338.5A CN112906693B (zh) | 2021-03-05 | 2021-03-05 | 一种上下标字符识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110246338.5A CN112906693B (zh) | 2021-03-05 | 2021-03-05 | 一种上下标字符识别的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112906693A CN112906693A (zh) | 2021-06-04 |
CN112906693B true CN112906693B (zh) | 2022-06-24 |
Family
ID=76107778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110246338.5A Active CN112906693B (zh) | 2021-03-05 | 2021-03-05 | 一种上下标字符识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906693B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4998285A (en) * | 1988-03-11 | 1991-03-05 | Kabushiki Kaisha Toshiba | Character recognition apparatus |
CN109685061A (zh) * | 2018-12-19 | 2019-04-26 | 上海丕休智能科技有限公司 | 适用于结构化的数学公式的识别方法 |
WO2020098250A1 (zh) * | 2018-11-12 | 2020-05-22 | 平安科技(深圳)有限公司 | 字符识别方法、服务器及计算机可读存储介质 |
CN111428710A (zh) * | 2020-03-16 | 2020-07-17 | 五邑大学 | 一种文件分类协作机器人及基于其的图像文字识别方法 |
-
2021
- 2021-03-05 CN CN202110246338.5A patent/CN112906693B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4998285A (en) * | 1988-03-11 | 1991-03-05 | Kabushiki Kaisha Toshiba | Character recognition apparatus |
WO2020098250A1 (zh) * | 2018-11-12 | 2020-05-22 | 平安科技(深圳)有限公司 | 字符识别方法、服务器及计算机可读存储介质 |
CN109685061A (zh) * | 2018-12-19 | 2019-04-26 | 上海丕休智能科技有限公司 | 适用于结构化的数学公式的识别方法 |
CN111428710A (zh) * | 2020-03-16 | 2020-07-17 | 五邑大学 | 一种文件分类协作机器人及基于其的图像文字识别方法 |
Non-Patent Citations (1)
Title |
---|
基于统计特征的印刷体数学公式上/下标关系判别;江红英等;《计算机工程与应用》;20031001(第28期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112906693A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102360419B (zh) | 计算机扫描阅读管理方法及系统 | |
CN109241894A (zh) | 一种基于表格定位和深度学习的针对性票据内容识别系统和方法 | |
CN103310211B (zh) | 一种基于图像处理的填注标记识别方法 | |
CN109784342B (zh) | 一种基于深度学习模型的ocr识别方法及终端 | |
CN111242024A (zh) | 基于机器学习识别图纸内图例及文字的方法及系统 | |
CN107045632A (zh) | 用于从成像文件提取文本的方法和设备 | |
CN111626292B (zh) | 一种基于深度学习技术的楼宇指示标识的文字识别方法 | |
CN113537227B (zh) | 一种结构化文本识别方法及系统 | |
CN111814779A (zh) | 一种票据文本识别方法、装置、设备及存储介质 | |
CN116704523B (zh) | 一种用于出版印刷设备的文字排版图像识别系统 | |
CN112784192B (zh) | 一种清洗页面正文内容中被植入广告的方法 | |
CN113901952A (zh) | 一种基于深度学习的印刷体与手写体分开文字识别方法 | |
CN108052955B (zh) | 一种高精度盲文识别方法及系统 | |
CN108052936B (zh) | 一种盲文图像自动倾斜校正方法及系统 | |
CN115909375A (zh) | 一种基于智能识别的报表分析方法 | |
CN109508712A (zh) | 一种基于图像的汉语文字识别方法 | |
CN110298236B (zh) | 一种基于深度学习的盲文图像自动识别方法和系统 | |
CN114241492A (zh) | 一种识别作文稿纸的手写文本识别并复现文本结构的方法 | |
CN112149654B (zh) | 基于深度学习的发票文本信息识别方法 | |
CN107292255B (zh) | 基于特征矩阵相似度分析的手写数字识别方法 | |
CN112906693B (zh) | 一种上下标字符识别的方法 | |
CN113657162A (zh) | 一种基于深度学习的票据ocr识别方法 | |
CN108062548B (zh) | 一种盲文方自适应定位方法及系统 | |
CN113743159A (zh) | 一种应用于电力企业的ocr方法 | |
CN113989485B (zh) | 基于ocr识别的文本字符分割方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: 310051 7th floor, building B, 482 Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province Patentee after: Huoshi Creation Technology Co.,Ltd. Address before: 310051 7th floor, building B, 482 Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province Patentee before: HANGZHOU FIRESTONE TECHNOLOGY Co.,Ltd. |