CN109543681A - 一种基于注意力机制的自然场景下文字识别方法 - Google Patents
一种基于注意力机制的自然场景下文字识别方法 Download PDFInfo
- Publication number
- CN109543681A CN109543681A CN201811385056.8A CN201811385056A CN109543681A CN 109543681 A CN109543681 A CN 109543681A CN 201811385056 A CN201811385056 A CN 201811385056A CN 109543681 A CN109543681 A CN 109543681A
- Authority
- CN
- China
- Prior art keywords
- attention mechanism
- text
- training
- identification
- natural scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明提出了一种基于注意力机制的自然场景下文字识别方法,包括如下步骤:制作数据集;使用由卷积神经网络,注意力机制,循环神经网络构建的网络对图片进行端到端的训练;采用反向传播和梯度下降算法对模型进行优化;利用得到的模型实现对图片文字进行端到端的识别。由于文本的字符之间一般是有联系的,这种上下文的联系可以帮助更好的识别文本。注意力机制就是一种可以很好地构建文本上下文之间联系的方法,利用注意力机制可以提高识别的准确性。基于注意力机制的自然场景下文字识别方法,将文字识别和注意力机制方法相结合,并通过特征工程提高准确率的同时加快算法速度。
Description
技术领域
本发明涉及卷积神经网络、循环神经网络、注意力机制,具体涉及到一种基于注意力机制的自然场景下文字识别方法。
背景技术
自然场景下文字识别是指通过机器自动检测出在自然场景下获得的图片中哪些区域里有文字,并识别出文字是什么。自然场景指的是生活中的任意场景,比如街道,超市等。随着深度学习的迅猛发展,其在图像分类和目标检测中不但减少人工干预同时能快速和准确获得结果;且该深度学习方法,在自然语言处理等领域大量应用和取得较好的精确度;近年来最接近本发明的技术有:
(1)、谷歌街景图片识别:此方法是由谷歌提出的,首次将注意力机制引入到文字识别中,在场景简单的图片中可以实现较好的识别效果,同时不需要检测定位,使用注意力机制定位图片中的应该关注的区域。但在复杂场景下,比如图片中文字众多大小不一且背景复杂,由于注意力机制的定位效果不佳导致识别效果差。
近年来,各个领域都在朝着智能化的方向发展,自动驾驶汽车系统、室内导航系统等需要文字识别的辅助,这需要高效可靠的文字识别算法进行支撑。本方法采用基于卷积神经网络和循环神经网络以及注意力机制的方法准确的识别自然场景下的文字。该方法通过准确的预测自然场景下的文字,为需要进行文字识别的大型系统提供技术支持。
发明内容
为解决现有技术中的缺点和不足,本发明提出了一种基于注意力机制的自然场景下文字识别方法,通过采用卷积神经网络和循环神经网络以及注意力机制方法,提取图像文本特征并构建特征工程;通过我们自己构建的由卷积神经网络,循环神经网络和注意力机制构成的网络训练,学习自然场景下文本的特征并准确的识别文本。
本发明的技术方案为:
步骤(1)、制作数据集,包括训练集和测试集,保证格式的规范性;
步骤(2)、对检测部分进行预训练;
步骤(3)、将检测与识别部分一起训练。调整网络参数,将图片输入基于注意力机制的网络中,卷积神经网络提取图片特征,注意力机制以及循环神经网络获得不同区域对于当前区域的重要性程度并输出最终的识别结果;
步骤(4)、根据制订的训练计划(包括几组不同的训练参数),调整训练参数,重复步骤(2)和步骤(3);
步骤(5)、对训练得到的多个模型的识别精度进行比较,选择精度最高的模型作为最终的识别模型。
本发明的有益效果:
(1)构建该特征工程的识别方法在实际中能准确的识别自然场景下的文本,为需要文本识别的系统提供技术支持;
(2)本方法使用注意力机制更好的利用文本的上下文信息从而提高识别的精确性;
(3)由于CTC方法计算耗时,使用加入注意力机制的循环神经网络代替CTC方法,提高了算法的速度;
(4)实现检测与识别的端到端的训练。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于注意力机制的自然场景下文字识别方法的流程图;
图2为本发明基于注意力机制的自然场景下文字识别方法的网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,基于注意力机制的自然场景下文字识别方法的流程图包含三个模块:数据集制作模块、文本检测模块、文本识别模块。
下面结合图1与图2,对基于注意力机制的自然场景下文字识别方法的具体流程进行详细说明:
步骤(1)、制作包含图片中文本区域的坐标以及文本内容的数据集;
步骤(2)、对由卷积神经网络构成的文本检测部分进行预训练,损失函数由二分类损失和定位损失构成,使用批量梯度下降算法进行优化;
步骤(3)、对检测和识别模块进行统一训练,检测得到的文本区域传入加入注意力机制的循环神经网络得到输出字符序列,并用测试集测试训练的效果;
步骤(4)、根据制订的训练计划(包括几组不同的训练参数),调整训练参数,重复步骤(2)和步骤(3);
步骤(5)、对得到的所有模型的效果进行比较。
本发明的基于注意力机制的自然场景下文字识别方法,将注意力机制加入到文本识别中,可以使得网络有效利用文本的上下文信息进行文本识别,以前的方法都没有有效利用文本的上下文信息,该方法提高了识别的准确性。同时摒弃CTC方法进行文本序列的转化,直接由使用注意力机制的循环神经网络得到最终的识别序列,加快了算法速度。利用制订的多种训练参数进行多次训练,可以得到效果最好的网络模型。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于注意力机制的自然场景下文字识别方法,其特征在于,数据集制作模块、文本检测模块、文本识别模块,包括以下步骤:
步骤(1)、制作数据集,包括训练集和测试集,保证格式的规范性;
步骤(2)、对检测部分进行预训练;
步骤(3)、将检测与识别部分一起训练。调整网络参数,将图片输入基于注意力机制的网络中,卷积神经网络提取图片特征,注意力机制以及循环神经网络获得不同区域对于当前区域的重要性程度并输出最终的识别结果;
步骤(4)、根据制订的训练计划(包括几组不同的训练参数),调整训练参数,重复步骤(2)和步骤(3);
步骤(5)、对训练得到的多个模型的识别精度进行比较,选择精度最高的模型作为最终的识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811385056.8A CN109543681A (zh) | 2018-11-20 | 2018-11-20 | 一种基于注意力机制的自然场景下文字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811385056.8A CN109543681A (zh) | 2018-11-20 | 2018-11-20 | 一种基于注意力机制的自然场景下文字识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109543681A true CN109543681A (zh) | 2019-03-29 |
Family
ID=65848701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811385056.8A Pending CN109543681A (zh) | 2018-11-20 | 2018-11-20 | 一种基于注意力机制的自然场景下文字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109543681A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414498A (zh) * | 2019-06-14 | 2019-11-05 | 华南理工大学 | 一种基于交叉注意力机制的自然场景文本识别方法 |
CN110458011A (zh) * | 2019-07-05 | 2019-11-15 | 北京百度网讯科技有限公司 | 端到端的文字识别方法及装置、计算机设备及可读介质 |
CN111027562A (zh) * | 2019-12-06 | 2020-04-17 | 中电健康云科技有限公司 | 基于多尺度cnn和结合注意力机制的rnn的光学字符识别方法 |
CN111325205A (zh) * | 2020-03-02 | 2020-06-23 | 北京三快在线科技有限公司 | 文档图像方向识别方法、装置及模型的训练方法、装置 |
CN111401374A (zh) * | 2020-03-06 | 2020-07-10 | 湖南快乐阳光互动娱乐传媒有限公司 | 基于多任务的模型训练方法、字符识别方法及装置 |
CN111626294A (zh) * | 2020-05-27 | 2020-09-04 | 北京微智信业科技有限公司 | 一种基于自然语言语义分析的文本识别方法 |
CN112801095A (zh) * | 2021-02-05 | 2021-05-14 | 广东工业大学 | 一种基于注意力机制的图神经网络集装箱文本识别方法 |
-
2018
- 2018-11-20 CN CN201811385056.8A patent/CN109543681A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414498A (zh) * | 2019-06-14 | 2019-11-05 | 华南理工大学 | 一种基于交叉注意力机制的自然场景文本识别方法 |
CN110458011A (zh) * | 2019-07-05 | 2019-11-15 | 北京百度网讯科技有限公司 | 端到端的文字识别方法及装置、计算机设备及可读介质 |
US11210546B2 (en) | 2019-07-05 | 2021-12-28 | Beijing Baidu Netcom Science And Technology Co., Ltd. | End-to-end text recognition method and apparatus, computer device and readable medium |
CN111027562A (zh) * | 2019-12-06 | 2020-04-17 | 中电健康云科技有限公司 | 基于多尺度cnn和结合注意力机制的rnn的光学字符识别方法 |
CN111325205A (zh) * | 2020-03-02 | 2020-06-23 | 北京三快在线科技有限公司 | 文档图像方向识别方法、装置及模型的训练方法、装置 |
WO2021174962A1 (zh) * | 2020-03-02 | 2021-09-10 | 北京三快在线科技有限公司 | 文档图像方向识别及模型的训练 |
CN111325205B (zh) * | 2020-03-02 | 2023-10-10 | 北京三快在线科技有限公司 | 文档图像方向识别方法、装置及模型的训练方法、装置 |
CN111401374A (zh) * | 2020-03-06 | 2020-07-10 | 湖南快乐阳光互动娱乐传媒有限公司 | 基于多任务的模型训练方法、字符识别方法及装置 |
CN111626294A (zh) * | 2020-05-27 | 2020-09-04 | 北京微智信业科技有限公司 | 一种基于自然语言语义分析的文本识别方法 |
CN112801095A (zh) * | 2021-02-05 | 2021-05-14 | 广东工业大学 | 一种基于注意力机制的图神经网络集装箱文本识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543681A (zh) | 一种基于注意力机制的自然场景下文字识别方法 | |
JP6484333B2 (ja) | 記述式問題のための知的採点方法およびシステム | |
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN107342810B (zh) | 基于卷积神经网络的深度学习智能眼图分析方法 | |
CN109145939B (zh) | 一种小目标敏感的双通道卷积神经网络语义分割方法 | |
CN106897738B (zh) | 一种基于半监督学习的行人检测方法 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN109919331A (zh) | 一种机载设备智能维修辅助系统及方法 | |
CN112926405A (zh) | 一种安全帽佩戴检测方法、系统、设备及存储介质 | |
CN110222591A (zh) | 一种基于深度神经网络的车道线检测方法 | |
CN110244734A (zh) | 一种基于深度卷积神经网络的自动驾驶车辆路径规划方法 | |
CN115131627B (zh) | 一种轻量化植物病虫害目标检测模型的构建和训练方法 | |
CN113298151A (zh) | 一种基于多级特征融合的遥感图像语义描述方法 | |
CN110136141A (zh) | 一种面向复杂环境的图像语义分割方法及装置 | |
CN110020658A (zh) | 一种基于多任务深度学习的显著目标检测方法 | |
CN106022363A (zh) | 一种适用于自然场景下的中文文字识别方法 | |
CN110110095A (zh) | 一种基于长短期记忆循环神经网络的电力指令文本匹配方法 | |
CN107945210A (zh) | 基于深度学习和环境自适应的目标跟踪算法 | |
CN111652835A (zh) | 基于深度学习与聚类的输电线路绝缘子缺失的检测方法 | |
CN109543184A (zh) | 一种基于深度学习的集装箱文本识别方法 | |
CN106778910A (zh) | 基于本地训练的深度学习系统和方法 | |
CN104347071A (zh) | 生成口语考试参考答案的方法及系统 | |
CN110263835A (zh) | 基于深度学习和贝叶斯网络的岩石类别自动识别方法 | |
CN110119768A (zh) | 用于车辆定位的视觉信息融合系统及方法 | |
CN104978569A (zh) | 一种基于稀疏表示的增量人脸识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190329 |