CN113537186A - 文本图像的识别方法、装置、电子设备及存储介质 - Google Patents
文本图像的识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113537186A CN113537186A CN202011415408.7A CN202011415408A CN113537186A CN 113537186 A CN113537186 A CN 113537186A CN 202011415408 A CN202011415408 A CN 202011415408A CN 113537186 A CN113537186 A CN 113537186A
- Authority
- CN
- China
- Prior art keywords
- image
- smearing
- text
- original text
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000012549 training Methods 0.000 claims description 74
- 238000012545 processing Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 230000000694 effects Effects 0.000 abstract description 18
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 238000005516 engineering process Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 10
- 238000001514 detection method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000011084 recovery Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 4
- 235000019800 disodium phosphate Nutrition 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
本申请实施例提供了一种文本图像的识别方法、装置、电子设备及存储介质,涉及人工智能及云技术领域。该方法包括:获取涂抹痕迹经过关键词区域的文本涂抹图像;关键词区域为文本涂抹图像的文本内容所包括关键字所在的图像区域;关键字包含于关键字表;将文本涂抹图像输入图像复原模型,对文本涂抹图像中被涂抹痕迹覆盖的文本内容进行复原,得到文本涂抹图像对应的复原图像;对复原图像中的文本内容进行文字识别,得到文本涂抹图像的文字识别结果。本申请技术方案中的图像复原模型,可以对涂抹痕迹经过关键词区域的文本涂抹图像进行复原,图像复原效果好,从而便于针对复原图像进行文字识别,提高文字识别的准确率。
Description
技术领域
本申请涉及人工智能及云技术领域,具体而言,本申请涉及一种文本图像的识别方法、装置、电子设备及存储介质。
背景技术
文本图像识别是指利用计算机对图像中的文本进行抓取,对文本内容进行分割、识别的技术,可应用于许多领域,如阅读、翻译、文献资料的检索、信件和包裹的分拣、稿件的编辑和校对、大量统计报表和卡片的汇总与分析、银行支票的处理、商品发票的统计汇总、商品编码的识别、商品仓库的管理等。
在对文本图像进行识别时,获取到的图像中可能包含被涂抹的图像,如果想要识别出被涂抹的图像中的文字,首先需要对图像进行复原处理,复原出被涂抹之前的图像,虽然现有技术中已经存在多种图像复原方案,但基于现有技术得到的复原后的图像的文字识别结果的准确率仍有待提升。
发明内容
本申请实施例提供了一种文本图像的识别方法、装置、电子设备及存储介质,基于该方案,能够有效提高文字识别的准确性。
为实现上述目的,本申请实施例提供的具体技术方案如下:
一方面,本申请实施例提供了一种文本图像的识别方法,该方法包括:
获取涂抹痕迹经过关键词区域的文本涂抹图像;关键词区域为文本涂抹图像的文本内容所包括关键字所在的图像区域;关键字包含于关键字表;
将文本涂抹图像输入图像复原模型,对文本涂抹图像中被涂抹痕迹覆盖的文本内容进行复原,得到文本涂抹图像对应的复原图像;
对复原图像中的文本内容进行文字识别,得到文本涂抹图像的文字识别结果。
另一方面,本发明实施例还提供了一种文本图像的识别装置,该装置包括:
图像获取模块,用于获取涂抹痕迹经过关键词区域的文本涂抹图像;所述关键词区域为所述文本涂抹图像的文本内容所包括关键字所在的图像区域;所述关键字包含于关键字表;
图像复原模块,用于将所述文本涂抹图像输入所述图像复原模型,对所述文本涂抹图像中被所述涂抹痕迹覆盖的文本内容进行复原,得到所述文本涂抹图像对应的复原图像;
文字识别模块,用于对所述复原图像中的文本内容进行文字识别,得到所述文本涂抹图像的文字识别结果。
本发明实施例还提供了一种电子设备,该电子设备包括一个或多个处理器;存储器;一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个计算机程序被配置用于执行如本申请的第一方面所示的方法。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质用于存储计算机程序,当计算机程序在处理器上运行时,使得处理器可以执行如本申请的第一方面所示的方法。
本发明实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本图像的识别方法的各种可选实现方式中提供的方法。
本申请提供的技术方案带来的有益效果是:
本申请提供了一种文本图像的识别方法、装置、电子设备及存储介质,利用图像复原模型,对涂抹痕迹经过关键词区域的文本涂抹图像进行复原,在不影响整体文字复原性能的条件下,对包含涂抹痕迹的图像中的关键词区域的复原效果较好,从而便于针对复原图像进行文字识别,提高文字识别的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种文本图像的识别方法的流程示意图;
图2a为本申请实施例提供的原始文本图像的示意图;
图2b为本申请实施例提供的进行文字区域检测后的原始文本图像的示意图;
图2c为本申请实施例提供的原始文本图像的文字识别结果的示意图;
图2d为本申请实施例提供的原始文本图像中的各目标关键词的位置的示意图;
图3为本申请实施例提供的原始文本图像中的第一标记点的位置的示意图;
图4为本申请实施例提供的原始文本图像中的第一标记点和第二标记点的位置的示意图;
图5为本申请实施例提供的原始文本图像中的涂抹点连接的示意图;
图6为本申请实施例提供的带有涂抹痕迹的原始文本图像的示意图;
图7为本申请实施例提供的获取训练样本的流程的示意图;
图8为本申请实施例提供的待复原图像的示意图;
图9为本申请实施例提供的复原图像的示意图;
图10为本申请实施例提供的文本图像的识别装置的结构示意图;
图11为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本申请实施例是针对现有技术中存在的对带有涂抹痕迹的图像中的关键词复原效果不好,从而影响对关键词的识别的问题,而提供的一种文本图像的识别方法,利用图像复原模型,对涂抹痕迹经过关键词区域的文本涂抹图像进行复原,在不影响整体文字复原性能的条件下,对包含涂抹痕迹的图像中的关键词区域的复原效果较好,从而便于针对复原图像进行文字识别,提高文字识别的准确率。
本申请技术方案的执行主体为计算机设备,包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。计算机设备包括用户设备与网络设备。其中,用户设备包括但不限于电脑、智能手机、PAD等;网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,计算机设备可单独运行来实现本申请,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中,计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
本申请实施例提供的方案涉及计算机技术中的云技术、大数据、人工智能等领域。
本申请实施例中所涉及的数据处理可以通过云技术来实现,其中所涉及的数据计算可以通过云技术中的云计算实现。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
本申请实施例中所涉及的模型训练可以通过人工智能技术中的机器学习来实现。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例中所涉及的模型训练所需要的训练数据可以为从互联网中获取到的大数据。
大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供了一种文本图像的识别方法,该方法的执行主体可以为任一电子设备,例如,该方法可以由服务器执行,如图1所示,该方法可以包括:
步骤S101,获取涂抹痕迹经过关键词区域的文本涂抹图像;关键词区域为文本涂抹图像的文本内容所包括关键字所在的图像区域;关键字包含于关键字表;
其中,文本涂抹图像为带有涂抹痕迹的文本图像,涂抹痕迹经过关键词区域,文本涂抹图像的文本内容中包括至少一个关键字,关键词可以为一个关键字,关键词也可以是两个及两个以上在文本内容中位置连续的关键字构成的词,关键词区域为至少一个关键字所在的图像区域,关键字包含于关键字表。关键字表是由计算机或人工从文献中抽取关键字,并按一定顺序排列得到的关键字的集合。可以预先根据实际应用的需要确定多个关键字,将这些关键字建立关键字表。
由于涂抹痕迹对文本图像中的文字造成部分遮挡,会影响对于文字的识别,因此,需要先将带有涂抹痕迹的图像进行复原处理之后再进行文字识别。
步骤S102,将文本涂抹图像输入图像复原模型,对文本涂抹图像中被涂抹痕迹覆盖的文本内容进行复原,得到文本涂抹图像对应的复原图像;
其中,图像复原模型可以为神经网络模型,对于图像复原模型的具体网络结构本申请实施例不做限定,可选的,图像复原模型可以为卷积神经网络模型(ConvolutionalNeural Networks,CNN)。可选的,图像复原模型的具体结构可以包括级联的编码器和解码器,其中,编码器可以包括至少一个卷积层,解码器可以包括至少一个反卷积层,通过卷积层对待识别的文本图像进行特征提取,得到文本图像的特征图,通过反卷积层对提取的特征图进行反卷积处理,得到复原图像。
步骤S103,对复原图像中的文本内容进行文字识别,得到文本涂抹图像的文字识别结果。
经过图像复原模型得到的复原图像不再包括涂抹痕迹或者不再包括全部涂抹痕迹,可以对复原图像中的文字进行识别。可选的,对复原图像中的文字进行识别可以通过光学字符识别(Optical Character Recognition,OCR)来实现。
本申请实施例提供的文本图像的识别方法,利用图像复原模型,对涂抹痕迹经过关键词区域的文本涂抹图像进行复原,在不影响整体文字复原性能的条件下,对包含涂抹痕迹的图像中的关键词区域的复原效果较好,从而便于针对复原图像进行文字识别,提高文字识别的准确率。
在一种可能的实现方式中,图像复原模型是通过以下方式训练得到的:
获取各训练样本,每一训练样本包括无涂抹痕迹的原始文本图像、以及原始文本图像对应的带有涂抹痕迹的待复原图像,待复原图像中的涂抹痕迹经过目标关键词区域,目标关键词区域为待复原图像的文本内容所包括关键字所在的图像区域;
基于各训练样本对初始图像复原模型进行迭代训练,得到图像复原模型。
其中,待复原图像中的涂抹痕迹经过目标关键词区域,目标关键词为根据关键字表中的至少一个关键字确定的词,目标关键词区域为待复原图像的文本内容所包括关键字所在的图像区域。待复原图像的文本内容中包括至少一个关键字,目标关键词可以为一个关键字,目标关键词也可以是两个及两个以上在文本内容中位置连续的关键字构成的词。
将无涂抹痕迹的原始文本图像、以及原始文本图像对应的带有涂抹痕迹的待复原图像作为训练样本对,其中,无涂抹痕迹的原始文本图像作为监督,对初始图像复原模型进行迭代训练,在训练过程中,模型对原始文本图像对应的带有涂抹痕迹的待复原图像进行复原,得到复原图像,根据模型输出的复原图像和无涂抹痕迹的原始文本图像,计算损失函数的值,其中,损失函数的值表征了模型输出的复原图像和无涂抹痕迹的原始文本图像的差异,可选的,可以基于模型输出的复原图像和无涂抹痕迹的原始文本图像之间的像素值差异,得到损失函数的值,将损失函数收敛时得到的模型作为图像复原模型。
本申请实施例中,采用无涂抹痕迹的原始文本图像和涂抹痕迹经过目标关键词区域的待复原图像作为训练样本训练图像复原模型,这样得到的图像复原模型,在不影响整体文字复原性能的条件下,对涂抹痕迹经过关键词区域的涂抹图像的关键词区域的复原效果较好,从而便于针对复原图像进行文字识别,提高文字识别的准确率。
在一种可能的实现方式中,获取各训练样本,包括:
获取各原始文本图像;
对于每一原始文本图像,确定原始文本图像中的各目标关键词区域;
对于每一原始文本图像,对原始文本图像中的各目标关键词区域进行涂抹处理,得到原始文本图像对应的待复原图像。
在实际应用中,对于带有涂抹痕迹的图像中的文字,通常更加关注其中的某个或某些关键词,因此为了提升图像的文字识别效果,在对图像进行复原时,需要提升图像复原模型对关键词区域的涂抹痕迹的复原能力。为了提升对关键词区域的复原能力,本申请实施例中,在获取图像复原模型的训练样本时,首先确定原始文本图像中的各目标关键词区域,然后对各目标关键词区域进行涂抹处理,利用这样得到的训练样本训练出的图像复原模型,能够有效提升模型对于待复原图像中的关键词区域的涂抹痕迹的复原效果,即能够更好的去除图像中关键词区域的涂抹痕迹,从而再基于去除涂抹痕迹后的图像进行文字识别时,能够有效提升文字识别效果。
可选的,在训练应用到不同领域的图像复原模型时,可以采用该领域对应的关键字表。因为不同领域的关键字不同,可以针对应用领域的不同,确定不同的关键字表。针对该应用领域,将应用领域常用的关键字,构建关键字表,在训练针对该应用领域的图像复原模型时,利用该领域对应的关键字表,确定训练样本中的原始文本图像的目标关键词区域,对目标关键词区域进行涂抹,这样得到的训练样本更有针对性,利用这样的训练样本训练的图像复原模型更有利于对该应用领域的文本图像的复原,对该应用领域的文本的复原效果更好。
另外,为了进一步提高图像复原模型对该应用领域的图像的复原效果,在确定原始文本图像中的目标关键词区域时,训练样本中的待复原图像中的各目标关键词区域可以包括该领域对应的关键字表中的所有关键字,这样可以使得利用训练好的图像复原模型进行图像复原时,待复原的涂抹文本图像中的关键词区域,训练样本中均进行过涂抹,从而可以使得训练样本的覆盖更加全面,也就是说,训练样本覆盖越全面,利用这些训练样本训练的图像复原模型学到的信息越多,更有利于对待复原图像中的所有关键词区域进行复原。
在一些可选的实施例中,训练旅游领域对应的图像复原模型,则可以选择旅游领域的关键字表,根据该关键字表确定的关键词可以包括“火车票”、“机票”、“酒店”、“民宿”等,将训练样本中的原始文本图像中的“火车票”、“机票”、“酒店”、“民宿”等关键词对应图像区域作为目标关键词区域,对上述目标关键词区域进行涂抹,得到原始文本图像对应的涂抹图像,从而得到旅游领域对应的图像复原模型的各训练样本,利用这些训练样本训练的图像复原模型对于旅游领域的关键词的涂抹图像的图像复原效果更好。另外,为了使得训练样本覆盖全面,可以将旅游领域的所有关键字确定的关键词在训练样本的原始文本图像中均进行涂抹,这样可以使得利用训练好的图像复原模型进行旅游领域的图像复原时,待复原的涂抹文本图像中的关键词区域,训练样本中均进行过涂抹,从而可以使得训练样本的覆盖更加全面,利用这些训练样本训练的图像复原模型学到的旅游领域的关键词的信息越多,更有利于图像复原模型对旅游领域的待复原图像中的目标关键词区域进行复原。
可选的,若训练的图像复原模型要应用到多个领域,可以选择多个领域中各个领域的关键字,利用多个领域的关键字建立多个领域通用的关键字表,在训练针对该多个应用领域的图像复原模型时,利用该多个领域通用的关键字表,确定训练样本中的原始文本图像的目标关键词区域,对目标关键词区域进行涂抹,这样得到的训练样本训练的图像复原模型,可以对多个领域的涂抹文本图像进行复原,这样可能增加训练样本的样本数量,然而利用这样的训练样本训练的图像复原模型在使用时,领域扩展性较强,可以适用于多个领域的文本涂抹图像的复原。
作为获取各训练样本的一个示例,可以收集N张包含文字的原始文本图像(一般地,N>=20000),准备实际应用时需要重点关注的关键字表(也可以称为关键词表)。基于该关键字表,可以确定每个原始文本图像中所出现的属于关键字表中的关键字所在的区域,从而确定原始文本图像中的各目标关键词区域,可以通过对原始文字图像中的各目标关键词区域进行重点涂抹,得到涂抹图像,该涂抹图像与对应的无涂抹痕迹的原始文本图像组成训练样本对,训练图像复原模型。
本申请实施例中,基于目标关键词区域对原始文本图像进行涂抹处理,得到待复原图像,这样得到的原始文本图像和待复原图像作为图像复原模型的训练样本训练图像复原模型,这样得到的图像复原模型,在不影响整体文字复原性能的条件下,对涂抹痕迹经过关键词区域的涂抹图像的关键词区域的复原效果较好,从而便于针对复原图像进行文字识别,提高文字识别的准确率。
在一种可能的实现方式中,确定原始文本图像中的各目标关键词区域,包括:
对原始文本图像进行文字识别,得到文字识别结果;
基于关键字表和文字识别结果,确定出原始文本图像中的各目标关键词区域。
在实际应用中,获取原始文本图像之后,对原始文本图像中的文字进行识别,得到识别出的原始文本图像中的文字。在识别出的文字中查询与关键字表中相同的关键字,确定识别出的各关键字所在的区域,根据各关键字所在的区域确定文字识别结果中的各目标关键词区域,目标关键词区域为至少一个关键字所在的图像区域。其中,关键字表可以是针对不同领域的关键字表。因为不同领域的关键字不同,可以针对应用领域的不同,确定不同的关键字表。针对该应用领域,将应用领域常用的关键字,建立关键字表。不同领域的关键字表是由计算机或人工从文献中抽取不同领域的关键字,并按一定顺序排列得到的关键字的集合。
在一示例中,对于给定的无涂抹痕迹的原始文字图像,如图2a所示,首先采用文字检测算法得到文字区域检测框,如图2b所示的每一行文字对应的文本框,然后采用文字识别算法识别每一个文本框内的文本内容,如图2c所示。根据识别出的文字结果,结合关键字表,定位出图像中包含的目标关键词的位置,其中,假设根据关键字表确定出图2a中所示的文字图像中包含的目标关键词为“黑龙江”、“骑行”,可以用位置框框出各目标关键词对应的区域作为目标关键词区域,如图2d所示。
其中,文字检测算法和文字识别算法具体采用哪种算法可以根据实际需求配置,本申请实施例不做限定,如文字检测算法可以采用场景文字检测(An Efficient andAccurate Scene Text Detector,East)算法;文字识别算法可以采用卷积递归神经网络(Convolutional Recurrent Neural Network,CRNN)来实现。
本公开实施例中,根据关键字表在识别出的文字中确定目标关键词区域,能够在图像中确定出实际需要重点关注的关键词,便于后续针对关键词区域进行涂抹处理。
在一种可能的实现方式中,对原始文本图像中的各目标关键词区域进行涂抹处理,得到原始文本图像对应的待复原图像,包括:
针对原始文本图像中的每一目标关键词区域,在原始文本图像中对目标关键词区域进行标记,得到至少两个第一标记点;
基于原始文本图像中的涂抹点,对原始文本图像进行涂抹处理,得到原始文本图像对应的待复原图像,涂抹点包括所有目标关键词区域对应的第一标记点。
对于每一原始文本图像,在确定出原始文本图像中的各目标关键词区域之后,即可通过涂抹的方式得到待复原图像,其中,具体涂抹的方式本申请实施例不做限定,只要能够实现最终所得到的涂抹痕迹经过各目标关键词区域。作为一可选方式,涂抹痕迹可以为曲线,可以在原始文本图像中对各目标关键词区域进行标记,如对每个目标关键词区域,可以标记得到至少两个第一标记点,之后可以基于所有目标关键词区域所对应的所有第一标记点,进行曲线的拟合,得到带有涂抹痕迹的待复原图像,由于曲线是基于各目标关键词区域的标记点拟合得到的,因此,采用该方式得到的待复原图像中的涂抹痕迹经过关键词区域。
可选的,第一标记点的具体标记方式可以是在目标关键词区域随机确定标记位置进行标记。
在一示例中,如图3所示,在原始文本图像中各目标关键词各自对应的位置框中标记两个第一标记点,将每个位置框中的两个第一标记点作为曲线拟合的端点,从而保证曲线经过目标关键词区域。以图3中的关键词“黑龙江”为例,在原始文本图像中关键词“黑龙江”对应的位置框内随机生成两个第一标记点,之后可以基于这两个第一标记点,进行曲线的拟合,由于曲线是基于目标关键词“黑龙江”的第一标记点拟合得到的,因此,采用该方式得到的待复原图像中的涂抹痕迹包含了目标关键词“黑龙江”所在的区域的涂抹痕迹。
本公开实施例中,根据目标关键词所在的位置确定涂抹点,可以保证在后续涂抹时,目标关键词区域能够被涂抹,这样得到的涂抹图像可以满足对于图像复原模型的训练样本的的需求。
在一种可能的实现方式中,该方法还包括:
在原始文本图像中各目标关键词区域之外的区域确定至少一个第二标记点,涂抹点包括第二标记点。
在实际应用中,为了保证目标关键词区域以外的其他文字也能被涂抹痕迹覆盖,还可以在目标关键词区域之外的区域进行标记,得到至少一个第二标记点,将第一标记点和第二标记点共同作为涂抹点,根据这些涂抹点对原始文本图像进行涂抹处理。
可选的,第二标记点的具体标记方式可以是在目标关键词区域之外的区域随机确定标记位置进行标记。
其中,第二标记点的数量可以根据实际应用情况确定,例如,可以为5-20个。
在一示例中,如图4所示,在原始文本图像中的目标关键词“黑龙江”、“骑行”处标记了第一标记点之后,在“黑龙江”、“骑行”之外的区域中标记多个第二标记点,例如,在图4中的“线”、“骑”、“安”等词对应的位置标记12个第二标记点,之后可以基于第一标记点和第二标记点进行曲线的拟合,由于曲线是基于“黑龙江”、“骑行”、“线”、“骑”、“安”等词所在的区域拟合得到的,因此,采用该方式得到的待复原图像中的涂抹痕迹经过“黑龙江”、“骑行”、“线”、“骑”、“安”等词所在区域。
在一种可能的实现方式中,基于原始文本图像中的涂抹点,对原始文本图像进行涂抹处理,包括:
按照预设方向,对原始图像中的涂抹点进行连接,得到涂抹痕迹;
基于涂抹痕迹,对原始文本图像进行涂抹处理。
在实际应用中,可以按照预设方向将原始文本图像中的各涂抹点各自对应的位置连接得到涂抹痕迹,根据涂抹痕迹对原始文本图像进行涂抹处理。其中,预设方向可以根据具体需要进行预配置。
在一示例中,如图5所示,将“黑龙江”、“骑行”对应的第一标记点,以及“线”、“骑”、“安”等词对应的12个第二标记点作为涂抹点,按照预设方向进行连接,并进行曲线的拟合,得到涂抹痕迹,基于涂抹痕迹对原始文本图像进行涂抹。由于涂抹痕迹的曲线是基于“黑龙江”、“骑行”、“线”、“骑”、“安”等词对应的标记点拟合得到的,因此,采用该方式得到的待复原图像中的涂抹痕迹经过“黑龙江”、“骑行”、“线”、“骑”、“安”等词所在的区域。
将原始文本图像中的各第一标记点和第二标记点作为涂抹点,将各涂抹点各自对应的位置连接得到涂抹痕迹,利用该涂抹痕迹对原始文本图像进行涂抹。
在一种可能的实现方式中,预设方向包括原始文本图像中的横向方向或原始文本图像中的纵向方向。
在实际应用中,确定涂抹痕迹的预设方向可以根据具体需要进行预配置,可选的,按照原始文本图像中的横向方向,也就是说,将各涂抹点按照横坐标从左到右或者从右到左的顺序得到涂抹痕迹。可选的,按照原始文本图像中的纵向方向,也就是说,将各涂抹点按照纵坐标从上到下或者从小到上的顺序得到涂抹痕迹。
在一示例中,如图6所示,在原始文本图像中将“黑龙江”、“骑行”、“线”、“骑”、“安”等词各自对应的标记点作为涂抹点,按照横向从左到右的顺序进行连接,两两拟合得到曲线涂抹痕迹,涂抹痕迹的曲线是基于“黑龙江”、“骑行”、“线”、“骑”、“安”等词对应的涂抹点拟合得到的,因此,待复原图像中的涂抹痕迹经过“黑龙江”、“骑行”、“线”、“骑”、“安”等词所在的区域。
在一种可能的实现方式中,该方法还包括:
获取涂抹痕迹的属性信息;
基于涂抹痕迹,对原始文本图像进行涂抹处理,包括:
按照预设方向和属性信息对原始文本图像进行涂抹处理。
在实际应用中,对于涂抹痕迹,还可以预先配置属性信息,属性信息可以为与涂抹痕迹的显示效果相关的信息。按照预设方向和涂抹痕迹的属性信息对原始文本图像进行涂抹处理。
在一种可能的实现方式中,属性信息包括涂抹痕迹的曲线颜色或曲线宽度中的至少一项。
在实际应用中,涂抹痕迹的属性信息可以是涂抹痕迹的曲线颜色或者曲线宽度中的至少一项,也就是说,涂抹痕迹的曲线可以是不同颜色、不同宽度的,基于这样的涂抹痕迹的曲线得到的涂抹图像作为训练样本,可以使训练样本更加多样化,这样训练出的图像复原模型的图像复原能力更强。
下面通过一个具体的应用场景,对本申请技术方案的获取训练样本的过程进行详细说明。本实施例只是本申请技术方案的一个实施例,不代表本申请技术方案的所有实现方式。
如图7所示,执行步骤S201,输入原始文本图像和关键字表;
其中,原始文本图像为无涂抹痕迹的文本图像;关键字表是由计算机或人工从文献中抽取关键字,并按一定顺序排列得到的关键字的集合。可以预先根据实际应用的需要确定多个关键字,将这些关键字建立关键字表。
执行步骤S202,利用文字检测和识别算法,得到文字位置和内容;
获取原始文本图像之后,对原始文本图像中的文字进行检测和识别,得到原始文本图像中的文字。具体的,可以采用文字检测算法得到文字位置对应的检测框,然后采用文字识别算法识别每一个文本框内的文本内容。
执行步骤S203,定位目标关键词在原始文本图像中出现的位置;
根据识别出的文字,结合关键字表,定位出原始文本图像中包含的目标关键词的位置,可以用位置框框出各目标关键词区域。具体的,目标关键词为根据关键字表中的至少一个关键字确定的词,目标关键词区域为待复原图像的文本内容所包括关键字所在的图像区域。待复原图像的文本内容中包括至少一个关键字,目标关键词可以为一个关键字,目标关键词也可以是两个及两个以上在文本内容中位置连续的关键字构成的词。
其中,关键字表可以是针对不同领域的关键字表。因为不同领域的关键字不同,可以针对应用领域的不同,确定不同的关键字表。针对该应用领域,将应用领域常用的关键字,建立关键字表。不同领域的关键字表是由计算机或人工从文献中抽取不同领域的关键字,并按一定顺序排列得到的关键字的集合。另外,也可以选择多个领域中各个领域的关键字,利用多个领域的关键字建立多个领域通用的关键字表。
执行步骤S204,在每个目标关键词区域内随机生成两个点;
根据目标关键词在原始文本图像中所在的区域进行标记,在每个目标关键词的位置框中随机生成两个点作为涂抹点。根据目标关键词所在的位置确定涂抹点,可以保证在后续涂抹时,目标关键词区域能够被涂抹,这样得到的涂抹图像可以满足对于图像复原模型的训练样本的的需求。
执行步骤S205,在目标关键词区域之外的区域内随机生成若干个点;
为了保证目标关键词区域以外的其他文字区域也能被涂抹痕迹覆盖,在目标关键词区域之外的区域进行标记,随机生成若干个点作为涂抹点。将目标关键词区域的标记点和目标关键词区域之外的区域的标记点共同作为涂抹点,后续可以根据这些涂抹点对原始文本图像进行涂抹处理。
执行步骤S206,将所有点按照预设方式进行排序;
具体的,将所有涂抹点按照横向方向或者纵向方向进行排序。具体的,按照原始文本图像中的横向方向,也就是说,将各涂抹点按照横坐标从左到右或者从右到左的顺序进行排序。按照原始文本图像中的纵向方向,也就是说,将各涂抹点按照纵坐标从上到下或者从下到上的顺序进行排序。
执行步骤S207,对排序后的点两两进行曲线拟合,得到一条涂抹痕迹;
根据排序后的各涂抹点的位置,两两进行曲线拟合,得到一条曲线,作为原始文本图像的涂抹痕迹。
执行步骤S208,设置涂抹痕迹的属性参数,包括颜色和宽度,在原始文本图像中绘制涂抹痕迹;
为涂抹痕迹设置属性参数,属性参数可以是涂抹痕迹的曲线颜色参数、曲线宽度参数等与显示效果相关的参数,根据属性参数在原始文本图像中绘制涂抹痕迹曲线。其中,涂抹痕迹的曲线可以是不同颜色、不同宽度的,基于这样的涂抹痕迹的曲线得到的涂抹图像作为训练样本,可以使训练样本更加多样化,这样训练出的图像复原模型的图像复原能力更强。
执行步骤S209,保存添加了涂抹痕迹之后的原始文本图像。
在原始文本图像中添加涂抹痕迹之后进行保存,作为图像复原模型的训练样本。
下面通过一个具体的实施例,对本申请技术方案的图像复原模型的训练过程以及应用过程进行详细说明。本实施例只是本申请技术方案的一个实施例,不代表本申请技术方案的所有实现方式。
首先,获取图像复原模型的各训练样本。
具体的,获取各原始文本图像,对于每一原始文本图像,进行文字识别,基于文字识别结果和关键字表,确定原始文本图像中的各目标关键词区域,针对每一目标关键词区域,在原始文本图像中对目标关键词区域进行标记,得到至少两个第一标记点;在原始文本图像中各目标关键词区域之外的区域确定至少一个第二标记点,按照预设方向,对原始图像中的各第一标记点和第二标记点进行连接,得到涂抹痕迹,获取涂抹痕迹的曲线颜色和曲线宽度,按照预设方向、涂抹痕迹的曲线颜色和曲线宽度对原始文本图像进行涂抹处理,得到原始文本图像对应的待复原图像,将各原始文本图像以及各原始文本图像对应的待复原图像作为图像复原模型的训练样本。
其中,关键字表可以是针对不同领域的关键字建立的。在训练应用到不同领域的图像复原模型时,可以采用该领域对应的关键字表。因为不同领域的关键字不同,可以针对应用领域的不同,确定不同的关键字表。针对该应用领域,将应用领域常用的关键字,构建关键字表,在训练针对该应用领域的图像复原模型时,利用该领域对应的关键字表,确定训练样本中的原始文本图像的目标关键词区域,对目标关键词区域进行涂抹,这样得到的训练样本更有针对性,利用这样的训练样本训练的图像复原模型更有利于对该应用领域的文本图像的复原,对该应用领域的文本的复原效果更好。
另外,在确定原始文本图像中的目标关键词区域时,训练样本中的待复原图像中的各目标关键词区域可以包括该领域对应的关键字表中的所有关键字,这样可以使得利用训练好的图像复原模型进行图像复原时,待复原的涂抹文本图像中的关键词区域,训练样本中均进行过涂抹,从而可以使得训练样本的覆盖更加全面,也就是说,训练样本覆盖越全面,利用这些训练样本训练的图像复原模型学到的信息越多,更有利于对待复原图像中的所有关键词区域进行复原。
其次,利用各训练样本对初始图像复原模型进行训练。
具体的,在各训练样本中,无涂抹痕迹的原始文本图像作为监督,对初始图像复原模型进行迭代训练,在训练过程中,模型对原始文本图像对应的带有涂抹痕迹的待复原图像进行复原,得到复原图像,基于模型输出的复原图像和无涂抹痕迹的原始文本图像之间的像素值差异,得到损失函数的值,将损失函数收敛时得到的模型作为图像复原模型。
再次,利用图像复原模型对文本涂抹图像进行复原。
具体的,获取涂抹痕迹经过关键词区域的文本涂抹图像,如图8所示;关键词区域为文本涂抹图像的文本内容所包括关键字所在的图像区域;关键字包含于关键字表,该关键字表和确定训练样本目标关键词区域时使用的关键字表相同,该关键字表中还可以包括其他关键字。本实施例中,根据关键字表确定的目标关键词区域为“泉州”、“丝绸之路”所在的区域;该目标关键词区域可以是图像复原模型在进行模型训练时,训练样本中的原始文本图像中涂抹过的目标关键词区域。将文本涂抹图像输入图像复原模型,对文本涂抹图像中被涂抹痕迹覆盖的文本内容进行复原,得到文本涂抹图像对应的复原图像,如图8所示的涂抹图像输入图像复原模型之后得到的复原图像如图9所示,复原图像不再包括涂抹痕迹;
最后,对如图9所示的复原图像中的文字进行识别。
具体的,可以通过OCR识别的方式对复原图像进行文字识别,得到文字识别结果。
本申请实施例提供的文本图像的识别方法,利用图像复原模型,对涂抹痕迹经过关键词区域的文本涂抹图像进行复原,在不影响整体文字复原性能的条件下,对包含涂抹痕迹的图像中的关键词区域的复原效果较好,从而便于针对复原图像进行文字识别,提高文字识别的准确率。
与图1中所示方法相同的原理,本公开的实施例中还提供了一种文本图像的识别装置30,如图10所示,该文本图像的识别装置30包括:
图像获取模块31,用于获取涂抹痕迹经过关键词区域的文本涂抹图像;所述关键词区域为所述文本涂抹图像的文本内容所包括关键字所在的图像区域;所述关键字包含于关键字表;
图像复原模块32,用于将所述文本涂抹图像输入所述图像复原模型,对所述文本涂抹图像中被所述涂抹痕迹覆盖的文本内容进行复原,得到所述文本涂抹图像对应的复原图像;
文字识别模块33,用于对所述复原图像中的文本内容进行文字识别,得到所述文本涂抹图像的文字识别结果。
在一种可能的实现方式中,图像复原模型是通过以下方式训练得到的:
获取各训练样本,每一训练样本包括无涂抹痕迹的原始文本图像、以及原始文本图像对应的带有涂抹痕迹的待复原图像,待复原图像中的涂抹痕迹经过目标关键词区域,目标关键词区域为待复原图像的文本内容所包括关键字所在的图像区域;
基于各训练样本对初始图像复原模型进行迭代训练,得到图像复原模型。
在一种可能的实现方式中,图像复原模块32在获取各训练样本时,用于:
获取各原始文本图像;
对于每一原始文本图像,确定原始文本图像中包含的各目标关键词区域;
对于每一原始文本图像,对原始文本图像中的各目标关键词区域进行涂抹处理,得到原始文本图像对应的待复原图像。
在一种可能的实现方式中,图像复原模块32在确定原始文本图像中包含的各目标关键词时,用于:
对原始文本图像进行文字识别,得到文字识别结果;
基于关键字表和文字识别结果,确定出原始文本图像中的各目标关键词区域。
在一种可能的实现方式中,图像复原模块32在对原始文本图像中包含的各目标关键词进行涂抹处理,得到原始文本图像对应的待复原图像时,用于:
针对原始文本图像中的每一目标关键词区域,在原始文本图像中对目标关键词区域进行标记,得到至少两个第一标记点;
基于原始文本图像中的涂抹点,对原始文本图像进行涂抹处理,得到原始文本图像对应的待复原图像,涂抹点包括所有目标关键词区域对应的第一标记点。
在一种可能的实现方式中,装置30还包括标记点确定模块,用于:
在原始文本图像中各目标关键词区域之外的区域确定至少一个第二标记点,涂抹点包括第二标记点。
在一种可能的实现方式中,图像复原模块32在基于原始文本图像中的涂抹点,对原始文本图像进行涂抹处理时,用于:
按照预设方向,对原始图像中的涂抹点进行连接,得到涂抹痕迹;
基于涂抹痕迹,对原始文本图像进行涂抹处理。
在一种可能的实现方式中,预设方向包括原始文本图像中的横向方向或原始文本图像中的纵向方向。
在一种可能的实现方式中,装置30还包括属性信息获取模块,用于:
获取涂抹痕迹的属性信息;
图像复原模块32在基于涂抹痕迹,对原始文本图像进行涂抹处理时,用于:
按照预设方向和属性信息对原始文本图像进行涂抹处理。
在一种可能的实现方式中,属性信息包括涂抹痕迹的曲线颜色或曲线宽度中的至少一项。
本公开实施例的文本图像的识别装置可执行本公开的实施例所提供的与图1对应的文本图像的识别方法,其实现原理相类似,本公开实施例中的文本图像的识别装置中的各模块所执行的动作是与本公开实施例中的文本图像的识别方法中的步骤相对应的,对于文本图像的识别装置的各模块的详细功能描述具体可以参见前文中所示的对应的文本图像的识别方法中的描述,此处不再赘述。
本申请实施例提供的文本图像的识别装置,利用图像复原模型,对涂抹痕迹经过关键词区域的文本涂抹图像进行复原,在不影响整体文字复原性能的条件下,对包含涂抹痕迹的图像中的关键词区域的复原效果较好,从而便于针对复原图像进行文字识别,提高文字识别的准确率。
其中,所述文本图像的识别装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该文本图像的识别装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。
在一些实施例中,本发明实施例提供的文本图像的识别装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的文本图像的识别装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的文本图像的识别方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable LogicDevice)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
在另一些实施例中,本发明实施例提供的文本图像的识别装置可以采用软件方式实现,图10示出了存储在存储器中的文本图像的识别装置,其可以是程序和插件等形式的软件,并包括一系列的模块,包括图像获取模块31、图像复原模块32、文字识别模块33,用于实现本发明实施例提供的文本图像的识别方法。
上述实施例从虚拟模块的角度介绍了文本图像的识别装置,下述从实体模块的角度介绍一种电子设备,具体如下所示:
本申请实施例提供了一种电子设备,如图11所示,图11所示的电子设备8000包括:处理器8001和存储器8003。其中,处理器8001和存储器8003相连,如通过总线8002相连。可选地,电子设备8000还可以包括收发器8004。需要说明的是,实际应用中收发器8004不限于一个,该电子设备8000的结构并不构成对本申请实施例的限定。
处理器8001可以是CPU,通用处理器,GPU,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器8001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线8002可包括一通路,在上述组件之间传送信息。总线8002可以是PCI总线或EISA总线等。总线8002可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器8003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器8003用于存储执行本申请方案的应用程序代码,并由处理器8001来控制执行。处理器8001用于执行存储器8003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
本申请实施例提供了一种电子设备,本申请实施例中的电子设备包括:一个或多个处理器;存储器;一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序被处理器执行时,获取涂抹痕迹经过关键词区域的文本涂抹图像;关键词区域为文本涂抹图像的文本内容所包括关键字所在的图像区域;关键字包含于关键字表;将文本涂抹图像输入图像复原模型,对文本涂抹图像中被涂抹痕迹覆盖的文本内容进行复原,得到文本涂抹图像对应的复原图像;对复原图像中的文本内容进行文字识别,得到文本涂抹图像的文字识别结果。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当计算机程序在处理器上运行时,使得处理器可以执行前述方法实施例中相应内容。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本图像的识别方法的各种可选实现方式中提供的方法。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (13)
1.一种文本图像的识别方法,其特征在于,所述方法包括:
获取涂抹痕迹经过关键词区域的文本涂抹图像;所述关键词区域为所述文本涂抹图像的文本内容所包括关键字所在的图像区域;所述关键字包含于关键字表;
将所述文本涂抹图像输入所述图像复原模型,对所述文本涂抹图像中被所述涂抹痕迹覆盖的文本内容进行复原,得到所述文本涂抹图像对应的复原图像;
对所述复原图像中的文本内容进行文字识别,得到所述文本涂抹图像的文字识别结果。
2.根据权利要求1所述的方法,其特征在于,所述图像复原模型是通过以下方式训练得到的:
获取各训练样本,每一所述训练样本包括无涂抹痕迹的原始文本图像、以及所述原始文本图像对应的带有涂抹痕迹的待复原图像,所述待复原图像中的涂抹痕迹经过目标关键词区域,所述目标关键词区域为所述待复原图像的文本内容所包括所述关键字所在的图像区域;
基于所述各训练样本对初始图像复原模型进行迭代训练,得到所述图像复原模型。
3.根据权利要求2所述的方法,其特征在于,所述获取各训练样本,包括:
获取各所述原始文本图像;
对于每一所述原始文本图像,确定所述原始文本图像中的各目标关键词区域;
对于每一所述原始文本图像,对所述原始文本图像中的各所述目标关键词区域进行涂抹处理,得到所述原始文本图像对应的待复原图像。
4.根据权利要求3所述的方法,其特征在于,所述确定所述原始文本图像中的各目标关键词区域,包括:
对所述原始文本图像进行文字识别,得到文字识别结果;
基于所述关键字表和所述文字识别结果,确定出所述原始文本图像中的各所述目标关键词区域。
5.根据权利要求3所述的方法,其特征在于,所述对所述原始文本图像中的各所述目标关键词区域进行涂抹处理,得到所述原始文本图像对应的待复原图像,包括:
针对所述原始文本图像中的每一所述目标关键词区域,在所述原始文本图像中对所述目标关键词区域进行标记,得到至少两个第一标记点;
基于所述原始文本图像中的涂抹点,对所述原始文本图像进行涂抹处理,得到所述原始文本图像对应的待复原图像,所述涂抹点包括所有目标关键词区域对应的第一标记点。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在所述原始文本图像中各所述目标关键词区域之外的区域确定至少一个第二标记点,所述涂抹点包括所述第二标记点。
7.根据权利要求5或6所述的方法,其特征在于,所述基于所述原始文本图像中的涂抹点,对所述原始文本图像进行涂抹处理,包括:
按照预设方向,对所述原始图像中的所述涂抹点进行连接,得到涂抹痕迹;
基于所述涂抹痕迹,对所述原始文本图像进行涂抹处理。
8.根据权利要求7所述的方法,其特征在于,所述预设方向包括所述原始文本图像中的横向方向或所述原始文本图像中的纵向方向。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:
获取所述涂抹痕迹的属性信息;
所述基于所述涂抹痕迹,对所述原始文本图像进行涂抹处理,包括:
按照所述预设方向和所述属性信息对所述原始文本图像进行涂抹处理。
10.根据权利要求9所述的方法,其特征在于,所述属性信息包括涂抹痕迹的曲线颜色或曲线宽度中的至少一项。
11.一种文本图像的识别装置,其特征在于,所述装置包括:
图像获取模块,用于获取涂抹痕迹经过关键词区域的文本涂抹图像;所述关键词区域为所述文本涂抹图像的文本内容所包括关键字所在的图像区域;所述关键字包含于关键字表;
图像复原模块,用于将所述文本涂抹图像输入所述图像复原模型,对所述文本涂抹图像中被所述涂抹痕迹覆盖的文本内容进行复原,得到所述文本涂抹图像对应的复原图像;
文字识别模块,用于对所述复原图像中的文本内容进行文字识别,得到所述文本涂抹图像的文字识别结果。
12.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器;
一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被配置用于执行根据权利要求1~10任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序在处理器上运行时,使得所述处理器可以执行权利要求1~10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011415408.7A CN113537186A (zh) | 2020-12-04 | 2020-12-04 | 文本图像的识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011415408.7A CN113537186A (zh) | 2020-12-04 | 2020-12-04 | 文本图像的识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113537186A true CN113537186A (zh) | 2021-10-22 |
Family
ID=78124174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011415408.7A Pending CN113537186A (zh) | 2020-12-04 | 2020-12-04 | 文本图像的识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113537186A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035538A (zh) * | 2022-03-22 | 2022-09-09 | 北京百度网讯科技有限公司 | 文本识别模型的训练方法、文本识别方法及装置 |
-
2020
- 2020-12-04 CN CN202011415408.7A patent/CN113537186A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035538A (zh) * | 2022-03-22 | 2022-09-09 | 北京百度网讯科技有限公司 | 文本识别模型的训练方法、文本识别方法及装置 |
CN115035538B (zh) * | 2022-03-22 | 2023-04-07 | 北京百度网讯科技有限公司 | 文本识别模型的训练方法、文本识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
Thilagamani et al. | Gaussian and gabor filter approach for object segmentation | |
CN113704531A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN111626126A (zh) | 一种人脸情绪识别的方法、装置、介质及电子设备 | |
CN104778224A (zh) | 一种基于视频语义的目标对象社交关系识别方法 | |
CN112883926B (zh) | 表格类医疗影像的识别方法及装置 | |
CN112257665A (zh) | 图像内容的识别方法、图像识别模型的训练方法及介质 | |
CN112749606A (zh) | 一种文本定位方法和装置 | |
CN114581710A (zh) | 图像识别方法、装置、设备、可读存储介质及程序产品 | |
He et al. | Context-aware mathematical expression recognition: An end-to-end framework and a benchmark | |
CN113688839B (zh) | 视频处理方法及装置、电子设备、计算机可读存储介质 | |
Zhao et al. | Short range correlation transformer for occluded person re-identification | |
CN115131801A (zh) | 基于多模态的文档识别方法、装置、设备和存储介质 | |
Dang et al. | SHAPE: a dataset for hand gesture recognition | |
CN113822134A (zh) | 一种基于视频的实例跟踪方法、装置、设备及存储介质 | |
Lin et al. | Align-Yolact: a one-stage semantic segmentation network for real-time object detection | |
CN113537187A (zh) | 文本识别方法、装置、电子设备及可读存储介质 | |
CN113537186A (zh) | 文本图像的识别方法、装置、电子设备及存储介质 | |
CN113570541A (zh) | 图像质量评估方法、装置、电子设备及存储介质 | |
Wang et al. | Self-attention deep saliency network for fabric defect detection | |
CN112801099A (zh) | 一种图像处理方法、装置、终端设备及介质 | |
Gao et al. | Segmentation-free vehicle license plate recognition using CNN | |
Nikitin et al. | U-net based architectures for document text detection and binarization | |
CN115168609A (zh) | 一种文本匹配方法、装置、计算机设备和存储介质 | |
Bian et al. | Sentiment analysis of Chinese paintings based on lightweight convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40055196 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |