CN113673528B - 文本处理方法、装置、电子设备和可读存储介质 - Google Patents

文本处理方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN113673528B
CN113673528B CN202110902261.2A CN202110902261A CN113673528B CN 113673528 B CN113673528 B CN 113673528B CN 202110902261 A CN202110902261 A CN 202110902261A CN 113673528 B CN113673528 B CN 113673528B
Authority
CN
China
Prior art keywords
image
position information
processed
text
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110902261.2A
Other languages
English (en)
Other versions
CN113673528A (zh
Inventor
王慧
董怀琴
尹康
朱志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202110902261.2A priority Critical patent/CN113673528B/zh
Publication of CN113673528A publication Critical patent/CN113673528A/zh
Application granted granted Critical
Publication of CN113673528B publication Critical patent/CN113673528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种文本处理方法、装置、电子设备和可读存储介质,属于图像处理技术领域。该方法包括:获取待处理图像,并对所述待处理图像进行文本识别,得到文本识别结果,所述文本识别结果包括待处理图像中关键词的位置信息;基于所述关键词的位置信息获取所述待处理图像中目标对象的位置信息,所述目标对象与所述关键词对应;根据所述待处理图像中目标对象的位置信息确定目标文本内容,并输出所述目标文本内容。本申请通过利用关键词的位置信息来获取目标对象的位置信息可以提高文本提取的准确性。

Description

文本处理方法、装置、电子设备和可读存储介质
技术领域
本申请涉及图像处理技术领域,更具体的,涉及一种文本处理方法、装置、电子设备和可读存储介质。
背景技术
随着人工智能技术飞速发展。越来越多的人工智能技术被应用到各业务系统中,以提高工作效率。目前,在采用OCR(Optical Character Recognition,光学字符识别)技术识别,OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。在OCR识别时,通常采用字符识别模型来识别文档中的字符,但是仅利用字符识别模型识别图像中的字符会存在识别准确率不高的问题。
发明内容
本申请提出了一种文本处理方法、装置、电子设备和可读存储介质,以改善上述缺陷。
第一方面,本申请实施例提供了一种文本处理方法,所述方法包括:获取待处理图像,并对所述待处理图像进行文本识别,得到文本识别结果,所述文本识别结果包括待处理图像中关键词的位置信息;基于所述关键词的位置信息获取所述待处理图像中目标对象的位置信息,所述目标对象与所述关键词对应;根据所述待处理图像中目标对象的位置信息确定目标文本内容,并输出所述目标文本内容。
第二方面,本申请实施例还提供了一种文本处理装置,所述装置包括:第一获取模块、第二获取模块以及输出模块。其中,第一获取模块,用于获取待处理图像,并对所述待处理图像进行文本识别,得到文本识别结果,所述文本识别结果包括待处理图像中关键词的位置信息。第二获取模块,用于基于所述关键词的位置信息获取所述待处理图像中目标对象的位置信息,所述目标对象与所述关键词对应。输出模块,用于根据所述待处理图像中目标对象的位置信息确定目标文本内容,并输出所述目标文本内容。
第三方面,本申请实施例还提供了一种电子设备,包括一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述方法。
第四方面,本申请实施例还提供了一种计算机可读介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述方法。
本申请实施例提供的文本处理方法、装置、电子设备和可读存储介质,在获取到待处理图像中关键词的位置信息时,通过利用关键词的位置信息来获取目标对象的位置信息在一定程度上可以提高文本提取的准确性,具体的,获取待处理图像,并对待处理图像进行文本识别,以得到文本识别结果,其中,文本识别结果可以包括待处理图像中关键词的位置信息,然后基于关键词的位置信息获取待处理图像中目标对象的位置信息,其中,目标对象与关键词对应,在此基础上,根据待处理图像中目标对象的位置信息确定目标文本内容,最后输出该目标文本内容。本申请通过利用关键词的位置信息来获取待处理图像中目标对象的位置信息可以提高文本提取的准确性,进而可以提高字符识别的准确率。
本申请实施例的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一个实施例提供的文本处理方法的方法流程图;
图2示出了本申请一个实施例提供的文本处理方法中待处理图像为身份证件时的示例图;
图3示出了本申请一个实施例提供的文本处理方法中待处理图像为发票时的示例图;
图4示出了本申请一个实施例提供的文本处理方法中关键词的位置信息示例图;
图5示出了本申请一个实施例提供的文本处理方法中关键词的位置信息示例图;
图6示出了本申请一个实施例提供的文本处理方法中文本识别结果的示例图;
图7示出了本申请一个实施例提供的文本处理方法中关键词的位置信息和目标对象的位置信息的示例图。
图8示出了本申请另一个实施例提供的文本处理方法的方法流程图;
图9示出了本申请另一个实施例提供的文本处理方法中与关键词相邻的第一区域信息的示例图;
图10示出了本申请另一个实施例提供的文本处理方法中步骤S220的步骤流程图;
图11示出了本申请另一个实施例提供的文本处理方法中步骤S230的步骤流程图;
图12示出了本申请另一个实施例提供的文本处理方法中版面分析结果的示例图;
图13示出了本申请另一个实施例提供的文本处理方法中对候选区域信息进行合并得到第二区域信息的示例图;
图14示出了本申请又一个实施例提供的文本处理方法的方法流程图;
图15示出了本申请实施例提供的文本处理装置的结构框图;
图16示出了本申请实施例提供的文本处理装置中第二获取模块420的结构框图;
图17示出了本申请实施例提供的电子设备的结构框图;
图18示出了本申请实施例提供的用于保存或者携带实现根据本申请实施例的文本处理方法的程序代码的存储单元。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
首先,对本申请中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)人工智能(Artificial Intelligence,AI),是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
(2)神经网络,是由大量的人工神经元联结进行计算,是一种非线性统计性数据建模工具,其中,神经网络具有以下三个部分:1)结构(Architecture),结构指定了网络中的变量和它们的拓扑关系。例如,神经网络中的变量可以是神经元连接的权重(weights)和神经元的激励值(activities of the neurons);2)激励函数(ActivityRule),大部分神经网络模型具有一个短时间尺度的动力学规则,来定义神经元如何根据其他神经元的活动来改变自己的激励值。一般激励函数依赖于网络中的权重(即该网络的参数);3)学习规则(Learning Rule),学习规则指定了网络中的权重如何随着时间推进而调整。一般被看做是一种长时间尺度的动力学规则。一般情况下,学习规则依赖于神经元的激励值。它也可能依赖于监督者提供的目标值和当前权重的值。
(3)OCR技术,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
(4)版面分析,是指在OCR中,将文档图片中的内容按照段落、分页等信息划分为多个不重叠的区域的算法。可见,版面分析主要是用于将待处理图像划分多个区域块。
目前在工作生活,有时需要提取发票、证件、保修卡以及包装盒等上的关键词信息,以方便做信息的校对核验或者鉴权处理,例如,身份证件上的“姓名”、“性别”、“出生年月”、“住址”以及身份证号码等;又如,对IMEI号(International Mobile EquipmentIdentity,IMEI)的内容、MEID号(Mobile Equipment Identifier,移动设备识别码)的内容等的提取。
为了更好的实现文本信息的提取和录入,可采用的信息提取和录入的方式方法有:第一类技术是依据待处理图像,采用人工方法将关键信息逐一录入;第二类是采用OCR技术对待处理图像进行文字检测和识别,并将文字检测到的内容直接录入;第三类是针对简单的待处理图像,采用文本分类器对输入的待处理图像进行分类,得到待处理图像的类型,而后利用对应类型的模板匹配图像,将包含有关键词信息的局部图像匹配出来,并结合OCR技术将关键信息提取出来。然而,第一类技术需要依赖人力额外进行处理,耗时且耗力,并且由于人工录入,会因为疲劳或者粗心等导致的认为错误;第二类技术需对输入的待处理图像做复杂的前期处理,而当输入的待处理图像不准确,则其无法分割出准确的文本信息;第三类技术不仅需要获取额外的文本分类器,还是需要获取模板匹配图,若获取不到模板匹图则无法提取出关键词信息,即该技术对待处理图像的要求较高。
针对上述问题,发明人提出了本申请实施例提供的文本处理方法、装置电子设备以及存储介质,在获取到待处理图像中关键词的位置信息时,通过利用关键词的位置信息来获取目标对象的位置信息在一定程度上可以提高文本提取的准确性,具体的,获取待处理图像,并对待处理图像进行文本识别,以得到文本识别结果,其中,文本识别结果可以包括待处理图像中关键词的位置信息,然后基于关键词的位置信息获取待处理图像中目标对象的位置信息,其中,目标对象与关键词对应,在此基础上,根据待处理图像中目标对象的位置信息确定目标文本内容,最后输出该目标文本内容。本申请通过利用关键词的位置信息来获取待处理图像中目标对象的位置信息可以提高文本提取的准确性,进而可以提高字符识别的准确率。其中,具体的文本处理方法在后续的实施例中进行详细的说明。
请参阅图1,图1示出了本申请一个实施例提供的文本处理方法的流程示意图。在具体的实施例中,所述文本处理方法应用于如图15所示的文本处理装置400以及应用于如图17所示的电子设备500。下面将针对图1所示的流程进行详细的阐述,所述文本处理方法具体可以该方法可包括步骤110至步骤S130。
步骤S110:获取待处理图像,并对所述待处理图像进行文本识别,得到文本识别结果。
本申请实施例中,文本处理方法可以应用于电子设备,该电子设备可以是智能手机、平板电脑、电子书等,待处理图像可以是预先保存在电子设备存储中的图像,也可以是实时从云端或者服务器处下载的图像,或者也可以是用户根据个人需求实时拍摄的图像。另外,待处理图像可以是包含文本的图片,也可以是电子设备从包含文本的视频中截取出的视频帧图像,待处理图像具体是如何获取的这里不进行明确限制,可以根据实际情况进行选择。
作为一种方式,待处理图像可以是包含文本的图像,并且根据文本内容的不同,待处理图像也可以被分为多种类型,具体的,待处理图像可以是证件图像、发票图像、保修卡图像以及包装盒图像等,其中,证件图像可以包括身份证件图像、银行卡图像以及会员卡图像等。由于包含的文本内容以及版式等的不同,故可以将待处理图像分为多种类型。
为了更清楚的理解不同类型待处理图像之间的区别,本申请实施例给出了如图2和图3所示的示例图,图2为身份证件示例图,从图2可以看出身份证件的包含的文本区域可以分为两类,第一类是固定文本区域101,第二类为变化文本区域102,其中,固定文本区域101包含的文本内容可以称作是关键词的内容,其在相同类型的待处理图像是相同的,即在不同身份证件中固定文本内容均是相同的。例如,同一国籍下的身份证件均包括“姓名”、“性别”、“民族”、“出生”、“住址”以及“公民身份证件号码”等内容,这些文本内容对应的区域均可称作是固定文本区域101。并且,固定文本区域101在相同类型的待处理图像中的位置或者是相对位置均是相同的。例如,同一国籍下的身份证件中,关键词“姓名”在身份证件中的位置是固定的,即关键词“姓名”通常是位于身份证件的第一行第一列,并且,位于关键词“姓名”下方的关键词一般是“性别”。
另外,变化文本区域102包含的文本内容可以称作是目标对象的内容,其与关键词是相互对应的,即关键词可以作为键(key),而目标对象则可以作为值(value),二者可以统称为键值对。与固定文本区域101包含的文本内容不同,变化文本区域102在相同类型下的待处理图像是不相同的,即在不同的身份证件中变化文本内容是不相同的。例如,待处理图像A包含的身份证件是张三的,待处理图像B包含的身份证件是张小丽的,在待处理图像A和待处理图像B中,固定文本区域101包含的关键词的内容是相同的,而变化文本区域102包含的文本内容则是不相同的。例如,待处理图像A中关键词“姓名”对应的目标对象为“张三”,而待处理图像中关键词“姓名”对应的目标对象则为“张小丽”。
作为另一个示例,图3为发票示例图,图3与图2类似,其所包含的区域也可以大致分为两类,第一类是固定文本区域103,第二类是变化文本区域104。其中,固定文本区域103包含的文本内容可以称作是关键词的内容,其在相同类型的待处理图像是相同的,即在同一类型的不同发票中固定文本内容均是相同的。例如,同一类型的发票均包括“开票日期”、“购票单位”、“数量”、“单价”、“金额”以及“销货单位”等内容,这些文本内容对应的区域均可称作是固定文本区域103。并且,固定文本区域103在相同类型的待处理图像中的位置或者是相对位置也可以是相同的。
另外,变化文本区域104包含的文本内容可以称作是目标对象的内容,其与关键词是相互对应的,即关键词可以作为键(key),而目标对象则可以作为值(value),二者可以统称为键值对。与固定文本区域103包含的文本内容不同,变化文本区域104在相同类型下的待处理图像是不相同的,即在同一类型的不同发票中变化文本区域的内容是不相同的。例如,待处理图像C包含的开票日期是2016年04月03日,待处理图像D包含的开票日期是2021年07月05日的,在待处理图像C和待处理图像D中,固定文本区域101包含的关键词的内容是相同的,而变化文本区域102包含的文本内容则是不相同的。例如,待处理图像C中关键词“开票日期”对应的目标对象为“2016年04月03日”,而待处理图像中关键词“开票日期”对应的目标对象则为“2021年07月05日”。
通过对比图2和图3可以知道,不同的类型的待处理图像之间存在相同之处,也存在不同之处,相似之间在于,不同的待处理图像的区域均可以分为两类,这两类分别是固定文本区域和变化文本区域,其中,固定文本区域对应的文本内容可以是关键词的内容,而变化文本区域对应的文本内容可以是目标对象的内容,关键词和目标对象是相互对应的。
另外,不同类型的待处理图像之间也存在着不同之处,如不同类型的待处理图像中固定文本区域包含的关键词内容通常是不同的,并且,不同类型的待处理图像的版式以及包含的内容也是不相同的。例如,身份证件的版式较为简单,而发票的版式则较为复杂。
本申请实施例中,电子设备在获取到待处理图像之后,其可以将待处理图像输入至文本识别模型,利用该文本识别模型获取到待处理图像的文本识别结果。另外,通过上述介绍可以知道,不同类型的待处理图像之间的差异比较大,故为了提高文本识别的准确性,电子设备在获取到待处理图像之后,其可以先确定待处理图像的类型,而后针对不同的类型对应选择不同的文本识别模型。例如,当确定待处理图像的类型为身份证件时,本申请实施例则可以利用身份证件识别模型来对待处理图像进行文本识别;又如,当确定待处理图像的类型为发票时,本申请实施例则可以利用发票识别模型来对待处理图像进行文本识别。其中,身份证件识别模型可以是通过利用大量的身份证件图像训练获取的,而发票识别模型则可以是通过利用大量的发票图像训练获取的。
在另一些实施方式中,在获取到待处理图像时,电子设备也可以确定其存储的文本识别模型是否为多个,如果其存储的文本识别模型为多个,则可以从多个文本识别模型中选出一个作为识别待处理图像的模型,如果其存储的文本识别模型仅为一个时,则可以利用该文本识别模型对待处理图像进行识别。因此,本申请实施例在获取到待处理图像时,可以利用通用的文本识别模型对待处理图像进行识别,所述通用的文本识别模型的识别能力较强,其可以对各种类型的待处理图像进行识别。另外,电子设备也可以针对待处理图像的类型对应获取到不同的文本识别模型,以实现对待处理图像的准确识别,具体选用哪种类型的文本识别模型这里不进行明确限制,可以根据实际情况进行选择。
需要说明的是,在利用文本识别模型对待处理图像识别之前,本申请实施例也可以先对待处理图像进行图像预处理操作,具体的,电子设备可以对待处理图像进行图像增强,如去除待处理图像中的摩尔纹,或者是对待处理图像去模糊等。另外,电子设备也可以待处理图像执行校正以及去噪等操作。
作为一种方式,电子设备对待处理图像进行文本识别,能够得到文本识别结果,该文本识别结果可以包括待处理图像中关键词的位置信息,其中,关键词的位置信息可以包括关键词在待处理图像中的坐标信息和该关键词对应候选框的宽和高。其中,坐标信息可以是关键词候选框左上角点的坐标,也可以是右下角点的坐标,或者也可以是左下角点的坐标等。例如,图4中的A点的坐标(x,y)便可以作为关键词在待处理图像中的坐标信息,而图4中的d和h做分别对应的是关键词候选框的宽和高。
作为另一种方式,关键词的位置信息也可以仅包括关键词在待处理图像中的坐标信息,此时的坐标信息可以包括两个坐标点的信息,这两个坐标点可以是对角坐标点,即这两个坐标分别可以是左上角坐标点和右下角坐标点,也可以是左下角坐标的和右上角坐标点。例如,图5中的A点坐标(x1,y1)和B点坐标(x2,y2)可以作为关键词“姓名”的位置信息。
本申请实施例中,利用文本识别模型对待处理图像进行识别,得到的文本识别结果可以包括文本检测框和文本框内容,其中,文本检测框可以包括关键词的候选框和关键词信息的候选框,而关键词的候选框对应的位置信息即为关键词的位置信息。如对图2中的待处理图像进行文本识别,得到的文本识别结果可以如图6所示,从图6可以看出待处理图像包括的文本区域主要可以分为两类,第一类是固定文本区域,如包含关键词“姓名”的区域101、包含关键词“性别”的区域101a、包含关键词“出生”的区域10b以及包含关键词“住址”的区域101c均可以作为固定文本区域。而第二类是变化文本区域,如图6中的区域102、区域102a、区域102b、区域102c均可以称作是变化文本区域。并且,每个变化文本区域也可以由多个子区域组成,如区域102c可以包括区域1021和区域1022。因此,每个待处理图像可以包括多个固定文本区域和多个变化文本区域。另外,文本框内容指的是候选框中文本的内容。
步骤S120:基于所述关键词的位置信息获取所述待处理图像中目标对象的位置信息。
在一些实施方式中,电子设备在获取到文本识别结果中关键词的位置信息后,其可以基于该关键词的位置信息获取待处理图像中目标对象的位置信息,其中,目标对象与关键词对应。通过上述介绍可以知道,关键词在待处理图像中的区域为固定不变的区域,即固定文本区域,而目标对象在待处理图像中的区域则会随着待处理图像的不同而发生改变,即为变化文本区域。为了使最终获取的目标问内容更加准确,本申请实施例可以基于关键词的位置信息获取待处理图像中目标对象的位置信息。
作为一种方式,本申请实施例在基于关键词的位置信息获取到待处理图像中目标对象的位置信息后,其可以基于文本识别结果获取与关键词成预设比例的目标对象。具体的,电子设备可以获取一个位置比例函数,而后利用该位置比例函数和关键词的位置信息获取待处理图像中目标对象的位置信息。
作为另一种方式,本申请实施例基于关键词的位置信息获取待处理图像中目标对象的位置信息时,也可以先获取一个坐标转换信息,同时可以获取一个预设比例值。在此基础上,电子设备可以根据坐标转换信息对关键词的位置信息进行转换,以得到位置转换结果,在此基础上,根据位置转换结果和预设比例值可以获取到目标对象的位置信息。其中,预设比例可以是宽和高的缩放比例。本申请实施例中,坐标转换信息可以是水平平移值,也可以是垂直平移值,预设比例可以是对候选框宽度进行缩放,也可以是对候选框的高度进行缩放,这些值可以是通过分析大量样本集综合获取的。
作为一个示例,获取到关键词的位置信息为(x1,y1,d1,h1),其中,(x1,y1)可以是关键词左上角的坐标,对所述关键词的位置信息进行坐标转换,得到位置转换结果(x1+C,y1,d1,h1),同时获取到预设比例为(θ,α),则最终获取到目标对象的位置信息可以为(x2,y2,d2,h2),其中,x2=x1+C,y2=y1,d2=θ*d1,h2=α*h1。其中,θ和α可以是1,也可以是小于1的值,或者也可以是大于1的任何比例值。
作为另一种方式,本申请实施例也可以利用坐标变换模型获取与关键词的位置信息对应的目标对象的位置信息。具体的,电子设备可以将关键词的位置信息输入至坐标变换模型,以利用该坐标变换模型获取到待处理图像中目标对象的位置信息,其中,目标对象和关键词可以是相互对应的,即一个关键词的位置信息可以对应有一个目标对象的位置信息。
在一些实施方式中,基于关键词的位置信息获取待处理图像中的目标对象的位置信息之前,本申请实施例也可以基于文本识别结果确定变化文本区域中是否存在文本内容,即确定待处理图像中是否存在与关键词对应的目标对象,如果待处理图像中存在与关键词对应的目标对象,则基于关键词的位置信息获取待处理图像中目标对象的位置信息。换句话说,在获取到文本识别结果时,电子设备可以确定与关键词对应的变化文本区域内是否存在目标对象,即确定变化文本区域是否处于空白状态,若处于空白状态则不需要获取待处理图像中目标对象的位置信息,如此可以降低位置信息获取带来的不必要的功耗。
步骤S130:根据所述待处理图像中目标对象的位置信息确定目标文本内容,并输出所述目标文本内容。
在一些实施方式中,电子设备在获取到与关键词对应的目标对象的位置信息后,其可以根据该目标对象的位置信息确定目标文本内容,而后输出所述目标文本内容。具体的,电子设备可以基于目标对象的位置信息确定目标对象在待处理图像中的区域,即基于目标对象的位置信息确定目标区域,而后获取该目标区域内的文本内容,并将该文本内容作为目标文本内容。例如,图7中关键词“姓名”的位置信息为(x1,y1,d1,h1),通过该位置信息获取到目标对象的位置信息为(x2,y2,d2,h2),而后根据该位置信息确定出目标区域102,该目标区域102中的文本内容则可以作为本申请实施例中的目标文本内容,即图7中的目标文本内容为“张三”。
在另一些实施方式中,在获取到目标文本内容时,电子设备可以直接对目标文本内容进行显示,或者也可以先将目标文本内容转换为语音内容,而后利用音频播放器输出该目标文本内容对应的语音内容。另外,电子设备在获取到目标文本内容后,其也可以对该目标文本内容进行处理,并将处理后的文本进行显示。
本申请实施例中,对目标文本内容进行处理可以是获取用户的喜好,而后基于用户的喜好将目标文本内容转换成目标格式,并将目标文本内容按照目标格式输出。同理,在利用音频播放器输出目标文本内容对应的语音内容时,本申请实施例也可以基于用户的喜好确定语音内容输出的格式,而后基于该格式输出语音内容。
本申请实施例提出的一种文本处理方法,在获取到待处理图像中关键词的位置信息时,通过利用关键词的位置信息来获取目标对象的位置信息在一定程度上可以提高文本提取的准确性,具体的,获取待处理图像,并对待处理图像进行文本识别,以得到文本识别结果,其中,文本识别结果可以包括待处理图像中关键词的位置信息,然后基于关键词的位置信息获取待处理图像中目标对象的位置信息,其中,目标对象与关键词对应,在此基础上,根据待处理图像中目标对象的位置信息确定目标文本内容,最后输出该目标文本内容。本申请通过利用关键词的位置信息来获取待处理图像中目标对象的位置信息可以提高文本提取的准确性,进而可以提高字符识别的准确率。
本申请另一实施例提供了一种文本处理方法,请参阅图8,该文本处理方法可以包括步骤S210至步骤S240。
步骤S210:获取待处理图像,并对所述待处理图像进行文本识别,得到文本识别结果。
步骤S220:基于所述关键词的位置信息获取与所述关键词相邻的第一区域信息。
本申请实施例中,电子设备在获取到文本识别结果之后,其可以基于该关键词的位置信息获取与关键词相邻的第一区域信息。具体的,本申请实施例首先可以获取一个坐标变换模型,而后将关键词的位置信息输入至该坐标变换模型,利用该坐标变换模型本申请实施例可以获取到与关键词相邻的第一区域信息。另外,第一区域信息可以是目标对象对应的候选框的坐标信息。
可选的,坐标变换模型可以为线性模型,电子设备可以利用大量训练样本是对初始神经网络训练以得到该坐标变换模型。其中,每个训练样本可以包括固定文本区域和变化文本区域,其中,固定文本区域与变化文本区域相互对应,固定文本区域为关键词对应的区域,而变化文本区域则为关键信息对应的区域。例如,“住址”对应的区域为固定文本区域,住址后面的详细地址对应的区域为变化文本区域,该变化文本区域的信息即可作为第一区域信息。
在另一些实施方式中,电子设备在获取到关键词的位置信息时,其也可以基于关键词的位置信息确定关键词的候选框,而后对关键词的候选框执行映射操作,以得到目标对象的候选框,而该目标对象的候选框即可作为与关键词相邻的第一区域信息。换句话说,关键词的候选框与目标对象的候选框之间可以存在映射关系,在获取到关键词的候选框时,电子设备可以基于该映射关系获取到目标对象的候选框,而后可以将目标对象的候选框所在区域的信息作为第一区域信息。
在本申请实施例中,与关键词相邻的第一区域信息可以是位于关键词后面的区域信息,也可以是位于关键词前面的区域信息,或者也可以是位于关键词上面或者是下面的区域信息。例如,图9中的目标对象“XX”的区域201位于关键词“增值税普通发票”的区域202之前,而目标对象“2016年04月03日”的区域204则位于关键词“开票日期”的区域203之后。与关键词相邻的第一区域信息具体在关键词前面还是后面这里不进行明确限制,可以根据待处理图像的实际情况进行选择。
作为一种方式,基于关键词的位置信息获取与关键词相邻的第一区域信息之前,本申请实施例可以先确定待处理图像中关键词是否符合指定条件,详细请参阅图10,从图10看出步骤S220可以包括步骤S221至步骤S222。
步骤S221:确定所述待处理图像中的所述关键词是否符合指定条件,所述指定条件用于确定所述关键词是否为完整关键词。
在一些实施方式中,基于关键词的位置信息获取与关键词相邻的第一区域信息之前,本申请实施例可以先确定待处理图像中关键词是否符合指定条件,其中,指定条件用于确定关键词是否为完整关键词。
在一些实施方式中,由于拍摄、传输或者图像处理的不当,会导致待处理图像中的信息不完整。例如,在拍摄身份证件时,由于对焦或者是抖动等原因,导致最终获取的待处理图像中部分关键词不完整,或者是由于光线以及电子设备中图像采集装置损坏等原因,导致采集的关键词模糊,无法完整识别。换句话说,关键词不完整指的是获取到的关键词的位置信息不完整,或者是待处理图像中不存在关键词,此时即表明待处理图像中的关键词不符合指定条件。例如,待处理图像中仅有关键字“名”,此时是不完整的,即确定待处理图像中的关键词不符合指定条件。
作为一种方式,电子设备在确定待处理图像中的所述关键词符合指定条件时,其可以基于关键词的位置信息获取与关键词相邻的第一区域信息,即进入步骤S222。另外,如果确定待处理图像中的关键词不符合指定条件,则可以根据第二区域信息获取目标对象的位置信息,其中,第二区域信息可以是对待处理图像进行版面分析获取的区域信息。
步骤S222:若所述待处理图像中的所述关键词符合指定条件,则基于所述关键词的位置信息获取与所述关键词相邻的第一区域信息。
步骤S230:根据所述第一区域信息获取所述目标对象的位置信息。
在一些实施方式中,电子设备在获取到第一区域信息后,便可以根据第一区域信息获取目标对象的位置信息,具体的,本申请实施例可以根据该第一区域信息获取目标对象的候选框的坐标信息,而后基于该坐标信息确定目标对象的位置信息。另外,根据第一区域信息获取目标对象的位置信息也可以包括如图11所示的步骤,从图11看出步骤S230可以包括步骤S231至步骤S233。
步骤S231:对所述文本识别结果进行版面分析操作,得到版面分析结果,所述版面分析操作用于为所述多个候选区域信息分配不同的段落标识。
在一些实施方式中,文本识别结果除了可以包括关键词的位置信息外,其也可以包括多个候选框区域信息,候选框区域信息可以与关键词的区域信息对应。并且,一个关键词的区域信息可以对应至少一个候选框区域信息,即一个关键词的区域信息可以对应一个候选框区域信息,也可以对应两个候选框区域信息,或者是对应多个候选区域信息等。
作为一种方式,本申请实施例在获取到文本识别结果时,可以对文本识别结果进行版面分析,以得到版面分析结果,其中,版面分析操作用于为多个候选区域信息分配不同的段落标识。例如,在获取到如图6所示的示例图后,本申请实施例可以对该图进行版面分析,以得到如图12所示的示例图,从图12可以看出不同的候选区域信息对应的段落标识可能不同也可能相同。本申请实施例中,如果候选区域信息发生换行的情况,则对应的段落标识一般是相同的,如段落标识10对应的候选区域信息发生了换行现象,此时其对应的段落标识就是相同的。
需要说明的是,本申请实施例可以通过文本识别结果来获取版面分析结果,即对文本识别结果进行版面分析操作得到版面分析结果,也可以直接对待处理图像进行版面分析来得到版面分析结果。具体采用哪种方式这里不进行明确限制,可以根据实际情况进行选择。
在另一些实施方式中,电子设备在对文本识别结果进行版面分析操作时,其可以对关键词对应的信息和候选区域信息分别分配不同的段落标识,如图12所示。另外,由于第一关键词对应的信息可以对应多个候选区域信息,并且,本申请实施例主要目的是输出候选区域内的文本内容,故在分配段落标识时,本申请实施例在进行版面分析时也可以仅为候选区域信息分配不同的段落标识,如图13所示,如此在一定程度上可以降低的段落标识分配带来的不必要功耗。
步骤S232:从所述多个段落标识中选出段落标识相同的候选区域信息,并将所述段落标识相同的候选区域信息进行合并,得到第二区域信息。
在一些实施方式,电子设备在获取到版面分析结果时,其可以基于版面分析结果从多个段落标识中选出段落标识相同的候选区域信息,而后可以将段落标识相同的候选区域信息进行合并,以得到第二区域信息。如图13中,段落标识相同的候选区域信息有两个,这两个候选区域信息对应的段落标识均为05,将这两个候选区域信息进行合并,如此便可以得到第二区域信息206。
步骤S233:根据所述第一区域信息和所述第二区域信息获取所述目标对象的位置信息。
通过上述介绍可以知道,基于关键词的位置信息可以获取到与关键词相邻的第一区域信息,在获取到第二区域信息时,本申请实施例可以根据第一区域信息和第二区域信息综合获取到目标对象的位置信息。如图13中的205表示的是第一区域信息,206表示的是第二区域信息,其中,第一区域信息205是基于关键词的位置信息获取的,而第二区域信息206则是基于版面分析获取的。
作为第一种方式,电子设备在获取到第一区域信息和第二区域信息之后,其可以结合第一区域信息和第二区域信息综合获取到目标对象的位置信息。具体的,本申请实施例可以对第一区域信息和第二区域信息求平均,并将平均信息作为目标对象的位置信息。另外,也可以对第一区域信息和第二区域信息进行加权求平均的操作,最后将获取的信息作为目标对象的位置信息。
作为另一种方式,在获取到第一区域信息和第二区域信息时,本申请实施例也可以分别对第一区域信息和第二区域信息进行显示,而后检测在预设时间段内是否接收到用户输入的选择指令,如果接收到用户的选择指令,则确定该选择指令对应的区域信息,并将该区域信息作为目标对象的位置信息。例如,用户输入的选择指令对应的是第一区域信息,则第一区域信息便可以作为目标对象的位置信息。
在另一些实施方式中,根据所述第一区域信息和所述第二区域信息获取所述目标对象的位置信息时,本申请实施例可以先确定所述第一区域信息与所述第二区域信息是否匹配;若所述第一区域信息与所述第二区域信息匹配,则根据所述第一区域信息和所述第二区域信息获取所述目标对象的位置信息。其中,第一区域信息与第二区域信息是否匹配可以是第一区域信息和第二区域信息对应的候选框的重叠是否大于预设重叠面积。另外,第一区域信息与第二区域信息是否匹配也可以是第一区域信息和第二区域信息包括的目标对象是否相同。
在另一些实施方式中,如果所述第一区域信息与所述第二区域信息不匹配,则可以根据所述第一区域信息获取所述目标对象的位置信息。另外,如果第一区域信息与第二区域信息不匹配,本申请实施例也可以获取坐标变换模型的第一准确率,以及获取版面分析操作对应的版面分析模型的第二准确率,而后从第一准确率和第二准确率中选出准确率较高的模型作为目标模型,接着将目标模型获取的区域信息作为目标区域信息。例如,坐标变换模型的准确率高于版面分析模型的准确率,此时即可以根据第一区域信息获取目标对象的位置信息。
步骤S240:根据所述待处理图像中目标对象的位置信息确定目标文本内容,并输出所述目标文本内容。
本申请实施例提出的一种文本处理方法,在获取到待处理图像中关键词的位置信息时,通过利用关键词的位置信息来获取目标对象的位置信息在一定程度上可以提高文本提取的准确性,具体的,获取待处理图像,并对待处理图像进行文本识别,以得到文本识别结果,其中,文本识别结果可以包括待处理图像中关键词的位置信息,然后基于关键词的位置信息获取待处理图像中目标对象的位置信息,其中,目标对象与关键词对应,在此基础上,根据待处理图像中目标对象的位置信息确定目标文本内容,最后输出该目标文本内容。本申请通过利用关键词的位置信息来获取待处理图像中目标对象的位置信息可以提高文本提取的准确性,进而可以提高字符识别的准确率。另外,本申请实施例通过将基于关键词的位置信息获取的第一区域信息与版面分析操作获取的第二区域信息进行结合来获取目标对象的位置信息,在很大程度上能够使最终获取的目标对象的位置信息更加准确,如此也可以提高用户的使用体验。
本申请又一实施例提供了一种文本处理方法,请参阅图14,该文本处理方法可以包括步骤S310至步骤360。
步骤S310:获取待处理图像,并对所述待处理图像进行文本识别,得到文本识别结果。
步骤S320:基于所述关键词的位置信息获取所述待处理图像中目标对象的位置信息。
上述实施例已经对步骤S310至步骤S320进行了详细介绍,这里就不再进行赘述了。
步骤S330:根据所述关键词的位置信息确定所述关键词对应的参考文本内容,以及根据所述目标对象的位置信息确定所述目标对象对应的目标文本内容。
在一些实施方式中,电子设备获取到关键词的位置信息后,其可以根据该关键词的位置信息确定关键词对应的参考文本内容,该参考文本内容也可以称作是关键词内容。并且,在获取到目标对象的位置信息后,电子设备也可以根据目标对象的位置信息确定目标对象对应的目标文本内容。在此基础上,电子设备可以将参考文本内容与目标文本内容进行合并,以得到候选文本内容,即进入步骤S340。
步骤S340:将所述参考文本内容与所述目标文本内容进行合并,得到候选文本内容。
本申请实施例中,电子设备在获取到参考文本内容与目标文本内容时,可以将参考文本内容与目标内容进行合并,以得到候选文本内容。作为一个示例,电子设备根据关键词的位置信息确定出关键词对应的参考文本内容为“MEI”,根据目标对象的位置信息确定出目标对象对应的目标文本内容为“20201665”,将参考文本内容和目标文本内容进行合并得到的候选文本内容为“MEI20201665”。
步骤S350:确定所述候选文本内容包括的候选字符串,并对所述候选字符串执行倒序排列操作,得到倒序字符串。
作为一种方式,本申请实施例获取到候选文本内容时可以确定该候选文本内容包括的字符串,而后对候选字符串执行倒序排列操作,得到倒序字符串。如上述示例中,候选字符串为“MEI20201665”,对该字符串执行倒序排列操作,得到的倒序字符串为“56610202IEM”。
作为一种方式,在获取到倒序字符串时,电子设备可以确定该倒序字符串是否符合预设条件,具体的,电子设备可以利用正则匹配表达式从所述倒序字符串中查找第一字符串,基于所述第一字符串确定预设数量的第二字符串,获取所述第二字符串与预设字符串之间的匹配度。若所述匹配度大于预设匹配度,则确定倒序字符串符合预设条件,此时可以输出目标文本内容。
本申请实施例中,正则表达式可以根据候选字符串的实际情况获取,需要查找的字符串不同,则对应的正则表达式也不相同。例如,需要查找的字符串为是数字,且这些数字是8个连续的数字,此时正则表达式即为“8个0-9的连续数据”。另外,预设数量可以是固定不变的,也可以是根据预设关键词的字符数量确定的。例如,预设关键词“IMEI”对应的预设数量则为4。并且,预设字符串可以是预设关键词对应的字符串的逆序。
作为一个示例,获取到上述倒序字符串“56610202IEM”时,电子设备可以利用正则匹配表达式从该倒序字符串中查找第一字符串,得到的字符串为“56610202”,关键词预设数量为4,因为“IEM”仅为3个,此时则可以将“IEM”作为第二字符串,获取“IEM”与预设字符串“IEMI”之间的匹配度,因为“IEM”与“IEMI”之间的相似度比较高,故可以确定匹配度大于预设匹配度,此时即可输出目标文本内容“56610202”。
作为另一种方式,若所述匹配度大于预设匹配度,则输出所述目标文本内容,包括:获取所述第二字符串与所述预设字符串之间的差异字符,并确定所述差异字符的数量;若所述差异字符的数量小于预设字符数量,则确定所述匹配度大于预设匹配度,输出所述目标文本内容。本申请实施例中,差异字符可以包括不同的字符,也可以包括缺少的字符,或者也可以包括增加的字符。例如,上述示例中“IEM”与“IEMI”便是缺少了字符,二者的差异字符的数量为1。又如,第二字符串为“IEN”,其与预设字符串“IEMI”之间的差异字符的数量为2。
本申请实施例中,预设字符数量可以是固定的,也可以是根据预设字符串的数量确定的。例如预设字符数量可以是预设字符串数量的1/2。另外,预设字符数量也可以根据预设字符串的内容来确定,具体的,预设字符串中的字符越容易被误识,即预设字符串的误识别率越高,则对应的预设字符数量可以越大。预设字符数量具体如何设置这里不进行明确限制,可以根据实际情况进行选择。另外,若匹配度小于预设匹配度,则不输出目标文本内容。
需要说明的是,本申请实施例中的差异字符的数量也可以称作是第一字符串与预设字符串之间的距离。另外,在获取到参考文本内容和目标文本内容时,本申请实施例也可以先对文本内容执行倒序排列操作,而后将倒序排列后的文本内容与参考文本内容进行合并。然后,利用正则表达式从合并后的文本内容中获取第一字符串,基于第一字符串获取预设数量的第二字符串,并将第二字符串与预设字符串进行匹配,其中预设字符串为关键词对应的字符串。
步骤S360:若所述倒序字符串符合预设条件,则输出所述目标文本内容。
本申请实施例提出的一种文本处理方法,在获取到待处理图像中关键词的位置信息时,通过利用关键词的位置信息来获取目标对象的位置信息在一定程度上可以提高文本提取的准确性,具体的,获取待处理图像,并对待处理图像进行文本识别,以得到文本识别结果,其中,文本识别结果可以包括待处理图像中关键词的位置信息,然后基于关键词的位置信息获取待处理图像中目标对象的位置信息,其中,目标对象与关键词对应,在此基础上,根据待处理图像中目标对象的位置信息确定目标文本内容,最后输出该目标文本内容。本申请通过利用关键词的位置信息来获取待处理图像中目标对象的位置信息可以提高文本提取的准确性,进而可以提高字符识别的准确率。另外,本申请实施例通过结合倒序字符串和差异字符的数量来实现基于编辑距离的倒序验证方法,在一定程度上提高关键词信息提取的准确率。
请参阅图15,本申请实施例提出了一种文本处理装置400。在具体的实施例中,该文本处理装置400包括:第一获取模块410、第二获取模块420和输出模块430。
第一获取模块410,用于获取待处理图像,并对所述待处理图像进行文本识别,得到文本识别结果,所述文本识别结果包括待处理图像中关键词的位置信息。
第二获取模块420,用于基于所述关键词的位置信息获取所述待处理图像中目标对象的位置信息,所述目标对象与所述关键词对应。
请参阅图16,第二获取模块420可以包括区域信息获取单元421和位置信息获取单元422。
其中,区域信息获取单元421,用于基于所述关键词的位置信息获取与所述关键词相邻的第一区域信息。
位置信息获取单元422,用于根据所述第一区域信息获取所述目标对象的位置信息。
进一步地,所述文本识别结果还包括多个候选区域信息,位置信息获取单元422还用于对所述文本识别结果进行版面分析操作,得到版面分析结果,所述版面分析操作用于为所述多个候选区域信息分配不同的段落标识;从所述多个段落标识中选出段落标识相同的候选区域信息,并将所述段落标识相同的候选区域信息进行合并,得到第二区域信息;根据所述第一区域信息和所述第二区域信息获取所述目标对象的位置信息。
进一步地,位置信息获取单元422还用于确定所述第一区域信息与所述第二区域信息是否匹配;若所述第一区域信息与所述第二区域信息匹配,则根据所述第一区域信息和所述第二区域信息获取所述目标对象的位置信息。
进一步地,位置信息获取单元422还用于若所述第一区域信息与所述第二区域信息不匹配,则根据所述第一区域信息获取所述目标对象的位置信息。
进一步地,位置信息获取单元422还用于确定所述待处理图像中的所述关键词是否符合指定条件,所述指定条件用于确定所述关键词是否为完整关键词;若所述待处理图像中的所述关键词符合指定条件,则基于所述关键词的位置信息获取与所述关键词相邻的第一区域信息。
进一步地,位置信息获取单元422还用于若所述待处理图像中的所述关键词不符合指定条件,则根据所述第二区域信息获取所述目标对象的位置信息。
输出模块430,用于根据所述待处理图像中目标对象的位置信息确定目标文本内容,并输出所述目标文本内容。
进一步地,输出模块430还用于根据所述关键词的位置信息确定所述关键词对应的参考文本内容,以及根据所述目标对象的位置信息确定所述目标对象对应的目标文本内容;将所述参考文本内容与所述目标文本内容进行合并,得到候选文本内容;确定所述候选文本内容包括的候选字符串,并对所述候选字符串执行倒序排列操作,得到倒序字符串;若所述倒序字符串符合预设条件,则输出所述目标文本内容。
进一步地,输出模块430还用于利用正则匹配表达式从所述倒序字符串中查找第一字符串;基于所述第一字符串确定预设数量的第二字符串;获取所述第二字符串与预设字符串之间的匹配度;若所述匹配度大于预设匹配度,则输出所述目标文本内容。
进一步地,输出模块430还用于获取所述第二字符串与所述预设字符串之间的差异字符,并确定所述差异字符的数量;若所述差异字符的数量小于预设字符数量,则确定所述匹配度大于预设匹配度,输出所述目标文本内容。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
本申请实施例提出的一种文本处理装置,本申请在获取到待处理图像中关键词的位置信息时,通过利用关键词的位置信息来获取目标对象的位置信息在一定程度上可以提高文本提取的准确性,具体的,获取待处理图像,并对待处理图像进行文本识别,以得到文本识别结果,其中,文本识别结果可以包括待处理图像中关键词的位置信息,然后基于关键词的位置信息获取待处理图像中目标对象的位置信息,其中,目标对象与关键词对应,在此基础上,根据待处理图像中目标对象的位置信息确定目标文本内容,最后输出该目标文本内容。本申请通过利用关键词的位置信息来获取待处理图像中目标对象的位置信息可以提高文本提取的准确性,进而可以提高字符识别的准确率。
请参阅图17,其示出了本申请实施例提供的一种电子设备500的结构框图。该电子设备500可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备500可以包括一个或多个如下部件:处理器510、存储器520、以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器520中并被配置为由一个或多个处理器510执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
处理器510可以包括一个或者多个处理核。处理器510利用各种接口和线路连接整个电子设备500内的各个部分,通过运行或执行存储在存储器520内的指令、程序、代码集或指令集,以及调用存储在存储器520内的数据,执行电子设备500的各种功能和处理数据。可选地,处理器510可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器510可集成中央处理器(CentralProcessing Unit,CPU)、声纹识别器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器510中,单独通过一块通信芯片进行实现。
存储器520可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器520可用于存储指令、程序、代码、代码集或指令集。存储器520可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备500在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
请参阅图18,其示出了本申请实施例提供的一种计算机可读存储介质600的结构框图。该计算机可读存储介质600中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质600可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质600包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质600具有执行上述方法实施例中的任何方法步骤的程序代码610的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码610可以例如以适当形式进行压缩。最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (11)

1.一种文本处理方法,其特征在于,所述方法包括:
获取待处理图像,并对所述待处理图像进行文本识别,得到文本识别结果,所述文本识别结果包括待处理图像中关键词的位置信息;
基于所述关键词的位置信息获取所述待处理图像中目标对象的位置信息,所述目标对象与所述关键词对应;
根据所述关键词的位置信息确定所述关键词对应的参考文本内容,以及根据所述目标对象的位置信息确定所述目标对象对应的目标文本内容;
将所述参考文本内容与所述目标文本内容进行合并,得到候选文本内容;
确定所述候选文本内容包括的候选字符串,并对所述候选字符串执行倒序排列操作,得到倒序字符串;
利用正则匹配表达式从所述倒序字符串中查找第一字符串;
基于所述第一字符串确定预设数量的第二字符串;
获取所述第二字符串与预设字符串之间的匹配度;
若所述匹配度大于预设匹配度,则输出所述目标文本内容。
2.根据权利要求1所述的方法,其特征在于,所述基于所述关键词的位置信息获取所述待处理图像中目标对象的位置信息,包括:
基于所述关键词的位置信息获取与所述关键词相邻的第一区域信息,
根据所述第一区域信息获取所述目标对象的位置信息。
3.根据权利要求2所述的方法,其特征在于,所述文本识别结果还包括多个候选区域信息,所述根据所述第一区域信息获取所述目标对象的位置信息,包括:
对所述文本识别结果进行版面分析操作,得到版面分析结果,所述版面分析操作用于为所述多个候选区域信息分配不同的段落标识;
从所述多个段落标识中选出段落标识相同的候选区域信息,并将所述段落标识相同的候选区域信息进行合并,得到第二区域信息;
根据所述第一区域信息和所述第二区域信息获取所述目标对象的位置信息。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一区域信息和所述第二区域信息获取所述目标对象的位置信息,包括:
确定所述第一区域信息与所述第二区域信息是否匹配;
若所述第一区域信息与所述第二区域信息匹配,则根据所述第一区域信息和所述第二区域信息获取所述目标对象的位置信息。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若所述第一区域信息与所述第二区域信息不匹配,则根据所述第一区域信息获取所述目标对象的位置信息。
6.根据权利要求3所述的方法,其特征在于,所述基于所述关键词的位置信息获取与所述关键词相邻的第一区域信息,包括:
确定所述待处理图像中的所述关键词是否符合指定条件,所述指定条件用于确定所述关键词是否为完整关键词;
若所述待处理图像中的所述关键词符合指定条件,则基于所述关键词的位置信息获取与所述关键词相邻的第一区域信息。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
若所述待处理图像中的所述关键词不符合指定条件,则根据所述第二区域信息获取所述目标对象的位置信息。
8.根据权利要求1所述的方法,其特征在于,所述若所述匹配度大于预设匹配度,则输出所述目标文本内容,包括:
获取所述第二字符串与所述预设字符串之间的差异字符,并确定所述差异字符的数量;
若所述差异字符的数量小于预设字符数量,则确定所述匹配度大于预设匹配度,输出所述目标文本内容。
9.一种文本处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取待处理图像,并对所述待处理图像进行文本识别,得到文本识别结果,所述文本识别结果包括待处理图像中关键词的位置信息;
第二获取模块,用于基于所述关键词的位置信息获取所述待处理图像中目标对象的位置信息,所述目标对象与所述关键词对应;
输出模块,用于根据所述关键词的位置信息确定所述关键词对应的参考文本内容,以及根据所述目标对象的位置信息确定所述目标对象对应的目标文本内容;
将所述参考文本内容与所述目标文本内容进行合并,得到候选文本内容;
确定所述候选文本内容包括的候选字符串,并对所述候选字符串执行倒序排列操作,得到倒序字符串;
利用正则匹配表达式从所述倒序字符串中查找第一字符串;
基于所述第一字符串确定预设数量的第二字符串;
获取所述第二字符串与预设字符串之间的匹配度;
若所述匹配度大于预设匹配度,则输出所述目标文本内容。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序被配置为用于执行如权利要求1-8任一项所述的方法。
11.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-8任一项所述的方法。
CN202110902261.2A 2021-08-06 2021-08-06 文本处理方法、装置、电子设备和可读存储介质 Active CN113673528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110902261.2A CN113673528B (zh) 2021-08-06 2021-08-06 文本处理方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110902261.2A CN113673528B (zh) 2021-08-06 2021-08-06 文本处理方法、装置、电子设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN113673528A CN113673528A (zh) 2021-11-19
CN113673528B true CN113673528B (zh) 2024-02-09

Family

ID=78541785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110902261.2A Active CN113673528B (zh) 2021-08-06 2021-08-06 文本处理方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN113673528B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114792423B (zh) * 2022-05-20 2022-12-09 北京百度网讯科技有限公司 文档图像的处理方法、装置和存储介质
CN116894092B (zh) * 2023-09-11 2024-01-26 中移(苏州)软件技术有限公司 文本处理方法、装置、电子设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657213A (zh) * 2018-12-21 2019-04-19 北京金山安全软件有限公司 文本相似度检测方法、装置和电子设备
CN111191652A (zh) * 2019-12-20 2020-05-22 中国建设银行股份有限公司 一种证件图像识别方法、装置、电子设备及存储介质
CN112115907A (zh) * 2020-09-27 2020-12-22 北京捷通华声科技股份有限公司 固定版面证件结构化信息提取方法、装置、设备及介质
CN112232336A (zh) * 2020-09-02 2021-01-15 深圳前海微众银行股份有限公司 一种证件识别方法、装置、设备及存储介质
CN112396055A (zh) * 2020-11-30 2021-02-23 泰康保险集团股份有限公司 文本提取方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6900164B2 (ja) * 2016-09-27 2021-07-07 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657213A (zh) * 2018-12-21 2019-04-19 北京金山安全软件有限公司 文本相似度检测方法、装置和电子设备
CN111191652A (zh) * 2019-12-20 2020-05-22 中国建设银行股份有限公司 一种证件图像识别方法、装置、电子设备及存储介质
CN112232336A (zh) * 2020-09-02 2021-01-15 深圳前海微众银行股份有限公司 一种证件识别方法、装置、设备及存储介质
CN112115907A (zh) * 2020-09-27 2020-12-22 北京捷通华声科技股份有限公司 固定版面证件结构化信息提取方法、装置、设备及介质
CN112396055A (zh) * 2020-11-30 2021-02-23 泰康保险集团股份有限公司 文本提取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113673528A (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN110399798B (zh) 一种基于深度学习的离散图片文件信息提取系统及方法
CN109543690B (zh) 用于提取信息的方法和装置
US20230401828A1 (en) Method for training image recognition model, electronic device and storage medium
US20190385054A1 (en) Text field detection using neural networks
CN109685065B (zh) 试卷内容自动分类的版面分析方法、系统
CN111475613A (zh) 案件分类方法、装置、计算机设备及存储介质
CN111353491B (zh) 一种文字方向确定方法、装置、设备及存储介质
CN113673528B (zh) 文本处理方法、装置、电子设备和可读存储介质
CN109635805B (zh) 图像文本定位方法及装置、图像文本识别方法及装置
CN114092938B (zh) 图像的识别处理方法、装置、电子设备及存储介质
CN110738203A (zh) 字段结构化输出方法、装置及计算机可读存储介质
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及系统
US20220301334A1 (en) Table generating method and apparatus, electronic device, storage medium and product
US11600088B2 (en) Utilizing machine learning and image filtering techniques to detect and analyze handwritten text
CN105335760A (zh) 一种图像数字字符识别方法
CN112036304A (zh) 医疗票据版面识别的方法、装置及计算机设备
CN112232336A (zh) 一种证件识别方法、装置、设备及存储介质
CN114971294A (zh) 数据采集方法、装置、设备及存储介质
CN113711232A (zh) 用于着墨应用的对象检测和分割
CN114581928A (zh) 一种表格识别方法及系统
CN114463767A (zh) 信用证识别方法、装置、计算机设备和存储介质
CN111199240A (zh) 银行卡识别模型的训练方法、银行卡识别方法以及装置
Sethi et al. Gender prediction system through behavioral biometric handwriting: a comprehensive review
CN107240185A (zh) 一种冠字号识别方法、装置、设备及存储介质
CN112200789A (zh) 一种图像识别的方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant