CN115471847A

CN115471847A - 一种文字的识别提取方法、系统、装置及存储介质

Info

Publication number: CN115471847A
Application number: CN202211123615.4A
Authority: CN
Inventors: 王志武; 冯德明; 植煜焕
Original assignee: Tongluo Technology Co ltd
Current assignee: Tongluo Technology Co ltd
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-12-13

Abstract

本发明公开了一种文字的识别提取方法、系统、装置及存储介质。该方法通过获取待处理图像数据，接着，将所述待处理图像数据输入至预先训练好的分类模型中，得到图像分类结果；然后，根据所述图像分类结果，并获取对应的文字提取模型；随后，根据所述对应的文字提取模型对所述待处理图像数据进行文字提取，得到文本数据。该方法通过在识别图片前先对图片进行分类，对不同类别的图片采用不同的文字提取模型进行识别，从而能够同时处理多种类型的图像数据，并且提高了文字提取的准确率。本发明可广泛应用于图像处理技术领域内。

Description

一种文字的识别提取方法、系统、装置及存储介质

技术领域

本发明涉及图像处理技术领域，尤其是一种文字的识别提取方法、系统、装置及存储介质。

背景技术

直到目前，现有的信息采集、加工和管理软件中，仍未能够实现结构化信息自动识别和提取著录，导致在进行档案信息著录时，无法实现档案信息的标引著录的自动化。

综上所述，相关技术中存在的问题亟需得到解决。

发明内容

本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。

为此，本发明实施例的一个目的在于提供文字的识别提取方法、系统、装置和存储介质。

为了达到上述技术目的，本发明实施例所采取的技术方案包括：

一方面，本发明实施例提供了一种文字的识别提取方法，包括以下步骤：

获取待处理图像数据，

将所述待处理图像数据输入至预先训练好的分类模型中，得到图像分类结果；

根据所述图像分类结果，获取对应的文字提取模型；

根据所述对应的文字提取模型对所述待处理图像数据进行文字提取，得到文本数据。

进一步地，在所述获取待处理图像数据这一步骤之后，还包括：

对所述待处理图像数据进行图像优化、旋转、分辨率转换、图像拆分、组合、截取以及进行规格化转换。

进一步地，在所述根据所述对应的文字提取模型对所述待处理图像数据进行文字提取，得到文本数据这一步骤之后，还包括：

对所述文本数据进行指定字符转换、词条匹配以及字符串调整。

进一步地，所述将所述待处理图像数据输入至预先训练好的分类模型中，得到图像分类结果这一步骤，具体包括：

提取所述待处理图像数据的图像特征；

将所述图像特征输入至所述分类模型中进行匹配，得到图像分类结果。

进一步地，所述根据所述图像分类结果，获取对应的文字提取模型这一步骤，具体包括：

所述图像分类结果包括第一分类结果和第二分类结果；

根据所述第一分类结果，获取次分类模型，并通过所述次分类模型得到次分类结果；

根据所述第二分类结果，获取对应的文字提取模型。

进一步地，所述根据所述对应的文字提取模型对所述待处理图像数据进行文字提取，得到文本数据这一步骤，具体包括：

根据所述文字提取模型对所述待处理图像数据中需要进行文字提取的位置进行标注，得到标签数据；

通过对所述标签数据进行匹配，得到所述待处理图像数据对应的文本数据。

进一步地，所述标签数据包括：关键字、位置坐标和文字内容。

另一方面，本发明实施例提出了一种文字的识别提取系统，包括：

第一模块，用于获取待处理图像数据，

第二模块，用于将所述待处理图像数据输入至预先训练好的分类模型中，得到图像分类结果；

第三模块，用于根据所述图像分类结果，获取对应的文字提取模型；

第四模块，用于根据所述对应的文字提取模型对所述待处理图像数据进行文字提取，得到文本数据。

另一方面，本发明实施例提供了一种文字的识别提取装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现所述的文字的识别提取方法。

另一方面，本发明实施例提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于实现所述的文字的识别提取方法。

本发明公开了一种文字的识别提取方法，具备如下有益效果：

本实施例通过获取待处理图像数据，接着，将所述待处理图像数据输入至预先训练好的分类模型中，得到图像分类结果；然后，根据所述图像分类结果，并获取对应的文字提取模型；随后，根据所述对应的文字提取模型对所述待处理图像数据进行文字提取，得到文本数据。该方法通过在识别图片前先对图片进行分类，对不同类别的图片采用不同的文字提取模型进行识别，从而能够同时处理多种类型的图像数据，并且提高了文字提取的准确率。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本申请实施例中提供的一种文字的识别提取方法的实施环境示意图；

图2为本发明实施例提供的一种文字的识别提取方法的流程示意图；

图3为本发明实施例提供的一种文字的识别提取系统的结构示意图；

图4为本发明实施例提供的一种文字的识别提取装置的结构示意图。

具体实施方式

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

在本发明实施例的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数，“至少一个”是指一个或者多个，“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。如果有描述到“第一”、“第二”等只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

需要说明的是，本发明实施例中设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明实施例中的具体含义。例如，术语“连接”可以是机械连接，也可以是电连接或可以相互通讯；可以是直接相连，也可以通过中间媒介间接相连。

在本发明实施例的描述中，参考术语“一个实施例/实施方式”、“另一实施例/实施方式”或“某些实施例/实施方式”、“在上述实施例/实施方式”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本公开的至少两个实施例或实施方式中。在本公开中，对上述术语的示意性表述不一定指的是相同的示实施例或实施方式。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或实施方式中以合适的方式结合。

需要说明的是，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

首先，对本申请中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

自然语言处理(natural language processing，NLP)：NLP用计算机来处理、理解以及运用人类语言(如中文、英文等)，NLP属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

对于文字识别，相关技术仍存在缺陷。部分相关技术通过使用一张图片作为模板进行，在模板图片上框选若干个矩形框作为文本识别区域，同时记录并保存文本识别区域的坐标信息；识别一张目标图片时，分别对目标图片与模板图片进行特征点检测；基于特征点采用近似最近邻算法FLANN实现特征点匹配，即目标图片与模板图片的特征点之间的映射；基于特征点映射关系，使用单应性变换计算目标图片到模板图片的转换矩阵。

这种方法及系统只能对固定样式的一类图片，进行结构化信息识别和提取。即使采用了近似最近邻算法FLANN实现特征点匹配，也只能适用于内容稍有偏移或放大缩小的同一类图片，内容的排版和结构都必须相对固定才能有效识别。不能适用于多种不同类型图片的识别和信息提取。

还有部分相关技术围绕传统OCR识别后的文本序列进行处理，着重在于通过预测模型及预测模型词典对文本块进行预测，根据预测结果提取出符合规则的键值对数据。这种方法是基于文字的辨别和分析，忽略了原文图像特征、样式和排版的区别，对于具有相同关键信息的多种不同类型图像，即不能分辨其结构化信息内容应当归属于何种类型的材料，无法确定识别到的内容来源和应该应用到何处。

为此，本申请提出了一种文字的识别提取方法、系统、装置和存储介质，通过获取待处理图像数据，接着，将所述待处理图像数据输入至预先训练好的分类模型中，得到图像分类结果；然后，根据所述图像分类结果，并获取对应的文字提取模型；随后，根据所述对应的文字提取模型对所述待处理图像数据进行文字提取，得到文本数据。该方法通过在识别图片前先对图片进行分类，对不同类别的图片采用不同的文字提取模型进行识别，从而能够同时处理多种类型的图像数据，并且提高了文字提取的准确率。

图1是本申请实施例提供的一种文字的识别提取方法的实施环境示意图。参照图1，该实施环境的软硬件主体主要包括操作终端101和服务器102，操作终端101与服务器102通信连接。其中，该文字的识别提取方法可以单独配置于操作终端101执行，也可以单独配置于服务器102执行，或者基于操作终端101与服务器102二者之间的交互来执行，具体可以根据实际应用情况进行适当的选择，本实施例对此并不作具体限定。此外，操作终端101与服务器102可以为区块链中的节点，本实施例对此并不作具体限定。

具体地，本申请中的操作终端101可以包括但不限于智能手表、智能手机、电脑、个人数字助理(Personal Digital Assistant，PDA)、智能语音交互设备、智能家电或者车载终端中的任意一种或者多种。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。操作终端101与服务器102之间可以通过无线网络或有线网络建立通信连接，该无线网络或有线网络使用标准通信技术和/或协议，网络可以设置为因特网，也可以是其它任何网络，例如包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。

图2是本申请实施例提供的一种文字的识别提取方法的流程图，该方法的执行主体可以是操作终端或者服务器中的至少一者，图2中以该文字的识别提取方法配置于操作终端执行为例进行说明。参照图2，该文字的识别提取方法包括但不限于步骤110至步骤140。

步骤110：获取待处理图像数据，

步骤120：将所述待处理图像数据输入至预先训练好的分类模型中，得到图像分类结果；

步骤130：根据所述图像分类结果，获取对应的文字提取模型；

步骤140：根据所述对应的文字提取模型对所述待处理图像数据进行文字提取，得到文本数据。

进一步作为可选的实施方式,在所述获取待处理图像数据这一步骤之后，还包括：

具体地，本实施例对输入的图片进行前处理，包括图像优化、旋转、分辨率转换、图像拆分、组合、截取，对输入图片进行规格化转换，以保障供后期识别的图片足够清晰和符合输入规范。

进一步作为可选的实施方式，在所述根据所述对应的文字提取模型对所述待处理图像数据进行文字提取，得到文本数据这一步骤之后，还包括：

具体地，对得到的文字信息进行后处理，包括指定字符转换，词条匹配，字符串合并，字符串复制、转移等处理，最终输出符合需求的结构化文字信息。

进一步作为可选的实施方式，所述将所述待处理图像数据输入至预先训练好的分类模型中，得到图像分类结果这一步骤，具体包括：

提取所述待处理图像数据的图像特征；

具体地，本申请实施例中，分类模型会根据图像数据包含的图像特征，将待处理图像数据进行分类。

对于分类模型的训练，首先进行随机采样获取训练数据集，在随机采样得到训练数据集后，可以将训练数据集输入到初始化后的图像分类模型中进行训练。具体地，将训练数据集中的数据输入到初始化后的图像分类模型后，可以得到模型输出的识别结果，即图像分类结果，可以根据图像分类结果和前述的标签来评估识别模型预测的准确性，从而对模型的参数进行更新。对于图像分类模型来说，模型预测结果的准确性可以通过损失函数(Loss Function)来衡量，损失函数是定义在单个训练数据上的，用于衡量一个训练数据的预测误差，具体是通过单个训练数据的标签和模型对该训练数据的预测结果确定该训练数据的损失值。而实际训练时，一个训练数据集有很多训练数据，因此一般采用代价函数(Cost Function)来衡量训练数据集的整体误差，代价函数是定义在整个训练数据集上的，用于计算所有训练数据的预测误差的平均值，能够更好地衡量出模型的预测效果。对于一般的机器学习模型来说，基于前述的代价函数，再加上衡量模型复杂度的正则项即可作为训练的目标函数，基于该目标函数便能求出整个训练数据集的损失值。常用的损失函数种类有很多，例如0-1损失函数、平方损失函数、绝对损失函数、对数损失函数、交叉熵损失函数等均可以作为机器学习模型的损失函数，在此不再一一阐述。本申请实施例中，可以从中任选一种损失函数来确定训练的损失值。基于训练的损失值，采用反向传播算法对模型的参数进行更新，迭代几轮即可得到训练好的图像分类模型。具体地迭代轮数可以预先设定，或者在测试集达到精度要求时认为训练完成。

进一步作为可选的实施方式，所述根据所述图像分类结果，获取对应的文字提取模型这一步骤，具体包括：

所述图像分类结果包括第一分类结果和第二分类结果；

根据所述第二分类结果，获取对应的文字提取模型。

可以理解的是，为了提高分类的精细度，需要建立多个分类类别，按层级从粗到细进行分类，使图片类别的划分更加精细、准确。

具体地，项目的配置方案中，预先设定了不同的分类结果关联对应的处理方式。处理方式包括两种：a、继续进行下一级的分类，b、匹配对应的结构化识别模型，进行结构化文字识别。图片进行分类后，会对图片的分类结果进行判断，当分类结果为第一分类结果，说明该图片还能继续进行下一步分类，因此接着调用次分类模型，并通过所述次分类模型得到次分类结果。而当分类结果为第二分类结果，说明该图片不能继续进行下一步分类，则直接进行下一步，调用获取对应的文字提取模型进行文字识别。

进一步作为可选的实施方式，所述根据所述对应的文字提取模型对所述待处理图像数据进行文字提取，得到文本数据这一步骤，具体包括：

进一步作为可选的实施方式，所述标签数据包括：关键字、位置坐标和文字内容。

具体地，选取一定数量具有共同特征或同一类型、具有相同字段和内容结构的表单图片，对图片中需要提取文字信息的字段内容进行标注，标注信息包含keyvalue关键字(字段名)、位置坐标、文字内容等目标信息，得到标签文件；表单图片和对应标签文件中的目标信息作为输入信息进行训练，得到该种类型表单的结构化文字识别模型；运行结构化文字识别时，系统先加载对应的识别模型，然后逐一输入图片进行OCR文字识别，同时通过模型匹配keyvalue关键字、位置坐标和文字内容，得到指定字段所对应的文字内容，形成结构化数据。

参照图3，本发明实施例提出的一种文字的识别提取系统，包括：

第一模块301，用于获取待处理图像数据，

第二模块302，用于将所述待处理图像数据输入至预先训练好的分类模型中，得到图像分类结果；

第三模块303，用于根据所述图像分类结果，获取对应的文字提取模型；

第四模块304，用于根据所述对应的文字提取模型对所述待处理图像数据进行文字提取，得到文本数据。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

参照图4，本发明实施例提供了一种文字的识别提取装置，包括：

至少一个处理器401；

至少一个存储器402，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器401执行时，使得所述至少一个处理器401实现图2所示的文字的识别提取方法。

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于实现图2所示文字的识别提取方法。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种文字的识别提取方法，其特征在于，包括以下步骤：

获取待处理图像数据；

根据所述图像分类结果，获取对应的文字提取模型；

2.根据权利要求1所述的文字的识别提取方法，其特征在于，在所述获取待处理图像数据这一步骤之后，还包括：

3.根据权利要求1所述的文字的识别提取方法，其特征在于，在所述根据所述对应的文字提取模型对所述待处理图像数据进行文字提取，得到文本数据这一步骤之后，还包括：

4.根据权利要求1所述的文字的识别提取方法，其特征在于，所述将所述待处理图像数据输入至预先训练好的分类模型中，得到图像分类结果这一步骤，具体包括：

提取所述待处理图像数据的图像特征；

5.根据权利要求1所述的文字的识别提取方法，其特征在于，所述根据所述图像分类结果，获取对应的文字提取模型这一步骤，具体包括：

所述图像分类结果包括第一分类结果和第二分类结果；

根据所述第二分类结果，获取对应的文字提取模型。

6.根据权利要求1所述的文字的识别提取方法，其特征在于，所述根据所述对应的文字提取模型对所述待处理图像数据进行文字提取，得到文本数据这一步骤，具体包括：

7.根据权利要求6所述的文字的识别提取方法，其特征在于，所述标签数据包括：关键字、位置坐标和文字内容。

8.一种文字的识别提取系统，其特征在于，包括：

第一模块，用于获取待处理图像数据，

9.一种文字的识别提取装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7中任一项所述的文字的识别提取方法。

10.一种计算机可读存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-7中任一项所述的文字的识别提取方法。