CN110378350A

CN110378350A - 一种文字识别的方法、装置及系统

Info

Publication number: CN110378350A
Application number: CN201910664545.5A
Authority: CN
Inventors: 张宏韬; 高天宁
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-10-25

Abstract

本说明书实施例公开了一种文字识别的方法、装置及系统。所述方法包括获取待识别图片，所述待识别图片至少包括文本内容；将所述待识别图片输入到预先构建的文字识别模型中，所述文字识别模型包括基于复杂文本信息的训练样本进行训练得到，所述复杂文本信息包括同一个文本内容中的字符的至少一种属性信息存在不同取值的信息，所述属性信息至少包括字体、字号、颜色、图片背景；获取所述文字识别模型输出的文字识别结果。利用本说明书实施例可以准确、高效、快捷的对文字进行识，从而提高工作效率的同时，极大地降低人为错误给客户和银行带来经济损失的可能性。

Description

一种文字识别的方法、装置及系统

技术领域

本说明书实施例方案属于智能识别领域，尤其涉及一种文字识别的方法、装置及系统。

背景技术

工行融e购平台上现有上百万上架商品，而其中有一大部分是来自第三方卖家，为保证消费者利益，需要对第三方商家上架的商品进行审核。传统审核方式是通过人眼核对鉴别商品广告中的信息，这种方法不仅费时费力而且鉴别结果易受人主观作用影响。随着平台业务量的剧增，对各种商品的审核验证工作量极大，传统人工审核的方法已经不能满足实际业务需求。因此在金融信息化、智能化背景下，智能识别商品广告中文字的研究就成为了信息化进程中一项亟待解决的问题。

因此，业内亟需一种可以提高工作效率，同时也极大降低人为错误给客户和银行带来经济损失的解决方案。

发明内容

本说明书实施例目的在于提供一种文字识别的方法、装置及系统，可以准确、高效、快捷对商品广告中的文字进行识，不仅可以提高工作效率，而且也可以极大地降低人为错误给客户和银行带来经济损失的可能性。

一方面本申请提供了一种文字识别的方法，包括：

获取待识别图片，所述待识别图片至少包括文本内容；

将所述待识别图片输入到预先构建的文字识别模型中，所述文字识别模型包括基于复杂文本信息的训练样本进行训练得到，所述复杂文本信息包括同一个文本内容中的字符的至少一种属性信息存在不同取值的信息，所述属性信息至少包括字体、字号、颜色、图片背景；

获取所述文字识别模型输出的文字识别结果。

本说明书提供的所述方法的另一个实施例中，所述预先构建的文字识别模型包括采用下述方式得到：

获取复杂文本信息，所述复杂文本信息包括文本内容和所述文本内容对应的属性信息；

基于所述属性信息，生成图片信息；

将所述图片信息输入预先建立的神经网络进行训练，获取训练结果；

基于所述训练结果，对所述神经网络进行校正，获得文字识别模型。

本说明书提供的所述方法的另一个实施例中，所述获取复杂文本信息，包括：

随机获取预设长度的文本内容；

随机指定所述文本内容的属性信息；

基于所述文本内容和所述属性信息，生成复杂文本信息。

本说明书提供的所述方法的另一个实施例中，所述基于所述属性信息，生成图片信息，包括：

从所述属性信息包括的图片背景中随机截取一块区域作为生成图片的第一背景；

将所述复杂文本信息叠加在所述第一背景上，生成第一图片；

为所述第一图片添加标签，生成图片信息。

本说明书提供的所述方法的另一个实施例中，所述将所述图片信息输入预先建立的神经网络进行训练前，包括：

按照预设方式对所述图片信息进行处理，获取处理后的图片信息，所述预设方式至少包括随机噪点添加、负片处理、高斯模糊、文字扭曲。

另一方面，本说明书实施例还提供一种文字识别的装置，所述装置包括：

图片获取模块，用于获取待识别图片，所述待识别图片至少包括文本内容；

输入模块，用于将所述待识别图片输入到预先构建的文字识别模型中，所述文字识别模型包括基于复杂文本信息的训练样本进行训练得到，所述复杂文本信息包括同一个文本内容中的字符的至少一种属性信息存在不同取值的信息，所述属性信息至少包括字体、字号、颜色、图片背景；

结果获取模块，用于获取所述文字识别模型输出的文字识别结果。

本说明书提供的所述装置的另一个实施例中，所述预先构建的文字识别模型包括：

文本信息获取模块，用于获取复杂文本信息，所述复杂文本信息包括文本内容和所述文本内容对应的属性信息；

图片信息生成模块，用于基于所述属性信息，生成图片信息；

训练模块，用于将所述图片信息输入预先建立的神经网络进行训练，获取训练结果；

模型获得模块，用于基于所述训练结果，对所述神经网络进行校正，获得文字识别模型。

本说明书提供的所述装置的另一个实施例中，所述文本信息获取模块，包括：

文本内容获取单元，用于随机获取预设长度的文本内容；

属性信息指定单元，用于随机指定所述文本内容的属性信息；

文本信息生成单元，用于基于所述文本内容和所述属性信息，生成复杂文本信息。

本说明书提供的所述装置的另一个实施例中，所述图片信息生成模块，包括：

背景获取单元，用于从所述属性信息包括的图片背景中随机截取一块区域作为生成图片的第一背景；

图片生成单元，用于将所述复杂文本信息叠加在所述第一背景上，生成第一图片；

图片信息生成单元，用于为所述第一图片添加标签，生成图片信息。

本说明书提供的所述装置的另一个实施例中，所述将所述图片信息输入预先建立的神经网络进行训练前，包括：

处理模块，用于按照预设方式对所述图片信息进行处理，获取处理后的图片信息，所述预设方式至少包括随机噪点添加、负片处理、高斯模糊、文字扭曲。

另一方面，本说明书实施例提供一种文字识别的设备，包括处理器及用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括以下步骤：

获取待识别图片，所述待识别图片至少包括文本内容；

获取所述文字识别模型输出的文字识别结果。

另一方面，本说明书实施例提供一种文字识别的系统，包括至少一个处理器以及存储计算机可执行指令的存储器，所述处理器执行所述指令时实现上述任意一个实施例所述方法的步骤。

本说明书实施例提供的一种文字识别的方法、装置及系统，通过利用复杂文本库信息对预先建立的识别模型进行训练，获得文字识别模型，在需要对复杂文本信息进行识别时，将所述信息输入到该文字识别模型中，可以准确、高效、快捷的实现对复杂文本的识别。这样，在审核验证工作量极大的情况下，可以满足实际业务需求。因此，利用本说明书各个实施例，不仅可以准确、高效、快捷的对复杂文本进行识，提高工作效率，而且也可以极大地降低人为错误给客户和银行带来经济损失的可能性。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书提供的一种文字识别的方法的一个实施例的流程示意图；

图2是本说明书提供的一种构建文字识别模型的一个实施例的流程示意图；

图3是本说明书提供的一种文字识别的装置的一个实施例的模块结构示意图；

图4是本说明书提供的一种构建文字识别模型的一个实施例的模块结构示意图；

图5是本说明书提供的一种文字识别服务器的一个实施例的硬件结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书中的一部分实施例，而不是全部的实施例。基于本说明书中的一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书实施例保护的范围。

目前，工行融e购平台上有上百万上架商品，其中有一大部分是来自第三方卖家，为保证消费者利益，需要对第三方商家上架的商品进行审核。然而传统对商品广告信息审核的方式是使用人眼核对鉴别，这种方式不仅费时费力而且鉴别结果易受个人主观作用影响。随着平台业务量的剧增，对各种商品的审核验证工作量极大，传统人工审核的方法已经不能满足实际业务需求。因此在金融信息化、智能化背景下，智能识别商品广告中文字的研究就成为了信息化进程中一项亟待解决的问题。

本说明书实施例提供了一种文字识别的方法，可以通过利用复杂文本库信息对预先建立的识别模型进行训练，获得文字识别模型，在需要对复杂文本信息进行识别时，将所述信息输入到该文字识别模型中，可以准确、高效、快捷的实现对复杂文本的识别。这样，在审核验证工作量极大的情况下，可以满足实际业务需求。因此，利用本说明书各个实施例，不仅可以准确、高效、快捷的对复杂文本进行识，提高工作效率，而且也可以极大地降低人为错误给客户和银行带来经济损失的可能性。

下面以一个具体的应用场景为例对本说明书实施方案进行说明。具体的，图1是本说明书提供的一种文字识别的方法的一个实施例的流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置、服务器或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。

当然，下述实施例的描述并不对基于本说明书的其他可扩展到的技术方案构成限制。

具体的一种实施例如图1所示，图1是本说明书提供的一种文字识别的方法的一个实施例的流程示意图，所述方法可以包括：

S0：获取待识别图片，所述待识别图片至少包括文本内容。

本说明书实施例中，所述待识别图片可以是任意包含文本内容的图片。如，可以是广告图片、商标图片、卡片、通过拍照得到的商品照片，也可以是拍照或拍摄后经过一些预处理、美化处理、修正处理的图片、视频截图，甚至可以是一些商品的认证图片，如防伪图片等。文本内容可以理解为包括字符类的内容，如包括汉字、字母等字符。

本说明书一个实施例中，获取待识别图片的方式可以是本领域人员知晓的任意一种方式，如网络下载、截图、拍照、扫描等方式，本说明书对此不作限定。

本说明书一个实施例中，在获取待识别图片后，可以通过对所述图片进行预处理，使其符合预先设定的规则，从而为提高文字识别准确率提高基础。例如一些实施场景中，由于图片获取环境的不同，如光照明暗程度以及获取设备性能的优劣导致图片存在噪声、对比度不够等，此时可以通过滤波、图像增强等方式进行预处理，从而使识别结果更加准确。需要说明的是，上述预处理方式可以是本领域人员知晓的任意一种或几种组合，如几何变换(透视、扭曲、旋转等)、畸变校正、去除模糊、图像增强、光线校正、灰度化、滤波、二值化等，本说明书对此不作限定。

S2：将所述待识别图片输入到预先构建的文字识别模型中，所述文字识别模型包括基于复杂文本信息的训练样本进行训练得到，所述复杂文本信息包括同一个文本内容中的字符的至少一种属性信息存在不同取值的信息，所述属性信息至少包括字体、字号、颜色、图片背景。

本说明书一个实施例中，在获取待识别图片后，可以将所述待识别图片输入到预先构建的文字识别模型中进行识别，从而获取识别结果。

所述预先构建的文字识别模型可以包括将训练样本输入到神经网络模型中进行训练后获得的模型。其中，训练样本可以是基于从信息库中获取的复杂文本信息生成的。一些实施例中，可以预先建立一个信息库，所述信息库包括文本文件、属性文件，文本文件中包括文本内容，属性文件中包括属性信息。

本说明书一个实施例中，所述复杂文本信息可以包括同一个文本内容中的字符的至少一种属性信息存在不同取值的信息。所述属性信息至少包括字体、字号、颜色、图片背景。其中，文本内容可以包括一个或多个字符。字体可以包括：宋体，隶书，翩翩体，娃娃体等，字号可以包括：初号，小二、四号，小五等，颜色可以包括红色，绿色，黄色等，图片背景可以包括：花纹，网格，渐变等。例如一些实施场景中，以同一文本内容(如：您好)为例，所示复杂文本信息可以是相同字体不同字号相同颜色相同背景(如：娃娃体、初号、红色、花纹的“您好”与娃娃体、小五、红色、花纹的“您好”)、相同字体不同字号不同颜色相同背景(如：娃娃体、初号、红色、花纹的“您好”与娃娃体、小五、黄色、花纹的“您好”)、不同字体相同字号不同颜色不同背景(如：娃娃体、初号、红色、花纹的“您好”与隶书、初号、绿色、网格的“您好”)、相同字体相同字号相同颜色不同背景(如：娃娃体、初号、红色、花纹的“您好”与娃娃体、初号、红色、网格的“您好”)、不同字体不同字号不同颜色不同背景(如：娃娃体、初号、红色、花纹的“您好”与宋体、小二、蓝色、渐变的“您好”)等。

本说明书另一个实施例中，所述复杂文本信息还可以包括不同文本内容中的字符的属性信息存在相同或不同取值的信息。所述属性信息至少包括字体、字号、颜色、图片背景。例如一些实施场景中，以不同文本内容为例，所示复杂文本信息可以是相同字体相同字号相同颜色相同背景(如：娃娃体、初号、红色、花纹的“您好”与娃娃体、初号、红色、花纹的“hello”)、相同字体不同字号相同颜色相同背景(如：娃娃体、初号、红色、花纹的“您好”与娃娃体、小五、红色、花纹的“欢迎”)、相同字体不同字号不同颜色相同背景(如：娃娃体、初号、红色、花纹的“您好”与娃娃体、小五、黄色、花纹的“保证质量”)、不同字体相同字号不同颜色不同背景(如：娃娃体、初号、红色、花纹的“您好”与隶书、初号、绿色、网格的“买一送一”)、相同字体相同字号相同颜色不同背景(如：娃娃体、初号、红色、花纹的“您好”与娃娃体、初号、红色、网格的“领取优惠券”)、不同字体不同字号不同颜色不同背景(如：娃娃体、初号、红色、花纹的“您好”与宋体、小二、蓝色、渐变的“赠送礼品”)等。此外，属性信息还可以包括加粗、斜体、生僻字等其他属性，如可以指定文本内容是否为加粗、是否为生僻字等属性信息。

所述神经网络模型可以是本领域人员知晓的用于识别模型训练的任意一种方式，如卷积神经网络、循环神经网络、深度神经网络、卷积循环神经网络等，本申请对此不作限定。优选的，本实施例中使用卷积循环神经网络进行训练获得文字识别模型。其中，卷积循环神经网络模型是由卷积神经网络模型和循环神经网络模型组成的一种神经网络模型。具体的，卷积循环神经网络网络架构由三部分组成，包括卷积层、循环层和转录层。其中，卷积层是用来自动从每个输入图像中提取特征序列，循环层是用来对卷积层输出的特征序列的每一帧的标签分布进行预测，转录层是将循环层的每帧预测转化为最终的标签序列。

本说明书一个实施例中，所述预先构建的文字识别模型可以包括采用下述方式得到：

S20：获取复杂文本信息，所述复杂文本信息包括文本内容和所述文本内容对应的属性信息。

本实施例中，所述获取复杂文本信息可以包括：随机获取预设长度的文本内容；随机指定所述文本内容的属性信息；基于所述文本内容和所述属性信息，生成复杂文本信息。例如一些实施场景中，可以从文本文件中随机截取一个或多个字符作为文本内容，然后从属性文件中随机为文本内容指定属性信息，最后可以将指定属性信息的文本内容作为复杂文本信息。其中，预设长度可以根据实际场景设定，如每次可以截取一个字符，也可以每次截取5个字符等。所述随机截取可以是按照顺序一次截取一个字符，也可以是按照顺序一次截取8个字符，还可以是每间隔3个字符截取7个字符、还可以是随机截取5个字符等，本说明书对此不做限定。需要说明的是，可以预先建立包括文本文件和属性文件的信息库，其中文本文件中均匀地覆盖现有包括生僻字的所有汉字，属性文件中均匀地覆盖现有包括广告字体的所有字体、所有字号、所有颜色、所有图片背景。此外，信息库中还可以包括一些用户自定义的字符、用户自定义的作为背景的图片等。

S22：基于所述属性信息，生成图片信息。

所述属性信息至少包括字体、字号、颜色、图片背景。

本实施例中，所述基于所述属性信息，生成图片信息可以包括：从所述属性信息包括的图片背景中随机截取一块区域作为生成图片的第一背景；将所述复杂文本信息叠加在所述第一背景上，生成第一图片；为所述第一图片添加标签，生成图片信息。例如一些实施场景中，由于已经截取文本内容并为文本内容指定了属性信息，所以可以在指定的属性信息中的图片背景中截取一块区域作为输出图片的背景，然后将随机截取的文本内容按照字体、字号、颜色样式叠加在背景图片上。其中，为了更方便找到相应的图片，可以为所述图片添加标签，所述标签可以是表示序号的一系列字符串。

S24：将所述图片信息输入预先建立的神经网络进行训练，获取训练结果。

S26：基于所述训练结果，对所述神经网络进行校正，获得文字识别模型。

本说明书一个实施例中，由于截取文本内容的方式可以是按照顺序一次截取一个字符，也可以是按照顺序一次截取多个字符，还可以是每间隔预设个字符截取一个或多个字符等，所以基于截取文本内容和指定的属性信息依次生成的图片信息可以适用的范围更广、应用的场景更复杂。因此，利用上述生成的许多图片信息依次对预先建立的神经网络进行训练可以获得适用范围更广、适用场景更复杂的识别模型。例如一些实施场景中，可以基于该模型对广告图片中的文字进行识别，从而可以更加高效快速地对电商中的虚假广告进行拦截。

图2是本说明书提供的一种构建文字识别模型的一个实施例的流程示意图。本实施例中，可以预先建立一个信息库。所述信息库包括文本文件、属性文件，文本文件中包括文本内容，属性文件中包括属性信息。这样，本申请一个实施例中，可以从文本文件中随机截取一段文本内容，从属性文件中随机选择出文本内容需要使用的属性信息，如字体、字号大小、文字颜色以及背景等，将指定属性信息的文本内容作为复杂文本信息叠加在属性信息包括的背景上，生成图片，为所述图片添加标签，生成图片信息，将所述图片信息输入预先建立的卷积循环神经网络进行训练，获取训练结果，基于所述训练结果，对所述神经网络进行校正，获得文字识别模型。需要说明的是，上述文本内容的截取方式以及属性信息的选择方式可以是本领域人员知晓的任意一种方式，如可以通过算法、人工操作等截取文本内容和选择属性信息，对此不作限定。

另一种应用场景中，将图片信息输入预先建立的神经网络进行训练前，可以按照预设方式对所述图片信息进行处理，获取处理后的图片信息。所述预设方式至少包括随机噪点添加、负片处理、高斯模糊、文字扭曲。需要说明的是，预设方式还可以包括其他方式，本说明书对此不做限定。

S4：获取所述文字识别模型输出的文字识别结果。

本说明书一个实施例中，在将所述待识别图片输入到预先构建的文字识别模型中后，可以根据模型输出相应的识别结果。

本说明书实施例中，所述文字识别结果可以是广告图片中包括的字符、商标图片中包括的字符、卡片中包括的字符、通过拍照得到的商品照片中包括的字符，也可以是一些商品的认证图片中包括的字符等。

本说明书实施例提供的一种文字识别的方法，通过随机获取预设长度的文本、随机指定文本的属性构建复杂文本信息后，利用复杂文本信息对预先建立的识别模型进行训练并校正，获得文字识别模型，在需要对复杂文本信息进行识别时，将所述信息输入到该文字识别模型中，可以准确、高效、快捷的实现对复杂文本的识别。这样，在审核验证工作量极大的情况下，可以满足实际业务需求。因此，利用本说明书各个实施例，不仅可以准确、高效、快捷的对复杂文本进行识，提高工作效率，而且也可以极大地降低人为错误给客户和银行带来经济损失的可能性。

本说明书中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参加即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参加方法实施例的部分说明即可。

基于上述所述的一种文字识别的方法，本说明书一个或多个实施例还提供一种文字识别的装置。所述的装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思，本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似，因此本说明书实施例具体的装置的实施可以参见前述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

具体地，图3是本说明书提供的一种文字识别的装置的一个实施例的模块结构示意图，如图3所示，本说明书提供的一种文字识别的装置可以包括：图片获取模块120，输入模块122，结果获取模块124。

图片获取模块120，可以用于获取待识别图片，所述待识别图片至少包括文本内容；

输入模块122，可以用于将所述待识别图片输入到预先构建的文字识别模型中，所述文字识别模型包括基于复杂文本信息的训练样本进行训练得到，所述复杂文本信息包括同一个文本内容中的字符的至少一种属性信息存在不同取值的信息，所述属性信息至少包括字体、字号、颜色、图片背景；

结果获取模块124，可以用于获取所述文字识别模型输出的文字识别结果。

其中，所述装置的一个实施例中，所述预先构建的文字识别模型可以包括：文本信息获取模块130，图片信息生成模块132，训练模块134，模型获得模块136。具体地，如图4所示，图4是本说明书提供的一种构建文字识别模型的一个实施例的模块结构示意图。

文本信息获取模块130，可以用于获取复杂文本信息，所述复杂文本信息包括文本内容和所述文本内容对应的属性信息；

图片信息生成模块132，可以用于基于所述属性信息，生成图片信息；

训练模块134，可以用于将所述图片信息输入预先建立的神经网络进行训练，获取训练结果；

模型获得模块136，可以用于基于所述训练结果，对所述神经网络进行校正，获得文字识别模型。

所述装置的另一个实施例中，所述文本信息获取模块130，可以包括：

文本内容获取单元，可以用于随机获取预设长度的文本内容；

属性信息指定单元，可以用于随机指定所述文本内容的属性信息；

文本信息生成单元，可以用于基于所述文本内容和所述属性信息，生成复杂文本信息。

所述装置的另一个实施例中，所述图片信息生成模块132，可以包括：

背景获取单元，可以用于从所述属性信息包括的图片背景中随机截取一块区域作为生成图片的第一背景；

图片生成单元，可以用于将所述复杂文本信息叠加在所述第一背景上，生成第一图片；

图片信息生成单元，可以用于为所述第一图片添加标签，生成图片信息。

所述装置的另一个实施例中，所述将所述图片信息输入预先建立的神经网络进行训练前，可以包括：

本说明书实施例提供的一种文字识别的装置，通过随机获取预设长度的文本、随机指定文本的属性构建复杂文本信息后，利用复杂文本信息对预先建立的识别模型进行训练并校正，获得文字识别模型，在需要对复杂文本信息进行识别时，将所述信息输入到该文字识别模型中，可以准确、高效、快捷的实现对复杂文本的识别。这样，在审核验证工作量极大的情况下，可以满足实际业务需求。因此，利用本说明书各个实施例，不仅可以准确、高效、快捷的对复杂文本进行识，提高工作效率，而且也可以极大地降低人为错误给客户和银行带来经济损失的可能性。

需要说明的，上述所述的装置根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本说明书实施例还提供一种文字识别的设备，包括处理器及用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括以下步骤：

获取待识别图片，所述待识别图片至少包括文本内容；

获取所述文字识别模型输出的文字识别结果。

需要说明的，上述所述的设备根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本说明书实施例还提供一种文字识别的系统，包括至少一个处理器以及存储计算机可执行指令的存储器，所述处理器执行所述指令时实现上述任意一个或者多个实施例中所述方法的步骤，例如包括：获取待识别图片，所述待识别图片至少包括文本内容；将所述待识别图片输入到预先构建的文字识别模型中，所述文字识别模型包括基于复杂文本信息的训练样本进行训练得到，所述复杂文本信息包括同一个文本内容中的字符的至少一种属性信息存在不同取值的信息，所述属性信息至少包括字体、字号、颜色、图片背景；获取所述文字识别模型输出的文字识别结果。所述的系统可以为单独的服务器，也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例装置的服务器集群、系统(包括分布式系统)、软件(应用)、实际操作装置、逻辑门电路装置、量子计算机等并结合必要的实施硬件的终端装置。

本说明书实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图5是本说明书提供的一种文字识别服务器的一个实施例的硬件结构框图，该服务器可以是上述实施例中的文字识别的装置或文字识别的系统。如图5所示，服务器10可以包括一个或多个(图中仅示出一个)处理器100(处理器100可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器200、以及用于通信功能的传输模块300。本领域普通技术人员可以理解，图5所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器10还可包括比图5中所示更多或者更少的组件，例如还可以包括其他的处理硬件，如数据库或多级缓存、GPU，或者具有与图5所示不同的配置。

存储器200可用于存储应用软件的软件程序以及模块，如本说明书实施例中的文字识别的方法对应的程序指令/模块，处理器100通过运行存储在存储器200内的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器200可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器200可进一步包括相对于处理器100远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输模块300包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块300可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书提供的上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上，所述的存储介质可以计算机读取并执行，实现本说明书实施例所描述方案的效果。

所述存储介质可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括：利用电能方式存储信息的装置如，各式存储器，如RAM、ROM等；利用磁能方式存储信息的装置如，硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置如，CD或DVD。当然，还有其他方式的可读存储介质，例如量子存储器、石墨烯存储器等等。

本说明书实施例提供的上述文字识别的方法或装置可以在计算机中由处理器执行相应的程序指令来实现，如使用windows操作系统的c++语言在PC端实现、linux系统实现，或其他例如使用android、iOS系统程序设计语言在智能终端实现，以及基于量子计算机的处理逻辑实现等。

需要说明的是说明书上述所述的装置、计算机存储介质、系统根据相关方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照对应方法实施例的描述，在此不作一一赘述。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书实施例并不局限于必须是符合行业通信标准、标准计算机数据处理和数据存储规则或本说明书一个或多个实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例，仍然可以属于本说明书实施例的可选实施方案范围之内。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

虽然本说明书一个或多个实施例提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储、石墨烯存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本说明书一个或多个实施例的实施例而已，并不用于限制本本说明书一个或多个实施例。对于本领域技术人员来说，本说明书一个或多个实施例可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在权利要求范围之内。

Claims

1.一种文字识别的方法，其特征在于，包括：

获取待识别图片，所述待识别图片至少包括文本内容；

获取所述文字识别模型输出的文字识别结果。

2.如权利要求1所述的方法，其特征在于，所述预先构建的文字识别模型包括采用下述方式得到：

基于所述属性信息，生成图片信息；

3.如权利要求2所述的方法，其特征在于，所述获取复杂文本信息，包括：

随机获取预设长度的文本内容；

随机指定所述文本内容的属性信息；

基于所述文本内容和所述属性信息，生成复杂文本信息。

4.如权利要求2所述的方法，其特征在于，所述基于所述属性信息，生成图片信息，包括：

为所述第一图片添加标签，生成图片信息。

5.如权利要求2所述的方法，其特征在于，所述将所述图片信息输入预先建立的神经网络进行训练前，包括：

6.一种文字识别的装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述预先构建的文字识别模型包括：

8.如权利要求7所述的装置，其特征在于，所述文本信息获取模块，包括：

文本内容获取单元，用于随机获取预设长度的文本内容；

9.如权利要求7所述的装置，其特征在于，所述图片信息生成模块，包括：

10.如权利要求7所述的装置，其特征在于，所述将所述图片信息输入预先建立的神经网络进行训练前，包括：

11.一种文字识别的设备，其特征在于，包括处理器及用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括以下步骤：

获取待识别图片，所述待识别图片至少包括文本内容；

获取所述文字识别模型输出的文字识别结果。

12.一种文字识别的系统，其特征在于，包括至少一个处理器以及存储计算机可执行指令的存储器，所述处理器执行所述指令时实现权利要求1-5中任意一项所述方法的步骤。