CN112115936A

CN112115936A - 一种用于文本的识别方法、装置、存储介质以及电子设备

Info

Publication number: CN112115936A
Application number: CN202011080497.4A
Authority: CN
Inventors: 李月; 黄光伟
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2020-12-22

Abstract

本公开实施例提供一种用于文本的识别方法、装置、存储介质以及电子设备，所述方法包括采集待识别文本的信息，所述待识别文本的信息至少包括所述待识别文本的第一图片数据和所述待识别文本中所有轨迹点的数据；将所述第一图片数据输入至第一预设网络模型，获取文本框的信息；将所述轨迹点的数据与所述文本框的信息进行匹配，获取匹配后的文本框；将所述匹配后的文本框的第二图片数据和对应的所述轨迹点的数据输入第二预设网络模型，获取识别结果。本公开实施例基于深度学习的手写识别的网络模型，通过对手写文本的图片和轨迹点数据两种输入数据进行了特征融合，提高文本的检测精度，能够适应更灵活的版面排版，达到较高的手写文本的识别准确率。

Description

一种用于文本的识别方法、装置、存储介质以及电子设备

技术领域

本公开涉及文本处理技术领域，特别涉及一种用于文本的识别方法、装置、存储介质以及电子设备。

背景技术

目前现有的手写识别方法，可分为脱机手写识别方法和联机手写识别方法。脱机手写识别是基于手写文字的图片，基于图片数据进行文字识别，支持多场景、任意版面下整图文字中的手写中英文、字母、数字、常见字符的识别，不依赖于笔顺的规范性，但缺点是识别准确率较低，特别是对于字体潦草、模糊等情况；联机手写识别是基于手写设备采集到的序列轨迹点，优点是输入数据带有笔顺信息、识别准确率较高，缺点是仅依赖轨迹点数据难以进行文本行的区分，特别是对于满篇任意版面的书写，因此常常用于单个字或者单行的手写输入数据进行识别。

在一些需要手写识别的应用场景，如电子会议白板上手写后，需要对所有手写文字内容进行识别，可用于文档存档、检索等，为了实现该功能，需要对任意版面下文本行进行有效划分，并且兼顾识别的准确率。

发明内容

有鉴于此，本公开实施例的目的在于提供一种用于文本的识别方法、装置、存储介质以及电子设备，用于解决现有技术中识别准确率较低以及仅依赖轨迹点数据难以进行文本行的区分的问题。

第一方面，本公开实施例提供一种用于文本的识别方法，其包括以下步骤：采集待识别文本的信息，所述待识别文本的信息至少包括所述待识别文本的第一图片数据和所述待识别文本中所有轨迹点的数据；将所述第一图片数据输入至第一预设网络模型，获取文本框的信息；将所述轨迹点的数据与所述文本框的信息进行匹配，获取匹配后的文本框；将所述匹配后的文本框的第二图片数据和对应的所述轨迹点的数据输入第二预设网络模型，获取识别结果。

在一些实施例中，所述轨迹点的数据至少包括所述轨迹点在第一坐标系下的第一坐标信息、所述轨迹点的时间信息、所述轨迹点的状态信息。

在一些实施例中，在所述将所述第一图片数据输入至第一预设网络模型，获取文本框的信息中，所述第一预设网络模型至少包括第一特征提取网络，所述第一特征提取网络包括卷积神经网络、反卷积神经网络、特征融合网络以及多重卷积层，包括以下步骤：通过所述卷积神经网络将所述第一图片数据转换为具有第一分辨率的第一特征图片；通过所述反卷积神经网络将所述第一特征图片转换为具有第二分辨率的第二特征图片，其中，所述第二分辨率大于所述第一分辨率；通过所述特征融合网络将所述第一特征图片的特征与所述第二特征图片的特征进行融合，获取第三特征图片；将所述第三特征图片输入多重卷积层，获取文本框的信息。

在一些实施例中，所述文本框的信息至少包括以下中的至少一种：所述文本框的文本分数、所述文本框的位置信息、所述文本框的姿态信息。

在一些实施例中，所述将所述轨迹点的数据与所述文本框的信息进行匹配，获取匹配后的文本框，包括以下步骤：基于所述轨迹点的数据获取笔画集合；获取所述笔画集合中每个笔画的候选文本框；在所述候选文本框中获取与所述笔画对应的文本框。

在一些实施例中，所述获取所述笔画集合中每个笔画的候选文本框，包括以下步骤：在第一坐标系中获取每个所述文本框的最大外接矩形范围；判断所述笔画集合中每个所述笔画的起点和/或终点是否落在所述最大外接矩形范围内，如果是，则对应的所述文本框为所述笔画的候选文本框。

在一些实施例中，所述在所述候选文本框中获取与所述笔画对应的文本框，包括以下步骤：基于所述候选文本框建立第二坐标系；在所述第二坐标系中获取所述笔画集合中每个所述笔画的起点和/或终点的第二坐标信息；判断所述第二坐标信息是否落在所述候选文本框的范围内，如果是，则确定所述候选文本框为与所述笔画对应的文本框。

在一些实施例中，所述将所述匹配后的文本框的第二图片数据和对应的所述轨迹点的数据输入第二预设网络模型，获取识别结果，包括以下步骤：将所述匹配后的文本框的第二图片数据输入到所述第二特征提取网络以获取第一输出结果，将所述轨迹点的数据输入到第三特征提取网络以获取第二输出结果；将所述第一输出结果和所述第二输出结果输入到数据融合网络，以获取第三输出结果；将所述第三输出结果输入多个长短期记忆网络进行时序特征提取，通过解码获取识别结果。

在一些实施例中，所述将所述匹配后的文本框的第二图片数据输入到所述第二特征提取网络以获取第一输出结果，将所述轨迹点的数据输入到第三特征提取网络以获取第二输出结果之前，还包括：对所述第二图片数据和所述轨迹点的数据进行格式处理。

在一些实施例中，所述格式处理包括以下步骤：基于文本框的信息在所述第一图片数据中获取第二图片数据；将所述第二图片数据转换为预定格式图片数据；将所述轨迹点的数据进行归一化处理和坐标转换处理。

第一方面，本公开实施例提供一种用于文本的识别装置，其包括以下部分：采集模块，其用于采集待识别文本的信息，所述待识别文本的信息至少包括所述待识别文本的第一图片数据和所述待识别文本中所有轨迹点的数据；第一获取模块，其用于将所述第一图片数据输入至第一预设网络模型，获取文本框的信息；第二获取模块，其用于将所述轨迹点的数据与所述文本框的信息进行匹配，获取匹配后的文本框；识别模块，其用于将所述匹配后的文本框的第二图片数据和对应的所述轨迹点的数据输入第二预设网络模型，获取识别结果。

第三方面，本公开实施例提供一种存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述技术方案中任一项所述方法的步骤。

第四方面，本公开实施例提供一种电子设备，至少包括存储器、处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器在执行所述存储器上的计算机程序时实现上述技术方案中任一项所述方法的步骤。

本公开实施例提供一种同时融合手写文本的图片和轨迹点数据两种输入数据的文本识别方法，通过对于手写文本行的检测，利用轨迹点对文本框进行筛选以筛除误检的文本框，进一利用文本框对手写轨迹点进行划分以将文本框与轨迹点进行对应，最后对每个文本框内的手写文本进行识别，通过基于深度学习的手写识别的网络模型，实现对两种输入数据进行了特征融合，进一步提高文本的检测精度，能够适应更灵活的版面排版文字，并可达到较高的手写文本的识别准确率。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开实施例的待识别文本的示意图；

图2示出了本公开实施例的用于文本的识别方法的步骤示意图；

图3示出了本公开实施例的用于文本的识别方法的步骤示意图；

图4示出了本公开实施例的用于文本的识别方法中第一预设网络模型的结构示意图；

图5示出了本公开实施例的用于文本的识别方法的步骤示意图；

图6示出了本公开实施例的用于文本的识别方法的步骤示意图；

图7示出了本公开实施例的用于文本的识别方法中文本框的最大外接矩形范围的示意图；

图8示出了本公开实施例的用于文本的识别方法的步骤示意图；

图9示出了本公开实施例的用于文本的识别方法中第二预设网络模型的示意图；

图10示出了本公开实施例的用于文本的识别方法的步骤示意图；

图11示出了本公开实施例的用于文本的识别方法的步骤示意图；

图12示出了本公开实施例的用于文本的识别方法中第二特征提取网络的示意图；

图13示出了本公开实施例的用于文本的识别装置的结构示意图；

图14示出了本公开实施例的电子设备的结构示意图。

具体实施方式

为了使得本公开的目的、技术方案和优点更加清楚，下面将结合本公开的附图，对本公开的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

为了保持本公开的以下说明清楚且简明，本公开省略了已知功能和已知部件的详细说明。

第一方面，本公开的实施例提供一种用于文本的识别方法，图1示出了本公开实施例涉及的用于文本的识别方法的应用场景，通过本公开实施例期望实现的目标是对用户手写的文本内容中的所有文字信息进行定位和识别，以利于将识别后的手写体的文本内容转换为印刷体的文本版面，从而可以实现文档的存档、检索等功能。本公开实施例涉及的用于文本的识别方法，如图2所示，其具体包括以下步骤：

S101，采集待识别文本的信息，所述待识别文本的信息至少包括所述待识别文本的第一图片数据和所述待识别文本中所有轨迹点的数据。

在本步骤中，采集待识别文本的信息，如图1所示，这里的待识别文本信息可以直接来源于任何能够采集的媒介源，例如电子白板、平板电脑等具有手写功能的电子设备，用户可以通过这些具有手写功能的电子设备进行手写作业，也可以是来自于能够对所述待识别文本的信息进行加工处理的电子设备，例如摄像装置等，这里用于加工处理的电子设备可以获得所述待识别文本信息的图片等各种格式的加工后数据，这里，对于所述待识别文本的信息的来源，本公开在此不做限定。

进一步地，通过采集获取的所述待识别文本的信息至少包括所述待识别文本的第一图片数据和所述待识别文本中所有轨迹点的数据，其中图1示出了所述待识别文本的第一图片数据，此外，当用户例如通过电子设备完成一段文本的手写后，这里所述待识别文本将由手写的各种笔画组成，这里的每个所述笔画都由轨迹点连接组成。

在手写的所述待识别文本在被采集和转换的过程中，所述待识别文本的信息的当前图片数据和所述待识别文本的信息中所有手写的所述轨迹点的数据将被记录并获取，其中，例如可以通过所述电子设备内置的传感器等获取所述待识别文本的第一图片数据和所述待识别文本中所有轨迹点的数据，具体地获取方式可以采用现有技术中任意的方式，在此不再赘述；这里，所述第一图片数据将作为后续用于文本框检测的模型的输入参数，所述第一图片数据和所述轨迹点数据将同时作为后续用于文本识别的模型的输入参数。

进一步地，如上所述，所述待识别文本的内容由所述笔画组成，所述笔画又是通过所述轨迹点组成，因此，这里的所述轨迹点的数据至少包括所述轨迹点在第一坐标系下的第一坐标信息、所述轨迹点的时间信息、所述轨迹点的状态信息，具体地，这里的所述第一坐标系为全局坐标系，所述全局坐标系可以基于所述待识别文本的整体建立，所述轨迹点在第一坐标系下的第一坐标信息可以是在全局坐标系下每个所述轨迹点的x坐标和y坐标，所述轨迹点的时间信息可以是每个所述轨迹点形成的时间戳信息，所述轨迹点的状态信息可以是每个所述轨迹点属于落笔状态还是抬笔状态的信息等，其中，落笔状态可以以0为表示，抬笔状态可以以1为表示。

S102，将所述第一图片数据输入至第一预设网络模型，获取文本框的信息。

在通过上述步骤S101采集待识别文本的信息后，所述待识别文本信息中的所述第一图片数据将被用于文本框检测的模型的输入参数，从而在所述第一图片数据中检测并识别包括文本内容的所述文本框，这里的所述文本框可以是矩形文本框，其用于覆盖所述第一图片数据中的所有文字内容，每个所述文本框可以按照每行/每列的方向圈定字符、单词、短语、短句等文字，具体每个所述文本框圈定的类型和数量可以基于每行/每列的文字内容的构成确定，以确保所述待识别文本中的所有文字内容都被圈定在不同的所述文本框中，以图1为例，一个所述文本框可以用于圈定“a snake”短语；具体地，将所述第一图片数据输入至第一预设网络模型，以获取文本框的信息，其中，这里的所述第一预设网络模型至少包括第一特征提取网络，所述第一特征提取网络用于学习和提取所述待识别文本信息的图片数据中的图像特征，其例如可以基于Resnet的网络结构形成，包括卷积神经网络、反卷积神经网络、特征融合网络以及多重卷积层，如图3所示，具体包括以下步骤：

S201，通过所述卷积神经网络将所述第一图片数据转换为具有第一分辨率的第一特征图片。

在本步骤中，首先通过所述第一特征提取网络中的所述卷积神经网络将所述第一图片数据转换为具有第一分辨率的第一特征图片，具体地，如图4所示，这里的卷积神经网络由Resnet结构中的conv1,pool1,conv2_x,conv3_x,conv4_x,conv5_x操作组成，在一个实施方式中，作为输入的所述第一图片数据具有原始分辨率，当向所述卷积神经网络输入所述第一图片数据时，经过所述卷积神经网络将所述第一图片数据转换为第一特征图片，所述第一特征图片的分辨率转换为所述第一图片数据的原始分辨率的1/32。

S202，通过所述反卷积神经网络将所述第一特征图片转换为具有第二分辨率的第二特征图片，其中，所述第二分辨率大于所述第一分辨率。

在本步骤中，通过第一特征提取网络中的所述反卷积神经网络将所述第一特征图片转换为具有第二分辨率的第二特征图片，其中，所述第二分辨率大于所述第一分辨率；继续如图4所示，这里的所述反卷积神经网络由3个反卷积deconv操作组成，每个deconv操作由一个1X1卷积核和一个上采样操作单元组成，每经过1个deconv操作，特征图片的分辨率将提升2倍，在本实施例中，经过3个deconv操作后，将所述第一特征图片的所述第一分辨率转换为第二分辨率，例如，将具有所述第一图片数据的原始分辨率的1/32的所述第一分辨率转换为具有所述第一图片数据的原始分辨率的1/4的第二分辨率，进而获得通过所述第一特征图片转换的具有所述第二分辨率的所述第二特征图片。

S203，通过所述特征融合网络将所述第一特征图片的特征与所述第二特征图片的特征进行融合，获取第三特征图片。

在通过上述步骤S201和S202分别获取所述第一特征图片和所述第二特征图片之后，在本步骤中，通过第一特征提取网络中的所述特征融合网络将所述第一特征图片的特征与所述第二特征图片的特征进行特征融合，从而获取第三特征图片。这里的特征融合网络采用FPN算法(Feature Pyramid Networks for Object Detection)，所述FPN算法在多个尺度特征上将卷积部分的低层特征与反卷积部分的高层特征相融合，也就是将通过所述卷积神经网络获得的所述第一特征图片的低层特征和通过所述反卷积神经网络获得的所述第二特征图片的高层特征进行特征融合，这样既保留了所述第二特征图片中的细节纹理信息，又体现了所述第一特征图片中的语义信息，还能够融合多个分辨率的尺度以适应不同大小的文字目标的检测，提升检测效果。

S204，将所述第三特征图片输入多重卷积层，获取文本框的信息。

在本步骤中，将通过上述步骤S203获得的经过特征融合的所述第三特征图片输入到多重卷积层以获取所有文本框的信息。这里的所述多重卷积层可以包括3个卷积层，获取的所述文本框的信息不仅包括所述文本框的划分、数量等，更为重要的是，所述文本框的信息至少包括以下中的至少一种：所述文本框的文本分数、所述文本框的位置、所述文本框的姿态，这里的所述文本框的文本分数可以按照预设规则为每个所述文本框设置，例如可以是所述文本框中包含文字的完整度等，这里的所述文本框的姿态例如可以是所述文本框的倾斜角度等。

S103，将所述轨迹点的数据与所述文本框的信息进行匹配，获取匹配后的文本框。

在通过上述步骤S102获取每个所述文本框的信息后，在本步骤中结合手写操作产生的构成笔画的所有所述轨迹点，实现所述轨迹点与所述文本框之间的对应关系的判断以及基于对应关系对于所述文本框进行筛选；具体地，在本步骤中，将所述轨迹点的数据与所述文本框的信息进行匹配，从而实现对所述文本框的筛选，获取匹配后的文本框，如图5所示，包括以下步骤：

S301，基于所述轨迹点的数据获取笔画集合。

在本步骤中，首先需要将所述轨迹点与作为构成文本内容的笔画之间建立关联，这就需要基于所述轨迹点的数据，获取笔画集合，具体地，可以利用所述轨迹点的时间信息(例如所述轨迹点形成的时间戳信息)和状态信息(例如所述轨迹点的抬笔或落笔的状态)进行笔画的确定和划分，这里的笔画是指从开始落笔到抬笔的过程中按时间先后顺序排列的一系列轨迹点组成的对象，基于所述笔画的形成规则将若干所述轨迹点与形成的一个笔画之间进行关联，进一步地可以采用相同步骤获取所有的笔画后形成笔画集合。

S302，获取所述笔画集合中每个笔画的候选文本框。

为了使得所述轨迹点形成的笔画能够与对应的文本框建立对应关系，以便于多所述待识别文本的信息的确定，需要获取所述笔画集合中每个笔画的候选文本框，如图6所示，具体包括以下步骤：

S401，在第一坐标系中获取每个所述文本框的最大外接矩形范围。

在本步骤中，在第一坐标系中获取每个所述文本框的最大外接矩形范围，具体地，如图7所示，这里的第一坐标系是指全局坐标系，将每个所述文本框向全局坐标系进行投影，获取每个所述文本框的最大外接矩形范围即x:[xmin,xmax],y:[ymin,ymax]，这里的所述最大外接矩形范围就是在所述第一坐标系中包括每个所述文本框的最小矩形范围。

S402，判断所述笔画集合中每个所述笔画的起点和/或终点是否落在所述最大外接矩形范围内，如果是，则对应的所述文本框为所述笔画的候选文本框。

在通过上述步骤S401在所述第一坐标系中获取每个所述文本框的最大外接矩形范围之后，依次判断所述笔画组合中每个所述笔画的起点和/或终点是否落在所述最大外接矩形范围内，如果是，则将与所述最大外接矩形范围对应的所述文本框作为所述笔画的候选文本框，当然，每个所述笔画对应的所述候选文本框可以是一个或者多个，进一步地，获取所述笔画集合中所有所述笔画的对应的所有所述候选文本框。

S303，在所述候选文本框中获取与所述笔画对应的文本框。

在通过上述步骤S302获取所述笔画集合中每个笔画的候选文本框之后，然后再具体判断所述笔画的起点和/或终点是否落在所述候选文本框内，从而从所述候选文本框中筛选出与所述笔画对应的文本框，如图8所示，具体包括以下步骤：

S501，基于所述候选文本框建立第二坐标系。

本步骤中，以所述候选文本框为基础建立第二坐标系，用于准确地判断所述笔画的所述轨迹点与所述候选文本框之间的位置关系。

S502，在所述第二坐标系中获取所述笔画集合中每个所述笔画的起点或者终点的第二坐标信息；

在本步骤中，在基于所述候选文本框建立的所述第二坐标系中，将每个所述笔画的起点和/或终点的在所述第一坐标系中的第一坐标信息进行坐标转换，获取作为起点或者终点的轨迹点在所述第二坐标系下的第二坐标信息。

S503，判断所述第二坐标信息是否落在所述候选文本框的范围内，如果是，则确定所述候选文本框为与所述笔画对应的文本框。

在本步骤中，在获取所述笔画中的起点或者终点在所述第二坐标系内的第二坐标信息后，如果这个点的所述第二坐标信息代表的位置落在所述第二坐标系中的所述候选文本框的范围内，则认为对应的所述笔画与所述候选文本框之间产生关联，从而认为所述笔画与所述候选文本框之间存在对应关系，这个所述候选文本框即为所述笔画对应的文本框。当然，如果最终存在一个所述候选文本框没有与任何所述笔画之间建立对应关系，则认为所述候选文本框是误检，将对其进行删除，从而实现对文本框的筛选。

S104，将所述匹配后的文本框的第二图片数据和对应的所述轨迹点的数据输入第二预设网络模型，获取识别结果。

在通过上述步骤S103，将所述轨迹点的数据与所述文本框的信息进行匹配，获取所述匹配后的文本框之后，在本步骤中，将所述匹配后的文本框的第二图片数据和对应的所述轨迹点的数据输入第二预设网络模型，获取识别结果，其中，所述第二预设网络模型如图9所示。

进一步地，在将所述匹配后的文本框的第二图片数据和对应的所述轨迹点的数据输入第二预设网络模型之前，还包括：对所述第二图片数据和所述轨迹点的数据进行格式处理，如图10所示，所述格式处理包括以下步骤：

S601，基于所述匹配后的文本框的信息在所述第一图片数据中获取第二图片数据。

在本步骤中，首先，根据所述匹配后的文本框的信息，例如所述文本框的位置信息从所述第一图片数据中裁剪出所述匹配后的文本框的图片作为所述第二图片数据。

S602，将所述第二图片数据转换为预定格式的图片数据。

在本步骤中，假设所述匹配后的文本框的第二图片数据中所述文本框的宽为w，高为h，如果w>h，即横版书写格式，则通过插值将第二图片数据转换成预定格式的图片数据，例如转换为高度h＝32，w进行等比例变换的图片数据，如果w<h，即竖版书写格式，则通过插值将第二图片数据转换变换成预定格式的图片数据，例如调整为高度w＝32，h进行等比例变换后，逆时针旋转90度转成横向后作为用于输入的图片数据。

S603，将所述轨迹点的数据进行归一化处理和坐标转换处理。

在本步骤中，将所述匹配后的文本框对应的所述轨迹点的数据进行归一化处理和坐标转换处理，具体地，将所有y坐标归一化为0-1的范围内；同时将所有x坐标归一化为0-1的范围内，然后将所有的所述轨迹点坐标进行变换xnew＝y,ynew＝1-x。

在完成对对所述第二图片数据和所述轨迹点的数据进行格式处理后，所述将所述匹配后的文本框的第二图片数据和对应的所述轨迹点的数据输入第二预设网络模型，获取识别结果，如图11所示，包括以下步骤：

S701，将所述匹配后的文本框的第二图片数据输入到所述第二特征提取网络以获取第一输出结果，将所述轨迹点的数据输入到第三特征提取网络以获取第二输出结果；

在本步骤中，将所述匹配后的文本框的第二图片数据输入到所述第二特征提取网络以获取第一输出结果，将所述轨迹点的数据输入到第三特征提取网络以获取第二输出结果，其中，所述第二特征提取网络用于对输入的所述文本框的第二图片数据进行图像特征提取，如图12所示，例如这里的所述第二特征提取网络可以包括多个卷积块(Conv Bloc)，每个卷积块由常规卷积层、基于空洞卷积的深度可分离卷积层等构成，通过这种特征提取网络可以增大模型的感受野，提高模型对图片数据中相似字符的判断能力；所述第三特征提取网络用于对输入的具有手写序列的所述轨迹点的数据进行序列信息特征提取，所述第三特征提取网络例如可以由三层卷积层组成，例如分别是1X1,3X3和1X1的卷积层。

S702，将所述第一输出结果和所述第二输出结果输入到数据融合网络，以获取第三输出结果；

在通过上述步骤S701分别获取所述第一输出结果和所述第二输出结果后，将所述第一输出结果和所述第二输出结果通过例如concat模块合并后输入到数据融合网络中，所述数据融合网络将第一输出结果中的图像特征与所述第二输出结果中的序列特征进行融合以获得第三输出结果，从而使得第三输出结果既包含图片信息又包含笔画的序列信息，这里的数据融合网络例如可以由三层卷积层组成，例如分别是1X1,3X3和1X1。

S703,将所述第三输出结果输入多个长短期记忆网络进行时序特征提取，通过解码获取识别结果。

在通过上述步骤S703获取了既包含图片特征信息又包含笔画中轨迹点的序列特征信息的所述第三输出结果后，将所述第三输出结果输入多个长短期记忆网络(LSTM)中进行时序特征提取，例如这里长短期记忆网络可以是双向长短期记忆网络，网络的个数根据需要识别的文字类别、数量和时间效果进行调整。最后通过解码模块，将输出的预测结果与文字类别对应，从而得到最终的识别结果。

第二方面，本公开的实施例提供一种用于文本的识别装置，图1示出了本公开实施例涉及的用于文本的识别装置的应用场景，通过本公开实施例期望实现的目标是对用户手写的文本内容中的所有文字信息进行定位和识别，以利于将识别后的手写体的文本内容转换为印刷体的文本版面，从而可以实现文档的存档、检索等功能。本公开实施例涉及的用于文本的识别装置，如图13所示，其具体包括采集模块10、第一获取模块20、第二获取模块30以及识别模块40，上述模块的功能对应于本公开第一实施例中的用于文本的识别之间相互耦合，具体地：

采集模块10，其用于采集待识别文本的信息，所述待识别文本的信息至少包括所述待识别文本的第一图片数据和所述待识别文本中所有轨迹点的数据。

这里的待识别文本信息可以直接来源于任何能够采集的媒介源，例如电子白板、平板电脑等具有手写功能的电子设备，用户可以通过这些具有手写功能的电子设备进行手写作业，也可以是来自于能够对所述待识别文本的信息进行加工处理的电子设备，例如摄像装置等，这里用于加工处理的电子设备可以获得所述待识别文本信息的图片等各种格式的加工后数据，这里，对于所述待识别文本的信息的来源，本公开在此不做限定。

进一步地，通过采集获取的所述待识别文本的信息至少包括所述待识别文本的第一图片数据和所述待识别文本中所有轨迹点的数据，当用户例如通过电子设备完成一段文本的手写后，这里所述待识别文本将由手写的各种笔画组成，这里的每个所述笔画都由轨迹点连接组成。

第一获取模块20，其用于将所述第一图片数据输入至第一预设网络模型，获取文本框的信息。

在通过采集模块10采集待识别文本的信息后，所述待识别文本信息中的所述第一图片数据将被用于文本框检测的模型的输入参数，从而在所述第一图片数据中检测并识别包括文本内容的所述文本框，以确保所述待识别文本中的所有内容都体现在所述文本框中；具体地，将所述第一图片数据输入至第一预设网络模型，以获取文本框的信息，其中，这里的所述第一预设网络模型至少包括第一特征提取网络，所述第一特征提取网络用于学习和提取所述待识别文本信息的图片数据中的图像特征，其例如可以基于Resnet的网络结构形成，包括卷积神经网络、反卷积神经网络、特征融合网络以及多重卷积层。

第二获取模块30，其用于将所述轨迹点的数据与所述文本框的信息进行匹配，获取匹配后的文本框。

在通过第一获取模块10获取每个所述文本框的信息后，通过第二获取模块20结合手写操作产生的构成笔画的所有所述轨迹点，实现所述轨迹点与所述文本框之间的对应关系的判断以及基于对应关系对于所述文本框进行筛选；具体地，将所述轨迹点的数据与所述文本框的信息进行匹配，从而实现对所述文本框的筛选，获取匹配后的文本框。

识别模块40，其用于将所述匹配后的文本框的第二图片数据和对应的所述轨迹点的数据输入第二预设网络模型，获取识别结果。

在通过上述第二获取模块30将所述轨迹点的数据与所述文本框的信息进行匹配，获取所述匹配后的文本框之后，通过识别模块40将所述匹配后的文本框的第二图片数据和对应的所述轨迹点的数据输入第二预设网络模型，获取识别结果。

本公开第三方面提供了一种存储介质，该存储介质为计算机可读介质，存储有计算机程序，该计算机程序被处理器执行时实现本公开任意实施例提供的方法，包括如下步骤S11至S14：

S11，采集待识别文本的信息，所述待识别文本的信息至少包括所述待识别文本的第一图片数据和所述待识别文本中所有轨迹点的数据；

S12，将所述第一图片数据输入至第一预设网络模型，获取文本框的信息；

S13，将所述轨迹点的数据与所述文本框的信息进行匹配，获取匹配后的文本框。

S14，将所述匹配后的文本框的第二图片数据和对应的所述轨迹点的数据输入第二预设网络模型，获取识别结果。

计算机程序被处理器执行所述在所述将所述第一图片数据输入至第一预设网络模型，获取文本框的信息时，所述第一预设网络模型至少包括第一特征提取网络，所述第一特征提取网络包括卷积神经网络、反卷积神经网络、特征融合网络以及多重卷积层，具体被处理器执行如下步骤：通过所述卷积神经网络将所述第一图片数据转换为具有第一分辨率的第一特征图片；通过所述反卷积神经网络将所述第一特征图片转换为具有第二分辨率的第二特征图片，其中，所述第二分辨率大于所述第一分辨率；通过所述特征融合网络将所述第一特征图片的特征与所述第二特征图片的特征进行融合，获取第三特征图片；将所述第三特征图片输入多重卷积层，获取文本框的信息。

计算机程序被处理器执行所述将所述轨迹点的数据与所述文本框的信息进行匹配，获取匹配后的文本框时，具体被处理器执行如下步骤：基于所述轨迹点的数据获取笔画集合；获取所述笔画集合中每个笔画的候选文本框；在所述候选文本框中获取与所述笔画对应的文本框。

计算机程序被处理器执行所述获取所述笔画集合中每个笔画的候选文本框时，具体被处理器执行如下步骤：在第一坐标系中获取每个所述文本框的最大外接矩形范围；判断所述笔画集合中每个所述笔画的起点和/或终点是否落在所述最大外接矩形范围内，如果是，则对应的所述文本框为所述笔画的候选文本框。

计算机程序被处理器执行所述在所述候选文本框中获取与所述笔画对应的文本框时，具体被处理器执行如下步骤：基于所述候选文本框建立第二坐标系；在所述第二坐标系中获取所述笔画集合中每个所述笔画的起点和/或终点的第二坐标信息；判断所述第二坐标信息是否落在所述候选文本框的范围内，如果是，则确定所述候选文本框为与所述笔画对应的文本框。

计算机程序被处理器执行所述将所述匹配后的文本框的第二图片数据和对应的所述轨迹点的数据输入第二预设网络模型，获取识别结果时，具体被处理器执行如下步骤：将所述匹配后的文本框的第二图片数据输入到所述第二特征提取网络以获取第一输出结果，将所述轨迹点的数据输入到第三特征提取网络以获取第二输出结果；将所述第一输出结果和所述第二输出结果输入到数据融合网络，以获取第三输出结果；将所述第三输出结果输入多个长短期记忆网络进行时序特征提取，通过解码获取识别结果。

计算机程序被处理器执行所述将所述匹配后的文本框的第二图片数据输入到所述第二特征提取网络以获取第一输出结果，将所述轨迹点的数据输入到第三特征提取网络以获取第二输出结果之前，具体被处理器执行如下步骤：对所述第二图片数据和所述轨迹点的数据进行格式处理，所述格式处理包括基于文本框的信息在所述第一图片数据中获取第二图片数据；将所述第二图片数据转换为预定格式图片数据；将所述轨迹点的数据进行归一化处理和坐标转换处理。

本公开第四方面提供了一种电子设备，该电子设备的结构示意图可以如图13所示，至少包括存储器901和处理器902，存储器901上存储有计算机程序，处理器902在执行存储器901上的计算机程序时实现本公开任意实施例提供的方法。示例性的，电子设备计算机程序步骤如下S21至S24：

S21，采集待识别文本的信息，所述待识别文本的信息至少包括所述待识别文本的第一图片数据和所述待识别文本中所有轨迹点的数据；

S22，将所述第一图片数据输入至第一预设网络模型，获取文本框的信息；

S23，将所述轨迹点的数据与所述文本框的信息进行匹配，获取匹配后的文本框。

S24，将所述匹配后的文本框的第二图片数据和对应的所述轨迹点的数据输入第二预设网络模型，获取识别结果。

处理器在执行存储器上存储的所述在所述将所述第一图片数据输入至第一预设网络模型，获取文本框的信息时，所述第一预设网络模型至少包括第一特征提取网络，所述第一特征提取网络包括卷积神经网络、反卷积神经网络、特征融合网络以及多重卷积层，还执行如下计算机程序：通过所述卷积神经网络将所述第一图片数据转换为具有第一分辨率的第一特征图片；通过所述反卷积神经网络将所述第一特征图片转换为具有第二分辨率的第二特征图片，其中，所述第二分辨率大于所述第一分辨率；通过所述特征融合网络将所述第一特征图片的特征与所述第二特征图片的特征进行融合，获取第三特征图片；将所述第三特征图片输入多重卷积层，获取文本框的信息。

处理器在执行存储器上存储的所述将所述轨迹点的数据与所述文本框的信息进行匹配，获取匹配后的文本框时，还执行如下计算机程序：基于所述轨迹点的数据获取笔画集合；获取所述笔画集合中每个笔画的候选文本框；在所述候选文本框中获取与所述笔画对应的文本框。

处理器在执行存储器上存储的所述获取所述笔画集合中每个笔画的候选文本框时，还执行如下计算机程序：在第一坐标系中获取每个所述文本框的最大外接矩形范围；判断所述笔画集合中每个所述笔画的起点和/或终点是否落在所述最大外接矩形范围内，如果是，则对应的所述文本框为所述笔画的候选文本框。

处理器在执行存储器上存储的所述在所述候选文本框中获取与所述笔画对应的文本框时，还执行如下计算机程序：基于所述候选文本框建立第二坐标系；在所述第二坐标系中获取所述笔画集合中每个所述笔画的起点和/或终点的第二坐标信息；判断所述第二坐标信息是否落在所述候选文本框的范围内，如果是，则确定所述候选文本框为与所述笔画对应的文本框。

处理器在执行存储器上存储的所述将所述匹配后的文本框的第二图片数据和对应的所述轨迹点的数据输入第二预设网络模型，获取识别结果时，还执行如下计算机程序：将所述匹配后的文本框的第二图片数据输入到所述第二特征提取网络以获取第一输出结果，将所述轨迹点的数据输入到第三特征提取网络以获取第二输出结果；将所述第一输出结果和所述第二输出结果输入到数据融合网络，以获取第三输出结果；将所述第三输出结果输入多个长短期记忆网络进行时序特征提取，通过解码获取识别结果。

处理器在执行存储器上存储的所述将所述匹配后的文本框的第二图片数据输入到所述第二特征提取网络以获取第一输出结果，将所述轨迹点的数据输入到第三特征提取网络以获取第二输出结果之前，还执行如下计算机程序：对所述第二图片数据和所述轨迹点的数据进行格式处理，所述格式处理包括基于文本框的信息在所述第一图片数据中获取第二图片数据；将所述第二图片数据转换为预定格式图片数据；将所述轨迹点的数据进行归一化处理和坐标转换处理。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(LAN)、广域网(WAN)、网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述存储介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述存储介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取至少两个网际协议地址；向节点评价设备发送包括至少两个网际协议地址的节点评价请求，其中，节点评价设备从至少两个网际协议地址中，选取网际协议地址并返回；接收节点评价设备返回的网际协议地址；其中，所获取的网际协议地址指示内容分发网络中的边缘节点。

或者，上述存储介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：接收包括至少两个网际协议地址的节点评价请求；从至少两个网际协议地址中，选取网际协议地址；返回选取出的网际协议地址；其中，接收到的网际协议地址指示内容分发网络中的边缘节点。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在乘客计算机上执行、部分地在乘客计算机上执行、作为一个独立的软件包执行、部分在乘客计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到乘客计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

需要说明的是，本公开上述的存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何存储介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

以上对本公开多个实施例进行了详细说明，但本公开不限于这些具体的实施例，本领域技术人员在本公开构思的基础上，能够做出多种变型和修改实施例，这些变型和修改都应落入本公开所要求保护的范围之内。

Claims

1.一种用于文本的识别方法，其特征在于，包括以下步骤：

采集待识别文本的信息，所述待识别文本的信息至少包括所述待识别文本的第一图片数据和所述待识别文本中所有轨迹点的数据；

将所述第一图片数据输入至第一预设网络模型，获取文本框的信息；

将所述轨迹点的数据与所述文本框的信息进行匹配，获取匹配后的文本框；

将所述匹配后的文本框的第二图片数据和对应的所述轨迹点的数据输入第二预设网络模型，获取识别结果。

2.根据权利要求1所述的识别方法，其特征在于，所述轨迹点的数据至少包括所述轨迹点在第一坐标系下的第一坐标信息、所述轨迹点的时间信息、所述轨迹点的状态信息。

3.根据权利要求1所述的方法，其特征在于，在所述将所述第一图片数据输入至第一预设网络模型，获取文本框的信息中，所述第一预设网络模型至少包括第一特征提取网络，所述第一特征提取网络包括卷积神经网络、反卷积神经网络、特征融合网络以及多重卷积层，包括以下步骤：

通过所述卷积神经网络将所述第一图片数据转换为具有第一分辨率的第一特征图片；

通过所述反卷积神经网络将所述第一特征图片转换为具有第二分辨率的第二特征图片，其中，所述第二分辨率大于所述第一分辨率；

通过所述特征融合网络将所述第一特征图片的特征与所述第二特征图片的特征进行融合，获取第三特征图片；

将所述第三特征图片输入多重卷积层，获取文本框的信息。

4.根据权利要求1所述的方法，其特征在于，所述文本框的信息至少包括以下中的至少一种：

所述文本框的文本分数、所述文本框的位置信息、所述文本框的姿态信息。

5.根据权利要求1所述的方法，其特征在于，所述将所述轨迹点的数据与所述文本框的信息进行匹配，获取匹配后的文本框，包括以下步骤：

基于所述轨迹点的数据获取笔画集合；

获取所述笔画集合中每个笔画的候选文本框；

在所述候选文本框中获取与所述笔画对应的文本框。

6.根据权利要求5所述的方法，其特征在于，所述获取所述笔画集合中每个笔画的候选文本框，包括以下步骤：

在第一坐标系中获取每个所述文本框的最大外接矩形范围；

判断所述笔画集合中每个所述笔画的起点和/或终点是否落在所述最大外接矩形范围内，如果是，则对应的所述文本框为所述笔画的候选文本框。

7.根据权利要求5所述的方法，其特征在于，所述在所述候选文本框中获取与所述笔画对应的文本框，包括以下步骤：

基于所述候选文本框建立第二坐标系；

在所述第二坐标系中获取所述笔画集合中每个所述笔画的起点和/或终点的第二坐标信息；

判断所述第二坐标信息是否落在所述候选文本框的范围内，如果是，则确定所述候选文本框为与所述笔画对应的文本框。

8.根据权利要求1所述的方法，其特征在于，所述将所述匹配后的文本框的第二图片数据和对应的所述轨迹点的数据输入第二预设网络模型，获取识别结果，包括以下步骤：

将所述匹配后的文本框的第二图片数据输入到所述第二特征提取网络以获取第一输出结果，将所述轨迹点的数据输入到第三特征提取网络以获取第二输出结果；

将所述第一输出结果和所述第二输出结果输入到数据融合网络，以获取第三输出结果；

将所述第三输出结果输入多个长短期记忆网络进行时序特征提取，通过解码获取识别结果。

9.根据权利要求8所述的方法，其特征在于，所述将所述匹配后的文本框的第二图片数据输入到所述第二特征提取网络以获取第一输出结果，将所述轨迹点的数据输入到第三特征提取网络以获取第二输出结果之前，还包括：对所述第二图片数据和所述轨迹点的数据进行格式处理。

10.根据权利要求8所述的方法，其特征在于，所述格式处理包括以下步骤：

基于文本框的信息在所述第一图片数据中获取第二图片数据；

将所述第二图片数据转换为预定格式图片数据；

将所述轨迹点的数据进行归一化处理和坐标转换处理。

11.一种用于文本的识别装置，其特征在于，包括以下部分：

采集模块，其用于采集待识别文本的信息，所述待识别文本的信息至少包括所述待识别文本的第一图片数据和所述待识别文本中所有轨迹点的数据；

第一获取模块，其用于将所述第一图片数据输入至第一预设网络模型，获取文本框的信息；

第二获取模块，其用于将所述轨迹点的数据与所述文本框的信息进行匹配，获取匹配后的文本框；

识别模块，其用于将所述匹配后的文本框的第二图片数据和对应的所述轨迹点的数据输入第二预设网络模型，获取识别结果。

12.一种存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述方法的步骤。

13.一种电子设备，至少包括存储器、处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器在执行所述存储器上的计算机程序时实现权利要求1至10中任一项所述方法的步骤。