CN113761968A

CN113761968A - 数据处理方法、装置、电子设备及计算机存储介质

Info

Publication number: CN113761968A
Application number: CN202010486511.4A
Authority: CN
Inventors: 李兆海; 王永攀; 何梦超
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2021-12-07

Abstract

本发明实施例提供了一种数据处理方法、装置、电子设备及计算机存储介质，其中，所述数据处理方法包括：获得待处理的文本序列图像；使用至少两个不同结构的文本序列识别模型对所述文本序列图像进行文本序列识别，获得对应的至少两个识别结果；对获得的所述至少两个识别结果进行评估，获得目标识别结果。通过本发明实施例，可以获得更为精准的识别结果。

Description

数据处理方法、装置、电子设备及计算机存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种数据处理方法、装置、电子设备及计算机存储介质。

背景技术

文本序列识别是一种从输入的图像中识别出其包含的文本序列的一种技术，与单文本或单字符识别不同，文本序列识别针对的是从像素序列到文本序列的识别问题。

目前，业界多是基于序列识别模型CRNN(Convolutional Recurrent NeuralNetwork，卷积循环神经网络)来实现文本序列识别。这类识别模型的整体架构较为相似，在此情况下，识别模型的训练效果很大程度上取决于训练数据的数量和质量。由于文本序列识别模型的训练需要海量的训练数据，所以一般利用人工合成的文本序列图像加上真实的文本序列图像来训练模型。而合成的文本序列图像在字体、背景等方面都与真实图像相差较大，导致整体训练效果不佳，文本序列识别结果不够准确。

发明内容

有鉴于此，本发明实施例提供一种数据处理方案，以至少部分解决上述问题。

根据本发明实施例的第一方面，提供了一种数据处理方法，包括：获得待处理的文本序列图像；使用至少两个不同结构的文本序列识别模型对所述文本序列图像进行文本序列识别，获得对应的至少两个识别结果；对获得的所述至少两个识别结果进行评估，获得目标识别结果。

根据本发明实施例的第二方面，提供了另一种数据处理方法，包括：接收客户端发送的、用于请求对文本序列图像进行数据处理的处理请求；根据所述处理请求，获取待处理的文本序列图像；通过如第一方面所述的数据处理方法对所述文本序列图像进行数据处理。

根据本发明实施例的第三方面，提供了一种数据处理装置，包括：第一获取模块，用于获得待处理的文本序列图像；第二获取模块，用于使用至少两个不同结构的文本序列识别模型对所述文本序列图像进行文本序列识别，获得对应的至少两个识别结果；标注模块，用于对获得的所述至少两个识别结果进行评估，获得目标识别结果。

根据本发明实施例的第四方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第二方面所述的数据处理方法对应的操作。

根据本发明实施例的第五方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面所述的数据处理方法。

根据本发明实施例提供的数据处理方案，使用不同结构的至少两个文本序列识别模型对文本序列图像进行文本序列识别，获得相应的识别结果；进而，对获得的识别结果进行评估，确定目标识别结果。一方面，文本序列识别模型可以挖掘文本序列图像中的有效信息，而通过至少两个文本序列识别模型，可以从不同维度得出文本序列识别结果；另一方面，若评估结果一致，则表明至少两个文本序列识别模型的识别结果一致，可以获得更为精准的识别结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1A为根据本发明实施例一的一种数据处理方法的步骤流程图；

图1B为图1A所示实施例中的一种场景示例的示意图；

图2A为根据本发明实施例二的一种数据处理方法的步骤流程图；

图2B为图2A所示实施例中的一种文本序列识别模型的结构示意图；

图2C为图2A所示实施例中的一种数据处理概览图；

图2D为图2A所示实施例中的一种处理结果的分析逻辑示意图；

图3A为根据本发明实施例三的一种数据处理方法的步骤流程图；

图3B为图3A所示实施例中的一种场景示例的示意图；

图4为根据本发明实施例四的一种数据处理装置的结构框图；

图5为根据本发明实施例五的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

实施例一

参照图1A，示出了根据本发明实施例一的一种数据处理方法的步骤流程图。

本实施例的数据处理方法包括以下步骤：

步骤S102：获得待处理的文本序列图像。

文本序列是指按照自然的书写习惯书写的成行或成列的文字或字符或符号等，包含有文本序列的图像即为文本序列图像。本发明实施例中，文本序列图像可以是具有纯色背景(如白底黑字或黑底白字等)的图像，也可以是具有非纯色背景(如具有背景图像等)的图像。

该文本序列图像可以是从原始图像中将文本序列切分下来后形成的图像，但不限于此，也可以是包含文本序列的原始图像。

步骤S104：使用至少两个不同结构的文本序列识别模型对文本序列图像进行文本序列识别，获得对应的至少两个识别结果。

其中，文本序列识别模型可以为任意适当的模型，不同的文本序列模型结构不同即可。不同的文本序列识别模型可以从不同的维度和/或关注点，对文本序列图像进行文本序列识别，由此获得的识别结果可能满足相同的标准，也可能不能满足相同的标准。若满足相同的标准，表明经不同文本序列识别模型识别出的结果相同或相近，结果的一致性程度更高，也更为准确。反之，则说明一致性程度较低，需要进行进一步处理。

在一种可行方式中，对文本序列图像进行的文本序列识别包括：文本序列内容识别、单字置信度识别、整行平均置信度识别。通过上述识别获得的识别结果可以有效表征文本序列的内容及内容准确度的信息。相对应地，识别结果包括：识别出的文本序列内容、文本序列内容中单个文字或字符或符号的置信度、整个文本序列的平均置信度。但不限于此，在实际应用中，本领域技术人员还可以根据实际需求，通过文本序列识别模型进行更多内容的识别，获得更多的识别结果。

步骤S106：对获得的至少两个识别结果进行评估，获得目标识别结果。

其中，对识别结果的评估可以主要用来评估至少两个识别结果之间的差异程度或者一致性程度，差异越小，一致性程度越高，则表明识别结果更为准确。反之，则表明识别结果不足够准确。

在一种可行方式中，对获得的至少两个识别结果进行以下评估至少之一：一致度评估、置信度评估。其中，一致度评估可以用来评估上述至少两个文本序列识别模型对文本序列内容识别的识别结果是否一致；置信度评估可以用来评估至少两个文本序列识别模型输出的单字置信度及整行平均置信度是否满足预设的置信度标准。进而，基于上述一致度评估和/或置信度评估，就可以获得目标识别结果，例如，识别出的文本序列内容是否一致，单字置信度是否均满足一定标准，整行平均置信度是否均满足一定标准，等等。

通过上述过程，使用不同结构的至少两个文本序列识别模型对文本序列图像进行文本序列识别，获得相应的识别结果；进而，对获得的识别结果进行评估，确定目标识别结果。一方面，文本序列识别模型可以挖掘文本序列图像中的有效信息，而通过至少两个文本序列识别模型，可以从不同维度得出文本序列识别结果；另一方面，若评估结果一致，则表明至少两个文本序列识别模型的识别结果一致，可以获得更为精准的识别结果。

获得的目标识别结果可以根据实际需求，应用于不同场景。例如，基于目标识别结果的AR(增强现实)场景，基于目标识别结果的信息搜索、反馈、推荐等等场景中。

在一种可选方式中，该目标识别结果还可用于标注场景，即，在获得目标识别结果之后，还可以根据目标识别结果，为文本序列图像进行标注。

如前所述，由于文本序列识别模型的训练需要海量的训练数据，所以一般利用人工合成的文本序列图像加上真实的文本序列图像来训练模型。而合成的文本序列图像在字体、背景等方面都与真实图像相差较大，除导致文本序列识别结果不够准确外，因人工合成的文本序列图像的训练效果也不及真实图像，因而对真实图像进行标注就显得尤为重要。但是，人工对海量的训练数据都进行标注既不现实，又成本过高。因此，业界亟需一种低标注成本的数据标注方案。又因，采用本发明实施例提供的数据处理方案，通过对至少两个文本序列识别模型的文本序列识别结果进行评估，来获得最终的、较为精准的目标识别结果，并基于该目标识别结果进行文本序列图像的标注。例如，可将文本序列内容作为文本序列图像的内容标注。

以下，以一个示例场景对上述过程进行示例性说明，如图1B所示。

图1B中，假设使用三个结构不同的文本序列识别模型A、B和C，待处理的文本序列图像X中包含有一行文字“示例场景”。首先，获得该文本序列图像X；在获得该文本序列图像X后，将其分别输入文本序列识别模型A、B、C进行文本序列识别。

在一种情况下，如图1B中所示，若文本序列识别模型A输入的识别结果为：文本序列内容为“示例场景”、“示例场景”这四个文字中每个文字的单字置信度均为0.9、整个文本序列“示例场景”的平均置信度也为0.9；文本序列识别模型B输入的识别结果为：文本序列内容为“示例场景”、“示例场景”这四个文字中每个文字的单字置信度分别为0.92、0.94、0.94、0.96、整个文本序列“示例场景”的平均置信度为0.94；文本序列识别模型C输入的识别结果为：文本序列内容为“示例场景”、“示例场景”这四个文字中每个文字的单字置信度均为0.9、整个文本序列“示例场景”的平均置信度也为0.9。则分析可见，(1)三个文本序列识别模型的文本序列内容的识别结果一致；(2)每个文本序列识别模型识别出的单字置信度均大于0.9；(3)每个文本序列识别模型识别出的整个文本序列的平均置信度分别为0.9、0.94和0.9，大于或等于0.9。

基于此，可确定文本序列识别结果统一度较高，可依据结果确定文本序列图像的标注，如，将识别出的文本序列内容作为文本序列图像的内容标注。

需要说明的是，上述多个文本序列识别模型中，以每个文本序列识别模型识别出的单字置信度相同为示例进行简化说明，但本领域技术人员应当明了，在实际应用中，每个字对应的单字置信度可能不同，如文本序列识别模型B中所示。

在另一种情况下(图1B中未示出)，若文本序列识别模型A输入的识别结果为：文本序列内容为“示例场景”、“示例场景”这四个文字中每个文字的单字置信度均为0.4、整个文本序列“示例场景”的平均置信度也为0.4；文本序列识别模型B输入的识别结果为：文本序列内容为“示例汤景”、“示例汤景”这四个文字中每个文字的单字置信度均为0.3、整个文本序列“示例汤景”的平均置信度也为0.3；文本序列识别模型C输入的识别结果为：文本序列内容为“示例场景”、“示例场景”这四个文字中每个文字的单字置信度均为0.6、整个文本序列“示例场景”的平均置信度也为0.6。则分析可见，(1)三个文本序列识别模型的文本序列内容的识别结果不一致；(2)每个文本序列识别模型识别出的单字置信度均大于0.2；(3)每个文本序列识别模型识别出的整个文本序列的平均置信度分别为0.4、0.3和0.6，大于或等于0.3。

基于此，可确定文本序列识别结果统一度较低，无法进行准确分类，可能为困难样本。此种情况下，可向用户提供标注界面或接口，由用户进行人工标注，将人工标注结果作为文本序列图像的标注结果。

在再一种情况下(图1B中未示出)，若文本序列识别模型A输入的识别结果为：文本序列内容为“示例场景”、“示例场景”这四个文字中每个文字的单字置信度均为0.4、整个文本序列“示例场景”的平均置信度也为0.4；文本序列识别模型B输入的识别结果为：文本序列内容为“示例场景”、“示例场景”这四个文字中每个文字的单字置信度均为0.3、整个文本序列“示例场景”的平均置信度也为0.3；文本序列识别模型C输入的识别结果为：文本序列内容为“示例场景”、“示例场景”这四个文字中每个文字的单字置信度均为0.6、整个文本序列“示例场景”的平均置信度也为0.6。则分析可见，(1)三个文本序列识别模型的文本序列内容的识别结果一致；(2)每个文本序列识别模型识别出的单字置信度均大于0.2且置信度较低；(3)每个文本序列识别模型识别出的整个文本序列的平均置信度分别为0.4、0.3和0.6，大于或等于0.3且置信度较低。

此种情况下，虽三个文本序列识别模型对文本内容的识别结果一致，但不管是单字置信度还是整个文本序列的置信度都较低，无法对其进行准确分类，可将其放回训练数据池在后续进行再次标注尝试，以期获得不同结果。

由此，实现对不同情况下对文本序列图像的不同标注处理，且处理结果较为客观、准确。

可见，通过本示例，针对未标注的文本序列图像，使用不同结构的至少两个文本序列识别模型对其进行文本序列识别，获得相应的识别结果；进而，根据获得的识别结果，即可为文本序列图像进行标注。一方面，文本序列识别模型可以挖掘文本序列图像中的有效信息，而通过至少两个文本序列识别模型，可以从不同维度得出文本序列识别结果；另一方面，若文本序列识别结果一致，则据此进行文本序列图像的标注，可以获得更为精准的标注结果；再一方面，该数据处理方案无需人工标注，不仅降低了标注成本，还大大提高了标注效率。

本实施例的数据处理方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、PC机等。

实施例二

参照图2A，示出了根据本发明实施例二的一种数据处理方法的步骤流程图。

本实施例的数据处理方法以对文本序列图像进行标注为示例场景，但如实施例一中所述，本发明实施例提供的方案不限于标注场景。本实施例的数据处理方法包括以下步骤：

步骤S202：获取包含文本序列的原始图像。

本实施例中，包含文本序列的原始图像可以是任意适当的包含有文本序列的图像。在文本序列识别模型的训练数据中，因人工标注的成本问题，在实际应用中，仅有少部分具有人工标注，为文本序列识别模型的训练造成困难。为此，本发明实施例提供了针对该问题的数据处理方案，以实现图像自动标注。

在实际应用中，原始图像可以为任意适当的包含文本序列的图像，除常规文本图像外，还可以为文本表格图像、或者文本合同图像、或者技术文档图像。可见，本发明实施例提供的方案可广泛适用于多种场景，具有较好的兼容性。

另外，具体到本实施例，通过下文步骤S204对原始图像的处理，可以获得文本序列图像，也即，本实施例中的文本序列图像为原始图像的一部分。

步骤S204：获得待处理的文本序列图像。

如上所述，本步骤中的文本序列图像通过对原始图像处理获得。在一种可行方式中，本步骤可以实现为：获得包含有文本序列的原始图像；对原始图像进行文本序列检测，根据检测结果对原始图像进行切分，获得文本序列图像。通过这种方式，可以针对文本序列获得对应的文本序列图像，使得文本序列识别模型的识别更有针对性，处理的数据也更少，不仅提升了识别的准确性，也提高了识别速度和效率。

例如，可以通过一个文本序列检测模块预测原始图像中文本序列的位置，并根据该位置对原始图像进行切分得到文本序列图像。其中，文本序列检测模块可以实现为，诸如TextBoxes文本检测、CTPN文本检测、PixelLink文本检测等。

步骤S206：使用至少两个不同结构的文本序列识别模型对所述文本序列图像进行文本序列识别，获得对应的至少两个识别结果。

本实施例中，设定使用三个不同结构的文本序列识别模型，以保证识别结果的客观性，和后续投票分类的准确性。

文本序列识别模型多实现为基于卷积神经网络结构结合双向长短时记忆网络结构和基于时序分类的解码器的模型结构，本实施例中的三个文本序列识别模型也基于该模型结构。通过这种模型结构，可以有效识别文本序列序列。基于这种结构的模型可以实现为CNN+BLSTM+CTC的结构，或者，实现为CNN+BLSTM+ATTENTION的结构。其中，CNN+BLSTM+CTC的结构对中文的文本序列序列的识别结果更好。

上述结构中，CNN(卷积神经网络)部分主要用于特征提取，BLSTM(双向长短时记忆网络)部分基于CNN的特征提取的结果实现文本序列识别，CTC解码器则可用于文本对齐。其中，BLSTM通过预测概率值来确定当前位置对应的最终文本，其输出包括最终确定的文本及该文本对应的概率值，该概率值即可作为本发明实施例中的单字置信度，而整个文本序列的平均置信度则可基于对文本序列中的所有文字的单字置信度求和后取平均获得。

可选地，上述卷积神经网络结构可以实现为以下之一：VGG网络、ResNet网络、Inception网络、DenseNet网络。如上所述，基于时序分类的解码器可以实现为以下之一：CTC解码器、Attention解码器。

上述各种网络的结构可与参考相关技术中的结构描述，在此不再赘述。示例性地，本实施例中的一种文本序列识别模型的结构如图2B所示，该结构由CNN部分、BLSTM部分和CTC部分依次连接而成，内容为“SANTOSA”的文本序列图像输入图2B所示模型结构中后，识别出文本序列内容“SANTOSA”。

但不限于此，本实施例中，通过不同结构的文本序列识别模型对文本序列图像进行的文本序列识别可以包括文本序列内容的识别和文本序列中每个文本的单字置信度的识别。可选地，在获得单字置信度后，还可以基于单字置信度，获得整个文本序列的整行平均置信度，即，文本序列每个文本的单字置信度的总和的平均值。通过这些识别结果，可以获得文本序列图像的有效识别信息。

例如，在获取文本序列图像之后，使用三个文本序列识别模型对文本序列图像进行文本序列识别，来预测文本序列内容和相应的单字置信度，三个文本序列识别模型都是采用CNN+BLSTM+CTC的结构，不同的是CNN结构分别选用了VGG、ResNet和Inception，即，三种结构分别为：VGG+BLSTM+CTC的结构、ResNet+BLSTM+CTC的结构、和Inception+BLSTM+CTC的结构,以通过不同的结构来获取更加多样的文本特征，为置信度分析提供更丰富的信息。

步骤S208：对获得的至少两个识别结果进行进行评估，获得目标识别结果。

本实施例中，所述评估包括一致度评估和置信度评估，但本领域技术人员应当明了的是，在实际应用中，可以根据需要仅选择其中一种使用。

此外，为了使用户能够更有效更灵活地获得目标识别结果，在一种可行方式中，在获得至少两个识别结果后，可以接收用户对所述至少两个识别结果的选择操作，根据所述选择操作对所述至少两个识别结果进行评估，获得目标识别结果。此种情况下，向用户提供有展示界面，通过展示界面向用户展示获得的识别结果，并通过该展示界面接收用户对至少两个识别结果的选择操作，也即，将对至少两个识别结果的评估实现为用户的选择操作，以用户选择的识别结果为目标识别结果。由此，实现了满足用户需求的目标识别结果确定。

步骤S210：根据目标识别结果，为文本序列图像进行标注。

例如，在第一种情况下，若目标识别结果指示至少两个识别结果一致，且各识别结果指示的置信度均大于第一预设阈值，则使用识别结果为文本序列图像进行标注。这种情况表明多个文本序列识别模型的识别结果一致度较高，识别结果较为准确，据此为文本序列图像进行标注，可实现海量文本序列图像的自动标注，提高了标注效率。

其中，第一预设阈值可以由本领域技术人员根据实际情况适当设置，可选地，第一预设阈值可以包括：用于指示单字置信度的第一子阈值，和，用于指示文本序列平均置信度的第二子阈值。

例如，若VGG+BLSTM+CTC的结构、ResNet+BLSTM+CTC的结构、和Inception+BLSTM+CTC的结构对文本序列图像的文本序列内容识别结果均一致，如均为“示例场景”，且，三种结构输出的文本序列的单字置信度均大于0.8(第一子阈值)，三种结构输出的文本序列的整行平均置信度均大于0.9(第二子阈值)。则，此种情况下，可使用识别结果为文本序列图像进行标注。例如，将识别出的文本序列内容作为文本序列图像的内容标注。

在第二种情况下，若目标识别结果指示至少两个识别结果不一致，且各识别结果指示的置信度均小于或等于第一预设阈值且大于第二预设阈值，则根据用户输入的标注数据为文本序列图像进行标注。通过这种方式，可以有效区分出困难样本，即不能正常分类或很难分类的图像样本，以进行后续处理，通过用户输入的标注数据对其进行有效标注。

其中，第二预设阈值也可以由本领域技术人员根据实际情况和第一预设阈值的设置情况适当设置，可选地，第二预设阈值包括：用于指示单字置信度的第三子阈值，和，用于指示文本序列平均置信度的第四子阈值。

例如，若VGG+BLSTM+CTC的结构、ResNet+BLSTM+CTC的结构、和Inception+BLSTM+CTC的结构对文本序列图像的文本序列内容识别结果不一致，如VGG+BLSTM+CTC的结构和ResNet+BLSTM+CTC的结构识别出的文本序列内容为“示例场景”，而Inception+BLSTM+CTC的结构识别出的文本序列内容为“示例汤景”；并且，三种结构输出的文本序列的单字置信度均大于0.2(第三子阈值)且小于等于0.8(第一子阈值)，三种结构输出的文本序列的整行平均置信度均大于0.4(第四子阈值)且小于等于0.9(第二子阈值)。则，此种情况下，可将文本序列图像确定为困难样本，由人工进行标注，以获得准确的标注数据。

此外，该第二种情况下，在用户已对文本序列图像进行了标注后，还可使用前述至少两个不同结构的文本序列识别模型(如前述三种结构的文本序列识别模型)重新对具有用户输入的标注数据的文本序列图像进行文本序列识别；根据识别结果与用户输入的标注数据的差异，对前述至少两个不同结构的文本序列识别模型中的部分或全部模型进行参数训练。由此可见，本发明实施例中的文本序列识别模型的训练阶段和应用阶段并没有明显的界限，也即，本发明实施例中的文本序列识别模型一边进行应用识别一边更新自身的参数，以提升自身的识别能力，提高识别结果的准确性。随着文本序列识别模型自身识别能力的提高，后续需要进行人工标注的图像及放回数据池重新进行识别的图像将越来越少，文本序列图像的自动标注将越来越多，可有效提升文本序列图像的自动标注效率。

除上述第一种情况和第二种情况外的情况均可被划分为其它情况，将属于其它情况的文本序列图像返回数据池，在后续进行重新识别和标注处理。

在其它情况中，存在第三种情况，即若目标识别结果指示至少两个识别结果一致，且各识别结果指示的置信度均小于或等于第一预设阈值且大于第二预设阈值，则使用至少两个不同结构的文本序列识别模型对文本序列图像重新进行文本序列识别和标注。此种情况下的文本序列图像既非被精准识别的图像也非困难图像，因此可放回数据池中，待下次重新使用所述多个文本序列识别模型重新进行识别和标注，以保证识别准确性和标注准确性，并使得多个文本序列识别模型得到进一步的训练。

通过上述过程，采用多个结构不同的文本序列识别模型来挖掘文本序列图像中的有效信息，一方面对能够准确识别的文本序列图像进行精准标注，另一方面可挖掘出对文本序列识别模型训练有帮助的困难样本来进行人工标注。实现为通过较低的成本构建一个文本序列图像训练集，大幅提高了文本序列识别模型的效果。又因其可广泛应用于各种文本序列图像，因此将大大丰富文本序列识别模型的训练数据集，从而提升文本序列识别模型的识别效果。

此外，在另一应用场景中，在获得目标识别结果之后，还可以将目标识别结果与预设内容进行比较，获得比较结果。其中，预设内容为本领域技术人员根据实际需求设置的任意适当内容。例如，若文本序列图像为盗版的截屏小说图像，则可将目标识别结果与正规小说的小说内容进行比较，获得比较结果，若比较结果一致，则可确定文本序列图像为违规盗版内容图像，进而，可进行相应的处理，如报警提示或者向相关地址举报等等。

以下，以一个具体示例场景对上述过程进行示例性说明，如图2C所示。

本示例中，分别选择VGG+BLSTM+CTC的结构(图2C中标示为文本序列识别模型A)、ResNet+BLSTM+CTC的结构(图2C中标示为文本序列识别模型B)、和Inception+BLSTM+CTC的结构(图2C中标示为文本序列识别模型C)的三种文本序列识别模型。

对于包含文本序列的原始图像，首先通过一个文本序列检测模块预测原始图像中文本序列的位置，并根据该位置对原始图像进行切分得到文本序列图像。在获取文本序列图像之后，使用文本序列识别模型A、B和C来预测文本序列图像中的文本序列内容和相应的单字置信度。在分别获得了文本序列识别模型A、B和C的识别结果，包括识别出的文本序列内容、单字置信度，并依据单字置信度获得整个文本序列(如整行)平均置信度之后，可以通过图2C中所示的置信度分析模型对三个模型输出的三个识别结果进行分析处理，获得处理结果。结合图2D中所示的置信度分析模型的处理逻辑，根据识别结果可将文本序列图像和识别结果分为三部分：(1)可以使用识别结果进行精准预标注的文本序列图像：如图2D中最上面一行所示，此种可直接将文本序列识别模型的识别结果作为文本序列图像的标注，再将增加了标注的文本序列图像加入训练集中，以备后续训练文本序列识别模型使用；(2)有价值的困难样本(文本序列图像)：如图2D中的中间一行所示，此种需进行人工标注，然后将人工标注后的文本序列图像加入到训练集中，以备后续训练文本序列识别模型使用；(3)其他文本序列图像：如图2D中的最下面一行所示，不属于(1)和(2)的都可划归为此种情况，可将文本序列图像返回到数据池中，下一轮迭代模型更新后，进一步挖掘这部分图像。通过上述方式对大量文本序列图像进行挖掘，可以得到一个大规模的文本序列图像训练集，一方面，这些图像可以用来训练线上所需的文本序列识别模型，另一方面，可以使用这些文本序列图像来更新三个文本序列识别模型，然后继续挖掘图像，形成一个自动化挖掘流程，低成本地获得源源不断的训练数据。

由上可见，通过多个文本序列识别模型的识别结果，来对未进行过标注的文本序列图像进行精准标注，同时挖掘出有价值的困难样本进行人工标注，可以大幅降低获取文本序列图像训练数据的成本。此外，还可以实现文本序列图像的自动挖掘和文本序列识别模型迭代的自动化更新流程，可以自动地从新产生的图像和识别结果来标注文本序列图像，进而来训练文本序列识别模型，更新后的文本序列识别模型又能进一步挖掘到更丰富的图像样本。整套流程能在极少人工干涉的前提下实现文本序列识别模型的迭代升级，提高了模型开发的效率。

实施例三

参照图3A，示出了根据本发明实施例三的一种数据处理方法的步骤流程图。

本实施例中，以通过服务端(如云端或服务器或SaaS平台)对文本序列图像进行识别和标注为例，对本发明实施例提供的数据处理方法进行说明。

本实施例的数据处理方法包括以下步骤：

步骤S302：接收客户端发送的、用于请求对文本序列图像进行数据处理的处理请求。

其中，所述处理请求可以为任意适当形式的请求。

步骤S304：根据处理请求，获取待处理的文本序列图像。

其中，所述待处理的文本序列图像可以为前述包含有文本序列的原始图像，也可以为前述文本序列图像。

在一种可行方式中，在通过SaaS(Software-as-a-Service)平台接收客户端的处理请求时，可以根据所述处理请求，从SaaS平台本地获取待处理的文本序列图像。此种情况下，SaaS平台本地存储有文本序列图像，则可直接获得，由此可提高数据处理的速度和效率。

在另一种可行方式中，在通过SaaS平台接收客户端的处理请求时，可以由SaaS平台根据所述处理请求，从第三方采集待处理的文本序列图像。如通过网络从第三方网站或从第三方应用提供的数据接口获取文本序列图像。此种情况下，SaaS平台通过第三方获得文本序列图像，无需本地存储，节省了SaaS平台的存储资源。

在再一种可行方式中，在通过SaaS平台接收客户端的处理请求时，可以由SaaS平台根据所述处理请求，从所述客户端获取文本序列图像。此种情况下，在客户端中存储有文本序列图像，SaaS平台从客户端获得文本序列图像，可以获得更符合客户端需求的数据处理结果。

步骤S306：对待处理的文本序列图像进行数据处理。

例如，可以通过实施例一或二中所述的数据处理方法对文本序列图像进行数据处理，在此不再赘述。

以下，以通过SaaS平台进行数据处理为示例，对上述过程进行示例性说明，如图3B所示。

图3B中，Saas中部署有多个(两个及两个以上)不同结构的文本序列识别模型，若客户端向SaaS平台发送处理请求，则SaaS平台在接收到该处理请求后，先由处理设备从本地第一存储设备中获取待处理的文本序列图像；然后，SaaS平台通过多种不同结构的文本序列识别模型对获取的文本序列图像进行文本序列识别，并对多个模型输出的多个识别结果进行评估，以获得目标识别结果。此外，本示例中，在获得目标识别结果后，还对文本序列图像进行标注，或者，若发现困难样本则发送回客户端由用户进行人工标注，或者，放回数据池中在后续重新进行识别和标注；SaaS平台将标注完成的文本序列图像存储入本地的第二存储设备中。SaaS平台在完成本次获取的文本序列图像的数据处理后，会向客户端发送处理完成消息。

以上，以通过SaaS平台进行标注为例，但本领域技术人员应当明了，对于其它形式的服务端的情况，同样适用地本实施例的方案。

可见，通过本实施例，由服务端根据客户端的数据处理请求，调用文本序列识别模型进行文本序列图像的数据处理和标注，实现了对客户端资源或性能无要求条件下的文本序列准确识别和文本序列图像标注，保证了处理和标注的效果和效率。

本实施例的数据处理方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、和PC机等。

实施例四

参照图4，示出了根据本发明实施例四的一种数据处理装置的结构框图。

本实施例的数据处理装置包括：第一获取模块402，用于获得待处理的文本序列图像；第二获取模块404，用于使用至少两个不同结构的文本序列识别模型对所述文本序列图像进行文本序列识别，获得对应的至少两个识别结果；评估模块406，用于对获得的所述至少两个识别结果进行评估，获得目标识别结果。

可选地，评估模块406，用于对获得的所述至少两个识别结果进行以下评估至少之一：一致度评估、置信度评估，获得目标识别结果。

可选地，本实施例的数据处理装置还包括：标注模块408，用于根据目标识别结果，为所述文本序列图像进行标注。

可选地，标注模块408，用于若处理结果指示所述至少两个识别结果一致，且各识别结果指示的置信度均大于第一预设阈值，则使用识别结果为所述文本序列图像进行标注。

可选地，标注模块408，用于若目标识别结果指示所述至少两个识别结果不一致，且各识别结果指示的置信度均小于或等于第一预设阈值且大于第二预设阈值，则根据用户输入的标注数据为所述文本序列图像进行标注。

可选地，所述装置还包括：再训练模块410，用于使用所述至少两个不同结构的文本序列识别模型重新对具有所述用户输入的标注数据的文本序列图像进行文本序列识别；根据识别结果与所述用户输入的标注数据的差异，对所述至少两个不同结构的文本序列识别模型中的部分或全部模型进行参数训练。

可选地，标注模块408，用于若目标识别结果指示所述至少两个识别结果一致，且各识别结果指示的置信度均小于或等于第一预设阈值且大于第二预设阈值，则使用所述至少两个不同结构的文本序列识别模型对所述文本序列图像重新进行文本序列识别和标注。

可选地，所述第一预设阈值包括：用于指示单字置信度的第一子阈值，和，用于指示文本序列平均置信度的第二子阈值；所述第二预设阈值包括：用于指示单字置信度的第三子阈值，和，用于指示文本序列平均置信度的第四子阈值。

可选地，所述至少两个不同结构的文本序列识别模型均为：基于卷积神经网络结构结合双向长短时记忆网络结构和基于时序分类的解码器的模型。

可选地，所述卷积神经网络结构包括以下之一：VGG网络、ResNet网络、Inception网络、DenseNet网络；和/或，所述基于时序分类的解码器包括以下之一：CTC解码器、Attention解码器。

可选地，第一获取模块402，用于获得包含有文本序列的原始图像；对所述原始图像进行文本序列检测，根据检测结果对所述原始图像进行切分，获得所述文本序列图像。

可选地，所述包含有文本序列的原始图像包括以下之一：文本表格图像、文本合同图像、技术文档图像。

可选地，评估模块406，用于接收用户对所述至少两个识别结果的选择操作，根据所述选择操作获得目标识别结果。

可选地，评估模块406，还用于将所述目标识别结果与预设内容进行比较，获得比较结果。

本实施例的数据处理装置用于实现前述多个方法实施例中相应的数据处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的数据处理装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例五

参照图5，示出了根据本发明实施例五的一种电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图5所示，该电子设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它电子设备或服务器进行通信。

处理器502，用于执行程序510，具体可以执行上述数据处理方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作：获得待处理的文本序列图像；使用至少两个不同结构的文本序列识别模型对所述文本序列图像进行文本序列识别，获得对应的至少两个识别结果；对获得的所述至少两个识别结果进行评估，获得目标识别结果。

在一种可选的实施方式中，程序510还用于使得处理器502在对获得的所述至少两个识别结果进行评估，获得目标识别结果时：对获得的所述至少两个识别结果进行以下评估至少之一：一致度评估、置信度评估，获得目标识别结果

在一种可选的实施方式中，程序510还用于使得处理器502在获得目标识别结果之后，根据目标识别结果，为所述文本序列图像进行标注。

在一种可选的实施方式中，程序510还用于使得处理器502在根据目标识别结果，为所述文本序列图像进行标注时：若目标识别结果指示所述至少两个识别结果一致，且各识别结果指示的置信度均大于第一预设阈值，则使用识别结果为所述文本序列图像进行标注。

在一种可选的实施方式中，程序510还用于使得处理器502在根据目标识别结果，为所述文本序列图像进行标注时：若目标识别结果指示所述至少两个识别结果不一致，且各识别结果指示的置信度均小于或等于第一预设阈值且大于第二预设阈值，则根据用户输入的标注数据为所述文本序列图像进行标注。

在一种可选的实施方式中，程序510还用于使得处理器502使用所述至少两个不同结构的文本序列识别模型重新对具有所述用户输入的标注数据的文本序列图像进行文本序列识别；根据识别结果与所述用户输入的标注数据的差异，对所述至少两个不同结构的文本序列识别模型中的部分或全部模型进行参数训练。

在一种可选的实施方式中，程序510还用于使得处理器502在根据目标识别结果，为所述文本序列图像进行标注时：若目标识别结果指示所述至少两个识别结果一致，且各识别结果指示的置信度均小于或等于第一预设阈值且大于第二预设阈值，则使用所述至少两个不同结构的文本序列识别模型对所述文本序列图像重新进行文本序列识别和标注。

在一种可选的实施方式中，所述第一预设阈值包括：用于指示单字置信度的第一子阈值，和，用于指示文本序列平均置信度的第二子阈值；所述第二预设阈值包括：用于指示单字置信度的第三子阈值，和，用于指示文本序列平均置信度的第四子阈值。

在一种可选的实施方式中，所述至少两个不同结构的文本序列识别模型均为：基于卷积神经网络结构结合双向长短时记忆网络结构和基于时序分类的解码器的模型。

在一种可选的实施方式中，所述卷积神经网络结构包括以下之一：VGG网络、ResNet网络、Inception网络、DenseNet网络；和/或，所述基于时序分类的解码器包括以下之一：CTC解码器、Attention解码器。

在一种可选的实施方式中，程序510还用于使得处理器502在获得待处理的文本序列图像时：获得包含有文本序列的原始图像；对所述原始图像进行文本序列检测，根据检测结果对所述原始图像进行切分，获得所述文本序列图像。

在一种可选的实施方式中，所述包含有文本序列的原始图像包括以下之一：文本表格图像、文本合同图像、技术文档图像。

在一种可选的实施方式中，程序510还用于使得处理器502在对获得的所述至少两个识别结果进行评估，获得目标识别结果时：接收用户对所述至少两个识别结果的选择操作，根据所述选择操作获得目标识别结果。

在一种可选的实施方式中，程序510还用于使得处理器502在所述对获得的所述至少两个识别结果进行评估，获得目标识别结果之后，将所述目标识别结果与预设内容进行比较，获得比较结果。

程序510中各步骤的具体实现可以参见上述数据处理方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的电子设备，使用不同结构的至少两个文本序列识别模型对文本序列图像进行文本序列识别，获得相应的识别结果；进而，对获得的识别结果进行评估，确定目标识别结果。一方面，文本序列识别模型可以挖掘文本序列图像中的有效信息，而通过至少两个文本序列识别模型，可以从不同维度得出文本序列识别结果；另一方面，若评估结果一致，则表明至少两个文本序列识别模型的识别结果一致，可以获得更为精准的识别结果。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的数据处理方法。此外，当通用计算机访问用于实现在此示出的数据处理方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的数据处理方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种数据处理方法，包括：

获得待处理的文本序列图像；

使用至少两个不同结构的文本序列识别模型对所述文本序列图像进行文本序列识别，获得对应的至少两个识别结果；

对获得的所述至少两个识别结果进行评估，获得目标识别结果。

2.根据权利要求1所述的方法，其中，所述对获得的所述至少两个识别结果进行评估，获得目标识别结果，包括：

对获得的所述至少两个识别结果进行以下评估至少之一：一致度评估、置信度评估，获得目标识别结果。

3.根据权利要求2所述的方法，其中，在所述获得目标识别结果之后，所述方法还包括：

根据目标识别结果，为所述文本序列图像进行标注。

4.根据权利要求3所述的方法，其中，所述根据目标识别结果，为所述文本序列图像进行标注，包括：

若目标识别结果指示所述至少两个识别结果一致，且各识别结果指示的置信度均大于第一预设阈值，则使用识别结果为所述文本序列图像进行标注。

5.根据权利要求3所述的方法，其中，所述根据目标识别结果，为所述文本序列图像进行标注，包括：

若目标识别结果指示所述至少两个识别结果不一致，且各识别结果指示的置信度均小于或等于第一预设阈值且大于第二预设阈值，则根据用户输入的标注数据为所述文本序列图像进行标注。

6.根据权利要求5所述的方法，其中，所述方法还包括：

使用所述至少两个不同结构的文本序列识别模型重新对具有所述用户输入的标注数据的文本序列图像进行文本序列识别；

根据识别结果与所述用户输入的标注数据的差异，对所述至少两个不同结构的文本序列识别模型中的部分或全部模型进行参数训练。

7.根据权利要求3所述的方法，其中，所述根据目标识别结果，为所述文本序列图像进行标注，包括：

若目标识别结果指示所述至少两个识别结果一致，且各识别结果指示的置信度均小于或等于第一预设阈值且大于第二预设阈值，则使用所述至少两个不同结构的文本序列识别模型对所述文本序列图像重新进行文本序列识别和标注。

8.根据权利要求5-7任一项所述的方法，其中，

所述第一预设阈值包括：用于指示单字置信度的第一子阈值，和，用于指示文本序列平均置信度的第二子阈值；

所述第二预设阈值包括：用于指示单字置信度的第三子阈值，和，用于指示文本序列平均置信度的第四子阈值。

9.根据权利要求1所述的方法，其中，所述至少两个不同结构的文本序列识别模型均为：基于卷积神经网络结构结合双向长短时记忆网络结构和基于时序分类的解码器的模型。

10.根据权利要求9所述的方法，其中，

所述卷积神经网络结构包括以下之一：VGG网络、ResNet网络、Incepti on网络、DenseNet网络；

和/或，

所述基于时序分类的解码器包括以下之一：CTC解码器、Attent i on解码器。

11.根据权利要求1所述的方法，其中，所述获得待处理的文本序列图像，包括：

获得包含有文本序列的原始图像；

对所述原始图像进行文本序列检测，根据检测结果对所述原始图像进行切分，获得所述文本序列图像。

12.根据权利要求11所述的方法，其中，所述包含有文本序列的原始图像包括以下之一：文本表格图像、文本合同图像、技术文档图像。

13.根据权利要求1所述的方法，其中，所述对获得的所述至少两个识别结果进行评估，获得目标识别结果，包括：

接收用户对所述至少两个识别结果的选择操作，根据所述选择操作获得目标识别结果。

14.根据权利要求1所述的方法，其中，在所述对获得的所述至少两个识别结果进行评估，获得目标识别结果之后，所述方法还包括：

将所述目标识别结果与预设内容进行比较，获得比较结果。

15.一种数据处理方法，包括：

接收客户端发送的、用于请求对文本序列图像进行数据处理的处理请求；

根据所述处理请求，获取待处理的文本序列图像；

通过如权利要求1-14中任一项所述的数据处理方法对所述文本序列图像进行数据处理。

16.根据权利要求15所述的方法，其中，所述根据所述处理请求，获取待处理的文本序列图像，包括：

根据所述处理请求，从SaaS平台本地获取待处理的文本序列图像；

或者，

根据所述处理请求，由SaaS平台从第三方获取待处理的文本序列图像；

或者，

根据所述处理请求，由SaaS平台从所述客户端获取待处理的文本序列图像。

17.一种数据处理装置，包括：

第一获取模块，用于获得待处理的文本序列图像；

第二获取模块，用于使用至少两个不同结构的文本序列识别模型对所述文本序列图像进行文本序列识别，获得对应的至少两个识别结果；

评估模块，用于对获得的所述至少两个识别结果进行评估，获得目标识别结果。

18.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-14中任一项，或者，执行如权利要求15-16中任一项所述的数据处理方法对应的操作。

19.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-14中任一项，或者，实现如权利要求15-16中任一项所述的数据处理方法。