CN111914822B

CN111914822B - 文本图像标注方法、装置、计算机可读存储介质及设备

Info

Publication number: CN111914822B
Application number: CN202010718218.6A
Authority: CN
Inventors: 邓茜萌; 李玉林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2023-11-17
Anticipated expiration: 2040-07-23
Also published as: CN111914822A

Abstract

本申请提供一种文本图像标注方法、文本图像标注装置、计算机可读存储介质及电子设备；涉及计算机技术领域；展示包含文本区域的待处理图像；当检测到针对待处理图像的框选操作时，根据框选操作从待处理图像中确定目标文本区域；根据检测到的语音输入操作采集音频信号，并将音频信号转换为字符序列；根据字符序列生成对目标文本区域的文本标注结果。可见，实施本申请的技术方案，可以通过采集音频以及音频转文字的方式简化人工输入文字的工作，进而可以提升样本的标注效率。

Description

文本图像标注方法、装置、计算机可读存储介质及设备

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种文本图像标注方法、文本图像标注装置、计算机可读存储介质及电子设备。

背景技术

随着计算机技术的不断发展，可以通过训练得到的神经网络模型实现图像识别、文字识别、语音识别等功能。一般来说，在模型训练之前，通常需要准备大量的数据样本，以供模型参数调整，而数据样本一般是由人工进行标注的。对于文字识别领域而言，通过人工标注样本就意味着，需要人工进行大量的文字输入工作，而这样容易造成样本标注效率较低的问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本申请的目的在于提供一种文本图像标注方法、文本图像标注装置、计算机可读存储介质及电子设备，可以通过采集音频以及音频转文字的方式简化人工输入文字的工作，进而可以提升样本的标注效率。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请的一方面，提供一种文本图像标注方法，包括：

展示包含文本区域的待处理图像；

当检测到针对待处理图像的框选操作时，根据框选操作从待处理图像中确定目标文本区域；

根据检测到的语音输入操作采集音频信号，并将音频信号转换为字符序列；

根据字符序列生成对目标文本区域的文本标注结果。

在本申请的一种示例性实施例中，根据框选操作从待处理图像中确定目标文本区域，包括：

当在待处理图像中检测到第一交互操作时，追踪交互焦点直到检测到第二交互操作；其中，框选操作包括第一交互操作和第二交互操作；

根据第一交互操作和第二交互操作之间的追踪轨迹确定目标文本区域。

在本申请的一种示例性实施例中，根据第一交互操作和第二交互操作之间的追踪轨迹确定目标文本区域，包括：

根据第一交互操作从待处理图像中确定第一交互位置，以及根据追踪轨迹从待处理图像中确定与第二交互操作对应的第二交互位置；

确定第一交互位置和第二交互位置之间的直线距离；

根据直线距离框选目标文本区域。

在本申请的一种示例性实施例中，根据直线距离框选目标文本区域，包括：

根据直线距离从待处理图像中确定出参考区域；

若检测到区域调整操作，则根据区域调整操作调整参考区域，并将调整结果确定为目标文本区域；

其中，区域调整操作用于对参考区域进行尺寸调整和/或位置调整。

对待处理图像进行预处理；其中，预处理包括灰度处理和/或二值化处理；

根据预处理结果和直线距离框选目标文本区域。

在本申请的一种示例性实施例中，将音频信号转换为字符序列，包括：

对音频信号进行去噪处理；

将去噪处理后的音频信号转换为字符序列。

在本申请的一种示例性实施例中，将音频信号转换为字符序列之后，上述方法还包括：

在预设展示区域展示字符序列；

若检测到字符序列调整操作，则响应于字符序列调整操作对字符序列进行调整。

在本申请的一种示例性实施例中，根据框选操作从待处理图像中确定目标文本区域之后，上述方法还包括：

对目标文本区域进行连通性分析，得到多个组成汉字的连通体；

若检测到目标文本区域中包括与连通体对应的至少一组字符基线，则判定目标文本区域中存在待标注内容；

若检测到目标文本区域中不包括至少一组字符基线，则判定目标文本区域中不存在待标注内容。

在本申请的一种示例性实施例中，判定目标文本区域中存在待标注内容之后，上述方法还包括：

若检测到作用于确认控件的交互操作时，判定字符序列与目标文本区域中的待标注内容相匹配。

在本申请的一种示例性实施例中，根据字符序列生成对目标文本区域的文本标注结果，包括：

检测样本集中是否存在字符序列；

如果不存在字符序列，则根据字符序列生成对目标文本区域的文本标注结果。

在本申请的一种示例性实施例中，根据字符序列生成对目标文本区域的文本标注结果之后，上述方法还包括：

根据文本标注结果更新样本集，样本集用于训练文字识别模型。

在本申请的一种示例性实施例中，根据文本标注结果更新样本集之后，上述方法还包括：

将更新后的样本集输入文字识别模型，以使得文字识别模型输出文字识别结果，并计算样本集的标注结果与文字识别结果之间的损失函数，以及根据损失函数对文字识别模型进行参数调整。

根据本申请的一方面，提供一种文本图像标注装置，包括图像展示单元、区域确定单元、音频采集单元、音频转换单元以及样本标注单元，其中：

图像展示单元，用于展示包含文本区域的待处理图像；

区域确定单元，用于当检测到针对待处理图像的框选操作时，根据框选操作从待处理图像中确定目标文本区域；

音频采集单元，用于根据检测到的语音输入操作采集音频信号；

音频转换单元，用于将音频信号转换为字符序列；

样本标注单元，用于根据字符序列生成对目标文本区域的文本标注结果。

在本申请的一种示例性实施例中，区域确定单元根据框选操作从待处理图像中确定目标文本区域，包括：

在本申请的一种示例性实施例中，区域确定单元根据第一交互操作和第二交互操作之间的追踪轨迹确定目标文本区域，包括：

确定第一交互位置和第二交互位置之间的直线距离；

根据直线距离框选目标文本区域。

在本申请的一种示例性实施例中，区域确定单元根据直线距离框选目标文本区域，包括：

根据直线距离从待处理图像中确定出参考区域；

根据预处理结果和直线距离框选目标文本区域。

在本申请的一种示例性实施例中，音频转换单元将音频信号转换为字符序列，包括：

对音频信号进行去噪处理；

将去噪处理后的音频信号转换为字符序列。

在本申请的一种示例性实施例中，上述装置还包括字符序列展示单元和用户操作响应单元，其中：

字符序列展示单元，用于在音频转换单元将音频信号转换为字符序列之后，在预设展示区域展示字符序列；

用户操作响应单元，用于在检测到字符序列调整操作时，响应于字符序列调整操作对字符序列进行调整。

在本申请的一种示例性实施例中，上述装置还包括区域分析单元，其中：

区域分析单元，用于区域确定单元根据框选操作从待处理图像中确定目标文本区域之后，对目标文本区域进行连通性分析，得到多个组成汉字的连通体；

区域分析单元，还用于在检测到目标文本区域中包括与连通体对应的至少一组字符基线时，判定目标文本区域中存在待标注内容；

区域分析单元，还用于在检测到目标文本区域中不包括至少一组字符基线时，判定目标文本区域中不存在待标注内容。

在本申请的一种示例性实施例中，上述装置还包括匹配判定单元，其中：

匹配判定单元，用于在区域分析单元判定目标文本区域中存在待标注内容之后，且检测到作用于确认控件的交互操作时，判定字符序列与目标文本区域中的待标注内容相匹配。

在本申请的一种示例性实施例中，样本标注单元根据字符序列生成对目标文本区域的文本标注结果，包括：

检测样本集中是否存在字符序列；

在本申请的一种示例性实施例中，上述装置还包括样本更新单元，其中：

样本更新单元，用于在样本标注单元根据字符序列生成对目标文本区域的文本标注结果之后，根据文本标注结果更新样本集，样本集用于训练文字识别模型。

在本申请的一种示例性实施例中，上述装置还包括模型训练单元，其中：

模型训练单元，用于在样本更新单元根据文本标注结果更新样本集之后，将更新后的样本集输入文字识别模型，以使得文字识别模型输出文字识别结果，并计算样本集的标注结果与文字识别结果之间的损失函数，以及根据损失函数对文字识别模型进行参数调整。

根据本申请的一方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本申请的一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

本申请示例性实施例可以具有以下部分或全部有益效果：

在本申请的一示例实施方式所提供的文本图像标注方法中，可以展示包含文本区域的待处理图像，当检测到针对待处理图像的框选操作时，根据框选操作从待处理图像中确定目标文本区域；根据检测到的语音输入操作采集音频信号，并将音频信号转换为字符序列；根据字符序列生成对目标文本区域的文本标注结果。依据上述方案描述，本申请一方面可以通过采集音频以及音频转文字的方式简化人工输入文字的工作，进而可以提升样本的标注效率。本申请又一方面可以通过检测框选操作确定出需要标注的目标文本区域，进而有利于有针对性地对目标文本区域的待标注内容进行文本标注。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本申请实施例的一种文本图像标注方法及文本图像标注装置的示例性系统架构的示意图；

图2示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图；

图3示意性示出了根据本申请的一个实施例的文本图像标注方法的流程图；

图4示意性示出了根据本申请的一个实施例的待处理图像示意图；

图5示意性示出了根据本申请的一个实施例的目标文本区域选取界面示意图；

图6示意性示出了根据本申请的一个实施例的语音采集界面示意图；

图7示意性示出了根据本申请的一个实施例的字符序列展示界面示意图；

图8示意性示出了根据本申请的一个实施例的文本图像标注方法的流程图；

图9示意性示出了根据本申请的一个实施例中的文本图像标注装置的结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本申请的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本申请的各方面变得模糊。

此外，附图仅为本申请的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本申请实施例的一种文本图像标注方法及文本图像标注装置的示例性应用环境的系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本申请实施例所提供的文本图像标注方法一般由终端设备101、102或103执行，相应地，文本图像标注装置一般设置于终端设备101、102或103中。但本领域技术人员容易理解的是，本申请实施例所提供的文本图像标注方法也可以由服务器105执行，相应的，文本图像标注装置也可以设置于服务器105中，本示例性实施例中对此不做特殊限定。举例而言，在一种示例性实施例中，终端设备101、102或103可以展示包含文本区域的待处理图像；当检测到针对待处理图像的框选操作时，根据框选操作从待处理图像中确定目标文本区域；根据检测到的语音输入操作采集音频信号，并将音频信号转换为字符序列；根据字符序列生成对目标文本区域的文本标注结果。

图2示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从储存部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的储存部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入储存部分208。

特别地，根据本申请的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请的方法和装置中限定的各种功能。本申请的方法可以基于人工智能得以实现。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

一般来说，在人工智能模型训练之前，通常需要准备大量的数据样本，以供模型参数调整，而数据样本一般是由人工进行标注的。对于文字识别领域而言，通过人工标注样本就意味着，需要人工进行大量的文字输入工作，而标注效能受标注人员打字效率的影响，差异较大，这样就容易造成样本标注效率较低的问题。

基于上述问题，本示例实施方式提供了一种文本图像标注方法。该文本图像标注方法可以应用于上述服务器105，也可以应用于上述终端设备101、102、103中的一个或多个，本示例性实施例中对此不做特殊限定。参考图3所示，该文本图像标注方法可以包括以下步骤S310至步骤S340：

步骤S310：展示包含文本区域的待处理图像。

步骤S320：当检测到针对待处理图像的框选操作时，根据框选操作从待处理图像中确定目标文本区域。

步骤S330：根据检测到的语音输入操作采集音频信号，并将音频信号转换为字符序列。

步骤S340：根据字符序列生成对目标文本区域的文本标注结果。

实施图3所示的方法，可以通过采集音频以及音频转文字的方式简化人工输入文字的工作，进而可以提升样本的标注效率。此外，还可以通过检测框选操作确定出需要标注的目标文本区域，进而有利于有针对性地对目标文本区域的待标注内容进行文本标注。

下面，对于本示例实施方式的上述步骤进行更加详细的说明。

在步骤S310中，展示包含文本区域的待处理图像。

具体地，待处理图像为待标注的图像，待处理图像中可以包括一个或多个待标注字符，待标注字符可以为中文字符、英文字符或日文字符等各类语言字符，本申请实施例不作限定。请参阅图4，图4示意性示出了根据本申请的一个实施例的待处理图像示意图。如图4所示，待处理图像400中可以包括待标注字符，如，春眠不觉晓，处处闻啼鸟，夜来风雨声，花落知多少。

在步骤S320中，当检测到针对待处理图像的框选操作时，根据框选操作从待处理图像中确定目标文本区域。

具体地，框选操作可以为点击操作、触控操作、语音控制操作或手势操作等，本申请实施例不作限定。

另外，目标文本区域可以为用于展示待处理图像的显示区域中的部分区域，目标文本区域的尺寸可以小于等于显示区域的尺寸，当目标文本区域的尺寸小于显示区域的尺寸时，目标文本区域在显示区域中的所处位置，本申请实施例不作限定。可选的，在根据框选操作从待处理图像中确定目标文本区域之前，上述方法还可以包括：根据检测到的图像确认操作确定待处理图像并在显示区域展示待处理图像；其中，图像确认操作可以为从多个图像中选择待处理图像的操作，也可以为从视频文件中选择视频帧的操作，也可以为导入图像的操作，本申请实施例不作限定。

作为一种可选的实施方式，根据框选操作从待处理图像中确定目标文本区域，包括：当在待处理图像中检测到第一交互操作时，追踪交互焦点直到检测到第二交互操作；其中，框选操作包括第一交互操作和第二交互操作；根据第一交互操作和第二交互操作之间的追踪轨迹确定目标文本区域。

具体地，同理，第一交互操作和第二交互操作可以为点击操作、触控操作、语音控制操作或手势操作等，本申请实施例不作限定。另外，交互焦点可以为显示区域中的光标，追踪轨迹可以为光标移动的轨迹。

另外，可选的，根据第一交互操作和第二交互操作之间的追踪轨迹确定目标文本区域的方式具体可以为：若第一交互操作和第二交互操作之间的追踪轨迹形成封闭区域，则将封闭区域确定为目标文本区域；其中，目标文本区域可以为规则区域(如，矩形)也可以为不规则区域。

可见，实施该可选的实施方式，能够通过第一交互操作和第二交互操作确定目标文本区域，相较于现有技术中需要多点定位确定目标文本区域的方式，可以简化用户操作，提升目标文本区域的选定效率，改善用户的使用体验。

作为一种可选的实施方式，根据第一交互操作和第二交互操作之间的追踪轨迹确定目标文本区域，包括：根据第一交互操作从待处理图像中确定第一交互位置，以及根据追踪轨迹从待处理图像中确定与第二交互操作对应的第二交互位置；确定第一交互位置和第二交互位置之间的直线距离；根据直线距离框选目标文本区域。

具体地，第一交互位置与第二交互位置处于待处理图像中。另外，可选的，确定第一交互位置和第二交互位置之间的直线距离的方式具体可以为：确定待处理图像中第一交互位置的坐标A(x₁，y₁)和待处理图像中第二交互位置的坐标B(x₂，y₂)；根据坐标A和坐标B计算第一交互位置和第二交互位置之间的直线距离

请参阅图5，图5示意性示出了根据本申请的一个实施例的目标文本区域选取界面示意图。如图5所示，可以根据第一交互操作从待处理图像510中确定第一交互位置511，以及根据第二交互操作从待处理图像510中确定第二交互位置512，根据第一交互位置511的坐标和第二交互位置512的坐标可以确定出第一交互位置511和第二交互位置512之间的直线距离并通过虚线进行表示。进而，可以根据该直线距离框选目标文本区域513，并检测作用于语音采集控件522的用户操作，以采集音频信号。若采集到音频信号，则可以将音频信号转换为字符序列并显示于字符序列展示区域521中。

可见，实施该可选的实施方式，能够通过两次交互操作(如，点击操作)框选目标文本区域，简化了用户操作，从而有利于改善用户体验。

作为一种可选的实施方式，根据直线距离框选目标文本区域，包括：

根据直线距离从待处理图像中确定出参考区域；若检测到区域调整操作，则根据区域调整操作调整参考区域，并将调整结果确定为目标文本区域；其中，区域调整操作用于对参考区域进行尺寸调整和/或位置调整。

具体地，参考区域可以与目标文本区域尺寸和/或形状相同，也可以不同。另外，区域调整操作可以包括一次或多次交互操作，交互操作可以为拖拽操作，用于调整参考区域的尺寸、位置或形状。

另外，可选的，根据区域调整操作调整参考区域，并将调整结果确定为目标文本区域的方式具体可以为：根据区域调整操作调整参考区域；若检测作用于调整确认控件的用户操作，则将调整结果确定为目标文本区域。

另外，可选的，根据直线距离从待处理图像中确定出参考区域的方式具体可以为：通过深度学习网络提取待处理图像对应的图特征向量；根据图特征向量确定待处理图像中的包含文字的最小单位区域，举例来说，最小单位区域的尺寸可以为20像素*20像素；进而，根据最小单位区域和直线距离确定出参考区域，参考区域可以由一个或多个最小单位区域组成，这样可以避免文字被割裂的情况，从而提升区域框选效率以及区域框选效果。

其中，深度学习网络可以为VGG、Resnet或MobilenetV2等，本申请实施例不作限定，深度学习网络可以通过可视化数据库中的图像训练得到。具体地，通过深度学习网络提取待处理图像对应的图特征向量的方式具体可以为：通过深度学习网络中的卷积核对待处理图像进行多层卷积处理(如，3层卷积处理)，得到参考特征向量，将参考特征向量输入全连接层，以使得全连接层对参考特征向量进行分类，得到图特征向量并输出；其中，卷积核的大小可以为3*3，上一层输出的卷积结果可以作为下一层的输入，全连接层的数量可以为一层或多层(如，3层)，本申请实施例不作限定。需要说明的是，在深度学习网络中，卷积层与卷积层之间还包括池化层，池化层用于将上一层卷积层的输出进行最大池化并将最大池化结果作为下一层卷积层的输入。

可见，实施该可选的实施方式，能够提供区域调整的功能，使得用户能够个性化确定所需的区域，从而改善用户使用体验。

作为另一种可选的实施方式，根据直线距离框选目标文本区域，包括：对待处理图像进行预处理；其中，预处理包括灰度处理和/或二值化处理；根据预处理结果和直线距离框选目标文本区域。

具体地，预处理还可以包括平移处理、转置处理、镜像处理、旋转处理、缩放处理、平滑处理、锐化处理和/或图像增强处理等，其中，图像增强处理是对待处理图像附加信息或变换其中的数据，有选择地突出待处理图像中的目标特征或者抑制待处理图像中的目标特征，以使得待处理图像与视觉响应特性相匹配。

另外，可选的，对待处理图像进行灰度处理的方式具体可以为：将待处理图像中的三分量亮度确定为三个灰度图像的灰度值，将三个灰度图像中任一灰度图像确定为预处理结果；或者，将待处理图像中的三分量亮度的最大值确定为灰度值，将灰度值对应的灰度图像确定为预处理结果；或者，将待处理图像中的三分量亮度的平均值确定为灰度值，将灰度值对应的灰度图像确定为预处理结果。

可见，实施该可选的实施方式，能够在对图像进行预处理后进行区域框选，这样可以提升框选效率。

作为另一种可选的实施方式，根据框选操作从待处理图像中确定目标文本区域之后，上述方法还包括：对目标文本区域进行连通性分析，得到多个组成汉字的连通体；若检测到目标文本区域中包括与连通体对应的至少一组字符基线，则判定目标文本区域中存在待标注内容；若检测到目标文本区域中不包括至少一组字符基线，则判定目标文本区域中不存在待标注内容。

具体地，连通体为组成文字的一个连续的笔画，每个文字都包含至少一个连通体；字符基线为字符连通体的包络线，包络线的具体查找方式可以为：以一条具有少量弯曲度的线段挤压指定行文字，若在弯曲度容许范围内贴合若干字符边缘，则认为该线段为字符的一条包络线。字符基线包含多条包络线，每条包络线的取值范围为1～N/3，N为连通体数量。另外，连通性分析是对待处理图像中黑色像素的连通特性的分析，用于确定独立的黑色素区域，

可见，实施该可选的实施方式，能够根据对于字符的连通性分析以及字符基线的检测，确定出目标文本区域中是否存在待标注内容。

在步骤S330中，根据检测到的语音输入操作采集音频信号，并将音频信号转换为字符序列。

具体地，音频信号可以为用户输入的语音信号。另外，字符序列可以包括中文、英文、数字、符号等字符，本申请实施例不作限定。

另外，可选的，在将音频信号转换为字符序列之前，上述方法还可以包括以下步骤：在检测到语音输入操作时，触发语音采集功能启动，采集用户输入的音频信号；其中，检测用于进行语音输入的用户操作的方式具体可以为：检测触摸屏上用于表示语音采集的虚拟标识是否被触发，如果是，则判定检测到用户操作；或者，检测语音助手是否被触发，如果是，则判定检测到用户操作。

请参阅图6，图6示意性示出了根据本申请的一个实施例的语音采集界面示意图。如图6所示，当从待处理图像610中框选出目标文本区域611之后，可以检测作用于语音采集控件622的语音输入操作，并根据语音输入操作显示语音采集窗口623，以采集音频信号。当音频信号采集结果之后，可以将音频信号转换为字符序列并展示于字符序列展示区域621，以供用户对照目标文本区域611中的待标注内容“春眠不觉晓，处处闻啼鸟”检查字符序列。

作为一种可选的实施方式，将音频信号转换为字符序列，包括：对音频信号进行去噪处理；将去噪处理后的音频信号转换为字符序列。

其中，对音频信号进行去噪处理的方式具体可以为：通过噪声检测网络检测音频信号中各时刻对应的噪声概率；对各时刻对应的噪声概率进行平滑处理；根据平滑处理结果将大于预设门限值的时刻标注为第一数值(如，1)，将小于等于预设门限值的时刻标注为第二数值(如，0)，进而得到音频信号对应的噪声序列；根据噪声序列进行音频信号去噪；其中，噪声概率用于表示该时刻的音频信号不包括噪声的概率。

另外，可选的，将去噪处理后的音频信号转换为字符序列的方式具体可以为：根据特征参数计算去噪处理后的音频信号对应的音频特征，根据预设对应关系确定音频特征对应的字符序列；其中，特征参数可以包括基音周期，共振峰，短时平均能量或幅度，线性预测系数(LPC)，感知加权预测系数(PLP)，短时平均过零率，线性预测倒谱系数(LPCC)，自相关函数，梅尔倒谱系数(MFCC)，小波变换系数，经验模态分解系数(EMD)，伽马通滤波器系数(GFCC)。

可见，实施该可选的实施方式，能够通过对音频信号进行去噪处理，提升识别音频信号对应的字符序列的效率。

作为一种可选的实施方式，将音频信号转换为字符序列之后，上述方法还包括：在预设展示区域展示字符序列；若检测到字符序列调整操作，则响应于字符序列调整操作对字符序列进行调整。

具体地，预设展示区域可以设置于用于显示待处理图像的显示区域的任一位置，预设展示区域的尺寸小于显示区域的尺寸。另外，字符序列调整操作可以包括新增字符操作、删减字符操作等，本申请实施例不作限定。

另外，可选的，在预设展示区域展示字符序列之后，上述方法还可以包括以下步骤：播放采集到音频信号，以使得用户可以参考音频信号检查字符序列。

另外，可选的，在预设展示区域展示字符序列之后，上述方法还可以包括以下步骤：计算字符序列中各字符对应的特征向量；计算相邻字符的特征向量之间的相似度；根据相似度对字符序列进行错别字纠错，具体地，如果相似度大于阈值，则表示相邻字符为相关字符，如果相似度小于阈值，则表示相邻字符为不相关字符。当一个字符与其相邻的左右两个字符均不相关，则表示该字符有可能是错别字。另外，上述的根据相似度对字符序列进行错别字纠错可以基于预设词库进行执行。

其中，计算相邻字符的特征向量之间的相似度的方式具体可以为：计算相邻字符的特征向量之间的欧氏距离作为相似度；或者，计算相邻字符的特征向量之间的余弦距离作为相似度；或者，根据相邻字符的特征向量计算Tanimoto系数以表征相似度；或者，根据相邻字符的特征向量计算皮尔逊相关系数以表征相似度，本公开的实施例不作限定。

具体地，欧式距离是在m维空间中两个点之间的真实距离或者向量的自然长度，在二维和三维空间中的欧式距离就是两点之间的实际距离；皮尔逊相关系数是通过协方差除以两个变量的标准差得到的；余弦距离是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量；Tanimoto系数是广义杰卡德相似度，如果x,y都是二值向量，那么Tanimoto系数就等同于杰卡德距离(Jaccard Distance)，杰卡德距离是用来衡量两个集合差异性的一种指标。具体表达式如下：

欧氏距离：

皮尔逊相关系数：

余弦距离：

Tanimoto系数：

其中，i可以为正整数，用于进行特征向量区分；x和y用于表示特征向量终点在空间坐标系中的x坐标和y坐标，相似度比对过程中的两个特征向量具有相同起点。

请参阅图7，图7示意性示出了根据本申请的一个实施例的字符序列展示界面示意图。如图7所示，当音频信号转换为字符序列之后，可以在字符序列展示区域721中展示该字符序列“春眠不觉晓，处处闻啼鸟”，用户可以根据待处理图像710中显示的目标文本区域711中的待标注内容对字符序列进行检查。此外，当再检测到作用于语音采集控件722，则再采集语音信号并对其进行文本转换，通过文本转换结果覆盖已展示的字符序列。

可见，实施该可选的实施方式，能够提供字符序列调整功能，当语音转文字的结果中存在错误时，允许用户通过调整操作更正字符序列。

作为一种可选的实施方式，判定目标文本区域中存在待标注内容之后，上述方法还包括：若检测到作用于确认控件的交互操作时，判定字符序列与目标文本区域中的待标注内容相匹配。

具体地，当检测到作用于确认控件的交互操作时，还可以执行以下步骤：对采集到的音频信号进行存储。进而，判定字符序列与目标文本区域中的待标注内容相匹配的方式具体可以为：判定音频信号、字符序列与目标文本区域中的待标注内容三者相匹配。

可见，实施该可选的实施方式，能够在用户确认之后再判定字符序列与待标注内容相匹配，这样可以提升交互性，进而改善用户的使用体验。

在步骤S340中，根据字符序列生成对目标文本区域的文本标注结果。

其中，文本标注结果用于表征字符序列与目标文本区域的对应关系。

作为一种可选的实施方式，检测样本集中是否存在字符序列；如果不存在字符序列，则根据字符序列生成对目标文本区域的文本标注结果。

具体地，样本集中可以包括多个已标注内容以及多个已标注内容对应的字符序列(即，标签)，检测样本集中是否存在字符序列的方式具体可以为：将转换得到的字符序列与多个已标注内容对应的字符序列分别进行匹配；若匹配成功，则表示样本集中已存在转换得到的该字符序列和待标注内容，进而可以返回用于表示样本集中存在该待标注内容的提示信息；若匹配失败，则表示样本集中不存在转换得到的该字符序列和待标注内容，进而可以根据字符序列生成对目标文本区域的文本标注结果。

可见，实施该可选的实施方式，能够避免重复标注的问题，进而提升标注效率。

作为一种可选的实施方式，根据字符序列生成对目标文本区域的文本标注结果，包括：对目标文本区域中的连通体依次进行横向区域分割，得到用于组成待标注内容的多个待标注图像块；根据字符序列中各字符分别标注多个待标注图像块，将标注结果确定为对目标文本区域的文本标注结果。

具体地，多个待标注图像块中分别包含一个字符。另外，可选的，对目标文本区域中的连通体依次进行横向区域分割，得到用于组成待标注内容的多个待标注图像块的方式具体可以为：对目标文本区域中的连通体依次进行横向区域分割，得到多个子区域，将多个子区域确定为用于组成待标注内容的多个待标注图像块。其中，多个待标注图像块与字符序列中各字符一一对应。

可见，实施该可选的实施方式，能够对多个字符图像块进行分别标注，以提升图像文字识别样本集中的样本精度。

作为一种可选的实施方式，根据字符序列生成对目标文本区域的文本标注结果之后，上述方法还包括：根据文本标注结果更新样本集，样本集用于训练文字识别模型。

具体地，样本集中包括多个图像内容以及与多个图像内容一一对应的文本信息。其中，可选的，根据文本标注结果更新样本集的方式具体可以为：将标注后的待标注内容增加至样本集中。

可见，实施该可选的实施方式，根据标注后的待标注内容对于样本集的更新，有利于改善文字识别模型的训练效果以及识别准确率。

作为一种可选的实施方式，根据文本标注结果更新样本集之后，上述方法还包括：

具体地，文字识别模型可以利用光学字符识别技术(Optical CharacterRecognition，OCR)，是对图像进行分析识别获取其中的文字及版面信息的过程。另外，根据损失函数对文字识别模型进行参数调整的方式具体可以为：根据损失函数对文字识别模型中的权重值以及偏置项进行调整；其中，损失函数可以为：平方损失函数(quadratic lossfunction)、绝对值损失函数(absolute loss function)、对数损失函数(logarithmicloss function)等，本申请实施例不作限定。

可见，实施该可选的实施方式，能够通过语音输入的方式确定出用于训练模型的样本集，减少人工标注成本，提升样本集生成效率。

请参阅图8，图8示意性示出了根据本申请的一个实施例的文本图像标注方法的流程图。如图8所示，文本图像标注方法包括：步骤S800～步骤S880，其中：

步骤S800：当在待处理图像中检测到第一交互操作时，追踪交互焦点直到检测到第二交互操作；其中，框选操作包括第一交互操作和第二交互操作。

步骤S810：根据第一交互操作从待处理图像中确定第一交互位置，以及根据追踪轨迹从待处理图像中确定与第二交互操作对应的第二交互位置，并确定第一交互位置和第二交互位置之间的直线距离。进而，执行步骤S820或步骤S830。

步骤S820：根据直线距离从待处理图像中确定出参考区域，若检测到区域调整操作，则根据区域调整操作调整参考区域，并将调整结果确定为目标文本区域。

步骤S830：对待处理图像进行预处理；其中，预处理包括灰度处理和/或二值化处理，根据预处理结果和直线距离框选目标文本区域。

步骤S840：根据检测到的语音输入操作采集音频信号，对音频信号进行去噪处理，并将去噪处理后的音频信号转换为字符序列号。

步骤S850：在预设展示区域展示字符序列，若检测到字符序列调整操作，则响应于字符序列调整操作对字符序列进行调整。

步骤S860：若字符序列与目标文本区域中的待标注内容相匹配，且检测到样本集中不存在字符序列，根据字符序列生成对目标文本区域的文本标注结果。

步骤S870：根据文本标注结果更新样本集，样本集用于训练文字识别模型。

步骤S880：将更新后的样本集输入文字识别模型，以使得文字识别模型输出文字识别结果，并计算样本集的标注结果与文字识别结果之间的损失函数，以及根据损失函数对文字识别模型进行参数调整。

需要说明的是，步骤S800～步骤S880与图3所示的各步骤及其实施例相对应，针对步骤S800～步骤S880的具体实施方式，请参阅图3所示的各步骤及其实施例，此处不再赘述。

可见，实施图8所示的方法，可以通过采集音频以及音频转文字的方式简化人工输入文字的工作，进而可以提升样本的标注效率。此外，还可以通过检测框选操作确定出需要标注的目标文本区域，进而有利于有针对性地对目标文本区域的待标注内容进行文本标注。

进一步的，本示例实施方式中，还提供了一种文本图像标注装置。参考图9所示，该文本图像标注装置900可以包括图像展示单元901、区域确定单元902、音频采集单元903、音频转换单元904以及样本标注单元905，其中：

图像展示单元901，用于展示包含文本区域的待处理图像；

区域确定单元902，用于当检测到针对待处理图像的框选操作时，根据框选操作从待处理图像中确定目标文本区域；

音频采集单元903，用于根据检测到的语音输入操作采集音频信号；

音频转换单元904，用于将音频信号转换为字符序列；

样本标注单元905，用于根据字符序列生成对目标文本区域的文本标注结果。

可见，实施图9所示的装置，可以通过采集音频以及音频转文字的方式简化人工输入文字的工作，进而可以提升样本的标注效率。此外，还可以通过检测框选操作确定出需要标注的目标文本区域，进而有利于有针对性地对目标文本区域的待标注内容进行文本标注。

在本申请的一种示例性实施例中，区域确定单元902根据框选操作从待处理图像中确定目标文本区域，包括：

在本申请的一种示例性实施例中，区域确定单元902根据第一交互操作和第二交互操作之间的追踪轨迹确定目标文本区域，包括：

确定第一交互位置和第二交互位置之间的直线距离；

根据直线距离框选目标文本区域。

在本申请的一种示例性实施例中，区域确定单元902根据直线距离框选目标文本区域，包括：

根据直线距离从待处理图像中确定出参考区域；

根据预处理结果和直线距离框选目标文本区域。

在本申请的一种示例性实施例中，音频转换单元904将音频信号转换为字符序列，包括：

对音频信号进行去噪处理；

将去噪处理后的音频信号转换为字符序列。

在本申请的一种示例性实施例中，上述装置还包括字符序列展示单元(未图示)和用户操作响应单元(未图示)，其中：

字符序列展示单元，用于在音频转换单元904将音频信号转换为字符序列之后，在预设展示区域展示字符序列；

在本申请的一种示例性实施例中，上述装置还包括区域分析单元(未图示)，其中：

区域分析单元，用于区域确定单元902根据框选操作从待处理图像中确定目标文本区域之后，对目标文本区域进行连通性分析，得到多个组成汉字的连通体；

在本申请的一种示例性实施例中，上述装置还包括匹配判定单元(未图示)，其中：

在本申请的一种示例性实施例中，样本标注单元905根据字符序列生成对目标文本区域的文本标注结果，包括：

检测样本集中是否存在字符序列；

在本申请的一种示例性实施例中，上述装置还包括样本更新单元(未图示)，其中：

样本更新单元，用于在样本标注单元905根据字符序列生成对目标文本区域的文本标注结果之后，根据文本标注结果更新样本集，样本集用于训练文字识别模型。

在本申请的一种示例性实施例中，上述装置还包括模型训练单元(未图示)，其中：

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

由于本申请的示例实施例的文本图像标注装置的各个功能模块与上述文本图像标注方法的示例实施例的步骤对应，因此对于本申请装置实施例中未披露的细节，请参照本申请上述的文本图像标注方法的实施例。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种文本图像标注方法，其特征在于，包括：

展示包含文本区域的待处理图像；

当在所述待处理图像中检测到第一交互操作时，追踪交互焦点直到检测到第二交互操作；其中，所述第一交互操作对应第一交互位置，所述第二交互操作对应第二交互位置；

确定所述第一交互位置和所述第二交互位置之间的直线距离；

通过深度学习网络提取所述待处理图像对应的图特征向量，并根据图特征向量确定所述待处理图像中包含文字的最小单位区域；基于所述最小单位区域和所述直线距离确定出参考区域，所述参考区域由一个或多个最小单位区域组成；

若检测到区域调整操作，则根据所述区域调整操作调整所述参考区域，并将调整结果确定为目标文本区域；

根据检测到的语音输入操作采集音频信号，并将所述音频信号转换为字符序列；

根据所述字符序列生成对所述目标文本区域的文本标注结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述第一交互操作从所述待处理图像中确定第一交互位置，以及根据追踪轨迹从所述待处理图像中确定与所述第二交互操作对应的第二交互位置。

3.根据权利要求1所述的方法，其特征在于，所述区域调整操作用于对所述参考区域进行尺寸调整和/或位置调整。

4.根据权利要求1至3中任一项所述的方法，其特征在于，将所述音频信号转换为字符序列，包括：

对所述音频信号进行去噪处理；

将去噪处理后的音频信号转换为所述字符序列。

5.根据权利要求1至3中任一项所述的方法，其特征在于，将所述音频信号转换为字符序列之后，所述方法还包括：

在预设展示区域展示所述字符序列；

若检测到字符序列调整操作，则响应于所述字符序列调整操作对所述字符序列进行调整。

6.根据权利要求1至3中任一项所述的方法，其特征在于，将调整结果确定为目标文本区域之后，所述方法还包括：

对所述目标文本区域进行连通性分析，得到多个组成汉字的连通体；

若检测到所述目标文本区域中包括与所述连通体对应的至少一组字符基线，则判定所述目标文本区域中存在待标注内容；

若检测到所述目标文本区域中不包括所述至少一组字符基线，则判定所述目标文本区域中不存在所述待标注内容。

7.根据权利要求6所述的方法，其特征在于，判定所述目标文本区域中存在待标注内容之后，所述方法还包括：

若检测到作用于确认控件的交互操作时，判定所述字符序列与所述目标文本区域中的待标注内容相匹配。

8.根据权利要求1至3中任一项所述的方法，其特征在于，根据所述字符序列生成对所述目标文本区域的文本标注结果，包括：

检测样本集中是否存在所述字符序列；

如果不存在所述字符序列，则根据所述字符序列生成对所述目标文本区域的文本标注结果。

9.根据权利要求1至3中任一项所述的方法，其特征在于，根据所述字符序列生成对所述目标文本区域的文本标注结果之后，所述方法还包括：

根据所述文本标注结果更新样本集，所述样本集用于训练文字识别模型。

10.根据权利要求9所述的方法，其特征在于，根据所述文本标注结果更新样本集之后，所述方法还包括：

将更新后的样本集输入文字识别模型，以使得所述文字识别模型输出文字识别结果，并计算所述样本集的标注结果与所述文字识别结果之间的损失函数，以及根据所述损失函数对所述文字识别模型进行参数调整。

11.一种文本图像标注装置，其特征在于，包括：

图像展示单元，用于展示包含文本区域的待处理图像；

区域确定单元，用于当在所述待处理图像中检测到第一交互操作时，追踪交互焦点直到检测到第二交互操作；其中，所述第一交互操作对应第一交互位置，所述第二交互操作对应第二交互位置；确定所述第一交互位置和所述第二交互位置之间的直线距离；通过深度学习网络提取所述待处理图像对应的图特征向量，并根据图特征向量确定所述待处理图像中包含文字的最小单位区域；基于所述最小单位区域和所述直线距离确定出参考区域，所述参考区域由一个或多个最小单位区域组成；若检测到区域调整操作，则根据所述区域调整操作调整所述参考区域，并将调整结果确定为目标文本区域；

音频转换单元，用于将所述音频信号转换为字符序列；

样本标注单元，用于根据所述字符序列生成对所述目标文本区域的文本标注结果。

12.根据权利要求11所述的装置，其特征在于，所述装置还包括区域分析单元，用于：

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-10任一项所述的方法。

14.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-10任一项所述的方法。