CN111898411B

CN111898411B - 文本图像标注系统、方法、计算机设备和存储介质

Info

Publication number: CN111898411B
Application number: CN202010548848.3A
Authority: CN
Inventors: 黄双萍; 郑锐佳; 李智龙; 李南鹏; 杨代辉; 李晓辉; 吴淦浩; 刘伏根
Original assignee: South China University of Technology SCUT; China ComService Construction Co Ltd
Current assignee: South China University of Technology SCUT; China ComService Construction Co Ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2021-08-31
Anticipated expiration: 2040-06-16
Also published as: CN111898411A

Abstract

本申请涉及一种文本图像标注系统、方法、计算机设备和存储介质，通过接收前端网页上发的预标注请求；根据预标注请求携带的待标注文本图像的标识查找得到待标注文本图像；对待标注文本图像进行实例分割得到候选文本框集合；基于最小函数和交集运算，对候选文本框集合中的各个候选文本框进行计算，得到各个候选文本框之间的重叠度；根据重叠度在候选文本框集合中选取得到至少一个目标文本框，生成目标文本框集合；对待标注文本图像进行特征提取，根据提取得到的特征与目标文本框集合，对待标注文本图像进行预标注；将预标注结果发送至前端网页，以使前端网页显示预标注结果，根据修正指令对预标注结果进行修正，得到标注结果；能够提高标注效率。

Description

文本图像标注系统、方法、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种文本图像标注系统、方法、计算机设备和存储介质。

背景技术

目前基于深度学习的文本图像检测和识别技术，作为传统OCR(OpticalCharacter Recognition)技术的演进，具有广泛的应用。为了取得良好的算法性能，需要使用大量的标注数据，所以开发便捷高效的标注工具对于提升OCR算法性能、减少人工标注数据的负担、促进行业发展有着重要意义。

现阶段，大多标注工具都以桌面客户端的形式存在，需要额外安装桌面客户端，导入导出数据困难，难以支持多人协作标注，并且标注过程以纯手动标注展开，使得标注过程复杂、标注效率低下，耗费大量的人力和时间，导致文本图像的标注效率低下。

发明内容

基于此，有必要针对上述技术问题，提供一种能够降低标注成本、提升标注效率的文本图像标注系统、方法、计算机设备和存储介质。

一种文本图像标注系统，所述系统包括：

前端网页模块，用于提供文本图像标注界面；以使多个用户通过网页访问所述文本图像标注界面，对待标注文本图像进行标注；

后台处理模块，用于接收所述前端网页模块上发的请求，对所述请求进行处理，包括接收预标注请求，获取所述预标注请求对应的待标注文本图像，调用所述文本图像预标注模块，对所述待标注文本图像进行预标注，将预标注结果发送至前端网页模块；

文本图像预标注模块，用于对所述待标注文本图像进行实例分割得到候选文本框集合；基于最小函数和交集运算，对所述候选文本框集合中的各个候选文本框进行计算，得到所述各个候选文本框之间的重叠度；根据所述重叠度在所述候选文本框集合中选取得到至少一个目标文本框，生成目标文本框集合；对所述待标注文本图像进行特征提取，根据提取得到的特征与所述目标文本框集合，对所述待标注文本图像进行标注，得到所述待标注文本图像的预标注结果；

所述前端网页模块还用于接收修正指令，根据所述修正指令对所述预标注结果进行修正，得到标注结果。

一种文本图像标注方法，所述方法包括：

接收前端网页上发的预标注请求，所述前端网页用于接收多个用户的触发操作，所述触发操作包括触发所述预标注请求，所述预标注请求携带待标注文本图像的标识；

根据所述待标注文本图像的标识查找得到待标注文本图像；

对所述待标注文本图像进行实例分割得到候选文本框集合；

基于最小函数和交集运算，对所述候选文本框集合中的各个候选文本框进行计算，得到所述各个候选文本框之间的重叠度；根据所述重叠度在所述候选文本框集合中选取得到至少一个目标文本框，生成目标文本框集合；

对所述待标注文本图像进行特征提取，根据提取得到的特征与所述目标文本框集合，对所述待标注文本图像进行标注，得到所述待标注文本图像的预标注结果；

将所述预标注结果发送至所述前端网页，以使所述前端网页显示所述预标注结果，根据修正指令对所述预标注结果进行修正，得到标注结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

上述文本图像标注系统、方法、计算机设备和存储介质，通过前端网页提供文本图像标注界面，可以被多个用户同时访问，接收多个用户的触发操作，包括触发预标注请求，因此，能够实现多人协作，提高文本图像的标注效率；预标注请求携带待标注文本图像的标识，根据待标注文本图像的标识查找得到待标注文本图像，对待标注文本图像进行实例分割得到候选文本框集合，基于最小函数和交集运算，对候选文本框集合中的各个候选文本框进行计算，得到各个候选文本框之间的重叠度，再根据重叠度在候选文本框集合中选取得到至少一个目标文本框，生成目标文本框集合，对待标注文本图像进行特征提取，根据提取得到的特征与目标文本框集合，对待标注文本图像进行标注，得到待标注文本图像的预标注结果；进一步地，将预标注结果发送至前端网页，以使前端网页显示预标注结果，根据修正指令对预标注结果进行修正，得到标注结果，能够有效地降低人力成本和时间成本，提高标注效率。

附图说明

图1为一个实施例中文本图像标注系统的结构示意图；

图2为一个实施例中前端网页模块的结构示意图；

图3为一个实施例中编码器VGG-RES Encoder网络结构图；

图4为一个实施例中文本图像标注方法的流程示意图；

图5为一个实施例中文本图像标注任务分配方法的流程示意图；

图6为一个实施例中重叠度计算方法的流程示意图；

图7为一个实施例中文本图像预标注方法的流程示意图；

图8为又一个实施例中文本图像标注方法的流程示意图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的文本图像标注系统100的结构框图如图1所示，包括前端网页模块102、后台处理模块104和文本图像预标注模块106。其中：

前端网页模块102用于提供文本图像标注界面，以使多个用户通过网页访问文本图像标注界面，对待标注文本图像进行标注；

后台处理模块104，用于接收前端网页模块上发的请求，对请求进行处理，包括接收预标注请求，获取预标注请求对应的待标注文本图像，调用文本图像预标注模块106，对待标注文本图像进行预标注，将预标注结果发送至前端网页模块102；

文本图像预标注模块106，用于对待标注文本图像进行实例分割得到候选文本框集合；基于最小函数和交集运算，对候选文本框集合中的各个候选文本框进行计算，得到各个候选文本框之间的重叠度；根据重叠度在候选文本框集合中选取得到至少一个目标文本框，生成目标文本框集合；对待标注文本图像进行特征提取，根据提取得到的特征与目标文本框集合，对待标注文本图像进行标注，得到待标注文本图像的预标注结果；

前端网页模块102还用于接收修正指令，根据修正指令对预标注结果进行修正，得到标注结果。

其中，文本图像标注系统100是基于B/S架构实现的，包括前端和服务器端。前端通过网络与服务器端连接。前端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器端可以用独立的服务器或者是多个服务器组成的服务器集群来实现，前端网页允许多个用户同时访问，可以接收多个用户的触发操作。前端包括前端网页模块102，可以通过前端框架Vue实现；服务器端包括后台处理模块104和文本图像预标注模块106，可以通过Python Web框架Flask实现；从而实现前后端分离，可以在浏览器上运行，展示文本图像标注界面，使得用户可以通过文本图像标注界面，浏览和标注文本图像。文本图像包括待标注文本图像和已标注文本图像。

文本图像标注界面是用于浏览和标注文本图像的界面，包括文本标注工具栏。其中，文本标注工具栏包括预标注控件。用户可以通过对预标注控件进行操作，例如点击操作，触发前端网页模块102向后台处理模块104发送预标注请求。预标注请求携带待标注文本图像的标识，用于指示后台处理模块104对对应的待标注文本图像进行预标注处理。其中，待标注文本图像的标识是用于唯一标识待标注文本图像，可以是待标注文本图像在服务器中的存储路径等。文本标注工具栏还包括标注控件，用户可以通过触发标注控件直接对待标注文本图像进行标注操作。例如，对待标注文本图像中的文字进行框选。其中，框选时所用的选框可以但不限于是矩形框和多边形框等。

在一个实施例中，预标注请求可以携带待标注文本图像集的标识，例如待标注文本图像集在服务器中的存储路径，后台处理模块104可以根据待标注文本图像集的标识查找得到待标注文本图像集，对待标注文本图像集进行批量操作。

当前端网页模块102向后台处理模块104发送预标注请求时，后台处理模块104获取与预标注请求对应的待标注文本图像，调用文本图像预标注模块106，通过文本图像预标注模块106对待标注文本图像进行标注。

文本图像预标注模块106首先对待标注文本图像进行实例分割得到候选文本框集合。

其中，文本图像预标注模块106包括文本图像预标注模型，是基于深度学习神经网络实现的，用于对待标注文本图像进行预标注。待标注文本图像包括背景图像信息和文本信息。候选文本框集合中各个候选文本框为待标注文本图像中各个文本信息的外接边框。候选文本框可以但不限于是矩形边框和多边形边框等。

具体地，文本图像预标注模块106对待标注文本图像进行目标检测，检测得到待标注文本图像中的文本信息和文本信息在待标注文本图像中的位置。文本图像预标注模块106再根据文本信息在待标注文本图像的位置，将文本信息进行分割，并根据分割后的文本信息生成矩形边框，得到各个分割后的文本信息对应的矩形边框，即得到矩形边框集合。

由于矩形边框集合是目标检测得到的，而对于文本信息而言，语义是十分重要的，因此，文本图像预标注模块106对各个矩形边框内的分割后的文本信息进行语义分割，得到语义分割后的文本信息，将语义分割后的文本信息作为候选文本信息，再生成各个候选文本信息的外接边框，即候选文本框，得到候选文本框集合。

在一个实施例中，文本图像预标注模块106可以通过Mask RCNN(Mask Region-Convolutional Neural Network，掩码区域卷积神经网络)对待标注文本图像进行实例分割。

在一个实施例中，在对待标注文本图像进行实例分割得到候选文本框集合之前，对待标注文本图像进行归一化处理，将待标注文本图像的像素值分布变换到(0,1)，提高后续对待标注文本图像预标注的便利性。

具体地，将待标注文本图像缩放为预设尺寸，获取预设均值和预设标准差，通过以下公式对待标注文本图像中的各个像素点进行归一化。

pixel_new＝(pixel-mean)/std

其中，pixel_new表示归一化后的像素点，pixel表示归一化前的像素点，mean表示预设均值，std表示预设标准差。

在对待标注文本图像进行实例分割得到候选文本框集合之后，文本图像预标注模块106基于最小函数和交集运算，对候选文本框集合中的各个候选文本框进行计算，得到各个候选文本框之间的重叠度；根据重叠度在候选文本框集合中选取得到至少一个目标文本框，生成目标文本框集合。

其中，最小函数为min函数，用于计算得到多个数值之间的最小值，可以是各个候选文本框面积的最小值。交集运算用于求取各个候选文本框之间的交集。重叠度即各个候选文本框之间的重叠程度。

具体地，文本图像预标注模块106获取各个候选文本框的位置坐标，根据各个候选文本框的位置坐标计算得到各个候选文本框的面积。文本图像预标注模块106基于交集运算，根据各个候选文本框的位置坐标计算得到各个候选文本框之间的重叠面积。在计算各个候选文本框之间的重叠度时，可以是按一定的顺序从候选文本框集合中选取候选文本框，将各个候选文本框两两组合，例如，根据候选文本框的检测分数来选择。其中，检测分数是候选文本框的置信度。检测文本图像预标注模块106在对待标注文本图像进行实例分割得到候选文本框集合时，通过节点变化，可以计算得到各个候选文本框的置信度，即检测分数。

进一步地，文本图像预标注模块106通过最小函数运算，得到两个候选文本框中较小的候选文本框面积，再计算两个候选文本框之间的重叠面积与两个候选文本框中较小的候选文本框面积的比值，将该比值作为两个候选文本框之间的重叠度，从而得到各个候选文本框之间的重叠度。文本图像预标注模块106获取预设阈值，当重叠度小于预设阈值时，保留该重叠度对应的候选文本框；当重叠度大于或等于预设阈值时，将该重叠度对应的候选文本框中检测分数较低的候选文本框去除，实现对候选文本框集合的过滤，得到准确度更高的目标文本框集合。

在生成目标文本框集合之后，文本图像预标注模块106对待标注文本图像进行特征提取，根据提取得到的特征与目标文本框集合，对待标注文本图像进行标注，得到待标注文本图像的预标注结果。

具体地，服务器通过深度学习神经网络对待标注文本图像进行多层卷积计算，实现对待标注文本图像的特征提取，例如，Mask RCNN Mask Region-Convolutional NeuralNetwork，掩码区域卷积神经网络)和CRNN(Convolutional Recurrent Neural Network，卷积循环神经网络)。

进一步地，文本图像预标注模块106根据提取得到的特征和目标文本框集合对待标注文本图像进行文本识别，根据文本识别结果得到待标注文本图像的标签，从而对待标注文本图像进行标注，得到待标注文本图像的预标注结果。例如，文本识别得到待标注文本图像中的文本信息为“小明在2019年9月份开始入学”，则可以得到“小明”的标签为人物，“2019年9月份”为时间。

后台处理模块104调用文本图像预标注模块106，得到待标注文本图像的预标注结果之后，将待标注文本图像的预标注结果返回至前端网页模块102。前端网页模块102通过文本图像标注界面展示待标注文本图像以及待标注文本图像的预标注结果。

由于待标注文本图像的预标注结果是由文本图像预标注模块106中的深度学习神经网络检测识别得到的，可能存在一定的偏差，所以在前端网页模块102展示待标注文本图像以及待标注文本图像的预标注结果之后，前端网页模块102可以接收用户触发的修正指令，根据修正指令对预标注结果进行修正，从而得到更加准确的标注结果。

其中，修正指令是终端用户对前端网页的触发操作，用于对预标注结果进行修正，包括目标文本框编辑指令和文本标签编辑指令等。编辑指令包括添加指令、移动指令、删除指令等。

具体地，文本图像标注界面的文本标注工具栏中还包括标注控件。其中，标注控件包括目标文本框的选择列表，在目标文本框的选择列表中，可以对目标文本框的边框类型、颜色等属性进行选择，边框类型包括矩形、多边形等。标注控件还包括文本属性选择列表，文本属性包括文本的颜色、字体、字号等。终端用户通过在文本标注工具栏中选择标注控件，对预标注结果进行修正。例如，将偏移的目标文本框移动到正确位置、将标注错误的目标文本框删除、添加正确的目标文本框、将标注错误的文本标签进行修改等，提高文本图像标注的准确性。

在一个实施例中，前端网络模块102将标注结果发送至后端处理模块104，后端处理模块104根据标注结果对文本图像预标注模块106中的文本图像标注模型进行更新，进一步提高文本图像标注模型对待标注文本图像的预标注操作的准确性，从而提高预标注的准确性，减少用户的修正操作，提高标注效率。

在一个实施例中，文本图像标注界面允许多个用户同时访问并进行文本图像的标注和浏览。服务器端可以采用多进程并发技术，提高多人同时访问文本图像标注界面时的流畅度，接收不同用户触发的对不同的待标注文本图像的预标注请求，执行对不同的待标注文本图像的预标注操作，实现多人协作，提高文本图像标注的效率。

在一个实施例中，文本图像标注系统100还包括数据库模块108，用于存储与文本图像标注相关的数据，例如待标注文本图像集、已标注文本的标注信息。

在一个实施例中，可以使用Docker将前端网页模块102、后台处理模块104、文本图像预标注模块106以及数据库模块108进行打包，可以减少工具部署的兼容性问题，使得系统的迁移更加的容易，提高文本图像标注系统的可用性。

上述文本图像标注系统中，通过前端网页模块提供文本图像标注界面，以使多个用户通过网页访问文本图像标注界面，对待标注文本图像进行标注，能够实现多人协作，提高标注效率。通过后台处理模块接收前端网页模块上发的预标注请求，获取预标注请求对应的待标注文本图像，调用文本图像预标注模块。文本图像预标注模块对待标注文本图像进行实例分割得到候选文本框集合；基于最小函数和交集运算，对候选文本框集合中的各个候选文本框进行计算，得到各个候选文本框之间的重叠度，根据重叠度在候选文本框集合中选取得到至少一个目标文本框，生成目标文本框集合，能够提高文本框的准确度，从而提高预标注的准确性。通过文本图像预标注模块对待标注文本图像进行特征提取，根据提取得到的特征与目标文本框集合，对待标注文本图像进行标注，得到待标注文本图像的预标注结果。后台处理模块再将预标注结果发送至前端网页模块，前端网页模块接收修正指令，根据修正指令对预标注结果进行修正，得到标注结果，进一步提高标注的准确性，能够有效地降低人力成本和时间成本，提高标注效率。

在一个实施例中，如图2所示，前端网页模块102还包括身份验证模块202、图像显示模块204和图像标注模块206。其中：

身份验证模块202，用于获取用户的身份信息，将身份信息发送至后台处理模块104，以使后台处理模块104获取用户信息，根据用户信息和身份信息对用户进行身份验证；

图像显示模块204，用于当通过身份验证时，获取与身份信息关联的文本图像集合，显示文本图像集合中的文本图像；

图像标注模块206，用于提供标注操作的接口，标注操作包括预标注操作和标注修正操作。

其中，身份信息用于唯一标识用户的信息，可以是用户的人脸信息、指纹信息或者用户账号和密码等。用户信息是存储在后端的，已注册的用户的信息。

具体地，用户可以在终端浏览器中访问前端网页的入口URL(uniform resourcelocator，统一资源定位系统)，即文本图像标注界面的入口。当用户请求访问文本图像标注界面时，前端网页模块102先渲染用户登陆界面，用户可以在用户登陆界面中输入用户的身份信息。身份验证模块202获取用户的身份信息，并将身份信息发送至后台处理模块104。后台处理模块104从数据库中获取用户信息，将身份信息和用户信息进行匹配，当匹配成功时，则通过身份验证，允许用户访问文本图像标注界面。

例如，当身份信息为人脸信息时，后台处理模块104在数据库中查找是否存储有人脸信息的匹配信息，当查找得到匹配信息时，则说明用户通过身份验证，反之，则不通过身份验证，用户无法访问文本图像标注界面。

进一步地，服务器端的数据库中预先存储了用户的身份信息，后台处理模块104将不同的身份信息与不同的待标注图像集合关联，实现文本图像标注任务的分配。当用户的身份信息通过身份验证时，后台处理模块104在数据库中查找得到与身份信息关联的待标注图像集合，并将该待标注图像集合发送至前端网页模块102中的图像显示模块204。图像显示模块204将该待标注图像集合显示，终端用户可以在文本图像标注界面中浏览该待标注图像集合，通过图像标注模块206对该待标注图像集合中的图像进行预标注操作、标注操作或标注修正操作。

本实施例中，通过在接收到网页访问请求时，获取用户的身份信息，对用户进行身份验证，避免信息泄露，提高安全性；并且，在用户通过身份验证后，将与用户身份信息关联的待标注图像集合发送至前端网页，为不同的用户分配不同的文本图像标注任务，实现多人协作，提高文本图像标注的效率。

在一个实施例中，文本图像预标注模块106还用于计算候选文本框集合中各个候选文本框的面积；获取候选文本框集合中各个候选文本框的检测分数；根据各个候选文本框的检测分数，在候选文本框集合中选取得到第一候选文本框；将第一候选文本框的面积分别与各个非第一候选文本框的面积进行最小函数运算，得到最小函数运算结果；将第一候选文本框分别与各个非第一候选文本框进行交集运算，得到第一候选文本框和各个非第一候选文本框之间的重叠面积；计算重叠面积与最小函数运算结果间的比值，得到第一候选文本框与各个非第一候选文本框之间的重叠度；当重叠度大于预设阈值时，去除非第一候选文本框，将第一候选文本框作为目标文本框；更新候选文本框集合，返回根据各个候选文本框的检测分数，在候选文本框集合中选取得到第一候选文本框的步骤，直至候选文本框集合中的候选文本框的个数为零，生成目标文本框集合。

其中，检测分数是文本图像标注模块106在对待标注文本图像进行实例分割得到候选文本框集合时，通过节点变换，计算得到各个候选文本框对应的置信度。第一候选文本框是候选文本框集合中检测分数最高的候选文本框。

具体地，文本图像标注模块106可以通过各个候选文本框内的区域在待标注文本图像中占用的像素点的个数来计算得到各个候选文本框的面积。文本图像标注模块106获取各个候选文本框的检测分数，将检测分数最高的候选文本框作为第一候选文本框，将其他候选文本框作为非第一候选文本框。通过最小函数将第一候选文本框的面积分别与各个非第一候选文本框的面积进行运算，通过第一候选文本框与各个非第一候选文本框相交的像素点的个数，计算得到第一候选文本框与各个非第一候选文本框的重叠面积，再计算重叠面积与最小函数运算结果间的比值，可以得到第一候选文本框与各个非第一候选文本框之间的重叠度。具体计算公式如下所示：

其中，D表示重叠度，A表示第一候选文本框的面积，B表示非第一候选文本框的面积。

在一个实施例中，可以根据各个候选文本框的检测分数，将候选文本框集合中的各个候选文本框按检测分数从高到低的顺序进行排列。

例如，候选文本框集合中有四个文本框a、b、c和d，检测分数分别是0.98、0.64、0.79和0.85。将各个候选文本框按检测分数从高到低的顺序进行排序，可以得到文本框a、d、c和b，并将文本框a作为第一候选文本框，将文本框d、c和b作为非第一候选文本框。那么可以先计算文本框a与d之间的重叠度，再计算文本框a与c、文本框a与b之间的重叠度。

假设文本框a与d之间的重叠度小于或等于预设阈值，保留文本框d；文本框a与c之间的重叠度大于预设阈值，去除文本框c；文本框a与b之间的重叠度小于或等于预设阈值，保留文本框b。

特别地，当文本框c位于文本框a内时，可以得到重叠度为1，从而将文本框c清除，提高目标文本框集合的准确度。传统的方法中，当文本框c位于文本框a内时，得到的是当文本框c与文本框a的比值，当文本框c远小于文本框a时，得到的重叠度小于预设阈值，将文本框c保留，使得得到的目标文本框集合的准确度较低。

进一步地，将文本框a作为目标文本框。此时，候选文本框集合中包括文本框d和b。将文本框d作为第一候选文本框，将文本框b作为非第一候选文本框，计算文本框d和b之间的重叠度。假设文本框d与b之间的重叠度小于或等于预设阈值，保留文本框b。将文本框d作为目标文本框。此时，候选文本框集合中仅包含文本框b，则无需再进行重叠度计算，将文本框b作为目标文本框。由此可以得到，目标文本框集合包括文本框a、文本框d和文本框b。

在本实施例中，通过最小函数和交集运算，得到各个候选文本框之间的重叠度，得到准确度更高的目标文本框集合，从而提高文本图像标注的准确性。

在一个实施例中，文本图像预标注模块106还用于通过掩码区域卷积神经网络对待标注文本图像进行实例分割得到候选文本框集合；通过复用掩码区域卷积神经网络中的特征金字塔网络，得到待标注文本图像的特征图；在特征图中确定目标文本框集合中各个目标文本框对应的目标特征区域；对目标特征区域进行掩码操作后，根据目标特征区域的长宽比对掩码操作后的目标特征区域进行池化，得到待标注文本图像的文本特征集合；基于侧连残差的视觉几何组卷积神经网络和连接时序分类网络对待标注文本图像的文本特征集合进行识别和标注，得到待标注文本图像的预标注结果。

其中，掩码区域卷积神经网络(Mask RCNN，Mask Region-Convolutional NeuralNetwork)是一种结合掩码操作的卷积神经网络，用于对待标注文本图像进行检测和分割。实例分割(Instance Segmentation)是在物体检测的基础上分割出物体的像素。

在一个实施例中，文本图像预标注模块106通过Mask RCNN网络对待标注文本图像进行实例分割得到候选文本框集合，通过最小函数和交集运算对候选文本框集合进行运算，得到目标文本框集合。

文本图像预标注模块106通过复用Mask RCNN中的FPN(Feature PyramidNetwork，特征金字塔网络)对待标注文本图像进行特征提取，能够得到待标注文本图像的特征图，在特征图中确定目标文本框集合中各个目标文本框对应的目标特征区域。

具体地，文本图像预标注模块106可以对待标注文本图像进行掩码操作；获取卷积核集合和移动步长集合，逐一读取卷积核集合中的各个卷积核和移动步长集合中的各个移动步长；根据各个卷积核和各个移动步长，对掩码操作后的待标注文本图像进行卷积计算，根据卷积计算后的结果，得到待标注文本图像的特征图；在特征图中确定目标文本框集合中各个目标文本框对应的目标特征区域。即，对待标注文本图像进行掩码操作，去除背景噪声，得到ROI(regions of interest，感兴趣区域)。获取卷积核集合和移动步长集合，对ROI进行多层卷积计算，得到多层特征图，将多层特征图融合，得到待标注文本图像的特征图。再根据各个目标文本框的位置坐标，在特征图中确定目标文本框集合中各个目标文本框对应的目标特征区域。

在确定各个目标文本框对应的目标特征区域之后，文本图像预标注模块106对目标特征区域进行掩码操作，再根据目标特征区域的长宽比对掩码操作后的目标特征区域进行池化，得到待标注文本图像的文本特征集合。

具体地，对各个目标文本框对应的目标特征区域进行掩码操作，进一步去除背景噪声，得到各个目标特征区域的ROI。获取各个目标特征区域的ROI的位置坐标，计算得到各个目标特征区域的ROI的尺寸，即长度和宽度，再计算长度和宽度的比值，得到各个目标特征区域的ROI的长宽比。以相同的长宽比对各个目标特征区域的ROI进行池化，得到待标注文本图像的文本特征集合。例如，目标特征区域的ROI的尺寸为32×32，长宽比为1，那么，可以将该目标特征区域的ROI池化到尺寸为2×2。其中，在对各个目标特征区域的ROI进行池化时，可以是平均池化、最大池化和随机池化。

在得到待标注文本图像的文本特征集合之后，文本图像预标注模块106基于侧连残差的视觉几何组卷积神经网络和连接时序分类网络对待标注文本图像的文本特征集合进行识别和标注，得到待标注文本图像的预标注结果。

其中，侧连残差的视觉几何组卷积神经网络是将残差网络(Residual Network，RES)结合到视觉几何组卷积神经网络(Visual Geometry Group，VGG)得到的编码器VGG-RES Encoder。文本标签是文本的命名实体，例如，人名的命名实体为人物，地名的命名实体为地点。

具体地，通过如图3所示的网络结构对文本特征集合进行识别和编码，得到文本特征编码集合。将连接时序分类器(connectionist temporal classification，CTC)作为解码器，对文本特征编码集合进行检测，得到待标注文本图像的文本识别结果。

进一步地，CTC的检测过程包括：将文本特征编码集合中各个目标特征区域的文本特征编码按列进行分块，得到各个目标特征区域的多个文本特征编码块，对各个文本特征编码块进行解码，输出每一块对应的字符。当文本特征编码块无效时，则输出占位符。对输出得到的字符进行过滤，将相邻的相同字符删除至仅剩一个字符，将无效占位符删除，得到待标注文本图像的文本识别结果。例如，输出得到的字符为“aaaa bbbbbb”，那么最终得到的结果为“ab”。

在其他实施例中，文本图像预标注模块106也可以通过其他深度学习网络来对待标注文本图像进行实例分割、提取特征和检测识别，本申请在此不做限定。

本实施例中，通过对目标特征区域进行池化，对特征进行降维，可以防止过拟合，提高文本图像标注的效率，并且，在池化时引入掩码机制，可以去除由文本行倾斜或弯曲引入的背景噪声，通过长宽比保持技术，保留不同长度的文本信息，保证文本信息的完整性。通过将VGG-RES Encoder作为编码器，将CTC作为解码器，可以加快文本识别的效率，提高文本识别的精度。

上述文本图像标注系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本申请提供的文本图像标注方法，可以应用于本申请提供的文本图像标注系统中。在一个实施例中，如4所示，提供了一种文本图像标注方法，以该方法应用于文本图像标注系统100中的服务器端为例进行说明，包括以下步骤：

步骤402，接收前端网页上发的预标注请求，该前端网页用于接收多个用户的触发操作，触发操作包括触发预标注请求，预标注请求携带待标注文本图像的标识；

步骤404，根据待标注文本图像的标识查找得到待标注文本图像；

步骤406，对待标注文本图像进行实例分割得到候选文本框集合；

步骤408，基于最小函数和交集运算，对候选文本框集合中的各个候选文本框进行计算，得到各个候选文本框之间的重叠度；根据重叠度在候选文本框集合中选取得到至少一个目标文本框，生成目标文本框集合；

步骤410，对待标注文本图像进行特征提取，根据提取得到的特征与目标文本框集合，对待标注文本图像进行标注，得到待标注文本图像的预标注结果；

步骤412，将预标注结果发送至前端网页，以使前端网页显示预标注结果，根据修正指令对预标注结果进行修正，得到标注结果。

在一个实施例中，如图5所示，在步骤502之前，方法还包括：

步骤502，在接收到前端网页的访问请求时，通过前端网页获取用户的身份信息，根据身份信息对用户进行身份验证；

步骤504，当通过身份验证时，获取与身份信息关联的待标注图像集合；

步骤506，将待标注图像集合发送至前端网页，以使前端网页显示待标注图像集合。

在一个实施例中，如图6所示，步骤408包括：

步骤602，计算候选文本框集合中各个候选文本框的面积；

步骤604，获取候选文本框集合中各个候选文本框的检测分数；根据各个候选文本框的检测分数，在候选文本框集合中选取得到第一候选文本框；

步骤606，将第一候选文本框的面积分别与各个非第一候选文本框的面积进行最小函数运算，得到最小函数运算结果；

步骤608，将第一候选文本框分别与各个非第一候选文本框进行交集运算，得到第一候选文本框和各个非第一候选文本框之间的重叠面积；

步骤610，计算重叠面积与最小函数运算结果间的比值，得到第一候选文本框与各个非第一候选文本框之间的重叠度；

步骤612，当重叠度大于预设阈值时，去除非第一候选文本框，将第一候选文本框作为目标文本框；

步骤614，更新候选文本框集合，返回根据各个候选文本框的检测分数，在候选文本框集合中选取得到第一候选文本框的步骤，直至候选文本框集合中的候选文本框的个数为零，生成目标文本框集合。

在一个实施例中，如图7所示，步骤410包括：

步骤702，通过复用掩码区域卷积神经网络中的特征金字塔网络，得到待标注文本图像的特征图；

步骤704，在特征图中确定目标文本框集合中各个目标文本框对应的目标特征区域；

步骤706，对目标特征区域进行掩码操作后，根据目标特征区域的长宽比对掩码操作后的目标特征区域进行池化，得到待标注文本图像的文本特征集合；

步骤708，基于侧连残差的视觉几何组卷积神经网络和连接时序分类网络对待标注文本图像的文本特征集合进行识别和标注，得到待标注文本图像的预标注结果。

在一个实施例中，如图8所示，提供了另一种文本图像标注方法，以该方法应用于文本图像标注系统100中的服务器端为例进行说明，包括以下步骤：

步骤802，在接收到前端网页的访问请求时，通过前端网页获取用户的身份信息，根据身份信息对用户进行身份验证，该前端网页用于接收多个用户的触发操作；

步骤804，当通过身份验证时，获取与身份信息关联的待标注图像集合；

步骤806，将待标注图像集合发送至前端网页，以使前端网页显示待标注图像集合；

步骤808，接收前端网页上发的预标注请求，该预标注请求携带待标注文本图像的标识；

步骤810，根据待标注文本图像的标识查找得到待标注文本图像；

步骤812，通过掩码区域卷积神经网络对待标注文本图像进行实例分割得到候选文本框集合；

步骤814，计算候选文本框集合中各个候选文本框的面积；

步骤816，获取候选文本框集合中各个候选文本框的检测分数；根据各个候选文本框的检测分数，在候选文本框集合中选取得到第一候选文本框；

步骤818，将第一候选文本框的面积分别与各个非第一候选文本框的面积进行最小函数运算，得到最小函数运算结果；

步骤820，将第一候选文本框分别与各个非第一候选文本框进行交集运算，得到第一候选文本框和各个非第一候选文本框之间的重叠面积；

步骤822，计算重叠面积与最小函数运算结果间的比值，得到第一候选文本框与各个非第一候选文本框之间的重叠度；

步骤824，当重叠度大于预设阈值时，去除非第一候选文本框，将第一候选文本框作为目标文本框；

步骤826，更新候选文本框集合，返回根据各个候选文本框的检测分数，在候选文本框集合中选取得到第一候选文本框的步骤，直至候选文本框集合中的候选文本框的个数为零，生成目标文本框集合；

步骤828，复用掩码区域卷积神经网络中的特征金字塔网络，得到待标注文本图像的特征图；

步骤830，在特征图中确定目标文本框集合中各个目标文本框对应的目标特征区域；

步骤832，对目标特征区域进行掩码操作后，根据目标特征区域的长宽比对掩码操作后的目标特征区域进行池化，得到所述待标注文本图像的文本特征集合；

步骤834，通过侧连残差的视觉几何组卷积神经网络对文本特征集合进行识别和编码，得到文本特征编码集合；

步骤836，通过连接时序分类网络对文本特征编码集合进行检测，得到待标注文本图像中各个目标特征区域的文本识别结果；

步骤838，根据各个目标特征区域的文本识别结果确定各个目标特征区域的文本标签，根据文本标签对各个目标特征区域进行标注，得到待标注文本图像的预标注结果；

步骤840，将预标注结果发送至前端网页，以使前端网页显示预标注结果，根据修正指令对预标注结果进行修正，得到标注结果。

关于文本图像标注方法的具体限定可以参见上文中对于文本图像标注系统的限定，在此不再赘述。

应该理解的是，虽然图4-8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图4-8中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本图像标注的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本图像标注方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本图像标注系统，其特征在于，所述系统包括：

后台处理模块，用于接收所述前端网页模块上发的请求，对所述请求进行处理，包括接收预标注请求，获取所述预标注请求对应的待标注文本图像，调用文本图像预标注模块，对所述待标注文本图像进行预标注，将预标注结果发送至前端网页模块；

文本图像预标注模块，用于对所述待标注文本图像进行实例分割得到候选文本框集合；基于最小函数和交集运算，对所述候选文本框集合中的各个候选文本框进行计算，得到所述各个候选文本框之间的重叠度；根据所述重叠度在所述候选文本框集合中选取得到至少一个目标文本框，生成目标文本框集合；

确定所述目标文本框集合中各个目标文本框对应的目标特征区域，对所述目标特征区域进行掩码操作，得到掩码特征区域，计算所述掩码特征区域的长度作为掩码长度，计算所述掩码特征区域的宽度，作为掩码宽度，计算所述掩码长度与所述掩码宽度的比值，将计算得到的比值作为掩码长宽比值，根据所述掩码长宽比值，对所述掩码特征区域进行池化，得到所述待标注文本图像的文本特征集合，所述文本特征集合中的文本特征的长度与宽度的比值与对应的掩码特征区域的掩码长宽比值一致；

对所述文本特征集合进行编码，得到文本特征编码集合，将所述文本特征编码集合中的文本特征编码分别进行分块，得到多个文本特征编码块，对所述文本特征编码块进行解码，得到各个所述文本特征编码块对应的字符，将相邻的相同字符删除至仅剩一个字符，得到所述待标注文本图像中各个目标特征区域的文本识别结果，根据所述文本识别结果确定所述目标特征区域的文本标签，根据所述文本标签对所述目标特征区域进行标注，得到所述待标注文本图像的预标注结果；

所述前端网页模块，还用于接收修正指令，根据所述修正指令对所述预标注结果进行修正，得到标注结果。

2.根据权利要求1所述的系统，其特征在于，所述前端网页模块包括：

身份验证模块，用于获取用户的身份信息，将所述身份信息发送至后台处理模块，以使所述后台处理模块获取用户信息，根据所述用户信息和所述身份信息对所述用户进行身份验证；

图像显示模块，用于当通过身份验证时，获取与所述身份信息关联的文本图像集合，显示所述文本图像集合中的文本图像；

图像标注模块，用于提供标注操作的接口，所述标注操作包括预标注操作和标注修正操作。

3.根据权利要求1所述的系统，其特征在于，所述文本图像预标注模块还用于计算所述候选文本框集合中各个候选文本框的面积；获取所述候选文本框集合中各个候选文本框的检测分数；根据所述各个候选文本框的检测分数，在所述候选文本框集合中选取得到第一候选文本框；将所述第一候选文本框的面积分别与各个非第一候选文本框的面积进行最小函数运算，得到最小函数运算结果；将所述第一候选文本框分别与所述各个非第一候选文本框进行交集运算，得到所述第一候选文本框和所述各个非第一候选文本框之间的重叠面积；计算所述重叠面积与所述最小函数运算结果间的比值，得到所述第一候选文本框与所述各个非第一候选文本框之间的重叠度；当所述重叠度大于预设阈值时，去除所述非第一候选文本框，将所述第一候选文本框作为目标文本框；更新所述候选文本框集合，返回所述根据所述各个候选文本框的检测分数，在所述候选文本框集合中选取得到第一候选文本框的步骤，直至所述候选文本框集合中的候选文本框的个数为零，生成目标文本框集合。

4.根据权利要求1所述的系统，其特征在于，所述文本图像预标注模块还用于通过掩码区域卷积神经网络对所述待标注文本图像进行实例分割得到候选文本框集合；通过复用所述掩码区域卷积神经网络中的特征金字塔网络，得到所述待标注文本图像的特征图；在所述特征图中确定所述目标文本框集合中各个目标文本框对应的目标特征区域；基于侧连残差的视觉几何组卷积神经网络和连接时序分类网络对所述待标注文本图像的文本特征集合进行识别和标注，得到所述待标注文本图像的预标注结果。

5.一种文本图像标注方法，其特征在于，所述方法包括：

根据所述待标注文本图像的标识查找得到待标注文本图像；

对所述待标注文本图像进行实例分割得到候选文本框集合；

6.根据权利要求5所述的方法，其特征在于，在所述接收前端网页上发的预标注请求之前，所述方法还包括：

在接收到所述前端网页的访问请求时，通过所述前端网页获取用户的身份信息，根据所述身份信息对所述用户进行身份验证；

当通过身份验证时，获取与所述身份信息关联的待标注图像集合；

将所述待标注图像集合发送至前端网页，以使所述前端网页显示所述待标注图像集合。

7.根据权利要求5所述的方法，其特征在于，所述基于最小函数和交集运算，对所述候选文本框集合中的各个候选文本框进行计算，得到所述各个候选文本框之间的重叠度；根据所述重叠度在所述候选文本框集合中选取得到至少一个目标文本框，生成目标文本框集合包括：

计算所述候选文本框集合中各个候选文本框的面积；

获取所述候选文本框集合中各个候选文本框的检测分数；根据所述各个候选文本框的检测分数，在所述候选文本框集合中选取得到第一候选文本框；

将所述第一候选文本框的面积分别与各个非第一候选文本框的面积进行最小函数运算，得到最小函数运算结果；

将所述第一候选文本框分别与所述各个非第一候选文本框进行交集运算，得到所述第一候选文本框和所述各个非第一候选文本框之间的重叠面积；

计算所述重叠面积与所述最小函数运算结果间的比值，得到所述第一候选文本框与所述各个非第一候选文本框之间的重叠度；

当所述重叠度大于预设阈值时，去除所述非第一候选文本框，将所述第一候选文本框作为目标文本框；

更新所述候选文本框集合，返回所述根据所述各个候选文本框的检测分数，在所述候选文本框集合中选取得到第一候选文本框的步骤，直至所述候选文本框集合中的候选文本框的个数为零，生成目标文本框集合。

8.根据权利要求5所述的方法，其特征在于，所述确定所述目标文本框集合中各个目标文本框对应的目标特征区域包括：

通过复用掩码区域卷积神经网络中的特征金字塔网络，得到所述待标注文本图像的特征图；

在所述特征图中确定所述目标文本框集合中各个目标文本框对应的目标特征区域；

所述对所述文本特征集合进行编码，得到文本特征编码集合包括：

基于侧连残差的视觉几何组卷积神经网络对所述文本特征集合进行编码，得到文本特征编码集合。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求5至8中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求5至8中任一项所述的方法的步骤。