CN112906683A

CN112906683A - 文本标注方法、装置及设备

Info

Publication number: CN112906683A
Application number: CN202110180619.5A
Authority: CN
Inventors: 冯歆然; 刘华杰; 王雅欣; 罗杰文
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2021-06-04

Abstract

本说明书实施例涉及人工智能技术领域，具有公开了一种文本标注方法、装置及设备，所述方法包括：将待标注文本转换为待标注图片；利用眼球追踪技术对获得业务员对所述待标注图片的关注图像信息，所述关注图像信息包括所述业务员对所述待标注图片的关注区域和关注频率；根据所述待标注图片中的像素点和所述待标注文本的字符之间的对应关系，将所述关注图像信息转换为关注字符信息；基于光学字符识别技术对所述关注字符信息进行筛选，获得所述待标注文本的标注信息。不需要人工手动标注，实现了文本的自动化、无感标注，提高了文本标注的效率。

Description

文本标注方法、装置及设备

技术领域

本说明书属于人工智能技术领域，尤其涉及一种文本标注方法、装置及设备。

背景技术

随着计算机互联网技术的发展，使用计算机技术对自然语言进行处理，以方便人们的工作生活越来越重要，如：智能对话机器人等，属于自然语言智能化的一种实现方式。而文本标注可以实现对自然语言文本中重要的信息进行标记，以方便用户查看、理解，或者可以利用标注的文本为后续人工智能对话提供数据基础。

目前，文本标注大多采用人工手工标注的方式，标注员在开发好的标注系统内进行点击，选择等操作，这个过程需要专门的专家专门花费时间和注意力进行标注，标注效率低，标注成本非常高。并且，这种方式的文本标注具有一定的主观性，每个标注员可能根据自己的认识对同一段文本标注不同粒度或方向的标签，影响文本标注的效率和准确性。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本说明书实施例的目的在于提供一种文本标注方法、装置及设备，实现了文本的自动化、无感化标注，提高了文本标注的效率，降低了文本标注的成本。

一方面，本说明书实施例提供了一种文本标注方法，方法包括：

将待标注文本转换为待标注图片；

利用眼球追踪技术对获得业务员对所述待标注图片的关注图像信息，所述关注图像信息包括所述业务员对所述待标注图片的关注区域和关注频率；

根据所述待标注图片中的像素点和所述待标注文本的字符之间的对应关系，将所述关注图像信息转换为关注字符信息；

基于光学字符识别技术对所述关注字符信息进行筛选，获得所述待标注文本的标注信息。

进一步地，所述利用眼球追踪技术对获得业务员对所述待标注图片的关注图像信息包括：

利用眼球追踪技术获取业务员对所述待标注图片的视线停留信息；

根据所述视线停留信息，获取业务员对所述待标注图片中各像素点的关注次数；

根据所述待标注图片构建待标注图像矩阵，所述待标注图像矩阵中的元素为所述待标注图片的像素点；

将所述待标注图像矩阵中各元素的数值设置为所述待标注图片中各元素的关注次数，将确定出元素数值的待标注图像矩阵作为所述关注图像信息。

进一步地，所述根据所述待标注图片中的像素点和所述待标注文本的字符之间的对应关系，将所述关注图像信息转换为关注字符信息，包括：

根据所述待标注文本构建待标注文本矩阵，其中，所述待标注文本矩阵中的元素为所述待标注文本的字符；

根据所述待标注文本矩阵中的字符与所述待标注图片中像素点之间的对应关系，将所述待标注图像矩阵中各个元素的数值转换为所述待标注文本矩阵中个元素的数值；

将确定出元素数值的待标文本矩阵作为所述关注字符信息。

进一步地，所述基于光学字符识别技术对所述关注字符信息进行筛选，获得所述待标注文本的标注信息，包括：

基于光学字符识别技术构建光学字符识别模型；

基于眼球追踪技术对历史待标注样本进行标注的历史关注图像信息，并将所述历史关注图像信息转换为对应的历史关注字符信息；

获取业务员对所述历史待标注样本进行标注的历史样本确认标注信息；

将所述历史关注字符信息作为所述光学字符识别模型的模型训练输入数据，将所述历史样本确认标注信息作为所述光学字符识别模型的模型训练标签数据，对所述光学字符识别模型进行模型训练，直至所述光学字符识别模型符合预设要求；

利用训练好的光学字符识别模型对所述关注字符信息进行筛选，获得所述待标注文本的标注信息。

获取业务员对所述待标注文本对应的指定数量的待标注图片进行文本标注，获得的所述指定数量的待标注图片的确认标注信息；

将所述指定数量的待标注图片的关注字符信息作为所述光学字符识别模型的优化训练输入数据，将所述指定数量的待标注图片的确认标注信息作为所述光学字符识别模型的优化训练标签数据，对所述光学字符识别模型进行优化，获得优化后的光学字符识别模型；

利用优化后的光学字符识别模型对所述待标注文本的关注字符信息进行标注，获得所述待标注文本的标注信息。

基于光学字符识别技术对所述关注字符信息进行筛选，获得所述待标注文本对应的标注字符矩阵，所述标注字符矩阵中的元素数值表示所述待标注文本中各个字符的标注频次；

根据所述标注字符矩阵确定所述待标注文本中重点标注区域的二维图片坐标；

根据所述待标注文本和所述待标注图片的对应关系，将所述重点标注区域的二维图片坐标转换为一维字符索引；

基于所述重点标注区域的一维字符索引获得所述待标注文本的标注信息。

进一步地，采用下述公式确定所述重点标注区域的二维图片坐标：

I1＝{(x_{1_1}:x_{1_2},y_{1_1}:y_{1_2}),(x_{2_1}:x_{2_2},y_{2_1}:y_{2_2})...(x_{n_1}:x_{n_2},y_{n_1}:y_{n_2})}

其中，I1表示重点标注区域的二维图片坐标的集合，x_{n_1}表示第n个重点标注区域的横轴起始点，x_{n_2}表示第n个重点标注区域的横轴终止点，y_{n_1}表示第n个重点标注区域的纵轴起始点，y_{n_2}表示第n个重点标注区域的纵轴终止点，(x_{n_1}:x_{n_2},y_{n_1}:y_{n_2})表示第n个重点标注区域的二维图片坐标。

进一步地，采用下述公式将所述重点标注区域的二维图片坐标转换为一维字符索引：

I2＝{(y_{1_1}×i+x_{1_1}:y_{1_2}×i+x_{1_2}),(y_{2_1}×i+x_{2_1}:y_{2_2}×i+x_{2_2})...(y_{n_1}×i+x_{n_1}:y_{n_2}×i+x_{n_2})}

其中，I2表示重点标注区域的一维字符索引，i表示所述标注字符矩阵的列数，(y_{n_1}×i+x_{n_1}:y_{n_2}×i+x_{n_2})表示第n个重点标注区域的一维字符索引。

另一方面，本说明书提供了一种文本标注装置，所述装置包括：

文本转换模块，用于将待标注文本转换为待标注图片；

眼球追踪标注模块，用于利用眼球追踪技术对获得业务员对所述待标注图片的关注图像信息，所述关注图像信息包括所述业务员对所述待标注图片的关注区域和关注频率；

标注信息字符转换模块，用于根据所述待标注图片中的像素点和所述待标注文本的字符之间的对应关系，将所述关注图像信息转换为关注字符信息；

标注信息筛选模块，用于基于光学字符识别技术对所述关注字符信息进行筛选，获得所述待标注文本的标注信息。

进一步地，所述眼球追踪标注模块具体用于：

进一步地，所述标注信息筛选模块具体用于：

将确定出元素数值的待标文本矩阵作为所述关注字符信息。

再一方面，本说明书实施例提供了一种文本标注设备，应用于服务器，设备包括至少一个处理器及用于存储处理器可执行指令的存储器，指令被处理器执行时实现包括上述文本标注方法。

本说明书提供的文本标注方法、装置及设备，将眼球追踪技术和光学字符识别技术相结合，对文本进行标注，并将标注方法嵌入到业务系统中，在业务员处理相关业务的过程中实现对文本的自动化标注，标注过程自动化、无感化，并且不需要专业的标注人员，降低了文本标注的成本和时间。此外，本说明书实施例中的文本标注方法，将“标注文本中具有业务价值的段落”转变为“标注图像中具有业务价值的区域”+“识别图像中的文本”两个任务，标注的成本更低，随着无纸化办公成为趋势，越来越多的业务相关文档以电子化的形式被录入、呈现和处理，这使得利用眼球追踪进行标注成为可能。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书实施例提供的文本标注方法实施例的流程示意图；

图2是本说明书实施例中文本自动标注的界面示意图；

图3是本说明书一个实施例中文本标注装置的结构示意图；

图4是本说明书一个实施例中文本标注服务器的硬件结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

本说明书实施例提供的一个场景示例中，文本标注方法可以应用于执行文本标注的设备，设备可以包括一个服务器，也可以包括多个服务器组成的服务器集群。可以将该文本标注方法集成在业务系统中，业务员在查看或使用业务系统中的相关信息时，可以基于本说明书实施例中提供的文本标注方法，获得业务员重点关注的信息，这些信息可以作为标注信息，实现文本的自动标注，标注信息可以为后续业务处理或业务的智能化对话等提供数据基础。

图1是本说明书实施例提供的文本标注方法实施例的流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或模块结构。的方法或模块结构的在实际中的装置、服务器或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。

具体的一个实施例如图1所示，本说明书提供的文本标注方法的一个实施例中，该方法可以应用于服务器、计算机、平板电脑、智能手机等终端，该方法可以包括如下步骤：

步骤102、将待标注文本转换为待标注图片。

在具体的实施过程中，其中，待标注文本可以理解为业务员处理的文本，或者指定的需要标注的文本，本说明书实施例不作具体限定。当业务人员处理文本相关信息时，可以自动开启嵌入在业务系统内的标注系统，这时标注系统会将文本当作图片，如：可以当前屏幕中展示的文本当作一个图片即为待标注图片，当业务员滚动屏幕上的文本时，再将屏幕上发生变化后的文本作为新的图片。可以看出，待标注文本可以转换为多张待标注图片，具体可以根据实际需要而定，本说明书实施例不作具体限定。

步骤104、利用眼球追踪技术对获得业务员对所述待标注图片的关注图像信息，所述关注图像信息包括所述业务员对所述待标注图片的关注区域和关注频率。

在具体的实施过程中，眼球追踪是一项科学应用技术，从原理上看，眼球追踪主要是研究眼球运动信息的获取、建模和模拟，用途颇广。而获取眼球运动信息的设备除了红外设备之外，还可以是图像采集设备，甚至一般电脑或手机上的摄像头，其在软件的支持下也可以实现眼球跟踪。

本说明书实施例中，利用可以预先利用眼球追踪技术收集、建模、模拟眼球运动信息，从而建立根据业务人员办公过程中的视线移动对图片进行标记的模型记为M1。再利用建立的模型M1对待标注文本转换后的待标注图片进行标注，可以输出待标注图片的关注图像信息。关注图像信息中可以包括业务员待标注图片的关注区域和关注频率，如：基于眼球追踪技术可以获得业务员在查看待标注文本对应的待标注图片时的视线停留信息，即可以获得业务员对待标注图片中哪些区域的视线停留时间比较长即为关注区域，进一步获取业务员对关注区域的关注频率。

本说明书一些实施例中，所述利用眼球追踪技术对获得业务员对所述待标注图片的关注图像信息包括：

在具体的实施过程中，可以先根据待标注图片构建一个待标注图像矩阵，该待标注图像矩阵中的元素可以表征待标注图片的像素点，如：基于当前设备屏幕上的呈现的图片可以获得一个a×b的矩阵P，其中a为图片横向的像素数，b为图片纵向的像素数，P中的每个元素对应图片中的一个像素点。利用眼球追踪技术获取业务员查看待标注图片时的视线停留信息，基于获取到的视线停留信息可以获取业务员对待标注图片中各像素点的关注次数。将待标注图像矩阵中各元素的数值设置为利用眼球追踪技术统计到的业务员对待标注图片中各个元素的关注次数，确定出元素数值的待标注图像矩阵中各个元素可以表示待标注图片的像素点，元素的数值可以表征待标注图片中各个像素点的关注频率，因此，该待标注图像矩阵可以表征上述实施例中的关注图像信息。如：本说明书一个示例中待标注图像矩阵可以表示为：

上述矩阵P中数值越大可以表示关注的频率越高，数值为0的可以理解为没有被关注。利用矩阵的形式可以直观的表征待标注图片中的重点关注区域，以及各个像素点被关注的程度。

需要说明的是，在利用眼球追踪技术统计各个像素点的关注次数时，可以统计指定时间内业务员对待标注图片中个各个像素点的关注次数的累加值，也可以将指定时间划分为n次，分n次统计业务员对待标注图片中个各个像素点的关注次数，得到n个标注图像矩阵，再将这n个标注图像矩阵中的元素值进行累加获得最终的标注图像矩阵。如：假设指定时间为10秒，每1秒记录一次业务员对待标注图片的关注信息，可以获得10个标注图像矩阵，将10个标注图像矩阵中的元素值进行累加获得最终的标注图像矩阵。待标注图片像素点的关注频次的统计方式根据实际需要进行设置，本说明书实施例不作具体限定。

步骤106、根据所述待标注图片中的像素点和所述待标注文本的字符之间的对应关系，将所述关注图像信息转换为关注字符信息。

在具体的实施过程中，待标注图片是由待标注文本转换获得的，待标注图片的各个像素点与待标注文本的各个字符存在对应关系，可以基于该对应关系将获得的关注图像信息转换为关注字符信息。

本说明书一些实施例中，所述根据所述待标注图片中的像素点和所述待标注文本的字符之间的对应关系，将所述关注图像信息转换为关注字符信息，包括：

将确定出元素数值的待标文本矩阵作为所述关注字符信息。

在具体的实施过程中，可以基于待标注文本构建待标注文本矩阵，如：构造一个全0的m×n矩阵G，其中m可以为待标注文本每行的长度，n为待标注文本的行数，G中的每个元素代表待标注文本中的一个字符。

待标注图像矩阵中的每个元素对应图像中的一个像素点，待标注文本矩阵中的每个字符和待标注图像矩阵中的一个区域可以建立一个映射关系，基于该映射关系可以将待标注图像矩阵中各个元素的数值转换为待标注文本矩阵中个元素的数值。如：将待标注图像矩阵中对应于同一个字符的元素的数值累加获得该字符对应在待标注文本矩阵中元素的数值，进而获得带有数值的待标注文本矩阵，如可以表示为下述G1：

待标注文本矩阵中每个元素的数值可以表示待标注文本中每个字符被关注的次数，基于该待标注文本矩阵可以直观的表示待标注文本各个字符是否为重点关注对象，该待标注文本矩阵即可以表示上述实施例中的关注字符信息。

步骤108、基于光学字符识别技术对所述关注字符信息进行筛选，获得所述待标注文本的标注信息。

在具体的实施过程中，眼球追踪技术是基于业务员在业务处理过程中视线的停留信息确定出待标注文本的标注信息，但基于眼球追踪技术获得的标注信息中可能存在一些不是业务需要的标注重点，本说明书实施例中，基于眼球追踪技术获得待标注文本的关注字符信息后，可以利用光学支付识别技术即OCR(Optical Character Recognition)定位技术对获得的关注字符信息进行筛选。其中，可以预先利用OCR技术训练构建出OCR定位模型，再利用OCR定位模型对基于眼球追踪技术获得的关注字符信息进行筛选和进一步的确认，以提高文本标注的准确性。

同时，在利用光学字符识别技术对眼球追踪技术获得的标注信息进行筛选时，使用的是关注字符信息，而不再是像素信息，关注字符信息的大小将远小于RGB模型采样的图片转化的矩阵，在深度学习的矩阵计算过程中，消耗的资源将显著少于像素表示的图片，提高了数据处理效率，进而提高文本标注的效率。

本说明书一些实施例中，所述基于光学字符识别技术对所述关注字符信息进行筛选，获得所述待标注文本的标注信息，包括：

基于光学字符识别技术构建光学字符识别模型；

在具体的实施过程中，本说明书一些实施例中，可以基于OCR技术构建出光学字符识别模型，光学字符识别模型具体可以使用神经网络算法或其他智能学习算法，本说明书实施例不作具体限定。再利用眼球追踪技术对历史待标注样本进行标注，获得历史关注图像信息，将历史关注图像信息转换对应的历史关注字符信息。再将历史待标注样本呈现给业务员进行人工确认，获得历史标注样本对应的历史样本确认标注信息，将获得的历史关注字符信息作为光学字符识别模型的模型训练输入数据，井对应的历史样本确认标注信息作为光学字符识别模型的模型训练标签数据，对光学字符识别模型进行模型训练，直至光学字符识别模型符合预设要求，训练完成光学字符识别模型。再利用训练好的光学字符识别模型对当前待标注文本对应的关注字符信息进行筛选，获得待标注文本的标注信息。

其中，将历史关注图像信息转换对应的历史关注字符信息的方法参考上述实施例中将关注图像信息转换为关注字符信息的方法，此处不再赘述。

此外，本说明书实施例可以将文本标注方法对应的文本标注系统嵌入到银行、金融、医疗等规模比较大的业务系统，这样可以依托银行、金融等机构大数据量，大业务量，拥有大量具备专业知识的业务人员参与的特点，使眼球追踪应用于标注系统具有实际的价值。在互联网行业或者高校等主导自然语言处理的研究机构中，业务量小，同时缺少对实际业务领域具有足够了解的业务专家，即使开发出相应的系统给普通标注人员，也不具备实用性。而在银行，医疗系统，政府机关等规模较大的机构中，存在大量具备专业知识的业务专家，适合这种无感化的标注系统进行大规模应用，随着智能化办公的推行和眼球追踪技术的成熟，在较大规模机构中应该发明能够快速得到大量低成本高质量的符合行业业务需求的标注数据。

本说明书实施提供的文本标注方法，将眼球追踪技术和光学字符识别技术相结合，对文本进行标注，并将标注方法嵌入到业务系统中，在业务员处理相关业务的过程中实现对文本的自动化标注，标注过程自动化、无感化，并且不需要专业的标注人员，降低了文本标注的成本和时间。此外，本说明书实施例中的文本标注方法，将“标注文本中具有业务价值的段落”转变为“标注图像中具有业务价值的区域”+“识别图像中的文本”两个任务，标注的成本更低，随着无纸化办公成为趋势，越来越多的业务相关文档以电子化的形式被录入、呈现和处理，这使得利用眼球追踪进行标注成为可能。

在上述实施例的基础上，本说明书一些实施例中，所述基于光学字符识别技术对所述关注字符信息进行筛选，获得所述待标注文本的标注信息，包括：

在具体的实施过程中，在利用OCR技术对眼球追踪技术获得的标注信息进行筛选时，可以先将待标注文本对应的指定数量的待标注图片呈现给业务员进行人工标注，利用人工标注结果对光学字符识别模型进行优化训练，使用优化后的光学字符识别模型对眼球追踪技术获得的标注信息进行筛选。

例如：若待标注文本转换为待标注图片时获得了10张待标注图片，利用眼球追踪技术可以获得10张待标注图片对应的关注图像信息，进而获得10张待标注图片对应的关注字符信息。再从10张待标注图片中任意选择2张图片展示给业务员进行人工标注，获得这2张待标注图片对应的确认标注信息。将这2张待标注图片对应的关注字符信息(眼球追踪技术获得的)作为上述实施例中创建的光学字符识别模型的优化训练输入数据，将这2张待标注图片对应的确认标注信息作为光学字符识别模型的优化训练标签数据，对光学字符识别模型进行优化，获得优化后的光学字符识别模型。利用优化后的光学字符识别模型对10张待标注图片对应的关注字符信息进行标注，即将10张待标注图片对应的关注字符信息输入到优化后的光学字符识别模型中，获得模型的输出结果即为待标注文本的标注信息。

本说明书实施例在使用OCR技术对眼球追踪技术识别出的标注信息进行筛选时，从眼球追踪技术识别结果中抽取少了的识别样本，对OCR识别技术建立的模型优化，再利用优化后的模型对眼球追踪技术的识别结果进行筛选，既确保了文本标注的准确性，又减少了业务员对眼球追踪技术的识别结果的确认过程的工作量，提升文本标注的效率。

在具体的实施过程中，参见上述实施例的记载，眼球追踪技术获得待标注文本的关注字符信息后，利用OCR技术对获得的关注信息进行筛选，可以获得待标注文本对应的标注字符矩阵，标注字符矩阵中的元素数值表示所述待标注文本中各个字符的标注频次。标注字符矩阵的行和列对应于待标注文本对应的每行的文本长度和文本行数，参见上述实施例的记载可以理解，标注字符矩阵的每个元素实际上与待标注文本或待标注图片的文字排列相关联，即眼球追踪技术获得的标注结果是一个与待标注文本或待标注图片对应的二维信息。根据标注字符矩阵可以确定出待标注文本中重点标注区域的二维图片坐标，如：可以将标注字符矩阵中元素数值大于指定阈值的元素在矩阵中的位置坐标作为该元素的二维图片坐标，以此类推，获得标注字符矩阵中各个重点标注区域的二维图片坐标。再根据待标注文本和待标注图片的对应关系，将获得的各个重点标注区域的二维图片坐标转换为一维字符索引，基于获得的一维字符索引获得待标注文本的标注信息。

一维字符索引可以理解为重点标注区域的字符在待标注文本整个文本内的字符排序，如：标注字符矩阵中有一个元素的数值大于指定阈值，将这个元素作为重点标注区域，获取这个元素的在标注字符矩阵中的位置作为该元素的二维图片坐标。再根据待标注文本和待标注图片的对应关系，获取这个元素在整个待标注文本中的排序，如：若这个元素在标注字符矩阵中为第二行第二个元素，标注字符矩阵每行有10个元素，标注字符矩阵每行的元素个数等于待标注文本每行的长度，那么可以基于待标注文本与待标注图片以及矩阵之间的对齐关系，可以确定出这个元素在整个待标注文本中的排序应该是低12个字符。

基于待标注文本中重点标注区域的一维字符索引，可以快速获得待标注文本中哪些字符是需要标注的，基于实际使用需要，可以根据一维字符索引将待标注文本中需要标注的字符按照指定的格式标注出来。

本说明书一些实施例中，可以采用下述公式确定所述重点标注区域的二维图片坐标：

参见上述公式可以知道，本说明书实施例中可以根据标注字符矩阵中各个元素的数值来确定出重点标注区域，如：将元素数值大于指定阈值的元素作为重点标注区域。基于重点标注区域的元素在标注字符矩阵中的位置，获得重点标注区域的二维图片坐标。如：假设标注字符矩阵为

元素数值大于2的作为重点标注区域，那么改矩阵G3中第一行第4个到第5个元素可以作为第一个重点标注区域，本说明书实施例中在获取重点标注区域在标注字符矩阵的位置时，标注字符矩阵的行和列从0开始起计算，则该重点标注区域的二维图片坐标为(3:4，0:0)，以此类推，获得G3中的重点标注区域的二维图片坐标集合可以为：

I1＝{(3:4，0:0)，(4:5，1:1)，(7:9，3:3)}

上述示例中，一个重点标注区域位于标注字符矩阵的同一行，因此重点标注区域的纵轴起始点和终止点相同，根据实际使用需要，可能存在重点标注区域在连续的几行，此时重点标注区域的纵轴起始点和终止点会不同。

本说明书一些实施例中，采用下述公式将所述重点标注区域的二维图片坐标转换为一维字符索引：

其中，I2表示重点标注区域的一维字符索引，i表示所述标注字符矩阵的列数减1，(y_{n_1}×i+x_{n_1}:y_{n_2}×i+x_{n_2})表示第n个重点标注区域的一维字符索引。

延续上述实施例中的标注字符矩阵G3，其中标注字符矩阵G3的列数i为10，根据G3中的重点标注区域的二维图片坐标集合，可以获得重点标注区域的一维字符索引为：

I2＝{(3:4)，(14:15)，(37:39)}

重点标注区域的一维字符索引可以理解为重点标注的字符在整个待标注文本中的排序，基于该一维字符索引可以快速查询到待标注文本中需要重点标注的内容。

参见上述实施例中的记载，可以知道本说明书实施例中在计算二维图片坐标和一维字符索引时，标注字符矩阵的行和列是从0开始计算的。

本说明书实施例，通过将待标注文本转换为待标注图片，利用眼球追踪技术和OCR技术对待标注图片进行标注，获得对应的标注结果，该标注结果是与待标注图片对齐的二维标注信息，将二维标注信息转换为一维字符索引，更加方便自然语言处理，提升文本标注的效率。

本说明书实施例在获得待标注文本的标注信息后，还可以基于业务员对标注信息的反馈对眼球追踪技术以及OCR技术的模型进行优化，以使得文本标注的结果更加符合业务需求。

下面结合一个场景示例具体介绍本申请中的文本标注过程：

将标注系统嵌入业务系统，从业务系统中收集业务名称，业务内容等相关信息并配置在标注系统中。这些信息可以作为后续整理标注信息、整合标签的依据。

在业务人员处理文本相关信息时，标注系统自动开启，这时系统会将整个文本当做图片，利用眼球追踪技术收集、建模、模拟眼球运动信息，从而建立根据业务人员办公过程中的视线移动对图片进行标记的模型(M1)，输出图片标记坐标和标记频率用于记录图片上哪些区域有业务人员的视线停留，以及这些区域内视线停留时间，视线停留时间长的区域是业务人员重点关注的内容，具有更高的业务价值。

可以根据待标注文本构造一个全0的m×n矩阵G，其中m为待标注文本每行的长度，n为待标注文本的行数，G中的每个元素代表文本中的一个字符，如下：

同时由待标注文本在屏幕上的呈现的图片可以获得一个a×b的矩阵P，其中a为图片横向的像素数，b为图片纵向的像素数，P中的每个元素对应图像中的一个像素点。矩阵G中的每个字符和矩阵P中的一个区域[q_m,q_n]可以建立一个映射关系。在业务人员处理文本时会留下眼球追踪记录，利用眼球追踪模型M1，获取待标注文本对应的待标注图片的的标注信息即关注图像信息P1，如P1可以表示为如下：

对P1中的每个区域使用softmax，转化为G中每个元素是否被关注的标记M，M为0或1，业务人员处理一个待标注图片的时间段中会留下n次标记信息，则累加这n次的(M₁,M₂,...,M_n)得到自然数k，k越大表示记录越多，由此得到G1，G1是记录待标注文本中每个字符是否被关注的矩阵，其中每个元素的数值可以表示文本中对应坐标的字符受到关注的次数，如G1可以表示为：

G1是一个用矩阵表示图像的数字化的图像信息，而不同的是，矩阵G1保存的是文本字符粒度的采样信息而非像素粒度。使用G1标记原图片并呈现给业务人员确认，记录确认结果为G2：

将G1作为训练数据，G2作为标签，送入深度学习模型进行训练，得到根据眼球追踪结果预测重要信息区域的模型M2。M2可以用于后续优化流程，减少或取消业务人员确认的过程，初次标注时，业务人员需要大量确认，相当于进行OCR标注，获得M2之后可逐渐减少业务人员确认，每次确认的信息作为M2增量训练数据。如：可以从待标注文本对应的待标注图片中选择少量的图片呈现给业务员进行确认，基于业务员对选择出的待标注图片的标注信息对M2进行优化训练，利用优化后的M2对G1进行进一步的标注筛选。

由于矩阵G1中每个元素代表的是一个字符而非一个像素点，矩阵G1的大小将远小于RGB模型采样的图片转化的矩阵，因此在深度学习的矩阵计算过程中，消耗的资源将显著少于像素表示的图片。利用优化后的模型M2预测G1，获得重要信息区域的标注G3。在这个过程中，G1是眼球追踪技术的识别结果，G2是业务人员确认的标注信息，G3是OCR模型对G1的确认标注识别结果，最终可实现模型M2直接预测G1得到G3，后续的G2可以作为M2的增量训练数据。

基于G3，生成重要n个信息区域的二维图片坐标I1，此时，标注信息为更接近OCR标注的二维图片坐标，在自然语言处理中不方便使用，可以根据文档与图片对齐的相关信息，将重要信息区域的图片n个二维坐标映射转化为n个一维字符索引I1，其中I1、I2的确定方法具体参见上述实施例的记载，此处不再赘述。由此获得了待标注文本的标注信息I2，即“原始文本-关键内容”的标注结果。

可以将标注结果抽样提供给业务人员确认，根据业务人员确认的结果优化系统和模型。后续根据业务人员反馈，可以进行如下的优化：1)、调整眼球追踪阈值，以获得更精确的业务人员关注区域。2)、优化OCR定位模型，以获得更好的标注结果。

现有的标注方法对图像的标注更加适合，而由于自然语言的语料在现有的标注系统中可以被看做是一维的，标注人员在标注自然语言数据时，覆盖的信息较少，标注效率更低，同时由于自然语言的标注需要更多业务知识，往往需要业务人员有更深的业务背景，并且花费专门的注意力，成本较高，效率也更低。本说明书实施例提供的文本标注方法改变了标注内容：由之前“标注文本中具有业务价值的段落”转变为“标注图像中具有业务价值的区域”+“识别图像中的文本”两个任务，标注的成本更低。随着无纸化办公成为趋势，越来越多的业务相关文档以电子化的形式被录入、呈现和处理，这使得利用眼球追踪进行标注成为可能。

现有的文本标注需要标注人员在系统中使用鼠标等交互工具进行点选，拖拉，输入，保存，翻页等动作，操作不便，且需要业务专家专门花费时间学习熟悉标注系统并进行标注动作，标注的时间成本和人工成本非常高。本说明书实施例将眼球追踪技术用于标注系统，并嵌入业务办公流程，取消专门的标注行为，实现标注的无感化，降低了标注成本。

并且，本说明实施例中的文本标注方法已经确定标注对象为图片形式的文本，所以可以在标注过程中采用字符粒度的信息进行采样，图片数字化后的矩阵更小，神经网络的计算量会大大减少。标注、训练、预测的效率会更高，同时也可以使用更深更宽的网络结构获得更好的效果。

此外，本说明书实施例改进了现有的标注系统，将标注系统嵌入于业务系统之中，业务人员在阅读业务相关文本进行办公的同时，系统自动通过眼球追踪相关硬件，在屏幕上自动标注出业务人员注意力集中的区域。图2是本说明书实施例中文本自动标注的界面示意图，如图2所示，本说明书实施例可以自动将这种标注转化为对文本的标注，当然，标注的形式可以根据实际需要进行调整，不需要业务专家专门花费时间进行标注，也没有专门的标注动作，因为标注过程和业务人员办公完全同步，多以在这个过程中，只需业务人员进行正常办公，系统自动收集相关信息完成自然语言的标注，标注成本较低。

本说明书中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参考即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参考方法实施例的部分说明即可。

基于上述的文本标注方法，本说明书一个或多个实施例还提供一种用于文本标注的装置。装置可以包括使用了本说明书实施例方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思，本说明书实施例提供的一个或多个实施例中的装置如下面的实施例。由于装置解决问题的实现方案与方法相似，因此本说明书实施例具体的装置的实施可以参考前述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统、装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是本说明书一个实施例中文本标注装置的结构示意图，如图3所示，本说明书一些实施例中提供的文本标注装置可以应用于上述实施例中的服务器，具体可以包括：

文本转换模块31，用于将待标注文本转换为待标注图片；

眼球追踪标注模块32，用于利用眼球追踪技术对获得业务员对所述待标注图片的关注图像信息，所述关注图像信息包括所述业务员对所述待标注图片的关注区域和关注频率；

标注信息字符转换模块33，用于根据所述待标注图片中的像素点和所述待标注文本的字符之间的对应关系，将所述关注图像信息转换为关注字符信息；

标注信息筛选模块34，用于基于光学字符识别技术对所述关注字符信息进行筛选，获得所述待标注文本的标注信息。

本说明书实施例提供的文本标注装置，将眼球追踪技术和光学字符识别技术相结合，对文本进行标注，并将标注方法嵌入到业务系统中，在业务员处理相关业务的过程中实现对文本的自动化标注，标注过程自动化、无感化，并且不需要专业的标注人员，降低了文本标注的成本和时间。此外，本说明书实施例中的文本标注方法，将“标注文本中具有业务价值的段落”转变为“标注图像中具有业务价值的区域”+“识别图像中的文本”两个任务，标注的成本更低，随着无纸化办公成为趋势，越来越多的业务相关文档以电子化的形式被录入、呈现和处理，这使得利用眼球追踪进行标注成为可能。

本说明书一些实施例中，所述眼球追踪标注模块具体用于：

本说明书一些实施例中，所述标注信息筛选模块具体用于：

将确定出元素数值的待标文本矩阵作为所述关注字符信息。

本说明书实施例提供的文本标注装置，利用矩阵的形式可以直观的表征待标注图片中的重点关注区域，以及各个像素点被关注的程度。

需要说明的，上述的装置根据对应方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照上述对应的方法实施例的描述，在此不作一一赘述。

本说明书实施例还提供一种文本标注设备，应用于服务器，设备包括至少一个处理器及用于存储处理器可执行指令的存储器，指令被处理器执行时实现包括上述实施例中的文本标注方法，如：

将待标注文本转换为待标注图片；

需要说明的，上述的设备根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本说明书提供的上述实施例的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上，的存储介质可以计算机读取并执行，实现本说明书实施例所描述方案的效果。

本说明书实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图4是本说明书一个实施例中文本标注服务器的硬件结构框图，该计算机终端可以是上述实施例中的文本标注服务器或文本标注处理装置。如图4所示服务器10可以包括一个或多个(图中仅示出一个)处理器100(处理器100可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的非易失性存储器200、以及用于通信功能的传输模块300。本领域普通技术人员可以理解，图4所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器10还可包括比图4中所示更多或者更少的组件，例如还可以包括其他的处理硬件，如数据库或多级缓存、GPU，或者具有与图4所示不同的配置。

非易失性存储器200可用于存储应用软件的软件程序以及模块，如本说明书实施例中的打车数据处理方法对应的程序指令/模块，处理器100通过运行存储在非易失性存储器200内的软件程序以及模块，从而执行各种功能应用以及资源数据更新。非易失性存储器200可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，非易失性存储器200可进一步包括相对于处理器100远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输模块300包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块300可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书实施例提供的上述文本标注方法或装置可以在计算机中由处理器执行相应的程序指令来实现，如使用windows操作系统的c++语言在PC端实现、linux系统实现，或其他例如使用android、iOS系统程序设计语言在智能终端实现，以及基于量子计算机的处理逻辑实现等。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参考即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参考方法实施例的部分说明即可。

虽然本说明书一个或多个实施例提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式资源数据更新环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参考即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参考方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上仅为本说明书一个或多个实施例的实施例而已，并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说，本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在权利要求范围之内。

Claims

1.一种文本标注方法，其特征在于，所述方法包括：

将待标注文本转换为待标注图片；

2.如权利要求1所述的方法，其特征在于，所述利用眼球追踪技术对获得业务员对所述待标注图片的关注图像信息包括：

3.如权利要求2所述的方法，其特征在于，所述根据所述待标注图片中的像素点和所述待标注文本的字符之间的对应关系，将所述关注图像信息转换为关注字符信息，包括：

将确定出元素数值的待标文本矩阵作为所述关注字符信息。

4.如权利要求1所述的方法，其特征在于，所述基于光学字符识别技术对所述关注字符信息进行筛选，获得所述待标注文本的标注信息，包括：

基于光学字符识别技术构建光学字符识别模型；

5.如权利要求4所述的方法，其特征在于，所述基于光学字符识别技术对所述关注字符信息进行筛选，获得所述待标注文本的标注信息，包括：

6.如权利要求1所述的方法，其特征在于，所述基于光学字符识别技术对所述关注字符信息进行筛选，获得所述待标注文本的标注信息，包括：

7.如权利要求6所述的方法，其特征在于，采用下述公式确定所述重点标注区域的二维图片坐标：

8.如权利要求7所述的方法，其特征在于，采用下述公式将所述重点标注区域的二维图片坐标转换为一维字符索引：

9.一种文本标注装置，其特征在于，所述装置包括：

文本转换模块，用于将待标注文本转换为待标注图片；

10.如权利要求9所述的装置，其特征在于，所述眼球追踪标注模块具体用于：

11.如权利要求10所述的装置，其特征在于，所述标注信息筛选模块具体用于：

将确定出元素数值的待标文本矩阵作为所述关注字符信息。

12.一种文本标注设备，其特征在于，应用于服务器，设备包括至少一个处理器及用于存储处理器可执行指令的存储器，指令被处理器执行时实现包括上述权利要求1-8任一项方法的步骤。