CN114492310A

CN114492310A - 文本标注方法、文本标注装置、电子设备和存储介质

Info

Publication number: CN114492310A
Application number: CN202210143149.XA
Authority: CN
Inventors: 龙珊; 吴星; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2022-05-13
Anticipated expiration: 2042-02-16
Also published as: CN114492310B

Abstract

本申请提供一种文本标注方法、文本标注装置、电子设备和存储介质，属于人工智能技术领域。该方法包括：获取并显示待标注文本数据，对目标文本进行标注，分别得到并显示第一标注标签和第二标注标签，通过第一标签选择指令和第二标签选择指令对标签关系列表进行筛选处理，得到并显示可选关系列表，获取选中目标关系属性的关系选择指令并根据关系选择指令显示目标关系属性。通过在用户对目标文本进行标注后，分别显示对应的标注标签，且在标注关系属性后，也对应显示目标关系属性，通过在标注过程中及时显示标注标签和关系属性，清晰地呈现用户在标注过程中的标注结果，便于用户及时检查标注是否出错，以提高标注数据的正确率。

Description

文本标注方法、文本标注装置、电子设备和存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文本标注方法、文本标注装置、电子设备和存储介质。

背景技术

在自然语言处理过程中，很多语言处理模型都需要大量标注好的数据进行模型训练。例如，可以通过标注好的数据来训练语音识别模型，从而完成对语音数据的识别。

相关技术中，在通过人工对数据进行标注的过程中，对标注结果的呈现不够清晰，导致标注数据的正确率不高。

发明内容

本申请实施例的主要目的在于提出一种文本标注方法、文本标注装置、电子设备和存储介质，以清晰地呈现标注结果，提高标注数据的质量。

为实现上述目的，本申请实施例的第一方面提出了一种文本标注方法，所述方法包括：

获取并显示待标注文本数据；其中，所述待标注文本数据包括第一目标文本和第二目标文本；

对所述第一目标文本进行标注，得到并显示第一标注标签；

对所述第二目标文本进行标注，得到并显示第二标注标签；

获取选中所述第一标注标签的第一标签选择指令；

获取选中所述第二标注标签的第二标签选择指令；

通过所述第一标签选择指令和所述第二标签选择指令对标签关系列表进行筛选处理，得到并显示可选关系列表；其中，所述可选关系列表包括所述第一标注标签与所述第二标注标签之间的目标关系属性；

获取选中所述目标关系属性的关系选择指令；

根据所述关系选择指令显示所述目标关系属性；

根据所述第一目标文本、所述第二目标文本、所述第一标注标签、所述第二标注标签、所述目标关系属性得到结构化文本数据。

在一些实施例中，所述对所述第一目标文本进行标注，得到并显示第一标注标签，包括：

获取对所述第一目标文本进行选择的第一文本选择指令；

根据所述第一文本选择指令得到并显示可选标签列表；其中，所述可选标签列表包括所述第一标注标签；

获取选中所述第一标注标签的第一标签选择指令；

根据所述第一标签选择指令显示所述第一标注标签。

在一些实施例中，所述获取对所述第一目标文本进行选择的第一文本选择指令之后，所述方法还包括：

根据所述第一文本选择指令得到文本开始位置和文本结束位置；

将所述文本开始位置和所述文本结束位置进行存储，得到文本位置信息；

根据所述第一目标文本、所述第二目标文本、所述第一标注标签、所述第二标注标签、所述目标关系属性、所述文本位置信息得到结构化文本数据。

在一些实施例中，所述根据所述第一文本选择指令得到并显示可选标签列表，包括：

获取所述第一文本选择指令；

通过实体识别模型对所述第一目标文本进行识别，得到与所述第一目标文本对应的标签类型；

根据所述标签类型得到所述可选标签列表；

显示所述可选标签列表。

在一些实施例中，所述标签关系列表包括多个标签关系属性，所述通过所述第一标签选择指令和所述第二标签选择指令对标签关系列表进行筛选处理，得到并显示可选关系列表，包括：

根据所述第一标签选择指令和所述第二标签选择指令得到目标标签关系；

根据所述目标标签关系在所述标签关系列表中进行查找，得到与所述目标标签关系匹配的所述标签关系属性；

将与所述目标标签关系匹配的所述标签关系属性作为所述可选关系列表；

在标签关系线上显示所述可选关系列表；其中，所述标签关系线由所述第一标注标签指向所述第二标注标签。

在一些实施例中，所述获取并显示待标注文本数据之前，所述方法还包括：

获取待检测语音数据；

对所述待检测语音数据进行分段截取处理，得到分段语音数据；

对所述分段语音数据进行语音识别处理，得到初步文本数据；

对所述初步文本数据进行文本校正处理，得到所述待标注文本数据。

在一些实施例中，所述对所述初步文本数据进行文本校正处理，得到所述待标注文本数据，包括：

显示所述初步文本数据；

获取语音播放指令，并根据所述语音播放指令播放所述分段语音数据；

获取根据所述分段语音数据得到的校正文本数据；

根据所述校正文本数据对所述初步文本数据进行校正，得到所述待标注文本数据。

为实现上述目的，本申请的第二方面提出了一种文本标注装置，所述装置包括：

文本显示模块，所述文本显示模块用于获取并显示待标注文本数据；其中，所述待标注文本数据包括第一目标文本和第二目标文本；

第一标注模块，所述第一标注模块用于对所述第一目标文本进行标注，得到并显示第一标注标签；

第二标注模块，所述第二标注模块用于对所述第二目标文本进行标注，得到并显示第二标注标签；

第一获取模块，所述第一获取模块用于获取选中所述第一标注标签的第一标签选择指令；

第二获取模块，所述第二获取模块用于获取选中所述第二标注标签的第二标签选择指令；

筛选模块，所述筛选模块用于通过所述第一标签选择指令和所述第二标签选择指令对标签关系列表进行筛选处理，得到并显示可选关系列表；其中，所述可选关系列表包括所述第一标注标签与所述第二标注标签之间的目标关系属性；

关系选择模块，所述关系选择模块用于获取选中所述目标关系属性的关系选择指令；

关系显示模块，所述关系显示模块用于根据所述关系选择指令显示所述目标关系属性；

数据生成模块，所述数据生成模块用于根据所述第一目标文本、所述第二目标文本、所述第一标注标签、所述第二标注标签、所述目标关系属性得到结构化文本数据。

为实现上述目的，本申请的第三方面提出了一种电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本申请如上述第一方面所述的方法。

为实现上述目的，本申请的第四方面提出了一种存储介质，该存储介质是计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：

如上述第一方面所述的方法。

本申请实施例提出的一种文本标注方法、文本标注装置、电子设备和存储介质，通过显示待标注文本数据，并在用户对目标文本进行标注后，分别显示对应的标注标签，且在标注关系属性后，也对应显示所标注的目标关系属性，最终得到结构化文本数据。通过在标注过程中及时显示标注标签和关系属性，清晰地呈现用户在标注过程中的标注结果，便于用户及时检查标注是否出错，以提高标注数据的正确率。

附图说明

图1是本申请一实施例提供的文本标注方法的流程图；

图2是图1中步骤S200的流程图；

图3是本申请一实施例的标注界面的示意图；

图4是本申请另一实施例的标注界面的示意图；

图5是本申请另一实施例提供的文本标注方法的流程图；

图6是图2中步骤S220的流程图；

图7是图1中步骤S600的流程图；

图8是本申请又一实施例的标注界面的示意图；

图9是本申请又一实施例的标注界面的示意图；

图10是本申请又一实施例提供的文本标注方法的流程图；

图11是图10中步骤S140的流程图；

图12是本申请又一实施例的标注界面的示意图；

图13是本申请一实施例提供的文本标注装置的模块图；

图14是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

首先，对本申请中涉及的若干名词进行解析：

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着机器学习技术的发展，涌现了许多种类的机器学习算法，其主要包括了：监督学习、无监督学习、强化学习。其中，监督学习是从有标注的训练数据中学习得到一个模型，然后根据这个模型对未知样本进行预测。在训练监督学习模型时，需要大量的有标注的训练数据。通常情况下，需要耗费大量的人力，通过人工手动对数据进行标注，来得到有标注的训练数据。相关技术中在标注训练数据时，仅返回最终的标注结果，在标注过程中，对用户的操作动作无相应的响应，且对标注结果的呈现不够清晰，导致用户无法在标注过程中及时发现标注错误，导致标注数据的正确率不高。

基于此，本申请实施例提供一种文本标注方法、文本标注装置、电子设备和存储介质，可以在标注过程中及时显示标注标签和关系属性，清晰地呈现用户在标注过程中的标注结果，便于用户及时检查标注是否出错，以提高标注数据的正确率。

本申请实施例提供一种文本标注方法、文本标注装置、电子设备和存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的文本标注方法。

本申请实施例提供的文本标注方法，涉及人工智能技术领域。本申请实施例提供的文本标注方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现文本标注方法的应用等，但并不局限于以上形式。

图1是本申请实施例提供的文本标注方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S100至步骤S900。

S100，获取并显示待标注文本数据；其中，待标注文本数据包括第一目标文本和第二目标文本；

S200，对第一目标文本进行标注，得到并显示第一标注标签；

S300，对第二目标文本进行标注，得到并显示第二标注标签；

S400，获取选中第一标注标签的第一标签选择指令；

S500，获取选中第二标注标签的第二标签选择指令；

S600，通过第一标签选择指令和第二标签选择指令对标签关系列表进行筛选处理，得到并显示可选关系列表；其中，可选关系列表包括第一标注标签与第二标注标签之间的目标关系属性；

S700，获取选中目标关系属性的关系选择指令；

S800，根据关系选择指令显示目标关系属性；

S900，根据第一目标文本、第二目标文本、第一标注标签、第二标注标签、目标关系属性得到结构化文本数据。

本申请实施例提出的文本标注方法，通过显示待标注文本数据，并在用户对目标文本进行标注后，分别显示对应的标注标签，且在标注关系属性后，也对应显示所标注的目标关系属性，最终得到结构化文本数据。通过在标注过程中及时显示标注标签和关系属性，清晰地呈现用户在标注过程中的标注结果，便于用户及时检查标注是否出错，以提高标注数据的正确率。

本申请实施例的文本标注方法可以应用于标注员标注文本数据，标注员可以通过用户操作界面来对文本信息进行标注操作。下面以标注员是用户为例，详细描述本申请的文本标注方法。

步骤S100中，获取并显示待标注文本数据。用户可以通过网页或计算机程序上的用户操作界面，通过上传操作来上传需要标注的文本数据，如上传txt格式的文本数据。或者，通过语音识别处理后，将语音数据转化为文本数据，来得到对应的待标注文本数据。获取到待标注文本数据后，将待标注文本数据发送至可视化操作界面上进行显示，以供用户进行标注操作。可以理解的是，待标注文本数据中，包括了需要进行标注操作的第一目标文本和第二目标文本，在一次标注过程中，待标注文本数据中可以包括多个第一目标文本与多个第二目标文本。

在一些实施例中，参照图2，步骤S200中，对第一目标文本进行标注，得到并显示第一标注标签，包括：

S210，获取对第一目标文本进行选择的第一文本选择指令；

S220，根据第一文本选择指令得到并显示可选标签列表；其中，可选标签列表包括第一标注标签；

S230，获取选中第一标注标签的第一标签选择指令；

S240，根据第一标签选择指令显示第一标注标签。

将待标注文本数据在可视化用户操作界面上进行显示后，用户即可以通过用户操作界面通过操作动作对目标文本进行标注。首先通过步骤S210，获取对第一目标文本进行选择的第一文本选择指令，第一文本选择指令可以为用户通过鼠标发送的操作指令。例如，用户通过按住鼠标左键并通过拖动，进而选中需要标注的第一目标文本；或者，用户可以通过使用框选的方式，选中需要标注的第一目标文本；或者，用户通过鼠标点击某个文本字符，系统即会自动选择相邻的文本字符，以此作为第一目标文本。可以理解的是，通过第一文本选择指令选择得到的第一目标文本的字符长度是不固定的，可以由用户任意选择。且在选中对应的第一目标文本的情况下，可以将第一目标文本进行高亮显示，例如，改变第一目标文本中文字的颜色，或者改变第一目标文本中文字的底色等。通过高亮显示第一目标文本的方式，可以清晰地呈现用户当前选择的文本字符，以供用户确定选择的文本字符是否正确。当本申请的文本标注方法通过网页来实施时，通过额外添加<span class＝“text-tag”></span>字符，来在网页中渲染文本字符的颜色，以此将第一目标文本进行高亮显示。

然后通过步骤S220，当系统识别到用户通过第一文本选择指令选中对应的第一目标文本后，系统即会调用并显示出可选标签列表，可选标签列表中包括了用户需要进行选择标注的第一标注标签。可选标签列表可以以选择列表的形式显示在第一目标文本旁，或者在特定的标签显示位置进行显示，以供用户进行标注标签的选择。

通过步骤S230，获取用户选中第一标注标签的第一标签选择指令。第一标签选择指令可以为如下几种。例如，用户可以通过鼠标点击对应的第一标注标签来进行选择；或者，通过使用键盘快捷键的方式来选择对应的第一标注标签。

当用户通过第一标签选择指令选中对应的第一标注标签后，通过步骤S240，将第一标注标签显示在标注界面上。显示第一标注标签的位置可以为对应第一目标文本位置的上侧或下侧，以便于向用户清晰地呈现此次的标注结果，便于用户随时查看选择的标注标签是否正确，从而提高标注数据的正确率。可以理解的是，在标注界面上可以设置撤销功能，在用户选择第一目标文本或第一标注标签错误的情况下，通过撤销功能消除此次的标注过程。

下面以一个具体实施例，来详细描述对第一目标文本进行标注的具体过程。参照图3，为一实施例中标注界面的示意图，输入的待标注文本数据为在金融保险领域的客服与客户的对话信息。用户需要标注的第一目标文本为“天天成长C”，用户首先通过鼠标选中“天天成长C”这五个字符，系统将“天天成长C”进行高亮显示后，弹出对应的可选标签列表，可选标签列表中包括“保险产品、银行产品、基金产品”等可选择的标注标签。用户通过对对话信息进行语义理解后判断“天天成长C”对应的标注标签为“保险产品”，此时用户通过第一标签选择指令，选择“保险产品”的标注标签。选择成功后，参照图4，对应的“保险产品”即会高亮显示在“天天成长C”的上侧位置，同时可选标签列表即会消失，从而完成对第一目标文本进行标注的标注过程。

在一些实施例中，参照图5，步骤S210中，获取对第一目标文本进行选择的第一文本选择指令之后，文本标注方法还包括：

S211，根据第一文本选择指令得到文本开始位置和文本结束位置；

S212，将文本开始位置和文本结束位置进行存储，得到文本位置信息；

S213，根据第一目标文本、第二目标文本、第一标注标签、第二标注标签、目标关系属性、文本位置信息得到结构化文本数据。

在通过第一文本选择指令选择对应的第一目标文本之后，系统还需要记录第一目标文本在待标注文本中的位置。具体为，首先通过步骤S211，根据用户的第一文本选择指令得到文本开始位置和结束位置。例如，可以采用按字节截取的含有中文汉字的字符串的方式，如，待标注文本数据为“我想给我的儿子买保险”，其中，第一个“我”的文本开始位置beginIndex为0，文本结束位置endIndex为1，第二个“我”的文本开始位置beginIndex为3，文本结束位置endIndex为4。通过步骤S212，将文本开始位置和文本结束位置进行存储，即可得到文本位置信息，通过文本位置信息即可得到对应的文本字符在待标注文本中的位置。最后通过步骤S213，将文本位置信息也作为结构化文本数据进行存储。可以理解的是，在标注第二目标文本的过程中，也可以通过相同的方式存储对应的文本位置信息。

通过记录文本的位置信息，当用户在标注过程中中断标注并关闭标注界面后，由于此时存储的结构化文本数据中，包括对应的文本的位置信息，因此再重新继续对待标注文本进行标注时，根据文本位置信息，在标注界面中仍能准确的显示中断前对应的标注位置，方便用户继续进行标注操作。

在一些实施例中，参照图6，步骤S220中，根据第一文本选择指令得到并显示可选标签列表，包括：

S221，获取第一文本选择指令；

S222，通过实体识别模型对第一目标文本进行识别，得到与第一目标文本对应的标签类型；

S223，根据标签类型得到可选标签列表；

S224，显示可选标签列表。

系统在通过步骤S221，获取到第一文本选择指令后，首先通过步骤S222，使用实体识别模型对第一目标文本进行识别，以得到与第一目标文本对应的标签类型。实体识别模型由关键词与对应的标签类型组合得到，每一个标签类型中包括了多个不同的关键词信息。例如，当待标注数据为金融保险领域时，其中的一个标签类型为“产品名称”，对应的关键词包括“天天成长”、“混合优选”等，当根据第一文本选择指令选中的第一目标文本为“天天成长C”时，实体识别模型识别出第一目标文本中包括了“天天成长”的关键词，因此得到的对应的标签类型即为“产品名称”。

得到与第一目标文本对应的标签类型后，通过步骤S223，根据标签类型得到可选标签列表，然后通过步骤S224，显示可选标签列表。不同的标签类型对应有不同的可选标签列表，得到特定的标签类型后，直接将对应的可选标签列表进行显示即可。例如，当标签类型为“产品名称”时，对应的可选标签列表中包括“保险产品”、“银行产品”、“基金产品”等关于具体的产品名称类型的标注标签。可以理解的是，标签类型、关键词、可选标签列表中的标注标签为用户预先设置的，用户可以根据待标注文本数据的具体领域，来对其具体的内容进行设置。

在得到并显示可选标签列表的过程中，通过自动对选择的目标文本的内容的识别，可以筛选出与目标文本相关的标注标签，防止在显示可选标签列表时，由于标注标签过于繁多，而造成的用户选择不方便的问题。在一些其他实施例中，也可以将预设的标注标签全部进行显示，再通过设置额外的搜索框来进一步进行筛选。

可以理解的是，步骤S300中，对第二目标文本进行标注的过程与对第一目标文本进行标注的过程相同，此处不再一一赘述。

当分别得到并显示第一标注标签和第二标注标签后，需要对两个标注标签之间的标签关系属性进行标注，通过步骤S400，获取选中第一标注标签的第一标签选择指令，通过步骤S500，获取选中第二标注标签的第二标签选择指令。例如，用户先通过鼠标点击选中第一标注标签，再通过鼠标点击选中第二标注标签，从而分别选中两个标注标签。选中两个标注标签后，通过步骤S600，得到并显示可选关系列表。

在一些实施例中，标签关系列表包括多个标签关系属性，参照图7，步骤S600中，通过第一标签选择指令和第二标签选择指令对标签关系列表进行筛选处理，得到并显示可选关系列表，包括：

S610，根据第一标签选择指令和第二标签选择指令得到目标标签关系；

S620，根据目标标签关系在标签关系列表中进行查找，得到与目标标签关系匹配的标签关系属性；

S630，将与目标标签关系匹配的标签关系属性作为可选关系列表；

S640，在标签关系线上显示可选关系列表；其中，标签关系线由第一标注标签指向第二标注标签。

首先通过步骤S610，根据第一标签选择指令和第二标签选择指令得到目标标签关系，其中目标标签关系包括了第一标注标签和第二标注标签，以及关系的指向信息，即需要标注的标签关系属性为第一标注标签指向第二标注标签，或第二标注标签指向第一标注标签。

然后通过步骤S620，根据目标标签关系在标签关系列表中进行查找，得到与目标标签关系匹配的标签关系属性。标签关系列表中包括多个标签关系属性。例如，当第一标注标签为“人”，第二标注标签为“保险产品”时，指向信息为“人”指向“保险产品”，此时通过此目标标签关系在预设的标签关系列表中进行查找匹配，得到的对应的标签关系属性包括“购买意向”、“感兴趣”、“不喜欢”，此时即通过步骤S630，将对应的标签关系属性作为可选关系列表。可以理解的是，只有在“人”指向“保险产品”的情况下，才可以得到对应的标签关系属性，若用户先选择“保险产品”再选择“人”，经过匹配即无法得到匹配结果，此时可以通过警示信息，提醒用户标注标签的顺序选择错误。

得到可选关系列表后，通过步骤S640，在标签关系线上显示可选关系列表。标签关系线为从第一标注标签指向第二标注标签的一条线。通过显示具有指向性的标签关系线，可以清晰的向用户展示出用户选择标注标签时的指向信息，以供用户检查标签的选择与指向是否正确，以提高标注标签关系属性时的正确率。可选关系列表的显示位置可以为标签关系线旁，或者在标注界面的固定位置进行显示。

显示的可选关系列表中包括有多个可选的标签关系属性，此时通过步骤S700，获取选中目标关系属性的关系选择指令。例如，用户通过具体的语义语境判断符合两个标注标签之间的关系属性，再通过鼠标点击选择对应的目标关系属性。最后通过步骤S800，显示选择的目标关系属性。目标关系属性可以显示在标签关系线旁，以清楚的表示两个标注标签之间的关系属性。

参照图8和图9，为一具体的标注并显示目标关系属性的示意图。第一标注标签为“人”，第二标注标签为“保险产品”。用户首先通过鼠标点击“人”，然后再通过鼠标点击“保险产品”，此时在标注界面上会显示出由“人”指向“保险产品”的带有箭头的标签关系线。同时在标签关系线的箭头处显示可选关系列表，可选关系列表中包括“购买意向”、“感兴趣”、“不喜欢”的关系属性，用户通过语义判断“人”是打算购买“保险产品”的，因此通过鼠标点击，选择“购买意向”作为目标关系属性，选中后，可选关系列表消失，将“购买意向”显示在标签关系线下侧，从而完成文本数据的标注。

步骤S900，根据第一目标文本、第二目标文本、第一标注标签、第二标注标签、目标关系属性得到结构化文本数据。通过本申请的文本标注方法对文本数据进行标注后，可以根据标注后的结构化文本数据得到二元组、三元组中的实体和关系。例如，经过标记得到的第一目标文本和第二目标文本即为三元组中的实体，标记得到的目标关系属性即为三元组中的关系，并且通过第一标注标签和第二标注标签，可以得到三元组中实体的类型。通过本申请的文本标注方法，用户可以准确快捷的对大量的非结构化文本数据进行标注，从而得到结构化的文本数据，通过使用结构化文本数据，用户可以方便的构建知识图谱，得到的知识图谱的准确性也较高，因此当构建的知识图谱应用于机器人对话或智能搜索等领域时，得到的对话信息或搜索结果也比较准确。

在一些实施例中，参照图10，步骤S100中，获取并显示待标注文本数据之前，文本标注方法还包括：

S110，获取待检测语音数据；

S120，对待检测语音数据进行分段截取处理，得到分段语音数据；

S130，对分段语音数据进行语音识别处理，得到初步文本数据；

S140，对初步文本数据进行文本校正处理，得到待标注文本数据。

用户在使用本申请的文本标注方法时，可以直接向系统中输入语音数据，系统通过语音识别后，得到待标注的文本数据。首先通过步骤S110，获取待检测语音数据。用户可以通过本地上传待检测语音数据，或者系统可以通过云服务平台来获取待检测语音数据。然后通过步骤S120，对待检测语音数据进行分段截取处理，得到分段语音数据。对待检测语音数据进行分段截取可以采用以下几种方式。

当待检测语音数据为对话语音时，且待检测语音数据为通过不同麦克风采集的语音数据，此时通过判断采集语音数据的麦克风类型和对应的语音数据的采集时间，即可对待检测语音数据进行分段截取；或者，通过待检测语音数据中语音的波形信息，来分别判断发出对应语音的不同角色，从而对待检测语音数据进行截取；或者，直接根据语音信息中出现的断句间隔来对待检测语音数据进行分段截取；在不是对话语音的情况下，也可以通过预设的间隔时长来对待检测语音进行截取。分段截取的具体方式可以根据待检测语音数据的具体类型来进行设置。

然后通过步骤S130，对分段语音数据进行语音识别处理，得到初步文本数据。语音识别处理可以采用基于深度学习的语音识别模型，其具体实现方法是本领域技术人员可知的，此处不再一一赘述。在一些其他实施例中，也可以先对待检测语音数据进行语音识别处理后，再对得到的文本数据进行截取，也可以得到初步文本数据。由于通过语音识别模型得到的初步文本数据可能存在识别错误，因此需要通过步骤S140对初步文本数据进行校正。

在一些实施例中，参照图11，步骤S140中，对初步文本数据进行文本校正处理，得到待标注文本数据，包括：

S141，显示初步文本数据；

S142，获取语音播放指令，并根据语音播放指令播放分段语音数据；

S143，获取根据分段语音数据得到的校正文本数据；

S144，根据校正文本数据对初步文本数据进行校正，得到待标注文本数据。

得到初步文本数据后，通过步骤S141，将初步文本数据在文本校正界面进行显示。同时还可以显示语音播放按钮，用户通过触发语音播放按钮来生成对应的语音播放指令，可以理解的是，每一初步文本数据都具有对应的一个语音播放按钮。通过步骤S142，系统获取到语音播放指令后，根据语音播放指令播放对应的分段语音数据，用户通过扬声器即可收听到对应的分段语音的音频信息。

用户通过收听分段语音数据，再通过结合初步文本数据的文字信息，来判断通过语音识别处理得到的初步文本数据是否正确。若识别结果不正确，用户可以在显示的初步文本数据上进行修改，将修改后的文本数据作为校正文本数据；若识别结果正确，则无需修改，直接将初步文本数据作为校正文本数据。通过步骤S143，获取经过校正的校正文本数据，并通过步骤S144，根据校正文本数据对初步文本数据进行校正，例如，直接使用校正文本数据对对应的初步文本数据进行替换，最后得到待标注文本数据。

下面以一个具体实施例，详细描述本申请的通过语音数据进行文本标注的方法。参照图12，为一实施例的标注界面的示意图。当用户上传待检测语音数据后，系统通过分段和语音识别处理，得到与分段语音数据对应的初步文本数据，并将初步文本数据显示在文本校正界面上，即图中的第一初步文本数据、第二初步文本数据、第三初步文本数据。根据初步文本数据的数量与排列顺序，对应在语音播放界面上分别显示分段语音数据播放按钮，即图中的第一分段语音数据播放按钮、第二分段语音数据播放按钮、第三分段语音数据播放按钮。当用户需要对第一分段语音数据所得到的第一初步文本数据进行校正时，用户首先点击语音播放界面中的第一分段语音数据播放按钮，系统通过获取用户的播放指令，即会向用户播放对应的语音片段，并在语音波形显示界面上显示第一分段语音数据的波形。其中，语音波形显示界面所显示的波形可以采用波形音频播放器(例如，WavePlayer)来得到。然后用户根据播放的语音片段的声音信息，在文本校正界面上对第一初步文本数据进行校正。校正结束后，系统即将校正文本数据作为待标注文本数据显示在文本标注界面，最后用户再对通过文本标注界面对待标注文本数据进行标注，从而完成对文本的标注过程。

本申请实施例还提供了一种文本标注装置，参照图13，文本标注装置包括：

文本显示模块，文本显示模块用于获取并显示待标注文本数据；其中，待标注文本数据包括第一目标文本和第二目标文本；

第一标注模块，第一标注模块用于对第一目标文本进行标注，得到并显示第一标注标签；

第二标注模块，第二标注模块用于对第二目标文本进行标注，得到并显示第二标注标签；

第一获取模块，第一获取模块用于获取选中第一标注标签的第一标签选择指令；

第二获取模块，第二获取模块用于获取选中第二标注标签的第二标签选择指令；

筛选模块，筛选模块用于通过第一标签选择指令和第二标签选择指令对标签关系列表进行筛选处理，得到并显示可选关系列表；其中，可选关系列表包括第一标注标签与第二标注标签之间的目标关系属性；

关系选择模块，关系选择模块用于获取选中目标关系属性的关系选择指令；

关系显示模块，关系显示模块用于根据关系选择指令显示目标关系属性；

数据生成模块，数据生成模块用于根据第一目标文本、第二目标文本、第一标注标签、第二标注标签、目标关系属性得到结构化文本数据。

在一些实施例中，第一标注模块对第一目标文本进行标注，得到并显示第一标注标签，具体包括：

获取对第一目标文本进行选择的第一文本选择指令；

根据第一文本选择指令得到并显示可选标签列表；其中，可选标签列表包括第一标注标签；

获取选中第一标注标签的第一标签选择指令；

根据第一标签选择指令显示第一标注标签。

在一些实施例中，第一获取模块获取对第一目标文本进行选择的第一文本选择指令之后，还包括：

根据第一文本选择指令得到文本开始位置和文本结束位置；

将文本开始位置和文本结束位置进行存储，得到文本位置信息；

根据第一目标文本、第二目标文本、第一标注标签、第二标注标签、目标关系属性、文本位置信息得到结构化文本数据。

在一些实施例中，第一标注模块根据第一文本选择指令得到并显示可选标签列表，具体包括：

获取第一文本选择指令；

通过实体识别模型对第一目标文本进行识别，得到与第一目标文本对应的标签类型；

根据标签类型得到可选标签列表；

显示可选标签列表。

在一些实施例中，标签关系列表包括多个标签关系属性，筛选模块通过第一标签选择指令和第二标签选择指令对标签关系列表进行筛选处理，得到并显示可选关系列表，具体包括：

根据第一标签选择指令和第二标签选择指令得到目标标签关系；

根据目标标签关系在标签关系列表中进行查找，得到与目标标签关系匹配的标签关系属性；

将与目标标签关系匹配的标签关系属性作为可选关系列表；

在标签关系线上显示可选关系列表；其中，标签关系线由第一标注标签指向第二标注标签。

在一些实施例中，文本显示模块获取并显示待标注文本数据之前，还包括：

获取待检测语音数据；

对待检测语音数据进行分段截取处理，得到分段语音数据；

对分段语音数据进行语音识别处理，得到初步文本数据；

对初步文本数据进行文本校正处理，得到待标注文本数据。

在一些实施例中，文本显示模块对初步文本数据进行文本校正处理，得到待标注文本数据，包括：

显示初步文本数据；

获取语音播放指令，并根据语音播放指令播放分段语音数据；

获取根据分段语音数据得到的校正文本数据；

根据校正文本数据对初步文本数据进行校正，得到待标注文本数据。

本申请实施例的文字标注装置，通过显示待标注文本数据，并在用户对目标文本进行标注后，分别显示对应的标注标签，且在标注关系属性后，也对应显示所标注的目标关系属性，最终得到结构化文本数据。通过在标注过程中及时显示标注标签和关系属性，清晰地呈现用户在标注过程中的标注结果，便于用户及时检查标注是否出错，以提高标注数据的正确率。

本申请实施例还提供了一种电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本申请实施上述的文本标注方法。该电子设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant，简称PDA)、车载电脑等任意智能终端。

请参阅图14，图14示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器，可以采用ROM(ReadOnlyMemory，只读存储器)、静态存储设备、动态存储设备或者RAM(RandomAccessMemory，随机存取存储器)等形式实现。存储器可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器中，并由处理器来调用执行本申请实施例的文本标注方法；

输入/输出接口，用于实现信息输入及输出；

输入/通信接口，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线，在设备的各个组件(例如处理器、存储器、输入/输出接口和输入/通信接口)之间传输信息；

其中处理器、存储器、输入/输出接口和输入/通信接口通过总线实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种存储介质，该存储介质是计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行上述文本标注方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

上面结合附图对本申请实施例作了详细说明，但是本申请不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本申请宗旨的前提下作出各种变化。此外，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

Claims

1.一种文本标注方法，其特征在于，所述方法包括：

对所述第一目标文本进行标注，得到并显示第一标注标签；

对所述第二目标文本进行标注，得到并显示第二标注标签；

获取选中所述第一标注标签的第一标签选择指令；

获取选中所述第二标注标签的第二标签选择指令；

获取选中所述目标关系属性的关系选择指令；

根据所述关系选择指令显示所述目标关系属性；

2.根据权利要求1所述的方法，其特征在于，所述对所述第一目标文本进行标注，得到并显示第一标注标签，包括：

获取对所述第一目标文本进行选择的第一文本选择指令；

获取选中所述第一标注标签的第一标签选择指令；

根据所述第一标签选择指令显示所述第一标注标签。

3.根据权利要求2所述的方法，其特征在于，所述获取对所述第一目标文本进行选择的第一文本选择指令之后，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述第一文本选择指令得到并显示可选标签列表，包括：

获取所述第一文本选择指令；

根据所述标签类型得到所述可选标签列表；

显示所述可选标签列表。

5.根据权利要求1所述的方法，其特征在于，所述标签关系列表包括多个标签关系属性，所述通过所述第一标签选择指令和所述第二标签选择指令对标签关系列表进行筛选处理，得到并显示可选关系列表，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述获取并显示待标注文本数据之前，所述方法还包括：

获取待检测语音数据；

7.根据权利要求6所述的方法，其特征在于，所述对所述初步文本数据进行文本校正处理，得到所述待标注文本数据，包括：

显示所述初步文本数据；

获取根据所述分段语音数据得到的校正文本数据；

8.一种文本标注装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在所述存储器中，处理器执行所述至少一个程序以实现：

如权利要求1至7任一项所述的方法。

10.一种存储介质，所述存储介质为计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：

如权利要求1至7任一项所述的方法。