CN114416976A

CN114416976A - 文本标注方法、装置及电子设备

Info

Publication number: CN114416976A
Application number: CN202111607792.5A
Authority: CN
Inventors: 林泽南; 赵岷; 张国鑫; 秦华鹏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-04-29

Abstract

本公开提供了文本标注方法、装置及电子设备，涉及自然语言处理和知识图谱等人工智能技术领域。具体实现方案为：通过获取待标注的目标文本，实现采用识别模型识别所述目标文本所属的目标属性标签，从而采用文本标注模型对所述目标文本中多个文本片段进行序列标注，以确定各所述文本片段的词槽类别，在针对各所述文本片段，从设定图谱中查询与所述目标属性标签匹配，且与对应词槽类别匹配的目标类别节点之后，根据各所述文本片段匹配的目标类别节点所关联的实体，对各所述文本片段进行标注。由此，实现基于目标类别节点关联的实体对文本进行标注时，能够有效缩减实体范围，使得文本标注的实体准确度更高，提升文本标注的质量。

Description

文本标注方法、装置及电子设备

技术领域

本公开涉及人工智能技术领域，尤其涉及自然语言处理和知识图谱领域，具体涉及一种文本标注方法、装置及电子设备。

背景技术

文本标注是基于文本语义对文本进行标记的过程，基于文本标注理解文本语义，在问答、搜索和阅读理解中均有广泛的应用场景。

文本作为语言的一部分，除了基础的字词含义、属性、语法等逻辑明确的层面，还有许多维度的特征：语境、情感、目的等等，使得相同文本在不同语境下存在不同语义，给文本标注增加了难度。因此，提高文本标注的质量，对于全面并准确地理解文本具有重要意义。

发明内容

本公开提供了一种用于文本标注的方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种文本标注方法，包括：

获取待标注的目标文本；

采用识别模型识别所述目标文本所属的目标属性标签；

采用文本标注模型对所述目标文本中多个文本片段进行序列标注，以确定各所述文本片段的词槽类别；

针对各所述文本片段，从设定图谱中查询与所述目标属性标签匹配，且与对应词槽类别匹配的目标类别节点；

根据各所述文本片段匹配的目标类别节点所关联的实体，对各所述文本片段进行标注。

根据本公开的另一方面，提供了一种一种文本标注装置，包括：

获取模块，用于获取待标注的目标文本；

识别模块，用于采用识别模型识别所述目标文本所属的目标属性标签；

第一标注模块，用于采用文本标注模型对所述目标文本中多个文本片段进行序列标注，以确定各所述文本片段的词槽类别；

查询模块，用于针对各所述文本片段，从设定图谱中查询与所述目标属性标签匹配，且与对应词槽类别匹配的目标类别节点；

第二标注模块，用于根据各所述文本片段匹配的目标类别节点所关联的实体，对各所述文本片段进行标注。

根据本公开的又一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述一方面所述的方法。

根据本公开的再一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行前述一方面所述的方法。

根据本公开的还一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如前述一方面所述的方法。

本公开提供的文本标注方法、装置、电子设备和存储介质，通过获取待标注的目标文本，实现采用识别模型识别所述目标文本所属的目标属性标签，从而采用文本标注模型对所述目标文本中多个文本片段进行序列标注，以确定各所述文本片段的词槽类别，在针对各所述文本片段，从设定图谱中查询与所述目标属性标签匹配，且与对应词槽类别匹配的目标类别节点之后，根据各所述文本片段匹配的目标类别节点所关联的实体，对各所述文本片段进行标注。由此，通过标注的词槽类别在设定图谱中筛选得到匹配的目标类别节点，从而使得基于目标类别节点关联的实体对文本片段进行标注时，能够有效缩减实体范围，使得文本片段标注的实体准确度更高，提升文本标注的质量。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例所提供的文本标注方法的流程示意图；

图2是根据本公开第二实施例所提供的文本标注方法的流程示意图；

图3是根据本公开第三实施例所提供的文本标注方法的流程示意图；

图4是一种场景下的文本标注方法的原理示意图；

图5是根据本公开第四实施例所提供的模型训练的流程示意图；

图6是根据本公开第五实施例所提供的文本标注装置的结构示意图；

图7是根据本公开第六实施例所提供的文本标注装置的结构示意图；

图8是用来实现本公开实施例的文本标注方法的电子设备的框图；

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本公开实施例的文本标注方法、装置、电子设备和存储介质。

图1是根据本公开第一实施例所提供的文本标注方法的流程示意图。

本公开实施例以该文本标注方法被配置于文本标注装置中来举例说明，该文本标注装置可以应用于任一电子设备中，以使该电子设备可以执行文本标注功能。

其中，电子设备可以为任一具有计算能力的设备，例如可以为个人电脑(PersonalComputer，简称PC)、移动终端等，移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图1所示，该方法包括以下步骤：

步骤S101，获取待标注的目标文本。

可选地，待标注的目标文本可以为用户在搜索引擎的搜索栏中输入的文本，比如，用户在搜索栏输入的“ABC汽车多少钱落地”、“好看悬疑片推荐”等，或者，可选地，待标注的目标文本可以为用户与应用软件的聊天机器人聊天时输入的文本，比如，用户与银行的聊天机器人聊天时输入的“如何暂停个人账户”等，本实施例中对此不做限制。

在本公开实施例中，本公开实施例的文本标注装置所在的电子设备可以获取用户发送的目标文本标注指令，并可以对目标文本标注指令进行解析处理，以获取目标文本标注指令中包含的待标注的目标文本。

步骤S102，采用识别模型识别所述目标文本所属的目标属性标签。

其中，所述识别模型用于所述目标文本的意图和/或领域识别。

需要说明的是，识别模型是经过训练的模型，经过训练后的识别模型已经学习到目标文本与目标文本所属的目标属性标签之间的映射关系。其中，目标属性标签可以包括意图标签和/或领域标签，其中，意图标签可用于指示用户输入目标文本的目的，比如购买、问答、泛需求等；领域标签可用于目标文本所属的领域，比如医疗、体育、天气等。

例如，响应于用户在搜索栏输入的“ABC汽车多少钱落地”，识别模型输出的目标文本所属的目标属性标签中的意图标签可以为购买，领域标签可以为物品。

在本公开实施例中，可以采用识别模型对目标文本进行识别，以得到目标文本所属的目标属性标签，从而对目标文本进行意图和/或领域方面的类别体系层次划分，进而与后续步骤中的序列标注联合训练，用分类任务“制约”序列标注任务，用序列标注任务“制约”分类任务训练，提升整体效果。

需要理解的是，一方面，举例来说，响应于用户在搜索栏输入的“李白怎么玩”，由于识别模型输出的目标文本所属的目标属性标签中的领域标签为人物，从而可以“制约”序列标注任务中“李白”这个文本片段的词槽类别为人物类_实体，也就不会将“李白”这个文本片段的词槽类别确定为歌曲类_实体。另一方面，可以通过对目标文本中多个文本片段进行序列标注，以得到各文本片段的词槽类别，从而可以“制约”分类任务中识别模型输出的目标文本所属的目标属性标签的训练，提升识别模型输出的目标文本所属的目标属性标签的准确率。

步骤S103，采用文本标注模型对所述目标文本中多个文本片段进行序列标注，以确定各所述文本片段的词槽类别。

其中，文本标注模型也是经过训练的模型，经过训练后的文本标注模型已经学习到目标文本中多个文本片段与各所述文本片段的词槽类别之间的映射关系。其中，各所述文本片段的词槽类别可用于指示各所述文本片段的属性，比如人物类_实体、疑问词、场景事件等。

作为一种可能的实现方式，所述序列标注可以采用两种不同粒度进行。可选地，可以采用粗粒度的文本标注模型对目标文本中多个粗粒度的文本片段进行序列标注，以确定各粗粒度的文本片段的词槽类别，或者，可选地，可以采用细粒度的文本标注模型对目标文本中多个细粒度的文本片段进行序列标注，以确定各细粒度的文本片段的词槽类别，本实施例中对此不作限制。

需要说明的是，在进行序列标注之前，需要先对目标文本进行切分，以得到目标文本中多个文本片段。相类似地，所述切分可以采用两种不同粒度进行，即可以进行粗粒度切分，以得到目标文本中多个粗粒度的文本片段，也可以进行细粒度切分，以得到目标文本中多个细粒度的文本片段。其中，细粒度切分可以在粗粒度切分的基础上进行再次切分得到。

举例来说，响应于用户在搜索栏输入的“ABC汽车x5多少钱落地”，可选地，可以进行粗粒度切分，得到“ABC汽车x5”、“多少钱”、“落地”这三个粗粒度的文本片段，或者，可选地，可以进行细粒度切分，得到“ABC汽车”、“x5”、“多少”、“钱”、“落地”这五个细粒度的文本片段，从而可以采用粗粒度的文本标注模型对所述三个粗粒度的文本片段进行序列标注，确定“ABC汽车x5”的词槽类别为物品类_车辆，“多少钱”的词槽类别为疑问词，以及“落地”的词槽类别为场景事件，或者，可以采用细粒度的文本标注模型对所述五个细粒度的文本片段进行序列标注，确定“ABC汽车”的词槽类别为汽车，“x5”的词槽类别为编号，“多少”的词槽类别为修饰词，“钱”的词槽类别为术语，以及“落地”的词槽类别为场景事件。

由此，通过双粒度序列标注的方式，可以实现对目标文本的全领域、全序列的序列标注，从而可以不强依赖知识图谱收录，也不会造成理解偏差问题，适用于不同业务场景需求。

步骤S104，针对各所述文本片段，从设定图谱中查询与所述目标属性标签匹配，且与对应词槽类别匹配的目标类别节点。

其中，所述设定图谱是人工定义好的，通过离线事先定义好的体系，实现能够覆盖整个知识图谱中所有实体类别体系，即通用词汇类别体系。

需要说明的是，所述设定图谱包括多个类别节点，从而可以将任意的一文本片段所属的目标属性标签与设定图谱中各类别节点进行匹配，以及将任意的一文本片段对应的词槽类别与设定图谱中各类别节点进行匹配，进而针对各所述文本片段，从设定图谱中查询到与所述目标属性标签匹配，以及与对应词槽类别匹配的目标类别节点。

举例来说，针对“ABC汽车x5”这一文本片段，其所属的目标属性标签中的意图标签为购买，领域标签为物品，其对应的词槽类别为物品类_车辆，从而可以从设定图谱中匹配到“汽车；汽车品牌；物体与物品；物品”这一目标类别节点。

这里，不同于学术界和业界的实体词、概念词等分开进行实体链指，而是基于通用词汇类别体系统一进行实体链指，实现了实体链指创新，通过只针对有实际意义的文本进行匹配，有效地缩减了各文本片段匹配的目标类别节点，提高了链指准确率。

步骤S105，根据各所述文本片段匹配的目标类别节点所关联的实体，对各所述文本片段进行标注。

由于目标类别节点与实体相关联，从而可以根据各所述文本片段匹配的目标类别节点所关联的实体，将实体链指到具体实体ID(Identity Document，身份标识号码)上，实现对各所述文本片段的标注。

需要说明的是，由于目标类别节点可能包含多个同名同类实体，从而需要对同类同名实体进行消歧，进而将消歧后的实体链指到具体实体ID上，实现对各所述文本片段的标注。

举例来说，针对“ABC汽车x5”这一文本片段，其匹配到的目标类别节点为“汽车；汽车品牌；物体与物品；物品”。假设在这4个通用类别体系下，实体名为“ABC汽车x5”的有10个具体汽车实体，有3个汽车品牌，有7个汽车物品，如手办、玩具车等，从而需要对同类同名实体进行消歧，进而将消歧后的实体链指到具体实体ID上，实现对“ABC汽车x5”的标注。

本公开实施例的文本标注方法，通过获取待标注的目标文本，实现采用识别模型识别所述目标文本所属的目标属性标签，从而采用文本标注模型对所述目标文本中多个文本片段进行序列标注，以确定各所述文本片段的词槽类别，在针对各所述文本片段，从设定图谱中查询与所述目标属性标签匹配，且与对应词槽类别匹配的目标类别节点之后，根据各所述文本片段匹配的目标类别节点所关联的实体，对各所述文本片段进行标注。由此，通过标注的词槽类别在设定图谱中筛选得到匹配的目标类别节点，从而使得基于目标类别节点关联的实体对文本片段进行标注时，能够有效缩减实体范围，使得文本片段标注的实体准确度更高，提升文本标注的质量。并且，由于可以采用两种不同粒度进行序列标注，从而可以提高文本标注的适用性，使其能够适用于不同业务场景需求。

基于上一实施例，本公开实施例提供了另一种文本标注方法可能的实现方式，图2是根据本公开第二实施例所提供的文本标注方法的流程示意图。

如图2所示，该方法可以包括以下步骤：

步骤S201，获取待标注的目标文本。

步骤S202，采用识别模型识别所述目标文本所属的目标属性标签。

步骤S203，采用文本标注模型对所述目标文本中多个文本片段进行序列标注，以确定各所述文本片段的词槽类别。

需要说明的是，步骤S201-S203的具体实现过程可以参见实施例S101-S103的详细描述，原理相同，在此不再赘述。

步骤S204，针对各所述文本片段，从设定图谱中获取与所述目标属性标签匹配的目标子图。

这里，针对任意的一文本片段，其所属的目标属性标签与其所属的目标文本所属的目标属性标签一致，从而可以根据目标文本所属的目标属性标签，从设定图谱中获取与所述目标属性标签匹配的目标子图。其中，所述设定图谱是人工定义好的，通过离线事先定义好的体系，实现能够覆盖整个知识图谱中所有实体类别体系，即通用词汇类别体系。

需要说明的是，所述设定图谱包括多个类别节点，从而获取的目标子图也包括多个类别节点。从设定图谱中获取与所述目标属性标签匹配的目标子图，也就是说，将目标文本所属的目标属性标签与设定图谱中各类别节点进行匹配，从而将匹配成功的各类别节点确定为所述目标子图。

步骤S205，将各所述文本片段的词槽类别与所述目标子图中的类别节点匹配，以确定各所述文本片段匹配的目标类别节点。

在本公开实施例中，目标子图中的类别节点已经与各所述文本片段所属的目标属性标签匹配一致，这里，通过将各所述文本片段的词槽类别与所述目标子图中的类别节点匹配，从而得到与各所述文本片段所属的目标属性标签匹配，且与各所述文本片段对应的词槽类别匹配的目标类别节点，即各所述文本片段匹配的目标类别节点。

步骤S206，根据各所述文本片段匹配的目标类别节点所关联的实体，对各所述文本片段进行标注。

需要说明的是，本步骤的具体实现过程可以参见实施例S105的详细描述，原理相同，在此不再赘述。

本公开实施例的文本标注方法，通过针对各所述文本片段，从设定图谱中获取与所述目标属性标签匹配的目标子图，实现将各所述文本片段的词槽类别与所述目标子图中的类别节点匹配，以确定各所述文本片段匹配的目标类别节点，从而根据各所述文本片段匹配的目标类别节点所关联的实体，对各所述文本片段进行标注。由此，通过从设定图谱中获取与所述目标属性标签匹配的目标子图，有效缩减目标类别节点范围，进而根据各所述文本片段的词槽类别在目标子图中筛选得到匹配的目标类别节点，从而使得基于目标类别节点关联的实体对文本片段进行标注时，能够有效缩减实体范围，使得文本片段标注的实体准确度更高，提升文本标注的质量。

为了清楚说明上一实施例，本公开实施例提供了又一种文本标注方法可能的实现方式，图3是根据本公开第三实施例所提供的文本标注方法的流程示意图。

步骤S301，获取待标注的目标文本。

步骤S302，采用识别模型识别所述目标文本所属的目标属性标签。

步骤S303，采用文本标注模型对所述目标文本中多个文本片段进行序列标注，以确定各所述文本片段的词槽类别。

需要说明的是，步骤S301-S303的具体实现过程可以参见实施例S101-S103的详细描述，原理相同，在此不再赘述。

步骤S304，查询设定图谱中各类别节点的标签。

需要说明的是，所述设定图谱包括多个类别节点，每个类别节点都有对应的标签和节点描述。这里，通过对设定图谱中各类别节点的标签进行查询，判断各类别节点是否具有所述目标属性标签。

步骤S305，在所述设定图谱中，将具有所述目标属性标签的类别节点及其子类别节点，确定为与所述目标属性标签匹配的目标子图。

在本公开实施例中，将所述设定图谱中具有所述目标属性标签的类别节点及其子类别节点确定为与所述目标属性标签匹配的目标子图，从而使得目标子图中各类别节点都具有所述目标属性标签。

需要理解的是，设定图谱中的各类别节点并不是孤立存在，而是相互交织在一起的，从而有子类别节点的存在。需要注意的是，所述目标子图中，无论是类别节点，还是子类别节点，都具有所述目标属性标签。

步骤S306，查询所述目标子图中各类别节点的节点描述。

这里，通过对目标子图中各类别节点的节点描述进行查询，获取目标子图中各类别节点的语义信息，从而便于将任意的一文本片段对应词槽类别与目标子图中各类别节点匹配。

步骤S307，针对任意的一文本片段，将所述词槽类别分别与各所述类别节点的节点描述进行语义匹配，以确定匹配的目标类别节点。

在本公开实施例中，将任意的一文本片段对应词槽类别与目标子图中任意的一类别节点的节点描述进行语义匹配，如果文本片段对应词槽类别和类别节点的节点描述语义一致，则将所述类别节点确定为所述文本片段匹配的目标类别节点；如果语义不一致，则与目标子图中下一类别节点的节点描述进行语义匹配，直到所述文本片段对应词槽类别与目标子图中各所述类别节点的节点描述都进行了语义匹配，从而得到各所述文本片段匹配的目标类别节点。

步骤S308，根据各所述文本片段匹配的目标类别节点所关联的实体，对各所述文本片段进行标注。

本公开实施例的文本标注方法，通过查询设定图谱中各类别节点的标签，实现在所述设定图谱中，将具有所述目标属性标签的类别节点及其子类别节点，确定为与所述目标属性标签匹配的目标子图，从而通过查询所述目标子图中各类别节点的节点描述，实现针对任意的一文本片段，将所述词槽类别分别与各所述类别节点的节点描述进行语义匹配，以确定匹配的目标类别节点，进而根据各所述文本片段匹配的目标类别节点所关联的实体，对各所述文本片段进行标注。由此，通过将设定图谱中各类别节点的标签与文本的目标属性标签进行匹配，清楚确定目标子图，进而将目标子图中的各类别节点的节点描述与任意的一文本片段的词槽类别进行匹配，有效确定目标类别节点，从而使得基于目标类别节点关联的实体对文本片段进行标注时，能够有效缩减实体范围，使得文本片段标注的实体准确度更高，提升文本标注的质量。

为了更加清楚地说明上述实施例，现举例进行说明。

如图4所示，以目标文本为用户在搜索栏输入的“ABC汽车多少钱落地”为例，本文本标注方法可分为三部分，一是采用识别模型识别目标文本所属的目标属性标签，对目标文本进行意图和领域分类。其中，目标属性标签可以包括意图标签和领域标签，其中，意图标签可用于指示用户输入目标文本的目的，比如购买、问答、泛需求等；领域标签可用于目标文本所属的领域，比如医疗、体育、天气等。

二是采用文本标注模型对目标文本中多个文本片段进行序列标注，以确定各文本片段的词槽类别。其中，各文本片段的词槽类别可用于指示各文本片段的属性，比如人物类_实体、疑问词、场景事件等。如图4所示，可以采用两种不同粒度进行序列标注，即，可以采用粗粒度的文本标注模型对目标文本中多个粗粒度的文本片段进行序列标注，也可以采用细粒度的文本标注模型对目标文本中多个细粒度的文本片段进行序列标注。对于目标文本为用户在搜索栏输入的“ABC汽车x5多少钱落地”来说，进行粗粒度序列标注，得到的多个粗粒度的文本片段是“ABC汽车x5”、“多少钱”、“落地”，对应确定的词槽类别是“物品类_车辆”、“疑问词”、“场景事件”；进行细粒度序列标注，得到的多个细粒度的文本片段是“ABC汽车”、“x5”、“多少”、“钱”、“落地”，对应确定的词槽类别是“汽车”、“编号”、“修饰词”、“术语”、“场景事件”。

三是针对各文本片段，通过标注的词槽类别在设定图谱中筛选得到匹配的目标类别节点，从而根据各文本片段匹配的目标类别节点所关联的实体，对各文本片段进行标注。如图4所示，对于文本片段为“ABC汽车x5”来说，根据其标注的词槽类别为“物品类_车辆”，在设定图谱中筛选得到匹配的目标类别节点为“汽车；汽车品牌；物体与物品；物品”，由于通过“汽车；汽车品牌；物体与物品；物品”这一通用词汇类别体系可以索引到设定图谱中同类同名实体集合，从而需要对所述同类同名实体集合进行消歧，以确定对应的实体ID，实现对“ABC汽车x5”的标注。

综上，通过采用意图和/或领域的识别模型识别目标文本所属的目标属性标签，实现对目标文本进行意图和/或领域分类，在采用文本标注模型对目标文本中多个文本片段进行序列标注，以确定各文本片段的词槽类别之后，针对各文本片段，通过标注的词槽类别在设定图谱中筛选得到匹配的目标类别节点，从而根据各文本片段匹配的目标类别节点所关联的实体，对各文本片段进行标注。由此，实现基于目标类别节点关联的实体对文本进行标注时，能够有效缩减实体范围，使得文本标注的实体准确度更高，提升文本标注的质量。

需要说明的是，为了上述实施例中的识别模型和文本标注模型输出的结果更加准确，从而需要对所述模型进行训练。图5是根据本公开第四实施例所提供的模型训练的流程示意图，在图1所示步骤S102之前执行，如图5所示，该模型训练包括以下步骤：

步骤S501，获取训练语料；其中，所述训练语料具有标准属性标签，且所述训练语料划分为多个标准片段，各所述标准片段标注有期望类别。

这里，通过获取训练语料，从而得到已划分为多个标准片段的训练语料。为了确保得到较好的训练效果，所述训练预料应具有标准属性标签，各所述标准片段标注也应具有期望类别。

步骤S502，将所述训练语料输入预训练语言模型进行特征提取，以得到所述训练语料中各字符的特征编码，以及所述训练语料的语义编码。

可选地，通过将步骤S501获取到的训练语料输入到预训练语言模型，实现对所述训练语料的特征提取，从而得到所述训练语料中各字符的特征编码，以及所述训练语料的语义编码。其中，所述各字符的特征编码可用于指示各字符的属性，所述训练语料的语义编码可用于指示训练语料的意图和/或领域。

步骤S503，将所述训练语料的语义编码输入识别模型进行意图和/或领域识别，以得到预测标签。

这里，通过将所述训练语料的语义编码输入到意图和/或领域的识别模型，实现对所述训练语料的意图和/或领域识别，从而得到所述训练语料的预测标签。

步骤S504，将所述各字符的特征编码输入文本标注模型进行序列标注，以得到所述训练语料中多个文本片段的预测类别。

可选地，通过将所述训练语料中各字符的特征编码输入到文本标注模型，实现对所述训练语料中各字符的序列标注，从而得到所述训练语料中多个文本片段的预测类别。

步骤S505，根据各所述预测类别与对应期望类别之间的差异，以及根据所述预测标签与所述标准属性标签之间的差异，确定损失函数取值。

这里，通过将步骤S504得到的所述训练语料中多个文本片段的预测类别与对应期望类别期望进行差异比较，以及将步骤S503得到的所述训练语料的预测标签与所述训练语料的标准属性标签进行差异比较，实现根据各预测类别与对应期望类别之间的差异，以及根据预测标签与标准属性标签之间的差异，确定损失函数取值。

步骤S506，根据所述损失函数取值，对所述预训练语言模型、所述识别模型和所述文本标注模型进行模型训练。

可选地，可以根据上一步骤确定的损失函数取值，对所述预训练语言模型、所述识别模型和所述文本标注模型进行模型训练，使所述模型输出的结果更加准确。

综上，通过获取训练语料，实现将所述训练语料输入预训练语言模型进行特征提取，以得到所述训练语料中各字符的特征编码，以及所述训练语料的语义编码，从而将所述训练语料的语义编码输入识别模型进行意图和/或领域识别，以得到预测标签，以及将所述各字符的特征编码输入文本标注模型进行序列标注，以得到所述训练语料中多个文本片段的预测类别，在根据各所述预测类别与对应期望类别之间的差异，以及根据所述预测标签与所述标准属性标签之间的差异，确定损失函数取值之后，根据所述损失函数取值，对所述预训练语言模型、所述识别模型和所述文本标注模型进行模型训练。由此，可以使预训练语言模型、识别模型和文本标注模型输出的结果更加准确。

为了实现上述实施例，本公开还提出一种文本标注装置。

图6是根据本公开第五实施例所提供的文本标注装置的结构示意图。

如图6所示，该文本标注装置包括：获取模块61、识别模块62、第一标注模块63、查询模块64和第二标注模块65。

获取模块61，用于获取待标注的目标文本；

识别模块62，用于采用识别模型识别所述目标文本所属的目标属性标签；

第一标注模块63，用于采用文本标注模型对所述目标文本中多个文本片段进行序列标注，以确定各所述文本片段的词槽类别；

查询模块64，用于针对各所述文本片段，从设定图谱中查询与所述目标属性标签匹配，且与对应词槽类别匹配的目标类别节点；

第二标注模块65，用于根据各所述文本片段匹配的目标类别节点所关联的实体，对各所述文本片段进行标注。

进一步地，在本公开实施例的一种可能的实现方式中，所述查询模块64，包括：获取单元641和匹配单元642。

第一获取单元641，用于从设定图谱中获取与所述目标属性标签匹配的目标子图；

匹配单元642，用于将各所述文本片段的词槽类别与所述目标子图中的类别节点匹配，以确定各所述文本片段匹配的目标类别节点。

进一步地，在本公开实施例的一种可能的实现方式中，所述第一获取单元641，用于：

查询所述设定图谱中各类别节点的标签；

在所述设定图谱中，将具有所述目标属性标签的类别节点及其子类别节点，确定为与所述目标属性标签匹配的目标子图。

进一步地，在本公开实施例的一种可能的实现方式中，所述匹配单元642，用于：

查询所述目标子图中各类别节点的节点描述；

针对任意的一文本片段，将所述词槽类别分别与各所述类别节点的节点描述进行语义匹配，以确定匹配的目标类别节点。

进一步地，在本公开实施例的一种可能的实现方式中，所述第一标注模块63，包括：

第一标注单元，用于采用粗粒度的文本标注模型对所述目标文本中多个粗粒度的文本片段进行序列标注，以确定各粗粒度的文本片段的词槽类别；

第二标注单元，用于采用细粒度的文本标注模型对所述目标文本中多个细粒度的文本片段进行序列标注，以确定各细粒度的文本片段的词槽类别。

进一步地，在本公开实施例的一种可能的实现方式中，所述识别模型用于所述目标文本的意图和/或领域识别。

需要说明的是，前述对文本标注方法实施例的解释说明也适用于该实施例的文本标注装置，此处不再赘述。

基于上述实施例，本公开实施例还提供了一种文本标注装置的可能的实现方式，图7是根据本公开第六实施例所提供的文本标注装置的结构示意图，如图7所示，该文本标注装置包括：获取模块71、识别模块72、第一标注模块73、查询模块74、第二标注模块75和训练模块76。

获取模块71，用于获取待标注的目标文本；

识别模块72，用于采用识别模型识别所述目标文本所属的目标属性标签；

第一标注模块73，用于采用文本标注模型对所述目标文本中多个文本片段进行序列标注，以确定各所述文本片段的词槽类别；

查询模块74，用于针对各所述文本片段，从设定图谱中查询与所述目标属性标签匹配，且与对应词槽类别匹配的目标类别节点；

第二标注模块75，用于根据各所述文本片段匹配的目标类别节点所关联的实体，对各所述文本片段进行标注。

训练模块76，用于训练所述识别模型和所述文本标注模型。

进一步地，在本公开实施例的一种可能的实现方式中，所述训练模块76，包括：

第二获取单元，用于获取训练语料；其中，所述训练语料具有标准属性标签，且所述训练语料划分为多个标准片段，各所述标准片段标注有期望类别；

提取单元，用于将所述训练语料输入预训练语言模型进行特征提取，以得到所述训练语料中各字符的特征编码，以及所述训练语料的语义编码；

识别单元，用于将所述训练语料的语义编码输入所述识别模型进行意图和/或领域识别，以得到预测标签；

第三标注单元，用于将所述各字符的特征编码输入所述文本标注模型进行序列标注，以得到所述训练语料中多个文本片段的预测类别；

确定单元，用于根据各所述预测类别，与对应期望类别之间的差异，以及根据所述预测标签与所述标准属性标签之间的差异，确定损失函数取值；

训练单元，用于根据所述损失函数取值，对所述预训练语言模型、所述识别模型和所述文本标注模型进行模型训练。

本公开实施例中，通过获取待标注的目标文本，实现采用识别模型识别所述目标文本所属的目标属性标签，从而采用文本标注模型对所述目标文本中多个文本片段进行序列标注，以确定各所述文本片段的词槽类别，在针对各所述文本片段，从设定图谱中查询与所述目标属性标签匹配，且与对应词槽类别匹配的目标类别节点之后，根据各所述文本片段匹配的目标类别节点所关联的实体，对各所述文本片段进行标注。由此，可实现实体链指创新，只针对有实际意义的文本进行匹配，有效缩减各文本片段匹配的目标类别节点，提升文本标注的质量。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在ROM(Read-OnlyMemory，只读存储器)802中的计算机程序或者从存储单元808加载到RAM(Random AccessMemory，随机访问/存取存储器)803中的计算机程序，来执行各种适当的动作和处理。在RAM803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。I/O(Input/Output，输入/输出)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于CPU(Central Processing Unit，中央处理单元)、GPU(Graphic Processing Units，图形处理单元)、各种专用的AI(Artificial Intelligence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如图1所示的文本标注方法。例如，在一些实施例中，图1所示的文本标注方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的文本标注方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图5所示的模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array，现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit，专用集成电路)、ASSP(Application Specific StandardProduct，专用标准产品)、SOC(System On Chip，芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device，复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory，可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory，便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode-Ray Tube，阴极射线管)或者LCD(Liquid Crystal Display，液晶显示器)监视器；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：LAN(LocalArea Network，局域网)、WAN(Wide Area Network，广域网)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本标注方法，包括：

获取待标注的目标文本；

采用识别模型识别所述目标文本所属的目标属性标签；

2.根据权利要求1所述的方法，其中，所述针对各所述文本片段，从设定图谱中查询与所述目标属性标签匹配，且与对应词槽类别匹配的目标类别节点，包括：

从设定图谱中获取与所述目标属性标签匹配的目标子图；

将各所述文本片段的词槽类别与所述目标子图中的类别节点匹配，以确定各所述文本片段匹配的目标类别节点。

3.根据权利要求2所述的方法，其中，所述从设定图谱中获取与所述目标属性标签匹配的目标子图，包括：

查询所述设定图谱中各类别节点的标签；

4.根据权利要求2所述的方法，其中，所述将各所述文本片段的词槽类别与所述目标子图中的类别节点匹配，以确定各所述文本片段匹配的目标类别节点，包括：

查询所述目标子图中各类别节点的节点描述；

5.根据权利要求1－4任一项所述的方法，其中，所述采用文本标注模型对所述目标文本中多个文本片段进行序列标注，以确定各所述文本片段的词槽类别，包括：

采用粗粒度的文本标注模型对所述目标文本中多个粗粒度的文本片段进行序列标注，以确定各粗粒度的文本片段的词槽类别；

采用细粒度的文本标注模型对所述目标文本中多个细粒度的文本片段进行序列标注，以确定各细粒度的文本片段的词槽类别。

6.根据权利要求1－4任一项所述的方法，其中，所述方法，还包括：

获取训练语料；其中，所述训练语料具有标准属性标签，且所述训练语料划分为多个标准片段，各所述标准片段标注有期望类别；

将所述训练语料输入预训练语言模型进行特征提取，以得到所述训练语料中各字符的特征编码，以及所述训练语料的语义编码；

将所述训练语料的语义编码输入所述识别模型进行意图和/或领域识别，以得到预测标签；

将所述各字符的特征编码输入所述文本标注模型进行序列标注，以得到所述训练语料中多个文本片段的预测类别；

根据各所述预测类别，与对应期望类别之间的差异，以及根据所述预测标签与所述标准属性标签之间的差异，确定损失函数取值；

根据所述损失函数取值，对所述预训练语言模型、所述识别模型和所述文本标注模型进行模型训练。

7.根据权利要求1－4任一项所述的方法，其中，所述识别模型用于所述目标文本的意图和/或领域识别。

8.一种文本标注装置，包括：

获取模块，用于获取待标注的目标文本；

9.根据权利要求8所述的装置，其中，所述查询模块，包括：

第一获取单元，用于从设定图谱中获取与所述目标属性标签匹配的目标子图；

匹配单元，用于将各所述文本片段的词槽类别与所述目标子图中的类别节点匹配，以确定各所述文本片段匹配的目标类别节点。

10.根据权利要求9所述的装置，其中，所述第一获取单元，用于：

查询所述设定图谱中各类别节点的标签；

11.根据权利要求9所述的装置，其中，所述匹配单元，用于：

查询所述目标子图中各类别节点的节点描述；

12.根据权利要求8－11任一项所述的装置，其中，所述第一标注模块，包括：

13.根据权利要求8－11任一项所述的装置，其中，所述装置还包括训练模块，其中，所述训练模块包括：

14.根据权利要求8－11任一项所述的装置，其中，所述识别模型用于所述目标文本的意图和/或领域识别。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1－7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1－7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1－7中任一项所述的方法。