CN111859983B

CN111859983B - 基于人工智能的自然语言标注方法及相关设备

Info

Publication number: CN111859983B
Application number: CN202010714910.1A
Authority: CN
Inventors: 勾震; 马丹; 曾增烽
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2022-07-15
Anticipated expiration: 2040-07-23
Also published as: CN111859983A

Abstract

本发明涉及人工智能领域，公开了一种基于人工智能的自然语言标注方法及相关设备。该方法包括：获取待标注的自然语言文本；通过预先训练好的序列标注模型，对其进行语义粗粒度序列标注，得到标注序列；根据所述标注序列，确定自然语言文本中的目标词，并确定目标词的目标角色类型；获取所述目标角色类型对应的预置模板词，并计算两者之间的相似度值；根据相似度值和预置子类别判定规则，确定目标词对应的子类别为目标子类别，并对自然语言文本进行语义细粒度序列标注，得到标注文本。此外，本发明还涉及区块链技术，待标注的自然语言文本和/或标注文本可存储于区块链中。本发明可提升对用于语言模型训练的语料标注效率。

Description

基于人工智能的自然语言标注方法及相关设备

技术领域

本发明涉及人工智能领域，尤其涉及一种基于人工智能的自然语言标注方法及相关设备。

背景技术

随着深度学习技术的蓬勃发展，自然语言处理中也有其深入的应用。通过训练好的模型可以对自然语言进行分词，理解，甚至情感分类，理解语句的意图。而模型的训练需要大量的标注好的语句样本。目前主要采用两种类型的深度学习模型进行语义理解。一种是有监督学习的语义理解，一种是结合半监督学习、规则编写和预训练词向量结合在一起的语义理解。然而无论是前者还是后者，都需要大量的已被标注的语句。在意图识别方面，标注层级越高，内容越细致，越容易被模型识别自然语言的意图。如“今天的天气怎么样”，仅标注名词、形容词，模型无法识别出该文本的意图。如果“今天的”标注为“时间背景”，“天气”标注为“气候”，而“怎么样”标注为“疑问”，则模型确定这句话的含义是“在这个时间背景下气候如何”，从而调取预置的与咨询气候相对应的模块或网页。

目前在训练语义识别模型时采用的训练语料常常采用人工标注的方式。但在某些领域，由于技术的发展，新词汇更新频繁，如在金融领域，经常有新的金融产品被推出。而为了语义识别模型能够识别出新增的产品的含义，需要人工对相关词汇进行标注，再对模型进行重新训练。而语义识别模型的训练需要大量的样本且耗时长，导致语义识别模型的更新速率慢。

发明内容

本发明的主要目的在于解决目前无法快速标注训练语料的问题。

本发明第一方面提供了一种基于人工智能的自然语言标注方法，包括：

获取待标注的自然语言文本；

通过预先训练好的序列标注模型，对所述自然语言文本进行语义粗粒度序列标注，得到标注序列，其中，所述标注序列包含所述自然语言文本中的各个字对应的角色类型，所述角色类型包括疑问词类型、动作类型、故障类型、背景信息类型和槽位类型；

根据所述标注序列，确定所述自然语言文本中的目标词，并将所述目标词中各个字对应的角色类型作为所述目标词的目标角色类型；

获取所述目标角色类型对应的预置模板词，并计算所述目标词与所述模板词之间的相似度值，其中，所述模板词预先标注有对应的子类别；

根据所述相似度值和预置子类别判定规则，确定所述目标词对应的子类别为目标子类别，对所述自然语言文本进行语义细粒度序列标注，得到所述自然语言文本对应的标注文本。

可选地，在本发明第一方面的第一种实现方式中，在所述通过预先训练好的序列标注模型，对所述自然语言文本进行语义粗粒度序列标注，得到标注序列之前，还包括：

获取自然语言文本语料，并将所述自然语言文本语料作为训练语料；

对所述训练语料进行序列标注，得到序列标注信息，其中序列标注信息包括所述训练语料中的每个字对应的角色类型；

将所述训练语料输入预置自然语言处理模型，并通过所述自然语言处理模型对所述训练语料中每个字进行序列标注，得到预测标注结果；

基于预置损失函数，计算所述预测标注结果和所述标注信息之间的损失值；

将所述损失值反向输入所述自然语言处理模型，并根据所述损失值对所述自然语言处理模型的参数进行调整，直至所述自然语言处理模型收敛，得到序列标注模型。

可选地，在本发明第一方面的第二种实现方式中，在所述获取所述目标角色类型对应的预置模板词，并计算所述目标词与所述模板词之间的相似度值之前，还包括：

获取预置自然语言模板句，并通过所述序列标注模型对所述自然语言模板句进行粗粒度序列标注，得到所述自然语言模板句中的模板词和对应的角色类型；

对各个所述模板词进行向量化处理，得到对应的模板词向量；

基于预置聚类算法，对同一所述角色类型的模板词向量进行聚类，得到聚类结果；

根据所述聚类结果，将同一所述角色类型对应模板词标注为多个不同的子类别。

可选地，在本发明第一方面的第三种实现方式中，所述聚类算法为标签传播算法，所述基于预置聚类算法，对同一所述角色类型的模板词向量进行聚类，得到聚类结果包括：

对同一所述角色类型的模板词向量进行随机排序，得到排序序列；

对所述随机排序序列中各个模板词向量进行初始标记，得到对应的标签；

基于所述标签传播算法，对所述排序序列中的模板词向量依序进行标签传播，直至达到所述模板词向量的标签不再变化；

将同一标签的模板词向量作为同一类别，得到聚类结果。

可选地，在本发明第一方面的第四种实现方式中，所述获取所述目标角色类型对应的预置模板词，并计算所述目标词与所述模板词之间的相似度值包括：

根据所述目标角色类型，获取所述目标词对应的预置标注子类别的模板词；

对所述目标词进行向量化处理，得到目标向量；

基于预置相似度算法，计算所述目标词向量与对应各个所述模板词向量之间的相似度值。

可选地，在本发明第一方面的第五种实现方式中，所述根据所述相似度值和预置子类别判定规则，确定所述目标词对应的子类别为目标子类别，将所述目标词对应的子类别作为目标子类别，并根据所述目标子类别，对所述自然语言文本进行语义细粒度序列标注，得到所述自然语言文本对应的标注文本包括：

根据所述相似度值，按照从大到小排序方式对所述模板词向量进行排序，得到对应的排序结果；

根据所述排序结果，提取与预置对比数量相等个数的模板词作为所述目标词对应的对比词；

根据预置子类别判定规则和所述对比词，确定所述目标词对应的目标子类别；

根据所述目标子类别，对所述自然语言文本进行语义细粒度序列标注，得到所述自然语言文本对应的标注文本。

可选地，在本发明第一方面的第六种实现方式中，所述根据预置子类别判定规则和所述对比词，确定所述目标词对应的目标子类别包括：

统计各个所述对比词对应子类别的数目，并判断所述数目是否相等；

若相等，则根据所述排序结果，确定最大的所述相似度值对应的子类别，并作为所述目标词对应的目标子类别；

若不相等，则将最大的所述数目对应的子类别作为所述目标子类别。

本发明第二方面提供了一种自然语言标注装置，包括：

第一获取模块，用于获取待标注的自然语言文本；

粗粒度标注模块，用于通过预先训练好的序列标注模型，对所述自然语言文本进行语义粗粒度序列标注，得到标注序列，其中，所述标注序列包含所述自然语言文本中的各个字对应的角色类型，所述角色类型包括疑问词类型、动作类型、故障类型、背景信息类型和槽位类型；

提取模块，用于根据所述标注序列，确定所述自然语言文本中的目标词，并将所述目标词中各个字对应的角色类型作为所述目标词的目标角色类型；

第二获取模块，用于获取所述目标角色类型对应的预置模板词，并计算所述目标词与所述模板词之间的相似度值，其中，所述模板词预先标注有对应的子类别；

细粒度标注模块，用于根据所述相似度值和预置子类别判定规则，确定所述目标词对应的子类别为目标子类别，并根据所述目标子类别，对所述自然语言文本进行语义细粒度序列标注，得到所述自然语言文本对应的标注文本。

可选地，在本发明第二方面的第一种实现方式中，所述自然语言标注装置还包括模型训练模块，所述模型训练模块具体用于：

可选地，在本发明第二方面的第二种实现方式中，所述自然语言标注装置还包括模板词标注模块，所述模板词标注模块包括：

获取单元，用于获取预置自然语言模板句，并通过所述序列标注模型对所述自然语言模板句进行粗粒度序列标注，得到所述自然语言模板句中的模板词和对应的角色类型；

向量化单元，用于对各个所述模板词进行向量化处理，得到对应的模板词向量；

聚类单元，用于基于预置聚类算法，对同一所述角色类型的模板词向量进行聚类，得到聚类结果；

第一标注单元，用于根据所述聚类结果，将同一所述角色类型对应模板词标注为多个不同的子类别。

可选地，在本发明第二方面的第三种实现方式中，所述聚类算法为标签传播算法，所述聚类单元具体用于：

将同一标签的模板词向量作为同一类别，得到聚类结果。

可选地，在本发明第二方面的第四种实现方式中，所述第二获取模块具体用于：

对所述目标词进行向量化处理，得到目标向量；

可选地，在本发明第二方面的第五种实现方式中，所述细粒度标注模块包括：

排序单元，用于根据所述相似度值，按照从大到小排序方式对所述模板词向量进行排序，得到对应的排序结果；

提取单元，用于根据所述排序结果，提取与预置对比数量相等个数的模板词作为所述目标词对应的对比词；

确定单元，用于根据预置子类别判定规则和所述对比词，确定所述目标词对应的目标子类别；

第二标注单元，用于根据所述目标子类别，对所述自然语言文本进行语义细粒度序列标注，得到所述自然语言文本对应的标注文本。

可选地，在本发明第二方面的第六种实现方式中，所述确定单元具体用于：

本发明第三方面提供了一种自然语言标注设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述自然语言标注设备执行上述的基于人工智能的自然语言标注方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于人工智能的自然语言标注方法。

在本方案中，获得自然语言文本后，先通过一个粗略的序列标注模型进行粗粒度序列标注，得到目标词和对应的角色类型。再计算同一角色类型的模板词与目标词之间的相似度。其中，模板词已预先进行了子类别标注。最后通过相似度比较，从而确定目标词对应的子类别，并在在自然语言文本中进行子类别标注。因此，当出现了新的词汇时，不再需要人工对其进行细粒度的子类别标注，减少了人工标注的时间和成本，实现训练文本的自动化标注。本方案还提出了通过聚类算法确定模板词的子类别，由于聚类算法是一种无监督学习，所以进一步减少人工参与的时间和成本。

附图说明

图1为本发明基于人工智能的自然语言标注方法的第一个实施例示意图；

图2为本发明基于人工智能的自然语言标注方法的第二个实施例示意图；

图3为本发明基于人工智能的自然语言标注方法的第三个实施例示意图；

图4为本发明基于人工智能的自然语言标注方法的第四个实施例示意图；

图5为本发明实施例中自然语言标注装置的第一个实施例示意图；

图6为本发明实施例中自然语言标注装置的第二个实施例示意图；

图7为本发明实施例中自然语言标注设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于人工智能的自然语言标注方法及相关设备，在本方案中，能够实现提高自然语言文本的高效标注，减少人工标注的时间及成本。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明基于人工智能的自然语言标注方法的第一个实施例包括：

101、获取待标注的自然语言文本；

可以理解的是，本发明的执行主体可以为自然语言标注装置，还可以是服务器，具体此处不做限定。本实施例以服务器为执行主体为例进行说明。

预先通过自然语言文本库获取待标注的自然语言文本。在本实施例中，自然语言文本库可以通过网页爬虫得到，也可以通过人工输入得到。

102、通过预先训练好的序列标注模型，对所述自然语言文本进行语义粗粒度序列标注，得到标注序列，其中，所述标注序列包含所述自然语言文本中的各个字对应的角色类型，所述角色类型包括疑问词类型、动作类型、故障类型、背景信息类型和槽位类型；

预先训练好序列标注模型。在本实施例中，序列标注模型主要用于粗粒度序列标注。

标注体系有BIOES体系，BIO体系等。本实施例优选采用BIO体系进行序列标注。BIO体系是将文字分为“begin”、“intermediate”和“other”这标注。而BIO三个标注类型下还可分为小标注。在本方案中，这些小标注就是角色类型，包括question(疑问词)、action(动作)、problem(故障)、background(背景信息)和slot(槽位)。其中，槽位类型是指除疑问词、动作、故障和背景信息以外，能够明确定义属性的角色类型，该角色类型的词能够明确该语句中的具体关键信息。例如“我的身份证如何补办”中的关键信息是“身份证”，因此将“身份证”标注为槽位类型。

如输入的自然语言文本为“请问我的身份证丢失了如何补办”，经过序列标注模型的粗粒度标注后，得到的标注序列为：“请”[O]“问”[O]“我”[B-background]“的”[I-background]“身”[I-slot]“份”[I-slot]……。

103、根据所述标注序列，确定所述自然语言文本中的目标词，并将所述目标词中各个字对应的角色类型作为所述目标词的目标角色类型；

根据标注序列，可确定自然语言文本中的目标词。以上述标注序列为例，“我”“的”被分别被标注为[B-background][I-background],B表示“begin”，而I表示“intermediate”，因此“我”和“的”为一个完整的目标词。而对应的角色类型“background”即目标词的目标角色类型。

104、获取所述目标角色类型对应的预置模板词，并计算所述目标词与所述模板词之间的相似度值，其中，所述模板词预先标注有对应的子类别；

根据目标词对应的目标角色类型，确定与目标角色类型相同角色类型的模板词。同时通过向量化处，得到标注了子类别的模板词的模板词向量，以及目标词对应的目标词向量。预先设置计算词向量之间的相似度值算法，基于相似度值算法，计算目标词向量和标注为同一角色类型的模板词向量之间的相似度值。

105、根据所述相似度值和预置子类别判定规则，确定所述目标词对应的子类别为目标子类别，并根据所述目标子类别，对所述自然语言文本进行语义细粒度序列标注，得到所述自然语言文本对应的标注文本。

计算得到目标词向量与模板词向量之间的相似度值后，根据从大到小的顺序，将各个模板词向量进行排序，得到排序结果。获取预置对比数量，如四个。然后在排序结果中，从前往后，选择四个模板词向量。然后将这四个模板词向量对应的模板词作为对比词。

子类别判定规则包括：模板词有预先标注的子类别，统计各个对比词对应的子类别的数量。然后判断各个子类别数量是否相等。若相等，则选择相似度值最大的对比词对应的子类别为目标词对应的目标子类别。

确定目标子类别后，将其标注在自然语言文本中对应的目标词上，以完成了细粒度序列标注，从而得到了标注文本。

在本实施例中，当出现了新的词汇时，不再需要人工对其进行细粒度的子类别标注，仅通过序列标注模型进行粗粒度序列标注，再根据与模板词的相似度值和预置子类别判别规则，即可完成细粒度序列标注，从而减少了人工标注的时间和成本。

请参阅图2，本发明实施例中基于人工智能的自然语言标注方法的第二个实施例包括：

201、获取自然语言文本语料，并将所述自然语言文本语料作为训练语料；

在本实施例中，预先获取大量的自然语言文本语料，如“请问我的身份证丢失了如何补办”。并将这些自然语言文本语料作为训练语料。

202、对所述训练语料进行序列标注，得到序列标注信息，其中序列标注信息包括所述训练语料中的每个字对应的角色类型；

然后对这句话中的每个字都进行标注。在本实施例中，优先采用BIO标注法对每个自然语言文本中的每个字进行标注，而BIO标注中又有其对应的角色类型，角色类型包括疑问词类、动作类、故障类、背景信息类和槽位类。

如训练语料中的“身份证”一词，可被标注为“身”[B-slot]“份”[I-slot]“证”[I-slot]。而该词前面的“的”被标注为[I]，后面的“丢”被标注为“丢”[B-action]。因此“身”“份”“证”这三个字作为一个词，而其对应的角色类型为slot。

203、将所述训练语料输入预置自然语言处理模型，并通过所述自然语言处理模型对所述训练语料中每个字进行序列标注，得到预测标注结果；

应用于自然语言处理的模型有很多，如Bert模型。本实施例以Bert模型进行简要说明。

将训练语料输入预置的Bert模型后，Bert模型通过位置嵌入，将训练语料中的每个字转换为用[batch size，sequence length，embedding dimension]形式的向量，然后将所有向量放在一起，形成一个矩阵。最后将这个矩阵输入Bert模型，以通过每个向量与前后向量的距离，提取各个向量的特征。最后使用分类器预测为各个标注的概率，从而得到整个训练语料的预测标注结果。

204、基于预置损失函数，计算所述预测标注结果和所述标注信息之间的损失值；

预先设置计算预测结果与预先标注的标注信息间的损失函数。得到的预测标注结果是每个字标注为某个类别的概率。因此当得到预测标注结果后，可将预测标注结果和标注信息输入损失函数中，从而得到预测标注结果和标注信息之间的差距，即损失值。

205、将所述损失值反向输入所述自然语言处理模型，并根据所述损失值对所述自然语言处理模型的参数进行调整，直至所述自然语言处理模型收敛，得到序列标注模型；

通过损失函数得到损失值之后，通过反向传播回该自然语言处理模型中。由于该模型中有很多参数需要调整，如卷积核卷积的步数。当模型收到反向传回的损失值后，根据损失值，调整其中的参数，直至模型收敛。

一般模型收敛有两种，一种是随着训练次数的增加，损失值不再减小，反而增大，将损失值最小的模型确定为收敛的模型。另一种是预设一个模型识别的准确率阈值，当输出的损失值达到阈值时，则判定该模型收敛。将收敛时的自然语言处理模型确定为序列标注模型。

206、获取待标注的自然语言文本；

207、通过预先训练好的序列标注模型，对所述自然语言文本进行语义粗粒度序列标注，得到标注序列；

208、根据所述标注序列，确定所述自然语言文本中的目标词，并将所述目标词中各个字对应的角色类型作为所述目标词的目标角色类型；

209、获取所述目标角色类型对应的预置模板词，并计算所述目标词与所述模板词之间的相似度值；

210、根据所述相似度值和预置子类别判定规则，确定所述目标词对应的子类别为目标子类别，并根据所述目标子类别，对所述自然语言文本进行语义细粒度序列标注，得到所述自然语言文本对应的标注文本。

本发明实施例中，详细描述序列标注模型的生成过程。由于序列标注模型是通过自然语言处理模型训练得到的，因此自然语言处理模型的训练过程也就是对训练语料进行粗粒度序列标注的过程。

请参阅图3，本发明实施例中基于人工智能的自然语言标注方法的第三个实施例包括：

301、获取预置自然语言模板句，并通过所述序列标注模型对所述自然语言模板句进行粗粒度序列标注，得到所述自然语言模板句中的模板词和对应的角色类型；

预先收集大量的模板句，将这些模板句输入上述序列标注模型中。由于序列标注模型可对模板句中每个字都进行角色类型标注，因此通过该模型后，可得到模板句对应的标注序列。在本实施例中，序列标注模型基于BIO体系进行标注。通过BIO类型和角色类型，可进一步确定该模板句中的模板词和对应的角色类型。如“身份证”标注“槽位”，“什么”标注为“疑问词”，“修改”标注为“动作。”

302、对各个所述模板词进行向量化处理，得到对应的模板词向量；

先将模板词群中的各个模板词向量化处理，转换为机器可识别的模板向量。向量化处理的方式常见的有LSA矩阵分解模型、Word2Vector模型等。这些转换方式基本原理是将字或词向一个预设的多个维度的矩阵进行映射，从而以一个多维的连续实数向量表示该字或词。

由于序列标注模型是对每个字进行标注，因此在本实施例中，在进行向量化时，采用将词拆分为单个字，然后将每个字进行向量化，得到对应的字向量，最后将所有的字向量按照词中字的顺序进行拼接，得到模板词向量。

303、对同一所述角色类型的模板词向量进行随机排序，得到排序序列；

聚类(Cluster)是指将相似的事物聚集在一起，从而将复杂数据简化为少数类别。计算同一角色类型的各个模板向量间的相似度值，从而将模板词进行聚类。聚类算法有k-means算法等。本方案优选标签传播算法(Label Propagation Algorithm，LPA)，它是一种基于标签传播的局部社区划分方法。

先将同一角色类型的模板词向量随机排序，得到排序序列。

304、对所述随机排序序列中各个模板词向量进行初始标记，得到对应的标签；

然后将每一个模板词向量进行一个初始化的简单标记。如模板词有“身份证”、“户口本”、“银行卡”和“信用卡”，对他们进行初始标记，分别得到的标签为1、2、3和4。

305、基于预置标签传播算法，对所述排序序列中的模板词向量依序进行标签传播，直至达到所述模板词向量的标签不再变化；

基于预置的LPA，判断“户口本”相邻的“身份证”是否与其相近，若相近，则将户口本的标签更新为1，然后判断“银行卡”与“户口本”是否相近，若相近，则将标签1传递给“银行卡”，若不相近，则保留原有的标签3。其中，是否相近的判断可通过相似度算法实现。

306、将同一标签的模板词向量作为同一类别，得到聚类结果；

通过LPA，可将上述模板词分为两类，得到聚类结果，一类为“身份证”和“户口本”；一类包括“银行卡”和“信用卡”。

307、根据所述聚类结果，将同一所述角色类型对应模板词标注为多个不同的子类别；

最后根据聚类结果，将“身份证”和“户口本”标注为的子类别为身份证件；“银行卡”和“信用卡”标注的类型为存储证件类。其中，在得到聚类结果后，还可通过人工干预，各个子类别和对应的模板词进行微调，以取得更好的效果。

308、获取待标注的自然语言文本；

309、通过预先训练好的序列标注模型，对所述自然语言文本进行语义粗粒度序列标注，得到标注序列；

310、根据所述标注序列，确定所述自然语言文本中的目标词，并将所述目标词中各个字对应的角色类型作为所述目标词的目标角色类型；

311、根据所述目标角色类型，获取所述目标词对应的预置标注子类别的模板词；

根据目标词对应的目标角色类型，确定与目标角色类型相同角色类型的模板词，用于后续的子类别判别。

312、对所述目标词进行向量化处理，得到目标向量；

313、基于预置相似度算法，计算所述目标词向量与对应各个所述模板词向量之间的相似度值；

采用一定算法计算目标词向量和标注为同一角色类型的模板词向量之间的相似度值，如欧式距离算法、余弦相似度算法。以余弦相似度算法为例，简要说明相似度值计算过程。两个字之间的相似度值计算公式可用下式表示：

其中向量a和向量b分别为两个模板词向量，Ai为向量a和向量b在坐标系中的x值，x1和x2的合集，Bi为向量a和向量b在坐标系中的y值，y1和y2的合集，n取[1,2]。将得到的余弦值作为相似度值，数值的范围为[-1,1]。当余弦值等于1时，两向量的方向一致，两词越相似。

314、根据所述相似度值和预置子类别判定规则，确定所述目标词对应的子类别为目标子类别，并根据所述目标子类别，对所述自然语言文本进行语义细粒度序列标注，得到所述自然语言文本对应的标注文本。

本发明实施例中，用聚类确定各个角色类型对应的子类别。由于聚类采用的是无监督学习，中间不需要员工参与，因此减少了人工的参与。同时，最终的聚类结果可通过人工干预进行进一步的校正，以取得更好的效果。

请参阅图4，本发明实施例中基于人工智能的自然语言标注方法的第四个实施例包括：

401、获取待标注的自然语言文本；

402、通过预先训练好的序列标注模型，对所述自然语言文本进行语义粗粒度序列标注，得到标注序列，其中，所述标注序列包含所述自然语言文本中的各个字对应的角色类型，所述角色类型包括疑问词类型、动作类型、故障类型、背景信息类型和槽位类型；

403、根据所述标注序列，确定所述自然语言文本中的目标词，并将所述目标词中各个字对应的角色类型作为所述目标词的目标角色类型；

404、获取所述目标角色类型对应的预置模板词，并计算所述目标词与所述模板词之间的相似度值；

405、根据所述相似度值，按照从大到小排序方式对所述模板词向量进行排序，得到对应的排序结果；

计算得到目标词向量与模板词向量之间的相似度值后，根据从大到小的顺序，将各个模板词向量进行排序，得到排序结果。如目标词为“银行卡”，模板词有“信用卡”和“身份证”，相似度值分别为0.99和0.67，则“信用卡”排序在“身份证”之前。

406、根据所述排序结果，提取与预置对比数量相等个数的模板词作为所述目标词对应的对比词；

获取预置对比数量，如4。在排序结果中，从前往后，选择4个模板词向量。然后将这4个模板词向量对应的模板词作为对比词。

407、统计各个所述对比词对应子类别的数目，并判断所述数目是否相等；

由于对比词向量对模板词筛选得到，模板词有其对应的子类别。因此可确定各个对比词向量对应的子类别。如目标词的角色类型为槽位类，对应的子类别有“登记证件”、“存储证件”、“通行证”和“交通卡”。然后统计各个对比词对应的子类别的数量，如对比词对应的子类别为“登记证件”的数量为2，并判断各个子类别数量是否相等。

408、若相等，则根据所述排序结果，确定最大的所述相似度值对应的子类别，并作为所述目标词对应的目标子类别；

若四个对比词对应的子类别的数目分别为1，1，1，1，则在之前的排序结果中，确定四个对比词中与目标词相似度值最大的那个对比词，并将该对比词对应的子类别作为目标子类别。如“身份证”与“护照”相似度最高，“护照”对应的子类别为“登记证件”，则确定“身份证”对应的子类别为“登记证件”。

409、若不相等，则将最大的所述数目对应的子类别作为所述目标子类别；

若四个对比词对应的子类别的数目不相等，分别为2，1，1，0，则将数量为2的“登记证件”作为目标词对应的子类别。

410、根据所述目标子类别，对所述自然语言文本进行语义细粒度序列标注，得到所述自然语言文本对应的标注文本。

根据目标子类别，如“登记证件”，对“身份证”这个原先粗粒度标注为“slot”的词进行细粒度标注，从而得到自然语言文本对应的标注文本。

需要强调的是，为进一步保证上述自然语言文本和标注文本的私密和安全性，上述自然语言文本和标注文本还可以存储于一区块链的节点中。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本发明实施例中，在本实施例中，详细描述确定目标词对应的对比词后，如何根据对比词确定其对应的目标子类别。

上面对本发明实施例中基于人工智能的自然语言标注方法进行了描述，下面对本发明实施例中自然语言标注装置进行描述，请参阅图5，本发明实施例中自然语言标注装置一个实施例包括：

第一获取模块501，用于获取待标注的自然语言文本；

粗粒度标注模块502，用于通过预先训练好的序列标注模型，对所述自然语言文本进行语义粗粒度序列标注，得到标注序列，其中，所述标注序列包含所述自然语言文本中的各个字对应的角色类型，所述角色类型包括疑问词类型、动作类型、故障类型、背景信息类型和槽位类型；

提取模块503，用于根据所述标注序列，确定所述自然语言文本中的目标词，并将所述目标词中各个字对应的角色类型作为所述目标词的目标角色类型；

第二获取模块504，用于获取所述目标角色类型对应的预置模板词，并计算所述目标词与所述模板词之间的相似度值，其中，所述模板词预先标注有对应的子类别；

细粒度标注模块505，用于根据所述相似度值和预置子类别判定规则，确定所述目标词对应的子类别为目标子类别，并根据所述目标子类别，对所述自然语言文本进行语义细粒度序列标注，得到所述自然语言文本对应的标注文本。

请参阅图6，本发明实施例中自然语言标注装置的另一个实施例包括：

第一获取模块601，用于获取待标注的自然语言文本；

粗粒度标注模块602，用于通过预先训练好的序列标注模型，对所述自然语言文本进行语义粗粒度序列标注，得到标注序列，其中，所述标注序列包含所述自然语言文本中的各个字对应的角色类型，所述角色类型包括疑问词类型、动作类型、故障类型、背景信息类型和槽位类型；

提取模块603，用于根据所述标注序列，确定所述自然语言文本中的目标词，并将所述目标词中各个字对应的角色类型作为所述目标词的目标角色类型；

第二获取模块604，用于获取所述目标角色类型对应的预置模板词，并计算所述目标词与所述模板词之间的相似度值，其中，所述模板词预先标注有对应的子类别；

细粒度标注模块605，用于根据所述相似度值和预置子类别判定规则，确定所述目标词对应的子类别为目标子类别，并根据所述目标子类别，对所述自然语言文本进行语义细粒度序列标注，得到所述自然语言文本对应的标注文本。

其中，所述自然语言标注装置还包括模型训练模块606，所述模型训练模块606具体用于：

其中，所述自然语言标注装置还包括模板词标注模块607，所述模板词标注模块607包括：

获取单元6071，用于获取预置自然语言模板句，并通过所述序列标注模型对所述自然语言模板句进行粗粒度序列标注，得到所述自然语言模板句中的模板词和对应的角色类型；

向量化单元6072，用于对各个所述模板词进行向量化处理，得到对应的模板词向量；

聚类单元6073，用于基于预置聚类算法，对同一所述角色类型的模板词向量进行聚类，得到聚类结果；

第一标注单元6074，用于根据所述聚类结果，将同一所述角色类型对应模板词标注为多个不同的子类别。

可选地，所述聚类算法为标签传播算法，所述聚类单元6073具体用于：

将同一标签的模板词向量作为同一类别，得到聚类结果。

可选地，所述第二获取模块604具体用于：

对所述目标词进行向量化处理，得到目标向量；

其中，所述细粒度标注模块605包括：

排序单元6051，用于根据所述相似度值，按照从大到小排序方式对所述模板词向量进行排序，得到对应的排序结果；

提取单元6052，用于根据所述排序结果，提取与预置对比数量相等个数的模板词作为所述目标词对应的对比词；

确定单元6053，用于根据预置子类别判定规则和所述对比词，确定所述目标词对应的目标子类别；

第二标注单元6054，用于根据所述目标子类别，对所述自然语言文本进行语义细粒度序列标注，得到所述自然语言文本对应的标注文本。

可选地，所述确定单元6053具体用于：

本发明实施例在上一实施例基础上，还提出了通过聚类算法，确定模板词的子类别，由于聚类算法是一种无监督学习，所以进一步减少人工参与的时间和成本。在聚类过程中还可增加人工干预，增加聚类的精确度。

上面图5和图6从模块化功能实体的角度对本发明实施例中的自然语言标注装置进行详细描述，下面从硬件处理的角度对本发明实施例中自然语言标注设备进行详细描述。

图7是本发明实施例提供的一种自然语言标注设备的结构示意图，该自然语言标注设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)710(例如，一个或一个以上处理器)和存储器720，一个或一个以上存储应用程序733或数据732的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对自然语言标注设备700中的一系列指令操作。更进一步地，处理器710可以设置为与存储介质730通信，在自然语言标注设备700上执行存储介质730中的一系列指令操作。

自然语言标注设备700还可以包括一个或一个以上电源740，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口760，和/或，一个或一个以上操作系统731，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图7示出的自然语言标注设备结构并不构成对自然语言标注设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于人工智能的自然语言标注方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于人工智能的自然语言标注方法，其特征在于，所述基于人工智能的自然语言标注方法包括：

获取待标注的自然语言文本；

根据所述相似度值和预置子类别判定规则，确定所述目标词对应的子类别为目标子类别，并根据所述目标子类别，对所述自然语言文本进行语义细粒度序列标注，得到所述自然语言文本对应的标注文本；

在所述获取所述目标角色类型对应的预置模板词，并计算所述目标词与所述模板词之间的相似度值之前，还包括：

2.根据权利要求1所述的基于人工智能的自然语言标注方法，其特征在于，在所述通过预先训练好的序列标注模型，对所述自然语言文本进行语义粗粒度序列标注，得到标注序列之前，还包括：

将所述损失值反向输入所述自然语言处理模型，并根据所述损失值对所述自然语言处理模型的参数进行调整，直至所述自然语言处理模型收敛，得到所述序列标注模型。

3.根据权利要求1所述的基于人工智能的自然语言标注方法，其特征在于，所述聚类算法为标签传播算法，所述基于预置聚类算法，对同一所述角色类型的模板词向量进行聚类，得到聚类结果包括：

对随机排序序列中各个模板词向量进行初始标记，得到对应的标签；

将同一标签的模板词向量作为同一类别，得到聚类结果。

4.根据权利要求3所述的基于人工智能的自然语言标注方法，其特征在于，所述获取所述目标角色类型对应的预置模板词，并计算所述目标词与所述模板词之间的相似度值包括：

对所述目标词进行向量化处理，得到目标向量；

5.根据权利要求1-4中任一项所述的基于人工智能的自然语言标注方法，其特征在于，所述自然语言文本和/或标注文本可存储于区块链中，所述根据所述相似度值和预置子类别判定规则，确定所述目标词对应的子类别为目标子类别，并根据所述目标子类别，对所述自然语言文本进行语义细粒度序列标注，得到所述自然语言文本对应的标注文本包括：

6.根据权利要求5所述的基于人工智能的自然语言标注方法，其特征在于，所述根据预置子类别判定规则和所述对比词，确定所述目标词对应的目标子类别包括：

7.一种自然语言标注装置，其特征在于，所述自然语言标注装置包括：

模板词标注模块，所述模板词标注模块包括：

获取单元，用于获取预置自然语言模板句，并通过序列标注模型对所述自然语言模板句进行粗粒度序列标注，得到所述自然语言模板句中的模板词和对应的角色类型；

第一标注单元，用于根据所述聚类结果，将同一所述角色类型对应模板词标注为多个不同的子类别；

第一获取模块，用于获取待标注的自然语言文本；

8.一种自然语言标注设备，其特征在于，所述自然语言标注设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述自然语言标注设备执行如权利要求1-6中任一项所述的基于人工智能的自然语言标注方法。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的基于人工智能的自然语言标注方法。