CN112183088B

CN112183088B - 词语层级确定的方法、模型构建方法、装置及设备

Info

Publication number: CN112183088B
Application number: CN202011043847.XA
Authority: CN
Inventors: 史亚飞
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2023-11-21
Anticipated expiration: 2040-09-28
Also published as: CN112183088A

Abstract

本发明提供一种词语层级确定的方法、模型构建方法、装置及设备，其中模型构建方法可以包括：利用训练集对当前模型进行训练，得到训练模型，利用测试集对训练模型进行测试，得到测试结果；若测试结果为不满足预设达标条件，确定未标注数据集中满足预设标注条件的未标注数据为目标数据，对目标数据进行标注并将标注后的目标数据加入训练集，同时确定训练模型为前次训练模型。由于本发明的方案会从未标注数据集中选择满足预设标注条件的数据进行标注，因此，可以大大降低标注的工作量，同时提高标注的训练集对模型训练过程中的贡献。

Description

词语层级确定的方法、模型构建方法、装置及设备

技术领域

本发明涉及模型训练技术领域，尤其涉及一种词语层级确定的方法、模型构建方法、装置及设备。

背景技术

目前的语言中，很多词语具有层级关系，比如同义关系、上位关系、下位关系等，为了识别文字中词语对具有何种层级关系，往往通过神经网络模型的方式进行识别确定，但是在模型训练之前，需要对词语之间的关系进行标注，以判断模型是否训练达标。

在训练不达标时，需要标注新的词语进行再次训练，但是，训练模型所需要的样本量较大，逐个标注耗费的时间较多，而且标注的词语可能对模型的训练不会有较大贡献，这就会导致模型训练的效率较低。

发明内容

有鉴于此，本发明的目的在于提出一种词语层级确定的方法、模型构建方法、装置及设备，以解决现有技术中标注耗费的时间较多，而且标注的词语可能对模型的训练不会有较大贡献的问题。

基于上述目的，本发明提供了一种词语层级确定的模型构建方法，所述构建方法包括如下迭代操作：

获取未标注数据集以及预先标注的训练集和测试集；

利用所述训练集对当前模型进行训练，得到训练模型；所述当前模型为预训练模型或上一次训练过程中的前次训练模型；

利用所述测试集对所述训练模型进行测试，得到测试结果；

若所述测试结果为不满足预设达标条件，确定所述未标注数据集中满足预设标注条件的未标注数据为目标数据，对所述目标数据进行标注并将标注后的目标数据加入所述训练集，同时确定所述训练模型为前次训练模型；

若所述测试结果为满足预设达标条件，停止所述迭代操作，确定所述训练模型为词语层级确定模型。

进一步地，上述所述的词语层级确定的模型构建方法中，所述确定所述未标注数据集中满足预设标注条件的未标注数据为目标数据，包括：

将未标注数据集中的未标注数据输入到所述训练模型中，得到各未标注数据对应的标签概率；

将所述标签概率输入到预设的不确定性算法中，得到各未标注数据的不确定性分值；

根据未标注数据在所述未标注数据集、所述训练集和所述测试集中的数量以及所述未标注数据集、所述训练集和所述测试集中所有数据的数量确定各未标注数据的显著性分值；

根据所述不确定性分值和所述显著性分值确定各未标注数据的训练贡献分值；

将所述训练贡献分值最大的预设数量个未标注数据确定为目标数据。

进一步地，上述所述的词语层级确定的模型构建方法中，所述不确定性算法包括第一公式；

所述将所述标签概率输入到预设的不确定性算法中，得到各未标注数据的不确定性分值，包括：

将第j个未标注数据的标签概率输入到第一公式中，得到第j个未标注数据的不确定性分值，其中，j为正整数，j＝1,2,3…n，n为所述未标注数据集中的数据总数，x_j为第j个未标注数据，/>为x_j的不确定性分值，y_i为第i个标签，i为正整数，i＝1,2,3…m，m为预设的标签的数量，Y为所有预设的标签构成的集合，P(y_i|x_j)为x_j对应的y_i的标签概率。

可选的，所述根据未标注数据在所述未标注数据集、所述训练集和所述测试集中的数量以及所述未标注数据集、所述训练集和所述测试集中所有数据的数量确定各未标注数据的显著性分值，包括：

确定x_q在未标注数据集中的数量与未标注数据集中所有未标注数据的数量之比，得到第一比率；

确定x_q在已标注数据集中的数量与已标注数据集中所有未标注数据的数量之比，得到第二比率，所述已标注数据集包括所述训练集和所述测试集；

将所述第一比率和第二比率输入到第二公式中，得到显著性分值；

所述第二公式为其中，x_q为已标注数据集中第q个已标注数据，q为正整数，q＝1,2,3…p,p为所述已标注数据集中的数据总数，为x_q的显著性分值，R_U为第一比率，R_L为第二比率。

进一步地，上述所述的词语层级确定的模型构建方法，还包括：

若所述目标数据的数量满足预设数量条件，停止所述迭代操作，确定所述训练模型为词语层级确定模型。

本发明还提供了一种词语层级确定的方法，所述方法包括：

获取待确定数据；

将所述待确定数据输入到利用如本发明提供的词语层级确定的模型构建方法构建的词语层级确定模型中，得到所述待确定数据对应的各层级标签的概率；

确定所述概率最大的层级标签对应的层级为所述待确定数据的层级。

本发明还提供了一种词语层级确定的模型构建装置，所述装置包括：

第一获取模块，用于获取未标注数据集以及预先标注的训练集和测试集；

训练模块，用于利用所述训练集对当前模型进行训练，得到训练模型；所述当前模型为预训练模型或上一次训练过程中的前次训练模型；

测试模块，用于利用所述测试集对所述训练模型进行测试，得到测试结果；

数据标注模块，用于若所述测试结果为不满足预设达标条件，确定所述未标注数据集中满足预设标注条件的未标注数据为目标数据，对所述目标数据进行标注并将标注后的目标数据加入所述训练集，同时确定所述训练模型为前次训练模型；

模型确定模块，用于若所述测试结果为满足预设达标条件，停止迭代操作，确定所述训练模型为词语层级确定模型。

本发明还提供了一种词语层级确定的装置，所述装置包括：

第二获取模块，用于获取待确定数据；

概率确定模块，用于将所述待确定数据输入到利用如本发明提供的词语层级确定的模型构建方法构建的词语层级确定模型中，得到所述待确定数据对应的各层级标签的概率；

层级确定模块，用于确定所述概率最大的层级标签对应的层级为所述待确定数据的层级。

本发明还提供了一种词语层级确定的模型构建设备，包括：第一存储器、第一处理器及存储在第一存储器上并可在第一处理器上运行的第一计算机程序，其特征在于，所述第一处理器执行所述第一计算机程序时实现如本发明提供的词语层级确定的模型构建方法。

本发明还提供了一种词语层级确定的设备，包括：第二存储器、第二处理器及存储在第二存储器上并可在第二处理器上运行的第二计算机程序，其特征在于，所述第二处理器执行所述第二计算机程序时实现如本发明提供的词语层级确定的模型构建方法。

从上面所述可以看出，本发明的词语层级确定的方法、模型构建方法、装置及设备，在本次训练过程中得到的测试结果不满足预设达标条件时，从未标注数据集中选择满足预设标注条件的未标注数据作为目标数据，然后仅对目标数据进行标注，然后将标注的目标数据加入到训练集中，下一次训练则迭代使用具有标注后的目标数据的训练集进行训练，由于本发明的方案会从未标注数据集中选择满足预设标注条件的数据进行标注，因此，可以大大降低标注的工作量，同时提高标注的训练集对模型训练过程中的贡献。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一个实施例提供的一种词语层级确定的模型构建方法的流程示意图。

图2是本发明的一个实施例提供的一种目标数据确定的流程示意图；

图3是本发明提供的一种显著性分值确定的流程示意图；

图4是本发明的另一实施例提供的一种词语层级确定的方法的流程示意图；

图5是本发明的另一实施例提供的一种词语层级确定的模型构建装置的结构示意图；

图6是本发明的另一实施例提供的一种词语层级确定的装置的结构示意图；

图7为本发明的词语层级确定的模型构建设备实施例的结构示意图；

图8为本发明的词语层级确定的设备实施例的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如图1所示，本实施例提供的词语层级确定的模型构建方法可以包括如下迭代操作：

101、获取未标注数据集以及预先标注的训练集和测试集。

需要说明的是，未标注数据集由多个未标注数据组成，在一个具体的例子中，一个未标注数据可以包括两个词语形成的一个词语对，比如“慢性阻塞性肺病”和“慢阻肺”，这两个词语形成一个词语对，在本实施例中，未进行标注的一个词语对可以称为一个未标注数据。

另外，标注的意思指的是对词语对的标签进行概率的标注，该过程可以是人工标注，词语对的标签可以有很多个，该标签往往是预先设置的，由于本发明是对词语层级的确定，那么本实施例中，标签就是两个词语之间可能具有的层级关系，在一个具体的例子中，可以有四个标签，其与词语a和词语b的层级关系可以如表1所示：

层级关系	标签
		a与b之间没有关系	0
a与b是同义关系	1
		a是b的上位	2
a是b的下位	3

表1

而本步骤中所指的的训练集中的训练数据和测试集中的测试数据均是已经标注过的词语对，比如词语对“慢性阻塞性肺病”和“慢阻肺”为同义关系，则其标签为“1”，那么，对应上述具体词语对，一个训练数据则可以包括{“慢性阻塞性肺病”，“慢阻肺”|“1”}。

需要说明的是，上述未标注数据集以及预先标注的训练集和测试集可以从网络中爬取获得原始数据，再对原始数据进行预处理之后获得。本步骤中涉及到的预处理为模型训练过程中较为常见的数据处理方式，此处不再赘述。

102、利用所述训练集对当前模型进行训练，得到训练模型；所述当前模型为预训练模型或上一次训练过程中的前次训练模型。

需要说明的是，由于本发明的方案为迭代循环的方案，那么本步骤中的当前模型可能是第一次训练时的一个初始的模型，也可以是上次训练过程中训练完成的模型。具体的，第一次训练是的初始模型可以是一个预训练模型，利用预训练模型，可以有效压缩训练时间，加快训练的速度。

本步骤中的训练过程可以采用Bert训练方式，对应的，预训练模型为bert类型的模型，在将训练集输入到当前模型中后，词语对会使用向量进行表示，之后利用多头自注意力机制以及12层transformer encoder中，输出各标签的概率，将输出的概率接入损失函数，不断迭代，直到模型收敛。

103、利用所述测试集对所述训练模型进行测试，得到测试结果。

本步骤中，将测试集输入到训练模型中，从而得到各测试数据对应的标签的概率，通过对比输出的标签的概率以及标注的标签的概率，得到可以用来评估输出的概率的准确程度的值，比如两者的平均差，若该值满足预设达标条件，则直接进入105，若该值不满足预设达标条件，则直接进入104。

需要说明的是，预设达标条件可以是一个预先设定的阈值，若上述评估输出的概率的准确程度的值大于该阈值，则可以判定为满足预设达标条件，若上述评估输出的概率的准确程度的值小于该阈值，则可以判定为不满足预设达标条件。

具体的，若所述测试结果为不满足预设达标条件，104可以为，确定所述未标注数据集中满足预设标注条件的未标注数据为目标数据，对所述目标数据进行标注并将标注后的目标数据加入所述训练集，同时确定所述训练模型为前次训练模型。

对于确定所述未标注数据集中满足预设标注条件的未标注数据为目标数据的具体过程可以参阅图2，图2是本发明的一个实施例提供的一种目标数据确定的流程示意图。

如图2所示，确定目标数据的过程可以包括：

201、将未标注数据集中的未标注数据输入到所述训练模型中，得到各未标注数据对应的标签概率。

需要说明的是，本步骤利用了本次迭代过程中的训练模型，将未标注数据输入到训练模型中，可以得到未标注数据对应的标签概率，由本实施例的101中的相关内容可以知道，训练模型输出时，每个未标注数据都会有一组标签的概率，比如，未标注数据a的标签1概率为0.9，标签2的概率为0.3，标签3的概率为0.2，标签4的概率为0.1；未标注数据b的标签1概率为0.85，标签2的概率为0.2，标签3的概率为0.1，标签4的概率为0.1。

202、将所述标签概率输入到预设的不确定性算法中，得到各未标注数据的不确定性分值。

本步骤中，不确定性分值确定的过程可以包括：所述将所述标签概率输入到预设的不确定性算法中，得到各未标注数据的不确定性分值，包括：

203、根据未标注数据在所述未标注数据集、所述训练集和所述测试集中的数量以及所述未标注数据集、所述训练集和所述测试集中所有数据的数量确定各未标注数据的显著性分值。

请参阅图3，图3是本发明提供的一种显著性分值确定的流程示意图。

如图3所示，显著性分值确定的过程可以包括：

301、确定x_q在未标注数据集中的数量与未标注数据集中所有未标注数据的数量之比，得到第一比率。

需要说明的是，本步骤中出现的“集”与传统的集合不同，本实施例中出现的“集”中会有重复的数据，并不满足集合的互异性。因此，x_q在未标注数据集中的数量往往会大于1，当然，也会有等于1的情况。在一个具体的例子中，x_q在未标注数据集中的数量可以是10，未标注数据集中所有未标注数据的数量可以是100，那么第一比率就是10:100＝1/10。

另外，x_q表示的是集合中出现的第q个词语对，由上述表述可知，前述提到的未标注数据是没有经过标注的词语对，已标注数据是经过标注后与标注数据组合成的词语对，而在确定显著性分值时，涉及到了未标注数据和已标注数据，因此，在本实施例中，x_q可以表示第q个词语对(302中涉及到的x_q与此处的情况相同，不再赘述)。

302、确定x_q在已标注数据集中的数量与已标注数据集中所有未标注数据的数量之比，得到第二比率，所述已标注数据集包括所述训练集和所述测试集。

与301相同，本步骤中出现的“集”与传统的集合不同，本实施例中出现的“集”中会有重复的数据，并不满足集合的互异性。因此，x_q在已标注数据集中的数量往往会大于1，当然，也会有等于1的情况。

另外，在本步骤中，训练集和测试集中的数据都是经过标注过的数据，因此，在本实施例中，训练集和测试集组成本步骤中的已标注数据集。

303、将所述第一比率和第二比率输入到第二公式中，得到显著性分值。

需要说明的是，所述第二公式可以但不仅限于为其中，x_q为已标注数据集中第q个已标注数据，q为正整数，q＝1,2,3…p,p为所述已标注数据集中的数据总数，/>为x_q的显著性分值，R_U为第一比率，R_L为第二比率。

另外，若R_L大于R_U，则表示该x_q的显著性已经足够大，此时就不用将该x_q进行标注，并加入到训练集中了。因此，在R_L大于R_U时，第二公式的输出即为0。

204、根据所述不确定性分值和所述显著性分值确定各未标注数据的训练贡献分值。

在本步骤中，可以利用第三公式确定训练贡献分值，第三公式可以为：

需要说明的是，第三公式中涉及到的x_q和x_j指的是同一个词语对，也就是q等于j。

205、将所述训练贡献分值最大的预设数量个未标注数据确定为目标数据。

通过204的计算，未标注数据集中的每一个未标注数据都会对应有一个训练贡献分值，由上述第一公式、第二公式和第三公式可以知道，训练贡献分值越大，对模型训练的贡献也就会越大，因此，本步骤可以根据训练贡献分值对未标注数据进行排序，选取排在前k个的未标注数据作为目标数据。其中，k为预先设置的数值，也就是本步骤中提到的预设数量。

若所述测试结果为满足预设达标条件，则执行105、停止所述迭代操作，确定所述训练模型为词语层级确定模型。

需要说明的是，预设达标条件可以是一个预先设定的阈值，若上述评估输出的概率的准确程度的值大于该阈值，则可以判定为满足预设达标条件，若上述评估输出的概率的准确程度的值大于该阈值，则可以判定为满足预设达标条件。

另外，由于在训练过程中，未标注数据的数量必然是有限的，在训练迭代的过程中，k值与未标注数据的数量可能会产生矛盾，从而无法进行迭代而进入死循环，因此，本实施例的方法还可以通过其他条件来停止迭代操作，比如，若所述目标数据的数量满足预设数量条件，停止所述迭代操作，确定所述训练模型为词语层级确定模型。

具体的，预设数量条件可以是k>未标注数据的数量，和/或，已标注数据的数量+k>专家可标注的最大数量-已标注数据的数量。

本实施例中，在本次训练过程中得到的测试结果不满足预设达标条件时，从未标注数据集中选择满足预设标注条件的未标注数据作为目标数据，然后仅对目标数据进行标注，然后将标注的目标数据加入到训练集中，下一次训练则迭代使用具有标注后的目标数据的训练集进行训练，由于本发明的方案会从未标注数据集中选择满足预设标注条件的数据进行标注，因此，可以大大降低标注的工作量，同时提高标注的训练集对模型训练过程中的贡献。

请参阅图4，图4是本发明的另一实施例提供的一种词语层级确定的方法的流程示意图。

如图4所示，本实施例提供的词语层级确定的方法可以包括：

401、获取待确定数据。

402、将所述待确定数据输入到利用如上述实施例提供的模型构建方法构建的词语层级确定模型中，得到所述待确定数据对应的各层级标签的概率。

403、确定所述概率最大的层级标签对应的层级为所述待确定数据的层级。

需要说明的是，涉及到词语层级确定模型的构建过程可以参考前述实施例的说明，本实施例不再赘述。

请参阅图5，图5是本发明的另一实施例提供的一种词语层级确定的模型构建装置的结构示意图。

如图5所示，本实施例提供的词语层级确定的模型构建装置可以包括：

第一获取模块501，用于获取未标注数据集以及预先标注的训练集和测试集；

训练模块502，用于利用所述训练集对当前模型进行训练，得到训练模型；所述当前模型为预训练模型或上一次训练过程中的前次训练模型；

测试模块503，用于利用所述测试集对所述训练模型进行测试，得到测试结果；

数据标注模块504，用于若所述测试结果为不满足预设达标条件，确定所述未标注数据集中满足预设标注条件的未标注数据为目标数据，对所述目标数据进行标注并将标注后的目标数据加入所述训练集，同时确定所述训练模型为前次训练模型；

模型确定模块505，用于若所述测试结果为满足预设达标条件，停止所述迭代操作，确定所述训练模型为词语层级确定模型。

请参阅图6，图6是本发明的另一实施例提供的一种词语层级确定的装置的结构示意图。

如图6所示，本实施例提供的词语层级确定的装置可以包括：

第二获取模块601，用于获取待确定数据；

概率确定模块602，用于将所述待确定数据输入到利用如权利要求1～5任一项所述的方法构建的词语层级确定模型中，得到所述待确定数据对应的各层级标签的概率；

层级确定模块603，用于确定所述概率最大的层级标签对应的层级为所述待确定数据的层级。

需要说明的是，本发明实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成的方法。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

请参阅图7，图7为本发明的词语层级确定的模型构建设备实施例的结构示意图，如图7所示，本实施例的词语层级确定的模型构建设备900包括：至少一个第一处理器901、第一存储器902、至少一个第一网络接口903和其他第一用户接口904。生产节点管理生产节点管理系统900中的各个组件通过第一总线系统905耦合在一起。可理解，第一总线系统905用于实现这些组件之间的连接通信。第一总线系统905除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图7中将各种总线都标为第一总线系统905。

其中，第一用户接口904可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本发明实施例中的第一存储器902可以是易失性第一存储器或非易失性第一存储器，或可包括易失性和非易失性第一存储器两者。其中，非易失性第一存储器可以是只读第一存储器(Read-Only Memory，ROM)、可编程只读第一存储器(ProgrammableROM，PROM)、可擦除可编程只读第一存储器(Erasable PROM，EPROM)、电可擦除可编程只读第一存储器(Electrically EPROM，EEPROM)或闪存。易失性第一存储器可以是随机存取第一存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取第一存储器(Static RAM，SRAM)、动态随机存取第一存储器(Dynamic RAM，DRAM)、同步动态随机存取第一存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取第一存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取第一存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取第一存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取第一存储器(Direct Rambus RAM，DRRAM)。本文描述的第一存储器902旨在包括但不限于这些和任意其它适合类型的第一存储器。

在一些实施方式中，第一存储器902存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：第一操作系统9021和第二应用程序9022。

其中，第一操作系统9021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。第二应用程序9022，包含各种第二应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在第二应用程序9022中。

在本发明实施例中，通过调用第一存储器902存储的程序或指令，具体的，可以是第二应用程序9022中存储的程序或指令，第一处理器901用于执行各方法实施例所提供的方法步骤，例如所述构建方法包括如下迭代操作：

获取未标注数据集以及预先标注的训练集和测试集；

利用所述测试集对所述训练模型进行测试，得到测试结果；

可选的，所述确定所述未标注数据集中满足预设标注条件的未标注数据为目标数据，包括：

可选的，所述不确定性算法包括第一公式；

可选的，所述方法还包括：

若所述目标数据的数量满足预设数量条件，停止所述迭代操作，确定所述训练模型为词语层级确定模型。上述本发明实施例揭示的方法可以应用于第一处理器901中，或者由第一处理器901实现。第一处理器901可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过第一处理器901中的硬件的集成逻辑电路或者软件形式的指令完成。上述的第一处理器901可以是通用第一处理器、数字信号第一处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用第一处理器可以是微第一处理器或者该第一处理器也可以是任何常规的第一处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码第一处理器执行完成，或者用译码第一处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机第一存储器，闪存、只读第一存储器，可编程只读第一存储器或者电可擦写可编程第一存储器、寄存器等本领域成熟的存储介质中。该存储介质位于第一存储器902，第一处理器901读取第一存储器902中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号第一处理器(Digital SignalProcessing，DSP)、数字信号处理设备(DSPDevice，DSPD)、可编程逻辑设备(ProgrammableLogic Device，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用第一处理器、控制器、微控制器、微第一处理器、用于执行本发明功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文功能的单元来实现本文的技术。软件代码可存储在第一存储器中并通过第一处理器执行。第一存储器可以在第一处理器中或在第一处理器外部实现。

请参阅图8，图8为本发明的词语层级确定的设备实施例的结构示意图，如图8所示，本实施例的词语层级确定的设备1000包括：至少一个第二处理器1001、第二存储器1002、至少一个第二网络接口1003和其他第二用户接口1004。生产节点管理生产节点管理系统1000中的各个组件通过第二总线系统1005耦合在一起。可理解，第二总线系统1005用于实现这些组件之间的连接通信。第二总线系统1005除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图8中将各种总线都标为第二总线系统1005。

其中，第二用户接口1004可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本发明实施例中的第二存储器1002可以是易失性第二存储器或非易失性第二存储器，或可包括易失性和非易失性第二存储器两者。其中，非易失性第二存储器可以是只读第二存储器(Read-OnlyMemory，ROM)、可编程只读第二存储器(ProgrammableROM，PROM)、可擦除可编程只读第二存储器(ErasablePROM，EPROM)、电可擦除可编程只读第二存储器(ElectricallyEPROM，EEPROM)或闪存。易失性第二存储器可以是随机存取第二存储器(RandomAccessMemory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取第二存储器(StaticRAM，SRAM)、动态随机存取第二存储器(DynamicRAM，DRAM)、同步动态随机存取第二存储器(SynchronousDRAM，SDRAM)、双倍数据速率同步动态随机存取第二存储器(DoubleDataRate SDRAM，DDRSDRAM)、增强型同步动态随机存取第二存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取第二存储器(SynchlinkDRAM，SLDRAM)和直接内存总线随机存取第二存储器(DirectRambusRAM，DRRAM)。本文描述的第二存储器1002旨在包括但不限于这些和任意其它适合类型的第二存储器。

在一些实施方式中，第二存储器1002存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：第二操作系统10021和第二应用程序10022。

其中，第二操作系统10021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。第二应用程序10022，包含各种第二应用程序，例如媒体播放器(MediaPlayer)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在第二应用程序10022中。

在本发明实施例中，通过调用第二存储器1002存储的程序或指令，具体的，可以是第二应用程序10022中存储的程序或指令，第二处理器1001用于执行各方法实施例所提供的方法步骤，例如包括：

获取待确定数据；

将所述待确定数据输入到利用如权利要求1～5任一项所述的方法构建的词语层级确定模型中，得到所述待确定数据对应的各层级标签的概率；

上述本发明实施例揭示的方法可以应用于第二处理器1001中，或者由第二处理器1001实现。第二处理器1001可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过第二处理器1001中的硬件的集成逻辑电路或者软件形式的指令完成。上述的第二处理器1001可以是通用第二处理器、数字信号第二处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(FieldProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用第二处理器可以是微第二处理器或者该第二处理器也可以是任何常规的第二处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码第二处理器执行完成，或者用译码第二处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机第二存储器，闪存、只读第二存储器，可编程只读第二存储器或者电可擦写可编程第二存储器、寄存器等本领域成熟的存储介质中。该存储介质位于第二存储器1002，第二处理器1001读取第二存储器1002中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecificIntegratedCircuits，ASIC)、数字信号第二处理器(DigitalSignalProcessing，DSP)、数字信号处理设备(DSPDevice，DSPD)、可编程逻辑设备(ProgrammableLogicDevice，PLD)、现场可编程门阵列(Field-ProgrammableGateArray，FPGA)、通用第二处理器、控制器、微控制器、微第二处理器、用于执行本发明功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文功能的单元来实现本文的技术。软件代码可存储在第二存储器中并通过第二处理器执行。第二存储器可以在第二处理器中或在第二处理器外部实现。

本发明还提供一种存储介质，其特征在于，所述存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述实施例的词语层级确定的模型构建方法或者词语层级确定的方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种词语层级确定的模型构建方法，其特征在于，所述构建方法包括如下迭代操作：

获取未标注数据集以及预先标注的训练集和测试集；其中，所述未标注数据集、所述预先标注的训练集和所述测试集为从网络中爬取获得原始数据，再对原始数据进行预处理之后获得的多个词语对形成的数据集；

利用所述训练集对当前模型进行训练，得到训练模型；所述当前模型为预训练模型或上一次训练过程所训练完成的模型；

利用所述测试集对所述训练模型进行测试，得到测试结果；

若所述测试结果为不满足预设达标条件，确定所述未标注数据集中满足预设标注条件的未标注数据为目标数据，对所述目标数据进行标注并将标注后的目标数据加入所述训练集，同时确定所述训练模型为上一次训练过程所训练完成的模型；

若所述测试结果为满足预设达标条件，停止所述迭代操作，确定所述训练模型为词语层级确定模型，其中，所述词语层级确定模型用于确定具有层级关系的词语的模型；

其中，所述确定所述未标注数据集中满足预设标注条件的未标注数据为目标数据，包括：

所述第二公式为其中，x_q为已标注数据集中第q个已标注数据，q为正整数，q＝1,2,3…p,p为所述已标注数据集中的数据总数，为x_q的显著性分值，R_U为第一比率，R_L为第二比率；

根据所述不确定性分值和所述显著性分值确定各未标注数据的训练贡献分值；其中，所述训练贡献分值表示训练集对模型训练过程中的贡献；

2.根据权利要求1所述的词语层级确定的模型构建方法，其特征在于，所述不确定性算法包括第一公式；

3.根据权利要求1所述的词语层级确定的模型构建方法，其特征在于，所述方法还包括：

4.一种词语层级确定的方法，其特征在于，所述方法包括：

获取待确定数据；

将所述待确定数据输入到利用如权利要求1～3任一项所述的方法构建的词语层级确定模型中，得到所述待确定数据对应的各层级标签的概率；

5.一种词语层级确定的模型构建装置，其特征在于，所述装置包括：

训练模块，用于利用所述训练集对当前模型进行训练，得到训练模型；所述当前模型为预训练模型或上一次训练过程所训练完成的模型；

数据标注模块，用于若所述测试结果为不满足预设达标条件，确定所述未标注数据集中满足预设标注条件的未标注数据为目标数据，对所述目标数据进行标注并将标注后的目标数据加入所述训练集，同时确定所述训练模型为上一次训练过程所训练完成的模型；

模型确定模块，用于若所述测试结果为满足预设达标条件，停止迭代操作，确定所述训练模型为词语层级确定模型；

其中，所述数据标注模块在确定所述未标注数据集中满足预设标注条件的未标注数据为目标数据时，具体包括：

6.一种词语层级确定的装置，其特征在于，所述装置包括：

第二获取模块，用于获取待确定数据；

概率确定模块，用于将所述待确定数据输入到利用如权利要求1～3任一项所述的方法构建的词语层级确定模型中，得到所述待确定数据对应的各层级标签的概率；

7.一种词语层级确定的模型构建设备，其特征在于，包括：第一存储器、第一处理器及存储在第一存储器上并可在第一处理器上运行的第一计算机程序，其特征在于，所述第一处理器执行所述第一计算机程序时实现如权利要求1至3任意一项所述的词语层级确定的模型构建方法。

8.一种词语层级确定的设备，其特征在于，包括：第二存储器、第二处理器及存储在第二存储器上并可在第二处理器上运行的第二计算机程序，其特征在于，所述第二处理器执行所述第二计算机程序时实现如权利要求4所述的词语层级确定的方法。