CN113642329A

CN113642329A - 术语识别模型的建立方法及装置、术语识别方法及装置

Info

Publication number: CN113642329A
Application number: CN202010343731.1A
Authority: CN
Inventors: 顾淑琴; 张昱琪; 施杨斌; 陆军
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2021-11-12

Abstract

本发明公开一种术语识别模型的建立方法及装置、术语识别方法及装置，涉及人工智能技术领域，能够解决现有识别术语准确性较低的问题。本发明的方法主要包括：获取第一训练集；删除第一训练集中一定比例的术语标注，得到第二训练集；基于第一训练集进行模型训练得到第一术语识别模型，以及基于第二训练集进行模型训练得到第二术语识别模型；根据利用第一术语识别模型和第二术语识别模型分别对特定数据集进行术语识别得到的损失差异，从特定数据集中筛选出满足术语标注质量要求的标注数据作为第三训练集；利用第三训练集进行模型训练得到最终所需的术语识别模型。本发明主要适用于基于神经网络建立术语识别模型的场景中。

Description

术语识别模型的建立方法及装置、术语识别方法及装置

技术领域

本发明涉及人工智能技术领域，特别是涉及一种术语识别模型的建立方法及装置、术语识别方法及装置。

背景技术

术语是在特定学科领域用来表示概念的称谓的集合。例如在穿着领域有连衣裙、高跟鞋、帽子等术语。术语识别在自然语言处理领域具有研究的意义，特别是在机器翻译和跨语言信息检索中有广泛的应用前途。

目前术语识别的方法主要包括人工识别方法和自动识别方法。其中，为了实现术语的自动识别，需要先根据术语词典对语料进行术语标注得到标注数据，再随机选取部分标注数据作为训练样本进行模型训练，得到术语识别模型，最后利用该术语识别模型对待识别的语句进行术语识别。但是，由于术语词典是根据经验积累的术语集合，所以基于术语词典不一定能够将语料中所有的术语都标注出来，从而通过随机选取部分标注数据得到的训练样本本身是存在一定误差的，进而导致训练出来的术语识别模型识别术语的准确性较低。

发明内容

有鉴于此，本发明提供的术语识别模型的建立方法及装置、术语识别方法及装置，其目的在于解决现有识别术语准确性较低的问题。

第一方面，本发明提供了一种术语识别模型的建立方法，所述方法包括：

获取第一训练集，所述第一训练集包括基于预设自动标注方法对第一语料进行术语标注后得到的标注数据；

删除所述第一训练集中一定比例的术语标注，得到第二训练集；

基于所述第一训练集进行模型训练得到第一术语识别模型，以及基于所述第二训练集进行模型训练得到第二术语识别模型；

根据利用所述第一术语识别模型和所述第二术语识别模型分别对特定数据集进行术语识别得到的损失差异，从所述特定数据集中筛选出满足术语标注质量要求的标注数据作为第三训练集；所述特定数据集是利用所述预设自动标注方法对第二语料进行术语标注后的标注数据；所述第一语料与所述第二语料属于同一个语料库；

利用所述第三训练集进行模型训练得到最终所需的术语识别模型。

可选的，所述根据利用所述第一术语识别模型和所述第二术语识别模型分别对特定数据集进行术语识别得到的损失差异，从所述特定数据集中筛选出满足术语标注质量要求的标注数据作为第三训练集包括：

分别使用所述第一术语识别模型和所述第二术语识别模型对所述特定数据集中标注数据所对应的原始语句进行术语识别，并将识别出的术语进行标注；所述原始语句为在基于所述预设自动标注方法进行术语标注之前的语句；

针对同一个原始语句，分别计算所述第一术语识别模型的标注损失和所述第二术语识别模型的标注损失，并计算所述第一术语识别模型的标注损失与所述第二术语识别模型的标注损失之差，得到所述损失差异；

从所述特定数据集中筛选出所述损失差异大于预设阈值的标注数据作为所述第三训练集。

可选的，针对同一个原始语句，分别计算所述第一术语识别模型的标注损失和所述第二术语识别模型的标注损失包括：

针对同一个原始语句，利用预设损失函数，对所述第一术语识别模型的术语标注结果和所述特定数据集中的术语标注结果进行计算，得到所述第一术语识别模型的标注损失；

针对同一个原始语句，利用所述预设损失函数，对所述第二术语识别模型的术语标注结果和所述特定数据集中的术语标注结果进行计算，得到所述第二术语识别模型的标注损失。

可选的，若所述预设自动标注方法所使用的术语词典被更新，则所述方法还包括：

基于更新后的术语词典，利用所述预设自动标注方法对所述语料库重新进行术语标注；

从重新术语标注后的标注数据中筛选出满足所述术语标注质量要求的标注数据；

基于筛选出的标注数据对所述最终所需的术语识别模型进行更新。

可选的，所述删除所述第一训练集中一定比例的术语标注，得到第二训练集包括：

随机删除所述第一训练集中所述一定比例的术语标注，得到所述第二训练集；

或者，确定所述第一训练集中每个术语所属的领域，并分别针对每个领域随机删除所述一定比例的术语标注，得到所述第二训练集。

可选的，所述预设自动标注方法为远程监督方法。

第二方面，本发明提供了一种术语识别方法，所述方法包括：

获取用户数据信息；

基于术语识别模型对所述用户数据信息中的商品名称进行识别；所述术语识别模型是采用第一方面所述的术语识别模型的建立方法获得的；

在所述用户数据信息中标注出商品名称；

通过对标注商品名称的用户数据信息进行分析，确定用户偏好，并根据所述用户偏好向所述用户推荐商品。

第三方面，本发明提供了一种术语识别方法，所述方法包括：

获取预设平台中产生的包括人名的数据信息；

基于术语识别模型对所述数据信息中的人名进行识别；所述术语识别模型是采用第一方面所述的术语识别模型的建立方法获得的；

在所述数据信息中标注出人名；

按照预设人名分析规则，对标注人名的数据信息进行分析，获得针对人名的统计信息。

第四方面，本发明提供了一种术语识别方法，所述方法包括：

获取医疗数据信息；

基于术语识别模型对所述医疗数据信息中的医疗名称进行识别；所述术语识别模型是采用第一方面所述的术语识别模型的建立方法获得的；

对所述医疗数据信息中的医疗名称进行突出显示。

第五方面，本发明提供了一种术语识别模型的建立装置，所述装置包括：

获取单元，用于获取第一训练集，所述第一训练集包括基于预设自动标注方法对第一语料进行术语标注后得到的标注数据；

删除单元，用于删除所述第一训练集中一定比例的术语标注，得到第二训练集；

第一训练单元，用于基于所述第一训练集进行模型训练得到第一术语识别模型，以及基于所述第二训练集进行模型训练得到第二术语识别模型；

筛选单元，用于根据利用所述第一术语识别模型和所述第二术语识别模型分别对特定数据集进行术语识别得到的损失差异，从所述特定数据集中筛选出满足术语标注质量要求的标注数据作为第三训练集；所述特定数据集是利用所述预设自动标注方法对第二语料进行术语标注后的标注数据；所述第一语料与所述第二语料属于同一个语料库；

第二训练单元，用于利用所述第三训练集进行模型训练得到最终所需的术语识别模型。

可选的，所述筛选单元包括：

标注模块，用于分别使用所述第一术语识别模型和所述第二术语识别模型对所述特定数据集中标注数据所对应的原始语句进行术语识别，并将识别出的术语进行标注；所述原始语句为在基于所述预设自动标注方法进行术语标注之前的语句；

计算模块，用于针对同一个原始语句，分别计算所述第一术语识别模型的标注损失和所述第二术语识别模型的标注损失，并计算所述第一术语识别模型的标注损失与所述第二术语识别模型的标注损失之差，得到所述损失差异；

筛选模块，用于从所述特定数据集中筛选出所述损失差异大于预设阈值的标注数据作为所述第三训练集。

可选的，所述计算模块，用于针对同一个原始语句，利用预设损失函数，对所述第一术语识别模型的术语标注结果和所述特定数据集中的术语标注结果进行计算，得到所述第一术语识别模型的标注损失；针对同一个原始语句，利用所述预设损失函数，对所述第二术语识别模型的术语标注结果和所述特定数据集中的术语标注结果进行计算，得到所述第二术语识别模型的标注损失。

可选的，所述装置还包括：

更新单元，用于若所述预设自动标注方法所使用的术语词典被更新，则基于更新后的术语词典，利用所述预设自动标注方法对所述语料库重新进行术语标注；从重新术语标注后的标注数据中筛选出满足所述术语标注质量要求的标注数据；基于筛选出的标注数据对所述最终所需的术语识别模型进行更新。

可选的，所述删除单元，用于随机删除所述第一训练集中所述一定比例的术语标注，得到所述第二训练集；

可选的，所述预设自动标注方法为远程监督方法。

第六方面，本发明提供了一种术语识别装置，所述装置包括：

获取单元，用于获取用户数据信息；

识别单元，用于基于术语识别模型对所述用户数据信息中的商品名称进行识别；所述术语识别模型是采用第一方面所述的术语识别模型的建立方法获得的；

标注单元，用于在所述用户数据信息中标注出商品名称；

确定单元，用于通过对标注商品名称的用户数据信息进行分析，确定用户偏好；

推荐单元，用于根据所述用户偏好向所述用户推荐商品。

第七方面，本发明提供了一种术语识别装置，所述装置包括：

获取单元，用于获取预设平台中产生的包括人名的数据信息；

识别单元，用于基于术语识别模型对所述数据信息中的人名进行识别；所述术语识别模型是采用第一方面所述的术语识别模型的建立方法获得的；

标注单元，用于在所述数据信息中标注出人名；

分析单元，用于按照预设人名分析规则，对标注人名的数据信息进行分析，获得针对人名的统计信息。

第八方面，本发明提供了一种术语识别装置，所述装置包括：

获取单元，用于获取医疗数据信息；

识别单元，用于基于术语识别模型对所述医疗数据信息中的医疗名称进行识别；所述术语识别模型是采用第一方面所述的术语识别模型的建立方法获得的；

输出单元，用于对所述医疗数据信息中的医疗名称进行突出显示。

第九方面，本发明提供了一种存储介质，所述存储介质存储有多条指令，所述指令适用于由处理器加载并执行如第一至四方面中任一项所述的方法。

第十方面，本发明提供了一种电子设备，所述电子设备包括存储介质和处理器；

所述处理器，适于实现各指令；

所述存储介质，适于存储多条指令；

所述指令适于由所述处理器加载并执行如第一至四方面中任一项所述的方法。

借由上述技术方案，本发明提供的术语识别模型的建立方法及装置、术语识别方法及装置，能够在基于预设自动标注方法对语料库进行术语标注得到标注数据后，不是直接随机选取一部分标注数据进行模型训练，而是先从这些标注数据中筛选出标注相对全面的标注数据(即高质量的标注数据)，再利用筛选出的高质量标注数据进行模型训练，可以得到术语识别准确率更高的术语识别模型。具体的，在选取一部分标注数据后，将其作为第一训练集，并将删除第一训练集中一定比例术语标注后的标注数据作为第二训练集；其次，基于第一训练集训练得到质量相对较高的第一术语识别模型，基于第二训练集训练得到质量相对较低的第二术语识别模型；再通过质量相对较高的第一术语识别模型对特定数据集(即从标注后的语料库中除第一训练集以外的其他标注数据中选取的数据)进行术语识别的损失和通过质量相对较低的第二术语识别模型对特定数据集进行术语识别的损失之差，来判断特定数据集原本所进行的术语标注的质量是否满足要求，并从中筛选出满足质量要求的标注数据作为模型训练所需的最终训练集进行模型训练，从而使得最终训练出的术语识别模型的识别准确性得到大大提高。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种术语识别模型的建立方法的流程图；

图2和图3示出了本发明实施例提供的一种术语识别模型的建立方法示意图；

图4示出了本发明实施例提供的一种标注数据筛选方法的流程图；

图5示出了本发明实施例提供的一种术语识别模型的建立装置的组成框图；

图6示出了本发明实施例提供的另一种术语识别模型的建立装置的组成框图；

图7示出了本发明实施例提供的一种术语识别装置的组成框图；

图8示出了本发明实施例提供的另一种术语识别装置的组成框图；

图9示出了本发明实施例提供的又一种术语识别装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了提高术语识别模型识别术语的准确性，本发明能够在基于预设自动标注方法对语料进行术语标注得到标注数据后，不是直接随机选取一部分标注数据进行模型训练，而是先从这些标注数据中筛选出标注相对全面的标注数据(即高质量的标注数据)，再利用筛选出的高质量标注数据进行模型训练，可以得到术语识别准确率更高的术语识别模型。如图1-3所示，本发明实施例提供的术语识别模型的建立方法主要包括：

101、获取第一训练集。

所述第一训练集包括基于预设自动标注方法对第一语料进行术语标注后得到的标注数据。所述预设自动标注方法包含但不限于远程监督方法；第一语料包括预设数量的原始语句(即未标记语句)。其中，远程监督通常应用于关系抽取任务中，用于自动构建训练标注数据，从而节省人工标注成本。在术语挖掘任务中，假设存在一个术语词典和未标注的语料，如果语料的字符串包含在术语词典中，则该字符串被标记为术语。

例如，对于待标注的一个语句“买了一条长袖连衣裙和一双黑色高跟鞋。”，若术语词典中包含“高跟鞋”，那么可以将“高跟鞋”标记为术语，若术语词典中包含“高跟鞋”和“连衣裙”，那么可以将“高跟鞋”和“连衣裙”均标记为术语。

具体标记时，可以对语句中的每个字符都分配一个符号，并且术语所对应的符号与非术语对应的符号不同。例如，若上述语句中仅将“高跟鞋”标记为术语，那么该语句所对应的标记字符串为“OOOOOOOOOOOOOOBIIO”，其中，O表示非术语字符，B表示术语的开始边界，I表示术语的中间或结束边界。若本发明实施例采用该标记方法对第一语料进行标记，则第一训练集中的标记数据包括原始语句和对应的标记字符串。

当第一语料中的字体均相同时，可以通过修改某个字符串字体的方式来实现术语标记功能，也可以采用其他标记方式，本发明实施例对具体标记方式不做限定。

此外，在进行术语标记时，所使用的术语词典可以仅包括一种领域的术语词典，也可以包括多种领域的术语词典。并且当包括多种领域(如电商领域、医疗领域、计算机领域等等)的术语词典时，需要不同领域的术语词典和待标注的语句分布相对均匀一些，才能保证最后训练出的术语识别模型对不同领域术语识别准确率的差异相对较小。

102、删除所述第一训练集中一定比例的术语标注，得到第二训练集。

当第一训练集中包括一种领域的术语时，可以随机删除所述第一训练集中所述一定比例的术语标注，得到所述第二训练集；当第一训练集中包括多种领域的术语时，可以随机删除所述第一训练集中所述一定比例的术语标注，得到所述第二训练集，也可以先确定所述第一训练集中每个术语所属的领域，再分别针对每个领域随机删除所述一定比例的术语标注，得到所述第二训练集。其中，一定比例可以根据经验而定，例如通过实验可以确定当该第一比例为20％-30％时，确定的第三训练集的标注质量最高。

当采用步骤101中提及的“OBI”方式标记术语时，删除术语标注的具体实现方式可以为：将术语词对应的“B”和“I”符号均修改为“O”符号。当采用修改字体的方式标记术语时，可以再将字体改回原始字体。

103、基于所述第一训练集进行模型训练得到第一术语识别模型，以及基于所述第二训练集进行模型训练得到第二术语识别模型。

其中，训练第一术语识别模型和第二术语识别模型所使用的神经网络结构包括但不限以下几种：Bi-LSTM(Bi-directional Long Short-Term Memory，双向长短期记忆网络)、RNN(Recurrent Neural Network，循环神经网络)、CNN(Convolutional NeuralNetworks，卷积神经网络)、Tranformer。

104、根据利用所述第一术语识别模型和所述第二术语识别模型分别对特定数据集进行术语识别得到的损失差异，从所述特定数据集中筛选出满足术语标注质量要求的标注数据作为第三训练集。

其中，所述特定数据集是利用所述预设自动标注方法对第二语料进行术语标注后的标注数据；所述第一语料与所述第二语料属于同一个语料库。在具体实施时，可以从语料库中取出第一预设数量的语句作为第一语料进行术语标注得到第一训练集，从语料库中取出第二预设数量的语句作为第二语料进行术语标注得到特定数据集，且第一语料和第二语料不存在重复的语句。或者，直接对语料库进行术语标注，然后从标注数据中取出一部分作为第一训练集，取出另一部分作为特定数据集。此外，为了实现对术语识别模型中参数的调整以及对术语识别模型识别效果的确定，还可以从语料库中取出与第一语料和第二语料不重复的第三语料和第四语料进行术语标注，得到验证集和测试集，或者直接从语料库对应的所有标注数据中取出与第一训练集和特定数据集不重复的两部分分别作为验证集和测试集。其中，特定数据集的数量远大于第一训练集，第一训练集：验证集：测试集可以为N：1：1，且N大于1。

由于第二训练集是在第一训练集的基础上进行了部分术语标注删除，所以第二训练集中标注的术语相对较少，从而基于第二训练集训练的第二术语识别模型会比基于第一训练集训练的第一术语识别模型的识别准确率低。所述第一术语识别模型对特定数据集中的原始语句进行术语标注相比于特定数据集原本的术语标注生产了标注损失，同理所述第二术语识别模型对特定数据集中的原始语句进行术语标注相比于特定数据集原本的术语标注也生产了标注损失，两个标注损失之差越大，说明特定数据集中原本标注的术语质量越高。因此，可以通过这一损失差异来判断特定数据集中每个标注数据的质量高低，从中筛选出质量较优的标注数据作为最终术语识别模型训练所需的训练集。

105、利用所述第三训练集进行模型训练得到最终所需的术语识别模型。

训练最终所需的术语识别模型所使用的网络结构与第一术语识别模型和第二术语识别模型所使用的神经网络结构相同。

本发明实施例提供的术语识别模型的建立方法，能够在基于预设自动标注方法对语料库进行术语标注得到标注数据后，不是直接随机选取一部分标注数据进行模型训练，而是先从这些标注数据中筛选出标注相对全面的标注数据(即高质量的标注数据)，再利用筛选出的高质量标注数据进行模型训练，可以得到术语识别准确率更高的术语识别模型。具体的，在选取一部分标注数据后，将其作为第一训练集，并将删除第一训练集中一定比例术语标注后的标注数据作为第二训练集；其次，基于第一训练集训练得到质量相对较高的第一术语识别模型，基于第二训练集训练得到质量相对较低的第二术语识别模型；再通过质量相对较高的第一术语识别模型对特定数据集(即从标注后的语料库中除第一训练集以外的其他标注数据中选取的数据)进行术语识别的损失和通过质量相对较低的第二术语识别模型对特定数据集进行术语识别的损失之差，来判断特定数据集原本所进行的术语标注的质量是否满足要求，并从中筛选出满足质量要求的标注数据作为模型训练所需的最终训练集进行模型训练，从而使得最终训练出的术语识别模型的识别准确性得到大大提高。

可选的，上述步骤104的具体实现方式可以如图4所示，具体包括：

1041、分别使用所述第一术语识别模型和所述第二术语识别模型对所述特定数据集中标注数据所对应的原始语句进行术语识别，并将识别出的术语进行标注。

所述原始语句为在基于所述预设自动标注方法进行术语标注之前的语句。例如，特定数据集中包括对“买了一条长袖连衣裙和一双黑色高跟鞋。”中“连衣裙”和“高跟鞋”进行术语标注后的标注数据，那么对应的原始语句就是“买了一条长袖连衣裙和一双黑色高跟鞋。”，利用第一术语识别模型对该原始语句进行术语识别后，会对“连衣裙”和“高跟鞋”均进行术语标注，利用第二术语识别模型对该原始语句进行术语识别后，可能只会对“连衣裙”进行术语标注。

1042、针对同一个原始语句，分别计算所述第一术语识别模型的标注损失和所述第二术语识别模型的标注损失，并计算所述第一术语识别模型的标注损失与所述第二术语识别模型的标注损失之差，得到所述损失差异。

针对同一个原始语句，利用预设损失函数，对所述第一术语识别模型的术语标注结果和所述特定数据集中的术语标注结果进行计算，得到所述第一术语识别模型的标注损失；针对同一个原始语句，利用所述预设损失函数，对所述第二术语识别模型的术语标注结果和所述特定数据集中的术语标注结果进行计算，得到所述第二术语识别模型的标注损失。其中预设损失函数包括但不限于交叉熵损失函数。

损失函数是用来估量你模型的预测值与真实值的不一致程度，它是一个非负实值函数，损失函数越小，模型的鲁棒性就越好。其中，第一术语识别模型和第二术语识别模型的术语标注结果均为预测值，特定数据集中的术语标注结果为真实值，故可以基于预测值和真实值计算出标注损失。

1043、从所述特定数据集中筛选出所述损失差异大于预设阈值的标注数据作为所述第三训练集。

第一术语识别模型的标注损失与第二术语识别模型的标注损失之间的差异越大，说明特定数据集中标注数据的质量越高，即标注的术语越全面，所以可以通过经验设置一个差异阈值，将大于该差异阈值的标注数据确定为质量相对较高的标注数据，并选取这些标注数据作为第三训练集进行最终术语识别模型训练。

进一步的，随着语言的多样化，各个领域都会出现新的术语，所以术语词典需要不断地更新，从而术语识别模型也需要不断更新才能保证术语识别的准确性。因此，若所述预设自动标注方法所使用的术语词典被更新，则可以先基于更新后的术语词典，利用所述预设自动标注方法对所述语料库重新进行术语标注，再从重新术语标注后的标注数据中筛选出满足所述术语标注质量要求的标注数据，最后基于筛选出的标注数据对所述最终所需的术语识别模型进行更新。其中，从重新术语标注后的标注数据中筛选出满足所述术语标注质量要求的标注数据的具体实现方式与上述步骤101-104相同，在此不再赘述。

本发明实施例提供的术语识别模型可以应用于多种术语识别场景中，例如，可以利用该术语识别模型对电商领域中的用户数据(例如商品评论信息、与商家的沟通信息、与电商客服的沟通信息等)进行商品名称识别，也可以利用该术语识别模型对音乐、电影售票等领域中的数据(例如歌词、用户评论、电影简介等)进行人名识别，还可以利用该术语识别模型对医疗领域中的数据(例如诊断书、化验单等)进行药品名称或疾病名称识别。

下面分别针对上述三种领域实现术语识别的具体实现方式进行举例说明：

(一)电商领域：

A1、获取用户数据信息。

所述用户数据信息包括商品评论信息、与商家的沟通信息、与电商客服的沟通信息等。

A2、基于术语识别模型对所述用户数据信息中的商品名称进行识别。

所述术语识别模型是采用上述术语识别模型的建立方法建立的，且采用上述方法建立术语识别模型时所涉及的术语包括商品名称。

A3、在所述用户数据信息中标注出商品名称。

A4、通过对标注商品名称的用户数据信息进行分析，确定用户偏好，并根据用户偏好向所述用户推荐商品。

(二)音乐、电影售票等领域

B1、获取预设平台中产生的包括人名的数据信息。

所述预设平台包括但不限于音乐平台、电影售票平台等。所述数据信息为包括人名的数据信息，例如包括歌词、音乐简介、用户评论、电影简介等。

B2、基于术语识别模型对所述数据信息中的人名进行识别。

所述术语识别模型是采用上述术语识别模型的建立方法建立的，且采用上述方法建立术语识别模型时所涉及的术语包括人名。

B3、在所述数据信息中标注出人名。

B4、按照预设人名分析规则，对标注人名的数据信息进行分析，获得针对人名的统计信息。

其中，标注的人名包括但不限于歌词或影视中的人物名称、演员名字(包括歌手、影视演员)。具体的，可以对标注人名的用户评论进行分析，获得用户对人物的偏好，并向用户推荐该演员参演的其他电影、演唱的其他歌曲，也可以统计出用户对各个人名的关注度，并对各个人名进行排名。

(三)医疗领域

C1、获取医疗数据信息。

其中，医疗数据信息包括诊断书、化验单等。

C2、基于术语识别模型对所述医疗数据信息中的医疗名称进行识别。

所述术语识别模型是采用上述术语识别模型的建立方法建立的，且采用上述方法建立术语识别模型时所涉及的术语包括医疗名称。医疗名称包括药品名称、疾病名称。

C3、对所述医疗数据信息中的医疗名称进行突出显示，以便医护人员快速从医疗数据信息中读取有效信息。

进一步的，依据上述对话模型的训练方法实施例，本发明的另一个实施例还提供了一种术语识别模型的建立装置，如图5所示，所述装置包括：

获取单元21，用于获取第一训练集，所述第一训练集包括基于预设自动标注方法对第一语料进行术语标注后得到的标注数据；

删除单元22，用于删除所述第一训练集中一定比例的术语标注，得到第二训练集；

第一训练单元23，用于基于所述第一训练集进行模型训练得到第一术语识别模型，以及基于所述第二训练集进行模型训练得到第二术语识别模型；

筛选单元24，用于根据利用所述第一术语识别模型和所述第二术语识别模型分别对特定数据集进行术语识别得到的损失差异，从所述特定数据集中筛选出满足术语标注质量要求的标注数据作为第三训练集；所述特定数据集是利用所述预设自动标注方法对第二语料进行术语标注后的标注数据；所述第一语料与所述第二语料属于同一个语料库；

第二训练单元25，用于利用所述第三训练集进行模型训练得到最终所需的术语识别模型。

可选的，如图6所示，所述筛选单元24包括：

标注模块241，用于分别使用所述第一术语识别模型和所述第二术语识别模型对所述特定数据集中标注数据所对应的原始语句进行术语识别，并将识别出的术语进行标注；所述原始语句为在基于所述预设自动标注方法进行术语标注之前的语句；

计算模块242，用于针对同一个原始语句，分别计算所述第一术语识别模型的标注损失和所述第二术语识别模型的标注损失，并计算所述第一术语识别模型的标注损失与所述第二术语识别模型的标注损失之差，得到所述损失差异；

筛选模块243，用于从所述特定数据集中筛选出所述损失差异大于预设阈值的标注数据作为所述第三训练集。

可选的，所述计算模块242，用于针对同一个原始语句，利用预设损失函数，对所述第一术语识别模型的术语标注结果和所述特定数据集中的术语标注结果进行计算，得到所述第一术语识别模型的标注损失；针对同一个原始语句，利用所述预设损失函数，对所述第二术语识别模型的术语标注结果和所述特定数据集中的术语标注结果进行计算，得到所述第二术语识别模型的标注损失。

可选的，如图6所示，所述装置还包括：

更新单元26，用于若所述预设自动标注方法所使用的术语词典被更新，则基于更新后的术语词典，利用所述预设自动标注方法对所述语料库重新进行术语标注；从重新术语标注后的标注数据中筛选出满足所述术语标注质量要求的标注数据；基于筛选出的标注数据对所述最终所需的术语识别模型进行更新。

可选的，所述删除单元22，用于随机删除所述第一训练集中所述一定比例的术语标注，得到所述第二训练集；

可选的，所述预设自动标注方法为远程监督方法。

本发明实施例提供的术语识别模型的建立装置，能够在基于预设自动标注方法对语料库进行术语标注得到标注数据后，不是直接随机选取一部分标注数据进行模型训练，而是先从这些标注数据中筛选出标注相对全面的标注数据(即高质量的标注数据)，再利用筛选出的高质量标注数据进行模型训练，可以得到术语识别准确率更高的术语识别模型。具体的，在选取一部分标注数据后，将其作为第一训练集，并将删除第一训练集中一定比例术语标注后的标注数据作为第二训练集；其次，基于第一训练集训练得到质量相对较高的第一术语识别模型，基于第二训练集训练得到质量相对较低的第二术语识别模型；再通过质量相对较高的第一术语识别模型对特定数据集(即从标注后的语料库中除第一训练集以外的其他标注数据中选取的数据)进行术语识别的损失和通过质量相对较低的第二术语识别模型对特定数据集进行术语识别的损失之差，来判断特定数据集原本所进行的术语标注的质量是否满足要求，并从中筛选出满足质量要求的标注数据作为模型训练所需的最终训练集进行模型训练，从而使得最终训练出的术语识别模型的识别准确性得到大大提高。

进一步的，依据上述术语识别方法实施例，本发明的另一个实施例还提供了一种术语识别装置，如图7所示，所述装置包括：

获取单元31，用于获取用户数据信息；

识别单元32，用于基于术语识别模型对所述用户数据信息中的商品名称进行识别；所述术语识别模型是采用上述的术语识别模型的建立方法获得的；

标注单元33，用于在所述用户数据信息中标注出商品名称；

确定单元34，用于通过对标注商品名称的用户数据信息进行分析，确定用户偏好；

推荐单元35，用于根据所述用户偏好向所述用户推荐商品。

进一步的，依据上述术语识别方法实施例，本发明的另一个实施例还提供了一种术语识别装置，如图8所示，所述装置包括：

获取单元41，用于获取预设平台中产生的包括人名的数据信息；

识别单元42，用于基于术语识别模型对所述数据信息中的人名进行识别；所述术语识别模型是采用上述的术语识别模型的建立方法获得的；

标注单元43，用于在所述数据信息中标注出人名；

分析单元44，用于按照预设人名分析规则，对标注人名的数据信息进行分析，获得针对人名的统计信息。

进一步的，依据上述术语识别方法实施例，本发明的另一个实施例还提供了一种术语识别装置，如图9所示，所述装置包括：

获取单元51，用于获取医疗数据信息；

识别单元52，用于基于术语识别模型对所述医疗数据信息中的医疗名称进行识别；所述术语识别模型是采用上述的术语识别模型的建立方法获得的；

输出单元53，用于对所述医疗数据信息中的医疗名称进行突出显示。

进一步的，本发明的另一个实施例还提供了一种存储介质，所述存储介质存储有多条指令，所述指令适用于由处理器加载并执行如上所述的方法。

本发明实施例提供的存储介质中存储的程序被执行时，能够在基于预设自动标注方法对语料库进行术语标注得到标注数据后，不是直接随机选取一部分标注数据进行模型训练，而是先从这些标注数据中筛选出标注相对全面的标注数据(即高质量的标注数据)，再利用筛选出的高质量标注数据进行模型训练，可以得到术语识别准确率更高的术语识别模型。

进一步的，本发明的另一个实施例还提供了一种电子设备，所述电子设备包括存储介质和处理器；

所述处理器，适于实现各指令；

所述存储介质，适于存储多条指令；

所述指令适于由所述处理器加载并执行如上所述的方法。

本发明实施例提供的电子设备，能够在基于预设自动标注方法对语料库进行术语标注得到标注数据后，不是直接随机选取一部分标注数据进行模型训练，而是先从这些标注数据中筛选出标注相对全面的标注数据(即高质量的标注数据)，再利用筛选出的高质量标注数据进行模型训练，可以得到术语识别准确率更高的术语识别模型。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的一种实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的术语识别模型的建立方法及装置、术语识别方法及装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种术语识别模型的建立方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据利用所述第一术语识别模型和所述第二术语识别模型分别对特定数据集进行术语识别得到的损失差异，从所述特定数据集中筛选出满足术语标注质量要求的标注数据作为第三训练集包括：

3.根据权利要求2所述的方法，其特征在于，针对同一个原始语句，分别计算所述第一术语识别模型的标注损失和所述第二术语识别模型的标注损失包括：

4.根据权利要求1所述的方法，其特征在于，若所述预设自动标注方法所使用的术语词典被更新，则所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述删除所述第一训练集中一定比例的术语标注，得到第二训练集包括：

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述预设自动标注方法为远程监督方法。

7.一种术语识别方法，其特征在于，所述方法包括：

获取用户数据信息；

基于术语识别模型对所述用户数据信息中的商品名称进行识别；所述术语识别模型是采用权利要求1-6中任一项所述的术语识别模型的建立方法获得的；

在所述用户数据信息中标注出商品名称；

8.一种术语识别方法，其特征在于，所述方法包括：

获取预设平台中产生的包括人名的数据信息；

基于术语识别模型对所述数据信息中的人名进行识别；所述术语识别模型是采用权利要求1-6中任一项所述的术语识别模型的建立方法获得的；

在所述数据信息中标注出人名；

9.一种术语识别方法，其特征在于，所述方法包括：

获取医疗数据信息；

基于术语识别模型对所述医疗数据信息中的医疗名称进行识别；所述术语识别模型是采用权利要求1-6中任一项所述的术语识别模型的建立方法获得的；

对所述医疗数据信息中的医疗名称进行突出显示。

10.一种术语识别模型的建立装置，其特征在于，所述装置包括：

11.一种术语识别装置，其特征在于，所述装置包括：

获取单元，用于获取用户数据信息；

识别单元，用于基于术语识别模型对所述用户数据信息中的商品名称进行识别；所述术语识别模型是采用权利要求1-6中任一项所述的术语识别模型的建立方法获得的；

标注单元，用于在所述用户数据信息中标注出商品名称；

推荐单元，用于根据所述用户偏好向所述用户推荐商品。

12.一种术语识别装置，其特征在于，所述装置包括：

识别单元，用于基于术语识别模型对所述数据信息中的人名进行识别；所述术语识别模型是采用权利要求1-6中任一项所述的术语识别模型的建立方法获得的；

标注单元，用于在所述数据信息中标注出人名；

13.一种术语识别装置，其特征在于，所述装置包括：

获取单元，用于获取医疗数据信息；

识别单元，用于基于术语识别模型对所述医疗数据信息中的医疗名称进行识别；所述术语识别模型是采用权利要求1-6中任一项所述的术语识别模型的建立方法获得的；

14.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适用于由处理器加载并执行如权利要求1至9中任一项所述的方法。

15.一种电子设备，其特征在于，所述电子设备包括存储介质和处理器；

所述处理器，适于实现各指令；

所述存储介质，适于存储多条指令；

所述指令适于由所述处理器加载并执行如权利要求1至9中任意一项所述的方法。