CN115879460A

CN115879460A - 面向文本内容的新标签实体识别方法、装置、设备及介质

Info

Publication number: CN115879460A
Application number: CN202210983284.5A
Authority: CN
Inventors: 许晟; 丑晓慧
Original assignee: Shanghai Deepq Information Technology Co ltd; Ningbo Deepq Information Technology Co ltd
Current assignee: Shanghai Deepq Information Technology Co ltd; Ningbo Deepq Information Technology Co ltd
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2023-03-31

Abstract

本申请涉及一种面向文本内容的新标签实体识别方法、装置、设备及介质。所述方法包括：利用训练数据集构建全词遮掩语言模型任务和NTP任务对预训练模型进行再训练，根据再训练模型和GlobalPointer构建候选实体识别模型，利用候选实体识别模型对资讯数据集进行新标签识别，对识别的新标签进行结果排序，得到文章关联度最高的实体标签；根据实体标签对人工标注的标签词库进行过滤，得到新标签词库，再对新标签词库进行清洗，利用清洗后的标签库对训练数据集进行修改和扩充，利用扩充后的训练集对候选实体识别模型进行训练，根据训练好的实体识别模型对文本内容进行新标签实体识别。采用本方法能够提高新标签实体识别准确率。

Description

面向文本内容的新标签实体识别方法、装置、设备及介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种面向文本内容的新标签实体识别方法、装置、计算机设备和存储介质。

背景技术

对于一个标签系统来说标签库的完善至关重要，这里标签系统指的是对于输入的信息载体(这里指文章)输出一定数量的能总结出的词汇(关键词)或归类于的类别，这些类别称之为标签，能根据关键词总结出标签的这些关键词称之为特征词，打出标签的系统称之为标签系统。但是标签词和特征词的发现不能仅仅靠人工积累和发现，所以需要技术上进行自动标签发现。

标签发现本质上接近于中文自然语言处理中的新词发现问题，但是又不能完全等同于新词发现，因为有些标签词可能不是新词而是已经存在的词汇。传统的方法中新词发现基于互信息比较常用的方式是基于Matrix67中提到的统计方式进行的无监督新词发现。采用ngram(n元分词)进行词汇召回，即根据n元分词进行全量枚举，通过计算词汇的内部凝固度(PMI)和词汇的自由度(左右熵)为当前词汇打分。通过分数进行排序召回。其中内部凝固度是指当前词汇的中各个字在一起出现的概率大小，代表了这个几个字经常作为一个整体出现，比较有可能是一个词，而词汇的自由度是指这几个字组成的团体的左右两边出现的字是否足够丰富，比如说“瓶酱油”这三个字组成的团体出现的频率足够高即它的内部凝固度足够高，但是这个团体左边出现的字的丰富度非常低，经常出现的只有“几”，“一”，“两”等字，说明这三个字组成的团体左侧出现字的丰富度不够高，即该词汇的自由度不够高。因此对于当前词汇的内部凝固度和外部自由度做出权衡以后得到该词汇的打分分数，分数由高到低即可以筛选出更有可能出现的新词，然后过滤去掉已有的词汇得到最后的结果。

然而，目前的基于无监督语料的新标签发现方法存在以下缺点：比较依赖于大数量的文本输入，因为该方法是基于统计方法，需要对全量的输入数据来进行枚举和计算频率，进而计算词汇凝固度和自由度。所以当输入为单篇文章时无法得到有效的结果，对于字数过长和带有英文字符的词(标签)很难进行发现，这是由于词语的召回是基于n元分词的枚举，如果n过大会导致效率过低，由于该方法是全量召回然后排序配合过滤来得到结果，所以这是一个去除错误候选词的方法，这样的方法就非常依赖于已有词汇表的完善程度，并且得到的结果中可用词汇的比例会非常低，通常即使是前100的结果可用率也会低于50％。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高新标签实体识别准确率的面向文本内容的新标签实体识别方法、装置、计算机设备和存储介质。

一种面向文本内容的新标签实体识别方法，所述方法包括：

获取人工标注的标签词库、资讯文本和资讯数据集；标签词库中包含特征词和特征词对应的标签；

根据标签词库对资讯文本进行数据筛选，得到训练数据集；

利用训练数据集和自监督方式对预先构建的BERT模型进行训练，得到预训练模型；

利用训练数据集构建全词遮掩语言模型任务和NTP任务对预训练模型进行再训练，得到再训练模型；

根据再训练模型和GlobalPointer全局指针构建候选实体识别模型；

利用候选实体识别模型对资讯数据集进行新标签识别，对识别的新标签进行结果排序，得到文章关联度最高的实体标签；

根据实体标签对人工标注的标签词库进行过滤，得到新标签词库；

根据新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对新标签词库进行清洗，得到清洗后的标签库；

利用清洗后的标签库对训练数据集进行修改和扩充，得到扩充后的训练集，利用扩充后的训练集对候选实体识别模型进行训练，得到训练好的实体识别模型；

根据训练好的实体识别模型对文本内容进行新标签实体识别。

在其中一个实施例中，根据BERT模型对新标签库中的所有标签所在的句子进行编码，取标签对应位置的字向量进行这四层的拼接，然后平均池化，得到所有标签的词向量；

利用Faiss index对所有标签的词向量进行储存，在Faiss index中对新标签实体识别结果进行向量化后与新标签库中所有的标签进行余弦相似度计算返回分数最高的两个标签作为第一候选同义词标签；

将新标签库中所有标签根据编辑距离进行bkTree构建，对新标签实体识别结果进行规范化后在bkTree中搜索编辑距离小于2的多个标签作为第二候选同义词标签；

根据第一候选同义词标签和第二候选同义词标签将新标签实体识别结果定位到标签库中的位置对新标签词库进行扩充。

在其中一个实施例中，构建遮盖语言模型任务和NTP任务的过程包括：

对训练数据集进行随机全词遮盖，利用ansj分词器对遮盖后的文本进行分词，得到分词词表；全词指中文中的完成词汇；根据分词词表和标签词库构建遮盖语言模型任务；

对包含标签的句子进行向量提取，得到标签的向量表示，利用标签词库中的标签与特征词的层级关系作为标签词库的NTP任务。

在其中一个实施例中，利用候选实体识别模型对资讯数据集进行新标签识别，对识别的新标签进行结果排序，得到文章关联度最高的实体标签，包括：

利用候选实体识别模型对资讯数据集进行新标签识别，对资讯数据集中的文本进行全文向量表示，得到第一向量表示；

将文本中的当前标签词全部进行遮盖处理后再进行向量表示，得到第二向量表示；

对第一向量表示和第二向量表示进行余弦相似度计算，得到去掉当前标签与不去掉当前标签的文章关联程度；文章关联程度为标签的重要度表示；

根据标签的重要度表示对资讯数据集中的所有标签进行从小到大排序，得到文章关联度最高的实体标签。

在其中一个实施例中，根据新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对新标签词库进行清洗，得到清洗后的标签库，包括：

根据新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对新标签词库中的特征词时效值进行计算，得到特征词的时效值；

若特征词的时效值在预先设置的三倍时间内小于0，则将该特征词和特征词对应的标签删除，得到清洗后的标签库。

在其中一个实施例中，根据新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对新标签词库中的特征词时效值进行计算，得到特征词的时效值，包括：

根据新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库库的天数和标签在预先设置时间内的过滤次数对新标签词库中的特征词时效值进行计算，得到特征词的时效值为

其中，i表示特征词，T_i表示特征词对应的标签，M_i表示特征词在预先设置的时间内被过滤的次数，D_i表示特征词加入新标签词库的天数，

表示T_i对应的特征词数量，/>

表示T_i在预先设置时间内被过滤的次数。

在其中一个实施例中，根据标签词库对资讯文本进行数据筛选，得到训练数据集，包括：

对资讯文本中包含标签词库中的词的句子进行剥离处理，将得到的句子和句子对应的标签词库中的词组成训练数据集。

在其中一个实施例中，利用训练数据集和自监督方式对预先构建的BERT模型进行训练，得到预训练模型，包括：

将训练数据集的句子中的词进行遮盖，利用BERT模型对遮盖后的训练数据集进行完型填空训练，得到训练好的BERT模型；

将训练数据集的句子的顺序进行打乱，利用训练好的BERT模型对打乱顺序后的训练数据集进行句子排序训练，得到预训练模型。

一种面向文本内容的新标签实体识别装置，所述装置包括：

训练数据集构建模块，用于获取人工标注的标签词库、资讯文本和资讯数据集；标签词库中包含特征词和特征词对应的标签；根据标签词库对资讯文本进行数据筛选，得到训练数据集；

模型训练模块，用于利用训练数据集和自监督方式对预先构建的BERT模型进行训练，得到预训练模型；利用训练数据集构建全词遮掩语言模型任务和 NTP任务对预训练模型进行再训练，得到再训练模型；

候选实体识别模型构建模块，用于根据再训练模型和GlobalPointer全局指针构建候选实体识别模型；

标签词库过滤模块，用于利用候选实体识别模型对资讯数据集进行新标签识别，对识别的新标签进行结果排序，得到文章关联度最高的实体标签；根据实体标签对人工标注的标签词库进行过滤，得到新标签词库；

新标签词库清洗模块，用于根据新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对新标签词库进行清洗，得到清洗后的标签库；

新标签实体识别模块，用于利用清洗后的标签库对训练数据集进行修改和扩充，得到扩充后的训练集，利用扩充后的训练集对候选实体识别模型进行训练，得到训练好的实体识别模型；根据训练好的实体识别模型对文本内容进行新标签实体识别。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

根据标签词库对资讯文本进行数据筛选，得到训练数据集；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

根据标签词库对资讯文本进行数据筛选，得到训练数据集；

上述面向文本内容的新标签实体识别方法、装置、计算机设备和存储介质，首先根据标签词库对资讯文本进行数据筛选，得到训练数据集，利用训练数据集和自监督方式对预先构建的BERT模型进行训练，可以使得预训练模型学习到训练数据集的基础文本特征，便于后续进行标签实体识别，利用训练数据集构建全词遮掩语言模型任务和NTP任务对预训练模型进行再训练，得到再训练模型；通过构建遮盖语言模型任务和NTP任务对预训练模型进行再训练，使得模型可以更好的学习到更好的学习已有的标签知识以及标签与文章的关联程度，有利于后续对文本进行实体识别时，可以提高识别准确率；根据再训练模型和GlobalPointer全局指针构建候选实体识别模型，利用候选实体识别模型对资讯数据集进行新标签识别，对识别的新标签进行结果排序，得到文章关联度最高的实体标签；根据实体标签对人工标注的标签词库进行过滤，得到新标签词库，将发现的结果与人工标注的标签词库进行去重，防止得到重复的结果，根据新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对新标签词库进行清洗，定时对标签库进行清洗，从中删除部分不需要的标签词和特征词，从而提高标签词库的准确率和时效性，在后续模型训练和实体识别的过程中与时俱进，提高标签识别的准确率，利用扩充后的训练集对候选实体识别模型进行训练，这个时候旧的实体识别模型就可以通过重复训练数据准备的过程进行模型再训练的升级，以这种迭代的方式进行标签发现，可以进一步提高新标签实体识别准确率。

附图说明

图1为一个实施例中一种面向文本内容的新标签实体识别方法的流程示意图；

图2为一个实施例中同义词召回的流程示意图；

图3为一个实施例中初始实体识别模型训练的流程示意图；

图4为一个实施例中利用候选实体识别模型对资讯数据集进行新标签识别的流程示意图；

图5为一个实施例中一种面向文本内容的新标签实体识别装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种面向文本内容的新标签实体识别方法，包括以下步骤：

步骤102，获取人工标注的标签词库、资讯文本和资讯数据集；标签词库中包含特征词和特征词对应的标签；根据标签词库对资讯文本进行数据筛选，得到训练数据集。

由于实体识别模型的输入是文本，输入是文本中可能为新标签的实体，所以训练数据也需要准备这样的输入和输出，预先人工收集标签词库和一部分资讯文本数据，使用标签词库中的词在这些文本数据中进行搜索将包含这些词的句子从文本中剥离出来，比如“上证A股”为标签词库中的一个词，搜索到包含“上证A股”的句子为“XXX上证A股XXXXX”，那么将这个句子和这个句子中“上证A股”所在的下标的范围构建成为一条训练数据，比如[“XXX上证 A股XXXXX”,(4,8)],就是一条训练数据，进行构建训练数据集。

步骤104，利用训练数据集和自监督方式对预先构建的BERT模型进行训练，得到预训练模型；利用训练数据集构建全词遮掩语言模型任务和NTP任务对预训练模型进行再训练，得到再训练模型。

利用训练数据集，通过自监督方式对预先构建的BERT模型进行训练，自监督的方式一般有两种，一种是将文本中的句子中的字词进行遮盖，让模型做类似完形填空的问题。第二种是将文本中句子顺序打乱，让模型做类似句子顺序排序的问题，通过上述两种自监督的方式进行模型训练，可以使得预训练模型学习到训练数据集的基础文本特征，便于后续进行标签实体识别。利用训练数据集构建全词遮掩语言模型任务和NTP任务对预训练模型进行再训练，得到再训练模型；通过构建遮盖语言模型任务和NTP任务对预训练模型进行再训练，使得模型可以更好的学习到更好的学习已有的标签知识以及标签与文章的关联程度，有利于后续对文本进行实体识别时，可以提高识别准确率。

步骤106，根据再训练模型和GlobalPointer全局指针构建候选实体识别模型。

将GlobalPointer指针作为解码器，可以解决标签嵌套的问题，识别多个标签，对预训练模型的输出结果进行约束，提高结果的合理性和准确性，因为神经网络的结果带有随机性，使用GlobalPointer指针能减少非常不合理的结果出现的概率，从而提高候选实体识别模型的识别准确率。

步骤108，利用候选实体识别模型对资讯数据集进行新标签识别，对识别的新标签进行结果排序，得到文章关联度最高的实体标签；根据实体标签对人工标注的标签词库进行过滤，得到新标签词库。

利用候选实体识别模型对资讯数据集进行新标签识别，将模型看成黑盒，输入一篇新的资讯，通过黑盒以后就可以得到[“上证A股”，“医疗股票”…]这样的结果，这样的结果中必定会出现一些脏数据，即无效的标签，但是当输入的数据很多，得到的结果就可以进行统计，将出现频率高的标签优先显示出来即可提高标签发现的准确率。然后将发现的结果与人工标注的标签词库进行去重，防止得到重复的结果。

步骤110，根据新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对新标签词库进行清洗，得到清洗后的标签库。

由于新标签的不断发现，标签库就会不断扩充，使得实体识别模型在进行标签识别时效率会降低，考虑到有些标签词具有时效性以及新标签发现的效率问题，需要定时对标签库进行清洗，从中删除部分不需要的标签词和特征词，从而提高标签词库的准确率和时效性，在后续模型训练和实体识别的过程中与时俱进，提高标签识别的准确率。

步骤112，利用清洗后的标签库对训练数据集进行修改和扩充，得到扩充后的训练集，利用扩充后的训练集对候选实体识别模型进行训练，得到训练好的实体识别模型；根据训练好的实体识别模型对文本内容进行新标签实体识别。

利用扩充后的训练集对候选实体识别模型进行训练，这个时候旧的实体识别模型就可以通过重复训练数据准备的过程进行模型再训练的升级，以这种迭代的方式进行标签发现，可以进一步提高新标签实体识别准确率。

上述面向文本内容的新标签实体识别方法，首先根据标签词库对资讯文本进行数据筛选，得到训练数据集，利用训练数据集和自监督方式对预先构建的 BERT模型进行训练，可以使得预训练模型学习到训练数据集的基础文本特征，便于后续进行标签实体识别，利用训练数据集构建全词遮掩语言模型任务和 NTP任务对预训练模型进行再训练，得到再训练模型；通过构建遮盖语言模型任务和NTP任务对预训练模型进行再训练，使得模型可以更好的学习到更好的学习已有的标签知识以及标签与文章的关联程度，有利于后续对文本进行实体识别时，可以提高识别准确率；根据再训练模型和GlobalPointer全局指针构建候选实体识别模型，利用候选实体识别模型对资讯数据集进行新标签识别，对识别的新标签进行结果排序，得到文章关联度最高的实体标签；根据实体标签对人工标注的标签词库进行过滤，得到新标签词库，将发现的结果与人工标注的标签词库进行去重，防止得到重复的结果，根据新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对新标签词库进行清洗，定时对标签库进行清洗，从中删除部分不需要的标签词和特征词，从而提高标签词库的准确率和时效性，在后续模型训练和实体识别的过程中与时俱进，提高标签识别的准确率，利用扩充后的训练集对候选实体识别模型进行训练，这个时候旧的实体识别模型就可以通过重复训练数据准备的过程进行模型再训练的升级，以这种迭代的方式进行标签发现，可以进一步提高新标签实体识别准确率。

在具体实施例中，如图2所示，首先对标签库中所有的标签计算词向量，词向量的计算方式为给定每个标签所在的句子，使用bert对其进行编码，编码的结果取后四层的字向量，取标签对应位置的字向量进行这四层的拼接，然后平均池化。将得到的所有的词的词向量保存在faiss中。然后构建一个Bktree，标签库中所有标签根据编辑距离加入到bktree中，最后再输入一个词以后(包含上下文)，将上下文输入bert输出该词的词向量加入到faiss进行相似度检索得到两个结果。将该词输入到bktree进行编辑距离检索得到两个结果，将4个结果合并返回作为同义词召回的最终结果。Faiss全称(Facebook AI SimilaritySearch) 是Facebook AI团队开源的针对聚类和相似性搜索库，为稠密向量提供高效相似度搜索和聚类，支持十亿级别向量的搜索，是目前较成熟的近似近邻搜索库。BK Tree或Burkhard Keller Tree是一种数据结构，用于根据编辑距离(Levenshtein 距离)概念执行拼写检查。与所有其他树一样，BK树由节点和边组成。BK树中的节点将代表我们字典中的单个词语，并且节点的数量与字典中词语的数量完全相同。边将包含一些整数权重，它将告诉我们从一个节点到另一个节点的编辑距离。使用该方法可将查找相似词语的时间复杂度从n平方级别下降到logn 级别。

新标签发现的流程中除了要挖掘出资讯文本中可用的标签词和特征词，还需要将这些词汇加入到标签库中才算结束，而将新的标签词加入的标签库需要耗费大量的时间进行词汇的含义查询等，为了提升效率，使用同义词召回模型可以将发现的新标签词与标签库中的词进行相似度匹配，返回匹配度高的词汇(比如发现新标签词“北交所“，同义词召回了上交所，就可以快速的将新标签词定位到标签库中的位置，实现新标签的加入。

在具体实施例中，如图3所示，Bert使用的是bert-wwm-chinese与训练数据集中金融领域数据以及标签数据结构的再训练结果，再训练使用多任务训练，总训练损失是两个任务损失之和。第一个任务使用的是遮盖语言模型任务(Masked language model)，其遮盖方式使用的是随机全词遮盖(random whole word mask)，全词是指中文中的完成词汇，由于中英文的差别中文的词汇是指多个字符，而英文中的词汇是指单词，所以使用全词遮盖会使得模型学习到更多的词汇信息，再使用ansj分词器加入了标签词库作为分词词表，使用积累多年的标签词库能使得模型更好的学习已有的标签知识。第二个任务创新性的使用了资讯的标签信息，使用包含标签的句子提取出标签的向量表示，然后利用标签词库中标签与特征词的层级关系进行标签词汇的预测任务(NTP next tag prediction)。通过构建构建遮盖语言模型任务和NTP任务对对初始实体识别模型进行再训练，使得模型可以更好的学习到更好的学习已有的标签知识以及标签与文章的关联程度，有利于后续对文本进行实体识别时，可以提高识别准确率。

在具体实施例中，如图4所示，利用候选实体识别模型对资讯数据集进行新标签识别，首先对当前资讯进行全文的embedding(向量)表示，然后将全文中的当前标签词全部进行遮盖处理后再进行embedding(向量)表示，然后将这两个embedding进行余弦相似度的计算，得到的结果就是去掉当前标签与不去掉当前标签的文章关联程度，所以该结果可以对标签的重要性进行表示。对当前资讯的所有新标签做上述处理后得到每个新标签的结果，然后按照从小到大排序，就可以得到与当前资讯文章关联度最高的实体标签。

表示T_i对应的特征词数量，/>

表示T_i在预先设置时间内被过滤的次数。

在具体实施例中，可以通过实际需求设置时间，比如金融市场最近一段时间热度比较高，新词出现频率高，则可以将时间设置为一个月来进行标签词过滤。

在具体实施例中，通过对预先构建的BERT模型进行训练，将文本中的句子中的字词进行遮盖，让模型做类似完形填空的问题。第二种是将文本中句子顺序打乱，让模型做类似句子顺序排序的问题，类似于教一个10岁的孩子做题和教0岁的孩子做题，训练后的模型能大大提高BERT模型识别效率和准确度。

应该理解的是，虽然图1流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种面向文本内容的新标签实体识别装置，包括：训练数据集构建模块502、模型训练模块504、候选实体识别模型构建模块506、标签词库过滤模块508、新标签词库清洗模块510和新标签实体识别模块512，其中：

训练数据集构建模块502，用于获取人工标注的标签词库、资讯文本和资讯数据集；标签词库中包含特征词和特征词对应的标签；根据标签词库对资讯文本进行数据筛选，得到训练数据集；

模型训练模块504，用于利用训练数据集和自监督方式对预先构建的BERT 模型进行训练，得到预训练模型；利用训练数据集构建全词遮掩语言模型任务和 NTP任务对预训练模型进行再训练，得到再训练模型；

候选实体识别模型构建模块506，用于根据再训练模型和GlobalPointer全局指针构建候选实体识别模型；

标签词库过滤模块508，用于利用候选实体识别模型对资讯数据集进行新标签识别，对识别的新标签进行结果排序，得到文章关联度最高的实体标签；根据实体标签对人工标注的标签词库进行过滤，得到新标签词库；

新标签词库清洗模块510，用于根据新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对新标签词库进行清洗，得到清洗后的标签库；

新标签实体识别模块512，用于利用清洗后的标签库对训练数据集进行修改和扩充，得到扩充后的训练集，利用扩充后的训练集对候选实体识别模型进行训练，得到训练好的实体识别模型；根据训练好的实体识别模型对文本内容进行新标签实体识别。

在其中一个实施例中，标签词库过滤模块508还用于利用候选实体识别模型对资讯数据集进行新标签识别，对识别的新标签进行结果排序，得到文章关联度最高的实体标签，包括：

在其中一个实施例中，新标签词库清洗模块510还用于根据新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对新标签词库进行清洗，得到清洗后的标签库，包括：

在其中一个实施例中，新标签词库清洗模块510还用于根据新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对新标签词库中的特征词时效值进行计算，得到特征词的时效值，包括：

表示T_i对应的特征词数量，/>

表示T_i在预先设置时间内被过滤的次数。/>

在其中一个实施例中，训练数据集构建模块502还用于根据标签词库对资讯文本进行数据筛选，得到训练数据集，包括：

在其中一个实施例中，预训练模型训练模块504还用于利用训练数据集和自监督方式对预先构建的BERT模型进行训练，得到预训练模型，包括：

关于面向文本内容的新标签实体识别装置的具体限定可以参见上文中对于面向文本内容的新标签实体识别方法的限定，在此不再赘述。上述面向文本内容的新标签实体识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种面向文本内容的新标签实体识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

在一个实施例中，提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM (EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM 以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM (SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM (RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种面向文本内容的新标签实体识别方法，其特征在于，所述方法包括：

获取人工标注的标签词库、资讯文本和资讯数据集；所述标签词库中包含特征词和特征词对应的标签；

根据所述标签词库对所述资讯文本进行数据筛选，得到训练数据集；

利用所述训练数据集和自监督方式对预先构建的BERT模型进行训练，得到预训练模型；

利用所述训练数据集构建全词遮掩语言模型任务和NTP任务对预训练模型进行再训练，得到再训练模型；

根据所述再训练模型和GlobalPointer全局指针构建候选实体识别模型；

利用所述候选实体识别模型对资讯数据集进行新标签识别，对识别的新标签进行结果排序，得到文章关联度最高的实体标签；

根据所述实体标签对人工标注的标签词库进行过滤，得到新标签词库；

根据所述新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对所述新标签词库进行清洗，得到清洗后的标签库；

利用所述清洗后的标签库对所述训练数据集进行修改和扩充，得到扩充后的训练集，利用所述扩充后的训练集对所述候选实体识别模型进行训练，得到训练好的实体识别模型；

根据所述训练好的实体识别模型对文本内容进行新标签实体识别。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据BERT模型对所述新标签库中的所有标签所在的句子进行编码，取标签对应位置的字向量进行这四层的拼接，然后平均池化，得到所有标签的词向量；

利用Faiss index对所述所有标签的词向量进行储存，在所述Faiss index中对新标签实体识别结果进行向量化后与新标签库中所有的标签进行余弦相似度计算返回分数最高的两个标签作为第一候选同义词标签；

将所述新标签库中所有标签根据编辑距离进行bkTree构建，对新标签实体识别结果进行规范化后在所述bkTree中搜索编辑距离小于2的多个标签作为第二候选同义词标签；

根据所述第一候选同义词标签和第二候选同义词标签将新标签实体识别结果定位到标签库中的位置对所述新标签词库进行扩充。

3.根据权利要求1所述的方法，其特征在于，构建遮盖语言模型任务和NTP任务的过程包括：

对所述训练数据集进行随机全词遮盖，利用ansj分词器对遮盖后的文本进行分词，得到分词词表；所述全词指中文中的完成词汇；根据所述分词词表和标签词库构建遮盖语言模型任务；

4.根据权利要求1所述的方法，其特征在于，利用所述候选实体识别模型对资讯数据集进行新标签识别，对识别的新标签进行结果排序，得到文章关联度最高的实体标签，包括：

利用所述候选实体识别模型对资讯数据集进行新标签识别，对资讯数据集中的文本进行全文向量表示，得到第一向量表示；

对所述第一向量表示和第二向量表示进行余弦相似度计算，得到去掉当前标签与不去掉当前标签的文章关联程度；所述文章关联程度为标签的重要度表示；

5.根据权利要求1所述的方法，其特征在于，根据所述新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对所述新标签词库进行清洗，得到清洗后的标签库，包括：

根据所述新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对新标签词库中的特征词时效值进行计算，得到特征词的时效值；

若所述特征词的时效值在预先设置的三倍时间内小于0，则将该特征词和特征词对应的标签删除，得到清洗后的标签库。

6.根据权利要求5所述的方法，其特征在于，根据所述新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对新标签词库中的特征词时效值进行计算，得到特征词的时效值，包括：

根据所述新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库库的天数和标签在预先设置时间内的过滤次数对新标签词库中的特征词时效值进行计算，得到特征词的时效值为

表示T_i对应的特征词数量，/>

表示T_i在预先设置时间内被过滤的次数。

7.根据权利要求1所述的方法，其特征在于，根据所述标签词库对所述资讯文本进行数据筛选，得到训练数据集，包括：

对所述资讯文本中包含所述标签词库中的词的句子进行剥离处理，将得到的句子和所述句子对应的标签词库中的词组成训练数据集。

8.根据权利要求1所述的方法，其特征在于，利用所述训练数据集和自监督方式对预先构建的BERT模型进行训练，得到预训练模型，包括：

将所述训练数据集的句子中的词进行遮盖，利用所述BERT模型对遮盖后的训练数据集进行完型填空训练，得到训练好的BERT模型；

将所述训练数据集的句子的顺序进行打乱，利用所述训练好的BERT模型对打乱顺序后的训练数据集进行句子排序训练，得到预训练模型。

9.一种面向文本内容的新标签实体识别装置，其特征在于，所述装置包括：

训练数据集构建模块，用于获取人工标注的标签词库、资讯文本和资讯数据集；所述标签词库中包含特征词和特征词对应的标签；根据所述标签词库对所述资讯文本进行数据筛选，得到训练数据集；

模型训练模块，用于利用所述训练数据集和自监督方式对预先构建的BERT模型进行训练，得到预训练模型；利用所述训练数据集构建全词遮掩语言模型任务和NTP任务对预训练模型进行再训练，得到再训练模型；

候选实体识别模型构建模块，用于根据所述再训练模型和GlobalPointer全局指针构建候选实体识别模型；

标签词库过滤模块，用于利用所述候选实体识别模型对资讯数据集进行新标签识别，对识别的新标签进行结果排序，得到文章关联度最高的实体标签；根据所述实体标签对人工标注的标签词库进行过滤，得到新标签词库；

新标签词库清洗模块，用于根据所述新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对所述新标签词库进行清洗，得到清洗后的标签库；

新标签实体识别模块，用于利用所述清洗后的标签库对所述训练数据集进行修改和扩充，得到扩充后的训练集，利用所述扩充后的训练集对所述候选实体识别模型进行训练，得到训练好的实体识别模型；根据所述训练好的实体识别模型对文本内容进行新标签实体识别。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。