CN113220872A

CN113220872A - 一种文档标签生成方法、系统及可读存储介质

Info

Publication number: CN113220872A
Application number: CN202110173106.1A
Authority: CN
Inventors: 李振; 尹正; 刘昊霖; 鲍东岳; 张雨枫; 徐超
Original assignee: Minsheng Science And Technology Co ltd
Current assignee: Minsheng Science And Technology Co ltd
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2021-08-06

Abstract

本发明提供了一种文档标签生成方法、系统及可读存储介质，包括以下步骤：S1自动化标签库生成：通过文章主题模型和命名实体抽取算法，从有限数量的文档中，获取关键词标签和名词实体标签，生成自动化标签库；S2标签分类算法：通过文本多分类模型，对系统原有文档和新入系统文档进行处理，通过S1生成的自动化标签库对文本多分类模型的分类结果进行匹配，生成对应的标签；S3标签反馈机制：对没有获得标签的文档重新通过S1中方法，获取关键词标签和名词实体标签并加入自动化标签库；S4标签库后期维护：对人工录入的标签进行筛选和/或去重处理并添加到自动化标签库中，同时定期训练文本多分类模型。

Description

一种文档标签生成方法、系统及可读存储介质

【技术领域】

本发明涉及信息处理技术领域，尤其涉及一种文档标签生成方法、系统及可读存储介质。

【背景技术】

随着互联网技术的发展和各种网络技术地迅速普及，大量的文档会被储存于云盘等媒介中。但是对于这些不是以文本形式储存的数据，在人们很难通过直接的检索查找到文章中自己需要的内容或者通过检索查找到自己需要的文章。尤其是当文档内容涉密或者涉私不方便被公开时，这个问题更加严峻。因此，我们设计了一种基于文章主题模型和文本分类算法的文档标签生成方法，即满足文档内容的快速准确检索需求，也能够通过对内容的权限控制保证涉密涉私的内容的安全性。

因此，有必要研究一种文档标签生成方法、系统及可读存储介质来应对现有技术的不足，以解决或减轻上述一个或多个问题。

【发明内容】

有鉴于此，本发明提供了一种文档标签生成方法、系统及可读存储介质，可以通过对文档内容的处理获得准确的关联标签。

一方面，本发明提供一种文档标签生成方法，所述方法包括以下步骤：

S1自动化标签库生成：通过文章主题模型和命名实体抽取算法，从有限数量的文档中，获取关键词标签和名词实体标签，生成自动化标签库；

S2标签分类算法：通过文本多分类模型，对系统原有文档和新入系统文档进行处理，通过S1生成的自动化标签库对文本多分类模型的分类结果进行匹配，生成对应的标签；

S3标签反馈机制：对没有获得标签的文档重新通过S1中方法，获取关键词标签和名词实体标签并加入自动化标签库；

S4标签库后期维护：对人工录入的标签进行筛选和/或去重处理并添加到自动化标签库中，同时定期训练文本多分类模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述 S1具体包括：

S11：利用文章主题模型对有限数量文档进行聚类处理，提取出每个类别中的特有关键词，获取关键词标签并储存在备用标签库中；

S12：利用命名实体抽取算法从S11中文档中的命名实体进行抽取，获取名词实体标签，筛选并存入备用标签库；

S13：对备用标签库库中的名词实体标签和关键词标签进行去重以及近义词合并的处理，减少备用库中的标签数量；

S14：根据预设条件对标签进行处理，生成自动化标签库。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述 S14中的预设条件包括但不限于合并类似标签，所述合并类似标签具体为：相同产品不同名称表述。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述 S11具体包括：

S111：语料预处理，得到候选关键词集；

S112：文档中的关键词利用tf-idf及textrank打分的方式，由高到低排列，剔除停用词及不显示主题意义的词性，由此产生的tokens文件，作为LDA的输入文件；

S113：基于语料生成LDA模型，使用gensim自带的LDAmodel；

S114：将S113中的LDA模型用于某个文档得到该文档的topic概率分布和关键词，如果文档分词后得到的词语在候选关键词中，则将其作为关键词标签放入备用库中，否则列入停用词库。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述 S114中候选关键词的得分score＝每个topic的概率*每个单词属于该topic的概率。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述 S12具体包括：

S121：语料预处理，得到清洁语料；

S122：利用BERT+(LSTM)+CRF网络生成的明明实体抽取模型标注语料中出现的命名实体；

S123：对文档中出现的命名实体做频率计算，并利用预设规则清除部分命名实体；

S124：将预设频率内的名词实体作为名词实体标签放入备用库中。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述 S2中文本多分类模型的训练方式为：使用多层级的注意力网络，训练文本多分类模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述 S2中文本多分类模型具体包括：

单词编码：将句子中的每个词嵌入到分布向量空间的词向量中，使用双向 GRU对句子进行编码，通过将双方向的向量连接起来，得到句子的表示形式，同时捕获上下文信息；

单词注意力机制：使用乘法注意力机制，利用一层MLP获取句子的隐含表示，然后用词级上下文向量来度量单词的重要性，并通过softmax函数得到归一化的重要性；

句子编码：对句子向量使用双向GRU进行编码；

句子注意力机制：使用乘法注意力机制，利用一层MLP获取句子的隐含表示，然后用句子向量来度量单词的重要性。

如上所述的方面和任一可能的实现方式，进一步提供一种基于文章主题模型和命名实体抽取的文档标签生成系统，所述系统包括：

自动化标签库生成模块，通过文章主题模型和命名实体抽取算法，从有限数量的文档中，获取关键词标签和名词实体标签，生成自动化标签库；

标签分类算法模块，通过文本多分类模型，对系统原有文档和新入系统文档进行处理，生成对应的标签；

标签反馈机制模块，对没有获得标签的文档重新进入自动化标签库生成模块，获取关键词标签和名词实体标签并加入自动化标签库；

标签库后期维护模块，对人工录入的标签进行筛选和/或去重处理并添加到自动化标签库中，同时定期训练文本多分类模型。

如上所述的方面和任一可能的实现方式，进一步提供一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现任一项所述的文档标签生成方法的步骤。

与现有技术相比，本发明可以获得包括以下技术效果：

本发明构建了一种基于文章主题模型和命名实体抽取的文档标签生成方法，对于用户储存在固定空间的批量文档文件可以自动初始化出标签库，并计算得到每篇文档对应的标签，并且在后续的使用中，可以对新加入的文档自动赋值标签，方便用户对文档的储存管理以及准确检索；

在初始化抽取标签的过程中运用到了两种模型技术，文章主体模型能够帮助文档进行聚类，抽取出相似主题下的具有主题标志的关键词；而命名实体识别技术帮助我们对单篇文章的描述主体进行抽取，保证标签的全面覆盖，提升了初始化标签库的准确性以及全面性；

在后续的多标签分类模型中，用到了多层级的注意力网络对文档进行分类，保证了模型输出的效果效果以及速度。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有技术效果。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明一个实施例提供的文档标签生成方法流程图；

图2是本发明一个实施例提供的文章主题模型图；

图3是本发明一个实施例提供的命名实体抽取图；

图4是本发明一个实施例提供的多标签分类算法图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

如图1所示，本发明提供一种文档标签生成方法，所述方法包括以下步骤：

所述S1具体包括：

S14：根据预设条件对标签进行处理，生成自动化标签库。

所述S14中的预设条件包括但不限于合并类似标签，所述合并类似标签具体为：相同产品不同名称表述。

所述S11具体包括：

S111：语料预处理，得到候选关键词集；

S113：基于语料生成LDA模型，使用gensim自带的LDAmodel；

所述S114中候选关键词的得分score＝每个topic的概率*每个单词属于该 topic的概率。

所述S12具体包括：

S121：语料预处理，得到清洁语料；

所述S2中文本多分类模型的训练方式为：使用多层级的注意力网络，训练文本多分类模型。所述S2中文本多分类模型具体包括：

句子编码：对句子向量使用双向GRU进行编码；

本发明还提供一种基于文章主题模型和命名实体抽取的文档标签生成系统，所述系统包括：

本发明还提供一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现任一项所述的文档标签生成方法的步骤。

本发明所述系统旨在对大量的以文档格式储存的数据进行处理。通过前期对多篇文档的文档主题模型的处理抽取出相应的大量带筛选标签，然后经过人工的筛选工序，生成初期的文档标签库；之后利用文本的多分类算法，对每篇文章的内容/来源等做出判断，生成对应的标签，辅助后续的精确检索和个人推荐功能。

本发明运用多种领先的自然语言处理方法，对文档数据进行文章主题模型和文本分类两项内容，通过分类技术帮助用户快速精确查找需要的内容以及文件，实现了快速准确个性化的文档标签生成方法。该方法具体内容包括以下步骤：

S1自动化标签库生成

S1.1如图2所示，利用文章主题模型对多篇文档进行聚类处理，并提取出每个类别中的特有关键词，储存在备用标签库中；LDA文章主题算法生成文档的过程如下：

(1)语料预处理，得到候选关键词集(文档分词之后得到的词)；

(2)每篇文章的关键词利用tf-idf及textrank打分的方式，由高到低排列，剔除停用词及不显示主题意义的词性，由此产生的tokens文件，作为LDA的输入文件；

(3)基于语料生成LDA模型，使用gensim自带的LDAmodel；

(4)将模型用于某个文本得到该文本的topic概率分布和关键词，如果文档分词后得到的词语在候选关键词中，那么将其作为关键词提取出来。而对于每个候选关键词，其得分score＝每个topic的概率*每个单词属于该topic的概率；

(5)将一些不能体现主题意义的词列入停用词库(人工筛选)。

S1.2如图3所示，利用命名实体抽取算法对待处理文档中的命名实体进行抽取，筛选并存入备用标签库；BERT+(LSTM)+CRF利用命名实体抽取模型的过程如下：

(1)语料预处理，得到清洁语料；

(2)利用BERT+(LSTM)+CRF网络生成的明明实体抽取模型标注预料中出现的命名实体，CRF的参数化形式如下所示；

其中，Z(x)＝∑_yexp[∑_i,kv_kt_k(y_i-1,y_i,x,i)+∑_i,lu_ls_l(y_i,x,i)]，

t_k和s_l是特征函数，v_k和u_l是对应的权值，t_k是状态转移函数，v_k是对应的权值；s_l是发射函数，u_l是对应的权值。

(3)对文本中出现的命名实体做频率计算，并利用规则清除部分命名实体；

(4)得到排名靠前的名词实体作为我们的标签词放入标签库中。

S1.3对备用标签库库中的标签进行简单去重以及近义词合并的处理，减少备用库中的标签数量；

S1.4根据业务人员的需求，合并类似标签，比如不同产品名称表述等等，生成最终标签库

S2标签分类算法，如图4所示:

S2.1整理现有文本及对应标签；

S2.2进行模型训练，使用多层级的注意力网络，训练文本多分类模型；我们的文档模型多分类模型主要包括四个部分：

(1)单词编码，将句子中的每个词嵌入到分布向量空间的词向量中，使用双向GRU对句子进行编码。通过将双方向的向量连接起来，得到句子的表示形式，同时捕获上下文信息；

x_it＝W_ew_it，t∈[1,T]

(2)单词注意力机制，使用乘法注意力机制，首先利用一层MLP来获取句子的隐含表示，然后用词级上下文向量来度量单词的重要性，并通过softmax函数得到归一化的重要性；

u_it＝tanh(w_wh_it+b_w),

(3)句子编码，与单词编码相似，对句子向量使用双向GRU进行编码；

u_it＝tanh(w_wh_it+b_w),

(4)句子注意力机制，与对单词使用的注意力机制相似，句子向量用于衡量句子之间的重要性。

u_i＝tanh(w_sh_i+b_s),

S2.3对新入库文档进行实时处理，得到对应标签。

S3标签反馈机制

S3.1筛选出没有标签结果的文档；

S3.2将筛选出的文档批量放入S1自动化标签库生成模块再次进行标签抽取，并将新生成标签放入标签库中。

S4标签库后期维护

S4.1对系统使用人员手工录入的标签进行筛选/去重等处理，选择性增加到标签库中，并利用文本距离进行前期匹配；

S4.2定时重新训练文本多分类模型，获得能够处理新标签的模型。

本发明构建了一种基于文章主题模型和命名实体抽取的文档标签生成方法，对于用户储存在固定空间的批量文档文件可以自动初始化出标签库，并计算得到每篇文档对应的标签，并且在后续的使用中，可以对新加入的文档自动赋值标签，方便用户对文档的储存管理以及准确检索。在初始化抽取标签的过程中我们运用到了两种模型技术，文章主体模型能够帮助文档进行聚类，抽取出相似主题下的具有主题标志的关键词；而命名实体识别技术帮助我们对单篇文章的描述主体进行抽取，保证标签的全面覆盖，提升了初始化标签库的准确性以及全面性。在后续的多标签分类模型中，我们使用到了多层级的注意力网络对文档进行分类，保证了模型输出的效果效果以及速度。本发明的创新点具体包括：

(1)首先利用了主题模型和命名实体抽取两项NLP技术自动生成标签库，对我们需要得到的标签进行预测，并且利于业务人员进行整理和分类。对市场上的自动打标产品的标准不统一，数量繁杂等问题进行了改进，并且有利于业务人员相关知识的引入。

(2)将传统的人工打标签的过程利用多标签分类模型引入了自动化的打标机制，结合(1)中所提到的整理后的标签库，能够得到标准统一、满足业务人员需求、准确度高的文档标签结果，并且相比人工打标签的速度有了非常大的提升。

(3)引入了标签库的后期维护机制，方便业务人员定时对标签库中的标签进行增删改查，补充近期新的产品和关注点，删除无用的关注点，做到打出来的标签能够真正帮助业务人员提升检索效率和准确度。并且根据标签的调整我们的模型也会后续进行迭代训练，优化模型效果。

下表1为手工标签、主体标签自动生成和基于文章主题模型和命名实体抽取的文档标签生成方法(标签库+标签)，三种标签生成方法的比较：

以上对本申请实施例所提供的一种文档标签生成方法、系统及可读存储介质，进行了详细介绍。以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

如在说明书及权利要求书当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求书并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求书当中所提及的“包含”、“包括”为一开放式用语，故应解释成“包含/包括但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明本申请的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求书所界定者为准。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

上述说明示出并描述了本申请的若干优选实施例，但如前所述，应当理解本申请并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述申请构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围，则都应在本申请所附权利要求书的保护范围内。

Claims

1.一种基于文章主题模型和命名实体抽取的文档标签生成方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述S1具体包括：

S14：根据预设条件对标签进行处理，生成自动化标签库。

3.根据权利要求2所述的方法，其特征在于，所述S14中的预设条件包括但不限于合并类似标签，所述合并类似标签具体为：相同产品不同名称表述。

4.根据权利要求2所述的方法，其特征在于，所述S11具体包括：

S111：语料预处理，得到候选关键词集；

S113：基于语料生成LDA模型，使用gensim自带的LDAmodel；

5.根据权利要求4所述的方法，其特征在于，所述S114中候选关键词的得分score＝每个topic的概率*每个单词属于该topic的概率。

6.根据权利要求2所述的方法，其特征在于，所述S12具体包括：

S121：语料预处理，得到清洁语料；

7.根据权利要求1所述的方法，其特征在于，所述S2中文本多分类模型的训练方式为：使用多层级的注意力网络，训练文本多分类模型。

8.根据权利要求7所述的方法，其特征在于，所述S2中文本多分类模型具体包括：

单词编码：将句子中的每个词嵌入到分布向量空间的词向量中，使用双向GRU对句子进行编码，通过将双方向的向量连接起来，得到句子的表示形式，同时捕获上下文信息；

句子编码：对句子向量使用双向GRU进行编码；

9.一种基于文章主题模型和命名实体抽取的文档标签生成系统，包括上述权利要求1-8之一所述的方法，其特征在于，所述系统包括：

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的文档标签生成方法的步骤。