CN113051914A

CN113051914A - 一种基于多特征动态画像的企业隐藏标签抽取方法及装置

Info

Publication number: CN113051914A
Application number: CN202110382663.4A
Authority: CN
Inventors: 李翔; 丁行硕; 谢乾; 高尚兵; 朱全银; 王留洋; 王媛媛; 马甲林; 费可可; 吴杰; 焦英杰; 朱鹏程
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2021-06-29

Abstract

本发明公开了一种基于多特征动态画像的企业隐藏标签抽取方法及装置，该方法首先对企业信息更新并使用K‑means对其聚类，将聚类后的企业文本信息打上标签形成若干个标签点簇；接着，将此文本信息作为多特征隐藏信息抽取的样本集，对其进行中文分词并引入企业词库进行特征拓展，传入Bert模型发现潜在特征；然后，利用双向长短期记忆网络和卷积神经网络进一步提取上下文特征和局部特征；最后，动态更新企业信息传入多特征文本分类模型获得文本的隐藏标签信息。本发明普遍适用于企业画像标签建模和隐藏标签抽取问题，充分考虑了企业文本的上下文信息，可以有效发现企业文本中的隐藏标签，实现动态画像的标签实时更新。

Description

一种基于多特征动态画像的企业隐藏标签抽取方法及装置

技术领域

本发明属于企业画像和自然语言处理技术领域，特别涉及一种基于多特征动态画像的企业隐藏标签抽取方法及装置。

背景技术

近年来，随着知识图谱与大数据的快速发展，画像技术受到学术界广泛的关注。目前比较流行的企业画像在税务管理、风险评估、市场监管、环境保护等方面有着广泛的应用，其网站不仅具备传统门户网站的信息服务功能，还能提供许多与标签相关的服务如热点分析和企业推荐等。作为一种新型的画像技术应用，企业画像中不仅包含大量企业、位置等多模实体，还拥有大量的异质关系和文本特征，比如企业位置关系、企业竞争合作关系以及企业研究者发表的论文专利关系。在企业画像中，标签体系建设是画像研究的重要部分，是通过企业基础的统计类标签，以及行为产生的规则类标签，最后是数据挖掘产生的挖掘类标签共同构建而成。通过画像技术对不同维度信息筛选整合，能够以不同的形式向企业、政府提供服务。

现有的企业画像隐藏标签抽取还存在以下问题：1、传统企业标签抽取方法无法有效发现文本的多特征信息，导致标签准确率下降；2、传统企业标签抽取方法无法对企业隐藏标签动态更新，当有新的企业信息传入时，企业画像的构建效率变低。针对这些问题，本发明提出了一种基于多特征动态画像的企业隐藏标签抽取方法。该方法首先对企业信息更新并使用K-means对其聚类，将聚类后的企业文本信息打上标签形成若干个标签点簇；接着，将此文本信息作为多特征隐藏信息抽取的样本集，对其进行中文分词并引入企业词库进行特征拓展，传入Bert模型发现潜在特征；然后，利用双向长短期记忆网络和卷积神经网络进一步提取上下文特征和局部特征；最后，动态更新企业信息传入此模型获得文本的隐藏标签信息。本发明普遍适用于隐藏标签抽取和动态画像问题，充分考虑了企业文本的多特征信息和企业信息的实时更新，可以有效的提高标签抽取的准确率。

本发明中的多特征企业隐藏标签抽取方法对企业画像有着重要的作用和意义。在面对画像隐藏标签问题的时候，研究者们通常会选择使用关键词抽取和文本聚类，但是这些方法都存在明显的不足，其无法发现文本的多特征信息，导致抽取后的标签概括能力差，且无法对隐藏的企业标签进行动态更新。因此，为更好的应对复杂文本的标签抽取，神经网络依据出色的自适应和实时学习特点成为常用方法，其能发现文本的多特征信息，聚类算法可以有效发现无监督抽取中的样本点簇，避免了大量数据的人工标注。

发明内容

发明目的：针对上述问题，本发明提供了一种基于多特征动态画像的企业隐藏标签抽取方法及装置，能够有效挖掘企业隐藏信息，弥补传统企业画像的不足，提高实际应用效率。

发明内容：本发明提供了一种基于多特征动态画像的企业隐藏标签抽取方法，具体包括以下步骤：

(1)更新企业信息得到企业数据集D，使用K-means对数据集D聚类，得到N个聚类点簇；

(2)将聚类后的企业数据集打上标签形成N个带标签的点簇，得到样本集D2，并对D2进行预处理，得到样本集D3；

(3)对D3进行中文分词并引入企业词库进行特征拓展，构建Bert模型，将样本集D3作为模型的输入，得到融合全文语义信息的特征向量T；

(4)将融合后的特征向量T传入双向长短期记忆网络和卷积神经网络进一步提取上下文特征和局部特征；

(5)动态更新企业信息形成数据集D4，将清洗后的数据集D5传入多特征文本分类模型获得文本的隐藏标签信息。

进一步地，所述步骤(1)包括以下步骤：

(11)定义Text为单个待聚类企业文本，定义id,content分别为企业文本序号、企业文本，并且满足关系Text＝{id,content}；

(12)定义D为待聚类企业数据集，D＝{Text₁,Text₂,…,Text_a,…,Text_len(D)}，Text_a为D中第a个待聚类企业文本，其中len(D)为D中文本数量，变量a∈[1,len(D)]；

(13)使用K-means对数据集D进行聚类，得到N个聚类点簇；

(14)定义D1为聚类后的企业数据集，D1＝{d₁,d₂,…,d_N},其中d_N为第N个企业点簇数据集。

进一步地，所述步骤(2)包括以下步骤：

(21)将数据集D1中的N个企业点簇文本打上标签得到样本集D2，D2＝{Text1₁,Text1₂,…,Text1_j,…Text1_N}，其中Text1_j＝{label,d_j}，label为企业标签，变量j∈[1,N]；

(22)对数据集D2中的文本进行去重和去空操作后，得到清洗后的企业样本集D3＝{Text2₁,Text2₂,…,Text2_i,…Text2_N}，其中Text2_i＝{label,d_i}，label为企业标签，变量i∈[1,N]。

进一步地，所述步骤(3)包括以下步骤：

(301)通过网络收集和关键词提取构建企业词库K；

(302)对清洗后的样本集D3进行中文分词，通过引入词库K进行特征扩展；

(303)建立Bert模型，进行模型训练；

(304)处理样本集D3，将样本集中的文本长度统一固定为L_max；

(305)定义循环变量n，且n赋初值为1；

(306)如果n≤len(D3)则跳转到(307)，否则跳转到(313)；

(307)定义len(Text2_n)为文本中第n个文本长度，如果len(Text2_n)+2≤L_max则补0后跳转下一步，否则截取文本前L_max个单位，跳转下一步；

(308)n＝n+1；

(309)将每个样本集传入BERT模型发现企业文本的向量特征；

(310)BERT模型能够发现每篇文本中的位置信息p、字嵌入信息t和段落信息s；

(311)对多特征向量进行拼接得到融合全文语义信息的向量V；

(312)将V作为BERT模型的输入，在最后一层神经元得到向量序列T_n＝{V(W₁),V(W₂),…,V(W_f),…,V(W_Lmax)}；其中V(W_f)为第f个结合文本信息的向量表示，f∈[1,L_max]；

(313)结束循环，输出全部字向量序列S＝{T₁,T₂,T₃,…,T_r,…,T_len(D3)}，其中r∈[1,len(D3)]。

进一步地，所述步骤(4)包括以下步骤：

(401)构建双向长短期记忆网络，传入字向量序列S；

(402)定义循环变量m，且m赋初值为1；

(403)定义M为最大时刻，如果m≤M则跳转至(404)，否则跳转到(408)；

(404)使用双向长短期记忆网络计算当前时刻的正向输出h_tl，计算公式为h_tl＝LSTM(x_t,h_(t-1)l)，其中x_t表示当前时刻网络的输入，h_(t-1)l为t-1时刻的正向网络输出，t为当前时刻；

(405)使用双向长短期记忆网络计算当前时刻的逆向输出h_tr，计算公式为h_tr＝LSTM(x_t,h_(t-1)r)，其中x_t表示当前时刻网络的输入，h_(t-1)r为t-1时刻的逆向网络输出，t为当前时刻；

(406)将正向输出h_tl和逆向输出h_tr整合，得到t时刻的输出结果h_t；

(407)m＝m+1；

(408)结束循环，得到全部时刻的输出向量y＝{h₁,h₂,…h_z,…h_M},其中M为最大时刻，变量z∈[1,M]；

(409)将特征向量y作为卷积神经网络的输入；

(410)特征向量y在网络池化层进行最大池化后，得到网络的输出向量y₁；

(411)将向量y₁使用softmax函数进行文档分类预测，得到分类概率预测向量P＝{p₁,p₂,…,p_g,…,p_h}，其中p_g表示该文本第g类的概率，h为类别总数；

(412)查找向量P中的最大值，并将最大值对应的结果y₂输出。

进一步地，所述步骤(5)包括以下步骤：

(51)将训练后的多特征文本分类模型保存封装；

(52)动态更新待抽取企业文本数据集D4；

(53)对数据集D4进行数据清洗，包含去重、去空，得到数据集D5；

(54)对数据集D5进行预处理，将预处理后的企业数据集D5传入隐藏标签抽取模型；

(55)模型最终输出分类标签y₃，并为该企业打上y₃标签，实现隐藏标签的动态更新。

基于相同的发明构思，本发明还提供一种基于多特征动态画像的企业隐藏标签抽取装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序；所述计算机程序被加载至处理器时实现上述的基于多特征动态画像的企业隐藏标签抽取方法。

有益效果：与现有技术相比，本发明的有益效果：本发明基于已有的企业文本数据集，利用Bert和神经网络进行多特征隐藏标签抽取，能够有效挖掘企业隐藏信息，弥补传统企业画像的不足；同时本发明能够优化标签建模速率，缩减从业者工作时长，提高企业画像系统的运行效率。

附图说明

图1为本发明的流程图；

图2为聚类分析流程图；

图3为Bert模型特征抽取流程图；

图4为双向长短期记忆网络和卷积神经网络训练流程图；

图5为动态隐藏标签抽取流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

为了便于理解，本发明中涉及到的变量如表1所示：

表1变量说明表

本发明提出一种基于多特征动态画像的企业隐藏标签抽取方法，如图1所示，包括以下步骤：

步骤1：更新企业信息得到企业数据集D，使用K-means对数据集D聚类，得到N个聚类点簇。具体方法为：

步骤1.1：定义Text为单个待聚类企业文本，定义id,content分别为企业文本序号、企业文本，并且满足关系Text＝{id,content}；

步骤1.2：定义D为待聚类企业数据集，D＝{Text₁,Text₂,…,Text_a,…,Text_len(D)}，Text_a为D中第a个待聚类企业文本，其中len(D)为D中文本数量，变量a∈[1,len(D)]；

步骤1.3：使用K-means对数据集D进行聚类，得到N个聚类点簇；

步骤1.4：定义D1为聚类后的企业数据集，D1＝{d₁,d₂,…,d_N},其中d_N为第N个企业点簇数据集。

步骤2：将聚类后的企业数据集打上标签形成N个带标签的点簇，形成样本集D2，对其进行去重、去空，将清洗后的文本信息D3作为多特征隐藏信息抽取的样本集。如图2所示，具体方法为：

步骤2.1：将数据集D1中的N个企业点簇文本打上标签得到样本集D2，D2＝{Text1₁,Text1₂,…,Text1_j,…Text1_N}，其中Text1_j＝{label,d_j}，label为企业标签，变量j∈[1,N]；

步骤2.2：对数据集D2中的文本进行去重和去空操作后，得到清洗后的企业样本集D3＝{Text2₁,Text2₂,…,Text2_i,…Text2_N}，其中Text2_i＝{label,d_i}，label为企业标签，变量i∈[1,N]。

步骤3：对D3进行中文分词并引入企业词库进行特征拓展，构建Bert模型，将样本集D3作为模型的输入，得到融合全文语义关系的特征向量T。如图3所示，具体方法为：

步骤3.1：通过网络收集和关键词提取构建企业词库K；

步骤3.2：对清洗后的样本集D3进行中文分词，通过引入词库K进行特征扩展；

步骤3.3：建立Bert模型，进行模型训练；

步骤3.4：处理样本集D3，将样本集中的文本长度统一固定为L_max；

步骤3.5：定义循环变量n，且n赋初值为1；

步骤3.6：如果i≤len(D3)则跳转到步骤3.7，否则跳转到步骤3.13；

步骤3.7：定义len(Text2_n)为文本中第n个文本长度，如果len(Text2_n)+2≤L_max则补0后跳转下一步，否则截取文本前L_max个单位，跳转下一步；

步骤3.8：n＝n+1；

步骤3.9：将每个样本集传入BERT模型发现企业文本的向量特征；

步骤3.10：BERT模型能够发现每篇文本中的位置信息p、字嵌入信息t和段落信息s；

步骤3.11：对多特征向量进行拼接得到融合全文语义信息的向量V；

步骤3.12：将V作为BERT模型的输入，在最后一层神经元得到向量序列T_n＝{V(W₁),V(W₂),…,V(W_f),…,V(W_Lmax)}；其中V(W_f)为第f个结合文本信息的向量表示，f∈[1,L_max]；

步骤3.13：结束循环，输出全部字向量序列S＝{T₁,T₂,T₃,…,T_r,…,T_len(D3)}，其中r∈[1,len(D3)]。

步骤4：将融合后的特征向量T传入双向长短期记忆网络和卷积神经网络进一步提取上下文特征和局部特征。如图4所示，具体方法为：

步骤4.1：步骤4.1：构建双向长短期记忆网络，传入字向量序列S；

步骤4.2：定义循环变量m，且m赋初值为1；

步骤4.3：定义M为最大时刻，如果m≤M则跳转步骤4.4，否则跳转到步骤4.8；

步骤4.4：使用双向长短期记忆网络计算当前时刻的正向输出h_tl，计算公式为h_tl＝LSTM(x_t,h_(t-1)l)，其中x_t表示当前时刻网络的输入，h_(t-1)l为t-1时刻的正向网络输出，t为当前时刻；

步骤4.5：使用双向长短期记忆网络计算当前时刻的逆向输出h_tr，计算公式为h_tr＝LSTM(x_t,h_(t-1)r)，其中x_t表示当前时刻网络的输入，h_(t-1)r为t-1时刻的逆向网络输出，t为当前时刻；

步骤4.6：将正向输出h_tl和逆向输出h_tr整合，得到t时刻的输出结果h_t；

步骤4.7：m＝m+1；

步骤4.8：得到全部时刻的输出结果y＝{h₁,h₂,…h_z,…h_M},其中M为最大时刻，变量z∈[1,M]；

步骤4.9：将特征向量y作为卷积神经网络的输入；

步骤4.10：特征向量y在网络池化层进行最大池化后，得到网络的输出向量y1；

步骤4.11：将向量y₁使用softmax函数进行文档分类预测，得到分类概率预测向量P＝{p₁,p₂,…,p_g,…,p_h}，其中p_g表示该文本第g类的概率，h为类别总数；

步骤4.12：查找向量P中的最大值，并将最大值对应的结果y₂输出。

步骤5：动态更新企业信息D4，将清洗后的数据集D5传入多特征文本分类模型获得文本的隐藏标签信息。多特征文本分类模型为Bert和神经网络的多特征分类模型。如图5所示，具体方法为：

步骤5.1：将训练后的多特征文本分类模型保存封装；

步骤5.2：动态更新待抽取企业文本数据集D4；

步骤5.3：对数据集D4进行数据清洗，包含去重、去空，得到数据集D5；

步骤5.4：对数据集D5进行预处理，将预处理后的企业数据集D5传入隐藏标签抽取模型；

步骤5.5：模型最终输出分类标签y₃，并为该企业打上y₃标签，实现隐藏标签的动态更新。

本发明还一种基于多特征动态画像的企业隐藏标签抽取装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现上述的基于多特征动态画像的企业隐藏标签抽取方法。

通过企业经营范围文本信息，使用多特征动态画像的企业隐藏标签抽取方法得到企业的偏好和兴趣标签。利用封装好的模型直接进行动态画像的标签抽取，从而得到企业偏好特征信息，并解决动态画像标签更新问题。

Claims

1.一种基于多特征动态画像的企业隐藏标签抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多特征动态画像的企业隐藏标签抽取方法，其特征在于，所述步骤(1)包括以下步骤：