CN113836903B - 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置 - Google Patents
一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置 Download PDFInfo
- Publication number
- CN113836903B CN113836903B CN202110943434.5A CN202110943434A CN113836903B CN 113836903 B CN113836903 B CN 113836903B CN 202110943434 A CN202110943434 A CN 202110943434A CN 113836903 B CN113836903 B CN 113836903B
- Authority
- CN
- China
- Prior art keywords
- enterprise
- network
- vector
- text
- len
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及企业画像和自然语言处理技术领域,公开了一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法装置,将企业情境信息向量化后与企业文本向量拼接,得到融合企业情境信息的企业文本;构建主干网络进行模型训练,构建小规模TextCNN枝干网络内嵌到前11层Transformer的主干网络上,将融合后的企业文本传入Bert模型发现其隐藏特征,再传入BiLSTM网络和最大池化层进一步发现其上下文特征和局部特征;使用主干网络指导枝干网络进行知识蒸馏和标签抽取。本发明使用企业情境嵌入可以有效提高标签抽取的准确率,同时拥有知识蒸馏的深度学习模型可以提高标签抽取效率,使其在实际场景中更好的应用。
Description
技术领域
本发明涉及企业画像和自然语言处理技术领域,具体涉及一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置。
背景技术
近年来,随着知识图谱和大数据的快速发展,画像技术受到学术界和工业界的广泛关注。目前比较流行的企业画像在电子商务、风险评估、市场监管等方面有着广泛的应用。其中包含企业画像的网站不仅具备传统门户网站的信息服务功能,还能提供许多与标签相关的服务如热点分析和企业推荐等。企业画像作为画像技术的一种新型应用,不仅包含了企业的名称、位置和关键词等多模实体标签,还拥有众多的兴趣与偏好主题标签,比如企业的研发方向和经营范围等。这些标签混合在一起形成了非常复杂的结构特征,尤其以企业为中心的各类关系网络已成为传统企业画像扩展的重要特征。通过画像技术对不同维度的信息进行处理和整合,能够为企业和政府提供更便利的服务。
但现有的企业画像标签抽取还存在以下问题:1、深层次的预训练语言模型虽然能够提高标签抽取的准确率,但模型的高计算成本使其无法在有限的资源下轻易实现,深层次的预训练语言模型很难在实际场景中得到应用;2、传统标签抽取方法往往只针对同一类型数据进行抽取,却忽略了不同类型的企业情境信息在标签抽取中的作用,无法有效发现企业情境特征,导致标签概括能力差。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供及一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置,使用企业情境嵌入可以有效提高标签抽取的准确率,同时拥有知识蒸馏的深度学习模型可以提高标签抽取效率,使其在实际场景中更好的应用。
技术方案:本发明提供了一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法,包括如下步骤:
步骤1:对企业情境信息D和企业文本D1进行去重、去空,清洗后得到企业数据集D2和D3,并将其进行关联得到含有企业情境的企业数据集D4;
步骤2:将企业情境信息向量化后与企业文本进行向量拼接,得到融合企业情境信息的向量E作为模型输入;
步骤3:构建主干网络与枝干网络,所述主干网络为拥有12层Transformer的Bert模型,所述枝干网络采用卷积神经网络内嵌到前11层Transformer主干网络中;
步骤4:构建双向长短期记忆网络并串联池化层;
步骤5:将所述向量E传入所述主干网络的每层Transformer依次计算不确定系数UCi,并指导知识蒸馏,发现其隐藏特征,同时依据应用需求自适应调节蒸馏速度SP,通过UCi与SP的大小控制主干网络与枝干网络的输出,再传入所述双向长短期记忆网络和池化层进一步发现其上下文特征和局部特征,完成标签抽取和知识蒸馏。
进一步地,所述步骤1的具体方法为:
步骤1.1:定义Text为单个企业情境待清洗数据,定义id和situation分别为企业序号、企业情境信息,并且满足关系Text={id,situation};
步骤1.2:定义Text1为单个企业信息待清洗数据,定义id、content和label分别为企业序号、企业信息和企业标签,并且满足关系Text1={id,content,label};
步骤1.3:定义D为企业情境待清洗数据集,D1为企业信息待清洗数据集,满足关系D={Text1,Text2,…,Texta,…,Textlen(D)},Texta为D中第a个待清洗企业情境数据,D1={Text11,Text12,…,Text1b,…,Text1len(D1)},Text1b为D1中第b个待清洗企业数据,其中len(D)为D中文本数量,变量a∈[1,len(D)],len(D1)为D1中文本数量,变量b∈[1,len(D1)];
步骤1.4:对企业情境数据集D去除空值,得到清洗后的企业情境数据集D2={Text21,Text22,…,Text2c,…,Text2len(D2)},Text2c为D2中第c个清洗后的数据,其中len(D2)为D2中文本数量,变量c∈[1,len(D2)];
步骤1.5:对企业数据集D1去重和去空,得到清洗后的企业数据集D3={Text31,Text32,…,Text3d,…,Text3len(D3)},Text3d为D3中第d个清洗后的数据,其中len(D3)为D3中文本数量,变量d∈[1,len(D3)];
步骤1.6:使用id将数据集D2和D3进行关联,得到含有企业情境的企业数据集D4,其中D4={id,situation,content,label}。
进一步地,所述步骤2的具体方法为:
步骤2.1:使用Bert模型将D4数据集中的content转化成字向量E1;
步骤2.2:将企业情境信息situation转化成字向量E2;
步骤2.3:使用Bert模型学习后得到刻画企业全局信息的文本向量E3;
步骤2.4:依据字在文本不同位置的语义差异,得到位置向量E4;
步骤2.5:将步骤2.1至步骤2.4所有向量进行拼接得到融合企业情境信息的向量表示E,其中E=E1+E2+E3+E4;
步骤2.6:将向量E作为整个模型输入。
进一步地,所述步骤5通过UCi与SP的大小控制主干网络与枝干网络的输出的具体方法为:
步骤3.1:使用主干网络计算不确定系数UC并指导知识蒸馏;
步骤3.2:向拥有12层Transformer的Bert模型中传入向量E;
步骤3.3:定义循环变量i和j,且i和j赋初值为1;
步骤3.4:定义蒸馏速度SP和不确定系数UC;
步骤3.5:将每条融合企业情境信息的向量E依次传入主干网络进行知识蒸馏和标签抽取;
步骤3.6:使用每层Transformer计算不确定系数UCi并输出向量TRi,其中i为第i层Transformer,i≤11;
步骤3.7:如果不确定系数UCi≤SP且i≤11,则进行枝干网络的蒸馏和标签抽取,否则进行下一步;
步骤3.8:i=i+1;
步骤3.9:当i=12;则结束循环进行主干网络预测;
步骤3.10:在最后一层Transformer获得单个文本的向量序列T={W1,W2,…,We,…,Wlen(T)},其中We为第e个结合文本信息的向量表示,len(T)为T向量长度,e∈[1,len(T)];
步骤3.11:j=j+1;
步骤3.12:结束循环,输出全部向量序列S={T1,T2,…,Tf,…,Tlen(D4)},其中f∈[1,len(D4)]。
进一步地,所述步骤3.7进行枝干网络的蒸馏和标签抽取的具体方法为:
步骤4.1:构建卷积神经网络内嵌到前11层Transformer形成枝干网络,使用枝干网络进行知识蒸馏和枝干网络标签抽取;
步骤4.2:将步骤3.6中的向量TRi传入枝干网络,i为第i层的枝干网络;
步骤4.3:在卷积神经网络的卷积层,向量TRi进行卷积操作后输入到池化层;
步骤4.4:池化层进行最大池化并输出向量X1;
步骤4.5:将池化层输出向量X1使用softmax函数进行标签预测,得到枝干网络预测概率向量YB={yb1,yb2,…,ybh,…,ybG},其中ybh表示该输入文本属于第h类标签的概率,G为类别总数,h∈[1,G];
步骤4.6:查找向量YB中的最大值ybmax,将最大值对应的标签类别Y1输出为该企业枝干网络预测标签。
进一步地,所述步骤5中利用所述双向长短期记忆网络和池化层进一步发现其上下文特征和局部特征的具体方法为:
步骤5.1:向所述双向长短期记忆网络中传入向量序列S;
步骤5.2:定义循环变量t,且t赋初值为1;
步骤5.3:定义M为最大时刻,如果t≤M则跳转至下一步,否则跳转至步骤5.8;
步骤5.4:使用双向长短期记忆网络计算当前时刻的正向输出htl,计算公式为htl=LSTM(xt,h(t-1)l),其中,xt表示当前时刻网络的输入,h(t-1)l为t-1时刻的正向网络输出,t为当前时刻;
步骤5.5:使用双向长短期记忆网络计算当前时刻的逆向输出htr,计算公式为htr=LSTM(xt,h(t-1)r),其中,xt表示当前时刻网络的输入,h(t-1)r为t-1时刻的逆向网络输出,t为当前时刻;
步骤5.6:将正向输出htl和逆向输出htr分别与权重矩阵相乘后进行向量拼接,得到t时刻的输出结果ht;
步骤5.7:t=t+1;
步骤5.8:结束循环,输出全部时刻向量V={h1,h2,…hm,…hM},其中M为最大时刻,hm为m时刻的网络输出,变量m∈[1,M];
步骤5.9:将向量V作为卷积神经网络池化层输入,池化方式采用最大池化;
步骤5.10:将池化层输出向量X使用softmax函数进行标签预测,得到主干网络预测概率向量YT={yt1,yt2,…,ytg,…,ytG},其中ytg表示该输入文本属于第g类标签的概率,G为类别总数,g∈[1,G];
步骤5.11:查找向量YT中的最大值ytmax,将最大值对应的标签类别Y输出为该企业的主干网络预测标签。
本发明还公开一种基于情境嵌入和知识蒸馏的企业画像标签抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述基于情境嵌入和知识蒸馏的企业画像标签抽取方法。
有益效果:
1、本发明首先将企业情境信息向量化后与企业文本进行向量拼接,得到融合企业情境信息的企业文本,构建复杂度较高的主干网络进行模型训练,并构建小规模TextCNN枝干网络内嵌到前11层Transformer的主干网络上,将融合后的企业文本传入拥有12层Transformer的Bert模型发现其隐藏特征,使用主干网络指导枝干网络进行知识蒸馏和标签抽取,再传入BiLSTM网络和最大池化层进一步发现其上下文特征和局部特征。本发明普遍适用于标签建模和标签抽取问题,使用企业情境嵌入可以有效提高标签抽取的准确率,同时拥有知识蒸馏的深度学习模型可以提高标签抽取效率,使其在实际场景中更好的应用。其能够精确刻画企业特点,弥补传统企业画像的不足;同时优化标签建模的速率,缩减从业者的工作时长,提高企业画像系统的运行效率。
2、本发明中的情境嵌入和知识蒸馏对企业画像标签抽取有着重要的作用和意义。因此,为更好应对实际场景下的标签抽取,企业情境嵌入和知识蒸馏为我们提供了新的思路,本发明使用情境嵌入和知识蒸馏在提高计算效率的同时,进一步提高了抽取准确率。
附图说明
图1为本发明总体流程图;
图2为本发明网络结构图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明公开了一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法,主要包括如下步骤:
步骤1:对企业情境信息D和企业文本D1进行去重、去空,清洗后得到企业数据集D2和D3,具体方法为:
步骤1.1:定义Text为单个企业情境待清洗数据,定义id和situation分别为企业序号、企业情境信息,并且满足关系Text={id,situation};
步骤1.2:定义Text1为单个企业信息待清洗数据,定义id、content和label分别为企业序号、企业信息和企业标签,并且满足关系Text1={id,content,label};
步骤1.3:定义D为企业情境待清洗数据集,D1为企业信息待清洗数据集,满足关系D={Text1,Text2,…,Texta,…,Textlen(D)},Texta为D中第a个待清洗企业情境数据,D1={Text11,Text12,…,Text1b,…,Text1len(D1)},Text1b为D1中第b个待清洗企业数据,其中len(D)为D中文本数量,变量a∈[1,len(D)],len(D1)为D1中文本数量,变量b∈[1,len(D1)];
步骤1.4:对企业情境数据集D去除空值,得到清洗后的企业情境数据集D2={Text21,Text22,…,Text2c,…,Text2len(D2)},Text2c为D2中第c个清洗后的数据,其中len(D2)为D2中文本数量,变量c∈[1,len(D2)];
步骤1.5:对企业数据集D1去重和去空,得到清洗后的企业数据集D3={Text31,Text32,…,Text3d,…,Text3len(D3)},Text3d为D3中第d个清洗后的数据,其中len(D3)为D3中文本数量,变量d∈[1,len(D3)];
步骤1.6:使用id将数据集D2和D3进行关联,得到含有企业情境的企业数据集D4,其中D4={id,situation,content,label}。
步骤2:将企业情境信息向量化后与企业文本进行向量拼接,得到融合企业情境信息的向量E作为模型输入,具体方法为:
步骤2.1:使用Bert模型将D4数据集中的content转化成字向量E1;
步骤2.2:将企业情境信息situation转化成字向量E2;
步骤2.3:使用Bert模型学习后得到刻画企业全局信息的文本向量E3;
步骤2.4:依据字在文本不同位置的语义差异,得到位置向量E4;
步骤2.5:将所有向量进行拼接得到融合企业情境信息的向量表示E,其中E=E1+E2+E3+E4;
步骤2.6:将向量E作为整个模型输入。
步骤3:构建主干网络与枝干网络,所述主干网络为拥有12层Transformer的Bert模型,所述枝干网络采用卷积神经网络内嵌到前11层Transformer主干网络中。
步骤4:构建双向长短期记忆网络并串联池化层。
步骤5:将向量E传入所述主干网络的每层Transformer依次计算不确定系数UCi,并指导知识蒸馏,发现其隐藏特征,同时依据应用需求自适应调节蒸馏速度SP,通过UCi与SP的大小控制主干网络与枝干网络的输出,再传入所述双向长短期记忆网络和池化层进一步发现其上下文特征和局部特征,完成标签抽取和知识蒸馏。
步骤5中将向量E传入拥有12层Transformer的Bert模型,每层Transformer依次计算不确定系数UCi,同时依据应用需求自适应调节蒸馏速度SP,通过UCi与SP的大小控制主干与枝干网络的输出,具体方法为:
步骤3.1:使用主干网络计算不确定系数UC并指导知识蒸馏;
步骤3.2:构建12层Transformer的Bert模型,传入向量序列E;
步骤3.3:定义循环变量i和j,且i和j赋初值为1;
步骤3.4:定义蒸馏速度SP和不确定系数UC;
步骤3.5:将每条融合企业情境信息的向量E依次传入主干网络进行知识蒸馏和标签抽取;
步骤3.6:使用每层Transformer计算不确定系数UCi并输出向量TRi,其中i为第i层Transformer,i≤11;
步骤3.7:如果不确定系数UCi≤SP且i≤11,则跳转至步骤3.7.1~步骤3.7.6进行枝干网络的蒸馏和标签抽取,否则进行下一步;
步骤3.7.1:构建卷积神经网络内嵌到前11层Transformer形成枝干网络,使用枝干网络进行知识蒸馏和枝干网络标签抽取;
步骤3.7.2:将步骤3.6中的向量TRi传入枝干网络,i为第i层的枝干网络;
步骤3.7.3:在卷积神经网络的卷积层,向量TRi进行卷积操作后输入到池化层;
步骤3.7.4:池化层进行最大池化并输出向量X1;
步骤3.7.5:将池化层输出向量X1使用softmax函数进行标签预测,得到枝干网络预测概率向量YB={yb1,yb2,…,ybh,…,ybG},其中ybh表示该输入文本属于第h类标签的概率,G为类别总数,h∈[1,G];
步骤3.7.6:查找向量YB中的最大值ybmax,将最大值对应的标签类别Y1输出为该企业枝干网络预测标签。
步骤3.8:i=i+1;
步骤3.9:当i=12;则结束循环进行主干网络预测;
步骤3.10:在最后一层Transformer获得单个文本的向量序列T={W1,W2,…,We,…,Wlen(T)},其中We为第e个结合文本信息的向量表示,len(T)为T向量长度,e∈[1,len(T)];
步骤3.11:j=j+1;
步骤3.12:结束循环,输出全部向量序列S={T1,T2,…,Tf,…,Tlen(D4)},其中f∈[1,len(D4)]。
步骤5中利用双向长短期记忆网络和池化层进一步发现其上下文特征和局部特征的具体方法为:
步骤5.1:向所述双向长短期记忆网络中传入向量序列S;
步骤5.2:定义循环变量t,且t赋初值为1;
步骤5.3:定义M为最大时刻,如果t≤M则跳转至下一步,否则跳转至步骤5.8;
步骤5.4:使用双向长短期记忆网络计算当前时刻的正向输出htl,计算公式为htl=LSTM(xt,h(t-1)l),其中,xt表示当前时刻网络的输入,h(t-1)l为t-1时刻的正向网络输出,t为当前时刻;
步骤5.5:使用双向长短期记忆网络计算当前时刻的逆向输出htr,计算公式为htr=LSTM(xt,h(t-1)r),其中,xt表示当前时刻网络的输入,h(t-1)r为t-1时刻的逆向网络输出,t为当前时刻;
步骤5.6:将正向输出htl和逆向输出htr分别与权重矩阵相乘后进行向量拼接,得到t时刻的输出结果ht;
步骤5.7:t=t+1;
步骤5.8:结束循环,输出全部时刻向量V={h1,h2,…hm,…hM},其中M为最大时刻,hm为m时刻的网络输出,变量m∈[1,M];
步骤5.9:将向量V作为卷积神经网络池化层输入,池化方式采用最大池化;
步骤5.10:将池化层输出向量X使用softmax函数进行标签预测,得到主干网络预测概率向量YT={yt1,yt2,…,ytg,…,ytG},其中ytg表示该输入文本属于第g类标签的概率,G为类别总数,g∈[1,G];
步骤5.11:查找向量YT中的最大值ytmax,将最大值对应的标签类别Y输出为该企业的主干网络预测标签。
本发明还提供了一种基于情境嵌入和知识蒸馏的企业画像标签抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序;计算机程序被加载至处理器时实现上述的基于情境嵌入和知识蒸馏的企业画像标签抽取方法。
为了更好的说明本方法的可行性与有效性,通过对115810条企业文本数据进行实验,结果表明使用情景嵌入和知识蒸馏的标签抽取模型在准确率上高于传统BERT模型达到94.35%,且通过每秒所执行的浮点运算次数比较标签抽取效率,结果表明本方法将BERT模型的抽取效率提高了4.21倍。
上述实施方式只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。
Claims (2)
1.一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法,其特征在于,包括如下步骤:
步骤1:对企业情境信息D和企业文本D1进行去重、去空,清洗后得到企业数据集D2和D3,并将其进行关联得到含有企业情境的企业数据集D4;
步骤1.1:定义Text为单个企业情境待清洗数据,定义id和situation分别为企业序号、企业情境信息,并且满足关系Text={id,situation};
步骤1.2:定义Text1为单个企业信息待清洗数据,定义id、content和label分别为企业序号、企业信息和企业标签,并且满足关系Text1={id,content,label};
步骤1.3:定义D为企业情境待清洗数据集,D1为企业信息待清洗数据集,满足关系D={Text1,Text2,…,Texta,…,Textlen(D)},Texta为D中第a个待清洗企业情境数据,D1={Text11,Text12,…,Text1b,…,Text1len(D1)},Text1b为D1中第b个待清洗企业数据,其中len(D)为D中文本数量,变量a∈[1,len(D)],len(D1)为D1中文本数量,变量b∈[1,len(D1)];
步骤1.4:对企业情境数据集D去除空值,得到清洗后的企业情境数据集D2={Text21,Text22,…,Text2c,…,Text2len(D2)},Text2c为D2中第c个清洗后的数据,其中len(D2)为D2中文本数量,变量c∈[1,len(D2)];
步骤1.5:对企业数据集D1去重和去空,得到清洗后的企业数据集D3={Text31,Text32,…,Text3d,…,Text3len(D3)},Text3d为D3中第d个清洗后的数据,其中len(D3)为D3中文本数量,变量d∈[1,len(D3)];
步骤1.6:使用id将数据集D2和D3进行关联,得到含有企业情境的企业数据集D4,其中D4={id,situation,content,label};
步骤2:将企业情境信息向量化后与企业文本进行向量拼接,得到融合企业情境信息的向量E作为模型输入;
步骤2.1:使用Bert模型将D4数据集中的content转化成字向量E1;
步骤2.2:将企业情境信息situation转化成字向量E2;
步骤2.3:使用Bert模型学习后得到刻画企业全局信息的文本向量E3;
步骤2.4:依据字在文本不同位置的语义差异,得到位置向量E4;
步骤2.5:将步骤2.1至步骤2.4所有向量进行拼接得到融合企业情境信息的向量表示E,其中E=E1+E2+E3+E4;
步骤2.6:将向量E作为整个模型输入;
步骤3:构建主干网络与TextCNN枝干网络,所述主干网络为拥有12层Transformer的Bert模型,所述枝干网络采用卷积神经网络内嵌到前11层Transformer主干网络中;
步骤3.1:使用主干网络计算不确定系数UC并指导知识蒸馏;
步骤3.2:向拥有12层Transformer的Bert模型中传入向量E;
步骤3.3:定义循环变量i和j,且i和j赋初值为1;
步骤3.4:定义蒸馏速度SP和不确定系数UC;
步骤3.5:将每条融合企业情境信息的向量E依次传入主干网络进行知识蒸馏和标签抽取;
步骤3.6:使用每层Transformer计算不确定系数UCi并输出向量TRi,其中i为第i层Transformer,i≤11;
步骤3.7:如果不确定系数UCi≤SP且i≤11,则进行枝干网络的蒸馏和标签抽取,否则进行下一步;
步骤3.8:i=i+1;
步骤3.9:当i=12;则结束循环进行主干网络预测;
步骤3.10:在最后一层Transformer获得单个文本的向量序列T={W1,W2,…,We,…,Wlen(T)},其中We为第e个结合文本信息的向量表示,len(T)为T向量长度,e∈[1,len(T)];
步骤3.11:j=j+1;
步骤3.12:结束循环,输出全部向量序列S={T1,T2,…,Tf,…,Tlen(D4)},其中f∈[1,len(D4)];
步骤4:构建双向长短期记忆网络并串联池化层;
步骤4.1:构建卷积神经网络内嵌到前11层Transformer形成枝干网络,使用枝干网络进行知识蒸馏和枝干网络标签抽取;
步骤4.2:将步骤3.6中的向量TRi传入枝干网络,i为第i层的枝干网络;
步骤4.3:在卷积神经网络的卷积层,向量TRi进行卷积操作后输入到池化层;
步骤4.4:池化层进行最大池化并输出向量X1;
步骤4.5:将池化层输出向量X1使用softmax函数进行标签预测,得到枝干网络预测概率向量YB={yb1,yb2,…,ybh,…,ybG},其中ybh表示该输入文本属于第h类标签的概率,G为类别总数,h∈[1,G];
步骤4.6:查找向量YB中的最大值ybmax,将最大值对应的标签类别Y1输出为该企业枝干网络预测标签;
步骤5:将所述向量E传入所述主干网络的每层Transformer依次计算不确定系数UCi,并指导知识蒸馏,发现其隐藏特征,同时依据应用需求自适应调节蒸馏速度SP,通过UCi与SP的大小控制主干网络与枝干网络的输出,再传入所述双向长短期记忆网络和池化层进一步发现其上下文特征和局部特征,完成标签抽取和知识蒸馏;
步骤5.1:向所述双向长短期记忆网络中传入向量序列S;
步骤5.2:定义循环变量t,且t赋初值为1;
步骤5.3:定义M为最大时刻,如果t≤M则跳转至下一步,否则跳转至步骤5.8;
步骤5.4:使用双向长短期记忆网络计算当前时刻的正向输出htl,计算公式为htl=LSTM(xt,h(t-1)l),其中,xt表示当前时刻网络的输入,h(t-1)l为t-1时刻的正向网络输出,t为当前时刻;
步骤5.5:使用双向长短期记忆网络计算当前时刻的逆向输出htr,计算公式为htr=LSTM(xt,h(t-1)r),其中,xt表示当前时刻网络的输入,h(t-1)r为t-1时刻的逆向网络输出,t为当前时刻;
步骤5.6:将正向输出htl和逆向输出htr分别与权重矩阵相乘后进行向量拼接,得到t时刻的输出结果ht;
步骤5.7:t=t+1;
步骤5.8:结束循环,输出全部时刻向量V={h1,h2,…hm,…hM},其中M为最大时刻,hm为m时刻的网络输出,变量m∈[1,M];
步骤5.9:将向量V作为卷积神经网络池化层输入,池化方式采用最大池化;
步骤5.10:将池化层输出向量X使用softmax函数进行标签预测,得到主干网络预测概率向量YT={yt1,yt2,…,ytg,…,ytG},其中ytg表示该输入文本属于第g类标签的概率,G为类别总数,g∈[1,G];
步骤5.11:查找向量YT中的最大值ytmax,将最大值对应的标签类别Y输出为该企业的主干网络预测标签。
2.一种基于情境嵌入和知识蒸馏的企业画像标签抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1所述的基于情境嵌入和知识蒸馏的企业画像标签抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110943434.5A CN113836903B (zh) | 2021-08-17 | 2021-08-17 | 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110943434.5A CN113836903B (zh) | 2021-08-17 | 2021-08-17 | 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113836903A CN113836903A (zh) | 2021-12-24 |
CN113836903B true CN113836903B (zh) | 2023-07-18 |
Family
ID=78960572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110943434.5A Active CN113836903B (zh) | 2021-08-17 | 2021-08-17 | 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836903B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114329472B (zh) * | 2021-12-31 | 2023-05-19 | 淮阴工学院 | 基于双重嵌入与模型剪枝的bios恶意程序检测方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348907A (zh) * | 2019-07-12 | 2019-10-18 | 深圳市腾讯计算机系统有限公司 | 一种广告人群的定向方法及装置 |
CN110852426A (zh) * | 2019-11-19 | 2020-02-28 | 成都晓多科技有限公司 | 基于知识蒸馏的预训练模型集成加速方法及装置 |
CN111382843A (zh) * | 2020-03-06 | 2020-07-07 | 浙江网商银行股份有限公司 | 企业上下游关系识别模型建立、关系挖掘的方法及装置 |
CN111444341A (zh) * | 2020-03-16 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 用户画像构建方法、装置、设备及可读存储介质 |
CN111611377A (zh) * | 2020-04-22 | 2020-09-01 | 淮阴工学院 | 基于知识蒸馏的多层神经网络语言模型训练方法与装置 |
CN112580332A (zh) * | 2020-11-19 | 2021-03-30 | 淮阴工学院 | 一种基于标签分层延深建模的企业画像方法 |
CN113051914A (zh) * | 2021-04-09 | 2021-06-29 | 淮阴工学院 | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 |
CN113095079A (zh) * | 2021-06-03 | 2021-07-09 | 苏州大学 | 基于bert的自适应分层输出的中文分词方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170024363A1 (en) * | 2015-06-21 | 2017-01-26 | Dan Tocchini | System and Method for Dynamic Predictive Analytics for Pattern Search and Publishing Engine |
-
2021
- 2021-08-17 CN CN202110943434.5A patent/CN113836903B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348907A (zh) * | 2019-07-12 | 2019-10-18 | 深圳市腾讯计算机系统有限公司 | 一种广告人群的定向方法及装置 |
CN110852426A (zh) * | 2019-11-19 | 2020-02-28 | 成都晓多科技有限公司 | 基于知识蒸馏的预训练模型集成加速方法及装置 |
CN111382843A (zh) * | 2020-03-06 | 2020-07-07 | 浙江网商银行股份有限公司 | 企业上下游关系识别模型建立、关系挖掘的方法及装置 |
CN111444341A (zh) * | 2020-03-16 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 用户画像构建方法、装置、设备及可读存储介质 |
CN111611377A (zh) * | 2020-04-22 | 2020-09-01 | 淮阴工学院 | 基于知识蒸馏的多层神经网络语言模型训练方法与装置 |
CN112580332A (zh) * | 2020-11-19 | 2021-03-30 | 淮阴工学院 | 一种基于标签分层延深建模的企业画像方法 |
CN113051914A (zh) * | 2021-04-09 | 2021-06-29 | 淮阴工学院 | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 |
CN113095079A (zh) * | 2021-06-03 | 2021-07-09 | 苏州大学 | 基于bert的自适应分层输出的中文分词方法 |
Non-Patent Citations (2)
Title |
---|
基于知识图谱的企业画像技术研究与实现;王庆丰;中国优秀硕士学位论文全文数据库信息科技辑;I140-244 * |
张秋颖 ; 傅洛伊 ; 王新兵 ; .基于BERT-BiLSTM-CRF的学者主页信息抽取.计算机应用研究.2020,第37卷47-49. * |
Also Published As
Publication number | Publication date |
---|---|
CN113836903A (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581395A (zh) | 一种基于深度学习的模型融合三元组表示学习系统及方法 | |
CN110033008B (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN108780464A (zh) | 用于处理输入查询的方法和系统 | |
CN111339415A (zh) | 一种基于多交互式注意力网络的点击率预测方法与装置 | |
CN106855853A (zh) | 基于深度神经网络的实体关系抽取系统 | |
CN109857846B (zh) | 用户问句与知识点的匹配方法和装置 | |
CN105677857B (zh) | 一种关键词与营销落地页的精准匹配方法和装置 | |
CN109063164A (zh) | 一种基于深度学习的智能问答方法 | |
CN111666427A (zh) | 一种实体关系联合抽取方法、装置、设备及介质 | |
CN110196928B (zh) | 完全并行化具有领域扩展性的端到端多轮对话系统及方法 | |
CN106708802A (zh) | 一种信息推荐的方法及系统 | |
CN114398976A (zh) | 基于bert与门控类注意力增强网络的机器阅读理解方法 | |
CN114298053A (zh) | 一种基于特征和注意力机制融合的事件联合抽取系统 | |
CN109062902A (zh) | 一种文本语义表达方法及装置 | |
CN111709244A (zh) | 一种用于矛盾纠纷事件因果关系识别的深度学习方法 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
Dai et al. | A survey on dialog management: Recent advances and challenges | |
CN107665356A (zh) | 一种图像标注方法 | |
CN113836903B (zh) | 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置 | |
Hou et al. | Inverse is better! fast and accurate prompt for few-shot slot tagging | |
CN110516240B (zh) | 一种基于Transformer的语义相似度计算模型DSSM技术 | |
CN113741886A (zh) | 一种基于图的语句级程序修复方法及系统 | |
CN110334340B (zh) | 基于规则融合的语义分析方法、装置以及可读存储介质 | |
CN117033609A (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN111382333A (zh) | 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |