CN113836903A - 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置 - Google Patents

一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置 Download PDF

Info

Publication number
CN113836903A
CN113836903A CN202110943434.5A CN202110943434A CN113836903A CN 113836903 A CN113836903 A CN 113836903A CN 202110943434 A CN202110943434 A CN 202110943434A CN 113836903 A CN113836903 A CN 113836903A
Authority
CN
China
Prior art keywords
enterprise
network
vector
label
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110943434.5A
Other languages
English (en)
Other versions
CN113836903B (zh
Inventor
李翔
丁行硕
谢乾
周海萍
高尚兵
朱全银
王媛媛
费可可
张豪杰
束玮
丁婧娴
张宁
沈天宇
徐卓淳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Jiangsu Zhuoyi Information Technology Co ltd
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Zhuoyi Information Technology Co ltd, Huaiyin Institute of Technology filed Critical Jiangsu Zhuoyi Information Technology Co ltd
Priority to CN202110943434.5A priority Critical patent/CN113836903B/zh
Publication of CN113836903A publication Critical patent/CN113836903A/zh
Application granted granted Critical
Publication of CN113836903B publication Critical patent/CN113836903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及企业画像和自然语言处理技术领域,公开了一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法装置,将企业情境信息向量化后与企业文本向量拼接,得到融合企业情境信息的企业文本;构建主干网络进行模型训练,构建小规模TextCNN枝干网络内嵌到前11层Transformer的主干网络上,将融合后的企业文本传入Bert模型发现其隐藏特征,再传入BiLSTM网络和最大池化层进一步发现其上下文特征和局部特征;使用主干网络指导枝干网络进行知识蒸馏和标签抽取。本发明使用企业情境嵌入可以有效提高标签抽取的准确率,同时拥有知识蒸馏的深度学习模型可以提高标签抽取效率,使其在实际场景中更好的应用。

Description

一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及 装置
技术领域
本发明涉及企业画像和自然语言处理技术领域,具体涉及一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置。
背景技术
近年来,随着知识图谱和大数据的快速发展,画像技术受到学术界和工业界的广泛关注。目前比较流行的企业画像在电子商务、风险评估、市场监管等方面有着广泛的应用。其中包含企业画像的网站不仅具备传统门户网站的信息服务功能,还能提供许多与标签相关的服务如热点分析和企业推荐等。企业画像作为画像技术的一种新型应用,不仅包含了企业的名称、位置和关键词等多模实体标签,还拥有众多的兴趣与偏好主题标签,比如企业的研发方向和经营范围等。这些标签混合在一起形成了非常复杂的结构特征,尤其以企业为中心的各类关系网络已成为传统企业画像扩展的重要特征。通过画像技术对不同维度的信息进行处理和整合,能够为企业和政府提供更便利的服务。
但现有的企业画像标签抽取还存在以下问题:1、深层次的预训练语言模型虽然能够提高标签抽取的准确率,但模型的高计算成本使其无法在有限的资源下轻易实现,深层次的预训练语言模型很难在实际场景中得到应用;2、传统标签抽取方法往往只针对同一类型数据进行抽取,却忽略了不同类型的企业情境信息在标签抽取中的作用,无法有效发现企业情境特征,导致标签概括能力差。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供及一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置,使用企业情境嵌入可以有效提高标签抽取的准确率,同时拥有知识蒸馏的深度学习模型可以提高标签抽取效率,使其在实际场景中更好的应用。
技术方案:本发明提供了一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法,包括如下步骤:
步骤1:对企业情境信息D和企业文本D1进行去重、去空,清洗后得到企业数据集D2和D3,并将其进行关联得到含有企业情境的企业数据集D4;
步骤2:将企业情境信息向量化后与企业文本进行向量拼接,得到融合企业情境信息的向量E作为模型输入;
步骤3:构建主干网络与枝干网络,所述主干网络为拥有12层Transformer的Bert模型,所述枝干网络采用卷积神经网络内嵌到前11层Transformer主干网络中;
步骤4:构建双向长短期记忆网络并串联池化层;
步骤5:将所述向量E传入所述主干网络的每层Transformer依次计算不确定系数UCi,并指导知识蒸馏,发现其隐藏特征,同时依据应用需求自适应调节蒸馏速度SP,通过UCi与SP的大小控制主干网络与枝干网络的输出,再传入所述双向长短期记忆网络和池化层进一步发现其上下文特征和局部特征,完成标签抽取和知识蒸馏。
进一步地,所述步骤1的具体方法为:
步骤1.1:定义Text为单个企业情境待清洗数据,定义id和situation分别为企业序号、企业情境信息,并且满足关系Text={id,situation};
步骤1.2:定义Text1为单个企业信息待清洗数据,定义id、content和label分别为企业序号、企业信息和企业标签,并且满足关系Text1={id,content,label};
步骤1.3:定义D为企业情境待清洗数据集,D1为企业信息待清洗数据集,满足关系D={Text1,Text2,…,Texta,…,Textlen(D)},Texta为D中第a个待清洗企业情境数据,D1={Text11,Text12,…,Text1b,…,Text1len(D1)},Text1b为D1中第b个待清洗企业数据,其中len(D)为D中文本数量,变量a∈[1,len(D)],len(D1)为D1中文本数量,变量b∈[1,len(D1)];
步骤1.4:对企业情境数据集D去除空值,得到清洗后的企业情境数据集D2={Text21,Text22,…,Text2c,…,Text2len(D2)},Text2c为D2中第c个清洗后的数据,其中len(D2)为D2中文本数量,变量c∈[1,len(D2)];
步骤1.5:对企业数据集D1去重和去空,得到清洗后的企业数据集D3={Text31,Text32,…,Text3d,…,Text3len(D3)},Text3d为D3中第d个清洗后的数据,其中len(D3)为D3中文本数量,变量d∈[1,len(D3)];
步骤1.6:使用id将数据集D2和D3进行关联,得到含有企业情境的企业数据集D4,其中D4={id,situation,content,label}。
进一步地,所述步骤2的具体方法为:
步骤2.1:使用Bert模型将D4数据集中的content转化成字向量E1;
步骤2.2:将企业情境信息situation转化成字向量E2;
步骤2.3:使用Bert模型学习后得到刻画企业全局信息的文本向量E3;
步骤2.4:依据字在文本不同位置的语义差异,得到位置向量E4;
步骤2.5:将步骤2.1至步骤2.4所有向量进行拼接得到融合企业情境信息的向量表示E,其中E=E1+E2+E3+E4;
步骤2.6:将向量E作为整个模型输入。
进一步地,所述步骤5通过UCi与SP的大小控制主干网络与枝干网络的输出的具体方法为:
步骤3.1:使用主干网络计算不确定系数UC并指导知识蒸馏;
步骤3.2:向拥有12层Transformer的Bert模型中传入向量E;
步骤3.3:定义循环变量i和j,且i和j赋初值为1;
步骤3.4:定义蒸馏速度SP和不确定系数UC;
步骤3.5:将每条融合企业情境信息的向量E依次传入主干网络进行知识蒸馏和标签抽取;
步骤3.6:使用每层Transformer计算不确定系数UCi并输出向量TRi,其中i为第i层Transformer,i≤11;
步骤3.7:如果不确定系数UCi≤SP且i≤11,则进行枝干网络的蒸馏和标签抽取,否则进行下一步;
步骤3.8:i=i+1;
步骤3.9:当i=12;则结束循环进行主干网络预测;
步骤3.10:在最后一层Transformer获得单个文本的向量序列T={W1,W2,…,We,…,Wlen(T)},其中We为第e个结合文本信息的向量表示,len(T)为T向量长度,e∈[1,len(T)];
步骤3.11:j=j+1;
步骤3.12:结束循环,输出全部向量序列S={T1,T2,…,Tf,…,Tlen(D4)},其中f∈[1,len(D4)]。
进一步地,所述步骤3.7进行枝干网络的蒸馏和标签抽取的具体方法为:
步骤4.1:构建卷积神经网络内嵌到前11层Transformer形成枝干网络,使用枝干网络进行知识蒸馏和枝干网络标签抽取;
步骤4.2:将步骤3.6中的向量TRi传入枝干网络,i为第i层的枝干网络;
步骤4.3:在卷积神经网络的卷积层,向量TRi进行卷积操作后输入到池化层;
步骤4.4:池化层进行最大池化并输出向量X1;
步骤4.5:将池化层输出向量X1使用softmax函数进行标签预测,得到枝干网络预测概率向量YB={yb1,yb2,…,ybh,…,ybG},其中ybh表示该输入文本属于第h类标签的概率,G为类别总数,h∈[1,G];
步骤4.6:查找向量YB中的最大值ybmax,将最大值对应的标签类别Y1输出为该企业枝干网络预测标签。
进一步地,所述步骤5中利用所述双向长短期记忆网络和池化层进一步发现其上下文特征和局部特征的具体方法为:
步骤5.1:向所述双向长短期记忆网络中传入向量序列S;
步骤5.2:定义循环变量t,且t赋初值为1;
步骤5.3:定义M为最大时刻,如果t≤M则跳转至下一步,否则跳转至步骤5.8;
步骤5.4:使用双向长短期记忆网络计算当前时刻的正向输出htl,计算公式为htl=LSTM(xt,h(t-1)l),其中,xt表示当前时刻网络的输入,h(t-1)l为t-1时刻的正向网络输出,t为当前时刻;
步骤5.5:使用双向长短期记忆网络计算当前时刻的逆向输出htr,计算公式为htr=LSTM(xt,h(t-1)r),其中,xt表示当前时刻网络的输入,h(t-1)r为t-1时刻的逆向网络输出,t为当前时刻;
步骤5.6:将正向输出htl和逆向输出htr分别与权重矩阵相乘后进行向量拼接,得到t时刻的输出结果ht
步骤5.7:t=t+1;
步骤5.8:结束循环,输出全部时刻向量V={h1,h2,…hm,…hM},其中M为最大时刻,hm为m时刻的网络输出,变量m∈[1,M];
步骤5.9:将向量V作为卷积神经网络池化层输入,池化方式采用最大池化;
步骤5.10:将池化层输出向量X使用softmax函数进行标签预测,得到主干网络预测概率向量YT={yt1,yt2,…,ytg,…,ytG},其中ytg表示该输入文本属于第g类标签的概率,G为类别总数,g∈[1,G];
步骤5.11:查找向量YT中的最大值ytmax,将最大值对应的标签类别Y输出为该企业的主干网络预测标签。
本发明还公开一种基于情境嵌入和知识蒸馏的企业画像标签抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述基于情境嵌入和知识蒸馏的企业画像标签抽取方法。
有益效果:
1、本发明首先将企业情境信息向量化后与企业文本进行向量拼接,得到融合企业情境信息的企业文本,构建复杂度较高的主干网络进行模型训练,并构建小规模TextCNN枝干网络内嵌到前11层Transformer的主干网络上,将融合后的企业文本传入拥有12层Transformer的Bert模型发现其隐藏特征,使用主干网络指导枝干网络进行知识蒸馏和标签抽取,再传入BiLSTM网络和最大池化层进一步发现其上下文特征和局部特征。本发明普遍适用于标签建模和标签抽取问题,使用企业情境嵌入可以有效提高标签抽取的准确率,同时拥有知识蒸馏的深度学习模型可以提高标签抽取效率,使其在实际场景中更好的应用。其能够精确刻画企业特点,弥补传统企业画像的不足;同时优化标签建模的速率,缩减从业者的工作时长,提高企业画像系统的运行效率。
2、本发明中的情境嵌入和知识蒸馏对企业画像标签抽取有着重要的作用和意义。因此,为更好应对实际场景下的标签抽取,企业情境嵌入和知识蒸馏为我们提供了新的思路,本发明使用情境嵌入和知识蒸馏在提高计算效率的同时,进一步提高了抽取准确率。
附图说明
图1为本发明总体流程图;
图2为本发明网络结构图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明公开了一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法,主要包括如下步骤:
步骤1:对企业情境信息D和企业文本D1进行去重、去空,清洗后得到企业数据集D2和D3,具体方法为:
步骤1.1:定义Text为单个企业情境待清洗数据,定义id和situation分别为企业序号、企业情境信息,并且满足关系Text={id,situation};
步骤1.2:定义Text1为单个企业信息待清洗数据,定义id、content和label分别为企业序号、企业信息和企业标签,并且满足关系Text1={id,content,label};
步骤1.3:定义D为企业情境待清洗数据集,D1为企业信息待清洗数据集,满足关系D={Text1,Text2,…,Texta,…,Textlen(D)},Texta为D中第a个待清洗企业情境数据,D1={Text11,Text12,…,Text1b,…,Text1len(D1)},Text1b为D1中第b个待清洗企业数据,其中len(D)为D中文本数量,变量a∈[1,len(D)],len(D1)为D1中文本数量,变量b∈[1,len(D1)];
步骤1.4:对企业情境数据集D去除空值,得到清洗后的企业情境数据集D2={Text21,Text22,…,Text2c,…,Text2len(D2)},Text2c为D2中第c个清洗后的数据,其中len(D2)为D2中文本数量,变量c∈[1,len(D2)];
步骤1.5:对企业数据集D1去重和去空,得到清洗后的企业数据集D3={Text31,Text32,…,Text3d,…,Text3len(D3)},Text3d为D3中第d个清洗后的数据,其中len(D3)为D3中文本数量,变量d∈[1,len(D3)];
步骤1.6:使用id将数据集D2和D3进行关联,得到含有企业情境的企业数据集D4,其中D4={id,situation,content,label}。
步骤2:将企业情境信息向量化后与企业文本进行向量拼接,得到融合企业情境信息的向量E作为模型输入,具体方法为:
步骤2.1:使用Bert模型将D4数据集中的content转化成字向量E1;
步骤2.2:将企业情境信息situation转化成字向量E2;
步骤2.3:使用Bert模型学习后得到刻画企业全局信息的文本向量E3;
步骤2.4:依据字在文本不同位置的语义差异,得到位置向量E4;
步骤2.5:将所有向量进行拼接得到融合企业情境信息的向量表示E,其中E=E1+E2+E3+E4;
步骤2.6:将向量E作为整个模型输入。
步骤3:构建主干网络与枝干网络,所述主干网络为拥有12层Transformer的Bert模型,所述枝干网络采用卷积神经网络内嵌到前11层Transformer主干网络中。
步骤4:构建双向长短期记忆网络并串联池化层。
步骤5:将向量E传入所述主干网络的每层Transformer依次计算不确定系数UCi,并指导知识蒸馏,发现其隐藏特征,同时依据应用需求自适应调节蒸馏速度SP,通过UCi与SP的大小控制主干网络与枝干网络的输出,再传入所述双向长短期记忆网络和池化层进一步发现其上下文特征和局部特征,完成标签抽取和知识蒸馏。
步骤5中将向量E传入拥有12层Transformer的Bert模型,每层Transformer依次计算不确定系数UCi,同时依据应用需求自适应调节蒸馏速度SP,通过UCi与SP的大小控制主干与枝干网络的输出,具体方法为:
步骤3.1:使用主干网络计算不确定系数UC并指导知识蒸馏;
步骤3.2:构建12层Transformer的Bert模型,传入向量序列E;
步骤3.3:定义循环变量i和j,且i和j赋初值为1;
步骤3.4:定义蒸馏速度SP和不确定系数UC;
步骤3.5:将每条融合企业情境信息的向量E依次传入主干网络进行知识蒸馏和标签抽取;
步骤3.6:使用每层Transformer计算不确定系数UCi并输出向量TRi,其中i为第i层Transformer,i≤11;
步骤3.7:如果不确定系数UCi≤SP且i≤11,则跳转至步骤3.7.1~步骤3.7.6进行枝干网络的蒸馏和标签抽取,否则进行下一步;
步骤3.7.1:构建卷积神经网络内嵌到前11层Transformer形成枝干网络,使用枝干网络进行知识蒸馏和枝干网络标签抽取;
步骤3.7.2:将步骤3.6中的向量TRi传入枝干网络,i为第i层的枝干网络;
步骤3.7.3:在卷积神经网络的卷积层,向量TRi进行卷积操作后输入到池化层;
步骤3.7.4:池化层进行最大池化并输出向量X1;
步骤3.7.5:将池化层输出向量X1使用softmax函数进行标签预测,得到枝干网络预测概率向量YB={yb1,yb2,…,ybh,…,ybG},其中ybh表示该输入文本属于第h类标签的概率,G为类别总数,h∈[1,G];
步骤3.7.6:查找向量YB中的最大值ybmax,将最大值对应的标签类别Y1输出为该企业枝干网络预测标签。
步骤3.8:i=i+1;
步骤3.9:当i=12;则结束循环进行主干网络预测;
步骤3.10:在最后一层Transformer获得单个文本的向量序列T={W1,W2,…,We,…,Wlen(T)},其中We为第e个结合文本信息的向量表示,len(T)为T向量长度,e∈[1,len(T)];
步骤3.11:j=j+1;
步骤3.12:结束循环,输出全部向量序列S={T1,T2,…,Tf,…,Tlen(D4)},其中f∈[1,len(D4)]。
步骤5中利用双向长短期记忆网络和池化层进一步发现其上下文特征和局部特征的具体方法为:
步骤5.1:向所述双向长短期记忆网络中传入向量序列S;
步骤5.2:定义循环变量t,且t赋初值为1;
步骤5.3:定义M为最大时刻,如果t≤M则跳转至下一步,否则跳转至步骤5.8;
步骤5.4:使用双向长短期记忆网络计算当前时刻的正向输出htl,计算公式为htl=LSTM(xt,h(t-1)l),其中,xt表示当前时刻网络的输入,h(t-1)l为t-1时刻的正向网络输出,t为当前时刻;
步骤5.5:使用双向长短期记忆网络计算当前时刻的逆向输出htr,计算公式为htr=LSTM(xt,h(t-1)r),其中,xt表示当前时刻网络的输入,h(t-1)r为t-1时刻的逆向网络输出,t为当前时刻;
步骤5.6:将正向输出htl和逆向输出htr分别与权重矩阵相乘后进行向量拼接,得到t时刻的输出结果ht
步骤5.7:t=t+1;
步骤5.8:结束循环,输出全部时刻向量V={h1,h2,…hm,…hM},其中M为最大时刻,hm为m时刻的网络输出,变量m∈[1,M];
步骤5.9:将向量V作为卷积神经网络池化层输入,池化方式采用最大池化;
步骤5.10:将池化层输出向量X使用softmax函数进行标签预测,得到主干网络预测概率向量YT={yt1,yt2,…,ytg,…,ytG},其中ytg表示该输入文本属于第g类标签的概率,G为类别总数,g∈[1,G];
步骤5.11:查找向量YT中的最大值ytmax,将最大值对应的标签类别Y输出为该企业的主干网络预测标签。
本发明还提供了一种基于情境嵌入和知识蒸馏的企业画像标签抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序;计算机程序被加载至处理器时实现上述的基于情境嵌入和知识蒸馏的企业画像标签抽取方法。
为了更好的说明本方法的可行性与有效性,通过对115810条企业文本数据进行实验,结果表明使用情景嵌入和知识蒸馏的标签抽取模型在准确率上高于传统BERT模型达到94.35%,且通过每秒所执行的浮点运算次数比较标签抽取效率,结果表明本方法将BERT模型的抽取效率提高了4.21倍。
上述实施方式只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法,其特征在于,包括如下步骤:
步骤1:对企业情境信息D和企业文本D1进行去重、去空,清洗后得到企业数据集D2和D3,并将其进行关联得到含有企业情境的企业数据集D4;
步骤2:将企业情境信息向量化后与企业文本进行向量拼接,得到融合企业情境信息的向量E作为模型输入;
步骤3:构建主干网络与TextCNN枝干网络,所述主干网络为拥有12层Transformer的Bert模型,所述枝干网络采用卷积神经网络内嵌到前11层Transformer主干网络中;
步骤4:构建双向长短期记忆网络并串联池化层;
步骤5:将所述向量E传入所述主干网络的每层Transformer依次计算不确定系数UCi,并指导知识蒸馏,发现其隐藏特征,同时依据应用需求自适应调节蒸馏速度SP,通过UCi与SP的大小控制主干网络与枝干网络的输出,再传入所述双向长短期记忆网络和池化层进一步发现其上下文特征和局部特征,完成标签抽取和知识蒸馏。
2.根据权利要求1所述的基于情境嵌入和知识蒸馏的企业画像标签抽取方法,其特征在于,所述步骤1的具体方法为:
步骤1.1:定义Text为单个企业情境待清洗数据,定义id和situation分别为企业序号、企业情境信息,并且满足关系Text={id,situation};
步骤1.2:定义Text1为单个企业信息待清洗数据,定义id、content和label分别为企业序号、企业信息和企业标签,并且满足关系Text1={id,content,label};
步骤1.3:定义D为企业情境待清洗数据集,D1为企业信息待清洗数据集,满足关系D={Text1,Text2,…,Texta,…,Textlen(D)},Texta为D中第a个待清洗企业情境数据,D1={Text11,Text12,…,Text1b,…,Text1len(D1)},Text1b为D1中第b个待清洗企业数据,其中len(D)为D中文本数量,变量a∈[1,len(D)],len(D1)为D1中文本数量,变量b∈[1,len(D1)];
步骤1.4:对企业情境数据集D去除空值,得到清洗后的企业情境数据集D2={Text21,Text22,…,Text2c,…,Text2len(D2)},Text2c为D2中第c个清洗后的数据,其中len(D2)为D2中文本数量,变量c∈[1,len(D2)];
步骤1.5:对企业数据集D1去重和去空,得到清洗后的企业数据集D3={Text31,Text32,…,Text3d,…,Text3len(D3)},Text3d为D3中第d个清洗后的数据,其中len(D3)为D3中文本数量,变量d∈[1,len(D3)];
步骤1.6:使用id将数据集D2和D3进行关联,得到含有企业情境的企业数据集D4,其中D4={id,situation,content,label}。
3.根据权利要求1所述的基于情境嵌入和知识蒸馏的企业画像标签抽取方法,其特征在于,所述步骤2的具体方法为:
步骤2.1:使用Bert模型将D4数据集中的content转化成字向量E1;
步骤2.2:将企业情境信息situation转化成字向量E2;
步骤2.3:使用Bert模型学习后得到刻画企业全局信息的文本向量E3;
步骤2.4:依据字在文本不同位置的语义差异,得到位置向量E4;
步骤2.5:将步骤2.1至步骤2.4所有向量进行拼接得到融合企业情境信息的向量表示E,其中E=E1+E2+E3+E4;
步骤2.6:将向量E作为整个模型输入。
4.根据权利要求1所述的基于情境嵌入和知识蒸馏的企业画像标签抽取方法,其特征在于,所述步骤5通过UCi与SP的大小控制主干网络与枝干网络的输出的具体方法为:
步骤3.1:使用主干网络计算不确定系数UC并指导知识蒸馏;
步骤3.2:向拥有12层Transformer的Bert模型中传入向量E;
步骤3.3:定义循环变量i和j,且i和j赋初值为1;
步骤3.4:定义蒸馏速度SP和不确定系数UC;
步骤3.5:将每条融合企业情境信息的向量E依次传入主干网络进行知识蒸馏和标签抽取;
步骤3.6:使用每层Transformer计算不确定系数UCi并输出向量TRi,其中i为第i层Transformer,i≤11;
步骤3.7:如果不确定系数UCi≤SP且i≤11,则进行枝干网络的蒸馏和标签抽取,否则进行下一步;
步骤3.8:i=i+1;
步骤3.9:当i=12;则结束循环进行主干网络预测;
步骤3.10:在最后一层Transformer获得单个文本的向量序列T={W1,W2,…,We,…,Wlen(T)},其中We为第e个结合文本信息的向量表示,len(T)为T向量长度,e∈[1,len(T)];
步骤3.11:j=j+1;
步骤3.12:结束循环,输出全部向量序列S={T1,T2,…,Tf,…,Tlen(D4)},其中f∈[1,len(D4)]。
5.根据权利要求4所述的基于情境嵌入和知识蒸馏的企业画像标签抽取方法,其特征在于,所述步骤3.7进行枝干网络的蒸馏和标签抽取的具体方法为:
步骤4.1:构建卷积神经网络内嵌到前11层Transformer形成枝干网络,使用枝干网络进行知识蒸馏和枝干网络标签抽取;
步骤4.2:将步骤3.6中的向量TRi传入枝干网络,i为第i层的枝干网络;
步骤4.3:在卷积神经网络的卷积层,向量TRi进行卷积操作后输入到池化层;
步骤4.4:池化层进行最大池化并输出向量X1;
步骤4.5:将池化层输出向量X1使用softmax函数进行标签预测,得到枝干网络预测概率向量YB={yb1,yb2,…,ybh,…,ybG},其中ybh表示该输入文本属于第h类标签的概率,G为类别总数,h∈[1,G];
步骤4.6:查找向量YB中的最大值ybmax,将最大值对应的标签类别Y1输出为该企业枝干网络预测标签。
6.根据权利要求1所述的基于情境嵌入和知识蒸馏的企业画像标签抽取方法,其特征在于,所述步骤5中利用所述双向长短期记忆网络和池化层进一步发现其上下文特征和局部特征的具体方法为:
步骤5.1:向所述双向长短期记忆网络中传入向量序列S;
步骤5.2:定义循环变量t,且t赋初值为1;
步骤5.3:定义M为最大时刻,如果t≤M则跳转至下一步,否则跳转至步骤5.8;
步骤5.4:使用双向长短期记忆网络计算当前时刻的正向输出htl,计算公式为htl=LSTM(xt,h(t-1)l),其中,xt表示当前时刻网络的输入,h(t-1)l为t-1时刻的正向网络输出,t为当前时刻;
步骤5.5:使用双向长短期记忆网络计算当前时刻的逆向输出htr,计算公式为htr=LSTM(xt,h(t-1)r),其中,xt表示当前时刻网络的输入,h(t-1)r为t-1时刻的逆向网络输出,t为当前时刻;
步骤5.6:将正向输出htl和逆向输出htr分别与权重矩阵相乘后进行向量拼接,得到t时刻的输出结果ht
步骤5.7:t=t+1;
步骤5.8:结束循环,输出全部时刻向量V={h1,h2,…hm,…hM},其中M为最大时刻,hm为m时刻的网络输出,变量m∈[1,M];
步骤5.9:将向量V作为卷积神经网络池化层输入,池化方式采用最大池化;
步骤5.10:将池化层输出向量X使用softmax函数进行标签预测,得到主干网络预测概率向量YT={yt1,yt2,…,ytg,…,ytG},其中ytg表示该输入文本属于第g类标签的概率,G为类别总数,g∈[1,G];
步骤5.11:查找向量YT中的最大值ytmax,将最大值对应的标签类别Y输出为该企业的主干网络预测标签。
7.一种基于情境嵌入和知识蒸馏的企业画像标签抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-6任一项所述的基于情境嵌入和知识蒸馏的企业画像标签抽取方法。
CN202110943434.5A 2021-08-17 2021-08-17 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置 Active CN113836903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110943434.5A CN113836903B (zh) 2021-08-17 2021-08-17 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110943434.5A CN113836903B (zh) 2021-08-17 2021-08-17 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置

Publications (2)

Publication Number Publication Date
CN113836903A true CN113836903A (zh) 2021-12-24
CN113836903B CN113836903B (zh) 2023-07-18

Family

ID=78960572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110943434.5A Active CN113836903B (zh) 2021-08-17 2021-08-17 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置

Country Status (1)

Country Link
CN (1) CN113836903B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114329472A (zh) * 2021-12-31 2022-04-12 淮阴工学院 基于双重嵌入与模型剪枝的bios恶意程序检测方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170024363A1 (en) * 2015-06-21 2017-01-26 Dan Tocchini System and Method for Dynamic Predictive Analytics for Pattern Search and Publishing Engine
CN110348907A (zh) * 2019-07-12 2019-10-18 深圳市腾讯计算机系统有限公司 一种广告人群的定向方法及装置
CN110852426A (zh) * 2019-11-19 2020-02-28 成都晓多科技有限公司 基于知识蒸馏的预训练模型集成加速方法及装置
CN111382843A (zh) * 2020-03-06 2020-07-07 浙江网商银行股份有限公司 企业上下游关系识别模型建立、关系挖掘的方法及装置
CN111444341A (zh) * 2020-03-16 2020-07-24 中国平安人寿保险股份有限公司 用户画像构建方法、装置、设备及可读存储介质
CN111611377A (zh) * 2020-04-22 2020-09-01 淮阴工学院 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN112580332A (zh) * 2020-11-19 2021-03-30 淮阴工学院 一种基于标签分层延深建模的企业画像方法
CN113051914A (zh) * 2021-04-09 2021-06-29 淮阴工学院 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113095079A (zh) * 2021-06-03 2021-07-09 苏州大学 基于bert的自适应分层输出的中文分词方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170024363A1 (en) * 2015-06-21 2017-01-26 Dan Tocchini System and Method for Dynamic Predictive Analytics for Pattern Search and Publishing Engine
CN110348907A (zh) * 2019-07-12 2019-10-18 深圳市腾讯计算机系统有限公司 一种广告人群的定向方法及装置
CN110852426A (zh) * 2019-11-19 2020-02-28 成都晓多科技有限公司 基于知识蒸馏的预训练模型集成加速方法及装置
CN111382843A (zh) * 2020-03-06 2020-07-07 浙江网商银行股份有限公司 企业上下游关系识别模型建立、关系挖掘的方法及装置
CN111444341A (zh) * 2020-03-16 2020-07-24 中国平安人寿保险股份有限公司 用户画像构建方法、装置、设备及可读存储介质
CN111611377A (zh) * 2020-04-22 2020-09-01 淮阴工学院 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN112580332A (zh) * 2020-11-19 2021-03-30 淮阴工学院 一种基于标签分层延深建模的企业画像方法
CN113051914A (zh) * 2021-04-09 2021-06-29 淮阴工学院 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113095079A (zh) * 2021-06-03 2021-07-09 苏州大学 基于bert的自适应分层输出的中文分词方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张秋颖;傅洛伊;王新兵;: "基于BERT-BiLSTM-CRF的学者主页信息抽取", 计算机应用研究, no. 1, pages 47 - 49 *
王庆丰: "基于知识图谱的企业画像技术研究与实现", 中国优秀硕士学位论文全文数据库信息科技辑, pages 140 - 244 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114329472A (zh) * 2021-12-31 2022-04-12 淮阴工学院 基于双重嵌入与模型剪枝的bios恶意程序检测方法及装置

Also Published As

Publication number Publication date
CN113836903B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN110489523B (zh) 一种基于网购评价的细粒度情感分析方法
CN111666427A (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN112380863A (zh) 一种基于多头自注意力机制的序列标注方法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN114510939A (zh) 实体关系抽取方法、装置、电子设备及存储介质
CN106611015A (zh) 标签的处理方法及装置
CN113064995A (zh) 一种基于图深度学习的文本多标签分类方法和系统
CN114298053A (zh) 一种基于特征和注意力机制融合的事件联合抽取系统
CN114186084A (zh) 在线多模态哈希检索方法、系统、存储介质及设备
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN114998777A (zh) 一种针对跨模态视频检索模型的训练方法及装置
CN116245097A (zh) 训练实体识别模型的方法、实体识别方法及对应装置
CN113919358A (zh) 一种基于主动学习的命名实体识别方法和系统
CN117891939A (zh) 粒子群算法结合cnn卷积神经网络的文本分类方法
CN115309865A (zh) 基于双塔模型的交互式检索方法、装置、设备及存储介质
CN111444335B (zh) 中心词的提取方法及装置
CN114840642A (zh) 事件抽取方法、装置、设备及存储介质
CN114676705B (zh) 一种对话关系处理方法、计算机及可读存储介质
CN113095883B (zh) 基于深度交叉注意力网络的视频付费用户预测方法及系统
CN113836903A (zh) 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN112417260B (zh) 本地化推荐方法、装置及存储介质
CN113535946A (zh) 基于深度学习的文本鉴别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240917

Address after: 223005 Jiangsu Huaian economic and Technological Development Zone, 1 East Road.

Patentee after: HUAIYIN INSTITUTE OF TECHNOLOGY

Country or region after: China

Address before: 223005 Jiangsu Huaian economic and Technological Development Zone, 1 East Road.

Patentee before: HUAIYIN INSTITUTE OF TECHNOLOGY

Country or region before: China

Patentee before: JIANGSU ZHUOYI INFORMATION TECHNOLOGY Co.,Ltd.