CN113051914A - 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 - Google Patents

一种基于多特征动态画像的企业隐藏标签抽取方法及装置 Download PDF

Info

Publication number
CN113051914A
CN113051914A CN202110382663.4A CN202110382663A CN113051914A CN 113051914 A CN113051914 A CN 113051914A CN 202110382663 A CN202110382663 A CN 202110382663A CN 113051914 A CN113051914 A CN 113051914A
Authority
CN
China
Prior art keywords
enterprise
text
information
label
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110382663.4A
Other languages
English (en)
Inventor
李翔
丁行硕
谢乾
高尚兵
朱全银
王留洋
王媛媛
马甲林
费可可
吴杰
焦英杰
朱鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN202110382663.4A priority Critical patent/CN113051914A/zh
Publication of CN113051914A publication Critical patent/CN113051914A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多特征动态画像的企业隐藏标签抽取方法及装置,该方法首先对企业信息更新并使用K‑means对其聚类,将聚类后的企业文本信息打上标签形成若干个标签点簇;接着,将此文本信息作为多特征隐藏信息抽取的样本集,对其进行中文分词并引入企业词库进行特征拓展,传入Bert模型发现潜在特征;然后,利用双向长短期记忆网络和卷积神经网络进一步提取上下文特征和局部特征;最后,动态更新企业信息传入多特征文本分类模型获得文本的隐藏标签信息。本发明普遍适用于企业画像标签建模和隐藏标签抽取问题,充分考虑了企业文本的上下文信息,可以有效发现企业文本中的隐藏标签,实现动态画像的标签实时更新。

Description

一种基于多特征动态画像的企业隐藏标签抽取方法及装置
技术领域
本发明属于企业画像和自然语言处理技术领域,特别涉及一种基于多特征动态画像的企业隐藏标签抽取方法及装置。
背景技术
近年来,随着知识图谱与大数据的快速发展,画像技术受到学术界广泛的关注。目前比较流行的企业画像在税务管理、风险评估、市场监管、环境保护等方面有着广泛的应用,其网站不仅具备传统门户网站的信息服务功能,还能提供许多与标签相关的服务如热点分析和企业推荐等。作为一种新型的画像技术应用,企业画像中不仅包含大量企业、位置等多模实体,还拥有大量的异质关系和文本特征,比如企业位置关系、企业竞争合作关系以及企业研究者发表的论文专利关系。在企业画像中,标签体系建设是画像研究的重要部分,是通过企业基础的统计类标签,以及行为产生的规则类标签,最后是数据挖掘产生的挖掘类标签共同构建而成。通过画像技术对不同维度信息筛选整合,能够以不同的形式向企业、政府提供服务。
现有的企业画像隐藏标签抽取还存在以下问题:1、传统企业标签抽取方法无法有效发现文本的多特征信息,导致标签准确率下降;2、传统企业标签抽取方法无法对企业隐藏标签动态更新,当有新的企业信息传入时,企业画像的构建效率变低。针对这些问题,本发明提出了一种基于多特征动态画像的企业隐藏标签抽取方法。该方法首先对企业信息更新并使用K-means对其聚类,将聚类后的企业文本信息打上标签形成若干个标签点簇;接着,将此文本信息作为多特征隐藏信息抽取的样本集,对其进行中文分词并引入企业词库进行特征拓展,传入Bert模型发现潜在特征;然后,利用双向长短期记忆网络和卷积神经网络进一步提取上下文特征和局部特征;最后,动态更新企业信息传入此模型获得文本的隐藏标签信息。本发明普遍适用于隐藏标签抽取和动态画像问题,充分考虑了企业文本的多特征信息和企业信息的实时更新,可以有效的提高标签抽取的准确率。
本发明中的多特征企业隐藏标签抽取方法对企业画像有着重要的作用和意义。在面对画像隐藏标签问题的时候,研究者们通常会选择使用关键词抽取和文本聚类,但是这些方法都存在明显的不足,其无法发现文本的多特征信息,导致抽取后的标签概括能力差,且无法对隐藏的企业标签进行动态更新。因此,为更好的应对复杂文本的标签抽取,神经网络依据出色的自适应和实时学习特点成为常用方法,其能发现文本的多特征信息,聚类算法可以有效发现无监督抽取中的样本点簇,避免了大量数据的人工标注。
发明内容
发明目的:针对上述问题,本发明提供了一种基于多特征动态画像的企业隐藏标签抽取方法及装置,能够有效挖掘企业隐藏信息,弥补传统企业画像的不足,提高实际应用效率。
发明内容:本发明提供了一种基于多特征动态画像的企业隐藏标签抽取方法,具体包括以下步骤:
(1)更新企业信息得到企业数据集D,使用K-means对数据集D聚类,得到N个聚类点簇;
(2)将聚类后的企业数据集打上标签形成N个带标签的点簇,得到样本集D2,并对D2进行预处理,得到样本集D3;
(3)对D3进行中文分词并引入企业词库进行特征拓展,构建Bert模型,将样本集D3作为模型的输入,得到融合全文语义信息的特征向量T;
(4)将融合后的特征向量T传入双向长短期记忆网络和卷积神经网络进一步提取上下文特征和局部特征;
(5)动态更新企业信息形成数据集D4,将清洗后的数据集D5传入多特征文本分类模型获得文本的隐藏标签信息。
进一步地,所述步骤(1)包括以下步骤:
(11)定义Text为单个待聚类企业文本,定义id,content分别为企业文本序号、企业文本,并且满足关系Text={id,content};
(12)定义D为待聚类企业数据集,D={Text1,Text2,…,Texta,…,Textlen(D)},Texta为D中第a个待聚类企业文本,其中len(D)为D中文本数量,变量a∈[1,len(D)];
(13)使用K-means对数据集D进行聚类,得到N个聚类点簇;
(14)定义D1为聚类后的企业数据集,D1={d1,d2,…,dN},其中dN为第N个企业点簇数据集。
进一步地,所述步骤(2)包括以下步骤:
(21)将数据集D1中的N个企业点簇文本打上标签得到样本集D2,D2={Text11,Text12,…,Text1j,…Text1N},其中Text1j={label,dj},label为企业标签,变量j∈[1,N];
(22)对数据集D2中的文本进行去重和去空操作后,得到清洗后的企业样本集D3={Text21,Text22,…,Text2i,…Text2N},其中Text2i={label,di},label为企业标签,变量i∈[1,N]。
进一步地,所述步骤(3)包括以下步骤:
(301)通过网络收集和关键词提取构建企业词库K;
(302)对清洗后的样本集D3进行中文分词,通过引入词库K进行特征扩展;
(303)建立Bert模型,进行模型训练;
(304)处理样本集D3,将样本集中的文本长度统一固定为Lmax
(305)定义循环变量n,且n赋初值为1;
(306)如果n≤len(D3)则跳转到(307),否则跳转到(313);
(307)定义len(Text2n)为文本中第n个文本长度,如果len(Text2n)+2≤Lmax则补0后跳转下一步,否则截取文本前Lmax个单位,跳转下一步;
(308)n=n+1;
(309)将每个样本集传入BERT模型发现企业文本的向量特征;
(310)BERT模型能够发现每篇文本中的位置信息p、字嵌入信息t和段落信息s;
(311)对多特征向量进行拼接得到融合全文语义信息的向量V;
(312)将V作为BERT模型的输入,在最后一层神经元得到向量序列Tn={V(W1),V(W2),…,V(Wf),…,V(WLmax)};其中V(Wf)为第f个结合文本信息的向量表示,f∈[1,Lmax];
(313)结束循环,输出全部字向量序列S={T1,T2,T3,…,Tr,…,Tlen(D3)},其中r∈[1,len(D3)]。
进一步地,所述步骤(4)包括以下步骤:
(401)构建双向长短期记忆网络,传入字向量序列S;
(402)定义循环变量m,且m赋初值为1;
(403)定义M为最大时刻,如果m≤M则跳转至(404),否则跳转到(408);
(404)使用双向长短期记忆网络计算当前时刻的正向输出htl,计算公式为htl=LSTM(xt,h(t-1)l),其中xt表示当前时刻网络的输入,h(t-1)l为t-1时刻的正向网络输出,t为当前时刻;
(405)使用双向长短期记忆网络计算当前时刻的逆向输出htr,计算公式为htr=LSTM(xt,h(t-1)r),其中xt表示当前时刻网络的输入,h(t-1)r为t-1时刻的逆向网络输出,t为当前时刻;
(406)将正向输出htl和逆向输出htr整合,得到t时刻的输出结果ht
(407)m=m+1;
(408)结束循环,得到全部时刻的输出向量y={h1,h2,…hz,…hM},其中M为最大时刻,变量z∈[1,M];
(409)将特征向量y作为卷积神经网络的输入;
(410)特征向量y在网络池化层进行最大池化后,得到网络的输出向量y1
(411)将向量y1使用softmax函数进行文档分类预测,得到分类概率预测向量P={p1,p2,…,pg,…,ph},其中pg表示该文本第g类的概率,h为类别总数;
(412)查找向量P中的最大值,并将最大值对应的结果y2输出。
进一步地,所述步骤(5)包括以下步骤:
(51)将训练后的多特征文本分类模型保存封装;
(52)动态更新待抽取企业文本数据集D4;
(53)对数据集D4进行数据清洗,包含去重、去空,得到数据集D5;
(54)对数据集D5进行预处理,将预处理后的企业数据集D5传入隐藏标签抽取模型;
(55)模型最终输出分类标签y3,并为该企业打上y3标签,实现隐藏标签的动态更新。
基于相同的发明构思,本发明还提供一种基于多特征动态画像的企业隐藏标签抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序;所述计算机程序被加载至处理器时实现上述的基于多特征动态画像的企业隐藏标签抽取方法。
有益效果:与现有技术相比,本发明的有益效果:本发明基于已有的企业文本数据集,利用Bert和神经网络进行多特征隐藏标签抽取,能够有效挖掘企业隐藏信息,弥补传统企业画像的不足;同时本发明能够优化标签建模速率,缩减从业者工作时长,提高企业画像系统的运行效率。
附图说明
图1为本发明的流程图;
图2为聚类分析流程图;
图3为Bert模型特征抽取流程图;
图4为双向长短期记忆网络和卷积神经网络训练流程图;
图5为动态隐藏标签抽取流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
为了便于理解,本发明中涉及到的变量如表1所示:
表1变量说明表
Figure BDA0003013565420000051
Figure BDA0003013565420000061
本发明提出一种基于多特征动态画像的企业隐藏标签抽取方法,如图1所示,包括以下步骤:
步骤1:更新企业信息得到企业数据集D,使用K-means对数据集D聚类,得到N个聚类点簇。具体方法为:
步骤1.1:定义Text为单个待聚类企业文本,定义id,content分别为企业文本序号、企业文本,并且满足关系Text={id,content};
步骤1.2:定义D为待聚类企业数据集,D={Text1,Text2,…,Texta,…,Textlen(D)},Texta为D中第a个待聚类企业文本,其中len(D)为D中文本数量,变量a∈[1,len(D)];
步骤1.3:使用K-means对数据集D进行聚类,得到N个聚类点簇;
步骤1.4:定义D1为聚类后的企业数据集,D1={d1,d2,…,dN},其中dN为第N个企业点簇数据集。
步骤2:将聚类后的企业数据集打上标签形成N个带标签的点簇,形成样本集D2,对其进行去重、去空,将清洗后的文本信息D3作为多特征隐藏信息抽取的样本集。如图2所示,具体方法为:
步骤2.1:将数据集D1中的N个企业点簇文本打上标签得到样本集D2,D2={Text11,Text12,…,Text1j,…Text1N},其中Text1j={label,dj},label为企业标签,变量j∈[1,N];
步骤2.2:对数据集D2中的文本进行去重和去空操作后,得到清洗后的企业样本集D3={Text21,Text22,…,Text2i,…Text2N},其中Text2i={label,di},label为企业标签,变量i∈[1,N]。
步骤3:对D3进行中文分词并引入企业词库进行特征拓展,构建Bert模型,将样本集D3作为模型的输入,得到融合全文语义关系的特征向量T。如图3所示,具体方法为:
步骤3.1:通过网络收集和关键词提取构建企业词库K;
步骤3.2:对清洗后的样本集D3进行中文分词,通过引入词库K进行特征扩展;
步骤3.3:建立Bert模型,进行模型训练;
步骤3.4:处理样本集D3,将样本集中的文本长度统一固定为Lmax
步骤3.5:定义循环变量n,且n赋初值为1;
步骤3.6:如果i≤len(D3)则跳转到步骤3.7,否则跳转到步骤3.13;
步骤3.7:定义len(Text2n)为文本中第n个文本长度,如果len(Text2n)+2≤Lmax则补0后跳转下一步,否则截取文本前Lmax个单位,跳转下一步;
步骤3.8:n=n+1;
步骤3.9:将每个样本集传入BERT模型发现企业文本的向量特征;
步骤3.10:BERT模型能够发现每篇文本中的位置信息p、字嵌入信息t和段落信息s;
步骤3.11:对多特征向量进行拼接得到融合全文语义信息的向量V;
步骤3.12:将V作为BERT模型的输入,在最后一层神经元得到向量序列Tn={V(W1),V(W2),…,V(Wf),…,V(WLmax)};其中V(Wf)为第f个结合文本信息的向量表示,f∈[1,Lmax];
步骤3.13:结束循环,输出全部字向量序列S={T1,T2,T3,…,Tr,…,Tlen(D3)},其中r∈[1,len(D3)]。
步骤4:将融合后的特征向量T传入双向长短期记忆网络和卷积神经网络进一步提取上下文特征和局部特征。如图4所示,具体方法为:
步骤4.1:步骤4.1:构建双向长短期记忆网络,传入字向量序列S;
步骤4.2:定义循环变量m,且m赋初值为1;
步骤4.3:定义M为最大时刻,如果m≤M则跳转步骤4.4,否则跳转到步骤4.8;
步骤4.4:使用双向长短期记忆网络计算当前时刻的正向输出htl,计算公式为htl=LSTM(xt,h(t-1)l),其中xt表示当前时刻网络的输入,h(t-1)l为t-1时刻的正向网络输出,t为当前时刻;
步骤4.5:使用双向长短期记忆网络计算当前时刻的逆向输出htr,计算公式为htr=LSTM(xt,h(t-1)r),其中xt表示当前时刻网络的输入,h(t-1)r为t-1时刻的逆向网络输出,t为当前时刻;
步骤4.6:将正向输出htl和逆向输出htr整合,得到t时刻的输出结果ht
步骤4.7:m=m+1;
步骤4.8:得到全部时刻的输出结果y={h1,h2,…hz,…hM},其中M为最大时刻,变量z∈[1,M];
步骤4.9:将特征向量y作为卷积神经网络的输入;
步骤4.10:特征向量y在网络池化层进行最大池化后,得到网络的输出向量y1;
步骤4.11:将向量y1使用softmax函数进行文档分类预测,得到分类概率预测向量P={p1,p2,…,pg,…,ph},其中pg表示该文本第g类的概率,h为类别总数;
步骤4.12:查找向量P中的最大值,并将最大值对应的结果y2输出。
步骤5:动态更新企业信息D4,将清洗后的数据集D5传入多特征文本分类模型获得文本的隐藏标签信息。多特征文本分类模型为Bert和神经网络的多特征分类模型。如图5所示,具体方法为:
步骤5.1:将训练后的多特征文本分类模型保存封装;
步骤5.2:动态更新待抽取企业文本数据集D4;
步骤5.3:对数据集D4进行数据清洗,包含去重、去空,得到数据集D5;
步骤5.4:对数据集D5进行预处理,将预处理后的企业数据集D5传入隐藏标签抽取模型;
步骤5.5:模型最终输出分类标签y3,并为该企业打上y3标签,实现隐藏标签的动态更新。
本发明还一种基于多特征动态画像的企业隐藏标签抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述的基于多特征动态画像的企业隐藏标签抽取方法。
通过企业经营范围文本信息,使用多特征动态画像的企业隐藏标签抽取方法得到企业的偏好和兴趣标签。利用封装好的模型直接进行动态画像的标签抽取,从而得到企业偏好特征信息,并解决动态画像标签更新问题。

Claims (7)

1.一种基于多特征动态画像的企业隐藏标签抽取方法,其特征在于,包括以下步骤:
(1)更新企业信息得到企业数据集D,使用K-means对数据集D聚类,得到N个聚类点簇;
(2)将聚类后的企业数据集打上标签形成N个带标签的点簇,得到样本集D2,并对D2进行预处理,得到样本集D3;
(3)对D3进行中文分词并引入企业词库进行特征拓展,构建Bert模型,将样本集D3作为模型的输入,得到融合全文语义信息的特征向量T;
(4)将融合后的特征向量T传入双向长短期记忆网络和卷积神经网络进一步提取上下文特征和局部特征;
(5)动态更新企业信息形成数据集D4,将清洗后的数据集D5传入多特征文本分类模型获得文本的隐藏标签信息。
2.根据权利要求1所述的基于多特征动态画像的企业隐藏标签抽取方法,其特征在于,所述步骤(1)包括以下步骤:
(11)定义Text为单个待聚类企业文本,定义id,content分别为企业文本序号、企业文本,并且满足关系Text={id,content};
(12)定义D为待聚类企业数据集,D={Text1,Text2,…,Texta,…,Textlen(D)},Texta为D中第a个待聚类企业文本,其中len(D)为D中文本数量,变量a∈[1,len(D)];
(13)使用K-means对数据集D进行聚类,得到N个聚类点簇;
(14)定义D1为聚类后的企业数据集,D1={d1,d2,…,dN},其中dN为第N个企业点簇数据集。
3.根据权利要求1所述的基于多特征动态画像的企业隐藏标签抽取方法,其特征在于,所述步骤(2)包括以下步骤:
(21)将数据集D1中的N个企业点簇文本打上标签得到样本集D2,D2={Text11,Text12,…,Text1j,…Text1N},其中Text1j={label,dj},label为企业标签,变量j∈[1,N];
(22)对数据集D2中的文本进行去重和去空操作后,得到清洗后的企业样本集D3={Text21,Text22,…,Text2i,…Text2N},其中Text2i={label,di},label为企业标签,变量i∈[1,N]。
4.根据权利要求1所述的基于多特征动态画像的企业隐藏标签抽取方法,其特征在于,所述步骤(3)包括以下步骤:
(301)通过网络收集和关键词提取构建企业词库K;
(302)对清洗后的样本集D3进行中文分词,通过引入词库K进行特征扩展;
(303)建立Bert模型,进行模型训练;
(304)处理样本集D3,将样本集中的文本长度统一固定为Lmax
(305)定义循环变量n,且n赋初值为1;
(306)如果n≤len(D3)则跳转到(307),否则跳转到(313);
(307)定义len(Text2n)为文本中第n个文本长度,如果len(Text2n)+2≤Lmax则补0后跳转下一步,否则截取文本前Lmax个单位,跳转下一步;
(308)n=n+1;
(309)将每个样本集传入BERT模型发现企业文本的向量特征;
(310)BERT模型能够发现每篇文本中的位置信息p、字嵌入信息t和段落信息s;
(311)对多特征向量进行拼接得到融合全文语义信息的向量V;
(312)将V作为BERT模型的输入,在最后一层神经元得到向量序列Tn={V(W1),V(W2),…,V(Wf),…,V(WLmax)};其中V(Wf)为第f个结合文本信息的向量表示,f∈[1,Lmax];
(313)结束循环,输出全部字向量序列S={T1,T2,T3,…,Tr,…,Tlen(D3)},其中r∈[1,len(D3)]。
5.根据权利要求1所述的基于多特征动态画像的企业隐藏标签抽取方法,其特征在于,所述步骤(4)包括以下步骤:
(401)构建双向长短期记忆网络,传入字向量序列S;
(402)定义循环变量m,且m赋初值为1;
(403)定义M为最大时刻,如果m≤M则跳转至(404),否则跳转到(408);
(404)使用双向长短期记忆网络计算当前时刻的正向输出htl,计算公式为htl=LSTM(xt,h(t-1)l),其中xt表示当前时刻网络的输入,h(t-1)l为t-1时刻的正向网络输出,t为当前时刻;
(405)使用双向长短期记忆网络计算当前时刻的逆向输出htr,计算公式为htr=LSTM(xt,h(t-1)r),其中xt表示当前时刻网络的输入,h(t-1)r为t-1时刻的逆向网络输出,t为当前时刻;
(406)将正向输出htl和逆向输出htr整合,得到t时刻的输出结果ht
(407)m=m+1;
(408)结束循环,得到全部时刻的输出向量y={h1,h2,…hz,…hM},其中M为最大时刻,变量z∈[1,M];
(409)将特征向量y作为卷积神经网络的输入;
(410)特征向量y在网络池化层进行最大池化后,得到网络的输出向量y1
(411)将向量y1使用softmax函数进行文档分类预测,得到分类概率预测向量P={p1,p2,…,pg,…,ph},其中pg表示该文本第g类的概率,h为类别总数;
(412)查找向量P中的最大值,并将最大值对应的结果y2输出。
6.根据权利要求1所述的基于多特征动态画像的企业隐藏标签抽取方法,其特征在于,所述步骤(5)包括以下步骤:
(51)将训练后的多特征文本分类模型保存封装;
(52)动态更新待抽取企业文本数据集D4;
(53)对数据集D4进行数据清洗,包含去重、去空,得到数据集D5;
(54)对数据集D5进行预处理,将预处理后的企业数据集D5传入隐藏标签抽取模型;
(55)模型最终输出分类标签y3,并为该企业打上y3标签,实现隐藏标签的动态更新。
7.一种基于多特征动态画像的企业隐藏标签抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-6任一项所述的基于多特征动态画像的企业隐藏标签抽取方法。
CN202110382663.4A 2021-04-09 2021-04-09 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 Pending CN113051914A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110382663.4A CN113051914A (zh) 2021-04-09 2021-04-09 一种基于多特征动态画像的企业隐藏标签抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110382663.4A CN113051914A (zh) 2021-04-09 2021-04-09 一种基于多特征动态画像的企业隐藏标签抽取方法及装置

Publications (1)

Publication Number Publication Date
CN113051914A true CN113051914A (zh) 2021-06-29

Family

ID=76518926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110382663.4A Pending CN113051914A (zh) 2021-04-09 2021-04-09 一种基于多特征动态画像的企业隐藏标签抽取方法及装置

Country Status (1)

Country Link
CN (1) CN113051914A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836903A (zh) * 2021-08-17 2021-12-24 淮阴工学院 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置
CN114218380A (zh) * 2021-12-03 2022-03-22 淮阴工学院 基于多模态的冷链配载用户画像标签抽取方法及装置
CN114386422A (zh) * 2022-01-14 2022-04-22 淮安市创新创业科技服务中心 基于企业污染舆情抽取的智能辅助决策方法及装置
CN114398485A (zh) * 2021-12-29 2022-04-26 淮阴工学院 基于多视角融合的专家画像构建方法及装置
CN115600945A (zh) * 2022-09-07 2023-01-13 淮阴工学院(Cn) 基于多粒度的冷链配载用户画像构建方法及装置
WO2023078264A1 (zh) * 2021-11-03 2023-05-11 中移(苏州)软件技术有限公司 一种名片信息抽取系统训练方法及装置、计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413785A (zh) * 2019-07-25 2019-11-05 淮阴工学院 一种基于bert和特征融合的文本自动分类方法
CN110609897A (zh) * 2019-08-12 2019-12-24 北京化工大学 一种融合全局和局部特征的多类别中文文本分类方法
CN110751188A (zh) * 2019-09-26 2020-02-04 华南师范大学 基于多标记学习的用户标签预测方法、系统及存储介质
CN111062750A (zh) * 2019-12-13 2020-04-24 中国平安财产保险股份有限公司 用户画像标签建模和分析方法、装置、设备及存储介质
CN111950932A (zh) * 2020-08-26 2020-11-17 北京信息科技大学 基于多源信息融合的中小微企业综合质量画像方法
CN112163426A (zh) * 2020-09-30 2021-01-01 中国矿业大学 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法
CN112287208A (zh) * 2019-09-30 2021-01-29 北京沃东天骏信息技术有限公司 用户画像生成方法、装置、电子设备及存储介质
CN112487190A (zh) * 2020-12-13 2021-03-12 天津大学 基于自监督和聚类技术从文本中抽取实体间关系的方法
CN112507039A (zh) * 2020-12-15 2021-03-16 苏州元启创人工智能科技有限公司 基于外部知识嵌入的文本理解方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413785A (zh) * 2019-07-25 2019-11-05 淮阴工学院 一种基于bert和特征融合的文本自动分类方法
CN110609897A (zh) * 2019-08-12 2019-12-24 北京化工大学 一种融合全局和局部特征的多类别中文文本分类方法
CN110751188A (zh) * 2019-09-26 2020-02-04 华南师范大学 基于多标记学习的用户标签预测方法、系统及存储介质
CN112287208A (zh) * 2019-09-30 2021-01-29 北京沃东天骏信息技术有限公司 用户画像生成方法、装置、电子设备及存储介质
CN111062750A (zh) * 2019-12-13 2020-04-24 中国平安财产保险股份有限公司 用户画像标签建模和分析方法、装置、设备及存储介质
CN111950932A (zh) * 2020-08-26 2020-11-17 北京信息科技大学 基于多源信息融合的中小微企业综合质量画像方法
CN112163426A (zh) * 2020-09-30 2021-01-01 中国矿业大学 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法
CN112487190A (zh) * 2020-12-13 2021-03-12 天津大学 基于自监督和聚类技术从文本中抽取实体间关系的方法
CN112507039A (zh) * 2020-12-15 2021-03-16 苏州元启创人工智能科技有限公司 基于外部知识嵌入的文本理解方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836903A (zh) * 2021-08-17 2021-12-24 淮阴工学院 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置
CN113836903B (zh) * 2021-08-17 2023-07-18 淮阴工学院 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置
WO2023078264A1 (zh) * 2021-11-03 2023-05-11 中移(苏州)软件技术有限公司 一种名片信息抽取系统训练方法及装置、计算机可读存储介质
CN114218380A (zh) * 2021-12-03 2022-03-22 淮阴工学院 基于多模态的冷链配载用户画像标签抽取方法及装置
CN114398485A (zh) * 2021-12-29 2022-04-26 淮阴工学院 基于多视角融合的专家画像构建方法及装置
CN114386422A (zh) * 2022-01-14 2022-04-22 淮安市创新创业科技服务中心 基于企业污染舆情抽取的智能辅助决策方法及装置
CN114386422B (zh) * 2022-01-14 2023-09-15 淮安市创新创业科技服务中心 基于企业污染舆情抽取的智能辅助决策方法及装置
CN115600945A (zh) * 2022-09-07 2023-01-13 淮阴工学院(Cn) 基于多粒度的冷链配载用户画像构建方法及装置
CN115600945B (zh) * 2022-09-07 2023-06-30 淮阴工学院 基于多粒度的冷链配载用户画像构建方法及装置

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN110297888B (zh) 一种基于前缀树与循环神经网络的领域分类方法
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN112101031B (zh) 一种实体识别方法、终端设备及存储介质
CN110633366A (zh) 一种短文本分类方法、装置和存储介质
CN111881292B (zh) 一种文本分类方法及装置
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN111666766A (zh) 数据处理方法、装置和设备
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN112347761A (zh) 基于bert的药物关系抽取方法
CN115374786A (zh) 实体和关系联合抽取方法及装置、存储介质和终端
CN114881043A (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN109446522B (zh) 一种试题自动分类系统及方法
CN111209362A (zh) 基于深度学习的地址数据解析方法
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN116661805A (zh) 代码表示的生成方法和装置、存储介质及电子设备
Bhatt et al. Pho (SC)-CTC—a hybrid approach towards zero-shot word image recognition
CN114118068B (zh) 训练文本数据的扩增方法、装置及电子设备
CN114842301A (zh) 一种图像注释模型的半监督训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210629

RJ01 Rejection of invention patent application after publication