CN114398485A - 基于多视角融合的专家画像构建方法及装置 - Google Patents

基于多视角融合的专家画像构建方法及装置 Download PDF

Info

Publication number
CN114398485A
CN114398485A CN202111648377.4A CN202111648377A CN114398485A CN 114398485 A CN114398485 A CN 114398485A CN 202111648377 A CN202111648377 A CN 202111648377A CN 114398485 A CN114398485 A CN 114398485A
Authority
CN
China
Prior art keywords
expert
data
len
portrait
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111648377.4A
Other languages
English (en)
Other versions
CN114398485B (zh
Inventor
李翔
张宁
谢乾
朱全银
高尚兵
丁行硕
束玮
张豪杰
丁婧娴
张曼
费晶茹
洪玉昆
杨秋实
徐伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huai'an Xinye Power Construction Co ltd
Jiangsu Kewen Enterprise Management Co ltd
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN202111648377.4A priority Critical patent/CN114398485B/zh
Publication of CN114398485A publication Critical patent/CN114398485A/zh
Application granted granted Critical
Publication of CN114398485B publication Critical patent/CN114398485B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24317Piecewise classification, i.e. whereby each classification requires several discriminant rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于多视角融合的专家画像构建方法及装置。首先使用K‑means对专家数据集D1进行聚类及预处理后得到样本集D2,再将D2划分为多个样本子集,每个样本子集代表一种信息,分别选择BERT、BiGRU及CNN三种基分类器对样本集D2进行分类,得到不同的分类结果;接着,根据三种基分类器中的分类结果对基分类器赋权值,根据权值对分类器的分类结果使用加权投票法进行集成,计算出所有类别的总票数,根据实际需求选取分类结果;最后,获得模型最终的集成结果,使用词云图将分类结果可视化,进而构建专家画像。本发明提供了基于多视角融合的专家画像构建方法及装置,能够有效地融合不同分类的结果,解决专家画像建模中标签化建模不全面的问题。

Description

基于多视角融合的专家画像构建方法及装置
技术领域
本发明属于专家画像和自然语言处理技术领域,特别涉及基于多视角融合的专家画像构建方法及装置。
背景技术
以用户为中心的设计是一种现代人机交互设计理念,其中,用户的需求、欲望和局限性等被探究和分析。作为用户研究的重要组成部分,用户画像是实现以用户为中心的交互设计的重要工具。用户画像已成为世界各国用户研究的热点,正日益引起业界、学术界的广泛关注,主要体现在让信息形成关联、目标用户明确和重难点开始清晰等方面。针对目前科研体系中专家信息存在的分割、固化等问题,可以构建组织灵活、兴趣相似的专家群体,并使用画像对其进行多角度描述和呈现,故提出构建专家画像。
在面对专家画像标签问题的时候,研究者们通常会选择分类匹配,但是这种存在明显的不足:1、部分专家画像研究工作仅就单一的视角进行研究,构建出的画像也只展示单个视角的独特信息,难以全面地刻画其特征;2、针对单一视角进行画像的构建,不能充分发掘不同视角下的数据之间的深层联系,特征间不能进行互补;3、不同用户的需求不同,针对不同用户,单一视角不能完全满足所有的用户需求,限制了专家画像的其他视角下的特征展示。
发明内容
发明目的:针对上述问题,本发明提供了基于多视角融合的专家画像构建方法及装置,能够有效地融合不同分类的结果,解决专家画像建模中标签化建模不全面的问题。
本发明通过以下技术方案实现:
本发明提出基于多视角融合的专家画像构建方法及装置,包括如下步骤:
步骤1:使用K-means对专家数据集D1进行聚类并预处理得到样本集D2,再将D2划分多个样本子集,每个样本子集代表一种信息:
步骤1.1:使用K-means对专家数据集D1进行聚类,得到N个聚类点簇;
步骤1.2:定义Data为单个待清洗专家数据,定义id,lable,content分别为数据的序号、标签和内容,并且满足关系Data={id,lable,content};
步骤1.3:定义D1为待清洗专家数据集,D1={Data1,Data2,…,Dataa,…,Datalen(D1)},Dataa为D1中第a个待清洗信息数据,其中,len(D1)为D1中数据数量,变量a∈[1,len(D1)];
步骤1.4:对专家数据集D1中的数据进行去重和去空操作;
步骤1.5:得到清洗后的数据集D2={d1,d2,…,db,…,dlen(D2)},db为D2中第b个待处理信息数据,其中,len(D2)为D2中数量,变量b∈[1,len(D2)];
步骤1.6:对D2划分为多个样本子集,每个样本子集代表专家不同信息,即D2={D21,D22,…,D2N}。
步骤2:使用BERT模型,将样本集D2作为模型的输入,对其进行分类,具体的如图3所示:
步骤2.1:定义样本集D2={d1,d2,…,db,…,dlen(D2)},将待处理文本内容db固定为统一长度Lmax
步骤2.2:定义循环变量i,且i赋初值为1;
步骤2.3:如果i≤len(T)则跳转到步骤2.4,否则跳转到步骤2.7;
步骤2.4:定义len(Ti)为文本中第i个文本信息的长度,如果len(Ti)+2≤Lmax则补0后跳转下一步,否则截取文本前Lmax个单位,跳转下一步;
步骤2.5:建立预训练模型BERT,将样本集传入BERT模型中,获取文本的特征向量T1;
步骤2.6:i=i+1,跳转到步骤2.3;
步骤2.7:结束循环,输出全部特征向量序列T1={T1,T2,…,Tc,…,Tlen(T)};
步骤2.8:将特征向量序列T1作为全连接层的输入进行文本分类,得到分类结果C1。
步骤3:使用BiGRU算法,将得到的特征序列作为算法的输入,对其进行分类,具体的如图4所示:
步骤3.1:构建双向门控循环神经网络,传入特征向量序列T1;
步骤3.2:定义循环变量j和最大时刻M,且j赋初值为1;
步骤3.3:如果j≤M则跳转到步骤3.4,否则跳转到步骤3.6;
步骤3.4:使用双向门控循环神经网络计算当前时刻的输出结果为ht,跳转下一步;
步骤3.5:j=j+1,跳转到步骤3.3;
步骤3.6:结束循环,得到全部时刻的输出向量T2={h1,h2,…,ht,…,hM};
步骤3.7:将特征向量序列T2作为全连接层的输入进行文本分类,得到分类结果C2。
步骤4:使用CNN算法,将得到的特征序列作为算法的输入,对其进行分类,具体的如图5所示:
步骤4.1:构建卷积神经网络,传入特征向量序列T1;
步骤4.2:定义循环变量k,且k赋初值为1;
步骤4.3:如果k≤len(T)则跳转到步骤4.4,否则跳转到步骤4.6;
步骤4.4:对传入的特征向量进行卷积操作,通过最大池化的方法提取值最大的特征r;
步骤4.5:k=k+1,跳转到步骤4.3;
步骤4.6:结束循环,得到所有池化后的向量T3={r1,r2,…,rlen(T)};
步骤4.7:将向量T3作为全连接层的输入进行文本分类,得到分类结果C3。
步骤5:首先根据三种基分类器中的分类结果对基分类器赋权值,然后根据权值对分类器的分类结果使用加权投票法进行集成,计算出所有类别的总票数,最后根据实际需求选取分类结果,具体的如图6所示:
步骤5.1:定义C={C1,C2,C3}为三种基分类器最终的输出结果;
步骤5.2:根据三种基分类器中的分类结果对单分类器赋权值αz,其中,z=1,2,3;
步骤5.3:对分类结果进行统计,每种单分类器对分类结果的筛选作为对该类别投一票;
步骤5.4:定义p为第p个类别,n为第n个分类器,且p,n赋初值为1;
步骤5.5:如果满足n≤3,则跳转到下一步,否则跳转到步骤5.11;
步骤5.6:设第p个类别在第n个分类器的投票数为Bnp,第p个类别的投票总数为Tp,其中,p=1,2,…,P;
步骤5.7:如果满足p≤P,则跳转到下一步,否则跳转到步骤5.10;
步骤5.8:根据计算,可得第p个类别的投票总数为
Figure BDA0003444311150000031
步骤5.9:p=p+1,跳转到步骤5.7;
步骤5.10:n=n+1,跳转到步骤5.5;
步骤5.11:计算出所有类别的投票总数,根据实际需求选取Tp≥l的全部分类结果,其中,l=1,2,…,3(1+3)/2。
步骤6:三种基分类器的分类集成结果,获得模型的标签抽取,进而构建专家画像,具体的如图7所示:
步骤6.1:将选择出的分类结果作为最终分类结果;
步骤6.2:将模型保存封装,作为专家画像的标签抽取方法;
步骤6.3:使用词云图将分类结果进行可视化;
步骤6.4:完成专家画像的构建。
本发明通过以下技术方案实现:
基于多视角融合的专家画像构建装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述步骤1-6任一项的基于多视角融合的专家画像构建方法。
本发明采用上述技术方案,具有以下有益效果:
1、本发明对于专家画像,更关注于提高专家多维度、多方位、更立体的特征识别,并且对新的数据集具有良好的泛化能力。专家的特征具有多样性和复杂性,不同维度的信息对其分类结果也不完全相同,使用多分类器可以实现在整个样本空间上的准确分类。
2、本发明利用BERT语言模型获取词语间的相互关系,聚焦句子中的关键点,通过不断进行注意力机制层和非线性层交叠得到最终的文本表达,更容易捕获长距离依赖信息。
3、本发明利用BiGRU模型,在实际应用中,不仅考虑前文的信息,还关注到下文的信息,包含的信息更丰富,可以处理具有长期依赖关系的信息,尤其像专家多维度大型语料文本上,大大提高了网络的训练速度。
4、本发明使用CNN神经网络,具有表征学习能力,提取文本局部特征,能够按其阶层结构对输入信息进行平移不变分类,提取具有空间关系的特征。
5、本发明中所采用的分类器虽然性能不同,但他们的错分样本集不一定重叠,这表明在各种单一分类器中存在着一定的互补信息,利用这些互补信息组合多个分类器,并让每个分类器都在其优势空间区域发挥作用。
6、本发明采用分布式结构多分类器系统,可以得到具有多样性且独立性较高的分类结果,使用加权投票法对多分类器的分类结果进行集成,能够有效避免投票法中对每个单分类器设置的权重系数一致,对单分类器增加权重可以体现单分类器之间的差异,对某一种信息分类结果较好的单分类器赋较高的权值,对较差的单分类器赋较低的权值。
附图说明
图1为本发明整体流程图;
图2为数据聚类及预处理流程图;
图3为使用BERT模型对样本集D2分类流程图;
图4为使用BiGRU模型对样本集D2分类流程图;
图5为使用CNN模型对样本集D2分类流程图;
图6为对三种基分类器的分类结果进行集成流程图;
图7为三种基分类器的分类集成结果,获得模型的标签抽取,进而构建专家画像流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明公开了基于多视角融合的专家画像构建方法及装置。适用于面向专家的用户画像中多视角下不同数据源的用户特征融合问题,充分利用多视角数据的互补性,发掘不同视角下的数据之间的深层联系,实现全局最优的专家画像。该模型首先使用K-means对专家数据集D1进行聚类及预处理后得到样本集D2,再将D2划分为多个样本子集,每个样本子集代表一种信息,例如,聚类结果为专家个人信息、专家科研文献信息、专家合作项目信息等,分别选择BERT、BiGRU及CNN三种基分类器对样本集D2进行分类,得到不同的分类结果;接着,根据三种基分类器中的分类结果对基分类器赋权值,根据权值对分类器的分类结果使用加权投票法进行集成,计算出所有类别的总票数,根据实际需求选取分类结果;最后,获得模型最终的集成结果,使用词云图将分类结果可视化,进而构建专家画像。
步骤1:使用K-means对专家数据集D1进行聚类并预处理得到样本集D2,再将D2划分多个样本子集,每个样本子集代表一种信息:
步骤1.1:使用K-means对专家数据集D1进行聚类,得到N个聚类点簇;
步骤1.2:定义Data为单个待清洗专家数据,定义id,lable,content分别为数据的序号、标签和内容,并且满足关系Data={id,lable,content};
步骤1.3:定义D1为待清洗专家数据集,D1={Data1,Data2,…,Dataa,…,Datalen(D1)},Dataa为D1中第a个待清洗信息数据,其中,len(D1)为D1中数据数量,变量a∈[1,len(D1)];
步骤1.4:对专家数据集D1中的数据进行去重和去空操作;
步骤1.5:得到清洗后的数据集D2={d1,d2,…,db,…,dlen(D2)},db为D2中第b个待处理信息数据,其中,len(D2)为D2中数量,变量b∈[1,len(D2)];
步骤1.6:对D2划分为多个样本子集,每个样本子集代表专家不同信息,即D2={D21,D22,…,D2N}。
步骤2:使用BERT模型,将样本集D2作为模型的输入,对其进行分类,具体的如图3所示:
步骤2.1:定义样本集D2={d1,d2,…,db,…,dlen(D2)},将待处理文本内容db固定为统一长度Lmax
步骤2.2:定义循环变量i,且i赋初值为1;
步骤2.3:如果i≤len(T)则跳转到步骤2.4,否则跳转到步骤2.7;
步骤2.4:定义len(Ti)为文本中第i个文本信息的长度,如果len(Ti)+2≤Lmax则补0后跳转下一步,否则截取文本前Lmax个单位,跳转下一步;
步骤2.5:建立预训练模型BERT,将样本集传入BERT模型中,获取文本的特征向量T1;
步骤2.6:i=i+1,跳转到步骤2.3;
步骤2.7:结束循环,输出全部特征向量序列T1={T1,T2,…,Tc,…,Tlen(T)};
步骤2.8:将特征向量序列T1作为全连接层的输入进行文本分类,得到分类结果C1。
步骤3:使用BiGRU算法,将得到的特征序列作为算法的输入,对其进行分类,具体的如图4所示:
步骤3.1:构建双向门控循环神经网络,传入特征向量序列T1;
步骤3.2:定义循环变量j和最大时刻M,且j赋初值为1;
步骤3.3:如果j≤M则跳转到步骤3.4,否则跳转到步骤3.6;
步骤3.4:使用双向门控循环神经网络计算当前时刻的输出结果为ht,跳转下一步;
步骤3.5:j=j+1,跳转到步骤3.3;
步骤3.6:结束循环,得到全部时刻的输出向量T2={h1,h2,…,ht,…,hM};
步骤3.7:将特征向量序列T2作为全连接层的输入进行文本分类,得到分类结果C2。
步骤4:使用CNN算法,将得到的特征序列作为算法的输入,对其进行分类,具体的如图5所示:
步骤4.1:构建卷积神经网络,传入特征向量序列T1;
步骤4.2:定义循环变量k,且k赋初值为1;
步骤4.3:如果k≤len(T)则跳转到步骤4.4,否则跳转到步骤4.6;
步骤4.4:对传入的特征向量进行卷积操作,通过最大池化的方法提取值最大的特征r;
步骤4.5:k=k+1,跳转到步骤4.3;
步骤4.6:结束循环,得到所有池化后的向量T3={r1,r2,…,rlen(T)};
步骤4.7:将向量T3作为全连接层的输入进行文本分类,得到分类结果C3。
步骤5:首先根据三种基分类器中的分类结果对单分类器赋权值,然后根据权值对分类器的分类结果使用加权投票法进行集成,计算出所有类别的总票数,最后根据实际需求选取分类结果,具体的如图6所示:
步骤5.1:定义C={C1,C2,C3}为三种基分类器最终的输出结果;
步骤5.2:根据三种基分类器中的分类结果对单分类器赋权值αz,其中,z=1,2,3;
步骤5.3:对分类结果进行统计,每种单分类器对分类结果的筛选作为对该类别投一票;
步骤5.4:定义p为第p个类别,n为第n个分类器,且p,n赋初值为1;
步骤5.5:如果满足n≤3,则跳转到下一步,否则跳转到步骤5.11;
步骤5.6:设第p个类别在第n个分类器的投票数为Bnp,第p个类别的投票总数为Tp,其中,p=1,2,…,P;
步骤5.7:如果满足p≤P,则跳转到下一步,否则跳转到步骤5.10;
步骤5.8:根据计算,可得第p个类别的投票总数为
Figure BDA0003444311150000081
步骤5.9:p=p+1,跳转到步骤5.7;
步骤5.10:n=n+1,跳转到步骤5.5;
步骤5.11:计算出所有类别的投票总数,根据实际需求选取Tp≥l的全部分类结果,其中,l=1,2,…,3(1+3)/2。
步骤6:三种基分类器的分类集成结果,获得模型的标签抽取,进而构建专家画像,具体的如图7所示:
步骤6.1:将选择出的分类结果作为最终分类结果;
步骤6.2:将模型保存封装,作为专家画像的标签抽取方法;
步骤6.3:使用词云图将分类结果进行可视化;
步骤6.4:完成专家画像的构建。
Figure BDA0003444311150000082
Figure BDA0003444311150000091
本发明可与计算机系统结合成为基于多视角融合的专家画像构建装置,装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被加载至处理器时实现上述基于多视角融合的专家画像构建方法。

Claims (8)

1.基于多视角融合的专家画像构建方法,其特征在于,包括如下步骤:
步骤1:使用K-means对专家数据集D1进行聚类并预处理得到样本集D2,再将D2划分多个样本子集,每个样本子集代表一种信息;
步骤2:使用BERT模型,将样本集D2作为模型的输入,对其进行分类;
步骤3:使用BiGRU算法,将得到的特征序列作为算法的输入,对其进行分类;
步骤4:使用CNN算法,将得到的特征序列作为算法的输入,对其进行分类;
步骤5:首先根据三种基分类器中的分类结果对基分类器赋权值,然后根据权值对分类器的分类结果使用加权投票法进行集成,计算出所有类别的总票数,最后根据实际需求选取分类结果;
步骤6:三种基分类器的分类集成结果,获得模型的标签抽取,进而构建专家画像。
2.根据权利要求1所述的基于多视角融合的专家画像构建方法,其特征在于,所述步骤1的具体方法为:
步骤1.1:使用K-means对专家数据集D1进行聚类,得到N个聚类点簇;
步骤1.2:定义Data为单个待清洗专家数据,定义id,lable,content分别为数据的序号、标签和内容,并且满足关系Data={id,lable,content};
步骤1.3:定义D1为待清洗专家数据集,D1={Data1,Data2,…,Dataa,…,Datalen(D1)},Dataa为D1中第a个待清洗信息数据,其中,len(D1)为D1中数据数量,变量a∈[1,len(D1)];
步骤1.4:对专家数据集D1中的数据进行去重和去空操作;
步骤1.5:得到清洗后的数据集D2={d1,d2,…,db,…,dlen(D2)},db为D2中第b个待处理信息数据,其中,len(D2)为D2中数量,变量b∈[1,len(D2)];
步骤1.6:对D2划分为多个样本子集,每个样本子集代表专家不同信息,即D2={D21,D22,…,D2N}。
3.根据权利要求1所述的基于多视角融合的专家画像构建方法,其特征在于,所述步骤2的具体方法为:
步骤2.1:定义样本集D2={d1,d2,…,db,…,dlen(D2)},将待处理文本内容db固定为统一长度Lmax
步骤2.2:定义循环变量i,且i赋初值为1;
步骤2.3:如果i≤len(T)则跳转到步骤2.4,否则跳转到步骤2.7;
步骤2.4:定义len(Ti)为文本中第i个文本信息的长度,如果len(Ti)+2≤Lmax则补0后跳转下一步,否则截取文本前Lmax个单位,跳转下一步;
步骤2.5:建立预训练模型BERT,将样本集传入BERT模型中,获取文本的特征向量T1;
步骤2.6:i=i+1,跳转到步骤2.3;
步骤2.7:结束循环,输出全部特征向量序列T1={T1,T2,…,Tc,…,Tlen(T)};
步骤2.8:将特征向量序列T1作为全连接层的输入进行文本分类,得到分类结果C1。
4.根据权利要求1所述的基于多视角融合的专家画像构建方法,其特征在于,所述步骤3的具体方法为:
步骤3.1:构建双向门控循环神经网络,传入特征向量序列T1;
步骤3.2:定义循环变量j和最大时刻M,且j赋初值为1;
步骤3.3:如果j≤M则跳转到步骤3.4,否则跳转到步骤3.6;
步骤3.4:使用双向门控循环神经网络计算当前时刻的输出结果为ht,跳转下一步;
步骤3.5:j=j+1,跳转到步骤3.3;
步骤3.6:结束循环,得到全部时刻的输出向量T2={h1,h2,…,ht,…,hM};
步骤3.7:将特征向量序列T2作为全连接层的输入进行文本分类,得到分类结果C2。
5.根据权利要求1所述的基于多视角融合的专家画像构建方法,其特征在于,所述步骤4的具体方法为:
步骤4.1:构建卷积神经网络,传入特征向量序列T1;
步骤4.2:定义循环变量k,且k赋初值为1;
步骤4.3:如果k≤len(T)则跳转到步骤4.4,否则跳转到步骤4.6;
步骤4.4:对传入的特征向量进行卷积操作,通过最大池化的方法提取值最大的特征r;
步骤4.5:k=k+1,跳转到步骤4.3;
步骤4.6:结束循环,得到所有池化后的向量T3={r1,r2,…,rlen(T)};
步骤4.7:将向量T3作为全连接层的输入进行文本分类,得到分类结果C3。
6.根据权利要求1所述的基于多视角融合的专家画像构建方法,其特征在于,所述步骤5的具体方法为:
步骤5.1:定义C={C1,C2,C3}为三种基分类器最终的输出结果;
步骤5.2:根据三种基分类器中的分类结果对单分类器赋权值αz,其中,z=1,2,3;
步骤5.3:对分类结果进行统计,每种单分类器对分类结果的筛选作为对该类别投一票;
步骤5.4:定义p为第p个类别,n为第n个分类器,且p,n赋初值为1;
步骤5.5:如果满足n≤3,则跳转到下一步,否则跳转到步骤5.11;
步骤5.6:设第p个类别在第n个分类器的投票数为Bnp,第p个类别的投票总数为Tp,其中,p=1,2,…,P;
步骤5.7:如果满足p≤P,则跳转到下一步,否则跳转到步骤5.10;
步骤5.8:根据计算,可得第p个类别的投票总数为
Figure FDA0003444311140000031
步骤5.9:p=p+1,跳转到步骤5.7;
步骤5.10:n=n+1,跳转到步骤5.5;
步骤5.11:计算出所有类别的投票总数,根据实际需求选取Tp≥l的全部分类结果,其中,l=1,2,…,3(1+3)/2。
7.根据权利要求1所述的基于多视角融合的专家画像构建方法,其特征在于,所述步骤6的具体方法为:
步骤6.1:将选择出的分类结果作为最终分类结果;
步骤6.2:将模型保存封装,作为专家画像的标签抽取方法;
步骤6.3:使用词云图将分类结果进行可视化;
步骤6.4:完成专家画像的构建。
8.基于多视角融合的专家画像构建装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的基于多视角融合的专家画像构建方法。
CN202111648377.4A 2021-12-29 2021-12-29 基于多视角融合的专家画像构建方法及装置 Active CN114398485B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111648377.4A CN114398485B (zh) 2021-12-29 2021-12-29 基于多视角融合的专家画像构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111648377.4A CN114398485B (zh) 2021-12-29 2021-12-29 基于多视角融合的专家画像构建方法及装置

Publications (2)

Publication Number Publication Date
CN114398485A true CN114398485A (zh) 2022-04-26
CN114398485B CN114398485B (zh) 2023-04-18

Family

ID=81228323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111648377.4A Active CN114398485B (zh) 2021-12-29 2021-12-29 基于多视角融合的专家画像构建方法及装置

Country Status (1)

Country Link
CN (1) CN114398485B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115600945A (zh) * 2022-09-07 2023-01-13 淮阴工学院(Cn) 基于多粒度的冷链配载用户画像构建方法及装置
CN116956097A (zh) * 2023-09-18 2023-10-27 湖南华菱电子商务有限公司 基于K-means的专家画像分析方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120246099A1 (en) * 2011-03-23 2012-09-27 Kabushiki Kaisha Toshiba Learning device, learning method, and computer program product
CN112580332A (zh) * 2020-11-19 2021-03-30 淮阴工学院 一种基于标签分层延深建模的企业画像方法
CN113051914A (zh) * 2021-04-09 2021-06-29 淮阴工学院 一种基于多特征动态画像的企业隐藏标签抽取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120246099A1 (en) * 2011-03-23 2012-09-27 Kabushiki Kaisha Toshiba Learning device, learning method, and computer program product
CN112580332A (zh) * 2020-11-19 2021-03-30 淮阴工学院 一种基于标签分层延深建模的企业画像方法
CN113051914A (zh) * 2021-04-09 2021-06-29 淮阴工学院 一种基于多特征动态画像的企业隐藏标签抽取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
费鹏: "用户画像构建技术研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115600945A (zh) * 2022-09-07 2023-01-13 淮阴工学院(Cn) 基于多粒度的冷链配载用户画像构建方法及装置
CN116956097A (zh) * 2023-09-18 2023-10-27 湖南华菱电子商务有限公司 基于K-means的专家画像分析方法及系统
CN116956097B (zh) * 2023-09-18 2023-12-12 湖南华菱电子商务有限公司 基于K-means的专家画像分析方法及系统

Also Published As

Publication number Publication date
CN114398485B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN109389055B (zh) 基于混合卷积和注意力机制的视频分类方法
Zhang et al. Fusing geometric features for skeleton-based action recognition using multilayer LSTM networks
CN104966104B (zh) 一种基于三维卷积神经网络的视频分类方法
Duan et al. A unified framework for multi-modal isolated gesture recognition
Donahue et al. Decaf: A deep convolutional activation feature for generic visual recognition
Dewi et al. Weight analysis for various prohibitory sign detection and recognition using deep learning
CN112732916B (zh) 一种基于bert的多特征融合模糊文本分类系统
CN114398485B (zh) 基于多视角融合的专家画像构建方法及装置
CN110297888B (zh) 一种基于前缀树与循环神经网络的领域分类方法
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
Wang et al. Spatial–temporal pooling for action recognition in videos
CN110705490B (zh) 视觉情感识别方法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
Guo et al. Facial expressions recognition with multi-region divided attention networks for smart education cloud applications
CN114390217A (zh) 视频合成方法、装置、计算机设备和存储介质
CN115131698A (zh) 视频属性确定方法、装置、设备及存储介质
CN111813939A (zh) 一种基于表征增强与融合的文本分类方法
Hu et al. Saliency-based YOLO for single target detection
Jin et al. Image classification based on pLSA fusing spatial relationships between topics
Li et al. Spatial-temporal dynamic hand gesture recognition via hybrid deep learning model
Gong et al. Human interaction recognition based on deep learning and HMM
Khan et al. Building discriminative features of scene recognition using multi-stages of inception-ResNet-v2
Liu et al. LIRIS-Imagine at ImageCLEF 2011 Photo Annotation Task.
Bai et al. Learning two-pathway convolutional neural networks for categorizing scene images
CN111259152A (zh) 一种深度多层网络驱动的特征聚合类别划分器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230922

Address after: 223005 Qingchuang Space 16F-03, Huai'an Ecological and Cultural Tourism Zone, Huai'an City, Jiangsu Province

Patentee after: Huai'an Xinye Power Construction Co.,Ltd.

Address before: Room 1107, Building B3, Financial Center, No. 16 Shuidukou Avenue, Qingjiangpu District, Huai'an City, Jiangsu Province, 223001

Patentee before: Jiangsu Kewen Enterprise Management Co.,Ltd.

Effective date of registration: 20230922

Address after: Room 1107, Building B3, Financial Center, No. 16 Shuidukou Avenue, Qingjiangpu District, Huai'an City, Jiangsu Province, 223001

Patentee after: Jiangsu Kewen Enterprise Management Co.,Ltd.

Address before: 223005 Jiangsu Huaian economic and Technological Development Zone, 1 East Road.

Patentee before: HUAIYIN INSTITUTE OF TECHNOLOGY

TR01 Transfer of patent right