基于多视角融合的专家画像构建方法及装置
技术领域
本发明属于专家画像和自然语言处理技术领域,特别涉及基于多视角融合的专家画像构建方法及装置。
背景技术
以用户为中心的设计是一种现代人机交互设计理念,其中,用户的需求、欲望和局限性等被探究和分析。作为用户研究的重要组成部分,用户画像是实现以用户为中心的交互设计的重要工具。用户画像已成为世界各国用户研究的热点,正日益引起业界、学术界的广泛关注,主要体现在让信息形成关联、目标用户明确和重难点开始清晰等方面。针对目前科研体系中专家信息存在的分割、固化等问题,可以构建组织灵活、兴趣相似的专家群体,并使用画像对其进行多角度描述和呈现,故提出构建专家画像。
在面对专家画像标签问题的时候,研究者们通常会选择分类匹配,但是这种存在明显的不足:1、部分专家画像研究工作仅就单一的视角进行研究,构建出的画像也只展示单个视角的独特信息,难以全面地刻画其特征;2、针对单一视角进行画像的构建,不能充分发掘不同视角下的数据之间的深层联系,特征间不能进行互补;3、不同用户的需求不同,针对不同用户,单一视角不能完全满足所有的用户需求,限制了专家画像的其他视角下的特征展示。
发明内容
发明目的:针对上述问题,本发明提供了基于多视角融合的专家画像构建方法及装置,能够有效地融合不同分类的结果,解决专家画像建模中标签化建模不全面的问题。
本发明通过以下技术方案实现:
本发明提出基于多视角融合的专家画像构建方法及装置,包括如下步骤:
步骤1:使用K-means对专家数据集D1进行聚类并预处理得到样本集D2,再将D2划分多个样本子集,每个样本子集代表一种信息:
步骤1.1:使用K-means对专家数据集D1进行聚类,得到N个聚类点簇;
步骤1.2:定义Data为单个待清洗专家数据,定义id,lable,content分别为数据的序号、标签和内容,并且满足关系Data={id,lable,content};
步骤1.3:定义D1为待清洗专家数据集,D1={Data1,Data2,…,Dataa,…,Datalen(D1)},Dataa为D1中第a个待清洗信息数据,其中,len(D1)为D1中数据数量,变量a∈[1,len(D1)];
步骤1.4:对专家数据集D1中的数据进行去重和去空操作;
步骤1.5:得到清洗后的数据集D2={d1,d2,…,db,…,dlen(D2)},db为D2中第b个待处理信息数据,其中,len(D2)为D2中数量,变量b∈[1,len(D2)];
步骤1.6:对D2划分为多个样本子集,每个样本子集代表专家不同信息,即D2={D21,D22,…,D2N}。
步骤2:使用BERT模型,将样本集D2作为模型的输入,对其进行分类,具体的如图3所示:
步骤2.1:定义样本集D2={d1,d2,…,db,…,dlen(D2)},将待处理文本内容db固定为统一长度Lmax;
步骤2.2:定义循环变量i,且i赋初值为1;
步骤2.3:如果i≤len(T)则跳转到步骤2.4,否则跳转到步骤2.7;
步骤2.4:定义len(Ti)为文本中第i个文本信息的长度,如果len(Ti)+2≤Lmax则补0后跳转下一步,否则截取文本前Lmax个单位,跳转下一步;
步骤2.5:建立预训练模型BERT,将样本集传入BERT模型中,获取文本的特征向量T1;
步骤2.6:i=i+1,跳转到步骤2.3;
步骤2.7:结束循环,输出全部特征向量序列T1={T1,T2,…,Tc,…,Tlen(T)};
步骤2.8:将特征向量序列T1作为全连接层的输入进行文本分类,得到分类结果C1。
步骤3:使用BiGRU算法,将得到的特征序列作为算法的输入,对其进行分类,具体的如图4所示:
步骤3.1:构建双向门控循环神经网络,传入特征向量序列T1;
步骤3.2:定义循环变量j和最大时刻M,且j赋初值为1;
步骤3.3:如果j≤M则跳转到步骤3.4,否则跳转到步骤3.6;
步骤3.4:使用双向门控循环神经网络计算当前时刻的输出结果为ht,跳转下一步;
步骤3.5:j=j+1,跳转到步骤3.3;
步骤3.6:结束循环,得到全部时刻的输出向量T2={h1,h2,…,ht,…,hM};
步骤3.7:将特征向量序列T2作为全连接层的输入进行文本分类,得到分类结果C2。
步骤4:使用CNN算法,将得到的特征序列作为算法的输入,对其进行分类,具体的如图5所示:
步骤4.1:构建卷积神经网络,传入特征向量序列T1;
步骤4.2:定义循环变量k,且k赋初值为1;
步骤4.3:如果k≤len(T)则跳转到步骤4.4,否则跳转到步骤4.6;
步骤4.4:对传入的特征向量进行卷积操作,通过最大池化的方法提取值最大的特征r;
步骤4.5:k=k+1,跳转到步骤4.3;
步骤4.6:结束循环,得到所有池化后的向量T3={r1,r2,…,rlen(T)};
步骤4.7:将向量T3作为全连接层的输入进行文本分类,得到分类结果C3。
步骤5:首先根据三种基分类器中的分类结果对基分类器赋权值,然后根据权值对分类器的分类结果使用加权投票法进行集成,计算出所有类别的总票数,最后根据实际需求选取分类结果,具体的如图6所示:
步骤5.1:定义C={C1,C2,C3}为三种基分类器最终的输出结果;
步骤5.2:根据三种基分类器中的分类结果对单分类器赋权值αz,其中,z=1,2,3;
步骤5.3:对分类结果进行统计,每种单分类器对分类结果的筛选作为对该类别投一票;
步骤5.4:定义p为第p个类别,n为第n个分类器,且p,n赋初值为1;
步骤5.5:如果满足n≤3,则跳转到下一步,否则跳转到步骤5.11;
步骤5.6:设第p个类别在第n个分类器的投票数为Bnp,第p个类别的投票总数为Tp,其中,p=1,2,…,P;
步骤5.7:如果满足p≤P,则跳转到下一步,否则跳转到步骤5.10;
步骤5.9:p=p+1,跳转到步骤5.7;
步骤5.10:n=n+1,跳转到步骤5.5;
步骤5.11:计算出所有类别的投票总数,根据实际需求选取Tp≥l的全部分类结果,其中,l=1,2,…,3(1+3)/2。
步骤6:三种基分类器的分类集成结果,获得模型的标签抽取,进而构建专家画像,具体的如图7所示:
步骤6.1:将选择出的分类结果作为最终分类结果;
步骤6.2:将模型保存封装,作为专家画像的标签抽取方法;
步骤6.3:使用词云图将分类结果进行可视化;
步骤6.4:完成专家画像的构建。
本发明通过以下技术方案实现:
基于多视角融合的专家画像构建装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述步骤1-6任一项的基于多视角融合的专家画像构建方法。
本发明采用上述技术方案,具有以下有益效果:
1、本发明对于专家画像,更关注于提高专家多维度、多方位、更立体的特征识别,并且对新的数据集具有良好的泛化能力。专家的特征具有多样性和复杂性,不同维度的信息对其分类结果也不完全相同,使用多分类器可以实现在整个样本空间上的准确分类。
2、本发明利用BERT语言模型获取词语间的相互关系,聚焦句子中的关键点,通过不断进行注意力机制层和非线性层交叠得到最终的文本表达,更容易捕获长距离依赖信息。
3、本发明利用BiGRU模型,在实际应用中,不仅考虑前文的信息,还关注到下文的信息,包含的信息更丰富,可以处理具有长期依赖关系的信息,尤其像专家多维度大型语料文本上,大大提高了网络的训练速度。
4、本发明使用CNN神经网络,具有表征学习能力,提取文本局部特征,能够按其阶层结构对输入信息进行平移不变分类,提取具有空间关系的特征。
5、本发明中所采用的分类器虽然性能不同,但他们的错分样本集不一定重叠,这表明在各种单一分类器中存在着一定的互补信息,利用这些互补信息组合多个分类器,并让每个分类器都在其优势空间区域发挥作用。
6、本发明采用分布式结构多分类器系统,可以得到具有多样性且独立性较高的分类结果,使用加权投票法对多分类器的分类结果进行集成,能够有效避免投票法中对每个单分类器设置的权重系数一致,对单分类器增加权重可以体现单分类器之间的差异,对某一种信息分类结果较好的单分类器赋较高的权值,对较差的单分类器赋较低的权值。
附图说明
图1为本发明整体流程图;
图2为数据聚类及预处理流程图;
图3为使用BERT模型对样本集D2分类流程图;
图4为使用BiGRU模型对样本集D2分类流程图;
图5为使用CNN模型对样本集D2分类流程图;
图6为对三种基分类器的分类结果进行集成流程图;
图7为三种基分类器的分类集成结果,获得模型的标签抽取,进而构建专家画像流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明公开了基于多视角融合的专家画像构建方法及装置。适用于面向专家的用户画像中多视角下不同数据源的用户特征融合问题,充分利用多视角数据的互补性,发掘不同视角下的数据之间的深层联系,实现全局最优的专家画像。该模型首先使用K-means对专家数据集D1进行聚类及预处理后得到样本集D2,再将D2划分为多个样本子集,每个样本子集代表一种信息,例如,聚类结果为专家个人信息、专家科研文献信息、专家合作项目信息等,分别选择BERT、BiGRU及CNN三种基分类器对样本集D2进行分类,得到不同的分类结果;接着,根据三种基分类器中的分类结果对基分类器赋权值,根据权值对分类器的分类结果使用加权投票法进行集成,计算出所有类别的总票数,根据实际需求选取分类结果;最后,获得模型最终的集成结果,使用词云图将分类结果可视化,进而构建专家画像。
步骤1:使用K-means对专家数据集D1进行聚类并预处理得到样本集D2,再将D2划分多个样本子集,每个样本子集代表一种信息:
步骤1.1:使用K-means对专家数据集D1进行聚类,得到N个聚类点簇;
步骤1.2:定义Data为单个待清洗专家数据,定义id,lable,content分别为数据的序号、标签和内容,并且满足关系Data={id,lable,content};
步骤1.3:定义D1为待清洗专家数据集,D1={Data1,Data2,…,Dataa,…,Datalen(D1)},Dataa为D1中第a个待清洗信息数据,其中,len(D1)为D1中数据数量,变量a∈[1,len(D1)];
步骤1.4:对专家数据集D1中的数据进行去重和去空操作;
步骤1.5:得到清洗后的数据集D2={d1,d2,…,db,…,dlen(D2)},db为D2中第b个待处理信息数据,其中,len(D2)为D2中数量,变量b∈[1,len(D2)];
步骤1.6:对D2划分为多个样本子集,每个样本子集代表专家不同信息,即D2={D21,D22,…,D2N}。
步骤2:使用BERT模型,将样本集D2作为模型的输入,对其进行分类,具体的如图3所示:
步骤2.1:定义样本集D2={d1,d2,…,db,…,dlen(D2)},将待处理文本内容db固定为统一长度Lmax;
步骤2.2:定义循环变量i,且i赋初值为1;
步骤2.3:如果i≤len(T)则跳转到步骤2.4,否则跳转到步骤2.7;
步骤2.4:定义len(Ti)为文本中第i个文本信息的长度,如果len(Ti)+2≤Lmax则补0后跳转下一步,否则截取文本前Lmax个单位,跳转下一步;
步骤2.5:建立预训练模型BERT,将样本集传入BERT模型中,获取文本的特征向量T1;
步骤2.6:i=i+1,跳转到步骤2.3;
步骤2.7:结束循环,输出全部特征向量序列T1={T1,T2,…,Tc,…,Tlen(T)};
步骤2.8:将特征向量序列T1作为全连接层的输入进行文本分类,得到分类结果C1。
步骤3:使用BiGRU算法,将得到的特征序列作为算法的输入,对其进行分类,具体的如图4所示:
步骤3.1:构建双向门控循环神经网络,传入特征向量序列T1;
步骤3.2:定义循环变量j和最大时刻M,且j赋初值为1;
步骤3.3:如果j≤M则跳转到步骤3.4,否则跳转到步骤3.6;
步骤3.4:使用双向门控循环神经网络计算当前时刻的输出结果为ht,跳转下一步;
步骤3.5:j=j+1,跳转到步骤3.3;
步骤3.6:结束循环,得到全部时刻的输出向量T2={h1,h2,…,ht,…,hM};
步骤3.7:将特征向量序列T2作为全连接层的输入进行文本分类,得到分类结果C2。
步骤4:使用CNN算法,将得到的特征序列作为算法的输入,对其进行分类,具体的如图5所示:
步骤4.1:构建卷积神经网络,传入特征向量序列T1;
步骤4.2:定义循环变量k,且k赋初值为1;
步骤4.3:如果k≤len(T)则跳转到步骤4.4,否则跳转到步骤4.6;
步骤4.4:对传入的特征向量进行卷积操作,通过最大池化的方法提取值最大的特征r;
步骤4.5:k=k+1,跳转到步骤4.3;
步骤4.6:结束循环,得到所有池化后的向量T3={r1,r2,…,rlen(T)};
步骤4.7:将向量T3作为全连接层的输入进行文本分类,得到分类结果C3。
步骤5:首先根据三种基分类器中的分类结果对单分类器赋权值,然后根据权值对分类器的分类结果使用加权投票法进行集成,计算出所有类别的总票数,最后根据实际需求选取分类结果,具体的如图6所示:
步骤5.1:定义C={C1,C2,C3}为三种基分类器最终的输出结果;
步骤5.2:根据三种基分类器中的分类结果对单分类器赋权值αz,其中,z=1,2,3;
步骤5.3:对分类结果进行统计,每种单分类器对分类结果的筛选作为对该类别投一票;
步骤5.4:定义p为第p个类别,n为第n个分类器,且p,n赋初值为1;
步骤5.5:如果满足n≤3,则跳转到下一步,否则跳转到步骤5.11;
步骤5.6:设第p个类别在第n个分类器的投票数为Bnp,第p个类别的投票总数为Tp,其中,p=1,2,…,P;
步骤5.7:如果满足p≤P,则跳转到下一步,否则跳转到步骤5.10;
步骤5.9:p=p+1,跳转到步骤5.7;
步骤5.10:n=n+1,跳转到步骤5.5;
步骤5.11:计算出所有类别的投票总数,根据实际需求选取Tp≥l的全部分类结果,其中,l=1,2,…,3(1+3)/2。
步骤6:三种基分类器的分类集成结果,获得模型的标签抽取,进而构建专家画像,具体的如图7所示:
步骤6.1:将选择出的分类结果作为最终分类结果;
步骤6.2:将模型保存封装,作为专家画像的标签抽取方法;
步骤6.3:使用词云图将分类结果进行可视化;
步骤6.4:完成专家画像的构建。
本发明可与计算机系统结合成为基于多视角融合的专家画像构建装置,装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被加载至处理器时实现上述基于多视角融合的专家画像构建方法。