CN110110094B - 基于社交网络知识图谱的跨网络人物关联方法 - Google Patents

基于社交网络知识图谱的跨网络人物关联方法 Download PDF

Info

Publication number
CN110110094B
CN110110094B CN201910323380.5A CN201910323380A CN110110094B CN 110110094 B CN110110094 B CN 110110094B CN 201910323380 A CN201910323380 A CN 201910323380A CN 110110094 B CN110110094 B CN 110110094B
Authority
CN
China
Prior art keywords
user
social network
vector
similarity
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910323380.5A
Other languages
English (en)
Other versions
CN110110094A (zh
Inventor
李弼程
王瑞
杜文倩
郁友琴
马海江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN201910323380.5A priority Critical patent/CN110110094B/zh
Publication of CN110110094A publication Critical patent/CN110110094A/zh
Application granted granted Critical
Publication of CN110110094B publication Critical patent/CN110110094B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于社交网络知识图谱的跨网络人物关联方法,属于知识图谱与社交网络分析领域,包括以下步骤:步骤1.训练词向量;步骤2.发现候选实体;步骤3.根据社交网络知识图谱的结构特征,计算网络度量指标;步骤4.用户向量生成;步骤5.定义社交网络结构相似度和用户画像语义相似度;步骤6.融合相似度计算,根据融合相似度确定待关联的人物实体的跨网络人物关联的最终节点。该发明可用于社交网络中挖掘用户信息,发现重要节点,也可以用作对重要节点信息的补全,为精准推荐提供数据支撑。

Description

基于社交网络知识图谱的跨网络人物关联方法
技术领域
本发明涉及知识图谱与社交网络分析领域,特别是指基于社交网络知识图谱的跨网络人物关联方法。
背景技术
随着社交网络的日益普及,数亿人花费大量的时间在社会媒体上以史无前例的速度分享、交流、联系和互动,并产生了海量的用户生成数据。利用社交媒体数据做社交媒体挖掘已经成为了一个快速发展的新领域。研究表明:至少50%的用户拥有两个或者多个社交网络账号,90%的新浪微博用户使用微信,至少80%的Facebook用户使用Twitter。所以分析不同社交网络的相同用户对于发现用户兴趣爱好,情感倾向等方面都有重要的意义。尽管社交网络数据呈现指数级的增长,用户在社交网络上的用户信息往往是不全面的。在具体的场景下,用户在一个社交网络平台上的邮箱是存在的,然而在另一个社交网络中可能是不存在的,因此通过关联不同社交网络中的相同用户,可以获取用户在其他社交网络中的属性信息和关系信息,用做社交网络知识图谱的补全和质量评估工作。
目前主流的跨网络用户关联方法,一般是对社交网络用户的注册用户信息进行分析,通过分析社交网络中的用户名、昵称、地理位置等属性,设计用户的相似度矩阵,基于此矩阵关联不同社交网络中的相同用户。然而,这些方法存在数据依赖严重的问题,如果采集的数据项基本为空,跨网络人物的关联就会丢失,而且这些方法均没有关注社交网络的图结构对于人物关联的重要性,均无法处理社交网络中的图关系,无法描述图模型的结构信息。
知识图谱是Google在2012年提出的一种知识表示形式,是一个大规模的语义网络,包含实体、概念以及实体和概念之间的语义关系。通过构建知识图谱,可以解决传统标签模式下不能解决的深层次推理问题和可视化展示问题。
所以,利用社交网络数据构建知识图谱,使用知识图谱的相关特性对社交网络的结果和内容进行分析。一方面,知识图谱使得社交网络分析效率更快,可以有效解决社交网络数据噪声大和完全无结构化的问题;另一方面,利用社交网络知识图谱可以充分挖掘社交网络的隐藏信息,为之后的用户精准画像与推荐提供数据支持。
发明内容
本发明的主要目的在于解决以上现有技术由于忽略社交网络的结构信息而导致的不能准确描述跨网络的人物关联的技术缺陷,提供了一种基于社交网络知识图谱的跨网络人物关联方法。
本发明采用如下技术方案:
基于社交网络知识图谱的跨网络人物关联方法,其特征在于,包括如下步骤:
步骤1.建立Structural Skip-Gram词向量训练模型,训练语义表征能力更强的词向量;
步骤2.利用社交网络知识图谱中存储的人物实体的属性,寻找与待关联人物实体相关的候选人物实体;
步骤3.根据社交网络知识图谱的结构特征,计算每一个候选人物实体与待关联人物实体的网络度量指标,其包括属性系数、PageRank值、中间中心性、特征向量中心性和聚类系数;
步骤4.基于社交网络知识图谱对候选人物实体与待关联人物实体构造用户画像,并使用训练好的Structural Skip-Gram词向量模型将用户画像表征为用户向量;
步骤5.基于网络度量指标定义社交网络结构相似度,基于用户向量定义人物实体的用户向量语义相似度;
步骤6.根据社交网络结构相似度和用户向量语义相似度计算人物实体的融合相似度,根据融合相似度确定待关联的人物实体的跨网络人物关联的最终节点。
所述步骤1中,训练语义表征能力更强的词向量包括:
步骤1.1获取的社交网络语料并进行数据预处理,包括中文分词和去停用词;
步骤1.2基于Skip-Gram模型,加入多个投影层,用于表征上下文词序信息;
步骤1.3定义Structural Skip-Gram词向量模型的目标函数,完成StructuralSkip-Gram词向量模型的训练。
所述步骤2具体包括如下:
首先,确定社交网络知识图谱中待关联人物实体的指称项v;
然后,对社交网络知识图谱的设有人物实体指称项v的属性进行查询,查询与该待关联人物实体的指称项v属性相同的人物实体;
最后,将匹配到的所有人物实体作为跨网络人物关联的候选人物实体集合。
所述步骤3中,所述网络度量指标的计算方法如下:
步骤3.1基于社交网络知识图谱人物实体的用户名属性,经过词向量表征后,求每一维向量的平均值,作为人物实体的属性系数;
步骤3.2基于PageRank计算网页重要性的思想,对每一个人物实体进行PageRank值的计算;
步骤3.3基于社交网络媒体挖掘的中心性方法,计算每一个人物实体的中间中心性;
步骤3.4基于社交网络媒体挖掘的中心性方法,计算每一个人物实体的特征向量中心性;
步骤3.5基于社交网络媒体挖掘的传递性原理,对每一个人物实体进行聚类系数的计算;
步骤3.6将计算的五个网络度量指标做归一化处理,将归一化后的网络度量指标向量化。
所述步骤4中用户画像以及用户向量构建的方法为:
步骤4.1根据社交网络知识图谱中存储的人物实体的用户属性,查询社交网络知识图谱中人物实体对应的全部属性信息;
步骤4.2基于查询的结果,对重要特征进行提取,构建人物的基于属性的用户画像;
步骤4.3利用步骤1训练的词向量,对构建的用户画像向量化表示,构建基于属性的用户向量。
所述步骤5中,相似度定义方法为:
步骤5.1计算社交网络结构的相似度,采用修正的余弦相似度的计算方法,去中心化之后再进行相似度计算;
步骤5.2采用交叉余弦相似度的方法计算用户向量的语义相似度。
所述用户向量包括用户指称向量集合wV和用户向量候选人物实体集合wV',所述步骤5.2具体为:
步骤5.2.1从用户指称向量集合wV中选取指称实体i的用户向量
Figure GDA0003643028430000051
i=1.2.3...n,n表示社交网络知识图谱中的人物实体的个数;
步骤5.2.2从用户向量
Figure GDA0003643028430000052
中选取第j个属性词向量
Figure GDA0003643028430000053
j=1.2.3.4.5.6.7.8;
步骤5.2.3从用户向量候选人物实体集合wV'选取用户m的用户向量
Figure GDA0003643028430000054
m为候选人物实体的个数;
步骤5.2.4从用户向量
Figure GDA0003643028430000055
中选取第k个属性词向量
Figure GDA0003643028430000056
k=1.2.3.4.5.6.7.8;
步骤5.2.5计算用户属性向量
Figure GDA0003643028430000057
与用户属性向量
Figure GDA0003643028430000058
之间的语义相似度;
步骤5.2.6重复步骤5.2.3-5.2.5,直到计算完用户向量
Figure GDA0003643028430000059
的各个属性与用户向量
Figure GDA00036430284300000510
之间各个属性之间的语义相似度,得到相似度矩阵Mj*k,;
步骤5.2.7取相似度矩阵Mj*k的均值作为最终用户向量语义相似度的值。
所述步骤6中,相似度融合的方法为:社交网络结构相似度和用户向量语义相似度以一定的比例进行融合得到最终人物实体的用户相似度,然后将计算的用户相似度降序排列,相似度得分最高的候选实体人物的节点作为跨网络人物关联的最终节点。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
1.本发明中,利用词向量训练的Structural Skip-Gram模型,在考虑词共现模式的基础上,增加考虑词序对于词向量模型的影响,相比传统的词向量训练方法,增强了词向量的语义表达能力。
2.本发明中,将知识图谱引入社交网络分析领域,通过构建基于社交网络领域的知识图谱,以图的形式体现社交网络的联系和互动特征,进而借助知识图谱的图模型特征,对社交网络中的人物实体进行挖掘与分析。
3.本发明中,利用社交网络数据知识图谱的结构特征,采用图计算的方法,对社交网络知识图谱中的人物节点进行多维度的社交网络指标度量。相比传统的社交网络分析方式,通过计算多个社交网络参数,可以降低单一度量值存在的问题,增强人物实体的分辨能力;
4.本发明中,利用社交网络知识图谱的内容特征,构建基于社交网络用户属性的用户画像,将用户信息训练词向量,对用户画像进行语义相似度计算。结合上述社交网络度量指标,从两个维度进行跨网络的人物关联,提高了人物关联的准确率。
5.本发明可用于社交网络中挖掘用户信息,发现重要节点,也可以用作对重要节点信息的补全,为精准推荐提供数据支撑。
附图说明
图1为本发明的流程图;
图2为本发明的整体框架图;
图3为本发明的基于Structural Skip-Gram模型词向量训练流程图;
图4为本发明的候选实体生成流程图;
图5为本发明的基于用户属性的用户画像构建流程图;
图6为本发明的相似性度量流程图;
图7(1)为本发明单一社交网络度量指标的跨网络人物关联方法的结果;
图7(2)为本发明基于社交网络知识图谱结构度量指标的跨网络人物关联方法的结果;
图8(1)为本发明词向量不同维度的训练时间结果;
图8(2)为本发明基于用户画像相似度的跨网络人物关联方法的结果;
图9为本发明融合因子α不同取值对于跨网络人物关联的影响;
图10为本发明基于最优融合相似度的跨网络人物关联方法的结果。
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
以下通过具体实施方式对本发明作进一步的描述。
参见图1、图2,基于社交网络知识图谱的跨网络人物关联方法,包括如下:
步骤1.通过增加词向量训练过程中神经网络的投影层个数,为词向量模型加入上下文语序,基于此设计Structural Skip-Gram词向量训练模型,训练语义表征能力更强的词向量。
步骤2.利用社交网络知识图谱中存储的人物实体的属性,寻找与待关联人物实体相关的候选人物实体。
步骤3.根据社交网络知识图谱的结构特征,计算每一个候选人物实体与待关联人物实体的属性系数、PageRank值、中间中心性、特征向量中心性和聚类系数五个网络度量指标。
步骤4.基于社交网络知识图谱对候选人物实体与待关联人物实体构造用户画像,并使用训练好的词向量模型将用户画像表征为用户向量。
步骤5.基于网络度量指标定义社交网络结构相似度,基于用户画像定义人物实体的用户画像语义相似度。
步骤6.根据社交网络结构相似度和用户画像语义相似度计算人物实体的融合相似度,根据融合相似度确定待关联的人物实体的跨网络人物关联的最终节点。
步骤1中训练优化的词向量的方法为:
步骤1.1对获取的社交网络语料进行数据预处理,其中包括中文分词和去停用词。
首先添加用户自定义词典,将用户名作为新词添加到用户自定义词典中,然后使用中文分词工具将社交网络语料进行中文分词,最后进行去停用词处理。
步骤1.2基于Skip-Gram模型,加入多个投影层,用于表征上下文词序信息;
假设wt是文档的第t个词语,滑动窗口大小为c。在每个位于区间[t-c,t+c]的词语,相较于传统的Skip-Gram模型使用一个投影层,加入上下文语序后的Structural Skip-Gram模型使用2c个投影层,用于表征上下文词序信息;
定义模型中输入的词用于预测上下文词语的概率函数p(wt+i|wt),其数学定义如下:
Figure GDA0003643028430000081
其中,w和
Figure GDA0003643028430000082
分别代表输入的词向量和输出的词向量,Z代表语料库的规模,即语料库中词语的个数。c表示滑动窗口的大小,
Figure GDA0003643028430000083
表示相对于wt的距离为r的wt+i的输出词向量的位置向量。在
Figure GDA0003643028430000084
中隐式记录词序信息来更新wt的词嵌入。
步骤1.3定义模型的目标函数,结合上述两个步骤完成词向量模型的训练。
首先,定义训练加入上下文词序的Skip-Gram模型的目标函数LSSG,其数学定义如下:
Figure GDA0003643028430000085
其次,最大化目标函数。然后,定义词向量训练过程中的各个参数。其中,词向量的维度设置为200维,滑动窗口大小设置为5。
步骤2中候选人物实体生成的方法为:根据社交网络人物知识图谱中人物实体存储的属性,挑选与待关联人物实体相关的实体作为候选人物实体。
首先,确定实体指称项,即社交网络知识图谱中待关联的人物实体v;
然后,对社交网络知识图谱实体指称项v的属性进行查询,查询跟指称项v属性相同的人物实体,查询的条件是知识图谱中人物实体指称项的各个属性。针对用户名以及昵称属性,用户名或者昵称相同就作为候选实体,针对其他属性,属性三个及以上相同即作为候选实体;
最后,将匹配到的所有人物实体作为跨网络人物关联的候选人物实体集合v'={v'1,...,v'm},m表示候选人物实体的个数。
步骤3中计算社交网络度量指标的方法为:
步骤3.1基于社交网络知识图谱人物实体的用户名属性,经过词向量表征后,求每一维向量的平均值,作为人物实体的属性系数;
社交网络知识图谱G(V,E),其中V表示社交网络知识图谱中所有的人物实体,E表示所有的人物实体之间的关系。人物实体拥有众多属性,其中包括用户名、用户头像、昵称、邮箱、手机号码等可以表征一个用户特征的属性,在这些属性之中,使用训练好的词向量工具表征出社交网络人物节点的用户名信息,然后利用词向量的平均值作为人物实体的属性系数,假设用户vi的用户名向量
Figure GDA0003643028430000091
则该人物实体的属性系数:
Figure GDA0003643028430000092
其中,xt代表词向量第t维的权值。
步骤3.2基于PageRank计算网页重要性的思想,对每一个人物实体进行PageRank值的计算;
在社交网络知识图谱G(V,E),一旦一个节点成为权威节点,它将像它所有的外连接节点传递其中心性,这是不可取的。所以让中心性除以节点的外连接数目,这样每个邻居节点获得源节点中心的一部分,其计算方式为:
Figure GDA0003643028430000093
其中α为常数,控制每个节点的PageRank中心性值,β为偏差项,用来解决中心性值为0的问题,A为图谱中人物实体子图的邻接矩阵,
Figure GDA0003643028430000094
表示第j个节点的出度值。
步骤3.3基于社交网络媒体挖掘的中心性方法,计算每一个人物实体的中间中心性;
考虑实体节点在连接其他节点是所表现出的重要性,其中一种方法是计算其他节点间通过节点vi的最短路径数目,其计算方法为:
Figure GDA0003643028430000101
其中,σst表示从节点s到节点t的最短路径数目。σst(vi)是s到t经过vi的最短路径数目。
步骤3.4基于社交网络媒体挖掘的中心性方法,计算每一个人物实体的特征向量中心性;
特征向量中心性用社交网络知识图谱G(V,E)的邻接矩阵A记录邻居节点。设ce(vi)表示节点vi的特征向量中心性,该值是其邻居节点中心性的函数,并且它在邻居节点中心性的总和中占有一定的比例,其计算方法为:
Figure GDA0003643028430000102
其中,λ是某个固定的常量。假设ce=(ce(v1),ce(v2),...,ce(vn))T是所有节点的中心向量,那么上式可以改写为:λce=ATce
其中,ce是邻接矩阵AT的特征向量,λ是对应的特征值。
步骤3.5基于社交网络媒体挖掘的传递性原理,对每一个人物实体进行聚类系数的计算;
聚类系数用来分析图的传递性。当社交网络知识图谱G(V,E)中存在三角形时,便可以观察到传递性。利用知识图谱中长度为2的路径以及判断第三条边是否存在来计算聚类系数,或者通过三角形的个数进行求解。综合以上两种求解方法,聚类次数ccoe定义为:
Figure GDA0003643028430000103
步骤3.6为了避免某个指标的度量值过大,将计算的五个网络度量指标做归一化处理,将归一化后的网络度量指标向量化。
为了避免单一的度量值因为数值过大带来的误差偏大问题,将所有的度量指标做归一化处理,归一化的公式为:
Figure GDA0003643028430000104
其中,x表示需要归一化的度量指标值,min和max分别表示各个度量系数的最小值和最大值。
最后社交网络知识图谱G(V,E)中每个人物实体的社交网络结构向量都可以表示为:
Figure GDA0003643028430000111
步骤4中用户画像以及用户向量构建的方法为:
步骤4.1根据社交网络知识图谱中存储的人物实体的属性信息,查询社交网络知识图谱中人物实体的属性;
根据社交网络知识图谱G(V,E),根据人物实体V中存储的用户属性,在图数据库中搜索实体对应的全部的属性信息。即查询知识图谱G(V,E)中的(实体,属性,属性值)三元组,并以词典的形式返回。
步骤4.2基于查询的结果,对重要特征进行提取,构建人物的基于属性的用户画像;
基于查询后返回的用户属性词典,对用户属性每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权重排序,选取权重较高的八个维度代表的属性作为用户向量的输入。
特征权重的计算方式是统计该属性在用户画像中出现的次数,选取出现次数最高的八个维度作为用户向量的维度。
步骤4.3利用步骤1训练的词向量,对构建的用户画像向量化表示,构建基于属性的用户向量。
基于步骤1的词向量训练模型,将步骤4.2得到的用户画像中的每一维属性表征成为词向量的形式,重复迭代,直到所有维度的用户属性全部都被表征成为对应的词向量。其中,实体指称项训练的用户向量用wv表示,候选人物实体用户向量用wv'表示。
步骤5中相似度度量的方法为:
步骤5.1计算社交网络结构的相似度,考虑到各个维度的量纲的差异性,采用修正的余弦相似度的计算方法,去中心化之后再进行相似度计算;
社交网络知识图谱G(V,E)不同节点之间的社交网络结构相似度用修正的余弦相似度度量方法为:
Figure GDA0003643028430000121
其中,Cs(v)和Cs(v')分别表示人物实体指称项v和人物实体候选实体v'的社交网络结构向量,Cs(v)i表示社交网络结构向量的第i个维度,n表示社交网络结构向量的维度,
Figure GDA0003643028430000122
表示社交网络结构向量的平均值。所有人物实体的社交网络结构相似度以矩阵的形式表示如下:
Figure GDA0003643028430000123
其中,
Figure GDA0003643028430000124
表示第b个实体指称项与第d个候选人物实体之间的社交网络结构相似度。
步骤5.2计算用户画像相似度,考虑其携带语义信息,经过词向量表征后,每个词都携带了上下文信息,采用交叉余弦相似度的方法计算用户画像的相似度。
步骤5.2中交叉修正余弦相似度度量的方法为:
步骤5.2.1从用户指称向量集合wV中选取指称实体i的用户向量
Figure GDA0003643028430000125
i=1.2.3...n,n表示社交网络知识图谱中的人物实体的个数;
通过用户向量表征用户画像,指称实体的用户画像V={v1,v2,...,vn}可以被表征为一个用户向量的集合
Figure GDA0003643028430000126
其中n表示社交网络知识图谱中的人物实体的个数。从用户指称向量集合wV中提取指称实体i的用户向量
Figure GDA0003643028430000127
步骤5.2.2从用户向量
Figure GDA0003643028430000128
中选取第j个属性词向量
Figure GDA0003643028430000129
j=1.2.3.4.5.6.7.8;
通过步骤3可知,每一个用户被表征维一个八维的用户向量,每一维表示用户的一个属性,每一维的属性又被词向量表征成为一个两百维的向量。从用户向量
Figure GDA0003643028430000131
中提取每一维的词向量
Figure GDA0003643028430000132
步骤5.2.3从用户向量候选实体集合wV'选取用户向量
Figure GDA0003643028430000133
m为候选实体的个数;
步骤5.2.4从用户向量
Figure GDA0003643028430000134
中选取第k个属性词向量
Figure GDA0003643028430000135
k=1.2.3.4.5.6.7.8;
步骤5.2.5计算用户属性向量
Figure GDA0003643028430000136
与用户属性向量
Figure GDA0003643028430000137
之间的语义相似度;
训练的词向量具有语义特征,用余弦相似度的方法计算用户向量中每个属性之间的相似度,作为两个人物实体属性的交叉余弦语义相似度:
Figure GDA0003643028430000138
其中,
Figure GDA0003643028430000139
表示用户向量中属性向量的i个维度,n表示属性向量的维度,一般取200。
步骤5.2.6重复步骤5.2.3-5.2.5,直到计算完用户向量
Figure GDA00036430284300001310
的各个属性与用户向量
Figure GDA00036430284300001311
之间各个属性之间的语义相似度,得到相似度矩阵
Figure GDA00036430284300001312
其形式如下:
Figure GDA00036430284300001313
其中,
Figure GDA00036430284300001314
表示用户向量
Figure GDA00036430284300001315
的第j个属性与
Figure GDA00036430284300001316
的第k个属性之间的属性相似度。
步骤5.2.7取相似度矩阵Mj*k的均值作为最终用户向量相似度的值,其计算公式为:
Figure GDA00036430284300001317
步骤6中相似度融合的方法为:将社交网络结构相似度和用户画像相似度以一定的比例进行融合得到最终人物实体的用户相似度,然后将计算的用户相似度降序排列,相似度得分最高的候选实体人物的节点作为跨网络人物关联的最终节点,相似度融合计算方法为:
Figure GDA0003643028430000141
其中,ψ为融合因子,表示社交网络结构相似度占融合相似度的比例,取值范围为[0,1]。
如图2所示,本发明涉及词向量模型训练,度量社交网络知识图谱结构和用户向量构建以及相似度计算与融合四个模块。为了使得人物关联更加准确,需要使用表征能力更强的词向量模型,使用Structural Skip-Gram模型进行词向量的训练,加入了不同的投影层表达上下文的语序信息,所以其表达能力比传统词向量更强,更能适应复杂语义下词语的表征,能够提高算法的效率。
如图3所示,词向量训练模块由社交网络语料数据预处理及词向量训练组成,将获取到的社交网络语料进行中文分词与去停用词的处理,使用Structural Skip-Gram模型,增加上下文的词序信息,完成词向量的训练。词向量训练的各个参数如表1所示。
表1:词向量训练的各个参数值
Figure GDA0003643028430000142
如图4所示,候选实体生成模块首先,确定实体指称项,即社交网络知识图谱中待关联的实体v;然后,对社交网络知识图谱实体指称项v的属性进行查询,查询跟指称项v属性相同或者相似的实体,查询的条件是知识图谱中人物实体指称项的各个属性:针对用户名以及昵称属性,用户名或者昵称相同就作为候选实体,针对其他属性,属性三个及以上相同即作为候选实体;最后,将匹配到的所有人物实体作为跨网络人物关联的候选人物实体集合v'={v'1,...,v'm},m表示候选人物实体的个数。
度量社交网络知识图谱结构模块由社交网络知识图谱度量指标选择和社交网络知识图谱度量指标计算两部分组成。首先,通过研究各个社交网络度量指标的含义,选取属性系数、PageRank值、中间中心性、特征向量中心性和聚类系数五个网络度量指标作为最终社交网络知识图谱的度量指标。然后根据定义对选取的社交网络指标进行计算。
如图5所示,用户向量构建模块由用户画像构建和基于词向量的用户向量构建两部分组成。首先,根据社交网络中存储的人物实体的属性对社交网络知识图谱中人物的属性进行遍历,获取每个人物实体的属性;然后,对获取的属性根据出现次数进行重要性的评估,选取出现频率最高的八维属性作为用户画像中用户的属性。最后,利用上述训练的词向量模型对生成的用户画像进行向量化表示,构建基于词向量的用户向量。
如图6所示,相似度计算模块包括社交网络结构相似性计算,用户画像相似度计算以及融合形似度计算。首先,考虑到各个维度的量纲的差异性,社交网络结构相似性采用修正的余弦相似度进行计算,计算公式为:
Figure GDA0003643028430000151
其中,Cs(v1)和Cs(v'1)分别表示人物实体指称项v1和人物实体候选实体v'1的社交网络结构向量,Cs(v1)i表示社交网络结构向量的第i个维度,n表示社交网络结构向量的维度,
Figure GDA0003643028430000152
表示社交网络结构向量的平均值;然后,用户画像相似度采用交叉余弦语义相似度进行计算,计算公式为:
Figure GDA0003643028430000153
其中,
Figure GDA0003643028430000154
表示用户向量中属性向量的i个维度,n表示属性向量的维度。通过对每一维用户的属性进行相似度的计算,得到相似度矩阵,取相似度矩阵的均值作为最终用户向量相似度的值;最后,使用融合相似度将社交网络结构相似度和用户画像相似度以一定的比例进行融合得到最终人物实体的用户相似度,然后将计算的用户相似度降序排列,相似度得分最高的候选人物实体的节点作为跨网络人物关联的最终节点,相似度融合计算方法为:
Figure GDA0003643028430000161
其中,ψ为融合因子,表示社交网络结构相似度占融合相似度的比例,取值范围为[0,1]。
实施例1
标记Twitter和Facebook的相同用户5000个,使用获取的社交网络账号构建社交网络知识图谱,构建好的人物实体数目规模为三万,使用属性系数、PageRank值、中间中心性、特征向量中心性和聚类系数分别进行跨网络人物的关联。统计跨网络人物关联的召回数、召回率、准确数、准确率以及F1值。召回率、准确率以及F1值的计算公式如下:
Figure GDA0003643028430000162
Figure GDA0003643028430000163
Figure GDA0003643028430000164
如图7(1)所示,选取的五个社交网络参数均能较好的表征社交网络知识图谱的结构。如表2所示,单一参数的召回数均在一千以上,而且PageRank以及特征向量中心性的召回数已经超过半数水平。
表2:单一度量指标下跨网络人物关联结果
方法 召回个数 准确个数 召回率 准确率 F1值
用户系数 2256 1047 0.4512 0.2094 0.286046866
PageRank 3078 1521 0.6156 0.3042 0.407187476
特征向量中心性 2997 1413 0.5994 0.2826 0.384105321
中间中心性 1547 852 0.3094 0.1704 0.219765569
聚类系数 2036 1305 0.4072 0.261 0.318105956
如图7(2)所示,选取五个社交网络参数的组合形式进行跨网络人物关联,准确率比最好的PageRank算法还要高出12个百分点,因为使用组合的社交网络参数向量,可以规避单一的参数指标带来的问题,比如PageRank存在的度为0的问题等。所以实验表明,社交网络参数向量在跨网络人物关联中的作用是明显的,但是由于仅仅考虑了社交网络知识图谱的结构信息,尚未考虑知识图谱的内容信息,所以整体的准确率不高。
实施例2
标记Twitter和Facebook的相同用户5000个,使用获取的社交网络账号构建社交网络知识图谱,构建好的人物实体数目规模为三万。通过遍历社交网络知识图谱,建立每个人物实体的人物画像,通过词向量将人物画像表征为人物向量,从而进行社交网络人物关联。
如图8(1)所示,词向量维度越大,训练时间越长,当词向量维度超过两百维之后,训练时间的增长速度明显加快,而维度太小的话词向量的表达能力会受到限制,所以词向量的维度为200维最为合适。
如图8(2)所示,结果表明使用用户画像计算相似度然后进行跨网络人物关联,相比使用社交网络度量向量来讲,准确率要更高,如表3所示。但是由于用户画像只考虑了知识图谱的内容信息,忽略了结构信息,所以整体的准确率也不能满足要求。
表3:不同词向量维度下跨网络人物关联结果
词向量维度 召回个数 准确个数 召回率 准确率 F1值
50 1451 544 0.2902 0.1088 0.158264
100 1948 1007 0.3896 0.2014 0.265534
150 2341 1542 0.4682 0.3084 0.371859
200 3647 2421 0.7294 0.4842 0.582029
250 3544 2025 0.7088 0.405 0.515468
300 3074 1897 0.6148 0.3794 0.469232
实施例3
如图9所示,综合上述两种方法进行跨网络人物关联,其中根据公式
Figure GDA0003643028430000171
选取不同的融合因子ψ的值,找到准确率最高的融合因子的值作为最终融合因子的值,如表4所示,融合因子的最佳取值为0.4。
表4:不同融合因子取值的跨网络人物关联方法结果
融合因子取值 召回数 准确数 召回率 准确率 F1值
0.1 3356 2678 0.6712 0.5356 0.595782
0.2 3587 3014 0.7174 0.6028 0.655126
0.3 4005 3894 0.801 0.7788 0.789744
0.4 3789 3457 0.7578 0.6914 0.723079
0.5 3049 2647 0.6098 0.5294 0.566763
0.6 2876 2412 0.5752 0.4824 0.524729
0.7 2059 1741 0.4118 0.3482 0.377339
0.8 1837 1452 0.3674 0.2904 0.324393
0.9 1074 674 0.2148 0.1348 0.165647
如图10所示,最终采用社交网络知识图谱度量相似度与用户画像相似度的方法进行跨网络人物关联,考虑了知识图谱的结构信息和内容信息,跨网络人物关联的准确率达到了百分之九十,可是满足现阶段的跨网络人物关联需求。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (6)

1.基于社交网络知识图谱的跨网络人物关联方法,其特征在于,包括如下步骤:
步骤1.建立Structural Skip-Gram词向量训练模型,训练语义表征能力更强的词向量,包括:
步骤1.1获取的社交网络语料并进行数据预处理,包括中文分词和去停用词;
步骤1.2基于Skip-Gram模型,加入多个投影层,用于表征上下文词序信息;
步骤1.3定义Structural Skip-Gram词向量模型的目标函数,完成Structural Skip-Gram词向量模型的训练;
步骤2.利用社交网络知识图谱中存储的人物实体的属性,寻找与待关联人物实体相关的候选人物实体;
步骤3.根据社交网络知识图谱的结构特征,计算每一个候选人物实体与待关联人物实体的网络度量指标,其包括属性系数、PageRank值、中间中心性、特征向量中心性和聚类系数,所述网络度量指标的计算方法如下:
步骤3.1基于社交网络知识图谱人物实体的用户名属性,经过词向量表征后,求每一维向量的平均值,作为人物实体的属性系数;
步骤3.2基于PageRank计算网页重要性的思想,对每一个人物实体进行PageRank值的计算;
步骤3.3基于社交网络媒体挖掘的中心性方法,计算每一个人物实体的中间中心性;
步骤3.4基于社交网络媒体挖掘的中心性方法,计算每一个人物实体的特征向量中心性;
步骤3.5基于社交网络媒体挖掘的传递性原理,对每一个人物实体进行聚类系数的计算;
步骤3.6将计算的五个网络度量指标做归一化处理,将归一化后的网络度量指标向量化;
步骤4.基于社交网络知识图谱对候选人物实体与待关联人物实体构造用户画像,并使用训练好的Structural Skip-Gram词向量模型将用户画像表征为用户向量;
步骤5.基于网络度量指标定义社交网络结构相似度,基于用户向量定义人物实体的用户向量语义相似度;
步骤6.根据社交网络结构相似度和用户向量语义相似度计算人物实体的融合相似度,根据融合相似度确定待关联的人物实体的跨网络人物关联的最终节点。
2.如权利要求1所述的基于社交网络知识图谱的跨网络人物关联方法,其特征在于,所述步骤2具体包括如下:
首先,确定社交网络知识图谱中待关联人物实体的指称项v;
然后,对社交网络知识图谱的设有人物实体指称项v的属性进行查询,查询与该待关联人物实体的指称项v属性相同的人物实体;
最后,将匹配到的所有人物实体作为跨网络人物关联的候选人物实体集合。
3.如权利要求1所述的基于社交网络知识图谱的跨网络人物关联方法,其特征在于,所述步骤4中用户画像以及用户向量构建的方法为:
步骤4.1根据社交网络知识图谱中存储的人物实体的用户属性,查询社交网络知识图谱中人物实体对应的全部属性信息;
步骤4.2基于查询的结果,对重要特征进行提取,构建人物的基于属性的用户画像;
步骤4.3利用步骤1训练的词向量,对构建的用户画像向量化表示,构建基于属性的用户向量。
4.如权利要求1所述的基于社交网络知识图谱的跨网络人物关联方法,其特征在于,所述步骤5中,相似度定义方法为:
步骤5.1计算社交网络结构的相似度,采用修正的余弦相似度的计算方法,去中心化之后再进行相似度计算;
步骤5.2采用交叉余弦相似度的方法计算用户向量的语义相似度。
5.如权利要求4所述的基于社交网络知识图谱的跨网络人物关联方法,其特征在于,所述用户向量包括用户指称向量集合wV和用户向量候选人物实体集合wV',所述步骤5.2具体为:
步骤5.2.1从用户指称向量集合wV中选取指称实体i的用户向量
Figure FDA0003643028420000031
,i=1.2.3...n,n表示社交网络知识图谱中的人物实体的个数;
步骤5.2.2从用户向量
Figure FDA0003643028420000031
中选取第j个属性词向量
Figure FDA0003643028420000032
步骤5.2.3从用户向量候选人物实体集合wV'选取用户m的用户向量
Figure FDA0003643028420000033
m为候选人物实体的个数;
步骤5.2.4从用户向量
Figure FDA0003643028420000034
中选取第k个属性词向量
Figure FDA0003643028420000035
步骤5.2.5计算用户属性向量
Figure FDA0003643028420000036
与用户属性向量
Figure FDA0003643028420000037
之间的语义相似度;
步骤5.2.6重复步骤5.2.3-5.2.5,直到计算完用户向量
Figure FDA0003643028420000038
的各个属性与用户向量
Figure FDA0003643028420000039
之间各个属性之间的语义相似度,得到相似度矩阵Mj*k
步骤5.2.7取相似度矩阵Mj*k的均值作为最终用户向量语义相似度的值。
6.如权利要求1所述的基于社交网络知识图谱的跨网络人物关联方法,其特征在于,所述步骤6中,相似度融合的方法为:社交网络结构相似度和用户向量语义相似度以一定的比例进行融合得到最终人物实体的用户相似度,然后将计算的用户相似度降序排列,相似度得分最高的候选实体人物的节点作为跨网络人物关联的最终节点。
CN201910323380.5A 2019-04-22 2019-04-22 基于社交网络知识图谱的跨网络人物关联方法 Active CN110110094B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910323380.5A CN110110094B (zh) 2019-04-22 2019-04-22 基于社交网络知识图谱的跨网络人物关联方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910323380.5A CN110110094B (zh) 2019-04-22 2019-04-22 基于社交网络知识图谱的跨网络人物关联方法

Publications (2)

Publication Number Publication Date
CN110110094A CN110110094A (zh) 2019-08-09
CN110110094B true CN110110094B (zh) 2022-07-01

Family

ID=67486254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910323380.5A Active CN110110094B (zh) 2019-04-22 2019-04-22 基于社交网络知识图谱的跨网络人物关联方法

Country Status (1)

Country Link
CN (1) CN110110094B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489610B (zh) * 2019-08-14 2022-02-08 北京海致星图科技有限公司 一种知识图谱实时查询解决方案
CN110502637B (zh) * 2019-08-27 2022-03-01 秒针信息技术有限公司 一种基于异构信息网络的信息处理方法和信息处理装置
CN110502670A (zh) * 2019-08-29 2019-11-26 南京智慧光信息科技研究院有限公司 基于人工智能的网络社交关系知识图谱生成方法和系统
CN110717099B (zh) * 2019-09-25 2022-04-22 优地网络有限公司 一种推荐影片的方法及终端
CN110782222A (zh) * 2019-10-11 2020-02-11 厦门谷道集团有限公司 基于大数据智能邮箱识别社交媒体账号的方法、系统及设备
CN110851491B (zh) * 2019-10-17 2023-06-30 天津大学 基于多重邻居节点的多重语义影响的网络链接预测方法
CN111160604A (zh) * 2019-11-22 2020-05-15 深圳壹账通智能科技有限公司 缺失信息预测方法、装置、计算机设备及存储介质
CN111125352B (zh) * 2019-12-23 2023-05-16 同方知网数字出版技术股份有限公司 一种基于知识图谱的关联数据可视化数据驾驶舱构建方法
CN111192154B (zh) * 2019-12-25 2023-05-02 西安交通大学 一种基于风格迁移的社交网络用户节点匹配方法
CN111488401B (zh) * 2020-03-06 2023-06-23 天津大学 一种基于多元化关系画像技术的在线社会关系搜索方法
CN111611532B (zh) * 2020-05-20 2023-11-17 杭州中奥科技有限公司 人物关系补全方法、装置及电子设备
CN111754337B (zh) * 2020-06-30 2024-02-23 上海观安信息技术股份有限公司 一种信用卡养卡套现团体识别的方法及系统
CN111930961B (zh) * 2020-09-02 2024-09-17 平安国际智慧城市科技股份有限公司 竞争性关系分析方法、装置、电子设备及存储介质
CN112084428B (zh) * 2020-09-17 2024-02-02 辽宁工程技术大学 一种基于耦合网络嵌入及知识图谱的协同过滤推荐方法
CN112288007B (zh) * 2020-10-29 2022-08-09 北京邮电大学 一种基于多元关系表示的跨域身份关联方法和系统
CN112446741B (zh) * 2020-12-10 2022-02-15 华院计算技术(上海)股份有限公司 一种基于概率知识图谱的用户画像方法及系统
CN112836993B (zh) * 2021-03-06 2024-05-14 东南大学 一种基于知识网络的知识质量评估方法
CN112699382B (zh) * 2021-03-25 2021-06-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 物联网网络安全风险的评估方法、装置及计算机存储介质
CN113220994B (zh) * 2021-05-08 2022-10-28 中国科学院自动化研究所 基于目标物品增强表示的用户个性化信息推荐方法
CN113190593A (zh) * 2021-05-12 2021-07-30 《中国学术期刊(光盘版)》电子杂志社有限公司 一种基于数字人文知识图谱的搜索推荐方法
CN113282744B (zh) * 2021-06-07 2022-11-08 南京邮电大学 一种基于节点影响力度量的文学作品人物关系可视化分析方法
CN113269653B (zh) * 2021-06-18 2024-03-29 北京市科学技术情报研究所 一种基于圈层化思想的社交网络管理方法及系统
CN113722567B (zh) * 2021-08-24 2022-04-19 北京半人科技有限公司 一种基于多目标融合的实体关系抽取方法
CN115271987B (zh) * 2022-09-28 2023-01-10 南京拓界信息技术有限公司 一种基于手机数据的跨应用群体关系分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN108563653A (zh) * 2017-12-21 2018-09-21 清华大学 一种用于知识图谱中知识获取模型的构建方法及系统
CN108717425A (zh) * 2018-04-26 2018-10-30 国家电网公司 一种基于多数据源的知识图谱人物实体对齐方法
CN108804701A (zh) * 2018-06-19 2018-11-13 苏州大学 基于社交网络大数据的人物画像模型构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190114362A1 (en) * 2017-10-12 2019-04-18 Facebook, Inc. Searching Online Social Networks Using Entity-based Embeddings

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN108563653A (zh) * 2017-12-21 2018-09-21 清华大学 一种用于知识图谱中知识获取模型的构建方法及系统
CN108717425A (zh) * 2018-04-26 2018-10-30 国家电网公司 一种基于多数据源的知识图谱人物实体对齐方法
CN108804701A (zh) * 2018-06-19 2018-11-13 苏州大学 基于社交网络大数据的人物画像模型构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于实体对齐的知识图谱构建研究";贾丙静等;《佳木斯大学学报(自然科学版)》;20180515;第36卷(第3期);第453-455、464页 *

Also Published As

Publication number Publication date
CN110110094A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN110110094B (zh) 基于社交网络知识图谱的跨网络人物关联方法
CN105740401B (zh) 一种基于个体行为和群体兴趣的兴趣地点推荐方法及装置
JP5391634B2 (ja) 文書の段落分析によるその文書のタグの選択
JP5391633B2 (ja) オントロジー空間を規定するタームの推奨
US7636713B2 (en) Using activation paths to cluster proximity query results
CN112966091B (zh) 一种融合实体信息与热度的知识图谱推荐系统
CN107506480A (zh) 一种基于评论挖掘与密度聚类的双层图结构推荐方法
CN106960044B (zh) 一种基于张量分解及加权hits的时间感知个性化poi推荐方法
JP2009093651A (ja) 統計分布を用いたトピックスのモデリング
CN105843799B (zh) 一种基于多源异构信息图模型的学术论文标签推荐方法
Zhang et al. STCS lexicon: Spectral-clustering-based topic-specific Chinese sentiment lexicon construction for social networks
CN106709037A (zh) 一种基于异构信息网络的电影推荐方法
CN111221968B (zh) 基于学科树聚类的作者消歧方法及装置
CN105719191A (zh) 多尺度空间下不确定行为语义的社交群体发现系统及方法
CN106547864A (zh) 一种基于查询扩展的个性化信息检索方法
CN109933720B (zh) 一种基于用户兴趣自适应演化的动态推荐方法
CN117112784B (zh) 一种文献识别与技术路径演化的实现方法
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN111078859B (zh) 一种基于引用次数的作者推荐方法
CN118071400A (zh) 基于图计算技术在信息消费领域的应用方法及系统
CN117591969A (zh) 一种基于ipc标签共现的规则检核方法及系统
Dalatu et al. Hybrid distance functions for K-Means clustering algorithms
CN115544211A (zh) 一种对外贸易涉外法律索引与行业风险评估的方法
Chen et al. Community Detection Based on DeepWalk Model in Large‐Scale Networks
Jevintya et al. APPLICATION OF THE K-MEANS AND DECISION TREE ALGORITHMS IN DETERMINING STUDENT ACHIEVEMENT

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant