CN111488401A - 一种基于多元化关系画像技术的在线社会关系搜索方法 - Google Patents

一种基于多元化关系画像技术的在线社会关系搜索方法 Download PDF

Info

Publication number
CN111488401A
CN111488401A CN202010153660.9A CN202010153660A CN111488401A CN 111488401 A CN111488401 A CN 111488401A CN 202010153660 A CN202010153660 A CN 202010153660A CN 111488401 A CN111488401 A CN 111488401A
Authority
CN
China
Prior art keywords
relationship
character
corpus
relation
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010153660.9A
Other languages
English (en)
Other versions
CN111488401B (zh
Inventor
王博
杨毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010153660.9A priority Critical patent/CN111488401B/zh
Publication of CN111488401A publication Critical patent/CN111488401A/zh
Application granted granted Critical
Publication of CN111488401B publication Critical patent/CN111488401B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多元化关系画像技术的在线社会关系搜索方法,首先,针对指定的语料数据基于非直观和直观画像方法进行人际关系画像;然后,通过人际关系在线画像系统将人际关系画像进行可视化,即得到与该人际关系画像结果对应的社会关系网络拓扑图,并通过网络拓扑图中边的颜色和粗细反映关系的类型和强度。然后可在该网络拓扑图中根据设定的好友关系数量和好友关系类型进行人物搜索,根据与设定的关系个例最相似的关系进行人物关系搜索,并实时显示搜索结果。本发明以统一的方式表示直观画像和非直观画像结果,并提供了搜索方法,为研究两种画像方式之间的内在联系提供了一个重要的可视化工具以及理论基础。

Description

一种基于多元化关系画像技术的在线社会关系搜索方法
技术领域
本发明涉及数据挖掘,用户画像,社会关系网络拓扑结构分析方法。
背景技术
社会关系画像是社会计算领域中一个重要也是热门的研究话题。当前,社会关系画像有两种主要形式:非直观画像和直观画像。非直观画像即用网络拓扑结构来对社会关系进行描述,而非直观画像网络拓扑结构的生成又有很多不同的方法。其中,三元闭包理论和平衡论以及其扩展理论是较早的社会关系画像理论,其可以直接用在社会关系网络拓扑图中对社会关系进行建模。此外,利用关系嵌入方法将关系字符等距离嵌入到提及关系双方的上下文语料中然后利用word2vec方法来获得关系字符向量,用关系字符向量来描述非直观画像网络拓扑结构图中的边是另外一种常用的方法。利用wrod2vec方法进行用户画像获得用户向量,通过用户向量差来表示用户之间的关系也是一种非直观画像的方法。对于直观画像而言,使用几个词语或者句子来直观地反映关系是最常用的方法,比如,针对小说《三国演义》,用“父子”来描述关系“刘备-阿斗”,用“兄弟”来描述关系“刘备-关羽”。
然而,非直观画像与直观画像结果是否一致,两者之间是否有一定的联系目前尚未形成定论。同时也没有非直观画像和直观画像自动生成工具,因此导致探索这两种画像方式的内在联系有极大不便。此外,社会关系的两大属性关系强度和关系类型的研究也往往各执一派,尚没有研究去探索不同画像方式关系强度和关系类型之间蕴含的一些联系。
发明内容
针对上述现有技术,本发明旨在设计并开发一个基于多元化关系画像的社会关系搜索方法。允许用户上传两种不同类型的语料数据,分别是第三方描述数据(新闻,电影剧本等)和人物语言数据(微博等社会媒体言论)。本发明中根据数据文件,自动生成其对应的非直观画像或者直观画像,并通过设计和改进算法,利用统一的网络拓扑结构图来直观反映不同画像方法的画像结果。同时,通过为网络拓扑结构图中的边设置不同的颜色,粗细来反映社会关系的类型和强度属性。可以直观地看到不同画像方法生成的社会关系网络拓扑结构图,来进行对比和研究。生成网络拓扑结构图后,本发明提供了基于好友关系数量和好友关系类型的人物搜索方法以及基于关系相似度的关系搜索方法。此外,作为本发明的延伸,还设计有结点关系分类,结点合并,核心人物定位等功能来方便在生成网络拓扑结构图后做进一步研究分析。
为了解决上述技术问题,本发明提出了一种基于多元化关系画像技术的在线社会关系搜索方法,首先,针对指定的语料数据基于非直观画像方法和直观画像方法得到人际关系画像;然后,通过人际关系在线画像系统将人际关系画像进行可视化,即得到与该人际关系画像结果对应的社会关系网络拓扑图,根据设定的好友关系数量和好友关系类型在该社会关系网络拓扑图中进行人物搜索,根据与设定的关系个例最相似的关系在该社会关系网络拓扑图中进行人物关系搜索,并实时显示人物和人物关系的搜索结果。
进一步讲,本发明所述的基于多元化关系画像技术的在线社会关系搜索方法,其中,所述语料数据包括第三方描述数据和人物语言数据,第三方描述数据是指以第三人称的方式对人物进行描述的语料数据,人物语言数据是指人物在社交媒体上以第一人称的方式发表的一些互动语言或者观点看法。
所述非直观画像包括基于关系嵌入方法的非直观画像或是基于向量差方法的非直观画像;所述直观画像是基于主题词方法的直观画像。
本发明中,所述语料数据是第三方描述数据或是人物语言数据,针对指定的语料数据基于关系嵌入方法得到的人物A和人物B之间人际关系的非直观画像,包括以下步骤:
1)定义语料数据集的最小语料单位,其中,第三方描述数据的最小语料单位为段落,人物语言数据的最小语料单位为一次互动语言;
2)对语料数据集进行分词处理,分词时将人物A的名称和人物B的名称加入到分词词典中,确保人物A的名称和人物B的名称被分割成独立的词语;
3)在语料数据集中找到同时出现人物A和人物B的所有最小语料单位,构成集合w;
4)定义人物A和人物B的关系为字符串A-B,将所述关系A-B以步长2n等距离嵌入到集合w中的每个最小语料单位中,不够2n整数倍的最后一次嵌入直接将关系A-B嵌入到最小语料结尾处;
5)使用word2vec方法,设置词向量窗口大小为n,对嵌入关系A-B后的语料数据集进行训练,从而生成词向量文件;
6)在词向量文件中找到与关系A-B对应的向量作为描述人物A和人物B的关系的向量,即为人物A和人物B之间人际关系的非直观画像。
本发明中,所述语料数据为第三方描述数据,针对指定的第三方描述数据基于向量差方法得到的人物A和人物B之间人际关系的非直观画像,包括以下步骤:
1)对包含有人物A和人物B的语料数据文件进行分词处理,分词时将人物A的名称和人物B的名称加入到分词词典中,确保人物A的名称和人物B的名称被分割成独立的词语;
2)利用word2vec方法,对分词后的包含有人物A和人物B的语料数据文件进行训练获得相应的词向量文件;
3)搜索该词向量文件,分别获得人物A的名称和人物B的名称对应的词向量,其中,人物A的名称对应的词向量记为:vA=(d1,d2,...,d100)
人物B的名称对应的词向量记为:vB=(p1,p2,...,p100)
定义人物A和人物B的关系为字符串A-B,将所述关系A-B表示为向量:
vA-B=(d1-p1,d2-p2,...,d100-p100)
定义关系A-B的关系强度为:-|vA-B|
定义关系A-B的关系相似度为向量vA和向量vB的余弦值,该余弦值越大,则关系A-B关系类型相似度越高,反之相似度越低。
本发明中,所述语料数据为人物语言数据,针对指定的人物语言数据基于向量差方法得到的人物A和人物B之间人际关系的非直观画像,包括以下步骤:
1)定义人物语言数据中语料数据集的最小语料单位为一次互动语言;
2)对人物语言数据集进行分词处理,分词时将人物A的名称和人物B的名称加入到分词词典中,确保人物A的名称和人物B的名称被分割成独立的词语;
3)在分词后的人物语言数据集上进行过滤得到:人物A的所有最小语料单位记为集合w1,人物B的所有最小语料单位记为集合w2
4)将人物A的名称以步长为2n等距离嵌入到集合w1的每个最小语料单位中,将人物B的名称以步长为2n等距离嵌入到集合w2的每个最小语料单位中;其中,不够2n整数倍的最后一次嵌入直接将相应名称嵌入到最小语料结尾处;
5)利用word2vec方法,设置词向量窗口大小为n,对嵌入完成后的人物语言数据集进行训练,得到包含该人物语言数据集中所有词语的词向量文件;
6)遍历该词向量文件,分别获得人物A的名称和人物B的名称对应的词向量,其中,人物A的名称对应的词向量记为:vA=(d1,d2,...,d100)
人物B的名称对应的词向量记为:vB=(p1,p2,…,p100)
定义人物A和人物B的关系为字符串A-B,将所述关系A-B表示为向量:
vA-B=(d1-p1,d2-p2,...,d100-p100)
定义关系A-B的关系强度为:-|vA-B|
定义关系A-B的关系相似度为向量vA和向量vB的余弦值,该余弦值越大,则关系A-B关系类型相似度越高,反之相似度越低。
本发明中,所述语料数据为第三方描述数据,针对指定的第三方描述数据基于主题词方法的直观画像得到的人物A和人物B之间人际关系画像的步骤是:
1)定义第三方描述数据中语料数据集的最小语料单位为段落;
2)对第三方描述数据集进行分词并且去停止词;
3)在分词后的第三方描述数据集上进行过滤得到所有同时出现人物A和人物B的最小语料单位,记为集合s,集合s中的所有词语组成集合w;
4)基于所述第三方描述数据集,计算集合w中每个词语的词频-逆文档频率即tf-idf值;
5)对集合w中所有词语根据其tf-idf值进行从大到小排序,取排序后的前5个词语作为人物A和人物B之间人际关系画像。
本发明中,所述语料数据为人物语言数据,针对指定的人物语言数据基于主题词方法的直观画像得到的人物A和人物B之间人际关系画像的步骤是:
1)定义人物语言数据中语料数据集的最小语料单位为一次互动语言;
2)在人物语言数据集上进行过滤得到:人物A的所有最小语料单位记为集合s1,人物B的所有最小语料单位记为集合s2
3)将人物语言数据集进行分词处理,包括集合s1和集合s2
4)分别提取集合s1和集合s2中所有词语,分别构成集合w1和集合w2
5)定义主题词语集合:w=w1∩w2
6)基于所述人物语言数据集中的所有最小语料单位,计算集合w中每个词语的词频-逆文档频率即tf-idf值;
7)对集合w中所有词语根据其tf-idf值进行从大到小排序,取排序后的前5个词语作为对人物A和人物B之间人际关系画像。
本发明中,使用PHP,HTML,CSS,JavaScript编程语言开发人际关系在线画像系统,将人际关系画像进行可视化展示,并实现在线搜索,实时显示搜索结果。
所述在线搜索包括基于人物的搜索和基于关系的搜索;
基于人物搜索是:根据设定的好友关系数量和好友关系类型,在人际关系在线画像系统生成的社会网络拓扑图中定位相应的人物;
基于关系搜索是:根据设定关系个例X-Y,在人际关系在线画像系统生成的社会关系网络拓扑图中找出与该关系个例X-Y最相似的关系,具体步骤如下:
1)在基于当前人际关系画像所使用的所有语料数据训练的词向量库中找到人物X和人物Y的词向量分别记为向量vx和向量vy
2)将该关系个例X-Y的关系向量表示为:v=vx-vy
3)计算向量v与人际关系在线画像系统生成的社会关系网络拓扑图中每对关系的余弦值;
4)取余弦值最大的关系则为搜索得到与关系个例X-Y最相似的关系,即为该关系个例X-Y关系搜索的结果。
与现有技术相比,本发明的有益效果是:
本发明对直观画像和非直观画像算法进行设计改进,将直观画像也通过网络拓扑结构图进行展示,同时通过网络拓扑结构图中边的颜色和粗细来反映人物之间关系的类型和强度。这样将社会关系的直观画像与非直观画像以一种统一的表示方式联系在了一起,为之后直观画像和非直观画像方式之间内在联系的研究提供了一个重要的可视化工具以及理论基础。可以利用本发明对大量社会关系网络分别进行画像,来归纳总结探究不同画像方法之间蕴含的联系。
本发明提出的多元化关系画像方法对于分析社交群体中关系的强弱,属性具有重要意义。同时在生产生活中,可以用来进行广告投放,好友群体推荐,甚至可以挖掘某个社会关系网络的潜在关系,这对于案件侦查等都有重要的意义。
附图说明
图1是本发明中基于关系嵌入第三方描述数据非直观画像方法系统生成图;
图2是本发明中基于关系嵌入第三方描述数据非直观画像方法关系分类图;
图3是本发明中基于向量差第三方描述数据非直观画像方法系统生成图;
图4是本发明中基于向量差第三方描述数据非直观画像方法关系分类图;
图5是本发明中人物语言数据非直观画像方法系统生成图;
图6是本发明中人物语言数据非直观画像方法关系分类图;
图7是本发明中第三方描述数据直观画像方法系统生成图;
图8是本发明中第三方描述数据直观画像方法主题词关系分类图;
图9是本发明中人物语言数据直观画像方法系统生成图;
图10是本发明中人物语言数据直观画像方法主题词关系分类图;
图11是本发明中人物搜索方法系统生成图;
图12是本发明中关系搜索方法系统生成图。
具体实施方式
下面结合附图及具体实施例对本发明做进一步的说明,但下述实施例绝非对本发明有任何限制。
本发明的设计思路主要包括三方面,一是,基于不同类型语料数据对人与人的关系分别从直观和非直观的角度进行画像方法,即可以通过人与人之间的邮件往来内容,新闻中对不同人物的报道,每个人发送的微博内容等数据来得到现实社会关系网络中人与人之间关系的类型,强度等属性,也可以通过小说等文学作品中对不同人物的撰写来得到该本小说中所有人物之间的关系类型,强度等属性;二是,人际关系在线画像系统(在线可视化系统)的设计实现了可以通过上传相应的语料数据文件,在线实时生成该文件中所包含的社会关系网络的网络拓扑结构图,并通过拓扑结构图中边的颜色,粗细等方式来反映该社会关系网络中每对关系的关系类型,关系强度等属性;三是,人际关系在线画像系统在生成社会关系网络图后,对网络中的人物或者关系进行在线搜索。
本发明提出的一种基于多元化关系画像技术的在线社会关系搜索方法,首先,针对指定的语料数据基于非直观画像方法和直观画像方法得到人际关系画像;然后,通过人际关系在线画像系统将人际关系画像进行可视化,本发明中的人际关系在线画像系统是使用PHP,HTML,CSS,JavaScript编程语言开发的,即通过该人际关系在线画像系统得到与该人际关系画像结果对应的社会关系网络拓扑图,根据设定的好友关系数量和好友关系类型在该社会关系网络拓扑图中进行人物搜索,根据与设定的关系个例最相似的关系在该社会关系网络拓扑图中进行人物关系搜索,并实时显示人物和人物关系的搜索结果。
本发明中的语料数据包括第三方描述数据和人物语言数据,其中,第三方描述数据是指以第三人称的方式对人物进行描述的语料数据,人物语言数据是指人物在社交媒体上以第一人称的方式发表的一些互动语言或者观点看法。
本发明中,非直观画像包括基于关系嵌入方法的非直观画像或是基于向量差方法的非直观画像;直观画像是基于主题词方法的直观画像;当然也并不排除利用其它方法获得的人际关系画像。
下面主要结合人际关系在线画像系统,对基于不同类型语料数据对人际关系进行非直观画像方法,基于不同类型语料数据对人际关系进行直观画像方法,以及在线搜索方法进行详细介绍。
实施例一、基于不同类型语料数据对人际关系进行非直观画像方法
主要针对两种不同类型的语料数据:第三方描述数据和人物语言数据。第三方描述数据是指以第三人称的方式对人物进行描述的语料数据,如新闻,小说等。人物语言数据是指人物在社交媒体上以第一人称的方式发表的一些互动语言或者观点看法,如新浪微博数据(一条微博),邮件数据(一封邮件)等。
在这两种类型语料上对人际关系进行非直观画像主要有如下两种方法:
(1)基于关系嵌入方法的非直观画像方法
以人物A和人物B之间关系的非直观画像为例,方法步骤如下:
1)对语料数据集进行分词处理,分词时将名字A的名称、人物B的名称加入到分词词典中,确保人物A的名称和人物B的名称可以被分割成独立的词语。
2)在语料数据集中找到同时出现人物A和人物B的所有最小语料单位,构成集合w;
3)定义人物A和人物B的关系为字符串为“A-B”。将所述关系A-B以步长2n距离嵌入到集合w中的每个最小语料单位中,不够2n整数倍的最后一次嵌入直接将关系A-B嵌入到最小语料结尾处即可。
4)使用word2vec方法,设置词向量窗口大小为n,对嵌入关系A-B后的语料数据集进行训练,从而生成词向量文件;
5)在词向量文件中找到与关系A-B对应的向量作为描述人物A和人物B的关系的向量,将其作为人物A和人物B之间人际关系的非直观表示。
通过上述方法步骤,我们可以将一个社会关系网络中的每个关系都用一个向量来进行非直观表示。
如图1所示,在小说《骆驼祥子》上使用基于关系嵌入法生成的非直观画像,不同结点代表小说中的不同人物,人物与人物之间的关系用线条表示,不同颜色的线条代表不同种类的关系。进一步地,定义关系的相似度用关系向量的余弦值表示,余弦值越大关系越相似,基于关系相似度,采用层次聚类的方式对关系进行聚类。图2为将类别个数设定为3时的非直观画像结果。可以看到,此时所有关系(共23对)被分成了三类,关系“杨先生-杨二太太”是一类,关系“夏先生-夏太太”是一类,其余的21对关系为一类,分别用三种不同的颜色表示三种关系类型。
(2)基于向量差方法的非直观画像方法
基于向量差方法的非直观画像方法在第三方描述数据和人物语言数据上的算法步骤不同。同样以人物A和人物B之间关系的非直观画像为例。
在第三方描述数据上,基于向量差方法的非直观画像方法步骤如下:
1)对包含有人物A和人物B的语料数据文件进行分词处理,分词时将人物A的名称和人物B的名称加入到分词词典中,确保人物A的名称和人物B的名称被分割成独立的词语。
2)利用word2vec方法,对分词后的包含有人物A和人物B的语料数据文件进行训练获得相应的词向量文件。
3)搜索词向量文件,分别获得:
人物A名称对应的词向量记为:vA=(d1,d2,...,d100),
人物B名称对应的词向量记为:vB=(p1,p2,...,p100),
则,将人物A和人物B之间的关系“A-B”表示成向量:
vA-B=(d1-p1,d2-p2,...,d100-p100)
进一步地,定义关系“A-B”的关系强度为:-|vA-B|
定义关系A-B的关系相似度为向量vA和向量vB的余弦值,该余弦值越大,则关系A-B关系类型相似度越高,反之相似度越低。
如图3所示,在小说《骆驼祥子》上采用上述方法进行非直观画像的结果。关系的强度用不同线条的粗细来表示,可以看到,在画像结果中,有几个比较典型的关系:在祥子的所有的人际关系中,他和虎妞的线条最粗,即他和虎妞的关系最强;夏先生与夏太太的关系线条明显粗于夏先生与祥子的关系线条,即夏先生与夏太太的关系强于夏先生与祥子的关系;与杨先生有关系的人物有杨太太,杨二太太,祥子和张妈,其中杨先生与祥子的关系是最弱的。图4为在上述方法下,将类别个数设定为3时候的非直观画像结果,可以看到分类结果与图2方法的分类结果是大致相同的。关系“杨先生-杨太太”是一类,关系“夏先生-夏太太”是一类,其余的21对关系是一类,同样分别用三种不同的颜色表示关系类型。这也进行了相互验证,说明了方法的合理性。
在人物语言数据上,基于向量差方法的非直观画像方法步骤如下:
1)对人物语言数据集进行分词,分词时将人物A的名称和人物B的名称加入到分词词典中,确保人物A的名称和人物B的名称被分割成独立的词语。
2)在分词后的人物语言数据集上进行过滤得到:人物A的所有最小语料单位记为集合w1,人物B的所有最小语料单位记为集合w2
3)将人物A的名称以步长为2n等距离嵌入到集合w1的每个最小语料单位中,将人物B的名称以步长为2n等距离嵌入到集合w2的每个最小语料单位中。同样,不够2n整数倍的最后一次嵌入直接将相应名称嵌入到最小语料结尾处即可。
4)利用word2vec方法,设置词向量窗口大小为n,对嵌入完成后的人物语言数据集进行训练,得到包含该人物语言数据集中所有词语的词向量文件。
5)遍历该词向量文件,得到人物A的名称和人物B的名称对应的词向量。则人物A和人物B之间的关系向量计算方法,关系强度计算方法和关系相似度计算方法都与在第三方描述数据上基于向量差方法非直观画像方法步骤中的定义相同。
如图5所示,在新浪微博数据集上随机抽取的10个用户10对关系采用上述方法进行非直观画像后,人际关系在线画像系统中生成的网络结构图,同样线条粗细表示关系强弱,线条颜色表示关系类型。可以看出在该社会关系网络中,没有较明显的强度优于其他关系的关系。图6为将类别个数设定为2时,人际关系在线画像系统生成的非直观画像结果。可以看到,共有两种不同类型的关系,用户1427622133(新浪微博用户ID)与用户1427583973以及其与用户1427595804的关系是属于同种类型的,其他所有的关系是属于另外一种类型的。分别用两种不同的颜色表示两种类型的关系。
实施例二、基于不同类型语料数据对人际关系进行直观画像方法
本方法同样主要针对第三方描述数据和人物语言数据这两种不同类型的语料数据。依然以人物A和人物B之间关系的直观画像为例,方法步骤分别如下:
在第三方描述数据上,直观画像方法步骤如下:
1)对第三方描述数据集进行分词并且去停止词。
2)在分词后的第三方描述数据集上,过滤得到所有同时出现人物A和人物B的最小语料单位,记为集合s,集合s中的所有词语组成集合w。
3)基于整个第三方描述数据集,计算集合w中每个词语的tf-idf(词频-逆文档频率)值。
4)对集合w中所有词语根据其tf-idf值进行从大到小排序,取排序后的前5个词语作为对人物A和人物B关系的直观画像结果。
进一步地,假设人物A和人物B关系直观画像结果中,排名前5的词语的tf-idf值分别为:tf1*idf1,tf2*idf2,tf3*idf3,tf4*idf4,tf5*idf5。则我们定义人物A和人物B的关系强度为:weight=tf1*idf1+tf2*idf2+tf3*idf3+tf4*idf4+tf5*idf5
如图7所示,在小说《骆驼祥子》上,使用上述直观画像方法,在人际关系在线画像系统上自动生成的画像结果。同样,画像结果中线条的粗细表示人际关系的强度。观察画像结果可以发现,关系“杨先生-杨二太太”和关系“夏先生-夏太太”明显强于其他关系。进一步地,结果表明在杨先生的社交圈中,他和杨二太太的关系最强;在夏先生的社圈中,他和夏太太的关系最强。该结果与图3中采用的基于关系向量差的非直观画像方法中结果基本一致,进一步地进行了相互验证,验证了方法的合理性。
依据主题词关系对《骆驼祥子》中所有关系进行了自动分类,人际关系在线画像系统自动分类结果如图8所示。
在人物语言数据上,直观画像方法步骤如下:
1)在人物语言数据集上进行过滤,得到人物A的所有最小语料单位记为s1,人物B的所有最小语料单位记为s2
2)将人物语言数据集进行分词处理,包括集合s1和集合s2
3)分别提取集合s1和集合s2中所有词语,构成集合w1和集合w2
4)定义主题词语集合:w=w1∩w2
5)基于人物语言数据集中的所有最小语料单位,计算集合w中每个词语的tf-idf值。
6)对集合w中所有词语根据其tf-idf值进行从大到小排序,取排序后的前5个词语作为对人物A和人物B关系的直观画像结果。同样人物A和人物B的关系强度用这5个词语的tf-idf值的和来表示。
如图9所示,在新浪微博数据中抽取的10个用户,10对关系,采用上述方法进行直观画像,在我们的人际关系在线画像系统中生成的直观画像结果。观察发现在该画像结果中,用户1427593052(新浪微博用户ID)与用户1427616842,用户1427622133与用户1427583973相比于其他8对关系,线条较粗,关系较强。进一步,我们依据关系主题词对该社会关系网络中的关系进行了分类,人际关系在线画像系统自动生成分类结果如图10所示。
实施例三、在线搜索
根据设定的好友关系数量和好友关系类型在该社会关系网络拓扑图中进行人物搜索,根据与设定的关系个例最相似的关系在该社会关系网络拓扑图中进行人物关系搜索,并实时显示人物和人物关系的搜索结果。
为了方便在较大网络中迅速搜索到想要找的人物或者关系,该实施例中为人际关系在线画像系统设计了基于人物的搜索方法和基于关系的搜索方法,分别如下:
(1)人物搜索方法
根据设定的好友关系数量和好友关系类型,在人际关系在线画像系统生成的社会网络拓扑图中定位相应的人物,并实时显示搜索结果,如图11所示,在图3所示的在小说《骆驼祥子》上采用基于向量差的方法生成非直观画像上搜索的结果。设置想要搜索好友数量数大于等于4且好友关系类型大于等于3的所有人物,人际关系在线画像系统实时搜索结果表示符合该条件的人物有三个,分别是祥子,曹先生和杨先生。
(2)关系搜索方法
关系搜索为在人际关系在线画像系统的搜索框中输入想要搜索的关系个例,系统自动搜索在当前社会关系网络中与该关系个例最相似的关系。以搜索与关系个例“X-Y”最相似的关系为例,
关系搜索方法步骤如下:
1)在基于当前人际关系画像所使用的所有语料数据(即一个较大语料库)训练的词向量库中找到人物X和人物Y的词向量分别记为向量vx和向量vy
2)则将关系“X-Y”的关系向量表示为:v=vx-vy
3)计算向量v与人际关系在线画像系统生成的社会关系网络拓扑图中每对关系的余弦值。
4)取余弦值最大的关系则为搜索得到与关系“X-Y”最相似的关系。
如图12所示,在图3所示的基于小说《骆驼祥子》的非直观画像结果上搜索与“父亲-女儿”最相似的关系,搜索结果为“二强子-小福子”。在原著中,小福子确实是二强子的女儿,验证了搜索结果的准确性。
尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。

Claims (10)

1.一种基于多元化关系画像技术的在线社会关系搜索方法,其特征在于,首先,针对指定的语料数据基于非直观画像方法和直观画像方法得到人际关系画像;然后,通过人际关系在线画像系统将人际关系画像进行可视化,即得到与该人际关系画像结果对应的社会关系网络拓扑图,根据设定的好友关系数量和好友关系类型在该社会关系网络拓扑图中进行人物搜索,根据与设定的关系个例最相似的关系在该社会关系网络拓扑图中进行人物关系搜索,并实时显示人物和人物关系的搜索结果。
2.根据权利要求1所述的基于多元化关系画像技术的在线社会关系搜索方法,其特征在于,所述语料数据包括第三方描述数据和人物语言数据,第三方描述数据是指以第三人称的方式对人物进行描述的语料数据,人物语言数据是指人物在社交媒体上以第一人称的方式发表的一些互动语言或者观点看法。
3.根据权利要求2所述的基于多元化关系画像技术的在线社会关系搜索方法,其特征在于,所述非直观画像包括基于关系嵌入方法的非直观画像或是基于向量差方法的非直观画像;所述直观画像是基于主题词方法的直观画像。
4.根据权利要求3所述的基于多元化关系画像技术的在线社会关系搜索方法,其特征在于,所述语料数据是第三方描述数据或是人物语言数据,针对指定的语料数据基于关系嵌入方法得到的人物A和人物B之间人际关系的非直观画像,包括以下步骤:
1)定义语料数据集的最小语料单位,其中,第三方描述数据的最小语料单位为段落,人物语言数据的最小语料单位为一次互动语言;
2)对语料数据集进行分词处理,分词时将人物A的名称和人物B的名称加入到分词词典中,确保人物A的名称和人物B的名称被分割成独立的词语;
3)在语料数据集中找到同时出现人物A和人物B的所有最小语料单位,构成集合w;
4)定义人物A和人物B的关系为字符串A-B,将所述关系A-B以步长2n等距离嵌入到集合w中的每个最小语料单位中,不够2n整数倍的最后一次嵌入直接将关系A-B嵌入到最小语料结尾处;
5)使用word2vec方法,设置词向量窗口大小为n,对嵌入关系A-B后的语料数据集进行训练,从而生成词向量文件;
6)在词向量文件中找到与关系A-B对应的向量作为描述人物A和人物B的关系的向量,即为人物A和人物B之间人际关系的非直观画像。
5.根据权利要求3所述的基于多元化关系画像技术的在线社会关系搜索方法,其特征在于,所述语料数据为第三方描述数据,针对指定的第三方描述数据基于向量差方法得到的人物A和人物B之间人际关系的非直观画像,包括以下步骤:
1)对包含有人物A和人物B的语料数据文件进行分词处理,分词时将人物A的名称和人物B的名称加入到分词词典中,确保人物A的名称和人物B的名称被分割成独立的词语;
2)利用word2vec方法,对分词后的包含有人物A和人物B的语料数据文件进行训练获得相应的词向量文件;
3)搜索该词向量文件,分别获得人物A的名称和人物B的名称对应的词向量,其中,
人物A的名称对应的词向量记为:
vA=(d1,d2,...,d100)
人物B的名称对应的词向量记为:
vB=(p1,p2,...,p100)
定义人物A和人物B的关系为字符串A-B,将所述关系A-B表示为向量:
vA-B=(d1-p1,d2-p2,…,d100-p100)
定义关系A-B的关系强度为:
-|vA-B|
定义关系A-B的关系相似度为向量vA和向量vB的余弦值,该余弦值越大,则关系A-B关系类型相似度越高,反之相似度越低。
6.根据权利要求3所述的基于多元化关系画像技术的在线社会关系搜索方法,其特征在于,所述语料数据为人物语言数据,针对指定的人物语言数据基于向量差方法得到的人物A和人物B之间人际关系的非直观画像,包括以下步骤:
1)定义人物语言数据中语料数据集的最小语料单位为一次互动语言;
2)对人物语言数据集进行分词处理,分词时将人物A的名称和人物B的名称加入到分词词典中,确保人物A的名称和人物B的名称被分割成独立的词语;
3)在分词后的人物语言数据集上进行过滤得到:人物A的所有最小语料单位记为集合w1,人物B的所有最小语料单位记为集合w2
4)将人物A的名称以步长为2n等距离嵌入到集合w1的每个最小语料单位中,将人物B的名称以步长为2n等距离嵌入到集合w2的每个最小语料单位中;其中,不够2n整数倍的最后一次嵌入直接将相应名称嵌入到最小语料结尾处;
5)利用word2vec方法,设置词向量窗口大小为n,对嵌入完成后的人物语言数据集进行训练,得到包含该人物语言数据集中所有词语的词向量文件;
6)遍历该词向量文件,分别获得人物A的名称和人物B的名称对应的词向量,其中,
人物A的名称对应的词向量记为:
vA=(d1,d2,...,d100)
人物B的名称对应的词向量记为:
vB=(p1,p2,...,p100)
定义人物A和人物B的关系为字符串A-B,将所述关系A-B表示为向量:
vA-B=(d1-p1,d2-p2,…,d100-p100)
定义关系A-B的关系强度为:
-|vA-B|
定义关系A-B的关系相似度为向量vA和向量vB的余弦值,该余弦值越大,则关系A-B关系类型相似度越高,反之相似度越低。
7.根据权利要求3所述的基于多元化关系画像技术的在线社会关系搜索方法,其特征在于,所述语料数据为第三方描述数据,针对指定的第三方描述数据基于主题词方法的直观画像得到的人物A和人物B之间人际关系画像的步骤是:
1)定义第三方描述数据中语料数据集的最小语料单位为段落;
2)对第三方描述数据集进行分词并且去停止词;
3)在分词后的第三方描述数据集上进行过滤得到所有同时出现人物A和人物B的最小语料单位,记为集合s,集合s中的所有词语组成集合w;
4)基于所述第三方描述数据集,计算集合w中每个词语的词频-逆文档频率即tf-idf值;
5)对集合w中所有词语根据其tf-idf值进行从大到小排序,取排序后的前5个词语作为人物A和人物B之间人际关系画像。
8.根据权利要求3所述的基于多元化关系画像技术的在线社会关系搜索方法,其特征在于,所述语料数据为人物语言数据,针对指定的人物语言数据基于主题词方法的直观画像得到的人物A和人物B之间人际关系画像的步骤是:
1)定义人物语言数据中语料数据集的最小语料单位为一次互动语言;
2)在人物语言数据集上进行过滤得到:人物A的所有最小语料单位记为集合s1,人物B的所有最小语料单位记为集合s2
3)将人物语言数据集进行分词处理,包括集合s1和集合s2
4)分别提取集合s1和集合s2中所有词语,分别构成集合w1和集合w2
5)定义主题词语集合:w=w1∩w2
6)基于所述人物语言数据集中的所有最小语料单位,计算集合w中每个词语的词频-逆文档频率即tf-idf值;
7)对集合w中所有词语根据其tf-idf值进行从大到小排序,取排序后的前5个词语作为对人物A和人物B之间人际关系画像。
9.根据权利要求1所述的基于多元化关系画像技术的在线社会关系搜索方法,其特征在于,使用PHP,HTML,CSS,JavaScript编程语言开发人际关系在线画像系统,将人际关系画像进行可视化展示,并实现在线搜索,实时显示搜索结果。
10.根据权利要求9所述的基于多元化关系画像技术的在线社会关系搜索方法,其特征在于,所述在线搜索包括基于人物的搜索和基于关系的搜索;
基于人物搜索是:根据设定的好友关系数量和好友关系类型,在人际关系在线画像系统生成的社会网络拓扑图中定位相应的人物;
基于关系搜索是:根据设定关系个例X-Y,在人际关系在线画像系统生成的社会关系网络拓扑图中找出与该关系个例X-Y最相似的关系,具体步骤如下:
1)在基于当前人际关系画像所使用的所有语料数据训练的词向量库中找到人物X和人物Y的词向量分别记为向量vx和向量vy
2)将该关系个例X-Y的关系向量表示为:
v=vx-vy
3)计算向量v与人际关系在线画像系统生成的社会关系网络拓扑图中每对关系的余弦值;
4)取余弦值最大的关系则为搜索得到与关系个例X-Y最相似的关系,即为该关系个例X-Y关系搜索的结果。
CN202010153660.9A 2020-03-06 2020-03-06 一种基于多元化关系画像技术的在线社会关系搜索方法 Active CN111488401B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010153660.9A CN111488401B (zh) 2020-03-06 2020-03-06 一种基于多元化关系画像技术的在线社会关系搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010153660.9A CN111488401B (zh) 2020-03-06 2020-03-06 一种基于多元化关系画像技术的在线社会关系搜索方法

Publications (2)

Publication Number Publication Date
CN111488401A true CN111488401A (zh) 2020-08-04
CN111488401B CN111488401B (zh) 2023-06-23

Family

ID=71794314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010153660.9A Active CN111488401B (zh) 2020-03-06 2020-03-06 一种基于多元化关系画像技术的在线社会关系搜索方法

Country Status (1)

Country Link
CN (1) CN111488401B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220773A (zh) * 2021-05-28 2021-08-06 华中师范大学 一种学生评测数据画像的地图可视化方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309706A (ja) * 2004-04-21 2005-11-04 Fuji Xerox Co Ltd 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
CN101963990A (zh) * 2010-10-09 2011-02-02 吴刚 一种个人关系及事件数字化建模与搜索方法
CN103577549A (zh) * 2013-10-16 2014-02-12 复旦大学 一种基于微博标签的人群画像系统和方法
CN107590169A (zh) * 2017-04-14 2018-01-16 南方科技大学 一种运营商网关数据的预处理方法及系统
CN110110094A (zh) * 2019-04-22 2019-08-09 华侨大学 基于社交网络知识图谱的跨网络人物关联方法
CN110245874A (zh) * 2019-03-27 2019-09-17 中国海洋大学 一种基于机器学习和知识推理的决策融合方法
CN110825824A (zh) * 2019-10-16 2020-02-21 天津大学 基于语义化直观/非直观用户性格表示的用户关系画像方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309706A (ja) * 2004-04-21 2005-11-04 Fuji Xerox Co Ltd 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
CN101963990A (zh) * 2010-10-09 2011-02-02 吴刚 一种个人关系及事件数字化建模与搜索方法
CN103577549A (zh) * 2013-10-16 2014-02-12 复旦大学 一种基于微博标签的人群画像系统和方法
CN107590169A (zh) * 2017-04-14 2018-01-16 南方科技大学 一种运营商网关数据的预处理方法及系统
CN110245874A (zh) * 2019-03-27 2019-09-17 中国海洋大学 一种基于机器学习和知识推理的决策融合方法
CN110110094A (zh) * 2019-04-22 2019-08-09 华侨大学 基于社交网络知识图谱的跨网络人物关联方法
CN110825824A (zh) * 2019-10-16 2020-02-21 天津大学 基于语义化直观/非直观用户性格表示的用户关系画像方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邱云飞等: "基于网络结构和文本内容的群体画像构建方法研究", 《图书情报工作》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220773A (zh) * 2021-05-28 2021-08-06 华中师范大学 一种学生评测数据画像的地图可视化方法及系统
CN113220773B (zh) * 2021-05-28 2023-09-01 华中师范大学 一种学生评测数据画像的地图可视化方法及系统

Also Published As

Publication number Publication date
CN111488401B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN113065577A (zh) 一种面向目标的多模态情感分类方法
CN110301117B (zh) 用于在会话中提供响应的方法和装置
Lu et al. Joint semantics and feature based image retrieval using relevance feedback
CN110717017A (zh) 一种处理语料的方法
CN107329995B (zh) 一种语义受控的答案生成方法、装置及系统
WO2018230551A1 (ja) 情報処理装置、情報処理方法及びプログラム
Guthier et al. Detection and visualization of emotions in an affect-aware city
CN110457404A (zh) 基于复杂异质网络的社交媒体账户分类方法
CN111597788B (zh) 基于实体对齐的属性融合方法、装置、设备及存储介质
CN110795542A (zh) 对话方法及相关装置、设备
CN112966091A (zh) 一种融合实体信息与热度的知识图谱推荐系统
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
CN112231554B (zh) 一种搜索推荐词生成方法、装置、存储介质和计算机设备
CN113557521A (zh) 使用机器学习从动画媒体内容项目提取时间信息的系统和方法
CN112148886A (zh) 一种内容知识图谱的构建方法及系统
CN108305306A (zh) 一种基于草图交互的动画数据组织方法
Zhu et al. Multimodal emotion classification with multi-level semantic reasoning network
CN110889505A (zh) 一种图文序列匹配的跨媒体综合推理方法和系统
CN111488401B (zh) 一种基于多元化关系画像技术的在线社会关系搜索方法
CN117196042B (zh) 一种教育元宇宙中学习目标的语义推理方法及终端
CN113934835A (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
CN116226533A (zh) 基于关联性预测模型的新闻关联推荐方法、装置及介质
CN114357290A (zh) 一种多视角社交媒体用户立场检测方法与装置
CN114579876A (zh) 虚假信息检测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant