CN110825824B - 基于语义化直观/非直观用户性格表示的用户关系画像方法 - Google Patents

基于语义化直观/非直观用户性格表示的用户关系画像方法 Download PDF

Info

Publication number
CN110825824B
CN110825824B CN201910980998.9A CN201910980998A CN110825824B CN 110825824 B CN110825824 B CN 110825824B CN 201910980998 A CN201910980998 A CN 201910980998A CN 110825824 B CN110825824 B CN 110825824B
Authority
CN
China
Prior art keywords
user
users
relationship
semantic
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910980998.9A
Other languages
English (en)
Other versions
CN110825824A (zh
Inventor
车宁远
王博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910980998.9A priority Critical patent/CN110825824B/zh
Publication of CN110825824A publication Critical patent/CN110825824A/zh
Application granted granted Critical
Publication of CN110825824B publication Critical patent/CN110825824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于语义化直观‑非直观用户性格表示的用户关系画像方法,首先,获取语言数据库;然后,分别通过直观用户性格表示方式和非直观用户性格表示方式得到关系画像;综合步骤二得到的用户间关系的语义化画像作为最终的用户关系语义化画像。其中,直观方式是基于用户的个人语言文本,计算用户的大五人格五个维度分值并生成一组五维向量作为该用户的语义化画像;两组五维向量做差值计算得到用户间关系的语义化画像。非直观方式是将获取的用户的个人语言文本在word2vec工具训练生成词向量;根据用户名称提取用户词向量,将用户词向量作为该用户的用户语义画像;计算两用户的用户词向量间的余弦相似度和均值向量即为用户间关系的语义化画像。

Description

基于语义化直观/非直观用户性格表示的用户关系画像方法
技术领域
本发明涉及了人物画像和基于人物画像的关系画像构建方法,属于社会计算领域的一个重点研究问题。该方法利用用户在互联网发表的个人语言文本对人物和人际关系进行直观及非直观自动化画像。
背景技术
在社会语言学理论中,语言文字不仅仅具有语言学中的符号表示意义,还包含着社会中复杂的因素及文化的意义。语言的文字体系构建了社会关系结构,并控制着社会关系内容,因而社会语言学认为语言结构和社会结构之间存在相互影响的机制。萨丕尔-沃尔夫假设表明,语言结构决定了人们的思维,进而人们的思维决定了行为和社会关系。
识别和了解社会网络中的人际关系是社会计算领域一个非常重要的课题,是社区发现、影响力分析、链接预测、个性化推荐等研究的基础。在一个关系画像的过程中,可以分为两个角度,分别是关系特性和关系内涵。关系特性是关系量化和计算的基本属性,关系内涵是关系参与者之间的关系内容。
在当前研究中,关系特性的研究多表现为利用一些网络结构信息来研究社会关系,传统社会关系分析研究多倾向于关系的方向、强度和类型。但社会网络结构具有静态、非主观、的特点,传统的社会关系分析缺乏语义性。关系内涵主要表现为关系类型识别,大部分是已知的比如师生、朋友、恋人之类。更一般的情况下,研究者将关系类型设置为简单的正负二元性类别,因此对关系内涵的研究逐渐演变为关系类型的识别及分类。然而,这种基于关系类型识别和分类的研究方式已经无法满足关系内涵的需要,关系类型十分有限,需要一系列词汇来描述关系,并且同样的关系类型往往存在不同的关系内涵。
因此,需要一种信息量更加丰富的方法,来刻画具有丰富语义内涵的关系画像,并使得该关系画像具有内涵性。
发明内容
针对上述现有技术,本发明尝试通过用户的个人语言文本数据得到用户画像,并利用用户画像间的联系,建立一种基于用户语言文本的人际关系画像自动化构建方法。
为了解决上述技术问题,本发明提出一种基于语义化直观-非直观用户性格表示的用户关系画像方法,首先,获取语言数据库;然后,分别通过直观用户性格表示方式和非直观用户性格表示方式得到关系画像;最后,综合步骤二得到的用户间关系的语义化画像作为最终的用户关系语义化画像。
进一步讲,本发明中,通过直观用户性格表示方式得到关系画像的具体内容是:根据获取的用户的个人语言文本,计算用户的大五人格五个维度分值,大五人格五个维度包括外倾性、稳定性、责任性、宜人性和开放性;将该用户的五个维度分值结构生成一组五维向量作为该用户的语义化画像;将两用户的两组五维向量做差值计算,得到的结果为用户间关系的大五人格用户关系向量,该关系向量即为用户间关系的语义化画像。
本发明中,通过非直观用户性格表示方式得到关系画像的具体内容是:根据获取的用户的个人语言文本,在word2vec工具训练生成词向量;根据用户名称提取用户词向量,将用户词向量作为该用户的用户语义画像;计算两用户的用户词向量间余弦相似度并求平均值,得到的余弦相似度和均值向量即为用户间关系的语义化画像。
与现有技术相比,本发明的有益效果是:
1、为了实现本发明的目的,本发明充分利用人们在互联网中留下的个人语言信息这一非常优质的资源,由于用户个人语言中包含丰富的语义信息,因此计算得到的关系画像具备了丰富的语义内涵。
2、发明中关系画像的呈现结果均为实值向量形式,因此便于后期结合实际需求进行各种量化计算,并且在大数据集的背景下计算准确率较高。
3、两种关系语义化画像构建方式是动态的,规避以往社会网络结构具有静态性的弊端,随着时间的推移,基于用户产生不同的个人语言文本,用户画像与用户关系画像可以在以时间为维度的基础上做到动态改变
4、适用于不同场景,在直观大五人格关系画像构建方式下,适合系统前端页面展示,辅助决策者进行主观判断;在非直观向量关系画像构建方式下,适合系统后台业务逻辑的应用和计算。
附图说明
图1是本发明中基于用户语言文本生成关系画像流程图;
图2是不同相似度区间内大五人格方式的关系计算准确率直方图;
图3是不同相似度区间内向量方式的关系计算准确率直方图。
具体实施方式
下面结合附图及具体实施例对本发明做进一步的说明,但下述实施例绝非对本发明有任何限制。
本发明提出的一种基于语义化直观-非直观用户性格表示的用户关系画像方法,如图1所示,包括以下步骤:
步骤一、获取语言数据库,得到用户的个人语言文本,例如,从互联网中获取新浪微博用户所发的微博、评论等个人语言数据;
步骤二、分别通过直观用户性格表示方式和非直观用户性格表示方式得到关系画像;其中,通过直观用户性格表示方式得到关系画像,包括:
(1)基于获取的数据集计算用户大五人格五个维度分值,即根据用户的个人语言文本,计算用户的大五人格五个维度分值,大五人格五个维度包括外倾性、稳定性、责任性、宜人性和开放性;
(2)将该用户的五个维度分值结构生成一组五维向量作为该用户的语义化画像;
(3)将两用户的两组五维向量做差值计算,得到的结果为用户间关系的大五人格用户关系向量,该关系向量即为用户间关系的语义化画像。
通过非直观用户性格表示方式得到关系画像,包括:
(1)基于获取的数据集,根据用户的个人语言文本,在word2vec工具训练生成词向量;
(2)根据用户名称提取用户词向量,将用户词向量作为该用户的用户语义画像;
(3)计算两用户的用户词向量间余弦相似度并求平均值,得到的余弦相似度和均值向量即为用户间关系的语义化画像。
步骤三、综合上述两种方式下得到的用户间关系的语义化画像作为最终的用户关系语义化画像。
本发明的设计思路是,本发明中两种方式(直观与非直观)间共性为均是基于用户在互联网中产生的个人语言文本数据构建该用户的语义化用户画像,进而结合用户间联系构建语义化用户关系画像。
下面针对本发明中涉及的直观与非直观方式的两部分内容进行详细描述。
本发明中,通过个人语言文本对用户进行分析,利用大五人格分值来反映关系内涵,即直观方式反映关系语义;通过个人语言文本生成人物向量,进而计算两用户向量得到语义化关系向量,即非直观方式反映关系语义。
一、直观方式反映关系语义,选取了心理学大五人格五个维度--外倾性、稳定性、责任性、宜人性、开放性来反映关系语义。
1)外倾性:查询字典得到每个单词得分记为S(word),然后计算每个意群情感分值S(sense group),公式为S(sense group)=adv∑S(word),其中adv为形容每个单词的程度副词权重。接下来计算每个句子分值S(sentence),即S(sentence)=∑S(sense group),再计算每个语言片分值S(text),计算公式为S(sentence)=∑S(sentence)。最后计算该用户外倾性分值S(person),公式为S(person)=∑S(text)。
2)稳定性:对用户每个语言片得到的外倾性分值进行方差计算,方差结果记为S2,公式为
Figure BDA0002235174030000041
其中,n为用户所发的微博总数,xi为第i条微博内容的情感分值,该情感分值等于该条微博内容在外倾性计算中所得的S(text)值,稳定性分值越小,用户稳定性越高。
3)责任性:设置一个S值为社会责任度,每个用户的S值根据社会等级分为0-5分,对于官方微博,国家级、省级、市级、区县级、乡镇级分别依次将社会等级分值S设置为5、4、3、2、1分,个人微博用户社会等级分值S设置为0分。计算每个用户在社会网络中对其他用户的关注度K,公式为
Figure BDA0002235174030000042
其中,Ki为该用户对其他i个用户的关注度,Ni为该用户对其他i个用户的微博进行评论、转发等操作的总次数。最后根据为每个用户设置的S值与计算得到的K值进行计算,得到用户最终的责任性分值H,公式为/>
Figure BDA0002235174030000043
4)宜人性:用户的宜人性体现在社会网络中与他人的沟通交流程度。设置宜人性分值L,计算公式为
Figure BDA0002235174030000044
其中,D是指用户转发他人微博数量,S是用户所发个人微博总数量,C是该用户对他人进行评论的总次数,A是该用户的“积极评论”数量,将用户间相互交流频繁(互动评论大于3次)的评论称为“积极评论”。
5)开放性:用户的开放性表现在其表达的语言文本中词汇的相似程度,相似度越低,说明该用户开放性越高。通过查找词典得到每两个单词W1与W2之间的距离distence(W1,W2),两个词语间相似度设置为sim(W1,W2),计算公式为
Figure BDA0002235174030000045
Figure BDA0002235174030000046
其中α为词语相似度为0.5时的距离值。通过计算任意两条语言文本间不同词汇的相似度值,最终计算得到用户所有语言文本中相似度算数平均值,得到的算数平均值结果即为该用户开放性分值。
生成基于大五人格的用户向量:以I代表用户,对于每一个用户Ii,将用户画像表示为一个五维向量Vi(外倾性,稳定性,责任性,宜人性,开放性),从而生成基于大五人格的用户向量。
基于用户大五人格向量计算关系向量,利用公式Vij=Vi-Vj得到用户间关系向量Vij。可以看出,向量中每个维度对应一个性格指标,因此该方式是可解释的、直观的。
二、非直观方式反映关系语义
以I代表用户,Useri表示该用户的语义化向量。
训练文本生成词向量:通过对用户产生的语言文本预处理得到词汇序列(W1,W2,W3,...,Wn),使用word2Vec工具对上述词汇进行训练得到词向量序列为(V1,V2,V3,...,Vn)。
提取用户向量:提取用户名称向量记为该用户语义化向量Useri
计算两用户向量余弦相似度:关系的紧密程度可用用户向量相似度Sim体现,
Figure BDA0002235174030000051
其中d是向量维度,θ为两用户向量在向量空间中的夹角值,相似度取值范围为(-1,1),相似度值越高,两向量越接近,关系越紧密。
基于用户向量计算关系向量:假设用户间关系向量为Relationij,则
Figure BDA0002235174030000052
Figure BDA0002235174030000053
在该方式中无法通过人为判断看出关系内涵,因而该种方式为非直观方式。
试验案例:
使用新浪微博数据集对本发明提出的方法进行实验测试,获取了前后一年时间内2046个用户的个人信息、所发的个人微博内容、给他人做出的评论内容等数据。
一、利用大五人格理论反映关系语义
基于新浪微博数据集计算出每个用户的大五人格分值,将这五个分值形成一组五维向量作为用户的语义化向量。首先,针对每一个维度给出等级划分。
(1)外倾性:得分小于5为悲观;得分介于5-10为中性;得分大于10为乐观。
(2)稳定性:得分小于10为稳定;得分介于10-30为较稳定;得分大于30为不稳定。
(3)责任性:得分小于12为弱;得分介于12-18为一般;得分介于18-24为较强;得分大于24为强。
(4)宜人性:得分小于0.25为不宜人;得分介于0.25-0.5为一般;得分介于0.5-0.75为较宜人;得分大于0.75为宜人。
(5)开放性:得分小于10为低;得分介于10-30为一般;得分介于30-60为较高;得分大于60为高。
下面列举一些基于大五人格计算出的画像实例,如表1所示。
表1基于大五人格的用户向量、关系向量及用户向量相似度
Figure BDA0002235174030000061
可以看出其中用户向量是基于心理学理论生成,表达了人物性格,因此通过人工的判断,可以使用户间关系具有一定内涵倾向性。比如第一组用户对,从关系向量中发现宜人性、外倾性分值差较小,开放性分值差较大,因而两人间潜在的关系倾向于一种和谐的关系类型,像同学、朋友等类型的关系将大于敌人、对手类型的关系的概率。
接下来设置向量相似度阈值为0.9,认为相似度超过阈值则两用户存在关系,并结合双方实际相互关注情况验证试验准确率。实验结果如图2所示。
根据实验结果可知,随着用户向量相似度的提高,两者存在关系的数量也在增加,但增长的幅度比较缓,各部分的分配比较平均。
因此,基于大五人格的关系语义画像的建模方式可以由人工判断潜在关系内涵,但是在计算上精准度还需进一步探索。
二、利用向量反映关系语义
通过使用word2vec对新浪微博数据集进行训练生成词向量集,设置相似度阈值为0.8,认为相似度超过阈值则两用户存在关系,并结合双方实际相互关注情况验证试验准确率。
实验结果如图3所示:
根据实验结果基本可以证实开始的预想,随着用户向量的相似度值的升高,两用户间实际存在关系的数量也在提高,即两用户向量的相似度越高,两者存在关系的可能性越大。在图3中可以看到,在设置的相似度阈值0.8之上,78%的用户间存在着相互联系。在达到相似度阈值的基础上,向量建模方式的计算准确率要高于大五人格建模方式。因此,用户向量的建模方式虽然显而易见的无法判断关系内涵,但是易于量化计算和比较验证。
尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。

Claims (1)

1.一种基于语义化直观-非直观用户性格表示的用户关系画像方法,其特征在于,包括:
步骤一、获取语言数据库;
步骤二、分别通过直观用户性格表示方式和非直观用户性格表示方式得到用户间关系的语义化画像;其中,
通过直观用户性格表示方式得到用户间关系的语义化画像的具体内容如下:
根据获取的用户的个人语言文本,计算用户的大五人格五个维度分值,大五人格五个维度包括外倾性、稳定性、责任性、宜人性和开放性;
将该用户的五个维度分值结构生成一组五维向量作为该用户的语义化画像;
将两用户的两组五维向量做差值计算,得到的结果为用户间关系的大五人格用户关系向量,该关系向量即为用户间关系的语义化画像;
通过非直观用户性格表示方式得到用户间关系的语义化画像的具体内容如下:
根据获取的用户的个人语言文本,在word2vec工具训练生成词向量;
根据用户名称提取用户词向量,将用户词向量作为该用户的用户语义画像;
计算两用户的用户词向量间余弦相似度并求平均值,得到的余弦相似度和均值向量即为用户间关系的语义化画像;
步骤三、综合步骤二得到的用户间关系的语义化画像作为最终的用户关系语义化画像。
CN201910980998.9A 2019-10-16 2019-10-16 基于语义化直观/非直观用户性格表示的用户关系画像方法 Active CN110825824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910980998.9A CN110825824B (zh) 2019-10-16 2019-10-16 基于语义化直观/非直观用户性格表示的用户关系画像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910980998.9A CN110825824B (zh) 2019-10-16 2019-10-16 基于语义化直观/非直观用户性格表示的用户关系画像方法

Publications (2)

Publication Number Publication Date
CN110825824A CN110825824A (zh) 2020-02-21
CN110825824B true CN110825824B (zh) 2023-06-13

Family

ID=69549457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910980998.9A Active CN110825824B (zh) 2019-10-16 2019-10-16 基于语义化直观/非直观用户性格表示的用户关系画像方法

Country Status (1)

Country Link
CN (1) CN110825824B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488401B (zh) * 2020-03-06 2023-06-23 天津大学 一种基于多元化关系画像技术的在线社会关系搜索方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399575A (zh) * 2018-01-24 2018-08-14 大连理工大学 一种基于社交媒体文本的大五人格预测方法
CN110096575A (zh) * 2019-03-25 2019-08-06 国家计算机网络与信息安全管理中心 面向微博用户的心理画像方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10409915B2 (en) * 2017-11-30 2019-09-10 Ayzenberg Group, Inc. Determining personality profiles based on online social speech
CN108537321A (zh) * 2018-03-20 2018-09-14 北京智能管家科技有限公司 一种机器人教学方法、装置、服务器和存储介质
CN108776932A (zh) * 2018-05-22 2018-11-09 深圳壹账通智能科技有限公司 用户投资类型的确定方法、存储介质和服务器
CN109766452A (zh) * 2019-01-18 2019-05-17 北京工业大学 一种基于社交数据的人物性格分析方法
CN109783460A (zh) * 2019-01-30 2019-05-21 北京信息科技大学 基于网络日志的用户行为刻画与预测方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399575A (zh) * 2018-01-24 2018-08-14 大连理工大学 一种基于社交媒体文本的大五人格预测方法
CN110096575A (zh) * 2019-03-25 2019-08-06 国家计算机网络与信息安全管理中心 面向微博用户的心理画像方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
在线社会关系语义化度量的可视化分析;王渊等;《中国科学技术大学学报》(第04期);第314-321页 *
基于互动语言内容的在线社会关系语义化建模;王渊;《中国优秀硕士学位论文全文数据库 信息科技辑》(第04期);全文 *

Also Published As

Publication number Publication date
CN110825824A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN107451126B (zh) 一种近义词筛选方法及系统
CN109844743B (zh) 在自动聊天中生成响应
CN106484664B (zh) 一种短文本间相似度计算方法
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN110209897B (zh) 智能对话方法、装置、存储介质及设备
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN108268668B (zh) 一种基于话题多样性的文本数据观点摘要挖掘方法
CN102929861A (zh) 一种文本情感指数计算方法和系统
CN103886034A (zh) 一种建立索引及匹配用户的查询输入信息的方法和设备
JP2014502754A (ja) インターネットにおける有害情報の遮断方法と装置
CN105740224A (zh) 一种基于文本分析的用户心理预警方法与装置
CN110705247B (zh) 基于χ2-C的文本相似度计算方法
CN110457711B (zh) 一种基于主题词的社交媒体事件主题识别方法
JP6076425B1 (ja) 対話インターフェース
Pan et al. Deep neural network-based classification model for Sentiment Analysis
JP6366749B2 (ja) 対話インターフェース
CN111191463A (zh) 情感分析方法、装置、电子设备及存储介质
CN108363699A (zh) 一种基于百度贴吧的网民学业情绪分析方法
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN110399603A (zh) 一种基于意群划分的文本处理技术方法和系统
CN108319584A (zh) 一种基于改进FP-Growth算法的微博类短文本的新词发现方法
CN110825824B (zh) 基于语义化直观/非直观用户性格表示的用户关系画像方法
CN114443846A (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备
CN112200674B (zh) 一种证券市场情绪指数智能计算信息系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant