CN110825824B

CN110825824B - 基于语义化直观/非直观用户性格表示的用户关系画像方法

Info

Publication number: CN110825824B
Application number: CN201910980998.9A
Authority: CN
Inventors: 车宁远; 王博
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2023-06-13
Anticipated expiration: 2039-10-16
Also published as: CN110825824A

Abstract

本发明公开了基于语义化直观‑非直观用户性格表示的用户关系画像方法，首先，获取语言数据库；然后，分别通过直观用户性格表示方式和非直观用户性格表示方式得到关系画像；综合步骤二得到的用户间关系的语义化画像作为最终的用户关系语义化画像。其中，直观方式是基于用户的个人语言文本，计算用户的大五人格五个维度分值并生成一组五维向量作为该用户的语义化画像；两组五维向量做差值计算得到用户间关系的语义化画像。非直观方式是将获取的用户的个人语言文本在word2vec工具训练生成词向量；根据用户名称提取用户词向量，将用户词向量作为该用户的用户语义画像；计算两用户的用户词向量间的余弦相似度和均值向量即为用户间关系的语义化画像。

Description

基于语义化直观/非直观用户性格表示的用户关系画像方法

技术领域

本发明涉及了人物画像和基于人物画像的关系画像构建方法，属于社会计算领域的一个重点研究问题。该方法利用用户在互联网发表的个人语言文本对人物和人际关系进行直观及非直观自动化画像。

背景技术

在社会语言学理论中，语言文字不仅仅具有语言学中的符号表示意义，还包含着社会中复杂的因素及文化的意义。语言的文字体系构建了社会关系结构，并控制着社会关系内容，因而社会语言学认为语言结构和社会结构之间存在相互影响的机制。萨丕尔-沃尔夫假设表明，语言结构决定了人们的思维，进而人们的思维决定了行为和社会关系。

识别和了解社会网络中的人际关系是社会计算领域一个非常重要的课题，是社区发现、影响力分析、链接预测、个性化推荐等研究的基础。在一个关系画像的过程中，可以分为两个角度，分别是关系特性和关系内涵。关系特性是关系量化和计算的基本属性，关系内涵是关系参与者之间的关系内容。

在当前研究中，关系特性的研究多表现为利用一些网络结构信息来研究社会关系，传统社会关系分析研究多倾向于关系的方向、强度和类型。但社会网络结构具有静态、非主观、的特点，传统的社会关系分析缺乏语义性。关系内涵主要表现为关系类型识别，大部分是已知的比如师生、朋友、恋人之类。更一般的情况下，研究者将关系类型设置为简单的正负二元性类别，因此对关系内涵的研究逐渐演变为关系类型的识别及分类。然而，这种基于关系类型识别和分类的研究方式已经无法满足关系内涵的需要，关系类型十分有限，需要一系列词汇来描述关系，并且同样的关系类型往往存在不同的关系内涵。

因此，需要一种信息量更加丰富的方法，来刻画具有丰富语义内涵的关系画像，并使得该关系画像具有内涵性。

发明内容

针对上述现有技术，本发明尝试通过用户的个人语言文本数据得到用户画像，并利用用户画像间的联系，建立一种基于用户语言文本的人际关系画像自动化构建方法。

为了解决上述技术问题，本发明提出一种基于语义化直观-非直观用户性格表示的用户关系画像方法，首先，获取语言数据库；然后，分别通过直观用户性格表示方式和非直观用户性格表示方式得到关系画像；最后，综合步骤二得到的用户间关系的语义化画像作为最终的用户关系语义化画像。

进一步讲，本发明中，通过直观用户性格表示方式得到关系画像的具体内容是：根据获取的用户的个人语言文本，计算用户的大五人格五个维度分值，大五人格五个维度包括外倾性、稳定性、责任性、宜人性和开放性；将该用户的五个维度分值结构生成一组五维向量作为该用户的语义化画像；将两用户的两组五维向量做差值计算，得到的结果为用户间关系的大五人格用户关系向量，该关系向量即为用户间关系的语义化画像。

本发明中，通过非直观用户性格表示方式得到关系画像的具体内容是：根据获取的用户的个人语言文本，在word2vec工具训练生成词向量；根据用户名称提取用户词向量，将用户词向量作为该用户的用户语义画像；计算两用户的用户词向量间余弦相似度并求平均值，得到的余弦相似度和均值向量即为用户间关系的语义化画像。

与现有技术相比，本发明的有益效果是：

1、为了实现本发明的目的，本发明充分利用人们在互联网中留下的个人语言信息这一非常优质的资源，由于用户个人语言中包含丰富的语义信息，因此计算得到的关系画像具备了丰富的语义内涵。

2、发明中关系画像的呈现结果均为实值向量形式，因此便于后期结合实际需求进行各种量化计算，并且在大数据集的背景下计算准确率较高。

3、两种关系语义化画像构建方式是动态的，规避以往社会网络结构具有静态性的弊端，随着时间的推移，基于用户产生不同的个人语言文本，用户画像与用户关系画像可以在以时间为维度的基础上做到动态改变

4、适用于不同场景，在直观大五人格关系画像构建方式下，适合系统前端页面展示，辅助决策者进行主观判断；在非直观向量关系画像构建方式下，适合系统后台业务逻辑的应用和计算。

附图说明

图1是本发明中基于用户语言文本生成关系画像流程图；

图2是不同相似度区间内大五人格方式的关系计算准确率直方图；

图3是不同相似度区间内向量方式的关系计算准确率直方图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步的说明，但下述实施例绝非对本发明有任何限制。

本发明提出的一种基于语义化直观-非直观用户性格表示的用户关系画像方法，如图1所示，包括以下步骤：

步骤一、获取语言数据库，得到用户的个人语言文本，例如，从互联网中获取新浪微博用户所发的微博、评论等个人语言数据；

步骤二、分别通过直观用户性格表示方式和非直观用户性格表示方式得到关系画像；其中，通过直观用户性格表示方式得到关系画像，包括：

(1)基于获取的数据集计算用户大五人格五个维度分值，即根据用户的个人语言文本，计算用户的大五人格五个维度分值，大五人格五个维度包括外倾性、稳定性、责任性、宜人性和开放性；

(2)将该用户的五个维度分值结构生成一组五维向量作为该用户的语义化画像；

(3)将两用户的两组五维向量做差值计算，得到的结果为用户间关系的大五人格用户关系向量，该关系向量即为用户间关系的语义化画像。

通过非直观用户性格表示方式得到关系画像，包括：

(1)基于获取的数据集，根据用户的个人语言文本，在word2vec工具训练生成词向量；

(2)根据用户名称提取用户词向量，将用户词向量作为该用户的用户语义画像；

(3)计算两用户的用户词向量间余弦相似度并求平均值，得到的余弦相似度和均值向量即为用户间关系的语义化画像。

步骤三、综合上述两种方式下得到的用户间关系的语义化画像作为最终的用户关系语义化画像。

本发明的设计思路是，本发明中两种方式(直观与非直观)间共性为均是基于用户在互联网中产生的个人语言文本数据构建该用户的语义化用户画像，进而结合用户间联系构建语义化用户关系画像。

下面针对本发明中涉及的直观与非直观方式的两部分内容进行详细描述。

本发明中，通过个人语言文本对用户进行分析，利用大五人格分值来反映关系内涵，即直观方式反映关系语义；通过个人语言文本生成人物向量，进而计算两用户向量得到语义化关系向量，即非直观方式反映关系语义。

一、直观方式反映关系语义，选取了心理学大五人格五个维度--外倾性、稳定性、责任性、宜人性、开放性来反映关系语义。

1)外倾性：查询字典得到每个单词得分记为S(word)，然后计算每个意群情感分值S(sense group)，公式为S(sense group)＝adv∑S(word)，其中adv为形容每个单词的程度副词权重。接下来计算每个句子分值S(sentence)，即S(sentence)＝∑S(sense group)，再计算每个语言片分值S(text)，计算公式为S(sentence)＝∑S(sentence)。最后计算该用户外倾性分值S(person)，公式为S(person)＝∑S(text)。

2)稳定性：对用户每个语言片得到的外倾性分值进行方差计算，方差结果记为S²，公式为

其中，n为用户所发的微博总数，x_i为第i条微博内容的情感分值，该情感分值等于该条微博内容在外倾性计算中所得的S(text)值，稳定性分值越小，用户稳定性越高。

3)责任性：设置一个S值为社会责任度，每个用户的S值根据社会等级分为0-5分，对于官方微博，国家级、省级、市级、区县级、乡镇级分别依次将社会等级分值S设置为5、4、3、2、1分，个人微博用户社会等级分值S设置为0分。计算每个用户在社会网络中对其他用户的关注度K，公式为

其中，K_i为该用户对其他i个用户的关注度，N_i为该用户对其他i个用户的微博进行评论、转发等操作的总次数。最后根据为每个用户设置的S值与计算得到的K值进行计算，得到用户最终的责任性分值H，公式为/>

4)宜人性：用户的宜人性体现在社会网络中与他人的沟通交流程度。设置宜人性分值L，计算公式为

其中，D是指用户转发他人微博数量，S是用户所发个人微博总数量，C是该用户对他人进行评论的总次数，A是该用户的“积极评论”数量，将用户间相互交流频繁(互动评论大于3次)的评论称为“积极评论”。

5)开放性：用户的开放性表现在其表达的语言文本中词汇的相似程度，相似度越低，说明该用户开放性越高。通过查找词典得到每两个单词W1与W2之间的距离distence(W1，W2)，两个词语间相似度设置为sim(W1，W2)，计算公式为

其中α为词语相似度为0.5时的距离值。通过计算任意两条语言文本间不同词汇的相似度值，最终计算得到用户所有语言文本中相似度算数平均值，得到的算数平均值结果即为该用户开放性分值。

生成基于大五人格的用户向量：以I代表用户，对于每一个用户I_i，将用户画像表示为一个五维向量V_i(外倾性，稳定性，责任性，宜人性，开放性)，从而生成基于大五人格的用户向量。

基于用户大五人格向量计算关系向量，利用公式V_ij＝V_i-V_j得到用户间关系向量V_ij。可以看出，向量中每个维度对应一个性格指标，因此该方式是可解释的、直观的。

二、非直观方式反映关系语义

以I代表用户，User_i表示该用户的语义化向量。

训练文本生成词向量：通过对用户产生的语言文本预处理得到词汇序列(W₁，W₂，W₃，...，W_n)，使用word2Vec工具对上述词汇进行训练得到词向量序列为(V₁，V₂，V₃，...，V_n)。

提取用户向量：提取用户名称向量记为该用户语义化向量User_i。

计算两用户向量余弦相似度：关系的紧密程度可用用户向量相似度Sim体现，

其中d是向量维度，θ为两用户向量在向量空间中的夹角值，相似度取值范围为(-1,1)，相似度值越高，两向量越接近，关系越紧密。

基于用户向量计算关系向量：假设用户间关系向量为Relation_ij，则

在该方式中无法通过人为判断看出关系内涵，因而该种方式为非直观方式。

试验案例：

使用新浪微博数据集对本发明提出的方法进行实验测试，获取了前后一年时间内2046个用户的个人信息、所发的个人微博内容、给他人做出的评论内容等数据。

一、利用大五人格理论反映关系语义

基于新浪微博数据集计算出每个用户的大五人格分值，将这五个分值形成一组五维向量作为用户的语义化向量。首先，针对每一个维度给出等级划分。

(1)外倾性：得分小于5为悲观；得分介于5-10为中性；得分大于10为乐观。

(2)稳定性：得分小于10为稳定；得分介于10-30为较稳定；得分大于30为不稳定。

(3)责任性：得分小于12为弱；得分介于12-18为一般；得分介于18-24为较强；得分大于24为强。

(4)宜人性：得分小于0.25为不宜人；得分介于0.25-0.5为一般；得分介于0.5-0.75为较宜人；得分大于0.75为宜人。

(5)开放性：得分小于10为低；得分介于10-30为一般；得分介于30-60为较高；得分大于60为高。

下面列举一些基于大五人格计算出的画像实例，如表1所示。

表1基于大五人格的用户向量、关系向量及用户向量相似度

可以看出其中用户向量是基于心理学理论生成，表达了人物性格，因此通过人工的判断，可以使用户间关系具有一定内涵倾向性。比如第一组用户对，从关系向量中发现宜人性、外倾性分值差较小，开放性分值差较大，因而两人间潜在的关系倾向于一种和谐的关系类型，像同学、朋友等类型的关系将大于敌人、对手类型的关系的概率。

接下来设置向量相似度阈值为0.9，认为相似度超过阈值则两用户存在关系，并结合双方实际相互关注情况验证试验准确率。实验结果如图2所示。

根据实验结果可知，随着用户向量相似度的提高，两者存在关系的数量也在增加，但增长的幅度比较缓，各部分的分配比较平均。

因此，基于大五人格的关系语义画像的建模方式可以由人工判断潜在关系内涵，但是在计算上精准度还需进一步探索。

二、利用向量反映关系语义

通过使用word2vec对新浪微博数据集进行训练生成词向量集，设置相似度阈值为0.8，认为相似度超过阈值则两用户存在关系，并结合双方实际相互关注情况验证试验准确率。

实验结果如图3所示：

根据实验结果基本可以证实开始的预想，随着用户向量的相似度值的升高，两用户间实际存在关系的数量也在提高，即两用户向量的相似度越高，两者存在关系的可能性越大。在图3中可以看到，在设置的相似度阈值0.8之上，78％的用户间存在着相互联系。在达到相似度阈值的基础上，向量建模方式的计算准确率要高于大五人格建模方式。因此，用户向量的建模方式虽然显而易见的无法判断关系内涵，但是易于量化计算和比较验证。

尽管上面结合附图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。

Claims

1.一种基于语义化直观-非直观用户性格表示的用户关系画像方法，其特征在于，包括：

步骤一、获取语言数据库；

步骤二、分别通过直观用户性格表示方式和非直观用户性格表示方式得到用户间关系的语义化画像；其中，

通过直观用户性格表示方式得到用户间关系的语义化画像的具体内容如下：

根据获取的用户的个人语言文本，计算用户的大五人格五个维度分值，大五人格五个维度包括外倾性、稳定性、责任性、宜人性和开放性；

将该用户的五个维度分值结构生成一组五维向量作为该用户的语义化画像；

将两用户的两组五维向量做差值计算，得到的结果为用户间关系的大五人格用户关系向量，该关系向量即为用户间关系的语义化画像；

通过非直观用户性格表示方式得到用户间关系的语义化画像的具体内容如下：

根据获取的用户的个人语言文本，在word2vec工具训练生成词向量；

根据用户名称提取用户词向量，将用户词向量作为该用户的用户语义画像；

计算两用户的用户词向量间余弦相似度并求平均值，得到的余弦相似度和均值向量即为用户间关系的语义化画像；

步骤三、综合步骤二得到的用户间关系的语义化画像作为最终的用户关系语义化画像。