CN103995820B - 基于最低阈值的用户个人品性多标记预测方法 - Google Patents

基于最低阈值的用户个人品性多标记预测方法 Download PDF

Info

Publication number
CN103995820B
CN103995820B CN201410081840.5A CN201410081840A CN103995820B CN 103995820 B CN103995820 B CN 103995820B CN 201410081840 A CN201410081840 A CN 201410081840A CN 103995820 B CN103995820 B CN 103995820B
Authority
CN
China
Prior art keywords
individual subscriber
user
moral character
feature
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410081840.5A
Other languages
English (en)
Other versions
CN103995820A (zh
Inventor
王英
左万利
王萌萌
王鑫
彭涛
田中生
赵秋月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201410081840.5A priority Critical patent/CN103995820B/zh
Publication of CN103995820A publication Critical patent/CN103995820A/zh
Application granted granted Critical
Publication of CN103995820B publication Critical patent/CN103995820B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于最低阈值的用户个人品性多标记预测方法,旨在克服现有技术存在的整体精准度不高、适用性不强、特征权重及用户个人品性标记阈值分配过于主观化和对用户个人品性之间相关性的忽视等问题,该方法的步骤为:1.由特征解析与表示模块实现用户个人品性相关特征集合的解析和表示;2.由特征分析和预处理模块实现多元数据类型的归一化;3.由参数学习模块实现特征权重的分配以及用户个人品性标记最低阈值的确定;4.由用户个人品性预测模块实现基于最低阈值的用户个人品性多标记的预测。

Description

基于最低阈值的用户个人品性多标记预测方法
技术领域
本发明涉及一种社会网络个体认知领域的用户个人品性预测方法,更确切地说,本发明涉及一种用户个人品性预测方法。
背景技术
社会网络的迅速发展为用户行为学习和建模提供了丰富的信息。用户个人品性主要体现在对事物的态度和所采取的言行上,对用户交互行为发挥着隐性的作用。
目前,实现用户个人品性的预测主要有两种方法:一种是仅基于用户基本网络结构特征,利用机器学习和统计分析方法对其进行建模;另一种是在用户基本网络特征基础上,引入词典资源,分析用户的语言学特征,从中抽取用户文本的情感倾向,利用机器学习和统计分析的方法完成对用户个人品性的预测分析。
虽然针对社会网络进行用户个人品性的预测问题已有一定的研究工作,但仍然存在一些不足,主要体现在:
1.整体精准度不高
目前,尽管针对某一种用户个人品性的预测精准度较高,但就整体而言,用户个人品性的平均预测精准度却不高。
2.适用性不强
由于不同的文化背景和社会习惯,国内外的社会网络可能存在一定的差异,而且目前的用户个人品性预测模型缺少针对国内社会网络的适用性研究。
3.特征权重及用户个人品性标记最低阀值的分配过于主观化
对于用户个人品性相关特征的权重及用户个人品性标记最低阀值的分配缺少系统方法和理论的支持,过于主观化。
发明内容
本发明所要解决的技术问题是克服了现有技术存在的整体精准度不高、适用性不强、特征权重及用户个人品性标记阀值分配过于主观化的问题,提出一种用户个人品性预测方法。
为解决上述技术问题,本发明是采用如下技术方案实现的:所述的用户个人品性预测方法,包括如下步骤:
1.由特征解析与表示模块实现用户个人品性相关特征的解析和表示:
(1)通过新浪微博API获取新浪微博用户初始的用户个人特征集合、关系特征集合、兴趣特征集合和发表状态集合;
(2)对用户个人特征集合、关系特征集合进行预处理;
(3)计算用户的情感极性特征;
(4)基于步骤(1)(2)(3)得到的结果,将用户个人品性特征分别表示为{gender,actDays,verified,lang,favouritesAct,statusesAct},{followersAct,friendsAct,bifollowerAct},{(i0,ω0),(i1,ω1),…,(im,ωm)}和E。
其中:{gender,actDays,verified,lang,favouritesAct,statusesAct}为用户个人特征集合,gender为用户性别,actDays为用户的活跃天数,verified为用户是否是新浪微博认证用户,lang为用户当前的语言版本,favouritesAct为用户的收藏活跃频率,statusesAct为用户发表的微博的活跃频率;{followersAct,friendsAct,bifollowerAct}为用户关系特征集合,followersAct为用户的粉丝活跃频率,friendsAct为用户的关注活跃频率,bifollowerAct为用户的互粉活跃频率;{(i0,ω0),(i1,ω1),…,(im,ωm)}为用户兴趣特征集合,im为用户第m个兴趣名称,ωm为用户第m个兴趣的权重;E为用户的情感极性特征。
2.由特征分析和预处理模块实现多元数据类型的归一化。
3.由参数学习模块实现特征权重的分配以及用户个人品性标记最低阀值的确定:
(1)分配各个特征权重;
(2)确定用户个人品性标记的最低阀值。
4.由用户个人品性预测模块实现基于最低阀值的用户个人品性多标记的预测。
技术方案中所述的用户个人特征集合、关系特征集合预处理,步骤如下:
(1)将用户注册微博账号的日期基于某一时间点转换为用户注册微博账号的天数,即用户活跃天数,记为:actDays,并将其加入到用户个人特征集合中,同时将用户的注册时间从集合中移除,即得到用户个人特征集合{gender,actDays,verified,lang,favouritescount,statusesCount};
(2)基于用户活跃天数,计算用户个人特征集合和关系特征集合中数值型元素的活跃频率,计算公式如下:
featureActi=|featurei|/actDays
其中:featureActi为第i个特征的活跃频率,|featurei|为第i个特征的绝对值,即得到新定义的用户个人特征集合{gender,actDays,verified,lang,favouritesAct,statusesAct}和关系特征集合{followersAct,friendsAct,bifollowerAct}。
技术方案中所述的用户情感极性特征的计算,步骤如下:
(1)应用NLPIR汉语分词系统,从发表状态集合中抽取出形容词和副词列表,记为:
Emotion_words=(e0,e1,…,ej)
其中:ej为第j个形容词或者副词;
(2)基于知网的中文情感分析用词语集,计算用户的情感极性特征,其计算公式如下:
其中:
Pos_dec和Neg_dec为正极性和负极性情感词典,若相应极性情感词典中包含形容词或者副ei,则对应函数值为1,否则值为0。
技术方案中所述的归一化多元类型数据,步骤如下:
(1)初始化数值型用户个人品性特征值的离散中心点集合,其计算公式如下:
其中:{ai1,ai2,ai3,…}为第i个用户个人品性数值型特征的取值集合,mij[0]∈Mi[0]为第i个用户个人品性数值型特征的第j个初始中心点,k为预先定义的离散集合数;
(2)应用Kohonen’s feature-maps聚类算法获得某一特征收敛的中心点集合;
(3)计算特征值与中心点之间的距离,与特征值距离最近的中心点对应的离散集合即为该特征值对应的离散取值,从而实现将定量的特征值转换为定性的特征值。
技术方案中所述的特征权重的分配,步骤如下:
(1)计算特征的信息熵,其计算公式如下:
其中:多标记训练集用户i的r维特征集合表示,且为用户i的第j维特征,m为训练集中的样本数目,Yi为用户i对应的个人品性标记集合,n为用户i对应的个人品性标记的总数量,valij和Vij分别为特征某一取值和取值集合,p(yk)为数据集出现用户个人品性标记yk的概率,p(valij)为在数据集中特征取值为valij的概率,p(yk|valij)为在数据集中当取值为valij时,预测用户的个人品性属于标记yk的概率;
(2)基于步骤(1)得到的特征信息熵,计算特征的权重,其计算公式如下:
其中:Weightj为特征的权重,为特征的信息增益。
技术方案中所述的用户个人品性标记最低阀值的确定,步骤如下:
(1)初始化用户个人品性标记最低阀值,其计算公式如下:
mi[0]=min{ai1,ai2,ai3,…}+(max{ai1,ai2,ai3,…}-min{ai1,ai2,ai3,…})
其中:{ai1,ai2,ai3,…}为第i个用户个人品性标记分数的取值集合,mi[0]为第i个用户个人品性标记分数的初始中心点,即初始最低阀值;
(2)应用Kohonen’s feature-maps聚类算法获得收敛的用户个人品性标记最低阀值。
技术方案中所述的用户个人品性的预测,步骤如下:
(1)基于特征权重计算某一用户与其他所有用户之间的距离,其计算公式如下:
其中:分别为测试用户test与训练集中用户i的第j维特征,||·||表示返回实数的绝对值;
(2)根据用户之间的距离,对用户进行升序排列,选择排在前K位的用户作为某一用户的K近邻用户集合,记为
(3)初始化用户个人品性标记集合为空,记为TagSet;
(4)基于用户个人品性标记分数计算公式如下:
其中:Cj中将用户个人品性标记yj作为其相关标记的样本个数,Hj具有用户个人品性标记yj这一事件,P(Hj|Cj)为当中有Cj个样本具有用户个人品性标记yj时Hj成立的概率;
(5)若大于或者等于yj对应的用户个人品性标记最低阀值,则将其加入集合TagSet中;
(6)若所有用户个人品性标记均已判断完毕,返回用户个人品性标记集合,否则重复步骤(4)和步骤(5)。
与现有技术相比本发明的有益效果是:
1.本发明所述的用户个人品性预测方法给出了清晰、明确、可计算的用户个人品性特征的信息表示。在用户发表状态集合上,利用分词技术和情感词典解析用户发表状态的情感极性特征,结合用户个人特征、关系特征和兴趣特征最终形成用户个人品性的形式化表示。传统用户个人品性预测方法中的用户个人品性特征仅考虑了用户基本网络结构特征,忽略了用户的兴趣特征和用户的情感极性特征。而本发明所提出的用户个人品性预测方法融合了以上这些特征信息,基于多维特征进行用户个人品性多标记的预测,以提高预测精度。
2.本发明所述的用户个人品性预测方法对用户个人品性特征进行了预处理,并且基于一系列方法确定了特征的权重和用户个人品性标记的阀值,解决了目前忽略特征与用户个人品性之间的相关性,以及阀值定义不合理的问题,提高了效率和预测精度。传统的用户个人品性预测方法缺少对特征与用户个人品性之间的相关性分析,不利于用户个人品性的准确预测,并且对阀值的定义缺少系统方法和理论的支持,过于主观化,导致效率低、效果差。面对传统用户个人品性预测方法的不足和用户个人品性预测问题带来的挑战,需要对特征和阀值进行预处理和预定义,这样既可以降低时间和空间上的代价,又可以提高预测的精度。
3.本发明所述的用户个人品性预测方法从用户个人品性多维特征出发,通过一定的方法和策略,基于用户个人品性标记的最低阀值,从而完成用户个人品性的预测工作。在用户个人品性预测的问题中,用户可以同时拥有两种以上个人品性,但可能只有某一种个人品性比较凸显且具有一定的稳定性,从而形成主要的个人品性,本发明对用户个人品性进行全面地预测,弥补了传统方法不能准确预测用户个人品性的缺陷。
综上所述,本发明是针对用户个人品性特征的多维性和多元性,在数据结构和算法级别上重新设计用户个人品性预测方法,而不是在现有用户个人品性预测方法的数据结构基础上进行增补和改进,从基础上解决了用户个人品性预测问题。
附图说明
图1是实施本发明所述的用户个人品性预测方法的计算机程序的各组成模块的功能、连接关系示意图。
图2是本发明所述的用户个人品性预测方法的流程框图。
图3是本发明所述的用户个人品性预测方法中由特征解析与表示模块实现用户个人品性相关特征的解析和表示的流程框图。
图4是本发明所述的用户个人品性预测方法中由特征分析和预处理模块实现多元数据类型的归一化的流程框图。
图5是本发明所述的用户个人品性预测方法中由参数学习模块实现特征权重的分配以及用户个人品性标记最低阀值的确定的流程框图。
图6是本发明所述的用户个人品性预测方法中由用户个人品性预测模块实现基于最低阀值的用户个人品性多标记的预测的流程框图。
图7是本发明中所述的实施例中网址为http://weibo.com/jietangthu的新浪微博网页截图。
图8是本发明中所述的实施例中用户最近一周内发表的微博集合文档截图。
图9是本发明中所述的实施例中K近邻用户集合文档截图。
图10是本发明中所述的实施例中所有用户其K近邻用户集合个用户个人品性标记的统计数据文档截图。
具体实施方式
下面结合附图对本发明做详细的阐述:
本发明所述的用户个人品性预测方法所要解决的技术问题是克服了现有技术的不足,提出用户个人品性相关特征的解析和表示、多元数据类型的归一化、特征权重的分配以及用户个人品性标记最低阀值的确定等用户个人品性多标记的预测中的关键问题,提出并实现一系列面向用户个人品性预测的新技术与新方法,提高预测的精准性,为用户行为分析提供支持。
参阅图1,为实现用户个人品性预测方法这一目的自行编制了计算机程序,其包括有四个功能模块,即包括由特征解析与表示模块、特征分析和预处理模块、参数学习模块、用户个人品性预测模块,各个模块功能如下:
1.特征解析与表示模块
所述的特征解析与表示模块分为特征解析和特征表示两部分,特征包括用户个人特征集合、用户关系特征集合、用户兴趣特征集合和用户情感极性特征。首先通过新浪微博API进行特征采集,然后利用分词技术,通过计算过去用户的情感极性特征,最终将获取到的信息组织输出为用户个人品性特征表示形式。
(1)用户个人品性特征解析:
为了更好地支持基于最低阀值的用户个人品性多标记的预测,在用户最基本的特征基础上,还需对用户的行为,即用户发表的评论状态进行深入挖掘,本发明采用分词技术来计算用户的情感极性特征。
(2)用户个人品性特征表示:
用户个人品性特征表示是实现用户个人品性预测的重要前提,因此给出清晰、明确、可计算的用户个人品性特征说明和描述是十分必要的。为了弥补传统方法对特征定义不够全面的问题,本发明所提出的用户个人品性特征包括:①用户个人特征②用户关系特征③用户兴趣特征④用户情感极性特征。
本发明中利用集合表示用户个人品性特征,并结合函数描述,给出了用户个人品性特征的形式化表示。
2.特征分析和预处理模块
所述的特征分析和预处理模块是在特征解析与表示模块的基础上进行的,负责将特征解析与表示模块的结果中的多元化的数据类型进行归一化处理。
无论是是离散型还是数值型的用户个人品性特征,在用户个人品性预测问题中都发挥着举足轻重的作用。为了综合考虑离散型和数值型的用户个人品性特征值,本发明利用Kohonen’s feature-maps聚类算法,计算数值型用户个人品性特征值的离散中心点集合,基于中心点集合将用户个人品性特征值从数值型转化为离散型,从而实现多元化数据类型的归一化。
3.参数学习模块
所述的参数学习模块包括特征权重分配和用户个人品性标记最低阀值确定两个子模块:
(1)特征权重分配模块负责为用户个人品性特征分配相应的权重。传统用户个人品性预测方法未考虑各个特征对于用户个人品性预测的重要性差别,导致预测结果被大量相关性较小的特征所支配。与传统方法不同,本发明通过特征的信息熵为其分配权重,特征与用户个人品性越相关,则其权重就越高,达到了抑制弱相关特征影响的目的。
(2)用户个人品性标记最低阀值确定子模块负责通过参数学习方法确定用户个人品性标记的最低阀值。本发明利用Kohonen’s feature-maps聚类算法,计算用户个人品性的最低标记阀值,通过学习得到的阀值,其定义更加合理,可以较好地为用户个人品性预测提供支持。
4.用户个人品性预测模块
所述的用户个人品性预测模块负责根据在参数学习模块中得到的特征权重,计算K近邻用户集合,利用K近邻用户集合和在参数学习模块中得到的用户个人品性标记的最低阀值,从而对用户个人品性进行预测,相比于传统方法,大大提高了预测的精准度。
参阅图2,本发明所述的用户个人品性预测方法的步骤如下:
(1)参阅图3,由特征解析与表示模块实现用户个人品性相关特征的解析和表示,步骤如下:
1)通过新浪微博API获取新浪微博用户初始的用户个人特征集合、关系特征集合、兴趣特征集合和发表状态集合;
2)对用户个人特征集合、关系特征集合进行预处理:
①将用户的注册微博的日期基于某一时间点转换为用户注册微博账号的天数,即用户活跃天数,记为:actDays,并将其加入到用户个人特征集合中,同时将用户的注册时间从集合中移除,即得到用户个人特征集合{gender,actDays,verified,lang,favouritesCount,statusesCount};
②基于用户活跃天数,计算用户个人特征集合和关系特征集合中数值型元素的活跃频率,计算公式如下:
featureActi=|featurei|/actDays
其中:featureActi为第i个特征的活跃频率,|featurei|为第i个特征的绝对值。即得到新定义的用户个人特征集合{gender,actDays,verified,lang,favouritesAct,statusesAct}和关系特征集合{followersAct,friendsAct,bifollowerAct};
3)计算用户的情感极性特征:
①应用NLPIR汉语分词系统,从发表状态集合中抽取出形容词和副词列表,记为:
Emotion_words=(e0,e1,…,ej)
其中:ej为第j个形容词或者副词;
②基于知网的中文情感分析用词语集,计算用户的情感极性特征,其计算公式如下:
其中:
Pos_dec和Neg_dec为正极性和负极性情感词典,若相应极性情感词典中包含形容词或者副词ei,则对应函数值为1,否则值为0;
4)基于步骤1)2)3)得到的结果,将用户个人品性特征表示为:{gender,actDays,verified,lang,favouritesAct,statusesAct},{followersAct,friendsAct,bifollowerAct},{(i0,ω0),(i1,ω1),…,(im,ωm)}和E。其中:{gender,actDays,verified,lang,favouritesAct,statusesAct}为用户个人特征集合,gender为用户性别,actDays为用户的活跃天数,verified为用户是否是新浪微博认证用户,lang为用户当前的语言版本,favouritesAct为用户的收藏活跃频率,statusesAct为用户发表的微博的活跃频率;{followersAct,friendsAct,bifollowerAct}为用户关系特征集合,followersAct为用户的粉丝活跃频率,friendsAct为用户的关注活跃频率,bifollowerAct为用户的互粉活跃频率;{(i0,ω0),(i1,ω1),…,(im,ωm)}为用户兴趣特征集合,im为用户第m个兴趣名称,ωm为用户第m个兴趣的权重;E为用户的情感极性特征。
分词是用户情感极性特征分析的关键问题,本发明采用NLPIR汉语分词系统对用户发表的状态进行分词。该分词工具提供了分词和标注词性等功能,在分词领域被广泛地应用。
(2)参阅图4,在实现了用户个人品性特征的解析和表示,根据步骤(1)中获得的用户个人品性特征信息,进行特征的分析与预处理,由所述的特征分析和预处理模块实现多元数据类型的归一化步骤如下:
1)初始化数值型用户个人品性特征值的离散中心点集合,其计算公式如下:
其中:{ai1,ai2,ai3,…}为第i个用户个人品性数值型特征的取值集合,mij[0]∈Mi[0]为第i个用户个人品性数值型特征的第j个初始中心点,k为预先定义的离散集合数;
2)应用Kohonen’s feature-maps聚类算法获得某一特征收敛的中心点集合;
3)计算特征值与中心点之间的距离,与特征值距离最近的中心点对应的离散集合即为该特征值对应的离散取值,从而实现多元化数据类型的归一化。
(3)参阅图5,根据步骤(2)即特征分析与预处理模块中得到的用户个人品性特征信息,由参数学习模块实现特征权重的分配以及用户个人品性标记最低阀值的确定,步骤如下:
1)分配各个特征权重:
①计算特征的信息熵,其计算公式如下:
其中:多标记训练集用户i的r维特征集合表示,且为用户i的第j维特征,m为训练集中的样本数目,Yi为用户i对应的个人品性标记集合,n为用户i对应的个人品性标记的总数量,valij和Vij分别为特征某一取值和取值集合,p(yk)为数据集出现用户个人品性标记yk的概率,p(valij)为在数据集中特征取值为valij的概率,p(yk|valij)为在数据集中当取值为valij时,预测用户的个人品性属于标记yk的概率;
②计算特征的权值,其计算公式如下:
其中:Weightj为特征的权重,为特征的信息增益;
2)确定用户个人品性标记的最低阀值:
①初始化用户个人品性标记最低阀值,其计算公式如下:
mi[0]=min{ai1,ai2,ai3,…}+(max{ai1,ai2,ai3,…}-min{ai1,ai2,ai3,…})
其中:{ai1,ai2,ai3,…}为第i个用户个人品性标记分数的取值集合,mi[0]为第i个用户个人品性标记分数的初始中心点,即初始最低阀值;
②应用Kohonen’s feature-maps聚类算法获得收敛的用户个人品性标记最低阀值;
(4)参阅图6,使用步骤2中特征分析与预处理模块所得到的用户个人品性特征信息,以及步骤3中参数学习模块计算得到的特征权重与用户个人品性标记的最低阀值,由用户个人品性预测模块实现基于最低阀值的用户个人品性多标记的预测,步骤如下:
1)基于特征权重计算某一用户与其他所有用户之间的距离,其计算公式如下:
其中:分别为测试用户test与训练集中用户i的第j维特征,||·||表示返回实数的绝对值;
2)根据用户之间的距离,将用户升序排列,选择排在前K位的用户作为某一用户的K近邻用户集合,记为
3)初始化用户个人品性标记集合为空,记为TagSet;
4)基于用户个人品性标记分数计算公式如下所示:
其中:Cj中将用户个人品性标记yj作为其相关标记的样本个数,Hj具有用户个人品性标记yj这一事件,P(Hj|Cj)为当中有Cj个样本具有用户个人品性标记yj时Hj成立的概率;
5)若大于或者等于yj对应的用户个人品性标记最低阀值,则将其加入集合TagSet中;
6)若所有用户品性标记均已判断完毕,返回用户个人品性标记集合,否则重复步骤4)和步骤5)。
实施例:
参阅图2,本发明所述的用户个人品性预测方法的步骤如下:
1.参阅图3,由特征解析与表示模块实现用户个人品性相关特征的解析和表示,步骤如下:
(1)以网址为http://weibo.com/jietangthu的新浪微博网页为例,网页如图7所示,通过新浪微博API获取新浪微博用户初始的用户个人特征集合、关系特征集合、兴趣特征集合和发表状态集合;
(2)对用户个人特征集合、关系特征集合进行预处理:
1)将用户的注册微博的日期基于某一时间点转换为用户注册微博账号的天数,即用户活跃天数,记为:actDays,并将其加入到用户个人特征集合中,同时将用户的注册时间从集合中移除,即得到用户个人特征集合{1,1009,1,zh-cn,48,547};
2)基于用户活跃天数,计算用户个人特征集合和关系特征集合中数值型元素的活跃频率,计算公式如下:
featureActi=|featurei|/actDays
其中:featureActi为第i个特征的活跃频率,|featurei|为第i个特征的绝对值。即得到新定义的用户个人特征集合{1,1009,1,zh-cn,0.05,0.54}和关系特征集合{9.88,0.45,0.55}。
(3)计算用户的情感极性特征:
1)以用户最近一周内发表的微博集合为例,如图8所示,应用NLPIR汉语分词系统,其分词结果如下所示:
从发表状态集合中抽取出形容词和副词列表,记为:
Emotion_words=(e0,e1,….,ej)
其中:ej为第j个形容词或者副词;
2)基于知网的中文情感分析用词语集,计算用户的情感极性特征,其计算公式如下:
其中:
Pos_dec和Neg_dec为正极性和负极性情感词典,若相应极性情感词典中包含形容词或者副词ei,则对应函数值为1,否则值为0,最后计算得到E=0.51。
(4)基于步骤(1)(2)(3)得到的结果,将用户个人品性特征表示为:{1,1009,1,zhcn,0.05,0.54},{9.88,0.45,0.55},{(社会网络分析,48),(数据挖掘,3791),(机器学习,1782),(语义web,6)}和0.51。
2.参阅图4,在实现了用户个人品性特征的解析和表示,根据步骤1中获得的用户个人品性特征信息,进行特征的分析与预处理,由所述的特征分析和预处理模块实现多元数据类型的归一化,步骤如下:
1)初始化数值型用户个人品性特征值的离散中心点集合,其计算公式如下:
其中:{ai1,ai2,ai3,…}为第i个用户个人品性数值型特征的取值集合,mij[0]∈Mi[0]为第i个用户个人品性数值型特征的第j个初始中心点,k为预先定义的离散集合数;
2)应用Kohonen’s feature-maps聚类算法获得某一特征收敛的中心点集合;
3)计算特征值与中心点之间的距离,与特征值距离最近的中心点对应的离散集合即为该特征值对应的离散取值,从而实现多元化数据类型的归一化。
3.参阅图5,根据步骤2即特征分析与预处理模块中得到的用户个人品性特征信息,由参数学习模块实现特征权重的分配以及用户个人品性标记最低阀值的确定,步骤如下:
(1)分配各个特征权重:
1)计算特征的信息熵,其计算公式如下:
其中:多标记训练集用户i的r维特征集合表示,且为用户i的第j维特征,m为训练集中的样本数目,Yi为用户i对应的个人品性标记集合,n为用户i对应的个人品性标记的总数量,valij和Vij分别为特征某一取值和取值集合,p(yk)为数据集出现用户个人品性标记yk的概率,p(valij)为在数据集中特征取值为valij的概率,p(yk|valij)为在数据集中当取值为valij时,预测用户的个人品性属于标记yk的概率;
2)计算特征的权值,其计算公式如下:
其中:Weightj为特征的权重,为特征的信息增益,则各特征权重分别为:gender权重为0.018,actDays权重为0.045,verified权重为0.013,lang权重为0.009,favouritesAct权重为0.062,statusesAct权重为0.041,followersAct权重为0.151,friendsAct权重为0.092,bifollowerAct权重为0.274,用户兴趣特征权重为0.079,E权重为0.216。
(2)确定用户个人品性标记的最低阀值:
1)初始化用户个人品性标记最低阀值,其计算公式如下:
mi[0]=min{ai1,ai2,ai3,…}+(max{ai1,ai2,ai3,…}-min{ai1,ai2,ai3,…})
其中:{ai1,ai2,ai3,…}为第i个用户个人品性标记分数的取值集合,mi[0]为第i个用户个人品性标记分数的初始中心点,即初始最低阀值;
2)应用Kohonen’s feature-maps聚类算法获得收敛的用户个人品性标记最低阀值,本发明采用BIG-5个人品性标记,通过上述计算得到各用户个人品性标记最低阀值为:外向性(Extraversion)最低阀值为0.275,情绪稳定性(Emotional Stability)最低阀值为0.522,亲和性(Agreeableness)最低阀值为0.391,勤奋谨慎性(Conscientiousness)最低阀值为0.174,文化性(Culture)最低阀值为0.327。
4.参阅图6,使用步骤2中特征分析与预处理模块所得到的用户个人品性特征信息,以及步骤3中参数学习模块计算得到的特征权重与用户个人品性标记的最低阀值,由用户个人品性预测模块实现基于最低阀值的用户个人品性多标记的预测,步骤如下:
1)基于特征权重计算某一用户与其他所有用户之间的距离,其计算公式如下:
其中:分别为测试用户test与训练集中用户i的第j维特征,||·||表示返回实数的绝对值;
2)根据用户之间的距离,将用户升序排列,选择排在前K位的用户作为某一用户的K近邻用户集合,记为K近邻用户集合如图9所示,所有用户其K近邻用户集合个用户个人品性标记的统计数据如图10所示;
3)初始化用户个人品性标记集合为空,记为TagSet;
4)基于用户个人品性标记分数计算公式如下所示:
其中:Cj中将用户个人品性标记yj作为其相关标记的样本个数,Hj具有用户个人品性标记yj这一事件,P(Hj|Cj)为当中有Cj个样本具有用户个人品性标记yj时Hj成立的概率;
5)若大于或者等于yj对应的用户个人品性标记最低阀值,则将其加入集合TagSet中;
6)若所有用户品性标记均已判断完毕,返回用户个人品性标记集合,否则重复步骤4)步骤5),最终预测得到的用户个人品性标记集合为{外向性(0.548),情绪稳定性(0.531),勤奋谨慎性(0.237)}。

Claims (1)

1.一种基于最低阈值的用户个人品性多标记预测方法,其特征在于,所述的基于最低阈值的用户个人品性预测方法包括如下步骤:
(1)由特征解析与表示模块实现用户个人品性相关特征的解析和表示:
1)通过新浪微博API获取新浪微博用户初始的用户个人特征集合、关系特征集合、兴趣特征集合和发表状态集合;
2)对用户个人特征集合、关系特征集合进行预处理;
3)计算用户的情感特征;
4)基于步骤1)2)3)的结果,将用户个人品性特征表示为:
{gender,actDays,verified,lang,favouritesAct,statusesAct},{followersAct,friendsAct,bifollowerAct},{(i00),(i11),…,(imm)}和E;
其中:{gender,actDays,verified,lang,favouritesAct,statusesAct}为用户个人特征集合,gender为用户性别,actDays为用户的活跃天数,verified为用户是否是新浪微博认证用户,lang为用户当前的语言版本,favouritesAct为用户的收藏活跃频率,statusesAct为用户发表的微博的活跃频率;{followersAct,friendsAct,bifollowerAct}为用户关系特征集合,followersAct为用户的粉丝活跃频率,friendsAct为用户的关注活跃频率,bifollowerAct为用户的互粉活跃频率;{(i00),(i11),…,(imm)}为用户兴趣特征集合,im为用户第m个兴趣名称,ωm为用户第m个兴趣的权重;E为用户的情感极性特征;
(2)由特征分析和预处理模块实现多元数据类型的归一化;
(3)由参数学习模块实现特征权重的分配以及用户个人品性标记最低阈值的确定:
1)分配各个特征权重;
2)确定用户个人品性标记的最低阈值;
(4)由用户个人品性预测模块实现基于最低阈值的用户个人品性的预测;
其中,所述的实现用户个人特征集合、关系特征集合预处理包括如下步骤:
①将用户注册微博账号的日期基于某一时间点转换为用户注册微博账号的天数,即用户活跃天数,记为:actDays,并将其加入到用户个人特征集合中,同时将用户的注册时间从集合中移除,即得到用户个人特征集合{gender,actDays,verified,lang,favouritesCount,statusesCount},其中,gender表示用户性别,actDays表示活跃天数,verified表示是否认证,lang表示语言,favouritesCount表示收藏数量,statusesCount表示状态数量;
②基于用户活跃天数,计算用户个人特征集合和关系特征集合中数值型元素的活跃频率,计算公式如下:
featureActi=|featurei|/actDays
其中:featureActi为第i个特征的活跃频率,|featurei|为第i个特征的绝对值,即得到新定义的用户个人特征集合{gender,actDays,verified,lang,favouritesAct,statusesAct}和关系特征集合{followgrsAct,friendsAct,bifollowerAct},在关系特征集合中,followersAct表示跟随者关系,friendsAct表示朋友关系,bifollowerAct表示粉丝数;
其中,所述的实现用户情感特征的计算包括如下步骤:
①应用NLPIR汉语分词系统,从发表状态集合中抽取出形容词和副词列表,记为:
Emotion_words=(e0,e1,…,ej)
其中:ej为第j个形容词或者副词;
基于知网的中文情感分析用词语集,计算用户的情感极性特征,其计算公式如下:
其中:
Pos_dec和Neg_dec为正极性和负极性情感词典,若相应极性情感词典中包含形容词或者副词ei,则对应函数值为1,否则值为0;
其中,所述的实现归一化多元类型数据包括如下步骤:
①初始化数值型用户个人品性特征值的离散中心点集合,其计算公式如下:
其中:{ai1,ai2,ai3,…}为第i个用户个人品性数值型特征的取值集合,mij[0]∈Mi[0]为第i个用户个人品性数值型特征的第j个初始中心点,k为预先定义的离散集合数;
②应用Kohonen’s feature-maps聚类算法获得某一特征收敛的中心点集合;
③计算特征值与中心点之间的距离,与特征值距离最近的中心点对应的离散集合即为该特征值对应的离散取值,从而实现将定量的特征值转换为定性的特征值;
其中,所述的实现特征权重的分配包括如下步骤:
①计算特征的信息熵,其计算公式如下:
其中:为用户i的第j维特征,n为用户i对应的个人品性标记的总数量,valij和Vij分别为特征某一取值和取值集合,p(yk)为数据集出现用户个人品性标记yk的概率,p(valij)为在数据集中特征取值为valij的概率,p(yk|valij)为在数据集中当取值为valij时,预测用户的个人品性属于标记yk的概率;
②基于步骤①得到的特征信息熵,计算特征的权重,其计算公式如下:
其中:Weightj为特征的权重,为特征的信息增益;
其中,所述的实现用户个人品性标记最低阈值的确定包括如下步骤:
①初始化用户个人品性标记最低阈值;
②应用Kohonen’s feature-maps聚类算法获得收敛的用户个人品性标记最低阈值;
其中,所述的实现用户个人品性预测包括如下步骤:
①基于特征权重计算某一用户与其他所有用户之间的距离,其计算公式如下:
其中:分别为测试用户test与训练集中用户i的第j维特征,||·||表示返回实数的绝对值;
②根据用户之间的距离,对用户进行升序排列,选择排在前K位的用户作为某一用户的K近邻用户集合,记为
③初始化用户个人品性标记集合为空,记为TagSet;
④ 基于用户个人品性标记分数计算公式如下:
其中:Cj中将用户个人品性标记yj作为其相关标记的样本个数,Hj具有用户个人品性标记yj这一事件,P(Hj|Cj)为当中有Cj个样本具有用户个人品性标记yj时Hj成立的概率;
⑤若大于或者等于yj对应的用户个人品性标记最低阈值,则将其加入集合TagSet中;
⑥若所有用户个人品性标记均已判断完毕,返回用户个人品性标记集合,否则重复步骤④和步骤⑤。
CN201410081840.5A 2014-03-06 2014-03-06 基于最低阈值的用户个人品性多标记预测方法 Expired - Fee Related CN103995820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410081840.5A CN103995820B (zh) 2014-03-06 2014-03-06 基于最低阈值的用户个人品性多标记预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410081840.5A CN103995820B (zh) 2014-03-06 2014-03-06 基于最低阈值的用户个人品性多标记预测方法

Publications (2)

Publication Number Publication Date
CN103995820A CN103995820A (zh) 2014-08-20
CN103995820B true CN103995820B (zh) 2019-04-16

Family

ID=51309985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410081840.5A Expired - Fee Related CN103995820B (zh) 2014-03-06 2014-03-06 基于最低阈值的用户个人品性多标记预测方法

Country Status (1)

Country Link
CN (1) CN103995820B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10997226B2 (en) * 2015-05-21 2021-05-04 Microsoft Technology Licensing, Llc Crafting a response based on sentiment identification
CN106327341A (zh) * 2016-08-15 2017-01-11 首都师范大学 基于联合主题的微博用户性别推断方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140379806A1 (en) * 2011-09-13 2014-12-25 Tencent Technology (Shenzhen) Company Limited Data matching method and device
CN103324665B (zh) * 2013-05-14 2017-05-03 亿赞普(北京)科技有限公司 一种基于微博的热点信息提取的方法和装置
CN103577549B (zh) * 2013-10-16 2017-02-15 复旦大学 一种基于微博标签的人群画像系统和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Method for Determination on HMM Distance Threshold;Jinangjiao Duan等;《Fuzzy Systems and Knowledge Discovery 2009 Sixth International Conference》;20090816;第388页左栏第5段-第391页左栏第1段
基于支持向量机的博客作者信息挖掘软件;鲁梦平;《中国优秀硕士学位论文全文数据库信息科技辑》;20130215(第2期);第10页、第12页、第19页第1段、第27页、第37页第1段、第38页第1段,表4-3、表4-4
新浪微博用户关系研究;党永杰;《中国优秀硕士学位论文全文数据库信息科技辑》;20140115(第1期);第4页第5段、第17页倒数第1段、第23页第1段、第34页第3段、第42页第2段

Also Published As

Publication number Publication date
CN103995820A (zh) 2014-08-20

Similar Documents

Publication Publication Date Title
CN103646088B (zh) 基于CRFs和SVM的产品评论细粒度情感要素提取
CN103699626B (zh) 一种微博用户个性化情感倾向分析方法及系统
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN107038480A (zh) 一种基于卷积神经网络的文本情感分类方法
CN109145112A (zh) 一种基于全局信息注意力机制的商品评论分类方法
CN101354714B (zh) 一种基于概率潜在语义分析的问题推荐方法
CN106709754A (zh) 一种用基于文本挖掘的电力用户分群方法
CN113806630B (zh) 基于注意力的多视角特征融合跨域推荐方法及装置
CN103870001B (zh) 一种生成输入法候选项的方法及电子装置
CN110096575B (zh) 面向微博用户的心理画像方法
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN106062730A (zh) 用于主动构成内容以便在连续社交通信中使用的系统和方法
CN104133897B (zh) 一种基于话题影响力的微博话题溯源方法
CN106484829B (zh) 一种微博排序模型的建立及微博多样性检索方法
CN106355446B (zh) 一种网络和手机游戏的广告推荐系统
CN111177559B (zh) 文旅服务推荐方法、装置、电子设备及存储介质
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN109325120A (zh) 一种分离用户和产品注意力机制的文本情感分类方法
CN109949174A (zh) 一种异构社交网络用户实体锚链接识别方法
Solomon et al. Understanding the psycho-sociological facets of homophily in social network communities
CN113821592B (zh) 一种数据处理方法、装置、设备以及存储介质
CN110956210A (zh) 一种基于ap聚类的半监督网络水军识别方法及系统
CN110348919A (zh) 物品推荐方法、装置和计算机可读存储介质
TW201820172A (zh) 對話模式分析系統、方法及非暫態電腦可讀取記錄媒體
Li et al. Event extraction for criminal legal text

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190416

Termination date: 20200306