CN104598648B - 一种微博用户交互式性别识别方法及装置 - Google Patents

一种微博用户交互式性别识别方法及装置 Download PDF

Info

Publication number
CN104598648B
CN104598648B CN201510087855.7A CN201510087855A CN104598648B CN 104598648 B CN104598648 B CN 104598648B CN 201510087855 A CN201510087855 A CN 201510087855A CN 104598648 B CN104598648 B CN 104598648B
Authority
CN
China
Prior art keywords
user
interactive
information
sex
text message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510087855.7A
Other languages
English (en)
Other versions
CN104598648A (zh
Inventor
李寿山
王晶晶
段湘煜
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201510087855.7A priority Critical patent/CN104598648B/zh
Publication of CN104598648A publication Critical patent/CN104598648A/zh
Application granted granted Critical
Publication of CN104598648B publication Critical patent/CN104598648B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本方案公开了一种微博用户交互式性别识别方法及装置。该方法首先获取微博用户的个人资料信息和用户之间的交互微博文本,并利用交互用户个人资料中的性别信息对交互文本的交互式性别类别进行标注;然后利用标注好的用户之间的交互文本作为训练样本,并利用训练样本训练最大熵分类器;最后,对某测试交互用户集进行分类。综合来看,本发明可以利用交互文本对微博中的两个交互用户的交互式性别进行识别,且在训练样本数量有限的情况下,达到较高的准确率。

Description

一种微博用户交互式性别识别方法及装置
技术领域
本发明涉及自然语言处理和社交网络领域,尤其涉及一种微博用户交互式性别识别方法及装置。
背景技术
互联网的开放性、虚拟性与共享性使其渐渐成为人们表达观点、态度、感觉、情绪等各种情感的公共平台,并且产生大量的社交网站,同时微型博客(Microblog)也随之产生,成为又一个跨时代产品。用户通过微博发表的文本中蕴含了大量的信息,且越来越多的研究工作开始关注微博,其中重要的一类研究是微博用户性别类别。
所谓微博用户性别类别,就是通过对微博用户的信息和关系数据进行决策树分析、相关性分析和关联规则来挖掘用户性别特征,并根据这些特征来对单个用户的性别类别进行分类。然而目前的研究工作主要集中在通过用户的注册信息,对单个用户的性别进行预测。
发明内容
有鉴于此,本发明提供一种微博用户交互式性别识别方法和装置,通过用户之间的交互文本信息,对用户的性别进行预测。
为实现上述目的,本发明提供如下技术方案:
一种微博用户交互式性别识别方法,包括:
获取微博用户的个人资料信息和用户之间的交互文本信息;
根据所述个人资料信息,对用户之间的交互文本信息对交互式性别类别进行标注,其中所述交互式性别类别包括:女对女、女对男、男对女和男对男;
将已经标注的所述交互文本信息作为训练样本,并利用所述训练样本建立最大熵分类器;
利用所述最大熵分类器对测试样本的交互文本信息进行交互式性别类别,以对测试样本性别进行识别。
优选的,所述获取微博用户的个人资料信息和用户之间的交互文本信息,包括:
构建一个用户队列;
从用户队列取出一个种子用户,抓取种子用户个人资料信息和种子用户与其他用户之间的交互文本信息,其中所述用户个人资料信息包括用户名、用户ID、性别、及关注用户和粉丝用户,并将关注用户和粉丝用户加入到用户队列中;
反复抓取多个种子用户,直到抓取的种子用户数目达到设定数值。
优选的,所述根据所述个人资料信息,对用户之间的交互文本信息对交互式性别类别进行标注,包括:
根据所述个人资料信息中的性别信息对用户之间的交互文本信息进行交互时性别类别进行标注。
优选的,所述将进行标注的所述交互文本信息作为训练样本,并利用所述训练样本建立最大熵分类器,包括:
利用所述训练样本及Mallet提供的最大熵工具包构建最大熵分类器。
一种微博用户交互式性别识别装置,包括:
信息采集模块,用于获取微博用户的个人资料信息和用户之间的交互文本信息;
交互式性别类别标注模块,用于根据所述个人资料信息,对用户之间的交互文本信息对交互式性别类别进行标注,其中所述交互式性别类别包括:女对女、女对男、男对女和男对男;
分类器构建模块,用于将已经标注的所述交互文本信息作为训练样本,并利用所述训练样本建立最大熵分类器;
测试样本性别识别模块,用于利用所述最大熵分类器对测试样本的交互文本信息进行交互式性别类别,以对测试样本性别进行识别。
优选的,所述信息采集模块包括:
用户列队构建单元,用于构建一个用户队列;
种子用户选定单元,用于从用户队列取出一个种子用户,抓取种子用户个人资料信息和种子用户与其他用户之间的交互文本信息,其中所述用户个人资料信息包括用户名、用户ID、性别、及关注用户和粉丝用户,并将关注用户和粉丝用户加入到用户队列中;反复抓取多个种子用户,直到抓取的种子用户数目达到设定数值。
优选的,所述交互式性别类别标注模块包括:
类别标注子模块,用于根据所述个人资料信息中的性别信息对用户之间的交互文本信息进行交互时性别类别进行标注。
优选的,所述分类器构建模块包括:
分类器构建子模块,用于利用所述训练样本及Mallet提供的最大熵工具包构建最大熵分类器。
经由上述的技术方案可知,与现有技术相比,本方案公开了一种微博用户交互式性别识别方法及装置。该方法基于微博中用户之间的交互文本,用以识别某两个交互的微博用户的交互式性别是女对女、女对男、男对女还是男对男。首先,获取微博用户的个人资料信息和用户之间的交互微博文本,并利用交互用户个人资料中的性别信息对交互文本的交互式性别类别进行标注;然后利用标注好的用户之间的交互文本作为训练样本,并利用训练样本训练最大熵分类器;最后,对某测试交互用户集进行分类。综合来看,本发明可以利用交互文本对微博中的两个交互用户的交互式性别进行识别,且在训练样本数量有限的情况下,达到较高的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本发明一种微博用户交互式性别识别方法的一个实施例的流程示意图;
图2示出了本发明一种微博用户交互式性别识别装置的一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
微博不仅仅给单个用户发表自己的感悟和建议提供了一个好的平台,而且利用某些交互机制让其用户之间可以进行交互沟通。因此利用两个微博用户之间的交互文本对用户交互式性别进行分类是一项具有重要意义的任务。具体来讲,该任务将微博用户之间的交互划分为四种类别,分别为:女对女(ff)、女对男(fm)、男对女(mf)和男对男(mm)。值得注意的是,该任务不仅能预测用户的性别,而且能帮助社会学研究人与人之间的交流,并且在使人机交互更人性化方面有一定的价值。
参见图1示出了本发明一种微博用户交互式性别识别方法的一个实施例的流程示意图。
由图1可知,在本实施例中,该方法包括:
101:获取微博用户的个人资料信息和用户之间的交互文本信息。
可选的,在本实施例中,微博用户的个人资料信息和用户信息可通过微博提供的API接口进行抓取。
具体的抓取过程为:构建一个用户队列;从用户队列取出一个用户作为种子用户,抓取种子用户的个人资料信息和种子用户与其他用户之间的交互文本信息。其中,所述用户个人资料信息包括用户名、用户ID、性别、及关注用户和粉丝用户,并将关注用户和粉丝用户加入到用户队列中。
进而,反复抓取多个种子用户,直到抓取的种子用户数目达到设定数值。
102:根据所述个人资料信息,对用户之间的交互文本信息对交互式性别类别进行标注,其中所述交互式性别类别包括:女对女、女对男、男对女和男对男。
通过步骤101中抓取的用户个人资料中的性别信息,用户之间的额交互文本信息进行交互式性别类别标注。该性别类别标注具体以下四种,女对女(ff)、女对男(fm)、男对女(mf)和男对男(mm)。需要说明的是,在抓取时需要保证每两个交互的用户之间的微博评论数不少于十条,以保证抓取的可靠性。参见表1示出了本发明所抓取的多个用户样本。
# 训练样本
mm 2883
mf 4462
ff 10954
fm 4596
表1
103:将已经标注的所述交互文本信息作为训练样本,并利用所述训练样本建立最大熵分类器。
可利用所述训练样本及Mallet提供的最大熵工具包构建最大熵分类器。
其中,最大熵模型是最大熵分类器的理论基础,其基本思想是为所有已知的因素建立模型,而把所有未知的因素排除在外。也就是要找到一个概率分布,不仅满足所有已知的事实,而且不会受任何未知因素的影响。
假设x是特征向量,y是样本类别的输出值。p(y|x)是样本被预测为某一类别的概率。最大熵模型要求p(y|x)在满足一定约束的条件下,必须使下面定义的熵取得最大值,即在约束集下输出最均匀分布的模型:
这里用H(p)代替H(Y|X),条件熵H(Y|X)是条件概率p(y|x)均匀性的一种数学度量方法,强调对概率分布p的依赖。对于任意给定的约束集C,需要求得满足C的所有模型中H(p)取最大值的p*
p*=argmaxH(p)
其中p为满足约束集C条件下的统计模型。
特征fi的权重用相应的参数λi来表示,则最大熵的最终概率输出为:
其中:称为归一化因子。
104:利用所述最大熵分类器对测试样本的交互文本信息进行交互式性别类别,以对测试样本性别进行识别。
由以上内容可知,本发明首先获取微博用户的个人资料信息和用户之间的交互微博文本,并利用交互用户个人资料中的性别信息对交互文本的交互式性别类别进行标注;然后利用标注好的用户之间的交互文本作为训练样本,并利用训练样本训练最大熵分类器;最后,对某测试交互用户集进行分类。综合来看,本发明可以利用交互文本对微博中的两个交互用户的交互式性别进行识别,且在训练样本数量有限的情况下,达到较高的准确率。
需要说明的是,本发明还公开了一种与微博用户交互式性别识别方法相适应的人脸识别装置。
参见图2示出了本发明一种微博用户交互式性别识别装置的一个实施例的结构示意图。
由图2可知,在本实施例中,该装置具体包括:信息采集模量1、与信息采集模块1相连的交互式性别类别标注模块2、与交互式性别类别标注模块2相连的分类器构建3,以及与分类器构建模块3相连的测试样本性别识别模块4。
其中,信息采集模块1,用于获取微博用户的个人资料信息和用户之间的交互文本信息,并将采集到的用户的个人资料信息和交互文本信息发送至交互式性别类别标注模块。
需要说明的是,该信息采集模块可包括用户列队构建单元和种子用户选定单元。用户列队构建单元用于构建一个用户队列;当用户列队构建完成读后,种子用户选定单元从用户队列取出一个用户,抓取种子用户个人资料信息和种子用户与其他用户之间的交互文本信息,其中所述用户个人资料信息包括用户名、用户ID、性别、及关注用户和粉丝用等,并将关注用户和粉丝用户加入到用户队列中;反复抓取多个种子用户,直到抓取的种子用户数目达到设定数值。
交互式性别类别标注模块2,用于根据所述个人资料信息,对用户之间的交互文本信息对交互式性别类别进行标注。其中,所述交互式性别类别包括:女对女(ff)、女对男(fm)、男对女(mf)和男对男(mm)四种类别。
分类器构建模块3,用于将已经标注的所述交互文本信息作为训练样本,并利用所述训练样本建立最大熵分类器。具体的,可利用所述训练样本及Mallet提供的最大熵工具包构建最大熵分类器。
测试样本性别识别模块,用于利用所述最大熵分类器对测试样本的交互文本信息进行交互式性别类别,以对测试样本性别进行识别。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种微博用户交互式性别识别方法,其特征在于,包括:
获取微博用户的个人资料信息和用户之间的交互文本信息;
根据所述个人资料信息,对用户之间的交互文本信息对交互式性别类别进行标注,其中所述交互式性别类别包括:女对女、女对男、男对女和男对男;
将已经标注的所述交互文本信息作为训练样本,并利用所述训练样本建立最大熵分类器;
利用所述最大熵分类器对测试样本的交互文本信息进行交互式性别类别,以对测试样本性别进行识别。
2.根据权利要求1所述的方法,其特征在于,所述获取微博用户的个人资料信息和用户之间的交互文本信息,包括:
构建一个用户队列;
从用户队列取出一个种子用户,抓取种子用户个人资料信息和种子用户与其他用户之间的交互文本信息,其中所述用户个人资料信息包括用户名、用户ID、性别、及关注用户和粉丝用户,并将关注用户和粉丝用户加入到用户队列中;
反复抓取多个种子用户,直到抓取的种子用户数目达到设定数值。
3.根据权利要求1所述的方法,其特征在于,所述根据所述个人资料信息,对用户之间的交互文本信息对交互式性别类别进行标注,包括:
根据所述个人资料信息中的性别信息对用户之间的交互文本信息进行交互时性别类别进行标注。
4.根据权利要求1所述的方法,其特征在于,所述将进行标注的所述交互文本信息作为训练样本,并利用所述训练样本建立最大熵分类器,包括:
利用所述训练样本及Mallet提供的最大熵工具包构建最大熵分类器。
5.一种微博用户交互式性别识别装置,其特征在于,包括:
信息采集模块,用于获取微博用户的个人资料信息和用户之间的交互文本信息;
交互式性别类别标注模块,用于根据所述个人资料信息,对用户之间的交互文本信息对交互式性别类别进行标注,其中所述交互式性别类别包括:女对女、女对男、男对女和男对男;
分类器构建模块,用于将已经标注的所述交互文本信息作为训练样本,并利用所述训练样本建立最大熵分类器;
测试样本性别识别模块,用于利用所述最大熵分类器对测试样本的交互文本信息进行交互式性别类别,以对测试样本性别进行识别。
6.根据权利要求5所述的装置,其特征在于,所述信息采集模块包括:
用户列队构建单元,用于构建一个用户队列;
种子用户选定单元,用于从用户队列取出一个用户,抓取种子用户个人资料信息和种子用户与其他用户之间的交互文本信息,其中所述用户个人资料信息包括用户名、用户ID、性别、及关注用户和粉丝用户,并将关注用户和粉丝用户加入到用户队列中;反复抓取多个种子用户,直到抓取的种子用户数目达到设定数值。
7.根据权利要求5所述的装置,其特征在于,所述交互式性别类别标注模块包括:
类别标注子模块,用于根据所述个人资料信息中的性别信息对用户之间的交互文本信息进行交互式性别类别进行标注。
8.根据权利要求5所述的装置,其特征在于,所述分类器构建模块包括:
分类器构建子模块,用于利用所述训练样本及Mallet提供的最大熵工具包构建最大熵分类器。
CN201510087855.7A 2015-02-26 2015-02-26 一种微博用户交互式性别识别方法及装置 Active CN104598648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510087855.7A CN104598648B (zh) 2015-02-26 2015-02-26 一种微博用户交互式性别识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510087855.7A CN104598648B (zh) 2015-02-26 2015-02-26 一种微博用户交互式性别识别方法及装置

Publications (2)

Publication Number Publication Date
CN104598648A CN104598648A (zh) 2015-05-06
CN104598648B true CN104598648B (zh) 2017-12-26

Family

ID=53124433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510087855.7A Active CN104598648B (zh) 2015-02-26 2015-02-26 一种微博用户交互式性别识别方法及装置

Country Status (1)

Country Link
CN (1) CN104598648B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809236B (zh) * 2015-05-11 2018-03-27 苏州大学 一种基于微博的用户年龄分类方法及系统
CN104809104A (zh) * 2015-05-11 2015-07-29 苏州大学 一种微博文本情绪识别方法及系统
CN105069041A (zh) * 2015-07-23 2015-11-18 合一信息技术(北京)有限公司 基于视频用户性别分类的广告投放方法
CN106447374A (zh) * 2015-08-12 2017-02-22 深圳市腾讯计算机系统有限公司 一种用户性别估算方法和系统
CN109961075A (zh) * 2017-12-22 2019-07-02 广东欧珀移动通信有限公司 用户性别预测方法、装置、介质及电子设备
TWI679600B (zh) * 2018-02-05 2019-12-11 多利曼股份有限公司 特徵預測系統及特徵預測方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120110071A1 (en) * 2010-10-29 2012-05-03 Ding Zhou Inferring user profile attributes from social information
CN103729785A (zh) * 2014-01-26 2014-04-16 合一信息技术(北京)有限公司 一种视频用户性别分类方法及其装置
CN104281635A (zh) * 2014-03-13 2015-01-14 电子科技大学 基于隐私反馈预测移动用户基础属性的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120110071A1 (en) * 2010-10-29 2012-05-03 Ding Zhou Inferring user profile attributes from social information
CN103729785A (zh) * 2014-01-26 2014-04-16 合一信息技术(北京)有限公司 一种视频用户性别分类方法及其装置
CN104281635A (zh) * 2014-03-13 2015-01-14 电子科技大学 基于隐私反馈预测移动用户基础属性的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Interactive gender inference with integer linear programming,《Proceeding;Shoushan Li 等,;《Proceeding IJCAI"15 Proceedings of the 24th International Conference on Artificial Intelligence》;20150731;2341-2347 *

Also Published As

Publication number Publication date
CN104598648A (zh) 2015-05-06

Similar Documents

Publication Publication Date Title
CN104598648B (zh) 一种微博用户交互式性别识别方法及装置
CN104268271B (zh) 一种兴趣和网络结构双内聚的社交网络社区发现方法
CN106372072A (zh) 一种基于位置的移动社会网络用户关系的识别方法
CN103823888B (zh) 一种基于节点亲密度的社交网站好友推荐方法
CN105225149B (zh) 一种征信评分确定方法及装置
CN104866558B (zh) 一种社交网络账号映射模型训练方法及映射方法和系统
CN102682120B (zh) 一种网络评论精华文本的获取方法和装置
CN110457404A (zh) 基于复杂异质网络的社交媒体账户分类方法
KR101543780B1 (ko) 동적 사용자 프로필 및 소셜 네트워크 신뢰성을 이용한 전문가 검색 시스템 및 방법
CN107577782B (zh) 一种基于异质数据的人物相似度刻画方法
CN105630884B (zh) 一种微博热点事件的地理位置发现方法
CN106203473B (zh) 一种基于安装包列表的移动用户性别预测方法
CN106610955A (zh) 基于词典的多维度情感分析方法
CN105893551A (zh) 数据的处理方法及装置、知识图谱
CN108874959A (zh) 一种基于大数据技术的用户动态兴趣模型建立方法
CN107291886A (zh) 一种基于增量聚类算法的微博话题检测方法及系统
CN106097835B (zh) 一种聋哑人交流智能辅助系统及交流的方法
JP5754854B2 (ja) 投稿者のプロフィール情報を分析する投稿者分析装置、プログラム及び方法
CN109753602A (zh) 一种基于机器学习的跨社交网络用户身份识别方法和系统
CN106203935B (zh) 基于用户生成内容及用户关系的技能评估与岗位匹配方法
CN107301200A (zh) 一种基于情感倾向分析的文章评估方法和系统
Zanghi et al. Strategies for online inference of model-based clustering in large and growing networks
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN108776940A (zh) 一种基于文本评论挖掘的智能餐饮推荐算法
CN105975609A (zh) 一种工业设计产品智能推荐方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Li Shoushan

Inventor after: Wang Jingjing

Inventor after: Duan Xiangyu

Inventor after: Zhou Guodong

Inventor after: Zhang Min

Inventor before: Li Shoushan

Inventor before: Wang Jingjing

Inventor before: Duan Xiangyu

Inventor before: Zhou Guodong

CB03 Change of inventor or designer information