CN105243094A - 一种基于微博文本和个人信息的用户职业分类方法及系统 - Google Patents

一种基于微博文本和个人信息的用户职业分类方法及系统 Download PDF

Info

Publication number
CN105243094A
CN105243094A CN201510577403.7A CN201510577403A CN105243094A CN 105243094 A CN105243094 A CN 105243094A CN 201510577403 A CN201510577403 A CN 201510577403A CN 105243094 A CN105243094 A CN 105243094A
Authority
CN
China
Prior art keywords
class
user
personal information
training sample
maximum entropy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510577403.7A
Other languages
English (en)
Inventor
李寿山
戴斌
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhangjiagang Institute of Industrial Technologies Soochow University
Original Assignee
Zhangjiagang Institute of Industrial Technologies Soochow University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangjiagang Institute of Industrial Technologies Soochow University filed Critical Zhangjiagang Institute of Industrial Technologies Soochow University
Priority to CN201510577403.7A priority Critical patent/CN105243094A/zh
Publication of CN105243094A publication Critical patent/CN105243094A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于微博文本和个人信息的用户职业分类方法及系统,所述方法包括以下步骤。收集指定数量第一用户的微博文本和个人信息,并根据第一用户的个人信息获得其职业类型,并将所述第一用户的个人信息作为第一训练样本。根据第一用户的职业类型字段,对第一用户的微博文本和个人信息进行标注,并将标注好的微博文本和个人信息进行分词处理后作为第二训练样本。利用所述第一训练样本及第二训练样本分别构建第一最大熵分类器及第二最大熵分类器,并利用所述第一最大熵分类器及第二最大熵分类器对第二用户进行分类并融合,并根据融合结果确定所述第二用户职业类型。如此,有效提高微博用户职业分类的准确率。

Description

一种基于微博文本和个人信息的用户职业分类方法及系统
技术领域
本发明属于自然语言处理和社交网络领域,具体地,涉及一种基于微博文本和个人信息的用户职业分类方法和系统。
背景技术
互联网的开放性、虚拟性与共享性使其渐渐成为人们表达观点、态度、感觉、情绪等各种情感的公共平台,并且产生大量的社交网站,同时微型博客(Microblog)也随之产生,成为又一个跨时代产品。用户通过微博发表的文本中蕴含了大量的信息,且越来越多的研究工作开始关注微博,其中重要的一类研究是微博用户特征分析。
所谓微博用户特征分析,就是通过对微博用户的信息和关系数据进行决策树分析、相关性分析和关联规则来挖掘用户特征,并根据这些特征进行用户分类。其中微博用户分类是微博用户特征分析的一项基本内容,具体来讲,是将微博用户按职业划分为不同类别,比如:学生、自由职业、计算机类和销售类;由于社交网络刚刚起步相关研究较少,因此关于用户职业类别的研究也比较缺乏。
但是,已有的研究主要是针对Twitter等外文网站,且利用的信息是网站提供的社交网络信息;然而,相对于社交网络信息,文本信息,例如,用户名和所发微博等,更容易获取且更具普遍性。
于现有技术中,申请号为201510236383.7的发明专利公开了一种基于微博的用户职业分类方法和系统,包括:获取预设数量的第一用户,第一用户为已经提供职业信息的微博用户;获取每个第一用户的职业信息和微博文本;依据第一用户的职业信息对第一用户进行分类,利用分类后得到的结果确定每个第一用户的职业类型;将每个第一用户的微博文本分别进行分词处理,得到第一文本词组;利用第一文本词组构成分别与每个第一用户的微博文本对应的第一特征向量,并利用第一用户的职业类型及第一特征向量构建最大熵分类器;利用最大熵分类器对第二特征向量进行处理,得到与第二特征向量对应的微博文本所属的第二用户的职业类型。由此,能够准确获知未知职业信息的微博用户的职业类型。在上述方案中,首先对于职业的分类不够细化,此外,分类准确率仍然有待提高。
鉴于此,本发明提供一种基于微博文本和个人信息的用户职业分类方法和系统,以解决上述问题。
发明内容
本发明提供一种基于微博文本和个人信息的用户职业分类方法,包括以下步骤。
S1、收集指定数量第一用户的微博文本和个人信息,并根据第一用户的个人信息获得其职业类型,并将所述第一用户的个人信息作为第一训练样本。
S2、根据第一用户的职业类型字段,对第一用户的微博文本和个人信息进行标注,并将标注好的微博文本进行分词处理后作为第二训练样本。
S3、利用所述第一训练样本及第二训练样本分别构建第一最大熵分类器及第二最大熵分类器,并利用所述第一最大熵分类器及第二最大熵分类器对第二用户进行分类并融合,并根据融合结果确定所述第二用户职业类型。
优选的,在步骤S1中,收集指定数量的第一用户的微博文本和个人信息包括以下步骤:
S11、构建一个空的用户列表,在列表中添加指定数量的种子用户;
S12、获取所述种子用户的微博文本和个人信息,并获取对所述种子用户的微博文本的评论账号,将所述评论账号加入用户列表中;
S13、从用户列表取出一个账号,获取该账号发表过的微博文本和个人信息,并回转至步骤S12,直至达到第一用户的所需数量。
优选的,在步骤S12中,所述种子用户的微博文本和个人信息通过微博网站提供的API获取。
优选的,用户的个人信息包括微博网站提供的用户名、性别、年龄、关注者、粉丝及职业。
优选的,所述职业类型为根据微博网站的职业直接划分,并对各职业类型进行标号。
优选的,所述职业类型包括在校学生、计算机网络技术类、经营管理类、文体工作类、销售类、医疗卫生类、农林牧渔劳动者、酒店餐饮旅游服务类、美术设计创意类、电子电器通信技术类、农村外出务工人员、贸易物流采购运输类、建筑房地产装修类、财务审计统计类、电气能源动力类、个体经营商业零售类、军人警察类、美容保健类、行政后勤类、教育培训类、公务员类、市场公关咨询媒介类、技工类、工厂生产类、宗教神职人员类、工程师类、新闻出版文化工作类、金融类、人力资源类、保险类、法律类、翻译类、其他类、娱乐业、自由职业类及待业/无业/失业类。
优选的,步骤S3还包括:利用所述第一最大熵分类器及第二最大熵分类器,对第二用户的微博文本和个人信息进行分类,得到两个分类结果,将两个分类结果融合得到所述融合结果。
本发明还提供一种基于微博文本和个人信息的用户职业分类系统,包括类型标注模块、训练样本获取模块及分类模块,所述类型标注模块连接训练样本获取模块,所述训练样本获取模块连接分类模块。所述类型标注模块,用于收集指定数量第一用户的微博文本和个人信息,并根据第一用户的个人信息获得其职业类型,并将所述第一用户的个人信息作为第一训练样本;所述训练样本获取模块,用于根据第一用户的职业类型字段,对第一用户的微博文本和个人信息进行标注,并将标注好的微博文本和个人信息进行分词处理后作为第二训练样本;所述分类模块,用于利用所述第一训练样本及第二训练样本分别构建第一最大熵分类器及第二最大熵分类器,并利用所述第一最大熵分类器及第二最大熵分类器对第二用户进行分类并融合,并根据融合结果确定所述第二用户职业类型。
根据本发明提供的基于微博文本和个人信息的用户职业分类方法及系统,收集指定数量第一用户的微博文本和个人信息,并根据第一用户的个人信息获得其职业类型,并将所述第一用户的个人信息作为第一训练样本。根据第一用户的职业类型字段,对第一用户的微博文本和个人信息进行标注,并将标注好的微博文本和个人信息进行分词处理后作为第二训练样本。利用所述第一训练样本及第二训练样本分别构建第一最大熵分类器及第二最大熵分类器,并利用所述第一最大熵分类器及第二最大熵分类器对第二用户进行分类并融合,并根据融合结果确定所述第二用户职业类型。如此,有效提高微博用户职业分类的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明较佳实施例提供的基于微博文本和个人信息的用户职业分类方法流程图;
图2是本发明较佳实施例提供的收集指定数量的第一用户的微博文本和个人信息流程图;
图3是本发明较佳实施例提供的基于微博文本和个人信息的用户职业分类系统示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1是本发明较佳实施例提供的基于微博文本和个人信息的用户职业分类方法流程图。如图1所示,本发明较佳实施例提供的基于微博文本和个人信息的用户职业分类方法包括步骤S1~S3。
步骤S1:收集指定数量第一用户的微博文本和个人信息,并根据第一用户的个人信息获得其职业类型,并将所述第一用户的个人信息作为第一训练样本。
具体而言,本实施例中所述微博均为腾讯微博,所述第一用户是指可通过人工操作获得职业信息的部分用户。图2是本发明较佳实施例提供的收集指定数量的第一用户的微博文本和个人信息流程图。如图2所示,收集指定数量的第一用户的微博文本和个人信息包括步骤S11~S13。
步骤S11:构建一个空的用户列表,在列表中添加指定数量的种子用户。
步骤S12:获取所述种子用户的微博文本和个人信息,并获取对所述种子用户的微博文本的评论账号,将所述评论账号加入用户列表中;
具体地,用户的个人信息包括微博网站提供的用户名、性别、年龄、关注者、粉丝及职业。本步骤中,所述种子用户的微博文本和个人信息通过微博网站提供的API获取。
步骤S13:从用户列表取出一个账号,获取该账号发表过的微博文本和个人信息,并回转至步骤S12,直至达到第一用户的所需数量。
本实施例中,所述职业类型根据微博网站的职业直接划分,并对各职业类型进行标号。所述职业类型包括在校学生、计算机网络技术类、经营管理类、文体工作类、销售类、医疗卫生类、农林牧渔劳动者、酒店餐饮旅游服务类、美术设计创意类、电子电器通信技术类、农村外出务工人员、贸易物流采购运输类、建筑房地产装修类、财务审计统计类、电气能源动力类、个体经营商业零售类、军人警察类、美容保健类、行政后勤类、教育培训类、公务员类、市场公关咨询媒介类、技工类、工厂生产类、宗教神职人员类、工程师类、新闻出版文化工作类、金融类、人力资源类、保险类、法律类、翻译类、其他类、娱乐业、自由职业类及待业/无业/失业类。表1是各职业类型及其职业标号对照示例表。
在校学生 1007 行政后勤类 2019
计算机网络技术类 2002 教育培训类 2020
经营管理类 2003 公务员类 2021
文体工作类 2004 市场公关咨询媒介类 2022
销售类 2005 技工类 2023
医疗卫生类 2006 工厂生产类 2024
农林牧渔劳动者 2007 宗教神职人员类 2025
酒店餐饮旅游服务类 2008 工程师类 2026
美术设计创意类 2009 新闻出版文化工作类 2027
电子电器通信技术类 2010 金融类 2028
农村外出务工人员 2011 人力资源类 2029
贸易物流采购运输类 2012 保险类 2030
建筑房地产装修类 2013 法律类 2031
财务审计统计类 2014 翻译类 2032
电气能源动力类 2015 其他类 2033
个体经营商业零售类 2016 娱乐业 2034
军人警察类 2017 自由职业类 3001
美容保健类 2018 待业/无业/失业 4001
表1
参照表1,本实施例所做的数据实验中选取在社交网络中数量较多的四个职业,分别为1007(在校学生),2002(计算机网络技术类),2016(个体经营商业零售类),2020(教育培训类)。
步骤S2:根据第一用户的职业类型字段,对第一用户的微博文本和个人信息进行标注,并将标注好的微博文本进行分词处理后作为第二训练样本。
具体地,所述分词处理是采用中国科学院计算技术研究所的分词软件ICTCLAS,对标注好的微博文本进行分词操作,并将所述经过分词操作的微博文本作为第二训练样本。
步骤S3:利用所述第一训练样本及第二训练样本分别构建第一最大熵分类器及第二最大熵分类器,并利用所述第一最大熵分类器及第二最大熵分类器对第二用户进行分类并融合,并根据融合结果确定所述第二用户职业类型。
本步骤中,是利用所述第一训练样本、第二训练样本及Mallet提供的最大熵工具包构建最大熵分类器。
于此,利用所述第一最大熵分类器及第二最大熵分类器,对第二用户的微博文本和个人信息进行分类,得到两个分类结果,将两个分类结果融合得到所述融合结果。
其中最大熵分类器的方法具体解释如下。
本实验中使用的特征为文本特征,即以文本中出现的词作为特征,实验中的类别共有4种。由此可以定义语料(corpus)中所有的文本,以词为单位,每个词即X。label(x)表示这个词的类别,features(x)表示这个词特征。判断一个文本的类别,需要计算这个文本中的所有词分别为每种类别的概率,每种类别的所有词概率即p(label(x)|features(x))分别求和,得到的就是这个文本为这几个类别的概率,取最大概率即认为该文本属于这个类别。见如下公式。
P(features)=∑x|in|corpusP(label(x)|features(x))
值得指出的是,计算概率的时候由于使用熵的公式计算,其中含有log,所以这里采用的是求和。
其中p(label|features),一个特征为features将有类标签label的输入的概率,被定义为:
P(label|features)=P(label,features)/∑labelP(label,features)
上述公式理解为:计算一个特征features有类别label的概率要用这个features有一种label的概率然后除以所有features具有每种label的概率的和。
经实验数据证明,采用本发明提供的基于微博文本和个人信息的用户职业分类方法,对微博用户进行分类的准确率为0.68,其中训练样本包含4个职业各800,测试样本包含4个类别各200。相比现有技术中的类似方法准确率有较大提高。
图3是本发明较佳实施例提供的基于微博文本和个人信息的用户职业分类系统示意图。如图3所示,本发明较佳实施例提供的基于微博文本和个人信息的用户职业分类系统包括类型标注模块1、训练样本获取模块2及分类模块3,所述类型标注模块1连接训练样本获取模块2,所述训练样本获取模块2连接分类模块3。所述类型标注模块1,用于收集指定数量第一用户的微博文本和个人信息,并根据第一用户的个人信息获得其职业类型,并将所述第一用户的个人信息作为第一训练样本。所述训练样本获取模块2,用于根据第一用户的职业类型字段,对第一用户的微博文本和个人信息进行标注,并将标注好的微博文本和个人信息进行分词处理后作为第二训练样本。所述分类模块3,用于利用所述第一训练样本及第二训练样本分别构建第一最大熵分类器及第二最大熵分类器,并利用所述第一最大熵分类器及第二最大熵分类器对第二用户进行分类并融合,并根据融合结果确定所述第二用户职业类型。关于上述系统的操作流程同上述方法类似,故于此不再赘述。
综上所述,根据本发明较佳实施例提供的基于微博文本和个人信息的用户职业分类方法及系统,收集指定数量第一用户的微博文本和个人信息,并根据第一用户的个人信息获得其职业类型,并将所述第一用户的个人信息作为第一训练样本。根据第一用户的职业类型字段,对第一用户的微博文本和个人信息进行标注,并将标注好的微博文本和个人信息进行分词处理后作为第二训练样本。利用所述第一训练样本及第二训练样本分别构建第一最大熵分类器及第二最大熵分类器,并利用所述第一最大熵分类器及第二最大熵分类器对第二用户进行分类并融合,并根据融合结果确定所述第二用户职业类型。如此,有效提高微博用户职业分类的准确率。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种基于微博文本和个人信息的用户职业分类方法,其特征在于,包括以下步骤:
S1、收集指定数量第一用户的微博文本和个人信息,并根据第一用户的个人信息获得其职业类型,并将所述第一用户的个人信息作为第一训练样本;
S2、根据第一用户的职业类型字段,对第一用户的微博文本和个人信息进行标注,并将标注好的微博文本进行分词处理后作为第二训练样本;
S3、利用所述第一训练样本及第二训练样本分别构建第一最大熵分类器及第二最大熵分类器,并利用所述第一最大熵分类器及第二最大熵分类器对第二用户进行分类并融合,并根据融合结果确定所述第二用户职业类型。
2.根据权利要求1所述的方法,其特征在于,在步骤S1中,收集指定数量的第一用户的微博文本和个人信息包括以下步骤:
S11、构建一个空的用户列表,在列表中添加指定数量的种子用户;
S12、获取所述种子用户的微博文本和个人信息,并获取对所述种子用户的微博文本的评论账号,将所述评论账号加入用户列表中;
S13、从用户列表取出一个账号,获取该账号发表过的微博文本和个人信息,并回转至步骤S12,直至达到第一用户的所需数量。
3.根据权利要求2所述的方法,其特征在于,在步骤S12中,所述种子用户的微博文本和个人信息通过微博网站提供的API获取。
4.根据权利要求1所述的方法,其特征在于,用户的个人信息包括微博网站提供的用户名、性别、年龄、关注者、粉丝及职业。
5.根据权利要求4所述的方法,其特征在于,所述职业类型为根据微博网站的职业直接划分,并对各职业类型进行标号。
6.根据权利要求5所述的方法,其特征在于,所述职业类型包括在校学生、计算机网络技术类、经营管理类、文体工作类、销售类、医疗卫生类、农林牧渔劳动者、酒店餐饮旅游服务类、美术设计创意类、电子电器通信技术类、农村外出务工人员、贸易物流采购运输类、建筑房地产装修类、财务审计统计类、电气能源动力类、个体经营商业零售类、军人警察类、美容保健类、行政后勤类、教育培训类、公务员类、市场公关咨询媒介类、技工类、工厂生产类、宗教神职人员类、工程师类、新闻出版文化工作类、金融类、人力资源类、保险类、法律类、翻译类、其他类、娱乐业、自由职业类及待业/无业/失业类。
7.根据权利要求1所述的方法,其特征在于,步骤S3还包括:利用所述第一最大熵分类器及第二最大熵分类器,对第二用户的微博文本和个人信息进行分类,得到两个分类结果,将两个分类结果融合得到所述融合结果。
8.一种基于微博文本和个人信息的用户职业分类系统,其特征在于,包括类型标注模块、训练样本获取模块及分类模块,所述类型标注模块连接训练样本获取模块,所述训练样本获取模块连接分类模块,
所述类型标注模块,用于收集指定数量第一用户的微博文本和个人信息,并根据第一用户的个人信息获得其职业类型,并将所述第一用户的个人信息作为第一训练样本;
所述训练样本获取模块,用于根据第一用户的职业类型字段,对第一用户的微博文本和个人信息进行标注,并将标注好的微博文本和个人信息进行分词处理后作为第二训练样本;
所述分类模块,用于利用所述第一训练样本及第二训练样本分别构建第一最大熵分类器及第二最大熵分类器,并利用所述第一最大熵分类器及第二最大熵分类器对第二用户进行分类并融合,并根据融合结果确定所述第二用户职业类型。
CN201510577403.7A 2015-09-11 2015-09-11 一种基于微博文本和个人信息的用户职业分类方法及系统 Pending CN105243094A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510577403.7A CN105243094A (zh) 2015-09-11 2015-09-11 一种基于微博文本和个人信息的用户职业分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510577403.7A CN105243094A (zh) 2015-09-11 2015-09-11 一种基于微博文本和个人信息的用户职业分类方法及系统

Publications (1)

Publication Number Publication Date
CN105243094A true CN105243094A (zh) 2016-01-13

Family

ID=55040743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510577403.7A Pending CN105243094A (zh) 2015-09-11 2015-09-11 一种基于微博文本和个人信息的用户职业分类方法及系统

Country Status (1)

Country Link
CN (1) CN105243094A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868180A (zh) * 2016-04-11 2016-08-17 苏州大学 一种互联网用户数据处理方法、装置及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100150393A1 (en) * 2008-12-16 2010-06-17 Microsoft Corporation Sentiment classification using out of domain data
CN102682124A (zh) * 2012-05-16 2012-09-19 苏州大学 一种文本的情感分类方法及装置
CN104573114A (zh) * 2015-02-04 2015-04-29 苏州大学 一种音乐分类方法及装置
CN104778240A (zh) * 2015-04-08 2015-07-15 重庆理工大学 基于多特征融合的微博文本数据分类方法
CN104778283A (zh) * 2015-05-11 2015-07-15 苏州大学 一种基于微博的用户职业分类方法及系统
CN104794241A (zh) * 2015-05-11 2015-07-22 苏州大学 一种基于情绪倾向性的新闻分类方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100150393A1 (en) * 2008-12-16 2010-06-17 Microsoft Corporation Sentiment classification using out of domain data
CN102682124A (zh) * 2012-05-16 2012-09-19 苏州大学 一种文本的情感分类方法及装置
CN104573114A (zh) * 2015-02-04 2015-04-29 苏州大学 一种音乐分类方法及装置
CN104778240A (zh) * 2015-04-08 2015-07-15 重庆理工大学 基于多特征融合的微博文本数据分类方法
CN104778283A (zh) * 2015-05-11 2015-07-15 苏州大学 一种基于微博的用户职业分类方法及系统
CN104794241A (zh) * 2015-05-11 2015-07-22 苏州大学 一种基于情绪倾向性的新闻分类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王晶晶等: ""中文微博用户性别分类方法研究"", 《中文信息学报》 *
薛云霞等: ""微博中个人与非个人用户分类方法研究"", 《山西大学学报(自然科学版)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868180A (zh) * 2016-04-11 2016-08-17 苏州大学 一种互联网用户数据处理方法、装置及系统

Similar Documents

Publication Publication Date Title
Schmiedel et al. Topic modeling as a strategy of inquiry in organizational research: A tutorial with an application example on organizational culture
Vu et al. Discovering implicit activity preferences in travel itineraries by topic modeling
Gujjar et al. Sentiment analysis: Textblob for decision making
Wijeratne et al. Emojinet: Building a machine readable sense inventory for emoji
CN104239331B (zh) 一种用于实现评论搜索引擎排序的方法和装置
US8341101B1 (en) Determining relationships between data items and individuals, and dynamically calculating a metric score based on groups of characteristics
Zaki et al. Text mining analysis roadmap (TMAR) for service research
US9563694B2 (en) Patent search engine with statistical snapshots
US9411860B2 (en) Capturing intentions within online text
JP5754854B2 (ja) 投稿者のプロフィール情報を分析する投稿者分析装置、プログラム及び方法
CN107402912A (zh) 解析语义的方法和装置
TW201401088A (zh) 搜索方法和裝置
Prata et al. Social data analysis of Brazilian's mood from Twitter
Ainin et al. Examining what people tweet in relation to halal cosmetics-related topics
CN107992500A (zh) 一种信息处理方法及服务器
CN104598648A (zh) 一种微博用户交互式性别识别方法及装置
US8478702B1 (en) Tools and methods for determining semantic relationship indexes
Souza et al. Characterizing opinion mining: A systematic mapping study of the portuguese language
Nguyen et al. On predicting religion labels in microblogging networks
CN108960772A (zh) 基于深度学习的企业评审辅助方法及系统
JP6289989B2 (ja) 商品に対するユーザの感情分析装置及びプログラム
CN107908749B (zh) 一种基于搜索引擎的人物检索系统及方法
Musa et al. Marketing research trends using technology acceptance model (TAM): a comprehensive review of researches (2002–2022)
CN106844743B (zh) 维吾尔语文本的情感分类方法及装置
JP6509590B2 (ja) 商品に対するユーザの感情分析装置及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160113