CN106126605B - 一种基于用户画像的短文本分类方法 - Google Patents

一种基于用户画像的短文本分类方法 Download PDF

Info

Publication number
CN106126605B
CN106126605B CN201610453205.4A CN201610453205A CN106126605B CN 106126605 B CN106126605 B CN 106126605B CN 201610453205 A CN201610453205 A CN 201610453205A CN 106126605 B CN106126605 B CN 106126605B
Authority
CN
China
Prior art keywords
user
short text
category
short
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610453205.4A
Other languages
English (en)
Other versions
CN106126605A (zh
Inventor
张旭
赵志云
刘春阳
庞琳
李雄
王卿
王萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201610453205.4A priority Critical patent/CN106126605B/zh
Publication of CN106126605A publication Critical patent/CN106126605A/zh
Application granted granted Critical
Publication of CN106126605B publication Critical patent/CN106126605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于用户画像的短文本分类方法。本方法为:1)基于用户发出的短文本数据生成对应用户的用户画像;其中,用户ui的用户画像 为用户ui属于类别ci的值;2)采用分类器对该用户ui的短文本TS进行分类,得到该短文本TS所属类别的可能性F={f1,...,fi,...,fm};3)根据用户ui的用户画像与F={f1,...,fi,...,fm}计算该短文本TS属于各类别的值,选出最大的类别结果作为该短文本TS的类别标签。本发明大大增加了分类的准确率。

Description

一种基于用户画像的短文本分类方法
技术领域
本发明属于计算机数据挖掘领域中的文本挖掘领域,涉及海量文本数据分类方法分析,本发明着重解决的问题是在海量数据环境中基于用户画像的短文本分类。
背景技术
分类是一种重要的信息组织方式,研究的目标是对文本自动归类。互联网正悄然无息地影响着人们的生活习惯,由于社交网络的出现,短文本形式的信息大量涌入人们的生活中。面对大规模的短文本形式的数据,如何快速而准确地从中获取所需的关键信息,进行文本挖掘或商业挖掘,短文本分类技术发挥着非常重要的作用,并且在用户兴趣挖掘、热点话题追踪、流行语分析等领域都有着广泛的应用前景。目前的文本分类技术多是针对长文本进行,虽然性能较好但由于短文本字数少、数量庞大,并多数依存于网络,并不一定适用。国内针对短文本的研究多集中在语义扩展、特征处理等方面,并没有特别深入系统的研究。据此,基于用户画像的短文本分类方法具有极其重要的研究意义:
从理论上看,文本分类作为一种有效的组织和管理方法,得到了广泛应用和快速发展。文本分类是信息处理的主要研究方向,有着极其重要的应用价值。由于其能快速、全面、准确地处理各种杂乱信息,在信息检索、信息过滤、搜索引擎、数字图书馆管理和文本管理等领域中有着广泛的应用。
从商业活动上来看,将产品评论中的产品特征、观点词作为语义内容,并将语义内容数量和评论文本长度等加入分类特征进行产品评论的挖掘,进而获得产品相关的反馈以改进产品质量的针对性意见。
从文化生活的角度看,分类技术可以挖掘世界各地用户对生活中的各类人文地理文化自动分类,有利于用户按照分类信息快速浏览查阅自己想知道的内容。此外分类技术还可以用于社交网络中的个性化推荐功能,比如根据用户好友平时经常浏览的类别信息对用户进行图书、电影、音乐等推荐。
通常情况下,文本经过预处理、降维、向量化后文本被转换为向量,先对训练集通过某种分类方法训练得到一分类器,再用分类器对测试集数据进行分类。通常的分类方法有两类:第一类是借助外部文本如搜索引擎结果,扩展短文本;第二类是借助知识库挖掘短文本中词语之间的内在联系。第一类方法不是很理想,一方面消耗较长时间,另一方面对搜索引擎的结果非常依赖;第二类方法利用知识库可以发现大部分分词之间的语义关系,但对于知识库中不存在的词无能为力。
分类的准确率一直都是大家关注的重点,短文本由于其长度较短,特征较少,使得其分类准确率一直很难提升。有些方法比如扩展短文本的特征,其方法的准确率受限于扩展的方法,也不能很好的解决短文本分类问题。
短文本分类主要存在以下问题:短文本本身含有的特征太少。在一篇短文本中,词的数量非常有限,而拓展词汇虽然扩展了短文本的特征,但其扩展方法的准确性仍然有待考证。
综上所述,为了解决短文本分类,提高判断短文本分类的准确率,本发明提出了一种基于用户画像的短文本分类方法。
发明内容
为了解决上述问题,我提出使用用户历史数据来预测当前文本。本发明的目的在于提供一种短文本分类处理方法及系统,使用人工标注的用户历史数据,来预测该用户一条新的短文本所属类别,既使用用户画像辅助分类。
本发明主要包含两个方面:(1)首先,定义并使用用户画像。(2)其次,综合用户画像与分类器结果进行分类。
用户发出来的短文本有这样一个现象,这些短文本往往属于一个或几个类别,而该用户的一条新的短文本,往往很大程度上在这些类别之中。因此,我们可以使用历史数据来刻画用户画像,进而辅助分类。
令U={u1,...,uk}表示一个用户集合,对于该集合中的任意一个用户ui,假设该用户ui的历史短文本信息集合是每条短文本信息对应的类别标签是其中C是类别集合,共有m=|C|个类别,那么对于所有类别C={c1,...,cj,...,cm},用户ui的用户画像是:其中,num(ci)是用户ui短文本信息的集合中标签的个数。
对于分类器给出的短文本TS所属类别的可能性F={f1,...,fm},进行归一化,得到G={g1,...,gm},与用户画像结合得到所属可能性为P={p1,...,pm},pi=gi*pfi,即相对应类别的可能性与画像相乘,选出最大的类别结果作为该短文本的类别标签。
基于此,本发明的技术方案为:
一种基于用户画像的短文本分类方法,其步骤为:
1)基于用户发出的短文本数据生成对应用户的用户画像;其中,用户ui的用户画像为用户ui属于类别ci的值;
2)采用分类器对该用户ui的短文本TS进行分类,得到该短文本TS所属类别的可能性F={f1,...,fi,...,fm};
3)根据用户ui的用户画像与F={f1,...,fi,...,fm}计算该短文本TS属于各类别的值,选出最大的类别结果作为该短文本TS的类别标签。
进一步的,生成该用户ui的用户画像的方法为:设该用户ui的历史短文本信息集合是每条短文本信息对应的类别标签是其中,C是类别集合,共有m=|C|个类别;那么对于所有类别C={c1,...,cj,...,cm},用户ui的用户画像是其中,num(ci)是用户ui短文本信息的集合中标签的个数。
进一步的,步骤2)中,对该短文本TS所属类别的可能性F={f1,...,fi,...,fm}进行归一化,得到G={g1,...,gi,...,gm},其中,fi为该短文本TS属于类别ci的可能性。
进一步的,步骤3)中,根据用户ui的用户画像与F={f1,...,fi,...,fm}计算该短文本TS属于各类别的值的方法为:将用户ui的用户画像与F={f1,...,fi,...,fm}相乘,得到P={p1,...,pi,...,pm},其中,pi=gi*pfi
进一步的,步骤1)中,对该用户画像进行一次平滑操作,然后进行步骤2)。
进一步的,所述分类器为SVM或朴素贝叶斯分类器。
进一步的,所述类别包括体育、娱乐、教育。
本发明使用历史数据对用户刻画用户画像,根据用户画像,结合分类器分类结果,给出短文本的分类结果。
与现有技术向,本发明的积极效果为:
本发明提出的基于用户画像的短文本分类方法,综合考虑了句子的文本和用户历史信息,增加了分类的准确率。实验证明,见表1,将用户画像与传统的SVM方法进行融合后效果有明显提升。
表1为实验结果对比表
Method Accuracy
SVM 81.4%
SVM-PR 85.6%
附图说明
图1为本发明的方法流程图。
具体实施方式
本发明公开了一种有监督的短文本分类方法,其流程如图1所示,其包括如下步骤:
对于每个用户和用户的历史数据,选出20条进行人工标注。
假设短文本共有三类(体育,娱乐,教育)。如对于用户A,选取历史短文本数据20条,经过人工标注后,共有5条体育类别,15条娱乐类别的短文本数据。那么用户A的历史数据就是(5,15,0)。
根据上述公式计算每个用户的用户画像。
对于用户A,体育类别的用户画像概率就是log(5)=2.32,娱乐类别的用户画像概率就是log(15)=3.91,以此可得用户A的用户画像是(2.32,3.91,0),经过一次平滑的操作,得到用户A的用户画像(2.32,3.91,1)
预测:
给出一个短文本,计算分类器(如SVM,朴素贝叶斯等)给出的结果。
如有两条用户A的短文本a、b,经过SVM分类后,属于三个类别的概率分别为a:(0.8,0.1,0.1),b:(0.4,0.3,0.3)。
综合用户画像与分类器分出来的结果,计算,并选出p总最大的值的类别标签作为该短文本的类别。
对于a,将用户A的用户画像与分类器分类结果进行相乘,得到(0.8*2.32,0.1*3.91,0.1*1),得到(1.856,0.391,0.01),则得出结论短文本a属于第一类;对于短文本b,经过同样的运算,得到(0.928,1.173,0.03),则我们认为短文本b属于第二类。

Claims (6)

1.一种基于用户画像的短文本分类方法,其步骤为:
1)基于用户发出的短文本数据生成对应用户的用户画像;其中,用户ui的历史短文本信息集合是每条短文本信息对应的类别标签是 C是类别集合,共有m=|C|个类别;对于所有类别C={c1,...,cj,...,cm},用户ui的用户画像num(ci)是用户ui短文本信息的集合中标签的个数;
2)采用分类器对该用户ui的短文本TS进行分类,得到该短文本TS所属类别的可能性F={f1,...,fi,...,fm};
3)根据用户ui的用户画像与F={f1,...,fi,...,fm}计算该短文本TS属于各类别的值,选出最大的类别结果作为该短文本TS的类别标签。
2.如权利要求1所述的方法,其特征在于,步骤2)中,对该短文本TS所属类别的可能性F={f1,...,fi,...,fm}进行归一化,得到G={g1,...,gi,...,gm},其中,fi为该短文本TS属于类别ci的可能性。
3.如权利要求2所述的方法,其特征在于,步骤3)中,根据用户ui的用户画像与F={f1,...,fi,...,fm}计算该短文本TS属于各类别的值的方法为:将用户ui的用户画像与F={f1,...,fi,...,fm}相乘,得到P={p1,...,pi,...,pm},其中,pi=gi*pfi
4.如权利要求1所述的方法,其特征在于,步骤1)中,对该用户画像进行一次平滑操作,然后进行步骤2)。
5.如权利要求1所述的方法,其特征在于,所述分类器为SVM或朴素贝叶斯分类器。
6.如权利要求1所述的方法,其特征在于,所述类别包括体育、娱乐、教育。
CN201610453205.4A 2016-06-21 2016-06-21 一种基于用户画像的短文本分类方法 Active CN106126605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610453205.4A CN106126605B (zh) 2016-06-21 2016-06-21 一种基于用户画像的短文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610453205.4A CN106126605B (zh) 2016-06-21 2016-06-21 一种基于用户画像的短文本分类方法

Publications (2)

Publication Number Publication Date
CN106126605A CN106126605A (zh) 2016-11-16
CN106126605B true CN106126605B (zh) 2019-12-10

Family

ID=57470320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610453205.4A Active CN106126605B (zh) 2016-06-21 2016-06-21 一种基于用户画像的短文本分类方法

Country Status (1)

Country Link
CN (1) CN106126605B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897402A (zh) * 2017-02-13 2017-06-27 山大地纬软件股份有限公司 基于社保数据构建用户画像的方法和用户画像生成器
CN107145536B (zh) * 2017-04-19 2020-08-04 畅捷通信息技术股份有限公司 用户画像构建方法与装置及推荐方法与装置
CN107301225B (zh) * 2017-06-20 2021-01-26 挖财网络技术有限公司 短文本分类方法及装置
CN107392879B (zh) * 2017-07-20 2019-10-25 武汉大学 一种基于参考帧的低照度监控图像增强方法
CN109614509A (zh) * 2018-10-29 2019-04-12 山东中创软件工程股份有限公司 船舶画像构建方法、装置、设备及存储介质
CN110209767A (zh) * 2019-05-28 2019-09-06 重庆大学 一种用户画像构建方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101556553B (zh) * 2009-03-27 2011-04-06 中国科学院软件研究所 基于需求变更的缺陷预测方法和系统
CN103514174B (zh) * 2012-06-18 2019-01-15 北京百度网讯科技有限公司 一种文本分类方法和装置
CN104573013A (zh) * 2015-01-09 2015-04-29 上海大学 结合类别权重的集成学习分类方法
CN104967978A (zh) * 2015-07-06 2015-10-07 陈包容 一种节日祝福短信的发送方法
CN105069141A (zh) * 2015-08-19 2015-11-18 北京工商大学 一种股票标准新闻库的构建方法及构建系统

Also Published As

Publication number Publication date
CN106126605A (zh) 2016-11-16

Similar Documents

Publication Publication Date Title
Kumar et al. Sentiment analysis of multimodal twitter data
CN106126605B (zh) 一种基于用户画像的短文本分类方法
Li et al. Filtering out the noise in short text topic modeling
Venugopalan et al. Exploring sentiment analysis on twitter data
Shi et al. Learning-to-rank for real-time high-precision hashtag recommendation for streaming news
WO2018040343A1 (zh) 用于识别文本类型的方法、装置和设备
TW201839628A (zh) 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置
CN103049435A (zh) 文本细粒度情感分析方法及装置
US10970296B2 (en) System and method for data mining and similarity estimation
Lavanya et al. Twitter sentiment analysis using multi-class SVM
CN104077415A (zh) 搜索方法及装置
US11886515B2 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
Huang et al. An empirical study of personalized advertising recommendation based on DBSCAN clustering of sina weibo user-generated content
CN116049379A (zh) 知识推荐方法、装置、电子设备和存储介质
Rani et al. Study and comparision of vectorization techniques used in text classification
Xu et al. Do adjective features from user reviews address sparsity and transparency in recommender systems?
Jotheeswaran et al. Feature reduction using principal component analysis for opinion mining
Medvet et al. Brand-related events detection, classification and summarization on twitter
CN110309355A (zh) 内容标签的生成方法、装置、设备及存储介质
Qian et al. Boosted multi-modal supervised latent Dirichlet allocation for social event classification
Guo Social network rumor recognition based on enhanced naive bayes
Gou et al. Personalized search by a multi-type and multi-level user profile in folksonomy
CN111078888B (zh) 一种自动分类社交网络用户评论数据的方法
Khan et al. Multimodal rule transfer into automatic knowledge based topic models
Chaudhari et al. Feature based approach for review mining using appraisal words

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant