CN107463715A

CN107463715A - 基于信息增益的英文社交媒体账号分类方法

Info

Publication number: CN107463715A
Application number: CN201710820897.6A
Authority: CN
Inventors: 费高雷; 朱闻; 朱闻一; 胡光岷; 于富财
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-09-13
Filing date: 2017-09-13
Publication date: 2017-12-12

Abstract

本发明公开一种基于信息增益的英文社交媒体账号分类方法，通过信息增益与的方法对特征词进行选取，通过对选取的特证词进行扩展，生成训练样本集，根据支持向量机的学习方法对训练样本进行学习，得到分类模型，从而实现对未知账号的分类；解决了英文社交媒体账号领域类别分类的问题并且本申请利用wordnet寻找特征词的近义词、并人工添加领域类别的专有词这两种方式，对特征词集进行扩充，使特征词集更具有类别代表性和类别区分度，进而能提升分类的准确性。

Description

基于信息增益的英文社交媒体账号分类方法

技术领域

本发明属于网络文本分类领域，特别涉及一种英文社交媒体账号分类技术。

背景技术

随着网络技术的发展，社交媒体已经成为最大最活跃的社交平台，为数亿用户提供优质且良好的沟通渠道。然而，随着社交媒体用户数量的剧增和各种信息的交流互动，社交网络正朝着多样性、复杂性的方向发展。对于一个特定的账号来说，它所发布的博文一般是会属于某一领域类别的，所谓领域类别就是这个账号发布的博文是属于政治、经济还是体育、娱乐，抑或是其他的方面。例如如果一个账号它所发布的博文大部分是关于体育方面的，那么就认为这个账号是体育类账号。如果能对于社交媒体中的这些海量的账号根据其发布的博文进行领域类别的划分，那么人们能够通过关注某一领域的账号快速准确地获取这一领域的相关信息。

文本分类技术，是信息检索和文本挖掘的重要基础，其主要任务是在预先给定的类别标记集合下，根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域有着广泛的应用。20世纪90年代逐渐成熟的基于机器学习的文本分类方法，更注重分类器的模型自动挖掘和生成及动态优化能力，在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破，成为相关领域研究和应用的经典范例。

对于文本分类这一课题，已经有一些常用的流程。基于机器学习文本分类的基础技术由文本的表示、分类方法及效果评估三部分组成。其中文本表示主要用到了项或特征的向量空间表示模型以及特征选择、特征提取等特征提取方法。分类方法主要用到了一些较成熟的分类模型方法，如朴素贝叶斯、支持向量机等。分类效果指标有例如正确率(precision)、召回率(recall)、精度(accuracy)等。但是，文本种类的多样性、标注的困难等问题还是给文本分类带来了巨大的挑战。利用文本分类的方法去进行社交媒体账号的分类，迄今为止还没有相关的研究。而且社交网络账号发布的博文文本一般以短文本居多，如何利用社交媒体账号的博文信息进行账号分类成为了难点。这就需要要从账号的博文中提取类间区分度明显、并且能够具有很好的类别代表性的特征来对社交媒体账号进行准确有效地区分。

当前，社交媒体在人们的日常生产生活中扮演着越来越重要的角色，社交媒体的账号数量与日俱增，各种信息充斥于社交媒体中，使得从海量社交媒体数据中提取所关注领域信息的工作量十分巨大。社交媒体用户由于个人爱好、工作性质等原因导致用户发布的博文通常具有一定的领域性特点。如果能够将海量的账号根据其所关注领域进行分类，例如分为政治、经济、体育等类别，那么就可以从某一类别的账号中快速准确地获取到所关注领域的信息，信息获取更具有针对性。现有对账号分类的研究主要集中于垃圾账号识别这一方面，主要利用账号的一些统计特征，例如一个账号的好友数、发送状态数量等等来对一些广告账号、僵尸账号等垃圾账号进行过滤。然而对于一个社交媒体账号，怎样判断它涉及的内容是属于体育、娱乐亦或是别的领域的，目前还没有成熟的方法。

发明内容

本发明为解决上述技术问题，提出了一种基于信息增益的英文社交媒体账号分类方法，运用文本分类的方法，利用英文社交媒体的账户发布的博文文本信息，来对英文社交媒体账号进行领域类别的分类，为快速地查找某一类信息提供了方便。

本发明采用的技术方案是：基于信息增益的英文社交媒体账号分类方法，包括：

S1、数据预处理，得到各社交账号对应的特征词；

S2、根据信息增益对特征词进行选取；

S3、对步骤S2选取出来的特征词进行扩展；

S4、根据步骤S3扩展的特征词构建分类模型；

S5、根据步骤S4建立的分类模型对未知账号进行分类。

进一步地，步骤S3所述对特征词进行扩展包括两种方式，采用wordnet寻找特征词的近义词对特征词进行扩展；和采用人工增加领域类别的若干关键词对特征词进行扩展。

进一步地，所述步骤S4具体为：通过标注若干账号样本，并利用词袋模型，选用词频对标注若干账号样本进行特征提取，构建训练样本集；然后采用支持向量机的机器学习算法对样本集进行分类识别，生成账号分类的分类模型。

本发明的有益效果：本发明的基于信息增益的英文社交媒体账号分类方法，通过信息增益与的方法对特征词进行选取，通过对选取的特证词进行扩展，生成训练样本集，根据支持向量机的学习方法对训练样本进行学习，得到分类模型，从而实现对未知账号的分类；解决了英文社交媒体账号领域类别分类的问题并且本申请利用wordnet寻找特征词的近义词、并人工添加领域类别的专有词这两种方式，对特征词集进行扩充，使特征词集更具有类别代表性和类别区分度，进而能提升分类的准确性。

附图说明

图1为本申请实施例提供的方案流程图；

图2为本申请实施例提供的特征选择框架示意图；

图3为本申请实施例提供的支持向量机最有分类面示意图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

如图1所示为本申请的方案流程图，本申请的技术方案为：基于信息增益的英文社交媒体账号分类方法，包括：

S1、数据预处理，得到各社交账号对应的特征词；

S2、根据信息增益对特征词进行选取；

S3、对步骤S2选取出来的特征词进行扩展；

S4、根据步骤S3扩展的特征词构建分类模型；

S5、根据步骤S4建立的分类模型对未知账号进行分类。

S1、数据预处理

本申请实施采用词袋模型来表征账号。词袋模型是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下，像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现，这种表现方式不考虑文法以及词的顺序。

例如：(1)John likes to watch movies.Mary likes movies too.

(2)John also likes to watch football games.

以上两句话中，出现的所有单词的列表为

["John","likes","to","watch","movies","also","football","games","Mary","too"]。将上述两句话表示为长度为10的词向量分别为：

(1)[1,2,1,1,2,0,0,0,1,1]

(2)[1,1,1,1,0,1,1,1,0,0]。

然后对账号发布的博文做一些基本的处理，主要有分词和去除停止词及无用符号两部分。

(1)分词：实际英文社交媒体中的账户的博文文本信息一般都是些短文本。所以对于一个账户来说可以将它的一些近期博文文本信息拼接成长文本进行处理。对于某一领域的账号来说，会有一些具有鲜明代表性的词来表征这个账号。例如一个体育类的账号，则在它的博文文本信息中经常会出现‘sport’、‘game’等词语。为此，需要将账号的文本语句切分成字词，以字词来作为特征表征一个账号。

(2)去停止词及无用符号：在英文中，有很多冠词、介词等会经常出现在语句中，例如‘a’、‘the’等。这些词称为停止词。这些词对于区分账号类别来说区分度不高。所以必须把这些词去掉，留下那些具有相对明显的类别区分度的词语表征账号。而且语句的标点符号对于账号的分类也不具有类别的区分度，所以也应该把标点符号去除。

本申请通过采用词袋模型对数据进行预处理，得到一系列账号的特征词。

S2、特征选择

经过数据预处理之后，得到了一系列账号的特征词，但是特征词数的数量巨大，如果全部选作账号的特征，则会导致维度灾难，为此，必须利用文本的特征选择方法对文本特征进行降维。特征选择的过程如图2所示：

一般将文本特征分成三个互不相交的类别，即强相关性文本特征、弱相关性文本特征和不相关性文本特征。如果一个文本特征对一个最优的文本特征子集总是必须的，在不影响最初的类别分布的情况下该文本特征不能被删除，则称之为文本强相关特征；如果一个文本特征对一个最优的文本特征子集并不总是必须的，但是在某种条件下可能加入到一个最优的文本特征子集中去，则称之为弱相关特征。如果文本特征在最优特征子集中总是不必要的，则称为不相关性特征；一个最优文本特征子集应该是由强相关性文本特征和部分弱相关性文本特征组成的。而信息增益是一种非常有效的文本特征选择的方法，经过大量实验结果表明信息增益的效果较显著，本申请选择信息增益的特征选择方式。

信息增益是一种基于熵的评估方法，本申请将其用于特征选择时，衡量的是某个词的出现与否对判断一个文本是否属于某个类所提供的信息量。其一般定义为某一特征值在文档中出现前后的信息量之差。计算公式如公式所示：

其中，IG(ω)表示特征词的信息增益，P(ω)表示特征词ω在文本中出现的概率，P(c_i|ω)表示文本包含ω时属于c_i类的条件概率，P(c_i)表示c_i类文本在文本集中出现的概率，表示文本中不包含特征词ω的概率，表示文本不包含词条ω时属于c_i类的条件概率，|c|表示类别总数。

S3、特征扩展

经过特征选择之后，系统筛选出了一些具有类别代表性的字词，由于训练集数据有限，这些筛选出的字词的可能不能较为全面代表该类别，为此需要进行特征词的扩展，使特征词集更具有很好的类别区分度。对特征词的扩展本申请采用两种方式：1、利用wordnet寻找特征词的近义词，2、人工增加领域类别的一些关键词；本申请通过结合两种方式对特征词集进行扩充，使特征词集更具有类别代表性和类别区分度。

1、利用wordnet进行特征词的扩展。Wordnet是由Princeton大学的心理学家，语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列，而且是一个按照单词的意义覆盖范围宽广的英语词汇语义网。名词，动词，形容词和副词各自被组织成一个同义词的网络，每个同义词集合都代表一个基本的语义概念，并且这些集合之间也由各种关系连接。利用wordnet，可以寻找出一个单词的不同词性类别的近义词。例如输入motorcar，可以查找出它的近义词'car','auto','automobile','machine','motorcar'等。

2、人工增加领域类别关键词。对于某一领域的账号来说，例如体育类别的账号，其一般有一些领域专家构建的字典词库。这些词库里的词具有很强的类别代表性，能有效识别和区分不同类别的账号。所以需要这些专业词汇对特征词集进行扩充，以更加有效地对账号类别进行区分。

S4、分类模型构建

经过前面三个步骤的筛选之后，得到了用于表征账号的特征词集合，人工标注少量账号样本，并利用词袋模型，选用词频对账号进行特征的提取，构建训练集；词袋模型为本领域的公知技术，此处不做详细说明；然后采用机器学习技术进行处理，生成账号分类的分类模型，实现对英文社交媒体账号的识别。本方法采用支持向量机的机器学习算法对样本集进行分类识别。

支持向量机是一种二分类模型，分为线性支持向量机和非线性支持向量机。在支持向量机的分类模型中，最简单也是最早提出的模型是最大间隔分类器。最优分类超平面只能用于特征空间中线性可分的数据，因此不能在许多实际问题中使用，而支持向量机正是由线性可分情况下的最优平面发展而来的。

最优分类超平面在保证将两类样本无错误分开的情况下，使得两类的分类距离最大。所以本申请首先寻找一个最大边缘超平面。而在最大超平面的两边，有一对分别平行于最大超平面的平面，要想找到最大超平面，就得找到这样的两个平面到这个最大边缘超平面的距离最大。其中，线性支持向量机的最大边缘超平面写成如下的函数形式：

Wx+b＝0

如图3所示，，margin表示求外边距；对于给定一个特征空间上的训练数据集

T＝{(x₁,y₁),(x₂,y₂),...,(x_N,y_N)}，

其中，x_i∈X＝Rⁿ,y_i∈Y＝{+1,-1},i＝1,2,...,N，x_i为第i个特征向量，也称为实例，y_i为x_i的类标记，当y_i＝+1时，称x_i为正例；当y_i＝-1时，称x_i为负例，(x_i,y_i)称为样本点。图中H把数据没有错误得分开了，而H1和H2分别为过两类样本中离分类线最近且平行于分类线的直线，他们之间的距离叫做分类间隔(margin)。

对于给定的训练数据集T和超平面(ω,b)，定义超平面(ω,b)关于样本点(x_i,y_i)的函数间隔为：

定义超平面(ω,b)关于训练数据集T的函数间隔为超平面(ω,b)关于T中所有样本点(x_i,y_i)的函数间隔之最小值，即

而对于给定的训练数据集T和超平面(ω,b)，定义超平面(ω,b)关于样本点(x_i,y_i)的几何间隔为：

定义超平面(ω,b)关于训练数据集T的几何间隔为超平面(ω,b)关于T中所有样本点(x_i,y_i)的几何间隔之最小值，即

所以最大化间隔分离超平面，可以最终转化为下面的约束优化问题：

因为函数间隔和w，b的取值有关，但是又不影响最优化问题的解，所以可以取于是就得到下面的线性可分支持向量机学习的最优化问题

s.ty_i(ωx_i+b)-1≥0,i＝1,2,...,N

经过一系列数学求解，求得

由上式可知，得到的b为最大的边缘。那么也可以得到本申请需要最小的||ω||，使得最大化的b。因此，在支持向量机的训练过程中，主要是获得w，一旦有了一个训练后的支持向量机(这个向量机保证了最大的边缘超平面，使得在此数据集下有较好的分类精度)，就可以用对于的SVM来对线性可分的数据进行分类，这就是线性支持向量机的工作原理。而对于非线性的情况，可以用核技巧的方法来解决。这样就构建了分类模型，以便用于后面对未知的账号样本进行领域类别的分类。

S5、对测试样本进行分类

采用经步骤S4处理之后的分类模型，对于未知的测试账号样本进行分类，得到未知账号的类别属性。这样便完成了社交媒体账号类别的划分。然后通过对某一领域的账号的重点关注，就能快速有效地获取该领域的一些信息。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.基于信息增益的英文社交媒体账号分类方法，其特征在于，基于信息增益的英文社交媒体账号分类方法，包括：

S1、数据预处理，得到各社交账号对应的特征词；

S2、根据信息增益对特征词进行选取；

S3、对步骤S2选取出来的特征词进行扩展；

S4、根据步骤S3扩展的特征词构建分类模型；

S5、根据步骤S4建立的分类模型对未知账号进行分类。

2.根据权利要求1所述的基于信息增益的英文社交媒体账号分类方法，其特征在于，步骤S2所述根据信息增益对特征词进行选取，具体计算公式为：

<mrow> <mi>I</mi> <mi>G</mi> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>P</mi> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>c</mi> <mo>|</mo> </mrow> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mi>log</mi> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mi>P</mi> <mrow> <mo>(</mo> <mover> <mi>&omega;</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>c</mi> <mo>|</mo> </mrow> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>|</mo> <mover> <mi>&omega;</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mi>log</mi> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>|</mo> <mover> <mi>&omega;</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

3.根据权利要求1所述的基于信息增益的英文社交媒体账号分类方法，其特征在于，步骤S3所述对特征词进行扩展包括两种方式，采用wordnet寻找特征词的近义词对特征词进行扩展；和采用人工增加领域类别的若干关键词对特征词进行扩展。

4.根据权利要求1所述的基于信息增益的英文社交媒体账号分类方法，其特征在于，所述步骤S4具体为：通过标注若干账号样本，并利用词袋模型，选用词频对标注若干账号样本进行特征提取，构建训练样本集；然后采用支持向量机的机器学习算法对样本集进行分类识别，生成账号分类的分类模型。