CN104951542A - 识别社交短文本类别的方法、分类模型训练方法及装置 - Google Patents

识别社交短文本类别的方法、分类模型训练方法及装置 Download PDF

Info

Publication number
CN104951542A
CN104951542A CN201510346581.9A CN201510346581A CN104951542A CN 104951542 A CN104951542 A CN 104951542A CN 201510346581 A CN201510346581 A CN 201510346581A CN 104951542 A CN104951542 A CN 104951542A
Authority
CN
China
Prior art keywords
data
short text
social
classification information
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510346581.9A
Other languages
English (en)
Inventor
莫洋
沈剑平
李炫�
宋元峰
骆金昌
陈玉光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510346581.9A priority Critical patent/CN104951542A/zh
Publication of CN104951542A publication Critical patent/CN104951542A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种识别社交短文本类别的方法、分类模型训练方法及装置。其中,用于识别社交短文本的类别的方法包括:获取社交短文本数据;从所述社交短文本数据提取文本特征数据;以所述文本特征数据作为输入,从经训练的至少两个短文本分类模型分别获取所述社交短文本数据的第一类别信息;根据获取的所述社交短文本数据的第一类别信息确定所述社交短文本数据的第二类别信息。本发明实施例的识别社交短文本类别的方法、分类模型训练方法及装置,能够自动、准确地识别社交短文本的类别信息,从而提高了对海量社交短文本的分类效果及准确率,广泛应用于各种短文本分析场景,且提升用户网络体验。

Description

识别社交短文本类别的方法、分类模型训练方法及装置
技术领域
本发明涉及网络信息处理技术领域,尤其涉及一种识别社交短文本类别的方法、分类模型训练方法及装置。
背景技术
随着微博、贴吧和微信等应用的广泛使用,在互联网范围内产生了大量的文本数据,大多是片断性的说明描述或观点评论,因其文字内容很短,这些文字内容被称为社交短文本。面对海量文本数据,如何准确有效地对其分类,已成为互联网行业普遍关注和研究的课题。
通常,采用对短文本构建基于词的向量空间模型,这会使得短文本的空间模块太过稀疏。再者,使用单一模型进行训练与学习,其分类效果和准确率较低。此外,以微博为例,通常按照微博的主题将微博分类到为经济、体育、娱乐、生活、游戏动漫、健康、科技和汽车八个类别之一。可以看出,这种分类方法仅考虑了微博的文本内容属性,而舆情用户更为关心的是新闻或事件资源本身,现有的方法无法对此进行有效识别,进而使得应用场景比较有限。
发明内容
本发明实施例的目的在于,提供一种识别社交短文本类别的方法、分类模型训练方法及装置,以自动、准确地识别社交短文本的类别信息。
为实现上述发明目的,本发明的实施例提供了一种用于识别社交短文本的类别的方法,包括:获取社交短文本数据;从所述社交短文本数据提取文本特征数据;以所述文本特征数据作为输入,从经训练的至少两个短文本分类模型分别获取所述社交短文本数据的第一类别信息;根据获取的所述社交短文本数据的第一类别信息确定所述社交短文本数据的第二类别信息。
优选地,所述文本特征数据包括以下至少一种:纯文本特征数据、撰写习惯特征数据、社交特征数据和用户特征数据。
优选地,所述纯文本特征数据包括从所述社交短文本数据切出的字的重要性指数的数据,所述撰写习惯特征数据包括预定的表情符号在所述社交短文本数据中出现的频率的数据,所述社交特征数据包括以下至少一种反馈的数量:转发、评论、点赞、回复、跟踪、顶和踩,所述用户特征数据包括以下至少一种关联用户的数量:粉丝、关注、朋友、互粉、发布短文本和发表评论。
优选地,所述多个短文本分类模型基于至少两个以下分类模型:支持向量机分类模型、逻辑斯蒂回归分类模型和随机森林分类模型。
优选地,所述第二类别信息是新闻事件类、广告类、非商业分享类或私人对话类。
优选地,所述第一类别信息包括所述社交短文本数据为各个所述第二类别信息的置信度值,所述根据获取的所述社交短文本数据的第一类别信息确定所述社交短文本数据的第二类别信息的处理包括:分别计算每个所述第二类别信息对应于从各个所述短文本分类模型获取的置信度值的平均值,并将平均值中的最大值对应的第二类别信息作为所述社交短文本数据的第二类别信息。
优选地,所述从所述社交短文本数据提取文本特征数据的处理包括:对所述社交短文本数据进行切字,并根据词频逆向文件频率(TF-IDF)算法分别计算切出的字的TF-IDF值作为所述社交短文本数据的纯文本特征数据
本发明的实施例还提供了一种短文本分类模型的训练方法,包括:获取多个标注的样本数据,每个所述标注的样本数据包括社交短文本数据、标注的文本特征数据及类别信息;利用所述多个标注的样本数据对短文本分类模型进行训练,以学习社交短文本数据的类别信息。
优选地,所述文本特征数据包括以下至少一种:纯文本特征数据、撰写习惯特征数据、社交特征数据和用户特征数据。
优选地,所述类别信息是新闻事件类、广告类、非商业分享类或私人对话类。
优选地,所述短文本分类模型是支持向量机分类模型、逻辑斯蒂回归分类模型或随机森林分类模型。
本发明的实施例还提供了一种用于识别社交短文本的类别的装置,包括:文本数据获取模块,用于获取社交短文本数据;特征数据提取模块,用于从所述社交短文本数据提取文本特征数据;类别信息获取模块,用于以所述文本特征数据作为输入,从经训练的至少两个短文本分类模型分别获取所述社交短文本数据的第一类别信息;类别信息确定模块,用于根据获取的所述社交短文本数据的第一类别信息确定所述社交短文本数据的第二类别信息。
优选地,所述文本特征数据包括以下至少一种:纯文本特征数据、撰写习惯特征数据、社交特征数据和用户特征数据,所述第二类别信息是新闻事件类、广告类、非商业分享类或私人对话类。
优选地,所述纯文本特征数据包括从所述社交短文本数据切出的字的重要性指数的数据,所述撰写习惯特征数据包括预定的表情符号在所述社交短文本数据中出现的频率的数据,所述社交特征数据包括以下至少一种反馈的数量:转发、评论、点赞、回复、跟踪、顶和踩,所述用户特征数据包括以下至少一种关联用户的数量:粉丝、关注、朋友、互粉、发布短文本和发表评论。
优选地,所述多个短文本分类模型基于至少两个以下分类模型:支持向量机分类模型、逻辑斯蒂回归分类模型和随机森林分类模型。
优选地,所述第一类别信息包括所述社交短文本数据为各个所述第二类别信息的置信度值,所述类别信息确定模块用于分别计算每个所述第二类别信息对应于从各个所述短文本分类模型获取的置信度值的平均值,并将平均值中的最大值对应的第二类别信息作为所述社交短文本数据的第二类别信息。
优选地,所述特征数据提取模块用于对所述社交短文本数据进行切字,并根据词频逆向文件频率(TF-IDF)算法分别计算切出的字的TF-IDF值作为所述社交短文本数据的纯文本特征数据。
本发明的实施例还提供了一种短文本分类模型的训练装置,包括:样本数据获取模块,用于获取多个标注的样本数据,每个所述标注的样本数据包括社交短文本数据、标注的文本特征数据及类别信息;分类模型训练模块,用于利用所述多个标注的样本数据对短文本分类模型进行训练,以学习社交短文本数据的类别信息。
优选地,所述文本特征数据包括以下至少一种:纯文本特征数据、撰写习惯特征数据、社交特征数据和用户特征数据,所述类别信息是新闻事件类、广告类、非商业分享类或私人对话类。
优选地,所述短文本分类模型是支持向量机分类模型、逻辑斯蒂回归分类模型或随机森林分类模型。
本发明实施例提供的识别社交短文本类别的方法、分类模型训练方法及装置,将从获取到的社交短文本数据中提取的文本特征数据输入经训练的至少两个短文本分类模型,分别得到每个短文本分类模型输出的类别信息,再以多个类别信息为识别依据,从而自动、准确地识别社交短文本的类别信息,进而提高了对海量社交短文本的分类效果及准确率,广泛应用于各种短文本分析场景。
此外,准确分类后的海量社交短文本中,对于识别为广告类的社交短文本进行降权或直接滤除的处理,使得舆情用户能够方便了解相关的新闻或事件资源,极大丰富了用户体验。
附图说明
图1是示出本发明实施例一的用于识别社交短文本的类别的方法的流程图;
图2是示出本发明实施例二的短文本分类模型的训练方法的流程图;
图3是示出本发明实施例三的用于识别社交短文本的类别的装置的逻辑框图;
图4是示出本发明实施例四的短文本分类模型的训练装置的逻辑框图。
具体实施方式
本发明的基本构思是,在获取社交短文本数据之后,进一步对社交短文本数据进行特征提取,并将提取到的文本特征数据作为经训练的至少两个短文本分类模型的输入,分别得到每个短文本分类模型输出的类别信息;此后,再根据获得的所述多个类别信息确定所述社交短文本数据的类别,从而自动、准确地识别社交短文本的类别信息,提高了对海量社交短文本的分类效果及准确率。
这里,所述社交短文本数据可以是例如微博、微信、贴吧等社交互动类的文本数据。所述类别信息可以是新闻事件类、广告类、非商业分享类或私人对话类,进而可根据不同的用户兴趣点向用户推荐不同类别的资源,如新闻事件类、非商业分享类等,提升用户网络体验。
此外,本发明可适用于微博、微信、贴吧等应用中的多个场景,例如事件抽取、广告过滤、资源权重打分等。同时,还可为舆情监控提供大量的经分类的数据来源,满足用户的舆情需求。
下面结合附图对本发明实施例一种识别社交短文本类别的方法、分类模型训练方法及装置进行详细描述。
实施例一
图1是示出本发明实施例一的用于识别社交短文本的类别的方法的流程图。可在例如微博服务器上执行所述方法。
参照图1,在步骤S110,获取社交短文本数据。
举例来说,获取到的社交短文本数据如下表1所示:
表1
可以看出,表1中的社交短文本数据的类别信息未知,需经过后续步骤的处理来识别所述社交短文本的类别。
在步骤S120,从所述社交短文本数据提取文本特征数据。
这里,文本特征数据可包括,但不限于,以下至少一种:纯文本特征数据、撰写习惯特征数据、社交特征数据和用户特征数据。
其中,所述纯文本特征数据可包括从所述社交短文本数据切出的字的重要性指数的数据,例如,词频逆向文件频率(TF-IDF)值。所述撰写习惯特征数据可包括预定的表情符号在所述社交短文本数据中出现的频率的数据,以微博中社交短文本为例,用户常使用“【】”、“”、“#”等符号,此外还有微博平台提供的丰富的官方表情符号如“Y(^_^)Y”、“(>﹏<)”、“:-(”、“[大爱]”、“[萌]”、“[愤怒]”等。
所述社交特征数据可包括,但不限于,以下至少一种反馈的数量:转发、评论、点赞、回复、跟踪、顶和踩。例如转发数即该社交短文本至今为止被转发的次数,评论数代表该社交短文本至今为止被评论的次数,点赞数指该社交短文本至今为止被点赞的次数。所述用户特征数据可包括,但不限于,以下至少一种关联用户的数量:粉丝、关注、朋友、互粉、发布短文本和发表评论。举例来说,粉丝数代表发送该社交短文本用户的粉丝数。
如前所述,所述撰写习惯特征数据、社交特征数据和用户特征数据均是有关某个特征出现的频率或是出现次数的数据,因此,可从在对所述社交短文本数据进行特征提取时,直接统计即可得到撰写习惯特征数据、社交特征数据和用户特征数据。
然而,另一方面,所述纯文本特征数据可以是,但不限于,从所述社交短文本数据切出的字的重要性指数的数据,例如但不限于词频逆向文件频率(Term Frequency-Inverse Document Frequency,TF-IDF)值。,相应地,根据本发明的示例性实施例,步骤S120包括:对所述社交短文本数据进行切字,并根据TF-IDF算法分别计算切出的字的TF-IDF值作为所述社交短文本数据的纯文本特征数据。
在具体的实现方式中,TF-IDF值实际上是词频(TF)与逆向文件频率(IDF)之积,TF值表示词条在文本中出现的频率,假如某文本的总词语数是100个,而词语“优秀”出现了3次,那么“优秀”一词在该文本中的词频就是3/100=0.03,即“优秀”的TF值为0.03。IDF值是一个词语普遍重要性的度量。某一特定词语的IDF值可以由总文本数目除以包含该词语的文本数目,再将计算得到的商取对数得到。仍以“优秀”一词为例,计算IDF值的方法就是测定有多少个文本出现过“优秀”一词,然后除以文本集里包含的文本总数。例如,“优秀”一词在1,000个文本出现过,文本总数是10,000,000个,其IDF值就是log(10,000,000/1,000)=4,最终计算得到TF-IDF值为0.03*4=0.12。同样的,本发明实施例是对社交短文本作切字处理后切出的字进行TF-IDF值计算,与现有技术基于“词”粒度分割相比,基于“字”粒度的方式会更加准确地识别社交短文本的类别信息。
经过本步骤的处理,从表1所示的社交短文本数据提取的文本特征数据为<0.3,0.2,0.5,0.8,……,0,1,1,……,22,22,54,……,30,33,41,……>。
在步骤S130,以所述文本特征数据作为输入,从经训练的至少两个短文本分类模型分别获取所述社交短文本数据的第一类别信息。
也就是说,在提取到文本特征数据后,就可将其输入到短文本分类模型中,得到每个短文本分类模型各自的类别信息。需要说明的是,多个短文本分类模型可基于,但不限于,至少两个以下分类模型:支持向量机分类模型、逻辑斯蒂回归分类模型和随机森林分类模型。所述第一类别信息可包括所述社交短文本数据为各个所述第二类别信息的置信度值,所述第二类别信息可以是新闻事件类、广告类、非商业分享类或私人对话类。
仍然以表1所示的社交短文本数据为例,将<0.3,0.2,0.5,0.8,……,0,1,1,……,22,22,54,……,30,33,41,…...>输入到支持向量机分类模型,获取到的所述社交短文本数据的第一类别信息是新闻事件类的置信度为0.2,广告类的置信度为0.7,非商业分享类的置信度为0.04,私人对话类的置信度为0.06,同理可分别从其他短文本分类模型获取到相应的第一类别信息。
在步骤S140,根据获取的所述社交短文本数据的第一类别信息确定所述社交短文本数据的第二类别信息。
前述步骤并没有最终识别出所述社交短文本数据的类别信息,需做进一步的评估处理,因此,根据本发明的示例性实施例,步骤S 140包括:分别计算每个所述第二类别信息对应于从各个所述短文本分类模型获取的置信度值的平均值,并将平均值中的最大值对应的第二类别信息作为所述社交短文本数据的第二类别信息。
在具体的实现方式中,假设使用了经训练的三个短文本分类模型,这三个短文本分类模型各自的输出结果如下表2所示,为了便于说明,类别0、1、2、3分别代表新闻事件类、广告类、非商业分享类和私人对话类,模型1、2、3分别代表支持向量机分类模型、逻辑斯蒂回归分类模型和随机森林分类模型。
表2
由表2可以看出,每个短文本分类模型的输出结果均是该短文本数据属于上述四个类别中的每一类别的置信度,将每个短文本分类模型的输出结果按照等比权重加权处理后,类别1的置信度的平均值为0.8,远大于其他类别的置信度的平均值,因此,所述社交短文本数据的类别信息为广告类。
在实际应用中,由于社交短文本消费成本低,传播效率高,社交短文本数据已成为大量广告的传播载体,严重影响用户的阅读体验,经过前述步骤S110~S140的处理,对于识别为广告类的社交短文本可进行降权或者直接过滤,提升了用户网络体验。
本发明实施例提供的用于识别社交短文本的类别的方法,将从获取到的社交短文本数据中提取的文本特征数据输入经训练的至少两个短文本分类模型,分别得到每个短文本分类模型输出的类别信息,进一步以多个类别信息为确定最终类别信息的依据,从而自动、准确地识别社交短文本的类别信息,进而提高了对海量社交短文本的分类效果及准确率,广泛应用于各种短文本分析场景。此外,可根据不同的用户兴趣点向用户推荐不同类别的资源,满足了用户的舆情需求。
实施例二
图2是示出本发明实施例二的短文本分类模型的训练方法的流程图。所述短文本分类模型用于识别社交短文本的类别。
参照图2,在步骤210,获取多个标注的样本数据,每个所述标注的样本数据包括社交短文本数据、标注的文本特征数据及类别信息。
这里,所述文本特征数据可包括,但不限于,以下至少一种:纯文本特征数据、撰写习惯特征数据、社交特征数据和用户特征数据。
此外,考虑到社交短文本具有媒体及社交两种属性,需为社交短文本设定合理的类别,因此,所述类别信息可以是新闻事件类、广告类、非商业分享类或私人对话类。其中,新闻事件类、广告类、非商业分享类体现了社交短文本的媒体属性,私人对话类体现了社交短文本的社交属性。
在具体的实现方式中,为了后续更加准确地训练短文本分类模型,需获取一些关键用户的社交短文本作为样本数据。这里,关键用户是指发布的社交短文本属于某一特定类别的用户,例如,微博风云榜中“媒体影响力榜”前100家媒体,其发布的社交短文本一般为新闻事件类的社交短文本。再例如,新浪认证下的“品牌馆”的品牌公司,其发布的社交短文本一般为广告类的社交短文本。
那么,对于上述对应发布不同类别信息的社交短文本的关键用户,随机抽取其一定数量的社交短文本数据作为样本数据,其中剔除发布“私人对话类”社交短文本的关键用户的转发内容。表3示出了四个标注的样本数据样例。
表3
为了更准确地理解本发明实施例的技术方案,关于本步骤的“标注的样本数据”中文本特征数据的标注过程进行如下详细说明。
以表3中第一条微博“江苏徐州一交警因公殉职”为例,其四种文本特征数据构建为:
关于纯文本特征数据构建,根据每个字计算其TF-IDF值,组成向量空间模型。由于本发明实施例是以切字的方式构建向量空间模型,那么纯文本特征数据可以为<0.4,0.1,0.5,0.6,……>,维度为常用汉字的个数维,向量每维的值为小数。
关于撰写习惯特征数据构建,其计算方法为统计例如“[伤心]、[祈祷]、[蜡烛]”等表情符号在社交短文本中出现的频率的数据。因此,撰写习惯特征数据可以为<1,2,2,……>,其中,1代表[伤心]出现1次,2代表[祈祷]出现2次,2代表[蜡烛]出现2次,以此类推,维度为社交短文本常用表情符号数量。
关于社交特征数据构建,其计算方法为统计例如转发、评论、点赞数、回复、跟踪、相信、顶、踩等社交操作相关的社交特征。计算得到社交特征数据可以为<40,50,11,……>,维度为社交短文本的社交特征数量。
关于用户特征数据构建,其计算方法为统计例如用户的粉丝数、关注数、发布短文本数、朋友数、互粉数、发表评论数、用户权威性等。那么,计算得到用户特征数据可以为<30,20,44,……>,维度为用户特征数量。
再将这四类文本特征数据进行合并,则该样本数据的文本特征数据为:<0.4,0.1,0.5,0.6,……,1,2,2,……,40,50,11,……,30,20,44,……>,类别信息为新闻事件类,从而完成了对社交短文本数据的标注。运用上述方法对所有样本数据进行文本特征数据的标注,最终构建所有样本数据的向量空间。
在步骤220,利用所述多个标注的样本数据对短文本分类模型进行训练,以学习社交短文本数据的类别信息。
也就是说,标注的文本特征数据及类别信息连同社交短文本数据本身作为一个训练样本,利用多个前述训练样本对短文本分类模型进行训练。需要说明的是短文本分类模型可例如但不限于,支持向量机分类模型、逻辑斯蒂回归分类模型或随机森林分类模型。
本发明实施例提供的短文本分类模型的训练方法,以多个标注了文本特征数据及类别信息的样本数据作为训练样本,其中,不仅考虑了社交短文本数据本身的内容,还参考了其媒体属性和社交属性,使得特征空间构建更加丰富,并设定了合理的分类类别,进一步对短文本分类模型进行训练,从而学习社交短文本数据的类别信息,具有更好的泛化能力,能够应用于识别社交短文本数据的类别信息,且识别速度快,准确度更高,分类效果更好。
实施例三
图3是示出本发明实施例三的用于识别社交短文本的类别的装置的逻辑框图。可用于执行如图1所示实施例的方法步骤。
参照图3,所述用于识别社交短文本的类别的装置包括文本数据获取模块310、特征数据提取模块320、类别信息获取模块330和类别信息确定模块340。
文本数据获取模块310用于获取社交短文本数据。
特征数据提取模块320用于从所述社交短文本数据提取文本特征数据。
这里,所述文本特征数据可包括以下至少一种:纯文本特征数据、撰写习惯特征数据、社交特征数据和用户特征数据。
具体地,所述纯文本特征数据可包括从所述社交短文本数据切出的字的重要性指数的数据,所述撰写习惯特征数据可包括预定的表情符号在所述社交短文本数据中出现的频率的数据,所述社交特征数据可包括以下至少一种反馈的数量:转发、评论、点赞、回复、跟踪、顶和踩,所述用户特征数据可包括以下至少一种关联用户的数量:粉丝、关注、朋友、互粉、发布短文本和发表评论。
针对从所述社交短文本数据提取前述提及的纯文本特征数据,相应地,所述特征数据提取模块320可用于对所述社交短文本数据进行切字,并根据TF-IDF算法分别计算切出的字的TF-IDF值作为所述社交短文本数据的纯文本特征数据。
类别信息获取模块330用于以所述文本特征数据作为输入,从经训练的至少两个短文本分类模型分别获取所述社交短文本数据的第一类别信息。
优选地,所述多个短文本分类模型可以基于至少两个以下分类模型:支持向量机分类模型、逻辑斯蒂回归分类模型和随机森林分类模型。
类别信息确定模块340用于根据获取的所述社交短文本数据的第一类别信息确定所述社交短文本数据的第二类别信息。
需要说明的是,所述第二类别信息可以是新闻事件类、广告类、非商业分享类或私人对话类。
这里,所述第一类别信息可包括所述社交短文本数据为各个所述第二类别信息的置信度值,相应地,所述类别信息确定模块340用于分别计算每个所述第二类别信息对应于从各个所述短文本分类模型获取的置信度值的平均值,并将平均值中的最大值对应的第二类别信息作为所述社交短文本数据的第二类别信息。
本发明实施例提供的用于识别社交短文本的类别的装置,将从获取到的社交短文本数据中提取的文本特征数据输入经训练的至少两个短文本分类模型,分别得到每个短文本分类模型输出的类别信息,再以多个类别信息为确定最终类别信息的依据,从而自动、准确地识别社交短文本的类别信息,提高了对海量社交短文本的分类效果及准确率,广泛应用于各种短文本分析场景。此外,可根据不同的用户兴趣点向用户推荐不同类别的资源,使得用户能够快速知晓舆情,极大丰富了用户体验。
实施例四
图4是示出本发明实施例四的短文本分类模型的训练装置的逻辑框图。可用于执行如图2所示实施例的方法步骤。
参照图4,所述短文本分类模型的训练装置包括样本数据获取模块410和分类模型训练模块420。
样本数据获取模块410用于获取多个标注的样本数据,每个所述标注的样本数据包括社交短文本数据、标注的文本特征数据及类别信息。
这里,所述文本特征数据可包括以下至少一种:纯文本特征数据、撰写习惯特征数据、社交特征数据和用户特征数据。
需要说明的是,所述类别信息可以是新闻事件类、广告类、非商业分享类或私人对话类。
分类模型训练模块420用于利用所述多个标注的样本数据对短文本分类模型进行训练,以学习社交短文本数据的类别信息。
优选地,所述短文本分类模型可以是支持向量机分类模型、逻辑斯蒂回归分类模型或随机森林分类模型。
本发明实施例提供的短文本分类模型的训练装置,以多个标注了文本特征数据及类别信息的样本数据作为训练样本,其中,不仅考虑了社交短文本数据本身的内容,还参考了其媒体属性和社交属性,使得特征空间构建更加丰富,并设定了合理的分类类别,进一步对短文本分类模型进行训练,从而学习社交短文本数据的类别信息,具有更好的泛化能力,能够应用于识别社交短文本数据的类别信息,且识别速度快,准确度更高,分类效果更好。
在本发明所提供的几个实施例中,应该理解到,所公开的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (20)

1.一种用于识别社交短文本的类别的方法,其特征在于,所述方法包括:
获取社交短文本数据;
从所述社交短文本数据提取文本特征数据;
以所述文本特征数据作为输入,从经训练的至少两个短文本分类模型分别获取所述社交短文本数据的第一类别信息;
根据获取的所述社交短文本数据的第一类别信息确定所述社交短文本数据的第二类别信息。
2.根据权利要求1所述的方法,其特征在于,所述文本特征数据包括以下至少一种:纯文本特征数据、撰写习惯特征数据、社交特征数据和用户特征数据。
3.根据权利要求2所述的方法,其特征在于,
所述纯文本特征数据包括从所述社交短文本数据切出的字的重要性指数的数据,
所述撰写习惯特征数据包括预定的表情符号在所述社交短文本数据中出现的频率的数据,
所述社交特征数据包括以下至少一种反馈的数量:转发、评论、点赞、回复、跟踪、顶和踩,
所述用户特征数据包括以下至少一种关联用户的数量:粉丝、关注、朋友、互粉、发布短文本和发表评论。
4.根据权利要求3所述的方法,其特征在于,所述多个短文本分类模型基于至少两个以下分类模型:支持向量机分类模型、逻辑斯蒂回归分类模型和随机森林分类模型。
5.根据权利要求1~4中任一项所述的方法,其特征在于,所述第二类别信息是新闻事件类、广告类、非商业分享类或私人对话类。
6.根据权利要求5所述的方法,其特征在于,所述第一类别信息包括所述社交短文本数据为各个所述第二类别信息的置信度值,
所述根据获取的所述社交短文本数据的第一类别信息确定所述社交短文本数据的第二类别信息的处理包括:
分别计算每个所述第二类别信息对应于从各个所述短文本分类模型获取的置信度值的平均值,并将平均值中的最大值对应的第二类别信息作为所述社交短文本数据的第二类别信息。
7.根据权利要求6所述的方法,其特征在于,所述从所述社交短文本数据提取文本特征数据的处理包括:
对所述社交短文本数据进行切字,并根据词频逆向文件频率(TF-IDF)算法分别计算切出的字的TF-IDF值作为所述社交短文本数据的纯文本特征数据。
8.一种短文本分类模型的训练方法,其特征在于,所述方法包括:
获取多个标注的样本数据,每个所述标注的样本数据包括社交短文本数据、标注的文本特征数据及类别信息;
利用所述多个标注的样本数据对短文本分类模型进行训练,以学习社交短文本数据的类别信息。
9.根据权利要求8所述的方法,其特征在于,所述文本特征数据包括以下至少一种:纯文本特征数据、撰写习惯特征数据、社交特征数据和用户特征数据。
10.根据权利要求9所述的方法,其特征在于,所述类别信息是新闻事件类、广告类、非商业分享类或私人对话类。
11.根据权利要求10所述的方法,其特征在于,所述短文本分类模型是支持向量机分类模型、逻辑斯蒂回归分类模型或随机森林分类模型。
12.一种用于识别社交短文本的类别的装置,其特征在于,所述装置包括:
文本数据获取模块,用于获取社交短文本数据;
特征数据提取模块,用于从所述社交短文本数据提取文本特征数据;
类别信息获取模块,用于以所述文本特征数据作为输入,从经训练的至少两个短文本分类模型分别获取所述社交短文本数据的第一类别信息;
类别信息确定模块,用于根据获取的所述社交短文本数据的第一类别信息确定所述社交短文本数据的第二类别信息。
13.根据权利要求12所述的装置,其特征在于,所述文本特征数据包括以下至少一种:纯文本特征数据、撰写习惯特征数据、社交特征数据和用户特征数据,
所述第二类别信息是新闻事件类、广告类、非商业分享类或私人对话类。
14.根据权利要求13所述的装置,其特征在于,所述纯文本特征数据包括从所述社交短文本数据切出的字的重要性指数的数据,
所述撰写习惯特征数据包括预定的表情符号在所述社交短文本数据中出现的频率的数据,
所述社交特征数据包括以下至少一种反馈的数量:转发、评论、点赞、回复、跟踪、顶和踩,
所述用户特征数据包括以下至少一种关联用户的数量:粉丝、关注、朋友、互粉、发布短文本和发表评论。
15.根据权利要求14所述的装置,其特征在于,所述多个短文本分类模型基于至少两个以下分类模型:支持向量机分类模型、逻辑斯蒂回归分类模型和随机森林分类模型。
16.根据权利要求12~15中任一项所述的装置,其特征在于,所述第一类别信息包括所述社交短文本数据为各个所述第二类别信息的置信度值,所述类别信息确定模块用于分别计算每个所述第二类别信息对应于从各个所述短文本分类模型获取的置信度值的平均值,并将平均值中的最大值对应的第二类别信息作为所述社交短文本数据的第二类别信息。
17.根据权利要求16所述的装置,其特征在于,所述特征数据提取模块用于对所述社交短文本数据进行切字,并根据词频逆向文件频率(TF-IDF)算法分别计算切出的字的TF-IDF值作为所述社交短文本数据的纯文本特征数据。
18.一种短文本分类模型的训练装置,其特征在于,所述装置包括:
样本数据获取模块,用于获取多个标注的样本数据,每个所述标注的样本数据包括社交短文本数据、标注的文本特征数据及类别信息;
分类模型训练模块,用于利用所述多个标注的样本数据对短文本分类模型进行训练,以学习社交短文本数据的类别信息。
19.根据权利要求18所述的装置,其特征在于,所述文本特征数据包括以下至少一种:纯文本特征数据、撰写习惯特征数据、社交特征数据和用户特征数据,
所述类别信息是新闻事件类、广告类、非商业分享类或私人对话类。
20.根据权利要求19所述的装置,其特征在于,所述短文本分类模型是支持向量机分类模型、逻辑斯蒂回归分类模型或随机森林分类模型。
CN201510346581.9A 2015-06-19 2015-06-19 识别社交短文本类别的方法、分类模型训练方法及装置 Pending CN104951542A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510346581.9A CN104951542A (zh) 2015-06-19 2015-06-19 识别社交短文本类别的方法、分类模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510346581.9A CN104951542A (zh) 2015-06-19 2015-06-19 识别社交短文本类别的方法、分类模型训练方法及装置

Publications (1)

Publication Number Publication Date
CN104951542A true CN104951542A (zh) 2015-09-30

Family

ID=54166200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510346581.9A Pending CN104951542A (zh) 2015-06-19 2015-06-19 识别社交短文本类别的方法、分类模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN104951542A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528618A (zh) * 2015-12-09 2016-04-27 微梦创科网络科技(中国)有限公司 一种基于社交网络的短图片文本识别方法及装置
CN105787133A (zh) * 2016-03-31 2016-07-20 北京小米移动软件有限公司 广告信息过滤方法及装置
CN106446264A (zh) * 2016-10-18 2017-02-22 哈尔滨工业大学深圳研究生院 文本表示方法及系统
CN107038193A (zh) * 2016-11-17 2017-08-11 阿里巴巴集团控股有限公司 一种文本信息的处理方法和装置
CN107102976A (zh) * 2017-03-23 2017-08-29 北京大学 基于微博的娱乐新闻自动构建技术与系统
CN107545261A (zh) * 2016-06-23 2018-01-05 佳能株式会社 文本检测的方法及装置
CN107944032A (zh) * 2017-12-13 2018-04-20 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN109213859A (zh) * 2017-07-07 2019-01-15 阿里巴巴集团控股有限公司 一种文本检测方法、装置及系统
CN109543032A (zh) * 2018-10-26 2019-03-29 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN109670182A (zh) * 2018-12-21 2019-04-23 合肥工业大学 一种基于文本哈希向量化表示的海量极短文本分类方法
CN109753646A (zh) * 2017-11-01 2019-05-14 深圳市腾讯计算机系统有限公司 一种文章属性识别方法以及电子设备
CN110874534A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 数据处理方法和数据处理装置
WO2020114324A1 (zh) * 2018-12-04 2020-06-11 阿里巴巴集团控股有限公司 回评文本的生成方法、装置及系统
CN111412925A (zh) * 2019-01-08 2020-07-14 阿里巴巴集团控股有限公司 一种poi位置的纠错方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073707A (zh) * 2010-12-22 2011-05-25 百度在线网络技术(北京)有限公司 用于实时识别短文本类别信息的方法、装置及计算机设备
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN102541958A (zh) * 2010-12-30 2012-07-04 百度在线网络技术(北京)有限公司 一种用于识别短文本类别信息的方法、装置和计算机设备
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073707A (zh) * 2010-12-22 2011-05-25 百度在线网络技术(北京)有限公司 用于实时识别短文本类别信息的方法、装置及计算机设备
CN102541958A (zh) * 2010-12-30 2012-07-04 百度在线网络技术(北京)有限公司 一种用于识别短文本类别信息的方法、装置和计算机设备
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN102955856A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种基于特征扩展的中文短文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BHARATH SRIRAM: "Short text classification in twitter to improve information filtering", 《SHORT TEXT CLASSIFICATION IN TWITTER TO IMPROVE INFORMATION FILTERING》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528618B (zh) * 2015-12-09 2019-06-04 微梦创科网络科技(中国)有限公司 一种基于社交网络的短图片文本识别方法及装置
CN105528618A (zh) * 2015-12-09 2016-04-27 微梦创科网络科技(中国)有限公司 一种基于社交网络的短图片文本识别方法及装置
CN105787133A (zh) * 2016-03-31 2016-07-20 北京小米移动软件有限公司 广告信息过滤方法及装置
CN105787133B (zh) * 2016-03-31 2020-06-02 北京小米移动软件有限公司 广告信息过滤方法及装置
CN107545261A (zh) * 2016-06-23 2018-01-05 佳能株式会社 文本检测的方法及装置
CN106446264A (zh) * 2016-10-18 2017-02-22 哈尔滨工业大学深圳研究生院 文本表示方法及系统
CN106446264B (zh) * 2016-10-18 2019-08-27 哈尔滨工业大学深圳研究生院 文本表示方法及系统
CN107038193A (zh) * 2016-11-17 2017-08-11 阿里巴巴集团控股有限公司 一种文本信息的处理方法和装置
CN107038193B (zh) * 2016-11-17 2020-11-27 创新先进技术有限公司 一种文本信息的处理方法和装置
CN107102976A (zh) * 2017-03-23 2017-08-29 北京大学 基于微博的娱乐新闻自动构建技术与系统
CN109213859A (zh) * 2017-07-07 2019-01-15 阿里巴巴集团控股有限公司 一种文本检测方法、装置及系统
CN109753646A (zh) * 2017-11-01 2019-05-14 深圳市腾讯计算机系统有限公司 一种文章属性识别方法以及电子设备
CN109753646B (zh) * 2017-11-01 2022-10-21 深圳市腾讯计算机系统有限公司 一种文章属性识别方法以及电子设备
CN107944032A (zh) * 2017-12-13 2018-04-20 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN107944032B (zh) * 2017-12-13 2021-12-31 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN110874534A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 数据处理方法和数据处理装置
CN110874534B (zh) * 2018-08-31 2023-04-28 阿里巴巴集团控股有限公司 数据处理方法和数据处理装置
CN109543032A (zh) * 2018-10-26 2019-03-29 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN109543032B (zh) * 2018-10-26 2024-07-02 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
WO2020114324A1 (zh) * 2018-12-04 2020-06-11 阿里巴巴集团控股有限公司 回评文本的生成方法、装置及系统
CN109670182A (zh) * 2018-12-21 2019-04-23 合肥工业大学 一种基于文本哈希向量化表示的海量极短文本分类方法
CN109670182B (zh) * 2018-12-21 2023-03-24 合肥工业大学 一种基于文本哈希向量化表示的海量极短文本分类方法
CN111412925A (zh) * 2019-01-08 2020-07-14 阿里巴巴集团控股有限公司 一种poi位置的纠错方法及装置

Similar Documents

Publication Publication Date Title
CN104951542A (zh) 识别社交短文本类别的方法、分类模型训练方法及装置
CN106250513B (zh) 一种基于事件建模的事件个性化分类方法及系统
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
CN105005594B (zh) 异常微博用户识别方法
CN103500175B (zh) 一种基于情感分析在线检测微博热点事件的方法
CN106547875B (zh) 一种基于情感分析和标签的微博在线突发事件检测方法
CN105045857A (zh) 一种社交网络谣言识别方法及系统
CN107526800A (zh) 信息推荐的装置、方法及计算机可读存储介质
CN105069041A (zh) 基于视频用户性别分类的广告投放方法
CN103729360A (zh) 一种兴趣标签推荐方法及系统
CN103455411B (zh) 日志分类模型的建立、行为日志分类方法及装置
CN103795612A (zh) 即时通讯中的垃圾和违法信息检测方法
CN105550253B (zh) 一种类型关系的获取方法及装置
CN103905532A (zh) 微博营销账号的识别方法及系统
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
CN104077415A (zh) 搜索方法及装置
CN106126605B (zh) 一种基于用户画像的短文本分类方法
CN109508373A (zh) 企业舆情指数的计算方法、设备及计算机可读存储介质
CN105447193A (zh) 一种基于机器学习和协同过滤的音乐推荐系统
CN103869999B (zh) 对输入法所产生的候选项进行排序的方法及装置
CN103631874A (zh) 社交平台的ugc标签类别确定方法和装置
CN107305545A (zh) 一种基于文本倾向性分析的网络意见领袖的识别方法
CN103761221A (zh) 用于识别敏感文本信息的系统和方法
Yao et al. Online deception detection refueled by real world data collection
CN109783805A (zh) 一种网络社区用户识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150930

RJ01 Rejection of invention patent application after publication