CN103455581A - 基于语义扩展的海量短文本信息过滤方法 - Google Patents

基于语义扩展的海量短文本信息过滤方法 Download PDF

Info

Publication number
CN103455581A
CN103455581A CN2013103762055A CN201310376205A CN103455581A CN 103455581 A CN103455581 A CN 103455581A CN 2013103762055 A CN2013103762055 A CN 2013103762055A CN 201310376205 A CN201310376205 A CN 201310376205A CN 103455581 A CN103455581 A CN 103455581A
Authority
CN
China
Prior art keywords
text
training sample
theme
sample set
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103762055A
Other languages
English (en)
Other versions
CN103455581B (zh
Inventor
刘振岩
王伟平
孟丹
王勇
康颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201310376205.5A priority Critical patent/CN103455581B/zh
Publication of CN103455581A publication Critical patent/CN103455581A/zh
Application granted granted Critical
Publication of CN103455581B publication Critical patent/CN103455581B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种基于语义扩展的海量短文本信息过滤方法,能解决短文本的特征稀疏性问题。步骤一、建立初始的训练样本集,对于训练样本集的每个样本基于上下文信息进行扩展;步骤二、对扩展的训练样本集进行文本预处理,步骤三、基于预处理后的训练样本集建立主题特征词典;步骤四、将训练样本集的每个文本在隐主题空间上进行文本表示;步骤五、构建SVM过滤器;步骤六、对待过滤文本基于上下文信息进行扩展、文本预处理,转化为特征词集合,再将其在隐主题空间上进行文本表示,由过滤器对其进行过滤;步骤七、定期采集新样本,在已有的隐主题空间上更新主题的词项概率分布,对新样本进行文本表示,重新建立SVM过滤器。

Description

基于语义扩展的海量短文本信息过滤方法
技术领域
本发明属于信息过滤技术领域,尤其涉及一种基于语义扩展的海量短文本信息过滤方法。
背景技术
近年来,以互联网,手机等为代表的新媒体在人们的日常生活,学习和工作中正扮演着越来越重要的角色。人们可以通过微博,短信,新闻评论等关注社会热点,参与社会公共事务等。新媒体所具有的强大传播功能和舆论影响力,正在广泛而深刻地影响着人类社会的方方面面。但是,在新媒体积极发展的同时也伴随着一些不容忽视的负面现象发生,某些人借助新媒体肆意传播反动言论,低俗虚假信息等,还有某些公司或个人也借机大量分发广告,这些行为都严重破坏了网络环境,甚至会直接影响到国家安全和社会稳定。因此,必须通过法律、监管和技术等多种渠道来加强管理。而其中从技术上对不良信息进行有效的识别和过滤,是控制不良信息泛滥的重要一环。
然而,现有的信息过滤技术大多是基于词频来确定特征空间的,这种方法比较适合于长文本的信息,而来自于微博,短信,新闻评论等的信息都是以短文本形式存在的,文本内容的短小使得可以利用的有效特征很少,且不同文本之间所共有的特征也很少,短文本的这种特征稀疏性会直接影响到信息过滤的有效性。其次,现有的信息过滤技术所使用的训练样本数据集的规模都相对较小,而对于短文本信息过滤所需的训练样本集的规模要大很多,才能够保证与实际数据的分布达到一致,而在大样本数据集上现有的学习算法的运行速度必定会成为一个极大的瓶颈。另外一个很重要的问题就是过滤器如何应对不断变化的数据,现有的信息过滤技术或是忽略数据的变化,或是使用增量学习的策略来解决,但是这些增量学习策略也多是基于相同的特征空间进行,而实际数据的变化更多的是特征空间发生了变化,对于这种特征空间发生了变化的数据现有的信息过滤技术几乎是无能为力的。
发明内容
本发明的目的是提供一种基于语义扩展的海量短文本信息过滤方法,能解决短文本的特征稀疏性问题,同时兼顾提高大样本数据集上学习算法的效率,以及对实时变化的数据的处理能力。
为了实现上述目的,本发明提供了一种基于语义扩展的海量短文本信息过滤方法,具体包括如下步骤:
步骤一、建立初始的训练样本集,对于训练样本集的每个样本基于上下文信息进行扩展,形成新的训练样本集;
步骤二、对扩展的训练样本集进行文本预处理,使用特征选择算法确定特征词,将每个文本变换为特征词的集合;
步骤三、基于步骤二中预处理后的训练样本集进行并行训练LDA(LatentDirichlet Allocation)扩展模型,建立主题特征词典;
步骤四、将步骤二中所述的训练样本集的每个文本在隐主题空间上进行文本表示;
步骤五、基于步骤二所述的训练样本集的主题向量表示学习构建SVM(Support Vector Machines)过滤器;
步骤六、对待过滤文本基于上下文信息进行扩展、文本预处理,转化为特征词集合,再将其在隐主题空间上进行文本表示,由步骤五所述的过滤器对其进行过滤;
步骤七、定期采集新样本,在已有的隐主题空间上更新主题的词项概率分布,对新样本进行文本表示,使用增量SVM算法,重新建立SVM过滤器。
上述方法的步骤二中文本预处理包括中文分词,去除停用词,特征词的规范化。
上述方法的步骤二中特征选择算法选择使用文档频率、或信息增益、或卡方方法。
上述方法的步骤三中LDA扩展模型的构建中引入样本的类别信息和上下文信息两个重要特征对基本的LDA模型进行扩展,并基于支持迭代计算的BSP(Bulk Synchronous Programming)并行编程模型来实现该LDA扩展模型的并行学习算法。
上述方法的步骤七中对于新样本,采用增量Gibbs抽样算法,只对每个主题内词项概率分布进行更新,而隐主题空间本身不再改变,从而能保证新旧样本同处于一个特征空间进行SVM增量学习。
与现有技术相比,本发明的优点在于:
(1)基于与信息过滤任务紧密相关的数据样本集,将短文本的类别信息和上下文信息综合引入构建LDA扩展模型,从语义层面上深入挖掘短文本的隐含特征,将传统的基于词项的特征空间变换为基于语义关联的隐主题空间,在隐主题空间上进行短文本的特征表示,以避免短文本的特征稀疏性对分类效果的负面影响。
(2)采用支持迭代计算的BSP并行编程模型实现LDA扩展模型的学习算法,将原始的大规模问题分解成多个可并行的小问题,在多个计算单元上互相独立地并行执行,最后再将这多个计算结果集成,以提高大样本数据集上算法的执行效率。
(3)基于隐主题实现SVM增量学习算法,即将短文本在固定的隐主题空间上进行特征表示,数据的变化体现在每个主题内词项概率分布的更新,然后SVM基于这个隐主题空间进行增量学习,以保证可以实现对实时变化的数据进行正确的过滤。
附图说明
图1为本发明基于语义扩展的海量短文本信息过滤方法的处理过程。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明做进一步详细说明。
如图1,本实施例基于语义扩展的海量短文本信息过滤方法包括如下步骤:
步骤1,从历史数据中选取与信息过滤任务紧密相关的数据样本,进行人工标注类别,0代表不良信息,1代表正常信息,建立训练样本集,为了使此数据样本集能够和实际数据的分布基本一致,此样本集的规模要相对较大。对训练样本集中每个样本进行上下文信息扩展,即将每个样本所属的一个会话的信息引入,具体需要扩充的信息数量阈值可以通过实验确定。
步骤2,对扩展后的训练样本集进行文本预处理,即中文分词,去停用词,特征词的规范化等,并选用一种较好的特征选择方法,确定初始的特征空间,将每个文本变换为特征词的集合。
步骤3,对于处理之后的训练样本集,基于支持迭代计算的BSP模型实现LDA扩展模型的并行学习训练,建立主题特征词典,即此词典包括若干主题,每个主题又包含若干特征词,同一个主题的不同特征词之间是有隐含的语义关联的。
步骤4,将训练数据集的每个文本在隐主题空间上进行文本表示,使得每个文本表示为主题向量:(topic1,topic2,…,topicn)。
步骤5,基于训练样本集的主题向量表示,使用LibSVM工具包学习构建SVM过滤器。
步骤6,对待过滤文本基于上下文信息进行扩展,今将其所在的会话信息引入,并进行中文分词,去停用词等预处理,将文本转换为特征词的集合,再将其在隐主题空间上进行文本表示,由过滤器对其进行过滤。
步骤7,定期采集新样本,在已有的隐主题空间上更新主题的词项概率分布,对新样本进行文本表示,使用增量SVM算法,重新学习SVM过滤器。为防止支持向量集无限扩大,使用基于JS距离的冗余检测算法淘汰冗余支持向量。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,在本发明的上述指导下,本领域技术人员可以在上述实施例的基础上进行各种改进和变形,而这些改进或者变形落在本发明的保护范围内。

Claims (5)

1.一种基于语义扩展的海量短文本信息过滤方法,其特征在于,具体包括如下步骤:
步骤一、建立初始的训练样本集,对于训练样本集的每个样本基于上下文信息进行扩展,形成新的训练样本集;
步骤二、对扩展的训练样本集进行文本预处理,使用特征选择算法确定特征词,将每个文本变换为特征词的集合;
步骤三、基于步骤二中预处理后的训练样本集进行并行训练LDA(LatentDirichlet Allocation)扩展模型,建立主题特征词典;
步骤四、将步骤二中所述的训练样本集的每个文本在隐主题空间上进行文本表示;
步骤五、基于步骤二所述的训练样本集的主题向量表示学习构建SVM(Support Vector Machines)过滤器;
步骤六、对待过滤文本基于上下文信息进行扩展、文本预处理,转化为特征词集合,再将其在隐主题空间上进行文本表示,由步骤五所述的过滤器对其进行过滤;
步骤七、定期采集新样本,在已有的隐主题空间上更新主题的词项概率分布,对新样本进行文本表示,使用增量SVM算法,重新建立SVM过滤器。
2.如权利要求1所述的一种基于语义扩展的海量短文本信息过滤方法,其特征在于,上述方法的步骤二中文本预处理包括中文分词,去除停用词,特征词的规范化。
3.如权利要求1或2所述的一种基于语义扩展的海量短文本信息过滤方法,其特征在于,上述方法的步骤二中特征选择算法选择使用文档频率、或信息增益、或卡方方法。
4.如权利要求1或2所述的一种基于语义扩展的海量短文本信息过滤方法,其特征在于,上述方法的步骤三中LDA扩展模型的构建中引入样本的类别信息和上下文信息两个重要特征对基本的LDA模型进行扩展,并基于支持迭代计算的BSP(Bulk Synchronous Programming)并行编程模型来实现该LDA扩展模型的并行学习算法。
5.如权利要求1或2所述的一种基于语义扩展的海量短文本信息过滤方法,其特征在于,上述方法的步骤七中对于新样本,采用增量Gibbs抽样算法,只对每个主题内词项概率分布进行更新,而隐主题空间本身不再改变,从而能保证新旧样本同处于一个特征空间进行SVM增量学习。
CN201310376205.5A 2013-08-26 2013-08-26 基于语义扩展的海量短文本信息过滤方法 Active CN103455581B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310376205.5A CN103455581B (zh) 2013-08-26 2013-08-26 基于语义扩展的海量短文本信息过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310376205.5A CN103455581B (zh) 2013-08-26 2013-08-26 基于语义扩展的海量短文本信息过滤方法

Publications (2)

Publication Number Publication Date
CN103455581A true CN103455581A (zh) 2013-12-18
CN103455581B CN103455581B (zh) 2016-05-04

Family

ID=49737944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310376205.5A Active CN103455581B (zh) 2013-08-26 2013-08-26 基于语义扩展的海量短文本信息过滤方法

Country Status (1)

Country Link
CN (1) CN103455581B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2963566A1 (en) * 2014-06-30 2016-01-06 Linkedin Corporation Context-aware approach to detection of short irrelevant texts
CN105335446A (zh) * 2014-08-13 2016-02-17 中国科学院声学研究所 一种基于词矢量的短文本分类模型生成方法与分类方法
CN105488033A (zh) * 2016-01-26 2016-04-13 中国人民解放军国防科学技术大学 关联计算的预处理方法及装置
CN105760410A (zh) * 2015-04-15 2016-07-13 北京工业大学 一种基于转发评论的微博语义扩充模型和方法
WO2017092623A1 (zh) * 2015-11-30 2017-06-08 北京国双科技有限公司 文本向量表示方法及装置
CN107025299A (zh) * 2017-04-24 2017-08-08 北京理工大学 一种基于加权lda主题模型的金融舆情感知方法
CN107203511A (zh) * 2017-05-27 2017-09-26 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN108280206A (zh) * 2018-01-30 2018-07-13 尹忠博 一种基于语义增强的短文本分类方法
CN109190060A (zh) * 2018-07-10 2019-01-11 天津大学 一种基于有效人机交互的服务标注质量优化方法
CN109492092A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于lda主题模型的文献分类方法和系统
CN110610001A (zh) * 2019-08-12 2019-12-24 大箴(杭州)科技有限公司 短文本完整性识别方法、装置、存储介质及计算机设备
CN114519114A (zh) * 2020-11-20 2022-05-20 北京达佳互联信息技术有限公司 多媒体资源分类模型构建方法、装置、服务器及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716293A (zh) * 2004-06-29 2006-01-04 微软公司 增量反垃圾邮件查找与更新服务
CN101330476A (zh) * 2008-07-02 2008-12-24 北京大学 一种垃圾邮件动态检测方法
CN102902700A (zh) * 2012-04-05 2013-01-30 中国人民解放军国防科学技术大学 基于在线增量演化主题模型的软件自动分类方法
CN103092956A (zh) * 2013-01-17 2013-05-08 上海交通大学 社交网络平台上话题关键词自适应扩充的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716293A (zh) * 2004-06-29 2006-01-04 微软公司 增量反垃圾邮件查找与更新服务
CN101330476A (zh) * 2008-07-02 2008-12-24 北京大学 一种垃圾邮件动态检测方法
CN102902700A (zh) * 2012-04-05 2013-01-30 中国人民解放军国防科学技术大学 基于在线增量演化主题模型的软件自动分类方法
CN103092956A (zh) * 2013-01-17 2013-05-08 上海交通大学 社交网络平台上话题关键词自适应扩充的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡勇军等: "《基于 LDA 高频词扩展的中文短文本分类》", 《现代图书情报技术》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279146B (zh) * 2014-06-30 2018-06-05 微软技术许可有限责任公司 针对短不相关文本的检测的上下文感知方法
WO2016003508A1 (en) * 2014-06-30 2016-01-07 Linkedin Corporation Context-aware approach to detection of short irrelevant texts
CN105279146A (zh) * 2014-06-30 2016-01-27 邻客音公司 针对短不相关文本的检测的上下文感知方法
EP2963566A1 (en) * 2014-06-30 2016-01-06 Linkedin Corporation Context-aware approach to detection of short irrelevant texts
US10037320B2 (en) 2014-06-30 2018-07-31 Microsoft Technology Licensing, Llc Context-aware approach to detection of short irrelevant texts
CN105335446A (zh) * 2014-08-13 2016-02-17 中国科学院声学研究所 一种基于词矢量的短文本分类模型生成方法与分类方法
CN105760410A (zh) * 2015-04-15 2016-07-13 北京工业大学 一种基于转发评论的微博语义扩充模型和方法
CN105760410B (zh) * 2015-04-15 2019-04-19 北京工业大学 一种基于转发评论的微博语义扩充模型和方法
CN106815244B (zh) * 2015-11-30 2020-02-07 北京国双科技有限公司 文本向量表示方法及装置
CN106815244A (zh) * 2015-11-30 2017-06-09 北京国双科技有限公司 文本向量表示方法及装置
WO2017092623A1 (zh) * 2015-11-30 2017-06-08 北京国双科技有限公司 文本向量表示方法及装置
CN105488033B (zh) * 2016-01-26 2018-01-02 中国人民解放军国防科学技术大学 关联计算的预处理方法及装置
CN105488033A (zh) * 2016-01-26 2016-04-13 中国人民解放军国防科学技术大学 关联计算的预处理方法及装置
CN107025299A (zh) * 2017-04-24 2017-08-08 北京理工大学 一种基于加权lda主题模型的金融舆情感知方法
CN107203511B (zh) * 2017-05-27 2020-07-17 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN107203511A (zh) * 2017-05-27 2017-09-26 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN108280206A (zh) * 2018-01-30 2018-07-13 尹忠博 一种基于语义增强的短文本分类方法
CN108280206B (zh) * 2018-01-30 2020-05-26 尹忠博 一种基于语义增强的短文本分类方法
CN109190060A (zh) * 2018-07-10 2019-01-11 天津大学 一种基于有效人机交互的服务标注质量优化方法
CN109190060B (zh) * 2018-07-10 2021-05-14 天津大学 一种基于有效人机交互的服务标注质量优化方法
CN109492092B (zh) * 2018-09-29 2020-07-17 北京智通云联科技有限公司 基于lda主题模型的文献分类方法和系统
CN109492092A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于lda主题模型的文献分类方法和系统
CN110610001A (zh) * 2019-08-12 2019-12-24 大箴(杭州)科技有限公司 短文本完整性识别方法、装置、存储介质及计算机设备
CN110610001B (zh) * 2019-08-12 2024-01-23 大箴(杭州)科技有限公司 短文本完整性识别方法、装置、存储介质及计算机设备
CN114519114A (zh) * 2020-11-20 2022-05-20 北京达佳互联信息技术有限公司 多媒体资源分类模型构建方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
CN103455581B (zh) 2016-05-04

Similar Documents

Publication Publication Date Title
CN103455581A (zh) 基于语义扩展的海量短文本信息过滤方法
Sahayak et al. Sentiment analysis on twitter data
Salloum et al. Mining text in news channels: a case study from Facebook
CN102855312B (zh) 一种面向领域主题的Web服务聚类方法
CN103116644B (zh) Web主题倾向性挖掘与决策支持的方法
CN104504150A (zh) 新闻舆情监测系统
CN102110140A (zh) 基于网络离散文本的舆情信息分析方法
CN102298638A (zh) 使用网页标签聚类提取新闻网页内容的方法和系统
CN102646132B (zh) 宽带用户属性识别方法和装置
CN103150331A (zh) 一种提供搜索引擎标签的方法和装置
CN104504087A (zh) 一种基于低秩分解的精细主题挖掘方法
Abdullah et al. Sentiment analysis on arabic tweets: Challenges to dissecting the language
Plu et al. A hybrid approach for entity recognition and linking
CN104216979A (zh) 中文工艺专利自动分类系统及利用该系统进行专利分类的方法
CN105488206A (zh) 一种基于众包的安卓应用演化推荐方法
CN107577713A (zh) 基于电力词典的文本处理方法
CN103970865A (zh) 基于种子词的微博文本层次主题发现方法及系统
Yang et al. Lacta: An enhanced automatic software categorization on the native code of android applications
CN102253983A (zh) 一种汉语高危词识别方法和系统
CN102298581B (zh) 一种输入法词库的处理方法和装置
Song The Sensitivity Analysis for Customer Feedback on Social Media
Roy et al. A lexicon based algorithm for noisy text normalization as pre processing for sentiment analysis
Singgalen Sentiment Classification of Climate Change and Tourism Content Using Support Vector Machine
CN107491440B (zh) 自然语言分词构造方法及系统、自然语言分类方法及系统
Amer et al. Detecting Text-Bullying on Twitter Using Machine Learning Algorithms

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant