CN103455581B - 基于语义扩展的海量短文本信息过滤方法 - Google Patents
基于语义扩展的海量短文本信息过滤方法 Download PDFInfo
- Publication number
- CN103455581B CN103455581B CN201310376205.5A CN201310376205A CN103455581B CN 103455581 B CN103455581 B CN 103455581B CN 201310376205 A CN201310376205 A CN 201310376205A CN 103455581 B CN103455581 B CN 103455581B
- Authority
- CN
- China
- Prior art keywords
- text
- training sample
- theme
- sample set
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种基于语义扩展的海量短文本信息过滤方法,能解决短文本的特征稀疏性问题。步骤一、建立初始的训练样本集,对于训练样本集的每个样本基于上下文信息进行扩展;步骤二、对扩展的训练样本集进行文本预处理,步骤三、基于预处理后的训练样本集建立主题特征词典;步骤四、将训练样本集的每个文本在隐主题空间上进行文本表示;步骤五、构建SVM过滤器;步骤六、对待过滤文本基于上下文信息进行扩展、文本预处理,转化为特征词集合,再将其在隐主题空间上进行文本表示,由过滤器对其进行过滤;步骤七、定期采集新样本,在已有的隐主题空间上更新主题的词项概率分布,对新样本进行文本表示,重新建立SVM过滤器。
Description
技术领域
本发明属于信息过滤技术领域,尤其涉及一种基于语义扩展的海量短文本信息过滤方法。
背景技术
近年来,以互联网,手机等为代表的新媒体在人们的日常生活,学习和工作中正扮演着越来越重要的角色。人们可以通过微博,短信,新闻评论等关注社会热点,参与社会公共事务等。新媒体所具有的强大传播功能和舆论影响力,正在广泛而深刻地影响着人类社会的方方面面。但是,在新媒体积极发展的同时也伴随着一些不容忽视的负面现象发生,某些人借助新媒体肆意传播反动言论,低俗虚假信息等,还有某些公司或个人也借机大量分发广告,这些行为都严重破坏了网络环境,甚至会直接影响到国家安全和社会稳定。因此,必须通过法律、监管和技术等多种渠道来加强管理。而其中从技术上对不良信息进行有效的识别和过滤,是控制不良信息泛滥的重要一环。
然而,现有的信息过滤技术大多是基于词频来确定特征空间的,这种方法比较适合于长文本的信息,而来自于微博,短信,新闻评论等的信息都是以短文本形式存在的,文本内容的短小使得可以利用的有效特征很少,且不同文本之间所共有的特征也很少,短文本的这种特征稀疏性会直接影响到信息过滤的有效性。其次,现有的信息过滤技术所使用的训练样本数据集的规模都相对较小,而对于短文本信息过滤所需的训练样本集的规模要大很多,才能够保证与实际数据的分布达到一致,而在大样本数据集上现有的学习算法的运行速度必定会成为一个极大的瓶颈。另外一个很重要的问题就是过滤器如何应对不断变化的数据,现有的信息过滤技术或是忽略数据的变化,或是使用增量学习的策略来解决,但是这些增量学习策略也多是基于相同的特征空间进行,而实际数据的变化更多的是特征空间发生了变化,对于这种特征空间发生了变化的数据现有的信息过滤技术几乎是无能为力的。
发明内容
本发明的目的是提供一种基于语义扩展的海量短文本信息过滤方法,能解决短文本的特征稀疏性问题,同时兼顾提高大样本数据集上学习算法的效率,以及对实时变化的数据的处理能力。
为了实现上述目的,本发明提供了一种基于语义扩展的海量短文本信息过滤方法,具体包括如下步骤:
步骤一、建立初始的训练样本集,对于训练样本集的每个样本基于上下文信息进行扩展,形成新的训练样本集;
步骤二、对扩展的训练样本集进行文本预处理,使用特征选择算法确定特征词,将每个文本变换为特征词的集合;
步骤三、基于步骤二中预处理后的训练样本集进行并行训练LDA(LatentDirichletAllocation)扩展模型,建立主题特征词典;
步骤四、将步骤二中所述的训练样本集的每个文本在隐主题空间上进行文本表示;
步骤五、基于步骤二所述的训练样本集的主题向量表示学习构建SVM(SupportVectorMachines)过滤器;
步骤六、对待过滤文本基于上下文信息进行扩展、文本预处理,转化为特征词集合,再将其在隐主题空间上进行文本表示,由步骤五所述的过滤器对其进行过滤;
步骤七、定期采集新样本,在已有的隐主题空间上更新主题的词项概率分布,对新样本进行文本表示,使用增量SVM算法,重新建立SVM过滤器。
上述方法的步骤二中文本预处理包括中文分词,去除停用词,特征词的规范化。
上述方法的步骤二中特征选择算法选择使用文档频率、或信息增益、或卡方方法。
上述方法的步骤三中LDA扩展模型的构建中引入样本的类别信息和上下文信息两个重要特征对基本的LDA模型进行扩展,并基于支持迭代计算的BSP(BulkSynchronousProgramming)并行编程模型来实现该LDA扩展模型的并行学习算法。
上述方法的步骤七中对于新样本,采用增量Gibbs抽样算法,只对每个主题内词项概率分布进行更新,而隐主题空间本身不再改变,从而能保证新旧样本同处于一个特征空间进行SVM增量学习。
与现有技术相比,本发明的优点在于:
(1)基于与信息过滤任务紧密相关的数据样本集,将短文本的类别信息和上下文信息综合引入构建LDA扩展模型,从语义层面上深入挖掘短文本的隐含特征,将传统的基于词项的特征空间变换为基于语义关联的隐主题空间,在隐主题空间上进行短文本的特征表示,以避免短文本的特征稀疏性对分类效果的负面影响。
(2)采用支持迭代计算的BSP并行编程模型实现LDA扩展模型的学习算法,将原始的大规模问题分解成多个可并行的小问题,在多个计算单元上互相独立地并行执行,最后再将这多个计算结果集成,以提高大样本数据集上算法的执行效率。
(3)基于隐主题实现SVM增量学习算法,即将短文本在固定的隐主题空间上进行特征表示,数据的变化体现在每个主题内词项概率分布的更新,然后SVM基于这个隐主题空间进行增量学习,以保证可以实现对实时变化的数据进行正确的过滤。
附图说明
图1为本发明基于语义扩展的海量短文本信息过滤方法的处理过程。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明做进一步详细说明。
如图1,本实施例基于语义扩展的海量短文本信息过滤方法包括如下步骤:
步骤1,从历史数据中选取与信息过滤任务紧密相关的数据样本,进行人工标注类别,0代表不良信息,1代表正常信息,建立训练样本集,为了使此数据样本集能够和实际数据的分布基本一致,此样本集的规模要相对较大。对训练样本集中每个样本进行上下文信息扩展,即将每个样本所属的一个会话的信息引入,具体需要扩充的信息数量阈值可以通过实验确定。
步骤2,对扩展后的训练样本集进行文本预处理,即中文分词,去停用词,特征词的规范化等,并选用一种较好的特征选择方法,确定初始的特征空间,将每个文本变换为特征词的集合。
步骤3,对于处理之后的训练样本集,基于支持迭代计算的BSP模型实现LDA扩展模型的并行学习训练,建立主题特征词典,即此词典包括若干主题,每个主题又包含若干特征词,同一个主题的不同特征词之间是有隐含的语义关联的。
步骤4,将训练数据集的每个文本在隐主题空间上进行文本表示,使得每个文本表示为主题向量:(topic1,topic2,…,topicn)。
步骤5,基于训练样本集的主题向量表示,使用LibSVM工具包学习构建SVM过滤器。
步骤6,对待过滤文本基于上下文信息进行扩展,今将其所在的会话信息引入,并进行中文分词,去停用词等预处理,将文本转换为特征词的集合,再将其在隐主题空间上进行文本表示,由过滤器对其进行过滤。
步骤7,定期采集新样本,在已有的隐主题空间上更新主题的词项概率分布,对新样本进行文本表示,使用增量SVM算法,重新学习SVM过滤器。为防止支持向量集无限扩大,使用基于JS距离的冗余检测算法淘汰冗余支持向量。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,在本发明的上述指导下,本领域技术人员可以在上述实施例的基础上进行各种改进和变形,而这些改进或者变形落在本发明的保护范围内。
Claims (4)
1.一种基于语义扩展的海量短文本信息过滤方法,其特征在于,具体包括如下步骤:
步骤一、建立初始的训练样本集,对于训练样本集的每个样本基于上下文信息进行扩展,形成新的训练样本集;
步骤二、对扩展的训练样本集进行文本预处理,使用特征选择算法确定特征词,将每个文本变换为特征词的集合;
步骤三、基于步骤二中预处理后的训练样本集进行并行训练LDA(LatentDirichletAllocation)扩展模型,建立主题特征词典;具体为:LDA扩展模型的构建中引入样本的类别信息和上下文信息两个重要特征对基本的LDA模型进行扩展,并基于支持迭代计算的BSP(BulkSynchronousProgramming)并行编程模型来实现该LDA扩展模型的并行学习算法;
步骤四、将步骤二中所述的训练样本集的每个文本在隐主题空间上进行文本表示;
步骤五、基于步骤二所述的训练样本集的主题向量表示学习构建SVM(SupportVectorMachines)过滤器;
步骤六、对待过滤文本基于上下文信息进行扩展、文本预处理,转化为特征词集合,再将其在隐主题空间上进行文本表示,由步骤五所述的过滤器对其进行过滤;
步骤七、定期采集新样本,在已有的隐主题空间上更新主题的词项概率分布,对新样本进行文本表示,使用增量SVM算法,重新建立SVM过滤器。
2.如权利要求1所述的一种基于语义扩展的海量短文本信息过滤方法,其特征在于,上述方法的步骤二中文本预处理包括中文分词,去除停用词,特征词的规范化。
3.如权利要求1或2所述的一种基于语义扩展的海量短文本信息过滤方法,其特征在于,上述方法的步骤二中特征选择算法选择使用文档频率、或信息增益、或卡方方法。
4.如权利要求1或2所述的一种基于语义扩展的海量短文本信息过滤方法,其特征在于,上述方法的步骤七中对于新样本,采用增量Gibbs抽样算法,只对每个主题内词项概率分布进行更新,而隐主题空间本身不再改变,从而能保证新旧样本同处于一个特征空间进行SVM增量学习。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310376205.5A CN103455581B (zh) | 2013-08-26 | 2013-08-26 | 基于语义扩展的海量短文本信息过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310376205.5A CN103455581B (zh) | 2013-08-26 | 2013-08-26 | 基于语义扩展的海量短文本信息过滤方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103455581A CN103455581A (zh) | 2013-12-18 |
CN103455581B true CN103455581B (zh) | 2016-05-04 |
Family
ID=49737944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310376205.5A Active CN103455581B (zh) | 2013-08-26 | 2013-08-26 | 基于语义扩展的海量短文本信息过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103455581B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10037320B2 (en) | 2014-06-30 | 2018-07-31 | Microsoft Technology Licensing, Llc | Context-aware approach to detection of short irrelevant texts |
CN105335446A (zh) * | 2014-08-13 | 2016-02-17 | 中国科学院声学研究所 | 一种基于词矢量的短文本分类模型生成方法与分类方法 |
CN105760410B (zh) * | 2015-04-15 | 2019-04-19 | 北京工业大学 | 一种基于转发评论的微博语义扩充模型和方法 |
CN106815244B (zh) * | 2015-11-30 | 2020-02-07 | 北京国双科技有限公司 | 文本向量表示方法及装置 |
CN105488033B (zh) * | 2016-01-26 | 2018-01-02 | 中国人民解放军国防科学技术大学 | 关联计算的预处理方法及装置 |
CN107025299B (zh) * | 2017-04-24 | 2018-02-27 | 北京理工大学 | 一种基于加权lda主题模型的金融舆情感知方法 |
CN107203511B (zh) * | 2017-05-27 | 2020-07-17 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN108280206B (zh) * | 2018-01-30 | 2020-05-26 | 尹忠博 | 一种基于语义增强的短文本分类方法 |
CN109190060B (zh) * | 2018-07-10 | 2021-05-14 | 天津大学 | 一种基于有效人机交互的服务标注质量优化方法 |
CN109492092B (zh) * | 2018-09-29 | 2020-07-17 | 北京智通云联科技有限公司 | 基于lda主题模型的文献分类方法和系统 |
CN110610001B (zh) * | 2019-08-12 | 2024-01-23 | 大箴(杭州)科技有限公司 | 短文本完整性识别方法、装置、存储介质及计算机设备 |
CN114519114A (zh) * | 2020-11-20 | 2022-05-20 | 北京达佳互联信息技术有限公司 | 多媒体资源分类模型构建方法、装置、服务器及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1716293A (zh) * | 2004-06-29 | 2006-01-04 | 微软公司 | 增量反垃圾邮件查找与更新服务 |
CN101330476A (zh) * | 2008-07-02 | 2008-12-24 | 北京大学 | 一种垃圾邮件动态检测方法 |
CN102902700A (zh) * | 2012-04-05 | 2013-01-30 | 中国人民解放军国防科学技术大学 | 基于在线增量演化主题模型的软件自动分类方法 |
CN103092956A (zh) * | 2013-01-17 | 2013-05-08 | 上海交通大学 | 社交网络平台上话题关键词自适应扩充的方法及系统 |
-
2013
- 2013-08-26 CN CN201310376205.5A patent/CN103455581B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1716293A (zh) * | 2004-06-29 | 2006-01-04 | 微软公司 | 增量反垃圾邮件查找与更新服务 |
CN101330476A (zh) * | 2008-07-02 | 2008-12-24 | 北京大学 | 一种垃圾邮件动态检测方法 |
CN102902700A (zh) * | 2012-04-05 | 2013-01-30 | 中国人民解放军国防科学技术大学 | 基于在线增量演化主题模型的软件自动分类方法 |
CN103092956A (zh) * | 2013-01-17 | 2013-05-08 | 上海交通大学 | 社交网络平台上话题关键词自适应扩充的方法及系统 |
Non-Patent Citations (1)
Title |
---|
《基于 LDA 高频词扩展的中文短文本分类》;胡勇军等;《现代图书情报技术》;20130625(第6期);第42-47页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103455581A (zh) | 2013-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103455581B (zh) | 基于语义扩展的海量短文本信息过滤方法 | |
Chowdhury et al. | Performing sentiment analysis in Bangla microblog posts | |
Sahayak et al. | Sentiment analysis on twitter data | |
US9575952B2 (en) | Unsupervised topic modeling for short texts | |
Inkpen et al. | Location detection and disambiguation from twitter messages | |
CN102567304B (zh) | 一种网络不良信息的过滤方法及装置 | |
Peng et al. | Astroturfing detection in social media: a binary n‐gram–based approach | |
CN104965819A (zh) | 一种基于句法词向量的生物医学事件触发词识别方法 | |
CN105469789A (zh) | 一种语音信息的处理方法及终端 | |
CN103092956A (zh) | 社交网络平台上话题关键词自适应扩充的方法及系统 | |
Heck et al. | Deep learning of knowledge graph embeddings for semantic parsing of twitter dialogs | |
CN103324626A (zh) | 一种建立多粒度词典的方法、分词的方法及其装置 | |
Gurunath et al. | A novel approach for linguistic steganography evaluation based on artificial neural networks | |
CN107239447B (zh) | 垃圾信息识别方法及装置、系统 | |
CN103150331A (zh) | 一种提供搜索引擎标签的方法和装置 | |
US20170229118A1 (en) | Linguistic model database for linguistic recognition, linguistic recognition device and linguistic recognition method, and linguistic recognition system | |
KR20210063882A (ko) | 효율적 문서 분류 처리를 지원하는 지식 그래프 기반 마케팅 정보 분석 서비스 제공 방법 및 그 장치 | |
CN104331396A (zh) | 一种智能识别广告的方法 | |
KR20220074576A (ko) | 마케팅 지식 그래프 구축을 위한 딥러닝 기반 신조어 추출 방법 및 그 장치 | |
CN103970865A (zh) | 基于种子词的微博文本层次主题发现方法及系统 | |
KR20160068441A (ko) | 개인 정보 보호를 위한 장치 및 기록 매체 | |
CN102253983A (zh) | 一种汉语高危词识别方法和系统 | |
Bartesaghi | Intertextuality | |
Dandannavar et al. | A proposed framework for evaluating the performance of government initiatives through sentiment analysis | |
Song | The Sensitivity Analysis for Customer Feedback on Social Media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |