CN103455581B

CN103455581B - 基于语义扩展的海量短文本信息过滤方法

Info

Publication number: CN103455581B
Application number: CN201310376205.5A
Authority: CN
Inventors: 刘振岩; 王伟平; 孟丹; 王勇; 康颖
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2013-08-26
Filing date: 2013-08-26
Publication date: 2016-05-04
Anticipated expiration: 2033-08-26
Also published as: CN103455581A

Abstract

本发明提供一种基于语义扩展的海量短文本信息过滤方法，能解决短文本的特征稀疏性问题。步骤一、建立初始的训练样本集，对于训练样本集的每个样本基于上下文信息进行扩展；步骤二、对扩展的训练样本集进行文本预处理，步骤三、基于预处理后的训练样本集建立主题特征词典；步骤四、将训练样本集的每个文本在隐主题空间上进行文本表示；步骤五、构建SVM过滤器；步骤六、对待过滤文本基于上下文信息进行扩展、文本预处理，转化为特征词集合，再将其在隐主题空间上进行文本表示，由过滤器对其进行过滤；步骤七、定期采集新样本，在已有的隐主题空间上更新主题的词项概率分布，对新样本进行文本表示，重新建立SVM过滤器。

Description

基于语义扩展的海量短文本信息过滤方法

技术领域

本发明属于信息过滤技术领域，尤其涉及一种基于语义扩展的海量短文本信息过滤方法。

背景技术

近年来，以互联网，手机等为代表的新媒体在人们的日常生活，学习和工作中正扮演着越来越重要的角色。人们可以通过微博，短信，新闻评论等关注社会热点，参与社会公共事务等。新媒体所具有的强大传播功能和舆论影响力，正在广泛而深刻地影响着人类社会的方方面面。但是，在新媒体积极发展的同时也伴随着一些不容忽视的负面现象发生，某些人借助新媒体肆意传播反动言论，低俗虚假信息等，还有某些公司或个人也借机大量分发广告，这些行为都严重破坏了网络环境，甚至会直接影响到国家安全和社会稳定。因此，必须通过法律、监管和技术等多种渠道来加强管理。而其中从技术上对不良信息进行有效的识别和过滤，是控制不良信息泛滥的重要一环。

然而，现有的信息过滤技术大多是基于词频来确定特征空间的，这种方法比较适合于长文本的信息，而来自于微博，短信，新闻评论等的信息都是以短文本形式存在的，文本内容的短小使得可以利用的有效特征很少，且不同文本之间所共有的特征也很少，短文本的这种特征稀疏性会直接影响到信息过滤的有效性。其次，现有的信息过滤技术所使用的训练样本数据集的规模都相对较小，而对于短文本信息过滤所需的训练样本集的规模要大很多，才能够保证与实际数据的分布达到一致，而在大样本数据集上现有的学习算法的运行速度必定会成为一个极大的瓶颈。另外一个很重要的问题就是过滤器如何应对不断变化的数据，现有的信息过滤技术或是忽略数据的变化，或是使用增量学习的策略来解决，但是这些增量学习策略也多是基于相同的特征空间进行，而实际数据的变化更多的是特征空间发生了变化，对于这种特征空间发生了变化的数据现有的信息过滤技术几乎是无能为力的。

发明内容

本发明的目的是提供一种基于语义扩展的海量短文本信息过滤方法，能解决短文本的特征稀疏性问题，同时兼顾提高大样本数据集上学习算法的效率，以及对实时变化的数据的处理能力。

为了实现上述目的，本发明提供了一种基于语义扩展的海量短文本信息过滤方法，具体包括如下步骤：

步骤一、建立初始的训练样本集，对于训练样本集的每个样本基于上下文信息进行扩展，形成新的训练样本集；

步骤二、对扩展的训练样本集进行文本预处理，使用特征选择算法确定特征词，将每个文本变换为特征词的集合；

步骤三、基于步骤二中预处理后的训练样本集进行并行训练LDA（LatentDirichletAllocation）扩展模型，建立主题特征词典；

步骤四、将步骤二中所述的训练样本集的每个文本在隐主题空间上进行文本表示；

步骤五、基于步骤二所述的训练样本集的主题向量表示学习构建SVM（SupportVectorMachines）过滤器；

步骤六、对待过滤文本基于上下文信息进行扩展、文本预处理，转化为特征词集合，再将其在隐主题空间上进行文本表示，由步骤五所述的过滤器对其进行过滤；

步骤七、定期采集新样本，在已有的隐主题空间上更新主题的词项概率分布，对新样本进行文本表示，使用增量SVM算法，重新建立SVM过滤器。

上述方法的步骤二中文本预处理包括中文分词，去除停用词，特征词的规范化。

上述方法的步骤二中特征选择算法选择使用文档频率、或信息增益、或卡方方法。

上述方法的步骤三中LDA扩展模型的构建中引入样本的类别信息和上下文信息两个重要特征对基本的LDA模型进行扩展，并基于支持迭代计算的BSP（BulkSynchronousProgramming）并行编程模型来实现该LDA扩展模型的并行学习算法。

上述方法的步骤七中对于新样本，采用增量Gibbs抽样算法，只对每个主题内词项概率分布进行更新，而隐主题空间本身不再改变，从而能保证新旧样本同处于一个特征空间进行SVM增量学习。

与现有技术相比，本发明的优点在于：

（1）基于与信息过滤任务紧密相关的数据样本集，将短文本的类别信息和上下文信息综合引入构建LDA扩展模型，从语义层面上深入挖掘短文本的隐含特征，将传统的基于词项的特征空间变换为基于语义关联的隐主题空间，在隐主题空间上进行短文本的特征表示，以避免短文本的特征稀疏性对分类效果的负面影响。

（2）采用支持迭代计算的BSP并行编程模型实现LDA扩展模型的学习算法，将原始的大规模问题分解成多个可并行的小问题，在多个计算单元上互相独立地并行执行，最后再将这多个计算结果集成，以提高大样本数据集上算法的执行效率。

（3）基于隐主题实现SVM增量学习算法，即将短文本在固定的隐主题空间上进行特征表示，数据的变化体现在每个主题内词项概率分布的更新，然后SVM基于这个隐主题空间进行增量学习，以保证可以实现对实时变化的数据进行正确的过滤。

附图说明

图1为本发明基于语义扩展的海量短文本信息过滤方法的处理过程。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明做进一步详细说明。

如图1，本实施例基于语义扩展的海量短文本信息过滤方法包括如下步骤：

步骤1，从历史数据中选取与信息过滤任务紧密相关的数据样本，进行人工标注类别，0代表不良信息，1代表正常信息，建立训练样本集，为了使此数据样本集能够和实际数据的分布基本一致，此样本集的规模要相对较大。对训练样本集中每个样本进行上下文信息扩展，即将每个样本所属的一个会话的信息引入，具体需要扩充的信息数量阈值可以通过实验确定。

步骤2，对扩展后的训练样本集进行文本预处理，即中文分词，去停用词，特征词的规范化等，并选用一种较好的特征选择方法，确定初始的特征空间，将每个文本变换为特征词的集合。

步骤3，对于处理之后的训练样本集，基于支持迭代计算的BSP模型实现LDA扩展模型的并行学习训练，建立主题特征词典，即此词典包括若干主题，每个主题又包含若干特征词，同一个主题的不同特征词之间是有隐含的语义关联的。

步骤4，将训练数据集的每个文本在隐主题空间上进行文本表示，使得每个文本表示为主题向量：（topic1,topic2,…,topicn）。

步骤5，基于训练样本集的主题向量表示，使用LibSVM工具包学习构建SVM过滤器。

步骤6，对待过滤文本基于上下文信息进行扩展，今将其所在的会话信息引入，并进行中文分词，去停用词等预处理，将文本转换为特征词的集合，再将其在隐主题空间上进行文本表示，由过滤器对其进行过滤。

步骤7，定期采集新样本，在已有的隐主题空间上更新主题的词项概率分布，对新样本进行文本表示，使用增量SVM算法，重新学习SVM过滤器。为防止支持向量集无限扩大，使用基于JS距离的冗余检测算法淘汰冗余支持向量。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，在本发明的上述指导下，本领域技术人员可以在上述实施例的基础上进行各种改进和变形，而这些改进或者变形落在本发明的保护范围内。

Claims

1.一种基于语义扩展的海量短文本信息过滤方法，其特征在于，具体包括如下步骤：

步骤三、基于步骤二中预处理后的训练样本集进行并行训练LDA(LatentDirichletAllocation)扩展模型，建立主题特征词典；具体为：LDA扩展模型的构建中引入样本的类别信息和上下文信息两个重要特征对基本的LDA模型进行扩展，并基于支持迭代计算的BSP(BulkSynchronousProgramming)并行编程模型来实现该LDA扩展模型的并行学习算法；

步骤五、基于步骤二所述的训练样本集的主题向量表示学习构建SVM(SupportVectorMachines)过滤器；

2.如权利要求1所述的一种基于语义扩展的海量短文本信息过滤方法，其特征在于，上述方法的步骤二中文本预处理包括中文分词，去除停用词，特征词的规范化。

3.如权利要求1或2所述的一种基于语义扩展的海量短文本信息过滤方法，其特征在于，上述方法的步骤二中特征选择算法选择使用文档频率、或信息增益、或卡方方法。

4.如权利要求1或2所述的一种基于语义扩展的海量短文本信息过滤方法，其特征在于，上述方法的步骤七中对于新样本，采用增量Gibbs抽样算法，只对每个主题内词项概率分布进行更新，而隐主题空间本身不再改变，从而能保证新旧样本同处于一个特征空间进行SVM增量学习。