CN110598050A

CN110598050A - 一种面向半结构化数据流的实时主题分类方法

Info

Publication number: CN110598050A
Application number: CN201910900993.0A
Authority: CN
Inventors: 毕鑫; 黄虹; 赵相国; 刘志勋
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2019-12-20

Abstract

本发明涉及一种面向半结构化数据流的实时主题分类方法，其包括如下步骤：S1：启动阶段：初始化参数，包括滑动窗口的大小和ELM的参数；S2：滑动窗口以步长为s个记录继续滑动，获取新的半结构化数据记录，设置滑动次数k，初始化为k＝0；S3：计算ELM的特征映射矩阵H_k+1、转移矩阵P_k+1，然后计算出当前第(k+1)个记录块的输出权重β_k+1；S4：在数据流S不为空的情况下，重复执行步骤S2和步骤S3，滑动次数k更新为k+1；若数据流为空，则执行步骤S5；S5：结束。采用本方法解决信息流主题分类问题，具有实时的半监督学习能力，可以快速且高效的解决数据流主题分类问题。

Description

一种面向半结构化数据流的实时主题分类方法

技术领域

本发明涉及一种面向半结构化数据流的实时主题分类方法，属于数据管理与分析领域。

背景技术

如今，在线社交网络比如微博、微信等在人们的生活中扮演重要的角色，使用互联网发布信息的用户越来越多。据统计，截止2018年6月，中国网民规模达到8.02亿人，2018上半年新增网民数量为2968万人，与2017年相比增长3.8％，互联网普及率为57.7％。近年来，随着智能手机技术的快速完善，人们对于手机依赖度的提高，越来越多的工作娱乐交际等都可以在手机上完成，例如，人们可以通过微博发布消息或查看热门消息，通过在线新闻门户(例如，百度新闻、今日头条，网易新闻等)浏览新闻。随着网民数量的增长，内容提供商(例如，社交网络和新闻门户)发布的消息或者信息大规模增长，信息流速度高并且规模大，内容提供商发布信息的快速性和实时性面临巨大的挑战。

在内容分发时代，内容提供商以媒体新闻流和社交信息流的形式发布最新的内容。信息流通常以XML或JSON等半结构化文本数据流的形式发布。为了提高服务质量，内容提供商重点关注如何提高内容分发与信息浏览的质量。其中，信息流的主题分类技术能够优化内容分发的目标性和针对性，提高用户的信息筛选效率，对于提高个性化用户体验具有关键作用。

信息流主题分类问题是指数据流环境中的事件识别问题中的已知事件识别。在半结构化信息流中，每个元素是一个半结构化文档，其中每个条目对应一篇社交信息或者新闻。因此，信息流主题分类问题也可以被看作是记录链接问题，即通过对社交信息或新闻流中已流入信息的主题进行流式学习，训练主题分类器，然后将新流入的信息与已知主题进行关联。

随着新闻等内容的数据量与用户社交数据的爆炸式增加，对高速信息流的学习速度，直接影响了信息流主题分类的实时性。此外，在大多数现有工作中，给定一个信息流，主题分类任务通常被视作有监督学习问题，并假设新流入的信息包含主题或者其它类别标签。在此前提下，新流入的信息可以参与迭代式或增量式的训练过程。然而，在部分内容提供商发布的信息流中，新流入的信息没有主题和类别信息，对分类器后续的有监督学习能力没有贡献。如今处于信息时代，每天都会产生大量的数据，数据产生速度太快，而新流入的数据缺乏类别标签，如果只是学习带有标签的历史数据，容易产生概念漂移。在此场景下，迫切需要设计具有半监督学习能力的流式分类算法。

发明内容

(一)要解决的技术问题

为了解决现有技术的上述问题，本发明提供一种面向半结构化数据流的实时主题分类方法。该方法能够在内容分发和事件浏览等方面提高信息流提供商的服务质量。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

一种面向半结构化数据流的实时主题分类方法，其包括如下步骤：

S1：启动阶段：初始化参数，包括滑动窗口的大小和ELM的参数；

S2：滑动窗口以步长为s个记录继续滑动，获取新的半结构化数据记录，即将记录块更新为当前滑动窗口中的最新元素；对于滑动窗口中的所有记录，当前的分类器首先对每个样本进行分类，赋予相应的事件主题标签；设置滑动次数k，初始化为k＝0；

S3：计算ELM的特征映射矩阵H_k+1、转移矩阵P_k+1，然后计算出当前第(k+1)个记录块的输出权重β_k+1；

S4：在数据流S不为空的情况下，重复执行步骤S2和步骤S3，滑动次数k更新为k+1；

若数据流为空，则执行步骤S5；

S5：结束。

在一个优选的实施方案中，所述步骤S1包括：

S1.1：设置滑动窗口的大小为s；

S1.2：输入半结构化数据流S，首先获取小部分数据S₀，作为第一个记录块；

S1.3：对于第一个记录块S₀中的每条记录X_i，手动分配其事件标签；

S1.4：随机生成ELM的参数，包括输入权重和偏移量，从而根据公式1计算初始的ELM特征映射矩阵H₀；

ELM的特征映射矩阵H的计算公式如公式(1)所示：

其中，L是隐藏层节点的数量，w_i＝＝[w_il，w_i2，...，w_in]^T是从输入节点到第i个隐藏节点的输入权重向量，b_i是第i个隐藏节点的偏移量；G(w_i，b_i，X)是生成映射神经元的激活函数，其可以是任意非线性分段连续函数。

在一个优选的实施方案中，所述G(w_i，b_i，X)为Sigmoid函数或高斯函数等。

在一个优选的实施方案中，在步骤S2中，将当前滑动窗口内的数据元素记录为对于滑动窗口内的所有半结构化数据，做如下操作：

S21.根据第一个被手动标记标签的记录块S₀计算ELM的事件标签分类的输出O_i；

S22.通过分类结果O_i给每一个数据记录X_i链接事件标签。

在一个优选的实施方案中，在步骤S3中，所述特征映射矩阵H_k+1根据公式(1)计算获得，所述转移矩阵P_k+1根据公式(2)计算，所述输出权重β_k+1根据公式(3)计算；

(三)有益效果

本发明的有益效果是：

本发明提供一种面向半结构化数据流的实时主题分类方法，该方法首先将半结构化信息流中的记录转换为半结构化文档表达模型空间下的学习样本；由于现实应用中信息流的记录没有主题标签，因此为了降低对信息流中新流入样本标签的依赖，本发明提供了一种增量的半监督流式学习算法。

本发明解决了信息流的实时主题分类问题，尤其是对于半结构化数据流的实时主题分类，设计了半监督流式分类的解决方法，以消除流式学习对主题标签信息的依赖。采用本方法解决信息流主题分类问题，具有实时的半监督学习能力，可以快速且高效的解决数据流主题分类问题。

附图说明

图1为本发明实施例采用的极限学习机的网络结构；

图2为本发明实施例提供的面向大规模半结构化数据流实时主题分类方法的实现流程图；

图3为本发明实施例提供的S3-ELM算法与ES-SVM算法在IBM据集下滑动窗口尺寸对训练时间的影响；

图4为本发明实施例提供的S3-ELM算法与ES-SVM算法在ABC新闻数据集下滑动窗口尺寸对训练时间的影响；

图5为本发明实施例提供的S3-ELM算法与ES-SVM算法在IBM数数据集下滑动窗口尺寸对分类性能的准确率。

图6为本发明实施例提供的S3-ELM算法与ES-SVM算法在IBM数数据集下滑动窗口尺寸对分类性能的召回率。

图7为本发明实施例提供的S3-ELM算法与ES-SVM算法在IBM数数据集下滑动窗口尺寸对分类性能的F1值。

图8为本发明实施例提供的S3-ELM算法与ES-SVM算法在ABC新闻数数据集下滑动窗口尺寸对分类性能的准确率。

图9为本发明实施例提供的S3-ELM算法与ES-SVM算法在ABC新闻数数据集下滑动窗口尺寸对分类性能的召回率。

图10为本发明实施例提供的S3-ELM算法与ES-SVM算法在ABC新闻数数据集下滑动窗口尺寸对分类性能的F1值。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

实施例1

信息流主题分类问题面临三个主要挑战：1)实现高速信息流的实时学习能力；2)提高学习的更新效率以解决概念漂移问题；3)降低对新流入的信息的主题标签的依赖。针对上述挑战，设计了基于极限学习机学习理论的半结构化数据流的实时主题分类方法。具体的，一种对于半结构化数据流的实时主题分类问题的解决方法，包括如下步骤：

步骤1：启动阶段。该步骤初始化一些必要的参数，包括滑动窗口的大小和ELM的参数。ELM的网络结构如图1所示。由于现实应用中的数据记录不包含事件标签，因此首先获取半结构化数据流S头部的一小部分数据，为这部分半结构化数据手动分配事件标签，以获得可信的学习样本。如图2所示；

步骤1.1：设置滑动窗口的大小为s。

步骤1.2：输入半结构化数据流S，首先获取小部分数据S₀，作为第一个记录块。

步骤1.3：对于第一个记录块S₀中的每条记录X_i，手动分配其事件标签。

步骤1.4：随机生成ELM的参数，包括输入权重和偏移量，从而根据公式1计算初始的ELM特征映射矩阵H₀。

ELM的特征映射矩阵H的计算公式为：

其中，其中L是隐藏层节点的数量，w_i＝[w_i1，w_i2，...，w_in]^T是从输入节点到第i个隐藏节点的输入权重向量，b_i是第i个隐藏节点的偏移量。G(w_i，b_i，X)是生成映射神经元的激活函数，其可以是任意非线性分段连续函数，例如Sigmoid函数，高斯函数等。

步骤2：滑动窗口以步长为s个记录继续滑动，获取新的半结构化数据记录，即将记录块更新为当前滑动窗口中的最新元素。对于滑动窗口中的所有记录，当前的分类器首先对每个样本进行分类，赋予相应的事件主题标签。设置滑动次数k，初始化为k＝0。具体实施如下：

步骤2.1：当前滑动窗口内的数据元素记录为对于滑动窗口内的所有半结构化数据，做如下操作：

1.根据第一个被手动标记标签的记录块S₀计算ELM的事件标签分类的输出O_i。

2.通过分类结果O_i给每一个数据记录X_i链接事件标签。

步骤3：使用公式(1)计算ELM的特征映射矩阵H_k+1，根据公式(2)计算转移矩阵P_k+1，然后根据公式(3)计算出当前第(k+1)个记录块的输出权重β_k+1。

其中P_k+1的计算如下

(公式2)

输出权重β_k+1的计算公式为：

步骤4：在数据流S不为空的情况下，重复执行步骤2和步骤3，滑动次数k更新为k+1。若数据流为空，则执行步骤5。

步骤5：结束。

其中，发明所用的符号和意义见表1。

表1.本发明的符号和意义

定义1

信息流：给定一个时序信息流，用一个记录流S记录无限的内容条目{x₁,x₂,...,x_i,....}序列，其中x_i是半结构化文档，记录流以时间戳{T₁,T₂,...,T_i,...}到达，其中对于任意的j＜k，有T_j<T_k。

问题定义

信息流主题分类：给定信息流S，假定有一个集合S^Y∈S，其中每个与已知的事件主题c_i∈C相关，对于集合S^N＝S\S^Y，信息流学习问题就是使用分类算法学习一个函数从而为每个信息流记录分配相应的事件主题c_i∈C。

实施例2

本实施例是在实施例1的基础上，具体地：

步骤1：启动阶段。步骤1.1：设置滑动窗口的大小为s＝100。

步骤1.2：输入半结构化数据流S，首先获取一小部分数据S₀＝{X₁,X₂,…,X_n}，作为第一个记录块。

步骤1.3：对于第一个记录块S₀中的每条记录X_i，手动分配其事件标签。具体的，半结构化数据记录X₁的事件标签为c₁，X₂的事件标签为c₂，X₃的事件标签为c₃……直到S₀中所有的数据都被链接好相应的事件标签。

步骤1.4：随机生成ELM的参数，随机生成ELM的输入权重w和偏移量b，将记录块S₀中的记录作为ELM的输入，从而根据公式1计算出初始的ELM特征映射矩阵H₀。

步骤2：滑动窗口以步长为s个记录继续滑动，即将记录块更新为当前滑动窗口中的最新元素。(元素就是指实验所用的数据)对于滑动窗口中的所有记录，当前的分类器首先对每个样本进行分类，赋予相应的事件主题标签。设置滑动次数k，初始化为k＝0。具体实施如下：

1.将第一个被手动标记标签的记录块S₀作为ELM的输入，计算事件标签分类的输出o_i＝{c_i1，c_i2，...，c_i100}。

2.通过分类结果O_i给滑动窗口中每一个记录X_i链接事件标签。例如，给记录X_k1链接的事件标签为c_i1，给记录X_k2链接的事件标签为c_i2，等等。

步骤5：结束。

本发明是针对大规模半结构化数据流进行实时主题分类，全面地考察算法的性能，在服务器上进行了大量有针对性的实验，分别测试了本发明分类方法和传统的分类算法的训练时间以及分类性能。

为了方便描述，将本发明提出的分类方法称为S3-ELM算法。该实验选择SVM(支持向量机)作为对比方法，由于S3-ELM的策略和计算方式不能直接应用于SVM，实现了基于集成策略的ES-SVM算法作为对比算法。为了更好的评估算法的分类性能，在实验中使用了三个评估标准，包括准确率，召回率和F1值。这三种评估标准的计算如下所示。

准确率表示正确分类的样本与总体的比率，其计算公式为

召回率是具有特定类别标签的样本与分类到该类别的样本的比率，其计算公式为

F1值是考虑准确率和召回率来衡量整体绩效，其计算公式为

运行本发明的实验的计算机配置有Intel Core i5 3.50GHz CPU和8GB RAM。算法的实现环境为64位Windows 7操作系统中的MATLAB R2013b。实验采用两个真实数据集，分别是IBM DeveloperWorks的文章和ABC News的新闻，均为RSS订阅源数据，使用GoogleReader API从IBM DeveloperWorks和ABC News官方网站获取而得。RSS订阅源中的每个XML文档都由标题、作者、摘要和发布信息等标签元素组成。使用订阅源频道作为已知的事件主题。对于每个数据集包含6个事件主题和6000个订阅源条目(即数据集样本数)。为了验证算法的实际应用性能，该实验模拟真实的应用环境，删除记录的主题标签。

信息流主题学习问题需要对快速和大规模的数据流进行实时处理，因此需要比较分类算法的训练时间。图3和图4显示了随着滑动窗口尺寸的增加，训练时间的变化趋势。其中图3为在IBM数据集进行实验的结果，图4为在ABC新闻数据集进行实验的结果。本发明实验设置的滑动窗口的大小由20增长至120。从图3和图4可以看出，无论滑动窗口的大小如何变化，本发明提出的S3-ELM算法的训练时间都快于ES-SVM算法，且随着滑动窗口大小的增加，训练时间更短。

分类性能是评估分类算法的一个重要评估标准。图5-图10显示了S3-ELM和ES-SVM算法在不同数据集上的分类性能比较。其中，图5-图7为在IBM数据集进行实验的结果，图5为准确率，图6为召回率，图7为F1值，图8-图10为在ABC新闻数据集进行实验的结果，图8为准确率，图9为召回率，图10为F1值。从图4可以看出，在IBM数据集和ABC数据集上，本发明提出的S3-ELM算法的性能都要优于ES-SVM算法，且当滑动窗口变大时，这两种算法都获得更高的分类性能，因为滑动窗口的尺寸增加，训练样本增加，更大尺寸的训练样本可以带来更好的学习性能。

本发明提出的面向大规模半结构化数据流的实时主题分类方法，具有实时的半监督学习能力，消除了流式学习对主题标签的依赖，具有很高的学术价值，也有非常好的实际应用价值，可以快速高效地解决信息流分类问题。以上所述，仅是本发明的较佳实施例而已，并非是对本发明做其它形式的限制，任何本领域技术人员可以利用上述公开的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种面向半结构化数据流的实时主题分类方法，其特征在于，其包括如下步骤：

若数据流为空，则执行步骤S5；

S5：结束。

2.如权利要求1所述的实时主题分类，其特征在于，所述步骤S1包括：

S1.1：设置滑动窗口的大小为s；

ELM的特征映射矩阵H的计算公式如公式(1)所示：

其中，L是隐藏层节点的数量，w_i＝[w_i1，w_i2，…，w_in]^T是从输入节点到第i个隐藏节点的输入权重向量，b_i是第i个隐藏节点的偏移量；G(w_i，b_i，X)是生成映射神经元的激活函数，其可以是任意非线性分段连续函数。

3.如权利要求2所述的实时主题分类，其特征在于，所述G(w_i，b_i，X)为Sigmoid函数或高斯函数。

4.如权利要求1所述的实时主题分类，其特征在于，在步骤S2中，将当前滑动窗口内的数据元素记录为对于滑动窗口内的所有半结构化数据，做如下操作：

S22.通过分类结果O_i给每一个数据记录X_i链接事件标签。

5.如权利要求1所述的实时主题分类，其特征在于，在步骤S3中，所述特征映射矩阵H_k+1根据公式(1)计算获得，所述转移矩阵P_k+1根据公式(2)计算，所述输出权重β_k+1根据公式(3)计算；