CN104504156B

CN104504156B - 一种基于压缩感知理论的文本数据流抽样方法

Info

Publication number: CN104504156B
Application number: CN201510024381.1A
Authority: CN
Inventors: 彭敏
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2015-01-16
Filing date: 2015-01-16
Publication date: 2017-07-11
Anticipated expiration: 2035-01-16
Also published as: CN104504156A

Abstract

本发明公开了一种基于压缩感知理论的文本数据流抽样方法，包括步骤1）将文本数据流分割成固定大小的文本片段并通过向量空间模型表示成矩阵；2）使用压缩感知理论对文本数据流进行空间降维抽样；3）计算降维后每个文本的信息熵；4）基于文本的信息熵通过对数倾斜时间（LTT）模型得到抽样文本。本发明面向互联网海量的、不断增加的文本流，通过更少的存储消耗来实现更快的文本流抽样和存储，在大大降低抽样文本流规模的情况下，能够以全局视角获得整个文本流中最有价值的那部分信息。本发明从文本压缩的压缩率、运行时间方面，对现有的文本抽样技术进行了有效的改进，在关键字查询、文本聚类、主题演化分析、信息提取等方面有着广泛的应用前景。

Description

一种基于压缩感知理论的文本数据流抽样方法

技术领域

本发明属于互联网大数据文本检索领域，涉及一种文本压缩和抽样技术，具体涉及一种基于压缩感知理论的大规模文本数据流抽样方法。

背景技术

随着社交媒体的发展，越来越多的人喜欢分享最新的新闻热点问题或对产品进行评论。这些诸如Twitter、Facebook、Blogger和亚马逊等社交媒体或者电商网站的用户产生的内容(UGC)形成了大规模的文本数据流。例如，超过80％的新浪微博用户参与2014巴西世界杯的话题讨论、超过76％的用户在他们观看比赛直播时发布微博。截至2011年1月，在YouTube上搜索奥巴马就职典礼就有超过30000个视频。2010年在YouTube上U2演唱会的直播在Twitter上产生了超过130000的帖子。UGC能够以数据流的形式被连续收集，并且在各个领域也有广泛的应用，如科学研究、系统管理、客户调查、舆情分析等等。这些应用通常可以抽象成各类以文本为核心的信息挖掘任务，例如不断面向Twitter文本流，可以挖掘高质量的文本集或重要频繁模式，以及检测大规模数据流出现的新文档或新主题。

然而，使用UGC文本流做挖掘任务存在两个重要的挑战：1)如何管理和储存大量动态文本流，使之更有效的计算？2)在以文本为中心的挖掘任务中，例如主题探测或用户兴趣分析，是否需要使用的所有文本流？也就是说，是否所有的文本流在挖掘任务同等重要？

事实上，在信息检索或新主题探测等以文本为中心的挖掘任务中，一方面，对于一个给定的计算量，减少其所需的机器或者磁盘数量可以节省计算资源消耗的成本。此外，减少数据规模能够让更多的数据存储在内存中，从而提高计算效率；另一方面，UGC文本通常与各种现实世界的事件相关，对于特定分析目标，这些UGC文本中的一些可能包含有趣和有用的信息，而另一些则价值很小。根据研究，近36％的tweets值得一读，其余tweets的可读性一般甚至较差。也就是说，不同文本的内容质量有很大的不同，因此，从大规模文本流中识别出高质量的文本流，对于提高以文本为核心的挖掘任务的准确性和效率至关重要。此外，从时序分析来看，历史数据通常比新到达的数据价值小。因此，根据文本内容的质量和新鲜度对文本加以区分至关重要，一般将内容质量高和新鲜度高的文本称为有价值的文本。

社交媒体和电子商务的普及使得在线用户原创内容文本UGC，如微博、博客和产品评论等，持续和快速地增长。这些大规模文本具有海量、暂时有序、快速变化和潜在无限的特点。如何使用更少的内存消耗、更快的计算时间，来处理不断增加的文本流，是互联网大数据文本检索领域的迫切需要解决的问题。

发明内容

为了解决上述的技术问题，本发明面向互联网海量的、不断增加的文本流，提出了一种基于压缩感知理论的文本数据流抽样方法，通过更少的存储消耗来实现更快的文本流抽样和存储，在大大降低抽样文本流规模的情况下，确保能够以全局视角获得整个文本流中最有价值的那部分信息。

本发明所采用的技术方案是：一种基于压缩感知理论的文本数据流抽样方法，其特征在于，包括以下步骤：

步骤1：将文本数据流分割成固定大小的文本片段并通过向量空间模型表示成矩阵；

步骤2：使用压缩感知理论对文本数据流进行空间降维抽样；

步骤3：计算降维后每个文本的信息熵；

步骤4：基于文本的信息熵通过对数倾斜时间(LTT)模型压缩存储抽样文本。

作为优选，步骤1中所述的固定大小的文本片段由TF或TF-IDF模型表示成矩阵其中P表示固定大小文本片段中文本的数量，n为向量空间的维数，L是当前文本数据流片段的数量。

作为优选，步骤2的具体实现过程是，对于给定的文本片段使用高斯随机矩阵作为测量矩阵Ф，使用压缩理论中的公式对X_l进行投影得到测量值实现空间降维，其中m≤n，计算如公式1所示：

Y_l＝ΦX_l(公式1)。

作为优选，步骤3的具体实现过程是，对于降维后每个文本，第l个文本片段中的第i个文本的内容质量由信息熵E(i,l)来衡量，其计算如公式2所示：

E(i,l)＝-Σp(t_j,l)logp(t_j,l)(公式2)；

其中p(t_j,l)是第i个文本中第j项在第l个片段中出现的频率，t_j,l∈Y_i ⁱ。

作为优选，步骤4的具体实现包括以下子步骤：

步骤4.1：首先，设LTT模型中的每个单元空间为2*P，对于目前第q个单元，检查是否还有空间可以分配给新到达的抽样文本片段；如果存在空闲空间P+1～2*P，则将已存放在目前第q个单元中1～P位置的文本片段移至P+1～2*P；否则，分配一个容量为2*P的新单元作为存储最近到达的文本片段的单元；

步骤4.2：其次，为空出第一个单元的1～P的位置给新到达的文本片段，则需要通过舍弃在第w(1≤w≤q-1)个单元中的文本片段Y_w1和Y_w2中信息熵最低的文本，然后将Y_w1和Y_w2进行合并并移入第(w+1)单元的1～P的位置；

步骤4.3：最后，将新到达的文本片放在第一个单元的1～P的位置；

步骤4.4：将上述步骤4.1至步骤4.3三个步骤一直循环执行，直到不再有新的文本到达，最终得到抽样文本。

本发明只需抽样、处理和存储海量文本流中的一小部分文本，即可保证它们代表整个文本流中最有价值的那部分数据，这些文本体现了全局信息。本发明从文本压缩的压缩率、运行时间两个方面，对现有的文本抽样技术进行了有效的改进，在关键字查询、文本聚类、主题演化分析、信息提取等方面有着广泛的应用前景。具体包括以下优点：

(1)文本压缩率降低。通过实验分析，本发明相较于原有算法，文本压缩率比原有算法低，最多可低6.2％。

(2)文本压缩算法的运行时间降低。通过实验分析，本发明相较于原有算法，运行时间比原有算法低，最多可低32.46。

(2)稳定性强。通过实验分析，本发明相较于原有算法，压缩率和运行时间受数据规模和类型的影响较小，计算性能的稳定性更强。

附图说明

图1：是本发明实施例的模型示意图。

图2：是本发明实施例的文本流抽样LLT模型示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

现有的许多文本压缩方法致力于用更少的内存消耗来存储文本数据流，而现有的许多文本抽样算法着重于从大规模文本数据流中抽样出最有价值的文本。文本压缩技术种类繁多、应用广泛、技术不断发展。按照编码的失真程度，文本压缩可以分为无损压缩和有损压缩。无损压缩主要用于处理flair文本文件，有损压缩主要用于处理图像和视频压缩等。文本抽样是最通用有效的近似技术，在保证一定精确度的前提下，抽样算法显著减小了待处理的文本集的规模，使得众多数据挖掘任务得以在大数据集或者数据流数据上实现。

本发明主要涉及的技术领域包括文本压缩和文本抽样。

1、文本压缩；

一种文本压缩方案是无损压缩，保存编码字典以实现压缩和解压缩。例如，字符串“abaaabaabcbcbc”可以压缩为(2：‘0’，3：‘1’)，其中编码字典是(“0”:‘abaa’；“1”：‘bc’)。在压缩的过程中，原始文本的字符串通过编码字典压缩成编码；在解压时，文本通过该字典恢复为字符串。这种压缩思想已被开发成各种类型的算法，例如基于哈夫曼编码的算法、密集编码算法和LZ算法。这些流行的压缩算法已被完善成可直接用于压缩文本、图像和视频等的压缩软件，如WinRAR、gzip或者ARJ。当在传统数据集上测试这些软件时，如TREC-2和TREC-4，它们可以达到25％到35％的压缩率。但是与有损压缩相比，无损压缩算法压缩的文本不能被直接用于挖掘任务，在使用之前需要先解压。

另一种文本压缩的方案是有损压缩，通过保存序列模式来实现压缩。这种方案中，需要找到最可压缩的序列模式来替换文本项。这种方案的优点是不需要解压操作就可压缩文本字符串。例如覆盖数据库方法提出了使用矩形覆盖事务性的数据库，RPMine方法试图使用模式聚类，然后通过聚类中心来覆盖剩下的模式，Krimp算法通过挖掘表编码来替换数据库的项从而实现数据库的压缩。尽管这些有损压缩算法与无损压缩算法相比只能够达到大概50％到60％的压缩率，但其压缩的文本可以直接被用于挖掘任务而不需要解压。

2、文本抽样；

文本流抽样的目的是从大规模文本流中选择一小部分有代表性的文本。一种简单而且常用的抽样方法是随机抽样。Twitter从它的tweet流中提供10％的随机抽样的收费推文，并且提供1％免费的随机抽样的推文。UGG文本包含了大量的低质量文本，如垃圾邮件和无意义的文本(如“哈哈哈”)，使得许多以文本为核心的挖掘任务需要预处理大量无意义的文本。

与随机抽样相比，一些研究者致力于从文本流中抽取更有价值的文本。SaptarshiGhosh等人提出了一种对tweet流的专家抽样，这种方法只收集话题专家的内容。Munmun DeChoudhury等人提出了一种收集达到所期望的多样性水平的文本抽样方法。

此外，还有一些研究者致力于使用社交媒体的非内容元素来识别高质量文本。Eugene Agichtein等人提出了一种贡献关系的全面的图论模型，并把它同内容和基于使用的特征相结合来发现网络社区QA网站的高质量文本。

本发明将文本压缩与抽样有价值文本相结合，着重于提出一种能够用更快的速度、使用更少的空间来存储更多有用的文本信息的抽样方法。抽样的结果既可进一步被无损压缩方法压缩，也可以直接用于文本度量挖掘任务，如关键字查询、文本聚类、主题演化分析、信息提取等。

请见图1和图2，本发明的技术方案为：1)将文本数据流分割成固定大小的文本片段并通过向量空间模型表示成矩阵；2)使用压缩感知理论对文本数据流进行空间降维抽样；3)计算降维后每个文本的信息熵；4)基于文本的信息熵通过对数倾斜时间(LTT)模型得到抽样文本。

认为文本数据流是一个随着时间不断增加的无限集合。然后将分割成固定大小的文本片段。每个文本片段被表示成去除了停用词的列表，而后由TF或TF-IDF模型表示成矩阵其中P表示固定大小文本片段中文本的数量，n为向量空间的维数，L是当前文本数据流片段的数量。

步骤2：使用压缩感知理论对文本数据流进行空间降维抽样；

对于给定的文本片段使用高斯随机矩阵作为测量矩阵Ф，使用压缩理论中的公式对X_l进行投影得到测量值实现空间降维，其中m≤n,计算如公式1所示：

Y_l＝ΦX_l(公式1)；

步骤3：计算降维后每个文本的信息熵；

对于降维后每个文本，第l个文本片段中的第i个文本的内容质量由信息熵E(i,l)来衡量，其计算如公式2所示：

E(i,l)＝-Σp(t_j,l)logp(t_j,l)(公式2)；

步骤4：基于文本的信息熵通过对数倾斜时间(LTT)模型得到抽样文本，其具体实现过程包括以下子步骤：

步骤4.1：首先，设LTT模型中的每个单元空间为2*P，对于目前第q个单元，检查是否还有空间可以分配给新到达的抽样文本片段。如果存在空闲空间P+1～2*P，则将已存放在目前第q个单元中1～P位置的文本片段移至P+1～2*P。否则，分配一个容量为2*P的新单元作为存储最近到达的文本片段的单元。

步骤4.2：其次，为了空出第一个单元的1～P的位置给新到达的文本片段，则需要通过舍弃在第w(1≤w≤q-1)个单元中的文本片段Y_w1和Y_w2中信息熵最低的文本，然后将Y_w1和Y_w2进行合并并移入第(w+1)单元的1～P的位置。

步骤4.3：最后，将新到达的片段放在第一个单元的1～P的位置。

步骤4.4：将以上三个步骤一直循环执行，直到不再有新的文本到达，最终得到抽样文本。

最后，将以上抽样文本流的结果应用于基于关键词的检索任务，返回前K个与关键词相关的文本，以验证方法的有效性，并对分析结果进行可视化。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于压缩感知理论的文本数据流抽样方法，其特征在于，包括以下步骤：

步骤2：使用压缩感知理论对文本数据流进行空间降维抽样；

步骤3：计算降维后每个文本的信息熵；

步骤4：基于文本的信息熵通过对数倾斜时间LTT模型压缩存储抽样文本。

2.根据权利要求1所述的基于压缩感知理论的文本数据流抽样方法，其特征在于：步骤1中所述的固定大小的文本片段由TF或TF-IDF模型表示成矩阵其中P表示固定大小文本片段中文本的数量，n为向量空间的维数，L是当前文本数据流片段的数量。

3.根据权利要求2所述的基于压缩感知理论的文本数据流抽样方法，其特征在于：步骤2的具体实现过程是，对于给定的文本片段使用高斯随机矩阵作为测量矩阵Ф，使用压缩理论中的公式对X_l进行投影得到测量值实现空间降维，其中m≤n，计算如公式1所示：

Y_l＝ΦX_l (公式1)。

4.根据权利要求3所述的基于压缩感知理论的文本数据流抽样方法，其特征在于：步骤3的具体实现过程是，对于降维后每个文本，第l个文本片段中的第i个文本的内容质量由信息熵E(i,l)来衡量，其计算如公式2所示：

E(i,l)＝-Σp(t_j,l)logp(t_j,l) (公式2)；

5.根据权利要求4所述的基于压缩感知理论的文本数据流抽样方法，其特征在于：步骤4的具体实现包括以下子步骤：