CN103116636A

CN103116636A - 基于特征空间分解的文本大数据主题挖掘方法和装置

Info

Publication number: CN103116636A
Application number: CN2013100495048A
Authority: CN
Inventors: 李文波; 孙乐
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2013-02-07
Filing date: 2013-02-07
Publication date: 2013-05-22
Anticipated expiration: 2033-02-07
Also published as: CN103116636B

Abstract

本发明涉及一种基于特征空间分解的文本大数据主题挖掘方法和装置。该方法主要包含两个关联的部分：一是基于主题特征的空间分解方法；二是基于多子空间的模型求解并行加速方法。空间分解方法的关键在于利用模型特征对数据样本和主题集合进行解耦合，从而同时实现对数据空间和主题空间的切分和消解，得到了多个相对于全模型空间更小的子模型空间，有效降低了求解算法的存储空间复杂度；同时可以利用子空间之间的相对独立性，将其映射到各种并行实体上，从而有效降低了求解算法的计算时间复杂度。本发明方法能够充分利用计算设备的并行处理能力，实现对大型主题建模空间、大规模数据集合的并行可扩展处理。

Description

基于特征空间分解的文本大数据主题挖掘方法和装置

技术领域

本发明属于计算机数据挖掘技术领域，具体涉及一种基于主题分析模型的对文本大数据进行主题挖掘的高效数据处理方法和装置，用于在互联网网页、大型数字图书馆文献等典型的大数据上高效地进行主题分析与挖掘。

背景技术

计算机数据挖掘技术主要是利用计算机从大量数据中挖掘人可理解的信息或知识并加以利用的智能信息处理过程。知识经济的兴起和互联网的蓬勃发展，产生了对计算机数据挖掘技术的迫切需求。知识的主要载体就是自然语言的文本，未经深度处理的文本仅仅是生的数据，必须经过语义化的分析才能使得计算机从中获取有用的知识。面向互联网、服务于知识经济的计算机数据挖掘技术关键是要实现文本生数据的主题语义表示。

概率主题模型从功能上提供了一种高层次文本表示和数据挖掘的理想手段，但是这类模型的经典求解算法在存储空间和计算时间方面存在严重的瓶颈：

1）模型存储空间：一般是一个“主题—特征”形式的矩阵，矩阵元素为特定主题的特定特征的强度，所以存储空间的大小需要|T|*|F|，其中|T|为文档集合（例如一定范围的所有网页）中蕴含的主题的数量，|F|为文档特征（例如用词和符号）的数量；

2）统计量存储空间：一般也是“主题—特征”形式的矩阵，矩阵元素为特定主题的特定特征的统计量取值，所需存储空间和模型存储空间成正比。

由于以上特点，概率主题模型这种分析技术就被限制在小规模特征集和小规模主题集上，难以在互联网网页信息、大型数字图书馆等典型的大数据上高效地进行主题分析。因此，非常有必要研究具有高可扩展性的大规模数据处理方法。

发明内容

本发明的目的在于克服现有技术中的问题，提出一种基于特征空间分解的文本大数据主题挖掘方法和装置，通过对主题分析模型的求解空间进行分解，设计高效的并行计算方法，充分利用高性能硬件设施的计算能力，最终提高该模型处理文本大数据的时间效率和空间效率。

为达到上述目的，本发明采用如下技术方案：

一种基于特征空间分解的文本大数据主题挖掘方法，其步骤包括：

1）将目标文本文档表示成特征向量的形式，形成可供进行主题分析的文档库；

2）将主题分析模型的空间从特征方面进行分解，形成若干子空间；

3）利用分解得到的子空间进行并行求解，包括：

a）将每个子空间相关的模型参数载入对应的并行执行体；

b）每个并行执行体从所述文档库中载入与自身包含的子模型相适应的数据子集；

c）每个并行执行体计算出相应的子统计量；

d）将所有并行执行体的子统计量聚合得到全局统计量，进而估计得到当前主题分析模型；

e）返回步骤a）进行迭代，直到主题分析模型收敛；

4）根据步骤3）所得的主题分析模型获得特征向量格式的目标文本文档的主题构成信息，实现文本数据的挖掘。

进一步地，所述并行执行体是具有并行执行能力的硬件或软件机构，典型的如：GPU的硬件线程、多核众核的核心机器上的线程；单机、集群中的进程；网格、云重的节点等实体。

进一步地，所述文本文档可以是网页（代表媒体传播）、电子化的文献（代表科学教育）、企业知识库中的电子文档（代表经济活动）等。

进一步地，所述特征向量为词向量（代表语言单元）、命名实体向量（人、机构、时空等）、字符串向量（数字、特定意义的符号串等）等。

一种采用上述方法的基于特征空间分解的文本大数据主题挖掘装置，其包括：

预处理单元，用于将目标文本文档表示成特征向量的形式，形成可供进行主题分析的文档库；

特征空间分解单元，用于将主题分析模型的空间从特征方面进行分解，形成若干子空间；

并行求解单元，包括若干并行执行体，用于利用分解得到的子空间进行并行求解；

主题分析单元，用于根据并行求解单元得到的主题分析模型，获得特征向量格式的目标文本文档的主题构成信息，实现文本数据的挖掘。

下面进一步说明本发明的原理。

本发明的主题分析模型的空间分解和并行加速方法，主要包含两个关联的部分：一是基于主题特征的空间分解方法；二是基于多子空间的模型求解并行加速方法。空间分解方法的关键在于利用模型特征对数据样本和主题集合进行解耦合，从而同时实现对数据空间和主题空间的切分和消解，得到了多个相对于全模型空间更小的子模型空间，有效降低了求解算法的存储空间复杂度；同时可以利用子空间之间的相对独立性，将其映射到各种并行实体上，从而有效降低了求解算法的计算时间复杂度。

一）空间分解的方法和原则

1.空间分解的方法

如图1所示：两对虚线箭头反映数据规模和主题规模的扩展往往不是独立出现的，二者相伴相生表现出显著的相互增强效应：数据规模的增加，其所讨论的主题也在相应增加；反之，如果应用需要进行更加细致的主题分析，自然就需要更大量的数据作为支撑。现有技术中的方法基本是集中在直接对数据集（即数据空间）进行分解上，其缺点是不能分解模型空间，求解遇到存储障碍；还可以考虑直接对主题集（即模型空间）分解，但主题数量限定了并行执行体的上限而且主题间发生的巨大通信量导致并行性能差。

所以关键是要对数据集和主题集的这种耦合关系进行解耦。解耦一个关系通常的做法就是在这种两个关联对象（比如数据集和主题集，分别记为D、T）之间再引入一个对象（记为m），从而隔断它们之间的直接关联。这种方法要求新生成的D-m和m-T相对于先前的D-T是更容易处理的关系，关联的中介m就是特征。

本发明采取的方法是对特征集进行分解：对模型的特征集V进行分解P_V={V₁,V₂,…,V_M}，满足约束V={V₁∪V₂∪…∪V_M}。进而，根据数据集D的数据同特征子集的匹配关系再形成对数据集的分解P_D={D₁,D₂,…,D_N…}，满足约束D={D₁∪D₂∪…∪D_N…}且对于i≠j（1≤i，j≤N），D_i∩D_j=Ф，即分解得到的数据子集之间没有重叠。这里要求每个数据子集D_i的特征集合都至少包含于某一个特征子集V_j中。这样，第一，每个执行体求解时所需的空间相对于总空间下降很多，破除了求解的空间制约；第二，执行体之间是并行的，可以实现总体计算性能的提高。

二）并行加速的方法

如图2所示：并行是提高算法求解效率的根本性手段，而关键是要挖掘算法中蕴藏的可并行性。本发明提出的求解方法就是面向并行的，具有高效并行性。

1．可并行的关键步骤

1）子模型载入：将（每个）子空间相关的模型参数载入对应的并行执行体；

2）数据子集载入：（每个）并行执行体载入与自身包含的子模型相适应的数据子集；

3）数据子集处理：（每个）并行执行体计算出相应的子统计量；

2．并行执行体的实现

本发明中的并行执行体是抽象层面的术语，在具体实现中可以映射为任何具有并行执行能力的硬件或软件机构，典型的如：GPU的硬件线程、多核众核的核心机器上的线程；单机、集群中的进程；网格、云重的节点等实体。

与现有技术相比，本发明的数据挖掘方法和装置能够充分利用计算设备的并行处理能力，包括单机上的多内核并行架构和多机上的机群大规模并行能力，进而实现对大规模文本集合的高速处理，最终提高该模型处理数据的时间效率和空间效率。

附图说明

图1为本发明的主题分析模型的空间分解（并行加速的基础）示意图；

图2为本发明的主题分析模型的并行加速处理过程示意图。

具体实施方式

本实施例的文本数据挖掘方法，其步骤包括：

1.输入准备：

0）获得一个原始的文本文档（如网页）资料库；

1）将每篇文本文档表示成特征向量（通常是词向量）的形式，形成可供进行主题分析的文档库；

2.模型求解：

0）空间分解：将主题分析模型的空间从特征方面进行分解，从而形成若干子空间；

1）循环（直至收敛），进行并行求解，

1-1）将（每个）子空间相关的模型参数P_i载入对应的并行执行体；

1-2）（每个）并行执行体载入与自身包含的子模型相适应的数据子集D_i；

1-3）（每个）并行执行体计算出相应的子统计量S_i；

1-4）结果汇总：将所有并行执行体的子统计量聚合得到全局统计量S，进而估计得到当前的主题分析模型；

1-5）迭代：返回1-1）步，直到主题分析模型收敛（可以采用本领域公知的方法判定是否收敛，比如采用迭代次数控制或似然度阈值来判定。）。

3.模型使用：

将第2步所得的主题分析模型用于某目标文本文档（特征向量格式），可以获得该文档的主题构成信息，从而就可以知道目标文档论及那些主题的内容，这为分类、聚类和检索、过滤等任务提供了有力的支持。

下面通过基于科技文献的研究主题分析实例对本发明做进一步说明。

科技创新是推动社会发展的重要力量之一，科研活动会产生大量的科技文献，包括论文、专利、著作、技术报告等具体形式。为了提高科技文献的利用效率，各种科技文献都已经实现了电子化，以电子文档的形式被存储、访问和使用。科研过程中至关重要的是了解相关工作的研究主题、研究热点及其发展的趋势，这需要对大量文献进行分析和综合。一种基本的方法是分析给定的整个文献集，将每篇文献讨论的主题都抽取出来，进而形成整个文献集的主题集，然后统计各个主题上文献的数量并以此对主题排序，就可以得到研究热点了。

由于科技文献规模庞大、增加迅速，所以单靠人力完成研究主题的挖掘十分困难，必须借助于适当的自动文本挖掘技术。本发明可以用于这一任务，特别是其并行处理方法更是针对和适用于科技文献这种典型的文本大数据。具体来说，步骤如下：

1.输入准备：

0）获得一个原始的科技文献库（例如2012年全国计算机科学领域学术期刊的论文电子版）；

1）将每篇科技文献表示成词特征向量的形式，形成可供进行主题分析的文档库D；

2.模型求解：

0）空间分解：将初始主题模型的空间从特征方面进行分解，从而形成若干子空间；

1）循环（直至收敛），进行并行求解，

1-1）将（每个）子空间相关的模型参数P_i载入对应的计算进程；

此处P_i是一个矩阵，每行对应子特征空间中的一个词汇特征，每列对应主题集合中的一个主题，所以该矩阵的r行c列的一个元素P_i（r,c）表示词汇r阐述主题c的能力。

1-2）（每个）计算进程载入与自身包含的子模型相适应的子文档库D_i；

此处D_i是一个稀疏矩阵（即矩阵的元素大多数为0），每行对应一篇文档，每列对应子特征空间中的一个词汇特征，该矩阵的r行c列的一个元素D_i（r,c）表示文档r中词汇c出现的次数。

1-3）（每个）计算进程计算出相应的子统计量S_i；

此处S_i是一个矩阵，每行对应子特征空间中的一个词汇特征，每列对应主题集合中的一个主题，该矩阵的r行c列的一个元素S_i（r,c）表示子文档集D_i中所有文档用词汇r阐述主题c的次数的总和。

1-4）结果汇总：将所有子统计量聚合得到全局统计量S，进而估计得到当前的主题分析模型；

此处S是一个矩阵，该矩阵是是所有S_i的联合，即S=[S₁ ^T,S₂ ^T,…,S_n ^T]^T，（T表示矩阵转置）。该矩阵的r行c列的一个元素S（r,c）表示文档库D中所有文档用词汇r阐述主题c的次数的总和。

1-5）迭代：返回1-1）步，直到达到固定迭代次数使得主题分析模型收敛。

3.模型使用：

将第2步所得的主题分析模型用于单篇文献，可以获得该文档由哪几个主题构成，如此处理整个文献库后，可以统计每个主题关联的文献数，依据这个数值可以得到一个主题的热度。这样就可以实现在给定文献库上挖掘研究主题或研究热点的目标。

上述实施例仅是为了说明本发明的原理，而非用于限制本发明的范围。本领域的技术人员可在不违背本发明的技术原理及精神下，对实施例作修改与变化。本发明的保护范围应如权利要求所述。

Claims

1.一种基于特征空间分解的文本大数据主题挖掘方法，其步骤包括：

3）利用分解得到的子空间进行并行求解，包括：

a)将每个子空间相关的模型参数载入对应的并行执行体；

b)每个并行执行体从所述文档库中载入与自身包含的子模型相适应的数据子集；

c)每个并行执行体计算出相应的子统计量；

d)将所有并行执行体的子统计量聚合得到全局统计量，进而估计得到当前主题分析模型；

e)返回步骤a）进行迭代，直到主题分析模型收敛；

2.如权利要求1所述的方法，其特征在于：步骤2）所述从特征方面进行分解的方法是：

对模型的特征集V进行分解P_V={V₁,V₂,…,V_M}，满足约束V={V₁∪V₂∪…∪V_M}；进而，根据数据集D的数据同特征子集的匹配关系形成对数据集的分解P_D={D₁,D₂,…,D_N…}，满足约束D={D₁∪D₂∪…∪D_N…}，且对于i≠j，1≤i，j≤N，满足D_i∩D_j＝Ф，即分解得到的数据子集之间没有重叠，并且每个数据子集D_i的特征集合都至少包含于某一个特征子集V_j中。

3.如权利要求1或2所述的方法，其特征在于：所述并行执行体是具有并行执行能力的硬件或软件机构。

4.如权利要求3所述的方法，其特征在于，所述并行执行体是下列中的一种：GPU的硬件线程；多核众核的核心机器上的线程；单机、集群中的进程；网格、云重的节点。

5.如权利要求1所述的方法，其特征在于，所述文本文档是下列中的一种：网页、电子化的文献、企业知识库中的电子文档。

6.如权利要求1所述的方法，其特征在于，所述特征向量是下列中的一种或多种：词向量、命名实体向量、字符串向量。

7.如权利要求1所述的方法，其特征在于，步骤3）采用迭代次数控制和似然度阈值判定主题分析模型是否收敛。

8.一种采用权利要求1所述方法的基于特征空间分解的文本大数据主题挖掘装置，其特征在于，包括：

9.如权利要求8所述的装置，其特征在于：所述并行执行体是具有并行执行能力的硬件或软件机构。

10.如权利要求9所述的装置，其特征在于，所述并行执行体是下列中的一种：GPU的硬件线程；多核众核的核心机器上的线程；单机、集群中的进程；网格、云重的节点。