CN101226557A

CN101226557A - 一种高效的关联主题模型数据处理方法及其系统

Info

Publication number: CN101226557A
Application number: CN 200810057989
Authority: CN
Inventors: 李文波; 孙乐
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2008-02-22
Filing date: 2008-02-22
Publication date: 2008-07-23
Anticipated expiration: 2028-02-22
Also published as: CN101226557B; WO2009103221A1

Abstract

本发明公开了一种高效的关联主题模型数据处理方法及其系统，其方法为在任务初始化阶段，首先通过主控节点给出初始模型M₀并将其同步到所有的计算节点上，然后划分任务集并将其分布到多个计算节点上进行计算；在任务执行阶段，需要进行若干数据处理，每一轮中首先是每个计算节点的工作线程进行局部并行计算获得关于该节点文档子集的主题分布和模型统计量，并传送到主控节点进行汇总并判断数据处理结果是否收敛。本发明的系统包括一个主控节点和多个计算节点，构成一个集群计算机系统进行并行计算。本发明可以显著提高计算速度和扩大计算目标。

Description

一种高效的关联主题模型数据处理方法及其系统

技术领域

本发明涉及一种文本表示方法及其系统，尤其涉及一种基于隐含主题文本表示的高效数据处理方法及其系统，属于计算机信息检索领域。

背景技术

计算机信息检索是信息社会的重要基础设施之一，所提供的服务贯穿了从基本的网络信息搜索到信息的过滤、分类以致各种高级的数据挖掘。在计算机信息检索中，文本的表示方法是一个具有根本重要性的问题：首先，计算机信息检索的处理对象主要是文本信息，其他类型的信息一般也必须依赖于文本信息或附加文本信息而存在；再者，文本表示方法是计算机信息检索服务的先决条件，因为计算机信息检索的基本手段是利用自然语言文本向搜索引擎进行提问和应答，必须首先要将文本从无结构的原始形式转化为计算机能够理解的结构化形式，然后才能进行分析与处理；还有，文本表示方法是和计算机信息检索中的处理算法紧密关联在一起的，所以文本表示方法很大程度上决定了处理算法的设计。

常见的文本表示方法主要分为向量空间方法(Vector Space Model)(参考：Salton，G.The SMART Retrieval System.Englewood Cliffs，Prentice-Hall，1971.)、概率方法(ProbabilityModel)(参考：Van Rijsbergen，C.J.A new theoretical framework for information retrieval.Inproceedings of SIGIR’86，pp.194-200，1986.)和语言模型方法(Language Model)(参考：J.Ponte，Crpft，W.B.A Language Modeling Approach to Informational.In proceedings ofSIGIR’98，pp.257-281，1998.)三类。关联主题模型(Correlated Topic Model)是一种基于隐含主题的概率文本表示方法(参考：Blei，D.Lafferty，J.Correlated Topic Models[J].Advances in neural information processing systems，2006，18：147-154.)，另外由于其输出可以方便地嵌入到向量空间和语言模型中，因而对于计算机信息检索中的分析、处理算法具有广泛的适应性。该方法的主要功能是通过对一定数量的文本利用统计手段进行分析后，不但能挖掘出该文本集合论述的若干主题以及各个主题在每篇文本中的分布，而且非常重要的是该方法还可以度量这些主题之间的关联程度。这样，就使文本信息处理摆脱了以往完全依赖于词汇的低级处理方式，可以在主题这个更高的层次上进行。

虽然关联主题模型从功能上提供了一种高层次文本表示的理想手段，但是目前还主要限于小量数据上，难以在现实环境下的大规模数据上使用，根本原因在于其求解方法存在严重的瓶颈：首先，其经典的实现是基于常规的串行计算方法，也就是计算任务的每一步必须前后相继地顺序地进行，前一步处理的结果是后一步处理的开始。这样在任一时间点上，全部的计算任务只能在一个硬件计算单元上执行，所以即便是将其放到具有多个硬件计算单元(如多核、多处理器)的高性能计算机上，也不能加快任务求解的速度。再者，由于串行方式下计算过程自身不可拆分，所以被处理的数据也就必须集中在一起供给计算过程随时访问，这样就加大了系统的存储负荷，如硬盘、内存，特别是内存方面的影响非常明显，过大的内存占用会导致计算速度急剧下降甚至导致系统拒绝计算任务的执行。

发明内容

本发明的目的在于提供一种高效的关联主题模型数据处理方法及其系统，该方法能够充分利用单机上的多处理器-多核并行架构和计算机集群的大规模并行能力，进而实现对太规模文档集合的高速处理，也即达到将关联主题模型文本表示方法推向实用化的目的。

本发明的技术方案如下：

1.任务初始化

1.1.在每个节点计算机上(包括主控节点和计算节点)，根据该节点的硬件并发能力自动生成具有相应数量工作线程的计算服务；

1.2.在主控节点上，利用随机过程给出初始模型M₀，并将M₀复制到所有的计算节点上；

1.3.在主控节点上，将任务文档全集等量划分成若干计算节点文档子集，并逐一分配到相应的计算节点上；

2.任务的执行(记本轮迭代次数为第i次迭代，再用k表示计算节点的编号)

2.1.在每个计算节点上，将该节点文档子集划分成若干工作块，各工作线程进行局部并行计算首先获得在本次迭代过程上该节点文档子集的处理结果D(k，i)，即该节点文档子集中每篇文档的主题分布，进而利用这部分文档的主题分布求得关于该节点文档子集的模型统计量；

2.2.在每个计算节点上，将其节点文档子集的处理结果D(k，i)、模型统计量和文档计算时间传送到主控节点；

2.3.在主控节点上，用文档计算时间判断计算节点文档子集的划分的均衡性。如有必要则重新调整计算节点文档子集的划分并分配到相应的计算节点上；

2.4.在主控节点上，先汇总所有计算节点文档子集的模型统计量，然后估计本次迭代的模型M_i(即进行模型参数估计，求解出关联主题模型)。如果模型没有收敛则将M_i复制到所有的计算节点上进行下一轮计算和模型迭代；否则终止数据处理过程，此时在每个计算节点上即可得到其最终的数据处理结果D_(k，last)，将之汇总既得文档全集最终的数据处理结果D_last，即文档全集中每篇文档的主题分布；同时也得到了最终的收敛模型M_last。

本发明涉及以下所述的关键要素：

一)本发明采用分级的高性能求解体系结构：集群分布式计算、机内并行计算。集群级别由2个基本的组成部分构成的，分别是：一个主控节点和若干个计算节点。主控节点只有一个，该节点可以使用普通的PC机，主要负责界面交互、数据分发、结果汇总，模型参数估计等功能。计算节点有多个(原则上没有数量限制)而且可以选用不同类型的计算机，计算节点承担求解任务的主要计算工作负荷。主控节点和计算节点通过网络连接起来，数据仅需要在主控节点和计算节点直接传输，计算节点之间没有通信。节点级别采用机内并行计算：即跨线程的计算，不同的计算节点具有不同的并行度，如具有多处理器的高性能服务器可以有效支持和处理器数量成正比的并行线程，双核工作站可以有效支持双线程并行计算，而单核的PC机一般只支持单线程计算。

二)节点并发线程数量的自主确定：在每个节点上(包括主控节点和计算节点)，都通过获得这个节点计算机的处理器的数量和每个处理器所含的内核数量或支持的超线程数量来自动确定有效线程的数量：在windows平台上利用汇编指令直接获得硬件系统的处理器信息，在linux平台上通过对硬件抽象层HAL的功能调用获得硬件系统的处理器信息。这样在采用集群分布式计算的环境下避免了手工配置每个节点的工作线程数量的繁琐。

三)本发明采用分级的负载均衡技术：集群级别上工作集的自适应分配，计算节点级别上工作集的自动分配。这不同于一般的高性能计算任务所采用的单一负载均衡模式。集群级别上工作集的自适应分配方法是：由于每个计算节点的计算能力不一致，我们在主控节点上对各个计算节点本次迭代进行评估并及时调整的策略，让工作集按照计算节点的计算能力合理分布以使得各计算节点在近似接近的时间内完成以避免部分节点空闲等待，从而实现最大化利用整个集群的计算效能。

评估和调整计算节点工作集的具体方法：

评估方法：

第一，将所有计算节点的计算时间组成一个列表Time

第二，找出最长的计算时间Max(Time)和最短的计算时间Min(Time)，并计算时间

差TimeSpan＝Max(Time)-Min(Time)。

第三，将TimeSpan和预定的阈值Threshold(默认是5秒)进行比较，如果

TimeSpan＞Threshold，则需要调整工作集的划分，否则保留先前的划分。调整方法：

令Time(i)表示第i个计算节点所用的计算时间，令Size表示工作集全集的大小而相应的Size(i)表示第i个计算节点所处理的节点工作集的大小(即所处理的文档数量)，则有：

第一，计算各个节点的文档处理速度，Speed(i)＝Size(i)/Time(i)

第二,计算各个节点的文档分配比例,

proportion (i) = \frac{Speed (i)}{\underset{i}{Σ} Speed (i)}

第三，计算各个节点的文档分配份额，quotient(i)＝proportion(i)*Size

第四，依据各个节点的文档分配份额从全集中依次取出相应数量的文档进行分配。

计算节点级别上工作集的自动分配方法是：由于一个节点上的工作线程计算能力是一致的，所以采用每个线程自动申请近似等量的工作块，使得各线程在近似接近的时间内完成以避免部分线程空闲，从而实现最大化利用整个计算节点的计算效能。

四)计算节点级别上工作集的高并发访问方法：当计算节点的工作集(即接收到的文档子集)载入内存后，各并发线程是利用索引结构来划分各自处理的文本对象的，划分之后进行计算时所有的线程同时访问工作集而不用将该工作集锁定，这样使得多条工作线程在执行计算任务时获得了完全的并行，这种索引方法的详细说明如下：

在内存中文档是分散存储的，通过一个连续的索引数组将文档的地址集中起来存放。利用索引方法方法提高并发访问的关键是：

第一，设置工作块的尺寸(默认为100个文档)

第二，设置一个索引数组的顶端指针，并为之设置一个锁(临界区互斥量)，该指针初始位置在数组首元素；

第三，所有线程在锁的保护下互斥访问索引数组的顶端指针而获得本线程所处理的文档的地址(即在索引数组中一段连续的元素)

第四，线程通过工作块的地址来访问相应的文档并进行处理，此时所有线程是完全并行的。

所以，该方法仅要求线程在一个整数(索引数组的顶端指针)上进行锁定的互斥访问，而无须对索引本身进行锁定的互斥扫描，更无须对文档集本身进行锁定的互斥扫描，从而获得了最大的并发效率，避免了由于在大数据结构上扫描时使用锁成本而导致的开销。

五)本发明采用分级的工作集传递模式：集群工作集的“推”式传递模式、节点并发线程工作集的“拉”式传递模式。工作集全集要进行分级划分，首先在集群级别要将工作集分成计算节点文档子集，这个任务由主控节点完成，主控节点按照各个计算节点的计算能力将工作集全集划分并对应复制给相应计算节点，这是“推”式传递模式；在计算节点上，各个工作线程主动申请从节点工作子集中获得工作块来进行计算，这是“拉”式传递模式。

六)主控节点和计算节点同步方式：计算和传输分离，计算任务不考虑数据的远程访问而是采用本地读写的模式，传输任务由基于进程外文件传输服务(FTP)或网络文件系统服务(NFS)承担。这样提高系统的可伸缩性、可维护性。同时，数据传输的数值格式采用文本表示格式，这样避免了不同硬件平台、操作系统平台和开发工具平台导致的二进制表示格式的差异，使得系统可以在混合平台环境下开发和运行

七)关联主题模型估计中采用模型统计量汇总技术：

关联主题模型主要由3个参数矩阵来定义，分别是主题均值参数矩阵A_p，主题方差参数矩阵C_p，主题的用词分布(特征分布)参数矩阵W_p；模型估计关键步骤是通过文档计算出模型统计量(对应有3个统计量矩阵：主题均值统计量矩阵A_s，主题方差统计量矩阵C_s，主题的用词分布(特征分布)统计量矩阵W_s)，通过模型统计量计算出模型参数，这个过程是迭代收敛的。

在串行和并行模式该过程的差异在于：串行数据处理方法下，由于所有数据均在一台计算机上，所以模型统计量是被集中存放的，但是分布式数据处理时，每台计算机上单独计算自己那部分模型统计量，所以必须要汇总在一起，具体地讲：

A_{s} = \underset{i}{Σ} sub A_{s} (i)

C_{s} = \underset{i}{Σ} sub C_{s} (i),

其中subX(i)表示一个计算节点的模型统计量

W_{s} = \underset{i}{Σ} sub W_{s} (i)

本发明的积极效果：

与现有技术相比，本发明通过挖掘关联主题模型求解方法的内在结构，采用分而治之的策略，将整个计算任务分割成不同尺度的子任务，每个子任务独立执行的并且是仅需处理自身相关的数据，所以从整体上看，计算任务的存储压力被消解和单一计算单元的限制被突破；该方法在实施时，通过利用多处理器、多核单计算机高性能硬件提供的计算能力，以及利用集群大规模并行等先进体系结构来实现求解，从而实现提高计算速度和扩大计算规模的目标。

附图说明

图1.本发明的网络结构示意图；

图2.本发明的方法流程示意图；

图3.本发明的动态执行结构示意图。

具体实施方式

下面结合附图具体说描述本发明方法的实施方式：

本发明的网络拓扑结构是一个计算机集群，如图1所示，它由2个基本的组成部分构成的，分别是：一个主控节点和若干个计算节点。主控节点只有一个，该节点可以使用普通的PC机，主要负责界面交互、数据分发、结果汇总等功能。计算节点有多个(原则上没有数量限制)而且可以选用不同类型的计算机，计算节点承担求解任务的主要计算工作负荷。主控节点和计算节点通过网络连接起来，数据仅需要在主控节点和计算节点直接传输，计算节点之间没有通信。

本发明的方法流程如图2所示：纵向表示的是顺序的步骤，而横向表示的是每一个步骤中可以并行的成分。顺序的步骤主要分为初始化和迭代执行两大步骤，进而迭代执行又可以分为计算节点的执行步骤(包含计算和传送两个子步骤)和主控节点的执行步骤(包含计算和传送两个子步骤)。图中显式表示的并行成分主要有：(1)初始化中的模型初始化、文档集合划分2个并行成分；(2)多个计算节点独立计算的并行成分；(3)主控节点上估计模型和调整工作集划分独立执行的并行成分。另外，除了图中显式表示的并行成分外，实际上还有很重要的一种并行成分，即单个计算节点上的多条执行线程的并行成分，这将在下面高性能求解方法的动态执行结构示意图中展示，如图3所示。

本发明的动态执行结构如图3所示：是一种双层体系结构，宏观分布式计算和微观并行计算。宏观分布式计算是跨计算机的，在主控节点的协调下，计算任务被分配到不同的计算节点上，由于不同计算节点的计算能力不一样，所以主控节点需要管理计算节点之间的负载均衡，本发明通过设计自适应方法来自动调整各节点工作集的大小，无须人工干预。微观并行计算是跨线程的，不同的计算节点具有不同的并行度，如具有多处理器的高性能服务器可以有效支持和处理器等数量的并行线程，双核工作站可以有效支持双线程并行计算，而单核的PC机一般只支持单线程计算。所以，针对不同并行度的计算节点要运行不同数量的线程，过多或过少都不利于发挥该节点的最大计算能力，本发明通过自动检测系统硬件来计算可支持线程数量，无须手工指定。

下面结合具体的应用领域描述本发明的应用：

1.文档聚类

文档聚类是指将文档集合中的文档进行分组，使得在同一个组中的文档内容具有较高的相似度，而不同组中的文档内容差别较大。经过这样的处理后，由于文档集合具有合理分组的结构，使得文档集合更便于管理；更重要的是通过将大的文档集合细分可以极大地减轻用户查找特定文档的工作量，提高了文档使用效率。在信息检索中文档聚类技术具有重要用途，最典型的就是对检索结果依据主题进行分组，这样用户就可以集中在自己关心的主题方面的网页，也就是自动过滤掉了大量无关的查询结果，所以文档聚类可以进一步提高通用搜索引擎的可用性。

关联主题模型可以用来做文本聚类从而实现搜索引擎的检索结果依据主题分组的功能。其具体的实施方式是：

一)将搜索引擎的检索结果组织成文档全集，其中每个文档就对应一条搜索结果的标题和摘要的内容。

二)用本发明的高效的关联主题模型数据处理方法及其系统对该文档全集进行处理，以获得到每个文本所属的主题，具体过程如下：

1.任务初始化

2.1.在每个计算节点上，将该节点文档子集划分成若干工作块，各工作线程进行局部并行计算首先获得在本次迭代过程上该节点文档子集的处理结果D_(k，i)，即该节点文档子集中每篇文档的主题分布，进而利用这部分文档的主题分布求得关于该节点文档子集的模型统计量；同时记录每个节点计算本节点文档子集时所用的文档计算时间。

2.2.在每个计算节点上，将其节点文档子集的处理结果D_(k，i)、模型统计量和文档计算时间传送到主控节点；

2.3.在主控节点上，用文档计算时间评估计算节点文档子集的划分的均衡性。如有必要则重新调整计算节点文档子集的划分并分配到相应的计算节点上；

2.4.在主控节点上，先汇总所有计算节点的模型统计量，然后估计本次迭代的模型M_i(即进行模型参数估计，求解出关联主题模型)。如果模型没有收敛则将M_i复制到所有的计算节点上进行下一轮计算和模型迭代；否则终止数据处理过程，此时即可得到最终的数据处理结果，此时在每个计算节点上即可得到其最终的数据处理结果D_(k，last)，将之汇总既得文档全集最终的数据处理结果D_last，即文档全集中每篇文档的主题分布；同时也得到了最终的收敛模型M_last。

三)从每篇文档的主题分布中可以得到该文档包含的最大主题(也即该文档最集中论述的主题)，进而就将该篇文档分配到相应主题的那个组去，这样就得到了搜索引擎的检索结果的依据主题的分组。

2.邮件过滤

电子邮件是最基本的网络服务之一，它是人们工作、生活中必不可少的工具。在充分享受电子邮件带来的便捷、实时和廉价的同时，网络时代的人们也饱尝垃圾邮件带来的烦恼。几乎每个人的信箱都充斥着大量来历不明的垃圾邮件，据统计95％的邮件是垃圾邮件，这严重污染网络环境，影响网络的正常通信。所以垃圾邮件过滤是电子邮件系统的必备功能，除了传统的基于身份认证和敏感词过滤的技术外，各种对邮件内容进行智能分析的过滤技术也逐渐发展起来，成为对付精细伪装的垃圾邮件的主要手段。

关联主题模型可以用来对电子邮件的内容做主题分析从而实现依据邮件主题进行过滤的功能。其具体的实施方式是：

一)将已有的全部电子邮件分成两个对立的集合：正常邮件集合与垃圾邮件集合。

二)用本发明的关联主题模型对正常邮件集合与垃圾邮件集合分别进行计算，得到两个关联主题模型。

三)对于新收到的一封电子邮件计算它与两个关联主题模型的相似度，即可作出该邮件是否是垃圾邮件的判定。

3.商品推荐

商品推荐功能在电子商务中非常重要，它可以帮助顾客发现真正感兴趣的商品，从而既提升客户的购物体验又提升了经销商的利润。所以几乎所有大型的电子商务系统，都不同程度地使用了各种形式的推荐系统(软件所内刊)。商品推荐的基本原理是：根据大量的购买记录数据，分析客户的购买行为，总结客户群体的购买模式，当新的客户购提交商品购买信息后，通过将该信息与以往的购买模式进行匹配从而预测该用户还可能需要的商品，进而推荐给客户。

关联主题模型可以用来从历史购买记录中对客户的购买模式进行分析，从而支持为新客户提供商品推荐的功能。其具体的实施方式是：

一)将全部历史购买记录组织成文本集合，将每条购买记录看作一个“文本”，而购买的商品看作文本中的“词”。

二)用本发明的关联主题模型对该文本集合进行计算，可以发现具有不同购买模式的客户群体。

三)对于一个新的购买信息，利用本发明的关联主题模型计算它所属的客户群体，最后即可根据该客户群体的购买模式提出商品推荐。

Claims

1.一种高效的关联主题模型数据处理方法，其步骤为：

初始化阶段：

1)在每个节点计算机上根据该节点的硬件并发能力自动生成具有相应数量工作线程的计算服务；

2)主控节点给出初始模型并将其复制到所有的计算节点上；

3)主控节点将任务文档全集划分成若干计算节点文档子集，并分配给相应计算节点；迭代阶段：

1)各计算节点对接收到的节点文档子集进行数据处理，得到该节点文档子集中每篇文档的主题分布和该节点文档子集的模型统计量；

2)各计算节点将数据结果返回给主控节点进行汇总，得到任务文档全集的主题分布；

3)主控节点根据模型统计量的汇总，迭代本次模型并判断其收敛性：如未收敛则重复迭代阶段，否则结束数据处理。

2.如权利要求1所述的方法，其特征在于所述节点计算机硬件并发能力的获得方法为：

1)在windows平台上利用汇编指令直接获得硬件系统的处理器信息，在linux平台上通过对硬件抽象层HAL的功能调用获得硬件系统的处理器信息：首先获取每个节点计算机的处理器的数量，然后获取每个处理器所含的内核数量；

2)合计节点计算机的所有处理器的包含的内核数量，自动确定该计算节点支持的有效线程的数量。

3.如权利要求1所述的方法，其特征在于主控节点判断所述计算节点文档子集划分的均衡性，其方法为：

1)将所有计算节点的计算时间组成一个列表Time；

2)找出最长的节点计算时间Max(Time)和最短的节点计算时间Min(Time)，并计算时间差TimeSpan＝Max(Time)-Min(Time)；

3)将TimeSpan和预定的阈值Threshold进行比较，如果TimeSpan＞Threshold，则需要调整节点文档子集划分，否则保留先前的划分。

4.如权利要求3所述的方法，其特征在于所述调整计算节点文档子集划分的方法为：

1)每个计算节点对接收到的节点文档子集进行数据数据处理时记录该节点处理文档子集的所用的时间；

2)每个计算节点将该节点处理文档子集的所用的时间传送回主控节点；

3)主控节点用文档计算时间计算各个节点的文档处理速度；

4)主控节点根据各个节点文档处理速度计算每个节点的文档分配份额；

5)主控节点依据各个节点文档分配份额从全集中依次取出相应数量的文档进行分配。

5.如权利要求4所述的方法，其特征在于所述计算节点进行数据处理的方法为：

1)每个计算节点获取自身的处理器的数量和每个处理器所含的内核数量，进而就得到该节点支持的有效线程数量；

2)计算节点根据自身的有效线程数量将接收的文档子集等分为若干工作块；

3)计算节点中各个工作线程利用索引结构主动申请获得工作块来进行数据处理。

6.如权利要求5所述的方法，其特征在于所述利用索引结构获得工作块的方法为：

1)设置所述节点文档子集划分后的工作块尺寸；

2)设置一个索引数组的顶端指针，并为之设置一个锁；

3)所有线程在锁的保护下互斥访问索引数组的顶端指针，获得本线程所处理的文档的地址；

4)线程通过工作块的地址访问相应的文档并进行处理。

7.一种高效的关联主题模型数据处理系统，该系统包括主控节点和若干个计算节点

所述主控节点用于负责界面交互、数据分发、结果汇总、模型估计；

所述计算节点用于承担求解任务的主要计算工作负荷；

所述主控节点和所述计算节点建立通信连接进行数据传输。

8.如权利要求7所述的系统，其特征在于所述主控节点和计算节点为具有单核处理器、多核处理器或多处理器的硬件平台。

9.如权利要求7所述的系统，其特征在于所述主控节点和计算节点通过网络进行数据传输，所述数据的数值格式采用文本表示格式。

10.如权利要求7所述的系统，其特征在于计算和传输分离，即所述计算节点进行数据处理时不考虑数据的远程访问而是采用本地读写的模式，所述计算节点和主控节点的数据传输任务由基于进程外的文件传输服务(FTP)或集群系统提供的网络文件系统服务(NFS)承担。