CN101226557A - 一种高效的关联主题模型数据处理方法及其系统 - Google Patents
一种高效的关联主题模型数据处理方法及其系统 Download PDFInfo
- Publication number
- CN101226557A CN101226557A CN 200810057989 CN200810057989A CN101226557A CN 101226557 A CN101226557 A CN 101226557A CN 200810057989 CN200810057989 CN 200810057989 CN 200810057989 A CN200810057989 A CN 200810057989A CN 101226557 A CN101226557 A CN 101226557A
- Authority
- CN
- China
- Prior art keywords
- node
- document
- computing
- main controlled
- computing node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5066—Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/5017—Task decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种高效的关联主题模型数据处理方法及其系统,其方法为在任务初始化阶段,首先通过主控节点给出初始模型M0并将其同步到所有的计算节点上,然后划分任务集并将其分布到多个计算节点上进行计算;在任务执行阶段,需要进行若干数据处理,每一轮中首先是每个计算节点的工作线程进行局部并行计算获得关于该节点文档子集的主题分布和模型统计量,并传送到主控节点进行汇总并判断数据处理结果是否收敛。本发明的系统包括一个主控节点和多个计算节点,构成一个集群计算机系统进行并行计算。本发明可以显著提高计算速度和扩大计算目标。
Description
技术领域
本发明涉及一种文本表示方法及其系统,尤其涉及一种基于隐含主题文本表示的高效数据处理方法及其系统,属于计算机信息检索领域。
背景技术
计算机信息检索是信息社会的重要基础设施之一,所提供的服务贯穿了从基本的网络信息搜索到信息的过滤、分类以致各种高级的数据挖掘。在计算机信息检索中,文本的表示方法是一个具有根本重要性的问题:首先,计算机信息检索的处理对象主要是文本信息,其他类型的信息一般也必须依赖于文本信息或附加文本信息而存在;再者,文本表示方法是计算机信息检索服务的先决条件,因为计算机信息检索的基本手段是利用自然语言文本向搜索引擎进行提问和应答,必须首先要将文本从无结构的原始形式转化为计算机能够理解的结构化形式,然后才能进行分析与处理;还有,文本表示方法是和计算机信息检索中的处理算法紧密关联在一起的,所以文本表示方法很大程度上决定了处理算法的设计。
常见的文本表示方法主要分为向量空间方法(Vector Space Model)(参考:Salton,G.The SMART Retrieval System.Englewood Cliffs,Prentice-Hall,1971.)、概率方法(ProbabilityModel)(参考:Van Rijsbergen,C.J.A new theoretical framework for information retrieval.Inproceedings of SIGIR’86,pp.194-200,1986.)和语言模型方法(Language Model)(参考:J.Ponte,Crpft,W.B.A Language Modeling Approach to Informational.In proceedings ofSIGIR’98,pp.257-281,1998.)三类。关联主题模型(Correlated Topic Model)是一种基于隐含主题的概率文本表示方法(参考:Blei,D.Lafferty,J.Correlated Topic Models[J].Advances in neural information processing systems,2006,18:147-154.),另外由于其输出可以方便地嵌入到向量空间和语言模型中,因而对于计算机信息检索中的分析、处理算法具有广泛的适应性。该方法的主要功能是通过对一定数量的文本利用统计手段进行分析后,不但能挖掘出该文本集合论述的若干主题以及各个主题在每篇文本中的分布,而且非常重要的是该方法还可以度量这些主题之间的关联程度。这样,就使文本信息处理摆脱了以往完全依赖于词汇的低级处理方式,可以在主题这个更高的层次上进行。
虽然关联主题模型从功能上提供了一种高层次文本表示的理想手段,但是目前还主要限于小量数据上,难以在现实环境下的大规模数据上使用,根本原因在于其求解方法存在严重的瓶颈:首先,其经典的实现是基于常规的串行计算方法,也就是计算任务的每一步必须前后相继地顺序地进行,前一步处理的结果是后一步处理的开始。这样在任一时间点上,全部的计算任务只能在一个硬件计算单元上执行,所以即便是将其放到具有多个硬件计算单元(如多核、多处理器)的高性能计算机上,也不能加快任务求解的速度。再者,由于串行方式下计算过程自身不可拆分,所以被处理的数据也就必须集中在一起供给计算过程随时访问,这样就加大了系统的存储负荷,如硬盘、内存,特别是内存方面的影响非常明显,过大的内存占用会导致计算速度急剧下降甚至导致系统拒绝计算任务的执行。
发明内容
本发明的目的在于提供一种高效的关联主题模型数据处理方法及其系统,该方法能够充分利用单机上的多处理器-多核并行架构和计算机集群的大规模并行能力,进而实现对太规模文档集合的高速处理,也即达到将关联主题模型文本表示方法推向实用化的目的。
本发明的技术方案如下:
1.任务初始化
1.1.在每个节点计算机上(包括主控节点和计算节点),根据该节点的硬件并发能力自动生成具有相应数量工作线程的计算服务;
1.2.在主控节点上,利用随机过程给出初始模型M0,并将M0复制到所有的计算节点上;
1.3.在主控节点上,将任务文档全集等量划分成若干计算节点文档子集,并逐一分配到相应的计算节点上;
2.任务的执行(记本轮迭代次数为第i次迭代,再用k表示计算节点的编号)
2.1.在每个计算节点上,将该节点文档子集划分成若干工作块,各工作线程进行局部并行计算首先获得在本次迭代过程上该节点文档子集的处理结果D(k,i),即该节点文档子集中每篇文档的主题分布,进而利用这部分文档的主题分布求得关于该节点文档子集的模型统计量;
2.2.在每个计算节点上,将其节点文档子集的处理结果D(k,i)、模型统计量和文档计算时间传送到主控节点;
2.3.在主控节点上,用文档计算时间判断计算节点文档子集的划分的均衡性。如有必要则重新调整计算节点文档子集的划分并分配到相应的计算节点上;
2.4.在主控节点上,先汇总所有计算节点文档子集的模型统计量,然后估计本次迭代的模型Mi(即进行模型参数估计,求解出关联主题模型)。如果模型没有收敛则将Mi复制到所有的计算节点上进行下一轮计算和模型迭代;否则终止数据处理过程,此时在每个计算节点上即可得到其最终的数据处理结果D(k,last),将之汇总既得文档全集最终的数据处理结果Dlast,即文档全集中每篇文档的主题分布;同时也得到了最终的收敛模型Mlast。
本发明涉及以下所述的关键要素:
一)本发明采用分级的高性能求解体系结构:集群分布式计算、机内并行计算。集群级别由2个基本的组成部分构成的,分别是:一个主控节点和若干个计算节点。主控节点只有一个,该节点可以使用普通的PC机,主要负责界面交互、数据分发、结果汇总,模型参数估计等功能。计算节点有多个(原则上没有数量限制)而且可以选用不同类型的计算机,计算节点承担求解任务的主要计算工作负荷。主控节点和计算节点通过网络连接起来,数据仅需要在主控节点和计算节点直接传输,计算节点之间没有通信。节点级别采用机内并行计算:即跨线程的计算,不同的计算节点具有不同的并行度,如具有多处理器的高性能服务器可以有效支持和处理器数量成正比的并行线程,双核工作站可以有效支持双线程并行计算,而单核的PC机一般只支持单线程计算。
二)节点并发线程数量的自主确定:在每个节点上(包括主控节点和计算节点),都通过获得这个节点计算机的处理器的数量和每个处理器所含的内核数量或支持的超线程数量来自动确定有效线程的数量:在windows平台上利用汇编指令直接获得硬件系统的处理器信息,在linux平台上通过对硬件抽象层HAL的功能调用获得硬件系统的处理器信息。这样在采用集群分布式计算的环境下避免了手工配置每个节点的工作线程数量的繁琐。
三)本发明采用分级的负载均衡技术:集群级别上工作集的自适应分配,计算节点级别上工作集的自动分配。这不同于一般的高性能计算任务所采用的单一负载均衡模式。集群级别上工作集的自适应分配方法是:由于每个计算节点的计算能力不一致,我们在主控节点上对各个计算节点本次迭代进行评估并及时调整的策略,让工作集按照计算节点的计算能力合理分布以使得各计算节点在近似接近的时间内完成以避免部分节点空闲等待,从而实现最大化利用整个集群的计算效能。
评估和调整计算节点工作集的具体方法:
评估方法:
第一,将所有计算节点的计算时间组成一个列表Time
第二,找出最长的计算时间Max(Time)和最短的计算时间Min(Time),并计算时间
差TimeSpan=Max(Time)-Min(Time)。
第三,将TimeSpan和预定的阈值Threshold(默认是5秒)进行比较,如果
TimeSpan>Threshold,则需要调整工作集的划分,否则保留先前的划分。调整方法:
令Time(i)表示第i个计算节点所用的计算时间,令Size表示工作集全集的大小而相应的Size(i)表示第i个计算节点所处理的节点工作集的大小(即所处理的文档数量),则有:
第一,计算各个节点的文档处理速度,Speed(i)=Size(i)/Time(i)
第二,计算各个节点的文档分配比例,
第三,计算各个节点的文档分配份额,quotient(i)=proportion(i)*Size
第四,依据各个节点的文档分配份额从全集中依次取出相应数量的文档进行分配。
计算节点级别上工作集的自动分配方法是:由于一个节点上的工作线程计算能力是一致的,所以采用每个线程自动申请近似等量的工作块,使得各线程在近似接近的时间内完成以避免部分线程空闲,从而实现最大化利用整个计算节点的计算效能。
四)计算节点级别上工作集的高并发访问方法:当计算节点的工作集(即接收到的文档子集)载入内存后,各并发线程是利用索引结构来划分各自处理的文本对象的,划分之后进行计算时所有的线程同时访问工作集而不用将该工作集锁定,这样使得多条工作线程在执行计算任务时获得了完全的并行,这种索引方法的详细说明如下:
在内存中文档是分散存储的,通过一个连续的索引数组将文档的地址集中起来存放。利用索引方法方法提高并发访问的关键是:
第一,设置工作块的尺寸(默认为100个文档)
第二,设置一个索引数组的顶端指针,并为之设置一个锁(临界区互斥量),该指针初始位置在数组首元素;
第三,所有线程在锁的保护下互斥访问索引数组的顶端指针而获得本线程所处理的文档的地址(即在索引数组中一段连续的元素)
第四,线程通过工作块的地址来访问相应的文档并进行处理,此时所有线程是完全并行的。
所以,该方法仅要求线程在一个整数(索引数组的顶端指针)上进行锁定的互斥访问,而无须对索引本身进行锁定的互斥扫描,更无须对文档集本身进行锁定的互斥扫描,从而获得了最大的并发效率,避免了由于在大数据结构上扫描时使用锁成本而导致的开销。
五)本发明采用分级的工作集传递模式:集群工作集的“推”式传递模式、节点并发线程工作集的“拉”式传递模式。工作集全集要进行分级划分,首先在集群级别要将工作集分成计算节点文档子集,这个任务由主控节点完成,主控节点按照各个计算节点的计算能力将工作集全集划分并对应复制给相应计算节点,这是“推”式传递模式;在计算节点上,各个工作线程主动申请从节点工作子集中获得工作块来进行计算,这是“拉”式传递模式。
六)主控节点和计算节点同步方式:计算和传输分离,计算任务不考虑数据的远程访问而是采用本地读写的模式,传输任务由基于进程外文件传输服务(FTP)或网络文件系统服务(NFS)承担。这样提高系统的可伸缩性、可维护性。同时,数据传输的数值格式采用文本表示格式,这样避免了不同硬件平台、操作系统平台和开发工具平台导致的二进制表示格式的差异,使得系统可以在混合平台环境下开发和运行
七)关联主题模型估计中采用模型统计量汇总技术:
关联主题模型主要由3个参数矩阵来定义,分别是主题均值参数矩阵Ap,主题方差参数矩阵Cp,主题的用词分布(特征分布)参数矩阵Wp;模型估计关键步骤是通过文档计算出模型统计量(对应有3个统计量矩阵:主题均值统计量矩阵As,主题方差统计量矩阵Cs,主题的用词分布(特征分布)统计量矩阵Ws),通过模型统计量计算出模型参数,这个过程是迭代收敛的。
在串行和并行模式该过程的差异在于:串行数据处理方法下,由于所有数据均在一台计算机上,所以模型统计量是被集中存放的,但是分布式数据处理时,每台计算机上单独计算自己那部分模型统计量,所以必须要汇总在一起,具体地讲:
本发明的积极效果:
与现有技术相比,本发明通过挖掘关联主题模型求解方法的内在结构,采用分而治之的策略,将整个计算任务分割成不同尺度的子任务,每个子任务独立执行的并且是仅需处理自身相关的数据,所以从整体上看,计算任务的存储压力被消解和单一计算单元的限制被突破;该方法在实施时,通过利用多处理器、多核单计算机高性能硬件提供的计算能力,以及利用集群大规模并行等先进体系结构来实现求解,从而实现提高计算速度和扩大计算规模的目标。
附图说明
图1.本发明的网络结构示意图;
图2.本发明的方法流程示意图;
图3.本发明的动态执行结构示意图。
具体实施方式
下面结合附图具体说描述本发明方法的实施方式:
本发明的网络拓扑结构是一个计算机集群,如图1所示,它由2个基本的组成部分构成的,分别是:一个主控节点和若干个计算节点。主控节点只有一个,该节点可以使用普通的PC机,主要负责界面交互、数据分发、结果汇总等功能。计算节点有多个(原则上没有数量限制)而且可以选用不同类型的计算机,计算节点承担求解任务的主要计算工作负荷。主控节点和计算节点通过网络连接起来,数据仅需要在主控节点和计算节点直接传输,计算节点之间没有通信。
本发明的方法流程如图2所示:纵向表示的是顺序的步骤,而横向表示的是每一个步骤中可以并行的成分。顺序的步骤主要分为初始化和迭代执行两大步骤,进而迭代执行又可以分为计算节点的执行步骤(包含计算和传送两个子步骤)和主控节点的执行步骤(包含计算和传送两个子步骤)。图中显式表示的并行成分主要有:(1)初始化中的模型初始化、文档集合划分2个并行成分;(2)多个计算节点独立计算的并行成分;(3)主控节点上估计模型和调整工作集划分独立执行的并行成分。另外,除了图中显式表示的并行成分外,实际上还有很重要的一种并行成分,即单个计算节点上的多条执行线程的并行成分,这将在下面高性能求解方法的动态执行结构示意图中展示,如图3所示。
本发明的动态执行结构如图3所示:是一种双层体系结构,宏观分布式计算和微观并行计算。宏观分布式计算是跨计算机的,在主控节点的协调下,计算任务被分配到不同的计算节点上,由于不同计算节点的计算能力不一样,所以主控节点需要管理计算节点之间的负载均衡,本发明通过设计自适应方法来自动调整各节点工作集的大小,无须人工干预。微观并行计算是跨线程的,不同的计算节点具有不同的并行度,如具有多处理器的高性能服务器可以有效支持和处理器等数量的并行线程,双核工作站可以有效支持双线程并行计算,而单核的PC机一般只支持单线程计算。所以,针对不同并行度的计算节点要运行不同数量的线程,过多或过少都不利于发挥该节点的最大计算能力,本发明通过自动检测系统硬件来计算可支持线程数量,无须手工指定。
下面结合具体的应用领域描述本发明的应用:
1.文档聚类
文档聚类是指将文档集合中的文档进行分组,使得在同一个组中的文档内容具有较高的相似度,而不同组中的文档内容差别较大。经过这样的处理后,由于文档集合具有合理分组的结构,使得文档集合更便于管理;更重要的是通过将大的文档集合细分可以极大地减轻用户查找特定文档的工作量,提高了文档使用效率。在信息检索中文档聚类技术具有重要用途,最典型的就是对检索结果依据主题进行分组,这样用户就可以集中在自己关心的主题方面的网页,也就是自动过滤掉了大量无关的查询结果,所以文档聚类可以进一步提高通用搜索引擎的可用性。
关联主题模型可以用来做文本聚类从而实现搜索引擎的检索结果依据主题分组的功能。其具体的实施方式是:
一)将搜索引擎的检索结果组织成文档全集,其中每个文档就对应一条搜索结果的标题和摘要的内容。
二)用本发明的高效的关联主题模型数据处理方法及其系统对该文档全集进行处理,以获得到每个文本所属的主题,具体过程如下:
1.任务初始化
1.1.在每个节点计算机上(包括主控节点和计算节点),根据该节点的硬件并发能力自动生成具有相应数量工作线程的计算服务;
1.2.在主控节点上,利用随机过程给出初始模型M0,并将M0复制到所有的计算节点上;
1.3.在主控节点上,将任务文档全集等量划分成若干计算节点文档子集,并逐一分配到相应的计算节点上;
2.任务的执行(记本轮迭代次数为第i次迭代,再用k表示计算节点的编号)
2.1.在每个计算节点上,将该节点文档子集划分成若干工作块,各工作线程进行局部并行计算首先获得在本次迭代过程上该节点文档子集的处理结果D(k,i),即该节点文档子集中每篇文档的主题分布,进而利用这部分文档的主题分布求得关于该节点文档子集的模型统计量;同时记录每个节点计算本节点文档子集时所用的文档计算时间。
2.2.在每个计算节点上,将其节点文档子集的处理结果D(k,i)、模型统计量和文档计算时间传送到主控节点;
2.3.在主控节点上,用文档计算时间评估计算节点文档子集的划分的均衡性。如有必要则重新调整计算节点文档子集的划分并分配到相应的计算节点上;
2.4.在主控节点上,先汇总所有计算节点的模型统计量,然后估计本次迭代的模型Mi(即进行模型参数估计,求解出关联主题模型)。如果模型没有收敛则将Mi复制到所有的计算节点上进行下一轮计算和模型迭代;否则终止数据处理过程,此时即可得到最终的数据处理结果,此时在每个计算节点上即可得到其最终的数据处理结果D(k,last),将之汇总既得文档全集最终的数据处理结果Dlast,即文档全集中每篇文档的主题分布;同时也得到了最终的收敛模型Mlast。
三)从每篇文档的主题分布中可以得到该文档包含的最大主题(也即该文档最集中论述的主题),进而就将该篇文档分配到相应主题的那个组去,这样就得到了搜索引擎的检索结果的依据主题的分组。
2.邮件过滤
电子邮件是最基本的网络服务之一,它是人们工作、生活中必不可少的工具。在充分享受电子邮件带来的便捷、实时和廉价的同时,网络时代的人们也饱尝垃圾邮件带来的烦恼。几乎每个人的信箱都充斥着大量来历不明的垃圾邮件,据统计95%的邮件是垃圾邮件,这严重污染网络环境,影响网络的正常通信。所以垃圾邮件过滤是电子邮件系统的必备功能,除了传统的基于身份认证和敏感词过滤的技术外,各种对邮件内容进行智能分析的过滤技术也逐渐发展起来,成为对付精细伪装的垃圾邮件的主要手段。
关联主题模型可以用来对电子邮件的内容做主题分析从而实现依据邮件主题进行过滤的功能。其具体的实施方式是:
一)将已有的全部电子邮件分成两个对立的集合:正常邮件集合与垃圾邮件集合。
二)用本发明的关联主题模型对正常邮件集合与垃圾邮件集合分别进行计算,得到两个关联主题模型。
三)对于新收到的一封电子邮件计算它与两个关联主题模型的相似度,即可作出该邮件是否是垃圾邮件的判定。
3.商品推荐
商品推荐功能在电子商务中非常重要,它可以帮助顾客发现真正感兴趣的商品,从而既提升客户的购物体验又提升了经销商的利润。所以几乎所有大型的电子商务系统,都不同程度地使用了各种形式的推荐系统(软件所内刊)。商品推荐的基本原理是:根据大量的购买记录数据,分析客户的购买行为,总结客户群体的购买模式,当新的客户购提交商品购买信息后,通过将该信息与以往的购买模式进行匹配从而预测该用户还可能需要的商品,进而推荐给客户。
关联主题模型可以用来从历史购买记录中对客户的购买模式进行分析,从而支持为新客户提供商品推荐的功能。其具体的实施方式是:
一)将全部历史购买记录组织成文本集合,将每条购买记录看作一个“文本”,而购买的商品看作文本中的“词”。
二)用本发明的关联主题模型对该文本集合进行计算,可以发现具有不同购买模式的客户群体。
三)对于一个新的购买信息,利用本发明的关联主题模型计算它所属的客户群体,最后即可根据该客户群体的购买模式提出商品推荐。
Claims (10)
1.一种高效的关联主题模型数据处理方法,其步骤为:
初始化阶段:
1)在每个节点计算机上根据该节点的硬件并发能力自动生成具有相应数量工作线程的计算服务;
2)主控节点给出初始模型并将其复制到所有的计算节点上;
3)主控节点将任务文档全集划分成若干计算节点文档子集,并分配给相应计算节点;迭代阶段:
1)各计算节点对接收到的节点文档子集进行数据处理,得到该节点文档子集中每篇文档的主题分布和该节点文档子集的模型统计量;
2)各计算节点将数据结果返回给主控节点进行汇总,得到任务文档全集的主题分布;
3)主控节点根据模型统计量的汇总,迭代本次模型并判断其收敛性:如未收敛则重复迭代阶段,否则结束数据处理。
2.如权利要求1所述的方法,其特征在于所述节点计算机硬件并发能力的获得方法为:
1)在windows平台上利用汇编指令直接获得硬件系统的处理器信息,在linux平台上通过对硬件抽象层HAL的功能调用获得硬件系统的处理器信息:首先获取每个节点计算机的处理器的数量,然后获取每个处理器所含的内核数量;
2)合计节点计算机的所有处理器的包含的内核数量,自动确定该计算节点支持的有效线程的数量。
3.如权利要求1所述的方法,其特征在于主控节点判断所述计算节点文档子集划分的均衡性,其方法为:
1)将所有计算节点的计算时间组成一个列表Time;
2)找出最长的节点计算时间Max(Time)和最短的节点计算时间Min(Time),并计算时间差TimeSpan=Max(Time)-Min(Time);
3)将TimeSpan和预定的阈值Threshold进行比较,如果TimeSpan>Threshold,则需要调整节点文档子集划分,否则保留先前的划分。
4.如权利要求3所述的方法,其特征在于所述调整计算节点文档子集划分的方法为:
1)每个计算节点对接收到的节点文档子集进行数据数据处理时记录该节点处理文档子集的所用的时间;
2)每个计算节点将该节点处理文档子集的所用的时间传送回主控节点;
3)主控节点用文档计算时间计算各个节点的文档处理速度;
4)主控节点根据各个节点文档处理速度计算每个节点的文档分配份额;
5)主控节点依据各个节点文档分配份额从全集中依次取出相应数量的文档进行分配。
5.如权利要求4所述的方法,其特征在于所述计算节点进行数据处理的方法为:
1)每个计算节点获取自身的处理器的数量和每个处理器所含的内核数量,进而就得到该节点支持的有效线程数量;
2)计算节点根据自身的有效线程数量将接收的文档子集等分为若干工作块;
3)计算节点中各个工作线程利用索引结构主动申请获得工作块来进行数据处理。
6.如权利要求5所述的方法,其特征在于所述利用索引结构获得工作块的方法为:
1)设置所述节点文档子集划分后的工作块尺寸;
2)设置一个索引数组的顶端指针,并为之设置一个锁;
3)所有线程在锁的保护下互斥访问索引数组的顶端指针,获得本线程所处理的文档的地址;
4)线程通过工作块的地址访问相应的文档并进行处理。
7.一种高效的关联主题模型数据处理系统,该系统包括主控节点和若干个计算节点
所述主控节点用于负责界面交互、数据分发、结果汇总、模型估计;
所述计算节点用于承担求解任务的主要计算工作负荷;
所述主控节点和所述计算节点建立通信连接进行数据传输。
8.如权利要求7所述的系统,其特征在于所述主控节点和计算节点为具有单核处理器、多核处理器或多处理器的硬件平台。
9.如权利要求7所述的系统,其特征在于所述主控节点和计算节点通过网络进行数据传输,所述数据的数值格式采用文本表示格式。
10.如权利要求7所述的系统,其特征在于计算和传输分离,即所述计算节点进行数据处理时不考虑数据的远程访问而是采用本地读写的模式,所述计算节点和主控节点的数据传输任务由基于进程外的文件传输服务(FTP)或集群系统提供的网络文件系统服务(NFS)承担。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200810057989 CN101226557B (zh) | 2008-02-22 | 2008-02-22 | 一种高效的关联主题模型数据处理方法 |
PCT/CN2009/000174 WO2009103221A1 (zh) | 2008-02-22 | 2009-02-20 | 一种高效的关联主体模型数据处理方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200810057989 CN101226557B (zh) | 2008-02-22 | 2008-02-22 | 一种高效的关联主题模型数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101226557A true CN101226557A (zh) | 2008-07-23 |
CN101226557B CN101226557B (zh) | 2010-07-14 |
Family
ID=39858552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200810057989 Expired - Fee Related CN101226557B (zh) | 2008-02-22 | 2008-02-22 | 一种高效的关联主题模型数据处理方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN101226557B (zh) |
WO (1) | WO2009103221A1 (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009103221A1 (zh) * | 2008-02-22 | 2009-08-27 | 中国科学院软件研究所 | 一种高效的关联主体模型数据处理方法及其系统 |
CN101909069A (zh) * | 2009-06-04 | 2010-12-08 | 鸿富锦精密工业(深圳)有限公司 | 数据处理系统 |
CN102118261A (zh) * | 2009-12-30 | 2011-07-06 | 中兴通讯股份有限公司 | 一种数据采集的方法、数据采集装置及网管设备 |
CN102137125A (zh) * | 2010-01-26 | 2011-07-27 | 复旦大学 | 在分布式网络系统中处理跨任务数据的方法 |
CN101799809B (zh) * | 2009-02-10 | 2011-12-14 | 中国移动通信集团公司 | 数据挖掘方法和数据挖掘系统 |
CN102567396A (zh) * | 2010-12-30 | 2012-07-11 | 中国移动通信集团公司 | 一种基于云计算的数据挖掘方法、系统及装置 |
CN102769662A (zh) * | 2012-05-23 | 2012-11-07 | 上海引跑信息科技有限公司 | 使一类实体的数据同时分布在与之关联的多种实体所在的集群节点中的方法 |
CN102799486A (zh) * | 2012-06-18 | 2012-11-28 | 北京大学 | 一种MapReduce系统中的数据采样和划分方法 |
CN103164261A (zh) * | 2011-12-15 | 2013-06-19 | 中国移动通信集团公司 | 多中心数据任务处理方法、装置及系统 |
WO2014114112A1 (zh) * | 2013-01-24 | 2014-07-31 | 华为技术有限公司 | 一种产生数据的方法和装置 |
CN102272754B (zh) * | 2008-11-05 | 2015-04-01 | 谷歌公司 | 定制语言模型 |
CN105187465A (zh) * | 2014-06-20 | 2015-12-23 | 中国科学院深圳先进技术研究院 | 一种文件的共享方法、装置及系统 |
CN106034145A (zh) * | 2015-03-12 | 2016-10-19 | 阿里巴巴集团控股有限公司 | 数据处理的方法和系统 |
CN106844654A (zh) * | 2017-01-23 | 2017-06-13 | 公安部第三研究所 | 面向警务实战的海量视频分布式检索方法 |
CN108616590A (zh) * | 2018-04-26 | 2018-10-02 | 清华大学 | 十亿规模网络嵌入的迭代随机投影算法及装置 |
CN108647244A (zh) * | 2018-04-13 | 2018-10-12 | 广东技术师范学院 | 思维导图形式的主题教学资源集成方法、网络存储系统 |
CN108763258A (zh) * | 2018-04-03 | 2018-11-06 | 平安科技(深圳)有限公司 | 文档主题参数提取方法、产品推荐方法、设备及存储介质 |
CN109684094A (zh) * | 2018-12-25 | 2019-04-26 | 人和未来生物科技(长沙)有限公司 | 云平台环境下海量文献并行挖掘的负载分配方法及系统 |
CN109919699A (zh) * | 2017-12-12 | 2019-06-21 | 北京京东尚科信息技术有限公司 | 项目推荐方法、项目推荐系统以及计算机可读介质 |
CN110870275A (zh) * | 2017-07-13 | 2020-03-06 | 国际商业机器公司 | 共享存储器文件传输 |
CN110874271A (zh) * | 2019-11-20 | 2020-03-10 | 山东省国土测绘院 | 一种海量建筑图斑特征快速计算方法及系统 |
CN111898546A (zh) * | 2020-07-31 | 2020-11-06 | 深圳市商汤科技有限公司 | 数据处理方法及装置、电子设备和存储介质 |
CN112183668A (zh) * | 2020-11-03 | 2021-01-05 | 支付宝(杭州)信息技术有限公司 | 并行训练业务模型的方法及装置 |
CN112529720A (zh) * | 2020-12-28 | 2021-03-19 | 深轻(上海)科技有限公司 | 一种寿险精算模型计算结果的汇总方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102339283A (zh) * | 2010-07-20 | 2012-02-01 | 中兴通讯股份有限公司 | 集群文件系统访问控制方法及集群节点 |
CN103116636B (zh) * | 2013-02-07 | 2016-06-08 | 中国科学院软件研究所 | 基于特征空间分解的文本大数据主题挖掘方法和装置 |
CN105260477A (zh) * | 2015-11-06 | 2016-01-20 | 北京金山安全软件有限公司 | 一种信息推送方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060026161A1 (en) * | 2004-07-16 | 2006-02-02 | Henseler David A | Distributed parallel file system for a distributed processing system |
US7558859B2 (en) * | 2005-10-17 | 2009-07-07 | Microsoft Corporation | Peer-to-peer auction based data distribution |
CN101004743B (zh) * | 2006-01-21 | 2010-05-26 | 鸿富锦精密工业(深圳)有限公司 | 分布式文档转换系统及方法 |
CN101226557B (zh) * | 2008-02-22 | 2010-07-14 | 中国科学院软件研究所 | 一种高效的关联主题模型数据处理方法 |
-
2008
- 2008-02-22 CN CN 200810057989 patent/CN101226557B/zh not_active Expired - Fee Related
-
2009
- 2009-02-20 WO PCT/CN2009/000174 patent/WO2009103221A1/zh active Application Filing
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009103221A1 (zh) * | 2008-02-22 | 2009-08-27 | 中国科学院软件研究所 | 一种高效的关联主体模型数据处理方法及其系统 |
CN102272754B (zh) * | 2008-11-05 | 2015-04-01 | 谷歌公司 | 定制语言模型 |
CN101799809B (zh) * | 2009-02-10 | 2011-12-14 | 中国移动通信集团公司 | 数据挖掘方法和数据挖掘系统 |
CN101909069A (zh) * | 2009-06-04 | 2010-12-08 | 鸿富锦精密工业(深圳)有限公司 | 数据处理系统 |
CN102118261A (zh) * | 2009-12-30 | 2011-07-06 | 中兴通讯股份有限公司 | 一种数据采集的方法、数据采集装置及网管设备 |
CN102137125A (zh) * | 2010-01-26 | 2011-07-27 | 复旦大学 | 在分布式网络系统中处理跨任务数据的方法 |
CN102567396A (zh) * | 2010-12-30 | 2012-07-11 | 中国移动通信集团公司 | 一种基于云计算的数据挖掘方法、系统及装置 |
CN103164261A (zh) * | 2011-12-15 | 2013-06-19 | 中国移动通信集团公司 | 多中心数据任务处理方法、装置及系统 |
CN103164261B (zh) * | 2011-12-15 | 2016-04-27 | 中国移动通信集团公司 | 多中心数据任务处理方法、装置及系统 |
CN102769662A (zh) * | 2012-05-23 | 2012-11-07 | 上海引跑信息科技有限公司 | 使一类实体的数据同时分布在与之关联的多种实体所在的集群节点中的方法 |
CN102799486A (zh) * | 2012-06-18 | 2012-11-28 | 北京大学 | 一种MapReduce系统中的数据采样和划分方法 |
CN102799486B (zh) * | 2012-06-18 | 2014-11-26 | 北京大学 | 一种MapReduce系统中的数据采样和划分方法 |
CN103970738A (zh) * | 2013-01-24 | 2014-08-06 | 华为技术有限公司 | 一种产生数据的方法和装置 |
WO2014114112A1 (zh) * | 2013-01-24 | 2014-07-31 | 华为技术有限公司 | 一种产生数据的方法和装置 |
CN103970738B (zh) * | 2013-01-24 | 2017-08-29 | 华为技术有限公司 | 一种产生数据的方法和装置 |
CN105187465A (zh) * | 2014-06-20 | 2015-12-23 | 中国科学院深圳先进技术研究院 | 一种文件的共享方法、装置及系统 |
CN105187465B (zh) * | 2014-06-20 | 2019-03-01 | 中国科学院深圳先进技术研究院 | 一种文件的共享方法、装置及系统 |
CN106034145A (zh) * | 2015-03-12 | 2016-10-19 | 阿里巴巴集团控股有限公司 | 数据处理的方法和系统 |
CN106034145B (zh) * | 2015-03-12 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 数据处理的方法和系统 |
CN106844654A (zh) * | 2017-01-23 | 2017-06-13 | 公安部第三研究所 | 面向警务实战的海量视频分布式检索方法 |
CN110870275B (zh) * | 2017-07-13 | 2022-06-03 | 国际商业机器公司 | 用于共享存储器文件传输的方法和装置 |
CN110870275A (zh) * | 2017-07-13 | 2020-03-06 | 国际商业机器公司 | 共享存储器文件传输 |
CN109919699A (zh) * | 2017-12-12 | 2019-06-21 | 北京京东尚科信息技术有限公司 | 项目推荐方法、项目推荐系统以及计算机可读介质 |
CN109919699B (zh) * | 2017-12-12 | 2022-03-04 | 北京京东尚科信息技术有限公司 | 项目推荐方法、项目推荐系统以及计算机可读介质 |
CN108763258B (zh) * | 2018-04-03 | 2023-01-10 | 平安科技(深圳)有限公司 | 文档主题参数提取方法、产品推荐方法、设备及存储介质 |
CN108763258A (zh) * | 2018-04-03 | 2018-11-06 | 平安科技(深圳)有限公司 | 文档主题参数提取方法、产品推荐方法、设备及存储介质 |
CN108647244A (zh) * | 2018-04-13 | 2018-10-12 | 广东技术师范学院 | 思维导图形式的主题教学资源集成方法、网络存储系统 |
CN108647244B (zh) * | 2018-04-13 | 2021-08-24 | 广东技术师范学院 | 思维导图形式的主题教学资源集成方法、网络存储系统 |
CN108616590A (zh) * | 2018-04-26 | 2018-10-02 | 清华大学 | 十亿规模网络嵌入的迭代随机投影算法及装置 |
CN108616590B (zh) * | 2018-04-26 | 2020-07-31 | 清华大学 | 十亿规模网络嵌入的迭代随机投影算法及装置 |
CN109684094B (zh) * | 2018-12-25 | 2020-07-24 | 人和未来生物科技(长沙)有限公司 | 云平台环境下海量文献并行挖掘的负载分配方法及系统 |
CN109684094A (zh) * | 2018-12-25 | 2019-04-26 | 人和未来生物科技(长沙)有限公司 | 云平台环境下海量文献并行挖掘的负载分配方法及系统 |
CN110874271A (zh) * | 2019-11-20 | 2020-03-10 | 山东省国土测绘院 | 一种海量建筑图斑特征快速计算方法及系统 |
CN111898546A (zh) * | 2020-07-31 | 2020-11-06 | 深圳市商汤科技有限公司 | 数据处理方法及装置、电子设备和存储介质 |
CN111898546B (zh) * | 2020-07-31 | 2022-02-18 | 深圳市商汤科技有限公司 | 数据处理方法及装置、电子设备和存储介质 |
CN112183668A (zh) * | 2020-11-03 | 2021-01-05 | 支付宝(杭州)信息技术有限公司 | 并行训练业务模型的方法及装置 |
CN112183668B (zh) * | 2020-11-03 | 2022-07-22 | 支付宝(杭州)信息技术有限公司 | 并行训练业务模型的方法及装置 |
CN112529720A (zh) * | 2020-12-28 | 2021-03-19 | 深轻(上海)科技有限公司 | 一种寿险精算模型计算结果的汇总方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101226557B (zh) | 2010-07-14 |
WO2009103221A1 (zh) | 2009-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101226557B (zh) | 一种高效的关联主题模型数据处理方法 | |
Fujimoto | Parallel and distributed simulation systems | |
CN103605662B (zh) | 一种分布式计算框架参数优化方法、装置及系统 | |
Zheng et al. | Real-time intelligent big data processing: technology, platform, and applications | |
CN107577805A (zh) | 一种面向日志大数据分析的业务服务系统 | |
CN102411638B (zh) | 一种新闻检索结果的多媒体摘要生成方法 | |
US8386456B1 (en) | Codex search patterns | |
Sen et al. | Mitigating uncertainty via compromise decisions in two-stage stochastic linear programming: Variance reduction | |
CN107679192A (zh) | 多集群协同数据处理方法、系统、存储介质及设备 | |
CN107766402A (zh) | 一种楼盘字典云房源大数据平台 | |
CN101151592A (zh) | 按需解串行化数据对象 | |
Chadha et al. | Towards federated learning using faas fabric | |
Necoara et al. | Distributed nonlinear optimal control using sequential convex programming and smoothing techniques | |
Andersen et al. | Evaluating the scaling of graph-algorithms for big data using GraphX | |
Artyom | Enabling data driven projects for a modern enterprise | |
US20030018514A1 (en) | Predictive method | |
CN103092574B (zh) | 一种基于递归自主式复杂任务分解系统及方法 | |
CN113138977A (zh) | 交易转化分析方法、装置、设备及存储介质 | |
Shuijing | Big data analytics: Key technologies and challenges | |
Bisht et al. | A q-rung orthopair fuzzy decision-making framework considering experts trust relationships and psychological behavior: An application to green supplier selection | |
Aghezzaf et al. | A Lagrangian relaxation technique for the general assembly line balancing problem | |
CN111562990A (zh) | 一种基于消息的轻量级无服务器计算方法 | |
Alrahwan et al. | ASCF: Optimization of the Apriori Algorithm Using Spark‐Based Cuckoo Filter Structure | |
Zhao et al. | A comparison of sample-path-based simulation-optimization and stochastic decomposition for multi-location transshipment problems | |
Leifeld et al. | Package ‘btergm’ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100714 Termination date: 20170222 |
|
CF01 | Termination of patent right due to non-payment of annual fee |