CN102591917A - 一种数据处理方法、系统及相关装置 - Google Patents

一种数据处理方法、系统及相关装置 Download PDF

Info

Publication number
CN102591917A
CN102591917A CN2011104241770A CN201110424177A CN102591917A CN 102591917 A CN102591917 A CN 102591917A CN 2011104241770 A CN2011104241770 A CN 2011104241770A CN 201110424177 A CN201110424177 A CN 201110424177A CN 102591917 A CN102591917 A CN 102591917A
Authority
CN
China
Prior art keywords
theme
document
information
node
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104241770A
Other languages
English (en)
Other versions
CN102591917B (zh
Inventor
科比洛夫.维拉迪斯拉维
文刘飞
施广宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innotitan Intelligent Equipment Technology Tianjin Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201110424177.0A priority Critical patent/CN102591917B/zh
Priority to PCT/CN2012/075842 priority patent/WO2013086834A1/zh
Publication of CN102591917A publication Critical patent/CN102591917A/zh
Priority to US13/722,078 priority patent/US8527448B2/en
Application granted granted Critical
Publication of CN102591917B publication Critical patent/CN102591917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Abstract

本发明实施例公开了一种数据处理方法、系统及相关装置,用于提高hLDA模型的参数求解速度及参数求解精度。本发明实施例方法包括:将全局初始统计信息发送给各从节点,归并接收到的各从节点的局部统计信息,得到新的全局统计信息,若从节点进行的吉布斯采样已结束,则根据新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布,根据计算所得到的概率分布,建立文本集的似然函数,并极大化似然函数,得到新的hLDA超参数,若求解hLDA超参数迭代已收敛,则根据新的hLDA超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布。

Description

一种数据处理方法、系统及相关装置
技术领域
本发明涉及信息检索技术领域,尤其涉及一种数据处理方法、系统及相关装置。
背景技术
信息检索(Information Retrieval)是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术。而狭义的信息检索仅指从信息集合中找出所需要的信息的过程,相当于人们所说的信息查询。当今,随着互联网的飞速发展,互联网上的信息以指数级的方式增长,面对如此海量的信息资源,如何高效快速地获取自己需要的信息对人们越来越重要。为了提高用户信息检索的质量和效率,可使用功能强大的信息检索工具--搜索引擎,但搜索引擎在给人们带来很大便利的同时,也暴露出以关键词为基本索引单位的搜索技术的很多不足:一方面,无论用户提交什么样的关键词,都会返回过多的结果,其中用户真正需要的信息往往只占很小一部分,用户不得不花费相当多的时间对这些结果进行人工筛选;另一方面,由于同义词、近义词的原因,许多与查找主题有关的文本和用户输入的关键词并不完全匹配,导致搜索引擎不能找出这些文本。对信息基于主题进行分类、检索是解决上述问题的一种有效途径,可以在较大程度上解决网上信息异构、杂乱的问题,从而缩小搜索空间,提高检索速度,改善查询结果。
现有技术中,在层次隐含狄利克雷分配(hLDA,hierarchical Latent DirichletAllocation)模型超参数的求解过程中,对于给定的一个文本集合,需要首先给定模型所对应的nCRP先验,并把hLDA模型超参数看成不变量,然后通过分布式的吉布斯抽样,对于每一个文档获取相应的主题路径,对文档中的每个单词获取一个相应的主题,最后根据主题-单词、文档-主题计数矩阵算出最近似的参数hLDA模型超参数。
但是,在现有技术中,由于将hLDA模型超参数看成不变量,因此在求解过程中,无法达到最大近似解,最后求出的参数hLDA模型超参数精度较低,并且求解速度较慢。
发明内容
本发明实施例提供了一种数据处理方法、系统及相关装置。用以通过并行化求解提高hLDA模型的参数求解速度,并通过基于最大似然的超参数估计提高hLDA模型的参数求解精度。
本发明实施例中的数据处理方法,包括:将全局初始统计信息发送给各从节点,所述全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息;归并接收到的各从节点的局部统计信息,得到新的全局统计信息,所述局部统计信息包括:所述各从节点的文档-主题计数矩阵,主题-单词计数矩阵,文档层次主题路径,所述新的全局统计信息包括:全局文本-主题计数矩阵信息,所述各从节点的主题-单词计数矩阵信息,以及全局文档层次主题路径;若从节点进行的吉布斯采样已结束,则根据所述新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布,所述吉布斯采样用于为各文档的各单词分配主题,以及为各文档分配层次主题路径;根据计算所得到的概率分布,建立所述文本集的似然函数,并极大化所述似然函数,得到新的层次隐含狄利克雷分配模型超参数;若求解层次隐含狄利克雷分配模型超参数迭代已收敛,则根据所述新的层次隐含狄利克雷分配模型超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布。
本发明实施例中的数据处理方法,包括:接收主节点发送的全局初始统计信息,所述全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息;根据所述各文档的层次主题路径,通过吉布斯采样为所述各文档中的每个单词重新分配主题;根据所述嵌套的中国餐馆过程先验,更新后的文档-主题计数矩阵及主题-单词计数矩阵,通过吉布斯采样,为每个文档重新分配层次主题路径;将局部统计信息发送给主节点,所述局部统计信息包括:本从节点的更新后的文档-主题计数矩阵信息,主题-单词计数矩阵信息以及各文档的层次主题路径信息。
本发明实施例中的主节点,包括:发送单元,用于将全局初始统计信息发送给各从节点,所述全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息,还用于若从节点进行的吉布斯采样未结束,则将新的全局统计信息发送给从节点,以及用于若求解层次隐含狄利克雷分配模型超参数迭代未收敛,则将更新层次隐含狄利克雷分配模型超参数后的所述新的全局统计信息发送给从节点;归并单元,用于归并接收到的各从节点的局部统计信息,得到新的全局统计信息,所述局部统计信息包括:所述各从节点的文档-主题计数矩阵,主题-单词计数矩阵,文档层次主题路径,所述新的全局统计信息包括:全局文本-主题计数矩阵信息,主题-单词计数矩阵信息,所述各从节点的主题-单词计数矩阵信息,以及全局文档层次主题路径;计算单元,用于若从节点进行的吉布斯采样已结束,则根据所述新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布;还用于根据计算所得到的概率分布,建立文本集的似然函数,并极大化所述似然函数,得到新的层次隐含狄利克雷分配模型超参数,以及用于若求解层次隐含狄利克雷分配模型超参数迭代收敛,则根据所述新的层次隐含狄利克雷分配模型超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布。
本发明实施例中的从节点,包括:接收信息单元,用于接收主节点发送的全局初始统计信息,所述全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息;分配主题单元,用于根据所述各文档的层次主题路径,通过吉布斯采样为所述各文档中的每个单词重新分配主题;分配路径单元,用于根据所述嵌套的中国餐馆过程先验,更新后的文档-主题计数矩阵及主题-单词计数矩阵,通过吉布斯采样,为每个文档重新分配层次主题路径;发送信息单元,用于将局部统计信息发送给主节点,所述局部统计信息包括:本从节点的更新后的文档-主题计数矩阵信息,主题-单词计数矩阵信息以及各文档的层次主题路径信息。
一种数据处理系统,包括:上述主节点以及上述从节点。
从以上技术方案可以看出,本发明实施例具有以下优点:主节点将全局初始统计信息发送给各从节点,归并来自各从节点的局部统计信息,得到新的全局统计信息,判断从节点进行的吉布斯采样是否结束,若未结束,则将该新的全局统计信息发送给从节点继续采样过程,若已结束,则根据新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布,而后根据计算所得到的概率分布,建立文本集的似然函数,并极大化似然函数的,得到新的hLDA模型超参数,判断求解hLDA模型超参数迭代是否收敛,若是,则根据新的hLDA模型超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布,若否,则将新的全局统计信息更新hLDA模型超参数后发送给从节点,进行下一轮采样计算,由于将hLDA模型超参数当做变量加入数据处理过程,并且,通过判断从节点的采样是否结束及求解hLDA模型超参数迭代是否收敛,不断循环求解hLDA模型超参数,基于最大似然的hLDA模型超参数提高hLDA模型超参数提高求解精度同时,通过由一个主节点与多个从节点交互的并行系统来并行化求解,可提高求解速度,因而使得数据处理结果更为快速、准确。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一个三层的nCRP主题树结构示意图;
图2为本发明实施中的数据处理方法的一个实施例示意图;
图3为本发明实施中的数据处理方法的另一个实施例示意图;
图4为本发明实施中的数据处理方法的另一个实施例示意图;
图5为本发明实施中的数据处理方法的另一个实施例示意图;
图6为本发明实施例中文本检索的基本流程示意图;
图7为本发明实施例中的网络电影推荐系统构架示意图;
图8为本发明实施中的网络电影存储情况示意图;
图9为本发明实施中的主节点的一个实施例示意图;
图10为本发明实施中的从节点的一个实施例示意图;
图11为本发明实施中的数据处理系统的一个实施例示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种数据处理方法、系统及相关装置,用以通过并行化求解提高hLDA模型的参数求解速度,并通过基于最大似然的超参数估计提高hLDA模型的参数求解精度。
对信息基于主题进行分类、检索可以在较大程度上解决网上信息异构、杂乱的问题,从而缩小搜索空间,提高检索速度,改善查询结果。对文本进行分类、索引的主要任务是,根据文本内容自动确定关联的类别。目前使用最多的是基于统计和机器学习的文本分类方法,常见的基于统计的分类方法包括:简单向量距离分类法、贝叶斯分类法、近邻学习算法、支持向量机。
目前应用最为广泛的是主题模型是隐含狄利克雷分配(LDA,LatentDirichlet Allocation)模型和层次隐含狄利克雷分配(hLDA,hierarchical LatentDirichlet Allocation)模型。其中,LDA模型一种概率生成模型,用一个服从Dirichlet分布的K维隐含随机变量表示文本中主题(Topic)的混合比例,利用参数估计从文本集合中提取所对应的主题分布,能有效地降低离散数据的维度。虽然LDA模型能够提取文本的主题集合以及捕获词与主题之间的相关信息,但是不能揭示各主题的抽象层次以及个主题之间的相互关系。而hLDA模型作为LDA模型的扩展形式弥补了LDA模型的不足,hLDA模型是一种层次主题模型,其不仅能提取文本的主题还能捕获各主题之间的相互关系。hLDA模型以嵌套的中国餐馆过程(nCRP,nested Chinese Restaurant Process)先验为基础,把各主题组织成一个主题树,主题树的深度与分支个数都是无限的,每个节点对应一个主题,越靠近根节点的主题抽象性越强,越靠近叶子节点的主题越具体。
请参阅图1,一个三层的nCRP主题树如图1所示,其中每个方框表示一个餐馆且对应一个主题分布β,每个餐馆都有无穷多个餐桌,每个餐桌上都有一张卡片,该卡片指示下层的唯一的一个餐馆。假设餐馆有5位顾客,第一天,5位顾客都去了第一层的餐馆,每个顾客都选择了一个餐桌,1号顾客和2号顾客坐在同一张餐桌上,3号顾客和5号顾客同坐在另一张餐桌上,4号顾客坐在第三张餐桌上;第二天,1号顾客和2号顾客按照第一天所坐餐桌上的卡片的指示进了同一家餐馆,各自坐在不同的两个餐桌上,3号顾客和5号顾客按照第一天所坐餐桌上的卡片的指示进了另一个餐馆,并坐在同一张餐桌上,4号顾客按同样的方法进了第三个餐馆并坐在一个餐桌上;第三天,1号顾客和2号顾客分别按照第二天所坐餐桌上的卡片的指示进了各自的餐馆,3号顾客和5号顾客又进了同一个餐馆,4号顾客按照卡片的指示进了一个餐馆,最终座位分布结果如图1中最底层座位。
由hLDA模型生成一个文本的过程如下:
(1)给定一个nCRP先验;
(2)获取主题-单词的概率分布βk~Dir(η);
(3)抽取L层主题的路径c~nCRP(γ),并抽取主题的概率分布θ~Dir(α);
(4)抽取主题zn~Mult(θ);
(5)抽取单词wn~Mult(βc[zn])。
重复(4)和(5)直到满足文本的处理要求。
下面描述本发明实施例中的数据处理方法,请参阅图2,本发明实施例中的数据处理方法的一个实施例包括:
201、主节点将全局初始统计信息发送给各从节点;
本发明实施例中,通过分布式系统求解hLDA模型超参数,该分布式系统为一系列计算机共同接入某种数据交换网络构成,其中一台计算机作为主节点,其它P台计算机作为各个从节点。
主节点将全局初始统计信息发送给各从节点,该全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的hLDA模型的初始超参数信息,预先建立的该文本集的nCRP先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息。
本发明实施例中的“单词”指单个词汇,包括中文及外文词汇,为描述方便,以下各实施例均遵循此例。
202、归并接收到的各从节点的局部统计信息,得到新的全局统计信息;
对接收到的各从节点的局部统计信息进行归并计算,得到新的全局统计信息。
其中,局部统计信息包括:各从节点的文档-主题计数矩阵,主题-单词计数矩阵,文档层次主题路径;
新的全局统计信息包括:全局的文本-主题计数矩阵,各从节点的主题-单词计数矩阵,以及全局文档层次主题路径。
具体的,接收各从节点的局部统计信息,具体为文本-主题计数矩阵
Figure BDA0000121292420000071
主题-词计数矩阵
Figure BDA0000121292420000072
文档层次主题路径
Figure BDA0000121292420000073
203、若从节点进行的吉布斯采样已结束,则根据新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布;
如果从节点进行的吉布斯采样已结束,则根据新的全局统计信息计算文档与主题之间的概率分布p(Z|d),以及主题与单词之间的概率分布p(W|Z)。
204、根据计算所得到的概率分布,建立文本集的似然函数,并极大化似然函数的,得到新的hLDA模型超参数;
根据贝叶斯理论建立文本及的似然函数,如下:
L ( γ , η , α ) = Σ d = 1 D log p ( w d | γ , η , α )
通过极大化上述似然函数L(γ,η,α),求得本次迭代的模型超参数γ(n),η(n),α(n),公式如下:
μ ′ = arg max μ { Σ d = 1 M log p ( w d | μ , η , α ) }
η ′ = arg max η { Σ d = 1 M log p ( w d | μ , η , α ) }
α ′ = arg max η { Σ d = 1 M log p ( w d | μ , η , α ) }
205、如果求解hLDA模型参数迭代收敛,则根据新的hLDA模型超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布。
如果求解hLDA模型参数迭代收敛,则根据新的hLDA模型超参数,计算文档与主题之间的概率分布,以及主题与单词之间的概率分布,输出计算得到的概率分布。
本发明实施例中,主节点将全局初始统计信息发送给各从节点,而后归并来自各从节点的局部统计信息,得到新的全局统计信息,若从节点进行的吉布斯采样已结束,则根据新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布,根据计算所得到的概率分布,建立文本集的似然函数,并极大化似然函数的,得到新的hLDA模型超参数,判断,若求解hLDA模型参数迭代已收敛,则根据新的hLDA模型超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布,由于将hLDA模型超参数当做变量加入数据处理过程,并且,通过判断从节点的采样是否结束及求解hLDA模型参数迭代是否收敛,不断循环求解hLDA模型超参数,基于最大似然的hLDA模型超参数提高hLDA模型超参数提高求解精度同时,通过由一个主节点与多个从节点交互的并行系统来并行化求解可提高求解速度,基于最大似然的hLDA模型超参数提高hLDA模型超参数提高求解精度,因而使得数据处理结果更为快速、准确。
为便于理解,下面以另一实施例介绍本发明实施例中的数据处理方法,请参阅图3,本发明实施例中的数据处理方法的另一个实施例包括:
301、为hLDA模型的各超参数分别设定不同的初始值,并将文本集划分成多个文本子集,该文本子集的数量与节点的数量相同;
主节点给hLDA模型的每个超参数分别设定一个初始值,各超参数的初始值不同,例如,γ=γ0,η=η0,α=α0
将文本集划分成多个文本子集,该文本子集的数量与节点的数量相同,例如,主节点把输入的包含D个文档的文本集{di}(i=1,…,D)分成P个子集,并为每个子集建立一个索引,每个文本子集记为Dp(p=1,…,P)。
302、为该文本集中的每个文档分配一个层次主题路径,为文档中的每个单词分配一个主题,根据统计的该文本集的单词总数,每个文档包含的单词总数,以及该文本集的单词表,得到文档-主题计数矩阵及主题-单词计数矩阵;
为该文本集中的每个文档随机分配,或者根据初始hLDA模型超参数分配一个层次主题路径,为文档中的每个单词随机分配,或者根据初始hLDA模型超参数分配一个主题。
统计该文本集的相关信息,该相关信息包含该文本及的单词总数,每个文档包含的单词总数,以及该文本集的单词表。
主节点统计出该文本集合包含的总的单词个数,每篇文档包含的单词总数Ni以及该文本集合的唯一性词表{wj}(j=1,…,V)。
303、主节点将全局初始统计信息发送给各从节点;
本发明实施例中,通过分布式系统求解hLDA模型超参数,该分布式系统为一系列计算机共同接入某种数据交换网络构成,其中一台计算机作为主节点,其它P台计算机作为各个从节点。
主节点将全局初始统计信息发送给各从节点,该全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的hLDA模型的初始超参数信息,预先建立的该文本集的nCRP先验,文档的层次主题路径信息、文档-主题计数矩阵信息、主题-单词计数矩阵信息,该文本集的单词总数,每个文档包含的单词总数,以及该文本集的单词表。
304、归并接收到的各从节点的局部统计信息,得到新的全局统计信息;
对接收到的各从节点的局部统计信息进行归并计算,得到新的全局统计信息。
其中,局部统计信息包括:各从节点的文档-主题计数矩阵,主题-单词计数矩阵,文档层次主题路径;
新的全局统计信息包括:全局的文本-主题计数矩阵,各从节点的主题-单词计数矩阵,以及全局文档层次主题路径。
具体的,接收各从节点的局部统计信息,具体为文本-主题计数矩阵
Figure BDA0000121292420000101
主题-词计数矩阵
Figure BDA0000121292420000102
文档层次主题路径
Figure BDA0000121292420000103
305、判断从节点进行的吉布斯采样是否结束;
各从节点通过吉布斯采样为各文档的各单词分配主题,以及为各文档分配层次主题路径。
主节点接收到各从节点局部统计信息,判断各从节点上进行的吉布斯采样是否结束,具体为,根据吉布斯采样的迭代次数或者似然函数的梯度判断吉布斯采样是否结束。
若否,则执行步骤306;若是,则执行步骤307。
306、将该新的全局统计信息发送给从节点;
如果从节点进行的吉布斯采样为结束,则将本次统计的新的全局统计信息发送给从节点,由从节点继续通过吉布斯采样为各文档的各单词分配主题,以及为各文档分配层次主题路径。
307、根据新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布;
如果从节点进行的吉布斯采样已结束,则根据新的全局统计信息计算文档与主题之间的概率分布p(Z|d),以及主题与单词之间的概率分布p(W|Z)。
308、根据计算所得到的概率分布,建立文本集的似然函数,并极大化似然函数的,得到新的hLDA模型超参数;
根据贝叶斯理论建立文本及的似然函数,如下:
L ( γ , η , α ) = Σ d = 1 D log p ( w d | γ , η , α )
通过极大化上述似然函数L(γ,η,α),求得本次迭代的模型超参数γ(n),η(n),α(n),公式如下:
μ ′ = arg max μ { Σ d = 1 M log p ( w d | μ , η , α ) }
η ′ = arg max η { Σ d = 1 M log p ( w d | μ , η , α ) }
α ′ = arg max η { Σ d = 1 M log p ( w d | μ , η , α ) }
309、根据期望最大算法判断求解hLDA模型参数迭代是否收敛;
根据期望最大算法判断求解hLDA模型参数迭代是否收敛,具体为,当hLDA模型超参数对文档集的似然函数值的梯度小于梯度的预置阈值时,则确定期望最大算法的迭代已经收敛。其中,文档集的似然函数值的梯度预置预阈值可根据实际应用具体设定,此处不作具体限定。
若是,则执行步骤310,若否,则执行步骤311。
310、如果求解hLDA模型参数迭代收敛,则根据新的hLDA模型超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布;
如果求解hLDA模型参数迭代收敛,则根据新的hLDA模型超参数,计算文档与主题之间的概率分布,以及主题与单词之间的概率分布,输出计算得到的概率分布。
311、如果求解hLDA模型参数迭代未收敛,则将新的全局统计信息更新hLDA模型超参数后发送给从节点。
如果求解hLDA模型参数迭代未收敛,则将hLDA模型的超参数更新为γ=γ(n),η=η(n),α=α(n),并将更新后的全局统计信息发送给各从节点,其中也包括求解hLDA模型参数迭代是否收敛的信息。
本发明实施例中,主节点首先为hLDA模型的各超参数分别设定不同的初始值,并将文本集划分成多个文本子集,该文本子集的数量与节点的数量相同,向每个从节点发送一个文本子集,便于各从节点处理数据,为该文本集中的每个文档分配一个层次主题路径,为文档中的每个单词分配一个主题,得到文档-主题计数矩阵及主题-单词计数矩阵,统计该文本集的相关信息,该相关信息包含该文本及的单词总数,每个文档包含的单词总数,以及该文本集的单词表,使得从节点可基于这些数据进行后续处理。
以上是从主节点侧的角度描述本发明实施例中的数据处理方法,下面从从节点侧的角度进行描述,本发明实施例中的数据处理方法的一个实施例包括:
401、接收主节点发送的全局初始统计信息;
从节点接收主节点发送的全局初始统计信息,该全局统计信息包括:根据文本集预先划分的文本子集信息,预先设置的hLDA模型的初始超参数信息,如,γ=γ0,η=η0,α=α0,预先建立的该文本集的nCRP先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息。
402、根据该各文档的层次主题路径,通过吉布斯采样为该各文档中的每个单词重新分配主题;
基于各层次主题路径,通过Gibbs采样为文档中的每一个单词
Figure BDA0000121292420000121
重新分配一个主题
Figure BDA0000121292420000122
403、根据nCPR先验,以及更新后的文档-主题计数矩阵,主题-单词计数矩阵,通过吉布斯采样,为每个文档重新分配层次主题路径;从节点对于每一篇文档dp,基于更新后的文档-主题计数矩阵为主题-单词计数矩阵
Figure BDA0000121292420000124
通过Gibbs采样重新分配一条层次主题路径
Figure BDA0000121292420000125
Gibbs采样公式如下:
p ( C d p | W , C - d p , Z p ) ∝ p ( C d p | C - d p ) p ( w d p | C , W - d p , Z p )
404、将局部统计信息发送给主节点。
将局部统计信息发送给主节点,该局部统计信息包括:本从节点的更新后的文档-主题计数矩阵信息,主题-单词计数矩阵信息以及各文档的层次主题路径信息。
本发明实施例中,接收主节点发送的全局初始统计信息,该全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的hLDA模型的初始超参数信息,预先建立的该文本集的nCRP先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息,,根据其中各文档的层次主题路径,通过吉布斯采样为各文档中的每个单词重新分配主题,根据该nCPR先验,以及更新后的文档-主题计数矩阵,主题-单词计数矩阵,通过吉布斯采样,为每个文档重新分配层次主题路径,并将以上述信息作为局部统计信息发送给主节点,通过吉布斯采样重新为各文档中的每个单词重新分配主题,以及每个文档重新分配层次主题路径,提高主节点计算hLDA模型的超参数的准确性。
为便于理解,下面以另一实施例详细说明本发明实施例中的数据处理方法,请参阅图5,本发明实施例中的数据处理方法的另一个实施例包括:
501、接收主节点发送的全局初始统计信息;
从节点接收主节点发送的全局初始统计信息,该全局统计信息包括:根据文本集预先划分的文本子集信息,预先设置的hLDA模型的初始超参数信息,如,γ=γ0,η=η0,α=α0,预先建立的该文本集的nCRP先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息。
502、根据各文档的层次主题路径,通过吉布斯采样为各文档中的每个单词重新分配主题;
基于各层次主题路径,通过Gibbs采样为文档中的每一个单词
Figure BDA0000121292420000131
重新分配一个主题
具体为,为所述文本子集的每个文档分配L个层次主题,并在所述L个层子主题中,通过吉布斯采样为文档中每个单词分配对应的主题
Figure BDA0000121292420000134
所采用的Gibbs采样公式如下:
p ( z d , n p = C d , k | z - ( d , n ) p ) ∝ ( α k + n C d , k d p ) n C d , k , w d , n d p + β w d , n p Σ t = 1 V ( n C d , k , t d p + β t ) , ( v = 1,2 , . . . , V ; k = 1,2 , . . . , L )
503、更新重新分配单词主题后的各文档的文档-主题计数矩阵及主题-单词计数矩阵信息;
重新分配单词主题后,从节点更新本从节点对应的文档-主题计数矩阵及主题-单词计数矩阵
504、根据nCPR先验,以及更新后的文档-主题计数矩阵,主题-单词计数矩阵,通过吉布斯采样,为每个文档重新分配层次主题路径;
从节点对于每一篇文档dp,基于更新后的文档-主题计数矩阵为
Figure BDA0000121292420000141
主题-单词计数矩阵通过Gibbs采样重新分配一条层次主题路径
p ( C d p | W , C - d p , Z p ) ∝ p ( C d p | C - d p ) p ( w d p | C , W - d p , Z p )
505、将局部统计信息发送给主节点;
将局部统计信息发送给主节点,该局部统计信息包括:本从节点的更新后的文档-主题计数矩阵信息,主题-单词计数矩阵信息以及各文档的层次主题路径信息。
506、若接收到主节点发送的新的全局统计信息,则根据新的全局统计信息,通过吉布斯采样为各文档重新分配层次主题路径,为各文档中的每个单词重新分配主题。
若从节点接收到主节点发送的新的全局统计信息,则表明吉布斯采样未结束,或者EM迭代未收敛,因此,每当从节点接收到主节点发送的新的全局统计信息,均需要从节点重复执行根据各文档的层次主题路径,通过吉布斯采样为各文档中的每个单词重新分配主题,以及根据nCPR先验,以及更新后的文档-主题计数矩阵,主题-单词计数矩阵,通过吉布斯采样,为每个文档重新分配层次主题路径,从而生成本从节点的新的局部统计信息,并发送给主节点,作为主节点进行hLDA模型超参数的估算的基础。
本发明实施中,从节点接收主节点发送的全局初始统计信息,根据其中的各文档的层次主题路径,通过吉布斯采样为各文档中的每个单词重新分配主题,以及根据nCPR先验,以及更新后的文档-主题计数矩阵,主题-单词计数矩阵,通过吉布斯采样,为每个文档重新分配层次主题路径,从而生成本从节点的局部统计信息,将其发送给主节点,作为主节点进行hLDA模型超参数的估算的基础,每当从节点接收到主节点发送的新的全局统计信息,均需要从节点重复执行根据各文档的层次主题路径,通过吉布斯采样为各文档中的每个单词重新分配主题,以及根据nCPR先验,以及更新后的文档-主题计数矩阵,主题-单词计数矩阵,通过吉布斯采样,为每个文档重新分配层次主题路径,从而生成本从节点的新的局部统计信息,并发送给主节点,作为主节点进行hLDA模型超参数的估算的基础。
下面以一个具体应用场景对本发明实施例中的数据处理方法进行描述。
文本检索系统:
由于大多数的信息需求是针对文本的,所以文本检索是信息检索的基础,而且文本检索技术也可以用来检索其他媒体信息,可以说文本检索是信息检索中最重要的一项技术。
文本检索主要包括文本存储和文本查询两个关键技术:
(1)文本存储;
首先,蜘蛛搜索器利用爬虫技术在网络上持续不断地搜索最新的文本信息,并下载到本地存储器,同时去除陈旧的或网络上已经不存在的文本信息。然后,应用hLDA模型对本地存储的所有文本进行处理,得出文本-主题,主题-单词之间的概率分布以及各主题之间的层次关系。最后,按照一定规则对主题、词以及文本建立相关的索引,并存储在索引库中。
(2)文本查询。
用户向搜索引擎发出文本需求,搜索引擎解析用户的需求并向索引库发送查询需求;索引库根据主题、单词、文本间的概率关系以及主题间的层次关系返回相关索引,搜索引擎将查询结果按优先顺序进行排序并发给用户,用户根据自己的需求获取自己最关注的文本信息。
文本检索的基本流程,请参阅图6。
文本检索系统的实施步骤描述如下:
(1)输入文本集合;
(2)对文本集合进行预处理;
主要包括特殊词识别,剔除陈旧的、停用的词以及一些没有实际意义的词,如冠词、介词、联词。把每篇文本看成单词的集合,并且不考虑单词之间的顺序关系。
(3)应用hLDA模型对文本集合进行学习;
应用Gibbs采样算法获取每个单词的主题分配,每篇文本的主题路径及主题层次。计算出单词-主题、主题-文本之间的概率分布,估计出hLDA模型的参数及超参数。
(4)建立索引库;
根据词-主题、主题-文本之间的概率分布以及主题之间的层次关系,按照一定规则建立单词、主题以及文本之间的索引表,并存储在索引库中。
(5)用户输入查询需求;
用户根据自己的查询需求输入一些单词或一些短语。
(6)对查询进行解析;
按照一定规则把用户的查询需求分别解析成单词、主题、相关联的主题或者它们之间的某种组合。
(7)检索索引库;
分别按照用户查询需求的解析结果对索引库进行检索。
(8)对检索结果进行排序;
按照一定的概率关系对检索结果进行排序。
(9)输出查询结果。
输出查询结果供用户选择。
为便于理解,下面以另一应用场景描述本发明实施例中的数据处理方法:
网络电影推荐系统:
目前,互联网上的电影资源呈指数级增长,如何从中快速高效地下载或观看自己喜欢的电影,成为用户日渐关注的问题。当前的网络电影推荐技术,如采用协同过滤(CF,Collaborative Filtering)技术建立电影推荐系统,CF电影推荐技术的主要思想是,如果一些用户对某些电影有偏好,那么他们对其它电影也有偏好。在实际应用中,用户的这些偏好行为需要通过对他们的电影下载历史记录进行学习挖掘而获得。
本网络电影推荐系统采用基于hLDA模型的CF技术,其系统架构图如图7所示。
为了节省宽带资源和减轻网络传输压力,本电影推荐系统应用基于hLDA模型的CF技术给出了电影资源的最优存储策略,即通过对每个用户的电影下载记录进行分析,把热门电影存储在网络中离用户近的节点上,而把冷门电影存储在离用户较远的节点上。网络电影存储情况示意图请参见图8。
在本电影推荐系统中把每一个用户看作一个“文本”,把用户所下载的每一部电影的看作一个“单词”,其具体的实施步骤描述如下:
(1)收集每个用户的电影下载记录;
(2)对用户的电影下载记录进行预处理;
主要应用CF技术把电影下载记录规模小的用户剔除,以免影响hLDA模型的学习效果。
(3)应用hLDA模型对每个用户的电影下载记录进行学习;
应用Gibbs采样算法获取每部电影的的主题分配,每个用户的主题路径及主题层次;计算出电影-主题、主题-用户之间的概率分布,估计出hLDA模型的参数及超参数。因为用户下载电影的主题的概率分布往往能反映用户的行为偏好,因此,依据电影-主题、主题-用户之间的概率分布可分析出每个用户看电影的行为偏好。
(4)建立索引库;
根据电影-主题、主题-用户之间的概率分布以及主题之间的层次关系,按照一定规则建立电影、主题以及用户之间的索引表,并存储在索引库中。
(5)根据每个电影被下载的概率分布把它们存储在网络的适当位置;
按照一定规则,把那些下载概率大的电影(即热门电影)存储在离用户近的服务器节点,把那些下载概率小的电影(即冷门电影)存储在离用户较远的服务器节点。
(6)根据用户信息给出其偏好的电影信息;
行为偏好相近的用户喜欢的电影种类往往相近。这里按照一定的规则直接在索引库中检索相关电影。
(7)用户输入电影下载需求;
如果根据用户信息给出的电影不能满足用户需求,则用户可以在系统中输入自己的电影需求。按照一定规则把用户的查询需求分别解析成单词、主题、相关联的主题或者它们之间的某种组合。
(8)解析用户的电影下载需求;
按照一定规则把用户的电影下载需求分别解析成电影、电影主题、相关联的电影主题或者它们之间的某种组合。
(9)检索索引库;
分别按照用户下载需求的解析结果对索引库进行检索。
(10)对检索结果进行排序;
按照一定的概率关系对检索结果进行排序。
(11)输出查询结果。
输出检索结果供用户选择。
以上是介绍本发明实施例中的数据处理方法,下面介绍本发明实施例中的数据处理相关装置,本实施例中的数据处理相关装置包括主节点及从节点,请参阅图9,本发明是实施例中的主节点的一个实施例包括:
发送单元901,用于将全局初始统计信息发送给从节点,该全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的hLDA模型的初始超参数信息,预先建立的该文本集的nCRP先验,文档的层次主题路径信息、文档-主题计数矩阵信息、主题-单词计数矩阵信息(参见步骤201、303);
归并单元902,用于归并接收到的各从节点的局部统计信息,得到新的全局统计信息,该局部统计信息包括:各从节点的文档-主题计数矩阵,主题-单词计数矩阵,文档层次主题路径,该新的全局统计信息包括:全局文本-主题计数矩阵信息,主题-单词计数矩阵信息,各从节点的主题-单词计数矩阵信息,以及全局文档层次主题路径(参见步骤202、304);
计算单元903,用于从节点进行的吉布斯采样已结束,则根据该新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布(参见步骤203、307);还用于根据计算所得到的概率分布,建立文本集的似然函数,并极大化所述似然函数,得到新的hLDA模型超参数(参见步骤204、308),以及用于若求解hLDA模型超参数迭代收敛,则根据新的hLDA模型超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布(参见步骤205、310)。
需要说明的是,本发明实施例中的主节点还可以包括:
设定单元904,用于为hLDA模型的各超参数分别设定不同的初始值(参见步骤301);
划分单元905,用于将该文本集划分成多个文本子集,该文本子集的数量与节点的数量相同(参见步骤301);
分配单元906,用于为该文本集中的每个文档分配一个主题路径,为文档中的每个单词分配一个主题,根据统计的该文本集的单词总数,每个文档包含的单词总数,以及该文本集的单词表,得到文档-主题计数矩阵及主题-单词计数矩阵(参见步骤302);
判断单元907,用于判断从节点进行的吉布斯采样是否结束,该吉布斯采样用于为各文档的各单词分配主题,以及为各文档分配层次主题路径,具体的,通过根据吉布斯采样的迭代次数或者似然函数的梯度判断吉布斯采样是否结束的方式,判断吉布斯采样是否结束(参见步骤305);
判断单元907,还用于判断期望最大算法判断求解hLDA模型超参数迭代是否收敛,具体的,通过当hLDA模型超参数对该文档集合的似然函数值的梯度小于预置梯度阈值时,则确定期望最大算法的迭代已经收敛,判断hLDA模型求解的迭代是否收敛(参见步骤309)。
进一步的,发送单元901还用于若从节点进行的吉布斯采样未结束,则将新的全局统计信息发送给从节点(参见步骤306),以及用于若求解hLDA模型超参数迭代未收敛,则将新的全局统计信息更新hLDA模型超参数后发送给从节点(参见步骤311)。
本发明实施中主节点各单元实现各自功能的具体过程,请参见前述图2、图3所示实施例中的相关内容描写。
本发明实施例中,设定单元904为hLDA模型的各超参数分别设定不同的初始值,划分单元905将该文本集划分成多个文本子集,分配单元为该文本集中的每个文档分配一个主题路径,为文档中的每个单词分配一个主题,根据统计的该文本集的单词总数,每个文档包含的单词总数,以及该文本集的单词表,得到文档-主题计数矩阵及主题-单词计数矩阵,发送单元901将全局初始统计信息发送给从节点,该全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的hLDA模型的初始超参数信息,预先建立的所述文本集的nCRP先验,文档的层次主题路径信息、文档-主题计数矩阵信息、主题-单词计数矩阵信息,归并单元902归并接收到的各从节点的局部统计信息,得到新的全局统计信息,该局部统计信息包括:各从节点的文档-主题计数矩阵,主题-单词计数矩阵,文档层次主题路径,该新的全局统计信息包括:全局文本-主题计数矩阵信息,主题-单词计数矩阵信息,各从节点的主题-单词计数矩阵信息,以及全局文档层次主题路径。判断单元907判断从节点进行的吉布斯采样是否结束,具体的,根据吉布斯采样的迭代次数或者似然函数的梯度判断吉布斯采样是否结束,若从节点进行的吉布斯采样未结束,则发送单元901将新的全局统计信息发送给从节点,若已结束,计算单元903则根据该新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布,并根据计算所得到的概率分布,建立文本集的似然函数,并极大化所述似然函数,得到新的hLDA模型超参数。判断单元907判断期望最大算法判断求解hLDA模型超参数迭代是否收敛,具体的,当hLDA模型超参数对文档集的似然函数值的梯度小于预置梯度阈值时,则确定期望最大算法的迭代已经收敛,若已收敛,则计算单元903根据新的hLDA模型超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布,若未收敛,则发送单元901将新的全局统计信息更新hLDA模型超参数后发送给从节点,通过由一个主节点与多个从节点交互的并行系统来并行化求解可提高求解速度,基于最大似然的hLDA模型超参数提高hLDA模型超参数提高求解精度,因而使得数据处理结果更为快速、准确。
下面介绍本发明实施例中的从节点,请参阅图10,本发明是实施例中的从节点的一个实施例包括:
接收信息单元1001,用于接收主节点发送的全局初始统计信息,该全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的hLDA模型的初始超参数信息,预先建立的该文本集的nCRP先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息(参见步骤401、501);
分配主题单元1002,用于根据各文档的层次主题路径,通过吉布斯采样为所述各文档中的每个单词重新分配主题(参见步骤402、502);
分配路径单元1003,用于根据该nCRP先验,更新后的文档-主题计数矩阵及主题-单词计数矩阵,通过吉布斯采样,为每个文档重新分配层次主题路径(参见步骤403、504);
发送信息单元1004,用于将局部统计信息发送给主节点,该局部统计信息包括:本从节点的更新后的文档-主题计数矩阵信息,主题-单词计数矩阵信息以及各文档的层次主题路径信息(参见步骤404、505)。
需要说明的是,本发明实施例中的从节点还包括:
更新单元1005,用于更新重新分配单词主题后的各文档的文档-主题计数矩阵及主题-单词计数矩阵(参见步骤503)。
进一步的,分配主题单元1002,用于通过为文本子集的每个文档分配多个层次主题,并在多个层子主题中,通过吉布斯采样为文档中每个单词分配对应的主题的方式,为文档中每个单词分配对应的主题(参见步骤502);
分配路径单元1003,还用于若接收到主节点发送的新的全局统计信息,则根据新的全局统计信息,通过吉布斯采样为各文档的层次主题路径重新选择层次主题路径(参见步骤506);
分配主题单元1002,还用于若接收到主节点发送的新的全局统计信息,则根据新的全局统计信息,通过吉布斯采样为各文档中的每个单词重新分配主题(参见步骤506)。
本发明实施中从节点各单元实现各自功能的具体过程,请参见前述图4、图5所示实施例中的相关内容描写。
本发明实施例中,接收信息单元1001接收主节点发送的全局初始统计信息,该全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的hLDA模型的初始超参数信息,预先建立的文本集的nCRP先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息,分配主题单元1002根据各文档的层次主题路径,通过吉布斯采样为各文档中的每个单词重新分配主题,具体的,分配主题单元1002为文本子集的每个文档分配多个层次主题,并在多个层子主题中,通过吉布斯采样为文档中每个单词分配对应的主题,更新单元1005更新重新分配单词主题后的各文档的文档-主题计数矩阵,及主题-单词计数矩阵信息,分配路径单元1003根据该nCRP先验,更新后的文档-主题计数矩阵及主题-单词计数矩阵,通过吉布斯采样,为每个文档重新分配层次主题路径,而后,发送信息单元1004将局部统计信息发送给主节点,该局部统计信息包括:本从节点的更新后的文档-主题计数矩阵信息,主题-单词计数矩阵信息以及各文档的层次主题路径信息。若接收到主节点发送的新的全局统计信息,则分配路径单元1003根据新的全局统计信息,通过吉布斯采样为各文档重新选择层次主题路径,分配主题单元1002为各文档中的每个单词重新分配主题。
本发明实施例还提供了一种数据处理系统,请参阅图11,本发明实施例中的数据处理系统包括:
主节点1101,从节点1102;
其中,主节点1101,用于将全局初始统计信息发送给各从节点,该全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的hLDA模型的初始超参数信息,预先建立的该文本集的nCRP先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息,归并接收到的各从节点的局部统计信息,得到新的全局统计信息,该局部统计信息包括:各从节点的文档-主题计数矩阵,主题-单词计数矩阵,文档层次主题路径,该新的全局统计信息包括:全局文本-主题计数矩阵信息,所述各从节点的主题-单词计数矩阵信息,以及全局文档层次主题路径,若吉布斯采样已结束,该吉布斯采样用于为各文档的各单词分配主题,以及为各文档分配层次主题路径,则根据该新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布,根据计算所得到的概率分布,建立该文本集的似然函数,并极大化所述似然函数,得到新的hLDA模型超参数,若求解hLDA模型超参数迭代已收敛,则根据该新的hLDA模型超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布。
从节点1102,用于接收主节点发送的全局初始统计信息,该全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的hLDA模型的初始超参数信息,预先建立的该文本集的nCRP先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息,根据各文档的层次主题路径,通过吉布斯采样为各文档中的每个单词重新分配主题,根据该nCRP先验,更新后的文档-主题计数矩阵及主题-单词计数矩阵,通过吉布斯采样,为每个文档重新分配层次主题路径,并将局部统计信息发送给主节点,该局部统计信息包括:本从节点的更新后的文档-主题计数矩阵信息,主题-单词计数矩阵信息以及各文档的层次主题路径信息。
本发明实施例中,数据处理系统中的主节点1101及从节点1102的功能实现过程,请参见前述图2至图10所示实施例中的相关描述内容,此处不再赘述。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种数据处理方法、系统及相关装置,进行了详细介绍,对于本领域的技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (18)

1.一种数据处理方法,其特征在于,包括:
将全局初始统计信息发送给各从节点,所述全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息;
归并接收到的各从节点的局部统计信息,得到新的全局统计信息,所述局部统计信息包括:所述各从节点的文档-主题计数矩阵,主题-单词计数矩阵,文档层次主题路径,所述新的全局统计信息包括:全局文本-主题计数矩阵信息,所述各从节点的主题-单词计数矩阵信息,以及全局文档层次主题路径;
若从节点进行的吉布斯采样已结束,则根据所述新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布,所述吉布斯采样用于为各文档的各单词分配主题,以及为各文档分配层次主题路径;
根据计算所得到的概率分布,建立所述文本集的似然函数,并极大化所述似然函数,得到新的层次隐含狄利克雷分配模型超参数;
若求解层次隐含狄利克雷分配模型超参数迭代已收敛,则根据所述新的层次隐含狄利克雷分配模型超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布。
2.根据权利要求1所述的方法,其特征在于,所述将全局初始统计信息发送给从节点之前包括:
为层次隐含狄利克雷分配模型的各超参数分别设定不同的初始值;
将所述文本集划分成多个文本子集,所述文本子集的数量与节点的数量相同;
为所述文本集中的每个文档分配一个主题路径,为文档中的每个单词分配一个主题,根据统计的所述文本集的单词总数,每个文档包含的单词总数,以及所述文本集的单词表,得到文档-主题计数矩阵及主题-单词计数矩阵。
3.根据权利要求1或2所述的方法,其特征在于,所述归并接收到的各从节点的局部统计信息,得到新的全局统计信息之后包括:
判断从节点进行的吉布斯采样是否结束;
所述判断从节点进行的吉布斯采样是否结束包括:
根据吉布斯采样的迭代次数或者似然函数的梯度判断吉布斯采样是否结束。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若从节点进行的吉布斯采样未结束,则将所述新的全局统计信息发送给所述从节点。
5.根据权利要求4所述的方法,其特征在于,所述根据计算所得到的概率分布,建立所述文本集的似然函数,并极大化所述似然函数,得到新的层次隐含狄利克雷分配模型超参数之后包括:
判断期望最大算法迭代是否收敛;
所述判断期望最大算法迭代是否收敛包括:
当所述层次隐含狄利克雷分配模型超参数所对应的所述文档集的似然函数值的梯度小于预置的梯度阈值时,则确定期望最大算法的迭代已经收敛。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若求解层次隐含狄利克雷分配模型超参数迭代未收敛,则将更新层次隐含狄利克雷分配模型超参数后的所述新的全局统计信息发送给从节点。
7.一种数据处理方法,其特征在于,包括:
接收主节点发送的全局初始统计信息,所述全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息;
根据所述各文档的层次主题路径,通过吉布斯采样为所述各文档中的每个单词重新分配主题;
根据所述嵌套的中国餐馆过程先验,更新后的文档-主题计数矩阵及主题-单词计数矩阵,通过吉布斯采样,为每个文档重新分配层次主题路径;
将局部统计信息发送给主节点,所述局部统计信息包括:本从节点的更新后的文档-主题计数矩阵信息,主题-单词计数矩阵信息以及各文档的层次主题路径信息。
8.根据权利要求7所述的方法,其特征在于,所述根据所述各文档的层次主题路径,通过吉布斯采样为所述各文档中的每个单词重新分配主题之后包括:
更新重新分配单词主题后的各文档的文档-主题计数矩阵,及主题-单词计数矩阵信息。
9.根据权利要求8所述的方法,其特征在于,所述根据所述各文档的层次主题路径,通过吉布斯采样为所述各文档中的每个单词重新分配主题包括:
为所述文本子集的每个文档分配多个层次主题,并在所述多个层子主题中,通过吉布斯采样为文档中每个单词分配对应的主题。
10.根据权利要求7至9任一项权利要求所述的方法,其特征在于,所述方法还包括:
若接收到所述主节点发送的新的全局统计信息,则根据所述新的全局统计信息,通过吉布斯采样为所述各文档重新分配层次主题路径,为所述各文档中的每个单词重新分配主题。
11.一种主节点,其特征在于,包括:
发送单元,用于将全局初始统计信息发送给各从节点,所述全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息,还用于若从节点进行的吉布斯采样未结束,则将新的全局统计信息发送给从节点,以及用于若求解层次隐含狄利克雷分配模型超参数迭代未收敛,则将更新层次隐含狄利克雷分配模型超参数后的所述新的全局统计信息发送给从节点;
归并单元,用于归并接收到的各从节点的局部统计信息,得到新的全局统计信息,所述局部统计信息包括:所述各从节点的文档-主题计数矩阵,主题-单词计数矩阵,文档层次主题路径,所述新的全局统计信息包括:全局文本-主题计数矩阵信息,主题-单词计数矩阵信息,所述各从节点的主题-单词计数矩阵信息,以及全局文档层次主题路径;
计算单元,用于若从节点进行的吉布斯采样已结束,则根据所述新的全局统计信息计算文档与主题之间的概率分布,以及主题与单词之间的概率分布;还用于根据计算所得到的概率分布,建立文本集的似然函数,并极大化所述似然函数,得到新的层次隐含狄利克雷分配模型超参数,以及用于若求解层次隐含狄利克雷分配模型超参数迭代收敛,则根据所述新的层次隐含狄利克雷分配模型超参数,计算并输出文档与主题之间的概率分布,以及主题与单词之间的概率分布。
12.根据权利要求11所述的主节点,其特征在于,所述主节点还包括:
设定单元,用于为层次隐含狄利克雷分配模型的各超参数分别设定不同的初始值;
划分单元,用于将所述文本集划分成多个文本子集,所述文本子集的数量与节点的数量相同;
分配单元,用于为所述文本集中的每个文档分配一个主题路径,为文档中的每个单词分配一个主题,根据统计的所述文本集的单词总数,每个文档包含的单词总数,以及所述文本集的单词表,得到文档-主题计数矩阵及主题-单词计数矩阵;
判断单元,用于判断从节点进行的吉布斯采样是否结束,通过根据吉布斯采样的迭代次数或者似然函数的梯度判断吉布斯采样是否结束的方式,判断吉布斯采样是否结束,还用于根据期望最大算法判断求解层次隐含狄利克雷分配模型超参数迭代是否收敛,通过当所述层次隐含狄利克雷分配模型超参数对所述文档集合的似然函数值的梯度小于预置梯度阈值时,则确定期望最大算法的迭代已经收敛的方式,判断层次隐含狄利克雷分配模型求解的迭代是否收敛。
13.根据权利要求12所述的主节点,其特征在于,
所述发送单元,还用于若从节点进行的吉布斯采样未结束,则将所述新的全局统计信息发送给所述从节点,若求解层次隐含狄利克雷分配模型超参数迭代未收敛,则将更新层次隐含狄利克雷分配模型超参数后的所述新的全局统计信息发送给从节点。
14.一种从节点,其特征在于,包括:
接收信息单元,用于接收主节点发送的全局初始统计信息,所述全局初始统计信息包括:根据文本集预先划分的文本子集信息,预先设置的层次隐含狄利克雷分配模型的初始超参数信息,预先建立的所述文本集的嵌套的中国餐馆过程先验,文档的层次主题路径信息,文档-主题计数矩阵信息,主题-单词计数矩阵信息;
分配主题单元,用于根据所述各文档的层次主题路径,通过吉布斯采样为所述各文档中的每个单词重新分配主题;
分配路径单元,用于根据所述嵌套的中国餐馆过程先验,更新后的文档-主题计数矩阵及主题-单词计数矩阵,通过吉布斯采样,为每个文档重新分配层次主题路径;
发送信息单元,用于将局部统计信息发送给主节点,所述局部统计信息包括:本从节点的更新后的文档-主题计数矩阵信息,主题-单词计数矩阵信息以及各文档的层次主题路径信息。
15.根据权利要求14所述的从节点,其特征在于,所述从节点还包括:
更新单元,用于更新重新分配单词主题后的各文档的文档-主题计数矩阵,及主题-单词计数矩阵信息。
16.根据权利要求15所述的从节点,其特征在于,
所述分配主题单元,用于通过为所述文本子集的每个文档分配多个层次主题,并在所述多个层子主题中,通过吉布斯采样为文档中每个单词分配对应的主题的方式,为文档中每个单词分配对应的主题。
17.根据权利要求14至16任意一项所述的从节点,其特征在于,
所述分配路径单元,还用于若接收到所述主节点发送的新的全局统计信息,则根据所述新的全局统计信息,通过吉布斯采样为所述各文档重新选择层次主题路径;
所述为所述分配主题单元,还用于若接收到所述主节点发送的新的全局统计信息,则根据所述新的全局统计信息,通过吉布斯采样所述各文档中的每个单词重新分配主题。
18.一种数据处理系统,其特征在于,包括:
如权利要求11至13任一项所述的主节点,以及如权利要求14至17任一项所述的从节点。
CN201110424177.0A 2011-12-16 2011-12-16 一种数据处理方法、系统及相关装置 Active CN102591917B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201110424177.0A CN102591917B (zh) 2011-12-16 2011-12-16 一种数据处理方法、系统及相关装置
PCT/CN2012/075842 WO2013086834A1 (zh) 2011-12-16 2012-05-22 一种数据处理方法、系统及相关装置
US13/722,078 US8527448B2 (en) 2011-12-16 2012-12-20 System, method and apparatus for increasing speed of hierarchial latent dirichlet allocation model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110424177.0A CN102591917B (zh) 2011-12-16 2011-12-16 一种数据处理方法、系统及相关装置

Publications (2)

Publication Number Publication Date
CN102591917A true CN102591917A (zh) 2012-07-18
CN102591917B CN102591917B (zh) 2014-12-17

Family

ID=46480567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110424177.0A Active CN102591917B (zh) 2011-12-16 2011-12-16 一种数据处理方法、系统及相关装置

Country Status (2)

Country Link
CN (1) CN102591917B (zh)
WO (1) WO2013086834A1 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239327A (zh) * 2013-06-17 2014-12-24 中国科学院深圳先进技术研究院 一种基于位置信息的移动互联网用户行为分析方法及装置
CN104750777A (zh) * 2014-12-31 2015-07-01 东软集团股份有限公司 文本标注方法及系统
CN106502983A (zh) * 2016-10-17 2017-03-15 清华大学 隐式狄利克雷模型的事件驱动的坍缩吉布斯采样方法
CN106776641A (zh) * 2015-11-24 2017-05-31 华为技术有限公司 一种数据处理方法及装置
CN106919997A (zh) * 2015-12-28 2017-07-04 航天信息股份有限公司 一种基于lda的电子商务的用户消费预测方法
CN107491417A (zh) * 2017-07-06 2017-12-19 复旦大学 一种基于特定划分的主题模型下的文档生成方法
CN108140034A (zh) * 2015-09-30 2018-06-08 微软技术许可有限责任公司 使用主题模型基于接收的词项选择内容项目
CN108197154A (zh) * 2017-12-08 2018-06-22 复旦大学 交互式文档探索的在线子集主题建模方法
CN108334897A (zh) * 2018-01-22 2018-07-27 上海海事大学 一种基于自适应高斯混合模型的海上漂浮物轨迹预测方法
CN108573338A (zh) * 2018-03-14 2018-09-25 中山大学 一种基于mpi的分布式差分进化算法及装置
CN108763400A (zh) * 2018-05-22 2018-11-06 合肥工业大学 基于对象行为和主题偏好的对象划分方法及装置
CN109190011A (zh) * 2018-10-19 2019-01-11 中国科学院重庆绿色智能技术研究院 一种基于lda主题模型的新闻段落检索方法
CN110110861A (zh) * 2019-05-09 2019-08-09 北京市商汤科技开发有限公司 确定模型超参数及模型训练的方法和装置、存储介质
CN110299206A (zh) * 2018-03-21 2019-10-01 华东师范大学 一种多内容隐含狄利克雷分布模型及中医医案隐含病机挖掘方法
CN111149117A (zh) * 2017-09-28 2020-05-12 甲骨文国际公司 机器学习和深度学习模型的基于梯度的自动调整
CN112596893A (zh) * 2020-11-23 2021-04-02 中标慧安信息技术股份有限公司 用于多节点边缘计算设备的监控方法和系统
CN112733542A (zh) * 2021-01-14 2021-04-30 北京工业大学 主题的探测方法、装置、电子设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763207A (zh) * 2018-05-22 2018-11-06 南京大学 一种lda主题模型优化采样方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101986298A (zh) * 2010-10-28 2011-03-16 浙江大学 用于在线论坛的信息实时推荐方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1269064C (zh) * 2001-03-02 2006-08-09 惠普公司 文档和信息检索方法及设备
CN101359333B (zh) * 2008-05-23 2010-06-16 中国科学院软件研究所 一种基于隐含狄利克雷分配模型的并行数据处理方法
CN102243625B (zh) * 2011-07-19 2013-05-15 北京航空航天大学 一种基于N-gram增量主题模型的语义挖掘方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101986298A (zh) * 2010-10-28 2011-03-16 浙江大学 用于在线论坛的信息实时推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ASLI CELIKYILMAZ等: "A Hybrid Hierarchical Model for Multiple-Document Summarization", 《PROCEEDINGS OF THE 48TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
张明慧等: "基于LDA主题特征的自动文摘方法", 《计算机应用与软件》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239327B (zh) * 2013-06-17 2017-11-07 中国科学院深圳先进技术研究院 一种基于位置信息的移动互联网用户行为分析方法及装置
CN104239327A (zh) * 2013-06-17 2014-12-24 中国科学院深圳先进技术研究院 一种基于位置信息的移动互联网用户行为分析方法及装置
CN104750777A (zh) * 2014-12-31 2015-07-01 东软集团股份有限公司 文本标注方法及系统
CN104750777B (zh) * 2014-12-31 2018-04-06 东软集团股份有限公司 文本标注方法及系统
CN108140034B (zh) * 2015-09-30 2022-03-29 微软技术许可有限责任公司 使用主题模型基于接收的词项选择内容项目
CN108140034A (zh) * 2015-09-30 2018-06-08 微软技术许可有限责任公司 使用主题模型基于接收的词项选择内容项目
CN106776641A (zh) * 2015-11-24 2017-05-31 华为技术有限公司 一种数据处理方法及装置
WO2017088587A1 (zh) * 2015-11-24 2017-06-01 华为技术有限公司 一种数据处理方法及装置
CN106919997A (zh) * 2015-12-28 2017-07-04 航天信息股份有限公司 一种基于lda的电子商务的用户消费预测方法
CN106502983B (zh) * 2016-10-17 2019-05-10 清华大学 隐式狄利克雷模型的事件驱动的坍缩吉布斯采样方法
CN106502983A (zh) * 2016-10-17 2017-03-15 清华大学 隐式狄利克雷模型的事件驱动的坍缩吉布斯采样方法
CN107491417B (zh) * 2017-07-06 2021-06-22 复旦大学 一种基于特定划分的主题模型下的文档生成方法
CN107491417A (zh) * 2017-07-06 2017-12-19 复旦大学 一种基于特定划分的主题模型下的文档生成方法
CN111149117A (zh) * 2017-09-28 2020-05-12 甲骨文国际公司 机器学习和深度学习模型的基于梯度的自动调整
CN111149117B (zh) * 2017-09-28 2023-09-19 甲骨文国际公司 机器学习和深度学习模型的基于梯度的自动调整
CN108197154A (zh) * 2017-12-08 2018-06-22 复旦大学 交互式文档探索的在线子集主题建模方法
CN108197154B (zh) * 2017-12-08 2021-07-23 复旦大学 交互式文档探索的在线子集主题建模方法
CN108334897A (zh) * 2018-01-22 2018-07-27 上海海事大学 一种基于自适应高斯混合模型的海上漂浮物轨迹预测方法
CN108334897B (zh) * 2018-01-22 2023-04-07 上海海事大学 一种基于自适应高斯混合模型的海上漂浮物轨迹预测方法
CN108573338A (zh) * 2018-03-14 2018-09-25 中山大学 一种基于mpi的分布式差分进化算法及装置
CN110299206A (zh) * 2018-03-21 2019-10-01 华东师范大学 一种多内容隐含狄利克雷分布模型及中医医案隐含病机挖掘方法
CN108763400A (zh) * 2018-05-22 2018-11-06 合肥工业大学 基于对象行为和主题偏好的对象划分方法及装置
CN108763400B (zh) * 2018-05-22 2021-09-14 合肥工业大学 基于对象行为和主题偏好的对象划分方法及装置
CN109190011A (zh) * 2018-10-19 2019-01-11 中国科学院重庆绿色智能技术研究院 一种基于lda主题模型的新闻段落检索方法
CN110110861A (zh) * 2019-05-09 2019-08-09 北京市商汤科技开发有限公司 确定模型超参数及模型训练的方法和装置、存储介质
CN110110861B (zh) * 2019-05-09 2021-11-26 北京市商汤科技开发有限公司 确定模型超参数及模型训练的方法和装置、存储介质
CN112596893B (zh) * 2020-11-23 2021-10-08 中标慧安信息技术股份有限公司 用于多节点边缘计算设备的监控方法和系统
CN112596893A (zh) * 2020-11-23 2021-04-02 中标慧安信息技术股份有限公司 用于多节点边缘计算设备的监控方法和系统
CN112733542A (zh) * 2021-01-14 2021-04-30 北京工业大学 主题的探测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2013086834A1 (zh) 2013-06-20
CN102591917B (zh) 2014-12-17

Similar Documents

Publication Publication Date Title
CN102591917A (zh) 一种数据处理方法、系统及相关装置
US8527448B2 (en) System, method and apparatus for increasing speed of hierarchial latent dirichlet allocation model
US8380697B2 (en) Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency
Afrati et al. Parallel skyline queries
CN102402605B (zh) 用于搜索引擎索引的混合分布模型
CN101266603B (zh) 一种网页信息分类方法、系统及应用该分类的服务系统
CN102063469B (zh) 一种用于获取相关关键词信息的方法、装置和计算机设备
Sun et al. The cost-efficient deployment of replica servers in virtual content distribution networks for data fusion
US20120317142A1 (en) Systmen and method for data management in large data networks
CN105701216A (zh) 一种信息推送方法及装置
CN102508859A (zh) 一种基于网页特征的广告分类方法及装置
CN102012936B (zh) 基于云计算平台的海量数据聚合方法和系统
US10467307B1 (en) Grouping of item data using seed expansion
CN104809130A (zh) 数据查询的方法、设备及系统
CN105786810B (zh) 类目映射关系的建立方法与装置
CN103268523A (zh) 一种实现多个性能指标要求同时满足的服务组合方法
US8738628B2 (en) Community profiling for social media
CN102364475A (zh) 基于身份识别对检索结果排序的系统及方法
CN106789147A (zh) 一种流量分析方法及装置
CN102760127A (zh) 基于扩展文本信息来确定资源类型的方法、装置及设备
CN109885651A (zh) 一种问题推送方法和装置
CN111562990B (zh) 一种基于消息的轻量级无服务器计算方法
Mahmood et al. FAST: frequency-aware spatio-textual indexing for in-memory continuous filter query processing
US20220284023A1 (en) Estimating computational cost for database queries
CN110781384B (zh) 一种基于优先级的内容推荐方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220406

Address after: 215010 room 704, building 5, No. 556, Changjiang Road, high tech Zone, Suzhou, Jiangsu

Patentee after: SUZHOU YUDESHUI ELECTRICAL TECHNOLOGY Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220419

Address after: 300000 Building 1, block g, No. 6, Huafeng Road, Huaming high tech Industrial Zone, Dongli District, Tianjin

Patentee after: USTC TIANGONG INTELLIGENT EQUIPMENT TECHNOLOGY (TIANJIN) CO.,LTD.

Address before: 215010 room 704, building 5, No. 556, Changjiang Road, high tech Zone, Suzhou, Jiangsu

Patentee before: SUZHOU YUDESHUI ELECTRICAL TECHNOLOGY Co.,Ltd.

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20120718

Assignee: Yifei Xinghe (Tianjin) Intelligent Technology Co.,Ltd.

Assignor: USTC TIANGONG INTELLIGENT EQUIPMENT TECHNOLOGY (TIANJIN) CO.,LTD.

Contract record no.: X2024980003514

Denomination of invention: A data processing method, system, and related device

Granted publication date: 20141217

License type: Common License

Record date: 20240326

Application publication date: 20120718

Assignee: TIANJIN SUNCITY TESTING CO.,LTD.

Assignor: USTC TIANGONG INTELLIGENT EQUIPMENT TECHNOLOGY (TIANJIN) CO.,LTD.

Contract record no.: X2024980003505

Denomination of invention: A data processing method, system, and related device

Granted publication date: 20141217

License type: Common License

Record date: 20240326

Application publication date: 20120718

Assignee: Youwalker thermal technology (Tianjin) Co.,Ltd.

Assignor: USTC TIANGONG INTELLIGENT EQUIPMENT TECHNOLOGY (TIANJIN) CO.,LTD.

Contract record no.: X2024980003504

Denomination of invention: A data processing method, system, and related device

Granted publication date: 20141217

License type: Common License

Record date: 20240326