CN111611389B - 基于非参数vmf混合模型的文本数据聚类方法、装置及设备 - Google Patents
基于非参数vmf混合模型的文本数据聚类方法、装置及设备 Download PDFInfo
- Publication number
- CN111611389B CN111611389B CN202010499191.6A CN202010499191A CN111611389B CN 111611389 B CN111611389 B CN 111611389B CN 202010499191 A CN202010499191 A CN 202010499191A CN 111611389 B CN111611389 B CN 111611389B
- Authority
- CN
- China
- Prior art keywords
- vmf
- model
- text
- nonparametric
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Abstract
本发明公开了一种基于非参数VMF混合模型的文本数据聚类方法、装置及设备,方法包括:S101,获取待聚类的文本数据集;其中,所述文本数据集包括多个文本,每个文本用词频‑逆文本频率指数标准化方法表示为D维的文本向量特征;S102,使用基于Pitman‑Yor过程的非参数VMF混合模型对每个文本进行建模;S103,通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数;S104,根据推断的所述模型参数,判断所述非参数VMF混合模型是否收敛;若否,则返回步骤S103,若是,则执行步骤S105;S105,根据指示因子的后验概率判断每个文本的所属类别,从而根据所属类别对所述文本进行聚类。本发明能够确保算法收敛并且可以有效地检测收敛状态。
Description
技术领域
本发明涉及文本挖掘领域,尤其涉及一种基于非参数VMF混合模型的文本数据聚类方法、装置及设备。
背景技术
随着互联网的快速发展和新闻文档的广泛使用,文本数据聚类作为文本挖掘中最有用的任务之一,近年来受到越来越多的关注。
现有技术一中,钟文良等提出了一种基于Pitman-Yor过程的不平衡文本数据聚类方法。在该方法中,每一个文本用TF(词频,term frequency)向量表示,向量的每个属性代表一个特定的词项(术语)在文档中出现的频率,每个类别中的所有词项都服从同一个多项分布(Multinomial Distribution)。该方法采用Polya罐子模型(Polya urn model)来构建基于多项分布的Pitman-Yor过程模型,并利用Gibbs采样算法进行模型参数的求解。其存在的缺陷是:
1、每个文本用TF向量来表示。然而在本文数据分析领域中,许多研究工作已经显示使用TF-IDF向量表示方法总是比使用TF会得到更好的性能。此外,由于基于TF-IDF的向量可以表示为单位球面(unit-sphere)上的一个点,所以本发明使用基于VMF概率分布的混合模型是一个恰当地选择。
2、Pitman-Yor过程模型使用Polya罐子模型来进行构建。不能直观地表示Pitman-Yor过程模型的离散性质。
3.采用的Gibbs采样算法进行模型参数的求解无法得到解析解,并且不容易收敛且很难确定收敛状态。
现有技术二中,Nguyen Kim Anh等提出了基于狄利克雷过程(DirichletProcess,DP)的VMF混合模型的文档聚类方法。在该方法中每一个文本用TF-IDF向量表示,并假设每个文本都服从基于DP的VMF混合模型。该方法分别采用了渐进逼近(AsymptoticApproximation)以及变分贝叶斯推断方法来估算VMF的浓度参数和其余模型参数。
其存在缺陷是:
1.文本聚类方法基于狄利克雷过程(DP)框架所构建的VMF混合模型。由于DP混合模型通常无法识别出仅含有少量数据样本的类别,所以不能有效地对不平衡数据进行聚类分析。
2、VMF概率分布中的浓度参数在基于VMF的建模应用中起到至关重要的作用。现有技术二中浓度参数使用渐进逼近的方法来得到估计值,然而该估算方法无法有效应对高维数据。
发明内容
有鉴于此,本发明的目的在于提供一种基于非参数VMF混合模型的文本数据聚类方法、装置及设备,能够确保算法收敛并且可以有效地检测收敛状态。
本发明实施例提供了一种基于非参数VMF混合模型的文本数据聚类方法,包括:
S101,获取待聚类的文本数据集;其中,所述文本数据集包括多个文本,每个文本用词频-逆文本频率指数标准化方法表示为D维的文本向量特征;
S102,使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模;
S103,通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数;
S104,根据推断的所述模型参数,判断所述非参数VMF混合模型是否收敛;若否,则返回步骤S103,若是,则执行步骤S105;
S105,根据指示因子的后验概率判断每个文本的所属类别,从而根据所属类别对所述文本进行聚类。
优选地,所述使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模,具体包括:
获取VMF概率分布的概率密度函数;
对服从非参数VMF混合模型的每个文本,获取其概率密度函数表达式;
其中pg(·)为Gamma分布;
获得基于Pitman-Yor过程模型的非参数VMF混合模型的全概率表达式为:
优选地,非参数VMF混合模型基于采用Stick-Breaking表示方法的Pitman-Yor过程模型构建而成;在基于Stick-Breaking表示方法的Pitman-Yor过程模型中,混合系数πk的表示如下:
其中pb(·)为Beta分布,α为Pitman-Yor过程模型中的折扣参数并满足条件0≤α≤1,β为密度参数满足条件β>-α。
优选地,所述通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数,以及
根据推断的所述模型参数,判断所述非参数VMF混合模型是否收敛;
具体包括:
利用当前的模型参数更新变分后验以及期望值;
获得当前迭代所产生的变分下界;
将当前迭代产生的变分下界与上一次迭代产生的变分下界进行对比以判断所述非参数VMF混合模型是否收敛。
优选地,利用当前的模型参数更新变分后验以及期望值具体为:
定义变分下界为:
L(q)=<ln p(Θ|X)>-<ln q(Θ)>
使用截断技术把混合组件从无穷维度空间截断到K维空间:
其中,K为截断层数,即类别的个数,K值可以初始化为任意值,并将于收敛时达到最优值;
通过最大化变分下界L(q)来优化所有的变分后验:
上式中的超参数可以由如下公式计算得出:
上式中的期望值的计算由下面公式计算得出:
<Znk>=rnk (14)
<lnπ′k>=Ψ(gk)-Ψ(gk+hk) (16)
<ln(1-π′k)>=Ψ(hk)-Ψ(gk+hk) (17)
其中,Ψ(·)为Digamma函数。
优选地,将当前迭代产生的变分下界与上一次迭代产生的变分下界进行对比以判断所述非参数VMF混合模型是否收敛具体为:
当前迭代产生的变分下界与上一次迭代产生的变分下界的差是否小于预设阈值;
若是,则判定所述非参数VMF混合模型收敛;
若否,则判定所述非参数VMF混合模型不收敛。
优选地,所述预设阈值为0.0001。
优选地,根据指示因子的后验概率判断每个文本的所属类别,从而根据所属类别对所述文本进行聚类,具体为:
本发明实施例还提供了一种基于非参数VMF混合模型的文本数据聚类装置,包括:
文本数据集获取单元,用于获取待聚类的文本数据集;其中,所述文本数据集包括多个文本,每个文本用词频-逆文本频率指数标准化方法表示为D维的文本向量特征;
建模单元,用于使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模;
模型参数估算单元,用于通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数;
收敛判断单元,用于根据推断的所述模型参数,判断所述非参数VMF混合模型是否收敛;若否,则通知模型参数估算单元,若是,则通知分类单元;
分类单元,用于根据指示因子的后验概率判断每个文本的所属类别,从而根据所属类别对所述文本进行聚类。
本发明实施例还提供了一种基于非参数VMF混合模型的文本数据聚类设备,包括存储器以及处理器,所述存储器内存储有待聚类的文本数据集以及计算机程序,所述计算机程序能够被所述处理器执行,以实现如上述的基于非参数VMF混合模型的文本数据聚类方法。
上述一个实施例中,通过采用基于Pitman-Yor过程的非参数VMF来构建基于VMF概率分布的非参数VMF混合模型,并使用该模型对文本数据集进行聚类分析。本实施例所构建的VMF混合模型是指由含若干个VMF概率分布通过加权组合的方式所形成的概率分布。在本实施例中,每一个文本用TF-IDF向量表示,并且每个文本都服从VMF混合模型。为了能够灵活地根据数据的大小从而自动调节文本类别的个数,本实施例使用名为Pitman-Yor过程的非参数模型框架来构建基于VMF分布的非参数混合模型。所提出的非参数VMF混合模型的参数通过变分贝叶斯推断(Variational Bayes Inference)算法进行估算。与现有技术相比,本实施例具有如下优点:
1、本实施例中的Pitman-Yor过程模型基于Stick-Breaking表示方法,该构建方法可以更直观地表示Pitman-Yor过程模型的离散性质,并更容易将其应用在混合模型上从而实现聚类分析。
2、本实施例所提出的变分推断方法可以得到解析解,从而使得参数估算速度更快。此外,本实施例所提出的变分推断方法可以确保算法收敛并且可以通过计算变分下界(Variational Lower Bound)从而有效地检测收敛状态。
3、本实施例所提出的方法基于Pitman-Yor过程模型由于具有可以用来控制产生新类别数量的折扣参数,所以在处理不平衡数据时比基于DP混合模型的方法更具优势。
4、本实施例中,浓度参数将被看作为一个随机参数并赋予其一个先验概率分布,并通过变分贝叶斯推断效计算高维空间中的参数值。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一实施例提供的基于非参数VMF混合模型的文本数据聚类方法的一种流程示意图。
图2为本发明第一实施例提供的基于非参数VMF混合模型的文本数据聚类方法的另一种流程示意图。
图3为本发明第二实施例提供的基于非参数VMF混合模型的文本数据聚类装置的程序模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明第一实施例提供了一种基于非参数VMF混合模型的文本数据聚类方法,其可由基于非参数VMF混合模型的文本数据聚类设备(以下简称聚类设备)来执行,并至少包括:
S101,获取待聚类的文本数据集;其中,所述文本数据集包括多个文本,每个文本用词频-逆文本频率指数标准化方法表示为D维的文本向量特征。
在本实施例中,所述聚类设备可为笔记本电脑、台式电脑或者服务器等具有数据处理功能的计算机设备,所述计算机设备可通过执行预定的程序来实现基于非参数VMF混合模型的文本数据聚类方法。
在本实施例中,词频-逆文本频率指数(Term Frequency-Inverse DocumentFrequency,TF-IDF)是一种用于资讯检索与文本挖掘的常用加权技术,可以用来评估一个词对于一个文档集或语料库中某个文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
S102,使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模。
在本实施例中,步骤S102具体包括:
S1021,获取VMF概率分布的概率密度函数;
S1022,对服从非参数VMF混合模型的每个文本,获取其概率密度函数表达式:
其中,表示所收集到的含有N个文本的数据集;此式中,该混合模型共由无穷多个混合组件(也称为混合成分)组成,每个混合组件对应一个VMF概率分布其中是第k个混合组件的参数,而πk>0为相应的“混合系数”(mixingcoefficient),并满足条件在本实施例中,非参数VMF混合模型基于采用Stick-Breaking表示方法的Pitman-Yor过程模型构建而成。在基于Stick-Breaking表示方法的Pitman-Yor过程模型中,混合系数πk的表示如下:
其中pb(·)为Beta分布,α为Pitman-Yor过程模型中的折扣(Discount)参数并满足条件0≤α≤1,β为密度参数满足条件β>-α。
其中pg(·)为Gamma分布;
S1025,获得基于Pitman-Yor过程模型的非参数VMF混合模型的全概率表达式为:
如此,即获得了基于Pitman-Yor过程模型的非参数VMF混合模型。
S103,通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数。
S104,根据推断的所述模型参数,判断所述非参数VMF混合模型是否收敛;若否,则返回步骤S103,若是,则执行步骤S105。
具体地,包括:
然后,利用当前的模型参数更新变分后验以及期望值。
其中,先定义变分下界为:
L(q)=<ln p(Θ|X)>-<ln q(Θ)>
使用截断技术把混合组件从无穷维度空间截断到K维空间:
其中,K为截断层数,即类别的个数,K值可以初始化为任意值,并将于收敛时达到最优值;
通过最大化变分下界L(q)来优化所有的变分后验:
式(1)-(3)中的超参数可以由如下公式计算得出:
式(4)-(11)中的期望值的计算由下面公式计算得出:
<Znk>=rnk (14)
<lnπ′k>=Ψ(gk)-Ψ(gk+hk) (16)
<ln(1-π′k)>=Ψ(hk)-Ψ(gk+hk) (17)
其中,Ψ(·)为Digamma函数。
再接着,获得当前迭代所产生的变分下界。
由式(1)-(17),在获取更新后的模型参数以及期望值后,可以获得当前迭代所产生的变分下界。
最后,将当前迭代产生的变分下界与上一次迭代产生的变分下界进行对比以判断所述非参数VMF混合模型是否收敛。
具体地,判断当前迭代产生的变分下界与上一次迭代产生的变分下界的差是否小于预设阈值;若是,则判定所述非参数VMF混合模型已经收敛,此时的截断层数达到最优值;若否,则判定所述非参数VMF混合模型不收敛,此时需要再进行下一步的迭代。
在本发明的较佳实施例中,所述预设阈值可为0.0001,但需要说明的是,还可以是其他数值,预设阈值越小则迭代的精度越高。
S105,根据指示因子的后验概率判断每个文本的所属类别,从而根据所属类别对所述文本进行聚类。
在本实施例中,在模型收敛后,获得收敛后的模型参数中的指示因子的后验概率rnk,该指示因子的后验概率rnk表示第n个文本属于第k个类别的概率,此时根据rnk选取概率最大的类别作为文本的类别,再根据文本的类别就可以实现对文本数据集中的不同文本的聚类了。
为便于对本发明的理解,下面将以一实际的例子来说明本实施例的应用。
本例子通过有效性在两个公开文本数据集(CNAE-9数据集和20-Newsgroups数据集)上进行了验证。
本例子以Windows10系统为实验平台,以Matlab为程序语言,参数设置参见第一实施例中。聚类结果以标准化互信息(Normalized Mutual Information,NMI)来进行度量。此外,本例子所提出的PYP-VMF文本聚类方法和两种相接近技术进行了实验对比。接近技术1为基于Pitman-Yor过程与多项分布,简称为PYP-Mul;接近技术2基于Dirichlet过程和VMF分布,简称为DP-VMF。各方法重复10次实验,取平均NMI值作为对比指标。实验结果如表1所示。从对比结果上可以看出,与现有相近技术相比,本实施例能够得到更好的文本聚类结果(更高的NMI值)。
表1
综上所述,本实施例提供的基于非参数VMF混合模型的文本数据聚类方法,通过采用基于Pitman-Yor过程的非参数VMF来构建基于VMF概率分布的非参数VMF混合模型,并使用该模型对文本数据集进行聚类分析。本实施例所构建的VMF混合模型是指由含若干个VMF概率分布通过加权组合的方式所形成的概率分布。在本实施例中,每一个文本用TF-IDF向量表示,并且每个文本都服从VMF混合模型。为了能够灵活地根据数据的大小从而自动调节文本类别的个数,本实施例使用名为Pitman-Yor过程的非参数模型框架来构建基于VMF分布的非参数混合模型。所提出的非参数VMF混合模型的参数通过变分贝叶斯推断(Variational Bayes Inference)算法进行估算。与现有技术相比,本实施例具有如下优点:
(1)、本实施例中的Pitman-Yor过程模型基于Stick-Breaking表示方法,该构建方法可以更直观地表示Pitman-Yor过程模型的离散性质,并更容易将其应用在混合模型上从而实现聚类分析。
(2)、本实施例所提出的变分推断方法可以得到解析解,从而使得参数估算速度更快。此外,本实施例所提出的变分推断方法可以确保算法收敛并且可以通过计算变分下界(Variational Lower Bound)从而有效地检测收敛状态。
(3)、本实施例所提出的方法基于Pitman-Yor过程模型由于具有可以用来控制产生新类别数量的折扣参数,所以在处理不平衡数据时比基于DP混合模型的方法更具优势。
(4)、本实施例中,浓度参数将被看作为一个随机参数并赋予其一个先验概率分布,并通过变分贝叶斯推断效计算高维空间中的参数值。
请参阅图3,本发明第二实施例还提供了一种基于非参数VMF混合模型的文本数据聚类装置,包括:
文本数据集获取单元210,用于获取待聚类的文本数据集;其中,所述文本数据集包括多个文本,每个文本用词频-逆文本频率指数标准化方法表示为D维的文本向量特征;
建模单元220,用于使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模;
模型参数估算单元230,用于通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数;
收敛判断单元240,用于根据推断的所述模型参数,判断所述非参数VMF混合模型是否收敛;若否,则通知模型参数估算单元230,若是,则通知分类单元250;
分类单元250,用于根据指示因子的后验概率判断每个文本的所属类别,从而根据所属类别对所述文本进行聚类。
本发明第三实施例还提供了一种基于非参数VMF混合模型的文本数据聚类设备,包括存储器以及处理器,所述存储器内存储有待聚类的文本数据集以及计算机程序,所述计算机程序能够被所述处理器执行,以实现如上述的基于非参数VMF混合模型的文本数据聚类方法。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于非参数VMF混合模型的文本数据聚类方法,其特征在于,包括:
S101,获取待聚类的文本数据集;其中,所述文本数据集包括多个文本,每个文本用词频-逆文本频率指数标准化方法表示为D维的文本向量特征;
S102,使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模;
S103,通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数;
S104,根据推断的所述模型参数,判断所述非参数VMF混合模型是否收敛;若否,则返回步骤S103,若是,则执行步骤S105;
S105,根据指示因子的后验概率判断每个文本的所属类别,从而根据所属类别对所述文本进行聚类;其中,所述使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模,具体包括:
获取VMF概率分布的概率密度函数;
对服从非参数VMF混合模型的每个文本,获取其概率密度函数表达式;
其中pg(·)为Gamma分布;
获得基于Pitman-Yor过程模型的非参数VMF混合模型的全概率表达式为:
其中,非参数VMF混合模型基于采用Stick-Breaking表示方法的Pitman-Yor过程模型构建而成;在基于Stick-Breaking表示方法的Pitman-Yor过程模型中,混合系数πk的表示如下:
其中pb(·)为Beta分布,α为Pitman-Yor过程模型中的折扣参数并满足条件0≤α≤1,β为密度参数满足条件β>-α。
2.根据权利要求1所述的基于非参数VMF混合模型的文本数据聚类方法,其特征在于,
所述通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数,以及
根据推断的所述模型参数,判断所述非参数VMF混合模型是否收敛;
具体包括:
利用当前的模型参数更新变分后验以及期望值;
获得当前迭代所产生的变分下界;
将当前迭代产生的变分下界与上一次迭代产生的变分下界进行对比以判断所述非参数VMF混合模型是否收敛。
3.根据权利要求2所述的基于非参数VMF混合模型的文本数据聚类方法,其特征在于,利用当前的模型参数更新变分后验以及期望值具体为:
定义变分下界为:
L(q)=<lnp(Θ|X)>-<lnq(Θ)>
使用截断技术把混合组件从无穷维度空间截断到K维空间:
其中,K为截断层数,即类别的个数,K值可以初始化为任意值,并将于收敛时达到最优值;
通过最大化变分下界L(q)来优化所有的变分后验:
上式中的超参数可以由如下公式计算得出:
上式中的期望值的计算由下面公式计算得出:
<Znk>=rnk (14)
<lnπ′k>=Ψ(gk)-Ψ(gk+hk) (16)
<ln(1-π′k)>=Ψ(hk)-Ψ(gk+hk) (17)
其中,Ψ(·)为Digamma函数。
4.根据权利要求2所述的基于非参数VMF混合模型的文本数据聚类方法,其特征在于,
将当前迭代产生的变分下界与上一次迭代产生的变分下界进行对比以判断所述非参数VMF混合模型是否收敛具体为:
当前迭代产生的变分下界与上一次迭代产生的变分下界的差是否小于预设阈值;
若是,则判定所述非参数VMF混合模型收敛;
若否,则判定所述非参数VMF混合模型不收敛。
5.根据权利要求4所述的基于非参数VMF混合模型的文本数据聚类方法,其特征在于,
所述预设阈值为0.0001。
7.一种基于非参数VMF混合模型的文本数据聚类装置,其特征在于,包括:
文本数据集获取单元,用于获取待聚类的文本数据集;其中,所述文本数据集包括多个文本,每个文本用词频-逆文本频率指数标准化方法表示为D维的文本向量特征;
建模单元,用于使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模;其中,具体用于:
获取VMF概率分布的概率密度函数;
对服从非参数VMF混合模型的每个文本,获取其概率密度函数表达式;
其中pg(·)为Gamma分布;
获得基于Pitman-Yor过程模型的非参数VMF混合模型的全概率表达式为:
其中,非参数VMF混合模型基于采用Stick-Breaking表示方法的Pitman-Yor过程模型构建而成;在基于Stick-Breaking表示方法的Pitman-Yor过程模型中,混合系数πk的表示如下:
其中pb(·)为Beta分布,α为Pitman-Yor过程模型中的折扣参数并满足条件0≤α≤1,β为密度参数满足条件β>-α;
模型参数估算单元,用于通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数;
收敛判断单元,用于根据推断的所述模型参数,判断所述非参数VMF混合模型是否收敛;若否,则通知模型参数估算单元,若是,则通知分类单元;
分类单元,用于根据指示因子的后验概率判断每个文本的所属类别,从而根据所属类别对所述文本进行聚类。
8.一种基于非参数VMF混合模型的文本数据聚类设备,其特征在于,包括存储器以及处理器,所述存储器内存储有待聚类的文本数据集以及计算机程序,所述计算机程序能够被所述处理器执行,以实现如权利要求1至6任意一项所述的基于非参数VMF混合模型的文本数据聚类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010499191.6A CN111611389B (zh) | 2020-06-04 | 2020-06-04 | 基于非参数vmf混合模型的文本数据聚类方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010499191.6A CN111611389B (zh) | 2020-06-04 | 2020-06-04 | 基于非参数vmf混合模型的文本数据聚类方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111611389A CN111611389A (zh) | 2020-09-01 |
CN111611389B true CN111611389B (zh) | 2022-05-27 |
Family
ID=72199201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010499191.6A Active CN111611389B (zh) | 2020-06-04 | 2020-06-04 | 基于非参数vmf混合模型的文本数据聚类方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111611389B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7430717B1 (en) * | 2000-09-26 | 2008-09-30 | International Business Machines Corporation | Method for adapting a K-means text clustering to emerging data |
US10049148B1 (en) * | 2014-08-14 | 2018-08-14 | Medallia, Inc. | Enhanced text clustering based on topic clusters |
CN110032642A (zh) * | 2019-03-26 | 2019-07-19 | 广东工业大学 | 基于词嵌入的流形主题模型的建模方法 |
-
2020
- 2020-06-04 CN CN202010499191.6A patent/CN111611389B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7430717B1 (en) * | 2000-09-26 | 2008-09-30 | International Business Machines Corporation | Method for adapting a K-means text clustering to emerging data |
US10049148B1 (en) * | 2014-08-14 | 2018-08-14 | Medallia, Inc. | Enhanced text clustering based on topic clusters |
CN110032642A (zh) * | 2019-03-26 | 2019-07-19 | 广东工业大学 | 基于词嵌入的流形主题模型的建模方法 |
Non-Patent Citations (1)
Title |
---|
基于混合模型的文本聚类研究综述;王方等;《情报学报》;20150531;第34卷(第5期);第536-544页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111611389A (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347835B (zh) | 文本聚类方法、电子装置及存储介质 | |
Taddy | Multinomial inverse regression for text analysis | |
US8645298B2 (en) | Topic models | |
CN112685539B (zh) | 基于多任务融合的文本分类模型训练方法和装置 | |
JP5164209B2 (ja) | 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体 | |
US20120197888A1 (en) | Method and apparatus for selecting clusterings to classify a predetermined data set | |
US11676075B2 (en) | Label reduction in maintaining test sets | |
CN113486670B (zh) | 基于目标语义的文本分类方法、装置、设备及存储介质 | |
US20200074277A1 (en) | Fuzzy input for autoencoders | |
KR20180056013A (ko) | 나노 물질의 독성을 예측하는 방법 및 장치 | |
CN111611389B (zh) | 基于非参数vmf混合模型的文本数据聚类方法、装置及设备 | |
CN116415593B (zh) | 一种研究前沿识别方法、系统、电子设备及存储介质 | |
Webster et al. | An adaptive sparse-grid iterative ensemble Kalman filter approach for parameter field estimation | |
CN111612101B (zh) | 非参数Waston混合模型的基因表达数据聚类方法、装置及设备 | |
US20190377784A1 (en) | Automated nonparametric content analysis for information management and retrieval | |
CN114238564A (zh) | 一种信息检索方法、装置、电子设备及存储介质 | |
CN113761186A (zh) | 文本情感分类方法和装置 | |
CN113011689A (zh) | 软件开发工作量的评估方法、装置及计算设备 | |
CN112509640B (zh) | 基因本体项名称生成方法、装置及存储介质 | |
CN111611380B (zh) | 语义搜索方法、系统及计算机可读存储介质 | |
Korolev et al. | Applying Time Series for Background User Identification Based on Their Text Data Analysis | |
McGrory et al. | Climate regime shift detection with a trans‐dimensional, sequential Monte Carlo, variational Bayes method | |
Friedland | Data Collection and Preparation | |
CN115936008A (zh) | 一种文本建模模型的训练方法、文本建模方法及装置 | |
CN117851600A (zh) | 文本数据分类方法、装置、计算机设备、存储介质和产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |