CN111611389B - 基于非参数vmf混合模型的文本数据聚类方法、装置及设备 - Google Patents

基于非参数vmf混合模型的文本数据聚类方法、装置及设备 Download PDF

Info

Publication number
CN111611389B
CN111611389B CN202010499191.6A CN202010499191A CN111611389B CN 111611389 B CN111611389 B CN 111611389B CN 202010499191 A CN202010499191 A CN 202010499191A CN 111611389 B CN111611389 B CN 111611389B
Authority
CN
China
Prior art keywords
vmf
model
text
nonparametric
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010499191.6A
Other languages
English (en)
Other versions
CN111611389A (zh
Inventor
范文涛
侯文娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN202010499191.6A priority Critical patent/CN111611389B/zh
Publication of CN111611389A publication Critical patent/CN111611389A/zh
Application granted granted Critical
Publication of CN111611389B publication Critical patent/CN111611389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Abstract

本发明公开了一种基于非参数VMF混合模型的文本数据聚类方法、装置及设备,方法包括:S101,获取待聚类的文本数据集;其中,所述文本数据集包括多个文本,每个文本用词频‑逆文本频率指数标准化方法表示为D维的文本向量特征;S102,使用基于Pitman‑Yor过程的非参数VMF混合模型对每个文本进行建模;S103,通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数;S104,根据推断的所述模型参数,判断所述非参数VMF混合模型是否收敛;若否,则返回步骤S103,若是,则执行步骤S105;S105,根据指示因子的后验概率判断每个文本的所属类别,从而根据所属类别对所述文本进行聚类。本发明能够确保算法收敛并且可以有效地检测收敛状态。

Description

基于非参数VMF混合模型的文本数据聚类方法、装置及设备
技术领域
本发明涉及文本挖掘领域,尤其涉及一种基于非参数VMF混合模型的文本数据聚类方法、装置及设备。
背景技术
随着互联网的快速发展和新闻文档的广泛使用,文本数据聚类作为文本挖掘中最有用的任务之一,近年来受到越来越多的关注。
现有技术一中,钟文良等提出了一种基于Pitman-Yor过程的不平衡文本数据聚类方法。在该方法中,每一个文本用TF(词频,term frequency)向量表示,向量的每个属性代表一个特定的词项(术语)在文档中出现的频率,每个类别中的所有词项都服从同一个多项分布(Multinomial Distribution)。该方法采用Polya罐子模型(Polya urn model)来构建基于多项分布的Pitman-Yor过程模型,并利用Gibbs采样算法进行模型参数的求解。其存在的缺陷是:
1、每个文本用TF向量来表示。然而在本文数据分析领域中,许多研究工作已经显示使用TF-IDF向量表示方法总是比使用TF会得到更好的性能。此外,由于基于TF-IDF的向量可以表示为单位球面(unit-sphere)上的一个点,所以本发明使用基于VMF概率分布的混合模型是一个恰当地选择。
2、Pitman-Yor过程模型使用Polya罐子模型来进行构建。不能直观地表示Pitman-Yor过程模型的离散性质。
3.采用的Gibbs采样算法进行模型参数的求解无法得到解析解,并且不容易收敛且很难确定收敛状态。
现有技术二中,Nguyen Kim Anh等提出了基于狄利克雷过程(DirichletProcess,DP)的VMF混合模型的文档聚类方法。在该方法中每一个文本用TF-IDF向量表示,并假设每个文本都服从基于DP的VMF混合模型。该方法分别采用了渐进逼近(AsymptoticApproximation)以及变分贝叶斯推断方法来估算VMF的浓度参数和其余模型参数。
其存在缺陷是:
1.文本聚类方法基于狄利克雷过程(DP)框架所构建的VMF混合模型。由于DP混合模型通常无法识别出仅含有少量数据样本的类别,所以不能有效地对不平衡数据进行聚类分析。
2、VMF概率分布中的浓度参数在基于VMF的建模应用中起到至关重要的作用。现有技术二中浓度参数使用渐进逼近的方法来得到估计值,然而该估算方法无法有效应对高维数据。
发明内容
有鉴于此,本发明的目的在于提供一种基于非参数VMF混合模型的文本数据聚类方法、装置及设备,能够确保算法收敛并且可以有效地检测收敛状态。
本发明实施例提供了一种基于非参数VMF混合模型的文本数据聚类方法,包括:
S101,获取待聚类的文本数据集;其中,所述文本数据集包括多个文本,每个文本用词频-逆文本频率指数标准化方法表示为D维的文本向量特征;
S102,使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模;
S103,通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数;
S104,根据推断的所述模型参数,判断所述非参数VMF混合模型是否收敛;若否,则返回步骤S103,若是,则执行步骤S105;
S105,根据指示因子的后验概率判断每个文本的所属类别,从而根据所属类别对所述文本进行聚类。
优选地,所述使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模,具体包括:
获取VMF概率分布的概率密度函数;
Figure BDA0002524125290000031
其中,
Figure BDA0002524125290000032
为位置参数并满足条件
Figure BDA0002524125290000033
||·||为L2范数的计算;λ为刻度参数并满足条件λ≥0,维度D≥2,ID/2(λ)为修正的第一类D/2阶Bessel函数;
对服从非参数VMF混合模型的每个文本,获取其概率密度函数表达式;
Figure BDA0002524125290000041
其中,
Figure BDA0002524125290000042
表示所收集到的含有N个文本的数据集;该非参数VMF混合模型共由无穷多个混合组件组成,每个混合组件对应一个VMF概率分布
Figure BDA0002524125290000043
其中
Figure BDA0002524125290000044
是第k个混合组件的参数,而πk>0为相应的混合系数,并满足条件
Figure BDA0002524125290000045
为每个文本向量
Figure BDA0002524125290000046
指派一个二元隐变量
Figure BDA0002524125290000047
做为指示因子;其中,当Znk=1时,表明文本向量
Figure BDA0002524125290000048
属于第k个类别;否则,Znk=0;隐变量
Figure BDA0002524125290000049
的概率分布为:
Figure BDA00025241252900000410
对所述非参数VMF混合模型中的参数
Figure BDA00025241252900000411
Figure BDA00025241252900000412
指派先验概率分布;其中,采用VMF-Gamma分布作为参数
Figure BDA00025241252900000413
的联合先验分布,其表达式如下式所示
Figure BDA00025241252900000414
其中pg(·)为Gamma分布;
获得基于Pitman-Yor过程模型的非参数VMF混合模型的全概率表达式为:
Figure BDA00025241252900000415
优选地,非参数VMF混合模型基于采用Stick-Breaking表示方法的Pitman-Yor过程模型构建而成;在基于Stick-Breaking表示方法的Pitman-Yor过程模型中,混合系数πk的表示如下:
Figure BDA0002524125290000051
Figure BDA0002524125290000052
服从Beta分布,表达形式如下
Figure BDA0002524125290000053
其中pb(·)为Beta分布,α为Pitman-Yor过程模型中的折扣参数并满足条件0≤α≤1,β为密度参数满足条件β>-α。
优选地,所述通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数,以及
根据推断的所述模型参数,判断所述非参数VMF混合模型是否收敛;
具体包括:
初始化模型参数;其中,包括初始化截断层数K=15,初始化超参数0<uk<1,
Figure BDA0002524125290000054
αk=0.5,βk=0.5使用K-Means算法初始化rnk;初始化
Figure BDA0002524125290000055
Figure BDA0002524125290000056
利用当前的模型参数更新变分后验以及期望值;
根据更新的期望值获取更新后的
Figure BDA0002524125290000057
获得当前迭代所产生的变分下界;
将当前迭代产生的变分下界与上一次迭代产生的变分下界进行对比以判断所述非参数VMF混合模型是否收敛。
优选地,利用当前的模型参数更新变分后验以及期望值具体为:
定义变分下界为:
L(q)=<ln p(Θ|X)>-<ln q(Θ)>
其中,<·>为期望值的计算,
Figure BDA0002524125290000061
为所有随机变量和隐藏变量的集合。q(Θ)为真实后验分布p(Θ|X)的近似分布,即变分后验;变分后验q(Θ)的表达式如下:
Figure BDA0002524125290000062
使用截断技术把混合组件从无穷维度空间截断到K维空间:
π′K=1,
Figure BDA0002524125290000063
当k>K时πk=0;
其中,K为截断层数,即类别的个数,K值可以初始化为任意值,并将于收敛时达到最优值;
通过最大化变分下界L(q)来优化所有的变分后验:
Figure BDA0002524125290000064
Figure BDA0002524125290000065
Figure BDA0002524125290000066
上式中的超参数可以由如下公式计算得出:
Figure BDA0002524125290000067
Figure BDA0002524125290000068
Figure BDA0002524125290000069
Figure BDA00025241252900000610
Figure BDA0002524125290000071
Figure BDA0002524125290000072
Figure BDA0002524125290000073
Figure BDA0002524125290000074
上式中的期望值的计算由下面公式计算得出:
Figure BDA0002524125290000075
Figure BDA0002524125290000076
<Znk>=rnk (14)
Figure BDA0002524125290000077
<lnπ′k>=Ψ(gk)-Ψ(gk+hk) (16)
<ln(1-π′k)>=Ψ(hk)-Ψ(gk+hk) (17)
其中,Ψ(·)为Digamma函数。
优选地,将当前迭代产生的变分下界与上一次迭代产生的变分下界进行对比以判断所述非参数VMF混合模型是否收敛具体为:
当前迭代产生的变分下界与上一次迭代产生的变分下界的差是否小于预设阈值;
若是,则判定所述非参数VMF混合模型收敛;
若否,则判定所述非参数VMF混合模型不收敛。
优选地,所述预设阈值为0.0001。
优选地,根据指示因子的后验概率判断每个文本的所属类别,从而根据所属类别对所述文本进行聚类,具体为:
获取指示因子的后验概率rnk,rnk表示第n个文本
Figure BDA0002524125290000081
属于第k个类别的概率;
选取概率最大的类别作为文本
Figure BDA0002524125290000082
的类别。
本发明实施例还提供了一种基于非参数VMF混合模型的文本数据聚类装置,包括:
文本数据集获取单元,用于获取待聚类的文本数据集;其中,所述文本数据集包括多个文本,每个文本用词频-逆文本频率指数标准化方法表示为D维的文本向量特征;
建模单元,用于使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模;
模型参数估算单元,用于通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数;
收敛判断单元,用于根据推断的所述模型参数,判断所述非参数VMF混合模型是否收敛;若否,则通知模型参数估算单元,若是,则通知分类单元;
分类单元,用于根据指示因子的后验概率判断每个文本的所属类别,从而根据所属类别对所述文本进行聚类。
本发明实施例还提供了一种基于非参数VMF混合模型的文本数据聚类设备,包括存储器以及处理器,所述存储器内存储有待聚类的文本数据集以及计算机程序,所述计算机程序能够被所述处理器执行,以实现如上述的基于非参数VMF混合模型的文本数据聚类方法。
上述一个实施例中,通过采用基于Pitman-Yor过程的非参数VMF来构建基于VMF概率分布的非参数VMF混合模型,并使用该模型对文本数据集进行聚类分析。本实施例所构建的VMF混合模型是指由含若干个VMF概率分布通过加权组合的方式所形成的概率分布。在本实施例中,每一个文本用TF-IDF向量表示,并且每个文本都服从VMF混合模型。为了能够灵活地根据数据的大小从而自动调节文本类别的个数,本实施例使用名为Pitman-Yor过程的非参数模型框架来构建基于VMF分布的非参数混合模型。所提出的非参数VMF混合模型的参数通过变分贝叶斯推断(Variational Bayes Inference)算法进行估算。与现有技术相比,本实施例具有如下优点:
1、本实施例中的Pitman-Yor过程模型基于Stick-Breaking表示方法,该构建方法可以更直观地表示Pitman-Yor过程模型的离散性质,并更容易将其应用在混合模型上从而实现聚类分析。
2、本实施例所提出的变分推断方法可以得到解析解,从而使得参数估算速度更快。此外,本实施例所提出的变分推断方法可以确保算法收敛并且可以通过计算变分下界(Variational Lower Bound)从而有效地检测收敛状态。
3、本实施例所提出的方法基于Pitman-Yor过程模型由于具有可以用来控制产生新类别数量的折扣参数,所以在处理不平衡数据时比基于DP混合模型的方法更具优势。
4、本实施例中,浓度参数将被看作为一个随机参数并赋予其一个先验概率分布,并通过变分贝叶斯推断效计算高维空间中的参数值。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一实施例提供的基于非参数VMF混合模型的文本数据聚类方法的一种流程示意图。
图2为本发明第一实施例提供的基于非参数VMF混合模型的文本数据聚类方法的另一种流程示意图。
图3为本发明第二实施例提供的基于非参数VMF混合模型的文本数据聚类装置的程序模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明第一实施例提供了一种基于非参数VMF混合模型的文本数据聚类方法,其可由基于非参数VMF混合模型的文本数据聚类设备(以下简称聚类设备)来执行,并至少包括:
S101,获取待聚类的文本数据集;其中,所述文本数据集包括多个文本,每个文本用词频-逆文本频率指数标准化方法表示为D维的文本向量特征。
在本实施例中,所述聚类设备可为笔记本电脑、台式电脑或者服务器等具有数据处理功能的计算机设备,所述计算机设备可通过执行预定的程序来实现基于非参数VMF混合模型的文本数据聚类方法。
在本实施例中,词频-逆文本频率指数(Term Frequency-Inverse DocumentFrequency,TF-IDF)是一种用于资讯检索与文本挖掘的常用加权技术,可以用来评估一个词对于一个文档集或语料库中某个文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
S102,使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模。
在本实施例中,步骤S102具体包括:
S1021,获取VMF概率分布的概率密度函数;
Figure BDA0002524125290000111
其中,
Figure BDA0002524125290000112
为位置参数并满足条件
Figure BDA0002524125290000113
||·||为L2范数的计算;λ为刻度参数并满足条件λ≥0,维度D≥2,ID/2(λ)为修正的第一类D/2阶Bessel函数;
S1022,对服从非参数VMF混合模型的每个文本,获取其概率密度函数表达式:
Figure BDA0002524125290000121
其中,
Figure BDA0002524125290000122
表示所收集到的含有N个文本的数据集;此式中,该混合模型共由无穷多个混合组件(也称为混合成分)组成,每个混合组件对应一个VMF概率分布
Figure BDA0002524125290000123
其中
Figure BDA0002524125290000124
是第k个混合组件的参数,而πk>0为相应的“混合系数”(mixingcoefficient),并满足条件
Figure BDA0002524125290000125
在本实施例中,非参数VMF混合模型基于采用Stick-Breaking表示方法的Pitman-Yor过程模型构建而成。在基于Stick-Breaking表示方法的Pitman-Yor过程模型中,混合系数πk的表示如下:
Figure BDA0002524125290000126
Figure BDA0002524125290000127
服从Beta分布,表达形式如下
Figure BDA0002524125290000128
其中pb(·)为Beta分布,α为Pitman-Yor过程模型中的折扣(Discount)参数并满足条件0≤α≤1,β为密度参数满足条件β>-α。
S1023,为每个文本向量
Figure BDA0002524125290000129
指派一个二元隐变量
Figure BDA00025241252900001210
做为指示因子;其中,当Znk=1时,表明文本向量
Figure BDA00025241252900001211
属于第k个类别;否则,Znk=0;隐变量
Figure BDA00025241252900001212
的概率分布为:
Figure BDA0002524125290000131
S1024,对所述非参数VMF混合模型中的参数
Figure BDA0002524125290000132
Figure BDA0002524125290000133
指派先验概率分布;其中,采用VMF-Gamma分布作为参数
Figure BDA0002524125290000134
的联合先验分布,其表达式如下式所示
Figure BDA0002524125290000135
其中pg(·)为Gamma分布;
S1025,获得基于Pitman-Yor过程模型的非参数VMF混合模型的全概率表达式为:
Figure BDA0002524125290000136
如此,即获得了基于Pitman-Yor过程模型的非参数VMF混合模型。
S103,通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数。
S104,根据推断的所述模型参数,判断所述非参数VMF混合模型是否收敛;若否,则返回步骤S103,若是,则执行步骤S105。
具体地,包括:
首先,初始化模型参数;其中,包括初始化截断层数K=15,初始化超参数0<uk<1,0<vk<1,
Figure BDA0002524125290000137
αk=0.5,βk=0.5使用K-Means算法初始化rnk;初始化
Figure BDA0002524125290000139
Figure BDA0002524125290000138
然后,利用当前的模型参数更新变分后验以及期望值。
其中,先定义变分下界为:
L(q)=<ln p(Θ|X)>-<ln q(Θ)>
这里,<·>为期望值的计算,
Figure BDA0002524125290000141
为所有随机变量和隐藏变量的集合。q(Θ)为真实后验分布p(Θ|X)的近似分布,即变分后验;变分后验q(Θ)的表达式如下:
Figure BDA0002524125290000142
使用截断技术把混合组件从无穷维度空间截断到K维空间:
π′K=1,
Figure BDA0002524125290000143
当k>K时πk=0;
其中,K为截断层数,即类别的个数,K值可以初始化为任意值,并将于收敛时达到最优值;
通过最大化变分下界L(q)来优化所有的变分后验:
Figure BDA0002524125290000144
Figure BDA0002524125290000145
Figure BDA0002524125290000146
式(1)-(3)中的超参数可以由如下公式计算得出:
Figure BDA0002524125290000147
Figure BDA0002524125290000148
Figure BDA0002524125290000151
Figure BDA0002524125290000152
Figure BDA0002524125290000153
Figure BDA0002524125290000154
Figure BDA0002524125290000155
Figure BDA0002524125290000156
式(4)-(11)中的期望值的计算由下面公式计算得出:
Figure BDA0002524125290000157
Figure BDA0002524125290000158
<Znk>=rnk (14)
Figure BDA0002524125290000159
<lnπ′k>=Ψ(gk)-Ψ(gk+hk) (16)
<ln(1-π′k)>=Ψ(hk)-Ψ(gk+hk) (17)
其中,Ψ(·)为Digamma函数。
接着,根据更新的期望值获取更新后的
Figure BDA00025241252900001510
由式(12)-(17),在获取更新后的期望值获取更新后的
Figure BDA00025241252900001511
再接着,获得当前迭代所产生的变分下界。
由式(1)-(17),在获取更新后的模型参数以及期望值后,可以获得当前迭代所产生的变分下界。
最后,将当前迭代产生的变分下界与上一次迭代产生的变分下界进行对比以判断所述非参数VMF混合模型是否收敛。
具体地,判断当前迭代产生的变分下界与上一次迭代产生的变分下界的差是否小于预设阈值;若是,则判定所述非参数VMF混合模型已经收敛,此时的截断层数达到最优值;若否,则判定所述非参数VMF混合模型不收敛,此时需要再进行下一步的迭代。
在本发明的较佳实施例中,所述预设阈值可为0.0001,但需要说明的是,还可以是其他数值,预设阈值越小则迭代的精度越高。
S105,根据指示因子的后验概率判断每个文本的所属类别,从而根据所属类别对所述文本进行聚类。
在本实施例中,在模型收敛后,获得收敛后的模型参数中的指示因子的后验概率rnk,该指示因子的后验概率rnk表示第n个文本
Figure BDA0002524125290000161
属于第k个类别的概率,此时根据rnk选取概率最大的类别作为文本
Figure BDA0002524125290000162
的类别,再根据文本的类别就可以实现对文本数据集中的不同文本的聚类了。
为便于对本发明的理解,下面将以一实际的例子来说明本实施例的应用。
本例子通过有效性在两个公开文本数据集(CNAE-9数据集和20-Newsgroups数据集)上进行了验证。
本例子以Windows10系统为实验平台,以Matlab为程序语言,参数设置参见第一实施例中。聚类结果以标准化互信息(Normalized Mutual Information,NMI)来进行度量。此外,本例子所提出的PYP-VMF文本聚类方法和两种相接近技术进行了实验对比。接近技术1为基于Pitman-Yor过程与多项分布,简称为PYP-Mul;接近技术2基于Dirichlet过程和VMF分布,简称为DP-VMF。各方法重复10次实验,取平均NMI值作为对比指标。实验结果如表1所示。从对比结果上可以看出,与现有相近技术相比,本实施例能够得到更好的文本聚类结果(更高的NMI值)。
表1
Figure BDA0002524125290000171
综上所述,本实施例提供的基于非参数VMF混合模型的文本数据聚类方法,通过采用基于Pitman-Yor过程的非参数VMF来构建基于VMF概率分布的非参数VMF混合模型,并使用该模型对文本数据集进行聚类分析。本实施例所构建的VMF混合模型是指由含若干个VMF概率分布通过加权组合的方式所形成的概率分布。在本实施例中,每一个文本用TF-IDF向量表示,并且每个文本都服从VMF混合模型。为了能够灵活地根据数据的大小从而自动调节文本类别的个数,本实施例使用名为Pitman-Yor过程的非参数模型框架来构建基于VMF分布的非参数混合模型。所提出的非参数VMF混合模型的参数通过变分贝叶斯推断(Variational Bayes Inference)算法进行估算。与现有技术相比,本实施例具有如下优点:
(1)、本实施例中的Pitman-Yor过程模型基于Stick-Breaking表示方法,该构建方法可以更直观地表示Pitman-Yor过程模型的离散性质,并更容易将其应用在混合模型上从而实现聚类分析。
(2)、本实施例所提出的变分推断方法可以得到解析解,从而使得参数估算速度更快。此外,本实施例所提出的变分推断方法可以确保算法收敛并且可以通过计算变分下界(Variational Lower Bound)从而有效地检测收敛状态。
(3)、本实施例所提出的方法基于Pitman-Yor过程模型由于具有可以用来控制产生新类别数量的折扣参数,所以在处理不平衡数据时比基于DP混合模型的方法更具优势。
(4)、本实施例中,浓度参数将被看作为一个随机参数并赋予其一个先验概率分布,并通过变分贝叶斯推断效计算高维空间中的参数值。
请参阅图3,本发明第二实施例还提供了一种基于非参数VMF混合模型的文本数据聚类装置,包括:
文本数据集获取单元210,用于获取待聚类的文本数据集;其中,所述文本数据集包括多个文本,每个文本用词频-逆文本频率指数标准化方法表示为D维的文本向量特征;
建模单元220,用于使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模;
模型参数估算单元230,用于通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数;
收敛判断单元240,用于根据推断的所述模型参数,判断所述非参数VMF混合模型是否收敛;若否,则通知模型参数估算单元230,若是,则通知分类单元250;
分类单元250,用于根据指示因子的后验概率判断每个文本的所属类别,从而根据所属类别对所述文本进行聚类。
本发明第三实施例还提供了一种基于非参数VMF混合模型的文本数据聚类设备,包括存储器以及处理器,所述存储器内存储有待聚类的文本数据集以及计算机程序,所述计算机程序能够被所述处理器执行,以实现如上述的基于非参数VMF混合模型的文本数据聚类方法。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于非参数VMF混合模型的文本数据聚类方法,其特征在于,包括:
S101,获取待聚类的文本数据集;其中,所述文本数据集包括多个文本,每个文本用词频-逆文本频率指数标准化方法表示为D维的文本向量特征;
S102,使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模;
S103,通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数;
S104,根据推断的所述模型参数,判断所述非参数VMF混合模型是否收敛;若否,则返回步骤S103,若是,则执行步骤S105;
S105,根据指示因子的后验概率判断每个文本的所属类别,从而根据所属类别对所述文本进行聚类;其中,所述使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模,具体包括:
获取VMF概率分布的概率密度函数;
Figure FDA0003583948090000011
其中,
Figure FDA0003583948090000012
为位置参数并满足条件
Figure FDA0003583948090000013
||·||为L2范数的计算;λ为刻度参数并满足条件λ≥0,维度D≥2,ID/2(λ)为修正的第一类D/2阶Bessel函数;
对服从非参数VMF混合模型的每个文本,获取其概率密度函数表达式;
Figure FDA0003583948090000021
其中,
Figure FDA0003583948090000022
表示所收集到的含有N个文本的数据集;该非参数VMF混合模型共由无穷多个混合组件组成,每个混合组件对应一个VMF概率分布
Figure FDA0003583948090000023
其中
Figure FDA0003583948090000024
是第k个混合组件的参数,而πk>0为相应的混合系数,并满足条件
Figure FDA0003583948090000025
为每个文本向量
Figure FDA0003583948090000026
指派一个二元隐变量
Figure FDA0003583948090000027
做为指示因子;其中,当Znk=1时,表明文本向量
Figure FDA0003583948090000028
属于第k个类别;否则,Znk=0;隐变量
Figure FDA0003583948090000029
的概率分布为:
Figure FDA00035839480900000210
对所述非参数VMF混合模型中的参数
Figure FDA00035839480900000211
Figure FDA00035839480900000212
指派先验概率分布;其中,采用VMF-Gamma分布作为参数
Figure FDA00035839480900000213
的联合先验分布,其表达式如下式所示
Figure FDA00035839480900000214
其中pg(·)为Gamma分布;
获得基于Pitman-Yor过程模型的非参数VMF混合模型的全概率表达式为:
Figure FDA00035839480900000215
其中,非参数VMF混合模型基于采用Stick-Breaking表示方法的Pitman-Yor过程模型构建而成;在基于Stick-Breaking表示方法的Pitman-Yor过程模型中,混合系数πk的表示如下:
Figure FDA0003583948090000031
Figure FDA0003583948090000032
服从Beta分布,表达形式如下
Figure FDA0003583948090000033
其中pb(·)为Beta分布,α为Pitman-Yor过程模型中的折扣参数并满足条件0≤α≤1,β为密度参数满足条件β>-α。
2.根据权利要求1所述的基于非参数VMF混合模型的文本数据聚类方法,其特征在于,
所述通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数,以及
根据推断的所述模型参数,判断所述非参数VMF混合模型是否收敛;
具体包括:
初始化模型参数;其中,包括初始化截断层数K=15,初始化超参数0<uk<1,0<vk<1,ζk>0,
Figure FDA0003583948090000034
αk=0.5,βk=0.5使用K-Means算法初始化rnk;初始化
Figure FDA0003583948090000035
Figure FDA0003583948090000036
利用当前的模型参数更新变分后验以及期望值;
根据更新的期望值获取更新后的
Figure FDA0003583948090000037
获得当前迭代所产生的变分下界;
将当前迭代产生的变分下界与上一次迭代产生的变分下界进行对比以判断所述非参数VMF混合模型是否收敛。
3.根据权利要求2所述的基于非参数VMF混合模型的文本数据聚类方法,其特征在于,利用当前的模型参数更新变分后验以及期望值具体为:
定义变分下界为:
L(q)=<lnp(Θ|X)>-<lnq(Θ)>
其中,<·>为期望值的计算,
Figure FDA0003583948090000041
为所有随机变量和隐藏变量的集合, q(Θ)为真实后验分布p(Θ|X)的近似分布,即变分后验;变分后验q(Θ)的表达式如下:
Figure FDA0003583948090000042
使用截断技术把混合组件从无穷维度空间截断到K维空间:
π′K=1,
Figure FDA0003583948090000043
当k>K时πk=0;
其中,K为截断层数,即类别的个数,K值可以初始化为任意值,并将于收敛时达到最优值;
通过最大化变分下界L(q)来优化所有的变分后验:
Figure FDA0003583948090000044
Figure FDA0003583948090000045
Figure FDA0003583948090000046
上式中的超参数可以由如下公式计算得出:
Figure FDA0003583948090000047
Figure FDA0003583948090000051
Figure FDA0003583948090000052
Figure FDA0003583948090000053
Figure FDA0003583948090000054
Figure FDA0003583948090000055
Figure FDA0003583948090000056
Figure FDA0003583948090000057
上式中的期望值的计算由下面公式计算得出:
Figure FDA0003583948090000058
Figure FDA0003583948090000059
<Znk>=rnk (14)
Figure FDA00035839480900000510
<lnπ′k>=Ψ(gk)-Ψ(gk+hk) (16)
<ln(1-π′k)>=Ψ(hk)-Ψ(gk+hk) (17)
其中,Ψ(·)为Digamma函数。
4.根据权利要求2所述的基于非参数VMF混合模型的文本数据聚类方法,其特征在于,
将当前迭代产生的变分下界与上一次迭代产生的变分下界进行对比以判断所述非参数VMF混合模型是否收敛具体为:
当前迭代产生的变分下界与上一次迭代产生的变分下界的差是否小于预设阈值;
若是,则判定所述非参数VMF混合模型收敛;
若否,则判定所述非参数VMF混合模型不收敛。
5.根据权利要求4所述的基于非参数VMF混合模型的文本数据聚类方法,其特征在于,
所述预设阈值为0.0001。
6.根据权利要求3所述的基于非参数VMF混合模型的文本数据聚类方法,其特征在于,根据指示因子的后验概率判断每个文本的所属类别,从而根据所属类别对所述文本进行聚类,具体为:
获取指示因子的后验概率rnk,rnk表示第n个文本
Figure FDA0003583948090000061
属于第k个类别的概率;
选取概率最大的类别作为文本
Figure FDA0003583948090000062
的类别。
7.一种基于非参数VMF混合模型的文本数据聚类装置,其特征在于,包括:
文本数据集获取单元,用于获取待聚类的文本数据集;其中,所述文本数据集包括多个文本,每个文本用词频-逆文本频率指数标准化方法表示为D维的文本向量特征;
建模单元,用于使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模;其中,具体用于:
获取VMF概率分布的概率密度函数;
Figure FDA0003583948090000071
其中,
Figure FDA0003583948090000072
为位置参数并满足条件
Figure FDA0003583948090000073
||·||为L2范数的计算;λ为刻度参数并满足条件λ≥0,维度D≥2,ID/2(λ)为修正的第一类D/2阶Bessel函数;
对服从非参数VMF混合模型的每个文本,获取其概率密度函数表达式;
Figure FDA0003583948090000074
其中,
Figure FDA0003583948090000075
表示所收集到的含有N个文本的数据集;该非参数VMF混合模型共由无穷多个混合组件组成,每个混合组件对应一个VMF概率分布
Figure FDA0003583948090000076
其中
Figure FDA00035839480900000715
是第k个混合组件的参数,而πk>0为相应的混合系数,并满足条件
Figure FDA0003583948090000077
为每个文本向量
Figure FDA0003583948090000078
指派一个二元隐变量
Figure FDA0003583948090000079
做为指示因子;其中,当Znk=1时,表明文本向量
Figure FDA00035839480900000710
属于第k个类别;否则,Znk=0;隐变量
Figure FDA00035839480900000711
的概率分布为:
Figure FDA00035839480900000712
对所述非参数VMF混合模型中的参数
Figure FDA00035839480900000713
Figure FDA00035839480900000714
指派先验概率分布;其中,采用VMF-Gamma分布作为参数
Figure FDA0003583948090000081
的联合先验分布,其表达式如下式所示
Figure FDA0003583948090000082
其中pg(·)为Gamma分布;
获得基于Pitman-Yor过程模型的非参数VMF混合模型的全概率表达式为:
Figure FDA0003583948090000083
其中,非参数VMF混合模型基于采用Stick-Breaking表示方法的Pitman-Yor过程模型构建而成;在基于Stick-Breaking表示方法的Pitman-Yor过程模型中,混合系数πk的表示如下:
Figure FDA0003583948090000084
Figure FDA0003583948090000085
服从Beta分布,表达形式如下
Figure FDA0003583948090000086
其中pb(·)为Beta分布,α为Pitman-Yor过程模型中的折扣参数并满足条件0≤α≤1,β为密度参数满足条件β>-α;
模型参数估算单元,用于通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数;
收敛判断单元,用于根据推断的所述模型参数,判断所述非参数VMF混合模型是否收敛;若否,则通知模型参数估算单元,若是,则通知分类单元;
分类单元,用于根据指示因子的后验概率判断每个文本的所属类别,从而根据所属类别对所述文本进行聚类。
8.一种基于非参数VMF混合模型的文本数据聚类设备,其特征在于,包括存储器以及处理器,所述存储器内存储有待聚类的文本数据集以及计算机程序,所述计算机程序能够被所述处理器执行,以实现如权利要求1至6任意一项所述的基于非参数VMF混合模型的文本数据聚类方法。
CN202010499191.6A 2020-06-04 2020-06-04 基于非参数vmf混合模型的文本数据聚类方法、装置及设备 Active CN111611389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010499191.6A CN111611389B (zh) 2020-06-04 2020-06-04 基于非参数vmf混合模型的文本数据聚类方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010499191.6A CN111611389B (zh) 2020-06-04 2020-06-04 基于非参数vmf混合模型的文本数据聚类方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111611389A CN111611389A (zh) 2020-09-01
CN111611389B true CN111611389B (zh) 2022-05-27

Family

ID=72199201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010499191.6A Active CN111611389B (zh) 2020-06-04 2020-06-04 基于非参数vmf混合模型的文本数据聚类方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111611389B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7430717B1 (en) * 2000-09-26 2008-09-30 International Business Machines Corporation Method for adapting a K-means text clustering to emerging data
US10049148B1 (en) * 2014-08-14 2018-08-14 Medallia, Inc. Enhanced text clustering based on topic clusters
CN110032642A (zh) * 2019-03-26 2019-07-19 广东工业大学 基于词嵌入的流形主题模型的建模方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7430717B1 (en) * 2000-09-26 2008-09-30 International Business Machines Corporation Method for adapting a K-means text clustering to emerging data
US10049148B1 (en) * 2014-08-14 2018-08-14 Medallia, Inc. Enhanced text clustering based on topic clusters
CN110032642A (zh) * 2019-03-26 2019-07-19 广东工业大学 基于词嵌入的流形主题模型的建模方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于混合模型的文本聚类研究综述;王方等;《情报学报》;20150531;第34卷(第5期);第536-544页 *

Also Published As

Publication number Publication date
CN111611389A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN110347835B (zh) 文本聚类方法、电子装置及存储介质
Taddy Multinomial inverse regression for text analysis
US8645298B2 (en) Topic models
CN112685539B (zh) 基于多任务融合的文本分类模型训练方法和装置
JP5164209B2 (ja) 分類モデル生成装置、分類装置、分類モデル生成方法、分類方法、分類モデル生成プログラム、分類プログラムおよび記録媒体
US20120197888A1 (en) Method and apparatus for selecting clusterings to classify a predetermined data set
US11676075B2 (en) Label reduction in maintaining test sets
CN113486670B (zh) 基于目标语义的文本分类方法、装置、设备及存储介质
US20200074277A1 (en) Fuzzy input for autoencoders
KR20180056013A (ko) 나노 물질의 독성을 예측하는 방법 및 장치
CN111611389B (zh) 基于非参数vmf混合模型的文本数据聚类方法、装置及设备
CN116415593B (zh) 一种研究前沿识别方法、系统、电子设备及存储介质
Webster et al. An adaptive sparse-grid iterative ensemble Kalman filter approach for parameter field estimation
CN111612101B (zh) 非参数Waston混合模型的基因表达数据聚类方法、装置及设备
US20190377784A1 (en) Automated nonparametric content analysis for information management and retrieval
CN114238564A (zh) 一种信息检索方法、装置、电子设备及存储介质
CN113761186A (zh) 文本情感分类方法和装置
CN113011689A (zh) 软件开发工作量的评估方法、装置及计算设备
CN112509640B (zh) 基因本体项名称生成方法、装置及存储介质
CN111611380B (zh) 语义搜索方法、系统及计算机可读存储介质
Korolev et al. Applying Time Series for Background User Identification Based on Their Text Data Analysis
McGrory et al. Climate regime shift detection with a trans‐dimensional, sequential Monte Carlo, variational Bayes method
Friedland Data Collection and Preparation
CN115936008A (zh) 一种文本建模模型的训练方法、文本建模方法及装置
CN117851600A (zh) 文本数据分类方法、装置、计算机设备、存储介质和产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant