CN111813934B - 一种基于dma模型和特征划分多源文本主题模型聚类方法 - Google Patents

一种基于dma模型和特征划分多源文本主题模型聚类方法 Download PDF

Info

Publication number
CN111813934B
CN111813934B CN202010570956.0A CN202010570956A CN111813934B CN 111813934 B CN111813934 B CN 111813934B CN 202010570956 A CN202010570956 A CN 202010570956A CN 111813934 B CN111813934 B CN 111813934B
Authority
CN
China
Prior art keywords
text
model
source
topic
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010570956.0A
Other languages
English (en)
Other versions
CN111813934A (zh
Inventor
秦永彬
许伟佳
黄瑞章
陈艳平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou University
Original Assignee
Guizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University filed Critical Guizhou University
Priority to CN202010570956.0A priority Critical patent/CN111813934B/zh
Publication of CN111813934A publication Critical patent/CN111813934A/zh
Application granted granted Critical
Publication of CN111813934B publication Critical patent/CN111813934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于DMA模型和特征划分多源文本主题模型聚类方法,所述方法包含有如下步骤:一、从多个来源收集文本集;二、将来自多个数据源的文本信息进行文本预处理;三、基于DMA模型和特征划分构建多源主题模型;四、进行Blocked Gibbs采样并更新参数;五、根据采样结果进行文本聚类。本发明通过更新多源文本的主题‑词分布的先验参数,改善了多源文本的聚类效果;本发明能够自动判别每个数据源文本中簇的数目,而不需要人为提前给定;每个数据源拥有各自的主题分布、主题‑特征词分布以及噪音词分布参数,因此本发明能保留多源文本中每个数据源的主题热点以及用词特点。

Description

一种基于DMA模型和特征划分多源文本主题模型聚类方法
技术领域
本发明涉及一种模型聚类方法,尤其涉及一种基于DMA模型和特征划分多源文本主题模型聚类方法,属于机器学习和自然语言处理技术领域。
背景技术
随着Internet技术的飞速发展,越来越多的应用可以产生文本信息,本文将多个应用产生的文本数据集称之为多源文本数据集。从多源文本数据集中挖掘其主题信息以及文本结构对于很多应用程序都是非常有必要的。例如,新闻热点分析的应用可以发现来自各种新闻网站、论坛和社交媒体的文本信息,以了解社会关注的热点问题。人们通过分析市民热线、交通公告牌等各种来源的交通信息,发现突发交通事故。主题模型是目前较为流行的文本挖掘方法之一。因此,有必要研究一种多源文档主题模型,挖掘多源文本数据集中的文本信息。
用传统的主题模型挖掘多源文本数据集的信息有很多困难,比如说:1)在多源文本数据集中,每一篇文档都由大量的词来表示,包括特征词和大量的无关噪声词。而且由于书写风格的偏向,来自不同数据源的噪声词不同。不相关的噪声词会干扰模型的构建,影响模型性能。2)每个数据源相同主题的词分布相关但不相同。例如,新闻网站的文章倾向于用标准术语描述一个主题,而社交媒体文档中的词汇则更随意。因此,直接采用传统的主题模型挖掘多源文本的词特征等信息是不可行的,因为不同来源的主题的书写风格差异以及描述角度的不同严重影响了模型的性能。3)在多源文本数据集中估计簇类数N也是困难的。对于大多数传统的主题模型来说,N被认为是用户事先确定的一个参数,但在挖掘前提供正确的N值是困难和不切实际的。此外,对于不同的数据源,N通常是不同的,这大大增加了估计正确N的难度。因此,如果多源文本主题模型能够自动地估计每个数据源的聚类数N,对于模型的推广和应用是非常有用的。
因此,针对上述三个问题,需要研究一种新的针对多源文本数据的主题模型以挖掘准确的信息。
发明内容
本发明要解决的技术问题是:提供一种基于DMA模型和特征划分多源文本主题模型聚类方法,它能挖掘多源文本数据集中每个数据源的结构信息,还能自动推断每个数据源各自的文本簇类数目N,而不需要人为提前给定,有效的解决了上述存在的问题。
本发明的技术方案为:一种基于DMA模型和特征划分多源文本主题模型聚类方法,所述方法包含有如下步骤:一、从多个来源收集文本集;二、将来自多个数据源的文本信息进行文本预处理;三、基于DMA模型和特征划分构建多源主题模型;四、进行Blocked Gibbs采样并更新参数λ;五、根据采样结果进行文本聚类。
所述步骤二中,预处理方法是进行分词,去停用词、低频词及标点数字。
所述步骤三中,构建的多源主题模型的文本生成过程为:
对于每个数据源χs∈{χ12,...,χS}:
a)选择γj ss~B(1,ωs),j=1,2,...,W
b)选择η0 s|β~Dirichlet(β1,...βW)
c)选择
d)对于每个主题i∈N:
(a)选择
e)选择Θs|α~Dirichlet(α/N,...,α/N)
f)对于ds∈{1,2,...,Ds}:
(b)选择
(c)选择
(d)选择
所述步骤四中,基于步骤三所构建的主题模型,利用Blocked Gibbs采样算法,采样多源数据集中每个数据源的特征词分布、噪音词分布以及主题分布并对参数λ进行更新操作。
所述步骤四进一步包括下列具体步骤:
首先初始化模型参数,需要初始化的模型参数包括超参数{α,ω,λ,β}和隐藏变量初始化模型参数之后,Blocked Gibbs采样的推断过程如下:
g)更新潜在特征词指示符γ;
h)采样更新主题-特征词分布
i)采样更新噪音词分布
j)采样更新主题分布Θ;
k)采样更新每篇文本的主题
当采样结果趋于稳定后,更新产生主题-特征词分布参数的狄利克雷参数λ,并重复Blocked Gibbs采样过程。
所述步骤五中,基于Blocked Gibbs采样结果,对进行文本聚类。
本发明的有益效果是:与现有技术相比,采用本发明的技术方案,本发明通过更新多源文本的主题-词分布的先验参数,改善了多源文本的聚类效果;本发明能够自动判别每个数据源文本中簇的数目,而不需要人为提前给定;每个数据源拥有各自的主题分布、主题-特征词分布以及噪音词分布参数,因此本发明能保留多源文本中每个数据源的主题热点以及用词特点。
本发明提出了一种基于狄利克雷多项分配(DMA)模型和特征划分的多源文本主题模型,即MCDMAfp模型。该模型采用特征划分的方法区分特征词和噪音词,并为每个数据源都分配了专有的特征词分布以及噪音词分布参数来学习源级别的用词特征,本发明使用Gibbs采样算法自动估计每个数据源的簇数,不需要提前人为设定。
附图说明
图1为本发明的流程图;
图2为本发明的主题模型。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将参照本说明书附图对本发明作进一步的详细描述。
实施例1:如附图1~2所示,一种基于DMA模型和特征划分多源文本主题模型聚类方法,所述方法包含有如下步骤:一、从多个来源收集文本集;二、将来自多个数据源的文本信息进行文本预处理;三、基于DMA模型和特征划分构建多源主题模型;四、进行BlockedGibbs采样并更新参数λ;五、根据采样结果进行聚类。
执行本发明的方法,首先执行步骤一,获取待聚类的来自多个数据源的文本集。
本实施例的第一个多源文本集是HASet数据。该数据集包含9986篇文本,其中5000个文本是从HuffPost网站(下文表示为NewSet)收集的新闻文章,剩余4986个文档是从Amazon网站(表示为ASet)收集的评论文本。该数据集包含了两个主题,分别是“food”与“sport”。本实施例的第二个文本集为BTset。该数据集包含10000篇文本,共四个主题。其中5000篇文本是来自BBC网站(下文表示为bbcSet)收集的新闻文章,共四个主题,分别为“travel”,“bussiness”,“sport”和“politic”。另外5000篇文本是来自Twitter(下文表示为TSet)收集的文章,共三个主题,分别为“bussiness”,“sport”和“politic”。
其次,执行步骤二,对获取的文本集进行文本预处理工作,对文本集进行分词、去停用词、去低频词等工作。经过预处理之后,去除文本中冗余的信息,使得文本集变得简洁工整非常节省资源且便于计算。
第三,文本集处理好之后,执行步骤三建模,建立基于DMA模型和特征划分的多源文本主题模型。该模型能够自动判别每个数据源的文本集中簇的数目,而不需要人为提前给定;多源文本数据集中每个数据源的文本集具有各自的主题-词分布以及主题分布来学习各自独特的信息。
所述步骤三中,构建的多源主题模型的文本生成过程为:
对于每个数据源χs∈{χ12,...,χS}:
a)选择γj ss~B(1,ωs),j=1,2,...,W
b)选择η0 s|β~Dirichlet(β1,...βW)
c)选择
d)对于每个主题i∈N:
(a)选择
e)选择Θs|α~Dirichlet(α/N,...,α/N)
f)对于ds∈{1,2,...,Ds}:
(b)选择
(c)选择
(d)选择
其中,N表示文本簇类数;S表示数据源的个数;Ds表示数据源s中的文本个数;α表示狄利克雷分布的参数,是一个向量,维度等于主题的个数;λi表示生成主题i的词分布的狄利克雷分布参数,维度等于语料库词汇总数;Θs表示多源文本集中数据源s的主题分布;表示多源文本集中数据源s中主题i的特征词分布;/>表示多源文本数据集中数据源s中所有文本共享的噪音词分布;γs由伯努利分布B(1,ω)生成,γ=1表示该词为特征词,γ=0表示该词为噪音词。/>表示从Θs中为文本d采样的文本主题;/>表示源文本集中数据源s的第d篇文本中的特征词集;/>表示源文本集中数据源s的第d篇文本中的噪音词集。
其中表示sth数据源中dth文档的单词数量;/>表示数据源s中dth文档的潜在簇分配。/>表示sth数据源中主题为zd的词分布;/>表示sth数据源中所有文档共享的噪音词分布;/>和/>分别表示/>和/> 表示sth数据源中dth文档的特征词的数量;/>表示sth数据源中dth文档的噪音词数量。N是簇的数目;N维向量Θs是簇的混合比例。本文假设特征词集和噪声词集之间没有相关性。因此,/>的条件概率密度函数由式下给出:
事实上,由于Dirichlet分布是多项式分布参数的共轭先验,如果我们对方程中的η12,...,ηN进行积分,则数据集M的条件概率密度函数可以近似表示为如下,其中:
第四,基于上述模型,执行本发明的步骤四,基于步骤三所构建的主题模型,利用Blocked Gibbs采样算法,采样多源数据集中每个数据源的特征词分布、噪音词分布以及主题分布并对参数进行更新操作。
所述步骤四包括下列具体步骤:首先初始化模型参数,需要初始化的模型参数包括超参数{α,ω,λ,β}和隐藏变量初始化模型参数之后,再进行Blocked Gibbs sampling,当采样结果趋于稳定后,更新产生主题-特征词分布参数的狄利克雷参数λ,并重复Blocked Gibbs sampling过程。
所述Blocked Gibbs sampling的推断过程如下:
g)通过重复以下步骤R次更新潜在特征词指示符γ:通过随机选取γold中的W个索引之一并改变其值,生成新的候选γnew,添加或删除特征词。新候选值被接受的概率为:
其中f(γ|χs,zs)∝f(χss,zs)p(γs),而且上文已经给出f(χs|γ,zs)的运算公式。
h)在给定其他潜在变量的条件下,对于i=1,2,...N,如果i不在中,则从以λi为参数的Dirichlet分布中得出/>否则,通过以下式作为Dirichlet分布的参数采样更新/>
i)以下式为Dirichlet分布的参数,采样更新
j)以下式为Dirichlet分布的参数,采样更新Θ:
其中I(zd=i)为示性函数,当zd=i时,I(zd=i)=1,否则等于0。
k)在给定其他潜在变量时,对于d=1,2,...,Ds,通过从参数为{pd,1,pd,2,...,pd,N}的离散分布中采样更新其中/>且/>
需要注意的是:假设模型估计的类的数目为N*,其值为向量的大小,小于初始化的N值。
在执行步骤四时,还需要进行参数λ的更新。
当采样结果趋于稳定后,本发明通过优化生成整个数据集的后验概率来更新λ,已知多源文本数据集的概率近似于:
为了方便计算,本发明采用其对数似然函数进行运算,如下式所示:
得到参数λ的梯度函数:
其中Ψ(x)是Γ(x)对数导数函数,由上式本文可以得到更新后的
第五,执行本发明的步骤五,进行文本主题聚类。根据采样得到每篇目标文本的主题分配情况进行聚类。
本实施例中符号说明如表1所示。
表1
本发明通过更新多源文本的主题-词分布的先验参数,改善了多源文本的聚类效果;本发明能够自动判别每个数据源文本中簇的数目,而不需要人为提前给定;每个数据源拥有各自的主题分布、主题-特征词分布以及噪音词分布参数,因此本发明能保留多源文本中每个数据源的主题热点以及用词特点。
本发明提出了一种基于狄利克雷多项分配(DMA)模型和特征划分的多源文本主题模型,即MCDMAfp模型。该模型采用特征划分的方法区分特征词和噪音词,并为每个数据源都分配了专有的特征词分布以及噪音词分布参数来学习源级别的用词特征,本发明使用Gibbs采样算法自动估计每个数据源的簇数,不需要提前人为设定。
本发明未详述之处,均为本技术领域技术人员的公知技术。最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种基于DMA模型和特征划分多源文本主题模型聚类方法,其特征在于:所述方法包含如下步骤:
一、从多个来源收集文本集;
二、将来自多个数据源的文本信息进行文本预处理;
三、基于DMA模型和特征划分构建多源主题模型;
四、进行Blocked Gibbs采样并更新参数λ,基于步骤三所构建的主题模型,利用Blocked Gibbs采样算法,采样多源数据集中每个数据源的特征词分布、噪音词分布以及主题分布并对参数λ进行更新操作;具体包括有下列步骤:
首先初始化模型参数,需要初始化的模型参数包括超参数
{α,ω,λ,β}和隐藏变量初始化模型参数之后,Blocked Gibbs sampling的推断过程如下:
g)更新潜在特征词指示符γ;
h)采样更新主题-特征词分布
i)采样更新噪音词分布
j)采样更新主题分布Θ;
k)采样更新每篇文本的主题
当采样结果趋于稳定后,更新产生主题-特征词分布参数的狄利克雷参数λ,并重复Blocked Gibbs采样过程;
五、根据采样结果进行文本聚类。
2.根据权利要求1所述的基于DMA模型和特征划分多源文本主题模型聚类方法,其特征在于:所述步骤二中,预处理方法是进行分词,去停用词、低频词及标点数字。
3.根据权利要求1所述的基于DMA模型和特征划分多源文本主题模型聚类方法,其特征在于:所述步骤三中,多源主题模型的文本生成过程为:
对于每个数据源χs∈{χ12,...,χS}:
a)选择γj ss~B(1,ωs),j=1,2,...,W
b)选择η0 s|β~Dirichlet(β1,...βW)
c)选择
d)对于每个主题i∈N:
(a)选择
e)选择Θs|α~Dirichlet(α/N,...,α/N)
f)对于ds∈{1,2,...,Ds}:
(b)选择
(c)选择
(d)选择
4.根据根据权利要求1所述的基于DMA模型和特征划分多源文本主题模型聚类方法,其特征在于:所述步骤五中,基于Blocked Gibbs采样结果,对进行文本聚类。
CN202010570956.0A 2020-06-22 2020-06-22 一种基于dma模型和特征划分多源文本主题模型聚类方法 Active CN111813934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010570956.0A CN111813934B (zh) 2020-06-22 2020-06-22 一种基于dma模型和特征划分多源文本主题模型聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010570956.0A CN111813934B (zh) 2020-06-22 2020-06-22 一种基于dma模型和特征划分多源文本主题模型聚类方法

Publications (2)

Publication Number Publication Date
CN111813934A CN111813934A (zh) 2020-10-23
CN111813934B true CN111813934B (zh) 2024-04-30

Family

ID=72846333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010570956.0A Active CN111813934B (zh) 2020-06-22 2020-06-22 一种基于dma模型和特征划分多源文本主题模型聚类方法

Country Status (1)

Country Link
CN (1) CN111813934B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013134752A (ja) * 2011-12-27 2013-07-08 Nippon Telegr & Teleph Corp <Ntt> トピックモデル学習方法、装置、及びプログラム
WO2016179419A1 (en) * 2015-05-05 2016-11-10 Kyndi, Inc. Quanton representation for emulating quantum-like computation on classical processors
CN107798043A (zh) * 2017-06-28 2018-03-13 贵州大学 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法
CN109299364A (zh) * 2018-09-26 2019-02-01 贵州大学 一种具有新主题偏向性的短文本动态聚类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7921068B2 (en) * 1998-05-01 2011-04-05 Health Discovery Corporation Data mining platform for knowledge discovery from heterogeneous data types and/or heterogeneous data sources
US10339440B2 (en) * 2015-02-19 2019-07-02 Digital Reasoning Systems, Inc. Systems and methods for neural language modeling

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013134752A (ja) * 2011-12-27 2013-07-08 Nippon Telegr & Teleph Corp <Ntt> トピックモデル学習方法、装置、及びプログラム
WO2016179419A1 (en) * 2015-05-05 2016-11-10 Kyndi, Inc. Quanton representation for emulating quantum-like computation on classical processors
CN107798043A (zh) * 2017-06-28 2018-03-13 贵州大学 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法
CN109299364A (zh) * 2018-09-26 2019-02-01 贵州大学 一种具有新主题偏向性的短文本动态聚类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于WBLDA的学术文献摘要主题聚类;潘晓英;伍哲;陈柳;杨芳;;计算机应用研究(08);全文 *
基于狄利克雷多项分配模型的多源文本主题挖掘模型;徐立洋;黄瑞章;陈艳平;钱志森;黎万英;;计算机应用(11);全文 *
大数据驱动的社交网络舆情用户情感主题分类模型构建研究――以"移民"主题为例;王晰巍;邢云菲;韦雅楠;王铎;;信息资源管理学报(01);全文 *

Also Published As

Publication number Publication date
CN111813934A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN107861939B (zh) 一种融合词向量和主题模型的领域实体消歧方法
Sordoni et al. A hierarchical recurrent encoder-decoder for generative context-aware query suggestion
Yang et al. Large-scale high-precision topic modeling on twitter
US11210468B2 (en) System and method for comparing plurality of documents
US8918348B2 (en) Web-scale entity relationship extraction
CN101561805B (zh) 文档分类器生成方法和系统
CN107798043B (zh) 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法
CN110502642B (zh) 一种基于依存句法分析与规则的实体关系抽取方法
RU2679988C1 (ru) Извлечение информационных объектов с помощью комбинации классификаторов
CN110162594B (zh) 文本数据的观点生成方法、装置及电子设备
CN109902290B (zh) 一种基于文本信息的术语提取方法、系统和设备
CN108763348A (zh) 一种扩展短文本词特征向量的分类改进方法
WO2022116324A1 (zh) 搜索模型训练方法、装置、终端设备及存储介质
US20230111911A1 (en) Generation and use of content briefs for network content authoring
CN111859079B (zh) 信息搜索方法、装置、计算机设备及存储介质
Sahmoud et al. At-odtsa: a dataset of arabic tweets for open domain targeted sentiment analysis
CN116432125B (zh) 基于哈希算法的代码分类方法
CN112711944A (zh) 一种分词方法、系统、分词器生成方法及系统
Mahmoodvand et al. Semi-supervised approach for Persian word sense disambiguation
CN111813934B (zh) 一种基于dma模型和特征划分多源文本主题模型聚类方法
US20160078036A1 (en) Building a Domain Knowledge and Term Identity Using Crowd Sourcing
CN111310066B (zh) 一种基于主题模型和关联规则算法的好友推荐方法及系统
CN111813935B (zh) 一种基于层次狄利克雷多项分配模型的多源文本聚类方法
CN111339287B (zh) 摘要生成方法及装置
KR20070118154A (ko) 정보 처리 장치 및 방법, 및 프로그램 기록 매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant