CN111090995B - 短文本主题识别方法和系统 - Google Patents
短文本主题识别方法和系统 Download PDFInfo
- Publication number
- CN111090995B CN111090995B CN201911116869.1A CN201911116869A CN111090995B CN 111090995 B CN111090995 B CN 111090995B CN 201911116869 A CN201911116869 A CN 201911116869A CN 111090995 B CN111090995 B CN 111090995B
- Authority
- CN
- China
- Prior art keywords
- short text
- distribution
- topic
- word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种短文本主题识别方法和系统,涉及数据处理领域。本发明首先基于预训练的主题识别模型,获取待测短文本集合的短文本‑主题分布和主题‑词分布,词包括背景词和主题词;然后基于短文本‑主题分布和主题‑词分布,计算各主题词在短文本下所占权重;最后基于主题词在短文本下所占权重,选取焦点主题。本发明将短文本中词的做了区分,认为词包括背景词和主题词,除去在主题识别过程中背景词的影响,提高主题识别的准确率,从而准确的识别出焦点主题,为后续的个性化营销、推荐和信息检索等实际场景提供准确的数据支持。
Description
技术领域
本发明涉及数据处理技术,具体涉及一种短文本主题识别方法和系统。
背景技术
随着社交媒体和移动应用的快速发展,如微博、Facebook、Twitter和学术网站等正在成为非常受欢迎的社交平台。这些平台往往包含了大量的在线评论数据,这些数据通常内容较少可以被看作是短文本数据。但这类数据数量较多,并且普遍存在随意性语言这对分析该文本对应的主题影响很大。面对这些可用的网络数据,准确发现其对应的主题,对于个性化营销、推荐和信息检索等实际场景具有很高的应用价值。
由于大量在线数据的爆发式增长,近年来的研究主要集中在利用大规模的在线数据来推断在线情报,例如,准确理解市场结构对于许多营销管理实践是至关重要的,在真实的市场中,发现可替代的产品可以用指导定价决策、有针对性的广告政策和产品定位。为了降低在线评论这种短文本数据的稀疏性,解决文本聚类问题,提出的T-LDA模型,考虑到短文本数据的特点,检测数据集中的异常值,获取每个集群关注的焦点主题。
然而,模型忽略了背景词(背景词类似于介词,出现频率高,并且与文章主题关联度较低)在主题识别过程中的影响,导致模型不能准确地识别出焦点主题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种短文本主题识别方法和系统,解决了现有技术不能准确的识别出焦点主题的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明还提供一种短文本主题识别方法,所述方法由计算机执行,包括以下步骤:
A1、基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,所述词包括背景词和主题词;
A2、基于所述短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;
A3、基于所述主题词在短文本下所占权重,选取焦点主题;
其中,所述主题识别模型的预训练包括以下步骤:
S1、获取短文本,构建短文本集合D;
S2、确定所述短文本集合D中的主题个数K;
S3、基于有参贝叶斯模型、所述主题数量K和所述短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布,完成所述主题识别模型的训练。
优选的,所述S1具体包括:
获取n条短文本构成的短文本集合D,记为|M|表示短文本集合D中的短文本数量,去除所述短文本集合D中所有停用词;建立向量/>1≤i≤n,表示集合D中的第m条短文本;Dmn表示第m条短文本中的第n个词,Nm表示第m条短文本中的单词个数,V表示短文本M中的不同词的数量,并且用v∈{1,2,...,V}作为不同单词的索引。
优选的,所述S3具体包括:
式(1)中:β和β'是狄利克雷分布的超参数;
式(2)中:
bm,k是主题选择器,服从伯努利分布,确定主题k是否为短文本m的焦点主题;
Am∈{k:bm,k=1,k∈{1,2,...,K}}是短文本m焦点主题的一个集合;
α0与α1为分布的超参数,其中α0是平滑先验,用于平滑由主题选择器生成的主题;α1<<α0,其值接近于零,是弱平滑先验,用来控制与相应短文本无关的主题;
S303、基于短文本-主题分布,利用公式(4)生成主题-主题词分布和主题-背景词分布;
式(4)中:
cmn是二元指示变量,服从伯努利分布,决定主题词分布的超参数;
式(5)中:
当cmn=1时,表示短文本m是从主题词分布中生成词n的;
当cmn=0时,表示短文本m是从背景词分布中生成词n的;
式(4)中:
zmn服从多项式分布,表示第m条短文本的第n个词的主题编号;
优选的,所述A1包括:
A101、将待测短文本集合输入到经过训练的有参贝叶斯模型中,基于进折叠Gibbs抽样算法对待测短文本集合中的bm,k、Zmn、Cmn进行抽样;
式(6)中:
I[·]是指标函数;
Am是短文本m焦点主题的一个集合,|Am|是Am中主题的数量;
对式(6)中变量π进行积分,并用式(7)进行迭代,直至收敛;
式(7)中,
Γ(x)为伽马函数;
A10102、得到的每篇短文本中的焦点主题情况bm,k后,对每个词wmn抽取对应的主题分布zmn,计算条件概率分布p(Zmn=k|Z-(mn),W),如式(8):
式(8)中:
Z-(mn)表示除单词wmn外所有单词对应的主题;
所有带有公式-(mn)的计数均表示去除了单词wmn;
A10103、对待测短文本集合中的Cmn进行抽样,如式(9):
式(9)中:
A102、为步骤A101中的中bm,k、Zmn、Cmn随机初始化值;
A103、根据步骤A101的公式(7)(8)(9)依次更新bm,k、Zmn、Cmn的值。
A104、重复步骤A103,完成短文本集合中所有短文本和所述主题的更新。
优选的,所述A2具体包括:
根据步骤A104的结果,对参数θmk、φkv、φv'进行估计,如公式(10)、(11)和(12):
式中:
β和β'是分布的超参数;
Nm表示第m条短文本中的单词数;
v∈{1,2,...,V}作为不同词的索引;
α0与α1为分布的超参数;
K表示待测短文本集合中的主题个数;
|Am|表示Am中主题的数量,Am是待测短文本集合中短文本m焦点主题的一个集合;
bm,k表示主题选择器,服从伯努利分布,确定主题k是否为短文本m的焦点主题;
θmk表示主题k在第m条短文本中所占权重;
φkv表示主题词v在该主题下所有词中作占权重;
φv'表示背景词v在所有背景词中所占比重。
优选的,所述A3具体包括:
对于主题k(k∈{1,2,…,K}),根据φkv解释主题词v的实际含义,根据θmk表示主题k在第m条短文本中所占权重,从主题词v层次中选取权重为前N名的主题作为焦点主题,N值可预先设定。
本发明还提供一种短文本主题识别系统,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
A1、基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,所述词包括背景词和主题词;
A2、基于所述短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;
A3、基于所述主题词在短文本下所占权重,选取焦点主题;
其中,所述主题识别模型的预训练包括以下步骤:
S1、获取短文本,构建短文本集合D;
S2、确定所述短文本集合D中的主题个数K;
S3、基于有参贝叶斯模型、所述主题数量K和所述短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布,完成所述主题识别模型的训练。
优选的,所述S1具体包括:
获取n条短文本构成的短文本集合D,记为|M|表示短文本集合D中的短文本数量,去除所述短文本集合D中所有停用词;建立向量/>1≤i≤n,表示集合D中的第m条短文本;Dmn表示第m条短文本中的第n个词,Nm表示第m条短文本中的单词个数,V表示短文本M中的不同词的数量,并且用v∈{1,2,...,V}作为不同单词的索引。/>
优选的,所述S3具体包括:
式(1)中:β和β'是狄利克雷分布的超参数;
式(2)中:
bm,k是主题选择器,服从伯努利分布,确定主题k是否为短文本m的焦点主题;
Am∈{k:bm,k=1,k∈{1,2,...,K}}是短文本m焦点主题的一个集合;
α0与α1为分布的超参数,其中α0是平滑先验,用于平滑由主题选择器生成的主题;α1<<α0,其值接近于零,是弱平滑先验,用来控制与相应短文本无关的主题;
S303、基于短文本-主题分布,利用公式(4)生成主题-主题词分布和主题-背景词分布;
式(4)中:
cmn是二元指示变量,服从伯努利分布,决定主题词分布的超参数;
式(5)中:
当cmn=1时,表示短文本m是从主题词分布中生成词n的;
当cmn=0时,表示短文本m是从背景词分布中生成词n的;
式(4)中:
zmn服从多项式分布,表示第m条短文本的第n个词的主题编号;
(三)有益效果
本发明提供了一种短文本主题识别方法和系统。与现有技术相比,具备以下有益效果:
本发明首先基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,词包括背景词和主题词;然后基于短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;最后基于主题词在短文本下所占权重,选取焦点主题。本发明将短文本中词的做了区分,认为词包括背景词和主题词,除去在主题识别过程中背景词的影响,提高主题识别的准确率,从而准确的识别出焦点主题,为后续的个性化营销、推荐和信息检索等实际场景提供准确的数据支持。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种短文本主题识别方法的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种短文本主题识别方法和系统,解决了现有技术不能准确的识别出焦点主题的技术问题,实现提高主题识别的准确率,准确的识别出焦点主题。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例首先基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,词包括背景词和主题词;然后基于短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;最后基于主题词在短文本下所占权重,选取焦点主题。本发明实施例将短文本中词的做了区分,认为词包括背景词和主题词,除去在主题识别过程中背景词的影响,提高主题识别的准确率,从而准确的识别出焦点主题。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供一种短文本主题识别方法,如图1所示,上述方法由计算机执行,包括以下步骤:
A1、基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,上述词包括背景词和主题词;
A2、基于上述短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;
A3、基于上述主题词在短文本下所占权重,选取焦点主题;
其中,上述主题识别模型的预训练包括以下步骤:
S1、获取短文本,构建短文本集合D;
S2、确定短文本集合D中的主题个数K;
S3、基于有参贝叶斯模型、上述主题数量K和短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布,完成上述主题识别模型的训练。
本发明实施例首先基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,词包括背景词和主题词;然后基于短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;最后基于主题词在短文本下所占权重,选取焦点主题。本发明实施例将短文本中词的做了区分,认为词包括背景词和主题词,除去在主题识别过程中背景词的影响,提高主题识别的准确率,从而准确的识别出焦点主题,为后续的个性化营销、推荐和信息检索等实际场景提供准确的数据支持。
下面对各个步骤进行详细描述。
主题识别模型的训练过程包括:
S1、获取短文本,构建短文本集合D。具体为:
获取n条短文本构成的短文本集合D,记为|M|表示短文本集合D中的短文本数量;去除所述短文本集合D中所有停用词。建立向量/>1≤i≤n,用来表示集合D中的第m条短文本;Dmn表示第m条短文本中的第n个词,Nm表示第m条短文本中的单词数,V表示短文本M中的不同词的数量,并且用v∈{1,2,...,V}作为不同单词的索引。
S2、确定短文本集合D中的主题个数K。
S3、基于有参贝叶斯模型、主题个数K和短文本集合D确定主题-词分布以及短文本-主题分布,词包括:主题词和背景词,具体包括S301~S303:
S301、对于短文本集合D中的K个主题,获取主题-词分布,按照公式(1)进行抽样。从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布同样,抽取背景词分布/>β和β'是分布的超参数。
主题词分布和背景词分布的不同在于选择词的原因不同,短文本中从主题词分布中抽取的词是为了解释短文本主题,从背景词分布中抽取的词是为了使文章完整。例如:在科学论短文本案中,论文来自多个学科,如数学、生物学、计算机科学、经济学,每个组都有自己的一组主题词分布。除了类似这些的特定主题词分布,其余词是一组通用的背景词分布生成的由所有组共享。
S302、建立短文本-主题分布,获取焦点主题。短文本-主题分布用向量表示,短文本通常对应几个突出的主题,并非覆盖所有的主题,按照公式(2)生成短文本在K个主题中的焦点主题,确定先验分布的参数/>生成主题分布/>
Am∈{k:bm,k=1,k∈{1,2,...,K}}是短文本m焦点主题的一个集合。
表示短文本m对应的焦点主题分布,服从参数为/>的狄利克雷分布。α0与α1为分布的超参数,其中α0是平滑先验,用于平滑由主题选择器生成的主题;α1<<α0,其值接近于零,是弱平滑先验,用来控制与相应短文本无关的主题。平滑先验和弱平滑先验保证了短文本m对应于有限的焦点主题,同时避免了短文本对应不明确的焦点主题的情况。
S303、根据短文本的主题分布,利用公式(4)生成主题词分布。
cmn是二元指示变量,服从伯努利分布,决定主题词分布的超参数,
当cmn=1时,表示短文本m是从主题词分布中生成词n的;当cmn=0时,表示短文本m是从背景词分布中生成词n的。
式(4)中,zmn服从多项式分布,表示第m条短文本的第n个词的主题编号。当cmn=1时,从短文本主题分布生成主题zmn,之后通过主题词分布/>生成词wmn。当cmn=0时,从背景主题词分布/>生成词wmn。
采用上述训练后的主题识别模型,识别出待测短文本集合中的焦点主题。
在具体实施过程中,将待测短文本集合输入到主题识别模型中,设计坍塌式变分贝叶斯推断算法获取待测短文本集合中的短文本-主题分布和短文本-词分布。具体包括A101~A104。
A101、将待测短文本集合输入到经过训练的有参贝叶斯模型中,基于进折叠Gibbs抽样算法(collapsed Gibbs sampling algorithm)对待测短文本集合中的bm,k、Zmn、Cmn进行抽样。具体包括步骤A10101~A10103:
A10101、抽样主题选择器b:
式(6)中:
对式(6)中变量π进行积分,并用式(7)进行迭代,直至收敛。
式(7)中:
A10102、抽样主题分布Z:
得到的每篇短文本集合中的焦点主题情况bm,k后,对每个词wmn抽取对应的主题分布zmn,类似LDA,现在需要计算条件概率分布p(Zmn=k|Z-(mn),W),如式(8):
式(8)中:
Z-(mn)指除单词wmn外所有单词对应的主题;表示当cmn=1时,单词v被分配到主题k上的次数;/>表示当cmn=1时,被分配到主题k上的所有单词数;/>表示短文本集合m中被分配到主题k上的单词数;所有带有公式-(mn)的计数均表示去除了单词wmn。
A10103、抽样二进制变量c:
二进制变量cmn是分布选择器,决定了第m篇短文档中,生成第n个词所选择的主题词分布,抽样量cmn,需要计算条件概率分布,如式(9)。
式(9)中:
A102、为步骤A101中的中bm,k、Zmn、Cmn随机初始化值;
A103、根据步骤A101的公式(7)(8)(9)依次更新bm,k、Zmn、Cmn的值。
A104、将步骤A103重复I0次,I0是迭代次数,是预先设置的,并且可以根据最终结果进行调整,完成短文本集合中所有短文本和所述主题的更新。
A2、基于上述短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重。具体为:
根据步骤A104的结果,对参数θmk、φkv、φv'进行估计,如公式(10)、(11)和(12):
式中:
β和β'是分布的超参数;
Nm表示第m条短文本中的单词数;
v∈{1,2,...,V}作为不同词的索引;
α0与α1为分布的超参数;
K表示待测短文本集合中的主题个数;
|Am|表示Am中主题的数量,Am是待测短文本集合中短文本m焦点主题的一个集合;
bm,k表示主题选择器,服从伯努利分布,确定主题k是否为短文本m的焦点主题;
θmk表示主题k在第m条短文本中所占权重;
φkv表示主题词在主题中所占权重;
φv'表示背景词在主题中所占权重。
A3、基于所述主题词在短文本下所占权重,选取焦点主题。具体为:
对于主题k(k∈{1,2,…,K}),根据φkv解释主题词v的实际含义,根据θmk表示主题k在第m条短文本中所占权重,从主题词v层次中选取权重为前N名的主题作为焦点主题,N值可预先设定,如在本发明实施例中,N设置为20,则表示从主题词v层次中选取权重为前20名的主题作为焦点主题。
本发明实施例还提供一种短文本主题识别系统,上述系统包括计算机,上述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,上述至少一个存储单元中存储有至少一条指令,上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤:
A1、基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,上述词包括背景词和主题词;
A2、基于上述短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;
A3、基于上述主题词在短文本下所占权重,选取焦点主题;
其中,上述主题识别模型的预训练包括以下步骤:
S1、获取短文本,构建短文本集合D;
S2、确定短文本集合D中的主题个数K;
S3、基于有参贝叶斯模型、上述主题数量K和短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布,完成所述主题识别模型的训练。
可理解的是,本发明实施例提供的上述短文本主题识别系统与上述短文本主题识别方法相对应,其有关内容的解释、举例、有益效果等部分可以参考短文本主题识别方法中的相应内容,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例将短文本中词的做了区分,认为词包括背景词和主题词,除去在主题识别过程中背景词的影响,提高主题识别的准确率,从而准确的识别出焦点主题。
2、本发明实施例结合短文本集合文档中两个分布的相关信息:主题词分布和短文本主题分布,引入“Spike and Slab”先验,提出稀疏影响主题模型(有参贝叶斯模型SITM),将词的主题词分布和背景词分布分开,并推断出每个词的主题词分布,同时将每个词分配到可以重叠的主题词分布中,不单单认为每个词只属于一个主题,然后基于吉布斯抽样进行贝叶斯推断,自动判断出生成该词对应的主题。提高了主题识别的准确率和效率。为后续的个性化营销、推荐和信息检索等实际场景提供准确的数据支持。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种短文本主题识别方法,其特征在于,所述方法由计算机执行,包括以下步骤:
A1、基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,所述词包括背景词和主题词;
A2、基于所述短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;
A3、基于所述主题词在短文本下所占权重,选取焦点主题;
其中,所述主题识别模型的预训练包括以下步骤:
S1、获取短文本,构建短文本集合D,包括:获取n条短文本构成的短文本集合D,记为|M|表示短文本集合D中的短文本数量,去除所述短文本集合D中所有停用词;建立向量/>表示集合D中的第m条短文本;Dmn表示第m条短文本中的第n个词,Nm表示第m条短文本中的单词个数,V表示短文本M中的不同词的数量,并且用v∈{1,2,...,V}作为不同单词的索引;
S2、确定所述短文本集合D中的主题个数K;
S3、基于有参贝叶斯模型、所述主题数量K和所述短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布,完成所述主题识别模型的训练,具体包括:
式(1)中:β和β'是狄利克雷分布的超参数;
式(2)中:
bm,k是主题选择器,服从伯努利分布,确定主题k是否为短文本m的焦点主题;
Am∈{k:bm,k=1,k∈{1,2,...,K}}是短文本m焦点主题的一个集合;
α0与α1为分布的超参数,其中α0是平滑先验,用于平滑由主题选择器生成的主题;α1<<α0,其值接近于零,是弱平滑先验,用来控制与相应短文本无关的主题;
S303、基于短文本-主题分布,利用公式(4)生成主题-主题词分布和主题-背景词分布;
式(4)中:
cmn是二元指示变量,服从伯努利分布,决定主题词分布的超参数;
式(5)中:
当cmn=1时,表示短文本m是从主题词分布中生成词n的;
当cmn=0时,表示短文本m是从背景词分布中生成词n的;
式(4)中:
zmn服从多项式分布,表示第m条短文本的第n个词的主题编号;
2.如权利要求1所述的短文本主题识别方法,其特征在于,所述A1包括:
A101、将待测短文本集合输入到经过训练的有参贝叶斯模型中,基于进折叠Gibbs抽样算法对待测短文本集合中的bm,k、Zmn、Cmn进行抽样;
式(6)中:
I[·]是指标函数;
Am是短文本m焦点主题的一个集合,|Am|是Am中主题的数量;
对式(6)中变量π进行积分,并用式(7)进行迭代,直至收敛;
式(7)中,
Γ(x)为伽马函数;
A10102、得到的每篇短文本中的焦点主题情况bm,k后,对每个词wmn抽取对应的主题分布zmn,计算条件概率分布p(Zmn=k|Z-(mn),W),如式(8):
式(8)中:
Z-(mn)表示除单词wmn外所有单词对应的主题;
所有带有公式-(mn)的计数均表示去除了单词wmn;
A10103、对待测短文本集合中的Cmn进行抽样,如式(9):
式(9)中:
A102、为步骤A101中的中bm,k、Zmn、Cmn随机初始化值;
A103、根据步骤A101的公式(7)(8)(9)依次更新bm,k、Zmn、Cmn的值;
A104、重复步骤A103,完成短文本集合中所有短文本和所述主题的更新。
3.如权利要求2所述的短文本主题识别方法,其特征在于,所述A2具体包括:
根据步骤A104的结果,对参数θmk、φkv、φv'进行估计,如公式(10)、(11)和(12):
式中:
β和β'是分布的超参数;
Nm表示第m条短文本中的单词数;
v∈{1,2,...,V}作为不同词的索引;
α0与α1为分布的超参数;
K表示待测短文本集合中的主题个数;
|Am|表示Am中主题的数量,Am是待测短文本集合中短文本m焦点主题的一个集合;
bm,k表示主题选择器,服从伯努利分布,确定主题k是否为短文本m的焦点主题;
θmk表示主题k在第m条短文本中所占权重;
φkv表示主题词v在该主题下所有词中作占权重;
φv'表示背景词v在所有背景词中所占比重。
4.如权利要求3所述的短文本主题识别方法,其特征在于,所述A3具体包括:
对于主题k(k∈{1,2,…,K}),根据φkv解释主题词v的实际含义,根据θmk表示主题k在第m条短文本中所占权重,从主题词v层次中选取权重为前N名的主题作为焦点主题,N值可预先设定。
5.一种短文本主题识别系统,其特征在于,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
A1、基于预训练的主题识别模型,获取待测短文本集合的短文本-主题分布和主题-词分布,所述词包括背景词和主题词;
A2、基于所述短文本-主题分布和主题-词分布,计算各主题词在短文本下所占权重;
A3、基于所述主题词在短文本下所占权重,选取焦点主题;
其中,所述主题识别模型的预训练包括以下步骤:
S1、获取短文本,构建短文本集合D,包括:
获取n条短文本构成的短文本集合D,记为|M|表示短文本集合D中的短文本数量,去除所述短文本集合D中所有停用词;建立向量/>表示集合D中的第m条短文本;Dmn表示第m条短文本中的第n个词,Nm表示第m条短文本中的单词个数,V表示短文本M中的不同词的数量,并且用v∈{1,2,...,V}作为不同单词的索引;
S2、确定所述短文本集合D中的主题个数K;
S3、基于有参贝叶斯模型、所述主题数量K和所述短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布,完成所述主题识别模型的训练,包括:S301、对于短文本集合D中的K个主题,获取主题-词分布,按照公式(1)进行抽样,从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布和背景词分布/>
式(1)中:β和β'是狄利克雷分布的超参数;
式(2)中:
bm,k是主题选择器,服从伯努利分布,确定主题k是否为短文本m的焦点主题;
Am∈{k:bm,k=1,k∈{1,2,...,K}}是短文本m焦点主题的一个集合;
α0与α1为分布的超参数,其中α0是平滑先验,用于平滑由主题选择器生成的主题;α1<<α0,其值接近于零,是弱平滑先验,用来控制与相应短文本无关的主题;
S303、基于短文本-主题分布,利用公式(4)生成主题-主题词分布和主题-背景词分布;
式(4)中:
cmn是二元指示变量,服从伯努利分布,决定主题词分布的超参数;
式(5)中:
当cmn=1时,表示短文本m是从主题词分布中生成词n的;
当cmn=0时,表示短文本m是从背景词分布中生成词n的;
式(4)中:
zmn服从多项式分布,表示第m条短文本的第n个词的主题编号;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911116869.1A CN111090995B (zh) | 2019-11-15 | 2019-11-15 | 短文本主题识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911116869.1A CN111090995B (zh) | 2019-11-15 | 2019-11-15 | 短文本主题识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111090995A CN111090995A (zh) | 2020-05-01 |
CN111090995B true CN111090995B (zh) | 2023-03-31 |
Family
ID=70394041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911116869.1A Active CN111090995B (zh) | 2019-11-15 | 2019-11-15 | 短文本主题识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111090995B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704404B (zh) * | 2021-08-27 | 2024-03-05 | 合肥工业大学 | 一种基于专业生成内容的产品替代性信息抽取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831119A (zh) * | 2011-06-15 | 2012-12-19 | 日电(中国)有限公司 | 短文本聚类设备及方法 |
WO2017114019A1 (zh) * | 2015-12-29 | 2017-07-06 | 广州神马移动信息科技有限公司 | 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统 |
CN108280164A (zh) * | 2018-01-18 | 2018-07-13 | 武汉大学 | 一种基于类别相关单词的短文本过滤与分类方法 |
CN110046228A (zh) * | 2019-04-18 | 2019-07-23 | 合肥工业大学 | 短文本主题识别方法和系统 |
-
2019
- 2019-11-15 CN CN201911116869.1A patent/CN111090995B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831119A (zh) * | 2011-06-15 | 2012-12-19 | 日电(中国)有限公司 | 短文本聚类设备及方法 |
WO2017114019A1 (zh) * | 2015-12-29 | 2017-07-06 | 广州神马移动信息科技有限公司 | 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统 |
CN108280164A (zh) * | 2018-01-18 | 2018-07-13 | 武汉大学 | 一种基于类别相关单词的短文本过滤与分类方法 |
CN110046228A (zh) * | 2019-04-18 | 2019-07-23 | 合肥工业大学 | 短文本主题识别方法和系统 |
Non-Patent Citations (2)
Title |
---|
词向量与LDA相融合的短文本分类方法;张群等;《现代图书情报技术》;20161225(第12期);全文 * |
语义约束和时间关联LDA的社交媒体主题词链提取;万红新等;《小型微型计算机系统》;20180415(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111090995A (zh) | 2020-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ishaq et al. | Aspect-based sentiment analysis using a hybridized approach based on CNN and GA | |
CN107066464B (zh) | 语义自然语言向量空间 | |
CN110647626B (zh) | 基于互联网服务域的rest数据服务聚类方法 | |
CN111506785A (zh) | 基于社交文本的网络舆情话题识别方法和系统 | |
WO2021195095A1 (en) | Neural architecture search with weight sharing | |
CN111046904B (zh) | 一种图像描述方法、图像描述装置及计算机存储介质 | |
US11941867B2 (en) | Neural network training using the soft nearest neighbor loss | |
CN114048729A (zh) | 医学文献评价方法、电子设备、存储介质和程序产品 | |
Gao et al. | Generative adversarial network–assisted image classification for imbalanced tire X-ray defect detection | |
CN111090995B (zh) | 短文本主题识别方法和系统 | |
Mingyu et al. | AFR-BERT: attention-based mechanism feature relevance fusion multimodal sentiment analysis model | |
CN110209962B (zh) | 主题层次高影响力用户的获取方法和系统 | |
Doan et al. | Using language models for classifying the party affiliation of political texts | |
Joung et al. | Importance-performance analysis of product attributes using explainable deep neural network from online reviews | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
CN115906824A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
Desai et al. | A hybrid classification algorithm to classify engineering students' problems and perks | |
Cai et al. | Learning entity representation for named entity disambiguation | |
Kato et al. | Categorization of web news documents using word2vec and deep learning | |
CN112580348A (zh) | 政策文本关联性分析方法及系统 | |
Dhanya et al. | Comparative performance of machine learning algorithms in detecting offensive speech in malayalam-english code-mixed data | |
Wang et al. | A novel feature-based text classification improving the accuracy of twitter sentiment analysis | |
Putra et al. | Analyzing sentiments on official online lending platform in Indonesia with a Combination of Naive Bayes and Lexicon Based Method | |
CN110851600A (zh) | 基于深度学习的文本数据处理方法及装置 | |
AU2021102725A4 (en) | Sentiment Analysis of Human being with Effective Word Embedding Methodologies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |