CN111090995B

CN111090995B - 短文本主题识别方法和系统

Info

Publication number: CN111090995B
Application number: CN201911116869.1A
Authority: CN
Inventors: 姜元春; 李怡; 钱洋; 刘业政; 梁瑞成; 孙见山; 朱婷婷; 汪文娟; 刘畅; 刘心语
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2023-03-31
Anticipated expiration: 2039-11-15
Also published as: CN111090995A

Abstract

本发明提供一种短文本主题识别方法和系统，涉及数据处理领域。本发明首先基于预训练的主题识别模型，获取待测短文本集合的短文本‑主题分布和主题‑词分布，词包括背景词和主题词；然后基于短文本‑主题分布和主题‑词分布，计算各主题词在短文本下所占权重；最后基于主题词在短文本下所占权重，选取焦点主题。本发明将短文本中词的做了区分，认为词包括背景词和主题词，除去在主题识别过程中背景词的影响，提高主题识别的准确率，从而准确的识别出焦点主题，为后续的个性化营销、推荐和信息检索等实际场景提供准确的数据支持。

Description

短文本主题识别方法和系统

技术领域

本发明涉及数据处理技术，具体涉及一种短文本主题识别方法和系统。

背景技术

随着社交媒体和移动应用的快速发展，如微博、Facebook、Twitter和学术网站等正在成为非常受欢迎的社交平台。这些平台往往包含了大量的在线评论数据，这些数据通常内容较少可以被看作是短文本数据。但这类数据数量较多，并且普遍存在随意性语言这对分析该文本对应的主题影响很大。面对这些可用的网络数据，准确发现其对应的主题，对于个性化营销、推荐和信息检索等实际场景具有很高的应用价值。

由于大量在线数据的爆发式增长，近年来的研究主要集中在利用大规模的在线数据来推断在线情报，例如，准确理解市场结构对于许多营销管理实践是至关重要的，在真实的市场中，发现可替代的产品可以用指导定价决策、有针对性的广告政策和产品定位。为了降低在线评论这种短文本数据的稀疏性，解决文本聚类问题，提出的T-LDA模型，考虑到短文本数据的特点，检测数据集中的异常值，获取每个集群关注的焦点主题。

然而，模型忽略了背景词(背景词类似于介词，出现频率高，并且与文章主题关联度较低)在主题识别过程中的影响，导致模型不能准确地识别出焦点主题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种短文本主题识别方法和系统，解决了现有技术不能准确的识别出焦点主题的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明还提供一种短文本主题识别方法，所述方法由计算机执行，包括以下步骤：

A1、基于预训练的主题识别模型，获取待测短文本集合的短文本-主题分布和主题-词分布，所述词包括背景词和主题词；

A2、基于所述短文本-主题分布和主题-词分布，计算各主题词在短文本下所占权重；

A3、基于所述主题词在短文本下所占权重，选取焦点主题；

其中，所述主题识别模型的预训练包括以下步骤：

S1、获取短文本，构建短文本集合D；

S2、确定所述短文本集合D中的主题个数K；

S3、基于有参贝叶斯模型、所述主题数量K和所述短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布，完成所述主题识别模型的训练。

优选的，所述S1具体包括：

获取n条短文本构成的短文本集合D，记为

|M|表示短文本集合D中的短文本数量，去除所述短文本集合D中所有停用词；建立向量/>

1≤i≤n，表示集合D中的第m条短文本；D_mn表示第m条短文本中的第n个词，N_m表示第m条短文本中的单词个数，V表示短文本M中的不同词的数量，并且用v∈{1,2,...,V}作为不同单词的索引。

优选的，所述S3具体包括：

S301、对于短文本集合D中的K个主题，获取主题-词分布，按照公式(1)进行抽样，从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布

和背景词分布/>

式(1)中：β和β'是狄利克雷分布的超参数；

S302、构建短文本-主题分布，获取焦点主题，按照公式(2)生成短文本在K个主题中的焦点主题，确定先验分布的参数

生成主题分布/>

式(2)中：

b_m,k是主题选择器，服从伯努利分布，确定主题k是否为短文本m的焦点主题；

π_m服从参数为ε₀,ε₁的Beta分布，π_m与

构成Beta-Multinomial共轭；

A_m∈{k:b_m,k＝1,k∈{1,2,...,K}}是短文本m焦点主题的一个集合；

表示短文本m对应的焦点主题分布，服从参数为/>

的狄利克雷分布；

α₀与α₁为分布的超参数，其中α₀是平滑先验，用于平滑由主题选择器生成的主题；α₁＜＜α₀，其值接近于零，是弱平滑先验，用来控制与相应短文本无关的主题；

S303、基于短文本-主题分布，利用公式(4)生成主题-主题词分布和主题-背景词分布；

式(4)中：

服从参数为γ,γ'的Beta分布，用于选择主题词分布，/>

与/>

构成Beta-Multinomial共轭；

c_mn是二元指示变量，服从伯努利分布，决定主题词分布的超参数；

式(5)中：

当c_mn＝1时，表示短文本m是从主题词分布中生成词n的；

当c_mn＝0时，表示短文本m是从背景词分布中生成词n的；

式(4)中：

z_mn服从多项式分布，表示第m条短文本的第n个词的主题编号；

当c_mn＝1时，从短文本主题分布

生成主题z_mn，之后通过主题词分布/>

生成词w_mn；

当c_mn＝0时，从背景主题词分布

生成词w_mn。

优选的，所述A1包括：

A101、将待测短文本集合输入到经过训练的有参贝叶斯模型中，基于进折叠Gibbs抽样算法对待测短文本集合中的b_m,k、Z_mn、C_mn进行抽样；

A10101、基于贝叶斯法则与共轭先验获取π_m和

的联合概率分布，计算每篇短文本中的焦点主题情况b_m,k，如式(6)：

式(6)中：

I[·]是指标函数；

A_m是短文本m焦点主题的一个集合，|A_m|是A_m中主题的数量；

是n条短文本构成的短文本集合m中对应的主题集合；

是指短文本m中对应主题k的词的数量；

对式(6)中变量π进行积分，并用式(7)进行迭代，直至收敛；

式(7)中，

表示主题选择器b分配给短文本集合m的次数；

Γ(x)为伽马函数；

A10102、得到的每篇短文本中的焦点主题情况b_m,k后，对每个词w_mn抽取对应的主题分布z_mn，计算条件概率分布p(Z_mn＝k|Z_-(mn),W)，如式(8)：

式(8)中：

Z_-(mn)表示除单词w_mn外所有单词对应的主题；

表示当c_mn＝1时，单词v被分配到主题k上的次数；/>

表示当c_mn＝1时，被分配到主题k上的所有单词数；

表示短文本集合m中被分配到主题k上的单词数；

所有带有公式-(mn)的计数均表示去除了单词w_mn；

A10103、对待测短文本集合中的C_mn进行抽样，如式(9)：

式(9)中：

表示所有由背景主题词分布生成的单词数；

表示所有由主题词分布生成的单词书；

表示背景主题词分布生成单词v的次数；

表示背景主题词分布生成所有词的次数；

A102、为步骤A101中的中b_m,k、Z_mn、C_mn随机初始化值；

A103、根据步骤A101的公式(7)(8)(9)依次更新b_m,k、Z_mn、C_mn的值。

A104、重复步骤A103，完成短文本集合中所有短文本和所述主题的更新。

优选的，所述A2具体包括：

根据步骤A104的结果，对参数θ_mk、φ_kv、φ_v'进行估计，如公式(10)、(11)和(12)：

式中：

表示当c_mn＝1时，单词v被分配到主题k上的次数；

表示当c_mn＝1时，被分配到主题k上的所有单词数；/>

表示背景主题词分布生成单词v的次数；

表示背景主题词分布生成所有词的次数；

β和β'是分布的超参数；

N_m表示第m条短文本中的单词数；

v∈{1,2,...,V}作为不同词的索引；

α₀与α₁为分布的超参数；

K表示待测短文本集合中的主题个数；

|A_m|表示A_m中主题的数量，A_m是待测短文本集合中短文本m焦点主题的一个集合；

表示短文本集合m中被分配到主题k上的单词数；

b_m,k表示主题选择器，服从伯努利分布，确定主题k是否为短文本m的焦点主题；

θ_mk表示主题k在第m条短文本中所占权重；

φ_kv表示主题词v在该主题下所有词中作占权重；

φ_v'表示背景词v在所有背景词中所占比重。

优选的，所述A3具体包括：

对于主题k(k∈{1,2,…,K})，根据φ_kv解释主题词v的实际含义，根据θ_mk表示主题k在第m条短文本中所占权重，从主题词v层次中选取权重为前N名的主题作为焦点主题，N值可预先设定。

本发明还提供一种短文本主题识别系统，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，所述至少一个存储单元中存储有至少一条指令，所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤：

A3、基于所述主题词在短文本下所占权重，选取焦点主题；

其中，所述主题识别模型的预训练包括以下步骤：

S1、获取短文本，构建短文本集合D；

S2、确定所述短文本集合D中的主题个数K；

优选的，所述S1具体包括：

获取n条短文本构成的短文本集合D，记为

1≤i≤n，表示集合D中的第m条短文本；D_mn表示第m条短文本中的第n个词，N_m表示第m条短文本中的单词个数，V表示短文本M中的不同词的数量，并且用v∈{1,2,...,V}作为不同单词的索引。/>

优选的，所述S3具体包括：

和背景词分布/>

式(1)中：β和β'是狄利克雷分布的超参数；

生成主题分布/>

式(2)中：

π_m服从参数为ε₀,ε₁的Beta分布，π_m与

构成Beta-Multinomial共轭；

A_m∈{k:b_m,k＝1,k∈{1,2,...,K}}是短文本m焦点主题的一个集合；

表示短文本m对应的焦点主题分布，服从参数为/>

的狄利克雷分布；

式(4)中：

服从参数为γ,γ'的Beta分布，用于选择主题词分布，/>

与/>

构成Beta-Multinomial共轭；

式(5)中：

当c_mn＝1时，表示短文本m是从主题词分布中生成词n的；

当c_mn＝0时，表示短文本m是从背景词分布中生成词n的；

式(4)中：

当c_mn＝1时，从短文本主题分布

生成主题z_mn，之后通过主题词分布/>

生成词w_mn；

当c_mn＝0时，从背景主题词分布

生成词w_mn。

(三)有益效果

本发明提供了一种短文本主题识别方法和系统。与现有技术相比，具备以下有益效果：

本发明首先基于预训练的主题识别模型，获取待测短文本集合的短文本-主题分布和主题-词分布，词包括背景词和主题词；然后基于短文本-主题分布和主题-词分布，计算各主题词在短文本下所占权重；最后基于主题词在短文本下所占权重，选取焦点主题。本发明将短文本中词的做了区分，认为词包括背景词和主题词，除去在主题识别过程中背景词的影响，提高主题识别的准确率，从而准确的识别出焦点主题，为后续的个性化营销、推荐和信息检索等实际场景提供准确的数据支持。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种短文本主题识别方法的框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种短文本主题识别方法和系统，解决了现有技术不能准确的识别出焦点主题的技术问题，实现提高主题识别的准确率，准确的识别出焦点主题。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例首先基于预训练的主题识别模型，获取待测短文本集合的短文本-主题分布和主题-词分布，词包括背景词和主题词；然后基于短文本-主题分布和主题-词分布，计算各主题词在短文本下所占权重；最后基于主题词在短文本下所占权重，选取焦点主题。本发明实施例将短文本中词的做了区分，认为词包括背景词和主题词，除去在主题识别过程中背景词的影响，提高主题识别的准确率，从而准确的识别出焦点主题。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供一种短文本主题识别方法，如图1所示，上述方法由计算机执行，包括以下步骤：

A1、基于预训练的主题识别模型，获取待测短文本集合的短文本-主题分布和主题-词分布，上述词包括背景词和主题词；

A2、基于上述短文本-主题分布和主题-词分布，计算各主题词在短文本下所占权重；

A3、基于上述主题词在短文本下所占权重，选取焦点主题；

其中，上述主题识别模型的预训练包括以下步骤：

S1、获取短文本，构建短文本集合D；

S2、确定短文本集合D中的主题个数K；

S3、基于有参贝叶斯模型、上述主题数量K和短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布，完成上述主题识别模型的训练。

本发明实施例首先基于预训练的主题识别模型，获取待测短文本集合的短文本-主题分布和主题-词分布，词包括背景词和主题词；然后基于短文本-主题分布和主题-词分布，计算各主题词在短文本下所占权重；最后基于主题词在短文本下所占权重，选取焦点主题。本发明实施例将短文本中词的做了区分，认为词包括背景词和主题词，除去在主题识别过程中背景词的影响，提高主题识别的准确率，从而准确的识别出焦点主题，为后续的个性化营销、推荐和信息检索等实际场景提供准确的数据支持。

下面对各个步骤进行详细描述。

主题识别模型的训练过程包括：

S1、获取短文本，构建短文本集合D。具体为：

获取n条短文本构成的短文本集合D，记为

|M|表示短文本集合D中的短文本数量；去除所述短文本集合D中所有停用词。建立向量/>

1≤i≤n，用来表示集合D中的第m条短文本；D_mn表示第m条短文本中的第n个词，N_m表示第m条短文本中的单词数，V表示短文本M中的不同词的数量，并且用v∈{1,2,...,V}作为不同单词的索引。

S2、确定短文本集合D中的主题个数K。

S3、基于有参贝叶斯模型、主题个数K和短文本集合D确定主题-词分布以及短文本-主题分布，词包括：主题词和背景词，具体包括S301～S303：

S301、对于短文本集合D中的K个主题，获取主题-词分布，按照公式(1)进行抽样。从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布

同样，抽取背景词分布/>

β和β'是分布的超参数。

主题词分布和背景词分布的不同在于选择词的原因不同，短文本中从主题词分布中抽取的词是为了解释短文本主题，从背景词分布中抽取的词是为了使文章完整。例如：在科学论短文本案中，论文来自多个学科，如数学、生物学、计算机科学、经济学，每个组都有自己的一组主题词分布。除了类似这些的特定主题词分布，其余词是一组通用的背景词分布生成的由所有组共享。

S302、建立短文本-主题分布，获取焦点主题。短文本-主题分布用向量

表示，短文本通常对应几个突出的主题，并非覆盖所有的主题，按照公式(2)生成短文本在K个主题中的焦点主题，确定先验分布的参数/>

生成主题分布/>

/>

式(2)中，b_m,k是主题选择器，服从伯努利分布，确定主题k是否为短文本m的焦点主题，π_m服从参数为ε₀,ε₁的Beta分布，π_m与

构成Beta-Multinomial共轭。

A_m∈{k:b_m,k＝1,k∈{1,2,...,K}}是短文本m焦点主题的一个集合。

表示短文本m对应的焦点主题分布，服从参数为/>

的狄利克雷分布。α₀与α₁为分布的超参数，其中α₀是平滑先验，用于平滑由主题选择器生成的主题；α₁＜＜α₀，其值接近于零，是弱平滑先验，用来控制与相应短文本无关的主题。平滑先验和弱平滑先验保证了短文本m对应于有限的焦点主题，同时避免了短文本对应不明确的焦点主题的情况。

S303、根据短文本的主题分布，利用公式(4)生成主题词分布。

式(4)中，

服从参数为γ,γ'的Beta分布，用于选择主题词分布，/>

与/>

构成Beta-Multinomial共轭。

c_mn是二元指示变量，服从伯努利分布，决定主题词分布的超参数，

当c_mn＝1时，表示短文本m是从主题词分布中生成词n的；当c_mn＝0时，表示短文本m是从背景词分布中生成词n的。

式(4)中，z_mn服从多项式分布，表示第m条短文本的第n个词的主题编号。当c_mn＝1时，从短文本主题分布

生成主题z_mn，之后通过主题词分布/>

生成词w_mn。当c_mn＝0时，从背景主题词分布/>

生成词w_mn。

采用上述训练后的主题识别模型，识别出待测短文本集合中的焦点主题。

在具体实施过程中，将待测短文本集合输入到主题识别模型中，设计坍塌式变分贝叶斯推断算法获取待测短文本集合中的短文本-主题分布和短文本-词分布。具体包括A101～A104。

A101、将待测短文本集合输入到经过训练的有参贝叶斯模型中，基于进折叠Gibbs抽样算法(collapsed Gibbs sampling algorithm)对待测短文本集合中的b_m,k、Z_mn、C_mn进行抽样。具体包括步骤A10101～A10103：

A10101、抽样主题选择器b：

利用贝叶斯法则与共轭先验，得到π_m和

的联合概率分布，如式(6)。

式(6)中：

I[·]作为指标函数，A_m是短文本m焦点主题的一个集合，|A_m|是A_m中主题的数量，

是n条短文本构成的文档集合m中对应的主题集合，/>

是指文档m中对应主题k的词的数量。

对式(6)中变量π进行积分，并用式(7)进行迭代，直至收敛。

式(7)中：

表示主题选择器b分配给短文本集合m的次数，Γ(x)为伽马函数。

A10102、抽样主题分布Z：

得到的每篇短文本集合中的焦点主题情况b_m,k后，对每个词w_mn抽取对应的主题分布z_mn，类似LDA，现在需要计算条件概率分布p(Z_mn＝k|Z_-(mn),W)，如式(8)：

式(8)中：

Z_-(mn)指除单词w_mn外所有单词对应的主题；

表示当c_mn＝1时，单词v被分配到主题k上的次数；/>

表示当c_mn＝1时，被分配到主题k上的所有单词数；/>

表示短文本集合m中被分配到主题k上的单词数；所有带有公式-(mn)的计数均表示去除了单词w_mn。

A10103、抽样二进制变量c：

二进制变量c_mn是分布选择器，决定了第m篇短文档中，生成第n个词所选择的主题词分布，抽样量c_mn，需要计算条件概率分布，如式(9)。

式(9)中：

表示所有由背景主题词分布生成的单词数，/>

表示所有由主题词分布生成的单词书；/>

表示背景主题词分布生成单词v的次数，/>

表示背景主题词分布生成所有词的次数。

A102、为步骤A101中的中b_m,k、Z_mn、C_mn随机初始化值；

A104、将步骤A103重复I₀次，I₀是迭代次数，是预先设置的，并且可以根据最终结果进行调整，完成短文本集合中所有短文本和所述主题的更新。

A2、基于上述短文本-主题分布和主题-词分布，计算各主题词在短文本下所占权重。具体为：

式中：

表示当c_mn＝1时，单词v被分配到主题k上的次数；

表示当c_mn＝1时，被分配到主题k上的所有单词数；

表示背景主题词分布生成单词v的次数；

表示背景主题词分布生成所有词的次数；

β和β'是分布的超参数；

N_m表示第m条短文本中的单词数；

v∈{1,2,...,V}作为不同词的索引；

α₀与α₁为分布的超参数；

K表示待测短文本集合中的主题个数；

表示短文本集合m中被分配到主题k上的单词数；

θ_mk表示主题k在第m条短文本中所占权重；

φ_kv表示主题词在主题中所占权重；

φ_v'表示背景词在主题中所占权重。

A3、基于所述主题词在短文本下所占权重，选取焦点主题。具体为：

对于主题k(k∈{1,2,…,K})，根据φ_kv解释主题词v的实际含义，根据θ_mk表示主题k在第m条短文本中所占权重，从主题词v层次中选取权重为前N名的主题作为焦点主题，N值可预先设定，如在本发明实施例中，N设置为20，则表示从主题词v层次中选取权重为前20名的主题作为焦点主题。

本发明实施例还提供一种短文本主题识别系统，上述系统包括计算机，上述计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，上述至少一个存储单元中存储有至少一条指令，上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤：

A3、基于上述主题词在短文本下所占权重，选取焦点主题；

其中，上述主题识别模型的预训练包括以下步骤：

S1、获取短文本，构建短文本集合D；

S2、确定短文本集合D中的主题个数K；

S3、基于有参贝叶斯模型、上述主题数量K和短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布，完成所述主题识别模型的训练。

可理解的是，本发明实施例提供的上述短文本主题识别系统与上述短文本主题识别方法相对应，其有关内容的解释、举例、有益效果等部分可以参考短文本主题识别方法中的相应内容，此处不再赘述。

综上所述，与现有技术相比，具备以下有益效果：

1、本发明实施例将短文本中词的做了区分，认为词包括背景词和主题词，除去在主题识别过程中背景词的影响，提高主题识别的准确率，从而准确的识别出焦点主题。

2、本发明实施例结合短文本集合文档中两个分布的相关信息：主题词分布和短文本主题分布，引入“Spike and Slab”先验，提出稀疏影响主题模型(有参贝叶斯模型SITM)，将词的主题词分布和背景词分布分开，并推断出每个词的主题词分布，同时将每个词分配到可以重叠的主题词分布中，不单单认为每个词只属于一个主题，然后基于吉布斯抽样进行贝叶斯推断，自动判断出生成该词对应的主题。提高了主题识别的准确率和效率。为后续的个性化营销、推荐和信息检索等实际场景提供准确的数据支持。

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种短文本主题识别方法，其特征在于，所述方法由计算机执行，包括以下步骤：

A3、基于所述主题词在短文本下所占权重，选取焦点主题；

其中，所述主题识别模型的预训练包括以下步骤：

S1、获取短文本，构建短文本集合D，包括：获取n条短文本构成的短文本集合D，记为

表示集合D中的第m条短文本；D_mn表示第m条短文本中的第n个词，N_m表示第m条短文本中的单词个数，V表示短文本M中的不同词的数量，并且用v∈{1,2,...,V}作为不同单词的索引；

S2、确定所述短文本集合D中的主题个数K；

S3、基于有参贝叶斯模型、所述主题数量K和所述短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布，完成所述主题识别模型的训练，具体包括：

和背景词分布/>

式(1)中：β和β'是狄利克雷分布的超参数；

生成主题分布/>

式(2)中：

π_m服从参数为ε₀,ε₁的Beta分布，π_m与

构成Beta-Multinomial共轭；

A_m∈{k:b_m,k＝1,k∈{1,2,...,K}}是短文本m焦点主题的一个集合；

表示短文本m对应的焦点主题分布，服从参数为/>

的狄利克雷分布；

式(4)中：

服从参数为γ,γ'的Beta分布，用于选择主题词分布，/>

与/>

构成Beta-Multinomial共轭；

式(5)中：

当c_mn＝1时，表示短文本m是从主题词分布中生成词n的；

当c_mn＝0时，表示短文本m是从背景词分布中生成词n的；

式(4)中：

当c_mn＝1时，从短文本主题分布

生成主题z_mn，之后通过主题词分布/>

生成词w_mn；

当c_mn＝0时，从背景主题词分布

生成词w_mn。

2.如权利要求1所述的短文本主题识别方法，其特征在于，所述A1包括：

A10101、基于贝叶斯法则与共轭先验获取π_m和

式(6)中：

I[·]是指标函数；

A_m是短文本m焦点主题的一个集合，|A_m|是A_m中主题的数量；

是n条短文本构成的短文本集合m中对应的主题集合；

是指短文本m中对应主题k的词的数量；

对式(6)中变量π进行积分，并用式(7)进行迭代，直至收敛；

式(7)中，

表示主题选择器b分配给短文本集合m的次数；

Γ(x)为伽马函数；

式(8)中：

Z_-(mn)表示除单词w_mn外所有单词对应的主题；

表示当c_mn＝1时，单词v被分配到主题k上的次数；

表示当c_mn＝1时，被分配到主题k上的所有单词数；

表示短文本集合m中被分配到主题k上的单词数；

所有带有公式-(mn)的计数均表示去除了单词w_mn；

A10103、对待测短文本集合中的C_mn进行抽样，如式(9)：

式(9)中：

表示所有由背景主题词分布生成的单词数；

表示所有由主题词分布生成的单词书；

表示背景主题词分布生成单词v的次数；

表示背景主题词分布生成所有词的次数；

A102、为步骤A101中的中b_m,k、Z_mn、C_mn随机初始化值；

A103、根据步骤A101的公式(7)(8)(9)依次更新b_m,k、Z_mn、C_mn的值；

3.如权利要求2所述的短文本主题识别方法，其特征在于，所述A2具体包括：

/>

式中：

表示当c_mn＝1时，单词v被分配到主题k上的次数；

表示当c_mn＝1时，被分配到主题k上的所有单词数；

表示背景主题词分布生成单词v的次数；

表示背景主题词分布生成所有词的次数；

β和β'是分布的超参数；

N_m表示第m条短文本中的单词数；

v∈{1,2,...,V}作为不同词的索引；

α₀与α₁为分布的超参数；

K表示待测短文本集合中的主题个数；

表示短文本集合m中被分配到主题k上的单词数；

θ_mk表示主题k在第m条短文本中所占权重；

φ_kv表示主题词v在该主题下所有词中作占权重；

φ_v'表示背景词v在所有背景词中所占比重。

4.如权利要求3所述的短文本主题识别方法，其特征在于，所述A3具体包括：

5.一种短文本主题识别系统，其特征在于，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

A3、基于所述主题词在短文本下所占权重，选取焦点主题；

其中，所述主题识别模型的预训练包括以下步骤：

S1、获取短文本，构建短文本集合D，包括：

获取n条短文本构成的短文本集合D，记为

S2、确定所述短文本集合D中的主题个数K；

S3、基于有参贝叶斯模型、所述主题数量K和所述短文本集合D获取短文本-主题分布、主题-主题词分布、主题-背景词分布，完成所述主题识别模型的训练，包括：S301、对于短文本集合D中的K个主题，获取主题-词分布，按照公式(1)进行抽样，从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布