CN110442733A

CN110442733A - 一种主题生成方法、装置和设备及介质

Info

Publication number: CN110442733A
Application number: CN201910731685.XA
Authority: CN
Inventors: 娄东方; 林金曙; 金基东; 卢长松; 廖智霖; 陈华华; 张奇明; 刘全; 沈晓峰
Original assignee: Hundsun Technologies Inc
Current assignee: Hundsun Technologies Inc
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2019-11-12

Abstract

本申请实施例公开了一种主题生成方法、装置、设备及存储介质，其中，该方法包括：获取待生成主题的文本集；基于与该文本集领域匹配的词向量模型，确定该文本集中各文本中分词的词向量；基于与该文本集领域匹配的知识图谱，确定该文本集中各文本中分词的知识图谱信息；融合该文本集中各文本中分词的知识图谱信息和词向量，训练主题模型得到文本集中各文本各自对应的主题表示向量。如此，对主题模型的可扩展性和可解释性进行有效地提升。

Description

一种主题生成方法、装置和设备及介质

技术领域

本申请涉及文本挖掘技术领域，尤其涉及一种主题生成方法、装置、设备以及存储介质。

背景技术

近年来，主题模型(Topic Mode)成为文本挖掘领域的热点，它能够发现文档-词语之间所蕴含的潜在语义关系(即主题)，将文档看成一组主题的混合分布，而主题又是词语的概率分布，从而将高纬度的“文档-词语”向量空间映射成低纬度的“文档-主题”和“主题-词语”空间，有效提高了文本信息处理的性能。

传统的主题模型受到其采用的词袋模型和非监督学习模型的限制，其只会关注主题内部分布的语义相关性信息，这就造成基于传统的主题模型进行热点话题发现时，存在解释性较差以及可扩展性较差的问题。

发明内容

本申请实施例提供了一种主题生成方法、装置、设备及存储介质，能够有效地提升主题模型的可扩展性和可解释性。

有鉴于此，本申请第一方面提供了一种主题生成方法，包括：

获取待生成主题的文本集；

基于所述文本集领域匹配的词向量模型，确定所述文本集中各文本中分词的词向量；

基于所述文本集领域匹配的知识图谱，确定所述文本集中各文本中分词的知识图谱信息；

根据所述文本集融合所述文本集中各文本中分词的知识图谱信息和词向量，训练主题模型得到所述文本集中各文本各自对应的主题表示向量。

可选的，所述主题模型为高斯LDA主题模型，则所述基于与所述文本集领域相匹配的知识图谱，确定所述文本集中各文本中分词的知识图谱信息，包括：

针对所述文本集中各文本，确定各文本中的实体分词；

基于与所述文本集领域相匹配的知识图谱，确定各实体分词的知识图谱信息。

可选的，所述主题模型为高斯LDA主题模型，则所述基于所述文本集领域匹配的词向量模型确定所述文本集中各文本中分词的词向量，包括：

针对所述文本集中各文本，确定各文本中的非实体分词；

基于与所述文本集领域相匹配的词向量模型，确定各非实体分词的词向量。

可选的，所述主题模型为BTM主题模型时，则所述基于与所述文本集领域相匹配的知识图谱，确定所述文本集中各文本中分词的知识图谱信息，包括：

针对所述文本集中各文本，确定各文本中的分词；

基于与所述文本集领域相匹配的知识图谱，确定各分词的知识图谱信息。

可选的，所述主题模型为BTM主题模型时，则所述基于所述文本集领域匹配的词向量模型确定所述文本集中各文本中分词的词向量，包括：

针对所述文本集中各文本，确定各文本中的分词；

基于与所述文本集领域相匹配的词向量模型，确定各分词的词向量。

可选的，所述方法还包括：

通过K-Means算法，基于各文本对应的主题向量进行文本聚类得到K个类簇；

根据K个类簇中心的余弦相似度进行二次聚合得到文本聚类结果。

可选的，所述方法还包括：

根据所述文本聚类结果计算热度系数，选择热度系数最高的N类文本的类簇作为热点话题。

本申请第二方面提供了一种主题生成装置，包括：

获取模块，用于获取待生成主题的文本集；

词向量确定模块，用于基于所述文本集领域匹配的词向量模型，确定所述文本集中各文本中分词的词向量；

知识图谱信息确定模块，用于基于所述文本集领域匹配的知识图谱，确定所述文本集中各文本中分词的知识图谱信息；

主题生成模块，用于根据所述文本集融合所述文本集中各文本中分词的知识图谱信息和词向量，训练主题模型，所述主题模型用于对输入的文本进行建模以输出文本对应的主题表示向量。

可选的，所述主题模型为高斯LDA主题模型，则所述知识图谱信息确定模块具体用于：

针对所述文本集中各文本，确定各文本中的实体分词；

可选的，所述主题模型为高斯LDA主题模型，则所述词向量确定模块具体用于：

针对所述文本集中各文本，确定各文本中的非实体分词；

可选的，所述主题模型为BTM主题模型时，则所述知识图谱信息确定模块具体用于：

针对所述文本集中各文本，确定各文本中的分词；

可选的，所述主题模型为BTM主题模型时，则所述词向量确定模块具体用于：

针对所述文本集中各文本，确定各文本中的分词；

可选的，所述装置还包括：

粗聚类模块，用于通过K-Means算法，基于各文本对应的主题向量进行文本聚类得到K个类簇；

精聚类模块，用于根据K个类簇中心的余弦相似度进行聚类得到文本聚类结果。

可选的，所述装置还包括：

热点主题确定模块，用于根据所述文本聚类结果计算热度系数，选择热度系数最高的N类文本的类簇作为热点话题。

本申请第三方面提供一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令，执行如上述第一方面所述的主题生成方法的步骤。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述第一方面所述的主题生成方法。

本申请第五方面提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述第一方面所述的主题生成方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种主题生成方法，该方法在训练主题模型的过程中，将知识图谱与词向量有机地融合起来，丰富了文本中各分词的语义信息，提升了语义信息的表达能力。具体的，在该主题生成方法中，先获取待生成主题的文本集；然后，基于与该文本集领域相匹配的知识图谱，确定文本集中各文本中分词的知识图谱信息；基于与该文本集领域相匹配的词向量模型，确定文本集中各分词的词向量；最终，根据文本集融合文本集中各文本中分词的知识图谱信息和词向量，训练主题模型得到文本集中各文本各自对应的主题表示向量。相比现有技术中传统的主题模型，本申请实施例中的主题模型将文本中分词的知识图谱信息与词向量投影至同一向量空间，从而实现词向量语义信息与结构化的知识图谱信息的整合，由于知识图谱不仅能够表示先验知识，其中的关联性还能为主题模型提供直观的解释，因此，将分词的知识图谱信息与词向量结合起来，能够有效地提升各分词的语义信息以及主题的可解释性。

附图说明

图1为本申请实施例提供的主题生成方法的应用场景示意图；

图2为本申请实施例提供的主题生成方法的流程示意图；

图3为本申请实施例提供的主题生成方法的整体架构示意图；

图4为本申请实施例提供的主题生成装置的结构示意图；

图5为本申请实施例提供的一种服务器的结构示意图；

图6为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

针对传统的主题模型存在的可解释性较差和可扩展性较差的技术问题，本申请实施例提供了一种主题生成方法，该方法基于与文本集领域相匹配的知识图谱确定文本集中各文本中分词的知识图谱信息，基于于文本集领域相匹配的词向量模型确定文本集中各文本中分词的词向量，进而，将文本集中各文本中分词的知识图谱信息与词向量融合起来，基于此训练主题模型获得文本集中各文本各自对应的主题向量表示。由于知识图谱能够通过图的形式展现实体、实体属性与实体之间的关联关系，并且该关联关系能够为主题模型提供更直观的解释，因此，将基于知识图谱确定出的知识图谱信息与词向量结合起来，能够有效地提升主题模型的可扩展性和可解释性。

应理解，本申请实施例提供的主题生成方法可以应用于具备数据处理能力的设备，如终端设备、服务器等；其中，终端设备具体可以为计算机、个人数字助理(PersonalDigital Assitant，PDA)、手机、平板电脑等；服务器具体可以为应用服务器，也可以为Web服务器，在实际应用部署时，该服务器可以为独立服务器，也可以为集群服务器。

为了便于理解本申请实施例提供的技术方案，下面以服务器作为执行主体为例，结合应用场景对本申请实施例提供的主题生成方法进行介绍。

参见图1，图1为本申请实施例提供的主题生成方法的应用场景示意图。如图1所示，该应用场景中包括：服务器101和终端设备102；其中，终端设备102用于向服务器101上传待生成主题的文本集；服务器101用于执行本申请实施例提供的主题生成方法，针对终端设备102上传的文本集确定其中各文本各自对应的主题表示向量。

应理解，在实际应用中，也可以由多个终端设备102向服务器101上传属于同一领域的待生成主题的文本，进而，服务器101将各终端设备102上传的文本汇总起来得到待生成主题的文本集。

服务器101获取到待生成主题的文本集后，基于与该文本集领域匹配的知识图谱，确定该文本集中各文本中分词的知识图谱信息；例如，假设待生成主题的文本集属于金融领域，则服务器101可以调用与金融领域匹配的知识图谱，确定文本集中各文本中分词的知识图谱信息。基于与该文本集领域匹配的词向量模型，确定该文本集中各文本中分词的词向量。进而，将文本集中各文本中分词的知识图谱信息和词向量融合起来，对主题模型进行训练，得到文本集中各文本各自对应的主题表示向量。如此，将基于知识图谱确定出的知识图谱信息与词向量结合起来，有效地提升主题模型的可扩展性和可解释性。

应理解，上述图1所示的应用场景仅为一种示例，在实际应用中，本申请实施例提供的主题生成方法还可以应用于其他应用场景，在此不对本申请实施例提供的主题生成方法适用的应用场景做任何限定。

下面通过实施例对本申请提供的主题生成方法进行介绍。

参见图2，图2为本申请实施例提供的一种主题生成方法的流程示意图。为了便于描述，下述实施例以服务器作为执行主体进行描述，应理解，该主题生成方法的执行主体并不仅局限于服务器，还可以为终端设备等。如图2所示，该主题生成方法包括以下步骤：

步骤201：获取待生成主题的文本集。

目前文本热点话题的发现主要针对特定的领域开展，例如，金融文本舆情数据(如贸易战相关新闻、个税改革相关新闻等)的热点话题发现等等。当需要针对特定领域挖掘相关热点话题时，服务器可以从终端设备或其他相关服务器处获取大量属于该特定领域的文本，利用所获取的文本组成待生成主题的文本集，进而，基于该待生成主题的文本集确定其中各文本对应的主题表示向量，并基于主题表示向量的聚类结果进一步确定当前热点话题。

步骤202：基于所述文本集领域匹配的词向量模型，确定所述文本集中各文本中分词的词向量。

服务器获取到待生成主题的文本集后，确定该文本集所属的技术领域；进而，基于与该领域相匹配的词向量模型，确定文本集中各文本中分词的词向量。

需要说明的是，传统的主题模型中的词袋(Bag of Words，BOW)模型将每个词都视为不同的特征，忽略了词与词之间的语义相似性和相关性，因此，基于BOW模型构建的主题模型会存在维度高、可扩展性较差等问题。而Word2Vec(Word to Vector)词向量可以通过预测邻近词学习低维连续向量表示，从大量语料中获取语义信息。

面对文本集中的长文本时，本申请实施例提供的主题生成方法可以采用高斯LDA(Gaussian Latent Dirichlet Allocation，Gaussian LDA)主题模型作为本申请实施例中的主题模型，并且该Gaussian LDA主题模型能够将主题刻画为词向量的多元正态分布，从而有效地融入词向量的语义信息，此处的词向量可以通过大量开放域的语料训练得到。

当主题模型为Gaussian LDA主题模型时，可以先针对文本集中各文本，确定各文本中的非实体分词；进而，基于与文本集领域相匹配的词向量模型，确定各非实体分词的词向量。具体的，可以利用大量语料序列一般非实体词(知识图谱之外的词)的d维Word2Vec词向量表示{v_j}，词向量中蕴含了较多的语义信息，能自动表达词与词之间的语义相关性，另外，词向量能够解决BOW模型不能发行“新词”的问题。

面对文本集中的短文本时，本申请实施例提供的主题生成方法可以采用BTM(Biterm Topic Model)主题模型作为本申请实施例中的主题模型，BTM主题模型可以有效地解决稀疏性的问题，本申请在此进一步利用Word2Vec词向量信息提升语义信息的表达，弥补BTM主题模型的“新词”表达能力。

考虑到短文本中实体词一般较少，当主题模型为BTM主题模型时，可以针对文本集中各文本确定其中的分词，进而，基于与该文本集相匹配的词向量模型确定各分词的词向量。即，在面对短文本时，直接利用与文本集所属领域相匹配的词向量模型，确定短文本中各分词的词向量。

步骤203：基于所述文本集领域匹配的知识图谱，确定所述文本集中各文本中分词的知识图谱信息。

服务器获取到待生成主题的文本集后，确定该文本集所属的领域；进而，调用与该领域相匹配的知识图谱，通过查询该知识图谱确定文本集中各文本中分词的知识图谱信息。

需要说明的是，知识图谱能够通过图的形式展现实体、实体属性和实体之间的关联关系；由于知识图谱具有良好的结构化先验信息，近年来知识图谱在搜索引擎、金融事件传导等领域得到了广泛的应用，其能够提供结构化的信息，辅助丰富决策系统。通常情况下，知识图谱信息蕴含了实体和关系的显著且规则的语义信息，基于该语义信息能够对潜在的语义相关性进行挖掘，例如，母公司与子公司、上市公司全称与其股票代码的语义相关性都较高。

面对文本集中的长文本时，本申请实施例提供的主题生成方法可以采用GaussianLDA主题模型作为本申请实施例中的主题模型，Gaussian LDA主题模型可以将主题刻画为词向量的多元正态分布，在一定程度上实现词向量的语义信息的融合。

考虑到长文本中通常包括大量的分词，直接利用与文本集领域相匹配的知识图谱确定其中各个分词的知识图谱信息，会耗费大量的处理资源，并且并不会对最终的主题生成结果产生较大的影响。因此，基于Gaussian LDA主题模型确定长文本中分词的知识图谱信息时，可以先针对文本集中各文本中的实体分词，进而，再基于与文本集领域相匹配的知识图谱，确定各实体分词的知识图谱信息。即，结合与文本集领域相匹配的知识图谱和大量语料，采用TEKE-TransE法训练得到各实体分词的d维知识图谱实体嵌入{e_i}和关系嵌入{r_m}，作为各实体分词的知识图谱信息。

应理解，在实际应用中，面对文本集中的长文本时除了可以采用Gaussian LDA主题模型外，也可以采用其他主题模型，在此不对处理长文本时应用的主题模型的类型做任何限定。

面对文本集中的短文本时，本申请实施例提供的主题生成方法可以采用BTM主题模型作为本申请实施例中的主题模型。传统的LDA主题模型在短文本数据下会遭遇严重的稀疏性问题，问题的根源在于短文本中的词较少且具有独立性假设，包括上文提及的Gaussian LDA主题模型经实验证明同样不适用于短文本的情形，例如，当文本长度小于10个词时，无法有效学习LDA主题模型中的参数θ_d，从而导致过拟合。

BTM主题模型是LDA主题模型在短文本数据下的提升，BTM主题模型假设文本中的二元词对随机生成于同一主题分布，如此有效地扩充了文本有效样本量，解决了短文本稀疏性的问题。但是另一方面，BTM主题模型继承了LDA模型可解释性较差和可扩展性较差的问题，针对此，本申请对BTM主题模型进行了改进，将知识图谱信息和词向量嵌入至BTM模型当中。

考虑到短文本中实体词一般较少，单独确定短文本中实体词的知识图谱信息可能无法有效地对短文本中分词的语义信息进行扩展。因此，基于BTM主体模型确定短文本中分词的知识图谱信息时，可以针对文本集中各文本，确定出各文本中全部的分词；进而，基于与文本集领域相匹配的知识图谱确定各分词的知识图谱信息。即，在面对短文本时，直接将知识图谱的实体信息当做一般词引入，利用该知识图谱确定短文本中各分词的知识图谱信息。

应理解，在实际应用中，面对文本集中的短文本时除了可以采用BTM主题模型外，也可以采用其他主题模型，在此不对处理短文本时应用的主题模型的类型做任何限定。

需要说明的是，在实际应用中，服务器可以先执行步骤202，后执行步骤203，也可以同时执行步骤202和步骤203。

步骤204：根据所述文本集融合所述文本集中各文本中分词的知识图谱信息和词向量，训练主题模型得到所述文本集中各文本各自对应的主题表示向量。

服务器获得文本集中各文本中分词的知识图谱信息和词向量后，即可基于所获得的知识图谱信息和词向量对主题模型进行训练，从而得到文本集中各文本各自对应的主题表示向量。此处，训练主题模型的过程即为获得主题表示向量的过程，例如，在针对大量文本打批注之前，通常需要进行相应地粗加工，此时即需要利用本申请提供的主题生成方法生成各文本各自对应的主题表示向量。

当本申请中的主题模型为Gaussian LDA主题模型时，本申请将该Gaussian LDA主题模型与知识图谱信息融合起来，从而提升主题模型的可解释性和文本向量的表示功效。采用Gaussian LDA主题模型作为主题模型时，通常利用知识图谱确定文本中的实体分词对应的知识图谱信息，利用词向量模型确定非实体分词对应的词向量，进而，将知识图谱信息与词向量融合起来，具体实现过程如下：

(1)对于任意文本d生成θ_d～Dir(α)，其中，θ_d为文本d对应主题模型的生成先验概率，其生成自参数为α的Dirichlet分布。

(2)对于第k(k＝1,2，…，K)个主题(主题为主题模型预先基于历史文本集学习到的)，依次执行以下步骤：

a)生成一般词主题协方差矩阵Σ_k～W^-1(Ψ,ν)，其中，W^-1(Ψ,ν)表示Wishart逆分布。

b)生成一般词主题分布均值μ_k～N(μ,1/κ·Σ_k)。

c)生成实体分词主题均值其中，vMF(μ₀,C₀)表示vMF分布。

d)生成实体词主题分散参数κ_k～logNormal(m,σ²)，其中，logNormal表示对数正态分布。

(3)对于文本d生成n(n＝1,2，…，N_wd)个一般非实体词，依次执行以下步骤：

a)生成主题标签Z_n～Mult(θ_d)，即当前一般非实体词生成的主题标签，Mult表示多项分布。

b)生成词向量

(4)对于文本d生成个实体嵌入向量，依次执行以下步骤：

a)生成主题标签即当前实体词生成的主题标签，Mult表示多项分布。

b)生成实体嵌入e_d,m表示文档d的第m实体词的向量，表示其VMF分布的混合分布。

如此，将知识图谱信息融入Gaussian LDA模型得到改进后的Gaussian LDA模型，该改进后的Gaussian LDA模型能够得到丰富的语义信息及较强的推广能力，有效地提升文本舆情数据的主题模型向量表示，进而提升下游任务的表现。

当本申请中的主题模型为BTM主题模型时，本申请保留了BTM主题模型关于两个词向量生成于同一主题的前提假设，另一方面，短文本知识图谱实体词嵌入的融合方式与短文本融合方式不同，由于短文本中实体词一般较少，单独建立实体嵌入主题模型的方式并不可行，考虑到TEKE-TransExual与词向量已经整合到同一空间，此处本申请直接将知识图谱实体的信息当作一般词引入，BTM主题模型的具体处理过程如下：

(1)生成θ～Dir(α)，其中，θ为训练样本集对应主题模型的生成先验概率，它生成自参数为α的Dirichlet分布。

a)生成一般词主题协方差矩阵Σ_k～W^-1(Ψ,ν)，其中，W^-1(Ψ,ν)表示Wishart逆分布。主题标签Z_n～Mult(θ)，即当前词生成的主题标签，Mult表示多项分布。

b)生成一般词主题均值μ_k～N(μ,1/κ·Σ_k)。

(3)对于文本d生成组二元词对(包括实体词)，依次执行以下步骤：

a)生成主题标签Z_n～Mult(θ)，即当前词生成的主题标签，Mult表示多项分布。

b)生成词向量Wv_n,1,其中，v_n,1,v_n,2可为实体嵌入或一般非实体词Word2Vec向量，W为词向量旋转变换矩阵，其功能主要是对预训练的词向量进行适应性调整，以更好地契合主题学习任务。

如此，将知识图谱信息、词向量与BTM主题模型整合起来，得到丰富的语义信息及较强的推广能力，有效地提升短文本数据(如新闻标题)的主题模型向量表示，进而提升下游任务的表现。

将文本集中各文本中分词的知识图谱信息和词向量融合起来，训练主题模型得到文本集中各文本各自对应的主题向量表示后，可以进一步基于各文本各自对应的主题向量进行聚类处理，以便后续基于聚类结果确定该领域当前的热点话题。

具体实现时，服务器可以通过K均值聚类算法(K-means clustering algorithm，K-Means)，基于各文本对应的主题向量进行文本聚类得到K个类簇；进而，根据K个类簇中心的余弦相似度进行二次聚合得到文本聚类结果。

具体的，利用主题模型对文本集中各文本{t_n}进行主题表示向量的推断，经主题模型确定出文本集中各文本对应的T维向量表示为{p_n}；然后，设定较大的类簇数量参数K，采用K-Means聚类算法对主题表示向量{p_n}进行聚类处理，即服务器可以先将文本集中各文本{t_n}聚类成较细的类簇，进而获得各类簇的中心{c_k}；接着，基于余弦相似度进行类簇的聚合，预先设定聚合阈值0<α<1，采用下式计算各类簇中心之间的余弦相似度：

cossim(k,m)＝c_k·c_m/|c_k|·|c_m|

其中，c_k,c_m分别表示第k个和第m个聚类类簇的中心，当cossim(k,m)>α时，将第k个和第m个聚类类簇进行合并。

K-Means算法具有较好的可解释性，但是聚类的类簇数量参数K需要预先制定，K值被设定得太大，将导致同类文本数据被划分得过细，K值被设定得太小，将导致不同类的文本数据被聚合到一个类簇。针对该问题，本申请在K-Means聚类过程中，先将类簇数量参数K设置为一个较大的值，然后再基于K个类簇中心的余弦相似度进行二次聚合处理，得到最终的文本聚类结果；如此，在一定程度上避免类簇数量参数K对于最终得到的文本聚类结果产生过大的影响，从而提升热点话题发现的自动性。

进一步地，服务器可以根据上述聚类处理得到的文本聚类结果计算热度系数，选择热度系数最高的N类(N值可根据实际需求设定)文本的类簇作为热点话题。服务器聚类得到的各文本聚类结果实际上即为文本集主要涉及的话题。

具体的，服务器还可以根据主题表示向量和文本聚类结果，推断热点关键词和热度指数，从而获得话题热度排名以及热点词。此处的热点词可以定义为类簇中心向量载荷最大前M(M值可根据实际需求设定)个词，类簇热度系数可以定义为类簇文本数量与前M个词概率平均值的乘积。

上述主题生成方法基于与文本集领域相匹配的知识图谱确定文本集中各文本中分词的知识图谱信息，基于于文本集领域相匹配的词向量模型确定文本集中各文本中分词的词向量，进而，将文本集中各文本中分词的知识图谱信息与词向量融合起来，基于此训练主题模型获得文本集中各文本各自对应的主题向量表示。由于知识图谱能够通过图的形式展现实体、实体属性与实体之间的关联关系，并且该关联关系能够为主题模型提供更直观的解释，因此，将基于知识图谱确定出的知识图谱信息与词向量结合起来，能够有效地提升主题模型的可扩展性和可解释性。

为了便于进一步理解上文介绍的主题生成方法，下面结合图3对本申请实施例提供的主题生成方法做整体性介绍。

本申请实施例提供的主题生成方法的实现主要分为两个阶段，一个是主题模型训练阶段，即各文本各自对应的主题表示向量的生成阶段，另一个是热点话题确定阶段。

在主题模型训练阶段中，获取到待生成主题的文本集后，即可基于与文本集所属领域相匹配的知识图谱，确定文本集中各文本中分词的知识图谱信息；基于与文本集所述领域相匹配的词向量模型，确定文本集中各文本中分词的词向量。进而，基于知识图谱信息和词向量对主题模型进行训练，得到文本集中各文本各自对应的主题表示向量，此处的主题模型具体包括Gaussian LDA模型和BTM模型。

在热点话题确定阶段中，采用K-means算法，对文本集中各文本各自对应的主题表示向量进行聚类得到K个类簇；进而，基于K个类簇中心的余弦相似度对K个类簇进行二次聚类，得到文本聚类结果。最终，可以根据文本聚类结果计算热度系数，选择热度系数最高的N类文本的类簇作为热点话题。

经发明人实验证明，本申请实施例提供的主题生成方法相比现有技术中基于传统的主题模型实现的主题生成方法，明显具有更好的效果。具体实验结果如表1所示，其中，LDA为现有技术中传统的主题模型，WN+LDA为本申请实施例中的主题模型，通过对比可以发现，无论是将聚类类簇数K设置为5，还是将聚类类簇数K设置为10，基于本申请实施例中的主题模型得到的聚类结果均具有更小的信息熵，更加有效。

表1

	K＝5，LDA	K＝5，WN+LDA	K＝10，LDA	K＝10，WN+LDA
					信息熵均值	0.916	0.706	0.674	0.592
信息熵标准差	0.137	0.090	0.081	0.093

针对上文描述的主题生成方法，本申请还提供了对应的主题生成装置，以使上述主题生成方法在实际中得以应用和实现。

参见图4，图4是与上文图2所示的主题生成方法对应的一种主题生成装置400的结构示意图，该主题生成装置400包括：

获取模块401，用于获取待生成主题的文本集；

词向量确定模块402，用于基于所述文本集领域匹配的词向量模型，确定所述文本集中各文本中分词的词向量；

知识图谱信息确定模块403，用于基于所述文本集领域匹配的知识图谱，确定所述文本集中各文本中分词的知识图谱信息；

主题生成模块404，用于根据所述文本集融合所述文本集中各文本中分词的知识图谱信息和词向量，训练主题模型，所述主题模型用于对输入的文本进行建模以输出文本对应的主题表示向量。

可选的，所述主题模型为高斯LDA主题模型，则所述知识图谱信息确定模块403具体用于：

针对所述文本集中各文本，确定各文本中的实体分词；

可选的，所述主题模型为高斯LDA主题模型，则所述词向量确定模块402具体用于：

针对所述文本集中各文本，确定各文本中的非实体分词；

可选的，所述主题模型为BTM主题模型时，则所述知识图谱信息确定模块403具体用于：

针对所述文本集中各文本，确定各文本中的分词；

可选的，所述主题模型为BTM主题模型时，则所述词向量确定模块402具体用于：

针对所述文本集中各文本，确定各文本中的分词；

可选的，所述装置还包括：

上述主题生成装置基于与文本集领域相匹配的知识图谱确定文本集中各文本中分词的知识图谱信息，基于于文本集领域相匹配的词向量模型确定文本集中各文本中分词的词向量，进而，将文本集中各文本中分词的知识图谱信息与词向量融合起来，基于此训练主题模型获得文本集中各文本各自对应的主题向量表示。由于知识图谱能够通过图的形式展现实体、实体属性与实体之间的关联关系，并且该关联关系能够为主题模型提供更直观的解释，因此，将基于知识图谱确定出的知识图谱信息与词向量结合起来，能够有效地提升主题模型的可扩展性和可解释性。

本申请还提供了一种用于生成主题的设备，该设备具体可以为服务器，图5是本申请实施例提供的一种服务器结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，和/或，一个或一个以上操作系统541，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图5所示的服务器结构。

其中，CPU 522用于执行如下步骤：

获取待生成主题的文本集；

可选的，CPU522还可以执行图2所示的主题生成方法任一具体实现方式的方法步骤。

本申请实施例还提供了另一种用于生成主题的设备，该设备可以为终端设备，如图6所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant，PDA)等任意终端设备，以终端为手机为例：

图6示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图6，手机包括：射频(Radio Frequency，RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity，WiFi)模块1070、处理器680、以及电源690等部件；其中，输入单元630中包括输入面板631和其他输入设备632，显示单元640中包括显示面板641，音频电路660中包括扬声器661和传声器662。

本领域技术人员可以理解，图6中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在本申请实施例中，该终端所包括的处理器680具有以下功能：

获取待生成主题的文本集；

可选的，处理器680还可以执行图2所示的主题生成方法任一具体实现方式的方法步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例所述的一种主题生成方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的一种主题生成方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种主题生成方法，其特征在于，包括：

获取待生成主题的文本集；

2.根据权利要求1所述方法，其特征在于，所述主题模型为高斯LDA主题模型，则所述基于与所述文本集领域相匹配的知识图谱，确定所述文本集中各文本中分词的知识图谱信息，包括：

针对所述文本集中各文本，确定各文本中的实体分词；

3.根据权利要求1所述方法，其特征在于，所述主题模型为高斯LDA主题模型，则所述基于所述文本集领域匹配的词向量模型确定所述文本集中各文本中分词的词向量，包括：

针对所述文本集中各文本，确定各文本中的非实体分词；

4.根据权利要求1所述方法，其特征在于，所述主题模型为BTM主题模型时，则所述基于与所述文本集领域相匹配的知识图谱，确定所述文本集中各文本中分词的知识图谱信息，包括：

针对所述文本集中各文本，确定各文本中的分词；

5.根据权利要求1所述方法，其特征在于，所述主题模型为BTM主题模型时，则所述基于所述文本集领域匹配的词向量模型确定所述文本集中各文本中分词的词向量，包括：

针对所述文本集中各文本，确定各文本中的分词；

6.根据权利要求1所述方法，其特征在于，所述方法还包括：

7.根据权利要求6所述方法，其特征在于，所述方法还包括：

8.一种主题生成装置，其特征在于，包括：

获取模块，用于获取待生成主题的文本集；

9.一种设备，其特征在于，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序中的指令执行权利要求1至7任一项所述方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至7中任一项所述的方法。