CN105975499B

CN105975499B - 一种文本主题检测方法及系统

Info

Publication number: CN105975499B
Application number: CN201610269821.4A
Authority: CN
Inventors: 傅向华; 李晶
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2016-04-27
Filing date: 2016-04-27
Publication date: 2019-06-25
Anticipated expiration: 2036-04-27
Also published as: CN105975499A

Abstract

本发明适用计算机技术领域，提供了一种文本主题检测方法及系统，该方法包括：使用LDA模型对输入的目标文本进行训练，以得到目标文本中各个词语与主题之间的初始分配，将预先获取的外部语料的词嵌入设置为目标文本的词嵌入的初始值，根据得到的初始分配，使用模型对目标文本进行训练，以得到目标文本的词嵌入和主题向量，根据获取的初始分配、目标文本的词嵌入和主题向量，对目标文本中包括的每篇文档进行扫描，对扫描到的每个训练目标词执行预设的主题检测步骤，以得到目标文本所涉及的主题，从而可保证学习到的词嵌入和主题向量语义更强，与其他词语之间的联系也更紧密，有效提高了主题识别的准确率。

Description

一种文本主题检测方法及系统

技术领域

本发明属于计算机技术领域，尤其涉及一种文本主题检测方法及系统。

背景技术

主题检测的主要目标是通过对大量的文本集合进行分析、处理，从中发现隐含的语义结构，以鉴别其所讨论的内容。近年来，随着现代网络技术的迅猛发展、web 2.0应用的普及，网络媒体逐渐成为了民众发表观点、表达意见的公众平台，网络上集聚的信息也已呈现爆炸式的增长趋势，面对海量的数据，如何有效地对其内容进行组织、整理、挖掘和分析，以准确识别出其中包含的主题信息，对于各行各业的人及时了解大众诉求，掌握市场态势，以及发现未然危机起着举足轻重的作用。

目前，大部分主题检测都是基于概率主题模型而展开，其基本结构为潜在狄利克雷分布(Latent Dirichlet Allocation，LDA)模型，但该类方法大多只是从数据本身的属性出发，以词为基本特征，基于词共现统计进行主题概率计算，每个词都被看作是一个单一的实体，各词语、语句之间语义层面的联系考虑较少，难以满足实际应用的需要。为了对LDA模型的检测效果进行改善，基于词嵌入的LDA模型(简称：LFLDA)被提出，然而，该模型中的词嵌入的质量完全依赖于外部语料，因而无法保证该词嵌入与当前训练文本中词语的词义表达保持高度一致，从而导致主题识别准确率不高。

发明内容

本发明的目的在于提供一种文本主题检测方法及系统，旨在解决现有技术的文本主题识别准确率不高的问题。

一方面，本发明提供了一种文本主题检测方法，所述方法包括下述步骤：

使用LDA模型对输入的目标文本进行训练，以得到所述目标文本中各个词语与主题之间的初始分配；

将预先获取的外部语料的词嵌入设置为所述目标文本的词嵌入的初始值；

根据所述得到的初始分配，使用模型对所述目标文本进行训练，以获得所述目标文本的词嵌入和主题向量，其中，V表示所述目标文本对应的词典中词语总个数，c表示所述模型L中滑动窗口的大小，w_i为训练目标词，w_i+j为w_i的窗口词，t_i为词w_i对应的主题表示；

根据所述初始分配、所述目标文本的词嵌入和主题向量，对所述目标文本中包括的每篇文档进行扫描，对扫描到的每个训练目标词执行预设的主题检测步骤，以得到所述目标文本所涉及的主题。

另一方面，本发明提供了一种文本主题检测系统，所述系统包括：

第一训练单元，用于使用LDA模型对输入的目标文本进行训练，以得到所述目标文本中各个词语与主题之间的初始分配；

值设置单元，用于将预先获取的外部语料的词嵌入设置为所述目标文本的词嵌入的初始值；

第二训练单元，用于根据所述得到的初始分配，使用模型对所述目标文本进行训练，以获得所述目标文本的词嵌入和主题向量，其中，V表示所述目标文本对应的词典中词语总个数，c表示所述模型L中滑动窗口的大小，w_i为训练目标词，w_i+j为w_i的窗口词，t_i为词w_i对应的主题表示；以及

主题获取单元，用于根据所述初始分配、所述目标文本的词嵌入和主题向量，对所述目标文本中包括的每篇文档进行扫描，对扫描到的每个训练目标词执行预设的主题检测步骤，以得到所述目标文本所涉及的主题。

在本发明实施例中，利用模型L同时对词嵌入和主题向量进行训练，并且在此训练过程中引入外部扩展语料对目标文本的词嵌入进行初始化，从而可保证训练得到的词嵌入和主题向量语义更强，与其他词语之间的联系也更紧密，有效提高了文本主题识别的准确率。

附图说明

图1是本发明实施例一提供的文本主题检测方法的实现流程图；

图2是本发明实施例二提供的文本主题检测方法的实现流程图；

图3是本发明实施例三提供的文本主题检测系统的结构示意图；

图4是本发明实施例四提供的文本主题检测系统的结构示意图；以及

图5是本发明实施例四提供的文本主题检测系统中主题获取单元的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的文本主题检测方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，使用LDA模型对输入的目标文本进行训练，以得到目标文本中各个词语与主题之间的初始分配。

在本发明实施例中，目标文本可以是公用的传统主题检测数据样本，也可以为来自网络的微博、博客、论坛等社会媒体数据文档。当然，在获取后这些文档后，应对这些文档进行预处理，例如，分词、去停用词、高低频词以及非法字符等，以得到本发明实施例中的目标文本。之后，通过LDA模型对待检测的目标文本进行训练，以得到文本中各个词与主题之间的初始分配，即将词语分配到对应的主题下。

在步骤S102中，将预先获取的外部语料的词嵌入设置为目标文本的词嵌入的初始值。

在本发明实施例中，外部扩展语料可作为目标文本对应的原始数据的语义补充，使用预设词嵌入训练程序对获取的外部扩展语料进行预训练，以得到外部扩展语料中各个词语的词嵌入，进而利用得到的词嵌入对目标文本的词嵌入进行初始化。

具体地，外部语料应尽可能地包含目标文本中的所有词语，这样，可保证目标文本中的每个词都能从外部语料获取一个初始的词嵌入作为该词语义和词义的补充，用于进一步学习词嵌入和主题向量。优选地，外部扩展语料为维基百科或百度百科，从而得到提高词嵌入训练的效率。优选地，预设的词嵌入训练程序为word2vec或者GloVe工具，从而简化词嵌入的训练过程，提高训练速度，保证了训练结果的稳定性。

在步骤S103中，根据得到的初始分配，使用模型对目标文本进行训练，以得到目标文本的词嵌入和主题向量。

在本发明实施例中，V表示目标文本对应的词典中词语总个数，c表示模型L中滑动窗口的大小，w_i为训练目标词，w_i+j为w_i的窗口词，t_i为词w_i对应的主题表示。具体地，在目标文本进行训练时，若模型L取得最大值，则可对应地得到目标文本的词嵌入和主题向量。

在本发明实施例中，使用于模型L对目标文本进行训练，可同时对目标文本的词嵌入和主题向量进行训练，实现了word2vec的Skip-gram模型的改进，既可以保证训练的时间复杂度不会明显增加，又能得到包含一定语义和语法信息的词嵌入和主题向量。

在步骤S104中，根据获取的初始分配、目标文本的词嵌入和主题向量，对目标文本中包括的每篇文档进行扫描，对扫描到的每个训练目标词执行预设的主题检测步骤，以得到目标文本所涉及的主题。

在本发明实施例中，目标文本可以看成是由多篇文档组成，多篇文档可以涉及相同或不同的主题。具体在获取目标文本所涉及的主题时，根据前述步骤中获取的初始分配、目标文本的词嵌入和主题向量对目标文本中包括的每篇文档进行扫描，对扫描到的每个训练目标词执行预设的主题检测步骤。

在本发明实施例中，利用模型L同时对词嵌入和主题向量进行训练，并且在此训练过程中引入外部扩展语料对目标文本的词嵌入进行初始化，从而可保证训练得到的词嵌入和主题向量语义更强，与其他词语之间的联系也更紧密，有效了提高主题识别的准确率。

实施例二：

图2示出了本发明实施例一提供的文本主题检测方法中主题检测步骤的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S201中，根据公式计算训练目标词在每个主题下分配的概率，为所述训练目标词采样主题。

在本发明实施例中，该公式从向量和词频统计的角度，综合考虑两种不同表示方式下的分布函数：主题向量-词嵌入和LDA模型中主题-词的条件概率分布，来共同为训练目标词采样主题。词嵌入富含丰富的语义和词义信息，可以有效捕捉到词语之间、词语与主题之间的内在联系，因而两者结合能有效弥补传统基于词频统计的话题检测方法因语义不足而导致的识别准确率低的缺陷。

在本发明实施例中，为训练目标词采样主题是指将目标词分配到最相关的主题中，其中，表示文档d中的第i个词w_d,i在当前文档中采样得到的文档-主题的分布，t表示主题，表示除当前文档外，词w_d,i的主题分布，表示词w_d,i对应的词嵌入，w_d,i表示文档d中的第i个词，τ_t表示主题t对应的主题向量，为二值变量，服从以λ为先验的伯努利分布，表示除当前文档外，第i个词所在的文档d被分配到主题t的次数，α表示文档-主题分布的Dirichlet先验超参数，p表示主题向量-词嵌入的分布，q表示LDA模型中的主题-词分布。

具体地，其中W表示词典中所有词语构成的集合，w’表示词典中的每一个词，v_w表示训练目标词w对应的词嵌入，v_w’表示词典中的词对应的词嵌入表示，β表示主题-词分布的Dirichlet先验超参数，V表示词典的大小，表示除文档d中的第i个词外，主题t下分配到的总词数，表示文档d中的第i个词被分配到主题t的次数，不包含当前分配。

在步骤S202中，最小化主题和训练目标词的概率分布、以及LDA模型下主题和训练目标词的概率分布的KL散度，以得到训练目标词对应的词嵌入和训练目标词与主题之间的分布。

一般说来，词嵌入特征表达训练得到的主题-词分布，与主题模型得到的主题-词分布虽然表达方式不同，但两者需符合一个基本的准则：两种表达方式下得到的目标文本在语义或主题上应尽可能地接近。因此，本发明实施例以最小化两者概率分布的KL散度(Kullback Leibler divergence)为目标来共同训练词嵌入并识别主题。在本发明实施例中，最小化主题和训练目标词的概率分布、以及LDA模型下主题和训练目标词的概率分布的KL散度，以得到在最小化KL散度时训练目标词对应的词嵌入和训练目标词与主题之间的分布。

优选地，本发明实施例使用对称的KL散度函数而KL散度具有非对称性，D_k，l(p||q)≠D_k，l(q||p)，因此为了让p分布和q分布互相接近(即主题尽可能地接近)，本发明实施例中使用了对称的KL散度。其中，D_k，l(p||q)表示q分布拟合p分布时产生的信息损耗，表示p分布拟合q分布时产生的信息损耗。

在步骤S203中，更新训练目标词对应的词嵌入和训练目标词与主题之间的分布。

在本发明实施例中，通过步骤S203得到训练目标词对应的词嵌入和训练目标词与主题之间的分布后，替换训练目标词对应的词嵌入和训练目标词与主题之间的分布原有值，以实现训练目标词对应的词嵌入和训练目标词与主题之间的分布的更新。

由于词嵌入将词语用一个低维的实值向量来表示，向量的每一个维度都代表了词的一个特征属性，可以捕捉到词语之间的内部语义关系，因此，本发明实施例将词嵌入引入到主题模型中，通过L模型训练包含有用特征属性的词嵌入和主题向量，然后通过最小化主题向量-词嵌入以及LDA中主题-词的条件概率分布的KL散度，来协同训练词嵌入和主题模型，从而可以有效弥补传统基于词频统计的话题检测方法因语义不足而导致的识别效果不佳的缺陷。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

实施例三：

图3示出了本发明实施例三提供的文本主题检测系统的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

第一训练单元31，用于使用LDA模型对输入的目标文本进行训练，以得到目标文本中各个词语与主题之间的初始分配；

值设置单元32，用于将预先获取的外部语料的词嵌入设置为目标文本的词嵌入的初始值；

第二训练单元33，用于根据得到的初始分配，使用模型对目标文本进行训练，以获得目标文本的词嵌入和主题向量，其中，V表示目标文本对应的词典中词语总个数，c表示模型L中滑动窗口的大小，w_i为训练目标词，w_i+j为w_i的窗口词，t_i为词w_i对应的主题表示；以及

主题获取单元34，用于根据得到的初始分配、目标文本的词嵌入和主题向量，对目标文本中包括的每篇文档进行扫描，对扫描到的每个训练目标词执行预设的主题检测步骤，以得到目标文本所涉及的主题。

在本发明实施例中，文本主题检测系统的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。各单元的具体实施方式可参考实施例一的描述，在此不再赘述。

实施例四：

图4示出了本发明实施例四提供的文本主题检测系统的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

语料获取单元41，用于获取外部扩展语料，以作为目标文本对应的原始数据的语义补充；

语料训练单元42，用于使用预设词嵌入训练程序对获取的外部扩展语料进行预训练，以得到外部扩展语料中各个词语的词嵌入；

第一训练单元43，用于使用LDA模型对输入的目标文本进行训练，以得到目标文本中各个词语与主题之间的初始分配；

值设置单元44，用于将预先获取的外部语料的词嵌入设置为目标文本的词嵌入的初始值；

第二训练单元45，用于根据得到的初始分配，使用模型对目标文本进行训练，以获得目标文本的词嵌入和主题向量，其中，V表示目标文本对应的词典中词语总个数，c表示模型L中滑动窗口的大小，w_i为训练目标词，w_i+j为w_i的窗口词，t_i为词w_i对应的主题表示；以及

主题获取单元46，用于根据得到的初始分配、目标文本的词嵌入和主题向量，对目标文本中包括的每篇文档进行扫描，对扫描到的每个训练目标词执行预设的主题检测步骤，以得到目标文本所涉及的主题。

优选地，如图5所示，主题获取单元46可包括：

主题采样单元461，用于根据公式计算训练目标词在每个主题下分配的概率，为训练目标词采样主题，其中，表示文档d中的第i个词w_d,i在当前文档中采样得到的文档-主题的分布，t表示主题，表示除当前文档外，词w_d,i的主题分布，表示词w_d,i对应的词嵌入，w_d,i表示文档d中的第i个词，τ_t表示主题t对应的主题向量，为二值变量，服从以λ为先验的伯努利分布，表示除当前文档外，第i个词所在的文档d被分配到主题t的次数，α表示文档-主题分布的Dirichlet先验超参数，p表示主题向量-词嵌入的分布，q表示LDA模型中的主题-词分布；

向量和分布获取单元462，用于最小化主题和训练目标词的概率分布、以及LDA模型下主题和训练目标词的概率分布的KL散度，以得到训练目标词对应的词嵌入和训练目标词与主题之间的分布；以及

更新单元463，用于更新训练目标词对应的词嵌入和训练目标词与主题之间的分布。

优选地，向量和分布获取单元462包括：

获取子单元4621，用于最小化KL散度函数以得到训练目标词对应的词嵌入和训练目标词与主题之间的分布，其中，D_k，l(p||q)表示q分布拟合p分布时产生的信息损耗，表示p分布拟合q分布时产生的信息损耗。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本主题检测方法，其特征在于，所述方法包括下述步骤：

将预先获取的外部扩展语料的词嵌入设置为所述目标文本的词嵌入的初始值；

2.如权利要求1所述的方法，其特征在于，预设的主题检测步骤包括：

根据公式计算训练目标词在每个主题下分配的概率，为所述训练目标词采样主题，其中，表示文档d中的第i个词w_d,i在当前文档中采样得到的文档-主题的分布，t表示主题，表示除当前文档外，词w_d,i的主题分布，表示词w_d,i对应的词嵌入，w_d,i表示文档d中的第i个词，τ_t表示主题t对应的主题向量，为二值变量，服从以λ为先验的伯努利分布，表示除当前文档外，第i个词所在的文档d被分配到主题t的次数，α表示文档-主题分布的Dirichlet先验超参数，p表示主题向量-词嵌入的分布，q表示LDA模型中的主题-词分布；

最小化主题和所述训练目标词的概率分布、以及LDA模型下主题和所述训练目标词的概率分布的KL散度，以得到所述训练目标词对应的词嵌入和所述训练目标词与主题之间的分布；

更新所述训练目标词对应的词嵌入和所述训练目标词与主题之间的分布。

3.如权利要求2所述的方法，其特征在于，最小化主题和所述训练目标词的概率分布、以及LDA模型下主题和所述训练目标词的概率分布的KL散度的步骤，包括：

最小化KL散度函数其中，D_k，l(p||q)表示q分布拟合p分布时产生的信息损耗，表示p分布拟合q分布时产生的信息损耗。

4.如权利要求1所述的方法，其特征在于，将预先获取的外部扩展语料词嵌入设置为所述目标文本的词嵌入的初始值的步骤之前，所述方法还包括：

获取外部扩展语料，以作为所述目标文本对应的原始数据的语义补充；

使用预设词嵌入训练程序对所述获取的外部扩展语料进行预训练，以得到所述外部扩展语料中各个词语的词嵌入。

5.如权利要求4所述的方法，其特征在于，所述外部扩展语料为维基百科或百度百科。

6.如权利要求4所述的方法，其特征在于，所述预设词嵌入训练程序为word2vec或者GloVe工具。

7.一种文本主题检测系统，其特征在于，所述系统包括：

值设置单元，用于将预先获取的外部扩展语料的词嵌入设置为所述目标文本的词嵌入的初始值；

8.如权利要求7所述的系统，其特征在于，所述主题获取单元包括：

主题采样单元，用于根据公式计算训练目标词在每个主题下分配的概率，为所述训练目标词采样主题，其中，表示文档d中的第i个词w_d,i在当前文档中采样得到的文档-主题的分布，t表示主题，表示除当前文档外，词w_d,i的主题分布，表示词w_d,i对应的词嵌入，w_d,i表示文档d中的第i个词，τ_t表示主题t对应的主题向量，为二值变量，服从以λ为先验的伯努利分布，表示除当前文档外，第i个词所在的文档d被分配到主题t的次数，α表示文档-主题分布的Dirichlet先验超参数，p表示主题向量-词嵌入的分布，q表示LDA模型中的主题-词分布；

向量和分布获取单元，用于最小化主题和所述训练目标词的概率分布、以及LDA模型下主题和所述训练目标词的概率分布的KL散度，以得到所述训练目标词对应的词嵌入和所述训练目标词与主题之间的分布；以及

更新单元，用于更新所述训练目标词对应的词嵌入和所述训练目标词与主题之间的分布。

9.如权利要求8所述的系统，其特征在于，所述向量和分布获取单元包括：

获取子单元，用于最小化KL散度函数以得到所述训练目标词对应的词嵌入和所述训练目标词与主题之间的分布，其中，D_k，l(p||q)表示q分布拟合p分布时产生的信息损耗，表示p分布拟合q分布时产生的信息损耗。

10.如权利要求7所述的系统，其特征在于，所述系统还包括：

语料获取单元，用于获取外部扩展语料，以作为所述目标文本对应的原始数据的语义补充；以及

语料训练单元，用于使用预设词嵌入训练程序对所述获取的外部扩展语料进行预训练，以得到所述外部扩展语料中各个词语的词嵌入。