CN110674298B

CN110674298B - 一种深度学习的混合主题模型构建方法

Info

Publication number: CN110674298B
Application number: CN201910935163.1A
Authority: CN
Inventors: 万家山
Original assignee: Anhui Institute of Information Engineering
Current assignee: Anhui Institute of Information Engineering
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2022-09-30
Anticipated expiration: 2039-09-29
Also published as: CN110674298A

Abstract

本发明涉及计算机深度学习技术领域，提出一种深度学习的混合主题模型构建方法，包括以下步骤：步骤S1：预处理阶段；步骤S2：文本信息表征；步骤S3：补充背景信息子网络；步骤S4：全连接层网络进行主题划分，并输出标签分类概率。本发明针对华为云平台和智慧学习平台的数据进行主题挖掘，发现基于深度学习的混合主题模型HTM，在主题分类的领域需要的数据量较小，且在面对长短不同类型的文本时，通过Bi‑LSTM框架可以有效的进行转化获得较好的迁移能力，使得模型迁移能力强、分类错误率低，模型整体分类效果好。为今后深度学习的主题分类模型在小样本学习和迁移学习作出了有益尝试。

Description

一种深度学习的混合主题模型构建方法

技术领域

本发明涉及计算机深度学习技术领域，特别涉及一种深度学习的混合主题模型构建方法。

背景技术

目前LSA、pLSA、LDA、HDP、lda2vec这五中典型的主题模型存在模型训练需要预先设定主题数目、训练时间比较长、特征提取不充分和样本效率低等问题。

发明内容

本发明的目的在于改善现有技术中所存在的不足，提供一种深度学习的混合主题模型构建方法。

为了更清楚地说明本发明实施例的技术方法案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

一种深度学习的混合主题模型构建方法，包括以下步骤：

步骤S1：预处理阶段；

步骤S2：文本信息表征；

步骤S3：补充背景信息子网络；

步骤S4：全连接层网络进行主题划分，并输出标签分类概率。

更进一步地，为了更好的实现本发明，所述预处理阶段的步骤包括：对处理的原始的文本数据进行编号，去除原始数据的噪声，构建词向量，每个句子里的词做补齐处理，形成半合成数据。

更进一步地，为了更好的实现本发明所述文本信息表征包括句子级别的信息表征和文档级别的信息表征。

更进一步地，为了更好的实现本发明所述句子级别的信息表征的步骤包括：句子级别的信息表征通过卷积网络CNN训练词向量来提取句子中的主干信息为文本分类奠定基础。

更进一步地，为了更好的实现本发明所述文档级别的信息表征的步骤包括：文档级别的信息表征结合词向量对句子表征的基础，考虑文档的上下文和全局信息，对文档进行建模。

更进一步地，为了更好的实现本发明所述补充背景信息子网络的步骤包括：在句子级别考虑的局部信息，结合文档级别考虑的全部信息，两者拼接相当于综合考虑了全局信息和局部信息。再引入作者-主题模型搭建起了用户和主题的桥梁，充分提取样本表征信息作为背景信息子网络的补充，提高样本的使用效率。

更进一步地，为了更好的实现本发明所述全连接层网络进行主题划分的步骤包括：设置神经元的个数，并进行仿射变换

导入的参数有权重和偏置，对网络的神经元全部连接起来，假设n个神经元连接m个神经元，则引入的参数为(n+1)*m。

更进一步地，为了更好的实现本发明所述输出标签分类概率的步骤包括：输出的神经元个数要求和分类的标签个数一致，所以引入的变量也是(n+1)*m，这里的m代表分类的标签个数，根据标签规整进行主题划分，计算分类概率：

更进一步地，为了更好的实现本发明还包括以下步骤：

步骤S5：主题推荐。

更进一步地，为了更好的实现本发明所述主题推荐的步骤包括：识别出用户感兴趣的主题，根据文本内容分类并进行推荐。

与现有技术相比，本发明的有益效果：

本发明针对华为云平台和智慧学习平台的数据进行主题挖掘，发现基于深度学习的混合主题模型HTM，在主题分类的领域需要的数据量较小，且在面对长短不同类型的文本时，通过Bi-LSTM框架可以有效的进行转化获得较好的迁移能力，使得模型迁移能力强、分类错误率低，模型整体分类效果好。为今后深度学习的主题分类模型在小样本学习和迁移学习作出了有益尝试。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明HTM混合主题模型技术框架。

具体实施方法式

下面将结合本发明实施例中附图，对本发明实施例中的技术方法案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

实施例1：

本发明通过下述技术方法案实现，如图1所示，一种深度学习的混合主题模型构建方法，应用于自然语言处理领域中的语义分析和文本挖掘，目前已经延伸应用到生物信息学领域，而主题模型常被应用于对文本的表征、降维处理、按主题对文本进行聚类、以及根据用户偏好形成文本推荐系统等。

目前主题模型主要有LSA、pLSA、LDA、HDP、lda2vec五种主题模型，其中：

LSA为潜在语义分析(Latent SemanticAnalysis)，是主题建模的基础之一，主要采用线性代数理论进行语义分析，其核心思想是把所拥有的“文档-术语”矩阵分解成相互独立的“文档-主题”矩阵和“主题-术语”矩阵，术语出现在文档中的频率越高，则其权重越大。

pLSA为概率潜在语义分析(Probabilistic Latent SemanticAnalysis)，采取概率方法替代奇异值分解以解决问题，其核心思想是找到一个潜在主题的概率模型，该模型可以生成“文档-术语”矩阵中得到的数据，对于任何文档D和词汇 W特别需要一个模型P(D，W)，目标是能够求出对应于“文档-术语”矩阵中词汇出现的概率P(d，w)。尽管pLSA看起来与LSA差异很大且处理问题的方法完全不同，但实际上pLSA只是在LSA的基础上增加了对主题和词汇的概率处理。

LDA为潜在狄利克雷分布(Latent Dirichlet allocation)，是pLSA的贝叶斯版本，LDA在主题模型中战友非常重要的地位，常用来做文本分类，核心思想是通过“文档-词汇”矩阵进行训练，使用LDA先验分别得到“主题-词汇”矩阵和“文档-主题”两个矩阵。

HDP为层次狄利克雷过程(Hierarchical Dirichlet Process)，与现有的LDA 主题模型不同，LDA是典型的参数贝叶斯模型，而HDP是无参数贝叶斯模型。 HDP不仅能够揭示高维数据所隐含的潜在语义结构，而且能够自动确定主题集，准确估计文档集的分布参数，从而取得良好的主题挖掘效果。其核心思想和LDA 非常相似，都是通过“文档-词汇”矩阵进行训练分别得到“文档-词汇”矩阵和“文档-主题”两个矩阵。

lda2vec能够从每个级别的文本(词汇、句子、文档)中提取更多内在的信息。比如在文档级别能够将文本表示为主题的混合；在词汇级别上通常使用词向量(word2vec)嵌入核心表征技术来获取其向量表征。lda2vec是word2vec和 LDA的扩展，它共同学习词汇、文档和主题向量。lda2vec的核心思想是在 word2vec的skip-gram模型基础上建模，以生成词向量，目前多借助深度学习技术预先训练词向量。

本发明目的是解决目前LSA、pLSA、LDA、HDP、lda2vec这五中典型的主题模型存在模型训练需要预先设定主题数目、训练时间比较长、特征提取不充分和样本效率低等问题。本发明可根据训练效果自动进行参数标定，而且通过结果可看出样本效率较高，当在训练样本数量少、注释成本高的领域，本发明也具有很好的应用前景。为解决本发明提出的问题，使用Bi-directional LSTM 模型，在主题特征提取进行主题划分阶段引入“作者-主题”模型，具体来说包括以下步骤：

步骤S1：预处理阶段。

对处理的原始的文本数据进行编号，去除原始数据的噪声，构建词向量，每个句子里的词做补齐处理，设置max len为句子补齐处理的最大长度，大于 max len的句子截断，小于max len的句子补0，形成半合成数据。

步骤S2：文本信息表征。

句子级别的信息表征通过卷积网络CNN训练词向量来提取句子中的主干信息为文本分类奠定基础，比如采用CNN框架，利用不同大小的卷积核来捕捉句子的n-gram特征(n为大于等于1的自然数)，这里相同大小的卷积核通常会包含多个通过不同初始化卷积核的参数，来达到多维度获取句子n-gram的语义信息。

本实施例设置卷积核的参数为100，即num_filtes＝100，此外，大部分分类任务采用较粗粒度的特征可以达到预期效果。为了降低模型参数，池化层可以采用max pooling的方式，来保留n-gram中最明显的特征。比如对于“我们都在使用华为云”这样一句话，3-gram的信息包含“00我”、“0我们”、“我们都”、“们都在”、“都在用”等等，按照如此规律，通过学习抽取100个1-gram、100 个2-gram、100个3-gram、100个4-gram特征，由于本实施例设置num_filtes＝100，即不同卷积核各取100个。

假设filter_sizes：[2,3,4,5]，表示卷积核的大小取宽度为embbedding_size，高度分别取为2、3、4、5，即捕获句子2-gram、3-gram、4-gram、5-gram的特征。对于句子而言，最主要的就是捕获n-gram的特征，例如捕获句子“我们都在使用华为云”，主要想捕获3-gram的特征，这卷积核的宽度取embbedding_size 的维度，是保证字向量的语义信息不被破坏。文档级别的信息表征结合词向量对句子表征的基础，考虑文档的上下文和全局信息，对文档进行建模。

步骤S3：补充背景信息子网络。

在句子级别考虑的局部信息，结合文档级别考虑的全部信息，两者拼接相当于综合考虑了全局信息和局部信息。再引入“作者-主题”模型搭建起了“用户”和“主题”的桥梁，充分提取样本表征信息作为背景信息子网络的补充，提高样本的使用效率。

采用单层全连接，将捕获到的400维特征向量，映射到n个类别,得到每个类别的得分。如果训练语料足够多，也可以尝试3层的全连接层，增大模型的容量，泛化效果可以更好一些。

设置神经元的个数，并进行仿射变换

导入的参数有权重和偏置，将网络中的神经元全部连接起来，假设n个神经元连接m个神经元，则引入的参数为(n+1)*m。

输出的神经元个数要求和分类的标签个数一致，所以引入的变量也是 (n+1)*m，这里的m代表分类的标签个数，根据标签规整进行主题划分，计算分类概率：

其中样本向量x属于第j个分类的概率，.K为向量的维度.

步骤S5：主题推荐。

“作者-主题”模型能够识别出用户经常关注的内容或者擅长的领域，识别出用户感兴趣的主题，根据文本内容分类并进行推荐。

实施例2：

使用HTM混合主题模型不仅具有较好的迁移学习能力，而且具有较强的特征提取和资源表征能力，可以大幅度提高样本使用效率，从而实现较少的样本数据就可以达到最优性能。假设其中卷积网络CNN中针对隐含层数设定为1、 num_filtes设定为100、卷积核filter_size设定为3、max_len设定为50、为解决过拟合问题采用dropout方法取值范围在[0.4,0.6]，实验默认选择0.5，目的是减少神经元之间复杂的共适应性，提高模型的泛化能力。让每个神经元以50％的概率不工作，即处于睡眠状态，不进行前向score传播，也不进行反向error 传递。本发明使用的两组原始数据分别来自华为云社区(huaweicloud.com)社区和智慧学习平台(iflysse.com)社区问答数据分为训练集和测试集两组，其中训练集占整个数据集比例的80％，进行了10次的随机划分后，用10次测试结果的平均值来评估模型的分类效果。

此处采用分类错误率指标(Classification errorrate，简称CER)，通过文档分类来判定主题模型构建方法的分类效果，具体定义公式如下：

CER＝(1-sum(pd)/sum(D))*100％

其中：pd为分类正确文档数；D为参与分类的文档总数。

表1为四种主题模型在两组数据集中的分类效果：

表1

以上所述，仅为本发明的具体实施方法式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种深度学习的混合主题模型构建方法，其特征在于：包括以下步骤：

步骤S1：预处理阶段；

步骤S2：文本信息表征；

所述文本信息表征包括句子级别的信息表征和文档级别的信息表征；

所述句子级别的信息表征的步骤包括：

句子级别的信息表征通过卷积网络CNN训练词向量来提取句子中的主干信息为文本分类奠定基础；

所述文档级别的信息表征的步骤包括：

文档级别的信息表征结合词向量对句子表征的基础，考虑文档的上下文和全局信息，对文档进行建模；

步骤S3：补充背景信息子网络；

所述补充背景信息子网络的步骤包括：

在句子级别考虑的局部信息，结合文档级别考虑的全部信息，两者拼接相当于综合考虑了全局信息和局部信息；再引入作者-主题模型搭建起了用户和主题的桥梁，充分提取样本表征信息作为背景信息子网络的补充，提高样本的使用效率；

2.根据权利要求1所述的一种深度学习的混合主题模型构建方法，其特征在于：所述预处理阶段的步骤包括：

对处理的原始的文本数据进行编号，去除原始数据的噪声，构建词向量，每个句子里的词做补齐处理，形成半合成数据。

3.根据权利要求1所述的一种深度学习的混合主题模型构建方法，其特征在于：所述全连接层网络进行主题划分的步骤包括：

设置神经元的个数，并进行仿射变换

，导入的参数有权重和偏置，对网络的神经元全部连接起来，假设n个神经元连接m个神经元，则引入的参数为

。

4.根据权利要求1所述的一种深度学习的混合主题模型构建方法，其特征在于：所述输出标签分类概率的步骤包括：

输出的神经元个数要求和分类的标签个数一致，所以引入的变量也是

，这里的m代表分类的标签个数，根据标签规整进行主题划分，计算分类概率：

。

5.根据权利要求1-4任一项所述的一种深度学习的混合主题模型构建方法，其特征在于：还包括以下步骤：

步骤S5：主题推荐。

6.据权利要求5所述的一种深度学习的混合主题模型构建方法，其特征在于：所述主题推荐的步骤包括：

识别出用户感兴趣的主题，根据文本内容分类并进行推荐。