CN107357927A

CN107357927A - 一种文档建模方法

Info

Publication number: CN107357927A
Application number: CN201710617657.6A
Authority: CN
Inventors: 李双印; 潘嵘
Original assignee: Shenzhen Ipin Information Technology Co Ltd
Current assignee: Shenzhen Ipin Information Technology Co Ltd
Priority date: 2017-07-26
Filing date: 2017-07-26
Publication date: 2017-11-17
Anticipated expiration: 2037-07-26
Also published as: CN107357927B

Abstract

本发明公开了一种文档建模方法，通过设计一种能够同时利用单词和标签信息，以及自动利用标签种类信息，对半结构化文档进行有效的建模。并且利用自主补偿机制，在深度玻尔兹曼机中，学习不同种类的标签信息对文档建模的作用，可以充分考虑不同标签种类的异构信息，从而学习到更加有效的半结构化文档向量。

Description

一种文档建模方法

技术领域

本发明涉及文档处理和建模技术，更具体的，涉及一种文档建模处理方法。

背景技术

所谓半结构化文档，就是指那些含有丰富的标签信息的文档数据，例如拥有类别信息，标题，作者，日期等结构信息的网页文本等。随着互联网的发展，越来越多的半结构化文本数据出现在各种网络应用中。将这种包含标签(Tag)信息的文本数据统称为半结构化文本数据(Semi-StructuredDocuments)。如何有效地对这种半结构化文本数据进行建模成为一个研究热点。传统上，对半结构化文档数据进行建模的有效手段是利用基于贝叶斯概率图模型的主题模型(Topicmodel)。这种建模手段主要建立在词袋模型的假设下，同时对标签数据与文档中的单词信息进行建模，利用标签信息的主题一致性信息，将文本映射到隐含的主题空间。在这个过程中，模型利用标签信息，构建文本的主题分布，利用单词的词袋模型作为输入，从而获得标签的主题分布，文档的主题分布等。利用这种信息，可以进行文本检索，分类，文档聚类，标签推荐等数据挖掘任务。

随着深度学习在文本建模上的广泛使用，利用深度玻尔兹曼机(deep Boltzmannmachine)对文档建模也成为一种有效的手段。深度玻尔兹曼机是一种包含多层受限玻尔兹曼机(restricted Boltzmann machine)的深度神经网络，主要由若干受限玻尔兹曼机构成。而受限玻尔兹曼机(简称RBM)是一种生成式随机神经网络，主要由一个可见层与一个隐含层构成的一种网络映射结构。在进行文档建模时，常规的操作方式是将文档中的单词和标签同时表示为词袋模型，然后输入到深度玻尔兹曼机的可见层，经过多层的受限玻尔兹曼机的映射，最终获得文档向量。

然而，上述现有的技术存在以下缺点：不论基于贝叶斯概率图模型的主题模型，或深度玻尔兹曼机技术，都忽略了标签信息的种类问题。标签的种类信息，在半结构化文档数据中，是天然存在的结构化信息，能够很好的反应文本的主题分布信息。对于半结构化文档数据，标签信息是属于不同种类的。比如一篇文档的标签天然地存在不同的种类，而且不同的种类可以完全异构。例如新闻网页具有一系列作者标签，也具有日期标签，新闻分类标签等等。在对半结构化文档数据进行建模时，需要考虑不同种类的标签对文档建模的影响。不论基于贝叶斯概率图模型的主题模型，或深度玻尔兹曼机，都没有对标签信息的种类进行直接建模。而且，不同种类的标签信息，对文本的向量生成是起到不同的作用的。这就必须提出一套能够自动利用不同种类标签信息的建模方法，以确保在文本建模中充分考虑不同种类的标签信息，从而更加有效的获得半结构化文本向量。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。

为此，本发明的目的在于，通过设计一种能够同时利用单词和标签信息，以及自动利用标签种类信息，对半结构化文档进行有效的建模。并且利用自主补偿机制，在深度玻尔兹曼机中，学习不同种类的标签信息对文档建模的作用，可以充分考虑不同标签种类的异构信息，从而学习到更加有效的半结构化文档向量。

为实现上述目的，本发明提供一种文档建模的方法，包括以下步骤：

步骤1，首先将文档中的单词w使用主题模型进行向量映射，得到单词信息的向量，作为

步骤2，将文档中的各类标签信息m¹,…,m^t，使用标准受限玻尔兹曼机进行向量映射，得到所有标签种类的向量表达并存于

步骤3，使用预设的自主补偿型深度玻尔兹曼机的学习算法构建整个网络；

步骤4，将该文档的和作为输入，输入到训练好的自主补偿型深度玻尔兹曼机，获得该自主补偿型深度玻尔兹曼机的最高层输出h^(t)

步骤5，h^(t)为该半结构化文档的向量表示。

更具体的，其特征在于，所述步骤4具体为：

步骤41，设置一个t层的深度玻尔兹曼机，其包含t个隐含层，和1个可见层，设置t种不同种类的补偿信息；

步骤42，从所述t种补偿信息中选取随机一种补偿信息与所述可见层连接起来，作为新的输入，与下一层隐含层构成一个受限玻尔兹曼机；

步骤43，从上述步骤选取的补偿信息之外的t-1中补偿信息中随机选择一个补偿信息，与上一层使用的补偿信息连接起来，与对应的隐含层一起构成一个受限玻尔兹曼机；

步骤44，重复步骤43，直至所述t种补偿信息全部连接起来，与对应的第t层隐含层构成最高层的受限玻尔兹曼机。

更具体的，所述自主补偿型深度玻尔兹曼机的学习算法具体为：

步骤31，设置补偿信息候选集合此时已选补偿信息集合为空；

步骤32，选取深度玻尔兹曼机中的一层，使用上一层的输出h^(k)作为该层的可见层输入，并执行公式

从中选择出某一种补偿信息标号，放入中，并从中剔除；

步骤33，训练该层的补偿型深度玻尔兹曼机，并输出h^(k+1)；

步骤34，重复步骤32和33，直至为空。

更具体的，其特征在于，

使用如下的目标函数进行自主决策补偿信息：

其中，λ为模型空间参数，设置为常数，v为一个指示向量，只有一维为1，其它维度都为0。

更具体的，其特征在于，

一个具有t层的补偿型深度玻尔兹曼机{w,h⁽¹⁾,…,h^(t),m⁽¹⁾,…,m^(t)}的能量函数为：

其中，|m|^t＝m¹|m²|…|m^t表示将t种补偿信息的向量连接起来作为补偿层；

为模型参数；W¹,…,W^t为深度玻尔兹曼机各个层之间的参数，为相应的补偿层参数。

更优的，其特征在于，所述文档为半结构化文档数据，设置标签信息作为网络的补偿信息，标签信息的种类数量作为补偿信息种类数。

更具体的，其特征在于，使用Contrastive Divergence算法训练补偿型深度玻尔兹曼机。

本发明通过提出全新的补偿型深度玻尔兹曼机，对半结构化文档中的标签信息进行统一建模，使得在求解文档的向量时，充分考虑半结构化文档中不同种类的标签信息对文档的影响，从而获得更加准确的文档向量表达。

本发明的另一关键点是，通过构建自主补偿型深度玻尔兹曼机，对半结构化文档中标签信息进行分析，并且能够自动的选择出不同标签类的补偿顺序，从而提升半结构化文档的建模效果。

与现有技术相比，本发明提出的技术方案中，构建了自主补偿型深度玻尔兹曼机，利用半结构化文档集合中标签信息的不同种类信息，构建最优的标签补偿顺序，建立了优化的半结构化文档中单词和标签信息之间的建模方式，学习出更加优质的半结构化文档向量，从而弥补了传统技术中无法合理利用单词和标签信息的弱点，获得最佳的半结构化文档向量模型。

附图说明

图1示出了本发明一种文档建模方法的流程示意图；

图2示出了本发明的一种文档建模方法的模块示意图；

图3示出了本发明的补偿型深度玻尔兹曼机的模型示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种文档建模方法的流程示意图。

如图1所示，本发明公开了一种文档建模的方法，包括以下步骤：

步骤5，h^(t)为该半结构化文档的向量表示。

更具体的，其特征在于，所述步骤4具体为：

从中选择出某一种补偿信息标号，放入中，并从中剔除；

步骤33，训练该层的补偿型深度玻尔兹曼机，并输出h^(k+1)；

步骤34，重复步骤32和33，直至为空。

更具体的，其特征在于，

使用如下的目标函数进行自主决策补偿信息：

更具体的，其特征在于，

图2示出了本发明的一种文档建模方法的模块示意图。

如图2所示，基于本发明中的全新的自主补偿型深度玻尔兹曼机，可以对半结构化文档数据进行建模。

针对半结构化文档数据，令标签信息作为网络的补偿信息，标签信息的种类数量作为补偿信息种类数。文档中的单词信息作为自主补偿型深度玻尔兹曼机的第一层的可见层输入w。因此，对于一个具有k种标签信息种类的半结构化文档，文档的向量学习过程如下所示：

(1)首先将文档中的单词w使用主题模型(LDA)进行向量映射，得到单词信息的向量，作为

(2)其次将文档中的各类标签信息m¹,…,m^t，使用标准受限玻尔兹曼机(RBM)进行向量映射，得到所有标签种类的向量表达并存于

(3)使用上述的自主补偿型深度玻尔兹曼机的学习算法构建整个网络。

(4)将该文档的和作为输入，输入到训练好的自主补偿型深度玻尔兹曼机，获得该自主补偿型深度玻尔兹曼机的最高层输出h^(t)。

(5)h^(t)为该半结构化文档的向量表示。

图3示出了本发明的补偿型深度玻尔兹曼机的模型示意图。

如图3所示，提出一种全新的补偿型深度玻尔兹曼机，这个模型是本发明的基础。

补偿型深度玻尔兹曼机，是基于传统的深度玻尔兹曼机，考虑在不同网络层中补偿相应的信息，来增强网络的表达能力。

为了更好的描述该补偿型深度玻尔兹曼机，首先定义一个三层深度玻尔兹曼机，这个深度玻尔兹曼机有三个隐含层h＝(h⁽¹⁾,h⁽²⁾,h⁽³⁾)和一个可见层w。然后，定义三种不同种类的补偿信息m＝(m⁽¹⁾,m⁽²⁾,m⁽³⁾)。补偿型深度玻尔兹曼机的主要过程就是将这三种不同的补偿信息分别添加到深度玻尔兹曼机中的不同网络层中。

各个网络层的补偿过程如下：

(1)首先，从m中选择一种补偿信息作为第一种补偿进网络的补偿信息，例如如图3中选择了m⁽¹⁾，将m⁽¹⁾与深度网络中的可见层w连接起来，作为新的输入，与h⁽¹⁾一起构成一个受限玻尔兹曼机。

(2)其次，对于下一层，从m中剩下的补偿信息中再选择一种，例如m⁽²⁾，同上一层使用的m⁽¹⁾连接起来，与深度网络中的h⁽¹⁾，h⁽²⁾一起构成一个受限玻尔兹曼机。

(3)最后，使用最后一种补偿信息m⁽³⁾，同已经使用过的m⁽¹⁾，m⁽²⁾连接起来，与深度网络中的h⁽²⁾，h⁽³⁾一起构成最高层受限玻尔兹曼机。

至此，整个补偿型深度玻尔兹曼机构建完毕。这个过程中，补偿信息的选择是随机进行的。而且，如果有t种不同的补偿信息，那么需要构建一个具有t个补偿层的深度玻尔兹曼机。因此，对于一个具有t层的补偿型深度玻尔兹曼机，{w,h⁽¹⁾,…,h^(t),m⁽¹⁾,…,m^(t)}，它的能量函数可以表示如下：

上式子中，|m|^t＝m¹|m²|…|m^t表示将t种补偿信息的向量连接起来作为补偿层。为模型参数。W¹,…,W^t为深度玻尔兹曼机各个层之间的参数，为相应的补偿层参数。

在本发明的技术方案中，定义了一种全新的自主补偿型深度玻尔兹曼机。自主补偿型深度玻尔兹曼机，是基于上述的补偿型深度玻尔兹曼机，考虑在模型训练中，不同网络层中补偿相应的信息时，完全自主的判断在各个网络层中需要增加补偿哪一种类的信息。这种补偿的过程是完全自主的，是模型在学习训练过程中，自主决定需要补偿信息层的加入顺序。

本发明使用Contrastive Divergence(CD)算法训练补偿型深度玻尔兹曼机中的某一层k。对于第k层，输入包括以下几个部分：

(1)隐含层h^(k)。

(2)补偿层m^(k+1)，其中，m^(k+1)中包含了k+1种不同的补偿信息，定义为已选补偿信息集合<m>_selected。

(3)输出层h^(k+1)。

同时，令<m>_left为补偿信息候选集合。自主补偿型深度玻尔兹曼机的工作原理是，根据已知的h^(k)，h^(k+1)，m^(k+1)，从<m>_left中自动选择出一种补偿信息，作为当前层的补偿信息，与m^(k+1)合并作为新的补偿信息层。

为了自动的从<m>_left中选择一种合适的补偿信息，利用<m>_left中所有的补偿信息，以及m^(k+1)和h^(k)共同构成一个单层补偿型受限玻尔兹曼机。使用如下的目标函数进行自主决策补偿信息：

这里，λ为模型空间参数，这里设置为常数。定义v为一个指示向量，只有一维为1，其它维度都为0。v的定义是用来从<m>_selected中选择一种补偿信息进行计算。通过优化上述的目标函数，能够确定v的值(只有某一个维度为1)，使得上述的目标函数最大化。这样，就能从<m>_selected中确定一种最优的补偿信息种类，从而作为当前层的补偿信息。

在实际使用中，补偿信息种类不是很多的情况下，v的维度通常比较小，上述的目标函数能够简化为如下的决策函数：

因此，对于补偿型受限玻尔兹曼机中的某一层，只需要执行上述公式①进行补偿信息决策，就能自主选择出最优的补偿信息种类。

因此，整个自主补偿型深度玻尔兹曼机的训练过程如下：

(1)首先，定义<m>_left，此时<m>_selected为空。

(2)对于某一层，使用上一层的输出h^(k)作为该层的可见层输入，并执行公式①从<m>_left中选择出某一种补偿信息标号，放入<m>_selected中，并从<m>_left中剔除。

(3)训练该层的补偿型深度玻尔兹曼机，并输出h^(k+1)。

(4)重复上述的(2)(3)步骤，直至<m>_left为空。

对于上述的步骤(3)中，训练一个补偿型深度玻尔兹曼机，采用常规的受限玻尔兹曼机训练方法。通过上述的补偿过程，最终能够学习出一条最优的补偿层顺序，使得补偿型深度玻尔兹曼机能够获得最大的建模效果。

针对两个不同的数据集：维基百科(Wikipedia)和电影数据集(IMDB)进行了试验对比。结果表明，本发明所提出的技术，在半结构化文档建模任务上取得了很好的效果，比传统的主题模型和深度玻尔兹曼机等方法提高了很多。并且，在文本分类任务上，本发明所提出的技术比目前最好的方法(主题模型，深度学习等)在准确率上提高了近1％-3％的效果；在文本检索任务上，本发明所提出的技术在准确率和召回率上都提高了2％以上的效果。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种文档建模的方法，其特征在于，包括以下步骤：

步骤4，将该文档的和作为输入，输入到训练好的自主补偿型深度玻尔兹曼机，获得该自主补偿型深度玻尔兹曼机的最高层输出h^(t)；

步骤5，h^(t)为该半结构化文档的向量表示。

2.根据权利要求1所述的一种文档建模的方法，其特征在于，所述步骤4具体为：

3.根据权利要求2所述的一种文档建模方法，其特征在于，所述自主补偿型深度玻尔兹曼机的学习算法具体为：

步骤31，设置补偿信息候选集合<m>_left，此时已选补偿信息集合<m>_selected为空；

步骤32，选取深度玻尔兹曼机中的一层，使用上一层的输出h^(k)作为该层的可见层输入，并执行公式从<m>_left中选择出某一种补偿信息标号，放入<m>_selected中，并从<m>_left中剔除；

步骤33，训练该层的补偿型深度玻尔兹曼机，并输出h^(k+1)；

步骤34，重复步骤32和33，直至<m>_left为空。

4.根据权利要求2所述的一种文档建模的方法，其特征在于，

使用如下的目标函数进行自主决策补偿信息：

5.根据权利要求1所述的一种文档建模的方法，其特征在于，

一个具有t层的补偿型深度玻尔兹曼机{w,h⁽¹⁾,…,h^(t)，m⁽¹⁾,…,m^(t)}的能量函数为：

<mrow> <mi>E</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <msup> <mi>h</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>,</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>,</mo> <msup> <mi>h</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msup> <mi>m</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>,</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>,</mo> <msup> <mi>m</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msup> <mi>w</mi> <mi>T</mi> </msup> <msup> <mi>W</mi> <mn>1</mn> </msup> <msup> <mi>h</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>-</mo> <msubsup> <mi>&Sigma;</mi> <mi>h</mi> <mn>2</mn> </msubsup> <msup> <mi>h</mi> <msup> <mrow> <mo>(</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mi>T</mi> </msup> </msup> <msup> <mi>W</mi> <mi>t</mi> </msup> <msup> <mi>h</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mo>-</mo> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mi>t</mi> <mn>1</mn> </msubsup> <msup> <mrow> <mo>|</mo> <mi>m</mi> <mo>|</mo> </mrow> <msup> <mi>t</mi> <mi>T</mi> </msup> </msup> <msup> <mover> <mi>W</mi> <mo>^</mo> </mover> <mi>t</mi> </msup> <msup> <mi>h</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> </mrow>

6.根据权利要求1所述的一种文档建模的方法，其特征在于，

所述文档为半结构化文档数据，设置标签信息作为网络的补偿信息，标签信息的种类数量作为补偿信息种类数。

7.根据权利要求1所述的一种文档建模的方法，其特征在于，使用ContrastiveDivergence算法训练补偿型深度玻尔兹曼机。