CN107329954B

CN107329954B - 一种基于文档内容和相互关系的主题检测方法

Info

Publication number: CN107329954B
Application number: CN201710516534.3A
Authority: CN
Inventors: 梅建萍; 王江涛
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Transn Iol Technology Co ltd
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2020-10-30
Anticipated expiration: 2037-06-29
Also published as: CN107329954A

Abstract

本发明涉及一种基于文档内容和相互关系的主题检测方法，通过获取文档进行预处理，得到文档特征的共现矩阵和两两关系矩阵，基于此构建目标函数，迭代计算文档代表度矩阵、文档隶属度矩阵、词代表度矩阵及词隶属度矩阵，输出词代表度矩阵，其每一列对应一个主题，以每列中值最大的词作为描述该主题的关键词，获取用于描述主题的关键词。本发明文档聚类和词聚类的同时、联合进行比对各自聚类更加有效，同时考虑文档内容和文档之间的关系比起只考虑其中一种信息得到更加全面的模型，隶属度和代表度的引入使得本方法既适用于聚类问题又适用于主题建模问题。

Description

一种基于文档内容和相互关系的主题检测方法

技术领域

本发明属于特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法的技术领域，特别涉及一种基于文档内容和相互关系的主题检测方法。

背景技术

在很多自然语言处理和分析问题中，需要通过主题建模方法从海量的互联网数据中自动检测出文本内容的语义主题，同时对文档进行分组归类。

现在的主题建模方法以LDA或pLDA为代表，认为主题模型是隐变量，从而基于隐狄利克雷分布来求解主题模型。大多现有的基于概率分布的主题建模方法只考虑文档内容。

然而，在很多现实应用中，文档间往往存在相互的关联关系，比如网页之间的超链接、微博之间的转发、文献之间的引用等。显然，除了内容，两两关系也给主题模型的建立提供了重要的信息。

因此，如何在利用文档内容的同时有效利用文档间的相互关系来进行主题建模是主题检测的一个重要研究方向。

发明内容

本发明解决的技术问题是，现有技术中，主题建模方法以LDA或pLDA为代表，认为主题模型是隐变量，大多现有的基于概率分布的主题建模方法只考虑文档内容，而导致的没有有效利用文档间的相互关系进行主题模型的建立，可能导致漏检、错检的问题，进而提供了一种优化的基于文档内容和相互关系的主题检测方法。

本发明所采用的技术方案是，一种基于文档内容和相互关系的主题检测方法，所述方法包括以下步骤：

步骤1：获取N个文档，对所述文档进行预处理，得到文档-特征的共现矩阵X和两两关系矩阵R；

步骤2：基于X和R，构建目标函数，设定聚类数为K，1＜K＜N；迭代计算文档代表度矩阵V_t、文档隶属度矩阵U_t、词代表度矩阵V_w及词隶属度矩阵U_w；

步骤3：基于输出的矩阵V_w，矩阵V_w每一列对应一个主题，以每列中值最大的p个词作为描述该主题的关键词，获取用于描述K个主题的关键词。

优选地，所述步骤1包括以下步骤：

步骤1.1：基于向量空间模型，N个文档一共包含T个不同的词，以所述N个文档的每个文档表示为一个向量，向量的每个维度对应一个出现在文档中的词，则每个文档表示为一个T维向量；

步骤1.2：当T个词中的第j个词出现在了第i个文档t次且同时出现在m个文档，则词频

逆向文件频率

m≤N；得到共现矩阵

其中，I_i表示第i个文档包含的词的总个数；

步骤1.3：以元素R_ij表示第i个文档和第j个文档之间的关联程度，0≤R_ij≤1，得到两两关系矩阵R。

优选地，所述步骤1中，预处理包括英文文本预处理和中文文本预处理；所述英文文本预处理包括词干还原、停用词消除；所述中文文本预处理包括分词、去除低频词。

优选地，所述步骤2包括以下步骤：

步骤2.1：基于X和R，设定文档代表度矩阵V_t、文档隶属度矩阵U_t、词代表度矩阵V_w及词隶属度矩阵U_w；

步骤2.2：构建目标函数

其中，β₁、β₂分别为矩阵R和X的权重系数，ρ₁、ρ₂分别为U_t和U_w的正则项权重系数，μ₁、μ₂分别为V_t和V_w的正则项权重系数；

步骤2.3：初始化N×K的U_t矩阵为非负随机矩阵，初始化N×K的V_t矩阵为非负随机矩阵；置迭代次数l＝0；

步骤2.4：基于当前的U_t、V_t，更新

其中，H₂＝β₂XU_t，G₂＝β₂XV_t，Q₂为T×K的全部元素为1的矩阵；

步骤2.5：基于当前的U_t、V_t、U_w和V_w，更新

其中，H₁＝β₁RU_t+β₂XU_w，G₁＝β₁RV_t+β₂XV_w，Q₁为N×K的全部元素为1的矩阵；

步骤2.6：l＝l+1，检测是否满足约束条件，若是，则输出V_w，若否，则进行步骤2.4。

优选地，所述约束条件为迭代次数超过设定值，或K个U_t向量更新前后的差别小于设定值ε。

优选地，ε∈[10^-5,10^-3]。

本发明提供了一种优化的基于文档内容和相互关系的主题检测方法，通过获取N个文档进行预处理，得到文档-特征的共现矩阵X和两两关系矩阵R，基于X和R构建目标函数，迭代计算文档代表度矩阵V_t、文档隶属度矩阵U_t、词代表度矩阵V_w及词隶属度矩阵U_w，输出矩阵V_w，矩阵V_w每一列对应一个主题，以每列中值最大的p个词作为描述该主题的关键词，获取用于描述K个主题的关键词。

本发明利用基于文档和词联合聚类的方法，充分利用文档内容和文档之间的两两关系这两种信息同时得到文档和词在每个类中的代表度和隶属度，每个类对应一个主题，因此根据词到每个类的代表度就可以得到每个主题的关键词。

本发明的有益效果在于：

1、文档聚类和词聚类的同时、联合进行比对各自聚类更加有效；

2、同时考虑文档内容和文档之间的关系比起只考虑其中一种信息得到更加全面的模型；

3、隶属度和代表度的引入使得本方法既适用于聚类问题又适用于主题建模问题。

具体实施方式

下面结合实施例对本发明做进一步的详细描述，但本发明的保护范围并不限于此。

本发明涉及一种基于文档内容和相互关系的主题检测方法，所述方法包括以下步骤。

步骤1：获取N个文档，对所述文档进行预处理，得到文档-特征的共现矩阵X和两两关系矩阵R。

所述步骤1中，预处理包括英文文本预处理和中文文本预处理；所述英文文本预处理包括词干还原、停用词消除；所述中文文本预处理包括分词、去除低频词。

本发明中，文档-特征的共现矩阵X是指基于文档和词的矩阵。

本发明中，两两关系矩阵R表示的是两个文档之间的关系。

本发明中，英文文本预处理可以包括词干还原(Stemming)、停用词消除(stopword removing)等，对中文文本，预处理还包括分词、去除低频词等。

本发明中，除了以单个词为特征，文档-特征矩阵还可以是用更复杂的方法得到的特征比如通过语义分析、特征选择以及特征提取等操作后得到的特征。

所述步骤1包括以下步骤。

步骤1.1：基于向量空间模型，N个文档一共包含T个不同的词，以所述N个文档的每个文档表示为一个向量，向量的每个维度对应一个出现在文档中的词，则每个文档表示为一个T维向量。

逆向文件频率

m≤N；得到共现矩阵

其中，I_i表示第i个文档包含的词的总个数。

本发明中，步骤1.1和1.2用于获得文档-特征的共现矩阵X。基于向量空间模型(vector space model)把每个文档表示为一个向量，每个维度对应一个出现在给定文档集的词。

本发明中，以tf-idf来计算每个词在对应文档的权重，举例来说，经过一定预处理后，给定的N个文档一共包含了T个不同的词，则每个文档表示为一个T维向量，假设这T个词中的第j个词出现在了第i个文档t次，并且同时出现在m个文档中，则

以I_i表示第i个文档包含的词的总个数。

本发明中，两两关系矩阵R中的每一个元素R_ij的取值在不同的实施例中是不同的。举例来说，对于网页数据，R_ij可以定义为两个网页之间是否有直接的超链接等。

本发明中，元素R_ij的取值具体看实施例中对R的定义以及获取的途径，一般情况下，0≤R_ij≤1。

步骤2：基于X和R，构建目标函数，设定聚类数为K，1＜K＜N；迭代计算文档代表度矩阵V_t、文档隶属度矩阵U_t、词代表度矩阵V_w及词隶属度矩阵U_w。

本发明中，基本思路为把文档和特征看作两种不同类型的对象，把文档内容表示为文档-特征的共现矩阵X，文档之间的关联表示为文档-文档关系矩阵R，引入文档代表度矩阵V_t、文档隶属度矩阵U_t、词代表度矩阵V_w及词隶属度矩阵U_w，隶属度包含某个对象到所有类的隶属程度，用于得到聚类结果，而代表度是指某个类中所有对象在该类的代表性，用于得到对某个类的描述。

所述步骤2包括以下步骤。

步骤2.1：基于X和R，设定文档代表度矩阵V_t、文档隶属度矩阵U_t、词代表度矩阵V_w及词隶属度矩阵U_w。

本发明中，V_t(i,c)、U_t(i,c)分别表示第i个文档在第c个主题的代表度和隶属度，V_w(j,c)、U_w(j,c)分别表示第j个词在第c个主题中的代表度和隶属度。

步骤2.2：构建目标函数

其中，β₁、β₂分别为矩阵R和X的权重系数，ρ₁、ρ₂分别为U_t和U_w的正则项权重系数，μ₁、μ₂分别为V_t和V_w的正则项权重系数。

本发明中，构建的目标函数需要进行迭代优化，当目标函数最大时，即第一项最大且后四项(不含负号)较小，使得如果与某个对象相关的其他对象在某个类有高的代表度，则这个对象到这个类的隶属度较高，如果与某个对象相关的其他对象在某个类的隶属度很大，则这个对象在这个类有较高代表度。

本发明中，主要是第一项矩阵的迹最大，即所有对角元素之和最大，后四项的正则项较小，即对应的矩阵产生较多非0元素。

步骤2.3：初始化N×K的U_t矩阵为非负随机矩阵，初始化N×K的V_t矩阵为非负随机矩阵；置迭代次数l＝0。

步骤2.4：基于当前的U_t、V_t，更新

其中，H₂＝β₂XU_t，G₂＝β₂XV_t，Q₂为T×K的全部元素为1的矩阵。

步骤2.5：基于当前的U_t、V_t、U_w和V_w，更新

其中，H₁＝β₁RU_t+β₂XU_w，G₁＝β₁RV_t+β₂XV_w，Q₁为N×K的全部元素为1的矩阵。

所述约束条件为迭代次数超过设定值，或K个U_t向量更新前后的差别小于设定值ε。

ε∈[10^-5,10^-3]。

本发明中，以上为目标函数的计算与迭代过程。

本发明中，对于U_t、V_t、U_w和V_w的计算采用拉格朗日法对目标函数求最大化得到，此为本领域技术人员容易理解的内容。

本发明中，条件二是指

本发明结合实施例说明。

取Cora数据集，共收集19396篇文献，包含12313个词，其中每篇文档的关键词已经由Cora提取并将文档表示为向量形式，得到共现矩阵X；数据集一共包含75021条文献-文献引用关系，得到关系矩阵R；基于X和R，设置K为10，输出19396×10的文档代表度矩阵V_t、文档隶属度矩阵U_t和12313×10的词代表度矩阵V_w及词隶属度矩阵U_w，β₁和β₂设为1，ρ₁和ρ₂设为0.01，μ₁和μ₂设为1，设定迭代次数最大值为100，ε＝10^-5；基于输出的V_w，取对Cora数据集聚类后得到的词代表度矩阵V_w的前25行，代表每个词在10个类中的代表度，此处数据精确到小数点后至少4位；取实施例的第6个主题中最具有代表性的25个词，即取V_w矩阵中的第6列结果，按照值从大到小排列后取出前25个权重所对应的关键词，如表1所示。

表1：V_w矩阵第6列的前25个权重所对应的关键词

本实施例经其他主题建模方法交叉核实，准确率高。

本发明解决了现有技术中，主题建模方法以LDA或pLDA为代表，认为主题模型是隐变量，大多现有的基于概率分布的主题建模方法只考虑文档内容，而导致的没有有效利用文档间的相互关系进行主题模型的建立，可能导致漏检、错检的问题，通过获取N个文档进行预处理，得到文档-特征的共现矩阵X和两两关系矩阵R，基于X和R构建目标函数，迭代计算文档代表度矩阵V_t、文档隶属度矩阵U_t、词代表度矩阵V_w及词隶属度矩阵U_w，输出矩阵V_w，矩阵V_w每一列对应一个主题，以每列中值最大的p个词作为描述该主题的关键词，获取用于描述K个主题的关键词。

本发明的有益效果在于：1、文档聚类和词聚类的同时、联合进行比对各自聚类更加有效；2、同时考虑文档内容和文档之间的关系比起只考虑其中一种信息得到更加全面的模型；3、隶属度和代表度的引入使得本方法既适用于聚类问题又适用于主题建模问题。