CN108255809B

CN108255809B - 考虑词语相似度的计算文档所对应的主题的方法

Info

Publication number: CN108255809B
Application number: CN201810022783.1A
Authority: CN
Inventors: 贾喜瑞; 初天宝
Original assignee: Beijing Hczh Technology Co ltd
Current assignee: Beijing Hczh Technology Co ltd
Priority date: 2018-01-10
Filing date: 2018-01-10
Publication date: 2021-10-08
Anticipated expiration: 2038-01-10
Also published as: CN108255809A

Abstract

本发明提供了一种考虑词语相似度的计算文档所对应的主题的方法。包括根据已知主题及其主题词语分布构建主题词语知识库；对于待计算主题的文档初始化主题‑词语矩阵和文档‑主题矩阵；再根据主题词语知识库获取文档所包含词语之间的相似度，利用词语之间的相似度对主题‑词语矩阵和文档‑主题矩阵进行迭代更新，直到两个矩阵达到收敛精度则停止计算，得到待计算主题的文档所对应的主题。本发明利用非负矩阵分解技术，自动批量计算文档主题。在计算过程中，融入词语语义近似度和文档类别信息，提高主题计算的准确度；同时考虑主题词语的语义演化，将计算出的最终结果融入到知识库中，使知识库保持最新的词语语义信息。

Description

考虑词语相似度的计算文档所对应的主题的方法

技术领域

本发明涉及文本分析技术领域，尤其涉及一种考虑词语相似度的计算文档所对应的主题的方法。

背景技术

随着计算机及互联网技术的快速发展，人们每天所接触的文档信息呈现爆炸式的增长。为了更快速、直观地了解文档信息，人们研发了一系列文本分析技术，如文档摘要技术、文档关键词提取技术、文档主题建模技术。其中，文档主题具有更加广泛的作用。文档主题不仅能够直观明了地反映文档所属的类别信息，而且主题词也能快速地反映文档的主要内容。所以，对文档进行主题建模是处理和分析海量文本数据必不可少的环节。

目前，现有技术中的文档主题建模方法分为有监督学习和无监督学习两种。无监督学习的方法提取出来的主题缺少语义信息，很难让人理解每个主题的含义，而有监督学习的方法没有考虑词语语义的演化，需要再定期更新模型。因此，需要一种既能考虑词语语义信息、又能对词语语义进行终生自动学习的方法，来实现对文档主题的计算。

发明内容

本发明的实施例提供了一种考虑词语相似度的计算文档所对应的主题的方法，以实现有效地计算文档所对应的主题。

为了实现上述目的，本发明采取了如下技术方案。

一种考虑词语相似度的计算文档所对应的主题的方法，包括：

根据已知主题和主题词，以相同主题下词语间的共现关系为基础构建主题词语知识库；

利用非负矩阵分解方法建立待计算主题的文档的初始化的主题-词语矩阵和文档-主题矩阵；

根据待计算主题的文档所包含词语对应的所述主题词语知识库，计算出所述待计算主题的文档中的文档词语相似度，获取所述待计算主题的文档中的文档类别相似度；

根据所述文档词语相似度和所述文档类别相似度，迭代更新主题-词语矩阵和文档-主题矩阵，直到所述主题-词语矩阵和文档-主题矩阵收敛，得到所述待计算主题的文档所对应的主题。

进一步地，所述的根据已知主题和主题词，以相同主题下词语间的共现关系为基础构建主题词语知识库，包括：

根据已知主题和主题词，从每个主题的主题词中，选出权重最高的前设定数量个主题词，统计两两主题词之间共同出现在相同主题中的次数，以主题词为节点，共同出现在相同主题中的次数为边，构建主题词共线网络，该主题词共线网络由多个子网络构成，每个子网络对应一个或者多个词语，将所述主题词共线网络作为主题词语知识库。

进一步地，所述的利用非负矩阵分解方法建立待计算主题的文档的初始化的主题-词语矩阵和文档-主题矩阵，包括：

针对需要计算主题的N个文档，把所述N个文档表示为词语及其频数矩阵D，D∈R^M ^×N，其中，M表示所述N个文档中包含的词语的总数；根据所述词语及其频数矩阵D的维度随机初始化两个非负矩阵，主题-词语矩阵U，U∈R^M×K；文档-主题矩阵V，V∈R^K×N，其中，K表示主题的个数。

进一步地，所述的根据待计算主题的文档所包含词语对应所述主题词语知识库中的子网络，计算出所述待计算主题的文档中的文档词语相似度，包括：

将所述词语及其频数矩阵D中包含的词语集合与所述主题词共线网络中的子网络对应的词语进行比对，获取待计算主题的文档所包含词语对应所述主题词语知识库中的子网络，计算词语语义相似度矩阵W，W∈R^M×M，矩阵W中的元素w_ij表示词语w_i和w_j之间的相似度，并根据子网络对词语语义相似度进行归一化，其计算公式如下：

其中，#(w_i,w_j)表示在主题词语知识库中连接词语w_i和w_j的边的权重，

表示所述词语及其频数矩阵D中所有词语在所述主题词语知识库中的子网络边的权重最大值。

进一步地，所述的获取所述待计算主题的文档中的文档类别相似度，包括：

如果待计算主题的N个文档有类别信息，则判定待计算主题的两个文档是否属于相同类别，并根据判定结果赋予不同的权重，生成文档类别的相似度矩阵C，C∈R^N×N，矩阵C是一个0-1矩阵，每个元素表示两个文档是否属于相同类别，其计算公式如下：

其中，class(m)表示文档m的类别。

如果待计算主题的文档没有类别信息，则文档类别的相似度矩阵C为零矩阵。

进一步地，所述的根据所述文档词语相似度和所述文档类别相似度，迭代更新主题-词语矩阵和文档-主题矩阵，直到所述主题-词语矩阵和文档-主题矩阵收敛，得到所述待计算主题的文档所对应的主题，包括：

利用如下步骤1所示的公式迭代更新主题-词语矩阵U：

步骤1、

其中，⊙表示对应元素相乘，

表示对应元素相除，α,β是设定的参数，k表示迭代的次数，T表示矩阵或向量的转置；

利用如下步骤2所示的公式迭代更新文档-主题矩阵V：

步骤2、

其中，⊙表示对应元素相乘，

表示对应元素相除，γ,λ是设定的参数；

重复执行上述步骤1和步骤2，判定|U_k+1-U_k|和|V_k+1-V_k|是否小于预先设定的收敛精度ε，若小于收敛精度ε，则判断主题-词语矩阵U和文档-主题矩阵V两个矩阵收敛，停止迭代计算；

如果计算步骤1和步骤2的次数大于预先设定的阈值F，也判断主题-词语矩阵U和文档-主题矩阵V两个矩阵收敛，停止迭代计算。

在判定主题-词语矩阵U和文档-主题矩阵V收敛后，根据收敛后的文档-主题矩阵V获取各个待计算主题的文档所对应的主题。

进一步地，所述的方法还包括：

根据更新后的主题-词语矩阵更新所述主题词语知识库，对于每个主题取权重最高的设定数量个词语，统计两两主题词之间共同出现在相同主题中的次数，将出现相同主题的次数累加到主题词语知识库中边的权重上。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例利用非负矩阵分解技术，可以实现自动地批量计算文档所对应的主题。在计算过程中，融入词语语义近似度和文档类别信息，提高主题计算的准确度；同时考虑主题词语的语义演化，将计算出的最终结果融入到知识库中，使知识库保持最新的词语语义信息。本发明在多文档自动主题计算、等方面具有重要的应用价值。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种考虑词语相似度的计算文档所对应的主题的方法的处理流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

基于上述需求，本发明实施例以非负矩阵分解技术为基础，融入先验知识，并用每次主题计算结果对词语知识库进行自动更新，解决文档主题建模过程中语义信息融合和演化的问题。

本发明实施例利用相同主题下词语间的共线关系，构建主题词语知识库；再利用非负矩阵分解技术，在迭代计算中融入词语语义相似度等先验知识；最后，根据迭代计算结果，更新知识库中的语义信息，实现对词语语义的终生自动学习。本发明实施例适用于文本分析领域，既能考虑词语语义信息，又能对词语语义进行终生自动学习，充分满足文档主题准确计算的要求。

本发明实施例以相同主题下词语间的共现关系为基础，根据已知主题及其词语分布，构建主题词语知识库，以表示词语间的相似度。在非负矩阵分解技术的基础上，融入词语语义相似度、文档类别等先验信息，对主题-词语矩阵和文档-主题矩阵进行迭代计算。最后，根据迭代计算的结果，对主题词语知识库进行更新，实现对词语语义的终生自动学习。

本发明实施例所述的考虑词语相似度的终生主题计算方法，首先，根据已知主题及其主题词构建主题词语知识库；其次，利用非负矩阵分解方法初始化主题-词语矩阵和文档-主题矩阵；然后，结合主题词语知识库，考虑词语的相似度和文档类别信息，迭代更新主题-词语矩阵和文档-主题矩阵，直到两个矩阵收敛，即得到文档的主题，并根据计算结果更新主题词语知识库。具体实施步骤如下：

本发明实施例所述的考虑词语相似度的计算文档所对应的主题的方法的处理流程如图1所示，包括如下的处理步骤：

步骤1：构建主题词语知识库。

本步骤根据已知主题及其主题词，以相同主题下词语间的共现关系为基础，构建主题词语知识库。首先，从每个主题的主题词中，选出权重较高的前T个主题词，本发明中T取10；然后，统计两两主题词之间共同出现在相同主题中的次数；最后，以主题词为节点，共同出现在相同主题中的次数为边，构建主题词共线网络，该主题词共线网络由多个子网络构成，每个子网络对应一个或者对个词语，将上述主题词共线网络作为主题词语知识库。

如果已有主题词语知识库，直接进行步骤二。

步骤二：利用非负矩阵分解方法建立待计算主题的文档的初始化的主题-词语矩阵和文档-主题矩阵。

针对需要计算主题的N个文档，首先把这些N个文档表示为词语及其频数矩阵D，D∈R^M×N，其中，M表示N个文档中包含的词语的总数。

然后，根据词语及其频数矩阵D的维度随机初始化两个非负矩阵，主题-词语矩阵U，U∈R^M×K；文档-主题矩阵V，V∈R^K×N，其中，K表示主题的个数。

步骤三：获取文档词语相似度。

将词语及其频数矩阵D中包含的词语集合与所述主题词共线网络中的子网络对应的词语进行比对，根据主题词语知识库，考虑待计算主题的文档所包含词语在主题词语知识库中的子网络，计算词语语义相似度矩阵W，W∈R^M×M，矩阵W中的元素w_ij表示词语w_i和w_j之间的相似度，并根据子网络对词语语义相似度进行归一化，其计算公式如下：

其中，#(w_i,w_j)表示词语w_i和w_j在主题词语知识库中连接这两词语的边的权重，

表示D矩阵中所有词语在知识库中的子网络边的权重最大值。

步骤四：获取文档类别相似度。

如果待计算主题的N个文档有类别信息，则判定待计算主题的两个文档是否属于相同类别，并根据判定结果赋予不同的权重，生成文档类别的相似度矩阵C，C∈R^N×N。矩阵C是一个0-1矩阵，每个元素表示两个文档是否属于相同类别，其计算公式如下：

其中，class(m)表示文档m的类别。

如果文档没有类别信息，那么矩阵C为零矩阵。

步骤五：根据所述文档词语相似度和所述文档类别相似度，迭代更新主题-词语矩阵和文档-主题矩阵，直到所述主题-词语矩阵和文档-主题矩阵收敛，得到所述待计算主题的文档所对应的主题。

根据步骤三计算的文档词语相似度和步骤四计算的文档类别相似度，利用非负矩阵分解技术中迭代求解的思路，更新主题-词语矩阵U和文档-主题矩阵V，重复进行本步骤，直到两个矩阵收敛。本步骤详细说明如下：

1)更新主题-词语矩阵U

利用如下公式更新主题-词语矩阵U：

其中，⊙表示对应元素相乘，

表示对应元素相除，α,β是参数。本发明中，α取10，β取0.5。

2)更新文档-主题矩阵V

其中，⊙表示对应元素相乘，

表示对应元素相除，γ,λ是参数。本发明中，γ取0.001，λ取0.001。

3)重复步骤1)和2)，直到主题-词语矩阵和文档-主题矩阵两个矩阵收敛

步骤六：更新主题词语知识库

根据步骤五计算出的收敛后的主题-词语矩阵U，更新主题词语知识库。首先，对于每个主题，取权重较高的T个词语，本发明中T取10；然后，统计两两主题词之间共同出现在相同主题中的次数；最后，将出现相同主题的次数累加到主题词语知识库中边的权重上。例如，根据步骤五计算得到：词语A和词语B共同出现在相同主题中的次数为2，而主题词语知识库中，词语A和词语B之间的边的权重为3，那么，更新之后的主题词语知识库中词语A和词语B之间边的权重为3+2＝5。

更新后的主题词语知识库可以应用于下一次的文档主题计算中。通过不断地积累主题词语知识，既提升文档主题计算的精度，又实现对词语语义信息的终生自动学习。

综上所述，本发明实施例利用非负矩阵分解技术，可以实现自动地批量计算文档所对应的主题。在计算过程中，融入词语语义近似度和文档类别信息，提高主题计算的准确度；同时考虑主题词语的语义演化，将计算出的最终结果融入到知识库中，使知识库保持最新的词语语义信息。本发明在多文档自动主题计算、等方面具有重要的应用价值。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种考虑词语相似度的计算文档所对应的主题的方法，其特征在于，包括：

根据待计算主题的文档所包含词语对应的所述主题词语知识库中的子网络，计算出所述待计算主题的文档中的文档词语相似度，获取所述待计算主题的文档中的文档类别相似度；

根据所述文档词语相似度和所述文档类别相似度，迭代更新主题-词语矩阵和文档-主题矩阵，直到所述主题-词语矩阵和文档-主题矩阵收敛，得到所述待计算主题的文档所对应的主题；所述的根据已知主题和主题词，以相同主题下词语间的共现关系为基础构建主题词语知识库，包括：

2.根据权利要求1所述的考虑词语相似度的计算文档所对应的主题的方法，其特征在于，所述的利用非负矩阵分解方法建立待计算主题的文档的初始化的主题-词语矩阵和文档-主题矩阵，包括：

针对需要计算主题的N个文档，把所述N个文档表示为词语及其频数矩阵D，D∈R^M×N，其中，M表示所述N个文档中包含的词语的总数；根据所述词语及其频数矩阵D的维度随机初始化两个非负矩阵，主题-词语矩阵U，U∈R^M×K；文档-主题矩阵V，V∈R^K×N，其中，K表示主题的个数。

3.根据权利要求2所述的考虑词语相似度的计算文档所对应的主题的方法，其特征在于，所述的根据待计算主题的文档所包含词语对应所述主题词语知识库中的子网络，计算出所述待计算主题的文档中的文档词语相似度，包括：

4.根据权利要求3所述的考虑词语相似度的计算文档所对应的主题的方法，其特征在于，所述的获取所述待计算主题的文档中的文档类别相似度，包括：

其中，class(m)表示文档m的类别；

5.根据权利要求4所述的考虑词语相似度的计算文档所对应的主题的方法，其特征在于，所述的根据所述文档词语相似度和所述文档类别相似度，迭代更新主题-词语矩阵和文档-主题矩阵，直到所述主题-词语矩阵和文档-主题矩阵收敛，得到所述待计算主题的文档所对应的主题，包括：

利用如下步骤1所示的公式迭代更新主题-词语矩阵U：

步骤1、

其中，⊙表示对应元素相乘，

表示对应元素相除，α,β是设定的参数，k表示迭代的次数；

利用如下步骤2所示的公式迭代更新文档-主题矩阵V：

步骤2、

其中，⊙表示对应元素相乘，

表示对应元素相除，γ,λ是设定的参数；

如果计算步骤1和步骤2的次数大于预先设定的阈值F，也判断主题-词语矩阵U和文档-主题矩阵V两个矩阵收敛，停止迭代计算；

6.根据权利要求1至5任一项所述的考虑词语相似度的计算文档所对应的主题的方法，其特征在于，所述的方法还包括：