CN107729509B

CN107729509B - 基于隐性高维分布式特征表示的篇章相似度判定方法

Info

Publication number: CN107729509B
Application number: CN201710994119.9A
Authority: CN
Inventors: 王远; 雷斌; 陆保国; 崔隽; 尹超
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2020-07-07
Anticipated expiration: 2037-10-23
Also published as: CN107729509A

Abstract

本发明公开了基于隐性高维分布式特征表示的篇章相似度判定方法，首先利用神经网络类训练技术对特定种类数据样本进行训练，对样本生成词隐性高维分布式特征表示集合以及样本对应的语言模型；对样本生成二阶隐性高维分布式特征表示矩阵；对于待判定的篇章，利用神经网络语言模型，生成篇章中每一个词生成隐性高维分布式特征，然后组合得到篇章二阶隐性高维分布式特征表示矩阵。利用篇章和样本的二阶隐性高维分布式特征表示矩阵计算篇章的隐性语义特征向量；计算篇章隐性语义特征向量与全1向量的余弦值，以此作为篇章与样本集合的相似度。该方法可以用来进行长篇章间语义相似度计算、长篇章语义分类与聚类等操作。

Description

基于隐性高维分布式特征表示的篇章相似度判定方法

技术领域

本发明属于自然语言处理挖掘领域文本语义理解技术中的篇章语义相似度检测技术，尤其涉及基于隐性高维分布式特征表示的篇章相似度判定方法。

背景技术

自然语言处理技术是人工智能领域的重要分支，随着互联网的飞速发展，文本数据大量涌现，其间蕴含了大量有效信息，如何自动、智能、准确的发现、处理、汇聚这些信息是大数据时代下文本挖掘的热点之一。

文本信息的分类和聚类是一类重要的文本挖掘问题，其离不开文本相似度的计算。目前文本相似度计算方法多基于词、短语或句子进行，采用基于规则或者统计(如基于TF-IDF指标)的方式处理。此类方法认为词是文本的唯一基础语义单元。然而，许多情况下相同的词在不同的语境中，往往含义并不相同；词的频率并不能绝对反映词在语义表达上的重要程度，特别是许多停用词在表达情感、情绪时，往往非常重要。在判断长篇章的相似度时，词的作用更加弱化，并且语义的关联往往会跨越多个段落。再者，基于词频的语义相似度判定方法，往往需要考虑词性，目前，词性的标注工作在大数据场景下代价非常大，几乎无法完成。

因此，在判断长篇章之间的相似度时，迫切需要一种综合考虑上下文语境、词、短语以及相关组合，并且能跨段落关联语义的新方法，来提升语义相似度判断的准确性。

发明内容

本发明提出基于隐性高维分布式特征表示的篇章相似度判定方法，该方法能够基于篇章全文整体衡量篇章语义，以词为基本单位构造隐性高维分布式特征表示(以下如无特殊说明，特征表示均指隐性高维分布式特征表示)，并基于词的特征表示，构造篇章的语义特征向量。通过计算向量间距离来计算篇章之间的相似性。，本发明主要用于判定两段文本的语义相似度，其可用于海量文档分类聚类、文章阅读推荐等应用。例如如下应用场景：用户A喜欢浏览政治经济类文章，其历史上曾经浏览的文档集合记为H，每天新产生的文章集合记为N，逐篇计算N中文档与H的相似度，将N中的文档按相似度由高到低排序，推荐给A阅读。

本发明具体包括如下步骤：

步骤1，利用类神经网络工具对特定种类数据样本(如财经、政治、体育、娱乐、军事等)进行训练，对样本生成词隐性高维分布式特征表示集合以及样本对应的语言模型；

步骤2，对样本生成二阶隐性高维分布式特征表示矩阵；

步骤3，输入待判定的篇章，利用步骤1得到的语言模型，生成篇章中每一个词隐性高维分布式特征，组合得到待判定的篇章的二阶隐性高维分布式特征表示矩阵；

步骤4，利用待判定的篇章和样本的二阶隐性高维分布式特征表示矩阵计算待判定的篇章的隐性语义特征向量；

步骤5，根据隐性语义特征向量计算待判定的篇章与样本的相似度。

步骤1包括：

步骤1-1，对特定种类数据样本进行分词，分词后的结果以文本文件的方式存储，文本的每一行代表一个完整的句子分词后的结果，句子的每个词之间以\tab分隔；

步骤1-2，利用类神经网络工具对预处理过后的文本文件训练，采用后向传播算法更新神经网络相关矩阵与偏差值(语言模型生成工具可以采用类神经工具训练，如卷积神经网络、递归神经网络、残余神经网络、LSTM网络等)，最终形成的语言模型如下：

Model(Seq(DOC))

其中，DOC表示任意文本，Seq(DOC)返回文本的词特征表示序列。

Model(即语言模型)能够以任意文本篇章为输入，输出两类结果，一类是输入文本篇章的词特征表示，另一类是输入文本在语言模型下出现概率的对数似然loglikelihood，词特征表示如下：

Vec_t＝<v₀,…,v_M-1>^T

其中，T表示转置，v_i为实数(i的取值范围为0～M-1)，物理含义为词在特定维度上的特征值；M为特征表示的维度，为固定值(如30，60，100)。对于不存在于样本词汇空间中的词，其特征向量记为空值null。Vec_t为词t在语言模型里的特征表示。

步骤2包括：通过语言模型计算样本词汇空间中每一个词的特征表示，将特征表示按照词的字母序排列后，得到一个二维矩阵，称为样本二阶隐性高维分布式特征表示矩阵，记为Matrix_S：

其中，Matrix_S是一个N×M的矩阵，其每一行对应一个词的隐性高维分布式特征表示；样本词汇空间记为V，N＝|V|。

是文章中第t_N-1个词的特征向量。

步骤3包括：

步骤3-1，将待判定的篇章分词并去重，形成篇章词汇集合V_para；

步骤3-2，对于V_para中的每一个词t，利用语言模型计算其对应的词特征表示Vec_t；

步骤3-3，将Vec_ti ^T组成判定的篇章的二阶隐性高维分布式特征表示矩阵Matrix_I，其中，i为词t的字母序。其中，Vec_ti ^T是Vec_ti的转置向量。

步骤4包括：

步骤4-1，用一个N维浮点向量保存篇章的隐性语义特征向量；

步骤4-2，对篇章词汇集合进行遍历，如果该词存在于篇章词汇集合中，则取值为1；如果不存在，则取值为待判定的篇章样本集合中与该词距离最近的词。

待判定的篇章的隐性语义特征向量为N维向量，N为样本的词汇集合中的词汇数量，每一维度取值为浮点值，取值范围为[-1,1]；

步骤5包括：计算待判定的篇章与样本的相似度：

Sim＝cossin((1)_N,HV)，

其中(1)_N为N维全1向量，Sim为浮点型，位于[-1,1]。

本发明方法可以用来进行长篇章间语义相似度计算、长篇章语义分类与聚类等操作。

有益效果：本发明针对目前长篇章语义相似度判定技术中存在的问题，彻底抛开统计方式，通过构造基于类神经网络模型的语言模型，实现词或短语在上下文语境中的语义特征数字化定量表示；基于该隐性语义特征定量表示所蕴涵的语义特征，计算长篇章之间的相似度。本方法完全不需要人工标注词性与统计词频，也不依赖于上下文的长度，实现了完全的语义相似度自动化判定。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

图1是语义相似度计算过程原理图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。本发明可用于海量文档分类聚类、文章阅读推荐等应用。例如如下应用场景：用户A喜欢浏览政治经济类文章，其历史上曾经浏览的文档集合记为H，每天新产生的文章集合记为N，逐篇计算N中文档与H的相似度，将N中的文档按相似度由高到低排序，推荐给A阅读。

如图1所示，本发明提出基于隐性高维分布式特征表示的篇章相似度判定方法，包括如下步骤：

步骤2，对样本生成二阶隐性高维分布式特征表示矩阵；

步骤1包括：

Model(Seq(DOC))

Vec_t＝<v₀,…,v_M-1>^T

是文章中第t_N-1个词的特征向量。

步骤3包括：

步骤4包括：

步骤4-1，用一个N维浮点向量保存篇章的隐性语义特征向量；

待判定的篇章的隐性语义特征向量为N维向量，N为样本词汇空间的词汇数量，每一维度取值为浮点值，取值范围为[-1,1]；

待判定的篇章的隐性语义特征向量的每一维度对应样本词汇空间中的一个特定词，如果该词存在于篇章词汇空间中，则取值为1；如果不存在，则取值为待判定的篇章样本空间中所有词与该词的最近距离。

步骤5包括：计算待判定的篇章与样本的相似度：

Sim＝cossin((1)_N,HV)，

其中(1)_N为N维全1向量，Sim为浮点型，位于[-1,1]。

本发明涉及自然语言处理挖掘领域文本语义理解技术中的一种篇章相似度检测技术。长篇章语义相似度的判定是自然语言处理领域的研究热点之一，传统的相似度检测方法往往只考虑词、词性、词频、特定长度的上下文等显性特征，忽略了词语义及其上下文情境对篇章语义的影响。本专利提出的方法以训练样本为依托，综合考虑了词的语义信息、词在情境中的重要程度，并能处理跨篇章、同义、反义等各类复杂情形。

本发明提供了基于隐性高维分布式特征表示的篇章相似度判定方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.基于隐性高维分布式特征表示的篇章相似度判定方法，其特征在于，包括如下步骤：

步骤1，利用类神经网络工具对特定种类数据样本进行训练，对样本生成词隐性高维分布式特征表示集合以及样本对应的语言模型；

步骤2，对样本生成二阶隐性高维分布式特征表示矩阵；

步骤5，根据隐性语义特征向量计算待判定的篇章与样本的相似度；

步骤1包括：

步骤1-1，对特定种类数据样本进行分词，分词后的结果以文本文件的方式存储，文本的每一行代表一个完整的句子分词后的结果；

步骤1-2，利用类神经网络工具对预处理过后的文本文件训练，采用后向传播算法更新神经网络每一层的权重，最终形成的神经网络语言模型能够以任意文本篇章为输入，输出两类结果，一类是输入文本篇章的词隐性高维分布式特征表示，另一类是输入文本在语言模型下出现概率的对数似然log likelihood，词特征表示如下：

Vec_t＝<v₀,…,v_M-1>^T

其中，T表示转置，v_i为实数，i的取值范围为0～M-1，物理含义为词在特定维度上的特征值；M为特征表示的维度，为固定值，对于不存在于样本词汇空间中的词，其特征向量记为空值null，Vec_t为词t在语言模型里的特征表示；

步骤1-2中，最终形成的语言模型如下：

Model(Seq(DOC))

其中，DOC表示任意文本，Seq(DOC)返回文本的词特征表示序列；

其中，Matrix_S是一个N×M的矩阵，其每一行对应一个词的隐性高维分布式特征表示；样本词汇空间记为V，N＝|V|，

是文章中第t_N-1个词的特征向量；

步骤3包括：

步骤3-3，将Vec_ti ^T组成判定的篇章的二阶隐性高维分布式特征表示矩阵Matrix_I，其中，i为词t的字母序，Vec_ti ^T是Vec_ti的转置向量；

步骤4包括：

步骤4-1，用一个N维浮点向量保存篇章的隐性语义特征向量；

步骤4-2，对篇章词汇集合进行遍历，如果该词存在于篇章词汇集合中，则取值为1；如果不存在，则取值为待判定的篇章样本集合中与该词距离最近的词；

步骤5包括：计算待判定的篇章与样本的相似度：

Sim＝cossin((1)_N,HV)，

其中(1)_N为N维全1向量，Sim为浮点型，位于[-1,1]。