CN107273426A

CN107273426A - 一种基于深度语义路径搜索的短文本聚类方法

Info

Publication number: CN107273426A
Application number: CN201710352292.9A
Authority: CN
Inventors: 李开宇; 李秀生
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2017-05-18
Filing date: 2017-05-18
Publication date: 2017-10-20
Anticipated expiration: 2037-05-18
Also published as: CN107273426B

Abstract

本发明属于文本特征向量化表示领域，公开了一种基于深度语义路径搜索的短文本聚类方法。对通用语料库进行预处理，得到所述语料库对应的词汇表；建立所述词汇表中各词语的实数向量；对短文本进行预处理，利用处理后的短文本对LSTM序列化模型进行训练，得到优化后LSTM模型；搜索短文本中词序列中有序的子序列组合，利用所述优化后的LSTM模型计算所述子序列组合的概率，利用所述概率选择所述短文本最优的语义路径；利用短文本间最优的语言路径通过余弦相似度计算得到短文本间相似度；将所述相似度作为聚类的参数对短文本进行聚类，得到最终聚类的结果；采用本发明可以有效的解决个别噪音词对解析整个短文本语义的干扰问题。

Description

一种基于深度语义路径搜索的短文本聚类方法

技术领域

本发明涉及文本特征向量化表示领域，特别是一种基于深度语义路径搜索的短文本聚类方法。

背景技术

目前，随着社交媒体的广泛流行，聊天机器人的兴起，从短文本中发现有价值信息是十分重要的渠道。而短文本聚类其中重要的任务。它的主要挑战是文本表示的稀疏性。为了克服这个困难,一些研究者尝试通过维基百科或本体库对短文本数据进行丰富和扩展。可是这种扩展都是基于“词”维度上的语义扩展。而实际是在“句子”层面的计算；很有可能导致一个簇里面出现下面两种句子，它们的意思是相反的：我喜欢吃苹果与我不喜欢吃苹果。

这是由语法结构带来的句子表达不一致，这在中文这种句法结构复杂的语言中，带来的反效果十分明显。一些研究人员为解决这种问题，会采用通过“词”聚类的方式，自建语义树；这种语义树的精准度十分有限，如果要达到工业级别可用的高精准度，则需要大量人力参与。

深度神经网络(deep neural networks,DNNs)及其学习算法,作为成功的大数据分析方法,已为学术界和工业界所熟知.与传统方法相比,深度学习方法以数据驱动、能自动地从数据中提取特征(知识),对于分析非结构化、模式不明多变、跨领域的大数据具有显著优势。近几年,词向量化表示方法大大改善了神经网络模型的性能,如递归神经网络(RecNN)和循环神经网络(RNN)。近日,循环神经网络已经在很多自然语言处理领域取得多项突破性进展。但目前大多数工作都致力于利用循环神经网络做有监督任务学习,如主题分类、关系分类等。

通过词语的Embedding来构建语义树，由于Embedding是由无监督模型word2vec学习出来的，它的精准度有一定瓶颈，语义树的构建不精准，会直接导致后续的聚类效果产生较大偏差，很难达到工业级别的应用要求；

如果考虑人工干预，人工专家的成本也非常大；在模型完成优化后，如果要迁移到其他领域，也需要花费此类人工专家干预成本。

现有技术在研究领域有不错的效果，但应用到工业领域，应当多变的情况的时，效果就体现不出来。

发明内容

基于以上技术问题，本发明提供了一种基于深度语义路径搜索的短文本聚类方法，

旨在解决个别噪音词语对解析整个短文本语义干扰非常严重的问题。

本发明采用的技术方案如下：

一种基于深度语义路径搜索的短文本聚类方法，包括以下步骤：

步骤1：对通用语料库进行预处理，得到所述语料库对应的词汇表；

步骤2：建立所述词汇表中各词语的实数向量；

步骤3：对短文本进行预处理；

步骤4：利用处理后的短文本对LSTM序列化模型进行训练，得到优化后LSTM模型；

步骤5：搜索短文本中词序列中有序的子序列组合，利用所述优化后的LSTM模型计算所述子序列组合的概率，利用所述概率选择所述短文本最优的语义路径；

步骤6：利用短文本间最优的语言路径通过余弦相似度计算得到短文本间相似度；

步骤7：将所述相似度作为聚类的参数对短文本进行聚类，得到最终聚类的结果。

进一步的，所述步骤1中，预处理的方法为：将所述语料库中的句子进行大小写转换和分词处理；选出所述语料库中出现次数大于N次的词语；将所述词语作为语料库对应的词汇表；其中N表示词语出现频次的阈值。

进一步的，所述步骤2中，利用word2vec的超参数建立词语的实数向量(Embedding)的方法为：

步骤S301：将词语映射为K维实数向量，将所述词语周围的M个词语作为该词语的上下文；

步骤S302：根据所述上下文利用逻辑回归函数预测所述词语的概率；

步骤S303：通过使所述概率最大化，经过反馈迭代改变所述K维实数向量；

步骤S304：当所述逻辑回归函数的损失函数值小于预设阈值后，停止迭代，所得的K维实数向量即为该词语的实数向量；

其中K表示实数向量的长度，M表示词语框的大小。

进一步的，所述步骤3中，对短文本进行预处理的方法为：将所述短文本中的句子进行大小写转换和分词处理。

进一步的，所述步骤4中，LSTM序列化模型的训练过程过程为：

步骤S501：将所述短文本的中的各词语映射为one hot向量；

步骤S502：将第i个词语的one hot向量x_i和位置i-1的隐藏状态S_i-1作为位置i的输入，利用非线性函数F计算出位置i的隐藏状态S_i；

步骤S503：改变所述短文本中词语的序列，得出位置i的隐藏状态S_i'，利用隐藏状态残差S_i-S_i'对LSTM序列化模型进行误差反向传播；

步骤S504：多次改变所述短文本中词语的序列，使第i个词语的one hot向量x_i和所述非线性函数F得到优化。

进一步的，所述非线性函数F为：

其中，i为短文本中词语的序号，U和W为转化参数矩阵，由LSTM序列化模型训练优化得出。

进一步的，所述步骤5中，所述子序列组合的概率的计算方法为：利用训练后的LSTM序列化模型，将短文本中每个词语依次映射为one hot向量并进行隐藏状态的计算；再利用S函数计算出每个词语在该短文本序列中出现的概率O_i；

所述S函数为：

O_i＝softmax(V_Si)；

选择所述最优语义路径的方法为：利用该短文本中所有词按顺序出现的概率的平均值作为语义路径的择优判断。

进一步的，所述步骤6中，短文本间相似度的计算方法为：

步骤S801：将所述短文本语义路径中的每个词语映射为实数向量；

步骤S802：将词语的实数向量与该词语出现的概率O_i记为PE；

步骤S803：将每个词语计算出的PE相加得到所述短文本的实数向量，并记为ALL_PE；

步骤S804：通过余弦相似度计算短文本间ALL_PE的夹角，得到短文本间的相似度。

进一步的，所述步骤7中，所述聚类的方法采用K均值聚类算法。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

使用深度神经网络模型LSTM学习短文本词序列组合概率，并根据这种概率选择出最优的短文本子序列组合为语义路径，以此减少短文本中噪音词对聚类效果所带来的干扰；

使用词语的实数向量乘以该词语在LSTM序列模型中出现概率的方式来优化相似度计算，比直接使用词语的实数向量计算相似度效果要更优。

利用本发明可有效的提高正确聚类的短文本数占总短文本数的比例，使在不需要人工专家干预数据的情况下，也能达到较高的聚类准确率。

附图说明

图1是本发明的流程图。

具体实施方式

本说明书中公开的所有特征，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

下面结合附图对本发明作详细说明。

预处理的方法为：将所述语料库中的句子进行大小写转换和分词处理；选出所述语料库中出现次数大于N次的词语；将所述词语作为语料库对应的词汇表；其中N表示词语出现频次的阈值。

步骤2：利用word2vec的超参数建立词语的实数向量(Embedding)的方法为：

其中K表示实数向量的长度，M表示词语框的大小。

步骤3：对短文本进行预处理；

对短文本进行预处理的方法为：将所述短文本中的句子进行大小写转换和分词处理。

LSTM序列化模型的训练过程过程为：

步骤S501：将所述短文本的中的各词语映射为one hot向量；

所述非线性函数F为：

所述子序列组合的概率的计算方法为：利用训练后的LSTM序列化模型，将短文本中每个词语依次映射为one hot向量并进行隐藏状态的计算；再利用S函数计算出每个词语在该短文本序列中出现的概率O_i；

所述S函数为：

O_i＝softmax(V_Si)；

短文本间相似度的计算方法为：

步骤S802：将词语的实数向量与该词语出现的概率O_i记为PE；

步骤7：将所述相似度作为聚类的参数对短文本进行聚类，得到最终聚类的结果，所述聚类的方法采用K均值聚类算法，也可采用普聚类或层次聚类方法。

如上所述即为本发明的实施例。本发明不局限于上述实施方式，任何人应该得知在本发明的启示下做出的结构变化，凡是与本发明具有相同或相近的技术方案，均落入本发明的保护范围之内。

Claims

1.一种基于深度语义路径搜索的短文本聚类方法，其特征在于：包括以下步骤：

步骤2：建立所述词汇表中各词语的实数向量；

步骤3：对短文本进行预处理；

2.根据权利要求1所述的一种基于深度语义路径搜索的短文本聚类方法，其特征在于：所述步骤1中，预处理的方法为：将所述语料库中的句子进行大小写转换和分词处理；选出所述语料库中出现次数大于N次的词语；将所述词语作为语料库对应的词汇表；其中N表示词语出现频次的阈值。

3.根据权利要求1所述的一种基于深度语义路径搜索的短文本聚类方法，其特征在于：所述步骤2中，利用word2vec的超参数建立词语的实数向量(Embedding)的方法为：

其中K表示实数向量的长度，M表示词语框的大小。

4.根据权利要求1所述的一种基于深度语义路径搜索的短文本聚类方法，其特征在于：所述步骤3中，对短文本进行预处理的方法为：将所述短文本中的句子进行大小写转换和分词处理。

5.根据权利要求1所述的一种基于深度语义路径搜索的短文本聚类方法，其特征在于：所述步骤4中，LSTM序列化模型的训练过程过程为：

步骤S501：将所述短文本的中的各词语映射为one hot向量；

6.根据权利要求4所述的一种基于深度语义路径搜索的短文本聚类方法，其特征在于：所述非线性函数F为：

7.根据权利要求1所述的一种基于深度语义路径搜索的短文本聚类方法，其特征在于：所述步骤5中，所述子序列组合的概率的计算方法为：利用训练后的LSTM序列化模型，将短文本中每个词语依次映射为one hot向量并进行隐藏状态的计算；再利用S函数计算出每个词语在该短文本序列中出现的概率O_i；

所述S函数为：

O_i＝soft max(V_Si)；

8.根据权利要求1所述的一种基于深度语义路径搜索的短文本聚类方法，其特征在于：所述步骤6中，短文本间相似度的计算方法为：

步骤S802：将词语的实数向量与该词语出现的概率O_i记为PE；

9.根据权利要求1所述的一种基于深度语义路径搜索的短文本聚类方法，其特征在于：所述步骤7中，所述聚类的方法采用K均值聚类算法。