CN110879834A

CN110879834A - 一种基于循环卷积网络的观点检索系统及其观点检索方法

Info

Publication number: CN110879834A
Application number: CN201911180005.6A
Authority: CN
Inventors: 廖祥文; 张铭洲; 陈志豪; 苏锦河; 吴运兵
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-03-13
Anticipated expiration: 2039-11-27
Also published as: CN110879834B

Abstract

本发明涉及一种基于循环卷积网络的观点检索系统及其观点检索方法，数据预处理模块对文本数据进行预处理；查询语句与文档相关性得分计算模块将查询‑文档分别映射到低维的语义空间中获取词向量表示，输入循环神经网络学习文本上下文语义信息，计算出相关性得分；待查询文档的观点得分计算模块计算文档的观点得分；统一相关检索模块根据相关性得分以及文档观点得分进行计算，由高到低排序得到查询的观点检索结果；排序学习检索模块将相关性得分作为新的特征加入到常用的特征、文本概念化特征、网络表示特征和观点得分特征中，将这些特征融入到排序学习框架中进行分类，按照顺序输出文档。本发明能够更好的提高语义泛化程度观点检索模型的准确性。

Description

一种基于循环卷积网络的观点检索系统及其观点检索方法

技术领域

本发明涉及观点检索领域，特别是一种基于循环卷积网络的观点检索系统及其观点检索方法。

背景技术

观点检索旨在从社交媒体等文档集中找出带有观点的相关文档。随着Web2.0的蓬勃发展，观点检索作为自然语言处理和文本挖掘领域的前沿研究课题，在学术界和工业界得到了广泛的关注，观点检索模型的研究经历了早期的二阶段检索模型，到统一相关模型，再到基于排序学习的检索模型这三个阶段。下面将对这三个阶段作简要介绍。

二阶段检索模型首先通过检索出与给定查询语句相关的文档，接着识别出这些与给定查询语句相关文档的倾向性，最后综合相关性和倾向性对文档进行排序。该模型结构简单，容易理解，但是缺乏理论解释。该方法第一阶段通常采用语言模型、BM25等经典检索模型，而第二阶段，即文档的观点挖掘，为该方法的研究重点。

统一检索模型则借助当前信息检索和文本挖掘领域的最新模型，直接挖掘查询语句的倾向性，对文档进行排序。该方法相对于二阶段检索模型，更加容易理解、并且对于信息需求表达的更为明确。排序学习模型(Learning to Rank,L2R)，是利用特征提取和机器学习对推文进行倾向性检索。该方法的研究目前处于起步阶段，相比以上两个模型，往往能获得更好的检索效果，但需要进行大量的人工标注，因此这一方法的应用场景相对于前两种方法而言较为有限。

现有的工作大多数根据相关性建模，通常采用词语匹配的方式，然而查询语句与文档之间，仅共享少数的词语，所以相关性得分低。

发明内容

有鉴于此，本发明的目的是提供一种基于循环卷积网络的观点检索系统及其观点检索方法，能够高效地解析查询和文本的语义联系，检索出与用户查询相关并带有对查询观点的文档。

本发明采用以下方案实现：一种基于循环卷积网络的观点检索系统，包括数据预处理模块、查询语句与文档相关性得分计算模块、待查询文档的观点得分计算模块、统一相关检索模块和排序学习检索模块；

所述数据预处理模块用以对数据进行预处理；所述查询语句与文档相关性得分计算模块用以通过循环卷积网络得到各种长度下的N-gram表示，将结果输入核池层并使用排序学习方法，获得查询语句与文档的相关性；所述待查询文档的观点得分计算模块用以计算文档的观点得分；所述统一相关检索模块用以根据查询语句与文档相关性得分和文档观点得分得到一个文档的综合得分，文档综合得分从高到低排序，得到查询的观点检索结果并输出；所述排序学习检索模块用以将基于循环卷积网络计算出来的相关性得分作为新的特征加入到基于排序学习的推特信息常用的特征，以及在排序学习模型中性能最好的文本概念化特征、网络表示特征和观点得分特征中，并将这些特征融入到排序学习框架中进行分类，并按照顺序输出文档。

进一步地，所述推特信息常用的特征包括否有提及他人@、是否有超链接、作者的写作长度和发表篇数。

进一步地，本发明提供一种基于循环卷积网络的观点检索系统的观点检索方法，包括以下步骤：

步骤S1：所述数据预处理模块对数据进行预处理包括分词、去除停用词的操作；将查询语句与待查询的文档分别映射到低维的语义空间中获取词向量；

步骤S2：所述查询语句与文档相关性得分计算模块通过循环神经网络学习文本信息，使用学习排序模型计算出查询语句和文档的相关性得分；

步骤S3：所述待查询文档的观点得分计算模块分别根据观点词典、卷积神经网络和朴素贝叶斯分别计算待查询文档的三种观点得分；

步骤S4：将查询与文档的相关性得分分别与三种观点得分进行结合，得到最终观点检索的结果或文档输出顺序。

进一步地，步骤S4中所述得到最终观点检索的结果的具体内容为：所述统一相关检索模块将查询与文档的相关性得分分别与三种观点得分进行相乘，分别计算得到在某一查询下三种观点的各个文档的得分，根据文档的得分由高到低排序，并依次输出三种观点文档列表，得到最终观点检索的结果。

进一步地，步骤S4中所述得到文档输出顺序的具体内容为：排序学习检索模块将排序学习模型中性能最好的文本概念化特征、网络表示特征和三种观点得分特征加上基于循环卷积网络计算出来的相关性得分作为新的特征，融入排序学习框架进行分类，并按照顺序输出文档。

进一步地，所述步骤S1具体包括以下步骤：

步骤S11：去除文档中包括网页链接、特殊字符和标点符号；

步骤S12：根据中英文的停用词表分别过滤掉数据集中包含的停用词；

步骤S13：对数据进行词干还原处理。

进一步地，所述步骤S2具体包括以下步骤：

步骤S21：词嵌入层对经过预处理之后的文本数据用Glove模型将查询语句和文档分别映射到300维的向量，令查询语句或者文档中有m个单词，每个单词会被映射为一个向量

则会被表示为m*L的向量矩阵；所以Embedding Layer把查询与文档的单词转化成向量T_q和T_d:

步骤S22：循环层采用长短期记忆网络获取上下文的语义信息，将查询和文档分别转化为词向量后，通过LSTM框架进行全输出，获得新的向量表示：

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

i_t＝σ(w_i·[h_t-1，x_t+b_i])

O_t＝σ(W_o[h_t-1，x_t]+b_o)

h_t＝O_t*tanh(C_t)

T_i＝h_t

其中f为遗忘门，i为输入门，0为输出门，h_t-1为上一个单元的输出，x_t为本单元的输入，b为偏移变量；

步骤S23：卷积层调用一个宽卷积和一个窗口大小为h的卷积核来产生向量表示Embedding，用以提取局部特征，挖掘文本中的局部上下文特征表示：

其中relu为非线性激活函数，T_i：i+h为第i个单词到第i+h个单词的词向量，b为偏移向量；

步骤S24：匹配层从查询与文档中捕获不同大小的N-gram，用以计算查询文档之间的相似度得分，构建查询-文档的得分矩阵：

步骤S25：核池层产生Soft-TF特征，采用K高斯内核以核函数的形式捕捉特征之间的高阶信息，用以计算K个不同强度级别的单词或者N-gram对的软匹配；

步骤S26：排序学习层来训练多个的排序特征，获得最终的相关性特征：

进一步地，步骤S3中所述的三种计算带查询文档的观点得分的方法具体内容为：

所述根据观点词典计算带查询文档的观点得分具体为：采用基于Sentiwordnet对带查询文档中的词语进行观点得分计算，最后对每个词语的得分进行加权从而得到文档的观点得分；

所述根据朴素贝叶斯计算带查询文档的观点得分具体包括以下步骤:

步骤1:获取训练语料，对数据先进行去除特殊字符、标点符号、去除停用词和还原词干的预处理；

步骤2：利用语料中出现的单词作为词典，使用词频对文本进行向量化；

步骤3：采用朴素贝叶斯-支持向量机进行建模，并将该模型用来计算待查询文档的观点得分；

所述根据卷积神经网络计算带查询文档的观点得分具体内容为：首先，获取训练语料，对数据先进行去除特殊字符、标点符号、去除停用词和还原词干的预处理；

然后，使用Glove预训练模型对训练语料映射到低维的语义空间中获取词向量表示，令查询语句或者文档中有m个单词，每个单词会被映射为一个向量

则会被表示为m*L的向量矩阵；

最后，采用卷积神经网络(CNN)进行建模，并将该模型用来计算待查询文档的观点得分。

进一步地，所述得到最终观点检索的结果具体包括以下步骤：

步骤Sa：将步骤S2所述的查询语句与文档相关性得分计算模块对查询-文档进行相关性得分计算I_rel(d，q)；

步骤Sb：将步骤S3所述的待查询文档的观点得分计算模块，采用基于词典的观点挖掘方法，还使用基于统计机器学习(NBSVM)、深度学习(CNN)的倾向性挖掘方法，对带查询文档进行观点得分计算I_opn(d，q)；

步骤Sc：最终采用计算出来的相似度特征I_rel(d，q)分别与基于词典模型、机器学习(NBSVM)和深度学习(CNN)计算出来的观点特征I_opn(d，q)进行赋权，得到最终的观点检索评分公式为：Rank(d)＝p(d|q，T)＝ScoreI_opn(d，q，T)·ScoreI_rel(d，q)。

进一步地，所述按照顺序输出文档具体包括包括以下步骤：

步骤SA：排序学习模型首先将排序问题转换为Pairwise的分类问题，使用LinearSVM分类模型进行学习并求解；

步骤SB：对于每个查询-文档对，使用特征向量进行表示，将各个特征作为训练，通过f(x)的值来决定哪一个文档排在前面，采用假设线性函数f(x)＝<w，x>转化为以下形式：

步骤SC：当排序问题转化为分类问题后，接着采用分类模型来进行学习，通过使用Linear SVM进行学习，根据查询-文档的特征，获得最终的观点检索得分。

与现有技术相比，本发明具有以下有益效果：

本发明能够高效地解析查询和文本的语义联系，检索出与用户查询相关并带有对查询观点的文档，更好的提高语义泛化程度观点检索模型的准确性。

附图说明

图1为本发明实施例的流程图。

图2为本发明实施例的学习排序模型结构图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供一种基于循环卷积网络的观点检索系统，包括数据预处理模块、查询语句与文档相关性得分计算模块、待查询文档的观点得分计算模块、统一相关检索模块和排序学习检索模块；

在本实施例中，推特信息指的是推特中文本内容包含的一些隐藏信息，如推特文本长度等，所述推特信息常用的特征包括否有提及他人@、是否有超链接、作者的写作长度和发表篇数等特征，这些特征对于判断一篇文章的倾向性起积极的效果。

较佳的，本实施例还提供一种基于循环卷积网络的观点检索系统的观点检索方法，包括以下步骤：

步骤S3：所述待查询文档的观点得分计算模块分别根据观点字典、卷积神经网络和朴素贝叶斯分别计算待查询文档的三种观点得分；

在本实施例中，步骤S4中所述得到最终观点检索的结果的具体内容为：所述统一相关检索模块将查询与文档的相关性得分分别与三种观点得分进行相乘，分别计算得到在某一查询下三种观点的各个文档的得分，根据文档的得分由高到低排序，并依次输出三种观点文档列表，得到最终观点检索的结果。

在本实施例中，步骤S4中所述得到文档输出顺序的具体内容为：排序学习检索模块利用机器学习的思想来解决排序问题，将排序学习模型中性能最好的文本概念化特征、网络表示特征和三种观点得分特征加上基于循环卷积网络计算出来的相关性得分作为新的特征，融入排序学习框架进行分类，并按照顺序输出文档。

在本实施例中，数据预处理模块：首先，描述数据预处理模块如何进行数据的预处理。社交媒体文档中包含了丰富的信息但同时也夹杂了一定的噪声，因此对数据集进行预处理，主要进行以下几个方面的操作即所述步骤S1具体包括以下步骤：

步骤S11：去除文档中包括网页链接、特殊字符和标点符号；

步骤S13：对数据进行词干还原处理。

在本实施例中，查询语句与文档的相关性得分计算模块：接着，介绍查询语句与文档的相关性得分计算模块如何通过循环神经网络学习文本信息，计算查询语句和文档的相关性得分。该模块的目的是将查询语句与文档映射到低维语义空间中，提高词汇之间的语义泛化能力。最后使用学习排序模型计算出查询语句与文档的相关性得分计算，具体模型结构如下：

所述步骤S2具体包括以下步骤：

步骤S21：因为神经网络的输入数据一般是向量，以便模型的端到端训练，因此需要对文本数据进行向量化表示。因此词嵌入层对经过预处理之后的文本数据(查询和文档)用Glove模型将查询语句和文档分别映射到300维的向量，令查询语句或者文档中有m个单词，每个单词会被映射为一个向量

则会被表示为m*L的向量矩阵；所以EmbeddingLayer把查询与文档的单词转化成向量T_q和T_d:

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

i_t＝σ(w_i·[h_t-1，x_t+b_i])

O_t＝σ(W_o[h_t-1，x_t]+b_o)

h_t＝O_t*tanh(C_t)

T_i＝h_t

步骤S23：卷积层(Convolutional Layer)调用一个宽卷积和一个窗口大小为h的卷积核来产生向量表示Embedding，用以提取局部特征，挖掘文本中的局部上下文特征表示：

步骤S24：匹配层(Cross-Match Layer)从查询与文档中捕获不同大小的N-gram，用以计算查询文档之间的相似度得分，构建查询-文档的得分矩阵：

步骤S25：核池层(Kernel pooling Layer)产生Soft-TF特征，采用K高斯内核以核函数的形式捕捉特征之间的高阶信息，用以计算K个不同强度级别的单词或者N-gram对的软匹配；

步骤S26：排序学习层(Learning-to-rank Layer)来训练多个的排序特征，获得最终的相关性特征:

具体模型结构如图2所示。

在本实施例中，所述步骤S3具体包括以下步骤：

步骤S3中所述的三种计算带查询文档的观点得分的方法具体内容为：

步骤1:获取训练语料(采用公开的康奈尔大学影评数据集作为训练语料)，对数据进行去除特殊字符、标点符号、去除停用词和还原词干预处理；

步骤3：采用朴素贝叶斯-支持向量机(NBSVM)进行建模，并将该模型用来计算待查询文档的观点得分；

所述根据卷积神经网络计算带查询文档的观点得分具体内容为：首先，获取训练语料(采用公开的康奈尔大学影评数据集作为训练语料)，对数据进行去除特殊字符、标点符号、去除停用词和还原词干的预处理；

则会被表示为m*L的向量矩阵；

在本实施例中，所述得到最终观点检索的结果具体包括以下步骤：

在本实施例中，所述按照顺序输出文档具体包括包括以下步骤：

排序学习模型通过使用机器学习的思想来解决排序问题，针对给定查询文档集合进行排序，模型中所用到的特征不仅包含文档本身的一些特征，也包含查询语句和文档之间的相关性特征。

步骤SB：对于每个查询-文档对，使用特征向量进行表示，将各个特征作为训练，通过f(x)的值来决定哪一个文档排在前面,采用假设线性函数f(x)＝<w，x>转化为以下形式：

观点得分计算模块：接着，描述观点得分计算模块如何计算文档的观点得分。本发明在计算文档的观点得分不仅基于字典根据观点词典，还包括了基于统计机器学习方法的朴素贝叶斯和深度学习的卷积神经网络分别计算待查询文档的三种观点得分

排序输出模块：最后，描述排序输出模块。排序输出模块分为统一相关检索模块和排序学习检索模块。统一相关检索模块需要将查询与文档的相关性得分与观点得分进行结合，计算得到在某一查询下的各个文档的得分，根据文档的得分由高到低排序，并依次输出文档列表，得到最终观点检索的结果。排序学习检索模块利用机器学习的思想来解决排序问题，将排序学习模型中性能最好的文本概念化特征、网络表示特征和观点得分特征，再此基础上加上了基于循环卷积网络计算出来的相关性得分作为新的特征，融入排序学习框架进行分类，并按照顺序输出文档。

较佳的，在本实施例中，对经过预处理之后的数据使用开源的Glove模型将查询语句和文档映射到低维的语义空间，获取词向量。较佳的，在本实施例中，在查询语句与文档相关得分计算模块使用了循环卷积网络学习文本信息，包括了循环层、卷积层、匹配层、核池层以及排序学习层，不同于其他的相关性得分计算方法。所述的循环层用来更好的获取上下文的语义信息；卷积层能够提取局部特征，挖掘文本中的局部上下文特征表示，所述的匹配层用来计算查询文档之间的相似度得分，构建查询-文档的得分矩阵；核池层产生Soft-TF特征，采用K高斯内核以核函数的形式捕捉特征之间的高阶信息。排序学习层用来训练多个排序特征，获得最终的相关性特征。

较佳的，在本实施例中，排序学习检索模块所选取的特征是基于排序学习的推特信息常用的特征，以及目前在排序学习模型中性能最好的文本概念化特征、网络表示特征和观点得分特征，并在此的基础上加入了基于循环卷积网络计算出来的相关性得分作为新的特征。将这些特征融入到现有的排序学习框架中进行分类，并按照顺序输出文档。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于循环卷积网络的观点检索系统，其特征在于：包括数据预处理模块、查询语句与文档相关性得分计算模块、待查询文档的观点得分计算模块、统一相关检索模块和排序学习检索模块；

2.根据权利要求1所述的一种基于循环卷积网络的观点检索系统，其特征在于：所述推特信息常用的特征包括否有提及他人@、是否有超链接、作者的写作长度和发表篇数。

3.一种根据权利要求1-2任一项所述的基于循环卷积网络的观点检索系统的观点检索方法，其特征在于：包括以下步骤：

4.根据权利要求3所述的一种基于循环卷积网络的观点检索系统的观点检索方法，其特征在于：步骤S4中所述得到最终观点检索的结果的具体内容为：所述统一相关检索模块将查询与文档的相关性得分分别与三种观点得分进行相乘，分别计算得到在某一查询下三种观点的各个文档的得分，根据文档的得分由高到低排序，并依次输出三种观点文档列表，得到最终观点检索的结果。

5.根据权利要求3所述的一种基于循环卷积网络的观点检索系统的观点检索方法，其特征在于：步骤S4中所述得到文档输出顺序的具体内容为：排序学习检索模块将排序学习模型中性能最好的文本概念化特征、网络表示特征和三种观点得分特征加上基于循环卷积网络计算出来的相关性得分作为新的特征，融入排序学习框架进行分类，并按照顺序输出文档。

6.根据权利要求3所述的一种基于循环卷积网络的观点检索系统的观点检索方法，其特征在于：所述步骤S1具体包括以下步骤：

步骤S11：去除文档中包括网页链接、特殊字符和标点符号；

步骤S13：对数据进行词干还原处理。

7.根据权利要求3所述的一种基于循环卷积网络的观点检索系统的观点检索方法，其特征在于：所述步骤S2具体包括以下步骤：