CN109697257A

CN109697257A - 一种基于预分类和特征学习抗噪的网络信息检索方法

Info

Publication number: CN109697257A
Application number: CN201811548333.2A
Authority: CN
Inventors: 潘颋璇; 王斌
Original assignee: Tiangu Network (beijing) Safety Technology Co Ltd
Current assignee: Tiangu Network (beijing) Safety Technology Co Ltd
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2019-04-30

Abstract

本发明一种基于预分类和特征学习抗噪的网络信息检索方法，可用于包括文本和图像信息的网络信息快速检索。首先使用深度学习训练网络，选用VGG16的16层深度神经网络，用整流线性单元作为激活函数，在每个完全连接层后添加一个压差层。最后一个完全连接的层具有的节点数为N级，使用softmax函数作为其分类函数。网络训练好后，数据集通过训练网络以前向传播的方式提取特征，用softmax从最后一层获得预分类结果，数据预分类结果提供反馈信息，即属于同一类别网络数据的特征应存储在一起。对新来的查询数据，使用余弦距离度量查询信息与查询中属于同一类别的信息之间的相似度。本发明具有检索效率高，抗噪性能强的优势。

Description

一种基于预分类和特征学习抗噪的网络信息检索方法

技术领域

本发明涉及一种基于预分类和特征学习抗噪的网络信息检索方法，可广泛应用于网络图像查找、文本比对和网络公共安全等领域。属于机器学习、信息处理领域。

背景技术

随着近些年来互联网技术和云技术的飞速发展，网络信息以爆炸式的方式快速增长，如何从这些海量数据中快速有效地检索到用户所关注的网络信息，成为近些年来国内外研究者的热门研究方向。网络信息检索技术，可被广泛应用于医学信息检索、搜索引擎、网络安全监控等与民生息息相关的领域。

目前有很多用于网络信息检索的方法，经过对现有文献调研，可将包括文本和图像在内的网络信息检索方法分为两类：一类是基于文字的网络信息检索，该类方法中用户输入需查询的关键词，系统将关键词与数据库中描述网络信息的文字进行匹配，返回匹配度高的文本或者图片。另一类是基于内容的网络信息检索，该类方法中网络信息内容的描述不再依赖于文字标注，而是自动提取信息的中高层语义特征；检索的匹配方式也不再是关键词之间的匹配，而是文本语义内容或者图像语义内容之间的相似度计算，成为目前研究者最青睐的研究方向。

传统的基于内容的网络信息检索方法，如B Bassett和NA Kraft于2013年发表在《IEEE International Conference on Program Comprehension(电气和电子工程师协会国际会议)》中的论文“Structural information based term weighting in textretrieval for feature location”，针对文本检索中项的权重计算源自自然语言环境，旨在用于非结构化文档，因此可能不适合与源代码一起使用，提出了一种新的项加权方法，使用源代码中的结构信息分配项的权重，完成特征定位。此外，AKJA Vailaya于1996年发表在《Pattern Recognition(模式识别)》中的论文“Image Retrieval using Color andShape”，选用纹理和颜色等特征作为图像的特征表示，该方法依赖于可以挖掘视觉线索的图像特征，如颜色和形状。与常规方法不同，该方法不提取单一特征，而是将颜色特征和形状特征结合起来作为图像的特征描述。尽管基于内容的网络信息检索方法已经取得了较大的成果，但是这些方法在提取网络信息的特征时，都没有考虑数据的分布信息，这些信息往往表征了网络数据的中高层语义含义，对于网络信息检索非常重要。

发明内容

本发明的目的在于针对现有方法的不足，提出一种基于预分类和特征学习抗噪的网络信息检索方法，本发明的特征从数据(包括文本和图像类网络数据)中学习得出。

本发明一种基于预分类和特征学习抗噪的网络信息检索方法，通过下述技术方案来实现，具体步骤如下：

步骤一、采用深度学习训练网络；

深度学习模型一般由卷积层和全连接层组成，其中最后的完整连接层是softmax分类器。卷积神经网络体系结构的形式对于要实现的功能很重要。本发明使用名为VGG16的16层深度神经网络，它在多种任务上具有良好的分类性能。

如果卷积神经网络包含大量参数，则从头开始训练模型可能导致过拟合。本发明使用转移学习来微调预先训练的网络。在本发明的方法中，卷积图层中的权重是固定的，完全连接的图层会被重新训练以输出数据图像的类别。传输模型的前两个完全连接层有512个节点。为了避免拟合，本发明使用整流线性单元(ReLU)作为激活函数，并在每个完全连接层后添加一个压差层。最后一个完全连接的层具有的节点数为N级，并使用softmax函数作为其分类函数。本发明将上述学习任务作为一个多分类问题进行训练，其中最后一层的输出可以被解释为分类概率的估计。所以这个阶段的损失定义为：

其中,w和b是网络参数，n是训练样本的索引，N是训练样本数,y_n是标签,x_n是网络输出结果。

反向梯度损失函数可定义为

利用梯度下降算法根据公式(2)计算w和b，并得到公式(1)损失函数的最优解。

对于一个新的查询网络信息x_j，它属于类别C的概率(Prob)为：

[Prob，C]＝max(W^Tx_j+b) (3)

其中，W和b是网络参数。

步骤二、特征学习和预分类

按照步骤一进行网络训练后，数据集通过训练网络以前向传播的方式提取特征，本发明获得了Fc2层(卷积神经网络其中一层)每个网络信息的特征向量，并使用softmax从最后一层获得预分类结果。之后，数据预分类的结果提供反馈信息，即属于同一类别的网络数据的特征应该存储在一起。对于新来的查询数据，本发明使用余弦距离来度量查询信息与查询中属于同一类别的信息之间的相似度。整个过程将分为离线处理阶段和在线处理阶段两个部分：

S1、离线处理阶段算法流程为：

输入:网络信息数据集

输出：数据集相对应的分类

过程：S11：对数据预处理，使用中值滤波技术去除噪声。

S12：通过卷积神经网络提取数据的特征，本发明采用的卷积神经网络为VGG16，参数权重为其在Wikipedia Links data和ImageNet上训练好的数值，其中，Wikipedia Linksdata用于文本信息检索，具体参数包括：动量为0.9，学习率为0.02，重量衰减为4*10^-5；ImageNet用于图像信息检索，具体参数包括：动量为0.9，学习率为0.01，重量衰减为5*10^-5。卷积神经网络每一层都可表示不同的特征图，实验证明全连接层中间特征效果最好，因此本发明提取全连接层Fc2特征。

S13：数据通过卷积神经网络后送入softmax分类器，对网络信息数据集进行分类，并将分类结果反馈到特征库中。

S14：按类别反馈对步骤S13提取的数据库特征按类别进行存储。

S2、在线处理阶段算法流程为：

输入:查询网络信息

输出：与查询信息相似的N条信息

过程：S21：对查询网络数据信息预处理，使用中值滤波技术去除噪声。

S22：通过卷积神经网络提取查询数据的特征，和离线处理阶段一样，提取全连接层Fc2特征。

S23：将查询信息送入softmax分类器进行预分类，返回分类结果。

S24：根据步骤S23查询信息的分类反馈，进行相似度量。具体为：寻找在数据集中的同一类别的特征库，计算该类别下网络数据集与查询信息的相似度，本发明选择3种相似度度量方式，设D_e(x,y)为两条网络查询信息的欧氏距离相似度，D_c(x,y)为两条查询信息的切比雪夫距离相似度,cos(θ)为两条查询信息的余弦距离相似度，x_i和y_i分别表示两条查询信息的特征向量，其相似度度量公式如下所示：

S25：根据步骤S24的计算结果，按相似度排序输出最相似的前N条信息。

本发明的优点和功效在于：

(1)将信息检索的框架分为离线特征学习和在线网络信息检索两个阶段，可以满足实时检索的需求。

(2)通过卷积神经网络从网络数据中学习出信息的特征，因此，提取的特征包含网络信息的中高层语义含义，具有较好的抗噪声能力。

(3)提出一种深度学习预分类与网络信息检索相融合的方法，通过softmax分类器对数据预分类，并将预分类结果反馈给特征集合。该方法可同时提高检索精度和检索效率。

附图说明

图1为基于预分类和特征学习的网络信息检索方法流程图。

表1为实施例图像库的图像检索准确率。

具体实施方式

以下结合具体实施例和附图对本发明的技术方案做更详细的阐述，操作的流程图如图1所示。以下实施例以本发明技术方案为前提下进行实施，给出了详细的实施方式和过程，但本发明的保护范围不限于实施例中的图像信息检索，也可用于文本信息检索。当用于文本检索时，文本数据经过清洗、分词等预处理之后，对词进行embedding形成低维稠密的词向量，作为深度神经网络模型的输入。

本发明的具体实施例：The Pet Dataset图像数据库。这是一个37类宠物数据集，每个类有200个图像。图像在比例、姿势和照明方面有很大的变化。本发明在该实施例上使用的评价指标是平均精度(MAP)。

下面结合附图对本发明的实施方式做更具体的说明，详述如下(使用Python编程实现)：

(1)采用深度学习训练网络；

本发明使用名为VGG16的16层深度神经网络，它在ImageNet(国际通用图像数据库)上具有良好的分类性能。在这个模型中，图像的尺寸需要调整到224*224大小。

本实施例使用转移学习来微调预先训练的网络，卷积图层中的权重是固定的，完全连接的图层会被重新训练以输出数据图像的类别。传输模型的前两个完全连接层有512个节点。为了避免拟合，使用整流线性单元(ReLU)作为激活函数，并在每个完全连接的层后添加一个压差层。最后一个完全连接的层具有N级节点，并使用softmax函数作为其分类函数。将这个转移学习任务作为一个多分类问题进行训练，其中最后一层的输出可以被解释为分类概率的估计。

该阶段的损失函数定义为：

反向梯度损失函数可定义为：

对于一个新的查询图像x_j，它属于类别C的概率(Prob)为：

[Prob，C]＝max(W^Tx_j+b) (3)

(2)特征学习和数据预分类

网络训练后，数据集中的图像通过训练网络以前向传播的方式提取特征，可获取Fc2层每个图像的512维特征向量，并使用softmax从最后一层获得预分类结果。之后，图像预分类的结果提供反馈信息，即属于同一类别的图像的特征应该被一起存储。对于新来的查询图像，使用余弦距离来度量查询图像与查询中属于同一类别的图像之间的相似度。整个过程将分为离线处理阶段和在线处理阶段。

离线处理的过程包括：

第一步，对数据库中图像预处理，使用中值滤波技术去除噪声，并将图像大小正规化到224*224的大小；第二步，图像通过卷积神经网络提取特征，本发明选用的卷积神经网络为VGG16，卷积神经网络每一层都可表示不同的特征图，通过实验证明全连接层中间特征效果最好，因此本发明提取全连接层Fc2特征；第三步，图像通过卷积神经网络后送入softmax分类器，对数据库中图像进行分类，并将分类反馈到特征库中；第四步，按类别反馈对第三步提取的数据库图像特征按类别存储。

在线处理的过程包括：

第一步，对查询图像预处理，使用中值滤波技术去除噪声，并将图像大小正规化到224*224的大小，并提取VGG16全连接层Fc2特征作为测试图像的特征；第二步，将查询图像送入softmax分类器进行预分类，返回分类结果；第三步，根据查询图像的分类反馈，寻找其在图像集中的同一类别的特征库，计算该类别下图像集与查询图像的相似度，此处选择D_c(x,y)为两幅图像的切比雪夫距离相似度；第四步，根据第三步的计算结果，按相似度排序输出最相似的前N张图像。

本实施例验证了所提出方法的有效性，并将其与其他检索方法进行了比较。首先，按照标准惯例对分类进行微调，并将所有图像的大小调整为224*224*3像素。VGG16模型用随机梯度下降(SGD)训练，动量为0.9，学习率为0.01，体重衰减为5*10^-5。下表1显示了本发明方法与其他方法检索性能时的比较，使用前N张返回图像中正确图像的平均数量来衡量检索的准确性。如表1所示，DLPC方法(本发明方法)取得了最好的结果。

表1

在本发明中，所有的验证都是在CPU环境中实现的。就检索时间而言，在仅考虑相似性度量的情况下，本发明的方法在Pet数据集中预分类比未分类时间少7％。

Claims

1.一种基于预分类和特征学习抗噪的网络信息检索方法，其特征在于：该方法具体步骤如下：

步骤一、采用深度学习训练网络；

采用名为VGG16的16层深度神经网络，并使用转移学习来微调预先训练的网络；其中，卷积图层中的权重是固定的，完全连接的图层会被重新训练以输出数据图像的类别；传输模型的前两个完全连接层有512个节点；为避免拟合，使用整流线性单元ReLU作为激活函数，并在每个完全连接层后添加一个压差层；最后一个完全连接的层具有的节点数为N级，并使用softmax函数作为其分类函数；将上述学习任务作为一个多分类问题进行训练，其中最后一层的输出可以被解释为分类概率的估计；所以这个阶段的损失定义为：

其中,W和b是网络参数，n是训练样本的索引，N是训练样本数,y_n是标签,x_n是网络输出结果；

反向梯度损失函数可定义为

利用梯度下降算法根据公式(2)计算w和b，并得到公式(1)损失函数的最优解；

对于一个新的查询网络信息x_j，它属于类别C的概率(Prob)为：

[Prob，C]＝max(W^Tx_j+b) (3)

其中，W和b是网络参数；

步骤二、特征学习和预分类

按照步骤一进行网络训练后，数据集通过训练网络以前向传播的方式提取特征，获得了Fc2层每个网络信息的特征向量，并使用softmax从最后一层获得预分类结果；之后，数据预分类的结果提供反馈信息，即属于同一类别的网络数据的特征应该存储在一起；对于新来的查询数据，使用余弦距离来度量查询信息与查询中属于同一类别的信息之间的相似度；整个过程将分为离线处理阶段和在线处理阶段两个部分。

2.根据权利要求1所述的一种基于预分类和特征学习抗噪的网络信息检索方法，其特征在于：所述离线处理阶段流程为：

输入:网络信息数据集

输出：数据集相对应的分类

过程：S11：对数据预处理，使用中值滤波技术去除噪声；

S12：通过卷积神经网络提取数据的特征，采用的卷积神经网络为VGG16，参数权重为其在Wikipedia Links data和ImageNet上训练好的数值；卷积神经网络每一层都可表示不同的特征图，实验证明全连接层中间特征效果最好，因此提取全连接层Fc2特征；

S13：数据通过卷积神经网络后送入softmax分类器，对网络信息数据集进行分类，并将分类结果反馈到特征库中；

3.根据权利要求2所述的一种基于预分类和特征学习抗噪的网络信息检索方法，其特征在于：所述的Wikipedia Links data用于文本信息检索，具体参数包括：动量为0.9，学习率为0.02，重量衰减为4*10^-5；所述的ImageNet用于图像信息检索，具体参数包括：动量为0.9，学习率为0.01，重量衰减为5*10^-5。

4.根据权利要求1所述的一种基于预分类和特征学习抗噪的网络信息检索方法，其特征在于：所述的在线处理阶段流程为：

输入:查询网络信息

输出：与查询信息相似的N条信息

过程：S21：对查询网络数据信息预处理，使用中值滤波技术去除噪声；

S22：通过卷积神经网络提取查询数据的特征，和离线处理阶段一样，提取全连接层Fc2特征；

S23：将查询信息送入softmax分类器进行预分类，返回分类结果；

S24：根据步骤S23查询信息的分类反馈，进行相似度量；

5.根据权利要求4所述的一种基于预分类和特征学习抗噪的网络信息检索方法，其特征在于：所述步骤S24具体为：寻找在数据集中的同一类别的特征库，计算该类别下网络数据集与查询信息的相似度，选择3种相似度度量方式，设D_e(x,y)为两条网络查询信息的欧氏距离相似度，D_c(x,y)为两条查询信息的切比雪夫距离相似度,cos(θ)为两条查询信息的余弦距离相似度，x_i和y_i分别表示两条查询信息的特征向量，其相似度度量公式如下所示：