CN108363724B

CN108363724B - 一种利用图像正则化及数据重建解决特征提取任务的方法

Info

Publication number: CN108363724B
Application number: CN201810008875.4A
Authority: CN
Inventors: 赵洲; 孟令涛; 高天祥; 何晓飞; 蔡登�; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-01-04
Filing date: 2018-01-04
Publication date: 2021-12-10
Anticipated expiration: 2038-01-04
Also published as: CN108363724A

Abstract

本发明公开了一种利用图像正则化及数据重建解决特征提取任务的方法。主要包括如下步骤：1)针对于一组数据点，构建其权重矩阵及对应的拉普拉斯矩阵。2)随机初始化特征提取矩阵与重建系数矩阵，迭代更新特征提取矩阵与重建系数矩阵，得到最终收敛的特征提取矩阵作为特征提取的依据。相比于一般的项目推荐解决方案，本发明使用了图像正则化与数据重建相结合的方法，则能够提取出更有效的数据特征。本发明在数据特征提取问题中所取得的效果相比于传统的方法更好。

Description

一种利用图像正则化及数据重建解决特征提取任务的方法

技术领域

本发明涉及社区问答任务，尤其涉及一种利用图像正则化及数据重建解决特征提取任务的方法。

背景技术

在类似与数据挖掘与信息检索等任务方面，数据维度的降低是一个非常重要的任务，降低数据的维度对于降低处理数据的时间及空间消耗有着十分重要的意义，同时可以防止使用该数据时出现过拟合现象。对于数据维度的降低通常涉及数据特征提取方面的问题，对于特征提取目前有监督式的特征提取与非监督式的特征提取两种方法，其中监督式的特征提取方法需要数据拥有标签信息，但是目前带有标签信息的数据量很少，所以本发明将采用非监督式的特征提取方法。

本发明将利用带有图像正则化的数据重建方法来进行非监督的特征提取，本发明的目标是挑选出能够最佳地保存数据原始分辨性内容信息及原始数据结构信息的特征。为了完成此目标，本发明将结合数据重建方面的目标函数及图像规则化方面的目标函数，来进行相关特征的选取与相关重建系数矩阵的选取。本发明首先固定重建系数矩阵，来求取特征提取矩阵，之后固定特征提取矩阵，来求取重建系数矩阵，经过迭代循环直至特征提取矩阵收敛之后，返回特征提取矩阵作为原始数据提取特征值的指示矩阵。

发明内容

本发明的目的在于解决现有技术中的问题，为了克服现有技术中监督式特征提取需要大量带有标签数据的问题，及现有非监督式特征提取仅仅关注到保存数据特征性信息，而没有关注到保存数据结构信息的问题，本发明提供一种利用图像正则化及数据重建解决特征提取任务的方法。本发明所采用的具体技术方案是：

利用图像正则化及数据重建解决特征提取任务的方法，包含如下步骤：

1、针对于一组数据点，构建其权重矩阵及对应的拉普拉斯矩阵。

2、随机初始化重建系数矩阵与特征提取矩阵，之后进行迭代，在每次迭代过程中，先固定重建系数矩阵，来更新特征提取矩阵，再固定特征提取矩阵，更新重建系数矩阵。循环迭代更新至特征提取矩阵收敛之后，返回最终的特征提取矩阵。

3、按照特征提取矩阵来对于原始数据点进行特征提取。

上述步骤可具体采用如下实现方式：

1、针对于一组数据点构成的数据点矩阵X＝(x₁,...,x_m)，其中m为数据点的个数，任意一点的表达x_i∈Rⁿ，为一个n维向量；针对于这组数据点，其原始特征矩阵F＝(f₁,...,f_n)＝X^T，F为数据点矩阵X的转置矩阵。针对于此组数据点中的每一个点x_i，找到其距离最近的一个点x_j，并在x_i与x_j之间建立连线，按照此方法构建描述数据点之间关系的图。对于图中的点，构建权重矩阵W∈R^m*m，其中若x_i与x_j两点之间存在连线，则w_ij＝1，否则w_ij＝0。构建对角矩阵 D∈R^m*m，其中，D_ii＝∑_jW_ij。构建拉普拉斯矩阵L＝D-W。

2、随机初始化重建系数矩阵A₀∈R^n*n，特征提取矩阵Λ₀∈R^n*n，初始化

激活空集合S，其中向量θ中第p个维度的取值θ_p∈{-1,0,1}代表向量λ中第p个维度的取值λ_p的符号。

3、寻找

其中

Y_pp∈Y＝XLX^T

β为提前定义好的关于数据重建项与图像正则化项之间的权衡参数，L与 X为步骤1中确定的矩阵，a_pk∈A，a_ik∈A，A为本步骤随机初始化得到的矩阵A₀。若

则令θ_p＝-1，S＝S∪{λ_p}；若

则令θ_p＝1，S＝S∪{λ_p}。对于其余求得的

情况，则不对于λ_p进行更新。

4、得到θ_p之后，按照如下公式更新特征提取矩阵Λ：

其中，m和n与步骤1中的m和n相同，α为关于数据重建项与第一范式项之间的平衡参数。则令

按照如下公式得到λ_p的更新值：

在λ与更新后的λ^new之间进行离散线搜索：检查λ^new处的目标值及所有符号改变的点，将λ更新为有最低目标值的点。从S中移除没有对应参数的λ并更新θ＝sign(λ)。

5、检查是否满足

如果不满足则重新执行步骤4，如果满足则检查是否满足

如果不满足则重新执行步骤3与步骤4，如果满足则返回特征提取矩阵Λ。

6、针对于更新后的特征提取矩阵Λ与数据点矩阵X，按照如下公式更新重建系数矩阵A：

A＝XX^TΛ(ΛXX^TΛ)^-1

7、循环执行步骤3、步骤4、步骤5、步骤6，依次迭代更新特征提取矩阵Λ与重建系数矩阵A，直至第k次更新后的特征提取矩阵Λ_k与第k次更新前的特征提取矩阵Λ_k-1满足||Λ_k-Λ_k-1||_F＜ε，其中ε为提前定义好的参数。返回特征提取矩阵Λ_k作为最终的特征提取矩阵。

8、则可根据特征提取矩阵Λ_k来选择所要选择的特征。

附图说明

图1是本发明使用的利用图像正则化及数据重建来进行特征提取的整体框架示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明一种利用图像正则化及数据重建解决特征提取任务的方法包括如下步骤：

1)针对于一组数据点，构建其权重矩阵及对应的拉普拉斯矩阵；

2)随机初始化重建系数矩阵与特征提取矩阵，之后进行迭代，在每次迭代过程中，先固定重建系数矩阵，来更新特征提取矩阵，再固定特征提取矩阵，更新重建系数矩阵。循环迭代更新至特征提取矩阵收敛之后，返回最终的特征提取矩阵；

3)利用步骤2)学习得到的特征提取矩阵来对于原始数据点进行特征提取。

所述的步骤1),其具体步骤为:

针对于一组数据点构成的数据点矩阵X＝(x₁,...,x_m)，其中m为数据点的个数，任意一点的表达x_i∈Rⁿ，为一个n维向量；针对于这组数据点，其原始特征矩阵F＝(f₁,...,f_n)＝X^T，F为数据点矩阵X的转置矩阵；针对于此组数据点中的每一个点x_i，找到其距离最近的一个点x_j，并在x_i与x_j之间建立连线，按照此方法构建描述数据点之间关系的图；对于图中的点，构建权重矩阵W∈R^m*m，其中若x_i与x_j两点之间存在连线，则w_ij＝1，否则w_ij＝0；构建对角矩阵D∈R^m*m，其中，D_ii＝∑_jW_ij。构建拉普拉斯矩阵L＝D-W。

所述的步骤2),其具体步骤为:

2.1)随机初始化重建系数矩阵A₀∈R^n*n，特征提取矩阵Λ₀∈R^n*n，初始化

激活空集合S，其中向量θ中第p个维度的取值θ_p∈{-1,0,1}代表向量λ中第p个维度的取值λ_p的符号；

2.2)循环迭代，首先固定重建系数矩阵，更新特征提取矩阵；

2.3)固定特征提取矩阵，更新重建系数矩阵；

2.4)循环更新特征提取矩阵与重建系数矩阵直至特征提取矩阵收敛。

步骤2.2)具体步骤为：

2.2.1)寻找

其中

Y_pp∈Y＝XLX^T

β为提前定义好的关于数据重建项与图像正则化项之间的权衡参数，L与X为步骤1)中确定的矩阵，a_pk∈A，a_ik∈A，A为本步骤随机初始化得到的矩阵A₀；若

则令θ_p＝-1，S＝S∪{λ_p}；若

则令θ_p＝1， S＝S∪{λ_p}；对于其余求得的

情况，则不对于λ_p进行更新；

2.2.2)得到θ_p之后，按照如下公式更新特征提取矩阵Λ：

按照如下公式得到λ_p的更新值：

在λ与更新后的λ^new之间进行离散线搜索：检查λ^new处的目标值及所有符号改变的点，将λ更新为有最低目标值的点。从S中移除没有对应参数的λ并更新θ＝sign(λ)；

2.2.3)检查是否满足

如果不满足则重新执行步骤2.2.2)，如果满足则检查是否满足

如果不满足则重新执行步骤2.2.1)与步骤2.2.2)，如果满足则返回特征提取矩阵Λ。

步骤2.3)具体为：

针对于更新后的特征提取矩阵Λ与数据点矩阵X，按照如下公式更新重建系数矩阵A：

A＝XX^TΛ(ΛXX^TΛ)^-1

步骤2.4)具体为：

循环执行步骤2.2)、步骤2.3)，依次迭代更新特征提取矩阵Λ与重建系数矩阵A，直至第k次更新后的特征提取矩阵Λ_k与第k次更新前的特征提取矩阵Λ_k-1满足||Λ_k-Λ_k-1||_F＜ε，其中ε为提前定义好的参数。返回特征提取矩阵Λ_k作为最终的特征提取矩阵；

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

本发明在TDT2语料库数据集及Reuters语料库数据集上面构建实验数据进行实验。所使用的TDT2语料库数据集中共包括10021个文件数据，每个文件数据从属于1个类别；Reuters语料库数据集中共包括8213个文件数据，每个文件数据从属于1个类别。在这两份数据集中，均去除停用词，每个文件用tfidf向量表示。本发明将文件中的每个单词都根据它们的tfidf分数进行排序，每个文件选择分数最大的1000个词作为该文件的特征。

为了客观地评价本发明的算法的性能，本发明在所选出的测试集中，使用聚类的方法进行评测，并使用了Accuracy，NMI这两种评价标准来对于本发明的效果进行评价，且分别针对将数据集中的文件分成5、7、9个种类的标准进行实验求解。按照具体实施方式中描述的步骤，所得的将TDT2语料库数据集分成5 个类的实验结果如表1所示，将TDT2语料库数据集分成7个类的实验结果如表 2所示，将TDT2语料库数据集分成9个类的实验结果如表3所示，将Reuters 语料库数据集分成5个类的实验结果如表4所示，将Reuters语料库数据集分成 7个类的实验结果如表5所示，将Reuters语料库数据集分成9个类的实验结果如表6所示，本方法表示为GRFS。表1至表6的结果表明，本方法在特征提取任务上所取的效果优于目前的其他方法，可以令提取后的特征更为准确地反映原始数据的原始分辨性内容信息及结构信息：

表1本发明针对于将TDT2语料库数据集分成5个类的实验结果

表2本发明针对于将TDT2语料库数据集分成7个类的实验结果

表3本发明针对于将TDT2语料库数据集分成9个类的实验结果

表4本发明针对于将Reuters语料库数据集分成5个类的实验结果

表5本发明针对于将Reuters语料库数据集分成7个类的实验结果

表6 本发明针对于将Reuters语料库数据集分成9个类的实验结果。

Claims

1.一种利用图像正则化及数据重建解决特征提取任务的方法，其特征在于包括如下步骤：

1)针对于一组文本数据作为训练集，去除停用词后将文本采用tfidf分数向量表示，选择分数最大的n个词作为该文本数据的原始数据点，构建其权重矩阵及对应的拉普拉斯矩阵；

2)随机初始化重建系数矩阵与特征提取矩阵，之后进行迭代，在每次迭代过程中，先固定重建系数矩阵，来更新特征提取矩阵，再固定特征提取矩阵，更新重建系数矩阵；循环迭代更新至特征提取矩阵收敛之后，返回最终的特征提取矩阵；

所述的步骤2)具体步骤为:

2.2)循环迭代，首先固定重建系数矩阵，更新特征提取矩阵；

2.3)固定特征提取矩阵，更新重建系数矩阵；

2.4)循环更新特征提取矩阵与重建系数矩阵直至特征提取矩阵收敛；

3)利用步骤2)学习得到的特征提取矩阵来对于待处理的相同领域文本数据的原始数据点进行特征提取。

2.根据权利要求1所述利用图像正则化及数据重建解决特征提取任务的方法，其特征在于所述的步骤1)具体步骤为:

针对于一组数据点构成的数据点矩阵X＝(x₁,...,x_m)，其中m为数据点的个数，任意一点的表达x_i∈Rⁿ，为一个n维向量；针对于这组数据点，其原始特征矩阵F＝(f₁,...,f_n)＝X^T，F为数据点矩阵X的转置矩阵；针对于此组数据点中的每一个点x_i，找到其距离最近的一个点x_j，并在x_i与x_j之间建立连线，按照此方法构建描述数据点之间关系的图；对于图中的点，构建权重矩阵W∈R^m*m，其中若x_i与x_j两点之间存在连线，则w_ij＝1，否则w_ij＝0；构建对角矩阵D∈R^m*m，其中，D_ii＝∑_jW_ij，构建拉普拉斯矩阵L＝D-W。

3.根据权利要求1所述利用图像正则化及数据重建解决特征提取任务的方法，其特征在于所述的步骤2.2)具体步骤为:

2.2.1)寻找