CN108363724A - 一种利用图像正则化及数据重建解决特征提取任务的方法 - Google Patents
一种利用图像正则化及数据重建解决特征提取任务的方法 Download PDFInfo
- Publication number
- CN108363724A CN108363724A CN201810008875.4A CN201810008875A CN108363724A CN 108363724 A CN108363724 A CN 108363724A CN 201810008875 A CN201810008875 A CN 201810008875A CN 108363724 A CN108363724 A CN 108363724A
- Authority
- CN
- China
- Prior art keywords
- matrix
- feature extraction
- data
- point
- updated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种利用图像正则化及数据重建解决特征提取任务的方法。主要包括如下步骤:1)针对于一组数据点,构建其权重矩阵及对应的拉普拉斯矩阵。2)随机初始化特征提取矩阵与重建系数矩阵,迭代更新特征提取矩阵与重建系数矩阵,得到最终收敛的特征提取矩阵作为特征提取的依据。相比于一般的项目推荐解决方案,本发明使用了图像正则化与数据重建相结合的方法,则能够提取出更有效的数据特征。本发明在数据特征提取问题中所取得的效果相比于传统的方法更好。
Description
技术领域
本发明涉及社区问答任务,尤其涉及一种利用图像正则化及数据重建解决特征提取任务的方法。
背景技术
在类似与数据挖掘与信息检索等任务方面,数据维度的降低是一个非常重要的任务,降低数据的维度对于降低处理数据的时间及空间消耗有着十分重要的意义,同时可以防止使用该数据时出现过拟合现象。对于数据维度的降低通常涉及数据特征提取方面的问题,对于特征提取目前有监督式的特征提取与非监督式的特征提取两种方法,其中监督式的特征提取方法需要数据拥有标签信息,但是目前带有标签信息的数据量很少,所以本发明将采用非监督式的特征提取方法。
本发明将利用带有图像正则化的数据重建方法来进行非监督的特征提取,本发明的目标是挑选出能够最佳地保存数据原始分辨性内容信息及原始数据结构信息的特征。为了完成此目标,本发明将结合数据重建方面的目标函数及图像规则化方面的目标函数,来进行相关特征的选取与相关重建系数矩阵的选取。本发明首先固定重建系数矩阵,来求取特征提取矩阵,之后固定特征提取矩阵,来求取重建系数矩阵,经过迭代循环直至特征提取矩阵收敛之后,返回特征提取矩阵作为原始数据提取特征值的指示矩阵。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中监督式特征提取需要大量带有标签数据的问题,及现有非监督式特征提取仅仅关注到保存数据特征性信息,而没有关注到保存数据结构信息的问题,本发明提供一种利用图像正则化及数据重建解决特征提取任务的方法。本发明所采用的具体技术方案是:
利用图像正则化及数据重建解决特征提取任务的方法,包含如下步骤:
1、针对于一组数据点,构建其权重矩阵及对应的拉普拉斯矩阵。
2、随机初始化重建系数矩阵与特征提取矩阵,之后进行迭代,在每次迭代过程中,先固定重建系数矩阵,来更新特征提取矩阵,再固定特征提取矩阵,更新重建系数矩阵。循环迭代更新至特征提取矩阵收敛之后,返回最终的特征提取矩阵。
3、按照特征提取矩阵来对于原始数据点进行特征提取。
上述步骤可具体采用如下实现方式:
1、针对于一组数据点构成的数据点矩阵X=(x1,...,xm),其中m为数据点的个数,任意一点的表达xi∈Rn,为一个n维向量;针对于这组数据点,其原始特征矩阵F=(f1,...,fn)=XT,F为数据点矩阵X的转置矩阵。针对于此组数据点中的每一个点xi,找到其距离最近的一个点xj,并在xi与xj之间建立连线,按照此方法构建描述数据点之间关系的图。对于图中的点,构建权重矩阵W∈Rm*m,其中若xi与xj两点之间存在连线,则wij=1,否则wij=0。构建对角矩阵 D∈Rm*m,其中,Dii=∑jWij。构建拉普拉斯矩阵L=D-W。
2、随机初始化重建系数矩阵A0∈Rn*n,特征提取矩阵Λ0∈Rn*n,初始化激活空集合S,其中向量θ中第p个维度的取值θp∈{-1,0,1}代表向量λ中第p个维度的取值λp的符号。
3、寻找其中
Ypp∈Y=XLXT
β为提前定义好的关于数据重建项与图像正则化项之间的权衡参数,L与 X为步骤1中确定的矩阵,apk∈A,aik∈A,A为本步骤随机初始化得到的矩阵A0。若则令θp=-1,S=S∪{λp};若则令θp=1,S=S∪{λp}。对于其余求得的情况,则不对于λp进行更新。
4、得到θp之后,按照如下公式更新特征提取矩阵Λ:
其中,m和n与步骤1中的m和n相同,α为关于数据重建项与第一范式项之间的平衡参数。则令按照如下公式得到λp的更新值:
在λ与更新后的λnew之间进行离散线搜索:检查λnew处的目标值及所有符号改变的点,将λ更新为有最低目标值的点。从S中移除没有对应参数的λ并更新θ=sign(λ)。
5、检查是否满足如果不满足则重新执行步骤4,如果满足则检查是否满足如果不满足则重新执行步骤3与步骤4,如果满足则返回特征提取矩阵Λ。
6、针对于更新后的特征提取矩阵Λ与数据点矩阵X,按照如下公式更新重建系数矩阵A:
A=XXTΛ(ΛXXTΛ)-1
7、循环执行步骤3、步骤4、步骤5、步骤6,依次迭代更新特征提取矩阵Λ与重建系数矩阵A,直至第k次更新后的特征提取矩阵Λk与第k次更新前的特征提取矩阵Λk-1满足||Λk-Λk-1||F<ε,其中ε为提前定义好的参数。返回特征提取矩阵Λk作为最终的特征提取矩阵。
8、则可根据特征提取矩阵Λk来选择所要选择的特征。
附图说明
图1是本发明使用的利用图像正则化及数据重建来进行特征提取的整体框架示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明一种利用图像正则化及数据重建解决特征提取任务的方法包括如下步骤:
1)针对于一组数据点,构建其权重矩阵及对应的拉普拉斯矩阵;
2)随机初始化重建系数矩阵与特征提取矩阵,之后进行迭代,在每次迭代过程中,先固定重建系数矩阵,来更新特征提取矩阵,再固定特征提取矩阵,更新重建系数矩阵。循环迭代更新至特征提取矩阵收敛之后,返回最终的特征提取矩阵;
3)利用步骤2)学习得到的特征提取矩阵来对于原始数据点进行特征提取。
所述的步骤1),其具体步骤为:
针对于一组数据点构成的数据点矩阵X=(x1,...,xm),其中m为数据点的个数,任意一点的表达xi∈Rn,为一个n维向量;针对于这组数据点,其原始特征矩阵F=(f1,...,fn)=XT,F为数据点矩阵X的转置矩阵;针对于此组数据点中的每一个点xi,找到其距离最近的一个点xj,并在xi与xj之间建立连线,按照此方法构建描述数据点之间关系的图;对于图中的点,构建权重矩阵W∈Rm*m,其中若xi与xj两点之间存在连线,则wij=1,否则wij=0;构建对角矩阵D∈Rm*m,其中,Dii=∑jWij。构建拉普拉斯矩阵L=D-W。
所述的步骤2),其具体步骤为:
2.1)随机初始化重建系数矩阵A0∈Rn*n,特征提取矩阵Λ0∈Rn*n,初始化 激活空集合S,其中向量θ中第p个维度的取值θp∈{-1,0,1}代表向量λ中第p个维度的取值λp的符号;
2.2)循环迭代,首先固定重建系数矩阵,更新特征提取矩阵;
2.3)固定特征提取矩阵,更新重建系数矩阵;
2.4)循环更新特征提取矩阵与重建系数矩阵直至特征提取矩阵收敛。
步骤2.2)具体步骤为:
2.2.1)寻找其中
Ypp∈Y=XLXT
β为提前定义好的关于数据重建项与图像正则化项之间的权衡参数,L与X为步骤1)中确定的矩阵,apk∈A,aik∈A,A为本步骤随机初始化得到的矩阵A0;若则令θp=-1,S=S∪{λp};若则令θp=1, S=S∪{λp};对于其余求得的情况,则不对于λp进行更新;
2.2.2)得到θp之后,按照如下公式更新特征提取矩阵Λ:
其中,m和n与步骤1中的m和n相同,α为关于数据重建项与第一范式项之间的平衡参数。则令按照如下公式得到λp的更新值:
在λ与更新后的λnew之间进行离散线搜索:检查λnew处的目标值及所有符号改变的点,将λ更新为有最低目标值的点。从S中移除没有对应参数的λ并更新θ=sign(λ);
2.2.3)检查是否满足如果不满足则重新执行步骤2.2.2),如果满足则检查是否满足如果不满足则重新执行步骤2.2.1)与步骤2.2.2),如果满足则返回特征提取矩阵Λ。
步骤2.3)具体为:
针对于更新后的特征提取矩阵Λ与数据点矩阵X,按照如下公式更新重建系数矩阵A:
A=XXTΛ(ΛXXTΛ)-1
步骤2.4)具体为:
循环执行步骤2.2)、步骤2.3),依次迭代更新特征提取矩阵Λ与重建系数矩阵A,直至第k次更新后的特征提取矩阵Λk与第k次更新前的特征提取矩阵Λk-1满足||Λk-Λk-1||F<ε,其中ε为提前定义好的参数。返回特征提取矩阵Λk作为最终的特征提取矩阵;
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在TDT2语料库数据集及Reuters语料库数据集上面构建实验数据进行实验。所使用的TDT2语料库数据集中共包括10021个文件数据,每个文件数据从属于1个类别;Reuters语料库数据集中共包括8213个文件数据,每个文件数据从属于1个类别。在这两份数据集中,均去除停用词,每个文件用tfidf向量表示。本发明将文件中的每个单词都根据它们的tfidf分数进行排序,每个文件选择分数最大的1000个词作为该文件的特征。
为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用聚类的方法进行评测,并使用了Accuracy,NMI这两种评价标准来对于本发明的效果进行评价,且分别针对将数据集中的文件分成5、7、9个种类的标准进行实验求解。按照具体实施方式中描述的步骤,所得的将TDT2语料库数据集分成5 个类的实验结果如表1所示,将TDT2语料库数据集分成7个类的实验结果如表 2所示,将TDT2语料库数据集分成9个类的实验结果如表3所示,将Reuters 语料库数据集分成5个类的实验结果如表4所示,将Reuters语料库数据集分成 7个类的实验结果如表5所示,将Reuters语料库数据集分成9个类的实验结果如表6所示,本方法表示为GRFS。表1至表6的结果表明,本方法在特征提取任务上所取的效果优于目前的其他方法,可以令提取后的特征更为准确地反映原始数据的原始分辨性内容信息及结构信息:
表1本发明针对于将TDT2语料库数据集分成5个类的实验结果
表2本发明针对于将TDT2语料库数据集分成7个类的实验结果
表3本发明针对于将TDT2语料库数据集分成9个类的实验结果
表4本发明针对于将Reuters语料库数据集分成5个类的实验结果
表5本发明针对于将Reuters语料库数据集分成7个类的实验结果
表5本发明针对于将Reuters语料库数据集分成9个类的实验结果。
Claims (6)
1.一种利用图像正则化及数据重建解决特征提取任务的方法,其特征在于包括如下步骤:
1)针对于一组数据点,构建其权重矩阵及对应的拉普拉斯矩阵;
2)随机初始化重建系数矩阵与特征提取矩阵,之后进行迭代,在每次迭代过程中,先固定重建系数矩阵,来更新特征提取矩阵,再固定特征提取矩阵,更新重建系数矩阵;循环迭代更新至特征提取矩阵收敛之后,返回最终的特征提取矩阵;
3)利用步骤2)学习得到的特征提取矩阵来对于原始数据点进行特征提取。
2.根据权利要求1所述利用图像正则化及数据重建解决特征提取任务的方法,其特征在于所述的步骤1)具体步骤为:
针对于一组数据点构成的数据点矩阵X=(x1,...,xm),其中m为数据点的个数,任意一点的表达xi∈Rn,为一个n维向量;针对于这组数据点,其原始特征矩阵F=(f1,...,fn)=XT,F为数据点矩阵X的转置矩阵;针对于此组数据点中的每一个点xi,找到其距离最近的一个点xj,并在xi与xj之间建立连线,按照此方法构建描述数据点之间关系的图;对于图中的点,构建权重矩阵W∈Rm*m,其中若xi与xj两点之间存在连线,则wij=1,否则wij=0;构建对角矩阵D∈Rm*m,其中,Dii=∑jWij,构建拉普拉斯矩阵L=D-W。
3.根据权利要求1所述利用图像正则化及数据重建解决特征提取任务的方法,其特征在于所述的步骤2)具体步骤为:
2.1)随机初始化重建系数矩阵A0∈Rn*n,特征提取矩阵Λ0∈Rn*n,初始化 激活空集合S,其中向量θ中第p个维度的取值θp∈{-1,0,1}代表向量λ中第p个维度的取值λp的符号;
2.2)循环迭代,首先固定重建系数矩阵,更新特征提取矩阵;
2.3)固定特征提取矩阵,更新重建系数矩阵;
2.4)循环更新特征提取矩阵与重建系数矩阵直至特征提取矩阵收敛。
4.根据权利要求2所述利用图像正则化及数据重建解决特征提取任务的方法,,其特征在于所述的步骤2.2)具体步骤为:
2.2.1)寻找其中
Ypp∈Y=XLXT
β为提前定义好的关于数据重建项与图像正则化项之间的权衡参数,L与X为步骤1)中确定的矩阵,apk∈A,aik∈A,A为本步骤随机初始化得到的矩阵A0;若则令θp=-1,S=S∪{λp};若则令θp=1,S=S∪{λp};对于其余求得的情况,则不对于λp进行更新;
2.2.2)得到θp之后,按照如下公式更新特征提取矩阵Λ:
其中,m和n与步骤1中的m和n相同,α为关于数据重建项与第一范式项之间的平衡参数,则令按照如下公式得到λp的更新值:
在λ与更新后的λnew之间进行离散线搜索:检查λnew处的目标值及所有符号改变的点,将λ更新为有最低目标值的点,从S中移除没有对应参数的λ并更新θ=sign(λ);
2.2.3)检查是否满足如果不满足则重新执行步骤2.2.2),如果满足则检查是否满足如果不满足则重新执行步骤2.2.1)与步骤2.2.2),如果满足则返回特征提取矩阵Λ。
5.根据权利要求2所述利用图像正则化及数据重建解决特征提取任务的方法,,其特征在于所述的步骤2.3)具体步骤为:
针对于更新后的特征提取矩阵Λ与数据点矩阵X,按照如下公式更新重建系数矩阵A:
A=XXTΛ(ΛXXTΛ)-1。
6.根据权利要求2所述利用图像正则化及数据重建解决特征提取任务的方法,,其特征在于所述的步骤2.4)具体步骤为:
循环执行步骤2.2)、步骤2.3),依次迭代更新特征提取矩阵Λ与重建系数矩阵A,直至第k次更新后的特征提取矩阵Λk与第k次更新前的特征提取矩阵Λk-1满足||Λk-Λk-1||F<ε,其中ε为提前定义好的参数,返回特征提取矩阵Λk作为最终的特征提取矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810008875.4A CN108363724B (zh) | 2018-01-04 | 2018-01-04 | 一种利用图像正则化及数据重建解决特征提取任务的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810008875.4A CN108363724B (zh) | 2018-01-04 | 2018-01-04 | 一种利用图像正则化及数据重建解决特征提取任务的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108363724A true CN108363724A (zh) | 2018-08-03 |
CN108363724B CN108363724B (zh) | 2021-12-10 |
Family
ID=63011256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810008875.4A Active CN108363724B (zh) | 2018-01-04 | 2018-01-04 | 一种利用图像正则化及数据重建解决特征提取任务的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108363724B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663392A (zh) * | 2012-02-29 | 2012-09-12 | 浙江大学 | 一种基于拉普拉斯算子的图像特征提取方法 |
CN102722578A (zh) * | 2012-05-31 | 2012-10-10 | 浙江大学 | 一种基于拉普拉斯正则化无监督的聚类特征选取方法 |
CN103955524A (zh) * | 2014-05-09 | 2014-07-30 | 合肥工业大学 | 一种基于超图模型的与事件相关的社会化图像查找算法 |
US20150227814A1 (en) * | 2012-12-31 | 2015-08-13 | Microsoft Technology Licensing, Llc | Secure and private tracking across multiple cameras |
CN107292341A (zh) * | 2017-06-20 | 2017-10-24 | 西安电子科技大学 | 基于成对协同正则化和nmf的自适应多视图聚类方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015038709A (ja) * | 2013-08-19 | 2015-02-26 | 日本電信電話株式会社 | モデルパラメータ推定方法、装置、及びプログラム |
CN105138993B (zh) * | 2015-08-31 | 2018-07-27 | 小米科技有限责任公司 | 建立人脸识别模型的方法及装置 |
CN105224669B (zh) * | 2015-10-10 | 2018-11-30 | 浙江大学 | 一种基于gmm语义特征的运动检索方法 |
-
2018
- 2018-01-04 CN CN201810008875.4A patent/CN108363724B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663392A (zh) * | 2012-02-29 | 2012-09-12 | 浙江大学 | 一种基于拉普拉斯算子的图像特征提取方法 |
CN102722578A (zh) * | 2012-05-31 | 2012-10-10 | 浙江大学 | 一种基于拉普拉斯正则化无监督的聚类特征选取方法 |
US20150227814A1 (en) * | 2012-12-31 | 2015-08-13 | Microsoft Technology Licensing, Llc | Secure and private tracking across multiple cameras |
CN103955524A (zh) * | 2014-05-09 | 2014-07-30 | 合肥工业大学 | 一种基于超图模型的与事件相关的社会化图像查找算法 |
CN107292341A (zh) * | 2017-06-20 | 2017-10-24 | 西安电子科技大学 | 基于成对协同正则化和nmf的自适应多视图聚类方法 |
Non-Patent Citations (1)
Title |
---|
王岩 等: ""基于改进正则化方法的SAR图像增强技术"", 《电子学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN108363724B (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Turcot et al. | Better matching with fewer features: The selection of useful features in large database recognition problems | |
Minaei-Bidgoli et al. | Ensembles of partitions via data resampling | |
Chen et al. | Fedmax: Mitigating activation divergence for accurate and communication-efficient federated learning | |
Xu et al. | Attribute hashing for zero-shot image retrieval | |
CN110765882B (zh) | 一种视频标签确定方法、装置、服务器及存储介质 | |
JP6908302B2 (ja) | 学習装置、識別装置及びプログラム | |
CN106649440B (zh) | 融合全局r特征的近似重复视频检索方法 | |
CN106776849A (zh) | 一种以图快速检索景点的方法及导游系统 | |
CN108062421A (zh) | 一种大规模图片多尺度语义检索方法 | |
CN110941698A (zh) | 一种基于bert下卷积神经网络的服务发现方法 | |
EP2892007A2 (en) | Static posture based person identification | |
CN116580257A (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
Wang et al. | Semi-supervised dual relation learning for multi-label classification | |
CN104504406B (zh) | 一种快速高效的近似重复图像匹配方法 | |
CN110378249A (zh) | 文本图像倾斜角度识别方法、装置及设备 | |
Gao et al. | SetConv: A new approach for learning from imbalanced data | |
García-Jara et al. | Improving astronomical time-series classification via data augmentation with generative adversarial networks | |
CN109960730A (zh) | 一种基于特征扩展的短文本分类方法、装置以及设备 | |
CN114490923A (zh) | 相似文本匹配模型的训练方法、装置、设备及存储介质 | |
CN110909193B (zh) | 图像排序展示方法、系统、设备和存储介质 | |
CN111985434A (zh) | 模型增强的人脸识别方法、装置、设备及存储介质 | |
CN108363724A (zh) | 一种利用图像正则化及数据重建解决特征提取任务的方法 | |
Wakayama et al. | Distributed forests for MapReduce-based machine learning | |
CN112417288B (zh) | 一种用于众包软件测试的任务跨域推荐方法 | |
Sumbul et al. | A relevant, hard and diverse triplet sampling method for multi-label remote sensing image retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |