CN108363724B - 一种利用图像正则化及数据重建解决特征提取任务的方法 - Google Patents
一种利用图像正则化及数据重建解决特征提取任务的方法 Download PDFInfo
- Publication number
- CN108363724B CN108363724B CN201810008875.4A CN201810008875A CN108363724B CN 108363724 B CN108363724 B CN 108363724B CN 201810008875 A CN201810008875 A CN 201810008875A CN 108363724 B CN108363724 B CN 108363724B
- Authority
- CN
- China
- Prior art keywords
- matrix
- feature extraction
- data
- reconstruction
- updating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种利用图像正则化及数据重建解决特征提取任务的方法。主要包括如下步骤:1)针对于一组数据点,构建其权重矩阵及对应的拉普拉斯矩阵。2)随机初始化特征提取矩阵与重建系数矩阵,迭代更新特征提取矩阵与重建系数矩阵,得到最终收敛的特征提取矩阵作为特征提取的依据。相比于一般的项目推荐解决方案,本发明使用了图像正则化与数据重建相结合的方法,则能够提取出更有效的数据特征。本发明在数据特征提取问题中所取得的效果相比于传统的方法更好。
Description
技术领域
本发明涉及社区问答任务,尤其涉及一种利用图像正则化及数据重建解决特征提取任务的方法。
背景技术
在类似与数据挖掘与信息检索等任务方面,数据维度的降低是一个非常重要的任务,降低数据的维度对于降低处理数据的时间及空间消耗有着十分重要的意义,同时可以防止使用该数据时出现过拟合现象。对于数据维度的降低通常涉及数据特征提取方面的问题,对于特征提取目前有监督式的特征提取与非监督式的特征提取两种方法,其中监督式的特征提取方法需要数据拥有标签信息,但是目前带有标签信息的数据量很少,所以本发明将采用非监督式的特征提取方法。
本发明将利用带有图像正则化的数据重建方法来进行非监督的特征提取,本发明的目标是挑选出能够最佳地保存数据原始分辨性内容信息及原始数据结构信息的特征。为了完成此目标,本发明将结合数据重建方面的目标函数及图像规则化方面的目标函数,来进行相关特征的选取与相关重建系数矩阵的选取。本发明首先固定重建系数矩阵,来求取特征提取矩阵,之后固定特征提取矩阵,来求取重建系数矩阵,经过迭代循环直至特征提取矩阵收敛之后,返回特征提取矩阵作为原始数据提取特征值的指示矩阵。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中监督式特征提取需要大量带有标签数据的问题,及现有非监督式特征提取仅仅关注到保存数据特征性信息,而没有关注到保存数据结构信息的问题,本发明提供一种利用图像正则化及数据重建解决特征提取任务的方法。本发明所采用的具体技术方案是:
利用图像正则化及数据重建解决特征提取任务的方法,包含如下步骤:
1、针对于一组数据点,构建其权重矩阵及对应的拉普拉斯矩阵。
2、随机初始化重建系数矩阵与特征提取矩阵,之后进行迭代,在每次迭代过程中,先固定重建系数矩阵,来更新特征提取矩阵,再固定特征提取矩阵,更新重建系数矩阵。循环迭代更新至特征提取矩阵收敛之后,返回最终的特征提取矩阵。
3、按照特征提取矩阵来对于原始数据点进行特征提取。
上述步骤可具体采用如下实现方式:
1、针对于一组数据点构成的数据点矩阵X=(x1,...,xm),其中m为数据点的个数,任意一点的表达xi∈Rn,为一个n维向量;针对于这组数据点,其原始特征矩阵F=(f1,...,fn)=XT,F为数据点矩阵X的转置矩阵。针对于此组数据点中的每一个点xi,找到其距离最近的一个点xj,并在xi与xj之间建立连线,按照此方法构建描述数据点之间关系的图。对于图中的点,构建权重矩阵W∈Rm*m,其中若xi与xj两点之间存在连线,则wij=1,否则wij=0。构建对角矩阵 D∈Rm*m,其中,Dii=∑jWij。构建拉普拉斯矩阵L=D-W。
Ypp∈Y=XLXT
β为提前定义好的关于数据重建项与图像正则化项之间的权衡参数,L与 X为步骤1中确定的矩阵,apk∈A,aik∈A,A为本步骤随机初始化得到的矩阵A0。若则令θp=-1,S=S∪{λp};若则令θp=1,S=S∪{λp}。对于其余求得的情况,则不对于λp进行更新。
4、得到θp之后,按照如下公式更新特征提取矩阵Λ:
在λ与更新后的λnew之间进行离散线搜索:检查λnew处的目标值及所有符号改变的点,将λ更新为有最低目标值的点。从S中移除没有对应参数的λ并更新θ=sign(λ)。
6、针对于更新后的特征提取矩阵Λ与数据点矩阵X,按照如下公式更新重建系数矩阵A:
A=XXTΛ(ΛXXTΛ)-1
7、循环执行步骤3、步骤4、步骤5、步骤6,依次迭代更新特征提取矩阵Λ与重建系数矩阵A,直至第k次更新后的特征提取矩阵Λk与第k次更新前的特征提取矩阵Λk-1满足||Λk-Λk-1||F<ε,其中ε为提前定义好的参数。返回特征提取矩阵Λk作为最终的特征提取矩阵。
8、则可根据特征提取矩阵Λk来选择所要选择的特征。
附图说明
图1是本发明使用的利用图像正则化及数据重建来进行特征提取的整体框架示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明一种利用图像正则化及数据重建解决特征提取任务的方法包括如下步骤:
1)针对于一组数据点,构建其权重矩阵及对应的拉普拉斯矩阵;
2)随机初始化重建系数矩阵与特征提取矩阵,之后进行迭代,在每次迭代过程中,先固定重建系数矩阵,来更新特征提取矩阵,再固定特征提取矩阵,更新重建系数矩阵。循环迭代更新至特征提取矩阵收敛之后,返回最终的特征提取矩阵;
3)利用步骤2)学习得到的特征提取矩阵来对于原始数据点进行特征提取。
所述的步骤1),其具体步骤为:
针对于一组数据点构成的数据点矩阵X=(x1,...,xm),其中m为数据点的个数,任意一点的表达xi∈Rn,为一个n维向量;针对于这组数据点,其原始特征矩阵F=(f1,...,fn)=XT,F为数据点矩阵X的转置矩阵;针对于此组数据点中的每一个点xi,找到其距离最近的一个点xj,并在xi与xj之间建立连线,按照此方法构建描述数据点之间关系的图;对于图中的点,构建权重矩阵W∈Rm*m,其中若xi与xj两点之间存在连线,则wij=1,否则wij=0;构建对角矩阵D∈Rm*m,其中,Dii=∑jWij。构建拉普拉斯矩阵L=D-W。
所述的步骤2),其具体步骤为:
2.2)循环迭代,首先固定重建系数矩阵,更新特征提取矩阵;
2.3)固定特征提取矩阵,更新重建系数矩阵;
2.4)循环更新特征提取矩阵与重建系数矩阵直至特征提取矩阵收敛。
步骤2.2)具体步骤为:
Ypp∈Y=XLXT
β为提前定义好的关于数据重建项与图像正则化项之间的权衡参数,L与X为步骤1)中确定的矩阵,apk∈A,aik∈A,A为本步骤随机初始化得到的矩阵A0;若则令θp=-1,S=S∪{λp};若则令θp=1, S=S∪{λp};对于其余求得的情况,则不对于λp进行更新;
2.2.2)得到θp之后,按照如下公式更新特征提取矩阵Λ:
在λ与更新后的λnew之间进行离散线搜索:检查λnew处的目标值及所有符号改变的点,将λ更新为有最低目标值的点。从S中移除没有对应参数的λ并更新θ=sign(λ);
步骤2.3)具体为:
针对于更新后的特征提取矩阵Λ与数据点矩阵X,按照如下公式更新重建系数矩阵A:
A=XXTΛ(ΛXXTΛ)-1
步骤2.4)具体为:
循环执行步骤2.2)、步骤2.3),依次迭代更新特征提取矩阵Λ与重建系数矩阵A,直至第k次更新后的特征提取矩阵Λk与第k次更新前的特征提取矩阵Λk-1满足||Λk-Λk-1||F<ε,其中ε为提前定义好的参数。返回特征提取矩阵Λk作为最终的特征提取矩阵;
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在TDT2语料库数据集及Reuters语料库数据集上面构建实验数据进行实验。所使用的TDT2语料库数据集中共包括10021个文件数据,每个文件数据从属于1个类别;Reuters语料库数据集中共包括8213个文件数据,每个文件数据从属于1个类别。在这两份数据集中,均去除停用词,每个文件用tfidf向量表示。本发明将文件中的每个单词都根据它们的tfidf分数进行排序,每个文件选择分数最大的1000个词作为该文件的特征。
为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用聚类的方法进行评测,并使用了Accuracy,NMI这两种评价标准来对于本发明的效果进行评价,且分别针对将数据集中的文件分成5、7、9个种类的标准进行实验求解。按照具体实施方式中描述的步骤,所得的将TDT2语料库数据集分成5 个类的实验结果如表1所示,将TDT2语料库数据集分成7个类的实验结果如表 2所示,将TDT2语料库数据集分成9个类的实验结果如表3所示,将Reuters 语料库数据集分成5个类的实验结果如表4所示,将Reuters语料库数据集分成 7个类的实验结果如表5所示,将Reuters语料库数据集分成9个类的实验结果如表6所示,本方法表示为GRFS。表1至表6的结果表明,本方法在特征提取任务上所取的效果优于目前的其他方法,可以令提取后的特征更为准确地反映原始数据的原始分辨性内容信息及结构信息:
表1本发明针对于将TDT2语料库数据集分成5个类的实验结果
表2本发明针对于将TDT2语料库数据集分成7个类的实验结果
表3本发明针对于将TDT2语料库数据集分成9个类的实验结果
表4本发明针对于将Reuters语料库数据集分成5个类的实验结果
表5本发明针对于将Reuters语料库数据集分成7个类的实验结果
表6 本发明针对于将Reuters语料库数据集分成9个类的实验结果。
Claims (5)
1.一种利用图像正则化及数据重建解决特征提取任务的方法,其特征在于包括如下步骤:
1)针对于一组文本数据作为训练集,去除停用词后将文本采用tfidf分数向量表示,选择分数最大的n个词作为该文本数据的原始数据点,构建其权重矩阵及对应的拉普拉斯矩阵;
2)随机初始化重建系数矩阵与特征提取矩阵,之后进行迭代,在每次迭代过程中,先固定重建系数矩阵,来更新特征提取矩阵,再固定特征提取矩阵,更新重建系数矩阵;循环迭代更新至特征提取矩阵收敛之后,返回最终的特征提取矩阵;
所述的步骤2)具体步骤为:
2.2)循环迭代,首先固定重建系数矩阵,更新特征提取矩阵;
2.3)固定特征提取矩阵,更新重建系数矩阵;
2.4)循环更新特征提取矩阵与重建系数矩阵直至特征提取矩阵收敛;
3)利用步骤2)学习得到的特征提取矩阵来对于待处理的相同领域文本数据的原始数据点进行特征提取。
2.根据权利要求1所述利用图像正则化及数据重建解决特征提取任务的方法,其特征在于所述的步骤1)具体步骤为:
针对于一组数据点构成的数据点矩阵X=(x1,...,xm),其中m为数据点的个数,任意一点的表达xi∈Rn,为一个n维向量;针对于这组数据点,其原始特征矩阵F=(f1,...,fn)=XT,F为数据点矩阵X的转置矩阵;针对于此组数据点中的每一个点xi,找到其距离最近的一个点xj,并在xi与xj之间建立连线,按照此方法构建描述数据点之间关系的图;对于图中的点,构建权重矩阵W∈Rm*m,其中若xi与xj两点之间存在连线,则wij=1,否则wij=0;构建对角矩阵D∈Rm*m,其中,Dii=∑jWij,构建拉普拉斯矩阵L=D-W。
3.根据权利要求1所述利用图像正则化及数据重建解决特征提取任务的方法,其特征在于所述的步骤2.2)具体步骤为:
Ypp∈Y=XLXT
β为提前定义好的关于数据重建项与图像正则化项之间的权衡参数,L与X为步骤1)中确定的矩阵,apk∈A,aik∈A,A为本步骤随机初始化得到的矩阵A0;若则令θp=-1,S=S∪{λp};若则令θp=1,S=S∪{λp};对于其余求得的情况,则不对于λp进行更新;
2.2.2)得到θp之后,按照如下公式更新特征提取矩阵Λ:
在λ与更新后的λnew之间进行离散线搜索:检查λnew处的目标值及所有符号改变的点,将λ更新为有最低目标值的点,从S中移除没有对应参数的λ并更新θ=sign(λ);
4.根据权利要求1所述利用图像正则化及数据重建解决特征提取任务的方法,其特征在于所述的步骤2.3)具体步骤为:
针对于更新后的特征提取矩阵Λ与数据点矩阵X,按照如下公式更新重建系数矩阵A:
A=XXTΛ(ΛXXTΛ)-1。
5.根据权利要求1所述利用图像正则化及数据重建解决特征提取任务的方法,其特征在于所述的步骤2.4)具体步骤为:
循环执行步骤2.2)、步骤2.3),依次迭代更新特征提取矩阵Λ与重建系数矩阵A,直至第k次更新后的特征提取矩阵Λk与第k次更新前的特征提取矩阵Λk-1满足||Λk-Λk-1||F<ε,其中ε为提前定义好的参数,返回特征提取矩阵Λk作为最终的特征提取矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810008875.4A CN108363724B (zh) | 2018-01-04 | 2018-01-04 | 一种利用图像正则化及数据重建解决特征提取任务的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810008875.4A CN108363724B (zh) | 2018-01-04 | 2018-01-04 | 一种利用图像正则化及数据重建解决特征提取任务的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108363724A CN108363724A (zh) | 2018-08-03 |
CN108363724B true CN108363724B (zh) | 2021-12-10 |
Family
ID=63011256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810008875.4A Active CN108363724B (zh) | 2018-01-04 | 2018-01-04 | 一种利用图像正则化及数据重建解决特征提取任务的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108363724B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015038709A (ja) * | 2013-08-19 | 2015-02-26 | 日本電信電話株式会社 | モデルパラメータ推定方法、装置、及びプログラム |
CN105138993A (zh) * | 2015-08-31 | 2015-12-09 | 小米科技有限责任公司 | 建立人脸识别模型的方法及装置 |
CN105224669A (zh) * | 2015-10-10 | 2016-01-06 | 浙江大学 | 一种基于gmm语义特征的运动检索方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663392A (zh) * | 2012-02-29 | 2012-09-12 | 浙江大学 | 一种基于拉普拉斯算子的图像特征提取方法 |
CN102722578B (zh) * | 2012-05-31 | 2014-07-02 | 浙江大学 | 一种基于拉普拉斯正则化无监督的聚类特征选取方法 |
US20140184803A1 (en) * | 2012-12-31 | 2014-07-03 | Microsoft Corporation | Secure and Private Tracking Across Multiple Cameras |
CN103955524B (zh) * | 2014-05-09 | 2017-02-22 | 合肥工业大学 | 一种基于超图模型的与事件相关的社会化图像查找算法 |
CN107292341B (zh) * | 2017-06-20 | 2019-12-10 | 西安电子科技大学 | 基于成对协同正则化和nmf的自适应多视图聚类方法 |
-
2018
- 2018-01-04 CN CN201810008875.4A patent/CN108363724B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015038709A (ja) * | 2013-08-19 | 2015-02-26 | 日本電信電話株式会社 | モデルパラメータ推定方法、装置、及びプログラム |
CN105138993A (zh) * | 2015-08-31 | 2015-12-09 | 小米科技有限责任公司 | 建立人脸识别模型的方法及装置 |
CN105224669A (zh) * | 2015-10-10 | 2016-01-06 | 浙江大学 | 一种基于gmm语义特征的运动检索方法 |
Non-Patent Citations (1)
Title |
---|
"主成分分析先验约束总变分正则化CT图像重建方法";刘立 等;《计算机应用》;20131231;第33卷(第S2期);第187-189页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108363724A (zh) | 2018-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11636147B2 (en) | Training neural networks to perform tag-based font recognition utilizing font classification | |
Cakir et al. | Online supervised hashing | |
Lin et al. | Supervised hashing using graph cuts and boosted decision trees | |
Van Der Maaten | Accelerating t-SNE using tree-based algorithms | |
Wu et al. | Semi-supervised nonlinear hashing using bootstrap sequential projection learning | |
Chen et al. | Deep hashing via discrepancy minimization | |
US10803231B1 (en) | Performing tag-based font retrieval using combined font tag recognition and tag-based font retrieval neural networks | |
US9336299B2 (en) | Acquisition of semantic class lexicons for query tagging | |
CN109784405B (zh) | 基于伪标签学习和语义一致性的跨模态检索方法及系统 | |
Xie et al. | Fast and accurate near-duplicate image search with affinity propagation on the ImageWeb | |
CN109271486B (zh) | 一种相似性保留跨模态哈希检索方法 | |
CN112368697A (zh) | 经由对偶分解评估损失函数或损失函数的梯度的系统和方法 | |
JPWO2013129580A1 (ja) | 近似最近傍探索装置、近似最近傍探索方法およびそのプログラム | |
CN107357895B (zh) | 一种基于词袋模型的文本表示的处理方法 | |
WO2011134141A1 (en) | Method of extracting named entity | |
CN106570173B (zh) | 一种基于Spark的高维稀疏文本数据聚类方法 | |
Pedronette et al. | Exploiting contextual information for image re-ranking and rank aggregation | |
Sun et al. | Local residual similarity for image re-ranking | |
Pirrone et al. | Self-supervised deep metric learning for ancient papyrus fragments retrieval | |
CN114995903A (zh) | 一种基于预训练语言模型的类别标签识别方法及装置 | |
CN108363724B (zh) | 一种利用图像正则化及数据重建解决特征提取任务的方法 | |
CN109255098B (zh) | 一种基于重构约束的矩阵分解哈希方法 | |
Ng et al. | Incremental hashing with sample selection using dominant sets | |
CN110659375A (zh) | 哈希模型训练方法、相似对象检索方法及装置 | |
Liu et al. | Nonnegative sparse locality preserving hashing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |