CN114564691A - 一种基于逆矩阵的冗余数据判别方法 - Google Patents

一种基于逆矩阵的冗余数据判别方法 Download PDF

Info

Publication number
CN114564691A
CN114564691A CN202210203245.9A CN202210203245A CN114564691A CN 114564691 A CN114564691 A CN 114564691A CN 202210203245 A CN202210203245 A CN 202210203245A CN 114564691 A CN114564691 A CN 114564691A
Authority
CN
China
Prior art keywords
matrix
data
redundant
inverse matrix
redundant data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210203245.9A
Other languages
English (en)
Inventor
邓飞
李博雄
何俊
申时凯
缪希松
洪孙焱
毛雄建
张洪渊
段红肖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University
Original Assignee
Kunming University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University filed Critical Kunming University
Priority to CN202210203245.9A priority Critical patent/CN114564691A/zh
Publication of CN114564691A publication Critical patent/CN114564691A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于逆矩阵的冗余数据判别方法,首先是将需要分析的数据对象进行数值化后转化成矩阵形式,然后对该矩阵求逆,看是否能够求出逆矩阵,最后根据是否存在逆矩阵来判断该数据对象是否存在冗余信息。当不存在逆矩阵时,说明该数据对象不存在冗余信息,不需要做任何处理;当存在逆矩阵时,说明该数据对象存在冗余信息,需要进行冗余信息剔除处理,为下一步“数据治理”做准备。该方法较之于传统的异常数据判别方法,把数据分析对象转化为矩阵形式,简单易操作,只需确定所转化的矩阵是否存在逆矩阵,就可给出该数据中是否存在冗余信息的结论,简单明了。

Description

一种基于逆矩阵的冗余数据判别方法
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种基于逆矩阵的冗余数据判别方法。
背景技术
随着大数据时代的到来,数据和信息的重要性越来越大。数据以视频、音频、图片、文字等方式形式存在,当前大数据时代的开拓性导致了数据存在冗余的现象。在对数据进行数据挖掘的过程中,实际并不需要所有的数据,排除冗余数据留下有价值的数据才是关键,这就需要进行“数据治理”。随着数据量的增大,如何快速地判别出数据堆里是否存在冗余数据也变得越来越难,寻求一种高效快速的冗余数据判别方法成为一种必然。
发明内容
本发明所要解决的技术问题是提供一种基于逆矩阵的冗余数据判别方法,高效快速,以解决现有技术中导致的上述多项缺陷。
为实现上述目的,本发明提供以下的技术方案:一种基于逆矩阵的冗余数据判别方法,包括如下步骤:
1)把需要分析的数据对象数值化;
2)对数值化后的数据集转化成矩阵;
3)利用增广矩阵变换,对矩阵进行求逆矩阵变换;
4),根据是否存在逆矩阵来判断该数据对象是否存在冗余信息;当不存在逆矩阵时,说明该数据对象不存在冗余信息,不需要做任何处理;当存在逆矩阵时,说明该数据对象存在冗余信息,需要进行冗余信息剔除处理。
优选的,所述步骤1)中,在图片、文字、数据库中提取数据资源,记为D,然后把D数值化。
优选的,所述步骤2)中,将D转化为数据集X,即,
Figure BDA0003530416400000021
其中,X为m×n的多维数据。
优选的,所述步骤3)中,所述对矩阵X进行逆矩阵求解;
在特征矩阵右侧放置一个同阶的单位矩阵,形成一个新的矩阵Xa,即增广矩阵,
Figure BDA0003530416400000022
通过矩阵行列变换,看是否能够转化成矩阵Xb,即,
Figure BDA0003530416400000023
优选的,所述步骤4)中,假设特征数据集X中第a行与第b行存在冗余数据xaj和xbj,j=1,2,…n;由于存在冗余的数据,即数据不存在信息,xaj和xbj有一个数据无价值,即xaj或xbj元素可为0。X的增广矩阵Xa中始终无法把原特征矩阵变换为单位矩阵,因此无法转化得到Xb,从而可检测特征数据集中是否存在冗余数据;
根据Xb存在与否,来判断X是否存在冗余数据:
如果Xb存在,则矩阵X不存在冗余数据,即不需要对分析的数据对象进行冗余数据处理;
如果Xb不存在,则矩阵X存在冗余数据,即需要对分析的数据对象进行冗余数据处理,为下一步“数据治理”做准备。
采用以上技术方案的有益效果是:通过把需要判别是否存在冗余信息的数据转化为矩阵形式,简单易操作;只需确定所转化的矩阵是否存在逆矩阵,就可给出该数据中是否存在冗余信息的结论,简单明了。
附图说明
图1为本发明一种基于逆矩阵的冗余数据判别方法的流程图。
具体实施方式
下面详细说明本发明的优选实施方式。
根据图1所示,一种基于逆矩阵的冗余数据判别方法,首先是将需要分析的数据对象进行数值化,接着转化成矩阵形式,然后对该矩阵求逆,看是否能够求出逆矩阵,最后根据是否存在逆矩阵来判断该数据对象是否存在冗余信息。当不存在逆矩阵时,说明该数据对象不存在冗余信息,不需要做任何处理;当存在逆矩阵时,说明该数据对象存在冗余信息,需要进行冗余信息剔除处理,为下一步“数据治理”做准备。
把“数据治理”中的需要分析的数据对象,首先在图片、文字、数据库中提取数据资源,记为D,然后把D数值化,转化为数据集X,即
Figure BDA0003530416400000031
其中,X为m×n的多维数据。
然后,对矩阵X进行逆矩阵求解。在特征矩阵右侧放置一个同阶的单位矩阵,形成一个新的矩阵Xa,即增广矩阵
Figure BDA0003530416400000041
通过矩阵行列变换,看是否能够转化成矩阵Xb,即
Figure BDA0003530416400000042
假设特征数据集X中第a行与第b行存在冗余数据xaj和xbj,j=1,2,…n。由于存在冗余的数据,即数据不存在信息,xaj和xbj有一个数据无价值,即xaj或xbj元素可为0。X的增广矩阵Xa中始终无法把原特征矩阵变换为单位矩阵,因此无法转化得到Xb,从而可检测特征数据集中是否存在冗余数据。
根据Xb存在与否,来判断X是否存在冗余数据:
如果Xb存在,则矩阵X不存在冗余数据,即不需要对分析的数据对象进行冗余数据处理;
如果Xb不存在,则矩阵X存在冗余数据,即需要对分析的数据对象进行冗余数据处理,为下一步“数据治理”做准备。
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。这里以某专业某班级学生的成绩分数为例:
实例1:
假设该班3名同学的各科成绩如下表。
姓名 高等数学 大学英语 数据结构
张三 96 97 68
李四 89 98 78
王五 65 89 76
学生成绩表提取数据资源整合为数据集:
Figure BDA0003530416400000051
数据集X求逆增广矩阵为:
Figure BDA0003530416400000052
通过矩阵行列转换得出:
Figure BDA0003530416400000053
由此可得X1的逆矩阵:
Figure BDA0003530416400000054
结论:数据集X1可求出逆矩阵,即Xb存在,说明X1中不存在冗余数据。
实例2:
假设该班3名同学的各科成绩如下表。
姓名 高等数学 大学英语 数据结构
张三 96 97 68
李四 89 98 78
张三 96 97 68
数据集为:
Figure BDA0003530416400000055
数据集X2求逆增广矩阵为:
Figure BDA0003530416400000056
此时,无法通过矩阵变换,得到Xb
结论:数据集X2求不出逆矩阵,即Xb不存在,说明X2中存在冗余数据。从表格中可以看出,第一行和第三行数据是重复的。此时下一步应该对数据进行冗余处理。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (5)

1.一种基于逆矩阵的冗余数据判别方法,其特征在于,包括如下步骤:
1)把需要分析的数据对象数值化;
2)对数值化后的数据集转化成矩阵;
3)利用增广矩阵变换,对矩阵进行求逆矩阵变换;
4),根据是否存在逆矩阵来判断该数据对象是否存在冗余信息;当不存在逆矩阵时,说明该数据对象不存在冗余信息,不需要做任何处理;当存在逆矩阵时,说明该数据对象存在冗余信息,需要进行冗余信息剔除处理。
2.根据权利要求1所述的基于逆矩阵的冗余数据判别方法,其特征在于,所述步骤1)中,在图片、文字、数据库中提取数据资源,记为D,然后把D数值化。
3.根据权利要求1所述的基于逆矩阵的冗余数据判别方法,其特征在于,所述步骤2)中,将D转化为数据集X,即,
Figure FDA0003530416390000011
其中,X为m×n的多维数据。
4.根据权利要求1所述的基于逆矩阵的冗余数据判别方法,其特征在于,所述步骤3)中,所述对矩阵X进行逆矩阵求解;
在特征矩阵右侧放置一个同阶的单位矩阵,形成一个新的矩阵Xa,即增广矩阵,
Figure FDA0003530416390000021
通过矩阵行列变换,看是否能够转化成矩阵Xb,即,
Figure FDA0003530416390000022
5.根据权利要求1所述的基于逆矩阵的冗余数据判别方法,其特征在于,所述步骤4)中,假设特征数据集X中第a行与第b行存在冗余数据xaj和xbj,j=1,2,…n;由于存在冗余的数据,即数据不存在信息,xaj和xbj有一个数据无价值,即xaj或xbj元素可为0。X的增广矩阵Xa中始终无法把原特征矩阵变换为单位矩阵,因此无法转化得到Xb,从而可检测特征数据集中是否存在冗余数据;
根据Xb存在与否,来判断X是否存在冗余数据:
如果Xb存在,则矩阵X不存在冗余数据,即不需要对分析的数据对象进行冗余数据处理;
如果Xb不存在,则矩阵X存在冗余数据,即需要对分析的数据对象进行冗余数据处理,为下一步“数据治理”做准备。
CN202210203245.9A 2022-03-03 2022-03-03 一种基于逆矩阵的冗余数据判别方法 Pending CN114564691A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210203245.9A CN114564691A (zh) 2022-03-03 2022-03-03 一种基于逆矩阵的冗余数据判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210203245.9A CN114564691A (zh) 2022-03-03 2022-03-03 一种基于逆矩阵的冗余数据判别方法

Publications (1)

Publication Number Publication Date
CN114564691A true CN114564691A (zh) 2022-05-31

Family

ID=81718529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210203245.9A Pending CN114564691A (zh) 2022-03-03 2022-03-03 一种基于逆矩阵的冗余数据判别方法

Country Status (1)

Country Link
CN (1) CN114564691A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102572427A (zh) * 2011-12-24 2012-07-11 辽宁师范大学 基于压缩感知的多描述图像编码和解码方法
US20160373210A1 (en) * 2013-07-04 2016-12-22 Norwegian University Of Science And Technology Network coding over gf(2)
CN109583061A (zh) * 2018-11-16 2019-04-05 重庆邮电大学 一种基于参数集映射关系的三维模型尺寸完备性检查算法
CN110727909A (zh) * 2019-09-30 2020-01-24 清华大学 一种基于能量平衡的传感器配置冗余度确定方法及系统
CN112180325A (zh) * 2020-09-15 2021-01-05 清华大学 一种基于约束矩阵完备化的射频干扰源定位方法
CN113159211A (zh) * 2021-04-30 2021-07-23 杭州好安供应链管理有限公司 用于相似图像检索的方法、计算设备和计算机存储介质
CN113568894A (zh) * 2020-04-28 2021-10-29 中移动信息技术有限公司 数据库的数据冗余处理方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102572427A (zh) * 2011-12-24 2012-07-11 辽宁师范大学 基于压缩感知的多描述图像编码和解码方法
US20160373210A1 (en) * 2013-07-04 2016-12-22 Norwegian University Of Science And Technology Network coding over gf(2)
CN109583061A (zh) * 2018-11-16 2019-04-05 重庆邮电大学 一种基于参数集映射关系的三维模型尺寸完备性检查算法
CN110727909A (zh) * 2019-09-30 2020-01-24 清华大学 一种基于能量平衡的传感器配置冗余度确定方法及系统
CN113568894A (zh) * 2020-04-28 2021-10-29 中移动信息技术有限公司 数据库的数据冗余处理方法、装置、电子设备及存储介质
CN112180325A (zh) * 2020-09-15 2021-01-05 清华大学 一种基于约束矩阵完备化的射频干扰源定位方法
CN113159211A (zh) * 2021-04-30 2021-07-23 杭州好安供应链管理有限公司 用于相似图像检索的方法、计算设备和计算机存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈露等: "线性代数", 31 August 2009, pages: 64 - 68 *

Similar Documents

Publication Publication Date Title
Caruso et al. Performance of microbiome sequence inference methods in environments with varying biomass
Osmundson et al. Filling gaps in biodiversity knowledge for macrofungi: contributions and assessment of an herbarium collection DNA barcode sequencing project
US9348799B2 (en) Forming a master page for an electronic document
US8843815B2 (en) System and method for automatically extracting metadata from unstructured electronic documents
US9251248B2 (en) Using context to extract entities from a document collection
US20170004256A1 (en) Methods and apparatuses for generating reference genome data, generating difference genome data, and recovering data
CN107977368B (zh) 信息提取方法及系统
US8090720B2 (en) Method for merging document clusters
US20160210339A1 (en) Similarity determination apparatus, similarity determination method, and computer-readable recording medium
CN111326213B (zh) 一种数据分析方法、装置、设备及存储介质
CN112151117A (zh) 一种基于时间序列宏基因组数据的动态观测装置及其检测方法
CN107818320A (zh) 基于开源ocr技术变电设备红外图像数值的识别方法
US10540600B2 (en) Method and apparatus for detecting changed data
CN114707003B (zh) 一种论文作者姓名消歧的方法、设备及储存介质
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
US20100191753A1 (en) Extracting Patterns from Sequential Data
Sun et al. Efficient and stable metabarcoding sequencing data using a DNBSEQ-G400 sequencer validated by comprehensive community analyses
WO2018161824A1 (zh) 异常数据检测方法和装置
CN114564691A (zh) 一种基于逆矩阵的冗余数据判别方法
CN116663002A (zh) 一种ip软核恶意逻辑检测方法,系统,终端及存储介质
CN114936208A (zh) 一种基于数据清洗的信息分析系统
JP5164876B2 (ja) 代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP2002099555A (ja) 文書分類装置及び文書分類方法
CN110991296B (zh) 视频标注方法、装置、电子设备及计算机可读存储介质
US20230274406A1 (en) Identifying derivatives of data items

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination