CN114564691A - 一种基于逆矩阵的冗余数据判别方法 - Google Patents
一种基于逆矩阵的冗余数据判别方法 Download PDFInfo
- Publication number
- CN114564691A CN114564691A CN202210203245.9A CN202210203245A CN114564691A CN 114564691 A CN114564691 A CN 114564691A CN 202210203245 A CN202210203245 A CN 202210203245A CN 114564691 A CN114564691 A CN 114564691A
- Authority
- CN
- China
- Prior art keywords
- matrix
- data
- redundant
- inverse matrix
- redundant data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 91
- 238000012850 discrimination method Methods 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 9
- 238000013523 data management Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 7
- 230000003321 amplification Effects 0.000 claims description 4
- 230000003190 augmentative effect Effects 0.000 claims description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 claims 1
- 239000007789 gas Substances 0.000 claims 1
- 239000001301 oxygen Substances 0.000 claims 1
- 229910052760 oxygen Inorganic materials 0.000 claims 1
- 230000002159 abnormal effect Effects 0.000 abstract 1
- 238000007405 data analysis Methods 0.000 abstract 1
- 230000003416 augmentation Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于逆矩阵的冗余数据判别方法,首先是将需要分析的数据对象进行数值化后转化成矩阵形式,然后对该矩阵求逆,看是否能够求出逆矩阵,最后根据是否存在逆矩阵来判断该数据对象是否存在冗余信息。当不存在逆矩阵时,说明该数据对象不存在冗余信息,不需要做任何处理;当存在逆矩阵时,说明该数据对象存在冗余信息,需要进行冗余信息剔除处理,为下一步“数据治理”做准备。该方法较之于传统的异常数据判别方法,把数据分析对象转化为矩阵形式,简单易操作,只需确定所转化的矩阵是否存在逆矩阵,就可给出该数据中是否存在冗余信息的结论,简单明了。
Description
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种基于逆矩阵的冗余数据判别方法。
背景技术
随着大数据时代的到来,数据和信息的重要性越来越大。数据以视频、音频、图片、文字等方式形式存在,当前大数据时代的开拓性导致了数据存在冗余的现象。在对数据进行数据挖掘的过程中,实际并不需要所有的数据,排除冗余数据留下有价值的数据才是关键,这就需要进行“数据治理”。随着数据量的增大,如何快速地判别出数据堆里是否存在冗余数据也变得越来越难,寻求一种高效快速的冗余数据判别方法成为一种必然。
发明内容
本发明所要解决的技术问题是提供一种基于逆矩阵的冗余数据判别方法,高效快速,以解决现有技术中导致的上述多项缺陷。
为实现上述目的,本发明提供以下的技术方案:一种基于逆矩阵的冗余数据判别方法,包括如下步骤:
1)把需要分析的数据对象数值化;
2)对数值化后的数据集转化成矩阵;
3)利用增广矩阵变换,对矩阵进行求逆矩阵变换;
4),根据是否存在逆矩阵来判断该数据对象是否存在冗余信息;当不存在逆矩阵时,说明该数据对象不存在冗余信息,不需要做任何处理;当存在逆矩阵时,说明该数据对象存在冗余信息,需要进行冗余信息剔除处理。
优选的,所述步骤1)中,在图片、文字、数据库中提取数据资源,记为D,然后把D数值化。
优选的,所述步骤2)中,将D转化为数据集X,即,
其中,X为m×n的多维数据。
优选的,所述步骤3)中,所述对矩阵X进行逆矩阵求解;
在特征矩阵右侧放置一个同阶的单位矩阵,形成一个新的矩阵Xa,即增广矩阵,
通过矩阵行列变换,看是否能够转化成矩阵Xb,即,
优选的,所述步骤4)中,假设特征数据集X中第a行与第b行存在冗余数据xaj和xbj,j=1,2,…n;由于存在冗余的数据,即数据不存在信息,xaj和xbj有一个数据无价值,即xaj或xbj元素可为0。X的增广矩阵Xa中始终无法把原特征矩阵变换为单位矩阵,因此无法转化得到Xb,从而可检测特征数据集中是否存在冗余数据;
根据Xb存在与否,来判断X是否存在冗余数据:
如果Xb存在,则矩阵X不存在冗余数据,即不需要对分析的数据对象进行冗余数据处理;
如果Xb不存在,则矩阵X存在冗余数据,即需要对分析的数据对象进行冗余数据处理,为下一步“数据治理”做准备。
采用以上技术方案的有益效果是:通过把需要判别是否存在冗余信息的数据转化为矩阵形式,简单易操作;只需确定所转化的矩阵是否存在逆矩阵,就可给出该数据中是否存在冗余信息的结论,简单明了。
附图说明
图1为本发明一种基于逆矩阵的冗余数据判别方法的流程图。
具体实施方式
下面详细说明本发明的优选实施方式。
根据图1所示,一种基于逆矩阵的冗余数据判别方法,首先是将需要分析的数据对象进行数值化,接着转化成矩阵形式,然后对该矩阵求逆,看是否能够求出逆矩阵,最后根据是否存在逆矩阵来判断该数据对象是否存在冗余信息。当不存在逆矩阵时,说明该数据对象不存在冗余信息,不需要做任何处理;当存在逆矩阵时,说明该数据对象存在冗余信息,需要进行冗余信息剔除处理,为下一步“数据治理”做准备。
把“数据治理”中的需要分析的数据对象,首先在图片、文字、数据库中提取数据资源,记为D,然后把D数值化,转化为数据集X,即
其中,X为m×n的多维数据。
然后,对矩阵X进行逆矩阵求解。在特征矩阵右侧放置一个同阶的单位矩阵,形成一个新的矩阵Xa,即增广矩阵
通过矩阵行列变换,看是否能够转化成矩阵Xb,即
假设特征数据集X中第a行与第b行存在冗余数据xaj和xbj,j=1,2,…n。由于存在冗余的数据,即数据不存在信息,xaj和xbj有一个数据无价值,即xaj或xbj元素可为0。X的增广矩阵Xa中始终无法把原特征矩阵变换为单位矩阵,因此无法转化得到Xb,从而可检测特征数据集中是否存在冗余数据。
根据Xb存在与否,来判断X是否存在冗余数据:
如果Xb存在,则矩阵X不存在冗余数据,即不需要对分析的数据对象进行冗余数据处理;
如果Xb不存在,则矩阵X存在冗余数据,即需要对分析的数据对象进行冗余数据处理,为下一步“数据治理”做准备。
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。这里以某专业某班级学生的成绩分数为例:
实例1:
假设该班3名同学的各科成绩如下表。
姓名 | 高等数学 | 大学英语 | 数据结构 |
张三 | 96 | 97 | 68 |
李四 | 89 | 98 | 78 |
王五 | 65 | 89 | 76 |
结论:数据集X1可求出逆矩阵,即Xb存在,说明X1中不存在冗余数据。
实例2:
假设该班3名同学的各科成绩如下表。
姓名 | 高等数学 | 大学英语 | 数据结构 |
张三 | 96 | 97 | 68 |
李四 | 89 | 98 | 78 |
张三 | 96 | 97 | 68 |
此时,无法通过矩阵变换,得到Xb。
结论:数据集X2求不出逆矩阵,即Xb不存在,说明X2中存在冗余数据。从表格中可以看出,第一行和第三行数据是重复的。此时下一步应该对数据进行冗余处理。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (5)
1.一种基于逆矩阵的冗余数据判别方法,其特征在于,包括如下步骤:
1)把需要分析的数据对象数值化;
2)对数值化后的数据集转化成矩阵;
3)利用增广矩阵变换,对矩阵进行求逆矩阵变换;
4),根据是否存在逆矩阵来判断该数据对象是否存在冗余信息;当不存在逆矩阵时,说明该数据对象不存在冗余信息,不需要做任何处理;当存在逆矩阵时,说明该数据对象存在冗余信息,需要进行冗余信息剔除处理。
2.根据权利要求1所述的基于逆矩阵的冗余数据判别方法,其特征在于,所述步骤1)中,在图片、文字、数据库中提取数据资源,记为D,然后把D数值化。
5.根据权利要求1所述的基于逆矩阵的冗余数据判别方法,其特征在于,所述步骤4)中,假设特征数据集X中第a行与第b行存在冗余数据xaj和xbj,j=1,2,…n;由于存在冗余的数据,即数据不存在信息,xaj和xbj有一个数据无价值,即xaj或xbj元素可为0。X的增广矩阵Xa中始终无法把原特征矩阵变换为单位矩阵,因此无法转化得到Xb,从而可检测特征数据集中是否存在冗余数据;
根据Xb存在与否,来判断X是否存在冗余数据:
如果Xb存在,则矩阵X不存在冗余数据,即不需要对分析的数据对象进行冗余数据处理;
如果Xb不存在,则矩阵X存在冗余数据,即需要对分析的数据对象进行冗余数据处理,为下一步“数据治理”做准备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210203245.9A CN114564691A (zh) | 2022-03-03 | 2022-03-03 | 一种基于逆矩阵的冗余数据判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210203245.9A CN114564691A (zh) | 2022-03-03 | 2022-03-03 | 一种基于逆矩阵的冗余数据判别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114564691A true CN114564691A (zh) | 2022-05-31 |
Family
ID=81718529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210203245.9A Pending CN114564691A (zh) | 2022-03-03 | 2022-03-03 | 一种基于逆矩阵的冗余数据判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114564691A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102572427A (zh) * | 2011-12-24 | 2012-07-11 | 辽宁师范大学 | 基于压缩感知的多描述图像编码和解码方法 |
US20160373210A1 (en) * | 2013-07-04 | 2016-12-22 | Norwegian University Of Science And Technology | Network coding over gf(2) |
CN109583061A (zh) * | 2018-11-16 | 2019-04-05 | 重庆邮电大学 | 一种基于参数集映射关系的三维模型尺寸完备性检查算法 |
CN110727909A (zh) * | 2019-09-30 | 2020-01-24 | 清华大学 | 一种基于能量平衡的传感器配置冗余度确定方法及系统 |
CN112180325A (zh) * | 2020-09-15 | 2021-01-05 | 清华大学 | 一种基于约束矩阵完备化的射频干扰源定位方法 |
CN113159211A (zh) * | 2021-04-30 | 2021-07-23 | 杭州好安供应链管理有限公司 | 用于相似图像检索的方法、计算设备和计算机存储介质 |
CN113568894A (zh) * | 2020-04-28 | 2021-10-29 | 中移动信息技术有限公司 | 数据库的数据冗余处理方法、装置、电子设备及存储介质 |
-
2022
- 2022-03-03 CN CN202210203245.9A patent/CN114564691A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102572427A (zh) * | 2011-12-24 | 2012-07-11 | 辽宁师范大学 | 基于压缩感知的多描述图像编码和解码方法 |
US20160373210A1 (en) * | 2013-07-04 | 2016-12-22 | Norwegian University Of Science And Technology | Network coding over gf(2) |
CN109583061A (zh) * | 2018-11-16 | 2019-04-05 | 重庆邮电大学 | 一种基于参数集映射关系的三维模型尺寸完备性检查算法 |
CN110727909A (zh) * | 2019-09-30 | 2020-01-24 | 清华大学 | 一种基于能量平衡的传感器配置冗余度确定方法及系统 |
CN113568894A (zh) * | 2020-04-28 | 2021-10-29 | 中移动信息技术有限公司 | 数据库的数据冗余处理方法、装置、电子设备及存储介质 |
CN112180325A (zh) * | 2020-09-15 | 2021-01-05 | 清华大学 | 一种基于约束矩阵完备化的射频干扰源定位方法 |
CN113159211A (zh) * | 2021-04-30 | 2021-07-23 | 杭州好安供应链管理有限公司 | 用于相似图像检索的方法、计算设备和计算机存储介质 |
Non-Patent Citations (1)
Title |
---|
陈露等: "线性代数", 31 August 2009, pages: 64 - 68 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Caruso et al. | Performance of microbiome sequence inference methods in environments with varying biomass | |
Osmundson et al. | Filling gaps in biodiversity knowledge for macrofungi: contributions and assessment of an herbarium collection DNA barcode sequencing project | |
US9348799B2 (en) | Forming a master page for an electronic document | |
US8843815B2 (en) | System and method for automatically extracting metadata from unstructured electronic documents | |
US9251248B2 (en) | Using context to extract entities from a document collection | |
US20170004256A1 (en) | Methods and apparatuses for generating reference genome data, generating difference genome data, and recovering data | |
CN107977368B (zh) | 信息提取方法及系统 | |
US8090720B2 (en) | Method for merging document clusters | |
US20160210339A1 (en) | Similarity determination apparatus, similarity determination method, and computer-readable recording medium | |
CN111326213B (zh) | 一种数据分析方法、装置、设备及存储介质 | |
CN112151117A (zh) | 一种基于时间序列宏基因组数据的动态观测装置及其检测方法 | |
CN107818320A (zh) | 基于开源ocr技术变电设备红外图像数值的识别方法 | |
US10540600B2 (en) | Method and apparatus for detecting changed data | |
CN114707003B (zh) | 一种论文作者姓名消歧的方法、设备及储存介质 | |
CN110532449B (zh) | 一种业务文档的处理方法、装置、设备和存储介质 | |
US20100191753A1 (en) | Extracting Patterns from Sequential Data | |
Sun et al. | Efficient and stable metabarcoding sequencing data using a DNBSEQ-G400 sequencer validated by comprehensive community analyses | |
WO2018161824A1 (zh) | 异常数据检测方法和装置 | |
CN114564691A (zh) | 一种基于逆矩阵的冗余数据判别方法 | |
CN116663002A (zh) | 一种ip软核恶意逻辑检测方法,系统,终端及存储介质 | |
CN114936208A (zh) | 一种基于数据清洗的信息分析系统 | |
JP5164876B2 (ja) | 代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP2002099555A (ja) | 文書分類装置及び文書分類方法 | |
CN110991296B (zh) | 视频标注方法、装置、电子设备及计算机可读存储介质 | |
US20230274406A1 (en) | Identifying derivatives of data items |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |