CN114564691A - 一种基于逆矩阵的冗余数据判别方法 - Google Patents
一种基于逆矩阵的冗余数据判别方法 Download PDFInfo
- Publication number
- CN114564691A CN114564691A CN202210203245.9A CN202210203245A CN114564691A CN 114564691 A CN114564691 A CN 114564691A CN 202210203245 A CN202210203245 A CN 202210203245A CN 114564691 A CN114564691 A CN 114564691A
- Authority
- CN
- China
- Prior art keywords
- matrix
- data
- redundant
- inverse matrix
- redundant data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于逆矩阵的冗余数据判别方法,首先是将需要分析的数据对象进行数值化后转化成矩阵形式,然后对该矩阵求逆,看是否能够求出逆矩阵,最后根据是否存在逆矩阵来判断该数据对象是否存在冗余信息。当不存在逆矩阵时,说明该数据对象不存在冗余信息,不需要做任何处理;当存在逆矩阵时,说明该数据对象存在冗余信息,需要进行冗余信息剔除处理,为下一步“数据治理”做准备。该方法较之于传统的异常数据判别方法,把数据分析对象转化为矩阵形式,简单易操作,只需确定所转化的矩阵是否存在逆矩阵,就可给出该数据中是否存在冗余信息的结论,简单明了。
Description
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种基于逆矩阵的冗余数据判别方法。
背景技术
随着大数据时代的到来,数据和信息的重要性越来越大。数据以视频、音频、图片、文字等方式形式存在,当前大数据时代的开拓性导致了数据存在冗余的现象。在对数据进行数据挖掘的过程中,实际并不需要所有的数据,排除冗余数据留下有价值的数据才是关键,这就需要进行“数据治理”。随着数据量的增大,如何快速地判别出数据堆里是否存在冗余数据也变得越来越难,寻求一种高效快速的冗余数据判别方法成为一种必然。
发明内容
本发明所要解决的技术问题是提供一种基于逆矩阵的冗余数据判别方法,高效快速,以解决现有技术中导致的上述多项缺陷。
为实现上述目的,本发明提供以下的技术方案:一种基于逆矩阵的冗余数据判别方法,包括如下步骤:
1)把需要分析的数据对象数值化;
2)对数值化后的数据集转化成矩阵;
3)利用增广矩阵变换,对矩阵进行求逆矩阵变换;
4),根据是否存在逆矩阵来判断该数据对象是否存在冗余信息;当不存在逆矩阵时,说明该数据对象不存在冗余信息,不需要做任何处理;当存在逆矩阵时,说明该数据对象存在冗余信息,需要进行冗余信息剔除处理。
优选的,所述步骤1)中,在图片、文字、数据库中提取数据资源,记为D,然后把D数值化。
优选的,所述步骤2)中,将D转化为数据集X,即,
其中,X为m×n的多维数据。
优选的,所述步骤3)中,所述对矩阵X进行逆矩阵求解;
在特征矩阵右侧放置一个同阶的单位矩阵,形成一个新的矩阵Xa,即增广矩阵,
通过矩阵行列变换,看是否能够转化成矩阵Xb,即,
优选的,所述步骤4)中,假设特征数据集X中第a行与第b行存在冗余数据xaj和xbj,j=1,2,…n;由于存在冗余的数据,即数据不存在信息,xaj和xbj有一个数据无价值,即xaj或xbj元素可为0。X的增广矩阵Xa中始终无法把原特征矩阵变换为单位矩阵,因此无法转化得到Xb,从而可检测特征数据集中是否存在冗余数据;
根据Xb存在与否,来判断X是否存在冗余数据:
如果Xb存在,则矩阵X不存在冗余数据,即不需要对分析的数据对象进行冗余数据处理;
如果Xb不存在,则矩阵X存在冗余数据,即需要对分析的数据对象进行冗余数据处理,为下一步“数据治理”做准备。
采用以上技术方案的有益效果是:通过把需要判别是否存在冗余信息的数据转化为矩阵形式,简单易操作;只需确定所转化的矩阵是否存在逆矩阵,就可给出该数据中是否存在冗余信息的结论,简单明了。
附图说明
图1为本发明一种基于逆矩阵的冗余数据判别方法的流程图。
具体实施方式
下面详细说明本发明的优选实施方式。
根据图1所示,一种基于逆矩阵的冗余数据判别方法,首先是将需要分析的数据对象进行数值化,接着转化成矩阵形式,然后对该矩阵求逆,看是否能够求出逆矩阵,最后根据是否存在逆矩阵来判断该数据对象是否存在冗余信息。当不存在逆矩阵时,说明该数据对象不存在冗余信息,不需要做任何处理;当存在逆矩阵时,说明该数据对象存在冗余信息,需要进行冗余信息剔除处理,为下一步“数据治理”做准备。
把“数据治理”中的需要分析的数据对象,首先在图片、文字、数据库中提取数据资源,记为D,然后把D数值化,转化为数据集X,即
其中,X为m×n的多维数据。
然后,对矩阵X进行逆矩阵求解。在特征矩阵右侧放置一个同阶的单位矩阵,形成一个新的矩阵Xa,即增广矩阵
通过矩阵行列变换,看是否能够转化成矩阵Xb,即
假设特征数据集X中第a行与第b行存在冗余数据xaj和xbj,j=1,2,…n。由于存在冗余的数据,即数据不存在信息,xaj和xbj有一个数据无价值,即xaj或xbj元素可为0。X的增广矩阵Xa中始终无法把原特征矩阵变换为单位矩阵,因此无法转化得到Xb,从而可检测特征数据集中是否存在冗余数据。
根据Xb存在与否,来判断X是否存在冗余数据:
如果Xb存在,则矩阵X不存在冗余数据,即不需要对分析的数据对象进行冗余数据处理;
如果Xb不存在,则矩阵X存在冗余数据,即需要对分析的数据对象进行冗余数据处理,为下一步“数据治理”做准备。
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。这里以某专业某班级学生的成绩分数为例:
实例1:
假设该班3名同学的各科成绩如下表。
姓名 | 高等数学 | 大学英语 | 数据结构 |
张三 | 96 | 97 | 68 |
李四 | 89 | 98 | 78 |
王五 | 65 | 89 | 76 |
结论:数据集X1可求出逆矩阵,即Xb存在,说明X1中不存在冗余数据。
实例2:
假设该班3名同学的各科成绩如下表。
姓名 | 高等数学 | 大学英语 | 数据结构 |
张三 | 96 | 97 | 68 |
李四 | 89 | 98 | 78 |
张三 | 96 | 97 | 68 |
此时,无法通过矩阵变换,得到Xb。
结论:数据集X2求不出逆矩阵,即Xb不存在,说明X2中存在冗余数据。从表格中可以看出,第一行和第三行数据是重复的。此时下一步应该对数据进行冗余处理。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (5)
1.一种基于逆矩阵的冗余数据判别方法,其特征在于,包括如下步骤:
1)把需要分析的数据对象数值化;
2)对数值化后的数据集转化成矩阵;
3)利用增广矩阵变换,对矩阵进行求逆矩阵变换;
4),根据是否存在逆矩阵来判断该数据对象是否存在冗余信息;当不存在逆矩阵时,说明该数据对象不存在冗余信息,不需要做任何处理;当存在逆矩阵时,说明该数据对象存在冗余信息,需要进行冗余信息剔除处理。
2.根据权利要求1所述的基于逆矩阵的冗余数据判别方法,其特征在于,所述步骤1)中,在图片、文字、数据库中提取数据资源,记为D,然后把D数值化。
5.根据权利要求1所述的基于逆矩阵的冗余数据判别方法,其特征在于,所述步骤4)中,假设特征数据集X中第a行与第b行存在冗余数据xaj和xbj,j=1,2,…n;由于存在冗余的数据,即数据不存在信息,xaj和xbj有一个数据无价值,即xaj或xbj元素可为0。X的增广矩阵Xa中始终无法把原特征矩阵变换为单位矩阵,因此无法转化得到Xb,从而可检测特征数据集中是否存在冗余数据;
根据Xb存在与否,来判断X是否存在冗余数据:
如果Xb存在,则矩阵X不存在冗余数据,即不需要对分析的数据对象进行冗余数据处理;
如果Xb不存在,则矩阵X存在冗余数据,即需要对分析的数据对象进行冗余数据处理,为下一步“数据治理”做准备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210203245.9A CN114564691A (zh) | 2022-03-03 | 2022-03-03 | 一种基于逆矩阵的冗余数据判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210203245.9A CN114564691A (zh) | 2022-03-03 | 2022-03-03 | 一种基于逆矩阵的冗余数据判别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114564691A true CN114564691A (zh) | 2022-05-31 |
Family
ID=81718529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210203245.9A Pending CN114564691A (zh) | 2022-03-03 | 2022-03-03 | 一种基于逆矩阵的冗余数据判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114564691A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102572427A (zh) * | 2011-12-24 | 2012-07-11 | 辽宁师范大学 | 基于压缩感知的多描述图像编码和解码方法 |
US20160373210A1 (en) * | 2013-07-04 | 2016-12-22 | Norwegian University Of Science And Technology | Network coding over gf(2) |
CN109583061A (zh) * | 2018-11-16 | 2019-04-05 | 重庆邮电大学 | 一种基于参数集映射关系的三维模型尺寸完备性检查算法 |
CN110727909A (zh) * | 2019-09-30 | 2020-01-24 | 清华大学 | 一种基于能量平衡的传感器配置冗余度确定方法及系统 |
CN112180325A (zh) * | 2020-09-15 | 2021-01-05 | 清华大学 | 一种基于约束矩阵完备化的射频干扰源定位方法 |
CN113159211A (zh) * | 2021-04-30 | 2021-07-23 | 杭州好安供应链管理有限公司 | 用于相似图像检索的方法、计算设备和计算机存储介质 |
CN113568894A (zh) * | 2020-04-28 | 2021-10-29 | 中移动信息技术有限公司 | 数据库的数据冗余处理方法、装置、电子设备及存储介质 |
-
2022
- 2022-03-03 CN CN202210203245.9A patent/CN114564691A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102572427A (zh) * | 2011-12-24 | 2012-07-11 | 辽宁师范大学 | 基于压缩感知的多描述图像编码和解码方法 |
US20160373210A1 (en) * | 2013-07-04 | 2016-12-22 | Norwegian University Of Science And Technology | Network coding over gf(2) |
CN109583061A (zh) * | 2018-11-16 | 2019-04-05 | 重庆邮电大学 | 一种基于参数集映射关系的三维模型尺寸完备性检查算法 |
CN110727909A (zh) * | 2019-09-30 | 2020-01-24 | 清华大学 | 一种基于能量平衡的传感器配置冗余度确定方法及系统 |
CN113568894A (zh) * | 2020-04-28 | 2021-10-29 | 中移动信息技术有限公司 | 数据库的数据冗余处理方法、装置、电子设备及存储介质 |
CN112180325A (zh) * | 2020-09-15 | 2021-01-05 | 清华大学 | 一种基于约束矩阵完备化的射频干扰源定位方法 |
CN113159211A (zh) * | 2021-04-30 | 2021-07-23 | 杭州好安供应链管理有限公司 | 用于相似图像检索的方法、计算设备和计算机存储介质 |
Non-Patent Citations (1)
Title |
---|
陈露等: "线性代数", 31 August 2009, pages: 64 - 68 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101315622B (zh) | 检测文件相似度的系统及方法 | |
CN107301244A (zh) | 一种商标分卡处理的方法、装置、系统及商标存储器 | |
CN110909123B (zh) | 一种数据提取方法、装置、终端设备及存储介质 | |
CN101826099B (zh) | 一种相似文档识别、文档扩散度确定的方法及系统 | |
CN112151117A (zh) | 一种基于时间序列宏基因组数据的动态观测装置及其检测方法 | |
CN110781333A (zh) | 一种基于机器学习的斜拉桥非结构化监测数据处理方法 | |
KR20220143230A (ko) | 악성민원 검출장치 및 그 방법 | |
CN104182966B (zh) | 一种规则碎纸自动拼接方法 | |
CN114564691A (zh) | 一种基于逆矩阵的冗余数据判别方法 | |
CN104731908A (zh) | 一种基于etl的数据清洗方法 | |
CN107423285A (zh) | 一种基于文本规则的公司简称识别方法及系统 | |
Guan et al. | An effective image steganalysis method based on neighborhood information of pixels | |
CN114078568B (zh) | 基于iib型限制性内切酶特征的宏基因组测序数据处理系统及处理方法 | |
CN112287657B (zh) | 基于文本相似度的信息匹配系统 | |
Alvarado et al. | Selection of enzymes for terminal restriction fragment length polymorphism analysis of fungal internally transcribed spacer sequences | |
CN113704287A (zh) | 一种基于大数据的数据对比分析筛选系统及方法 | |
CN108510442B (zh) | 基于绝对值距离优化的单面碎纸片拼接复原方法 | |
CN116975738A (zh) | 一种面向问句意图识别的多项式朴素贝叶斯分类方法 | |
CN109754159B (zh) | 一种电网运行日志的信息提取方法及系统 | |
CN104462406A (zh) | 一种提取文本模型特征进行分类算法 | |
Ahmed | Sample size in arabic authorship verification | |
US20120239654A1 (en) | Related document search system, device, method and program | |
Schmidt et al. | A concept for plagiarism detection based on compressed bitmaps | |
CN111832314A (zh) | 一种具有分析对象指向性的文本情感判别方法 | |
CN101819625B (zh) | 识别设备和识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220531 |
|
RJ01 | Rejection of invention patent application after publication |