CN105183814A - 一种物联网数据清洗方法 - Google Patents
一种物联网数据清洗方法 Download PDFInfo
- Publication number
- CN105183814A CN105183814A CN201510534824.1A CN201510534824A CN105183814A CN 105183814 A CN105183814 A CN 105183814A CN 201510534824 A CN201510534824 A CN 201510534824A CN 105183814 A CN105183814 A CN 105183814A
- Authority
- CN
- China
- Prior art keywords
- data
- internet
- records
- record
- product raw
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种物联网数据清洗方法,包括以下步骤:S1、通过多个WEB交易平台获取产品原始记录;S2、检测并清除产品原始记录中多条相似重复记录;S3、集成剩下的记录,将剩下数据源中的结构和数据映射到目标结构与域中;S4、通过软件配置,或利用配置文件,对清洗规则进行定义;S5、读取设定的清洗规则,进行数据清洗。本申请能够将从多个WEB交易平台中获取的多条产品原始记录的脏数据转换为符合数据质量条件的数据,从而形成全面而专业的物联网产品数据库,为提供高效的、专业的产品交易信息服务给出了有力保障。
Description
技术领域
本发明涉及数据处理领域,特别是涉及一种物联网数据清洗方法。
背景技术
自Internet出现以来,互联网上的WEB页面的数量就飞速增长着,也恰是由于其这种增长速度,形成了世界上最大的信息资源库。WEB信息整合技术就是对这一个信息资源库进行有效处理,整合相关信息,为数据挖掘提供数据方面的支撑,以便更好地应用于专业领域中的信息服务。在当前飞速发展的网络时代,信息资源日益丰富,WEB信息整合已成为信息时代的重要内容,在多个领域中都有WEB信息整合的应用。
如在物联网领域中,产品供货商可以通过多个WEB交易平台发布产品信息,而买家可以从WEB交易平台中获取信息,并通过产品供货商所发布的信息可以联系到产品供货商进行购买;在这一过程中,就涉及到大量数据的处理。但是,由于每个WEB交易平台对信息的表述方式不尽相同,从而给信息整合带来了一定的困难。另外,同一个产品供货商去不同的WEB交易平台发布同一个产品可能会出现不同的表现形式,其会造成这些WEB产品交易平台上使用数据爬虫获取数据,进而会产生很多重复数据,因此,针对来自不同WEB数据源的、表述形式不一样的产品数据进行重复数据的清洗是非常有必要的,其是通过机器判断是否有重复数据的重要保障。
发明内容
鉴于以上所述现有技术的缺陷和各种不足之处,本发明要解决的技术问题在于提供一种物联网数据清洗方法。
为实现上述目的,本发明提供一种物联网数据清洗方法,包括以下步骤:
S1、通过多个WEB交易平台获取产品原始记录;
S2、检测并清除产品原始记录中多条相似重复记录;
S3、集成剩下的记录,将剩下数据源中的结构和数据映射到目标结构与域中;
S4、通过软件配置,或利用配置文件,对清洗规则进行定义;
S5、读取设定的清洗规则,进行数据清洗。
进一步地,所述步骤S2还包括以下步骤:
S21、数据预处理,对产品原始记录的数据形式进行格式化处理,清除比较明显的、可以初步判别的错误;
S22、缩小搜索空间,采用启发式的搜索算法;
S23、相似重复记录识别,检测出标识同一个现实实体的重复记录;
S24、相似重复记录清除,使得步骤S3中的每一条记录都代表唯一的实体;
S25、验证,通过召回率或准确率衡量相似重复记录的检测是否有效。
优选地,所述步骤S1还包括如下步骤:
S11、检测产品原始记录中的异常数据;
S12、消除产品原始记录中的异常数据。
本发明涉及的数据清洗方法具有以下有益效果:
本申请能够将从多个WEB交易平台中获取的多条产品原始记录的脏数据转换为符合数据质量条件的数据,从而形成全面而专业的物联网产品数据库,为提供高效的、专业的产品交易信息服务给出了有力保障。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图对本专利进行详细说明。
附图说明
图1为本申请的流程图。
具体实施方式
下面结合附图对本发明的优选实施例进行详细介绍。
本申请提供一种物联网数据清洗方法,用于将洗掉多个数据中的脏数据,发现并纠正数据文件中可识别的错误,以清除那些不符合要求的数据,保留符合数据质量条件的数据,然后将符合要求的数据建立数据库,为后续研究工作提供有力保障。如图1所示,所述数据清洗方法包括以下步骤:
S1、通过多个WEB交易平台获取产品原始记录;
S2、检测并清除产品原始记录中多条相似重复记录;
S3、集成剩下的记录,将剩下数据源中的结构和数据映射到目标结构与域中;
该步骤可以采用桶算法实现查询重写,也可以采用逆规则算法实现查询重写;
S4、通过软件配置,或利用配置文件,根据所需要的数据质量条件对清洗规则进行定义;
S5、读取设定的清洗规则,进行数据清洗。
通过上述步骤可清除多条产品原始记录数据中那些不符合相关准则的脏数据,特别是清除相似重复记录的数据,最后保留合乎要求的数据,将这些数据集成并建立相应的数据库,通过再次清洗(即步骤S4和步骤S5)去除数据中的残缺数据和错误数据,最终得到全面、准确、专业、符合数据质量条件的产品数据库,为提供高效专业的产品交易信息服务建立扎实的基础,为精确搜索、查询、对比乃至个性化服务提供有力的数据支持,最终为建立多样化的物联网产品交易平台提供有力支撑。
进一步地,所述步骤S2中,多条相似重复记录的检测并清除包括以下步骤:
S21、数据预处理,对产品原始记录的数据形式进行格式化处理,清除比较明显的、可以初步判别的错误。
S22、缩小搜索空间,采用启发式的搜索算法,如可以采用分类邻近法、笛卡尔积算法、聚类算法等,以较大地提升计算数目和有效性;其中,聚类算法还可避免因排序不当造成的相似重复记录不能被有效识别的问题,其在准确率和召回率等技术指标上有进一步地提升。另外,还可以根据各个属性的贡献程度对各属性赋予合理的权重,加入到相似记录的匹配算法中,以提高算法准确率;还可以在分析数据源动态时增加相似记录识别的问题,在数据模式不变的条件下,保证相似记录匹配的精确度。
S23、相似重复记录识别,检测出标识同一个现实实体的重复记录;该步骤即为匹配过程,使用合适的算法检测出标识同一个现实实体的重复记录;优选地,可采用字段匹配算法、编辑距离法等识别相似重复记录。
S24、相似重复记录清除,对检测出的相似重复记录进行合二为一或删除处理,使得步骤S3中的每一条记录都代表唯一的实体。
S25、验证,通过召回率或准确率衡量相似重复记录的检测是否有效。
本申请中,召回率是指被重复记录检测算法正确识别出的重复记录占记录集实际包含的重复记录的百分比。
准确率是指识别出的重复记录表示的是否是同一个实体,即标识误识别情况的程度。
另外,基于准确率和召回率,增加了一个新的衡量标准:F1值。该指标是评价查准率和查全率综合性能的指标,是两个指标的函数。
查全率和查准率之间是相互限制的,提高查准率就会降低查全率,相反,要提高查全率就会减少查准率。因此可以根据实际的情况,衡量二者之间的权重,以找到一个最适合的值。
较优地,本申请中,所述步骤S24主要通过三种方式处理相似重复记录,用户可根据具体实际情形进行选择。
方式一:人工方式,在由程序得出相似重复记录以后,由专家判断记录的取舍。
方式二,保留方式,在检测到的相似记录中由制定好规则的程序挑选其中一条记录保存下来,删除其它记录。这种方法最简单,但必须事先对程序的取舍规则进行设定。
方式三,合并方式,也就是把每条重复记录都当作完整记录的一部分,可以将其合并作为一条包含更完整信息的新记录,与第二条方法相似,必须对程序指定规则。
优选地,所述步骤S1还包括如下步骤:
S11、检测产品原始记录中的异常数据;
使用统计方法来检测数值型属性,计算字段值的均值和标准差,考虑每个字段的置信区间来识别异常字段和记录。将数据挖掘方法引入数据清理,如聚类方法用于检测异常记录、模型方法发现不符合现有模式的异常记录、关联规则方法发现数据集中不符合具有高置信度和支持度规则的异常数据。
S12、消除产品原始记录中的异常数据,即对重复记录进行清洗。
综上所述,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
以上对本发明实施例所提供的一种数据清洗方法进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制,凡依本发明设计思想所做的任何改变都在本发明的保护范围之内。
Claims (3)
1.一种物联网数据清洗方法,其特征在于:包括以下步骤:
S1、通过多个WEB交易平台获取产品原始记录;
S2、检测并清除产品原始记录中多条相似重复记录;
S3、集成剩下的记录,将剩下数据源中的结构和数据映射到目标结构与域中;
S4、通过软件配置,或利用配置文件,对清洗规则进行定义;
S5、读取设定的清洗规则,进行数据清洗。
2.根据权利要求1所述的一种物联网数据清洗方法,其特征在于:所述步骤S2还包括以下步骤:
S21、数据预处理,对产品原始记录的数据形式进行格式化处理,清除比较明显的、可以初步判别的错误;
S22、缩小搜索空间,采用启发式的搜索算法;
S23、相似重复记录识别,检测出标识同一个现实实体的重复记录;
S24、相似重复记录清除,使得步骤S3中的每一条记录都代表唯一的实体;
S25、验证,通过召回率或准确率衡量相似重复记录的检测是否有效。
3.根据权利要求1所述的一种物联网数据清洗方法,其特征在于:所述步骤S1还包括如下步骤:
S11、检测产品原始记录中的异常数据;
S12、消除产品原始记录中的异常数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510534824.1A CN105183814A (zh) | 2015-08-27 | 2015-08-27 | 一种物联网数据清洗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510534824.1A CN105183814A (zh) | 2015-08-27 | 2015-08-27 | 一种物联网数据清洗方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105183814A true CN105183814A (zh) | 2015-12-23 |
Family
ID=54905897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510534824.1A Pending CN105183814A (zh) | 2015-08-27 | 2015-08-27 | 一种物联网数据清洗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105183814A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776951A (zh) * | 2016-12-02 | 2017-05-31 | 航天星图科技(北京)有限公司 | 一种清洗对比入库方法 |
WO2017162083A1 (zh) * | 2016-03-25 | 2017-09-28 | 阿里巴巴集团控股有限公司 | 数据清洗方法和装置 |
CN107832450A (zh) * | 2017-11-23 | 2018-03-23 | 安徽科创智慧知识产权服务有限公司 | 用于清洗数据重复记录的方法 |
CN107992534A (zh) * | 2017-11-23 | 2018-05-04 | 安徽科创智慧知识产权服务有限公司 | 改进的排序关键字对数据集排序的方法 |
CN108984708A (zh) * | 2018-07-06 | 2018-12-11 | 蔚来汽车有限公司 | 脏数据识别方法及装置、数据清洗方法及装置、控制器 |
CN110850297A (zh) * | 2019-09-23 | 2020-02-28 | 广东毓秀科技有限公司 | 一种通过大数据预测轨交锂电池soh的方法 |
CN111667003A (zh) * | 2020-06-05 | 2020-09-15 | 北京百度网讯科技有限公司 | 数据清洗方法、装置、设备以及存储介质 |
CN111917600A (zh) * | 2020-06-12 | 2020-11-10 | 贵州大学 | 一种基于Spark性能优化的网络流量分类装置及分类方法 |
CN111949641A (zh) * | 2020-08-06 | 2020-11-17 | 武汉理工光科股份有限公司 | 一种多级平台间数据清洗与同步方法及系统 |
CN113127460A (zh) * | 2019-12-31 | 2021-07-16 | 北京懿医云科技有限公司 | 数据清洗框架的评估方法及其装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101251855A (zh) * | 2008-03-27 | 2008-08-27 | 腾讯科技(深圳)有限公司 | 一种互联网网页清洗方法、系统及设备 |
CN101814082A (zh) * | 2010-01-20 | 2010-08-25 | 中国人民解放军总参谋部第六十三研究所 | 一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法 |
CN102867282A (zh) * | 2012-09-13 | 2013-01-09 | 福建富士通信息软件有限公司 | 一种基于移动互联网的客户服务质量分析系统的实现方法 |
WO2013152810A1 (en) * | 2012-04-12 | 2013-10-17 | Qatar Foundation | Data cleaning |
WO2014122295A2 (en) * | 2013-02-07 | 2014-08-14 | Qatar Foundation | Methods and systems for data cleaning |
CN104112207A (zh) * | 2014-07-29 | 2014-10-22 | 浪潮软件集团有限公司 | 一种基于互联网数据的电子商务交易监测方法 |
CN104463630A (zh) * | 2014-12-11 | 2015-03-25 | 新一站保险代理有限公司 | 一种基于网购保险产品特性的产品推荐方法及系统 |
CN104731908A (zh) * | 2015-03-24 | 2015-06-24 | 浪潮集团有限公司 | 一种基于etl的数据清洗方法 |
-
2015
- 2015-08-27 CN CN201510534824.1A patent/CN105183814A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101251855A (zh) * | 2008-03-27 | 2008-08-27 | 腾讯科技(深圳)有限公司 | 一种互联网网页清洗方法、系统及设备 |
CN101814082A (zh) * | 2010-01-20 | 2010-08-25 | 中国人民解放军总参谋部第六十三研究所 | 一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法 |
WO2013152810A1 (en) * | 2012-04-12 | 2013-10-17 | Qatar Foundation | Data cleaning |
CN102867282A (zh) * | 2012-09-13 | 2013-01-09 | 福建富士通信息软件有限公司 | 一种基于移动互联网的客户服务质量分析系统的实现方法 |
WO2014122295A2 (en) * | 2013-02-07 | 2014-08-14 | Qatar Foundation | Methods and systems for data cleaning |
CN104112207A (zh) * | 2014-07-29 | 2014-10-22 | 浪潮软件集团有限公司 | 一种基于互联网数据的电子商务交易监测方法 |
CN104463630A (zh) * | 2014-12-11 | 2015-03-25 | 新一站保险代理有限公司 | 一种基于网购保险产品特性的产品推荐方法及系统 |
CN104731908A (zh) * | 2015-03-24 | 2015-06-24 | 浪潮集团有限公司 | 一种基于etl的数据清洗方法 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI735537B (zh) * | 2016-03-25 | 2021-08-11 | 香港商阿里巴巴集團服務有限公司 | 計算機可讀取儲存介質及資料清理裝置 |
WO2017162083A1 (zh) * | 2016-03-25 | 2017-09-28 | 阿里巴巴集团控股有限公司 | 数据清洗方法和装置 |
CN106776951A (zh) * | 2016-12-02 | 2017-05-31 | 航天星图科技(北京)有限公司 | 一种清洗对比入库方法 |
CN106776951B (zh) * | 2016-12-02 | 2019-04-26 | 中科星图股份有限公司 | 一种清洗对比入库方法 |
CN107832450A (zh) * | 2017-11-23 | 2018-03-23 | 安徽科创智慧知识产权服务有限公司 | 用于清洗数据重复记录的方法 |
CN107992534A (zh) * | 2017-11-23 | 2018-05-04 | 安徽科创智慧知识产权服务有限公司 | 改进的排序关键字对数据集排序的方法 |
CN108984708B (zh) * | 2018-07-06 | 2022-02-01 | 蔚来(安徽)控股有限公司 | 脏数据识别方法及装置、数据清洗方法及装置、控制器 |
CN108984708A (zh) * | 2018-07-06 | 2018-12-11 | 蔚来汽车有限公司 | 脏数据识别方法及装置、数据清洗方法及装置、控制器 |
CN110850297A (zh) * | 2019-09-23 | 2020-02-28 | 广东毓秀科技有限公司 | 一种通过大数据预测轨交锂电池soh的方法 |
CN113127460A (zh) * | 2019-12-31 | 2021-07-16 | 北京懿医云科技有限公司 | 数据清洗框架的评估方法及其装置、设备及存储介质 |
CN113127460B (zh) * | 2019-12-31 | 2023-11-17 | 北京懿医云科技有限公司 | 数据清洗框架的评估方法及其装置、设备及存储介质 |
CN111667003A (zh) * | 2020-06-05 | 2020-09-15 | 北京百度网讯科技有限公司 | 数据清洗方法、装置、设备以及存储介质 |
CN111667003B (zh) * | 2020-06-05 | 2023-11-03 | 北京百度网讯科技有限公司 | 数据清洗方法、装置、设备以及存储介质 |
CN111917600A (zh) * | 2020-06-12 | 2020-11-10 | 贵州大学 | 一种基于Spark性能优化的网络流量分类装置及分类方法 |
CN111949641A (zh) * | 2020-08-06 | 2020-11-17 | 武汉理工光科股份有限公司 | 一种多级平台间数据清洗与同步方法及系统 |
CN111949641B (zh) * | 2020-08-06 | 2023-07-14 | 武汉理工光科股份有限公司 | 一种多级平台间数据清洗与同步方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105183814A (zh) | 一种物联网数据清洗方法 | |
Mariani et al. | Measuring economic complexity of countries and products: which metric to use? | |
Leemans et al. | Discovering block-structured process models from event logs containing infrequent behaviour | |
CN103019933B (zh) | 测试用例覆盖度自动识别方法及装置 | |
US9514167B2 (en) | Behavior based record linkage | |
CN104756106A (zh) | 表征数据存储系统中的数据源 | |
CN111274495B (zh) | 用户关系强度的数据处理方法、装置、计算机设备及存储介质 | |
Sahu et al. | Establishing green supplier appraisement platform using grey concepts | |
CN107016018B (zh) | 数据库索引创建方法及装置 | |
CN109934268B (zh) | 异常交易检测方法及系统 | |
CN104615658A (zh) | 一种确定用户身份的方法 | |
CN104268216A (zh) | 一种基于互联网信息的数据清洗系统 | |
CN103559303A (zh) | 一种对数据挖掘算法的评估与选择方法 | |
CN110309131A (zh) | 海量结构化数据的质量评估方法及装置 | |
CN102609501B (zh) | 一种基于实时历史数据库的数据清洗方法 | |
US20130144908A1 (en) | Pattern-Based Stability Analysis Of Complex Data Sets | |
CN104732425A (zh) | 基于大数据的电商平台客户行为分析方法 | |
CN106293800A (zh) | 软件推荐方法和装置 | |
CN117575624A (zh) | 一种导电胶溯源管理系统 | |
CN108776660A (zh) | 一种基于ArcGIS的批量匹配道路属性的方法 | |
JP2013003669A (ja) | グラフ構造を有するデータから頻度の高い部分構造を抽出する方法、その装置およびプログラム | |
CN105468658B (zh) | 一种数据清洗方法及装置 | |
CN110688439A (zh) | 一种基于区域地理编码自动识别企业信息和分析的方法 | |
CN103853817B (zh) | 基于gis的海量统计数据的空间奇异点发掘方法 | |
CN108614811B (zh) | 一种数据分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151223 |
|
RJ01 | Rejection of invention patent application after publication |