CN108052626A - 一种基于动态规划方法实现数据去重装置及方法 - Google Patents

一种基于动态规划方法实现数据去重装置及方法 Download PDF

Info

Publication number
CN108052626A
CN108052626A CN201711372970.4A CN201711372970A CN108052626A CN 108052626 A CN108052626 A CN 108052626A CN 201711372970 A CN201711372970 A CN 201711372970A CN 108052626 A CN108052626 A CN 108052626A
Authority
CN
China
Prior art keywords
data
source
unit
similarity
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711372970.4A
Other languages
English (en)
Inventor
余良波
余国晶
洪玉
李华
雷俊智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Best Tone Information Service Corp Ltd
Original Assignee
Best Tone Information Service Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Best Tone Information Service Corp Ltd filed Critical Best Tone Information Service Corp Ltd
Priority to CN201711372970.4A priority Critical patent/CN108052626A/zh
Publication of CN108052626A publication Critical patent/CN108052626A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于动态规划方法实现数据去重装置及方法。包括数据排序单元,数据分组单元,数据清洗单元,数据相似度分析单元,数据输出单元;对所有数据进行排序得到排序后数据;将相似的排序后数据编成数据组;对数据组内提取source和traget进行清洗得到清洗后数据;对所述清洗后数据进行相似度分析得到分析结果;判断分析结果是否合格,判断合格后,输出合格数据。本发明大大降低人工匹配相似度信息,减少人工成本,提高工作效率,也保证数据质量准确性、一致性、标准性、完整性。

Description

一种基于动态规划方法实现数据去重装置及方法
技术领域
本发明涉及信息数据处理领域,具体涉及一种基于动态规划方法实现数据去重装置及方法。
背景技术
客户资料、商家信息是企业决策的基础,如果企业对客户资料、商家信息掌握不全、不准,就会判断失误,决策就会出现偏差,同时,如果企业无法制定出正确的经营战略和策略,客户关系就会破裂,出现客户流失。所以,企业必须全面、准确、及时地掌握客户的信息,才能够有针对性地开展经营活动,从而使企业的营销成本降到最低。
客户资料、商家信息是各个公司核心数据,商家信息的数据质量对业务开展至关重要。
商家信息的来源很多,典型的包括采编维、外部数据获取、网络爬取等。正因如此,对于数据质量的把控难度较高。
典型的数据质量问题包括:数据不全、数据有误、数据重复等,其中,数据重复问题一直是困扰日常业务开张的因素之一。举例说明:“名典咖啡朱雀店”与“名典咖啡(朱雀大街店)”二者实为一家店面,但系统却存在不同的记录。
为了解决以上问题,本发明提出了一种基于动态规划方法实现数据去重装置及方法,借助智能的方法来排查这样的错误,从而有效地解放人工维护,可以大大提高数据稽核的效率,进而提升数据的质量。
发明内容
本发明的目的是提供一种基于动态规划方法实现数据去重装置及方法,信息的相似度匹配方法很多,常见的有字符串拆分与匹配法、文本分词法等。但大部分对于海量数据处理都没有明显的优势,算法的效率与资源开销一直是阻碍方法普适性的关键。信息相似度匹配的基本思想是判别两项信息之间的重复程度,重复程度越高,则说明相似度越大,反之,表示越小。
本发明提供了如下方案:
一种基于动态规划方法实现数据去重装置,包括数据排序单元,数据分组单元,数据清洗单元,数据相似度分析单元,数据输出单元;数据排序单元用于将数据进行排序并传送给数据分组单元,数据分组单元用于对数据排序单元传送的数据分编成数据组,将数据组传送给数据清洗单元,数据清洗单元用于在数据组内提取source和traget进行清洗得到清洗后数据,将清洗后数据传送给数据相似度分析单元,数据相似度分析单元用于将清洗后数据进行相似度分析,经过多次数据清洗和相似度分析得到合格数据并发送给数据输出单元,数据输出单元将合格数据输出。
一种基于动态规划方法实现数据去重方法,包括步骤:
(1)对所有数据进行排序得到排序后数据;
(2)将相似的排序后数据编成数据组;
(3)对数据组内提取source和traget进行清洗得到清洗后数据;
(4)对清洗后数据进行相似度分析得到分析结果;
(5)判断分析结果是否合格,合格执行下一步,不合格执行步骤(3);
(6)输出合格数据。
进一步的,步骤(1)中所有数据为同一区域的所有数据。
进一步的,步骤(3)中对数据组内提取source和traget进行清洗得到清洗后数据,其过程如下,
a、将source和target以一个字符为单位进行拆分,放入数组source[]和target[];
b、判断source[1]和target[1],如果相同,不进行操作,不记录字符串相似度cost;如果不同,对source[]进行插入,替换或者删除操作,并记录字符串相似度cost;
c、判断source[2]和target[2],如果相同,不进行操作,不记录字符串相似度cost;如果不同,对source[]进行插入,替换或者删除操作,并记录字符串相似度cost;
d、重复c、d的步骤直至最后,输出source和target的字符串相似度cost。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明的一种基于动态规划方法实现数据去重装置及方法,大大降低人工匹配相似度信息,减少人工成本,提高工作效率,也保证数据质量准确性、一致性、标准性、完整性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于动态规划方法实现数据去重装置及方法的结构示意图;
图2为本发明一种基于动态规划方法实现数据去重装置及方法的流程图;
图中,1-数据排序单元,2-数据分组单元,3-数据清洗单元,4-数据相似度分析单元,5-数据输出单元。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于动态规划方法实现数据去重装置及方法,降低人工匹配相似度信息,减少人工成本,提高工作效率,也保证数据质量准确性、一致性、标准性、完整性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1:
一种基于动态规划方法实现数据去重装置,包括数据排序单元(1),数据分组单元(2),数据清洗单元(3),数据相似度分析单元(4),数据输出单元(5);数据排序单元(1)用于将数据进行排序并传送给数据分组单元(2),数据分组单元(2)用于对数据排序单元(1)传送的数据分编成数据组,将数据组传送给数据清洗单元(3),数据清洗单元(3)用于在数据组内提取source和traget进行清洗得到清洗后数据,将清洗后数据传送给数据相似度分析单元(4),数据相似度分析单元(4)用于将清洗后数据进行相似度分析,经过多次数据清洗和相似度分析得到合格数据并发送给数据输出单元(5),数据输出单元(5)将合格数据输出。
一种基于动态规划方法实现数据去重方法,包括步骤:
201、对所有数据进行排序得到排序后数据;
202、将相似的排序后数据编成数据组;
203、对数据组内提取source和traget进行清洗得到清洗后数据;
204、对清洗后数据进行相似度分析得到分析结果;
205、判断分析结果是否合格,合格执行下一步,不合格执行步骤(3);
206输出合格数据。
步骤201中所有数据为同一区域的所有数据。
步骤203中对数据组内提取source和traget进行清洗得到清洗后数据,其过程如下,
a、将source和target以一个字符为单位进行拆分,放入数组source[]和target[];
b、判断source[1]和target[1],如果相同,不进行操作,不记录字符串相似度cost;如果不同,对source[]进行插入,替换或者删除操作,并记录字符串相似度cost;
c、判断source[2]和target[2],如果相同,不进行操作,不记录字符串相似度cost;如果不同,对source[]进行插入,替换或者删除操作,并记录字符串相似度cost;
d、重复c、d的步骤直至最后,输出source和target的字符串相似度cost。
动态规划法-算法步骤与定义,具体步骤:
将同一区域的所有数据进行排序;
将相似的数据分成编成一组;
在组内提取source和target进行数据清洗;
清洗后的数据进行相似度分析,如果不合格再继续提取source和target进行数据清洗,直到数据相似度合格;
将结果进行重复判断,如果合格,输出结果,将这批数据剔除出来;如果不合格,此次操作无效;
假设
source=“招商银行之双榆树分行”;
Target=“北京招商行双榆树路支行”。
Len(source)=10;----source信息长度;
Len(target)=11;---target信息长度;
Source[i]---source信息子串,截取第1至第i个位置;
Target[j]---target信息子串,截取第1至第j个位置;
d[i,j]=min(cost(source[i],target[j]))-信息串source[i]与信息串[j]之间的相似距离;
动态规划法-核心算法
具体步骤:
1、将source和target以一个字符为单位进行拆分,放入数组source[]和target[]
2、判断source[1]和target[1],如果相同,不进行操作,不记录字符串相似度cost;如果不同,对source[]进行插入,替换或者删除操作,并记录字符串相似度cost
3、判断source[2]和target[2],如果相同,不进行操作,不记录字符串相似度cost;如果不同,对source[]进行插入,替换或者删除操作,并记录字符串相似度cost
4、重复2、3的步骤直至最后,输出source和target的字符串相似度cost
动态规划法-示例演算
source=“招商银行之双榆树分行”;Target=“北京招商银行双榆树路支行”。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (4)

1.一种基于动态规划方法实现数据去重装置,其特征在于,包括数据排序单元,数据分组单元,数据清洗单元,数据相似度分析单元,数据输出单元;所述数据排序单元用于将数据进行排序并传送给所述数据分组单元,所述数据分组单元用于对所述数据排序单元传送的数据分编成数据组,将所述数据组传送给所述数据清洗单元,所述数据清洗单元用于在所述数据组内提取source和traget进行清洗得到清洗后数据,将所述清洗后数据传送给所述数据相似度分析单元,所述数据相似度分析单元用于将所述清洗后数据进行相似度分析,经过多次数据清洗和相似度分析得到合格数据并发送给所述数据输出单元,所述数据输出单元将所述合格数据输出。
2.一种基于动态规划方法实现数据去重方法,其特征在于,包括步骤:
(1)对所有数据进行排序得到排序后数据;
(2)将相似的所述排序后数据编成数据组;
(3)对所述数据组内提取source和traget进行清洗得到清洗后数据;
(4)对所述清洗后数据进行相似度分析得到分析结果;
(5)判断分析结果是否合格,合格执行下一步,不合格执行步骤(3);
(6)输出合格数据。
3.根据权利要求2所述的一种基于动态规划方法实现数据去重方法,其特征在于:步骤(1)中所述所有数据为同一区域的所有数据。
4.如权利要求2所述的一种基于动态规划方法实现数据去重方法,其特征在于:步骤(3)中对所述数据组内提取source和traget进行清洗得到清洗后数据,其过程如下,
a、将source和target以一个字符为单位进行拆分,放入数组source[]和target[];
b、判断source[1]和target[1],如果相同,不进行操作,不记录字符串相似度cost;如果不同,对source[]进行插入,替换或者删除操作,并记录字符串相似度cost;
c、判断source[2]和target[2],如果相同,不进行操作,不记录字符串相似度cost;如果不同,对source[]进行插入,替换或者删除操作,并记录字符串相似度cost;
d、重复c、d的步骤直至最后,输出source和target的字符串相似度cost。
CN201711372970.4A 2017-12-19 2017-12-19 一种基于动态规划方法实现数据去重装置及方法 Pending CN108052626A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711372970.4A CN108052626A (zh) 2017-12-19 2017-12-19 一种基于动态规划方法实现数据去重装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711372970.4A CN108052626A (zh) 2017-12-19 2017-12-19 一种基于动态规划方法实现数据去重装置及方法

Publications (1)

Publication Number Publication Date
CN108052626A true CN108052626A (zh) 2018-05-18

Family

ID=62133801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711372970.4A Pending CN108052626A (zh) 2017-12-19 2017-12-19 一种基于动态规划方法实现数据去重装置及方法

Country Status (1)

Country Link
CN (1) CN108052626A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299443A (zh) * 2018-09-04 2019-02-01 中山大学 一种基于最小顶点覆盖的新闻文本去重方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980922A (zh) * 2017-03-03 2017-07-25 国网天津市电力公司 一种基于大数据的输变电设备状态评价方法
US20170308557A1 (en) * 2016-04-21 2017-10-26 LeanTaas Method and system for cleansing and de-duplicating data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170308557A1 (en) * 2016-04-21 2017-10-26 LeanTaas Method and system for cleansing and de-duplicating data
CN106980922A (zh) * 2017-03-03 2017-07-25 国网天津市电力公司 一种基于大数据的输变电设备状态评价方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨家娥: ""基于特征优选的数据清洗方法研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
郑纪玲: ""数据清洗在构建POI数据仓库中的研究与应用"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299443A (zh) * 2018-09-04 2019-02-01 中山大学 一种基于最小顶点覆盖的新闻文本去重方法
CN109299443B (zh) * 2018-09-04 2023-04-14 中山大学 一种基于最小顶点覆盖的新闻文本去重方法

Similar Documents

Publication Publication Date Title
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN109492091A (zh) 一种基于卷积神经网络的投诉工单智能分类方法
CN109033497B (zh) 一种面向高并发的多阶段数据挖掘算法智能选择方法
CN109922038A (zh) 一种用于电力终端的异常数据的检测方法及装置
CN107766371A (zh) 一种文本信息分类方法及其装置
CN104077407B (zh) 一种智能数据搜索系统及方法
CN102315974A (zh) 基于层次化特征分析的tcp、udp流量在线识别方法和装置
CN105938600A (zh) 一种基于b/s架构工单流转的客户投诉解决方法及系统
CN103902731A (zh) 一种基于知识库查询的智能化信息检修方法
CN109784388A (zh) 窃电用户识别方法和装置
CN107016599A (zh) 一种订单集合分组方法及装置
CN104796300B (zh) 一种数据包特征提取方法及装置
CN111966875A (zh) 一种敏感信息识别方法和装置
CN105592487A (zh) 一种lte网络业务流量评估方法及装置
CN108428061B (zh) 基于dea-ga-bp的智能评标决策系统和评标方法
CN108052626A (zh) 一种基于动态规划方法实现数据去重装置及方法
CN111008215B (zh) 一种结合标签构建与社区关系规避的专家推荐方法
CN106712928A (zh) 基于大数据彩虹表的解密方法和装置
Mc Evoy et al. A review of knowledge management in the public sector: A taxonomy
CN107784588A (zh) 保险用户信息合并方法和装置
CN110362828A (zh) 网络资讯风险识别方法及系统
CN106127602A (zh) 一种基于约简离群点算法的窃电辨识方法及装置
Shahhoseini et al. Presenting human resource risk management model in the banking industry based on Grounded Theory (case study: Mellat Banks of Tehran)
CN105537131B (zh) 一种基于多样化信息协同的邮件分拣系统
Li et al. An Object Detection Model for Electric Power Operation Sites Based on Federated Self-supervised Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180518