CN102609419B - 相似数据排重方法 - Google Patents

相似数据排重方法 Download PDF

Info

Publication number
CN102609419B
CN102609419B CN201110023939.6A CN201110023939A CN102609419B CN 102609419 B CN102609419 B CN 102609419B CN 201110023939 A CN201110023939 A CN 201110023939A CN 102609419 B CN102609419 B CN 102609419B
Authority
CN
China
Prior art keywords
data
information
metadata
similar data
hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110023939.6A
Other languages
English (en)
Other versions
CN102609419A (zh
Inventor
杨健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJINGDUXIU TECHNOLOGY Co Ltd
Original Assignee
BEIJINGDUXIU TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJINGDUXIU TECHNOLOGY Co Ltd filed Critical BEIJINGDUXIU TECHNOLOGY Co Ltd
Priority to CN201110023939.6A priority Critical patent/CN102609419B/zh
Publication of CN102609419A publication Critical patent/CN102609419A/zh
Application granted granted Critical
Publication of CN102609419B publication Critical patent/CN102609419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种相似数据排重方法,包括以下步骤:将所获取的相似数据输入至服务器;提取相似数据的特征向量,对特征向量的每个信息进行预处理,得到每个信息的字符型索引数据;对每个索引数据进行编码转换,生成每个信息的数值型哈希数据;以及根据信息的权重,逐一判断特征向量的哈希数据与数据库服务器中存储的标准数据信息是否为相同的数据,并将结果返回给用户。通过本发明的方法可以快速的对数据不同但反应信息相同的相似数据进行排重处理,且其正确率高,稳定性好。

Description

相似数据排重方法
技术领域
本发明涉及数据信息处理技术领域,特别涉及的是一种能够对大规模相似数据信息进行排重处理的方法。
背景技术
随着信息技术的不断发展,各类信息大量涌现,实际应用中,对大量数据进行排重的要求越来越多。例如:在搜索引擎系统中,需要判断哪些数据信息已经收集在系统中。由于互联网的数据信息众多,须要有专门的方法对新发现的数据信息进行判断,检查其是否已经收录于信息库中,如果该数据信息已经存在,只需要进行更新信息来源属性;如果该数据信息不存在,则需要进行数据信息的收集以及标识信息来源属性的新建操作。
又如:在电信业务方面,运营商在向用户提供数据类业务服务的过程中需要对该用户所使用业务的信息进行准确记录,以作为计费依据,如果不对该用户所使用的大量的各种电信业务的记录数据进行排重工作,很容易造成重复收费的情况;再如:文献数据库的管理及维护工作中,也需要判断哪些相同或相似的文献已经收集在文献数据库中,如果该文献数据已经存在,只需要进行更新该文献的来源属性;如果该文献数据不存在,则需要进行文献数据的收集以及标识信息来源属性的新建操作。
然而,目前大多数排重方法可以实现完全相同数据的快速排重处理,对于如何解决数据不相同、反映信息相同的排重即相似数据排重仍没有有效的实施方法,所以,对相似数据的排重成为了一个新的方向。
为克服上述缺陷,本发明的创作者经过长时间的研究和实践获得了本创作。
发明内容
本发明的主要目的在于克服现有技术的不足,提供了一种相似数据排重方法,实现了对相似数据的快速、准确的排重处理。
为达到上述目的,本发明采用的技术方案在于,提供一种相似数据排重方法,其包括以下步骤:
将所获取的相似数据输入至服务器;
提取所述的相似数据的特征向量,对所述的特征向量的每个信息进行预处理,得到每个所述的信息的字符型索引数据;
对每个所述的索引数据进行编码转换,生成每个所述的信息的数值型哈希数据;以及
根据所述的信息的权重,逐一判断所述的特征向量的哈希数据与数据库服务器中存储的标准数据信息是否为相同的数据,并将结果返回给用户。
实施时,若所获取的相似数据是多个相似数据,则还包括步骤:
将多个所述的特征向量的哈希数据按值聚类,每个类包含多个所述的特征向量的同一值的信息。
实施时,对所述的信息的预处理包括以下步骤:
获取服务器中与所述的相似数据结构一致的信息字典;
过滤所述的信息中干扰排重结果的噪声词;
将完成噪声词过滤的每一所述的信息进行拆分,得到多个拆分数据;
对照所述的信息字典分别对所述的拆分数据进行检验及修正处理;以及
将上述处理后的拆分数据按照预定的字符结构重新格式化,得到与数据库服务器中的标准数据信息的结构一致的待检验数据。
其中,对所述的相似数据的拆分方式包括按字符进行拆分、按间隔符及字符个数进行拆分或者以所述的信息字典的字符为标准进行拆分。
实施时,对所述的索引数据进行编码转换采用MD5哈希函数或SHA-1哈希函数实现。
其中,所述的相似数据是指需要参与排重处理,由若干属性组成,能反映完整信息的数据实例。
特征向量是指相似数据的固有属性。假设数据源为数据库中的表,则属性对应表中字段。
本发明的有益效果:通过本发明的方法可以快速的对相似数据进行排重处理,经过相似数据的预处理,使得相似数据的存储形式得到统一规范,提高了排重的正确性;同时通过对相似数据的编码变换,将相似数据转换为数值型哈希数据,压缩了数据空间,提高了系统响应的速度。
附图说明
图1为本发明的相似数据排重方法的第一实施例;
图2为本发明的相似数据排重方法的第二实施例;
图3为本发明的相似数据排重方法的数据预处理过程的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明的相似数据的排重是指对那些数据不同,但反应的信息相同的数据进行排重;本发明的相似数据可以是单个相似数据,也可以是多个相似数据。
请参阅图1,为本发明的第一实施例,即所获取的相似数据为单个相似数据的情况,本发明提供的一种相似数据排重方法,包括以下步骤:
步骤1:将所获取的相似数据输入至服务器;
步骤2:提取所述的相似数据的特征向量,对所述的特征向量的每个信息进行预处理,得到每个所述的信息的字符型索引数据;
步骤3:对每个所述的索引数据进行编码转换,使用预定字符替代所述的索引数据中的相似字符,并将编码转换后的索引数据生成每个所述的信息的数值型哈希数据;以及
步骤4:根据所述的信息的权重,逐一判断所述的特征向量的哈希数据与数据库服务器中存储的标准数据信息是否为相同的数据,并将结果返回给用户。
其中,所述的相似数据是指需要参与排重处理,由若干属性信息组成,并能反映完整信息的数据实例。
其中,所述的特征向量是指相似数据的固有属性,即可以用于进行相似数据排重处理的字段;例如,若数据源为数据库中的表,则固有属性对应表中字段;对于相似数据是图书或文献来说,其固有属性包括名称、责任者、出版发行机构、出版发行年份等以上字段的任意组合,但不以此为限,用来唯一标识该相似数据。所述的特征向量根据数据源的不同,其属性的种类和数量会有所不同。
请参阅图2,为本发明的第二实施例,即所获取的相似数据为多个相似数据的情况,本发明提供的一种相似数据排重方法,包括以下步骤:
步骤a:将所获取的相似数据输入至服务器;
步骤b:提取所述的相似数据的特征向量,对所述的特征向量的每个信息进行预处理,得到每个所述的信息的字符型索引数据;
步骤c:对每个所述的索引数据进行编码转换,使用预定字符替代所述的索引数据中的相似字符,并将编码转换后的索引数据生成每个所述的信息的数值型哈希数据;以及
步骤d:将多个所述的特征向量的哈希数据按属性值聚类,每个类包含多个所述的特征向量的同一属性值的信息以提高排重的速度;以及
步骤e:根据每个所述的类的权重判断多个所述的特征向量的信息与数据库服务器中存储的标准数据信息是否为相同的数据,并将结果分别存储于所述的服务器的相同集合和非相同集合两个存储区域,并将所述的相同集合和非相同集合的存储结果返回给用户。
其中,所述的相似数据是指需要参与排重处理,由若干属性信息组成,并能反映完整信息的数据实例。
其中,所述的特征向量是指相似数据的固有属性,即可以用于进行相似数据排重处理的字段;例如,若数据源为数据库中的表,则固有属性对应表中字段;对于相似数据是图书或文献来说,其固有属性包括名称、责任者、出版发行机构、出版发行年份等以上字段的任意组合,但不以此为限,用来唯一标识该相似数据。所述的特征向量根据数据源的不同,其属性的种类和数量会有所不同。
本发明的第一实施例或第二实施例在实施时,步骤4及步骤e中的判断过程是根据所述的相似数据的特征向量的每个信息的权重进行判断,首先对权重最大的信息的哈希数据进行判断,若数据库服务器中不存在该哈希数据,则该哈希数据所对应的相似数据为不同的数据,并将该相似数据置于非相同集合;若数据库服务器中存在该哈希数据,则继续判断权重次之的信息的哈希数据,直至该相似数据的所有的信息的哈希数据与所述的数据库服务器中已存在的数据的所有的对应的信息相同,则该相似数据为已存在的数据,并将该相似数据置于相同集合。
例如,若相似数据来源于数据库中的某一个表,根据该相似数据的特征向量,生成检验执行标准:在判断时,首先对该相似数据的一个属性字段进行判断,如果不同,则判断为非相同,并将该相似数据置于非相同集合;如果相同,则继续扩展其他属性进行判断,直至该相似数据的每个属性字段都相同,则判断为相同,并将该相似数据置于相同集合。
本发明的第一实施例或第二实施例在实施时,对所述的索引数据进行编码转换可采用MD5哈希函数或SHA-1哈希函数等方法实现;并且可以是二进制、八进制等多种形式存储。
本发明的第一实施例或第二实施例在实施时,可将所述的相同集合和非相同集合为所述的服务器中的两个存储区域。
本发明的第一实施例或第二实施例在实施时,可以将数据排重的结果(即相同的相似数据及非相同的相似数据)分别以两个集合的模式返回给用户,以供用户后期处理。
请参阅图3,本发明的第一实施例或第二实施例在实施时,对相似数据的预处理包括以下步骤:
S101:获取服务器中与所述的相似数据结构一致的信息字典,以提高预处理的速度及准确度;
S102:利用信息字典结构一致性的特点,过滤所述的信息中干扰排重结果的噪声词;
S103:将完成噪声词过滤的每一所述的信息进行拆分,得到多个拆分数据;
S104:对照所述的信息字典分别对所述的拆分数据进行检验及修正处理;以及
S105:将上述处理后的拆分数据按照预定的字符结构重新格式化,得到与数据库服务器中的标准数据信息的结构一致的待检验数据。
其中,对所述的相似数据的拆分方式包括对字符进行拆分、按间隔符及字符个数进行拆分或者以所述的信息字典的字符为标准进行拆分,但拆分方式不限于此。
其中,所述的信息字典是指字符的集合。
其中,所述的噪声词是指与数据整体结构不一致、干扰排重结果的字符。
其中,错误词是指明显不符合规范的字符。
较佳地,为了提高排重的速度,可根据信息的特征,生成对应的检验执行标准;在排重过程中,可以将每种信息对应的检验执行标准配置保存到服务器中,从而提高了其通用性。
经过数据预处理,使得相似数据的存储形式得到统一规范,提高了排重的正确性;同时通过数据编码模块,将相似数据转换为数值型,压缩了数据空间,提高了系统响应的速度。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其进行限制;本领域的普通技术人员可以对发明的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也包含这些改动和变型在内。

Claims (3)

1.一种相似数据排重方法,其特征在于,其包括以下步骤:
将所获取的相似数据输入至服务器;
提取所述的相似数据的特征向量,对所述的特征向量的每个信息进行预处理,得到每个所述的信息的字符型索引数据;
对每个所述的索引数据进行编码转换,生成每个所述的信息的数值型哈希数据;以及,
根据所述的信息的权重,逐一判断所述的特征向量的哈希数据与数据库服务器中存储的标准数据信息是否为相同的数据,并将结果返回给用户;
对所述的索引数据进行编码转换采用MD5哈希函数或SHA-1哈希函数实现;
所述根据所述的信息的权重,逐一判断所述的特征向量的哈希数据与数据库服务器中存储的标准数据信息是否为相同的数据具体包括:首先对权重最大的信息的哈希数据进行判断,若数据库服务器中不存在该哈希数据,则该哈希数据对应的相似数据为不同的数据,并将该相似数据置于非相同集合,若数据库中存在该哈希数据,则继续判断权重次之的信息的哈希数据,直至该相似数据的所有的信息的哈希数据与所述的数据库服务器中已存在的数据的所有的对应的信息相同,则该相似数据为已存在的数据,并将该相似数据置于相同集合;
所述的信息的预处理包括以下步骤:
获取服务器中与所述的相似数据结构一致的信息字典;
过滤所述的信息中干扰排重结果的噪声词;
将完成噪声词过滤的每一所述的信息进行拆分,得到多个拆分数据;
对照所述的信息字典分别对所述的拆分数据进行检验及修正处理;以及
将上述处理后的拆分数据按照预定的字符结构重新格式化,得到与数据库服务器中的标准数据信息的结构一致的待检验数据。
2.根据权利要求1所述的相似数据排重方法,其特征在于,若所获取的相似数据是多个相似数据,则还包括步骤:
将多个所述的特征向量的哈希数据按值聚类,每个类包含多个所述的特征向量的同一值的信息。
3.根据权利要求2所述的相似数据排重方法,其特征在于,对所述的相似数据的拆分方式至少包括按字符进行拆分、按间隔符及字符个数进行拆分或者以所述的信息字典的字符为标准进行拆分。
CN201110023939.6A 2011-01-21 2011-01-21 相似数据排重方法 Active CN102609419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110023939.6A CN102609419B (zh) 2011-01-21 2011-01-21 相似数据排重方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110023939.6A CN102609419B (zh) 2011-01-21 2011-01-21 相似数据排重方法

Publications (2)

Publication Number Publication Date
CN102609419A CN102609419A (zh) 2012-07-25
CN102609419B true CN102609419B (zh) 2015-02-18

Family

ID=46526801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110023939.6A Active CN102609419B (zh) 2011-01-21 2011-01-21 相似数据排重方法

Country Status (1)

Country Link
CN (1) CN102609419B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462527A (zh) * 2014-12-22 2015-03-25 龙信数据(北京)有限公司 一种数据去重的方法及装置
CN110134761A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 判决文书信息检索方法、装置、计算机设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286156A (zh) * 2007-05-29 2008-10-15 北大方正集团有限公司 基于元数据去除重复对象的方法
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286156A (zh) * 2007-05-29 2008-10-15 北大方正集团有限公司 基于元数据去除重复对象的方法
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统

Also Published As

Publication number Publication date
CN102609419A (zh) 2012-07-25

Similar Documents

Publication Publication Date Title
CN111382226B (zh) 一种数据库查询检索方法、装置和电子设备
CN107957957B (zh) 测试用例的获取方法和装置
CN104598376B (zh) 一种数据驱动的分层自动化测试系统和方法
CN104239377A (zh) 跨平台的数据检索方法及装置
CN106951557B (zh) 日志关联方法、装置和应用其的计算机系统
CN102662965A (zh) 一种自动发现互联网热点新闻主题的方法及系统
CN103678494A (zh) 客户端同步服务端数据的方法及装置
US20230018975A1 (en) Monolith database to distributed database transformation
CN103810212A (zh) 一种数据库索引的自动创建方法及系统
CN101925899A (zh) 对文件内容进行分布式索引
CN105760380A (zh) 数据库查询方法、装置及系统
CN106503274A (zh) 一种数据整合与搜索方法及服务器
CN104834650A (zh) 一种有效查询任务生成方法及系统
CN105069101A (zh) 分布式索引构建及检索方法
CN104484392A (zh) 数据库查询语句生成方法及装置
CN104636401A (zh) 一种scada系统数据回滚的方法及装置
CN103279489A (zh) 一种元数据的存储方法、装置
CN105095436A (zh) 数据源数据自动建模方法
US11232108B2 (en) Method for managing data from different sources into a unified searchable data structure
CN105224663A (zh) 一种基于多个数据源的数据访问任务管理方法及装置
CN102609419B (zh) 相似数据排重方法
CN104714983B (zh) 分布式索引的生成方法及装置
CN107239568B (zh) 分布式索引实现方法及装置
CN115617773A (zh) 数据迁移的方法、装置和系统
CN104572730A (zh) 数字资源导入、导出方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 100085 2 floor 1, four street, Haidian District, Beijing.

Patentee after: BeijingDuxiu Technology Co., Ltd.

Address before: 100085 C-710, Jiahua building, nine, Shang di San Jie, Haidian District, Beijing.

Patentee before: BeijingDuxiu Technology Co., Ltd.