CN112069510B - 一种数据加密排重方法 - Google Patents

一种数据加密排重方法 Download PDF

Info

Publication number
CN112069510B
CN112069510B CN202010721943.9A CN202010721943A CN112069510B CN 112069510 B CN112069510 B CN 112069510B CN 202010721943 A CN202010721943 A CN 202010721943A CN 112069510 B CN112069510 B CN 112069510B
Authority
CN
China
Prior art keywords
data
index
file name
field
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010721943.9A
Other languages
English (en)
Other versions
CN112069510A (zh
Inventor
严丽君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Si Tech Information Technology Co Ltd
Original Assignee
Beijing Si Tech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Si Tech Information Technology Co Ltd filed Critical Beijing Si Tech Information Technology Co Ltd
Priority to CN202010721943.9A priority Critical patent/CN112069510B/zh
Publication of CN112069510A publication Critical patent/CN112069510A/zh
Application granted granted Critical
Publication of CN112069510B publication Critical patent/CN112069510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption

Abstract

本发明公开了一种数据加密排重方法,包括以下步骤:读取电信支撑系统中用户使用记录数据库中的记录数据,将文件名信息插入断点表中;提取记录数据的文件名并进行MD5加密运算得到文件名字段;提取记录数据在文件中的行号得到行号字段;提取记录数据中的若干索引字段组合形成索引信息,将索引信息进行MD5加密运算并得到索引字段;根据索引字段在排重数据表中进行排重,回滚处理时,若索引字段、文件名字段、行号字段相同,则进行删除,完成回滚。本发明通过上述排重方法实现数据的排重同时,也能节省空间。

Description

一种数据加密排重方法
技术领域
本发明属于电信业务支撑技术领域,涉及一种数据加密排重方法,具体涉及一种电信支撑系统的数据加密排重方法。
背景技术
电信支撑系统要保证进入计费系统的数据不重复,若进入计费系统的数据重复,则会造成重复计费。为此,在电信支撑系统中需要对用户的使用记录进行排重处理,将重复记录拦截下来,进而保证进入计费系统不重复。
发明内容
针对现有技术中存在的上述问题,本发明提供一种电信支撑系统的数据加密排重方法。
本发明公开了一种数据加密排重方法,包括以下步骤:
读取电信支撑系统中用户使用记录数据库中的记录数据,将文件名信息插入断点表中;
提取记录数据的文件名并进行MD5加密运算得到文件名字段,文件名字段为4个32位分组组成的散列值;
提取记录数据在文件中的行号得到行号字段;
提取记录数据中的若干索引字段组合形成索引信息,将索引信息进行MD5加密运算并得到索引字段,索引字段为4个32位分组组成的散列值;
根据索引字段在排重数据表中进行排重,回滚处理时,若索引字段、文件名字段、行号字段相同,则进行删除,完成回滚。
作为本发明的进一步改进,在读取记录数据前,将数据库中的记录数据以若干特征条件分配到数据子库中并从数据子库中读取记录数据。
作为本发明的进一步改进,以通话时间段作为数据分配的特征条件或特征条件之一。
作为本发明的进一步改进,以用户ID作为数据分配的特征条件或特征条件之一。
作为本发明的进一步改进,以区域范围作为数据分配的特征条件或特征条件之一。
作为本发明的进一步改进,还包括断点恢复方法,具体为以下步骤:
读取断点表中的文件名信息,以文件名信息为指针读取数据库中断点文件的记录数据;
提取记录数据的文件名并进行MD5加密运算得到文件名字段;
提取记录数据中的若干索引字段组合形成索引信息,将索引信息进行MD5加密运算并得到索引字段;
以文件名字段和索引字段共同组成判定条件删除数据排重表内的对应记录数据,完成后中断返回原数据文件并重新开始排重。
作为本发明的进一步改进,采用DBCursor光标顺序读取数据库中的数据。
作为本发明的进一步改进,所述行号字段为Integer数据类型。
与现有技术相比,本发明的有益效果为:
本发明通过MD5加密可将不同输入长度的数据信息(索引和文件名)变换成一个128位的固定长度数据,并且该加密方法是一个不可逆的字符串变换算法,既满足保密功能,防止用户数据的泄露,又具有规整型,不用担心因为信息长度过长导致系统异常的情况发生;
本发明将数据以一定特征进行分组处理,每个子数据库相对于原数据库数据存储压力减小,减少系统对内存的需求,同时,这样的分割有利于多任务的并发操作,使每一个组在排重时仅仅涉及本身所对应的排重子表,达到对海量话单进行同时排重,极大程度的提高了排重效率。
附图说明
图1为本发明一种实施例公开的数据加密排重方法的流程图;
图2为本发明一种实施例公开的断点恢复方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,本发明提供一种数据加密排重方法,包括以下步骤:
步骤1、读取电信支撑系统中用户使用记录数据库中的记录数据,将文件名信息插入断点表中;其中,
记录数据的表结构为:
步骤2、提取记录数据的文件名并进行MD5加密运算得到文件名字段,文件名字段为4个32位分组组成的散列值;
步骤3、提取记录数据在文件中的行号得到行号字段;
步骤4、提取记录数据中的若干索引字段组合形成索引信息,将索引信息进行MD5加密运算并得到索引字段,索引字段为4个32位分组组成的散列值;
步骤5、根据索引字段在排重数据表中进行排重,回滚处理时,若索引字段、文件名字段、行号字段相同,则进行删除,完成回滚。
进一步,在步骤1读取记录数据前:还包括:
为每一个数据子库对应的建立排重数据子表;将数据库中的记录数据以若干特征条件分配到数据子库中,并从数据子库中读取记录数据;其中,
各所述数据子库和对应的排重数据子表同时数据排重;
以通话时间段作为数据分配的特征条件或特征条件之一;或者,以用户ID作为数据分配的特征条件或特征条件之一;或者,以区域范围作为数据分配的特征条件或特征条件之一。
进一步,在步骤1中可采用DBCursor光标顺序读取数据库中的数据;
进一步,本发明的上述步骤2~4中,其顺序可任意变更。
如图2所示,本发明还包括断点恢复方法,即把断点文件里已经插入到内存库里的记录删除,重新进行排重处理;具体为以下步骤:
步骤a、读取断点表中的文件名信息,以文件名信息为指针读取数据库中断点文件的记录数据;
步骤b、提取记录数据的文件名并进行MD5加密运算得到文件名字段;
步骤c、提取记录数据中的若干索引字段组合形成索引信息,将索引信息进行MD5加密运算并得到索引字段;
步骤d、以文件名字段和索引字段共同组成判定条件删除数据排重表内的对应记录数据,完成后中断返回原数据文件并重新开始排重。
实施例:
电信支撑系统的用户使用记录都具有很强的时间性,也就是说所有的用户的使用记录都有记录发生的时间的。电信支撑系统处理的用户使用记录,实时性都比较强,90%以上的记录,在一小时之内都进入支撑系统处理。电信支撑系统的使用记录都是某个用户的,都对应着一个用户id,从以下两方面对排重索引表进行组织:
1、根据记录的的时间,把记录放到不同的表内进行排重,在某一个时间内进行排重的数据量,就是那个时间段内的记录的数量。可以根据业务的量,进行合理的表的设计,可以大大的减少系统对内存的需求。
2、对用户id进行某种运算,将用户分成若干组,每个组有单独的表。这样分割表有利于多任务的并发操作。
上述方法达到了某个时间内的排重仅仅涉及到一小部分的表,从而达到可以对海量的话单进行排重。
本发明的优点为:
本发明通过MD5加密可将不同输入长度的数据信息(索引和文件名)变换成一个128位的固定长度数据,并且该加密方法是一个不可逆的字符串变换算法,既满足保密功能,防止用户数据的泄露,又具有规整型,不用担心因为信息长度过长导致系统异常的情况发生;本发明将数据以一定特征进行分组处理,每个子数据库相对于原数据库数据存储压力减小,减少系统对内存的需求,同时,这样的分割有利于多任务的并发操作,使每一个组在排重时仅仅涉及本身所对应的排重子表,达到对海量话单进行同时排重,极大程度的提高了排重效率。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种数据加密排重方法,其特征在于,包括以下步骤:
为每一个数据子库对应的建立排重数据子表;将数据库中的记录数据以若干特征条件分配到数据子库中,并从数据子库中读取记录数据;其中,各所述数据子库和对应的排重数据子表同时数据排重;
读取电信支撑系统中用户使用记录数据库中的记录数据,将文件名信息插入断点表中;
提取记录数据的文件名并进行MD5加密运算得到文件名字段,文件名字段为4个32位分组组成的散列值;
提取记录数据在文件中的行号得到行号字段;
提取记录数据中的若干索引字段组合形成索引信息,将索引信息进行MD5加密运算并得到索引字段,索引字段为4个32位分组组成的散列值;
根据索引字段在排重数据表中进行排重,回滚处理时,若索引字段、文件名字段、行号字段相同,则进行删除,完成回滚。
2.根据权利要求1所述的数据加密排重方法,其特征在于,在读取记录数据前,将数据库中的记录数据以若干特征条件分配到数据子库中并从数据子库中读取记录数据。
3.根据权利要求2所述的数据加密排重方法,其特征在于,以通话时间段作为数据分配的特征条件或特征条件之一。
4.根据权利要求2所述的数据加密排重方法,其特征在于,以用户ID作为数据分配的特征条件或特征条件之一。
5.根据权利要求2所述的数据加密排重方法,其特征在于,以区域范围作为数据分配的特征条件或特征条件之一。
6.根据权利要求1所述的数据加密排重方法,其特征在于,还包括断点恢复方法,具体为以下步骤:
读取断点表中的文件名信息,以文件名信息为指针读取数据库中断点文件的记录数据;
提取记录数据的文件名并进行MD5加密运算得到文件名字段;
提取记录数据中的若干索引字段组合形成索引信息,将索引信息进行MD5加密运算并得到索引字段;
以文件名字段和索引字段共同组成判定条件删除数据排重表内的对应记录数据,完成后中断返回原数据文件并重新开始排重。
7.根据权利要求1所述的数据加密排重方法,其特征在于,采用DBCursor光标顺序读取数据库中的数据。
8.根据权利要求1所述的数据加密排重方法,其特征在于,所述行号字段为Integer数据类型。
CN202010721943.9A 2020-07-24 2020-07-24 一种数据加密排重方法 Active CN112069510B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010721943.9A CN112069510B (zh) 2020-07-24 2020-07-24 一种数据加密排重方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010721943.9A CN112069510B (zh) 2020-07-24 2020-07-24 一种数据加密排重方法

Publications (2)

Publication Number Publication Date
CN112069510A CN112069510A (zh) 2020-12-11
CN112069510B true CN112069510B (zh) 2024-01-30

Family

ID=73656612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010721943.9A Active CN112069510B (zh) 2020-07-24 2020-07-24 一种数据加密排重方法

Country Status (1)

Country Link
CN (1) CN112069510B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860650A (zh) * 2021-02-08 2021-05-28 广州仪速安电子科技有限公司 一种仪器故障告警方法和装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004206810A (ja) * 2002-12-25 2004-07-22 Sharp Corp データ管理方法、データ管理装置、データ管理プログラム、データ管理プログラムを格納したコンピュータ読み取り可能な記憶媒体
JP2004334664A (ja) * 2003-05-09 2004-11-25 Toshiyuki Tani 取引情報の集約方法及び関連システム
CN1809108A (zh) * 2006-02-20 2006-07-26 南京联创科技股份有限公司 基于过滤片的话单内存排重方法
CN101159795A (zh) * 2007-10-25 2008-04-09 中兴通讯股份有限公司 一种话单排重方法及装置
CN101286156A (zh) * 2007-05-29 2008-10-15 北大方正集团有限公司 基于元数据去除重复对象的方法
CN101442731A (zh) * 2008-12-12 2009-05-27 中国移动通信集团安徽有限公司 一种话单剔重方法和装置
CN102156744A (zh) * 2011-04-18 2011-08-17 北京神州数码思特奇信息技术股份有限公司 一种内存话单剔重方法
CN102169499A (zh) * 2011-04-18 2011-08-31 北京神州数码思特奇信息技术股份有限公司 一种话单剔重方法
CN103177111A (zh) * 2013-03-29 2013-06-26 西安理工大学 重复数据删除系统及其删除方法
CN105930396A (zh) * 2016-04-15 2016-09-07 北京思特奇信息技术股份有限公司 一种基于数据库的剔重方法及系统
CN106599326A (zh) * 2017-01-23 2017-04-26 北京思特奇信息技术股份有限公司 一种云化架构下的记录数据剔重处理方法及系统
CN107273449A (zh) * 2017-05-27 2017-10-20 北京思特奇信息技术股份有限公司 一种基于内存数据库的断点处理方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5004777B2 (ja) * 2007-12-06 2012-08-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 仮想空間における行動履歴の効率的記録方法および再生方法
US8271462B2 (en) * 2010-12-10 2012-09-18 Inventec Corporation Method for creating a index of the data blocks
US8719236B2 (en) * 2012-08-23 2014-05-06 Microsoft Corporation Selecting candidate rows for deduplication

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004206810A (ja) * 2002-12-25 2004-07-22 Sharp Corp データ管理方法、データ管理装置、データ管理プログラム、データ管理プログラムを格納したコンピュータ読み取り可能な記憶媒体
JP2004334664A (ja) * 2003-05-09 2004-11-25 Toshiyuki Tani 取引情報の集約方法及び関連システム
CN1809108A (zh) * 2006-02-20 2006-07-26 南京联创科技股份有限公司 基于过滤片的话单内存排重方法
CN101286156A (zh) * 2007-05-29 2008-10-15 北大方正集团有限公司 基于元数据去除重复对象的方法
CN101159795A (zh) * 2007-10-25 2008-04-09 中兴通讯股份有限公司 一种话单排重方法及装置
CN101442731A (zh) * 2008-12-12 2009-05-27 中国移动通信集团安徽有限公司 一种话单剔重方法和装置
CN102156744A (zh) * 2011-04-18 2011-08-17 北京神州数码思特奇信息技术股份有限公司 一种内存话单剔重方法
CN102169499A (zh) * 2011-04-18 2011-08-31 北京神州数码思特奇信息技术股份有限公司 一种话单剔重方法
CN103177111A (zh) * 2013-03-29 2013-06-26 西安理工大学 重复数据删除系统及其删除方法
CN105930396A (zh) * 2016-04-15 2016-09-07 北京思特奇信息技术股份有限公司 一种基于数据库的剔重方法及系统
CN106599326A (zh) * 2017-01-23 2017-04-26 北京思特奇信息技术股份有限公司 一种云化架构下的记录数据剔重处理方法及系统
CN107273449A (zh) * 2017-05-27 2017-10-20 北京思特奇信息技术股份有限公司 一种基于内存数据库的断点处理方法及系统

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
RTP Payload Format for Generic Forward Error Correction;A. Li;Network Working Group;第1-44页 *
大数据环境下的话单排重;张超;;江苏通信(第04期);第46-48页 *
实时计费重单剔除技术研究;吴杰, 王文杰;计算机应用与软件(第10期);第61-63页 *
成都电信实时计费系统中的话单分析及处理;董婷;中国优秀硕士学位论文全文数据库 信息科技辑 2009年(第11期);全文 *
用户感知的重复数据删除算法;张沪寅;周景才;陈毅波;查文亮;;软件学报(第10期);第2581-2595页 *
电信话单去重技术的研究;夏明伟;施荣华;;电脑知识与技术(学术交流)(第07期);第251-252页 *
重复话单剔除技术剖析;杨志雄;电信技术(第08期);第69-71页 *

Also Published As

Publication number Publication date
CN112069510A (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN110879813B (zh) 一种基于二进制日志解析的MySQL数据库增量同步实现方法
CN105989129A (zh) 实时数据统计方法和装置
CN111061758B (zh) 数据存储方法、装置及存储介质
CN102629247A (zh) 一种数据处理方法、装置和系统
CN108875077B (zh) 数据库的列存储方法、装置、服务器及存储介质
CN112069510B (zh) 一种数据加密排重方法
CN107169003B (zh) 一种数据关联方法及装置
CN107291881A (zh) 基于HBase的海量日志存储和查询方法
CN116756253B (zh) 关系型数据库的数据存储、查询方法、装置、设备和介质
CN112835918A (zh) 一种MySQL数据库增量同步实现方法
CN106599113B (zh) 用于网管系统海量性能数据的数据库读写方法
CN111045994B (zh) 一种基于kv数据库的文件分类检索方法及系统
WO2023197865A1 (zh) 一种信息存储方法及装置
CN106599326B (zh) 一种云化架构下的记录数据剔重处理方法及系统
Peng et al. A hive-based retrieval optimization scheme for long-term storage of massive call detail records
CN101799803B (zh) 信息处理方法、模块及系统
CN110990394B (zh) 分布式面向列数据库表的行数统计方法、装置和存储介质
CN111143329B (zh) 一种数据处理方法及装置
CN111639151A (zh) 一种全文检索的高效保存倒排索引方法
CN112052240A (zh) 一种基于协处理器的HBase二级内存索引构建方法
CN111767436A (zh) 一种hash索引数据的存储、读取方法与系统
CN101447886B (zh) 一种比较海量数据的方法及装置
CN108959284B (zh) 列式数据库中数据处理方法和装置
KR102013839B1 (ko) 데이터베이스 관리 방법, 시스템 및 데이터베이스 트리 구조
CN109992701B (zh) 一种链表实现方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant