CN104133883B - 电话号码归属地数据压缩方法 - Google Patents

电话号码归属地数据压缩方法 Download PDF

Info

Publication number
CN104133883B
CN104133883B CN201410364590.6A CN201410364590A CN104133883B CN 104133883 B CN104133883 B CN 104133883B CN 201410364590 A CN201410364590 A CN 201410364590A CN 104133883 B CN104133883 B CN 104133883B
Authority
CN
China
Prior art keywords
number section
netherlands
data
section
index value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410364590.6A
Other languages
English (en)
Other versions
CN104133883A (zh
Inventor
刘凯赞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Topwise Communication Co ltd
Original Assignee
Shenzhen Ding Zhi Link Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ding Zhi Link Communications Inc filed Critical Shenzhen Ding Zhi Link Communications Inc
Priority to CN201410364590.6A priority Critical patent/CN104133883B/zh
Publication of CN104133883A publication Critical patent/CN104133883A/zh
Application granted granted Critical
Publication of CN104133883B publication Critical patent/CN104133883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供一种电话号码归属地数据压缩方法,包括以下几个步骤:步骤一,将所有地区名排序并记录,用记录号作为地区名的索引值;步骤二,排序号段数据,并把每号段对应的地区名替换成索引值;步骤三,将号段数据根据号段排序分块,并分别压缩每块号段数据;步骤四,通过电话号码得到号段;步骤五,通过号段找到对应的块信息;步骤六,解压块数据,得到对应号段对应地区名的索引值;步骤七,通过索引值得到地区名。本发明提供的电话号码归属地数据压缩方法,通过将号段数据分块,每块数据分别压缩,在检索时,可通过号段先找到对应的块,再解压该块的数据获得索引值,并通过索引值最终找到对应地区名称,这样解压的数据小,压缩率高,运算速度快。

Description

电话号码归属地数据压缩方法
技术领域
本发明涉及计算机程序领域,尤其涉及一种电话号码归属地数据压缩方法。
背景技术
电话号码的归属地功能是目前手机上一种常用功能,它是以查找20万条以上的电话区段数据来实现的。这些原始数据大约占用5M空间,这对于某些存储能力有限的设备来说占用的空间太大并且使得读取和搜索这些数据花费的时间太长。因此有必要对此数据进行压缩。
其它类似的压缩方法有的采用z i p、rar等通用方法,压缩后的数据是500K左右,但解压方法相对比较复杂,运行速度慢。还有的方法用索引方式来压缩,压缩后的数据是460K左右。它们的共同问题是对设备的运算能力及内存容量(从几十K到几百K)有要求,因此只适合在硬件成本较高的平台使用。
发明内容
本发明的目的在于提供一种节省存储空间,降低存储器的硬件成本,加快数据访问时间的电话号码归属地数据压缩方法。
为实现上述目的,本发明提供一种电话号码归属地数据压缩方法,包括以下几个步骤:
步骤一,将所有地区名排序并记录,用记录号作为地区名的索引值;
步骤二,排序号段数据,并把每号段对应的地区名替换成索引值;
步骤三,将号段数据根据号段排序分块,并分别压缩每块号段数据;
步骤四,通过电话号码得到号段;
步骤五,通过号段找到对应的块信息;
步骤六,解压块数据,得到对应号段对应地区名的索引值;
步骤七,通过索引值得到地区名。
其中,在所述步骤一中,在储存有所有电话号码的号段和各号段对应的地区名称的数据表格中提取所有出现的地区名,将地区名排序并记录,用记录号作为地区名的索引值。
其中,在所述步骤二中,所述号段数据指任意七位数号段以及每个号段所对应的地区名,如果该七位数号段没有对应的地区名,则对应索引值为0。
其中,在所述步骤三中,每块共记录1000条号段数据;把每块的所有号段对应的地区名的索引值放到一个大小为1000的数组中,把这个数组的高、低字节对应放入两个1000字节的数组中,然后对每个字节数组进行压缩,首个号段的值作为该块的检索值。
其中,在所述步骤四中,如果电话号码是坐机号,则号段为区号;如果电话号码是手机号,则号段为号码的前七位。
相较于现有技术,本发明提供的电话号码归属地数据压缩方法,通过将地区名排序并记录由记录号作为索引值,能够减小数据规模;并将号段数据分块,每块数据分别压缩,在检索时,可通过号段先找到对应的块,再解压该块的数据获得索引值,并通过索引值最终找到对应地区名称,这样解压的数据小,解压缩度快。本发明提供的电话号码归属地数据压缩方法的优点是压缩率高、方法简单、运算速度快、占用内存小;适用范围从PC机到低端单片机系统均能适配;对高端设备能节省空间,提高电话号码归属地查询的速度;对低端机能有效的降低硬件成本。
附图说明
图1为本发明的电话号码归属地数据压缩方法的流程图。
具体实施方式
参阅图1,本发明提供的电话号码归属地数据压缩方法,包括以下几个步骤:
步骤一,将所有地区名排序并记录,用记录号作为地区名的索引值;
步骤二,排序号段数据,并把每号段对应的地区名替换成索引值;
步骤三,将号段数据根据号段排序分块,并分别压缩每块号段数据;
步骤四,通过电话号码得到号段;
步骤五,通过号段找到对应的块信息;
步骤六,解压块数据,得到对应号段对应地区名的索引值;
步骤七,通过索引值得到地区名。
在本发明中,步骤一到步骤三是生成压缩数据的过程,步骤四到步骤七是通过号码得到地区名的过程;这两个过程并不是一个连续的过程;生成压缩数据的过程是由PC机来完成,会输出一个数据文件;步骤四到步骤七是在应用了本发明的设备上运行的,上述数据文件会放到此设备上,步骤四到步骤七所用到的“块信息”都是从这个数据文件里读取的。
相较于现有技术,本发明提供的电话号码归属地数据压缩方法,通过将地区名排序并记录由记录号作为索引值,能够减小数据规模;并将号段数据分块,每块数据分别压缩,在检索时,可通过号段先找到对应的块,再解压该块的数据获得索引值,并通过索引值最终找到对应地区名称,这样解压的数据小,解压缩度快。本发明提供的电话号码归属地数据压缩方法的优点是压缩率高、方法简单、运算速度快、占用内存小;适用范围从PC机到低端单片机系统均能适配;对高端设备能节省空间,提高电话号码归属地查询的速度;对低端机能有效的降低硬件成本。
本方法能把原始数据压缩到100K左右,且方法简单,运算速度快;能有效地节省存储空间,降低存储器的硬件成本,加快数据访问时间,最小内存只需2K以内,因此能适应很低端的硬件平台。
电话号码的归属地功能是靠查数据表格实现的,这个数据表格中储存有所有电话号码的号段和各号段对应的地区名称,而这个表的数据量很大,目前的号段数据多于20万条。原始的电话号码归属地数据表是以号段和号段的所属地为一条记录。此处号段以10000个号码为一段,也就是对应手机号码的前7位,
步骤一至步骤三,均是对上述数据表格的进一步优化处理,以使上述数据能更合理高效的利用。
在步骤一中,在上述数据表格中提取所有出现的地区名,将地区名排序并记录,用记录号作为地区名的索引值。即利用索引值代替地区名,以减小数据大小。
在步骤二中,排序号段数据,并将号段数据与索引值对应。
在步骤三中,每块共记录1000条号段数据;把每块的所有号段对应的地区名的索引值放到一个大小为1000的数组中,把这个数组的高、低字节对应放入两个1000字节的数组中,然后对每个字节数组进行压缩,首个号段的值作为该块的检索值。
如把1300000到1300999的地区名的索引数据放到一个大小为1000的数组中,如果其中某个号段不存在,则索引值置为0;这就是1300000为首的“块”的数据;因为地区名最多不超过65535即计算机的16位无符号数能表示的最大值,因此可把这个数组的高、低字节对应放入两个1000字节的数组中,然后对每个字节数组进行压缩,然后把每块的信息,包括首个号段的值,压缩后的数据大小,及压缩后的数据输出“数据文件”中。
在本实施例中,在步骤二中,号段数据指任意七位数号段以及每个号段所对应的地区名,如果该七位数号段没有对应的地区名,则对应索引值为0。一条数据指一个任意号段及该号段所对应的地区名,如果号段并不是电话号码的一部分,则该段号码不对应地区名,期待对应的索引值为0。
在本实施例中,在步骤四中,如果电话号码是坐机号,则号段为区号;如果电话号码是手机号,则号段为号码的前七位。
本方法能把原始数据压缩到100K左右,且方法简单,运算速度快;能有效地节省存储空间,降低存储器的硬件成本,加快数据访问时间,最小内存只需2K以内,因此能适应很低端的硬件平台。
以上仅为本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种电话号码归属地数据压缩方法,其特征在于,包括以下几个步骤:
步骤一,将所有地区名排序并记录,用记录号作为地区名的索引值;
步骤二,排序号段数据,并把每号段对应的地区名替换成索引值;
步骤三,将号段数据根据号段排序分块,并分别压缩每块号段数据;
步骤四,通过电话号码得到号段;
步骤五,通过号段找到对应的块信息;
步骤六,解压块数据,得到对应号段对应地区名的索引值;
步骤七,通过索引值得到地区名;
在所述步骤三中,每块共记录1000条号段数据;把每块的所有号段对应的地区名的索引值放到一个大小为1000的数组中,把这个数组的高、低字节对应放入两个1000字节的数组中,然后对每个字节数组进行压缩,首个号段的值作为该块的检索值。
2.根据权利要求1所述的电话号码归属地数据压缩方法,其特征在于,在所述步骤一中,在储存有所有电话号码的号段和各号段对应的地区名称的数据表格中提取所有出现的地区名,将地区名排序并记录,用记录号作为地区名的索引值。
3.根据权利要求1所述的电话号码归属地数据压缩方法,其特征在于,在所述步骤二中,所述号段数据指任意七位数号段以及每个号段所对应的地区名,如果该七位数号段没有对应的地区名,则对应索引值为0。
4.根据权利要求1所述的电话号码归属地数据压缩方法,其特征在于,在所述步骤四中,如果电话号码是坐机号,则号段为区号;如果电话号码是手机号,则号段为号码的前七位。
CN201410364590.6A 2014-07-29 2014-07-29 电话号码归属地数据压缩方法 Active CN104133883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410364590.6A CN104133883B (zh) 2014-07-29 2014-07-29 电话号码归属地数据压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410364590.6A CN104133883B (zh) 2014-07-29 2014-07-29 电话号码归属地数据压缩方法

Publications (2)

Publication Number Publication Date
CN104133883A CN104133883A (zh) 2014-11-05
CN104133883B true CN104133883B (zh) 2018-02-06

Family

ID=51806561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410364590.6A Active CN104133883B (zh) 2014-07-29 2014-07-29 电话号码归属地数据压缩方法

Country Status (1)

Country Link
CN (1) CN104133883B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866535A (zh) * 2015-04-29 2015-08-26 联动优势科技有限公司 一种号段记录压缩方法及装置
CN104866536A (zh) * 2015-04-29 2015-08-26 联动优势科技有限公司 一种号段记录压缩方法及装置
CN106326500A (zh) * 2016-10-26 2017-01-11 北京微网通联股份有限公司 针对手机号黑名单的快速过滤方法
CN106777163B (zh) * 2016-12-20 2020-05-26 携程旅游网络技术(上海)有限公司 基于红黑树的ip地址所属地查询方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101227685A (zh) * 2008-01-25 2008-07-23 深圳凯虹移动通信有限公司 一种移动终端的号码归属地获取方法及装置
CN101562663A (zh) * 2009-04-24 2009-10-21 上海华勤通讯技术有限公司 来电归属地信息压缩方法和来电归属地信息显示方法
CN101751475A (zh) * 2010-01-08 2010-06-23 联动优势科技有限公司 号段记录压缩方法及其装置
CN103425669A (zh) * 2012-05-16 2013-12-04 北京安管佳科技有限公司 号段及归属地的编码方法和系统、归属地查询方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7634336B2 (en) * 2005-12-08 2009-12-15 Electronics And Telecommunications Research Institute Localization system and method of mobile robot based on camera and landmarks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101227685A (zh) * 2008-01-25 2008-07-23 深圳凯虹移动通信有限公司 一种移动终端的号码归属地获取方法及装置
CN101562663A (zh) * 2009-04-24 2009-10-21 上海华勤通讯技术有限公司 来电归属地信息压缩方法和来电归属地信息显示方法
CN101751475A (zh) * 2010-01-08 2010-06-23 联动优势科技有限公司 号段记录压缩方法及其装置
CN103425669A (zh) * 2012-05-16 2013-12-04 北京安管佳科技有限公司 号段及归属地的编码方法和系统、归属地查询方法和系统

Also Published As

Publication number Publication date
CN104133883A (zh) 2014-11-05

Similar Documents

Publication Publication Date Title
CN104133883B (zh) 电话号码归属地数据压缩方法
US11704286B2 (en) High-density compression method and computing system
CN104715039A (zh) 基于硬盘和内存的列式存储和查询方法及设备
CN102122960A (zh) 一种针对二进制数据的多字符组合无损数据压缩方法
CN110019865B (zh) 海量图片处理方法、装置、电子设备及存储介质
US20120150877A1 (en) Efficient database compression
US20160070730A1 (en) Data Encoding and Processing Columnar Data
CN105144157A (zh) 用于压缩数据库中的数据的系统和方法
US20200294629A1 (en) Gene sequencing data compression method and decompression method, system and computer-readable medium
CN113312325B (zh) 轨迹数据传输方法、装置、设备及存储介质
CN103729429A (zh) 一种基于HBase压缩方法
CN109471893B (zh) 网络数据的查询方法、设备及计算机可读存储介质
CN114529741A (zh) 一种图片去重方法、装置及电子设备
CN107925421A (zh) 虚拟存储器系统中的改进的经压缩的高速缓存
CN104252480A (zh) 一种音频信息检索的方法和装置
CN106688186A (zh) 在基于lz的压缩算法中在多个经压缩块之间共享初始词典和霍夫曼树
CN108287985A (zh) 一种gpu加速的dna序列压缩方法及系统
CN115934730B (zh) 数据处理方法和装置、介质和计算机设备
CN110266834B (zh) 基于互联网协议地址的地区查找方法及装置
CN104077272A (zh) 一种字典压缩的方法和装置
CN111078652A (zh) 物流箱码的归档压缩方法及装置
US11405192B2 (en) Searchable symmetric encryption system and method of processing inverted index
Li et al. Erasing-based lossless compression method for streaming floating-point time series
KR102497634B1 (ko) 문자 빈도 기반 서열 재정렬을 통한 fastq 데이터 압축 방법 및 장치
CN102932001A (zh) 运动捕获数据压缩、解压缩方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: A8 music building 1002 No. 518000 Guangdong city of Shenzhen province Nanshan District Guangdong streets, road 5 building 601 room

Applicant after: SHENZHEN TOPWISE COMMUNICATION Co.,Ltd.

Address before: 518000 Guangdong city of Shenzhen province Futian District Che Kung Temple Tairan nine road Tang Commercial East Building 5 layer 503

Applicant before: SHENZHEN DINGZHI COMMUNICATION Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 518000 Room 501, east block, Shengtang business building, Tairan 9th Road, Tian'an community, Shatou street, Futian District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen Dingzhi Communication Co.,Ltd.

Address before: Room 1005, Yuehai building, Yueshan street, Shenzhen, Guangdong Province

Patentee before: SHENZHEN TOPWISE COMMUNICATION Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 518000 Room 501, east block, Shengtang business building, Tairan 9th Road, Tian'an community, Shatou street, Futian District, Shenzhen City, Guangdong Province

Patentee after: SHENZHEN TOPWISE COMMUNICATION Co.,Ltd.

Country or region after: China

Address before: 518000 Room 501, east block, Shengtang business building, Tairan 9th Road, Tian'an community, Shatou street, Futian District, Shenzhen City, Guangdong Province

Patentee before: Shenzhen Dingzhi Communication Co.,Ltd.

Country or region before: China

CP03 Change of name, title or address