CN106850924A - 通讯录数据处理方法及处理终端 - Google Patents

通讯录数据处理方法及处理终端 Download PDF

Info

Publication number
CN106850924A
CN106850924A CN201710049818.6A CN201710049818A CN106850924A CN 106850924 A CN106850924 A CN 106850924A CN 201710049818 A CN201710049818 A CN 201710049818A CN 106850924 A CN106850924 A CN 106850924A
Authority
CN
China
Prior art keywords
data
vcard
similar
packet
vcard data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710049818.6A
Other languages
English (en)
Inventor
汪伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Anyun Century Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201710049818.6A priority Critical patent/CN106850924A/zh
Publication of CN106850924A publication Critical patent/CN106850924A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/274Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc
    • H04M1/2745Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips
    • H04M1/2753Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips providing data content
    • H04M1/2757Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips providing data content by data transmission, e.g. downloading
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/274Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc
    • H04M1/2745Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips
    • H04M1/27453Directories allowing storage of additional subscriber data, e.g. metadata
    • H04M1/27457Management thereof, e.g. manual editing of data

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Library & Information Science (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种通讯录数据处理方法及处理终端。该处理方法包括:根据移动终端操作系统提供的系统接口,读取本地联系人数据,生成对应于一个联系人数据的Vcard数据块;将每一个Vcard数据块按照预设的数据项进行数据分组,利用哈希算法和各个数据分组的权重值计算该Vcard数据块对应的加权哈希值;相互比较所有的加权哈希值,将哈希值之间海明距离小于第一设定阈值的两个Vcard数据块归并到同一项相似Vcard数据集中;将各项相似Vcard数据集为合并为一个新的Vcard数据块。采用本发明,能够准确地合并基于不同数据来源的通讯录。

Description

通讯录数据处理方法及处理终端
技术领域
本发明涉及冗余去重技术领域,更具体地,涉及通讯录数据处理方法及处理终端。
背景技术
随着社会信息化不断推进,信息存储应用领域越来越广泛,在过去的5年内全球数字化信息量增长了近10倍。企业数据中心的存储需求量越来越庞大,已从之前的TB级上升到PB级,甚至EB级。目前热门的数据去重(重复数据删除)技术能够在较大程度上降低网络存储系统的存储空间开销,节省网络带宽,降低数据中心的能耗和数据管理成本。目前数据去重服务主要应用于备份、容灾和归档存储系统中。这主要是因为在备份、容灾和归档过程中,服务端数据集内会出现大量的重复冗余数据。随着移动互联网的兴起,定位于移动终端的数据同步、备份和去重合并技术将是下一个关注的焦点。
移动互联网是移动通信和互联网技术结合的产物,是用户通过智能移动终端,采用移动无线通信方式获取互联网服务的新兴业态。移动互联网包含终端、软件和应用三个组成部分。通过移动互联网,人们可以利用手中的手机、平板电脑等移动设备随日、随地访问获取各种网络服务。截止到年底,中国手机网民达到亿;智能手机发货量年将达到亿部。伴随着移动终端存储和运算能力的增加,移动终端的数据也越来越丰富。为了防止数据丢失和实现数据的方便转移,人们已经习惯于将自己移动终端的数据同步到数据备份软件、即时通讯软件、交友平台软件等第三方软件的后台服务器或者备份在本地,在需要的时候随时进行同步和恢复。在数据同步和恢复的过程中,会造成大量重复冗余数据,影响用户体验和终端性能,例如,在移动终端的数据中,通讯录联系人数据是最为典型的一类数据。此类数据的特点是数据的备份和恢复十分频繁,容易产生大量的重复冗余数据;数据和用户的生活和工作息息相关,对于用户具有重要的意义;产生的重复数据难以进行手动的有效处理。
目前,第三方应用常将自己的通讯录写入到手机通讯录里面,在大多数的通讯录联系人和备份同步的过程中,存在以下几种问题:
1、忽略平台的差异性,导致在不同的移动终端相同的联系人数据组织和显示具有差异。
2、同步过程中需要同步的数据和本地端的己有数据之间的关系和差异被忽略。对于这两部分数据,目前仅有简单的追加数据和完全覆盖等处理方式,不能满足用户对于合并数据所要求的比较复杂的条件。这一方面导致了数据的大量重复,另一方面给用户管理数据带来不便。
3、同步过程中或者同步之后,往往无法呈现给用户一个相似联系人数据之间差异的具体的展现界面,使得用户难以对手机中的相似联系人数据实现手动管理、删除和合并。
发明内容
鉴于上述问题,本发明提出了一种通讯录数据处理方法及处理终端,能够准确地合并基于不同数据来源的通讯录。
本发明实施例中提供了一种通讯录数据处理方法,包括:
根据移动终端操作系统提供的系统接口,读取本地联系人数据,生成对应于一个联系人数据的Vcard数据块;
将每一个Vcard数据块按照预设的数据项进行数据分组,利用哈希算法和各个数据分组的权重值计算该Vcard数据块对应的加权哈希值;
相互比较所有的加权哈希值,将哈希值之间海明距离小于第一设定阈值的两个Vcard数据块归并到同一项相似Vcard数据集中;
将各项相似Vcard数据集为合并为一个新的Vcard数据块。
优选地,相互比较所有的加权哈希值的步骤之后,还包括:
将哈希值之间海明距离均大于第二设定阈值的一个Vcard数据块单独作为一个新的Vcard数据块。
优选地,将各项相似Vcard数据集为合并为一个新的Vcard数据块的步骤之后,包括:
响应于用户的去重指令,删除所述相似Vcard数据集中原有的各个Vcard数据块。
优选地,将各项相似Vcard数据集为合并为一个新的Vcard数据块的步骤之后,包括:
响应于用户的分组指令,将联系人按照其中一个预设的数据项进行分组。
优选地,将各项相似Vcard数据集为合并为一个新的Vcard数据块的步骤之后,包括:
响应于用户的分组删除指令,删除相应组别的联系人。
优选地,所述预设的数据项包括:姓名、电话号码、即时消息、邮件、公司、群组、备注、地址、其他当中的至少一个。
优选地,利用哈希算法和各个数据分组的权重值计算该Vcard数据块对应的加权哈希值的步骤,包括:
根据各个数据项的初始权重值设置各个数据分组的初始权重值,其中,所述姓名和/或所述电话号码数据分组的初始权重值高于其他数据分组的初始权重值。
优选地,设置各个数据项的初始权重值的步骤之后,包括:
根据其中一个数据项中包含不相同的项值的联系人条目数,调低该数据分组的权重值。
优选地,包括:
当其中一项相似Vcard数据集中的任意两个Vcard数据块之间的海明距离小于第三设定阈值时,求所述两个Vcard数据块的并集后,获得一个新的Vcard数据块。
优选地,当其中一项相似Vcard数据集中的任意两个Vcard数据块之间的海明距离在所述第一设定阈值与所述第三设定阈值之间时,求所述相似Vcard数据集中所有的Vcard数据块的并集后,推送给用户进行编辑,经用户手动编辑后获得一个新的Vcard数据块。
相应地,本发明实施例提供了一种通讯录数据处理终端,包括:
数据读取单元,用于根据移动终端操作系统提供的系统接口,读取本地联系人数据,生成对应于一个联系人数据的Vcard数据块;
相似分析单元,用于将每一个Vcard数据块按照预设的数据项进行数据分组,利用哈希算法和各个数据分组的权重值计算该Vcard数据块对应的加权哈希值;
数据归类单元,用于相互比较所有的加权哈希值,将哈希值之间海明距离小于第一设定阈值的两个Vcard数据块归并到同一项相似Vcard数据集中;
数据合并单元,用于将各项相似Vcard数据集为合并为一个新的Vcard数据块。
优选地,还包括:
与所述数据归类单元相连的单独归类单元,用于将哈希值之间海明距离均大于第二设定阈值的一个Vcard数据块单独作为一个新的Vcard数据块。
优选地,包括:
与所述数据合并单元相连的重复删除单元,用于响应于用户的去重指令,删除所述相似Vcard数据集中原有的各个Vcard数据块。
优选地,包括:
与所述数据合并单元相连的分组显示单元,用于响应于用户的分组指令,将联系人按照其中一个预设的数据项进行分组。
优选地,包括:
与所述分组显示单元相连的分组删除单元,用于响应于用户的分组删除指令,删除相应组别的联系人。
优选地,所述预设的数据项包括:姓名、电话号码、即时消息、邮件、公司、群组、备注、地址、其他当中的至少一个。
优选地,所述相似分析单元,包括:
权重设置单元,用于根据各个数据项的初始权重值设置各个数据分组的初始权重值,其中,所述姓名和/或所述电话号码数据分组的初始权重值高于其他数据分组的初始权重值。
优选地,包括:
与所述权重设置单元相连的权重调整单元,用于根据其中一个数据项中包含不相同的项值的联系人条目数,调低该数据分组的权重值。
优选地,所述数据合并单元包括:
自动合并单元,用于当其中一项相似Vcard数据集中的任意两个Vcard数据块之间的海明距离小于第三设定阈值时,求所述两个Vcard数据块的并集后,获得一个新的Vcard数据块。
优选地,所述数据合并单元包括:
手动合并单元,用于当其中一项相似Vcard数据集中的任意两个Vcard数据块之间的海明距离在所述第一设定阈值与所述第三设定阈值之间时,求所述相似Vcard数据集中所有的Vcard数据块的并集后,推送给用户进行编辑,经用户手动编辑后获得一个新的Vcard数据块。
采用本方案,首先,根据移动终端操作系统提供的系统接口,读取本地联系人数据,生成对应于一个联系人数据的Vcard数据块。Vcard也称为电子名片,是一种交换个人信息的简单方法。在本方案中,我们根据各种移动终端操作系统的特点对Vcard格式进行扩展,利用扩展之后的Vcard格式组织通讯录联系人数据,实现联系人数据的跨平台统一。然后,将每一个Vcard数据块按照预设的数据项进行数据分组,利用哈希算法和各个数据分组的权重值计算该Vcard数据块对应的加权哈希值。我们需要增加这几个数据类型实现Vcard格式在安卓平台上的扩展。再利用哈希算法和各个数据分组的权重值计算该Vcard数据块对应的加权哈希值,其中,所述加权哈希值可以采用SIM-HASH算法来获取,加权哈希值能够按照数据项的权重关注重点数据项,分析相似数据。再而,相互比较所有的加权哈希值,将哈希值之间海明距离小于第一设定阈值的两个Vcard数据块归并到同一项相似Vcard数据集中。最后,将各项相似Vcard数据集为合并为一个新的Vcard数据块。从而能够准确地合并基于不同数据来源的通讯录。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明通讯录数据处理方法的流程图。
图2为本发明通讯录数据处理方法的实施例流程图。
图3为本发明通讯录数据处理终端的示意图。
图4为本发明通讯录数据处理终端的实施例示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于用户通讯录数据具备十分重要的意义,国内外的许多厂商提供了针对于通讯录数据的备份服务。公司利用云服务对基于操作系统的移动终端的终端数据提供备份和恢复服务。苹果公司的ICloud的备份服务主要针对于基于操作系统的移动终端设备。在国内,许多互联网公司也纷纷推出了自己的移动终端设备数据备份产品,比较著名的有腾讯公司的和微信系列等。但这些公司的产品主要注重于服务端对数据的存储和处理,并未对移动终端的数据重复和冗余问题做比较周详的考虑。
图1为本发明通讯录数据处理方法的流程图,包括:
S101:根据移动终端操作系统提供的系统接口,读取本地联系人数据,生成对应于一个联系人数据的Vcard数据块;
S102:将每一个Vcard数据块按照预设的数据项进行数据分组,利用哈希算法和各个数据分组的权重值计算该Vcard数据块对应的加权哈希值;
S103:相互比较所有的加权哈希值,将哈希值之间海明距离小于第一设定阈值的两个Vcard数据块归并到同一项相似Vcard数据集中;
S104:将各项相似Vcard数据集为合并为一个新的Vcard数据块。
首先,根据移动终端操作系统提供的系统接口,读取本地联系人数据,生成对应于一个联系人数据的Vcard数据块。Vcard也称为电子名片,是一种交换个人信息的简单方法。Vcard数据格式具备良好的跨平台性,是当前流行的电子名片格式。具有良好的扩展性能,可以根据各种平台的特点进行扩展,最终实现数据跨平台同步时的统一性。在本方案中,我们根据各种移动终端操作系统的特点对Vcard格式进行扩展,利用扩展之后的Vcard格式组织通讯录联系人数据,实现联系人数据的跨平台统一。
然后,将每一个Vcard数据块按照预设的数据项进行数据分组,利用哈希算法和各个数据分组的权重值计算该Vcard数据块对应的加权哈希值。通过对安卓系统源码,系统接口和系统数据库的结构研究发现,在安卓操作系统下的Mime Type类型基本能够对应Vcard数据块的数据项。各个Mime Type类型的内容能够对应于Vcard数据块中数据项的Value值。参数值可采用统一的编码标准。由于安卓系统具备自己一些特殊的数据类型,我们可以根据这些数据类型预设Vcard的数据项来进行数据分组,例如,Group类型是指安卓系统的联系人分组类型;Event类型在安卓系统中代表的是时间类型;IM类型是即时消息如QQ、MSN在安卓系统中的数据类型。在Vcard原始格式中不具备这几个类型,我们需要增加这几个数据类型实现Vcard格式在安卓平台上的扩展。再利用哈希算法和各个数据分组的权重值计算该Vcard数据块对应的加权哈希值,其中,所述加权哈希值可以采用SIM-HASH算法来获取,加权哈希值能够按照数据项的权重关注重点数据项,分析相似数据。
再而,相互比较所有的加权哈希值,将哈希值之间海明距离小于第一设定阈值的两个Vcard数据块归并到同一项相似Vcard数据集中。例如,以<名称;电话;公司名称>的Vcard数据项为例,在前一步中,包含名称,电话的数据分组被设置了较高的权重值,据此计算获得了加权哈希值。假设其中有三个联系人为A联系人的“张明;13987654321;北京万金实业有限公司”,B联系人的“张明;13987654321;万金实业”,C联系人的“张明;13987654321;北京万金”。鉴于哈希算法的特点是海明距离越小,两者的相似度越高的原理。首先提取A的哈希值,分别与其他联系人Vcard数据块的哈希值做比较,由于A包含B、C的内容,可知A、B、C应归并到同一项相似Vcard数据块集中;再而提取B的哈希值分别做比较,由于B被包含于A内,可分别得知A、B应归并到一起;最后提取C的哈希值做比较,由于C被包含于A内,可分别得知A、C应归并到一起,所以,得出最终得到A、B、C归并到同一项相似Vcard数据集中。
最后,将各项相似Vcard数据集为合并为一个新的Vcard数据块。合并后得到新的Vcard数据块A’联系人的“张明;13987654321;北京万金实业有限公司”,从而能够准确地合并基于不同数据来源的通讯录。
图2为本发明通讯录数据处理方法的实施例流程图。
S201:根据移动终端操作系统提供的系统接口,读取本地联系人数据,生成对应于一个联系人数据的Vcard数据块;
S202:将每一个Vcard数据块按照预设的数据项进行数据分组,根据各个数据项的初始权重值设置各个数据分组的初始权重值,其中,所述姓名和/或所述电话号码数据分组的初始权重值高于其他数据分组的初始权重值。
S203:根据其中一个数据项中包含不相同的项值的联系人条目数,调低该数据分组的权重值。
S204:利用哈希算法和各个数据分组的权重值计算该Vcard数据块对应的加权哈希值;
S205:相互比较所有的加权哈希值,将哈希值之间海明距离小于第一设定阈值的两个Vcard数据块归并到同一项相似Vcard数据集中;
S206:将各项相似Vcard数据集为合并为一个新的Vcard数据块。
S207:响应于用户的去重指令,删除所述相似Vcard数据集中原有的各个Vcard数据块。
S208:响应于用户的分组指令,将联系人按照其中一个预设的数据项进行分组。
根据移动终端操作系统提供的系统接口,读取本地联系人数据,生成对应于一个联系人数据的Vcard数据块。与图1实施例相比,本实施例还包括三个联系人为D联系人的“许静;13987654321;上海明月”,E联系人的“小静;13123456789;上海明月”,F联系人的“许静;13987654321;上海明月”,G联系人的“王刚;13393939393;wg@163.com;上海明月”。
将每一个Vcard数据块按照预设的数据项进行数据分组,根据各个数据项的初始权重值设置各个数据分组的初始权重值,其中,所述姓名和/或所述电话号码数据分组的初始权重值高于其他数据分组的初始权重值。Vcard字符串具备良好的数据分块特性,可以根据Vcard字符串中每一项数据的起始和结束标识符作为数据分块的依据。由于在联系人数据中,各个数据项的权重具备相当大的差别。比如姓名和电话号码的权重高于邮件、即时消息,邮件和即时消息的权重高于备注。精确地确定各个数据项的权重在联系人数据相似度检查的过程中具备非常重要的作用。由于联系人数据块中包含了一些无法代表一个联系人身份的信息,我们将这些信息权重都设为0,即不对这些数据进行考虑。而另外可以代表联系人身份信息的诸如姓名、电话号码等数据项的权重值我们需要根据每个数据项相对于联系人信息的重要性做处理。
优选地,所述预设的数据项包括:姓名、电话号码、即时消息、邮件、公司、群组、备注、地址、其他当中的至少一个。我们将联系人数据项的默认权重等级分为5级。
1、第一等级姓名、电话号码。
2、第二等级即时消息ID、邮箱地址。
3、第三等级公司、群组。
4、第四等级备注、地址。
5、第五等级其他,即忽略信息。
根据其中一个数据项中包含不相同的项值的联系人条目数,调低该数据分组的权重值。根据Vcard的数据结构,我们会发现部分类型的数据可以出现很多次,比如一个联系人有两个手机号码,两个即时消息等。在此种情况下,如果我们还沿用之前设定的固定默认权重就要造成重要信息如姓名(只有一条姓名信息)被忽略。为了防止这种情况出现,我们需要将权值设置成动态的。动态调整的方法为:每一条数据的权重=该种数据原默认权值/不相同的项值的联系人条目数。
利用哈希算法和各个数据分组的权重值计算该Vcard数据块对应的加权哈希值;相互比较所有的加权哈希值,将哈希值之间海明距离小于第一设定阈值的两个Vcard数据块归并到同一项相似Vcard数据集中。接上例所述,A、B、C归并到第一相似Vcard数据集中,而D、E、F虽有不尽相同的姓名、电话,也可以归并成第二相似Vcard数据集中,归并过程如下:假设第一等级的姓名和电话的初始权重值为5,第三等级的公司名称的初始权重值为3。基于本实施例的动态调整的方法,不相同的姓名项值包括“许静”和“小静”的联系人条目数两条,调整后的姓名的权重值为5/2=2.5;同理,许静有两个电话号码,故电话号码的权重值也为2.5。因此姓名和电话的权重值都小于公司名称的权重值,据此获得的哈希值会将姓名和电话的影响降低,突出公司名称的影响。在本步骤比较海明距离时,根据公司名称,可将D、E、F归并成第二相似Vcard数据集。事实上,通信录通常是基于第三方聊天软件而导入的联系如,故如果考虑上第二等级的即时消息ID、邮箱地址,可以更加精确地归并相似Vcard数据集。具体地,第一设定阈值可以是4-6。
优选地,将哈希值之间海明距离均大于第二设定阈值的一个Vcard数据块单独作为一个新的Vcard数据块。例如,G联系人与其他A-F的联系人相差甚远,海明距离大于第二设定阈值,故G’联系人的“王刚;13393939393;wg@163.com;上海明月”。单独作为一个新的Vcard数据块。具体地,第二设定阈值可以是大于等于7。
至此,从第一相似Vcard数据集(ABC)获得新联系人A’,从第二相似Vcard数据集(DEF)获得新联系人D’,从G获得新联系人G’。响应于用户的去重指令,删除所述相似Vcard数据集中原有的各个Vcard数据块,即删除原有的A-F。
响应于用户的分组指令,将联系人按照其中一个预设的数据项进行分组。例如,可以按照公司名称来分组,上海明月公司的许静和王刚可以划分到同一组进行展示。优选地,响应于用户的分组删除指令,删除相应组别的联系人。
优选地,当其中一项相似Vcard数据集中的任意两个Vcard数据块之间的海明距离小于第三设定阈值时,求所述两个Vcard数据块的并集后,获得一个新的Vcard数据块。具体地,第三设定阈值可以是2-4。例如,前述A、B、C的公司名称具有相互包含的关系,他们的相似度很高,达到2-4的海明距离,可以自动合并,求得并集后,以“北京万金实业有限公司”为新的Vcard数据块的公司名称。
优选地,当其中一项相似Vcard数据集中的任意两个Vcard数据块之间的海明距离在所述第一设定阈值与所述第三设定阈值之间时,求所述相似Vcard数据集中所有的Vcard数据块的并集后,推送给用户进行编辑,经用户手动编辑后获得一个新的Vcard数据块。具体地,海明距离为6。此时不满足自动合并的要求,但又不适应将其单独作为新的Vcard数据块。例如,前述D、E、F中姓名中包含“许静”及其小名“小静”,事实上是同一人,但在考虑其他数据项的影响下海明距离仍在5-6之间,此时,可通过手动合并,即推送给用户进行编辑,经用户手动编辑后获得一个新的Vcard数据块。
图3为本发明通讯录数据处理终端的示意图,包括:
数据读取单元,用于根据移动终端操作系统提供的系统接口,读取本地联系人数据,生成对应于一个联系人数据的Vcard数据块;
相似分析单元,用于将每一个Vcard数据块按照预设的数据项进行数据分组,利用哈希算法和各个数据分组的权重值计算该Vcard数据块对应的加权哈希值;
数据归类单元,用于相互比较所有的加权哈希值,将哈希值之间海明距离小于第一设定阈值的两个Vcard数据块归并到同一项相似Vcard数据集中;
数据合并单元,用于将各项相似Vcard数据集为合并为一个新的Vcard数据块。
图3与图1相对应,图中各个单元的运行方式与方法中的相同。
图4为本发明通讯录数据处理终端的实施例示意图。
如图4所示,包括:
与所述数据合并单元相连的重复删除单元,用于响应于用户的去重指令,删除所述相似Vcard数据集中原有的各个Vcard数据块。
如图4所示,包括:
与所述数据合并单元相连的分组显示单元,用于响应于用户的分组指令,将联系人按照其中一个预设的数据项进行分组。
如图4所示,所述相似分析单元,包括:
权重设置单元,用于根据各个数据项的初始权重值设置各个数据分组的初始权重值,其中,所述姓名和/或所述电话号码数据分组的初始权重值高于其他数据分组的初始权重值。
如图4所示,包括:
与所述权重设置单元相连的权重调整单元,用于根据其中一个数据项中包含不相同的项值的联系人条目数,调低该数据分组的权重值。
图4与图2相对应,图中各个单元的运行方式与方法中的相同。
优选地,还包括:
与所述数据归类单元相连的单独归类单元,用于将哈希值之间海明距离均大于第二设定阈值的一个Vcard数据块单独作为一个新的Vcard数据块。
优选地,所述预设的数据项包括:姓名、电话号码、即时消息、邮件、公司、群组、备注、地址、其他当中的至少一个。
优选地,包括:
与所述分组显示单元相连的分组删除单元,用于响应于用户的分组删除指令,删除相应组别的联系人。
优选地,所述数据合并单元包括:
自动合并单元,用于当其中一项相似Vcard数据集中的任意两个Vcard数据块之间的海明距离小于第三设定阈值时,求所述两个Vcard数据块的并集后,获得一个新的Vcard数据块。
优选地,所述数据合并单元包括:
手动合并单元,用于当其中一项相似Vcard数据集中的任意两个Vcard数据块之间的海明距离在所述第一设定阈值与所述第三设定阈值之间时,求所述相似Vcard数据集中所有的Vcard数据块的并集后,推送给用户进行编辑,经用户手动编辑后获得一个新的Vcard数据块。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种通讯录数据处理方法,其特征在于,包括:
根据移动终端操作系统提供的系统接口,读取本地联系人数据,生成对应于一个联系人数据的Vcard数据块;
将每一个Vcard数据块按照预设的数据项进行数据分组,利用哈希算法和各个数据分组的权重值计算该Vcard数据块对应的加权哈希值;
相互比较所有的加权哈希值,将哈希值之间海明距离小于第一设定阈值的两个Vcard数据块归并到同一项相似Vcard数据集中;
将各项相似Vcard数据集为合并为一个新的Vcard数据块。
2.根据权利要求1所述的通讯录数据处理方法,其特征在于,相互比较所有的加权哈希值的步骤之后,还包括:
将哈希值之间海明距离均大于第二设定阈值的一个Vcard数据块单独作为一个新的Vcard数据块。
3.根据权利要求1所述的通讯录数据处理方法,其特征在于,将各项相似Vcard数据集为合并为一个新的Vcard数据块的步骤之后,包括:
响应于用户的去重指令,删除所述相似Vcard数据集中原有的各个Vcard数据块。
4.根据权利要求1所述的通讯录数据处理方法,其特征在于,将各项相似Vcard数据集为合并为一个新的Vcard数据块的步骤之后,包括:
响应于用户的分组指令,将联系人按照其中一个预设的数据项进行分组。
5.根据权利要求4所述的通讯录数据处理方法,其特征在于,将各项相似Vcard数据集为合并为一个新的Vcard数据块的步骤之后,包括:
响应于用户的分组删除指令,删除相应组别的联系人。
6.根据权利要求1或4或5所述的通讯录数据处理方法,其特征在于,所述预设的数据项包括:姓名、电话号码、即时消息、邮件、公司、群组、备注、地址、其他当中的至少一个。
7.根据权利要求6所述的通讯录数据处理方法,其特征在于,利用哈希算法和各个数据分组的权重值计算该Vcard数据块对应的加权哈希值的步骤,包括:
根据各个数据项的初始权重值设置各个数据分组的初始权重值,其中,所述姓名和/或所述电话号码数据分组的初始权重值高于其他数据分组的初始权重值。
8.根据权利要求7所述的通讯录数据处理方法,其特征在于,设置各个数据项的初始权重值的步骤之后,包括:
根据其中一个数据项中包含不相同的项值的联系人条目数,调低该数据分组的权重值。
9.根据权利要求1所述的通讯录数据处理方法,其特征在于,将各项相似Vcard数据集为合并为一个新的Vcard数据块的步骤,包括:
当其中一项相似Vcard数据集中的任意两个Vcard数据块之间的海明距离小于第三设定阈值时,求所述两个Vcard数据块的并集后,获得一个新的Vcard数据块。
10.一种通讯录数据处理终端,其特征在于,包括:
数据读取单元,用于根据移动终端操作系统提供的系统接口,读取本地联系人数据,生成对应于一个联系人数据的Vcard数据块;
相似分析单元,用于将每一个Vcard数据块按照预设的数据项进行数据分组,利用哈希算法和各个数据分组的权重值计算该Vcard数据块对应的加权哈希值;
数据归类单元,用于相互比较所有的加权哈希值,将哈希值之间海明距离小于第一设定阈值的两个Vcard数据块归并到同一项相似Vcard数据集中;
数据合并单元,用于将各项相似Vcard数据集为合并为一个新的Vcard数据块。
CN201710049818.6A 2017-01-23 2017-01-23 通讯录数据处理方法及处理终端 Pending CN106850924A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710049818.6A CN106850924A (zh) 2017-01-23 2017-01-23 通讯录数据处理方法及处理终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710049818.6A CN106850924A (zh) 2017-01-23 2017-01-23 通讯录数据处理方法及处理终端

Publications (1)

Publication Number Publication Date
CN106850924A true CN106850924A (zh) 2017-06-13

Family

ID=59120216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710049818.6A Pending CN106850924A (zh) 2017-01-23 2017-01-23 通讯录数据处理方法及处理终端

Country Status (1)

Country Link
CN (1) CN106850924A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021000084A1 (zh) * 2019-06-29 2021-01-07 深圳市欢太科技有限公司 数据分类方法及相关产品
CN112989887A (zh) * 2019-12-16 2021-06-18 深圳云天励飞技术有限公司 一种档案合并方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050048A (zh) * 2013-03-15 2014-09-17 腾讯科技(深圳)有限公司 冗余联系人记录清理方法和系统
CN105095162A (zh) * 2014-05-19 2015-11-25 腾讯科技(深圳)有限公司 文本相似度确定方法、装置、电子设备及系统
US20160381174A1 (en) * 2007-10-02 2016-12-29 International Business Machines Corporation Managing contact status updates in a presence management system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160381174A1 (en) * 2007-10-02 2016-12-29 International Business Machines Corporation Managing contact status updates in a presence management system
CN104050048A (zh) * 2013-03-15 2014-09-17 腾讯科技(深圳)有限公司 冗余联系人记录清理方法和系统
CN105095162A (zh) * 2014-05-19 2015-11-25 腾讯科技(深圳)有限公司 文本相似度确定方法、装置、电子设备及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴朋朋: "移动终端通讯录数据去重合并关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021000084A1 (zh) * 2019-06-29 2021-01-07 深圳市欢太科技有限公司 数据分类方法及相关产品
CN113366469A (zh) * 2019-06-29 2021-09-07 深圳市欢太科技有限公司 数据分类方法及相关产品
CN112989887A (zh) * 2019-12-16 2021-06-18 深圳云天励飞技术有限公司 一种档案合并方法、装置及电子设备
CN112989887B (zh) * 2019-12-16 2024-06-11 深圳云天励飞技术有限公司 一种档案合并方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN103501374B (zh) 电话簿排序方法及装置、终端
CN102937926B (zh) 一种恢复移动终端已删除sqlite文件的方法及装置
CN103095829B (zh) 实现版本管理和权限管理的网络通讯录系统
US20170331772A1 (en) Chat Log Analyzer
CN104850550A (zh) 一种提示消息的排序方法和装置
CN103279497B (zh) 一种根据数据类型自动进行分类操作的方法、系统及装置
CN103942054A (zh) 一种基于安卓的数据取证系统
US11159616B2 (en) Email synchronization method and apparatus, and computer readable storage medium
CN104021217A (zh) 一种提取手机碎片文件和被删除文件的系统和方法
CN106850924A (zh) 通讯录数据处理方法及处理终端
CN103399878A (zh) 一种文件保存方法及装置
CN101969411A (zh) 一种非加密web邮件的分析还原方法及系统
CN106843760A (zh) 一种基于重删的异步远程复制系统及方法
CN105430624B (zh) 一种信息获取的方法及装置
CN104778168A (zh) 一种数据处理方法和装置
KR101606319B1 (ko) 데이터베이스를 이용한 푸시메시지 관리 방법
CN106559556A (zh) 一种通信处理方法、装置
CN103237122B (zh) 一种短信编辑方法及装置
CN107766549A (zh) 文本文件删除方法及装置、终端装置与可读存储介质
CN106446270A (zh) 一种分类方法及装置
CN104601442B (zh) 一种信息更新方法及装置
CN107360331A (zh) 短信显示方法
CN105913215A (zh) 电子邮件处理方法及设备
CN106559554A (zh) 一种通信处理方法、装置
CN109685129A (zh) 一种基于智能手机的多类社交应用主题信息聚类关联方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170721

Address after: 100102, 18 floor, building 2, Wangjing street, Beijing, Chaoyang District, 1801

Applicant after: BEIJING ANYUN SHIJI SCIENCE AND TECHNOLOGY CO., LTD.

Address before: 100088 Beijing city Xicheng District xinjiekouwai Street 28, block D room 112 (Desheng Park)

Applicant before: Beijing Qihu Technology Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170613