CN105488176A - 数据处理方法和装置 - Google Patents

数据处理方法和装置 Download PDF

Info

Publication number
CN105488176A
CN105488176A CN201510861335.7A CN201510861335A CN105488176A CN 105488176 A CN105488176 A CN 105488176A CN 201510861335 A CN201510861335 A CN 201510861335A CN 105488176 A CN105488176 A CN 105488176A
Authority
CN
China
Prior art keywords
characteristic attribute
data
attribute
similarity
concrete value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201510861335.7A
Other languages
English (en)
Inventor
徐铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Huawei Software Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201510861335.7A priority Critical patent/CN105488176A/zh
Publication of CN105488176A publication Critical patent/CN105488176A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种数据处理方法和装置。本发明数据处理方法,包括:根据数据库中的数据的特征属性和特征属性对应的相似度权重生成属性分组表;获取目标数据的各特征属性的具体取值,将各特征属性的具体取值按照特征属性对应的相似度权重依序排列;根据预设查找个数按照所述目标数据的各特征属性对应的相似度权重的排列顺序,依序在属性分组表中选取与所述目标数据的特征属性的具体取值相同的候选数据的信息,直至所述候选数据的信息的个数与所述预设查找个数相同为止;计算目标数据与候选数据的相似度,根据所述候选数据的相似度获取与所述目标数据相关的数据。本发明实施例可以有效减少在获取与一个数据相似的数据过程中的计算数据量。

Description

数据处理方法和装置
技术领域
本发明实施例涉及计算机技术,尤其涉及一种数据处理方法和装置。
背景技术
对于海量数据的近似数据查找最为通用的就是局部敏感哈希算法(Locality-SensitiveHashing,简称LSH)。LSH的实现原理,简单来说就是先通过哈希函数求出所有数据的哈希值,将处理后的数据全部加载到缓存,然后通过开源接口获取某一个数据的所有邻居列表,进而把所有邻区列表当做候选数据进行相似度精确计算,再筛选出最终的数据。比如需要利用LSH得到50条推荐结果,那么就需要先求出500个邻居列表,然后精确计算当前数据与这500个邻居列表的相似度,再将结果放到长度为50的优先级队列(以相似度值作为优先判断标准),最终得到的队列即为相似度列表。
然而,使用上述方法获取与一个数据相似的数据过程中,由于需要先生成各个数据的哈希值,进而还需要产生多个邻区列表等中间结果,中间结果的计算量大。
发明内容
本发明实施例提供一种数据处理方法和装置,以减少在获取与一个数据相似的数据过程中的计算数据量。
本发明中的特征属性具体指可以描述数据的性质以及与不同数据之间的关系的信息,例如,数据是一个歌曲资源数据,那么,该歌曲资源数据的特征属性就可以包括歌手属性、曲风属性、资源格式属性等。数据的每一个特征属性都有该特征属性的具体取值,例如,数据的歌手属性的具体取值为歌手A,数据的曲风属性为曲风A,数据的资源格式属性的具体取值为wmv。
数据的信息具体指用于唯一标识该数据的信息,例如,可以是标识0001。
相似度具体指根据两个数据的特征属性计算出的用于描述两个数据的相关性的值。
特征属性对应的相似度权重具体指用于反映该特征属性对相似度计算的影响大小,特征属性对应的相似度权重可以是人工根据经验设定的,也可以是进行相应计算得出的,其可以根据需求进行灵活设置,此处不作限制。
第一方面,本发明实施例提供一种数据处理方法,包括:
根据数据库中的数据的特征属性和特征属性对应的相似度权重生成属性分组表,所述属性分组表包括各特征属性、所述特征属性的具体取值以及与所述特征属性的具体取值相对应的数据的信息,其中,所述属性分组表中的各特征属性按照所述特征属性对应的相似度权重依序排列;
获取目标数据的各特征属性的具体取值,将各特征属性的具体取值按照特征属性对应的相似度权重依序排列;
根据预设查找个数按照所述目标数据的各特征属性对应的相似度权重的排列顺序,依序在属性分组表中选取与所述目标数据的特征属性的具体取值相同的候选数据的信息,直至所述候选数据的信息的个数与所述预设查找个数相同为止;
计算所述目标数据与所述候选数据的相似度,根据所述候选数据的相似度获取与所述目标数据相关的数据。
结合第一方面,在第一方面的第一种可实现的方式中,所述属性分组表包括特征属性列和数据信息列;
所述根据数据库中的数据的特征属性和特征属性对应的相似度权重生成属性分组表,包括:
将所述特征属性列中的各特征属性按照所述特征属性对应的相似度权重依序排列;各特征属性包括至少一个所述特征属性的具体取值,所述特征属性列中的一行对应一个特征属性的具体取值;
分别将数据库中的数据的信息存放在数据信息列中与所述数据的特征属性的具体值所在行的相同行中,其中,所述数据包括至少一个特征属性的具体值。
结合第一方面或第一方面的第一种可实现的方式,在第一方面的第二种可实现的方式中,所述方法还包括:
获取所述候选数据的各特征属性的具体取值,将各特征属性的具体取值按照特征属性对应的相似度权重依序排列;
所述计算所述目标数据与所述候选数据的相似度,根据所述候选数据的相似度获取与所述目标数据相关的数据,包括:
计算所述目标数据的各特征属性的具体取值与各候选数据的特征属性的具体取值的相似度,获取所述候选数据的相似度;
根据各候选数据的相似度,按照从大到小的顺序依序选择预设结果个数的候选数据作为所述目标数据的相关数据。
结合第一方面的第二种可实现的方式,在第一方面的第三种可实现的方式中,所述计算所述目标数据的各特征属性的具体取值与各候选数据的特征属性的具体取值的相似度,获取所述候选数据的相似度,包括:
将所述目标数据的各特征属性的具体取值与各候选数据的所述特征属性的具体取值进行一一比对,计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度。
结合第一方面的第三种可实现的方式,在第一方面的第四种可实现的方式中,计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度,包括:
若特征属性为多值属性,则所述特征属性对应的相似度权重为相同的特征属性的具体取值的个数与所述多值属性的具体取值的个数总和的比值乘以所述多值属性对应的相似度权重;
若特征属性为单值属性,则所述特征属性对应的相似度权重为所述单值属性对应的相似度权重;
计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度。
第二方面,本发明实施例提供一种数据处理装置,包括:
生成模块,用于根据数据库中的数据的特征属性和特征属性对应的相似度权重生成属性分组表,所述属性分组表包括各特征属性、所述特征属性的具体取值以及与所述特征属性的具体取值相对应的数据的信息,其中,所述属性分组表中的各特征属性按照所述特征属性对应的相似度权重依序排列;
获取模块,用于获取目标数据的各特征属性的具体取值,将各特征属性的具体取值按照特征属性对应的相似度权重依序排列;
处理模块,用于根据预设查找个数按照所述目标数据的各特征属性对应的相似度权重的排列顺序,依序在属性分组表中选取与所述目标数据的特征属性的具体取值相同的候选数据的信息,直至所述候选数据的信息的个数与所述预设查找个数相同为止;
所述处理模块,还用于计算所述目标数据与所述候选数据的相似度,根据所述候选数据的相似度获取与所述目标数据相关的数据。
结合第二方面,在第二方面的第一种可实现的方式中,所述属性分组表包括特征属性列和数据信息列;
所述生成模块,具体用于将所述特征属性列中的各特征属性按照所述特征属性对应的相似度权重依序排列;各特征属性包括至少一个所述特征属性的具体取值,所述特征属性列中的一行对应一个特征属性的具体取值;
分别将数据库中的数据的信息存放在数据信息列中与所述数据的特征属性的具体值所在行的相同行中,其中,所述数据包括至少一个特征属性的具体值。
结合第二方面或第二方面的第一种可实现的方式,在第二方面的第二种可实现的方式中,所述获取模块还用于:
获取所述候选数据的各特征属性的具体取值,将各特征属性的具体取值按照特征属性对应的相似度权重依序排列;
所述处理模块,用于计算所述目标数据与所述候选数据的相似度,根据所述候选数据的相似度获取与所述目标数据相关的数据,包括:
计算所述目标数据的各特征属性的具体取值与各候选数据的特征属性的具体取值的相似度,获取所述候选数据的相似度;
根据各候选数据的相似度,按照从大到小的顺序依序选择预设结果个数的候选数据作为所述目标数据的相关数据。
结合第二方面的第二种可实现的方式,在第二方面的第三种可实现的方式中,所述处理模块用于计算所述目标数据的各特征属性的具体取值与各候选数据的特征属性的具体取值的相似度,获取所述候选数据的相似度,包括:
将所述目标数据的各特征属性的具体取值与各候选数据的所述特征属性的具体取值进行一一比对,计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度。
结合第二方面的第三种可实现的方式,在第二方面的第四种可实现的方式中,所述处理模块用于计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度,包括:
若特征属性为多值属性,则所述特征属性对应的相似度权重为相同的特征属性的具体取值的个数与所述多值属性的具体取值的个数总和的比值乘以所述多值属性对应的相似度权重;
若特征属性为单值属性,则所述特征属性对应的相似度权重为所述单值属性对应的相似度权重;
计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度。
第三方面,本发明实施例提供一种数据处理设备,包括:
处理器,用于根据数据库中的数据的特征属性和特征属性对应的相似度权重生成属性分组表,所述属性分组表包括各特征属性、所述特征属性的具体取值以及与所述特征属性的具体取值相对应的数据的信息,其中,所述属性分组表中的各特征属性按照所述特征属性对应的相似度权重依序排列;
所述处理器,还用于获取目标数据的各特征属性的具体取值,将各特征属性的具体取值按照特征属性对应的相似度权重依序排列;
所述处理器,还用于根据预设查找个数按照所述目标数据的各特征属性对应的相似度权重的排列顺序,依序在属性分组表中选取与所述目标数据的特征属性的具体取值相同的候选数据的信息,直至所述候选数据的信息的个数与所述预设查找个数相同为止;并,计算所述目标数据与所述候选数据的相似度,根据所述候选数据的相似度获取与所述目标数据相关的数据。
结合第三方面,在第三方面的第一种可实现的方式中,所述属性分组表包括特征属性列和数据信息列;
所述处理器,用于将所述特征属性列中的各特征属性按照所述特征属性对应的相似度权重依序排列;各特征属性包括至少一个所述特征属性的具体取值,所述特征属性列中的一行对应一个特征属性的具体取值;分别将数据库中的数据的信息存放在数据信息列中与所述数据的特征属性的具体值所在行的相同行中,其中,所述数据包括至少一个特征属性的具体值。
结合第三方面或第三方面的第一种可实现的方式,在第三方面的第二种可实现的方式中,所述处理器还用于:获取所述候选数据的各特征属性的具体取值,将各特征属性的具体取值按照特征属性对应的相似度权重依序排列;
所述处理器,用于计算所述目标数据与所述候选数据的相似度,根据所述候选数据的相似度获取与所述目标数据相关的数据,包括:
计算所述目标数据的各特征属性的具体取值与各候选数据的特征属性的具体取值的相似度,获取所述候选数据的相似度;
根据各候选数据的相似度,按照从大到小的顺序依序选择预设结果个数的候选数据作为所述目标数据的相关数据。
结合第三方面的第二种可实现的方式,在第三方面的第三种可实现的方式中,所述处理器用于计算所述目标数据的各特征属性的具体取值与各候选数据的特征属性的具体取值的相似度,获取所述候选数据的相似度,包括:
将所述目标数据的各特征属性的具体取值与各候选数据的所述特征属性的具体取值进行一一比对,计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度。
结合第三方面的第三种可实现的方式,在第三方面的第四种可实现的方式中,所述处理器用于计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度,包括:
若特征属性为多值属性,则所述特征属性对应的相似度权重为相同的特征属性的具体取值的个数与所述多值属性的具体取值的个数总和的比值乘以所述多值属性对应的相似度权重;
若特征属性为单值属性,则所述特征属性对应的相似度权重为所述单值属性对应的相似度权重;
计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度。
本发明实施例数据处理方法和装置,通过根据数据库中的数据的特征属性和特征属性对应的相似度权重生成属性分组表,获取目标数据的各特征属性的具体取值,将各特征属性的具体取值按照特征属性对应的相似度权重依序排列,根据预设查找个数按照所述目标数据的各特征属性对应的相似度权重的排列顺序,依序在属性分组表中选取与所述目标数据的特征属性的具体取值相同的候选数据的信息,直至所述候选数据的信息的个数与所述预设查找个数相同为止,计算所述目标数据与所述候选数据的相似度,根据所述候选数据的相似度获取与所述目标数据相关的数据,从而在获取目标数据的相关数据过程中可以有效降低计算量和对硬件的需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明数据处理方法实施例一的流程图;
图2为本发明数据处理方法实施例二的流程图;
图3为本发明数据处理方法中的属性分组表;
图4为本发明数据处理装置实施例一的结构示意图;
图5为本发明数据处理设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的数据处理方法是一种对内容相似度算法的改进,该数据处理方法可以用于实现个性化推荐,该数据处理方法中的数据可以是商品数据,例如购物网站上的书籍信息,利用本实施例的数据处理方法可以实现根据数据的特征属性来计算不同数据之间的相关性,进而进行数据推送等操作。
图1为本发明数据处理方法实施例一的流程图,如图1所示,本实施例的方法可以包括:
步骤101、根据数据库中的数据的特征属性和特征属性对应的相似度权重生成属性分组表,所述属性分组表包括各特征属性、所述特征属性的具体取值以及与所述特征属性的具体取值相对应的数据的信息,其中,所述属性分组表中的各特征属性按照所述特征属性对应的相似度权重依序排列。
其中,一个数据可以有多个特征属性,一个特征属性可以有一个特征属性的具体取值,即单值属性,也可以有多个特征属性的具体取值,即多值属性。特征属性可以描述数据之间的相似关系,例如,若数据为歌曲数据,那么特征属性可以包括歌手属性和曲风属性,相同的歌手或相同的曲风的歌曲会存在一定的相似性。特征属性的具体取值即指该数据的该特征数据的值,例如,对于数据为歌曲“Hero”,特征属性为歌手属性,那么该数据的该特征属性的具体取值即为“MariahCarey”。进一步以上述举例说明单值属性和多值属性,即该歌手属性即为单值属性,即一个数据仅有一个具体取值,而曲风属性即为多值属性,即一个数据可以有多个曲风属性的具体取值,即该歌曲的曲风可以是流行和蓝调两个具体取值。各特征属性对应的相似度权重为在计算数据之间的相似度时,考虑到不同的特征属性对相似性计算结果的影响不同,则对每一个特征属性设置一个对应的相似度权重,各特征属性对应的相似度权重可以需求进行灵活设置。
具体的,通过步骤101可以获取数据库中所有的特征属性和所有数据的特征属性的具体取值,进而获取数据库中各个特征属性的具体取值所包括的所有数据的信息。
步骤102、获取目标数据的各特征属性的具体取值,将各特征属性的具体取值按照特征属性对应的相似度权重依序排列。
具体的,需要推送与一个目标数据相关的其他数据,那么就需要用本实施例的方法获取与该目标数据相关的数据,首先需要利用步骤102获取该目标数据的各特征属性的具体取值,并按照特征属性对应的相似度权重对各特征属性的具体取值进行排序,需要说明的是,若该特征属性是多值属性,那么该特征属性的多个具体取值的先后顺序可以不做限制。
步骤103、根据预设查找个数按照所述目标数据的各特征属性对应的相似度权重的排列顺序,依序在属性分组表中选取与所述目标数据的特征属性的具体取值相同的候选数据的信息,直至所述候选数据的信息的个数与所述预设查找个数相同为止。
具体的,本实施例在获取该目标数据的相关数据过程中,先从数据库中的数据中筛选出预设查找个数的候选数据,再在候选数据中获取该目标数据的相关数据,该预设查找个数可以根据需求进行灵活设置,例如可以为500个,相应的步骤103即为利用属性分组表快速的在数据库中筛选出500个数据作为候选数据,获取候选数据的信息。
步骤104、计算所述目标数据与所述候选数据的相似度,根据所述候选数据的相似度获取与所述目标数据相关的数据。
具体的,本实施例通过上述步骤处理之后,仅需要对该500个候选数据与目标数据的相似度进行计算,从而可以有效减少计算次数和中间结果的产生。
进一步的,所述属性分组表具体可以包括特征属性列和数据信息列;相应的,步骤101中的所述根据数据库中的数据的特征属性和特征属性对应的相似度权重生成属性分组表,具体可以为:将所述特征属性列中的各特征属性按照所述特征属性对应的相似度权重依序排列;各特征属性包括至少一个所述特征属性的具体取值,所述特征属性列中的一行对应一个特征属性的具体取值;分别将数据库中的数据的信息存放在数据信息列中与所述数据的特征属性的具体值所在行的相同行中,其中,所述数据包括至少一个特征属性的具体值。
进一步的,本实施例的方法还可以获取所述候选数据的各特征属性的具体取值,将各特征属性的具体取值按照特征属性对应的相似度权重依序排列;相应的,步骤104中所述计算所述目标数据与所述候选数据的相似度,根据所述候选数据的相似度获取与所述目标数据相关的数据,具体可以为:计算所述目标数据的各特征属性的具体取值与各候选数据的特征属性的具体取值的相似度,获取所述候选数据的相似度;根据各候选数据的相似度,按照从大到小的顺序依序选择预设结果个数的候选数据作为所述目标数据的相关数据。即,在通过步骤103选出的候选数据中,进一步根据相似度计算,选择与目标数据最为相似的数据作为该目标数据的相关数据。
进一步的,所述计算所述目标数据的各特征属性的具体取值与各候选数据的特征属性的具体取值的相似度,获取所述候选数据的相似度,具体可以为:将所述目标数据的各特征属性的具体取值与各候选数据的所述特征属性的具体取值进行一一比对,计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度。
进一步的,计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度,具体可以为:若特征属性为多值属性,则所述特征属性对应的相似度权重为相同的特征属性的具体取值的个数与所述多值属性的具体取值的个数总和的比值乘以所述多值属性对应的相似度权重;若特征属性为单值属性,则所述特征属性对应的相似度权重为所述单值属性对应的相似度权重;计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度。即,充分考虑单值属性和多值属性的均等性,根据多值属性的具体取值的个数总和与相同的具体取值的关系调节其对应的相似度权重。
本实施例,通过根据数据库中的数据的特征属性和特征属性对应的相似度权重生成属性分组表,获取目标数据的各特征属性的具体取值,将各特征属性的具体取值按照特征属性对应的相似度权重依序排列,根据预设查找个数按照所述目标数据的各特征属性对应的相似度权重的排列顺序,依序在属性分组表中选取与所述目标数据的特征属性的具体取值相同的候选数据的信息,直至所述候选数据的信息的个数与所述预设查找个数相同为止,计算所述目标数据与所述候选数据的相似度,根据所述候选数据的相似度获取与所述目标数据相关的数据,从而在获取目标数据的相关数据过程中可以有效降低计算量和计算过程中对硬件的处理性能需求。
下面采用一个具体的实施例,对图1所示方法实施例的技术方案进行详细说明。
图2为本发明数据处理方法实施例二的流程图,图3为本发明数据处理方法中的属性分组表,假设数据库中的数据总数为M个,特征属性包括P1,P2,…,Pn,每个特征属性对应的相似度权重分别为W1,W2,…,Wn,相似度列表长度最大为50,即每个数据只要找到50个最相似的数据即可,数据库中的数据的信息用编码0001至0013进行示意性说明,如图2所示,本实施例的方法可以包括:
步骤201、将各特征属性按照权重从大到小排序,处理P1属性,遍历所有数据,找出P1属性的所有具体取值,和与各具体取值相对应的数据的信息,依次获取各个特征属性的所有具体取值和与其对应的数据信息,生成一个属性分组表。
其中,假设P1,P2,…,Pn为已经排序后的属性,如图3所示,一个特征属性为一列,从左至右依次为P1,P2,…,Pn,P1属性的编码可以用0表示,P1属性的具体取值可以是Jay、Allen等,Jay前面的0用于标识P1属性,由于P1属性为单值属性,所以数据库中具有该P1属性的数据仅存在于一个P1属性的具体取值中,而数据库中会存在多个具有相同P1属性的具体取值的数据,例如0001和0002。而P3属性为多值属性,具有P3属性的数据会存在于多个P3属性的具体取值中,例如数据0002,该数据0002存在于P3属性的70S和80S的具体取值中,其中,70S前的2用于标识P3属性。依次获取数据库中的所有特征属性,进而获取各特征属性的具体取值,进而将数据的信息存放在与特征属性的具体取值对应的位置处,生成该属性分组表。需要说明的是,图3中的一个特征属性的具体取值对应的数据,例如0Jay对应的0001,0002,0003,0004,其可以是位于属性分组表中的一行,附图空间有限用方框表示一行。当然也可以采用其他存储方式,例如建立相应的映射关系,在与0Jay相应的位置获取具有该特征属性的具体取值的数据。
步骤202、获取目标数据的各特征属性的具体取值,将各特征属性的具体取值按照特征属性对应的相似度权重依序排列。
具体的,以目标数据为0001为例,获取0001的各特征属性的具体取值,可以为0001:0Jay,1Rock,…。
步骤203、按照所述目标数据的各特征属性对应的相似度权重的排列顺序,依序在属性分组表中选取与所述目标数据的特征属性的具体取值相同的候选数据的信息,直至所述候选数据的信息的个数为500个为止。
具体的,0001的第一特征属性的具体取值为0Jay,那么在属性分组表中查找0Jay中的数据,可以找到数据0002、0003和0004作为候选数据,此时的候选数据的个数为3个,那么继续按照相同的方式查找1Rock中的数据,可以找到数据0005、0008和0011也作为候选数据,进一步按照上述相同的方式,查找500个数据作为候选数据。
步骤204、获取各候选数据的各特征属性的具体取值,将各特征属性的具体取值按照特征属性对应的相似度权重依序排列。
具体的,例如候选数据0002,0002的各特征属性的具体取值可以为0002:0Jay,1Jazz,270s,280s。0003的各特征属性的具体取值可以为0003:1R&B,270s。
步骤205、计算所述目标数据与各候选数据的相似度,根据各候选数据的相似度获取与所述目标数据相关的数据。
具体的,计算上述步骤选取的500个数据与数据0001的相似度,最后找出相似度得分最多的50个产品作为最终的计算结果。
具体的相似度计算方式为,举例而言,如果数据0001和数据0002的单值属性P1相同,那么数据0001和数据0002的相似度Rab=W1,如果数据0001和数据0002的单值属性P2相同,那么数据0001和数据0002的相似度Rab=Rab+W2,否则Rab不变。使用相同的方法计算数据0001和数据0002的其他单值属性。举例而言(图3未示出),对于多值属性P5,如果数据0001的多值属性P5是5个值,数据0002的多值属性P5是7个值,如果数据0001和数据0002没有一个值相同,则P5对数据0001和数据0002的相似度没有贡献,如果数据0001和数据0002有两个值相同,数据0001和数据0002的相似度为Rab=Rab+2/7*W5。使用相同的方法计算数据0001和数据0002的其他多值属性。进而计算出数据0002的相似度。
使用相同的方法可以计算出所有候选数据的相似度,从而在各候选数据中获取相似度最高的50个数据,为该目标数据的相关数据。
本实施例,通过生成属性分组表,在属性分组表中获取目标数据的多个候选数据,进而对各候选数据和目标数据一一进行相似度计算,确定该目标数据的相关数据,实现在获取目标数据的相关数据过程中可以有效降低计算量和对硬件的需求。
图4为本发明数据处理装置实施例一的结构示意图,如图4所示,本实施例的装置可以包括:生成模块11、获取模块12和处理模块13,其中,生成模块11用于根据数据库中的数据的特征属性和特征属性对应的相似度权重生成属性分组表,所述属性分组表包括各特征属性、所述特征属性的具体取值以及与所述特征属性的具体取值相对应的数据的信息,其中,所述属性分组表中的各特征属性按照所述特征属性对应的相似度权重依序排列,获取模块12用于获取目标数据的各特征属性的具体取值,将各特征属性的具体取值按照特征属性对应的相似度权重依序排列,处理模块13,用于根据预设查找个数按照所述目标数据的各特征属性对应的相似度权重的排列顺序,依序在属性分组表中选取与所述目标数据的特征属性的具体取值相同的候选数据的信息,直至所述候选数据的信息的个数与所述预设查找个数相同为止;所述处理模块,还用于计算所述目标数据与所述候选数据的相似度,根据所述候选数据的相似度获取与所述目标数据相关的数据。
进一步的,所述属性分组表包括特征属性列和数据信息列;所述生成模块11,具体用于将所述特征属性列中的各特征属性按照所述特征属性对应的相似度权重依序排列;各特征属性包括至少一个所述特征属性的具体取值,所述特征属性列中的一行对应一个特征属性的具体取值;分别将数据库中的数据的信息存放在数据信息列中与所述数据的特征属性的具体值所在行的相同行中,其中,所述数据包括至少一个特征属性的具体值。
进一步的,所述获取模块11还用于:获取所述候选数据的各特征属性的具体取值,将各特征属性的具体取值按照特征属性对应的相似度权重依序排列;所述处理模块13,用于计算所述目标数据与所述候选数据的相似度,根据所述候选数据的相似度获取与所述目标数据相关的数据,具体可以为:计算所述目标数据的各特征属性的具体取值与各候选数据的特征属性的具体取值的相似度,获取所述候选数据的相似度;根据各候选数据的相似度,按照从大到小的顺序依序选择预设结果个数的候选数据作为所述目标数据的相关数据。
进一步的,所述处理模块13用于计算所述目标数据的各特征属性的具体取值与各候选数据的特征属性的具体取值的相似度,获取所述候选数据的相似度,具体可以为:将所述目标数据的各特征属性的具体取值与各候选数据的所述特征属性的具体取值进行一一比对,计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度。
进一步的,所述处理模块13用于计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度,具体可以为:若特征属性为多值属性,则所述特征属性对应的相似度权重为相同的特征属性的具体取值的个数与所述多值属性的具体取值的个数总和的比值乘以所述多值属性对应的相似度权重;若特征属性为单值属性,则所述特征属性对应的相似度权重为所述单值属性对应的相似度权重;计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度。
本实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图5为本发明数据处理设备的结构示意图,如图5所示,本实施例的数据处理设备可以包括,通信总线501,以及连接到通信总线501的至少一个处理器502和存储器503。其中,总线系统501用于实现各装置之间的连接通信。处理器502可以是一个中央处理器(CentralProcessingUnit,CPU),或者是特定集成电路(ApplicationSpecificIntegratedCircuit,ASIC),或者完成实施本发明实施例的一个或多个集成电路,或者是一个片上系统(SystemonChip,简称,SoC)。存储器503中存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被数据处理设备执行时所述数据处理设备执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。可选的,本实施例的数据处理设备还可以包括收发器504,处理器502可以调用存储器503的指令代码,控制本发明实施例中的收发器504将上述方法实施例得到的处理结果发送给相应的设备。
作为一种实现方式,本发明实施例中的生成模块11、获取模块12和处理模块13可以与数据处理设备的处理器502对应。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
根据数据库中的数据的特征属性和特征属性对应的相似度权重生成属性分组表,所述属性分组表包括各特征属性、所述特征属性的具体取值以及与所述特征属性的具体取值相对应的数据的信息,其中,所述属性分组表中的各特征属性按照所述特征属性对应的相似度权重依序排列;
获取目标数据的各特征属性的具体取值,将各特征属性的具体取值按照特征属性对应的相似度权重依序排列;
根据预设查找个数按照所述目标数据的各特征属性对应的相似度权重的排列顺序,依序在属性分组表中选取与所述目标数据的特征属性的具体取值相同的候选数据的信息,直至所述候选数据的信息的个数与所述预设查找个数相同为止;
计算所述目标数据与所述候选数据的相似度,根据所述候选数据的相似度获取与所述目标数据相关的数据。
2.根据权利要求1所述的方法,其特征在于,所述属性分组表包括特征属性列和数据信息列;
所述根据数据库中的数据的特征属性和特征属性对应的相似度权重生成属性分组表,包括:
将所述特征属性列中的各特征属性按照所述特征属性对应的相似度权重依序排列;各特征属性包括至少一个所述特征属性的具体取值,所述特征属性列中的一行对应一个特征属性的具体取值;
分别将数据库中的数据的信息存放在数据信息列中与所述数据的特征属性的具体值所在行的相同行中,其中,所述数据包括至少一个特征属性的具体值。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
获取所述候选数据的各特征属性的具体取值,将各特征属性的具体取值按照特征属性对应的相似度权重依序排列;
所述计算所述目标数据与所述候选数据的相似度,根据所述候选数据的相似度获取与所述目标数据相关的数据,包括:
计算所述目标数据的各特征属性的具体取值与各候选数据的特征属性的具体取值的相似度,获取所述候选数据的相似度;
根据各候选数据的相似度,按照从大到小的顺序依序选择预设结果个数的候选数据作为所述目标数据的相关数据。
4.根据权利要求3所述的方法,其特征在于,所述计算所述目标数据的各特征属性的具体取值与各候选数据的特征属性的具体取值的相似度,获取所述候选数据的相似度,包括:
将所述目标数据的各特征属性的具体取值与各候选数据的所述特征属性的具体取值进行一一比对,计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度。
5.根据权利要求4所述的方法,其特征在于,计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度,包括:
若特征属性为多值属性,则所述特征属性对应的相似度权重为相同的特征属性的具体取值的个数与所述多值属性的具体取值的个数总和的比值乘以所述多值属性对应的相似度权重;
若特征属性为单值属性,则所述特征属性对应的相似度权重为所述单值属性对应的相似度权重;
计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度。
6.一种数据处理装置,其特征在于,包括:
生成模块,用于根据数据库中的数据的特征属性和特征属性对应的相似度权重生成属性分组表,所述属性分组表包括各特征属性、所述特征属性的具体取值以及与所述特征属性的具体取值相对应的数据的信息,其中,所述属性分组表中的各特征属性按照所述特征属性对应的相似度权重依序排列;
获取模块,用于获取目标数据的各特征属性的具体取值,将各特征属性的具体取值按照特征属性对应的相似度权重依序排列;
处理模块,用于根据预设查找个数按照所述目标数据的各特征属性对应的相似度权重的排列顺序,依序在属性分组表中选取与所述目标数据的特征属性的具体取值相同的候选数据的信息,直至所述候选数据的信息的个数与所述预设查找个数相同为止;
所述处理模块,还用于计算所述目标数据与所述候选数据的相似度,根据所述候选数据的相似度获取与所述目标数据相关的数据。
7.根据权利要求6所述的装置,其特征在于,所述属性分组表包括特征属性列和数据信息列;
所述生成模块,具体用于将所述特征属性列中的各特征属性按照所述特征属性对应的相似度权重依序排列;各特征属性包括至少一个所述特征属性的具体取值,所述特征属性列中的一行对应一个特征属性的具体取值;
分别将数据库中的数据的信息存放在数据信息列中与所述数据的特征属性的具体值所在行的相同行中,其中,所述数据包括至少一个特征属性的具体值。
8.根据权利要求6或7所述的装置,其特征在于,所述获取模块还用于:
获取所述候选数据的各特征属性的具体取值,将各特征属性的具体取值按照特征属性对应的相似度权重依序排列;
所述处理模块,用于计算所述目标数据与所述候选数据的相似度,根据所述候选数据的相似度获取与所述目标数据相关的数据,包括:
计算所述目标数据的各特征属性的具体取值与各候选数据的特征属性的具体取值的相似度,获取所述候选数据的相似度;
根据各候选数据的相似度,按照从大到小的顺序依序选择预设结果个数的候选数据作为所述目标数据的相关数据。
9.根据权利要求8所述的装置,其特征在于,所述处理模块用于计算所述目标数据的各特征属性的具体取值与各候选数据的特征属性的具体取值的相似度,获取所述候选数据的相似度,包括:
将所述目标数据的各特征属性的具体取值与各候选数据的所述特征属性的具体取值进行一一比对,计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度。
10.根据权利要求9所述的装置,其特征在于,所述处理模块用于计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度,包括:
若特征属性为多值属性,则所述特征属性对应的相似度权重为相同的特征属性的具体取值的个数与所述多值属性的具体取值的个数总和的比值乘以所述多值属性对应的相似度权重;
若特征属性为单值属性,则所述特征属性对应的相似度权重为所述单值属性对应的相似度权重;
计算各候选数据的特征属性的具体取值中与所述目标数据的特征属性的具体取值相同的特征属性对应的相似度权重之和,获取所述候选数据的相似度。
CN201510861335.7A 2015-11-30 2015-11-30 数据处理方法和装置 Withdrawn CN105488176A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510861335.7A CN105488176A (zh) 2015-11-30 2015-11-30 数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510861335.7A CN105488176A (zh) 2015-11-30 2015-11-30 数据处理方法和装置

Publications (1)

Publication Number Publication Date
CN105488176A true CN105488176A (zh) 2016-04-13

Family

ID=55675150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510861335.7A Withdrawn CN105488176A (zh) 2015-11-30 2015-11-30 数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN105488176A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650948A (zh) * 2016-12-09 2017-05-10 曙光信息产业(北京)有限公司 一种机器学习中避免大数据冗余的方法
CN108090082A (zh) * 2016-11-22 2018-05-29 腾讯科技(北京)有限公司 信息处理方法及信息处理装置
WO2018166343A1 (zh) * 2017-03-13 2018-09-20 腾讯科技(深圳)有限公司 一种数据融合方法及装置、存储介质以及电子装置
CN109697234A (zh) * 2018-12-04 2019-04-30 百度在线网络技术(北京)有限公司 实体的多属性信息存储、查询方法、装置、服务器和介质
CN110609905A (zh) * 2019-09-12 2019-12-24 深圳众赢维融科技有限公司 超点类型识别和图数据处理方法及装置
CN114186137A (zh) * 2021-12-14 2022-03-15 聚好看科技股份有限公司 服务器及媒资混合推荐方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090082A (zh) * 2016-11-22 2018-05-29 腾讯科技(北京)有限公司 信息处理方法及信息处理装置
CN106650948A (zh) * 2016-12-09 2017-05-10 曙光信息产业(北京)有限公司 一种机器学习中避免大数据冗余的方法
WO2018166343A1 (zh) * 2017-03-13 2018-09-20 腾讯科技(深圳)有限公司 一种数据融合方法及装置、存储介质以及电子装置
CN108572947A (zh) * 2017-03-13 2018-09-25 腾讯科技(深圳)有限公司 一种数据融合方法及装置
CN109697234A (zh) * 2018-12-04 2019-04-30 百度在线网络技术(北京)有限公司 实体的多属性信息存储、查询方法、装置、服务器和介质
CN109697234B (zh) * 2018-12-04 2021-08-06 百度在线网络技术(北京)有限公司 实体的多属性信息查询方法、装置、服务器和介质
CN110609905A (zh) * 2019-09-12 2019-12-24 深圳众赢维融科技有限公司 超点类型识别和图数据处理方法及装置
CN114186137A (zh) * 2021-12-14 2022-03-15 聚好看科技股份有限公司 服务器及媒资混合推荐方法

Similar Documents

Publication Publication Date Title
CN105488176A (zh) 数据处理方法和装置
CN102156751B (zh) 一种提取视频指纹的方法及装置
US10402427B2 (en) System and method for analyzing result of clustering massive data
US8943091B2 (en) System, method, and computer program product for performing a string search
CN104281664B (zh) 分布式图计算系统数据切分方法和系统
CN106033416A (zh) 一种字符串处理方法及装置
US8706711B2 (en) Descriptor storage and searches of k-dimensional trees
CN102169491B (zh) 一种多数据集中重复记录动态检测方法
CN103345496A (zh) 多媒体信息检索方法和系统
CN105404675A (zh) Ranked反近邻空间关键字查询方法及装置
CN108629345A (zh) 高维图像特征匹配方法和装置
US20070239663A1 (en) Parallel processing of count distinct values
CN106528790A (zh) 度量空间中支撑点的选取方法及装置
CN109241360B (zh) 组合字符串的匹配方法及装置和电子设备
CN113568940B (zh) 数据查询的方法、装置、设备以及存储介质
CN108920601B (zh) 一种数据匹配方法及装置
CN109739854A (zh) 一种数据存储方法及装置
JP6705764B2 (ja) 生成装置、生成方法、及び生成プログラム
WO2017157038A1 (zh) 数据处理的方法、装置和设备
CN106445960A (zh) 一种数据聚类方法和装置
CN113591881B (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN113434413B (zh) 基于数据差异的数据测试方法、装置、设备及存储介质
CN113343102A (zh) 基于特征筛选的数据推荐方法、装置、电子设备及介质
CN115129915A (zh) 重复图像检索方法、装置、设备及存储介质
CN111984812A (zh) 一种特征提取模型生成方法、图像检索方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C04 Withdrawal of patent application after publication (patent law 2001)
WW01 Invention patent application withdrawn after publication

Application publication date: 20160413