CN110598072B - 一种特征数据聚合方法及装置 - Google Patents

一种特征数据聚合方法及装置 Download PDF

Info

Publication number
CN110598072B
CN110598072B CN201910903232.0A CN201910903232A CN110598072B CN 110598072 B CN110598072 B CN 110598072B CN 201910903232 A CN201910903232 A CN 201910903232A CN 110598072 B CN110598072 B CN 110598072B
Authority
CN
China
Prior art keywords
data
feature
type
feature data
aggregation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910903232.0A
Other languages
English (en)
Other versions
CN110598072A (zh
Inventor
田力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Enyike Beijing Data Technology Co ltd
Original Assignee
Enyike Beijing Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Enyike Beijing Data Technology Co ltd filed Critical Enyike Beijing Data Technology Co ltd
Priority to CN201910903232.0A priority Critical patent/CN110598072B/zh
Publication of CN110598072A publication Critical patent/CN110598072A/zh
Application granted granted Critical
Publication of CN110598072B publication Critical patent/CN110598072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种特征数据聚合方法,该方法包括:聚合服务器将待进行特征数据聚合的目标设备标识码以及预设的不同数据类型对应的格式转换逻辑,分别发送给多个数据源,以使各数据源从各自的特征数据集中筛选出与目标设备标识码相匹配的特征数据;依据特征数据的数据类型,按照该数据类型对应的格式转换逻辑进行格式转换;确定特征数据对应的特征类型,为进行格式转换后的特征数据设置该特征类型对应的特征类型标识,得到目标设备特征数据,并发送给聚合服务器;聚合服务器依据从各数据源处获取的目标设备特征数据所携带的特征类型标识,对同一特征类型标识对应的目标设备特征数据进行去重处理,得到目标设备标识码对应的聚合特征数据。

Description

一种特征数据聚合方法及装置
技术领域
本申请涉及数据处理领域,具体而言,涉及一种特征数据聚合方法及装置。
背景技术
在互联网时代,用户的数据分析与一个项目、产品的决策是密不可分的,随着大数据的普遍应用,用户数据的聚合方式得到了进一步的改善。
现有技术中,对于用户数据的聚合,一般是使多个数据源各自调取所需特征的数据后,在各个数据源中转换成统一格式的数据后,再根据提供的用户的相关标识筛选出对应的数据,接着,多个数据源通过联合处理的方式去除重复的数据,最后再将去重后的数据写入数据库,进行数据整理。
现有技术的用户数据聚合的方式中,对于复杂类型的数据处理难度大,并且由于采用多数据源联合去重的方式,导致整体流程冗长,效率低下。
发明内容
有鉴于此,本申请的目的在于提供一种特征数据聚合方法及装置,用于解决现有技术中特征数据聚合效率低的问题。可以利用聚合服务器数据库的特性,为多种不同的数据类型。
第一方面,本申请实施例提供了一种特征数据聚合方法,应用于设备特征数据聚合网络中的聚合服务器,所述设备特征数据聚合网络还包括多个数据源;该方法包括:
聚合服务器将待进行特征数据聚合的目标设备标识码以及预设的不同数据类型对应的格式转换逻辑,分别发送给多个数据源,以使各数据源从各自的特征数据集中筛选出与所述目标设备标识码相匹配的特征数据;依据所述特征数据的数据类型,按照该数据类型对应的格式转换逻辑进行格式转换;确定所述特征数据对应的特征类型,为进行格式转换后的特征数据设置该特征类型对应的特征类型标识,得到目标设备特征数据,并发送给聚合服务器;
聚合服务器依据从各数据源处获取的所述目标设备特征数据所携带的特征类型标识,对同一特征类型标识对应的目标设备特征数据进行去重处理,得到所述目标设备标识码对应的聚合特征数据。
根据第一方面,本申请实施例提供了第一方面的第一种可能的实施方案,其中,所述确定所述特征数据对应的特征类型,为进行格式转换后的特征数据设置该特征类型对应的特征类型标识,包括:
若所述特征数据的数据类型是字符串类型,依据该字符串类型的特征数据对应的特征类型,设置特征类型标识,所述特征类型标识包括特征类别。
根据第一方面的第一种可能的实施方案,本申请实施例提供了第一方面的第二种可能的实施方案,其中,所述依据从各数据源处获取的所述目标设备特征数据所携带的特征类型标识,对同一特征类型标识对应的目标设备特征数据进行去重处理,得到所述目标设备标识码对应的聚合特征数据,包括:
针对字符串类型的目标设备特征数据,依据同一特征类型标识对应的目标设备特征数据所携带的时间戳进行去重处理,只保留同一特征类型标识对应的目标设备特征数据中时间戳最新的目标设备特征数据。
根据第一方面,本申请实施例提供了第一方面的第三种可能的实施方案,其中,所述确定所述特征数据对应的特征类型,为进行格式转换后的特征数据设置该特征类型对应的特征类型标识,包括:
若所述特征数据的数据类型是映射类型,依据该映射类型的特征数据对应的特征类型,设置特征类型标识;所述特征类型标识包括特征类别、特征名和特征值,其中,特征值存储为该特征类别下特征名对应的实际值。
根据第一方面,本申请实施例提供了第一方面的第四种可能的实施方案,其中,所述聚合服务器将预设的不同数据类型的对应的格式转换逻辑分别发送给各数据源,以使各数据源将所述目标设备的特征数据进行格式转换并为同种特征类型的特征数据设置统一的唯一标识,得到处理后的目标设备的特征数据,并发送给聚合服务器,包括:
若所述特征数据的数据类型是数组类型,依据该数组类型的特征数据对应的特征类型,设置特征类型标识;所述特征类型标识包括特征类别、特征名和特征值,其中,特征值存储为空。
根据第一方面,本申请实施例提供了第一方面的第五种可能的实施方案,其中,在聚合服务器依据从各数据源处获取的所述目标设备特征数据所携带的特征类型标识,对同一特征类型标识对应的目标设备特征数据进行去重处理,得到所述目标设备标识码对应的聚合特征数据之后,还包括:
获取待共享的数据服务器的格式转换逻辑对应的数据共享类型;
按照所述待共享的数据服务器的格式转换逻辑,将所述聚合特征数据转换成所述数据共享类型的特征数据,并将转换后的所述数据共享类型的特征数据发送至所述待共享的数据服务器。
第二方面,本申请实施例提供了一种特征数据聚合装置,应用于设备特征数据聚合网络中的聚合服务器,所述设备特征数据聚合网络还包括多个数据源;所述装置包括:
第一处理模块,用于聚合服务器将待进行特征数据聚合的目标设备标识码以及预设的不同数据类型对应的格式转换逻辑,分别发送给多个数据源,以使各数据源从各自的特征数据集中筛选出与所述目标设备标识码相匹配的特征数据;依据所述特征数据的数据类型,按照该数据类型对应的格式转换逻辑进行格式转换;确定所述特征数据对应的特征类型,为进行格式转换后的特征数据设置该特征类型对应的特征类型标识,得到目标设备特征数据,并发送给聚合服务器;
聚合模块,用于聚合服务器依据从各数据源处获取的所述目标设备特征数据所携带的特征类型标识,对同一特征类型标识对应的目标设备特征数据进行去重处理,得到所述目标设备标识码对应的聚合特征数据。
根据第二方面,本申请实施例提供了第二方面的第一种可能的实施方案,其中,在聚合模块之后,还包括:
获取模块,用于获取待共享的数据服务器的格式转换逻辑对应的数据共享类型;
第二处理模块,用于按照所述待共享的数据服务器的格式转换逻辑,将所述聚合特征数据转换成所述数据共享类型的特征数据,并将转换后的所述数据共享类型的特征数据发送至所述待共享的数据服务器。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面及其可能的实施方案中任一项所述的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面及其可能的实施方案中任一项所述的方法的步骤。
本申请实施例提出的一种特征数据聚合方法及装置,通过由聚合服务器将目标设备标识码发送给多个数据源,使数据源各自独立地筛选出与目标设备标识码相匹配的特征数据,并对该特征数据按照格式预设转换逻辑进行基于数据类型的格式转换,并为特征数据附加特征类型标识,得到目标设备特征数据,聚合服务器在获取目标设备特征数据后,根据目标设备特征数据所携带的特征类型标识,进行数据整理聚合。本申请实施例所提出的特征数据聚合方法及装置通过预设不同数据类型的格式转换逻辑,进行基于数据类型的特征数据格式转换,并为特征数据附加特征类型标识的方式,使处理过后得到的目标设备特征数据在聚合服务器中可以进行便捷高速地去重处理,避免了数据源联合去重的复杂处理,降低了特征数据聚合的复杂程度,提高了特征数据聚合的效率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种特征数据聚合方法的流程示意图;
图2为本申请实施例提供的一种特征数据聚合方法的流程示意图;
图3为本申请实施例提供的一种特征数据聚合装置的结构示意图;
图4为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种特征数据聚合方法,应用于设备特征数据聚合网络中的聚合服务器,上述设备特征数据聚合网络还包括多个数据源;如图1所示,该方法包括以下步骤:
步骤S101、聚合服务器将待进行特征数据聚合的目标设备标识码以及预设的不同数据类型对应的格式转换逻辑,分别发送给多个数据源,以使各数据源从各自的特征数据集中筛选出与上述目标设备标识码相匹配的特征数据;依据上述特征数据的数据类型,按照该数据类型对应的格式转换逻辑进行格式转换;确定上述特征数据对应的特征类型,为进行格式转换后的特征数据设置该特征类型对应的特征类型标识,得到目标设备特征数据,并发送给聚合服务器;
步骤S102、聚合服务器依据从各数据源处获取的上述目标设备特征数据所携带的特征类型标识,对同一特征类型标识对应的目标设备特征数据进行去重处理,得到上述目标设备标识码对应的聚合特征数据。
具体地,聚合服务器将通过将目标设备标识码和对于不同数据类型预设的格式转换逻辑分别发送给所使用的多个数据源,各个数据源分别根据该目标设备标识码将自身数据中目标设备的特征数据筛选出来,然后根据上述格式转换逻辑,将不同数据类型的目标设备的特征数据进行对应的格式转换,在格式转换后,针对每一个目标设备的特征数据设置该特征数据的特征类型对应的特征类型标识,得到目标设备特征数据。聚合服务器从各数据源获取到目标设备特征数据后,根据目标设备特征数据所携带的特征类型标识,将目标设备特征数据写入聚合服务器所使用的数据库的数据表中,得到该目标设备的聚合特征数据。
在聚合服务器将目标设备特征数据写入聚合服务器所使用的数据库的数据表中时,该数据库根据上述特征类型标识,对写入数据表中的目标设备特征数据按照数据库基于特征类型标识的判断逻辑进行自动去重。优选地,聚合服务器所使用的数据库为HBase数据库,本申请对此不予限制。
在一可选的实施例中,在上述步骤S101中,确定上述特征数据对应的特征类型,为进行格式转换后的特征数据设置该特征类型对应的特征类型标识,包括:
步骤1011、若上述特征数据的数据类型是字符串类型,依据该字符串类型的特征数据对应的特征类型,设置特征类型标识,上述特征类型标识包括特征类别。
具体地,针对数据类型为字符串类型的特征数据,将该特征数据的特征类别作为特征类型标识以生成对应的目标设备特征数据,在后续该字符串类型的目标设备特征数据写入聚合服务器的数据库中时,以特征类型标识中的特征类别就可将该条数据写入该特征类别对应的数据表位置上。
在一可选的实施例中,上述步骤S102、依据从各数据源处获取的上述目标设备特征数据所携带的特征类型标识,对同一特征类型标识对应的目标设备特征数据进行去重处理,得到上述目标设备标识码对应的聚合特征数据,包括:
步骤1021、针对字符串类型的目标设备特征数据,依据同一特征类型标识对应的目标设备特征数据所携带的时间戳进行去重处理,只保留同一特征类型标识对应的目标设备特征数据中时间戳最新的目标设备特征数据。
字符串类型的目标设备特征数据通常只需要相同特征类别下最新的数据,为了实现这一数据需求,通过以字符串类型的目标特征数据所携带的信息中的时间戳作为去重依据,只将同一特征类别中时间戳最新的一条目标设备特征数据写入聚合服务器所使用的数据库的数据表中。
具体地,在使用HBase数据库时,只需在步骤1011中对字符串类型的特征数据进行处理时,将该条特征数据的列族版本号设为1,在将该条特征数据对应的目标设备特征数据写入HBase数据库的数据表时,就可根据HBase数据库的特性,自动在数据表中只保留该条目标设备特征数据的特征类别下最新一条数据。
在一可选的实施例中,在上述步骤S101中,确定上述特征数据对应的特征类型,为进行格式转换后的特征数据设置该特征类型对应的特征类型标识,包括:
步骤1012、若上述特征数据的数据类型是映射类型,依据该映射类型的特征数据对应的特征类型,设置特征类型标识;上述特征类型标识包括特征类别、特征名和特征值,其中,特征值存储为该特征类别下特征名对应的实际值。
针对映射类型的特征数据,由于映射类型的特征数据中包含了同一特征类别下的多个项目的数据,并且每个项目都有对应的实际值,所以为了该特征数据对应的目标设备特征数据在写入聚合服务器所使用的数据库时,数据库能够更好地确定该目标设备特征数据在数据表中所属的位置,在附加在映射类型的特征数据的特征类型标识中,不单要有特征类别,还要将该特征数据中具体的项目的特征名和对应的特征值添加到特征类型标识中。
具体地,在使用HBase数据库时,可将映射类型的特征数据的特征类型标识设置为“特征类别##特征名1,特征类别##特征名2,特征类别##特征名3,……”的格式,并将各特征名对应的实际值存储在该特征类型标识的特征名下。例如,一映射类型的特征数据的特征类别为媒体访问次数,其中包含了腾讯视频的访问次数为200、优酷的访问次数为100、爱奇艺的访问次数为150,那么,该特征数据的特征类别标识为“媒体访问次数##腾讯视频,媒体访问次数##优酷,媒体访问次数##爱奇艺”,并且,“腾讯视频”的值存储为200,“优酷”的值存储为100,“爱奇艺”的值存储为150。
在一可选的实施例中,在上述步骤S101中,聚合服务器将预设的不同数据类型的对应的格式转换逻辑分别发送给各数据源,以使各数据源将上述目标设备的特征数据进行格式转换并为同种特征类型的特征数据设置统一的唯一标识,得到处理后的目标设备的特征数据,并发送给聚合服务器,包括:
步骤1013、若上述特征数据的数据类型是数组类型,依据该数组类型的特征数据对应的特征类型,设置特征类型标识;上述特征类型标识包括特征类别、特征名和特征值,其中,特征值存储为空。
针对数组类型的特征数据,数组类型的特征数据中也包含了同一特征类别下的多个项目的数据,但这些项目没有实际值。因此,在附加在数组类型的特征数据的特征类型标识中,包含有特征类别和该特征数据中具体的项目的特征名,特征名对应的特征值存储为空。
具体地,在使用HBase数据库时,可将数组类型的特征数据的特征类型标识设置为“特征类别:特征名1,特征类别:特征名2,特征类别:特征名3,……”的格式,并且各特征名对应的实际值存储为空。例如,一数组类型的特征数据的特征类别为APP,其中包含了微信、QQ、微博、网易云音乐,那么,该特征数据的特征类型标识为“APP:微信,APP:QQ,APP:微博,APP:网易云音乐”,并且,“微信”、“QQ”、“微博”、“网易云音乐”的值存储为空。
在一可选的实施例中,在步骤S102、聚合服务器依据从各数据源处获取的上述目标设备特征数据所携带的特征类型标识,对同一特征类型标识对应的目标设备特征数据进行去重处理,得到上述目标设备标识码对应的聚合特征数据之后,如图2所示,该方法还包括:
步骤S103、获取待共享的数据服务器的格式转换逻辑对应的数据共享类型;
步骤S104、按照上述待共享的数据服务器的格式转换逻辑,将上述聚合特征数据转换成上述数据共享类型的特征数据,并将转换后的上述数据共享类型的特征数据发送至上述待共享的数据服务器。
具体地,在聚合服务器通过将各数据源处获得的经过处理的目标设备标识号对应的目标设备特征数据进行了聚合得到了对应的聚合特征数据之后,需要将该聚合特征数据共享到其他进行大数据分析的服务器中,这就需要先确认要进行共享的服务器的数据格式和数据类型,也就是格式转换逻辑,然后将聚合特征数据经过数据格式转换后,发送给要进行共享的服务器。一般地,进行大数据分析的服务器采用Hive数据库,可以将聚合特征数据转换成Hive数据库所使用的map类型(映射类型)和array类型(数组类型)的数据,就可将数据提供给大数据分析服务器进行特征查询和数据挖掘。
本申请实施例还提供了一种特征数据聚合装置,应用于设备特征数据聚合网络中的聚合服务器,上述设备特征数据聚合网络还包括多个数据源;如图3所示,上述装置包括:
第一处理模块30,用于聚合服务器将待进行特征数据聚合的目标设备标识码以及预设的不同数据类型对应的格式转换逻辑,分别发送给多个数据源,以使各数据源从各自的特征数据集中筛选出与上述目标设备标识码相匹配的特征数据;依据上述特征数据的数据类型,按照该数据类型对应的格式转换逻辑进行格式转换;确定上述特征数据对应的特征类型,为进行格式转换后的特征数据设置该特征类型对应的特征类型标识,得到目标设备特征数据,并发送给聚合服务器;
聚合模块31,用于聚合服务器依据从各数据源处获取的上述目标设备特征数据所携带的特征类型标识,对同一特征类型标识对应的目标设备特征数据进行去重处理,得到上述目标设备标识码对应的聚合特征数据。
在一可选的实施例中,在聚合模块31之后,还包括:
获取模块32,用于获取待共享的数据服务器的格式转换逻辑对应的数据共享类型;
第二处理模块33,用于按照上述待共享的数据服务器的格式转换逻辑,将上述聚合特征数据转换成上述数据共享类型的特征数据,并将转换后的上述数据共享类型的特征数据发送至上述待共享的数据服务器。
对应于图1中的特征数据聚合方法,本申请实施例还提供了一种计算机设备400,如图4所示,该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402执行上述计算机程序时实现上述特征数据聚合方法。
具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述特征数据聚合方法,解决了现有技术中特征数据聚合效率低的问题。
对应于图1中的特征数据聚合方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述特征数据聚合方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述特征数据聚合方法,解决了现有技术中特征数据聚合效率低的问题,本申请实施例所提出的特征数据聚合方法及装置通过预设不同数据类型的格式转换逻辑,进行基于数据类型的特征数据格式转换,并为特征数据附加特征类型标识的方式,使处理过后得到的目标设备特征数据在聚合服务器中可以进行便捷高速地去重处理,避免了数据源联合去重的复杂处理,降低了特征数据聚合的复杂程度,提高了特征数据聚合的效率。
在本申请所提供的实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种特征数据聚合方法,其特征在于,应用于设备特征数据聚合网络中的聚合服务器,所述设备特征数据聚合网络还包括多个数据源;所述方法包括:
聚合服务器将待进行特征数据聚合的目标设备标识码以及预设的不同数据类型对应的格式转换逻辑,分别发送给多个数据源,以使各数据源从各自的特征数据集中筛选出与所述目标设备标识码相匹配的特征数据;依据所述特征数据的数据类型,按照该数据类型对应的格式转换逻辑进行格式转换;确定所述特征数据对应的特征类型,为进行格式转换后的特征数据设置该特征类型对应的特征类型标识,得到目标设备特征数据,并发送给聚合服务器;
聚合服务器依据从各数据源处获取的所述目标设备特征数据所携带的特征类型标识,对同一特征类型标识对应的目标设备特征数据进行去重处理,得到所述目标设备标识码对应的聚合特征数据。
2.根据权利要求1所述的方法,其特征在于,所述确定所述特征数据对应的特征类型,为进行格式转换后的特征数据设置该特征类型对应的特征类型标识,包括:
若所述特征数据的数据类型是字符串类型,依据该字符串类型的特征数据对应的特征类型,设置特征类型标识,所述特征类型标识包括特征类别。
3.根据权利要求2所述的方法,其特征在于,所述依据从各数据源处获取的所述目标设备特征数据所携带的特征类型标识,对同一特征类型标识对应的目标设备特征数据进行去重处理,得到所述目标设备标识码对应的聚合特征数据,包括:
针对字符串类型的目标设备特征数据,依据同一特征类型标识对应的目标设备特征数据所携带的时间戳进行去重处理,只保留同一特征类型标识对应的目标设备特征数据中时间戳最新的目标设备特征数据。
4.根据权利要求1所述的方法,其特征在于,所述确定所述特征数据对应的特征类型,为进行格式转换后的特征数据设置该特征类型对应的特征类型标识,包括:
若所述特征数据的数据类型是映射类型,依据该映射类型的特征数据对应的特征类型,设置特征类型标识;所述特征类型标识包括特征类别、特征名和特征值,其中,特征值存储为该特征类别下特征名对应的实际值。
5.根据权利要求1所述的方法,其特征在于,所述确定所述特征数据对应的特征类型,为进行格式转换后的特征数据设置该特征类型对应的特征类型标识,包括:
若所述特征数据的数据类型是数组类型,依据该数组类型的特征数据对应的特征类型,设置特征类型标识;所述特征类型标识包括特征类别、特征名和特征值,其中,特征值存储为空。
6.根据权利要求1所述的方法,其特征在于,在聚合服务器依据从各数据源处获取的所述目标设备特征数据所携带的特征类型标识,对同一特征类型标识对应的目标设备特征数据进行去重处理,得到所述目标设备标识码对应的聚合特征数据之后,还包括:
获取待共享的数据服务器的格式转换逻辑对应的数据共享类型;
按照所述待共享的数据服务器的格式转换逻辑,将所述聚合特征数据转换成所述数据共享类型的特征数据,并将转换后的所述数据共享类型的特征数据发送至所述待共享的数据服务器。
7.一种特征数据聚合装置,其特征在于,应用于设备特征数据聚合网络中的聚合服务器,所述设备特征数据聚合网络还包括多个数据源;所述装置包括:
第一处理模块,用于聚合服务器将待进行特征数据聚合的目标设备标识码以及预设的不同数据类型对应的格式转换逻辑,分别发送给多个数据源,以使各数据源从各自的特征数据集中筛选出与所述目标设备标识码相匹配的特征数据;依据所述特征数据的数据类型,按照该数据类型对应的格式转换逻辑进行格式转换;确定所述特征数据对应的特征类型,为进行格式转换后的特征数据设置该特征类型对应的特征类型标识,得到目标设备特征数据,并发送给聚合服务器;
聚合模块,用于聚合服务器依据从各数据源处获取的所述目标设备特征数据所携带的特征类型标识,对同一特征类型标识对应的目标设备特征数据进行去重处理,得到所述目标设备标识码对应的聚合特征数据。
8.根据权利要求7所述的装置,其特征在于,在聚合模块之后,还包括:
获取模块,用于获取待共享的数据服务器的格式转换逻辑对应的数据共享类型;
第二处理模块,用于按照所述待共享的数据服务器的格式转换逻辑,将所述聚合特征数据转换成所述数据共享类型的特征数据,并将转换后的所述数据共享类型的特征数据发送至所述待共享的数据服务器。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-6中任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-6中任一项所述的方法的步骤。
CN201910903232.0A 2019-09-24 2019-09-24 一种特征数据聚合方法及装置 Active CN110598072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910903232.0A CN110598072B (zh) 2019-09-24 2019-09-24 一种特征数据聚合方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910903232.0A CN110598072B (zh) 2019-09-24 2019-09-24 一种特征数据聚合方法及装置

Publications (2)

Publication Number Publication Date
CN110598072A CN110598072A (zh) 2019-12-20
CN110598072B true CN110598072B (zh) 2022-03-01

Family

ID=68862747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910903232.0A Active CN110598072B (zh) 2019-09-24 2019-09-24 一种特征数据聚合方法及装置

Country Status (1)

Country Link
CN (1) CN110598072B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032332B (zh) * 2021-02-26 2024-07-16 广东核电合营有限公司 标牌数据处理方法、装置、计算机设备和存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530354A (zh) * 2013-10-10 2014-01-22 中国电子科技集团公司第十五研究所 地理信息数据融合系统
CN103631888A (zh) * 2013-11-15 2014-03-12 北京火信网络科技有限公司 基于位置的多数据源的数据搜索方法和装置
CN104537091A (zh) * 2015-01-06 2015-04-22 湖南科技大学 一种基于层次标识路由的网络化关系数据查询方法
CN104699799A (zh) * 2015-03-19 2015-06-10 神华集团有限责任公司 基于跨系统数据传输方法
CN105446972A (zh) * 2014-06-17 2016-03-30 阿里巴巴集团控股有限公司 基于及融合用户关系数据的搜索方法、装置和系统
CN106202235A (zh) * 2016-06-28 2016-12-07 微梦创科网络科技(中国)有限公司 一种数据处理方法及装置
CN106446217A (zh) * 2016-09-30 2017-02-22 广州特道信息科技有限公司 大数据高速整合系统
CN106649678A (zh) * 2016-12-15 2017-05-10 咪咕文化科技有限公司 一种数据处理方法及系统
CN106886592A (zh) * 2017-02-21 2017-06-23 北京航空航天大学 一种基于数据源服务的城市时空数据汇聚系统及方法
CN107169094A (zh) * 2017-05-12 2017-09-15 北京小米移动软件有限公司 信息聚合方法及装置
CN107633336A (zh) * 2016-07-18 2018-01-26 北京海峰科技有限责任公司 一种融合数据源统计设备、系统及方法
CN108182233A (zh) * 2017-12-27 2018-06-19 苏州麦迪斯顿医疗科技股份有限公司 一种分布式数据抽取方法、装置、计算机设备及存储介质
CN109460412A (zh) * 2018-11-14 2019-03-12 北京锐安科技有限公司 数据聚合方法、装置、设备及存储介质
CN109739939A (zh) * 2018-12-29 2019-05-10 颖投信息科技(上海)有限公司 知识图谱的数据融合方法和装置
CN109918412A (zh) * 2019-01-22 2019-06-21 新智云数据服务有限公司 数据处理方法、装置、设备和存储介质
CN110222110A (zh) * 2019-06-13 2019-09-10 中国农业科学院农业信息研究所 一种基于etl工具的资源描述框架数据转换存储一体化方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7546335B2 (en) * 2004-09-02 2009-06-09 Broadway Technology, Llc System and method for a data protocol layer and the transfer of data objects using the data protocol layer
JP6848665B2 (ja) * 2017-05-12 2021-03-24 株式会社リコー 情報処理装置、電子機器、設定情報利用方法、プログラム

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530354A (zh) * 2013-10-10 2014-01-22 中国电子科技集团公司第十五研究所 地理信息数据融合系统
CN103631888A (zh) * 2013-11-15 2014-03-12 北京火信网络科技有限公司 基于位置的多数据源的数据搜索方法和装置
CN105446972A (zh) * 2014-06-17 2016-03-30 阿里巴巴集团控股有限公司 基于及融合用户关系数据的搜索方法、装置和系统
CN104537091A (zh) * 2015-01-06 2015-04-22 湖南科技大学 一种基于层次标识路由的网络化关系数据查询方法
CN104699799A (zh) * 2015-03-19 2015-06-10 神华集团有限责任公司 基于跨系统数据传输方法
CN106202235A (zh) * 2016-06-28 2016-12-07 微梦创科网络科技(中国)有限公司 一种数据处理方法及装置
CN107633336A (zh) * 2016-07-18 2018-01-26 北京海峰科技有限责任公司 一种融合数据源统计设备、系统及方法
CN106446217A (zh) * 2016-09-30 2017-02-22 广州特道信息科技有限公司 大数据高速整合系统
CN106649678A (zh) * 2016-12-15 2017-05-10 咪咕文化科技有限公司 一种数据处理方法及系统
CN106886592A (zh) * 2017-02-21 2017-06-23 北京航空航天大学 一种基于数据源服务的城市时空数据汇聚系统及方法
CN107169094A (zh) * 2017-05-12 2017-09-15 北京小米移动软件有限公司 信息聚合方法及装置
CN108182233A (zh) * 2017-12-27 2018-06-19 苏州麦迪斯顿医疗科技股份有限公司 一种分布式数据抽取方法、装置、计算机设备及存储介质
CN109460412A (zh) * 2018-11-14 2019-03-12 北京锐安科技有限公司 数据聚合方法、装置、设备及存储介质
CN109739939A (zh) * 2018-12-29 2019-05-10 颖投信息科技(上海)有限公司 知识图谱的数据融合方法和装置
CN109918412A (zh) * 2019-01-22 2019-06-21 新智云数据服务有限公司 数据处理方法、装置、设备和存储介质
CN110222110A (zh) * 2019-06-13 2019-09-10 中国农业科学院农业信息研究所 一种基于etl工具的资源描述框架数据转换存储一体化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于XML的分布异构数据集成平台;王韦伟等;《东南大学学报(自然科学版)》;20061020(第05期);第715-719页 *
基于特征关键字的多协议数据流转换方法;林霞等;《计算机工程》;20110305(第05期);第282-284、287页 *
海量水文管理数据信息整合与更新机制研究;余长慧等;《水利信息化》;20171025(第05期);第6-11页 *

Also Published As

Publication number Publication date
CN110598072A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
US9305176B2 (en) Database generation from a spreadsheet
CN107977396B (zh) 一种KeyValue数据库的数据表的更新方法与表数据更新装置
JP2021515330A (ja) データオブジェクトストアのためのデータ保持ハンドリング
CN103902653A (zh) 一种构建数据仓库表血缘关系图的方法和装置
JP2021518021A (ja) データ処理方法、装置及びコンピュータ読み取り可能な記憶媒体
US20150113007A1 (en) Dynamic query response with metadata
CN109992603B (zh) 一种数据搜索方法、装置、电子设备和计算机可读介质
CN111723161A (zh) 一种数据处理方法、装置及设备
CN114328632A (zh) 基于位图的用户数据分析方法、装置及计算机设备
CN107071036A (zh) 一种下载驱动文件的方法、网络服务器及系统
JP2015060432A (ja) プログラム、コンピュータおよび訓練データ作成支援方法
CN116450890A (zh) 图数据处理方法、装置、系统、电子设备及存储介质
CN112328592A (zh) 数据存储方法、电子设备及计算机可读存储介质
CN111858617A (zh) 用户查找方法和装置、计算机可读存储介质、电子设备
CN110598072B (zh) 一种特征数据聚合方法及装置
CN105843809B (zh) 数据处理方法和装置
AU2019350694B2 (en) Identification of records for post-cloning tenant identifier translation
CN110555178B (zh) 数据代理方法及装置
EP2778966A2 (en) Systems and methods for point of interest data ingestion
CN105653540B (zh) 文件属性信息的处理方法和装置
CN106651408B (zh) 一种数据分析方法及装置
US20210064660A1 (en) Graph search using index vertices
CN113486025B (zh) 数据存储方法、数据查询方法及装置
CN115293685A (zh) 物流订单的状态跟踪方法、装置、设备和存储介质
US10664501B2 (en) Deriving and interpreting users collective data asset use across analytic software systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant