CN113220657A - 数据处理方法、装置及计算机设备 - Google Patents

数据处理方法、装置及计算机设备 Download PDF

Info

Publication number
CN113220657A
CN113220657A CN202110529622.3A CN202110529622A CN113220657A CN 113220657 A CN113220657 A CN 113220657A CN 202110529622 A CN202110529622 A CN 202110529622A CN 113220657 A CN113220657 A CN 113220657A
Authority
CN
China
Prior art keywords
data
user
data set
user information
offline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110529622.3A
Other languages
English (en)
Other versions
CN113220657B (zh
Inventor
张杨
刘方奇
郑志升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bilibili Technology Co Ltd
Original Assignee
Shanghai Bilibili Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bilibili Technology Co Ltd filed Critical Shanghai Bilibili Technology Co Ltd
Priority to CN202110529622.3A priority Critical patent/CN113220657B/zh
Publication of CN113220657A publication Critical patent/CN113220657A/zh
Application granted granted Critical
Publication of CN113220657B publication Critical patent/CN113220657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法、装置及计算机设备,该方法包括:获取第一存储系统中的原始离线用户数据集,根据所述用户数据集的生成时间执行分区,得到新离线用户数据集;从预设的第二存储系统中查询出所述新离线用户数据集中的用户信息数据,得到对应的用户信息数据集;将所述用户信息数据集关联到所述新离线用户数据集中对应的用户行为数据,得到离线数据集。本申请还提供一种计算机可读存储介质。本申请通过对离线用户数据执行时间分区,同时执行用户信息数据的存储格式转换,从而缩短了生成离线训练数据的数据处理的耗时,提升了数据处理效率。

Description

数据处理方法、装置及计算机设备
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、装置及计算机设备。
背景技术
随着互联网技术的发展,越来越多的用户选择在网上浏览、挑选或者购买自己需要的商品。各个电商平台在向用户提供丰富多样的商品的同时,也会不同程度地采用各种形式的推荐技术向用户进行商品推荐。其中,为了达到向用户及时推荐各种有用信息又尽量避免推荐无用信息的目的,通常会先根据用户数据,比如用户的行为数据,判断出该用户对于某类别或者某种商品的偏好程度,或者说用户的喜好。比如,通过用户数据构建出用户的用户特征数据;然后再将用户的用户特征数据输入到初始点击率预估模型,从而训练出能够预估出不同的用户对于推荐数据的点击概率的点击率预估模型。
一般而言,由于用户的喜好会随时间而变化,因此,通过实时用户数据训练出的模型能够识别出用户随时间变化而变化的喜好。当然,在实时用户数据的数据量不够的情况下,也可以利用离线用户数据来进行模型训练,但需要对离线用户数据执行时序方面和存储格式方面的预处理,使之与实时用户数据的数据格式一致。然而,现有技术中对于离线数据的预处理方法都是人工方式直接按照时间顺序对离线用户数据执行筛选,然后转换存储格式,最后得到离线训练数据,其数据处理过程耗时较长,效率较低。
发明内容
本申请提出一种数据处理方法、装置及计算机设备,能够解决上述的生成离线训练数据的数据处理过程耗时长、效率低的问题。
首先,为实现上述目的,本申请提供一种数据处理方法,所述方法包括:
获取第一存储系统中的原始离线用户数据集,根据所述用户数据集的生成时间执行分区,得到新离线用户数据集;从预设的第二存储系统中查询出所述新离线用户数据集中的用户信息数据,得到所述新离线用户数据集对应的用户信息数据集;将所述用户信息数据集关联到所述新离线用户数据集中对应的用户行为数据,得到离线数据集。
在一个例子中,所述根据所述用户数据集的生成时间执行分区,得到新离线用户数据集,包括:根据Spark计算引擎获取所述原始离线用户数据集中的每一条用户行为数据的生成时间,并根据所述生成时间对所述原始离线用户数据集中的每一条用户行为数据执行分区;将执行分区后的所有用户行为数据作为新离线用户数据集。
在一个例子中,当所述原始离线用户数据集包括相同生成时间的N条离线用户数据时,所述根据所述用户数据集的生成时间执行分区,包括:建立N个分区;通过控制存储速度的方式将同一生成时间的N条离线用户数据分别划分到所述N个分区的同一个排序位置。
在一个例子中,所述从预设的第二存储系统中查询出所述新离线用户数据集中的用户信息数据,包括:将所述第一存储系统中的原始用户信息数据转换为符合所述第二存储系统的存储数据格式的用户信息数据,并存储到所述第二存储系统中预设的目标存储单元;获取所述新离线用户数据集中的目标用户行为数据的标识字段,其中,所述目标用户行为数据为所述新离线数据集中任一条用户行为数据;根据所述标识字段从所述目标存储单元中查找包括所述标识字段的用户信息数据作为所述目标用户行为数据对应的用户信息数据。
在一个例子中,所述将所述第一存储系统中的原始用户信息数据转换为符合所述第二存储系统的存储数据格式的用户信息数据,还包括:根据预设的字段分割规则对所述原始用户信息数据进行无效字段删除,得到有效用户信息数据;对所述有效用户信息数据进行存储格式转换,从而得到符合所述第二存储系统的存储格式的用户信息数据。
在一个例子中,所述根据预设的字段分割规则对所述原始用户信息数据进行无效字段删除,包括:通过文本识别的方式识别出每一条所述原始用户信息数据中的每一个字段;根据所述字段分割规则将所述原始用户信息中的无效字段进行删除。
在一个例子中,所述第一存储系统为HDFS系统,所述第二存储系统为Kafka系统。
此外,为实现上述目的,本申请还提供一种数据处理装置,所述装置包括:
获取模块,用于获取第一存储系统中的原始离线用户数据集;分区模块,用于根据所述用户数据集的生成时间执行分区,得到新离线用户数据集;查询模块,用于从预设的第二存储系统中查询出所述新离线用户数据集中的用户信息数据,得到所述新离线用户数据集对应的用户信息数据集;关联模块,用于将所述用户信息数据集关联到所述新离线用户数据集中对应的用户行为数据,得到离线数据集。
进一步地,本申请还提出一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的数据处理方法的步骤。
进一步地,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的数据处理方法的步骤。
相较于现有技术,本申请所提出的数据处理方法、装置、计算机设备及计算机可读存储介质,能够获取第一存储系统中的原始离线用户数据集,根据所述用户数据集的生成时间执行分区,得到新离线用户数据集;从预设的第二存储系统中查询出所述新离线用户数据集中的用户信息数据,得到所述新离线用户数据集对应的用户信息数据集;将所述用户信息数据集关联到所述新离线用户数据集中对应的用户行为数据,得到离线数据集。通过对离线用户数据执行时间分区,同时执行用户信息数据的存储格式转换,从而缩短了生成离线训练数据的数据处理的耗时,提升了数据处理效率。
附图说明
图1是本申请一实施例的应用环境示意图;
图2是本申请数据处理方法一具体实施例的流程示意图;
图3是本发明一示例性例子中数据处理的流程效果图;
图4是本发明一示例性例子中对于原始离线用户数据执行时间分区的流程效果图;
图5是本发明一示例性例子中将第一存储系统中的用户信息数据转存到第二存储系统的流程效果图;
图6是本申请数据处理装置一实施例的程序模块示意图;
图7是本申请计算机设备一可选的硬件架构的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
图1是本申请一实施例的应用环境示意图。参阅图1所示,所述计算机设备1与数据服务器20连接,所述数据服务器20与用户端10连接。任一用户端10均可以访问所述数据服务器20上的数据,比如通过访问App页面或者网页的方式访问所述数据服务器20上的数据,然后所述数据服务器20可以将推荐数据通过所述App页面或者网页推荐给用户端10,并且,所述数据服务器20可以通过得到用户端10的授权后获取用户端10上的用户信息数据以及用户行为数据,并保存到对应的数据库中,比如HDFS,即Hadoop分布式文件系统。
因此,所述计算机设备1与所述数据服务器20连接后,能够获取所述数据服务器20中的第一存储系统中的原始离线用户数据集,根据生成时间的顺序对所述原始离线用户数据集中的每一条用户行为数据执行分区,得到新离线用户数据集;从所述计算机设备1自身预设的第二存储系统中查询出所述新离线用户数据集中的每一条用户行为数据对应的用户信息数据,得到所述新离线用户数据集对应的用户信息数据集;将所述用户信息数据集中的每一条用户信息数据关联到所述新离线用户数据集中对应的用户行为数据,得到离线数据集。最后,所述计算机设备1将所述离线数据集进行特征数据提取或者直接用于进行模型训练。
在本实施例中,所述数据服务器20可作为手机、平板、便携设备、PC机或者其他数据服务平台,比如视频服务平台,网购平台等;所述用户端10可作为手机、平板、便携设备、PC机等;所述计算机设备1可作为手机、平板、便携设备、PC机或者服务器等。当然,在其他实施例中,所述计算机设备1可以与所述数据服务器20合并为同一个电子设备,或者所述计算机设备1也可以作为独立的功能模块附加到所述数据服务器20上以实现数据处理的功能。
实施例一
图2是本申请数据处理方法一实施例的流程示意图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备1为执行主体进行示例性描述。
如图2所示,所述数据处理方法可以包括步骤S200~S206。
步骤S200,获获取第一存储系统中的原始离线用户数据集。
步骤S202,根据所述用户数据集的生成时间执行分区,得到新离线用户数据集。
具体的,所述计算机设备1与数据服务器连接,而所述数据服务器专为用户提供数据服务,每个用户端都可以访问所述数据服务器上的数据,比如通过访问App页面或者网页的方式访问所述数据服务器上的数据,然后所述数据服务器则可以在得到用户端授权后所述数据服务器还可以获取用户端上的用户数据,包括用户信息数据以及用户行为数据,然后存储到所述数据服务器对应的数据库。其中,用户信息数据包括:用户ID,用户性别、年龄、职业或在网年龄等数据;而用户行为数据包括:用户对于目标数据的点击次数、浏览次数、评论次数、访问时间以及是否购买服务等数据。在本实施例中,每个用户通过各自的用户端在访问所述数据服务器上的数据时,比如通过访问App页面或者网页的方式访问所述数据服务器上的目标数据,然后所述数据服务器则可以记录每个用户的对于所述目标数据的访问日志信息。例如,所述数据服务器预先对目标数据的网页或App页面进行埋点,然后可以检测到每一个用户对于所述目标数据的网页或App页面的访问情况;预先对目标数据的视频帧数据进行埋点,然后可以检测到每一个用户对于所述目标数据的视频数据的观看情况;所述访问情况或者观看情况,包括点击次数、浏览次数、评论次数、访问时间以及是否购买服务等用户行为数据。其中,由于用户信息数据一般变化性较小,而用户行为数据随时会产生,数量较大;因此,所述数据服务器一般会将所述用户行为数据和用户信息数据分别存储。
因此,所述计算机设备1通过与所述数据服务器连接后,可以获取到所述数据服务器中第一存储系统中的原始离线用户数据集,即包括所有的用户行为数据的用户数据集。
接着,所述计算机设备1根据所述原始离线用户数据集中的每一条用户行为数据的生成时间的顺序对所述原始离线用户数据集中的每一条用户行为数据执行分区,得到新离线用户数据集。
在一示例性例子中,所述计算机设备1根据所述用户数据集的生成时间执行分区,得到新离线用户数据集,包括:根据Spark计算引擎获取所述原始离线用户数据集中的每一条用户行为数据的生成时间,并根据所述生成时间对所述原始离线用户数据集中的每一条用户行为数据执行分区;将执行分区后的所有用户行为数据作为新离线用户数据集。其中,所述计算机设备1利用专为大规模数据处理而设计的快速通用的计算引擎Spark并行执行获取所述原始离线用户数据集中的用户行为数据并执行分区,从而大大提升了对于用户行为数据的时间分区效率。
在另一示例性例子中,当所述原始离线用户数据集包括相同生成时间的N条离线用户数据时,所述计算机设备1根据所述用户数据集的生成时间执行分区,包括:建立N个分区;通过控制存储速度的方式将同一生成时间的N条离线用户数据划分到所述N个分区的同一个排序位置。数据服务器获取到的是所有的用户行为数据,其中必然包括了庞大数量的并发数据,因此,所述计算机设备1对于所述原始离线用户数据的分区过程,需要考虑到相同生成时间的每一条用户行为数据的时间排序的一致性。所述计算机设备1通过同时建立N个分区,然后按照生成时间将每一条用户行为数据依次划分到N个分区,并将其中同一生成时间的N条离线用户数据划分到所述N个分区的同一个排序位置,从而使得分区后的新离线用户数据集中用户行为数据与实时用户数据集中的用户行为数据一样,具有时序性。
步骤S204,从预设的第二存储系统中查询出所述新离线用户数据集中的用户信息数据,得到所述新离线用户数据集对应的用户信息数据集。
步骤S206,将所述用户信息数据集关联到所述新离线用户数据集中对应的用户行为数据,得到离线数据集。
具体的,所述计算机设备1在对所述原始离线用户数据执行时间分区后,得到对应的具有时序性的用户行为数据的新离线用户数据集之后,则会进一步查询出所述新离线用户数据集中的每一条用户行为数据对应的用户信息数据。具体的,由于所述原始离线用户数据集中包括的用户行为数据仅仅包括有简单的部分用户信息数据,比如用户ID,以及具体的用户行为记录,比如购买某商品,或点击某商品的推广链接的行为数据。因此,分区后的所述新离线用户数据集中用户行为数据,也是仅包括简单的部分用户信息数据,而不足以用来作为训练数据。所述计算机设备1需要从数据服务器上获取到所述新离线用户数据集中的每一条用户行为数据对应的用户信息数据,然后关联到所述新离线用户数据集中对应的用户行为数据,从而得到离线数据集。
在一示例性例子中,所述计算机设备1从预设的第二存储系统中查询出所述新离线用户数据集中的用户信息数据,包括:将所述第一存储系统中的原始用户信息数据转换为符合所述第二存储系统的存储数据格式的用户信息数据,并存储到所述第二存储系统中预设的目标存储单元;获取所述新离线用户数据集中的目标用户行为数据的标识字段,其中,所述目标用户行为数据为所述新离线数据集中任一条用户行为数据;根据所述标识字段从所述目标存储单元中查找包括所述标识字段的用户信息数据作为所述目标用户行为数据对应的用户信息数据。
具体的,数据服务器中存储的用户信息数据也是离线数据,具有的存储格式与实时获取到的用户行为数据或用户信息数据的数据格式不太一样。因此,所述计算机设备1从数据服务器的第一存储系统中获取到的用户信息数据后,先转换成符合第二存储系统的存储格式的用户信息数据,并存储到目标存储单元;然后再执行时间分区后,根据所述新离线用户数据集中的每一条用户行为数据从所述第二存储系统中查询对应的用户信息数据,关联到所述新离线用户数据集。
在另一示例性例子中,所述计算机设备1将所述第一存储系统中的原始用户信息数据转换为符合所述第二存储系统的存储数据格式的用户信息数据,还包括:根据预设的字段分割规则对所述原始用户信息数据进行无效字段删除,得到有效用户信息数据;对所述有效用户信息数据进行存储格式转换,从而得到符合所述第二存储系统的存储格式的用户信息数据。
其中,所述计算机设备1根据预设的字段分割规则对所述原始用户信息数据进行无效字段删除,包括:通过文本识别的方式识别出每一条所述原始用户信息数据中的每一个字段;根据所述字段分割规则将所述原始用户信息中的无效字段进行删除。
具体的,由于所述第一存储系统中用户信息数据包括用户信息的所有字段,比如用户ID,用户性别、年龄、职业或在网年龄,而最后用于生成训练数据的用户信息数据的字段可能仅需要用户性别。那么,所述计算机设备1则可以在将所述用户信息数据由第一存储系统的数据格式转换成符合第二存储系统的数据格式的过程中,对所述用户信息数据的字段进行裁剪,删除不必要的字段,从而减少数据处理的时间,提高数据处理效率。
在一具体实施例中,所述第一存储系统为HDFS,即Hadoop分布式文件系统;所述第二存储系统为Kafka系统。
如图3所示,图3是本发明一示例性例子中数据处理的流程效果图。在本实施例中,所述计算机设备1从数据服务器获取原始离线用户数据集,也就是HDFS-源数据;然后执行时间分区,得到新离线用户数据集,也就是新HDFS-源数据;通过并行读取的方式读取到Flink-数据流。其中,Flink能够以数据并行和流水线方式执行任意流数据程序,可以执行批处理和流处理程序,而且其处理的数据格式与很多存储系统都是兼容的。所述计算机设备1将新离线用户数据集读取到Flink-数据流之前,还需要根据所述新离线用户数据集中的每一条用户行为数据的标识字段,比如版本号,从预设的HIVE-SIDE文件中查询出对应的用户信息数据。其中,所述HIVE-SIDE文件中存储的数据格式符合Kafka存储格式,而最开始从数据服务器获取到的用户信息数据为HDFS-SIDE文件,其数据格式不符合Kafka存储格式,因此,所述计算机设备1预先将HDFS-SIDE文件中的所有用户信息数据执行预处理,进行格式的转换,从而生成成HIVE-SIDE文件。最后,所述计算机设备1在将新离线用户数据集中的每一条用户信息数据并行读取到Flink-数据流的过程中,可以通过查询版本号的方式,从HIVE-SIDE文件中查询到对应的用户信息数据,补全到每一条用户信息数据中,并作为离线训练数据存储。
参阅图4所示,图4是本发明一示例性例子中对于原始离线用户数据执行时间分区的流程效果图。
在本实施例中,所述计算机设备1从数据服务器上获取原始离线用户数据集,即HDFS-ODS数据,也就是HDFS系统中ODS(Operational Data Store,操作型数据存储)分层的数据;接着,所述计算机设备1通过Spark计算引擎对所述原始离线用户数集据执行预处理,也就是按照生成时间执行分区,得到对应的多个分区数据,包括分区1,分区2等。每一个分区数据都是依照生成时间排序的,多个分区中的相同排序位置的离线用户数据的生成时间都是一样的,即分区1_T1与分区2_T1的生成时间T1是相同的;最后,所述计算机设备1将每一个分区后的新离线用户数据集作为Flink资源并行写入到Flink数据流,即每一个分区数据以一条Flink资源的方式并行写入到Flink数据流。
参阅图5所示,图5是本发明一示例性例子中将第一存储系统中的用户信息数据转存到第二存储系统的流程效果图。在本实施例中,所述计算机设备从HDFS系统中获取用户信息数据,包括多个ODS分区数据,即ODS分区1,ODS分区2等;接着,所述计算机设备1对每一个ODS分区数据进行字段分割,得到DWD(Data Warehouse Detail,数据明细层)分区数据,即DWD分区1,DWD分区2等;并将每一个所述DWD分区数据通过Spark计算引擎执行数据格式转换,从而生成对应的RocksDB格式数据格式的用户信息数据,即RocksDB1,RocksDB2等。其中,RocksDB是一种可嵌入式的支持持久化的key-value存储系统,RocksDB存储格式的数据可以有效兼容Kafka存储系统。最后,所述计算机设备1将RocksDB数据格式的用户信息数据存储到预设的HIVE-SIDE文件夹。
综上所述,本实施例所提出的数据处理方法能够获取第一存储系统中的原始离线用户数据集,根据所述用户数据集的生成时间执行分区,得到新离线用户数据集;从预设的第二存储系统中查询出所述新离线用户数据集中的用户信息数据,得到所述新离线用户数据集对应的用户信息数据集;将所述用户信息数据集关联到所述新离线用户数据集中对应的用户行为数据,得到离线数据集。通过对离线用户数据执行时间分区,同时执行用户信息数据的存储格式转换,从而缩短了生成离线训练数据的数据处理的耗时,提升了数据处理效率。
实施例二
图6示意性示出了根据本申请实施例二的数据处理装置的框图,该数据处理装置可以被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,以下描述将具体介绍本实施例中各程序模块的功能。
如图6所示,该数据处理装置400可以包括获取模块410、分区模块420、查询模块430和关联模块440,其中:
获取模块410,用于获取第一存储系统中的原始离线用户数据集。
分区模块420,用于根据所述用户数据集的生成时间执行分区,得到新离线用户数据集。
查询模块430,用于从预设的第二存储系统中查询出所述新离线用户数据集中的用户信息数据,得到所述新离线用户数据集对应的用户信息数据集。
关联模块440,用于将所述用户信息数据集关联到所述新离线用户数据集中对应的用户行为数据,得到离线数据集。
在示例性的实施例中,分区模块420,还用于:根据Spark计算引擎获取所述原始离线用户数据集中的每一条用户行为数据的生成时间,并根据所述生成时间对所述原始离线用户数据集中的每一条用户行为数据执行分区;将执行分区后的所有用户行为数据作为新离线用户数据集。以及,当所述原始离线用户数据集包括相同生成时间的N条离线用户数据时,建立N个分区;通过控制存储速度的方式将同一生成时间的N条离线用户数据划分到所述N个分区的同一个排序位置。
在示例性的实施例中,查询模块430,还用于:将所述第一存储系统中的原始用户信息数据转换为符合所述第二存储系统的存储数据格式的用户信息数据,并存储到所述第二存储系统中预设的目标存储单元;获取所述新离线用户数据集中的目标用户行为数据的标识字段,其中,所述目标用户行为数据为所述新离线数据集中任一条用户行为数据;根据所述标识字段从所述目标存储单元中查找包括所述标识字段的用户信息数据作为所述目标用户行为数据对应的用户信息数据。
在示例性的实施例中,查询模块430,还用于:根据预设的字段分割规则对所述原始用户信息数据进行无效字段删除,得到有效用户信息数据;对所述有效用户信息数据进行存储格式转换,从而得到符合所述第二存储系统的存储格式的用户信息数据。以及,通过文本识别的方式识别出每一条所述原始用户信息数据中的每一个字段;根据所述字段分割规则将所述原始用户信息中的无效字段进行删除。
在示例性的实施例中,所述第一存储系统为HDFS系统,所述第二存储系统为Kafka系统。
实施例三
图7示意性示出了根据本申请实施例三的适于实现数据处理方法的计算机设备1的硬件架构示意图。本实施例中,计算机设备1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是具有网关功能的机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图7所示,计算机设备1至少包括但不限于:可通过系统总线相互通信链接存储器510、处理器520、网络接口530。其中:
存储器510至少包括一种类型的计算机可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器510可以是计算机设备1的内部存储模块,例如该计算机设备1的硬盘或内存。在另一些实施例中,存储器510也可以是计算机设备1的外部存储设备,例如该计算机设备1上配备的插接式硬盘,智能存储卡(SmartMedia Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,存储器510还可以既包括计算机设备1的内部存储模块也包括其外部存储设备。本实施例中,存储器510通常用于存储安装于计算机设备1的操作系统和各类应用软件,例如数据处理方法的程序代码等。此外,存储器510还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器520在一些实施例中可以是中央处理器(Central Processing Unit,简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器520通常用于控制计算机设备1的总体操作,例如执行与计算机设备1进行数据交互或者通信相关的控制和处理等。本实施例中,处理器520用于运行存储器510中存储的程序代码或者处理数据。
网络接口530可包括无线网络接口或有线网络接口,该网络接口530通常用于在计算机设备1与其他计算机设备之间建立通信链接。例如,网络接口530用于通过网络将计算机设备1与外部终端相连,在计算机设备1与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(GlobalSystem of Mobile communication,简称为GSM)、宽带码分多址(Wideband Code DivisionMultiple Access,简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图7仅示出了具有部件510-530的计算机设备,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器510中的数据处理方法的程序代码还可以被分割为一个或者多个程序模块,并由一个或多个处理器(本实施例为处理器520)所执行,以完成本申请实施例。
实施例四
本实施例还提供一种计算机可读存储介质,计算机可读存储介质其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取第一存储系统中的原始离线用户数据集,根据所述用户数据集的生成时间执行分区,得到新离线用户数据集;从预设的第二存储系统中查询出所述新离线用户数据集中的用户信息数据,得到所述新离线用户数据集对应的用户信息数据集;将所述用户信息数据集关联到所述新离线用户数据集中对应的用户行为数据,得到离线数据集。
本实施例中,计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,计算机可读存储介质可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,计算机可读存储介质也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例中数据处理方法的程序代码等。此外,计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。
显然,本领域的技术人员应该明白,上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请实施例不限制于任何特定的硬件和软件结合。
以上仅为本申请实施例的优选实施例,并非因此限制本申请实施例的专利范围,凡是利用本申请实施例说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请实施例的专利保护范围内。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获取第一存储系统中的原始离线用户数据集,根据所述用户数据集的生成时间执行分区,得到新离线用户数据集;
从预设的第二存储系统中查询出所述新离线用户数据集中的用户信息数据,得到所述新离线用户数据集对应的用户信息数据集;
将所述用户信息数据集关联到所述新离线用户数据集中对应的用户行为数据,得到离线数据集。
2.如权利要求1所述的数据处理方法,其特征在于,所述根据所述用户数据集的生成时间执行分区,得到新离线用户数据集,包括:
根据Spark计算引擎获取所述原始离线用户数据集中的每一条用户行为数据的生成时间,并根据所述生成时间对所述原始离线用户数据集中的每一条用户行为数据执行分区;
将执行分区后的所有用户行为数据作为新离线用户数据集。
3.如权利要求2所述的数据处理方法,其特征在于,当所述原始离线用户数据集包括相同生成时间的N条离线用户数据时,所述根据所述用户数据集的生成时间执行分区,包括:
建立N个分区;
通过控制存储速度的方式将同一生成时间的N条离线用户数据划分到所述N个分区的同一个排序位置。
4.如权利要求1所述的数据处理方法,其特征在于,所述从预设的第二存储系统中查询出所述新离线用户数据集中的用户信息数据,包括:
将所述第一存储系统中的原始用户信息数据转换为符合所述第二存储系统的存储数据格式的用户信息数据,并存储到所述第二存储系统中预设的目标存储单元;
获取所述新离线用户数据集中的目标用户行为数据的标识字段,其中,所述目标用户行为数据为所述新离线数据集中任一条用户行为数据;
根据所述标识字段从所述目标存储单元中查找包括所述标识字段的用户信息数据作为所述目标用户行为数据对应的用户信息数据。
5.如权利要求4所述的数据处理方法,其特征在于,所述将所述第一存储系统中的原始用户信息数据转换为符合所述第二存储系统的存储数据格式的用户信息数据,还包括:
根据预设的字段分割规则对所述原始用户信息数据进行无效字段删除,得到有效用户信息数据;
对所述有效用户信息数据进行存储格式转换,从而得到符合所述第二存储系统的存储格式的用户信息数据。
6.如权利要求5所述的数据处理方法,其特征在于,所述根据预设的字段分割规则对所述原始用户信息数据进行无效字段删除,包括:
通过文本识别的方式识别出每一条所述原始用户信息数据中的每一个字段;
根据所述字段分割规则将所述原始用户信息中的无效字段进行删除。
7.如权利要求1-6中任一项所述的数据处理方法,其特征在于,所述第一存储系统为HDFS系统,所述第二存储系统为Kafka系统。
8.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取第一存储系统中的原始离线用户数据集;
分区模块,用于根据所述用户数据集的生成时间执行分区,得到新离线用户数据集;
查询模块,用于从预设的第二存储系统中查询出所述新离线用户数据集中的用户信息数据,得到所述新离线用户数据集对应的用户信息数据集;
关联模块,用于将所述用户信息数据集关联到所述新离线用户数据集中对应的用户行为数据,得到离线数据集。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1~7中任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1~7中任一项所述的数据处理方法的步骤。
CN202110529622.3A 2021-05-14 2021-05-14 数据处理方法、装置及计算机设备 Active CN113220657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110529622.3A CN113220657B (zh) 2021-05-14 2021-05-14 数据处理方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110529622.3A CN113220657B (zh) 2021-05-14 2021-05-14 数据处理方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN113220657A true CN113220657A (zh) 2021-08-06
CN113220657B CN113220657B (zh) 2022-12-06

Family

ID=77091966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110529622.3A Active CN113220657B (zh) 2021-05-14 2021-05-14 数据处理方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN113220657B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836411A (zh) * 2021-09-22 2021-12-24 上海哔哩哔哩科技有限公司 数据处理方法、装置及计算机设备
CN113918659A (zh) * 2021-09-08 2022-01-11 北京火山引擎科技有限公司 数据操作方法、装置、存储介质及电子设备
CN113961558A (zh) * 2021-10-08 2022-01-21 上海信宝博通电子商务有限公司 前端数据存储方法、装置及存储介质
CN114398437A (zh) * 2022-01-04 2022-04-26 多点生活(成都)科技有限公司 用户信息处理方法、装置、电子设备和计算机可读介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341238A (zh) * 2017-07-04 2017-11-10 北京京东尚科信息技术有限公司 数据处理方法及系统
CN107944059A (zh) * 2017-12-29 2018-04-20 深圳市中润四方信息技术有限公司西安分公司 一种基于流计算的用户行为分析方法及系统
CN111651471A (zh) * 2020-04-30 2020-09-11 中国平安财产保险股份有限公司 目标数据查询方法、装置、电子设备及存储介质
CN112416945A (zh) * 2020-12-07 2021-02-26 恩亿科(北京)数据科技有限公司 基于大数据平台的数据处理方法、系统和计算机设备
CN112528166A (zh) * 2020-12-16 2021-03-19 平安养老保险股份有限公司 用户关系分析方法、装置、计算机设备及存储介质
CN112560938A (zh) * 2020-12-11 2021-03-26 上海哔哩哔哩科技有限公司 模型训练方法、装置及计算机设备
CN112612768A (zh) * 2020-12-11 2021-04-06 上海哔哩哔哩科技有限公司 模型训练方法和装置
CN112613938A (zh) * 2020-12-11 2021-04-06 上海哔哩哔哩科技有限公司 模型训练方法、装置及计算机设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341238A (zh) * 2017-07-04 2017-11-10 北京京东尚科信息技术有限公司 数据处理方法及系统
CN107944059A (zh) * 2017-12-29 2018-04-20 深圳市中润四方信息技术有限公司西安分公司 一种基于流计算的用户行为分析方法及系统
CN111651471A (zh) * 2020-04-30 2020-09-11 中国平安财产保险股份有限公司 目标数据查询方法、装置、电子设备及存储介质
CN112416945A (zh) * 2020-12-07 2021-02-26 恩亿科(北京)数据科技有限公司 基于大数据平台的数据处理方法、系统和计算机设备
CN112560938A (zh) * 2020-12-11 2021-03-26 上海哔哩哔哩科技有限公司 模型训练方法、装置及计算机设备
CN112612768A (zh) * 2020-12-11 2021-04-06 上海哔哩哔哩科技有限公司 模型训练方法和装置
CN112613938A (zh) * 2020-12-11 2021-04-06 上海哔哩哔哩科技有限公司 模型训练方法、装置及计算机设备
CN112528166A (zh) * 2020-12-16 2021-03-19 平安养老保险股份有限公司 用户关系分析方法、装置、计算机设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113918659A (zh) * 2021-09-08 2022-01-11 北京火山引擎科技有限公司 数据操作方法、装置、存储介质及电子设备
CN113836411A (zh) * 2021-09-22 2021-12-24 上海哔哩哔哩科技有限公司 数据处理方法、装置及计算机设备
CN113961558A (zh) * 2021-10-08 2022-01-21 上海信宝博通电子商务有限公司 前端数据存储方法、装置及存储介质
CN113961558B (zh) * 2021-10-08 2022-06-14 上海信宝博通电子商务有限公司 前端数据存储方法、装置及存储介质
CN114398437A (zh) * 2022-01-04 2022-04-26 多点生活(成都)科技有限公司 用户信息处理方法、装置、电子设备和计算机可读介质

Also Published As

Publication number Publication date
CN113220657B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN113220657B (zh) 数据处理方法、装置及计算机设备
CN108228873B (zh) 对象推荐、发布内容推送方法、装置、存储介质和设备
CN110866181B (zh) 资源推荐的方法、装置及存储介质
CN103530292B (zh) 网页显示方法和装置
CN112613938B (zh) 模型训练方法、装置及计算机设备
CN113836131B (zh) 一种大数据清洗方法、装置、计算机设备及存储介质
CN108121814B (zh) 搜索结果排序模型生成方法和装置
CN113034241B (zh) 一种产品信息推荐方法及计算机设备
CN108959550B (zh) 用户关注点挖掘方法、装置、设备及计算机可读介质
CN108932640B (zh) 用于处理订单的方法和装置
CN112560939B (zh) 模型验证方法、装置及计算机设备
CN114066533A (zh) 产品推荐方法、装置、电子设备及存储介质
CN113935401A (zh) 物品信息的处理方法、装置、服务器及存储介质
WO2019227705A1 (zh) 图片录入方法、服务器及计算机存储介质
CN111967611A (zh) 特征生成方法和装置、电子设备和存储介质
CN112560938B (zh) 模型训练方法、装置及计算机设备
CN108268545B (zh) 一种分级的用户标签库的创建的方法和装置
CN115187330A (zh) 基于用户标签的产品推荐方法、装置、设备和介质
CN115186188A (zh) 基于行为分析的产品推荐方法、装置、设备及存储介质
CN112989020B (zh) 信息处理方法、装置和计算机可读存储介质
US11630817B2 (en) Method and system for data indexing and reporting
CN111611056A (zh) 数据处理方法、装置、计算机设备及存储介质
CN113836411B (zh) 数据处理方法、装置及计算机设备
CN113468280B (zh) 一种数据认知方法、装置、设备及存储介质
CN113515713B (zh) 网页缓存策略生成方法及装置、网页缓存方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant