CN113486123B - 行为数据同步方法、装置、计算机设备和存储介质 - Google Patents

行为数据同步方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113486123B
CN113486123B CN202111046536.3A CN202111046536A CN113486123B CN 113486123 B CN113486123 B CN 113486123B CN 202111046536 A CN202111046536 A CN 202111046536A CN 113486123 B CN113486123 B CN 113486123B
Authority
CN
China
Prior art keywords
behavior
data
behavior data
data set
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111046536.3A
Other languages
English (en)
Other versions
CN113486123A (zh
Inventor
张民遐
杨鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Gaodeng Computer Technology Co ltd
Original Assignee
Shenzhen Gaodeng Computer Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Gaodeng Computer Technology Co ltd filed Critical Shenzhen Gaodeng Computer Technology Co ltd
Priority to CN202111046536.3A priority Critical patent/CN113486123B/zh
Publication of CN113486123A publication Critical patent/CN113486123A/zh
Application granted granted Critical
Publication of CN113486123B publication Critical patent/CN113486123B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/273Asynchronous replication or reconciliation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种行为数据同步方法、装置、计算机设备和存储介质。所述方法包括:当达到数据同步时刻时,获取待同步的行为数据集合;确定所述行为数据集合中每条行为数据对应的行为;基于所述行为对所述行为数据集合进行压缩处理,得到压缩后行为数据集合;将所述压缩后行为数据集合发送至目标服务器,以使所述目标服务器对所述压缩后行为数据集合中的行为数据进行同步。采用本方法能够提高数据同步的同步效率。

Description

行为数据同步方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种行为数据同步方法、装置、计算机设备和存储介质。
背景技术
随着互联网的发展,用户日常生活中产生的行为数据也日渐增长,例如,出行行为数据、消费行为数据、浏览行为数据、聊天行为数据等等。不同的数据库具有不同的功能特点,因此,可以通过使用不同的数据库针对数据进行不同方面的管理,从而实现对数据的高效管理,这也使得在不同数据库之间进行数据同步变得愈加重要。
现有的数据同步方案中,通常是采用数据同步工具将源数据库数据中的待同步数据直接同步到目标数据库中,当待同步数据的数据量较大时,在数据传输时需要花费较多时间,导致数据同步的同步效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高数据同步的同步效率的行为数据同步方法、装置、计算机设备和存储介质。
一种行为数据同步方法,执行于中间键服务器,所述方法包括:
当达到数据同步时刻时,获取待同步的行为数据集合;
确定所述行为数据集合中每条行为数据对应的行为;
基于所述行为对所述行为数据集合进行压缩处理,得到压缩后行为数据集合;
将所述压缩后行为数据集合发送至目标服务器,以使所述目标服务器对所述压缩后行为数据集合中的行为数据进行同步。
在其中一个实施例中,所述确定所述行为数据集合中每条行为数据对应的行为,包括:
分别提取所述行为数据集合中每条行为数据的行为标识;
获取预配置的用户行为库,所述用户行为库存储有行为标识与行为之间的对应关系;
基于所述对应关系,从所述用户行为库中查找与各所述行为标识匹配的目标行为;
将各所述目标行为确定为对应所述行为数据对应的行为。
在其中一个实施例中,所述基于所述行为对所述行为数据集合进行压缩处理,得到压缩后行为数据集合包括:
基于所述行为,确定所述行为数据中的无效数据;
在所述行为数据集合中对所述无效数据进行删除处理,得到过滤后行为数据集合;
基于所述过滤后行为数据集合确定压缩后行为数据集合。
在其中一个实施例中,所述基于所述行为,确定所述行为数据中的无效数据,包括:
将未从所述用户行为库中查找到目标行为的所述行为标识确定为无效行为标识;
将所述无效行为标识对应的行为数据确定为无效数据。
在其中一个实施例中,所述基于所述行为,确定所述行为数据中的无效数据,包括:
确定所述行为中被登记至删除候补列表中的已登记行为;
将所述已登记行为对应的行为数据确定为无效数据。
在其中一个实施例中,所述基于所述过滤后行为数据集合确定压缩后行为数据集合,包括:
获取预设的压缩编码顺序;
基于所述压缩编码顺序生成初始编码字符串;
根据所述过滤后行为数据集合中的行为数据对所述初始编码字符串进行更新,得到更新后编码字符串;
将所述更新后编码字符串确定为压缩后行为数据集合对应的编码字符串。
在其中一个实施例中,所述将所述压缩后行为数据集合发送至目标服务器,包括:
对所述压缩后行为数据集合进行加密处理,得到加密后行为数据集合;
将所述加密后行为数据集合发送至目标服务器。
一种行为数据同步装置,所述装置包括:
数据获取模块,用于当达到数据同步时刻时,获取待同步的行为数据集合;
行为确定模块,用于确定所述行为数据集合中每条行为数据对应的行为;
数据压缩模块,用于基于所述行为对所述行为数据集合进行压缩处理,得到压缩后行为数据集合;
数据发送模块,用于将所述压缩后行为数据集合发送至目标服务器,以使所述目标服务器对所述压缩后行为数据集合中的行为数据进行同步。
在其中一个实施例中,所述行为确定模块,还用于:
分别提取所述行为数据集合中每条行为数据的行为标识;
获取预配置的用户行为库,所述用户行为库存储有行为标识与行为之间的对应关系;
基于所述对应关系,从所述用户行为库中查找与各所述行为标识匹配的目标行为;
将各所述目标行为确定为对应所述行为数据对应的行为。
在其中一个实施例中,所述数据压缩模块,还用于:
基于所述行为,确定所述行为数据中的无效数据;
在所述行为数据集合中对所述无效数据进行删除处理,得到过滤后行为数据集合;
基于所述过滤后行为数据集合确定压缩后行为数据集合。
在其中一个实施例中,所述数据压缩模块,还用于:
将未从所述用户行为库中查找到目标行为的所述行为标识确定为无效行为标识;
将所述无效行为标识对应的行为数据确定为无效数据。
在其中一个实施例中,所述数据压缩模块,还用于:
确定所述行为中被登记至删除候补列表中的已登记行为;
将所述已登记行为对应的行为数据确定为无效数据。
在其中一个实施例中,所述数据压缩模块,还用于:
获取预设的压缩编码顺序;
基于所述压缩编码顺序生成初始编码字符串;
根据所述过滤后行为数据集合中的行为数据对所述初始编码字符串进行更新,得到更新后编码字符串;
将所述更新后编码字符串确定为压缩后行为数据集合对应的编码字符串。
在其中一个实施例中,所述数据发送模块,还用于:
对所述压缩后行为数据集合进行加密处理,得到加密后行为数据集合;
将所述加密后行为数据集合发送至目标服务器。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
上述行为数据同步方法、装置、计算机设备和存储介质,当达到数据同步时刻时,获取待同步的行为数据集合,通过确定行为数据集合中每条行为数据对应的行为,并基于行为对行为数据集合进行压缩处理,得到压缩后行为数据集合,从而仅需要将压缩后行为数据集合发送至目标服务器,目标服务器对压缩后行为数据集合中的行为数据进行同步,本方案中,当待同步的行为数据集合数据量较大时,通过对待同步的行为数据集合数据量进行压缩,可以缩减同步时所需传输的数据量,从而提高了数据同步的同步效率。
附图说明
图1为一个实施例中行为数据同步方法的应用环境图;
图2为一个实施例中行为数据同步方法的流程示意图;
图3为一个实施例中编码字符串示意图;
图4为另一个实施例中行为数据同步方法的流程示意图;
图5为一个实施例中数据同步系统架构图;
图6为一个实施例中数据同步系统部署图;
图7为另一个实施例中行为数据同步方法流程示意图;
图8为另一个实施例中行为数据同步方法流程示意图;
图9为一个实施例中行为数据压缩步骤的流程图;
图10为一个实施例中行为数据同步装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的行为数据同步方法,可以应用于如图1所示的应用环境中。其中,中间键服务器104通过网络分别与源端设备102和目标服务器106进行通信,源端设备102可以是终端或源端服务器,本申请提供的行为数据同步方法执行于中间键服务器104,当达到数据同步时刻时,中间键服务器104获取源端设备所产生的待同步的行为数据集合,确定行为数据集合中每条行为数据对应的行为;基于行为对行为数据集合进行压缩处理,得到压缩后行为数据集合; 将压缩后行为数据集合发送至目标服务器106,以使目标服务器106对压缩后行为数据集合中的行为数据进行同步。
其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器(源端服务器、中间键服务器或目标服务器)可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种行为数据同步方法,以该方法应用于图1中的中间键服务器为例进行说明,包括以下步骤:
S202,当达到数据同步时刻时,获取待同步的行为数据集合。
其中,行为数据是用户与网页页面或者应用程序进行交互所产生的数据,也可称为用户行为数据,行为数据集合包括用户的至少一个行为数据。数据同步时刻是对待同步的行为数据集合进行同步的时刻,也可以说是数据同步任务的定时时刻,可以理解的是数据同步任务是一个定时任务,即数据同步任务在达到定时时刻时开始运行,该定时时刻即为数据同步时刻。数据同步任务可以是一个周期性执行的任务,执行周期可以是预设的,比如可以是30秒(s)、10分钟(min)、24小时(hour)等。
需要说明的是,不同的用户分别对应于不同的行为数据集合,也就是说不同的用户分别对应于不同的待同步的行为数据集合,那么不同的用户可以对应于不同的数据同步任务,不同的数据同步任务的执行周期可以相同也可以不同,不同的数据同步任务的定时时刻可以相同也可以不同。
具体地,针对任意一个用户,当达到数据同步时刻,中间键服务器获取该用户对应的用户行为数据表,并从用户行为数据表中提取出待同步的用户行为数据集合。
在一个实施例中,当达到数据同步任务的定时时刻时,中间件服务器基于预设的同步文件路径,查找数据同步任务对应的用户行为数据表,并从用户行为数据表中提取出待同步的用户行为数据集合。
在一个实施例中,中间键服务器预先向源端设备发送查询指令,以使源端设备基于所接收到的查询指令向中间键服务器返回数据表查询结果,中间键服务器基于所接收的数据表查询结果创建物化视图,并基于物化视图生成用户行为数据表,并对所生成的用户行为数据表进行保存,当达到数据同步时刻时,获取所存储的用户行为数据表,以从用户行为数据表中提取出待同步的用户行为数据集合。
在一个实施例中,中间键服务器还可以定时运行用户行为数据表更新任务,在达到用户行为数据表更新任务的运行时刻时,运行用户行为数据表更新任务,中间键服务器向源端设备发送查询指令,以使源端设备基于所接收到的查询指令向中间键服务器返回数据表查询结果,中间键服务器基于所接收的数据表查询结果创建物化视图,并基于物化视图对用户行为数据表进行更新。
可以理解的是,源端设备可以根据预先设置好的数据埋点实时采集行为数据,并将行为数据保存至数据表中,当接收到中间键服务器发送的查询指令时,基于查询指令进行数据表查找,得到数据表查询结果,并数据表查询结果返回至中间键服务器。其中,数据埋点可以设置于终端,通过应用接口来采集行为数据,也可以设置于服务器,通过日志监听服务器的Oracle、MySQL、DB2、SyBase等数据库采集行为数据,所监听的服务器可以处于外网或内网。
在一个实施例中,中间键服务器记录有上次进行数据同步时的历史数据同步时刻,并在获取到用户行为数据表之后,将用户行为数据表中产生于历史数据同步时刻之后的行为数据确定为待同步的行为数据,各个待同步的行为数据所组成的集合即为待同步的行为数据集合。
S204,确定行为数据集合中每条行为数据对应的行为。
其中,行为数据集合中每条行为数据均对应一个具体的行为,每个行为均有相应所属的行为类别,也就是说同一个行为类别可以对应于多个行为。行为类别可以是出行行为类别、消费行为类别、浏览行为类别、聊天行为类别等,出行行为类别可以包括起点输入行为、终点输入行为、路线查询行为、路线选择行为、导航行为等一系列的行为;消费行为类别包括关键词输入行为、关键词搜索行为、搜索结果点击行为、商品下单行为等一系列行为。
可以理解的是,行为数据集合中每条行为数据均对应一个具体的行为,例如,行为数据集合中包含两条行为数据,其中第一条行为数据对应于起点输入行为,第二条行为数据对应于终点输入行为。
具体地,中间键服务器在获取到待同步的行为数据集合后,从行为数据集合中提取出每条行为数据,针对任意一条行为数据,从该行为数据中提取出行为标识,并基于行为标识确定该条行为数据对应的行为。
其中,行为标识用于唯一地标识行为,行为标识具体可以是字母、数字或字母与数字的组合。例如,行为标识为数字时,输入行为的行为标识为01、终点输入行为的行为标识为02、路线查询行为的行为标识为03、路线选择行为的行为标识为04、导航行为的行为标识为05、关键词输入行为的行为标识为06、关键词搜索行为的行为标识为07、搜索结果点击行为的行为标识为08、商品下单行为的行为标识为09等。
当行为标识为字母与数字的组合时,可以用字母表征行为类别,用数字表征行为,例如,起点输入行为的行为标识为a01、终点输入行为的行为标识为a02、路线查询行为的行为标识为a03、路线选择行为的行为标识为a04、导航行为的行为标识为a05、关键词输入行为的行为标识为b01、关键词搜索行为的行为标识为b02、搜索结果点击行为的行为标识为b03、商品下单行为的行为标识为b04等,其中a表征出行行为类别、b表征消费行为类别。
在一个实施例中,S204具体包括以下步骤:分别提取行为数据集合中每条行为数据的行为标识;获取预配置的用户行为库,用户行为库存储有行为标识与行为之间的对应关系;基于对应关系,从用户行为库中查找与各行为标识匹配的目标行为;将各目标行为确定为对应行为数据对应的行为。
其中,中间键服务器中存储有预先配置的用户行为库,该用户行为库中存储有行为标识与行为之间的对应关系,行为标识a03对应于路线查询行为、行为标识a04对应于路线选择行为、行为标识a05对应于导航行为等。
例如,行为数据集合中包含4条行为数据,行为数据1的行为标识为b01,行为数据2的行为标识为a03、行为数据3的行为标识为a04、行为数据4的行为标识为a05,预配置的用户行为库中的对应关系如下表1所示,则中间键服务器在获取到行为数据集合中每条行为数据的行为标识之后,获取用户行为库,并基于在用户行为库中查找各个行为标识所对应的目标行为,行为标识a03对应的目标行为是路线查询行为,行为标识a04对应的目标行为是路线选择行为,行为标识a05对应的目标行为是导航行为,可确定行为数据2对应的行为是路线查询行为,行为数据3对应的行为是路线选择行为,行为数据4对应的行为是导航行为,行为标识b01不存在于用户行为库,未能确定出行为数据1对应的行为。
表 1
Figure 49771DEST_PATH_IMAGE001
S206,基于行为对行为数据集合进行压缩处理,得到压缩后行为数据集合。
其中,压缩处理包括删除处理和再编码处理中的至少一种处理,删除处理具体是对行为数据集合中的无效数据进行删除,以减少数据量的处理;再编码处理是对行为数据集合中的行为数据所对应的行为进行整合编码,以减少数据量的处理。
具体地,中间键服务器在确定行为数据集合中每个行为数据对应的行为之后,基于所确定出行为,确定行为数据集合中的待压缩行为数据,并基于待压缩行为数据对行为数据集合进行压缩处理,得到压缩后行为数据集合。
在一个实施例中,压缩处理包括删除处理,待压缩行为数据为无效数据,S206包括以下步骤:基于行为,确定行为数据中的无效数据;在行为数据集合中对无效数据进行删除处理,得到过滤后行为数据集合;基于过滤后行为数据集合确定压缩后行为数据集合。
其中,无效数据是指无价值的数据,具体是指对于要研究的问题而言没有价值的数据。例如,要研究的是出行行为类别相关的问题,则可以设置属于出行行为类别的行为数据均为有效数据,出行行为类别之外的其他行为数据均为无效行为数据,则中间键服务器在得到各个行为数据对应的行为之后,可以基于每个行为数据的行为确定该行为数据是否为无效数据,从而确定出行为数据集合中的无效数据,并将无效数据从行为数据集合中删除,即可得到压缩后的行为数据集合。
本实施例中,中间键服务器通过确定出行为数据中的无效数据,进而可以将无效数据从行为数据集合中删除,可以缩减同步时所需传输的数据量,从而提高了数据同步的同步效率。
在一个实施例中,压缩处理包括再编码处理,待压缩行为数据为行为数据集合中的行为数据,S206包括以下步骤:获取预设的压缩编码顺序,基于压缩编码顺序生成初始编码字符串,根据行为数据集合中的行为数据对初始编码字符串进行更新,得到更新后编码字符串,将更新后编码字符串确定为行为数据集合对应的编码字符串。
其中,压缩编码顺序是对各种行为数据所对应的行为进行再编码的顺序,具体可以是用户行为库中各个对应关系的存储顺序。例如,表1中,路线查询行为的对应关系的为关系1、路线选择行为的对应关系的为关系2、导航行为的对应关系的为关系3、约车行为的对应关系的为关系4、关键词搜索行为的对应关系的为关系5、搜索结果点击行为的对应关系的为关系6、商品下单行为的对应关系的为关系7,则可以确定压缩编码顺序为“路线查询行为,路线选择行为,导航行为,约车行为,关键词搜索行为,搜索结果点击行为,商品下单行为”。
具体地,中间键服务器在获取到预设的压缩编码顺序之后,还可以获取预设的编码位数并基于预设的编码顺序和编码位数生成初始编码字符串,并根据行为数据集合中的行为数据对初始编码字符串中相应位的字符进行修改,得到更新后编码字符串,将更新后编码字符串确定为行为数据集合对应的编码字符串。
其中,编码位数为1,则初始编码字符串中每一位对应于一个行为,编码位数为2,则初始编码字符串中每两位对应于一个行为。
参考图3所示的初始编码字符串示意图,图中每一位按照预设的压缩编码顺序分别对应于相应的行为,如,第一位对应于路线查询行为、第二位对应于路线选择行为……第7位对应于商品下单行为。假设行为数据集合中包含3个行为数据,其中3个行为数据的行为标识分别为a03、a05和b02,则中间键服务器可以基于表1所示的用户行为库,确定出3个行为数据的对应的行为分别为路线查询行为、导航行为和关键词搜索行为,则基于所确定的行为对图3中所示的初始编码字符串中相应位的字符进行修改,得到更新后的编码字符串为“1010100”,可以理解的是,更新后的编码字符串中每一位的值均为0,0表示不存在该位所对应的行为,1表示存在该位所对应的行为。
本实施例中,中间键服务器通过对获取预设的压缩编码顺序,基于压缩编码顺序生成初始编码字符串,根据行为数据集合中的行为数据对初始编码字符串进行更新,得到更新后编码字符串,将更新后编码字符串确定为压缩后行为数据集合对应的编码字符,从而实现对行为数据集合的再编码处理,在确保信息量的前提下,缩减同步时需传输的数据量,从而提高了数据同步的同步效率。
在一个实施例中,中间键服务器基于过滤后行为数据集合确定压缩后行为数据集合的过程具体包括以下步骤:获取预设的压缩编码顺序;基于压缩编码顺序生成初始编码字符串;根据过滤后行为数据集合中的行为数据对初始编码字符串进行更新,得到更新后编码字符串;将更新后编码字符串确定为压缩后行为数据集合对应的编码字符串。
在一个实施例中,针对每个用户对应的行为数据集合,中间键服务器分别对其进行删除处理和再编码处理,得到每个用户对应的压缩后行为数据集合,其中,在对每个用户的过滤后行为数据集合进行再编码处理的过程中,针对每个过滤后行为数据集合分别生成相应的初始编码字符串,并对基于相应的过滤后行为数据集合中的行为数据对初始编码字符串进行更新,得到更新后编码字符串;将更新后编码字符串确定为相应压缩后行为数据集合对应的编码字符串。
S208,将压缩后行为数据集合发送至目标服务器,以使目标服务器对压缩后行为数据集合中的行为数据进行同步。
具体地,中间键服务器在得到压缩后行为数据集合对应的编码字符串之后,直接将所得到压缩后行为数据集合的编码字符串发送至目标服务器,目标服务器在接收到编码字符串之后,基于预存的压缩解码顺序,对所接收到的编码字符串进行解码,得到压缩后行为数据集合,并将压缩后行为数据集合所包含的各个行为同步到数据中心。
其中,压缩解码顺序是与压缩编码顺序对应的,具体可以是用户行为库中各个对应关系的存储顺序,数据中心可以是hbase、hive、mysql等数据库。
在一个实施例中,针对各个用户对应的压缩后行为数据集合,分别获取各压缩后行为数据集合的生成时间,并基于生成时间对压缩后行为数据集合进行排序,得到排序结果,并按照排序结果依次对各个压缩后行为数据集合进行发,从而将各个压缩后行为数据集合发送至目标服务器。
在一个实施例中,当压缩后行为数据集合的数量超过数量阈值时,中间键服务器还可以对压缩后行为数据集合进行分组,得到各个组,并按照分组顺序,依次发送相应组内的各个压缩后行为数据集合,针对任意一个组,中间件服务器可以采用多发送任务并行的方式,同时执行多个发送任务,每个发送任务分别用于发送一个相应的压缩后行为数据集合,其中,每个组内包含多个压缩后行为数集合。
在一个实施例中,针对任意一个压缩后行为数据集合对应的编码字符串,中间键服务器还可以基于行为类别对其进行切分,得到子编码字符串,并将所压缩后行为数据集合的子编码字符串和其相应的行为类别发送至目标服务器,以使目标服务器基于所接收的子编码字符串得到压缩后行为数据集合所包含的各个行为,并将压缩后行为数据集合所包含的各个行为同步到数据中心。其中,每个子编码字符串分别对应于一个行为类别。
例如,图3所示的更新后编码字符串可以划分为两个子编码字符串,分别为基于出行行为类别的子编码字符串“1010”和基于消费行为类别的子编码字符串“100”,并将子编码字符串“1010”和对应的出行行为类别、以及编码字符串“100”和对应的消费行为类别发送至目标服务器,目标服务器基于所接收的子编码字符串和行为类别,可以解析出路线查询行为、导航行为和关键词搜索行为三个行为,并将该三个行为同步至数据中心。
上述行为数据同步方法,当达到数据同步时刻时,中间键服务器通过获取待同步的行为数据集合,通过确定行为数据集合中每条行为数据对应的行为,并基于行为对行为数据集合进行压缩处理,得到压缩后行为数据集合,从而仅需要将压缩后行为数据集合发送至目标服务器,目标服务器对压缩后行为数据集合中的行为数据进行同步,本方案中,当待同步的行为数据集合数据量较大时,通过对待同步的行为数据集合数据量进行压缩,可以缩减同步时所需传输的数据量,从而提高了数据同步的同步效率。
在一个实施例中,行为数据集合可以基于行为类别划分为多个行为数据子集合,每个行为数据子集合中的行为数据属于同一行为类别,相应地数据同步任务包括多个数据同步子任务,每个数据同步子任务用于同步相应行为的行为数据子集合。中间键服务器在确定出行为数据集合中每条行为数据对应的行为之后,基于所确定的行为对行为数据集合进行子集合划分,得到多个行为数据子集合,并在达到目标行为数据子集合的数据同步时刻时,基于所确定的行为对行为数据子集合进行压缩处理,得到压缩后行为数据子集合,并将压缩后行为数据子集合发送至目标服务器,以使目标服务对压缩后行为数据子集合中的行为数据进行同步。
例如,行为数据集合中包含4条行为数据,其中行为数据1对应的行为是路线查询行为、行为数据2对应的是路线选择行为,行为数据3对应的行为是关键词搜索行为、行为数据4对应的行为是搜索结果点击行为,则按照行为类别对行为数据集合进行子集合划分,则可以得到基于出行行为类别的行为数据子集合1和基于消费行为类别的行为数据子集合2,行为数据子集合1包含行为数据1和行为数据2,行为数据子集合2包含行为数据2和行为数据3,则在达到出行行为类别的行为数据子集合1的数据同步时刻时,对行为数据子集合1进行压缩处理,得到压缩后行为数据子集合1,并将压缩后行为数据子集合1发送至目标服务器;在达到消费行为类别的行为数据子集合2的数据同步时刻时,对行为数据子集合2进行压缩处理,得到压缩后行为数据子集合2,并将压缩后行为数据子集合2发送至目标服务器。
上述实施例中,中间键服务器通过对行为数据集合进行子集合划分,得到多个行为数据子集合,并分别对每个对行为数据子集合进行压缩处理,得到压缩后行为数据子集合,并将压缩后行为数据子集合发送至目标服务器,从而可以对不同行为类别的行为数据分别进行压缩,并逐个发送,既通过缩减同步时所需传输的数据量以提高数据同步的同步效率,又提高了数据同步的灵活性。
在一个实施例中,中间键服务器基于行为确定行为数据中的无效数据的过程包括以下步骤:将未从用户行为库中查找到目标行为的行为标识确定为无效行为标识;将无效行为标识对应的行为数据确定为无效数据。
例如,行为数据集合中包含4条行为数据,行为数据1的行为标识为b01,行为数据2的行为标识为a03、行为数据3的行为标识为a04、行为数据4的行为标识为a05,预配置的用户行为库中的对应关系如表1所示,则中间键服务器在获取到行为数据集合中每条行为数据的行为标识之后,获取用户行为库,并基于在用户行为库中查找各个行为标识所对应的目标行为,行为标识a03对应的目标行为是路线查询行为,行为标识a04对应的目标行为是路线选择行为,行为标识a05对应的目标行为是导航行为,则可确定行为数据2对应的行为是路线查询行为,行为数据3对应的行为是路线选择行为,行为数据4对应的行为是导航行为,行为标识b01不存在于用户行为库,则可以将行为标识b01确定为无效标识,将行为标识b01对应行为数据1确定为无效数据。
上述实施例中,中间键服务器通过将未从用户行为库中查找到目标行为的行为标识确定为无效行为标识,从而将无效行为标识对应的行为数据确定为无效数据,进而可以将无效数据从行为数据集合中删除,可以缩减同步时所需传输的数据量,从而提高了数据同步的同步效率。
在一个实施例中,中间键服务器基于行为确定行为数据中的无效数据的过程包括以下步骤:确定行为中被登记至删除候补列表中的已登记行为;将已登记行为对应的行为数据确定为无效数据。
其中,候补删除列表中所登记的行为均为无效行为,无效行为所对应的行为数据均为无效数据。
例如,行为数据集合中包含4条行为数据,行为数据1的行为标识为b02,行为数据2的行为标识为a03、行为数据3的行为标识为a04、行为数据4的行为标识为a05,预配置的用户行为库中的对应关系如表1所示,则中间键服务器在获取到行为数据集合中每条行为数据的行为标识之后,获取用户行为库,并基于在用户行为库中查找各个行为标识所对应的目标行为,行为标识b02对应的目标行为是关键词搜索行为,行为标识a03对应的目标行为是路线查询行为,行为标识a04对应的目标行为是路线选择行为,行为标识a05对应的目标行为是导航行为,则可确定行为数据1对应的行为是关键词搜索行为,行为数据2对应的行为是路线查询行为,行为数据3对应的行为是路线选择行为,行为数据4对应的行为是导航行为,删除候补列表入表2所示,登记有关键词搜索行为、搜索结果点击行为和商品下单行为,则可以确定出行为数据集合所对应的各个行为中关键词搜索行为是已登记行为,则将行为数据集合中关键词搜索行为对应的行为数据1确定为无效数据。
表2
Figure 232490DEST_PATH_IMAGE002
上述实施例中,计算机设备通过确定行为中被登记至删除候补列表中的已登记行为,从而将已登记行为对应的行为数据确定为无效数据,进而可以将无效数据从行为数据集合中删除,可以缩减同步时所需传输的数据量,从而提高了数据同步的同步效率。
在一个实施例中,S208包括以下步骤:对压缩后行为数据集合进行加密处理,得到加密后行为数据集合;将加密后行为数据集合发送至目标服务器。
具体地,中间键服务器在得到压缩后行为数据集合之后,可以采用预设的加密算法对压缩后行为数据集合进行加密处理,得到加密后行为数据集合,并将机密后行为数据集合发送至目标服务器,目标服务器在接收到加密后行为数据集合后,可以对加密后行为数据进行解密,从而得到压缩后行为数据集合,并对压缩后行为数据集合中的行为数据进行同步。
其中,预设的加密算法可以是MD5消息摘要算法,MD5消息摘要算法MD5算法可以对输入任意长度的消息进行运行,产生一个128位的消息摘要。
在一个实施例中,预设的加密算法可以是MD5消息摘要算法,中间键服务器在得到压缩后行为数据集合之后,采用MD5消息摘要算法计算压缩后行为数据集合的MD5值,并将计算所得的MD5值和压缩后行为数据集合一同发送至目标服务器,目标服务器在接收到压缩后行为数据集合之后,也采用MD5消息摘要算法基于所接收的压缩后行为数据集合进行计算,得到MD5校验值,并判断计算所得的MD5校验值与所接收的到的MD5值是否相同,若相同,则确定校验通过,则对压缩后行为数据集合中的行为数据进行同步;若不相同,则确定校验失败,则生成告警信息,并将该告警信息发送至目标终端,以使目标终端所对应的运维人员基于所接收的告警信息进行异常处理。
上述实施例中,中间键服务器通过对压缩后行为数据集合进行加密处理,得到加密后行为数据集合,将加密后行为数据集合发送至目标服务器,可以确保数据传输的安全性,避免同步的数据被篡改,从而提高了数据同步的准确性。
在一个实施例中,如图4所示,提供了一种行为数据同步方法,以该方法应用于图1中的中间键服务器为例进行说明,包括以下步骤:
S402,当达到数据同步时刻时,获取待同步的行为数据集合。
S404,分别提取所述行为数据集合中每条行为数据的行为标识。
S406,获取预配置的用户行为库,所述用户行为库存储有行为标识与行为之间的对应关系。
S408,基于所述对应关系,从所述用户行为库中查找与各所述行为标识匹配的目标行为。
S410,将各所述目标行为确定为对应所述行为数据对应的行为。
S412,将未从所述用户行为库中查找到目标行为的所述行为标识确定为无效行为标识,将所述无效行为标识对应的行为数据确定为无效数据。
S414,在所述行为数据集合中对所述无效数据进行删除处理,得到过滤后行为数据集合。
S416,获取预设的压缩编码顺序。
S418,基于所述压缩编码顺序生成初始编码字符串。
S420,根据所述过滤后行为数据集合中的行为数据对所述初始编码字符串进行更新,得到更新后编码字符串。
S422,将所述更新后编码字符串确定为压缩后行为数据集合对应的编码字符串。
S424,对所述压缩后行为数据集合进行加密处理,得到加密后行为数据集合。
S426,将所述加密后行为数据集合发送至目标服务器。
本申请还提供一种应用场景,该应用场景应用上述的行为数据同步方法。具体地,该行为数据同步方法在该应用场景的应用如下:
参考图5所示的数据同步系统架构图,该数据同步系统中包括中间键服务器和数据中心服务器,其中,中间键服务器用于执行上述行为数据同步方法,数据中心服务器用于接收通过中间键服务器传输的数据并对该数据进行存储。中间件服务器包括任务调度模块、数据过滤模块、数据编辑模块和数据发送模块。
任务调度模块,用于配置不同的数据同步任务,具体可以针对不同的用户分别配置相应的数据同步任务,如果在单位时间内需要处理大量的消息,我们可以将单点的任务调度调整为多个任务调度的集群,提高任务调度的频次,来动态的增强任务调度模块的分配能力。
数据过滤模块,用于将待同步的数据中的无效数据进行删除过滤。该模块可以多任务高并发处理。
数据编辑模块,用于对数据过滤模块输出的过滤后数据进行再编码处理。该模块可以多任务高并发处理。
数据发送模块,用于将数据编辑模块输出的再编码后的数据发送至数据中心服务器的数据接收模块。可以根据数据量动态调整数据发送任务的数量,提高数据发送的能力。
数据中心服务器包括数据接收模块和数据解析模块:
数据接收模块用于接收再编码后的数据,数据解析模块用于对再编码后的数据进行解析并同步。
参考图6所示的系统部署图,该系统部署是基于图5的系统架构进行部署所得到的,主要包括源数据库、中间键服务器、vpn、数据接受系统和目标数据库,其中,源数据库用于产生待同步的数据,具体可以为实际生产环境中已经存在的不同业务功能的多个数据库,可以直接通过api传输,中间件服务器主要从源数据库获取待同步的数据,并执行上述行为数据同步方法,vpn为虚拟专用网络,实现中间键服务器和数据接受系统之间的网络通信,数据接受系统用于接收中间键服务器推送的数据,并将所接受的数据存储至目标服务器。
参考图7所示的行为数据同步方法流程示意图,中间件服务器任务调度模块的建立源数据库中的需要同步的相关表的物化视图,用于生成数据同步文件,并创建定时存储任务,通过执行定时存储任务,定时检索数据文件记录表,通过数据过滤模块和数据编辑模块从数据文件记录表中筛选待同步的数据,对待同步的数进行过滤和再编码处理,并对再编码处理后的数据进行存储,生成文件报文,通过数据发送模块发送文件,若文件发送失败则同步任务暂停,并以以短信形式进行告警,若文件发送成功,则数据中心接收文件,并对所接收的文件进行解析和存储。
本申请还另外提供一种行为数据同步方法。具体地,该行为数据同步方法在该应用场景的应用如下:
参考图8所示的行为数据同步方法流程图,通过用户埋点将待同步数据发送给中间键服务器,用户埋点可以是可以手机端 web端直接通过api发送或者通过日志监听服务端的Oracle、MySQL、DB2、SyBase等数据库;中间件服务器对待同步数据进行过滤和再编码处理,一方面将再编码处理后的数据存储到中间件服务器对应的数据库,另一方面将编码处理后的数据以消息的形式发送出去,在发送消息时可以形成消息队列,消费者即可以直接从中间件服务器对应的数据库提取出再编码处理后的数据,也可以接收中间件服务器所发送的消息形式的再编码处理后的数据,消费者在得到再编码处理后的数据之后,可以对再编码处理后的数据进行数据解析,数据解析可以采用大数据的分析技术,比如spark,并将解析结果存储在目标数据库,目标数据库即数据仓库,具体可以是hbase、hive、mysql等。
本申请还另外提供一种行为数据同步方法。具体地,该行为数据同步方法在该应用场景的应用如下:
参考图9所示的行为数据压缩步骤的流程图,中间键服务器在得到待同步的数据之后,待同步的数据为行为数据流,逐个判断各个行为数据是否为有效数据,若是则将该行为数据加入到行为数据集合中,若不是则将该行为数据过滤掉,然后对行为数据集合中的行为数据进行再编码,再编码的过程具体可以是遍历行为数据集合中的各个行为数据,确定各个行为数据对应的行为,并在空字节流的相应位置进行填充,然后根据需要把填充后所得到的字节流按照固定位数进行切分,得到多个字节流,从而实现对待同步数据的压缩。
应该理解的是,虽然图2、图4、图6至图9的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图4、图6至图9中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种行为数据同步装置,包括:数据获取模块1002、行为确定模块1004、数据压缩模块1006和数据发送模块1008,其中:
数据获取模块1002,用于当达到数据同步时刻时,获取待同步的行为数据集合。
行为确定模块1004,用于确定行为数据集合中每条行为数据对应的行为。
数据压缩模块1006,用于基于行为对行为数据集合进行压缩处理,得到压缩后行为数据集合。
数据发送模块1008,用于将压缩后行为数据集合发送至目标服务器,以使目标服务器对压缩后行为数据集合中的行为数据进行同步。
上述实施例中,当达到数据同步时刻时,获取待同步的行为数据集合,通过确定行为数据集合中每条行为数据对应的行为,并基于行为对行为数据集合进行压缩处理,得到压缩后行为数据集合,从而仅需要将压缩后行为数据集合发送至目标服务器,目标服务器对压缩后行为数据集合中的行为数据进行同步,本方案中,当待同步的行为数据集合数据量较大时,通过对待同步的行为数据集合数据量,可以缩减同步时所需传输的数据量进行压缩,从而提高了数据同步的同步效率。
在其中一个实施例中,行为确定模块1004,还用于:分别提取行为数据集合中每条行为数据的行为标识;获取预配置的用户行为库,用户行为库存储有行为标识与行为之间的对应关系;基于对应关系,从用户行为库中查找与各行为标识匹配的目标行为;将各目标行为确定为对应行为数据对应的行为。
在其中一个实施例中,数据压缩模块1006,还用于:基于行为,确定行为数据中的无效数据;在行为数据集合中对无效数据进行删除处理,得到过滤后行为数据集合;基于过滤后行为数据集合确定压缩后行为数据集合。
在其中一个实施例中,数据压缩模块1006,还用于:将未从用户行为库中查找到目标行为的行为标识确定为无效行为标识;将无效行为标识对应的行为数据确定为无效数据。
在其中一个实施例中,数据压缩模块1006,还用于:确定行为中被登记至删除候补列表中的已登记行为;将已登记行为对应的行为数据确定为无效数据。
在其中一个实施例中,数据压缩模块1006,还用于:获取预设的压缩编码顺序;基于压缩编码顺序生成初始编码字符串;根据过滤后行为数据集合中的行为数据对初始编码字符串进行更新,得到更新后编码字符串;将更新后编码字符串确定为压缩后行为数据集合对应的编码字符串。
在其中一个实施例中,数据发送模块1008,还用于:对压缩后行为数据集合进行加密处理,得到加密后行为数据集合;将加密后行为数据集合发送至目标服务器。
关于行为数据同步装置的具体限定可以参见上文中对于行为数据同步方法的限定,在此不再赘述。上述行为数据同步装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是中间键服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储行为数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种行为数据同步方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下的步骤:当达到数据同步时刻时,获取待同步的行为数据集合;确定行为数据集合中每条行为数据对应的行为;基于行为对行为数据集合进行压缩处理,得到压缩后行为数据集合;将压缩后行为数据集合发送至目标服务器,以使目标服务器对压缩后行为数据集合中的行为数据进行同步。
在一个实施例中,计算机程序被处理器执行确定行为数据集合中每条行为数据对应的行为的步骤时,使得处理器还执行以下的步骤:分别提取行为数据集合中每条行为数据的行为标识;获取预配置的用户行为库,用户行为库存储有行为标识与行为之间的对应关系;基于对应关系,从用户行为库中查找与各行为标识匹配的目标行为;将各目标行为确定为对应行为数据对应的行为。
在一个实施例中,计算机程序被处理器执行确定基于行为对行为数据集合进行压缩处理,得到压缩后行为数据集合的步骤时,使得处理器还执行以下的步骤:基于行为,确定行为数据中的无效数据;在行为数据集合中对无效数据进行删除处理,得到过滤后行为数据集合;基于过滤后行为数据集合确定压缩后行为数据集合。
在一个实施例中,计算机程序被处理器执行确定基于行为,确定行为数据中的无效数据的步骤时,使得处理器还执行以下的步骤:将未从用户行为库中查找到目标行为的行为标识确定为无效行为标识;将无效行为标识对应的行为数据确定为无效数据。
在一个实施例中,计算机程序被处理器执行确定基于行为,确定行为数据中的无效数据的步骤时,使得处理器还执行以下的步骤:确定行为中被登记至删除候补列表中的已登记行为;将已登记行为对应的行为数据确定为无效数据。
在一个实施例中,计算机程序被处理器执行基于过滤后行为数据集合确定压缩后行为数据集合的步骤时,使得处理器还执行以下的步骤:获取预设的压缩编码顺序;基于压缩编码顺序生成初始编码字符串;根据过滤后行为数据集合中的行为数据对初始编码字符串进行更新,得到更新后编码字符串;将更新后编码字符串确定为压缩后行为数据集合对应的编码字符串。
在一个实施例中,计算机程序被处理器执行将压缩后行为数据集合发送至目标服务器的步骤时,使得处理器还执行以下的步骤:对压缩后行为数据集合进行加密处理,得到加密后行为数据集合;将加密后行为数据集合发送至目标服务器。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,计算机程序被处理器执行时,使得处理器执行以下的步骤:当达到数据同步时刻时,获取待同步的行为数据集合;确定行为数据集合中每条行为数据对应的行为;基于行为对行为数据集合进行压缩处理,得到压缩后行为数据集合;将压缩后行为数据集合发送至目标服务器,以使目标服务器对压缩后行为数据集合中的行为数据进行同步。
在一个实施例中,计算机程序被处理器执行确定行为数据集合中每条行为数据对应的行为的步骤时,使得处理器还执行以下的步骤:分别提取行为数据集合中每条行为数据的行为标识;获取预配置的用户行为库,用户行为库存储有行为标识与行为之间的对应关系;基于对应关系,从用户行为库中查找与各行为标识匹配的目标行为;将各目标行为确定为对应行为数据对应的行为。
在一个实施例中,计算机程序被处理器执行确定基于行为对行为数据集合进行压缩处理,得到压缩后行为数据集合的步骤时,使得处理器还执行以下的步骤:基于行为,确定行为数据中的无效数据;在行为数据集合中对无效数据进行删除处理,得到过滤后行为数据集合;基于过滤后行为数据集合确定压缩后行为数据集合。
在一个实施例中,计算机程序被处理器执行确定基于行为,确定行为数据中的无效数据的步骤时,使得处理器还执行以下的步骤:将未从用户行为库中查找到目标行为的行为标识确定为无效行为标识;将无效行为标识对应的行为数据确定为无效数据。
在一个实施例中,计算机程序被处理器执行确定基于行为,确定行为数据中的无效数据的步骤时,使得处理器还执行以下的步骤:确定行为中被登记至删除候补列表中的已登记行为;将已登记行为对应的行为数据确定为无效数据。
在一个实施例中,计算机程序被处理器执行基于过滤后行为数据集合确定压缩后行为数据集合的步骤时,使得处理器还执行以下的步骤:获取预设的压缩编码顺序;基于压缩编码顺序生成初始编码字符串;根据过滤后行为数据集合中的行为数据对初始编码字符串进行更新,得到更新后编码字符串;将更新后编码字符串确定为压缩后行为数据集合对应的编码字符串。
在一个实施例中,计算机程序被处理器执行将压缩后行为数据集合发送至目标服务器的步骤时,使得处理器还执行以下的步骤:对压缩后行为数据集合进行加密处理,得到加密后行为数据集合;将加密后行为数据集合发送至目标服务器。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种行为数据同步方法,其特征在于,执行于中间键服务器,所述方法包括:
当达到数据同步时刻时,获取用户行为数据表,从所述用户行为数据表中提取出待同步的行为数据集合;所述用户行为数据表是基于物化视图确定的,所述物化视图是基于从源端服务器获取的数据表查询结果而创建的;
提取所述行为数据集合中每条行为数据的行为标识,基于所述行为标识确定每条行为数据对应的行为;
基于所述行为,确定所述行为数据中的无效数据;在所述行为数据集合中对所述无效数据进行删除处理,得到过滤后行为数据集合;获取预设的压缩编码顺序;基于所述压缩编码顺序生成初始编码字符串;根据所述过滤后行为数据集合中的行为数据对所述初始编码字符串进行更新,得到更新后编码字符串;将所述更新后编码字符串确定为压缩后行为数据集合对应的编码字符串;
将所述压缩后行为数据集合发送至目标服务器,以使所述目标服务器对所述压缩后行为数据集合中的行为数据进行同步。
2.根据权利要求1所述的方法,其特征在于,所述提取所述行为数据集合中每条行为数据的行为标识,基于所述行为标识确定每条行为数据对应的行为,包括:
分别提取所述行为数据集合中每条行为数据的行为标识;
获取预配置的用户行为库,所述用户行为库存储有行为标识与行为之间的对应关系;
基于所述对应关系,从所述用户行为库中查找与各所述行为标识匹配的目标行为;
将各所述目标行为确定为对应所述行为数据对应的行为。
3.根据权利要求1所述的方法,其特征在于,所述行为对应有行为类别,所述行为类别包括出行行为类别、消费行为类别、浏览行为类别、聊天行为类别。
4.根据权利要求3所述的方法,其特征在于,所述基于所述行为,确定所述行为数据中的无效数据,包括:
将未从所述用户行为库中查找到目标行为的所述行为标识确定为无效行为标识;
将所述无效行为标识对应的行为数据确定为无效数据。
5.根据权利要求3所述的方法,其特征在于,所述基于所述行为,确定所述行为数据中的无效数据,包括:
确定所述行为中被登记至删除候补列表中的已登记行为;
将所述已登记行为对应的行为数据确定为无效数据。
6.根据权利要求5所述的方法,其特征在于,所述删除候补 列表中所登记的行为均为无效行为,所述无效行为所对应的行为数据均为无效数据。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述将所述压缩后行为数据集合发送至目标服务器,包括:
对所述压缩后行为数据集合进行加密处理,得到加密后行为数据集合;
将所述加密后行为数据集合发送至目标服务器。
8.一种行为数据同步装置,其特征在于,所述装置包括:
数据获取模块,用于当达到数据同步时刻时,获取用户行为数据表,从所述用户行为数据表中提取出待同步的行为数据集合;所述用户行为数据表是基于物化视图确定的,所述物化视图是基于从源端服务器获取的数据表查询结果而创建的;
行为确定模块,用于提取所述行为数据集合中每条行为数据的行为标识,基于所述行为标识确定每条行为数据对应的行为;
数据压缩模块,用于基于所述行为,确定所述行为数据中的无效数据;在所述行为数据集合中对所述无效数据进行删除处理,得到过滤后行为数据集合;获取预设的压缩编码顺序;基于所述压缩编码顺序生成初始编码字符串;根据所述过滤后行为数据集合中的行为数据对所述初始编码字符串进行更新,得到更新后编码字符串;将所述更新后编码字符串确定为压缩后行为数据集合对应的编码字符串;
数据发送模块,用于将所述压缩后行为数据集合发送至目标服务器,以使所述目标服务器对所述压缩后行为数据集合中的行为数据进行同步。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202111046536.3A 2021-09-08 2021-09-08 行为数据同步方法、装置、计算机设备和存储介质 Active CN113486123B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111046536.3A CN113486123B (zh) 2021-09-08 2021-09-08 行为数据同步方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111046536.3A CN113486123B (zh) 2021-09-08 2021-09-08 行为数据同步方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113486123A CN113486123A (zh) 2021-10-08
CN113486123B true CN113486123B (zh) 2022-02-25

Family

ID=77947292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111046536.3A Active CN113486123B (zh) 2021-09-08 2021-09-08 行为数据同步方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113486123B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740089A (zh) * 2018-11-30 2019-05-10 东软集团股份有限公司 数据采集方法、装置、系统、可读存储介质及电子设备
CN110909063A (zh) * 2019-11-28 2020-03-24 蜂助手股份有限公司 一种用户行为的分析方法、装置、应用服务器及存储介质
CN112347355A (zh) * 2020-11-11 2021-02-09 广州酷狗计算机科技有限公司 数据处理方法、装置、服务器及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7693863B2 (en) * 2004-12-20 2010-04-06 Claria Corporation Method and device for publishing cross-network user behavioral data
US8554327B2 (en) * 2010-11-24 2013-10-08 Second Sight Medical Products, Inc. Method and apparatus for predicting and controlling the percepts induced by a visual prosthesis
US8244701B2 (en) * 2010-02-12 2012-08-14 Microsoft Corporation Using behavior data to quickly improve search ranking
US9355114B1 (en) * 2014-06-25 2016-05-31 Groupon, Inc. Graph-based compression of data records
CN105677687A (zh) * 2014-11-21 2016-06-15 阿里巴巴集团控股有限公司 一种数据处理方法及装置
US20200394225A1 (en) * 2019-06-14 2020-12-17 Salesforce.Com, Inc. Prepackaged data ingestion from various data sources

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740089A (zh) * 2018-11-30 2019-05-10 东软集团股份有限公司 数据采集方法、装置、系统、可读存储介质及电子设备
CN110909063A (zh) * 2019-11-28 2020-03-24 蜂助手股份有限公司 一种用户行为的分析方法、装置、应用服务器及存储介质
CN112347355A (zh) * 2020-11-11 2021-02-09 广州酷狗计算机科技有限公司 数据处理方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
CN113486123A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN105678189B (zh) 加密数据文件存储和检索系统及方法
EP2924594B1 (en) Data encoding and corresponding data structure in a column-store database
KR101400816B1 (ko) 개별적으로 액세스 가능한 데이터 유닛의 기억 관리 방법 및 시스템
EP2302538A1 (en) Method and system for capturing change of data
CN111258989A (zh) 数据库迁移评估方法、装置、存储介质和计算机设备
US20180285596A1 (en) System and method for managing sensitive data
EP2778953A1 (en) Encoded-search database device, method for adding and deleting data for encoded search, and addition/deletion program
KR20130049111A (ko) 분산 처리를 이용한 포렌식 인덱스 방법 및 장치
CN109241223B (zh) 行为行踪识别方法及系统
CN111095421B (zh) 基因文件的上下文感知增量算法
KR102559290B1 (ko) 하이브리드 클라우드 기반의 실시간 데이터 아카이빙 방법 및 시스템
CN112685433A (zh) 元数据更新方法、装置、电子设备及计算机可读存储介质
CN112463784A (zh) 数据去重方法、装置、设备及计算机可读存储介质
CN110515895B (zh) 大数据存储系统中对数据文件进行关联存储的方法及系统
CN115408350A (zh) 日志压缩、日志还原方法、装置、计算机设备和存储介质
Zhang et al. Recovering SQLite data from fragmented flash pages
CN113486123B (zh) 行为数据同步方法、装置、计算机设备和存储介质
CN115455020A (zh) 一种增量数据同步方法、装置、计算机设备及存储介质
CN115659375A (zh) 数据处理方法、装置、存储介质及电子设备
EP2817692B1 (en) A system, a data structure for controlling the system, and a method for updating the data structure
CN116414801A (zh) 数据迁移方法、装置、计算机设备和存储介质
US11405192B2 (en) Searchable symmetric encryption system and method of processing inverted index
CN107622124B (zh) 基于块数据的数据查询方法及系统
KR20080061501A (ko) 웹 페이지 관리를 위한 웹 아카이브 시스템 및 방법
US11494093B2 (en) Method and apparatus for processing data of in-memory database

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant