CN117033449B

CN117033449B - 基于kafka流的数据处理方法、电子设备及存储介质

Info

Publication number: CN117033449B
Application number: CN202311296035.XA
Authority: CN
Inventors: 富佰成; 方省; 陈帅; 曹家; 罗引; 王磊
Original assignee: Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Technology Co ltd
Priority date: 2023-10-09
Filing date: 2023-10-09
Publication date: 2023-12-15
Anticipated expiration: 2043-10-09
Also published as: CN117033449A

Abstract

本发明提供了一种基于kafka流的数据处理方法、电子设备和存储介质，包括：获取通过kafka流获取的m个用户的数据需求信息；将获取的m个数据需求信息通过消息组件发送给数据预处理节点，得到具有设定格式的目标数据需求信息；获取当前时刻t对应的原始数据集Dt；从Dt中获取DSt_i，并基于Ir对应的目标数据需求信息，确定DSt_i是否为Ir对应的关联数据，如果是，则将Dt_i标记为Ir对应的关联数据；基于Ir^f _s，从MDr_w中获取对应的字段作为Ir对应的目标数据。本发明能够从海量的数据中及时且准确的获取到多个用户所需求的数据。

Description

基于kafka流的数据处理方法、电子设备及存储介质

技术领域

本发明涉及数据处理领域，特别是涉及一种基于kafka流的数据处理方法、电子设备及存储介质。

背景技术

随着时代的进步与经济飞速发展，互联网与云计算等各种新兴技术也得到了迅猛进步，同时促使数据也出现了十分惊人的增长速度，数量也在不断增加。大量数据也会导致存储成本极速攀升，同时也为用户提供更有价值的研究数据。特定用户场景中对数据传输时效性、用户相关数据、以及数据质量比较关注，第一时间对特定最新最近数据分析，以及如何从海量数据中获取到用户想要高质量的数据，且安全、时效性高传输、支持灵活暂停/开启、修改数据指标等高质量数据等成为了需要解决的问题。

发明内容

针对上述技术问题，本发明采用的技术方案为：

本发明实施例提供一种基于kafka流的数据处理方法，所述方法包括如下步骤：

S100，获取通过kafka流获取的m个用户的数据需求信息，第r个数据需求信息Ir={Ur，Ir₁，Ir₂，……，Ir_s，……，Ir_g（r），Mr}；Ir中的第s个数据需求项Ir_s={Ir^d _s，Ir^f _s}，Ir^d _s为Ir_s对应的字段标识，Ir^f _s为Ir^d _s对应的字段内容；r的取值为1到m，s的取值为1到g（r），g（r）为Ir中的数据需求项的数量；Mr为Ir对应的关系标识，所述关系标识包括第一关系标识、第二关系标识和第三关系标识，第一关系标识用于表征Ir₁，Ir₂，……，Ir_s，……，Ir_g（r）之间满足第一关系，第二关系标识用于表征Ir₁，Ir₂，……，Ir_s，……，Ir_g（r）满足第二关系、第三关系标识用于表征Ir₁，Ir₂，……，Ir_s，……，Ir_g（r）满足第三关系；Ur为第r个用户的ID；

S200，将获取的m个数据需求信息通过消息组件发送给数据预处理节点，以对所述数据需求指令进行预处理得到具有设定格式的数据需求信息，作为目标数据需求信息并存放至内存中；

S300，获取当前时刻t对应的原始数据集Dt={Dt₁，Dt₂，……，Dt_i，……，Dt_n（t）}，并对Dt_i进行处理，得到对应的数据处理结果DSt_i={DSt_i1，DSt_i2，……，DSt_ij，……，DSt_ih}，Dt_i为Dt中的第i条数据，i的取值为1到n（t），n（t）为Dt中的数据量；DSt_ij为DSt_i中的第j个数据处理结果，DSt_ij={DSt^d _ij，DSt^f _ij}，DSt^d _ij为Dt_i的第j个字段标识，DSt^f _ij为DSt^d _ij对应的字段，j的取值为1到h，h为字段标识的数量；所述原始数据集基于kafka流得到；

S400，从Dt中获取DSt_i，并基于Ir对应的目标数据需求信息，确定DSt_i是否为Ir对应的关联数据，如果是，则将Dt_i标记为Ir对应的关联数据；得到Ir对应的关联数据集MDr={MDr₁，MDr₂，……，MDr_w，……，MDr_p（r）}；MDr_w为Ir对应的第w个关联数据，w的取值为1到p（r），p（r）为Ir对应的关联数据的数量；

S500，基于Ir^f _s，从MDr_w中获取对应的字段作为Ir对应的目标数据并存储至Ur对应的存储位置Sr中，并将Sr中的数据传输至kafka流中对应的存储位置处。

可选地，在S400中，通过grpc协议获取Dt_i。

可选地，S400具体包括：

S401，设置i=1；

S402，如果i≤n，执行S403；否则，执行S；

S403，从Dt中获取DSt_i，并设置r=1；

S404，如果r≤m，执行S405；否则，执行S409；

S405，对于Ir_s，从DSt_i获取对应的字段作为Ir_s的关联字段DSt^rs _i，如果Ir_s∈DSt^rs _i，则赋予Ir_s第一标识，否则，赋予Ir_s第二标识；执行S406；

S406，设置s=s+1，如果s≤g（r），执行S405，否则，执行S407；

S407，获取Ir中的第一标识的数量P1r，如果Mr为第一关系标识，并且如果P1r=g（r），或者，如果Mr为第二关系标识，并且如果P1r≥1，则将DSt_i作为Ir的关联数据；否则，则不将DSt_i作为Ir的关联数据；执行S408；

S408，设置r=r+1，执行S404；

S409，设置i=i+1；执行S402；

S410，得到MDr，并退出当前控制程序。

可选地，在S405中，如果Ir_s的长度大于设定阈值，则基于Ir_s构建对应的双数组字典树。

可选地，S200还包括：

将所述目标数据需求信息进行持久化存储。

可选地，还包括：

S600，将Sr中的数据按照第一存储周期存储至Redis数据库中，以及将Redis数据库中的数据按照第二存储周期进行持久化存储，其中，第二存储周期的时长大于第一存储周期的时长。

可选地，S300还包括：

如果n（t）＞Gt，则基于Gt-n（t）在当前数据处理节点网络中增加对应数量的数据处理节点，作为新的数据处理节点网络，并将新的数据处理节点网络作为当前数据处理节点网络，以对Dt进行处理；其中，Gt为当前时刻t对应的数据处理节点网络的数据总处理量。

本发明至少具有以下有益效果：

本发明实施例提供的基于kafka流的数据处理方法，能够从海量的数据中及时且准确的获取到多个用户所需求的数据。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于kafka流的数据处理方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供提供一种基于kafka流的数据处理方法，通过kafka系统平台实现。如图1所示，所述方法可包括如下步骤：

S100，获取通过kafka流获取的m个用户的数据需求信息，第r个数据需求信息Ir={Ur，Ir₁，Ir₂，……，Ir_s，……，Ir_g（r），Mr}；Ir中的第s个数据需求项Ir_s={Ir^d _s，Ir^f _s}，Ir^d _s为Ir_s对应的字段标识，Ir^f _s为Ir^d _s对应的字段内容；r的取值为1到m，s的取值为1到g（r），g（r）为Ir中的数据需求项的数量；Mr为Ir对应的关系标识，所述关系标识包括第一关系标识、第二关系标识和第三关系标识，第一关系标识用于表征Ir₁，Ir₂，……，Ir_s，……，Ir_g（r）之间满足第一关系，第二关系标识用于表征Ir₁，Ir₂，……，Ir_s，……，Ir_g（r）满足第二关系，第三关系标识用于表征Ir₁，Ir₂，……，Ir_s，……，Ir_g（r）满足第三关系；Ur为第r个用户的ID。

在本发明实施例中，数据可包括结构化数据和非结构化数据，例如，数据表格文本、视频、音频、图片等。

在本发明实施例中，字段标识可自定义设置，例如可包括标题、作者ID、文本来源、文本摘要、发文内容、正文图片OCR内容、正文视频OCR内容、发布时间、采集时间、文本链接、图片链接、视频链接、视频封面图链接、文本内容标识、点赞量、评论量、关键词等。字段内容为字段标识对应的具体内容。

在本发明一示意性实施例中，第一关系可为和关系，第二关系可为或关系，第三关系可为非关系。第一关系标识和第二关系标识可为自定义标识，只要为不同的标识即可，例如，第一关系标识使用1标识，第二关系标识使用2表示等。

在本发明实施例中，用户的ID可为用户在kafka系统平台的注册账号等。用户的ID会和kafka分布式发布订阅系统平台的生成的topic主题以及组id绑定。

S200，将获取的m个数据需求信息通过消息组件发送给数据预处理节点，以对所述数据需求指令进行预处理得到具有设定格式的数据需求信息，作为目标数据需求信息并存放至内存中。

在本发明实施例中，数据通讯使用消息组件传输，能够提升过滤配置灵活操作效率，及时做出监听以及对应处理，交互效率高。

在本发明实施例中，设定格式可自定义设置。

进一步地，S200还包括：将所述目标数据需求信息进行持久化存储，以便重启服务时防止数据丢失。

在本发明实施例中，数据需求信息为实时获取的数据需求信息。用户可在与kafaka平台关联的数据推送平台对当前的数据需求信息进行修改操作，例如，新增、更新、剔除等操作。

S300，获取当前时刻t对应的原始数据集Dt={Dt₁，Dt₂，……，Dt_i，……，Dt_n（t）}，并对Dt_i进行处理，得到对应的数据处理结果DSt_i={DSt_i1，DSt_i2，……，DSt_ij，……，DSt_ih}，Dt_i为Dt中的第i条数据，i的取值为1到n（t），n（t）为Dt中的数据量；DSt_ij为DSt_i中的第j个数据处理结果，DSt_ij={DSt^d _ij，DSt^f _ij}，DSt^d _ij为Dt_i的第j个字段标识，DSt^f _ij为DSt^d _ij对应的字段，j的取值为1到h，h为字段标识的数量；所述原始数据集基于kafka流得到。

在本发明实施例中，会按照设定处理周期对数据进行处理，设定处理周期可基于实际需要进行设置，例如1s等。在每个处理时刻，可利用数据处理节点对Dt_i进行处理。

进一步地，在本发明实施例中，S300还包括：

在本发明实施例中，每个数据处理节点能够处理设定数量p的数据。如果n（t）＞Gt，则说明当前的数据处理节点的处理能力不够，需要增加数据处理节点，具体增加节点数量可为，/>表示向上取整。

S400，从Dt中获取DSt_i，并基于Ir对应的目标数据需求信息，确定DSt_i是否为Ir对应的关联数据，如果是，则将Dt_i标记为Ir对应的关联数据；得到Ir对应的关联数据集MDr={MDr₁，MDr₂，……，MDr_w，……，MDr_p（r）}；MDr_w为Ir对应的第w个关联数据，w的取值为1到p（r），p（r）为Ir对应的关联数据的数量。

进一步地，在本发明实施例中，在S400中，可通过grpc协议获取Dt_i。使用grpc协议获取Dt_i的好处在于：grpc可以通过protobuf来定义接口，可以有更加严格的接口约束条件，支持多种语言；protobuf可以将数据序列化为二进制编码，这会大幅减少需要传输的数据量，从而大幅提高传输速度；grpc可以支持streaming流式通信（http2.0），提高传输速度。

进一步地，S400可具体包括：

S401，设置i=1。

S402，如果i≤n，执行S403；否则，执行S。

S403，从Dt中获取DSt_i，并设置r=1。

S404，如果r≤m，执行S405；否则，执行S409。

S405，对于Ir_s，从DSt_i获取对应的字段作为Ir_s的关联字段DSt^rs _i，如果Ir_s∈DSt^rs _i，说明DSt^rs _i中包含Ir_s，则赋予Ir_s第一标识，否则，赋予Ir_s第二标识；执行S406。

S406，设置s=s+1，如果s≤g（r），执行S405，否则，执行S407；

S407，获取Ir中的第一标识的数量P1r，如果Mr为第一关系标识，并且如果P1r=g（r），或者，如果Mr为第二关系标识，并且如果P1r≥1，则将DSt_i作为Ir的关联数据；否则，则不将DSt_i作为Ir的关联数据；执行S408。

S408，设置r=r+1，执行S404。

S409，设置i=i+1；执行S402。

S410，得到MDr，并退出当前控制程序。

进一步地，在S405中，如果Ir_s的长度大于设定阈值，则基于Ir_s构建对应的双数组字典树。设定阈值可为自定义值。

优选地，在S405中，如果Ir_s中的的Ir^d _s为关键词，并且Ir^f _s中的关键词的数量大于D1，则基于Ir_s构建对应的双数组字典树，D1为第一阈值，可为自定义值，优选D1＞5。

优选地，在S405中，如果Ir_s中的的Ir^d _s为作者ID，并且Ir^f _s中的数据源ID的数量大于D2，则基于Ir_s构建对应的双数组字典树，D2为第二阈值，可为自定义值，优选，D2＞20。

在本发明实施例中，仅用两个线性数组来表示字典树，该结构有效结合了数字搜索树检索时间高效的特点和链式表示的字典空间结构紧凑的特点。双数组字典树的本质是一个确定有限状态自动机（DFA），每个节点代表自动机的一个状态，根据变量不同，进行状态转移，当到达结束状态或无法转移时，完成一次查询操作。在双数组所有键中包含的字符之间的联系都是通过简单的数学加法运算表示，不仅提高了检索速度，而且省去了链式结构中使用的大量指针，节省了存储空间。双数组字典树能高速完成单串匹配，并且内存消耗可控。

在本发明实施例中，每个用户在kafka平台上会有自己的ID组和主题。在获取到Ir对应的目标数据后，会发送至对应用户的ID组和主题中。

进一步地，本发明实施例提供的方法还包括：

由于流式推送数量大，为防止频繁交互拖垮服务，本发明实施例使用多线程统计累加（保持原子性）维护到本地内存中，先按照第一存储周期例如每隔一分钟将数据刷新到Redis缓冲中，在按照第二存储周期例如按照小时持久化到数据库中。本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明公开的范围由所附权利要求来限定。

Claims

1.一种基于kafka流的数据处理方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，在S400中，通过grpc协议获取Dt_i。

3.根据权利要求1所述的方法，其特征在于，S400具体包括：

S401，设置i=1；

S402，如果i≤n，执行S403；否则，执行S；

S403，从Dt中获取DSt_i，并设置r=1；

S404，如果r≤m，执行S405；否则，执行S409；

S406，设置s=s+1，如果s≤g（r），执行S405，否则，执行S407；

S408，设置r=r+1，执行S404；

S409，设置i=i+1；执行S402；

S410，得到MDr，并退出当前控制程序。

4.根据权利要求3所述的方法，其特征在于，在S405中，如果Ir_s的长度大于设定阈值，则基于Ir_s构建对应的双数组字典树。

5.根据权利要求1所述的方法，其特征在于，S200还包括：

将所述目标数据需求信息进行持久化存储。

6.根据权利要求1所述的方法，其特征在于，还包括：

7.根据权利要求1所述的方法，其特征在于，S300还包括：

8.一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，其特征在于，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-7中任意一项的所述方法。

9.一种电子设备，其特征在于，包括处理器和权利要求8中所述的非瞬时性计算机可读存储介质。