CN116955371A

CN116955371A - 数据处理方法、装置、电子设备及计算机存储介质

Info

Publication number: CN116955371A
Application number: CN202211042651.8A
Authority: CN
Inventors: 张晓川; 张湛梅; 陈雅娟; 陈智扬
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2023-10-27

Abstract

本申请涉及数据处理技术领域，提供一种数据处理方法、装置、电子设备及计算机存储介质。包括：从待处理事件中确定初始字段数据；确定哈希模型结构中不存在初始字段数据对应的扩展数据，则对初始字段数据进行数据转换，得到目标字段数据；根据目标字段数据确定目标信息扩展方式；根据目标信息扩展方式，确定初始字段数据的扩展数据。本申请在缓存历史字段数据对应的扩展数据的哈希模型结构中，不存在与从待处理事件中确定的初始字段数据对应的扩展数据时，对初始字段数据进行数据转换，根据转换得到的目标字段数据确定出目标信息扩展方式，并根据目标信息扩展方式确定出目标字段数据的扩展数据，可以提高大数据实时计算数据扩展效率。

Description

数据处理方法、装置、电子设备及计算机存储介质

技术领域

本申请涉及数据处理技术领域，具体涉及一种数据处理方法、装置、电子设备及计算机存储介质。

背景技术

实时计算应用场景中，往往需要对实时数据增补特征数据，智能扩展数据字段信息，以适用于精准营销或精准服务信息推送等实时场景。例如：电信行业的位置营销、位置态势感知等场景，往往原始数据信息中只有少量的关键字段，如在信令里面，对应只有号码、基站编码、时间、漫游地市信息，在实际场景应用中，需依据号码特征信息或号码分析数据信息进行实时营销或消息传播，主要体现于：拓展性别、年龄、入网日期、是否常驻等数据信息，通过该数据信息可能实时数据进行过滤筛选，在不同的实时应用场景中，圈选不同的人群，实现精准信息推广。

当前在进行大数据实时计算数据扩展时，需要预先将数据保存于数据库，再做数据拓展操作，导致当前进行大数据实时计算数据扩展时的效率低。

发明内容

本申请实施例提供一种数据处理方法、装置、电子设备及计算机存储介质，用以解决大数据实时计算数据扩展效率低的问题。

第一方面，本申请实施例提供一种数据处理方法，包括：

从待处理事件中确定初始字段数据；

确定哈希模型结构中不存在所述初始字段数据对应的扩展数据，则对所述初始字段数据进行数据转换，得到目标字段数据，所述哈希模型结构用于缓存历史字段数据对应的扩展数据；

根据所述目标字段数据确定目标信息扩展方式；

根据所述目标信息扩展方式，确定所述初始字段数据的扩展数据。

在一个实施例中，信息扩展方式包括第一信息扩展方式与第二信息扩展方式，所述根据所述目标字段数据确定目标信息扩展方式的步骤包括：

获取所述第一信息扩展方式对应的第一函数与所述第二信息扩展方式对应的第二函数；

根据所述目标字段数据对应的目标函数、所述第一函数与所述第二函数，从所述第一信息扩展方式与所述第二信息扩展方式中确定目标信息扩展方式。

在一个实施例中，所述根据所述目标字段数据对应的目标函数、所述第一函数与所述第二函数，从所述第一信息扩展方式与所述第二信息扩展方式中确定目标信息扩展方式的步骤包括：

将所述目标函数分别与所述第一函数和所述第二函数进行比较；

确定所述目标函数与所述第一函数相同，则将所述第一信息扩展方式确定为目标信息扩展方式；

确定所述目标函数与所述第二函数相同，则将所述第二信息扩展方式确定为目标信息扩展方式。

在一个实施例中，所述第一信息扩展方式基于分布式数据存储，以函数反射方式实现哈希查找与段式查找的适配，同时采用索引方式进行段式查找；所述第二信息扩展方式在函数反射方式基础上，基于NIO的通讯模式、数据分布式分片存储、异步数据装载以及内存缓存方式进行数据查找，并设置有基于函数定义配置方式。

在一个实施例中，所述根据所述目标信息扩展方式，确定所述初始字段数据的扩展数据的步骤包括：

根据所述目标信息扩展方式获取所述初始字段数据的关联信息；

从所述关联信息中确定所述初始字段数据的扩展数据。

在一个实施例中，所述从待处理事件中确定初始字段数据的步骤包括：

确定待处理事件对应的数据源的目标数据解析规则；

根据所述目标数据解析规则对所述待处理事件进行解析，得到初始字段数据。

在一个实施例中，所述数据处理方法还包括：

对各数据源的数据解析规则进行热更新。

第二方面，本申请实施例提供一种数据处理装置，包括：

第一确定模块，用于从待处理事件中确定初始字段数据；

转换模块，用于确定哈希模型结构中不存在所述初始字段数据对应的扩展数据，则对所述初始字段数据进行数据转换，得到目标字段数据，所述哈希模型结构用于缓存历史字段数据对应的扩展数据；

第二确定模块，用于根据所述目标字段数据确定目标信息扩展方式；

第三确定模块，用于根据所述目标信息扩展方式，确定所述初始字段数据的扩展数据。

第三方面，本申请实施例提供一种电子设备，包括处理器和存储有计算机程序的存储器，所述处理器执行所述程序时实现第一方面或第二方面所述的数据处理方法的步骤。

第四方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质为计算机可读存储介质，包括计算机程序，所述计算机程序被处理器执行时实现第一方面或第二方面所述的数据处理方法的步骤。

本申请实施例提供的数据处理方法、装置、电子设备及计算机存储介质，在缓存历史字段数据对应的扩展数据的哈希模型结构中，不存在与从待处理事件中确定的初始字段数据对应的扩展数据时，对初始字段数据进行数据转换，根据转换得到的目标字段数据确定出目标信息扩展方式，并根据目标信息扩展方式确定出目标字段数据的扩展数据，由此可以快速完成字段的数据扩展，提高大数据实时计算数据扩展效率。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的数据处理方法的流程示意图之一；

图2是本申请实施例提供的数据处理方法的流程示意图之二；

图3是本申请实施例提供的数据处理方法的流程示意图之三；

图4是本申请实施例提供的数据处理方法的流程示意图之四；

图5是本申请实施例提供的数据处理方法的流程示意图之五；

图6是本申请数据处理装置实施例的功能模块示意图；

图7是本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

对于数据扩展的技术实现方案，目前有以下三种：

1)、专利号为：CN114461685A，专利名称为：一种灵活扩展数据库字段的方法，该专利提供了一种灵活扩展数据库字段的方法，查询语句方法与普通语句查询相同，从数据库文件中读取时，普通字段从数据库文件中读取，扩展字段从数据库文件中读取地址信息，再通过地址信息从数据缓存或大数据存储介质中，调取字段数据，实现了对普通数据大小限制的字段的有效扩展，使普通数据字段也具有了无限扩展的可能；实现数据字段灵活扩展，同时使客户能够无感进行字段数据操作。本发明所述的一种灵活扩展数据库字段的方法，扩展普通字段上限存储，从而最终达到高度有效地满足用户对业务数据的无感存取。

2)、基于FLINK的流批数据关联查询方法：采用广播表的方式，启动前预先将维表数据广播至各个节点，使用SQL方式关联计算。

3)、基于Spark的流批数据关联查询方法：先将流数据保存于数据库，再通过数据库SQL引擎进行关联计算。

但是，方案1)用于数据已保存在数据库中的数据字段扩展，对于实时动态数据，需要预先将数据保存于数据库，再做数据拓展操作。

方案2)是基于FLINK的广播表方式，其要求是不经常变化的数据维表，不能满足维表数据更新需求。

方案3)的数据需要通过清洗保存入库后，才能进行数据关联操作，其中需经过磁盘运算，在共享存储的情况下，难以保障数据能够及时入库，每秒百万级的大数据运算通常情况需1-2个小时完成数据运算，难以满足实时应用场景。

下面结合实施例对本发明提供的数据处理方法、装置、电子设备及计算机存储介质进行详细描述。

图1为本申请实施例提供的数据处理方法的流程示意图之一。参照图1，本申请实施例提供一种数据处理方法，可以包括：

步骤S100，从待处理事件中确定初始字段数据；

需要说明的是，本申请实施例提供的数据处理方法的执行主体可以是服务器、计算机设备，例如手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等。

其中，本实施例中待处理事件可以为未经过数据扩展的事件，例如通话事件、网页浏览事件等。

其中，每一待处理事件均对应有数据源，不同的待处理事件可能来源于相同或不同的数据源。例如，通话事件与网页浏览事件分别对应有不同的数据源。

初始字段数据即从待处理事件中解析出来的字段数据，用于表征待处理事件中的关键字段。

例如，对于通话事件，其对应的关键字段可以包括但不限于号码、基站编码、时间、漫游地市信息等。

需要说明的是，在确定初始字段数据后，可以确定哈希模型结构中是否存在与初始字段数据对应的扩展数据，若存在，则将与初始字段数据对应的扩展数据，从哈希模型结构中提取。

其中，哈希模型结构为预先基于数据的二级缓存机制定义的，用于缓存历史字段数据对应的扩展数据的结构。

哈希模型结构中数据的缓存方式可以为K-V即key-value结构，用于实现元素关键码与元素值的映射关系。

步骤S200，确定哈希模型结构中不存在初始字段数据对应的扩展数据，则对初始字段数据进行数据转换，得到目标字段数据，哈希模型结构用于缓存历史字段数据对应的扩展数据；

其中，扩展数据为对原始数据增补特征数据，以扩展数据字段信息而得到的数据，扩展数据可适用于精准营销或精准服务信息推送等实时场景。

例如，对于通话事件对应的字段数据，其扩展信息可以包括但不限于拓展性别、年龄、入网日期、是否常驻等数据信息。通过该数据信息可以实时进行数据过滤筛选，在不同的实时应用场景中，圈选不同的人群，实现精准信息推广，实时感知用户需求，为用户提供准确的数据服务。

目标字段数据为对初始字段数据进行数据转换得到的字段数据，其中，数据转换可以包括但不限于字段名称转换、字段编码转换、字段类型转换等。

步骤S300，根据目标字段数据确定目标信息扩展方式；

本实施例中信息扩展方式可以包括两种，其中一种可以为小数据信息扩展方式，本实施例中可以定义为第一信息扩展方式；另一种可以为大数据信息扩展方式，本实施例中可以相应定义为第二信息扩展方式。

其中，小数据与大数据是基于数据信息的量级、结构、特征进行区分的，本实施例中不对大数据与小数据进行具体数值限定。

需要说明的是，第一信息扩展方式实现基于分布式数据存储以函数反射方式实现哈希HASH查找与段式查找的适配，同时采用索引方式提升段式查找效率。

第二信息扩展方式在函数反射的基础上，增加对嵌入式数据库增强改造，基于Java NIO的通讯模式、数据分布式分片存储、异步数据装载以及内存缓存方式，提升嵌入式数据库的高并发查询计算性能，以满足实时大数据动态扩展数据信息。并基于函数定义配置方式，实现流式计算智能切换数据信息维度扩展以及支持动态增加扩展信息。

目标信息扩展方式为从第一信息扩展方式与第二信息扩展方式中确定的一种信息扩展方式，即目标字段数据可能为第一信息扩展方式，或第二信息扩展方式。

步骤S400，根据目标信息扩展方式，确定初始字段数据的扩展数据。

本实施例中可以通过目标信息扩展方式，从目标字段数据对应的初始字段数据的数据源中，获取与初始字段数据对应的关联信息，将与初始字段数据对应的关联存储至目标信息扩展方式对应的数据存储结构中。

其中，关联数据是对初始字段数据对应用户的历史数据信息进行分析得到的，用于描述该用户的用户行为的信息数据。

进一步地，根据查询规则，从目标信息扩展方式对应的数据存储结构中，查询与初始字段数据对应的数据作为初始字段数据对应的扩展数据，以根据初始字段数据及其对应的扩展数据进行实时营销或消息传播等场景应用。

本申请实施例提供的数据处理方法，在缓存历史字段数据对应的扩展数据的哈希模型结构中，不存在与从待处理事件中确定的初始字段数据对应的扩展数据时，对初始字段数据进行数据转换，根据转换得到的目标字段数据确定出目标信息扩展方式，并根据目标信息扩展方式确定出目标字段数据的扩展数据，由此可以快速完成字段的数据扩展，提高大数据实时计算数据扩展效率。

图2为本申请实施例提供的数据处理方法的流程示意图之二。参照图2，在一个实施例中，从待处理事件中确定初始字段数据的步骤包括：

步骤S101，确定待处理事件对应的数据源的目标数据解析规则；

步骤S102，根据目标数据解析规则对待处理事件进行解析，得到初始字段数据。

本申请中，每一种数据源均设置有相应的一种数据解析规则，可以预先获取并管理各数据源的数据解析规则。同时，本实施例中可以检测是否存在待处理事件，若检测到存在待处理事件，则确定待处理事件的数据源，并从各数据源对应的数据解析规则中确定出相应的数据解析规则作为目标数据解析规则。

获取并管理各数据源的数据解析规则，可以为实时处理程序如何依据数据特征，对待处理事件的数据进行解析工作提供数据基础；并可以采用关系型数据库维护与管理各数据源的数据解析规则。

进一步地，在得到目标数据解析规则后，可以通过目标数据解析规则对待处理事件进行解析，从待处理事件的各字段中确定出关键字段作为初始字段数据。

进一步地，本实施例在获取各数据源的数据解析规则后，还包括：

步骤A，对各数据源的数据解析规则进行热更新。

本实施例中，可以设计Cache对象动态从数据库取出对应的数据解析规则，同时按照模型规则变化频率设定其写入更新时间，依据写入更新时间设定主动过期机制，将过期数据逐出缓存，并重新读取最新规则数据，最终达到数据解析规则热更新的效果。

具体地，热更新的过程可通过如下步骤实现：

S1.采用哈希模型存储各数据源的编码对应的数据解析规则，以便于快速查找；

S2.重载哈希模型获取数据方法，判断对应的数据源编码是否有对应值；

S3.如对应值不存在，则通过JDBC(Java Database Connectivity，Java数据库连接)连接关系型数据库，依据数据源编码进行数据查询，将查询结果构造成对象，存入缓存结构，以数据源编码为主键，维护数据存入的时间索引队列(先进先出)，同时返回规则数据；

S4.如数据存在，则从缓存结构中，取出当前缓存值，返回规则数据；

S5.定时检测超过写入时长的数据，采用定时线程操作方式，读取数据的时间索引队列，按先进先出的方式读取判断数据是否已过期，直至未过期的元素出现即停止，并对过期数据逐出缓存以及时间索引队列。

本实施例可以根据各数据源对应的数据解析规则，快速地从待处理事件中解析出初始字段数据，以便于后续确定出初始字段数据对应的扩展数据，可以提高数据扩展的效率。

图3为本申请实施例提供的数据处理方法的流程示意图之三。参照图3，在一个实施例中，对初始字段数据进行数据转换，得到目标字段数据的步骤包括：

步骤S201，基于预设数据转换规则，对初始字段数据进行数据转换，得到目标字段数据。

在得到初始字段数据后，本实施例中可以进行输出数据模型管理，具体可以为管理每个字段的来源，其中字段的来源可以包括三种类型：字段来源于源数据、源字段加工、离线数据字段；同时定义字段的输出格式，本实施例中可以包括但不限于支持两种格式：JSON与文本格式。以及，管理字段对应的类型，支持常见类型。例如String、Integer、Long、Double、Float等，并且可以通过预设的数据转换规则对初始字段数据进行数据转换，本实施例中预设的数据转换规则可以为Aviator表达式，Aviator是一种轻量级的规则引擎，可支持自定义函数动态调用。需要说明的是，在采用Aviator表达式作为预设的数据转换规则后，在输出模型管理时，要动态定义字段，其定义可以如下表1所示：

表1

在完成初始字段数据的数据转换后，将转换得到的字段数据确定为目标字段数据。

需要说明的是，在完成数据转换后，目标字段数据中包括转换得到的函数，可以定义为目标函数，目标函数与第一信息扩展方式对应的函数或第二信息扩展方式对应的函数相同。由此，可以通过目标函数，快速从第一信息扩展方式与第二信息扩展方式中确定目标信息扩展方式，以进一步根据目标信息扩展方式快速地确定出扩展信息，可以提高数据扩展的效率。

图4为本申请实施例提供的数据处理方法的流程示意图之四。参照图4，在一个实施例中，根据目标字段数据确定目标信息扩展方式的步骤包括：

步骤S301，获取第一信息扩展方式对应的第一函数与第二信息扩展方式对应的第二函数；

步骤S302，根据目标字段数据对应的目标函数、第一函数与第二函数，从第一信息扩展方式与第二信息扩展方式中确定目标信息扩展方式。

可以理解地，在得到目标字段数据后，由于预先为第一信息扩展方式与第二信息扩展方式分别设置了一个函数，本实施例可以分别定义为第一函数与第二函数，因此可以获取第一信息扩展方式对应的第一函数，以及第二信息扩展方式对应的第二函数。

进一步地，本实施例的目标字段数据中具有转换得到的，与第一信息扩展方式对应的函数或第二信息扩展方式对应的函数相同的目标函数。因此可以通过目标函数与第一函数及第二函数的比较，从第一信息扩展方式与第二信息扩展方式中确定出目标信息扩展方式。

进一步地，根据目标字段数据对应的目标函数、第一函数与第二函数，从第一信息扩展方式与第二信息扩展方式中确定目标信息扩展方式的步骤包括：

步骤S3011，将目标函数分别与第一函数和第二函数进行比较；

步骤S3012，确定目标函数与第一函数相同，则将第一信息扩展方式确定为目标信息扩展方式；

步骤S3013，确定目标函数与第二函数相同，则将第二信息扩展方式确定为目标信息扩展方式。

本实施例中，在得到目标函数、第一函数与第二函数后，可以将目标函数分别与第一函数和第二函数进行比较，由此确定目标函数是与第一函数相同，还是与第二函数相同。

在完成比较后，若确定目标函数与第一函数相同，由于第一函数与第一信息扩展方式对应，则将与第一函数对应的第一信息扩展方式确定为目标信息扩展方式；

若确定目标函数与第二函数相同，由于第二函数与第二信息扩展方式对应，则将与第二函数对应的第二信息扩展方式确定为目标信息扩展方式。

本实施例可以根据目标字段数据确定出相应的信息扩展方式作为目标信息扩展方式，以便于后续根据目标信息扩展方式，快速、准确地确定出初始字段数据对应的扩展数据，可以提高数据扩展的速度与准确性，进而可以提高数据扩展的效率。

图5为本申请实施例提供的数据处理方法的流程示意图之五。参照图5，在一个实施例中，根据目标信息扩展方式，确定初始字段数据的扩展数据的步骤包括：

步骤S401，根据目标信息扩展方式获取初始字段数据的关联信息；

需要说明的是，本实施例中第一信息扩展方式与第二信息扩展方式，分别具有不同的数据存储方式，其中，第一信息扩展方式可以为实时流式计算预置可更新数据广播，以此保证数据元素高速关联计算。第二信息扩展方式可以为分布式SQLite数据检索。

其中，第一信息扩展方式可以依托于hdfs(Hadoop Distributed File System，Hadoop分布式文件系统)的分布式特性，将预算好的初始字段数据对应用户的前缀式结构数据、段式结构数据规整存储于hdfs，为快速识别文件数据变化，需将文件名定义为类型编码_数据版本的方式，并以txt不压缩的方式存储于hdfs。

其中，整体可更新数据广播的实现可如下所示：

S1.定义数据广播变量，实现广播变量更新且获取的函数，定义传入参数为hdfs对应的文件地址与当前版本信息；

S2.通过传入的hdfs地址，按文件修改时间，获取最新的文件名信息，截取文件名中的版本号信息；

S3.以当前保存于内存的版本号对于新文件的版本号，如相等则不需要做任何更新操作；

S4.内存版本号与hdfs新文件版本号不相等，从hdfs下载相应的数据文件，依据不同的数据结构构造不同的缓存数据对象，S1-S4整体过程利用HDFS分布式文件存储实现实时计算引擎的控制节点加载小批量数据进行广播，同时应用文件特性实现定时操作，总体实现流程如下：

S5.基于前缀匹配模式，采用哈希结构存储，将对应值构造成结构对象，通过属性名取出对应的属性值；

S6.基于段式查找模式，采用线性数组存储，同时将其对应值以哈希结构存储，采用二分算法查找数值对应的号段区间，再通过号段区间值获取相应的对象，同时可依据其属性名取出需要的属性值。

例如：在电信业务场景中，通常需要通过号段信息去增强号码的实时属性，具体实现方法可以为：

依据二分法特征，对特征维表信息预先归整，对数据进行去重操作，同时按升序的方式排序，其维表结构如下：

字段	类型
		开始号段	long
结束号段	long
		所属地市编码	string
所属省份编码	string
		所属国家编码	string
地区类型(省外、省内、国际)	string
		运营商	string
号段属性	string

构造索引结构，为加速号段的查找时间，设计分段式号段数据存储结构，对号段进行分段处理，按号码前4位分段，以开始号段记录连接串为：

1300|1400|1500|1600|1700|1800|1900|N|

二级数据索引设计：按每四位拼接|连接串的位置，截取前六位-前四位的字符串转换成整数，存放号段记录，如1300存放其后六位的号段数据信息：

[0]＝0；

[1]＝1；

[2]＝2；

....

[99]＝99。

进一步地，可以采用前六位数据标识构造对像列表，截取前6位字段串后，计算剩于字符串长度，如：为5则存放于数组列表的0位，6则存放数组列表的1位，以此类推。

依据索引映射提升二分查找速度，先采用KMP查找法定位号码前缀对应的索引号，截取号码前四位【0-3】，进行模式串查找，查找号码对应前4位的索引号；通过得到的索引号，查找索引对应的号码【4-5】位的列表索引，再将号码对应【4，5】位的数字组合成索引号，可快速取出对应的号码6位后的列表值，再通过二分查找法定位号码对应的信息。

按索引取出带有最终信息的数组进行二分查找操作，因最终的数组数据映射为0～99999或0～999999或其他，按数组进行总长度折半，取出中间值对应的End值，判断该号码后六位的值是否在当前号码的Start和End之间，如果在只命中当前记录，如果不在，判断当前End值是否小于该号码的后六位值，如果小于则将中心节往后段移，如果大于则进行后移操作,最终找到该号码所处的号段信息，取出该号码对应的特征数据信息。

第二信息扩展方式采用SQLite可支持对数据进行关联计算，同时支持大部份关系型数据库支持的SQL语句。其中，SQLite是一种文件型嵌入式数据库，其数据保存于一个文件中，通过SDK嵌入应用的方式提供数据访问，数据文件便于备份、移动，且是一个单线程写入多线程读取的应用型数据库。本实施例中使用其可高并发读取，支持count，group by等聚合方法，数据库打开后，采用内存映射的方式提升数据查询的优势，可支撑高速的单表单记录的查询，因此对SQLite进行改造，使其支持分布式查询操作。

其中，针对SQLite进行架构改造，使用DDD(领域驱动设计)分层架构模式，将只有数据库层面的SQLite改造为四层通讯模式：接口层、应用层、领域层、基础实施层。

其中，接口层主要承载处理操作请求命令的报文拆解及转发，设计通过socket接收数据请求，采用IO(Input/Output，输入/输出)多路复用的方式，运用linux的epoll提升报文接收性能，epoll是通过内核与用户空间mmap同一块内存实现的。mmap将用户空间的一块地址和内核空间的一块地址同时映射到相同的一块物理内存地址(不管是用户空间还是内核空间都是虚拟地址，最终要通过地址映射映射到物理地址)，使得这块物理内存对内核和对用户均可见，减少用户态和内核态之间的数据交换。内核可以直接看到epoll监听的句柄，效率高。在报文设计方面为防止粘包的情况，设计带标识的通讯报文机制，固定报文头为16个字节，报文头为协议版本号(short)+消息类型(byte)+状态值(byte)+消息编码(long)+报文长度(int)，消息类型分别为0心跳、1业务请求。报文长度后为报文主体内容，为缩短报文长度提高传输效率，采用固定化报文传输，序列化主体内容对象，以列表形式存储：操作类型编码(查询或统计)、表名、查询标识字段值、读取数据标识名称列表，以及过滤计算条件；采用异步线程处理，将接收到的报文信息按协议内容拆解为可执行类，通过客户端传输的序列化数据，转换成可执行类，包括以下属性：操作类型编码(查询或统计)、表名、查询标识字段值、读取数据标识名称列表，以及过滤计算条件。

应用层主要承载SQL命令转换，管理数据分片信息，缓存数据结果信息，数据结果处理。

SQL命令转换，主要是通过客户端传输的操作类型编码(查询或统计)、表名、查询标识字段值、读取数据标识名称列表，以及过滤计算条件将这些必要的输入信息转换成SQL语句，以提交至层底数据库SQL执行。

运用应用层管理数据分片信息，节点与分片关联关系。在数据分片操作方面，为保证单表数据不会过大，可充分利用多磁盘的IO读吐吞量，以及便于数据迁移、线性扩容等考虑，本实施例采用crc32算法按分片主键进行分文本存储，按256个分片为默认值，以crc32(分表键)％256取余的方式纵向切库，以保证单表数据不超过百万级，同时可利用单服务器多磁盘的优势，充分发挥磁盘IO性能，提升数据查询。以256个分片为例，若节点数为10个，则需要将256个切片均匀的分布在每一个节点上，预先给节点设定序号，从小到大，每个节点按26个分片方式依次分配，分配完成后由各节点将对应的分片区域向注册中心zookeeper进行注册，同时抽取注册中心最新的一份全量节点信息，以全相关联映射方式保存分片与节点间的关联关系，便于做节点间的数据路由；注册中心采用zookeeper，保存各节点的分片区域信息、IP、端口信息，同时监测各节点的运行状态，除此之外，提供客户端获取分片服务信息数据，以便于客户端随时调用；

缓存数据结果信息，利用ehcache中一个纯Java的进程内缓存框架，缓存从SQLite计算出来的结果数据，以减轻对磁盘IO的压力，提升数据返回速度。同时可设定缓存周期，在数据更新操作时将缓存置为无效，或缓存达到设定周期时自动销毁。

数据结果处理，将查询同来的结果数据，放入类属性，序列化类，将结果数据按约定格式返回至客户端。

领域层主要承载多类主题的模型数据管理，以实现模型的复杂计算查询，本申请可基于客户自然属性、社会属性、商业属性、行为属性进行多维查询计算，以输入的号码和过滤条件为基础，多个主题模型关联计算，判断号码是否满足过滤条件，依据查询返回要求，返回对应的数据信息，如：该号码为男性或女性、常驻地址或工作地址是否满足条件等。基于领域层的主题模型能力，可实现如位置类的基于区域级别的客流画像统计等能力需求。

基础实施层主要承载数据计算与数据存储，如：SQLite连接池的管理，通过合理数据库连接池，助力数据快速查询操作，通过减少文件打开句柄次数，减少向操作系统提交资源申请时间，从而加速数据查询加载；配置常驻取数线程池，通过异步队列消息机制，提升节点的健壮性及并行计算效率；工作线程接收到消息请求后，将请求数据装入队列，交由常驻工作线程完成数据取数操作，确保CPU能够处理每一笔查询交易；

基础实施层数据装载与更新方式，采用异步数据调度方式，定时从hadoop平台或数仓抽取标识数据信息，按CRC32分片算法，将数据落地于不同的SQLite格式文件，数据生成完成后，对其增加标识索引，以加速数据查询操作；数据生成操作完成后，通知相应工作节点进行切换更新操作，工作节点接收到数据更新后，通知应用程将缓存销毁，并采用切换文件路径的方式，重新加载数据文件，以做到无感知数据切换。

由此，可以通过作为目标信息扩展方式的第一信息扩展方式或第二信息扩展方式，从目标字段数据对应的初始字段数据的数据源中，获取与初始字段数据对应的关联信息，并将与初始字段数据对应的关联存储至相应的hdfs或SQLite中。

步骤S402，从关联信息中确定初始字段数据的扩展数据。

进一步地，在得到关联信息后，本实施例可以根据查询规则与初始字段数据，从hdfs或SQLite中查询出初始字段数据的扩展数据。具体地，若关联信息存储于hdfs，则从hdfs中查询出初始字段数据的扩展数据；若关联信息存储于SQLite，则从SQLite中查询出初始字段数据的扩展数据。

进一步地，本实施例中可以根据规则计算模板进行字段填充，依据输出字段配置的字段输出信息，按字段操作类型，依次为字段赋值。基于广播变量与SQLite检索方式的查询，采用自定义函数方式，在自定义函数中，以反射的原理实现从广播变量中获取属性值，基于SQLite服务节点定义的报文协议，构建通讯报文，接收到计算结果后，对对应字段进行赋值操作。

进一步地，本实施例中还设置有数据的二级缓存机制(也可以称为流应用数据缓存机制)，用于将查询到的扩展数据缓存至哈希模型结构中，以加速实时数据的增强效率。

具体地，数据的二级缓存机制可以包括：

定义哈希模型结构，存储标识与标识对应值，同时标识获取值的时间，维持缓存队列信息；

通过自定义函数查询对应的值时，如发现缓存的值为空，则对SQLite服务节点发起数据服务请求，请求标识对应的值，如不为空则判断缓存是否超过写入时长，如超过写入时长，则重新发起请求取最新数据，如未超过，则返回当前缓存的值，并对当前缓存的使用次数进行累加；

获取最新数据后，需重新更新缓存数据，当缓存队列超过阀值时，采用先进先出或最近最少使用的方式，将标识缓存逐出内存，以保证可持续运行；

主动清理机制，采用内部自旋线程方式，检索缓存队列中，是否有出现元素过期的情况，主动将过期的或最近最少使用的元素逐出缓存。

进一步地，本实施例在得到初始字段数据的扩展数据后，可以对得到的扩展数据进行模板化数据输出，依据模型输出配置信息定义的输出模式，如为JSON，则直接将输出对象转为JSON串，输出至应用使用，如采用txt的方式，则采用占位符方式，将对应对象信息序列化为字符串，如采用模型工具：FreeMaker。使得可以将输出的信息直接应用于精准营销或精准服务信息推送等实时场景。

本实施例中基于预设的模型规则，通过热加载方式，动态加载入实时计算进程，依据计算定义格式，采用基于适配填充算法方式，动态广播维表数据以及基于分布式多槽数据存储及查询方式，实现高并发的数据查询机制，外部辅助于实时计算实现智能高速数据扩展。

通过计算定义、实时计算与分布式数据查询，可以提高大数据实时计算数据扩展效率。其中：

计算定义：充当着的是指挥中心的角色，定义输入输出模型的计算规则、数据信息拓展规则、路由规则以及运行的必要参数配置等信息定义与管理，计算定义，掌控实时计算的过程，其中包括：输入输出模型的定义变更、计算规则变更以及拓展数据的数据来源管理与存放。

实时计算：依据定义的输入模型信息，构建实时计算执行过程，采用数据缓存设计，降低资源消耗，提高响应速度，加速数据查询处理，同时通过数据信息拓展和路由规则智能变换数据增强的方法，按数据信息的量级、结构、特征，将数据按不同的方式以及数据结构存储，采用两种数据智能扩展方式：1.小数据信息扩展，设计动态更新机制，自动感知数据信息变化，动态更新数据信息，依托于哈希算法、以及改进后的索引二分法实现高速内存填充；2.大数据信息扩展，设计分布式高速并行查询机制，采用数据槽位设计，利用CRC32算法将大数据信息分布到更多的PC机，以联机并行工作方式，实现更多更丰富更灵活的数据增强。

分布式数据查询：以提升数据的查找速度，及时响应大规模数据查询请求为目标，依托于SQLite的小巧、灵活、占用资源少等特点，采用DDD模式设计一种嵌入式数据库的数据查询通讯模式，基于Java NIO的网络模型设计、CRC(循环冗余校验)32算法分槽分片数据存储模式、数据异步动态更新加载机制、数据服务自动注册与发现机制，实现可支持高大规模数据并发的高性能查询服务。

本实施例中采用二级数据缓存设计，降低资源消耗，提高响应速度，加速数据查询处理，同时通过数据信息拓展和路由规则智能变换数据增强的方法，按数据信息的量级、结构、特征，将数据按不同的方式以及数据结构存储，采用两种数据智能扩展方式：1.小数据信息扩展，设计动态更新机制，自动感知数据信息变化，动态更新数据信息，依托于哈希算法、以及改进后的索引二分法实现高速内存填充；2.大数据信息扩展，设计分布式高速并行查询机制，采用数据槽位设计，利用CRC32算法将大数据信息分布到更多的PC机，以联机并行工作方式，实现更多更丰富更灵活的数据增强。可以同时解决数据维度过于单一，拓展速率与计算速率差异的问题。

进一步地，本申请还提供一种数据处理装置。

参照图6，图6为本申请数据处理装置实施例的功能模块示意图。

所述数据处理装置包括：

第一确定模块100，用于从待处理事件中确定初始字段数据；

转换模块200，用于确定哈希模型结构中不存在所述初始字段数据对应的扩展数据，则对所述初始字段数据进行数据转换，得到目标字段数据，所述哈希模型结构用于缓存历史字段数据对应的扩展数据；

第二确定模块300，用于根据所述目标字段数据确定目标信息扩展方式；

第三确定模块400，用于根据所述目标信息扩展方式，确定所述初始字段数据的扩展数据。

本申请实施例提供的数据处理装置，在缓存历史字段数据对应的扩展数据的哈希模型结构中，不存在与从待处理事件中确定的初始字段数据对应的扩展数据时，对初始字段数据进行数据转换，根据转换得到的目标字段数据确定出目标信息扩展方式，并根据目标信息扩展方式确定出目标字段数据的扩展数据，由此可以快速完成字段的数据扩展，提高大数据实时计算数据扩展效率。

在一个实施例中，数据处理装置还包括热更新模块(图中未示出)，所述热更新模块用于：

对各数据源的数据解析规则进行热更新。

在一个实施例中，第一确定模块100具体用于：

确定待处理事件对应的数据源的目标数据解析规则；

在一个实施例中，第二确定模块300具体用于：

在一个实施例中，第二确定模块300包括确定单元(图中未示出)，所述确定单元用于：

在一个实施例中，第三确定模块400具体用于：

从所述关联信息中确定所述初始字段数据的扩展数据。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)810、通信接口(Communication Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的计算机程序，以执行数据处理方法的步骤，例如包括：

从待处理事件中确定初始字段数据；

根据所述目标字段数据确定目标信息扩展方式；

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请实施例还提供一种计算机存储介质，所述计算机存储介质为计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行上述各实施例提供的方法的步骤，例如包括：

从待处理事件中确定初始字段数据；

根据所述目标字段数据确定目标信息扩展方式；

所述计算机可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，包括：

从待处理事件中确定初始字段数据；

根据所述目标字段数据确定目标信息扩展方式；

2.根据权利要求1所述的数据处理方法，其特征在于，信息扩展方式包括第一信息扩展方式与第二信息扩展方式，所述根据所述目标字段数据确定目标信息扩展方式的步骤包括：

3.根据权利要求2所述的数据处理方法，其特征在于，所述根据所述目标字段数据对应的目标函数、所述第一函数与所述第二函数，从所述第一信息扩展方式与所述第二信息扩展方式中确定目标信息扩展方式的步骤包括：

4.根据权利要求2所述的数据处理方法，其特征在于，所述第一信息扩展方式基于分布式数据存储，以函数反射方式实现哈希查找与段式查找的适配，同时采用索引方式进行段式查找；所述第二信息扩展方式在函数反射方式基础上，基于NIO的通讯模式、数据分布式分片存储、异步数据装载以及内存缓存方式进行数据查找，并设置有基于函数定义配置方式。

5.根据权利要求1所述的数据处理方法，其特征在于，所述根据所述目标信息扩展方式，确定所述初始字段数据的扩展数据的步骤包括：

从所述关联信息中确定所述初始字段数据的扩展数据。

6.根据权利要求1所述的数据处理方法，其特征在于，所述从待处理事件中确定初始字段数据的步骤包括：

确定待处理事件对应的数据源的目标数据解析规则；

7.根据权利要求1所述的数据处理方法，其特征在于，所述数据处理方法还包括：

对各数据源的数据解析规则进行热更新。

8.一种数据处理装置，其特征在于，包括：

第一确定模块，用于从待处理事件中确定初始字段数据；

9.一种电子设备，包括处理器和存储有计算机程序的存储器，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的数据处理方法的步骤。

10.一种计算机存储介质，所述计算机存储介质为计算机可读存储介质，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的数据处理方法的步骤。