CN110442844A

CN110442844A - 数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN110442844A
Application number: CN201910594685.XA
Authority: CN
Inventors: 陈杨; 徐�明; 赵健博
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2019-11-12
Anticipated expiration: 2039-07-03
Also published as: CN110442844B

Abstract

本公开示出了一种数据处理方法、装置、电子设备及存储介质，首先从待处理字符串中过滤出编码词典中不存在的待编码字符串，然后按照待编码字符串的排列次序，在当前编码最大值基础上以等差递增的方式对各个待编码字符串依次进行编码，并将完成编码的待编码字符串以及对应的编码添加至编码词典中。本公开技术方案可以快速、精确地将业务数据中的标识字符串数据生成编码，减少内存占用量，适用于海量数据转换与分析的场景；并且由于编码词典中已编码字符串与编码的一一对应关系，因此支持字符串数据和编码之间的双向解析。

Description

数据处理方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

位图(bitmap)索引广泛应用于数据库系统中，它可以极大地提高数据查询速度；随着大数据的发展，bitmap技术逐渐应用于大数据分析场景中，如用户留存分析、用户分群等。

传统的数据库系统只能针对数据类型为整型的数据建立bitmap索引，如“表的行号”，无法支持字符串类型的数据。在一些大数据分析系统中，可以利用字典树对字符串数据进行单向编码，实现将字符串映射为一个整型数据，但是此种方法存在以下不足：无法从整型反解得到原始字符串，并且在对字符串数据进行编码转换的过程中需要load整棵树，占用内存较大，不适用于海量数据转换与分析的场景。

发明内容

本公开提供一种数据处理方法、装置、电子设备及存储介质，以至少解决相关技术中无法进行双向解析以及占用较大内存的的问题。本公开的技术方案如下：

根据本公开的第一方面，提供一种数据处理方法，所述方法包括：

接收待处理字符串，所述待处理字符串为业务数据中的标识信息；

从所述待处理字符串中过滤出编码词典中不存在的字符串，得到待编码字符串，其中，所述编码词典中包括已编码字符串与编码的一一对应关系，所述编码词典中的当前编码最大值为第一参数值；

按照所述待编码字符串的排序，在所述第一参数值的基础上以等差递增的方式，对各所述待编码字符串依次进行编码，并将完成编码的待编码字符串以及对应的编码添加至所述编码词典。

在一种可选地实现方式中，所述接收待处理字符串的步骤，包括：

接收原始宽表，提取所述原始宽表中的标识字符串为待处理字符串；

在按照所述待编码字符串的排序，在所述第一参数值的基础上以等差递增的方式，对各所述待编码字符串依次进行编码的步骤之后，还包括：

根据所述编码词典，将所述原始宽表中的标识字符串转换为对应的编码，生成中间宽表；

根据所述中间宽表，生成位图。

在一种可选地实现方式中，所述根据所述编码词典，将所述原始宽表中的标识字符串转换为对应的编码的步骤，包括：

自上一批归档数据保存完成之后间隔第一预设时长或每完成预设数量个编码时，将所述编码词典中的已编码字符串与编码的一一对应关系保存为归档数据，所述归档数据的格式为键值对格式；

利用mapreduce对所述待处理字符串与所述归档数据进行连接，将所述原始宽表中的标识字符串转换为对应的编码。

在一种可选地实现方式中，在从所述待处理字符串中过滤出编码词典中不存在的字符串的步骤之前，还包括：

判断上一批待编码字符串是否已完成编码；

读取所述编码词典的第二参数值，所述第二参数值为所述编码词典中的实时编码最大值；

所述从所述待处理字符串中过滤出编码词典中不存在的字符串的步骤，包括：

当上一批待编码字符串已完成编码，且当所述第一参数值与所述第二参数值相等时，从所述待处理字符串中过滤出编码词典中不存在的字符串；

在所述按照所述待编码字符串的排序，在所述第一参数值的基础上以等差递增的方式，对各所述待编码字符串依次进行编码的步骤之前，还包括：

将所述第一参数值与所述待编码字符串的数量之和，确定为更新后的第二参数值；

在所述按照所述待编码字符串的排序，在所述第一参数值的基础上以等差递增的方式，对各所述待编码字符串依次进行编码的步骤之后，还包括：

将所述第一参数设置为更新后的第二参数值。

在一种可选地实现方式中，所述方法还包括：

当上一批待编码字符串已完成编码，且当所述第一参数值与所述第二参数值不相等时，从所述编码词典中查询出编码在所述第一参数值和所述第二参数值之间的异常对应关系；

在所述编码词典中删除所述异常对应关系，以使所述第一参数值和所述第二参数值相等。

在一种可选地实现方式中，所述方法还包括：

当上一批待编码字符串未完成编码时，间隔第二预设时长后，重复执行所述判断上一批待编码字符串是否已完成编码的步骤，直到判断结果为上一批待编码字符串已完成编码。

在一种可选地实现方式中，所述方法还包括：

获取待解析数据；

当所述待解析数据的格式为字符串时，查询所述编码词典，获得所述待解析数据对应的编码；当所述待解析数据的格式为整型时，查询所述编码词典，获得所述待解析数据对应的字符串。

在一种可选地实现方式中，在所述获得所述待解析数据对应的编码或字符串的步骤之后，还包括：

过滤掉所述编码词典中编码大于所述第一参数值的对应关系。

根据本公开的第二方面，提供一种数据处理装置，所述装置包括：

接收模块，被配置为接收待处理字符串，所述待处理字符串为业务数据中的标识信息；

第一过滤模块，被配置为从所述待处理字符串中过滤出编码词典中不存在的字符串，得到待编码字符串，其中，所述编码词典中包括已编码字符串与编码的一一对应关系，所述编码词典中的当前编码最大值为第一参数值；

编码模块，被配置为按照所述待编码字符串的排序，在所述第一参数值的基础上以等差递增的方式，对各所述待编码字符串依次进行编码，并将完成编码的待编码字符串以及对应的编码添加至所述编码词典。

在一种可选地实现方式中，所述接收模块还被配置为：

所述装置还包括：

转换模块，被配置为在调用所述编码模块之后，根据所述编码词典，将所述原始宽表中的标识字符串转换为对应的编码，生成中间宽表；

生成模块，被配置为根据所述中间宽表，生成位图。

在一种可选地实现方式中，所述转换模块还被配置为：

在一种可选地实现方式中，所述装置还包括：

判断模块，被配置为判断上一批待编码字符串是否已完成编码；

读取模块，被配置为读取所述编码词典的第二参数值，所述第二参数值为所述编码词典中的实时编码最大值；

所述第一过滤模块还被配置为：当上一批待编码字符串已完成编码，且当所述第一参数值与所述第二参数值相等时，从所述待处理字符串中过滤出编码词典中不存在的字符串；

所述装置还包括：

第一设置模块，被配置为在调用所述编码模块之前，将所述第一参数值与所述待编码字符串的数量之和，确定为更新后的第二参数值；

第二设置模块，被配置为在调用所述编码模块之后，将所述第一参数设置为更新后的第二参数值。

在一种可选地实现方式中，所述装置还包括：

查询模块，被配置为当上一批待编码字符串已完成编码，且当所述第一参数值与所述第二参数值不相等时，从所述编码词典中查询出编码在所述第一参数值和所述第二参数值之间的异常对应关系；

删除模块，被配置为在所述编码词典中删除所述异常对应关系，以使所述第一参数值和所述第二参数值相等。

在一种可选地实现方式中，所述装置还包括：

循环模块，被配置为当上一批待编码字符串未完成编码时，间隔第二预设时长后，重复调用所述判断模块，直到所述判断模块的判断结果为上一批待编码字符串已完成编码。

在一种可选地实现方式中，所述装置还包括：

获取模块，被配置为获取待解析数据；

解析模块，被配置为当所述待解析数据的格式为字符串时，查询所述编码词典，获得所述待解析数据对应的编码；当所述待解析数据的格式为整型时，查询所述编码词典，获得所述待解析数据对应的字符串。

在一种可选地实现方式中，所述装置还包括：

第二过滤模块，被配置为过滤掉所述编码词典中编码大于所述第一参数值的对应关系。

根据本公开的第三方面，提供一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的数据处理方法。

根据本公开的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如第一方面所述的数据处理方法。

根据本公开的第五方面，提供一种计算机程序产品，当所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如第一方面所述的数据处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开技术方案，首先从待处理字符串中过滤出编码词典中不存在的待编码字符串，然后按照待编码字符串的排列次序，在当前编码最大值基础上以等差递增的方式对各个待编码字符串依次进行编码，并将完成编码的待编码字符串以及对应的编码添加至编码词典中。本公开技术方案与采用字典树进行编码的方式相比，可以快速、精确地将业务数据中的标识字符串数据生成编码，减少内存占用量，适用于海量数据转换与分析的场景；并且由于编码词典中已编码字符串与编码的一一对应关系，因此支持字符串数据和编码之间的双向解析。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的第一种数据处理方法的流程图。

图2是根据一示例性实施例示出的第二种数据处理方法的流程图。

图3是根据一示例性实施例示出的第三种数据处理方法的流程图。

图4是根据一示例性实施例示出的第四种数据处理方法的流程图。

图5是根据一示例性实施例示出的一种原始宽表转换为bitmap的流程示意图。

图6是根据一示例性实施例示出的第一种数据处理装置的框图。

图7是根据一示例性实施例示出的第二种数据处理装置的框图。

图8是根据一示例性实施例示出的一种电子设备的框图。

图9是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种数据处理方法的流程图，如图1所示，该方法包括以下步骤。

在步骤S11中，接收待处理字符串，待处理字符串为业务数据中的标识信息。

其中，待处理字符串可以为业务数据中的标识信息(identificationinformation)，如用户ID、设备ID等标识信息。

在实际应用中，待处理字符串例如可以为原始宽表中的标识字符串，在位图索引转换中，需要首先将标识字符串转换为编码，得到中间宽表，然后再根据中间宽表生成位图索引。

在步骤S12中，从待处理字符串中过滤出编码词典中不存在的字符串，得到待编码字符串，其中，编码词典中包括已编码字符串与编码的一一对应关系，编码词典中的当前编码最大值为第一参数值。

具体地，待处理字符串中可以包括编码词典中不存在的待编码字符串，还可以包括编码词典中已存在的已编码字符串等。为了确保编码词典中字符串与编码的一一对应关系，避免对已编码字符串进行重复编码，因此需要从待处理字符串中确定出编码词典中不存在的待编码字符串，再对待编码字符串进行编码操作。

其中，编码可以为整型数据。第一参数值max表示编码字典中当前的最大编码值，即已编码字符串对应编码的最大值。

在步骤S13中，按照待编码字符串的排序，在第一参数值的基础上以等差递增的方式，对各待编码字符串依次进行编码，并将完成编码的待编码字符串以及对应的编码添加至编码词典。

具体地，假设编码词典中已编码字符串(101个)的编码分别为0,1,2，……100，相邻编码之差为1，第一参数值为100。假设待编码字符串按照接收先后顺序进行如下排序：adfg，sdgdfg，klhuikh，oiuetierut，xznbkf。这种情况下，在第一参数值100的基础上以等差递增(逐一递增)的方式对5个待编码字符串分别进行如下编码：adfg→101，sdgdfg→102，klhuikh→103，oiuetierut→104，xznbkf→105。

完成编码后，可以将完成编码的待编码字符串与编码的一一对应关系逐条添加至编码词典的第一映射表和第二映射表中。如表1所示，第一映射表包括已编码字符串到编码的映射关系，可以命名为EntityToIndex_xxx(xxx可以为编码字典名称，如rowKey)；如表2所示，第二映射表包括编码到已编码字符串的映射关系，可以命名为IndexToEntity_xxx(xxx可以为编码字典名称，如rowKey)。

表1第一映射表(字符串数据到编码映射表)

列名	类型	说明
			rowKey	字符串	字符串数据
Index	long	字符串数据对应的编码

表2第二映射表(编码到字符串数据映射表)

列名	类型	说明
			rowKey	long	编码
entity	String	编码对应的字符串数据

本实施例提供的数据处理方法，首先从待处理字符串中过滤出编码词典中不存在的待编码字符串，然后按照待编码字符串的排列次序，在当前编码最大值基础上以等差递增的方式对各个待编码字符串依次进行编码，并将完成编码的待编码字符串以及对应的编码添加至编码词典中。本公开技术方案与采用字典树进行编码的方式相比，可以快速、精确地将业务数据中的标识字符串数据生成编码，减少内存占用量，适用于海量数据转换与分析的场景；并且由于编码词典中已编码字符串与编码的一一对应关系，因此支持字符串数据和编码之间的双向解析。

图2是根据另一示例性实施例示出的一种数据处理方法的流程图，如图2所示，该方法包括以下步骤。

在步骤S21中，接收原始宽表，提取原始宽表中的标识字符串为待处理字符串。

具体地，原始宽表可以如表4所示，在实际应用中需要将这张宽表的各个维度(如city等)针对标识deviceId转换为多个bitmap。例如:可以定义编码映射为Androd_sfdse2234→0,Androd_sfdse2345→1,A12bef09876578aa→2，那么city＝bj的bitmap就是[1,0,1]，表示编码为0和2的device Id属于北京，编码为1的device Id不属于北京。

表4包含有标识字符串的原始宽表

Device Id	city	sex	interest	follower
					Androd_sfdse2234	bj	f	Football	1w
Androd_sfdse2345	sh	m	basketball	1.5w
					A12bef09876578aa	bj	f		3w

在实际应用中，当原始宽表中的行数较少时，可以通过自定义的方式建立每个DeviceId的编码映射关系，然而实际的原始宽表可能有100亿行，如何将这些海量字符串进行编码或编码转换是本实施例主要解决的技术问题。

在步骤S22中，从待处理字符串中过滤出编码词典中不存在的字符串，得到待编码字符串，其中，编码词典中包括已编码字符串与编码的一一对应关系，编码词典中的当前编码最大值为第一参数值。

在步骤S23中，按照待编码字符串的排序，在第一参数值的基础上以等差递增的方式，对各待编码字符串依次进行编码，并将完成编码的待编码字符串以及对应的编码添加至编码词典。

本实施例中步骤S22～步骤S23与前述实施例中的步骤S12～步骤S13相同或相似，在此不再赘述。本实施例重点说明与前述实施例的不同之处。

在步骤S24中，根据编码词典，将原始宽表中的标识字符串转换为对应的编码，生成中间宽表。

一种实现方式中，该步骤具体可以包括：自上一批归档数据保存完成之后间隔第一预设时长或每完成预设数量个编码时，将编码词典中的已编码字符串与编码的一一对应关系保存为归档数据，归档数据的格式为键值对格式；然后利用mapreduce对待处理字符串与归档数据进行连接，将原始宽表中的标识字符串转换为对应的编码。

具体地，可以自上一批归档数据保存完成之后间隔第一预设时长(如1天)的时间，或者每完成预设数量(如30万)个编码时，将编码词典中已编码字符串与编码的一一对应关系保存成为归档数据，归档数据的格式为[entity,index]key-Value对。本实施例中，编码词典中的第一映射表和第二映射表可以采用但不限于hbase系统存储，归档数据可以采用但不限于hdfs系统存储。其中，第一预设时长或预设数量均可以根据实际情况设定，本实施例对其具体数值不做限定。

通过将编码词典中的数据保存为键值对格式的归档数据，由于键值对直接存储在磁盘中，后续可以采用归档数据进行已编码字符串的转换，从而提高转换效率。

在实际应用中，可以利用mapreduce对待处理字符串与归档数据进行连接join，获得待处理字符串中已编码字符串的编码；然后对没有join到的待处理字符串即待编码字符串(如每天的增量device Id)进行编码，从而对增量部分字符串产生新的编码。

在实际应用中，也可以通过解析的方式获得已编码字符串的编码，但由于解析过程中请求量很大，获取效率较低，采用mapreduce的方式可以提高获取效率。

将原始宽表中的标识字符串转换为对应的编码后，可以输出用编码代替原始宽表中字符串的中间宽表，即一张rowKey类型为整型的宽表。

在步骤S25中，根据中间宽表，生成位图。

具体地，可以采用多种实现方式将中间宽表转换为位图bitmap，本实施例对具体转换方式不作限定。参照图5，示出了本实施例提供的一种原始宽表转换为bitmap的流程示意图。

本实施例提供的将原始宽表转换为bitmap的步骤，利用mapreduce对待处理字符串与归档数据进行连接join，即通过归档机制、mr join机制实现字符串快速转换和高吞吐，能够快速、精确地将海量字符串数据生成bitmap编码。在将海量字符串数据转换为bitmap场景下，快速、精确地将字符串数据编码为整型，并支持字符串原始数据和整型编码之间的双向解析，利用已有编码和产生新编码的机制快速地将海量数据转换为bitmp。

图3是根据另一示例性实施例示出的一种数据处理方法的流程图，如图3所示，该方法包括以下步骤。

在步骤S30中，接收待处理字符串，待处理字符串为业务数据中的标识信息。

本实施例中步骤S30与上一实施例中的步骤S11相同或相似，在此不再赘述。本实施例重点说明与上一实施例的不同之处。

在步骤S31中，判断上一批待编码字符串是否已完成编码。

具体地，本步骤的目的是判断当前系统是否正在进行编码。本步骤的具体实现方式有多种，例如当上一批待编码字符串已完成编码可以返回状态值0，当上一批待编码字符串未完成编码(即系统正处在编码状态)可以返回状态值1，本实施例对本步骤的具体实现方式不做限定。

在步骤S32中，读取编码词典的第二参数值，第二参数值为编码词典中的实时编码最大值。

具体地，第二参数值nextMax表示编码词典中的实时编码最大值，当上一批次编码顺利完成时，第二参数值应该与第一参数值相等。

第二参数值nextMax以及第一参数值max等参量可以存储在编码词典的meta表中，如表3所示。其中，rowKey可以表示编码词典的名称，throttle表示预设数量的数值，即每完成throttle数量个编码就将编码词典数据保存为归档数据。

表3 Meta表(Entity Index Map Meta)

列名	类型	说明
			rowKey	string	编码字典名称，表示一类编码，如device_id
max	long	表示该编码字典当前的最大编码值
			nextMax	long	表示该编码字典下一批编码产生后，将会达到的最大编码值
throttle	long	表示当有throttle个编码没有归档时，发起归档
			path	long	表示归档目录

在步骤S33中，当上一批待编码字符串已完成编码，且当第一参数值与第二参数值相等时，从待处理字符串中过滤出编码词典中不存在的字符串，得到待编码字符串。

具体地，通过限定上一批待编码字符串已完成编码(即系统没有处在编码状态)，可以避免上一批待编码字符串与当前批次的待编码字符串之间发生编码混乱，确保编码的一致性和准确性。进一步限定第一参数值与第二参数值相等，可以避免上一次待编码字符串在编码过程中发生宕机，重启进入时虽然系统没有处在编码状态，但上一批待编码字符串没有完成编码的情况出现，进一步确保编码的一致性和准确性。

因此，当上一批待编码字符串已完成编码(如状态值为0)，且当第一参数值与第二参数值相等时，从待处理字符串中过滤出编码词典中不存在的字符串。从待处理字符串中过滤出编码词典中不存在的字符串的步骤与上一实施例中的步骤12相同或相似，在此不再赘述。本实施例重点说明与上一实施例的不同之处。

在步骤S34中，将第一参数值与待编码字符串的数量之和，确定为更新后的第二参数值。

具体地，将第二参数值更新为当前批次的待编码字符串完成编码后，编码词典中将会达到的最大编码值(实时编码最大值)，即将第一参数值(如max＝100)与待编码字符串的数量(如n＝5)之和，确定为更新后的第二参数值(如nextMax＝max+n＝105)。

在步骤S35中，按照待编码字符串的排序，在第一参数值的基础上以等差递增的方式，对各待编码字符串依次进行编码，并将完成编码的待编码字符串以及对应的编码添加至编码词典。

本实施例中步骤S35与上一实施例中的步骤S13相同或相似，在此不再赘述。本实施例重点说明与上一实施例的不同之处。

在步骤S36中，将第一参数值设置为更新后的第二参数值。

具体地，设置第一参数值max为更新后的第二参数值，即设置max＝nextmax＝105。

本实施例通过限定当上一批待编码字符串已完成编码，且第一参数值与第二参数值相等时，再进行后续确定待编码字符串和编码的操作，可以确保编码的一致性和准确性。

在实际应用中，本实施例提供的数据处理方法还可以包括：

在步骤S37中，当上一批待编码字符串已完成编码，且当第一参数值与第二参数值不相等时，从编码词典中查询出编码在第一参数值和第二参数值之间的异常对应关系。

具体地，可以从第二映射表indexToEntity_xxx中读取编码在(第一参数值max，第二参数值nextMax]区间范围内的编码index以及对应的字符串entity作为异常对应关系。

在步骤S38中，在编码词典中删除异常对应关系，以使第一参数值和第二参数值相等。

具体地，可以分别在第一映射表entityToIndex_xxx以及第二映射表indexToEntity_xxx中删除异常对应关系，并将第二参数值设置为第一参数值即nextMax＝max，使得第一参数值和第二参数值相等。

这样，当第一参数值与第二参数值不相等时，说明上一批次待编码字符串在编码过程发生异常，通过发起回滚操作，查询并删除异常对应关系，从而恢复数据一致性，确保编码词典数据准确无误。

在实际应用中，本实施例提供的数据处理方法还可以包括：

在步骤S39中，当上一批待编码字符串未完成编码时，间隔第二预设时长后，重复执行判断上一批待编码字符串是否已完成编码的步骤，直到判断结果为上一批待编码字符串已完成编码。

其中，第二预设时长可以根据实际情况设定。当判定上一批待编码字符串编码未完成时，等待第二预设时长重新判断，直到判断结果为上一批待编码字符串完成编码，然后进行当前批次待编码字符串的编码操作，从而确保编码的一致性和准确性。

在上述各实施例提供的数据处理方法基础上，参照图4，该方法还可以包括：

在步骤S41中，获取待解析数据。

具体地，待解析数据可以为字符串类型或整型数据。

在步骤S42中，当待解析数据的格式为字符串时，查询编码词典，获得待解析数据对应的编码；当待解析数据的格式为整型时，查询编码词典，获得待解析数据对应的字符串。

具体地，当待解析数据的格式为字符串时，可以查询第一映射表entityToIndex_xxx,获得与字符串对应的编码，实现数据解析过程；当待解析数据的格式为整型时，可以查询第二映射表indexToEntity_xxx,获得与编码对应的字符串，实现数据反解析过程。这样，通过编码词典可以实现低时延、高吞吐的编码数据解析和反解析能力。

为了进一步确保编码词典数据的一致性和准确性，参照图4，该方法还可以包括：

在步骤S43中，过滤掉编码词典中编码大于第一参数值的对应关系。

具体地，在进行解析的同时，可以删掉第一映射表中编码index大于第一参数值的映射关系；在进行反解析的同时，可以删掉第二映射表中编码index大于第一参数值的映射关系。

本实施例提供了利用编码词典进行双向解析的步骤，实现低时延、高吞吐的编码数据解析和反解析能力。通过过滤掉编码大于第一参数值的映射，确保编码的一致性和准确性。与采用字典树的编码方式相比，本实施例提供的解析过程无需load整棵树，因此可以降低内存，更适合海量数据转换与分析的场景。

图6是根据一示例性实施例示出的一种数据处理装置框图。参照图6，该装置包括：

接收模块61，被配置为接收待处理字符串，所述待处理字符串为业务数据中的标识信息；

第一过滤模块62，被配置为从所述待处理字符串中过滤出编码词典中不存在的字符串，得到待编码字符串，其中，所述编码词典中包括已编码字符串与编码的一一对应关系，所述编码词典中的当前编码最大值为第一参数值；

编码模块63，被配置为按照所述待编码字符串的排序，在所述第一参数值的基础上以等差递增的方式，对各所述待编码字符串依次进行编码，并将完成编码的待编码字符串以及对应的编码添加至所述编码词典。

在一种可选地实现方式中，所述接收模块61还被配置为：

所述装置还包括：

生成模块，被配置为根据所述中间宽表，生成位图。

在一种可选地实现方式中，所述转换模块64还被配置为：

在一种可选地实现方式中，所述装置还包括：

所述第一过滤模块62还被配置为：当上一批待编码字符串已完成编码，且当所述第一参数值与所述第二参数值相等时，从所述待处理字符串中过滤出编码词典中不存在的字符串；

所述装置还包括：

第一设置模块，被配置为在调用所述编码模块63之前，将所述第一参数值与所述待编码字符串的数量之和，确定为更新后的第二参数值；

第二设置模块，被配置为在调用所述编码模块63之后，将所述第一参数设置为更新后的第二参数值。

在一种可选地实现方式中，所述装置还包括：

获取模块，被配置为获取待解析数据；

在一种可选地实现方式中，所述装置还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种数据处理装置框图。参照图7，该装置包括：

数据模块，被配置为存储编码归档数据和原始字符串数据；

mr计算模块，被配置为对编码归档数据和原始字符串数据按照device Id做join，并请求编码服务模块产生新的编码；

客户端，被配置为请求编码服务模块解析或反解析编码；

编码服务模块，包含两种角色master和slave，用zk管理。其中，master是单实例，被配置为产生编码和归档编码；slave是多实例，被配置为解析和反解析编码；当maser挂了之后，slave可以升级为master。

本实施例提供的数据处理装置，设计了编码服务的主从架构模型，包括主节点的职能和从节点的职能，是实现稳定、高可用、搞吞吐、低时延的服务基础。

图8是本公开示出的一种电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成任一实施例所述的数据处理方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行任一实施例所述的数据处理方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成任一实施例所述的数据处理方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括可读性程序代码，该可读性程序代码可由装置800的处理器820执行以完成任一实施例所述的数据处理方法。可选地，该程序代码可以存储在装置800的存储介质中，该存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图9是本公开示出的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。

参照图9，电子设备1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行任一实施例所述的数据处理方法。

电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理，一个有线或无线网络接口1950被配置为将电子设备1900连接到网络，和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

A1、一种数据处理方法，所述方法包括：

A2、根据A1所述的数据处理方法，所述接收待处理字符串的步骤，包括：

根据所述中间宽表，生成位图。

A3、根据A2所述的数据处理方法，所述根据所述编码词典，将所述原始宽表中的标识字符串转换为对应的编码的步骤，包括：

A4、根据A1所述的数据处理方法，在从所述待处理字符串中过滤出编码词典中不存在的字符串的步骤之前，还包括：

判断上一批待编码字符串是否已完成编码；

将所述第一参数设置为更新后的第二参数值。

A5、根据A4所述的数据处理方法，所述方法还包括：

A6、根据A4所述的数据处理方法，所述方法还包括：

A7、根据A1至A6任一项所述的数据处理方法，所述方法还包括：

获取待解析数据；

A8、根据A7所述的数据处理方法，在所述获得所述待解析数据对应的编码或字符串的步骤之后，还包括：

A9、一种数据处理装置，所述装置包括：

A10、根据A9所述的数据处理装置，所述接收模块还被配置为：

所述装置还包括：

生成模块，被配置为根据所述中间宽表，生成位图。

A11、根据A10所述的数据处理装置，所述转换模块还被配置为：

A12、根据A9所述的数据处理装置，所述装置还包括：

所述装置还包括：

A13、根据A12所述的数据处理装置，所述装置还包括：

A14、根据A12所述的数据处理装置，所述装置还包括：

A15、根据A9至A14任一项所述的数据处理装置，所述装置还包括：

获取模块，被配置为获取待解析数据；

A16、根据A15所述的数据处理装置，所述装置还包括：

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的数据处理方法，其特征在于，所述接收待处理字符串的步骤，包括：

根据所述中间宽表，生成位图。

3.根据权利要求2所述的数据处理方法，其特征在于，所述根据所述编码词典，将所述原始宽表中的标识字符串转换为对应的编码的步骤，包括：

4.根据权利要求1所述的数据处理方法，其特征在于，在从所述待处理字符串中过滤出编码词典中不存在的字符串的步骤之前，还包括：

判断上一批待编码字符串是否已完成编码；

将所述第一参数设置为更新后的第二参数值。

5.根据权利要求4所述的数据处理方法，其特征在于，所述方法还包括：

6.根据权利要求4所述的数据处理方法，其特征在于，所述方法还包括：

7.根据权利要求1至6任一项所述的数据处理方法，其特征在于，所述方法还包括：

获取待解析数据；

8.一种数据处理装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的数据处理方法。

10.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至7中任一项所述的数据处理方法。