CN110895582A

CN110895582A - 一种数据处理的方法和设备

Info

Publication number: CN110895582A
Application number: CN201811064466.2A
Authority: CN
Inventors: 赵未; 陈彦宇; 马雅奇; 黎清顾; 叶文杰; 谭泽汉; 高晓东; 刘欢; 郭耀展; 韩璐瑶
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2018-09-12
Filing date: 2018-09-12
Publication date: 2020-03-20

Abstract

本发明公开了一种数据处理的方法和设备，用以解决现有技术中存在的对半结构化数据进行分析时操作繁琐的问题。本发明实施例服务器确定接收到的字符串对应的字段集合，如果该字段集合中存在没有对应字段值的字段名，则该服务器将预设的值与没有对应字段值的字段名进行绑定，其中不同字符串对应的字段集合中的字段名相同，并且字段集合包括每个字符串中的字段名，并且字段集合中的字段名对应的字段值为字段集合对应的字符串中相同的字段名对应的字段值。由于不同字符串对应的字段集合中的字段值相同，并且字段集合中的每个字段名对应一个字段值，所以服务器将接收到的字符串转化为结构化数据，从而进行数据分析时操作简便，提高数据分析效率。

Description

一种数据处理的方法和设备

技术领域

本发明涉及数据处理领域，特别涉及一种数据处理的方法和设备。

背景技术

随着互联网的发展，数据量变得越来越多，数据类型也变得越来越多样化。计算机信息化系统中的数据分为结构化数据、半结构化数据和非结构化数据。

其中，结构化数据是指可以使用关系型数据库表示和存储，表现为二维形式的数据，一般特点为：数据以行为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的；

半结构化数据是结构化数据的一种形式，它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构，但包含相关标记，用来分隔语义元素以及对记录和字段进行分层，也称为子描述的结构；

非结构化数据是指没有固定结构的数据，一般直接整体进行存储，而且一般存储为二进制的数据格式。

目前半结构化数据在所有数据里所占的比例越来越大，对半结构化数据存储时是对数据打包存储，对数据进行分析或查找的时候再对数据包进行解压，该方法对半结构化数据进行分析时操作繁琐。

发明内容

本发明提供一种数据处理的方法和设备，用以解决现有技术中存在的对半结构化数据进行分析时操作繁琐的问题。

第一方面，本发明实施例提供的一种数据处理的方法，包括：

服务器确定接收到的字符串对应的字段集合，其中不同字符串对应的字段集合中的字段名相同，且所述字段集合包括每个字符串中的字段名，且所述字段集合中字段名对应的字段值为所述字段集合对应的所述字符串中相同的字段名对应的字段值；

若所述字段集合中存在没有对应字段值的字段名，则所述服务器将预设的值与所述没有对应字段值的字段名进行绑定。

上述方法，由于服务器确定接收到的字符串的字段集合，并且不同字符串对应的字段集合中的字段值相同，并且该字段集合包括每个字符串中的字段名，并且该字段集合中的字段名对应的字段值为该字段集合对应的字符串中相同的字段名对应的字段值，并且将预设的值与该字段集合中没有对应字段值的字段名进行绑定，所以服务器将接收到的字符串转化为结构化数据，根据结构化数据本身的特性，从而对数据进行分析时操作简便，能够提高数据分析效率。

在一种可能的实现方式中，所述服务器确定接收到的字符串对应的字段集合之前，还包括：

所述服务器确定所述接收到的所述字符串的形式为所述服务器定义的形式。

上述方法，由于服务器无法对自身未定义的形式的字符串进行转换，所以服务器在对接收到的字符串进行转换之前，需要确定接收到的字符串的形式与该服务器定义的形式相同，从而保证数据转换的可靠性。

在一种可能的实现方式中，所述服务器确定接收到的字符串对应的字段集合，包括：

所述服务器将所述接收到的所有字符串中的字段名进行去重处理，得到所述字段集合中的字段名；

针对任意一个字符串，所述服务器将所述字符串中的字段值与所述字段集合中的相同的字段名进行绑定，得到所述字段集合中的字段值。

上述方法，给出了服务器确定接收到的字符串对应的字段集合的方式，服务器首先确定字段集合中的字段名，再确定字段集合中的字段值，从而使转换后的数据为结构化数据。

在一种可能的实现方式中，所述服务器将所述接收到的所有字符串中的字段名进行去重处理，包括：

所述服务器将所述接收到的所有字符串中的字段名放入hashset(哈希集)中进行去重处理。

上述方法，给出了服务器将接收到的所有字符串中的字段名进行去重处理的具体方式，即通过hashset对所有字符串中的字段名进行去重处理，根据hashset的特性，从而使去重速度更快，提高数据处理的速度。

在一种可能的实现方式中，所述服务器将所述字符串中的字段值与所述字段集合中的相同的字段名进行绑定，包括：

所述服务器通过hashmap(哈希图)对所述字符串中的字段名对应的字段值进行查找后，将通过所述字段名查找到的字段值与所述字段集合中的相同的字段名进行绑定。

上述方法，给出了服务器将字符串中的字段名与该字段集合中的相同的字段名进行绑定的具体方式，即通过hashmap对字段名对应的字段值进行查找，将查找到的字段值与该字段集合中的相同的字段名进行绑定，根据hashmap自身的特性，从而使查找速度更快，提高数据处理的速度。

第二方面，本发明实施例提供的一种数据处理的设备，该设备包括：至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行下列过程：

确定接收到的字符串对应的字段集合，其中不同字符串对应的字段集合中的字段名相同，且所述字段集合包括每个字符串中的字段名，且所述字段集合中字段名对应的字段值为所述字段集合对应的所述字符串中相同的字段名对应的字段值；

若所述字段集合中存在没有对应字段值的字段名，则将预设的值与所述没有对应字段值的字段名进行绑定。

在一种可能的实现方式中，所述处理器还用于：

在确定所述接收到的所述字符串的形式为所述服务器定义的形式后，确定所述接收到的字符串对应的字段集合。

在一种可能的实现方式中，所述处理器具体用于：

将所述接收到的所有字符串中的字段名进行去重处理，得到所述字段集合中的字段名；

针对任意一个字符串，将所述字符串中的字段值与所述字段集合中的相同的字段名进行绑定，得到所述字段集合中的字段值。

在一种可能的实现方式中，所述处理器具体用于：

将所述接收到的所有字符串中的字段名放入hashset中进行去重处理。

在一种可能的实现方式中，所述处理器具体用于：

通过hashmap对所述字符串中的字段名对应的字段值进行查找后，将通过所述字段名查找到的字段值与所述字段集合中的相同的字段名进行绑定。

第三方面，本发明实施例提供的一种数据处理的设备，该设备包括：

确定模块：用于确定接收到的字符串对应的字段集合，其中不同字符串对应的字段集合中的字段名相同，且所述字段集合包括每个字符串中的字段名，且所述字段集合中字段名对应的字段值为所述字段集合对应的所述字符串中相同的字段名对应的字段值；

绑定模块：用于若所述字段集合中存在没有对应字段值的字段名，则将预设的值与所述没有对应字段值的字段名进行绑定。

第四方面，本发明实施例还提供一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述方法的步骤。

另外，第二方面至第四方面中任一一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果，此处不再赘述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据处理的方法流程图；

图2为本发明实施例提供的第一种数据处理的设备结构图；

图3为本发明实施例提供的第二种数据处理的设备结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

半结构化数据是结构化数据的一种形式，由于半结构化数据的数据结构是不固定的、不规则的或不完整的，所以对半结构化数据进行数据分析时，操作繁琐。目前对结构化数据进行数据分析时，操作简便，所以可以将半结构化数据转换为结构化数据后进行存储，当需要进行数据分析时，直接调取转换后的结构化数据。

本申请实施例描述的应用场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

针对上述场景，本发明实施例提供了一种数据处理的方法，如图1所示，具体包括以下步骤：

S100、服务器确定接收到的字符串对应的字段集合，其中不同字符串对应的字段集合中的字段名相同，且所述字段集合包括每个字符串中的字段名，且所述字段集合中字段名对应的字段值为所述字段集合对应的所述字符串中相同的字段名对应的字段值；

S101、若所述字段集合中存在没有对应字段值的字段名，则所述服务器将预设的值与所述没有对应字段值的字段名进行绑定。

本发明实施例，服务器确定接收到的字符串对应的字段集合，如果该字段集合中存在没有对应字段值的字段名，则该服务器将预设的值与该没有对应字段值的字段名进行绑定，其中不同字符串对应的字段集合中的字段名相同，并且该字段集合包括每个字符串中的字段名，并且该字段集合中的字段名对应的字段值为该字段集合对应的该字符串中相同的字段名对应的字段值。由于不同字符串对应的字段集合中的字段值相同，并且该字段集合包括每个字符串中的字段名，并且该字段集合中的字段名对应的字段值为该字段集合对应的字符串中相同的字段名对应的字段值，并且将预设的值与该字段集合中没有对应字段值的字段名进行绑定，所以服务器将接收到的所有字符串转化为结构化数据，从而根据结构化数据本身的特性，对数据进行分析时操作简便，能够提高数据分析效率。

需要说明的是，服务器接收终端发送的字符串是终端根据数据转换后发送给服务器的，即终端将终端中需要进行数据分析的每一条数据转换成字符串，再将转换后的字符串发送给服务器。

比如，终端中有三条数据，三条数据对应的图表形式为表1所示。

表1

表1中的有三条数据，记录一、记录二和记录三，记录一中有3个字段名，分别为“name、id、age”；记录二中有4个字段名，分别为“name、id、age、sex”；记录三中有5个字段名，分别为“name、id、age、sex、address”，对于记录一、记录二和记录三，每个字段名对应一个字段值。从以上的分析可以看出，表1中的数据为半结构化数据。

终端将表1的半结构化数据中每条数据转换为字符串，比如，将记录一的数据转换为字符串1“user：(name，id，age)(A，1001，20)”；记录二的数据转换为字符串2“user：(name，id，age，sex)(B，1002，18，femal)”；记录三的数据转换为字符串3“user：(name，id，age，sex，address)(C，1003，30，mal，Beijing)”。

终端将三条数据转换为3个字符串后，将3个字符串发送给服务器。

这里的终端，可以是台式电脑、笔记本、进行数据处理的装置等，可以进行数据处理的终端都适用本发明实施例。

服务器接收到终端发送的字符串后，需要对接收到的字符串进行验证，验证接收到的字符串的形式是否是该服务器定义的形式，如果服务器接收到的字符串的形式为该服务器定义的形式，则服务器确定接收到的字符串对应的字段集合；

如果服务器接收到的字符串的形式不是该服务器定义的形式，则服务器不对接收到的字符串进行处理。

服务器对接收到的字符串的形式进行验证，保证服务器进行处理的字符串的形式为服务器定义的形式，使数据处理更可靠。

服务器确定接收到的字符串对应的字段集合，其中，不同字符串对应的字段集合中的字段名相同，且该字段集合包括服务器接收到的每个字符串中的字段名，且该字段集合中字段名对应的字段值为该字段集合对应的字符串中相同的字段名对应的字段值。

需要说明的是，字符串包含字段名和字段值，比如，服务器接收到的字符串为“user：(name，id，age)(A，1001，20)”，则“name，id，age”为该字符串对应的3个字段名，“A，1001，20”为该字符串对应的3个字段值。

本发明实施例中，服务器确定的字段集合中包括字段名和字段值，所以服务器确定接收到的字符串对应的字段集合时，首先确定该字段集合中的字段名，再确定字段集合中的字段值。

由于不同字符串对应的字段集合中的字段名相同，且该字段集合中包括每个字符串中的字段名，所以服务器确定字段集合中的字段名时，将接收到的所有字符串中的字段名进行去重处理。

比如服务器接收到3个字符串，字符串1“user：(name，id，age)(A，1001，20)”；字符串2“user：(name，id，age，sex)(B，1002，18，femal)”；字符串3“user：(name，id，age，sex，address)(C，1003，30，mal，Beijing)”，将3个字符串中的字段名进行去重处理，也就是将name，id，age，name，id，age，sex，name，id，age，sex，address进行去重处理，得到字段集合中的字段名，即“name，id，age，sex，address”。

从得到的字段集合中的字段名“name，id，age，sex，address”可以看出，“name，id，age，sex，address”包含字符串1中的字段名“name，id，age”，“name，id，age，sex，address”包含字符串2中的字段名“name，id，age，sex”，“name，id，age，sex，address”包含字符串3中的字段名“name，id，age，sex，address”，也就是得到的字段集合中的字段名包括每个字符串中的字段名，即字段集合为每个字符串字段的并集。

由于不同字符串对应的字段集合中的字段名相同，所以字符串1对应的字段集合中的字段名为“name，id，age，sex，address”，字符串2对应的字段集合中的字段名为“name，id，age，sex，address”，字符串3对应的字段集合中的字段名为“name，id，age，sex，address”。

在实施中，服务器将接收到的字符串中的字段名进行去重处理时，可以将接收到的所有字符串的字段名放入hashset中进行去重处理。

比如服务器接收到3个字符串，字符串1“user：(name，id，age)(A，1001，20)”；字符串2“user：(name，id，age，sex)(B，1002，18，femal)”；字符串3“user：(name，id，age，sex，address)(C，1003，30，mal，Beijing)”，提取3个字符串中的user字段名，即将“name，id，age，name，id，age，sex，name，id，age，sex，address”放入hashset中，hashset具有自动去重的功能，通过hashset输出的数据为“name，id，age，sex，address”，即服务器确定的字段集合中的字段名为“name，id，age，sex，address”。

需要说明的是，hashset中的元素是没有顺序的，最终得到的字段名为接收到的字符串的字段名的并集即可。

服务器将接收到的所有字符串的字段名进行去重处理，得到字段集合中的字段名后，针对任意一个字符串，该服务器将该字符串中的字段值与该字段集合中的相同的字段名进行绑定，得到该字段集合中的字段值。

比如，服务器确定的字段集合中的字段名为“name，id，age，sex，address”，服务器接收到的字符串3为“user：(name，id，age，sex，address)(C，1003，30，mal，Beijing)”，从字符串3中可以看出，字段名name对应字段值C，字段名id对应字段值1003，字段名age对应字段值30，字段名sex对应字段值mal，字段名address对应字段值Beijing，所以将字段值C与字段集合中的字段名name绑定，将字段值1003和字段集合中的字段名id绑定，将字段值30和字段集合中的字段名age绑定，将字段值mal和字段集合中的字段名sex绑定，将字段值Beijing和字段集合中的字段名address绑定。

服务器将字符串3中的字段值与字段集合中的相同的字段名进行绑定，得到该字段集合中的字段值后，可以将服务器确定的字段串3对应的字段集合用表格的形式展现，如表2所示，为通过表格展现的字符串3对应的字段集合。

name(姓名)	id(识别号)	age(年龄)	sex(性别)	address(地址)
					C	1003	30	mal(男)	Beijing(北京)

表2

再比如，服务器确定的字段集合中的字段名为“name，id，age，sex，address”，服务器接收到的字符串1为“user：(name，id，age)(A，1001，20)”，从字符串1中可以看出，字段名name对应字段值A，字段名id对应字段值1001，字段名age对应字段值20，所以将字段值A与字段集合中的字段名name绑定，将字段值1001和字段集合中的字段名id绑定，将字段值20和字段集合中的字段名age绑定。

服务器将字符串1中的字段值与字段集合中的相同的字段名进行绑定，得到该字段集合中的字段值后，可以将服务器确定的字段串1的字段集合用表格的形式展现，如表3所示，为通过表格展现的字符串1对应的字段集合。

name(姓名)	id(识别号)	age(年龄)	sex(性别)	address(地址)
					A	1001	20

表3

从表3中可以看出，字符串1对应的字段集合中的字段名sex和字段名address没有字段名，为了使字符串1对应的字段集合完整，则需要补充字段名sex的字段值和字段名address的字段值。

如果在字段集合中存在没有对应字段值的字段名，则该服务器将预设的值与所述没有对应字段值的字段名进行绑定。

比如，字符串1对应的字段集合中的字段名sex和字段名address没有字段值，则可以将预设的值null与字段集合中的字段名sex进行绑定，将预设值null与字段集合中的字段名address进行绑定。

需要说明的是，预设的值可以是任意值，只要提前设置好，服务器能够识别即可。本发明实施例以预设的值为null进行说明。

将预设的值null与字段集合中的字段名sex进行绑定，将预设值null与字段集合中的字段名address进行绑定后，字符串1对应的字段集合通过表格展现如表4所示。

name(姓名)	id(识别号)	age(年龄)	sex(性别)	address(地址)
					A	1001	20	null	null

表4

从表4中可以看出，字段集合中的每个字段名对应一个字段值。

本发明实施例，服务器将该字符串中的字段值与所述字段集合中的相同的字段名进行绑定，可以通过hashmap对该字符串中的字段名对应的字段值进行查找，将该字段名对应的字段值与该字段集合中的相同的字段名进行绑定。

hashmap中存在key(键)和value(值)，将key设置为字符串中的字段名，value设置为字符串中的字段值。服务器通过hashmap中的key和value对字符串中的字段值进行查找，即通过key查找value，将查找到的value与该字段集合中与key相同的字段名进行绑定。

比如字符串1为“user：(name，id，age)(A，1001，20)”，服务器通过hashmap中的key和value对字符串1中的字段值进行查找，即将name和A置于hashmap中，根据name查找到A，将查找到的A与字段集合中的name进行绑定。

需要说明的是，hashmap的数量根据服务器接收到的字符串的情况确定，比如服务器接收到的字符串的数量较多，则可以多设置几个hashmap。使查找速度更快。

字段集合中的字段名和字段值确定后，如果该字段集合中存在没有对应字段值的字段名，则该服务器将预设的值与所述没有对应字段值的字段名进行绑定，最终得到的字段集合为服务器接收到的每个字段对应一个字段集合。

比如，服务器接收到3个字符串，字符串1“user：(name，id，age)(A，1001，20)”；字符串2“user：(name，id，age，sex)(B，1002，18，femal)”；字符串3“user：(name，id，age，sex，address)(C，1003，30，mal，Beijing)”，确定的字段集合中字段名为“name，id，age，sex，address”，则将服务器接收到的3个字符串对应的字段集合通过表格展示，如表5所示。

name(姓名)	id(识别号)	age(年龄)	sex(性别)	address(地址)
					A	1001	20	null	null
name(姓名)	id(识别号)	age(年龄)	sex(性别)	address(地址)
					B	1002	18	femal(女)	null
name(姓名)	id(识别号)	age(年龄)	sex(性别)	address(地址)
					C	1003	30	mal(男)	Beijing(北京)

表5

从表5中可以看出，每个字段集合中的字段名相同，每个字段集合中的字段名对应一个字段值，所以表5中的数据为结构化数据。

服务器将接收到的字符串转化为结构化数据后，可以将该结构化数据存储在服务器中，当需要进行数据分析时，从服务器中调取该结构化数据进行数据分析。结构化数据相比于半结构化数据在数据分析时操作简便，能够提高数据分析效率。

基于同一发明构思，本发明实施例中还提供了一种数据处理的设备，由于该设备对应的是本发明实施例数据处理的方法对应的设备，并且该设备解决问题的原理与该方法相似，因此该设备的实施可以参见方法的实施，重复之处不再赘述。

如图2所示，为本发明实施例提供的第一种数据处理的设备的结构示意图，该设备包括：至少一个处理单元200及至少一个存储单元201，其中，所述存储单元201存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执200执行下列过程：

可选的，所述处理单元200还用于：

可选的，所述处理单元200具体用于：

如图3所示，为本发明实施例提供的第二种数据处理的设备结构示意图，该设备包括：

确定模块300：用于确定接收到的字符串对应的字段集合，其中不同字符串对应的字段集合中的字段名相同，且所述字段集合包括每个字符串中的字段名，且所述字段集合中字段名对应的字段值为所述字段集合对应的所述字符串中相同的字段名对应的字段值；

绑定模块301：用于若所述字段集合中存在没有对应字段值的字段名，则将预设的值与所述没有对应字段值的字段名进行绑定。

可选的，所述确定模块300还用于：

可选的，所述确定模块300具体用于：

本发明实施例还提供一种数据处理的可读存储介质，包括程序代码，当所述程序代码在计算设备上运行时，所述程序代码用于使所述计算设备执行数据处理的方法的步骤。

以上参照示出根据本申请实施例的方法、装置(系统)和/或计算机程序产品的框图和/或流程图描述本申请。应理解，可以通过计算机程序指令来实现框图和/或流程图示图的一个块以及框图和/或流程图示图的块的组合。可以将这些计算机程序指令提供给通用计算机、专用计算机的处理器和/或其它可编程数据处理装置，以产生机器，使得经由计算机处理器和/或其它可编程数据处理装置执行的指令创建用于实现框图和/或流程图块中所指定的功能/动作的方法。

相应地，还可以用硬件和/或软件(包括固件、驻留软件、微码等)来实施本申请。更进一步地，本申请可以采取计算机可使用或计算机可读存储介质上的计算机程序产品的形式，其具有在介质中实现的计算机可使用或计算机可读程序代码，以由指令执行系统来使用或结合指令执行系统而使用。在本申请上下文中，计算机可使用或计算机可读介质可以是任意介质，其可以包含、存储、通信、传输、或传送程序，以由指令执行系统、装置或设备使用，或结合指令执行系统、装置或设备使用。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据处理的方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，所述服务器确定接收到的字符串对应的字段集合之前，还包括：

3.如权利要求1或2所述的方法，其特征在于，所述服务器确定接收到的字符串对应的字段集合，包括：

4.如权利要求3所述的方法，其特征在于，所述服务器将所述接收到的所有字符串中的字段名进行去重处理，包括：

所述服务器将所述接收到的所有字符串中的字段名放入哈希集hashset中进行去重处理。

5.如权利要求3所述的方法，其特征在于，所述服务器将所述字符串中的字段值与所述字段集合中的相同的字段名进行绑定，包括：

所述服务器通过哈希图hashmap对所述字符串中的字段名对应的字段值进行查找后，将通过所述字段名查找到的字段值与所述字段集合中的相同的字段名进行绑定。

6.一种数据处理的设备，其特征在于，该设备包括：至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行下列过程：

7.如权利要求6所述的设备，其特征在于，所述处理器还用于：

8.如权利要求6或7所述的设备，其特征在于，所述处理器具体用于：

9.如权利要求8所述的设备，其特征在于，所述处理器具体用于：

10.如权利要求8所述的设备，其特征在于，所述处理器具体用于：