CN117874314B

CN117874314B - 一种基于大数据处理的信息可视化方法及系统

Info

Publication number: CN117874314B
Application number: CN202410281594.1A
Authority: CN
Inventors: 冯天桂; 莫雄伟
Original assignee: Guangzhou Xunniu Information Technology Co ltd; Shiyue Technology Guangzhou Co ltd
Current assignee: Guangzhou Xunniu Information Technology Co ltd; Shiyue Technology Guangzhou Co ltd
Priority date: 2024-03-13
Filing date: 2024-03-13
Publication date: 2024-05-10
Anticipated expiration: 2044-03-13
Also published as: CN117874314A

Abstract

本发明属于数据处理技术领域，具体地，本发明涉及一种基于大数据处理的信息可视化方法及系统，该方法包括：根据待分析数据序列中每个数据对应的二进制数中各比特位的数值的分布情况，确定各比特位的固定程度，根据各比特位的固定程度，将所有比特位划分为固定比特位和变化比特位，确定各固定比特位的固定数值，根据所有固定比特位的固定数值，确定基准值，确定各数据的数值组合，数值组合由数据中各变化比特位的数值组成，对基准值和各数据的数值组合进行存储，根据存储的基准值和各数据的数值组合，确定各数据的近似值，根据数据的近似值生成可视化图表。本发明提高了生成可视化图表的效率，进而提高了信息可视化的效率。

Description

一种基于大数据处理的信息可视化方法及系统

技术领域

本发明涉及数据处理技术领域。更具体地，本发明涉及一种基于大数据处理的信息可视化方法及系统。

背景技术

图表能将大量数据对应的二进制数中的信息以生动的形式展现给用户，有着更好的交互性和观赏性，因此，对信息进行可视化展示是以可视化图表的形式。

在生成可视化图表的过程中，需要对所有数据进行解码，解码时需要对各数据的各比特位依次进行解码，解码速度慢，导致生成可视化图表的效率较低，进而影响信息可视化的效率。

因此，亟需一种高效的基于大数据处理的信息可视化方法及系统。

发明内容

为解决上述一个或多个技术问题，本发明在如下的多个方面中提供方案。

在第一方面中，本发明提供了一种基于大数据处理的信息可视化方法，包括：

获取待分析数据序列；

确定待分析数据序列中每个数据对应的二进制数；

根据所有数据对应的二进制数中各比特位的数值的分布情况，确定各比特位的固定程度；

根据各比特位的固定程度，将所有比特位划分为固定比特位和变化比特位；

确定各固定比特位的固定数值，根据所有固定比特位的固定数值，确定基准值；

确定各数据的数值组合，数值组合由数据中各变化比特位的数值组成，对基准值和各数据的数值组合进行存储；

根据存储的基准值和各数据的数值组合，确定各数据的近似值，根据数据的近似值生成可视化图表。

在一个实施例中，所述确定待分析数据序列中每个数据对应的二进制数，包括：

分别将待分析数据序列中数值最大的数据和最小的数据，作为最大数据和最小数据；将最大数据对应的二进制数的长度，作为固定长度；

根据固定长度确定每个数据对应的二进制数，所述每个数据对应的二进制数的长度等于固定长度。

在一个实施例中，所述根据所有数据对应的二进制数中各比特位的数值的分布情况，确定各比特位的固定程度，包括：

确定各数据对应的二进制数中各比特位的近似值，根据所有数据对应的二进制数中各比特位的近似值和数值的分布情况，确定各比特位的数值为第一数码的频数和各比特位的数值为第二数码的频数，根据各比特位的数值为第一数码的频数和各比特位的数值为第二数码的频数的差异，确定各比特位的固定程度；

各比特位的固定程度满足表达式：

；

式中，表示第i比特位的固定程度，/>表示第i比特位的数值为第一数码的频数，/>表示第i比特位的数值为第二数码的频数，i表示比特位的序号，/>表示绝对值符号。

在一个实施例中，所述各数据对应的二进制数中各比特位的近似值满足表达式：

；

式中，表示数据对应的二进制数中第i比特位的近似值，i表示比特位的序号，i取遍[1,N]范围内的所有整数，N表示固定长度，/>表示第一数码，/>表示第二数码，/>表示数据对应的二进制数中第k比特位的数值，k表示比特位的序号，k取遍[1,i-1]范围内的所有整数。

在一个实施例中，所述各比特位的数值为第一数码的频数和各比特位的数值为第二数码的频数满足表达式：

；

式中，表示第i比特位的数值为第一数码的频数，/>表示第i比特位的数值为第二数码的频数，i表示比特位的序号，/>表示在第i比特位的数值为第一数码且在第i比特位的近似值为第一数码的数据的频数，/>表示在第i比特位的数值为第二数码且在第i比特位的近似值为第二数码的数据的频数，/>表示在第i比特位的数值为第二数码且在第i比特位的近似值为第一数码的数据的频数，表示在第i比特位的数值为第一数码且在第i比特位的近似值为第二数码的数据的频数，/>表示第一数码，/>表示第二数码，/>表示数据对应的二进制数中第i比特位的近似值，/>表示数据对应的二进制数中第i比特位的数值。

在一个实施例中，所述确定各固定比特位的固定数值，包括：

若固定比特位的数值为第一数码的频数大于固定比特位的数值为第二数码的频数，则将第一数码作为该固定比特位的固定数值；

若固定比特位的数值为第一数码的频数小于固定比特位的数值为第二数码的频数，则将第二数码作为该固定比特位的固定数值。

在一个实施例中，所述基准值满足表达式：

；

式中，Z表示基准值，j表示固定比特位的序号，表示第j个固定比特位的固定数值，/>表示第j个固定比特位对应的比特位的序号，A1表示所有固定比特位的数量。

在一个实施例中，所述确定各数据的数值组合，包括：

对于各变化比特位，从第一数码和第二数码中遍历选择一个数码，作为各变化比特位的备选数值，将所有变化比特位的备选数值，构成一个备选数值组合，则共有种备选数值组合，A2表示所有变化比特位的数量；

确定各备选数值组合对应的十进制数，将所有备选数值组合对应的十进制数以及最大数据和最小数据，按照从小到大的顺序进行排序，将相邻两个十进制数的中位数作为分割点，相邻两个分割点之间的范围作为一个区间，获得多个区间；

将各备选数值组合对应的十进制数所属的区间，作为各备选数值组合对应的区间；将各数据所属的区间对应的备选数值组合，作为各数据的数值组合。

在一个实施例中，所述备选数值组合对应的十进制数满足表达式：

；

式中，S表示备选数值组合对应的十进制数，Z表示基准值，h表示变化比特位的序号，表示备选数值组合中第h个变化比特位的备选数值，/>表示第h个变化比特位对应的比特位的序号，A2表示所有变化比特位的数量。

第二方面，本发明提供一种基于大数据处理的信息可视化系统，采用如下的技术方案：

一种基于大数据处理的信息可视化系统，包括：处理器和存储器，所述存储器存储有计算机程序指令，当所述计算机程序指令被所述处理器执行时实现上述一种基于大数据处理的信息可视化方法。

通过采用上述技术方案，将上述的一种基于大数据处理的信息可视化方法生成计算机程序，并存储于存储器中，以被处理器加载并执行，从而根据存储器及处理器制作终端设备，方便使用。

本发明的有益效果在于：

本发明根据存储的基准值和各数据的数值组合，确定各数据的近似值，进而根据数据的近似值生成可视化图表；在生成可视化图表的过程中，只需要对所有数据的数值组合中各变化比特位进行解码即可，加快解码速度，提高了生成可视化图表的效率，进而提高了信息可视化的效率；

进一步，本发明根据各比特位的固定程度将所有比特位划分为固定比特位和变化比特位，确定各固定比特位的固定数值以及各数据中各变化比特位的数值即数值组合，根据所有固定比特位的固定数值，确定基准值，只需要对基准值和各数据的数值组合进行存储，就能实现对数据的压缩存储，提高了压缩存储效率。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：

图1是示意性示出本发明中一种基于大数据处理的信息可视化方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图来详细描述本发明的具体实施方式。

在生成可视化图表的过程中，需要对所有数据进行解码，解码时需要对各数据的各比特位依次进行解码，而常规对数据进行无损存储时，各数据的比特位的数量取决于最大数据的比特位的数量，各数据的比特位的数量较大，导致解码速度较慢，影响生成可视化图表的效率，进而影响信息可视化的效率。

考虑到生成可视化图表时，可视化图表展示的是所有数据的统计结果，能够呈现出所有数据的粗略值即可，因此，可以考虑对数据进行有损压缩存储，以此减少比特位的数量。

综上，本发明根据所有数据对应的二进制数中各比特位的数值的分布情况，确定各比特位的固定程度，根据各比特位的固定程度，将所有比特位划分为固定比特位和变化比特位，确定各固定比特位的固定数值，根据所有固定比特位的固定数值，确定基准值，确定各数据的数值组合，数值组合由数据中各变化比特位的数值组成，对基准值和各数据的数值组合进行存储，根据存储的基准值和各数据的数值组合，确定各数据的近似值，根据数据的近似值生成可视化图表；在生成可视化图表的过程中，只需要对所有数据的各变化比特位进行解码，解码速度更快，提高了生成可视化图表的效率，进而提高了信息可视化的效率。

本发明实施例公开一种基于大数据处理的信息可视化方法，参照图1，包括步骤S1-步骤S7：

S1：获取待分析数据序列。

具体的，将需要通过可视化图表进行信息可视化的数据组成的序列，作为待分析数据序列。

S2：确定待分析数据序列中每个数据对应的二进制数。

具体的，分别将待分析数据序列中数值最大的数据和最小的数据，作为最大数据和最小数据；将最大数据对应的二进制数的长度，作为固定长度；根据固定长度确定每个数据对应的二进制数，所述每个数据对应的二进制数的长度等于固定长度。

所述二进制数包括多个比特位，每个比特位的数值为0和1两种数码中的一种，所述二进制数的长度是指二进制数中的比特位的数量。

对于二进制数中的多个比特位，按照从左到右的顺序，依次记为第1比特位到第N比特位，第N比特位是最高比特位，第1比特位是最低比特位，N表示固定长度。

在本实施例中，将0记为第一数码，将1记为第二数码；在其他实施例中，也可以将0记为第一数码，将1记为第二数码。

S3：根据所有数据对应的二进制数中各比特位的数值的分布情况，确定各比特位的固定程度。

需要说明的是，为了提高信息可视化的效率，需要缩短各数据对应的二进制数中需要解码的比特位的数量，考虑到所有数据对应的二进制数中比特位的数值可能具有倾向性，即比特位的数值可能更倾向于第一数码或者第二数码中的一种，此时可以直接用固定值表示所有数据对应的二进制数中该比特位的数值，因此，本发明根据所有数据对应的二进制数中各比特位的数值的分布情况，确定所有数据对应的二进制数中各比特位的数值为第一数码的频数和各比特位的数值为第二数码的频数的差异，进而确定各比特位的固定程度，后续根据各比特位的固定程度，将所有比特位划分为固定比特位和变化比特位。

具体的，确定各数据对应的二进制数中各比特位的近似值，根据所有数据对应的二进制数中各比特位的近似值和数值的分布情况，确定各比特位的数值为第一数码的频数和各比特位的数值为第二数码的频数，根据各比特位的数值为第一数码的频数和各比特位的数值为第二数码的频数的差异，确定各比特位的固定程度。

可选地，对于任意一个数据，数据对应的二进制数中第i比特位的近似值满足表达式：

；

需要说明的是，代表了数据的前i-1个比特位对应的十进制数，是数据的实际值，/>表示第i比特位的数值等于第一数码时对应的十进制数，是数据的近似结果，/>表示第i比特位的数值等于第二数码时对应的十进制数，是数据的近似结果，则/>代表了将第一数码作为数据对应的二进制数中第i比特位的近似值时，数据的近似结果与数据的实际值的差异，代表了将第二数码作为数据对应的二进制数中第i比特位的近似值时，数据的近似结果与数据的实际值的差异；为了使获得的数据对应的二进制数中第i比特位的近似值更合适，选择第一数码和第二数码中，与数据的实际值的差异小的数码，作为数据对应的二进制数中第i比特位的近似值。

所述根据所有数据对应的二进制数中各比特位的近似值和数值的分布情况，确定各比特位的数值为第一数码的频数和各比特位的数值为第二数码的频数，则各比特位的数值为第一数码的频数和各比特位的数值为第二数码的频数分别满足表达式：

；

需要说明的是，由于本发明是确定数据的近似值，因此，在确定比特位的数值为第一数码和第二数码的最终频数时，也需要考虑比特位的近似值为第一数码和第二数码的频数；

在本实施例中，第一数码为0，第二数码为1，因此，当数据对应的二进制数中第i比特位的数值和在第i比特位的近似值中，一个为第一数码且另一个为第二数码时，该数据对应的二进制数中第i比特位的数值为第二数码，因此，在第i比特位的数值为第二数码且在第i比特位的近似值为第一数码的数据的频数与在第i比特位的数值为第一数码且在第i比特位的近似值为第二数码的数据的频数/>之和，能够表示第i比特位的数值为第二数码的频数；

当数据对应的二进制数中第i比特位的数值和在第i比特位的近似值均为第一数码或者均为第二数码时，该数据对应的二进制数中第i比特位的数值为第一数码，其中，因为当均为第二数码1时，二进制数需要向前进一位，进位后数据对应的二进制数中第i比特位的数值为第一数码，因此，在第i比特位的数值为第一数码且在第i比特位的近似值为第一数码的数据的频数与在第i比特位的数值为第二数码且在第i比特位的近似值为第二数码的数据的频数/>之和，能够表示第i比特位的数值为第一数码的频数。

所述频数是指数量，例如：所述第i比特位的数值为第一数码的频数是指所有数据对应的二进制数中第i比特位的数值为第一数码的数据的数量；所述第i比特位的近似值为第一数码的频数是指所有数据对应的二进制数中第i比特位的近似值为第一数码的数据的数量。

所述根据各比特位的数值为第一数码的频数和各比特位的数值为第二数码的频数的差异，确定各比特位的固定程度，则各比特位的固定程度满足表达式：

；

需要说明的是，第i比特位的数值为第一数码的频数和第i比特位的数值为第二数码的频数/>中，有任意一个频数较大，说明数据对应的二进制数中第i比特位的数值为大的频数对应的数码的概率较大，大部分数据对应的二进制数中第i比特位的数值固定是大的频数对应的数码，此时/>较大，则第i比特位的固定程度较大。

S4：根据各比特位的固定程度，将所有比特位划分为固定比特位和变化比特位。

具体的，若第i比特位的固定程度大于A，则将第i比特位作为固定比特位；若第i比特位的固定程度小于或者等于A，则将第i比特位作为变化比特位。

A表示预设阈值，阈值的具体数值可以根据实际应用场景和需求来设定，本发明将阈值设置为0.2。

需要说明的是，第i比特位的固定程度大于预设阈值时，说明第i比特位的数值为第一数码的频数和第i比特位的数值为第二数码的频数/>中，有一个频数较大，即大部分数据对应的二进制数中第i比特位的数值固定是大的频数对应的数码，此时第i比特位的数值时固定的，因此将第i比特位作为固定比特位。

S5：确定各固定比特位的固定数值，根据所有固定比特位的固定数值，确定基准值。

对于任意一个固定比特位，根据该固定比特位的数值为第一数码和第二数码的频数的大小关系，确定该固定比特位的固定数值，包括：

需要说明的是，频数大说明大部分数据对应的二进制数中该固定比特位的数值固定是大的频数对应的数码，此时将大的频数对应的数码作为该固定比特位的固定数值，后续根据固定比特位的固定数值和各数据对应的二进制数中在变化比特位的数值，来近似表示数据时，误差较小。

需要说明的是，本发明通过将所有比特位中的部分比特位作为固定比特位，同时确定各固定比特位的固定数值，此时所有数据对应的二进制数中固定比特位的数值均相同，则对数据进行无损存储时，只需要对数据中各变化比特位的数值进行存储即可。

所述基准值满足表达式：

；

S6：确定各数据的数值组合，数值组合由数据中各变化比特位的数值组成，对基准值和各数据的数值组合进行存储。

需要说明的是，在确定数据中各变化比特位的数值时，要求能够使得各数据的近似值与数据的误差尽可能小。

具体的，确定各数据的数值组合，数值组合由数据中各变化比特位的数值组成，对基准值和各数据的数值组合进行存储。

对于各变化比特位，从第一数码和第二数码中遍历选择一个数码，作为各变化比特位的备选数值，将所有变化比特位的备选数值，构成一个备选数值组合，则共有种备选数值组合，A2表示所有变化比特位的数量。

例如：、/>、/>、、/>等，均为一个备选数值组合，/>、/>、/>分布表示备选数值组合中第1、2、3个变化比特位的备选数值。

确定各备选数值组合对应的十进制数，将所有备选数值组合对应的十进制数以及最大数据和最小数据，按照从小到大的顺序进行排序，将相邻两个十进制数的中位数作为分割点，相邻两个分割点之间的范围作为一个区间，获得多个区间。

将各备选数值组合对应的十进制数所属的区间，作为各备选数值组合对应的区间；将各数据所属的区间对应的备选数值组合，作为各数据的数值组合，所述数值组合代表了数据的压缩结果。

所述备选数值组合对应的十进制数满足表达式：

；

例如：固定比特位分别为第7比特位、第6比特位、第5比特位、第2比特位、第1比特位，变化比特位分别为第8比特位、第4比特位、第3比特位，各固定比特位的固定数值分别为：1、1、1、0、1，基准值为；对于数据137，该数据中各变化比特位的数值分别为0、1、1，即数据的数值组合为(0,1,1)时，能够使得该数据的近似值与该数据的数值的误差尽可能小。

需要说明的是，本发明根据各比特位的固定程度将所有比特位划分为固定比特位和变化比特位，确定各固定比特位的固定数值以及各数据中各变化比特位的数值即数值组合，根据所有固定比特位的固定数值，确定基准值，只需要对基准值和各数据的数值组合进行存储，就能实现对数据的压缩存储，提高了压缩存储效率。

S7：根据存储的基准值和各数据的数值组合，确定各数据的近似值，根据数据的近似值生成可视化图表。

具体的，根据基准值和各数据的数值组合，确定各数据的近似值，则数据的近似值满足表达式：

；

式中，B表示数据的近似值，Z表示基准值，h表示变化比特位的序号，表示数据的数值组合中第h个变化比特位的数值，/>表示第h个变化比特位对应的比特位的序号，A2表示所有变化比特位的数量。

需要说明的是，对于数据137，常规的数据存储方式是以10001001进行存储，在解码时，需要解码8个比特位，而本发明只需要对该数据是以各变化比特位的数值即011进行存储，在生成可视化图表的过程中，只需要解码3个变化比特位的数值即可，加快解码速度，提高了生成可视化图表的效率，进而提高了信息可视化的效率。

进一步，根据各数据的近似值，生成可视化图表；所述可视化图表包括但不限于折线图、柱状图、饼图、散点图、箱线图、直方图、水平条形图。

需要说明的是，不同的可视化图表有不同的特点，适用于不同类型的数据和分析目的，选择合适的图表形式可以更好地展示数据，帮助理解数据背后的含义。

本发明实施例还公开一种基于大数据处理的信息可视化系统，包括处理器和存储器，存储器存储有计算机程序指令，当计算机程序指令被处理器执行时实现根据本发明的一种基于大数据处理的信息可视化方法。

上述系统还包括通信总线和通信接口等本领域技术人员熟知的其他组件，其设置和功能为本领域中已知，因此在此不再赘述。

在本说明书的描述中，“多个”、“若干个”的含义是至少两个，例如两个，三个或更多个等，除非另有明确具体的限定。

虽然本说明书已经示出和描述了本发明的多个实施例，但对于本领域技术人员显而易见的是，这样的实施例只是以示例的方式提供的。本领域技术人员会在不偏离本发明思想和精神的情况下想到许多更改、改变和替代的方式。应当理解的是在实践本发明的过程中，可以采用对本文所描述的本发明实施例的各替代方案。

Claims

1.一种基于大数据处理的信息可视化方法，其特征在于，包括：

获取待分析数据序列；

确定待分析数据序列中每个数据对应的二进制数；

根据存储的基准值和各数据的数值组合，确定各数据的近似值，根据数据的近似值生成可视化图表；

所述根据所有数据对应的二进制数中各比特位的数值的分布情况，确定各比特位的固定程度，包括：

各比特位的固定程度满足表达式：

；

式中，表示第i比特位的固定程度，/>表示第i比特位的数值为第一数码的频数，/>表示第i比特位的数值为第二数码的频数，i表示比特位的序号，i取遍[1,N]范围内的所有整数，N表示固定长度，/>表示绝对值符号；

所述各数据对应的二进制数中各比特位的近似值满足表达式：

；

式中，表示数据对应的二进制数中第i比特位的近似值，/>表示第一数码，/>表示第二数码，/>表示数据对应的二进制数中第k比特位的数值，k表示比特位的序号，k取遍[1,i-1]范围内的所有整数；

所述各比特位的数值为第一数码的频数和各比特位的数值为第二数码的频数满足表达式：

；

式中，表示第i比特位的数值为第一数码的频数，/>表示第i比特位的数值为第二数码的频数，/>表示在第i比特位的数值为第一数码且在第i比特位的近似值为第一数码的数据的频数，/>表示在第i比特位的数值为第二数码且在第i比特位的近似值为第二数码的数据的频数，/>表示在第i比特位的数值为第二数码且在第i比特位的近似值为第一数码的数据的频数，/>表示在第i比特位的数值为第一数码且在第i比特位的近似值为第二数码的数据的频数，/>表示数据对应的二进制数中第i比特位的数值；

所述确定各数据的数值组合，包括：

将各备选数值组合对应的十进制数所属的区间，作为各备选数值组合对应的区间；将各数据所属的区间对应的备选数值组合，作为各数据的数值组合；

所述基准值满足表达式：

；

式中，Z表示基准值，j表示固定比特位的序号，表示第j个固定比特位的固定数值，/>表示第j个固定比特位对应的比特位的序号，A1表示所有固定比特位的数量；

所述各数据的近似值满足表达式：

；

式中，B表示数据的近似值，h表示变化比特位的序号，表示数据的数值组合中第h个变化比特位的数值，/>表示第h个变化比特位对应的比特位的序号。

2.根据权利要求1所述的一种基于大数据处理的信息可视化方法，其特征在于，所述确定待分析数据序列中每个数据对应的二进制数，包括：

3.根据权利要求1所述的一种基于大数据处理的信息可视化方法，其特征在于，所述确定各固定比特位的固定数值，包括：

4.根据权利要求1所述的一种基于大数据处理的信息可视化方法，其特征在于，所述备选数值组合对应的十进制数满足表达式：

；

5.一种基于大数据处理的信息可视化系统，其特征在于，包括：处理器和存储器，所述存储器存储有计算机程序指令，当所述计算机程序指令被所述处理器执行时实现根据权利要求1-4任一项所述的一种基于大数据处理的信息可视化方法。