CN107506463B

CN107506463B - 一种数据分类和处理方法及设备

Info

Publication number: CN107506463B
Application number: CN201710760984.7A
Authority: CN
Inventors: 钱斌华
Original assignee: Ningbo City College of Vocational Technology
Current assignee: Ningbo City College of Vocational Technology
Priority date: 2017-08-30
Filing date: 2017-08-30
Publication date: 2020-08-18
Anticipated expiration: 2037-08-30
Also published as: CN107506463A

Abstract

本发明公开了一种计算机实现的数据分类及处理方法，该方法包括将所接收到的原始数据划分为多个类别，将所述多个类别按预定顺序存储在第一索引表中，对每一类别赋予不同的权重值，根据用户输入的索引词从第一索引表中确定相关联的多个类别，根据所确定的多个类别中每一个类别与所确定的多个类别基于权重值的加权平均值的相关系数将每一个类别按照相关系数从大到小的顺序存储在第二索引表中，输出第二索引表中排在首位的类别，以及以第二索引表为基础对所述第一索引表的存储顺序进行持续调整。本发明还公开了一种数据分类及处理设备。

Description

一种数据分类和处理方法及设备

技术领域

本发明关于数据库中的数据处理方法领域，更具体地，关于一种数据分类和处理方法及设备。

背景技术

当前随着大数据领域的发展，各种产业领域中逐渐开始利用对海量数据进行计算机统计分析而提取有用的信息。在各政府部门和机构在其管理公共事务的长期过程中也已经积累了大量统计数据，但这些统计数据的存储方式，格式和兼容性可能存在着极大差别而无法高效地对其加以利用。尤其是在历史较久的数据进行处理时，往往由于不同部门之间使用不统一的数据规范而需要人工对这些数据进行筛选和转换才能使其成为可以进行计算机分析的格式。人工筛选和转换不但具有效率低和成本高的缺陷，而且较容易出现错误。

即使在完成了数据整理和归类的情况下，也因为数据量巨大而难以从中正确选取用于分析特定问题的数据类型。由于分析特定问题可能只需要数千甚至数万种类的数据中的几种，在分析不同的问题时每次都必须重新确定所需要的数据类型。根据政府部门的具体应用场景的变化，可能某个类型的数据使用频率变得更高，而其他类型的数据变得更低。如果能够智能地分析各种类型数据对于用户的重要性等级，并且相应地根据重要性等级进行排序，将能够提升数据检索和存取的效率。现在仍然缺少一种高效的数据处理方法来使得能够以高响应速度检索所需要的几种数据，并且根据检索结果智能地调整数据库中数据的存储策略以进一步提升下一次检索的响应速度。

发明内容

本发明的实施例的一个目的是解决至少一些现有技术的上述问题，并提出一种根据权重提高数据检索的响应速度，并且根据检索结果智能优化数据存储策略的方法和设备。

本发明公开了一种计算机实现的数据分类及处理方法，包括将所接收到的原始数据划分为多个类别，将所述多个类别按预定顺序存储在第一索引表中，对每一类别赋予不同的权重值，根据用户输入的索引词从第一索引表中确定相关联的多个类别，根据所确定的多个类别中每一个类别与所确定的多个类别基于权重值的加权平均值的相关系数将每一个类别按照相关系数从大到小的顺序存储在第二索引表中，输出第二索引表中排在首位的类别，以及以第二索引表为基础对所述第一索引表中多个类别的存储顺序进行调整。

在一些实施例中，该预定顺序为从最早原始数据到最近原始数据排列的时间顺序。

在一些实施例中，第一索引表存储在非易失性存储器中。

在一些实施例中，第二索引表存储在易失性存储器中。

在一些实施例中，权重值通过由主成分分析提取的公共因子来确定。

在一些实施例中，将从所接收到的原始数据划分为多个类别的步骤包括对所述原始数据进行标准化并划分为多个类别。

在一些实施例中，将从所接收到的原始数据划分为多个类别的步骤包括对以时间序列原始数据进行指数平滑并划分为多个类别。

在一些实施例中，原始数据通过有线或无线数据连接接收。

本发明公开了一种用于数据分类及处理的计算设备，包括处理器，存储器，通信接口，输入设备和输出设备，该存储器中存储有可执行的指令，当该指令被执行时使得处理器将从通信接口所接收到的原始数据划分为多个类别，将多个类别按预定顺序存储在存储器的第一索引表中，对每一类别赋予不同的权重值，根据用户从输入设备输入的索引词从第一索引表中确定相关联的多个类别，根据所确定的多个类别中每一个类别与所确定的多个类别基于权重值的加权平均值的相关系数将每一个类别按照相关系数从大到小的顺序存储在存储器的第二索引表中，指示输出设备输出第二索引表中排在首位的类别，以及以第二索引表为基础对所述第一索引表中多个类别的存储顺序进行调整。

在一些实施例中，存储器包括非易失性存储器和易失性存储器。

本发明的实施例可以用于根据检索结果动态调整数据分类的存储方式从而提高数据检索的响应速度。

附图说明

本发明包括了附图以便于本领域技术人员对所公开内容的进一步理解，附图构成公开内容的一部分，但仅仅是用于图示出体现所涉及发明概念的一些方面的非限制性示例，而不是用于做出任何限制。

图1是根据本发明一些实施例的用于数据分类及处理的计算设备的框图。

图2是根据本发明一些实施例的用于数据分类及处理的方法的流程图。

具体实施方式

本领域技术人员应理解尽管术语第一、第二等可在本文用于描述各种元件，但这些元件不应由这些术语限制。这些术语仅用于将元件彼此区分开。例如，第一元素可以称作第二元素，并且相似地，第二元素可以称作第一元素，而不偏离本发明的范围。如本文使用的，术语“和/或”包括关联的列出项目中的一个或多个中的任一个或全部组合。

本文使用的术语仅是为了描述特定实施例目的并且不意在限制本发明。如本文使用的，单数形式“一”和“该”意在也包括复数形式，除非上下文另外明确指示。将进一步理解术语“包括”和/或“包含”当在本文使用时，规定陈述的特征、整体、步骤、操作、元素和/或部件的存在，但不排除一个或多个其它特征、整体、步骤、操作、元素、部件和/或其的组的存在或增加。

除非另外限定，本文使用的所有术语(包括技术和科学术语)具有和本发明所属的领域内普通技术人员通常理解的相同的意思。还应理解本文使用的术语应解释为具有与它们在本说明书和相关领域的上下文中的意思一致的意思，并且不在理想化或过度正式的意义上解释，除非本文明确地这样限定。

如将由本领域内技术人员预想到的，本发明可体现为方法、数据处理系统和/或计算机程序产品。此外，本发明可采取在有形计算机可用存储介质(其具有包含在介质中、可以由计算机执行的计算机程序代码)上的计算机程序产品的形式。可利用任何适合的有形计算机可读介质，其包括硬盘、CD-ROM、光学存储设备或磁存储设备。

图1是根据本发明一些实施例的用于数据分类及处理的计算设备100的框图。计算设备100包括处理器101，存储器103，输入设备105，输出设备107和通信接口109。

处理器101可以是用来执行指令的任何通用或者专用的处理设备，例如CISC或RISC指令集处理器、x86指令集处理器、多核处理器、图形处理器、基带处理器、单片机、控制器、逻辑控制单元或任何其他的微处理器或中央处理单元(CPU)。处理器101还可以是上面所列通用或者专用的处理设备中的多个的组合。

存储器103用来存储可供处理器101执行以实现实施例中所述虚拟现实全景视频播放的机器可执行指令，也可在一些情况下存储所接收的虚拟现实全景视频数据以便进行缓冲或者本地播放。存储器105包括易失性存储器部分，例如但不限于随机存取存储器(RAM)、动态DRAM、静态RAM。存储器105还包括非易失性存储器部分，例如但不限于CDROM光盘、压缩盘、DVD、蓝光光盘、软盘、磁盘、固态盘、只读存储器(ROM)、EPROM、EEPROM、闪存和/或网络存储设备。在联网的情况下，存储器105还可以通过远程存储器或云端等来提供。

输入设备105表示与用户交互相关的硬件或软件组件。输入设备105既可以提供在计算设备100中，也可以是与计算设备100相连而使得用户进行交互的连接点。输入设备105可以包括触控板、键盘、小键盘、鼠标、麦克风、姿势识别设备等现有设备。

输出设备107包括相应的专用图形处理器(GPU)，用于向用户显示图像和/或交互对象形式的检索结果。该GPU可以通过模拟或者数字接口与输出设备107进行通信。输出设备107例如包括阴极射线管显示器、平板显示器、液晶显示器、头戴显示器、投影屏幕、媒体播放器等各种现有的成像手段。在一些实施例中，输出设备107可以包括音频单元，如扬声器等。

输入设备105和输出设备107与所述处理器101和存储器103耦合，以便从输入设备105接收用户输入存储在存储器103中供处理器101处理，并从输出设备107输出处理器101处理存储器103中所存储的数据所得到的检索结果。

通信接口109可以包括使设备100能够通过网络与其他设备进行通信的收发器、有线网络适配器、无线网络适配器、电信调制解调器、无线调制解调器和网卡等。通信接口109可以按照局域网、城域网、以太网、互联网、4GLTE长期演进、Wi-Fi、蓝牙、无线局域网WLAN、全球移动通信GSM、码分多址CDMA、WCDMA和时分复用TDM中的至少一种有线或无线通信协议进行通信。

在一些实施例中，所述处理器101，存储器103，输入设备105，输出设备107和通信接口109可以被集成在一起以形成片上系统SoC。

图2是根据本发明一些实施例的用于数据分类及处理的方法的流程图200。在步骤201中，处理器101将从通信接口109所接收到的原始数据划分为多个类别。在一些实施例中，该原始数据通过任一种有线或无线网络进行传输。原始数据例如可以被处理器101划分为营业收入、税收收入、利润总额、总资产、职工人数、人均利润、人均营业收入、成本费用、净利润、总资产周转率和单位资产税收产出以及上述变量的变化率等多个类别的政府统计数据并存储在存储器103中。在一些实施例中，每个类别的原始数据是以时间序列进行排列的一系列的数字的组合。例如，一个类别的原始数据可包括在一定时间范围内的统计数据。若原始数据已经进行了分类，也可以直接使用原始数据的分类而不重新划分。在原始数据具有较高月度、季节性、年度波动的情况下，可对以时间序列排列的原始数据进行指数平滑以平滑原始数据的波动。

在步骤203中处理器101将所划分多个类别按预定顺序存储在第一索引表中。该第一索引表例如存储在存储器103的非易失性存储器中。第一索引表可以是堆栈、顺序表、单向链表等各种现有数据结构。原始数据在第一索引表中的存放顺序可以依照时间顺序，例如从最早输入的数据到最近输入的数据进行排列。这样最新输入的数据将位于第一索引表的表头，而最早输入的数据位于尾部。也可以以其他预先定义的顺序对所划分的多个类别进行存储。在用户检索或查看第一索引表时，靠近表头的数据将以更快的响应速度检索到并在输出设备107上呈现给用户，而位于末尾的数据则需要更长的时间才能被检索或查看到。尤其是在数据库中的数据量较大时，仅有一部分数据可以存储在存取速度较快的存储器103的部分中，例如缓冲器或固态硬盘中。若可以智能判定用户最有可能需要的数据，则可以预先将此部分数据排列于第一索引表的头部位置并将该头部部分存入存储器103中存取速度较快的部分以提高响应速度。

在步骤205中，处理器101对每一类别赋予不同的权重值。可选地，在赋予权重值之前可以利用标准分数法进行数据的标准化。例如，可以用z＝(x-μ)/σ进行数据标准化，其中z为标准化的数据，x为原始数据，μ为平均值，而σ为标准差。权重值的选取基于用户所要分析的具体问题。例如在处理统计数据时，计算居民消费价格指数(CPI)和生产价格指数(PPI)将以较高的频率被计算，计算CPI和PPI时经常被使用的数据类别可以被赋予较高的权重值。在数据量较大且所要分析的问题无法通过确定的公式和确定的变量来确定的情况下，权重值通过由主成分分析提取的公共因子来确定。在一些实施例中，对所分析的问题提取公共因子之后，根据变量共同度对变量赋予与变量共同度成正比的权重值。每一类别可被赋予多个权重以用于不同类型的统计数据的计算。

在步骤207中，处理器101根据用户通过输入设备105输入的索引词从所述第一索引表中确定相关联的多个类别。例如，用户的需求是计算CPI，则处理器101能够根据用户输入的索引词确定输出CPI的计算结果所需要的数据类别。在一些实施例中，步骤207可以与步骤205同时进行。在一些实施例中，也可以先根据用户输入的索引词从所述第一索引表中确定相关联的多个类别，再为所确定的这多个类别赋予权重值而不需为第一索引表中的所有类别赋予权重值。

在步骤209中，处理器101根据步骤207中所确定的多个类别中每一个类别与这多个类别基于各自权重值的加权平均值的相关系数将每一个类别按照相关系数从大到小的顺序存储在第二索引表中。这多个类别基于各自权重值的加权平均值例如为K＝Σx_iω_i/Σω_i，其中K为加权平均值，x_i为第i个类别的数据，而ω_i为第i个类别的权重值。处理器101例如将每个类别x_i基于与K的相关系数存储在存储器103的易失性存储器的第二索引表中以用于输出和第一索引表的调整。第二索引表可以与第一索引表类似地是堆栈、顺序表、单向链表等各种现有数据结构。为了提高响应速度，利用线性回归模型计算每一个类别x_i与加权平均值K之间的相关系数。相关系数例如为r(x_i,K)＝Cov(x_i,K)/Sqrt(Var(x_i)Var(K))，其中Cov()表示协方差，Var()方差，Sqrt()表示平方根。相关系数最大的类别即最相关的被存储在第二索引表的头部位置从而可以以最高的响应速度进行存取。

在步骤211中，处理器101指令输出设备107输出第二索引表中排在首位的类别。输出第二索引表中排在首位的类别可以使得用户得知所输入的索引词相关系数最大的一个类别。在步骤213中，处理器101以第二索引表为基础对所述第一索引表的存储顺序进行调整。因使用该设备100的多个用户将持续地输入索引词，因此基于第二索引表为基础对所述第一索引表中类别的存储顺序进行调整可以动态地持续进行。例如，第二索引表中所包含的数据类别可在第一索引表中排在第二索引表中所不包含的数据类别之前。再例如，在第二索引表中排在首位的数据类别可以在第一索引表中调整到首位。第一索引表中多个类别的相对顺序也可根据第二索引表中类别的相对顺序进行调整，从而使得第二索引表中所包含的数据类别在第一索引表的头部位置中同样地按照相关系数的大小进行排列。在设备100是专用于计算特定的一个或多个统计数据的专用设备的情况下，或者在用户的大多数索引词是关于特定的一个或多个统计数据的情况下，本发明的实施例使得计算或检索一个或多个统计数据所需要多次使用的数据类别将被集中到第一索引表中相对靠近头部的位置，从而加快对这些数据类别的存取。在一个实施例中，设备100被大量用于税收指数的计算，而税收指数与CPI较强地线性相关。此时，只需在第一索引表的头部位置存储CPI这一类别。在之后重复计算税收指数时，只需读取CPI这一类别即可基于线性拟合提供税收指数的估计值，响应速度将会因此得到提升。

此外，为了便于理解而使用了将特定数据类别存储在索引表头部或尾部的描述方式。但本领域技术人员将理解也可以仅改变按预定顺序存储的多个数据类别在索引表中的优先级。处理器101可以根据第二索引表仅改变第一索引表中各个类别的优先级，第一索引表中各个类别的存储顺序并不改变。优先级可以与第二索引表中各个类别的相关系数成正比。在对特定统计数据进行计算时，仅读取优先权最高的数据类别以便提高响应速度。

本发明的一些实施例已经在本文参考根据本发明的实施例的方法和设备的流程图图示和/或框图图示进行了描述。应理解流程图图示和/或框图图示中的每个框以及流程图图示和/或框图图示中的框的组合可以由计算机程序指令实现。这些计算机程序指令可提供给通用计算机、专用计算机的处理器或其它可编程数据处理装置来生产一种机器，使得能够经由计算机的处理器或其它可编程数据处理装置执行的指令创建用于实现在流程图和/或框图的框或多个框中规定的功能/动作的装置。

这些计算机程序指令还可存储在计算机可读存储器中，其可以指示计算机或其它可编程数据处理装置采用特定的方式起作用，使得存储在计算机可读存储器中的指令产生一种制造物品，其包括实现流程图和/或框图的框或多个框中规定的功能/动作的指令装置。

计算机程序指令还可装载到计算机或其它可编程数据处理装置上以促使要在计算机或其它可编程装置上执行的一系列运算步骤产生计算机实现的过程，使得在计算机或其它可编程装置上执行的指令提供用于实现流程图和/或框图的框或多个框中规定的功能/动作的步骤。

本领域技术人员将理解在各步骤中指出的功能/动作可脱离在操作图示中指出的顺序而发生。例如，连续示出的两个步骤实际上可大致上同时执行或可有时以逆向顺序执行，这取决于所牵涉的功能性/动作。

Claims

1.一种计算机实现的数据分类及处理方法，所述方法包括：

将所接收到的原始数据划分为多个类别；

将所述多个类别按预定顺序存储在第一索引表中；

对每一类别赋予不同的权重值，所述权重值通过由主成分分析提取的公共因子来确定；

根据用户输入的索引词从所述第一索引表中确定相关联的多个类别；

根据所确定的多个类别中每一个类别与所述所确定的多个类别基于所述权重值的加权平均值的相关系数将所述每一个类别按照相关系数从大到小的顺序存储在第二索引表中；

输出所述第二索引表中排在首位的类别；

以及以所述第二索引表为基础对所述第一索引表中所述多个类别的存储顺序进行调整。

2.如权利要求1所述的方法，其中所述预定顺序为从最早原始数据到最近原始数据排列的时间顺序。

3.如权利要求1所述的方法，其中所述第一索引表存储在非易失性存储器中。

4.如权利要求1所述的方法，其中所述第二索引表存储在易失性存储器中。

5.如权利要求1所述的方法，其中将从所接收到的原始数据划分为多个类别的步骤包括对所述原始数据进行标准化并划分为多个类别。

6.如权利要求1所述的方法，其中将从所接收到的原始数据划分为多个类别的步骤包括对以时间序列原始数据进行指数平滑并划分为多个类别。

7.如权利要求1所述的方法，其中所述原始数据通过有线或无线数据连接接收。

8.一种用于数据分类及处理的计算设备，包括处理器，存储器，通信接口，输入设备和输出设备，所述存储器中存储有可执行的指令，当所述指令被执行时使得所述处理器：

将从所述通信接口所接收到的原始数据划分为多个类别；

将所述多个类别按预定顺序存储在所述存储器的第一索引表中；

根据用户从所述输入设备输入的索引词从所述第一索引表中确定相关联的多个类别；

根据所确定的多个类别中每一个类别与所述所确定的多个类别基于所述权重值的加权平均值的相关系数将所述每一个类别按照相关系数从大到小的顺序存储在所述存储器的第二索引表中；

指示所述输出设备输出所述第二索引表中排在首位的类别；

9.如权利要求8所述的计算设备，其中所述存储器包括非易失性存储器和易失性存储器。