CN109063115A

CN109063115A - 一种基于在线大数据的智能统计系统及方法

Info

Publication number: CN109063115A
Application number: CN201810852774.5A
Authority: CN
Inventors: 汪海波; 程乐
Original assignee: Huaian Vocational College of Information Technology
Current assignee: Huaian Vocational College of Information Technology
Priority date: 2018-07-30
Filing date: 2018-07-30
Publication date: 2018-12-21

Abstract

本发明公开一种基于在线大数据的智能统计系统及方法，其中，一种基于在线大数据的智能统计系统，其特征在于，包括系统管理模块、数据接收模块、文件管理模块、数据统计模块、数据分析模块、数据存储模块、查询模块、统计文件和数据文件；一种基于在线大数据的智能统计方法，其特征在于，包括在线数据统计方法和智能数据分析方法；所述数据统计模块能够生成统计算法并得到统计结果，不需要开发人员根据统计需求修改代码，减少了统计需求的实现时间，降低了成本；所述数据分析模块采用了分类分析的思想，方便信息化管理、提升信息化管理效率，提高了资源的利用数量及利用效率，帮助用户做出正确的判断，具有很高的应用价值。

Description

一种基于在线大数据的智能统计系统及方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于在线大数据的智能统计系统及方法。

背景技术

大数据，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。当前世界已经迎来了大数据时代，随着多媒体等多种技术的应用，社会中的相关领域时刻都涌现出大量的数据，增加了大数据背景下的智能数据处理以及分析的难度。通常情况下大数据具有复杂性，而且还具有数量大、分布式的特点，大数据需要特殊的处理技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理、数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

大数据的统计分析相比传统的数据分析，具有数据量大、查询分析复杂等特点，因而需要有新的大数据分析方法和理论的出现；一方面人们发现现有的单一智能数据分析方法已经不能全面、高效地胜任数据分析的工作；另一方面大数据的智能分析技术的发展还有赖于新型的数据存储和组织技术以及新的高效率的计算方法的支持。数据存储和组织技术应该采用的更好的分布式的数据存储策略，并尽量提高数据的吞吐效率、降低故障率。

信息系统中积累的大量数据，其原始数据的价值很小，只有通过智能化统计分析方法抽取其中的精华，才能转变为信息“金矿”，为人类造福。现有的数据统计分析系统比较固定，对于数据的统计不够细致、有序，此外，针对不同类型的数据无法根据数据自身的特性进行合理的分类处理，导致用户无法快速且精确的获得他们想要得到的信息，从而也不能帮助他们在有限的时间内作出正确的决定。

发明内容

本发明的目的在于提供一种基于在线大数据的智能统计系统及方法，以解决现有技术中的问题。

为实现上述目的，本发明的第一个目的在于提供一种基于在线大数据的智能统计系统，其特征在于，包括系统管理模块、数据接收模块、文件管理模块、数据统计模块、数据分析模块、数据存储模块、查询模块、统计文件和数据文件，其中：

所述系统管理模块用于对其他各模块进行启动、停止、调度管理及运行状态监测；

所述数据采集模块用于接收源数据，并将所述源数据及其数据格式传到所述文件管理模块；

所述文件管理模块用于接收到所述源数据后，按照设定的统计时间粒度将接收到的所述源数据根据统计文件控制表分组存放到各所述统计文件中；同时，设定一个超时时间，在存放一次数据之后，如果在一个统计时间粒度加上设定的超时时间之后还是没有该时间粒度的数据到来，则将各组所述统计文件发送给所述数据统计模块。

所述数据统计模块用于将各所述统计文件根据统计规则进行统计，生成统计结果，得到第一数据；

所述数据分析模块用于将经过所述数据统计模块得到的第一数据运用不同的智能数据分析方法进行分类处理，得到第二数据；

所述数据存储模块用于将经过所述数据分析模块得到的第二数据还原成单条记录，并存储在所述数据文件中；

所述查询模块用于用户根据自身需要对所述数据文件中的数据进行查询，获得想要的信息。

优化的，所述系统管理模块还用于根据计算机CPU的负荷情况增加或减少并行处理的所述数据统计模块的个数，同时还用于对异常状况进行报警及生成日志信息。

优化的，所述源数据包括：电商数据、交通旅游领域数据、金融行业数据、商场零售行业数据、医疗行业数据、资讯娱乐行业数据、公共政策信息数据和在线操作日志数据。

优化的，所述数据统计模块包括第一获取单元、第一生成单元、第一发送单元、第一接收单元，其中：

所述第一获取单元用于根据统计需求对应的标识符，读取所述统计需求对应的统计规则；根据所述统计规则，获取所述统计规则指定的数据，其中，所述统计规则指定的数据包括：待统计的数据表、统计字段、统计类型及统计结果的排序规则；

所述第一生成单元用于根据获取到的统计字段和统计类型，生成统计算法；根据所述统计算法、待统计的数据表和统计结果的排序规则，生成统计结果；

所述第一发送单元用于发送调用统计需求请求，以供系统管理模块根据所述调用统计需求请求，返回统计需求对应的所述标识符；

所述第一接收单元用于接收统计需求对应的所述标识符。

优化的，所述系统管理模块包括第二获取单元、第二生成单元、第二发送单元、第二接收单元，其中：

所述第二获取单元用于根据统计需求请求，选择统计需求对应的待统计的数据表，并获取统计字段、统计类型及统计结果的排序规则；

所述第二生成单元用于根据所述待统计的数据表、统计字段、统计类型及统计结果的排序规则，生成所述统计需求对应的统计规则及所述统计需求对应的标识符，以供数据统计系统根据所述统计规则生成统计算法；

所述第二发送单元具体用于根据所述调用统计需求请求，发送统计需求对应的标识符；

所述第二接收单元用于接收调用所述统计需求请求。

优化的，所述数据存储模块包括：数据加密单元、分析轨迹存储单元和疑点存储单元，其中：

所述数据加密单元，用于设置数据访问权限；

所述分析轨迹存储单元，用于对数据的分析轨迹进行识别和存储；

所述疑点存储单元，用于更新存在疑点的数据并供所述数据分析模块调用，并在出现同类信息时自动预警。

优化的，所述掌上查询模块包括：蓝牙服务器和掌上移动智能。

本发明的第二个目的在于提供一种基于在线大数据的智能统计方法，其特征在于，包括在线数据统计方法和智能数据分析方法。

进一步的，在线数据统计方法包括步骤：

所述数据统计模块发送调用统计需求请求，以供所述系统管理模块根据所述调用统计需求请求，返回统计需求对应的标识符；

所述系统管理模块根据统计需求请求，获取统计需求对应的待统计的数据表、统计字段、统计类型及统计结果的排序规则；

所述系统管理模块根据所述待统计的数据表、统计字段、统计类型及统计结果的排序规则，生成所述统计需求对应的统计规则及所述统计需求对应的标识符，以供数据统计系统根据统计规则生成统计算法；

所述数据统计模块接收统计需求对应的标识符；

所述数据统计模块根据所述统计需求对应的标识符，获取统计需求对应的统计规则；

所述数据统计模块获取所述统计规则指定的数据，其中，所述统计规则指定的数据包括：待统计的数据表、统计字段、统计类型及统计结果的排序规则；

所述数据统计模块根据获取到的统计字段和统计类型，生成统计算法；

所述数据统计模块根据所述统计算法、待统计的数据表和统计结果的排序规则，生成统计结果。

进一步的，所述智能数据分析方法采用了分类分析的思想，所述数据分析模块应用了智能数据分析技术，针对不同类型的数据采用不同分类的数据分析方法，包括决策树方法、关联规则方法、粗糙集方法、模糊数学分析方法、人工神经网络方法、混沌和分型理论方法、自然计算分析方法。

第一种是所述决策树方法，所述决策树方法是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法，它是建立在信息论基础之上对数据进行分类的一种方法，实现的输出结果容易理解，精确度较高，效率也较快，但是不能用来对复杂的数据进行处理与分析；

常用的方法有分类及回归树法、双方自动交互探测法等。其中分类树主要用于数据记录的标记和归类，回归树主要用于估计目标变量的数值。

第二种方法是所述关联规则方法，所述关联规则方法主要用于事物数据库中，关联规则分析发现大量数据中项集之间有价值的关联或相关联系，这种事物数据库通常都包括极为庞大的数据，因此，目前用来削减搜索空间。关联规则的常见算法有Apriori算法、基于划分的算法、FP-树频集算法等。

第三种方法是所述粗糙集方法，所述粗糙集方法能够对数据进行主观评价，只要通过观测数据，就可以清除冗余的信息，能够更好的支持大数据，。其思想主要来自统计学和机器学习，但并不是这两种工具随意的应用，它以粗糙集理论为基础，以数据表所表示的信息系统为载体，通过分析给定数据集的性质、粗糙分类、决策规则的确定性以及覆盖度因子等过程，从中获取隐含的、潜在有用的知识。

所述粗糙集方法无需提供对知识或数据的主观评价，仅根据观测数据就能达到删除冗余信息，非常适合并行计算、提供结果的直接解释。

第四种方法是所述模糊数学分析方法，所述模糊数学分析方法能够对实际问题进行模糊的分析，与其他的分析方法相比，能够取得更为客观的效果。现实世界中客观事物之间通常具有某种不确定性。越复杂的系统其精确性越低，也就意味着模糊性越强。在数据分析过程中，利用模糊集方法对实际问题进行模糊评判、模糊决策、模糊预测、模糊模式识别和模糊聚类分析，这样能够取得更好更客观的效果。

模糊分析方法不足主要表现在：用户驱动，用户参与过多；处理变量单一，不能处理定性变量和复杂数据，如非线性数据和多媒体数据；发现的事实或规则是以查询为主要目的，对预测和决策影响不大，而且过分依赖主观的经验。

第五种方法是所述人工神经网络方法，所述人工神经网络方法具有自学习功能，在此基础上还具有联想存储的功能；人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型，该模型由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数，每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆，网络的输出则依网络的连接方式，权重值和激励函数的不同而不同，而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

典型的神经网络模型主要分三大类，即前馈式神经网络模型，反馈式神经网络模型，自组织映射方法模型。人工神经网络具有非线性、非局限性、非常定性、非凸性等特点，它的优点有三个方面：第一，具有自学习功能；第二，具有联想存储功能；第三，具有高速寻找优化解的能力；

第六种方法是所述混沌和分形理论方法，所述混沌和分形理论方法主要是用来对自然社会中存在的现象进行解释，一般用来进行智能认知研究，还能应用于自动控制等众多领域中。

混沌和分形理论是非线性科学中的两个重要概念，研究非线性系统内部的确定性与随机性之间的关系。混沌描述的是非线性动力系统具有的一种不稳定且轨迹局限于有限区域但永不重复的运动，分形解释的是那些表面看上去杂乱无章、变幻莫测而实质上潜在有某种内在规律性的对象，因此，二者可以用来解释自然界以及社会科学中存在的许多普遍现象。其理论方法可以作为智能认知研究、图形图像处理、自动控制以及经济管理等诸多领域应用的基础。

第七种方法是所述自然计算分析方法，所述自然计算分析方法根据不同生物层面的模拟与仿真，通常可以分为以下三种不同类型的分析方法：一是群体智能算法，二是免疫算术方法，三是DNA算法。群体智能主要是对集体行为进行研究，免疫算法具有多样性，经典的主要有反向、克隆选择等，DNA算法主要属于随机化搜索方法，它可以进行全局寻优，在实际的运用中一般都能获取优化的搜索空间，在此基础上还能自动调整搜索方向，在整个过程中都不需要确定的规则，当前DNA算法普遍应用于多种行业中，并取得了不错的成效。

自然计算分析方法自然计算是指受自然界中生物体的启发，模拟或仿真实现发生在自然界中、易作为计算过程解释的动态过程。针对不同生层面的模拟与仿真，有群体智能算法、免疫算法、DNA算法等。

群体智能是一种模仿自然界动物昆虫觅食筑巢行为的新兴演化计算技术，研究的是由若干简单个体组成的分散系统的集体行为，每个个体与其他个体以及环境都有相互作用。目前主要的SI算法有粒子群优化算法，蚁群算法，文化算法，人工鱼群算法以及觅食算法，经典免疫算法有反向选择、克隆选择、免疫网络、危险理论等。

遗传算法是一类借鉴生物界的进化规律(适者生存，优胜劣汰遗传机制)演化而来的随机化搜索方法，其主要特点是直接对结构对象进行操作，不存在求导和函数连续性的限定；具有内在的隐并行性和更好的全局寻优能力；采用概率化的寻优方法，能自动获取和指导优化的搜索空间，自适应地调整搜索方向，不需要确定的规则。

本发明的有益效果是：本发明提供的基于在线大数据的智能统计系统及方法一方面通过所述数据统计模块获取统计需求对应的统计规则，根据统计规则指定的数据，生成统计算法和统计结果，所述数据统计模块能够生成统计算法并得到统计结果，不需要由开发人员根据统计需求修改代码，减少了统计需求的实现时间，并降低了统计需求所需成本；另一方面所述数据分析模块采用了分类分析的思想，针对不同类型的数据运用不同的智能分析方法，避免了用同一种方法处理不同数据时会产生的处理效率差异和信息获取不精确的问题，方便信息化管理、提升信息化管理效率的作用，可以大大提高在统计平台上资源的利用数量及利用效率，帮助用户做出正确的判断和预测，而且可以实现资源的共享、自动部署及动态调整，具有很高的应用价值。

附图说明

下面结合附图对本发明进一步说明。

图1为本发明一种基于在线大数据的智能统计系统的结构示意图；

图2为本发明一种基于在线大数据的智能统计系统中数据统计模块的结构示意图；

图3为本发明一种基于在线大数据的智能统计系统中数据分析模块的结构示意图；

图4为本发明一种基于在线大数据的智能统计系统中系统管理模块的结构示意图；

图5为本发明一种基于在线大数据的智能统计系统中数据存储模块的结构示意图；

图6为本发明一种基于在线大数据的智能统计系统中查询模块的结构示意图；

图7为本发明一种基于在线大数据的智能统计系统与方法中的数据统计流程图；

图8为本发明一种基于在线大数据的智能统计系统与方法中的系统管理模块接收请求后的处理流程图；

图9为本发明一种基于在线大数据的智能统计系统与方法中的统计结果生成具体流程图。

图中：1-源数据、2-数据采集模块、3-文件管理模块、4-数据统计模块、5-数据分析模块、6-数据存储模块、7-查询模块、8-系统管理模块、9-统计文件、10-数据文件、401-第一获取单元、402-第一生成单元、403-第一发送单元、404-第一接收单元、501-决策树方法、502-关联规则方法、503-粗糙集方法、504-模糊数学分析方法、505-人工神经网络方法、506-混沌和分型理论方法、507-自然计算分析方法、801-第二获取单元、802-第二生成单元、803-第二发送单元、804-第一接收单元、601-数据加密单元、602-分析轨迹存储单元、603-疑点存储单元、701-蓝牙服务器、702-掌上移动设备。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1～6，本发明实施例中，第一个目的在于提供一种基于在线大数据的智能统计系统，其特征在于，包括系统管理模块8、数据采集模块2、文件管理模块3、数据统计模块4、数据分析模块5、数据存储模块6、查询模块7、统计文件9和数据文件10，其中：

所述系统管理模块8用于对其他各模块进行启动、停止、调度管理及运行状态监测；

所述数据采集2模块用于接收源数据1，并将所述源数据1及其数据格式传到所述文件管理模块2；

所述文件管理模块2用于接收到所述源数据1后，按照设定的统计时间粒度将接收到的所述源数据1根据统计文件控制表分组存放到各所述统计文件9中；同时，设定一个超时时间，在存放一次数据之后，如果在一个统计时间粒度加上设定的超时时间之后还是没有该时间粒度的数据到来，则将各组所述统计文件9发送给所述数据统计模块4。

所述数据统计模块4用于将各所述统计文件9根据统计规则进行统计，生成统计结果，得到第一数据；

所述数据分析模块5用于将经过所述数据统计模块4得到的第一数据运用不同的智能数据分析方法进行分类处理，得到第二数据；

所述数据存储模块6用于将经过所述数据分析模块5得到的第二数据还原成单条记录，并存储在所述数据文件10中；

所述查询模块7用于用户根据自身需要对所述数据文件10中的数据进行查询，获得想要的信息。

所述系统管理模块8还用于根据计算机CPU的负荷情况增加或减少并行处理的所述数据统计模块4的个数，同时还用于对异常状况进行报警及生成日志信息。

所述源数据1包括：电商数据、交通旅游领域数据、金融行业数据、商场零售行业数据、医疗行业数据、资讯娱乐行业数据、公共政策信息数据和在线操作日志数据。

所述数据统计模块4包括第一获取单元401、第一生成单元402、第一发送单元403、第一接收单元404，其中：

所述第一获取单元401用于根据统计需求对应的标识符，读取所述统计需求对应的统计规则；根据所述统计规则，获取所述统计规则指定的数据，其中，所述统计规则指定的数据包括：待统计的数据表、统计字段、统计类型及统计结果的排序规则；

所述第一生成单元402用于根据获取到的统计字段和统计类型，生成统计算法；根据所述统计算法、待统计的数据表和统计结果的排序规则，生成统计结果；

所述第一发送单元403用于发送调用统计需求请求，以供系统管理模块根据所述调用统计需求请求，返回统计需求对应的所述标识符；

所述第一接收单元404用于接收统计需求对应的所述标识符。

所述系统管理模块8包括第二获取单元801、第二生成单元802、第二发送单元803、第二接收单元804，其中：

所述第二获取单元801用于根据统计需求请求，选择统计需求对应的待统计的数据表，并获取统计字段、统计类型及统计结果的排序规则；

所述第二生成单元802用于根据所述待统计的数据表、统计字段、统计类型及统计结果的排序规则，生成所述统计需求对应的统计规则及所述统计需求对应的标识符，以供数据统计系统根据所述统计规则生成统计算法；

所述第二发送单元803具体用于根据所述调用统计需求请求，发送统计需求对应的标识符；

所述第二接收单元804用于接收调用所述统计需求请求。

所述数据存储模块6包括：数据加密单元601、分析轨迹存储单元602和疑点存储单元603，其中：

所述数据加密单元601，用于设置数据访问权限；

所述分析轨迹存储单元602，用于对数据的分析轨迹进行识别和存储；

所述疑点存储单元603，用于更新存在疑点的数据并供所述数据分析模块调用，并在出现同类信息时自动预警。

所述掌上查询模块7包括：蓝牙服务器701和掌上移动智能702。

请参阅图7～9，本发明实施例中，第二个目的在于提供一种基于在线大数据的智能统计方法，其特征在于，包括在线数据统计方法和智能数据分析方法。

其中，在线数据统计方法包括步骤：

所述数据统计模块4发送调用统计需求请求，以供所述系统管理模块8根据所述调用统计需求请求，返回统计需求对应的标识符；

所述系统管理模块8根据统计需求请求，获取统计需求对应的待统计的数据表、统计字段、统计类型及统计结果的排序规则；

所述系统管理模块8根据所述待统计的数据表、统计字段、统计类型及统计结果的排序规则，生成所述统计需求对应的统计规则及所述统计需求对应的标识符，以供数据统计系统根据统计规则生成统计算法；

所述数据统计模块4接收统计需求对应的标识符；

所述数据统计模块4根据所述统计需求对应的标识符，获取统计需求对应的统计规则；

所述数据统计模块4获取所述统计规则指定的数据，其中，所述统计规则指定的数据包括：待统计的数据表、统计字段、统计类型及统计结果的排序规则；

所述数据统计模块4根据获取到的统计字段和统计类型，生成统计算法；

所述数据统计模块4根据所述统计算法、待统计的数据表和统计结果的排序规则，生成统计结果。

所述智能数据分析方法采用了分类分析的思想，所述数据分析模块5应用了智能数据分析技术，针对不同类型的数据采用不同分类的数据分析方法，包括决策树方法501、关联规则方法502、粗糙集方法503、模糊数学分析方法504、人工神经网络方法505、混沌和分型理论方法506、自然计算分析方法507。

第一种是所述决策树方法507，所述决策树方法507是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法，它是建立在信息论基础之上对数据进行分类的一种方法，实现的输出结果容易理解，精确度较高，效率也较快，但是不能用来对复杂的数据进行处理与分析；

第二种方法是所述关联规则方法502，所述关联规则方法502主要用于事物数据库中，关联规则分析发现大量数据中项集之间有价值的关联或相关联系，这种事物数据库通常都包括极为庞大的数据，因此，目前用来削减搜索空间。关联规则的常见算法有Apriori算法、基于划分的算法、FP-树频集算法等。

第三种方法是所述粗糙集方法503，所述粗糙集方法503能够对数据进行主观评价，只要通过观测数据，就可以清除冗余的信息，能够更好的支持大数据。其思想主要来自统计学和机器学习，但并不是这两种工具随意的应用，它以粗糙集理论为基础，以数据表所表示的信息系统为载体，通过分析给定数据集的性质、粗糙分类、决策规则的确定性以及覆盖度因子等过程，从中获取隐含的、潜在有用的知识。

第四种方法是所述模糊数学分析方法504，所述模糊数学分析方法504能够对实际问题进行模糊的分析，与其他的分析方法相比，能够取得更为客观的效果。现实世界中客观事物之间通常具有某种不确定性。越复杂的系统其精确性越低，也就意味着模糊性越强。在数据分析过程中，利用模糊集方法对实际问题进行模糊评判、模糊决策、模糊预测、模糊模式识别和模糊聚类分析，这样能够取得更好更客观的效果。

第五种方法是所述人工神经网络方法505，所述人工神经网络方法505具有自学习功能，在此基础上还具有联想存储的功能；人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型，该模型由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数，每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆，网络的输出则依网络的连接方式，权重值和激励函数的不同而不同，而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

第六种方法是所述506混沌和分形理论方法，所述混沌和分形理论方法506主要是用来对自然社会中存在的现象进行解释，一般用来进行智能认知研究，还能应用于自动控制等众多领域中。

第七种方法是所述自然计算分析方法507，所述自然计算分析方法507根据不同生物层面的模拟与仿真，通常可以分为以下三种不同类型的分析方法：一是群体智能算法，二是免疫算术方法，三是DNA算法。群体智能主要是对集体行为进行研究，免疫算法具有多样性，经典的主要有反向、克隆选择等，DNA算法主要属于随机化搜索方法，它可以进行全局寻优，在实际的运用中一般都能获取优化的搜索空间，在此基础上还能自动调整搜索方向，在整个过程中都不需要确定的规则，当前DNA算法普遍应用于多种行业中，并取得了不错的成效。

本发明的工作原理是：

本发明提供的基于在线大数据的智能统计系统及方法一方面通过所述数据统计模块获取统计需求对应的统计规则，根据统计规则指定的数据，生成统计算法和统计结果，数据统计模块能够生成统计算法并得到统计结果，不需要由开发人员根据统计需求修改代码，减少了统计需求的实现时间，并降低了统计需求所需成本；另一方面所述数据分析模块采用了分类分析的思想，针对不同类型的数据运用不同的智能分析方法，避免了用同一种方法处理不同数据时会产生的处理效率差异和信息获取不准确的问题，方便信息化管理、提升信息化管理效率的作用，可以大大提高在统计平台上资源的利用数量及利用效率，帮助用户做出正确的判断和预测，而且可以实现资源的共享、自动部署及动态调整，具有很高的应用价值。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于在线大数据的智能统计系统，其特征在于，包括系统管理模块(8)、数据采集模块(2)、文件管理模块(3)、数据统计模块(4)、数据分析模块(5)、数据存储模块(6)、查询模块(7)、统计文件(9)和数据文件(10)，其中：

所述系统管理模块(8)用于对其他各模块进行启动、停止、调度管理及运行状态监测；

所述数据采集(2)模块用于接收源数据(1)，并将所述源数据(1)及其数据格式传到所述文件管理模块(2)；

所述文件管理模块(2)用于接收到所述源数据(1)后，按照设定的统计时间粒度将接收到的所述源数据(1)根据统计文件控制表分组存放到各所述统计文件(9)中；同时，设定一个超时时间，在存放一次数据之后，如果在一个统计时间粒度加上设定的超时时间之后还是没有该时间粒度的数据到来，则将各组所述统计文件(9)发送给所述数据统计模块(4)。

所述数据统计模块(4)用于将各所述统计文件(9)根据统计规则进行统计，生成统计结果，得到第一数据；

所述数据分析模块(5)用于将经过所述数据统计模块(4)得到的第一数据运用不同的智能数据分析方法进行分类处理，得到第二数据；

所述数据存储模块(6)用于将经过所述数据分析模块(5)得到的第二数据还原成单条记录，并存储在所述数据文件(10)中；

所述查询模块(7)用于用户根据自身需要对所述数据文件(10)中的数据进行查询，获得想要的信息。

2.根据权利要求1所述的一种基于在线大数据的智能统计系统，其特征在于，所述系统管理模块(8)还用于根据计算机CPU的负荷情况增加或减少并行处理的所述数据统计模块(4)的个数，同时还用于对异常状况进行报警及生成日志信息。

3.根据权利要求2所述的一种基于在线大数据的智能统计系统，其特征在于，所述源数据(1)包括：电商数据、交通旅游领域数据、金融行业数据、商场零售行业数据、医疗行业数据、资讯娱乐行业数据、公共政策信息数据和在线操作日志数据。

4.根据权利要求3所述的一种基于在线大数据的智能统计系统，其特征在于，所述数据统计模块(4)包括第一获取单元(401)、第一生成单元(402)、第一发送单元(403)、第一接收单元(404)，其中：

所述第一获取单元(401)用于根据统计需求对应的标识符，读取所述统计需求对应的统计规则；根据所述统计规则，获取所述统计规则指定的数据，其中，所述统计规则指定的数据包括：待统计的数据表、统计字段、统计类型及统计结果的排序规则；

所述第一生成单元(402)用于根据获取到的统计字段和统计类型，生成统计算法；根据所述统计算法、待统计的数据表和统计结果的排序规则，生成统计结果；

所述第一发送单元(403)用于发送调用统计需求请求，以供系统管理模块根据所述调用统计需求请求，返回统计需求对应的所述标识符；

所述第一接收单元(404)用于接收统计需求对应的所述标识符。

5.根据权利要求4所述的一种基于在线大数据的智能统计系统，其特征在于，所述系统管理模块(8)包括第二获取单元(801)、第二生成单元(802)、第二发送单元(803)、第二接收单元(804)，其中：

所述第二获取单元(801)用于根据统计需求请求，选择统计需求对应的待统计的数据表，并获取统计字段、统计类型及统计结果的排序规则；

所述第二生成单元(802)用于根据所述待统计的数据表、统计字段、统计类型及统计结果的排序规则，生成所述统计需求对应的统计规则及所述统计需求对应的标识符，以供数据统计系统根据所述统计规则生成统计算法；

所述第二发送单元(803)具体用于根据所述调用统计需求请求，发送统计需求对应的标识符；

所述第二接收单元(804)用于接收调用所述统计需求请求。

6.根据权利要求5所述的一种基于在线大数据的智能统计系统，其特征在于，所述数据存储模块(6)包括：数据加密单元(601)、分析轨迹存储单元(602)和疑点存储单元(603)，其中：

所述数据加密单元(601)，用于设置数据访问权限；

所述分析轨迹存储单元(602)，用于对数据的分析轨迹进行识别和存储；

所述疑点存储单元(603)，用于更新存在疑点的数据并供所述数据分析模块调用，并在出现同类信息时自动预警。

7.根据权利要求6所述的一种基于在线大数据的智能统计系统，其特征在于，所述掌上查询模块(7)包括：蓝牙服务器(701)和掌上移动智能(702)。

8.一种基于在线大数据的智能统计方法，其特征在于，包括在线数据统计方法和智能数据分析方法。

9.根据权利要求8所述的一种基于在线大数据的智能统计方法，其特征在于，在线数据统计方法包括步骤：

所述数据统计模块(4)发送调用统计需求请求，以供所述系统管理模块(8)根据所述调用统计需求请求，返回统计需求对应的标识符；

所述系统管理模块(8)根据统计需求请求，获取统计需求对应的待统计的数据表、统计字段、统计类型及统计结果的排序规则；

所述系统管理模块(8)根据所述待统计的数据表、统计字段、统计类型及统计结果的排序规则，生成所述统计需求对应的统计规则及所述统计需求对应的标识符，以供数据统计系统根据统计规则生成统计算法；

所述数据统计模块(4)接收统计需求对应的标识符；

所述数据统计模块(4)根据所述统计需求对应的标识符，获取统计需求对应的统计规则；

所述数据统计模块(4)获取所述统计规则指定的数据，其中，所述统计规则指定的数据包括：待统计的数据表、统计字段、统计类型及统计结果的排序规则；

所述数据统计模块(4)根据获取到的统计字段和统计类型，生成统计算法；

所述数据统计模块(4)根据所述统计算法、待统计的数据表和统计结果的排序规则，生成统计结果。

10.根据权利要求9所述的一种基于在线大数据的智能统计方法，其特征在于，所述智能数据分析方法采用了分类分析的思想，所述数据分析模块(5)应用了智能数据分析技术，针对不同类型的数据采用不同分类的数据分析方法，包括决策树方法(501)、关联规则方法(502)、粗糙集方法(503)、模糊数学分析方法(504)、人工神经网络方法(505)、混沌和分型理论方法(506)、自然计算分析方法(507)。