CN115470251A - 一种大数据分析展示装置 - Google Patents

一种大数据分析展示装置 Download PDF

Info

Publication number
CN115470251A
CN115470251A CN202211014232.3A CN202211014232A CN115470251A CN 115470251 A CN115470251 A CN 115470251A CN 202211014232 A CN202211014232 A CN 202211014232A CN 115470251 A CN115470251 A CN 115470251A
Authority
CN
China
Prior art keywords
data
module
analysis
display device
data analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211014232.3A
Other languages
English (en)
Inventor
任玉荣
方月月
陈晓娟
刘会锋
薛飞龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Tiancheng Software Co ltd
Original Assignee
Shaanxi Tiancheng Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Tiancheng Software Co ltd filed Critical Shaanxi Tiancheng Software Co ltd
Priority to CN202211014232.3A priority Critical patent/CN115470251A/zh
Publication of CN115470251A publication Critical patent/CN115470251A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Abstract

本发明公开了一种大数据分析展示装置,具体涉及计算机技术领域,包括用户设定模块、数据采集模块、数据处理模块、数据分析模块以及数据应用模块,用户通过用户设定模块对所要展示监测内容需求进行相关内容监测参数设定,数据采集模块采集相关内容的大数据信息发送至数据处理模块进行数据清洗与数据存储。本发明通过用户设定模块设定用户所要展示监测内容,然后由数据分析模块根据用户设定的需求,对存储在数据处理模块中的数据进行数据分析与挖掘,使其按设定需求进行分类,从而使得展示装置可根据用户想要关注的事情,采集分析该事件的影响因子,然后进行展示,有效避免隐私数据以及误点击数据一并展示。

Description

一种大数据分析展示装置
技术领域
本发明涉及计算机技术领域,更具体地说,本发明涉及一种大数据分析展示装置。
背景技术
随着计算机信息技术的不断发展,通过计算机对无法在时间范围内用常规的应用程序对其进行采集、分析和处理的数据汇集地,那么大数据分析指的是对已经获得的海量数据进行处理分析,从而满足多种数据集合的可视化的要求,一般地,对于处理完成的数据通过展示工具进行公布。
现有的展示装置主要包括数据采集模块、数据处理模块以及数据应用模块,数据采集模块采集相关内容的大数据信息(用户浏览数据)后,发送至数据处理模块处理,处理后的数据信息通过数据应用模块可视化展示、语音播报提示,但在实际使用中,用户存在不想展示的隐私数据,现有展示装置仅是通过采集用户浏览数据后进行相应推送,并不能根据用户想要关注的事情分析展示,且用户在浏览过程中,会出现误点击现象,此时展示装置也会将误点击浏览的内容一并展示,使用存在弊端,局限性大。
发明内容
为了克服现有技术的上述缺陷,本发明的实施例提供一种大数据分析展示装置,根据用户想要关注的事情,采集分析该事件的影响因子,然后进行展示,有效避免隐私数据以及误点击数据一并展示以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:包括用户设定模块、数据采集模块、数据处理模块、数据分析模块以及数据应用模块,用户通过用户设定模块对所要展示监测内容需求进行相关内容监测参数设定,数据采集模块采集相关内容的大数据信息发送至数据处理模块进行数据清洗与数据存储,数据分析模块分析挖掘和存储在数据处理模块中的数据进行数据,使其按设定需求进行分类,分类数据通过数据应用模块可视化展示、语音播报提示。
在一个优选的实施方式中,所述数据采集模块包括采集前端与采集传输单元,
所述采集前端,用于采集数据源内数据并对其进行前端校验、数据压缩、数据加密;
所述采集传输单元,用于对采集的数据进行括数据传输、数据格式校验、文件解压、文件解密。
在一个优选的实施方式中,所述数据处理模块包括数据存储单元与数据计算单元,
所述数据存储单元,用于对采集数据进行存储,根据存储数据类别将数据存储分为分布式文件系统、分布式数据库、关系形数据库和图数据库;
所述数据计算单元,用于为采集数据清洗、数据批处理、实时计算、数据分析提供算力、存储和相关工具。
在一个优选的实施方式中,所述数据分析模块,用于为设定内容所包含的大数据信息进行的分析和挖掘,形成供数据应用模块和数据分析模块直接使用的数据集市,所述数据集市数量至少有一个。
在一个优选的实施方式中,所述数据计算单元在进行数据清洗前对数据的来源渠道进行评级,对评级程度高的渠道进行抽检、对评级程度低的渠道进行全面清洗检查。
在一个优选的实施方式中,所述数据计算单元还根据数据的清洗结果对数据渠道评级进行反馈,调整各渠道的信任的评级,当对数据渠道进行数据清洗时,若检查错误率低,则调高其评级程度,反之调低其评级程度。
在一个优选的实施方式中,所述数据计算单元通过Logistic回归分析方法建构的评估模型对数据渠道评估;所述Logistic回归分析方法的指数方程为:
Figure BDA0003811868530000031
其中,P为该设定需求的影响系数,Q为常数项,即所有变量取值为0时该设定需求的影响系数;X1……Xn为具体的变量;T1……Tn为各个变量的回归系数。
在一个优选的实施方式中,所述数据应用模块包括语音播报单元以及可视化展示单元,所述语音播报单元用于对设定的监测需求内容进行语音播报,其通过接收数据分析模块的文字信息并通过引擎转换成语音信息播报给用户;所述可视化展示单元为显示器,用于展示检测内容。
在一个优选的实施方式中,所述数据处理模块中,对数据的清洗方法为先队列算法、SNM近邻排序算法或MPN多趟近邻排序中的任意一种。
本发明的技术效果和优点:
1、本发明通过用户设定模块设定用户所要展示监测内容,然后由数据分析模块根据用户设定的需求,对存储在数据处理模块中的数据进行数据分析与挖掘,使其按设定需求进行分类,从而使得展示装置可根据用户想要关注的事情,采集分析该事件的影响因子,然后进行展示,有效避免隐私数据以及误点击数据一并展示;
2、本发明在对数据进行清洗时,一方面对数据是否发送错误进行检测,另一方面为对错误数据通过算法进行纠错,其中,通过对数据的基本信息进行检测,从而判断数据是否有不准确、不合理和不完整的地方,其包括对数据的重复次数、空值、长度、数值、字段范围、字符、时间日期、逻辑公式以及关联关系进行检测;并根据不同的错误类型,用不同的方法对数据的错误进行纠正,通过对评级程度高的渠道数据进行抽检,对于评级程度低的渠道数据进行全面检查,这样设置,能够大大减小数据清洗的时间与处理量,更加符合大数据处理的现状,否则由于数据处理量大,清洗过程慢,占用资源多影响整体效率;
3、本发明根据数据的清洗结果对数据渠道评级进行反馈,调整各渠道的信任的评级,对于清洗检查错误率低的渠道调高其评级程度,对于清洗检查错误率高的渠道调低其评级程度。并相对应的改变对其数据的清洗方式,从而保证数据的清洗效率与准确度。
附图说明
图1为本发明的系统框图。
图2为本发明的系统工作流程图。
图3为本发明可视化展示单元的前端搭建示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅说明书附图1所示,本发明一种大数据分析展示装置通过分析接收的大数据信息,将该数据信息按设定需求进行分类,并对各数据进行规划展示,从而能够重点关注需求数据信息,其包括:用户设定模块、数据采集模块、数据处理模块、数据分析模块以及数据应用模块;
其中,
请参阅说明书附图2所示:所述用户设定模块用于用户自身对所要展示监测内容需求进行相关设定,所述数据采集模块用于对相关内容的大数据信息进行采集,并将信息发送至数据处理模块,所述数据处理模块用于接收数据采集模块发送的数据,并对其进行清洗与存储,所述数据分析模块用于根据用户设定的需求,对存储在数据处理模块中的数据进行数据分析与挖掘,使其按设定需求进行分类,所述数据应用模块用于面向用户对各类数据信息进行数据可视化展示、语音播报提示等功能,该展示装置在使用时,用户可通过用户设定模块设定所要展示监测内容,然后由数据分析模块根据用户设定的需求,对存储在数据处理模块中的数据进行数据分析与挖掘,使其按设定需求进行分类,从而使得展示装置可根据用户想要关注的事情,采集分析该事件的影响因子,然后进行展示,有效避免隐私数据以及误点击数据一并展示。
具体的,所述用户设定模块主要根据用户的自身需求来对相关监测参数进行设定,本发明使用场景繁多,例如某交警指挥大厅监测某路段交通道路信息、某气象指挥中心监测某地区气象条件信息、某电力公司监测某地区电力使用状态、某金融机构监测某区域企业相关数据等等。根据使用场景的不同,用户设定模块所设定的需求参数也不同,同时,相应的关联参数也不同。
所述数据采集模块可采集的大数据种类有很多,例如表单类、文本类、报文类、图片类、数据库类等,根据采集的不同种类数据,所述数据采集模块分别采用C/S、B/S两种采集方式。数据采集目标和场景分为报送数据采集和批量数据采集、根据采集目标和场景选择HTTPS、SFTP、Sqoop传输方式。详细的,所述数据采集模块包括采集前端与采集传输单元,所述采集前端用于采集数据源内数据并对其进行前端校验、数据压缩、数据加密等;所述采集传输单元用于对采集的数据进行括数据传输、数据格式校验、文件解压、文件解密等功能。本发明数据源可选用互联网采集或人工上传系统方式获取所需要的数据。
所述数据处理模块主要对采集的结构化、半结构化和非结构化数据的进行存储,并提供数据离线和实时计算功能。即其包括数据存储单元与数据计算单元。所述数据存储单元主要提供整个平台的数据存储功能,根据存储数据类别将数据存储分为分布式文件系统、分布式数据库、关系形数据库和图数据库。其中HDFS分布式文件系统为Hive分布式数据库提供底层文件系统;MPP主要应用于部分数据仓库和查询和实时分析要求较高的应用,通过Mysql集群实现;图数据库主要用于图类数据存储,通过Neo4j数据库实现。所述数据计算单元用于为数据清洗(ETL)、数据批处理、实时计算、数据分析提供可靠的算力、存储和相关工具;数据计算以Spark和MapReduce为计算引擎,根据计算数据相关要求和特点等需求,MapReduce用于大规模数据的离线批处理,Spark用于高速批处理和微批处理模式的流处理;数据分析支撑有Hive、Impala、SparkSQL等工具,根据实际使用场景选择不同分析工具。
所述数据分析模块用于为设定内容所包含的大数据信息进行的分析和挖掘,其通过回归分析的技术手段,形成可供数据应用模块和数据分析模块直接使用的数据集市,所述数据集市数量至少有一个,并通过统一的接口向外提供常规查询、海量数据分析、多维数据分析等丰富的使用场景。
本发明大数据分析展示装置设置有若干个接口,负责与上位机以及其他设备进行信息传输。
所述数据应用模块包括语音播报单元以及可视化展示单元,所述语音播报单元用于对设定的监测需求内容进行语音播报,其通过接收数据分析模块的文字信息并通过引擎转换成语音信息播报给用户;所述可视化展示单元用于展示检测内容,其采用显示器。
实施例2
本发明实施例2与上述实施例的区别在于,在上述实施例1中,大致介绍了本发明一种大数据分析展示装置的内部结构,在本实施例中,将对其中某些模块单元进行详细介绍。
本发明所述数据集市用于面向数据分析模块和数据应用模块直接使用和访问数据的集合,其为数据存储单元内部的一个子集,其通过计算和抽取数据存储单元的数据,形成解决特定问题和面向特定主题的数据集。其将设定的需求数据按不同类别进行分类处理,其中每一个类别为一个数据集市,从而便于后续数据应用模块进行调用。
所述数据计算单元用于再对数据进行提取计算前,对数据进行清洗,其目的是为了保证数据质量、提高数据的分析结果准确性。
具体的,本发明再对数据进行清洗时,一方面对数据是否发送错误进行检测,另一方面为对错误数据通过算法进行纠错。其中,本发明通过对数据的基本信息进行检测,从而判断数据是否有不准确、不合理和不完整的地方,其包括对数据的重复次数、空值、长度、数值、字段范围、字符、时间日期、逻辑公式以及关联关系进行检测;并根据不同的错误类型,用不同的方法对数据的错误进行纠正。例如,对空缺值采用删除数据、默认数据值填充、均值填充,中位数填充、0填充等方法,其中,均值填充为计算该列数据的均值进行填充,均值计算的常用公式为:
Figure BDA0003811868530000091
中位数填充为计算该列数据的中位数进行填充,中位数计算的常用公式为:
Figure BDA0003811868530000101
式中,x(n+1)/2中n为奇数,xn/2+x(n/2+1)/2中,n为偶数。
对于重复值的清洗方法主要有:先队列算法、近邻排序算法SNM、多趟近邻排序MPN等。
对于其他数据错误可采用计算机辅助人工处理,保证数据的准确性。
需要注意的是,由于互联网上信息鱼龙混杂,其信息来源途径的准确度先天便有不同。因此,本发明对于人工输入与专业权威网站发布的消息评级程度更高,而且对于普通一般渠道获取的信息评级程度较低,具体的表现为,本发明对评级程度高的渠道数据进行抽检,对于评级程度低的渠道数据进行全面检查,这样设置,能够大大减小数据清洗的时间与处理量,更加符合大数据处理的现状,否则由于数据处理量大,清洗过程慢,占用资源多影响整体效率。进一步的,为了同时保证数据的清洗效率与准确度,本发明还根据数据的清洗结果对数据渠道评级进行反馈,调整各渠道的信任的评级,即,对于清洗检查错误率低的渠道调高其评级程度,对于清洗检查错误率高的渠道调低其评级程度。并相对应的改变对其数据的清洗方式,从而保证数据的清洗效率与准确度。
实施例3
本发明实施例3与上述实施例的区别在于,在实施例2中仅介绍了数据分析模块通过计算和抽取数据存储单元的数据,形成解决特定问题和面向特定主题的数据集,并未对其具体计算方法进行介绍。
本实施例选用Logistic回归分析方法建构的评估模型对设定的需求问题进行整体评估。将设定的需求影响因素以及其结果分别设为自变量与自变量,并根据,从而根据回归方程进行整体评估。
本发明Logistic的指数方程为:
Figure BDA0003811868530000111
其中,P为该设定需求的影响系数,Q为常数项,即所有变量取值为0时该设定需求的影响系数;X1……Xn为具体的变量(其根据用户设定模块设定的需求确定);T1……Tn为相对应各个变量的回归系数(该系数越大所评估的影响系数越大)。
具体的,本发明影响评估量化模型由四个方面的逻辑因素组成:一是指标,即影响设定需求的因素;二是这些指标的回归系数,即每一种影响因素在综合评价设定需求的影响大小时所占的比重;三是运算方程式,即通过什么样的数学运算过程得出影响结果;四是影响结果,即将具有各自回归系数的指标通过运算方程式的运算所得出的结果。构建设定的需求问题进行整体评估量化模型的步骤包括四步:首先,对样本中采集到的各种评估因素进行数据转化和处理,转化成电脑软件可以识别的数据语言;其次,将这些评估因素运用SPSS软件进行Logistic回归分析,筛选出与结果具有重要相关性的因素(包括正面与负面)及其回归系数;再次,将评估因素和回归系数带入Logistic回归方程进行运算,从而得出结果。
其中,在对样本中采集到的各种评估因素进行数据转化和处理,转化成电脑软件可以识别的数据语言并通过SPSS软件筛选出具有重要相关性的因素及其回归系数中,所述样本数据根据数据采集模块采集得来;根据不同的设定需求与样本数据(数据途径来源)选择,SPSS软件确定的各指标回归系数也并不相同以及所有指标变量取值为0时Q的值也不同,本发明各指标回归系数用T1……Tn表示,影响设定需求的评估因素(即影响因素)分别用X1……Xn表示。
需要注意的是,所述回归系数的大小可正可负,即评估因素的影响可以为正面影响也可以为负面影响,其均能在回归方程内体现。从而能够更好地对设定需求的影响因素进行整体评估。
进一步的,由于对设定需求有负面影响的因素往往更加需要注意,其往往不及时处理会引发更严重的事故,而对设定需求进行整体评估时,可能会由于正面影响因素掩盖了负面影响因素的产生。因此,本实施例除了对设定的需求进行整体评估,还对负面影响因素进行单独评估,并根据评估结果看是否存有隐患,即将X1……Xn中正面影响因素设为0,看其评估值大小。
实施例4
本发明实施例4与上述实施例的区别在于,在上述实施例中,仅介绍了根据数据的清洗结果对数据渠道评级进行反馈,调整各渠道的信任的评级,并未介绍具体方法。
本实施例中数据计算单元同样采用Logistic回归分析方法建构的评估模型对数据渠道的评级问题进行整体评估。其中因变量为数据渠道的评级,自变量为各数据渠道的数据清洗时发生的错误。具体公式与流程与实施例3中类似,在此不多赘述。
进一步的,本发明还包括对各影响系数进行评级,如下表所示,
Figure BDA0003811868530000131
本发明在对设定需求进行评估时,采用样本量的20百分位点,按照影响大小将影响划分为五个位阶。并根据影响位阶的不同开展相应操作,例如根据位阶确定数据渠道的清洗策略。
实施例5
所述数据应用模块包括语音播报单元以及可视化展示单元,所述语音播报单元用于对设定的监测需求内容进行语音播报,其通过接收数据分析模块的文字信息并通过引擎转换成语音信息播报给用户;所述可视化展示单元用于展示检测内容,其采用显示器。
所述可视化展示单元的前端基于Vue.js框架技术栈搭建,其中,Vue.js组件包括构建视图,Vue.js框架技术栈包括画布组件和图表组件,画布组件中包含若干个图表组件。
请参阅说明书附图3所示,各个图表组件的前端用户事件主要通过vuex来进行管理,Actions主要响应在用户事件导致的状态变化,发送请求获取更新后的数据,然后获取数据变化后触发Mutations,Mutations是vuex中的事件处理器用来驱动状态的变化,触发State的变化,State是单一状态树,包含全部的组件的状态,State的变化会同步触发组件的重新渲染,整个过程符合Flux的设计理念,对系统中的组件状态进行有效管理,此外,由于系统前端页面设计为单页面应用,所以vue-router负责提供前端动态路由跳转。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。
最后应说明的几点是:上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘;
其次:本发明公开实施例附图中,只涉及到与本公开实施例涉及到的结构,其他结构可参考通常设计,在不冲突情况下,本发明同一实施例及不同实施例可以相互组合;
最后:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种大数据分析展示装置,其特征在于:包括用户设定模块、数据采集模块、数据处理模块、数据分析模块以及数据应用模块,用户通过用户设定模块对所要展示监测内容需求进行相关内容监测参数设定,数据采集模块采集相关内容的大数据信息发送至数据处理模块进行数据清洗与数据存储,数据分析模块分析挖掘和存储在数据处理模块中的数据进行数据,使其按设定需求进行分类,分类数据通过数据应用模块可视化展示、语音播报提示。
2.根据权利要求1所述的一种大数据分析展示装置,其特征在于:所述数据采集模块包括采集前端与采集传输单元;
所述采集前端,用于采集数据源内数据并对其进行前端校验、数据压缩、数据加密;
所述采集传输单元,用于对采集的数据进行数据传输、数据格式校验、文件解压、文件解密。
3.根据权利要求1所述的一种大数据分析展示装置,其特征在于:所述数据处理模块包括数据存储单元与数据计算单元,
所述数据存储单元,用于对采集数据进行存储,根据存储数据类别将数据存储分为分布式文件系统、分布式数据库、关系形数据库和图数据库;
所述数据计算单元,用于为采集数据清洗、数据批处理、实时计算、数据分析提供算力、存储和相关工具。
4.根据权利要求1所述的一种大数据分析展示装置,其特征在于:所述数据分析模块,用于为设定需求所包含的大数据信息进行的分析和挖掘,形成供数据应用模块和数据分析模块直接使用的数据集市,所述数据集市数量至少有一个。
5.根据权利要求1所述的一种大数据分析展示装置,其特征在于:所述数据计算单元在进行数据清洗前对数据的来源渠道进行评级,对评级程度高的渠道进行抽检、对评级程度低的渠道进行全面清洗检查。
6.根据权利要求5所述的一种大数据分析展示装置,其特征在于:所述数据计算单元还根据数据的清洗结果对数据渠道评级进行反馈,调整各渠道的信任的评级,当对数据渠道进行数据清洗时,若检查错误率低,则调高其评级程度,反之调低其评级程度。
7.根据权利要求4所述的一种大数据分析展示装置,其特征在于:所述数据计算单元通过Logistic回归分析方法建构的评估模型对数据渠道评估;所述Logistic回归分析方法的指数方程为:
Figure FDA0003811868520000021
其中,P为该设定需求的影响系数,Q为常数项,即所有变量取值为0时该设定需求的影响系数;X1……Xn为具体的变量;T1……Tn为各个变量的回归系数。
8.根据权利要求1所述的一种大数据分析展示装置,其特征在于:所述数据应用模块包括语音播报单元以及可视化展示单元,所述语音播报单元用于对设定的监测需求内容进行语音播报,其通过接收数据分析模块的文字信息并通过引擎转换成语音信息播报给用户;所述可视化展示单元为显示器,用于展示检测内容。
9.根据权利要求1-8任一项所述的一种大数据分析展示装置,其特征在于:所述数据处理模块中,对数据的清洗方法为先队列算法、SNM近邻排序算法或MPN多趟近邻排序中的任意一种。
CN202211014232.3A 2022-08-23 2022-08-23 一种大数据分析展示装置 Pending CN115470251A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211014232.3A CN115470251A (zh) 2022-08-23 2022-08-23 一种大数据分析展示装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211014232.3A CN115470251A (zh) 2022-08-23 2022-08-23 一种大数据分析展示装置

Publications (1)

Publication Number Publication Date
CN115470251A true CN115470251A (zh) 2022-12-13

Family

ID=84366727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211014232.3A Pending CN115470251A (zh) 2022-08-23 2022-08-23 一种大数据分析展示装置

Country Status (1)

Country Link
CN (1) CN115470251A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116932830A (zh) * 2023-08-18 2023-10-24 保定起成信息科技有限公司 一种高效大数据处理方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104044413A (zh) * 2013-03-14 2014-09-17 固特异轮胎和橡胶公司 预测的基于同等的轮胎健康监测
CN104112221A (zh) * 2014-07-02 2014-10-22 百度在线网络技术(北京)有限公司 渠道价值的确定方法和装置
CN105654356A (zh) * 2014-11-26 2016-06-08 奥多比公司 内容创建、部署合作以及取决于渠道的内容选择
CN107437151A (zh) * 2017-08-08 2017-12-05 惠国征信服务股份有限公司 企业信用评级方法
CN108647260A (zh) * 2018-04-27 2018-10-12 厦门南讯软件科技有限公司 一种个性化大数据分析系统和方法
CN108959356A (zh) * 2018-05-07 2018-12-07 国网上海市电力公司 一种智能配用电大数据应用系统数据集市建立方法
CN109408548A (zh) * 2018-09-19 2019-03-01 中国电力科学研究院有限公司 一种城市电力大数据应用系统及方法
CN111078679A (zh) * 2019-12-23 2020-04-28 用友网络科技股份有限公司 数据报表的生成方法、生成装置和计算机可读存储介质
CN111625573A (zh) * 2019-02-27 2020-09-04 苏州黑牛新媒体有限公司 一种大数据分析系统
CN111881224A (zh) * 2020-08-06 2020-11-03 广东省信息工程有限公司 一种多维数据分析方法及系统
CN111949632A (zh) * 2020-07-29 2020-11-17 苏州浪潮智能科技有限公司 一种集群环境下业务模型的展示方法及系统
CN113610564A (zh) * 2021-07-19 2021-11-05 上海浦东发展银行股份有限公司 展示信息的数据处理方法、设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104044413A (zh) * 2013-03-14 2014-09-17 固特异轮胎和橡胶公司 预测的基于同等的轮胎健康监测
CN104112221A (zh) * 2014-07-02 2014-10-22 百度在线网络技术(北京)有限公司 渠道价值的确定方法和装置
CN105654356A (zh) * 2014-11-26 2016-06-08 奥多比公司 内容创建、部署合作以及取决于渠道的内容选择
CN107437151A (zh) * 2017-08-08 2017-12-05 惠国征信服务股份有限公司 企业信用评级方法
CN108647260A (zh) * 2018-04-27 2018-10-12 厦门南讯软件科技有限公司 一种个性化大数据分析系统和方法
CN108959356A (zh) * 2018-05-07 2018-12-07 国网上海市电力公司 一种智能配用电大数据应用系统数据集市建立方法
CN109408548A (zh) * 2018-09-19 2019-03-01 中国电力科学研究院有限公司 一种城市电力大数据应用系统及方法
CN111625573A (zh) * 2019-02-27 2020-09-04 苏州黑牛新媒体有限公司 一种大数据分析系统
CN111078679A (zh) * 2019-12-23 2020-04-28 用友网络科技股份有限公司 数据报表的生成方法、生成装置和计算机可读存储介质
CN111949632A (zh) * 2020-07-29 2020-11-17 苏州浪潮智能科技有限公司 一种集群环境下业务模型的展示方法及系统
CN111881224A (zh) * 2020-08-06 2020-11-03 广东省信息工程有限公司 一种多维数据分析方法及系统
CN113610564A (zh) * 2021-07-19 2021-11-05 上海浦东发展银行股份有限公司 展示信息的数据处理方法、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116932830A (zh) * 2023-08-18 2023-10-24 保定起成信息科技有限公司 一种高效大数据处理方法及装置

Similar Documents

Publication Publication Date Title
US11670021B1 (en) Enhanced graphical user interface for representing events
US9477749B2 (en) Apparatus for identifying root cause using unstructured data
US10192331B2 (en) Analytical charting
US20100274785A1 (en) Database Analysis Using Clusters
JP2006012140A (ja) データパースペクティブ中の異常検出
CN111782644A (zh) 一种基于区块链技术的科研数据管理控制系统及方法
US8024336B2 (en) System and method for development of search success metrics
CN111680125A (zh) 诉讼案件分析方法、装置、计算机设备及存储介质
US20190197043A1 (en) System and method for analysis and represenation of data
CN115470251A (zh) 一种大数据分析展示装置
CN111159559A (zh) 根据用户需求和用户行为构建推荐引擎的方法
JP5324677B2 (ja) 類似文書検索支援装置及び類似文書検索支援プログラム
US10346421B1 (en) Data profiling of large datasets
CN117093762B (zh) 一种舆情数据评估分析系统及方法
CN110874366A (zh) 数据处理、查询方法和装置
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
US20150269241A1 (en) Time series clustering
CN107291749B (zh) 一种数据指标关联关系的确定方法及装置
US10824606B1 (en) Standardizing values of a dataset
US20220292127A1 (en) Information management system
US10650020B1 (en) Analyzing transformations for preprocessing datasets
CN114840530A (zh) 一种多元可视化的数据模型构建方法及系统
CN112100165A (zh) 基于质量评估的交通数据处理方法、系统、设备和介质
JP6999400B2 (ja) テキスト分析装置、テキスト分析方法、及び、テキスト分析プログラム
CN114579619B (zh) 数据查询方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221213

RJ01 Rejection of invention patent application after publication