CN110046294A - 一种基于电力大数据的能源资讯系统 - Google Patents
一种基于电力大数据的能源资讯系统 Download PDFInfo
- Publication number
- CN110046294A CN110046294A CN201910159050.7A CN201910159050A CN110046294A CN 110046294 A CN110046294 A CN 110046294A CN 201910159050 A CN201910159050 A CN 201910159050A CN 110046294 A CN110046294 A CN 110046294A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- electric power
- module
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 238000007405 data analysis Methods 0.000 claims abstract description 14
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 12
- 238000004140 cleaning Methods 0.000 claims abstract description 10
- 238000007418 data mining Methods 0.000 claims abstract description 10
- 238000005516 engineering process Methods 0.000 claims abstract description 7
- 230000004931 aggregating effect Effects 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 238000010200 validation analysis Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 230000009193 crawling Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 238000006116 polymerization reaction Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 230000015556 catabolic process Effects 0.000 claims description 3
- 238000013523 data management Methods 0.000 claims description 3
- 238000006731 degradation reaction Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 239000002994 raw material Substances 0.000 claims description 3
- 238000009412 basement excavation Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000013480 data collection Methods 0.000 claims 1
- 230000005611 electricity Effects 0.000 abstract description 3
- 238000011160 research Methods 0.000 description 33
- 238000011161 development Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000012925 reference material Substances 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 235000001674 Agaricus brunnescens Nutrition 0.000 description 1
- 241001282153 Scopelogadus mizolepis Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 238000000227 grinding Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于电力大数据的能源资讯系统。本发明包括电力栏目模块、数据爬取模块、数据分析模块、数据挖掘模块和智能推荐模块;所述电力栏目模块,基于电力资讯的海量数据,从中提取关键词,并累计数量,按照降序排列,最终生成出现频率高的关键词作为电力栏目;通过聚合算法生成电力栏目。本发明充分结合移动互联网,基于数据爬取技术,通过网络爬虫工具分析当前主流系统获取电力行业信息;对数据进行清洗分析,深度挖掘形成有价值的参考信息,为电力市场提供数据服务、分析服务、应用服务和平台服务等。
Description
技术领域
本发明属于大数据应用技术领域,涉及一种基于电力大数据的能源资讯系统。
背景技术
随着人类社会活动的日趋数据化,数据密集型科学将继“实验、理论、模拟三个范式”之后,成为人类科学研究的第四个范式,而大数据将成为科学研究变革的核心。这场变革无疑给传统社会科学研究以及传统智库的发展带来了重大挑战。
大数据时代,传统智库的局限性逐渐暴露出来,突出表现在研究周期长以至于研究成果不能满足快速变化的实际需要,缺少现实数据支撑以至于研究成果的客观性易受质疑,以及短期应急研究多而战略性研究难以开展三方面。这些局限性的产生主要是由于传统智库难以适应大数据引起的新观念变革,集中体现在传统科研方式方法难以应对大数据带来的科研生产力和科研生产资料的变革上。
1.手工作坊式研究方式难以应对大数据的大体量、低价值密度和高处理速度要求。
面对大数据时代的各种挑战,传统手工作坊式科研方式显然不能适应现代化发展需求。传统科研方式是包含资料搜集、筛选、分类和分析等活动在内的个人或几个人联合的科研行为,最大的特点是人工劳作,犹如远古时代刀耕火种的农民,很少采用现代化生产工具,个人经验、个人能力是科研成败优劣的关键,并且科研合作大多也是停留在有限地域内自然分工之上。虽然不能否定个人在科研活动中的能动作用,但是在信息化高速发展的今天,高效的科研生产工具是快速应对各种课题研究、提升研究成果质量、增强智库核心竞争力的基本手段,还能够迅速提升智库、科研队伍的整体层次,这些是仅仅依赖个人之力无法做到的。在这个大数据爆炸的时代,离开计算机工具的辅助。
大数据时代科研活动的各个过程、各个环节都将发生重大变革。首先,在科研启动阶段,最基本的数据采集也有别于传统的图书资料收集,因为现在很多数据尤其是个人行为数据往往保存在网络上,这颠覆了传统的图书资料保存收集模式,比如需要做一项互联网负面舆论传播调查报告并进行跟踪,从图书馆根本不可能获得任何有用数据,从互联网各大主流门户网站、论坛一一搜集筛选也将是人力难以企及的,要进一步实施跟踪预判,离开计算机工具辅助简直是天方夜谭。其次,在科研资料筛选分类上,现代化的计算机辅助工具优势更是得天独厚,现在大行其道的各类计算机信息检索工具就是例证。此外,智能化的检索分类工具正如雨后春笋般纷纷冒出,它们不仅仅是检索更在于关联和分类,如自动内容检索分类,相关研究课题的挖掘、研究人员、研究动态的跟踪等。最后,在数据分析阶段,通过预置不同理论模型和参数可以进行有效的自动化数据演算或仿真,或者选定回归模型进行参数估算,或者无模型的数据规律自动发现,等等,例如在战略性研究中需要通过宏观经济计量 模型动态跟踪经济发展态势、自动评估预测未来经济发展形势。大数据时代科研活动的变革要求必须普及现代化的科研工具的运用,而智库作为科研活动的新力军更应该一马当先。
2.研究人员的计算机运用能力难以适应大数据新技术的应用要求。
大数据在给科研带来便捷的同时,对研究人员的计算机技能提出了更高的内在要求。在大数据的辅助下,一篇图文并茂的论文瞬间可就,研究人员几乎不用再把大量的精力和时间消耗在打字、制表、画图、检索活动上。但另一方面论文的质量就严重依赖于研究人员对大数据的理解和运用能力了。这对传统的研究人员提出了重大挑战,他们必须熟悉专业领域知识,必须掌握大数据管理、分析技能。随着大数据的深入发展和研究领域融合,在海量数据面前,研究人员将不得不提升大数据运用能力。
总之,传统的手工作坊式科研生产方式和纸质图书科研资料正在逐渐被时代摒弃,取而代之的将是以自动化、智能化、综合化为代表的新科研生产力,其标志就是大数据抓取、加工、分析、模拟、预测、可视化的一体化集成工具的出现。
发明内容
本发明所要解决的技术问题是提供一种基于电力大数据的能源资讯系统,其从横向分析,扩充运营仿真指标库,加强指标库建设,深入研究市场化电力产品及服务设计方法,提升平台仿真模拟能力;从纵向研究,深入开展数据域建设,多角度挖掘数据,完善数据域,提升实验室平台能力。
为此,本发明采用如下的技术方案:一种基于电力大数据的能源资讯系统,包括电力栏目模块、数据爬取模块、数据分析模块、数据挖掘模块和智能推荐模块,数据爬取为能源资讯平台的基础,主要用来提供原始数据,数据爬取下来后数据分析模块对数据进行处理,处理成可用的数据形式,进而提炼出电力栏目,各模块之间层层递进;
所述电力栏目模块,基于电力资讯的海量数据,从中提取关键词,并累计数量,按照降序排列,最终生成出现频率高的关键词作为电力栏目;通过聚合算法生成电力栏目,聚合算法包括两个层面:数据加工层和数据业务层;数据加工层,从公众号、电力官网数据源的数据、清洗和提出数据,最终进入数据池;数据业务层,数据加工层为数据业务层提供最基础的数据能力,提供数据原材料,业务层属于公共资源层,主要用来维护整个栏目体系,定义业务方需要的栏目,创建栏目实例,执行电力栏目实例,提供相应数据;
所述的数据爬取模块,通过网络爬虫工具爬取公众号、电力官网等等数据源的数据,获取电力行业信息;
所述的数据分析模块,对获取的行业信息进行数据处理分析,包括数据清洗、数据转换、数据集成、数据消减、标签管理、贴标签和统计分析;按模型数据要求对基础数据进行数据清洗、转换、集成和消减,保证数据的可用性和完整性;通过标签管理、贴标签和统计分析形成数据标签;
所述的数据挖掘模块,包括挖掘建模、模型成果和应用优化,建模人员选用恰当的模型技术,利用训练数据集来训练并建立模型,输出模型成果,包括三个输出物:模型说明文档、模型结果数据和模型成果应用建议书,在应用中使用模型挖掘结果数据,并通过分组对比和专题评价,对模型应用进行全面的评估;结合评估结果,进一步优化模型,直至达到所要求的模型应用效果为止;
所述的智能推荐模块,用于给用户推荐标签,包括用户建模、推荐算法和标签推荐,智能推荐模块通过用户行为,建立用户模型,通过内容的信息,建立推荐对象模型,通过用户兴趣匹配内容的特征信息,再经过推荐算法计算筛选,找到用户感兴趣的推荐对象,然后推荐给用户;
所述智能推荐模块推荐的数据标签通过前端进行展示。
数据加工层主要基于爬取的电力行业资讯,清洗聚合生成原始数据,业务层主要是用户在使用过程中,收藏,点赞,关注度,重新生成个性化电力栏目。
进一步地,所述的数据爬取模块包括爬取任务子模块、数据导出子模块和爬取数据源,根据爬取任务子模块中的任务,利用网络爬虫自动抓取当前主流系统获取行业信息,将行业信息导出并储存于爬取数据源中。
进一步地,所述的网络爬虫工具,按照设定的规则,自动地抓取网络信息的程序或者脚本,被广泛用于互联网搜索引擎或其他类似网站,自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。
进一步地,所述挖掘建模的过程如下:在取得多份样本后,将部分样本作为训练数据集,其余样本则作为验证数据集;选用最恰当的模型技术,利用训练数据集来训练并建立模型,利用验证数据集来验证在已经建立的模型;验证数据集和训练数据集是互相独立的,所建立的模型只“见过”训练数据集的数据,而验证数据集对已建立的模型来说则是全新的数据,用来验证已建立的模型是否可以维持大致相同的模型准确性。
进一步地,如果利用验证数据集验证已建立的模型的结果发现模型的准确性有很大的差异,则应回到建模阶段来检查所抽取的数据样本的数据质量,看是否有明显的缺值或异常值,如有此类数据,则应先将这些数据做一适当的处理,再重新抽取样本执行模型,如此重复,直到验证数据集可以验证已建立的模型可维持一个大致相同的模型准确性。
本发明具有的有益效果如下:本发明充分结合移动互联网,基于数据爬取技术,通过网络爬虫工具分析当前主流系统获取电力行业信息;对数据进行清洗分析,深度挖掘形成有价值的参考信息,为电力市场提供数据服务、分析服务、应用服务和平台服务等。
附图说明
图1为本发明能源资讯平台的组成图;
图2为本发明能源资讯平台的应用系统架构图。
具体实施方式
下面结合说明书附图和具体实施方式对本发明的技术方案作进一步详细说明。
本发明以大数据分析平台为基础,建立电力行业能源资讯平台,基于互联网+和大数据技术实现数据爬取、数据分析、数据挖掘、智能推荐、APP展示等功能。其包含以下模块,如图1所示:
(1)数据爬取模块。需要爬取的数据源包括公众号、电力官网、统计局等媒体的数据。如爬取的数据可能包括:评论采集字段详细说明:发文ID,发文时间,链接,内容以及评论等。
网络爬虫(Web crawler),是一种按照设定的规则,自动地抓取网络信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
(2)数据分析模块,数据预处理,数据预处理是数据分析与挖掘(知识发现)过程中的一个重要步骤,尤其是在对包含有噪声、不完整,甚至是不一致数据进行数据挖掘时,更需要进行数据的预处理,以提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知识质量的目的。按模型数据要求对基础数据进行清洗、转换、集成、衍生处理等,以保证数据的可用性、完整性。这里需要强调的是以上所提及的各种数据预处理方法,并不是相互独立的,而是相互关联的。如:消除数据冗余既可以看成是一种形式的数据清洗,也可以认为是一种数据消减。
数据清洗处理通常包括:填补遗漏的数据值、平滑有噪声数据、识别或除去异常值,以及解决不一致问题。有问题的数据将会误导数据挖掘的搜索过程。尽管大多数数据挖掘过程均包含有对不完全或噪声数据的处理,但它们常常将处理的重点放在如何避免所挖掘出的模式对数据过分准确的描述上。因此使用一些数据清洗例程对待挖掘的数据进行预处理是十分必要的。遗漏数据处理:假设在分析一个数据时,发现有多个记录中的属性值为空,如:收入属性。对于为空的属性值,可以采用以下方法进行遗漏数据处理:忽略该条记录、手工填补遗漏值、利用缺省值填补遗漏值、利用均值填补遗漏值、利用同类别均值填补遗漏值、利用最可能的值填补遗漏值等。噪声数据处理:噪声是指被测变量的一个随机错误和变化。噪声数据可以用一下方法进行处理:Bin方法、聚类方法、人机结合检查方法、回归方法等。不一致数据:现实的数据库常出现数据记录内容的不一致,其中一些数据不一致可以利用它们与外部的关联手工加以解决。例如:输入发生的数据录入错误一般可以与原稿进行对比来加以纠正。此外还有一些例程可以帮助纠正使用编码时所发生的不一致问题。知识工程工具也可以帮助发现违反数据约束条件的情况。由于同一属性在不同数据库中的取名不规范,常常使得在进行数据集成时,导致不一致情况的发生。
(3)电力栏目模块,基于电力资讯的海量数据,从中提取关键词,并累计数量,按照降序排列,最终生成出现频率较高的关键词作为电力栏目,在处理的过程中,比较困难的是,复杂数据的清洗,数据的切割,数据的过滤,栏目的提取,栏目聚合,要结合电力行业特点,生成专属的电力栏目。通过聚合算法生成电力栏目,聚合算法包括两个层面:1、数据加工层,从公众号、电力官网等数据源收集,清洗和提出数据,最终入数据池;2、数据业务层,数据加工层为数据业务层提供最基础的数据能力,提供数据原材料,业务层属于公共资源层,主要用来维护整个栏目体系,定义业务方需要的栏目,创建栏目实例,执行电力栏目实例,提供相应数据。数据加工层主要基于爬取的电力行业资讯,清洗聚合生成原始数据,业务层主要是用户在使用过程中,收藏,点赞,关注度,重新生成个性化电力栏目。
(4)数据挖掘模块,包括挖掘建模、模型成果、应用优化,建模人员选用最恰当的模型技术,如决策树技术,利用训练数据集来训练并建立模型,输出模型成果,包括三个输出物:模型说明文档、模型结果数据、模型成果应用建议书,在应用中使用模型挖掘结果数据,并通过分组对比、专题评价等,对模型应用进行全面的评估。结合评估结果,进一步优化模型,直至达到开题报告所要求的模型应用效果为止。
(5)智能推荐模块,用于给用户推荐标签,包括用户建模、推荐算法和标签推荐,推荐系统通过用户行为,建立用户模型,通过内容的信息,建立推荐对象模型,通过用户兴趣匹配内容的特征信息,再经过推荐算法计算筛选,找到用户可能感兴趣的推荐对象,然后推荐给用户;
所述智能推荐模块推荐的数据标签通过前端进行展示。
如图2所示,系统框架主要分三层:最底层、数据分析平台层和应用层。最底层为基础数据层,主要用来保存爬取信息,行为数据等;数据分析平台层,运行大数据分析工具,包括在线分析,离线分析等,将分析结果存入结果集中,供展示层调用;应用层,应用层主要是将分析结果展示到用户界面,其采用的技术包括最前沿的框架,web和手机APP端。
以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变、修改甚至等效,但都将落入本发明的保护范围内。
Claims (5)
1.一种基于电力大数据的能源资讯系统,其特征在于,包括电力栏目模块、
数据爬取模块、数据分析模块、数据挖掘模块和智能推荐模块;
所述电力栏目模块,基于电力资讯的海量数据,从中提取关键词,并累计数量,按照降序排列,最终生成出现频率高的关键词作为电力栏目;通过聚合算法生成电力栏目,聚合算法包括两个层面:数据加工层和数据业务层;数据加工层,从公众号、电力官网数据源收集、清洗和提出数据,最终进入数据池;数据业务层,数据加工层为数据业务层提供最基础的数据能力,提供数据原材料,业务层属于公共资源层,主要用来维护整个栏目体系,定义业务方需要的栏目,创建栏目实例,执行电力栏目实例,提供相应数据;
所述的数据爬取模块,通过网络爬虫工具爬取公众号、电力官网,获取电力行业信息;
所述的数据分析模块,对获取的行业信息进行数据处理分析,包括数据清洗、数据转换、数据集成、数据消减、标签管理、贴标签和统计分析;按模型数据要求对基础数据进行数据清洗、转换、集成和消减,保证数据的可用性和完整性;通过标签管理、贴标签和统计分析形成数据标签;
所述的数据挖掘模块,包括挖掘建模、模型成果和应用优化,建模人员选用恰当的模型技术,利用训练数据集来训练并建立模型,输出模型成果,包括三个输出物:模型说明文档、模型结果数据和模型成果应用建议书,在应用中使用模型挖掘结果数据,并通过分组对比和专题评价,对模型应用进行全面的评估;结合评估结果,进一步优化模型,直至达到所要求的模型应用效果为止;
所述的智能推荐模块,用于给用户推荐标签,包括用户建模、推荐算法和标签推荐,智能推荐模块通过用户行为,建立用户模型,通过内容的信息,建立推荐对象模型,通过用户兴趣匹配内容的特征信息,再经过推荐算法计算筛选,找到用户感兴趣的推荐对象,然后推荐给用户;
所述智能推荐模块推荐的数据标签通过前端进行展示。
2.根据权利要求1所述的基于电力大数据的能源资讯系统,其特征在于,所述的数据爬取模块包括爬取任务子模块、数据导出子模块和爬取数据源,根据爬取任务子模块中的任务,利用网络爬虫自动抓取当前主流系统获取行业信息,将行业信息导出并储存于爬取数据源中。
3.根据权利要求1所述的基于电力大数据的能源资讯系统,其特征在于,所述的网络爬虫工具,按照设定的规则,自动地抓取网络信息的程序或者脚本,被广泛用于互联网搜索引擎或其他类似网站,自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。
4.根据权利要求1所述的基于电力大数据的能源资讯系统,其特征在于,所述挖掘建模的过程如下:在取得多份样本后,将部分样本作为训练数据集,其余样本则作为验证数据集;选用最恰当的模型技术,利用训练数据集来训练并建立模型,利用验证数据集来验证在已经建立的模型;验证数据集和训练数据集是互相独立的,所建立的模型只“见过”训练数据集的数据,而验证数据集对已建立的模型来说则是全新的数据,用来验证已建立的模型是否可以维持大致相同的模型准确性。
5.根据权利要求4所述的基于电力大数据的能源资讯系统,其特征在于,如果利用验证数据集验证已建立的模型的结果发现模型的准确性有很大的差异,则应回到建模阶段来检查所抽取的数据样本的数据质量,看是否有明显的缺值或异常值,如有此类数据,则应先将这些数据做一适当的处理,再重新抽取样本执行模型,如此重复,直到验证数据集可以验证已建立的模型可维持一个大致相同的模型准确性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910159050.7A CN110046294A (zh) | 2019-03-04 | 2019-03-04 | 一种基于电力大数据的能源资讯系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910159050.7A CN110046294A (zh) | 2019-03-04 | 2019-03-04 | 一种基于电力大数据的能源资讯系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110046294A true CN110046294A (zh) | 2019-07-23 |
Family
ID=67274506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910159050.7A Pending CN110046294A (zh) | 2019-03-04 | 2019-03-04 | 一种基于电力大数据的能源资讯系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110046294A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460252A (zh) * | 2020-03-16 | 2020-07-28 | 青岛智汇文创科技有限公司 | 一种基于网络舆情分析的自动化搜索引擎方法及系统 |
CN111813890A (zh) * | 2020-07-22 | 2020-10-23 | 江苏宏创信息科技有限公司 | 一种基于大数据的政策画像ai建模系统及方法 |
CN114064997A (zh) * | 2021-11-08 | 2022-02-18 | 国网江苏省电力有限公司南京供电分公司 | 一种基于大数据的人工智能电力调度决策系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110137763A1 (en) * | 2009-12-09 | 2011-06-09 | Dirk Aguilar | System that Captures and Tracks Energy Data for Estimating Energy Consumption, Facilitating its Reduction and Offsetting its Associated Emissions in an Automated and Recurring Fashion |
CN104376089A (zh) * | 2014-11-20 | 2015-02-25 | 武汉传神信息技术有限公司 | 一种数据筛选的方法 |
CN104820670A (zh) * | 2015-03-13 | 2015-08-05 | 国家电网公司 | 一种电力信息大数据的采集和存储方法 |
CN105139281A (zh) * | 2015-08-20 | 2015-12-09 | 北京中电普华信息技术有限公司 | 一种电力营销大数据的处理方法及系统 |
CN106709754A (zh) * | 2016-11-25 | 2017-05-24 | 云南电网有限责任公司昆明供电局 | 一种用基于文本挖掘的电力用户分群方法 |
CN108804630A (zh) * | 2018-05-31 | 2018-11-13 | 江苏运时数据软件股份有限公司 | 一种面向行业应用的大数据智能分析服务系统 |
-
2019
- 2019-03-04 CN CN201910159050.7A patent/CN110046294A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110137763A1 (en) * | 2009-12-09 | 2011-06-09 | Dirk Aguilar | System that Captures and Tracks Energy Data for Estimating Energy Consumption, Facilitating its Reduction and Offsetting its Associated Emissions in an Automated and Recurring Fashion |
CN104376089A (zh) * | 2014-11-20 | 2015-02-25 | 武汉传神信息技术有限公司 | 一种数据筛选的方法 |
CN104820670A (zh) * | 2015-03-13 | 2015-08-05 | 国家电网公司 | 一种电力信息大数据的采集和存储方法 |
CN105139281A (zh) * | 2015-08-20 | 2015-12-09 | 北京中电普华信息技术有限公司 | 一种电力营销大数据的处理方法及系统 |
CN106709754A (zh) * | 2016-11-25 | 2017-05-24 | 云南电网有限责任公司昆明供电局 | 一种用基于文本挖掘的电力用户分群方法 |
CN108804630A (zh) * | 2018-05-31 | 2018-11-13 | 江苏运时数据软件股份有限公司 | 一种面向行业应用的大数据智能分析服务系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460252A (zh) * | 2020-03-16 | 2020-07-28 | 青岛智汇文创科技有限公司 | 一种基于网络舆情分析的自动化搜索引擎方法及系统 |
CN111460252B (zh) * | 2020-03-16 | 2023-07-28 | 青岛智汇文创科技有限公司 | 一种基于网络舆情分析的自动化搜索引擎方法及系统 |
CN111813890A (zh) * | 2020-07-22 | 2020-10-23 | 江苏宏创信息科技有限公司 | 一种基于大数据的政策画像ai建模系统及方法 |
CN111813890B (zh) * | 2020-07-22 | 2021-12-07 | 江苏宏创信息科技有限公司 | 一种基于大数据的政策画像ai建模系统及方法 |
CN114064997A (zh) * | 2021-11-08 | 2022-02-18 | 国网江苏省电力有限公司南京供电分公司 | 一种基于大数据的人工智能电力调度决策系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105160038B (zh) | 一种基于审计知识库的数据分析方法及系统 | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及系统 | |
Zhang et al. | BIM log mining: measuring design productivity | |
CN109033497B (zh) | 一种面向高并发的多阶段数据挖掘算法智能选择方法 | |
CN102542061B (zh) | 一种产品的智能分类方法 | |
CN106844640B (zh) | 一种网页数据分析处理方法 | |
CN110046294A (zh) | 一种基于电力大数据的能源资讯系统 | |
CN106067094A (zh) | 一种动态评估方法及系统 | |
CN112632405B (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN107292744A (zh) | 基于机器学习的投资趋势分析方法及其系统 | |
KR101801257B1 (ko) | 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술 | |
CN105718590A (zh) | 面向多租户的SaaS舆情监控系统及方法 | |
Zhang | Application of data mining technology in digital library. | |
CN103455896A (zh) | 基于物联网的无纸化装配质量控制方法 | |
CN103995828B (zh) | 一种云存储日志数据分析方法 | |
CN114358611A (zh) | 一种基于学科发展的科研能力评估用数据采集系统 | |
CN105095400B (zh) | 个人主页的查找方法 | |
Dong | Exploration on web usage mining and its application | |
Zhang et al. | Application of data mining technology based on data center | |
KR101665649B1 (ko) | 소셜 미디어 데이터 분석 시스템 및 이를 이용한 소셜 미디어 데이터 분석 방법 | |
CN113032653A (zh) | 一种基于大数据的舆情监测平台 | |
Nicoletti et al. | Towards software architecture documents matching stakeholders’ interests | |
CN107248118A (zh) | 数据挖掘方法、装置和系统 | |
CN114064997A (zh) | 一种基于大数据的人工智能电力调度决策系统 | |
Xu | Research on enterprise knowledge unified retrieval based on industrial big data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190723 |