CN117251816A - 碳排放数据的验证方法、装置、计算机设备和存储介质 - Google Patents

碳排放数据的验证方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN117251816A
CN117251816A CN202311400419.1A CN202311400419A CN117251816A CN 117251816 A CN117251816 A CN 117251816A CN 202311400419 A CN202311400419 A CN 202311400419A CN 117251816 A CN117251816 A CN 117251816A
Authority
CN
China
Prior art keywords
carbon emission
data set
sample
value
verified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311400419.1A
Other languages
English (en)
Inventor
曾金灿
王成围
黄鲲
朱浩骏
何耿生
姚尚衡
张舒涵
李沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Energy Development Research Institute of China Southern Power Grid Co Ltd
Original Assignee
Energy Development Research Institute of China Southern Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Energy Development Research Institute of China Southern Power Grid Co Ltd filed Critical Energy Development Research Institute of China Southern Power Grid Co Ltd
Priority to CN202311400419.1A priority Critical patent/CN117251816A/zh
Publication of CN117251816A publication Critical patent/CN117251816A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

本申请涉及一种碳排放数据的验证方法、装置、计算机设备和存储介质。所述方法包括:先获取碳排放数据集,再根据碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集,然后根据预设区间范围对待验证数据集中的各距离值进行验证,得到验证结果。上述方法基于预设区间范围对碳排放数据集中的各碳排放样本之间的距离值进行逐一验证,并得到验证机构,相比于现有的基于核查人员的经验对碳排放数据进行核查的方法,规避了因核查人员的专业性和时间不足带来的核查准确度低的问题;另外,本方法能够实现批量处理大量数据和多企业的碳核查申报数据的合理性验证,进而提高了碳排放数据的核查准确度。

Description

碳排放数据的验证方法、装置、计算机设备和存储介质
技术领域
本申请涉及碳排放管理技术领域,特别是涉及一种碳排放数据的验证方法、装置、计算机设备和存储介质。
背景技术
近年来,随着全球气候的变化和环境问题的日益严重,碳排放(尤其是企业的碳排放)已成为导致全球温室效应的主要原因之一。
为应对上述挑战,对企业提供的碳排放数据的准确性和可靠性进行核查成为亟待解决的问题。目前,现有的核查方法是核查人员基于企业的规模、经营情况等,对企业提供的碳排放数据进行核查。
然而,上述方法存在核查准确度低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高核查准确度的碳排放数据的验证方法、装置、计算机设备和存储介质。
第一方面,本申请提供了一种碳排放数据的验证方法,包括:
获取碳排放数据集;碳排放数据集包括至少两个碳排放样本;
根据碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集;待验证数据集包括各碳排放样本对应的距离值;
根据预设区间范围对待验证数据集中的各距离值进行验证,得到验证结果。
在其中一个实施例中,上述碳排放数据集包括当前碳排放样本和至少一个历史碳排放样本,根据预设区间范围对待验证数据集中的各距离值进行验证,得到验证结果,包括:
将待验证数据集中未落入预设区间范围的距离值作为异常值;
根据异常值和碳排放数据集,得到验证结果;验证结果表示当前碳排放样本是否异常。
在其中一个实施例中,上述根据异常值和碳排放数据集,得到验证结果,包括:
从碳排放数据集中确定异常值对应的碳排放样本;
确定异常值对应的碳排放样本是否为当前碳排放样本,若异常值对应的碳排放样本为当前碳排放样本,则确定当前碳排放样本存在异常;若异常值对应的碳排放样本非当前碳排放样本,则确定当前碳排放样本不存在异常。
在其中一个实施例中,若未落入预设区间范围的距离值为多个,根据异常值和碳排放数据集,得到验证结果,包括:
确定每个异常值对应的碳排放样本是否为当前碳排放样本;
若所有异常值对应的碳排放样本均非当前碳排放样本,则确定当前碳排放样本不存在异常;
若多个异常值中存在任一异常值对应的碳排放样本为当前碳排放样本,则确定当前碳排放样本存在异常。
在其中一个实施例中,上述方法还包括:
从待验证数据集中提取四分位参数,得到第一边界值和第二边界值;
将第一边界值和第二边界值之间的范围作为预设区间范围。
在其中一个实施例中,上述根据碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集,包括:
计算每个碳排放样本与其他任一碳排放样本之间的欧式距离值;
根据每个碳排放样本与其他任一碳排放样本之间的欧式距离值,生成每个碳排放样本对应的候选数据集;
从每个碳排放样本对应的候选数据集提取预设位置的距离值,生成待验证数据集。
在其中一个实施例中,上述方法还包括:
将碳排放数据集进行预处理,得到预处理后的碳排放数据集;预处理包括缺失值处理和标准化处理中的至少一种;
根据碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集,包括:
根据预处理后的碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集。
第二方面,本申请还提供了一种碳排放数据的验证装置,包括:
获取模块,用于获取碳排放数据集;碳排放数据集包括至少两个碳排放样本;
确定模块,用于根据碳排放数据集中各碳排放样本之间的距离关系,确定待验证数据集;待验证数据集包括各碳排放样本对应的距离值;
验证模块,用于根据预设区间范围对待验证数据集中的各距离值进行验证,得到验证结果。
第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取碳排放数据集;碳排放数据集包括至少两个碳排放样本;
根据碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集;待验证数据集包括各碳排放样本对应的距离值;
根据预设区间范围对待验证数据集中的各距离值进行验证,得到验证结果。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取碳排放数据集;碳排放数据集包括至少两个碳排放样本;
根据碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集;待验证数据集包括各碳排放样本对应的距离值;
根据预设区间范围对待验证数据集中的各距离值进行验证,得到验证结果。
第五方面,本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取碳排放数据集;碳排放数据集包括至少两个碳排放样本;
根据碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集;待验证数据集包括各碳排放样本对应的距离值;
根据预设区间范围对待验证数据集中的各距离值进行验证,得到验证结果。
上述碳排放数据的验证方法、装置、计算机设备和存储介质,先获取碳排放数据集,再根据碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集,然后根据预设区间范围对待验证数据集中的各距离值进行验证,得到验证结果。上述方法基于预设区间范围对碳排放数据集中的各碳排放样本之间的距离值进行逐一验证,并得到验证机构,相比于现有的基于核查人员的经验对碳排放数据进行核查的方法,规避了因核查人员的专业性和时间不足带来的核查准确度低的问题;另外,本方法能够实现批量处理大量数据和多企业的碳核查申报数据的合理性验证,进而提高了碳排放数据的核查准确度。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中碳排放数据的验证方法的应用环境图;
图2为一个实施例中碳排放数据的验证方法的流程示意图;
图3为另一个实施例中碳排放数据的验证方法的流程示意图;
图4为另一个实施例中碳排放数据的验证方法的流程示意图;
图5为另一个实施例中碳排放数据的验证方法的流程示意图;
图6为另一个实施例中碳排放数据的验证方法的流程示意图;
图7为另一个实施例中碳排放数据的验证方法的流程示意图;
图8为另一个实施例中碳排放数据的验证方法的流程示意图;
图9为另一个实施例中碳排放数据的验证方法的流程示意图;
图10为一个实施例中碳排放数据的验证装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。
在本申请实施例的描述中,技术术语“第一”“第二”等仅用于区别不同对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
近年来,随着全球气候的变化和环境问题的日益严重。碳排放(尤其是企业的碳排放)已成为导致全球温室效应的主要原因之一。为了应对这一挑战,对企业提供的碳排放数据(例如,燃料燃烧数据、排放因子、碳排放量和生产数据等)的准确性和可靠性进行核查成为亟待解决的问题。
目前,现有的核查方法是基于核查人员的经验和知识,根据企业提交的数据文件(企业的规模、经营情况等),对企业提供的碳排放数据进行核查。然而,基于核查人员经验的数据核查方法往往受限于核查人员的个人经验和判断。不同的核查员可能会得出不同的结论,而且可能会受到主观偏见的影响。因此,上述方法存在核查准确度低的问题。本申请旨在解决该问题。
在上述介绍完本申请实施例提供的碳排放数据的验证方法的背景技术之后,下面,将对本申请实施例提供的碳排放数据的验证方法所涉及到的实施环境进行简要说明。本申请实施例提供的碳排放数据的验证方法,可以应用于如图1所示的计算机设备中。该计算机设备包括通过系统总线连接的处理器、存储器,该存储器中存储有计算机程序,处理器执行该计算机程序时可以执行下述方法实施例的步骤。可选的,该计算机设备还可以包括输入/输出接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器,该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于与外部的终端通过网络连接通信。可选的,该计算机设备可以是服务器,可以是个人计算机,还可以是个人数字助理,还可以是其他的终端设备,例如平板电脑、手机等等,还可以是云端或者远程服务器,本申请实施例对计算机设备的具体形式并不做限定。
本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
上述介绍了本申请实施例提供的碳排放数据的验证方法的应用场景后,下面重点介绍本申请所述的碳排放数据的验证方法。
在一个实施例中,如图2所示,提供了一种碳排放数据的验证方法,以该方法应用于图1中的计算机设备为例进行说明,包括以下步骤:
S201、获取碳排放数据集。
其中,碳排放数据集包括至少两个碳排放样本;碳排放样本可以是当前碳排放样本,也可以是历史碳排放样本;碳排放样本中可以包括燃料燃烧数据、排放因子、碳排放量和生产数据等;需要说明的是,历史碳排放样本和当前碳排放样本的数据采集主体可以是相同的企业,也可以是具有相同产品且工艺相近产量规模相近的企业。
本申请实施例中,在需要对某企业当前碳排放样本数据进行准确度校验时,需要从计算机设备中的碳排放数据库中获取该企业的历史排放样本、该企业的当前排放样本,以及与该企业规模相近的企业的历史排放样本。需要说明的是,碳排放数据库中预先存储有多个企业的历史排放样本、多个企业对应的当前排放样本,碳排放数据库可以预先安装在计算机设备中,获取多个企业提供的碳排放数据,以及在接收到计算机设备发送的获取指令时,将对应的碳排放样本发送至计算机设备。
S202、根据碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集。
其中,待验证数据集包括各碳排放样本对应的距离值。
本申请实施例中,在上述获取到碳排放数据集之后,可以先获取碳排放数据集中各碳排放样本之间的距离值,然后根据各碳排放样本之间的距离值确定待验证数据集。可选的,在上述获取到碳排放数据集之后,可以先获取碳排放数据集中任意两个碳排放样本之间的距离值,然后根据各碳排放样本与其他碳排放样本之间距离值的平均值,确定各碳排放样本对应的距离值,再根据各碳排放样本对应的距离值构成待验证数据集。
S203、根据预设区间范围对待验证数据集中的各距离值进行验证,得到验证结果。
其中,预设区间范围可以是根据各碳排放样本对应的距离值确定的区间范围,也可以是核查人员根据核查经验人为确定的区间范围,本申请实施例在此不做赘述。
本申请实施例中,在上述获取到待验证数据集中的各距离值之后,可以根据预设区间范围对待验证数据集中的各距离值逐个进行验证,确定待验证数据集中的各距离值中存在的异常值,并根据异常值确定当前碳排放样本是否存在异常,并将当前碳排放样本存在异常或者当前碳排放样本不存在异常确定为验证结果。
本申请实施例提供的碳排放数据的验证方法,先获取碳排放数据集,再根据碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集,然后根据预设区间范围对待验证数据集中的各距离值进行验证,得到验证结果。上述方法基于预设区间范围对碳排放数据集中的各碳排放样本之间的距离值进行逐一验证,并得到验证机构,相比于现有的基于核查人员的经验对碳排放数据进行核查的方法,规避了因核查人员的专业性和时间不足带来的核查准确度低的问题;另外,本方法能够实现批量处理大量数据和多企业的碳核查申报数据的合理性验证,进而提高了碳排放数据的核查准确度。
在一个实施例中,在上述图2所示的实施例的基础上,上述碳排放数据集包括当前碳排放样本和至少一个历史碳排放样本,本实施例还可以对获取验证结果的过程进行描述,即S203“根据预设区间范围对待验证数据集中的各距离值进行验证,得到验证结果”,如图3所示,包括:
S301、将待验证数据集中未落入预设区间范围的距离值作为异常值。
其中,异常值可以为多个,也可以为单个。
本申请实施例中,在上述获取到待验证数据集时,可以逐一判断待验证数据集中的各碳排放样本对应的距离值是否落入预设区间范围中,并将待验证数据集中的各碳排放样本对应的距离值中未落入预设区间范围的距离值作为异常值。例如,待验证数据集X可以表示为:{X1,X2,X3,X4,X5,...,XM},其中,前X1-Xm-1即为各历史碳排放样本与其他碳排放样本之间的距离值,XM即为当前碳排放样本与各历史碳排放样本之间的距离值,那么在得到待验证数据集X之后,可以对待验证数据集X中各距离值进行位置编码,位置编码后的数据集O可以表示为{01,02,03,04,05,...,0M},进一步的,逐一判断待验证数据集X中的各个距离值是否落入预设区间范围中,并将待验证数据集X中的各碳排放样本对应的距离值中未落入预设区间范围的距离值作为异常值。
S302、根据异常值和碳排放数据集,得到验证结果。
其中,验证结果表示当前碳排放样本是否异常。
本申请实施例中,计算机设备可以预先为待验证数据集中的各距离值的位置进行编码,并在上述获取到碳排放数据集中的距离值为异常值之后,返回待验证数据集中找到异常值的位置编码,以及在异常值的位置编码为当前碳排放样本与其他历史碳排放样本的距离值的位置编码的情况下,确定碳排放数据集中当前碳排放样本为异常的验证结果。
可选的,下面提供两种根据异常值和碳排放数据集得到验证结果的过程:
示例一、在一种情况下,碳排放数据集中只包括一个异常样本,即要么多个历史碳排放样本中存在一个异常样本,当前碳排放样本正常;要么当前碳排放样本异常,多个历史碳排放样本均为正常样本,那么上述S302“根据异常值和碳排放数据集,得到验证结果”,如图4所示,包括:
S3021、从碳排放数据集中确定异常值对应的碳排放样本。
S3022、确定异常值对应的碳排放样本是否为当前碳排放样本,若是,则转S3023,若否,则转S3024。
S3023、确定当前碳排放样本存在异常。
S3024、确定当前碳排放样本不存在异常。
本申请实施例中,在上述获取异常值之后,可以先根据异常值返回待验证数据集中查找异常值对应的碳排放样本对应的距离值,并根据碳排放样本对应的距离值从碳排放数据集中获取对应的碳排放样本,以及确定获取到的碳排放样本是否为当前碳排放样本,并在获取到的碳排放样本为当前碳排放样本的情况下,确定当前碳排放样本存在异常,以及,在获取到的碳排放样本为非当前碳排放样本的情况下,确定当前碳排放样本不存在异常。
示例二、在一种情况下,若未落入预设区间范围的距离值为多个,即在多个历史碳排放样本中可能存在多个异常样本的情况下,当前碳排放样本也可能为异常样本;在多个历史碳排放样本中可能存在多个异常样本的情况下,当前碳排放样本也可能为非异常样本,那么上述S302“根据异常值和碳排放数据集,得到验证结果”,如图5所示,包括:
S3025、确定每个异常值对应的碳排放样本是否为当前碳排放样本,若所有异常值对应的碳排放样本均非所述当前碳排放样本,则转S3026,若多个异常值中存在任一异常值对应的碳排放样本为当前碳排放样本,则转S3027。
S3026、确定当前碳排放样本不存在异常。
S3027、确定当前碳排放样本存在异常。
本申请实施例中,在上述获取多个异常值之后,可以先根据多个异常值返回待验证数据集中查找多个异常值分别对应的多个碳排放样本对应的距离值,并根据多个碳排放样本对应的距离值从碳排放数据集中获取对应的多个碳排放样本,以及确定获取到的多个碳排放样本中是否包括当前碳排放样本,并在获取到的多个碳排放样本中包括当前碳排放样本的情况下,确定当前碳排放样本存在异常,以及,在获取到的多个碳排放样本均为非当前碳排放样本的情况下,确定当前碳排放样本不存在异常。
本申请实施例提供的当前碳排放样本的验证方法,基于预设区间范围对碳排放数据集中的各碳排放样本之间的距离值进行逐一验证,并得到验证机构,相比于现有的基于核查人员的经验对碳排放数据进行核查的方法,规避了因核查人员的专业性和时间不足带来的核查准确度低的问题;另外,本方法能够实现批量处理大量数据和多企业的碳核查申报数据的合理性验证,进而提高了碳排放数据的核查准确度。
在一个实施例中,在上述图2-5所示的实施例的基础上,如图6所示,上述方法还包括:
S204、从待验证数据集中提取四分位参数,得到第一边界值和第二边界值。
其中,第一边界值即为预设区间范围的下边界,第二边界值即为预设区间范围的上边界。
本申请实施例中,在上述获取到待验证数据集之后,可以将待验证数据集中的各个碳排放样本之间的距离值按照从小到大的顺序进行排序,得到排序后的待验证数据集,然后取排序后的待验证数据集中的从小到大四分之一位置的距离值,以及取排序后的待验证数据集中的从小到大四分之三位置的距离值,并根据待验证数据集中的从小到大四分之一位置的距离值,以及待验证数据集中的从小到大四分之三位置的距离值确定第一边界值和第二边界值。可选的,下面提供一种获取第一边界值和第二边界值的方法:
步骤一、获取待验证数据集中的从小到大四分之一位置的距离值,以及从小到大四分之三位置的距离值,包括:
a、先将待验证数据集中的各距离值按照从小到大的顺序进行排序;
b、然后根据下述公式(1)计算待验证数据集中从小到大四分之一位置的距离值所在的位置:
其中,m表示待验证数据集中距离值的个数,也即碳排放数据集中碳排放样本的个数。
c、若上述公式(1)计算出来的q1是整数,那么待验证数据集中的从小到大四分之一位置的距离值即为q1位置上的距离值;若上述公式(1)计算出来的q1是非整数,那么待验证数据集中的从小到大四分之一位置的距离值即为q1位置处的前一个位置处的距离值和后一个位置处的距离值的平均值。例如,若m=100,那么q1即为25,即在第25位置上的距离值即为待验证数据集中的从小到大四分之一位置的距离值;若m=22,那么q1即为5.5,即待验证数据集中的从小到大四分之一位置的距离值即为5.5位置处的前一个位置5处的距离值和后一个位置6处的距离值的平均值。
d、然后根据下述公式(2)计算待验证数据集中从小到大四分之三位置的距离值所在的位置:
其中,m表示待验证数据集中距离值的个数,也即碳排放数据集中碳排放样本的个数。
e、若上述公式(2)计算出来的q2是整数,那么待验证数据集中的从小到大四分之三位置的距离值即为q2位置上的距离值;若上述公式(2)计算出来的q2是非整数,那么待验证数据集中的从小到大四分之三位置的距离值即为q2位置处的前一个位置处的距离值和后一个位置处的距离值的平均值。例如,若m=100,那么q3即为75,即在第75位置上的距离值即为待验证数据集中的从小到大四分之三位置的距离值;若m=22,那么q1即为16.5,即待验证数据集中的从小到大四分之三位置的距离值即为16.5位置处的前一个位置16处的距离值和后一个位置17处的距离值的平均值。
步骤二、在上述获取到待验证数据集中的从小到大四分之一位置的距离值,以及从小到大四分之三位置的距离值之后,计算两个距离值之间的差值IQR如下公式(3)所示:
IQR=Q3-Q1 (3);
其中,Q3表示待验证数据集中从小到大四分之三位置的距离值,Q1表示待验证数据集中从小到大四分之一位置的距离值。
需要说明的是,IQR能够衡量数据的中间50%的离散程度。
步骤三、根据如下公式(4)确定第一边界值和第二边界值:
其中,S1表示第一边界值,S2表示第二边界值。
S205、将第一边界值和第二边界值之间的范围作为预设区间范围。
本申请实施例中,在上述获取到第一边界值和第二边界值之后,可以根据第一边界值和第二边界值之间的范围作为预设边界值。
本申请实施例提供的预设区间范围的确定方法,基于待验证数据集中的四分位参数确定预设区间范围,为后续基于预设区间范围对待验证数据集中的各距离值进行验证提供基础。
在一个实施例中,在上述图2-5所示的实施例的基础上,本实施例还可以对获取待验证数据集的过程进行描述,即S202“根据碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集”,如图7所示,包括:
S401、计算每个碳排放样本与其他任一碳排放样本之间的欧式距离值。
本申请实施例中,在上述获取到碳排放数据集之后,可以计算碳排放数据集中每个碳排放样本与其他任一碳排放样本之间的欧氏距离值。可选的,计算每个碳排放样本与其他任一碳排放样本之间的欧氏距离值的方法可以包括:
步骤一、根据每个碳排放样本和其对应的特征项,将碳排放数据集用下述矩阵(5)表示:
其中,碳排放数据集T中包含m个碳排放样本,每个碳排放样本中又包含n个特征项。
步骤二、以计算碳排放样本Ti和碳排放样本Tj为例,计算碳排放样本Ti和碳排放样本Tj之间的欧式距离,其计算过程可以用如下公式(6)表示:
其中,d(Ti,Tj)表示碳排放样本Ti和碳排放样本Tj之间的欧氏距离值。
进一步的,根据上述公式(6)计算每个碳排放样本与其他任一碳排放样本之间的欧式距离值。
S402、根据每个碳排放样本与其他任一碳排放样本之间的欧式距离值,生成每个碳排放样本对应的候选数据集。
本申请实施例中,在上述获取到每个碳排放样本与其他任一碳排放样本之间的欧式距离值之后,将各碳排放样本与其他任一碳排放样本之间的欧式距离值构成各碳排放样本对应的候选数据集。例如,将碳排放样本1与其他任一碳排放样本之间的欧式距离值构成碳排放样本1对应的候选数据集,将碳排放样本2与其他任一碳排放样本之间的欧式距离值构成碳排放样本2对应的候选数据集。
S403、从每个碳排放样本对应的候选数据集提取预设位置的距离值,生成待验证数据集。
在上述获取到每个碳排放样本对应的候选数据集之后,可以对每个碳排放样本对应的候选数据集中的各个候选数据按照从大到小(从小到大)的顺序进行排序,并基于排序之后的各个候选数据取第K个候选数据作为该碳排放样本的候选数据,进一步的,基于同样的方法,取每个碳排放样本的候选数据,最后得到每个碳排放样本对应的候选数据组成候选数据集。例如,碳排放样本1与其他任一碳排放样本之间的欧式距离分别为2.4、1.1、3.6、0.7,...,3.1,按照从大到小的顺序排序之后欧式距离值为0.7、1.1、2.4、3.1,...,3.6,取其中第三个欧式距离值2.4作为碳排放样本1的候选数据;碳排放样本2与其他任一碳排放样本之间的欧式距离分别为2.1、1.6、3.5、4.7,...,0.1,按照从大到小的顺序排序之后欧式距离值为0.1、1.6、2.1、3.5,...,4.7,取其中第三个欧式距离值2.1作为碳排放样本2的候选数据,......,计算出每个碳排放样本的候选数据,最后得到每个碳排放样本对应的候选数据组成候选数据集。
本申请实施例提供了的获取待验证数据集的方法,基于各碳排放样本与其他碳排放样本之间的欧式距离值之间的数值大小关系,确定验证数据集,为后续基于验证数据集确定验证结果奠定基础。
在一个实施例中,在上述图2所示的实施例的基础上,如图8所示,上述方法还包括:
S206、将碳排放数据集进行预处理,得到预处理后的碳排放数据集。
其中,预处理包括缺失值处理和标准化处理中的至少一种。
本申请实施例中,在上述获取到碳排放数据集之后,可以对碳排放数据集进行预处理,得到预处理之后的碳排放数据集。可选的,可以对碳排放数据集进行缺失值处理,得到缺失值处理之后的碳排放数据集,或者,可以对碳排放数据集进行标准化处理,得到标准化处理之后的碳排放数据集,或者,可以对碳排放数据集进行缺失值处理和标准化处理,得到缺失值处理和标准化处理之后的碳排放数据集。
示例性的,对碳排放数据集进行缺失值处理的过程可以包括:
在该碳排放数据集中数据项缺失的数据值总量超过碳排放数据集样本量的10%的情况下,将该数据项从数据集中删除;在该碳排放数据集中数据项缺失的数据值总量低于碳排放数据集样本量的10%的情况下,将出现缺失值的数据删除;在需要进行验证的当前碳排放样本存在数据值缺失的情况下,将历史碳排放样本中缺失数据值的数据项删除。
示例性的,对碳排放数据集进行标准化处理的过程可以用如下公式(7)表示:
其中,xijnormalized表示第i个样本的第j个特征值经过标准化处理后的值,xij表示原始的第i个样本的第j个特征值,μj表示整个数据集中第j个特征值的均值,σj表示整个数据集中第j个特征的标准差。
本申请实施例提供了的数据预处理方法,对数据进行包括缺失值和标准差在内的预处理,使得后续根据预处理之后的数据进行准确度验证的验证结果更加准确。
在一个实施例中,如图9所示,提供了一个完整的碳排放数据的验证方法,包括:
S10、获取至少两个碳排放样本的碳排放数据集;
S11、计算每个碳排放样本与其他任一碳排放样本之间的欧式距离值;
S12、根据每个碳排放样本与其他任一碳排放样本之间的欧式距离值,生成每个碳排放样本对应的候选数据集;
S13、从每个碳排放样本对应的候选数据集提取预设位置的距离值,生成待验证数据集;
S14、从待验证数据集中提取四分位参数,得到第一边界值和第二边界值;
S15、将第一边界值和第二边界值之间的范围作为预设区间范围;
S16、将待验证数据集中未落入预设区间范围的距离值作为异常值;
S17、确定每个异常值对应的碳排放样本是否为当前碳排放样本,若所有异常值对应的碳排放样本均非当前碳排放样本,则转S18,若多个异常值中存在任一异常值对应的碳排放样本为当前碳排放样本,则转S19;
S18、确定当前碳排放样本不存在异常;
S19、确定当前碳排放样本存在异常。
上述方法基于预设区间范围对碳排放数据集中的各碳排放样本之间的距离值进行逐一验证,并得到验证机构,相比于现有的基于核查人员的经验对碳排放数据进行核查的方法,规避了因核查人员的专业性和时间不足带来的核查准确度低的问题;另外,本方法能够实现批量处理大量数据和多企业的碳核查申报数据的合理性验证,进而提高了碳排放数据的核查准确度。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的碳排放数据的验证方法的碳排放数据的验证装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个碳排放数据的验证装置实施例中的具体限定可以参见上文中对于碳排放数据的验证方法的限定,在此不再赘述。
在一个示例性的实施例中,如图10所示,提供了一种碳排放数据的验证装置,包括:获取模块10、第一确定模块11和验证模块12,其中:
获取模块10,用于获取碳排放数据集;碳排放数据集包括至少两个碳排放样本。
第一确定模块11,用于根据碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集;待验证数据集包括各碳排放样本对应的距离值。
验证模块12,用于根据预设区间范围对待验证数据集中的各距离值进行验证,得到验证结果。
在一个示例性的实施例中,上述碳排放数据集包括当前碳排放样本和至少一个历史碳排放样本,上述验证模块12,包括:确定单元和获取单元,其中:
确定单元,具体用于将待验证数据集中未落入预设区间范围的距离值作为异常值;
获取单元,具体用于根据异常值和碳排放数据集,得到验证结果;验证结果表示当前碳排放样本是否异常。
在一个示例性的实施例中,上述获取单元,具体用于从碳排放数据集中确定异常值对应的碳排放样本;确定异常值对应的碳排放样本是否为当前碳排放样本,若异常值对应的碳排放样本为当前碳排放样本,则确定当前碳排放样本存在异常;若异常值对应的碳排放样本非当前碳排放样本,则确定当前碳排放样本不存在异常。
在一个示例性的实施例中,若未落入预设区间范围的距离值为多个,上述获取单元,确定每个异常值对应的碳排放样本是否为当前碳排放样本;若所有异常值对应的碳排放样本均非当前碳排放样本,则确定当前碳排放样本不存在异常;若多个异常值中存在任一异常值对应的碳排放样本为当前碳排放样本,则确定当前碳排放样本存在异常。
在一个示例性的实施例中,上述装置还包括:获取模块和第二确定模块,其中:
获取模块,用于从待验证数据集中提取四分位参数,得到第一边界值和第二边界值;
第二确定模块,用于将第一边界值和第二边界值之间的范围作为预设区间范围。
在一个示例性的实施例中,上述第一确定模块11,包括:计算单元、第一生成单元和第二生成单元,其中:
计算单元,具体用于计算每个碳排放样本与其他任一碳排放样本之间的欧式距离值;
第一生成单元,用于根据每个碳排放样本与其他任一碳排放样本之间的欧式距离值,生成每个碳排放样本对应的候选数据集;
第二生成单元,用于从每个碳排放样本对应的候选数据集提取预设位置的距离值,生成待验证数据集。
在一个示例性的实施例中,上述装置还包括:处理模块,用于将碳排放数据集进行预处理,得到预处理后的碳排放数据集;预处理包括缺失值处理和标准化处理中的至少一种;
上述第一确定单元,用于根据预处理后的碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集。
上述碳排放数据的验证装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个示例性的实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图1所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储碳排放数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种碳排放数据的验证方法。
本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个示例性的实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取碳排放数据集;碳排放数据集包括至少两个碳排放样本;
根据碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集;待验证数据集包括各碳排放样本对应的距离值;
根据预设区间范围对待验证数据集中的各距离值进行验证,得到验证结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将待验证数据集中未落入预设区间范围的距离值作为异常值;
根据异常值和碳排放数据集,得到验证结果;验证结果表示当前碳排放样本是否异常。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
从碳排放数据集中确定异常值对应的碳排放样本;
确定异常值对应的碳排放样本是否为当前碳排放样本,若异常值对应的碳排放样本为当前碳排放样本,则确定当前碳排放样本存在异常;若异常值对应的碳排放样本非当前碳排放样本,则确定当前碳排放样本不存在异常。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
确定每个异常值对应的碳排放样本是否为当前碳排放样本;
若所有异常值对应的碳排放样本均非当前碳排放样本,则确定当前碳排放样本不存在异常;
若多个异常值中存在任一异常值对应的碳排放样本为当前碳排放样本,则确定当前碳排放样本存在异常。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
从待验证数据集中提取四分位参数,得到第一边界值和第二边界值;
将第一边界值和第二边界值之间的范围作为预设区间范围。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
计算每个碳排放样本与其他任一碳排放样本之间的欧式距离值;
根据每个碳排放样本与其他任一碳排放样本之间的欧式距离值,生成每个碳排放样本对应的候选数据集;
从每个碳排放样本对应的候选数据集提取预设位置的距离值,生成待验证数据集。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将碳排放数据集进行预处理,得到预处理后的碳排放数据集;预处理包括缺失值处理和标准化处理中的至少一种;
根据碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集,包括:
根据预处理后的碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取碳排放数据集;碳排放数据集包括至少两个碳排放样本;
根据碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集;待验证数据集包括各碳排放样本对应的距离值;
根据预设区间范围对待验证数据集中的各距离值进行验证,得到验证结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将待验证数据集中未落入预设区间范围的距离值作为异常值;
根据异常值和碳排放数据集,得到验证结果;验证结果表示当前碳排放样本是否异常。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
从碳排放数据集中确定异常值对应的碳排放样本;
确定异常值对应的碳排放样本是否为当前碳排放样本,若异常值对应的碳排放样本为当前碳排放样本,则确定当前碳排放样本存在异常;若异常值对应的碳排放样本非当前碳排放样本,则确定当前碳排放样本不存在异常。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
确定每个异常值对应的碳排放样本是否为当前碳排放样本;
若所有异常值对应的碳排放样本均非当前碳排放样本,则确定当前碳排放样本不存在异常;
若多个异常值中存在任一异常值对应的碳排放样本为当前碳排放样本,则确定当前碳排放样本存在异常。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
从待验证数据集中提取四分位参数,得到第一边界值和第二边界值;
将第一边界值和第二边界值之间的范围作为预设区间范围。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
计算每个碳排放样本与其他任一碳排放样本之间的欧式距离值;
根据每个碳排放样本与其他任一碳排放样本之间的欧式距离值,生成每个碳排放样本对应的候选数据集;
从每个碳排放样本对应的候选数据集提取预设位置的距离值,生成待验证数据集。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将碳排放数据集进行预处理,得到预处理后的碳排放数据集;预处理包括缺失值处理和标准化处理中的至少一种;
根据碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集,包括:
根据预处理后的碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取碳排放数据集;碳排放数据集包括至少两个碳排放样本;
根据碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集;待验证数据集包括各碳排放样本对应的距离值;
根据预设区间范围对待验证数据集中的各距离值进行验证,得到验证结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将待验证数据集中未落入预设区间范围的距离值作为异常值;
根据异常值和碳排放数据集,得到验证结果;验证结果表示当前碳排放样本是否异常。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
从碳排放数据集中确定异常值对应的碳排放样本;
确定异常值对应的碳排放样本是否为当前碳排放样本,若异常值对应的碳排放样本为当前碳排放样本,则确定当前碳排放样本存在异常;若异常值对应的碳排放样本非当前碳排放样本,则确定当前碳排放样本不存在异常。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
确定每个异常值对应的碳排放样本是否为当前碳排放样本;
若所有异常值对应的碳排放样本均非当前碳排放样本,则确定当前碳排放样本不存在异常;
若多个异常值中存在任一异常值对应的碳排放样本为当前碳排放样本,则确定当前碳排放样本存在异常。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
从待验证数据集中提取四分位参数,得到第一边界值和第二边界值;
将第一边界值和第二边界值之间的范围作为预设区间范围。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
计算每个碳排放样本与其他任一碳排放样本之间的欧式距离值;
根据每个碳排放样本与其他任一碳排放样本之间的欧式距离值,生成每个碳排放样本对应的候选数据集;
从每个碳排放样本对应的候选数据集提取预设位置的距离值,生成待验证数据集。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将碳排放数据集进行预处理,得到预处理后的碳排放数据集;预处理包括缺失值处理和标准化处理中的至少一种;
根据碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集,包括:
根据预处理后的碳排放数据集中各碳排放样本之间的距离值,确定待验证数据集。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive RandomAccess Memory,MRAM)、铁电存储器(Ferroelectric RandomAccess Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(RandomAccess Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static RandomAccess Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccessMemory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种碳排放数据的验证方法,其特征在于,所述方法包括:
获取碳排放数据集;所述碳排放数据集包括至少两个碳排放样本;
根据所述碳排放数据集中各所述碳排放样本之间的距离值,确定待验证数据集;所述待验证数据集包括各所述碳排放样本对应的距离值;
根据预设区间范围对所述待验证数据集中的各所述距离值进行验证,得到验证结果。
2.根据权利要求1所述的方法,其特征在于,所述碳排放数据集包括当前碳排放样本和至少一个历史碳排放样本,所述根据预设区间范围对所述待验证数据集中的各所述距离值进行验证,得到验证结果,包括:
将所述待验证数据集中未落入所述预设区间范围的距离值作为异常值;
根据所述异常值和所述碳排放数据集,得到验证结果;所述验证结果表示所述当前碳排放样本是否异常。
3.根据权利要求2所述的方法,其特征在于,所述根据所述异常值和所述碳排放数据集,得到验证结果,包括:
从所述碳排放数据集中确定所述异常值对应的碳排放样本;
确定所述异常值对应的碳排放样本是否为所述当前碳排放样本,若所述异常值对应的碳排放样本为所述当前碳排放样本,则确定所述当前碳排放样本存在异常;若所述异常值对应的碳排放样本非所述当前碳排放样本,则确定所述当前碳排放样本不存在异常。
4.根据权利要求2所述的方法,其特征在于,若未落入所述预设区间范围的距离值为多个,所述根据所述异常值和所述碳排放数据集,得到验证结果,包括:
确定每个所述异常值对应的碳排放样本是否为所述当前碳排放样本;
若所有异常值对应的碳排放样本均非所述当前碳排放样本,则确定所述当前碳排放样本不存在异常;
若多个异常值中存在任一异常值对应的碳排放样本为所述当前碳排放样本,则确定所述当前碳排放样本存在异常。
5.根据权利要求1-4所述的方法,其特征在于,所述方法还包括:
从所述待验证数据集中提取四分位参数,得到第一边界值和第二边界值;
将所述第一边界值和所述第二边界值之间的范围作为所述预设区间范围。
6.根据权利要求1-4所述的方法,其特征在于,所述根据所述碳排放数据集中各所述碳排放样本之间的距离值,确定待验证数据集,包括:
计算每个所述碳排放样本与其他任一碳排放样本之间的欧式距离值;
根据每个所述碳排放样本与其他任一碳排放样本之间的欧式距离值,生成每个所述碳排放样本对应的候选数据集;
从每个所述碳排放样本对应的候选数据集提取预设位置的距离值,生成所述待验证数据集。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述碳排放数据集进行预处理,得到预处理后的碳排放数据集;所述预处理包括缺失值处理和标准化处理中的至少一种;
所述根据所述碳排放数据集中各所述碳排放样本之间的距离值,确定待验证数据集,包括:
根据所述预处理后的碳排放数据集中各所述碳排放样本之间的距离值,确定待验证数据集。
8.一种碳排放数据的验证装置,其特征在于,所述装置包括:
获取模块,用于获取碳排放数据集;所述碳排放数据集包括至少两个碳排放样本;
确定模块,用于根据所述碳排放数据集中各所述碳排放样本之间的距离关系,确定待验证数据集;所述待验证数据集包括各所述碳排放样本对应的距离值;
验证模块,用于根据预设区间范围对所述待验证数据集中的各所述距离值进行验证,得到验证结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202311400419.1A 2023-10-26 2023-10-26 碳排放数据的验证方法、装置、计算机设备和存储介质 Pending CN117251816A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311400419.1A CN117251816A (zh) 2023-10-26 2023-10-26 碳排放数据的验证方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311400419.1A CN117251816A (zh) 2023-10-26 2023-10-26 碳排放数据的验证方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN117251816A true CN117251816A (zh) 2023-12-19

Family

ID=89126461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311400419.1A Pending CN117251816A (zh) 2023-10-26 2023-10-26 碳排放数据的验证方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN117251816A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020003202A1 (en) * 2018-06-25 2020-01-02 Vechain Global Technology S.Ar.L Method, device, storage medium and program product for carbon trading
CA3154671A1 (en) * 2019-09-18 2021-03-25 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
CN116362376A (zh) * 2023-02-17 2023-06-30 国网江苏省电力有限公司 基于机器学习的综合能源站建设碳排放预测方法
CN116484289A (zh) * 2023-04-07 2023-07-25 国网江苏省电力有限公司 一种碳排放异常数据检测方法、终端及存储介质
CN116596095A (zh) * 2023-07-17 2023-08-15 华能山东发电有限公司众泰电厂 基于机器学习的碳排放量预测模型的训练方法及装置
CN116629406A (zh) * 2023-04-26 2023-08-22 国网上海市电力公司 一种基于改进Prophet模型的用电碳排放预测方法
CN116862109A (zh) * 2023-07-11 2023-10-10 特斯联科技集团有限公司 一种区域碳排放态势感知预警方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020003202A1 (en) * 2018-06-25 2020-01-02 Vechain Global Technology S.Ar.L Method, device, storage medium and program product for carbon trading
CA3154671A1 (en) * 2019-09-18 2021-03-25 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
CN116362376A (zh) * 2023-02-17 2023-06-30 国网江苏省电力有限公司 基于机器学习的综合能源站建设碳排放预测方法
CN116484289A (zh) * 2023-04-07 2023-07-25 国网江苏省电力有限公司 一种碳排放异常数据检测方法、终端及存储介质
CN116629406A (zh) * 2023-04-26 2023-08-22 国网上海市电力公司 一种基于改进Prophet模型的用电碳排放预测方法
CN116862109A (zh) * 2023-07-11 2023-10-10 特斯联科技集团有限公司 一种区域碳排放态势感知预警方法
CN116596095A (zh) * 2023-07-17 2023-08-15 华能山东发电有限公司众泰电厂 基于机器学习的碳排放量预测模型的训练方法及装置

Similar Documents

Publication Publication Date Title
WO2019218699A1 (zh) 欺诈交易判断方法、装置、计算机设备和存储介质
WO2017215370A1 (zh) 构建决策模型的方法、装置、计算机设备及存储设备
CN112528025A (zh) 基于密度的文本聚类方法、装置、设备及存储介质
CN107622326B (zh) 用户分类、可用资源预测方法、装置及设备
CN110688536A (zh) 一种标签预测方法、装置、设备和存储介质
CN116561607A (zh) 资源交互数据异常检测方法、装置和计算机设备
CN115759742A (zh) 企业风险评估方法、装置、计算机设备和存储介质
CN114495137B (zh) 票据异常检测模型生成方法与票据异常检测方法
CN117251816A (zh) 碳排放数据的验证方法、装置、计算机设备和存储介质
CN109324963A (zh) 自动测试收益结果的方法及终端设备
CN114881761A (zh) 相似样本的确定方法与授信额度的确定方法
CN114170000A (zh) 信用卡用户风险类别识别方法、装置、计算机设备和介质
CN114490415A (zh) 业务测试方法、计算机设备、存储介质和计算机程序产品
CN112698877A (zh) 数据处理方法及系统
CN117522138A (zh) 金融业务系统的测试风险识别方法、装置、设备和介质
US20240134779A1 (en) System and method for automated test case generation based on queuing curve analysis
CN117541193A (zh) 业务审核方法、装置、计算机设备和存储介质
CN118095958A (zh) 业务等级的确定方法、装置、计算机设备、存储介质
CN117853217A (zh) 数据隐私保护的金融违约率预测方法、装置以及设备
CN114066618A (zh) 对象属性信息处理方法、装置、计算机设备、存储介质
CN115098686A (zh) 分级信息确定方法、装置、计算机设备
CN118228993A (zh) 需求优先级的确定方法、装置、计算机设备和存储介质
CN115439229A (zh) 业务数据处理方法、装置、计算机设备和存储介质
CN116881164A (zh) 金融信息系统中测试数据的校验修正方法、装置和设备
CN115587285A (zh) 目标对象识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination