CN109688021A - 扩展数据的方法和设备以及测试物联网应用的方法 - Google Patents

扩展数据的方法和设备以及测试物联网应用的方法 Download PDF

Info

Publication number
CN109688021A
CN109688021A CN201710978154.1A CN201710978154A CN109688021A CN 109688021 A CN109688021 A CN 109688021A CN 201710978154 A CN201710978154 A CN 201710978154A CN 109688021 A CN109688021 A CN 109688021A
Authority
CN
China
Prior art keywords
data
empty interval
growth
probability
empty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710978154.1A
Other languages
English (en)
Other versions
CN109688021B (zh
Inventor
孙昊立
张沈斌
钟朝亮
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201710978154.1A priority Critical patent/CN109688021B/zh
Publication of CN109688021A publication Critical patent/CN109688021A/zh
Application granted granted Critical
Publication of CN109688021B publication Critical patent/CN109688021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/022Capturing of monitoring data by sampling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/565Conversion or adaptation of application format or content

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种扩展数据的方法和设备以及测试物联网应用的方法。扩展数据的方法,包括:根据预定值范围,将真实数据集中的各个真实数据扩展成扩展数据;将预定值范围分割成彼此不重叠的多个区间,并且根据扩展数据的大小,将各个扩展数据划分到相应区间中;搜索不包括扩展数据的空区间;以及基于每个空区间附近的包括扩展数据的非空区间来在每个空区间中填充至少一个填充数据,由此得到由扩展数据和填充数据构成的补全数据集。

Description

扩展数据的方法和设备以及测试物联网应用的方法
技术领域
本发明总体上涉及扩展数据的方法和设备以及测试物联网应用的方法,具体涉及对采集自物联网的传感器数据进行扩展以便用于测试物联网应用的方法、设备和系统。
背景技术
物联网是通过射频识别、红外感应器、全球定位系统、激光扫描器、气体感应器等信息传感设备,按约定的协议,把任何物品与互联网连接起来,进行信息交换和通讯,以实现智能化识别、定位、跟踪、监控和管理的一种网络。在某些物联网系统的开发过程中,会对处理大量数据的物联网应用进行测试,这类应用包括数据分析应用、数据可视化应用等。但是在传感器设备大批量部署之前,很难得到大量的真实数据。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于现有技术的上述缺陷,本发明的目的之一是提供一种扩展数据的方法,包括:根据预定值范围,将真实数据集中的各个真实数据扩展成扩展数据;将所述预定值范围分割成彼此不重叠的多个区间,并且根据扩展数据的大小,将各个扩展数据划分到相应区间中;搜索不包括扩展数据的空区间;以及基于每个空区间附近的包括扩展数据的非空区间来在每个空区间中填充至少一个填充数据,由此得到由扩展数据和填充数据构成的补全数据集。
根据本发明的另一方面,提供了一种扩展数据的设备,包括:扩展装置,用于根据预定值范围,将真实数据集中的各个真实数据扩展成扩展数据;划分装置,用于将所述预定值范围分割成彼此不重叠的多个区间,并且根据扩展数据的大小,将各个扩展数据划分到相应区间中;搜索装置,用于搜索不包括扩展数据的空区间;以及填充装置,用于基于每个空区间附近的包括扩展数据的非空区间来在每个空区间中填充至少一个填充数据,由此得到由扩展数据和填充数据构成的补全数据集。
根据本发明的又一方面,还提供了一种对物联网应用进行测试的方法,包括:从物联网中采集真实数据;基于所采集的真实数据,利用上述扩展数据的方法来得到补全数据集;根据预定的数据尺寸,基于各个区间的变换后的概率,分别从补全数据集的各个组中抽取数据;以及利用所抽取的数据对所述物联网应用进行测试。
根据本发明的又一方面,还提供了一种对物联网应用进行测试的系统,包括:采集装置,配置成从物联网中采集真实数据;如上所述的扩展数据的设备,其基于所采样的真实数据来得打补全数据集;抽取装置,配置成根据预定的数据尺寸,基于各个区间的变换后的概率,分别从补全数据集的各个组中抽取数据;以及测试装置,利用所抽取的数据对所述物联网应用进行测试。
根据本发明的又一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
根据本发明的再一方面,还提供了一种程序。所述程序包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
本发明的上述方法、设备和系统能够利用真实数据,生成与真实数据的分布和变化趋势相符的、具有预定值域的扩展数据。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
参照附图来阅读本发明的各实施方式,将更容易理解本发明的其它特征和优点,在此描述的附图只是为了对本发明的实施方式进行示意性说明的目的,而非全部可能的实施,并且不旨在限制本发明的范围。在附图中:
图1示出了根据本发明的一种实施方式的扩展数据的方法的流程图。
图2示出了根据本发明的一种实施方式的扩展数据的方法中的扩展处理的流程图。
图3示出了根据本发明的一种实施方式的扩展数据的方法中的填充处理的流程图。
图4示出了根据本发明的另一种实施方式的扩展数据的方法的流程图。
图5示出了真实数据集中的数据发生剧烈变化的示意图。
图6示出了根据本发明的又一种实施方式的扩展数据的方法的流程图。
图7示出了根据本发明的实施方式的对物联网应用进行测试的方法的流程图
图8示出了根据本发明的实施方式的扩展数据的系统的结构框图。
图9示出了根据本发明的实施方式的对物联网应用进行测试的系统的结构框图。
图10示出了用于实施根据本发明实施方式的方法和设备的计算机的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施方式进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
图1示出了根据本发明的一种实施方式的扩展数据的方法的流程图。如图1所示,扩展数据的方法100包括:扩展步骤S120,其根据预定值范围,将真实数据集中的真实数据扩展成扩展数据;划分步骤S130,其将预定值范围分割成彼此不重叠的多个区间,并且根据扩展数据的大小,将各个扩展数据划分到相应区间中;搜索步骤S140,其搜索不包括扩展数据的空区间;以及填充步骤S150,其基于每个空区间附近的包括扩展数据的非空区间来在每个空区间中填充至少一个填充数据,由此得到由扩展数据和填充数据构成的补全数据集。
下面参考附图,对方法100中的各个步骤进行详细描述。
在扩展步骤S120中,要被扩展的真实数据集可以根据实际应用来提供,例如可以通过部署在环境中的传感器来采集真实数据集或者直接在网络上下载已有的真实数据集,等等。另外,真实数据集中的每个真实数据具有表征该真实数据在真实数据集中的排序的一个索引,例如索引可以是在采集真实数据时的时间戳等。预定值范围是扩展后的数据所覆盖的值域,其可以根据实际需要来人为设定。
如图2所示,根据预定值范围将真实数据扩展成扩展数据的处理包括:步骤S121,其基于真实数据和预定值范围来计算扩展率;以及步骤S122,其基于扩展率和各个真实数据来获取扩展数据。
优选地,在步骤S121中,可以基于真实数据集中最大的真实数据和最小的真实数据以及预定值范围来计算扩展率。例如,首先,基于最大的真实数据和最小的真实数据来计算中值,如等式(1)所示。然后,计算预定值范围的上限值与中值之差比上最大的真实数据与中值之差的比值,并且将该比值的绝对值作为第一扩展率,如等式(2)所示;并且计算预定值范围的下限值与中值之差比上最小的真实数据与中值之差的比值,并且将该比值的绝对值作为第二扩展率,如等式(3)所示。
中值=(真实数据max+真实数据min)/2 (1)
第一扩展率=|(预定值范围的上限值-中值)/(真实数据max-中值)| (2)
第二扩展率=|(预定值范围的下限值-中值)/(真实数据min-中值)| (3)
接着,在步骤S122中,将每一个真实数据与中值相比较,如果真实数据大于等于中值,则根据以下等式(4)来计算扩展数据;以及如果真实数据小于中值,则根据以下等式(5)来计算扩展数据。
扩展数据=(真实数据-中值)×第一扩展率+中值 (4)
扩展数据=(真实数据-中值)×第二扩展率+中值 (5)
由此,基于各个真实数据来得到相应的扩展数据,并且各个扩展数据具有与相应的真实数据相同的索引。
以上出于示例,给出了扩展率和扩展数据的计算方式。然而,扩展率和扩展数据的计算方式并不限于此,本领域技术人员可以基于除最大真实数据和最小真实以外的真实数据来计算扩展率,进而相应地计算扩展数据。
接着,在步骤S130中,将预定值范围分割成彼此不重叠的多个区间,并且根据扩展数据的大小,将各个扩展数据划分到相应区间中。优选地,可以将预定值范围平均分割成多个区间。
在以上步骤中,在根据扩展数据的大小将扩展数据划分到相应区间中时,可能出现扩展数据没有落入某些区间的情形。为此,需要对这些没有扩展数据的空区间进行填充,以使最终得到的补全数据集的分布和变化趋势与原来的真实数据大致相符。下面,具体描述对空区间的填充处理。
通过步骤S140搜索到不包括扩展数据的空区间之后,在步骤S150中,基于每个空区间附近的包括扩展数据的非空区间来在每个空区间中填充至少一个填充数据,由此得到由扩展数据和填充数据构成的补全数据集。
具体地,如图3所示,在空区间中填充数据的处理S150包括空区间概率计算步骤S151、概率变换步骤S152、填充数据数量计算步骤S153和填充数据大小确定步骤S154。
在步骤S151中,根据空区间附近的非空区间的概率来计算空区间的概率,其中,非空区间的概率为非空区间中的扩展数据的数量与扩展数据的总数量之比。优选地,在预定值范围被分割成间距相等的多个区间的情形下,空区间的概率可以基于以下等式(6)来计算:
其中,n为大于2的预定整数;X表示空区间;X1'……Xn'表示在空区间X附近的n个非空区间;P(X)表示空区间X的概率;P(Xi')表示非空区间Xi'的概率,其中i∈n;w表示区间之间的间距;xi'表示非空区间Xi'所覆盖的值域的中值;x表述空区间X所覆盖的值域的中值;以及σ为标准偏差。
优选地,在根据等式(6)计算空区间X的概率时,在空区间X的两侧各取n/2个非空区间。
然后,在步骤S152中,对非空区间的概率和空区间的概率进行变换以使得变换后的所有空区间的概率和非空区间的概率之和为1。在此,各个区间的变换后概率可以通过用各个区间的概率与所有区间的概率总和之比来计算,例如某一非空区间X1'的变换后概率可以计算为:非空区间X1'的概率/所有区间的概率总和(即,所有非空区间和空区间的概率总和);以及某一空区间X的变换后概率可以计算为:空区间X的概率/所有区间的概率总和。
接着,在步骤S153中,基于变换后的空区间的概率,来确定要填充空区间的填充数据的数量。具体地,空区间的填充数据可以基于该空区间的变换后概率,根据任一非空区间的变换后概率及其包含的扩展数据的数量来计算,例如,某一空区间X中所填充的填充数据可以计算为:空区间X的转换后概率×非空区间Xi'中的扩展数据的数量/非空区间Xi'的转换后概率。
在计算填充数据的数量时,可能会出现所计算的数量不是整数的情形。此时,采用向上取整(即,只要后面有小数,则前面的整数就加1)的策略,将小数变为整数,以保证每个区间中都有数据。
在确定了空区间中的填充数据的数量之后,在步骤S154中,根据空区间所覆盖的值域来确定要填充空区间的填充数据的大小。填充数据的大小可以被确定为在相应空区间所覆盖的值域内的任意值。本领域技术人员也可以根据实际应用以不同的方式来确定填充数据的大小。
在以上根据本发明的一种实施方式的扩展数据的方法中,直接对从环境中采集的真实数据执行扩展,而未考虑真实数据集中的异常数据。然而,扩展后的异常数据在补全数据集中的影响可能与原始异常数据在真实数据集中的影响不一致,例如原始的异常数据在扩展后可能不再是异常数据。因此,在以下的另一实施方式中,将描述对剔除异常数据后的真实数据进行扩展的方法。
图4是示出根据本发明的另一实施方式的扩展数据的方法的流程图。如图4所示,扩展数据的方法400包括:剔除步骤S410、扩展步骤S420、划分步骤S430、搜索步骤S440和填充步骤S450。在步骤S410中,检测真实数据集中的异常数据并且从真实数据集中剔除所检测到的异常数据。扩展步骤S420对剔除异常数据后的真实数据执行扩展处理。
在该另一实施方式中,扩展步骤S420、划分步骤S430、搜索步骤S440和填充步骤S450所执行的处理与方法100中的扩展步骤S120、划分步骤S130、搜索步骤S140和填充步骤S150所执行的处理相同,从而关于步骤S420至步骤S450的处理可以参见以上描述,在此不再赘述。
以下详细描述剔除步骤S410的处理流程。
在步骤S410中,首先按照真实数据的索引对真实数据集中的真实数据进行排序,并且在排序后的真实数据集中检测异常数据。在本实施方式中,所要检测的异常数据可以包括以下类型:数据大小剧烈变化;数据位于数据均值±3倍标准差的范围以外;以及数据大小超过给定的阈值范围。在此,仅列举了异常数据的几种类型作为示例,但异常数据的类型并不限于此。
关于数据大小剧烈变化的检测
图5是示出真实数据集中的数据发生剧烈变化的示意图。在图5中,数据在大部分位置处平滑过渡,而在T10时刻,如图5中的圆圈标注的部分所示,数据先是急剧减小而后又急剧升高。这样急剧变化的数据被视为异常数据,应当被删除。在本实施方式中,数据大小的变化程度通过相邻数据之间的变化率来衡量。作为示例,针对从环境中采样的依序排列的真实数据集[d1,…,di-1,di,…,dn],其中下标1…n表示真实数据的索引,第i个数据的变化率ri可以根据以下等式(7)来计算:
第i个数据的变化率
等式(7)仅是给出计算变化率的示例,本领域技术人员可以根据需要采用其他计算方式。
在检测剧烈变化的异常数据时,首先,根据等式(7),计算每个真实数据的变化率,并在各个真实数据上标注该变化率,由此得到真实数据集[(d1,r1),…,(di-1,ri-1),(di,ri),…,(dn,rn)]。然后,利用K-MEANS算法,基于所计算的变化率,将真实数据分为异常类和正常类。接着,在异常类的数据上标注“异常”标签,从而例如得到真实数据集[(d1,r1),…,(di-1,ri-1,异常),(di,ri,异常),…,(dn,rn)]。K-MEANS算法为本领域技术人员所熟知,在此不再详细描述利用该算法进行分类的详细过程。
关于数据位于数据均值±3倍标准差的范围以外的检测
首先,计算真实数据集中所有真实数据的算术平均值μ,并且根据以下等式(8)计算标准偏差σ。然后,从真实数据集中找出大小在(μ-3σ,μ+3σ)范围外的真实数据,作为异常数据。接着,在异常数据上添加“异常”标签。
关于数据大小超过给定的阈值范围的检测
找出真实数据集中,大小超过给定阈值范围的真实数据,作为异常数据。然后在异常数据上添加“异常”标签。
在检测异常数据时,依次将以上各种类型的异常数据的检测方式应用于真实数据集,以检测出异常数据并为异常数据添加“异常”标签。
接着,在步骤S410中,根据“异常”标签,从真实数据集中剔除异常数据。
在根据本发明另一实施方式的扩展数据的方法中,对剔除了异常数据的真实数据进行扩展。如此得到的补全数据集中不包括异常数据。下面,描述根据本发明的又一实施方式的扩展数据的方法,该方法能够根据实际应用的需要而在补全数据集中插入异常。
图6示出了根据本发明的又一实施方式的扩展数据的方法的流程图。
如图6所示,扩展数据的方法600包括:剔除步骤S610、扩展步骤S620、划分步骤S630、搜索步骤S640、填充步骤S650和插入步骤660。剔除步骤S610所执行的处理与方法400中的剔除步骤S410所执行的处理大致相同,所不同之处仅在于:在步骤S610中,在根据以上描述的检测方式检测并标记出异常数据之后,遍历真实数据集以找出连续的被标记为异常的数据序列,作为异常模式,例如,从真实数据集中找到以下异常模式:[(di-1,ri-1,异常),(di,ri.异常)]和[(dj-1,rj-1,异常),(dj,rj,异常),(dj+1,rj+1,异常)],等等。
在该又一实施方式中,步骤S620至步骤S650所执行的处理与方法100中的步骤120至步骤S150所执行的处理相同。关于步骤S620至步骤S650的处理可以参见以上描述,在此不再赘述。
在插入步骤S660中,在补全数据集中插入异常之前,需要为补全数据集中的无索引数据添加索引。具体操作为:对补全数据集中的数据按照数据的大小进行排序;遍历排序后的所有数据,如果遇到没有索引的数据,则将该数据的索引设定为前一个数据的索引。
接着,按照索引对补全数据集中的数据进行排序,并且在排序后的补全数据集中插入异常。在排序过程中,对索引相同的数据之间的顺序没有限定,索引相同的数据之间的顺序可以任意设置。优选地,索引相同的数据之间的顺序可以按照在添加索引时的顺序来设置。
另外,在排序后的补全数据集中插入异常的位置没有特殊限定,可以在排序后的补全数据集中的任意位置处插入异常。并且,要插入的异常的数量可以根据表示要插入的异常的数量与补全数据集中的数据总量之比的预定比例来确定。
此外,要插入的异常可以包括:超出预定值范围的数据;绝对值超出|均值+3σ|的数据;空数据(数据丢失);和在步骤S610中检测出的异常模式。然而,要插入的异常不限于此,本领域技术人员可以根据实际应用来插入其他的异常。下面分两种情况来描述插入异常的方式。
在所插入的异常为超出预定值范围的数据、绝对值超出|均值+3σ|的数据或空数据(数据丢失)时,用超出预定值范围的数据、绝对值超出|均值+3σ|的数据或空数据替换补全数据集中的数据。
在所插入的异常为异常模式时,基于变化率来插入异常模式。具体地,假定在步骤S610中所获取的异常模式之一为[(dk-1:3,rk-1:2),(dk:6,rk:1),(dk+1:10,rk+1:2/3)],并且按照索引排序后的补全数据集为[31,32,23,24,35]。若在索引为“2”的位置处开始插入上述异常模式,则所得到的插入异常后的数据集为[31,92,183,304,35],其中,根据下述等式(9)来计算索引为“2”、“3”和“4”处的数据大小:
di的大小=(ri×di-1的大小)+di-1的大小 (9)
下面,参考图7来描述对物联网应用进行测试的方法。
图7示出了根据本发明实施方式的对物联网应用进行测试的方法的流程图。如图7所示,方法700包括:步骤710至步骤740。在步骤710中,从物联网中采集真实数据。例如,利用部署在物联网中的传感器采集真实数据。在步骤720中,基于所采集的真实数据,根据以上描述的扩展数据的方法来得到补全数据集。在步骤720中,根据预定的数据尺寸,基于各个区间的变换后的概率,分别从补全数据集的各个组中抽取数据。在步骤730中,利用所抽取的数据对物联网应用进行测试。
以上结合附图对根据本发明的具体实例的扩展数据的方法和对物联网应用进行测试的方法进行了详细描述。下面将结合附图对根据本发明的具体实例的扩展数据的设备和系统进行描述。
图8示出了根据本发明实施方式的扩展数据的设备的结构示意图。如图8所示,根据本发明的一种实施方式的扩展数据的设备800包括:扩展装置820,其配置成根据预定值范围,将真实数据扩展成扩展数据;划分装置830,其配置成将预定值范围分割成彼此不重叠的多个区间,并且根据扩展数据的大小,将各个扩展数据划分到相应区间中;搜索装置840,其配置成搜索不包括扩展数据的空区间;以及填充装置850,其配置成基于每个空区间附近的包括扩展数据的非空区间来在每个空区间中填充至少一个填充数据,由此得到由扩展数据和填充数据构成的补全数据集。
扩展装置820包括扩展率计算单元821和扩展数据获取单元822。扩展率计算单元821配置成基于真实数据和预定值范围来计算扩展率。扩展数据获取单元822配置成基于扩展率和真实数据来获取扩展数据。
填充装置850包括空区间概率计算单元851、概率变换单元852、填充数据数量计算单元853和填充数据大小计算单元854。空区间概率计算单元851配置成根据空区间附近的非空区间的概率来计算空区间的概率,该非空区间的概率为非空区间中的扩展数据的数量与扩展数据的总数量之比。概率变换单元852配置成对非空区间的概率和空区间的概率进行变换以使得变换后的所有空区间的概率和非空区间的概率之和为1。填充数据数量计算单元853配置成基于变换后的空区间的概率,来确定要填充空区间的填充数据的数量。填充数据大小计算单元854根据空区间所覆盖的值域来确定要填充空区间的填充数据的大小。
优选地,根据本发明实施方式的扩展数据的设备800还包括剔除装置810。该剔除装置810配置成检测真实数据中的异常数据,并且从真实数据中剔除所检测到的异常数据。在此,扩展装置820对剔除异常数据后的真实数据执行扩展。
优选地,根据本发明实施方式的扩展数据的设备800还包括插入装置860。该插入装置860配置成在补全数据集中插入异常。所述异常包括:超出预定值范围的数据;绝对值超出|均值+3σ|的数据;空数据;以及在剔除装置810中剔除的异常数据。
关于扩展数据的设备800中的装置和单元的具体操作可以参看上文中关于扩展数据的方法的各个具体示例中的描述。在此,为了简明起见,不再详细讨论设备800中的各个装置和单元的操作。
图9示出了根据本发明实施方式的对物联网应用进行测试的系统的结构框图。
如图9所示,对物联网应用进行测试的系统900包括:采集装置910,配置成从物联网中采集真实数据;如上所述的扩展数据的设备800,其基于所采样的真实数据来得打补全数据集;抽取装置920,配置成根据预定的数据尺寸,基于各个区间的变换后的概率,分别从补全数据集的各个组中抽取数据;以及测试装置930,利用所抽取的数据对物联网应用进行测试。
利用根据本发明的方法、设备和系统所得到的补全数据集在分布和变化趋势方面与原始的真实数据集大致相符,并且补全数据集的值域和数量能够人为地设定。从而,在类似物联网等应用中,能够基于有限的采样数据来生成待测试应用所需要的测试数据,而无需在环境中大量布置传感器设备来采集所需的测试数据。
另外,这里尚需指出的是,上述系统中各个组成部件可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图10所示的通用计算机1000)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图10示出了可用于实施根据本发明实施方式的方法和系统的计算机的示意性框图。
在图10中,中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机存取存储器(RAM)1003的程序执行各种处理。在RAM 1003中,还根据需要存储当CPU 1001执行各种处理等等时所需的数据。CPU 1001、ROM 1002和RAM 1003经由总线1004彼此连接。输入/输出接口1005也连接到总线1004。
下述部件连接到输入/输出接口1005:输入部分1006(包括键盘、鼠标等等)、输出部分1007(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1008(包括硬盘等)、通信部分1009(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1009经由网络比如因特网执行通信处理。根据需要,驱动器1010也可连接到输入/输出接口1005。可拆卸介质1011比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1010上,使得从中读出的计算机程序根据需要被安装到存储部分1008中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1011安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图10所示的其中存储有程序的、与设备相分离地分发以向用户提供程序的可拆卸介质1011。可拆卸介质1011的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1002、存储部分1008中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施方式的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的范围内。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
应当注意,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的次序顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
以上对本发明各实施方式的描述是为了更好地理解本发明,其仅仅是示例性的,而非旨在对本发明进行限制。应注意,在以上描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。本领域技术人员可以理解,在不脱离本发明的发明构思的情况下,针对以上所描述的实施方式进行的各种变化和修改,均属于本发明的范围内。
综上,在根据本发明的实施方式中,本发明提供了如下技术方案。
方案1.一种扩展数据的方法,包括:
根据预定值范围,将真实数据集中的各个真实数据扩展成扩展数据;
将所述预定值范围分割成彼此不重叠的多个区间,并且根据扩展数据的大小,将各个扩展数据划分到相应区间中;
搜索不包括扩展数据的空区间;以及
基于每个空区间附近的包括扩展数据的非空区间来在每个空区间中填充至少一个填充数据,由此得到由扩展数据和填充数据构成的补全数据集。
方案2.根据方案1所述的方法,还包括:
检测所述真实数据集中的异常数据;以及
从所述真实数据集中剔除所检测到的异常数据;
其中,对剔除所述异常数据后的真实数据集执行所述扩展。
方案3.根据方案2所述的方法,还包括:
在所述补全数据集中插入异常。
方案4.根据方案1至3中任一项所述的方法,其中,所述扩展包括:
基于所述真实数据和所述预定值范围来计算扩展率;以及
基于所述扩展率和各个所述真实数据来获取扩展数据。
方案5.根据方案1至3中任一项所述的方法,其中,所述填充包括:
根据所述空区间附近的非空区间的概率来计算所述空区间的概率,所述非空区间的概率为所述非空区间中的扩展数据的数量与扩展数据的总数量之比;
对所述非空区间的概率和所述空区间的概率进行变换以使得变换后的所有空区间的概率和非空区间的概率之和为1;
基于变换后的空区间的概率,来确定要填充所述空区间的填充数据的数量;以及
根据所述空区间所覆盖的值域来确定要填充所述空区间的填充数据的大小。
方案6.根据方案5所述的方法,其中,所述预定值范围被分割成间距相等的多个区间,所述空区间的概率基于以下等式来计算:
其中,n为大于2的预定整数;X表示空区间;X1'……Xn'表示在所述空区间X附近的n个非空区间;P(X)表示空区间X的概率;P(Xi')表示非空区间Xi'的概率,其中i∈n;w表示区间之间的间距;xi'表示非空区间Xi'所覆盖的值域的中值;x表述空区间X所覆盖的值域的中值;以及σ为标准差。
方案7.根据方案6所述的方法,其中,在空区间X的两侧各取n/2个非空区间。
方案8.根据方案2至3中任一项所述的方法,其中,所述异常数据根据下述中的至少一个来确定:数据大小剧烈变化;数据位于数据均值±3倍标准差的范围以外;以及数据大小超过预定值范围。
方案9.根据方案3所述的方法,其中,在所述补全数据集中插入的异常包括:超出预定值范围的数据;绝对值超出|均值+3σ|的数据;空数据;以及所述异常数据。
方案10.根据方案4所述的方法,其中,基于最大的真实数据、最小的真实数据和所述预定值范围来计算所述扩展率。
方案11.一种扩展数据的设备,包括:
扩展装置,用于根据预定值范围,将真实数据集中的各个真实数据扩展成扩展数据;
划分装置,用于将所述预定值范围分割成彼此不重叠的多个区间,并且根据扩展数据的大小,将各个扩展数据划分到相应区间中;
搜索装置,用于搜索不包括扩展数据的空区间;以及
填充装置,用于基于每个空区间附近的包括扩展数据的非空区间来在每个空区间中填充至少一个填充数据,由此得到由扩展数据和填充数据构成的补全数据集。
方案12.根据方案11所述的设备,还包括:剔除装置,所述剔除装置配置成检测所述真实数据集中的异常数据;以及从所述真实数据集中剔除所检测到的异常数据,
其中,对剔除所述异常数据后的真实数据集执行所述扩展。
方案13.根据方案12所述的设备,还包括:插入装置,所处插入装置配置成在所述补全数据集中插入异常。
方案14.根据方案11至13中任一项所述的设备,其中,所述扩展装置包括:
扩展率计算单元,配置成基于所述真实数据和所述预定值范围来计算扩展率;以及
扩展数据获取单元,配置成基于所述扩展率和各个所述真实数据来获取扩展数据。
方案15.根据方案11至13中任一项所述的设备,其中,所述填充装置包括:
空区间概率计算单元,配置成根据所述空区间附近的非空区间的概率来计算所述空区间的概率,所述非空区间的概率为所述非空区间中的扩展数据的数量与扩展数据的总数量之比;
概率变换单元,配置成对所述非空区间的概率和所述空区间的概率进行变换以使得变换后的所有空区间的概率和非空区间的概率之和为1;
填充数据数量计算单元,配置成基于变换后的空区间的概率,来确定要填充所述空区间的填充数据的数量;以及
填充数据大小计算单元,配置成根据所述空区间所覆盖的值域来确定要填充所述空区间的填充数据的大小。
方案16.根据方案15所述的设备,其中,所述预定值范围被分割成间距相等的多个区间,所述空区间的概率基于以下等式来计算:
其中,n为大于2的预定整数;X表示空区间;X1'……Xn'表示在所述空区间X附近的n个非空区间;P(X)表示空区间X的概率;P(Xi')表示非空区间Xi'的概率,其中i∈n;w表示区间之间的间距;xi'表示非空区间Xi'所覆盖的值域的中值;x表述空区间X所覆盖的值域的中值;以及σ为标准差。
方案17.根据方案12至13中任一项所述设备,其中,所述异常数据根据下述中的至少一个来确定:数据大小剧烈变化;数据位于数据均值±3倍标准差的范围以外;以及数据大小超过预定值范围。
方案18.根据方案13所述的设备,其中,在所述补全数据集中插入的异常包括:超出预定值范围的数据;绝对值超出|均值+3σ|的数据;空数据;以及所述异常数据。
方案19.根据方案14所述的设备,其中,所述扩展率计算单元配置成基于最大的真实数据、最小的真实数据和所述预定值范围来计算所述扩展率。
方案20.一种对物联网应用进行测试的方法,包括:
从物联网中采集真实数据;
基于所采集的真实数据,利用方案1至10中任一项所述的扩展数据的方法来得到补全数据集;
根据预定的数据尺寸,基于各个区间的变换后的概率,分别从补全数据集的各个组中抽取数据;以及
利用所抽取的数据对所述物联网应用进行测试。

Claims (10)

1.一种扩展数据的方法,包括:
根据预定值范围,将真实数据集中的各个真实数据扩展成扩展数据;
将所述预定值范围分割成彼此不重叠的多个区间,并且根据扩展数据的大小,将各个扩展数据划分到相应区间中;
搜索不包括扩展数据的空区间;以及
基于每个空区间附近的包括扩展数据的非空区间来在每个空区间中填充至少一个填充数据,由此得到由扩展数据和填充数据构成的补全数据集。
2.根据权利要求1所述的方法,还包括:
检测所述真实数据集中的异常数据;
从所述真实数据集中剔除所检测到的异常数据;以及
其中,对剔除所述异常数据后的真实数据集执行所述扩展。
3.根据权利要求2所述的方法,还包括:
在所述补全数据集中插入异常。
4.根据权利要求1至3中任一项所述的方法,其中,所述扩展包括:
基于所述真实数据和所述预定值范围来计算扩展率;以及
基于所述扩展率和各个所述真实数据来获取扩展数据。
5.根据权利要求1至3中任一项所述的方法,其中,所述填充包括:
根据所述空区间附近的非空区间的概率来计算所述空区间的概率,所述非空区间的概率为所述非空区间中的扩展数据的数量与扩展数据的总数量之比;
对所述非空区间的概率和所述空区间的概率进行变换以使得变换后的所有空区间的概率和非空区间的概率之和为1;
基于变换后的空区间的概率,来确定要填充所述空区间的填充数据的数量;以及
根据所述空区间所覆盖的值域来确定要填充所述空区间的填充数据的大小。
6.根据权利要求5所述的方法,其中,所述预定值范围被分割成间距相等的多个区间,所述空区间的概率基于以下等式来计算:
其中,n为大于2的预定整数;X表示空区间;X1'……Xn'表示在所述空区间X附近的n个非空区间;P(X)表示空区间X的概率;P(Xi')表示非空区间Xi'的概率,其中i∈n;w表示区间之间的间距;xi'表示非空区间Xi'所覆盖的值域的中值;x表述空区间X所覆盖的值域的中值;以及σ为标准差。
7.根据权利要求2至3中任一项所述的方法,其中,所述异常数据根据下述中的至少一个来确定:数据大小剧烈变化;数据位于数据均值±3倍标准差的范围以外;以及数据大小超过预定值范围。
8.根据权利要求3所述的方法,其中,在所述补全数据集中插入的异常包括:超出预定值范围的数据;绝对值超出|均值+3σ|的数据;空数据;以及所述异常数据。
9.一种扩展数据的设备,包括:
扩展装置,用于根据预定值范围,将真实数据集中的各个真实数据扩展成扩展数据;
划分装置,用于将所述预定值范围分割成彼此不重叠的多个区间,并且根据扩展数据的大小,将各个扩展数据划分到相应区间中;
搜索装置,用于搜索不包括扩展数据的空区间;以及
填充装置,用于基于每个空区间附近的包括扩展数据的非空区间来在每个空区间中填充至少一个填充数据,由此得到由扩展数据和填充数据构成的补全数据集。
10.一种对物联网应用进行测试的方法,包括:
从物联网中采集真实数据;
基于所采集的真实数据,利用权利要求1至8中任一项所述的扩展数据的方法来得到补全数据集;
根据预定的数据尺寸,基于各个区间的变换后的概率,分别从补全数据集的各个组中抽取数据;以及
利用所抽取的数据对所述物联网应用进行测试。
CN201710978154.1A 2017-10-18 2017-10-18 扩展数据的方法和设备以及测试物联网应用的方法 Active CN109688021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710978154.1A CN109688021B (zh) 2017-10-18 2017-10-18 扩展数据的方法和设备以及测试物联网应用的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710978154.1A CN109688021B (zh) 2017-10-18 2017-10-18 扩展数据的方法和设备以及测试物联网应用的方法

Publications (2)

Publication Number Publication Date
CN109688021A true CN109688021A (zh) 2019-04-26
CN109688021B CN109688021B (zh) 2022-02-01

Family

ID=66184157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710978154.1A Active CN109688021B (zh) 2017-10-18 2017-10-18 扩展数据的方法和设备以及测试物联网应用的方法

Country Status (1)

Country Link
CN (1) CN109688021B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198015A (zh) * 2013-03-21 2013-07-10 中国人民解放军国防科学技术大学 一种基于使用概率的嵌入式软件可靠性测试数据生成方法
CN104252515A (zh) * 2013-12-04 2014-12-31 深圳市华傲数据技术有限公司 一种数据生成方法和装置
CN106227660A (zh) * 2016-07-21 2016-12-14 中国科学院计算技术研究所 一种用于模拟真实物理环境的仿真数据生成方法
US20170103214A1 (en) * 2014-11-12 2017-04-13 Intuit Inc. Testing insecure computing environments using random data sets generated from characterizations of real data sets

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198015A (zh) * 2013-03-21 2013-07-10 中国人民解放军国防科学技术大学 一种基于使用概率的嵌入式软件可靠性测试数据生成方法
CN104252515A (zh) * 2013-12-04 2014-12-31 深圳市华傲数据技术有限公司 一种数据生成方法和装置
US20170103214A1 (en) * 2014-11-12 2017-04-13 Intuit Inc. Testing insecure computing environments using random data sets generated from characterizations of real data sets
CN106227660A (zh) * 2016-07-21 2016-12-14 中国科学院计算技术研究所 一种用于模拟真实物理环境的仿真数据生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙辉等: "工业过程模糊控制建模中数据预处理方法研究", 《大连铁道学院学报》 *

Also Published As

Publication number Publication date
CN109688021B (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
Wang et al. Compositional vector space models for improved bug localization
EP2913756B1 (en) Operation management apparatus and operation management method
CN110147310A (zh) 一种基于变异策略的并行模糊测试调度方法及装置
US20080162909A1 (en) Compilation and runtime information generation and optimization
Gao et al. An exact algorithm for maximum k-plexes in massive graphs.
CN104572085B (zh) 应用程序的分析方法及装置
EP2884447A1 (en) Efficient detection of information of interest using greedy-mode-based graph clustering
CN107102999A (zh) 关联分析方法和装置
CN111352808A (zh) 告警数据处理方法、装置、设备及存储介质
CN110147367A (zh) 一种温度缺失数据填补方法、系统及电子设备
CN109815042B (zh) 异常因素的定位方法、装置、服务器和存储介质
Rendl et al. A branch and bound algorithm for Max-Cut based on combining semidefinite and polyhedral relaxations
CN105868956A (zh) 一种数据处理方法及装置
CN112907026A (zh) 一种基于可编辑网状指标体系的综合评估方法
CN106682514B (zh) 基于子图挖掘的系统调用序列特征模式集生成方法
CN106648839A (zh) 数据处理的方法和装置
CN105956605B (zh) 基于并行k-means聚类的三维结构相似性聚类方法
CN109688021A (zh) 扩展数据的方法和设备以及测试物联网应用的方法
CN105468726B (zh) 基于本地计算和分布式计算的数据计算方法及系统
JP5725547B2 (ja) リスク管理装置
Yin et al. Exemplar or matching: modeling DCJ problems with unequal content genome data
CN110309948A (zh) 整车物流订单预测方法及装置、物流系统以及计算机可读介质
CN104536879A (zh) 一种基于模糊聚类的多错误定位方法
CN108805755A (zh) 一种旅游套餐生成方法及装置
CN109542496A (zh) 增量代码确定方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant