CN112084577B - 一种基于仿真试验数据的数据处理方法 - Google Patents

一种基于仿真试验数据的数据处理方法 Download PDF

Info

Publication number
CN112084577B
CN112084577B CN202010859270.3A CN202010859270A CN112084577B CN 112084577 B CN112084577 B CN 112084577B CN 202010859270 A CN202010859270 A CN 202010859270A CN 112084577 B CN112084577 B CN 112084577B
Authority
CN
China
Prior art keywords
data
missing
simulation test
information
searching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010859270.3A
Other languages
English (en)
Other versions
CN112084577A (zh
Inventor
王晓原
夏媛媛
姜雨函
朱慎超
王曼曼
李艺如
万倩男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Navigation Brilliance Qingdao Technology Co Ltd
Original Assignee
Navigation Brilliance Qingdao Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Navigation Brilliance Qingdao Technology Co Ltd filed Critical Navigation Brilliance Qingdao Technology Co Ltd
Priority to CN202010859270.3A priority Critical patent/CN112084577B/zh
Publication of CN112084577A publication Critical patent/CN112084577A/zh
Application granted granted Critical
Publication of CN112084577B publication Critical patent/CN112084577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/14Force analysis or force optimisation, e.g. static or dynamic forces

Abstract

本发明涉及一种基于仿真试验数据的数据处理方法,包括:步骤101、根据预定的数据检索方式,对虚拟仿真试验的数据库中数据进行检索处理,查找检索结果中缺失的数据;步骤102、基于确定的存在缺失的数据信息,借助于理论计算的数据,构建用于补充缺失数据的逆系统;步骤103、采用构建的逆数据系统在缺失数据的位置进行数据补充,获得将补充后的数据集构成完整的数据库。上述方法可以对数据库中的缺失数据进行补充,满足了船舶性能仿真试验的需要。

Description

一种基于仿真试验数据的数据处理方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于仿真试验数据的数据处理方法。
背景技术
随着船舶行业的快速发展,船舶智能化发展成为必然趋势,在研究智能船舶的过程中,需要对船舶的耐波性、操纵性、快速性三个基本船舶性能进行研究分析,针对船舶的单个基本特性,采用搭建虚拟水池系统的方式对船舶特性进行仿真分析。采用虚拟水池系统仿真试验对船舶的基本性能进行分析,实现了船舶性能如水动力性能和船舶设计的高效融合,减少船舶性能研究的时间和成本,提高船舶性能研究的高效性。
具体地,在对船舶的水动力性能进行虚拟仿真试验的过程中,需要对仿真试验的数据信息进行汇总并整理成数据库形式,单个仿真试验过程会产生海量的数据信息,对于这些庞大而繁杂的数据信息,仅仅依靠数据库自身的检索机制和统计学方法远远不能满足现实的需要。在进行虚拟水池仿真试验的过程中,需要大量的调用参数,并对参数进行编辑处理,数据库本身的数据调取和数据分析功能面对船舶的虚拟仿真试验庞大的数据信息时,无法满足仿真试验的试验需求。此外,试验数据庞大而繁杂,在数据的存储和调用过程中,会导致部分数据信息的读取不完整,使得数据信息缺失。
为此,如何对数据库中的数据进行处理以实现船舶性能仿真试验的需要成为当前需要解决的技术问题。
发明内容
(一)要解决的技术问题
鉴于现有技术的上述缺点、不足,本发明提供一种基于仿真试验数据的数据处理方法,用于对数据库中的缺失数据进行补充,满足了船舶性能仿真试验可靠性的需要。
(二)技术方案
为了达到上述目的,本发明采用的主要技术方案包括:
本发明提供一种基于仿真试验数据的数据处理方法,包括:
步骤101、根据预定的数据检索方式,对虚拟仿真试验的数据库中数据进行检索处理,查找检索结果中缺失的数据;
步骤102、基于确定的存在缺失的数据信息,借助于理论计算的数据,构建用于补充缺失数据的逆系统;
步骤103、采用构建的逆数据系统在缺失数据的位置进行数据补充,获得将补充后的数据集构成完整的数据库。
可选地,步骤101、根据预定的数据检索方式,对虚拟仿真试验的数据库中数据进行检索处理,查找检索结果中缺失的数据,包括:
子步骤1011、当前虚拟仿真试验对应的数据库中的数据,建立多个数据集;
子步骤1012、评估每一数据集中每一数据点属于相应数据集中数据簇的概率;
子步骤1013、采用最大似然函数将每一数据点归纳到所属最高概率的数据集中;
子步骤1014、将每一数据集对应的给定的数据总量和实际的数据总量进行差值比较,根据差值信息,确定该数据集中是否存在缺失或者存在数据冗余;
子步骤1015、若至少一个数据集中存在缺失,则获取缺失的数据集的集合。
可选地,检索结果中缺失的数据包括下述的一种或多种:
第一次仿真试验中缺失设置参数;
仿真试验中采集装置故障时缺失的事实数据;
仿真试验中数据属性的专属性导致的数据缺失;
仿真试验中数据量超出预设值,导致数据缺失;
水动力性能仿真试验中,参数信息多导致参数信息缺失。
可选地,子步骤1012,包括:
采用下述的概率密度函数确定每一数据点属于相应数据集中数据簇的概率;
概率密度函数为:
公式中,x是输入的数据集,μj和∑j为第j个簇的均值和协方差,j=1,2,...k;第i个数据点属于第j个簇的概率表示为:
z(i)为设定的第i次迭代的参数的猜测值,x0 (i)为第i次的迭代参数,猜测值是指迭代参数经过i次迭代后的数值的预测值,φ为贝叶斯后验概率调节因子。
可选地,还包括:
在计算数据点的概率时,结合贝叶斯规则,
迭代参数的猜测值z(i)的后验概率为:
其中,p(z(i)=j,φ)为第j个数据簇的先验概率,k是数据簇的数量;φ为贝叶斯后验概率调节因子。
在计算过程中假定每个数据簇都有着相等的先验概率,其中μj和∑j分别是平均值和协方差值,此时,最大化为:
为权值,满足/>求取对数似然函数如下:
重复迭代对数似然函数的值直至收敛到一个数据集。
可选地,步骤102包括:
逆数据系统为:s(k)=[s1(k),s2(k),...sm(k)]T
存在缺失数据的源数据x(k)与si(k)自相关,逆数据系统输出为:
y(k)=Wx(k)=WAs(k);
W矩阵为n×m维分离矩阵,A为混合矩阵,y(k)为多维参量混合估计后得到的近似数据信息统计。
可选地,步骤103包括:
对近似数据信息进行自相关成分分析方法,在近似数据信息中插入数据的相关信息特征;
在插入数据的信息特征后,对插入数据的数据信息进行完善,获得接近试验的完整数据信息。
可选地,在近似数据信息中插入数据的相关信息特征,包括:
查找获取数据中与理论数据最接近的数据计算平均值进行插值;
或者,若某一时刻数据缺失,该时刻前后预设时间段内数据正常,则采用前后两个时刻的数据作插值;
或者,若某一时刻前后的数据均缺失,则采用前后相邻时刻的数据作插值。
第二方面,本发明实施例还提供一种基于仿真试验数据的数据处理系统,包括:
缺失数据查找单元,用于根据预定的数据检索方式,对虚拟仿真试验的数据库中数据进行检索处理,查找检索结果中缺失的数据;
逆系统构建单元,用于基于确定的存在缺失的数据信息,借助于理论计算的数据,构建用于补充缺失数据的逆系统;
数据库完善单元,用于采用构建的逆数据系统在缺失数据的位置进行数据补充,获得将补充后的数据集构成完整的数据库;
所述数据处理系统执行上述第一方面任一所述的方法。
第三方面,本发明实施例还提供一种电子设备,包括存储器和处理器,所述存储器中存储有指令,所述处理器执行所述存储器中的指令,具体为执行上述第一方面任一所述的方法。
(三)有益效果
本发明的方法可对数据库中的仿真试验数据进行检索查看,检索数据信息中是否存在数据缺失现象,然后根据理论数据信息与数据库信息进行一一对应排查,查找缺失数据的位置和信息内容,对其数据信息进行补充增加,以便后续仿真试验。
本发明的方法可对虚拟仿真试验所获取的数据库信息进行挖掘和补充,充分考虑试验过程中以及数据存储过程中由于一些不可避免的问题而导致的数据确实问题,进而保证了虚拟仿真试验数据的准确性,间接保证进行数据分析时所获取的相关知识的精确度,保证虚拟仿真试验数据可以应用于智能船舶的船舶水动力性能的分析中。
附图说明
图1为本发明一实施例提供的基于仿真试验数据的数据处理方法的流程示意图;
图2为本发明另一实施例提供的基于仿真试验数据的数据处理系统的结构示意图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
本发明的方法是针对进行虚拟仿真试验所获取的数据信息,该数据信息由于种种原因导致数据的缺失,影响数据分析结果的准确度。针对于此首先是对数据库中的仿真试验数据进行检索查看,检索数据信息中是否存在数据缺失现象,然后根据理论数据信息与数据库信息进行一一对应排查,查找缺失数据的位置和信息内容,对其数据信息进行补充增加。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更清楚、透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
实施例一
如图1所示,图1示出了本发明一实施例提供的基于仿真试验数据的数据处理方法的流程示意图,本实施例的方法的执行主体可为虚拟仿真试验的服务器,该方法包括如下的步骤:
步骤101、根据预定的数据检索方式,对虚拟仿真试验的数据库中数据进行检索处理,查找检索结果中缺失的数据。
本实施例中的数据检索方式可以是日期、名称、测试性能等多种信息组合进行检索的检索组合式。
在该步骤中分析了可能引起数据丢失的原因;其具体操作方式是对现有数据进行数据挖掘,将相似程度较大的数据划分为同一类,与理论数据进行对比筛选,判断存储的数据是否有缺失现象,由此,确定缺失的数据。
在本实施例中,检索结果中缺失的数据可包括:第一次仿真试验中缺失设置参数;仿真试验中采集装置故障时缺失的事实数据;仿真试验中数据属性的专属性导致的数据缺失;仿真试验中数据量超出预设值,导致数据缺失;水动力性能仿真试验中,参数信息多导致参数信息缺失等等,本实施例不对其限定,根据实际需要确定。
步骤102、基于确定的存在缺失的数据信息,借助于理论计算的数据,构建用于补充缺失数据的逆系统。
在本实施例中,理论计算的数据可为预先确定的专家知识库数据信息。可理解的是,专家知识库中的数据是在未进行测试时,通过理论计算的方式,获取的仿真测试的相关数据并保存在数据库中。便于后续试验过程中给予参考验证的作用。
步骤103、采用构建的逆数据系统在缺失数据的位置进行数据补充,获得将补充后的数据集构成完整的数据库。
在该步骤中,针对缺失的数据采用数据重构的方法,将存储的数据与理论数据进行融合,判断两种数据的相关性,补齐数据库中缺失的数据信息。
在其他实施例中,本实施例中还可以对缺失数据信息进行插补方式的补齐,例如,采用K近邻法插补缺失的数据。
在本实施例中,对进行虚拟仿真试验所获取的数据库信息进行挖掘和补充,充分考虑试验过程中以及数据存储过程中由于一些不可避免的问题而导致的数据确实问题,进而保证了虚拟仿真试验数据的准确性,间接保证进行数据分析时所获取的相关知识的精确度,保证虚拟仿真试验数据可以应用于智能船舶的船舶水动力性能的分析中。
实施例二
当前为了减少试验成本,大多船舶性能均采用软件实现仿真,例如虚拟仿真试验的方式实现对船舶的性能仿真。以船舶的水动力性能虚拟仿真试验举例说明,在进行虚拟仿真试验的过程中,会对虚拟仿真试验的数据信息进行存储和处理,但由于虚拟试验仿真数据量大、数据测量误差多、数据获取存在限制以及存储介质存在故障等原因,使得数据库中的虚拟仿真试验数据不完整,在进行数据分析和数据调用过程中,会导致数据分析结果误差大,因此,为保证仿真数据信息的完整性,保证数据信息分析结果的可靠性,提出本发明中对仿真试验的数据信息缺失的数据处理方法。该数据处理方法的具体实施方案如下:
在进行第一步之前可进行下述的准备工作,即:分析仿真试验数据库信息缺失的原因主要有:
1)虚拟仿真系统在进行船舶的水动力性能试验时,部分试验是首次进行仿真,数据设置中部分参数无法给定参数;
2)在进行仿真试验过程中,试验系统中数据错误或采集装置故障、存储介质故障等原因导致的数据缺失;
3)在进行虚拟仿真试验过程中,试验参数属性不同,因数据保存的属性特殊导致数据缺失;
4)船舶水动力性能的虚拟仿真试验系统的数据量较庞大,导致数据存储时数据缺失;
5)船舶水动力性能的虚拟仿真试验系统的参数数量大,部分信息被系统自动不保存,导致数据信息缺失;
6)船舶水动力性能的虚拟仿真试验系统的数据保存是实时的,每一时刻的数据量都比较大,实时保存数据容易导致数据信息的缺失。
船舶水动力性能的虚拟仿真试验系统进行试验的过程中,导致数据缺失的原因很多且部分数据缺失是无法避免的,而各种试验数据对于分析船舶的水动力性能具有重要的作用,数据信息缺失会导致在进行分析过程中,由于缺失数据而导致数据分析存在误差,不能作为船舶水动力性能分析的重要参考。为保证数据仿真数据分析的准确性,需要对数据库信息进行处理,保证数据信息的完整性。
通过以上对虚拟仿真系统中数据信息缺失原因的分析可知,虚拟仿真系统的数据库信息缺失是导致数据分析准确性降低的主要原因,为了保证仿真数据的完整性,需要对获取的仿真数据进行处理例如查找、补齐等操作。
第一步:对数据库的信息进行检索和处理,分析缺失的数据信息。
通过对数据库中的信息进行检索查找缺失的数据信息,可以在基础上对数据进行补充完善。
具体地,对数据信息进行查找采用基于概率的软分类方式,将需要检索的数据信息分成多个高斯分布函数的线性组合方式实现对数据库信息的检索。
子步骤一:求出参数的预估计值,评估每个数据信息属于相应数据簇的概率;
子步骤二:使用上一步的预估计值的最大化似然函数,将每个数据点归纳到相对于最高概率的数据集中,并更新相应的均值和协方差值。
其中,数据簇的概率计算函数的公式为:
其中,x是输入的数据集合,μj和∑j为第j个簇的均值和协方差,j=1,2,...k。第i个数据点属于第j个簇的概率可写成:
上式z(i)为设定的第i次迭代的参数的猜测值,猜测值是指迭代参数经过i次迭代后的数值的预测值;为第i次的迭代参数,φ为贝叶斯后验概率调节因子。
另外,在计算数据点的概率时,考虑贝叶斯规则,会使概率计算数值更加准确。迭代参数的猜测值z(i)的后验概率可写为:
其中,p(z(i)=j,φ)为第j个数据簇的先验概率,k是数据簇的数量,φ为贝叶斯后验概率调节因子。
在计算过程中假定每个数据簇都有着相等的先验概率,其中μj和∑j分别是平均值和协方差值,相应最大化可以写成:
式中,为权值,满足/>m为自然数,预先设定的一个数值。
求取对数似然函数如下:
不断地迭代子步骤一和子步骤一,最终到似然函数的值收敛位置。通过以上的算法,可以对数据库中的数据信息进行挖掘。根据理论数据的总量和实际数据的总量进行差值比较,判断每一类中是否丢失数据,如果所得的差值为正,则表明有数据信息丢失,若为负,则表明数据信息未丢失且数据冗余。
数据缺失倒是多个属性信息的缺失,对于数据的后续分析具有较大的影响,需要针对数据库中缺失的数据信息进行数据补充。
在本实施例中,理论数据的总量是针对单一的试验会获取一定量的数据信息,获取的数据信息在数据中均已经做好分类,进行比较的时候是首先对其数据的量进行比较,因为该试验的数据信息比较有针对性,通过比较的方式判断数据的缺失和冗余。
第二步:以目前数据库中的数据信息和理论数据信息为基础,构建一个逆数据系统,以此来对数据库中的数据信息进行补充。逆数据系统表示为:
s(k)=[s1(k),s2(k),...sm(k)]T
源数据x(k)与si(k)自相关,且彼此融合,此时逆数据系统输出为:
y(k)=Wx(k)=WAs(k)
W矩阵为n×m维分离矩阵,A为混合矩阵,矩阵数据是根据理论信息对其进行整理的数据矩阵,y(k)为多维参量混合估计后得到的近似数据信息统计。
第三步:采用构建的逆数据系统在缺失数据的位置进行数据补充,获得将补充后的数据集构成完整的数据库。
对于缺失数据的补齐采用插值方法进行处理,插值方法的步骤为;
(1)查找获取数据中与理论数据最接近的数据计算平均值进行插值;
(2)若某一时刻数据缺失,该时刻前后数据正常,则采用前后两个时刻的数据作插值;
(3)若某一时刻前后的数据均缺失,则采用前后相邻时刻的数据作插值。
通过以上的插值方法,可以使大部分的数据得到有效补充。但是作为以时间序列为准的数据集合,数据的随机性较大或含有噪声,因此需要对采集的数据进行平稳化处理,抑制噪声,从而使数据更加完善。
此外,该第三步还可以是在近似数据信息的基础上,对其进行自相关成分分析方法,在数据信息中插入数据的相关信息特征,插入数据的信息特征后,通过以下的计算公式,可以实现y(k)中数据信息的完善,使其更加接近试验所得的数据信息。
E{h1(y1)h2(y2)}=∫∫h1(y1)h2(y2)f(y1,y2)dy1dy2
=E{h1(y1)}E{h2(y2)};
定义E{[X-E(X)][Y-E(Y)]}为随机变量X与Y的协方差,记为Cov(X,Y),此时假设随机变量X与Y分别是缺失数据数量和理论数据数量,其自相关协方差为:
Cov(X,Y)=E{[X-E(X)][Y-E(Y)]};
此时,得到两组信息流的相关系数,表示为:
式中,ρXY是一个无量纲的量。是体现当前数据信息与理论数据信息相关性的量,当ρXY越接近1时,表示相关性越大。由此可知补充的数据信息是否为缺失的那一部分信息,最终实现对数据库中信息的补充作用。
由此,本实施例的方法可以对虚拟仿真试验所获取的数据库信息进行挖掘和补充,充分考虑试验过程中以及数据存储过程中由于一些不可避免的问题而导致的数据确实问题,进而保证了虚拟仿真试验数据的准确性,间接保证进行数据分析时所获取的相关知识的精确度,保证虚拟仿真试验数据可以应用于智能船舶的船舶水动力性能的分析中。
实施例三
如图2所示,本发明实施例还提供一种基于仿真试验数据的数据处理系统,本实施例的数据处理系统可包括:缺失数据查找单元、逆系统构建单元和数据库完善单元;
缺失数据查找单元,用于根据预定的数据检索方式,对虚拟仿真试验的数据库中数据进行检索处理,查找检索结果中缺失的数据;
逆系统构建单元,用于基于确定的存在缺失的数据信息,借助于理论计算的数据,构建用于补充缺失数据的逆系统;
数据库完善单元,用于采用构建的逆数据系统在缺失数据的位置进行数据补充,获得将补充后的数据集构成完整的数据库;
所述数据处理系统可执行上述实施例一和实施例二任一所述的方法。
本实施例的方法可对数据库中的仿真试验数据进行检索查看,检索数据信息中是否存在数据缺失现象,然后根据理论数据信息与数据库信息进行一一对应排查,查找缺失数据的位置和信息内容,对其数据信息进行补充增加,以便后续仿真试验。
根据本发明实施例的另一方面,本发明实施例还提供一种电子设备,该电子设备可包括存储器和处理器,所述存储器中存储有指令,所述处理器执行所述存储器中的指令,具体为执行上述实施例一和实施例二任一所述的方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中,这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用,仅是为了表述方便,而不表示任何顺序。可将这些词语理解为部件名称的一部分。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。

Claims (9)

1.一种基于仿真试验数据的数据处理方法,其特征在于,包括:
步骤101、虚拟仿真试验的服务器根据预定的数据检索方式,对虚拟仿真试验的数据库中数据进行检索处理,查找检索结果中缺失的数据;
步骤101包括:子步骤1011、当前虚拟仿真试验对应的数据库中的数据,建立多个数据集;
子步骤1012、评估每一数据集中每一数据点属于相应数据集中数据簇的概率;
子步骤1013、采用最大似然函数将每一数据点归纳到所属最高概率的数据集中;
子步骤1014、将每一数据集对应的给定的数据总量和实际的数据总量进行差值比较,根据差值信息,确定该数据集中是否存在缺失或者存在数据冗余;
子步骤1015、若至少一个数据集中存在缺失,则获取缺失的数据集的集合;
步骤102、虚拟仿真试验的服务器基于确定的存在缺失的数据信息,借助于理论计算的数据,构建用于补充缺失数据的逆系统;
步骤103、虚拟仿真试验的服务器采用构建的逆数据系统在缺失数据的位置进行数据补充,获得将补充后的数据集构成完整的数据库。
2.根据权利要求1所述的数据处理方法,其特征在于,检索结果中缺失的数据包括下述的一种或多种:
第一次仿真试验中缺失设置参数;
仿真试验中采集装置故障时缺失的事实数据;
仿真试验中数据属性的专属性导致的数据缺失;
仿真试验中数据量超出预设值,导致数据缺失;
水动力性能仿真试验中,参数信息多导致参数信息缺失。
3.如权利要求1所述的数据处理方法,其特征在于,子步骤1012包括:
采用下述的概率密度函数确定每一数据点属于相应数据集中数据簇的概率;
概率密度函数为:
公式中,x是输入的数据集,μj和∑j为第j个簇的均值和协方差,j=1,2,...k;第i个数据点属于第j个簇的概率表示为:
z(i)为设定的第i次迭代的参数的猜测值,x0 (i)为第i次的迭代参数,猜测值是指迭代参数经过i次迭代后的数值的预测值,φ为贝叶斯后验概率调节因子,n为预定的自然数。
4.如权利要求2所述的数据处理方法,其特征在于,还包括:
在计算数据点的概率时,结合贝叶斯规则,
迭代参数的猜测值z(i)的后验概率为:
其中,p(z(i)=j,φ)为第j个数据簇的先验概率,k是数据簇的数量;φ为贝叶斯后验概率调节因子;
在计算过程中假定每个数据簇都有着相等的先验概率,其中μj和∑j分别是平均值和协方差值,此时,最大化为:
为权值,满足/>求取对数似然函数如下:
重复迭代对数似然函数的值直至收敛到一个数据集。
5.如权利要求1所述的数据处理方法,其特征在于,步骤102包括:
逆数据系统为:s(k)=[s1(k),s2(k),...sm(k)]T
存在缺失数据的源数据x(k)与si(k)自相关,逆数据系统输出为:
y(k)=Wx(k)=WAs(k);
W矩阵为n×m维分离矩阵,A为混合矩阵,y(k)为多维参量混合估计后得到的近似数据信息统计。
6.如权利要求5所述的数据处理方法,其特征在于,步骤103包括:
对近似数据信息进行自相关成分分析方法,在近似数据信息中插入数据的相关信息特征;
在插入数据的信息特征后,对插入数据的数据信息进行完善,获得接近试验的完整数据信息。
7.根据权利要求6所述的数据处理方法,其特征在于,在近似数据信息中插入数据的相关信息特征,包括:
查找获取数据中与理论数据最接近的数据计算平均值进行插值;
或者,若某一时刻数据缺失,该时刻前后预设时间段内数据正常,则采用前后两个时刻的数据作插值;
或者,若某一时刻前后的数据均缺失,则采用前后相邻时刻的数据作插值。
8.一种基于仿真试验数据的数据处理系统,其特征在于,包括:
缺失数据查找单元,用于根据预定的数据检索方式,对虚拟仿真试验的数据库中数据进行检索处理,查找检索结果中缺失的数据;
逆系统构建单元,用于基于确定的存在缺失的数据信息,借助于理论计算的数据,构建用于补充缺失数据的逆系统;
数据库完善单元,用于采用构建的逆数据系统在缺失数据的位置进行数据补充,获得将补充后的数据集构成完整的数据库;
所述数据处理系统执行上述权利要求1至7任一所述的方法。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有指令,所述处理器执行所述存储器中的指令,具体为执行上述权利要求1至7任一所述的方法。
CN202010859270.3A 2020-08-24 2020-08-24 一种基于仿真试验数据的数据处理方法 Active CN112084577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010859270.3A CN112084577B (zh) 2020-08-24 2020-08-24 一种基于仿真试验数据的数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010859270.3A CN112084577B (zh) 2020-08-24 2020-08-24 一种基于仿真试验数据的数据处理方法

Publications (2)

Publication Number Publication Date
CN112084577A CN112084577A (zh) 2020-12-15
CN112084577B true CN112084577B (zh) 2023-11-17

Family

ID=73728005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010859270.3A Active CN112084577B (zh) 2020-08-24 2020-08-24 一种基于仿真试验数据的数据处理方法

Country Status (1)

Country Link
CN (1) CN112084577B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177088A (zh) * 2013-03-08 2013-06-26 北京理工大学 一种生物医学空缺数据弥补方法
CN107220521A (zh) * 2017-07-14 2017-09-29 广东省环境科学研究院 一种用于船舶污染物排放量计算的静态数据获取方法
CN107577649A (zh) * 2017-09-26 2018-01-12 广州供电局有限公司 缺失数据的插补处理方法及装置
CN108763250A (zh) * 2018-03-28 2018-11-06 国网江苏省电力有限公司无锡供电分公司 一种光伏电站监测数据修复方法
CN111275582A (zh) * 2020-04-03 2020-06-12 国网新疆电力有限公司经济技术研究院 一种自动化处理数据的方法及装置
CN111274236A (zh) * 2020-01-19 2020-06-12 青岛海狮网络科技有限公司 基于智能船舶数据库的缺失数据填充方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133275A1 (en) * 2006-11-28 2008-06-05 Ihc Intellectual Asset Management, Llc Systems and methods for exploiting missing clinical data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177088A (zh) * 2013-03-08 2013-06-26 北京理工大学 一种生物医学空缺数据弥补方法
CN107220521A (zh) * 2017-07-14 2017-09-29 广东省环境科学研究院 一种用于船舶污染物排放量计算的静态数据获取方法
CN107577649A (zh) * 2017-09-26 2018-01-12 广州供电局有限公司 缺失数据的插补处理方法及装置
CN108763250A (zh) * 2018-03-28 2018-11-06 国网江苏省电力有限公司无锡供电分公司 一种光伏电站监测数据修复方法
CN111274236A (zh) * 2020-01-19 2020-06-12 青岛海狮网络科技有限公司 基于智能船舶数据库的缺失数据填充方法和装置
CN111275582A (zh) * 2020-04-03 2020-06-12 国网新疆电力有限公司经济技术研究院 一种自动化处理数据的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
新的模糊似然函数;黄国顺, 刘云生;华中师范大学学报(自然科学版)(第01期);全文 *

Also Published As

Publication number Publication date
CN112084577A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
US7844449B2 (en) Scalable probabilistic latent semantic analysis
US8019594B2 (en) Method and apparatus for progressively selecting features from a large feature space in statistical modeling
US20080059922A1 (en) Graph Pruning Scheme for Sensitivity Analysis with Partitions
CN106096066A (zh) 基于随机近邻嵌入的文本聚类方法
JP2005158010A (ja) 分類評価装置・方法及びプログラム
US11663485B2 (en) Classification of patterns in an electronic circuit layout using machine learning based encoding
CN112182219A (zh) 一种基于日志语义分析的在线服务异常检测方法
CN114281809B (zh) 一种多源异构数据清洗方法及装置
CN110781174A (zh) 一种使用pca和特征交叉的特征工程建模方法和系统
Florescu et al. Algorithmically generating new algebraic features of polynomial systems for machine learning
CN115345458A (zh) 业务流程合规性检查方法、计算机设备以及可读存储介质
CN113946983A (zh) 产品可靠性薄弱环节评估方法、装置和计算机设备
EP4252151A1 (en) Data source correlation techniques for machine learning and convolutional neural models
CN112257332B (zh) 一种仿真模型的评估方法及装置
CN109614074A (zh) 基于概率转移矩阵模型的近似加法器可靠度计算方法
CN112084577B (zh) 一种基于仿真试验数据的数据处理方法
CN115437960A (zh) 回归测试用例排序的方法、装置、设备和存储介质
CN117561502A (zh) 一种确定失效原因的方法及装置
CN114139482A (zh) 一种基于深度度量学习的eda电路失效分析方法
Dhlamini et al. Condition monitoring of HV bushings in the presence of missing data using evolutionary computing
CN117194275B (zh) 基于智能算法的软件自动化测试计划自动生成方法及系统
CN117216559A (zh) 通信辐射源识别方法、系统、设备及存储介质
CN117034016A (zh) 通信辐射源数据模型的构建方法、系统、电子设备及介质
Peng et al. Analyzing the Reliability of the Grouping-Based Concept Lattice Reductions and a Method for Improving It
CN116665714A (zh) 语音质检方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant