CN116933107B - 数据分布边界确定方法、装置、计算机设备和存储介质 - Google Patents
数据分布边界确定方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116933107B CN116933107B CN202310912763.2A CN202310912763A CN116933107B CN 116933107 B CN116933107 B CN 116933107B CN 202310912763 A CN202310912763 A CN 202310912763A CN 116933107 B CN116933107 B CN 116933107B
- Authority
- CN
- China
- Prior art keywords
- data
- analyzed
- class
- curve
- gray
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 232
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 230000002776 aggregation Effects 0.000 claims abstract description 11
- 238000004220 aggregation Methods 0.000 claims abstract description 11
- 238000004590 computer program Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 17
- 230000008859 change Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012544 monitoring process Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 239000006185 dispersion Substances 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- LENZDBCJOHFCAS-UHFFFAOYSA-N tris Chemical compound OCC(N)(CO)CO LENZDBCJOHFCAS-UHFFFAOYSA-N 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000005670 electromagnetic radiation Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000004135 Bone phosphate Substances 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种数据分布边界确定方法、装置、计算机设备和存储介质。方法包括:对待分析数据进行聚类,得到至少两个类簇;待分析数据具有发散规律;至少两个类簇中每个类簇的发散程度不同;基于每个类簇对应的偏离程度进行曲线拟合,得到发散规律曲线;其中,每个类簇对应的偏离程度与类簇内成员聚集的紧密程度相关;对待分析数据进行曲线拟合,得到数据分布曲线;根据发散规律曲线和数据分布曲线确定待分析数据的分布边界。采用本方法能够提高数据分布边界确定的准确性。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据分布边界确定方法、装置、计算机设备和存储介质。
背景技术
确定数据分布的边界是进行数据分析和建模的关键步骤,对于数据清洗、模型建立、预测和决策支持都具有重要意义。比如,确定出的数据分布边界可用于异常值检测,通过比较数据与边界的差异,将偏离边界较大的数据点视为异常值,从而进行异常值的检测和处理。
传统技术中,通过比较数据确定出数据中的上限和下限,进而基于上限和下限确定出数据分布的边界。但是,这种方式无法准确地拟合出数据分布的边界。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高准确性的数据分布边界确定方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种数据分布边界确定方法。所述方法包括:
对待分析数据进行聚类,得到至少两个类簇;所述待分析数据具有发散规律;所述至少两个类簇中每个类簇的发散程度不同;
基于每个类簇对应的偏离程度进行曲线拟合,得到发散规律曲线;其中,每个类簇对应的偏离程度与所述类簇内成员聚集的紧密程度相关;
对所述待分析数据进行曲线拟合,得到数据分布曲线;
根据所述发散规律曲线和所述数据分布曲线确定所述待分析数据的分布边界。
第二方面,本申请还提供了一种数据分布边界确定装置。所述装置包括:
聚类模块,用于对待分析数据进行聚类,得到至少两个类簇;所述待分析数据具有发散规律;所述至少两个类簇中每个类簇的发散程度不同;
拟合模块,用于基于每个类簇对应的偏离程度进行曲线拟合,得到发散规律曲线;其中,每个类簇对应的偏离程度与所述类簇内成员聚集的紧密程度相关;对所述待分析数据进行曲线拟合,得到数据分布曲线;
确定模块,用于根据所述发散规律曲线和所述数据分布曲线确定所述待分析数据的分布边界。
在一些实施例中,所述待分析数据包括至少两个数值对;所述数值对包括待分析对象在不同环境下分别对应的信号数值;每个类簇包括至少一个数值对;聚类模块,用于针对每个类簇,确定所述类簇中的中心数值对以及所述类簇中的成员数值对,并针对所述中心数值对和所述成员数值对进行方差计算,得到所述类簇对应的方差信息;所述类簇对应的方差信息用于表征所述类簇对应的偏离程度;其中,中心数值对为所述类簇的中心成员;所述成员数值对为所述类簇的非中心成员。
在一些实施例中,每个数值对包括所述待分析对象在第一环境下对应的信号数值和在第二环境下对应的信号数值;所述类簇的方差信息是针对所述中心数值对和所述成员数值对中分别在第二环境下对应的信号数值进行方差计算得到的;拟合模块,用于基于所述中心数值对中包括的所述对象在第一环境下对应的信号数值和所述类簇对应的方差信息进行线性拟合,得到发散规律曲线;其中,所述发散规律曲线用于表征各类簇分别对应的偏离程度随着所述待分析对象在第一环境下对应的信号数值的变化情况。
在一些实施例中,拟合模块,用于对所述待分析数据中的至少两个数值对进行曲线拟合,得到数据分布曲线;其中,所述数据分布曲线用于表征所述待分析对象在第二环境下对应的信号数值随着所述待分析对象在第一环境下对应的信号数值的变化情况。
在一些实施例中,确定模块,用于对所述数据分布曲线与所述发散规律曲线进行相加操作,得到所述待分析数据的分布上边界;对所述数据分布曲线与所述发散规律曲线进行相减操作,得到所述待分析数据的分布下边界。
在一些实施例中,确定模块,用于在基于各预设类别下的待分析数据训练分类器的过程中,针对每个预设类别下的待分析数据,执行所述对待分析数据进行聚类,得到至少两个类簇及后续步骤,确定所述待分析数据的分布边界,得到所述预设类别对应的类别模型;在训练完毕的情况下,确定包括各预设类别分别对应的类别模型的分类器;其中,每个预设类别对应的类别模型用于表征所述预设类别下待分析数据的分布上边界和分布下边界构成的范围。
在一些实施例中,确定模块,用于确定待处理灰度图和参考灰度图中具有位置对应关系的像素的灰度值组成的待处理灰度值对;其中,所述待处理灰度图和所述参考灰度图是在不同监测环境下对同一待处理对象采集的;将所述待处理灰度值对输入至所述分类器,通过比较每个类别模型表征的范围与所述待处理灰度值对,从各预设类别中确定出所述待处理灰度值对的预测类别;所述待处理灰度值对处于所述预测类别对应的类别模型表征的范围内;将所述预测类别确定为所述待处理灰度值对对应的像素的类别。
在一些实施例中,分类器中包括至少两个预设类别分别对应的类别模型;确定模块,用于在所述待处理灰度值对未处于任意的类别模型表征的范围内时,将至少两个预设类别确定为所述待处理灰度值对的预测类别。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法中的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法中的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法中的步骤。
上述数据分布边界确定方法、装置、计算机设备、存储介质和计算机程序产品,对待分析数据进行聚类,得到至少两个类簇;待分析数据具有发散规律;至少两个类簇中每个类簇的发散程度不同;基于每个类簇对应的偏离程度进行曲线拟合,得到用于表征待分析数据的分散情况的发散规律曲线;其中,每个类簇对应的偏离程度与类簇内成员聚集的紧密程度相关;对待分析数据进行曲线拟合,得到用于表征待分析数据的数据分布趋势的数据分布曲线;数据分布曲线描述了待分析数据在整体上的变化方向和趋势,发散规律曲线描述了待分析数据的分散程度和离散程度,进而根据发散规律曲线和数据分布曲线,能够准确地确定待分析数据的分布边界。
附图说明
图1为本申请实施例提供的一种数据分布边界确定方法的应用环境图;
图2为本申请实施例提供的一种数据分布边界确定方法的流程示意图;
图3为本申请实施例提供的一种待分析数据的数据分布曲线、分布上边界和分布下边界;
图4为本申请实施例提供的一种数据分布边界确定方法的简易流程示意图;
图5为本申请实施例提供的一种数据分布边界确定装置的结构框图;
图6为本申请实施例提供的一种计算机设备的内部结构图;
图7为本申请实施例提供的另一种计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的数据分布边界确定方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104可以对待分析数据进行聚类,得到至少两个类簇;所述待分析数据具有发散规律;所述至少两个类簇中每个类簇的发散程度不同;基于每个类簇对应的偏离程度进行曲线拟合,得到发散规律曲线;其中,每个类簇对应的偏离程度与所述类簇内成员聚集的紧密程度相关;对所述待分析数据进行曲线拟合,得到数据分布曲线;根据所述发散规律曲线和所述数据分布曲线确定所述待分析数据的分布边界。可以理解,服务器104可以将待分析数据的分布边界发送至终端102,终端102可以展示待分析数据的分布边界。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种数据分布边界确定方法,以该方法应用于计算机设备为例进行说明,可以理解,计算机设备可以包括终端或服务器中的至少一种,该方法可以单独应用于终端或服务器,也可以应用于包括终端和服务器的系统,通过该终端和服务器的交互实现。该方法包括以下步骤:
S202,对待分析数据进行聚类,得到至少两个类簇;待分析数据具有发散规律;至少两个类簇中每个类簇的发散程度不同。
示例性地,待分析数据具有发散特性。发散特性用于描述待分析数据中各个数据点之间的离散程度或差异程度。计算机设备可以对待分析数据进行聚类,得到发散程度不同的各个类簇。数据的分布在不同区域内,即类簇内逐渐发散或逐渐收敛,这可以说明数据具备发散特性。可以理解,若待分析数据是逐渐发散的,则各个类簇的发散程度由小到大;若待分析数据是逐渐收敛的,则各个类簇的发散程度由大到小。
在一些实施例中,计算机设备可以基于聚类算法对待分析数据进行聚类。聚类算法可以但不限于是均值聚类算法。
在一些实施例中,待分析数据可以包括数字信号的信号数值。可以理解,数字信号分布的上下边界对于数字电路的设计至关重要。比如,数字信号可以是灰度图,信号数值可以是灰度图中像素的灰度值。计算机设备可以获取在不同环境下对同一对象采集的灰度值对。可以理解,在灰度图采集过程中,摄像机或传感器会将光线或电磁波等物理信号转化为数字信号进行记录或传输,这个过程涉及到对光的感知、采样和量化等步骤,以获取图像的各个像素点的亮度或颜色信息,属于一种信号采集的过程。而不同采集条件,比如,不同电磁波条件下的灰度图采集结果可以看作是同一物体产生的光信号经过光电转换、信号处理和数字化等过程后,最终以数字信号的形式表现出来的结果。此时,可以将这些结果视为是同一数字信号在不同环境中的不同表现。
在一些实施例中,待分析数据中可以包括至少两个数值对。一个数值对代表一个数据点。
在一些实施例中,待分析数据中的数值对可以是同一数字信号在不同环境中对应的信号数值。计算机设备可以获取在不同环境下对同一数字信号采集的信号数值对。可以理解,在不同环境中,信号的传播和衰减会导致信号强度的变化。比如,在一个开放空旷的区域中,信号的数值可能会比较高,因为信号传播的距离较短且没有太多的干扰或衰减。而在一个密闭的室内环境中,信号的数值可能会较低,因为信号需要穿越墙壁、家具等障碍物,产生了较多的屏蔽和衰减。
S204,基于每个类簇对应的偏离程度进行曲线拟合,得到发散规律曲线;其中,每个类簇对应的偏离程度与类簇内成员聚集的紧密程度相关。
示例性地,数据的发散规律可以通过各种统计指标来度量,比如标准差、方差、极差等。类簇中的数据分布较为接近,偏离度较小;如果类簇中的数据分布较为分散,偏离度较大。计算机设备可以通过统计指标度量每个类簇对应的偏离程度,确定出每个类簇对应的偏离度。基于每个类簇对应的偏离度进行曲线拟合,得到发散规律曲线。
在一些实施例中,待分析数据包括至少两个数值对。可以理解,每个数值对包括两个数值。数值对可以是一个二维数据,即可以包括第一维下的数值以及第二维下的数值。比如,数值对可以是灰度值对。灰度值对包括在不同环境下对同一对象采集的不同灰度值。灰度值对可以包括在第一种电磁波条件下采集的第一维下的数值,以及在第二种电磁波条件下采集的第二维下的数值。
在一些实施例中,发散规律曲线用于表征各类簇分别对应的偏离程度随着各类簇的中心数值对中第一维下的数值的变化情况。发散规律曲线描述了类簇对应的偏离程度与该类簇的中心数值对中第一维下的数值之间的函数关系。可以理解,中心数值对也包括第一维下的数值和第二维下的数值,计算机设备可以针对每个类簇,将该类簇对应的偏离程度和该类簇的中心数值对中第一维下的数值组成偏离度数值对。对偏离度数值对进行曲线拟合,得到发散规律曲线。
S206,对待分析数据进行曲线拟合,得到数据分布曲线。
示例性地,计算机设备可以基于预设的多项式模型对待分析数据进行曲线拟合,得到数据分布曲线。
在一些实施例中,计算机设备可以对待分析数据进行二阶多项式拟合,得到数据分布曲线。其中,待分析数据包括至少两个数值对,数据分布曲线用于描述数值对的趋势。
在一些实施例中,待分析数据包括至少两个数值对。数值对可以包括第一维下的数值以及第二维下的数值。数据分布曲线用于表征待分析数据中各数值对中第二维下的数值的大小随着第一维下的数值大小的变化情况。数据分布曲线描述了待分析数值对中各数值之间的函数关系。
S208,根据发散规律曲线和数据分布曲线确定待分析数据的分布边界。
示例性地,计算机设备可以通过叠加发散规律曲线和数据分布曲线确定待分析数据的分布边界。其中,待分析数据的分布边界可以包括分布上边界或分布下边界中的至少一种。
可以理解,相较于待分析数据中的其他的数据点,最终的拟合出的数据分布曲线会更加接近各个类簇的中心。这是因为数据分布曲线会尝试通过调整参数来最好地拟合整个待分析数据,而类簇的中心通常是待分析数据中聚集的区域。每个类簇对应的偏离程度能够反映待分析数据中的数据点相对数据分布曲线的偏离程度。发散规律曲线能够表征待分析数据的实际分布情况与数据分布曲线之间的差异。故而,通过叠加发散规律曲线和数据分布曲线可以准确地确定出数据分布边界。
在一些实施例中,待分析数据的分布边界可以包括分布上边界或分布下边界,分布上边界和分布下边界组成的范围可用于识别和处理异常值。具体地,计算机设备可以将超过分布上边界和分布下边界组成的范围判定为异常值,并进行清洗或修正。
在一些实施例中,若待分析数据是用于训练模型的训练数据,则可以根据待分析数据的分布边界,选择合适的模型框架来进行模型训练。可以理解,由于有些模型框架对不同的数据分布有不同的适应性,在建立模型时,通过确定数据的分布边界选择合适的模型和算法,可以获得更好的预测结果。
在一些实施例中,待分析数据是已知数据,对于未来的数据点,可以根据其接近待分析数据的分布上边界或分布下边界的程度,对未来的数据点进行风险评估、预测概率或制定决策策略。
在一些实施例中,数据分布曲线和待分析数据的分布边界结合起来构成类别模型,计算机设备可以将该类别模型存储在存储器中,后续,可以调用存储器中存储的类别模型来对待分类的目标对象进行分类预测,以得到目标对象的预测类别。比如,目标对象可以是图像,也可以是图像中的像素。
在一些实施例中,待分析数据的分布边界可用于数字电路的设计中。可以理解,待分析数据可以包括数字电路的输入信号在不同环境下的信号值,基于输入信号对应的分布边界能够设计出更符合输入信号特性的数字电路。
上述数据分布边界确定方法中,对待分析数据进行聚类,得到至少两个类簇;待分析数据具有发散规律;至少两个类簇中每个类簇的发散程度不同;基于每个类簇对应的偏离程度进行曲线拟合,得到用于表征待分析数据的分散情况的发散规律曲线;其中,每个类簇对应的偏离程度与类簇内成员聚集的紧密程度相关;对待分析数据进行曲线拟合,得到用于表征待分析数据的数据分布趋势的数据分布曲线;数据分布曲线描述了待分析数据在整体上的变化方向和趋势,发散规律曲线描述了待分析数据的分散程度和离散程度,进而根据发散规律曲线和数据分布曲线,能够准确地确定待分析数据的分布边界。
在一些实施例中,待分析数据包括至少两个数值对;数值对包括待分析对象在不同环境下分别对应的信号数值;每个类簇包括至少一个数值对;方法还包括:针对每个类簇,确定类簇中的中心数值对以及类簇中的成员数值对,并针对中心数值对和成员数值对进行方差计算,得到类簇对应的方差信息;类簇对应的方差信息用于表征类簇对应的偏离程度;其中,中心数值对为类簇的中心成员;成员数值对为类簇的非中心成员。
示例性地,计算机设备可以针对每个类簇,将该类簇中的每个成员数值对中第二环境下对应的信号数值与中心数值对中第二环境下对应的信号数值之差的平方累加起来,得到类簇对应的方差信息。可以理解,第一环境对应第一维,第二环境对应第二维。
在一些实施例中,数值对可以是样本灰度值对。计算机设备可以确定在不同监测环境下对同一类别的对象采集的灰度图对。灰度图对中具有位置对应关系的像素的灰度值组成样本灰度值对。确定包括至少两个样本灰度值对的待分析数据。可以理解,待分析数据的分布边界可以用于预测待处理灰度值对是否与待分析数据中的样本灰度值对是一种类别。
在一些实施例中,不同监测环境可以对应不同电磁辐射。灰度图对是使用不同电磁辐射对同一对象采集的两个灰度图。
在一些实施例中,不同监测环境可以对应相机上不同的滤光片。灰度图对是添加不同滤光片的相机对同一对象采集的两个灰度图。
本实施例中,针对每个类簇,确定类簇中的中心数值对以及类簇中的成员数值对,并针对中心数值对和成员数值对进行方差计算,得到类簇对应的方差信息,进而基于类簇对应的方差信息和该类簇中的数值对拟合得到发散规律曲线,结合发散规律曲线准确地确定出待分析数据的分布边界。
在一些实施例中,每个数值对包括待分析对象在第一环境下对应的信号数值和在第二环境下对应的信号数值;类簇的方差信息是针对中心数值对和成员数值对中分别在第二环境下对应的信号数值进行方差计算得到的;基于每个类簇对应的偏离程度进行曲线拟合,得到发散规律曲线,包括:基于中心数值对中包括的对象在第一环境下对应的信号数值和类簇对应的方差信息进行线性拟合,得到发散规律曲线;其中,发散规律曲线用于表征各类簇分别对应的偏离程度随着待分析对象在第一环境下对应的信号数值的变化情况。
示例性地,偏离度数值对可以是方差数值对。计算机设备可以将类簇对应的方差信息和中心数值对中在第一环境下对应的信号数值组成方差数值对,对方差数值对进行线性拟合,得到发散规律曲线。其中,发散规律曲线的表达式为y1=a1x。y1表征第二环境下对应的方差信息。x表征第一环境下对应的信号数值。
本实施例中,基于中心数值对中包括的对象在第一环境下对应的信号数值和类簇对应的方差信息进行线性拟合,得到发散规律曲线,进而基于类簇对应的方差信息和该类簇中的数值对拟合得到发散规律曲线,结合发散规律曲线准确地确定出待分析数据的分布边界。
在一些实施例中,对待分析数据进行曲线拟合,得到数据分布曲线,包括:对待分析数据中的至少两个数值对进行曲线拟合,得到数据分布曲线;其中,数据分布曲线用于表征待分析对象在第二环境下对应的信号数值随着待分析对象在第一环境下对应的信号数值的变化情况。
示例性地,计算机设备可以对待分析数据中的至少两个数值对进行二阶多项式拟合,得到数据分布曲线。其中,数据分布曲线的表达式可以是y2=a2x2+b1x。y2表征第二环境下对应的信号数值。x表征第一环境下对应的信号数值。
本实施例中,对待分析数据中的至少两个数值对进行曲线拟合,得到数据分布曲线,后续基于数据分布曲线和发散规律曲线能够准确地确定出数据分布边界。
在一些实施例中,根据发散规律曲线和数据分布曲线确定待分析数据的分布边界,包括:对数据分布曲线与发散规律曲线进行相加操作,得到待分析数据的分布上边界;对数据分布曲线与发散规律曲线进行相减操作,得到待分析数据的分布下边界。
示例性地,待分析数据的分布上边界的表达式为Y1=y1+y2,分布下边界的表达式为Y2=y1-y2。
本实施例中,对数据分布曲线与发散规律曲线进行相加操作,得到待分析数据的分布上边界;对数据分布曲线与发散规律曲线进行相减操作,得到待分析数据的分布下边界,相较于直接确定出数据中的上限和下限的方式,更加准确。
在一些实施例中,所述方法还包括:在基于各预设类别下的待分析数据训练分类器的过程中,针对每个预设类别下的待分析数据,执行对所述待分析数据进行聚类,得到至少两个类簇及后续步骤,确定所述待分析数据的分布边界,得到所述预设类别对应的类别模型;在训练完毕的情况下,确定包括各预设类别分别对应的类别模型的分类器;其中,每个预设类别对应的类别模型用于表征所述预设类别下待分析数据的分布上边界和分布下边界构成的范围。
在一些实施例中,每种预设类别下的待分析数据都具有相应的分布规律,通过拟合每种预设类别下的待分析数据的分布上边界和分布下边界,能够完成对该种预设类别的数学建模,得到该种预设类别对应的类别模型。预设类别对应的类别模型表征的范围正是该预设类别下的数据的分布范围,处于类别模型表征的范围内的数据可以被认为是该预设类别下的数据。
本实施例中,并非只是简单地将对待分析数据拟合出的数据分布曲线作为类别模型,而是针对每个预设类别下的待分析数据,执行对所述待分析数据进行聚类,得到至少两个类簇及后续步骤,确定所述待分析数据的分布边界,得到所述预设类别对应的类别模型;在训练完毕的情况下,确定包括各预设类别分别对应的类别模型的分类器,能够提高分类器的准确性。
在一些实施例中,预设类别下的待分析数据包括在不同监测环境下针对属于所述预设类别的待分析对象分别采集的样本灰度值对;所述预设类别对应的类别模型用于表征所述预设类别下所述样本灰度值对的分布上边界和分布下边界构成的范围;所述预设类别对应的类别模型表征的范围内的任意灰度值对的类别为所述预设类别。
示例性地,同预设类别下的样本灰度值对的分布是沿着相应的数据分布曲线在不同区域逐渐发散的,即,不同类簇的发散程度不同,故而本申请实施例提供的数据分布边界确定方法可用于确定预设类别下的样本灰度值对的分布边界。可以理解,数据分布边界可用于类别预测。通过确定出同一预设类别的数据分布的上下边界,将分布上边界和分布下边界构成的范围作为该预设类别下数据的范围。在待处理灰度值对属于分布上边界和分布下边界构成的范围时,将待分析数据对应的预设类别作为该待处理灰度值对的预测类别。
需要说明的是,本申请实施例提供的数据分布确定方法不限于用于对灰度值对进行分类的分类器的训练,也可以用于对除灰度值对外的其他数值对进行分类的分类器的训练。只要同类别下数值对的分布具备固定的发散特性,即,同类别下的数值对的分布在不同区域内逐渐收敛或逐渐发散,对于这样的数值对均可以使用本申请实施例提供的数据分布确定方法实现相应分类器的训练。
在一些实施例中,本申请实施例中提供的数据分布边界确定方法可用于伪彩色图像的生成。计算机设备可以确定呈现了同一待处理对象的待处理灰度图和参考灰度图。将待处理灰度图和参考灰度图中具有位置对应关系的像素的灰度值组成待处理灰度值对。可以理解,待处理灰度图中的每个像素都存在唯一对应的待处理灰度值对。通过分类器对待处理灰度值对进行分类,将待处理灰度值对的预测类别作为相应像素的预测类别,进而计算机设备可以确定像素的预测类别对应的色调值,再根据像素的能量值分配饱和度值和亮度值,进而基于色调值、饱和度值和亮度值确定该像素的三基色值,从而能够将灰度图转换成伪彩色图。
本实施例中,预设类别下的待分析数据包括在不同监测环境下针对属于所述预设类别的待分析对象分别采集的样本灰度值对;所述预设类别对应的类别模型用于表征所述预设类别下所述样本灰度值对的分布上边界和分布下边界构成的范围;所述预设类别对应的类别模型表征的范围内的任意灰度值对的类别为所述预设类别,通过准确地确定出分布上边界和分布下边界能够准确地对灰度值对进行类别预测。
在一些实施例中,方法还包括:确定待处理灰度图和参考灰度图中具有位置对应关系的像素的灰度值组成的待处理灰度值对;其中,所述待处理灰度图和所述参考灰度图是在不同监测环境下对同一待处理对象采集的;将所述待处理灰度值对输入至所述分类器,通过比较每个类别模型表征的范围与所述待处理灰度值对,从各预设类别中确定出所述待处理灰度值对的预测类别;所述待处理灰度值对处于所述预测类别对应的类别模型表征的范围内;将所述预测类别确定为所述待处理灰度值对对应的像素的类别。
示例性地,计算机设备可以获取待处理灰度值对。通过比较每个类别模型中分布上边界和分布下边界构成的范围与待处理灰度值对,从各预设类别中确定出待处理灰度值对的预测类别,进而将所述预测类别确定为所述待处理灰度值对对应的像素的类别,能够实现对待处理灰度图中像素级的分类。所述待处理灰度值对处于所述预测类别对应的类别模型中分布上边界和分布下边界构成的范围内。
可以理解,每个类别模型可以包括分布上边界、分布下边界和数据分布曲线,数据分布曲线指示了预设类别下数据分布的趋势,分布上边界和分布下边界围绕数据分布曲线圈定了数据分布的范围,每个类别模型能够准确地表征相应预设类别下的数据分布,则在待处理灰度值对处于预设类别对应的类别模型表征的范围内时,该待处理灰度值对符合该预设类别下的数据分布,可以认为是该预设类别下的数值对。
本实施例中,通过确定待处理灰度图和参考灰度图中具有位置对应关系的像素的灰度值组成的待处理灰度值对;将所述待处理灰度值对输入至所述分类器,通过比较每个类别模型表征的范围与所述待处理灰度值对,从各预设类别中确定出所述待处理灰度值对的预测类别,将所述预测类别确定为所述待处理灰度值对对应的像素的类别,通过对待处理灰度值对进行分类,能够准确地实现对灰度图的像素级的分类。
在一些实施例中,分类器中包括至少两个预设类别分别对应的类别模型;方法还包括:在所述待处理灰度值对未处于任意的类别模型表征的范围内时,将至少两个预设类别确定为所述待处理灰度值对的预测类别。
示例性地,计算机设备可以确定每个类别模型中分布上边界和分布下边界构成的范围,确定每个类别模型表征的灰度值对范围。在待处理灰度值对未处于任意的类别模型表征的灰度值对范围内时,将所有的预设类别作为待处理灰度值对的预测类别。可以理解,同一对象可以具有多种属性,即,同一灰度值对可以同时属于多种预设类别。比如,医疗图像中存在骨骼和肌肉混合的情况,相应的像素同时为骨骼类别和肌肉类别。
在一些实施例中,计算机设备可以确定像素的每个预测类别对应的色调值,根据像素的能量值确定饱和度值和亮度值,进而将每个色调值分别与饱和度值和亮度值组合后得到每个预测类别对应的三基色值,对各预测类别分别对应的三基色值进行融合得到该像素的三基色值。
本实施例中,在所述待处理灰度值对未处于任意的类别模型表征的范围内时,将至少两个预设类别确定为所述待处理灰度值对的预测类别,通过准确地确定出分布上边界和分布下边界能够准确地对待处理灰度值对进行类别预测。
在一些实施例中,如图3所示,提供了待分析数据的数据分布曲线、分布上边界和分布下边界。可以理解,平移后的数据分布曲线与分布上边界或分布下边界中的间隙是引入的误差,直接平移数据分布曲线无法获得准确的数据分布边界。相较于平移数据分布曲线的方式而言,待分析数据中4个类簇是逐渐发散的,分布上边界和分布下边界准确地限定了待分析数据的分布范围。
在一些实施例中,如图4所示,提供了数据分布边界确定方法的简易流程示意图。
S402,基于聚类算法从待分析数据中划分出至少两个类簇。
S404,针对每个类簇,确定类簇中的中心数值对以及类簇中的成员数值对,并针对中心数值对中在第二维下的数值和每个成员数值对在第二维下的数值进行方差计算,得到类簇对应的方差信息。
S406,将每个类簇对应的方差信息与该类簇的中心数值对中在第一维下的数值组成方差数值对,对方差数值对进行线性拟合,得到发散规律曲线。
S408,对待分析数据中的至少两个数值对进行二阶多项式拟合,得到数据分布曲线。
S410,对数据分布曲线和发散规律曲线进行相加操作,得到待分析数据的分布上边界,对数据分布曲线和发散规律曲线进行相减操作,得到待分析数据的分布下边界。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的数据分布边界确定方法的数据分布边界确定装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个数据分布边界确定装置实施例中的具体限定可以参见上文中对于数据分布边界确定方法的限定,在此不再赘述。
在一个实施例中,如图5所示,提供了一种数据分布边界确定装置500,包括:聚类模块502、拟合模块504和确定模块506,其中:
聚类模块502,用于对待分析数据进行聚类,得到至少两个类簇;待分析数据具有发散规律;至少两个类簇中每个类簇的发散程度不同;
拟合模块504,用于基于每个类簇对应的偏离程度进行曲线拟合,得到发散规律曲线;其中,每个类簇对应的偏离程度与类簇内成员聚集的紧密程度相关;对待分析数据进行曲线拟合,得到数据分布曲线;
确定模块506,用于根据发散规律曲线和数据分布曲线确定待分析数据的分布边界。
在一些实施例中,待分析数据包括至少两个数值对;数值对包括待分析对象在不同环境下分别对应的信号数值;每个类簇包括至少一个数值对;聚类模块502,用于针对每个类簇,确定类簇中的中心数值对以及类簇中的成员数值对,并针对中心数值对和成员数值对进行方差计算,得到类簇对应的方差信息;类簇对应的方差信息用于表征类簇对应的偏离程度;其中,中心数值对为类簇的中心成员;成员数值对为类簇的非中心成员。
在一些实施例中,每个数值对包括待分析对象在第一环境下对应的信号数值和在第二环境下对应的信号数值;类簇的方差信息是针对中心数值对和成员数值对中分别在第二环境下对应的信号数值进行方差计算得到的;拟合模块504,用于基于中心数值对中包括的对象在第一环境下对应的信号数值和类簇对应的方差信息进行线性拟合,得到发散规律曲线;其中,发散规律曲线用于表征各类簇分别对应的偏离程度随着待分析对象在第一环境下对应的信号数值的变化情况。
在一些实施例中,拟合模块504,用于对待分析数据中的至少两个数值对进行曲线拟合,得到数据分布曲线;其中,数据分布曲线用于表征待分析对象在第二环境下对应的信号数值随着待分析对象在第一环境下对应的信号数值的变化情况。
在一些实施例中,确定模块506,用于对数据分布曲线与发散规律曲线进行相加操作,得到待分析数据的分布上边界;对数据分布曲线与发散规律曲线进行相减操作,得到待分析数据的分布下边界。
在一些实施例中,确定模块506,用于在基于各预设类别下的待分析数据训练分类器的过程中,针对每个预设类别下的待分析数据,执行所述对待分析数据进行聚类,得到至少两个类簇及后续步骤,确定所述待分析数据的分布边界,得到所述预设类别对应的类别模型;在训练完毕的情况下,确定包括各预设类别分别对应的类别模型的分类器;其中,每个预设类别对应的类别模型用于表征所述预设类别下待分析数据的分布上边界和分布下边界构成的范围。
在一些实施例中,确定模块506,用于确定待处理灰度图和参考灰度图中具有位置对应关系的像素的灰度值组成的待处理灰度值对;其中,所述待处理灰度图和所述参考灰度图是在不同监测环境下对同一待处理对象采集的;将所述待处理灰度值对输入至所述分类器,通过比较每个类别模型表征的范围与所述待处理灰度值对,从各预设类别中确定出所述待处理灰度值对的预测类别;所述待处理灰度值对处于所述预测类别对应的类别模型表征的范围内;将所述预测类别确定为所述待处理灰度值对对应的像素的类别。
在一些实施例中,分类器中包括至少两个预设类别分别对应的类别模型;确定模块506,用于在所述待处理灰度值对未处于任意的类别模型表征的范围内时,将至少两个预设类别确定为所述待处理灰度值对的预测类别。
上述数据分布边界确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待分析数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据分布边界确定方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据分布边界确定方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6或图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (14)
1.一种数据分布边界确定方法,其特征在于,所述方法包括:
在基于各预设类别下的待分析数据训练分类器的过程中,针对每个预设类别下的待分析数据,对所述待分析数据进行聚类,得到至少两个类簇;所述待分析数据具有发散规律;所述至少两个类簇中每个类簇的发散程度不同;预设类别下的待分析数据包括样本灰度值对;所述样本灰度值对是灰度图对中具有位置对应关系的像素的灰度值组成的;所述灰度图对是在不同监测环境下针对属于所述预设类别的待分析对象采集的灰度图组成的;
基于每个类簇对应的偏离程度进行曲线拟合,得到发散规律曲线;其中,每个类簇对应的偏离程度与所述类簇内成员聚集的紧密程度相关;
对所述待分析数据进行曲线拟合,得到数据分布曲线;
根据所述发散规律曲线和所述数据分布曲线确定所述待分析数据的分布边界,得到所述预设类别对应的类别模型;
在训练完毕的情况下,确定包括各预设类别分别对应的类别模型的分类器;
其中,所述预设类别对应的类别模型用于表征所述预设类别下所述样本灰度值对的分布上边界和分布下边界构成的范围;所述预设类别对应的类别模型表征的范围内的任意灰度值对的类别为所述预设类别。
2.根据权利要求1所述的方法,其特征在于,所述待分析数据包括至少两个数值对;所述数值对是指所述样本灰度值对;每个类簇包括至少一个数值对;
所述方法还包括:
针对每个类簇,确定所述类簇中的中心数值对以及所述类簇中的成员数值对,并针对所述中心数值对和所述成员数值对进行方差计算,得到所述类簇对应的方差信息;所述类簇对应的方差信息用于表征所述类簇对应的偏离程度;
其中,中心数值对为所述类簇的中心成员;所述成员数值对为所述类簇的非中心成员。
3.根据权利要求2所述的方法,其特征在于,每个数值对包括所述待分析对象在第一环境下对应的信号数值和在第二环境下对应的信号数值;所述类簇的方差信息是针对所述中心数值对和所述成员数值对中分别在第二环境下对应的信号数值进行方差计算得到的;
所述基于每个类簇对应的偏离程度进行曲线拟合,得到发散规律曲线,包括:
基于所述中心数值对中包括的所述对象在第一环境下对应的信号数值和所述类簇对应的方差信息进行线性拟合,得到发散规律曲线;
其中,所述发散规律曲线用于表征各类簇分别对应的偏离程度随着所述待分析对象在第一环境下对应的信号数值的变化情况。
4.根据权利要求2所述的方法,其特征在于,所述对所述待分析数据进行曲线拟合,得到数据分布曲线,包括:
对所述待分析数据中的至少两个数值对进行曲线拟合,得到数据分布曲线;
其中,所述数据分布曲线用于表征所述待分析对象在第二环境下对应的信号数值随着所述待分析对象在第一环境下对应的信号数值的变化情况。
5.根据权利要求1所述的方法,其特征在于,所述根据所述发散规律曲线和所述数据分布曲线确定所述待分析数据的分布边界,包括:
对所述数据分布曲线与所述发散规律曲线进行相加操作,得到所述待分析数据的分布上边界;
对所述数据分布曲线与所述发散规律曲线进行相减操作,得到所述待分析数据的分布下边界。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定待处理灰度图和参考灰度图中具有位置对应关系的像素的灰度值组成的待处理灰度值对;其中,所述待处理灰度图和所述参考灰度图是在不同监测环境下对同一待处理对象采集的;
将所述待处理灰度值对输入至所述分类器,通过比较每个类别模型表征的范围与所述待处理灰度值对,从各预设类别中确定出所述待处理灰度值对的预测类别;所述待处理灰度值对处于所述预测类别对应的类别模型表征的范围内;
将所述预测类别确定为所述待处理灰度值对对应的像素的类别。
7.一种数据分布边界确定装置,其特征在于,所述装置包括:
聚类模块,用于在基于各预设类别下的待分析数据训练分类器的过程中,针对每个预设类别下的待分析数据,对所述待分析数据进行聚类,得到至少两个类簇;所述待分析数据具有发散规律;所述至少两个类簇中每个类簇的发散程度不同;预设类别下的待分析数据包括样本灰度值对;所述样本灰度值对是灰度图对中具有位置对应关系的像素的灰度值组成的;所述灰度图对是在不同监测环境下针对属于所述预设类别的待分析对象采集的灰度图组成的;
拟合模块,用于基于每个类簇对应的偏离程度进行曲线拟合,得到发散规律曲线;其中,每个类簇对应的偏离程度与所述类簇内成员聚集的紧密程度相关;对所述待分析数据进行曲线拟合,得到数据分布曲线;
确定模块,用于根据所述发散规律曲线和所述数据分布曲线确定所述待分析数据的分布边界,得到所述预设类别对应的类别模型;在训练完毕的情况下,确定包括各预设类别分别对应的类别模型的分类器;其中,所述预设类别对应的类别模型用于表征所述预设类别下所述样本灰度值对的分布上边界和分布下边界构成的范围;所述预设类别对应的类别模型表征的范围内的任意灰度值对的类别为所述预设类别。
8.根据权利要求7所述的装置,其特征在于,所述待分析数据包括至少两个数值对;所述数值对是指所述样本灰度值对;每个类簇包括至少一个数值对;聚类模块,用于针对每个类簇,确定所述类簇中的中心数值对以及所述类簇中的成员数值对,并针对所述中心数值对和所述成员数值对进行方差计算,得到所述类簇对应的方差信息;所述类簇对应的方差信息用于表征所述类簇对应的偏离程度;其中,中心数值对为所述类簇的中心成员;所述成员数值对为所述类簇的非中心成员。
9.根据权利要求8所述的装置,其特征在于,每个数值对包括所述待分析对象在第一环境下对应的信号数值和在第二环境下对应的信号数值;所述类簇的方差信息是针对所述中心数值对和所述成员数值对中分别在第二环境下对应的信号数值进行方差计算得到的;拟合模块,用于基于所述中心数值对中包括的所述对象在第一环境下对应的信号数值和所述类簇对应的方差信息进行线性拟合,得到发散规律曲线;其中,所述发散规律曲线用于表征各类簇分别对应的偏离程度随着所述待分析对象在第一环境下对应的信号数值的变化情况。
10.根据权利要求8所述的装置,其特征在于,拟合模块,用于对所述待分析数据中的至少两个数值对进行曲线拟合,得到数据分布曲线;其中,所述数据分布曲线用于表征所述待分析对象在第二环境下对应的信号数值随着所述待分析对象在第一环境下对应的信号数值的变化情况。
11.根据权利要求7所述的装置,其特征在于,确定模块,用于对所述数据分布曲线与所述发散规律曲线进行相加操作,得到所述待分析数据的分布上边界;对所述数据分布曲线与所述发散规律曲线进行相减操作,得到所述待分析数据的分布下边界。
12.根据权利要求7所述的装置,其特征在于,确定模块,用于确定待处理灰度图和参考灰度图中具有位置对应关系的像素的灰度值组成的待处理灰度值对;其中,所述待处理灰度图和所述参考灰度图是在不同监测环境下对同一待处理对象采集的;将所述待处理灰度值对输入至所述分类器,通过比较每个类别模型表征的范围与所述待处理灰度值对,从各预设类别中确定出所述待处理灰度值对的预测类别;所述待处理灰度值对处于所述预测类别对应的类别模型表征的范围内;将所述预测类别确定为所述待处理灰度值对对应的像素的类别。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310912763.2A CN116933107B (zh) | 2023-07-24 | 2023-07-24 | 数据分布边界确定方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310912763.2A CN116933107B (zh) | 2023-07-24 | 2023-07-24 | 数据分布边界确定方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116933107A CN116933107A (zh) | 2023-10-24 |
CN116933107B true CN116933107B (zh) | 2024-05-10 |
Family
ID=88378662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310912763.2A Active CN116933107B (zh) | 2023-07-24 | 2023-07-24 | 数据分布边界确定方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116933107B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015220379A (ja) * | 2014-05-20 | 2015-12-07 | ルネサスエレクトロニクス株式会社 | 集積回路デバイスの潜在不良検査装置、方法およびプログラム |
CN109961086A (zh) * | 2019-01-28 | 2019-07-02 | 平安科技(深圳)有限公司 | 基于聚类和sse的异常点比例优化方法及装置 |
CN110188221A (zh) * | 2019-04-08 | 2019-08-30 | 国网浙江省电力有限公司舟山供电公司 | 一种基于形状距离的负荷曲线层次聚类方法 |
CN111143777A (zh) * | 2019-12-27 | 2020-05-12 | 新奥数能科技有限公司 | 一种数据处理方法、装置、智能终端及存储介质 |
CN111984629A (zh) * | 2020-08-31 | 2020-11-24 | 南京工程学院 | 多维场景下基于数据挖掘的台区线损率标准库构建方法 |
CN112507991A (zh) * | 2021-02-04 | 2021-03-16 | 季华实验室 | 流式细胞仪数据的设门方法、系统、存储介质及电子设备 |
CN113052938A (zh) * | 2019-12-26 | 2021-06-29 | 新奥数能科技有限公司 | 一种构建锅炉能效曲线的方法及装置 |
CN113159601A (zh) * | 2021-04-30 | 2021-07-23 | 国网湖北省电力有限公司武汉供电公司 | 一种基于dbscan聚类算法的光伏电站运行状态分析方法 |
CN113704048A (zh) * | 2021-03-31 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 数据动态监测方法、装置、计算机设备和存储介质 |
WO2022016884A1 (zh) * | 2020-07-22 | 2022-01-27 | 江苏科技大学 | 一种基于K-means聚类算法的海面风速方法 |
CN115238815A (zh) * | 2022-08-10 | 2022-10-25 | 中国工商银行股份有限公司 | 异常交易数据获取方法、装置、设备、介质和程序产品 |
CN115344692A (zh) * | 2022-05-16 | 2022-11-15 | 深圳追一科技有限公司 | 聚类方法、装置、计算机设备和存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7263538B2 (en) * | 2002-04-19 | 2007-08-28 | City University Of Hong Kong | Curve tracing system |
US8842883B2 (en) * | 2011-11-21 | 2014-09-23 | Seiko Epson Corporation | Global classifier with local adaption for objection detection |
US9311899B2 (en) * | 2012-10-12 | 2016-04-12 | International Business Machines Corporation | Detecting and describing visible features on a visualization |
JP6213665B2 (ja) * | 2014-03-18 | 2017-10-18 | 日本電気株式会社 | 情報処理装置、及び、クラスタリング方法 |
US20170147675A1 (en) * | 2015-11-19 | 2017-05-25 | International Business Machines Corporation | High dimensional clusters profile generation |
WO2018085418A1 (en) * | 2016-11-01 | 2018-05-11 | Sios Technology Corporation | Apparatus and method of adjusting a sensitivity buffer of semi-supervised machine learning principals for remediation of issues |
US20230069079A1 (en) * | 2021-08-30 | 2023-03-02 | International Business Machines Corporation | Statistical K-means Clustering |
-
2023
- 2023-07-24 CN CN202310912763.2A patent/CN116933107B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015220379A (ja) * | 2014-05-20 | 2015-12-07 | ルネサスエレクトロニクス株式会社 | 集積回路デバイスの潜在不良検査装置、方法およびプログラム |
CN109961086A (zh) * | 2019-01-28 | 2019-07-02 | 平安科技(深圳)有限公司 | 基于聚类和sse的异常点比例优化方法及装置 |
WO2020155756A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 基于聚类和sse的异常点比例优化方法及装置 |
CN110188221A (zh) * | 2019-04-08 | 2019-08-30 | 国网浙江省电力有限公司舟山供电公司 | 一种基于形状距离的负荷曲线层次聚类方法 |
CN113052938A (zh) * | 2019-12-26 | 2021-06-29 | 新奥数能科技有限公司 | 一种构建锅炉能效曲线的方法及装置 |
CN111143777A (zh) * | 2019-12-27 | 2020-05-12 | 新奥数能科技有限公司 | 一种数据处理方法、装置、智能终端及存储介质 |
WO2022016884A1 (zh) * | 2020-07-22 | 2022-01-27 | 江苏科技大学 | 一种基于K-means聚类算法的海面风速方法 |
CN111984629A (zh) * | 2020-08-31 | 2020-11-24 | 南京工程学院 | 多维场景下基于数据挖掘的台区线损率标准库构建方法 |
CN112507991A (zh) * | 2021-02-04 | 2021-03-16 | 季华实验室 | 流式细胞仪数据的设门方法、系统、存储介质及电子设备 |
CN113704048A (zh) * | 2021-03-31 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 数据动态监测方法、装置、计算机设备和存储介质 |
CN113159601A (zh) * | 2021-04-30 | 2021-07-23 | 国网湖北省电力有限公司武汉供电公司 | 一种基于dbscan聚类算法的光伏电站运行状态分析方法 |
CN115344692A (zh) * | 2022-05-16 | 2022-11-15 | 深圳追一科技有限公司 | 聚类方法、装置、计算机设备和存储介质 |
CN115238815A (zh) * | 2022-08-10 | 2022-10-25 | 中国工商银行股份有限公司 | 异常交易数据获取方法、装置、设备、介质和程序产品 |
Non-Patent Citations (4)
Title |
---|
Cao, Xiaofeng.High-dimensional cluster boundary detection using directed Markov tree.PATTERN ANALYSIS AND APPLICATIONS.2021,全文. * |
张选平 ; 祝兴昌 ; 马琮 ; .一种基于边界识别的聚类算法.西安交通大学学报.2007,(第12期),全文. * |
曹晓锋. 面向维度的高维聚类边界检测技术研究.中国优秀硕士学位论文全文数据库 信息科技辑.2017,全文. * |
章勤,李品,肖舸.海量数据的曲线拟合并行算法及实现.华中理工大学学报.2000,(第10期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN116933107A (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abdulkareem et al. | A new standardisation and selection framework for real-time image dehazing algorithms from multi-foggy scenes based on fuzzy Delphi and hybrid multi-criteria decision analysis methods | |
JP2017537312A (ja) | 反復式の欠陥フィルタリングプロセス | |
CN112037223B (zh) | 图像缺陷检测方法、装置及电子设备 | |
CN115457492A (zh) | 目标检测方法、装置、计算机设备及存储介质 | |
CN113808132B (zh) | 三维网络模型质量检测方法、装置和计算机设备 | |
CN113420722B (zh) | 一种机场安全管理平台的突发事件联动方法及系统 | |
CN117173182B (zh) | 基于编码解码网络的缺陷检测方法、系统、设备及介质 | |
CN116933107B (zh) | 数据分布边界确定方法、装置、计算机设备和存储介质 | |
CN117808852A (zh) | 一种基于测绘点云的建筑工期数字化监控方法和系统 | |
CN116894721A (zh) | 一种指标预测方法、装置、计算机设备 | |
CN114925153B (zh) | 基于业务的地理信息数据质量检测方法、装置和设备 | |
Kefeng et al. | CNN Based No‐Reference HDR Image Quality Assessment | |
CN115861520B (zh) | 高光检测方法、装置、计算机设备和存储介质 | |
CN115810012B (zh) | 输电杆塔倾斜检测方法、装置、设备和存储介质 | |
CN114821013B (zh) | 基于点云数据的基元检测方法、装置和计算机设备 | |
Hamad et al. | Discovering metamodels’ quality-of-fit for simulation via graphical techniques | |
CN117113182A (zh) | 分布外数据检测方法、装置、计算机设备和存储介质 | |
CN115908243B (zh) | 一种无损检测图像的分割方法、装置、设备及存储介质 | |
CN117911356A (zh) | 基于dspn的gis设备缺陷检测方法、系统、终端及介质 | |
CN117668686A (zh) | 产品检测模型训练方法、产品检测方法、装置和存储介质 | |
CN117437178A (zh) | 图像清晰度度量方法和装置 | |
CN116342242A (zh) | 异常检测方法、装置、计算机设备和存储介质 | |
CN118154300A (zh) | 抵质押参数处理方法、装置、计算机设备和存储介质 | |
CN118297458A (zh) | 质量检测方法、装置、设备、存储介质和程序产品 | |
CN115965856A (zh) | 图像检测模型构建方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |