CN117906726A

CN117906726A - 一种活牛体尺体重数据异常检测系统

Info

Publication number: CN117906726A
Application number: CN202410310295.6A
Authority: CN
Inventors: 倪美; 陈宴冲; 李春芳; 姬书会; 安军; 刘晓岚; 张智; 马留峰; 赵芳成; 钟丽
Original assignee: Xi'an Yilin Agricultural Development Co ltd
Current assignee: Xi'an Yilin Agricultural Development Co ltd
Priority date: 2024-03-19
Filing date: 2024-03-19
Publication date: 2024-04-19

Abstract

本发明涉及数据处理技术领域，提出了一种活牛体尺体重数据异常检测系统，包括：数据采集模块获取第一数据集、第二数据集和第三数据集，建立第一散点图、第二散点图和第三散点图；数据密集度模块获取散点对应的数据密集度；体重序列模块获取第一体重序列、第二体重序列和第三体重序列；序列相似距离模块确定数据的编号，获取每个编号对应的序列相似距离；异常检测结果判定模块获取数据组，对第一数据集中包含的所有数据组进行异常检测，对活牛体尺体重数据进行异常检测。本发明解决活牛体尺、体重数据异常检测不准确的问题。

Description

一种活牛体尺体重数据异常检测系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种活牛体尺体重数据异常检测系统。

背景技术

在活牛养殖的交易过程中，一般根据活牛的体重计算价格。而在现实生产的过程中，往往会出现对牛的体重称量不便的情况，导致活牛的价格不易评估，因此，通过体尺公式对牛的体重进行估算成为交易过程中重要的一环。但是，在通过牛体尺公式计算牛的体重时，常常会因为测量失误导致计算出的牛的体重数据异常，所以，需要对体尺数据进行异常检测，以判断体重数据是否合理。

体尺数据包含活牛的年龄、胸围以及体直长数据，在对体尺数据进行异常检测时，通常为根据体尺数据与体重的数据分布特征判断体尺数据是否异常，忽略了体尺数据之间的相关关系，导致当某一体尺数据出现不突出的异常时，体尺、体重数据异常检测不准确的问题。

发明内容

本发明提供一种活牛体尺体重数据异常检测系统，以解决活牛体尺、体重数据异常检测不准确的问题，所采用的技术方案具体如下：

本发明一个实施例提供了一种活牛体尺体重数据异常检测系统，该系统包括以下模块：

数据采集模块：根据采集的牛体尺数据获取第二数据集和第三数据集，根据第二数据集建立第一散点图、第二散点图和第三散点图；

数据密集度模块：获取第一散点图、第二散点图和第三散点图中包含的散点的密集度圆，获取散点的密集度圆的面积和散点的紧邻散点，进而获取散点对应的数据密集度；

体重序列模块：建立第一直方图、第二直方图和第三直方图，获取低谷区间，根据低谷区间将第一直方图、第二直方图和第三直方图的区间划分至不同区间群中，获取区间群的数据密集最大点，获取第一体重序列、第二体重序列和第三体重序列；

序列相似距离模块：根据第一体重序列、第二体重序列和第三体重序列确定数据的编号，确定第一原始数据序列、第二原始数据序列和第三原始数据序列，根据第一原始数据序列、第二原始数据序列和第三原始数据序列获取每个编号对应的序列相似距离；

异常检测结果判定模块：根据编号对应的序列相似距离确定初始聚类中心，获取数据组，根据初始聚类中心对第一数据集中包含的所有数据组进行聚类，获取聚类簇，对第一数据集中包含的所有数据组进行异常检测，获取疑似异常数据点，根据聚类簇和疑似异常数据点对活牛体尺体重数据进行异常检测。

进一步，所述根据采集的牛体尺数据获取第二数据集和第三数据集，获取第一数据集的方法为：

采集第一数据集参数值头牛的牛体尺数据，其中，牛体尺数据包括但不限于牛的年龄数据、胸围数据和体直长数据；

根据每头牛的牛体尺数据计算牛的体重数据；

将第一数据集参数值头牛的牛体尺数据和体重数据组成的数据集记为第二数据集；

将需要进行异常检测的牛的体重数据牛体尺数据和体重数据组成的数据集记为第三数据集；

将第二数据集和第三数据集组成的数据集记为第一数据集。

进一步，所述根据第二数据集建立第一散点图、第二散点图和第三散点图的方法为：

根据第二数据集建立第一散点图，其中，第一散点图的横坐标为牛的年龄数据，纵坐标为牛的体重数据，第一散点图中的散点对应同一头牛的年龄数据和体重数据；

根据第二数据集建立第二散点图，其中，第二散点图的横坐标为牛的胸围数据，纵坐标为牛的体重数据，第二散点图中的散点对应同一头牛的胸围数据和体重数据；

根据第二数据集建立第三散点图，其中，第三散点图的横坐标为牛的体直长数据，纵坐标为牛的体重数据，第三散点图中的散点对应同一头牛的体直长数据和体重数据；

第一散点图、第二散点图和第三散点图中包含的散点个数均为第一数据集参数值。

进一步，所述获取第一散点图、第二散点图和第三散点图中包含的散点的密集度圆，获取散点的密集度圆的面积和散点的紧邻散点的方法为：

分别将第一散点图、第二散点图和第三散点图中的每个散点作为待分析散点；

将以待分析散点为圆心，以第一半径阈值为半径的圆记为待分析散点的密集度圆；

将待分析散点的密集度圆内包含的像素点个数记为待分析散点的密集度圆的面积；

将待分析散点的密集度圆中包含的散点记为待分析散点的紧邻散点。

进一步，所述进而获取散点对应的数据密集度的方法为：

将散点的紧邻散点的数量与散点的密集度圆的面积的比值记为散点对应的数据密集度。

进一步，所述建立第一直方图、第二直方图和第三直方图，获取低谷区间，根据低谷区间将第一直方图、第二直方图和第三直方图的区间划分至不同区间群中，获取区间群的数据密集最大点的方法为：

根据第一散点图建立第一直方图，其中，第一直方图的横轴为牛的年龄，纵轴为年龄在第二数据集中出现的频次，组距为第一组距阈值个月；

根据第二散点图建立第二直方图，其中，第二直方图的横轴为牛的胸围，纵轴为胸围在第二数据集中出现的频次，组距为第二组距阈值厘米；

根据第三散点图建立第三直方图，其中，第三直方图的横轴牛的体直长，纵轴为体直长在第二数据集中出现的频次，组距为第三组距阈值厘米；

分别将第一直方图中每个区间作为待分析区间，获取待分析区间和待分析区间的相邻区间对应的频次的最小值，当待分析区间和待分析区间的相邻区间对应的频次的最小值为待分析区间的频次时，将待分析区间记为低谷区间；

低谷区间将待分析区间划分至不同区间群中，其中，低谷区间被划分到左侧相邻区间对应的区间群中；

获取同一区间群中包含的牛的年龄数据对应的第一散点图中散点的数据密集度，将数据密集度最大的散点记为区间群的数据密集最大点；

将第二直方图和第三直方图中的区间划分至不同区间群中，获取每个区间群的数据密集最大点。

进一步，所述获取第一体重序列、第二体重序列和第三体重序列的方法为：

选取第一直方图的所有区间群的数据密集最大点，获取所有数据密集最大点对应的牛的体重数据，按照牛的体重数据从大到小的顺序，将所有数据密集最大点进行排序，获取第一体重序列；

选取第二直方图的所有区间群的数据密集最大点，获取所有数据密集最大点对应的牛的体重数据，按照牛的体重数据从大到小的顺序，将所有数据密集最大点进行排序，获取第二体重序列；

选取第三直方图的所有区间群的数据密集最大点，获取所有数据密集最大点对应的牛的体重数据，按照牛的体重数据从大到小的顺序，将所有数据密集最大点进行排序，获取第三体重序列。

进一步，所述根据第一体重序列、第二体重序列和第三体重序列确定数据的编号，确定第一原始数据序列、第二原始数据序列和第三原始数据序列的方法为：

将第一体重序列、第二体重序列和第三体重序列中数据的位次记为数据的编号；

分别将第一体重序列中每个数据作为第一待分析元素，将第一待分析元素对应的牛的年龄数据、胸围数据、体直长数据和体重数据按顺序排列为第一待分析元素的第一原始数据序列；

分别将第二体重序列中每个数据作为第二待分析元素，将第二待分析元素对应的牛的年龄数据、胸围数据、体直长数据和体重数据按顺序排列为第二待分析元素的第二原始数据序列；

分别将第三体重序列中每个数据作为第三待分析元素，将第三待分析元素对应的牛的年龄数据、胸围数据、体直长数据和体重数据按顺序排列为第三待分析元素的第三原始数据序列。

进一步，所述根据第一原始数据序列、第二原始数据序列和第三原始数据序列获取每个编号对应的序列相似距离的方法为：

分别将每个数据的编号作为待分析编号进行分析；

将第一体重序列中待分析编号对应的数据的第一原始数据序列与第二体重序列中待分析编号对应的数据的第二原始数据序列之间的距离记为待分析编号的第一距离；

将第一体重序列中待分析编号对应的数据的第一原始数据序列与第三体重序列中待分析编号对应的数据的第三原始数据序列之间的距离记为待分析编号的第二距离；

将第二体重序列中待分析编号对应的数据的第二原始数据序列与第三体重序列中待分析编号对应的数据的第三原始数据序列之间的距离记待分析编号的为第三距离；

将待分析编号的第一距离、第二距离和第三距离的和记为待分析编号对应的序列相似距离。

进一步，所述根据编号对应的序列相似距离确定初始聚类中心，获取数据组，根据初始聚类中心对第一数据集中包含的所有数据组进行聚类，获取聚类簇，对第一数据集中包含的所有数据组进行异常检测，获取疑似异常数据点，根据聚类簇和疑似异常数据点对活牛体尺体重数据进行异常检测的方法为：

选取最大的第一预设阈值个序列相似距离作为异常数据点的初始聚类中心，选取最小的第一预设阈值个序列相似距离作为正常数据点的初始聚类中心；

将第一数据集中同一头牛的牛体尺数据和体重数据作为一个数据组，对第一数据集中所有数据组进行聚类，获取聚类簇；

对第一数据集中所有数据组进行异常检测，获取每个数据组的异常评分，将异常评分最大的前第二预设阈值的数据点标记为疑似异常数据点；

当聚类簇中的疑似异常数据点占比超出第三预设阈值时，将聚类簇中且在第三数据集中的数据组对应的牛体尺数据和体重数据标记为异常数据。

本发明的有益效果是：

本发明根据活牛体尺的计算公式，采集牛的年龄数据、胸围数据和体直长数据进行分析，分别根据年龄数据、胸围数据和体直长数据建立散点图和直方图，根据散点图获取散点对应的数据密集度，根据散点对应的数据密集度和回访图获取体重序列；然后，根据牛的年龄、胸围和体直长与体重均呈正比且牛的年龄、胸围和体直长之间也具有一定正比关系的特征，根据体重序列确定数据的编号，获取每个编号对应的序列相似距离，使编号对应的序列相似距离越大，编号对应的数据为异常数据的可能性越大；最后，根据编号对应的序列相似距离确定初始聚类中心，在考虑体尺数据之间的相关关系的前提下确定聚类中心，避免当某一体尺数据出现不突出的异常时，体尺、体重数据异常检测不准确的问题，根据初始聚类中心获取疑似异常数据点，对活牛体尺体重数据进行异常检测，提升活牛体尺体重数据异常检测的准确性，使活牛交易过程中对牛的估价更为准确，提升活牛交易的公平性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所提供的一种活牛体尺体重数据异常检测系统的流程示意图；

图2为区间群划分示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明一个实施例提供的一种活牛体尺体重数据异常检测系统流程图，该系统包括：数据采集模块、数据密集度模块、体重序列模块、序列相似距离模块、异常检测结果判定模块。

数据采集模块，根据采集的牛体尺数据获取第二数据集和第三数据集，获取第一数据集，根据第二数据集建立第一散点图、第二散点图和第三散点图。

采集头牛的牛体尺数据，牛体尺数据包含牛的年龄数据、胸围数据和体直长数据。根据每头牛的牛体尺数据计算牛的体重数据。其中，根据牛体尺数据计算牛的体重数据为公知技术，不再赘述；/>为第一数据集参数值，经验值为600。

将这头牛的牛体尺数据和体重数据组成的数据集记为第二数据集。

将需要进行异常检测的牛的体重数据牛体尺数据和体重数据组成的数据集记为第三数据集。将第二数据集和第三数据集组成的数据集记为第一数据集。

根据第二数据集分别建立第一散点图、第二散点图和第三散点图。其中，第一散点图的横坐标为牛的年龄数据，纵坐标为牛的体重数据，第一散点图中的散点对应同一头牛的年龄数据和体重数据；第二散点图的横坐标为牛的胸围数据，纵坐标为牛的体重数据，第二散点图中的散点对应同一头牛的胸围数据和体重数据；第三散点图的横坐标为牛的体直长数据，纵坐标为牛的体重数据，第三散点图中的散点对应同一头牛的体直长数据和体重数据。第一散点图、第二散点图和第三散点图中包含的散点个数均为第一数据集参数值。

至此，获取第二数据集、第一散点图、第二散点图和第三散点图。

数据密集度模块，获取第一散点图、第二散点图和第三散点图中包含的散点的密集度圆，获取散点的密集度圆的面积和散点的紧邻散点，进而获取散点对应的数据密集度。

分别将第一散点图、第二散点图和第三散点图中的每个散点作为待分析散点。将以待分析散点为圆心，以第一半径阈值为半径的圆记为待分析散点的密集度圆。其中，第一半径阈值的经验值为5。

将待分析散点的密集度圆内包含的像素点个数记为待分析散点的密集度圆的面积。将待分析散点的密集度圆中包含的散点记为待分析散点的紧邻散点。当待分析散点的紧邻点数量越多时，待分析散点附近的散点越多、散点密度越大。

根据散点的紧邻散点获取散点对应的数据密集度。

其中，为散点/>对应的数据密集度；/>散点/>的紧邻散点的数量；/>为散点/>的密集度圆的面积。

当散点的紧邻散点的数量越多时，散点对应的数据密集度越大，散点位置附近的其他散点分布越为密集。

至此，获取第一散点图、第二散点图和第三散点图中包含的每个散点对应的数据密集度。

体重序列模块，建立第一直方图、第二直方图和第三直方图，获取低谷区间，根据低谷区间将第一直方图、第二直方图和第三直方图的区间划分至不同区间群中，获取区间群的数据密集最大点，获取第一体重序列、第二体重序列和第三体重序列。

根据第一散点图建立第一直方图，其中，第一直方图的横轴为牛的年龄，纵轴为年龄在第二数据集中出现的频次，组距为第一组距阈值个月。其中，第一组距阈值的经验值为2，实施者可根据需要选取。

根据第二散点图建立第二直方图，其中，第二直方图的横轴为牛的胸围，纵轴为胸围在第二数据集中出现的频次，组距为第二组距阈值厘米。其中，第二组距阈值的经验值为9.4，实施者可根据需要选取。

根据第三散点图建立第三直方图，其中，第三直方图的横轴牛的体直长，纵轴为体直长在第二数据集中出现的频次，组距为第三组距阈值厘米。其中，第三组距阈值的经验值为10.6，实施者可根据需要选取。

分别将第一直方图中每个区间作为待分析区间，获取待分析区间和待分析区间的相邻区间对应的频次的最小值，当待分析区间和待分析区间的相邻区间对应的频次的最小值为待分析区间的频次时，将待分析区间记为低谷区间。

低谷区间将待分析区间划分至不同区间群中，其中，低谷区间被划分到左侧相邻区间对应的区间群中，区间群划分示意图如图2所示。

获取同一区间群中包含的牛的年龄数据对应的第一散点图中散点的数据密集度，将数据密集度最大的散点记为区间群的数据密集最大点。

同理，将第二直方图和第三直方图中的区间划分至不同区间群中，获取每个区间群的数据密集最大点。

选取第一直方图的所有区间群的数据密集最大点，获取所有数据密集最大点对应的牛的体重数据，按照牛的体重数据从大到小的顺序，将所有数据密集最大点进行排序，获取第一体重序列。

选取第二直方图的所有区间群的数据密集最大点，获取所有数据密集最大点对应的牛的体重数据，按照牛的体重数据从大到小的顺序，将所有数据密集最大点进行排序，获取第二体重序列。

根据牛体尺的计算公式，年龄、胸围和体直长与体重均呈正相关，即牛的年龄、胸围和体直长的数值越大，牛的体重应该越重。同时，牛的年龄、胸围和体直长之间也具有一定正相关关系，即年龄较小的牛，对应的胸围和体直长的数值也应较小。所以，第一体重序列、第二体重序列和第三体重序列将数据密集最大点按照体重从大到小的顺序进行排列，方便后续根据年龄数据、胸围数据和体直长数据对体重数据影响的分析，同时，方便对年龄数据、胸围数据和体直长数据之间的数值合理性进行分析。

至此，获取第一体重序列、第二体重序列和第三体重序列。

序列相似距离模块，根据第一体重序列、第二体重序列和第三体重序列确定数据的编号，确定第一原始数据序列、第二原始数据序列和第三原始数据序列，根据第一原始数据序列、第二原始数据序列和第三原始数据序列获取每个编号对应的序列相似距离。

在牛的年龄数据、胸围数据和体直长数据与体重数据有正相关关系的同时，年龄数据、胸围数据和体直长数据之间也具有正相关关系，即体重相近的牛之间的年龄数据、胸围数据和体直长数据也较为相近，当牛的体重数据、胸围数据和体直长数据都较大时，牛的年龄数据较大，若出现相反的情况，则采集到的数据越可能为异常数据。以此为基础进行分析。

将第一体重序列、第二体重序列和第三体重序列中第个数据的编号记为/>。其中，，其中，/>为第一数据集参数值，经验值为600。

分别将第一体重序列中每个数据作为第一待分析元素，将第一待分析元素对应的牛的年龄数据、胸围数据、体直长数据和体重数据按顺序排列为第一待分析元素的第一原始数据序列。

分别将第二体重序列中每个数据作为第二待分析元素，将第二待分析元素对应的牛的年龄数据、胸围数据、体直长数据和体重数据按顺序排列为第二待分析元素的第二原始数据序列。

根据第一原始数据序列、第二原始数据序列和第三原始数据序列获取每个编号对应的序列相似距离。

式中，为编号/>对应的序列相似距离，其中，/>，/>为第一数据集参数值，经验值为600；/>为第一取值函数，作用为取括号内逗号隔开的两个序列之间的/>距离；/>为第一体重序列中编号为/>的数据的第一原始数据序列；/>为第二体重序列中编号为/>的数据的第二原始数据序列；/>为第三体重序列中编号为/>的数据的第三原始数据序列；/>为第一体重序列中编号为/>的数据的第一原始数据序列与第二体重序列中编号为/>的数据的第二原始数据序列之间的/>距离；/>为第一体重序列中编号为/>的数据的第一原始数据序列与第三体重序列中编号为/>的数据的第三原始数据序列之间的/>距离；/>为第二体重序列中编号为/>的数据的第二原始数据序列与第三体重序列中编号为/>的数据的第三原始数据序列之间的/>距离。

当编号相同的数据对应的第一原始数据序列、第二原始数据序列和第三原始数据序列之间的距离越大时，编号对应的序列相似距离越大，编号对应的数据为异常数据的可能性越大。

至此，获取每个编号对应的序列相似距离。

选取最大的个序列相似距离作为异常数据点的初始聚类中心，选取最小的/>个序列相似距离作为正常数据点的初始聚类中心。其中，/>为第一预设阈值，第一预设阈值为异常数据点和正常数据点的初始聚类中心数量，经验值为3。

将第一数据集中同一头牛的牛体尺数据和体重数据作为一个数据组，对第一数据集中所有数据组使用ISODATA迭代自组织聚类算法进行聚类，获取聚类簇，其中，预期的类数经验值取2，每一类中允许的最少样本数目经验值取3，每个类簇内样本距离分布的标准差上限经验值取176；每个类簇中心间的最小距离下限经验值取7，在每次迭代中最多可以进行合并操作的次数经验值取10，允许最多的迭代次数经验值取10。ISODATA迭代自组织聚类算法为公知技术，不再赘述，实施者可根据需要设置参数值。

对第一数据集中所有数据组使用HBOS异常数据检测算法进行异常检测，获取每个数据组的异常评分，将异常评分最大的前第二预设阈值的数据点标记为疑似异常数据点。其中，第二预设阈值的经验值为10%。

当聚类簇中的疑似异常数据点占比超出第三预设阈值时，将聚类簇中且在第三数据集中的数据组对应的牛体尺数据和体重数据标记为异常数据。否则，认为第三数据集中的所有数据组对应的牛体尺数据和体重数据均为正常数据。其中，第三预设阈值经验值取80%。

至此，完成对活牛体尺体重数据的异常检测。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种活牛体尺体重数据异常检测系统，其特征在于，该系统包括以下模块：

数据采集模块：根据采集的牛体尺数据获取第二数据集和第三数据集，获取第一数据集，根据第二数据集建立第一散点图、第二散点图和第三散点图；

2.根据权利要求1所述的一种活牛体尺体重数据异常检测系统，其特征在于，所述根据采集的牛体尺数据获取第二数据集和第三数据集，获取第一数据集的方法为：

根据每头牛的牛体尺数据计算牛的体重数据；

将第二数据集和第三数据集组成的数据集记为第一数据集。

3.根据权利要求2所述的一种活牛体尺体重数据异常检测系统，其特征在于，所述根据第二数据集建立第一散点图、第二散点图和第三散点图的方法为：

4.根据权利要求1所述的一种活牛体尺体重数据异常检测系统，其特征在于，所述获取第一散点图、第二散点图和第三散点图中包含的散点的密集度圆，获取散点的密集度圆的面积和散点的紧邻散点的方法为：

5.根据权利要求1所述的一种活牛体尺体重数据异常检测系统，其特征在于，所述进而获取散点对应的数据密集度的方法为：

6.根据权利要求2所述的一种活牛体尺体重数据异常检测系统，其特征在于，所述建立第一直方图、第二直方图和第三直方图，获取低谷区间，根据低谷区间将第一直方图、第二直方图和第三直方图的区间划分至不同区间群中，获取区间群的数据密集最大点的方法为：

7.根据权利要求2所述的一种活牛体尺体重数据异常检测系统，其特征在于，所述获取第一体重序列、第二体重序列和第三体重序列的方法为：

8.根据权利要求2所述的一种活牛体尺体重数据异常检测系统，其特征在于，所述根据第一体重序列、第二体重序列和第三体重序列确定数据的编号，确定第一原始数据序列、第二原始数据序列和第三原始数据序列的方法为：

9.根据权利要求1所述的一种活牛体尺体重数据异常检测系统，其特征在于，所述根据第一原始数据序列、第二原始数据序列和第三原始数据序列获取每个编号对应的序列相似距离的方法为：

分别将每个数据的编号作为待分析编号进行分析；

10.根据权利要求2所述的一种活牛体尺体重数据异常检测系统，其特征在于，所述根据编号对应的序列相似距离确定初始聚类中心，获取数据组，根据初始聚类中心对第一数据集中包含的所有数据组进行聚类，获取聚类簇，对第一数据集中包含的所有数据组进行异常检测，获取疑似异常数据点，根据聚类簇和疑似异常数据点对活牛体尺体重数据进行异常检测的方法为：