CN115659194A

CN115659194A - 一种人工智能云诊断终端平台数据管理方法及系统

Info

Publication number: CN115659194A
Application number: CN202211426503.6A
Authority: CN
Inventors: 杨童菲; 陈泽丰; 王小华
Original assignee: Shenzhen Mingwei Kechuang Technology Co ltd
Current assignee: Shenzhen Mingwei Kechuang Technology Co ltd
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-01-31

Abstract

本发明涉及电数据处理领域，具体涉及一种人工智能云诊断终端平台数据管理方法及系统，包括：建立三维空间；获取目标中心点；根据每个圆的半径、每个圆内目标数据的个数、每个圆内目标数据的方差得到DBSCAN聚类算法的局部可达范围，根据DBSCAN聚类算法的局部可达范围对三维空间中的所有数据进行聚类得到多个聚簇；获取每个汽车品牌评价频率最高的优质特征；将每个聚簇中的每个汽车品牌的故障数据与该汽车品牌的优质特征进行匹配得到匹配结果，根据匹配结果得到每个聚簇中每个汽车品牌的故障数据的回溯价值；根据每个聚簇中每个汽车品牌的故障数据的回溯价值对故障数据进行分流存储，本发明实现了汽车故障数据存储的合理分流。

Description

一种人工智能云诊断终端平台数据管理方法及系统

技术领域

本发明涉及电数据处理领域，具体涉及一种人工智能云诊断终端平台数据管理方法及系统。

背景技术

云诊断技术是一种智能型的远程诊断技术，其最大的特点是可以远程对车辆进行诊断并产生诊断报告供客户查阅，随着生活条件的改善，车辆用户也越来越多，当车辆出现故障时，需要及时维修，保证用户的使用，云诊断中的车载自诊断系统(OBD)能够根据汽车某个部件发生故障时，在汽车ECU中形成相应的故障码，通过汽车故障诊断设备读取汽车ECU中的故障代码，然后通过故障码表解读所获取的故障代码，从而确定汽车发生故障的原因。

但是，云服务器需要对每个注册用户进行建档，以存储其汽车所有历史诊断日志，当用户数量庞大时，服务器的内存负荷也会较大，从平台数据调用诊断日志数据时，服务器的响应速度较慢，一般只能通过不断增加服务器数量来改善，但是，增加服务器数量也无法从根本上解决服务器响应速度慢的问题。

发明内容

本发明提供一种人工智能云诊断终端平台数据管理方法及系统，以解决现有的通过增加服务器数量改善服务器响应速度的问题。

本发明的一种人工智能云诊断终端平台数据管理方法，采用如下技术方案：

获取每个汽车品牌的历史诊断日志数据，根据历史诊断日志数据中的故障类型、故障发生频率、时间建立三维空间；

获取三维空间中故障频率轴和时间轴所在面的所有目标数据，以每个目标数据为高斯核中心进行高斯核卷积得到最小卷积值，将最小卷积值对应的高斯核处的目标数据作为目标中心点；

以目标中心点为圆心绘制同心圆，根据每个同心圆的半径、每个同心圆内目标数据的个数、每个同心圆内目标数据的方差得到DBSCAN聚类算法的局部可达范围，根据DBSCAN聚类算法的局部可达范围对三维空间中的所有数据进行聚类得到多个聚簇；

获取每个汽车品牌好评率最高的前三个特征，将每个汽车品牌好评率最高的前三个特征作为该汽车品牌的优质特征，将每个聚簇中的每个汽车品牌的故障数据与该汽车品牌的优质特征进行匹配得到匹配结果，根据匹配结果得到每个聚簇中每个汽车品牌的故障数据的回溯价值；

将回溯价值高的聚簇和回溯价值低的聚簇存储在同一服务器中，使该服务器到达存储上限，同理，对下一个服务器按照相同的方法进行存储，直至所有聚簇分配完成。

进一步的，所述建立三维空间的方法是：

以历史诊断日志数据中的故障类型、故障发生频率、时间中的任意一个分量作为X轴，其余两个分量中的任意一个作为Y轴，最后一个分量作为Z轴建立三维空间。

进一步的，所述得到最小卷积值的具体表达式为：

式中：P_ε表示第ε个目标数据高斯核卷积的卷积值，H表示高斯核，G_ε表示第ε个目标数据上的故障类型数量，

代表3*3的高斯核在第ε个目标数据处进行卷积运算，

表示第ε个目标数据与该目标数据的8邻域目标数据进行加和求均。

进一步的，所述DBSCAN聚类算法的局部可达范围是按如下方法确定的：

计算每个圆中目标数据的方差，根据半径由小到大对每个半径及该半径前的所有圆中目标数据的方差进行累加得到多个累加值，其中，每累加一次，计算一次当前累加值前的所有累加值的均值；

以当前累加值与前一累加值的差值作为分子，以当前累加值前的所有累加值的均值作为分母得到比值；

设置范围阈值，当该比值与范围阈值得到局部可达范围。

进一步的，所述获取每个汽车品牌好评率最高的前三个特征的方法是：

利用网络爬虫对多个网站及多个汽车品牌的官网、宣传页、获奖记录进行数据采集得到每个汽车品牌好评率最高的前三个特征。

进一步的，所述得到匹配结果的方法是：

将每个聚簇中的每个汽车品牌的故障数据与每个汽车品牌好评率最高的前三个特征进行匹配，若该聚簇中的故障数据包含于该汽车品牌好评率最高的前三个特征，则匹配结果为1；

若该聚簇中的故障数据不包含于该汽车品牌好评率最高的前三个特征，则匹配结果为0。

进一步的，所述每个聚簇对应的回溯价值的具体表达式为：

式中：ω_g表示第g个聚簇内的故障数据的回溯价值，v代表第g个聚簇内的第v个故障数据，t_o代表当前时间节点，t_v表示第g个聚簇内的第v个故障数据所在的时间节点，函数exp表示e的指数函数，S_v表示第g个聚簇内第v个故障数据与该故障数据对应的品牌的优质特征的匹配结果，M_g代表第g个聚簇内的数据个数。

一种人工智能云诊断终端平台数据管理系统，包括：

数据获取模块：用于获取所有用户车辆的历史诊断日志数据，根据历史诊断日志数据建立三维空间；

数据处理模块：用于获取三维空间中故障频率和时间轴所在面的所有目标数据，以每个数据为高斯核进行高斯核卷积得到最小卷积值，将最小卷积值对应的高斯核处的目标数据作为目标中心点；

聚类模块：用于以目标中心点为圆心绘制同心圆，根据每个圆的半径、每个圆内目标数据的个数、每个圆内目标数据的方差得到DBSCAN聚类算法的局部可达范围，根据DBSCAN聚类算法的局部可达范围对三维空间中的所有数据进行聚类得到多个聚簇；

数据存储模块：用于获取每个汽车品牌好评率最高的前三个特征，将每个汽车品牌好评率最高的前三个特征作为该汽车品牌的优质特征；将每个聚簇中的每个汽车品牌的故障数据与该汽车品牌的优质特征进行匹配得到匹配结果，根据匹配结果得到每个聚簇中每个汽车品牌的故障数据的回溯价值；

本发明的有益效果是：本发明通过对服务器进行数据分流，实现保证服务器响应速度的同时，合理化服务器存储空间的利用率，相对于传统根据数据类型、时间进行分流的方式，本发明通过三维空间坐标系对数据计算其回溯价值，然后再进行分流的方式更为全面，且利用高斯核卷积对DBSCAN局部可达范围进行取样，相对于自行设置的方式，密度聚类结果更为准确，即得到的聚簇更加准确，最终分流的存储的结果更加准确；

其次，通过各个聚簇的回溯价值，对聚簇进行分流保存，不会丢失故障数据，且减小了计算量，合理化了服务器的空间利用，保证了服务器的响应率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种人工智能云诊断终端平台数据管理方法的实施例的流程示意图；

图2为本发明的一种人工智能云诊断终端平台数据管理方法的三维模型示意图；

图3为本发明的一种人工智能云诊断终端平台数据管理系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造一种人工智能云诊断终端平台数据管理方法性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的一种人工智能云诊断终端平台数据管理方法的实施例，如图1所示，包括：

S1、获取每个汽车品牌的历史诊断日志数据，根据历史诊断日志数据中的故障类型、故障发生频率、时间建立三维空间。

云诊断是从汽车ECU接口中获取其软硬件运行状态进行分析，生成故障代码以及诊断日志，从云服务器中读取每个汽车品牌的历史诊断日志数据，并提取历史诊断日志数据中的故障类型、故障发生频率或概率、车辆品牌和时间信息，以故障类型为X轴，故障发生频率为Y轴，时间为Z轴建立三维空间。

S2、获取三维空间中故障频率轴和时间轴所在面的所有目标数据，以每个目标数据为高斯核中心进行高斯核卷积得到最小卷积值，将最小卷积值对应的高斯核处的目标数据作为目标中心点。

如图2所示，为基于故障类型、故障发生频率、时间的三维空间坐标系，时间轴最小计量单位为天，t代表任意一天，i代表任意一类故障类型，ρ_t(i)代表第i类故障在第t天所有发生故障中出现的频率，即故障发生频率或故障类型出现频率，因此任意一个诊断日志ε的坐标为[i，t，ρ_t(i)]，需要说明的是，故障类型仅包含汽车装载ECU自动诊断单元的汽车零件。

以上所述三维空间坐标系，故障类型轴无序且无度量值，所以从时间、故障发生频率的角度进行分析，上图中每个数据点所在的坐标位置我们赋予一个G_ε值，G_ε代表在该时间、该频率坐标位置上所具有同样概率的故障类型数量，由于每天故障类型出现概率是对于每一天独立进行计算的，因此每一条时间轴位置纵向上的数据点概率之和为1，由于不同类型诊断日志数据在每一天发生的概率是随机的，那么就会出现某天一类或少数几类故障出现的频率极大，其在统计图上呈现的数据点对于其相邻、相近时间内的其他数据点而言，其所在局部区域的数据分布密度都不具有代表性，甚至孤立存在，而具有代表性的局部区域是中心数据相对于相邻的数据而言，不会体现出较大的突兀性，与相邻数据点越平滑、均匀，越能代表该数据点所在的区域具有普遍性。

获取故障频率和时间轴所在面的所有目标数据，其中，每个目标数据点后可能存在多个该目标数据，即出现同一频率的故障类型每天可能存在多个，所有目标数据在频率和时间轴所在面有各自对应的坐标值，为了获取最具代表性、普遍性的数据分布区域，利用一个3*3的高斯核对上述故障诊断统计图进行卷积，即高斯核内元素分布符合中心权重高，周边权重低，在故障诊断统计图中对每个数据点进行卷积时，即高斯核内元素与以该点为中心的高斯核范围内的数据进行加权计算，需要获取合适的局部可达范围，就得到高斯分布最弱，即中心数据与其邻域数据的取值最均匀的局部区域，以每个数据为高斯核进行高斯核卷积得到最小卷积值，具体表达式为：

代表3*3的高斯核在第ε个目标数据处进行卷积运算，

其中，若第ε个数据的G_ε值相对邻域较高，则与高斯核的卷积结果也会较高，反之其G_ε值相对邻域并不突出，则其高斯核的卷积结果与

的均值结果差值极小，因此

P_ε作为评估第ε个数据高斯分布强弱的参数，该公式为现有技术，本发明不再赘述。

将最小卷积值对应的高斯核处的目标数据作为目标中心点。

S3、以目标中心点为圆心绘制同心圆，根据每个同心圆的半径、每个同心圆内目标数据的个数、每个同心圆内目标数据的方差得到DBSCAN聚类算法的局部可达范围，根据DBSCAN聚类算法的局部可达范围对三维空间中的所有数据进行聚类得到多个聚簇；

得到DBSCAN聚类算法的局部可达范围的具体步骤为：以目标中心点为圆心，以r＝1，2，3...r为半径，计算每个圆范围内目标数据的方差，计算每个圆中目标数据的方差，根据半径由小到大对每个半径及该半径前的所有圆中目标数据的方差进行累加得到多个累加值，其中，每累加一次，计算一次当前累加值的前一累加值前的所有累加值的均值。具体表达式如下：

式中：T(r)表示半径为r的圆及该半径r前的所有圆中目标数据的方差进行累加的累加和，T(r)为单调递增函数，N_r表示半径为r的圆内目标数据的个数，G_ε表示半径为r的圆内第ε个目标数据上的故障类型数量，

表示半径为r的圆内每类故障类型数量的均值，R表示局部可达范围的半径，即代表停止迭代时的半径，据此公式可得半径由小到大过程中，对每个半径及该半径前的所有圆中目标数据的方差进行累加得到多个累加值。该公式套用方差公式，本发明不再赘述。

以当前累加值与前一累加值的差值作为分子，以当前累加值前的所有累加值的均值作为分母得到比值；设置范围阈值，根据该比值和范围阈值得到局部可达范围，具体表达式如下：

式中：

表示局部可达范围的评价值，T(r+1)表示半径为(r+1)的圆及该半径前的所有圆中目标数据的方差进行累加的累加和，T(r)表示半径为r的圆及该半径r前的所有圆中目标数据的方差进行累加的累加和，

表示半径为r的圆及该半径r前对应的所有累加值的均值。

其中，当T(r+1)与T(r)的值变化剧烈时，即在累加函数图像上，相邻r与r+1累加值的斜率异常，即

为相邻两半径的累加值之差除以之前所有的平均累加差值，越偏离则

的值越大，本发明设置范围阈值为

若超出该范围则认为此次迭代的r值为目标中心点的最大可达范围半径，即局部可达范围的半径R。

至此，得到局部可达范围。

根据DBSCAN聚类算法的局部可达范围对三维空间中的所有数据进行聚类得到多个聚簇。

需要说明的是，对所有诊断日志数据所投射在三维空间坐标系中的点进行聚类，所有聚类算法都是基于数据之间的距离进行的，在本三维空间坐标系中，距离的定义仅参考每个日志数据的时间以及发生频率：

式中：ε代表任意一个故障数据，u代表除ε外的其他任意一个故障数据，t_ε代表第ε个故障数据发生的时间，t_ε-t_u代表第ε个故障数据与第u个数据之间的时间差，ρ_t(i)_ε代表第ε个数据记录的故障在第t天发生的频率，ρ_t(i)_ε-ρ_t(i)_u代表第ε个故障数据与第u个数据之间发生频率的差值，

为欧式距离公式，L(ε,u)代表第ε个数据与第u个数据之间的距离。该公式目的是构建数据分类的基本距离单位，作为聚类算法的度量依据，为现有技术，本发明不再赘述。

S4、获取每个汽车品牌好评率最高的前三个特征，将每个汽车品牌好评率最高的前三个特征作为该汽车品牌的优质特征，将每个聚簇中的每个汽车品牌的故障数据与该汽车品牌的优质特征进行匹配得到匹配结果，根据匹配结果得到每个聚簇中每个汽车品牌的故障数据的回溯价值。

对于不同的故障类型，分为常规故障和特殊故障，而对于不同类型的汽车品牌，其定位和工艺的不同，造成各自常规故障和特殊故障的定义有所不同，造成各自常规故障和特殊故障的定义有所不同，例如沃尔沃品牌的安全性能极好，一旦发生安全类的故障，无论对于车主还是品牌方而言，都是极具特殊性的，又例如宝马品牌的发动机，其性能和质量在全世界汽车市场上都极具权威性，若发生质量或故障问题，必然受到较大程度的重视，因此对于不同品牌的车型，其故障类型所具备回溯价值不同，回溯价值高的诊断日志，用户的调阅频率必然越高。

获取每个汽车品牌评价频率最高的前三个特征的具体步骤为：网络爬虫即网络数据的采集，通过编程向网络服务器请求数据(HTML表单)，然后解析HTML，提取自己想要的数据，通过网络爬虫对多个车评网站以及不同汽车品牌的官网、宣传页、获奖记录进行数据采集得到每个汽车品牌故障频率最高的三个零件。

将每个聚簇中的每个汽车品牌的故障数据与该汽车品牌的优质特征进行匹配，若该聚簇中的故障数据包含于该汽车品牌的优质特征，则匹配结果为1；若该聚簇中的故障数据不包含于该汽车品牌的优质特征，则匹配结果为0。

根据匹配结果得到每个聚簇中每个汽车品牌的故障数据的回溯价值，即每个聚簇对应的回溯价值，具体表达式为：

其中，

代表第g个聚簇内所有数据距离现今的时间差之和求均，均值越小，则回溯价值越高；

为利用指数函数反比例归一化，所述均值越小，输出结果在0-1之间越大，S_v代表第g个聚簇中第v个数据与其品牌优质特征的匹配输出值，

为累加求均，均值在0-1之间越大，回溯价值越高，两者的均值即为最终第g个聚簇中数据的回溯价值参数。

根据ω_g值大小，将所有聚簇按照ω_g值由大至小进行排列，得到所有诊断日志数据的回溯价值顺序，聚类结果中所有的噪声数据则单独列出。

S5、将回溯价值高的聚簇和回溯价值低的聚簇存储在同一服务器中，使该服务器到达存储上限，同理，对下一个服务器按照相同的方法进行存储，直至所有聚簇分配完成。

若服务器内全是回溯价值较高的诊断日志，我们预测其具有较高的访问率，无论对于外部存储还是内部存储而言，其空间占用都可能存在居高不下的情况，进而导致服务器响应速度极大下降。

因此，在分配各个服务器存储的数据时，通过高回溯价值与低回溯价值混合存储的方式来降低各个服务器的运行负荷，将按照回溯价值排序好的聚簇，首尾同时进行分配，一批回溯价值高的聚簇数据与同样数量回溯价值低的聚簇数据一起放入服务器中，一个服务器到达存储上限后，继续按照所述方法分配在下一个服务器中，直至所有聚簇分配完成，对所有噪声数据，其数据体量较小，单独放在一个服务器中即可，即可调节各个服务器的运行负荷，使所有服务器中的数据均可以有较好的响应率。

通过所述方法对数据进行合理分配，合理规划了服务器存储空间的利用率，且保证了服务器响应速度。

一种人工智能云诊断终端平台数据管理系统，如图3所示，包括：数据获取模块：用于获取所有用户车辆的历史诊断日志数据，根据历史诊断日志数据建立三维空间；数据处理模块：用于获取三维空间中故障频率和时间轴所在面的所有目标数据，以每个数据为高斯核进行高斯核卷积得到最小卷积值，将最小卷积值对应的高斯核处的目标数据作为目标中心点；聚类模块：用于以目标中心点为圆心绘制同心圆，根据每个圆的半径、每个圆内目标数据的个数、每个圆内目标数据的方差得到DBSCAN聚类算法的局部可达范围，根据DBSCAN聚类算法的局部可达范围对三维空间中的所有数据进行聚类得到多个聚簇；数据存储模块：用于获取每个汽车品牌评价频率最高的前三个特征，将每个汽车品牌评价频率最高的前三个特征作为该汽车品牌的优质特征；将每个聚簇中的每个汽车品牌的故障数据与该汽车品牌的优质特征进行匹配得到匹配结果，根据匹配结果得到每个聚簇中每个汽车品牌的故障数据的回溯价值；将回溯价值高的聚簇和回溯价值低的聚簇存储在同一服务器中，使该服务器到达存储上限，同理，对下一个服务器按照相同的方法进行存储，直至所有聚簇分配完成。

本发明的有益效果是：本发明通过对服务器进行数据分流，实现保证服务器响应速度的同时，合理化服务器存储空间的利用率，相对于传统根据数据类型、时间进行分流的方式，本发明通过三维空间坐标系对数据计算其回溯价值，然后再进行分流的方式更为全面，且利用高斯核卷积对DBSCAN局部可达范围进行取样，相对于自行设置的方式，密度聚类结果更为准确；其次，通过各个聚簇的回溯价值，对服务器进行分流，既减少了由于数据分配不合理所导致的服务器运营成本增加，又能一定程度保证响应率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人工智能云诊断终端平台数据管理方法，其特征在于，包括：

2.根据权利要求1所述的一种人工智能云诊断终端平台数据管理方法，其特征在于，所述建立三维空间的方法是：

3.根据权利要求1所述的一种人工智能云诊断终端平台数据管理方法，其特征在于，所述得到最小卷积值的具体表达式为：

代表3*3的高斯核在第ε个目标数据处进行卷积运算，

4.根据权利要求1所述的一种人工智能云诊断终端平台数据管理方法，其特征在于，所述DBSCAN聚类算法的局部可达范围是按如下方法确定的：

设置范围阈值，当该比值与范围阈值得到局部可达范围。

5.根据权利要求1所述的一种人工智能云诊断终端平台数据管理方法，其特征在于，所述获取每个汽车品牌好评率最高的前三个特征的方法是：

6.根据权利要求1所述的一种人工智能云诊断终端平台数据管理方法，其特征在于，所述得到匹配结果的方法是：

7.根据权利要求1所述的一种人工智能云诊断终端平台数据管理方法，其特征在于，所述每个聚簇对应的回溯价值的具体表达式为：

8.一种人工智能云诊断终端平台数据管理系统，包括：

聚类模块：用于以目标中心点为圆心绘制同心圆，根据每个圆的半径、每个圆内目标数据的个数：每个圆内目标数据的方差得到DBSCAN聚类算法的局部可达范围，根据DBSCAN聚类算法的局部可达范围对三维空间中的所有数据进行聚类得到多个聚簇；