CN115455956A

CN115455956A - 基于用户投诉的汽车故障发现方法、系统、设备及介质

Info

Publication number: CN115455956A
Application number: CN202211026058.4A
Authority: CN
Inventors: 王力欧; 付全文; 陈建荣
Original assignee: Wuhan Yunshang Financial Media Technology Co ltd
Current assignee: Wuhan Yunshang Financial Media Technology Co ltd
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2022-12-09

Abstract

本发明提出了一种基于用户投诉的汽车故障发现方法、系统、设备及介质，通过获取汽车厂商信息、汽车名称信息、车型信息、汽车的各种故障描述文本信息以及关于用户对于各种质量汽车的投诉文本信息，对这些文本信息进行文本预处理，获取汽车故障和用户投诉的关键分词，使用LDA主题模型，对关键分词进行分类；基于GBDT对用户投诉关键分词以及对应的汽车故障关键分词进行计算，根据计算结果建立用户投诉数据的汽车辅助诊断自学习模型；通过汽车辅助诊断自学习模型，对待诊断汽车质量投诉进行故障诊断。本发明实现了在线即时准确地根据车辆状况描述信息进行汽车故障诊断。

Description

基于用户投诉的汽车故障发现方法、系统、设备及介质

技术领域

本发明涉及故障发现技术领域，尤其涉及一种基于用户投诉的汽车故障发现方法、系统、设备及存储介质。

背景技术

随着汽车工业的快速发展，汽车已进入普通百姓家庭，汽车售后服务问题日益突出。远程诊断、远程维修和自诊断等智能服务技术，是提供快捷的高质量服务的重要途径，也是为汽车服务业电子化系统提供技术支持的重要措施。汽车在使用过程中，难免要发生故障。对于经验丰富的老驾驶员来说，通常能“一步到位”找到问题所在；而大多数人面对故障常会束手无策。针对汽车行业和汽车用户，如车辆在外行驶过程中突然发生故障和车辆异常报警，迫切需要一种智能化的工具，能辅助驾驶人员诊断车辆故障，以便野外自救或就近联系远程服务。

因此，当前还没有一个普遍适用的方法，能够解决难以实现在线即时准确地根据车辆状况描述信息进行汽车故障诊断的问题。

发明内容

有鉴于此，本发明提出了一种基于用户投诉的汽车故障发现方法，用于解决难以实现在线即时准确地根据车辆状况描述信息进行汽车故障诊断的问题。

本发明的技术方案是这样实现的：

本发明第一方面，公开一种基于用户投诉的汽车故障发现方法，所述方法包括：

S1，获取汽车厂商信息、汽车名称信息、车型信息、汽车的各种故障描述文本信息以及关于用户对于各种质量汽车的投诉文本信息，并存入语料库；继续执行步骤S2；

S2，对所述故障描述文本信息和投诉文本信息进行文本预处理，获取汽车故障关键分词和用户投诉关键分词，建立用户投诉关键分词以及对应的汽车故障关键分词集合；继续执行步骤S3；

S3，使用LDA主题模型，按照常见汽车的十五大系统、所属部件的结构系统以及常见故障的特征信息分词，对关于汽车的所述用户投诉关键分词以及对应的汽车故障关键分词进行分类；继续执行步骤S4；

S4，基于GBDT对用户投诉关键分词以及对应的汽车故障关键分词进行计算，根据计算结果建立用户投诉数据的汽车辅助诊断自学习模型；继续执行步骤S5；

S5，输入车辆的状况描述信息到所述汽车辅助诊断自学习模型，对待诊断汽车质量投诉进行故障诊断。

本发明通过上述方法，通过对汽车的各种用户质量投诉的关键分词以及对应的汽车故障关键分词进行计算，根据计算结果建立用户质量投诉数据的汽车故障诊断自学习模型，根据所述诊断模型对待诊断质量投诉进行诊断，发现汽车故障以及原因，以便采取措施进行维修保养。

在以上技术方案的基础上，优选的，步骤S2执行之后，还进行如下操作：

去除重复的关键分词后将所有关键分词构建成一个词条列表；

对于每一个文本信息，使用词袋模型构建一个向量，向量的维度与词条列表的维度相同，所述向量的值为所述词条列表中每个词条在该文本中出现的次数；

将词袋向量转换为TF-IDF权值向量。

在以上技术方案的基础上，优选的，将词袋向量转换为TF-IDF权值向量，具体包括：

计算每个关键分词的特征权重：

W(t,d)表示关键分词t在文本信息d中的权重，tf(t,d)表示关键分词t在文本信息d中的词频，N为语料库中文本信息d的总数，n_t为语料库中包含关键分词t的文本信息数，W(w_k,c_i)表示词语w_k关于类别c_i的类别权重，w_k表示第k个词，c_i表示第i类文本信息；根据关键分词的特征权重得到该关键分词的TF-IDF权值向量。

本发明通过上述方法，将词袋向量转换为TF-IDF权值向量，更有利于判断两个文本的相似性。

在以上技术方案的基础上，优选的，步骤S3具体包括：

使用主题模型LDA对所述关于汽车的用户投诉关键分词以及对应的汽车故障关键分词进行建模分析，根据困惑度和一致性指标对主题个数K进行超参数调优，选取最佳的主题个数K；

利用训练好的LDA模型获取文档信息的主题分布矩阵和主题的单词分布矩阵，将所述用户投诉关键分词以及对应的汽车故障关键分词根据汽车系统和部件进行分类，将分类结果作为训练样本，建立多层次、多维度训练集；所述主题分布矩阵为N*K，N表示文档个数，K表示主题个数，每一行对应一篇文档的主题分布；所述主题的单词分布矩阵为|V|*K，|V|表示词汇表大小，K表示主题个数，每一列对应一个主题的单词分布。

本发明通过上述方法，根据用户投诉关键分词以及对应的汽车故障关键分词对汽车故障进行分类判断，得到多层次、多维度训练集，用于后续汽车辅助诊断自学习模型的训练

在以上技术方案的基础上，优选的，步骤S4具体包括：

S4-1，初始化弱学习器：

其中x为输入向量即关键分词；y为输出变量即关键分词对应的故障类型；给定由x和y组成n个训练样本(x₁,y₁),(x₂,y₂),…(x_n,y_n),；γ为梯度下降步长；L(y_i,γ)为损失函数，L(y_i,γ)＝|y_i-γ|；arg minγ表示其后面式子

达到最小值时变量yi和γ的取值，i＝1,2,…,n；

S4-2，对迭代轮数m＝1,2,…,M，对每个样本i＝1,2,…,n，计算残差r_im：

将得到的残差作为样本新的真实值，并将数据(x_i,r_im)，i＝1,2,…,n，作为下棵树的训练数据，得到一颗新的回归树f_m(x)，其对应的叶子节点区域为R_jm；j＝1,2,…,J；J为回归树f_m(x)的叶子节点的个数；对叶子区域j＝1,2,…,J计算最佳拟合值：

S4-3，根据步骤S4-1和S4-2更新强学习器：

其中I取值为1或者-1，表示是否落在对应的叶子节点上，是则取1，否则取-1；

S4-4，得到迭代轮数为M的强学习器为：

通过GBDT算法实现多次迭代，完成梯度提升决策树叶子节点即关键分词的分类，完成汽车辅助诊断自学习模型的建立。

在以上技术方案的基础上，优选的，步骤S4执行完后，还进行如下操作：

采用所述训练集对所述汽车辅助诊断自学习模型进行训练。

本发明通过上述方法，建立汽车辅助诊断自学习模型并对其进行训练，凭借该模型可以实现在线即时准确地根据车辆状况描述信息进行汽车故障诊断。

在以上技术方案的基础上，优选的，步骤S5具体包括：

首先将所述车辆的状况描述信息进行包括分词、去除停用词、筛选重复词的预处理，然后输入到所述汽车辅助诊断自学习模型，通过对其进行分类确定该待诊断车辆的故障类型，完成故障诊断。

本发明第二方面，公开一种基于用户投诉的汽车故障发现系统，所述系统包括：

数据获取单元：用于获取汽车厂商信息、汽车名称信息、车型信息、汽车的各种故障描述文本信息以及关于用户对于各种质量汽车的投诉文本信息，并存入语料库；

数据处理单元：用于对所述故障描述文本信息和投诉文本信息进行文本预处理，获取汽车故障关键分词和用户投诉关键分词，建立用户投诉关键分词以及对应的汽车故障关键分词集合；

数据分类单元：用于使用LDA主题模型，按照常见汽车的十五大系统、所属部件的结构系统以及常见故障的特征信息分词，对关于汽车的所述用户投诉关键分词以及对应的汽车故障关键分词进行分类；

模型构建单元：用于基于GBDT对用户投诉关键分词以及对应的汽车故障关键分词进行计算，根据计算结果建立用户投诉数据的汽车辅助诊断自学习模型；

辅助诊断单元：用于通过汽车辅助诊断自学习模型根据车辆的状况描述信息对待诊断汽车质量投诉进行故障诊断。

本发明第三方面，公开一种电子设备，所述设备包括：至少一个处理器、至少一个存储器、通信接口和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述存储器存储有可被所述处理器执行的一种基于用户投诉的汽车故障发现方法程序，一种基于用户投诉的汽车故障发现方法程序配置为实现如本发明第一方面所述的一种基于用户投诉的汽车故障发现方法。

本发明第四方面，公开一种计算机可读存储介质，所述存储介质上存储有一种基于用户投诉的汽车故障发现方法程序，所述一种基于用户投诉的汽车故障发现方法程序被执行时实现如本发明第一方面所述的一种基于用户投诉的汽车故障发现方法。

本发明的一种基于用户投诉的汽车故障发现方法相对于现有技术具有以下有益效果：

(1)通过对汽车的各种用户质量投诉的关键分词以及对应的汽车故障关键分词进行计算，根据计算结果建立用户质量投诉数据的汽车故障诊断自学习模型，根据所述诊断模型对待诊断质量投诉进行诊断，发现汽车故障以及原因，以便采取措施进行维修保养；

(2)使用LDA主题模型，按照常见汽车的十五大系统、所属部件的结构系统以及常见故障的特征信息分词，对所述关于汽车的用户投诉关键分词以及对应的汽车故障关键分词进行分类，实现对汽车故障的精准划分，便于后续精确实现汽车故障诊断。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于用户投诉的汽车故障发现方法工作流程图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

实施例

本发明一种基于用户投诉的汽车故障发现方法工作流程见图1，处理步骤说明如下：

第一步，获取汽车厂商信息、汽车名称信息、车型信息、汽车的各种故障描述文本信息以及关于用户对于各种质量汽车的投诉文本信息，并存入语料库；转第二步。

例如，投诉文本：涡轮增压器漏油；跑水泥路底盘咕咕异响；底盘下发出吱吱响；冷启动刹车有吱啦异响声；车辆长途行驶、汽车水温过高，开锅了；车辆长途行驶，水温过高、发动机动力消失或是转出剧烈的爆震、敲缸等声音；车辆长途行驶，刹车警告灯亮，并报警；长途行驶，刹车失灵；车辆长途行驶，车辆意外起火；汽车坡路停车时，有时“P”档位置变速不能搬动；汽车前照明灯内起雾气等等。

第二步，对所述故障描述文本信息和投诉文本信息进行文本预处理，获取汽车故障关键分词和用户投诉关键分词，建立用户投诉关键分词以及对应的汽车故障关键分词集合；转第三步。

应当理解的是，在上述方案的基础上，文本信息被切分成分词后，需要进一步转换成向量，因此去除重复的关键分词后将所有关键分词构建成一个词条列表；对于每一个文本信息，使用词袋模型构建一个向量，向量的维度与词条列表的维度相同，所述向量的值为所述词条列表中每个词条在该文本中出现的次数；将词袋向量转换为TF-IDF权值向量。

应当理解的是，在上述方案的基础上，TF-IDF是一种统计方法，用来评估一个词条对于一个文件集中一份文件的重要程度；TF-IDF的主要思想是：如果某个词在一篇文章中出现的频率TF高，并且在其他文件中很少出现，则认为此词条具有很好的类别区分能力，适合用来分类；因此将词袋向量转换为TF-IDF权值向量，更有利于判断两个文本的相似性。将词袋向量转换为TF-IDF权值向量，具体包括：

计算每个关键分词的特征权重：

例如，汽车故障关键分词包括：1)、声音方面：空气噪声(风噪)，共振噪声，路面噪声(胎噪)，运转噪音，机械声(敲击声)，吹嘘声，爆发声，震动声，摩擦声等；2)、气味方面：焦味、臭味，烟味，汽油味，尾气味，刺激性气味等；3)、烟雾方面：冒白烟，冒黑烟，冒蓝烟，起雾等；4)、渗漏方面：油渍污渍，漏液(漏油)，滴水，含水，含油，漏气等；5)、震动方面：抖动，震动，共振等；6)、损耗方面：磨损异常，油耗高，机油消耗量大，液不足，机油报警等：7)、动力异常方面：电力不足，启动异常，飞车，怠速不稳，动力不足，发动机报警等；8)、方向异常方面：转向沉，转向轻，转向不定，摇晃，振摆，跑偏等；9)、变速异常方面：起步，停车，松离合，踩离合，离合异常，踩油门，松油门，冲车，挂挡，跳挡，制动异常(踩刹车)，加速异常(不稳，提速不畅，无法提速)等；10)、温度异常方面：冷却液不足，开锅，水温表报警，排气温度过高，轴承过热等：11)、压力异常(比较专业)方面：如机油压力过高或过低，气缸内压缩力低，柴油机爆发压力低等；12)、附件故障方面：不收回，打不开，转不动，刮不净等；

第三步，使用LDA主题模型，按照常见汽车的十五大系统、所属部件的结构系统以及常见故障的特征信息分词，对关于汽车的所述用户投诉关键分词以及对应的汽车故障关键分词进行分类；转第四步。

一般来说，汽车系统包含了发动机系统、冷却系统、悬挂系统、转向系统、变速箱系统、空调系统、燃油系统、驱动系统、制动系统、电气系统、分动箱系统、润滑系统、安全系统以及电控系统等15大系统。每个系统又是由很多部件组成的。比如，发动机系统就是由气缸体、缸体、曲轴、曲轴皮带轮、曲轴链轮、活塞、活塞环、活塞销、轴承、轴瓦、轴瓦盖、连杠、平衡轴跟平衡轴轴承、凸轮轴、凸轮轴瓦盖、摇臂总成、气门挺杆、气门、气门弹簧、气门锁片、气门导管、正时齿轮、正时链条涨紧器、正时皮带涨紧器、惰轮以及时规盖组成的。

应当理解的是，在上述方案的基础上，使用主题模型LDA对所述关于汽车的用户投诉关键分词以及对应的汽车故障关键分词进行建模分析，根据困惑度和一致性指标对主题个数K进行超参数调优，选取最佳的主题个数K；

若假设K＝4，则文档i的主题分布为一个多项分布θi＝(0.9,0.025,0.035,0.04)^T(θ_i∈R^K)，每个主题k的单词分布为一个多项分布

第四步，基于GBDT对用户投诉关键分词以及对应的汽车故障关键分词进行计算，根据计算结果建立用户投诉数据的汽车辅助诊断自学习模型；转第五步。

应当理解的是，在上述方案的基础上，GBDT算法又叫MART，是一种迭代的决策树算法。第四步步骤具体包括：

S4-1，初始化弱学习器：

其中x为输入向量即关键分词；y为输出变量即关键分词对应的故障类型；给定由x和y组成n个训练样本(x₁,y₁),(x₂,y₂),…(x_n,y_n),；γ为梯度下降步长；L(y_i,γ)为损失函数，L(y_i,γ)＝|y_i-γ|；arg min_γ表示其后面式子

达到最小值时变量y_i和γ的取值，i＝1,2,…,n；

S4-3，根据步骤S4-1和S4-2更新强学习器：

S4-4，得到迭代轮数为M的强学习器为：

通过GBDT算法实现多次迭代，完成梯度提升决策树叶子节点即关键分词的分类，完成汽车辅助诊断自学习模型的建立。GBDT中的决策树是回归树，预测结果是一个数值，累加所有树的结果作为最终值，不用关心表征信息或者数据值之间的相互关系，每一颗树学习的是之前所有树的结论和残差。

应当理解的是，在上述方案的基础上，步骤S4执行完后，还进行如下操作：

采用所述训练集对所述汽车辅助诊断自学习模型进行训练。

第五步输入车辆的状况描述信息到所述汽车辅助诊断自学习模型，对待诊断汽车质量投诉进行故障诊断。

应当理解的是，在上述方案的基础上，首先将所述车辆的状况描述信息进行包括分词、去除停用词、筛选重复词的预处理，然后输入到所述汽车辅助诊断自学习模型，通过对其进行分类确定该待诊断车辆的故障类型，完成故障诊断。

比如，车辆长途行驶、轮胎漏气、高速状态，有可能爆胎；车身异响一般是因为车身刚度不够，长期的激烈驾驶或者说颠簸路段走了很多，会导致车身钢架发生轻微变形；最为直接的影响就是车门与车况产生不正常的撞击或者摩擦，或者一些焊接或螺丝部位有不正常摩擦，也可能造成异响；而一些车的风噪声较大，在一定程度上这和汽车的造型有关。还有一些车的车身部件之间固定不好也可能造成异响，一般紧上螺丝就能解决；车辆行走不平路面或是通过减速隔离带时有“咯吱”的响声，一般为悬架结构橡胶件的变形所致；车辆长途行驶、车灯不亮、转向灯失灵，考虑是灯泡烧坏或者电路出了故障；车辆长途行驶、车辆意外起火，可能是电器绝缘损坏短路等所致。

本发明还公开一种基于用户投诉的汽车故障发现系统，所述系统包括：

本发明还公开一种电子设备，所述设备包括：至少一个处理器、至少一个存储器、通信接口和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述存储器存储有可被所述处理器执行的一种基于用户投诉的汽车故障发现方法程序，一种基于用户投诉的汽车故障发现方法程序配置为实现如本发明实施例所述的一种基于用户投诉的汽车故障发现方法。

本发明还公开一种计算机可读存储介质，所述存储介质上存储有一种基于用户投诉的汽车故障发现方法程序，所述一种基于用户投诉的汽车故障发现方法程序被执行时实现如本发明实施例所述的一种基于用户投诉的汽车故障发现方法。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于用户投诉的汽车故障发现方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于用户投诉的汽车故障发现方法，其特征在于，所述步骤S2执行之后，还进行如下操作：

将词袋向量转换为TF-IDF权值向量。

3.如权利要求2所述的一种基于用户投诉的汽车故障发现方法，其特征在于，所述将词袋向量转换为TF-IDF权值向量，具体包括：

计算每个关键分词的特征权重：

4.如权利要求2所述的一种基于用户投诉的汽车故障发现方法，其特征在于，所述步骤S3具体包括：

5.如权利要求4所述的一种基于用户投诉的汽车故障发现方法，其特征在于，所述步骤S4具体包括：

S4-1，初始化弱学习器：

其中x为输入向量即关键分词；y为输出变量即关键分词对应的故障类型；给定由x和y组成n个训练样本(x₁,y₁),(x₂,y₂),…(x_n,y_n),；γ为梯度下降步长；L(y_i,γ)为损失函数，L(y_i,γ)＝|y_i-γ|；argmin_γ表示其后面式子

达到最小值时变量y_i和γ的取值，i＝1,2,…,n；

S4-3，根据步骤S4-1和S4-2更新强学习器：

S4-4，得到迭代轮数为M的强学习器为：

6.如权利要求5所述的一种基于用户投诉的汽车故障发现方法，其特征在于，所述步骤S4执行完后，还进行如下操作：

采用所述训练集对所述汽车辅助诊断自学习模型进行训练。

7.如权利要求1所述的一种基于用户投诉的汽车故障发现方法，其特征在于，所述步骤S5具体包括：

8.一种基于用户投诉的汽车故障发现系统，其特征在于，所述系统包括：

9.一种电子设备，其特征在于，包括至少一个处理器、至少一个存储器、通信接口和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述存储器存储有可被所述处理器执行的一种基于用户投诉的汽车故障发现方法程序，一种基于用户投诉的汽车故障发现方法程序配置为实现如权利要求1至7任一项的一种基于用户投诉的汽车故障发现方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有一种基于用户投诉的汽车故障发现方法程序，所述一种基于用户投诉的汽车故障发现方法程序被执行时实现如权利要求1至7中任一项的一种基于用户投诉的汽车故障发现方法。