CN106056154A - 故障码识别和分类的方法 - Google Patents

故障码识别和分类的方法 Download PDF

Info

Publication number
CN106056154A
CN106056154A CN201610365727.9A CN201610365727A CN106056154A CN 106056154 A CN106056154 A CN 106056154A CN 201610365727 A CN201610365727 A CN 201610365727A CN 106056154 A CN106056154 A CN 106056154A
Authority
CN
China
Prior art keywords
dtc
classification
identification
word
idf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610365727.9A
Other languages
English (en)
Inventor
田雨农
张辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Roiland Technology Co Ltd
Original Assignee
Dalian Roiland Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Roiland Technology Co Ltd filed Critical Dalian Roiland Technology Co Ltd
Priority to CN201610365727.9A priority Critical patent/CN106056154A/zh
Publication of CN106056154A publication Critical patent/CN106056154A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

故障码识别和分类的方法,包括:首先利用训练数据集构建朴素贝叶斯分类器:对训练集中的故障码进行人工分类;将每个类别中的故障码进行分词并计算每个词的TF‑IDF权重值;根据TF‑IDF权重值筛选出特征词并建立特征词库;分别计算每个类别中特征词在该类别条件下的条件概率;构建朴素贝叶斯分类器。本发明准确地自动分类不同车型的故障码,将数以亿级的故障码进行收敛,实现不同车厂车型间故障问题、解决方案的探索。

Description

故障码识别和分类的方法
技术领域
本发明属于车辆故障码领域,具体说是一种基于朴素贝叶斯和余弦相似度的故障码分类方法。
背景技术
关于故障码的编码方式主要有两类:(1)共有协议故障码,其中OBD码的显著特征是由一个大写字母和4位数字组成;(2)私有协议故障码,一般由生产厂商定义的故障码和故障描述组成;对于OBD故障码,即使不同车厂车型的故障描述的表达方式不同,但也可以通过OBD码来判断某个故障码分属哪一类。
然而,当遇到私有协议故障码时,最大的困难是:不同车型间的故障码描述出现差异时,该如何判断它们的一致性,即故障描述的是相同内容,以及判断私有协议与共有协议故障码之间的一致性问题。目前,解决此类问题的主要手段是人工地逐条判断。它的优点是判断准确。缺点是造成大量的人力和财力的浪费,并且耗时长。因此,亟需一种基于文本挖掘和语义理解的故障识别与分类模型,用于故障的一致性判断。
发明内容
针对现有技术存在的上述问题,本发明提出了一种故障码识别和分类的方法,采用朴素贝叶斯分类器和文本余弦相似度等技术,能自动地判断某故障码是否可识别并进行准确的分类。
一方面,本发明提供了故障码识别和分类的方法,包括:
首先利用训练数据集构建朴素贝叶斯分类器;
然后对新故障码进行具体分类。
具体的,构建朴素贝叶斯分类器的步骤为:
S1:对训练集中的故障码进行人工分类;
S2:将每个类别中的故障码进行分词并计算每个词的TF-IDF权重值;
S3:根据TF-IDF权重值筛选出特征词并建立特征词库;
S4:分别计算每个类别中特征词在该类别条件下的条件概率;
S5:构建朴素贝叶斯分类器。
具体的,步骤S2中的TFi为特征词i的词频;wi为特征词i在所有故障码中出现的次数,∑jwj表示故障码中所有特征词的出现次数总和。
具体的,步骤S2中的IDFi为特征词i的逆向文件频率;E为语料库中故障码的总数,{k:wi∈ek}表示包含特征词i的故障码数。
具体的,步骤S2中的TF-IDF权重值为:
TF-IDF=TF×IDF
TF-IDF权重值是词频与逆向文件频率的乘积。
具体的,步骤S1故障码进行人工分类后的类别集为c:
c={c1,c2,…,ci,…,cn}。
具体的,将故障码e定义成若干个特征词的集合:
e={w1,w2,…,wn}。
具体的,依据贝叶斯定理计算出某个故障码e属于ci类故障的概率,具体公式如下:
P(ci|e)∝P(e|ci)P(ci)
其中,P(ci)为一个故障码类别ci在故障码空间所占比率;P(e|ci)为对于给定的故障码类别ci中故障码e的出现概率;计算某个故障码在每个分类中概率,取拥有最大概率值的类别为该故障码的分类结果,具体为:
G(e)≡argmax{P(e|ci)P(ci)}。
更具体的,对新故障码进行具体分类,设在类别i中的故障码为ei,同时还有个待匹配的故障码enew
步骤1:由这两组的特征词集合构成一个向量空间:
步骤2:结合向量空间,分别得到两个故障码的词向量值:
步骤3:利用余弦相似度计算两个故障码近似情况;
步骤4:如果所计算的相似度值大于阈值,则可以判断这两个故障码是相同的;如果所计算的相似度值小于阈值,则继续与已知故障码库中的其他类别故障码进行余弦相似度计算。
更具体的,步骤S3中判断两个故障码近似情况,具体公式如下:
S = e i e n e w | | e i | | · | | e n e w | | .
本发明由于采用以上技术方法,能够取得如下的技术效果:准确地自动分类不同车型的故障码,将数以亿级的故障码进行收敛,实现不同车厂车型间故障问题、解决方案的探索。能节省大量的劳动力,缩短工作周期,降低成本。
附图说明
为了更清楚的说明本发明的实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为构建朴素贝叶斯分类器方法流程图;
图2为对新故障码进行具体分类流程图。
具体实施方式
为使本发明的实施例的目的、技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
实施例1
故障码识别和分类的方法,包括:
首先利用训练数据集构建朴素贝叶斯分类器,具体步骤为:
S1:对训练集中的故障码进行人工分类,人工分类后的类别集为c:
c={c1,c2,…,ci,…,cn};
S2:将每个类别中的故障码进行分词并计算每个词的TF-IDF权重值;
TF i = w i Σ j w j
TFi为特征词i的词频;wi为特征词i在所有故障码中出现的次数,∑jwj表示故障码中所有特征词的出现次数总和;
IDF i = l n ( E 1 + { k : w i ∈ e k } )
IDFi为特征词i的逆向文件频率;E为语料库中故障码的总数,{k:wi∈ek}表示包含特征词i的故障码数;
TF-IDF权重值为:TF-IDF=TF×IDF,也就是是词频与逆向文件频率的乘积;
S3:根据TF-IDF权重值筛选出特征词并建立特征词库,将故障码e定义成若干个特征词的集合:
e={w1,w2,…,wn}
S4:分别计算每个类别中特征词在该类别条件下的条件概率,依据贝叶斯定理计算出某个故障码e属于ci类故障的概率,具体公式如下:
P(ci|e)=[P(e|ci)P(ci)]/P(e)
其中,P(e)为从故障码空间中随机抽取一个故障码e的概率;P(ci)为一个故障码类别ci在故障码空间所占比率;P(e|ci)为对于给定的故障码类别ci中故障码e的出现概率;
对于每个故障码类别而言,从故障码空间中随机抽取一个故障码的概率都是一样的,因此P(e)可以忽略不予计算,这样公式(1)就可以写成如下形式:
P(ci|e)∝P(e|ci)P(ci)
计算某个故障码在每个分类中概率,取拥有最大概率值的类别为该故障码的分类结果,具体为:
G(e)≡argmax{P(e|ci)P(ci)}。
S5:构建朴素贝叶斯分类器。
然后对新故障码进行具体分类,具体为:
更具体的,对新故障码进行具体分类,设在类别i中的故障码为ei,同时还有个待匹配的故障码enew,它们的分词情况如下:
ei={w1,w2,w3,w4}
enew={w2,w3,w5}
步骤1:由这两组的特征词集合构成一个向量空间:
W = w 1 w 2 w 3 w 4 w 5
步骤2:结合向量空间,分别得到两个故障码的词向量值:
e i = 1 1 1 1 0
e n e w = 0 1 1 0 1
步骤3:利用余弦相似度计算两个故障码近似情况,具体公式如下:
S = e i e n e w | | e i | | · | | e n e w | |
步骤4:如果所计算的相似度值大于80%,则可以判断这两个故障码是相同的;如果所计算的相似度值小于阈值,则继续与已知故障码库中的其他类别故障码进行余弦相似度计算。
本发明能准确地自动分类不同车型的故障码,给出恰当的相应解决方案。因此,可以节省大量的劳动力,缩短工作周期,降低成本。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.故障码识别和分类的方法,其特征在于,包括:
首先利用训练数据集构建朴素贝叶斯分类器;
然后对新故障码进行具体分类。
2.根据权利要求1所述的故障码识别和分类的方法,其特征在于,构建朴素贝叶斯分类器的步骤为:
S1:对训练集中的故障码进行人工分类;
S2:将每个类别中的故障码进行分词并计算每个词的TF-IDF权重值;
S3:根据TF-IDF权重值筛选出特征词并建立特征词库;
S4:分别计算每个类别中特征词在该类别条件下的条件概率;
S5:构建朴素贝叶斯分类器。
3.根据权利要求2所述的故障码识别和分类的方法,其特征在于,步骤S2中的TFi为特征词i的词频;wi为特征词i在所有故障码中出现的次数,∑jwj表示故障码中所有特征词的出现次数总和。
4.根据权利要求2所述的故障码识别和分类的方法,其特征在于,步骤S2中的IDFi为特征词i的逆向文件频率;E为语料库中故障码的总数,{k:wi∈ek}表示包含特征词i的故障码数。
5.根据权利要求3或4所述的故障码识别和分类的方法,其特征在于,步骤S2中的TF-IDF权重值为:
TF-IDF=TF×IDF
TF-IDF权重值是词频与逆向文件频率的乘积。
6.根据权利要求1所述的故障码识别和分类的方法,其特征在于,步骤S1故障码进行人工分类后的类别集为c:
c={c1,c2,…,ci,…,cn}。
7.根据权利要求1所述的故障码识别和分类的方法,其特征在于,将故障码e定义成若干个特征词的集合:
e={W1,W2,…,Wn}。
8.根据权利要求1所述的故障码识别和分类的方法,其特征在于,依据贝叶斯定理计算出某个故障码e属于ci类故障的概率,具体公式如下:
P(ci|e)∝P(e|ci)P(ci)
其中,P(ci)为一个故障码类别ci在故障码空间所占比率;P(e|ci)为对于给定的故障码类别ci中故障码e的出现概率;计算某个故障码在每个分类中概率,取拥有最大概率值的类别为该故障码的分类结果,具体为:
G(e)≡argmax{P(e|ci)P(ci)}。
9.根据权利要求1所述的故障码识别和分类的方法,其特征在于,对新故障码进行具体分类,设在类别i中的故障码为ei,同时还有个待匹配的故障码enew
步骤1:由这两组的特征词集合构成一个向量空间:
步骤2:结合向量空间,分别得到两个故障码的词向量值:
步骤3:利用余弦相似度计算两个故障码近似情况;
步骤4:如果所计算的相似度值大于阈值,则可以判断这两个故障码是相同的;如果所计算的相似度值小于阈值,则继续与已知故障码库中的其他类别故障码进行余弦相似度计算。
10.根据权利要求1所述的故障码识别和分类的方法,其特征在于,步骤S3中判断两个故障码近似情况,具体公式如下:
S = e i e n e w | | e i | | · | | e n e w | | .
CN201610365727.9A 2016-05-27 2016-05-27 故障码识别和分类的方法 Pending CN106056154A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610365727.9A CN106056154A (zh) 2016-05-27 2016-05-27 故障码识别和分类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610365727.9A CN106056154A (zh) 2016-05-27 2016-05-27 故障码识别和分类的方法

Publications (1)

Publication Number Publication Date
CN106056154A true CN106056154A (zh) 2016-10-26

Family

ID=57175001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610365727.9A Pending CN106056154A (zh) 2016-05-27 2016-05-27 故障码识别和分类的方法

Country Status (1)

Country Link
CN (1) CN106056154A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106067037A (zh) * 2016-05-27 2016-11-02 大连楼兰科技股份有限公司 故障码识别和分类平台
CN107729917A (zh) * 2017-09-14 2018-02-23 北京奇艺世纪科技有限公司 一种标题的分类方法及装置
CN108388601A (zh) * 2018-02-02 2018-08-10 腾讯科技(深圳)有限公司 故障的分类方法、存储介质及计算机设备
CN108956111A (zh) * 2018-06-11 2018-12-07 北京天泽智云科技有限公司 一种机械部件的异常状态检测方法及检测系统
CN108985465A (zh) * 2018-05-21 2018-12-11 许继电气股份有限公司 一种换流站故障分类方法及系统
CN117556829A (zh) * 2024-01-11 2024-02-13 中汽信息科技(天津)有限公司 一种车辆故障码的比对方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902570A (zh) * 2012-12-27 2014-07-02 腾讯科技(深圳)有限公司 一种文本分类特征提取方法、分类方法及装置
CN103942191A (zh) * 2014-04-25 2014-07-23 中国科学院自动化研究所 一种基于内容的恐怖文本识别方法
CN104111931A (zh) * 2013-04-17 2014-10-22 中国科学院声学研究所 一种协议自动识别方法及其所用分类器的构造方法
CN104850537A (zh) * 2014-02-17 2015-08-19 腾讯科技(深圳)有限公司 对文本内容进行筛选的方法及装置
CN105335352A (zh) * 2015-11-30 2016-02-17 武汉大学 基于微博情感的实体识别方法
CN105389307A (zh) * 2015-12-02 2016-03-09 上海智臻智能网络科技股份有限公司 语句意图类别识别方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902570A (zh) * 2012-12-27 2014-07-02 腾讯科技(深圳)有限公司 一种文本分类特征提取方法、分类方法及装置
CN104111931A (zh) * 2013-04-17 2014-10-22 中国科学院声学研究所 一种协议自动识别方法及其所用分类器的构造方法
CN104850537A (zh) * 2014-02-17 2015-08-19 腾讯科技(深圳)有限公司 对文本内容进行筛选的方法及装置
CN103942191A (zh) * 2014-04-25 2014-07-23 中国科学院自动化研究所 一种基于内容的恐怖文本识别方法
CN105335352A (zh) * 2015-11-30 2016-02-17 武汉大学 基于微博情感的实体识别方法
CN105389307A (zh) * 2015-12-02 2016-03-09 上海智臻智能网络科技股份有限公司 语句意图类别识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐胜国: ""基于加速近端梯度法和文本语义的垃圾评论信息分类方法"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
艾丽丽: ""基于文本挖掘的视频资源分类研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106067037A (zh) * 2016-05-27 2016-11-02 大连楼兰科技股份有限公司 故障码识别和分类平台
CN107729917A (zh) * 2017-09-14 2018-02-23 北京奇艺世纪科技有限公司 一种标题的分类方法及装置
CN108388601A (zh) * 2018-02-02 2018-08-10 腾讯科技(深圳)有限公司 故障的分类方法、存储介质及计算机设备
CN108985465A (zh) * 2018-05-21 2018-12-11 许继电气股份有限公司 一种换流站故障分类方法及系统
CN108956111A (zh) * 2018-06-11 2018-12-07 北京天泽智云科技有限公司 一种机械部件的异常状态检测方法及检测系统
CN117556829A (zh) * 2024-01-11 2024-02-13 中汽信息科技(天津)有限公司 一种车辆故障码的比对方法、装置、设备及存储介质
CN117556829B (zh) * 2024-01-11 2024-04-09 中汽信息科技(天津)有限公司 一种车辆故障码的比对方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN106056154A (zh) 故障码识别和分类的方法
CN110084151B (zh) 基于非局部网络深度学习的视频异常行为判别方法
US10387784B2 (en) Technical and semantic signal processing in large, unstructured data fields
CN103324628B (zh) 一种针对发布文本的行业分类方法和系统
CN104392071B (zh) 一种基于复杂网络的高速列车系统安全评估方法
CN102289522B (zh) 一种对于文本智能分类的方法
CN108536801A (zh) 一种基于深度学习的民航微博安保舆情情感分析方法
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN111079430A (zh) 一种组合深度学习和概念图谱的电力故障事件抽取方法
Liliana et al. Indonesian news classification using support vector machine
Hossny et al. Event detection in twitter: A keyword volume approach
CN110851176B (zh) 一种自动构造并利用伪克隆语料的克隆代码检测方法
CN103942191A (zh) 一种基于内容的恐怖文本识别方法
CN104239512A (zh) 一种文本推荐方法
CN109240258A (zh) 基于词向量的汽车故障智能辅助诊断方法和系统
CN111597331A (zh) 一种基于贝叶斯网络的裁判文书分类方法
CN106067037A (zh) 故障码识别和分类平台
CN105224955A (zh) 基于微博大数据获取网络服务状态的方法
CN103136540A (zh) 一种基于隐结构推理的行为识别方法
CN111177010B (zh) 一种软件缺陷严重程度识别方法
CN109033351A (zh) 案情数据的归并方法及装置
CN111260490A (zh) 基于树模型的车险快速理赔方法和系统
CN105337842B (zh) 一种与内容无关的垃圾邮件过滤方法
CN103699568B (zh) 一种从维基中抽取领域术语间上下位关系的方法
Han et al. Multi-spatial scale event detection from geo-tagged tweet streams via power-law verification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161026

RJ01 Rejection of invention patent application after publication