CN110610007A

CN110610007A - 基于nlp的维保车况智能识别方法及装置

Info

Publication number: CN110610007A
Application number: CN201910890998.XA
Authority: CN
Inventors: 钟建锋; 陈美兰
Original assignee: Guangzhou Panicle Saint Mdt Infotech Ltd
Current assignee: Guangzhou Panicle Saint Mdt Infotech Ltd
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2019-12-24

Abstract

本发明提供了一种基于NLP的维保车况智能识别方法及装置。所述方法包括：根据由结合评估师整理的专家规则以及程序利用相关技术共同形成的分词库，对维保内容进行分词处理；对分词处理的结果进行语序判断；根据专业评估师整理得出的部件规则库，对语序判断的结果进行匹配，识别是否出现故障，以及出现的故障类型。本发明提供的基于NLP的维保车况智能识别方法及装置能够保证在维保过程中保证故障类型被准确的识别。

Description

基于NLP的维保车况智能识别方法及装置

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种基于NLP的维保车况智能识别方法及装置。

背景技术

目前，制约NLP发展的因素也构成了NLP的难点，这些主要难点有：

中文分词：汉语的博大精深，使得中文分词技术在实际应用中很难表现得如最初预期，同一个模型在英文文本中的表现上一般要比中文文本好。而作为NLP的其他技术领域的底层技术，分词结果不好的话，其他部分再怎么努力也都是无济于事。

词义消歧与二义性：有些句子，指代或者意义表述并不明确，需要通过上下文进行学习，如果文本本身带有歧义，则计算机是永远都无法处理的。

文本相似度计算：目前没有一种方法能够从理论证明哪种计算方法是比较准确的，依然属于经验阶段，主流使用的是余弦相似度，也有用欧式距离、曼哈顿距离、直接向量内积等等。

由于车辆维保记录是由专业的维修人员在4S店维修系统上录入的，存在很多专业的车辆相关术语描述外行人不一定能够分析出，那么就可能会需要专业人士进行解读，这时会出现的问题有：

信息不透明、个人不诚信的问题：由于利益牵扯的各方较多，有可能会造成专业人士不能公平公正解读的情况。

无法形成稳定可靠的分析结果：由于个人主观因素影响，不同人对维保内容的解读有可能不一定完全一致，结果也不存在客观性。

耗费精力和时间：在寻找专业人士解读的过程是比较费时的，同时人工解读的过程也是比较费时费力的。

发明内容

本发明要解决的技术问题是提供一种基于NLP的维保车况智能识别方法及装置，从而保证在维保过程中保证故障类型被准确的识别。

为解决上述技术问题，本发明提供了一种基于NLP的维保车况智能识别方法，所述方法包括：根据由结合评估师整理的专家规则以及程序利用相关技术共同形成的分词库，对维保内容进行分词处理；对分词处理的结果进行语序判断；根据专业评估师整理得出的部件规则库，对语序判断的结果进行匹配，识别是否出现故障，以及出现的故障类型。

在一些实施方式中，所述分词库中存储有：规则库关键词，以及剔除词。

在一些实施方式中，所述分词库中存储有：部件名词，以及维保动词。

在一些实施方式中，对分词处理的结果进行语序判断，包括：对分词库筛选后的关键词，按照顺序逐个寻找与其匹配的关键词；名词与动词两两组合，得到名词与动词组合的关键词组。

在一些实施方式中，还包括：对是否出现故障，以及故障类型的识别结果进行准确度统计分析；对统计分析结果进行处理，以扩充所述分词库。

在一些实施方式中，对统计分析结果进行处理，以扩充所述分词库，包括：对由于分词库数据不全而造成的漏识别数据进行关键词识别；将识别到的关键词添加至所述分词库。

在一些实施方式中，还包括：对是否出现故障，以及故障类型的识别结果进行准确度统计分析；对统计分析结果进行处理，以扩充所述规则库。

在一些实施方式中，对统计分析结果进行处理，以扩充所述规则库，包括：对因规则库数据不全而造成的漏识别数据进行规则识别；将识别得到的规则添加至所述规则库。

在一些实施方式中，对是否出现故障，以及故障类型的识别结果进行准确度统计分析，包括：对事故类型识别准确率的统计、对系统识别的原因分析，以及对关键部件识别准确率的统计。

此外，本发明还提供了一种基于NLP的维保车况智能识别装置，所述装置包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据前文所述的基于NLP的维保车况智能识别方法。

采用这样的设计后，本发明至少具有以下优点：

本发明的实现综合运用了NLP相关技术，包括中文自动分词、词性标注、句法分析等，逐步搭建维保的车况智能识别程序，替代了传统的人工解读维保内容的过程，避免了人为主观性对维保解读结果的影响以及减少人工分析耗费的时间精力。对比本发明的车况识别程序的识别结果与专业的车辆鉴定评估师的标记数据，目前程序的识别准确率是已经达到了95％左右，验证的数据量接近百万。

附图说明

上述仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，以下结合附图与具体实施方式对本发明作进一步的详细说明。

图1是本发明实施例提供的基于NLP的维保车况智能识别方法的流程图；

图2是本发明实施例提供的基于NLP的维保车况智能识别方法的流程图；

图3是本发明实施例提供的基于NLP的维保车况智能识别方法的流程图；

图4是本发明实施例提供的分词库存储数据的示意图；

图5是本发明实施例提供的通过机器学习扩充分词库的流程图；

图6是本发明实施例提供的分词库及规则库扩充的流程图；

图7是本发明实施例提供的基于NLP的维保车况智能识别装置的结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1示出了本发明实施例提供的基于NLP的维保车况智能识别方法的流程图。参见图1，维保识别是基于大量的维保数据不断优化的过程，前期通过大量维保内容整理总结出适用于程序判断车况事故类型的关键词规则库；采用自然语言处理技术进行文字识别和语义语序判断，在建立分词库的基础上，剔除非关键词，最后与规则库关键词进行匹配得到识别结果；针对识别结果进行人工标记，分析错误原因，同时积累样本数据；最终实现程序自动扩充规则库和分词库，实现智能化的目标。

对维保内的维修项目内容进行识别，采用分词的技术，分出名词和动词，再通过分词库的过滤得到部件词和维修动作，结合中文语序对其进行组合，最后将这些组合与规则库的规则进行字符串解析匹配，从而得出识别结果，如图2。

对维保内的使用材料进行识别，在识别之前需要对其进行添加动词处理，结合评估师的人工处理逻辑在部分使用材料前添加动词“更换”。识别逻辑跟维保项目内容识别一样，如图3。

分词技术采用的是第三方分词算法，在原来算法基础上加上了分号分隔句子，利用分号将维保报告的内容分隔出一句句话，在每句话中通过分词技术分出不同词性的词。

分词库，从词性分，由部件名词与动词组成；从业务分，是由规则库关键词和剔除词组成，如图4。目前由人工整理得出，之后可结合人工整理和程序自动添加。

分词技术得到的词语与分词库进行匹配筛选，可得到规则库关键词和剔除词(剔除词：规则库外的部件名词和维保动词)。

语序判断，在每个句子中，对分词库筛选后的关键词，按照顺序逐个寻找与其匹配的关键词(这里关键词指部件名词或维保动词)，名词与动词两两组合，得到名词与动词组合的关键词组。

规则库，主要由部件名词和维保动词组成，采用专家规则法由人工整理得出，之后可结合人工整理和程序自动添加。

经过语序判断环节，程序识别出了多个关键词组，再与规则库的名词动词组合进行匹配筛选，将与规则库不匹配的关键词组过滤掉，得到与规则库匹配的关键词组，按照事故类型由大到小进行判断，得到最终的识别结果。

机器学习系统依靠大量的标记数据，因此前期需要做数据积累。

目前机器学习的设计思路如图5所示，主要围绕扩充词库和优化识别程序。

将标记样本分两步使用：首先作为样本分析当前程序识别准确度；再将分析后的标记样本加入程序自学习，不断扩充规则库和分词库。分析程序的误判主要为一下两类：

1、对于程序识别有事故，而实际是无事故的情况

原因：分词库覆盖不全，程序过度识别关键词，把非关键词识别成关键词。

标记：人工标记出关键词本身的词语。

策略：标记的非关键词可直接扩充到分词库。

2、对于程序识别无事故，而实际是有事故的情况

原因：规则库覆盖不全，程序没有识别到关键词。

标记：人工标记出未识别到的关键词。

策略：将标记的关键词可直接扩充到规则库和分词库。

对上述两类误判的分析及数据库填充过程如图6所示。目前标记功能仅处于标记初级阶段，需要进一步确定标记数据达到一定准确率后方可直接使用。

准确度统计分析

对标记数据进行准确度统计分析是对整个识别系统的整体质量评估，是整个识别系统的工作评价的最终目标。

(1)统计数据

准确率：即程序识别的事故类型正确的数量占所有标记数据总数的比例，百分比表示。

包括有无事故类型的整体准确率和精准事故类型的准确率。

(2)系统识别错误原因分析

目前系统错误原因主要有：漏识别、分词库问题、规则库问题、识别难点。需要统计出各自所占比例和所在的数据。

①漏识别：规则库中已有的关键词，但是程序没有正常识别出。

②分词库问题：程序将非规则库中的关键词识别成规则库关键词，这些词包括规则库关键词相关部件词和其他部件词。

③规则库问题：规则库不全的问题，包括少了规则和关键词别名。

④识别难点：现阶段程序无法识别的句式，如无分号句式、冒号句式、多动词多名词句式等。

(3)关键部件识别统计

对于标记数据中出现的部件词，与程序识别结果进行频次统计对比，分析程序识别错误的原因和统计出重要部件。

图7示出了本发明风机与尾流投影面积叠加计算装置的结构图。参见图7，风机与尾流投影面积叠加计算装置包括：中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM703中，还存储有系统操作所需的各种程序和数据。CPU 701、ROM702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

本发明的实现综合运用了NLP相关技术，包括中文自动分词、词性标注、句法分析等，逐步搭建维保的车况智能识别程序，替代了传统的人工解读维保内容的过程，避免了人为主观性对维保解读结果的影响以及减少人工分析耗费的时间精力。

对比本发明的车况识别程序的识别结果与专业的车辆鉴定评估师的标记数据，目前程序的识别准确率是已经达到了95％左右，验证的数据量接近百万。

本发明已应用服务于二手车评估自动化估值系统，可省去车辆鉴定评估师阅读分析维保记录的过程，对于车况评级较低(无严重车况)可直接过滤不用查看，这部分数据占比可达30％(评估总量粗略估计是百万级别)，可每人每单节省约10分钟的时效；对于车况评级较高(车况有碰撞等)的会将维保内容中的对于车况判定的关键内容进行展示，并且给出具体的车况分析报告。

另外，本发明中涉及的专家规则的分词方法可使用频率统计的基于频率统计的分词法进行替代，对字与字之间相邻出现的频率进行统计进而判断是否成词，该方法相对更具有长效性，但是需要耗费更多的时间处理统计后大量的关键词，需要花费时间筛选关键词。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰，均落在本发明的保护范围内。

Claims

1.一种基于NLP的维保车况智能识别方法，其特征在于，包括：

根据由结合评估师整理的专家规则以及程序利用相关技术共同形成的分词库，对维保内容进行分词处理；

对分词处理的结果进行语序判断；

根据专业评估师整理得出的部件规则库，对语序判断的结果进行匹配，识别是否出现故障，以及出现的故障类型。

2.根据权利要求1所述的基于NLP的维保车况智能识别方法，其特征在于，所述分词库中存储有：规则库关键词，以及剔除词。

3.根据权利要求1所述的基于NLP的维保车况智能识别方法，其特征在于，所述分词库中存储有：部件名词，以及维保动词。

4.根据权利要求1所述的基于NLP的维保车况智能识别方法，其特征在于，对分词处理的结果进行语序判断，包括：

对分词库筛选后的关键词，按照顺序逐个寻找与其匹配的关键词；

名词与动词两两组合，得到名词与动词组合的关键词组。

5.根据权利要求1所述的基于NLP的维保车况智能识别方法，其特征在于，还包括：

对是否出现故障，以及故障类型的识别结果进行准确度统计分析；

对统计分析结果进行处理，以扩充所述分词库。

6.根据权利要求5所述的基于NLP的维保车况智能识别方法，其特征在于，对统计分析结果进行处理，以扩充所述分词库，包括：

对由于分词库数据不全而造成的漏识别数据进行关键词识别；

将识别到的关键词添加至所述分词库。

7.根据权利要求1所述的基于NLP的维保车况智能识别方法，其特征在于，还包括：

对统计分析结果进行处理，以扩充所述规则库。

8.根据权利要求7所述的基于NLP的维保车况智能识别方法，其特征在于，对统计分析结果进行处理，以扩充所述规则库，包括：

对因规则库数据不全而造成的漏识别数据进行规则识别；

将识别得到的规则添加至所述规则库。

9.根据权利要求5或7所述的基于NLP的维保车况智能识别方法，其特征在于，对是否出现故障，以及故障类型的识别结果进行准确度统计分析，包括：对事故类型识别准确率的统计、对系统识别的原因分析，以及对关键部件识别准确率的统计。

10.一种基于NLP的维保车况智能识别装置，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1至9任意一项所述的基于NLP的维保车况智能识别方法。