CN117873034A

CN117873034A - 基于双模型故障诊断信息智能提取方法及装置

Info

Publication number: CN117873034A
Application number: CN202410001927.0A
Authority: CN
Inventors: 阮鹏飞; 查精学; 段沛楠; 汪家旺; 沈建飞
Original assignee: Wuhan Pinzhi Automobile Technology Co ltd
Current assignee: Wuhan Pinzhi Automobile Technology Co ltd
Priority date: 2024-01-02
Filing date: 2024-01-02
Publication date: 2024-04-12

Abstract

本发明公开了一种基于双模型故障诊断信息智能提取方法及装置，其中所述基于双模型故障诊断信息智能提取方法包括：基于历史诊断数据库，对历史诊断数据库中的历史故障诊断数据进行提取、标准化、清洗，生成诊断数据；对诊断数据进行标记，筛选出非DTC类诊断数据；基于非DTC类诊断数据，对非DTC类诊断数据进行抽样，生成样本诊断数据；对样本诊断数据进行提取，生成基准诊断数据；基于基准诊断数据，生成训练模型学习语料；基于训练模型学习语料，训练生成第一训练模型。本发明的基于双模型故障诊断信息智能提取方法，不仅能够在庞杂的诊断数据中，精准、高效的提取有效诊断信息，还能保证信息提取过程中质量一致性。

Description

基于双模型故障诊断信息智能提取方法及装置

技术领域

本发明是关于汽车故障智能诊断技术领域，特别是关于一种基于双模型故障诊断信息智能提取方法及装置。

背景技术

诊断数据作为记录车辆实际行驶过程中发生过的故障诊断、维修、保养信息载体，其中包含了大量不同故障现象情形以及所对应的故障原因信息。通过对大量诊断数据进行信息提取、故障原理分析是实现故障诊断智能化推荐的一种有效途径，然而，现有诊断信息提取方法不精准、效率低，且无法保证信息提取过程中的质量一致性。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

本发明的目的在于提供一种基于双模型故障诊断信息智能提取方法及装置，其不仅能够在庞杂的诊断数据中，精准、高效的提取有效诊断信息，还能保证信息提取过程中质量一致性。

为实现上述目的，第一方面，本发明提供了一种基于双模型故障诊断信息智能提取方法，包括：

基于历史诊断数据库，对所述历史诊断数据库中的历史故障诊断数据进行提取、标准化、清洗，生成诊断数据；

对所述诊断数据进行标记，筛选出非DTC类诊断数据；

基于所述非DTC类诊断数据，对所述非DTC类诊断数据进行抽样，生成样本诊断数据；

对所述样本诊断数据进行提取，生成基准诊断数据；

基于所述基准诊断数据，生成训练模型学习语料；

基于所述训练模型学习语料，训练生成第一训练模型；

基于所述训练模型学习预料，训练生成第二训练模型；

基于所述样本诊断数据，分别通过所述第一训练模型和所述第二训练模型提取所述样本诊断数据中的有效诊断信息。

在本发明的一实施方式中，所述基于历史诊断数据库，对所述历史诊断数据库中的历史故障诊断数据进行提取、标准化、清洗，生成诊断数据包括：

基于所述历史诊断数据库，提取所述历史诊断数据库中的诊断数据；

对所述诊断数据中的故障原因件名称进行标准化处理；

对所述诊断数据中的故障现象描述内容进行识别，并清洗预设标签类型数据，生成所述诊断数据。

在本发明的一实施方式中，所述对所述诊断数据进行标记，筛选出非DTC类诊断数据包括：

根据预设DTC类诊断数据识别规则，对所述诊断数据进行标记，生成DTC类诊断数据；

去除所述诊断数据中的所述DTC类诊断数据，筛选出所述非DTC类诊断数据。

在本发明的一实施方式中，所述基于所述非DTC类诊断数据，对所述非DTC类诊断数据进行抽样，生成样本诊断数据包括：

基于所述非DTC类诊断数据，通过预设抽样规则对所述非DTC类诊断数据进行抽样，生成所述样本诊断数据。

在本发明的一实施方式中，所述对所述样本诊断数据进行提取，生成基准诊断数据包括：

对所述样本诊断数据中的用于描述故障现象、故障原因的关键词信息进行提取，得到故障现象关键词和故障原因关键词；

根据所述故障现象关键词和所述故障原因关键词，分别创建对应跨车型通用的通用现象词和通用原因词；

基于所述样本诊断数据、所述故障现象关键词、所述故障原因关键词、所述通用现象词和所述通用原因词，生成所述基准诊断数据。

在本发明的一实施方式中，所述基于所述训练模型学习语料，训练生成第一训练模型包括：

安装调用信息抽取模型，将所述训练模型学习预料转换为所述信息抽取模型所需要的数据格式的第一数据集，并将所述第一数据集按照预设比例拆分为第一训练数据集和第一验证数据集；

载入第一预训练模块，并加载所述第一训练数据集进行模型训练，生成第一微调后的模型；

加载所述第一微调后的模型进行结果预测，生成第一训练模型。

在本发明的一实施方式中，所述基于所述训练模型学习预料，训练生成第二训练模型包括：

安装调用知识增强模型，将所述训练模型学习预料转换为所述知识增强模型所需要的数据格式的第二数据集，并将所述第二数据集按照预设比例拆分为第二训练数据集和第二验证数据集；

载入第二预训练模块，并加载所述第二训练数据集进行模型训练，生成第二微调后的模型；

加载所述第二微调后的模型进行结果预测，生成第二训练模型。

第二方面，本发明提供了一种基于双模型故障诊断信息智能提取装置，包括：第一生成模块、第二生成模块、第三生成模块、第四生成模块、第五生成模块、第一训练模块、第二训练模块、第六生成模块以及第七生成模块。第一生成模块用于基于历史诊断数据库，对所述历史诊断数据库中的历史故障诊断数据进行提取、标准化、清洗，生成诊断数据；第二生成模块用于对所述诊断数据进行标记，筛选出非DTC类诊断数据；第三生成模块用于基于所述非DTC类诊断数据，对所述非DTC类诊断数据进行抽样，生成样本诊断数据；第四生成模块用于对所述样本诊断数据进行提取，生成基准诊断数据；第五生成模块用于基于所述基准诊断数据，生成训练模型学习语料；第一训练模块用于基于所述训练模型学习语料，训练生成第一训练模型；第二训练模块用于基于所述训练模型学习预料，训练生成第二训练模型；第六生成模块用于将所述样本诊断数据输入至所述第一训练模型，生成第一有效诊断信息；以及第七生成模块用于将所述第一有效诊断信息输入至所述第二训练模型，生成第二有效诊断信息。

在本发明的一实施方式中，所述第一生成模块包括：第一提取单元、处理单元以及第一生成单元。第一提取单元用于基于所述历史诊断数据库，提取所述历史诊断数据库中的诊断数据；处理单元用于对所述诊断数据中的故障原因件名称进行标准化处理；以及第一生成单元用于对所述诊断数据中的故障现象描述内容进行识别，并清洗预设标签类型数据，生成所述诊断数据。

在本发明的一实施方式中，所述第二生成模块包括：第二生成单元以及第三生成单元。第二生成单元用于根据预设DTC类诊断数据识别规则，对所述诊断数据进行标记，生成DTC类诊断数据；以及第三生成单元用于去除所述诊断数据中的所述DTC类诊断数据，筛选出所述非DTC类诊断数据。

与现有技术相比，根据本发明的基于双模型故障诊断信息智能提取方法及装置，其不仅能够在庞杂的诊断数据中，精准、高效的提取有效诊断信息，还能保证信息提取过程中质量一致性。

附图说明

图1是本发明实施例一中的一种基于双模型故障诊断信息智能提取方法的流程图；

图2是本发明实施例一中的生成诊断数据的流程图；

图3是本发明实施例一中的筛选出非DTC类诊断数据的流程图；

图4是本发明实施例一中的生成基准诊断数据的流程图；

图5是本发明实施例一中的训练生成第一训练模型的流程图；

图6是本发明实施例一中的训练生成第二训练模型的流程图；

图7是本发明实施例二中的一种基于双模型故障诊断信息智能提取装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

为了方便理解，首先将本发明各实施例的主要实现构思进行简单表述。

诊断数据作为记录车辆实际行驶过程中发生过的故障诊断、维修、保养信息载体，其中包含了大量不同故障现象情形以及所对应的故障原因信息。通过对大量诊断数据进行信息提取、故障原理分析是实现故障诊断智能化推荐的一种有效途径，然而，在诊断信息提取过程中存在一些挑战：

1、信息提取复杂性：诊断数据中会记录大量涉及对分析故障原理无用的数据，且维修人员在记录诊断信息时，语言描述上存在很大的随意性，这些都会对识别、精准提取有效的诊断信息造成极大困扰；

2、信息的一致性要求：在对诊断数据中的有效信息提取时，不同人员识别有效信息的能力存在差异，完全靠人工批量处理难以保证信息提取的一致性；

3、数据处理工作量巨大：在汽车售后市场，每年记录的诊断数据量都是百万级别以上，数据处理量极大，完全通过人工的方式进行分析、处理，难以满足实际数据处理需要。

发明人通过发现如前背景技术所述技术缺陷，进而希望能够寻找到一种方式不仅能够在庞杂的诊断数据中，精准、高效的提取有效诊断信息，还能保证信息提取过程中质量一致性。

为了解决现有技术中存在的诊断信息提取方法不精准、效率低，且无法保证信息提取过程中的质量一致性的技术问题，本发明的发明人经过创造性的劳动，得到了本发明一种基于双模型故障诊断信息智能提取方法及装置。

实施例一

图1是本发明实施例一中的一种基于双模型故障诊断信息智能提取方法的流程图。如图1所示，实施例一提供的一种基于双模型故障诊断信息智能提取方法，包括：

步骤S100，基于历史诊断数据库，对所述历史诊断数据库中的历史故障诊断数据进行提取、标准化、清洗，生成诊断数据；

具体地，本实施例的基于双模型故障诊断信息智能提取方法应用于一种基于双模型故障诊断信息智能提取系统，在该系统中创建原始诊断数据存储模块，对市场上实际发生的原始故障诊断数据进行存储。在原始诊断数据存储模块中预设模板，原始诊断数据存储模块根据预设模板自动对导入的原始故障诊断数据中维修类型、品牌、车型、故障现象描述、故障原因件件号、故障原因件名称等信息列内容进行提取。其中，由于诊断数据中涉及不同配置的车型，不同车型的装车清单中相同零件的名称命名存在差异，为便于统一管理各零件名称信息，通过分析零部件图册将相同零件的不同名称统一创建通用的通用名称，保存装车零件品牌名称与通用名称之间的对应关系。将上述提取的诊断数据的故障原因件名称信息列的故障原因件名称统一替换成对应的故障原因件通用名称，例如：在不同车型中ECM有不同的品牌名称，如：ECM、发动机电控单元、发动机ECM控制器、发动机ECU等命名。在原始诊断数据存储模块中预设自动标记功能，通过对诊断数据中故障现象描述内容进行识别，将含有预设关键词“质量整改”、“被动升级”的诊断数据自动标记“质量整改”标签。对维修类型为普通保养或质量整改的类型数据、以及标记为“质量整改”的诊断数据进行清洗(即删除)，输出清洗后的诊断数据。

基于上述分析可知，本实施例的基于双模型故障诊断信息智能提取方法是基于历史诊断数据库中的历史故障诊断数据，该历史故障诊断数据包括了大量不同汽车的大量不同故障现象情形以及对应的故障原因信息，本实施例通过对历史诊断数据库中的信息有针对性的进行提取、标准化和清洗，便于后续进行识别标记使用，极大程度上避免了因处理无效数据而浪费人力。

步骤S200，对所述诊断数据进行标记，筛选出非DTC类诊断数据；

具体地，在原始诊断数据存储模块中预设DTC类诊断数据识别规则，当识别到故障现象描述中出现有“现行、读取、故障码、报码、仪表显示、电脑检查、OBD、FC、SPN、FMI、DTC”等词汇、字母时，原始诊断数据存储模块自动将该诊断数据标记为“DTC类诊断数据”。DTC类诊断数据关键词的识别范围可根据实际数据特点进行维护。例如：诊断数据的故障现象描述为：发动机故障，仪表显示SPN:91；FMI:2，判断为油门踏板故障。故障现象描述中含有预设的“仪表显示”、“SPN”、“FMI”关键词，则标记为DTC类诊断数据，而没有标记的数据则均为非DTC类诊断数据。

基于上述分析可知，在原始诊断数据存储模块中预设DTC类诊断数据关键词识别规则，可以快速获取识别DTC类诊断数据，从而可以筛选出非DTC类诊断数据，便于后续对非DTC类故障信息单独提取。

步骤S300，基于所述非DTC类诊断数据，对所述非DTC类诊断数据进行抽样，生成样本诊断数据；

具体地，在系统中创建数据抽样模块，在数据抽样模块中预设抽样规则，对清洗后的非DTC类诊断数据进行小样本抽样，抽样时保障样本中尽可能覆盖所有出现过的故障原因件诊断数据。对故障现象中非DTC类诊断大数据进行抽样，抽样时，以诊断数据中故障现象描述+故障原因件信息为抽样依据，样本量设为N：

非DTC诊断数据中，将故障原因件件号对应诊断数据频次低于5次的，全部抽取；

故障原因件件号高于5次的，以其对应诊断数据频次在所有非DTC诊断大数据频次之和中的占比进行抽样；

故障原因件通用名称频次高于5的诊断数据，在随机抽样时，按照当前年份往前推5年，按年份分别设置权重。若设置权重的某年份条目数不足，则全部抽中，剩余抽样额度按照上述权重折算的比例，滚动至其他年份；

设定抽样样本数阈值(单样本数控制在4万条以内)，阈值可根据实际情况进行调整。

基于上述分析可知，通过设置抽样规则对非DTC类诊断数据进行抽样、信息提取，且抽样过程中覆盖了所有出现过的故障原因件诊断数据，有利于分步切割数据处理的工作量并且总结、完善后续不同种类诊断数据的信息提取规则。

步骤S400，对所述样本诊断数据进行提取，生成基准诊断数据；

具体地，在系统中创建故障诊断信息提取模块708，人工对抽样后的第一批样本数据的故障描述中用于描述故障现象、故障原因信息的关键词信息分别进行提取；由于不同车型中存在着相同故障现象及原因描述时关键词不一致情形，为便于精准分析不同故障现象之间的关联逻辑、各故障现象与故障原因的技术逻辑，根据现象关键词、原因关键词分别创建对应跨车型通用的通用现象词、通用原因词；将人工提取、冻结的有效数据作为基准数据进行存储，例如：故障诊断数据中故障现象描述为：右侧玻璃升降器不能升降，经检查发现为玻璃升降器电机不工作造成。可提取的现象关键词为：右侧玻璃、不能升降。现象通用词则可创建为：右车门玻璃无法升降。可提取的原因关键词为：右侧玻璃、玻璃升降器电机、不工作。原因通用词则可创建为：右车门玻璃升降器电机损坏。

步骤S500，基于所述基准诊断数据，生成训练模型学习语料；

具体地，在系统中创建学习语料制作模块，制作用于训练模型的学习语料。关键词标记模型对样本数据格式标准化，自动在各样本数据的故障现象描述内容的句前增加“描述：”字段，同时在句末增加“故障原因件通用名称为xxx”字段。将格式标准化后的故障现象描述+人工提取的(现象+原因)关键词+人工创建的(现象+原因)通用词的信息作为完整的学习语料。其中“xxx”为关键词标记模型自动从样本数据的故障原因件名称信息列所提取的信息。例如：样本数据中故障现象描述为：右侧玻璃升降器不能升降，经检查发现为玻璃升降器电机不工作造成。其中，故障原因件名称信息列内容为：玻璃升降器电机。样本数据格式标准化则为：描述：右侧玻璃升降器不能升降，经检查发现为玻璃升降器电机不工作造成。故障原因件为玻璃升降器电机。

具体地，在学习语料制作模块中预设学习语料标记规则，分别对现象、原因关键词进行标记。其中通用标记规则如下：

关键词标记模型识别故障现象描述内容中非“、”、“/”、“(”、“)”的标点符号，自动将内容拆分为若干句段；

标记时，每个关键词只允许标记一次；

相同提取属性(即现象标记或原因标记)中，同一位置的字符不允许重复标记；

标记时，按关键词字符长短，由长到短逐一标记；

同一学习语料出现多条现象或多条原因关键词时，须合并、去重，将完整句段中关键词按照从句末开始，向句首的方向进行查找、标记。

步骤S600，基于所述训练模型学习语料，训练生成第一训练模型；

具体地，信息抽取模型UIE训练，在python环境下安装信息抽取模型PaddleNLPUIE。将步骤S500中学习语料转换为PaddleNLP UIE数据集所需要的数据格式。按照9：1划分比例将数据集拆分为训练集和验证集。训练模型通过对故障现象描述内容、标记信息进行深度学习，分别智能推荐(现象+原因)关键词。

例如：数据集格式：以现象关键词提取为例

使用uie-base作为预训练模型进行模型微调，将微调后的模型保存至自定义model_dir目录下。

载入预训练模型：

model＝UIE.from_pretrained("uie-base")

optimizer＝paddle.optimizer.AdamW(learning_rate＝learning_rate,parameters＝model.parameters())

criterion＝paddle.nn.BCELoss()

metric＝SpanEvaluator()

使用model加载训练数据集进行模型训练。

加载微调好的模型参数进行结果预测，并保存预测结果。

载入微调后模型：

my_ie＝Taskflow("information_extraction",schema＝schema,task_path＝model_dir)

使用my_ie进行预测：

results＝uie_predict(my_ie,datas)，其中my_ie表示训练后的模型，datas表示待预测的数据集，results为数据集预测后的结果数据。

步骤S700，基于所述训练模型学习预料，训练生成第二训练模型；

具体地，预训练大规模知识增强模型PaddleNLP ERNIE3.0训练，在python环境下安装预训练大规模知识增强模型PaddleNLP ERNIE3.0，将步骤4.2.2中学习语料转换为PaddleNLP ERNIE3.0数据集所需要的数据格式。按照9：1划分比例将数据集拆分为训练集和验证集。训练模型通过对人工创建的关键词与通用词之间关联关系深度学习，智能根据(现象+原因)关键词分别推荐(现象+原因)通用词。

例如：数据集格式：以现象关键词-通用词为例

Text label

蓄电池电源总开关；烧蚀电源总开关无法关闭

安全带；不回位安全带卡滞

使用roberta-wwm-ext-large作为预训练模型进行模型微调，将微调后的模型保存至自定义./model_lib/model_best目录下。

载入预训练模型：

MODEL_NAME＝'roberta-wwm-ext-large'

model＝ppnlp.transformers.RobertaForSequenceClassification.from_pretraine d(MODEL_NAME,num_classes＝classnum)

tokenizer＝ppnlp.transformers.RobertaTokenizer.from_pretrained(MODEL_NAME)

加载微调好的模型参数进行结果预测，并保存预测结果。

加载模型参数

my_model＝ppnlp.transformers.RobertaForSequenceClassification.from_pretr ained('roberta-wwm-ext-large',num_classes＝classnum)

使用my_model进行预测，得到结果

results＝uie_predict(my_model,datas)，其中my_model表示训练后的模型，datas表示待预测的数据集，results为数据集预测后的结果数据。

步骤S800，将所述样本诊断数据输入至所述第一训练模型，生成第一有效诊断信息；

步骤S900，将所述第一有效诊断信息输入至所述第二训练模型，生成第二有效诊断信息；具体地，非DTC类诊断数据信息智能推荐，根据步骤S300中样本抽样规则对历史非DTC类诊断数据分批抽样；根据微调后的信息抽取模型PaddleNLP UIE对诊断数据进行(现象+原因)关键词抽取，即A＝UIE_predict(D)：其中A表示诊断数据中抽取的(现象+原因)关键词，D表示诊断数据；根据微调后的预训练大规模知识增强模型PaddleNLP ERNIE3.0对诊断数据中的(现象+原因)关键词(即第一有效诊断信息)推荐(现象+原因)通用词(即第二有效诊断信息)，即B＝ERNIE_predict(A)：D表示(现象+原因)通用词，A表示诊断数据中的(现象+原因)关键词。运用双模型方式，分批完成对各样本数据的信息提取。

基于以上分析可知，运用以上方法，不仅能够在庞杂的诊断数据中，精准、高效的提取有效诊断信息，还能保证信息提取过程中质量一致性。

当双模型输出了第一有效诊断信息和第二有效诊断信息后，需要将第一有效诊断信息和第二有效诊断信息与人工提取生成的基准诊断数据进行对比，从而对第一训练模型和第二训练模型进行校正，具体来说：

训练模型校正：以人工提取的(现象+原因)关键词、根据关键词创建的(现象+原因)通用词作为对比基准，设定预测结果一致性阈值(一致性阈值设定为99％)，当双模型预测结果与人工基准结果的一致性低于设定阈值时，则根据对比结果进行人工基准数据分析、调整、不断校正双训练模型，直到双训练模型预测结果与人工基准结果的一致性达到设定阈值标准。

在本实施例中，所述步骤S100包括：

步骤S101，基于所述历史诊断数据库，提取所述历史诊断数据库中的诊断数据；

步骤S102，对所述诊断数据中的故障原因件名称进行标准化处理；

步骤S103，对所述诊断数据中的故障现象描述内容进行识别，并清洗预设标签类型数据，生成所述诊断数据。

在本实施例中，所述步骤S200包括：

步骤S201，根据预设DTC类诊断数据识别规则，对所述诊断数据进行标记，生成DTC类诊断数据；

步骤S202，去除所述诊断数据中的所述DTC类诊断数据，筛选出所述非DTC类诊断数据。

在本实施例中，所述步骤S300包括：

在本实施例中，所述步骤S400包括：

步骤S401，对所述样本诊断数据中的用于描述故障现象、故障原因的关键词信息进行提取，得到故障现象关键词和故障原因关键词；

步骤S402，根据所述故障现象关键词和所述故障原因关键词，分别创建对应跨车型通用的通用现象词和通用原因词；

步骤S403，基于所述样本诊断数据、所述故障现象关键词、所述故障原因关键词、所述通用现象词和所述通用原因词，生成所述基准诊断数据。

在本实施例中，所述步骤S600包括：

步骤S601，安装调用信息抽取模型，将所述训练模型学习预料转换为所述信息抽取模型所需要的数据格式的第一数据集，并将所述第一数据集按照预设比例拆分为第一训练数据集和第一验证数据集；

步骤S602，载入第一预训练模块，并加载所述第一训练数据集进行模型训练，生成第一微调后的模型；

步骤S603，加载所述第一微调后的模型进行结果预测，生成第一训练模型。

在本实施例中，所述步骤S700包括：

步骤S701，安装调用知识增强模型，将所述训练模型学习预料转换为所述知识增强模型所需要的数据格式的第二数据集，并将所述第二数据集按照预设比例拆分为第二训练数据集和第二验证数据集；

步骤S702，载入第二预训练模块，并加载所述第二训练数据集进行模型训练，生成第二微调后的模型；

步骤S703，加载所述第二微调后的模型进行结果预测，生成第二训练模型。

实施例二

图7是本发明实施例二中的一种基于双模型故障诊断信息智能提取装置的结构示意图。如图7所示，实施例二提供的一种于双模型故障诊断信息智能提取装置，包括：第一生成模块701、第二生成模块702、第三生成模块703、第四生成模块704、第五生成模块705、第一训练模块706、第二训练模块707、第六生成模块708以及第七生成模块709。第一生成模块701用于基于历史诊断数据库，对所述历史诊断数据库中的历史故障诊断数据进行提取、标准化、清洗，生成诊断数据；第二生成模块702用于对所述诊断数据进行标记，筛选出非DTC类诊断数据；第三生成模块703用于基于所述非DTC类诊断数据，对所述非DTC类诊断数据进行抽样，生成样本诊断数据；第四生成模块704用于对所述样本诊断数据进行提取，生成基准诊断数据；第五生成模块705用于基于所述基准诊断数据，生成训练模型学习语料；第一训练模块706用于基于所述训练模型学习语料，训练生成第一训练模型；第二训练模块707用于基于所述训练模型学习预料，训练生成第二训练模型；第六生成模块708用于将所述样本诊断数据输入至所述第一训练模型，生成第一有效诊断信息；以及第七生成模块709用于将所述第一有效诊断信息输入至所述第二训练模型，生成第二有效诊断信息。

在本实施例中，所述第一生成模块701包括：第一提取单元、处理单元以及第一生成单元。第一提取单元用于基于所述历史诊断数据库，提取所述历史诊断数据库中的诊断数据；处理单元用于对所述诊断数据中的故障原因件名称进行标准化处理；以及第一生成单元用于对所述诊断数据中的故障现象描述内容进行识别，并清洗预设标签类型数据，生成所述诊断数据。

在本实施例中，所述第二生成模块702包括：第二生成单元以及第三生成单元。第二生成单元用于根据预设DTC类诊断数据识别规则，对所述诊断数据进行标记，生成DTC类诊断数据；以及第三生成单元用于去除所述诊断数据中的所述DTC类诊断数据，筛选出所述非DTC类诊断数据。

在本实施例中，所述第三生成模块703包括：第四生成单元，用于基于所述非DTC类诊断数据，通过预设抽样规则对所述非DTC类诊断数据进行抽样，生成所述样本诊断数据。

在本实施例中，所述第四生成模块704包括：第二提取单元、创建单元以及第五生成单元。所述第二提取单元用于对所述样本诊断数据中的用于描述故障现象、故障原因的关键词信息进行提取，得到故障现象关键词和故障原因关键词；所述创建单元用于根据所述故障现象关键词和所述故障原因关键词，分别创建对应跨车型通用的通用现象词和通用原因词；以及所述第五生成单元用于基于所述样本诊断数据、所述故障现象关键词、所述故障原因关键词、所述通用现象词和所述通用原因词，生成所述基准诊断数据。

在本实施例中，所述第一训练模块706包括：第一拆分单元、第六生成单元以及第七生成单元。所述第一拆分单元用于安装调用信息抽取模型，将所述训练模型学习预料转换为所述信息抽取模型所需要的数据格式的第一数据集，并将所述第一数据集按照预设比例拆分为第一训练数据集和第一验证数据集；所述第六生成单元用于载入第一预训练模块，并加载所述第一训练数据集进行模型训练，生成第一微调后的模型；以及所述第七生成单元用于加载所述第一微调后的模型进行结果预测，生成第一训练模型。

在本实施例中，所述第二训练模块707包括：第二拆分单元、第八生成单元以及第九生成单元。所述第二拆分单元用于安装调用知识增强模型，将所述训练模型学习预料转换为所述知识增强模型所需要的数据格式的第二数据集，并将所述第二数据集按照预设比例拆分为第二训练数据集和第二验证数据集；所述第八生成单元用于载入第二预训练模块，并加载所述第二训练数据集进行模型训练，生成第二微调后的模型；以及所述第九生成单元用于加载所述第二微调后的模型进行结果预测，生成第二训练模型。

实施例一提供的基于双模型故障诊断信息智能提取方法的各种变化方式和具体实例同样适用于本实施例提供的基于双模型故障诊断信息智能提取装置，通过前述对一种基于双模型故障诊断信息智能提取方法的详细描述，本领域技术人员可以清楚的知道本实施例中一种基于双模型故障诊断信息智能提取装置的实施方式，所以为了说明书的简洁，在此不再详述。

总之，本发明的基于双模型故障诊断信息智能提取方法及装置，其不仅能够在庞杂的诊断数据中，精准、高效的提取有效诊断信息，还能保证信息提取过程中质量一致性。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于双模型故障诊断信息智能提取方法，其特征在于，包括：

对所述诊断数据进行标记，筛选出非DTC类诊断数据；

对所述样本诊断数据进行提取，生成基准诊断数据；

基于所述基准诊断数据，生成训练模型学习语料；

基于所述训练模型学习语料，训练生成第一训练模型；

基于所述训练模型学习预料，训练生成第二训练模型；

将所述样本诊断数据输入至所述第一训练模型，生成第一有效诊断信息；

将所述第一有效诊断信息输入至所述第二训练模型，生成第二有效诊断信息。

2.如权利要求1所述的基于双模型故障诊断信息智能提取方法，其特征在于，所述基于历史诊断数据库，对所述历史诊断数据库中的历史故障诊断数据进行提取、标准化、清洗，生成诊断数据包括：

对所述诊断数据中的故障原因件名称进行标准化处理；

3.如权利要求1所述的基于双模型故障诊断信息智能提取方法，其特征在于，所述对诊断数据进行标记，筛选出非DTC类诊断数据包括：

4.如权利要求1所述的基于双模型故障诊断信息智能提取方法，其特征在于，所述基于非DTC类诊断数据，对所述非DTC类诊断数据进行抽样，生成样本诊断数据包括：

5.如权利要求1所述的基于双模型故障诊断信息智能提取方法，其特征在于，所述对样本诊断数据进行提取，生成基准诊断数据包括：

6.如权利要求1所述的基于双模型故障诊断信息智能提取方法，其特征在于，所述基于训练模型学习语料，训练生成第一训练模型包括：

7.如权利要求1所述的基于双模型故障诊断信息智能提取方法，其特征在于，所述基于训练模型学习预料，训练生成第二训练模型包括：

8.一种基于双模型故障诊断信息智能提取装置，其特征在于，包括：

第一生成模块，用于基于历史诊断数据库，对所述历史诊断数据库中的历史故障诊断数据进行提取、标准化、清洗，生成诊断数据；

第二生成模块，用于对所述诊断数据进行标记，筛选出非DTC类诊断数据；

第三生成模块，用于基于所述非DTC类诊断数据，通过预设抽样规则对所述非DTC类诊断数据进行抽样，生成样本诊断数据；

第四生成模块，用于对所述样本诊断数据进行提取，生成基准诊断数据；

第五生成模块，用于基于所述基准诊断数据，生成训练模型学习语料；

第一训练模块，用于基于所述训练模型学习语料，训练生成第一训练模型；

第二训练模块，用于基于所述训练模型学习预料，训练生成第二训练模型；

第六生成模块，用于将所述样本诊断数据输入至所述第一训练模型，生成第一有效诊断信息；以及

第七生成模块，用于将所述第一有效诊断信息输入至所述第二训练模型，生成第二有效诊断信息。

9.如权利要求8所述的基于双模型故障诊断信息智能提取装置，其特征在于，所述第一生成模块包括：

第一提取单元，用于基于所述历史诊断数据库，提取所述历史诊断数据库中的诊断数据；

处理单元，用于对所述诊断数据中的故障原因件名称进行标准化处理；以及

第一生成单元，用于对所述诊断数据中的故障现象描述内容进行识别，并清洗预设标签类型数据，生成所述诊断数据。

10.如权利要求8所述的基于双模型故障诊断信息智能提取装置，其特征在于，所述第二生成模块包括：

第二生成单元，用于根据预设DTC类诊断数据识别规则，对所述诊断数据进行标记，生成DTC类诊断数据；以及

第三生成单元，用于去除所述诊断数据中的所述DTC类诊断数据，筛选出所述非DTC类诊断数据。