CN110705272A - 一种面向汽车发动机故障诊断的命名实体识别方法 - Google Patents

一种面向汽车发动机故障诊断的命名实体识别方法 Download PDF

Info

Publication number
CN110705272A
CN110705272A CN201910802054.2A CN201910802054A CN110705272A CN 110705272 A CN110705272 A CN 110705272A CN 201910802054 A CN201910802054 A CN 201910802054A CN 110705272 A CN110705272 A CN 110705272A
Authority
CN
China
Prior art keywords
text
fault diagnosis
automobile engine
engine fault
named entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910802054.2A
Other languages
English (en)
Inventor
陈志成
刘孝保
阴艳超
陆宏彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201910802054.2A priority Critical patent/CN110705272A/zh
Publication of CN110705272A publication Critical patent/CN110705272A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种面向汽车发动机故障诊断的命名实体识别方法,包括步骤1:建立汽车发动机故障诊断命名实体识别文本语料库;步骤2:对语料库进行预处理;步骤3:对预处理后的文本数据进行分布式表示,通过BERT语言模型得到文本预训练“词+词性”向量;步骤4:将得到的文本预训练“词+词性”向量输入到BiLstm神经网络中进行文本特征提取;步骤5:在BiLstm神经网络后引入Attention机制捕捉文本特征中较为重要的部分;步骤6:结合CRF模型,得到汽车发动机故障诊断命名实体识别的最优标注序列。本发明解决了现有方法中缺少汽车发动机故障诊断相关的数据集,知识实体句法特征明显,知识实体内部存在大量修饰词干扰,实体全文标签不一致,从而使得命名实体识别结果准确率低的问题。

Description

一种面向汽车发动机故障诊断的命名实体识别方法
技术领域
本发明涉及一种面向汽车发动机故障诊断的命名实体识别方法,属于信息技术领域。
背景技术
随着信息技术的高速发展,汽车发动机故障诊断技术呈现出大数据环境,海量的汽车发动机故障诊断文本数据如汽车发动机维修保养记录、故障诊断学术论文和专利等不断产生并积累,高效准确地从这些数据中挖掘故障知识信息,可为汽车发动机故障诊断技术带来较大便利。在挖掘汽车发动机故障诊断文本信息的过程中,命名实体识别是一项非常必要的技术。通过命名实体识别,可以高效准确地从汽车发动机故障诊断文本数据中提取诸如发动机零部件,故障表现,故障原因,处理方法等信息,为后续进一步的数据分析利用提供基础。
目前,基于深度学习模型的命名实体方法逐渐成为主流,相较于传统的基于规则模板或潜层机器学习方法的模型,深度学习模型能够获取学习到更多的文本特征,从而较大提升命名实体识别的准确率。然而,目前的基于深度学习模型的命名实体方法主要面向公共领域,缺少汽车发动机故障诊断相关的数据集;另外,分析汽车发动机故障诊断相关文本,发现不同知识实体句法成分存在较大差异,同时知识内部存在大量修饰词干扰;进一步地,同一词语在不同的知识实体中被赋予的标签不同,以上所述都会给汽车发动机故障诊断的命名实体识别造成困难,使识别效果不理想。
发明内容
本发明提供了一种面向汽车发动机故障诊断的命名实体识别方法,以用于解决现有方法中缺少汽车发动机故障诊断相关的数据集,知识实体句法特征明显,知识实体内部存在大量修饰词干扰,实体全文标签不一致,从而使得命名实体识别结果准确率低的问题。
本发明的技术方案是:一种面向汽车发动机故障诊断的命名实体识别方法,所述方法步骤如下:
步骤1:建立汽车发动机故障诊断命名实体识别文本语料库;
步骤2:对语料库进行预处理;
步骤3:对预处理后的文本数据进行分布式表示,通过BERT语言模型得到文本预训练“词+词性”向量;
步骤4:将得到的文本预训练“词+词性”向量输入到BiLstm神经网络中进行文本特征提取;
步骤5:在BiLstm神经网络后引入Attention机制捕捉文本特征中较为重要的部分;其中,较为重要的部分指文本特征中可以组成知识实体的部分;
步骤6:结合CRF模型,得到汽车发动机故障诊断命名实体识别的最优标注序列。
所述汽车发动机故障诊断命名实体语料库由包括汽车发动机维修保养记录、汽车发动机故障诊断学术论文、汽车发动机故障诊断专利申请在内的含有汽车发动机故障诊断数据的文本组成。
所述语料库预处理具体为:首先使用分词软件对语料库进行分词,其次对分词后的文本进行词性标注,再对经分词和词性标注后的文本过滤停用词,接着对经上述处理的文本进行实体标注,最后将语料库分为训练集和测试集。
所述实体标注采用BIESO标注方法,其中B、I、E、S分别代表实体的开端、内部、尾部、单词为实体标签,O代表非实体标签;BIES标签后对应实体类别标签,包括ENGP、FAU、CAU和SOL,ENGP表示发动机零部件、FAU表示故障表现、CAU表示故障原因和SOL表示故障处理方法。
所述文本数据分布式表示是指将经过预处理后的词语与其对应的词性作为整体,利用BERT语言模型获得“词+词性”的特征向量。
所述BiLstm是指正反双向的Lstm网络。
本发明的有益效果是:
1、本发明构建了面向汽车发动机故障诊断命名实体识别相关的数据集,并通过BERT语言模型获取“词+词性”向量,有效考虑了故障诊断知识实体句法特征明显的特点,同时解决了由实体全文标签不一致而影响知识实体识别准确率的问题。
2、本发明在BiLstm神经网络后引入Attention机制捕捉文本特征中较为重要的部分,有效解决了故障诊断知识实体内部存在大量修饰词干扰的问题。
3、本发明可以有效地提取出汽车发动机故障诊断文本数据中的发动机零部件、故障表现、故障原因和故障处理方法,为后续进一步的数据分析利用提供基础。
附图说明
图1为本发明流程图;
图2为本发明模型结构图;
图3为BiLstm模型结构图。
具体实施方式
实施例1:如图1-3所示,一种面向汽车发动机故障诊断的命名实体识别方法,所述方法步骤如下:
步骤1:建立汽车发动机故障诊断命名实体识别文本语料库;
步骤2:对语料库进行预处理;
步骤3:对预处理后的文本数据进行分布式表示,通过BERT语言模型得到文本预训练“词+词性”向量;
步骤4:将得到的文本预训练“词+词性”向量输入到BiLstm神经网络中进行文本特征提取;
步骤5:在BiLstm神经网络后引入Attention机制捕捉文本特征中较为重要的部分;其中,较为重要的部分指文本特征中可以组成知识实体的部分(如:针对“冷却液经常出现温度过高”这一类的实体,因为认为”经常出现“这两个词不宜组成知识实体,这两个不相关词的存在对”冷却液温度过高“这一故障实体的识别会形成干扰,因此我们引进Attention机制来降低无关词的干扰,即”捕捉文本中较为重要的部分);
步骤6:结合CRF模型,得到汽车发动机故障诊断命名实体识别的最优标注序列。
进一步地,可以设置所述汽车发动机故障诊断命名实体语料库由包括汽车发动机维修保养记录、汽车发动机故障诊断学术论文、汽车发动机故障诊断专利申请在内的含有汽车发动机故障诊断数据的文本组成。
进一步地,可以设置所述语料库预处理具体为:首先使用分词软件对语料库进行分词(如先使用中科院的ICTCLAS分词工具对语料数据进行分词),其次对分词后的文本进行词性标注,再对经分词和词性标注后的文本过滤停用词,接着对经上述处理的文本进行实体标注,最后将语料库分为训练集和测试集。
进一步地,可以设置所述实体标注采用BIESO标注方法,其中B、I、E、S分别代表实体的开端、内部、尾部、单词为实体标签,O代表非实体标签;BIES标签后对应实体类别标签,包括ENGP、FAU、CAU和SOL,ENGP表示发动机零部件、FAU表示故障表现、CAU表示故障原因和SOL表示故障处理方法。如,标注为:B-FAU等等形式。假设一段文本内容为“生活中经常遇到汽车发动机无法启动或者多次启动的现象90%是由于蓄电池电量不足引起的”,其标注结果如表1所示。
表1文本标注实例
分词 词性 标注 分词 词性 标注
生活中 adv O par O
经常 adv O 现象 noun O
遇到 verb O 90% nun O
汽车 noun B-NEGP verb O
发动机 noun E-ENGP 由于 pre O
无法 adv B-FAU 蓄电池 noun B-CAU
启动 verb E-FAU 电量 noun I-CAU
或者 conj O 不足 adj E-CAU
多次 num B-FAU 引起 adv O
启动 verb E-FAU par O
进一步地,可以设置所述文本数据分布式表示是指将经过预处理后的词语与其对应的词性作为整体,利用BERT语言模型获得“词+词性”的特征向量。
进一步地,可以设置所述BiLstm是指正反双向的Lstm网络。其中一个Lstm在某一时刻t沿着正向时序获得上文信息
Figure BDA0002182597590000041
另一个Lstm沿着逆向时序获得下文信息
Figure BDA0002182597590000042
将t时刻的两个Lstm的隐藏层向量连接起来,形成BiLstm在该时刻的输出
Figure BDA0002182597590000043
ht表示当前时刻t的上下文信息。
进一步地,所述的Attention机制的计算方法为:
Figure BDA0002182597590000044
eki=vtanh(Whk+Uhi+b)
Figure BDA0002182597590000045
hk'=H(C,h(k-1)')
其中,hk'计算的是注意力概率分布的语义编码,aki计算的是结点i对于结点k的注意力权重。T为输入序列的单词数目,v、W、U为权重矩阵,b是一个偏执项,开始是随机生成的,训练的过程中不断调b的大小使模型性能达到最优。Attention机制的输入为BiLSTM的输出;hi为BiLSTM模型中的前向输出
Figure BDA0002182597590000051
hk为BiLSTM模型中反向输出BiLSTM输出的所有结果都进入Attention进行计算。C是语义编码。
hk'为最终的特征向量。
进一步地,所述的CRF序列标注计算方法为:
用X=[x1,x2,....,xn-1,xn]表示输入文本向量序列,P=[v1,v2,...,vn-1,vn]表示Attention机制学习到的特征向量,对于一个预测序列y=[y1,y2,...,yn-1,yn],其中yt为t时刻的输入向量xt预测标签索引,则该预测序列的得分值为:
其中,A为转移矩阵,即Ai,j为标签i到标签j的转移概率。在原输入序列X的条件下产生标记序列y的概率为:
Figure BDA0002182597590000054
其中YX表示对于输入序列X所有可能出现的标记序列集合。对于正确的预测结果序列y,训练过程中需要最大化序列的对数概率:
Figure BDA0002182597590000055
预测时,选择预测结果,使得其预测概率最大:
Figure BDA0002182597590000056
得到汽车发动机故障诊断命名实体识别的最优标注序列。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (6)

1.一种面向汽车发动机故障诊断的命名实体识别方法,其特征在于:所述方法步骤如下:
步骤1:建立汽车发动机故障诊断命名实体识别文本语料库;
步骤2:对语料库进行预处理;
步骤3:对预处理后的文本数据进行分布式表示,通过BERT语言模型得到文本预训练“词+词性”向量;
步骤4:将得到的文本预训练“词+词性”向量输入到BiLstm神经网络中进行文本特征提取;
步骤5:在BiLstm神经网络后引入Attention机制捕捉文本特征中较为重要的部分;其中,较为重要的部分指文本特征中可以组成知识实体的部分;
步骤6:结合CRF模型,得到汽车发动机故障诊断命名实体识别的最优标注序列。
2.根据权利要求1所述的面向汽车发动机故障诊断的命名实体识别方法,其特征在于:所述汽车发动机故障诊断命名实体语料库由包括汽车发动机维修保养记录、汽车发动机故障诊断学术论文、汽车发动机故障诊断专利申请在内的含有汽车发动机故障诊断数据的文本组成。
3.根据权利要求1所述的面向汽车发动机故障诊断的命名实体识别方法,其特征在于:所述语料库预处理具体为:首先使用分词软件对语料库进行分词,其次对分词后的文本进行词性标注,再对经分词和词性标注后的文本过滤停用词,接着对经上述处理的文本进行实体标注,最后将语料库分为训练集和测试集。
4.根据权利要求3所述的面向汽车发动机故障诊断的命名实体识别方法,其特征在于:所述实体标注采用BIESO标注方法,其中B、I、E、S分别代表实体的开端、内部、尾部、单词为实体标签,O代表非实体标签;BIES标签后对应实体类别标签,包括ENGP、FAU、CAU和SOL,ENGP表示发动机零部件、FAU表示故障表现、CAU表示故障原因和SOL表示故障处理方法。
5.根据权利要求1所述的面向汽车发动机故障诊断的命名实体识别方法,其特征在于:所述文本数据分布式表示是指将经过预处理后的词语与其对应的词性作为整体,利用BERT语言模型获得“词+词性”的特征向量。
6.根据权利要求1所述的面向汽车发动机故障诊断的命名实体识别方法,其特征在于:所述BiLstm是指正反双向的Lstm网络。
CN201910802054.2A 2019-08-28 2019-08-28 一种面向汽车发动机故障诊断的命名实体识别方法 Pending CN110705272A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910802054.2A CN110705272A (zh) 2019-08-28 2019-08-28 一种面向汽车发动机故障诊断的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910802054.2A CN110705272A (zh) 2019-08-28 2019-08-28 一种面向汽车发动机故障诊断的命名实体识别方法

Publications (1)

Publication Number Publication Date
CN110705272A true CN110705272A (zh) 2020-01-17

Family

ID=69193740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910802054.2A Pending CN110705272A (zh) 2019-08-28 2019-08-28 一种面向汽车发动机故障诊断的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN110705272A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101027A (zh) * 2020-07-24 2020-12-18 昆明理工大学 基于阅读理解的中文命名实体识别方法
CN112417874A (zh) * 2020-11-16 2021-02-26 珠海格力电器股份有限公司 命名实体的识别方法和装置、存储介质、电子装置
CN113779992A (zh) * 2021-07-19 2021-12-10 西安理工大学 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法
CN114004230A (zh) * 2021-09-23 2022-02-01 杭萧钢构股份有限公司 一种生产钢结构的工控调度方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359291A (zh) * 2018-08-28 2019-02-19 昆明理工大学 一种命名实体识别方法
CN109522553A (zh) * 2018-11-09 2019-03-26 龙马智芯(珠海横琴)科技有限公司 命名实体的识别方法及装置
CN109657239A (zh) * 2018-12-12 2019-04-19 电子科技大学 基于注意力机制和语言模型学习的中文命名实体识别方法
CN109992782A (zh) * 2019-04-02 2019-07-09 深圳市华云中盛科技有限公司 法律文书命名实体识别方法、装置及计算机设备
CN110008472A (zh) * 2019-03-29 2019-07-12 北京明略软件系统有限公司 一种实体抽取的方法、装置、设备和计算机可读存储介质
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359291A (zh) * 2018-08-28 2019-02-19 昆明理工大学 一种命名实体识别方法
CN109522553A (zh) * 2018-11-09 2019-03-26 龙马智芯(珠海横琴)科技有限公司 命名实体的识别方法及装置
CN109657239A (zh) * 2018-12-12 2019-04-19 电子科技大学 基于注意力机制和语言模型学习的中文命名实体识别方法
CN110008472A (zh) * 2019-03-29 2019-07-12 北京明略软件系统有限公司 一种实体抽取的方法、装置、设备和计算机可读存储介质
CN109992782A (zh) * 2019-04-02 2019-07-09 深圳市华云中盛科技有限公司 法律文书命名实体识别方法、装置及计算机设备
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冀相冰 等: "基于注意力机制的包装命名实体识别", 《包装工程》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101027A (zh) * 2020-07-24 2020-12-18 昆明理工大学 基于阅读理解的中文命名实体识别方法
CN112417874A (zh) * 2020-11-16 2021-02-26 珠海格力电器股份有限公司 命名实体的识别方法和装置、存储介质、电子装置
CN113779992A (zh) * 2021-07-19 2021-12-10 西安理工大学 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法
CN114004230A (zh) * 2021-09-23 2022-02-01 杭萧钢构股份有限公司 一种生产钢结构的工控调度方法和系统

Similar Documents

Publication Publication Date Title
CN110705272A (zh) 一种面向汽车发动机故障诊断的命名实体识别方法
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN104881458B (zh) 一种网页主题的标注方法和装置
CN108509521B (zh) 一种自动生成文本索引的图像检索方法
CN110415071B (zh) 一种基于观点挖掘分析的汽车竞品对比方法
CN112883171B (zh) 基于bert模型的文档关键词抽取方法及装置
CN110750635A (zh) 一种基于联合深度学习模型的法条推荐方法
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN112434164A (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN109446522B (zh) 一种试题自动分类系统及方法
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN112711944B (zh) 一种分词方法、系统、分词器生成方法及系统
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN113157918A (zh) 一种基于注意力机制的商品名称短文本分类方法和系统
CN112286799A (zh) 结合句嵌入和粒子群优化算法的软件缺陷定位方法
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN111753067A (zh) 一种技术交底文本创新性评估方法、装置和设备
Perdana et al. Instance-based deep transfer learning on cross-domain image captioning
CN116010567A (zh) 关键词抽取方法及装置
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN114996455A (zh) 一种基于双知识图谱的新闻标题短文本分类方法
CN111460160B (zh) 一种基于强化学习的流式文本数据的事件聚类方法
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN108256055B (zh) 一种基于数据增强的主题建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200117