CN110705272A - 一种面向汽车发动机故障诊断的命名实体识别方法 - Google Patents
一种面向汽车发动机故障诊断的命名实体识别方法 Download PDFInfo
- Publication number
- CN110705272A CN110705272A CN201910802054.2A CN201910802054A CN110705272A CN 110705272 A CN110705272 A CN 110705272A CN 201910802054 A CN201910802054 A CN 201910802054A CN 110705272 A CN110705272 A CN 110705272A
- Authority
- CN
- China
- Prior art keywords
- text
- fault diagnosis
- automobile engine
- engine fault
- named entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 17
- 238000002372 labelling Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 239000000463 material Substances 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 16
- 230000014509 gene expression Effects 0.000 claims description 5
- 238000003672 processing method Methods 0.000 claims description 5
- 238000012423 maintenance Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 239000003607 modifier Substances 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000002826 coolant Substances 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种面向汽车发动机故障诊断的命名实体识别方法,包括步骤1:建立汽车发动机故障诊断命名实体识别文本语料库;步骤2:对语料库进行预处理;步骤3:对预处理后的文本数据进行分布式表示,通过BERT语言模型得到文本预训练“词+词性”向量;步骤4:将得到的文本预训练“词+词性”向量输入到BiLstm神经网络中进行文本特征提取;步骤5:在BiLstm神经网络后引入Attention机制捕捉文本特征中较为重要的部分;步骤6:结合CRF模型,得到汽车发动机故障诊断命名实体识别的最优标注序列。本发明解决了现有方法中缺少汽车发动机故障诊断相关的数据集,知识实体句法特征明显,知识实体内部存在大量修饰词干扰,实体全文标签不一致,从而使得命名实体识别结果准确率低的问题。
Description
技术领域
本发明涉及一种面向汽车发动机故障诊断的命名实体识别方法,属于信息技术领域。
背景技术
随着信息技术的高速发展,汽车发动机故障诊断技术呈现出大数据环境,海量的汽车发动机故障诊断文本数据如汽车发动机维修保养记录、故障诊断学术论文和专利等不断产生并积累,高效准确地从这些数据中挖掘故障知识信息,可为汽车发动机故障诊断技术带来较大便利。在挖掘汽车发动机故障诊断文本信息的过程中,命名实体识别是一项非常必要的技术。通过命名实体识别,可以高效准确地从汽车发动机故障诊断文本数据中提取诸如发动机零部件,故障表现,故障原因,处理方法等信息,为后续进一步的数据分析利用提供基础。
目前,基于深度学习模型的命名实体方法逐渐成为主流,相较于传统的基于规则模板或潜层机器学习方法的模型,深度学习模型能够获取学习到更多的文本特征,从而较大提升命名实体识别的准确率。然而,目前的基于深度学习模型的命名实体方法主要面向公共领域,缺少汽车发动机故障诊断相关的数据集;另外,分析汽车发动机故障诊断相关文本,发现不同知识实体句法成分存在较大差异,同时知识内部存在大量修饰词干扰;进一步地,同一词语在不同的知识实体中被赋予的标签不同,以上所述都会给汽车发动机故障诊断的命名实体识别造成困难,使识别效果不理想。
发明内容
本发明提供了一种面向汽车发动机故障诊断的命名实体识别方法,以用于解决现有方法中缺少汽车发动机故障诊断相关的数据集,知识实体句法特征明显,知识实体内部存在大量修饰词干扰,实体全文标签不一致,从而使得命名实体识别结果准确率低的问题。
本发明的技术方案是:一种面向汽车发动机故障诊断的命名实体识别方法,所述方法步骤如下:
步骤1:建立汽车发动机故障诊断命名实体识别文本语料库;
步骤2:对语料库进行预处理;
步骤3:对预处理后的文本数据进行分布式表示,通过BERT语言模型得到文本预训练“词+词性”向量;
步骤4:将得到的文本预训练“词+词性”向量输入到BiLstm神经网络中进行文本特征提取;
步骤5:在BiLstm神经网络后引入Attention机制捕捉文本特征中较为重要的部分;其中,较为重要的部分指文本特征中可以组成知识实体的部分;
步骤6:结合CRF模型,得到汽车发动机故障诊断命名实体识别的最优标注序列。
所述汽车发动机故障诊断命名实体语料库由包括汽车发动机维修保养记录、汽车发动机故障诊断学术论文、汽车发动机故障诊断专利申请在内的含有汽车发动机故障诊断数据的文本组成。
所述语料库预处理具体为:首先使用分词软件对语料库进行分词,其次对分词后的文本进行词性标注,再对经分词和词性标注后的文本过滤停用词,接着对经上述处理的文本进行实体标注,最后将语料库分为训练集和测试集。
所述实体标注采用BIESO标注方法,其中B、I、E、S分别代表实体的开端、内部、尾部、单词为实体标签,O代表非实体标签;BIES标签后对应实体类别标签,包括ENGP、FAU、CAU和SOL,ENGP表示发动机零部件、FAU表示故障表现、CAU表示故障原因和SOL表示故障处理方法。
所述文本数据分布式表示是指将经过预处理后的词语与其对应的词性作为整体,利用BERT语言模型获得“词+词性”的特征向量。
所述BiLstm是指正反双向的Lstm网络。
本发明的有益效果是:
1、本发明构建了面向汽车发动机故障诊断命名实体识别相关的数据集,并通过BERT语言模型获取“词+词性”向量,有效考虑了故障诊断知识实体句法特征明显的特点,同时解决了由实体全文标签不一致而影响知识实体识别准确率的问题。
2、本发明在BiLstm神经网络后引入Attention机制捕捉文本特征中较为重要的部分,有效解决了故障诊断知识实体内部存在大量修饰词干扰的问题。
3、本发明可以有效地提取出汽车发动机故障诊断文本数据中的发动机零部件、故障表现、故障原因和故障处理方法,为后续进一步的数据分析利用提供基础。
附图说明
图1为本发明流程图;
图2为本发明模型结构图;
图3为BiLstm模型结构图。
具体实施方式
实施例1:如图1-3所示,一种面向汽车发动机故障诊断的命名实体识别方法,所述方法步骤如下:
步骤1:建立汽车发动机故障诊断命名实体识别文本语料库;
步骤2:对语料库进行预处理;
步骤3:对预处理后的文本数据进行分布式表示,通过BERT语言模型得到文本预训练“词+词性”向量;
步骤4:将得到的文本预训练“词+词性”向量输入到BiLstm神经网络中进行文本特征提取;
步骤5:在BiLstm神经网络后引入Attention机制捕捉文本特征中较为重要的部分;其中,较为重要的部分指文本特征中可以组成知识实体的部分(如:针对“冷却液经常出现温度过高”这一类的实体,因为认为”经常出现“这两个词不宜组成知识实体,这两个不相关词的存在对”冷却液温度过高“这一故障实体的识别会形成干扰,因此我们引进Attention机制来降低无关词的干扰,即”捕捉文本中较为重要的部分);
步骤6:结合CRF模型,得到汽车发动机故障诊断命名实体识别的最优标注序列。
进一步地,可以设置所述汽车发动机故障诊断命名实体语料库由包括汽车发动机维修保养记录、汽车发动机故障诊断学术论文、汽车发动机故障诊断专利申请在内的含有汽车发动机故障诊断数据的文本组成。
进一步地,可以设置所述语料库预处理具体为:首先使用分词软件对语料库进行分词(如先使用中科院的ICTCLAS分词工具对语料数据进行分词),其次对分词后的文本进行词性标注,再对经分词和词性标注后的文本过滤停用词,接着对经上述处理的文本进行实体标注,最后将语料库分为训练集和测试集。
进一步地,可以设置所述实体标注采用BIESO标注方法,其中B、I、E、S分别代表实体的开端、内部、尾部、单词为实体标签,O代表非实体标签;BIES标签后对应实体类别标签,包括ENGP、FAU、CAU和SOL,ENGP表示发动机零部件、FAU表示故障表现、CAU表示故障原因和SOL表示故障处理方法。如,标注为:B-FAU等等形式。假设一段文本内容为“生活中经常遇到汽车发动机无法启动或者多次启动的现象90%是由于蓄电池电量不足引起的”,其标注结果如表1所示。
表1文本标注实例
分词 | 词性 | 标注 | 分词 | 词性 | 标注 |
生活中 | adv | O | 的 | par | O |
经常 | adv | O | 现象 | noun | O |
遇到 | verb | O | 90% | nun | O |
汽车 | noun | B-NEGP | 是 | verb | O |
发动机 | noun | E-ENGP | 由于 | pre | O |
无法 | adv | B-FAU | 蓄电池 | noun | B-CAU |
启动 | verb | E-FAU | 电量 | noun | I-CAU |
或者 | conj | O | 不足 | adj | E-CAU |
多次 | num | B-FAU | 引起 | adv | O |
启动 | verb | E-FAU | 的 | par | O |
进一步地,可以设置所述文本数据分布式表示是指将经过预处理后的词语与其对应的词性作为整体,利用BERT语言模型获得“词+词性”的特征向量。
进一步地,可以设置所述BiLstm是指正反双向的Lstm网络。其中一个Lstm在某一时刻t沿着正向时序获得上文信息另一个Lstm沿着逆向时序获得下文信息将t时刻的两个Lstm的隐藏层向量连接起来,形成BiLstm在该时刻的输出ht表示当前时刻t的上下文信息。
进一步地,所述的Attention机制的计算方法为:
eki=vtanh(Whk+Uhi+b)
hk'=H(C,h(k-1)')
其中,hk'计算的是注意力概率分布的语义编码,aki计算的是结点i对于结点k的注意力权重。T为输入序列的单词数目,v、W、U为权重矩阵,b是一个偏执项,开始是随机生成的,训练的过程中不断调b的大小使模型性能达到最优。Attention机制的输入为BiLSTM的输出;hi为BiLSTM模型中的前向输出hk为BiLSTM模型中反向输出BiLSTM输出的所有结果都进入Attention进行计算。C是语义编码。
hk'为最终的特征向量。
进一步地,所述的CRF序列标注计算方法为:
用X=[x1,x2,....,xn-1,xn]表示输入文本向量序列,P=[v1,v2,...,vn-1,vn]表示Attention机制学习到的特征向量,对于一个预测序列y=[y1,y2,...,yn-1,yn],其中yt为t时刻的输入向量xt预测标签索引,则该预测序列的得分值为:
其中,A为转移矩阵,即Ai,j为标签i到标签j的转移概率。在原输入序列X的条件下产生标记序列y的概率为:
其中YX表示对于输入序列X所有可能出现的标记序列集合。对于正确的预测结果序列y,训练过程中需要最大化序列的对数概率:
预测时,选择预测结果,使得其预测概率最大:
得到汽车发动机故障诊断命名实体识别的最优标注序列。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.一种面向汽车发动机故障诊断的命名实体识别方法,其特征在于:所述方法步骤如下:
步骤1:建立汽车发动机故障诊断命名实体识别文本语料库;
步骤2:对语料库进行预处理;
步骤3:对预处理后的文本数据进行分布式表示,通过BERT语言模型得到文本预训练“词+词性”向量;
步骤4:将得到的文本预训练“词+词性”向量输入到BiLstm神经网络中进行文本特征提取;
步骤5:在BiLstm神经网络后引入Attention机制捕捉文本特征中较为重要的部分;其中,较为重要的部分指文本特征中可以组成知识实体的部分;
步骤6:结合CRF模型,得到汽车发动机故障诊断命名实体识别的最优标注序列。
2.根据权利要求1所述的面向汽车发动机故障诊断的命名实体识别方法,其特征在于:所述汽车发动机故障诊断命名实体语料库由包括汽车发动机维修保养记录、汽车发动机故障诊断学术论文、汽车发动机故障诊断专利申请在内的含有汽车发动机故障诊断数据的文本组成。
3.根据权利要求1所述的面向汽车发动机故障诊断的命名实体识别方法,其特征在于:所述语料库预处理具体为:首先使用分词软件对语料库进行分词,其次对分词后的文本进行词性标注,再对经分词和词性标注后的文本过滤停用词,接着对经上述处理的文本进行实体标注,最后将语料库分为训练集和测试集。
4.根据权利要求3所述的面向汽车发动机故障诊断的命名实体识别方法,其特征在于:所述实体标注采用BIESO标注方法,其中B、I、E、S分别代表实体的开端、内部、尾部、单词为实体标签,O代表非实体标签;BIES标签后对应实体类别标签,包括ENGP、FAU、CAU和SOL,ENGP表示发动机零部件、FAU表示故障表现、CAU表示故障原因和SOL表示故障处理方法。
5.根据权利要求1所述的面向汽车发动机故障诊断的命名实体识别方法,其特征在于:所述文本数据分布式表示是指将经过预处理后的词语与其对应的词性作为整体,利用BERT语言模型获得“词+词性”的特征向量。
6.根据权利要求1所述的面向汽车发动机故障诊断的命名实体识别方法,其特征在于:所述BiLstm是指正反双向的Lstm网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910802054.2A CN110705272A (zh) | 2019-08-28 | 2019-08-28 | 一种面向汽车发动机故障诊断的命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910802054.2A CN110705272A (zh) | 2019-08-28 | 2019-08-28 | 一种面向汽车发动机故障诊断的命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110705272A true CN110705272A (zh) | 2020-01-17 |
Family
ID=69193740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910802054.2A Pending CN110705272A (zh) | 2019-08-28 | 2019-08-28 | 一种面向汽车发动机故障诊断的命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110705272A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101027A (zh) * | 2020-07-24 | 2020-12-18 | 昆明理工大学 | 基于阅读理解的中文命名实体识别方法 |
CN112417874A (zh) * | 2020-11-16 | 2021-02-26 | 珠海格力电器股份有限公司 | 命名实体的识别方法和装置、存储介质、电子装置 |
CN113779992A (zh) * | 2021-07-19 | 2021-12-10 | 西安理工大学 | 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法 |
CN114004230A (zh) * | 2021-09-23 | 2022-02-01 | 杭萧钢构股份有限公司 | 一种生产钢结构的工控调度方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359291A (zh) * | 2018-08-28 | 2019-02-19 | 昆明理工大学 | 一种命名实体识别方法 |
CN109522553A (zh) * | 2018-11-09 | 2019-03-26 | 龙马智芯(珠海横琴)科技有限公司 | 命名实体的识别方法及装置 |
CN109657239A (zh) * | 2018-12-12 | 2019-04-19 | 电子科技大学 | 基于注意力机制和语言模型学习的中文命名实体识别方法 |
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN110008472A (zh) * | 2019-03-29 | 2019-07-12 | 北京明略软件系统有限公司 | 一种实体抽取的方法、装置、设备和计算机可读存储介质 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
-
2019
- 2019-08-28 CN CN201910802054.2A patent/CN110705272A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359291A (zh) * | 2018-08-28 | 2019-02-19 | 昆明理工大学 | 一种命名实体识别方法 |
CN109522553A (zh) * | 2018-11-09 | 2019-03-26 | 龙马智芯(珠海横琴)科技有限公司 | 命名实体的识别方法及装置 |
CN109657239A (zh) * | 2018-12-12 | 2019-04-19 | 电子科技大学 | 基于注意力机制和语言模型学习的中文命名实体识别方法 |
CN110008472A (zh) * | 2019-03-29 | 2019-07-12 | 北京明略软件系统有限公司 | 一种实体抽取的方法、装置、设备和计算机可读存储介质 |
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
Non-Patent Citations (1)
Title |
---|
冀相冰 等: "基于注意力机制的包装命名实体识别", 《包装工程》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101027A (zh) * | 2020-07-24 | 2020-12-18 | 昆明理工大学 | 基于阅读理解的中文命名实体识别方法 |
CN112417874A (zh) * | 2020-11-16 | 2021-02-26 | 珠海格力电器股份有限公司 | 命名实体的识别方法和装置、存储介质、电子装置 |
CN113779992A (zh) * | 2021-07-19 | 2021-12-10 | 西安理工大学 | 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法 |
CN114004230A (zh) * | 2021-09-23 | 2022-02-01 | 杭萧钢构股份有限公司 | 一种生产钢结构的工控调度方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110705272A (zh) | 一种面向汽车发动机故障诊断的命名实体识别方法 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN108509521B (zh) | 一种自动生成文本索引的图像检索方法 | |
CN110415071B (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
CN112883171B (zh) | 基于bert模型的文档关键词抽取方法及装置 | |
CN110750635A (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN107357785A (zh) | 主题特征词抽取方法及系统、情感极性判断方法及系统 | |
CN112434164A (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN109446522B (zh) | 一种试题自动分类系统及方法 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN112711944B (zh) | 一种分词方法、系统、分词器生成方法及系统 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN113157918A (zh) | 一种基于注意力机制的商品名称短文本分类方法和系统 | |
CN112286799A (zh) | 结合句嵌入和粒子群优化算法的软件缺陷定位方法 | |
CN111460147A (zh) | 一种基于语义增强的标题短文本分类方法 | |
CN111753067A (zh) | 一种技术交底文本创新性评估方法、装置和设备 | |
Perdana et al. | Instance-based deep transfer learning on cross-domain image captioning | |
CN116010567A (zh) | 关键词抽取方法及装置 | |
CN113392191B (zh) | 一种基于多维度语义联合学习的文本匹配方法和装置 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 | |
CN114996455A (zh) | 一种基于双知识图谱的新闻标题短文本分类方法 | |
CN111460160B (zh) | 一种基于强化学习的流式文本数据的事件聚类方法 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN108256055B (zh) | 一种基于数据增强的主题建模方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200117 |