CN117933249A - 一种装备故障知识的智能交互方法及系统 - Google Patents

一种装备故障知识的智能交互方法及系统 Download PDF

Info

Publication number
CN117933249A
CN117933249A CN202410114714.9A CN202410114714A CN117933249A CN 117933249 A CN117933249 A CN 117933249A CN 202410114714 A CN202410114714 A CN 202410114714A CN 117933249 A CN117933249 A CN 117933249A
Authority
CN
China
Prior art keywords
model
knowledge
fault
equipment fault
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410114714.9A
Other languages
English (en)
Inventor
沈延安
杨克泉
张明义
戴文瑞
郭凯
黄荣凯
陈强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA Army Academy of Artillery and Air Defense
Original Assignee
PLA Army Academy of Artillery and Air Defense
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA Army Academy of Artillery and Air Defense filed Critical PLA Army Academy of Artillery and Air Defense
Priority to CN202410114714.9A priority Critical patent/CN117933249A/zh
Publication of CN117933249A publication Critical patent/CN117933249A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种装备故障知识智能交互方法及系统,该方法的实现步骤包括:在应用BERT模型提取文本信息特征的基础上,应用BERT‑BiLSTM‑CRF模型实现故障知识的实体识别和关系抽取;融合应用ELECTRA模型实现故障知识的意图识别,并对其参数进行微调优化;综合应用Neo4j、PyCharm等软件构建出准确有效的装备故障知识图谱,为系统提供原始抽取语料;应用关系抽取、知识融合、相似度匹配等算法等算法抽取提问问题的精确答案或解决办法;采用htm+css+js+bootstrap前端关键技术、Django后端关键技术以及基于PaddleSpeech+Recorder.js插件的语音识别技术搭建系统运行的编程环境。本发明解决了目前复杂装备故障知识交互方法及系统存在故障知识意图识别准确率较低、智能问答人机交互性差、模型要求设备性能和使用环境较高的技术问题。

Description

一种装备故障知识的智能交互方法及系统
技术领域
本发明涉及装备故障知识管理技术领域,具体涉及一种装备故障知识的智能交互方法及系统。
背景技术
随着知识图谱、大数据、神经网络等信息化智能化技术在装备领域的不断创新应用,装备在使用、维修保障等过程中产生的故障数据类型与量级呈现指数增长趋势。据相关研究机构调查结果显示,装备产生的故障数据有80%以上是非(半)结构化数据。因此,开展研究装备非(半)结构化故障数据的转化和应用工作,已成为热点的研究课题。目前,在装备维修保障工作中,很难将浩如烟海的非(半)结构化装备故障数据转化为准确有效的故障知识,尚未实现人机智能交互过程中故障知识的实体识别、关系抽取、意图识别等层面的科学运用。特别是基于非(半)结构化数据的故障知识交互过程中意图识别难、准确率不高等问题,已成为充分挖掘非(半)结构化装备故障数据利用价值的紧要难题。
为解决基于半(非)结构化数据的故障知识交互过程中意图识别难,准确率不高问题,国内外研究学者按照故障数据的结构特点,致力研究一种基于知识图谱的非(半)结构化智能交互方法,从而实现对非(半)结构化故障数据的精细化管理和深度关联分析运用等。现有发明专利申请文献如表1所示。
现有专利文献对实体识别、关系抽取的模型各有异同,特别是意图识别的算法或模型更是不尽相同。公布号为CN116644192A的现有发明专利申请文献《基于航空器部件可靠性的知识图谱构建方法》应用朴素贝叶斯模型进行意图识别,但存在意图分类效果不好、预测效果不佳以及存在较大错误率等问题;公布号为CN115700512A的现有发明专利申请文献《一种基于知识图谱的车辆故障推理方法》应用强化学习算法(Actor-Critic)进行意图识别,但存在神经网络收敛难、参数更新相关性强以及神经网络片面识别意图等问题;公布号为CN116821423A的现有发明专利申请文献《配电网智能解析和知识型故障处理辅助系统及方法》应用机械算法(TF-IDF)进行意图识别,但存在算法结构简单不能有效地反映意图的重要程度、也无法体现意图的位置信息以及意图识别的精度较低等问题;公布号为CN115858807A的现有发明专利申请文献《一种基于航空装备故障知识图谱的问答系统》应用BERT模型进行意图识别,但存在计算资源消耗时间长、模型性能和学习能力较差、难以处理较长的文本以及识别中文语言困难等问题;公布号为CN116822625A的现有发明专利申请文献《一种发散式关联的风机设备运检知识图谱构建及检索方法》应用BERT-BiLSTM-CRF模型进行实体识别、关系抽取,但存在抽取准确率不高、人机智能交互性较弱以及语义查询方式方法相对单一的问题。
综上,目前复杂装备故障知识交互方法及系统存在故障知识意图识别准确率较低、智能问答人机交互性差、模型对设备性能和使用环境要求较高的问题。
发明内容
本发明所要解决的技术问题在于:解决目前复杂装备故障知识交互方法及系统存在故障知识意图识别准确率较低、智能问答人机交互性差、模型对设备性能和使用环境要求较高的问题。
本发明是采用以下技术方案解决上述技术问题,一种装备故障知识智能交互方法包括:
S1、综合利用双向Transformer神经网络和MASK语言模型对输入的文本信息进行特征提取和分词处理,并利用[CLS]和[SEP]等特殊标记进行标注和分隔,从而使输出的每个词都包含字向量、句向量和位置向量等丰富语义特征;
S2、实体识别和关系抽取采用BERT-BiLSTM-CRF模型结构,以预训练模型BERT作为位置信息转化为特征向量的模型结构,而后将BERT模型转化的特征向量作为BiLSTM网络模型的输入,利用BiLSTM网络模型的正、反向作用将隐藏向量转化为定长的文本向量,最后将该文本向量输入至条件随机场CRF模型中,利用CRF中的状态转移矩阵捕捉实体标签之间的依赖性,从而提高实体识别的效果,并找到位置信息的最佳标签;
具体地,标注语料经过BERT预训练语言模型获得相应的词向量,再把词向量输入到BiLSTM模型中做进一步处理;利用BiLSTM模型的前向LSTML依次输入“BERT预训练语言模型获得相应的词向量”得到相应的正向向量,同时利用BiLSTM模型的后向LSTMR依次反向输入“BERT预训练语言模型获得相应的词向量”得到相应的反向向量;将前向LSTML隐含层输出的向量(隐向量)和后向LSTMR隐含层输出的向量(隐向量)进行拼接得到具有前、后向向量(隐向量)的组合向量矩阵,并转化为定长文本向量;将所述定长文本向量输入条件随机场CRF模型,利用所述条件随机场CRF模型中的状态转移矩阵,捕捉实体标签之间的依赖性,获取位置信息最佳标签;
S3、意图识别采用ELECTRA模型结构,并对其参数进行微调。在微调过程中,调整的是判别器部分的权重参数,不断学习训练数据集中的语义信息,让生成的向量和隐藏向量之间尽可能相似,这个过程旨在帮助模型学习到真实文本数据的语言特征,同时提高模型在判断不真实文本数据时的鲁棒性和准确性。
S4、根据装备故障数据的海量性、复杂性以及故障知识的专业性、准确性要求,按照知识本体构建、关系抽取、知识融合、知识存储以及知识加工等步骤进行构建装备故障知识图谱。
S5、综合运用关系抽取、知识融合、相似度匹配等算法,支持装备故障知识智能交互方法及系统实现对故障问题的智能咨询与智慧检索服务功能,据以生成故障问题的精确问答信息;
S6、根据预置平台数据、装备故障知识图谱、预置编程环境信息、编辑器以及模型训练框架,采用基于PaddleSpeech+Recorder.js插件的语音识别作为系统实现语音智能交互技术,完成装备故障知识智能交互系统的环境搭建操作,以进行装备故障知识的智能交互。
本发明根据装备故障数据的海量性、复杂性、预构性以及故障知识的专业性、准确性要求,构建出基于BERT-BiLSTM-CRF-ELECTRA模型和故障知识图谱的装备故障知识智能交互方法及系统。该方法及系统能够有效管理和利用装备产生的大量状态数据、故障数据以及故障先验知识,形成具有某型装备故障知识更新迭代特色的数据管理系统,能够满足装备的维修保障需求,为解决装备维修保障专业知识缺乏和故障数据资源浪费严重的问题提供一种有效手段。
在更具体的技术方案中,步骤S1包括:
S11、利用下述逻辑,对字向量矩阵进行线性映射:
MultiHead(A,B,C)=Concat(head1,…,headn)WO
headi=Attention(AWi A,BWi B,CWi C)
式中:A,B,C为字向量矩阵;dk为k维度的调节平滑因子;AWA i、AWB i、AWC i为单头计算中,输入参数经过线性变换后得到可变参数的矩阵;WO为可以学习的矩阵,随着训练的变化其参数也随之变化。
S12、利用下述逻辑,表达Transformer编码器中的全链接前馈网络FFN:
FFN(V)=max(0,VW1+a1)W2+a2
式中:a1、a2为偏置向量;VW1、W2为多头注意力机制输出V的权重矩阵。
在更具体的技术方案中,步骤S2包括:
S21、利用下述逻辑,设置LSTM单元结构,据以处理得到正、反LSTM网络处理文本信息:
式中,it为输入门的输出结果;zt为待增加的内容;ft为遗忘门的输出结果;ct是t时刻的更新状态;ot为输出门的输出结果;σ为激活函数;a为偏置向量;W为权重矩阵;ht则是整个LSTM单元t时刻的输出;Wxi、Whi、Wci为输入门的权重矩阵;Wxc、Whc为待增加内容的权重矩阵;Wxf、Whf、Wcf为遗忘门的权重矩阵;Wxo、Who、Wco为t时刻更新状态的权重矩阵;bi、bc、bf、bo为相应的误差。
S22、利用BiLSTM模型,合并处理每个时刻的正、反LSTM网络处理文本信息,其中,利用下述逻辑表达BiLSTM模型:
S23、设任意序列:
B=(b1,b2,...,bn)
S24、根据任意序列,处理得到预测序列:
O=(o1,o2,...,on)
S25、根据预测序列及任意序列,利用下述逻辑处理得到预测序列的分数函数S(B,O)、概率函数P(O/B):
式中,H为BiLSTM的输出得分矩阵,H的大小为n×m,n为词的个数,m为标签个数,Hij表示第i个词的第j个标签的分数,Z为转移分数矩阵,Zij表示标签i转移为标签j的分数。
S26、利用下述逻辑,通过取对数操作,得到预测序列的似然函数,据以解码得到预测序列的最大分数输出序列,以作为最优预测序列:
式中,为真实的标注序列,OB为所有可能的标注序列。
本发明是针对现有装备故障知识交互方法及系统存在故障知识抽取准确率较低、智能问答人机交互性较差、模型要求设备性能和使用环境较高的问题,综合运用BERT-BiLSTM-CRF模型实现故障知识图谱的实体抽取和关系抽取,实现了人机交互的故障知识智慧搜索和诊断维修知识的智能问答两大功能。智慧抽取是指自然语言文本与知识图谱非(半)结构化数据之间的相互转化过程,主要包含两方面工作:一方面是抽取出装备维修保障的专业知识,按照故障知识三元组关系转化成故障知识图谱;另一方面是将故障知识图谱非(半)结构化数据转化为自然语言文本,易于用户理解。
在更具体的技术方案中,步骤S3包括:
S31、意图识别采用ELECTRA模型结构。该模型主要由生成器(generator)和判别器(discriminator)两大部分组成,能够对BERT模型的参数进行优化训练。ELECTRA模型的预训练可以分为两部分,生成器(generator)部分是MLM模型,利用该模型对挖掉15%的词进行预测,并将其进行替换,若替换的词不是原词,则打上被替换的标签,语句的其他词则打上没有替换的标签;判别器(discriminator)部分是通过训练出一个判别模型,对所有位置的词进行替换识别,此时预测模型转换成一个二分类模型,从而提升模型运算的效率和加快神经网络的收敛速度。
S32、根据意图识别数据集对Electra模型进行微调。在微调过程中,调整的是判别器部分的权重参数,不断学习训练数据集中的语义信息,让生成的向量和隐藏向量之间尽可能相似,这个过程旨在帮助模型学习到真实文本数据的语言特征,同时提高模型在判断不真实文本数据时的鲁棒性和准确性。模型微调过程中的参数设置:在文本输入阶段,句子最大截断长度设置为128,每个训练批次内,句子数量为16。在词向量表示阶段,采用了预训练模型Electra,向量维度为Electra默认的768维,在语意编码阶段,采用了Electra默认的12层Transformer编码器,在模型训练阶段,将损失率设置为0.1,学习率设置为5e-5,训练周期为10个epoch,具体参数设置如下所示:
表2超参数设置
参数名称 参数意义 参数值
max_seq_length 句子最大截断长度 128
batch_size 单个批次内句子数量 16
model_name Bert版本 chinese-electra-base
learning_rate 学习率 5e-5
drop_out 损失率 0.1
epochs 训练轮次 10
log_step 日志输出频率 30
S33、利用下述逻辑,计算不同实体的相似度、设定阈值,以进行判断融合:
式中,Q1、Q2分别是两个不同实体;S(Q)为实体Q的属性集合;Sim是两个不同实体的相识度值。
S34、利用下述逻辑进行加权操作,以计算P(ai|bj)值:
设:A=(a1,a2,…,an),B=(b1,b2,…,bj)
式中,A表示故障问题信息A分词后得到n个特征词向量;B表示故障问题分类数量为j个;P(bj)表示故障问题类别bj的先验概率;P(ai|bj)表示特征词向量ai在某一故障问题类别bj中的发生概率;k表示核心词影响问题分类的重要程度。
本发明通过意图识别,根据用户输入的自然语言文本,识别理解用户所表达的意图类型,能够通过意图识别来对用户提出的问题进行分类和理解,从而给出相应的回答或建议。意图识别模型根据整理的数据集对ELECTRA模型参数进行微调,在微调过程中,调整的是判别器部分的权重参数,不断学习训练数据集中的语义信息,让生成的向量和隐藏向量之间尽可能相似,这个过程旨在帮助模型学习到真实文本数据的语言特征,同时提高模型在判断不真实文本数据时的鲁棒性和准确性。
本发明融合运用ELECTRA模型的思路主要是通过运用小的生成模型替代普通的学习模型来提高效果。该模型的做法是先假设句子中每个字符都是由原字符经过随机替换得到的,然后用一个小型的生成模型去学习替换原字符的规律。这样的转换可以带来效率的提升,能够对所有位置的词进行预测,使网络模型收敛速度更快。
在更具体的技术方案中,步骤S4包括:
S41、知识本体构建,主要是建立与装备故障知识、维修保障概念相关的各类规范,是构建故障知识图谱的重要依据,同时也是装备故障知识库中的模具;
S42、知识抽取,主要是将装备的结构化、半结构化或非结构化的故障数据按照实体、属性及其关系的三元组形式进行抽取,并存储到装备故障知识图谱库中;
S43、知识融合,主要是对装备故障知识图谱库的冗余和错误信息进行整合、消歧和对齐,从而提高故障知识图谱库的质量;
S44、知识存储,主要是将装备产生的各类故障知识按照“实体—关系—属性、实体—关系—实体”等三元组形式进行储存,便于故障知识的有效管理;
S45、知识加工,主要是采用知识推理、质量评估等方法解决装备故障知识库中的知识矛盾性和不一致性问题。
在更具体的技术方案中,步骤S42中,利用下述逻辑,计算自注意力层计算特征词的权重、实体关系概率分布p:
a=softmax(vatt·[tanh(H)T])
p=softmax(W·[tanh(a·H)T+bT])
H=(H1,H2,H3,...,Hn)T
式中,H为n*2u维度的特征矩阵;W为c*2u维度的权重矩阵,根据定义c一般取值为12;vatt为2u维度的权重向量,u为BiLSTM神经网络隐藏层的数量;b为n维度的偏置参数向量;tanh(·)为双曲正切激活函数;softmax(·)为归一化指数函数。
在更具体的技术方案中,步骤S43中,利用下述逻辑,计算不同实体的相似度、设定阈值,以进行判断融合:
式中,Q1、Q2分别是两个不同实体;S(Q)为实体Q的属性集合;Sim是两个不同实体的相识度值。
本发明能够有效管理和利用装备产生的大量状态数据、故障数据以及故障先验知识。根据装备故障数据的海量性、复杂性以及故障知识的专业性、准确性要求,构建出装备故障知识图谱,形成具有某型装备故障知识更新迭代特色的数据管理系统,能够满足装备的维修保障需求,为解决装备维修保障专业知识缺乏和故障数据资源浪费严重的问题提供一种有效手段。
在更具体的技术方案中,步骤S5包括:
S51、利用下述逻辑进行加权操作,以计算P(ai|bj)值:
设:A=(a1,a2,…,an),B=(b1,b2,…,bj)
式中,A表示故障问题信息A分词后得到n个特征词向量;B表示故障问题分类数量为j个;P(bj)表示故障问题类别bj的先验概率;P(ai|bj)表示特征词向量ai在某一故障问题类别bj中的发生概率;k表示核心词影响问题分类的重要程度。
S52、利用下述逻辑,计算不同实体的相似度、设定阈值,以进行判断融合:
式中,Q1、Q2分别是两个不同实体;S(Q)为实体Q的属性集合;Sim是两个不同实体的相识度值。
S53、利用下述逻辑,计算自注意力层计算特征词的权重、实体关系概率分布p:
a=softmax(vatt·[tanh(H)T])
p=softmax(W·[tanh(a·H)T+bT])
H=(H1,H2,H3,...,Hn)T
式中,H为n*2u维度的特征矩阵;W为c*2u维度的权重矩阵,根据定义c一般取值为12;vatt为2u维度的权重向量,u为BiLSTM神经网络隐藏层的数量;b为n维度的偏置参数向量;tanh(·)为双曲正切激活函数;softmax(·)为归一化指数函数。
在更具体的技术方案中,步骤S6包括:
S61、装备故障知识智能交互系统界面技术采用htm+css+js+bootstrap的前端关键技术和Django的后端关键技术。Django是一个开源的Web应用框架,它基于MVC(Model-View-Controller)架构模式,旨在帮助开发者快速构建高质量的Web应用程序。Django的主要目标是使Web开发尽可能地简单、快速和安全。Django提供了很多强大的功能,包括自动化ORM(Object Relational Mapping)映射、管理站点、表单处理、认证系统、缓存、分页、RSS生成等。Django还具有丰富的插件库和文档,可以帮助开发者更加高效地开发Web应用程序。Django设计上注重可重用性和可扩展性,它使用Python语言编写,因此Django具有Python语言的所有优点。Django框架的核心组件包括URL路由系统、视图函数、模板系统、ORM等。总而言之,Django是一款功能强大、易于使用且高度可定制的Web应用框架,它可以帮助开发者快速构建高质量的Web应用程序,并且是开源的,拥有庞大的社区支持。Bootstrap是一个流行的前端开发框架,它提供了一组CSS、JavaScript和HTML代码,可以帮助开发人员快速构建响应式、移动设备友好的网站和Web应用程序。使用Bootstrap,开发人员可以轻松地创建各种类型的UI元素,例如导航栏、按钮、表单、模态框等等,并使用预定义的CSS类来调整它们的样式和排版。此外,Bootstrap还提供了响应式网格系统,使开发人员能够轻松地创建适应不同屏幕大小的布局。因此,使用Bootstrap能够使开发人员更方便的编写页面和让页面更加美观。
S62、装备故障知识智能交互方法及系统采用基于PaddleSpeech+Recorder.js插件的语音识别作为系统实现语音智能交互技术,能够实现对装备某一个故障问题进行提问和智能回答,如果系统无法精确回答,则会根据相识度值的大小进行相似推荐回答具有相同故障原因和相同解决方法的有效答案。
S63、智能问答实现过程中,采用实体识别模型和意图识别模型对输入问题进行处理。例如输入问题是“你好,如果无人机转塔抖动,我应该怎么办”,系统的实体识别模型会对输入问题的实体进行识别,结果为“转塔抖动”故障,而后意图识别模型根据识别出的故障问题进行相应回答,结果为“询问原因和解决办法”,最后将两个模型的结果转换为Neo4j的查询语句,并从Neo4j数据库中查询出相应答案。
本发明能够实现对装备故障问题信息进行精确检索及展示,如果系统无法检索到精确的故障问题信息,则会根据相识度值Sim的大小进行推荐检索及展示具有相同故障原因或相同解决方法的故障问题信息。装备故障知识智能交互系统的智能问答功能能够实现对装备故障问题进行提问和智能回答,如果系统无法精确回答,则会根据相识度值Sim的大小进行相似推荐回答具有相同故障原因和相同解决方法的有效答案。目前,该领域针对装备故障知识智能交互系统还处于研发初始状态,结合装备发展的前景,本发明具有较大的研究价值和开发潜力。
在一种装备故障知识智能交互系统中,综合利用双向Transformer神经网络和MASK语言模型对输入的文本信息进行特征提取和分词处理,并利用[CLS]和[SEP]等特殊标记进行标注和分隔,从而使输出的每个词都包含字向量、句向量和位置向量等丰富语义特征。
实体识别和关系抽取采用BERT-BiLSTM-CRF模型结构,以预训练模型BERT作为位置信息转化为特征向量的模型结构,而后将BERT模型转化的特征向量作为BiLSTM网络模型的输入,利用BiLSTM网络模型的正、反向作用将隐藏向量转化为定长的文本向量,最后将该文本向量输入至条件随机场CRF模型中,利用CRF中的状态转移矩阵捕捉实体标签之间的依赖性,从而提高实体识别的效果,并找到位置信息的最佳标签。
意图识别采用ELECTRA模型结构,并对其参数进行微调。在微调过程中,调整的是判别器部分的权重参数,不断学习训练数据集中的语义信息,让生成的向量和隐藏向量之间尽可能相似,这个过程旨在帮助模型学习到真实文本数据的语言特征,同时提高模型在判断不真实文本数据时的鲁棒性和准确性。
根据装备故障数据的海量性、复杂性以及故障知识的专业性、准确性要求,按照知识本体构建、关系抽取、知识融合、知识存储以及知识加工等步骤进行构建装备故障知识图谱。
综合运用关系抽取、知识融合、相似度匹配等算法,支持装备故障知识智能交互方法及系统实现对故障问题的智能咨询与智慧检索服务功能,据以生成故障问题的精确问答信息。
根据预置平台数据、装备故障知识图谱、预置编程环境信息、编辑器以及模型训练框架,采用基于PaddleSpeech+Recorder.js插件的语音识别作为系统实现语音智能交互技术,完成装备故障知识智能交互系统的环境搭建操作,以进行装备故障知识的智能交互。
本发明与现有技术相比具有以下优点:
装备故障知识智能交互方法及系统的实体识别和关系抽取采用BERT-BiLSTM-CRF模型结构,以预训练模型BERT作为位置信息转化为特征向量的模型结构,而后将BERT模型转化的特征向量作为BiLSTM网络模型的输入,利用BiLSTM网络模型的正、反向作用将隐藏向量转化为定长的文本向量,最后将该文本向量输入至条件随机场CRF模型中,利用CRF中的状态转移矩阵捕捉实体标签之间的依赖性,从而提高实体识别和关系抽取的效果,并找到位置信息的最佳标签。
装备故障知识智能交互方法及系统的意图识别采用ELECTRA模型结构,并对其参数进行微调。在微调过程中,调整的是判别器部分的权重参数,不断学习训练数据集中的语义信息,让生成的向量和隐藏向量之间尽可能相似,这个过程旨在帮助模型学习到真实文本数据的语言特征,同时提高模型在判断不真实文本数据时的鲁棒性和准确性。ELECTRA模型是一种新的模型预训练框架,采用Generator和Discriminator的结合方式,但又不同于GAN,主要是将Masked Language Model的方式改为了rcolaced taken catecton。ELECTRA模型的masked language model能够有效地学习到centext的信息,采用weight sharing的方式将Generator的embeddinal信息共享给Discriminator。同时,Discriminator能够预测Generator输出的每个token是不是来自original,从而高效地更新transfomer的各个参数,使得模型的训练速度加快。ELECTRA模型采用小型的Generator和Discriminator来共同训练,并且采用两者loss相加,使Discriminator的学习难度逐渐地提升,能够学习到更难的token信息。ELECTRA模型在fine-tuning的时候,丢弃Generator,只使用Discriminator,从而提高模型的效率和收敛速度。
装备故障知识智能交互系统界面技术采用htm+css+js+bootstrap的前端关键技术和Django的后端关键技术,使系统开发尽可能地简单、快速和安全。同时,使开发人员能够轻松地创建出适应不同屏幕大小的布局,更加方便的编写系统页面,让页面更加美观。
装备故障知识智能交互方法及系统的人机智能交互技术采用基于PaddleSpeech+Recorder.js插件的语音识别技术,可为系统提供高效、准确、灵活、流畅的语音识别功能。
本发明在基于BERT-BiLSTM-CRF模型实现装备故障知识图谱实体与关系抽取的基础上,设计应用ELECTRA模型对BERT模型参数进行优化训练,实现意图识别且准确率达到96.3%,实体识别与关系抽取准确率可达到99.53%,并采用htm+css+js+bootstrap前端关键技术、Django后端关键技术、Java Spring Boot和Python Django的组合服务框架以及基于PaddleSpeech+Recorder.js插件的语音识别技术提高人机智能交互性,保证了装备故障知识智能交互方法及系统具有配置要求低、运行速度快、抽取和识别准确率高以及使用方便等优点。
本发明根据装备故障数据的海量性、复杂性以及故障知识的专业性、准确性要求,构建出基于BERT-BiLSTM-CRF-ELECTRA模型和故障图谱的装备故障知识智能交互系统。该系统能够有效管理和利用装备产生的大量状态数据、故障数据以及故障先验知识,能够满足装备的维修保障需求,为解决装备维修保障专业知识缺乏和故障数据资源浪费严重的问题提供一种有效手段。目前,该领域针对装备故障知识智能交互系还处于研发初始状态,结合装备发展的前景,本发明具有较大的研究价值和开发潜力。
本发明所要解决的技术问题在于:解决目前复杂装备故障知识交互方法及系统存在故障知识意图识别准确率较低、智能问答人机交互性差、模型要求设备性能和使用环境较高的问题。
附图说明
图1为本发明实施例1的一种装备故障知识智能交互方法基本步骤示意图;
图2为本发明实施例1的BERT模型示意图;
图3为本发明实施例1的BERT词向量示意图;
图4为本发明实施例1的编码器结构示意图;
图5为本发明实施例1的LSTM单元结构示意图;
图6为本发明实施例1的BiLSTM模型示意图;
图7为本发明实施例1的CRF模型示意图;
图8为本发明实施例1的BERT-BiLSTM-CRF模型示意图;
图9为本发明实施例1的实体识别和关系抽取代码示意图;
图10为本发明实施例1的ELECTRA模型示意图;
图11为本发明实施例1的意图识别模型示意图;
图12为本发明实施例1的意图识别代码示意图;
图13为本发明实施例1的装备故障知识图谱构建示意图;
图14为本发明实施例1的系统界面技术代码示意图;
图15为本发明实施例1的装备故障知识智能交互系统界面示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本发明提供的一种装备故障知识智能交互方法及系统包括以下基本步骤:
S1、综合利用双向Transformer神经网络和MASK语言模型对输入的文本信息进行特征提取和分词处理,并利用[CLS]和[SEP]等特殊标记进行标注和分隔,从而使输出的每个词都包含字向量、句向量和位置向量等丰富语义特征;在本实施例中,线性映射的表达式如下:
MultiHead(A,B,C)=Concat(head1,…,headn)WO
headi=Attention(AWi A,BWi B,CWi C)
式中:A,B,C为字向量矩阵;dk为k维度的调节平滑因子;AWA i、AWB i、AWC i为单头计算中,输入参数经过线性变换后得到可变参数的矩阵;WO为可以学习的矩阵,随着训练的变化其参数也随之变化。
在本实施例中,Transformer结构包括但不限于:ReLU、线性线性激活函数,设多头注意力机制的输出表示为V,a为偏置向量,则FFN(全链接前馈网络)的表达式如下:
FFN(V)=max(0,VW1+a1)W2+a2
其中,a1、a2为偏置向量;VW1、W2为多头注意力机制输出V的权重矩阵;
如图2、图3及图4所示,在本实施例中,BERT模型是综合利用双向Transformer神经网络和MASK语言模型对输入的文本信息进行特征提取和分词处理,并采用例如[CLS]和[SEP]等特殊标记进行标注和分隔,从而使输出的每个词都包含字向量、句向量和位置向量等丰富语义特征;
S2、实体识别和关系抽取采用BERT-BiLSTM-CRF模型结构,以预训练模型BERT作为位置信息转化为特征向量的模型结构,而后将BERT模型转化的特征向量作为BiLSTM网络模型的输入,利用BiLSTM网络模型的正、反向作用将隐藏向量转化为定长的文本向量,最后将该文本向量输入至条件随机场CRF模型中,利用CRF中的状态转移矩阵捕捉实体标签之间的依赖性,从而提高实体识别的效果,并找到位置信息的最佳标签。在本实施例中,设置的LSTM单元结构包括但不限于:遗忘门、输入门、输出门、记忆Cell;
如图5所示,在本实施例中,遗忘门和输入门是对输入的文本信息进行保留和删除处理,即是保留有用信息和删除无用信息;输出门和记忆Cell的输出的乘积就是整个文本信息的结构输出;
在本实施例中,LSTM单元结构的表达式如下:
其中,it为输入门的输出结果;zt为待增加的内容;ft为遗忘门的输出结果;ct是t时刻的更新状态;ot为输出门的输出结果;σ为激活函数;a为偏置向量;W为权重矩阵;ht则是整个LSTM单元t时刻的输出;Wxi、Whi、Wci为输入门的权重矩阵;Wxc、Whc为待增加内容的权重矩阵;Wxf、Whf、Wcf为遗忘门的权重矩阵;Wxo、Who、Wco为t时刻更新状态的权重矩阵;bi、bc、bf、bo为相应的误差;
在本实施例中,BiLSTM模型是将每个时刻正、反LSTM网络处理的文本信息进行合并。在本实施例中,BiLSTM模型的表达式如下:
在BiLSTM模型基础上融合应用CRF模型,根据相邻标签之间的依赖关系获得一个最优的预测序列;解决BiLSTM无法处理相邻标签之间的依赖关系问题;
如图6所示,在本实施例中,BiLSTM网络结构包括但不限于:输入层、正向传播层、反向传播层以及输出层;
在本实施例中,输入层将输入的中文语言信息映射成一个连续的数字化向量,即将“某装备发动机缸温过高”转化为例如:“某”“装”“备”“发”“动”“机”“缸”“温”“过”“高”单个词的向量;
在本实施例中,正向传播层、反向传播层捕获从前到后和从后到前的输入信息,使网络更加完整地读取输入的信息,即正向读取“某装备发动机缸温过高”,反向读取“高过温缸机动发备装某”;
在本实施例中,输出层整合正、反向LSTM网络层读取的信息,并将结果输出到相应的线性空间。BiLSTM网络结构既能够解决RNN的梯度消失和梯度爆炸问题,又能克服LSTM只关注从正向信息的缺陷,具有深度分析上下文关系信息和捕获文中潜在信息的优点,因此被广泛应用于实体识别、关系抽取、情感分析等自然语言处理领域;
如图7所示,在本实施例中,CRF是一种能够考虑序列标记顺序和相关性的模型,有效解决标签之间的依赖性。例如按照“装备故障”标注体系,在正确的序列中“装”一定在“故”的前面,而“故”不可能会出现在“装”和“备”之间。相对于RNN和LSTM网络而言,都难以避免错误序列的标注体系出现,但CRF模型能够很好的解决这个问题;
如图8所示,在本实施例中,装备故障知识智能交互方法及系统的实体识别和关系抽取采用BERT-BiLSTM-CRF模型结构,以预训练模型BERT作为位置信息转化为特征向量的模型结构,而后将BERT模型转化的特征向量作为BiLSTM网络模型的输入,利用BiLSTM网络模型的正、反向作用将隐藏向量转化为定长的文本向量,最后将该文本向量输入至条件随机场CRF模型中,利用CRF中的状态转移矩阵捕捉实体标签之间的依赖性,从而提高实体识别和关系抽取的效果,并找到位置信息的最佳标签。在BERT-BiLSTM-CRF模型结构中的文本输入阶段,句子最大截断长度设置为128,每个训练批次内,句子数量为16。在词向量表示阶段,采用的预训练模型为Bert-Base-Chinese,向量维度为Bert默认的768维,在语意编码阶段,采用了Bert默认的12层Transformer编码器,在模型训练阶段,将损失率设置为0.1,学习率设置为5e-5,训练轮次为15轮,具体参数设置如下表3所示:
表3超参数设置
参数名称 参数意义 参数值
max_seq_length 句子最大截断长度 128
batch_size 单个批次内句子数量 16
model_name BertT版本 bert-base-chinese
learning_rate 学习率 5e-5
drop_out 损失率 0.1
epochs 训练轮次 15
log_step 日志输出频率 30
如图9所示,在本实施例中,BERT-BiLSTM-CRF模型代码包括:dta1文件夹、model、utils.py、模型训练-bert+bilstm+crf.ipynb和模型训练-bert+bilstm+crf.py以及模型预测-bert+bilstm+crf.ipynb和模型预测-bert+bilstm+crf.py;
在本实施例中,dta1文件夹是训练数据;model是已训练好的模型;utils.py是模型需要使用的工具代码;模型训练-bert+bilstm+crf.ipynb和模型训练-bert+bilstm+crf.py是需要训练的模型;模型预测-bert+bilstm+crf.ipynb和模型预测-bert+bilstm+crf.py是调用训练好的模型对中文句子进行实体识别和关系抽取;
在本实施例中的模型训练过程中,根据评估依据,保存效果最好的模型,训练结束后,在模型预测-bert+bilstm+crf.py中书写模型加载和使用的代码,实现中文句子实体识别和关系抽取的功能;
在本实施例中,为了测试本发明中实体、关系抽取模型的性能,采用精确度(Precision,P),召回率(Recall,R)以及F1分数(F1 Score,F1)等指标参数进行评估。精确率Precision也称查准率,用于计算在预测为正例的样本中,预测正确的样本所占比例,体现的是实验结果的准确程度;其计算公式为:
其中,TP为正例中预测正确的的个数,FP为负例中预测错误的格式,FN为正例中预测错误的个数;
召回率Recall也称查全率,用于计算真实的正例样本中,预测正确的样本所占比例,反应的是实验结果的覆盖范围;其计算公式为:
在本实施例中,P和R是相互影响、相互制约的关系。但是仅比较准确率和召回率会导致实验结果评估出现片面性,因此需要F1分数。F1分数既能考虑准确率又能考虑召回率,兼顾两者优点,可以从总体上综合评估实验结果,更让人信服,其计算方式如下所示:
模型训练过程中,每完成一次训练,都会记录评估参数,实验结果参见下表4:
表4实验结果
评估项目 Precision Recall F1
实体抽取 99.80% 99.44% 0.9962
关系抽取 99.46% 99.82% 0.9964
总体评估 99.63% 99.63% 0.9963
综上,本发明应用BERT-BiLSTM-CRF模型实现对装备故障知识图谱的实体识别和关系抽取,实体识别和关系抽取的准确率达到99.53%,从而使装备故障知识智能交互方法及系统具有配置要求低、运行速度快、抽取和识别准确率高以及使用方便等优点;
S3、意图识别采用ELECTRA模型结构,并对其参数进行微调。在微调过程中,调整的是判别器部分的权重参数,不断学习训练数据集中的语义信息,让生成的向量和隐藏向量之间尽可能相似,这个过程旨在帮助模型学习到真实文本数据的语言特征,同时提高模型在判断不真实文本数据时的鲁棒性和准确性。
如图10所示,在本实施例中,ELECTRA模型包括:生成器generator以及判别器discriminator,能够对BERT模型的参数进行优化训练,从而提高网络模型的收敛速度。在本实施例中,ELECTRA模型优化思想是认为输入的每个中文字符都是由原字符经过随机替换得到的,并利用一个小型的生成模型去学习替换原字符的规律。这样的转换可以带来效率的提升,能够对所有位置的词进行预测,使网络模型收敛速度更快。
在本实施例中,ELECTRA模型的生成器和判别器都采用Transformer网络结构,生成器和判别器都使用了12个Transformer模块,每个块都包含12个自注意力机制头和前馈神经网络层。该模型结构借鉴了对抗网络的思想,共训练两个神经网络模型左边生成器Generator用来随机屏蔽原始文本中的单词,进行预测学习。右边判别器Discriminator用来判定单词是否与原始文本一致,如果一致则为真,如果不同则为假。
如图11所示,在本实施例中,意图识别模型根据整理的数据集对ELECTRA模型参数进行微调,在微调过程中,调整的是判别器部分的权重参数,不断学习训练数据集中的语义信息,让生成的向量和隐藏向量之间尽可能相似,这个过程旨在帮助模型学习到真实文本数据的语言特征,同时提高模型在判断不真实文本数据时的鲁棒性和准确性。在本实施例中,ELECTRA模型中堆叠的Transformer编码器将输出的语义向量输入至Softmax层中,并将每个意图类别的得分值(或称logits)通过指数函数进行转换,再归一化得到各个意图类别的概率。在本实施例中,在文本输入阶段,句子最大截断长度设置为128,每个训练批次内,句子数量为16。在词向量表示阶段,采用了预训练模型ELECTR,向量维度为ELECTR默认的768维,在语意编码阶段,采用了ELECTR默认的12层Transformer编码器,在模型训练阶段,将损失率设置为0.1,学习率设置为5e-5,训练周期为10个epoch,具体参数设置如表5所示:
表5意图识别模型参数设置
参数名称 参数意义 参数值
max_seq_length 句子最大截断长度 128
batch_size 单个批次内句子数量 16
model_name Bert版本 chinese-electra-base
learning_rate 学习率 5e-5
drop_out 损失率 0.1
epochs 训练轮次 10
log_step 日志输出频率 30
如图12所示,ELECTRA模型代码包括:dta1文件夹、model、electra_模型训练.ipynb、electra_模型预测.ipynb和electra_模型预测.py;
在本实施例中,dta1文件夹是训练数据;model是已训练好的模型;electra_模型训练.ipynb和electra_模型训练.py的作用一样,前者在jupyter运行,代码风格类似markdown,后者在pycharm运行;electra_模型预测.ipynb和electra_模型预测.py的作用是调用训练好的模型对输入问题进行预测,并输出问题意图。
在本实施例中,意图识别是指根据用户输入的自然语言文本,识别并理解用户所表达的意图类型。智能问答系统可以通过意图识别来对用户提出的问题进行分类和理解,从而给出相应的回答或建议。
在本实施例中,设任意序列:
B=(b1,b2,...,bn)
预测序列:
O=(o1,o2,...,on),
在本实施例中,分数函数、概率函数的表达式如下:
其中,H为BiLSTM的输出得分矩阵,H的大小为n×m,n为词的个数,m为标签个数,Hij表示第i个词的第j个标签的分数,Z为转移分数矩阵,Zij表示标签i转移为标签j的分数,Z的大小为m+2,则可得到预测序列的分数函数和概率函数。
在本实施例中,若两头分别取对数,则可得预测序列的似然函数;
在本实施例中,解码后可得到预测序列最大分数的输出序列;
在本实施例中,预测序列最大分数的输出序列的表达式如下:
其中,为真实的标注序列,OB为所有可能的标注序列。
在本实施例中,混淆矩阵是用于衡量分类模型性能的一种工具,也被称为误差矩阵。在本实施例中,前述混淆矩阵是一个N×N的矩阵,其中,N是分类的类别数量。该混淆矩阵对于每个类别给出了实际类别和预测类别的匹配情况,以行表示真实类别,以列表示预测类别。在本实施例中,前述混淆矩阵的作用包括但不限于:通过各种指标来评估分类算法的性能。在本实施例中,前述指标包括但不限于:准确率、召回率以及F1分数。
在本实施例的混淆矩阵中,对角线上的元素表示正确分类的样本数量,非对角线上的元素表示错误分类的样本数量。参见下表,对于二元分类问题,混淆矩阵可为例如:
预测结果为负例 预测结果为正例
实际为负例 TN FP
实际为正例 FN TP
在本实施例中,TN表示真实为负例,被预测为负例的样本数;FP表示真实为负例,被预测为正例的样本数;FN表示真实为正例,被预测为负例的样本数;TP表示真实为正例,被预测为正例的样本数。
在本实施例中,通过前述混淆矩阵,可以按意图类别计算出各种评估指标,包括但不限于:精确率(Precision)、召回率(Recall)以及F1分数,有助于进一步了解分类模型的性能,从而更好地进行模型调优和预测。在本实施例的实验过程中,模型评估阶段,也是利用了混淆矩阵,分别计算出每种意图类别得评估参数。
在本实施例中,为了测试本发明中意图识别模型的性能,采用精确度(Precision,P)、召回率(Recall,R)以及F1分数(F1 Score,F1)等指标参数进行评估。
模型训练结束后,加载训练好的模型,对验证数据集进行预测,以所有预测结果为基础,构建混淆矩阵,分别计算出10种用户意图的评估参数,如下表6所示:
表6实验结果
综上,本发明应用ELECTRA模型实现意图识别,使意图识别率达到96.3%,同时融合运用Java Spring Boot和Python Django组合服务框架实现人机的智能交互,从而使装备故障知识智能交互方法及系统具有配置要求低、运行速度快、抽取和识别准确率高以及使用方便等优点。
S4、根据装备故障数据的海量性、复杂性以及故障知识的专业性、准确性要求,按照知识本体构建、关系抽取、知识融合、知识存储以及知识加工等步骤进行构建装备故障知识图谱;
如图13所示,在本实施例中,装备故障知识图谱的构建操作,包括以下具体步骤:
S41、知识本体构建;
在本实施例中,通过构建知识本体,建立与装备故障知识、维修保障概念相关的各类规范,是构建故障知识图谱的重要依据,同时也是装备故障知识库中的模具;
S42、关系抽取;
在本实施例中,求取自注意力层计算特征词的权重和实体关系概率分布p,完成关系抽取;
在本实施例中,通过知识抽取将装备的结构化、半结构化或非结构化的故障数据按照实体、属性及其关系的三元组形式进行抽取,并存储到装备故障知识图谱库中;
在本实施例中,计算自注意力层计算特征词的权重、实体关系概率分布p的表达式如下:
a=softmax(vatt·[tanh(H)T])
p=softmax(W·[tanh(a·H)T+bT])
H=(H1,H2,H3,...,Hn)T
其中,H为n*2u维度的特征矩阵;W为c*2u维度的权重矩阵,根据定义c一般取值为12;vatt为2u维度的权重向量,u为BiLSTM神经网络隐藏层的数量;b为n维度的偏置参数向量;tanh(·)为双曲正切激活函数;softmax(·)为归一化指数函数;
S43、知识融合;
在本实施例中,对将模糊、重复的故障知识进行知识融合,通过知识融合对装备故障知识图谱库的冗余和错误信息进行整合、消歧和对齐,提高装备故障知识图谱的知识质量;
为了更好的进行知识融合,在本实施例中,通过计算不同实体的相似度和设定阈值进行判断融合。其表达式如下:
其中,Q1、Q2分别是两个不同实体;S(Q)为实体Q的属性集合;Sim是两个不同实体的相识度值,该值越小说明相似度越小,反之,则相似度越高。
S44、知识存储;
在本实施例中,通过知识存储将装备产生的各类故障知识按照“实体—关系—属性、实体—关系—实体”等三元组形式进行储存,便于故障知识的有效管理;
S45、知识加工;
在本实施例中,知识加工的操作,采用知识推理、质量评估等方法解决装备故障知识库中的知识矛盾性和不一致性问题。
综上,本发明根据装备故障数据的海量性、复杂性以及故障知识的专业性、准确性要求,按照知识本体构建、关系抽取、知识融合、知识存储以及知识加工等步骤构建出装备故障知识图谱。从而实现对装备产生的大量状态数据、故障数据以及故障先验知识等进行有效管理和利用,能够满足装备的维修保障需求,为解决装备维修保障专业知识缺乏和故障数据资源浪费严重的问题提供一种有效手段。
S5、综合运用关系抽取、知识融合、相似度匹配等算法,支持装备故障知识智能交互方法及系统实现对故障问题的智能咨询与智慧检索服务功能,据以生成故障问题的精确问答信息;
在本实施例中,装备故障知识智能交互系统的相似度匹配算法是一种基于概率统计的贝叶斯分类器,该方法能够根据提问或搜索的问题信息进行分词和特征词提取,并根据特征词进行问题分类,从而实现故障问题的相似度回答。装备故障知识智能交互系统对故障问题进行分类时,经常会出现个别关键词,这些关键词往往是区分问题类别的核心,最具有代表性。虽然前述关键词出现的次数并不多,却对故障问题分类影响很大。因此,为提高核心词的影响力和系统的分类精度,智能问答系统拟采用加权的方法计算P(ai|bj)值。其表达式如下:
设A=(a1,a2,…,an),B=(b1,b2,…,bj)。
式中,A表示故障问题信息A分词后得到n个特征词向量;B表示故障问题分类数量为j个;P(bj)表示故障问题类别bj的先验概率,可通过bj类出现的频率来计算;P(ai|bj)表示特征词向量ai在某一故障问题类别bj中的发生概率,可通过词频数计算;k表示核心词影响问题分类的重要程度,设k>1;j=1,2,…,m。
在本实施例中,利用下述逻辑,计算不同实体的相似度、设定阈值,以进行判断融合:
式中,Q1、Q2分别是两个不同实体;S(Q)为实体Q的属性集合;Sim是两个不同实体的相识度值。
在本实施例中,利用下述逻辑,计算自注意力层计算特征词的权重、实体关系概率分布p:
H=(H1,H2,H3,...,Hn)T
式中,H为n*2u维度的特征矩阵;W为c*2u维度的权重矩阵,根据定义c一般取值为12;vatt为2u维度的权重向量,u为BiLSTM神经网络隐藏层的数量;b为n维度的偏置参数向量;tanh(·)为双曲正切激活函数;softmax(·)为归一化指数函数。
综上,本发明综合运用关系抽取、知识融合、相似度匹配等算法,支持装备故障知识智能交互方法及系统实现对故障问题的智能咨询与智慧检索服务功能,据以生成故障问题的精确问答信息。
S6、根据预置平台数据、装备故障知识图谱、预置编程环境信息、编辑器以及模型训练框架,采用基于PaddleSpeech+Recorder.js插件的语音识别作为系统实现语音智能交互技术,完成装备故障知识智能交互系统的环境搭建操作,以进行装备故障知
识的智能交互。如下表7所示:
表7环境搭建
如图14所示,在本实施例中,装备故障知识智能交互系统界面技术采用htm+css+js+bootstrap的前端关键技术和Django的后端关键技术。Django是一个开源的Web应用框架,它基于MVC(Model-View-Controller)架构模式,旨在帮助开发者快速构建高质量的Web应用程序。Django的主要目标是使Web开发尽可能地简单、快速和安全。Django提供了很多强大的功能,包括自动化ORM(Object Relational Mapping)映射、管理站点、表单处理、认证系统、缓存、分页、RSS生成等。Django还具有丰富的插件库和文档,可以帮助开发者更加高效地开发Web应用程序。Django设计上注重可重用性和可扩展性,它使用Python语言编写,因此具有Python语言的所有优点。Django框架的核心组件包括URL路由系统、视图函数、模板系统、ORM等。总之,Django是一款功能强大、易于使用且高度可定制的Web应用框架,它可以帮助开发者快速构建高质量的Web应用程序,并且是开源的,拥有庞大的社区支持。Bootstrap是一个流行的前端开发框架,它提供了一组CSS、JavaScript和HTML代码,可以帮助开发人员快速构建响应式、移动设备友好的网站和Web应用程序。使用Bootstrap,开发人员可以轻松地创建各种类型的UI元素,例如导航栏、按钮、表单、模态框等等,并使用预定义的CSS类来调整它们的样式和排版。此外,Bootstrap还提供了响应式网格系统,使开发人员能够轻松地创建适应不同屏幕大小的布局。总结来说,使用Bootstrap就是让开发人员更方便的编写页面,让页面更加美观。智能问答实现过程中,采用实体识别模型和意图识别模型对输入问题进行处理。例如输入问题是“你好,如果无人机转塔抖动,我应该怎么办”,系统的实体识别模型会对输入问题的实体进行识别,结果为“转塔抖动”故障,而后意图识别模型根据识别出的故障问题进行相应回答,结果为“询问原因和解决办法”,最后将两个模型的结果转换为Neo4j的查询语句,并从Neo4j数据库中查询出相应答案。
如图15所示,在本实施例中,装备故障知识智能交互系统具有人机交互的故障知识智慧搜索和诊断维修知识的智能问答两大功能。装备故障知识智能交互系统的智慧搜索功能能够实现对装备故障问题信息进行精确检索及展示,如果系统无法抽取到精确的故障问题信息,则会根据相识度值Sim的大小进行推荐抽取及展示具有相同故障原因或相同解决方法的故障问题信息。装备故障知识智能交互系统的智能问答功能是在paddlespeech框架和Recorder.js插件下实现的,具有录音、识存储等功能,能够实现对装备某一个故障问题进行提问和智能回答,如果系统无法精确回答,则会根据相识度值Sim的大小进行相似推荐回答具有相同故障原因和相同解决方法的有效答案。
为了验证基于故障知识图谱和BERT-BiLSTM-CRF-ELECTRA模型的装备故障知识智能交互方法及系统的有效性和优越性,本发明选取目前最流行的ChatGPT大模型与其作比较分析,模型运行评估指标如表8所示。从处理器、内存、显卡、存储空间、操作系统等评估指标来看,ChatGPT大模型需要的硬件和软件配置较高,经济成本较高;从生成语言的准确率、语言多样性、语言生成速度等评估指标来看,ChatGPT大模型优于本发明构建的模型;从模型的流畅性来看,ChatGPT大模型受文本数据影响较大,而本发明构建的模型主要由故障知识谱图提供语料,所受文本数据的影响较小;从适用领域来看,ChatGPT大模型在保密单位内部处于禁用状态,而本发明构建的模型可以正常安装使用。综上所述,本发明所构建的模型在经济成本、适用领域、模型的流畅性等某些指标方面优越于ChatGPT大模型,因此该模型在装备故障知识管理技术领域具有较好的应用价值。
表8模型运行评估指标
综上,基于故障知识图谱和BERT-BiLSTM-CRF-ELECTRA模型的装备故障知识智能交互方法及系统能够对装备产生的非(半)结构化数据、维修专业技术知识以及维修专家经验知识进行有效管理,形成具有信息化智能化装备故障知识更新迭代特色的数据管理系统。实验对比表明,该系统具有配置要求低、运行速度快、抽取和识别准确率高以及使用方便等优点,能够为装备维修保障人员提供详实、简捷的智能问答服务。将该智能交互方法及系统应用于装备维修保障领域,不仅可以提升装备维修保障人员的维修水平,还可以为解决装备维修保障专业知识缺乏和故障数据资源浪费严重的问题提供技术手段。
本发明的实体识别和关系抽取采用BERT-BiLSTM-CRF模型结构,以预训练模型BERT作为位置信息转化为特征向量的模型结构,而后将BERT模型转化的特征向量作为BiLSTM网络模型的输入,利用BiLSTM网络模型的正、反向作用将隐藏向量转化为定长的文本向量,最后将该文本向量输入至条件随机场CRF模型中,利用CRF中的状态转移矩阵捕捉实体标签之间的依赖性,从而提高实体识别和关系抽取的效果,并找到位置信息的最佳标签。
本发明的意图识别采用ELECTRA模型结构,并对其参数进行微调。在微调过程中,调整的是判别器部分的权重参数,不断学习训练数据集中的语义信息,让生成的向量和隐藏向量之间尽可能相似,这个过程旨在帮助模型学习到真实文本数据的语言特征,同时提高模型在判断不真实文本数据时的鲁棒性和准确性。ELECTRA模型是一种新的模型预训练框架,采用Generator和Discriminator的结合方式,但又不同于GAN,主要是将MaskedLanguage Model的方式改为了rcolaced taken catecton。ELECTRA模型的maskedlanguage model能够有效地学习到centext的信息,采用weight sharing的方式将Generator的embeddinal信息共享给Discriminator。同时,Discriminator能够预测Generator输出的每个token是不是来自original,从而高效地更新transfomer的各个参数,使得模型的训练速度加快。ELECTRA模型采用小型的Generator和Discriminator来共同训练,并且采用两者loss相加,使Discriminator的学习难度逐渐地提升,能够学习到更难的token信息。ELECTRA模型在fine-tuning的时候,丢弃Generator,只使用Discriminator,从而提高模型的效率和收敛速度。
本发明的系统界面技术采用htm+css+js+bootstrap的前端关键技术和Django的后端关键技术,使系统开发尽可能地简单、快速和安全。同时,使开发人员能够轻松地创建出适应不同屏幕大小的布局,更加方便的编写系统页面,让页面更加美观。
本发明采用基于PaddleSpeech+Recorder.js插件的语音识别作为系统实现语音智能交互技术,可提供高效、准确、灵活、流畅的语音识别功能。
本发明能够实现对装备故障问题信息进行精确检索及展示,如果系统无法检索到精确的故障问题信息,则会根据相识度值Sim的大小进行推荐抽取及展示具有相同故障原因或相同解决方法的故障问题信息。装备故障知识智能交互系统的智能问答功能能够实现对装备某一个故障问题进行提问和智能回答,如果系统无法精确回答,则会根据相识度值Sim的大小进行相似推荐回答具有相同故障原因和相同解决方法的有效答案。目前,该领域针对装备故障知识智能交互系统还处于研发初始状态,结合装备发展的前景,本发明具有较大的研究价值和开发潜力。
本发明在基于BERT-BiLSTM-CRF模型实现装备故障知识图谱实体与关系抽取的基础上,设计应用ELECTRA模型对BERT模型参数进行优化训练,实现意图识别且准确率达到96.3%,实体识别与关系抽取准确率可达到99.53%,并采用htm+css+js+bootstrap前端关键技术、Django后端关键技术、Java Spring Boot和Python Django的组合服务框架以及基于PaddleSpeech+Recorder.js插件的语音识别技术提高人机智能交互性,保证了装备故障知识智能交互方法及系统具有配置要求低、运行速度快、抽取和识别准确率高以及使用方便等优点。
综上,本发明解决了目前复杂装备故障知识交互方法及系统存在故障知识意图识别准确率较低、智能问答人机交互性差、模型要求设备性能和使用环境较高的问题。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种装备故障知识智能交互方法及系统,其特征在于,所述方法包括:
S1、综合利用双向Transformer神经网络和MASK语言模型,对输入文本信息进行特征提取、分词处理,并利用预置特殊标记进行标注、分隔,以得到丰富语义特征词;
S2、利用BERT-BiLSTM-CRF模型结构进行实体识别、关系抽取,首先标注语料经过BERT预训练语言模型获得相应的词向量,再把词向量输入到BiLSTM模型中做进一步处理;然后利用BiLSTM模型的前向LSTML依次输入:BERT预训练语言模型获得相应的词向量,得到相应的正向向量,同时利用BiLSTM模型的后向LSTMR依次反向输入:BERT预训练语言模型获得相应的词向量,得到相应的反向向量;最后将前向LSTML隐含层输出的隐向量和后向LSTMR隐含层输出的向量隐向量进行拼接得到具有前、后向向量(隐向量)的组合向量矩阵,并转化为定长文本向量;将所述定长文本向量输入条件随机场CRF模型,利用所述条件随机场CRF模型中的状态转移矩阵,捕捉实体标签之间的依赖性,获取位置信息最佳标签;
S3、利用ELECTRA模型进行意图识别,其中,调整所述ELECTRA模型的判别器权重参数,持续学习训练数据集中的语义信息,通过相似化处理得到真实文本数据语言特征;
S4、根据装备故障数据的预设要求信息,进行知识本体构建操作、关系抽取操作、知识融合操作、知识存储操作以及知识加工操作,据以构建装备故障知识图谱;
S5、通过关系抽取、知识融合、相似度匹配,支持装备故障知识智能交互方法及系统,以进行故障问题智能咨询、故障问题检索,据以生成故障问题问答信息;
S6、根据预置平台数据、所述装备故障知识图谱、预置编程环境信息、编辑器以及模型训练框架,采用预置插件进行语音识别,以进行交互,完成装备故障知识智能交互系统的环境搭建操作,以进行装备故障知识的智能交互。
2.根据权利要求1所述的一种装备故障知识智能交互方法,其特征在于,所述步骤S1包括:
S11、利用下述逻辑,对字向量矩阵进行线性映射:
MultiHead(A,B,C)=Concat(head1,…,headn)WO
headi=Attention(AWi A,BWi B,CWi C)
式中,A,B,C为字向量矩阵,dk为k维度的调节平滑因子,AWA i、AWB i、AWC i为单头计算中,输入参数经过线性变换后得到可变参数的矩阵,WO为可学习矩阵;
S12、利用下述逻辑,表达Transformer编码器中的全链接前馈网络FFN:
FFN(V)=max(0,VW1+a1)W2+a2
式中,a1、a2为偏置向量,VW1、W2为多头注意力机制输出V的权重矩阵。
3.根据权利要求1所述的一种装备故障知识智能交互方法,其特征在于,所述步骤S2包括:
S21、利用下述逻辑,设置LSTM单元结构,据以处理得到所述正、反LSTM网络处理的文本信息:
式中,it为输入门的输出结果,zt为待增加的内容,ft为遗忘门的输出结果,ct是t时刻的更新状态,ot为输出门的输出结果,σ为激活函数,a为偏置向量,W为权重矩阵,ht则是整个LSTM单元t时刻的输出,Wxi、Whi、Wci为输入门的权重矩阵,Wxc、Whc为待增加内容的权重矩阵,Wxf、Whf、Wcf为遗忘门的权重矩阵,Wxo、Who、Wco为t时刻更新状态的权重矩阵,bi、bc、bf、bo为相应的误差;
S22、利用所述BiLSTM网络模型,合并处理每个时刻的所述文本信息,其中,利用下述逻辑表达所述BiLSTM网络模型:
S23、设任意序列:
B=(b1,b2,...,bn);
S24、根据所述任意序列,处理得到预测序列:
O=(o1,o2,...,on);
S25、根据所述预测序列及所述任意序列,利用下述逻辑处理得到所述预测序列的分数函数S(B,O)、概率函数P(O/B):
式中,H为BiLSTM的输出得分矩阵,H的大小为n×m,n为词的个数,m为标签个数,Hij表示第i个词的第j个标签的分数,Z为转移分数矩阵,Zij表示标签i转移为标签j的分数;
S26、利用下述逻辑,通过取对数操作,得到所述预测序列的似然函数,据以解码得到所述预测序列的最大分数输出序列,以作为最优预测序列:
式中,为真实的标注序列,OB为所有可能的标注序列。
4.根据权利要求1所述的一种装备故障知识智能交互方法,其特征在于,所述步骤S3包括:
S31、所述ELECTRA模型包括:生成器generator、判别器discriminator,用以对BERT模型的参数进行优化训练;
S32、调整所述判别器discriminator的权重参数,持续学习训练数据集中的语义信息,相似化处理生成向量、所述隐藏向量,以学习到所述真实文本数据语言特征;
S33、利用下述逻辑,计算不同实体的相似度、设定阈值供判断融合:
式中,Q1、Q2分别是两个不同实体,S(Q)为实体Q的属性集合,Sim是两个不同实体的相似度值;
S34、利用下述逻辑进行加权操作,以计算P(ai|bj)值:
设:A=(a1,a2,…,an),B=(b1,b2,…,bj)
式中,A表示故障问题信息A分词后得到n个特征词向量,B表示故障问题分类数量为j个,P(bj)表示故障问题类别bj的先验概率,P(ai|bj)表示特征词向量ai在某一故障问题类别bj中的发生概率,k表示核心词影响问题分类的重要程度。
5.根据权利要求1所述的一种装备故障知识智能交互方法,其特征在于,所述步骤S4包括:
S41、通过所述知识本体构建操作,建立与装备故障知识、维修保障概念相关规范,以作为所述故障知识图谱的构建依据、装备故障知识图谱库的模具;
S42、通过所述知识抽取操作,将装备的结构化故障数据、半结构化故障数据以及非结构化故障数据,按照第一三元组的形式进行抽取,并存储至所述装备故障知识图谱库;
S43、通过所述知识融合操作,对得到装备故障知识图谱库进行整合、消歧以及对齐处理;
S44、通过所述知识存储操作,将所述装备产生的各类故障知识按照第二三元组的形式进行储存,供故障知识管理;
S45、通过所述知识加工操作,进行知识推理、质量评估,以优化所述装备故障知识图谱库。
6.根据权利要求1所述的一种装备故障知识智能交互方法,其特征在于,所述步骤S5中,利用下述逻辑,计算自注意力层计算特征词的权重、实体关系概率分布p:
H=(H1,H2,H3,...,Hn)T
式中,H为n*2u维度的特征矩阵;W为c*2u维度的权重矩阵,根据定义c一般取值为12;vatt为2u维度的权重向量,u为BiLSTM神经网络隐藏层的数量;b为n维度的偏置参数向量;tanh(·)为双曲正切激活函数;softmax(·)为归一化指数函数。
7.根据权利要求1所述的一种装备故障知识智能交互方法,其特征在于,所述步骤S6包括:
S61、采用htm+css+js+bootstrap的前端技术和Django的后端技术,实现所述装备故障知识智能交互系统的界面;
S62、采用基于PaddleSpeech+Recorder.js插件的语音识别,实现所述装备故障知识智能交互系统的语音智能交互;
S63、在智能问答实现过程中,采用BERT-BiLSTM-CRF模型对输入问题进行实体识别和关系抽取,并采用所述ELECTRA模型实现意图识别。
8.一种装备故障智能交互系统,其特征在于,所述系统包括:
文本信息特征提取模块,用以综合利用双向Transformer神经网络和MASK语言模型,对输入文本信息进行特征提取、分词处理,并利用预置特殊标记进行标注、分隔,以得到丰富语义特征词,为实体识别和关系抽取模块以及意图识别模块提供准确的语料;
实体识别和关系抽取模块,用以利用BERT-BiLSTM-CRF模型结构对文本信息特征提取模块的语料进行实体识别、关系抽取,首先标注语料经过BERT预训练语言模型获得相应的词向量,再把词向量输入到BiLSTM模型中做进一步处理;然后利用BiLSTM模型的前向LSTML依次输入:BERT预训练语言模型获得相应的词向量,得到相应的正向向量,同时利用BiLSTM模型的后向LSTMR依次反向输入:BERT预训练语言模型获得相应的词向量,得到相应的反向向量;最后将前向LSTML隐含层输出的隐向量和后向LSTMR隐含层输出的隐向量进行拼接得到具有前、后向隐向量的组合向量矩阵,并转化为定长文本向量;将所述定长文本向量输入条件随机场CRF模型,利用所述条件随机场CRF模型中的状态转移矩阵,捕捉实体标签之间的依赖性,获取位置信息最佳标签;
意图识别模块,用以利用ELECTRA模型对文本信息特征提取模块的语料进行意图识别,其中,调整所述ELECTRA模型的判别器权重参数,持续学习训练数据集中的语义信息,通过相似化处理得到真实文本数据语言特征;
构建装备故障知识图谱模块,根据装备故障数据的预设要求信息,进行知识本体构建操作、关系抽取操作、知识融合操作、知识存储操作以及知识加工操作,据以构建装备故障知识图谱,为文本信息特征提取模块提供文本资料;
算法模块,通过关系抽取、知识融合、相似度匹配,支持装备故障知识智能交互方法及系统,以进行故障问题智能咨询、故障问题检索,据以生成故障问题问答信息,为实体识别和关系抽取模块以及意图识别模块提供算法;
交互系统搭建模块,用以根据预置平台数据、所述装备故障知识图谱、预置编程环境信息、编辑器以及模型训练框架,采用预置插件进行语音识别,以进行语音、文字等方式的交互,完成装备故障知识智能交互系统的环境搭建操作,以进行装备故障知识的智能交互,为实体识别和关系抽取模块、意图识别模块、算法模块、构建装备故障知识图谱模块等提供运行环境。
CN202410114714.9A 2024-01-26 2024-01-26 一种装备故障知识的智能交互方法及系统 Pending CN117933249A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410114714.9A CN117933249A (zh) 2024-01-26 2024-01-26 一种装备故障知识的智能交互方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410114714.9A CN117933249A (zh) 2024-01-26 2024-01-26 一种装备故障知识的智能交互方法及系统

Publications (1)

Publication Number Publication Date
CN117933249A true CN117933249A (zh) 2024-04-26

Family

ID=90757289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410114714.9A Pending CN117933249A (zh) 2024-01-26 2024-01-26 一种装备故障知识的智能交互方法及系统

Country Status (1)

Country Link
CN (1) CN117933249A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118377917A (zh) * 2024-06-21 2024-07-23 华电煤业集团数智技术有限公司 一种基于知识图谱的煤矿大数据分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118377917A (zh) * 2024-06-21 2024-07-23 华电煤业集团数智技术有限公司 一种基于知识图谱的煤矿大数据分析方法

Similar Documents

Publication Publication Date Title
Lopez et al. Deep Learning applied to NLP
CN110457585B (zh) 负面文本的推送方法、装置、系统及计算机设备
Chen et al. Deep quadruple-based hashing for remote sensing image-sound retrieval
CN113157859B (zh) 一种基于上位概念信息的事件检测方法
CN116127090B (zh) 基于融合和半监督信息抽取的航空系统知识图谱构建方法
Lee et al. Large scale video representation learning via relational graph clustering
CN117762499B (zh) 任务指令构建方法和任务处理方法
CN118113855B (zh) 一种舰船试验训练场景问答方法、系统、设备和介质
CN117933249A (zh) 一种装备故障知识的智能交互方法及系统
CN115964273A (zh) 基于深度学习的航天器测试脚本自动生成方法
US20230014904A1 (en) Searchable data structure for electronic documents
CN118171149B (zh) 标签分类方法、装置、设备、存储介质和计算机程序产品
CN118132719A (zh) 一种基于自然语言处理的智能对话方法及系统
Qiu et al. Chinese Microblog Sentiment Detection Based on CNN‐BiGRU and Multihead Attention Mechanism
CN116861269A (zh) 工程领域的多源异构数据融合及分析方法
CN114880307A (zh) 一种开放教育领域知识的结构化建模方法
Parmar et al. A machine learning based framework to identify unseen classes in open-world text classification
CN110633363B (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法
CN117150375A (zh) 一种智能电网数据质量分析方法、装置、设备及存储介质
CN115017260A (zh) 一种基于子主题建模的关键词生成方法
CN114254622A (zh) 一种意图识别方法和装置
Guo et al. RnRTD: Intelligent Approach Based on the Relationship‐Driven Neural Network and Restricted Tensor Decomposition for Multiple Accusation Judgment in Legal Cases
Wang et al. RSRNeT: a novel multi-modal network framework for named entity recognition and relation extraction
CN113157892A (zh) 用户意图处理方法、装置、计算机设备及存储介质
Che et al. A feature and deep learning model recommendation system for mobile application

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination