CN117009521A - 一种基于知识图谱的发动机智能工艺检索及匹配方法 - Google Patents
一种基于知识图谱的发动机智能工艺检索及匹配方法 Download PDFInfo
- Publication number
- CN117009521A CN117009521A CN202310963876.5A CN202310963876A CN117009521A CN 117009521 A CN117009521 A CN 117009521A CN 202310963876 A CN202310963876 A CN 202310963876A CN 117009521 A CN117009521 A CN 117009521A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- text
- similarity
- graph
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 186
- 230000008569 process Effects 0.000 title claims abstract description 142
- 239000013598 vector Substances 0.000 claims abstract description 78
- 238000013461 design Methods 0.000 claims abstract description 34
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 15
- 238000012986 modification Methods 0.000 claims abstract description 11
- 230000004048 modification Effects 0.000 claims abstract description 11
- 238000005516 engineering process Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 238000005266 casting Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 10
- 230000001364 causal effect Effects 0.000 claims description 10
- 238000003754 machining Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000001035 drying Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000002457 bidirectional effect Effects 0.000 claims 1
- 238000011161 development Methods 0.000 description 9
- 230000018109 developmental process Effects 0.000 description 9
- 238000005070 sampling Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000012952 Resampling Methods 0.000 description 3
- 238000004904 shortening Methods 0.000 description 3
- 229910001018 Cast iron Inorganic materials 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000002715 modification method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000000227 grinding Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003801 milling Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004513 sizing Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000007514 turning Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于知识图谱的发动机智能工艺检索及匹配方法,属于发动机工艺设计技术领域,包括以下步骤:对工艺文本进行预处理并实现主题建模;利用综合向量表示法实现工艺文本信息的知识表征;构造工艺知识子图,并利用知识图谱嵌入模型对工艺知识子图进行表示学习,学习到实体向量;以实体向量作为输入,通过卷积神经网络模型和基于k‑NN的检索策略进行实例检索;进行场景工艺知识需求意图识别;计算识别的需求向量与实例模板的相似度,根据相似度进行工艺实例的匹配;根据结合式设计规则方法实现工艺实例参数的修改,获得修改后的相似知识图谱。本发明能够实现工艺知识的智能检索、匹配以及修改,提高发动机复杂构件工艺设计效率。
Description
技术领域
本发明涉及发动机工艺设计技术领域,尤其涉及一种基于知识图谱的发动机智能工艺检索及匹配方法。
背景技术
当前,发动机动力系统研制周期缩短、科研型号剧增、新结构工艺复杂、产品需求及工艺应用难、制造反馈差等研制现状未发生变化,仍然是制约发动机研制质量提升与研制周期缩短的“瓶颈”。发动机复杂构件研制过程中仍然存在工艺知识覆盖制造要素少、工艺知识可复用率低、工艺设计与验证周期长、质量不稳定等问题。
发明内容
针对现有技术中在发动机复杂构件研制过程中存在的工艺知识覆盖制造要素少、工艺知识可复用率低、工艺设计与验证周期长、质量不稳定等问题,本发明提供一种基于知识图谱的发动机智能工艺检索及匹配方法,目的在于能快速检索并自适应修改过去的工艺实例,使之能应用到新零件的工艺中来,提高工艺的复用率以及检索效率。本发明将文本向量表示法与结构表示法向量结合,形成工艺知识的综合向量表示,对工艺人员提出的自然语言问题,进行问句分析、结构化知识提取、输出优化匹配的工艺知识,进而将识别的需求向量按照相应的相似度分析规则匹配出相似实例,并基于工艺规则对实例进行修改。本发明包括融合工艺文本信息的知识表征方法、基于深度学习的工艺知识检索技术、基于知识图谱的工艺知识匹配方法三部分内容,实现工艺知识的快速检索以及匹配。
为实现上述目的,本发明采取如下的技术方案:
一种基于知识图谱的发动机智能工艺检索及匹配方法,包括以下步骤:
步骤1:对铸造、机加、装配三类工艺文本分别进行预处理形成文本向量,并根据关键词进行主题建模;
步骤2:将所述文本向量以及知识图谱结构表示向量进行综合训练,获得知识的综合向量表示;
步骤3:利用实体链接技术获得工艺知识图谱中的相关实体知识,构造工艺知识子图,并利用知识图谱嵌入模型对工艺知识子图进行表示学习,学习到实体向量;
步骤4:构建卷积神经网络模型,将步骤3学习到的实体向量作为卷积神经网络模型的输入,基于k-NN的检索策略实现实例的检索;
步骤5:文本预处理并经过自然语言处理工具处理后,使用基于语义相似度计算方法以及基于因果推理的知识需求预测方法进行场景工艺知识需求意图识别,得到识别的需求向量;
步骤6:将识别的需求向量按照相应的相似度分析规则计算出与实例模板的相似度,根据相似度进行实例匹配,并设置相似度阈值,超过所述相似度阈值的匹配实例组成相似实例集合;
步骤7:依据推荐性设计规则和原理性设计规则修改所述相似实例集合中工艺实例的参数,获得修改后的相似知识图谱。
与现有技术相比,本发明具有如下有益效果:
(1)本发明将文本向量与结构表示向量结合,形成工艺知识的综合向量表示法,更加准确、全面地描述了工艺知识,提高了工艺知识的准确性和完整性;
(2)本发明将深度学习技术应用到工艺知识检索当中,构建了卷积神经网络模型,基于k-NN的检索策略实现了知识的检索;
(3)基于语义相似度计算方法以及因果推理技术实现了多场景工艺知识需求意图识别;
(4)将推荐性设计规则和原理性设计规则相结合对工艺实例的参数进行修改,对比单一规则的修改发方法,本发明提供的修改方法更加快速、准确。
附图说明
图1为本发明实施例提供的一种基于知识图谱的发动机智能工艺检索及匹配方法的整体流程图;
图2为融合工艺文本信息的知识表征方法的流程图;
图3为CBOW模型的结构示意图;
图4为基于知识图谱的工艺知识匹配方法总体技术路线图;
图5为基于因果推理的知识需求预测流程图。
具体实施方式
为了更加清晰的表述发明要解决的技术问题、技术方案和优点,下面结合附图和具体实施例进行详细描述。
本发明提供一种基于知识图谱的智能工艺检索技术,将综合向量表示法、问句分析法、结构化知识提取法、相似度计算法以及深度学习技术相结合,实现了工艺实例的快速检索以及修改,使旧实例经过规则的自动修改能应用到新零件的工艺中来,节约了时间成本并提高了生产效率。如图1所示,本发明实施例提供的一种基于知识图谱的发动机智能工艺检索及匹配方法包括以下步骤:
步骤1:对铸造、机加、装配三类工艺文本分别进行预处理,预处理包括格式处理、词频统计、判定工艺参数等操作,形成文本向量,并根据关键词进行主题建模。步骤1以及步骤2的总体流程图如图2所示。
具体地,步骤1主要完成工艺文本的预处理以及主题建模,其中:
工艺文本的预处理指工艺语料库需要进行预处理操作,包括对工艺文本进行分词、词性标注、句法分析、去除语料的停用词并进行词干化等。文本中出现次数过多或过少的词与建模联系很少,所以去掉部分词汇。
由于工艺文本词汇的主题信息可以看成是语义分类信息,例如可以将工艺信息分为铸造、机加、部件装配、整体装配等主题,每个主题包含多个标识词,例如铸造主题下的标识词为铸造、铸铁、充型、分型面、浇铸等。因此主题建模的步骤为:从文本中获取候选关键词,再根据词性选取候选关键词;根据大规模语料学习得到隐含主题模型;根据得到的隐含主题模型,计算文本的主题分布和候选关键词分布;计算文本和候选关键词的主题相似度并排序,选取前n个词作为关键词。
进一步地,基于LDA算法实现主题建模,其包括以下步骤:通过用主题建模算法LDA(算法中的采样算法是Gibbs)训练获取部分主题及其所包含的词汇获取主题后,应用主题丰富实体描述文本语义,即对文本中词汇赋予多个主题以扩展文本语义,部分主题的文本扩展如表1所示。
表1主题文本扩展
主题 | 标识词 |
铸造 | 铸造、铸铁、充型、分型面、浇铸 |
机加 | 机床、车削、铣削、钻孔、磨削 |
部件装配 | 配气机构、曲柄连杆机构、螺纹联接、过盈配合 |
整体装配 | 整体装配、总装图、装配顺序 |
…… | …… |
LDA算法假设文本中主题的先验分布和主题中词的先验分布都服从狄利克雷分布。通过对已有数据集的统计,就可以得到每篇文本中主题的多项式分布和每个主题对应词的多项式分布。进一步可以通过先验的狄利克雷分布和观测数据得到的多项式分布,得到一组Dirichlet-multi共轭,并据此来推断文本中主题的后验分布。那么具体的LDA模型结合Gibbs采样的训练过程一般如下:
①随机初始化,对语料中每篇文本中的每个词w,随机地赋予一个topic编号z;
②重新扫描语料库,对每个词w按照Gibbs采样公式重新采样它的topic,在语料中进行更新;
③重复以上语料库的重新采样过程直到Gibbs采样收敛;
④统计语料库的topic-word共现频率矩阵,该矩阵就是LDA的模型。
经过以上的步骤,就得到一个训练好的LDA模型,接下来就可以按照一定的方式针对新文本的topic进行预估,具体步骤如下:
①随机初始化,对当前文本中的每个词w,随机地赋予一个topic编号z;
②重新扫描当前文本,按照Gibbs采样公式,重新采样它的topic;
③重复以上过程直到Gibbs采样收敛;
④统计文本中的topic分布即为预估结果。
步骤2:将步骤1获得的文本向量以及知识图谱结构表示向量进行综合训练,获得知识的综合向量表示。
步骤2采用综合向量表示法获得知识的综合向量表示,其中综合向量表示法指的是将文本向量以及知识图谱结构表示向量进行综合训练并进行向量的表示。
文本的向量由主题向量和词向量组合而成。其中词向量通过GloVe模型获取,主题向量则按指定概率分布随机生成。
知识图谱结构表示向量直接利用TransE进行训练获取,将两部分进行联合训练以获取知识的综合向量表示。TransE是基于实体和关系的分布式向量表示,将每个三元组实例(head,relation,tail)中的关系relation看作从实体head到实体tail的翻译。
表示学习没有明显的监督符号,因此添加负采样,采用最大间隔方法,尽可能对正样本中最小化d(h,r,t),负样本中则尽可能最大化d(h',r,t')。损失函数设计为:
其中,γ为距离因子,一般设置为1,S是用于训练的三元组,S'集合是S的负采样,d(h,r,t)为距离函数,采用2-norm,其定义如下:
首先使用均匀分布初始化嵌入层的权重参数并设定边界值,并对关系r的权重矩阵归一化:r=r/||r||;每个循环:对实体e的权重矩阵归一化,从所有样本中划分batch形成Sbatch,初始化Tbatch保存正负样本的三元组,对Sbatch中的每个样本进行负采样并合并进Tbatch,利用梯度下降进行训练,并调整相应权重参数。
基于综合向量表示法实现工艺文本信息的知识表征主要指将两种表示学习的方法进行结合获取综合向量进行知识的表示。其中,基于主题和词嵌入的知识表示学习模型主要关注的是三元组的结构关系,基于文本表示学习更多关注的是如何捕获隐藏在实体描述文本中的语义和语境(主题或者上下文)信息。最后将两部分进行联合训练以获取知识的综合向量表示。
步骤3:利用实体链接技术获得工艺知识图谱中的相关实体知识,构造工艺知识子图,并利用知识图谱嵌入模型对工艺知识子图进行表示学习,学习到实体向量。
步骤3首先需要构造工艺知识子图,并利用知识图谱嵌入模型对工艺知识子图进行表示学习,其中主要包括文本预处理以及文本表示两个步骤。
步骤3.1:文本预处理。
中文文本的预处理工作主要包含分词、去停用词以及文本结构化表示等,下面分别进行阐述。本发明采用基于词的表示,分词技术(Word Segmentation)在数据预处理中有着非常重要的作用,其好坏会直接影响到实验结果。分词的基本思想是将一段连贯的文字表达按照一定的规则划分成一系列有序的词语组合,并要求这些词语能够最大程度地表达原文内容的含义。
一个成熟的分词系统来讲需要综合运用各种算法来提高分词的效果。结合实际操作环境,可选择基于Python语言的jieba分词工具,其基本原理是:首先基于词典对于待分词的句子生成所有可能的句子切分,构造有向无环图;其次为了得到最大概率的句子切分,通过利用动态规划方法来查找最大概率路径。最后,对于文本中未登录词,采用隐马尔科夫模型(HMM)和Viterbi算法输出分词结果。
此外,在自然语言处理中还需对分词结果进行过滤停用词(即在文本中没有实际意义的词),去停用词可以缓解维度灾难问题,最终,得到一组与工艺相关的工艺特征关键词。
步骤3.2:文本表示。
向量空间模型能够将文本表示成向量形式,其基本思想是将文本的每一个词都用对应的向量来表示,则一段文本就由若干向量组成。
词嵌入(word embedding)表示,也叫分布式表示,是一种常见的文本表示方法。其基本思想是利用神经网络对目标词和上下文信息之间的关联性建模,将高维、稀疏的向量压缩到了一个相对较低的紧凑的实数向量空间内,并通过计算这些词的分布式向量之间的距离来判断词与词之间的相似性。因此,使用词的分布式表示一则可以降低词向量维度,进而解决维度灾难问题;二则这种表示方法考虑了词语之间的联系性,正好解决了由于缺乏语义信息而无法更加准确地表示文本信息的问题。
使用word2vec的CBOW模型训练工艺特征关键词得到词向量,模型的结构由输入层、投影层、输出层组成,将选择得到的每个工艺特征关键词转换为词向量,即映射为对应的多维表示向量。其中CBOW模型如图3所示,输入层包括X1、…、Xt-1、Xt+1、…、Xa,输出层为Xt。
进一步地,步骤3包括以下步骤:首先使用实体链接技术将文本中的工艺特征词工艺知识图谱中的三元组候选工艺实体进行实体相似性计算以消歧,获得工艺知识图谱中的相关实体知识;其次在此基础上构造工艺知识子图,根据获得的实体提取子图中所有与实体相连的关系;最后利用知识图谱嵌入模型对工艺知识子图进行表示学习,将学习到的实体向量作为卷积神经网络(CNN)模型的输入。
实体的“上下文”定义为其在知识图谱中相邻的结点集合,使用上下文实体可提供更多的补充知识,提高实体可识别性。由于语义上越相近的词语,其映射在同一个向量空间中的实数向量会越相似,故对于实体上下文向量,可通过计算其所有上下文实体的平均值得到。
步骤4:构建卷积神经网络模型,将步骤3学习到的实体向量作为卷积神经网络(CNN)模型的输入,基于k-NN的检索策略实现实例的检索。
具体地,步骤4中所构建的卷积神经网络包含输入层、卷积层、池化层、全连接层以及输出层等主要部分,其中输入层是实体向量,输出层一般是softmax分类层。
卷积层是利用卷积核通过卷积运算以提取文本的局部结构信息。卷积运算的具体操作是将滑动窗口与文本矩阵一一对应的元素相乘最后求和即可得到输出矩阵的第一个元素,然后在依次滑动窗口继续下一项计算。此外,还可以通过设置不同大小的卷积核获取不同的文本结构信息。
池化层通常跟在卷积层后面,其作用是将卷积层获取的特征进行压缩,从而减少网络结构的参数数量,加快网络训练过程。池化方式主要有两种:最大池化和平均池化。该层需要设置池化窗口大小和步长,输出特征的维度计算同上。最大池化在池化窗口中选最大值来作为输出,平均池化是对池化窗口中的元素取平均值。池化窗口的存在只是将特征压缩,不会改变特征的个数。
全连接层与深度神经网络中的结构一样,所有的神经元之间都要进行权重学习,它一般放在卷积池化层后面。一则是为了将学习的特征通过非线性组合在进行学习,二则也是将卷积池化的特征平铺开来连接到输出层。在检索领域,通常将全连接层学习到的特征作为检索时的匹配特征。该层完成了文本的特征分类任务,并最终通过Softmax实现归一化操作。
采用基于k-NN的检索策略进行实例检索,即给定查询项q、查询文本集D以及查询返回个数k,要求返回文本集D中与查询项最接近的k个文本作为检索结果。该策略需要事先确定返回结果集的大小,因此其查询结果的好坏取决于k的选择。k值过大,超过了文本集D中与查询项q相似的文本数,则会返回一些不相关的文本。该检索策略的核心思路为先返回与查询项最接近的候选集,如果候选集个数未达到k,则扩大汉明距离,将新增的结果添加至候选集,直到满足结果集k的个数要求。基于k-NN的检索策略的基本步骤为:首先对数据进行预处理,预处理过程与步骤1中的预处理过程相同;其次对于查询项的每一个特征子块,计算其与数据集中对应特征子块的汉明距离,其次将得到的汉明距离进行重排序,并将排序结果对应的文本id号有序保存;然后按照上一步得到的有序结果依次向候选集添加,当候选集的个数大于等于k时,停止操作,否则继续添加;最后得到候选集后,计算查询项与候选集文本id对应的文本特征的汉明距离,返回最终的前k个结果集。
在检索过程中,每个词都有一个与之相对应的实体向量、实体上下文向量。对于每一工艺问题的描述文本,使用工艺特征词实体向量以及实体上下文向量作为CNN的输入。将工艺问题描述文本处理后的信息输入给softmax分类器,神经网络的输出为工艺问题描述文本在第k种工艺上的输出概率,最终检索结果为输出端概率最大的知识。
步骤5:文本预处理并经过自然语言处理工具处理后,使用基于语义相似度计算方法以及基于因果推理的知识需求预测方法进行场景工艺知识需求意图识别,得到识别的需求向量。步骤5、步骤6、步骤7的总体流程图如图4所示。
步骤5主要指使用基于语义相似度计算方法以及基于因果推理的知识需求预测方法进行场景工艺知识需求意图识别,其中:
基于语义相似度计算方法指的是首先对结构化需求进行语义识别,获得结构化需求对应的知识图谱关键实体与对应的关系,确定需求具体的场景。当需求中包括某一工艺时,通过与知识图谱中的对应实体进行匹配,能够确定与该实体存在关系的其他实体与对应关系,以及该实体的实际应用场景。
如图5所示,基于因果推理的知识需求预测方法主要针对设计人员的某项需求,通过对工艺知识需求进行语义识别、知识匹配,获得所需实体及关联实体,对这些实体进行因果推理,获得当前场景下的其他实体,将知识匹配所得知识与因果推理所得知识以动态知识图谱的形式进行呈现。针对不同的工艺需求,因果推理所得动态知识图谱也做相应调整。
步骤6:将识别的需求向量按照相应的相似度分析规则计算出与实例模板的相似度,根据相似度进行实例匹配,并设置相似度阈值,超过相似度阈值的匹配实例组成相似实例集合。
在步骤6中,首先将识别的需求向量按照相应的相似度分析规则计算出与实例模板的相似度。在工艺领域,需求信息以技术指标的形式表达,不同的指标以不同的形式出现。这里将工艺领域的技术指标分为字符型指标和数值型指标,分别给出了相似度的计算方法。
首先是字符型指标。字符型指标表征了工艺加工某方面的性能预期,通常为文字描述形式。如发动机的铸造加工中的密封性要求、金相组织要求、超声波探伤要求等。字符型指标的相似度计算方法如下:
字符串a=a1...an和b=b1...bn的相似度SIMt(a,b)由二者之间的最小编辑距离dm,n决定,其中:
式中:di,0=i,d0,j=j,1≤i≤m,1≤j≤n;wi、wd、ws分别为插入代价、删除代价和替换代价;Length(a)和Length(b)分别表示取字符串a和b的长度。
其次是数值型指标。数值型指标通常是指对某一工艺指标的定量化描述,如发动机机械加工中的切削参数,加工质量及表面公差等。其计算方法如下:
其中,X、Y表示同一数值型指标,MAXval、MINval分别为X、Y取值范围的上下限,Xval、Yval分别为X、Y的具体取值。AdjustFacor是调整系数,引入调整系数后可以显著增大数值型指标在微小差异情况下的相似度差异,对相似实例进行区分在分别计算得到字符型指标和数值型指标的相似度后,再采用专家评价的方式对各工艺技术指标进行评估并赋予权重值,从而得到综合相似度值,其计算公式如下:
式中:C1(i)表示当前设计问题,C2(i)表示实例库中的某一设计实例,SIMt(C1(i),C2(i))、SIMn(C1(i),C2(i))分别表示字符型、数值型以相似度的计算公式,l和m分别表示字符型、数值型指标的数量,Wt、Wn分别表示字符型、数值型指标的相似度权重,且其和为1;wt,i表示第i个字符型指标的权重值,wn,j表示第j个数值型指标的权重。
相似度计算结果设有相似度阈值,该相似度阈值由设计人员设定。超过该相似度阈值的指定数量的实例组合在一起构成相似实例集合,作为当前设计问题的初始方案集。
步骤7:依据推荐性设计规则和原理性设计规则修改相似实例集合中工艺实例的参数,获得修改后的相似知识图谱。
步骤7运用结合式设计规则方法实现工艺实例的修改是指在得到初始方案集之后,需要根据输入的实际工艺需求修改工艺实例的参数,获得修改后的相似知识图谱,使得相似知识图谱能够满足新的工艺需求。本发明中的结合式设计规则法是指将推荐性设计规则和原理性设计规则这两种设计规则相结合的方法。
进一步地,步骤7包括以下步骤:首先需通过规则知识将工艺需求与设计参数对应起来,进行定量化描述,逐项对比实例间的需求指标,若指标存在差异,则将关联的设计参数归入待修改设计参数集合,通过映射找出实例集合中工艺方案实例与需求指标要求存在差异的具体参数,同时,规则还需定义设计参数之间的关联,只有存在差异的具体参数不会影响其他关联参数时才可以被修改;然后,确定待修改序列,每个待修改参数对应一个修改单元,通过关联关系和映射关系确定修改单元,进而得到修改参数的顺序;最后,依据推荐性设计规则和原理性设计规则按照修改参数的顺序修改工艺实例的参数,获得修改后的相似知识图谱,使得相似知识图谱能够满足新的工艺需求。
本发明针对发动机研制质量提升与研制周期缩短等问题,基于知识图谱开展智能工艺检索及匹配技术,首先,面向铸造、机加、装配三类工艺文本对不同工艺文本的知识表征方法进行研究,同时为了实现工艺知识的快速检索,引入深度学习技术,基于卷积神经网络构建输入层、卷积层、池化层、全连接层以及输出层实现工艺知识的智能快速检索。为了识别工艺人员自然语言需求并在知识图谱中匹配出相似的实例,采用知识匹配技术,将自然语言的文本进行预处理以及特征提取,并根据处理后的自然语言结果对工艺知识需求意图进行识别以及知识需求进行预测,最后根据预测结果进行实例匹配,并根据结合式设计规则进行实例的修改使之满足于新的工艺需求,实现工艺知识的智能检索、匹配以及修改,提高发动机复杂构件工艺设计效率。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种基于知识图谱的发动机智能工艺检索及匹配方法,其特征在于,包括以下步骤:
步骤1:对铸造、机加、装配三类工艺文本分别进行预处理形成文本向量,并根据关键词进行主题建模;
步骤2:将所述文本向量以及知识图谱结构表示向量进行综合训练,获得知识的综合向量表示;
步骤3:利用实体链接技术获得工艺知识图谱中的相关实体知识,构造工艺知识子图,并利用知识图谱嵌入模型对工艺知识子图进行表示学习,学习到实体向量;
步骤4:构建卷积神经网络模型,将步骤3学习到的实体向量作为卷积神经网络模型的输入,基于k-NN的检索策略实现实例的检索;
步骤5:文本预处理并经过自然语言处理工具处理后,使用基于语义相似度计算方法以及基于因果推理的知识需求预测方法进行场景工艺知识需求意图识别,得到识别的需求向量;
步骤6:将识别的需求向量按照相应的相似度分析规则计算出与实例模板的相似度,根据相似度进行实例匹配,并设置相似度阈值,超过所述相似度阈值的匹配实例组成相似实例集合;
步骤7:依据推荐性设计规则和原理性设计规则修改所述相似实例集合中工艺实例的参数,获得修改后的相似知识图谱。
2.根据权利要求1所述的一种基于知识图谱的发动机智能工艺检索及匹配方法,其特征在于,所述预处理包括对存储在工艺语料库中的工艺文本进行分词、词性标注、句法分析、去除语料的停用词并进行词干化。
3.根据权利要求1所述的一种基于知识图谱的发动机智能工艺检索及匹配方法,其特征在于,根据关键词进行主题建模的过程包括以下步骤:
对工艺文本进行分词后,获取候选关键词,或者根据词性选取候选关键词;
根据大规模语料学习得到隐含主题模型;
根据得到的隐含主题模型计算文本的主题分布和候选关键词分布;
计算文本和候选关键词的主题相似度并排序,选取前n个词作为关键词。
4.根据权利要求1所述的一种基于知识图谱的发动机智能工艺检索及匹配方法,其特征在于,文本的向量表示模型由嵌入层、双向LSTM层和注意力层三层构成;知识图谱结构表示向量直接利用TransE进行训练获取。
5.根据权利要求1所述的一种基于知识图谱的发动机智能工艺检索及匹配方法,其特征在于,步骤3包括以下步骤:
使用实体链接技术将文本中的工艺特征词工艺知识图谱中的三元组候选工艺实体进行实体相似性计算以消歧,获得工艺知识图谱中的相关实体知识;
在获得的工艺知识图谱中的相关实体知识的基础上,构造工艺知识子图,根据获得的实体提取子图中所有与实体相连的关系;
利用知识图谱嵌入模型对工艺知识子图进行表示学习,并将学习到的实体向量作为卷积神经网络模型的输入。
6.根据权利要求1所述的一种基于知识图谱的发动机智能工艺检索及匹配方法,其特征在于,所述卷积神经网络模型包括输入层、卷积层、池化层、全连接层以及输出层,其中输入层是文本的词嵌入表示,输出层是softmax分类层;
所述基于k-NN的检索策略包括以下步骤:
给定查询项q、查询文本集D以及查询返回个数k;
对于前面的数据预处理;
对于查询项的每一个特征子块,计算其与数据集中对应特征子块的汉明距离,将得到的汉明距离进行重排序,并将排序结果对应的文本id号有序保存;
按照上一步得到的有序结果依次向候选集添加,当候选集的个数大于等于k时,停止操作,否则继续添加;
得到候选集后,计算查询项与候选集文本id对应的文本特征的汉明距离,返回最终的前k个结果集。
7.根据权利要求1所述的一种基于知识图谱的发动机智能工艺检索及匹配方法,其特征在于,所述相似度分析规则如下:
分别计算字符型指标的相似度和数值型指标的相似度;
采用专家评价的方式对各工艺技术指标进行评估并赋予权重值,得到综合相似度值。
8.根据权利要求1所述的一种基于知识图谱的发动机智能工艺检索及匹配方法,其特征在于,步骤7包括以下步骤:
逐项对比实例间的需求指标,若指标存在差异,则将关联的设计参数归入待修改设计参数集合,并且只有存在差异的具体参数不会影响其他关联参数时才可以被修改;
确定待修改序列,每个待修改参数对应一个修改单元,通过关联关系和映射关系确定修改单元,进而得到修改参数的顺序;
依据推荐性设计规则和原理性设计规则按照修改参数的顺序修改工艺实例的参数,获得修改后的相似知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310963876.5A CN117009521A (zh) | 2023-08-02 | 2023-08-02 | 一种基于知识图谱的发动机智能工艺检索及匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310963876.5A CN117009521A (zh) | 2023-08-02 | 2023-08-02 | 一种基于知识图谱的发动机智能工艺检索及匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117009521A true CN117009521A (zh) | 2023-11-07 |
Family
ID=88568527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310963876.5A Pending CN117009521A (zh) | 2023-08-02 | 2023-08-02 | 一种基于知识图谱的发动机智能工艺检索及匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117009521A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117270832A (zh) * | 2023-11-22 | 2023-12-22 | 卡奥斯工业智能研究院(青岛)有限公司 | 一种机器指令的生成方法、装置、电子设备及存储介质 |
-
2023
- 2023-08-02 CN CN202310963876.5A patent/CN117009521A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117270832A (zh) * | 2023-11-22 | 2023-12-22 | 卡奥斯工业智能研究院(青岛)有限公司 | 一种机器指令的生成方法、装置、电子设备及存储介质 |
CN117270832B (zh) * | 2023-11-22 | 2024-02-13 | 卡奥斯工业智能研究院(青岛)有限公司 | 一种机器指令的生成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN110597735A (zh) | 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN111626063A (zh) | 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN111985228B (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN112306494A (zh) | 一种基于卷积和循环神经网络的代码分类及聚类方法 | |
CN111191442A (zh) | 相似问题生成方法、装置、设备及介质 | |
CN117009521A (zh) | 一种基于知识图谱的发动机智能工艺检索及匹配方法 | |
CN112989813A (zh) | 一种基于预训练语言模型的科技资源关系抽取方法及装置 | |
CN116304020A (zh) | 一种基于义原分析和跨度特征的工业文本实体抽取方法 | |
CN116756303A (zh) | 一种多主题文本摘要自动生成方法及系统 | |
CN113806554A (zh) | 面向海量会议文本的知识图谱构建方法 | |
CN113886562A (zh) | 一种ai简历筛选方法、系统、设备和存储介质 | |
Parvathi et al. | Identifying relevant text from text document using deep learning | |
CN110765781A (zh) | 一种领域术语语义知识库人机协同构建方法 | |
CN112632969B (zh) | 一种增量式行业词典更新方法和系统 | |
Tianxiong et al. | Identifying chinese event factuality with convolutional neural networks | |
CN113157918A (zh) | 一种基于注意力机制的商品名称短文本分类方法和系统 | |
Tian et al. | Chinese short text multi-classification based on word and part-of-speech tagging embedding | |
CN115840815A (zh) | 基于指针关键信息的自动摘要生成方法 | |
Ronghui et al. | Application of Improved Convolutional Neural Network in Text Classification. | |
CN114722798A (zh) | 一种基于卷积神经网络和注意力机制的反讽识别模型 | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 | |
CN113987536A (zh) | 数据表中字段安全等级确定方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |