CN114266228A - 一种面向工程领域设计计算公式的检索方法与装置 - Google Patents

一种面向工程领域设计计算公式的检索方法与装置 Download PDF

Info

Publication number
CN114266228A
CN114266228A CN202111598653.0A CN202111598653A CN114266228A CN 114266228 A CN114266228 A CN 114266228A CN 202111598653 A CN202111598653 A CN 202111598653A CN 114266228 A CN114266228 A CN 114266228A
Authority
CN
China
Prior art keywords
formula
calculation formula
text
expression
embedded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111598653.0A
Other languages
English (en)
Inventor
孟航程
程振波
肖刚
刘星光
李琴
孙力
张皓鑫
王亚明
徐雪松
陆佳炜
张元鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202111598653.0A priority Critical patent/CN114266228A/zh
Publication of CN114266228A publication Critical patent/CN114266228A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向工程领域设计计算公式的检索方法与装置;所述方法首先解析工程领域设计计算文档中的印刷体公式并将其转化为操作树,对该操作树进行嵌入表达。其次,获取计算公式的关联文本并对其进行嵌入表达。最终融合计算公式的操作树嵌入和其关联文本的嵌入,得到包含文本语义的公式向量。以该向量为介质进行公式检索。在对设计计算公式进行嵌入表达时不仅表达了公式计算过程的语义,还融合了与公式关联文本的语义,从而提高了公式检索的准确率。

Description

一种面向工程领域设计计算公式的检索方法与装置
技术领域
本发明涉及信息检索、自然语言处理领域,具体而言,涉及一种针对工程领域设计计算公式的检索方法与其装置。
背景技术
因此,对计算公式进行检索成为了提升整个设计计算流程效率的关键。
目前计算公式的检索方法,如专利CN109918473A、CN106372073A、CN110414319A都针对公式的结构进行表达和检索,忽略了公式的语义信息。而设计计算公式相对于一般科技文档中的数学公式,更容易存在两个公式结构相似但物理意义迥异的情况。如电梯设计中电动机的转动惯量计算公式Jq=GD2/4与最大惯性转矩计算公式Mg=Jε/η,这两个公式结构相似但物理意义显著不同。因此,公式的表达不仅需要考虑公式本身的逻辑结构,还需要融合与公式关联的变量名即公式说明等文字的语义信息。
论文DOI:10.19678/j.issn.1000-3428.0048934提出了运用本体建立数学表达式及其概念之间的联系以实现使用短语查询公式,该方法虽然考虑了公式的语义,但对于特定领域的计算公式需要建立特定的本体,使得该方法缺乏灵活性。
对此,本申请提出了一种融合计算公式物理意义的公式检索方法,从语义层面丰富工程领域设计计算公式嵌入向量的特征,从而提升对设计计算公式检索的准确率。
发明内容
针对以上问题,本申请提供一种面向工程领域设计计算公式的检索方法与装置,能够考虑设计计算公式的物理意义,从而丰富其嵌入表示向量的语义特征,提高检索准确率。
本申请实施例的第一方面提供了一种面向工程领域设计计算公式的检索方法,其具体步骤包括:
步骤1:识别文档中的设计计算公式,将其转化为操作树,对该操作树进行嵌入表达。
步骤2:获取计算公式的关联文本并对其进行嵌入表达。
步骤3:融合计算公式的操作树嵌入和其关联文本的嵌入,得到包含文本语义的公式向量。
步骤4:检索时使用向量相似性度量方法衡量不同公式之间的相似程度,返回相似度最高的结果。
所述步骤1具体包括:
步骤1.1:对于文档中印刷体公式,使用公式识别工具将其转换为中间表达式f。
步骤1.2:使用上下文无关文法描述中间表达式中操作对象和操作符的语法模式以构建词汇表,定义操作符的计算优先级顺序,并对f进行分词,得到由操作对象和操作符组成的序列,最后根据操作符的计算优先级,结合堆栈这一数据结构,将序列转换为公式操作树T。
步骤1.3:对操作树T的节点信息进行one-hot编码,结构信息进行哈夫曼编码,两者拼接之后得到计算公式操作树的嵌入矩阵MOpT
所述步骤2具体包括:
步骤2.1:对于文档中的印刷体公式,根据相对位置关系定位描述其输出参数的语句,去停用词处理之后作为公式的关联文本d。
步骤2.2:以书籍和标准中的计算公式为数据来源,构建专业领域的语句相似度标注数据集,使用文本嵌入的预训练模型对关联文本d进行嵌入表达,获取关联文本的向量ed
所述步骤3具体包括:
步骤3.1:以书籍和标准中的计算公式及其描述语句为数据来源,建立包含文本描述的公式相似度标注数据集;将公式及其关联文本进行组合,作为一个样本,标注不同样本对之间是否相似。
步骤3.2:构建神经网络模型,使用步骤3.1所述的标注数据集对其进行训练和验证。
步骤3.3:以计算公式操作树的嵌入矩阵MOpT及公式关联文本的嵌入向量ed为输入,由步骤3.2中的神经网络模型输出包含文本语义的公式向量ef
所述步骤4具体包括:
步骤4.1:使用向量相似性度量方法衡量公式向量ef与数据集中公式向量的相似程度,返回相似程度结果。
步骤4.2:对相似程度进行排名,相似度越高排名越靠前,返回排名首位的公式,作为检索结果。
优选地,步骤1所述的设计计算公式,为工程领域设计标准、设计计算手册和设计说明书中描述参数计算过程的公式。
优选地,步骤1.1所述的公式识别工具包括Mathpix、InftyReader工具。
进一步,使用公式识别工具Mathpix提供的接口完成公式识别任务。
优选地,步骤1.1所述的中间表达式,其形式包括LaTeX表达式,MathML表达式。使用LaTeX表达式作为中间表达式的形式。
优选地,步骤1.2所述的上下文无关文法,包括:BNF文法、正则表达式,使用BNF文法描述操作符号和操作对象的语法模式。
优选地,步骤2.1所述的相对位置关系,包括相关文本在公式上方最近一行、相关在公式文本下方最近一行两种情况。
优选地,步骤2.2所述的文本嵌入的预训练模型,包括文本嵌入模型BERT以及句子嵌入模型SBERT。针对短文本形式的相关文本使用SBERT输出其嵌入向量。
优选地,步骤3.2所述的神经网络模型,其结构包括长短期记忆网络LSTM、循环神经网络RNN和门控循环单元GRU。使用GRU作为神经网络的基本结构组成。
本申请实施例的第二方面提供了一种面向工程领域设计计算公式的检索装置。该装置包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
本申请实施例提供的面向工程领域设计计算公式的检索方法与装置,具有以下有益效果:从语义层面丰富了工程领域设计计算公式嵌入向量的特征,提升了对设计计算公式进行检索的准确率。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。
图1为本申请所提出的一种面向工程领域设计计算公式的检索方法与装置总流程图。
图2为对印刷体公式进行嵌入表达的流程图。
图3为由公式的LaTeX表达式生成公式操作树的流程图。
图4为对计算公式进行嵌入表达的流程图。
图5为获取计算公式的关联文本并对其进行嵌入表达的流程图。
图6为构建数据集并对SBERT进行调优的流程图。
图7为融合计算公式操作树嵌入和其关联文本嵌入的流程图。
图8为用于实现融合的神经网络结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。
本实施例以电梯设计领域的书籍《电梯设计计算与实例》中的设计计算公式建立模型训练集和测试集。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。本申请实施例的具体步骤包括:
第1步:解析计算公式并将其转化为操作树,对该操作树进行嵌入表达,包括:
1.1)对于文档中印刷体公式,将其转换为中间表达式f。可选的中间表达式包括但不限于LaTex。
所述LaTeX表达式基于LaTeX排版系统,由语法标识符、参数符号组成,如表达式“x=\frac{a}{b}”,表示“x=a/b”。LaTeX表达式定义了符号之间的位置关系,易于解析;
所述印刷体公式识别可以选用但不限于Mathpix。Mathpix可以实现将图片和文档中的公式转换为LaTeX表达式。
1.2)根据f生成计算公式操作树T;
1.3)对操作树T进行嵌入表达;
步骤1.2具体包括:
1.2.1)建立LaTeX表达式词汇表,该表定义了LaTeX表达式中符号和变量的一般语法模式;
1.2.2)根据词汇表对LaTeX表达式进行分词,得到由符号和变量组成的中缀表达式序列IN;
所述中缀表达式为一种通用的算术或逻辑公式表示方法,操作符以中缀形式处于操作数的中间,如“1+2”。
1.2.3)定义不同操作符号之间的优先级,将IN转换为后缀表达式序列RPN;
所述后缀表达式亦被称为逆波兰表达式,在该表示方法中,所有操作符置于操作数的后面,如后缀表达式“24/”等同于中缀表达式“2/4”。
1.2.4)由RPN生成计算公式操作树T;
步骤1.3具体包括:
1.3.1)前序遍历操作树T,对遍历得到的序列进行one-hot编码,获取操作树节点信息的嵌入矩阵Mnodes
1.3.2)深度优先遍历操作树,对遍历得到的序列进行哈夫曼编码,获取操作树节点位置关系的嵌入矩阵Mpositions
1.3.3)将Mnodes与Mpositions进行连接,得到公式操作树的嵌入矩阵MOpT,MOpT中的每一维向量ei都对应了T中的一个节点;
第2步:获取计算公式的关联文本并对其进行嵌入表达,包括:
2.1)对于文档中的印刷体公式,定位描述其输出参数的语句,去停用词处理之后作为公式的关联文本d;
2.2)构建专业领域的语句相似度标注数据集对预训练模型SBERT进行调优,使用优化的模型对关联文本d进行嵌入表达,获取关联文本的向量ed
所述SBERT模型是基于自然语言嵌入表示模型BERT的句子嵌入预训练模型,该模型使用孪生网络、三级网络结构来获得包含语义的句子向量。
其中2.2)具体包括以下步骤:
2.2.1)从专业领域的设计计算标准和书籍中,抽取参数的描述语句;
2.2.2)若两个参数的物理意义相同,则标记其描述语句为相似;反之,则标记为不相似;以此构建专业领域的语句相似度数据集;
2.2.3)在调优时,使用SBERT模型预测数据集中所有语句对的相似度,将预测值与真实值进行比较,反向传播误差,以实现对模型参数的优化;
第3步:融合计算公式的操作树嵌入和其关联文本的嵌入,得到包含文本语义的公式向量,包括:
3.1)建立包含文本描述的公式相似度标注数据集;
3.2)构建神经网络模型,使用步骤3.1所述的标注数据集对其进行训练和验证;
3.3)以计算公式操作树的嵌入矩阵MOpT及公式关联文本的嵌入向量ed为输入,由步骤3.2中的神经网络模型输出包含文本语义的公式向量ef
其中,3.1)具体包括以下步骤:
3.1.1)从专业领域的书籍和标准中,抽取计算公式xi及其对应的关联文本yi,组成包含描述的公式样本(xi,yi);
3.1.2)根据步骤3.1.1所获得样本(xi,yi)进行训练样本的扩充;具体方法为:根据交换律、结合律等运算规则,改变公式xi的结构但不改变其含义,重复n1次以获取公式的正样本集合
Figure BDA0003432295550000051
替换公式xi中的运算符号,使其含义变化,重复n2次以获取公式的负样本集合
Figure BDA0003432295550000052
对于描述语句yi,对其添加停用词,替换近义词,重复n3次以获取关联文本的正样本集合
Figure BDA0003432295550000053
随机选择n4个其他公式的描述语句,加入关联文本的负样本集合
Figure BDA0003432295550000054
3.1.3)匹配步骤3.1.2所得公式及关联文本;具体方式为,将集合
Figure BDA0003432295550000055
与集合
Figure BDA0003432295550000056
中的元素进行排列组合,保留形式为
Figure BDA0003432295550000057
的样本对,令
Figure BDA0003432295550000058
3.1.4)同时考虑关联文本和计算过程的相似程度,以对公式之间相似度进行标注;具体方法为,将同属于(xi,yi)+的两个样本标记为相似;将分别属于(xi,yi)+和(xi,yi)-的两个样本标记为不相似。排列组合出所有的可能情况;
3.2)中所述神经网络模型及其训练过程的具体特征为:采用双向GRU模型,该模型输入为公式操作树的嵌入矩阵MOpT和公式文本描述的嵌入向量ed,输出为融合文本语义的公式向量ef。训练时采用孪生网络结构、随机梯度下降策略和余弦嵌入损失函数。具体训练过程为:基于3.1所构建的标注数据集,由模型输出样本对的向量s1,s2,使用如下的公式计算训练损失:
Figure BDA0003432295550000061
式中,y为样本对的标签,1表示两者相似,-1表示两者不相似,cos(s1,s2)为s1,s2的余弦相似度。每一个训练周期结束时,将训练的损失反向传播以优化模型。
所述GRU模型是长短期记忆(LSTM)网络的一种变体,它较LSTM网络结构更简单,该模型在保留长期序列信息下减轻了梯度消失问题;
所述余弦相似度式衡量向量之间相似程度的一种方法,其具体的计算公式为:
Figure BDA0003432295550000062
可选地,训练时采取批量梯度下降策略;
可选地,训练的损失函数使用欧式距离或余弦距离表示;
第4步,检索时比较不同公式向量之间的相似程度,返回相似度最高的结果,包括:
4.1)使用余弦相似度衡量向量之间的相似程度;
可选的,使用欧式距离衡量向量之间的相似程度;
4.2)对相似程度进行排名,返回排名最高的公式;
图1展示了一种面向工程领域的设计计算公式检索方法的总体流程,具体为:
识别设计计算文档中的印刷体公式,解析并生成公式操作树,根据该操作树生成公式操作树的嵌入;使用电梯设计领域的语料对预训练模型SBERT进行调优,一种面向工程领域的设计计算公式检索方法总流程图,并由调优的SBERT模型生成关联文本的嵌入;面向电梯设计领域,构建包含文本描述的公式相似度标注数据集,在该数据集的基础上,训练神经网络模型以实现对公式操作树和关联文本的融合嵌入。检索时,比较融合文本语义的嵌入向量之间的相似程度,返回相似程度最高的结果。
图2展示了解析印刷体公式并生成操作树的流程,其步骤包括:
步骤S21:调用数学公式识别工具Mathpix的接口,将印刷体公式转换为LaTeX表达式f。
本实施例中,设计计算公式的典型示例为:
Figure BDA0003432295550000063
v=d1/60×n、v=d2(1-η)+(n/60)×(z4/z5)×π。对应的LaTeX表达式为:“i_总=i×\frac{z_2}{z_1}”、“v_梯=d_1/60×n_主”、“v_扶=d_2(1-\eta_{轮})×(n_主/60)×(z_4/z_5)×π”。
步骤S22:由公式的LaTeX表达式f生成公式的操作树T。
步骤S23:对操作树T进行嵌入表达。
图3展示了由公式的LaTeX表达式生成公式操作树的流程,具体为:
步骤S31:建立LaTeX表达式词汇表,该表定义了LaTeX表达式中符号和变3量的一般语法模式。本实施例所建立的LaTeX表达式词汇表包括操作符号表、标识符号表、操作对象表,如表1,2,3所示:
表1:操作符号表
Figure BDA0003432295550000071
表2:标识符号表
Figure BDA0003432295550000072
表3:操作对象表
Figure BDA0003432295550000073
Figure BDA0003432295550000081
操作符号为通用的计算符,其在LaTeX表达式和印刷体公式中的形式和含义相同;标识符号为LaTeX语法中的特有符号,通过描述公式中两个对象之间的位置关系表达特定的含义。标识符号形式多变,且不符合中缀表达式的书写习惯,本实施例根据标识符号的含义将其转换为操作符号,典型示例为:将“\frac{x}{y}”转换为“x/y”;操作对象为操作符号和标识符号作用的对象,在本实施例中,一个操作符号将作用于两个操作对象。
步骤S32:根据词汇表对LaTeX表达式进行分词,得到由符号和变量组成的中缀表达式序列IN。
在本实施例中,典型的中缀表达式序列示例为:[i_总,I,×,z_2,/,z_1],[v_梯,d_1,/,60,×,n_主],[v_扶,=,d_2,(,1,-,\eta_{轮},),×,(,n_主,/,60,),×,(,z_4,/,z_5,),×,π]。关联文本的典型实例为:“主传动总传动比的计算”;“计算梯级运行速率”;“满载上升时驱动两条扶手带所需的功率”。
步骤S33:根据表1操作符号表所示不同操作符号之间的优先级,将IN转换为后缀表达式序列RPN。
本实施例在将IN转化为RPN时,引入了“栈”的概念,具体方法为:定义一个符号栈st和后缀表达式序列栈sr,依次遍历中缀表达式中的元素,根据词汇表判断该元素的类型,并执行不同操作。具体为:
1)若该元素为操作对象,则将其压入sr
2)若该元素为左括号“(”,则将其压入st
3)若该元素为右括号“)”,则将st栈顶的元素依次弹出并压入至sr,直到栈顶的元素为左括号“)”时,将“)”弹出;
4)若该元素为操作符,此时若st不为空且st栈顶元素的优先级大于等于当前元素的优先级,先将st栈顶元素弹出并压入sr,再将当前元素压入sr;否则,直接将当前元素压入sr
遍历了中缀表达式中所有元素之后,将sr中的元素由栈底依次弹出,组成最终的后缀表达式序列RPN。
步骤S34:由后缀表达式序列RPN生成计算公式操作树T。
本实施例中,操作树为二叉树。
本实施例中,实现生成操作树的依据为每一个操作符号都对应着两个操作对象。据此,后续遍历RPN为每个操作符号分配左右节点,最终得到计算公式操作树T。
图4描述了对计算公式操作树进行嵌入表达的流程:
步骤S41:前序遍历操作树T,对遍历得到的序列进行one-hot编码,获取操作树节点信息的嵌入矩阵Mnodes
步骤S42:深度优先遍历操作树,对遍历得到的序列进行哈夫曼编码,获取操作树节点位置关系的嵌入矩阵Mpositions
步骤S43:将Mnodes与Mpositions进行连接,得到公式操作树的嵌入矩阵MOpT,MOpT中的每一维向量ei都对应了T中的一个节点。
本实施例中,Mnodes与Mpositions的连接方式为首尾相接,若Mnodes的长度为n,Mpositions的长度为m,则所得ei前n位为节点信息编码,后m位为节点在T中的位置编码。
图5展示了获取计算公式的关联文本并对其进行嵌入表达的流程,具体步骤为:
步骤S51:定位描述印刷体公式输出参数的语句,去停用词处理之后作为公式的关联文本d。
本实施例中,将公式上方位置最近的一行语句作为其输出参数的描述语句。
本实施例中,关联文本的典型示例为:“主传动总传动比”、“扶手带驱动处的圆周力”、“主轴的转动速率”。
步骤S52:构建专业领域的语句相似度标注数据集对预训练模型SBERT进行调优
步骤S53:使用优化的模型对关联文本d进行嵌入表达,获取关联文本的向量ed
步骤S52中构建数据集并对SBERT进行调优的流程如图6所示,其具体步骤为:
步骤S61:从专业领域的设计计算标准和书籍中,抽取参数的描述语句。
步骤S62:人为判断两个参数的物理意义是否相同,是则标记其描述语句为相似,否则标记为不相似;以此构建专业领域的语句相似度标注数据集。
本实施例在构建数据集时对样本进行了扩充,具体方法为:对于一个参数的描述语句,向其中加入停用词或替换近义词以获取与其相似的正样本。经扩充后,数据集包含了6442个人工标注是否相似的语句对。
步骤S63:在调优时,使用SBERT模型预测数据集中所有语句对的相似度,将预测值与真实值进行比较,反向传播误差,以实现对模型参数的优化。
图7展示了融合计算公式操作树嵌入和其关联文本嵌入的流程,具体步骤包括:
步骤S71:建立包含文本描述的公式相似度标注数据集。
本申请步骤S71的具体实施方法为:
1)从专业领域的书籍和标准中,抽取计算公式xi及其对应的关联文本yi,组成包含描述的公式样本(xi,yi);
2)根据步骤1)所获得样本(xi,yi)进行训练样本的扩充;具体方法为:根据交换律、结合律等运算规则,改变公式xi的结构但不改变其含义,重复n1次以获取公式的正样本集合
Figure BDA0003432295550000101
替换公式xi中的运算符号,使其含义变化,重复n2次以获取公式的负样本集合
Figure BDA0003432295550000102
对于描述语句yi,对其添加停用词,替换近义词,重复n3次以获取关联文本的正样本集合
Figure BDA0003432295550000103
随机选择n4个其他公式的描述语句,加入关联文本的负样本集合
Figure BDA0003432295550000104
3)匹配步骤2)所得公式及关联文本;具体方式为,将集合
Figure BDA0003432295550000105
与集合
Figure BDA0003432295550000106
中的元素进行排列组合,保留形式为
Figure BDA0003432295550000107
的样本对,令
Figure BDA0003432295550000108
4)同时考虑关联文本和计算过程的相似程度,以对公式之间相似度进行标注;具体方法为,将同属于(xi,yi)+的两个样本标记为相似;将分别属于(xi,yi)+和(xi,yi)-的两个样本标记为不相似。排列组合出所有的可能情况;
步骤S72:构建图8所示的双向GRU模型,其输入
Figure BDA00034322955500001010
(m为矩阵MOpT的宽度,xi=MOpT[i,m]表示取MOpT第i列向量,
Figure BDA00034322955500001011
表示将向量首尾相接)。输出为融合文本语义的公式向量ef。训练时采用孪生网络结构、随机梯度下降策略和余弦嵌入损失函数。
本实施例中,模型训练的具体方法为:基于步骤S71所构建的标注数据集,由模型输出样本对的向量s1,s2,使用如下的公式计算训练损失:
Figure BDA0003432295550000109
式中,y为样本对的标签,1表示两者相似,-1表示两者不相似,cos(s1,s2)为s1,s2的余弦相似度。每一个训练周期结束时,将训练的损失反向传播以优化模型。
步骤S73:以计算公式操作树的嵌入矩阵MOpT及公式关联文本的嵌入向量ed为输入,由步骤S72中的神经网络模型输出包含文本语义的公式向量ef
为了验证本方法在实际检索过程中的效果,本实施例以《电梯设计计算与实例》中的设计计算公式为基础,得到了540条包含关联文本的计算公式。这些公式组成了4919个相似度比较对,将其中的4309对作为训练集,610对作为测试集。最终的实验结果,未融合语义信息的模型在公式相似度匹配任务中准确率为78.70%,而本申请所提出的融合语义信息的公式嵌入模型在公式相似度匹配任务中准确率达到了85.24%。
一种面向工程领域的设计计算公式检索装置包括的功能部件有一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。需要说明的是,上述装置或单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分。

Claims (10)

1.一种面向工程领域设计计算公式的检索方法,其特征在于:包括以下步骤:
步骤1:识别文档中的设计计算公式,将其转化为操作树,对该操作树进行嵌入表达,具体包括:
步骤1.1:对于文档中印刷体公式,使用公式识别工具将其转换为中间表达式f。
步骤1.2:使用上下文无关文法描述中间表达式中操作对象和操作符的语法模式以构建词汇表,定义操作符的计算优先级顺序,并对f进行分词,得到由操作对象和操作符组成的序列,最后根据操作符的计算优先级,结合堆栈这一数据结构,将序列转换为公式操作树T。
步骤1.3:对操作树T的节点信息进行one-hot编码,结构信息进行哈夫曼编码,两者拼接之后得到计算公式操作树的嵌入矩阵MOpT
步骤2:获取计算公式的关联文本并对其进行嵌入表达,具体包括:
步骤2.1:对于文档中的印刷体公式,根据相对位置关系定位描述其输出参数的语句,去停用词处理之后作为公式的关联文本d。
步骤2.2:以书籍和标准中的计算公式为数据来源,构建专业领域的语句相似度标注数据集,使用文本嵌入的预训练模型对关联文本d进行嵌入表达,获取关联文本的向量ed
所述步骤3:融合计算公式的操作树嵌入和其关联文本的嵌入,得到包含文本语义的公式向量,具体包括:
步骤3.1:以书籍和标准中的计算公式及其描述语句为数据来源,建立包含文本描述的公式相似度标注数据集;将公式及其关联文本进行组合,作为一个样本,标注不同样本对之间是否相似。
步骤3.2:构建神经网络模型,使用步骤3.1所述的标注数据集对其进行训练和验证。
步骤3.3:以计算公式操作树的嵌入矩阵MOpT及公式关联文本的嵌入向量ed为输入,由步骤3.2中的神经网络模型输出包含文本语义的公式向量ef
步骤4:检索时使用向量相似性度量方法衡量不同公式之间的相似程度,返回相似度最高的结果,具体包括:
步骤4.1:使用向量相似性度量方法衡量公式向量ef与数据集中公式向量的相似程度,返回相似程度结果。
步骤4.2:对相似程度进行排名,相似度越高排名越靠前,返回排名首位的公式,作为检索结果。
2.根据权利要求书1所述的一种面向工程领域设计计算公式的检索方法,其特征在于:步骤1所述的设计计算公式,为工程领域设计标准、设计计算手册和设计说明书中描述参数计算过程的公式。
3.根据权利要求书1所述的一种面向工程领域设计计算公式的检索方法,其特征在于:步骤1.1所述的公式识别工具包括Mathpix、InftyReader工具。
4.根据权利要求书3所述的一种面向工程领域设计计算公式的检索方法,其特征在于:使用公式识别工具Mathpix提供的接口完成公式识别任务。
5.根据权利要求书1所述的一种面向工程领域设计计算公式的检索方法,其特征在于:步骤1.1所述的中间表达式,其形式包括LaTeX表达式,MathML表达式。使用LaTeX表达式作为中间表达式的形式。
6.根据权利要求书1所述的一种面向工程领域设计计算公式的检索方法,其特征在于:步骤1.1所述的上下文无关文法,包括:BNF文法、正则表达式,使用BNF文法描述操作符号和操作对象的语法模式。
7.根据权利要求书1所述的一种面向工程领域设计计算公式的检索方法,其特征在于:步骤2.1所述的相对位置关系,包括关联文本在公式上方最近一行、关联文本在公式文本下方最近一行两种情况。
8.根据权利要求书1所述的一种面向工程领域设计计算公式的检索方法,其特征在于,步骤2.2所述的文本嵌入的预训练模型,包括文本嵌入模型BERT以及句子嵌入模型SBERT。针对短文本形式的关联文本使用SBERT输出其嵌入向量。
9.根据权利要求书1所述的一种面向工程领域设计计算公式的检索方法与装置,其特征在于,步骤3.2所述的神经网络模型,其结构包括长短期记忆网络LSTM、循环神经网络RNN和门控循环单元GRU。使用GRU作为神经网络的基本结构组成。
10.一种面向工程领域设计计算公式的检索装置,其特征在于:
该装置包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。所述处理器执行所述计算机程序时实现如权利要求1中步骤1到步骤4所述方法。
CN202111598653.0A 2021-12-24 2021-12-24 一种面向工程领域设计计算公式的检索方法与装置 Pending CN114266228A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111598653.0A CN114266228A (zh) 2021-12-24 2021-12-24 一种面向工程领域设计计算公式的检索方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111598653.0A CN114266228A (zh) 2021-12-24 2021-12-24 一种面向工程领域设计计算公式的检索方法与装置

Publications (1)

Publication Number Publication Date
CN114266228A true CN114266228A (zh) 2022-04-01

Family

ID=80829779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111598653.0A Pending CN114266228A (zh) 2021-12-24 2021-12-24 一种面向工程领域设计计算公式的检索方法与装置

Country Status (1)

Country Link
CN (1) CN114266228A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720503A (zh) * 2023-03-13 2023-09-08 吉林省元启科技有限公司 一种基于树状解析编码的在线学习系统答案判别方法
CN117609519A (zh) * 2024-01-22 2024-02-27 云南大学 一种电力碳排放计算公式中的实体关系抽取方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720503A (zh) * 2023-03-13 2023-09-08 吉林省元启科技有限公司 一种基于树状解析编码的在线学习系统答案判别方法
CN117609519A (zh) * 2024-01-22 2024-02-27 云南大学 一种电力碳排放计算公式中的实体关系抽取方法
CN117609519B (zh) * 2024-01-22 2024-04-19 云南大学 一种电力碳排放计算公式中的实体关系抽取方法

Similar Documents

Publication Publication Date Title
CN110110054B (zh) 一种基于深度学习的从非结构化文本中获取问答对的方法
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
Yao et al. Bi-directional LSTM recurrent neural network for Chinese word segmentation
CN109145087B (zh) 一种基于表示学习和竞争理论的学者推荐及合作预测方法
CN109933686B (zh) 歌曲标签预测方法、装置、服务器及存储介质
CN114266228A (zh) 一种面向工程领域设计计算公式的检索方法与装置
CN111368048A (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN110991161B (zh) 相似文本确定方法、神经网络模型获得方法及相关装置
CN112380863A (zh) 一种基于多头自注意力机制的序列标注方法
CN113343706B (zh) 基于多模态特征和语义规则的文本抑郁倾向检测系统
CN113392182A (zh) 融合上下文语义约束的知识匹配方法、装置、设备及介质
CN110309282A (zh) 一种答案确定方法及装置
CN113158674A (zh) 一种人工智能领域文档关键信息抽取方法
CN114238571A (zh) 模型的训练方法、知识分类方法、装置、设备、介质
CN111666764A (zh) 一种基于XLNet的自动摘要方法与装置
Jain Domain-specific knowledge graph construction for semantic analysis
CN108664464B (zh) 一种语义相关度的确定方法及确定装置
CN115374786A (zh) 实体和关系联合抽取方法及装置、存储介质和终端
CN111931516A (zh) 一种基于强化学习的文本情感分析方法及系统
CN110263321B (zh) 一种情感词典构建方法及系统
CN113361252B (zh) 基于多模态特征和情感词典的文本抑郁倾向检测系统
Kim et al. Distilling wikipedia mathematical knowledge into neural network models
CN114722833A (zh) 一种语义分类方法及装置
Ivanov et al. Extracting software requirements from unstructured documents
CN113095082A (zh) 一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination