CN114611460A - 数据处理方法、装置、设备和存储介质 - Google Patents
数据处理方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN114611460A CN114611460A CN202210118419.1A CN202210118419A CN114611460A CN 114611460 A CN114611460 A CN 114611460A CN 202210118419 A CN202210118419 A CN 202210118419A CN 114611460 A CN114611460 A CN 114611460A
- Authority
- CN
- China
- Prior art keywords
- tree
- nodes
- node
- mathematical formula
- structure data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000003860 storage Methods 0.000 title abstract description 17
- 238000000547 structure data Methods 0.000 claims abstract description 69
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000006243 chemical reaction Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 90
- 230000009466 transformation Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000004816 latex Substances 0.000 description 2
- 229920000126 latex Polymers 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 101100498818 Arabidopsis thaliana DDR4 gene Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/111—Mathematical or scientific formatting; Subscripts; Superscripts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/154—Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种数据处理方法、装置、设备和存储介质,所述方法包括:获取待处理的数学公式;将所述数学公式转换为树结构数据;所述树结构数据中包括多个树节点以及相邻所述树节点之间的有向边,所述有向边具有对应的树边标签;根据所述树节点和所述树边标签,对待训练的下游任务模型进行训练,以根据训练完成的所述下游任务模型进行任务处理。本申请实施例中,除了利用数学公式转换后的树结构数据中树节点之间的空间信息之外,还利用了树结构数据中树节点之间的树节点标签,因此能够细粒度理解数学公式的公式语义,进而使得基于树节点和树边标签训练完成的下游任务模型,能够更好地完成对应的任务。
Description
技术领域
本申请实施例涉及计算机技术领域,特别是涉及一种数据处理方法和装置、一种电子设备和一种存储介质。
背景技术
数学公式是人们在研究自然界物与物之间时发现的一些联系,并通过一定的方式表达出来的一种表达方法。数学公式是表征自然界不同事物之数量之间的或等或不等的联系,它确切的反映了事物内部和外部的关系,是人们从一种事物到达另一种事物的依据,通过数学公式更好的理解了事物的本质和内涵。
目前,数学公式广泛应用于教育、科学及技术等领域,是其相关内容理解的重要组成部分,具体来说,数学公式特征表示及理解对于如公式信息检索、自动答题等研究领域至关重要,然而,数学公式由于其具备复杂的结构、隐式语义模糊性等特点,相比序列化文本理解更加困难,更具挑战性。
因此,如何准确地对数学公式进行语义理解,进而基于语义理解正确进行任务处理意义重大。
发明内容
本申请实施例提供了一种数据处理方法,以解决无法准确对数学公式进行语义理解,进而无法基于语义理解正确进行任务处理的问题。
相应的,本申请实施例还提供了一种数据处理装置、一种电子设备以及一种存储介质,用以保证上述方法的实现及应用。
为了解决上述问题,本申请实施例公开了一种数据处理方法,所述方法包括:
获取待处理的数学公式;
将所述数学公式转换为树结构数据;所述树结构数据中包括多个树节点以及相邻所述树节点之间的有向边,所述有向边具有对应的树边标签;
根据所述树节点和所述树边标签,对待训练的下游任务模型进行训练,以根据训练完成的所述下游任务模型进行任务处理。
可选地,所述将所述数学公式转换为树结构数据,包括:
对所述数学公式进行MathML编码,得到所述数学公式对应的树结构数据;其中,所述树结构数据至少包括OPT树结构数据。
可选地,所述根据所述树节点和所述树边标签,对待训练的下游任务模型进行训练,以根据训练完成的所述下游任务模型进行任务处理,包括:
根据所述树节点和所述树节点对应的树边标签,生成所述树节点对应的输入向量;
根据所述输入向量计算所述树节点的局部子树结构特征;所述局部子树结构特征用于表征所述树节点在所述树结构数据的局部特征;
根据所述树节点的输入向量计算所述树节点的权重系数;所述权重系数用于表征所述树节点在所述树结构数据中的关键程度;
根据所述树节点对应的权重系数,对所述树节点对应的局部子树结构特征进行加权,得到全局公式语义特征;
采用所述全局公式语义特征对待训练的下游任务模型进行训练,以根据训练完成的所述下游任务模型进行任务处理。
可选地,所述根据所述树节点和所述树节点对应的树边标签,生成所述树节点对应的输入向量,包括:
对所述树节点进行向量化得到树节点向量,以及对所述树边标签进行向量化得到树边标签向量;
将所述树节点对应的树节点向量和树边标签向量,作为所述树节点对应的输入向量。
可选地,所述根据所述输入向量计算所述树节点的局部子树结构特征,包括:
根据所述树节点的输入向量与其在所述树结构数据的直接子节点的输入向量,计算所述树节点与所述树节点的直接子节点的注意力权重;
根据所述树节点的直接子节点的输入向量和对应的注意力权重,计算所述树节点的汇聚信息;
对所述树节点的汇聚信息进行非线性变换操作,得到所述树节点的局部子树结构特征。
可选地,所述根据所述树节点的输入向量计算所述树节点的权重系数,包括:
对所述树节点的输入向量进行转置,得到所述树节点的转置输入向量;
根据所述树节点的转置输入向量以及其他树节点的转置输入向量,计算所述树节点的权重系数。
可选地,所述任务至少包括语义标签分类、公式检索和知识点追踪的其中一种。
本申请实施例还公开了一种数据处理装置,所述装置包括:数学公式获取模块,用于获取待处理的数学公式;数学公式转换模块,用于将所述数学公式转换为树结构数据;所述树结构数据中包括多个树节点以及相邻所述树节点之间的有向边,所述有向边具有对应的树边标签;任务处理模块,用于根据所述树节点和所述树边标签,对待训练的下游任务模型进行训练,以根据训练完成的所述下游任务模型进行任务处理。
可选地,所述数学公式转换模块,用于对所述数学公式进行MathML编码,得到所述数学公式对应的树结构数据;其中,所述树结构数据至少包括OPT树结构数据。
可选地,所述任务处理模块,用于根据所述树节点和所述树节点对应的树边标签,生成所述树节点对应的输入向量;根据所述输入向量计算所述树节点的局部子树结构特征;所述局部子树结构特征用于表征所述树节点在所述树结构数据的局部特征;根据所述树节点的输入向量计算所述树节点的权重系数;所述权重系数用于表征所述树节点在所述树结构数据中的关键程度;根据所述树节点对应的权重系数,对所述树节点对应的局部子树结构特征进行加权,得到全局公式语义特征;采用所述全局公式语义特征对待训练的下游任务模型进行训练,以根据训练完成的所述下游任务模型进行任务处理。
可选地,所述任务处理模块,用于对所述树节点进行向量化得到树节点向量,以及对所述树边标签进行向量化得到树边标签向量;将所述树节点对应的树节点向量和树边标签向量,作为所述树节点对应的输入向量。
可选地,所述任务处理模块,用于根据所述树节点的输入向量与其在所述树结构数据的直接子节点的输入向量,计算所述树节点与所述树节点的直接子节点的注意力权重;根据所述树节点的直接子节点的输入向量和对应的注意力权重,计算所述树节点的汇聚信息;对所述树节点的汇聚信息进行非线性变换操作,得到所述树节点的局部子树结构特征。
可选地,所述任务处理模块,用于对所述树节点的输入向量进行转置,得到所述树节点的转置输入向量;根据所述树节点的转置输入向量以及其他树节点的转置输入向量计算所述树节点的权重系数。
可选地,所述任务至少包括语义标签分类、公式检索和知识点追踪的其中一种。
本申请实施例还公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本申请实施例中一个或多个所述的数据处理方法。
本申请实施例还公开了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本申请实施例中一个或多个所述的数据处理方法。
与现有技术相比,本申请实施例包括以下优点:
在本申请实施例中,获取待处理的数学公式,将数学公式转换为树结构数据,其中,树结构数据中包括多个树节点以及相邻树节点之间的有向边,并且,有向边具有对应的树边标签,然后,可以根据树节点和树边标签对待训练的下游任务模型进行训练,从而可以根据训练完成的下游任务模型进行任务处理。本申请实施例中,除了利用数学公式转换后的树结构数据中树节点之间的空间信息之外,还利用了树结构数据中树节点之间的树节点标签,因此能够细粒度理解数学公式的公式语义,进而使得基于树节点和树边标签训练完成的下游任务模型,能够更好地完成对应的任务。
附图说明
图1是一种数学公式的OPT树结构数据的示意图;
图2是本申请的一种数据处理方法实施例的步骤流程图;
图3是本申请的另一种数据处理方法实施例的步骤流程图;
图4是本申请的一种基于层次化公式细粒度理解的整体框架的示意图;
图5是本申请的一种两种方案检索结果的示意图;
图6是本申请的一种椭圆方程及双曲线方程的示意图
图7是本申请的另一种数据处理装置实施例的结构框图;
图8是本申请一实施例提供的装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
首先,对于涉及了一些技术术语进行介绍,具体包括:
OPT:the operator tree,一种将数学公式文本转换为树结构数据的表示形式,通常通过对数学公式的MathML编码得到;
SLT:the symbol layout tree,另一种将数学公式文本转换为树结构数据的表示形式,通常通过数学公式的Latex编码得到;
attention mask:一种对注意力权重计算的约束方式,常见于transformer网络结构;
MLM:mask language model,即掩码语言模型,预训练模型一种任务形式,遮掩输入中的词汇,模型对该词汇进行预测;
fastText:fastText是一种基于神经网络的文本分类模型,主要思想在于利用长度为n的滑动窗口,将文本划分为一连串长度为n的片段输入到模型中,训练后得到各片段embedding(向量),求平均后作为文本的embedding。
在具体实现中,数学公式广泛应用于教育、科学及技术领域,是其相关内容理解的重要组成部分。数学公式特征表示及理解对于如公式信息检索、自动答题等研究领域至关重要,而数学公式由于其具备复杂的结构、隐式语义模糊性等特点,相比序列化文本理解更困难,具挑战性,具体挑战总结如下所示:
1、数学公式的表示方式灵活多变,相同的数学公式可有多种表示形式,如双曲线方程的公式可以表示为:
2、细微的操作符变化可导致数学公式含义大不相同,如:
3、不受数学公式中的元素顺序影响,正确定位数学公式局部关键特征,如一元二次方程:
x2+3x+1=9和1+3x+x2=9
4、一个数学公式可能涉及多个标签,如一个数学公式在教育领域中可能涉及多个知识考点标签:
目前,数学公式理解相关的代表性研究方案,具体如下所示:
1、Tangent-CFT将SLT和OPT的tuples(元组)当作一个序列,采用fastText n-gramembedding模型获取tuple embedding,最终公式向量表示为所有tuple平均,其存在的问题是仅使用序列化文本特征,没有充分利用公式结构化信息,对公式细粒度理解能力有限。
2、MathBert为一个数学领域预训练模型,其在对数学公式进行建模时,利用了数学公式的OPT树结构数据(opt tree),OPT树结构数据中的每个树节点只和其相邻的树节点建立连接,利用attention mask机制,树节点向量表示只由其相邻的树节点计算得到,然而这种方式存在一些问题:(1)将OPT树结构数据当作无向图形式,经过transformer深层网络作用,每个树节点都可以看到其他树节点的信息,没有反映出数学公式的层次化结构信息;(2)由于无向图形式限制,其没有考虑树节点的边的标签信息,具体地,参照图1,是一种数学公式的OPT树结构数据的示意图,其中,包括一元一次方程:和分式方程:的OPT树结构数据的示意图,显然这两个数学公式的OPT树结构数据是相同,但是这两个数学公式中的变量x位置差异,对公式语义理解比较重要;(3)只能通过公式、文本匹配任务,以及MLM相关任务来生产数学领域的预训练模型,但是公式文本匹配任务并不能够精确地细粒度理解公式语义。
3、目前对于数学公式理解相关研究方案采用无监督方法,对于数学公式的细粒度的公式语义理解缺少准确且有效的先验知识。
针对上述问题,本申请实施例提出一种基于层次化的数学公式细粒度理解方案,可以对数学公式进行细粒度理解,进而能够基于对数学公式的细粒度理解来更好地完成在教育、科学及技术等领域的任务。
参照图2,是本申请的一种数据处理方法实施例的步骤流程图,包括如下步骤:
步骤202、获取待处理的数学公式。
在具体实现中,可以根据任务的需求,获取对应的数学公式作为待处理的数学公式。作为一个可选示例,任务至少可以包括语义标签分类、公式检索和知识点追踪的其中一种,则可以针对这些任务获取对应的数学公式作为待处理的数学公式。
步骤204、将所述数学公式转换为树结构数据;所述树结构数据中包括多个树节点以及相邻所述树节点之间的有向边,所述有向边具有对应的树边标签。
在本申请实施例中,可以将数学公式通过转换处理,转换为为树结构的树结构数据,例如,可以转换为OPT树结构数据,OPT树结构数据中可以包括多个树节点,以及相邻的树节点之间的有向边,并且,每条有向边分别具有对应的树边标签。
步骤206、根据所述树节点和所述树边标签,对待训练的下游任务模型进行训练,以根据训练完成的所述下游任务模型进行任务处理。
在本申请实施例中,在得到树节点和树边标签后可以利用树节点和树边标签对待训练的下游任务模型进行训练,从而可以根据训练完成的下游任务模型进行相应的任务处理,例如实现语义标签分类、公式检索和知识点追踪等等任务。
获取待处理的数学公式,将数学公式转换为树结构数据,其中,树结构数据中包括多个树节点以及相邻树节点之间的有向边,并且,有向边具有对应的树边标签,然后,可以根据树节点和树边标签对待训练的下游任务模型进行训练,从而可以根据训练完成的下游任务模型进行任务处理。本申请实施例中,除了利用数学公式转换后的树结构数据中树节点之间的空间信息之外,还利用了树结构数据中树节点之间的树节点标签,因此能够细粒度理解数学公式的公式语义,进而使得基于树节点和树边标签进行有监督训练完成的下游任务模型,能够更好地完成对应的任务。
参照图3,是本申请的另一种数据处理方法实施例的步骤流程图,包括如下步骤:
步骤302、获取待处理的数学公式。
步骤304、将所述数学公式转换为树结构数据;所述树结构数据中包括多个树节点以及相邻所述树节点之间的有向边,所述有向边具有对应的树边标签。
在一示例性实施例中,所述步骤304、将所述数学公式转换为树结构数据,可以包括如下步骤:
对所述数学公式进行MathML编码,得到所述数学公式对应的树结构数据;其中,所述树结构数据至少包括OPT树结构数据。
在本申请实施例中,可以采用MathML编码将数学公式转换为OPT树结构数据,或者采用Latex编码将数学公式转换为SLT树结构数据,其中,数学公式转换后的树结构数据可以包括多个树节点,相邻的树节点之间包括有向边,以及有向边具有对应的树边标签。
示例性地,给定数学公式X,其OPT树结构数据表示定义为有向图G=(N,E,L),其中,N为OPT树结构数据中的树节点的集合,即N={n1,n2,n3……nM},M为树节点的个数,E表示相邻父子节点之间的有向边的集合,即<ni,nj>∈E,表示父节点ni到子节点nj存在一条有向边,各个有向边具有对应的树边标签(有向边标签),lij∈Z(Z表示整数集合,即lij的取值为0,1,2,3……)组成集合L,即L={l1p1,l2p2,......lMpM}
步骤306、根据所述树节点和所述树节点对应的树边标签,生成所述树节点对应的输入向量。
在一示例性实施例中,所述步骤306、根据所述树节点和所述树节点对应的树边标签,生成所述树节点对应的输入向量,可以包括如下步骤:
对所述树节点进行向量化得到树节点向量,以及对所述树边标签进行向量化得到树边标签向量;
将所述树节点对应的树节点向量和树边标签向量,作为所述树节点对应的输入向量。
参照图4,是本申请的一种基于层次化公式细粒度理解的整体框架的示意图,该整体框架主要分为4个模块:①、输入表示层;②、公式局部结构特征层(局部子树结构特征层);③、公式全局语义特征层;④、下游任务层。
其中,输入表示层主要由两大部分组成:树节点,以及树节点与其父节点的连接边信息(有向边),设各个树节点的向量化表示为N={n1,n2,n3……nM},树边标签向量化为L={l1p1,l2p2,......lMpM},则输入表示层最终表示为其中,输入向量为
步骤308、根据所述输入向量计算所述树节点的局部子树结构特征;所述局部子树结构特征用于表征所述树节点在所述树结构数据的局部特征;
在一示例性实施例中,所述步骤308、根据所述输入向量计算所述树节点的局部子树结构特征,可以包括如下步骤:
根据所述树节点的输入向量与其在所述树结构数据的直接子节点的输入向量,计算所述树节点与所述树节点的直接子节点的注意力权重;
根据所述树节点的直接子节点的输入向量和对应的注意力权重,计算所述树节点的汇聚信息;
对所述树节点的汇聚信息进行非线性变换操作,得到所述树节点的局部子树结构特征。
在本申请实施例中,公式局部结构特征层将树结构数据定义为有向图,并定制化一种多层注意力机制,利用有向边实现约束信息。示例性地,定义第t层的父节点ni到子节点nj注意力权重表示为其中具体地,在transformer网络结构包括多个网络层,是多个相同结构的堆叠,因此t表示所在第t层网络,分别表示节点i,j在第t层网络的向量表示,两者做内积表示两节点间的注意力权重,分母作用是在所有子节点间权重归一化处理,ωij控制只有直连父子节点间才会计算权重,其他情况为0,父节点n1所在子树中直连子节点汇聚后的信息表示为该子树在t+1层的局部子树结构特征表示为ht+1=g(υt,ht,γt),其中g(.)表示非线性变换操作,如图3中layernorm、feedforward等等,γt为g(.)中可训练的网络参数。
步骤310、根据所述树节点的输入向量计算所述树节点的权重系数;所述权重系数用于表征所述树节点在所述树结构数据中的关键程度;
步骤312、根据所述树节点对应的权重系数,对所述树节点对应的局部子树结构特征进行加权,得到全局公式语义特征;
在一示例性实施例中,所述步骤310、根据所述树节点的输入向量计算所述树节点的权重系数,可以包括如下步骤:
对所述树节点的输入向量进行转置,得到所述树节点的转置输入向量;
根据所述树节点的转置输入向量以及其他树节点的转置输入向量,计算所述树节点的权重系数。
在本申请实施例中,全局语义特征层对各个树节点的局部子树结构特征加权,强化有利于准确理解公式语义的关键信息,弱化无关紧要的边缘信息。在全局语义特征层中,定义权重系数为则最终在全局语义特征层得到的公式表示为
步骤314、采用所述全局公式语义特征对待训练的下游任务模型进行训练,以根据训练完成的所述下游任务模型进行任务处理。
在本申请实施例中,结合局部结构特征与全局语义特征两方面得到公式细粒度表征后,如何在下游任务层使用可由具体任务类型决定,具体任务类型可包括语义标签分类、公式检索、知识点追踪等等,下游任务有监督训练方式相比无监督方式更有利于公式细粒度的语义理解。
为了更好地说明本申请实施例能达到的技术效果,分别公式语义标签分类、公式检索以及公式向量可视化进行比对说明:
1、公式语义标签分类:本申请实施例基于规则模板匹配、命中上下文关键词以及人工校验等策略,挖掘构建近100万条带语义标签的数据集,得到公式语义标签,其中这些公式语义标签可以根据实际情况进行标签体系划分,例如,可以将标签体系分为4级,共包含66个叶子标签,当然实际中并不局限于此。
举例说明,在4级标签体系的一级标签及其对应的部分叶子标签,一级标签可以包括:函数类、方程类、三角函数类、不等式类、不等式组类、向量类、集合类、复数类、概率类、极限类、积分类。以方程类为例进一步子标签可以包括:方程类`线性方程`一元一次方程;方程类`线性方程`二元一次方程;方程类`线性方程`多元一次方程;方程类`几何方程`直线方程;方程类`几何方程`圆的方程;方程类`几何方程`椭圆方程;方程类`几何方程`抛物线方程;方程类`几何方程`双曲线方程;方程类`几何方程`其他曲线方程;方程类`分式方程;方程类`一元二次方程;方程类`指数方程;方程类`对数方程;方程类`高次方程;方程类`参数方程;方程类`极坐标方程;方程类`二元二次方程;方程类`根式方程。
利用该数据集对比本申请的任务模型(HTE(ours))和其他方案的任务模型(即FastText(text)、FastText(OPT)、FastText(SLT)等等)的分类结果的评价指标如下表1所示,其中,评价指标可以包括Precision(准确率),Recall(召回率),F1-score(F1分数),显然本申请的评价指标的数值较优,因此使用本申请可达到较优效果,并且,本申请可以正确识别数学公式的公式语义。
表2:
2、公式检索:利用上述数据集对比TangentCFT与本申请(HTE(ours))在检索任务上的性能,其中,评价指标可以包括Bpref(表示如果结果集中正确答案排在非正确答案前面,则检索较准确)和P@N(表示返回前N个结果的精确度),具体分类结果的评价指标如下表2所示:
表2:
可见,本申请远优于其他类似方案,参照图5,是两种方案检索结果对比示例,下图表示相似公式检索,检索公式为一元一次函数,但是其很容易与一元二次函数视觉混淆,由于TangentCFT侧重召回共现结构,对于复杂公式易缺失或召回错误知识点语义,因此是TangentCFT召回错误结果,而基于本申请的HTE(ours)模型可以召回正确的一元一次函数结果,可见,本申请实现公式语义的细粒度理解,进而可以更好地完成公式检索任务。
3、公式向量可视化:参照图6,是本申请的一种椭圆方程及双曲线方程的示意图,图中是椭圆方程和双曲线方程,二者很容易混淆,关键区别性特征为中间运算符"+"/"-",图中的分数(0.01、0.06……)为模型在判别公式类型是对于每个公式符号的注意力权重,本申请的模型类似人处理方式,能够正确将注意力落在关键区别性特征上,从而正确区分公式类型,显然,本申请具备强化关键特征如中间运算符号"plus"/"minus"(即"+"/"-"),"plus"/"minus"的分数远远大于其他公式中的元素,弱化边缘信息如数字("16"/"25")的能力,从而正确区分容易混淆的方程。
综上可知,应用本申请实施例至少具有如下优点:1、设计有监督学习框架实现公式从局部结构特征到全局语义特征的层次化细粒度理解;2、公式局部理解方面,将树结构视作有向图,信息只允许从子节点向其直连父节点汇聚传递,并引入边信息强化结构细粒度区分,最终子树根节点信息可表示该子树的局部特征;3、公式全局理解方面,基于attention机制对各局部子树特征加权,强化具备区别形式的关键信息,弱化无关紧要的边缘信息,实现公式整体语义理解。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
在上述实施例的基础上,本实施例还提供了一种数据处理装置,应用于终端设备、服务器等电子设备中。
参照图7,示出了本申请的一种数据处理装置实施例的结构框图,具体可以包括如下模块:
数学公式获取模块702,用于获取待处理的数学公式;
数学公式转换模块704,用于将所述数学公式转换为树结构数据;所述树结构数据中包括多个树节点以及相邻所述树节点之间的有向边,所述有向边具有对应的树边标签;
任务处理模块706,用于根据所述树节点和所述树边标签,对待训练的下游任务模型进行训练,以根据训练完成的所述下游任务模型进行任务处理。
在一示例性实施例中,所述数学公式转换模块704,用于对所述数学公式进行MathML编码,得到所述数学公式对应的树结构数据;其中,所述树结构数据至少包括OPT树结构数据。
在一示例性实施例中,所述任务处理模块706,用于根据所述树节点和所述树节点对应的树边标签,生成所述树节点对应的输入向量;根据所述输入向量计算所述树节点的局部子树结构特征;所述局部子树结构特征用于表征所述树节点在所述树结构数据的局部特征;根据所述树节点的输入向量计算所述树节点的权重系数;所述权重系数用于表征所述树节点在所述树结构数据中的关键程度;根据所述树节点对应的权重系数,对所述树节点对应的局部子树结构特征进行加权,得到全局公式语义特征;采用所述全局公式语义特征对待训练的下游任务模型进行训练,以根据训练完成的所述下游任务模型进行任务处理。
在一示例性实施例中,所述任务处理模块706,用于对所述树节点进行向量化得到树节点向量,以及对所述树边标签进行向量化得到树边标签向量;将所述树节点对应的树节点向量和树边标签向量,作为所述树节点对应的输入向量。
在一示例性实施例中,所述任务处理模块706,用于根据所述树节点的输入向量与其在所述树结构数据的直接子节点的输入向量,计算所述树节点与所述树节点的直接子节点的注意力权重;根据所述树节点的直接子节点的输入向量和对应的注意力权重,计算所述树节点的汇聚信息;对所述树节点的汇聚信息进行非线性变换操作,得到所述树节点的局部子树结构特征。
在一示例性实施例中,所述任务处理模块706,用于对所述树节点的输入向量进行转置,得到所述树节点的转置输入向量;根据所述树节点的转置输入向量以及其他树节点的转置输入向量计算所述树节点的权重系数。
在一示例性实施例中,所述任务至少包括语义标签分类、公式检索和知识点追踪的其中一种。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。
本申请实施例提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中,所述电子设备包括终端设备、服务器(集群)等各类型的设备。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的装置,该装置可包括终端设备、服务器(集群)等电子设备。图8示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置800。
对于一个实施例,图8示出了示例性装置800,该装置具有一个或多个处理器802、被耦合到(一个或多个)处理器802中的至少一个的控制模块(芯片组)804、被耦合到控制模块804的存储器806、被耦合到控制模块804的非易失性存储器(NVM)/存储设备808、被耦合到控制模块804的一个或多个输入/输出设备810,以及被耦合到控制模块804的网络接口812。
处理器802可包括一个或多个单核或多核处理器,处理器802可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,装置800能够作为本申请实施例中所述终端设备、服务器(集群)等设备。
在一些实施例中,装置800可包括具有指令814的一个或多个计算机可读介质(例如,存储器806或NVM/存储设备808)以及与该一个或多个计算机可读介质相合并被配置为执行指令814以实现模块从而执行本公开中所述的动作的一个或多个处理器802。
对于一个实施例,控制模块804可包括任意适当的接口控制器,以向(一个或多个)处理器802中的至少一个和/或与控制模块804通信的任意适当的设备或组件提供任意适当的接口。
控制模块804可包括存储器控制器模块,以向存储器806提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
存储器806可被用于例如为装置800加载和存储数据和/或指令814。对于一个实施例,存储器806可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,存储器806可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,控制模块804可包括一个或多个输入/输出控制器,以向NVM/存储设备808及(一个或多个)输入/输出设备810提供接口。
例如,NVM/存储设备808可被用于存储数据和/或指令814。NVM/存储设备808可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备808可包括在物理上作为装置800被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如,NVM/存储设备808可通过网络经由(一个或多个)输入/输出设备810进行访问。
(一个或多个)输入/输出设备810可为装置800提供接口以与任意其他适当的设备通信,输入/输出设备810可以包括通信组件、音频组件、传感器组件等。网络接口812可为装置800提供接口以通过一个或多个网络通信,装置800可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi、2G、3G、4G、5G等,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器802中的至少一个可与控制模块804的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器802中的至少一个可与控制模块804的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器802中的至少一个可与控制模块804的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器802中的至少一个可与控制模块804的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,装置800可以但不限于是:服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中,装置800可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,装置800包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
其中,检测装置中可采用主控芯片作为处理器或控制模块,传感器数据、位置信息等存储到存储器或NVM/存储设备中,传感器组可作为输入/输出设备,通信接口可包括包括网络接口。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种数据处理方法和装置,一种电子设备和一种存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取待处理的数学公式;
将所述数学公式转换为树结构数据;所述树结构数据中包括多个树节点以及相邻所述树节点之间的有向边,所述有向边具有对应的树边标签;
根据所述树节点和所述树边标签,对待训练的下游任务模型进行训练,以根据训练完成的所述下游任务模型进行任务处理。
2.根据权利要求1所述的方法,其特征在于,所述将所述数学公式转换为树结构数据,包括:
对所述数学公式进行MathML编码,得到所述数学公式对应的树结构数据;其中,所述树结构数据至少包括OPT树结构数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述树节点和所述树边标签,对待训练的下游任务模型进行训练,以根据训练完成的所述下游任务模型进行任务处理,包括:
根据所述树节点和所述树节点对应的树边标签,生成所述树节点对应的输入向量;
根据所述输入向量计算所述树节点的局部子树结构特征;所述局部子树结构特征用于表征所述树节点在所述树结构数据的局部特征;
根据所述树节点的输入向量计算所述树节点的权重系数;所述权重系数用于表征所述树节点在所述树结构数据中的关键程度;
根据所述树节点对应的权重系数,对所述树节点对应的局部子树结构特征进行加权,得到全局公式语义特征;
采用所述全局公式语义特征对待训练的下游任务模型进行训练,以根据训练完成的所述下游任务模型进行任务处理。
4.根据权利要求3所述的方法,其特征在于,所述根据所述树节点和所述树节点对应的树边标签,生成所述树节点对应的输入向量,包括:
对所述树节点进行向量化得到树节点向量,以及对所述树边标签进行向量化得到树边标签向量;
将所述树节点对应的树节点向量和树边标签向量,作为所述树节点对应的输入向量。
5.根据权利要求3所述的方法,其特征在于,所述根据所述输入向量计算所述树节点的局部子树结构特征,包括:
根据所述树节点的输入向量与其在所述树结构数据的直接子节点的输入向量,计算所述树节点与所述树节点的直接子节点的注意力权重;
根据所述树节点的直接子节点的输入向量和对应的注意力权重,计算所述树节点的汇聚信息;
对所述树节点的汇聚信息进行非线性变换操作,得到所述树节点的局部子树结构特征。
6.根据权利要求3所述的方法,其特征在于,所述根据所述树节点的输入向量计算所述树节点的权重系数,包括:
对所述树节点的输入向量进行转置,得到所述树节点的转置输入向量;
根据所述树节点的转置输入向量以及其他树节点的转置输入向量,计算所述树节点的权重系数。
7.根据权利要求1所述的方法,其特征在于,所述任务至少包括语义标签分类、公式检索和知识点追踪的其中一种。
8.一种数据处理装置,其特征在于,所述装置包括:
数学公式获取模块,用于获取待处理的数学公式;
数学公式转换模块,用于将所述数学公式转换为树结构数据;所述树结构数据中包括多个树节点以及相邻所述树节点之间的有向边,所述有向边具有对应的树边标签;
任务处理模块,用于根据所述树节点和所述树边标签,对待训练的下游任务模型进行训练,以根据训练完成的所述下游任务模型进行任务处理。
9.一种电子设备,其特征在于,包括:处理器;和
存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如权利要求1-7中一个或多个所述的数据处理方法。
10.一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如权利要求1-7中一个或多个所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210118419.1A CN114611460A (zh) | 2022-02-08 | 2022-02-08 | 数据处理方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210118419.1A CN114611460A (zh) | 2022-02-08 | 2022-02-08 | 数据处理方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114611460A true CN114611460A (zh) | 2022-06-10 |
Family
ID=81858830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210118419.1A Pending CN114611460A (zh) | 2022-02-08 | 2022-02-08 | 数据处理方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114611460A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116029613A (zh) * | 2023-02-17 | 2023-04-28 | 国网浙江省电力有限公司 | 新型电力系统指数数据处理方法及平台 |
CN116055224A (zh) * | 2023-03-29 | 2023-05-02 | 山东省计算中心(国家超级计算济南中心) | 基于时空超图卷积的加密应用程序行为流量检测方法 |
CN116151354A (zh) * | 2023-04-10 | 2023-05-23 | 之江实验室 | 网络节点的学习方法、装置、电子装置和存储介质 |
CN116772944A (zh) * | 2023-08-25 | 2023-09-19 | 克拉玛依市燃气有限责任公司 | 配气站的智能监控系统及其方法 |
CN117933101A (zh) * | 2024-03-22 | 2024-04-26 | 山东星科智能科技股份有限公司 | 一种工业生产数字孪生仿真系统、方法和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120095569A (ko) * | 2011-02-21 | 2012-08-29 | 에스케이텔레콤 주식회사 | 수학식 시맨틱정보 생성방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 |
CN103299292A (zh) * | 2010-12-02 | 2013-09-11 | Sk电信有限公司 | 用于处理自然语言和数学公式的方法及其设备 |
CN107301164A (zh) * | 2016-04-14 | 2017-10-27 | 科大讯飞股份有限公司 | 数学公式的语义解析方法及装置 |
CN110414319A (zh) * | 2019-06-13 | 2019-11-05 | 中国软件与技术服务股份有限公司 | 一种基于有效匹配子树的公式相似度计算方法和科技文档检索方法及装置 |
US20210019370A1 (en) * | 2019-07-19 | 2021-01-21 | Siemens Aktiengesellschaft | Neural relation extraction within and across sentence boundaries |
-
2022
- 2022-02-08 CN CN202210118419.1A patent/CN114611460A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103299292A (zh) * | 2010-12-02 | 2013-09-11 | Sk电信有限公司 | 用于处理自然语言和数学公式的方法及其设备 |
KR20120095569A (ko) * | 2011-02-21 | 2012-08-29 | 에스케이텔레콤 주식회사 | 수학식 시맨틱정보 생성방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 |
CN107301164A (zh) * | 2016-04-14 | 2017-10-27 | 科大讯飞股份有限公司 | 数学公式的语义解析方法及装置 |
CN110414319A (zh) * | 2019-06-13 | 2019-11-05 | 中国软件与技术服务股份有限公司 | 一种基于有效匹配子树的公式相似度计算方法和科技文档检索方法及装置 |
US20210019370A1 (en) * | 2019-07-19 | 2021-01-21 | Siemens Aktiengesellschaft | Neural relation extraction within and across sentence boundaries |
Non-Patent Citations (1)
Title |
---|
陈鹏;郭剑毅;余正涛;严馨;张志坤;高盛祥;: "融合领域知识短语树核函数的中文领域实体关系抽取", 南京大学学报(自然科学), no. 01, 30 January 2015 (2015-01-30) * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116029613A (zh) * | 2023-02-17 | 2023-04-28 | 国网浙江省电力有限公司 | 新型电力系统指数数据处理方法及平台 |
CN116055224A (zh) * | 2023-03-29 | 2023-05-02 | 山东省计算中心(国家超级计算济南中心) | 基于时空超图卷积的加密应用程序行为流量检测方法 |
CN116151354A (zh) * | 2023-04-10 | 2023-05-23 | 之江实验室 | 网络节点的学习方法、装置、电子装置和存储介质 |
CN116772944A (zh) * | 2023-08-25 | 2023-09-19 | 克拉玛依市燃气有限责任公司 | 配气站的智能监控系统及其方法 |
CN116772944B (zh) * | 2023-08-25 | 2023-12-01 | 克拉玛依市燃气有限责任公司 | 配气站的智能监控系统及其方法 |
CN117933101A (zh) * | 2024-03-22 | 2024-04-26 | 山东星科智能科技股份有限公司 | 一种工业生产数字孪生仿真系统、方法和存储介质 |
CN117933101B (zh) * | 2024-03-22 | 2024-06-11 | 山东星科智能科技股份有限公司 | 一种工业生产数字孪生仿真系统、方法和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11176328B2 (en) | Non-factoid question-answering device | |
CN114611460A (zh) | 数据处理方法、装置、设备和存储介质 | |
US11507800B2 (en) | Semantic class localization digital environment | |
CN109033068B (zh) | 基于注意力机制的用于阅读理解的方法、装置和电子设备 | |
CN107066464B (zh) | 语义自然语言向量空间 | |
CN106776673B (zh) | 多媒体文档概括 | |
CN108376132B (zh) | 相似试题的判定方法及系统 | |
CN112015868B (zh) | 基于知识图谱补全的问答方法 | |
CN109948149B (zh) | 一种文本分类方法及装置 | |
CN112231569B (zh) | 新闻推荐方法、装置、计算机设备及存储介质 | |
GB2546360A (en) | Image captioning with weak supervision | |
CN106909931B (zh) | 一种用于机器学习模型的特征生成方法、装置和电子设备 | |
CN109376222A (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN110781302B (zh) | 文本中事件角色的处理方法、装置、设备及存储介质 | |
JP7417679B2 (ja) | 情報抽出方法、装置、電子機器及び記憶媒体 | |
CN110990596B (zh) | 一种基于自适应量化多模态哈希检索方法及系统 | |
US11461613B2 (en) | Method and apparatus for multi-document question answering | |
US20200364216A1 (en) | Method, apparatus and storage medium for updating model parameter | |
CN112183111A (zh) | 长文本语义相似度匹配方法、装置、电子设备及存储介质 | |
US20230195768A1 (en) | Techniques For Retrieving Document Data | |
CN111145913A (zh) | 基于多重注意力模型的分类方法、装置及设备 | |
US20190164083A1 (en) | Categorical Data Transformation and Clustering for Machine Learning using Natural Language Processing | |
CN113723077A (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
US20230050538A1 (en) | Boosting and matrix factorization | |
CN110889290A (zh) | 文本编码方法和设备、文本编码有效性检验方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |