CN113919292A - 一种用于公式识别的模型训练方法及装置 - Google Patents

一种用于公式识别的模型训练方法及装置 Download PDF

Info

Publication number
CN113919292A
CN113919292A CN202111152746.0A CN202111152746A CN113919292A CN 113919292 A CN113919292 A CN 113919292A CN 202111152746 A CN202111152746 A CN 202111152746A CN 113919292 A CN113919292 A CN 113919292A
Authority
CN
China
Prior art keywords
formula
training
context vector
feature
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111152746.0A
Other languages
English (en)
Other versions
CN113919292B (zh
Inventor
刘水
辛晓哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN202111152746.0A priority Critical patent/CN113919292B/zh
Publication of CN113919292A publication Critical patent/CN113919292A/zh
Application granted granted Critical
Publication of CN113919292B publication Critical patent/CN113919292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种用于公式识别的模型训练方法:获取第一训练样本和第一训练样本的标签,第一训练样本包括:训练公式轨迹和训练公式图片,并利用第一训练样本和第一训练样本的标签,训练公式识别模型。具体地:根据训练公式轨迹,确定第一特征,并对第一特征进行处理得到第一上下文向量;根据训练公式图片,确定第二特征,并对第二特征进行处理,得到第二上下文向量;根据第一特征和第二特征,得到融合特征,并对融合特征进行处理,得到第三上下文向量;根据第一上下文向量、第二上下文向量、第三上下文向量、以及训练样本对应的标签,调整公式识别模型的参数。利用该方法训练得到的公式识别模型的准确度比较高。

Description

一种用于公式识别的模型训练方法及装置
技术领域
本申请涉及数据处理领域,特别是涉及一种用于公式识别的模型训练方法及装置。
背景技术
在一些场景中,为提高公式识别的准确性,可以结合公式轨迹以及包括公式的图片,来对公式进行识别。但是,目前通过对公式轨迹以及包括公式的图片对公式进行识别的方案,并不能准确的识别出公式。本申请中提及的公式轨迹,包括组成公式的一个个轨迹点;本申请中提及的包括公式的图片,也可以被称为公式图片。
因此,急需一种方案,能够准确的基于公式轨迹和公式图片进行公式识别。
发明内容
本申请所要解决的技术问题是:目前通过对公式轨迹和公式图片对公式进行识别的方案,并不能准确的识别出公式,提供一种用于公式识别的模型训练方法及装置。
第一方面,本申请实施例提供了一种用于公式识别的模型训练方法,所述方法包括:
获取第一训练样本和所述第一训练样本的标签,所述第一训练样本包括:训练公式轨迹和训练公式图片,其中,第一训练样本的标签,用于指示所述训练公式轨迹对应的公式,所述训练公式轨迹和所述训练公式图片对应同一公式;
利用所述第一训练样本和所述第一训练样本的标签,通过如下方式训练公式识别模型:
根据所述训练公式轨迹,确定第一特征,并对第一特征进行处理得到第一上下文向量;根据所述训练公式图片,确定第二特征,并对所述第二特征进行处理,得到第二上下文向量;
根据所述第一特征和所述第二特征,得到融合特征,并对所述融合特征进行处理,得到第三上下文向量;
根据所述第一上下文向量、所述第二上下文向量、所述第三上下文向量、以及所述训练样本对应的标签,调整所述公式识别模型的参数。
可选的,根据所述第一上下文向量、第二上下文向量、所述第三上下文向量以及所述训练样本对应的标签,调整所述公式识别模型的参数,包括:
对由所述第一上下文向量确定的第一预测结果与由所述第二上下文向量确定的第二预测结果进行融合,得到融合预测结果;
利用所述融合预测结果、所述训练样本对应的标签、以及由所述第三上下文向量确定的第三预测结果,调整所述公式识别模型的参数。
可选的,所述公式识别模型包括编码部分、特征融合部分以及解码部分;
所述编码部分用于:根据所述训练公式轨迹确定第一特征,根据所述训练公式图片确定第二特征;
所述特征融合部分用于:根据所述第一特征和所述第二特征,得到融合特征;
所述解码部分用于:对第一特征进行处理得到第一上下文向量;对所述第二特征进行处理得到第二上下文向量;对所述融合特征进行处理得到第三上下文向量;根据所述第一上下文向量、第二上下文向量以及所述第三上下文向量,得到所述公式识别模型的预测结果;
所述调整所述公式识别模型的参数,包括:
在开始训练所述公式识别模型的预设时间段内,调整所述特征融合部分以及解码部分的参数,所述编码部分采用预先确定的参数。
可选的,所述调整所述公式识别模型的参数,包括:
在开始训练所述公式识别模型的预设时间段之后,调整所述编码部分的参数。
可选的,所述根据所述训练公式轨迹,确定第一特征,并对第一特征进行处理得到第一上下文向量,通过预先训练得到的第一识别模型实现。
可选的,所述根据所述训练公式图片,确定第二特征,并对所述第二特征进行处理,得到第二上下文向量,通过预先训练的第二识别模型实现。
可选的,所述方法还包括:
获取待处理公式轨迹和待处理公式图片;
将所述待处理公式轨迹和所述待处理公式图片输入训练得到的公式识别模型,得到目标公式。
第二方面,本申请实施例提供了一种用于公式识别的模型训练装置,所述装置包括:
获取单元,用于获取第一训练样本和所述第一训练样本的标签,所述第一训练样本包括:训练公式轨迹和训练公式图片,其中,第一训练样本的标签,用于指示所述训练公式轨迹对应的公式,所述训练公式轨迹和所述训练公式图片对应同一公式;
训练单元,用于利用所述第一训练样本和所述第一训练样本的标签,通过如下方式训练公式识别模型:
根据所述训练公式轨迹,确定第一特征,并对第一特征进行处理得到第一上下文向量;根据所述训练公式图片,确定第二特征,并对所述第二特征进行处理,得到第二上下文向量;
根据所述第一特征和所述第二特征,得到融合特征,并对所述融合特征进行处理,得到第三上下文向量;
根据所述第一上下文向量、所述第二上下文向量、所述第三上下文向量、以及所述训练样本对应的标签,调整所述公式识别模型的参数。
可选的,根据所述第一上下文向量、第二上下文向量、所述第三上下文向量以及所述训练样本对应的标签,调整所述公式识别模型的参数,包括:
对由所述第一上下文向量确定的第一预测结果与由所述第二上下文向量确定的第二预测结果进行融合,得到融合预测结果;
利用所述融合预测结果、所述训练样本对应的标签、以及由所述第三上下文向量确定的第三预测结果,调整所述公式识别模型的参数。
可选的,所述公式识别模型包括编码部分、特征融合部分以及解码部分;
所述编码部分用于:根据所述训练公式轨迹确定第一特征,根据所述训练公式图片确定第二特征;
所述特征融合部分用于:根据所述第一特征和所述第二特征,得到融合特征;
所述解码部分用于:对第一特征进行处理得到第一上下文向量;对所述第二特征进行处理得到第二上下文向量;对所述融合特征进行处理得到第三上下文向量;根据所述第一上下文向量、第二上下文向量以及所述第三上下文向量,得到所述公式识别模型的预测结果;
所述调整所述公式识别模型的参数,包括:
在开始训练所述公式识别模型的预设时间段内,调整所述特征融合部分以及解码部分的参数,所述编码部分采用预先确定的参数。
可选的,所述调整所述公式识别模型的参数,包括:
在开始训练所述公式识别模型的预设时间段之后,调整所述编码部分的参数。
可选的,所述根据所述训练公式轨迹,确定第一特征,并对第一特征进行处理得到第一上下文向量,通过预先训练得到的第一识别模型实现。
可选的,所述根据所述训练公式图片,确定第二特征,并对所述第二特征进行处理,得到第二上下文向量,通过预先训练的第二识别模型实现。
可选的,所述装置还包括:
获取待处理公式轨迹和待处理公式图片;
将所述待处理公式轨迹和所述待处理公式图片输入训练得到的公式识别模型,得到目标公式。
第三方面,本申请实施例提供了一种用于公式识别的模型训练装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取第一训练样本和所述第一训练样本的标签,所述第一训练样本包括:训练公式轨迹和训练公式图片,其中,第一训练样本的标签,用于指示所述训练公式轨迹对应的公式,所述训练公式轨迹和所述训练公式图片对应同一公式;
利用所述第一训练样本和所述第一训练样本的标签,通过如下方式训练公式识别模型:
根据所述训练公式轨迹,确定第一特征,并对第一特征进行处理得到第一上下文向量;根据所述训练公式图片,确定第二特征,并对所述第二特征进行处理,得到第二上下文向量;
根据所述第一特征和所述第二特征,得到融合特征,并对所述融合特征进行处理,得到第三上下文向量;
根据所述第一上下文向量、所述第二上下文向量、所述第三上下文向量、以及所述训练样本对应的标签,调整所述公式识别模型的参数。
可选的,根据所述第一上下文向量、第二上下文向量、所述第三上下文向量以及所述训练样本对应的标签,调整所述公式识别模型的参数,包括:
对由所述第一上下文向量确定的第一预测结果与由所述第二上下文向量确定的第二预测结果进行融合,得到融合预测结果;
利用所述融合预测结果、所述训练样本对应的标签、以及由所述第三上下文向量确定的第三预测结果,调整所述公式识别模型的参数。
可选的,所述公式识别模型包括编码部分、特征融合部分以及解码部分;
所述编码部分用于:根据所述训练公式轨迹确定第一特征,根据所述训练公式图片确定第二特征;
所述特征融合部分用于:根据所述第一特征和所述第二特征,得到融合特征;
所述解码部分用于:对第一特征进行处理得到第一上下文向量;对所述第二特征进行处理得到第二上下文向量;对所述融合特征进行处理得到第三上下文向量;根据所述第一上下文向量、第二上下文向量以及所述第三上下文向量,得到所述公式识别模型的预测结果;
所述调整所述公式识别模型的参数,包括:
在开始训练所述公式识别模型的预设时间段内,调整所述特征融合部分以及解码部分的参数,所述编码部分采用预先确定的参数。
可选的,所述调整所述公式识别模型的参数,包括:
在开始训练所述公式识别模型的预设时间段之后,调整所述编码部分的参数。
可选的,所述根据所述训练公式轨迹,确定第一特征,并对第一特征进行处理得到第一上下文向量,通过预先训练得到的第一识别模型实现。
可选的,所述根据所述训练公式图片,确定第二特征,并对所述第二特征进行处理,得到第二上下文向量,通过预先训练的第二识别模型实现。
可选的,所述操作还包括:
获取待处理公式轨迹和待处理公式图片;
将所述待处理公式轨迹和所述待处理公式图片输入训练得到的公式识别模型,得到目标公式。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行以上第一方面任意一项所述的方法。
与现有技术相比,本申请实施例具有以下优点:
本申请实施例提供了一种用于公式识别的模型训练方法。具体地:可以获取第一训练样本和所述第一训练样本对应的标签,并利用第一训练样本和所述第一训练样本对应的标签,训练公式识别模型。其中:所述第一训练样本包括:训练公式轨迹和训练公式图片,所述第一训练样本的标签,用于指示所述训练公式轨迹对应的公式,所述训练公式轨迹和所述训练公式图片对应同一公式。为提升训练得到的公式识别模型的准确性,在本申请实施例中,可以根据所述训练公式轨迹,确定第一特征,根据所述训练公式图片,确定第二特征。并对所述第一特征和所述第二特征进行融合,得到融合特征。并且,对第一特征进行处理得到第一上下文向量,对所述第二特征进行处理,得到第二上下文向量,并对所述融合特征进行处理,得到第三上下文向量。而后,根据所述第一上下文向量、所述第二上下文向量、所述第三上下文向量、以及所述训练样本对应的标签,调整所述公式识别模型的参数。由此可见,在本申请实施例中,在特征提取阶段,将训练公式轨迹的第一特征和训练公式图片的第二特征进行了融合,在公式识别阶段,也结合了由第一特征得到的第一上下文向量、由第二特征得到的第二上下文向量以及由融合特征得到的第三上下文向量,从而使得无论在特征提取阶段,还是在公式识别阶段,都充分利用了训练公式轨迹和训练公式图片所包含的信息,因此,所训练得到的公式识别模型的准确度也更好。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种用于公式识别的模型训练方法的流程示意图;
图2为本申请实施例提供的一种公式识别模型的示意图;
图3为本申请实施例提供的一种用于公式识别的模型训练装置的结构示意图;
图4为本申请实施例提供的客户端的结构示意图;
图5为本申请实施例提供的服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的发明人经过研究发现,可以利用训练公式轨迹和训练公式图片训练得到公式识别模型。
在一个示例中,训练公式识别模型时,可以在特征提取阶段,对所述训练公式轨迹的特征和所述训练公式图片的特征进行融合。这么做的好处在于,能够使得所述训练公式轨迹中的笔画与所述训练公式图片中的笔画对应上。但是这种方式,比较依赖于公式笔画,如果训练公式图片由于下采样导致笔画丢失,则会影响训练得到的模型的准确性。
在又一个示例中,训练公式识别模型时,可以在公式识别阶段,对所述训练公式轨迹对应的上下文向量以及所述训练公式图片对应的上下文向量进行融合,利用融合后的上下文向量得到预测结果。但是这种方式,需要保证训练公式轨迹中的轨迹点分布均匀,若所述轨迹点分布不均匀,也会影响训练得到的模型的准确性。
本申请的发明人还发现,若既在特征提取阶段,对所述训练公式轨迹的特征和所述训练公式图片的特征进行融合,又在公式识别阶段,对所述训练公式轨迹对应的上下文向量以及所述训练公式图片对应的上下文向量进行融合,则训练得到的公式识别模型的准确度会大大提升。
鉴于此,本申请实施例提供了一种用于公式识别的模型训练方法及装置。
下面结合附图,详细说明本申请的各种非限制性实施方式。
示例性方法
参见图1,该图为本申请实施例提供的一种用于公式识别的模型训练方法的流程示意图。
本申请实施例提供的方法,例如可以由第一设备执行,此处提及的第一设备包括但不限于终端设备和服务器。此处提及的终端设备,可以是智能手机、平板电脑等移动终端,也可以是台式计算机等终端设备。
图1所示的方法,例如可以通过如下S101-S102实现。
需要说明的是,模型训练的过程是一个多次迭代计算的过程,每一次迭代都可以对模型的参数进行调整,调整后的参数参与下一轮迭代计算。
图1以第一训练样本为例,对训练公式识别模型中的某一轮迭代过程进行介绍。可以理解的是,训练所述公式识别模型所使用的样本有很多组,每一组训练样本均与第一训练样本类似,包括对应同一公式的训练公式轨迹和训练公式图片。并且,在训练所述公式识别模型时,每组训练样本的处理方式类似。在经过多组训练样本训练之后,即可得到准确度符合要求的公式识别模型。
S101:获取第一训练样本和所述第一训练样本的标签,所述第一训练样本包括:训练公式轨迹和训练公式图片,所述第一训练样本的标签,用于指示所述训练公式轨迹对应的公式,所述训练公式轨迹和所述训练公式图片对应同一公式。
在本申请实施例中,所述训练公式轨迹,可以是历史收集的轨迹公式,例如,可以是用户利用手写输入法手写的公式。所述训练公式图片,可以是由所述训练公式轨迹生成的。
S102:利用所述第一训练样本和所述第一训练样本对应的标签,训练公式识别模型。
在本申请实施例中,S102可以通过如下S1021-S1023实现。
S1021:根据所述训练公式轨迹,确定第一特征,并对所述第一特征进行处理得到第一上下文向量;根据所述训练公式图片,确定第二特征,并对所述第二特征进行处理,得到第二上下文向量。
在本申请实施例中,可以对所述训练公式轨迹进行编码,得到所述第一特征。所述第一特征能够体现所述训练公式轨迹的笔画以及所述训练公式轨迹中各笔画的特点。类似的,可以对所述训练公式图片进行编码,得到所述第二特征。所述第二特征能够体现所述训练公式图片中公式的笔画以及所述训练公式图片中各笔画的特点。在一个示例中,为方便模型收敛,也可以将所述训练公式轨迹的笔画信息和所述训练公式图片的笔画信息,作为训练所述公式识别模型的输入。
在一个示例中,所述公式识别模型可以包括编码部分,所述编码部分用于:根据所述训练公式轨迹确定第一特征,并根据所述训练公式图片确定第二特征。
在一个示例中,所述编码部分可以包括两个编码器(encoder),第一编码器用于确定训练公式轨迹对应的第一特征,第二编码器用于确定训练公式图片对应的第二特征。关于所述第一编码器和所述第二编码器的结构,本申请实施例不作具体限定。
在本申请实施例中,得到第一特征之后,可以利用所述第一特征处理得到第一上下文向量,并利用第二特征处理得到第二上下文向量。可以理解的是,所述第一上下文向量用于确定由训练公式轨迹得到的公式预测结果,所述第二上下文向量用于确定由训练公式图片得到的公式预测结果。
在一个示例中,所述公式识别模型可以包括解码部分,所述解码部分用于对第一特征进行解码,得到第一上下文向量,所述解码部分还用于对第二特征进行解码,得到第二上下文向量。
在一个示例中,所述解码部分可以包括两个解码器(decoder),第一解码器用于对第一特征进行解码,得到第一上下文向量,第二解码器用于对第二特征进行解码,得到第二上下文向量。
关于所述第一解码器和所述第二解码器的结构,本申请实施例不作具体限定。在一个示例中,所述第一解码器和所述第二解码器均可以包括门循环单元(Gate RecurrentUnit,GRU)层,所述第一上下文向量为所述第一解码器的GRU层的输出,所述第二上下文向量为所述第二解码器的GRU层的输出。当然,所述第一解码器的GRU层还可以输出当前解码时刻的隐层状态,所述第二解码器层的GRU层还可以输出当前解码时刻的隐层状态,此处不做详细说明。
S1022:根据所述第一特征和所述第二特征,得到融合特征,并对所述融合特征进行处理,得到第三上下文向量。
在本申请实施例中,为了将所述训练公式轨迹中的笔画和所述训练公示图片中的笔画对应,可以对所述第一特征和所述第二特征进行融合,得到融合特征。在一个示例中,可以对所述第一特征和第二特征做卷积融合。
在一个示例中,所述公式识别模型可以包括融合部分,所述融合部分用于对所述第一特征和所述第二特征进行融合,得到所述融合特征。在一些实施例中,可以对所述第一特征和所述第二特征进行卷积融合,所述融合部分可以包括全连接层,所述全连接层用于确定对所述第一特征和所述第二特征进行卷积融合时,所述第一特征和所述第二特征的权重。另外,所述融合部分还可以包括激活函数,该激活函数用于去除第一特征和第二特征融合之后的异常值,从而得到不包含异常值的融合特征。
如上所述,所述公式识别模型可以包括解码部分,在一个示例中,所述解码部分还可以用于对所述融合特征进行处理,得到第三上下文向量。在一些实施例中,所述解码部分还包括第三解码器,所述第三解码器用于对所述融合特征进行解码,得到所述第三上下文向量。与第一解码器和第二解码器类似,所述第三解码器也可以包括GRU层,所述第三上下文向量为所述第三解码器的GRU层的输出。
可以理解的是,由所述融合特征得到的第三上下文向量,也能够用于确定公式预测结果,该公式预测结果综合了训练公式轨迹和训练公式图片的信息。
S1023:根据所述第一上下文向量、所述第二上下文向量、所述第三上下文向量、以及所述训练样本对应的标签,调整所述公式识别模型的参数。
如上所述,所述第一上下文向量用于确定由训练公式轨迹得到的公式预测结果,所述第二上下文向量用于确定由训练公式图片得到的公式预测结果。第三上下文向量所确定的公式预测结果,综合了训练公式轨迹和训练公式图片的信息。而所述训练样本对应的标签,用于指示所述训练公式轨迹对应的公式。因此,可以通过所述第一上下文向量、所述第二上下文向量、所述第三上下文向量、以及所述训练样本对应的标签,调整所述公式识别模型的参数。
在一个示例中,S1023在具体实现时,可以根据第一上下文向量得到第一预测结果,并利用第二上下文向量得到第二预测结果,而后,对第一预测结果和第二预测结果进行融合,得到融合预测结果。并且,进一步利用所述融合预测结果、所述训练样本对应的标签、以及由所述第三上下文向量确定的第三预测结果,调整所述公式识别模型的参数。在本申请实施例中,对所述第一预测结果和第二预测结果进行融合,例如可以是对第一预测结果和第二预测结果做re-attention处理。
可以理解的是,在解码阶段,对训练公式轨迹和训练公式图片的信息进行了融合,得到所述融合预测结果。而所述第三预测结果,是根据第三上下文向量得到的,第三上下文向量又是根据融合特征得到的,故而所述第三上下文向量,在编码阶段,对训练公式轨迹和训练公式图片的信息进行了融合。因此,利用所述融合预测结果、所述训练样本对应的标签、以及由所述第三上下文向量确定的第三预测结果,调整所述公式识别模型的参数,既在编码阶段对训练公式轨迹和训练公式图片的信息进行了融合,又在解码阶段对训练公式轨迹和训练公式图片的信息进行了融合。
需要说的是,此处提及的解码阶段,也可以理解成前文提及的“公式识别阶段”,此处提及的编码阶段,也可以理解成前文提及的“特征识别阶段”。
在一个示例中,“利用所述融合预测结果、所述训练样本对应的标签、以及由所述第三上下文向量确定的第三预测结果,调整所述公式识别模型的参数”在具体实现时,可以根据所述融合预测结果和所述训练样本对应的标签计算第一损失函数,并利用所述第三预测结果和所述训练样本对应的标签计算第二损失函数,并对所述第一损失函数和所述第二损失函数进行加权计算,得到目标损失函数,进一步地,根据目标函数,调整所述公式识别模型的参数。本申请实施例不具体限定所述第一损失函数、第二损失函数、以及对第一损失函数和第二损失函数进行加权计算时第一损失函数和第二损失函数分别对应的权重。
在一个示例中,为了提升所述公式识别模型的收敛速度,可以预先训练第一识别模型,该第一识别模型用于根据公式轨迹得到对应的公式。具体地,所述第一识别模型可以根据训练样本和训练样本对应的标签得到,其中,训练样本为公式轨迹,训练样本的标签用于指示该训练样本对应的公式。在一个示例中,训练得到所述第一识别模型之后,在训练所述公式识别模型时,可以直接使用所述第一识别模型对所述训练公式轨迹进行处理,确定第一特征,并对第一特征进行处理得到第一上下文向量。
在一个示例中,所述第一识别模型可以包括编码器和解码器,所述编码器用于根据所述训练公式轨迹,确定第一特征;所述解码器用于对第一特征进行处理得到第一上下文向量。可以理解的是,所述第一识别模型中的编码器,可以是上文提及的第一编码器,所述第一识别模型中的解码器,可以是上文提及的第一解码器。关于所述第一编码器和所述第一解码器,可以参考上文的相关描述部分,此处不做详述。
在又一个示例中,为了提升所述公式识别模型的收敛速度,可以预先训练第二识别模型,该第二识别模型用于根据公式图片得到对应的公式。具体地,所述第二识别模型可以根据训练样本和训练样本对应的标签得到,其中,训练样本为公式图片,训练样本的标签用于指示该训练样本对应的公式。在一个示例中,训练得到所述第二识别模型之后,在训练所述公式识别模型时,可以直接使用所述第二识别模型对所述训练公式图片进行处理,确定第二特征,并对第二特征进行处理得到第二上下文向量。
在一个示例中,所述第二识别模型可以包括编码器和解码器,所述编码器用于根据所述训练公式轨迹,确定第二特征;所述解码器用于对第二特征进行处理得到第二上下文向量。可以理解的是,所述第二识别模型中的编码器,可以是上文提及的第二编码器,所述第二识别模型中的解码器,可以是上文提及的第二解码器。关于所述第二编码器和所述第二解码器,可以参考上文的相关描述部分,此处不做详述。
如上所述,所述公式识别模型可以包括:编码部分,特征融合部分和解码部分。在一个示例中,为了提升所述公式识别模型的收敛速度,调整所述公式识别模型的参数在具体实现时,可以在开始训练所述公式识别模型的预设时间段内,调整所述特征融合部分以及解码部分的参数,而保持编码部分的参数不变,其中,编码部分的参数可以采用预先确定的参数。换言之,在训练所述公式识别模型的前期,该公式识别模型的识别结果不准确时,可以仅调整所述特征融合部分以及解码部分的参数,而不调整所述编码部分的参数。本申请实施例不具体限定所述预设时间段,所述预设时间段可以根据实际情况确定。
如上所述,所述编码部分可以包括第一编码器和第二编码器。在预先训练第一识别模型和第二识别模型的场景中,所述第一编码器的参数可以沿用所述第一识别模型中的编码器的参数,所述第二编码器的参数可以沿用所述第二识别模型中的编码器的参数。
在一个示例中,为了使得所述公式识别模型的效果更优,在开始训练所述公式识别模型的预设时间段之后,可以调整所述编码部分的参数。这样一来,可以既提升公式识别模型的识别效果,也能有效提升该公式识别模型的收敛速度。
如上描述可知,所述公式识别模型的解码部分能够得到融合预测结果和第三预测结果。在本申请实施例中,所述公式识别模型的输出,可以是所述第三预测结果,也可以是所述融合预测结果。在一个示例中,可以将识别准确度高的预测结果,确定为所述公式识别模型最终输出的结果。即:若所述第三预测结果的准确度高于融合预测结果的准确度,则将所述第三预测结果作为所述公式识别模型最终输出的结果,若所述融合预测结果的准确度高于第三预测结果的准确度,则将所述融合预测结果作为所述公式识别模型最终输出的结果。
在一个示例中,在训练得到公式识别模型之后,可以利用该公式识别模型对对应某一公式的待处理公式轨迹和待处理公式图片进行识别,从而得到待处理公式轨迹和待处理公式图片所对应的目标公式。举例说明:
用户利用手写输入法在智能手机上书写公式,在用户书写的过程中,可以获取对应的轨迹点,从而得到待处理公式轨迹,待用户输入完毕,即可获取包括用户手写的公式的待处理公式图片。而后,将所述待处理公式轨迹和待处理公示图片输入训练得到的公式识别模型,即可得到用户手写的目标公式。得到用户手写的目标公式之后,可以在所述输入法的字符输入区输入所述目标公式。
为方便理解本申请实施例提供的公式识别模型,现结合图2对该公式识别模型进行介绍。如图2所示,该公式识别模型包括编码部分110、特征融合部分120和解码部分130。其中:
编码部分110包括第一编码器111和第二编码器112;
解码部分130包括:第一解码器131、第二解码器132和第三解码器133。
可以理解的是,第一编码器111和第一解码器131可以是预先训练的第一识别模型,第二编码器112和第二解码器132可以是预先训练的第二识别模型。
关于图2所示的公式识别模型的各个模块,可以参考上文的相关描述部分,此处不做详述。
示例性设备
基于以上实施例提供的方法,本申请实施例还提供了一种装置,以下结合附图介绍该装置。
参见图3,该图为本申请实施例提供的一种用于公式识别的模型训练装置的结构示意图。所述装置200例如可以具体包括:获取单元201和训练单元202。
获取单元201,用于获取第一训练样本和所述第一训练样本的标签,所述第一训练样本包括:训练公式轨迹和训练公式图片,其中,第一训练样本的标签,用于指示所述训练公式轨迹对应的公式,所述训练公式轨迹和所述训练公式图片对应同一公式;
训练单元202,用于利用所述第一训练样本和所述第一训练样本的标签,通过如下方式训练公式识别模型:
根据所述训练公式轨迹,确定第一特征,并对第一特征进行处理得到第一上下文向量;根据所述训练公式图片,确定第二特征,并对所述第二特征进行处理,得到第二上下文向量;
根据所述第一特征和所述第二特征,得到融合特征,并对所述融合特征进行处理,得到第三上下文向量;
根据所述第一上下文向量、所述第二上下文向量、所述第三上下文向量、以及所述训练样本对应的标签,调整所述公式识别模型的参数。
可选的,根据所述第一上下文向量、第二上下文向量、所述第三上下文向量以及所述训练样本对应的标签,调整所述公式识别模型的参数,包括:
对由所述第一上下文向量确定的第一预测结果与由所述第二上下文向量确定的第二预测结果进行融合,得到融合预测结果;
利用所述融合预测结果、所述训练样本对应的标签、以及由所述第三上下文向量确定的第三预测结果,调整所述公式识别模型的参数。
可选的,所述公式识别模型包括编码部分、特征融合部分以及解码部分;
所述编码部分用于:根据所述训练公式轨迹确定第一特征,根据所述训练公式图片确定第二特征;
所述特征融合部分用于:根据所述第一特征和所述第二特征,得到融合特征;
所述解码部分用于:对第一特征进行处理得到第一上下文向量;对所述第二特征进行处理得到第二上下文向量;对所述融合特征进行处理得到第三上下文向量;根据所述第一上下文向量、第二上下文向量以及所述第三上下文向量,得到所述公式识别模型的预测结果;
所述调整所述公式识别模型的参数,包括:
在开始训练所述公式识别模型的预设时间段内,调整所述特征融合部分以及解码部分的参数,所述编码部分采用预先确定的参数。
可选的,所述调整所述公式识别模型的参数,包括:
在开始训练所述公式识别模型的预设时间段之后,调整所述编码部分的参数。
可选的,所述根据所述训练公式轨迹,确定第一特征,并对第一特征进行处理得到第一上下文向量,通过预先训练得到的第一识别模型实现。
可选的,所述根据所述训练公式图片,确定第二特征,并对所述第二特征进行处理,得到第二上下文向量,通过预先训练的第二识别模型实现。
可选的,所述装置还包括:
获取待处理公式轨迹和待处理公式图片;
将所述待处理公式轨迹和所述待处理公式图片输入训练得到的公式识别模型,得到目标公式。
由于所述装置200是与以上方法实施例提供的方法对应的装置,所述装置200的各个单元的具体实现,均与以上方法实施例为同一构思,因此,关于所述装置200的各个单元的具体实现,可以参考以上方法实施例的描述部分,此处不再赘述。
本申请实施例提供的方法,可以由客户端执行也可以由服务器执行,以下对执行上述方法的客户端和服务器分别进行说明。
图4示出了一种客户端300的框图。例如,客户端300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,客户端300可以包括以下一个或多个组件:处理组件302,存储器304,电源组件306,多媒体组件308,音频组件310,输入/输出(I/O)的接口33,传感器组件314,以及通信组件316。
处理组件302通常控制客户端300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件302可以包括一个或多个处理器320来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件302可以包括一个或多个模块,便于处理组件302和其他组件之间的交互。例如,处理部件302可以包括多媒体模块,以方便多媒体组件308和处理组件302之间的交互。
存储器304被配置为存储各种类型的数据以支持在客户端300的操作。这些数据的示例包括用于在客户端300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件306为客户端300的各种组件提供电力。电源组件306可以包括电源管理系统,一个或多个电源,及其他与为客户端300生成、管理和分配电力相关联的组件。
多媒体组件308包括在所述客户端300和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件308包括一个前置摄像头和/或后置摄像头。当客户端300处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件310被配置为输出和/或输入音频信号。例如,音频组件310包括一个麦克风(MIC),当客户端300处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中,音频组件310还包括一个扬声器,用于输出音频信号。
I/O接口为处理组件302和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件314包括一个或多个传感器,用于为客户端300提供各个方面的状态评估。例如,传感器组件314可以检测到设备300的打开/关闭状态,组件的相对定位,例如所述组件为客户端300的显示器和小键盘,传感器组件314还可以检测客户端300或客户端300一个组件的位置改变,用户与客户端300接触的存在或不存在,客户端300方位或加速/减速和客户端300的温度变化。传感器组件314可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件314还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件316被配置为便于客户端300和其他设备之间有线或无线方式的通信。客户端300可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件316还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,客户端300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法:
获取第一训练样本和所述第一训练样本的标签,所述第一训练样本包括:训练公式轨迹和训练公式图片,其中,第一训练样本的标签,用于指示所述训练公式轨迹对应的公式,所述训练公式轨迹和所述训练公式图片对应同一公式;
利用所述第一训练样本和所述第一训练样本的标签,通过如下方式训练公式识别模型:
根据所述训练公式轨迹,确定第一特征,并对第一特征进行处理得到第一上下文向量;根据所述训练公式图片,确定第二特征,并对所述第二特征进行处理,得到第二上下文向量;
根据所述第一特征和所述第二特征,得到融合特征,并对所述融合特征进行处理,得到第三上下文向量;
根据所述第一上下文向量、所述第二上下文向量、所述第三上下文向量、以及所述训练样本对应的标签,调整所述公式识别模型的参数。
可选的,根据所述第一上下文向量、第二上下文向量、所述第三上下文向量以及所述训练样本对应的标签,调整所述公式识别模型的参数,包括:
对由所述第一上下文向量确定的第一预测结果与由所述第二上下文向量确定的第二预测结果进行融合,得到融合预测结果;
利用所述融合预测结果、所述训练样本对应的标签、以及由所述第三上下文向量确定的第三预测结果,调整所述公式识别模型的参数。
可选的,所述公式识别模型包括编码部分、特征融合部分以及解码部分;
所述编码部分用于:根据所述训练公式轨迹确定第一特征,根据所述训练公式图片确定第二特征;
所述特征融合部分用于:根据所述第一特征和所述第二特征,得到融合特征;
所述解码部分用于:对第一特征进行处理得到第一上下文向量;对所述第二特征进行处理得到第二上下文向量;对所述融合特征进行处理得到第三上下文向量;根据所述第一上下文向量、第二上下文向量以及所述第三上下文向量,得到所述公式识别模型的预测结果;
所述调整所述公式识别模型的参数,包括:
在开始训练所述公式识别模型的预设时间段内,调整所述特征融合部分以及解码部分的参数,所述编码部分采用预先确定的参数。
可选的,所述调整所述公式识别模型的参数,包括:
在开始训练所述公式识别模型的预设时间段之后,调整所述编码部分的参数。
可选的,所述根据所述训练公式轨迹,确定第一特征,并对第一特征进行处理得到第一上下文向量,通过预先训练得到的第一识别模型实现。
可选的,所述根据所述训练公式图片,确定第二特征,并对所述第二特征进行处理,得到第二上下文向量,通过预先训练的第二识别模型实现。
可选的,所述方法还包括:
获取待处理公式轨迹和待处理公式图片;
将所述待处理公式轨迹和所述待处理公式图片输入训练得到的公式识别模型,得到目标公式。
图5是本申请实施例中服务器的结构示意图。该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
更进一步地,中央处理器422可以执行下述方法:
获取第一训练样本和所述第一训练样本的标签,所述第一训练样本包括:训练公式轨迹和训练公式图片,其中,第一训练样本的标签,用于指示所述训练公式轨迹对应的公式,所述训练公式轨迹和所述训练公式图片对应同一公式;
利用所述第一训练样本和所述第一训练样本的标签,通过如下方式训练公式识别模型:
根据所述训练公式轨迹,确定第一特征,并对第一特征进行处理得到第一上下文向量;根据所述训练公式图片,确定第二特征,并对所述第二特征进行处理,得到第二上下文向量;
根据所述第一特征和所述第二特征,得到融合特征,并对所述融合特征进行处理,得到第三上下文向量;
根据所述第一上下文向量、所述第二上下文向量、所述第三上下文向量、以及所述训练样本对应的标签,调整所述公式识别模型的参数。
可选的,根据所述第一上下文向量、第二上下文向量、所述第三上下文向量以及所述训练样本对应的标签,调整所述公式识别模型的参数,包括:
对由所述第一上下文向量确定的第一预测结果与由所述第二上下文向量确定的第二预测结果进行融合,得到融合预测结果;
利用所述融合预测结果、所述训练样本对应的标签、以及由所述第三上下文向量确定的第三预测结果,调整所述公式识别模型的参数。
可选的,所述公式识别模型包括编码部分、特征融合部分以及解码部分;
所述编码部分用于:根据所述训练公式轨迹确定第一特征,根据所述训练公式图片确定第二特征;
所述特征融合部分用于:根据所述第一特征和所述第二特征,得到融合特征;
所述解码部分用于:对第一特征进行处理得到第一上下文向量;对所述第二特征进行处理得到第二上下文向量;对所述融合特征进行处理得到第三上下文向量;根据所述第一上下文向量、第二上下文向量以及所述第三上下文向量,得到所述公式识别模型的预测结果;
所述调整所述公式识别模型的参数,包括:
在开始训练所述公式识别模型的预设时间段内,调整所述特征融合部分以及解码部分的参数,所述编码部分采用预先确定的参数。
可选的,所述调整所述公式识别模型的参数,包括:
在开始训练所述公式识别模型的预设时间段之后,调整所述编码部分的参数。
可选的,所述根据所述训练公式轨迹,确定第一特征,并对第一特征进行处理得到第一上下文向量,通过预先训练得到的第一识别模型实现。
可选的,所述根据所述训练公式图片,确定第二特征,并对所述第二特征进行处理,得到第二上下文向量,通过预先训练的第二识别模型实现。
可选的,所述方法还包括:
获取待处理公式轨迹和待处理公式图片;
将所述待处理公式轨迹和所述待处理公式图片输入训练得到的公式识别模型,得到目标公式。
服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口456,一个或一个以上键盘456,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本申请实施例还提供了一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行以下方法:
获取第一训练样本和所述第一训练样本的标签,所述第一训练样本包括:训练公式轨迹和训练公式图片,其中,第一训练样本的标签,用于指示所述训练公式轨迹对应的公式,所述训练公式轨迹和所述训练公式图片对应同一公式;
利用所述第一训练样本和所述第一训练样本的标签,通过如下方式训练公式识别模型:
根据所述训练公式轨迹,确定第一特征,并对第一特征进行处理得到第一上下文向量;根据所述训练公式图片,确定第二特征,并对所述第二特征进行处理,得到第二上下文向量;
根据所述第一特征和所述第二特征,得到融合特征,并对所述融合特征进行处理,得到第三上下文向量;
根据所述第一上下文向量、所述第二上下文向量、所述第三上下文向量、以及所述训练样本对应的标签,调整所述公式识别模型的参数。
可选的,根据所述第一上下文向量、第二上下文向量、所述第三上下文向量以及所述训练样本对应的标签,调整所述公式识别模型的参数,包括:
对由所述第一上下文向量确定的第一预测结果与由所述第二上下文向量确定的第二预测结果进行融合,得到融合预测结果;
利用所述融合预测结果、所述训练样本对应的标签、以及由所述第三上下文向量确定的第三预测结果,调整所述公式识别模型的参数。
可选的,所述公式识别模型包括编码部分、特征融合部分以及解码部分;
所述编码部分用于:根据所述训练公式轨迹确定第一特征,根据所述训练公式图片确定第二特征;
所述特征融合部分用于:根据所述第一特征和所述第二特征,得到融合特征;
所述解码部分用于:对第一特征进行处理得到第一上下文向量;对所述第二特征进行处理得到第二上下文向量;对所述融合特征进行处理得到第三上下文向量;根据所述第一上下文向量、第二上下文向量以及所述第三上下文向量,得到所述公式识别模型的预测结果;
所述调整所述公式识别模型的参数,包括:
在开始训练所述公式识别模型的预设时间段内,调整所述特征融合部分以及解码部分的参数,所述编码部分采用预先确定的参数。
可选的,所述调整所述公式识别模型的参数,包括:
在开始训练所述公式识别模型的预设时间段之后,调整所述编码部分的参数。
可选的,所述根据所述训练公式轨迹,确定第一特征,并对第一特征进行处理得到第一上下文向量,通过预先训练得到的第一识别模型实现。
可选的,所述根据所述训练公式图片,确定第二特征,并对所述第二特征进行处理,得到第二上下文向量,通过预先训练的第二识别模型实现。
可选的,所述方法还包括:
获取待处理公式轨迹和待处理公式图片;
将所述待处理公式轨迹和所述待处理公式图片输入训练得到的公式识别模型,得到目标公式。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种用于公式识别的模型训练方法,其特征在于,所述方法包括:
获取第一训练样本和所述第一训练样本的标签,所述第一训练样本包括:训练公式轨迹和训练公式图片,其中,第一训练样本的标签,用于指示所述训练公式轨迹对应的公式,所述训练公式轨迹和所述训练公式图片对应同一公式;
利用所述第一训练样本和所述第一训练样本的标签,通过如下方式训练公式识别模型:
根据所述训练公式轨迹,确定第一特征,并对第一特征进行处理得到第一上下文向量;根据所述训练公式图片,确定第二特征,并对所述第二特征进行处理,得到第二上下文向量;
根据所述第一特征和所述第二特征,得到融合特征,并对所述融合特征进行处理,得到第三上下文向量;
根据所述第一上下文向量、所述第二上下文向量、所述第三上下文向量、以及所述训练样本对应的标签,调整所述公式识别模型的参数。
2.根据权利要求1所述的方法,其特征在于,根据所述第一上下文向量、第二上下文向量、所述第三上下文向量以及所述训练样本对应的标签,调整所述公式识别模型的参数,包括:
对由所述第一上下文向量确定的第一预测结果与由所述第二上下文向量确定的第二预测结果进行融合,得到融合预测结果;
利用所述融合预测结果、所述训练样本对应的标签、以及由所述第三上下文向量确定的第三预测结果,调整所述公式识别模型的参数。
3.根据权利要求1或2所述的方法,其特征在于,所述公式识别模型包括编码部分、特征融合部分以及解码部分;
所述编码部分用于:根据所述训练公式轨迹确定第一特征,根据所述训练公式图片确定第二特征;
所述特征融合部分用于:根据所述第一特征和所述第二特征,得到融合特征;
所述解码部分用于:对第一特征进行处理得到第一上下文向量;对所述第二特征进行处理得到第二上下文向量;对所述融合特征进行处理得到第三上下文向量;根据所述第一上下文向量、第二上下文向量以及所述第三上下文向量,得到所述公式识别模型的预测结果;
所述调整所述公式识别模型的参数,包括:
在开始训练所述公式识别模型的预设时间段内,调整所述特征融合部分以及解码部分的参数,所述编码部分采用预先确定的参数。
4.根据权利要求3所述的方法,其特征在于,所述调整所述公式识别模型的参数,包括:
在开始训练所述公式识别模型的预设时间段之后,调整所述编码部分的参数。
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述根据所述训练公式轨迹,确定第一特征,并对第一特征进行处理得到第一上下文向量,通过预先训练得到的第一识别模型实现。
6.根据权利要求1-4任意一项所述的方法,其特征在于,所述根据所述训练公式图片,确定第二特征,并对所述第二特征进行处理,得到第二上下文向量,通过预先训练的第二识别模型实现。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取待处理公式轨迹和待处理公式图片;
将所述待处理公式轨迹和所述待处理公式图片输入训练得到的公式识别模型,得到目标公式。
8.一种用于公式识别的模型训练装置,其特征在于,所述装置包括:
获取单元,用于获取第一训练样本和所述第一训练样本的标签,所述第一训练样本包括:训练公式轨迹和训练公式图片,其中,第一训练样本的标签,用于指示所述训练公式轨迹对应的公式,所述训练公式轨迹和所述训练公式图片对应同一公式;
训练单元,用于利用所述第一训练样本和所述第一训练样本的标签,通过如下方式训练公式识别模型:
根据所述训练公式轨迹,确定第一特征,并对第一特征进行处理得到第一上下文向量;根据所述训练公式图片,确定第二特征,并对所述第二特征进行处理,得到第二上下文向量;
根据所述第一特征和所述第二特征,得到融合特征,并对所述融合特征进行处理,得到第三上下文向量;
根据所述第一上下文向量、所述第二上下文向量、所述第三上下文向量、以及所述训练样本对应的标签,调整所述公式识别模型的参数。
9.根据权利要求8所述的装置,其特征在于,根据所述第一上下文向量、第二上下文向量、所述第三上下文向量以及所述训练样本对应的标签,调整所述公式识别模型的参数,包括:
对由所述第一上下文向量确定的第一预测结果与由所述第二上下文向量确定的第二预测结果进行融合,得到融合预测结果;
利用所述融合预测结果、所述训练样本对应的标签、以及由所述第三上下文向量确定的第三预测结果,调整所述公式识别模型的参数。
10.根据权利要求8或9所述的装置,其特征在于,所述公式识别模型包括编码部分、特征融合部分以及解码部分;
所述编码部分用于:根据所述训练公式轨迹确定第一特征,根据所述训练公式图片确定第二特征;
所述特征融合部分用于:根据所述第一特征和所述第二特征,得到融合特征;
所述解码部分用于:对第一特征进行处理得到第一上下文向量;对所述第二特征进行处理得到第二上下文向量;对所述融合特征进行处理得到第三上下文向量;根据所述第一上下文向量、第二上下文向量以及所述第三上下文向量,得到所述公式识别模型的预测结果;
所述调整所述公式识别模型的参数,包括:
在开始训练所述公式识别模型的预设时间段内,调整所述特征融合部分以及解码部分的参数,所述编码部分采用预先确定的参数。
11.根据权利要求10所述的装置,其特征在于,所述调整所述公式识别模型的参数,包括:
在开始训练所述公式识别模型的预设时间段之后,调整所述编码部分的参数。
12.根据权利要求8-11任意一项所述的装置,其特征在于,所述根据所述训练公式轨迹,确定第一特征,并对第一特征进行处理得到第一上下文向量,通过预先训练得到的第一识别模型实现。
13.根据权利要求8-11任意一项所述的装置,其特征在于,所述根据所述训练公式图片,确定第二特征,并对所述第二特征进行处理,得到第二上下文向量,通过预先训练的第二识别模型实现。
14.一种用于公式识别的模型训练装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取第一训练样本和所述第一训练样本的标签,所述第一训练样本包括:训练公式轨迹和训练公式图片,其中,第一训练样本的标签,用于指示所述训练公式轨迹对应的公式,所述训练公式轨迹和所述训练公式图片对应同一公式;
利用所述第一训练样本和所述第一训练样本的标签,通过如下方式训练公式识别模型:
根据所述训练公式轨迹,确定第一特征,并对第一特征进行处理得到第一上下文向量;根据所述训练公式图片,确定第二特征,并对所述第二特征进行处理,得到第二上下文向量;
根据所述第一特征和所述第二特征,得到融合特征,并对所述融合特征进行处理,得到第三上下文向量;
根据所述第一上下文向量、所述第二上下文向量、所述第三上下文向量、以及所述训练样本对应的标签,调整所述公式识别模型的参数。
15.一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行权利要求1至7任意一项所述的方法。
CN202111152746.0A 2021-09-29 2021-09-29 一种用于公式识别的模型训练方法及装置 Active CN113919292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111152746.0A CN113919292B (zh) 2021-09-29 2021-09-29 一种用于公式识别的模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111152746.0A CN113919292B (zh) 2021-09-29 2021-09-29 一种用于公式识别的模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN113919292A true CN113919292A (zh) 2022-01-11
CN113919292B CN113919292B (zh) 2024-07-02

Family

ID=79237153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111152746.0A Active CN113919292B (zh) 2021-09-29 2021-09-29 一种用于公式识别的模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN113919292B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286888A1 (en) * 2014-04-02 2015-10-08 Benoit Maison Optical Character Recognition System Using Multiple Images and Method of Use
CN110516540A (zh) * 2019-07-17 2019-11-29 青岛科技大学 基于多流架构与长短时记忆网络的组群行为识别方法
CN111738105A (zh) * 2020-06-04 2020-10-02 科大讯飞股份有限公司 公式识别方法、装置、电子设备和存储介质
CN112686134A (zh) * 2020-12-29 2021-04-20 科大讯飞股份有限公司 手写识别方法、装置、电子设备和存储介质
CN112784092A (zh) * 2021-01-28 2021-05-11 电子科技大学 一种混合融合模型的跨模态图像文本检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286888A1 (en) * 2014-04-02 2015-10-08 Benoit Maison Optical Character Recognition System Using Multiple Images and Method of Use
CN110516540A (zh) * 2019-07-17 2019-11-29 青岛科技大学 基于多流架构与长短时记忆网络的组群行为识别方法
CN111738105A (zh) * 2020-06-04 2020-10-02 科大讯飞股份有限公司 公式识别方法、装置、电子设备和存储介质
CN112686134A (zh) * 2020-12-29 2021-04-20 科大讯飞股份有限公司 手写识别方法、装置、电子设备和存储介质
CN112784092A (zh) * 2021-01-28 2021-05-11 电子科技大学 一种混合融合模型的跨模态图像文本检索方法

Also Published As

Publication number Publication date
CN113919292B (zh) 2024-07-02

Similar Documents

Publication Publication Date Title
US20210326587A1 (en) Human face and hand association detecting method and a device, and storage medium
CN106651955B (zh) 图片中目标物的定位方法及装置
US20210019562A1 (en) Image processing method and apparatus and storage medium
CN107527059B (zh) 文字识别方法、装置及终端
US11455491B2 (en) Method and device for training image recognition model, and storage medium
CN109766954B (zh) 一种目标对象处理方法、装置、电子设备及存储介质
CN110598504B (zh) 图像识别方法及装置、电子设备和存储介质
US20210279473A1 (en) Video processing method and apparatus, electronic device, and storage medium
CN107480665B (zh) 文字检测方法、装置及计算机可读存储介质
CN109934275B (zh) 图像处理方法及装置、电子设备和存储介质
CN110458218B (zh) 图像分类方法及装置、分类网络训练方法及装置
CN109165738B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN112766080B (zh) 一种手写识别方法、装置、电子设备及介质
US20210326649A1 (en) Configuration method and apparatus for detector, storage medium
CN110930984A (zh) 一种语音处理方法、装置和电子设备
CN109214175B (zh) 基于样本特征训练分类器的方法、装置及存储介质
CN109344703B (zh) 对象检测方法及装置、电子设备和存储介质
CN113033538A (zh) 一种公式识别方法及装置
CN108171222B (zh) 一种基于多流神经网络的实时视频分类方法及装置
CN110781842A (zh) 图像处理方法及装置、电子设备和存储介质
CN111860552B (zh) 基于核自编码器的模型训练方法、装置及存储介质
CN110121115B (zh) 精彩视频片段的确定方法及装置
CN114067334B (zh) 手写轨迹的识别方法、装置、电子设备及存储介质
CN113506325B (zh) 图像处理方法及装置、电子设备和存储介质
CN113919292B (zh) 一种用于公式识别的模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant