CN114155307A - 信息提取模型的训练及信息提取方法、装置、介质 - Google Patents
信息提取模型的训练及信息提取方法、装置、介质 Download PDFInfo
- Publication number
- CN114155307A CN114155307A CN202111279950.9A CN202111279950A CN114155307A CN 114155307 A CN114155307 A CN 114155307A CN 202111279950 A CN202111279950 A CN 202111279950A CN 114155307 A CN114155307 A CN 114155307A
- Authority
- CN
- China
- Prior art keywords
- sample
- information
- model
- decoder
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请的实施例提供了一种信息提取模型的训练方法、装置、介质,涉及计算机及人工智能技术领域。该方法包括:获取样本图像,所述样本图像中包括至少一个样本信息单元;获取待训练模型,所述待训练模型包括一个编码器模型和至少两个解码器模型;通过所述样本图像对所述待训练模型进行训练,得到信息提取模型,其中,每一个解码器模型在训练过程中学习除自身之外部分或者全部所述解码器模型的解码结果。本申请实施例的技术方案可以提高信息提取模型对信息提取的准确度。
Description
技术领域
本申请涉及计算机及人工智能技术领域,具体而言,涉及一种信息提取模型的训练及信息提取方法、装置、介质。
背景技术
在信息提取场景中,比如在针对图像中的信息提取场景(例如提取图像中的公式或者文本),通常是基于编码器-解码器单分支模型结构的进行训练,然后基于训练后的模型进行图像中信息的提取,然而,该模型结构并不能更好的学习到图像特别是公式图像中的特征,时常会出现错误提取图像特征的情况。基于此,如何提高信息提取模型对信息提取的准确度是亟待解决的技术问题。
发明内容
本申请的实施例提供了一种信息提取模型的训练及信息提取方法、装置、计算机程序产品或计算机程序、计算机可读介质,进而至少在一定程度上可以提高信息提取模型对信息提取的准确度。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种信息提取模型的训练方法,所述方法包括:获取样本图像,所述样本图像中包括至少一个样本信息单元;获取待训练模型,所述待训练模型包括一个编码器模型和至少两个解码器模型;通过所述样本图像对所述待训练模型进行训练,得到信息提取模型,其中,每一个解码器模型在训练过程中学习除自身之外部分或者全部所述解码器模型的解码结果。
根据本申请实施例的一个方面,提供了一种信息提取模型的训练装置,所述装置包括:第一获取单元,被用于获取样本图像,所述样本图像中包括至少一个样本信息单元;第二获取单元,被用于获取待训练模型,所述待训练模型包括一个编码器模型和至少两个解码器模型;训练单元,被用于通过所述样本图像对所述待训练模型进行训练,得到信息提取模型,其中,每一个解码器模型在训练过程中学习除自身之外部分或者全部所述解码器模型的解码结果。
在本申请的一些实施例中,基于前述方案,所述第一获取单元配置为:获取至少一帧原始样本图像;将各帧原始样本图像的高度调节至预设图像高度,或者将各帧原始样本图像的宽度调节至预设图像宽度;按照所述高度的调节比例或者所述宽度的调节比例,对所述原始样本图像的宽度或者所述原始样本图像的高度进行调节处理,得到预处理样本图像;从所述预处理样本图像中选定预定数量的图像作为所述样本图像。
在本申请的一些实施例中,基于前述方案,所述第一获取单元还配置为:按照所述预处理样本图像的高度或者宽度,对所述预处理样本图像进行排序;从所述预处理样本图像中选定排序相连的预定数量的图像作为所述样本图像。
在本申请的一些实施例中,基于前述方案,所述编码器模型包括密集连接卷积网络模型。
在本申请的一些实施例中,基于前述方案,所述训练单元配置为:通过所述编码器模型对所述样本图像进行编码,得到样本编码特征数据;分别通过所述至少两个解码器模型对所述样本编码特征数据进行解码,得到至少两组样本特征信息,其中,每一组样本特征信息中包括针对所述样本图像中各个样本信息单元的特征信息;触发所述至少两个解码器模型中的每一个解码器模型学习除自身之外部分或者全部所述解码器模型解码得到的样本特征信息;在所述至少两个解码器模型中确定一个解码器模型作为目标解码器模型,得到由所述编码器模型和所述目标解码器模型组成的所述信息提取模型。
在本申请的一些实施例中,基于前述方案,所述训练单元还配置为:基于所述样本编码特征数据,通过所述至少两个解码器模型分别按照所述样本图像中样本信息单元的不同排列方向确定所述样本图像中各个样本信息单元的样本定位信息;基于所述至少两个解码器模型对应的样本定位信息,分别对所述样本编码特征数据进行解码,得到所述至少两组样本特征信息。
在本申请的一些实施例中,基于前述方案,所述至少两个解码器模型包括第一解码器模型和第二解码器模型,所述训练单元还配置为:通过所述第一解码器模型按照所述样本图像中样本信息单元的第一排列方向确定所述样本图像中各个样本信息单元的样本定位信息;通过所述第二解码器模型按照所述样本图像中样本信息单元的第二排列方向确定所述样本图像中各个样本信息单元的样本定位信息,所述第二排列方向为所述第一排列方向的反方向。
在本申请的一些实施例中,基于前述方案,所述解码器模型中包括至少两个不同尺度的定位卷积核,所述装置还包括:确定单元,被用于针对所述样本图像中的每一个目标样本信息单元,通过如下方式确定所述目标样本信息单元的样本定位信息:获取样本图像中已完成特征信息提取的样本信息单元的历史定位信息;通过所述至少两个不同尺度的定位卷积核,分别对所述历史定位信息进行卷积处理,得到至少两个定位参考信息,所述至少两个定位参考信息用于分别关注不同尺寸大小的样本信息单元的定位信息;基于所述至少两个定位参考信息,确定所述样本图像中未完成特征信息提取的目标样本信息单元的样本定位信息。
在本申请的一些实施例中,基于前述方案,所述样本图像还匹配有样本标签,所述样本标签用于表征所述样本图像中至少一个样本信息单元的真实特征信息,所述训练单元还配置为:在所述至少两个解码器模型中确定一个解码器模型作为目标解码器模型之前,基于所述样本标签,分别在所述至少两个解码器模型解码得到的样本特征信息中确定存在的误差信息;基于所述误差信息,通过预设损失函数对对应的解码器模型中的模型参数进行反向更新。
在本申请的一些实施例中,基于前述方案,所述训练单元还配置为:按照预定训练次数,通过所述样本图像对所述待训练模型进行训练,得到所述预定训练次数的信息提取参考模型;对所述预定训练次数的信息提取参考模型进行求平均处理,得到所述信息提取模型。
根据本申请实施例的一个方面,提供了一种信息提取方法,所述方法包括:获取目标图像,所述目标图像中包括至少一个信息单元;获取通过如上述实施例中所述信息提取模型的训练方法得到的信息提取模型;通过所述信息提取模型,提取所述目标图像中至少一个信息单元的特征信息。
根据本申请实施例的一个方面,提供了一种信息提取装置,所述装置包括:第三获取单元,被用于获取目标图像,所述目标图像中包括至少一个信息单元;第四获取单元,被用于获取通过如上述实施例中所述信息提取模型的训练方法得到的信息提取模型;提取单元,被用于通过所述信息提取模型,提取所述目标图像中至少一个信息单元的特征信息。
在本申请的一些实施例中,基于前述方案,所述信息单元包括字符单元,所述至少一个信息单元组成一个或者多个包含所述字符单元的公式,所述信息提取装置还包括编辑单元,被用于在通过所述信息提取模型,提取所述目标图像中至少一个信息单元的特征信息之后,基于所述目标图像中至少一个信息单元的特征信息,将所述目标图像中的一个或者多个公式编辑至公式编辑区域。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如上述实施例中所述的信息提取模型的训练方法,以及所述的信息提取方法。
根据本申请实施例的一个方面,还提供了一种信息提取模型的训练装置,其特征在于,包括有存储器,以及一个以上程序,其中一个以上程序存储于存储器中,且经配置以由一个以上处理器执行所述一个以上程序,所述一个以上程序包含用于进行如上述实施例中所述的信息提取模型的训练方法的指令。
根据本申请实施例的一个方面,还提供了一种信息提取装置,其特征在于,包括有存储器,以及一个以上程序,其中一个以上程序存储于存储器中,且经配置以由一个以上处理器执行所述一个以上程序,所述一个以上程序包含用于进行如上述实施例中所述的信息提取方法的指令。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如上述实施例中所述的信息提取模型的训练方法所执行的操作,以及所述的信息提取方法所执行的操作。
在本申请的一些实施例所提供的技术方案中,通过包括一个编码器模型和至少两个解码器模型的待训练模型,可以训练得到的信息提取模型。由于所述信息提取模型由包括一个编码器模型和至少两个解码器模型的待训练模型训练得到,且每一个解码器模型在训练过程中学习除自身之外部分或者全部所述解码器模型的解码结果,使得每一个解码器模型除了通过自身训练学习到信息单元的特征信息之外,还可以学习到除自身之外部分或者全部所述解码器模型学习到的信息单元的特征信息,从而使得训练得到的信息提取模型能够同时关注和充分利用图像中信息单元在不同角度上的特征信息,进而保证了信息提取模型具有较高的信息提取能力。因此,能够提高所述信息提取模型对信息提取的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图;
图2示出了根据本申请一个实施例的信息提取模型的训练方法的流程图;
图3示出了根据本申请一个实施例的获取样本图像的细节流程图;
图4示出了根据本申请一个实施例的从所述预处理样本图像中选定预定数量的图像作为所述样本图像的细节流程图;
图5示出了根据本申请一个实施例的通过所述样本图像对所述待训练模型进行训练的细节流程图;
图6示出了根据本申请一个实施例的分别通过所述至少两个解码器模型对所述样本编码特征数据进行解码的细节流程图;
图7示出了根据本申请一个实施例的通过所述至少两个解码器模型分别按照所述样本图像中样本信息单元的不同排列方向确定所述样本图像中各个样本信息单元的样本定位信息的细节流程图;
图8示出了根据本申请一个实施例的确定样本图像中各个目标样本信息单元的样本定位信息的细节流程图;
图9示出了根据本申请一个实施例的确定所述目标图像中未完成特征信息提取的目标样本信息单元的目标定位信息的框架示意图;
图10示出了根据本申请一个实施例的在所述至少两个解码器模型中确定一个解码器模型作为目标解码器模型之前的方法流程图;
图11示出了根据本申请一个实施例的训练信息提取模型的框架示意图;
图12示出了根据本申请一个实施例的通过所述样本图像对所述待训练模型进行训练的细节流程图。
图13示出了根据本申请一个实施例的信息提取方法的流程图;
图14示出了根据本申请一个实施例的信息提取模型的训练装置的框图;
图15示出了根据本申请一个实施例的信息提取模型的训练装置的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
需要说明的是:在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
需要注意的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的对象在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在图示或描述的那些以外的顺序实施。
本申请中的实施例有涉及到关于人工智能的技术,即通过人工智能实现了对数据(例如图像数据)的完全自动化处理。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种,当然也可以是台式计算机等等,但并不局限于此,本申请在此不做限制)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
在本申请的一个实施例中,用户在需要识别目标图像中至少一个信息单元所反映的特征信息时,可以通过终端设备将包括至少一个信息单元的目标图像发送至服务器105,服务器105在获取目标图像之后,获取信息提取模型,并通过所述信息提取模型,提取所述目标图像中至少一个信息单元的特征信息。其中,服务器105可以通过如下方式预训练得到所述信息提取模型:首先获取样本图像,所述样本图像中包括至少一个样本信息单元,然后,获取待训练模型,所述待训练模型包括一个编码器模型和至少两个解码器模型,最后,通过所述样本图像对所述待训练模型进行训练,得到信息提取模型,其中,每一个解码器模型在训练过程中学习除自身之外部分或者全部所述解码器模型的解码结果。
在本实施例中,由于所述信息提取模型由包括一个编码器模型和至少两个解码器模型的待训练模型训练得到,且每一个解码器模型在训练过程中学习除自身之外部分或者全部所述解码器模型的解码结果,使得每一个解码器模型除了通过自身训练学习到信息单元的特征信息之外,还可以学习到除自身之外部分或者全部所述解码器模型学习到的信息单元的特征信息,从而使得训练得到的信息提取模型能够同时关注和充分利用图像中信息单元在不同角度上的特征信息,进而保证了信息提取模型具有较高的信息提取能力。因此,能够提高所述信息提取模型对信息提取的准确度。
需要说明的是,本申请实施例所提供的信息提取模型的训练方法可以由服务器105执行,相应地,信息提取模型的训练装置一般设置于服务器105中。但是,在本申请的其它实施例中,终端设备也可以与服务器具有相似的功能,从而执行本申请实施例所提供的信息提取模型的训练方案。
还需要说明的是,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要解释的是,如上所述的云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展。通过建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图2示出了根据本申请一个实施例的信息提取模型的训练方法的流程图,该信息提取模型的训练方法可以由具有计算处理功能的设备来执行,比如可以由图1中所示的服务器105来执行,或者可以由图1中所示的终端设备来执行。参照图2所示,该信息提取模型的训练方法至少包括步骤210至步骤250,详细介绍如下:
在步骤210中,获取样本图像,所述样本图像中包括至少一个样本信息单元。
在本申请中,样本图像中的样本信息单元可以是组成图像中公式或者文本的字符单元,也可以是组成图像中某些特定图案的图形单元。
在如图2所示步骤210的一个实施例中,获取样本图像,可以按照如图3所示的步骤执行。
参见图3,示出了根据本申请一个实施例的获取样本图像的细节流程图。具体包括步骤211至步骤214:
步骤211,获取至少一帧原始样本图像。
步骤212,将各帧原始样本图像的高度调节至预设图像高度,或者将各帧原始样本图像的宽度调节至预设图像宽度。
步骤213,按照所述高度的调节比例或者所述宽度的调节比例,对所述原始样本图像的宽度或者所述原始样本图像的高度进行调节处理,得到预处理样本图像。
步骤214,从所述预处理样本图像中选定预定数量的图像作为所述样本图像。
在本实施例中,所述原始样本图像可以是指最初采集的样本图像,其在数量上可以是一帧,也可以是多帧,例如一千帧,还例如一万帧,具体的样本图像数量可以根据实际情况确定。在每一帧样本图像中,都可以包括至少一个信息单元。
需要说明的是,对于最初采集的样本图像,可能会存在尺寸不统一的情况,针对该情况,需要对原始样本图像进行预处理。具体的,可以将各帧原始样本图像的高度或者宽度调节至预设图像高度或者预设图像宽度,并按照所述高度或者所述宽度的调节比例,对所述原始样本图像的宽度或者高度进行调节处理。
比如,原始样本图像共包括5帧,其中高宽尺寸分别为第一帧15×30、第二帧5×15、第三帧20×30、第四帧5×30、第五帧15×45。以将样本图像的宽度放大至预设图像宽度60为例。可见,第一帧图像的宽度放大比例为2倍,第二帧图像的宽度放大比例为4倍,第三帧图像的宽度放大比例为2倍,第四帧图像的宽度放大比例为2倍,第一帧图像的宽度放大比例为2倍,第一帧图像的宽度放大比例为4/3倍。
按照与图像宽度的相同的放大比例对图像高度进行放大,得到预处理样本图像的高宽尺寸分别为第一帧30×60、第二帧20×60、第三帧40×60、第四帧10×60、第五帧20×60。
在得到预处理的样本图像之后,可以从所述预处理样本图像中选定预定数量的图像作为所述样本图像。
在本申请中,将各帧原始样本图像的高度或者宽度调节至预设图像高度或者预设图像宽度,其好处在于,可以在后续中加快模型训练。
在如图3所示步骤214的一个实施例中,从所述预处理样本图像中选定预定数量的图像作为所述样本图像,可以按照如图4所示的步骤执行。
参见图4,示出了根据本申请一个实施例的从所述预处理样本图像中选定预定数量的图像作为所述样本图像的细节流程图。具体包括步骤2141至步骤2142:
步骤2141,按照所述预处理样本图像的高度或者宽度,对所述预处理样本图像进行排序。
步骤2142,从所述预处理样本图像中选定排序相连的预定数量的图像作为所述样本图像。
比如,以高宽尺寸分别为第一帧30×60、第二帧20×60、第三帧40×60、第四帧10×60、第五帧20×60的预处理样本图像为例,可以按照所述预处理样本图像的高度的大小顺序,对所述预处理样本图像进行排序,得到排序第四帧10×60、第五帧20×60、第二帧20×60、第一帧30×60、第三帧40×60。
进一步的,如预定数量设为4,则可以选择将第四帧、第五帧、第二帧、第一帧,或者将第五帧、第二帧、第一帧、第三帧作为所述样本图像。
在本申请中,后续在基于样本图像训练模型时,为了优化训练效果,样本图像的尺寸可以保持一致。基于此,在样本图像的高度或者宽度一致,而图像的宽度或者高度不一致时,可以以样本图像的最大宽度或者最大高度为参照,对样本图像的宽度或者高度进行补充,以使得样本图像的高宽尺寸完全一致。
而在此之前,对所述预处理样本图像进行排序,并从所述预处理样本图像中选定排序相连的预定数量的图像作为所述样本图像,可以避免样本图像中的最大宽度和最小宽度之间,或者最大高度和最小高度之间的差距太大,从而避免对样本图像的宽度或者高度做出过多无效信息的补充,使得在模型训练过程中,降低计算机对无效数据的计算量,节省计算机资源。
继续参照图2,在步骤230中,获取待训练模型,所述待训练模型包括一个编码器模型和至少两个解码器模型。
在本申请中,可以通过待训练模型训练得到信息提取模型,而在训练待训练模型之前,需要构建待训练模型,在本申请中,所述待训练模型可以通过一个编码器模型和至少两个解码器模型构建得到。
在本申请中,本领域技术人员可以理解的是,所述编码器模型在本质上可以属于网络结构模型,在构建待训练模型之前,可以通过网络结构搜索编码器模型。
在本申请中,网络结构搜索(Neural Architecture Search,NAS)是生成和优化网络结构的有效工具,在不确定网络的长度和结构的情况下,使用一个循环神经网络(recurrent network)作为控制器来生成网络结构的字段,用来构建子神经网络。将训练子网络之后的准确率作为控制器回馈信号(reward signal),通过计算策略梯度(policygradient)更新控制器,这样不断的迭代循环。在下一次迭代中,控制器将有更高的概率提出一个高准确率的网络结构。基于此,通过网络结构搜索的方式获取编码器模型,其好处在于可以获取较优的编码器模型,从而使得构建的待训练模型具有准确的学习能力。
在本申请的一个实施例中,所述编码器模型可以包括密集连接卷积网络模型(Densely connected convolutional networks,DenseNet),MobileNetV2模型,以及Xception模型中的任意一种。
在本申请的一个实施例中,所述解码器模型可以包括GRU模型,LSTM模型,以及Transformer模型中的任意一种。
继续参照图2,在步骤250中,通过所述样本图像对所述待训练模型进行训练,得到信息提取模型,其中,每一个解码器模型在训练过程中学习除自身之外部分或者全部所述解码器模型的解码结果。
需要说明的是,每一个解码器模型在训练过程中学习除自身之外部分或者全部所述解码器模型的解码结果,是指在所述至少两个解码器模型中的每一个解码器模型学习在所述至少两个解码器模型中初自身之外的部分或者全部解码器模型的解码结果。比如,共包括解码器模型a,解码器模型b以及解码器模型c。基于此,对于解码器模型a而言,其可以学习解码器模型b和解码器模型c的解码结果,也可以只学习解码器模型b的解码结果,或者只学习解码器模型c的解码结果。
在本申请的一个实施例中,在对所述待训练模型进行训练之前,还可以基于模型剪枝算法,模型蒸馏算法,以及模型量化算法中的任意一种,对所述编码器模型和所述解码器模型中的至少一种模型进行压缩处理。
在本申请中,对所述编码器模型和所述解码器模型中的至少一种模型进行压缩处理,其好处在于,可以在模型精度损失较小或者无损的情况下,将所述编码器模型和所述解码器模型的模型体积进一步减少,从而可以进一步加快计算速度,同时还能节省计算机资源。
需要说明的是,步骤250中所述的解码结果即为针对图像中信息单元的特征信息。
在如图2所示步骤250的一个实施例中,通过所述样本图像对所述待训练模型进行训练,得到信息提取模型,可以按照如图5所示的步骤执行。
参见图5,示出了根据本申请一个实施例的通过所述样本图像对所述待训练模型进行训练的细节流程图。具体包括步骤251至步骤254:
步骤251,通过所述编码器模型对所述样本图像进行编码,得到样本编码特征数据。
步骤252,分别通过所述至少两个解码器模型对所述样本编码特征数据进行解码,得到至少两组样本特征信息,其中,每一组样本特征信息中包括针对所述样本图像中各个样本信息单元的特征信息。
步骤253,触发所述至少两个解码器模型中的每一个解码器模型学习除自身之外部分或者全部所述解码器模型解码得到的样本特征信息。
步骤254,在所述至少两个解码器模型中确定一个解码器模型作为目标解码器模型,得到由所述编码器模型和所述目标解码器模型组成的所述信息提取模型。
在本申请中,需要说明的是,在如图5所示步骤252中,各个解码器模型对所述样本编码特征数据进行解码的过程是单独进行且互不影响的,即一个解码器模型可以独立对样本编码特征数据进行解码得到一组样本特征信息。
在如图5所示步骤252的一个实施例中,分别通过所述至少两个解码器模型对所述样本编码特征数据进行解码,得到至少两组样本特征信息,可以按照如图6所示的步骤执行。
参见图6,示出了根据本申请一个实施例的分别通过所述至少两个解码器模型对所述样本编码特征数据进行解码的细节流程图。具体包括步骤2521至步骤2522:
步骤2521,基于所述样本编码特征数据,通过所述至少两个解码器模型分别按照所述样本图像中样本信息单元的不同排列方向确定所述样本图像中各个样本信息单元的样本定位信息。
步骤2522,基于所述至少两个解码器模型对应的样本定位信息,分别对所述样本编码特征数据进行解码,得到所述至少两组样本特征信息。
在本申请中,需要说明的是,图像中的信息单元可以具有不同的排列方向,比如,从左到右的排列方向,还比如,从右到左的排列方向,还比如,从上到下的排列方向,还比如,从下到上的排列方向。
可以理解的是,按照不同排列方向确定所述样本图像中各个信息单元的样本定位信息时,其样本图像中各个信息单元的样本定位信息的确定顺序也不一样。
需要说明的是,在本申请中,至少两个解码器模型可以是两个解码器模型,也可以是三个解码器模型,还可以是四个解码器模型,在这里本申请不对解码器模型的数量做具体限定。
在如图6所示步骤2521的一个实施例中,所述至少两个解码器模型可以包括第一解码器模型和第二解码器模型。
进一步的,通过所述至少两个解码器模型分别按照所述样本图像中样本信息单元的不同排列方向确定所述样本图像中各个样本信息单元的样本定位信息,可以按照如图7所示的步骤执行。
参见图7,示出了根据本申请一个实施例的通过所述至少两个解码器模型分别按照所述样本图像中样本信息单元的不同排列方向确定所述样本图像中各个样本信息单元的样本定位信息的细节流程图。具体包括步骤25211至步骤25212:
步骤25211,通过所述第一解码器模型按照所述样本图像中样本信息单元的第一排列方向确定所述样本图像中各个样本信息单元的样本定位信息。
步骤25212,通过所述第二解码器模型按照所述样本图像中样本信息单元的第二排列方向确定所述样本图像中各个样本信息单元的样本定位信息,所述第二排列方向为所述第一排列方向的反方向。
为了使本领域技术人员更好的理解本申请,下面以图像中的公式识别场景为例进行说明。
比如,针对公式“A+B-C”,字符“+”排列在字符“A”右侧,字符“B”排列在字符“+”右侧,符“-”排列在字符“B”右侧,符“C”排列在字符“-”右侧。
进一步的,通过所述第一解码器模型按照所述样本图像中信息单元的第一排列方向确定所述样本图像中各个信息单元的样本定位信息,可以按照“A”→“+”→“B”→“-”→“C”的第一排列方向确定公式“A+B-C”中各个字符的样本定位信息。通过所述第二解码器模型按照所述样本图像中信息单元的第二排列方向确定所述样本图像中各个信息单元的样本定位信息,可以按照“C”→“-”→“B”→“+”→“A”的第二排列方向确定公式“A+B-C”中各个字符的样本定位信息。
在如图6所示步骤2521的一个实施例中,每一个解码器模型中可以包括至少两个不同尺度的定位卷积核。
需要说明的是,在本申请中,至少两个不同尺度的定位卷积核可以是两个不同尺度的定位卷积核,也可以是三个不同尺度的定位卷积核,还可以是四个不同尺度的定位卷积核,在这里本申请不对定位卷积核的数量做具体限定。
进一步的,针对所述样本图像中的每一个目标样本信息单元,可以按照如图8所示的步骤确定所述目标样本信息单元的样本定位信息。
参见图8,示出了根据本申请一个实施例的确定样本图像中各个目标样本信息单元的样本定位信息的细节流程图。具体包括步骤25213至步骤25215:
步骤25213,获取样本图像中已完成特征信息提取的样本信息单元的历史定位信息。
步骤25214,通过所述至少两个不同尺度的定位卷积核,分别对所述历史定位信息进行卷积处理,得到至少两个定位参考信息,所述至少两个定位参考信息用于分别关注不同尺寸大小的样本信息单元的定位信息。
步骤25215,基于所述至少两个定位参考信息,确定所述样本图像中未完成特征信息提取的目标样本信息单元的样本定位信息。
在本申请中,解码器模型包括的至少两个不同尺度的定位卷积核分别可以用于关注目标图像中不同尺寸大小信息单元。
可以理解的是,在本申请中,若所述信息单元包括字符单元,所述目标图像中的至少一个信息单元组成一个或者多个包含所述字符单元的公式,则通过至少两个不同尺度的定位卷积核分别对所述历史定位信息进行卷积处理得到的至少两个定位参考信息可以用于分别关注不同尺寸大小的字符单元的定位信息。
为了使本领域技术人员更好的理解本实施例,下面将继续以图像中的公式识别场景为例,结合图9以一个具体示例进行说明。
参见图9,示出了根据本申请一个实施例的确定所述目标图像中未完成特征信息提取的目标样本信息单元的目标定位信息的框架示意图。
如图9所示,针对公式“A+B-C”,若在历史上已经完成了针对字符“A”和字符“+”的特征信息提取,则可以获取字符“A”和字符“+”在历史上的定位信息901,并对字符“A”和字符“+”在历史上的定位信息进行相加,得到所述历史定位信息902,需要注意的是,在本申请中所提到的定位信息,其本质可以通过一个矩阵信息来表示。
进一步的,通过5×5的定位卷积核903和11×11的定位卷积核904分别对历史定位信息902进行卷积处理,则可以得到第一定位参考信息906和第二定位参考信息907,然后,通过第一定位参考信息906和第二定位参考信息907,可以确定公式“A+B-C”中未完成特征信息提取的字符“B”(目标信息单元)的样本定位信息。
进一步的,在通过第一定位参考信息906和第二定位参考信息907确定公式“A+B-C”中未完成特征信息提取的字符“B”的样本定位信息的过程中,可以同时获取与目标信息单元(即字符“B”)排列距离最近的信息单元(即字符“+”)在特征信息提取时的隐藏状态信息905,以及获取针对所述目标图像(即包含公式“A+B-C”的目标图像)的编码特征数据908,最后,对第一定位参考信息906,第二定位参考信息907,隐藏状态信息905以及编码特征数据908进行聚合,得到所述目标信息单元(即字符“B”)的目标定位信息909。
在本申请中,通过不同尺度的定位卷积核对所述历史定位信息进行卷积处理,可以重点关注目标图像中不同尺寸大小的信息单元,从而使得在后续中可以为目标信息单元确定得到更为准确的定位信息。而通过对所述至少两个定位参考信息,所述隐藏状态信息,以及所述编码特征数据进行聚合,可以得到具有较高准确度的所述目标信息单元的目标定位信息,从而能够提高由所述目标定位信息而确定的目标信息单元的目标特征信息的准确度。
在本申请的一个实施例中,所述样本图像还可以匹配有样本标签,所述样本标签用于表征所述样本图像中至少一个信息单元的真实特征信息。
进一步的,在如图5所示步骤254之前,即在所述至少两个解码器模型中确定一个解码器模型作为目标解码器模型之前,还可以执行如图10所示的步骤。
参见图10,示出了根据本申请一个实施例的在所述至少两个解码器模型中确定一个解码器模型作为目标解码器模型之前的方法流程图。具体包括步骤2531至步骤2532:
步骤2531,基于所述样本标签,分别在所述至少两个解码器模型解码得到的样本特征信息中确定存在的误差信息。
步骤2532,基于所述误差信息,通过预设损失函数对对应的解码器模型中的模型参数进行反向更新。
在本申请中,以所述样本标签作为监督信息,反向更新解码器模型中的模型参数,也可以起到不断优化解码器模型的作用,进而提高解码模型的性能。
为了使本领域技术人员更好的理解上述几个实施例,下面将继续以图像中的公式识别场景为例,结合图11以一个具体的示例进行说明。
参见图11,示出了根据本申请一个实施例的训练信息提取模型的框架示意图。
如图11所示,待训练模型中包括编码器模型1101,第一解码器模型1102和第二解码器模型1103。
首先,编码器模型针对包含有公式“A+B-C”的目标图像进行编码,得到编码特征数据,然后,第一解码器模型1102和第二解码器模型1103分别基于注意力机制对所述编码特征数据进行解码,得到两组特征信息。
其中,在针对所述编码特征数据进行解码的过程中,第一解码器模型1102和第二解码器模型1103可以分别按照目标图像中信息单元(即字符单元)的不同排列方向确定所述目标图像中各个信息单元的定位信息,然后再基于该定位信息,分别对编码特征数据进行解码,得到两组样本特征信息。
比如,第一解码器模型1102可以按照公式“A+B-C”中“A”→“+”→“B”→“-”→“C”的排列方向确定字符“A”,字符“+”,字符“B”,字符“-”以及字符“C”的定位信息,第二解码器模型1103可以按照公式“A+B-C”中“C”→“-”→“B”→“+”→“A”的排列方向确定字符“C”,字符“-”,字符“B”,字符“+”以及字符“A”的定位信息。在确定公式“A+B-C”中每一个字符单元的定位信息之后,第一解码器模型1102和第二解码器模型1103可以基于自身所确定的字符单元的定位信息,对该字符单元进行特征信息提取。
进一步的,在得到针对公式“A+B-C”的两组特征信息之后,触发第一解码器模型1102学习第二解码器模型1103解码得到的特征信息,还触发第二解码器模型1103学习第一解码器模型1102解码得到的特征信息,以分别优化第一解码器模型1102和第二解码器模型1103中的模型参数。
最后,在第一解码器模型1102和第二解码器模型1103保留一个解码器模型作为目标解码器模型(例如,保留第一解码器模型1102作为目标解码器模型),得到由所述编码器模型和所述目标解码器模型组成的所述信息提取模型。
在本申请中,通过所述至少两个解码器模型分别按照图像中信息单元的不同排列方向对图像中各个信息单元进行解码训练,可以同时关注和充分利用图像中信息单元不同角度的信息(例如历史和未来的信息),进一步的,各解码器模型之间通过相互学习,可以充分利用信息单元不同排列方向的互补信息,探索远距离依赖信息,使得解码器模型的解码能力更强,从而有助于提高信息提取模型对信息提取的准确度。
在如图2所示步骤250的一个实施例中,通过所述样本图像对所述待训练模型进行训练,得到所述信息提取模型,还可以按照如图12所示的步骤执行。
参见图12,示出了根据本申请一个实施例的通过所述样本图像对所述待训练模型进行训练的细节流程图。具体包括步骤255至步骤256:
步骤255,按照预定训练次数,通过所述样本图像对所述待训练模型进行训练,得到所述预定训练次数的信息提取参考模型。
步骤256,对所述预定训练次数的信息提取参考模型进行求平均处理,得到所述信息提取模型。
在本实施例中,可以通过所述样本图像对所述待训练模型进行多轮训练,例如进行12轮训练,其中,每一轮训练都会得到一个信息提取参考模型,然后对得到的多个信息提取参考模型求平均处理,得到所述信息提取模型。这样做的好处在于,可以提高模型的精度,增强所述信息提取模型对图像中的特征信息进行提取的准确性。
下面,将结合图13说明本申请一个实施例的信息提取方案。
参见图13,示出了根据本申请一个实施例的信息提取方法的流程图。该信息提取方法可以由具有计算处理功能的设备来执行,比如可以由图1中所示的服务器105来执行,或者可以由图1中所示的终端设备来执行。参照图13所示,该信息提取方法至少包括步骤220至步骤260,详细介绍如下:
步骤220,获取目标图像,所述目标图像中包括至少一个信息单元。
在本申请中,所提出的信息提取方案可以应用于图像中目标对象的信息识别场景,比如可以是图像中的公式识别场景,也可以是图像中的文本识别场景,还可以是图像中的某些特定图案识别场景。进一步的,图像中目标对象可以是由至少一个信息单元构成,比如,图像中的公式或者文本可以是由至少一个字符单元构成的,还比如,图像中的某些特定图案可以是由至少一个图形单元构成的。
需要说明是,所述目标图像可以是通过截取界面中的包含有目标对象的页面区域获取的,也可以是直接在本地获取的。
步骤240,获取通过所述信息提取模型的训练方法得到的信息提取模型。
步骤260,通过所述信息提取模型,提取所述目标图像中至少一个信息单元的特征信息。
需要说明的是,本申请所提出的特征信息,可以包括信息单元自身的形状特征信息,也可以包括信息单元的位置特征信息(例如与其它信息单元之间的相对位置关系),还可以同时包括信息单元自身的形状特征信息和位置特征信息。比如,以图像中的公式识别场景为例,信息单元可以是字符单元,所述目标图像中的至少一个信息单元组成一个或者多个包含所述字符单元的公式可以理解的是,公式中字符单元的特征信息可以包括每个字符单元的形状特征信息和/或字符单元之间的相对位置关系特征信息。
在本申请中,目标图像中的每一个信息单元在目标图像中对应有一个定位信息,在对信息单元进行特征信息提取之前,需要确定信息单元的定位信息。
需要说明的是,在提取目标图像中信息单元的特征信息的过程中,可以是先确定一个信息单元的定位信息,并提取该定位信息所限定的信息单元的特征信息,然后,再确定下一个信息单元的定位信息,并提取下一个信息单元的特征信息,如此逐步提取信息单元的特征信息,直至目标图像中所有信息单元的特征信息被提取完成。
为了使本领域技术人员更好的理解本申请,下面以图像中的公式识别场景为例进行说明。
例如,针对公式“A+B-C”中的字符“B”和字符“-”,首选确定字符“B”的定位信息,并根据字符“B”的定位信息提取字符“B”的特征信息,然后再确定字符“-”的定位信息,并根据字符“-”的定位信息提取字符“-”的特征信息。
在本申请中,继续以图像中的公式识别场景为例,在如图13所示步骤260之后的一个实施例中,即在通过所述信息提取模型,提取所述目标图像中至少一个信息单元的特征信息之后,还可以执行如下方案:
基于所述目标图像中至少一个信息单元的特征信息,将所述目标图像中的一个或者多个公式编辑至公式编辑区域。
具体的,在该应用场景中,用户在编辑文档时,可以在网页上截取需要编辑的公式图像,然后基于本申请提出的信息提取方案,对数所述公式图像中至少一个字符单元的第一特征信息进行提取,得到目标特征信息,然后再基于所述目标特征信息将所述公式图像中的公式编辑至公式编辑区域,可见,本申请提出的信息提取方法可以为用户在公式编辑过程中带来极大的便利和优良的用户体验。
本申请中,通过包括一个编码器模型和至少两个解码器模型的待训练模型,可以训练得到的信息提取模型。由于所述信息提取模型由包括一个编码器模型和至少两个解码器模型的待训练模型训练得到,且每一个解码器模型在训练过程中学习除自身之外部分或者全部所述解码器模型的解码结果,使得每一个解码器模型除了通过自身训练学习到信息单元的特征信息之外,还可以学习到除自身之外部分或者全部所述解码器模型学习到的信息单元的特征信息,从而使得训练得到的信息提取模型能够同时关注和充分利用图像中信息单元在不同角度上的特征信息,进而保证了信息提取模型具有较高的信息提取能力。因此,能够提高所述信息提取模型对信息提取的准确度。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的信息提取模型的训练方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的信息提取模型的训练方法的实施例。
图14示出了根据本申请一个实施例的信息提取模型的训练装置的框图。
参照图14所示,根据本申请的一个实施例的信息提取模型的训练装置1400,包括:第一获取单元1401、第二获取单元1402和训练单元1403。
其中,第一获取单元1401,被用于获取样本图像,所述样本图像中包括至少一个样本信息单元;第二获取单元1402,被用于获取待训练模型,所述待训练模型包括一个编码器模型和至少两个解码器模型;训练单元1403,被用于通过所述样本图像对所述待训练模型进行训练,得到信息提取模型,其中,每一个解码器模型在训练过程中学习除自身之外部分或者全部所述解码器模型的解码结果。
在本申请的一些实施例中,基于前述方案,所述第一获取单元1401配置为:获取至少一帧原始样本图像;将各帧原始样本图像的高度调节至预设图像高度,或者将各帧原始样本图像的宽度调节至预设图像宽度;按照所述高度的调节比例或者所述宽度的调节比例,对所述原始样本图像的宽度或者所述原始样本图像的高度进行调节处理,得到预处理样本图像;从所述预处理样本图像中选定预定数量的图像作为所述样本图像。
在本申请的一些实施例中,基于前述方案,所述第一获取单元1401还配置为:按照所述预处理样本图像的高度或者宽度,对所述预处理样本图像进行排序;从所述预处理样本图像中选定排序相连的预定数量的图像作为所述样本图像。
在本申请的一些实施例中,基于前述方案,所述编码器模型包括密集连接卷积网络模型。
在本申请的一些实施例中,基于前述方案,所述训练单元1403配置为:通过所述编码器模型对所述样本图像进行编码,得到样本编码特征数据;分别通过所述至少两个解码器模型对所述样本编码特征数据进行解码,得到至少两组样本特征信息,其中,每一组样本特征信息中包括针对所述样本图像中各个样本信息单元的特征信息;触发所述至少两个解码器模型中的每一个解码器模型学习除自身之外部分或者全部所述解码器模型解码得到的样本特征信息;在所述至少两个解码器模型中确定一个解码器模型作为目标解码器模型,得到由所述编码器模型和所述目标解码器模型组成的所述信息提取模型。
在本申请的一些实施例中,基于前述方案,所述训练单元1403还配置为:基于所述样本编码特征数据,通过所述至少两个解码器模型分别按照所述样本图像中样本信息单元的不同排列方向确定所述样本图像中各个样本信息单元的样本定位信息;基于所述至少两个解码器模型对应的样本定位信息,分别对所述样本编码特征数据进行解码,得到所述至少两组样本特征信息。
在本申请的一些实施例中,基于前述方案,所述至少两个解码器模型包括第一解码器模型和第二解码器模型,所述训练单元1403还配置为:通过所述第一解码器模型按照所述样本图像中样本信息单元的第一排列方向确定所述样本图像中各个样本信息单元的样本定位信息;通过所述第二解码器模型按照所述样本图像中样本信息单元的第二排列方向确定所述样本图像中各个样本信息单元的样本定位信息,所述第二排列方向为所述第一排列方向的反方向。
在本申请的一些实施例中,基于前述方案,所述解码器模型中包括至少两个不同尺度的定位卷积核,所述装置还包括:确定单元,被用于针对所述样本图像中的每一个目标样本信息单元,通过如下方式确定所述目标样本信息单元的样本定位信息:获取样本图像中已完成特征信息提取的样本信息单元的历史定位信息;通过所述至少两个不同尺度的定位卷积核,分别对所述历史定位信息进行卷积处理,得到至少两个定位参考信息,所述至少两个定位参考信息用于分别关注不同尺寸大小的样本信息单元的定位信息;基于所述至少两个定位参考信息,确定所述样本图像中未完成特征信息提取的目标样本信息单元的样本定位信息。
在本申请的一些实施例中,基于前述方案,所述样本图像还匹配有样本标签,所述样本标签用于表征所述样本图像中至少一个样本信息单元的真实特征信息,所述训练单元1403还配置为:在所述至少两个解码器模型中确定一个解码器模型作为目标解码器模型之前,基于所述样本标签,分别在所述至少两个解码器模型解码得到的样本特征信息中确定存在的误差信息;基于所述误差信息,通过预设损失函数对对应的解码器模型中的模型参数进行反向更新。
在本申请的一些实施例中,基于前述方案,所述训练单元1403还配置为:按照预定训练次数,通过所述样本图像对所述待训练模型进行训练,得到所述预定训练次数的信息提取参考模型;对所述预定训练次数的信息提取参考模型进行求平均处理,得到所述信息提取模型。
本申请还提供了一种信息提取装置,所述装置包括:第三获取单元,被用于获取目标图像,所述目标图像中包括至少一个信息单元;第四获取单元,被用于获取通过如上述实施例中所述信息提取模型的训练方法得到的信息提取模型;提取单元,被用于通过所述信息提取模型,提取所述目标图像中至少一个信息单元的特征信息。
在本申请的一些实施例中,基于前述方案,所述信息单元包括字符单元,所述至少一个信息单元组成一个或者多个包含所述字符单元的公式,所述信息提取装置还包括编辑单元,被用于在通过所述信息提取模型,提取所述目标图像中至少一个信息单元的特征信息之后,基于所述目标图像中至少一个信息单元的特征信息,将所述目标图像中的一个或者多个公式编辑至公式编辑区域。
作为另一方面,本申请实施例还提供了另一种信息提取模型的训练装置,以及信息提取装置,包括有存储器,以及一个以上的程序,其中一个以上程序存储于存储器中,且经配置以由一个以上处理器执行所述一个以上程序,所述一个以上程序包含用于进行如上述实施例中所述的信息提取模型的训练方法,以及信息提取方法的指令。
图15示出了根据本申请一个实施例的信息提取模型的训练装置,以及信息提取装置的框图。例如,装置1500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图15,装置1500可以包括以下一个或多个组件:处理组件1502,存储器1504,电源组件1506,多媒体组件1508,音频组件1510,输入/输出(I/O)的接口1512,传感器组件1514,以及通信组件1516。
处理组件1502通常控制装置1500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件1502可以包括一个或多个处理器1518来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1502可以包括一个或多个模块,便于处理组件1502和其他组件之间的交互。例如,处理组件1502可以包括多媒体模块,以方便多媒体组件1508和处理组件1502之间的交互。
存储器1504被配置为存储各种类型的数据以支持在设备1500的操作。这些数据的示例包括用于在装置1500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1506为装置1500的各种组件提供电力。电源组件1506可以包括电源管理系统,一个或多个电源,及其他与为装置1500生成、管理和分配电力相关联的组件。
多媒体组件1508包括在所述装置1500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1508包括一个前置摄像头和/或后置摄像头。当设备1500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1510被配置为输出和/或输入音频信号。例如,音频组件1510包括一个麦克风(MIC),当装置1500处于操作模式,如呼叫模式、记录模式和语音信息处理模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1504或经由通信组件1516发送。在一些实施例中,音频组件1510还包括一个扬声器,用于输出音频信号。
I/O接口1512为处理组件1502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1514包括一个或多个传感器,用于为装置1500提供各个方面的状态评估。例如,传感器组件1514可以检测到设备1500的打开/关闭状态,组件的相对定位,例如所述组件为装置1500的显示器和小键盘,传感器组件1514还可以搜索结果展示装置1500或装置1500一个组件的位置改变,用户与装置1500接触的存在或不存在,装置1500方位或加速/减速和装置1500的温度变化。传感器组件1514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1516被配置为便于装置1500和其他设备之间有线或无线方式的通信。装置1500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件1516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频信息处理(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置1500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1504,上述指令可由装置1500的处理器1518执行以完成上述的信息提取模型的训练方法,以及信息提取方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
作为另一方面,本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行实现上述实施例中所述的信息提取模型的训练方法,以及信息提取方法。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由该装置的处理器加载并执行以实现如上述实施例中所述的信息提取模型的训练方法所执行的操作,以及所述的信息提取方法所执行的操作。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (15)
1.一种信息提取模型的训练方法,其特征在于,所述方法包括:
获取样本图像,所述样本图像中包括至少一个样本信息单元;
获取待训练模型,所述待训练模型包括一个编码器模型和至少两个解码器模型;
通过所述样本图像对所述待训练模型进行训练,得到信息提取模型,其中,每一个解码器模型在训练过程中学习除自身之外部分或者全部所述解码器模型的解码结果。
2.根据权利要求1所述的方法,其特征在于,所述获取样本图像,包括:
获取至少一帧原始样本图像;
将各帧原始样本图像的高度调节至预设图像高度,或者将各帧原始样本图像的宽度调节至预设图像宽度;
按照所述高度的调节比例或者所述宽度的调节比例,对所述原始样本图像的宽度或者所述原始样本图像的高度进行调节处理,得到预处理样本图像;
从所述预处理样本图像中选定预定数量的图像作为所述样本图像。
3.根据权利要求2所述的方法,其特征在于,所述从所述预处理样本图像中选定预定数量的图像作为所述样本图像,包括:
按照所述预处理样本图像的高度或者宽度,对所述预处理样本图像进行排序;
从所述预处理样本图像中选定排序相连的预定数量的图像作为所述样本图像。
4.根据权利要求1所述的方法,其特征在于,所述通过所述样本图像对所述待训练模型进行训练,得到信息提取模型,包括:
通过所述编码器模型对所述样本图像进行编码,得到样本编码特征数据;
分别通过所述至少两个解码器模型对所述样本编码特征数据进行解码,得到至少两组样本特征信息,其中,每一组样本特征信息中包括针对所述样本图像中各个样本信息单元的特征信息;
触发所述至少两个解码器模型中的每一个解码器模型学习除自身之外部分或者全部所述解码器模型解码得到的样本特征信息;
在所述至少两个解码器模型中确定一个解码器模型作为目标解码器模型,得到由所述编码器模型和所述目标解码器模型组成的所述信息提取模型。
5.根据权利要求4所述的方法,其特征在于,所述分别通过所述至少两个解码器模型对所述样本编码特征数据进行解码,得到至少两组样本特征信息,包括:
基于所述样本编码特征数据,通过所述至少两个解码器模型分别按照所述样本图像中样本信息单元的不同排列方向确定所述样本图像中各个样本信息单元的样本定位信息;
基于所述至少两个解码器模型对应的样本定位信息,分别对所述样本编码特征数据进行解码,得到所述至少两组样本特征信息。
6.根据权利要求5所述的方法,其特征在于,所述至少两个解码器模型包括第一解码器模型和第二解码器模型,所述通过所述至少两个解码器模型分别按照所述样本图像中样本信息单元的不同排列方向确定所述样本图像中各个样本信息单元的样本定位信息,包括:
通过所述第一解码器模型按照所述样本图像中样本信息单元的第一排列方向确定所述样本图像中各个样本信息单元的样本定位信息;
通过所述第二解码器模型按照所述样本图像中样本信息单元的第二排列方向确定所述样本图像中各个样本信息单元的样本定位信息,所述第二排列方向为所述第一排列方向的反方向。
7.根据权利要求5所述的方法,其特征在于,所述解码器模型中包括至少两个不同尺度的定位卷积核,针对所述样本图像中的每一个目标样本信息单元,通过如下方式确定所述目标样本信息单元的样本定位信息:
获取样本图像中已完成特征信息提取的样本信息单元的历史定位信息;
通过所述至少两个不同尺度的定位卷积核,分别对所述历史定位信息进行卷积处理,得到至少两个定位参考信息,所述至少两个定位参考信息用于分别关注不同尺寸大小的样本信息单元的定位信息;
基于所述至少两个定位参考信息,确定所述样本图像中未完成特征信息提取的目标样本信息单元的样本定位信息。
8.根据权利要求4所述的方法,其特征在于,所述样本图像还匹配有样本标签,所述样本标签用于表征所述样本图像中至少一个样本信息单元的真实特征信息,在所述至少两个解码器模型中确定一个解码器模型作为目标解码器模型之前,所述方法还包括:
基于所述样本标签,分别在所述至少两个解码器模型解码得到的样本特征信息中确定存在的误差信息;
基于所述误差信息,通过预设损失函数对对应的解码器模型中的模型参数进行反向更新。
9.根据权利要求1所述的方法,其特征在于,所述通过所述样本图像对所述待训练模型进行训练,得到信息提取模型,包括:
按照预定训练次数,通过所述样本图像对所述待训练模型进行训练,得到所述预定训练次数的信息提取参考模型;
对所述预定训练次数的信息提取参考模型进行求平均处理,得到所述信息提取模型。
10.一种信息提取方法,其特征在于,所述方法包括:
获取目标图像,所述目标图像中包括至少一个信息单元;
获取通过如权利要求1至9任一项所述信息提取模型的训练方法得到的信息提取模型;
通过所述信息提取模型,提取所述目标图像中至少一个信息单元的特征信息。
11.根据权利要求10所述的方法,其特征在于,所述信息单元包括字符单元,所述至少一个信息单元组成一个或者多个包含所述字符单元的公式,在通过所述信息提取模型,提取所述目标图像中至少一个信息单元的特征信息之后,所述方法还包括:
基于所述目标图像中至少一个信息单元的特征信息,将所述目标图像中的一个或者多个公式编辑至公式编辑区域。
12.一种信息提取模型的训练装置,其特征在于,所述装置包括:
第一获取单元,被用于获取样本图像,所述样本图像中包括至少一个样本信息单元;
第二获取单元,被用于获取待训练模型,所述待训练模型包括一个编码器模型和至少两个解码器模型;
训练单元,被用于通过所述样本图像对所述待训练模型进行训练,得到信息提取模型,其中,每一个解码器模型在训练过程中学习除自身之外部分或者全部所述解码器模型的解码结果。
13.一种信息提取模型的训练装置,其特征在于,包括有存储器,以及一个以上程序,其中一个以上程序存储于存储器中,且经配置以由一个以上处理器执行所述一个以上程序,所述一个以上程序包含用于进行如权利要求1至9中任一所述的信息提取模型的训练方法的指令。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如权利要求1至9任一项所述的信息提取模型的训练方法所执行的操作。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中,且适于由处理器读取并执行,以使得具有所述处理器的计算机设备执行权利要求1-9任一项所述的信息提取模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111279950.9A CN114155307A (zh) | 2021-10-29 | 2021-10-29 | 信息提取模型的训练及信息提取方法、装置、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111279950.9A CN114155307A (zh) | 2021-10-29 | 2021-10-29 | 信息提取模型的训练及信息提取方法、装置、介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114155307A true CN114155307A (zh) | 2022-03-08 |
Family
ID=80459004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111279950.9A Pending CN114155307A (zh) | 2021-10-29 | 2021-10-29 | 信息提取模型的训练及信息提取方法、装置、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114155307A (zh) |
-
2021
- 2021-10-29 CN CN202111279950.9A patent/CN114155307A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107527059B (zh) | 文字识别方法、装置及终端 | |
CN111368796B (zh) | 人脸图像的处理方法、装置、电子设备及存储介质 | |
CN109145970B (zh) | 基于图像的问答处理方法和装置、电子设备及存储介质 | |
CN104077597B (zh) | 图像分类方法及装置 | |
CN110941727B (zh) | 一种资源推荐方法、装置、电子设备及存储介质 | |
CN114266840A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112836801A (zh) | 深度学习网络确定方法、装置、电子设备及存储介质 | |
CN112906484B (zh) | 一种视频帧处理方法及装置、电子设备和存储介质 | |
CN111814538B (zh) | 目标对象的类别识别方法、装置、电子设备及存储介质 | |
CN114693905A (zh) | 文本识别模型构建方法、文本识别方法以及装置 | |
CN111428806B (zh) | 图像标签确定方法、装置、电子设备及存储介质 | |
CN112036307A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN116010646A (zh) | 视频推荐方法、装置、电子设备及存储介质 | |
CN115424044A (zh) | 基于多模态的图像标注方法、装置及电子设备 | |
CN112801116B (zh) | 图像的特征提取方法及装置、电子设备和存储介质 | |
CN114155307A (zh) | 信息提取模型的训练及信息提取方法、装置、介质 | |
CN114038067A (zh) | 煤矿人员行为检测方法、设备及存储介质 | |
CN114943336A (zh) | 模型剪枝方法、装置、设备和存储介质 | |
CN114693904A (zh) | 文本识别方法、模型训练方法、装置及电子设备 | |
CN109711386B (zh) | 获取识别模型的方法、装置、电子设备及存储介质 | |
CN114155295A (zh) | 信息提取方法、装置及介质 | |
CN114155404A (zh) | 信息提取模型的训练及信息提取方法、装置、介质 | |
CN114064959A (zh) | 信息提取方法、装置及介质 | |
CN111753266A (zh) | 用户认证方法、多媒体内容的推送方法及装置 | |
CN114067338A (zh) | 信息提取方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |