CN113869337A - 图像识别模型的训练方法及装置、图像识别方法及装置 - Google Patents
图像识别模型的训练方法及装置、图像识别方法及装置 Download PDFInfo
- Publication number
- CN113869337A CN113869337A CN202010616614.8A CN202010616614A CN113869337A CN 113869337 A CN113869337 A CN 113869337A CN 202010616614 A CN202010616614 A CN 202010616614A CN 113869337 A CN113869337 A CN 113869337A
- Authority
- CN
- China
- Prior art keywords
- image
- decoding
- vector
- sample
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000012549 training Methods 0.000 title claims abstract description 74
- 239000013598 vector Substances 0.000 claims abstract description 250
- 238000004364 calculation method Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请提供图像识别模型的训练方法及装置、图像识别方法及装置,其中所述图像识别模型包括编码器和解码器,所述图像识别模型的训练方法包括:获取训练数据,其中,所述训练数据包括样本图像和所述样本图像对应的样本描述信息;将所述样本图像输入至所述编码器,获得所述样本图像对应的至少两个图像特征向量;将每个所述图像特征向量和所述样本描述信息输入至所述解码器,获得所述解码器输出的解码结果;根据所述解码结果与所述样本描述信息计算损失值;根据所述损失值调整所述图像识别模型的参数以训练所述图像识别模型,通过本方法在解码器可以融合至少两个图像特征的图像特征向量,参考各个尺度下图像特征的差异,提高图像识别的准确率。
Description
技术领域
本申请涉及图像识别技术领域,特别涉及一种图像识别模型的训练方法及装置、图像识别方法及装置、计算设备和计算机可读存储介质。
背景技术
随着科技的进步和互联网技术的飞速发展,图像已经成为人们记录和分享信息的主要方式,识别图像中记载的文字或数学公式在生活中的应用越来越广泛。
当前针对文字或数学公式的图像识别通常使用seq2seq模型,在模型的编码器使用CNN提取单一的图像特征,再将图像特征输入至模型的解码器做解码,在编码器中提取图像单一的图像特征只能关注当前尺度的特征信息,会导致特征信息的遗漏和不全面,从而导致图像识别有信息的遗漏,图像识别的效果不理想,准确率不高。
因此如何提高图像识别的准确率,就成为技术人员亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供了一种图像识别模型的训练方法及装置、图像识别方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种图像识别模型的训练方法,所述图像识别模型包括编码器和解码器,所述方法包括:
获取训练数据,其中,所述训练数据包括样本图像和所述样本图像对应的样本描述信息;
将所述样本图像输入至所述编码器,获得所述样本图像对应的至少两个图像特征向量;
将每个所述图像特征向量和所述样本描述信息输入至所述解码器,获得所述解码器输出的解码结果;
根据所述解码结果与所述样本描述信息计算损失值;
根据所述损失值调整所述图像识别模型的参数以训练所述图像识别模型。
可选的,在将所述样本图像输入至所述编码器之前,还包括:
对所述样本图像进行处理,将所述样本图像调整到预设尺寸。
可选的,将所述样本图像输入至所述编码器,获得所述样本图像对应的至少两个图像特征向量,包括:
将所述样本图像输入至所述编码器,提取所述样本图像的至少两个二维图像特征;
根据每个所述二维图像特征确定每个所述二维图像特征对应的图像特征向量。
可选的,在根据每个所述二维图像特征确定每个所述二维图像特征对应的图像特征向量之前,还包括:
为每个所述二维图像特征添加特征位置编码。
可选的,所述解码器包括n个依次连接的解码层,其中,n≥1;
将每个所述图像特征向量和所述样本描述信息输入至所述解码器,获得所述解码器输出的解码结果,包括:
S51、获取所述样本描述信息对应的样本描述信息向量;
S52、将每个所述图像特征向量和所述样本描述信息向量输入至第1个所述解码层做解码处理,得到第1个解码层输出的解码向量;
S53、将每个所述图像特征向量和第j-1个解码层输出的解码向量输入至第j个解码层,得到第j个解码层输出的解码向量,其中2≤j≤n;
S54、将j自增1,判断j是否大于n,若是,则输出解码结果,若否,继续执行步骤S53。
可选的,将每个所述图像特征向量和所述样本描述信息向量输入至第1个所述解码层做解码处理,得到第1个解码层输出的解码向量,包括:
将每个所述图像特征向量分别与所述样本描述信息向量做注意力计算,得到每个所述图像特征向量对应的解码子向量;
根据每个所述解码子向量生成第1个解码层的解码向量。
可选的,根据每个所述解码子向量生成第1个解码层的解码向量,包括:
根据每个所述解码子向量及其对应的权重生成第1个解码层输出的解码结果。
可选的,将每个所述图像特征向量和第j-1个解码层输出的解码向量输入至第j个解码层,得到第j个解码层输出的解码向量,包括:
将每个所述图像特征向量分别与第j-1个解码层输出的解码向量做注意力计算,得到每个所述图像特征向量对应的解码子向量;
根据每个所述解码子向量生成第j个解码层的解码向量。
可选的,根据每个所述解码子向量生成第j个解码层的解码向量,包括:
根据每个所述解码子向量及其对应的权重生成第j个解码层输出的解码结果。
可选的,其特征在于,根据所述解码结果与所述样本描述信息计算损失值,包括:
根据第n个解码层输出的解码向量与所述样本描述信息向量计算损失值。
根据本申请实施例的第二方面,提供了一种图像识别方法,包括:
获取待识别图像;
将所述待识别图像输入至图像识别模型,其中,所述图像识别模型根据上述第一方面中任意一项图像识别模型的训练方法训练获得,包括编码器和解码器;
将所述待识别图像输入至所述编码器,获得所述样本图像对应的至少两个图像特征向量;
将每个所述图像特征向量和初始参考解码向量输入至所述解码器,获得所述解码器输出的所述待识别图像对应的识别结果。
根据本申请实施例的第三方面,提供了一种图像识别模型的训练装置,所述图像识别模型包括编码器和解码器,所述装置包括:
第一获取模块,被配置为获取训练数据,其中,所述训练数据包括样本图像和所述样本图像对应的样本描述信息;
编码模块,被配置为将所述样本图像输入至所述编码器,获得所述样本图像对应的至少两个图像特征向量;
解码模块,被配置为将每个所述图像特征向量和所述样本描述信息输入至所述解码器,获得所述解码器输出的解码结果;
计算模块,被配置为根据所述解码结果与所述样本描述信息计算损失值;
调参模块,被配置为根据所述损失值调整所述图像识别模型的参数以训练所述图像识别模型。
根据本申请实施例的第四方面,提供了一种图像识别装置,包括:
第二获取模块,被配置为获取待识别图像;
输入识别模型模块,被配置为将所述待识别图像输入至图像识别模型,其中,所述图像识别模型根据上述第一方面中任意一项图像识别模型的训练方法训练获得,包括编码器和解码器;
编码器输入模块,被配置为将所述待识别图像输入至所述编码器,获得所述样本图像对应的至少两个图像特征向量;
解码器输入模块,被配置为将每个所述图像特征向量和初始参考解码向量输入至所述解码器,获得所述解码器输出的所述待识别图像对应的识别结果。
根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述图像识别模型的训练方法或图像识别方法的步骤。
根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述图像识别模型的训练方法或图像识别方法的步骤。
根据本申请实施例的第七方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述图像识别模型的训练方法或图像识别方法的步骤。
本申请实施例提供的图像识别模型的训练方法,通过在图像识别模型的编码器中,提取样本图像的两个尺度的图像特征,并将这两个图像特征和样本图像对应的样本描述信息输入至解码器进行解码,在解码器可以融合至少两个图像特征的图像特征向量,可以参考各个尺度下图像特征的差异,提高图像识别的准确率。
附图说明
图1是本申请实施例提供的计算设备的结构框图;
图2是本申请实施例提供的图像识别模型的训练方法的流程图;
图3是本申请实施例提供的样本图像的示意图;
图4是本申请实施例提供的提取样本图像的图像特征示意图;
图5是本申请实施例提供的解码器输出解码结果的流程示意图;
图6是本申请实施例提供的解码层的结构示意图;
图7是本申请另一实施例提供的图像识别模型的训练方法的流程图;
图8是本申请另一实施例提供的样本图像的示意图;
图9是本申请实施例提供的图像识别方法的流程图;
图10是本申请实施例提供的图像识别方法中待识别图像的示意图;
图11是本申请实施例的图像识别模型的训练装置的结构示意图;
图12是本申请实施例的图像识别装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
样本图像:用于训练图像识别模型的训练图像,样本图像中为文字或数学公式。
图像特征向量:经过编码器处理获得的样本图像对应的向量。
二维图像特征:经CNN提取的图像特征。
特征位置编码:用于记录空间位置关系的编码,解决了字符空间位置的关系。
注意力机制:根据需要的不同,把注意力集中放在重要的点上,而忽略其他不重要的因素。
在本申请中,提供了一种图像识别模型的训练方法及装置、图像识别方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示图像识别模型的训练方法中的步骤。图2示出了根据本申请一实施例的图像识别模型的训练方法的流程图,所述图像识别模型包括编码器和解码器,包括步骤202至步骤210。
步骤202:获取训练数据,其中,所述训练数据包括样本图像和所述样本图像对应的样本描述信息。
训练数据包括样本图像和所述样本图像对应的样本描述信息,样本图像为公式图像,样本图像对应的样本描述信息为公式对应的描述信息。
在本申请提供的实施例中,参见图3,图3示出了样本图像的示意图,图3中样本图像对应的描述信息为:“\mathcal{J}=-\frac{1}{\tau}\operatorname{log}\left(P_{r}(\boldsymbol{y}|\boldsymbol{a})\right)+\lambda_{R}\mathcal{R}”。
步骤204:将所述样本图像输入至所述编码器,获得所述样本图像对应的至少两个图像特征向量。
所述图像识别模型为Transformer模型,包括编码器和解码器,将样本图像输入至图像识别模型的编码器中,在编码器中对样本图像做卷积处理提取图像特征,提取图像特征可以为残差网络、全卷积网络、efficient网络,在本申请中不对卷积的方法做限定。
可选的,将所述样本图像输入至所述编码器,获得所述样本图像对应的至少两个图像特征向量,包括:将所述样本图像输入至所述编码器,提取所述样本图像的至少两个二维图像特征;根据每个所述二维图像特征确定每个所述二维图像特征对应的图像特征向量。
在编码器中通过卷积处理提取样本图像的至少两个尺度的二维图像特征,相同的样本图像在不同尺度下提取的特征是不同的,公式上大多为字符,尺度太小,可能较小的字符和细节将会消失,本申请中优选使用32*4和64*8两个尺度的图像特征。通过获取样本图像至少两个尺度的二维图像特征,可以尽可能多的从各个角度获取样本图像的特征,再将每个二维图像特征进行特征拉伸,获得每个二维图像特征对应的图像特征向量。
在本申请提供的实施例中,图像识别模型的编码器利用efficientNet提取样本图像的图像特征的过程中,特征尺寸会逐渐减小,如原始尺寸为1024*128,经过一次下采样后会变为512*64,经过第二次下采样后会变为256*32,经过第三次下采样后会变为128*16,依次类推。参见图4,图4示出了提取样本图像的图像特征示意图。
通常图像特征为四维的表示(batch,channel,w,h),其中,batch为图像的个数,channel为通道数,w为图像的宽,h为图像的高。
样本图像为(batch,1,128,1024),经过一次下采样后为(batch,16,64,512),再经过一次下采样后为(batch,32,32,256),为了便于表示,在本申请中,用宽和高表示卷积块输出的图像特征的大小,在本申请提供的实施例中,获取样本图像对应的两个尺度的图像特征F1(64*8)和F2(32*4)。
对每个尺度的图像特征做特征拉伸,得到每个尺度的图像特征对应的图像特征向量的形式有很多,在本申请提供的实施例中,将宽为w和高为h的图像特征转换为w*h的图像特征向量。
因此,将图像特征F1(64*8)转换为512维的图像特征向量Fc1,将图像特征F2(32*4)转换为128维的图像特征向量Fc2。
具体地,在根据每个所述二维图像特征确定每个所述二维图像特征对应的图像特征向量之前,还包括:为每个所述二维图像特征添加特征位置编码。
在实际应用中,在根据每个所述二维图像特征确定每个所述二维图像特征对应的图像特征向量之前,还需要为每个图像特征添加二维位置编码,用以标注图像特征的空间位置关系,保证公式中字符的顺序。
可选的,在将所述样本图像输入至所述编码器之前,还包括:对所述样本图像进行处理,将所述样本图像调整到预设尺寸。
在实际应用中,样本图像的图像大小不一,简短的公式图像会比较小,复杂的公式图像会比较大,但通常卷积神经网络的输入图像的大小是固定的,如用于目标检测的YOLOv3的输入大小是224*224,在本申请中,需要对样本图像进行标准化处理,将所述样本图像调整到预设尺寸,优选的,在本申请中将预设尺寸设计为1024*128,需要注意的是,在本申请中预设尺寸1024*128仅做适宜性说明,预设尺寸的设置可以根据实际情况进行调整,在本申请对此不做限定。
在实际应用中,为了保证图像的识别准确率,还会随机替换公式图像的背景图像,进行模糊滤波等操作,对此以实际应用为准,本申请中不做限制。
在本申请提供的实施例中,将图3所示的样本图像调整到1024*128的大小。
步骤206:将每个所述图像特征向量和所述样本描述信息输入至所述解码器,获得所述解码器输出的解码结果。
将每个图像特征向量和样本描述信息输入至图像识别模型的解码器中,图像识别模型的解码器包括N个解码层,每个解码层接收所述图像识别模型的编码层输出的图像特征向量和上一个解码层输出的解码向量进行解码处理,在每个解码层中将每个图像特征向量分别与样本描述信息做注意力计算,最后一个解码层输出最终的解码向量,再经过线性层和softmax层输出最终的结果。
可选的,所述解码器包括n个依次连接的解码层,其中,n≥1,参见图5,步骤206可以通过下述步骤502至步骤510实现。
步骤502:获取所述样本描述信息对应的样本描述信息向量。
将样本描述信息输入至解码器的嵌入层做嵌入化处理,获得样本描述信息对应的样本描述信息向量。
在本申请提供的实施例中,沿用上例,将样本描述信息“\mathcal{J}=-\frac{1}{\tau}\operatorname{log}\left(P_{r}(\boldsymbol{y}|\boldsymbol{a})\right)+\lambda_{R}\mathcal{R}”做嵌入化处理后获得样本描述信息向量T。
步骤504:将每个所述图像特征向量和所述样本描述信息向量输入至第1个所述解码层做解码处理,得到第1个解码层输出的解码向量。
解码器包括N个解码层,对于第1个解码层,接收编码器输出的图像特征向量和样本描述信息向量在解码层中做解码处理,获得第1个解码层输出的解码向量。
可选的,步骤504包括:将每个所述图像特征向量分别与所述样本描述信息向量做注意力计算,得到每个所述图像特征向量对应的解码子向量;根据每个所述解码子向量生成第1个解码层的解码向量。
在本申请提供的实施例中,沿用上例,参见图6,图6示出了图像识别模型的N个解码层的结构示意图,对于第1个解码层,X为样本描述信息向量T,在第1个解码层中,样本描述信息向量T经过自注意力层的自注意力计算,将计算结果做归一化处理后得到样本描述信息向量T1,图像特征向量Fc1与样本描述信息向量T1在注意力层1中做注意力计算获得与图像特征向量Fc1对应的解码子向量SA1,图像特征向量Fc2与样本描述信息向量T1在注意力层2中做注意力计算获得与图像特征向量Fc2对应的解码子向量SA2,需要注意的是,每个图像特征向量与样本描述信息向量在各自独立的注意力层中做注意力计算。
具体的,根据每个所述解码子向量生成第1个解码层的解码向量包括:根据每个所述解码子向量及其对应的权重生成第1个解码层输出的解码结果。
在实际应用中,根据每个解码子向量和其对应的权重生成第1个解码层的解码向量,通过每个解码子向量和其对应的权重融合解码子向量。
在本申请提供的实施例中,沿用上例,解码子向量SA1对应的权重为Q1,解码子向量SA2对应的权重为Q2,则第1解码层输出的解码向量E1=Q1*SA1+Q2*SA2,在训练过程中,解码子向量对应权重也在不断地训练调整直至保证对图像识别贡献大的特征具有更大的权重,使得图像识别效果更好。
步骤506:将每个所述图像特征向量和第j-1个解码层输出的解码向量输入至第j个解码层,得到第j个解码层输出的解码向量,其中2≤j≤n。
对于除去第1个解码层的其他解码层,接收编码器发送的图像特征向量和上一个解码层输出的解码向量,在当前解码层中经过解码处理,输出当前解码层的解码向量。
可选的,步骤506包括:将每个所述图像特征向量分别与第j-1个解码层输出的解码向量做注意力计算,得到每个所述图像特征向量对应的解码子向量;根据每个所述解码子向量生成第j个解码层的解码向量。
具体的,根据每个所述解码子向量生成第j个解码层的解码向量,包括:根据每个所述解码子向量及其对应的权重生成第j个解码层输出的解码结果。
在本申请提供的实施例中,沿用上例,对于第j个解码层,其中2≤j≤n,X为第j-1个解码层输出的解码向量EJ-1,解码向量EJ-1经过自注意力层的自注意力计算,将计算结果做归一化处理后得到解码向量E(J-1)1,在第j个解码层中,图像特征向量Fc1和Fc2分别与解码向量E(J-1)1做注意力计算生成对应的解码子向量,进而根据每个解码子向量及其权重生成第j个解码层的解码向量EJ。
需要注意的是,同一个图像特征向量在不同的解码层中对应的权重也不是固定的,每个权重都是经过训练获得。
步骤508:将j自增1,判断j是否大于n,若是,则执行步骤510,若否,执行步骤506。
将j自增1,当j<n的情况下,还没有到解码器的最后一个解码层,执行步骤506,当j=n时,已经到最后一个解码层,执行步骤510。
步骤510:输出解码结果。
将第j个解码层输出的解码向量作为解码器的解码结果。
步骤208:根据所述解码结果与所述样本描述信息计算损失值。
可选的,根据所述解码结果与所述样本描述信息计算损失值包括根据最后一个解码层输出的解码向量与所述样本描述信息向量计算损失值。
在本申请提供的实施例中,当j=n时,根据第j个解码层输出的解码向量与样本描述信息向量计算损失值。
步骤210:根据所述损失值调整所述图像识别模型的参数以训练所述图像识别模型。
具体的,将计算获得的损失值反向传播以调整所述图像识别模型中的参数,达到训练所述图像识别模型的目的。
本申请实施例提供的图像识别模型的训练方法,通过在图像识别模型的编码器中,提取样本图像的两个尺度的图像特征,并将这两个图像特征和样本图像对应的样本描述信息输入至解码器进行解码,在解码器可以融合至少两个图像特征的图像特征向量,可以参考各个尺度下图像特征的差异,提高图像识别的准确率。
图7示出了本申请一实施例的图像识别模型的训练方法的流程图,包括步骤702至步骤718。
步骤702:获取样本图像和所述样本图像对应的样本描述信息。
在本申请提供的实施例中,参见图8,图8示出了本申请实施例提供的样本图像,所述样本图像对应的样本描述信息为“ds^{2}=-H^{-1}dt^{2}H\delta_{mn}dx^{m}dx^{n}”。
步骤704:对所述样本图像进行处理,将所述样本图像调整到预设尺寸。
在本申请提供的实施例中,将样本图像进行标准化处理,调整到1024*128大小的预设尺寸。
步骤706:将所述样本图像输入至图像识别模型的编码器,提取所述样本图像的至少两个尺度的二维图像特征。
在本申请提供的实施例中,利用efficientNet提取样本图像的图像特征,获取所述样本图像的两个尺度的图像特征F1(64*8)和F2(32*4)。
步骤708:为每个所述二维图像特征添加特征位置编码。
在本申请提供的实施例中,为每个二维图像特征添加特征位置编码,特征位置编码用于记住空间位置关系。
步骤710:根据每个所述二维图像特征确定每个所述二维图像特征对应的图像特征向量。
在本申请提供的实施例中,将两个尺度的图像特征F1(64*8)和F2(32*4)分别做特征拉伸,获得512维的图像特征向量Fc1和128维的图像特征向量Fc2。
步骤712:获取所述样本描述信息对应的样本描述信息向量。
在本申请提供的实施例中,将样本描述信息“ds^{2}=-H^{-1}dt^{2}H\delta_{mn}dx^{m}dx^{n}”做嵌入化处理,获得样本描述信息向量X。
步骤714:将每个所述图像特征向量和所述样本描述信息向量输入至所述图像识别模型的解码器,获得所述解码器输出的解码结果。
在本申请提供的实施例中,将图像特征向量Fc1、图像特征向量Fc2和样本描述信息向量X输入至图像识别模型的解码器中。
对于第1个解码层,样本描述信息向量X经过自注意力层的自注意力计算,将计算结果做归一化处理后得到样本描述信息向量X1,图像特征向量Fc1与样本描述信息向量X1在注意力层1中做注意力计算获得与图像特征向量Fc1对应的解码子向量SA1,图像特征向量Fc2与样本描述信息向量X1在注意力层2中做注意力计算获得与图像特征向量Fc2对应的解码子向量SA2,根据解码子向量SA1和对应的权重Q1,解码子向量SA2和对应的权重Q2生成解码向量E1=Q1*SA1+Q2*SA2。并将E1作为第1个解码层的输出结果。
对于除去第1个解码层的其他解码层,接收上一个解码层输出的解码向量,经过当前解码层的自注意力层的自注意力计算,将计算结果做归一化处理后得到的结果分别与图像特征向量Fc1和图像特征向量Fc2做注意力计算生成对应的解码子向量,再根据各自对应的权重生成当前解码层输出的解码向量。
步骤716:根据所述解码结果与所述样本描述信息向量计算损失值。
在本申请提供的实施例中,将第n个解码层输出的解码向量作为最终的编码结果,与样本描述信息向量计算交叉熵损失值。
步骤718:根据所述损失值调整所述图像识别模型的参数以训练所述图像识别模型。
在本申请提供的实施例中,根据损失值反向传播,调整所述图像识别模型的参数以训练所述图像识别模型。
本申请实施例提供的图像识别模型的训练方法,通过在图像识别模型的编码器中,提取样本图像的两个尺度的图像特征,并将这两个图像特征和样本图像对应的样本描述信息输入至解码器进行解码,在解码器的每个解码层中使每个图像特征向量分别与样本描述信息向量进行注意力计算,可以参考各个尺度下图像特征的差异,解决了transformer无法参考不同级别图像特征差异的问题,提高图像识别的准确率。
处理器120可以执行图9所示图像识别方法中的步骤。图9示出了根据本申请一实施例的图像识别方法的流程图,包括步骤902至步骤908。
步骤902:获取待识别图像。
在实际应用中,待识别图像为公式图像。
在本申请提供的一实施例中,获取待识别图像如图10所示,图10示出了本申请一实施例提供的待识别图像。
步骤904:将所述待识别图像输入至图像识别模型,其中,所述图像识别模型根据上述图像识别模型的训练方法训练获得,所述图像识别模型包括编码器和解码器。
在本申请提供的一实施例中,将图10所示的待识别图像输入至图像识别模型,其中,所述图像识别模型为经过上述图像识别模型的训练方法训练获得。
步骤906:将所述待识别图像输入至所述编码器,获得所述样本图像对应的至少两个图像特征向量。
在本申请提供的实施例中,将所述待识别图像输入至所述图像识别模型的编码器中,获得所述样本图像对应的两个图像特征向量。
步骤908:将每个所述图像特征向量和初始参考解码向量输入至所述解码器,获得所述解码器输出的所述待识别图像对应的识别结果。
在本申请提供的实施例中,将每个所述图像特征向量和初始参考解码向量输入至所述图像识别模型的解码器中,获得所述解码器输出的所述待识别图像对应的识别结果“\sum_{i=1}^{n}S_i”。
本申请实施例提供的图像识别方法,通过图像识别模型的编码器提取待识别图像的至少两个尺度的图像特征信息,并将每个尺度的图像特征信息输入至图像识别模型的解码器中,在解码器中根据多个尺度的图像特征信息进行注意力计算,参考各个尺度下图像特征的差异,解决了单一的图像特征输入到解码层中出现的忽略不同级别图像特征的差异问题,提高了图像识别的准确率。
与上述图像识别模型的训练方法实施例相对应,本申请还提供了图像识别模型的训练装置实施例,图11示出了本申请一个实施例的图像识别模型的训练装置的结构示意图。所述图像识别模型包括编码器和解码器,如图11所示,该装置包括:
第一获取模块1102,被配置为获取训练数据,其中,所述训练数据包括样本图像和所述样本图像对应的样本描述信息;
编码模块1104,被配置为将所述样本图像输入至所述编码器,获得所述样本图像对应的至少两个图像特征向量;
解码模块1106,被配置为将每个所述图像特征向量和所述样本描述信息输入至所述解码器,获得所述解码器输出的解码结果;
计算模块1108,被配置为根据所述解码结果与所述样本描述信息计算损失值;
调参模块1110,被配置为根据所述损失值调整所述图像识别模型的参数以训练所述图像识别模型。
可选的,所述装置还包括:标准化模块,被配置为对所述样本图像进行处理,将所述样本图像调整到预设尺寸。
可选的,所述编码模块1104,进一步被配置为将所述样本图像输入至所述编码器,提取所述样本图像的至少两个二维图像特征;根据每个所述二维图像特征确定每个所述二维图像特征对应的图像特征向量。
可选的,所述编码模块1104,进一步被配置为为每个所述二维图像特征添加特征位置编码。
可选的,所述解码器包括n个依次连接的解码层,其中,n≥1;
所述解码模块1106,进一步被配置为获取所述样本描述信息对应的样本描述信息向量;将每个所述图像特征向量和所述样本描述信息向量输入至第1个所述解码层做解码处理,得到第1个解码层输出的解码向量;将每个所述图像特征向量和第j-1个解码层输出的解码向量输入至第j个解码层,得到第j个解码层输出的解码向量,其中2≤j≤n;将j自增1,判断j是否大于n,若是,则输出解码结果,若否,继续执行将每个所述图像特征向量和第j-1个解码层输出的解码向量输入至第j个解码层的操作。
可选的,所述解码模块1106,进一步被配置为将每个所述图像特征向量分别与所述样本描述信息向量做注意力计算,得到每个所述图像特征向量对应的解码子向量;根据每个所述解码子向量生成第1个解码层的解码向量。
可选的,所述解码模块1106,进一步被配置为根据每个所述解码子向量及其对应的权重生成第1个解码层输出的解码结果。
可选的,所述解码模块1106,进一步被配置为将每个所述图像特征向量分别与第j-1个解码层输出的解码向量做注意力计算,得到每个所述图像特征向量对应的解码子向量;根据每个所述解码子向量生成第j个解码层的解码向量。
可选的,所述解码模块1106,进一步被配置为根据每个所述解码子向量及其对应的权重生成第j个解码层输出的解码结果。
可选的,所述计算模块1108,进一步被配置为根据第n个解码层输出的解码向量与所述样本描述信息向量计算损失值。
本申请实施例提供的图像识别模型的训练装置,通过在图像识别模型的编码器中,提取样本图像的两个尺度的图像特征,并将这两个图像特征和样本图像对应的样本描述信息输入至解码器进行解码,在解码器的每个解码层中使每个图像特征向量分别与样本描述信息向量进行注意力计算,可以参考各个尺度下图像特征的差异,解决了transformer无法参考不同级别图像特征差异的问题,提高图像识别的准确率。
与上述图像识别方法实施例相对应,本申请还提供了图像识别装置实施例,图12示出了本申请一个实施例的图像识别装置的结构示意图。如图12所示,该装置包括:
第二获取模块1202,被配置为获取待识别图像;
输入识别模型模块1204,被配置为将所述待识别图像输入至图像识别模型,其中,所述图像识别模型根据上述权利要求1-10任意一项图像识别模型的训练方法训练获得,包括编码器和解码器;
编码器输入模块1206,被配置为将所述待识别图像输入至所述编码器,获得所述样本图像对应的至少两个图像特征向量;
解码器输入模块1208,被配置为将每个所述图像特征向量和初始参考解码向量输入至所述解码器,获得所述解码器输出的所述待识别图像对应的识别结果。
本申请实施例提供的图像识别装置,通过图像识别模型的编码器提取待识别图像的至少两个尺度的图像特征信息,并将每个尺度的图像特征信息输入至图像识别模型的解码器中,在解码器中根据多个尺度的图像特征信息进行注意力计算,参考各个尺度下图像特征的差异,解决了单一的图像特征输入到解码层中出现的忽略不同级别图像特征的差异问题,提高了图像识别的准确率。
本申请一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的图像识别模型的训练方法或图像识别方法的步骤。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述图像识别模型的训练方法或图像识别方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的图像识别模型的训练方法或图像识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述图像识别模型的训练方法或图像识别方法的技术方案的描述。
本申请实施例公开了一种芯片,其存储有计算机指令,该指令被处理器执行时实现如前所述图像识别模型的训练方法或图像识别方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (15)
1.一种图像识别模型的训练方法,其特征在于,所述图像识别模型包括编码器和解码器,所述方法包括:
获取训练数据,其中,所述训练数据包括样本图像和所述样本图像对应的样本描述信息;
将所述样本图像输入至所述编码器,获得所述样本图像对应的至少两个图像特征向量;
将每个所述图像特征向量和所述样本描述信息输入至所述解码器,获得所述解码器输出的解码结果;
根据所述解码结果与所述样本描述信息计算损失值;
根据所述损失值调整所述图像识别模型的参数以训练所述图像识别模型。
2.如权利要求1所述的图像识别模型的训练方法,其特征在于,在将所述样本图像输入至所述编码器之前,还包括:
对所述样本图像进行处理,将所述样本图像调整到预设尺寸。
3.如权利要求1所述的图像识别模型的训练方法,其特征在于,将所述样本图像输入至所述编码器,获得所述样本图像对应的至少两个图像特征向量,包括:
将所述样本图像输入至所述编码器,提取所述样本图像的至少两个二维图像特征;
根据每个所述二维图像特征确定每个所述二维图像特征对应的图像特征向量。
4.如权利要求3所述的图像识别模型的训练方法,其特征在于,在根据每个所述二维图像特征确定每个所述二维图像特征对应的图像特征向量之前,还包括:
为每个所述二维图像特征添加特征位置编码。
5.如权利要求1所述的图像识别模型的训练方法,其特征在于,所述解码器包括n个依次连接的解码层,其中,n≥1;
将每个所述图像特征向量和所述样本描述信息输入至所述解码器,获得所述解码器输出的解码结果,包括:
S51、获取所述样本描述信息对应的样本描述信息向量;
S52、将每个所述图像特征向量和所述样本描述信息向量输入至第1个所述解码层做解码处理,得到第1个解码层输出的解码向量;
S53、将每个所述图像特征向量和第j-1个解码层输出的解码向量输入至第j个解码层,得到第j个解码层输出的解码向量,其中2≤j≤n;
S54、将j自增1,判断j是否大于n,若是,则输出解码结果,若否,继续执行步骤S53。
6.如权利要求5所述的图像识别模型的训练方法,其特征在于,将每个所述图像特征向量和所述样本描述信息向量输入至第1个所述解码层做解码处理,得到第1个解码层输出的解码向量,包括:
将每个所述图像特征向量分别与所述样本描述信息向量做注意力计算,得到每个所述图像特征向量对应的解码子向量;
根据每个所述解码子向量生成第1个解码层的解码向量。
7.如权利要求6所述的图像识别模型的训练方法,其特征在于,根据每个所述解码子向量生成第1个解码层的解码向量,包括:
根据每个所述解码子向量及其对应的权重生成第1个解码层输出的解码结果。
8.如权利要求5所述的图像识别模型的训练方法,其特征在于,将每个所述图像特征向量和第j-1个解码层输出的解码向量输入至第j个解码层,得到第j个解码层输出的解码向量,包括:
将每个所述图像特征向量分别与第j-1个解码层输出的解码向量做注意力计算,得到每个所述图像特征向量对应的解码子向量;
根据每个所述解码子向量生成第j个解码层的解码向量。
9.如权利要求8所述的图像识别模型的训练方法,其特征在于,根据每个所述解码子向量生成第j个解码层的解码向量,包括:
根据每个所述解码子向量及其对应的权重生成第j个解码层输出的解码结果。
10.如权利要求5至8任意一项所述的图像识别模型的训练方法,其特征在于,根据所述解码结果与所述样本描述信息计算损失值,包括:
根据第n个解码层输出的解码向量与所述样本描述信息向量计算损失值。
11.一种图像识别方法,其特征在于,包括:
获取待识别图像;
将所述待识别图像输入至图像识别模型,其中,所述图像识别模型根据上述权利要求1-10任意一项图像识别模型的训练方法训练获得,包括编码器和解码器;
将所述待识别图像输入至所述编码器,获得所述样本图像对应的至少两个图像特征向量;
将每个所述图像特征向量和初始参考解码向量输入至所述解码器,获得所述解码器输出的所述待识别图像对应的识别结果。
12.一种图像识别模型的训练装置,其特征在于,所述图像识别模型包括编码器和解码器,所述装置包括:
第一获取模块,被配置为获取训练数据,其中,所述训练数据包括样本图像和所述样本图像对应的样本描述信息;
编码模块,被配置为将所述样本图像输入至所述编码器,获得所述样本图像对应的至少两个图像特征向量;
解码模块,被配置为将每个所述图像特征向量和所述样本描述信息输入至所述解码器,获得所述解码器输出的解码结果;
计算模块,被配置为根据所述解码结果与所述样本描述信息计算损失值;
调参模块,被配置为根据所述损失值调整所述图像识别模型的参数以训练所述图像识别模型。
13.一种图像识别装置,其特征在于,包括:
第二获取模块,被配置为获取待识别图像;
输入识别模型模块,被配置为将所述待识别图像输入至图像识别模型,其中,所述图像识别模型根据上述权利要求1-10任意一项图像识别模型的训练方法训练获得,包括编码器和解码器;
编码器输入模块,被配置为将所述待识别图像输入至所述编码器,获得所述样本图像对应的至少两个图像特征向量;
解码器输入模块,被配置为将每个所述图像特征向量和初始参考解码向量输入至所述解码器,获得所述解码器输出的所述待识别图像对应的识别结果。
14.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-10或者11任意一项所述方法的步骤。
15.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-10或者11任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010616614.8A CN113869337A (zh) | 2020-06-30 | 2020-06-30 | 图像识别模型的训练方法及装置、图像识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010616614.8A CN113869337A (zh) | 2020-06-30 | 2020-06-30 | 图像识别模型的训练方法及装置、图像识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113869337A true CN113869337A (zh) | 2021-12-31 |
Family
ID=78981557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010616614.8A Pending CN113869337A (zh) | 2020-06-30 | 2020-06-30 | 图像识别模型的训练方法及装置、图像识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113869337A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114359435A (zh) * | 2022-03-17 | 2022-04-15 | 阿里巴巴(中国)有限公司 | 图像生成方法、模型生成方法及设备 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133563A (zh) * | 2017-03-17 | 2017-09-05 | 深圳市能信安科技股份有限公司 | 一种基于公安领域的视频分析系统及方法 |
CN107256394A (zh) * | 2017-06-09 | 2017-10-17 | 北京深瞐科技有限公司 | 驾驶员信息与车辆信息核验方法、装置以及系统 |
CN108447142A (zh) * | 2018-04-24 | 2018-08-24 | 上德智能科技(武汉)有限公司 | 基于人脸识别的考勤处理方法及装置 |
CN109522792A (zh) * | 2018-10-09 | 2019-03-26 | 浙江吉利控股集团有限公司 | 一种驾驶身份验证系统和方法 |
CN110458247A (zh) * | 2019-09-06 | 2019-11-15 | 北京金山数字娱乐科技有限公司 | 图像识别模型的训练方法及装置、图像识别方法及装置 |
CN110472688A (zh) * | 2019-08-16 | 2019-11-19 | 北京金山数字娱乐科技有限公司 | 图像描述的方法及装置、图像描述模型的训练方法及装置 |
WO2020006961A1 (zh) * | 2018-07-03 | 2020-01-09 | 北京字节跳动网络技术有限公司 | 用于提取图像的方法和装置 |
CN111210382A (zh) * | 2020-01-03 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN111222347A (zh) * | 2020-04-15 | 2020-06-02 | 北京金山数字娱乐科技有限公司 | 语句翻译模型的训练方法及装置、语句翻译方法及装置 |
CN111277575A (zh) * | 2020-01-14 | 2020-06-12 | 广州交通信息化建设投资营运有限公司 | 驾驶员身份的识别方法、装置、计算机设备和存储介质 |
CN112084942A (zh) * | 2018-03-09 | 2020-12-15 | 西安艾润物联网技术服务有限责任公司 | 车辆内驾驶员身份在线监测方法、装置和存储介质 |
CN113408465A (zh) * | 2021-06-30 | 2021-09-17 | 平安国际智慧城市科技股份有限公司 | 身份识别方法、装置及相关设备 |
CN113706877A (zh) * | 2020-05-20 | 2021-11-26 | 烟台职业学院 | 车辆进出安全精确检测方法以及系统 |
-
2020
- 2020-06-30 CN CN202010616614.8A patent/CN113869337A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133563A (zh) * | 2017-03-17 | 2017-09-05 | 深圳市能信安科技股份有限公司 | 一种基于公安领域的视频分析系统及方法 |
CN107256394A (zh) * | 2017-06-09 | 2017-10-17 | 北京深瞐科技有限公司 | 驾驶员信息与车辆信息核验方法、装置以及系统 |
CN112084942A (zh) * | 2018-03-09 | 2020-12-15 | 西安艾润物联网技术服务有限责任公司 | 车辆内驾驶员身份在线监测方法、装置和存储介质 |
CN108447142A (zh) * | 2018-04-24 | 2018-08-24 | 上德智能科技(武汉)有限公司 | 基于人脸识别的考勤处理方法及装置 |
WO2020006961A1 (zh) * | 2018-07-03 | 2020-01-09 | 北京字节跳动网络技术有限公司 | 用于提取图像的方法和装置 |
CN109522792A (zh) * | 2018-10-09 | 2019-03-26 | 浙江吉利控股集团有限公司 | 一种驾驶身份验证系统和方法 |
CN110472688A (zh) * | 2019-08-16 | 2019-11-19 | 北京金山数字娱乐科技有限公司 | 图像描述的方法及装置、图像描述模型的训练方法及装置 |
CN110458247A (zh) * | 2019-09-06 | 2019-11-15 | 北京金山数字娱乐科技有限公司 | 图像识别模型的训练方法及装置、图像识别方法及装置 |
CN111210382A (zh) * | 2020-01-03 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN111277575A (zh) * | 2020-01-14 | 2020-06-12 | 广州交通信息化建设投资营运有限公司 | 驾驶员身份的识别方法、装置、计算机设备和存储介质 |
CN111222347A (zh) * | 2020-04-15 | 2020-06-02 | 北京金山数字娱乐科技有限公司 | 语句翻译模型的训练方法及装置、语句翻译方法及装置 |
CN113706877A (zh) * | 2020-05-20 | 2021-11-26 | 烟台职业学院 | 车辆进出安全精确检测方法以及系统 |
CN113408465A (zh) * | 2021-06-30 | 2021-09-17 | 平安国际智慧城市科技股份有限公司 | 身份识别方法、装置及相关设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114359435A (zh) * | 2022-03-17 | 2022-04-15 | 阿里巴巴(中国)有限公司 | 图像生成方法、模型生成方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359309B (zh) | 一种翻译方法及装置、翻译模型的训练方法及装置 | |
CN110348535B (zh) | 一种视觉问答模型训练方法及装置 | |
CN109858044B (zh) | 语言处理方法和装置、语言处理系统的训练方法和装置 | |
WO2019155064A1 (en) | Data compression using jointly trained encoder, decoder, and prior neural networks | |
CN109710953B (zh) | 一种翻译方法及装置、计算设备、存储介质和芯片 | |
CN111931518A (zh) | 一种翻译模型的训练方法及装置 | |
CN110321962B (zh) | 一种数据处理方法及装置 | |
CN110796497A (zh) | 检测异常操作行为的方法以及装置 | |
US11874866B2 (en) | Multiscale quantization for fast similarity search | |
CN112634992A (zh) | 分子性质预测方法及其模型的训练方法及相关装置、设备 | |
CN111935487B (zh) | 一种基于视频流检测的图像压缩方法及系统 | |
CN114936565A (zh) | 主旨信息提取方法及装置 | |
CN109829550B (zh) | 模型评价方法和装置、模型评价系统及其训练方法和装置 | |
CN116168394A (zh) | 图像文本识别方法和装置 | |
CN115269836A (zh) | 意图识别方法及装置 | |
CN115221315A (zh) | 文本处理方法以及装置、句向量模型训练方法以及装置 | |
CN110175338A (zh) | 一种数据处理方法及装置 | |
CN113869337A (zh) | 图像识别模型的训练方法及装置、图像识别方法及装置 | |
CN111767744A (zh) | 文本风格迁移系统的训练方法及装置 | |
CN114647717A (zh) | 一种智能问答方法及装置 | |
CN111079013B (zh) | 一种基于推荐模型的信息推荐方法及装置 | |
CN114003707A (zh) | 问题检索模型的训练方法及装置、问题检索方法及装置 | |
CN113205149A (zh) | 图片处理方法及装置 | |
CN118379219B (zh) | 模型生成方法及图像生成方法 | |
CN110188367A (zh) | 一种数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |