CN111753078A - 图像段落描述生成方法、装置、介质及电子设备 - Google Patents

图像段落描述生成方法、装置、介质及电子设备 Download PDF

Info

Publication number
CN111753078A
CN111753078A CN201910629398.8A CN201910629398A CN111753078A CN 111753078 A CN111753078 A CN 111753078A CN 201910629398 A CN201910629398 A CN 201910629398A CN 111753078 A CN111753078 A CN 111753078A
Authority
CN
China
Prior art keywords
image
paragraph
lstm
vector
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910629398.8A
Other languages
English (en)
Other versions
CN111753078B (zh
Inventor
潘滢炜
姚霆
梅涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201910629398.8A priority Critical patent/CN111753078B/zh
Priority to PCT/CN2020/078837 priority patent/WO2021008145A1/zh
Priority to US17/626,171 priority patent/US20220270359A1/en
Publication of CN111753078A publication Critical patent/CN111753078A/zh
Application granted granted Critical
Publication of CN111753078B publication Critical patent/CN111753078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Machine Translation (AREA)
  • Image Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种图像段落描述生成方法、装置、介质及电子设备。图像段落描述生成方法包括:获取图像的图像特征;根据图像特征使用卷积自动编码方法确定图像的主题;根据主题使用基于长短期记忆网络LSTM的段落编码确定所述图像的图像描述信息;其中,LSTM包括句子级LSTM及段落级LSTM。本发明提供的技术方案能够准确生成图像描述信息。

Description

图像段落描述生成方法、装置、介质及电子设备
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像段落描述生成方法、装置、介质及电子设备。
背景技术
图像处理技术领域广泛采用神经网络技术,来描述图像中的每个细节,以生成一个连贯的故事描述图像的视觉内容。对图像进行描述主要存在以下两个方面的问题:1)如何从图像中提取值得描述的主旨/主题? 2)如何在一个句子中描述每个主题,同时确保句子之间的连贯性从而形成一个段落?
相关技术中,对于图像的描述赖于RNN(Recurrent Neural Networks,递归神经网络),例如,LSTM(Long Short-Term Memory,长短期记忆网络)。具体的,把图像的区域特征通过平均融合编码为全局向量,随后将其输入LSTM以解码出主题。在这种情况下,所有图像区域之间的固有结构未被充分利用,使得难以将图像中的主题完整描述。此外,一些图像描述方法利用分层RNN通过输入区域特征生成描述图像的段落,其中分层 RNN包括句子RNN和单词RNN。具体的,句子RNN递归地生成以全局向量为条件的句子主题向量(即,区域特征的平均合并),随后采用单词 RNN将每个主题解码为输出语句。
然而,现有技术中的对图像描述的方法并没有将图像中的细节以及图像区域之间的关系充分利用,此外所生成的图像描述语句之间缺少连贯性。
需要说明的是,在上述背景技术部分发明的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明为解决上述的图形描述过程中细节描述充分及句子不够连贯的技术问题,提供一种能够准确生成图像描述信息的图像段落描述生成方法、装置、介质及电子设备。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的一个方面,提供一种图像段落描述生成方法,包括:获取图像的图像特征;根据所述图像特征使用卷积自动编码方法确定所述图像的主题;根据所述主题使用基于LSTM的段落编码方法确定所述图像的图像描述信息;其中,LSTM包括句子级LSTM及段落级LSTM。
在一个实施例中,所述图像特征包括所述图像的初始区域特征。
在一个实施例中,所述根据所述图像特征使用卷积自动编码方法确定所述图像的主题包括:通过连接所述初始区域特征构建初始区域特征向量;通过使用卷积编码方法对所述初始区域特征向量进行卷积获得主题向量;根据所述主题向量,确定所述图像的主题。
在一个实施例中,图像段落描述生成方法还包括:根据所述主题向量确定所述图像描述信息的句子的数量。
在一个实施例中,所述根据所述主题向量使用基于LSTM的段落编码方法确定所述图像的图像描述信息包括:根据所述融合图像特征使用所述段落级LSTM确定所述图像描述信息中的句子间依赖性及所述段落级 LSTM的输出向量;根据所述段落级LSTM的所述输出向量及所述主题向量,确定所述融合图像特征的注意力分布;根据所述注意力分布将所述融合图像特征进行加权处理得到被注意图像特征;将所述被注意图像特征、所述主题向量及所述段落级LSTM的所述输出向量输入所述句子级LSTM 获得所述主题的句子生成条件及描述所述主题的单词;根据所述句子生成条件及描述所述主题的所述单词确定所述图像描述信息。
在一个实施例中,图像段落描述生成方法还包括:采用自我批评方法对所述图像描述信息的覆盖范围进行评价得到所述图像的序列级奖励;确定所述图像描述信息相对于图像原始描述信息的高频对象的覆盖率;将所述覆盖率加权之后与序列级奖励相加,获得对所述图像描述信息的覆盖范围奖励。
根据本发明的另一个方面,本发明提供一种图像段落描述生成装置,包括:图像特征获取模块,用于获取图像的图像特征;主题向量确定模块,用于根据所述图像特征使用卷积自动编码方法确定所述图像的主题;描述信息确定模块,用于根据所述主题使用基于LSTM的段落编码方法确定所述图像的图像描述信息;其中,LSTM包括句子级LSTM及段落级LSTM。
根据本发明的另一个方面,本发明提供一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如上述任一实施例所述的图像段落描述生成方法。
根据本发明的另一个方面,本发明提供一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任一实施例所述的图像段落描述生成方法。
本发明实施例提供的技术方案可以包括以下有益效果:
本发明提出的图像段落描述生成方法使用卷积自动编码方法确定图像的主题,然后使用基于LSTM的段落编码方法确定图像的图像描述信息,上述技术方案能够准确生成图像描述信息。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例中的一种图像段落描述生成方法的流程示意图;
图2示出了本发明实施例中的一种图像段落描述生成方法的流程示意图;
图3示出了本发明实施例中的一种图像段落描述生成方法的执行过程示意图;
图4示出了本发明实施例中的一种图像段落描述生成装置的框图;
图5示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本公开的发明人发现:现实生活中的图像往往含有多个多样的、具有描述性意义的主题,使得这个问题很有挑战性。一个关键的问题就是如何提取图像中这些值得描述的主旨/主题,并据此生成一段含有多个主题但又整体统一的描述。受生成对抗网络的启发,一些图像描述方法通过利用用于段落生成的多级对抗性鉴别器来扩展分级RNN。因此生成描述图像的段落以产生具有句子主题之间的平滑逻辑转换的真实段落。此外,还利用相干向量、全局主题向量和变分自动编码的公式来增强分层RNN,以进一步模拟将段落与图像相关联的固有模糊性。但是,现有技术中的对图像描述的方法并没有将图像中的细节以及图像区域之间的关系充分利用,此外所生成的图像描述语句之间缺少连贯性。
图1示出了本发明实施例中的一种图像段落描述生成方法的流程示意图。图像段落描述生成方法包括步骤S101、步骤S102及步骤S103。
在步骤S101中,获取图像的图像特征。其中,图像特征包括图像的初始区域特征。
在一个实施例中,使用快速R-CNN(Recurrent-Convolutional Neural Network)方法捕捉图像的图像特征。
在一些实施例中,还可使用RNN方法获取图像的图像特征,本公开不以此为限。
在步骤S102中,根据图像特征使用卷积自动编码方法确定图像的主题。
在一个实施例中,使用卷积自动编码方法(CAE)对初始区域特征进行卷积来抽象出主题。此外,通过从主题到初始区域特征的高质量重建进行解卷积解码。因此,所获得的主题可能更具代表性,并包含所需的信息。
在步骤S103中,根据主题使用基于LSTM的段落编码方法确定所述图像的图像描述信息。其中,LSTM包括句子级LSTM及段落级LSTM。
在一个实施例中,段落级LSTM对段落中的所有句子进行整体依赖性建模,并且句子级LSTM在每个主题上确定句子生成条件及其中的单词。
上述实施例中的图像段落描述生成方法,通过基于LSTM的段落编码方法将用于段落生成的主旨/主题解码,利用卷积和反卷积自动编码对初始区域特征上的主旨/主题建模。这种设计不仅通过利用所有区域之间的固有结构来抽象出主题,而且还通过重建来进行解卷积解码以实现更具代表性和信息量的主题。使用基于LSTM的段落编码方法确定图像的图像描述信息。上述图像段落描述生成方法可产生连贯的段落来准确描绘图像。
图2示出了本发明实施例中的一种图像段落描述生成方法的流程示意图。
在该实施例中,一个被段落P描述的图像I,其中,
Figure RE-GDA0002234899980000061
由句子 K组成。每一个句子
Figure RE-GDA0002234899980000062
由词Tk组成,每一个词w(k,t)代表DS-维的文本特征w(k,t)。利用快速R-CNN(Recurrent-Convolutional Netural Network) 法在图像M的区域I中产生一组检测到的对象
Figure RE-GDA0002234899980000063
表示每一个图像区域rm的D0-维特征。
在步骤S201中,获取图像的图像特征。其中,图像特征包括图像的初始区域特征。
在步骤S202中,连接图像特征中的初始区域特征构建初始区域特征向量。
在一个实施例中,每个区域
Figure RE-GDA0002234899980000064
首先通过线性层嵌入到D1-维初始区域特征中。因此,通过连接所有初始区域特征(即,vm是初始区域特征向量 V的第m-列)来构造初始区域特征向量
Figure RE-GDA0002234899980000065
将其设置为卷积编码的输入。这里,M,D1和1分别表示初始区域特征向量V的宽度,高度和通道数。
在步骤S203中,使用卷积编码方法对初始区域特征向量进行卷积获得主题向量。
在一个实施例中,给出一组检测到的区域
Figure RE-GDA0002234899980000066
使用卷积编码方法将所有图像区域封装成K个主题向量,上述方法仅应用于卷积过程中。具体地,利用一个卷积层(conv)将初始区域特征向量V编码到由主题向量组成的主题特征映射VS中:
Figure RE-GDA0002234899980000067
其中,σ(·)是非线性激活函数。对于卷积层conv,卷积滤波器的大小设置为M×C1,步幅大小为C2,滤波器编号为K。这里,主题特征映射VS内沿信道维度的每个向量可以被视为第k-个提炼的主题向量
Figure RE-GDA0002234899980000068
在步骤S204中,通过使用解卷积解码方法将主题向量进行重建,以得到重建区域特征向量。
在一个实施例中,执行解卷积层(deconv)(即,卷积共轭操作)以将主题特征映射VS中的主题向量解码获得重建区域特征向量。特别地,给定主题特征映射VS,采用解卷积来再现重建区域特征向量
Figure RE-GDA0002234899980000069
Figure RE-GDA00022348999800000610
解卷积层deconv中的滤波器大小和步幅大小设置为与卷积层conv相同。这里,重建区域特征向量
Figure RE-GDA0002234899980000071
的第m列对应于第m个图像区域的重建区域特征。
在步骤S205中,计算初始区域特征向量与重建区域特征向量之间的距离确定主题的重建损失。
在一个实施例中,将全局重建损失定义为初始区域特征向量V和重建区域特征
Figure RE-GDA0002234899980000072
图之间的距离L1
Figure RE-GDA0002234899980000073
通过最小化重建损失,强制执行提炼的主题向量以通过实现更高的重建质量来捕获来自所有区域的整体和代表性信息。
在步骤S206中,根据主题向量确定所述图像的主题。
在一个实施例中,还可以利用主题向量来确定生成的句子的数量。具体而言,每个主题向量另外注入线性层以获得两个状态 {CONTINUE=0,STOP=1}的分布,以确定该句子是否是段落中的最后一句。
在步骤S207中,将初始区域特征进行平均融合得到融合图像特征。
在一个实施例中,将初始区域特征通过平均池进行平均融合,融合图像特征为
Figure RE-GDA0002234899980000074
在步骤S208中,使用段落级LSTM确定所述图像描述信息种的句子间依赖性及段落级LSTM的输出向量。
在一个实施例中,定义:用于生成段落中的第k-个句子的每个时间步骤t,段落级LSTM的输入向量
Figure RE-GDA0002234899980000075
平均合并图像特征
Figure RE-GDA0002234899980000076
以及先前生成的字w(k,t-1)的嵌入:
Figure RE-GDA0002234899980000077
其中,WS是输入字的变换矩阵。该输入收集段落级LSTM的最大上下文信息,以模拟句子间依赖性。段落级别LSTM的输出向量为
Figure RE-GDA0002234899980000078
在步骤S209中,根据段落级LSTM的输出向量及主题向量确定融合图像特征的注意力分布。
在一个实施例中,给定段落级LSTM的输出向量
Figure RE-GDA0002234899980000079
和相应的主题向量
Figure RE-GDA00022348999800000710
测量所有融合图像特征的归一化注意力分布:
Figure RE-GDA00022348999800000711
α(k,t)=soft max(a(k,t)) (5)
其中,
Figure RE-GDA0002234899980000081
是a(k,t)的第k个元素,
Figure RE-GDA0002234899980000082
Figure RE-GDA0002234899980000083
分别是转换矩阵。注意力分布α(k,t)的第k个元素
Figure RE-GDA0002234899980000084
表示vm的被注意的概率。
在步骤S210中,将融合图像特征进行加权处理得到被注意图像特征。
在一个实施例中,通过聚合由注意力加权的所有融合图像特征来计算被注意图像特征
Figure RE-GDA0002234899980000085
在步骤S211中,将被注意图像特征、主题向量及段落级LSTM的输出向量输入句子级LSTM获得主题的句子生成条件及描述主题的单词。
在一个实施例中,被注意图像特征
Figure RE-GDA0002234899980000086
与相应的主题向量
Figure RE-GDA0002234899980000087
和段落级 LSTM的输出向量
Figure RE-GDA0002234899980000088
的连接作为面向主题的句子生成的句子级LSTM的输入
Figure RE-GDA00022348999800000813
Figure RE-GDA00022348999800000810
句子级LSTM的输出向量
Figure RE-GDA00022348999800000811
用以预测下一个单词w(k,t)
在步骤S212中,根据句子生成条件及描述主题的单词确定所述图像描述信息。其中,一个时间步t对应一个单词。
在步骤S213中,采用自我批评方法对图像描述信息的覆盖范围进行评价得到图像的序列级(CIDEr)奖励。
在步骤S214中,确定图像描述信息相对于图像原始描述信息的高频对象的覆盖率。
在一个实施例中,覆盖范围奖励定义为生成的图像描述段落相对于图像原始描述段落的高频对象的覆盖率:
Figure RE-GDA00022348999800000812
其中,|·|表示集合中元素的数量。这里,Qgt和Qg分别代表生成的图像描述段落相对于图像原始描述段落中分别提到的集合中的高频对象。
在步骤S215中,将覆盖率加权之后与序列级奖励相加获得对图像描述信息的覆盖范围奖励。以鼓励对该段中的对象进行全局覆盖,以进行自我批评性培训。
在一个实施例中,自我批评方法的覆盖范围奖励为序列级奖励(Rd) 和覆盖面奖励的组合:R=βRc+Rd,其中β是加权参数。
上述实施例中的图像段落描述生成方法,通过基于LSTM的段落编码方法递归地解码用于段落生成的主旨/主题,利用卷积和反卷积自动编码对初始区域特征上的主旨/主题建模。这种设计不仅通过利用所有区域之间的固有结构来抽象出主题,而且还通过重建来进行解卷积解码以实现更具代表性和信息量的主题。此外,在自我批评培训策略中采用了覆盖范围奖励,以鼓励对该段落中的对象进行全局覆盖。使用基于LSTM的段落编码方法确定图像的图像描述信息,通过段落级LSTM和句子级LSTM生成主题导向的句子,在段落中实现句子间依赖性建模。通过序列级奖及覆盖范围奖励来鼓励段落中高频对象的最大覆盖范围。上述图像段落描述生成方法,可产生连贯的段落来准确描绘图像。
图3示出了本发明实施例中的一种图像段落描述生成方法的执行过程示意图。
如图3所示,快速R-CNN 302检测到图像301的图像特征303,图像特征303中的初始区域特征304首先被进行卷积305处理,用于触发图像中主题的建模。利用卷积编码方法从初始区域特征304中提炼知识并提取主题向量306。接下来,使用解卷积307编码方法以将主题向量再现,获得重建区域特征308。进而可以根据重建区域特征308及初始区域特征304确定主题的重建损失。上述处理可确保提炼的主题能够捕获所有图像区域值得描述的整体和代表性信息。之后,我们通过平均融合309方法将所有初始区域级特征304作为图像特征,将其作为段落级LSTM 310的输入。这里,通常使用递归方法来探索段落中的句子间依赖性。根据段落级LSTM 310的输出向量及主题向量K 312确定被注意图像特征313。将被注意图像特征313、主题向量K 312及段落级LSTM 310的输出向量输入句子级 LSTM 314,句子级别LSTM 314在每个学习的主题上生成句子条件及描述主题的单词,从而获取描述主题的句子K 315。依照同样的方法,根据主题K+1 316获得句子K+1 317,最终获得每个主题的对应的句子,将其整合之后得到图像描述信息318。此外,通过序列级奖及覆盖范围奖励来鼓励段落中高频对象的最大覆盖范围。上述图像段落描述生成方法,可产生连贯的段落来准确描绘图像。
在一个实施例中将本发明提出的图像段落描述生成方法在斯坦福图像段落数据集上应用,已验证该图像段落描述生成方法的效果。数据集包含19,551个图像,每个图像有一个带人工注释的段落。平均每个段落有 67.5个单词,每个句子由11.91个单词组成。将14,575个图像用于训练, 2,487个图像用于验证,2,489个图像用于测试。将本发明提出的图像段落描述生成方法CAE-LSTM)与其他方法在斯坦福图像段落数据集上进行性能比较。其他方法这里选用:Image-Flat方法、Regions-Hierachical方法、 RTT-GAN方法、CapG-RevG方法及LSTM-ATT方法。Image-Flat方法是一个标准的图像字幕模型,它通过单个LSTM直接将图像解码为一个段落。 Regions-Hierachical方法采用分层LSTM来逐句生成段落。RTT-GAN方法将结合对抗性训练策略将句子注意力和单词注意力集成到层次化LSTM 中。CapG-RevG方法利用相干向量/全局主题向量生成连贯的段落,并通过变量自动编码器公式保持段落的多样性。LSTM-ATT方法通过LSTM(而不是CAE)对主题进行建模,并采用相同的两级LSTM架构通过注意力段落生成,无需自我批评的训练策略即可进行训练。采用三种常用的评价指标:METEOR、CIDEr和BLEU-4。
对于每个图像,我应用快速R-CNN来检测该图像内的对象,并选择具有最高检测置信度的顶部M=50个区域来表示图像。每个区域表示为来自快速R-CNN的conv5-3特征图的RoI汇集后的fc7层的4,096维输出。快速R-CNN是在Visual Genome上进行的预训练。为了构建词汇表,训练集中的所有单词都被转换为小写,并且省略了出现次数少于4次的单词。每个单词表示为“one-hot”向量(词汇表中的二进制索引向量)。最大句子数量K是6,句子中的最大单词数量是20(必要时填充)。对于我们的卷积编码方法,卷积层中的卷积滤波器大小设置为C1=26,步幅大小C2=2. 输入的初始区域特征和提炼的主题向量的维数设置为C1=1,024和C2= 500。对于段落级和句子级LSTM网络,每个LSTM中隐藏状态的维数为 H=1,000.用于测量注意力分布的隐藏层的尺寸是C3=512。
使用两个短语句训练方法来训练我们的图像段落描述生成方法。对于第一个短语句,我们将学习率设置为1X10-4,因此通过结合利用卷积编码方法中的重建损失和段落级和句子级LSTM段生成器中的交叉熵损失来执行本公开的图像段落描述生成方法的训练。在这里,我们在验证集的每个时期评价模型,并选择具有最佳CIDEr分数的模型作为下一个训练短语句的初始化。对于训练的第二个短语句,学习率设置为5X10-6并且图像段落描述生成方法通过CIDEr奖励和覆盖范围奖励的组合进一步优化。在推理过程中,我们采用中的推理约束来处理三元组重复。根据验证性能将加权参数设置β为8。根据每个图像区域的客观得分确定区域顺序。我们还通过对边界框的置信度得分排序所有区域,或者简单地使用固定的随机顺序来研究区域顺序。当我们在图像段落描述生成方法中使用不同的区域顺序进行连接时,CIDEr得分在0.008内不断波动。结果表明,本发明提出的图像段落描述生成方法的性能对区域顺序的选择不敏感。
方法 CIDEr METEOR BLEU-4
Image-Flat 11.06 12.82 7.71
Regions-Hierachical 13.52 15.59 8.69
RTT-GAN 20.36 18.39 9.21
CapG-RevG 20.93 18.62 9.43
LSTM-ATT 20.17 17.72 8.72
CAE-LSTM 25.25 18.82 9.67
表1
上述表1示出本发明实施例的图像段落描述生成方法(CAE-LSTM)与其他方法在斯坦福图像段落数据集上的性能比较。
参考表1中的结果,本发明中提出的图像段落描述生成方法对于图像的描述具有更好的性能。具体的,我们的CAE-LSTM的CIDEr、METEOR 及BLEU-4得分分别达到25.15%、18.82%及9.67%。综合上述三个方面的得分,本发明中提出的图像段落描述生成方法优于表1中的其他方法。
从表1中所有方法输出的结果来看,本发明中提出的图像段落描述生成方法生成的段落更加准确连贯并多样化地描述了图像中的主题。
邀请了六名评价人员,从人工评价测试图像集中随机选择1000张图像。向所有评价者展示一个由不同方法或人工注释生成的段落,问他们:您能确定给定的段落是由系统生成的还是由人生成的?根据评价者的回答,得到:人,CAE-LSTM和LSTM-ATT的测试结果分别为88.5%,39.8%和14.7%,所以,本发明中提出的图像段落描述生成方法对于图像的描述具有更好的性能。
图4示出了本发明实施例中的一种图像段落描述生成装置的框图。
参照图4所示,图像段落描述生成装置700,包括图像获取模块401、图像主题确定模块402及描述信息确定模块403。
图像获取模块401用于获取图像的图像特征。其中,图像特征包括图像的初始区域特征。
图像主题确定模块402用于根据图像特征使用卷积自动编码方法确定图像的主题。
在一个实施例中,通过对初始区域特征进行卷积来抽象出主题。此外,通过从主题到初始区域特征的高质量重建进行解卷积解码。因此,所获得的主题可能更具代表性,并包含所需的信息。
描述信息确定模块403用于根据主题使用基于LSTM的段落编码方法确定所述图像的图像描述信息。其中,LSTM包括句子级LSTM及段落级LSTM。
在一个实施例中,段落级LSTM对段落中的所有句子进行整体依赖性建模,并且句子级LSTM在每个主题上确定句子生成条件及其中的单词。
上述实施例中的图像段落描述生成装置,通过基于LSTM的段落编码方法递归地解码用于段落生成的主旨/主题,利用卷积和反卷积自动编码对初始区域级特征上的主旨/主题建模。这种设计不仅通过利用所有区域之间的固有结构来抽象出主题,而且还通过重建来进行解卷积解码以实现更具代表性和信息量的主题。使用基于LSTM的段落编码方法确定图像的图像描述信息。上述图像段落描述生成装置可产生连贯的段落来准确描绘图像。
由于本发明的示例实施例的图像段落描述生成装置的各个功能模块与上述图像段落描述生成方法的示例实施例的步骤对应,因此对于本发明装置实施例中未披露的细节,请参照本发明上述的图像段落描述生成方法的实施例。
下面参考图5,其示出了适于用来实现本发明实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备的计算机系统500仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统操作所需的各种程序和数据。CPU501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O) 接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的图像段落描述生成方法。
例如,所述的电子设备可以实现如图1中所示的:在步骤S101中,获取图像的图像特征。在步骤S102中,根据图像特征使用卷积自动编码方法确定图像的主题。在步骤S103中,根据主题使用基于LSTM的段落编码方法确定所述图像的图像描述信息。其中,LSTM包括句子级LSTM 及段落级LSTM。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等) 执行根据本发明实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (11)

1.一种图像段落描述生成方法,其特征在于,包括:
获取图像的图像特征;
根据所述图像特征使用卷积自动编码方法确定所述图像的主题;
根据所述主题使用基于长短期记忆网络LSTM的段落编码方法确定所述图像的图像描述信息;其中,LSTM包括句子级LSTM及段落级LSTM。
2.根据权利要求1所述的图像段落描述生成方法,其特征在于,所述图像特征包括所述图像的初始区域特征。
3.根据权利要求2所述的图像段落描述生成方法,其特征在于,所述根据所述图像特征使用卷积自动编码方法确定所述图像的主题包括:
通过连接所述初始区域特征构建初始区域特征向量;
通过使用卷积编码方法对所述初始区域特征向量进行卷积获得主题向量;
根据所述主题向量,确定所述图像的主题。
4.根据权利要求3所述的图像段落描述生成方法,其特征在于,还包括:
通过使用解卷积解码方法将所述主题向量进行重建,以得到重建区域特征向量;
计算所述初始区域特征向量与所述重建区域特征向量之间的距离确定所述主题的重建损失。
5.根据权利要求3所述的图像段落描述生成方法,其特征在于,还包括:
根据所述主题向量确定所述图像描述信息的句子的数量。
6.根据权利要求3所述的图像段落描述生成方法,其特征在于,还包括:
将所述初始区域特征进行平均融合得到融合图像特征。
7.根据权利要求6所述的图像段落描述生成方法,其特征在于,所述根据所述主题向量使用基于LSTM的段落编码方法确定所述图像的图像描述信息包括:
根据所述融合图像特征使用所述段落级LSTM确定所述图像描述信息中的句子间依赖性及所述段落级LSTM的输出向量;
根据所述段落级LSTM的所述输出向量及所述主题向量,确定所述融合图像特征的注意力分布;
根据所述注意力分布将所述融合图像特征进行加权处理得到被注意图像特征;
将所述被注意图像特征、所述主题向量及所述段落级LSTM的所述输出向量输入所述句子级LSTM获得所述主题的句子生成条件及描述所述主题的单词;
根据所述句子生成条件及描述所述主题的所述单词确定所述图像描述信息。
8.根据权利要求1所述的图像段落描述生成方法,其特征在于,还包括:
采用自我批评方法对所述图像描述信息的覆盖范围进行评价得到所述图像的序列级奖励;
确定所述图像描述信息相对于图像原始描述信息的高频对象的覆盖率;
将所述覆盖率加权之后与所述序列级奖励相加,获得对所述图像描述信息的覆盖范围奖励。
9.一种图像段落描述生成装置,包括:
图像特征获取模块,用于获取图像的图像特征;
主题向量确定模块,用于根据所述图像特征使用卷积自动编码方法确定所述图像的主题;
描述信息确定模块,用于根据所述主题使用基于长短期记忆网络LSTM的段落编码方法确定所述图像的图像描述信息;其中,LSTM包括句子级LSTM及段落级LSTM。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至8中任一项所述的图像段落描述生成方法。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至8中任一项所述的图像段落描述生成方法。
CN201910629398.8A 2019-07-12 2019-07-12 图像段落描述生成方法、装置、介质及电子设备 Active CN111753078B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910629398.8A CN111753078B (zh) 2019-07-12 2019-07-12 图像段落描述生成方法、装置、介质及电子设备
PCT/CN2020/078837 WO2021008145A1 (zh) 2019-07-12 2020-03-11 图像段落描述生成方法、装置、介质及电子设备
US17/626,171 US20220270359A1 (en) 2019-07-12 2020-03-11 Image paragraph description generating method and apparatus, medium and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910629398.8A CN111753078B (zh) 2019-07-12 2019-07-12 图像段落描述生成方法、装置、介质及电子设备

Publications (2)

Publication Number Publication Date
CN111753078A true CN111753078A (zh) 2020-10-09
CN111753078B CN111753078B (zh) 2024-02-02

Family

ID=72672736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910629398.8A Active CN111753078B (zh) 2019-07-12 2019-07-12 图像段落描述生成方法、装置、介质及电子设备

Country Status (3)

Country Link
US (1) US20220270359A1 (zh)
CN (1) CN111753078B (zh)
WO (1) WO2021008145A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628288A (zh) * 2021-07-06 2021-11-09 上海电力大学 一种基于编-解码器结构的可控图像字幕生成优化方法
WO2023178801A1 (zh) * 2022-03-22 2023-09-28 平安科技(深圳)有限公司 图像描述方法和装置、计算机设备、存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591874B (zh) * 2021-06-01 2024-04-26 清华大学 长时记忆增强的段落级别图像描述生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180337994A1 (en) * 2017-05-17 2018-11-22 Google Llc Automatic image sharing with designated users over a communication network
US20190066663A1 (en) * 2017-08-23 2019-02-28 Sap Se Thematic segmentation of long content using deep learning and contextual cues
CN109697239A (zh) * 2018-11-23 2019-04-30 连尚(新昌)网络科技有限公司 用于生成图文信息的方法和用于生成图像数据库的方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170011063A1 (en) * 2015-07-06 2017-01-12 Google Inc. Systems and Methods to Facilitate Submission of User Images Descriptive of Locations
CN106650756B (zh) * 2016-12-28 2019-12-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN106846306A (zh) * 2017-01-13 2017-06-13 重庆邮电大学 一种超声图像自动描述方法和系统
CN107391609B (zh) * 2017-07-01 2020-07-31 南京理工大学 一种双向多模态递归网络的图像描述方法
CN108416065B (zh) * 2018-03-28 2021-08-31 复旦大学 基于层级神经网络的图像-句子描述生成系统及方法
CN108898639A (zh) * 2018-05-30 2018-11-27 湖北工业大学 一种图像描述方法及系统
US20200027556A1 (en) * 2018-07-17 2020-01-23 Petuum Inc. Systems and Methods for Medical Topic Discovery Based on Large-Scale Machine Learning
GB2577890B (en) * 2018-10-08 2021-03-10 Advanced Risc Mach Ltd Data processing with swizzle operation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180337994A1 (en) * 2017-05-17 2018-11-22 Google Llc Automatic image sharing with designated users over a communication network
US20190066663A1 (en) * 2017-08-23 2019-02-28 Sap Se Thematic segmentation of long content using deep learning and contextual cues
CN109697239A (zh) * 2018-11-23 2019-04-30 连尚(新昌)网络科技有限公司 用于生成图文信息的方法和用于生成图像数据库的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卢玲;杨武;王远伦;雷子鉴;李莹;: "结合注意力机制的长文本分类方法", 计算机应用, no. 05 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628288A (zh) * 2021-07-06 2021-11-09 上海电力大学 一种基于编-解码器结构的可控图像字幕生成优化方法
CN113628288B (zh) * 2021-07-06 2024-05-31 上海电力大学 一种基于编-解码器结构的可控图像字幕生成优化方法
WO2023178801A1 (zh) * 2022-03-22 2023-09-28 平安科技(深圳)有限公司 图像描述方法和装置、计算机设备、存储介质

Also Published As

Publication number Publication date
WO2021008145A1 (zh) 2021-01-21
CN111753078B (zh) 2024-02-02
US20220270359A1 (en) 2022-08-25

Similar Documents

Publication Publication Date Title
CN111339255B (zh) 目标情感分析的方法、模型训练方法、介质和设备
US20200104640A1 (en) Committed information rate variational autoencoders
CN109344404B (zh) 情境感知的双重注意力自然语言推理方法
CN109478204A (zh) 非结构化文本的机器理解
WO2021008145A1 (zh) 图像段落描述生成方法、装置、介质及电子设备
CN110427629A (zh) 半监督文本简化模型训练方法和系统
CN110781413A (zh) 兴趣点确定方法及装置、存储介质、电子设备
CN111611805A (zh) 一种基于图像的辅助写作方法、装置、介质及设备
CN111291221B (zh) 对数据源生成语义描述的方法、设备和电子设备
CN110472239B (zh) 实体链接模型的训练方法、装置及电子设备
CN113704393A (zh) 关键词提取方法、装置、设备及介质
Kłusek et al. Efficient model of tumor dynamics simulated in multi-GPU environment
CN112949628B (zh) 一种基于嵌入-混合的轨迹数据增强及轨迹识别方法
Huber et al. Benchmarking perturbation-based saliency maps for explaining Atari agents
Jhan et al. CheerBots: Chatbots toward empathy and emotionusing reinforcement learning
CN111723186A (zh) 用于对话系统的基于人工智能的知识图谱生成方法、电子设备
Pourkeshavarz et al. Stacked cross-modal feature consolidation attention networks for image captioning
Jacksonn et al. Bayesian inference with overlapping data: methodology for reliability estimation of multi-state on-demand systems
Zhipeng et al. Interpretable models for the potentially harmful content in video games based on game rating predictions
CN115050371A (zh) 语音识别方法、装置、计算机设备和存储介质
CN114707518A (zh) 面向语义片段的目标情感分析方法、装置、设备及介质
CN111563392A (zh) 模型参数的重要程度评估方法、装置及电子设备
CN116309274B (zh) 图像中小目标检测方法、装置、计算机设备及存储介质
Wang Medical image segmentation method based on multi‐scale feature and U‐net network
CN114492661B (zh) 文本数据分类方法和装置、计算机设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant