CN110147538A - 图片集描述生成方法、装置和计算机设备 - Google Patents
图片集描述生成方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN110147538A CN110147538A CN201810732095.4A CN201810732095A CN110147538A CN 110147538 A CN110147538 A CN 110147538A CN 201810732095 A CN201810732095 A CN 201810732095A CN 110147538 A CN110147538 A CN 110147538A
- Authority
- CN
- China
- Prior art keywords
- pictures
- picture
- feature
- scene
- characteristic sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 230000015654 memory Effects 0.000 claims description 26
- 238000003860 storage Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 230000002457 bidirectional effect Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Abstract
本申请提供一种图片集描述生成方法、装置和计算机设备,其中方法包括:获取待处理的图片集;对图片集中的每张图片进行图片特征提取,获取图片集对应的图片特征序列;对图片特征序列中各个场景对应的图片特征子序列进行场景特征提取,获取图片集对应的场景特征序列;根据图片集对应的图片特征序列和场景特征序列,生成图片集的描述信息,从而结合参考图片特征和场景特征,来生成图片集对应的描述信息,使得生成的描述信息的准确度较高,且描述信息中包括场景信息,根据描述信息能够有效的对图片集进行理解和分析,提高了用户对图片集的使用体验。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图片集描述生成方法、装置和计算机设备。
背景技术
目前的图片集描述生成方法,主要是先采用编码器提取图片集中每一张图片的图片特征,然后通过平均特征、注意力机制等方法对每一张图片的图片特征进行处理,获取图片集的图片集特征,最后将图片集特征输入神经网络模型,获取图片集对应的自然语句段落描述。然而,上述方案中,只考虑了图片集中图片的图片特征,而未考虑其他特征,例如场景特征等,导致生成的自然语句段落描述不够准确,从而根据自然语句段落描述难以有效的对图片集进行理解和分析,降低了用户对图片集的使用体验。
发明内容
为克服相关技术中存在的问题,本申请提供一种图片集描述生成方法、装置和计算机设备。
为达到上述目的,本申请的实施例采用如下技术方案:
第一方面,本申请实施例提供一种图片集描述生成方法,包括:
获取待处理的图片集;
对所述图片集中的每张图片进行图片特征提取,获取所述图片集对应的图片特征序列;
对所述图片特征序列中各个场景对应的图片特征子序列进行场景特征提取,获取所述图片集对应的场景特征序列;
根据所述图片集对应的图片特征序列和场景特征序列,生成所述图片集的描述信息。
其中在一种具体的实施方式中,所述根据所述图片集对应的图片特征序列和场景特征序列,生成所述图片集的描述信息,包括:
对所述图片集对应的图片特征序列和场景特征序列进行融合,得到所述图片集对应的图片集特征序列;
针对所述图片集特征序列中的每个图片集特征,将所述图片集特征输入解码器,获取所述图片集特征对应的描述语句;
将各个图片集特征对应的描述语句进行组合,得到所述图片集的描述信息。
其中在另一种具体的实施方式中,所述解码器的输入为所述图片集特征、所述解码器前一时刻输出的字符以及前一时刻的隐藏状态;
所述将所述图片集特征输入解码器,获取所述图片集特征对应的描述语句之前,还包括:
获取所述图片集特征的上一个图片集特征对应的描述语句;
将所述上一个图片集特征对应的描述语句输入语句编辑器,获取关系特征;
将所述解码器中的前一时刻的隐藏状态,替换为所述关系特征。
其中在另一种具体的实施方式中,所述对所述图片集中的每张图片进行图片特征提取,获取所述图片集对应的图片特征序列,包括:
针对所述图片集中的每张图片,提取所述图片对应的特征向量;
将所述图片集中各张图片对应的特征向量,输入图片特征模型中,获取各张图片对应的图片特征;
根据各张图片对应的图片特征,确定所述图片集对应的图片特征序列。
其中在另一种具体的实施方式中,所述对所述图片特征序列中各个场景对应的图片特征子序列进行场景特征提取,获取所述图片集对应的场景特征序列之前,还包括:
对所述图片特征序列中的任意两个相邻的图片特征进行比对,判断相邻的图片特征是否属于相同的场景;
将属于相同场景的单个图片特征或者连续多个图片特征,确定为所述场景对应的图片特征子序列。
其中在另一种具体的实施方式中,所述对所述图片特征序列中的任意两个相邻的图片特征进行比对,判断相邻的图片特征是否属于相同的场景,包括:
将所述相邻的图片特征中排序在前的第一图片特征的状态,和排序在后的第二图片特征,输入场景边界探测器,获取所述场景边界探测器输出的标志位;所述第一图片特征的状态,为将第一图片特征输入场景特征模型后得到的;
根据所述标志位,确定相邻的图片特征是否属于相同的场景。
其中在另一种具体的实施方式中,所述对所述图片特征序列中各个场景对应的图片特征子序列进行场景特征提取,获取所述图片集对应的场景特征序列,包括:
针对各个场景,将所述图片特征子序列中的图片特征依次输入场景特征模型,获取所述图片特征子序列中最后一个图片特征的状态;所述场景特征模型的输入为图片特征,以及所述图片特征的之前图片特征的状态;所述场景特征模型的输出为所述图片特征的状态;
将所述最后一个图片特征的状态,确定为所述场景对应的场景特征。
本申请实施例提供的技术方案可以包括以下有益效果:通过获取待处理的图片集;对图片集中的每张图片进行图片特征提取,获取图片集对应的图片特征序列;对图片特征序列中各个场景对应的图片特征子序列进行场景特征提取,获取图片集对应的场景特征序列;根据图片集对应的图片特征序列和场景特征序列,生成图片集的描述信息,从而结合参考图片特征和场景特征,来生成图片集对应的描述信息,使得生成的描述信息的准确度较高,且描述信息中包括场景信息,根据描述信息能够有效的对图片集进行理解和分析,提高了用户对图片集的使用体验。
第二方面,本申请实施例提供一种图片集描述生成装置,包括:
获取模块,用于获取待处理的图片集;
图片编码模块,用于对所述图片集中的每张图片进行图片特征提取,获取所述图片集对应的图片特征序列;
场景提取模块,用于对所述图片特征序列中各个场景对应的图片特征子序列进行场景特征提取,获取所述图片集对应的场景特征序列;
生成模块,用于根据所述图片集对应的图片特征序列和场景特征序列,生成所述图片集的描述信息。
其中在一种具体的实施方式中,所述生成模块包括:
注意力单元,用于对所述图片集对应的图片特征序列和场景特征序列进行融合,得到所述图片集对应的图片集特征序列;
解码单元,用于针对所述图片集特征序列中的每个图片集特征,将所述图片集特征输入解码器,获取所述图片集特征对应的描述语句;
组合单元,用于将各个图片集特征对应的描述语句进行组合,得到所述图片集的描述信息。
其中在另一种具体的实施方式中,所述解码器的输入为所述图片集特征、所述解码器前一时刻输出的字符以及前一时刻的隐藏状态;
所述生成模块,还包括:
获取单元,用于获取所述图片集特征的上一个图片集特征对应的描述语句;
语句编辑单元,用于将所述上一个图片集特征对应的描述语句输入语句编辑器,获取关系特征;
替换单元,用于将所述解码器中的前一时刻的隐藏状态,替换为所述关系特征。
其中在另一种具体的实施方式中,所述图片编码模块具体用于,
针对所述图片集中的每张图片,提取所述图片对应的特征向量;
将所述图片集中各张图片对应的特征向量,输入图片特征模型中,获取各张图片对应的图片特征;
根据各张图片对应的图片特征,确定所述图片集对应的图片特征序列。
其中在另一种具体的实施方式中,所述的装置还包括:
比对模块,用于对所述图片特征序列中的任意两个相邻的图片特征进行比对,判断相邻的图片特征是否属于相同的场景;
确定模块,用于将属于相同场景的单个图片特征或者连续多个图片特征,确定为所述场景对应的图片特征子序列。
其中在另一种具体的实施方式中,所述比对模块具体用于,
将所述相邻的图片特征中排序在前的第一图片特征的状态,和排序在后的第二图片特征,输入场景边界探测器,获取所述场景边界探测器输出的标志位;所述第一图片特征的状态,为将第一图片特征输入场景特征模型后得到的;
根据所述标志位,确定相邻的图片特征是否属于相同的场景。
其中在另一种具体的实施方式中,所述场景提取模块具体用于,
针对各个场景,将所述图片特征子序列中的图片特征依次输入场景特征模型,获取所述图片特征子序列中最后一个图片特征的状态;所述场景特征模型的输入为图片特征,以及所述图片特征的之前图片特征的状态;所述场景特征模型的输出为所述图片特征的状态;
将所述最后一个图片特征的状态,确定为所述场景对应的场景特征。
本申请实施例提供的技术方案可以包括以下有益效果:通过获取待处理的图片集;对图片集中的每张图片进行图片特征提取,获取图片集对应的图片特征序列;对图片特征序列中各个场景对应的图片特征子序列进行场景特征提取,获取图片集对应的场景特征序列;根据图片集对应的图片特征序列和场景特征序列,生成图片集的描述信息,从而结合参考图片特征和场景特征,来生成图片集对应的描述信息,使得生成的描述信息的准确度较高,且描述信息中包括场景信息,根据描述信息能够有效的对图片集进行理解和分析,提高了用户对图片集的使用体验。
第三方面,本申请实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上所述的方法。
第四方面,本申请实施例提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请图片集描述生成方法一个实施例的流程图;
图2为获取图片集对应的图片特征序列的示意图;
图3为获取图片集对应的场景特征序列的示意图;
图4为获取图片集特征对应的描述语句的示意图;
图5为本申请图片集描述生成方法另一个实施例的流程图;
图6为获取关系特征的示意图;
图7为根据待处理的图片集,获取图片集描述信息的整体示意图;
图8为在图片集中所有图片的下方显示中文描述信息的示意图;
图9为在图片集中所有图片的下方显示英文描述信息的示意图;
图10为本申请图片集描述生成装置一个实施例的结构示意图;
图11为本申请图片集描述生成装置另一个实施例的结构示意图;
图12为本申请图片集描述生成装置另一个实施例的结构示意图;
图13为本申请图片集描述生成装置另一个实施例的结构示意图;
图14为本申请计算机设备一个实施例的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
图1为本申请图片集描述生成方法一个实施例的流程图,本实施例中的图片集描述生成方法可以由图片集描述生成装置实现,图片集描述生成装置具体可以为硬件设备或者硬件设备中安装的软件。硬件设备例如,移动终端、云平台等。如图1所示,上述图片集描述生成方法可以包括以下步骤:
S101、获取待处理的图片集。
本实施例中,待处理的图片集中可以包括:按照时序排列的多张图片。图片的获取来源可以为,拍摄、扫描或者绘制等方式。其中,图片集例如可以为相册等,待处理的图片集中可以包括:在一段时间内拍摄得到的一组照片。
S102、对图片集中的每张图片进行图片特征提取,获取图片集对应的图片特征序列。
本实施例中,图片集描述生成装置执行步骤102的过程具体可以为,针对图片集中的每张图片,提取图片对应的特征向量;将图片集中各张图片对应的特征向量,输入图片特征模型中,获取各张图片对应的图片特征;根据各张图片对应的图片特征,确定图片集对应的图片特征序列。
其中,图片集描述生成装置可以将图片集中的每张图片依次输入特征向量提取模型,获取特征向量提取模型输出的特征向量。特征向量提取模型具体可以为卷积神经网络(Convolutional Neural Network,CNN),例如Resnet101,输出的特征向量可以为2048 维度的特征向量。获取图片对应的特征向量的公式可以如以下公式(1)所示。
fi=Rssnet101(ai) (1)
其中,fi表示第i个图片对应的特征向量;ai表示第i个图片。
本实施例中,图片特征模型具体可以为双向循环神经网络,例如biGRU,获取图片特征的公式可以如以下公式(2)和公式(3)所示。
vi=ReLU(hi+fi) (3)
其中,表示双向循环神经网络的正向的前一时刻状态;表示双向循环神经网络的逆向的前一时刻状态;hi表示第i个图片的当前时刻状态;ReLU表示修正线性单元,是一种人工神经网络中常用的激活函数;vi表示第i个图片的图片特征。其中,当前时刻是指将第i个图片的图片特征输入双向循环神经网络的时刻;正向的前一时刻是指将第i-1个图片的图片特征输入双向循环神经网络的时刻;逆向的前一时刻是指将第i+1个图片的图片特征输入双向循环神经网络的时刻。当前时刻与前一时刻之间的时间间隔为相邻两次图片特征的输入时间差,该输入时间差根据双向循环神经网络的处理速度确定。
对应的,对图片集中的每张图片进行图片特征提取,获取图片集对应的图片特征序列的示意图可以如图2所示,在图2中,将图片集中的每张图片输入卷积神经网络CNN,将CNN输出的特征向量fi输入至双向循环神经网络中,双向循环神经网络结合特征向量fi,以及和得到图片的当前时刻状态hi,结合hi和特征向量fi,得到图片的图片特征。
S103、对图片特征序列中各个场景对应的图片特征子序列进行场景特征提取,获取图片集对应的场景特征序列。
本实施例中,步骤103之前,图片集描述生成装置可以先获取图片特征序列中各个场景对应的图片特征子序列。获取图片特征序列中各个场景对应的图片特征子序列的过程具体可以为,对图片特征序列中的任意两个相邻的图片特征进行比对,判断相邻的图片特征是否属于相同的场景;将属于相同场景的单个图片特征或者连续多个图片特征,确定为场景对应的图片特征子序列。
其中,图片集描述生成装置对图片特征序列中的任意两个相邻的图片特征进行比对,判断相邻的图片特征是否属于相同的场景的过程具体可以为,将相邻的图片特征中排序在前的第一图片特征的状态,和排序在后的第二图片特征,输入场景边界探测器,获取场景边界探测器输出的标志位;第一图片特征的状态,为将第一图片特征输入场景特征模型后得到的;根据标志位,确定相邻的图片特征是否属于相同的场景。其中,判断相邻的图片特征是否属于相同的场景的公式可以如以下公式(4)所示。
其中,ki表示第i个图片特征对应的标志位;σ表示Sigmoid激活函数;表示第i-1个图片特征的状态;Ws、Wsv、Wsh表示权重;bs表示场景边界探测器的可训练内部参数。
本实施例中,在第i个图片特征对应的标志位为1时,确定第i个图片特征与第i-1个图片特征不属于相同的场景;在第i个图片特征对应的标志位为0时,确定第i个图片特征与第i-1个图片特征属于相同的场景。
本实施例中,由于是通过将相邻的图片特征进行比对,来确定相邻的图片场景是否属于相同的场景,因此,最后确定的场景对应的图片特征子序列中包含单个图片特征,或者连续多个图片特征;不存在包括多个不连续图片场景的情况。
对应的,图片集描述生成装置执行步骤103的过程具体可以为,针对各个场景,将图片特征子序列中的图片特征依次输入场景特征模型,获取图片特征子序列中最后一个图片特征的状态;场景特征模型的输入为图片特征,以及图片特征的之前图片特征的状态;场景特征模型的输出为图片特征的状态;将最后一个图片特征的状态,确定为场景对应的场景特征。其中,图片特征的状态可以包括:图片特征的当前输出状态和记忆。
本实施例中,场景特征模型具体可以为基于长短期记忆单元(Long Short-TermMemory, LSTM)的循环神经网络,其中,获取场景特征的公式可以如以下公式(5)所示。
其中,表示第i个图片特征的当前输出状态;表示第i个图片特征的记忆;表示前一时刻输出状态;表示前一时刻记忆。若第i个图片特征为某个场景对应的图片特征子序列中的最后一个图片特征,则将确定为该场景对应的场景特征;若第i个图片特征不是某个场景对应的图片特征子序列中的最后一个图片特征,则将和继续输入场景特征模型,获取第i+1个图片特征对应的当前输出状态和记忆,直至获取到图片特征子序列中最后一个图片特征的当前输出状态和记忆为止。
其中,公式(5)中的和的值,根据第i个图片特征与第i-1个图片特征是否属于相同场景的判断结果来确定。若第i个图片特征与第i-1个图片特征属于相同场景,则ki为0值,为前一时刻输出状态;表示前一时刻记忆;若第i个图片特征与第i-1个图片特征不属于相同场景,则ki为1值,和为零值。其中,和的计算公式可以如以下公式(6)和公式(7)所示。
本实施例中,对图片特征序列中各个场景对应的图片特征子序列进行场景特征提取,获取图片集对应的场景特征序列的示意图可以如图3所示,在图3中,BD表示场景边界探测器;场景边界探测器的输入为第i个图片特征,以及第i-1个图片特征的状态,输出为 1值;场景特征模型的输入为根据1值和确定的调整后以及第i个图片特征,输出为第i个图片特征的当前输出状态图3中,xu表示第u个场景对应的场景特征。
S104、根据图片集对应的图片特征序列和场景特征序列,生成图片集的描述信息。
本实施例中,图片集描述生成装置执行步骤104的过程具体可以为,对图片集对应的图片特征序列和场景特征序列进行融合,得到图片集对应的图片集特征序列;针对图片集特征序列中的每个图片集特征,将图片集特征输入解码器,获取图片集特征对应的描述语句;将各个图片集特征对应的描述语句进行组合,得到图片集的描述信息。其中,获取图片集对应的图片集特征序列的公式可以如以下公式(8)和公式(9)所示。其中,对图片集对应的图片特征序列和场景特征序列进行融合,得到图片集对应的图片集特征序列的过程具体可以为,针对图片集中的每张图片,获取所述图片的图片特征与场景特征的并集;对各张图片的并集进行加权求和,得到图片集对应的图片集特征序列。
其中,zq表示第q个图片集特征;ri∈R=(V∪X)表示图片特征序列和场景特征序列的并集;m表示图片特征序列中图片特征的数量;u表示场景特征序列中场景特征的数量。ai q表示在生成第q个图片集特征时,第i个特征的权重。其中,第i个特征表示图片特征和场景特征组合起来之后排序为i的图片特征或者场景特征。本实施例中,生成的图片集特征的数量,是根据提供的权重数量确定的,若提供了k个图片集特征中各个特征的权重,则根据权重只能确定出k个图片集特征。本实施例中,如公式(9)所示,针对每个图片集特征,各个图片特征的权重和场景特征的权重的和为1值。
本实施例中,解码器的输入为图片集特征、解码器前一时刻输出的字符以及前一时刻的隐藏状态,其中,字符可以指中文中的汉字,或者指英文中的单词,如图4所示,图4为获取图片集特征对应的描述语句的示意图。在图4中,在解码器的输入为第q个图片集特征zq、第q个图片集特征对应的描述语句中的第t-1个单词以及前一时刻t-1的隐藏状态时,解码器的输出为第t个单词。其中,获取当前时刻t的隐藏状态的公式可以如以下公式(10)所示。
其中,表示在生成第q个图片集特征对应的第q个描述语句时,当前时刻t的隐藏状态;表示前一时刻的隐藏状态;表示前一时刻预测出的单词;E○表示单词的向量化过程。
获取到后,当前时刻t的单词的预测公式可以如以下公式(11)所示。
其中,表示描述语句Sq中的第t个单词;[]表示两个向量的级联操作;MLP是用于将变化到特定维度的多层感知机;解码器softmax预测当前时刻t的单词在单词表上的概率分布。
本实施例中,从图像特征提取到生成图片集描述信息的过程中,所采用的各个模型,需要采用相应的训练数据进行训练。对各个模型进行训练的形式可以为端到端的训练,训练过程中的优化目标如以下公式(12)所示。
其中,Sj∈{S1,S2,…,Sq}表示图片集对应的描述信息,包括q个描述语句。Ai表示图片集中第i个图片;N表示图片集中图片的数量;θ为训练参数。公式(12)的意义为寻找一组训练参数,使得整个图片集描述生成方法对图片集的所有单句正确预测概率之和负数最小。
本申请实施例提供的技术方案可以包括以下有益效果:通过获取待处理的图片集;对图片集中的每张图片进行图片特征提取,获取图片集对应的图片特征序列;对图片特征序列中各个场景对应的图片特征子序列进行场景特征提取,获取图片集对应的场景特征序列;根据图片集对应的图片特征序列和场景特征序列,生成图片集的描述信息,从而结合参考图片特征和场景特征,来生成图片集对应的描述信息,使得生成的描述信息的准确度较高,且描述信息中包括场景信息,根据描述信息能够有效的对图片集进行理解和分析,提高了用户对图片集的使用体验。
图5为本申请图片集描述生成方法另一个实施例的流程图,如图5所示,在图1所示实施例的基础上,解码器的输入为图片集特征、解码器前一时刻输出的字符以及前一时刻的隐藏状态。
对应的,步骤104具体可以包括以下步骤:
S1041、对图片集对应的图片特征序列和场景特征序列进行融合,得到图片集对应的图片集特征序列。
S1042、针对图片集特征序列中的每个图片集特征,获取图片集特征的上一个图片集特征对应的描述语句。
本实施例中,若图片集特征为图片集特征序列中的第一个图片集特征,则不执行步骤 1042至步骤1044,直接执行步骤1045,获取图片集特征对应的描述语句。
S1043、将上一个图片集特征对应的描述语句输入语句编辑器,获取关系特征。
本实施例中,语句编辑器可以为循环神经网络GRU,用于挖掘描述信息中各个描述语句之间的语义关系。其中,语句编辑器的输入可以为上一个图片集特征对应的描述语句,以及上一个图片集特征对应的描述语句生成后,解码器的最终隐藏状态语句编辑器的输出为关系特征。其中,获取关系特征的公式可以如以下公式(13)、公式(14)、公式(15)、公式(16)所示。
其中,表示上一个图片集特征对应的描述语句;表示上一个图片集特征对应的描述语句中的第i个单词;表示上一个图片集特征对应的描述语句中所有单词向量的平均向量;表示解码器生成上一个图片集特征对应的描述语句后的最终隐藏状态;cq表示和输入多层感知机后输出的融合结果;表示语句编辑器GRU前一时刻的隐藏状态;表示语句编辑器当前时刻的隐藏状态;将关系特征作为生成当前第q+1个图片集特征对应的描述语句时的解码器中,前一时刻的隐藏状态如图6所示,为获取关系特征的示意图。
本实施例中,根据待处理的图片集,获取图片集描述信息的整体示意图可以如图7所示。在图7中,输入待处理的图片集,至获取到vi的过程为步骤102所执行的过程;从vi到xi的过程,为步骤103所执行的过程;从xi到的过程,为步骤104所执行的过程;从到最后,为步骤1043所执行的过程。
S1044、将解码器中的前一时刻的隐藏状态,替换为关系特征。
S1045、将图片集特征输入解码器,获取图片集特征对应的描述语句。
S1046、将各个图片集特征对应的描述语句进行组合,得到图片集的描述信息。
本实施例中,通过获取图片集特征的上一个图片集特征对应的描述语句;将上一个图片集特征对应的描述语句输入语句编辑器,获取关系特征;将解码器中的前一时刻的隐藏状态,替换为关系特征,然后将图片集特征输入替换后解码器,获取图片集特征对应的描述语句;其中,关系特征表示上一个图片集特征对应的描述语句的关系特征,采用关系特征对解码器中的前一时刻的隐藏状态进行替换,使得替换后解码器在生成关系特征对应的描述语句时,考虑关系特征,实现关系特征对应的描述语句与上一个关系特征对应的描述语句之间的一致性,使得图片集的描述信息更贴近于自然语言描述。
本实施例中,图片集的描述信息生成后,可以在图片集的展示缩略图下方或者上方等显示图片集的描述信息;或者,在图片集中所有图片的下方或者上方等位置,显示图片集的描述信息。其中,在图片集的展示缩略图下方显示图片集的描述信息,指的是在图片集未打开,图片集以缩略图或者其中一张图片显示的情况下,可以在缩略图或者其中一张图片的下方或者上方等显示图片集的描述信息。例如,如图8所示,为在图片集中所有图片的下方显示中文描述信息的示意图;如图9所示,为在图片集中所有图片的下方显示英文描述信息的示意图。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图10为本申请图片集描述生成装置一个实施例的结构示意图,本实施例中的图片集描述生成装置可以为硬件设备或者硬件设备中安装的软件。硬件设备例如,移动终端、云平台等,实现本申请图1或者图5所示实施例提供的图片集描述生成方法,上述图片集描述生成装置可以包括:获取模块81、图片编码模块82、场景提取模块83和生成模块84。
其中,获取模块81,用于获取待处理的图片集;
图片编码模块82,用于对所述图片集中的每张图片进行图片特征提取,获取所述图片集对应的图片特征序列;
场景提取模块83,用于对所述图片特征序列中各个场景对应的图片特征子序列进行场景特征提取,获取所述图片集对应的场景特征序列;
生成模块84,用于根据所述图片集对应的图片特征序列和场景特征序列,生成所述图片集的描述信息。
本实施例中,所述图片编码模块82具体可以用于,针对所述图片集中的每张图片,提取所述图片对应的特征向量;将所述图片集中各张图片对应的特征向量,输入图片特征模型中,获取各张图片对应的图片特征;根据各张图片对应的图片特征,确定所述图片集对应的图片特征序列。
进一步的,结合参考图11,在图10所示实施例的基础上,所述的装置还包括:比对模块85和确定模块86。
其中,比对模块85,用于对所述图片特征序列中的任意两个相邻的图片特征进行比对,判断相邻的图片特征是否属于相同的场景;
确定模块86,用于将属于相同场景的单个图片特征或者连续多个图片特征,确定为所述场景对应的图片特征子序列。
其中,比对模块85具体可以用于,将相邻的图片特征中排序在前的第一图片特征的状态,和排序在后的第二图片特征,输入场景边界探测器,获取场景边界探测器输出的标志位;第一图片特征的状态,为将第一图片特征输入场景特征模型后得到的;根据标志位,确定相邻的图片特征是否属于相同的场景。
对应的,所述场景提取模块83具体用于,针对各个场景,将所述图片特征子序列中的图片特征依次输入场景特征模型,获取所述图片特征子序列中最后一个图片特征的状态;所述场景特征模型的输入为图片特征,以及所述图片特征的之前图片特征的状态;所述场景特征模型的输出为所述图片特征的状态;将所述最后一个图片特征的状态,确定为所述场景对应的场景特征。
进一步的,结合参考图12,在上述实施例的基础上,所述生成模块84包括:注意力单元841、解码单元842和组合单元843。
其中,注意力单元841,用于对所述图片集对应的图片特征序列和场景特征序列进行融合,得到所述图片集对应的图片集特征序列;
解码单元842,用于针对所述图片集特征序列中的每个图片集特征,将所述图片集特征输入解码器,获取所述图片集特征对应的描述语句;
组合单元843,用于将各个图片集特征对应的描述语句进行组合,得到所述图片集的描述信息。
本申请实施例提供的技术方案可以包括以下有益效果:通过获取待处理的图片集;对图片集中的每张图片进行图片特征提取,获取图片集对应的图片特征序列;对图片特征序列中各个场景对应的图片特征子序列进行场景特征提取,获取图片集对应的场景特征序列;根据图片集对应的图片特征序列和场景特征序列,生成图片集的描述信息,从而结合参考图片特征和场景特征,来生成图片集对应的描述信息,使得生成的描述信息的准确度较高,且描述信息中包括场景信息,根据描述信息能够有效的对图片集进行理解和分析,提高了用户对图片集的使用体验。
进一步的,结合参考图13,在上述实施例的基础上,所述解码器的输入为所述图片集特征、所述解码器前一时刻输出的字符以及前一时刻的隐藏状态。对应的,所述生成模块84还包括:获取单元844、语句编辑单元845和替换单元846。
其中,获取单元844,用于获取所述图片集特征的上一个图片集特征对应的描述语句;
语句编辑单元845,用于将所述上一个图片集特征对应的描述语句输入语句编辑器,获取关系特征;
替换单元846,用于将所述解码器中的前一时刻的隐藏状态,替换为所述关系特征。
本实施例中,通过获取图片集特征的上一个图片集特征对应的描述语句;将上一个图片集特征对应的描述语句输入语句编辑器,获取关系特征;将解码器中的前一时刻的隐藏状态,替换为关系特征,然后将图片集特征输入替换后解码器,获取图片集特征对应的描述语句;其中,关系特征表示上一个图片集特征对应的描述语句的关系特征,采用关系特征对解码器中的前一时刻的隐藏状态进行替换,使得替换后解码器在生成关系特征对应的描述语句时,考虑关系特征,实现关系特征对应的描述语句与上一个关系特征对应的描述语句之间的一致性,使得图片集的描述信息更贴近于自然语言描述。
图14为本申请计算机设备一个实施例的结构示意图,本实施例中的计算机设备可以实现图片集描述生成功能,上述计算机设备可以包括:一个或多个处理器;存储器,用于存储一个或多个程序;当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器获取待处理的图片集;对图片集中的每张图片进行图片特征提取,获取图片集对应的图片特征序列;对图片特征序列中各个场景对应的图片特征子序列进行场景特征提取,获取图片集对应的场景特征序列;根据图片集对应的图片特征序列和场景特征序列,生成图片集的描述信息。
图14示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图14显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图14所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC) 总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图14未显示,通常称为“硬盘驱动器”)。尽管图14中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc ReadOnly Memory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等) 通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12 还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网) 通信。如图14所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图14中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本申请图1或者图5所示实施例提供的图片集描述生成方法。
本实施例还提供一种非临时性计算机可读存储介质,当上述存储介质中的计算机可执行指令在由计算机处理器执行时,用于执行本申请图1或者图5所示实施例提供的图片集描述生成方法。
本实施例还提供一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现本申请图1或者图5所示实施例提供的图片集描述生成方法。
上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network;以下简称:LAN)或广域网(Wide Area Network;以下简称:WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(Programmable Gate Array;以下简称:PGA),现场可编程门阵列(Field ProgrammableGate Array;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (11)
1.一种图片集描述生成方法,其特征在于,包括:
获取待处理的图片集;
对所述图片集中的每张图片进行图片特征提取,获取所述图片集对应的图片特征序列;
对所述图片特征序列中各个场景对应的图片特征子序列进行场景特征提取,获取所述图片集对应的场景特征序列;
根据所述图片集对应的图片特征序列和场景特征序列,生成所述图片集的描述信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述图片集对应的图片特征序列和场景特征序列,生成所述图片集的描述信息,包括:
对所述图片集对应的图片特征序列和场景特征序列进行融合,得到所述图片集对应的图片集特征序列;
针对所述图片集特征序列中的每个图片集特征,将所述图片集特征输入解码器,获取所述图片集特征对应的描述语句;
将各个图片集特征对应的描述语句进行组合,得到所述图片集的描述信息。
3.根据权利要求2所述的方法,其特征在于,所述解码器的输入为所述图片集特征、所述解码器前一时刻输出的字符以及前一时刻的隐藏状态;
所述将所述图片集特征输入解码器,获取所述图片集特征对应的描述语句之前,还包括:
获取所述图片集特征的上一个图片集特征对应的描述语句;
将所述上一个图片集特征对应的描述语句输入语句编辑器,获取关系特征;
将所述解码器中的前一时刻的隐藏状态,替换为所述关系特征。
4.根据权利要求1所述的方法,其特征在于,所述对所述图片集中的每张图片进行图片特征提取,获取所述图片集对应的图片特征序列,包括:
针对所述图片集中的每张图片,提取所述图片对应的特征向量;
将所述图片集中各张图片对应的特征向量,输入图片特征模型中,获取各张图片对应的图片特征;
根据各张图片对应的图片特征,确定所述图片集对应的图片特征序列。
5.根据权利要求1所述的方法,其特征在于,所述对所述图片特征序列中各个场景对应的图片特征子序列进行场景特征提取,获取所述图片集对应的场景特征序列之前,还包括:
对所述图片特征序列中的任意两个相邻的图片特征进行比对,判断相邻的图片特征是否属于相同的场景;
将属于相同场景的单个图片特征或者连续多个图片特征,确定为所述场景对应的图片特征子序列。
6.根据权利要求5所述的方法,其特征在于,所述对所述图片特征序列中的任意两个相邻的图片特征进行比对,判断相邻的图片特征是否属于相同的场景,包括:
将所述相邻的图片特征中排序在前的第一图片特征的状态,和排序在后的第二图片特征,输入场景边界探测器,获取所述场景边界探测器输出的标志位;所述第一图片特征的状态,为将第一图片特征输入场景特征模型后得到的;
根据所述标志位,确定相邻的图片特征是否属于相同的场景。
7.根据权利要求1或5或6所述的方法,其特征在于,所述对所述图片特征序列中各个场景对应的图片特征子序列进行场景特征提取,获取所述图片集对应的场景特征序列,包括:
针对各个场景,将所述图片特征子序列中的图片特征依次输入场景特征模型,获取所述图片特征子序列中最后一个图片特征的状态;所述场景特征模型的输入为图片特征,以及所述图片特征的之前图片特征的状态;所述场景特征模型的输出为所述图片特征的状态;
将所述最后一个图片特征的状态,确定为所述场景对应的场景特征。
8.一种图片集描述生成装置,其特征在于,包括:
获取模块,用于获取待处理的图片集;
图片编码模块,用于对所述图片集中的每张图片进行图片特征提取,获取所述图片集对应的图片特征序列;
场景提取模块,用于对所述图片特征序列中各个场景对应的图片特征子序列进行场景特征提取,获取所述图片集对应的场景特征序列;
生成模块,用于根据所述图片集对应的图片特征序列和场景特征序列,生成所述图片集的描述信息。
9.根据权利要求8所述的装置,其特征在于,所述生成模块包括:
注意力单元,用于对所述图片集对应的图片特征序列和场景特征序列进行融合,得到所述图片集对应的图片集特征序列;
解码单元,用于针对所述图片集特征序列中的每个图片集特征,将所述图片集特征输入解码器,获取所述图片集特征对应的描述语句;
组合单元,用于将各个图片集特征对应的描述语句进行组合,得到所述图片集的描述信息。
10.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如权利要求1-7中任一所述的方法。
11.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810732095.4A CN110147538B (zh) | 2018-07-05 | 2018-07-05 | 图片集描述生成方法、装置和计算机设备 |
PCT/CN2019/090723 WO2020007168A1 (zh) | 2018-07-05 | 2019-06-11 | 图片集描述生成方法、装置、计算机设备和存储介质 |
EP19829835.8A EP3764288B1 (en) | 2018-07-05 | 2019-06-11 | Picture set description generation method and apparatus, and computer device and storage medium |
US16/990,877 US11954591B2 (en) | 2018-07-05 | 2020-08-11 | Picture set description generation method and apparatus, and computer device and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810732095.4A CN110147538B (zh) | 2018-07-05 | 2018-07-05 | 图片集描述生成方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110147538A true CN110147538A (zh) | 2019-08-20 |
CN110147538B CN110147538B (zh) | 2023-04-07 |
Family
ID=67589126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810732095.4A Active CN110147538B (zh) | 2018-07-05 | 2018-07-05 | 图片集描述生成方法、装置和计算机设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11954591B2 (zh) |
EP (1) | EP3764288B1 (zh) |
CN (1) | CN110147538B (zh) |
WO (1) | WO2020007168A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408588B (zh) * | 2021-05-24 | 2023-02-14 | 上海电力大学 | 一种基于注意力机制的双向gru轨迹预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103688240A (zh) * | 2011-05-20 | 2014-03-26 | 梦芯片技术股份有限公司 | 用于发送数字场景描述数据的方法以及发送器和接收器场景处理设备 |
WO2016077797A1 (en) * | 2014-11-14 | 2016-05-19 | Google Inc. | Generating natural language descriptions of images |
CN105631468A (zh) * | 2015-12-18 | 2016-06-01 | 华南理工大学 | 一种基于rnn的图片描述自动生成方法 |
CN107783960A (zh) * | 2017-10-23 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102207966B (zh) * | 2011-06-01 | 2013-07-10 | 华南理工大学 | 基于对象标签的视频内容快速检索方法 |
DE102016010910A1 (de) * | 2015-11-11 | 2017-05-11 | Adobe Systems Incorporated | Strukturiertes Modellieren und Extrahieren von Wissen aus Bildern |
US9811765B2 (en) * | 2016-01-13 | 2017-11-07 | Adobe Systems Incorporated | Image captioning with weak supervision |
CN105718555A (zh) * | 2016-01-19 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 一种基于层次化语义描述的图像检索方法 |
CN106503055B (zh) * | 2016-09-27 | 2019-06-04 | 天津大学 | 一种从结构化文本到图像描述的生成方法 |
CN106980811A (zh) | 2016-10-21 | 2017-07-25 | 商汤集团有限公司 | 人脸表情识别方法和人脸表情识别装置 |
US11604936B2 (en) * | 2020-03-23 | 2023-03-14 | Toyota Research Institute, Inc. | Spatio-temporal graph for video captioning with knowledge distillation |
-
2018
- 2018-07-05 CN CN201810732095.4A patent/CN110147538B/zh active Active
-
2019
- 2019-06-11 WO PCT/CN2019/090723 patent/WO2020007168A1/zh unknown
- 2019-06-11 EP EP19829835.8A patent/EP3764288B1/en active Active
-
2020
- 2020-08-11 US US16/990,877 patent/US11954591B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103688240A (zh) * | 2011-05-20 | 2014-03-26 | 梦芯片技术股份有限公司 | 用于发送数字场景描述数据的方法以及发送器和接收器场景处理设备 |
WO2016077797A1 (en) * | 2014-11-14 | 2016-05-19 | Google Inc. | Generating natural language descriptions of images |
CN105631468A (zh) * | 2015-12-18 | 2016-06-01 | 华南理工大学 | 一种基于rnn的图片描述自动生成方法 |
CN107783960A (zh) * | 2017-10-23 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
Non-Patent Citations (1)
Title |
---|
汤鹏杰等: "融合图像场景及物体先验知识的图像描述生成模型", 《中国图象图形学报》 * |
Also Published As
Publication number | Publication date |
---|---|
US11954591B2 (en) | 2024-04-09 |
CN110147538B (zh) | 2023-04-07 |
EP3764288B1 (en) | 2023-06-07 |
EP3764288A1 (en) | 2021-01-13 |
WO2020007168A1 (zh) | 2020-01-09 |
EP3764288A4 (en) | 2021-05-19 |
US20200387737A1 (en) | 2020-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jamaludin et al. | You said that?: Synthesising talking faces from audio | |
US11409791B2 (en) | Joint heterogeneous language-vision embeddings for video tagging and search | |
Stoll et al. | Text2Sign: towards sign language production using neural machine translation and generative adversarial networks | |
US20200250436A1 (en) | Video object segmentation by reference-guided mask propagation | |
Papastratis et al. | Artificial intelligence technologies for sign language | |
US20210192824A1 (en) | Automatically generating motions of an avatar | |
AU2019360080A1 (en) | Image captioning with weakly-supervised attention penalty | |
CN112767329A (zh) | 图像处理方法及装置、电子设备 | |
US20220215052A1 (en) | Summarization of video artificial intelligence method, system, and apparatus | |
CN109684634A (zh) | 情感分析方法、装置、设备及存储介质 | |
Koumparoulis et al. | Exploring ROI size in deep learning based lipreading. | |
US20230143452A1 (en) | Method and apparatus for generating image, electronic device and storage medium | |
US20230325611A1 (en) | Video translation platform | |
Stoll et al. | Signsynth: Data-driven sign language video generation | |
Rastgoo et al. | All You Need In Sign Language Production | |
US11653071B2 (en) | Responsive video content alteration | |
CN113516972B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN111815748B (zh) | 一种动画处理方法、装置、存储介质及电子设备 | |
CN110147538A (zh) | 图片集描述生成方法、装置和计算机设备 | |
Mattos et al. | Multi-view mouth renderization for assisting lip-reading | |
Khan | Sign Language Recognition from a webcam video stream | |
Zarrieß et al. | Towards Generating Colour Terms for Referents in Photographs: Prefer the Expected or the Unexpected? | |
Yang et al. | Student Classroom Behavior Detection Based on YOLOv7+ BRA and Multi-model Fusion | |
US11798255B2 (en) | Sign language video segmentation method by gloss for sign language sentence recognition, and training method therefor | |
KR102589845B1 (ko) | 수어 영상 번역 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |