CN111291558B - 一种基于非成对学习的图像描述自动评价方法 - Google Patents

一种基于非成对学习的图像描述自动评价方法 Download PDF

Info

Publication number
CN111291558B
CN111291558B CN202010054911.8A CN202010054911A CN111291558B CN 111291558 B CN111291558 B CN 111291558B CN 202010054911 A CN202010054911 A CN 202010054911A CN 111291558 B CN111291558 B CN 111291558B
Authority
CN
China
Prior art keywords
image
description
score
sentence
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010054911.8A
Other languages
English (en)
Other versions
CN111291558A (zh
Inventor
赵仲秋
孙月林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202010054911.8A priority Critical patent/CN111291558B/zh
Publication of CN111291558A publication Critical patent/CN111291558A/zh
Application granted granted Critical
Publication of CN111291558B publication Critical patent/CN111291558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于非成对学习的图像描述自动评价方法,其步骤包括:1、提取被描述图像的视觉特征;2、描述语句的预处理和文本特征提取;3、基于图像特征和文本特征进行语义一致性评价;4、构建额外人工语句语料库;5、利用额外人工语句语料库对待评价描述文本进行语法正确性评价;6、对语义一致性得分和语法正确性得分进行融合,得到综合得分;7、对图像描述生成模型的评价。本发明能脱离参考描述语句,通过直接与图像特征的直接匹配和根据从额外语料库中习得的人类描述习惯,从语义一致性和语法正确性两方面对图像描述语句质量进行评价,从而能更灵活可靠地对风格化的图像描述语句质量进行评价。

Description

一种基于非成对学习的图像描述自动评价方法
技术领域
本发明涉及图像描述评价领域,具体的说是一种基于非成对学习的图像描述自动评价方法。
背景技术
随着科研领域对计算机视觉与自然语言处理相结合领域的兴趣逐渐升温,图像描述任务获得了一定的关注。图像描述任务即根据图像的内容,为图像生成相应的自然语言描述,实现从图像到语言的映射。然而,人工描述具有工作量大、成本高、主观性强等缺点,因而,需要利用计算机及相关算法和技术,在对图像内容准确分析的基础上,实现自动图像描述。随着神经网络的高速发展和注意力机制的引入,自动图像描述模型已经在BLEU、ROUGE、METEOR、CIDEr等传统指标上取得了很高的分数。近几年,关于图像描述的一部分研究焦点从进一步提升描述准确性转向了生成风格化的图像描述,例如可以进行幽默风格和浪漫风格图像描述的SemNet、SemStyle模型;可以进行看图写诗的微软小冰等。
传统的图像描述自动评价方法大多是基于对待评价的候选句和数据集给出的参考句之间的N元组共现的统计进行的。BLEU和METEOR指标引入自机器翻译任务,BLEU是对候选句和参考句中共同出现的N元子句出现次数的加权平均精度统计,而METEOR在此基础上添加了召回率的考量,计算候选句和参考句之间的单精度和单字召回率的加权调和平均数,此外,METEOR还通过最小化对应语句中连续有序块来进行了同义词匹配校准;ROUGE指标是引入自文本摘要任务的基于候选句和参考句间最大长度公共子序列召回率的相似性度量方法;CIDEr将TF-IDF权重应用到候选句与参考句的N元重叠上,并计算它们的N元余弦距离和。SPICE提出了一种新的评估图像描述的计算方法,即将候选句和参考句转换到同一个场景图中,并在过程中对图像字幕的主要特征进行编码,以及提取自然语言的大部分词汇和句法特征。为更加贴合人类评价和规避这些基于规则的方法的盲点,Yin等人提出了一种基于学习的图像描述自动评价方法,更贴合人类评价的同时,它适用于定义过的一些病句情形。
在实际应用中,虽然现有评价指标能一定程度上衡量候选句质量,但现有的图像描述评价指标仍存在以下问题:
(1)基于N元组共现的评价方法主要考察候选句的充分性和忠实性,无法对流畅性进行考量,且无法从语法语义上对病句进行判别,并不符合人类在判别两个语句语义是否一致时的习惯。
(2)N元重叠的方式很难对语句的语义进行捕捉,SPICE虽然对语义敏感,却依然存在忽略语法正确性的倾向,且SPICE还存在倾向对包含重复子句的长句打出高分的问题。
(3)Yin等人虽然提出了基于学习的评价方式,但与原有的基于规则的方法们一样,存在依赖于与有限的数据集给定参考句进行对比的问题。这些参考句风格固定甚至单调,无法覆盖到图像中所有可能被感兴趣的信息。因此,基于与此种参考句对比的现有评价指标并不能很好地对风格化的图像描述进行灵活的评价。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于非成对学习的图像描述自动评价方法,以期能脱离数据集中刻板的参考描述语句,直接将待评价描述语句和图像特征进行匹配,得到描述语句与对应图像的语义一致性评价,并通过从额外的风格化语料库学习人工描述语言习惯,得到描述语句相对于人工描述的语法正确性评价,从而能更贴近人工评价习惯地对图像描述语句质量进行评价,并能更灵活且可靠地对风格化的图像描述语句质量进行评价。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于非成对学习的图像描述自动评价方法的特点包括以下步骤:
步骤1、提取被描述图像的视觉特征;
步骤1.1、获取图像描述数据集,并从所述图像描述数据集中获取任意一幅图像I;
步骤1.2、使用卷积神经网络提取所述图像I的视觉特征x,再将所述视觉特征x嵌入到d维向量中,得到图像特征向量f(x)∈Rd
步骤2、描述语句的预处理和文本特征提取;
步骤2.1、在所述图像描述数据集上利用图像描述生成模型生成描述语句集,并对所述描述语句集中所有的语句进行分词处理,得到分割后的单词并进行词嵌入处理,从而得到词向量表,利用所述词向量表中相应的词向量表示所述描述语句集中的语句;
步骤2.2、从所述描述语句集中获取所述图像I对应的描述语句,记为S=[s1,...,st,...,sn],其中,st表示t时刻描述语句S的子句;
步骤2.3、使用长短记忆网络LSTM提取所述描述语句S的文本特征s,再将所述文本特征s嵌入到d维向量中,得到文本特征向量f(s)∈Rd
步骤3、基于图像特征和文本特征进行语义一致性评价;
步骤3.1、对图像特征向量f(x)和文本特征向量f(s)分别通过乘以d×n维的张量进行扩维,从而得到图像空间距离核Kx和文本空间距离核Ks
步骤3.2、利用式(1)所定义的核函数得到文本特征s和视觉特征x的距离向量distx(s,x):
Figure BDA0002372470750000033
式(1)中,||.||表示L1范式;
步骤3.3、将所述距离向量distx(s,x)与一个随机初始化的参数矩阵相乘后再进行逻辑回归操作,得到输出概率D(s,x),用于表示所述描述语句S的语义一致性评分;
步骤3.4、以所述输出概率D(s,x)的负对数作为损失函数,对基于核函数的分类网络进行训练,并在训练中对所述参数矩阵进行更新,当损失函数收敛到阈值时停止训练,从而得到训练好的语义一致性判别器;
步骤4、构建额外人工语句语料库;
步骤4.1、采集风格化语料库并进行分词和词频统计,选取其中词频较高的单词建立单词表;
步骤4.2、根据统计结果,对所述风格化语料库中的语料进行初步筛选,得到筛选后的风格化语料库;
步骤4.3、将筛选后的风格化语料库中的语料作为正样本,并在所述正样本的基础上生成相应数量的病句作为负样本;由所述正样本和负样本构成额外人工语句语料库;
步骤5、利用额外人工语句语料库对待评价描述文本进行语法正确性评价;
步骤5.1、基于额外人工语句语料库,训练一个长短记忆网络LSTM,该过程可表示为:
Figure BDA0002372470750000031
式(2)中,qt表示所述t时刻描述语句S的子句st为人工描述的概率,n为描述语句S的长度,
Figure BDA0002372470750000032
为长短记忆网络LSTM在t时刻的维度为d的隐状态,xt为t时刻长短记忆网络LSTM的输入;以所述长短记忆网络LSTM最后一个步长的输出qn,即描述语句S为人工描述的概率作为语法正确性评分;
步骤5.2、利用式(3)建立长短记忆网络LSTM训练损失函数losssyn
Figure BDA0002372470750000041
步骤5.3、对所述损失函数losssyn进行优化求解,使损失代价losssyn达到最小,从而得到最优参数的长短记忆网络LSTM,并作为语法正确性判别器;
步骤6、对语义一致性得分和语法正确性得分进行融合,得到综合得分;
步骤6.1、另外获取包含人工评分的图像数据集,从所述包含人工评分的图像数据集中获取任一图像
Figure BDA0002372470750000042
所述图像
Figure BDA0002372470750000043
对应的参考描述语句
Figure BDA0002372470750000044
以及参考描述语句
Figure BDA0002372470750000045
的人工评分
Figure BDA0002372470750000046
按照步骤1.2的方式处理所述图像
Figure BDA0002372470750000047
得到图像特征向量
Figure BDA0002372470750000048
按照步骤2.3的方式处理参考描述语句
Figure BDA0002372470750000049
得到文本特征向量
Figure BDA00023724707500000410
从而将
Figure BDA00023724707500000411
Figure BDA00023724707500000412
输入所述语义一致性判别器,得到语义一致性评分
Figure BDA00023724707500000413
Figure BDA00023724707500000414
输入所述语法正确性判别器,得到语法正确性评分
Figure BDA00023724707500000415
步骤6.2、将语义一致性评分
Figure BDA00023724707500000416
和语法正确性评分
Figure BDA00023724707500000417
作为输入,以所述人工评分
Figure BDA00023724707500000418
作为输出,以交叉熵作为损失函数,训练含有单个隐藏层的卷积神经网络;
步骤6.3、将步骤3中的输出概率D(s,x)和步骤5中的语法正确性评分qn作为输入,利用所述卷积神经网络,预测二者融合后的综合得分y;
步骤7、对图像描述生成模型的评价;
按照步骤1.2的方式对所有被描述图像进行处理,得到图像特征向量集合;按照步骤2.3的方式对所有描述语句进行处理,得到文本特征向量集合;将图像特征向量集合输入所述语义一致性判别器中得到语义一致性评分集合;将文本特征向量集合输入所述语法正确性判别器中得到语法正确性评分集合;将语义一致性评分集合和语法正确性评分集合输入所述卷积神经网络中得到总的综合得分后再取均值,从而得到所述图像描述生成模型的最终得分。
与已有技术相比,本发明的有益效果体现在:
1、和以往研究的图像描述自动评价方法相比,本发明脱离了对数据集中给定参考描述语句的依赖,提出了一种基于非成对学习的图像描述自动评价方法,该方法创造性提出从语义匹配性和语法正确性两方面对图像描述语句质量进行评价,相比现有评价方法更加贴合人类评价习惯。
2、本发明将图像特征引入评价过程,通过训练一个用于提取图像特征的卷积神经网络和一个用于提取候选句特征的长短记忆网络,通过将提取到的图像特征和描述语句特征映射到同一空间并进行距离计算,实现了图像与描述语句的直接匹配,充分考虑了参考语句可能存在语义不完整甚至语义偏差的风险,使得在对描述语句与图像的语义匹配程度上的评价更加直接可靠。
3、本发明通过构建一个基于长短记忆网络的语法正确性判别器,并允许其在用户额外构建的风格化语料库上进行学习,使判别器获得评价风格化的描述语句是否符合语法习惯的能力,提高了图像描述自动评价方法在风格化描述语句评价上的灵活性,对风格化的图像描述评价具有重要的意义。
附图说明
图1为本发明基于非成对学习的图像描述自动评价方法流程图。
具体实施方式
在本实施例中,如图1所示,一种基于非成对学习的图像描述自动评价方法是按如下步骤进行:
步骤1、提取被描述图像的视觉特征;
步骤1.1、从网上获取图像描述数据集,目前公开的数据集主要有MSCOCO,该数据及由微软的相关研究员收集而成,图像描述数据集包含描述语句和图像;从图像描述数据集中获取任意一幅图像I;
步骤1.2、使用卷积神经网络提取图像I的视觉特征x,再将视觉特征x嵌入到d维向量中,得到图像特征向量f(x)∈Rd;本实施例中,可以采用在COCO 2014数据集上预训练过的152层残差网络作为视觉特征提取器,残差网络是一种卷积神经网络,被证明具有很强的视觉信息表达能力,且有助于解决梯度消失和梯度爆炸问题,在较深的网络上能够保持良好的性能;
步骤2、描述语句的预处理和文本特征提取;
步骤2.1、在图像描述数据集上利用图像描述生成模型生成描述语句集,并对描述语句集中所有的语句进行分词处理,得到分割后的单词并进行词嵌入处理,从而得到词向量表,利用词向量表中相应的词向量表示描述语句集中的语句;本实施例中采用GloVe进行初始化,GloVe是斯坦福大学自然语言处理研究组提出的词向量生成方法,该方法除了用到单词局部窗口信息外,还用到全局词共现矩阵中的非0数据进行训练,提高了自然语言处理基础任务的准确率;
步骤2.2、从描述语句集中获取图像I对应的描述语句,记为S=[s1,...,st,...,sn],其中,st表示t时刻描述语句S的子句;
步骤2.3、使用长短记忆网络LSTM提取描述语句S的文本特征s,再将文本特征s嵌入到d维向量中,得到文本特征向量f(s)∈Rd
步骤3、基于图像特征和文本特征进行语义一致性评价;
步骤3.1、对图像特征向量f(x)和文本特征向量f(s)分别通过乘以d×n维的张量进行扩维,从而得到图像空间距离核Kx和文本空间距离核Ks
步骤3.2、利用式(1)所定义的核函数得到文本特征s和视觉特征x的距离向量distx(s,x):
Figure BDA0002372470750000061
式(1)中,||.||表示L1范式;
步骤3.3、将所述距离向量distx(s,x)与一个随机初始化的参数矩阵相乘后再进行逻辑回归操作,得到输出概率D(s,x),用于表示所述描述语句S的语义一致性评分;
步骤3.4、以所述输出概率D(s,x)的负对数作为损失函数,对基于核函数的分类网络进行训练,并在训练中对参数矩阵进行更新,当损失函数收敛到阈值时停止训练,从而得到训练好的语义一致性判别器;
步骤4、构建额外人工语句语料库;
步骤4.1、采集风格化语料库;本实施例中以MSCOCO数据集中针对目标检测任务的80个目标类别为关键词,从Shutterstock上采集了大量常规风格的图像描述,Shutterstock是一个提供免税图片的在线网站,使用者可以上传带有描述的图片;本实施例中还从SmashWords上采集了大量浪漫小说用于训练能够评价浪漫风格图像描述语句的判别器,SmashWords是一个在线小说网站,提供还未发表的免费小说;
步骤4.2、对采集到的风格化语料进行分词和词频统计,选取其中词频较高的单词建立单词表,并根据统计结果对风格化语料库中的语料进行初步筛选,得到筛选后的风格化语料库;本实施例中筛选掉了对话、长度超过阈值或少于阈值的语句,以及包含超过阈值数量低频词的语句,长度阈值设置为[4,20],包含低频词的阈值设置为语句长度的30%;
步骤4.3、将筛选后的风格化语料库中的语料作为正样本,并在正样本的基础上生成相应数量的病句作为负样本;由正样本和负样本构成额外人工语句语料库;本实施例中采用了三种病句生成方式:单词交换方法、单词随机方法和蒙特卡洛方法。单词交换即随机选择句子中一定比例的单词,将它们进行位置互换;单词随机即随机选择句子中一定比例的单词用单词表中的随机单词进行替换;由于机器生成的句子用到的单词受单词表所限,而人工编写的句子更可能用到生僻词,因此判别器会倾向于将用到不常见单词的语句判别为人工编写,为缓解这一问题,除了增大的单词表外,本实施例中还采用蒙特卡洛算法生成了一部分负样本;并举生成方式的选择上,本实施例设置了一个随机参数,对每一个正样本随机选择三种方法中的一种生成负样本,以保证正负样本的平衡;
步骤5、利用额外人工语句语料库对待评价描述文本进行语法正确性评价;
步骤5.1、基于额外人工语句语料库,训练一个长短记忆网络LSTM,该过程可表示为:
Figure BDA0002372470750000071
式(2)中,qt表示t时刻描述语句S的子句st为人工描述的概率,n为描述语句S的长度,
Figure BDA0002372470750000072
为长短记忆网络LSTM在t时刻的维度为d的隐状态,xt为t时刻长短记忆网络LSTM的输入;以长短记忆网络LSTM最后一个步长的输出qn,即描述语句S为人工描述的概率作为语法正确性评分;
步骤5.2、利用式(3)建立长短记忆网络LSTM训练损失函数losssyn
Figure BDA0002372470750000073
步骤5.3、对损失函数losssyn进行优化求解,使损失代价losssyn达到最小,从而得到最优参数的长短记忆网络LSTM,并作为语法正确性判别器;
步骤6、对语义一致性得分和语法正确性得分进行融合,得到综合得分;
步骤6.1、另外获取包含人工评分的图像数据集,从包含人工评分的图像数据集中获取任一图像
Figure BDA0002372470750000074
图像
Figure BDA0002372470750000075
对应的参考描述语句
Figure BDA0002372470750000076
以及参考描述语句
Figure BDA0002372470750000077
的人工评分
Figure BDA0002372470750000078
本实施例中采用Flickr8k数据集,该数据集由雅虎的相关研究人员收集而成,包含图像及相应图像描述语句,部分描述包含语句对应的人工评分;
按照步骤1.2的方式处理图像
Figure BDA0002372470750000079
得到图像特征向量
Figure BDA00023724707500000710
按照步骤2.3的方式处理参考描述语句
Figure BDA00023724707500000711
得到文本特征向量
Figure BDA00023724707500000712
从而将
Figure BDA00023724707500000713
Figure BDA00023724707500000714
输入步骤3.4中的语义一致性判别器,得到语义一致性评分
Figure BDA00023724707500000715
Figure BDA00023724707500000716
输入步骤5.3中的语法正确性判别器,得到语法正确性评分
Figure BDA0002372470750000081
步骤6.2、将语义一致性评分
Figure BDA0002372470750000082
和语法正确性评分
Figure BDA0002372470750000083
作为输入,以所述人工评分
Figure BDA0002372470750000084
作为输出,以交叉熵作为损失函数,训练含有单个隐藏层的卷积神经网络;
步骤6.3、将步骤3中的输出概率D(s,x)和步骤5中的语法正确性评分qn作为输入,利用所述卷积神经网络,预测二者融合后的综合得分y;
步骤7、对图像描述生成模型的评价;
按照步骤1.2的方式对所有被描述图像进行处理,得到图像特征向量集合;按照步骤2.3的方式对所有描述语句进行处理,得到文本特征向量集合;将图像特征向量集合输入步骤3.4中的语义一致性判别器中,得到语义一致性评分集合;将文本特征向量集合输入步骤5.3中的语法正确性判别器中,得到语法正确性评分集合;将语义一致性评分集合和语法正确性评分集合输入步骤6.3中的卷积神经网络中,得到总的综合得分;取总的综合得分的均值作为图像描述生成模型的最终得分。

Claims (1)

1.一种基于非成对学习的图像描述自动评价方法,其特征包括以下步骤:
步骤1、提取被描述图像的视觉特征;
步骤1.1、获取图像描述数据集,并从所述图像描述数据集中获取任意一幅图像I;
步骤1.2、使用卷积神经网络提取所述图像I的视觉特征x,再将所述视觉特征x嵌入到d维向量中,得到图像特征向量f(x)∈Rd
步骤2、描述语句的预处理和文本特征提取;
步骤2.1、在所述图像描述数据集上利用图像描述生成模型生成描述语句集,并对所述描述语句集中所有的语句进行分词处理,得到分割后的单词并进行词嵌入处理,从而得到词向量表,利用所述词向量表中相应的词向量表示所述描述语句集中的语句;
步骤2.2、从所述描述语句集中获取所述图像I对应的描述语句,记为S=[s1,...,st,...,sn],其中,st表示t时刻描述语句S的子句;
步骤2.3、使用长短记忆网络LSTM提取所述描述语句S的文本特征s,再将所述文本特征s嵌入到d维向量中,得到文本特征向量f(s)∈Rd
步骤3、基于图像特征和文本特征进行语义一致性评价;
步骤3.1、对图像特征向量f(x)和文本特征向量f(s)分别通过乘以d×n维的张量进行扩维,从而得到图像空间距离核Kx和文本空间距离核Ks
步骤3.2、利用式(1)所定义的核函数得到文本特征s和视觉特征x的距离向量distx(s,x):
Figure FDA0004122792620000011
式(1)中,||.||表示L1范式;
步骤3.3、将所述距离向量distx(s,x)与一个随机初始化的参数矩阵相乘后再进行逻辑回归操作,得到输出概率D(s,x),用于表示所述描述语句S的语义一致性评分;
步骤3.4、以所述输出概率D(s,x)的负对数作为损失函数,对基于核函数的分类网络进行训练,并在训练中对所述参数矩阵进行更新,当损失函数收敛到阈值时停止训练,从而得到训练好的语义一致性判别器;
步骤4、构建额外人工语句语料库;
步骤4.1、采集风格化语料库并进行分词和词频统计,选取其中词频较高的单词建立单词表;
步骤4.2、根据统计结果,对所述风格化语料库中的语料进行初步筛选,得到筛选后的风格化语料库;
步骤4.3、将筛选后的风格化语料库中的语料作为正样本,并在所述正样本的基础上生成相应数量的病句作为负样本;由所述正样本和负样本构成额外人工语句语料库;
步骤5、利用额外人工语句语料库对待评价描述文本进行语法正确性评价;
步骤5.1、基于额外人工语句语料库,训练一个长短记忆网络LSTM,该过程可表示为:
Figure FDA0004122792620000021
式(2)中,qt表示所述t时刻描述语句S的子句st为人工描述的概率,n为描述语句S的长度,
Figure FDA0004122792620000022
为长短记忆网络LSTM在t时刻的维度为d的隐状态,xt为t时刻长短记忆网络LSTM的输入;以所述长短记忆网络LSTM最后一个步长的输出qn,即描述语句S为人工描述的概率作为语法正确性评分;
步骤5.2、利用式(3)建立长短记忆网络LSTM训练损失函数losssyn
Figure FDA0004122792620000023
步骤5.3、对所述损失函数losssyn进行优化求解,使损失代价losssyn达到最小,从而得到最优参数的长短记忆网络LSTM,并作为语法正确性判别器;
步骤6、对语义一致性得分和语法正确性得分进行融合,得到综合得分;
步骤6.1、另外获取包含人工评分的图像数据集,从所述包含人工评分的图像数据集中获取任一图像
Figure FDA0004122792620000024
所述图像
Figure FDA0004122792620000025
对应的参考描述语句
Figure FDA0004122792620000026
以及参考描述语句
Figure FDA0004122792620000027
的人工评分
Figure FDA0004122792620000028
按照步骤1.2的方式处理所述图像
Figure FDA0004122792620000029
得到图像特征向量
Figure FDA00041227926200000210
按照步骤2.3的方式处理参考描述语句
Figure FDA00041227926200000211
得到文本特征向量
Figure FDA00041227926200000212
从而将
Figure FDA00041227926200000213
Figure FDA00041227926200000214
输入所述语义一致性判别器,得到语义一致性评分
Figure FDA00041227926200000215
Figure FDA00041227926200000216
输入所述语法正确性判别器,得到语法正确性评分
Figure FDA00041227926200000217
步骤6.2、将语义一致性评分
Figure FDA00041227926200000218
和语法正确性评分
Figure FDA00041227926200000219
作为输入,以所述人工评分
Figure FDA00041227926200000220
作为输出,以交叉熵作为损失函数,训练含有单个隐藏层的卷积神经网络;
步骤6.3、将步骤3中的输出概率D(s,x)和步骤5中的语法正确性评分qn作为输入,利用所述卷积神经网络,预测二者融合后的综合得分y;
步骤7、对图像描述生成模型的评价;
按照步骤1.2的方式对所有被描述图像进行处理,得到图像特征向量集合;按照步骤2.3的方式对所有描述语句进行处理,得到文本特征向量集合;将图像特征向量集合输入所述语义一致性判别器中得到语义一致性评分集合;将文本特征向量集合输入所述语法正确性判别器中得到语法正确性评分集合;将语义一致性评分集合和语法正确性评分集合输入所述卷积神经网络中得到总的综合得分后再取均值,从而得到所述图像描述生成模型的最终得分。
CN202010054911.8A 2020-01-17 2020-01-17 一种基于非成对学习的图像描述自动评价方法 Active CN111291558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010054911.8A CN111291558B (zh) 2020-01-17 2020-01-17 一种基于非成对学习的图像描述自动评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010054911.8A CN111291558B (zh) 2020-01-17 2020-01-17 一种基于非成对学习的图像描述自动评价方法

Publications (2)

Publication Number Publication Date
CN111291558A CN111291558A (zh) 2020-06-16
CN111291558B true CN111291558B (zh) 2023-05-02

Family

ID=71022329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010054911.8A Active CN111291558B (zh) 2020-01-17 2020-01-17 一种基于非成对学习的图像描述自动评价方法

Country Status (1)

Country Link
CN (1) CN111291558B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783955A (zh) * 2020-06-30 2020-10-16 北京市商汤科技开发有限公司 神经网络的训练、对话生成方法及装置、存储介质
CN111930931B (zh) * 2020-07-20 2024-05-24 桂林电子科技大学 一种摘要评价方法及装置
CN113032550B (zh) * 2021-03-29 2022-07-08 同济大学 一种基于预训练语言模型的观点摘要评价系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095829A (zh) * 2016-06-01 2016-11-09 华侨大学 基于深度学习与一致性表达空间学习的跨媒体检索方法
CN107391609A (zh) * 2017-07-01 2017-11-24 南京理工大学 一种双向多模态递归网络的图像描述方法
CN107480144A (zh) * 2017-08-03 2017-12-15 中国人民大学 具备跨语言学习能力的图像自然语言描述生成方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11113599B2 (en) * 2017-06-22 2021-09-07 Adobe Inc. Image captioning utilizing semantic text modeling and adversarial learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095829A (zh) * 2016-06-01 2016-11-09 华侨大学 基于深度学习与一致性表达空间学习的跨媒体检索方法
CN107391609A (zh) * 2017-07-01 2017-11-24 南京理工大学 一种双向多模态递归网络的图像描述方法
CN107480144A (zh) * 2017-08-03 2017-12-15 中国人民大学 具备跨语言学习能力的图像自然语言描述生成方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Alexander Mathews等.SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text.2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.2018,全文. *
张涛.基于一致性与相关性的图像描述建模.中国优秀硕士学位论文全文数据库.2019,全文. *

Also Published As

Publication number Publication date
CN111291558A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN108363753B (zh) 评论文本情感分类模型训练与情感分类方法、装置及设备
CN110008311B (zh) 一种基于语义分析的产品信息安全风险监测方法
CN110209806B (zh) 文本分类方法、文本分类装置及计算机可读存储介质
CN111291558B (zh) 一种基于非成对学习的图像描述自动评价方法
CN111221939B (zh) 评分方法、装置和电子设备
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN109960804B (zh) 一种题目文本句子向量生成方法及装置
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN110543564B (zh) 基于主题模型的领域标签获取方法
CN110717332A (zh) 基于非对称孪生网络的新闻与案件相似度计算方法
WO2023159758A1 (zh) 数据增强方法和装置、电子设备、存储介质
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN112597302A (zh) 基于多维评论表示的虚假评论检测方法
CN113343690A (zh) 一种文本可读性自动评估方法及装置
CN115345165A (zh) 一种面向标签稀缺或分布不平衡场景的特定实体识别方法
CN114048354A (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
CN113627151A (zh) 跨模态数据的匹配方法、装置、设备及介质
CN116757195A (zh) 一种基于提示学习的隐性情感识别方法
Sathish et al. Enhanced sentimental analysis using visual geometry group network-based deep learning approach
CN115688768A (zh) 一种基于对抗数据增强的医疗文本专业分类方法
CN114997190A (zh) 机器翻译方法、装置、计算机设备和存储介质
Salton Representations of Idioms for natural language processing: Idiom type and token identification, language modelling and neural machine translation
CN110717015B (zh) 一种基于神经网络的多义词识别方法
CN113821571A (zh) 基于bert和改进pcnn的食品安全关系抽取方法
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant