CN105830006B - 图像及视频内容的情感修改 - Google Patents

图像及视频内容的情感修改 Download PDF

Info

Publication number
CN105830006B
CN105830006B CN201580003003.3A CN201580003003A CN105830006B CN 105830006 B CN105830006 B CN 105830006B CN 201580003003 A CN201580003003 A CN 201580003003A CN 105830006 B CN105830006 B CN 105830006B
Authority
CN
China
Prior art keywords
emotion
image
dimensions
sample
modifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580003003.3A
Other languages
English (en)
Other versions
CN105830006A (zh
Inventor
彭宽川
虹·希瑟·郁
张冬青
陈祖翰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN105830006A publication Critical patent/CN105830006A/zh
Application granted granted Critical
Publication of CN105830006B publication Critical patent/CN105830006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了用于修改图像所传达情感的装置和方法。一方面,生成与图像所传达情感相对应的度量,通过用于修改所述图像的情感的命令,从而根据对情感的指定变化来改变所述图像所传达的情感。所述用于修改所述图像情感的命令可通过情感关键词形成,且所述命令可包括所述情感变化指示的量级。通过情感向量可指定图像所传达的情感,其中所述向量的元素与沿着情感空间中正交维度排列的情感相对应。一方面,基于一组与所述情感空间的情感关键词相关的图像,训练情感预测器,从而通过确定一组图像特征类型的特征值来预测图像所传达情感。

Description

图像及视频内容的情感修改
相关申请案交叉申请
本申请要求于2014年1月30日递交的发明名称为“用于通过情感经验分析对图像及视频内容分类的方法和装置”的第61/933763号美国临时专利申请案的在先申请优先权,该在先申请的内容以引入的方式并入本文。
技术领域
本发明实施例一般涉及计算机视觉中的图像分类。更具体地,本发明实施例涉及在图像中对情感内容建模和启动组织及查找原始情感的视觉数据。
背景技术
一般来说,一个图像所引起的情感因人而异,不仅是因为图像的内容,还有观看者的个人经历。例如,某种食物的图像,比如汉堡包,会吸引某些速食爱好者,但其他人可能会因为健康的原因而对此感到恼火。
计算机视觉正努力通过如情感图像分类和审美质量预估等抽象概念来对图像进行分类。与计算机视觉中情感图像分类相关的近代文学研究了多种图像源,例如,互联网图像、抽象画作和艺术图片。而很少有针对现实图像和艺术图像的情感图像分类。典型地,通过一些硬标签来描述由某个特定图像所引起的情感,即通过固定的标签描述所述图像的情感内容。
传统的方法在多级分类的1对整体的设置中独立对待不同的情感类型。这样不管这个方法不一致,应意识到一些情感类型是紧密相关的。例如,喜悦和悲伤是强烈负相关的。一些与情感相关的图像分类方案是通过图像数据库进行的,例如emodb(M.索利,R.勒兹.“海量图像数据库中与情感相关的结构”,ACM图像和视频检索国际会议.2010:398-405)、GAPED(E.S.丹·格拉泽,K.R.谢勒.“日内瓦情绪图片数据库(GAPED):针对价和规范性意义的新730个图片的数据库”,行为研究方法.2011,43(2):468-477)、以及IAPS(P.J.朗,M.M.布拉德利,B.N.卡斯伯特.“国际情绪图像系统(IAPS):图片的情绪评级和指令技术报告手册a-8”.2008),这些数据库均存在几个缺陷。首先,这些图像数据库给图像贴上了硬标签,而忽视了这样一个事实:从情感经历而言,观看者对一个图像的观点并非完全一致。进一步地,即便是情感经历类似,传统的数据中并没有意识到情感的程度也各有不同(例如,喜悦对狂喜)。其二,这些数据库的情感类型是随意选择的,而没有坚实的心理学理论基础。其三,每个情感类型中的图像数量在这些数据库中并非是一样的,造成数据库不平衡,进而可能导致图像分类结果出现偏差。
发明内容
鉴于图像所引起的情感一般因人而异,本发明实施例中,通过软标签(例如,实数)而不是硬标签来描述与图像相关的情感。情感映射在情感空间中的维度模型上,所述情感沿着正交轴相对成队的形式排列,且所述情感是基于心理学研究的。
根据本发明的各个方面,提供了一种用于修改图像所传达情感的装置和方法。一方面,生成与图像所传达情感相对应的度量,通过用于修改所述图像的情感的命令,从而根据对情感的指定变化来改变所述图像所传达的情感。所述用于修改所述图像情感的命令可通过情感关键词形成,且所述命令可包括所述情感变化指示的量级。通过情感向量可指定图像所传达的情感,其中所述向量的元素与沿着情感空间中正交维度排列的情感相对应。一方面,基于一组与所述情感空间的情感关键词相关的图像,训练情感预测器,从而通过确定一组图像特征类型的特征值来预测图像所传达情感。
根据本发明的一方面,一种通过修改图像来修改所述图像所传达情感的方法包括:获取存储在存储器中的图像;生成与所述图像所传达情感相对应的度量,其中所述情感沿着多个情感维度排列。所述方法包括:接收命令从而根据对特定情感的指定变化来修改所述图像;根据与所述情感相对应的预定图像特征修改所述图像,从而根据对所述特定情感的所述指定变化来转换所述图像。所述方法包括:显示具有所述特定情感的所述变化的转换的图像。
在所述方法的一实施例中,所述度量包括与所述所传达情感的量级对应的数值。根据又一实施例,对所述特定情感的所述指定变化包括变化的量级。根据又一实施例,所述度量按照包括与所述多个情感维度对应的元素的向量排列。在一实施例中,所述多个情感维度包括正交轴,成对的负相关的情感排列在所述正交轴的相对的两端。根据又一实施例,所述成对的负相关情感包括喜悦和悲伤、害怕和不害怕、以及厌恶和不厌恶。根据又一实施例,对所述特定情感的所述指定变化包括与成对的负相关情感相关的关键词。在所述方法的一实施例中,所述预定图像特征包括边缘特征、纹理、颜色、显著性和形状,所述修改所述图像包括根据颜色直方图规格和边缘直方图规格中的一个来修改。
根据本发明的另一方面,一种装置包括:显示器;存储器,用于存储指令;处理器,与所述显示器和所述存储器通信耦合,用于执行所述指令。所述指令使得所述处理器获取存储在存储器中的图像,并生成与所述图像所传达情感相对应的度量,其中所述情感沿着多个情感维度排列。所述指令使得所述处理器接收命令从而根据对特定情感的指定变化来修改所述图像。所述指令使得所述处理器根据与所述情感相对应的预定图像特征修改所述图像,从而根据对所述特定情感的所述指定变化来转换所述图像,且所述指令使得所述处理器显示具有所述特定情感的所述变化的转换的图像。
在所述装置的一实施例中,所述度量包括与所述所传达情感的量级对应的数值。根据又一实施例,对所述特定情感的所述指定变化包括变化的量级。根据又一实施例,所述度量按照包括与所述多个情感维度对应的元素的向量排列。在一实施例中,所述多个情感维度包括正交轴,成对的负相关的情感排列在所述正交轴的相对的两端。根据又一实施例,所述成对的负相关情感包括喜悦和悲伤、害怕和不害怕、以及厌恶和不厌恶。根据又一实施例,对所述特定情感的所述指定变化包括与成对的负相关情感相关的关键词。在所述装置的一实施例中,所述预定图像特征包括边缘特征、纹理、颜色、显著性和形状,所述修改所述图像包括根据颜色直方图规格和边缘直方图规格中的一个来修改。
根据本发明的另一方面,一种非瞬时性计算机可读介质包含程序指令,当图像处理系统中的处理器执行所述程序指令时,所述程序指令使得所述处理器执行操作。所述操作包括:获取存储在存储器中的图像;生成与所述图像所传达情感相对应的度量,其中所述情感沿着多个情感维度排列。所述操作包括:接收命令从而根据对特定情感的指定变化来修改所述图像;根据与所述情感相对应的预定图像特征修改所述图像,从而根据对所述特定情感的所述指定变化来转换所述图像。所述操作包括:显示具有所述特定情感的所述变化的转换的图像。
在包含程序指令的所述非瞬时性计算机可读介质的一实施例中,所述度量包括与所述所传达情感的量级对应的数值。在包含程序指令的所述非瞬时性计算机可读介质的一实施例中,所述预定图像特征包括边缘特征、纹理、颜色、显著性和形状,所述修改所述图像包括根据颜色直方图规格和边缘直方图规格中的一个来修改。根据另一实施例,所述预定图像特征基于与所述特定情感相关的样本图像。
附图说明
附图包含在并且构成本说明书的一部分,示出了本发明的各种实施例,并且与描述内容一起用于解释本发明的原则:
图1示出了本发明实施例的图像情感修改系统。
图2示出了本发明实施例的示例情感空间和与情感空间的情感相对应的图像。
图3示出了本发明实施例的图像情感修改系统组件的示意图。
图4示出了本发明实施例的图像所传达情感的变化。
图5示出了本发明实施例的改变图像所传达情感的方法流程图。
具体实施方式
根据传统技术关于计算机视觉中的情感图像分类,独立对待情感类型,通过硬标签预测情感,从而忽视了情感类型之间的关联。相比之下,本发明实施例中,利用维度情感空间来对某些情感类型之间的关联建模。公开了一种改变图像情感的系统和方法,其中包括情感预测器,用于预测图像所传达情感。根据从一组包含标记的情感内容的样本图像中的一个样本图像的图像特征,可通过例如颜色直方图规格修改所述图像所传达情感。
现在将详细地给出一些实施例的参考。虽然结合可替代的实施例描述该主题,但应该理解它们不是旨在将请求保护的主题限制于这些实施例。相反,请求保护的主题旨在覆盖可以包括在由附加的权利要求书限定的请求保护的主题的精神和范围内的替代物、修改和等同物。
另外,在以下本发明的详细描述中,阐述了许多特定细节以便提供对请求保护主题的透彻理解。然而,本领域技术人员会认识到可实现这些实施例而无需这些具体的细节或通过这些具体细节的等同进行。在其它实例中没有详细描述众所周知的方法、流程、部件和电路,以免对本请求保护的主题的各方面和特征造成不必要地模糊。
该具体实施方式的一些部分按照程序、步骤、逻辑块、处理、以及对计算机存储器中的数据位的操作的其它符号表示来呈现。这些描述和表示是数据处理领域技术人员向该领域其他技术人员有效传达工作实质内容使用的方法。将程序、计算机执行的步骤、逻辑块、过程等一般设想为首尾一致的步骤或指令序列,以产生期望的结果。这些步骤需要物理量的物理操控。通常,并不是完全必须的,这些量以电信号或磁信号的形式存在,可以被存储、转移、合并和比较,否则将在电脑系统中被操控。有时候这种方法被证明是行之有效的,主要出于常见用法的考虑,将这些信号作为比特位、数值、元素、符号、字符、术语、或数字等等。
然而,应牢记,所有这些和类似术语与适当物理量相关联,且仅为应用于这些量的方便标签。除非另有具体陈述,否则从下列讨论中显而易见,应了解的是利用如“获取”、“写入”、“包括”、“存储”、“传输”、“遍历”、“关联”、“标识”等术语的讨论是指将代表计算机系统的寄存器和存储器内的物理(电子)量的数据操控和转换为类似地代表计算机系统存储器或寄存器或其他此类信息存储、传输或显示设备内的物理量的其他数据的计算机系统或类似电子运算设备的动作和过程。
本发明的系统能够通过情感关键词和变化的量级的规格修改图像所传达情感。例如但不限于,所述关键词可为“喜悦”,而所述变化的量级与对最初传达的情感的相关改变相对应(例如,0.1对应比最初的图像中的喜悦高出10%)。所述系统将输入的图像转化为与用户输入所指示的情感更相近的样本输出图像(例如,在所述转换后,所述输出图像包含传达的更多的“喜悦”)。
现参考图1,一种图像情感修改系统105包括转换引擎110和情感度量引擎120。所述图像情感修改系统105用于接收输入图像115和对情感的指定变化170。情感修改是针对所述输入图像115所传达情感,例如,对所述输入图像115引起观看者的情感“恐惧”的量的修改。所述图像情感修改系统105通过所述转换引擎110和所述情感度量引擎120来根据所述对情感的指定变化170转换所述输入图像115,并根据所述对情感的指定变化输出一个图像,即输出图像125。下列描述将有助于理解所述图像情感修改系统105。
情感类型
现参考图2,本发明实施例描述了符合软标记的维度情感模型。情感空间200中定义了3个维度di(i∈{1,2,3}),其中每个维度都代表了一些基本的情感,例如,普拉特切克的情感轮中的基础情感(R·普拉特切克.“情感的一般演化心理学理论”,情感:理论、研究和经验.1980(1):3-31)。根据本发明,在所述情感模型中,描述相对情感的3个情感维度按情感对排列,一实施例中的情感维度为喜悦—悲伤(d1)、不害怕—害怕(d2)、以及不厌恶—厌恶(d3)。可能有更多或更少的其他情感的情感维度。
这些情感形成了所述3个维度并与软标签的情感度量数据库的情感分类相对应,下面将进一步进行说明。图2描述了所述情感空间200的代表性的示例图像210,所述图像分别对应情感喜悦、悲伤、不害怕、害怕、不厌恶和厌恶。
情感度量向量
根据本发明实施例,所述情感空间200的所述维度中的情感可按向量排列,并规范化。对于图2中所描述的所述三维情感空间200,所述情感向量可包括元素s1、s2和s3,分别对应d1、d2和d3维度。例如,喜悦—悲伤维度可对应维度s1,其中s1的值为1对应极度喜悦,s1的值为0对应极度悲伤。类似的,不害怕—害怕维度可对应维度s2,其中s2的值为1对应极度不害怕,s2的值为0对应极度害怕。类似的,不厌恶—厌恶维度可对应维度s3,其中s3的值为1对应极度不厌恶,s3的值为0对应极度厌恶。
软标签情感度量数据库
在一实施例中,所述软标签情感度量数据库(例如,包括图3中样本图像数据库330)包含与形成情感空间中3个维度的情感相关的特征类型。表1包括示例的特征类型,以及各自的维度和各自的描述。所述特征类型可为,例如,“边缘”与维度512、“纹理”与维度27、“颜色”与维度80、“显著性”与维度4、“组成”与维度8,以及“形状”与维度128。
表1:训练度量所传达情感的特征集
Figure GDA0001012086980000091
根据本发明实施例,所述软标签情感度量数据库包括每个情感类型的图像。例如,所述软标签情感度量数据库包括每个情感类型的500个图像,对于有6个类型的数据库,共计3000个图像。可将所述数据库图像调整至近似相同的分辨率,例如,VGA分辨率,同时保持所述图像原有的宽高比。根据一实施例,通过在因特网中可用的图像数据库中输入6个类型的关键词作为查找关键词,可获取数据库图像。可使用其他网络业务,其他图像源也适用于本发明。例如但不限于,喜悦、害怕和厌恶的同义词和反义词都用作所述查找关键词。优选地,每个下载到所述软标签情感度量数据库的图像都被证实与预测情感相对应。也就是说,通过例如人工检验,通过关键词“害怕”下载的图像被证实与“害怕”情感内容相对应。所述证实是为了避免错误的图像分类。
所述软标签情感度量数据库提供图像特征的值之间的关联,其中所述图像特征来自维度情感模型中情感的所述特征类型,从而(例如,为了情感预测)提供所述图像所传达情感的测量。所述数据库中的每个图像都被分配了一个与所述3个维度中之一相对应的二进制标签。也就是说,每个与一种情感如“喜悦”相关的图像不再与任何其他情感相关。在一实施例中,图像关联由二进制值确定,其中“1”与积极情感相对应,“0”则与消极情感相对应。因此,对于与“喜悦”相关的图像,所述图像在喜悦—悲伤维度的情感维度值为“1”。相反地,与“悲伤”相关的图像在喜悦—悲伤维度的情感维度值为“0”。与不厌恶—厌恶情感对和不害怕—害怕对相对应的图像与类似数值相关,其中“1”是指不厌恶和不害怕,“0”是指“厌恶”和“害怕”。
下面将描述有关情感类型的选择、图像收集和标记流程的详情。
情感修改
现参考图3,图3更为详细的描述了(例如,图1中的)转换引擎和情感度量引擎。转换引擎310包括样本图像数据库330,从中N个样本图像335作为样本。根据本发明的一些实施例,所述取样是随机进行的。本领技术人员知道的其他取样方法也在本发明的精神和范围内。所述转换引擎310接收输入图像315(例如,与所述输入图像115相对应),并在工作中对所述输入图像315进行特征转换340。分别对所述N个样本图像335中的每个样本图像进行特征转换。根据本发明一实施例,所述转换是通过颜色直方图规格进行的,其中所述样本图像中(例如,表1特征类型的)特征值用于转换所述输入图像的图像数据,从而转换情感内容。或者,所述转换是通过边缘直方图规格进行的。其他的图像转换技术也在本发明的精神和范围内。
经过所述特征转换340,相应地生成了N个输出图像350。所述N个样本图像335包括每种情感类型(例如,喜悦、悲伤、不害怕、害怕、不厌恶和厌恶)的图像,其中每个图像都分别有表1中特征类型的特征。根据本发明一实施例,所述输出图像350是通过对多个样本图像的特征转换而生成的。也就是说,几个样本图像共同用在转换所述输入图像315并生成所述输出图像350,而不是单独对一个样本图像进行转换进而生成一个单独的输出图像。
所述输出图像350被提供给情感度量引擎320。所述情感度量引擎320包括情感度量生成器355,其中所述情感度量生成器工作时测量所述输出图像350所传达情感并生成相应数量的情感向量360,针对每个输出图像350生成一个情感向量。所述情感度量引擎320接收与命令相对应的指定情感变化370(例如,指定情感变化170),从而修改所述输入图像315所传达情感,并在所述指定情感变化370和所述情感向量360之间进行情感匹配375。根据本发明实施例,所述指定情感变化370以向量的形式表现,其中所述向量的元素的量级与对情感空间(例如,情感空间200)中相应情感的变化的量级相对应。对情感的所述指定变化可与单独的情感维度(例如,喜悦多出20%)相关,或与多个情感维度相关。
给出一个输入图像315和想要的对情感的变化,通过特定的情感改变370,所述系统根据预定的样本图像数据库330中的样本图像对所述输入图像315的特征进行转换。如述,所述样本图像数据库330存储着与所述情感空间200中不同情感相对应的示例图像。在一实施例中,所述N个样本图像335都是从所述样本图像数据库330中随机取出的,经过所述特征转换340生成了相应的所述N个输出图像350。根据本发明实施例,N值等于20可用于达到输出种类和运算效率之间的平衡。其他的N值也在本发明的精神和范围内。
通过所述情感度量生成器355来生成所述N个输出图像350的所述情感向量360,所述系统会输出具有情感变化的转换的图像325,其中所述情感变化最接近于指定情感修改的变化(例如,指定情感变化370)。每个情感度量生成器355产生一个情感向量360用以描述相应的输出图像。因此,情感向量360有N个。所述系统将所述指定情感变化向量370与所述N个情感向量360进行比较,从而确定与对所述输入图像315的指定情感变化相对应的所述输出图像350。所述系统从所述输出图像350中选出与所述N个情感向量360中的一个情感向量相对应的输出图像,其中所述情感向量最接近于所述输入图像315的所述指定情感变化。根据本发明实施例,所述最接近的情感向量是经情感向量匹配375通过指定情感变化向量的“最近相邻者”确定的。其他用于确定情感向量匹配的标准也在本发明的精神和范围内。转换的图像输出325是通过选择所述输出图像350中具有确定匹配情感向量的输出图像而生成的。根据一实施例,所指的输入图像情感修改370是用户输入的向量,其中元素值与对情感的情感变化机率相对应。也就是说,s1=0.2,s2=–0.3和s3=0.05的向量所对应的情感修改中,喜悦的机率增加20%,害怕的机率增加30%,不厌恶的机率增加5%。
在一实施例中,所述样本图像数据库330的默认取样方法是随机取样,所使用的特征转换340为通过对RGB信道独立应用直方图规格的色度调整。或者,所述特征转换340可通过边缘直方图规格进行。有利地,由于样本图像集中不同的图像和所述取样,系统可根据本发明生成色调与所述输入图像不同的转换的输出图像。其他形式的图像转换也在本发明的精神和范围内。在一实施例中,距离度量用于比较输出选择器中情感的变化,例如,所述距离度量可以为L2-norm。
一般而言,所显示的每个情感度量生成器355都是同样的情感度量生成器,其中所述情感度量生成器355工作中会取一个图像,并输出与所述图像所传达情感相对应的情感向量。所述情感向量的每个维度都描述了所述输入图像所触发的相应情感的量级。在一实施例中,输入所述情感度量生成器的是一个图像(例如,输入图像1),而输出的则是三维数字,其中所述数字包括与所述情感空间的3个维度相对应的元素s1、s2和s3。应注意的是,“N”是算法操作所指定流水线的预定的数字。流水线可为单独一个图像(例如,所述样本图像数据库330中的一个样本图像),或几个图像。对于每个流水线,所述情感度量生成器355预测所有情感维度中的所有的情感。根据本发明实施例,所述流水线的数量是可调整的,其中流水线数量越大,则情感匹配的统计功效也更大。
情感度量生成
在本发明的一实施例中,与边缘、纹理、颜色、显著性和形状相关的特征用于创建759维的特征集(例如,表1的特征集)。对样本图像数据库(例如,样本图像数据库330)中每个图像进行相应特征向量的运算。所述特征向量的每个维度都准确地归入[0,1]范围内。所述软标签度量数据库的每个情感类型都被随机划分为训练集和测试集,通过与di相关的训练集可在每个维度di上对情感预测器EPi进行训练,其中i是{1,2,3}中的元素。通过标准的支持向量回归(support vector regression,简称SVR)以及LIBSVM(C.-C.Chang,C.-J.Lin.“LIBSVM:支持向量机的库”,ACM智能系统和技术会报.2011(2):27:1-27:27)提供的机率估计,每个EPi预测si,di上相应情感的回归值。具体地,s1、s2和s3分别代表喜悦、不害怕和不厌恶的回归值。在每个di中,回归值更高则代表积极情感更多。根据本发明一实施例,通过对所述样本图像数据库的所述训练集进行10倍交叉验证,获知SVR参数。最终实值情感预测器EP是通过对所有EPi进行级联形成的,使得EP将一个图像作为输入,并输出指定情感空间中情感内容的向量e=(s1,s2,s3)。根据本发明实施例,所述最终实值情感预测器EP用于生成输入图像的情感向量(例如,情感度量生成器355)。
现参考图4,图4描述了本发明实施例的图像所传达情感的变化的图示400。画面左边描述了原有的输入图像,而画面右边描述了根据本发明方法进行情感修改后的图像。如图4所述,所述图像情感修改为增加喜悦。通过例如颜色直方图规格或边缘直方图规格可对所述原有的输入图像进行修改。
图5为本发明实施例的修改图像所传达情感的计算机实现的方法的示例流程图500。所述流程图500可作为计算机可执行指令实现,其中所述指令位于某种形式的非瞬时性计算机可读存储介质中。所述流程图500的操作是可实现的。尽管描述中是以单独一个输入图像作为示例,但是所述操作可以很容易地延伸至多个输入图像。
在框502中,生成与图像所传达情感相对应的度量。所述度量基于图像数据(例如,图像修改系统105接收到的图像数据115)测量所述图像所传达情感。所述所传达情感可由情感度量引擎120确定,并且可包括通过向量所传达情感的表征,其中所述向量的元素指示情感空间(例如,情感空间200)中的情感的量级。
在框504中,接收命令数据从而根据对特定情感的指定变化,例如对情感的指定变化170,来修改所述图像。所述对情感的指定变化可通过关键词(例如,更多“害怕”)和/或通过指定情感变化的量级的情感向量来进行。
在框506中,根据与所述情感相对应的预定图像特征修改所述图像,从而根据对所述特定情感的所述指定变化来转换所述图像。图像转换可通过颜色直方图规格或一些其他的图像转换方法来进行。所述图像转换包括通过样本图像的特征进行的输入图像的特征的转换。所述样本图像是从样本图像数据库中选出的,其中所述样本图像数据库包括与情感空间的(例如,情感空间200的)每个情感相对应的图像集。用于输入图像的转换的所述样本图像是基于在预测的所述样本图像所传达情感和修改的输入图像所传达情感之间进行匹配而选出的,即在对情感的指定变化(例如,对情感的指定变化170)后的输入图像所传达情感。
在框508中,显示转换的图片,其中所述转换的图像是根据对情感的指定变化修改的(例如,输出图像125)。
本发明的各个方面可体现于包括程序指令的计算机可读介质,从而实现计算机或运算设备(例如,蜂窝电话和平板设备等)进行的各个操作。所述介质也可只包括所述程序指令或是包括所述程序指令、数据文件和数据结构等的组合。所述介质和程序指令可能是为本发明实施例示例的目的而特别设定和构建的,或者所述介质和程序指令是计算机软件领域技术人员所熟知和可获取的。计算机可读介质的示例包括:磁介质,比如硬盘、软盘和磁带;光介质,例如CD ROM盘和DVD;磁光介质,例如光盘;以及可特别用于存储和执行程序指令的硬件设备,例如只读存储器(read-only memory,简称ROM)、随机存取存储器(randomaccess memory,简称RAM)和闪存等。本发明的各个方面也可通过数据信号实现,其中所述数据信号体现于载波中并包括计算机可读且因特网可传输的程序。程序指令的示例包括,例如编译器所产生的,机器代码和包含计算机可通过解释器执行的更高层代码的文件。所描述的硬件设备可用于充当一个或多个软件模块,从而执行上述本发明实施例示例的操作。
根据本发明的实施例如此处所述。虽然本公开已经在特定实施例中进行了描述,但是应理解,本公开不应该被解释为这些实施例的限制,而是根据以下权利要求书进行解释。

Claims (15)

1.一种通过修改图像来修改所述图像所传达情感的方法,其特征在于,所述方法包括:
获取存储在存储器中的图像;
生成与所述图像所传达情感相对应的度量,其中所述情感沿着多个情感维度排列;
接收命令从而根据对特定情感的指定变化来修改所述图像;所述特定情感的指定变化为多个情感维度的量化值的变化,所述多个情感维度包括3个情感维度:喜悦和悲伤、害怕和不害怕、厌恶和不厌恶;
根据与所述情感相对应的预定图像特征修改所述图像,从而根据对所述特定情感的所述指定变化来转换所述图像,具体包括:通过特定情感的所述指定变化,根据N个样本图像对所述图像的特征进行转换,以得到N个输出图像,其中,所述N个样本图像来自预定的样本图像数据库,所述样本图像数据库存储有与情感空间中不同情感相对应的示例图像,所述N个样本图像是从所述样本图像数据库中随机取出的,所述N为正整数;
显示所述N个输出图像之中的最接近于所述特定情感的所述指定变化的图像;
其中,所述预定图像特征包括:
边缘特征、纹理、颜色、显著性和形状,所述修改所述图像包括根据颜色直方图规格和边缘直方图规格中的一个来修改。
2.根据权利要求1所述的方法,其特征在于,所述度量包括与所述所传达情感的量级相对应的数值。
3.根据权利要求2所述的方法,其特征在于,对所述特定情感的所述指定变化包括变化的量级。
4.根据权利要求2所述的方法,其特征在于,所述度量按照包括与所述多个情感维度相对应的元素的向量排列。
5.根据权利要求1所述的方法,其特征在于,所述多个情感维度包括正交轴,成对的负相关情感排列在所述正交轴的相对的两端。
6.根据权利要求5所述的方法,其特征在于,对所述特定情感的所述指定变化包括与成对的负相关情感相关的关键词。
7.一种通过修改图像来修改所述图像所传达情感的装置,其特征在于,包括:
显示器;
存储器,用于存储指令;
处理器,与所述显示器和所述存储器通信耦合,用于执行所述指令,其中:所述指令使得所述处理器获取存储在存储器中的图像,并生成与所述图像所传达情感相对应的度量,其中所述情感沿着多个情感维度排列;所述指令使得所述处理器接收命令从而根据对特定情感的指定变化来改变所述图像;所述指令使得所述处理器根据与所述情感相对应的预定图像特征修改所述图像,从而根据对所述特定情感的所述指定变化来转换所述图像,具体包括:通过特定情感的所述指定变化,根据N个样本图像对所述图像的特征进行转换,以得到N个输出图像,其中,所述N个样本图像来自预定的样本图像数据库,所述样本图像数据库存储有与情感空间中不同情感相对应的示例图像,所述N个样本图像是从所述样本图像数据库中随机取出的,所述N为正整数;所述指令使得所述处理器显示所述N个输出图像之中的最接近于所述特定情感的所述指定变化的图像;所述特定情感的指定变化为多个情感维度的量化值的变化,所述多个情感维度包括3个情感维度:喜悦和悲伤、害怕和不害怕、厌恶和不厌恶;
所述预定图像特征包括边缘特征、纹理、颜色、显著性和形状,所述修改所述图像包括根据颜色直方图规格和边缘直方图规格中的一个来修改。
8.根据权利要求7所述的装置,其特征在于,所述度量包括与所述所传达情感的量级相对应的数值。
9.根据权利要求8所述的装置,其特征在于,对所述特定情感的所述指定变化包括变化的量级。
10.根据权利要求8所述的装置,其特征在于,所述度量按照包括与所述多个情感维度相对应的元素的向量排列。
11.根据权利要求7所述的装置,其特征在于,所述多个情感维度包括正交轴,成对的负相关情感排列在所述正交轴的相对的两端。
12.根据权利要求11所述的装置,其特征在于,对所述特定情感的所述指定变化包括与成对的负相关情感相关的关键词。
13.一种非瞬时性计算机可读介质,包含程序指令,当图像处理系统中的处理器执行所述程序指令时,所述程序指令使得所述处理器执行操作,其中所述操作包括:
获取存储在所述图像处理系统中的存储器中的图像;
生成与所述图像所传达情感相对应的度量,其中所述情感沿着多个情感维度排列;
接收命令从而根据对特定情感的指定变化来修改所述图像;所述特定情感的指定变化为多个情感维度的量化值的变化,所述多个情感维度包括3个情感维度:喜悦和悲伤、害怕和不害怕、厌恶和不厌恶;
根据与所述情感相对应的预定图像特征修改所述图像,从而根据对所述特定情感的所述指定变化来转换所述图像,具体包括:通过特定情感的所述指定变化,根据N个样本图像对所述图像的特征进行转换,以得到N个输出图像,其中,所述N个样本图像来自预定的样本图像数据库,所述样本图像数据库存储有与情感空间中不同情感相对应的示例图像,所述N个样本图像是从所述样本图像数据库中随机取出的,所述N为正整数;
显示所述N个输出图像之中的最接近于所述特定情感的所述指定变化的图像;
其中,所述预定图像特征包括:
边缘特征、纹理、颜色、显著性和形状,所述修改所述图像包括根据颜色直方图规格和边缘直方图规格中的一个来修改。
14.根据权利要求13所述的非瞬时性计算机可读介质,其特征在于,所述度量包括与所述所传达情感的量级相对应的数值。
15.根据权利要求13所述的非瞬时性计算机可读介质,其特征在于,所述预定图像特征基于与所述特定情感相关的样本图像。
CN201580003003.3A 2014-01-30 2015-01-27 图像及视频内容的情感修改 Active CN105830006B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201461933763P 2014-01-30 2014-01-30
US61/933,763 2014-01-30
PCT/US2015/013068 WO2015116582A1 (en) 2014-01-30 2015-01-27 Emotion modification for image and video content

Publications (2)

Publication Number Publication Date
CN105830006A CN105830006A (zh) 2016-08-03
CN105830006B true CN105830006B (zh) 2020-02-14

Family

ID=53679370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580003003.3A Active CN105830006B (zh) 2014-01-30 2015-01-27 图像及视频内容的情感修改

Country Status (4)

Country Link
US (1) US9679380B2 (zh)
EP (1) EP3055764A4 (zh)
CN (1) CN105830006B (zh)
WO (1) WO2015116582A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9323984B2 (en) * 2014-06-06 2016-04-26 Wipro Limited System and methods of adaptive sampling for emotional state determination
US20170220950A1 (en) * 2016-01-29 2017-08-03 International Business Machines Corporation Numerical expression analysis
JP6657048B2 (ja) * 2016-09-30 2020-03-04 本田技研工業株式会社 処理結果異常検出装置、処理結果異常検出プログラム、処理結果異常検出方法及び移動体
CN109299036B (zh) * 2017-07-25 2021-01-05 北京嘀嘀无限科技发展有限公司 标签生成方法、装置、服务器和计算机可读存储介质
US10237615B1 (en) * 2018-02-15 2019-03-19 Teatime Games, Inc. Generating highlight videos in an online game from user expressions
CN110858913A (zh) * 2018-08-23 2020-03-03 北京优酷科技有限公司 多媒体内容的处理方法及装置
US11393144B2 (en) 2019-04-11 2022-07-19 City University Of Hong Kong System and method for rendering an image
US11853348B2 (en) * 2020-06-24 2023-12-26 Adobe Inc. Multidimensional digital content search

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101019408A (zh) * 2004-09-10 2007-08-15 松下电器产业株式会社 信息处理终端
CN102881284A (zh) * 2012-09-03 2013-01-16 江苏大学 非特定人语音情感识别方法及系统

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185534B1 (en) * 1998-03-23 2001-02-06 Microsoft Corporation Modeling emotion and personality in a computer user interface
US7593618B2 (en) * 2001-03-29 2009-09-22 British Telecommunications Plc Image processing for analyzing video content
JP2002298155A (ja) * 2001-03-29 2002-10-11 Hic:Kk 感情による3dコンピュータグラフィックス表情モデル形成システム
EP1262844A1 (en) * 2001-06-01 2002-12-04 Sony International (Europe) GmbH Method for controlling a man-machine-interface unit
US7154510B2 (en) * 2002-11-14 2006-12-26 Eastman Kodak Company System and method for modifying a portrait image in response to a stimulus
US20080068397A1 (en) 2006-09-14 2008-03-20 Carey James E Emotion-Based Digital Video Alteration
US7689011B2 (en) * 2006-09-26 2010-03-30 Hewlett-Packard Development Company, L.P. Extracting features from face regions and auxiliary identification regions of images for person recognition and other applications
US20100030714A1 (en) * 2007-01-31 2010-02-04 Gianmario Bollano Method and system to improve automated emotional recognition
US8462996B2 (en) * 2008-05-19 2013-06-11 Videomining Corporation Method and system for measuring human response to visual stimulus based on changes in facial expression
US8447065B2 (en) * 2008-09-16 2013-05-21 Cyberlink Corp. Method of facial image reproduction and related device
WO2010085237A1 (en) * 2009-01-20 2010-07-29 Hewlett-Packard Development Company, L.P. Image processing
KR101558553B1 (ko) * 2009-02-18 2015-10-08 삼성전자 주식회사 아바타 얼굴 표정 제어장치
US8606733B2 (en) * 2009-12-07 2013-12-10 Xerox Corporation System and method for classification and selection of color palettes
US8884980B2 (en) * 2010-09-24 2014-11-11 Taaz, Inc. System and method for changing hair color in digital images
US8819577B2 (en) * 2011-09-29 2014-08-26 Apple Inc. Emotional ratings of digital assets and related processing
US20140250110A1 (en) * 2011-11-25 2014-09-04 Linjun Yang Image attractiveness based indexing and searching
US20130346920A1 (en) 2012-06-20 2013-12-26 Margaret E. Morris Multi-sensorial emotional expression
US9245176B2 (en) * 2012-08-01 2016-01-26 Disney Enterprises, Inc. Content retargeting using facial layers
US20140049546A1 (en) * 2012-08-16 2014-02-20 The Penn State Research Foundation Automatically computing emotions aroused from images through shape modeling
US9177410B2 (en) * 2013-08-09 2015-11-03 Ayla Mandel System and method for creating avatars or animated sequences using human body features extracted from a still image

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101019408A (zh) * 2004-09-10 2007-08-15 松下电器产业株式会社 信息处理终端
CN102881284A (zh) * 2012-09-03 2013-01-16 江苏大学 非特定人语音情感识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Automatic Mood-Transferring between Color Images";Chuan-Kai Yang et al;《IEEE COMPUTER GRAPHICS AND APPLICATIONS》;20080430;第52-61页 *

Also Published As

Publication number Publication date
CN105830006A (zh) 2016-08-03
WO2015116582A1 (en) 2015-08-06
US9679380B2 (en) 2017-06-13
EP3055764A1 (en) 2016-08-17
US20150213331A1 (en) 2015-07-30
EP3055764A4 (en) 2017-03-15

Similar Documents

Publication Publication Date Title
CN105830006B (zh) 图像及视频内容的情感修改
US11657084B2 (en) Correlating image annotations with foreground features
TWI677852B (zh) 一種圖像特徵獲取方法及裝置、電子設備、電腦可讀存儲介質
Radenović et al. Revisiting oxford and paris: Large-scale image retrieval benchmarking
Wu et al. Motion-modulated temporal fragment alignment network for few-shot action recognition
CN102902821B (zh) 基于网络热点话题的图像高级语义标注、检索方法及装置
US11880429B1 (en) Systems, methods, and storage media for training a model for image evaluation
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
Oszust Full-reference image quality assessment with linear combination of genetically selected quality measures
CN104182543B (zh) 基于相似性传播与流行度降维的混合推荐方法
CN105117399B (zh) 一种图像搜索方法和装置
CN109919209A (zh) 一种领域自适应深度学习方法及可读存储介质
KR20120053211A (ko) 멀티미디어 데이터 검색 방법, 장치 및 패턴인식 방법
Dominguez et al. Comparing neural and attractiveness-based visual features for artwork recommendation
Gao et al. Multi-task deep learning for no-reference screen content image quality assessment
Monteiro et al. Fish recognition model for fraud prevention using convolutional neural networks
US20200257934A1 (en) Processing content
Athar et al. Deep neural networks for blind image quality assessment: addressing the data challenge
US20220172455A1 (en) Systems and methods for fractal-based visual searching
Shruthishree Bird Species Identification Using Image Processing and CNN
Tian et al. Dual feature extractor generative adversarial network for colorization
Sangeetha et al. An Enhanced Triadic Color Scheme for Content‐Based Image Retrieval
Barrilero et al. In-network content based image recommendation system for Content-aware Networks
Bercich et al. Deep Learning Attention-Ranked Media Space Generation for Virtual Reality Equirectangular Scene Augmentation
Zhao et al. Research on the factors affecting accuracy of abstract painting orientation detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant