CN112685582A - 自动生成故事板 - Google Patents

自动生成故事板 Download PDF

Info

Publication number
CN112685582A
CN112685582A CN201910994216.7A CN201910994216A CN112685582A CN 112685582 A CN112685582 A CN 112685582A CN 201910994216 A CN201910994216 A CN 201910994216A CN 112685582 A CN112685582 A CN 112685582A
Authority
CN
China
Prior art keywords
image
sequence
images
sentence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910994216.7A
Other languages
English (en)
Inventor
刘蓓
傅建龙
宋睿华
林萍萍
齐晓宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Priority to CN201910994216.7A priority Critical patent/CN112685582A/zh
Priority to PCT/US2020/054653 priority patent/WO2021076381A1/en
Publication of CN112685582A publication Critical patent/CN112685582A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/11Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开提供了用于自动生成故事板的方法和装置。可以获得包括多个语句的文本。可以检索与所述多个语句对应的图像序列。可以对所述图像序列进行渲染以获得经渲染的图像序列。可以提供包括所述经渲染的图像序列的故事板。

Description

自动生成故事板
背景技术
故事板(storyboard)是对文本故事的视觉化表现。通常,故事板可以包括对具有多个语句的文本故事进行视觉化的图像序列,从而可以生动地逐个图像地表达故事内容。故事板生成过程是用于创作各种故事相关产品的最重要的阶段之一,这些故事相关产品例如电影、动画等。故事板不仅可以通过视觉辅助来简化对文本故事的理解,而且可以通过预先规划关键图像来使得故事相关产品的后续创作步骤更为直观和顺畅。
发明内容
提供本发明内容以便介绍一组概念,这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征,也不旨在用于限制所保护主题的范围。
本公开的实施例提出了用于自动生成故事板的方法和装置。可以获得包括多个语句的文本。可以检索与所述多个语句对应的图像序列。可以对所述图像序列进行渲染以获得经渲染的图像序列。可以提供包括所述经渲染的图像序列的故事板。
应当注意,以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式,并且本公开旨在包括所有这些方面和其等同变换。
附图说明
以下将结合附图描述所公开的多个方面,这些附图被提供用以说明而非限制所公开的多个方面。
图1示出了根据实施例的用于自动生成故事板的示例性架构。
图2示出了根据实施例的自动生成故事板的实例。
图3示出了根据实施例的上下文感知编码器的示例性结构。
图4示出了根据实施例的示例性图像检索增强处理。
图5示出了根据实施例的示例性相关图像区域保留处理。
图6示出了根据实施例的执行相关图像区域保留处理的实例。
图7示出了根据实施例的示例性角色图像元素替换处理。
图8示出了根据实施例的示例性场景图像元素替换处理。
图9示出了根据实施例的检索和渲染图像序列的实例。
图10A和图10B示出了根据实施例的检索和渲染图像序列的实例。
图11示出了根据实施例的用于自动生成故事板的示例性方法的流程图。
图12示出了根据实施例的用于自动生成故事板的示例性装置。
图13示出了根据实施例的用于自动生成故事板的示例性装置。
具体实施方式
现在将参考多种示例性实施方式来讨论本公开。应当理解,这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例,而并非教导对本公开的范围的任何限制。
故事板的创作存在多种挑战。例如,故事板中的图像应当是影片式的,其考虑了取景、结构、视角等。例如,故事板中的视觉化图像应当包含用于表现故事的充分的细节,如场景、角色、角色的动作等。例如,故事板中的图像应当在视觉上看起来具有连贯一致的风格和角色形象等。
目前已经提出了用于进行故事板自动创作的多种方法,包括基于生成的方法、基于检索(retrieval)的方法等。已有的基于生成的方法可以直接通过例如生成对抗网络(GAN)来以文本为条件生成图像,其可以灵活地生成新的图像。然而,由于已知的训练中的困难,基于生成的方法难以生成高质量的、多样的且相关的图像,并且通常被局限在特定的域中以生成结构简单的图像,从而无法被有效地应用于在例如故事板创作的复杂场景中为故事生成图像序列。已有的基于检索的方法可以基于文本来检索现有的高质量图像。然而,大部分基于检索的方法仅能够使用单个语句来检索图像,而无法考虑上下文。由于无法保证现有图像准确地相关于所输入的故事,基于检索的方法缺乏灵活性。已有的基于检索的方法在语句与图像之间使用全局或密集视觉语义匹配。全局视觉语义匹配将固定维度的全局向量用于全局视觉或文本表示,但是全局向量难以捕获精细粒度的信息。密集视觉语义匹配可以将图像或语句表示为一组精细粒度的分量,但仍然仅考虑了单个句子与图像的匹配。此外,所检索的图像可能来自于不同的源或数据库,从而导致故事板中的图像序列在风格和角色形象方面存在视觉的不一致。
本公开的实施例提出了基于启发-创作架构来自动生成故事板,例如自动地生成图像序列以视觉化呈现包括多个语句的文本故事。考虑到人类对于语言的理解是对关于视觉、声音等过去经历的模拟,根据本公开实施例的启发-创作架构可以将所检索的良好设计的现有图像作为启发,然后对所检索的图像进行渲染以创作灵活的视觉化故事内容。例如,启发-创作架构可以包括文本到图像检索器,其用于检索或提取相关的图像以用于启发。启发-创作架构还可以包括故事板创作器,其用于进一步对所检索的图像进行优化或渲染以改进相关性、视觉一致性等。文本到图像检索器可以采用上下文感知密集视觉语义匹配模型,其能够利用分级注意力机制来动态地采用故事中的上下文信息,并且应用更具解释性的密集视觉语义匹配来准确地检索图像和定位(ground)图像区域。文本到图像检索器不仅可以实现准确的图像检索,还可以利用多个图像来对一个语句进行视觉化。故事板创作器可以通过渲染处理来增强所检索图像的灵活性,该渲染处理可以包括例如相关图像区域保留处理、风格统一处理、元素替换处理等。故事板创作器不仅提高了灵活性,还改进了所生成的故事板的相关性、视觉一致性等。
通过本公开的实施例,能够在开放域中实现对文本故事的更好的视觉化呈现,并且提供高质量的故事板。
图1示出了根据实施例的用于自动生成故事板的示例性架构100。架构100可以是以上所述的启发-创作架构的实例。架构100可以在用于自动生成故事板的装置中采用。在一种实施方式中,架构100可以包括文本到图像检索器110、故事板创作器120等。
可以首先获得将要生成故事板的文本102。文本102可以包括多个语句。文本102的内容可以是故事、电影剧本等。
文本到图像检索器110可以用于检索与文本102中的多个语句对应的图像序列。
文本到图像检索器110可以包括上下文感知编码模块112。上下文感知编码模块112可以通过对文本102中的每个语句执行上下文感知编码,来生成该语句的词语表示序列。例如,与一个语句相对应的词语表示序列可以是该语句中的所有词语的词语表示的集合。在本文中,“词语”可以指一个或多个字符、单个词语或多个词语的组合等。上下文感知编码模块112可以利用文本102中的相关上下文来对语句进行动态地编码。上下文感知编码可以基于分级注意力机制。通过分级注意力机制,可以为语句中的每个词语选择文本102中的相关的跨语句上下文,并且可以进而对所选择的跨语句上下文执行加权。在许多情况下,跨语句上下文对于完整准确地理解语句的语义将是有帮助的。例如,假设当前语句是“他们一起在森林里走”,在该语句中并未对表述“他们”做出任何具体解释。如果先前语句是“小男孩和他的爸爸去郊游”,则可以基于先前语句所提供的上下文信息来确定当前语句中的“他们”实际上指的是“小男孩和他的爸爸”。由此,可以在后续步骤中检索与当前语句更为相关的图像,例如呈现了一个小男孩和一个男人的图像。
在为一个语句生成了词语表示序列后,文本到图像检索器110中的密集视觉语义匹配模块114可以基于该词语表示序列选择与该语句对应的至少一个图像。可以从预先创建的图像库130中检索图像。图像库130可以包括来自各种数据源的图像,例如电影中的图像、卡通中的图像、网络上抓取的图像等。图像库130中的图像可以作为候选图像,以便由密集视觉语义匹配模块114从中检索与语句对应的至少一个图像。在一种实施方式中,密集视觉语义匹配模块114不仅可以通过密集视觉语义匹配从图像库130中检索与每个语句相关的图像,还可以将该语句中的每个词语定位到所检索图像中的最相关的图像区域,其也被称为定位图像区域。所确定的定位图像区域可以进一步在后续的渲染过程中使用。在一种实施方式中,为了在故事板中尽可能多地覆盖文本中的细节,当一个语句较长时,密集视觉语义匹配模块114可以为一个语句检索一个以上的图像,即,进行一对多图像检索,以便可以利用多个图像来对一个语句进行视觉化。
文本到图像检索器110可以针对文本102中的每个语句检索一个或多个图像,所有这些检索的图像的集合形成与文本102或文本102中的多个语句对应的图像序列104。
故事板创作器120可以对图像序列104执行渲染处理,以获得经渲染的图像序列106。渲染处理可以增强所检索图像的灵活性,并且改进所生成的故事板的相关性、视觉一致性等。故事板创作器120所执行的渲染处理可以包括相关图像区域保留处理122、风格统一处理124以及元素替换处理126中的至少一个。
相关图像区域保留处理122可以在针对一个语句所检索的图像中,保留与该语句中的词语相关联的相关图像区域,和/或移除与该语句中的任何词语都不相关的非相关图像区域。以语句“一个小男孩走在森林里”为例,针对该语句所检索的图像中可能包括图像区域“小男孩”、图像区域“森林”图像区域“小狗”等。由于图像区域“小男孩”和图像区域“森林”分别与该语句中的词语“小男孩”和“森林”相关联,因此可以作为相关图像区域而保留,而由于图像区域“小狗”不与该语句中的任何词语相关联,因此可以作为非相关图像区域而移除。
风格统一处理124可以对图像序列104中的多个图像的不同风格进行统一。在本文中,图像的风格可以指基于不同标准划分的图像的表现形式或表现效果,例如包括色彩、轮廓、线条等,或者包括卡通、素描、真实人物画面等。图像序列104中的不同图像可能来自不同的源,从而可能具有不同的风格。为了增强最后生成的故事板中的不同图像的视觉一致性,可以通过对图像序列104执行风格统一处理124以使得图像序列104中的多个图像能够具有一致的风格。例如,如果图像序列104中包括彩色图像、黑白图像、卡通图像、素描图像等,则通过执行风格统一处理124,可以将图像序列104中的这些不同风格的图像统一成期望的风格,例如卡通风格。
元素替换处理126可以对图像序列104中的特定元素进行替换或统一。在本文中,图像中的元素可以是例如角色图像元素、场景图像元素等,并且可以包括图像中的一个或多个图像区域。角色图像元素可以指图像中展现角色的一个或多个图像区域,其中,角色可以指图像中的主要对象,例如人物、动物等。场景图像元素可以指图像中展现场景的一个或多个图像区域。因此,元素替换处理实际上可以包括角色图像元素替换处理、场景图像元素替换处理等。
对于文本102中的同一角色,所检索的来自不同源的图像可能具有采用不同角色形象的角色图像元素。例如,对于文本102中的角色“小男孩”,图像序列104中的不同图像可能包括来自不同电影的具有不同长相的“小男孩”的角色图像元素。通过元素替换处理126,可以识别出图像序列104中与同一角色对应的至少一个角色图像元素,并且将所识别出的至少一个角色图像元素替换成基于特定目标角色形象的目标角色图像元素。目标角色形象可以是专门为故事板中的该角色所预先设计的角色形象。用于替换角色图像元素的目标角色图像元素可以具有与该角色图像元素对应的姿态等,其中,姿态可以指动作、表情、位置、朝向等。
文本102中可能包括对场景的描述。以语句“狂风大作,一个小男孩艰难地走在森林里”为例,词语“狂风大作”、“森林”等描述了场景。相应地,针对该语句所检索的图像中可能包括场景图像元素“森林”,例如多颗大树的画面。通过元素替换处理126,可以识别出图像序列104中与至少一个场景相关联的至少一个场景图像元素,可以从预先创建的图像库中选择与该场景相关联的至少一个目标场景图像元素,并且可以将图像序列104中与该场景相关联的至少一个场景图像元素替换成与该场景相关联的目标场景图像元素。仍然继续上面的实例,例如,尽管所检索的图像中包括场景图像元素“森林”,但是这样的场景图像元素可能并不能完整地展现由“狂风大作”和“森林”的组合所描述的场景,例如“狂风中的森林”。然而,通过元素替换处理126,可以从预先创建的图像库中检索展现了“狂风中的森林”的目标场景图像元素,例如其描绘了树木在大风中摇摆的场景,并且该目标场景图像元素可以被用于替换图像序列104中的场景图像元素“森林”。经过场景图像元素替换后的图像将能够更充分地展现语句中所描述的场景。应当理解,用于场景图像元素替换的元素替换处理126也可以旨在将不同风格的场景图像元素进行统一。例如,预先创建的图像库中的各种候选目标场景图像元素可以具有统一的风格,从而,基于该预先创建的图像库所执行的场景图像元素替换也将导致图像序列104被渲染成具有统一风格的目标场景图像元素的图像序列。
经渲染的图像序列106可以进一步用于形成故事板108。在一种实施方式中,经渲染的图像序列106可以被适当地排列,并直接作为故事板108。在一种实施方式中,可以向经渲染的图像序列106中添加文字描述,例如文本102中的语句,以形成故事板108。在一种实施方式中,可以向经渲染的图像序列106中添加任何其它有助于故事相关产品创作的信息,以形成故事板108。
应当理解,图1的架构100中的文本到图像检索器110和故事板创作器120可以是通过硬件、软件或其组合等各种方式来实施的。例如,在硬件方式的实施中,可以采用例如专用处理器、控制器等来分别实现文本到图像检索器110和故事板创作器120。此外,例如,在软件方式的实施中,文本到图像检索器110和故事板创作器120可以被分别实现为对应的软件模块或计算机应用程序。
图2示出了根据实施例的自动生成故事板的实例200。
假设将要针对文本210生成故事板。文本210可以示例性地包括:语句210-1、语句210-2、……、语句210-N等。
可以通过例如图1的文本到图像检索器110,检索与文本210中的语句对应的图像序列220。图像序列220可以包括,例如,与语句210-1对应的图像220-1、与语句210-2对应的220-2、……、与语句210-N对应的220-N等。
可以通过例如图1的故事板创作器120,对图像序列220执行渲染处理以获得经渲染的图像序列230。渲染处理可以包括相关图像区域保留处理、风格统一处理以及元素替换处理中的至少一个。例如,通过相关图像区域保留处理,在图像230-2中保留了图像220-2中关于“小男孩”、“行李箱”等的相关图像区域,而移除了其它非相关图像区域。例如,通过风格统一处理,使得图像序列230中的图像具有统一的水彩画风格。
可以基于经渲染的图像序列230进一步形成故事板240。故事板240示例性地包括图像序列230以及对每个图像的文字描述,其中,文字描述可以来自于文本210中的语句。
应当理解,图2中的所有语句、图像等都是示例性的,其仅用于帮助直观地理解本公开实施例所涉及的处理阶段,而并非旨在对本公开的实施例做出任何限制。
下面将详细讨论根据本公开实施例的用于自动生成故事板的各种处理的示例性实施方式。
假设S={S1,S2,…,SN}表示包括N个语句的文本故事,每个语句Si可以被表示为词序列,例如
Figure BDA0002239251070000081
其中,ni为语句Si中包括的词语的数量。故事板生成的目的是生成用于对文本S进行视觉化的图像序列I={I1,I2,…,IM}。图像的数量M可能等于或不等于语句的数量N。
上下文感知编码
根据本公开的实施例,在基于文本检索图像的处理中可以对文本执行上下文感知编码。上下文感知编码可以利用文本中的语句内的必要的上下文以及跨语句的必要的上下文来对语句中的每个词语进行编码。图3示出了根据实施例的上下文感知编码器300的示例性结构。图3所示的上下文感知编码器300可以包括例如词语编码层、语句编码层、增强语句编码层、联合编码层等。上下文感知编码器300还可以包括分集注意力机制,其中,分集注意力机制可以包括例如第一注意力层级和第二注意力层级。在图3中,以针对文本中的第i个语句的编码为例说明上下文感知编码器300的结构及处理。
假设第i个语句被表示为Si,并且包括ni个词语
Figure BDA0002239251070000082
词语编码层可以通过对每个词语执行词嵌入来将词语转换为向量空间中的词嵌入向量。例如,词语编码层可以通过词嵌入矩阵We来执行词嵌入。
在语句编码层,对于词语
Figure BDA0002239251070000083
可以通过双向长短期记忆(LSTM)来捕获在单个语句Si内的上下文信息,如下:
Figure BDA0002239251070000084
Figure BDA0002239251070000085
Figure BDA0002239251070000086
其中,[·]是向量级联,
Figure BDA0002239251070000087
Wh、bh是学习的参数,
Figure BDA0002239251070000088
是对于词语
Figure BDA0002239251070000089
的具有语句内上下文信息的词语表示。进一步地,可以通过对每个语句内的词语的词语表示进行平均来在语句编码层处获得针对该语句的表示,如下:
Figure BDA0002239251070000091
由于每个词语的跨语句上下文可能不同,并且用于理解每个词语的跨语句上下文的分布也可能不同,上下文感知编码器300可以采用分级注意力机制来捕获跨语句上下文。第一注意力层级针对每个词语动态地选择相关的跨语句上下文。例如,从文本中的语句S1至语句SN的、分别在语句编码层处获得的语句表示h1、……、hN中,针对语句Si中的每个词语选择相关的跨语句上下文
Figure BDA0002239251070000092
如下:
Figure BDA0002239251070000093
Figure BDA0002239251070000094
Figure BDA0002239251070000095
其中,δ是非线性ReLU函数,并且
Figure BDA0002239251070000096
是参数。给定来自语句编码层的词语表示
Figure BDA0002239251070000097
及其跨语句上下文
Figure BDA0002239251070000098
第二注意力层级自适应地对每个词语的跨语句上下文的重要性进行加权,如下:
Figure BDA0002239251070000099
Figure BDA00022392510700000910
其中,σ是sigmoid函数,并且
Figure BDA00022392510700000911
是参数。因此,
Figure BDA00022392510700000912
是词语
Figure BDA00022392510700000913
的具有相关跨语句上下文信息的词语表示。
可选地,为了进一步在单个语句内分发更新的词语表示
Figure BDA00022392510700000914
在增强语句编码层中可以使用与公式(1)类似的双向LSTM,其生成每个词语的具有上下文信息的词语表示
Figure BDA00022392510700000915
在联合编码层,可以通过线性变换来将
Figure BDA00022392510700000916
转换为联合视觉语义嵌入空间中的词语表示
Figure BDA00022392510700000917
如下:
Figure BDA00022392510700000918
其中,Wx和bx是用于线性映射的参数。通过上述方式,
Figure BDA00022392510700000919
将会是利用单个语句内上下文和跨语句上下文两者来编码的。
在通过上下文感知编码器300获得语句Si中每个词语的词语表示
Figure BDA00022392510700000920
后,可以将由这些词语表示所构成的词语表示序列
Figure BDA00022392510700000921
用作对语句Si的精细粒度的表示。
密集视觉语义匹配
在获得了语句Si的词语表示序列后,可以基于该词语表示序列从图像库中的候选图像中选择与该语句对应的图像。可以将一个图像Ij表示为公共视觉语义空间中的精细粒度的图像区域表示集合
Figure BDA0002239251070000101
其中,mj是该图像中包括的图像区域的数量。图像区域可以是通过例如从下到上(bottom-up)注意力网络来检测的,使得每个图像区域能够表示对象、对象关系、场景等。
基于Si和Ij的密集表示以及每个精细粒度的跨模态对的相似度
Figure BDA0002239251070000102
可以应用密集匹配来计算全局语句-图像相似度F(Si,Ij),如下:
Figure BDA0002239251070000103
其中,f(·)可以是例如余弦相似度。密集匹配可以将每个词语定位到图像中的最相关的图像区域,然后可以在所有词语上对词语-图像区域相似度进行平均以作为全局语句-图像相似度。
密集视觉语义匹配的训练可以采用对比损失函数,如下:
Li=max(0,Δ-F(Si,Ii)+F(Si,Ij))+max(0,Δ-F(Si,Ii)+F(Sj,Ii))
公式(7)其中,Δ是预先设置的超参数,(Si,Ii)是匹配对,而(Si,Ij)和(Sj,Ii)是不匹配对。总损失函数是Li在训练集中的所有对上的平均。
上述的密集视觉语义匹配可以用于针对每个语句选择相关图像,并且可以将语句中的每个词语定位到图像中的最相关的图像区域。
一对多图像检索
在一种实施方式中,为了尽可能多地覆盖文本中的细节,密集视觉语义匹配可以为一个语句选择一个以上的图像,即,进行一对多图像检索。可以通过例如贪婪(greedy)解码算法来自动地选择多个图像,以便增强对文本内容的覆盖。
图4示出了根据实施例的示例性图像检索增强处理400。图像检索增强处理400能够被执行用于进行一对多图像检索。
在410处,可以将文本中的语句402划分成多个语段。在本文中,语段可以指语句中能够表达相对完整语义的一个或多个连续的词语的组合。例如,可以通过成分(constituency)解析来将语句402划分成多个语段。
在420处,可以获得多个语段中每个语段的语段表示。在一种实施方式中,可以基于通过图3所获得的语句的词语表示序列来获得该语句中的语段的语段表示。例如,可以使用一个语段中所包括的多个词语的词语表示的集合来作为该语段的语段表示。
在430处,可以通过密集视觉语义匹配来从图像库440中选择与每个语段对应的多个图像404或图像序列。对于每个语段,可以计算该语段与图像库440中的候选图像之间的相似度,并且基于该相似度来选择图像。在一种实施方式中,可以在通过密集视觉语义匹配来选择图像的过程中使用贪婪解码算法。例如,对于每个语段,可以首先尝试贪婪地选择排名最高的k个图像,这k个图像通常是相似的。如果这k个图像没有针对前面的语段而被检索过,则可以利用来自这k个图像中的附加图像对该语段进行视觉化,以便覆盖语句中的更多细节。否则,如果对于该语段所检索的k个图像已经针对前面的语段而被检索过,则这些图像将是冗余的而无需再被使用。
下面的表1示出了示例性的基于贪婪解码算法的图像检索增强处理。表1中的处理旨在针对语句S,从候选图像集合Ic中选择图像序列I′c
Figure BDA0002239251070000111
Figure BDA0002239251070000121
表1
在步骤1.1处,可以将语句S划分成np个语段。在步骤1.2处,可以通过与公式(6)类似的方式计算语段pt与图像Ij之间的相似度。在步骤1.3处,对I′c和I′r进行初始化,其中,I′r可以在后续的处理中用于收集已经为前面的语段选择的图像。在步骤1.4处,开始针对np个语段中的每个语段的循环处理。在步骤1.5处,如果确定F(pt,Ij)是针对语段pt所计算的、在pt与各个图像的相似度中排名最高的k个相似度之一,即,图像Ij是与语段pt最相关的k个图像之一,则在Ig中包括该图像Ij,其中,Ig可以用于收集与语段pt最相关的k个图像。应当理解,步骤1.5处的处理可以在Ic中的所有nc个候选图像上进行遍历。在步骤1.6处,可以确定Ig中的为语段pt收集的k个图像是否尚未针对先前的语段而被检索过。如果是,则在步骤1.7处将Ig中的图像合并到I′r中。在步骤1.8处,识别出与语段pt最相关的图像It,并且在步骤1.9处将It合并到I′c中。在步骤1.10处,可以结束步骤1.6处的判断。在步骤1.11处,可以结束在步骤1.4处开始的循环。最后,可以在步骤1.12处返回最终的I′c,其中包括针对语句S所选择的图像序列或多个图像。
应当理解,表1中所示的处理中的各个步骤都是示例性的,其旨在说明本公开实施例的各种示例性处理过程。根据具体的应用场景和需求,可以对这些步骤进行任意形式的改变,并且这些改变都将被本公开的实施例所涵盖。
根据本公开的实施例,在检索了与文本对应的图像序列后,可以通过对图像序列执行渲染处理来进一步增强故事板的灵活性、相关性、视觉一致性等。渲染处理可以包括各种不同的具体处理,例如包括相关图像区域保留处理、风格统一处理以及元素替换处理中的至少一个。
相关图像区域保留处理
图5示出了根据实施例的示例性相关图像区域保留处理500。
假设已经针对文本510检索了对应的图像序列520。以文本510中的一个语句512为例,在图像序列520中包括与该语句512对应的至少一个图像522。图像522可以包括多个图像区域530。
根据处理500,可以从图像522包括的多个图像区域530中识别被语句512中的每个词语所定位到的定位图像区域。如前所述,可以通过密集视觉语义匹配处理,将语句中的每个词语定位到图像中的对应定位图像区域。
在540处,可以确定所识别的定位图像区域是否关联于场景或对象。此处,关联于场景的定位图像区域可以指图像中涉及背景等的部分,关联于对象的定位图像区域可以指图像中涉及在语句中着重描述的角色或其它物体等的部分。
在一种实施方式中,可以通过确定与该定位图像区域对应的词语是描述了场景还是对象,来确定该定位图像区域是否关联于场景或对象。例如,如果与一个定位图像区域对应的词语为“森林”,则可以确定该定位图像区域关联于场景,而如果与一个定位图像区域对应的词语为“小男孩”或“面包”,则可以确定该定位图像区域关联于对象。可以预先创建包括描述场景的词语的场景词语库、包括描述对象的词语的对象词语库等,并且通过将语句中的词语与词语库中的词语进行语义比较来确定语句中的词语是描述了场景还是对象。
在另一种实施方式中,可以通过采用掩码区域卷积神经网络(Mask R-CNN)模型来确定该定位图像区域是否关联于场景或对象。在一些情形下,Mask R-CNN模型可以被训练用于在图像中专门针对对象来生成对象分割mask或对象边缘mask。可以通过将定位图像区域与由Mask R-CNN模型所生成的对象分割mask进行比较,来确定该定位图像区域是否关联于场景或对象。例如,如果定位图像区域与对象分割mask之间的重叠低于预定阈值,则可以确定该定位图像区域关联于场景。否则,可以确定该定位图像区域关联于对象。
如果在540处确定了定位图像区域关联于对象,可选地,可以在542处对该定位图像区域进行补全。在一些情形下,尽管通过密集视觉语义匹配处理所确定的定位图像区域与语句中的文本存在相关性,但是由于从下到上注意力网络并非被特别设计用于实现较高的分割质量,定位图像区域可能并不能准确地覆盖整个相关联的对象。例如,假设对象为“小男孩”,则定位图像区域可能仅包括小男孩的身体而不包括头部等。Mask R-CNN模型能够获得更高的对象分割质量,例如,可以从图像中识别出对应于某个对象的完整的区域或边缘。因此,可以通过例如启发式算法等来使用Mask R-CNN模型所生成的对象分割mask来对定位图像区域进行补全。例如,Mask R-CNN模型可以针对对象“小男孩”生成完整地覆盖该小男孩的图形的对象分割mask,该对象分割mask可以用于补全定位图像区域所遗漏的图像部分。可以在550处,将经补全的定位图像区域保留作为与语句中的词语相关联的相关图像区域。
如果在540处确定了定位图像区域关联于场景,可选地,可以在544处对该定位图像区域进行补全。类似于以上针对关联于对象的定位图像区域的讨论,关联于场景的定位图像区域也可能无法准确地覆盖整个相关联的场景。例如,假设场景为“森林”,则定位图像区域可能仅包括图像中森林的一部分,而不包括另一部分等。在一种实施方式中,Mask R-CNN模型也可以被用于对关联于场景的定位图像区域进行补全。在这种情形下,可以将MaskR-CNN模型扩展训练为能够从图像中识别出用于界定对应于某个场景的完整区域或边缘的场景分割mask。可以使用该场景分割mask来补全关联于场景的定位图像区域所遗漏的图像部分。然后,可以在550处,将经补全的定位图像区域保留作为与语句中的词语相关联的相关图像区域。
多个图像区域530还可能包括未被语句512中的任何词语所定位到的图像区域,即非定位图像区域534。在560处,可以将这些非定位图像区域534作为非相关图像区域而从图像522中移除。
应当理解,上述的处理500是示例性的,可以根据具体的应用场景和需求对该处理500进行任何形式的改变。例如,可以省略542处的补全操作和/或544处的补全操作,而直接在550将定位图像区域532保留作为相关图像区域。
图6示出了根据实施例的执行相关图像区域保留处理的实例。图像(a)是所检索的与语句“小男孩吃面包”对应的原始图像。图像(b)示出了在图像(a)中的通过密集视觉语义匹配所定位到的定位图像区域602和604,其中定位图像区域602对应于语句中的词语“面包”,而定位图像区域604对应于语句中的词语“小男孩”。从图中可以看出,定位图像区域604仅包括了对象“小男孩”的身体部分,而遗漏了小男孩的头部部分。图像(c)示出了利用Mask R-CNN模型所生成的对象分割mask而在图像(a)中所识别出的多个对象的图形,例如关于对象“小男孩”的图形、关于对象“面包”的图形、关于对象“桌子”的图形等。与对象“小男孩”对应的对象分割mask完整地覆盖了该对象“小男孩”。此外,图像(c)中还可能包括与语句中的任何词语都不相关的对象“桌子”。图像(d)示出了利用图像(c)中与对象“小男孩”对应的对象分割mask来对图像(b)中的定位图像区域604进行补全后的结果,其中,经补全的定位图像区域覆盖了对象“小男孩”的身体部分和头部部分两者。由于图像(d)是在图像(b)的基础上利用图像(c)中的对象分割mask进行补全的,因此,图像(d)既保持了与语句的相关性,也保证了所展现的对象的视觉完整性。
风格统一处理
风格统一处理可以对图像序列中的多个图像的不同风格进行统一。例如,将可能具有不同风格的多个图像统一成相同的期望的风格。可以通过任何已有的图像风格转换技术来执行风格统一处理。例如,可以预先训练用于将图像转换到特定风格的卷积神经网络模型。该模型可以用于将图像序列中的多个图像转换或统一为所述特定风格。
元素替换处理
元素替换处理可以包括角色图像元素替换处理、场景图像元素替换处理等中的至少一个。
图7示出了根据实施例的示例性角色图像元素替换处理700。
假设已经针对文本710检索了对应的图像序列720。文本710包括至少一个角色712,例如“小男孩”。在图像序列720的图像722中包括与该角色712相对应的至少一个角色图像元素724。角色图像元素724可以是图像722中关于小男孩的图像区域。
可以预先设计关于角色712“小男孩”的目标角色形象730。该目标角色形象730可以是例如卡通类型的小男孩形象。可以预先创建基于该目标角色形象730的图像库732。在图像库732中可以包括使用该目标角色形象730所创建的多个候选图像元素。在所述多个候选图像元素中,目标角色形象730可能具有不同的姿态,包括动作、表情、视角等。可以采用任何图形设计技术来创建候选图像元素。例如,可以首先设计三维(3D)的目标角色形象,然后通过任何3D设计软件对该目标角色形象施加各种不同的姿态,最后将3D设计结果映射为2D图像以形成基于目标角色形象的候选图像元素。
在740处,可以在角色图像元素724与图像库732中的候选图像元素之间执行姿态匹配。例如,可以首先从角色图像元素724中识别角色712的姿态,然后根据所识别出的姿态从图像库732中搜索出具有相同或类似姿态的候选图像元素。所搜索出的候选图像元素可以作为目标角色图像元素742。通过上述方式,可以基于姿态匹配,选择出与角色图像元素724对应的目标角色图像元素742。
在750处,可以在图像722中将角色图像元素724替换为目标角色图像元素742。
通过针对图像序列720中的所有图像以及所有角色反复地执行上述过程,可以将图像序列720中涉及同一角色的角色图像元素都替换为基于目标角色形象的目标角色图像元素。从而,实现了图像序列720中的角色形象的一致性。
应当理解,上述的处理700是示例性的,可以根据具体的应用场景和需求对该处理700进行任何形式的改变。例如,替代预先基于目标角色形象创建图像库,可以在从角色图像元素724中识别出角色的姿态后,使用目标角色形象基于该姿态来创建具有相同或相似姿态的基于目标角色形象的目标角色图像元素。该目标角色图像元素的创建可以采用与以上讨论的创建数据库732中的候选图像元素相类似的方式。
图8示出了根据实施例的示例性场景图像元素替换处理800。
假设已经针对文本810检索了对应的图像序列820。从文本810中可以识别出至少一个场景812。例如,文本810中可能包括词语“狂风大作”、“森林”等,这些词语描述了例如场景“狂风中的森林”。
可以在图像序列820的图像822中识别出与该场景812相关联的至少一个场景图像元素824。场景图像元素824可以是图像822中例如关于森林的图像区域。
可以预先创建数据库830,其包括例如具有统一风格的各种候选目标场景图像元素。在一种实施方式中,该风格可以与图7中涉及的目标角色形象相匹配。
在840处,可以从图像库830中选择与场景812相关联的目标场景图像元素842。例如,目标场景图像元素842可能展现了树木在大风中摇摆的场景。
在850处,可以在图像822中将场景图像元素824替换为目标场景图像元素842。
通过针对图像序列820中的所有图像反复地执行上述过程,可以将图像序列820中的场景图像元素都替换为目标场景图像元素。从而,经过场景图像元素替换的图像序列可以更充分地展现语句中所描述的场景,并且可以具有统一风格的场景图像元素。
应当理解,上述的处理800是示例性的,可以根据具体的应用场景和需求对该处理800进行任何形式的改变。
图9示出了根据实施例的检索和渲染图像序列的实例。在该实例中,针对文本中的每个语句仅检索了一个图像。
假设将要针对文本910生成故事板。文本910可以示例性地包括语句912、914和916。
可以通过例如图1的文本到图像检索器110来检索与文本910中的多个语句对应的图像序列920。图像序列920示例性地包括与语句912对应的图像922、与语句914对应的图像924以及与语句916对应的图像926。
可以对检索的图像序列920进一步执行渲染处理。
在经过相关图像区域保留处理后,可以获得图像序列930。图像序列930包括分别根据图像922、924和926所获得的图像932、934和936。以图像932为例,该图像932中保留了由语句912中的词语“饼”、“点上芝麻”等所定位到的相关图像区域,而移除了其它非相关图像区域。
然后,可以对经过相关图像区域保留处理的图像序列930执行风格统一处理,以获得图像序列940。图像序列940包括分别根据图像932、934和936所获得的图像942、944和946。图像序列940中的多个图像具有统一的风格,例如色调、线条等。
经过风格统一处理的图像序列940可以进一步用于形成故事板(未示出)。
应当理解,尽管未示出,但还可以对图9中的实例应用附加的处理。例如,可以对图像序列940进一步执行元素替换处理等。此外,应当理解,图9中的所有图像都示例性的,并且这些图像可以代表来自任何类型的源的图像。例如,所检索的图像序列920中的图像可以代表来自于电影中的实际拍摄画面。
图10A和图10B示出了根据实施例的检索和渲染图像序列的实例。在该实例中,针对文本中的每个语句检索了一个以上的图像,从而可以更充分地展现每个语句中的内容。仍然假设将要针对图9中的文本910生成故事板。
可以通过例如图1的文本到图像检索器110来检索与文本910中的多个语句对应的图像序列1010。可以通过以上讨论的一对多图像检索方法来针对每个语句检索多个图像。例如,图像序列1010中可以包括与语句912对应的图像集合1012,该图像集合1012包括与语句912中的多个语段分别对应的图像1012-1、1012-2、1012-3和1012-4。图像序列1010中可以包括与语句914对应的图像集合1014,该图像集合1014包括与语句914中的多个语段分别对应的图像1014-1、1014-2和1014-3。图像序列1010中可以包括与语句916对应的图像集合1016,该图像集合1016包括与语句916中的多个语段分别对应的图像1016-1和1016-2。以图像集合1016为例,在该图像集合1016中,图像1016-1可以对应于语句916中的语段“小男孩的父母找到了他”,而图像1016-2可以对应于语句916中的语段“吃上了真正香喷喷的饼”。
可以对检索的图像序列1010进一步执行渲染处理。
在经过相关图像区域保留处理后,可以获得图像序列1020。图像序列1020包括分别根据图像集合1012、1014和1016所获得的图像集合1022、1024和1026。例如,图像集合1022包括分别根据图像1012-1、1012-2、1012-3和1012-4所获得的图像1022-1、1022-2、1022-3和1022-4,图像集合1024包括分别根据图像1014-1、1014-2和1014-3所获得的图像1024-1、1024-2和1024-3,图像集合1026包括分别根据图像1016-1和1016-2所获得的图像1026-1和1026-2。
然后,可以对经过相关图像区域保留处理的图像序列1020执行风格统一处理,以获得图像序列1030。图像序列1030包括分别根据图像集合1022、1024和1026所获得的图像集合1032、1034和1036。例如,图像集合1032包括分别根据图像1022-1、1022-2、1022-3和1022-4所获得的图像1032-1、1032-2、1032-3和1032-4,图像集合1034包括分别根据图像1024-1、1024-2和1024-3所获得的图像1034-1、1034-2和1034-3,图像集合1036包括分别根据图像1026-1和1026-2所获得的图像1036-1和1036-2。图像序列1030中的多个图像具有统一的风格,例如色调、线条等。
然后,可以对经过风格统一处理的图像序列1030执行元素替换处理,以获得图像序列1040。图像序列1040包括分别根据图像集合1032、1034和1036所获得的图像集合1042、1044和1046。例如,图像集合1042包括分别根据图像1032-1、1032-2、1032-3和1032-4所获得的图像1042-1、1042-2、1042-3和1042-4,图像集合1044包括分别根据图像1034-1、1034-2和1034-3所获得的图像1044-1、1044-2和1044-3,图像集合1046包括分别根据图像1036-1和1036-2所获得的图像1046-1和1046-2。在图像序列1040中,将与文本910中的角色“小男孩”对应的所有角色图像元素替换成了基于目标角色形象的目标角色图像元素,其中目标角色形象是卡通类型的小男孩形象。此外,在图像序列1040中,也将图像序列1030中的场景图像元素分别替换成了与文本910中描述的场景对应的目标场景图像元素。
经过元素替换处理的图像序列1040可以进一步用于形成故事板(未示出)。
应当理解,图10A和图10B中的所有图像都示例性的,并且这些图像可以代表来自任何类型的源的图像。此外,也可以对图10A和图10B中的处理进行任意方式的改变。例如,可以省略风格统一处理,而直接针对经过相关图像区域保留处理的图像序列1020来执行元素替换处理,等等。
图11示出了根据实施例的用于自动生成故事板的示例性方法1100的流程图。
在1110处,可以获得包括多个语句的文本。
在1120处,可以检索与所述多个语句对应的图像序列。
在1130处,可以对所述图像序列进行渲染以获得经渲染的图像序列。
在1140处,可以提供包括所述经渲染的图像序列的故事板。
在一种实施方式中,所述检索可以包括,对于所述多个语句中的每个语句:通过上下文感知编码来生成所述语句的词语表示序列;以及通过密集视觉语义匹配,基于所述词语表示序列来选择与所述语句对应的至少一个图像。
所述上下文感知编码可以是基于分级注意力机制的。所述分级注意力机制可以包括:第一注意力层级,用于针对所述语句中的每个词语,在所述多个语句中选择跨语句上下文;以及第二注意力层级,用于针对为所述语句中的每个词语所选择的跨语句上下文执行加权。
所述密集视觉语义匹配可以包括:将所述语句中的每个词语定位到所述至少一个图像中的定位图像区域。
所述选择可以包括:将所述语句划分成多个语段;基于所述词语表示序列来获得与所述多个语段分别对应的多个语段表示;以及通过所述密集视觉语义匹配,基于所述多个语段表示来选择与所述多个语段分别对应的多个图像。
在一种实施方式中,所述渲染可以包括以下至少之一:对所述图像序列中的每个图像执行相关图像区域保留处理,所述相关图像区域保留处理包括保留与对应于该图像的语句中的词语相关联的相关图像区域和/或移除非相关图像区域;对所述图像序列执行风格统一处理;以及对所述图像序列执行元素替换处理。
所述保留相关图像区域可以包括:识别所述语句中的每个词语所定位到的、所述图像中的定位图像区域;通过掩码区域卷积神经网络模型对所述定位图像区域进行补全;以及将所述经补全的定位图像区域保留作为与所述词语相关联的相关图像区域。所述定位图像区域可以关联于场景或对象。
所述移除非相关图像区域可以包括:从所述图像中移除未被所述语句中的任何词语所定位到的图像区域。
所述执行元素替换处理可以包括:从所述图像序列中识别与所述多个语句中的同一角色相关联的至少一个角色图像元素;基于姿态匹配,从基于所述角色的目标角色形象而创建的图像库中,选择与所述至少一个角色图像元素对应的至少一个目标角色图像元素;以及将所述图像序列中的所述至少一个角色图像元素替换为所述至少一个目标角色图像元素。
所述执行元素替换处理可以包括:从所述多个语句中识别至少一个场景;从所述图像序列中识别与所述至少一个场景相关联的至少一个场景图像元素;从预先创建的图像库中选择与所述至少一个场景相关联的至少一个目标场景图像元素;以及将所述图像序列中的所述至少一个场景图像元素替换为所述至少一个目标场景图像元素。
应当理解,方法1100还可以包括根据上述本公开实施例的用于自动生成故事板的任何步骤/处理。
图12示出了根据实施例的用于自动生成故事板的示例性装置1200。
装置1200可以包括:文本获得模块1210,用于获得包括多个语句的文本;图像序列检索模块1220,用于检索与所述多个语句对应的图像序列;图像序列渲染模块1230,用于对所述图像序列进行渲染以获得经渲染的图像序列;以及故事板提供模块1240,用于提供包括所述经渲染的图像序列的故事板。
此外,装置1200还可以包括执行根据上述本公开实施例的用于自动生成故事板的方法中的任何步骤/处理的任何其它模块。
图13示出了根据实施例的用于自动生成故事板的示例性装置1300。
装置1300可以包括至少一个处理器1310以及存储了计算机可执行指令的存储器1320。当执行所述计算机可执行指令时,处理器1310可以:获得包括多个语句的文本;检索与所述多个语句对应的图像序列;对所述图像序列进行渲染以获得经渲染的图像序列;以及提供包括所述经渲染的图像序列的故事板。此外,处理器1310还可以执行根据上述本公开实施例的用于自动生成故事板的任何步骤/处理。
本公开的实施例还提供了用于自动生成故事板的装置,包括:文本到图像检索器,用于检索与文本中的多个语句对应的图像序列;以及故事板创作器,用于对所述图像序列进行渲染以获得经渲染的图像序列,以及基于所述经渲染的图像序列来形成故事板。
在一种实施方式中,所述文本到图像检索器可以用于,对于所述多个语句中的每个语句:通过上下文感知编码来生成所述语句的词语表示序列;以及通过密集视觉语义匹配,基于所述词语表示序列来选择与所述语句对应的至少一个图像。
所述上下文感知编码可以是基于分级注意力机制的。所述分级注意力机制可以包括:第一注意力层级,用于针对所述语句中的每个词语,在所述多个语句中选择跨语句上下文;以及第二注意力层级,用于针对为所述语句中的每个词语所选择的跨语句上下文执行加权。
所述密集视觉语义匹配可以包括:将所述语句中的每个词语定位到所述至少一个图像中的定位图像区域。
所述选择可以包括:将所述语句划分成多个语段;基于所述词语表示序列来获得与所述多个语段分别对应的多个语段表示;以及通过所述密集视觉语义匹配,基于所述多个语段表示来选择与所述多个语段分别对应的多个图像。
在一种实施方式中,所述故事板创作器可以用于通过以下至少之一来对所述图像序列进行渲染:对所述图像序列中的每个图像执行相关图像区域保留处理,所述相关图像区域保留处理包括保留与对应于该图像的语句中的词语相关联的相关图像区域和/或移除非相关图像区域;对所述图像序列执行风格统一处理;以及对所述图像序列执行元素替换处理。
此外,文本到图像检索器和故事板创作器还可以执行根据上述本公开实施例的用于自动生成故事板的任何步骤/处理。
本公开的实施例可以实施在非暂时性计算机可读介质中。该非暂时性计算机可读介质可以包括指令,当所述指令被执行时,使得一个或多个处理器执行根据上述本公开实施例的用于自动生成故事板的方法的任何操作。
应当理解,以上描述的方法中的所有操作都仅仅是示例性的,本公开并不限制于方法中的任何操作或这些操作的顺序,而是应当涵盖在相同或相似构思下的所有其它等同变换。
还应当理解,以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外,这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。
已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例,本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其它适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、DSP或其它适合的平台所执行的软件。
软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器,存储器可以例如为磁性存储设备(如,硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的,但是存储器也可以位于处理器内部(如,缓存或寄存器)。
以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。这些方面的各种修改对于本领域技术人员是显而易见的,本文限定的一般性原理可以应用于其它方面。因此,权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换,都将被包含到本文中,并且旨在由权利要求所覆盖。

Claims (20)

1.一种用于自动生成故事板的方法,包括:
获得包括多个语句的文本;
检索与所述多个语句对应的图像序列;
对所述图像序列进行渲染以获得经渲染的图像序列;以及
提供包括所述经渲染的图像序列的故事板。
2.如权利要求1所述的方法,其中,所述检索包括,对于所述多个语句中的每个语句:
通过上下文感知编码来生成所述语句的词语表示序列;以及
通过密集视觉语义匹配,基于所述词语表示序列来选择与所述语句对应的至少一个图像。
3.如权利要求2所述的方法,其中,所述上下文感知编码是基于分级注意力机制的。
4.如权利要求3所述的方法,其中,所述分级注意力机制包括:
第一注意力层级,用于针对所述语句中的每个词语,在所述多个语句中选择跨语句上下文;以及
第二注意力层级,用于针对为所述语句中的每个词语所选择的跨语句上下文执行加权。
5.如权利要求2所述的方法,其中,所述密集视觉语义匹配包括:
将所述语句中的每个词语定位到所述至少一个图像中的定位图像区域。
6.如权利要求2所述的方法,其中,所述选择包括:
将所述语句划分成多个语段;
基于所述词语表示序列来获得与所述多个语段分别对应的多个语段表示;以及
通过所述密集视觉语义匹配,基于所述多个语段表示来选择与所述多个语段分别对应的多个图像。
7.如权利要求1所述的方法,其中,所述渲染包括以下至少之一:
对所述图像序列中的每个图像执行相关图像区域保留处理,所述相关图像区域保留处理包括保留与对应于该图像的语句中的词语相关联的相关图像区域和/或移除非相关图像区域;
对所述图像序列执行风格统一处理;以及
对所述图像序列执行元素替换处理。
8.如权利要求7所述的方法,其中,所述保留相关图像区域包括:
识别所述语句中的每个词语所定位到的、所述图像中的定位图像区域;
通过掩码区域卷积神经网络(Mask R-CNN)模型对所述定位图像区域进行补全;以及
将所述经补全的定位图像区域保留作为与所述词语相关联的相关图像区域。
9.如权利要求8所述的方法,其中,所述定位图像区域关联于场景或对象。
10.如权利要求7所述的方法,其中,所述移除非相关图像区域包括:
从所述图像中移除未被所述语句中的任何词语所定位到的图像区域。
11.如权利要求7所述的方法,其中,所述执行元素替换处理包括:
从所述图像序列中识别与所述多个语句中的同一角色相关联的至少一个角色图像元素;
基于姿态匹配,从基于所述角色的目标角色形象而创建的图像库中,选择与所述至少一个角色图像元素对应的至少一个目标角色图像元素;以及
将所述图像序列中的所述至少一个角色图像元素替换为所述至少一个目标角色图像元素。
12.如权利要求7所述的方法,其中,所述执行元素替换处理包括:
从所述多个语句中识别至少一个场景;
从所述图像序列中识别与所述至少一个场景相关联的至少一个场景图像元素;
从预先创建的图像库中选择与所述至少一个场景相关联的至少一个目标场景图像元素;以及
将所述图像序列中的所述至少一个场景图像元素替换为所述至少一个目标场景图像元素。
13.一种用于自动生成故事板的装置,包括:
文本到图像检索器,用于检索与文本中的多个语句对应的图像序列;以及
故事板创作器,用于对所述图像序列进行渲染以获得经渲染的图像序列,以及基于所述经渲染的图像序列来形成故事板。
14.如权利要求13所述的装置,其中,所述文本到图像检索器用于,对于所述多个语句中的每个语句:
通过上下文感知编码来生成所述语句的词语表示序列;以及
通过密集视觉语义匹配,基于所述词语表示序列来选择与所述语句对应的至少一个图像。
15.如权利要求14所述的装置,其中,所述上下文感知编码是基于分级注意力机制的。
16.如权利要求15所述的装置,其中,所述分级注意力机制包括:
第一注意力层级,用于针对所述语句中的每个词语,在所述多个语句中选择跨语句上下文;以及
第二注意力层级,用于针对为所述语句中的每个词语所选择的跨语句上下文执行加权。
17.如权利要求14所述的装置,其中,所述密集视觉语义匹配包括:
将所述语句中的每个词语定位到所述至少一个图像中的定位图像区域。
18.如权利要求14所述的装置,其中,所述选择包括:
将所述语句划分成多个语段;
基于所述词语表示序列来获得与所述多个语段分别对应的多个语段表示;以及
通过所述密集视觉语义匹配,基于所述多个语段表示来选择与所述多个语段分别对应的多个图像。
19.如权利要求13所述的装置,其中,所述故事板创作器用于通过以下至少之一来对所述图像序列进行渲染:
对所述图像序列中的每个图像执行相关图像区域保留处理,所述相关图像区域保留处理包括保留与对应于该图像的语句中的词语相关联的相关图像区域和/或移除非相关图像区域;
对所述图像序列执行风格统一处理;以及
对所述图像序列执行元素替换处理。
20.一种用于自动生成故事板的装置,包括:
至少一个处理器;以及
存储器,其存储计算机可执行指令,当所述计算机可执行指令被执行时使所述至少一个处理器:
获得包括多个语句的文本,
检索与所述多个语句对应的图像序列,
对所述图像序列进行渲染以获得经渲染的图像序列,以及
提供包括所述经渲染的图像序列的故事板。
CN201910994216.7A 2019-10-18 2019-10-18 自动生成故事板 Pending CN112685582A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910994216.7A CN112685582A (zh) 2019-10-18 2019-10-18 自动生成故事板
PCT/US2020/054653 WO2021076381A1 (en) 2019-10-18 2020-10-08 Automatically generating a storyboard

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910994216.7A CN112685582A (zh) 2019-10-18 2019-10-18 自动生成故事板

Publications (1)

Publication Number Publication Date
CN112685582A true CN112685582A (zh) 2021-04-20

Family

ID=73038406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910994216.7A Pending CN112685582A (zh) 2019-10-18 2019-10-18 自动生成故事板

Country Status (2)

Country Link
CN (1) CN112685582A (zh)
WO (1) WO2021076381A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487629A (zh) * 2021-07-07 2021-10-08 电子科技大学 一种基于结构化场景和文本描述的图像属性编辑方法
CN113515951A (zh) * 2021-07-19 2021-10-19 同济大学 基于知识增强注意力网络和组级语义的故事描述生成方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11809822B2 (en) * 2020-02-27 2023-11-07 Adobe Inc. Joint visual-semantic embedding and grounding via multi-task training for image searching
CN113449741B (zh) * 2021-07-02 2023-05-02 西安交通大学 一种基于语义推断和图像理解的遥感影像定位方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070120706A (ko) * 2006-06-20 2007-12-26 뷰모션 (주) 텍스트-모션 변환을 이용한 디지털 스토리 보드 생성 방법및 시스템
US20120177345A1 (en) * 2011-01-09 2012-07-12 Matthew Joe Trainer Automated Video Creation Techniques
US20180356967A1 (en) * 2017-06-12 2018-12-13 Adobe Systems Incorporated Facilitating automatic generation of customizable storyboards
US10283163B1 (en) * 2018-02-16 2019-05-07 Wipro Limited Method and system for generating video content based on user data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070120706A (ko) * 2006-06-20 2007-12-26 뷰모션 (주) 텍스트-모션 변환을 이용한 디지털 스토리 보드 생성 방법및 시스템
US20120177345A1 (en) * 2011-01-09 2012-07-12 Matthew Joe Trainer Automated Video Creation Techniques
US20180356967A1 (en) * 2017-06-12 2018-12-13 Adobe Systems Incorporated Facilitating automatic generation of customizable storyboards
US10283163B1 (en) * 2018-02-16 2019-05-07 Wipro Limited Method and system for generating video content based on user data

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487629A (zh) * 2021-07-07 2021-10-08 电子科技大学 一种基于结构化场景和文本描述的图像属性编辑方法
CN113487629B (zh) * 2021-07-07 2023-04-07 电子科技大学 一种基于结构化场景和文本描述的图像属性编辑方法
CN113515951A (zh) * 2021-07-19 2021-10-19 同济大学 基于知识增强注意力网络和组级语义的故事描述生成方法
CN113515951B (zh) * 2021-07-19 2022-07-05 同济大学 基于知识增强注意力网络和组级语义的故事描述生成方法

Also Published As

Publication number Publication date
WO2021076381A1 (en) 2021-04-22

Similar Documents

Publication Publication Date Title
Stoll et al. Text2Sign: towards sign language production using neural machine translation and generative adversarial networks
CN112685582A (zh) 自动生成故事板
US11282257B2 (en) Pose selection and animation of characters using video data and training techniques
US11574392B2 (en) Automatically merging people and objects from multiple digital images to generate a composite digital image
CN111651635A (zh) 一种基于自然语言描述的视频检索方法
Zhou Generative adversarial network for text-to-face synthesis and manipulation
CN112233054B (zh) 基于关系三元组的人-物交互图像生成方法
US20240135613A1 (en) Modifying digital images via perspective-aware object move
US20240135561A1 (en) Modifying digital images via depth-aware object move
US20240169685A1 (en) Detecting shadows and corresponding objects in digital images
US20240169624A1 (en) Modifying digital images via scene-based editing using image understanding facilitated by artificial intelligence
US20240169502A1 (en) Detecting object relationships and editing digital images based on the object relationships
US20240171848A1 (en) Removing distracting objects from digital images
US20240169501A1 (en) Dilating object masks to reduce artifacts during inpainting
US20240127509A1 (en) Generating scale fields indicating pixel-to-metric distances relationships in digital images via neural networks
US20240144623A1 (en) Modifying poses of two-dimensional humans in two-dimensional images by reposing three-dimensional human models representing the two-dimensional humans
US20240144586A1 (en) Generating shadows for objects in two-dimensional images utilizing a plurality of shadow maps
US20240144520A1 (en) Generating three-dimensional human models representing two-dimensional humans in two-dimensional images
US20240135510A1 (en) Utilizing a generative machine learning model and graphical user interface for creating modified digital images from an infill semantic map
US20240168617A1 (en) Detecting and modifying object attributes
US20240135612A1 (en) Generating shadows for placed objects in depth estimated scenes of two-dimensional images
US20240169630A1 (en) Synthesizing shadows in digital images utilizing diffusion models
US20240135512A1 (en) Human inpainting utilizing a segmentation branch for generating an infill segmentation map
US20240135513A1 (en) Utilizing a warped digital image with a reposing model to synthesize a modified digital image
US20240135572A1 (en) Synthesizing a modified digital image utilizing a reposing model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination