CN107851116A

CN107851116A - 确定图像字幕

Info

Publication number: CN107851116A
Application number: CN201680041694.0A
Authority: CN
Inventors: 凯文·阿勒科特; 戴维·罗伯特·戈登
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-10-21
Filing date: 2016-10-14
Publication date: 2018-03-27
Also published as: US20170115853A1; WO2017070011A1; EP3308300A1

Abstract

提供了确定图像字幕的系统和方法。具体地，可以获得与图像相关联的元数据和图像识别数据。可以使用所述元数据和图像识别数据来生成与所述图像相关联的一个或者多个图像标签。可以进一步确定与所述图像相关联的一个或者多个字幕模板。在选择所述图像标签中的一个或者多个图像标签时，可以至少部分地基于所述用户选择通过使用字幕模板来生成图像字幕。所生成的字幕可以是提供与所述图像相关联的语义和/或场境信息的语句或者短语。

Description

确定图像字幕

技术领域

本公开大体上涉及确定图像字幕，并且更具体地，涉及至少部分地基于与图像相关联的元数据和图像识别数据来自动确定图像字幕。

背景技术

在各个在线平台或者服务上提交的图像可以伴有文本字幕。这样的字幕可以由用户输入，并且可以包括与图像相关联的语义和/或场境信息(contextual information)。例如，如图像中所描绘的，字幕可以提供对位置处正在执行的活动的描述。另外，图像字幕可以提供在图像中不可见或者不可表示的信息。图像字幕可以进一步用于与图像相关联的搜索和/或分类过程。例如，字幕可以与图像相关联，并且由搜索引擎在搜索索引等中使用。

发明内容

将在以下描述中部分地阐述本公开的实施例的方面和优点，或者其可以从该描述中学习，或者可以通过实践实施例来学习。

本公开的一个示例方面涉及一种确定与图像相关联的字幕的计算机实现的方法。该方法包括：由一个或者多个计算装置来识别与图像相关联的第一数据。该方法进一步包括：由该一个或者多个计算装置来识别与该图像相关联的第二数据。该方法进一步包括：由该一个或者多个计算装置至少部分地基于第一数据和第二数据来确定与该图像相关联的一个或者多个图像标签。该方法进一步包括：由该一个或者多个计算装置来接收一个或者多个用户输入。每个用户输入指示用户对该一个或者多个图像标签中的一个图像标签的选择。该方法进一步包括：由该一个或者多个计算装置至少部分地基于第一数据和第二数据来确定与该图像相关联的一个或者多个字幕模板。该方法进一步包括：由该一个或者多个计算装置，通过使用该一个或者多个字幕模板中的至少一个字幕模板来生成与该图像相关联的字幕。该字幕是至少部分地基于该一个或者多个用户输入来生成的。

第一数据可以是与该图像相关联的元数据。第二数据可以是与该图像相关联的图像特性数据。字幕模板可以包括短语模板，该短语模板具有词语序列和词语可以被插入的一个或者多个空格。由该一个或者多个计算装置来生成与图像相关联的字幕可以包括：由该一个或者多个计算装置至少部分地基于该一个或者多个用户输入来从该一个或者多个字幕模板中选择字幕模板；由该一个或者多个计算装置来识别与该字幕模板中的一个或者多个空格中的每个空格相关联的场境类别；以及由该一个或者多个计算装置至少部分地基于所识别的场境类别和该一个或者多个用户输入来将图像标签插入字幕模板中的每个空格中。

该方法可以进一步包括：由该一个或者多个计算装置在与该图像相关联的用户界面中提供所生成的字幕以供进行显示。图像特性数据可以包括和与该图像中描绘的内容相关联的一个或者多个图像特性有关的数据。图像特性数据可以通过使用一个或多个图像识别技术来获得。

该方法可以进一步包括：响应于接收到该一个或者多个用户输入，由该一个或者多个计算装置至少部分地基于该一个或者多个用户输入来确定与该图像相关联的一个或者多个第二标签。该一个或者多个第二标签可以至少部分地基于元数据和图像特性数据来进一步确定。一个或者多个图像标签可以包括至少一个推断图像标签和至少一个候选图像标签。该方法可以进一步包括：在接收到一个或者多个用户输入之前，由一个或者多个计算装置至少部分地基于该至少一个推断图像标签来生成与图像相关联的字幕。该至少一个推断图像标签和该至少一个候选图像标签可以至少基于与该一个或者多个图像标签相关联的置信值来确定。

本公开的其它示例方面涉及用于确定图像字幕的系统、设备、有形的非暂时性计算机可读介质、用户界面、存储器装置、以及电子装置。

多个方面可以促进改进与图像相关联的文本的用户输入，并且例如，可以向图像提供更有效率的字幕的用户输入，该用户输入需要与输入图像字幕的界面的较少用户交互。例如，促进与图像相关联的文本的用户输入可以提供与图像相关联的改进数据并且促进图像分类和搜索。

各个实施例的这些和其它特征、方面、和优点将参照以下描述和随附权利要求书而变得更好理解。包含在本说明书中并且构成本说明书的一部分的附图图示了本公开的实施例，并且连同该描述一起用于解释相关原理。

附图说明

在本说明书中阐述了针对本领域的技术人员的实施例的参照附图的详细讨论，在附图中：

图1描绘了根据本公开的示例实施例的用于确定图像字幕的示例用户界面；

图2描绘了根据本公开的示例实施例的用于确定图像字幕的示例用户界面；

图3描绘了根据本公开的示例实施例的用于确定图像字幕的示例用户界面；

图4描绘了根据本公开的示例实施例的确定图像字幕的示例方法的流程图；以及

图5描绘了根据本公开的示例实施例的示例系统。

具体实施方式

现在将详细介绍实施例，在附图中图示了该实施例的一个或者多个示例。提供各个示例是作为对实施例的解释，而不是作为对本公开的限制。实际上，对本领域的技术人员显而易见的是，在不脱离本公开的范围或者精神的情况下可以对实施例进行各种修改和变型。例如，作为一个实施例的一部分图示或者描述的特征可以与另一实施例一起使用来产生又一实施例。因此，本公开的各个方面旨在涵盖这样的修改和变型。

本公开的示例方面涉及确定与图像相关联的字幕。具体地，可以至少部分地基于与图像相关联的元数据和/或与图像相关联的图像识别数据来自动确定一个或者多个图像标签。例如，可以通过使用图像识别技术来确定图像识别数据。例如，图像识别数据可以包括与图像中描绘的内容相关联的图像特性。可以提供图像标签以供向用户进行显示，使得用户可以选择图像标签中的一个或者多个图像标签。在选择图像标签中的一个或者多个图像标签时，可以通过使用与图像相关联的字幕模板来生成字幕。例如，可以通过将一个或者多个所选择的图像标签中的至少一个图像标签插入与字幕模板相关联的空格中以形成语句或者短语，来生成字幕。

更具体地，可以识别或者以其他方式获得与图像相关联的元数据。图像可以是由与用户相关联的图像捕获装置捕获到的图像或者其它图像。元数据可以包括与图像相关联的信息，诸如，位置数据(例如，捕获到图像的位置)、图像的内容或者场境(context)的描述(例如，主题标签(hashtag)或者其它描述符)、时间数据(例如，时间戳)、图像性质、焦距、用户偏好、和/或其它数据。还可以在图像上使用一个或多个图像识别和/或计算机视觉技术来确定与图像中描绘的内容相关联的图像特性。具体地，可以使用图像识别技术来识别图像中描绘的信息或者以其他方式与图像相关联的信息。例如，可以使用图像识别技术来确定与图像相关联的一个或者多个场境类别(例如，图像是否描绘了食物、图像是否描绘了室内(interior)场景(setting)或者室外(exterior)场景等)。还可以使用图像识别技术来识别信息，诸如，图像中的人的存在、图像中的特定物品的存在和/或身份、图像中描绘的文本、图像中描绘的徽标、和/或其它信息。在一个特定实施例中，可以使用面部识别技术来识别图像中描绘的一个或者多个人。

可以从元数据和/或图像识别数据中确定一个或者多个图像标签。图像标签可以包括与图像相关联的个体的词语或者短语。图像标签可以包括广义描述符——诸如“food(食物)”或者“drink(饮料)”，和/或相对更狭义的描述符——诸如“pizza(披萨)”或者“beer(啤酒)”。作为另一示例，图像标签可以包括位置描述符，诸如，图像中描绘的餐厅或者其它位置的名称，或者以其他方式与图像相关联的位置描述符。例如，如果在寿司餐厅处捕获到图像，则标签可以指定与该寿司餐厅相关联的名称或者其它描述符。要了解，可以确定描述了图像的各个其它方面或者特性的各个其它合适的图像标签。

可以提供与图像相关联的图像标签中的至少一个图像标签以供进行显示。按照这种方式，所显示的标签可以是可由用户选择的，使得用户可以根据需要选择图像标签中的一个或者多个图像标签。例如，可以由与用户相关联的用户装置在用户界面中显示图像标签。如本文所使用的，用户装置可以包括智能电话、平板计算机、膝上型计算机、台式计算机、可穿戴计算装置、或者任何其它合适的计算装置。

在用户选择图像标签时，可以提供一个或者多个附加标签以供进行显示。可以至少部分地基于所选择的图像标签来确定一个或者多个附加标签。具体地，附加图像标签可以包括与所选择的图像标签相关联的描述符或者其它信息。例如，如果所选择的图像标签指定“food”，则附加图像标签可以包括与食物有关的信息(例如，“pizza”、“burgers(汉堡)”等)。在示例实施例中，附加图像标签在范围上可能比用户选择的图像标签更为狭义。附加图像标签根据需要也可以是用户可选择的。

在示例实施例中，可以确定或者识别与图像相关联的一个或者多个图像字幕模板。字幕模板可以是短语模板，该短语模板具有词语序列和可以插入词语(例如，图像标签)以使语句或者短语完整的一个或者多个空格。例如，可以至少部分地基于与图像相关联的元数据和图像识别数据来确定字幕模板。例如，可以将字幕模板和与图像有关的活动或者情景(scene)相关联。可以将不同的字幕模板与不同的活动或者情景相关联。例如，如果确定图像描绘了餐厅，则所确定的字幕模板可以涉及活动，诸如，在餐厅用餐或者饮酒。例如，这样的字幕模板可以指定“Eating_____at______(在____处吃____)”，其中，每个“____”表示可以插入图像标签的空格。

字幕模板的每个空格可以具有相关联的场境类别。场境类别可以指示可以被插入空格中的一个或多个类型的词语，使得通过将合适的词语(例如，包括在场境类别中的词语)插入空格中而形成的语句或者短语在句法上和在场境中是正确的。按照这种方式，场境类别可以包括语法特性，诸如，词性、时态、数目(例如，单数或者复数)、句法特性等。场境类别可以进一步包括场境规则或者准则，以确保通过将词语插入空格中而形成的语句在场境中有意义。例如，上述示例字幕模板从词语“eating(吃)”开始，并且包括紧接在其后的空格。按照这种方式，空格的场境类别可以指定插入空格中的词语涉及食物或者可以食用的其它物品。紧接着，字幕模板包括随后是另一空格的词语“at(在……处)”。该空格的场境类别可以包括可以食用食物的位置。

在对一个或者多个图像标签和/或附加图像标签的用户选择时，可以通过选择图像字幕模板并且将所选择的标签中的至少一个标签插入所选择的字幕模板的合适空格中来生成图像字幕。例如，可以至少部分地基于所选择的标签来选择字幕模板。具体地，可以选择字幕模板以使得在将所选择的标签插入字幕模板的空格中时，形成适当的、在句法上正确的语句或者短语。按照这种方式，可以确定字幕模板，使得所选择的标签被包括在与该字幕模板的空格相关联的场境类别中。然后可以通过将所选择的标签插入字幕模板中来生成字幕。

在示例实施例中，所确定的图像标签可以包括推断标签和/或候选标签。按照这种方式，一个或者多个标签可以具有相关联的置信值。置信值可以提供图像标签准确地描述图像的内容或与图像相关联的活动或者和图像的内容或者与图像相关联的活动有关的估计可能性的指示。在这样的实施例中，推断标签可以包括具有高于置信阈值的关联的置信值的图像标签，并且候选标签可以包括具有低于置信阈值的关联的置信值的图像标签。在一个特定实施方式中，可以在用户不必选择图像标签的情况下针对至少一个推断标签自动生成字幕。按照这种方式，可以提供与自动生成的字幕和推断标签相关联的候选标签以供进行显示。候选标签可以是可选择的。例如，当用户选择候选标签时，可以基于用户选择并且根据本公开的示例实施例来生成新字幕。在进一步的示例实施例中，所选择的图像标签和/或推断图像标签可以是可由用户移除的。按照这种方式，如果用户移除标签，则可以至少部分地基于该移除来生成新字幕。

现在参照附图，将进一步详细地讨论本公开的示例实施例。例如，图1至3描绘了与确定图像字幕相关联的示例用户界面100。具体地，图1描绘了图像102。图像102描绘了与餐厅中的寿司餐相关联的情景。用户界面100进一步包括推断图像标签104(例如，#The SushiBar(寿司吧))和图像字幕106(例如，Relaxing at The Sushi Bar(在寿司吧放松))。如上文指示的，可以至少部分地根据与图像102相关联的元数据来确定推断图像标签104和/或图像字幕106。元数据可以是不包含在图像本身中的与图像相关联的信息。还可以至少部分地根据通过使用一个或多个图像识别和/或计算机视觉技术而获得的图像识别数据来确定推断图像标签104和/或图像字幕106。可以使用图像识别和/或计算机视觉技术来识别图像中描绘的一个或者多个物品或者对象。例如，可以使用与图像102相关联的这样的技术来确定：例如图像102描绘了寿司碗和在餐厅食用的一杯汤。要了解，还可以使用图像识别和/或计算机视觉技术来识别图像的各个其它合适的方面，诸如，图像中描绘的人、徽标、文本等的存在和/或识别、捕获到图像的日内时间、图像是在室内场景还是室外场景中捕获到的、和/或图像的各个其它方面。按照这种方式，可以确定与元数据和/或图像识别数据有关的一个或者多个图像标签(例如，推断图像标签104)。

可以至少部分地基于推断图像标签104来生成图像字幕106。例如，可以通过从所确定的图像字幕模板集合中选择图像字幕模板来生成字幕106，每个图像字幕模板包括词语序列和空格。如下文关于图4更详细地描述的，可以选择图像字幕模板以使得在将推断图像标签104插入图像字幕模板中时，形成在句法上和在场境中正确的语句或者短语。例如，可以从指定“Relaxing at____(在____处放松)”的字幕模板中生成字幕106，其中，“____”标示空格。

用户界面100进一步包括候选图像标签108。还可以至少部分地根据与图像相关联的元数据和/或图像识别数据来确定候选图像标签108。按照这种方式，候选图像标签106还可以涉及所描绘的内容和/或与图像102相关联的其它信息。候选图像标签106可以是可由用户选择的。相似地，推断图像标签104可以是可由用户移除的。当用户选择候选图像标签106和/或移除推断图像标签104时，可以确定一个或者多个附加图像标签，并且可以生成新图像字幕。

例如，图2描绘了在用户已经选择了标有“+food(+食物)”的候选图像标签106之后的用户界面100。如所描绘的，标有来自图1的“+food”的候选图像标签106已经变成标有“#food(#食物)”的所选择的图像标签110。按照这种方式，可以显示和/或存储所选择的图像标签作为主题标签。进一步地，已经确定了附加候选图像标签112并且已经提供了附加候选图像标签112以供在用户界面100中进行显示。附加候选图像标签112还关于所选择的图像标签110和推断图像标签104。所选择的图像标签110可以是可由用户移除的。例如，如果用户移除了所选择的图像标签110，则所选择的图像标签110可以再次变成候选图像标签，并且用户界面100可以显示一个或者多个不同的候选图像标签，诸如图1中所描绘的那些候选图像标签。另外，与图1中描绘的候选图像标签106相似，附加候选图像标签112可以是可由用户选择的。按照这种方式，当选择附加候选图像标签112时，可以确定和/或显示另一组候选图像标签，并且可以生成新图像字幕。

例如，图3描绘了在用户已经选择了标有“+sushi(+寿司)”的附加候选图像标签112之后的用户界面100。如图所示，添加“#sushi”作为所选择的图像标签110，并且显示了附加候选图像标签114。另外，图3描绘了指定“Eating sushi at The Sushi Bar(在寿司吧吃寿司)”的新图像字幕116。例如，可以通过选择新合适的图像字幕模板并且将推断图像标签104和标有“#sushi”的所选择的图像标签110插入该字幕模板中来生成新图像字幕116。

要了解，可以确定和/或生成各个其它合适的图像标签和/或图像字幕。例如，用户可以根据需要选择或者移除各个图像标签组合直到生成充分的图像字幕为止。另外，描绘了各个其它情景或者活动的各个其它图像可以包括不同元数据和/或图像识别数据，并且由此在不脱离本公开的范围的情况下可以包括不同的图像标签、图像字幕模板、和/或图像字幕。

图4描绘了根据本公开的示例实施例的确定图像字幕的示例方法(200)的流程图。方法(200)可以由一个或者多个计算装置——诸如图5中描绘的计算装置中的一个或者多个计算装置——实现。另外，出于图示和讨论之目的，图4描绘了按照特定顺序执行的步骤。通过使用本文提供的公开内容，本领域的技术人员将理解，在不脱离本公开的范围的情况下，可以按照各种方式对本文所讨论的任何方法的步骤进行调整、重新排列、扩展、省略、或者修改。

在(202)中，方法(200)可以包括：识别与图像相关联的元数据。如上文指示的，元数据可以包括与图像和/或捕获到图像的图像捕获装置相关联的信息。例如，与图像相关联的元数据可以包括所有权数据、版权信息、图像捕获装置标识数据、曝光信息、描述性信息(例如，主题标签、关键字等)、位置数据(例如，原始位置数据，诸如，纬经度坐标、GPS数据等)、和/或各个其它元数据。

在(204)中，方法(200)可以包括：识别与图像相关联的图像识别数据。如上文指示的，可以通过使用一个或多个图像识别技术来获得图像识别数据，以识别图像中描绘的内容的各个方面和/或特性。例如，图像识别数据可以包括图像中描绘的一个或者多个物品、对象、人、徽标等。在示例实施例中，可以使用图像识别数据来识别或者确定与图像相关联的一个或者多个类别，诸如，与图像的场景、图像中描绘的内容等相关联的类别。

在(206)中，方法(200)可以包括：至少部分地基于元数据和图像识别数据来确定与图像相关联的一个或者多个图像标签。如上文指示的，图像标签可以包括与图像中描绘的内容和/或图像的各个其它方面有关的描述符(例如，词语或者短语)。在示例实施例中，图像标签可以具有关联的置信值，该关联的置信值提供了对图像标签与图像的密切程度的估计。按照这种方式，可以至少部分地基于图像标签的置信值来将图像标签分成推断图像标签和建议图像标签。在替选实施例中，用户可以输入与图像相关联的一个或者多个标签。

在(208)中，方法(200)可以包括：接收一个或者多个用户输入。每个用户输入可以指示用户对图像标签的选择或者移除。例如，可以在用户装置上的用户界面中显示图像标签(和图像)。用户输入可以包括一个或者多个触摸手势、键击(keystroke)、鼠标点击、语音命令、运动姿态等。

在(210)中，方法(200)可以包括：确定或者以其他方式识别与图像相关联的一个或者多个字幕模板。一个或者多个字幕模板可以包括词语序列和空格，并且可以形成语句或者短语的至少一部分。可以至少部分地基于元数据和图像识别数据来确定或者识别字幕模板。具体地，字幕模板可以关于与图像相关联的内容和/或其它信息。例如，如果图像描绘了餐厅场景，则图像字幕模板可以涉及食用或者享用食物。在一个特定实施方式中，可以至少部分地基于所选择的图像标签来确定一个或者多个字幕。按照这种方式，可以响应于接收到元数据和/或图像识别数据或者响应于推断图像标签和/或所选择的图像标签，确定或者识别字幕模板。

在(212)中，方法(200)可以包括：生成与图像相关联的字幕。可以通过从一个或者多个所确定的字幕模板中选择图像字幕模板来生成字幕。可以至少部分地基于所选择的图像标签来选择图像字幕。例如，可以通过识别与图像字幕模板相关联的一个或者多个场境类别和/或图像字幕模板中的空格并且选择具有与所选择的标签相匹配或者以其他方式相符的场境类别的图像字幕模板来选择图像字幕模板。按照这种方式，如上所述，场境类别可以包括语法特性，使得所生成的字幕在句法上有意义。场境类别还可以包括场境特性，使得所生成的字幕在场境中有意义。

在(214)中，方法(200)可以包括：提供所生成的字幕以供进行显示。例如，可以在用户界面中显示与图像相关联的所生成的字幕。

在示例实施例中，例如，可以将图像、元数据、图像识别数据、所选择的图像标签、和/或所生成的字幕存储在服务器处的一个或者多个数据库中。例如，可以存储所选择的图像标签作为与图像相关联的主题标签。按照这种方式，这样的数据可以与图像相关联并且可以用于搜索、分类、和/或与图像和/或相似图像相关联的其它过程。

图5描绘了可以用于实现根据本公开的示例方面的方法和系统的示例计算系统300。可以通过使用包括通过网络340与一个或者多个客户端装置330进行通信的服务器310的客户端-服务器架构来实现系统300。可以通过使用其它合适的架构——诸如单个计算装置——来实现系统300。

系统包括一个或者多个客户端装置——诸如客户端装置330。可以通过使用任何合适的计算装置来实现客户端装置330。例如，客户端装置330中的每一个可以是任何合适类型的计算装置，诸如，通用计算机、专用计算机、膝上型计算机、台式计算机、移动装置、导航系统、智能电话、平板计算机、可穿戴计算装置、具有一个或者多个处理器的显示器、或者其它合适的计算装置。客户端装置330可以具有一个或者多个处理器332和一个或者多个存储器装置334。客户端装置330还可以包括用于通过网络340与一个或者多个客户端装置330进行通信的网络接口。网络接口可以包括用于与一个或者多个网络相接口的任何合适的组件，包括，例如，发射器、接收器、端口、控制器、天线、或者其它合适的组件。

一个或者多个处理器332可以包括任何合适的处理装置，诸如微处理器、微控制器、集成电路、逻辑装置、或者其它合适的处理装置。一个或者多个存储器装置334可以包括一个或者多个计算机可读介质，包括但不限于，非暂时性计算机可读介质、RAM、ROM、硬盘驱动器、闪速驱动器、或者其它存储器装置。一个或者多个存储器装置314可以存储可由一个或者多个处理器332访问的信息，包括可以由一个或者多个处理器332执行的计算机可读指令316。指令336可以是任何指令集，该任何指令集在由一个或者多个处理器332执行时使得一个或者多个处理器332执行操作。例如，指令336可以由一个或者多个处理器332执行以实现图像识别器342和字幕生成器344，该图像识别器342配置为通过使用一个或多个图像识别技术来获得与图像相关联的信息，该字幕生成器344配置为生成图像字幕。

如图5所示，一个或者多个存储器装置334还可以存储可由一个或者多个处理器332检索、操纵、创建、或者存储的数据338。例如，数据338可以包括图像识别数据、元数据、字幕模板、以及其它数据。可以将数据338存储在一个或者多个数据库中。一个或者多个数据库可以通过高带宽LAN或者WAN连接至服务器310，或者也可以通过网络340连接至服务器310。可以使一个或者多个数据库分开，使得该一个或者多个数据库位于多个场所中。

客户端装置330可以进一步包括用于提供和接收来自用户的信息的各个输入/输出装置，诸如，触摸屏、触摸板、数据录入键、图像捕获装置、扬声器、和/或适合于语音识别的麦克风。例如，根据本公开的示例方面，客户端装置330可以具有用于呈现显示语义地名的用户界面的显示装置335。

客户端装置330还可以包括用于通过网络340与一个或者多个远程计算装置(例如，服务器310)进行通信的网络接口。网络接口可以包括用于与一个或者多个网络相接口的任何合适的组件，包括：例如发射器、接收器、端口、控制器、天线、或者其它合适的组件。

系统300进一步包括服务器310，诸如web服务器。服务器310可以通过网络340与一个或者多个客户端装置330交换数据。尽管图8中图示了两个客户端装置330，但是可以通过网络340将任何数目的客户端装置330连接至服务器310。

与客户端装置330相似，服务器310可以包括一个或者多个处理器312和存储器314。一个或者多个处理器312可以包括一个或者多个中央处理单元(CPU)和/或其它处理装置。存储器314可以包括一个或者多个计算机可读介质并且可以存储可由一个或者多个处理器312访问的信息，其包括可以由一个或者多个处理器312执行的指令316和数据318。

网络340可以是任何类型的通信网络，诸如局域网(例如，内联网)、广域网(例如，互联网)、蜂窝网络、或者它们的一些组合。网络340还可以包括客户端装置330与服务器310之间的直接连接。通常，可以通过使用任何类型的有线和/或无线连接、通过使用各种通信协议(例如，TCP/IP、HTTP、SMTP、FTP)、编码或者格式(例如，HTML、XML)、和/或保护方案(例如，VPN、安全HTTP、SSL)经由网络接口来携载服务器310与客户端装置330之间的通信。

本文所讨论的技术参照服务器、数据库、软件应用、和其它基于计算机的系统、以及所采取的动作和向这样的系统和从这样的系统发送的信息。本领域的普通技术人员将认识到，基于计算机的系统的固有灵活性允许各种可能的配置、组合、以及组件间的任务和功能的划分。例如，可以通过使用单个服务器或者组合地工作的多个服务器来实现本文所讨论的服务器过程。可以在单个系统上实现数据库和应用，或者可以将数据库和应用跨多个系统分布。可以按顺序或者并行执行分布式组件。

虽然已经针对本主题的特定示例实施例详细地描述了本主题，但是应该了解的是，本领域的技术人员在获得对前述内容的理解之后可以容易地产生这样的实施例的变更、这样的实施例的变型、以及这样的实施例的等同物。因此，本公开的范围是作为示例，而不是作为限制，并且本公开不排除对本领域的普通技术人员显而易见的本主题的这样的改变、变型、和/或添加的包含。

Claims

1.一种确定与图像相关联的字幕的计算机实现的方法，所述方法包括：

由一个或者多个计算装置来识别与图像相关联的元数据；

由所述一个或者多个计算装置来识别与所述图像相关联的图像特性数据；

由所述一个或者多个计算装置至少部分地基于所述元数据和所述图像特性数据来确定与所述图像相关联的一个或者多个图像标签；

由所述一个或者多个计算装置来接收一个或者多个用户输入，每个用户输入指示所述用户对所述一个或者多个图像标签中的一个图像标签的选择；

由所述一个或者多个计算装置至少部分地基于所述元数据和所述图像特性数据来确定与所述图像相关联的一个或者多个字幕模板；以及

由所述一个或者多个计算装置使用所述一个或者多个字幕模板中的至少一个字幕模板来生成与所述图像相关联的字幕，所述字幕是至少部分地基于所述一个或者多个用户输入来生成的。

2.根据权利要求1所述的计算机实现的方法，其中，所述字幕模板包括短语模板，所述短语模板具有词语序列和词语能够被插入的一个或者多个空格。

3.根据权利要求2所述的计算机实现的方法，其中，由所述一个或者多个计算装置来生成与所述图像相关联的字幕包括：

由所述一个或者多个计算装置至少部分地基于所述一个或者多个用户输入来从所述一个或者多个字幕模板中选择字幕模板；

由所述一个或者多个计算装置识别与所述字幕模板中的所述一个或者多个空格中的每个空格相关联的场境类别；以及

由所述一个或者多个计算装置至少部分地基于所识别的场境类别和所述一个或者多个用户输入来将图像标签插入所述字幕模板中的每个空格中。

4.根据前述权利要求中的任一项所述的计算机实现的方法，进一步包括：由所述一个或者多个计算装置在与所述图像相关联的用户界面中提供所生成的字幕以供进行显示。

5.根据前述权利要求中的任一项所述的计算机实现的方法，其中，所述图像特性数据包括和与所述图像中描绘的内容相关联的一个或者多个图像特性有关的数据。

6.根据权利要求5所述的计算机实现的方法，其中，所述图像特性数据是通过使用一个或多个图像识别技术来获得的。

7.根据前述权利要求中的任一项所述的计算机实现的方法，进一步包括：响应于接收到所述一个或者多个用户输入，由所述一个或者多个计算装置至少部分地基于所述一个或者多个用户输入来确定与所述图像相关联的一个或者多个第二标签。

8.根据权利要求7所述的计算机实现的方法，其中，所述一个或者多个第二标签是至少部分地基于所述元数据和所述图像特性数据来进一步确定的。

9.根据前述权利要求中的任一项所述的计算机实现的方法，其中，所述一个或者多个图像标签包括至少一个推断图像标签和至少一个候选图像标签。

10.根据权利要求9所述的计算机实现的方法，进一步包括：在接收到所述一个或者多个用户输入之前，由所述一个或者多个计算装置至少部分地基于所述至少一个推断图像标签来生成与所述图像相关联的字幕。

11.根据权利要求9所述的计算机实现的方法，其中，所述至少一个推断图像标签和所述至少一个候选图像标签是至少基于与所述一个或者多个图像标签相关联的置信值来确定的。

12.一种携载计算机程序的计算机可读介质，所述计算机程序包括计算机可读指令，所述计算机可读指令被配置为使得计算机执行根据前述权利要求中的任一项所述的方法。

13.一种计算机设备，包括：

存储器，所述存储器存储处理器可读指令；以及

处理器，所述处理器被布置为读取和执行存储在所述存储器中的指令；

其中，所述处理器可读指令包括被布置为控制所述计算机执行根据权利要求1至11中的任一项所述的方法的指令。