CN117237834A

CN117237834A - 图像描述方法、电子设备及计算机可读存储介质

Info

Publication number: CN117237834A
Application number: CN202210644825.1A
Authority: CN
Inventors: 吴觊豪; 王宁
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2023-12-15
Also published as: WO2023236908A1

Abstract

本申请适用于终端技术领域，尤其涉及一种图像描述方法、电子设备及计算机可读存储介质。该方法中，当需要进行图像描述时，电子设备可以确定图像对应的第一引导词，即确定图像对应的描述场景，从而可以根据第一引导词准确生成图像对应的第一描述文本，使得对于不同场景下的图像，均能生成准确性较高的描述文本，提高图像描述的准确性，提升用户体验。

Description

图像描述方法、电子设备及计算机可读存储介质

技术领域

本申请属于终端技术领域，尤其涉及图像描述方法、电子设备及计算机可读存储介质。

背景技术

图像描述是指对给定的图像生成该图像相关的描述信息，是计算机视觉和自然语言处理的一项复杂性的任务，可应用于盲人引导场景，以帮忙盲人用户理解电子设备的屏幕内容或通过电子设备理解周围环境等，也可应用于信息检索等场景。因此，如何对不同场景下的图像进行准确的图像描述是当前亟待解决的问题。

发明内容

本申请实施例提供了一种图像描述方法、电子设备及计算机可读存储介质，可以对不同场景下的图像进行准确的图像描述。

第一方面，本申请实施例提供了一种图像描述方法，应用于电子设备，所述方法可以包括：

获取待描述的图像；

确定所述图像对应的第一引导词，所述第一引导词用于指示所述图像对应的描述场景；

根据所述第一引导词生成所述图像对应的第一描述文本，所述第一描述文本与所述图像对应的描述场景对应。

在上述的图像描述方法中，当需要进行图像描述时，电子设备可以确定图像对应的第一引导词，即确定图像对应的描述场景，从而可以根据第一引导词准确生成图像对应的第一描述文本，使得对于不同场景下的图像，均能生成准确性较高的描述文本，提高图像描述的准确性，提升用户体验。

应理解，图像对应的描述场景可以为普通图像场景、文本图像场景、关键物体场景和卡证图像场景中的一个。其中，文本图像场景是指待描述的图像中包含文本的场景。关键物体场景是指待描述的图像中包含关键物体的场景。卡证图像场景是指待描述的图像中包含银行卡、会员卡等各种卡片或身份证、驾驶证等各种证件的场景。普通图像场景是指待描述的图像为纯图像(即不包含文本、关键物体和卡证)的场景。关键物体可以是指用户所关注的任一物体，例如，可以是公交站牌、桌子和椅子等任一物体，也可以是用户行进途中的任一障碍物等。

在一种可能的实现方式中，所述确定所述图像对应的第一引导词，可以包括：

对所述图像进行场景检测，确定所述图像对应的描述场景；

根据所述图像对应的描述场景，确定所述图像对应的第一引导词。

在该实现方式提供的图像描述方法中，可以事先设置描述场景与引导词之间的预设对应关系。其中，描述场景与引导词之间的预设对应关系可以设置于电子设备中，也可以设置于与电子设备通信连接的第三方设备中，例如可以设置于云端服务器中。因此，在进行图像描述时，电子设备可以对图像进行场景分析，确定图像对应的描述场景，从而根据图像对应的描述场景和预设对应关系确定图像对应的第一引导词。

在一示例中，电子设备中可以设置有文本图像场景对应的引导词为“图片包含文本”，关键物体场景对应的引导词为“图片包含关键物体”，卡证图像场景对应的引导词为“图片包含卡片”，以及普通图像场景对应的引导词为“普通图片包含”，等等。因此，当电子设备对图像进行场景分析，确定图像对应的描述场景为普通图像场景时，电子设备可以确定图像对应的第一引导词为“普通图片包含”。当电子设备对图像进行场景分析，确定图像对应的描述场景为文本图像场景时，电子设备可以确定图像对应的第一引导词为“图片包含文本”。当电子设备对图像进行场景分析，确定图像对应的描述场景为关键物体场景时，电子设备可以确定图像对应的第一引导词为“图片包含关键物体”。当电子设备对图像进行场景分析，确定图像对应的描述场景为卡证图像场景时，电子设备可以确定图像对应的第一引导词为“图片包含卡证”，等等。

可选的，电子设备可以通过文本检测，确定图像中是否包含文本，以此来确定图像对应的描述场景是否为文本图像场景。可选的，电子设备可以通过目标检测，确定图像中是否包含关键物体，以此来确定图像对应的描述场景是否为关键物体场景。类似的，电子设备可以通过目标检测，确定图像中是否包含卡证，以此来确定图像对应的描述场景是否为卡证图像场景。可选的，当电子设备确定图像对应的描述场景既不是文本图像场景，也不是关键物体场景和卡证图像场景时，电子设备可以确定图像对应的描述场景为普通图像场景。

示例性的，所述对所述图像进行场景检测，确定所述图像对应的描述场景，可以包括：

对所述图像进行场景检测，确定所述图像对应的候选场景；

当所述候选场景包括多个时，获取各所述候选场景对应的优先级；

根据各所述候选场景对应的优先级，确定所述图像对应的描述场景，所述图像对应的描述场景为所述候选场景中的一个。

在该实现方式提供的图像描述方法中，可以事先设置有各描述场景对应的优先级。各描述场景对应的优先级可以设置于电子设备中，也可以设置于与电子设备通信连接的第三方设备中，例如可以设置于云端服务器中。当对图像进行场景检测，确定图像对应的描述场景(为便于区分，可以称为候选场景)为两个或两个以上时，电子设备可以根据各候选场景对应的优先级，来准确确定图像当前对应的描述场景。应理解，各描述场景对应的优先级可以由电子设备默认设置，也可以由用户自定义设置。

可选的，电子设备可以根据文本在图像中所占的比例、关键物体在图像中所占的比例以及卡证在图像中所占的比例来确定各描述场景对应的优先级。可选的，当所占的比例越大时，电子设备可以确定该比例所对应的描述场景的优先级越高，当所占的比例越小时，电子设备可以确定该比例所对应的描述场景的优先级越低。

可选的，用户可以根据自身感兴趣的内容来自定义设置各描述场景对应的优先级，使得电子设备在对图像进行描述时，可以准确描述出用户更感兴趣的内容，以提升用户体验。例如，当用户对文本的兴趣大于关键物体，对关键物体的兴趣大于卡证时，用户可以自定义设置文本图像场景对应的优先级高于关键物体场景对应的优先级，关键物体场景对应的优先级高于卡证图像场景对应的优先级。

在另一种可能的实现方式中，所述确定所述图像对应的第一引导词，可以包括：

根据引导词生成模型，确定所述图像对应的第一引导词。

在该实现方式提供的图像描述方法中，电子设备可以直接将图像输入至引导词生成模型进行处理，得到引导词生成模型输出第一引导词，即可以直接根据图像确定图像对应的第一引导词。其中，引导词生成模型可以通过训练样本训练得到，每一训练样本可以包括训练图像和该训练图像对应的引导词。

在一种可能的实现方式中，在所述根据所述第一引导词生成所述图像对应的第一描述文本之后，所述方法还可以包括：

确定所述第一描述文本对应的准确度；

当所述准确度小于预设准确度时，确定所述图像对应的第二引导词，所述第二引导词与所述第一引导词不相同；

根据所述第二引导词生成所述图像对应的第二描述文本。

在该实现方式提供的图像描述方法中，电子设备可以根据第一描述文本对应的准确度来确定是否将第一描述文本确定为图像当前对应的描述文本，以确保图像对应的描述文本的准确性。即当第一描述文本对应的准确度大于或等于预设准确度时，电子设备可以确定当前生成的第一描述文本准确，因此，电子设备可以将第一描述文本确定为图像当前对应的描述文本。当第一描述文本对应的准确度小于预设准确度时，电子设备可以确定当前生成的第一描述文本错误，并重新确定图像对应的第二引导词，从而根据第二引导词，重新生成第二描述文本。其中，第二引导词与第一引导词不相同。例如，当第一引导词为文本图像场景对应的引导词时，第二引导词可以为普通图像场景对应的引导词，可以为关键物体场景对应的引导词，也可以为卡证图像场景对应的引导词。

可选的，在得到第二描述文本之后，电子设备可以确定第二描述文本对应的准确度，并可以根据第二描述文本对应的准确度，确定是否将第二描述文本确定为图像当前对应的描述文本。即当第二描述文本对应的准确度大于或等于预设准确度时，电子设备可以将第二描述文本确定为图像当前对应的描述文本。当第二描述文本对应的准确度小于预设准确度时，电子设备可以重新确定图像对应的第三引导词，并可以根据第三引导词，重新生成第三描述文本。其中，第三引导词与第一引导词、第二引导词不相同。在得到第三描述文本后，电子设备可以确定第三描述文本对应的准确度，并可以根据第三描述文本对应的准确度，确定是否将第三描述文本确定为图像当前对应的描述文本，以此类推，直至电子设备根据第N引导词，得到对应的第N描述文本为止，N≥1。

可选的，在得到第N描述文本后，电子设备可以确定第N描述文本对应的准确度。当第N描述文本对应的准确度大于或等于预设准确度，电子设备可以将第N描述文本确定为图像当前对应的描述文本。当第N描述文本对应的准确度小于预设准确度时，电子设备可以直接根据普通图像场景对应的引导词，重新生成描述文本(以下称为目标描述文本)，并可以将目标描述文本确定为图像当前对应的描述文本，以对图像进行简单描述，减少图像描述错误的可能性，提高用户体验。

可选的，电子设备可以获取描述文本(例如第一描述文本、第二描述文本、……、第N描述文本等)对应的文本特征，并可以确定该描述文本对应的文本特征与图像对应的图像特征之间的相似性。随后，电子设备可以将该相似性确定为该描述文本对应的准确度。其中，文本特征与图像特征之间的相似性可以利用文本特征与图像特征之间的距离(例如余弦(cos)距离)或点乘结果来表示。

示例性的，所述确定所述第一描述文本对应的准确度，可以包括：

当所述图像对应的描述场景不是普通图像场景时，确定所述第一描述文本对应的准确度。

示例性的，所述第二引导词为所述普通图像场景对应的引导词。

在该实现方式提供的图像描述方法中，由于普通图像场景为最简单的描述场景，描述错误的可能性较小，因此，当图像对应的描述场景为普通图像场景时，电子设备可以直接将根据第一引导词(即普通图像场景对应的引导词)生成的第一描述文本，确定为图像当前对应的描述文本。当图像对应的描述场景不是普通图像场景时，电子设备可以在生成第一描述文本后，根据第一描述文本对应的准确度，确定第一描述文本是否准确，以此确定是否将第一描述文本确定为图像当前对应的描述文本。当第一描述文本不准确时，电子设备可以直接根据普通图像场景对应的引导词，重新生成第二描述文本，并可以将根据普通图像场景对应的引导词生成的第二描述文本确定为图像当前对应的描述文本，以对图像进行简单描述，可以减少图像描述错误的可能性，提高用户体验。

在另一种可能的实现方式中，在所述根据所述第一引导词生成所述图像对应的第一描述文本之后，所述方法还可以包括：

获取用户输入的询问信息；

根据所述图像确定所述询问信息对应的回答内容，并向所述用户输出所述回答内容。

在该实现方式提供的图像描述方法中，在生成图像对应的第一描述文本之后，电子设备还可以获取用户的询问信息，并可以确定询问信息对应的回答内容，即可以根据用户的询问信息对图像进行进一步的描述，以对用户关注的细节部分进行描述，使得图像描述更符合用户的期望和需要，提高用户体验。

在一种可能的实现方式中，所述根据所述第一引导词生成所述图像对应的第一描述文本，可以包括：

将所述第一引导词和所述图像输入至图像描述模型进行处理，得到所述图像描述模型输出的所述图像对应的第一描述文本；

其中，所述图像描述模型包括图像特征提取模块和文本输出模块，所述文本输出模块采用包含跨注意力层的深度双向编码bert模型，所述图像特征提取模块用于获取所述图像对应的图像特征，并将所述图像特征作为跨注意力层的序列输入所述文本输出模块，所述文本输出模块根据所述第一引导词对应的文本特征和所述跨注意力层的序列，确定所述图像对应的第一描述文本。

示例性的，所述图像描述模型通过预训练和图像描述任务的微调得到；

其中，在微调所述图像描述模型时，利用不同描述场景的训练图像和各所述训练图像对应的训练描述文本对所述图像描述模型进行训练，各所述训练图像对应的训练描述文本中包含各所述训练图像对应的引导词。

第二方面，本申请实施例提供了一种图像描述装置，应用于电子设备，所述装置可以包括：

图像获取模块，用于获取待描述的图像；

第一引导词确定模块，用于确定所述图像对应的第一引导词，所述第一引导词用于指示所述图像对应的描述场景；

第一描述文本生成模块，用于根据所述第一引导词生成所述图像对应的第一描述文本，所述第一描述文本与所述图像对应的描述场景对应。

在一种可能的实现方式中，所述第一引导词确定模块，可以包括：

场景检测单元，用于对所述图像进行场景检测，确定所述图像对应的描述场景；

第一确定单元，用于根据所述图像对应的描述场景，确定所述图像对应的第一引导词。

示例性的，所述场景检测单元，具体用于对所述图像进行场景检测，确定所述图像对应的候选场景；当所述候选场景包括多个时，获取各所述候选场景对应的优先级；根据各所述候选场景对应的优先级，确定所述图像对应的描述场景，所述图像对应的描述场景为所述候选场景中的一个。

在另一种可能的实现方式中，所述第一引导词确定模块，还可以包括：

第二确定单元，用于根据引导词生成模型，确定所述图像对应的第一引导词。

可以理解的是，所述图像对应的描述场景为普通图像场景、文本图像场景、关键物体场景和卡证图像场景中的一个。

在一种可能的实现方式中，所述装置还可以包括：

准确度确定模块，用于确定所述第一描述文本对应的准确度；

第二引导词确定模块，用于当所述准确度小于预设准确度时，确定所述图像对应的第二引导词，所述第二引导词与所述第一引导词不相同；

第二描述文本生成模块，用于根据所述第二引导词生成所述图像对应的第二描述文本。

示例性的，所述准确度确定模块，具体用于当所述图像对应的描述场景不是普通图像场景时，确定所述第一描述文本对应的准确度。

在另一种可能的实现方式中，所述装置还可以包括：

询问信息获取模块，用于获取用户输入的询问信息；

回答内容确定模块，用于根据所述图像确定所述询问信息对应的回答内容，并向所述用户输出所述回答内容。

在一种可能的实现方式中，所述第一描述文本生成模块，具体用于将所述第一引导词和所述图像输入至图像描述模型进行处理，得到所述图像描述模型输出的所述图像对应的第一描述文本；

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，使所述电子设备实现上述第一方面中任一项所述的图像描述方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被计算机执行时，使所述计算机实现上述第一方面中任一项所述的图像描述方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面中任一项所述的图像描述方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

图1是图像描述的一种应用场景示意图；

图2是本申请一实施例提供的图像描述方法所适用于的电子设备的结构示意图；

图3是本申请一实施例提供的图像描述方法所适用于的软件架构示意图；

图4是本申请一实施例提供的一种图像描述模型的结构示意图；

图5是本申请一实施例提供的文本输出模块进行预测的示例图；

图6是本申请一实施例提供的图像描述方法的示意性流程图。

具体实施方式

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

此外，本申请实施例中提到的“多个”应当被解释为两个或两个以上。

本申请实施例中提供的图像描述方法中所涉及到的步骤仅仅作为示例，并非所有的步骤均是必须执行的步骤，或者并非各个信息或消息中的内容均是必选的，在使用过程中可以根据需要酌情增加或减少。本申请实施例中同一个步骤或者具有相同功能的步骤或者消息在不同实施例之间可以互相参考借鉴。

本申请实施例描述的业务场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着网络架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

图像描述是指对给定的图像生成该图像相关的描述信息，是计算机视觉和自然语言处理的一项复杂性的任务，可应用于盲人引导场景，帮忙盲人用户理解电子设备的屏幕内容或通过电子设备理解周围环境等，也可应用于信息检索等场景。

请参阅图1，图1示出了图像描述的一种应用场景示意图。如图1中的(a)所示，在需要使用图像描述功能时，用户可以在电子设备中屏幕朗读功能对应的设置界面打开屏幕朗读对应的按钮，以进入屏幕朗读模式。在屏幕朗读模式下，电子设备可以生成屏幕中的画面相关的描述信息，并通过语音播报描述信息，方便用户了解电子设备中所显示的内容或方便用户通过电子设备了解周围的环境信息等。

应理解，如图1中的(a)所示，屏幕朗读功能对应的设置界面中还可以包括一些提示信息，例如可以包括“帮助，开启屏幕朗读后，它会为您提供语音反馈，以便您在使用设备时不用看着屏幕，对于盲人和视力低弱人士而言，这项功能非常实用。要关闭屏幕朗读，请执行以下操作：点按开关。您会看到一个绿色外框，点按两次开关。在出现确认消息时，点按确定，然后再点按两次确定”。

如图1中的(b)所示，在电子设备显示相册中的图像A时，电子设备可以生成图像A对应的描述信息，例如“一个人正在坐着练瑜伽”，并对该描述信息进行语音播报，方便用户理解电子设备所显示的内容。如图1中的(c)所示，在电子设备中的相机启动时，电子设备中可以显示预览图像B，此时，电子设备可以生成预览图像B对应的描述信息，例如“一个人站在大树前的草地上，人物靠近右侧边缘”，并对该描述信息进行语音播报，以方便用户通过电子设备了解周围的环境信息。

在进行图像描述时，电子设备可以通过图像特征提取器提取图像特征，并可以根据所提取的图像特征，生成图像相关的描述信息。其中，图像特征提取器可以通过多模态(例如图像和文本)的预训练，然后进行下游的描述任务的微调得到。例如，可以通过对比图文与预训练(contrastive language-image pre-training，CLIP)方式来进行图像特征提取器的训练。然后可以基于CLIP和生成式预训练(generative pre-training，GPT2)对图像特征提取器进行下游的描述任务的微调。

下游的描述任务可以为纯图像(即不包含文本的图像)的描述任务(以下称为图像描述任务)，也可以为带文本的图像描述任务(以下称为文本图像描述任务)。当利用纯图像作为训练样本来进行图像特征提取器的微调时，所得到的图像特征提取器可以用于生成纯图像相关的描述信息，即对于带文本的图像，电子设备也仅生成图像相关的描述信息，而不会包括文本的相关内容，或者仅在描述信息中提示图像中有文本，但不会对文本的相关内容进行具体描述。也就是说，基于图像描述任务微调得到的图像特征提取器，无法对带文本的图像进行准确的图像描述，降低了图像描述的准确性，降低了用户体验。

当利用带文本的图像作为训练样本来进行图像特征提取器的微调时，所得到的图像特征提取器可以用于生成文本图像相关的描述信息，即所生成的描述信息中不仅包含图像的相关描述，还包含图像中文本相关的描述。也就是说，基于文本图像描述任务得到的图像特征提取器，在对纯图像进行图像描述时，所生成的描述信息会包含错误的文本内容，降低了图像描述的准确性，降低了用户体验。

因此，如何对不同场景下的图像进行准确的图像描述，是当前亟待解决的问题。

为解决上述问题，本申请实施例提供了一种图像描述方法、电子设备及计算机可读存储介质。该方法中，当进行图像描述时，电子设备可以获取待描述的图像，并确定图像对应的第一引导词，第一引导词用于指示图像对应的描述场景，以根据第一引导词，生成图像对应的第一描述文本。即本申请实施例中，电子设备可以确定图像对应的第一引导词，即确定图像对应的描述场景，从而可以根据第一引导词准确生成图像对应的第一描述文本，使得对于不同场景下的图像，均能生成准确性较高的描述文本，提高图像描述的准确性，提升用户体验，具有较强的易用性和实用性。

本申请实施例中，电子设备可以为手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personaldigital assistant，PDA)、桌上型计算机、云端服务器等，本申请实施例对电子设备的具体类型不作任何限制。

以下首先介绍本申请实施例涉及的电子设备。请参阅图2，图2示出了电子设备100的一种结构示意图。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，天线1，天线2，移动通信模块140，无线通信模块150，音频模块160，扬声器160A，受话器160B，麦克风160C，传感器模块170，显示屏180等。其中，传感器模块170可以包括压力传感器170A，陀螺仪传感器170B，磁传感器170C，加速度传感器170D，触摸传感器170E等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口耦合触摸传感器170E。例如：处理器110可以通过I2C接口耦合触摸传感器170E，使处理器110与触摸传感器170E通过I2C总线接口通信，实现电子设备100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块160耦合，实现处理器110与音频模块160之间的通信。在一些实施例中，音频模块160可以通过I2S接口向无线通信模块150传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块160与无线通信模块150可以通过PCM总线接口耦合。在一些实施例中，音频模块160也可以通过PCM接口向无线通信模块150传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块150。例如：处理器110通过UART接口与无线通信模块150中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块160可以通过UART接口向无线通信模块150传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏180等外围器件。MIPI接口包括显示屏串行接口(display serial interface，DSI)等。在一些实施例中，处理器110和显示屏180通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与显示屏180，无线通信模块150，音频模块160，传感器模块170等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块140，无线通信模块150，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块140可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块140可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块140可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块140还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块140的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块140的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器160A，受话器160B等)输出声音信号，或通过显示屏180显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块140或其他功能模块设置在同一个器件中。

无线通信模块150可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块150可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块150经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块150还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块140耦合，天线2和无线通信模块150耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏180，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏180和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏180用于显示图像，视频等。显示屏180包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏180，N为大于1的正整数。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能应用以及数据处理。

电子设备100可以通过音频模块160，扬声器160A，受话器160B，麦克风160C，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块160用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块160还可以用于对音频信号编码和解码。在一些实施例中，音频模块160可以设置于处理器110中，或将音频模块160的部分功能模块设置于处理器110中。

扬声器160A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器160A收听音乐，或收听免提通话。

受话器160B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器160B靠近人耳接听语音。

麦克风160C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风160C发声，将声音信号输入到麦克风160C。电子设备100可以设置至少一个麦克风160C。在另一些实施例中，电子设备100可以设置两个麦克风160C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风160C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

压力传感器170A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器170A可以设置于显示屏180。压力传感器170A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器170A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏180，电子设备100根据压力传感器170A检测所述触摸操作强度。电子设备100也可以根据压力传感器170A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器170B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器170B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器170B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器170B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器170B还可以用于导航，体感游戏场景。

磁传感器170C包括霍尔传感器。电子设备100可以利用磁传感器170C检测翻盖皮套的开合。

加速度传感器170D可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

触摸传感器170E，也称“触控器件”。触摸传感器170E可以设置于显示屏180，由触摸传感器170E与显示屏180组成触摸屏，也称“触控屏”。触摸传感器170E用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏180提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器170E也可以设置于电子设备100的表面，与显示屏180所处的位置不同。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图3是本申请实施例的电子设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图3所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图3所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如：MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

以下将结合附图和具体应用场景对本申请实施例提供的图像描述方法进行详细说明。

本申请实施例中，当进行图像描述时，电子设备可以获取待描述的图像，并确定图像对应的引导词(以下称为第一引导词)，第一引导词用于指示图像对应的描述场景，以根据第一引导词，生成图像对应的描述文本(以下称为第一描述文本)。即本申请实施例中，电子设备可以确定图像对应的第一引导词，即确定图像对应的描述场景，从而可以根据第一引导词准确生成图像对应的第一描述文本，使得对于不同场景下的图像，均可以生成准确性较高的描述文本，提高图像描述的准确性，提升用户体验。

可选的，描述场景可以包括文本图像场景、关键物体场景、卡证图像场景和普通图像场景等。文本图像场景是指待描述的图像中包含文本的场景。关键物体场景是指待描述的图像中包含关键物体的场景。卡证图像场景是指待描述的图像中包含银行卡、会员卡等各种卡片或身份证、驾驶证等各种证件的场景。普通图像场景是指待描述的图像为纯图像(即不包含文本、关键物体和卡证)的场景。

可选的，关键物体可以是指用户所关注的任一物体，例如可以是公交站牌、桌子和椅子等任一物体，也可以是用户行进途中的任一障碍物等。在此，关键物体可根据实际场景具体确定，本申请实施例对此不作任何限制。例如，用户可以自身需要自定义设置关键物体。或者，电子设备可以实际场景默认设置关键物体。

可以理解的是，文本图像场景对应的引导词可以为“图片包含文本”，关键物体场景对应的引导词可以为“图片包含关键物体”，卡证图像场景对应的引导词可以为“图片包含卡片”，普通图像场景对应的引导词可以为“普通图片包含”，等等。

其中，引导词可以是上述所述的文本形式，例如“图片包含关键物体”，“图片包含卡片”等。或者，引导词也可以是通过图片学习到的引导词的特征向量。以下将以引导词是文本形式为例进行示例性说明。

需要说明的是，上述所述的描述场景可以包括文本图像场景、关键物体场景、卡证图像场景和普通图像场景，以及各描述场景对应的引导词仅作示例性解释，不应理解为对本申请实施例的限制，本申请实施例中，可以由技术人员根据实际场景，确定描述场景和各描述场景对应的引导词。

下面将以描述场景包括文本图像场景、关键物体场景、卡证图像场景和普通图像场景为例进行示例性说明。

在一种可能的实现方式中，可以事先设置描述场景与引导词之间的预设对应关系。其中，描述场景与引导词之间的预设对应关系可以设置于电子设备中，也可以设置于与电子设备通信连接的第三方设备中，例如可以设置于云端服务器中。因此，在进行图像描述时，电子设备可以对图像进行场景分析，确定图像对应的描述场景，从而根据图像对应的描述场景和预设对应关系确定图像对应的第一引导词。

例如，电子设备中可以设置有文本图像场景对应的引导词为“图片包含文本”，关键物体场景对应的引导词为“图片包含关键物体”，卡证图像场景对应的引导词为“图片包含卡片”，以及普通图像场景对应的引导词为“普通图片包含”，等等。因此，当电子设备对图像进行场景分析，确定图像对应的描述场景为普通图像场景时，电子设备可以确定图像对应的第一引导词为“普通图片包含”。当电子设备对图像进行场景分析，确定图像对应的描述场景为文本图像场景时，电子设备可以确定图像对应的第一引导词为“图片包含文本”。当电子设备对图像进行场景分析，确定图像对应的描述场景为关键物体场景时，电子设备可以确定图像对应的第一引导词为“图片包含关键物体”，等等。

应理解，本申请实施例对图像进行场景分析的具体方式不作任何限制，可以由技术人员根据实际场景具体确定。

示例性的，电子设备可以通过文本检测，确定图像中是否包含文本，以此确定图像对应的描述场景是否为文本图像场景。例如，当图像中包含文本时，电子设备可以确定图像对应的描述场景为文本图像场景。例如，当图像中包含文本，且文本在图像中所占的比例大于或等于预设阈值A时，电子设备可以确定图像对应的描述场景为文本图像场景。

示例性的，电子设备可以通过目标检测，确定图像中是否包含关键物体，以此确定图像对应的描述场景是否为关键物体场景。例如，当图像中包含关键物体时，电子设备可以确定图像对应的描述场景为关键物体场景。例如，当图像中包含关键物体，且关键物体在图像中所占的比例大于或等于预设阈值B时，电子设备可以确定图像对应的描述场景为关键物体场景。

类似的，电子设备可以通过目标检测，确定图像中是否包含卡证，以此确定图像对应的描述场景是否为卡证图像场景。例如，当图像中包含身份证或会员卡时，电子设备可以确定图像对应的描述场景为卡证图像场景。例如，当图像中包含身份证或会员卡，且身份证或会员卡在图像中所占的比例大于或等于预设阈值C时，电子设备可以确定图像对应的描述场景为卡证图像场景。

需要说明的是，预设阈值A、预设阈值B和预设阈值C可以根据实际场景具体确定，本申请实施例对此不作任何限制。另外，本申请实施例对文本检测的方式和目标检测的方式不作任何限制，可以由技术人员根据实际场景具体确定。

可以理解的是，普通图像场景是指除文本图像场景、关键物体场景和卡证图像场景以外的场景，即当图像对应的描述场景不是文本图像场景、关键物体场景和卡证图像场景中的任一个时，电子设备可以确定图像对应的描述场景为普通图像场景。

例如，当图像中包含文本，但文本在图像中所占的比例小于预设阈值A时，电子设备可以确定图像对应的描述场景为普通图像场景。

例如，当图像中包含关键物体，但关键物体在图像中所占的比例小于预设阈值B时，电子设备可以确定图像对应的描述场景为普通图像场景。

例如，当图像中包含关键物体和文本，但文本在图像中所占的比例小于预设阈值A，且关键物体在图像中所占的比例小于预设阈值B时，电子设备可以确定图像对应的描述场景为普通图像场景。

例如，当图像中包含关键物体和会员卡，但关键物体在图像中所占的比例小于预设阈值B，且会员卡在图像中所占的比例小于预设阈值C时，电子设备可以确定图像对应的描述场景为普通图像场景。

在一个示例中，电子设备中可以设置有各描述场景对应的优先级。当图像对应的描述场景可以为两个或两个以上时，电子设备可以根据各描述场景对应的优先级，来确定图像当前对应的描述场景。其中，各描述场景对应的优先级可以由电子设备默认设置，也可以由用户自定义设置。

示例性的，电子设备可以默认设置卡证图像场景对应的优先级高于文本图像场景对应的优先级，文本图像场景对应的优先级高于关键物体场景对应的优先级。

例如，当图像中同时包含文本和关键物体，且文本在图像中所占的比例大于或等于预设阈值A，关键物体在图像中所占的比例也大于或等于预设阈值B时，即当图像对应的描述场景可以是文本图像场景，也可以是关键物体场景时，由于文本图像场景对应的优先级高于关键物体场景对应的优先级，因此，电子设备可以确定图像当前对应的描述场景为文本图像场景。

例如，当图像中同时包含文本、关键物体和卡证，且文本在图像中所占的比例大于或等于预设阈值A，关键物体在图像中所占的比例也大于或等于预设阈值B，卡证在图像中所占的比例大于或等于预设阈值C时，由于卡证图像场景对应的优先级高于文本图像场景对应的优先级，文本图像场景对应的优先级高于关键物体场景对应的优先级，因此，电子设备可以确定图像当前对应的描述场景为卡证图像场景。

需要说明的是，上述电子设备默认设置卡证图像场景对应的优先级高于文本图像场景对应的优先级，文本图像场景对应的优先级高于关键物体场景对应的优先级，仅作示例性解释，不应理解为对本申请实施例的限制。

示例性的，电子设备可以根据文本在图像中所占的比例A、关键物体在图像中所占的比例B以及卡证在图像中所占的比例C，来确定各描述场景对应的优先级。可选的，当所占的比例越大时，电子设备可以确定该比例所对应的描述场景的优先级越高，当所占的比例越小时，电子设备可以确定该比例所对应的描述场景的优先级越低。

例如，当图像中同时包含文本和关键物体，且文本在图像中所占的比例A大于或等于关键物体在图像中所占的比例B时，电子设备可以默认设置文本图像场景对应的优先级高于关键物体场景对应的优先级。因此，电子设备可以确定图像当前对应的描述场景为文本图像场景。

例如，当图像中同时包含文本、关键物体和身份证，且关键物体在图像所占的比例B大于或等于身份证在图像中所占的比例C，身份证在图像中所占的比例C大于或等于文本在图像中所占的比例A时，电子设备可以默认设置关键物体场景对应的优先级高于卡证图像场景对应的优先级，而卡证图像场景对应的优先级高于文本图像场景对应的优先级。因此，电子设备可以确定图像当前对应的描述场景为关键物体场景。

示例性的，用户可以根据自身感兴趣的内容来自定义设置各描述场景对应的优先级，使得电子设备在对图像进行描述时，可以准确描述出用户更感兴趣的内容，提升用户体验。例如，当用户对文本的兴趣大于关键物体，对关键物体的兴趣大于卡证时，用户可以自定义设置文本图像场景对应的优先级高于关键物体场景对应的优先级，关键物体场景对应的优先级高于卡证图像场景对应的优先级。因此，当图像中同时包含文本和关键物体时，电子设备可以确定图像当前对应的描述场景为文本图像场景。当图像中同时包含关键物体和身份证时，电子设备可以确定图像当前对应的描述场景为关键物体场景。

在另一种可能的实现方式中，电子设备可以直接通过引导词生成模型，确定图像对应的第一引导词。即电子设备可以将图像输入至引导词生成模型进行处理，得到引导词生成模型输出引导词，此时，电子设备可以将引导词生成模型输出的引导词确定为图像对应的第一引导词。

需要说明的是，本申请实施例对引导词生成模型的具体结构不作任何限制，可以根据实际场景具体确定。其中，引导词生成模型可以通过训练样本训练得到，每一训练样本可以包括训练图像和该训练图像对应的引导词。

本申请实施例中，在确定图像对应的第一引导词后，电子设备可以根据第一引导词生成图像对应的第一描述文本。

在一种可能的实现方式中，在生成图像对应的第一描述文本后，电子设备可以确定第一描述文本对应的准确度。其中，当第一描述文本对应的准确度大于或等于预设准确度时，电子设备可以确定当前生成的第一描述文本准确，即可以将当前生成的第一描述文本确定为图像当前对应的描述文本。应理解，预设准确度可以根据实际情况具体设置，本申请实施例对此不作任何限制。

在一个示例中，当第一描述文本对应的准确度小于预设准确度时，电子设备可以确定当前生成的第一描述文本错误，并重新确定图像对应的引导词(以下称为第二引导词)，从而根据第二引导词，重新生成描述文本(以下称为第二描述文本)。其中，第二引导词与第一引导词不相同。例如，当第一引导词为文本图像场景对应的引导词时，第二引导词可以为普通图像场景对应的引导词，可以为关键物体场景对应的引导词，也可以为卡证图像场景对应的引导词。

应理解，在得到第二描述文本之后，电子设备可以确定第二描述文本对应的准确度，并可以根据第二描述文本对应的准确度，确定是否将第二描述文本确定为图像当前对应的描述文本。即当第二描述文本对应的准确度大于或等于预设准确度时，电子设备可以将第二描述文本确定为图像当前对应的描述文本。当第二描述文本对应的准确度小于预设准确度时，电子设备可以重新确定图像对应的引导词(以下称为第三引导词)，并可以根据第三引导词，重新生成描述文本(以下称为第三描述文本)。其中，第三引导词与第一引导词、第二引导词不相同。在得到第三描述文本后，电子设备可以确定第三描述文本对应的准确度，并可以根据第三描述文本对应的准确度，确定是否将第三描述文本确定为图像当前对应的描述文本，以此类推，直至电子设备根据第N引导词，得到对应的描述文本(以下称为第N描述文本)为止，N≥1。

需要说明的是，N的具体取值可以由技术人员根据实际场景具体确定，本申请实施例对比不作任何限制。例如，技术人员可以根据实际场景将N设置为1，即当第一描述文本对应的准确度小于预设准确度时，电子设备可以直接根据普通图像场景对应的引导词，来生成图像对应的第一描述文本，即直接对图像进行简单描述，减少图像描述错误的可能性，提高用户体验。

示例性的，电子设备可以获取描述文本(例如第一描述文本、第二描述文本、……、第N描述文本等)对应的文本特征，并可以确定该描述文本对应的文本特征与图像特征之间的相似性。随后，电子设备可以将该相似性确定为该描述文本对应的准确度。其中，文本特征与图像特征之间的相似性可以利用文本特征与图像特征之间的距离(例如余弦(cos)距离)或点乘结果来表示。

本申请实施例中，电子设备可以通过图像描述模型，获取图像对应的第一描述文本。即电子设备获取图像对应的第一引导词后，可以将图像和第一引导词输入图像描述模型进行处理，得到图像描述模型输出的描述文本，并可以将图像描述模型输出的描述文本确定为图像对应的第一描述文本。类似的，电子设备获取图像对应的第N引导词后，可以将图像和第N引导词输入图像描述模型进行处理，得到图像描述模型输出的第N描述文本。

下面将以第一引导词为例，对图像描述模型根据图像和第一引导词生成第一描述文本的具体过程进行示例性说明。

请参阅图4，图4示出了本申请实施例提供的一种图像描述模型的结构示意图。如图4所示，图像描述模型可以包括图像特征提取模块401和文本输出模块402。其中，图像特征提取模块401可以包括ResNet-50模型，文本输出模块402可以包括深度双向编码(bidirectional encoder representations from transformer，bert)模型，例如可以包括包含跨注意力(cross-attention)层的tiny-bert模型。

如图4所示，图像描述模型获取图像和第一引导词后，可以通过图像特征提取模块401对图像进行特征提取，得到图像特征，并可以将图像特征作为cross-attention层的序列输入至文本输出模块402。例如，在图像的大小为3×224×224时，图像特征提取模块401对图像进行特征提取，可以得到大小为1×49×2048的图像特征。同时，图像描述模型可以对第一引导词进行编码，得到第一引导词对应的语义向量，并可以将第一引导词对应的语义向量输入至文本输出模块402。

请参阅图5，图5示出了本申请实施例提供的文本输出模块进行预测的示例图。如图5所示，文本输出模块402可以通过前一词预测后一词的方式，来预测第一描述文本中的各词语，从而得到第一描述文本。

示例性的，文本输出模块402可以根据第一引导词对应的语义向量，获取第一引导词对应的文本特征W1，并可以利用cross-attention层的序列(即图像特征)对第一引导词对应的文本特征W1进行互相关(attention)处理，即可以将第一引导词对应的文本特征W1与图像特征进行互相关处理，得到基于第一引导词预测得到的第一个预测词prediction0，即得到描述文本中第一引导词之后的第一个预测词prediction 0。

随后，文本输出模块402可以将第一个预测词prediction 0与第一引导词对应的文本特征W1进行互相关处理，得到融合特征M1，并可以利用cross-attention层的序列对融合特征M1重新进行互相关处理，得到第二个预测词prediction 1。然后，文本输出模块402可以利用常规的集束搜索(即beam search)方法来进行后续的预测，直至预测到结束字符或者描述文本的长度大于或等于预设长度阈值为止，从而得到图像对应的第一描述文本，例如得到序列长度为N的第一描述文本。

在一种可能的实现方式中，如图4所示，图像描述模型还可以包括分类模块403，用于确定文本输出模块402输出的第一描述文本对应的准确度。其中，分类模块403可以包括不包含cross-attention层的tiny-bert模型和全连接层。

可选的，在获取文本输出模块402输出的第一描述文本之后，图像描述模型可以对第一描述文本进行编码，得到第一描述文本对应的语义向量，并可以将第一描述文本对应的语义向量输入至分类模块403。

分类模块403可以根据第一描述文本对应的语义向量，获取第一描述文本对应的文本特征W2，即可以通过不包含cross-attention层的tiny-bert模型和全连接层对语义向量进行处理，得到对第一描述文本对应的文本特征W2。例如当第一描述文本对应的语义向量为1×N×312时，分类模块403根据第一描述文本对应的语义向量，可以得到大小为N×2048的文本特征W2。随后，分类模块403可以将第一描述文本对应的文本特征W2与图像特征进行交互，得到第一描述文本对应的准确度(即第一描述文本描述准确的概率)。

可选的，图像特征提取模块401还可以包括池化层和全连接层。在将第一描述文本对应的文本特征W2与图像特征进行交互之前，图像特征提取模块401还可以通过池化层和全连接层对图像特征进行处理，得到处理后的图像特征，例如可以通过池化层和全连接层对大小为1×49×2048的图像特征进行处理，得到大小为1×2048的图像特征。分类模块403可以将第一描述文本对应的文本特征W2与处理后的图像特征进行交互，得到第一描述文本对应的准确度。

其中，第一描述文本对应的文本特征W2与图像特征进行交互的方式可以采用计算cos距离的方式或者点乘的方式。

示例性的，当第一描述文本对应的准确度大于或等于预设准确度时，电子设备可以确定图像描述模型当前生成的第一描述文本准确，因此，电子设备可以将图像描述模型当前生成的第一描述文本确定为图像当前对应的描述文本。

示例性的，当第一描述文本对应的准确度小于预设准确度时，电子设备可以确定图像描述模型当前生成的第一描述文本不准确，此时，电子设备可以重新确定图像对应的第二引导词，并将图像和第二引导词输入至图像描述模型。图像描述模型可以通过图像特征提取模块401和文本输出模块402，生成第二描述文本。随后，图像描述模型可以通过分类模块403确定第二描述文本对应的准确度，以根据第二描述文本对应的准确度确定是否将第二描述文本确定为图像当前对应的描述文本，以此类推。

或者，当第一描述文本对应的准确度小于预设准确度时，电子设备可以直接将普通图像场景对应的引导词确定为第二引导词，并可以将图像和第二引导词重新输入至图像描述模型进行处理，得到第二描述文本。随后，电子设备可以将第二描述文本确定为图像当前对应的描述文本。

在另一种可能的实现方式中，如图4所示，图像描述模型还可以包括问题输入模块404。在进行图像描述时，电子设备可以获取用户输入的询问信息。询问信息可以文本信息，也可以为语音信息。当询问信息为语音信息时，电子设备可以通过自动语音识别技术(automatic speech recognition，ASR)将询问信息转换成文本内容，并可以将转换得到的文本内容(即询问信息对应的文本内容)输入问题输入模块404。

其中，问题输入模块404获取询问信息对应的文本内容后，可以获取文本内容对应的文本特征W3，并可以将文本特征W3输入至文本输出模块402。文本输出模块402可以将文本特征W3与图像特征进行融合，例如可以将文本特征W3与图像特征进行拼接，得到拼接后的特征。随后，文本输出模块402可以利用拼接后的特征对文本输出模块402中的cross-attention层的序列进行更新，即可以将文本特征W3与图像特征拼接后的特征确定为cross-attention层的序列。因此，文本输出模块402在确定图像对应的描述文本时，可以利用更新后的cross-attention层的序列来进行互相关处理，从而得到询问信息对应的描述文本，即得到询问信息对应的回答内容。

也就是说，在准确生成图像对应的第一描述文本之后，电子设备还可以获取用户的询问信息，并可以通过图像描述模型确定询问信息对应的回答内容，即可以根据用户的询问信息对图像进行进一步的描述，以对用户关注的细节部分进行描述，使得图像描述更符合用户的期望和需要，提高用户体验。

本申请实施例中，图像描述模型可以先通过预训练，然后再进行下游任务(即不同场景下的图像描述任务)的微调得到。其中，在预训练时，图像描述模型的训练数据为图文样本对(即每一训练数据可以包含一张图像和该图像对应的描述文本)。可选的，在预训练时可以进行三个预训练任务的训练。第一个预训练任务的损失函数可以采用图像特征与文本特征的交叉熵损失函数(cross entropy loss)。第二个预训练任务的损失函数同样可以采用图像特征与文本特征的cross entropy loss，并可以加入cross-attention层来进行，以将图像特征与文本特征做互相关处理。第二个预训练任务的训练数据可以采用第一个预训练任务中损失较大的图文样本对。第三个预训练任务可以为对语言模型(即前述的文本输出模块402)的训练，以通过前一词来预测下一词，第三个预训练任务的损失函数同样可以采用图像特征与文本特征的cross entropy loss。

在进行下游任务的微调时，对于各种不同的描述场景，电子设备可以获取不同的图像和各图像所对应的描述文本，并获取各图像对应的引导词。随后，对于每一图像，电子设备可以将该图像对应的引导词添加至该图像对应的描述文本中。例如，可以将该图像对应的引导词添加至该图像对应的描述文本的前面，得到该图像包含引导词的训练描述文本。例如，对于普通图像场景的图像，可以在该图像对应的描述文本前添加“图片包含”。例如，对于文本图像场景的图像，可以该图像对应的描述文本前添加“图片包含文本”。例如，对于关键物体场景的图像，可以在该图像对应的描述文本前添加“图片包含关键物体”。例如，对于卡证图像场景的图像，可以在该图像对应的描述文本前添加“图片包含卡片”等。

然后，电子设备可以通过各图像和各图像对应的训练描述文本对前述预训练得到的图像描述模型进行微调训练，得到微调后的图像描述模型，以将各描述场景都集中于同一图像描述模型，从而使得可以通过同一图像描述模型对不同场景的图像进行准确的图像描述，不需要针对各场景分别训练相应的描述模型，提升用户体验。

本申请实施例中，训练得到的图像描述模型可以设置于电子设备中，也可以设置于与电子设备通信连接的第三方设备中。例如，图像描述模型可以设置于与电子设备通信连接的云端服务器中，因此，电子设备确定图像对应的第一引导词后，可以将图像和第一引导词发送给云端服务器。云端服务器获取图像和第一引导词之后，可以将图像和第一引导词输入图像描述模型进行处理，以得到图像描述模型输出的第一描述文本，并可以将第一描述文本发送给电子设备。电子设备可以将云端服务器返回的第一描述文本，确定为图像当前对应的描述文本。

示例性的，当图像描述模型设置于电子设备时，可以采用蒸馏技术，对上述的图像描述模型进行蒸馏，以小型化模型，降低图像描述模型对电子设备的性能要求，方便用户通过电子设备实现各场景的图像描述。

可以理解的是，对图像描述模型进行蒸馏的具体方式，可以由技术人员根据实际场景具体确定，本申请实施例对此不作任何限制。例如，当图像描述模型设置于电子设备时，图像描述模型中可以不包括上述的问答输入模块404，而问答功能可以设置于云端服务器中。即在进行图像描述时，若用户输入询问信息，电子设备可以通过ASR技术将询问信息转换成文本内容，并可以将文本内容发送给云端服务器。云端服务器可以利用云端服务器中图像描述模型的问答功能对文本内容进行处理，得到询问信息对应的回答内容，并可以将回答内容发送给电子设备，以使得电子设备根据回答内容对用户的询问进行回复。

基于上述实施例，下面对本申请实施例提供的图像描述方法进行示例性说明。上述实施例的内容均可以适用于本实施例。请参阅图6，图6示出了本申请实施例提供的图像描述方法的示意性流程图。该方法可以应用于电子设备。如图6所示，该方法可以包括：

S601、获取待描述的图像。

应理解，待描述的图像可以为电子设备中正在显示的图像。其中，电子设备中正在显示的图像可以为相册中的图像，也可以为应用程序所呈现的画面，还可以为通过摄像头采集的预览画面，等等。

S602、确定图像对应的第一引导词，第一引导词用于指示图像对应的描述场景。

在一个示例中，电子设备可以通过对图像进行场景分析，确定图像对应的描述场景。然后，电子设备可以根据描述场景与引导词之间的预设对应关系，来确定图像对应的第一引导词。其中，有关描述场景与引导词之间的预设对应关系的内容可以参照前述所述的描述场景与引导词之间的预设对应关系的具体描述，有关确定图像对应的描述场景的内容也可以参照前述确定描述场景的具体描述，在此不再赘述。

在另一个示例中，电子设备可以直接通过引导词生成模型，来确定图像对应的第一引导词。其中，有关引导词生成模型的内容可以参照前述所述的引导词生成模型的描述，在此不再赘述。

S603、根据第一引导词生成图像对应的第一描述文本。

示例性的，电子设备可以通过电子设备中的图像描述模型，来根据第一引导词和图像生成图像对应的第一描述文本。或者，电子设备可以将第一引导词和图像发送给云端服务器。云端服务器可以通过云端服务器中的图像描述模型，来根据第一引导词和图像生成图像对应的第一描述文本。其中，有关图像描述模型的内容可以参照前述所述的图像描述模型以及图4和图5中的具体描述，在此不再赘述。

在一种可能的实现方式中，获取第一描述文本后，电子设备可以确定第一描述文本对应的准确度。当第一描述文本对应的准确度大于或等于预设准确度时，电子设备可以将图像描述模型当前生成的第一描述文本，确定为图像当前对应的描述文本。当第一描述文本对应的准确度小于预设准确度是，电子设备可以确定普通图像场景对应的第二引导词，并可以将第二引导词和图像输入至图像描述模型，以得到图像描述模型输出的第二描述文本，此时电子设备可以直接将第二描述文本确定为图像当前对应的描述文本。

示例性的，电子设备可以通过图像描述模型中的分类模块来确定第一描述文本对应的准确度。其中，有关分类模块的内容可以参照前述分类模块403和图4中的具体描述，在此不再赘述。

下面示例性说明本申请实施例适用的应用场景。

例如，在电子设备对相册中的图像(例如一张包含文本内容的图像)进行显示时，电子设备可以通过上述的图像描述方法对该图像进行图像描述，得到该图像对应的描述文本，例如“一张包含文本的图片，文本内容是明天将是新的一天，一起加油”。随后，电子设备可以通过语音播放和/或文字显示的方式向用户输出该图像对应的描述文本，以方便用户了解电子设备当前所显示的内容。

例如，在电子设备通过摄像头获取周围的环境图像时，假设周围环境中包含公交站，且公交站牌为用户所关注的关键物体，即获取的环境图像中可以包含公交站牌，此时，电子设备可以通过上述的图像描述方法对该环境图像进行图像描述，得到该环境图像对应的描述文本，例如“一张包含公交站牌的图片，公交站牌包含从汽车站到火车站的1路，以及从AA站到BB站的202路”。此时，电子设备可以通过语音播放和/或文字显示的方式向用户输出该环境图像对应的描述文本，以方便用户了解周围的环境。

本申请实施例中，当进行图像描述时，电子设备可以获取待描述的图像，并确定图像对应的第一引导词，第一引导词用于指示图像对应的描述场景，以根据第一引导词，生成图像对应的第一描述文本。即本申请实施例中，电子设备可以确定图像对应的第一引导词，即确定图像对应的描述场景，从而可以根据第一引导词准确生成图像对应的第一描述文本，使得对于不同场景下的图像，均可以生成准确性较高的描述文本，提高图像描述的准确性，提升用户体验。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的图像描述方法，本申请实施例还提供了一种图像描述装置，该装置的各个模块可以对应实现图像描述方法的各个步骤。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种电子设备，所述电子设备包括至少一个存储器、至少一个处理器以及存储在所述至少一个存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序时，使所述电子设备实现上述任意各个方法实施例中的步骤。示例性的，所述电子设备的结构可以如图2所示。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被计算机执行时，使所述计算机实现上述任意各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备实现上述任意各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质至少可以包括：能够将计算机程序代码携带到装置/电子设备的任何实体或装置、记录介质、计算机存储器、只读存储器(read-only memory，ROM)、随机存取存储器(random accessmemory，RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/电子设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/电子设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种图像描述方法，其特征在于，应用于电子设备，所述方法包括：

获取待描述的图像；

2.根据权利要求1所述的方法，其特征在于，所述确定所述图像对应的第一引导词，包括：

对所述图像进行场景检测，确定所述图像对应的描述场景；

3.根据权利要求2所述的方法，其特征在于，所述对所述图像进行场景检测，确定所述图像对应的描述场景，包括：

对所述图像进行场景检测，确定所述图像对应的候选场景；

4.根据权利要求1所述的方法，其特征在于，所述确定所述图像对应的第一引导词，包括：

根据引导词生成模型，确定所述图像对应的第一引导词。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述图像对应的描述场景为普通图像场景、文本图像场景、关键物体场景和卡证图像场景中的一个。

6.根据权利要求1至5中任一项所述的方法，其特征在于，在所述根据所述第一引导词生成所述图像对应的第一描述文本之后，所述方法还包括：

确定所述第一描述文本对应的准确度；

根据所述第二引导词生成所述图像对应的第二描述文本。

7.根据权利要求6所述的方法，其特征在于，所述确定所述第一描述文本对应的准确度，包括：

8.根据权利要求7所述的方法，其特征在于，所述第二引导词为所述普通图像场景对应的引导词。

9.根据权利要求1至8中任一项所述的方法，其特征在于，在所述根据所述第一引导词生成所述图像对应的第一描述文本之后，所述方法还包括：

获取用户输入的询问信息；

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述根据所述第一引导词生成所述图像对应的第一描述文本，包括：

11.根据权利要求10所述的方法，其特征在于，所述图像描述模型通过预训练和图像描述任务的微调得到；

12.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使所述电子设备实现如权利要求1至11中任一项所述的图像描述方法。

13.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被计算机执行时，使所述计算机实现如权利要求1至11中任一项所述的图像描述方法。