CN109902759B

CN109902759B - 图片集描述方法及装置

Info

Publication number: CN109902759B
Application number: CN201910186100.0A
Authority: CN
Inventors: 周曦; 姚志强; 谭涛; 周翔; 李夏风; 吴媛; 汤文洁; 吴大为
Original assignee: Hengrui Chongqing Artificial Intelligence Technology Research Institute Co ltd
Current assignee: Hengrui (Chongqing) Research Institute of Artificial Intelligence Technology Co., Ltd.
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2021-03-30
Anticipated expiration: 2039-03-12
Also published as: CN109902759A

Abstract

本申请实施例提供一种图片集描述方法及装置，应用于自然语言处理领域。本申请通过获取包括至少一张图片的待描述图片集对应的主要图像场景，并从存储的至少一种图像场景对应的自然语言描述模板中选取与所述主要图像场景匹配的目标描述模板，其中存储的每种图像场景对应至少一个自然语言描述模板，从而根据述主要图像场景及所述目标描述模板生成与所述待描述图片集对应的自然语言描述文本，以通过所述自然语言描述文本揭露该待描述图片集的具体图像内容，使用户可通过生成的自然语言描述文本直观地了解到对应图片集的具体图像内容。

Description

图片集描述方法及装置

技术领域

本申请涉及自然语言处理技术领域，具体而言，涉及一种图片集描述方法及装置。

背景技术

随着科学技术的不断发展，为实现人机间自然语言通信，自然语言处理技术也得到了飞速发展，其中对由至少一张图片组成的图片集的自然语言描述技术，便是自然语言处理技术的重要分支。目前而言，业界主流在对图片集进行自然语言描述时，通常是结合该图片集的拍摄时间信息及拍摄地点信息来生成对应的自然语言描述文本。然而，这种自然语言描述方案最终得到的自然语言描述文本仅只有对时间及地点的相关描述，无法揭露该图片集的具体实际图像内容，使用户无法直观地通过生成的自然语言描述文本了解到对应图片集的具体图像内容。

发明内容

为了克服现有技术中的上述不足，本申请的目的在于提供一种图片集描述方法及装置，其能够基于待描述图片集的图像场景生成对应的自然语言描述文本，以揭露该待描述图片集的具体图像内容，使用户可通过生成的自然语言描述文本直观地了解到对应图片集的具体图像内容。

就方法而言，本申请实施例提供一种图片集描述方法，所述方法包括：

获取包括至少一张图片的待描述图片集所对应的主要图像场景；

从存储的至少一种图像场景对应的自然语言描述模板中，选取与所述主要图像场景匹配的目标描述模板，其中，存储的每种图像场景对应至少一个自然语言描述模板；

根据所述主要图像场景及所述目标描述模板生成与所述待描述图片集对应的自然语言描述文本。

就装置而言，本申请实施例提供一种图片集描述装置，所述装置包括：

场景获取模块，用于获取包括至少一张图片的待描述图片集所对应的主要图像场景；

模板选取模块，用于从存储的至少一种图像场景对应的自然语言描述模板中，选取与所述主要图像场景匹配的目标描述模板，其中，存储的每种图像场景对应至少一个自然语言描述模板；

描述生成模块，用于根据所述主要图像场景及所述目标描述模板生成与所述待描述图片集对应的自然语言描述文本。

相对于现有技术而言，本申请实施例提供的图片集描述方法及装置具有以下有益效果：本申请能够基于待描述图片集的图像场景生成对应的自然语言描述文本，以揭露该待描述图片集的具体图像内容，使用户可通过生成的自然语言描述文本直观地了解到对应图片集的具体图像内容。首先，所述方法获取包括至少一张图片的待描述图片集所对应的主要图像场景，其中所述主要图像场景为由所述待描述图片集中所有图片表现出的图像场景中的出现频次比重最大的图像场景；然后，所述方法从存储的至少一种图像场景对应的自然语言描述模板中，选取与所述主要图像场景匹配的目标描述模板，其中，存储的每种图像场景对应至少一个自然语言描述模板；最后，所述方法根据所述主要图像场景及所述目标描述模板生成与所述待描述图片集对应的自然语言描述文本，从而通过所述自然语言描述文本揭露该待描述图片集的具体图像内容，使用户可通过生成的自然语言描述文本直观地了解到对应图片集的具体图像内容。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举本申请较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对本申请保护范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的终端设备的方框示意图；

图2为本申请实施例提供的图片集描述方法的流程示意图之一；

图3为图2中的步骤S210包括的子步骤的流程示意图；

图4为图2中的步骤S220包括的子步骤的流程示意图；

图5为本申请实施例提供的图片集描述方法的流程示意图之二；

图6为本申请实施例提供的图1中所示的图片集描述装置的功能方框示意图之一；

图7为图6中所示的模板选取模块的功能方框示意图；

图8为本申请实施例提供的图1中所示的图片集描述装置的功能方框示意图之二。

图标：10-终端设备；11-存储器；12-处理器；13-通信单元；100-图片集描述装置；110-场景获取模块；120-模板选取模块；130-描述生成模块；121-模板筛选子模块；122-模板检测子模块；123-第一确认子模块；124-第二确认子模块；140-模板配置模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，术语“第一”、“第二”、“第三”、“第四”等仅用于区分描述，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，是本申请实施例提供的终端设备10的方框示意图。在本申请实施例中，所述终端设备10用于生成自然语言表述文本，并对所述自然语言表述文本进行显示，以使用户通过显示的所述自然语言表述文本获取对应的内容信息。其中，所述终端设备10可以是，但不限于，服务器、智能手机、个人电脑(personal computer，PC)、平板电脑、个人数字助理(personal digital assistant，PDA)、移动上网设备(mobile Internet device，MID)等；所述自然语言可以是，但不限于，中文、英文、俄文等。在本实施例的一种实施方式中，所述终端设备10为智能手机。

在本实施例中，所述终端设备10包括图片集描述装置100、存储器11、处理器12及通信单元13。所述存储器11、处理器12及通信单元13各个元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，所述存储器11、处理器12及通信单元13这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

在本实施例中，所述存储器11可用于存储图像特征提取模型及场景识别模型，所述图像特征提取模型用于提取对应图片的图像特征，所述场景识别模型用于识别对应图片的图像场景，其中所述图像特征为对应图片的图像内容的相关特征，所述图像场景用于表示对应图片的图像内容(例如，登山、看海、同学聚会等)，所述场景识别模型可以是以标注有图像场景的图片训练样本对神经网络(例如，卷积神经网络、深度神经网络)模型进行训练得到。

所述存储器11还可用于存储至少一种图像场景对应的自然语言描述模板，其中每种图像场景所对应的自然语言描述模板的数目为至少一个。同一种图像场景所对应的自然语言描述模板的模板种类包括第一类描述模板、第二类描述模板、第三类描述模板及第四类描述模板中的任意一种或多种的组合，其中所述第一类描述模板为具有时间属性、地点属性及场景属性的描述模板，所述第二类描述模板为仅具有地点属性及场景属性的描述模板，所述第三类描述模板为仅具有时间属性及场景属性的描述模板，第四类描述模板为仅具有场景属性的描述模板。例如，当图像场景为登山时，对应的第一类描述模板可以是“2017年5月于华山处进行登山观云海”，也可以是“2017年5月于华山处和X个朋友一起登山”；对应的第二类描述模板可以是“于华山处进行登山观云海”，也可以是“于华山处和X个朋友一起登山”；对应的第三类描述模板可以是“2017年5月进行登山观云海”，也可以是“2017年5月和X个朋友一起登山”；对应的第四类描述模板可以是“登山观云海”，也可以是“和X个朋友一起登山”。

所述存储器11还可用于存储程序，所述处理器12在接收到执行指令后，可相应地执行所述程序。

在本实施例中，所述处理器12可以是一种具有信号的处理能力的集成电路芯片。所述处理器12可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)、网络处理器(Network Processor，NP)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。

在本实施例中，所述通信单元13用于通过网络建立所述终端设备10与其他电子设备之间的通信连接，并通过所述网络收发数据。例如，所述终端设备10通过所述通信单元13接收来自其他电子设备发送的包括至少一张图片的待描述图片集，或向所述其他电子设备发送与所述待描述图片集对应的自然语言描述文本。

在本实施例中，所述图片集描述装置100包括至少一个能够以软件或固件的形式存储于所述存储器11中或固化在所述终端设备10的操作系统中的软件功能模块。所述处理器12可用于执行所述存储器11存储的可执行模块，例如所述图片集描述装置100所包括的软件功能模块及计算机程序等。所述终端设备10通过所述图片集描述装置100生成可揭露待描述图片集的具体图像内容的自然语言描述文本，使用户能够通过生成的自然语言描述文本直观地了解到对应图片集的具体图像内容。

可以理解的是，图1所示的方框示意图仅为终端设备10的一种结构组成示意图，所述终端设备10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

请参照图2，是本申请实施例提供的图片集描述方法的流程示意图之一。在本申请实施例中，所述图片集描述方法应用于上述的终端设备10，下面对图2所示的图片集描述方法的具体流程和步骤进行详细阐述。

步骤S210，获取包括至少一张图片的待描述图片集所对应的主要图像场景。

在本实施例中，所述待描述图片集为需要进行自然语言描述的图片集，所述待描述图片集包括至少一张图片，所述待描述图片集的主要图像场景为由所述待描述图片集中所有图片表现出的所有图像场景中的出现频次比重最大的图像场景，即所述主要图像场景为当前最能表示该待描述图片集的具体图像内容的图像场景。其中，所述待描述图片集所对应的主要图像场景，可以是由其他电子设备发送给所述终端设备10的，也可以是由所述终端设备10通过对所述待描述图片集进行主要图像场景确定操作来获取的。

可选地，请参照图3，图3是图2中的步骤S210包括的子步骤的流程示意图。在本实施例中，当所述待描述图片集对应的主要图像场景由所述终端设备10基于所述待描述图片集得到时，所述步骤S210包括子步骤S211、子步骤S212及子步骤S213。

子步骤S211，提取所述待描述图片集中的每张图片的图像特征，并根据预存的场景识别模型及得到的每张图片的图像特征对每张图片的图片场景进行识别。

在本实施例中，所述终端设备10可通过存储的图像特征提取模型对所述待描述图片集中的每张图片进行图像特征提取，得到每张所述图片的图像特征。而后所述终端设备10将每张所述图片的图像特征输入到所述场景识别模型中，以通过所述场景识别模型对该图片所对应的图片场景进行识别，从而得到每张图片的图片场景，其中一张图片可对应出现至少一种图片场景。其中，所述场景识别模型在获取到待识别图片的图像特征后，可基于获取到的图像特征计算该待识别图片与每种图像场景的标准表现图片之间的图像相似度，并根据计算出的图像相似度确定出该待识别图片所对应的图片场景；也可基于获取到的图像特征以及该待识别图片的拍摄时间和拍摄地点，间接推断出该待识别图片所对应的图片场景。

子步骤S212，对识别出的每种所述图片场景在所述待描述图片集中对应的图片张数进行统计，并根据统计结果计算图片张数最大的目标图片场景在所述待描述图片集处的出现置信度。

在本实施例中，所述终端设备10在识别出所述待描述图片集中的每张图片的图片场景后，会对每种图片场景在所述待描述图片集中出现的图片张数进行统计，得到每种图片场景在所述待描述图片集处对应的图片张数。而后，所述终端设备10将选取图片张数最大的目标图片场景来计算其对应的出现置信度，其中所述出现置信度等于对应目标图片场景的图片张数与所述待描述图片集的图片总张数之间的百分比数值。

子步骤S213，将所述出现置信度与预设的置信度阈值进行比较，并在所述出现置信度不小于所述置信度阈值时将所述目标图片场景作为所述主要图像场景。

在本实施例中，所述终端设备10的存储器11存储有置信度阈值，所述终端设备10通过所述置信度阈值来判断所述目标图片场景是否为所述主要图像场景。其中，所述终端设备10通过将所述目标图片场景的出现置信度与所述置信度阈值进行比较，并在所述出现置信度不小于所述置信度阈值时，判定所述目标图片场景为所述主要图像场景。在本实施例的一种实施方式中，所述置信度阈值可以是，但不限于，50％、70％、85％或90％，具体的数值可根据需求进行不同的配置。

请再次参照图2，步骤S220，从存储的至少一种图像场景对应的自然语言描述模板中，选取与所述主要图像场景匹配的目标描述模板。

在本实施例中，存储的每种图像场景对应至少一个自然语言描述模板，所述终端设备10在获取到所述待描述图片集对应的主要图像场景后，将从存储的至少一种图像场景所对应的自然语言描述模板中选取出与所述主要图像场景匹配的目标描述模板，并以该目标描述模板生成用于揭露待描述图片集的具体图像内容的自然语言描述文本，使用户能够通过生成的所述自然语言描述文本直观地了解到所述具体图像内容。

在本实施例的第一种实施方式中，所述终端设备10可直接从与所述主要图像场景对应的所有自然语言描述模板中，随机选取一个自然语言描述模板来作为所述目标描述模板。

在本实施例的第二种实施方式中，所述终端设备10可直接从与所述主要图像场景对应的所有自然语言描述模板中，选取被使用次数最小的自然语言描述模板来作为所述目标描述模板。

在本实施例的第三种实施方式中，所述终端设备10可在所述与所述主要图像场景对应的所有自然语言描述模板中，按照模板种类的使用优先级选取对应种类的自然语言描述模板来作为所述目标描述模板。

可选地，请参照图4，图4是图2中的步骤S220包括的子步骤的流程示意图。在本实施例中，当所述终端设备10按照模板种类的使用优先级来确定所述目标描述模板时，所述步骤S220可以包括子步骤S221、子步骤S222、子步骤S223及子步骤S224。

子步骤S221，在存储的至少一种图像场景所对应的自然语言描述模板中，筛选出与所述主要图像场景对应的所有自然语言描述模板。

在本实施例中，被所述终端设备10筛选出的自然语言描述模板的模板种类包括第一类描述模板、第二类描述模板、第三类描述模板及第四类描述模板中的任意一种或多种的组合。

子步骤S222，读取所述待描述图片集的拍摄时间及拍摄地点，并在筛选出的所有自然语言描述模板中检测是否存在与所述拍摄时间及所述拍摄地点匹配的第一类描述模板。

在本实施例中，所述终端设备10通过对所述待描述图片集中每张图片的拍摄时间点及拍摄地点进行读取，并将读取到的所有图片的拍摄时间点进行时间求共运算以得到所述待描述图片集的拍摄时间，将读取到的所有图片的拍摄地点进行地点求共运算以得到所述待描述图片集的拍摄地点。例如，若待描述图片集中的一张图片的拍摄时间点是2017年5月15日，而另一张图片的拍摄时间点是2017年5月20日，则该待描述图片集对应的拍摄时间为2017年5月；若待描述图片集中的一张图片的拍摄地点是南充市安平镇，而另一张图片的拍摄地点是南充市木老镇，则该待描述图片集对应的拍摄地点为南充市。

所述终端设备10在得到所述待描述图片集的拍摄时间及拍摄地点后，会在筛选出的自然语言描述模板中检测是否存在时间属性与所述拍摄时间匹配且地点属性与所述拍摄地点匹配的第一类描述模板。

子步骤S223，若检测到存在所述第一类描述模板，则以所述第一类描述模板作为所述目标描述模板。

在本实施例中，当所述终端设备10检测到存在所述第一类描述模板时，所述终端设备10将从与该主要图像场景匹配的所有第一类描述模板中，选取一个模板来作为所述目标描述模板。在本实施例的一种实施方式中，所述终端设备10直接从与该主要图像场景匹配的所有第一类描述模板中，随机选取一个模板来作为所述目标描述模板；在本实施例的另一种实施方式中，所述终端设备10从与该主要图像场景匹配的所有第一类描述模板中，选取被使用次数最小的模板来作为所述目标描述模板。

子步骤S224，若检测到未存在所述第一类描述模板，则在筛选出的所有自然语言描述模板中检测是否存在只与所述拍摄地点匹配的第二类描述模板及只与所述拍摄时间匹配的第三类描述模板，并根据检测结果确定出所述目标描述模板。

在本实施例中，当所述终端设备10检测到未存在与时间属性与所述拍摄时间匹配且地点属性与所述拍摄地点匹配的第一类描述模板时，所述终端设备10将在筛选出的所有自然语言描述模板中检测是否存在地点属性与所述拍摄地点匹配的第二类描述模板，以及时间属性与所述拍摄时间匹配的第三类描述模板，并根据相应的检测结果从筛选出的所有自然语言描述模板中确定出一个描述模板来作为所述目标描述模板。

所述在筛选出的所有自然语言描述模板中检测是否存在只与所述拍摄地点匹配的第二类描述模板及只与所述拍摄时间匹配的第三类描述模板，并根据检测结果确定出所述目标描述模板的步骤，包括：

若检测到存在所述第二类描述模板，则以所述第二类描述模板作为所述目标描述模板；

若检测到未存在所述第二类描述模板却存在所述第三类描述模板，则以所述第三类描述模板作为所述目标描述模板；

若检测到未存在所述第二类描述模板及所述第三类描述模板，则直接以筛选出的所有自然语言描述模板中的第四类描述模板作为所述目标描述模板。

其中，当检测到存在地点属性与所述拍摄地点匹配的第二类描述模板时，不管此时是否存在时间属性与所述拍摄时间匹配的第三类描述模板，所述终端设备10将从与该主要图像场景匹配的所有第二类描述模板中，随机选取一个模板来作为所述目标描述模板，或选取被使用次数最小的一个模板来作为所述目标描述模板。

当检测到不存在地点属性与所述拍摄地点匹配的第二类描述模板，而存在时间属性与所述拍摄时间匹配的第三类描述模板时，所述终端设备10将从与该主要图像场景匹配的所有第三类描述模板中，随机选取一个模板来作为所述目标描述模板，或选取被使用次数最小的一个模板来作为所述目标描述模板。

当检测到不存在地点属性与所述拍摄地点匹配的第二类描述模板，且不存在时间属性与所述拍摄时间匹配的第三类描述模板时，所述终端设备10将从与该主要图像场景匹配的所有第四类描述模板中，随机选取一个模板来作为所述目标描述模板，或选取被使用次数最小的一个模板来作为所述目标描述模板。

请再次参照图2，步骤S230，根据所述主要图像场景及所述目标描述模板生成与所述待描述图片集对应的自然语言描述文本。

在本申请实施例中，当所述终端设备10得到所述待描述图片集的主要图像场景及目标描述模板后，所述终端设备10将根据所述目标描述模板对应的模板属性、所述待描述图片集的主要图像场景、所述待描述图片集的拍摄时间及待描述图片集的拍摄地点，生成对应的自然语言描述文本，以通过所述自然语言描述文本揭露该待描述图片集的具体图像内容，使用户可通过生成的自然语言描述文本直观地了解到对应图片集的具体图像内容。

请参照图5，是本申请实施例提供的图片集描述方法的流程示意图之二。在本申请实施例中，在所述步骤S210之前，所述图片集描述方法还可以包括步骤S209。

步骤S209，预先对至少一种图像场景所对应的自然语言描述模板进行配置。

在本实施例中，用户可通过所述终端设备10为每种图像场景设计一定数量的自然语言描述模板，其中同一种图像场景所对应的自然语言描述模板的种类为第一类描述模板、第二类描述模板、第三类描述模板及第四类描述模板中的任意一种或多种的组合。

请参照图6，是本申请实施例提供的图1中所示的图片集描述装置100的功能方框示意图。在本申请实施例中，所述图片集描述装置100包括场景获取模块110、模板选取模块120及描述生成模块130。

所述场景获取模块110，用于获取包括至少一张图片的待描述图片集所对应的主要图像场景。

在本实施例中，所述场景获取模块110具体用于：

提取所述待描述图片集中的每张图片的图像特征，并根据预存的场景识别模型及得到的每张图片的图像特征对每张图片的图片场景进行识别；

对识别出的每种所述图片场景在所述待描述图片集中对应的图片张数进行统计，并根据统计结果计算图片张数最大的目标图片场景在所述待描述图片集处的出现置信度；

将所述出现置信度与预设的置信度阈值进行比较，并在所述出现置信度不小于所述置信度阈值时将所述目标图片场景作为所述主要图像场景。

其中，所述场景获取模块110可以执行图2中的步骤S210，以及图3中的子步骤S211、子步骤S212及子步骤S213，具体的描述可参照上文中对步骤S210、子步骤S211、子步骤S212及子步骤S223的详细描述。

所述模板选取模块120，用于从存储的至少一种图像场景对应的自然语言描述模板中，选取与所述主要图像场景匹配的目标描述模板。

在本实施例中，存储的每种图像场景对应至少一个自然语言描述模板，所述模板选取模块120可以执行图2中的步骤S220，具体的描述可参照上文中对步骤S220的详细描述。

可选地，请参照图7，图7是图6中所示的模板选取模块120的功能方框示意图。在本实施例中，每种图像场景对应的自然语言描述模板的模板种类包括第一类描述模板、第二类描述模板、第三类描述模板及第四类描述模板中的任意一种或多种的组合，所述模板选取模块120包括模板筛选子模块121、模板检测子模块122、第一确认子模块123及第二确认子模块124。

所述模板筛选子模块121，用于在存储的至少一种图像场景所对应的自然语言描述模板中，筛选出与所述主要图像场景对应的所有自然语言描述模板。

在本实施例中，所述模板筛选子模块121可以执行图4中的子步骤S221，具体的描述可参照上文中对子步骤S221的详细描述。

所述模板检测子模块122，用于读取所述待描述图片集的拍摄时间及拍摄地点，并在筛选出的所有自然语言描述模板中检测是否存在与所述拍摄时间及所述拍摄地点匹配的第一类描述模板。

在本实施例中，所述模板检测子模块122可以执行图4中的子步骤S222，具体的描述可参照上文中对子步骤S222的详细描述。

所述第一确认子模块123，用于若检测到存在所述第一类描述模板，则以所述第一类描述模板作为所述目标描述模板。

在本实施例中，所述第一确认子模块123可以执行图4中的子步骤S223，具体的描述可参照上文中对子步骤S223的详细描述。

所述第二确认子模块124，用于若检测到未存在所述第一类描述模板，则在筛选出的所有自然语言描述模板中检测是否存在只与所述拍摄地点匹配的第二类描述模板及只与所述拍摄时间匹配的第三类描述模板，并根据检测结果确定出所述目标描述模板。

在本实施例中，所述第二确认子模块124具体用于：

其中，所述第二确认子模块124可以执行图4中的子步骤S224，具体的描述可参照上文中对子步骤S224的详细描述。

所述描述生成模块130，用于根据所述主要图像场景及所述目标描述模板生成与所述待描述图片集对应的自然语言描述文本。

在本实施例中，所述描述生成模块130可以执行图2中的步骤S230，具体的描述可参照上文中对步骤S230的详细描述。

请参照图8，在本申请实施例中，所述图片集描述装置100还可以包括模板配置模块140。

所述模板配置模块140，用于预先对至少一种图像场景所对应的自然语言描述模板进行配置。

在本实施例中，所述模板配置模块140可以执行图5中的步骤S209，具体的描述可参照上文中对步骤S209的详细描述。

综上所述，在本申请实施例提供的图片集描述方法及装置能够基于待描述图片集的图像场景生成对应的自然语言描述文本，以揭露该待描述图片集的具体图像内容，使用户可通过生成的自然语言描述文本直观地了解到对应图片集的具体图像内容。首先，所述方法获取包括至少一张图片的待描述图片集所对应的主要图像场景，其中所述主要图像场景为由所述待描述图片集中所有图片表现出的图像场景中的出现频次比重最大的图像场景；然后，所述方法从存储的至少一种图像场景对应的自然语言描述模板中，选取与所述主要图像场景匹配的目标描述模板，其中，存储的每种图像场景对应至少一个自然语言描述模板；最后，所述方法根据所述主要图像场景及所述目标描述模板生成与所述待描述图片集对应的自然语言描述文本，从而通过所述自然语言描述文本揭露该待描述图片集的具体图像内容，使用户可通过生成的自然语言描述文本直观地了解到对应图片集的具体图像内容。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图片集描述方法，其特征在于，所述方法包括：

获取包括至少一张图片的待描述图片集所对应的主要图像场景，提取所述待描述图片集中的每张图片的图像特征，并根据预存的场景识别模型及得到的每张图片的图像特征对每张图片的图片场景进行识别，对识别出的每种所述图片场景在所述待描述图片集中对应的图片张数进行统计，并根据统计结果计算图片张数最大的目标图片场景在所述待描述图片集处的出现置信度，将所述出现置信度与预设的置信度阈值进行比较，并在所述出现置信度不小于所述置信度阈值时将所述目标图片场景作为所述主要图像场景；从存储的至少一种图像场景对应的自然语言描述模板中，选取与所述主要图像场景匹配的目标描述模板，其中，存储的每种图像场景对应至少一个自然语言描述模板；

根据所述主要图像场景及所述目标描述模板生成与所述待描述图片集对应的自然语言描述文本；

每种图像场景对应的自然语言描述模板的模板种类包括第一类描述模板、第二类描述模板、第三类描述模板及第四类描述模板中的任意一种或多种的组合，所述从存储的至少一种图像场景对应的自然语言描述模板中，选取与所述主要图像场景匹配的目标描述模板的步骤，包括：在存储的至少一种图像场景所对应的自然语言描述模板中，筛选出与所述主要图像场景对应的所有自然语言描述模板；读取所述待描述图片集的拍摄时间及拍摄地点，并在筛选出的所有自然语言描述模板中检测是否存在与所述拍摄时间及所述拍摄地点匹配的第一类描述模板；若检测到存在所述第一类描述模板，则以所述第一类描述模板作为所述目标描述模板；若检测到未存在所述第一类描述模板，则在筛选出的所有自然语言描述模板中检测是否存在只与所述拍摄地点匹配的第二类描述模板及只与所述拍摄时间匹配的第三类描述模板，并根据检测结果确定出所述目标描述模板。

2.根据权利要求1所述的方法，其特征在于，所述在筛选出的所有自然语言描述模板中检测是否存在只与所述拍摄地点匹配的第二类描述模板及只与所述拍摄时间匹配的第三类描述模板，并根据检测结果确定出所述目标描述模板的步骤，包括：

若检测到未存在所述第二类描述模板及所述第三类描述模板，则以筛选出的所有自然语言描述模板中的第四类描述模板作为所述目标描述模板。

3.根据权利要求1-2中任意一项所述的方法，其特征在于，所述方法还包括：预先对至少一种图像场景所对应的自然语言描述模板进行配置。

4.一种图片集描述装置，其特征在于，所述装置包括：

场景获取模块，用于获取包括至少一张图片的待描述图片集所对应的主要图像场景；模板选取模块，用于从存储的至少一种图像场景对应的自然语言描述模板中，选取与所述主要图像场景匹配的目标描述模板，所述场景获取模块具体用于：

将所述出现置信度与预设的置信度阈值进行比较，并在所述出现置信度不小于所述置信度阈值时将所述目标图片场景作为所述主要图像场景，其中，存储的每种图像场景对应至少一个自然语言描述模板，每种图像场景对应的自然语言描述模板的模板种类包括第一类描述模板、第二类描述模板、第三类描述模板及第四类描述模板中的任意一种或多种的组合，所述模板选取模块包括：模板筛选子模块，用于在存储的至少一种图像场景所对应的自然语言描述模板中，筛选出与所述主要图像场景对应的所有自然语言描述模板；模板检测子模块，用于读取所述待描述图片集的拍摄时间及拍摄地点，并在筛选出的所有自然语言描述模板中检测是否存在与所述拍摄时间及所述拍摄地点匹配的第一类描述模板；第一确认子模块，用于若检测到存在所述第一类描述模板，则以所述第一类描述模板作为所述目标描述模板；第二确认子模块，用于若检测到未存在所述第一类描述模板，则在筛选出的所有自然语言描述模板中检测是否存在只与所述拍摄地点匹配的第二类描述模板及只与所述拍摄时间匹配的第三类描述模板，并根据检测结果确定出所述目标描述模板；

5.根据权利要求4所述的装置，其特征在于，所述第二确认子模块具体用于：

6.根据权利要求4-5中任意一项所述的装置，其特征在于，所述装置还包括：模板配置模块，用于预先对至少一种图像场景所对应的自然语言描述模板进行配置。