CN110413819B

CN110413819B - 一种图片描述信息的获取方法及装置

Info

Publication number: CN110413819B
Application number: CN201910628468.8A
Authority: CN
Inventors: 陈海波
Original assignee: Deep Blue Technology Shanghai Co Ltd
Current assignee: Deep Blue Technology Shanghai Co Ltd
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2022-03-29
Anticipated expiration: 2039-07-12
Also published as: CN110413819A

Abstract

本申请公开了一种图片描述信息的获取方法及装置。该方法通过对待描述图片，采用预设词处理算法，对待描述图片对应的原始图片描述信息进行分词与词分类处理，得到第一词集合和第一词集合中至少一个词的词类型后，采用预设词频算法，对第一词集合的至少一个词和相应词类型进行词组搭配的概率运算，得到第二词集合和第二词集合中至少一个词的词类型；采用预设神经网络算法，将第二词集合的至少一个词、相应词类型与至少一个对象的对象信息进行匹配运算，获取至少一个对象的对象信息对应的目标词，以得到新的图片描述信息。该方法可以提高对多对象、多交互、多变动的复杂场景图片描述的准确性，降低人工成本。

Description

一种图片描述信息的获取方法及装置

技术领域

本申请涉及通信技术领域，尤其涉及一种图片描述信息的获取方法及装置。

背景技术

现实世界的各个场景是动态的、复杂的，每个场景可以包括对象、对象的属性、对象间的关系，以及对象的变动方向等。理解图像中完整的语义是个复杂的任务，包括对象的识别、对象组合的推理以及对象关系的辨识等。图片是可以同时表示对象及对象关系的数据结构，其中，如图1A所示，图片中的节点表示实体，如实体1、实体2和实体3，图片中的边表示实体关系，如实体1与实体2相连，且相距较近，实体3与实体2相连，且相距较近，实体1和实体3彼此远离。

现有技术普遍利用现成图片描述信息匹配图像，即结合现有的图片集和语料集，首先对每张图片的对象限定边框，然后利用语料集中的图片描述信息对边框中的内容进行文本描述，其方式包括：

1、若视觉图像数据集中不存在目标图片的图片描述信息，则需要在目标图片上人工圈定对象边框，并对边框内的信息加以规范化注释(或称“描述”)，然后利用交叉验证确定图像的图片描述信息；交叉验证(Cross-validation)主要用于建模应用中，例如PCR、PLS回归建模中。在给定的建模样本中，用大部分样本进行建模，用小部分样本对建立的模型进行预报，并求这小部分样本的预报误差，记录它们的平方加和，以得到可靠稳定的模型。

2、若视觉图像数据集中存在目标图片的图片描述信息，则可以通过对象识别算法在图片上圈定对象边框，并对图片描述信息的所有词汇进行分类，根据图片场景生成结构化的图片描述信息，该结构化的图片描述信息为主题subject,关系relation,对象object的组合，由此对图片描述信息与边框中的图片信息进行分类和匹配。

然而，发明人发现图片和图片描述信息的匹配，需要尽可能多地体现图片中的对象以及对象间的关系。上述两种方式存在以下不足：

1、人工注释得到的视觉图像数据集规模小，不适用深度的研究以及具有多对象、多交互、多变动特点的复杂场景，尤其当不同图片的场景不同，且当前视觉图像数据集中不存在某些场景的图像描述信息时，为了适应不同场景，需要增加人工注释，导致人工成本增大；

2、上述结构化的图片描述信息的结构仅适合描述两两对象间的关系，对于复杂场景中多对象及多对象间关系的描述准确性不高。

发明内容

本申请实施例提供一种图片描述信息的获取方法及装置，解决了现有技术存在的上述问题，以提高对多对象、多交互、多变动的复杂场景图片描述的准确性，降低人工成本。

第一方面，提供了一种图片描述信息的获取方法，该方法可以包括：

对待描述图片，采用预设图像处理算法，获取所述待描述图片中的至少一个对象和所述至少一个对象的对象信息；其中，所述对象信息包括对象标识、属性信息、所述至少一个对象中对象间的关联关系以及每个对象的背景信息，所述关联关系包括所述对象与所述其他对象的位置特征信息，所述背景信息为以所述对象为中心，预设范围内除所述对象的图片信息；

采用预设词处理算法，对所述待描述图片对应的原始图片描述信息进行分词与词分类处理，得到第一词集合和所述第一词集合中至少一个词的词类型后，采用预设词频算法，对所述第一词集合的至少一个词和相应词类型进行词组搭配的概率运算，得到第二词集合和所述第二词集合中至少一个词的词类型，所述第二词集合的至少一个词为所述第一词集合中词组搭配概率大于预设概率阈值的词；

采用预设神经网络算法，将所述第二词集合的至少一个词、相应词类型与所述至少一个对象的对象信息进行匹配运算，获取所述至少一个对象的对象信息对应的目标词；

将所述对象信息对应的目标词按照预设图片描述结构进行存储，得到新的图片描述信息。

在一个可选的实现中，对获取的待描述图片，采用预设图像处理算法，提取所述待描述图片中的至少一个对象和所述至少一个对象的对象信息，包括：

根据预设对象检测算法，对所述待描述图片进行对象检测，获取至少一个对象和相应对象标识；

根据预设特征提取算法，对所述至少一个对象进行特征提取，得到所述至少一个对象的属性信息；

采用边框回归算法和预设坐标算法，对所述至少一个对象进行区域划分和位置运算，得到所述至少一个对象的位置信息和对象区域；

基于所述至少一个对象的位置信息和对象区域的区域关系，采用预设空间推理算法，得到表示对象间位置关系的位置特征信息，以获取所述对象间的关联关系；

根据所述预设特征提取算法，分别对以所述至少一个对象为中心，预设范围内除相应对象的图片信息进行特征提取，得到所述至少一个对象对应的背景信息。

在一个可选的实现中，所述关联关系还包括所述对象与所述其他对象的行为特征信息；

得到所述至少一个对象中对象间的位置信息之后，所述方法还包括：

根据所述至少一个对象的位置信息和所述属性信息中的对象状态，采用预设逻辑推理算法，得到表示对象间对象状态的行为特征信息，以获取所述对象间的关联关系。

在一个可选的实现中，采用预设词处理算法，对所述待描述图片对应的原始图片描述信息进行分词与词分类处理，得到第一词集合和所述第一词集合中至少一个词的词类型，包括：

采用预设分词算法，对所述原始图片描述信息进行分词运算，得到至少一个待分类词；

采用预设词嵌入的距离算法，对所述至少一个待分类词进行分类，得到所述第一词集合的至少一个词和所述至少一个词的词类型。

在一个可选的实现中，得到新的图片描述信息之后，所述方法还包括：

根据所述至少一个对象中每个对象的属性信息，获取描述所述至少一个对象中目标对象的扩展词，所述目标对象为所述至少一个对象中的任一对象，所述扩展词包括描述所述目标对象的同义词和多义词中的至少一种；

将所述扩展词添加入所述新的图片描述信息。

获取所述目标场景的属性信息，所述属性信息包括目标场景的营业时间、照明信息和对象类型；

将所述目标场景的属性信息添加入所述新的图片描述信息。

第二方面，提供了一种图片描述信息的获取装置，该装置可以包括：获取单元、运算单元和存储单元；

所述获取单元，用于对待描述图片，采用预设图像处理算法，获取所述待描述图片中的至少一个对象和所述至少一个对象的对象信息；其中，所述对象信息包括对象标识、属性信息、所述至少一个对象中对象间的关联关系以及每个对象的背景信息，所述关联关系包括所述对象与所述其他对象的位置特征信息，所述背景信息为以所述对象为中心，预设范围内除所述对象的图片信息；

所述运算单元，用于采用预设词处理算法，对所述待描述图片对应的原始图片描述信息进行分词与词分类处理，得到至少一个第一词和所述至少一个第一词的词类型后，采用预设词频算法，对所述至少一个第一词和相应词类型进行词组搭配的概率运算，得到至少一个第二词和相应词类型，所述至少一个第二词为词组搭配概率大于预设概率阈值的词；

所述获取单元，还用于采用预设神经网络算法，将所述至少一个第二词、所述至少一个第二词的词类型与所述至少一个对象的对象信息进行匹配运算，获取所述至少一个对象的对象信息对应的目标词；

所述存储单元，用于将所述对象信息对应的目标词按照预设图片描述结构进行存储，得到新的图片描述信息。

在一个可选的实现中，所述获取单元，具体用于根据预设对象检测算法，对所述待描述图片进行对象检测，获取至少一个对象和相应对象标识；

所述运算单元，还用于根据所述至少一个对象的位置信息和所述属性信息中的对象状态，采用预设逻辑推理算法，得到表示对象间对象状态的行为特征信息，以获取所述对象间的关联关系。

在一个可选的实现中，所述运算单元，具体用于采用预设分词算法，对所述原始图片描述信息进行分词运算，得到至少一个待分类词；

采用预设词嵌入的距离算法，对所述至少一个待分类词进行分类，得到至少一个所述第一词集合的词和所述至少一个词的词类型。

在一个可选的实现中，所述装置还包括第一添加单元；所述获取单元，还用于根据所述至少一个对象中每个对象的属性信息，获取描述所述至少一个对象中目标对象的扩展词，所述目标对象为所述至少一个对象中的任一对象，所述扩展词包括描述所述目标对象的同义词和多义词中的至少一种；

所述第一添加单元，用于将所述扩展词添加入所述新的图片描述信息。

在一个可选的实现中，所述装置还包括第二添加单元；

所述获取单元，还用于获取所述目标场景的属性信息，所述属性信息包括目标场景的营业时间、照明信息和对象类型；

所述第二添加单元，用于将所述目标场景的属性信息添加入所述新的图片描述信息。

第三方面，提供了一种电子设备，该电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面中任一所述的方法步骤。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。

本发明上述实施例的方法通过对待描述图片，采用预设图像处理算法，获取待描述图片中的至少一个对象和至少一个对象的对象信息；其中，对象信息包括对象标识、属性信息、至少一个对象中对象间的关联关系以及每个对象的背景信息，关联关系包括对象与其他对象的位置特征信息，背景信息为以对象为中心，预设范围内除对象的图片信息；采用预设词处理算法，对待描述图片对应的原始图片描述信息进行分词与词分类处理，得到第一词集合和第一词集合中至少一个词的词类型后，采用预设词频算法，对第一词集合的至少一个词和相应词类型进行词组搭配的概率运算，得到第二词集合和第二词集合中至少一个词的词类型，第二词集合的至少一个词为第一词集合中词组搭配概率大于预设概率阈值的词；采用预设神经网络算法，将第二词集合的至少一个词、相应词类型与至少一个对象的对象信息进行匹配运算，获取至少一个对象的对象信息对应的目标词，以得到新的图片描述信息。该方法可以提高对多对象、多交互、多变动的复杂场景图片描述的准确性，降低人工成本。与现有技术相比，目标场景的图片描述信息具有更好的场景理解能力和相应的推理预测能力。

附图说明

图1A为现有技术提供的一种图片中实体与实体关系的结构示意图；

图1B为本发明实施例提供的一种图片描述信息的获取方法应用的计算机视觉系统架构图；

图2为本发明实施例提供的一种图片描述信息的获取方法的流程示意图；

图3为本发明实施例提供的一种待描述图片的示意图；

图4为本发明实施例提供的一种视觉场景图的示意图；

图5为本发明实施例提供的一种图片描述信息的获取装置的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，并不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明实施例提供的图片描述信息的获取方法可以应用在图1B所示的计算机视觉系统架构中，该系统可以包括：图片描述信息的获取设备和存储器。其中，图片描述信息的获取设备可以应用在服务器上，也可以应用在终端上。为了保证生成的视觉场景图的精确性，服务器可以是具有较强计算能力的应用服务器或云服务器；终端可以是具有较强的计算能力的移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment，UE)、具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station，MS)等。

存储器，用于存储视觉图像数据集。其中，视觉图像数据集由至少一张图片和描述相应图片的图片描述信息构成。

图片描述信息的获取设备，用于从存储的视觉图像数据集，获取待描述图片和待描述图片对应的图片描述信息。采用预设图像处理算法，如Faster-RCNN算法，获取待描述图片中的至少一个对象和至少一个对象的对象信息；其中，对象信息包括对象标识、属性信息、背景信息和对象间的关联关系，该属性信息可以包括颜色、形状、材质、大小、状态等信息。以及，采用预设词处理算法，对待描述图片对应的原始图片描述信息进行运算，得到第一词集合和第一词集合中至少一个词的词类型后，采用预设词频算法，如汉语语言模型n-gram算法，对第一词集合的至少一个词和相应词类型进行词组搭配的概率运算，得到第二词集合和第二词集合中至少一个词的词类型，第二词集合的至少一个词为第一词集合中词组搭配概率大于预设概率阈值的词，采用预设神经网络算法，将第二词集合的至少一个词、相应词类型与至少一个对象的对象信息进行匹配运算，获取至少一个对象的对象信息对应的目标词，从而获取新的图片描述信息。本发明实施例的上述图片描述信息的获取设备可以提高对多对象、多交互、多变动的复杂场景图片描述的准确性，降低人工成本。与现有技术相比，目标场景的图片描述信息具有更好的场景理解能力和相应的推理预测能力。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图2为本发明实施例提供的一种图片描述信息的获取方法的流程示意图。如图2所示，该方法的执行主体为图片描述信息的获取设备，该方法可以包括：

步骤210、在存储的视觉图像数据集中，获取待描述图片和待描述图片对应的图片描述信息。

待描述图片为至少一张包括目标场景的图片，视觉图像数据集由至少一张图片和描述相应图片的图片描述信息构成。

目标场景为多对象、多交互、多变动的复杂场景，如商场。图片描述信息的获取设备需要在存储的视觉图像数据集中先查找到以商场为目标场景的至少一张图片作为待描述图片，再获取相应图片对应的图片描述信息。其中，目标场景可以包括消费人群、店铺、灯具、自动扶梯等场景。待描述图片对应的图片描述信息是从目标属性、空间推理、逻辑推理、行为关系等多维度特征描述图片场景画面的文本信息。

可选地，为了提高图片描述的准确性，图片描述信息的获取设备可以对查找到的至少一张图片进行预处理，得到处理后的图片，将处理后的图片作为待描述图片。对图片的预处理可以包括对图片的筛选和对图片对应的视觉场景图添加相关内容字段等。相关内容字段可以是区分不同图片的图片标识字段，也可以是图片的内容字段，如对象的属性字段、对象间的关系字段、对象标识字段，如对象名称字段等。

例如，以查找到以商场为目标场景的10张图片为例，图片描述信息的获取设备先对10张图片进行筛选，筛选出5张画面内容清晰、不重复的图片，之后将筛选后的5张图片确定为待描述图片，并分别对5张图片分配图片标识字段、内容字段等。

步骤220、根据预设图像处理算法，获取待描述图片中的至少一个对象和至少一个对象的对象信息。

其中，对象信息包括对象标识、属性信息、背景信息和对象间的关联关系，该关联关系可以是空间关系、比较关系、动作关系等。对于空间关系，如on，in，behind，关联关系可以包括该对象与其他对象的位置特征信息；对于动作关系，如watch，关联关系可以包括该对象与其他对象的行为特征信息。目标对象的背景信息为以目标对象为中心，预设范围内除目标对象外的图片信息。

图片描述信息的获取设备根据预设图像处理算法中的预设对象检测，对待描述图片进行检测，得到至少一个对象和相应对象标识，其中，图片描述信息的获取设备可以通过Faster-RCNN算法提取待描述图片中对象及相应对象区域，该区域可以通过边框回归bounding box进行标识，即通过边框回归标识至少一个对象，并为每个对象赋予唯一的对象标识。

然后，根据预设特征提取算法，对至少一个对象进行特征提取，得到至少一个对象和至少一个对象的属性信息。对象的属性信息可以包括颜色、形状、大小、材料和状态等信息，如某一对象的属性信息为：白色、圆形、金属等信息。其中，对象可以是家具、电器、房间布局、室内人物等。

采用边框回归算法和预设坐标算法，对至少一个对象进行区域划分和位置运算，得到至少一个对象的位置信息和对象区域。

具体的，对待描述图片构建直角坐标系，并将该待描述图片上的像素值作为坐标系的坐标轴上的数值，可以得到至少一个对象的位置信息，并采用边框回归标识每个对象的对象区域。如图3所示，待描述图片中包括对象1的凉亭、对象2的山峰和对象3的大树，以A点作为坐标系的原点，且以A点的像素值作为原点坐标(A1，A2)，对象1的位置信息包括(B1，B4)、(B1，B2)、(B3，B2)和(B3，B4)；对象2的位置信息包括(C1，C4)、(C1，C2)、(C3，C2)和(C3，C4)；对象3的位置信息包括(D1，D4)、(D3，D4)、(D1，D2)和(D3，D2)。其中，A1-A4、B1-B4、C1-C4、D1-D4均为待描述图片中相应位置的像素值，覆盖对象1、对象2和对象3的外界边框即为对象1、对象2和对象3的对象区域。

可选地，当对象间的关联关系包括对象间的位置特征信息时，图片描述信息的获取设备根据至少一个对象的位置信息，采用预设空间推理算法，获取表示对象间位置关系的位置特征信息，以获取对象间的关联关系。由于预设空间推理算法能够根据二维的图片中对象的位置信息，推理出各对象在空间内对象间的位置特征信息，故在图3中视觉看到对象3在对象2内，但将对象3和对象2放置在空间内可知对象3是生长在对象2上；如在图片中视觉看到对象1在对象2的左上方，但将对象1和对象2放置在空间内可知对象1是在对象2的左后方。

可选地，当对象间的关联关系包括对象间的行为特征信息时，图片描述信息的获取设备根据至少一个对象的位置信息和属性信息中的对象状态，采用预设逻辑推理算法，得到表示对象间对象状态的行为特征信息，以获取对象间的关联关系。由于预设逻辑推理算法能够根据二维的图片中对象间的对象状态，推理出在空间内对象间对象状态的行为特征信息，故如在某一图片中视觉看到人坐在沙发上目视正前方，且人的正前方是电视，采用预设逻辑推理算法可知人与电视间存在观看和被观看的行为特征信息，即人坐在沙发上看电视。

为了符合复杂场景中多目标、多交互、多变动的特点，根据预设特征提取算法，分别对以至少一个对象为中心，预设范围内除相应对象的图片信息进行特征提取，得到至少一个对象对应的背景信息。每个对象的背景信息，可以克服现有技术仅能得到两两对象关系的问题，得到多对象间属性和行为的关系。

步骤230、根据待描述图片对应的原始图片描述信息，获取第二词集合的至少一个词和相应词类型。

其中，预设词处理算法包括预设分词算法和预设词嵌入的距离算法。词嵌入是一种将各个文本中的单词在预定的向量空间中表示为实值向量的技术，即每个单词被映射成一个向量，并且这个向量可以通过神经网络的方式来学习更新。

采用预设词处理算法，对待描述图片对应的原始图片描述信息进行分词与词分类处理，可以得到第一词集合和第一词集合中至少一个词的词类型。

具体的，采用预设分词算法，对原始图片描述信息进行分词运算，得到至少一个待分类词。

可选的，为了得到精确的至少一个待分类词，可以对分词标注后的词进行词汇清洗，词汇清洗可以包括对分词标注后的词执行删除停用词、更正错别字、删除歧义词、去重等处理。

采用预设词嵌入的距离算法，计算至少一个待分类词对应的实值向量与预设已知类型的词对应的实值向量间的距离，以实现对至少一个待分类词的分类，得到第一词集合的至少一个词和至少一个词的词类型。词类型可以包括对象词、属性词、关系词等，其中，对象词用于描述对象、属性词用于描述对象的属性信息、关系词用于描述对象间的关联关系，关系词可以包括“on”“in”“near”等。

为了减少图片描述信息中语义不自然、表达不充分的缺点，可以增加基于预设词频算法的语义结构筛选操作。具体为，采用预设词频算法，如汉语语言模型N-Gram算法，对第一词集合的至少一个词和相应词类型进行词组搭配的概率运算，得到第二词集合和第二词集合中至少一个词的词类型，第二词集合的至少一个词为第一词集合中词组搭配概率大于预设概率阈值的词。其中，N-Gram算法是大词汇连续语音识别中常用的一种语言模型，用于预计或者评估一个句子是否合理性。

步骤240、采用预设神经网络算法，将第二词集合的至少一个词、相应词类型与至少一个对象的对象信息进行匹配运算，获取至少一个对象的对象信息对应的目标词。

采用预设神经网络算法，将至少一个对象的对象信息与第二词集合的至少一个词、相应词类型进行匹配，获取至少一个对象的对象信息对应的目标词。该目标词是描述对象信息中任一信息的词，如对象名称、对象颜色、对象间的关联关系等。

步骤250、将对象信息对应的目标词按照预设图片描述结构进行存储，得到新的图片描述信息。

其中，新的图片描述信息是对原始图片描述信息的更新与丰富。

将对象信息对应的目标词按照预设图片描述结构进行存储，得到一种图片描述信息的新数据结构。

例如，图片描述信息的存储方式可以如图4所示：

女人(women)—长头发(long hair)、白皮肤(white)、微笑(smiling)、拿着(hold)筷子(chopsticks)、带着(wear)眼镜(glass)、与…相邻(next to)男人(man)、与…相邻(near)桌子(table)；

男人(man)—黄头发(Yellow hair)、白皮肤(white)、在…前面(in front of)桌子(table)、坐在…上(Sit in)椅子(chair)、与…相邻(next to)墙(wall)；

桌子(table)—棕色(brown)、木质(wooden)。

其中，图4中以不同的图例表示对象、属性信息、背景信息和关联关系的不同，在存储过程中可以通过不同的标识来区分不同信息。

可选地，在获取待描述图片对应的目标场景的图片描述信息之后，图片描述信息的获取设备可以对新的图片描述信息进行进一步更新：

方式一，为了提高图片描述信息中词的丰富性，可以通过添加扩展词对场景结构信息进行微调和更正，从而得到更精准的描述。

具体的，图片描述信息的获取设备根据至少一个对象中每个对象的对象信息，获取描述目标对象的扩展词，例如通过本地存储的描述该目标对象的扩展词，或者接收用户输入的扩展词，其中，扩展词可以包括描述目标对象的同义词、多义词和拟声词中的至少一种。

之后，将扩展词添加入新的图片描述信息，并进行存储。

方式二，为了提高图片描述信息中词的丰富性，可以通过添加待描述图片的属性信息(或称“全局信息”)丰富图片描述信息的语义环境，更符合现实情况，增强对图像的语义理解，增加后续推理的准确度，以使图片描述信息更具备现实真实性。

具体的，图片描述信息的获取设备获取目标场景的属性信息，属性信息可以包括目标场景的营业时间、照明信息和对象类型等。

将目标场景的属性信息添加新的图片描述信息。

可选地，在得到更新后的场景结构信息后可以对之前得到的新的图片描述信息进行覆盖，即更新存储位置中新的图片描述信息。

与上述方法对应的，本发明实施例还提供一种图片描述信息的获取装置，如图5所示，该图片描述信息的获取装置包括：获取单元510、运算单元520和存储单元530；

获取单元510，用于对待描述图片，采用预设图像处理算法，获取所述待描述图片中的至少一个对象和所述至少一个对象的对象信息；其中，所述对象信息包括对象标识、属性信息、所述至少一个对象中对象间的关联关系以及每个对象的背景信息，所述关联关系包括所述对象与所述其他对象的位置特征信息，所述背景信息为以所述对象为中心，预设范围内除所述对象的图片信息；

运算单元520，用于采用预设词处理算法，对所述待描述图片对应的原始图片描述信息进行分词与词分类处理，得到第一词集合和所述第一词集合中至少一个词的词类型后，采用预设词频算法，对所述第一词集合的至少一个词和相应词类型进行词组搭配的概率运算，得到第二词集合和所述第二词集合中至少一个词的词类型，所述第二词集合的至少一个词为所述第一词集合中词组搭配概率大于预设概率阈值的词；

获取单元510，还用于采用预设神经网络算法，将所述第二词集合的至少一个词、相应词的词类型与所述至少一个对象的对象信息进行匹配运算，获取所述至少一个对象的对象信息对应的目标词；

存储单元530，用于将所述对象信息对应的目标词按照预设图片描述结构进行存储，得到新的图片描述信息。

在一个可选的实现中，获取单元510，具体用于根据预设对象检测算法，对所述待描述图片进行对象检测，获取至少一个对象和相应对象标识；

在一个可选的实现中，运算单元520，具体用于采用预设分词算法，对所述原始图片描述信息进行分词运算，得到至少一个第二词；

采用预设词嵌入的距离算法，对所述至少一个第二词进行分类，得到至少一个第一词和所述至少一个第一词的词类型。

在一个可选的实现中，所述装置还包括第一添加单元540；

获取单元510，还用于根据所述至少一个对象中每个对象的属性信息，获取描述所述至少一个对象中目标对象的扩展词，所述目标对象为所述至少一个对象中的任一对象，所述扩展词包括描述所述目标对象的同义词和多义词中的至少一种；

第一添加单元540，用于将所述扩展词添加入所述新的图片描述信息。

在一个可选的实现中，所述装置还包括第二添加单元550；

获取单元510，还用于获取所述目标场景的属性信息，所述属性信息包括目标场景的营业时间、照明信息和对象类型；

第二添加单元550，用于将所述目标场景的属性信息添加入所述新的图片描述信息。

本发明上述实施例提供的图片描述信息的获取装置的各功能单元的功能，可以通过上述各方法步骤来实现，因此，本发明实施例提供的图片描述信息的获取装置中的各个单元的具体工作过程和有益效果，在此不复赘述。

本发明实施例还提供了一种电子设备，如图6所示，包括处理器610、通信接口620、存储器630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。

存储器630，用于存放计算机程序；

处理器610，用于执行存储器630上所存放的程序时，实现如下步骤：

采用预设词嵌入的距离算法，对所述至少一个待分类词进行分类，得到所述第一词集合的词和所述至少一个词的词类型。

将所述扩展词添加入所述新的图片描述信息。

将所述目标场景的属性信息添加入所述新的图片描述信息。

上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图2所示的实施例中的各步骤来实现，因此，本发明实施例提供的电子设备的具体工作过程和有益效果，在此不复赘述。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的图片描述信息的获取方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的图片描述信息的获取方法。

本领域内的技术人员应明白，本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此，本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样，倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内，则本申请实施例中也意图包含这些改动和变型在内。

Claims

1.一种图片描述信息的获取方法，其特征在于，所述方法包括：

对待描述图片，采用预设图像处理算法，获取所述待描述图片中的至少一个对象和所述至少一个对象的对象信息；其中，所述对象信息包括对象标识、属性信息、所述至少一个对象中对象间的关联关系以及每个对象的背景信息，所述对象间的关联关系包括所述对象间的位置特征信息，所述背景信息为以所述对象为中心，预设范围内除所述对象的图片信息；其中，所述待描述图片为至少一张包括目标场景的图片；

2.如权利要求1所述的方法，其特征在于，对获取的待描述图片，采用预设图像处理算法，提取所述待描述图片中的至少一个对象和所述至少一个对象的对象信息，包括：

3.如权利要求2所述的方法，其特征在于，所述关联关系还包括所述对象与其他对象的行为特征信息；

4.如权利要求1所述的方法，其特征在于，采用预设词处理算法，对所述待描述图片对应的原始图片描述信息进行分词与词分类处理，得到第一词集合和所述第一词集合中至少一个词的词类型，包括：

5.如权利要求1所述的方法，其特征在于，得到新的图片描述信息之后，所述方法还包括：

将所述扩展词添加入所述新的图片描述信息。

6.如权利要求1所述的方法，其特征在于，得到新的图片描述信息之后，所述方法还包括：

将所述目标场景的属性信息添加入所述新的图片描述信息。

7.一种图片描述信息的获取装置，其特征在于，所述装置包括：获取单元、运算单元和存储单元；

所述获取单元，用于对待描述图片，采用预设图像处理算法，获取所述待描述图片中的至少一个对象和所述至少一个对象的对象信息；其中，所述对象信息包括对象标识、属性信息、所述至少一个对象中对象间的关联关系以及每个对象的背景信息，所述关联关系包括所述对象与其他对象的位置特征信息，所述背景信息为以所述对象为中心，预设范围内除所述对象的图片信息；其中，所述待描述图片为至少一张包括目标场景的图片；

所述运算单元，用于采用预设词处理算法，对所述待描述图片对应的原始图片描述信息进行分词与词分类处理，得到第一词集合和所述第一词集合中至少一个词的词类型后，采用预设词频算法，对所述第一词集合的至少一个词和相应词类型进行词组搭配的概率运算，得到第二词集合和所述第二词集合中至少一个词的词类型，所述第二词集合的至少一个词为所述第一词集合中词组搭配概率大于预设概率阈值的词；

所述获取单元，还用于采用预设神经网络算法，将所述第二词集合的至少一个词、相应词类型与所述至少一个对象的对象信息进行匹配运算，获取所述至少一个对象的对象信息对应的目标词；

8.如权利要求7所述的装置，其特征在于，所述获取单元，具体用于根据预设对象检测算法，对所述待描述图片进行对象检测，获取至少一个对象和相应对象标识；

9.如权利要求8所述的装置，其特征在于，所述关联关系还包括所述对象与所述其他对象的行为特征信息；

10.如权利要求7所述的装置，其特征在于，所述运算单元，具体用于采用预设分词算法，对所述原始图片描述信息进行分词运算，得到至少一个待分类词；

11.如权利要求7所述的装置，其特征在于，所述装置还包括第一添加单元；所述获取单元，还用于根据所述至少一个对象中每个对象的属性信息，获取描述所述至少一个对象中目标对象的扩展词，所述目标对象为所述至少一个对象中的任一对象，所述扩展词包括描述所述目标对象的同义词和多义词中的至少一种；

12.如权利要求7所述的装置，其特征在于，所述装置还包括第二添加单元；

13.一种电子设备，其特征在于，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存储的程序时，实现权利要求1-6任一所述的方法步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。