CN110162639A

CN110162639A - 识图知意的方法、装置、设备及存储介质

Info

Publication number: CN110162639A
Application number: CN201910305322.XA
Authority: CN
Inventors: 颜彬豪
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2019-08-23

Abstract

本发明公开了一种识图知意的方法、装置、设备及存储介质。所述方法包括：使用预设的目标检测模型对待识别图像进行目标检测，确定待识别图像中的识别目标；在待识别图像中包含多个识别目标时，从预设的知识图谱中获取与各识别目标匹配的目标属性及其深层属性，以及各识别目标之间匹配的目标属性之间的关联关系，并根据各所述目标属性、各目标属性的深层属性以及各目标属性之间的关联关系生成第一特征向量集；将第一特征向量集输入至预设的识图知意模型中，接收识图知意模型输出的第一类识别结果，该第一类识别结果用于描述待识别图像的图像实体。本发明实现了智能化解读图像，帮助读者了解图像要表达的主题以及含义。

Description

识图知意的方法、装置、设备及存储介质

技术领域

本发明图像检测领域，具体涉及一种识图知意的方法、装置、设备及存储介质。

背景技术

近年来，随着人工智能领域研究工作的快速发展，越来越多基于深度学习算法的神经网络在计算机视觉、自然语言处理等方面取得了优异成绩，特别是在计算机视觉的图像识别领域可以有效地提取到图像的显著性特征，在图像识别领域上也取得了很不错的成绩。但是，图像识别在获取图片的内容信息上比较单一，仍集中在图像中的物体、字符的识别与比较，以及图像中物体与物体之间的方位关系。这些图片的内容信息虽然已经可以代替人类进行一些自动化的识别工作，但是无法感知到“听话听音”的含义，也即，无法解读图像背后的一些典故。

发明内容

本发明实施例提供一种识图知意的方法、装置、设备及存储介质，实现了智能解读图像，有利于帮助读者了解图像要表达的含义以及故事。

一种识图知意的方法，包括：

使用预设的目标检测模型对获取的待识别图像进行目标检测，确定所述待识别图像中的识别目标；

在所述待识别图像中包含多个所述识别目标时，从预设的知识图谱中获取与各所述识别目标匹配的目标属性及其深层属性，以及与各所述识别目标匹配的所述目标属性之间的关联关系；

根据各所述目标属性、各所述目标属性的深层属性以及各所述目标属性之间的关联关系生成第一特征向量集；

将所述第一特征向量集输入至预设的识图知意模型中，接收所述识图知意模型输出的第一类识别结果；所述第一类识别结果用于描述所述待识别图像表征的图像实体。

一种识图知意的装置，包括：

目标确定模块，用于使用预设的目标检测模型对获取的待识别图像进行目标检测，确定所述待识别图像中的识别目标；

第一获取模块，用于在所述待识别图像中包含多个所述识别目标时，从预设的知识图谱中获取与各所述识别目标匹配的目标属性及其深层属性，以及与各所述识别目标匹配的所述目标属性之间的关联关系；

第一生成模块，用于根据各所述目标属性、各所述目标属性的深层属性以及各所述目标属性之间的关联关系生成第一特征向量集；

第一输出模块，用于将所述第一特征向量集输入至预设的识图知意模型中，接收所述识图知意模型输出的第一类识别结果；所述第一类识别结果用于描述所述待识别图像表征的图像实体。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述识图知意的方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述识图知意的方法。

本发明提供的识图知意的方法、装置、设备及存储介质，通过目标检测模型对待识别图像进行目标检测，确定所述待识别图像中的存在多个识别目标时，首先引入知识图谱获取与各所述识别目标匹配的目标属性及其深层属性，以及各所述目标属性之间的关联关系，并根据上述信息生成第一特征向量集；再将所述特征向量集作为输入参数输入至识图知意模型进行语义及行为分析，并接收所述识图知意模型输出的第一类识别结果。本发明通过AI视觉技术与自然语言处理的深度结合实现解读图像，从而帮助读者了解图像的主题，以及了解图像要表达的含义。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中识图知意的方法的一应用环境示意图；

图2是本发明一实施例中识图知意的方法的一流程图；

图3是本发明一实施例中识图知意的方法的一流程图；

图4是本发明一实施例中识图知意的方法的一流程图；

图5是本发明一实施例中识图知意的方法的一知识图谱示例图；

图6是本发明一实施例中识图知意的方法的一流程图；

图7是本发明一实施例中识图知意的装置的一原理框图；

图8是本发明一实施例中识图知意的装置的一原理框图；

图9是本发明一实施例中识图知意的装置的一原理框图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的识图知意的方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务器进行通信。其中，客户端包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种识图知意的方法，以该方法应用在图1中的服务器为例进行说明，包括以下步骤：

S10，使用预设的目标检测模型对获取的待识别图像进行目标检测，确定所述待识别图像中的识别目标。

其中，所述目标检测模型用于确定待识别图像中目标物的数量(有几个)、位置(在哪儿)以及类别(是什么)等。作为优选，所述目标检测模型基于深度学习模型，并利用了基于候选区域的深度学习目标检测算法(R-CNN)。

所述待识别图像是指，服务器获取的需要解读图像主题及其含义的图像。

所述识别目标是指，待识别图像中的已确定类别的目标物；比如：猫。

作为优选，获取待识别图像，利用选择性搜索算法在所述待识别图像中提取预定数量的候选区域，将每个所述候选区域缩放到预设比例大小之后输入到卷积神经网络，将卷积神经网络的fc7层(第7个全连接层)的输出作为卷积特征，并基于每个所述候选区域提取到的卷积特征输入至支持向量机(SVM)进行分类，从而完成目标检测，也即，找出所述待识别图像中所有目标的位置，并给出每个目标的具体类别。例如，提取2000个候选区域。

S20，在所述待识别图像中包含多个所述识别目标时，从预设的知识图谱中获取与各所述识别目标匹配的目标属性及其深层属性，以及与各所述识别目标匹配的所述目标属性之间的关联关系。

其中，所述深层属性包括与各所述目标属性对应的子属性(例如，基本信息、释意)、与各所述目标属性匹配的本体属性(即主题)以及与匹配的本体属性对应的相关目标属性(除与所述识别目标匹配的目标属性)等；所述目标属性用于表征所述识别目标在预设的知识图谱中的呈现形式。

所述关联关系包含两个以上所述目标属性关联的主题、主题表达含义等；例如，所述关联关系可以是两个所述目标属性之间存在动作关系、两个所述目标属性出自同一典故等。

需要说明的是，在本实施例中，所述识别目标的浅层属性对所述步骤S40中所述识图知意模型输出的第一类识别结果的影响可忽略不计，无需获取所述目标属性的浅层属性即可得到精准解读图像。

S30，根据各所述目标属性、各所述目标属性的深层属性以及各所述目标属性之间的关联关系生成第一特征向量集。

在本实施例中，在所述待识别图像中包含多个所述识别目标时，首先获取与所述识别目标匹配的目标属性的深层属性，以及各所述目标属性之间的关联关系，再将文字描述的所述各所述目标属性、各所述目标属性的深层属性以及各所述目标属性之间的关联关系转换为词向量，并根据所有所述词向量生成第一特征向量集。

作为优选，可以利用深度学习中的独热编码(One-Hot Encoding)将离散型的文字转化为计算机的语言(即数字)，也即将文字转化为词向量，并将所述目标属性与词向量之间、深层属性与词向量之间的转化关系预先存储所述数据库中，且作为优选，可以存储至数据词典中。可理解的，再后续使用时，根据待转换的文字从数据词典中匹配词向量。

示例性的，若获得的各所述目标属性、各所述目标属性的深层属性以及各所述目标属性之间的关联关系对应的待处理文本为：

{识别目标：{乌鸦，瓶子，石头，水}

主题：{《乌鸦喝水》，《石头，沙子和水》，《乌鸦石头与我》}

固定词语(地名或名称)：{石头水，水瓶，水瓶座}

……

}

对文本中的各特征(目标属性或深层属性)转化为对应的词向量可以为：[1.0.0.0]，[0.1.0.0]，[0.0.1.0]，[0.0.0.1]等。

S40，将所述第一特征向量集输入至预设的识图知意模型中，接收所述识图知意模型输出的第一类识别结果；所述第一类识别结果用于描述所述待识别图像表征的图像实体。

其中，所述图像实体可以指故事主题和非故事主题；且所述故事主题包含童话故事、寓言故事、格林故事、小说故事等；所述非故事主题包含描述类主题、分析类主题、解释类主题；所述描述类主题可以根据图像事实的、外显的状态进行确定，例如，“三只松鼠”；所述分析类主题可以根据图像描述的情节进行确定；所述解释类主题可以根据图像内在的、深层的象征进行确定。

其中，所述识图知意模型用于对输入参数(特征向量集)进行语义及行为分析，获得待识别图像中的主题及其含义等。作为优选，所述识图知意模型基于深度学习的自然语言处理，其训练语料包含所述步骤S801中的语料信息。

所述第一类识别结果可以为具有文本活动模板的输出文本，用于描述所述待识别图像中的图像实体；可理解的，在所述待识别图像中包含多个所述识别目标时，所述第一类识别结果对应的输出文本可以包含主题、主题来源、主题含义、主题背景等内容。其中，所述文本活动模板包含根据标点符号划分的多个文本片段，且所述文本活动模板可以使用参数进行设置和调整；例如：设定每一文本片段的排序优先级别，使哪部分的文本片段进行隐藏或者显示。

在本实施例中，在所述步骤S20生成第一特征向量集之后，将所述第一特征向量集作为输入参数输入至已训练好的识图知意模型，并接收所述识图知意模型输出的第一类识别结果，并将所述第一类识别结果显示在客户端。作为优选，所述第一类识别结果可以根据所述待识别图像的主题类别进行设置。

示例性的，若根据所述第一特征向量集和所述识图知意模型确定所述待识别图像用于描述一个故事主题，则输出的所述第一类识别结果可以包含故事主题、故事主题的来源、故事主题表达的含义等内容；例如，该图像描述了一个乌鸦喝水的故事，《乌鸦喝水》是《伊索寓言》中一个寓言故事。

示例性的，若根据所述第一特征向量集和所述识图知意模型确定所述待识别图像用于描述一个非故事主题，则输出的所述第一类识别结果可以包含非故事主题、非故事主题表达的含义等内容；例如，该图像为一张猫喝水的图片，可以预测猫为口渴状态。

综上所述，本发明提供的识图知意的方法，通过目标检测模型对待识别图像进行目标检测，确定所述待识别图像中的存在多个识别目标时，首先引入知识图谱获取与各所述识别目标匹配的目标属性及其深层属性，以及各所述目标属性之间的关联关系，并根据上述信息生成第一特征向量集；再将所述特征向量集作为输入参数输入至识图知意模型进行语义及行为分析，并接收所述识图知意模型输出的第一类识别结果。本发明通过AI视觉技术与自然语言处理的深度结合实现解读图像，从而帮助读者了解图像的主题，以及了解图像要表达的含义。

在一实施例中，如图3所示，在所述待识别图像中仅包含一个所述识别目标时获得的第二特征向量与所述待识别图像中包含多个所述识别目标时获取的一特征向量并不相同，且在所述待识别图像中仅包含一个所述识别目标时获得的第二类识别结果与所述待识别图像中包含多个所述识别目标时获得的第一信息识别结果并不相同。此时，所述步骤S10之后包括以下步骤：

S50，在所述待识别图像中仅包含一个所述识别目标时，从所述知识图谱中获取与该识别目标匹配的目标属性及其深层属性；

S60，根据所述目标属性及其所述深层属性生成第二特征向量集。

在本实施例中，在所述待识别图像中仅包含一个所述识别目标时，首先获取与所述识别目标匹配的目标属性的深层属性，再将文字描述的所述目标属性及其深层属性转化为词向量，并根据所有所述词向量生成第二特征向量集。作为优选，所述数据库中已存储有所述目标属性与词向量之间、深层属性与词向量之间的转化关系。

示例性的，若获得的识别目标及其深层属性对应的待处理文本为：{识别目标：猫；科：猫科；形态：头圆且颜面部短；生活习性：喜吃鱼}，对文本中的各特征(识别目标或深层属性)转化为对应的词向量可以为：‘1’，‘2’，‘3’，‘4’。

S70，将所述第二特征向量集输入至所述识图知意模型中，接收所述识图知意模型输出的第二类识别结果；所述第二类识别结果用于描述所述待识别图像中的所述识别目标的基本信息。

其中，所述第二类识别结果可以为具有活动模板的输出文本，用于描述所述待识别图像中的唯一目标物(识别目标)的基本信息；所述基本信息可以包括识别目标的关系网络、简介信息(例如：百度百科信息)、简介信息来源等

在本实施例中，在所述步骤S40生成第二特征向量集之后，将所述第二特征向量集作为输入参数输入至已训练好的识图知意模型，并接收识图知意模型输出的第二类识别结果，并将所述第二类识别结果显示在客户端。例如，在所述待识别图像中仅包含一个所述识别目标时，所述信息识别结果对应输出文本可以为：该图像为马云的图片，马云为阿里巴巴的创始人。

综上所述，本发明提供的识图知意的方法，通过目标检测模型对待识别图像进行目标检测，确定所述待识别图像中的仅存在唯一的识别目标时，首先引入知识图谱获取与识别目标匹配的目标属性及其深层属性，并根据上述信息生成第二特征向量集；再将所述第二特征向量集作为输入参数输入至识图知意模型进行语义及行为分析，并接收所述识图知意模型输出的识别结果。本发明通过AI视觉技术与自然语言处理的深度结合实现解读图像，从而帮助读者快速了解图像中的除主题及其含义以外的其它信息。

在一实施例中，如图4所示，为了实现从预设的知识图谱获取与各所述识别目标匹配的目标属性及其深层属性，以及与各所述识别目标匹配的所述目标属性之间的关联关系，首先需要构建知识图谱；此时，所述步骤S30之前还包括以下步骤：

S801，获取用于构建知识图谱的语料信息；所述语料信息包含多个文本片段，且每一所述语料信息对应一个语料标注；所述语料标注用于表征所述图像实体的本体属性。

其中，所述语料信息是指文本片段，通过自然语言的方式描述知识内容，可分为生语料和熟语料。原始的未经加工标引的语料为生语料，经过加工分析之后的语料称为熟语料。所述熟语料包含原始文本内容、自然语言分词结果及词性分析结果、文本所描述的目标属性及其子属性等。本实施例中涉及到的用于构建所述知识图谱的语料信息为生语料。例如，文本片段可以为“农夫与蛇是一个经典的寓言故事，出自《伊索寓言》。故事告诉人们做人一定要分清善恶，只能把援助之手伸向善良的人，对恶人千万不能心慈手软。”

S802，对所述文本片段进行分词以及词性标注，根据已标注的词性获取所述文本片段中的关键词；所述关键词包含名词、动词、形容词、数词中的一种或多种。

作为优选，利用自然语言处理技术对所述文本片段进行分词以及词性标注，且作为优选，将词性为名词、动词、形容词、数词的词作为关键词，而将其它词性(例如，介词、助词、拟声词等)的词作为非关键词。

S803，按照预设匹配规则确定所述关键词中与所述本体属性关联的目标属性、所述目标属性的子属性以及所述目标属性之间的关联关系。

其中，所述预设匹配规则是指将词性为名词的关键词匹配到所述目标属性，并将名词前的动词、形容词或数词的关键词匹配到所述目标属性的子属性。

可理解的，在所述知识图像中，每个图像实体关联有多个本体属性，例如“故事主题”实体内有“黛玉葬花”、“农夫与蛇”、“白雪公主和七个小矮人”、“乌鸦喝水”等本体属性；每个本体属性关联有的目标属性，例如“黛玉葬花”本体属性会有“黛玉”、“花”等本体属性；每个目标属性关联有的子属性，例如“林黛玉”目标属性会有“《红楼梦》的女主角”、昵称为“林姑娘”等子属性；各目标属性之间会有各种关联关系，例如，“林黛玉”和“花”之间有会有“动作”关系。

示例性的，如图5所示的知识图谱示例。其中，所述目标实体为对应有多个本体属性，例如“故事主题”的本体属性对应有“农夫与蛇”、“守株待兔”等本体属性；所述本体属性对应有多个目标属性，例如，“农夫与蛇”的本体属性对应有“农夫”、“蛇”等目标属性；所述目标属性对应有多个子属性，例如，“蛇”的目标属性对应有“snake”等子属性。所

具体的，首先根据文本片段的语料标注确定该文本片段匹配的本体属性，而在自所述文本片段中获取到已经过词性标注的关键词之后，将所述文本片段中的已经过词性标注的关键词按照预设匹配规则与对应的本体属性所包含的目标属性进行匹配，确定所述文本片段中目标属性；进一步的，将所述文本片段中的已经过词性标注的剩余关键词(除确定为目标属性的关键词)与对应的目标属性所包含的子属性进行匹配，确定所述文本片段中的目标属性的子属性；此时，结合各所述文本片段中的所述目标属性和所述目标属性的子属性，即可确定目标属性之间的关联关系。需要说明的是，该文本片段中用于描述主题含义的文本可以作为一个本体属性的目标属性。

S804，根据所述图像实体、所述本体属性、所述目标属性、所述目标属性的子属性以及所述目标属性之间的关联关系构建所述知识图谱。

可理解的，通过上述知识图谱用户可以查询到各个图像实体的知识网络，还可以查询到与待识别图像中的目标属性相关的所有文本片段，以便使用。

在一实施例中，如图6所示，若所述待识别图像中所述识别目标的浅层属性对所述识图知意模型的输出结果影响较大，则在确定所述待识别图像的识别目标之后，还需获取所述识别目标的浅层属性，以更进一步地精准解读图像中的主题及其含义；此时，所述步骤S10之后还包括以下步骤：

S901，对已经过目标检测的所述待识别图像进行预处理之后，得到目标图像。

也即，对已确定识别目标的待识别图像进行归一化、平滑、校正等预处理，消除待识别图像中无关的信息，恢复有用的真实信息，从而改进特征提取。其中，所述归一化用于使图像的某些特征在给定变换条件下具有不变特性；所述平滑用于消除图像中的噪声影响；所述校正用于使重建或估计得到的目标图像尽可能趋近无退化的理想图像。

S902，将所述目标图像输入至预设的属性提取模型中，并接收所述属性提取模型输出的已确定的所述识别目标的浅层属性，该浅层属性包括所述识别目标的轮廓信息、颜色信息和行为信息中的一种或多种。

在本实施例中，所述属性提取模型基于深度学习模型，且包含输入层(I)、第一卷积层(C1)、池化层(S)、第二卷积层(C2)以及输出层(O)。可理解的，所述输入层(I)连接有多个第一卷积层(C1)、所述第一卷积层(C1)连接有多个池化层(S2)、所述多个第一卷积层(C1)和所述多个池化层(S2)连接有多个第二卷积层(C3)以及所述多个第二卷积层(C3)连接有输出层(O)。

其中，所述输入层(I)用于接收输入的所述目标图像；所述第一卷积层(C1)用于对所述目标图像进行特征提取，得到(一个或多个)目标全局特征图，进一步对所述(一个或多个)目标全局特征图进行特征提取，得到多个第一属性；所述池化层(S)用于对所述(一个或多个)目标全局特征图进行图像分割，得到多个目标局部特征图；所述第二卷积层(C2)用于结合所述多个基础属性和所述(一个或多个)目标全局特征图对所述多个目标局部特征图进行特征提取，得到多个第二属性；所述输出层(O)用于根据所述多个第一属性和所述多个第二属性确定所述目标图像中的已确定的所述识别目标的浅层属性，并输出已确定的所述识别目标的浅层属性。其中，所述第一属性包括轮廓信息、颜色信息、外貌信息等；第二属性包括行为信息(比如：跳、笑)。可理解的，本实施例中的所述属性提取模型可以进一步验证所述识别目标的准确性。

可理解的，每一个属性均对应一个神经网络或第一卷积层，且所述第一卷积层可以获得第一卷积层之间的基础属性对应的关联关系，便于提高属性提取的可靠性以及提取效率。例如：有翅膀的一般是鸟，有头发的一般是人，即外貌特征和目标类别这两个属性是有关联的，第一卷积层可以让机器学习这两种属性之间的联系；而每一个池化层均对应目标全局特征图中的一个目标区域(比如：头部区域、主体躯干区域等)。

S903，在所述待识别图像中包含多个所述识别目标时，从所述知识图谱中获取与各所述识别目标匹配的所述目标属性及其深层属性，以及与各所述识别目标匹配的所述目标属性之间的关联关系。

S904，根据各所述目标属性、各所述目标属性的所述深层属性、各所述目标属性之间的关联关系以及各所述识别目标的浅层属性生成第三特征向量集。

S905，将所述第三特征向量集输入至所述识图知意模型中，接收所述识图知意模型输出的第三类识别结果；所述第三类识别结果是指描述所述待识别图像的图像实体的输出文本。也即，所述第三类识别结果的文本描述方式与所述第一类识别结果相同。

可理解地，在另一实施例中，所述S902之后，即所述将所述目标图像输入至预设的属性提取模型中，并接收所述属性提取模型输出的已确定的所述识别目标的浅层属性，包括以下步骤：

在所述待识别图像中仅包含一个所述识别目标时，从所述知识图谱中获取与所述识别目标匹配的所述目标属性及其深层属性；根据所述目标属性、所述目标属性的所述深层属性和所述识别目标的所述浅层属性生成第四特征向量集；将所述第四特征向量集输入至所述识图知意模型中，并接收所述识图知意模型输出的第四类识别结果，该第四类识别结果是指描述所述待识别图像中的所述识别目标的基本信息的输出文本。也即，所述第四类识别结果的文本描述方式与所述第二类识别结果相同。

在一实施例中，如图7所示，提供一种识图知意的装置，该识图知意的装置与上述实施例中识图知意的方法一一对应。该识图知意的装置包括目标确定模块110、第一获取模块120、第一生成模块130和第一输出模块140。各功能模块详细说明如下：

目标确定模块110，用于使用预设的目标检测模型对获取的待识别图像进行目标检测，确定所述待识别图像中的识别目标。

第一获取模块120，用于在所述待识别图像中包含多个所述识别目标时，从预设的知识图谱中获取与各所述识别目标匹配的目标属性及其深层属性，以及与各所述识别目标匹配的所述目标属性之间的关联关系。

第一生成模块130，用于根据各所述目标属性、各所述目标属性的深层属性以及各所述目标属性之间的关联关系生成第一特征向量集。

第一输出模块140，用于将所述第一特征向量集输入至预设的识图知意模型中，接收所述识图知意模型输出的第一类识别结果；所述第一类识别结果用于描述所述待识别图像表征的图像实体。

在一实施例中，如图8所示，识图知意的装置包括第二获取模块150、第二生成模块160和第二输出模块170。各功能模块详细说明如下：

第二获取模块150，用于在所述待识别图像中仅包含一个所述识别目标时，从所述知识图谱中获取与该识别目标匹配的目标属性及其深层属性。

第二生成模块160，用于根据所述目标属性及其所述深层属性生成第二特征向量集。

第二输出模块170，用于将所述第二特征向量集输入至所述识图知意模型中，接收所述识图知意模型输出的第二类识别结果；所述第二类识别结果用于描述所述待识别图像中的所述识别目标的基本信息。

在一实施例中，如图9所示，，识图知意的装置包括语料获取模块181、语料处理模块182、匹配模块183和构建模块184。各功能模块详细说明如下：

语料获取模块181，用于获取用于构建知识图谱的语料信息；所述语料信息包含多个文本片段，且每一所述语料信息对应一个语料标注；所述语料标注用于表征所述图像实体的本体属性。

语料处理模块182，用于对所述文本片段进行分词以及词性标注，根据已标注的词性获取所述文本片段中的关键词；所述关键词包含名词、动词、形容词、数词中的一种或多种。

匹配模块183，用于按照预设匹配规则确定所述关键词中与所述本体属性关联的目标属性、所述目标属性的子属性以及所述目标属性之间的关联关系。

构建模块184，用于根据所述图像实体、所述本体属性、所述目标属性、所述目标属性的子属性以及所述目标属性之间的关联关系构建所述知识图谱。

在另一实施例中，所述装置包括以下模块，各功能模块详细说明如下：

预处理模块，用于对已经过目标检测的所述待识别图像进行预处理之后，得到目标图像。

接收模块，用于将所述目标图像输入至预设的属性提取模型中，并接收所述属性提取模型输出的已确定的所述识别目标的浅层属性，该浅层属性包括所述识别目标的轮廓信息、颜色信息和行为信息中的一种或多种。

第三获取模块，用于在所述待识别图像中包含多个所述识别目标时，从所述知识图谱中获取与各所述识别目标匹配的所述目标属性及其深层属性，以及与各所述识别目标匹配的所述目标属性之间的关联关系。

第三生成模块，用于根据各所述目标属性、各所述目标属性的所述深层属性、各所述目标属性之间的关联关系以及各所述识别目标的浅层属性生成第三特征向量集。

第三输出模块，用于将所述第三特征向量集输入至所述识图知意模型中，接收所述识图知意模型输出的第三类识别结果；所述第三类识别结果是指描述所述待识别图像的图像实体的输出文本。

在另一实施例中，所述装置还包括以下模块，各功能模块详细说明如下：

第四获取模块，用于在所述待识别图像中仅包含一个所述识别目标时，从所述知识图谱中获取与所述识别目标匹配的所述目标属性及其深层属性。

第四生成模块，用于根据所述目标属性、所述目标属性的所述深层属性和所述识别目标的所述浅层属性生成第四特征向量集。

第四输出模块，用于将所述第四特征向量集输入至所述识图知意模型中，接收所述识图知意模型输出的第四类识别结果；所述第四类识别结果是指描述所述待识别图像中的所述识别目标的基本信息的输出文本。

关于识图知意的装置的具体限定可以参见上文中对于识图知意的方法的限定，在此不再赘述。上述识图知意的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机可读指令被处理器执行时以实现一种识图知意的方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：

在所述待识别图像中包含多个所述识别目标时，从预设的知识图谱中获取与各所述识别目标匹配的目标属性及其深层属性，以及与各所述识别目标匹配的所述目标属性之间的关联关系；根据各所述目标属性、各所述目标属性的深层属性以及各所述目标属性之间的关联关系生成第一特征向量集；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机可读指令，计算机可读指令被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、存储器总线直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元或模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种识图知意的方法，其特征在于，包括：

2.如权利要求1所述的识图知意的方法，其特征在于，所述使用目标检测模型对获取的待识别图像进行目标检测，确定所述待识别图像中的识别目标之后，包括：

在所述待识别图像中仅包含一个所述识别目标时，从所述知识图谱中获取与该识别目标匹配的目标属性及其深层属性；

根据所述目标属性及其所述深层属性生成第二特征向量集；

将所述第二特征向量集输入至所述识图知意模型中，接收所述识图知意模型输出的第二类识别结果；所述第二类识别结果用于描述所述待识别图像中的所述识别目标的基本信息。

3.如权利要求1所述的识图知意的方法，其特征在于，所述在所述待识别图像中包含多个所述识别目标时，从预设的知识图谱中获取与各所述识别目标匹配的目标属性及其深层属性，以及与各所述识别目标匹配的所述目标属性之间的关联关系之前，包括：

获取用于构建知识图谱的语料信息；所述语料信息包含多个文本片段，且每一所述语料信息对应一个语料标注；所述语料标注用于表征所述图像实体的本体属性；

对所述文本片段进行分词以及词性标注，根据已标注的词性获取所述文本片段中的关键词；所述关键词包含名词、动词、形容词、数词中的一种或多种；

按照预设匹配规则确定所述关键词中与所述本体属性关联的目标属性、所述目标属性的子属性以及所述目标属性之间的关联关系；

根据所述图像实体、所述本体属性、所述目标属性、所述目标属性的子属性以及所述目标属性之间的关联关系构建所述知识图谱。

4.如权利要求1所述的识图知意的方法，其特征在于，所述使用预设的目标检测模型对获取的待识别图像进行目标检测，确定所述待识别图像中的识别目标之后，还包括：

对已经过目标检测的所述待识别图像进行预处理之后，得到目标图像；

将所述目标图像输入至预设的属性提取模型中，并接收所述属性提取模型输出的已确定的所述识别目标的浅层属性，所述浅层属性包括所述识别目标的轮廓信息、颜色信息和行为信息中的一种或多种；

在所述待识别图像中包含多个所述识别目标时，从所述知识图谱中获取与各所述识别目标匹配的所述目标属性及其深层属性，以及与各所述识别目标匹配的所述目标属性之间的关联关系；

根据各所述目标属性、各所述目标属性的所述深层属性、各所述目标属性之间的关联关系以及各所述识别目标的浅层属性生成第三特征向量集；

将所述第三特征向量集输入至所述识图知意模型中，接收所述识图知意模型输出的第三类识别结果；所述第三类识别结果是指描述所述待识别图像的图像实体的输出文本。

5.如权利要求4所述的识图知意的方法，其特征在于，所述将所述目标图像输入至预设的属性提取模型中，并接收所述属性提取模型输出的已确定的所述识别目标的浅层属性，包括：

在所述待识别图像中仅包含一个所述识别目标时，从所述知识图谱中获取与所述识别目标匹配的所述目标属性及其深层属性；

根据所述目标属性、所述目标属性的所述深层属性和所述识别目标的所述浅层属性生成第四特征向量集；

将所述第四特征向量集输入至所述识图知意模型中，接收所述识图知意模型输出的第四类识别结果；所述第四类识别结果是指描述所述待识别图像中的所述识别目标的基本信息的输出文本。

6.一种识图知意的装置，其特征在于，包括：

7.如权利要求6所述的识图知意的装置，其特征在于，所述装置还包括：

第二获取模块，用于在所述待识别图像中仅包含一个所述识别目标时，从所述知识图谱中获取与该识别目标匹配的目标属性及其深层属性；

第二生成模块，用于根据所述目标属性及其所述深层属性生成第二特征向量集；

第二输出模块，用于将所述第二特征向量集输入至所述识图知意模型中，接收所述识图知意模型输出的第二类识别结果；所述第二类识别结果用于描述所述待识别图像中的所述识别目标的基本信息。

8.如权利要求6所述的识图知意的装置，其特征在于，所述装置还包括：

语料获取模块，用于获取用于构建知识图谱的语料信息；所述语料信息包含多个文本片段，且每一所述语料信息对应一个语料标注；所述语料标注用于表征所述图像实体的本体属性；

语料处理模块，用于对所述文本片段进行分词以及词性标注，根据已标注的词性获取所述文本片段中的关键词；所述关键词包含名词、动词、形容词、数词中的一种或多种；

匹配模块，用于按照预设匹配规则确定所述关键词中与所述本体属性关联的目标属性、所述目标属性的子属性以及所述目标属性之间的关联关系；

构建模块，用于根据所述图像实体、所述本体属性、所述目标属性、所述目标属性的子属性以及所述目标属性之间的关联关系构建所述知识图谱。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如权利要求1至5任一项所述识图知意的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如权利要求1至5任一项所述识图知意的方法。