CN114049493B - 基于智能体图谱的图像识别方法、系统和可读存储介质 - Google Patents
基于智能体图谱的图像识别方法、系统和可读存储介质 Download PDFInfo
- Publication number
- CN114049493B CN114049493B CN202210024129.0A CN202210024129A CN114049493B CN 114049493 B CN114049493 B CN 114049493B CN 202210024129 A CN202210024129 A CN 202210024129A CN 114049493 B CN114049493 B CN 114049493B
- Authority
- CN
- China
- Prior art keywords
- target
- data
- preset
- map
- atlas
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开的一种基于智能体图谱的图像识别方法、系统和可读存储介质,其中方法包括:调用多模态机制对预设数据进行处理以构建所述智能体图谱;对目标图片进行图像分割,将分割结果与所述智能体图谱内的图谱进行比对匹配,以检测并识别出目标数据;基于所述目标数据获取各目标块的相对位置以及相对大小,并结合所述智能体图谱获取各所述目标块的相互关系。本发明通过提取多模态数据语义信息,进而通过融合关联,将多模态数据用于智能体图谱构建中,使得智能体图谱内容更加丰富,为认知智能提供多模态本体实体及事理逻辑知识库支撑,依托智能体图谱中的已有认知,进行图像识别,更好地理解图片中的信息。
Description
技术领域
本发明涉及图像识别技术领域,更具体的,涉及一种基于智能体图谱的图像识别方法、系统和可读存储介质。
背景技术
人工智能已经从计算智能、感知智能,进入到认知智能阶段,认知即个体对知识进行获取、加工、应用的过程,这是人脑的高级信息处理方式;认知智能即让机器具有“读懂语义、逻辑推理、学习判断”的能力,机器认知智能的两个核心是“理解”与“解释”,认知智能的实现需要以知识为驱动力,这涉及到知识表示、语义理解、联想推理、智能问答、情感计算、决策规划等关键技术,随着知识图谱的出现,为认知智能的发展注入了“加速剂”,但目前的知识图谱,主要是以传统本体概念为基础进行知识组织的,而在知识处理领域,这种传统本体概念存在着一些局限性,传统本体对于概念的描述着重对其静态特征的描述,而缺乏对动态特征的描述。
为了揭示事件的演化规律和发展模式,旨在传统的知识图谱的基础上,结合事件的演化规律和模式,构建成一个知识与智能库,用于记录和表达客观世界及事件演化规律。
发明内容
本发明的目的是提供一种基于智能体图谱的图像识别方法、系统和可读存储介质,可以实现对图片进行多维、立体、有联系的识别,更好地理解图片中不同事物间的关联关系,及其中蕴含的内涵、逻辑。
本发明第一方面提供了一种基于智能体图谱的图像识别方法,包括以下步骤:
调用多模态机制对预设数据进行处理以构建所述智能体图谱;
对目标图片进行图像分割,将分割结果与所述智能体图谱内的图谱进行比对匹配,以检测并识别出目标数据;
基于所述目标数据获取各目标块的相对位置以及相对大小,并结合所述智能体图谱获取各所述目标块的相互关系。
本方案中,所述调用多模态机制对预设数据进行处理以构建所述智能体图谱,具体包括:
通过多模态知识抽取、多模态知识表示、多模态知识融合以及多模态知识加工来构建所述智能体图谱,其中,
基于预设特征提取模型对所述预设数据进行单模态语义特征提取,而后提取多模态数据的对应关系以完成所述多模态知识抽取;
基于预设嵌入方式将不同类型的所述预设数据投射到同一向量空间中表示,以完成所述多模态知识表示;
基于概念层以及数据层两个层面对所述多模态知识抽取的结果进行链接,以完成所述多模态知识融合;
对所述多模态知识融合后的链接结果调用预设加工方式以完成所述多模态知识加工。
本方案中,所述预设嵌入方法包括词嵌入、无监督图嵌入、属性图嵌入以及异构图嵌入;所述加工方式包括本体构建、事件本体构建、知识推理和质量评估。
本方案中,所述对目标图片进行图像分割,具体包括:
利用预设算法对所述目标图片进行图像分割得到所述分割结果,其中,所述预设算法为Swin-Transformer算法和/或Self-attention算法;
调用预设参数对所述目标图片进行图像分割得到所述分割结果,其中,所述预设参数包括形状、颜色、亮度以及对比度。
本方案中,所述将分割结果与所述智能体图谱内的图谱进行比对匹配,以检测并识别出目标数据,具体包括:
提取所述分割结果识别每一个所述目标块;
基于每个所述目标块依次与所述智能体图谱内的图片进行比对,并计算相似概率值,其中,若所述相似概率值超过预设第一相似阈值,则判定所述目标块与所述智能体图谱中对应的所述图片为同一物体,否则,判定为不同物体;
将判定为同一物体的所述目标块组合成所述目标数据。
本方案中,所述基于所述目标数据获取各目标块的相对位置以及相对大小,并结合所述智能体图谱获取各所述目标块的相互关系,具体包括:
利用区域的矩识别所述目标块于所述目标图片中的方位数据;
计算每个所述目标块的面积并进行大小降序排列,结合所述智能体图谱确定各所述目标块间的所述相互关系,以生成对应的文本化描述。
本发明第二方面还提供一种基于智能体图谱的图像识别系统,包括存储器和处理器,所述存储器中包括基于智能体图谱的图像识别方法程序,所述基于智能体图谱的图像识别方法程序被所述处理器执行时实现如下步骤:
调用多模态机制对预设数据进行处理以构建所述智能体图谱;
对目标图片进行图像分割,将分割结果与所述智能体图谱内的图谱进行比对匹配,以检测并识别出目标数据;
基于所述目标数据获取各目标块的相对位置以及相对大小,并结合所述智能体图谱获取各所述目标块的相互关系。
本方案中,所述调用多模态机制对预设数据进行处理以构建所述智能体图谱,具体包括:
通过多模态知识抽取、多模态知识表示、多模态知识融合以及多模态知识加工来构建所述智能体图谱,其中,
基于预设特征提取模型对所述预设数据进行单模态语义特征提取,而后提取多模态数据的对应关系以完成所述多模态知识抽取;
基于预设嵌入方式将不同类型的所述预设数据投射到同一向量空间中表示,以完成所述多模态知识表示;
基于概念层以及数据层两个层面对所述多模态知识抽取的结果进行链接,以完成所述多模态知识融合;
对所述多模态知识融合后的链接结果调用预设加工方式以完成所述多模态知识加工。
本方案中,所述预设嵌入方法包括词嵌入、无监督图嵌入、属性图嵌入以及异构图嵌入;所述加工方式包括本体构建、事件本体构建、知识推理和质量评估。
本方案中,所述对目标图片进行图像分割,具体包括:
利用预设算法对所述目标图片进行图像分割得到所述分割结果,其中,所述预设算法为Swin-Transformer算法和/或Self-attention算法;
调用预设参数对所述目标图片进行图像分割得到所述分割结果,其中,所述预设参数包括形状、颜色、亮度以及对比度。
本方案中,所述将分割结果与所述智能体图谱内的图谱进行比对匹配,以检测并识别出目标数据,具体包括:
提取所述分割结果识别每一个所述目标块;
基于每个所述目标块依次与所述智能体图谱内的图片进行比对,并计算相似概率值,其中,若所述相似概率值超过预设第一相似阈值,则判定所述目标块与所述智能体图谱中对应的所述图片为同一物体,否则,判定为不同物体;
将判定为同一物体的所述目标块组合成所述目标数据。
本方案中,所述基于所述目标数据获取各目标块的相对位置以及相对大小,并结合所述智能体图谱获取各所述目标块的相互关系,具体包括:
利用区域的矩识别所述目标块于所述目标图片中的方位数据;
计算每个所述目标块的面积并进行大小降序排列,结合所述智能体图谱确定各所述目标块间的所述相互关系,以生成对应的文本化描述。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括机器的一种基于智能体图谱的图像识别方法程序,所述基于智能体图谱的图像识别方法程序被处理器执行时,实现如上述任一项所述的一种基于智能体图谱的图像识别方法的步骤。
本发明公开的一种基于智能体图谱的图像识别方法、系统和可读存储介质,通过构建智能体图谱,形成对世界的认知,依托智能体图谱的认知,可以实现对图片进行多维、立体、有联系的识别,更好地理解图片中不同事物间的关联关系,及其中蕴含的内涵、逻辑;通过提取多模态数据语义信息,进而通过融合关联,将多模态数据用于智能体图谱构建中,使得智能体图谱内容更加丰富,为认知智能提供多模态本体实体及事理逻辑知识库支撑,依托智能体图谱中的已有认知,进行图像识别,更好地理解图片中的信息。
附图说明
图1示出了本发明一种基于智能体图谱的图像识别方法的流程图;
图2示出了本发明一种基于智能体图谱的图像识别系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本申请一种基于智能体图谱的图像识别方法的流程图。
如图1所示,本申请公开了一种基于智能体图谱的图像识别方法,包括以下步骤:
S102,调用多模态机制对预设数据进行处理以构建所述智能体图谱;
S104,对目标图片进行图像分割,将分割结果与所述智能体图谱内的图谱进行比对匹配,以检测并识别出目标数据;
S106,基于所述目标数据获取各目标块的相对位置以及相对大小,并结合所述智能体图谱获取各所述目标块的相互关系。
需要说明的是,首先通过所述多模态知识抽取、所述多模态知识表示、所述多模态知识融合以及所述多模态知识加工,构建所述智能体图谱,而后对所述目标图片进行分割,将分割后的所述分割结果与所述智能体图谱中的图片进行比对匹配,以识别所述目标数据,而后计算所述目标数据中各所述目标块的相对位置以及相对大小,进行排序同时生成对应的所述文本化描述,依托所述智能体图谱中的已有认知,进行图像识别,以更好地理解图片中的信息。
根据本发明实施例,所述调用多模态机制对预设数据进行处理以构建所述智能体图谱,具体包括:
通过多模态知识抽取、多模态知识表示、多模态知识融合以及多模态知识加工来构建所述智能体图谱,其中,
基于预设特征提取模型对所述预设数据进行单模态语义特征提取,而后提取多模态数据的对应关系以完成所述多模态知识抽取;
基于预设嵌入方式将不同类型的所述预设数据投射到同一向量空间中表示,以完成所述多模态知识表示;
基于概念层以及数据层两个层面对所述多模态知识抽取的结果进行链接,以完成所述多模态知识融合;
对所述多模态知识融合后的链接结果调用预设加工方式以完成所述多模态知识加工。
需要说明的是,基于所述预设数据的文本、图像、音频以及视频等数据特征构建所述预设特征提取模型,基于所述预设特征提取模型完成所述单模态语义特征提取,其中,包括图像数据语义特征提取、音频数据语义特征提取、视频数据语义特征提取、文本数据语义特征提取等,而后基于提取到的单模态语义特征建立多模态语义特征间的依赖关系,进而提取所述多模态数据的对应关系,以完成所述多模态知识抽取。
进一步地,所述预设嵌入方法包括词嵌入、无监督图嵌入、属性图嵌入以及异构图嵌入,故基于所述词嵌入、所述无监督图嵌入、所述属性图嵌入以及所述异构图嵌入等方式,将不同类型数据投射到同一向量空间中进行表示,实现跨模态的所述多模态知识表示。
进一步地,从所述概念层和所述数据层两方面,通过对齐、关联、合并等方式,将多个多模态数据源中的本体、实体、事件本体、事件进行链接,形成一个更加统一、稠密的图谱,所述概念层的知识融合主要表现为本体对齐、事件本体对齐,是指确定本体概念、本体关系、本体属性等本体之间映射关系,以及确定事件本体、事理关系、事件属性的过程;所述数据层的知识融合主要表现为共指消解和实体对齐、具体事件对齐,共指消解意在将同一信息源中同一实体、同一事件的不同标签统一,实现消歧的目的。
进一步地,所述加工方式包括本体构建、事件本体构建、知识推理和质量评估,其中,所述本体构建是图谱内实体连通的语义基础,所述事件本体构建是图谱内事件连通的语义基础,所述知识推理是通过对已有实体间关系、已有事件间关系的计算,找到实体间新关联、事件间新关联,是图谱更新的重要手段,所述质量评估是知识加工最后的“质检”环节,确保图谱的合理性。
根据本发明实施例,所述对目标图片进行图像分割,具体包括:
利用预设算法对所述目标图片进行图像分割得到所述分割结果,其中,所述预设算法为Swin-Transformer算法和/或Self-attention算法;
调用预设参数对所述目标图片进行图像分割得到所述分割结果,其中,所述预设参数包括形状、颜色、亮度以及对比度。
需要说明的是,利用形状、颜色、亮度、对比度,对所述目标图片进行从大到小、从粗到细、多层次的轮廓分割,而后图像分割采用Swin-Transformer算法和/或Self-attention算法进行分割,其中,所述Swin-Transformer算法以及所述Self-attention算法为本领域技术人员根据实际需要选择的现有技术的算法,以满足图像分割的需要,本发明不再一一赘述。
根据本发明实施例,所述将分割结果与所述智能体图谱内的图谱进行比对匹配,以检测并识别出目标数据,具体包括:
提取所述分割结果识别每一个所述目标块;
基于每个所述目标块依次与所述智能体图谱内的图片进行比对,并计算相似概率值,其中,若所述相似概率值超过预设第一相似阈值,则判定所述目标块与所述智能体图谱中对应的所述图片为同一物体,否则,判定为不同物体;
将判定为同一物体的所述目标块组合成所述目标数据。
需要说明的是,基于所述目标块与所述智能体图谱内图片进行比对,通过预设相似度计算法则计算所述相似概率值,基于得到的所述相似概率值判断当前所述目标块与所述智能体图谱内的图片是否为同一物体,其中,若所述相似概率值超过预设第一相似阈值,则判定所述目标块与所述智能体图谱中对应的所述图片为同一物体,否则,判定为不同物体,优选地,所述第一相似阈值可取为92%,进一步地,所述相似度计算法则可以应用均值哈希算法,由于均值哈希算法为本领域技术人员根据实际需要选择的现有技术的算法,以满足相似度计算的需要,本发明不再一一赘述。
根据本发明实施例,所述基于所述目标数据获取各目标块的相对位置以及相对大小,并结合所述智能体图谱获取各所述目标块的相互关系,具体包括:
利用区域的矩识别所述目标块于所述目标图片中的方位数据;
计算每个所述目标块的面积并进行大小降序排列,结合所述智能体图谱确定各所述目标块间的所述相互关系,以生成对应的文本化描述。
需要说明的是,所述目标图片中物体方位的确定需要使用所述区域的矩,具体地,采用中心矩反映区域本身的所述方位数据,通过计算分割出的每个所述目标块的面积,进行面积大小排序,再根据所述智能体图谱中,对各所述目标块间的所述相互关系的定义,确定物体间的联系及主次关系,以生成图像的所述文本化描述。优选地,生成文本化描述采用Multimodal RNN模型。
值得一提的是,所述多模态知识抽取具体包括:
基于多模态数据进行实体抽取、实体属性抽取以及实体关系抽取;
基于多模态数据进行事件抽取。
需要说明的是,所述实体抽取具体指在所述多模态数据源中识别出特定的元素标签,并与预存标签相链接,其中,所述预存标签为所述实体对应的标签;所述实体关系抽取意在找到多模态数据源中实体间的关系,可分为全局抽取和局部抽取;所述实体属性抽取可以看作实体和其属性值之间的关系;所述事件抽取是将所述多模态数据源中的事件信息(事件的时间、地点、人物、原因、结果等)抽取,并结构化地表现出来,包括开放域或限定域事件抽取,事理关系抽取(包含事件顺承、因果、上下位关系抽取等)。
值得一提的是,所述检测并识别出目标数据,还包括:基于分类模型和图像搜索融合技术的检测图像。
需要说明的是,在对所述目标图片基于所述智能体图谱进行识别时,当识别不出来图片时,可以基于分类模型的物品类别预测,即训练GoogLeNet V1网络预测查询图像的类别,使用softmax分类函数,得到每一种可能的类别都有一个所属的概率;基于图像搜索技术的物品类别预测,即使用GoogLeNet V1网络输出的特征在整个图像库中检索最相似的“Top30”图像,对这“30”幅图像所在的类别进行加权排序,同样得到每一种可能的类别都有一个所属的概率;融合方法,将分类模型得到的每类的概率和图像搜索得到的每类的概率加权平均进行降序排列,将位于第一位的图片结果作为该所述目标图片的识别结果。
图2示出了本发明一种基于智能体图谱的图像识别系统的框图。
如图2所示,本发明公开了一种基于智能体图谱的图像识别系统,包括存储器和处理器,所述存储器中包括基于智能体图谱的图像识别方法程序,所述基于智能体图谱的图像识别方法程序被所述处理器执行时实现如下步骤:
调用多模态机制对预设数据进行处理以构建所述智能体图谱;
对目标图片进行图像分割,将分割结果与所述智能体图谱内的图谱进行比对匹配,以检测并识别出目标数据;
基于所述目标数据获取各目标块的相对位置以及相对大小,并结合所述智能体图谱获取各所述目标块的相互关系。
需要说明的是,首先通过所述多模态知识抽取、所述多模态知识表示、所述多模态知识融合以及所述多模态知识加工,构建所述智能体图谱,而后对所述目标图片进行分割,将分割后的所述分割结果与所述智能体图谱中的图片进行比对匹配,以识别所述目标数据,而后计算所述目标数据中各所述目标块的相对位置以及相对大小,进行排序同时生成对应的所述文本化描述,依托所述智能体图谱中的已有认知,进行图像识别,以更好地理解图片中的信息。
根据本发明实施例,所述调用多模态机制对预设数据进行处理以构建所述智能体图谱,具体包括:
通过多模态知识抽取、多模态知识表示、多模态知识融合以及多模态知识加工来构建所述智能体图谱,其中,
基于预设特征提取模型对所述预设数据进行单模态语义特征提取,而后提取多模态数据的对应关系以完成所述多模态知识抽取;
基于预设嵌入方式将不同类型的所述预设数据投射到同一向量空间中表示,以完成所述多模态知识表示;
基于概念层以及数据层两个层面对所述多模态知识抽取的结果进行链接,以完成所述多模态知识融合;
对所述多模态知识融合后的链接结果调用预设加工方式以完成所述多模态知识加工。
需要说明的是,基于所述预设数据的文本、图像、音频以及视频等数据特征构建所述预设特征提取模型,基于所述预设特征提取模型完成所述单模态语义特征提取,其中,包括图像数据语义特征提取、音频数据语义特征提取、视频数据语义特征提取、文本数据语义特征提取等,而后基于提取到的单模态语义特征建立多模态语义特征间的依赖关系,进而提取所述多模态数据的对应关系,以完成所述多模态知识抽取。
进一步地,所述预设嵌入方法包括词嵌入、无监督图嵌入、属性图嵌入以及异构图嵌入,故基于所述词嵌入、所述无监督图嵌入、所述属性图嵌入以及所述异构图嵌入等方式,将不同类型数据投射到同一向量空间中进行表示,实现跨模态的所述多模态知识表示。
进一步地,从所述概念层和所述数据层两方面,通过对齐、关联、合并等方式,将多个多模态数据源中的本体、实体、事件本体、事件进行链接,形成一个更加统一、稠密的图谱,所述概念层的知识融合主要表现为本体对齐、事件本体对齐,是指确定本体概念、本体关系、本体属性等本体之间映射关系,以及确定事件本体、事理关系、事件属性的过程;所述数据层的知识融合主要表现为共指消解和实体对齐、具体事件对齐,共指消解意在将同一信息源中同一实体、同一事件的不同标签统一,实现消歧的目的。
进一步地,所述加工方式包括本体构建、事件本体构建、知识推理和质量评估,其中,所述本体构建是图谱内实体连通的语义基础,所述事件本体构建是图谱内事件连通的语义基础,所述知识推理是通过对已有实体间关系、已有事件间关系的计算,找到实体间新关联、事件间新关联,是图谱更新的重要手段,所述质量评估是知识加工最后的“质检”环节,确保图谱的合理性。
根据本发明实施例,所述对目标图片进行图像分割,具体包括:
利用预设算法对所述目标图片进行图像分割得到所述分割结果,其中,所述预设算法为Swin-Transformer算法和/或Self-attention算法;
调用预设参数对所述目标图片进行图像分割得到所述分割结果,其中,所述预设参数包括形状、颜色、亮度以及对比度。
需要说明的是,利用形状、颜色、亮度、对比度,对所述目标图片进行从大到小、从粗到细、多层次的轮廓分割,而后图像分割采用Swin-Transformer算法和/或Self-attention算法进行分割,其中,所述Swin-Transformer算法以及所述Self-attention算法为本领域技术人员根据实际需要选择的现有技术的算法,以满足图像分割的需要,本发明不再一一赘述。
根据本发明实施例,所述将分割结果与所述智能体图谱内的图谱进行比对匹配,以检测并识别出目标数据,具体包括:
提取所述分割结果识别每一个所述目标块;
基于每个所述目标块依次与所述智能体图谱内的图片进行比对,并计算相似概率值,其中,若所述相似概率值超过预设第一相似阈值,则判定所述目标块与所述智能体图谱中对应的所述图片为同一物体,否则,判定为不同物体;
将判定为同一物体的所述目标块组合成所述目标数据。
需要说明的是,基于所述目标块与所述智能体图谱内图片进行比对,通过预设相似度计算法则计算所述相似概率值,基于得到的所述相似概率值判断当前所述目标块与所述智能体图谱内的图片是否为同一物体,其中,若所述相似概率值超过预设第一相似阈值,则判定所述目标块与所述智能体图谱中对应的所述图片为同一物体,否则,判定为不同物体,优选地,所述第一相似阈值可取为92%,进一步地,所述相似度计算法则可以应用均值哈希算法,由于均值哈希算法为本领域技术人员根据实际需要选择的现有技术的算法,以满足相似度计算的需要,本发明不再一一赘述。
根据本发明实施例,所述基于所述目标数据获取各目标块的相对位置以及相对大小,并结合所述智能体图谱获取各所述目标块的相互关系,具体包括:
利用区域的矩识别所述目标块于所述目标图片中的方位数据;
计算每个所述目标块的面积并进行大小降序排列,结合所述智能体图谱确定各所述目标块间的所述相互关系,以生成对应的文本化描述。
需要说明的是,所述目标图片中物体方位的确定需要使用所述区域的矩,具体地,采用中心矩反映区域本身的所述方位数据,通过计算分割出的每个所述目标块的面积,进行面积大小排序,再根据所述智能体图谱中,对各所述目标块间的所述相互关系的定义,确定物体间的联系及主次关系,以生成图像的所述文本化描述。优选地,生成文本化描述采用Multimodal RNN模型。
值得一提的是,所述多模态知识抽取具体包括:
基于多模态数据进行实体抽取、实体属性抽取以及实体关系抽取;
基于多模态数据进行事件抽取。
需要说明的是,所述实体抽取具体指在所述多模态数据源中识别出特定的元素标签,并与预存标签相链接,其中,所述预存标签为所述实体对应的标签;所述实体关系抽取意在找到多模态数据源中实体间的关系,可分为全局抽取和局部抽取;所述实体属性抽取可以看作实体和其属性值之间的关系;所述事件抽取是将所述多模态数据源中的事件信息(事件的时间、地点、人物、原因、结果等)抽取,并结构化地表现出来,包括开放域或限定域事件抽取,事理关系抽取(包含事件顺承、因果、上下位关系抽取等)。
值得一提的是,所述检测并识别出目标数据,还包括:基于分类模型和图像搜索融合技术的检测图像。
需要说明的是,在对所述目标图片基于所述智能体图谱进行识别时,当识别不出来图片时,可以基于分类模型的物品类别预测,即训练GoogLeNet V1网络预测查询图像的类别,使用softmax分类函数,得到每一种可能的类别都有一个所属的概率;基于图像搜索技术的物品类别预测,即使用GoogLeNet V1网络输出的特征在整个图像库中检索最相似的“Top30”图像,对这“30”幅图像所在的类别进行加权排序,同样得到每一种可能的类别都有一个所属的概率;融合方法,将分类模型得到的每类的概率和图像搜索得到的每类的概率加权平均进行降序排列,将位于第一位的图片结果作为该所述目标图片的识别结果。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于智能体图谱的图像识别方法程序,所述基于智能体图谱的图像识别方法程序被处理器执行时,实现如上述任一项所述的一种基于智能体图谱的图像识别方法的步骤。
本发明公开的一种基于智能体图谱的图像识别方法、系统和可读存储介质,通过构建智能体图谱,形成对世界的认知,依托智能体图谱的认知,可以实现对图片进行多维、立体、有联系的识别,更好地理解图片中不同事物间的关联关系,及其中蕴含的内涵、逻辑;通过提取多模态数据语义信息,进而通过融合关联,将多模态数据用于智能体图谱构建中,使得智能体图谱内容更加丰富,为认知智能提供多模态本体实体及事理逻辑知识库支撑,依托智能体图谱中的已有认知,进行图像识别,更好地理解图片中的信息。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (8)
1.一种基于智能体图谱的图像识别方法,其特征在于,包括以下步骤:
调用多模态机制对预设数据进行处理以构建所述智能体图谱;
对目标图片进行图像分割,将分割结果与所述智能体图谱内的图谱进行比对匹配,以检测并识别出目标数据;
基于所述目标数据获取各目标块的相对位置以及相对大小,并结合所述智能体图谱获取各所述目标块的相互关系;
所述将分割结果与所述智能体图谱内的图谱进行比对匹配,以检测并识别出目标数据,具体包括:
提取所述分割结果识别每一个所述目标块;
基于每个所述目标块依次与所述智能体图谱内的图片进行比对,并计算相似概率值,其中,若所述相似概率值超过预设第一相似阈值,则判定所述目标块与所述智能体图谱中对应的所述图片为同一物体,否则,判定为不同物体;
将判定为同一物体的所述目标块组合成所述目标数据;
所述基于所述目标数据获取各目标块的相对位置以及相对大小,并结合所述智能体图谱获取各所述目标块的相互关系,具体包括:
利用区域的矩识别所述目标块于所述目标图片中的方位数据;
计算每个所述目标块的面积并进行大小降序排列,结合所述智能体图谱确定各所述目标块间的所述相互关系,以生成对应的文本化描述;
所述检测并识别出目标数据,还包括:基于分类模型和图像搜索融合技术的检测图像。
2.根据权利要求1所述的一种基于智能体图谱的图像识别方法,其特征在于,所述调用多模态机制对预设数据进行处理以构建所述智能体图谱,具体包括:
通过多模态知识抽取、多模态知识表示、多模态知识融合以及多模态知识加工来构建所述智能体图谱,其中,
基于预设特征提取模型对所述预设数据进行单模态语义特征提取,而后提取多模态数据的对应关系以完成所述多模态知识抽取;
基于预设嵌入方式将不同类型的所述预设数据投射到同一向量空间中表示,以完成所述多模态知识表示;
基于概念层以及数据层两个层面对所述多模态知识抽取的结果进行链接,以完成所述多模态知识融合;
对所述多模态知识融合后的链接结果调用预设加工方式以完成所述多模态知识加工。
3.根据权利要求2所述的一种基于智能体图谱的图像识别方法,其特征在于,所述预设嵌入方法包括词嵌入、无监督图嵌入、属性图嵌入以及异构图嵌入;所述加工方式包括本体构建、事件本体构建、知识推理和质量评估。
4.根据权利要求2所述的一种基于智能体图谱的图像识别方法,其特征在于,所述对目标图片进行图像分割,具体包括:
利用预设算法对所述目标图片进行图像分割得到所述分割结果,其中,所述预设算法为Swin-Transformer算法和/或Self-attention算法;
调用预设参数对所述目标图片进行图像分割得到所述分割结果,其中,所述预设参数包括形状、颜色、亮度以及对比度。
5.一种基于智能体图谱的图像识别系统,其特征在于,包括存储器和处理器,所述存储器中包括基于智能体图谱的图像识别方法程序,所述基于智能体图谱的图像识别方法程序被所述处理器执行时实现如下步骤:
调用多模态机制对预设数据进行处理以构建所述智能体图谱;
对目标图片进行图像分割,将分割结果与所述智能体图谱内的图谱进行比对匹配,以检测并识别出目标数据;
基于所述目标数据获取各目标块的相对位置以及相对大小,并结合所述智能体图谱获取各所述目标块的相互关系;
所述将分割结果与所述智能体图谱内的图谱进行比对匹配,以检测并识别出目标数据,具体包括:
提取所述分割结果识别每一个所述目标块;
基于每个所述目标块依次与所述智能体图谱内的图片进行比对,并计算相似概率值,其中,若所述相似概率值超过预设第一相似阈值,则判定所述目标块与所述智能体图谱中对应的所述图片为同一物体,否则,判定为不同物体;
将判定为同一物体的所述目标块组合成所述目标数据;
所述基于所述目标数据获取各目标块的相对位置以及相对大小,并结合所述智能体图谱获取各所述目标块的相互关系,具体包括:
利用区域的矩识别所述目标块于所述目标图片中的方位数据;
计算每个所述目标块的面积并进行大小降序排列,结合所述智能体图谱确定各所述目标块间的所述相互关系,以生成对应的文本化描述;
所述检测并识别出目标数据,还包括:基于分类模型和图像搜索融合技术的检测图像。
6.根据权利要求5所述的一种基于智能体图谱的图像识别系统,其特征在于,所述调用多模态机制对预设数据进行处理以构建所述智能体图谱,具体包括:
通过多模态知识抽取、多模态知识表示、多模态知识融合以及多模态知识加工来构建所述智能体图谱,其中,
基于预设特征提取模型对所述预设数据进行单模态语义特征提取,而后提取多模态数据的对应关系以完成所述多模态知识抽取;
基于预设嵌入方式将不同类型的所述预设数据投射到同一向量空间中表示,以完成所述多模态知识表示;
基于概念层以及数据层两个层面对所述多模态知识抽取的结果进行链接,以完成所述多模态知识融合;
对所述多模态知识融合后的链接结果调用预设加工方式以完成所述多模态知识加工。
7.根据权利要求6所述的一种基于智能体图谱的图像识别系统,其特征在于,所述对目标图片进行图像分割,具体包括:
利用预设算法对所述目标图片进行图像分割得到所述分割结果,其中,所述预设算法为Swin-Transformer算法和/或Self-attention算法;
调用预设参数对所述目标图片进行图像分割得到所述分割结果,其中,所述预设参数包括形状、颜色、亮度以及对比度。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种基于智能体图谱的图像识别方法程序,所述基于智能体图谱的图像识别方法程序被处理器执行时,实现如权利要求1至4中任一项所述的一种基于智能体图谱的图像识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210024129.0A CN114049493B (zh) | 2022-01-11 | 2022-01-11 | 基于智能体图谱的图像识别方法、系统和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210024129.0A CN114049493B (zh) | 2022-01-11 | 2022-01-11 | 基于智能体图谱的图像识别方法、系统和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114049493A CN114049493A (zh) | 2022-02-15 |
CN114049493B true CN114049493B (zh) | 2022-04-01 |
Family
ID=80213630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210024129.0A Active CN114049493B (zh) | 2022-01-11 | 2022-01-11 | 基于智能体图谱的图像识别方法、系统和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114049493B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115238081B (zh) * | 2022-06-14 | 2024-04-30 | 杭州原数科技有限公司 | 一种文物智能识别方法、系统及可读存储介质 |
CN114925176B (zh) * | 2022-07-22 | 2022-10-11 | 北京融信数联科技有限公司 | 一种智能体多模态认知图谱的构建方法、系统和介质 |
CN115018214B (zh) * | 2022-08-09 | 2022-11-25 | 北京融信数联科技有限公司 | 一种基于认知图谱的企业风险分析预测方法、系统和介质 |
CN116451175A (zh) * | 2023-04-25 | 2023-07-18 | 北京远舢智能科技有限公司 | 一种多模态数据处理方法、装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723729B (zh) * | 2020-06-18 | 2022-08-05 | 四川千图禾科技有限公司 | 基于知识图谱的监控视频犬类姿态和行为智能识别方法 |
CN112200317B (zh) * | 2020-09-28 | 2024-05-07 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 多模态知识图谱构建方法 |
CN113094509B (zh) * | 2021-06-08 | 2021-12-21 | 明品云(北京)数据科技有限公司 | 文本信息提取方法、系统、设备及介质 |
CN113656706A (zh) * | 2021-08-31 | 2021-11-16 | 平安医疗健康管理股份有限公司 | 基于多模态深度学习模型的信息推送方法及装置 |
CN113806563B (zh) * | 2021-11-18 | 2022-07-12 | 东南大学 | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 |
-
2022
- 2022-01-11 CN CN202210024129.0A patent/CN114049493B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114049493A (zh) | 2022-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114049493B (zh) | 基于智能体图谱的图像识别方法、系统和可读存储介质 | |
CN111400607B (zh) | 搜索内容输出方法、装置、计算机设备及可读存储介质 | |
CN114020936B (zh) | 多模态事理图谱的构建方法、系统和可读存储介质 | |
CN110826639B (zh) | 一种利用全量数据训练零样本图像分类方法 | |
CN110928961B (zh) | 一种多模态实体链接方法、设备及计算机可读存储介质 | |
CN115018214B (zh) | 一种基于认知图谱的企业风险分析预测方法、系统和介质 | |
CN113821605B (zh) | 一种事件抽取方法 | |
CN112131876A (zh) | 一种基于相似度确定标准问题的方法及系统 | |
CN115223020B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN114925176B (zh) | 一种智能体多模态认知图谱的构建方法、系统和介质 | |
CN111325237A (zh) | 一种基于注意力交互机制的图像识别方法 | |
CN110827797B (zh) | 语音应答事件分类处理方法和装置 | |
CN117149944A (zh) | 一种基于宽时间范畴的多模态情境情感识别方法及系统 | |
CN115329176A (zh) | 搜索请求的处理方法、装置、计算机设备及存储介质 | |
Nevens et al. | From continuous observations to symbolic concepts: A discrimination-based strategy for grounded concept learning | |
CN114661951A (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 | |
CN114329004A (zh) | 数字指纹生成、数据推送方法、装置和存储介质 | |
CN115018215B (zh) | 基于多模态认知图谱的人口居住预测方法、系统和介质 | |
CN117390299A (zh) | 基于图证据的可解释性虚假新闻检测方法 | |
Hisham et al. | A Systematic Literature Review of the Mobile Application for Object Recognition for Visually Impaired People | |
CN116955707A (zh) | 内容标签的确定方法、装置、设备、介质及程序产品 | |
CN115269781A (zh) | 模态关联度预测方法、装置、设备、存储介质及程序产品 | |
CN111782762A (zh) | 问答应用中相似问题确定方法、装置、电子设备 | |
LU504829B1 (en) | Text classification method, computer readable storage medium and system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |