CN110413820B - 一种图片描述信息的获取方法及装置 - Google Patents
一种图片描述信息的获取方法及装置 Download PDFInfo
- Publication number
- CN110413820B CN110413820B CN201910631671.0A CN201910631671A CN110413820B CN 110413820 B CN110413820 B CN 110413820B CN 201910631671 A CN201910631671 A CN 201910631671A CN 110413820 B CN110413820 B CN 110413820B
- Authority
- CN
- China
- Prior art keywords
- word
- information
- picture
- preset
- objects
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图片描述信息的获取方法及装置。该方法通过对获取的待描述图片,采用预设图像处理算法,获取待描述图片中的至少一个对象和相应对象信息;其中,对象信息包括对象标识、属性信息以及与对象间的关联关系;采用预设词处理算法,对待描述图片对应的原始图片描述信息进行分词与词分类处理,得到至少一个第一词和相应词类型;采用预设神经网络算法,将至少一个第一词、相应词类型与至少一个对象的对象信息进行匹配运算,获取对象信息对应的目标词;将对象信息对应的目标词按照预设图片描述结构进行存储,得到新的图片描述信息。该方法提高了视觉图像数据集中图片描述信息的准确性,降低了人工成本。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种图片描述信息的获取方法及装置。
背景技术
现实世界的各个场景是动态的、复杂的,场景包括对象、对象的属性、对象间的关系,以及对象的变动方向等。
在计算机视觉领域中,视觉图像数据集在很多应用上起了至关重要的作用,如视觉问答(Visual Question Answering,VQA)和图像主题提取。VQA是一种涉及计算机视觉和自然语言处理的学习任务,主要目标是让计算机根据输入的图片和问题结合视觉图像数据集,输出一个符合自然语言规则且内容合理的答案。
视觉图像数据集通常由图片和图片语义集构成,图像语义集为描述该图片的自然语言。其中,图片是捕捉真实世界的原始刻画,自然语言是描述图片的图片描述信息(或称“文本描述信息”),视觉图像数据集的获取方式,主要分为两种:
方式一、提供现成的图片,并选择至少一位候选人,至少一位候选人根据预设语句格式,对该图片进行语言描述以及对语言描述进行修正,得到初始图片描述信息,从而得到视觉图像数据集。预设语句格式可以是主谓宾的语句格式。
方式二、候选人根据当前任务需求,对视觉图像数据集中的初始图片描述信息进行人工注释后,计算机根据人工注释对初始图片描述信息进行修改,得到修改后的图片描述信息,以丰富对该图片的表达,由此得到新的视觉图像数据集。
然而,发明人发现在获取图片描述信息的过程中,候选人经常会根据个人的经验选择图片的侧重点进行描述,由于每个人的经验不同,描述倾向的侧重点不同,导致获取的图片描述信息与相应图片的真实信息存在一定偏差,如该图片一些信息被忽略或个人对同一图片的理解不同,这样得到的图片描述信息的准确性不高,且图片描述信息完全依赖人工来获取,增加了人工成本。
发明内容
本申请实施例提供一种图片描述信息的获取方法及装置,解决了现有技术存在的上述问题,以提高图片描述信息的准确性,降低了人工成本。
第一方面,提供了一种图片描述信息的获取方法,该方法可以包括:
对获取的待描述图片,采用预设图像处理算法,获取所述待描述图片中的至少一个对象和所述至少一个对象的对象信息;其中,所述对象信息包括对象标识、属性信息以及与所述至少一个对象中对象间的关联关系,所述对象间的关联关系包括所述对象间的位置特征信息;
采用预设词处理算法,对所述待描述图片对应的原始图片描述信息进行分词与词分类处理,得到至少一个第一词和所述至少一个第一词的词类型;
采用预设神经网络算法,将所述至少一个第一词、所述至少一个第一词的词类型与所述至少一个对象的对象信息进行匹配运算,获取所述至少一个对象的对象信息对应的目标词;
将所述对象信息对应的目标词按照预设图片描述结构进行存储,得到新的图片描述信息。
在一个可选的实现中,对获取的待描述图片,采用预设图像处理算法,提取所述待描述图片中的至少一个对象和所述至少一个对象的对象信息,包括:
根据预设对象检测算法,对所述待描述图片进行对象检测,获取至少一个对象和相应对象标识;
根据预设特征提取算法,对所述至少一个对象进行特征提取,得到所述至少一个对象的属性信息;
根据预设坐标算法和所述待描述图片的像素值,对所述至少一个对象进行位置运算,得到所述至少一个对象的位置信息。
基于所述至少一个对象的位置信息,采用预设空间推理算法,得到表示对象间位置关系的位置特征信息,以获取所述对象间的关联关系。
在一个可选的实现中,所述对象间的关联关系还包括所述对象间的行为特征信息;
得到所述至少一个对象中对象间的位置信息之后,所述方法还包括:
根据所述至少一个对象的位置信息和所述属性信息中的对象状态,采用预设逻辑推理算法,得到表示对象间对象状态的行为特征信息,以获取所述对象间的关联关系。
在一个可选的实现中,采用预设词处理算法,对所述待描述图片对应的原始图片描述信息进行运算,得到至少一个第一词和所述至少一个第一词的词类型,包括:
采用预设分词算法,对所述原始图片描述信息进行分词运算,得到至少一个待分类词;
采用预设词嵌入的距离算法,对所述至少一个待分类词进行分类,得到至少一个第一词和所述至少一个第一词的词类型。
在一个可选的实现中,得到新的图片描述信息之后,所述方法还包括:
根据所述至少一个对象中每个对象的属性信息,获取描述所述对象的扩展词,所述扩展词包括描述所述对象的同义词、多义词和拟声词中的至少一种;
将所述扩展词添加入所述新的图片描述信息。
在一个可选的实现中,得到新的图片描述信息之后,所述方法还包括:
获取所述待描述图片的属性信息,所述属性信息包括待描述图片的拍摄时间、拍摄位置和拍摄环境;
将所述待描述图片的属性信息添加入所述新的图片描述信息。
第二方面,提供了一种图片描述信息的获取装置,该装置可以包括:获取单元、运算单元和存储单元;
所述获取单元,用于对获取的待描述图片,采用预设图像处理算法,获取所述待描述图片中的至少一个对象和所述至少一个对象的对象信息;其中,所述对象信息包括对象标识、属性信息以及所述至少一个对象中对象间的关联关系,所述对象间的关联关系包括所述对象间的位置特征信息;
所述运算单元,用于采用预设词处理算法,对所述待描述图片对应的原始图片描述信息进行分词与词分类处理,得到至少一个第一词和所述至少一个第一词的词类型;
采用预设神经网络算法,将所述至少一个第一词、所述至少一个第一词的词类型与所述至少一个对象的对象信息进行匹配运算,获取所述至少一个对象的对象信息对应的目标词;
所述存储单元,用于将所述对象信息对应的目标词按照预设图片描述结构进行存储,得到新的图片描述信息。
在一个可选的实现中,所述获取单元,具体用于根据预设对象检测算法,对所述待描述图片进行对象检测,获取至少一个对象和相应对象标识;
根据预设特征提取算法,对所述至少一个对象进行特征提取,得到所述至少一个对象的属性信息;
根据预设坐标算法和所述待描述图片的像素值,对所述至少一个对象进行位置运算,得到所述至少一个对象的位置信息。
基于所述至少一个对象的位置信息,采用预设空间推理算法,得到表示对象间位置关系的位置特征信息,以获取所述对象间的关联关系。
在一个可选的实现中,所述对象间的关联关系还包括所述对象间的行为特征信息;
所述获取单元,还用于根据所述至少一个对象的位置信息和所述属性信息中的对象状态,采用预设逻辑推理算法,得到表示对象间对象状态的行为特征信息,以获取所述对象间的关联关系。
在一个可选的实现中,所述运算单元,具体用于采用预设分词算法,对所述原始图片描述信息进行分词运算,得到至少一个待分类词;
采用预设词嵌入的距离算法,对所述至少一个待分类词进行分类,得到至少一个第一词和所述至少一个第一词的词类型。
在一个可选的实现中,所述装置还包括第一添加单元;
所述获取单元,还用于根据所述至少一个对象中每个对象的对象信息,获取描述所述对象的扩展词,所述扩展词包括描述所述对象的同义词、多义词和拟声词中的至少一种;
所述第一添加单元,还用于将所述扩展词添加入所述新的图片描述信息。
在一个可选的实现中,所述装置还包括第二添加单元;
所述获取单元,还用于获取所述待描述图片的属性信息,所述属性信息包括待描述图片的拍摄时间、拍摄位置和拍摄环境;
所述第二添加单元,用于将所述待描述图片的属性信息添加入所述新的图片描述信息。
第三方面,提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面中任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。
本发明上述实施例提供的方法通过对获取的待描述图片,采用预设图像处理算法,获取待描述图片中的至少一个对象和至少一个对象的对象信息;其中,对象信息包括对象标识、属性信息以及至少一个对象中对象间的关联关系,对象间的关联关系包括对象间的位置特征信息;采用预设词处理算法,对待描述图片对应的原始图片描述信息进行分词与词分类处理,得到至少一个第一词和至少一个第一词的词类型;采用预设神经网络算法,将至少一个第一词、至少一个第一词的词类型与至少一个对象的对象信息进行匹配运算,获取至少一个对象的对象信息对应的目标词;将对象信息对应的目标词按照预设图片描述结构进行存储,得到新的图片描述信息。该方法不需要人为对图片进行描述,且通过展现视觉场景图将待描述图片的整体内容展现出来,避免了获取的对象描述信息与图片的真实信息存在偏差的问题,提高了视觉图像数据集中图片描述信息的准确性,降低了人工成本。
附图说明
图1为本发明实施例提供的一种图片描述信息的获取方法应用的计算机视觉系统架构图;
图2为本发明实施例提供的一种图片描述信息的获取方法的流程示意图;
图3为本发明实施例提供的一种待描述图片的示意图;
图4为本发明实施例提供的一种视觉场景图的示意图;
图5为本发明实施例提供的一种图片描述信息的获取装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,并不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明实施例提供的图片描述信息的获取方法可以应用在图1所示的计算机视觉系统架构中,该系统可以包括:图片描述信息的获取设备和存储器。其中,图片描述信息的获取设备可以应用在服务器上,也可以应用在终端上。为了保证生成的视觉场景图的精确性,服务器可以是具有较强计算能力的应用服务器或云服务器;终端可以是具有较强的计算能力的移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment,UE)、具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station,MS)等。
存储器,用于存储视觉图像数据集。其中,视觉图像数据集由至少一张图片和描述相应图片的图片描述信息构成。
图片描述信息的获取设备,用于从存储的视觉图像数据集,获取待描述图片和待描述图片对应的原始图片描述信息。采用预设图像处理算法,获取待描述图片中的至少一个对象和至少一个对象的对象信息;其中,对象信息包括对象标识、属性信息和所述至少一个对象中对象间的关联关系,对象间的关联关系包括对象间的位置特征信息,该属性信息可以包括颜色、形状、材质、大小等信息。以及,采用预设词处理算法,对原始图片描述信息进行分词和此类型处理,得到至少一个第一词和至少一个第一词的词类型,并根据至少一个第一词、至少一个第一词的词类型和至少一个对象的对象信息,采用预设神经网络算法,获取至少一个对象的对象信息对应的目标词,从而获取待描述图片对应的新的图片描述信息,该新的图片描述信息对待描述图片的描述更加丰富,更加准确。
本发明实施例的上述图片描述信息的获取设备通过图像的识别处理、对象关系的提取,以及对图片描述信息的规范整合等技术手段得到更细化、更丰富的场景描述信息,提高了图片描述信息的准确性。可以理解的是,生成的视觉场景图具有更好的场景理解能力和相应的推理预测能力。此外,由于不需要人为对图片进行描述,且通过获取场景结构信息将待描述图片的整体内容展现出来,避免了获取的图片描述信息与图片的真实信息存在偏差的问题,降低了人工成本,且与现有技术相比,该设备不限制图像的识别处理出的对象个数,故视觉图像数据集规模相对较大。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图2为本发明实施例提供的一种图片描述信息的获取方法的流程示意图。如图2所示,该方法的执行主体为图片描述信息的获取设备,该方法可以包括:
步骤210、在存储的视觉图像数据集中,获取待描述图片和待描述图片对应的图片描述信息。
待描述图片为至少一张包括目标场景的图片;视觉图像数据集由至少一张图片和描述相应图片的图片描述信息构成。
若任务目标为生成室内场景的视觉场景图,则图片描述信息的获取设备需要在存储的视觉图像数据集中先查找到以家居生活为目标场景的至少一张图片作为待描述图片,再获取相应图片对应的图片描述信息。
其中,目标场景可以包括客厅、厨房、卧室、卫生间等场景。待描述图片对应的图片描述信息是从目标属性、空间推理、逻辑推理、行为关系等多维度特征描述图片场景画面的文本信息。
可选地,为了提高图片描述的准确性,图片描述信息的获取设备可以对查找到的至少一张图片进行预处理,得到处理后的图片,将处理后的图片作为待描述图片。对图片的预处理可以包括对图片的筛选和对图片对应的视觉场景图添加相关内容字段等。相关内容字段可以是区分不同图片的图片标识字段,也可以是图片的内容字段。例如,以查找到以客厅为目标场景的10张图片为例,图片描述信息的获取设备先对10张图片进行筛选,筛选出5张画面内容清晰、不重复的图片,之后将筛选后的5张图片确定为待描述图片,分别对5张图片分配图片标识字段、内容字段等。
步骤220、对获取的待描述图片,采用预设图像处理算法,获取待描述图片中的至少一个对象和至少一个对象的对象信息。
其中,对象信息可以包括对象标识、属性信息和该对象与其他对象间的关联关系。该关联关系可以是空间关系、比较关系、动作关系等。对于空间关系,如on,in,behind,关联关系可以包括该对象与其他对象的位置特征信息;对于动作关系,关联关系可以包括该对象与其他对象的行为特征信息。
首先,图片描述信息的获取设备根据预设对象检测算法,对待描述图片进行对象检测,获取至少一个对象和相应对象标识,并根据预设特征提取算法,对至少一个对象进行特征提取,得到至少一个对象和至少一个对象的属性信息。
具体的,图片描述信息的获取设备采用Faster-RCNN算法,对待描述图片进行检测,通过边框回归标识至少一个对象,并为每个对象赋予唯一的对象标识。
对边框回归标识的至少一个对象进行特征提取,得到每个对象的属性信息,对象的属性信息可以包括颜色、形状、大小、材料和状态等信息,如某一对象的属性信息为:白色、圆形、金属等信息。其中,对象可以是家具、电器、房间布局、室内人物等。
其次,根据预设坐标算法和待描述图片的像素值,对至少一个对象进行位置运算,得到至少一个对象的位置信息。
具体的,根据预设坐标算法,对待描述图片构建直角坐标系,并将该待描述图片上的像素值作为坐标系的坐标轴上的数值,由此得到每个对象的位置信息。如图3所示,待描述图片中包括对象1的凉亭、对象2的山峰和对象3的大树,以A点作为坐标系的原点,且以A点的像素值作为原点坐标(A1,A2),对象1的位置信息包括(B1,B4)、(B1,B2)、(B3,B2)和(B3,B4);对象2的位置信息包括(C1,C4)、(C1,C2)、(C3,C2)和(C3,C4);对象3的位置信息包括(D1,D4)、(D3,D4)、(D1,D2)和(D3,D2)。其中,A1-A4、B1-B4、C1-C4、D1-D4均为待描述图片中相应位置的像素值。
可选地,当对象间的关联关系包括对象间的位置特征信息时,图片描述信息的获取设备根据至少一个对象的位置信息,采用预设空间推理算法,获取表示对象间位置关系的位置特征信息,以获取对象间的关联关系。预设空间推理算法能够根据二维的图片中对象的位置信息,推理出各对象在空间内对象间的位置特征信息,如在图3中视觉看到对象3在对象2内,但将对象3和对象2放置在空间内可知对象3是生长在对象2上;如在图3中视觉看到对象1在对象2的左上方,但将对象1和对象2放置在空间内可知对象1是在对象2的左后方。
可选地,当对象间的关联关系包括对象间的行为特征信息时,图片描述信息的获取设备根据至少一个对象的位置信息和属性信息中的对象状态,采用预设逻辑推理算法,得到表示对象间对象状态的行为特征信息,以获取对象间的关联关系。由于预设逻辑推理算法能够根据二维的图片中对象间的对象状态,推理出在空间内对象间对象状态的行为特征信息,故如在某一图片中视觉看到人坐在沙发上目视正前方,且人的正前方是电视,采用预设逻辑推理算法可知人与电视间存在观看和被观看的行为特征信息,即人坐在沙发上看电视。
步骤230、采用预设词处理算法,对待描述图片对应的原始图片描述信息进行分词与词分类处理,得到至少一个第一词和至少一个第一词的词类型。
其中,预设词处理算法包括预设分词算法和预设词嵌入的距离算法。词嵌入是一种将各个文本中的单词在预定的向量空间中表示为实值向量的技术,即每个单词被映射成一个向量,并且这个向量可以通过神经网络的方式来学习更新。
图片描述信息的获取设备采用预设分词算法,对原始图片描述信息进行分词运算,得到至少一个待分类词;采用预设词嵌入的距离算法,对至少一个待分类词进行分类,得到至少一个第一词和至少一个第一词的词类型。
具体的,图片描述信息的获取设备采用预设分词算法,对原始图片描述信息进行分词标注得到至少一个待分类词;
可选的,为了得到精确的至少一个待分类词,可以对分词标注后的词进行词汇清洗,词汇清洗可以包括对分词标注后的词执行删除停用词、更正错别字、删除歧义词、去重等处理。
之后,采用预设词嵌入的距离算法,计算至少一个待分类词对应的实值向量与预设已知类型的词对应的实值向量间的距离,以实现对至少一个待分类词的分类,得到至少一个第一词和至少一个第一词的词类型。词类型可以包括对象词、属性词、关系词等,其中,对象词用于描述对象、属性词用于描述对象的属性信息、关系词用于描述对象间的关联关系,关系词可以包括“on”“in”“near”等。
步骤240、采用预设神经网络算法,将至少一个第一词、相应词类型与至少一个对象的对象信息进行匹配运算,获取至少一个对象的对象信息对应的目标词。
采用预设神经网络算法,将至少一个对象的对象信息与至少一个第一词进行匹配,获取至少一个对象的对象信息对应的目标词。该目标词是描述对象信息中任一信息的词,如对象名称、对象颜色、对象间的关联关系等。
步骤250、将对象信息对应的目标词按照预设图片描述结构进行存储,得到新的图片描述信息。
其中,新的图片描述信息是对原始图片描述信息的更新与丰富。
将对象信息对应的目标词按照预设图片描述结构进行存储,得到一种图片描述信息的新数据结构。
例如,图片描述信息的存储方式可以如图4所示:
女人(women)—长头发(long hair)、白皮肤(white)、微笑(smiling)、看(watch)电视(TV)、坐在…上(seat in)沙发(sofe);
沙发(sofa)—蓝色(blue)、棉布(cotton)、四个座位(four seats)、在..后面(behind)桌子(table)、与…相邻(next to)椅子(chair)、与…临近(near)鱼缸(fishtank);
桌子(table)—棕色(brown)、木质(wooden)、在…后面(behind)电视柜(TVcabinets)。
其中,图4中以不同的图例表示对象、属性信息和关联关系的不同,在存储过程中可以通过不同的标识来区分不同信息。
可选地,在获取待描述图片对应的目标场景的图片描述信息之后,图片描述信息的获取设备可以对新的图片描述信息进行进一步更新:
方式一,为了提高图片描述信息中词的丰富性,可以通过添加扩展词对场景结构信息进行微调和更正,从而得到更精准的描述。
具体的,图片描述信息的获取设备根据至少一个对象中每个对象的对象信息,获取描述对象的扩展词,例如通过本地存储的描述该对象的扩展词,或者接收用户输入的扩展词,其中,扩展词可以包括描述对象的同义词、多义词和拟声词中的至少一种。
之后,将扩展词添加入新的图片描述信息,并进行存储。
方式二,为了提高图片描述信息中词的丰富性,可以通过添加待描述图片的属性信息(或称“全局信息”)丰富图片描述信息的语义环境,更符合现实情况,增强对图像的语义理解,增加后续推理的准确度,以使其更具备现实真实性。
具体的,图片描述信息的获取设备获取待描述图片的属性信息,属性信息可以包括待描述图片的拍摄时间、拍摄位置和拍摄环境等信息。
其中,拍摄时间可以包括日期、清晨、上午、中午、下午、傍晚、深夜等;拍摄位置可以包括乡村、城市等;拍摄环境为目标场景所在环境,可以包括楼房、商品房、别墅、宿舍等。
将待描述图片的属性信息添加新的图片描述信息。
可选地,在得到更新后的场景结构信息后可以对之前得到的新的图片描述信息进行覆盖,即更新存储位置中新的图片描述信息。
本发明上述实施例提供的方法通过对获取的待描述图片,采用预设图像处理算法,获取待描述图片中的至少一个对象和至少一个对象的对象信息;其中,对象信息包括对象标识、属性信息以及与至少一个对象中对象间的关联关系,对象间的关联关系包括对象间的位置特征信息;采用预设词处理算法,对待描述图片对应的原始图片描述信息进行分词与词分类处理,得到至少一个第一词和至少一个第一词的词类型;采用预设神经网络算法,将至少一个第一词、至少一个第一词的词类型与至少一个对象的对象信息进行匹配运算,获取至少一个对象的对象信息对应的目标词;将对象信息对应的目标词按照预设图片描述结构进行存储,得到新的图片描述信息。该方法不需要人为对图片进行描述,且通过展现视觉场景图将待描述图片的整体内容展现出来,避免了获取的对象描述信息与图片的真实信息存在偏差的问题,提高了视觉图像数据集中图片描述信息的准确性,降低了人工成本。
与上述方法对应的,本发明实施例还提供一种图片描述信息的获取装置,如图5所示,该装置包括:获取单元510、运算单元520和存储单元530;
获取单元510,用于对获取的待描述图片,采用预设图像处理算法,获取所述待描述图片中的至少一个对象和所述至少一个对象的对象信息;其中,所述对象信息包括对象标识、属性信息以及所述至少一个对象中对象间的关联关系,所述对象间的关联关系包括所述对象间的位置特征信息;
运算单元520,用于采用预设词处理算法,对所述待描述图片对应的原始图片描述信息进行分词与词分类处理,得到至少一个第一词和所述至少一个第一词的词类型;
采用预设神经网络算法,将所述至少一个第一词、所述至少一个第一词的词类型与所述至少一个对象的对象信息进行匹配运算,获取所述至少一个对象的对象信息对应的目标词;
存储单元530,用于将所述对象信息对应的目标词按照预设图片描述结构进行存储,得到新的图片描述信息。
在一个可选的实现中,获取单元510,具体用于根据预设对象检测算法,对所述待描述图片进行对象检测,获取至少一个对象和相应对象标识;
根据预设特征提取算法,对所述至少一个对象进行特征提取,得到所述至少一个对象的属性信息;
根据预设坐标算法和所述待描述图片的像素值,对所述至少一个对象进行位置运算,得到所述至少一个对象的位置信息。
基于所述至少一个对象的位置信息,采用预设空间推理算法,得到表示对象间位置关系的位置特征信息,以获取所述对象间的关联关系。
在一个可选的实现中,所述对象间的关联关系还包括所述对象间的行为特征信息;
获取单元510,还用于根据所述至少一个对象的位置信息和所述属性信息中的对象状态,采用预设逻辑推理算法,得到表示对象间对象状态的行为特征信息,以获取所述对象间的关联关系。
在一个可选的实现中,运算单元520,具体用于采用预设分词算法,对所述原始图片描述信息进行分词运算,得到至少一个待分类词;
采用预设词嵌入的距离算法,对所述至少一个待分类词进行分类,得到至少一个第一词和所述至少一个第一词的词类型。
在一个可选的实现中,所述装置还包括第一添加单元540;
获取单元510,还用于根据所述至少一个对象中每个对象的对象信息,获取描述所述对象的扩展词,所述扩展词包括描述所述对象的同义词、多义词和拟声词中的至少一种;
第一添加单元530,用于将所述扩展词添加入所述新的图片描述信息。
在一个可选的实现中,所述装置还包括第二添加单元550;
获取单元510,还用于获取所述待描述图片的属性信息,所述属性信息包括待描述图片的拍摄时间、拍摄位置和拍摄环境;
第二添加单元540,用于将所述待描述图片的属性信息添加入所述新的图片描述信息。
本发明上述实施例提供的图片描述信息的获取装置的各功能单元的功能,可以通过上述各方法步骤来实现,因此,本发明实施例提供的图片描述信息的获取装置中的各个单元的具体工作过程和有益效果,在此不复赘述。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器610、通信接口620、存储器630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。
存储器630,用于存放计算机程序;
处理器610,用于执行存储器630上所存放的程序时,实现如下步骤:
对获取的待描述图片,采用预设图像处理算法,获取所述待描述图片中的至少一个对象和所述至少一个对象的对象信息;其中,所述对象信息包括对象标识、属性信息以及所述至少一个对象中对象间的关联关系,所述对象间的关联关系包括所述对象间的位置特征信息;
采用预设词处理算法,对所述待描述图片对应的原始图片描述信息进行分词与词分类处理,得到至少一个第一词和所述至少一个第一词的词类型;
采用预设神经网络算法,将所述至少一个第一词、所述至少一个第一词的词类型与所述至少一个对象的对象信息进行匹配运算,获取所述至少一个对象的对象信息对应的目标词;
将所述对象信息对应的目标词按照预设图片描述结构进行存储,得到新的图片描述信息。
在一个可选的实现中,对获取的待描述图片,采用预设图像处理算法,提取所述待描述图片中的至少一个对象和所述至少一个对象的对象信息,包括:
根据预设对象检测算法,对所述待描述图片进行对象检测,获取至少一个对象和相应对象标识;
根据预设特征提取算法,对所述至少一个对象进行特征提取,得到所述至少一个对象的属性信息;
根据预设坐标算法和所述待描述图片的像素值,对所述至少一个对象进行位置运算,得到所述至少一个对象的位置信息。
基于所述至少一个对象的位置信息,采用预设空间推理算法,得到表示对象间位置关系的位置特征信息,以获取所述对象间的关联关系。
在一个可选的实现中,所述对象间的关联关系还包括所述对象间的行为特征信息;
得到所述至少一个对象中对象间的位置信息之后,所述方法还包括:
根据所述至少一个对象的位置信息和所述属性信息中的对象状态,采用预设逻辑推理算法,得到表示对象间对象状态的行为特征信息,以获取所述对象间的关联关系。
在一个可选的实现中,采用预设词处理算法,对所述待描述图片对应的原始图片描述信息进行运算,得到至少一个第一词和所述至少一个第一词的词类型,包括:
采用预设分词算法,对所述原始图片描述信息进行分词运算,得到至少一个待分类词;
采用预设词嵌入的距离算法,对所述至少一个待分类词进行分类,得到至少一个第一词和所述至少一个第一词的词类型。
在一个可选的实现中,得到新的图片描述信息之后,所述方法还包括:
根据所述至少一个对象中每个对象的属性信息,获取描述所述对象的扩展词,所述扩展词包括描述所述对象的同义词、多义词和拟声词中的至少一种;
将所述扩展词添加入所述新的图片描述信息。
在一个可选的实现中,得到新的图片描述信息之后,所述方法还包括:
获取所述待描述图片的属性信息,所述属性信息包括待描述图片的拍摄时间、拍摄位置和拍摄环境;
将所述待描述图片的属性信息添加入所述新的图片描述信息。
上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图2所示的实施例中的各步骤来实现,因此,本发明实施例提供的电子设备的具体工作过程和有益效果,在此不复赘述。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的图片描述信息的获取方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的图片描述信息的获取方法。
本领域内的技术人员应明白,本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此,本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样,倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内,则本申请实施例中也意图包含这些改动和变型在内。
Claims (14)
1.一种图片描述信息的获取方法,其特征在于,所述方法包括:
对获取的待描述图片,采用预设图像处理算法,获取所述待描述图片中的至少一个对象和所述至少一个对象的对象信息;其中,所述对象信息包括对象标识、属性信息以及所述至少一个对象中对象间的关联关系,所述对象间的关联关系包括所述对象间的位置特征信息;
采用预设词处理算法,对所述待描述图片对应的原始图片描述信息进行分词与词分类处理,得到至少一个第一词和所述至少一个第一词的词类型;
采用预设神经网络算法,将所述至少一个第一词、所述至少一个第一词的词类型与所述至少一个对象的对象信息进行匹配运算,获取所述至少一个对象的对象信息对应的目标词;
将所述对象信息对应的目标词按照预设图片描述结构进行存储,得到新的图片描述信息。
2.如权利要求1所述的方法,其特征在于,对获取的待描述图片,采用预设图像处理算法,获取所述待描述图片中的至少一个对象和所述至少一个对象的对象信息,包括:
根据预设对象检测算法,对所述待描述图片进行对象检测,获取至少一个对象和相应对象标识;
根据预设特征提取算法,对所述至少一个对象进行特征提取,得到所述至少一个对象的属性信息;
根据预设坐标算法和所述待描述图片的像素值,对所述至少一个对象进行位置运算,得到所述至少一个对象的位置信息;
基于所述至少一个对象的位置信息,采用预设空间推理算法,得到表示对象间位置关系的位置特征信息,以获取所述对象间的关联关系。
3.如权利要求2所述的方法,其特征在于,所述对象间的关联关系还包括所述对象间的行为特征信息;
得到所述至少一个对象中对象间的位置信息之后,所述方法还包括:
根据所述至少一个对象的位置信息和所述属性信息中的对象状态,采用预设逻辑推理算法,得到表示对象间对象状态的行为特征信息,以获取所述对象间的关联关系。
4.如权利要求1所述的方法,其特征在于,采用预设词处理算法,对所述待描述图片对应的原始图片描述信息进行运算,得到至少一个第一词和所述至少一个第一词的词类型,包括:
采用预设分词算法,对所述原始图片描述信息进行分词运算,得到至少一个待分类词;
采用预设词嵌入的距离算法,对所述至少一个待分类词进行分类,得到至少一个第一词和所述至少一个第一词的词类型。
5.如权利要求1所述的方法,其特征在于,得到新的图片描述信息之后,所述方法还包括:
根据所述至少一个对象中每个对象的属性信息,获取描述所述对象的扩展词,所述扩展词包括描述所述对象的同义词、多义词和拟声词中的至少一种;
将所述扩展词添加入所述新的图片描述信息。
6.如权利要求1所述的方法,其特征在于,得到新的图片描述信息之后,所述方法还包括:
获取所述待描述图片的属性信息,所述属性信息包括待描述图片的拍摄时间、拍摄位置和拍摄环境;
将所述待描述图片的属性信息添加入所述新的图片描述信息。
7.一种图片描述信息的获取装置,其特征在于,所述装置包括:获取单元、运算单元和存储单元;
所述获取单元,用于对获取的待描述图片,采用预设图像处理算法,获取所述待描述图片中的至少一个对象和所述至少一个对象的对象信息;其中,所述对象信息包括对象标识、属性信息以及所述至少一个对象中对象间的关联关系,所述对象间的关联关系包括所述对象间的位置特征信息;
所述运算单元,用于采用预设词处理算法,对所述待描述图片对应的原始图片描述信息进行分词与词分类处理,得到至少一个第一词和所述至少一个第一词的词类型;
采用预设神经网络算法,将所述至少一个第一词、所述至少一个第一词的词类型与所述至少一个对象的对象信息进行匹配运算,获取所述至少一个对象的对象信息对应的目标词;
所述存储单元,用于将所述对象信息对应的目标词按照预设图片描述结构进行存储,得到新的图片描述信息。
8.如权利要求7所述的装置,其特征在于,所述获取单元,具体用于根据预设对象检测算法,对所述待描述图片进行对象检测,获取至少一个对象和相应对象标识;
根据预设特征提取算法,对所述至少一个对象进行特征提取,得到所述至少一个对象的属性信息;
根据预设坐标算法和所述待描述图片的像素值,对所述至少一个对象进行位置运算,得到所述至少一个对象的位置信息;
基于所述至少一个对象的位置信息,采用预设空间推理算法,得到表示对象间位置关系的位置特征信息,以获取所述对象间的关联关系。
9.如权利要求8所述的装置,其特征在于,所述对象间的关联关系还包括所述对象间的行为特征信息;
所述获取单元,还用于根据所述至少一个对象的位置信息和所述属性信息中的对象状态,采用预设逻辑推理算法,得到表示对象间对象状态的行为特征信息,以获取所述对象间的关联关系。
10.如权利要求7所述的装置,其特征在于,所述运算单元,具体用于采用预设分词算法,对所述原始图片描述信息进行分词运算,得到至少一个待分类词;
采用预设词嵌入的距离算法,对所述至少一个待分类词进行分类,得到至少一个第一词和所述至少一个第一词的词类型。
11.如权利要求7所述的装置,其特征在于,所述装置还包括第一添加单元;
所述获取单元,还用于根据所述至少一个对象中每个对象的对象信息,获取描述所述对象的扩展词,所述扩展词包括描述所述对象的同义词、多义词和拟声词中的至少一种;
所述第一添加单元,用于将所述扩展词添加入所述新的图片描述信息。
12.如权利要求7所述的装置,其特征在于,所述装置还包括第二添加单元;
所述获取单元,还用于获取所述待描述图片的属性信息,所述属性信息包括待描述图片的拍摄时间、拍摄位置和拍摄环境;
所述第二添加单元,还用于将所述待描述图片的属性信息添加入所述新的图片描述信息。
13.一种电子设备,其特征在于,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存储的程序时,实现权利要求1-6任一所述的方法步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910631671.0A CN110413820B (zh) | 2019-07-12 | 2019-07-12 | 一种图片描述信息的获取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910631671.0A CN110413820B (zh) | 2019-07-12 | 2019-07-12 | 一种图片描述信息的获取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110413820A CN110413820A (zh) | 2019-11-05 |
CN110413820B true CN110413820B (zh) | 2022-03-29 |
Family
ID=68361319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910631671.0A Active CN110413820B (zh) | 2019-07-12 | 2019-07-12 | 一种图片描述信息的获取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413820B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929076A (zh) * | 2019-12-03 | 2020-03-27 | 深圳集智数字科技有限公司 | 一种信息的处理方法及装置 |
CN113377970A (zh) * | 2020-03-10 | 2021-09-10 | 阿里巴巴集团控股有限公司 | 信息的处理方法和装置 |
CN111966856A (zh) * | 2020-06-29 | 2020-11-20 | 北京百度网讯科技有限公司 | 图片数据处理方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102142089A (zh) * | 2011-01-07 | 2011-08-03 | 哈尔滨工程大学 | 一种基于语义二叉树的图像标注方法 |
CN107203611A (zh) * | 2017-05-19 | 2017-09-26 | 北京金山安全软件有限公司 | 基于图片内容的信息提供方法和装置 |
CN107766349A (zh) * | 2016-08-16 | 2018-03-06 | 阿里巴巴集团控股有限公司 | 一种生成文本的方法、装置、设备及客户端 |
CN108764141A (zh) * | 2018-05-25 | 2018-11-06 | 广州虎牙信息科技有限公司 | 一种游戏场景描述方法、装置、设备及其存储介质 |
CN109271628A (zh) * | 2018-09-03 | 2019-01-25 | 东北大学 | 一种图像描述生成方法 |
CN109934214A (zh) * | 2019-02-22 | 2019-06-25 | 深兰科技(上海)有限公司 | 一种对象类别的训练、检测方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932220A (zh) * | 2018-06-29 | 2018-12-04 | 北京百度网讯科技有限公司 | 文章生成方法和装置 |
CN109614481A (zh) * | 2018-09-29 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 对象识别方法、装置、电子设备及计算机可读存储介质 |
-
2019
- 2019-07-12 CN CN201910631671.0A patent/CN110413820B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102142089A (zh) * | 2011-01-07 | 2011-08-03 | 哈尔滨工程大学 | 一种基于语义二叉树的图像标注方法 |
CN107766349A (zh) * | 2016-08-16 | 2018-03-06 | 阿里巴巴集团控股有限公司 | 一种生成文本的方法、装置、设备及客户端 |
CN107203611A (zh) * | 2017-05-19 | 2017-09-26 | 北京金山安全软件有限公司 | 基于图片内容的信息提供方法和装置 |
CN108764141A (zh) * | 2018-05-25 | 2018-11-06 | 广州虎牙信息科技有限公司 | 一种游戏场景描述方法、装置、设备及其存储介质 |
CN109271628A (zh) * | 2018-09-03 | 2019-01-25 | 东北大学 | 一种图像描述生成方法 |
CN109934214A (zh) * | 2019-02-22 | 2019-06-25 | 深兰科技(上海)有限公司 | 一种对象类别的训练、检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
"基于相似图片聚类的Web文本特征算法";方爽等;《计算机工程》;20141231;第40卷(第12期);161-165、171 * |
Also Published As
Publication number | Publication date |
---|---|
CN110413820A (zh) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413820B (zh) | 一种图片描述信息的获取方法及装置 | |
US20230237328A1 (en) | Information processing method and terminal, and computer storage medium | |
US10621281B2 (en) | Populating values in a spreadsheet using semantic cues | |
CN110647636A (zh) | 交互方法、装置、终端设备及存储介质 | |
US10311115B2 (en) | Object search method and apparatus | |
CN107766349B (zh) | 一种生成文本的方法、装置、设备及客户端 | |
CN113590776B (zh) | 基于知识图谱的文本处理方法、装置、电子设备及介质 | |
CN111009041B (zh) | 一种绘画创作方法、装置、终端设备及可读存储介质 | |
EP3328041A1 (en) | Clothes matching recommendation method and smart terminal | |
CN111240669A (zh) | 界面生成方法、装置、电子设备及计算机存储介质 | |
CN113655895B (zh) | 应用于输入法的信息推荐方法、装置及电子设备 | |
CN114792355A (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
CN111475661A (zh) | 一种基于有限标签构造场景图的方法、装置及计算机设备 | |
CN114519889A (zh) | 直播间的封面图像检测方法、装置、计算机设备及介质 | |
CN112446214A (zh) | 广告关键词的生成方法、装置、设备及存储介质 | |
CN110413819B (zh) | 一种图片描述信息的获取方法及装置 | |
CN113052246A (zh) | 用于训练分类模型及图像分类的方法和相关装置 | |
CN109471935B (zh) | 一种问卷调查对象确定方法、装置、电子设备和存储介质 | |
US20170161322A1 (en) | Method and electronic device for searching resource | |
CN116910201A (zh) | 一种对话数据生成方法及其相关设备 | |
CN110019750A (zh) | 呈现两个以上标准文本问题的方法和装置 | |
CN110765917A (zh) | 适用于人脸识别模型训练的主动学习方法、装置、终端、介质 | |
CN113761281B (zh) | 虚拟资源处理方法、装置、介质及电子设备 | |
CN111125501B (zh) | 用于处理信息的方法和装置 | |
Appadoo et al. | FruVegy: An Android App for the Automatic Identification of Fruits and Vegetables using Computer Vision and Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221027 Address after: 476000 shop 301, office building, northeast corner, intersection of Bayi Road and Pingyuan Road, Liangyuan District, Shangqiu City, Henan Province Patentee after: Shenlan robot industry development (Henan) Co.,Ltd. Address before: Unit 1001, 369 Weining Road, Changning District, Shanghai, 200336 (9th floor of actual floor) Patentee before: DEEPBLUE TECHNOLOGY (SHANGHAI) Co.,Ltd. |
|
TR01 | Transfer of patent right |