CN105426925A - 图像标注方法和电子设备 - Google Patents
图像标注方法和电子设备 Download PDFInfo
- Publication number
- CN105426925A CN105426925A CN201511001231.5A CN201511001231A CN105426925A CN 105426925 A CN105426925 A CN 105426925A CN 201511001231 A CN201511001231 A CN 201511001231A CN 105426925 A CN105426925 A CN 105426925A
- Authority
- CN
- China
- Prior art keywords
- image
- information
- probability
- abstract concept
- concept type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种图像标注方法和电子设备。所述方法包括:获取要标注的第一图像;获取与所述第一图像相关的多种不同类型的信息,所述多种不同类型的信息的每种用于标注所述第一图像涉及的一个或多个抽象概念类型;根据获取的所述多种类型的信息对所述第一图像的抽象概念类型执行概率推测,以获得所述第一图像的每个抽象概念类型的概率分布;确定每个抽象概念类型之间的相关性;以及根据确定的相关性,最大化各个抽象概念类型的联合概率,从而确定所述第一图像的标注结果。
Description
技术领域
本申请涉及图像标注方法和电子设备。
背景技术
目前,随着具有照相功能的便携式设备(如智能手机、平板电脑等)的普及,数字图像的数量增长迅速。对这些图像进行标注的丰富性和准确性,关系到用户对图像的检索、整理分类等多种操作的效率。
传统的图像标注技术主要集中在利用图像的视觉信息或相机拍照时的一些参数对图像进行标注。然而,当涉及到图像抽象概念(如吃饭、出差、合影等)的标注时,基于视觉和相机参数等少量信息,很难对图像做出准确而全面的描述。
为此,期望提供一种图像标注方法和电子设备,其使得用户能够准确地用多模态信息标注图像,从而提高用户的使用体验。
发明内容
根据本发明的实施例,提供了一种图像标注方法,包括:
获取要标注的第一图像;
获取与所述第一图像相关的多种不同类型的信息,所述多种不同类型的信息的每种用于标注所述第一图像涉及的一个或多个抽象概念类型;
根据获取的所述多种类型的信息对所述第一图像的抽象概念类型执行概率推测,以获得所述第一图像的每个抽象概念类型的概率分布;以及
确定每个抽象概念类型之间的相关性;
根据确定的相关性,最大化各个抽象概念类型的联合概率,从而确定所述第一图像的标注结果。
可选地,获取与所述第一图像相关的多种不同类型的信息进一步包括:
获取所述第一图像的视觉信息;以及
根据获取的所述多种类型的信息对所述第一图像的抽象概念类型执行概率推测,以获得所述第一图像的每个抽象概念类型的概率分布进一步包括:
根据获取的所述第一图像的视觉信息,利用视觉分类模型对所述第一图像的抽象概念类型执行概率推测,所述视觉分类模型通过提取多个图像的视觉特征并进行场景类别训练获得;
获得所述第一图像属于各种场景类别的概率分布。
可选地,获取与所述第一图像相关的多种不同类型的信息进一步包括:
获取拍摄所述第一图像的时间信息以及拍摄所述第一图像的地理位置信息;以及
根据获取的所述多种类型的信息对所述第一图像的抽象概念类型执行概率推测,以获得所述第一图像的每个抽象概念类型的概率分布进一步包括:
根据获取的所述第一图像的时间信息和地理位置信息,利用事件记录信息对所述第一图像的抽象概念类型执行概率推测,所述事件记录信息从与用户相关的信息源获取;以及
获得所述第一图像属于不同事件的概率分布。
可选地,获取与所述第一图像相关的多种不同类型的信息进一步包括:
获取拍摄所述第一图像的时间信息、拍摄所述第一图像时当地的天气状况信息以及是否使用闪光灯的信息;以及
根据获取的所述多种类型的信息对所述第一图像的抽象概念类型执行概率推测,以获得所述第一图像的每个抽象概念类型的概率分布进一步包括:
根据拍摄所述第一图像的时间信息、所述第一图像时当地的天气状况信息以及是否使用闪光灯的信息,对所述第一图像的抽象概念类型执行概率推测;以及
获得所述第一图像的拍摄环境的概率分布。
可选地,获取与所述第一图像相关的多种不同类型的信息进一步包括:
获取所述第一图像中人物数量的信息、第一图像中人物排列的信息;以及
根据获取的所述多种类型的信息对所述第一图像的抽象概念类型执行概率推测,以获得所述第一图像的每个抽象概念类型的概率分布进一步包括:
根据所述第一图像中人物数量的信息、第一图像中人物排列的信息对所述第一图像的抽象概念类型执行概率推测;以及
获得所述第一图像的拍摄类别的概率分布。
可选地,获取与所述第一图像相关的多种不同类型的信息进一步包括:
获取拍摄所述第一图像时的环境音频信息;以及
根据获取的所述多种类型的信息对所述第一图像的抽象概念类型执行概率推测,以获得所述第一图像的每个抽象概念类型的概率分布进一步包括:
对获取的拍摄所述第一图像时的环境音频信息执行音频分析处理,获得环境音频的频率和幅度,根据获得的环境音频的频率和幅度对所述第一图像的抽象概念类型执行概率推测;以及
获得所述第一图像的周围环境的概率分布。
可选地,确定每个抽象概念类型之间的相关性进一步包括:
获取与所述第一图像相关联的多个图像;
针对获取的多个图像,按照所述一个或多个抽象概念类型的信息进行数量统计;以及
根据统计结果计算不同类型的信息之间的相关性。
可选地,根据确定的相关性,最大化各个抽象概念类型的联合概率,从而确定所述第一图像的标注结果进一步包括:
根据获得的所述第一图像的每个抽象概念类型的概率分布,根据计算的不同类型的信息之间的相关性,最大化各个抽象概念类型的联合概率,从而确定所述第一图像的标注结果。
根据本发明另一实施例,提供了一种电子设备,包括:
图像获取单元,配置为获取要标注的第一图像;
相关信息获取单元,配置为获取与所述第一图像相关的多种不同类型的信息,所述多种不同类型的信息的每种用于标注所述第一图像涉及的一个或多个抽象概念类型;
概率确定单元,配置为根据获取的所述多种类型的信息对所述第一图像的抽象概念类型执行概率推测,以获得所述第一图像的每个抽象概念类型的概率分布;以及
相关性确定单元,配置为确定每个抽象概念类型之间的相关性;
标注单元,配置为根据确定的相关性,最大化各个抽象概念类型的联合概率,从而确定所述第一图像的标注结果。
可选地,所述图像获取单元进一步配置为:
获取所述第一图像的视觉信息;以及
所述概率确定单元进一步配置为:
根据获取的所述第一图像的视觉信息,利用视觉分类模型对所述第一图像的抽象概念类型执行概率推测,所述视觉分类模型通过提取多个图像的视觉特征并进行场景类别训练获得;以及
获得所述第一图像属于各种场景类别的概率分布。
可选地,所述相关信息获取单元进一步配置为:
获取拍摄所述第一图像的时间信息以及拍摄所述第一图像的地理位置信息;以及
所述概率确定单元进一步配置为:
根据获取的所述第一图像的时间信息和地理位置信息,利用事件记录信息对所述第一图像的抽象概念类型执行概率推测,所述事件记录信息从与用户相关的信息源获取;以及
获得所述第一图像属于不同事件的概率分布。
可选地,所述相关信息获取单元进一步配置为:
获取拍摄所述第一图像的时间信息、拍摄所述第一图像时当地的天气状况信息以及是否使用闪光灯的信息;以及
所述概率确定单元进一步配置为:
根据拍摄所述第一图像的时间信息、所述第一图像时当地的天气状况信息以及是否使用闪光灯的信息,对所述第一图像的抽象概念类型执行概率推测;以及
获得所述第一图像的拍摄环境的概率分布。
可选地,所述相关信息获取单元进一步配置为:
获取所述第一图像中人物数量的信息、第一图像中人物排列的信息;以及
所述概率确定单元进一步配置为:
根据所述第一图像中人物数量的信息、第一图像中人物排列的信息对所述第一图像的抽象概念类型执行概率推测;
获得所述第一图像的拍摄类别的概率分布。
可选地,所述相关信息获取单元进一步配置为:
获取拍摄所述第一图像时的环境音频信息;以及
所述概率确定单元进一步配置为:
对获取的拍摄所述第一图像时的环境音频信息执行音频分析处理,获得环境音频的频率和幅度,根据获得的环境音频的频率和幅度对所述第一图像的抽象概念类型执行概率推测;
获得所述第一图像的周围环境的概率分布。
可选地,所述相关性确定单元进一步配置为:
获取与所述第一图像相关联的多个图像;
针对获取的多个图像,按照所述一个或多个抽象概念类型的信息进行数量统计;以及
根据统计结果计算不同类型的信息之间的相关性。
可选地,所述标注单元进一步配置为:
根据获得的所述第一图像的每个抽象概念类型的概率分布,根据计算的不同类型的信息之间的相关性,最大化各个抽象概念类型的联合概率,从而确定所述第一图像的标注结果。
因此,根据本发明实施例的图像标注方法和电子设备,使得用户能够用多模态信息准确地标注图像,从而提高用户的使用体验。
附图说明
图1是图示根据本发明第一实施例的图像标准方法的流程图;
图2是图示根据本发明第一实施例的确定相关性的流程图;
图3A-3D是图示根据本发明第一实施例的图像标准方法的示例;
图4是图示根据本发明第一实施例的图像标准方法的应用示例;以及
图5是图示根据本发明第二实施例的电子设备的功能配置框图。
具体实施方式
下面,将参考附图详细描述根据本发明实施例的图像标注方法和电子设备。
根据本发明实施例的图像标注方法应用于任何电子设备中,例如,智能手机、平板电脑、Pad电脑等等,只要该电子设备能够执行计算功能。在本实施例中,以智能手机作为电子设备的例子进行描述。
<第一实施例>
如图1所示,根据本发明的实施例的图像标注方法包括:
步骤S101:获取要标注的第一图像;
步骤S102:获取与所述第一图像相关的多种不同类型的信息,所述多种不同类型的信息的每种用于标注所述第一图像涉及的一个或多个抽象概念类型;
步骤S103:根据获取的所述多种类型的信息对所述第一图像的抽象概念类型执行概率推测,以获得所述第一图像的每个抽象概念类型的概率分布;
步骤S104:确定每个抽象概念类型之间的相关性;
步骤S105:根据确定的相关性,最大化各个抽象概念类型的联合概率,从而确定所述第一图像的标注结果。
具体地,在步骤S101中,用户可以利用智能手机的相机拍照获取图像,也可以通过有线或无线连接方式从其它图像源获取图像。
例如,当用户参加朋友婚礼时,他可能使用智能手机拍摄多张图像,或者事后他可以通过网络接收其它人发送的婚礼图像或者下载其它人在网络上分享的婚礼图像。由于用户拍摄或接收了大量的婚礼图像,用户希望对这些图像进行更丰富和准确的标注,以便提高今后用户对图像检索、整理分类等多种操作的效率。
现有的标注方法中,通常使用日期或数字标注图像,用户在看到这些标注时无法方便获知图像的内容或当时的环境。
因此,在步骤S102中,可以获取与所述第一图像相关的多种不同类型的信息,所述多种不同类型的信息的每种用于标注所述第一图像涉及的一个或多个抽象概念类型。
也就是说,在根据本实施例的图像标注方法中,通过多种方式获取要标注的图像的多模态信息。例如,可以通过智能手机内部的多种传感器和通信网络等获取多模态信息。
在获取了多种模态的信息之后,在步骤S103中,可以根据获取的所述多种类型的信息对所述第一图像的抽象概念类型执行概率推测,以获得所述第一图像的每个抽象概念类型的概率。
具体地,在一个实施例中,可以获取所述第一图像的视觉信息。例如,可以对第一图像执行图像识别,以确定第一图像属于哪些常见场景类别,例如,人物、自然风光、道路、建筑、办公室、家居等。
然后,根据获取的所述第一图像的视觉信息,利用视觉分类模型对所述第一图像的抽象概念类型执行概率推测,所述视觉分类模型通过提取多个图像的视觉特征并进行场景类别训练获得。
具体地,例如,对于常见场景,可以从诸如Flickr等的图像社交网站上下载多种图像数据,提取视觉特征并按照常见场景类别(如自然风光,道路,建筑等)对这些类别分别训练视觉分类模型f(Ck|I)。然后,利用该模型可以得到每张测试图片(即,第一图像)属于某一类的概率P(Ck|I)=f(Ck|I)。
在另一实施例中,可以获取拍摄所述第一图像的时间信息以及拍摄所述第一图像的地理位置信息。例如,可以通过智能手机中的时间模块获取拍摄所述第一图像的时间信息。此外,还可以利用智能手机中的GPS模块或网络模块等确定拍摄所述第一图像的地理位置信息。
根据获取的所述第一图像的时间信息和地理位置信息,利用事件记录信息对所述第一图像的抽象概念类型执行概率推测,所述事件记录信息从与用户相关的信息源获取。然后获得所述第一图像属于不同事件的概率分布。例如,可以根据当前时间和地点,在智能手机的日历、邮件箱、短信中搜索相关的会议或其他活动信息,从而推测当前发生的事件,即日程安排里的事件发生的概率很高。
具体地,对于事件类别,令日历、邮件箱、短信中事件中的集合C={C1,C2,...,CK},这里K表示总的事件的数量,每一个事件Ek有相应的时间tk和GPS地点信息gk共同表示,即Ck=(tk,gk)。这里,时间表示为Unix时间而地理位置信息用经纬度表示这里和λk分别为坐标的纬度和经度。对于当前从手机获得的时间信息t和g,可以通过求如下式子求得属于某一个事件的概率:
P(Ck|t,g)=αSt(t,tk)+(1-α)Sg(g,gk)
这里α为权重系数,在没有任何先验的情况下,例如可以设置为0.5。St(t,tk)和Sg(g,gk)分别表示时间之间的相似度和地理位置之间的相似度。时间的相似度表示为两个时间点差值的绝对值,即
St(t,tk)=|t-tk|
而地理位置的相似性通过如下公式求得
Sg(g,gk)=rad×(A+B)
其中rad表示地球半径。
利用上述式子我们可以得到当前发生事件的概率P(Ck|t,g)。
对于带有GPS信息和拍摄时间信息的图片集,同样可以根据以上方法求得每一张图片属于某一个事件的概率P(Ck|tI,gI),这里tI,gI分别为图片对应的拍摄时间信息和地理位置GPS信息。
在另一实施例中,可以获取拍摄所述第一图像的时间信息、拍摄所述第一图像时当地的天气状况信息以及是否使用闪光灯的信息。例如,可以通过网络获取拍照时当地的天气状况信息。
然后,根据拍摄所述第一图像的时间信息、所述第一图像时当地的天气状况信息以及是否使用闪光灯的信息,对所述第一图像的抽象概念类型执行概率推测。
具体地,对于户外和户内场景,令拍摄环境类别C={C1,C2},其中C1表示户外,C2表示室内。拍摄时间t,下载到的天气信息w,是否开启闪光灯s,可以通过确定P(Ck|t,w,s)来推断当前用户在户外或者室内的概率。这里k={1,2}。
可以预先确定每一种模态信息下用户在户外或者户内的可能性。具体来说从相关的天气预报网站得到近一年每一天的天气预报与推荐户外运动的程度,比如某一天晴天和微风,该天气预报网站推荐很适合户外运动,则用户在这种天气情况下在户外的可能性比较大,将相应的概率值P(w)设定高一些,同时要求所有天气情况下对应的概率值之和为1.值越大,越适合户外;而值越小越适合室内。
根据当前用户拍摄图片的时间,可以确定某一时间段内可能在户外的可能性。具体来说,可以将一天划分为24个时间段,预先设定每一时间段可能在户外的可能性,比如晚上9:00则可能在室内等,则P(t)的值小一些;反则如果在下午2:00则可能在室外,此时P(t)则可能大一些,这样可以得到每个时间段内的概率P(t),同样要求所有时间段的概率值之和为1。
最后对于是否开闪光灯,如果不开闪光灯,有可能光线比较好,在户外的概率大些,P(s)值较大一些;而开闪光灯,此时在室内的概率值可能大一些,此时P(t)较小一些。两者概率之和同样为1.其次,根据每种模态信息定的概率值,可以通过如下式子求出当前用户在室内或者室外的概率。
P(Ck|t,w,s)=αP(w)+βP(t)+(1-α-β)P(s)
其中α和β为权重系数。
对于图片集,同样可以通过EXIF信息得到时间信息和是否开闪光灯,根据时间信息可以获得当天的天气情况。根据以上方法求得每一张图片属于户外或者户内的概率P(Ck|tI,sI,wI)这里tI,sI,wI为图片对应的拍摄时间信息,是否开闪光灯以及当时的天气情况。通过以上步骤可以得到每张图像属于某种抽象概念(活动、场景和事件等)的概率P(Ck|I)。
在另一实施例中,可以获取所述第一图像中人物数量的信息、第一图像中人物排列的信息。然后,可以根据所述第一图像中人物数量的信息、第一图像中人物排列的信息对所述第一图像的抽象概念类型执行概率推测,并且获得所述第一图像的拍摄类别的概率分布。
在另一实施例中,可以获取拍摄所述第一图像时的环境音频信息。例如,可以通过智能手机的麦克风获取环境音频信息。然后,对获取的拍摄所述第一图像时的环境音频信息执行音频分析处理,获得环境音频的频率和幅度,根据获得的环境音频的频率和幅度对所述第一图像的抽象概念类型执行概率推测,并且获得所述第一图像的周围环境的概率分布。
上面的这些模态的信息只是示例,用户可以使用智能手机内部的各个传感器去获取有用的信息,并且可以通过网络等获取任何可用的信息。此外,获取的可用信息可以任意地组合以便进行标注。
然后,在步骤S104中,可以确定每个抽象概念类型之间的相关性。
在一个示例中,确定每个抽象概念类型之间的相关性的方法包括:
步骤S201:获取与第一图像相关联的多个图像;
步骤S202:针对获取的多个图像,按照所述一个或多个抽象概念类型的信息进行数量统计;以及
步骤S203:根据统计结果计算不同类型的信息之间的相关性。
下面,将结合图3A-3D描述根据本发明实施例的确定相关性的方法。
在步骤S201中,可以获取与第一图像相关联的多个图像。例如,在步骤S201中,可以获取如图3A-3D所示的照片作为第一图像相关联的多个图像。
然后,在步骤S202中,可以针对获取的多个图像,按照所述一个或多个抽象概念类型的信息进行数量统计。
例如,利用图片中标注的类别标签的共生关系得到这些类别标签的相关性。假定训练样本集中共有4类概念,即C1:牛,C2:草地,C3:运动员和C4:跑道。
最后,在步骤S203中,可以根据统计结果计算不同类型的信息之间的相关性。
如图3A-3D标注的四张图片,从中可以发现牛和草地共同出现的次数最多,因而这两类概念的相关性R(C1,C2)也较高。这里R(C1,C2)表示为训练集中概念C1和C2同时出现在一幅图片中的次数。
最后,在步骤S105中,根据确定的相关性,最大化各个抽象概念类型的联合概率,从而确定所述第一图像的标注结果。
具体地,在步骤S105中,可以根据获得的所述第一图像的每个抽象概念类型的概率分布,根据计算的不同类型的信息之间的相关性,最大化各个抽象概念类型的联合概率,从而确定所述第一图像的标注结果。
如图4所示,对于给定的一张测试图片I,利用之前得到的每张图片属于每一类概念的概率P(Ck|I),这里k={1,2,3,4}。再根据这些抽象概念之间的相关性R(C1,C2),最大化各概念的联合概率来确定最终的多标签标准结果。
例如图4中的测试图片。由于在该图片下对应的概念C1和C2的概率P(C1|I)和P(C2|I)最高,同时利用这两类概念的相关性R(C1,C2)通过下式求得他们之间的联合概率P(C1,C2),
这里S(C1)表示训练集中所有出现概念C1的图片数量,S(C2)表示训练集中所有出现概念C2的图片数量。
据此算出这两类概念的联合概率也最高,因此,可以通过如下公式求得该图片同时属于概念C1和C2的概率
P(Ci,Cj|I)=P(Ci,Cj)P(Ci|I)P(Cj|I)
这里i={1,2,3,4},j={1,2,3,4},且i≠j。
最终求得P(C1,C2|I)也最高,最终该图片的标注为牛和草地。该技术同样适用于更多标签的情况。
根据本发明实施例的图像标注方法,使得用户能够用多模态信息准确地标注图像,从而提高用户的使用体验。
<第二实施例>
下面将参考图5描述根据本发明实施例的电子设备。这样的电子设备可以是任何电子设备,如智能手机、平板电脑、Pad电脑等等,只要该电子设备具有计算能力。
如图5所示,根据本发明实施例的电子设备500包括:
根据本发明实施例的电子设备500包括:
图像获取单元501,配置为获取要标注的第一图像;
相关信息获取单元502,配置为获取与所述第一图像相关的多种不同类型的信息,所述多种不同类型的信息的每种用于标注所述第一图像涉及的一个或多个抽象概念类型;
概率确定单元503,配置为根据获取的所述多种类型的信息对所述第一图像的抽象概念类型执行概率推测,以获得所述第一图像的每个抽象概念类型的概率分布;以及
相关性确定单元504,配置为确定每个抽象概念类型之间的相关性;
标注单元505,配置为根据确定的相关性,最大化各个抽象概念类型的联合概率,从而确定所述第一图像的标注结果。
可选地,所述图像获取单元501进一步配置为:
获取所述第一图像的视觉信息;以及
所述概率确定单元503进一步配置为:
根据获取的所述第一图像的视觉信息,利用视觉分类模型对所述第一图像的抽象概念类型执行概率推测,所述视觉分类模型通过提取多个图像的视觉特征并进行场景类别训练获得;以及
获得所述第一图像属于各种场景类别的概率分布。
可选地,所述相关信息获取单元502进一步配置为:
获取拍摄所述第一图像的时间信息以及拍摄所述第一图像的地理位置信息;以及
所述概率确定单元503进一步配置为:
根据获取的所述第一图像的时间信息和地理位置信息,利用事件记录信息对所述第一图像的抽象概念类型执行概率推测,所述事件记录信息从与用户相关的信息源获取;以及
获得所述第一图像属于不同事件的概率分布。
可选地,所述相关信息获取单元502进一步配置为:
获取拍摄所述第一图像的时间信息、拍摄所述第一图像时当地的天气状况信息以及是否使用闪光灯的信息;以及
所述概率确定单元503进一步配置为:
根据拍摄所述第一图像的时间信息、所述第一图像时当地的天气状况信息以及是否使用闪光灯的信息,对所述第一图像的抽象概念类型执行概率推测;以及
获得所述第一图像的拍摄环境的概率分布。
可选地,所述相关信息获取单元502进一步配置为:
获取所述第一图像中人物数量的信息、第一图像中人物排列的信息;以及
所述概率确定单元503进一步配置为:
根据所述第一图像中人物数量的信息、第一图像中人物排列的信息对所述第一图像的抽象概念类型执行概率推测;
获得所述第一图像的拍摄类别的概率分布。
可选地,所述相关信息获取单元502进一步配置为:
获取拍摄所述第一图像时的环境音频信息;以及
所述概率确定单元503进一步配置为:
对获取的拍摄所述第一图像时的环境音频信息执行音频分析处理,获得环境音频的频率和幅度,根据获得的环境音频的频率和幅度对所述第一图像的抽象概念类型执行概率推测;
获得所述第一图像的周围环境的概率分布。
可选地,所述相关性确定单元504进一步配置为:
获取与所述第一图像相关联的多个图像;
针对获取的多个图像,按照所述一个或多个抽象概念类型的信息进行数量统计;以及
根据统计结果计算不同类型的信息之间的相关性。
可选地,所述标注单元505进一步配置为:
根据获得的所述第一图像的每个抽象概念类型的概率分布,根据计算的不同类型的信息之间的相关性,最大化各个抽象概念类型的联合概率,从而确定所述第一图像的标注结果。
因此,根据本发明实施例的电子设备,使得用户能够用多模态信息准确地标注图像,从而提高用户的使用体验。
需要注意的是,上面的实施例仅仅是用作示例,本发明不限于这样的示例,而是可以进行各种变化。
需要说明的是,在本说明书中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
最后,还需要说明的是,上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理,而且包括并行或分别地、而不是按时间顺序执行的处理。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM(只读存储器)/RAM(随机存取存储器)、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (16)
1.一种图像标注方法,包括:
获取要标注的第一图像;
获取与所述第一图像相关的多种不同类型的信息,所述多种不同类型的信息的每种用于标注所述第一图像涉及的一个或多个抽象概念类型;
根据获取的所述多种类型的信息对所述第一图像的抽象概念类型执行概率推测,以获得所述第一图像的每个抽象概念类型的概率分布;
确定每个抽象概念类型之间的相关性;以及
根据确定的相关性,最大化各个抽象概念类型的联合概率,从而确定所述第一图像的标注结果。
2.如权利要求1所述的方法,其中,获取与所述第一图像相关的多种不同类型的信息进一步包括:
获取所述第一图像的视觉信息;以及
根据获取的所述多种类型的信息对所述第一图像的抽象概念类型执行概率推测,以获得所述第一图像的每个抽象概念类型的概率分布进一步包括:
根据获取的所述第一图像的视觉信息,利用视觉分类模型对所述第一图像的抽象概念类型执行概率推测,所述视觉分类模型通过提取多个图像的视觉特征并进行场景类别训练获得;以及
获得所述第一图像属于各种场景类别的概率分布。
3.如权利要求1所述的方法,其中,获取与所述第一图像相关的多种不同类型的信息进一步包括:
获取拍摄所述第一图像的时间信息以及拍摄所述第一图像的地理位置信息;以及
根据获取的所述多种类型的信息对所述第一图像的抽象概念类型执行概率推测,以获得所述第一图像的每个抽象概念类型的概率分布进一步包括:
根据获取的所述第一图像的时间信息和地理位置信息,利用事件记录信息对所述第一图像的抽象概念类型执行概率推测,所述事件记录信息从与用户相关的信息源获取;以及
获得所述第一图像属于不同事件的概率分布。
4.如权利要求1所述的方法,其中,获取与所述第一图像相关的多种不同类型的信息进一步包括:
获取拍摄所述第一图像的时间信息、拍摄所述第一图像时当地的天气状况信息以及是否使用闪光灯的信息;以及
根据获取的所述多种类型的信息对所述第一图像的抽象概念类型执行概率推测,以获得所述第一图像的每个抽象概念类型的概率分布进一步包括:
根据拍摄所述第一图像的时间信息、所述第一图像时当地的天气状况信息以及是否使用闪光灯的信息,对所述第一图像的抽象概念类型执行概率推测;以及
获得所述第一图像的拍摄环境的概率分布。
5.如权利要求1所述的方法,其中,获取与所述第一图像相关的多种不同类型的信息进一步包括:
获取所述第一图像中人物数量的信息、第一图像中人物排列的信息;以及
根据获取的所述多种类型的信息对所述第一图像的抽象概念类型执行概率推测,以获得所述第一图像的每个抽象概念类型的概率分布进一步包括:
根据所述第一图像中人物数量的信息、第一图像中人物排列的信息对所述第一图像的抽象概念类型执行概率推测;以及
获得所述第一图像的拍摄类别的概率分布。
6.如权利要求1所述的方法,其中,获取与所述第一图像相关的多种不同类型的信息进一步包括:
获取拍摄所述第一图像时的环境音频信息;以及
根据获取的所述多种类型的信息对所述第一图像的抽象概念类型执行概率推测,以获得所述第一图像的每个抽象概念类型的概率分布进一步包括:
对获取的拍摄所述第一图像时的环境音频信息执行音频分析处理,获得环境音频的频率和幅度,根据获得的环境音频的频率和幅度对所述第一图像的抽象概念类型执行概率推测;以及
获得所述第一图像的周围环境的概率分布。
7.如权利要求1到6的任一所述的方法,其中,确定每个抽象概念类型之间的相关性进一步包括:
获取与所述第一图像相关联的多个图像;
针对获取的多个图像,按照所述一个或多个抽象概念类型的信息进行数量统计;以及
根据统计结果计算不同类型的信息之间的相关性。
8.如权利要求7所述的方法,其中,根据确定的相关性,最大化各个抽象概念类型的联合概率,从而确定所述第一图像的标注结果进一步包括:
根据获得的所述第一图像的每个抽象概念类型的概率分布,根据计算的不同类型的信息之间的相关性,最大化各个抽象概念类型的联合概率,从而确定所述第一图像的标注结果。
9.一种电子设备,包括:
图像获取单元,配置为获取要标注的第一图像;
相关信息获取单元,配置为获取与所述第一图像相关的多种不同类型的信息,所述多种不同类型的信息的每种用于标注所述第一图像涉及的一个或多个抽象概念类型;
概率确定单元,配置为根据获取的所述多种类型的信息对所述第一图像的抽象概念类型执行概率推测,以获得所述第一图像的每个抽象概念类型的概率分布;以及
相关性确定单元,配置为确定每个抽象概念类型之间的相关性;
标注单元,配置为根据确定的相关性,最大化各个抽象概念类型的联合概率,从而确定所述第一图像的标注结果。
10.如权利要求9所述的电子设备,其中,所述图像获取单元进一步配置为:
获取所述第一图像的视觉信息;以及
所述概率确定单元进一步配置为:
根据获取的所述第一图像的视觉信息,利用视觉分类模型对所述第一图像的抽象概念类型执行概率推测,所述视觉分类模型通过提取多个图像的视觉特征并进行场景类别训练获得;以及
获得所述第一图像属于各种场景类别的概率分布。
11.如权利要求9所述的电子设备,其中,所述相关信息获取单元进一步配置为:
获取拍摄所述第一图像的时间信息以及拍摄所述第一图像的地理位置信息;以及
所述概率确定单元进一步配置为:
根据获取的所述第一图像的时间信息和地理位置信息,利用事件记录信息对所述第一图像的抽象概念类型执行概率推测,所述事件记录信息从与用户相关的信息源获取;以及
获得所述第一图像属于不同事件的概率分布。
12.如权利要求9所述的电子设备,其中,所述相关信息获取单元进一步配置为:
获取拍摄所述第一图像的时间信息、拍摄所述第一图像时当地的天气状况信息以及是否使用闪光灯的信息;以及
所述概率确定单元进一步配置为:
根据拍摄所述第一图像的时间信息、所述第一图像时当地的天气状况信息以及是否使用闪光灯的信息,对所述第一图像的抽象概念类型执行概率推测;以及
获得所述第一图像的拍摄环境的概率分布。
13.如权利要求9所述的电子设备,其中,所述相关信息获取单元进一步配置为:
获取所述第一图像中人物数量的信息、第一图像中人物排列的信息;以及
所述概率确定单元进一步配置为:
根据所述第一图像中人物数量的信息、第一图像中人物排列的信息对所述第一图像的抽象概念类型执行概率推测;
获得所述第一图像的拍摄类别的概率分布。
14.如权利要求9所述的电子设备,所述相关信息获取单元进一步配置为:
获取拍摄所述第一图像时的环境音频信息;以及
所述概率确定单元进一步配置为:
对获取的拍摄所述第一图像时的环境音频信息执行音频分析处理,获得环境音频的频率和幅度,根据获得的环境音频的频率和幅度对所述第一图像的抽象概念类型执行概率推测;
获得所述第一图像的周围环境的概率分布。
15.如权利要求9到14的任一所述的电子设备,其中,所述相关性确定单元进一步配置为:
获取与所述第一图像相关联的多个图像;
针对获取的多个图像,按照所述一个或多个抽象概念类型的信息进行数量统计;以及
根据统计结果计算不同类型的信息之间的相关性。
16.如权利要求15所述的电子设备,其中,所述标注单元进一步配置为:
根据获得的所述第一图像的每个抽象概念类型的概率分布,根据计算的不同类型的信息之间的相关性,最大化各个抽象概念类型的联合概率,从而确定所述第一图像的标注结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511001231.5A CN105426925B (zh) | 2015-12-28 | 2015-12-28 | 图像标注方法和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511001231.5A CN105426925B (zh) | 2015-12-28 | 2015-12-28 | 图像标注方法和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105426925A true CN105426925A (zh) | 2016-03-23 |
CN105426925B CN105426925B (zh) | 2019-03-08 |
Family
ID=55505123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511001231.5A Active CN105426925B (zh) | 2015-12-28 | 2015-12-28 | 图像标注方法和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105426925B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019096180A1 (zh) * | 2017-11-14 | 2019-05-23 | 深圳码隆科技有限公司 | 物品识别方法、系统以及电子设备 |
CN110188769A (zh) * | 2019-05-14 | 2019-08-30 | 广州虎牙信息科技有限公司 | 关键点标注的审核方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090290802A1 (en) * | 2008-05-22 | 2009-11-26 | Microsoft Corporation | Concurrent multiple-instance learning for image categorization |
CN103020261A (zh) * | 2012-12-24 | 2013-04-03 | 南京邮电大学 | 一种图像自动标注方法 |
US20130121589A1 (en) * | 2005-05-09 | 2013-05-16 | Salih Burak Gokturk | System and method for enabling the use of captured images through recognition |
CN103823858A (zh) * | 2014-02-21 | 2014-05-28 | 联想(北京)有限公司 | 信息处理方法及信息处理装置 |
CN103955462A (zh) * | 2014-03-21 | 2014-07-30 | 南京邮电大学 | 一种基于多视图和半监督学习机制的图像标注方法 |
CN104252628A (zh) * | 2013-06-28 | 2014-12-31 | 广州华多网络科技有限公司 | 人脸图像标注方法和系统 |
CN104317867A (zh) * | 2014-10-17 | 2015-01-28 | 上海交通大学 | 对搜索引擎返回的网页图片进行实体聚类的系统 |
-
2015
- 2015-12-28 CN CN201511001231.5A patent/CN105426925B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130121589A1 (en) * | 2005-05-09 | 2013-05-16 | Salih Burak Gokturk | System and method for enabling the use of captured images through recognition |
US20090290802A1 (en) * | 2008-05-22 | 2009-11-26 | Microsoft Corporation | Concurrent multiple-instance learning for image categorization |
CN103020261A (zh) * | 2012-12-24 | 2013-04-03 | 南京邮电大学 | 一种图像自动标注方法 |
CN104252628A (zh) * | 2013-06-28 | 2014-12-31 | 广州华多网络科技有限公司 | 人脸图像标注方法和系统 |
CN103823858A (zh) * | 2014-02-21 | 2014-05-28 | 联想(北京)有限公司 | 信息处理方法及信息处理装置 |
CN103955462A (zh) * | 2014-03-21 | 2014-07-30 | 南京邮电大学 | 一种基于多视图和半监督学习机制的图像标注方法 |
CN104317867A (zh) * | 2014-10-17 | 2015-01-28 | 上海交通大学 | 对搜索引擎返回的网页图片进行实体聚类的系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019096180A1 (zh) * | 2017-11-14 | 2019-05-23 | 深圳码隆科技有限公司 | 物品识别方法、系统以及电子设备 |
CN110188769A (zh) * | 2019-05-14 | 2019-08-30 | 广州虎牙信息科技有限公司 | 关键点标注的审核方法、装置、设备及存储介质 |
CN110188769B (zh) * | 2019-05-14 | 2023-09-05 | 广州虎牙信息科技有限公司 | 关键点标注的审核方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105426925B (zh) | 2019-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210103779A1 (en) | Mobile image search system | |
US10382373B1 (en) | Automated image processing and content curation | |
CN104246748B (zh) | 用于确定情境的系统和方法 | |
EP2851811B1 (en) | Method and device for achieving augmented reality application | |
Miluzzo et al. | CenceMe–injecting sensing presence into social networking applications | |
CN103631819B (zh) | 一种图片命名的方法及系统 | |
US20140222564A1 (en) | Geo-located social connectivity relating to events and commerce | |
US11334768B1 (en) | Ephemeral content management | |
CN107251060A (zh) | 针对序列标签器的预训练和/或迁移学习 | |
Meier | Human computation for disaster response | |
CN103995889A (zh) | 图片分类方法及装置 | |
CN104603773A (zh) | 基于用户之间的社交扩散使兴趣标签与媒体项关联的方法和设备 | |
CN104246757B (zh) | 预测性服务访问 | |
TWI526963B (zh) | 目標客戶搜尋方法、目標客戶搜尋裝置及其記錄媒體 | |
CN108734146A (zh) | 人脸图像年龄判断方法、装置、计算机设备及存储介质 | |
US20170039264A1 (en) | Area modeling by geographic photo label analysis | |
US11297027B1 (en) | Automated image processing and insight presentation | |
CN104025610A (zh) | 用于基于一批图像来提供内容的系统、方法和装置 | |
US20180218379A1 (en) | Information processing system and information processing method | |
CN104520848A (zh) | 按照出席者搜索事件 | |
Raychoudhury et al. | Crowd-pan-360: Crowdsourcing based context-aware panoramic map generation for smartphone users | |
CN107220856B (zh) | 一种移动消费群组识别的系统及方法 | |
CN109741108A (zh) | 基于情境感知的流式应用推荐方法、装置和电子设备 | |
CN103399900A (zh) | 基于位置服务的图片推荐方法 | |
CN104572830A (zh) | 推荐拍摄信息的处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |