CN108431801B - 为与用户关联的图像生成标签 - Google Patents

为与用户关联的图像生成标签 Download PDF

Info

Publication number
CN108431801B
CN108431801B CN201680053325.3A CN201680053325A CN108431801B CN 108431801 B CN108431801 B CN 108431801B CN 201680053325 A CN201680053325 A CN 201680053325A CN 108431801 B CN108431801 B CN 108431801B
Authority
CN
China
Prior art keywords
user
image
search
images
search terms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680053325.3A
Other languages
English (en)
Other versions
CN108431801A (zh
Inventor
罗宾·杜瓦
苏吉特·拉维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN108431801A publication Critical patent/CN108431801A/zh
Application granted granted Critical
Publication of CN108431801B publication Critical patent/CN108431801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/587Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/86Mapping to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/235Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video

Abstract

一种方法包含识别与用户关联的图像,其中,图像被识别为被与用户关联的用户装置捕获的图像、被存储在与用户关联的用户装置上的图像以及被存储在与用户关联的云存储器中的图像中的至少一个。该方法还包含为图像确定一个以上的标签,其中:一个以上的标签是基于元数据、初级注释以及次级注释中的至少一个,并且通过对于元数据和初级注释中的至少一个进行标签扩展来生成次级注释。该方法还包含生成一个以上的标签对于一个以上的置信度分数的映射,其中,一个以上的置信度分数指示一个以上的标签适用于图像的程度。

Description

为与用户关联的图像生成标签
相关申请的交叉引用
本申请要求2015年12月28日提交的名称为“为与用户关联的图像生成标签”的美国专利申请号为14/980,790的优先权,通过引用将其全部内容结合在此。
背景技术
随着智能手机中的相机的标准化,消费者比以前拍摄了更多的图片和视频。对于消费者来说,在他们的移动装置上存储有数以百计或数以千计的照片并不是罕见的。这些照片有时会被备份到云存储服务,但是在很多情况下,照片仍然被存储在移动装置上。由于与使用云存储服务关联的成本、宽带接入的高成本、宽带连接性的缺乏,或者其他因素,用户可能选择不将他们的照片备份到云。
搜索特定照片或者一组照片的用户通常必须手动地筛选他们的图像,直到他们找到特定照片或者一组照片。可能没有使用搜索项来搜索存储在云或者电话上的照片的快速的方式。因为不同的用户可能采用的描述照片中的某个特性或者特征的词语的高差异度,采用自然语言处理技术的媒体搜索引擎可能无法找到特定照片或者一组照片。
发明内容
实施方式通常涉及组织与用户关联的图像。在一些实施方式中,一种方法包括:识别与用户关联的图像,其中,图像被识别为被与用户关联的用户装置捕获的图像、被存储在与用户关联的用户装置上的图像、以及被存储在与用户关联的云存储器中的图像中的至少一个。该方法还包含为图像确定一个以上的标签,其中:一个以上的标签是基于元数据、初级注释以及次级注释中的至少一个,并且通过对于元数据和初级注释中的至少一个进行标签扩展来生成次级注释。该方法还包含生成一个以上的标签对于一个以上的置信度分数的映射,其中,一个以上的置信度分数指示一个以上的标签适用于图像的程度。
在一些实施方式中,一个以上的标签是基于初级注释的,并且该方法进一步包括:通过进行图像识别以确定出现在图像中的一个以上的实体以及与图像关联的特征、和基于关于元数据的推断进行元数据到初级注释的转换中的至少一个来生成初级注释。在一些实施方式中,标签扩展包含基于层次分类法来扩展元数据和初级注释中的至少一个。在一些实施方式中,标签扩展包含基于元数据和初级注释中的至少一个与次级注释的语义类似度以及元数据和初级注释中的至少一个与次级注释的视觉类似度中的至少一个,来扩展元数据和初级注释中的至少一个。
在一些实施方式中,该方法进一步包括:从用户接收用于与用户关联的图像的搜索查询,其中搜索查询包含一个以上的用户生成的搜索项;以及基于一个以上的用户生成的搜索项和映射,为自动完成一个以上的用户生成的搜索项的用户,生成一个以上的建议的搜索项。在一些实施方式中,该方法进一步包括:从用户接收用于与用户关联的图像的搜索查询,其中搜索查询包含一个以上的用户生成的搜索项;以及检索附加信息以将一个以上的用户生成的搜索项转换成为分类搜索项,分类搜索项包含日期、时间、经纬度坐标、高度和方向中的至少一个。在一些实施方式中,该方法进一步包括:通过确定分类搜索项和映射中的一个以上的标签之间的匹配度来识别搜索结果;和基于分类搜索项和一个以上的标签之间的匹配度,排列搜索结果。在一些实施方式中,该方法进一步包括:识别与位置关联的用户活动并且将用户活动注释和与位置关联的图像进行关联。在一些实施方式中,该方法进一步包括:从用户接收用于与用户关联的图像的第一搜索查询,为用户提供匹配第一搜索查询的第一搜索结果,从用户接收第二搜索查询,基于第二搜索查询中的一个以上的项,确定第二搜索查询将被用于第一搜索结果;以及为用户提供从第一搜索结果筛选并且与第二搜索查询相匹配的第二搜索结果,。在一些实施方式中,上述图像包含多个图像,映射包含图像的图表,以及图像表示节点,并且节点之间的每个边缘是基于与对应图像关联的一个以上的标签的。在一些实施方式中,该方法进一步包括:从用户接收一个以上的用户生成的搜索项,用于与用户关联的图像;从映射识别包含图像的搜索结果;基于与每个对应图像关联的置信度分数,生成搜索结果的排列列表;以及将搜索结果的排列列表的至少一部分提供给用户。
在一些实施方式中,一种系统包含耦接到内存的一个以上的处理器;图像处理模块,该图像处理模块被存储在内存中并且可被一个以上的处理器执行,图像处理模块可操作为识别与用户关联的图像并且可操作为对于每个图像确定用于图像的一个以上的标签,其中,一个以上的标签基于元数据、初级注释以及次级注释中的至少一个,并且通过对于元数据和初级注释中的至少一个进行标签扩展来生成次级注释。该系统还包含索引模块,索引模块被存储在内存中并且可被一个以上的处理器执行,该索引模块可操作为生成一个以上的标签到一个以上的置信度分数的映射,其中,一个以上的置信度分数指示一个以上的标签适用于对应图像的程度。该系统还包含检索模块,该检索模块被存储在内存中并且可被一个以上的处理器执行,该检索模块可操作为从用户接收用于与用户关联的图像的搜索查询,其中,该搜索查询包含一个以上的用户生成的搜索项。
上述检索模块可以进一步可操作为基于一个以上的用户生成的搜索项和映射,为自动完成一个以上的用户生成的搜索项的用户,生成一个以上的建议的搜索项。该检索模块可以进一步可操作为检索附加信息以将一个以上的用户生成的搜索项转换成为分类搜索项,分类搜索项包含日期、时间、经纬度坐标、高度和方向中的至少一个,通过确定分类搜索项和映射中的一个以上的标签之间的匹配度来识别搜索结果,并且基于分类搜索项和一个以上的标签之间的匹配度排列搜索结果。
在一些实施方式中,一种非临时性计算机存储介质用包含指令的计算机程序进行编码,当指令被一个以上的计算机执行时,使得一个以上的计算机进行操作,该操作包含识别与用户关联的图像。该计算机存储介质还可以包括,对于图像中的每个图像确定一个以上的标签,其中,一个以上的标签基于元数据、初级注释和次级注释中的至少一个,以及通过进行以下至少一个来生成初级注释:进行图像识别,以确定出现在图像中的一个以上的实体以及与图像关联的特征,以及基于推断进行元数据的转换。该计算机存储介质还可以包括,生成一个以上的标签对于一个以上的置信度分数的映射,其中,一个以上的置信度分数指示一个以上的标签适用于对应图像的程度。
该操作可以进一步包括:对于包含实体的图像中的至少一个图像,确定实体的边界;以及响应于接收用户在图像中的实体的边界之内的选择,检索关于实体的附加信息。该操作可以进一步包括:从用户接收用于附加信息的请求;确定该请求是用于与图像中的一个图像中的实体有关的附加信息;响应于接收该请求,从服务器托管的知识图谱获得附加信息;以及将附加信息提供给用户。该操作可以进一步包括:将一个以上的标签与图像中的第一图像中的实体的边界进行关联;为用户提供第一图像;接收实体的边界之内的选择;确定对应于实体的一个以上的标签;为实体搜索附加信息;以及为用户提供附加信息。该操作可以进一步包括:从用户接收第一搜索查询,第一搜索查询用于与用户关联的一个以上的图像;为用户提供匹配第一搜索查询的第一搜索结果,从用户接收第二搜索查询,基于第二搜索查询中的一个以上的项,确定第二搜索查询将被用于第一搜索结果;以及为用户提供从第一搜索结果过滤并且与第二搜索查询相匹配的第二搜索结果。
在一些实施方式中,该方法可以包含识别与用户关联的图像的手段,其中,图像被识别为被与用户关联的用户装置捕获的图像、被存储在与用户关联的用户装置上的图像和被存储在与用户关联的云存储器中的图像中的至少一个。该方法还包含为图像确定一个以上的标签的手段,其中,一个以上的标签是基于元数据、初级注释以及次级注释中的至少一个,并且通过对于元数据和初级注释中的至少一个进行标签扩展来生成次级注释。该方法还包含生成一个以上的标签对于一个以上的置信度分数的映射的手段,其中,一个以上的置信度分数指示一个以上的标签适用于图像的程度。
其他方面可以包含对应的方法、系统、设备和计算机程序产品。
如下所述的系统和方法有利地创建用于组织图像的结构化格式,该结构化格式使用搜索查询来提高搜索图像的能力,并且减小检索与该搜索查询匹配的图像所需的计算费用和时间。
附图说明
通过实例并且不通过附图的图的限制来图解本公开,附图中,相同的参考数字用于涉及类似的元件。
图1图示了组织图像的实例系统的方框图。
图2图示了组织图像的实例计算装置的方框图。
图3A图示了可操作为提供与图像中的实体有关的附加信息的用户界面的图形表示。
图3B图示了可操作为提供与图像中的实体有关的附加信息的用户界面的另一个实例的图形表示。
图4A图示了在进行模型传播之前的图表的图形表示。
图4B图示了在进行模型传播之后的图表的图形表示。
图5图示了可操作地询问用户澄清问题的用户界面的图形表示。
图6A-6B是组织图像的实例方法的流程图。
具体实施方式
一些实施方式可能包括用于组织与用户关联的图像的系统和方法。例如,图像可以是通过与用户关联的用户装置被捕获的,被存储在与用户关联的用户装置上的,被存储在云存储器中并且与用户关联的,或者是被用户装置捕获的、被存储在用户装置上并且被存储云存储器中的图像的组合。在一些实施方式中,如果图像被用户捕获或者被用户上传到云,那么图像可以与用户关联。在一些实施方式中,如果图像被注释为包括用户的标识,例如如果通过用户或者另一个人在图像中标记该用户,那么图像可以与用户关联。对于每个图像,可以确定一个以上的标签。一个以上的标签可以基于元数据、初级注释和次级注释中的至少一个。通过将一个以上的标签映射到一个以上的置信度分数,可以生成索引。置信度分数可以指示标签适用于对应图像的程度。
元数据可以基于用户装置生成的数据或者用户提供的数据,用户装置诸如用于捕获图像的图像捕获装置。可以通过进行图像识别来生成初级注释,以确定出现在图像中的一个以上的实体以及与图像关联的一个以上的特征。例如,实体可以包括图像中的地标或者人,特征可以是雾,并且初级注释可以是地标(埃菲尔铁塔)、人(简多伊)、或者特征(雾)。还可以基于与元数据所表示的东西有关的一个以上的推断,从与图像关联的元数据生成初级注释。例如,元数据可以包括捕获图像时的高度的指示。基于大约35,000英尺的高度,可以推断图像是在飞机上被捕获的。初级注释可以包括“飞行时拍摄”或者“在飞机上拍摄”使得更容易搜索图像。
可以通过识别经由元数据的标签扩展的相关注释或者通过识别与图像关联的初级注释的相关注释来生成次级注释。标签扩展可以包括基于层次分类法的扩展,该层次分类法包括确定比用于实体的种类宽泛的一个以上的较高级标签,例如识别牛头犬并且生成狗、动物和哺乳动物标签。标签扩展还可以包括基于元数据或者初级注释与其他词语的语义类似度的扩展,诸如将咖啡店扩展为小餐馆,或者基于视觉类似度的扩展,诸如将幼犬扩展为狗。在一些实施方式中,标签扩展可以包括视觉和语义类似度两者的组合,诸如扩展初级注释“坐在黑色保时捷上的约翰”,以生成次级注释“坐在深色汽车上的男人”。
可以通过将一个以上的置信度分数关联到与图像关联的标签并且为图像、标签和一个以上的置信度分数编索引来生成索引。置信度分数可以指示一个以上的标签适用于对应图像的程度。例如,成年狗的图像可以具有置信度分数,该置信度分数指示标签“幼犬”不适用于接近标签“狗”的图像。基于对于与每个用户关联的图像确定的标签和置信度分数,对于不同的用户,索引可以被个性化。例如,基于第一用户捕获以“海滩”标签被编索引的图像,第一用户可以与置信度分数关联,该置信度分数指示与“海滩”标签有很强的关联。基于第二用户上传以“小餐馆”标签被编索引的图像,第二用户可以与置信度分数关联,该置信度分数指示与“小餐馆”标签有很强的关联。
索引可以用于各种方式,包括提供匹配用户生成的搜索项的搜索结果给用户,自动完成搜索查询、以及将用户生成的搜索项转换成为分类搜索项以提高搜索结果的质量。在一些实施方式中,照片搜索助手可以组织用户的图像、将附加的标签添加到该图像、提供与包含在该图像中的实体有关的信息、使用口令来编辑图像、以及订购该图像中出现的产品或者订购包括该图像本身的产品。
在此处讨论的系统和方法可以收集与用户有关的个人信息,或者可以使用个人信息(例如,用户数据)的情形中,提供给用户一个以上的机会,以控制如何收集与用户有关的信息以及如何在一个以上描述的特性中使用信息。为用户提供程序或者特性是否收集用户数据(例如,与用户的社交网络、用户特征、社交行为或者活动、用户的爱好、用户创建或者提交的内容、用户的当前位置等有关的信息)的控制。为用户提供程序或者特性是否收集与特殊用户或者与该程序或者特征有关的其他用户有关的用户信息的控制。要收集个人信息的每个用户被呈现有允许控制与用户有关的信息收集的一个以上的选项,以便提供是否收集信息以及要收集信息的哪个部分的许可或者授权。例如,可以通过通信网络为用户提供一个以上的控制选项。此外,某些数据在被存储或者使用之前可以以一个以上的方式被处理,以便删除个人可识别信息。例如,可以处理用户的身份,以便对于该用户没有个人可识别信息可以被确定,或者用户的地理位置可以被广义化为较大的区域,以便无法确定用户的特殊位置。
实例系统
图1图示了组织与用户关联的图像的实例系统100的方框图。图示的系统100包括图像服务器101、用户装置115a-115n、第三方服务器120和网络105。用户125-125n可以与各个用户装置115a-115n关联。在一些实施方式中,系统100可以包括图1没有显示的其他服务器或装置。在图1和其余图中,参考数字之后的字母,例如“115a”表示对具有特殊参考数字的元件的引用。本文中没有后缀字母的参考数字,例如“115”表示对于承担那个参考数字的元件的实施方式的一般引用。
在图示的实施方式中,系统100的实体经由网络105被通信地耦接。网络105可以是常用类型,有线或者无线,并且可以具有包括星形配置、令牌环配置或者其他配置的众多不同的配置。此外,网络105可以包括局域网(LAN)、广域网(WAN)(例如,因特网)、和/或多个装置可以通信的互连数据路径。在一些实施方式中,网络105可以是对等网络。网络105还可以被耦接到远程通信网的一部分或者包括远程通信网的一部分,用于以各种不同的通信协议发送数据。在一些实施方式中,网络105包括
Figure BDA0001596717830000071
通信网络、
Figure BDA0001596717830000072
或者蜂窝式通信网络,用于发送和接收包括经由短消息服务(SMS)、多媒体消息服务(MMS)、超级文本传输协议(HTTP)、直接数据连接、电子邮件等等的数据。尽管图1图示了耦接到用户装置115和图像服务器101的一个网络105,但是实际上一个以上的网络105可以被耦接到这些实体。
图像服务器101可以包括处理器、存储器和网络通信能力。在一些实施方式中,图像服务器101是硬件服务器。图像服务器101经由信号线102被通信地耦接到网络105。信号线102可以是有线连接,诸如以太网、同轴电缆、光纤电缆等等,或者可以是无线连接,诸如Wi-Fi、蓝牙或者其他无线技术。在一些实施方式中,图像服务器101经由网络105发送数据给一个以上的用户装置115a-115n和第三方服务器120,并从一个以上的用户装置115a-115n和第三方服务器120接收数据。图像服务器101可以包括图像应用程序103a和数据库199。
图像应用程序103a可以是可操作为组织图像的代码和程序。在一些实施方式中,可以使用硬件来实现该图像应用程序103a,该硬件包括现场可编程门阵列(FPGA)或者专用集成电路(ASIC)。在一些实施方式中,可以使用硬件和软件的组合来实现该图像应用程序103a。。
数据库199可以存储用于每个用户的一个以上的索引、与用户关联的图像和用于创建或者细化索引的培训数据。数据库199还可以存储与用户125关联的社交网络数据、来源于第三方服务器120的信息、联系信息等等。
用户装置115可以是包括存储器和硬件处理器的计算装置,例如,便携式计算机、台式计算机、平板电脑、移动电话、可佩带装置、头部安装显示器、移动电子邮件装置、便携式游戏机、便携式音乐播放器、阅读装置、一个以上的处理器内置在其中或者耦接到其的电视机、或者能够访问网络105的其他电子装置。
在图示的实施方式中,用户装置115a经由信号线108被耦接到网络105并且用户装置115n经由信号线110被耦接到网络105。信号线108和110可以是有线连接,诸如以太网、同轴电缆、光纤电缆等等,或者可以是无线连接,诸如Wi-Fi、蓝牙或者其他无线技术。用户装置115a-115n分别被用户125a-125n访问。图1中的用户装置115a-115n以示例的方式使用。虽然图1图示了两个用户装置115a和115n,但是本公开适用于具有一个以上的用户装置115的系统结构。
在一些实施方式中,用户装置115可以是包含在用户125佩带的可佩带装置中的移动装置。例如,用户装置115被包含作为夹子(例如,腕带)的一部分、首饰的一部分、或者一副眼镜的一部分。在另一个实例中,用户装置115可以是智能手表。用户125可以从用户125佩带的装置的显示器上的图像应用程序103查看图像。例如,用户125可以查看智能手表或者智能腕带的显示器上的图像。
在一些实例中,图像应用程序103b可以被存储在用户装置115a上。图像应用程序103可以包括存储在用户装置115a上的瘦客户机图像应用程序103b以及存储在图像服务器101上的图像应用程序103a。例如,图像应用程序103可以包括移动应用程序,该移动应用程序运行在用户装置115a上并且将信息发送到存储在图像服务器101上的图像应用程序103a。例如,用户125a可以使用用户装置115a来捕获图像,并将图像传输到图像服务器101以用于图像应用程序103a。存储在图像服务器101上的图像应用程序103a可以处理该图像,并将附加信息发送回到存储在用户装置115a上的图像应用程序103b。例如,图像应用程序103a可以基于该图像生成用于该用户的索引,从用户装置115a上的图像应用程序103b接收用户查询,并且将匹配该用户查询的搜索结果传输到用户装置115a以用于显示。
在一些实施方式中,图像应用程序103可以是存储在图像服务器101上的独立的应用程序。用户125a可以经由使用浏览器的网络页面或者经由用户装置115a上的其他软件来访问图像应用程序103。在这个实施方式中,存储在用户装置115a上的图像应用程序103b可以从存储在图像服务器101上的图像应用程序103a接收指令,以显示图像应用程序103a生成的信息。在一些实施方式中,图像应用程序103可以包含与图像服务器101上包含的部件相同的用户装置115a上的部件。在这些实施方式中,可以通过图像服务器101或者通过用户装置115来组织图像。
第三方服务器120可以包括处理器、存储器和网络通信能力。在一些实施方式中,第三方服务器120是硬件服务器。第三方服务器120经由信号线118被通信地耦接到网络105。信号线118可以是有线连接,诸如以太网、同轴电缆、光纤电缆等等,或者可以是无线连接,诸如Wi-Fi、蓝牙或者其他无线技术。在一些实施方式中,第三方服务器120经由网络105发送数据给一个以上的图像服务器101和用户装置115a-115n,并从一个以上的图像服务器101和用户装置115a-115n接收数据。
第三方服务器120可以将附加信息提供给图像应用程序103。例如,第三方服务器120可以包含管理社交网络简介的社交网络应用程序、包括用户的简介图像的电子邮件应用程序、提供经度和纬度坐标的地图绘制应用程序、提供关于实体的信息的电子百科全书、可以采购产品或者货物的网站等等。
只要用户同意使用这种数据,第三方服务器120就为图像应用程序103提供用户的简介信息或者简介图像,图像应用程序103可以使用用户的简介信息或者简介图像来识别带有对应社交网络简介的图像中的人。在另一个实例中,第三方服务器120可以为图像应用程序103提供与图像应用程序103使用的图像中识别的实体有关的信息。例如,第三方服务器120可以包含提供与图像中识别的地标有关的信息的电子百科全书、提供用于采购图像中识别的实体的信息的电子购物网站、经受用户同意提供来自图像中识别的用户的旅程的电子日历应用程序、提供与在图像中可以看到的实体的附近位置有关的信息的地图应用程序、供应图像中的菜肴的餐馆的网站等等。
在一些实施方式中,图像应用程序103可以与第三方服务器120共享信息。例如,用户可以指示图像应用程序103“发送这个图片给汤姆”。图像应用程序103可以确定第三方服务器120使用的联系信息,诸如电子邮件地址或者社交媒体别名,来识别汤姆。图像应用程序103可以使用对应的电子邮件地址或者社交媒体别名(social media handle),将该图像传输给第三方服务器120。
尽管根据图像来描述图像应用程序103,但是如下所述的实施方式也可以对其他类型的媒体起作用,其他类型的媒体包括三维影像、视频、虚拟实景视频、全息视频、音频、文档等等。
实例计算装置
图2图示了组织图像的实例计算装置200的方框图。计算装置200可以是图像服务器101或者用户装置115。计算装置200可以包含处理器235、内存237、通信单元239、显示器241、扩音器243、扬声器245和存储装置247。图像应用程序103可以被存储在内存237中。计算装置200的部件可以通过总线220被通信地耦接。
处理器235包括进行计算并提供指令给显示装置的算术逻辑单元、微处理器、通用控制器或者一些其他处理器阵列。处理器235处理数据,并且可以包含各种计算架构,各种计算架构包括复杂指令集计算机(CISC)架构、精简指令集计算机(RISC)架构、或者实现指令集的组合的架构。尽管图2包括单个处理器235,但是可以包含多个处理器235。其他处理器、操作系统、传感器、显示器和物理配置可以是该计算装置200的一部分。处理器235经由信号线222被耦接到总线220,用于与其他部件通信。
内存237存储数据和/或可以由处理器235执行的指令。指令可以包含实施这里描述的技术的代码。内存237可以是动态随机存取存储器(DRAM)装置、静态随机存取存储器(静态RAM)或者一些其他存储装置。在一些实施方式中,存储器237还包括诸如(SRAM)装置或者闪存的非易失性存储器,或者类似的永久存储装置和媒介,包括用于长期存储信息的硬盘驱动器、软盘驱动器、光盘只读存储器(CD-ROM)装置、DVD-ROM装置、DVD-RAM装置、DVD-RW装置、闪存装置、或者一些其他海量存储装置存储器237。以下将更加详细地描述,内存237包括可操作为执行图像应用程序103的代码和程序。内存237经由信号线227被耦接到总线220,用于与其他部件通信。
根据图像应用程序103可以被存储的场所,通信单元239传输数据到用户装置115、图像服务器101和第三方服务器120中的至少一个,并且从用户装置115、图像服务器101和第三方服务器120中的至少一个接收数据。在一些实施方式中,通信单元239包括直接物理连接到网络105或者另一个通信信道的端口。例如,依据图像应用程序103可以被存储的场所,通信单元239包括通用串行总线(USB),安全数字(SD),5类电缆(CAT-5),或者与用户装置115或者图像服务器101有线通信的类似的端口。在一些实施方式中,通信单元239包括使用一个以上的无线通信方法或者另一个合适的无线通信方法与用户装置115、图像服务器101或者其他通信信道交换数据的无线收发器,一个以上的无线通信方法包括IEEE802.IEEE802.16,
Figure BDA0001596717830000101
通信单元239经由信号线226被耦接到总线220,用于与其他部件通信。
在一些实施方式中,通信单元239包括用于通过蜂窝式通信网络来发送和接收数据的蜂窝式通信收发器,蜂窝式通信网络包括经由短消息服务(SMS)、多媒体消息服务(MMS)、超级文本传输协议(HTTP)、直接数据连接、电子邮件或者另一个适当类型的电子通信。。在一些实施方式中,通信单元239包括有线端口和无线收发器。使用标准网络协议,通信单元239还提供到网络105的其他传统的连接,用于文件和/或媒体对象的分配,标准网络协议包括但不限于用户数据报协议(UDP)、TCP/IP、HTTP、HTTP安全(HTTPS)、简单邮件传输协议(SMTP)、SPDY、快速UDP因特网连接(QUIC)等等。
显示器241可以包含可操作为显示来源于图像应用程序103的图形数据的硬件。例如,显示器241可以渲染图形以显示用户界面。显示器241经由信号线228被耦接到总线220,用于与其他部件通信。提供信息给用户的其他硬件部件可以被包含作为计算装置200的一部分。例如,计算装置200可以包含用于音频接口的扬声器、振动或者力反馈装置、或者其他类型的非显示输出装置。在一些实施方式中,诸如计算装置200是图像服务器101的情况下,显示器241可以是可选择的。在一些实施方式中,计算装置200可以不包含所有的部件。在计算装置200是可佩带装置的实施方式中,计算装置200可以不包含存储装置247。在一些实施方式中,计算装置200可以包含这里没有列出的其他部件,例如,一个以上的照相机、传感器、电池等等。
扩音器243可以包含记录来自用户的音频的硬件。例如,扩音器243记录用户说出的要求图像应用程序103提供匹配搜索查询的图像的音频。扩音器243可以传输该音频给计算装置200的操作系统、图像应用程序103、或者单独的应用程序,以将音频转换为图像应用程序103可以理解的信号。扩音器243经由信号线230被耦接到总线220。
扬声器245可以包含生成回放的音频的硬件。例如,扬声器245接收来自图像应用程序103的指令,以生成关于搜索查询的澄清问题。扬声器245将该指令转换为音频,并且生成用于该用户的音频。Speaker245经由信号线232被耦接到总线220。
存储装置247可以是存储数据的非临时性计算机可读存储介质,该数据提供本文描述的功能。在计算装置200是图像服务器101的实施方式中,存储装置247可以包含图1中的数据库199。存储装置247可以是DRAM装置、SRAM装置、闪存或者一些其他存储装置。在一些实施方式中,存储装置247还包括非易失性存储器或者类似的永久存储装置和媒介,包括用于长期存储信息的硬盘驱动器、软盘驱动器、CD-ROM装置、DVD-ROM装置、DVD-RAM装置、DVD-RW装置、闪存装置、或者一些其他海量存储装置。存储装置247经由信号线234被耦接到总线220,用于与其他部件通信。
在图2所示的图示实施方式中,图像应用程序103包括图像处理模块202、索引模块204、搜索模块206、图像助理208、和用户界面模块210。可以是其他模块和/或配置。
图像处理模块202可以是可操作为处理图像。在一些实施方式中,图像处理模块202可以是处理器235可执行的处理图像的一组指令。在一些实施方式中,图像处理模块202可以被存储在计算装置200的内存237中,并且可以被处理器235访问和执行。
在一些实施方式中,图像处理模块202接收与用户关联的图像。图像处理模块202可以确定用于图像的一个以上的标签,其中一个以上的标签可以包含元数据、初级注释或者次级注释。以下分别讨论作为元数据、初级注释和次级注释的不同类型的标签,但是一旦标签的类型被图像处理模块202识别或者生成,图像处理模块202就将它们视为与图像关联的标签。
图像可以与元数据关联。示范性的元数据可以包括但不限于用户装置115生成的数据和用户提供的元数据,用户装置115生成的数据诸如是可交换的图像文件格式(EXIF)数据。用户装置生成的元数据可以包含位置坐标、高度、方向、图像尺寸、图像类型(联合图像专家组(JPEG),标记图像文件格式(TIFF),图形交换格式(GIF),位图(BMP),可移植的网络图形(PNG)等等)、颜色深度、图像分辨率、图像的创建者的身份、日期与时间(例如,反映捕获图像的时间的时间戳)等等。用户提供的元数据可以包含实体(人,物体,场所等等)的标记
在一些实施方式中,图像处理模块202可以生成用于图像的初级注释。图像处理模块202可以进行识别图像中的实体(例如人、物体或者场所)的图像识别,并且将初级注释与对应于该实体的图像关联。例如,图像处理模块202可以使用计算机视觉、深度神经网络、或者采用图像识别算法的其他技术来识别图像中的物体和特征。例如,图像处理模块202可以识别包括动物、汽车或者产品的物体,诸如酒瓶标签,手表,汽车,服装,鞋子等等。图像处理模块202还可以识别文本,诸如通过采用光学字符识别(OCR)或者另一个文本识别算法来识别与物体有关的文本,诸如图书封面上的文本或者符号。在一些实施方式中,图像处理模块202可以基于识别的文本将标签添加到图像。例如,图像处理模块202可以从图书封面识别书名,并且添加包括书名的标签。图像处理模块202可以识别表示图像的属性的特征,诸如“在海滩上”,“在雨中”,“雾”,“晴朗的”,“下雪”,“内部”,“外部”,“在前面”等等。
图像处理模块202检查是否已经获得用户同意(例如,用户许可),以便对图像采用图像识别算法来识别图像中的人,并且添加关于人(姓名,标识,特征等等)的信息作为与图像关联的初级注释。一旦用户同意,图像处理模块202就可以通过利用其他图像中识别的人或者公开的可用信息,将该图像与其他图像进行比较,来识别该图像中的人。一旦用户同意,图像处理模块202就可以从第三方服务器120接收用于识别图像中的人的附加信息。例如,图像处理模块202假设可以通过将该图像和与社交网络关联的约翰的用户简介、与用户装置115关联的装置简介(例如,媒体访问控制(MAC)地址)、或者由第三方服务器120维护的网站(例如,该网站提供其用户的商业简介)进行比较,来将图像中的人识别为约翰,并且确认约翰的身份。
图像处理模块202可以进行图像识别,以便确定与图像关联的特征。该特征例如可以包括晴朗的、有雾的、下雪或者下雨。在一些实施方式中,图像处理模块202可以基于推论,通过将元数据转换为初级注释来生成初级注释。例如,元数据可以包含为“12/25/2014”的捕获日期。图像处理模块202可以将该捕获日期转换为“圣诞节”。图像处理模块202可以基于用于搜索字符串或者自然语言查询的初级注释的倾向,将元数据转换为初级注释。例如,元数据可以被自动地转换成为标准初级注释,该标准初级注释包含捕获日期、捕获时间、捕获图像的纬度和/或经度坐标、捕获图像的高度等等。可以通过图像捕获软件、捕获图像的用户装置115,或者通过可以被存储在用户装置115或者图像服务器101上的处理模块202,进行将元数据转换为初级注释的处理。
在一些实施方式中,图像处理模块202通过将元数据转换为使得该图像更加容易被搜索的初级注释来生成初级注释。例如,图像处理模块202从元数据识别与图像关联的经纬度坐标,并且将该经纬度坐标转换为语义位置,诸如埃菲尔铁塔。在另一个实例中,图像处理模块202可以从高度是35,000英尺的元数据确定是在飞机上捕获图像。图像处理模块202可以将诸如“飞行时被拍摄”或者“在飞机上拍摄”的初级注释添加到该图像。在又一个实例中,图像处理模块202可以从经纬度坐标及其他信号确定拍摄图像时用户在家。图像处理模块202可以将“家”初级注释与该图像关联。在一些实施方式中,这个可以称为场所初级注释。
在一些实施方式中,基于图像中的实体的标识以及该实体对应于场所初级注释的确定,图像处理模块202将场所初级注释与图像关联。场所初级注释可以包含与用户关联的场所位置、与用户关联的工作位置、与用户关联的教育机构、或者语义的景点的标识。语义的景点例如可以包括泰姬陵、自由女神、帝国大厦等等。
图像处理模块202可以基于(例如,来自个别信息或者汇总信息的)语义位置,将经纬度信息匹配到景点,或者通过使用数据信号的组合来推断图像中的位置或者景点,来确定场所初级注释。数据信号的组合可以包含全球定位系统(GPS)数据、WiFi位置数据、蜂窝位置数据、搜索历史、电子邮件数据、日历数据、用户账号简介数据、用户装置115数据、或者其他信号的任意组合。在一些实施方式中,图像处理模块202从一个以上的第三方服务器120接收数据信号,一个以上的第三方服务器120诸如是托管电子邮件应用程序、日历应用程序、社交网络等等的第三方服务器120。
在一些实施方式中,图像处理模块202可以识别用户活动以便与位置关联,并且指示索引模块204将用户活动初级注释与和该位置关联的图像进行关联。例如,图像处理模块202可以将滑雪与特别的度假区关联,并且将高尔夫与特别的高尔夫球场关联。图像处理模块202可以基于用户活动来确定如何将活动与场所关联。例如,图像处理模块202可以基于图像的时间和日期,从图像识别出用户独自旅行或者外出到三个不同的滑雪胜地。图像处理模块202可以基于将滑雪作为活动,集聚来自旅行或者外出的图像。在一些实施方式中,图像处理模块202可以将“滑雪”初级注释添加到与三个滑雪胜地中的任一个关联的任何图像。在一些实施方式中,图像处理模块202聚类这些图像作为独自“滑雪旅行”初级注释。
通过对于元数据或者初级注释进行标签扩展,图像处理模块202可以生成次级注释。在一些实施方式中,图像处理模块202基于层级扩展、语义类似度扩展、视觉类似度扩展、或者语义和视觉类似度扩展的组合来生成次级注释。
在一些实施方式中,图像处理模块202基于层次分类法来进行层级扩展。例如,图像处理模块202可以从元数据识别出图像的位置为戴维斯维尔村庄(DavisvilleVillage)。层次分类法可以具有组织为戴维斯维尔村庄→多伦多→安大略湖→加拿大的位置。图像处理模块202可以生成次级注释,图像助理208可以使用该次级注释作为搜索字符串以过滤照片。类似地,如果图像处理模块202将图像中的实体识别为泰姬陵(即,景点),那么层次分类法可以被组织为泰姬陵→阿格拉→北方邦→印度。在又一个实例中,图像处理模块202可以识别出图像包括牛头犬。层次分类法可以具有被组织为牛头犬→狗→动物→哺乳动物的实体。层次分类法可以是通常采用的标准或者由图像应用程序103创建的专门的方案。层次分类法可以是复杂的或者简化为几个级别的组织。
通过语义地识别同类项,图像处理模块202可以基于语义类似度扩展来生成次级注释。例如,图像处理模块202可以使用初级注释“小餐馆”来生成次级注释“咖啡店”。通过视觉上识别用于相同实体的类似项或者相关项,图像处理模块202可以基于视觉类似度扩展来生成次级注释。例如,图像处理模块202可以使用初级注释“幼犬”来生成次级注释“狗”。通过基于视觉和语义类似度两者来识别项,图像处理模块202可以基于语义和视觉类似度扩展的组合来生成次级注释。例如,图像处理模块202可以使用初级注释“约翰坐在黑色保时捷上”来生成次级注释“男人坐在深色汽车上”。
在一些实施方式中,图像处理模块202将标签(即,元数据、初级注释、或者次级注释)与图像中的实体的边界关联。图像处理模块202可以将该边界与关于实体的信息进行关联,以便响应于接收实体的边界之内的选择,用户界面模块210为用户提供关于实体的信息。该选择可以包含边界之内的单击、双击,边界之内的长时间按压,边界之内预定压力级别的按压,在该实体周围图一个圆圈,将鼠标悬停在实体上等等。
在一些实施方式中,响应于搜索模块206接收选择该实体的指示,搜索模块206识别对应的标签,并且基于对应的标签检索关于选择的实体的信息。搜索模块206可以从搜索引擎、第三方服务器120等检索信息,第三方服务器120诸如是生成服务器托管的知识图谱的第三方服务器120。搜索模块206可以指示该用户界面模块210提供附加信息给该用户。
附加信息可以采取多种形式。转到图3A,可操作为提供与图像中的实体有关的附加信息的用户界面的图形表示被示出。例如,图像305是站立在泰姬陵307前面的用户的朋友306。例如通过在泰姬陵307的边界之内进行选择,用户可以选择泰姬陵。用户界面模块210可以提供在边缘310中的泰姬陵的背景和历史概要,以及泰姬陵位于印度的地图311。在一些实施方式中,实体可以被进一步细分,从而使得搜索模块206可以确定用户选择的是泰姬陵的尖塔中的一个,并且搜索模块206可以提供关于尖塔的附加信息,诸如关于尖塔的独特的故事。用户可以选择他朋友的脸部。一旦用户同意,用户界面模块210可以为用户提供他朋友的社交媒体供给或者对应于到泰姬陵旅行的一部分社交媒介供给,在这个旅行中游历经过印度时他朋友的旅程的快照,旅行的这个部分在可视化中被突出显示,等等。
图3B图示了可操作地提供与图像中的实体有关的附加信息的用户界面的另一个实例的图形表示350。在这个实例中,图像处理模块202生成的边界可以和图3A中的一样。图像助理208可以检测识别边界之内的实体的口头查询。该查询可以继续图3A图示的交互。因为用户已经询问了该实体,所以图像助理208确定当用户询问“它由什么组成”时的那个“它”指的是泰姬陵。图像助理208可以检索附加信息,以确定泰姬陵是由大理石组成的。
在另一个实例中,图像中孩子站立在特斯拉S型轿车前面。图像处理模块202可以在孩子和特斯拉S型轿车周围生成边界。用户可以在特斯拉S型的边界之内进行选择以获悉更多关于它的内容。用户界面引擎212可以为用户提供关于边沿中的特斯拉S型的信息概要。概要可以包含制造商建议的零售价、范围、马力、关于特斯拉的信息、附近的销售商、销售视频等等。另一个实例可以包含为图像中的孩子生成附加的边界。例如,图像处理模块202可以生成孩子的衣物周围的边界,以便响应于用户以在孩子的夹克的边界之内进行选择,用户界面模块210提供产品总览,该产品总览有夹克的三维交互图像、说明、标价、零售商信息、和运送信息。用户界面还可以包含“购买”按钮(或者另一个类型的图标),如果用户提供财务信息给图像应用程序103,那么经由与第三方服务器120关联的零售商,“购买”按钮允许单击采购。又一个实例可以包含接收花的图像的选择并且提供关于花的类型的信息;接收动物的图像的选择并且提供关于动物的信息;接收建筑物的选择并且提供关于该建筑物的信息、显著的仿真陈述、建筑物在地图上的位置等等;接收在海滩拍摄的大海的图像的选择并且提供带有大海和海滩标签的地图,提供关于与海滩关联的旅馆的信息等等;以及接收食物的图像的选择并且提供关于拍摄图像的餐馆的信息、餐馆的评论、来自餐馆的菜单等等。
在一些实施方式中,标签可以与图像本身关联,并且选择图像的任何部分可以使得用户界面模块210提供与图像中的所有实体有关的信息。可替换地,用户界面模块210可以提供信息的子集,诸如图像的上下文最相关的方面。例如,对于包括泰姬陵、本田汽车和树的图像,基于比较人们访问与那些实体中的每一个实体有关的信息的次数或者现有技术中那些普通技术人员所知的另一个度量标准,图像的上下文最相关的方面可能是泰姬陵。在一些实施方式中,可以为用户个性化上下文相关性。例如,如果基于用户的浏览历史,如从第三方服务器120检索到的,用户正在搜索不同类型汽车,那么图像处理模块202可以相对应其他附加信息,优先考虑有关本田汽车的附加信息。
在一些实施方式中,选择可以是口头指令,诸如用户声明“给我显示有关尖塔的信息”,“告诉我有关那辆汽车的更多信息”,“利萨穿着的是什么样的夹克”,“在什么海滩拍摄的这个”,“那个是什么海”,“告诉我有关那个教堂的信息”等等。用户界面模块210可以生成附加信息的口头说明,而不是提供附加信息的视觉表示。
在以上说明的图像处理模块202中,可以基于机器学习来进行步骤。例如,在次级注释和标签被人工地与图像关联或者自动生成但是人工查看以确认准确度的情况下,图像处理模块202可以使用一组训练数据作为引导。图像处理模块202可以使用训练数据来学习图像分类器,以生成次级注释和标签。
索引模块204可操作为生成索引。在一些实施方式中,索引模块204可以是处理器235可执行的生成索引的一组指令。在一些实施方式中,索引模块204可以被存储在计算装置200的内存237中,并且可以被处理器235访问和执行。
在一些实施方式中,在标签包含元数据、一个以上的初级注释和一个以上的次级注释的情况下,索引模块204从与一个以上的标签关联的图像生成索引。索引模块204有利地创建用于组织图像的结构化格式,该结构化格式提高使用搜索查询来搜索图像的能力,并且减小检索与该搜索查询匹配的图像所需的计算费用和时间。
索引模块204可以生成作为图表的索引,其中图像表示索引中的节点并且边缘是基于与对应图像关联的一个以上的标签。例如,机器学习算法可以通过将要被编索引的图像和有已知标签的图像进行比较、确定图像之间的类似度、以及基于类似度定义边缘权重,来创建图表。在一些实施方式中,机器学习算法是用于基于图表的半监督学习的标签传播算法。索引模块204可以作为输入(1)包含加标签和未加标签的节点的无向图,以及(2)用于图表中的被加标签节点的种子标签和权重;并且为每个循环中的图表中的每个节点计算标签分配。
索引模块204可以将一个以上的标签映射到一个以上的置信度分数。置信度分数可以指示标签适用于对应图像的程度。例如,对于小狗的图像,索引模块204可以分配指示图像极力表示“小狗”标签的置信度分数,并且分配指示图像微弱地表示“大狗”标签的置信度分数。
在一些实施方式中,索引模块204基于将特殊图像与包含已确认标签的图像进行比较,确定分配给一个以上的标签中的每个标签的置信度分数。例如,索引模块204将波士顿猎犬的第一图像和与“狗”标签关联的图像进行比较,以判断该图像是否视觉上类似。索引模块204可以基于图像识别,比较图像的直方图等等来确定视觉类似度。索引模块204可以基于视觉类似度的程度来分配置信度分数。
转到图4A,图示了在进行模型传播之前的图表400的图形表示。在这个实例中节点405是与“猫”标签关联的图像,节点410是与“老鼠”标签关联的图像,节点415是无毛猫的未加标签的图像。索引模块204可以通过比较节点415表示的图像和由节点405以及410表示的图像来进行模型传播,以便确定图像之间的视觉类似度。因为无毛猫看起来像猫,所以索引模块204可以给节点415表示的图像分配指示该图像极力与猫相似的置信度分数。因为无毛猫看起来略微类似于老鼠,所以索引模块204可以给节点415表示的图像分配指示该图像略微表示老鼠的置信度分数。
转到图4B,图示了在进行模型传播之后的图表425的图形表示。基于未加标签的图像与加标签的图像的比较,图4A的节点415所表示的未加标签的图像现在被图示为与包含置信度分数的加标签的图像关联的节点430。与加标签的图像关联的节点430表示置信度分数所指示标签适用于加标签的图像的程度。具体地,节点430被图示为指示该加标签的图像极力地相似于猫并且略微相似于老鼠。
搜索模块206可以接收搜索查询,并且基于该搜索查询进行动作。在一些实施方式中,搜索模块206可以是处理器235可执行的接收搜索查询并且进行动作的一组指令。在一些实施方式中,搜索模块206可以被存储在计算装置200的内存237中,并且可以被处理器235访问和执行。
搜索模块206可以从用户接收搜索查询,该搜索查询包含用户生成的搜索项,用于与用户关联的一个以上的图像。例如,搜索模块206接收搜索查询,该搜索查询是对于特殊用户、特殊实体,来自特殊时段、来自特殊位置等等的图像的请求。搜索模块206可以接收搜索查询,该搜索查询包含搜索模块206可以与对应的场所标签相匹配的项。例如,搜索模块206可以识别用户生成的搜索项,该用户生成的搜索项对应于家场所标签(例如,“给我显示家的图片”)、工作场所标签、教育场所标签、或者语义景点场所标签。
在一些实施方式中,搜索模块206从用户接收包含用户生成的搜索项的搜索查询,并且对用户生成的搜索项进行分类,以使用户生成的搜索项更好地与匹配图像相匹配。例如,搜索模块206可以基于以下不同的搜索查询来检索相同的匹配图像:“给我显示超级杯的图片”,“给我显示足球比赛中的图片”,以及“给我显示游戏中的图片”。
搜索模块206可以将用户生成的搜索项转换成为分类搜索项,其中种类包含日期、时间(包括时间范围)、位置、高度、或者方向。关于日期,搜索模块206可以如下分类以下的搜索项:基于特定日期分类“2014年8月1日的图片”,基于本周最近的日子分类“星期五的图片”,基于前一天分类“昨天的图片”,基于两天以前的日期分类“前天的图片”,基于一周之前的日期分类“上周的图片”,基于一个月之前的日期分类“上个月的图片”,基于上年度的日期分类“去年的图片”,基于被转换为对应日期的假期分类“圣诞节的图片”,以及基于被转换为对应日期和位置的事件分类“超级杯的图片”。关于时间,搜索模块206可以如下分类搜索项:基于特定时间分类“上午8点的图片”,以及基于被转换为对应的时间范围的时段分类“今天早上的图片”。
关于位置(例如,经纬度坐标),搜索模块206可以分类以下查询以包含他们的语义位置:基于邻近地区、城市、区域以及国家分类“来自旧金山的图片”;基于特定交易或者景点分类“来自探索博物馆的图片”,基于景点的附近地区分类“来自港湾桥附近的图片”,基于特定街道分类“来自第17大街的图片”,基于对应的十字路口分类“来自第24大街和教堂大街附近的图片”,基于推断的用户的家的位置分类“来自家的图片”,基于推断的用户的工作位置分类“工作图片”,通过基于与景点的接近度推断景点来分类“来自埃菲尔铁塔对面的小餐馆的图片”,以及基于将49人队比赛相对于景点的分类来分类“来自49人队比赛的图片”。
关于高度,搜索模块206可以如下分类搜索查询:基于使用高度确认的景点来分类“拍摄自金门大桥的图片”,并且基于使用高度确认的飞机照片来分类“拍摄自飞机的图片”。关于方向,搜索模块206可以如下分类搜索查询:基于方向从确认的风景分类“有太平洋风景的图片”,基于方向从确认的景点分类“埃菲尔铁塔的图片”,以及基于确认方向来分类“泰姬陵的东部尖塔的图片”。
在一些实施方式中,搜索模块206访问来自图1的第三方服务器120,以实时获得附加信息来分类用户查询。搜索模块206可以查询保留知识图谱或者搜索引擎的第三方服务器120。搜索模块206可以从一个查询推断需要的日期、位置、实体、或者另一个类型的附加信息。搜索模块206可以使用附加信息来将一个以上用户生成的搜索项转换成为分类搜索项。
例如,使用上面的用户要求“给我显示圣诞节的图片”的实例,搜索模块206可能需要与对应于“圣诞节”的日期有关的附加信息。搜索模块206可以查询第三方服务器120,以确定“圣诞节”对应于日期12月25日,并且对于2014年12月25日捕获的图像查询索引。搜索模块206可以从第三方服务器120查询附加信息的相似情况包含用户要求梅西日游行、阵亡将士纪念日、和劳动节长周末的图片。
在由上所述的另一个实例中,搜索模块206可以确定用户要求“给我显示49人队比赛的图片”需要附加信息来搜索对应于“49人队”的图像。搜索模块206可以查询第三方服务器120以确定“49人队”是足球队的名称。在一些实施例中,搜索模块206反复查询第三方服务器120,以确定对应于“49人队”的数据的类型,即,确定“49人队”是实体而不是位置等等。在一些实施方式中,搜索模块206可以获得有关“49人队”的附加信息,包括含有比赛地点信息、日期和时间的计划表。搜索模块206可以交叉参考附加信息并且使用该附加信息从索引识别对应图像,该附加信息具有49人队比赛的位置的经纬度坐标、比赛日期、以及比赛时间。
在如上所述的又一个实例中,搜索模块206可以确定“给我显示波士顿马拉松的图片”需要附加信息,以便将该查询转换为包含可能用于搜索索引来查找图像的对应于波士顿马拉松的位置和一个以上的日期。在另一个实例中,搜索模块206可能接收“给我显示加拿大东部的图片”,并且查询第三方服务器120以获得与加拿大东部的省份有关的信息。搜索模块206可以搜索该索引来查找在加拿大东部省份捕获的图像。
搜索模块206可以访问多个第三方服务器120,以获得用于将用户生成的搜索项转换成为分类搜索项的附加信息。例如,搜索模块206可以接收搜索查询“给我显示亚穆纳河的河畔的图片”,并且查询第一第三方服务器120以确定“亚穆纳”是印度的河流。接下来,搜索模块206可以查询第二第三方服务器120,诸如提供测绘服务的第三方服务器120,以确定亚穆纳河流包含河畔的区域周围的界定区域的纬度和经度。然后搜索模块206可以搜索索引以识别在该界定区域之内捕获的图像。这个处理的其他实例可以包含识别邻近地区或者区域的界定区域,诸如在旧金山附近的渔人码头或者纳帕谷。
在一些实施方式中,通过使用索引,搜索模块206可以将用户生成的搜索项转换成为推断搜索项,以扩展搜索项中的措辞或者表达式。推断可以适用于图像中的许多人、室外和室内图像之间的区别、景物识别、以及白天或者夜间属性。
对于基于图像中的人数做出的推断,搜索模块206可以识别用户生成的搜索项表示特殊数量。例如,搜索模块206可以接收搜索查询“给我显示哥斯达黎加海滩上的家人照片”,并且确定用户生成的搜索项“家人”可以被转换为推断搜索项“三个以上的人”。接下来,搜索模块206可以搜索包含三个以上的人的图像。在另一个实例中,搜索模块206可以接收搜索查询“给我显示在泰姬陵前面的我的图片”,并且将“我”转换为推断搜索项“一个人”。在又一个实例中,搜索模块206可以接收搜索查询“给我显示上周的小组照片”,并且将用户生成的搜索项“小组照片”转换为推断搜索项“大于三个”。
对于基于室内和室外区别做出的推断,搜索模块206可以确定默认推断的搜索项是“室外”。例如,搜索模块206可以接收搜索查询“给我显示圣彼得大教堂的图片”,并且推断用户正在请求圣彼得大教堂的室外图片。在另一个实例中,搜索模块206可以接收搜索查询“给我显示圣彼得大教堂内部的图片”,并且基于用户明确地请求“内部图片”,来确定推断的搜索项是“室内”。
对于基于景物辨别做出的推断,搜索模块206可以识别用户生成的搜索项对应于景物属性。例如,搜索模块206可以接收搜索查询“海滩上的日落图片”,并且确定用户生成的搜索项对应于以下推断的搜索项:大海,海滩,湖以及日落。在这个实例中,搜索模块206可以确定“海滩”对应于多个类型的水体(即,大海,海滩以及湖)。在另一个实例中,用户生成的搜索项“树”可以对应于推断的搜索项“树”以及“森林”。在又一个实例中,搜索模块206可以基于用户生成的搜索项来推断不同的天气情况。例如,用户生成的搜索项“多云”可以对应于“雾”以及“下雨”。
对于基于白天和夜间属性做出的推断,搜索模块206可以识别用户生成的搜索项对应于白天以及夜间属性。例如,搜索模块206可以接收搜索查询“夜间东京的图片”,并且确定用户生成的搜索项“夜间”对应于日落之后捕获的图像。在一些实施方式中,搜索模块206可以基于图像中的光的水平、对应于日落之后的捕获时间等等来识别匹配的图像。
在一些实施方式中,搜索模块206从用户接收搜索查询,该搜索查询包含用户生成的搜索项,用于与用户关联的一个以上的图像。搜索模块206可以基于用户生成的搜索项和索引,为自动完成该用户生成的搜索项的用户,生成一个以上的建议的搜索项。在一些实施方式中,搜索模块206可以基于从索引输出的聚集的标签来生成建议的搜索项。具体地,搜索模块206可以通过识别索引中对应于搜索查询的标签、确定标签的频率和排列标签,来生成建议的搜索项。例如,如果用户输入部分用户查询“m的图片”,那么搜索模块206可以确定该索引包含始于“m”的按数量递减的以下标签:mom、Martha和monkey。因此,搜索模块206可以建议“mom”自动完成搜索查询或者提供自动完成建议的排列列表。建议的搜索项可以包含基于用户生成的搜索项和索引自动生成的自然语言表达式或者关键字。
在一些实施方式中,搜索模块206扩展用户查询中的一个以上的项的措辞以识别相关的搜索项并且找到与相关的搜索项相匹配的图像。搜索模块206可以基于与原始用户查询的相关性来排列搜索结果。例如,在用户查询是“幼犬照片”的情况下,搜索模块206可以将具有“幼犬照片”的匹配图像作为标签的一部分。搜索模块206可以扩展措辞,并且识别具有用于任何类型狗的标签的图像,以及以小狗相对于大狗优先的方式排列。因此,如果用户使用“幼犬”作为所有狗的通用术语,那么搜索模块206可以捕获与用户的期望目的相匹配的图像。
在一些实施方式中,搜索模块206识别搜索结果,该搜索结果包含与搜索项相匹配的图像。搜索模块206可以基于与对应图像关联的置信度分数来排列搜索结果。例如,在搜索查询是“泰姬陵的图像”的情况下,搜索模块206可以将具有“泰姬陵”的匹配图像作为标签的一部分。搜索模块206可以识别与每个图像关联的“泰姬陵”的置信度分数,并且基于对应的置信度分数排列搜索结果。在一些实施方式中,搜索模块206可以选择置信度分数满足预定阈值的搜索结果。在图像与多个置信度分数关联的情况下,搜索模块206可以判断多个置信度分数的加权总和是否满足预定阈值。搜索模块206可以基于与满足预定阈值的置信度分数关联的搜索结果,将搜索结果的排列列表的至少一部分提供给用户。
在一些实施方式中,搜索模块206可以基于搜索查询中的指示来进行图像过滤。过滤可以包含随后进行搜索结果的缩小。例如,搜索模块206可以接收第一搜索查询,用于与用户关联的图像。在这个实例中,第一搜索查询可以是:“给我显示旧金山的图片”。搜索模块206可以接收第二搜索查询。搜索模块206可以确定第二搜索查询将被用于第一搜索结果。例如,第二搜索查询可以是:“仅仅给我显示上个月的”。搜索模块206可以为用户提供从第一搜索结果过滤并且与第二搜索查询相匹配的第二搜索结果。在这个实例中,第二搜索结果可以包含上个月在旧金山拍摄的图片。搜索模块206可以基于第二搜索结果接收第三搜索查询,第三搜索查询带有将会是第三搜索查询的指示。例如,第三搜索查询可以是:“仅仅给我显示金门大桥附近的”。
在一些实施方式中,搜索模块206可以基于多属性的复杂查询来进行图像的搜索。例如,搜索模块206可以从用户接收以下搜索查询:“给我显示上个月在旧金山拍摄的图片”。搜索模块206可以将用户生成的搜索项“旧金山”转换为与旧金山的经纬度坐标相对应的分类搜索项,将用户生成的搜索项“上个月”转换为与时间范围“上个月”相对应的分类搜索项,并且搜索与分类搜索项相匹配的图像。在另一个实例中,搜索模块206从用户接收以下搜索查询:“给我显示埃菲尔铁塔顶部白天的图片”。搜索模块206可以将用户生成的搜索项“白天”转换为与时间范围“白天”相对应的分类搜索项,将用户生成的搜索项“顶部”转换为与埃菲尔铁塔的“顶部”相对应的高度的图像,将用户生成的搜索项“埃菲尔铁塔”转换为用于景点的分类搜索项,并且在对应于“埃菲尔铁塔”位置的“顶部”的高度的图像搜索与时间范围“白天”相对应的图像。
在一些实施方式中,搜索模块206可以基于来自用户的搜索查询的推断信息和图像识别结果,进行自动加标签。例如,用户可以提供以下搜索查询:“给我显示萨曼塔和我在哥斯达黎加海滩上的照片”。搜索模块206可以识别在海滩附近的哥斯达黎加拍摄的包含两个人的图像,其中一个人是该用户。图像处理模块202可能已经基于图像识别搜索,将该图像与先前标记的用户图像进行比较、将该图像与用户的公开简介进行比较等等,确定了图像中的用户身份。如果只有匹配先前标准的图像包含另一个人,那么搜索模块206可以推断第二用户是“萨曼塔”,并且指示索引模块204将对应图像与萨曼塔的自动标签关联。如果图像中存在多个第二人和/或作为附加的确认步骤,那么搜索模块206可以将第二用户的图像与已知人的图像进行比较,以识别包含萨曼塔的图像。例如,搜索模块206可以从社交网络应用程序请求简介图像,并且将第二用户的图像与简介图像进行比较,以减少进行比较的次数。然后搜索模块206可以指示索引模块204将对应图像与萨曼塔的自动标签进行关联。在一些实施方式中,图像助理208可以在自动对该图像加标签之前,为用户显示对应图像,并且要求用户确认第二人是萨曼塔。
图像助理208可操作为为用户组织图像。在一些实施方式中,图像助理208可以是处理器235可执行的为用户组织图像的一组指令。在一些实施方式中,图像助理208可以被存储在计算装置200的内存237中,并且可以被处理器235访问和执行。
图像助理208可以帮助用户自动地组织图像、搜索图像、推荐图像、提供与图像中的实体有关附加信息、添加特殊效果到图像、共享图像并且备份图像。在一些实施方式中,图像助理208可以使用语音交互和用户界面模块210的指令的组合来生成用户界面。图像助理208可以为用户提供选项,以在交互的每个步骤从用户界面进行选取或者使用语音命令继续。不管用户采用的与图像助理208交互的用户装置115的类型如何,图像助理208都可以提供这个选项交互。
图像助理208可以与用户交互,以获得用于分类图像的识别信息、响应以从用户接收到该识别信息、指示索引模块204通过添加识别信息到对应图像来更新索引。例如,图像助理208可以口头地或者通过提供文字来询问如下内容:“我需要确认几件事来组织你的照片。它将仅花费你几分钟的时间。这个是你吗?”图像助理208可以指示用户接口模块210显示被图像助理208识别为潜在地包含该用户的一个以上的图像。
转到图5,图示了可操作为为用户提供澄清问题的用户界面的图形表示。在这个实例中,图像助理208组织与用户关联的图像,并且识别要组织的502个图像。在图像助理208请求确认该用户被正确识别的情况下,用户界面模块210在用户界面的面板505中提供一个澄清问题,以及图像510,515。在这个实例中,用户可以使用“是”按钮520和“否”按钮525来确认或者拒绝用户的识别。如果在正确识别出图像中的用户时用户识别出图像中的任何一个图像,那么图像助理208可以指示索引模块204将标签添加到识别该用户的图像。标签可以包含用户姓名、“我(me)”和“我(I)”中的至少一个,以便当用户例如要求“给我显示我的图像”时,搜索模块206可以识别图像。如果用户指示两个图像都没有正确地识别用户,那么图像助理208可以指示用户界面模块210识别可能包含该用户的其他的图像。
图像助理208可以通过指示用户界面模块210提供在与用户关联的图像中经常出现的人的图像来组织图像。例如,图像助理208可以识别在阈值数量的图像(例如,5%,10%等等)中出现的人。图像助理208可以指示用户界面模块210显示要识别的人的图像,并且询问用户:“你可以告诉我这些照片中出现的此人是谁吗?”图像助理208可以接收用于图像中的人的不同类型的项,诸如“妈妈”或者用户妈妈的全名。图像助理208可以询问其他的澄清问题。例如,图像助理208可以响应为“你可以告诉我你妈妈全名吗?那样我可以正确地标记该照片,这还使得将来更容易与她共享照片。”用户例如可以响应为“萨曼塔布朗”。图像助理208可以给用户提示,将来如何通过陈述“好的!我还将标记她的照片为‘妈妈’,所以将来你可以说‘与妈妈共享’之类的话”,来搜索图像。
在一些实施方式中,图像助理208访问第三方信息来确认来自用户的信息或者帮助进行推断,以减少展示给用户的问题的数量。例如,如果用户识别图像中的人为“罗伯特”,那么图像助理208可以访问社交媒介简介、电子邮件简介等等,来确定“罗伯特”指的是“罗伯特施泰因”。在一些实施方式中,图像助理208可以生成置信度分数,该置信度分数指示图像中的人和身份证明之间的匹配。如果置信度分数满足阈值,那么图像助理208可以指示索引模块204将标签添加到带有人的身份的图像。如果置信度分数没有满足阈值(例如,如果置信度分数在阈值以下),那么图像助理208可以询问用户来确认图像包含“罗伯特施泰因”。
在一些实施方式中,图像助理208接收一个用户查询,该用户查询具有与一个以上的标签相对应的一个以上的用户生成的搜索项。例如,图像助理208可以要求图像助理208“给我显示我的图片”。图像助理208可以为用户提供包含该用户的一个以上的对应图像。在一些实施方式中,图像助理208从用户生成的搜索项确定一个以上的模糊之处,并且为用户提供问题以便澄清来自用户生成的搜索项的一个以上的模糊之处。例如,用户可以提供以下搜索查询:“给我显示滑雪旅行的图片”。在这个实例中,图像处理模块202可能已经将“滑雪”标签添加到三个不同的滑雪旅行。因此,图像助理208可能确定有三个不同聚类的图像,从三个不同聚类的图像显示与滑雪关联的图像。图像助理208可以要求用户指定该用户愿意看到哪个滑雪旅行。例如,图像助理208可以指示用户界面模块210生成用户界面,该用户界面以本文形式显示问题。图像助理208还可以指示用户界面模块210包含来自每个滑雪旅行的图像、基于例如他们的度假区的日期或者名称(例如,度假区A,度假区B,度假区C)的滑雪旅行的识别、以及问题。可以以诸如音频提示的其他格式来提供该问题。如果用户提供该问题的答案,那么图像助理208可以更新用户查询中的不明确的搜索项。接着上面的实例,图像助理208可以用用户查询中的“滑雪”以及“度假区A”替换“滑雪旅行”,从而获得与到度假区A的滑雪旅行关联的图像。
在另一个实例中,图像助理208可以提供建议或者选项来为多个类似的图像种类消除模糊之处。例如,用户可以要求:“给我显示足球比赛的图片”。该图像助理208可以识别包含足球体育场的位置的图像、集聚与不同日期和位置关联的不同比赛的图像、以及为在那些日期那些时间举行的特定足球比赛来查询第三方服务器120。图像助理208可以响应:你愿意看到你在新英格兰爱国者队比达拉斯牛仔队的比赛,或者在芝加哥熊队比纽约巨人队比赛时拍摄的图片?”
在又一个实例中,图像助理208可以提供建议或者选项来为与相同位置类别关联的多个景点消除模糊之处。例如,用户可以要求:“给我显示博物馆的照片”。图像助理208可以从与用户关联的图像识别包含指定为博物馆的三个不同的景点的图像。图像助理208可以响应:“你愿意看到你在大英博物馆、科学博物馆或者自然历史博物馆拍摄的图片?”用户对图像助理208的响应可以包含除了选择三个博物馆中的一个的选项。例如,用户可以响应:“它是靠近布鲁姆伯利电影院的博物馆”。图像助理208可以查询托管搜索引擎、绘图应用程序等等的第三方服务器120,以确定布鲁姆伯利电影院和三个博物馆之间的距离,并且识别大英博物馆是最近的。因此,图像助理208可以组合来自多个数据源的多条信息,以计算消除图像聚类之间的模糊之处的属性。
在一些实施方式中,图像助理208可以响应于缺少完成用户搜索的信息,来要求后续问题。例如,用户可以声明:“给我显示来自萨曼塔的生日宴会的图片”。图像助理208可能无法访问对应于萨曼塔的生日的日期。图像助理208可以对第三方服务器120查询该信息。如果图像助理208无法定位日期,那么图像助理208可以询问用户:“你知道萨曼塔的生日是什么时侯吗?”一旦图像助理208接收到答案,图像助理208就可以为匹配图像生成标签,该标签包含“萨曼塔的生日宴会”。在一些实施方式中,在图像助理208不能自动地访问第三方服务器120以获得萨曼塔的生日的日期的情况下,用户可能能够指示图像助理208检查第三方服务器120。例如,用户可能能够指定可能包含信息(例如,“检查我的日历”)的数据源。
在另一个实例中,用户可以要求:“给我显示爸爸的住宅的图片”。图像助理208可能已经将“爸爸”作为标签添加到包含用户的父亲的图像,但是图像助理208可能无法访问爸爸的住宅的位置。图像助理208可以询问用户:“你可以告诉我你爸爸的地址(这将仍然会是私密的)吗?”响应于接收来自用户的地址,图像助理208可以将街道地址计算成经纬度坐标,以识别在那个位置拍摄的图像。图像助理208还可以将“爸爸的住宅”作为标签添加到匹配图像。
在一些实施方式中,图像助理208可以确认图像应用程序103做出的推断是正确的。例如,图像助理208可以从用户接收搜索查询,该搜索查询使用场所标签(例如,“给我显示工作图片”)。图像助理208可以识别包含工作场所标签的图像,为用户提供对应图像,并且要求用户确认该图像被正确地加标签。
如上所述,响应于用户询问与图像中的实体有关的问题,图像助理208可以为用户提供附加信息。图像助理208可以接收口头地用户查询并且确定用户询问的实体是什么。例如,回到图3A,用户可以询问“那个建筑物是什么?”图像助理208可以从图像识别哪个实体包含“建筑物”标签。然后图像助理208可以将用户查询更新为声明“泰姬陵是什么”,并且与搜索模块206通信以获得与泰姬陵有关的附加信息,并提供给用户。在一些实施方式中,图像助理208可以扩展搜索项的措辞并且获得与扩展的搜索项有关的附加信息。例如,图像助理208可以将“那个建筑物是什么?”扩展为包含“那个陵墓是什么”,并且与搜索模块206通信,以获得有关陵墓的附加信息。
在一些实施方式中,图像助理208基于用户的语音来识别用户,并且为该用户匹配索引。在图像应用程序103被存储在由家庭的多个成员访问的基于语音的电视系统、机顶盒、平板、或者台式计算机上的情况下,图像助理208可以从用户接收搜索查询,并且基于语音签名来识别用户。例如,图像助理208可以接收“给我显示我在泰姬陵前面的图片”。即使全家进行了到印度的相同的旅行,图像助理208也可以依据该用户提供不同的搜索结果。
在一些实施方式中,图像助理208从用户接收指令,以将图像发送给与由图1的第三方服务器120托管的第三方应用程序关联的人。该指令可以是口头的或者文本的。图像助理208可以确定与该人关联的联系简介。例如,用户可以声明:“与约翰共享夏威夷度假照相簿”。通过提供约翰的图像并且询问用户:“你的意思是约翰D吗?”,图像助理208可以确认细节。如果用户回答“是”,那么图像助理208可以询问:“你希望我如何共享照相簿?”用户可以指定发送图像的应用程序的类型,并且图像助理208可以基于联系简介为该人提供一个以上的图像。例如,如果用户回答“电子邮件给他一个照相簿的链接”,那么例如通过为保留用户电子邮件应用程序的第三方服务器120提供到照相簿的链接以及发送链接给约翰哈尔普林的电子邮件地址的指令,图像助理208可以识别约翰哈尔普林的电子邮件地址
在一些实施方式中,图像助理208使用语音命令为用户编辑图像。实例的编辑指令可以包括:“裁剪照片中的人”,“使这张照片变成黑白”,使它变亮”,以及“使它变暗”。在一些实施方式中,图像助理208可以订购与指定图像关联的产品。例如,用户可以指示图像助理208:“订购带有照片的8x10的海报,并且使它有黑色边框。把它和给萨曼塔的礼物卡送交到萨曼塔的住宅。”在一些实施方式中,图像助理208可以从用户接收请求,来采购与图像中的实体有关的物品,并且为用户采购物品。该请求可以是音频,诸如“采购图像中的夹克”或者该用户可以选择图像中的实体。其他选项可以包含订购上面带有图像的咖啡马克杯或者T恤。在一些实施方式中,图像助理208可以为用户订购图像中的物品。例如,用户可以指示图像助理208去订购图像中描绘的夹克。
用户界面模块210可以是可操作为为用户提供信息。在一些实施方式中,用户界面模块210可以是处理器235可执行的一组指令,以提供如下所述为用户提供信息的功能。在一些实施方式中,用户界面模块210可以被存储在计算装置200的存储器237中,并且可以被处理器235访问和执行。
用户界面模块210可以从图像应用程序103中的其他模块接收指令,以生成可操作为显示用户界面的图形数据。例如,用户界面模块210可以生成一个用户界面,该用户界面显示用户捕获的图像、用户可以输入图像搜索的搜索栏等等。在一些实施方式中,用户界面模块210可以显示图像,该图像包含图像中的实体周围的边界。响应于接收实体的边界之内的选择,用户界面模块210可以生成有关该实体的附加信息。
实例方法
图6A-6B是组织图像的实例方法的流程图。方法600可以由图像服务器101、用户装置115或者图像服务器101和用户装置115的组合,使用图1图示的图像应用程序103来实现。图像应用程序103可以包含图2图示的图像处理模块202、索引模块204、和搜索模块206。
在方框602,识别与用户关联的图像。该图像可以被存储在用户装置上或者存储在云。
在方框604,为图像确定一个以上的标签,其中:一个以上的标签是基于元数据、初级注释和次级注释中的至少一个,通过进行以下至少一个来确定初级注释:(1)进行图像识别,以确定图像中出现的一个以上的实体以及与图像关联的特征,和(2)基于与元数据有关的推断来进行元数据的转换,并且通过对于元数据和初级注释中的至少一个进行标签扩展来生成次级注释。
在方框606,生成一个以上的标签对于一个以上的置信度分数的映射,其中,一个以上的置信度分数指示一个以上的标签适用于图像的程度。在多个图像与用户关联的实施方式中,映射可以包含图像的图表,其中图像表示节点,并且节点之间的每个边缘是基于与对应的图像关联的一个以上的标签的。
在方框608,出现与用户的交互,以便获得用于分类图像的识别信息。例如,可以为用户提供一个请求,使用视觉和听觉要素来提供与图像有关的识别信息。可以为用户提供用户的多个照片的视觉资料以及询问用户该照片是否是用户的照片的音频。在方框610,通过将识别信息添加到该图像来更新映射。例如,包含该用户的图像可以被更新为带有“我”标签,以使用户可以请求“给我显示包含我的图像”。
虽然以特殊的顺序图示方框602到610,但是随着介入的步骤,其他顺序也是可能的。在一些实施方式中,一些方框可以被添加,跳过或者组合。
在以上描述中,为了说明,阐述了众多细节以便提供对说明书的彻底的了解。然而,对本领域的技术人员显而易见的是,本公开在没有这些细节的情况下也可以被实行。在有些情况下,以方框图形式显示结构和装置,以免使描述不清楚。例如,以上可以主要参考用户界面和特殊的硬件来描述实施方式。然而,实施方式可以适用于可以接收数据和命令的任何类型的计算装置,以及提供服务的任何外围装置。
说明书引用的“一些实施方式”或者“一些情况”意指连同实施方式或者情况一起描述的特殊的特性、结构或者特征可以被归入描述的至少一个实施方式。说明书中不同地方出现的短语“在一些实施方式中”并非必须全部涉及相同的实施方式。
以上具体实施方式的一些部分是按照对于计算机存储器之内的数据位的操作的算法和符号表示来呈现的。这些算法描述和表示是那些擅长于数据处理技术的人员使用的手段,以便最有效地将他们的工作的实质传达给其他本领域的技术人员。这里的算法通常被认为是通向期望结果的自相一致的步骤。步骤是需要对物理量进行物理操纵的那些步骤。通常,然而不一定,这些量采用能够被存储、传送、组合、比较以及其他操纵的电子的或者磁的数据的形式。已经证明有时为了方便,主要为了常见用途,引用这些数据作为比特、值、要素、符号、字符、术语、数量等等。
然而,应当记住的是,所有这些以及类似术语是与适当的物理量关联的,并且仅仅是适用于这些量的方便的标签。除非另外具体地指出,从如下讨论显而易见的,将领会到贯穿本描述,运用包含“处理”或者“计算”或者“运算”或者“确定”或者“显示”等等的术语的讨论,涉及计算机系统或者类似电子计算装置的动作和处理,计算机系统或者类似电子计算装置操纵并且转换被表示为计算机系统的寄存器之内的物理(电子)量,并且将它们存储为被类似地表示为计算机系统存储器或者寄存器或者其他这种信息存储器、传输装置、或者显示装置之内的物理量的其他数据。
说明书的实施方式还可以涉及处理器,该处理器进行以上描述的方法的一个以上的步骤。该处理器可以是通过存储在计算机中的计算机程序被选择性激活或者重新配置的专用的处理器。这种计算机程序可以被存储在非临时性计算机可读存储介质,非临时性计算机可读存储介质包括但不限于任何类型的盘或者适合于存储电子指令的任何类型的介质,任何类型的盘包括软盘、光盘、ROM、CD-ROM、磁盘、RAM、EPROM、EEPROM、磁卡或者光卡、包括带有非易失性存储器的USB键的闪存、或者任何适用于存储电子指令的介质,其各自被耦接到计算机系统总线。
说明书可以采用一些完全硬件实现、一些完全软件实现或者一些含有硬件和软件元件两者的实现形式。在一些实施方式中,以软件实现说明书,软件包括但并不限于固件、常驻软件、微编码等等。
此外,说明书可以采用可从计算机可用的或者计算机可读的介质访问的计算机程序产品的形式,计算机可用的或者计算机可读的介质通过或者连同计算机或者任何指令执行系统来提供供使用的程序代码。为了说明,计算机可用的或者计算机可读的介质可以是可以包含、存储、通信、传送或者输送供使用或者与指令执行系统、设备或装置连接的程序的任何设备,。
适合于存储或者执行程序代码的数据处理系统将包含经由系统总线直接或者间接被耦接到存储元件的至少一个处理器。存储元件可以包含程序代码的实际执行期间采用的局部存储器、大容量存储器、以及提供至少一些程序代码的临时存储器,以便减少执行期间必须从大容量存储器检索代码的次数。
进一步的实施方式被下面的实例概括:
实例1:一种计算机实现的方法,包括:识别与用户关联的图像,其中,图像被识别为被与用户关联的用户装置捕获的图像、被存储在与用户关联的用户装置上的图像、以及被存储在与用户关联的云存储器中的图像中的至少一个;为图像确定一个以上的标签,其中:一个以上的标签是基于元数据、初级注释以及次级注释中的至少一个,并且通过对元数据和初级注释中的至少一个进行标签扩展来生成次级注释;以及生成一个以上的标签对于一个以上的置信度分数的映射,其中,一个以上的置信度分数指示一个以上的标签适用于图像的程度。
实例2:实例1的方法,其中一个以上的标签是基于初级注释的,并且进一步包括:通过进行以下至少一个来生成初级注释:进行图像识别,以确定出现在图像中的一个以上的实体以及与图像关联的特征,和基于关于元数据的推断,进行元数据到初级注释的转换。
实例3:实例1或者2的方法,其中标签扩展包含基于层次分类法来扩展元数据和初级注释中的至少一个。
实例4:实例1到3中任一个的方法,其中标签扩展包含基于元数据和初级注释中的至少一个与次级注释的语义类似度和元数据和初级注释中的至少一个与次级注释的视觉类似度中的至少一个,来扩展元数据和初级注释中的至少一个。
实例5:实例1到4中任一个的方法,进一步包括:从所述用户接收用于与用户关联的图像的搜索查询,其中搜索查询包含一个以上的用户生成的搜索项;以及基于一个以上的用户生成的搜索项和映射,为自动完成一个以上的用户生成的搜索项的用户,生成一个以上的建议的搜索项。
实例6:实例1到5中任一个的方法,进一步包括:从用户接收用于与该用户关联的图像的搜索查询,其中搜索查询包含一个以上的用户生成的搜索项;以及检索附加信息以将一个以上的用户生成的搜索项转换成为分类搜索项,该分类搜索项包含日期、时间、经纬度坐标、高度和方向中的至少一个。
实例7:实例6的方法,进一步包括:通过确定分类搜索项和映射中的一个以上的标签之间的匹配度来识别搜索结果;和基于分类搜索项和一个以上的标签之间的匹配度,排列搜索结果。
实例8:实例1到7中任一个的方法,进一步包括:识别与位置关联的用户活动;以及将用户活动注释和与位置关联的图像进行关联。
实例9:实例1到8中任一个的方法,进一步包括:从用户接收用于与用户关联的图像的第一搜索查询;为用户提供匹配第一搜索查询的第一搜索结果;从用户接收第二搜索查询;基于第二搜索查询中的一个以上的项,确定第二搜索查询将被用于第一搜索结果;以及为用户提供从第一搜索结果筛选并且与第二搜索查询相匹配的第二搜索结果。
实例10:实例1到9中任一个的方法,其中:上述图像包含多个图像,上述映射包含图像的图表,以及图像表示节点,并且节点之间的每个边缘是基于与对应图像关联的一个以上的标签。
实例11:实例1到10中任一个的方法,进一步包括:从用户接收一个以上的用户生成的搜索项,用于与用户关联的图像;从映射识别包含图像的搜索结果;基于与每个对应图像关联的置信度分数,生成搜索结果的排列列表;以及将搜索结果的排列列表的至少一部分提供给用户。
实例12:一种计算机系统,包括耦接到内存的一个以上的处理器;图像处理模块,该图像处理模块被存储在内存中并且可被一个以上的处理器执行,该图像处理模块可操作为识别与用户关联的图像并且可操作为对于每个图像确定用于该图像的一个以上的标签,其中一个以上的标签是基于元数据、初级注释以及次级注释中的至少一个,并且通过对于元数据和初级注释中的至少一个进行标签扩展来生成次级注释;索引模块,索引模块被存储在内存中并且可被一个以上的处理器执行,索引模块可操作为生成一个以上的标签到一个以上的置信度分数的映射,其中,一个以上的置信度分数指示一个以上的标签适用于对应图像的程度;和检索模块,检索模块被存储在内存中并且可被一个以上的处理器执行,检索模块可操作为从用户接收用于与用户关联的图像的搜索查询,其中,搜索查询包含一个以上的用户生成的搜索项。
实例13:实例12的系统,其中搜索模块进一步可操作为:基于一个以上的用户生成的搜索项和映射,为自动完成一个以上的用户生成的搜索项的用户,生成一个以上的建议的搜索项。
实例14:实例12或者13的系统,其中搜索模块进一步可操作为:检索附加信息以将一个以上的用户生成的搜索项转换成为分类搜索项,分类搜索项包含日期、时间、经纬度坐标、高度和方向中的至少一个。
实例15:实例14的系统,其中搜索模块进一步可操作为:通过确定分类搜索项和映射中的一个以上的标签之间的匹配度来识别搜索结果;和基于分类搜索项和一个以上的标签之间的匹配度,排列搜索结果。
实例16:一种用计算机程序编码的非临时性计算机存储介质,计算机程序包括指令,当指令被一个以上的计算机执行时,指令使得一个以上的计算机进行操作,该操作包括:识别与用户关联的图像;对于图像中的每个图像,确定一个以上的标签,其中:一个以上的标签基于元数据、初级注释和次级注释中的至少一个,以及通过进行以下至少一个来生成初级注释:进行图像识别,以确定出现在图像中的一个以上的实体以及与图像关联的特征,以及基于推断进行元数据的转换,和基于推断进行元数据的转换;以及生成一个以上的标签对于一个以上的置信度分数的映射,其中,一个以上的置信度分数指示一个以上的标签适用于对应图像的程度。
实例17:实例16的计算机存储介质,其中上述指令进一步可操作为进行操作,该操作包括:对于包含实体的图像中的至少一个图像,确定实体的边界;以及响应于接收用户在图像中的实体的边界之内的选择,检索关于实体的附加信息。
实例18:实例16或者17的计算机存储介质,其中指令进一步可操作为进行操作,该操作包括:从用户接收用于附加信息的请求;确定请求是用于与图像中的一个图像中的实体有关的附加信息;响应于接收请求,从服务器托管的知识图谱获得附加信息;以及将附加信息提供给用户。
实例19:实例16到18中的一个的计算机存储介质,其中指令进一步可操作为进行操作,该操作包括:将一个以上的标签中的一个以上与图像的第一图像中的实体的边界进行关联;为用户提供第一图像;接收实体的边界之内的选择;确定对应于实体的一个以上的标签;为实体搜索附加信息;以及为用户提供附加信息。
实例20:实例16到19中的一个的计算机存储介质,其中指令进一步可操作为进行操作,该操作包括:从用户接收第一搜索查询,第一搜索查询用于与用户关联的一个以上的图像;为用户提供匹配第一搜索查询的第一搜索结果;从用户接收第二搜索查询;基于第二搜索查询中的一个以上的项,确定第二搜索查询将被用于第一搜索结果;以及为用户提供从第一搜索结果被筛选并且与第二搜索查询相匹配的第二搜索结果。
在以上讨论的系统收集个人信息的情形中,系统为用户提供一个机会来控制程序或者特性是否收集用户信息(例如,关于用户社交网络、社交动作或者活动、职业、用户爱好,或者用户当前位置的信息),或者控制是否和/或如何从可能与用户更加有关的服务器接收内容。此外,某个数据在被存储或者使用之前可以以一个以上的方式被处理,以便去除个人可识别信息。例如,可以处理用户的身份,以便对于该用户,没有个人可识别信息可以被确定,或者位置信息被获得之处的用户的地理位置(诸如城市、邮政编码或者州级别)可以被广义化,以便无法确定用户的特殊位置。因此,用户可以控制如何收集关于用户的信息以及服务器如何使用信息。

Claims (17)

1.一种计算机实现的方法,其特征在于,所述方法包括:
识别与用户关联的图像;
为每个所述图像确定一个以上的标签,其中,所述一个以上的标签包括从元数据、初级注释、次级注释或其组合的群组中选择的至少一个;
生成所述一个以上的标签对于一个以上的置信度分数的映射,其中,所述一个以上的置信度分数指示所述一个以上的标签适用于对应图像的程度;
从所述用户接收搜索查询,所述搜索查询包含与所述用户相关的所述图像的两个以上的用户生成的搜索项,其中,所述两个以上的用户生成的搜索项包括景点和所述景点与地标的接近度;
从所述两个以上的用户生成的搜索项推断附加信息,并检索所述附加信息,以将所述两个以上的用户生成的搜索项中的每一转换成为两个以上的分类搜索项,其中,所述分类搜索项对应于基于所述景点与所述地标的所述接近度的位置的经纬度坐标以及从日期、时间、高度、方向或其组合的群组中选择的至少一个;
通过确定所述两个以上的分类搜索项和所述映射中的所述一个以上的标签之间的匹配度来识别搜索结果;和
基于指示所述一个或多个标签适用于每个对应图像的程度的所述一个或多个置信度分数,排列所述搜索结果。
2.如权利要求1所述的方法,其特征在于,所述一个以上的标签是基于所述初级注释,并且所述方法进一步包括:
通过进行以下至少一个来生成所述初级注释:
进行图像识别,以确定出现在所述图像中的实体或与所述图像关联的特征,或
基于关于所述元数据的推断,进行所述元数据到所述初级注释的转换。
3.如权利要求1所述的方法,其特征在于,
通过对于所述元数据或所述初级注释进行标签扩展来生成所述次级注释;以及
所述标签扩展包含基于层次分类法来扩展所述元数据或所述初级注释。
4.如权利要求3所述的方法,其特征在于,所述标签扩展包含基于所述元数据或所述初级注释与所述次级注释的语义类似度以及所述元数据或所述初级注释与所述次级注释的视觉类似度中的至少一个,来扩展所述元数据或所述初级注释。
5.如权利要求1所述的方法,其特征在于,进一步包括:
基于所述两个以上的用户生成的搜索项和所述映射,为自动完成所述两个以上的用户生成的搜索项的所述用户,生成一个以上的建议的搜索项。
6.如权利要求1所述的方法,其特征在于,所述两个以上的用户生成的搜索项进一步包括事件的名称;并且
所述两个以上的用户生成的搜索项包括与所述事件相关的日期。
7.如权利要求1所述的方法,其特征在于,检索所述附加信息以将所述两个以上的用户生成的搜索项转换成为分类搜索项包含:反复查询第三方服务器,以确定与所述两个以上的用户生成的搜索项对应的数据类型。
8.如权利要求1所述的方法,其特征在于,进一步包括:
识别与所述位置关联的用户活动;以及
将用户活动注释与一个或多个所述图像进行关联,所述一个或多个图像与所述位置关联。
9.如权利要求1所述的方法,其特征在于,所述搜索查询是第一搜索查询,所述搜索结果是第一搜索结果,并且进一步包括:
从所述用户接收第二搜索查询;
基于所述第二搜索查询中的一个以上的项,确定所述第二搜索查询将被用于所述第一搜索结果;以及
为所述用户提供从所述第一搜索结果过滤并且与所述第二搜索查询相匹配的第二搜索结果。
10.如权利要求1所述的方法,其特征在于,
所述映射包含所述图像的图表,以及
由所述图像表示节点,并且所述节点之间的每个边缘是基于与对应图像关联的所述一个以上的标签的。
11.如权利要求10所述的方法,其特征在于,进一步包括:
将所述搜索结果的排列列表的至少一部分提供给所述用户。
12.一种计算机系统,其特征在于,包括:
耦接到内存的一个以上的处理器;
图像处理模块,所述图像处理模块存储在所述内存中并且可被所述一个以上的处理器执行,所述图像处理模块可操作为识别与用户关联的图像,并且可操作为对于每个图像,确定用于所述图像的一个以上的标签,其中,所述一个以上的标签包括从元数据、初级注释、次级注释或其组合的群组中选择的至少一个;
索引模块,所述索引模块被存储在所述内存中并且可被所述一个以上的处理器执行,所述索引模块可操作为生成所述一个以上的标签到一个以上的置信度分数的映射,其中,所述一个以上的置信度分数指示所述一个以上的标签适用于对应图像的程度;和
搜索模块,所述搜索模块存储在所述内存中,并且可被所述一个以上的处理器执行,所述搜索模块可操作为:从所述用户接收搜索查询,其中所述搜索查询包含与所述用户相关的所述图像的两个以上的用户生成的搜索项,其中,所述两个以上的用户生成的搜索项包括景点和所述景点与地标的接近度;从所述两个以上的用户生成的搜索项推断附加信息,并检索所述附加信息,以将所述两个以上的用户生成的搜索项中的每一转换成为两个以上的分类搜索项,其中,所述分类搜索项对应于基于所述景点与所述地标的所述接近度的位置的经纬度坐标以及从日期、时间、高度、方向或其组合的群组中选择的至少一个;通过确定所述两个以上的分类搜索项和所述映射中的所述一个以上的标签之间的匹配度来识别搜索结果,和基于指示所述一个或多个标签适用于每个对应图像的程度的所述一个或多个置信度分数,排列所述搜索结果。
13.一种用计算机程序编码的非临时性计算机存储介质,其特征在于,所述计算机程序包括指令,当所述指令被一个以上的计算机执行时,使得所述一个以上的计算机进行操作,所述操作包括:
识别与用户关联的图像;
对于所述图像中的每个图像,确定一个以上的标签,其中:
所述一个以上的标签包括从元数据、初级注释、次级注释或其组合的群组中选择的至少一个;以及
生成所述一个以上的标签对于一个以上的置信度分数的映射,其中,所述一个以上的置信度分数指示所述一个以上的标签适用于对应图像的程度;
从所述用户接收搜索查询,其中所述搜索查询包含与所述用户相关的所述图像的两个以上的用户生成的搜索项,其中,所述两个以上的用户生成的搜索项包括景点和所述景点与地标的接近度;
从所述两个以上的用户生成的搜索项推断附加信息,并检索所述附加信息,以将所述两个以上的用户生成的搜索项中的每一转换成为两个以上的分类搜索项,其中,所述分类搜索项对应于基于所述景点与所述地标的所述接近度的位置的经纬度坐标以及从日期、时间、高度、方向或其组合的群组中选择的至少一个;
通过确定所述两个以上的分类搜索项和所述映射中的所述一个以上的标签之间的匹配度来识别搜索结果;和
基于指示所述一个或多个标签适用于每个对应图像的程度的所述一个或多个置信度分数,排列所述搜索结果。
14.如权利要求13所述的计算机存储介质,其特征在于,所述指令进一步可操作为进行操作,所述操作包括:
通过进行图像识别以确定出现在一个以上的所述图像中的实体来生成所述初级注释;
对于包含所述实体的所述图像中的至少一个图像,确定所述实体的边界;以及
响应于接收所述用户在至少一个所述图像中的所述实体的所述边界之内的选择,检索关于所述实体的附加信息。
15.如权利要求13所述的计算机存储介质,其特征在于,所述指令进一步可操作为进行操作,所述操作包括:
从所述用户接收用于附加信息的请求;
确定所述请求是用于与所述图像中的一个图像中的实体有关的附加信息;
响应于接收所述请求,从服务器托管的知识图谱获得所述附加信息;以及
将所述附加信息提供给所述用户。
16.如权利要求13所述的计算机存储介质,其特征在于,所述指令进一步可操作为进行操作,所述操作包括:
将所述一个以上的标签中的一个或多个与所述图像的第一图像中的实体的边界进行关联;
为所述用户提供所述第一图像;
接收所述实体的所述边界之内的选择;
确定对应于所述实体的一个以上的标签;
为所述实体搜索附加信息;以及
为所述用户提供所述附加信息。
17.如权利要求13所述的计算机存储介质,其特征在于,所述搜索查询是第一搜索查询,所述搜索结果是第一搜索结果,并且所述指令进一步可操作为进行操作,所述操作包括:
从所述用户接收第二搜索查询,
基于所述第二搜索查询中的一个以上的项,确定所述第二搜索查询将被用于所述第一搜索结果;以及
为所述用户提供从所述第一搜索结果过滤并且与所述第二搜索查询相匹配的第二搜索结果。
CN201680053325.3A 2015-12-28 2016-12-22 为与用户关联的图像生成标签 Active CN108431801B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/980,790 US20170185670A1 (en) 2015-12-28 2015-12-28 Generating labels for images associated with a user
US14/980,790 2015-12-28
PCT/US2016/068426 WO2017117027A1 (en) 2015-12-28 2016-12-22 Generating labels for images associated with a user

Publications (2)

Publication Number Publication Date
CN108431801A CN108431801A (zh) 2018-08-21
CN108431801B true CN108431801B (zh) 2023-04-14

Family

ID=57799864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680053325.3A Active CN108431801B (zh) 2015-12-28 2016-12-22 为与用户关联的图像生成标签

Country Status (5)

Country Link
US (1) US20170185670A1 (zh)
EP (1) EP3398085A1 (zh)
KR (1) KR102092763B1 (zh)
CN (1) CN108431801B (zh)
WO (1) WO2017117027A1 (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9330167B1 (en) 2013-05-13 2016-05-03 Groupon, Inc. Method, apparatus, and computer program product for classification and tagging of textual data
US20170208069A1 (en) 2016-01-19 2017-07-20 Regwez, Inc. Masking restrictive access control in a networked environment
US10235387B2 (en) 2016-03-01 2019-03-19 Baidu Usa Llc Method for selecting images for matching with content based on metadata of images and content in real-time in response to search queries
US10289700B2 (en) * 2016-03-01 2019-05-14 Baidu Usa Llc Method for dynamically matching images with content items based on keywords in response to search queries
US10275472B2 (en) * 2016-03-01 2019-04-30 Baidu Usa Llc Method for categorizing images to be associated with content items based on keywords of search queries
US10346466B2 (en) * 2016-04-18 2019-07-09 International Business Machines Corporation Methods and systems of personalized photo albums based on social media data
KR101796506B1 (ko) * 2016-07-20 2017-11-14 엔에이치엔엔터테인먼트 주식회사 기종 정보를 활용한 이미지 검색 결과 제공 방법 및 시스템
US10643142B2 (en) * 2016-08-02 2020-05-05 Target Brands Inc. Search term prediction
US10296535B2 (en) * 2016-08-23 2019-05-21 Baidu Usa Llc Method and system to randomize image matching to find best images to be matched with content items
US10565255B2 (en) * 2016-08-24 2020-02-18 Baidu Usa Llc Method and system for selecting images based on user contextual information in response to search queries
US11562125B1 (en) * 2017-02-03 2023-01-24 Spencer Alan Rathus System and method of annotating transmitted and posted images
US10795938B2 (en) 2017-03-13 2020-10-06 Target Brands, Inc. Spell checker
US10360257B2 (en) * 2017-08-08 2019-07-23 TuSimple System and method for image annotation
CN110019903A (zh) 2017-10-10 2019-07-16 阿里巴巴集团控股有限公司 图像处理引擎组件的生成方法、搜索方法及终端、系统
KR102387767B1 (ko) * 2017-11-10 2022-04-19 삼성전자주식회사 사용자 관심 정보 생성 장치 및 그 방법
US10148525B1 (en) 2018-04-13 2018-12-04 Winshuttle, Llc Methods and systems for mitigating risk in deploying unvetted data handling rules
US20190340255A1 (en) * 2018-05-07 2019-11-07 Apple Inc. Digital asset search techniques
US11243996B2 (en) * 2018-05-07 2022-02-08 Apple Inc. Digital asset search user interface
US11048734B1 (en) 2018-08-20 2021-06-29 Pinterest, Inc. Auto-completion based on content similarities
CN109345515B (zh) * 2018-09-17 2021-08-17 代黎明 样本标签置信度计算方法、装置、设备及模型训练方法
EP3641275A1 (de) * 2018-10-18 2020-04-22 Siemens Aktiengesellschaft Verfahren, vorrichtung und computerprogramm zur automatischen verarbeitung von datenbezeichnern
CN109257764B (zh) * 2018-10-24 2022-02-22 北京小米移动软件有限公司 用户画像数据处理方法及装置
KR102302631B1 (ko) * 2018-10-30 2021-09-16 제노테크 주식회사 인공지능 서비스를 위한 연결된 데이터 아키텍처 시스템 및 이에 대한 제어방법
KR102221673B1 (ko) * 2018-10-31 2021-03-02 순천향대학교 산학협력단 사용자 경험에 기반한 추상화 이미지를 이용한 자기인증 서비스 시스템 및 그것의 동작 방법
CN109857840A (zh) * 2018-11-26 2019-06-07 珠海格力电器股份有限公司 一种物品信息查询方法、装置、存储介质及终端
US20200192932A1 (en) * 2018-12-13 2020-06-18 Sap Se On-demand variable feature extraction in database environments
JP2020144612A (ja) * 2019-03-06 2020-09-10 日本電信電話株式会社 ラベリング支援方法、ラベリング支援装置及びプログラム
CN109918513B (zh) * 2019-03-12 2023-04-28 北京百度网讯科技有限公司 图像处理方法、装置、服务器及存储介质
KR20210012730A (ko) 2019-07-26 2021-02-03 삼성전자주식회사 인공지능 모델의 학습 방법 및 전자 장치
US11475358B2 (en) 2019-07-31 2022-10-18 GE Precision Healthcare LLC Annotation pipeline for machine learning algorithm training and optimization
CN110532944A (zh) * 2019-08-28 2019-12-03 河北冀云气象技术服务有限责任公司 一种智能图像识别天气现象系统及方法
WO2021092935A1 (zh) * 2019-11-15 2021-05-20 深圳海付移通科技有限公司 基于图像数据的消息推送方法、设备及计算机存储介质
US11537824B2 (en) * 2020-02-19 2022-12-27 Lenovo (Singapore) Pte. Ltd. Categorization of photographs
KR102364881B1 (ko) * 2020-03-24 2022-02-18 주식회사 에스아이에이 전문가 모사 모델 학습 방법 및 그 학습을 위한 장치
CN111145314B (zh) * 2020-04-03 2020-07-24 速度时空信息科技股份有限公司 一种结合地名标注的扫描电子地图地名符号的提取方法
KR102408152B1 (ko) * 2020-04-20 2022-06-15 (주)제타미디어 인공지능 기반의 히스토리 데이터 관리 방법
US11328713B1 (en) * 2020-05-18 2022-05-10 Amazon Technologies, Inc. On-device contextual understanding
WO2021237731A1 (zh) * 2020-05-29 2021-12-02 西门子股份公司 一种目标检测方法、装置和计算机可读介质
US11270062B2 (en) 2020-07-20 2022-03-08 Labelbox, Inc. System and method for automated content annotation workflow
US11361152B2 (en) * 2020-07-20 2022-06-14 Labelbox, Inc. System and method for automated content labeling
CN114578999A (zh) * 2020-11-16 2022-06-03 深圳市万普拉斯科技有限公司 一种图像分享的方法、装置及终端设备
CN113806550A (zh) * 2021-04-15 2021-12-17 京东科技控股股份有限公司 个性化知识图谱的生成方法、装置及计算机设备
US20220382811A1 (en) * 2021-06-01 2022-12-01 Apple Inc. Inclusive Holidays
US11914635B2 (en) * 2021-11-19 2024-02-27 Adobe Inc. Performing image search based on user input using neural networks
WO2024087202A1 (zh) * 2022-10-28 2024-05-02 华为技术有限公司 一种搜索方法、模型训练方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101387938A (zh) * 2007-05-09 2009-03-18 捷讯研究有限公司 用于选择照片标签的用户接口
WO2009116049A2 (en) * 2008-03-20 2009-09-24 Vizi Labs Relationship mapping employing multi-dimensional context including facial recognition
CN103069415A (zh) * 2010-07-02 2013-04-24 埃森哲环球服务有限公司 用于图像处理的计算机实施的方法、计算机程序产品和计算机系统
US8873867B1 (en) * 2012-07-10 2014-10-28 Google Inc. Assigning labels to images

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8031170B2 (en) * 2007-05-09 2011-10-04 Research In Motion Limited User interface for selecting a photo tag
US9143573B2 (en) * 2008-03-20 2015-09-22 Facebook, Inc. Tag suggestions for images on online social networks
US9135277B2 (en) * 2009-08-07 2015-09-15 Google Inc. Architecture for responding to a visual query
US8762384B2 (en) 2010-08-19 2014-06-24 Sap Aktiengesellschaft Method and system for search structured data from a natural language search request
US20120158686A1 (en) 2010-12-17 2012-06-21 Microsoft Corporation Image Tag Refinement
US20130046648A1 (en) 2011-08-17 2013-02-21 Bank Of America Corporation Shopping list system and process
US9547647B2 (en) * 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
TWI550419B (zh) * 2013-12-30 2016-09-21 宏達國際電子股份有限公司 用於經由主動學習來搜索相關影像的方法、電子裝置及用戶介面
US9813931B2 (en) * 2014-07-29 2017-11-07 University Of Ottawa Adaptive packet preamble adjustment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101387938A (zh) * 2007-05-09 2009-03-18 捷讯研究有限公司 用于选择照片标签的用户接口
WO2009116049A2 (en) * 2008-03-20 2009-09-24 Vizi Labs Relationship mapping employing multi-dimensional context including facial recognition
CN103069415A (zh) * 2010-07-02 2013-04-24 埃森哲环球服务有限公司 用于图像处理的计算机实施的方法、计算机程序产品和计算机系统
US8873867B1 (en) * 2012-07-10 2014-10-28 Google Inc. Assigning labels to images

Also Published As

Publication number Publication date
KR102092763B1 (ko) 2020-03-24
KR20180041204A (ko) 2018-04-23
CN108431801A (zh) 2018-08-21
WO2017117027A1 (en) 2017-07-06
WO2017117027A4 (en) 2017-08-24
EP3398085A1 (en) 2018-11-07
US20170185670A1 (en) 2017-06-29

Similar Documents

Publication Publication Date Title
CN108431801B (zh) 为与用户关联的图像生成标签
CN108431802B (zh) 组织与用户关联的图像
US11947588B2 (en) System and method for predictive curation, production infrastructure, and personal content assistant
CN109074358B (zh) 提供与用户兴趣有关的地理位置
US20240004934A1 (en) Multi-modal virtual experiences of distributed content
US20170270222A1 (en) Organizing search results based upon clustered content
US20180035074A1 (en) System, Method and Computer Program Product for Processing Image Data
US20150081703A1 (en) Providing labels for photos
JP2015507290A (ja) 体験共有システムおよび方法
CN105874452B (zh) 从社交摘要中标记兴趣点
US20160203214A1 (en) Image search result navigation with ontology tree
AU2018201311B2 (en) A system and method for sorting digital images
WO2015133009A1 (ja) 情報処理システム、情報処理方法、および情報処理プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant