CN105512164B

CN105512164B - 使用语音标签管理图像的方法和装置

Info

Publication number: CN105512164B
Application number: CN201510661848.3A
Authority: CN
Inventors: 安起模
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-10-14
Filing date: 2015-10-14
Publication date: 2019-04-23
Anticipated expiration: 2035-10-14
Also published as: EP3010219B1; KR20160043677A; US20160104511A1; EP3010219A2; CN105512164A; WO2016060400A1; US20180204602A1; EP3010219A3; US9916864B2; CN110083730B; CN110083730A; KR102252072B1; US10347296B2

Abstract

提供了一种电子设备。电子设备包括：语音输入模块，其从外部接收语音以生成语音数据；存储器，其存储一个或多个图像或视频；以及处理器，其电连接到语音输入模块和存储器。存储器包括指令，所述指令当由处理器运行时使得电子设备将语音数据，基于语音数据的第一元数据信息，从语音数据和/或第一元数据信息生成的第二元数据信息中的至少一个与第二图像或视频链接。

Description

使用语音标签管理图像的方法和装置

相关申请的交叉引用

本申请要求2014年10月14日向韩国知识产权局提交的第10-2014-0138108号韩国专利申请的权益，其全部公开通过引用并入本文。

技术领域

本公开涉及显示控制方法和电子设备。

背景技术

最近可用的电子设备，诸如智能电话或平板计算机，一般配备有相机。这样的电子设备中的这些相机的性能相当于或者好于传统的数字单反(DSRL)或数字相机。例如，三星Galaxy S5配备有支持诸如自动聚焦(AF)、焦外对焦(out-focusing)、光学图像稳定器(OIS)等的众多功能，并且包括ISOCELL型的1千6百万像素的后置相机。

这样的电子设备的相机提供高质量的照片，而不需要用户具备高超的照片拍摄技术，而且用户利用相机的情况的数目迅速增加，因为使用相机变得更简单(例如，即使在锁定的电子设备的主屏幕上也可以使用相机功能)。使用这样的相机获得的照片与标签信息一起存储。

捕获的照片(或图像)可以以图像文件的形式存储。使用相片管理应用，诸如图库应用，用户以文件夹为单位排列图像，或者按照捕获的日期、文件大小或分辨率的顺序来排列图像。然而，如果所捕获的照片的数目迅速增加，则使用传统的方法在大量照片中搜索期望的照片是低效的。

发明内容

本公开的一方面提供了一种电子设备。该电子设备可以将语音标签输入到原始图像，并且可以将相同的标签分配到与原始图像类似的其他图像，从而允许用户使用语音标签有效地搜索期望照片。

根据本公开的一方面，一种电子设备可以包括：语音输入模块，其获得关于特定图像的语音数据；以及控制模块，其分析语音数据以确定特定图像的元数据信息。此外，控制模块可以被配置为相对于多个图像当中的满足相对于特定图像的特定参考或所确定的元数据信息的至少一个关联图像，将语音数据注册为语音标签。

根据以下结合附图、公开了本公开的示例性实施例的详细描述，本公开的其它方面、优点和显著特征对于本领域技术人员将变得明显。

附图说明

通过下面结合附图的描述，本公开的某些示例性实施例的以上和其他方面、特征和优点将变得更加明显，在附图中：

图1是示出根据本公开的各种实施例的网络环境中的电子设备的图；

图2是示意性地示出示出根据本公开的各种实施例的用于注册语音标签的用户界面的图；

图3是示意性地示出根据本公开的各种实施例的元数据信息和使用元数据信息的标签注册过程的图；

图4是示意性地示出根据本公开的各种实施例的控制关联图像的数目的方法的图；

图5是示意性地示出根据本公开的各种实施例的用于搜索具有语音标签的图像的方法的图；

图6是示意性地示出根据本公开的各种实施例的语音标签注册方法的图；

图7是示意性地示出根据本公开的各种实施例的使用参数优先级来确定关联图像的方法的图；

图8是示意性示出根据本公开的各种实施例的使用参数的权重确定关联图像的方法的图；

图9是示意性地示出根据本发明的各种实施例的语音标签注册方法的图；

图10是示意性地示出根据本公开的各种实施例的在存储在电子设备和服务器上的图像中注册语音标签的方法的图；

图11是示出根据本公开的各种实施例的电子设备的框图；以及

图12示出了根据本公开的各种实施例的程序模块的框图。

贯穿附图，应当注意，相似的参考数字用于描述相同的或相似的元件、特征和结构。

具体实施方式

可以参照附图描述本公开的各种实施例。因此，本领域技术人员将意识到，对于这里描述的各种实施例的修改、等同和/或替换可以以各种方式做出而不脱离本公开的范围和精神。相对于附图的描述，相同的参照标记可以标记相同的组件。

在这里所公开的本公开中，在这里使用的表述“具有”、“可以具有”、“包括”以及“包含”、“可以包括”、“可以包含”指示相应特征(例如，诸如数字值，功能，操作，组件的元素)的存在，但是不排除附加特征的存在。

在这里所公开的本公开中，在这里使用的表述“A或B”、“A或/和B中的至少一个”或者“A或/和B中的一个或多个”等可以包括相关联的列出项目的一个或多个的任意或所有组合。例如，术语“A或B”、“A和B中的至少一个”或者“A或B中的至少一个”可以指示所有的(1)包括至少一个A的情况,(2)包括至少一个B的情况，或(3)至少一个A和至少一个B二者的情况。

在这里使用的诸如“第一”、“第二”等的术语可以涉及本公开的各种实施例的各种元件，但是不限制这些元件。例如，这样的术语不限制元件的顺序和/或优先级。此外，这样的术语可以被用来将一个元件与另一个元件区分开。例如，“第一用户设备”和“第二用户设备”指示不同的用户设备。例如，第一元件可以被称为第二元件，而且类似地，第二元件可以被称为第一元件，而不脱离本公开的范围。

将理解的是，当元件(例如，第一元件)被称为“(操作地或通信地)与另一元件(例如，第二元件)耦接/耦接到”、或者“连接到”另一元件(例如，第二元件)时，所述元件可以直接与所述另一组件耦接/耦接到所述另一组件或者连接到所述另一组件，或者可以存在居间元件(例如，第三元件)。相比之下，当元件(例如，第一元件)被称为“直接与另一元件(例如，第二元件)耦接/耦接到”或“直接连接到”另一元件(例如，第二元件)时，应该理解的是，不存在居间元件(例如，第三元件)。

例如，根据情况，在这里使用的表述“配置为”可以被用于表述“适合于”、“具有能力以”、“设计为”、“适于”、“被做出以”或“能够”。术语“配置为”可以不仅仅意味着在硬件方面“具体设计为”。而是，表述“配置为……的设备”可以意味着设备“能够”与另一设备或其他组件一起操作。例如，“配置为执行A，B和C的处理器”可以意味着用于执行相应操作的专用处理器(例如，嵌入式处理器)，或者可以通过运行存储在存储器中的一个或多个软件程序来执行相应操作的通用处理器(例如，中央处理器(CPU)或应用处理器)。

本说明书中使用的术语被用于描述本公开的特定实施例，而且并非旨在限制本公开的范围。单数形式的术语也旨在包括复数形式，除非上下文清楚地表明并非如此。除非这里另有定义，否则本文使用的所有术语(包括技术术语或科学术语)可以具有本领域普通技术人员通常理解的含义。还讲理解的是，在本发明的各个实施例中，如在词典中定义的和通常使用的术语应该被解释为具有与它们在相关领域中通常具有的含义，而且不应理想化地或过分形式化地对其进行解释，除非在这里明确地如此定义。在一些情况下，即使术语是在本说明书中定义的术语，但是它们可以不被解释为排除本公开的实施例。

根据本公开的各个实施例的电子设备可以包括智能电话、平板个人计算机(PC)、移动电话、视频电话、电子书阅读器、台式PC、膝上型PC、上网本计算机、工作站、服务器、个人数字助理(PDA)、便携式多媒体播放器(PMP)、运动图像专家组(MPEG-1或MPEG-2)音频层3(MP3)播放器、移动医疗设备、相机、可穿戴设备(例如，头戴式设备(HMD)，诸如智能眼镜)、电子服装、电子手镯、电子项链、电子配件、电子纹身、智能手表等中的至少一个。

根据本公开的各种实施例，电子设备可以是智能家电。智能家电可以包括电视(TV)、数字多功能盘(DVD)播放器、音频播放器、冰箱、空调、吸尘器、烤箱、微波炉、洗衣机、干燥器、空气净化器、机顶盒、TV盒(例如，Samsung HomeSync^TM、Apple TV^TM、或GoogleTV^TM)、游戏控制台(例如，Xbox^TM或PlayStation^TM)、电子字典、电子钥匙、照相摄像机、电子相框等中的至少一个。

根据本公开的各种实施例，电子设备可以包括医疗设备(例如，各种便携式医疗测量设备(例如血糖监视设备、心跳测量设备、血压测量设备、体温测量设备等)，磁共振血管成像(MRA)、磁共振成像(MRI)、计算机断层摄影(CT)、扫描器、和超声波设备)、导航设备、全球定位系统(GPS)接收器、事件数据记录器(EDR)、飞行数据记录器(FDR)、车载信息娱乐设备、用于船只的电子设备(例如，导航系统和陀螺仪)、航空电子设备(avionics)、安全设备、车载单元、或工业或家用机器人、自动取款机(ATM)、销售终端(POS)、物联网(IoT)设备(例如，灯泡、各种传感器、电或气表、自动喷水设备、火灾警告器、恒温器(thermostat)、路灯、面包机(toaster)、健身器材、热水箱、加热器、锅炉等)中的至少一个。

根据本公开的另一实施例，电子设备也可以包括家具或建筑物/结构、电子板、电子签名接收设备、投影仪或者各种测量仪器(例如，水表、电表、气表或测波表等)中的至少一个。

根据本公开的实施例的电子设备可以是上述设备的一个或多个组合。此外，根据本公开的某些实施例，电子设备可以是柔性电子设备。此外，根据本公开的各种实施例的电子设备不限于上面列出的设备，并且可以根据技术的发展而包括新的电子设备。

下文中，将参照附图描述根据本公开的实施例的电子设备。在这里使用的术语“用户”可以指使用电子设备的人，或者可以指使用电子设备的设备(例如人工智能电子设备)。

图1是示出根据本公开的各种实施例的网络环境中的电子设备的图。

参照图1，示出的是根据本公开的各种实施例的网络环境100中的电子设备101。电子设备101可以包括总线110、处理器120、存储器130、输入/输出(I/O)接口150、显示器160、和通信接口170。电子设备101还可以包括拍摄模块180。根据本公开的实施例，电子设备101可以不包括上述组件中的一些，或者可以进一步包括其他(多个)组件。

总线110可以互连上述组件：总线110、处理器120、存储器130、输入/输出(I/O)接口150、显示器160、通信接口170、和拍摄模块180，并且可以是用于在上述组件之间传送通信(例如，控制消息和/或数据)的电路。

处理器120可以包括一个或多个中央处理单元(CPU)、应用处理器(AP)或通信处理器(CP)。处理器120可以执行，例如，与电子设备101的至少一个其它组件的控制或通信相关联的数据处理或操作。根据本公开的各种实施例，处理器120可以被理解为控制模块，并且可以包括图形处理模块(例如，图形处理单元(GPU))。处理器120还可以包括子模块，例如用于分析语音数据的分析模块。

存储器130可以包括易失性存储器和/或非易失性存储器。存储器130可以存储与电子设备101的至少一个其它组件相关联的指令或数据。根据本公开的各种实施例，存储器130存储软件和/或程序140。例如，存储器130可以包括内核141、中间件143、应用编程接口(API)145、和/或应用(或应用程序)147。内核141、中间件143或API 145中的至少一部分可以被称为“操作系统(OS)”。

根据本公开的各种实施例，存储器130可以存储通过拍摄模块180捕获的或通过通信接口170获得的多个照片或视频。此外，存储器130可以包括用于编辑或管理多个图像或视频的应用147(例如，图库应用)。

内核141可以控制或管理系统资源(例如，总线110、处理器120、存储器130等)，该系统资源被用于运行其他程序(例如，中间件143、API 145或应用程序147)的操作或功能。另外，内核141可以提供允许中间件143、API 145、或者应用程序147访问电子设备101的分立组件来控制或管理系统资源的接口。

中间件143可以执行中介角色，以使得API 145或应用程序147与内核141通信以交换数据。

此外，中间件143可以根据优先级来处理从应用程序147接收的任务请求。例如，中间件143可以向应用程序147中的至少一个应用程序分配使得可以使用电子设备101的系统资源(例如，总线110、处理器120、存储器130等)的优先级。例如，中间件143可以根据分配给至少一个应用程序的优先级来处理所述一个或多个任务请求，以使得可以对一个或多个任务请求执行调度或负载平衡。

API 145可以是接口，应用程序147通过该接口控制从内核141或中间件143提供的功能，而且API 145可以包括例如，用于文件控制、窗口控制、图像处理、字符控制等的至少一个接口或功能(例如，指令)。

I/O接口150可以将从用户或其他外部设备输入的指令或数据发送到电子设备101的(多个)其他组件。另外，I/O接口150可以将从电子设备101的(多个)其他组件接收到的指令或数据输出给用户或其他外部设备。

I/O接口150可以包括用于获得从用户输入的语音的语音输入模块152。语音输入模块152可以是，例如，麦克风。

显示器160可以包括，例如，液晶显示器(LCD)、发光二极管(LED)显示器、有机发光二极管(OLED)显示器、或微机电系统(MEMS)显示器、或电子纸显示器。例如，显示器160可以显示各种内容(例如，文本、图像、视频、图标、符号等等)给用户。显示器160可以包括触摸屏，并且例如可以接收通过使用电子笔或用户的身体部位输入的触摸、手势、接近或悬停。

通信接口170可以可以在电子设备101和外部电子设备(例如，第一外部电子设备102、第二外部电子设备104、或服务器106)之间建立通信。例如，通信接口170可以通过无线通信或有线通信连接到网络162，以便于与外部设备(例如，第一外部电子设备102、第二外部电子设备104、或服务器106)进行通信。

例如，无线通信可以包括作为蜂窝通信协议的LTE、LTE-A、CDMA、WCDMA、UMTS、WiBro、GSM等中的至少一个。此外，例如，无线通信可以包括局域网164。例如，局域网164可以包括无线保真(Wi-Fi)、蓝牙、近场通信(NFC)、全球定位系统(GPS)等中的至少一个。例如，有线通信可以包括通用串行总线(USB)、高清晰度多媒体接口(HDMI)、推荐标准232(RS-232)、普通老式电话服务(POTS)中的至少一个。例如，网络162可以包括电信网络，例如，计算机网络(例如，LAN或WAN)、互联网、和电话网络中的至少一个。

第一外部电子设备102和第二外部电子设备104中的每一个可以是与电子设备101的类型不同或相同的设备。根据本公开的实施例，服务器106可以包括一组一个或多个服务器。根据本公开的各种实施例，电子设备101将要执行的全部或部分操作可以通过另外的一个或多个电子设备(例如，外部电子设备102或104或服务器106)来运行。根据本公开的实施例，在电子设备101自动地或响应于请求而运行任何功能或服务的情况下，电子设备101可以不在内部执行功能或服务，而是可替换地或附加地，可以在另一设备(例如，外部电子设备102或104或服务器106)处请求与电子设备101相关的功能的至少一部分。另一电子设备(例如，外部电子设备102或104或服务器106)可以运行所请求的功能或附加功能，并且可以将运行结果发送到电子设备101。电子设备101可以使用接收到的结果来提供所请求的功能或服务，或者可以附加地处理接收到的结果以提供所请求的功能或服务。为此，例如，可以使用云计算、分布式计算、或客户端-服务器计算。

图2是示意性地示出示出根据本公开的各种实施例的用于注册语音标签的用户界面(UI)的图。

语音标签可以使用各种方法来注册。下面，将描述与拍摄操作有关的注册语音标签的方法，以及通过用户的选择来注册语音标签的方法。然而，本公开的范围和精神可以不限于此。本公开可以以各种方式修改或改变，而不限于在此公开的方法。

电子设备(例如，电子设备101)的用户可以使用安装在电子设备上的相机(例如，拍摄模块180)来拍照对象。例如，参照屏幕210，用户可以使用在屏幕210上显示的至少一个按钮来调整期望拍摄模式，并且可以在特定按钮(例如，相机形状的按钮)上提供触摸输入来捕获对象。

根据本公开的各种实施例，如果做出拍摄，则电子设备101可以提供包括用于确定是否注册语音标签的用户界面(UI)的屏幕。例如，可以提供包括询问是否注册语音标签的UI 221的屏幕220。用户可以通过UI 221上的适当响应，例如，通过选择“是”按钮来输入语音标签。

可以根据各种情形来提供UI，诸如屏幕220。例如，如果相机180捕获对象，则可以自动地提供屏幕220。可替换地，如果在捕获对象之后从用户接收到预定输入，则可以提供屏幕220。例如，如果发生以下操作，则可以提供询问是否输入语音标签的屏幕220：在拍摄之后按压物理按钮超过恒定时间或者电子设备从一侧摇动到另一侧。

根据本公开的各种实施例，可以在拍摄照片并且过去某一时间(例如，两秒)之后提供UI 221。而且，如果在提供UI 221之后在某一时间(例如，1.5秒)期间没有接收到输入，则UI 221可以从显示器160消失。时间的值(例如，2秒，1.5秒，等等)可以通过用户输入而变化，或者根据系统(电子设备)的设置或操作环境而变化。而且，根据本公开的各种实施例，甚至可以在捕获照片之前提供UI 221。例如，屏幕210可以提供有额外的按钮“语音标签+照片”或者“语音标签+视频”，以允许用户首先注册语音标签并且在之后拍摄照片或者注册视频。例如，可以在提供包括UI 221的屏幕220并且在屏幕210上捕获照片之后，提供用于注册语音标签的屏幕230。

在一般情况下，用户可以在拍摄照片之后改变对象、焦点、构图等等以继续执行照片拍摄。由镜头当前保持的对象(对象根据电子设备的运动或相机抖动是稍微可变的)可以显示在保持在拍摄模式下同时准备下一拍摄的电子设备的显示器上。在这种状态下，用于在当前拍摄模式的屏幕(例如，屏幕210)上输入语音标签的图标(或者菜单)(例如，屏幕260的语音输入图标261)可以提供在屏幕的至少一部分(例如，屏幕的右上、底部中心等)。如果选择了相应的图标，则电子设备可以提供用于相对于先前刚刚捕获的照片来输入语音标签的屏幕220。这个例示可以被用作当连续捕获许多照片时标记用户将其确定为成功地捕获的照片的方法。

如果用户打算在照片上注册语音标签(例如，用户选择用户界面221的“是”)，则可以提供用于语音输入的屏幕230。屏幕230还可以提供适当的指导消息231(例如，说出用于这个照片的语音标签)。如果用户提供语音输入，则电子设备可以使用语音输入产生数据文件，并且可以在相应的照片上注册数据文件。根据本公开的各种实施例，电子设备101可以使用语音识别功能等将语音输入转换为文本，并且可以在相应的照片上注册通过将语音输入转换为文本所生成的文本标签连同与语音输入相对应的语音标签。用于在照片上注册语音标签(或语音标签和/或经转换的文本标签)的方法可以不限于上述示例性实施例，并且可以使用各种方法。

在其中注册语音标签的照片可以包括，例如，如屏幕240中所示的语音标签图标241。这可以是示例性的，并且可以使用各种方法来表达语音标签被注册在相应的图像上。根据本公开的一些实施例，即使语音标签被注册在照片上，带有语音标签的照片可以不被标记为基本上与未注册语音标签的其他图像相同。

如果语音标签图标241是由用户选择的，则可以再现用户注册的语音数据。可替换地，在选择语音标签图标241期间，可以临时显示通过语音识别转换的文本。根据本公开的各种实施例，当在语音标签图标241上保持触摸输入(或使用电子笔等的悬停输入)时，可以围绕语音标签图标241提供各种菜单，诸如语音收听、关联图像搜索、语音标签删除等。

根据本公开的各种实施例，可以通过与拍摄操作不同的任何其他操作来注册语音标签。例如，用户可以通过图像管理应用，诸如屏幕250中所示的图库应用，来确定存储在电子设备上的图像列表。如果用户选择照片，则可以提供所选择的照片，如屏幕260中所示。屏幕260可以包括相应的照片，以及用于导引注册语音标签的语音输入图标261。如果选择了语音输入图标261，则可以提供用于语音输入的屏幕，诸如屏幕230。根据本公开的各种实施例，在提供了屏幕220之后，可以根据用户输入提供屏幕230。以下过程可以对应于以上描述。

根据本公开的各种实施例，可以省略屏幕220的显示。例如，可以仅在拍摄之后提供用于语音输入的屏幕230，或者屏幕230可以立即提供在屏幕260上。

如果关于特定照片的语音输入被用户注册为语音标签，则电子设备101可以执行对于与所述特定照片有关系的照片的搜索，以便注册相同语音标签。这里，关系指的是与特定照片类似的照片，但是可以被解释为包括各种含义的关系，诸如地理关系、时序关系等。

例如，在拍摄于植物园的照片中包括枫树并且用户在相应的照片上注册“植物园”的语音标签的情况下，电子设备101可以搜索与该照片类似的任何其它图像(例如，包括枫树的类似照片)，并且可以注册相同的语音标签，也就是说，“植物园”的语音标签。根据本公开的各种实施例，电子设备101可以分析由用户输入的语音输入(例如，“植物园”)，并且可以基于分析结果确定语音输入的含义对应于特定类别(例如，地点)。在这种情况下，电子设备101可以确定照片的元数据信息320当中的适合的元数据信息320(例如，关于拍摄照片的地点的区域信息、GPS坐标信息等)，并且可以在满足相对于相应元数据信息320的参考的任何其它图像(例如，在相同区域捕获的照片或在距GPS坐标1公里的距离内捕获的图像)中注册“植物园”的语音标签。

下面，将描述被用于确定与特定图像有关系的图像的信息，并且将描述使用每条信息确定关联图像和注册语音标签的方法。

图3是示意性地示出根据本公开的各种实施例的，元数据信息320和使用元数据信息的标签注册过程的图。

根据本公开的各种实施例，包括在特定图像300中的各种信息可以被用于注册语音标签。首先，可以使用图像本身的信息。例如，图像表达的对象(例如，海、夜景、天空、草原、山、建筑物等)，包括在图像中的对象(例如，猫、婴儿、书、咖啡、食品等)，图像的颜色分布等可以被用于注册语音标签。这样，通过图像直观提供的信息可以简单地表达为图像信息310。电子设备101的处理器120可以使用图像处理技术等，例如，基于图像信息310确定特定图像300和任何其他图像之间的相似性(例如，75％的相似性)。

特定图像300可以包括各种元数据信息320以及在视觉上提供的图像信息310。元数据信息320可以包括指示捕获特定图像300的位置的位置信息321、指示捕获特定图像300时的时间的时间信息323、指示关于捕获特定图像300的设备的信息的设备信息325、指示在捕获特定图像300的时间点使用的拍摄模式的模式信息327、以及各种其它信息329(例如，图像文件的分辨率、容量、文件名、存储文件的文件夹等等)。

位置信息321可以包括关于捕获特定图像300的国家、城市、区域、特定建筑物或位置的信息。此外，位置信息321可以包括诸如GPS坐标的地理信息。根据本公开的各种实施例，位置信息321可以包括关于在捕获特定图像300的时间点所连接的网络接入点(AP)或基站的信息。

时间信息323可以包括关于在捕获特定图像300时的时间信息。例如，时间信息323可以包括关于在捕获特定图像300时的年、月、日、时、分、秒等的信息。根据本公开的各种实施例，时间信息323可以在未经修改的情况下使用，或者可以在使用之前被改变为其他格式(例如，季节、上午/下午、日落/日出、或阴历日期等)。

设备信息325可以包括关于被用于捕获特定图像300的捕获设备的信息。例如，设备信息325可以包括关于型号名称，制造商、拍摄设备所使用的镜头的类型等，或者拍摄设备是否与显示特定图像300的用户设备相同(例如，图像是否由电子设备101捕获，或者由外部设备捕获的特定图像300是否通过网络被发送到电子设备101等)等的信息。

模式信息327可以包括关于在捕获特定图像300的时间点使用的拍摄模式的信息。详细地说，模式信息327可以包括关于在拍摄时是否使用以下技术的信息：对聚、焦外对焦(out focusing)、闪光灯、白平衡(或其级别)、校正、接近拍摄、夜景模式等。

下面，将描述基于确定一条或多条元数据信息320的结果来确定关联图像的方法。

如果在操作301中接收到相对于特定图像300的用户的语音数据，则处理器200可以在操作303中分析语音数据。处理器120可以进一步包括语言模型、语音识别模块、或用来分析语音数据的声谱分析引擎。处理器120可以分析语音数据，以确定其含义。例如，处理器120可以基于分析语音数据的结果将接收到的语音确定为“海(sea)”。处理器120可以将语音数据的含义分类为特定类别(例如，用于“海”的位置类别)，并且可以确定与相应的类别相对应的元数据信息320(例如，用于“海”的位置信息)。

为了基于语音数据确定元数据信息320，处理器120可以使用图像信息310并且分析语音数据本身。例如，在用户提供“[me：t]”的语音输入的情况下，可能无法通过基于语音数据的分析来清晰确定语音输入是“meet(会议)”还是“meat(肉)”。在“meat(肉)”出现在当前特定图像300中的情况下，处理器120可以利用图像信息310(例如，出现在特定图像300中的对象，即，“meat(肉)”)将相应的语音数据分析为“meat(肉)”。

根据本公开的各种实施例，处理器120可以通过服务器106确定语音输入的含义。例如，处理器120可以通过通信接口170向服务器106提供由用户输入的语音数据以及特定图像300，并且可以接收由服务器106分析的结果。处理器120可以使用接收到的结果来确定元数据信息320。

如果在操作303中分析语音数据，则处理器120可以基于关于语音数据的分析结果与包括在元数据信息320中的元数据信息320的每个部分之间的关系，来确定元数据信息320的至少一段，诸如位置、时间、拍摄设备、拍摄模式等，并且具体为，信息321，323，325，327或329。例如，在诸如海、独岛(Dokdo)、植物园、百货公司等的语音输入被分析为与位置相关联的情况下，处理器120可以将位置信息321确定为元数据信息320。例如，在诸如夜景、日落、日出、生日等的语音输入被分析为与日期或时间相关联的情况下时，处理器120可以将时间信息323确定为元数据信息320。

处理器120可以相对于一条语音数据确定两条或更多条元数据信息320。例如，在语音输入是“夏天海(summer sea)”的情况下，可以确定时间信息323和位置信息321。

在语音数据不具有与元数据信息相对应的适合的类别的情况下，例如，在如“键盘”一样的语音数据与位置、时间、图像拍摄设备等等无关的情况下，处理器120可以确定预先确定的适合的数据信息320。在上述例示中，处理器120可以相对于“键盘”的语音输入，将位置信息321、时间信息323、和模式信息327确定为用于注册语音标签的元数据信息320。在这种情况下，处理器120可以在与其中注册了“键盘”的语音标签的特定图像300的类似的位置、模式(例如，接近拍摄模式)和日期的条件下，相对于捕获的其他图像来注册“键盘”的语音标签。如将在后面描述的，其他图像可以是使用图像信息310被确定为与该图像(例如，包括键盘的照片)有点类似的图像。

下面，将使用图像信息310和元数据信息320，基于确定关联图像的结果，来描述注册语音标签的操作(例如，操作307)。

处理器120可以通过使用图像信息310和元数据信息从存储在电子设备101的存储器130中的多个图像之中确定被确定为与特定图像300相关联的图像。与将被确定的目标相对于的图像可以不需要被存储在存储器130中。例如，确定是否允许关联图像可以相对于存储在云服务器(例如，服务器106)上的图像来执行。这将参照图10进行描述。下面，为了方便说明，将描述图像如何被存储在电子设备101上。

处理器120可以利用各种方法来确定与特定图像300相关联的图像。例如，处理器120可以使用图像信息310将具有阈值或以上的相似性的图像确定为关联图像。为了比较图像，处理器120可以包括图像处理模块，或者可以使用图像处理算法。

根据本公开的各种实施例，关于相似性的阈值可以以各种方式设置。例如，可以做出设置，以使得具有大于或等于70％的相似性的图像被确定为关联图像。可替换地，可以做出设置，以使得具有大于或等于95％的相似性的图像被确定为关联图像。根据本公开的各种实施例，图像信息310可以包括关于包括在特定图像300中的对象(例如树，车，人，食品等)的信息，并且处理器120可以通过确定包括在特定图像300中的对象或者包括在特定图像300中的对象当中的占据最大比例的对象与包括在任何其他图像中的对象之间的相似性来确定关联图像。

上述例证可以是在假设图像的相似性大于或等于阈值的情况下描述的。然而，根据本公开的各种实施例，阈值可以被预定范围取代。例如，具有非常高的相似性(例如，95％至100％的相似性)的图像可以是通过连续拍摄(或连拍模式)获得的关于同一对象的图像。根据本公开的各种实施例，可以有效地将具有预定范围的相似性(例如，50％至80％的相似性)的图像确定为关联图像，而不是将语音标签附加到基本相同的图像(即，具有非常高的相似性)。

处理器120可以使用元数据信息320来确定关联图像。例如，处理器120可以使用位置信息321，将具有属于距捕获特定图像300的位置特定范围内的拍摄位置作为元数据信息320的任何其他图像确定为关联图像。例如，在捕获特定图像300的位置是仁川机场的情况下，处理器120可以将包括与仁川机场相对应的位置信息作为元数据信息320的图像确定为关联图像。可替换地，例如，处理器120可以将包括在距捕获特定图像300的GPS坐标特定范围(例如，2公里)内的位置作为元数据的图像确定为关联图像。

根据本公开的各种实施例，处理器120可以将具有与捕获特定图像300的时间有预定关系的拍摄时间作为元数据信息320的图像确定为关联图像。例如，控制模块120可以将包括属于从捕获特定图像300的时间(例如，2014年3月1日，上午2点)开始的预定范围(例如，时间之前和之后两个小时)内的时间信息作为元数据信息的图像确定为关联图像。

根据本公开的各种实施例，处理器120可以将包括与捕获特定图像300的时间有特定关系的时间信息作为元数据信息的图像确定为关联图像。例如，处理器120可以将包括与捕获特定图像300的时间相同的日期(例如3月3日)作为元数据的图像确定为关联图像。可替换地，例如，处理器120可以将具有从捕获特定图像300的时间开始经过特定日期的时间点作为元数据信息的图像确定为关联图像。可替换地，在特定图像300是在日出时区捕获的情况下，处理器120可以将拍摄时间被包括在日出时区中的图像确定为关联图像。在这样的实施例中，用户可以使用一个语音标签验证在每年生日那天捕获的照片，或者可以使用一个语音标签容易地验证与从特定纪念日开始经过100天、200天和300天时的日子相对应的照片。此外，用户可以使用一个语音标签容易地验证关于依赖于时间现象，诸如日出、日落、霞光、满月等的照片。

上述实施例中可以是示例性的，并且可以以各种方式对其做出修改、扩展和应用。例如，可以使用单独的语音标签来管理使用设备信息325，通过不是用户的电子设备101的任何其它设备所捕获的照片。可替换地，可以使用单独的语音标签来管理使用模式信息327在接近拍摄模式下捕获的照片。相对于每个情况是否使用任何信息可以自动确定，或者可以通过用户设置来确定。此外，处理器120可以使用以上描述的一条或多条信息来确定用于语音标签的注册的关联图像。对于使用信息确定关联图像的方法，将参照图7描述与信息具有优先级的情况相对应的方法，并且将参照图8描述与信息具有权重的情况相对应的方法。下面，将参照图4描述使用信息在期望数目的图像中注册语音标签的方法。

图4是示意性地示出根据本公开的各种实施例的调整关联图像的数目的方法的图。

参照图4，电子设备101可以包括多个存储的图像410。可以相对于与由用户在其中注册了语音标签的特定图像(例如，特定图像300)具有关系的任何其他图像来执行与语音标签相同的语音标签的注册。注册可以通过用户输入(指令)来手动执行，可以在用户使用语音标签进行搜索操作时马上执行，或者可以在电子设备101保持在待机状态或空闲状态的情况下在后台执行。

处理器120可以获取对应于语音标签的语音数据。语音数据可以在捕获特定图像时获得，或者可以从先前在特定图像中注册的语音标签获得。如果关于语音数据的分析结果指示语音数据与位置相关联，则处理器120可以使用特定图像300的元数据信息320的位置信息321来确定关联图像。

关于位置信息321被确定为是关联图像的图像420的数目可以是“m”(例如，245)。如果由用户等设置的关联图像的数目小于或等于“N”(例如，50)，则处理器120可以使用位置信息321和图像信息310二者来确定关联图像。确定步骤可以被理解为相对于图像420(使用图像420作为母体(population))使用图像信息310来确定关联图像。

如果使用位置信息321和图像信息310被确定为是关联图像的关联图像430(即，包括距离条件的位置信息321和元数据信息320并且相对于特定图像(例如，特定图像300)满足相似性条件的图像)的数目是m’(例如，47)并且m’小于N，则处理器120可以最后将图像430确定为关联图像。处理器120可以在关联图像430中将语音数据注册为语音标签。

在上述实施例中，如果使用位置信息321和图像信息310确定的图像430的数目(m’)大于N，则处理器120可以使用附加元数据信息320(例如，时间信息323等)重复确定，直到m’变成小于N。

根据本公开的各种实施例，m’可以被调整为具有预定范围(例如，n<m’<N)。m’不仅可以有小于N的值，而且它可以具有大于或等于特定值的值，以允许相对于特定图像(例如，特定图像300)满足预定相似性条件的图像的数目保持在恒定的范围。这将参照图8进行描述。

图5是示意性地示出根据本公开的各种实施例的，用于搜索具有语音标签的图像的方法的图。

根据本公开的各种实施例，可以提供UI 510以用于发现具有语音标签的图像。例如，图库应用可以提供搜索菜单511。当选择搜索菜单511时，输入界面，诸如典型的键盘/键区，可以与语音输入按钮/键一起提供，并且用户可以选择语音输入按钮/键以提供语音输入。处理器120可以提供图像来作为搜索结果，所述图像具有与类似于(例如，指示95％或更高的命中率)所提供的语音输入的语音波形相对应的语音标签。

根据本公开的各种实施例，如果选择语音标签菜单513，则可以提供当前注册的语音标签的列表。语音标签的列表可以以图标的形式来提供，或者可以与对应于语音标签的文本一起提供。用户可以选择所提供的语音标签，以再现对应于所选择的语音标签的语音数据，并且可以搜索具有相同的语音标签的图像。

根据本公开的各种实施例，用户可以通过选择语音输入菜单515来激活语音输入功能。如果在这种条件下提供语音输入，则处理器120可以在存在对应于语音数据的语音标签的情况下搜索具有语音标签的(多个)图像。在不存在对应于语音数据的语音标签的情况下，处理器120可以执行一般语音识别应用的操作(例如，S-voice或Siri等)。

如果由用户提供语音输入520，则电子设备101可以提供UI，诸如屏幕530或屏幕540。例如，电子设备101可以提供搜索结果531，其指示相对于与用户的语音输入相对应的语音标签发现的34个图像，它们中的一个是用户直接在其中输入语音标签的第一图像，而且33个图像是被确定为第一图像的关联图像的图像。此外，电子设备101可以与搜索结果531一起显示发现的图像或者图像的缩略图533，534，535，536，537，538等。在这种情况下，最先发现的图像533可以被首先显示。

根据本公开的各种实施例，电子设备101可以提供关于语音输入的搜索结果，如屏幕540所示。在这种情况下，用户直接在其中注册语音标签的原始图像541(例如，最先发现的图像533)可以以相对较大的缩略图的形式显示在中心，而且作为其是与原始图像541相关联的图像的确定结果而被电子设备101(或处理器120)在其中注册了相同的语音标签的图像542，543，544，545等可以以相对较小的缩略图的形式显示在底部。如果用户选择功能菜单541p或541n，例如，在用户在多个图像中直接注册相同的语音标签的情况下，电子设备101可以输出下一原始图像(在选择功能菜单541n的情况下)(或者如果选择功能菜单541p则输出前一原始图像)。如果原始图像541被改变成任何其他原始图像，则显示在底部的关联图像542，543，544和545可以被任何其他原图像541的关联图像替换。如果在选择在屏幕540中提供的图像中的一个，则所选择的图像可以在整个屏幕中显示。

根据上面的描述，搜索结果提供方法可以具有许多优点。例如，用户可以在于2013年在植物园捕获的照片(第一图像)中注册“植物园”的语音标签。电子设备101可以在第一图像的关联图像(第一图像组)处注册相同的语音标签。如果使用元数据信息320当中的时间信息，则于2013年捕获的植物园照片的一部分可以被包括在第一图像组中。在于2014年用户访问植物园时所捕获的照片(第二图像)中注册了“植物园”的相同的语音标签的情况下，电子设备101可以用图像信息和时间信息(2014年)在第二图像的关联图像(第二图像组)中注册“植物园”的语音标签。

在用户通过“植物园”的语音输入来执行图像搜索的情况下，与第一图像、第二图像、第一图像组和第二图像组相对应的照片可以被混合并被提供在搜索结果上，因为它们具有相同的“植物园”的语音标签。然而，在如屏幕540所示提供搜索结果的情况下，第一图像，第二图像，第一图像组和第二图像组可以被容易地区分。实际上，第一和第二图像可以被显示为图像541，当第一图像被显示为图像541时，第一组的图像可以被显示为图像542、543、544、545等，并且当第二图像被显示为图像541时，第二组的图像可以被显示为图像542、543、544、545等(通过使用箭头541p，541n)。

在上述例示中，可以描述了使用元数据信息320当中的时间信息的情况，但是使用诸如位置信息等的其它元数据信息320可能也是有用的。例如，在用户在位于不同位置的植物园拍摄许多照片的情况下，即使“植物园”的语音输入被用作相对于植物园的语音标签，但是可以根据在各个植物园所捕获的图像的位置来区分关于“植物园”的语音输入的搜索结果。

根据本公开的各种实施例，如果选择屏幕530的结果图像中的图像，则可以提供屏幕540。例如，如果在屏幕530中选择图像533(原始图像)，则可以在屏幕540中的对应于图像541的位置处输出首先发现的图像533，并且可以在屏幕540的底部输出首先发现的图像533的关联图像。根据本公开的各种实施例，如果电子设备101在屏幕530的状态中旋转到风景(landscape)模式中，则可以提供如屏幕540所示的结果屏幕。

根据本公开的各种实施例的关于注册和搜索语音标签的电子设备101的各种例示可以参照图1至图5描述。根据本公开的各种实施例，电子设备(例如，电子设备101)可以包括被配置为从外部接收语音以生成语音数据的语音输入模块152、存储器130、和电连接到语音输入模块152和存储器130的处理器120。存储器130可以被配置为存储一个或多个图像或视频，并且存储器130包括指令，所述指令当由处理器120运行时使得电子设备101生成相对于存储在存储器130中的第一图像或视频的、关于通过语音输入模块152接收到的语音的语音数据，基于语音数据将语音数据或第一元数据信息与第一图像或视频链接，确定存储在存储器130中的第二图像或视频与第一图像或视频之间的关系，并且基于所确定的关系的至少一部分，将(1)语音数据，(2)第一元数据信息，或(3)从语音数据和/或第一元数据信息生成的第二元数据信息中的至少一个与第二图像或视频链接。

根据本公开的各种实施例，电子设备101可以以标签形式将第一元数据信息与第一图像或视频链接，并且电子设备101可以被配置为以标签形式将(1)语音数据，(2)第一元数据信息，或(3)第二元数据信息中的至少一个与第二图像或视频链接。这里，例如，第一元数据信息可以包括从语音数据提取的语言到文本信息。此外，电子设备101可以使用与第一图像或视频和第二图像或视频相关联的图像分析、位置信息、时间信息、文本信息或面部识别信息中的至少一个来确定关系。

根据本公开的各种实施例，电子设备101可以包括被配置为从外部接收语音以生成语音数据的语音输入模块152、通信接口170、存储器130、和电连接到语音输入模块152、通信接口170和存储器130的处理器120。存储器130可以存储一个或多个图像或视频，并且存储器130包括指令，所述指令当由处理器120运行时使得电子设备101生成相对于存储在存储器130中的第一图像或视频的、关于通过语音输入模块152接收到的语音的语音数据，基于语音数据将语音数据或第一元数据信息与第一图像或视频链接，并且通过通信接口170向电子设备101的外部发送第一图像或视频以及链接的语音数据或第一元数据信息。

根据本公开的各种实施例，电子设备101可以向电子设备101的外部发送用于要求与链接的语音数据或第一元数据信息相关联的一个或多个图像或视频的请求，并且可以从电子设备101的外部接收(1)语音数据，(2)第一元数据信息，或(3)与从语音数据和/或第一元数据信息生成的第二元数据信息链接的一个或多个图像或视频。

作为附加的或一般的例示，电子设备101可以包括：被配置为获得关于特定图像300的语音数据的语音输入模块152；以及被配置为分析语音数据以确定特定图像300的至少一个元数据信息320的控制模块120。这里，控制模块120可以从多个图像当中相对于至少一个关联图像，将语音数据注册为语音标签，其中，所述至少一个关联图像满足相对于特定图像300或所确定的元数据信息320的特定参考。根据本公开的各种实施例，多个元数据信息320可以包括关于捕获特定图像300的位置或时间的信息、关于捕获特定图像300的设备的信息或者关于特定图像300的拍摄模式的信息中的至少一个。

根据本公开的各种实施例，电子设备101还可以包括拍摄模块。如果由拍摄模块180捕获特定图像300，则控制模块120可以被配置为激活语音输入模块，以指导获得语音数据。

此外，如果选择特定图像300，则控制模块120可以被配置为提供用于引导获得语音数据的用户界面(UI)，以便相对于所述至少一个图像连同语音标签一起注册通过将语音数据转换成文本而获得的文本标记，或者使用出现在特定图像300的对象来分析语音数据。

根据本公开的各种实施例，控制模块120可以基于语音数据的分析结果与多个信息中的每一个之间的关系，确定关于位置、时间、拍摄设备和拍摄模式的信息当中的元数据信息320的至少一部分。在这种情况下，控制模块120可以将多个图像当中的、包括属于距特定图像300的位置特定范围内的位置信息作为元数据信息320的图像确定为至少一个关联图像，并且可以将多个图像当中的、包括属于从特定图像300的时间开始的特定范围内的时间信息作为元数据信息320的图像确定为至少一个关联图像，或者可以将多个图像当中的、包括与特定图像300的时间有特定关系的位置信息作为元数据信息320的图像确定为至少一个关联图像。同时，控制模块120可以将多个图像当中的、相对于特定图像300具有阈值或以上的相似性的图像确定为至少一个关联图像。

此外，根据本公开的各种实施例，多个图像中的至少一部分可以存储在与电子设备101在功能上连接的外部设备上，而且电子设备101还可以包括与外部设备通信的通信模块。

同时，根据本公开的各种实施例的电子设备101可以提供使用语音标的搜索功能。电子设备101可以包括存储器130，被配置为获得语音数据的语音获得模块152、和被配置为基于所获得的语音数据从多个图像或者视频中搜索至少一个图像的处理器120。存储器130可以包括指令，所述指令当由处理器120运行时使得电子设备101发现并且提供(1)与多个图像或视频的对应于语音数据的语音标签链接的，(2)基于语音数据与第一元数据信息链接的，或(3)与从语音数据和/或第一元数据信息生成的第二元数据信息链接的图像或视频的至少一个图像。此外，多个图像或视频中的至少一部分可以存储在与电子设备101在功能上连接的外部设备上。而且，在电子设备101还包括通信模块的情况下，存储器还可以包括指令，使得有可能向外部设备发送基于语音数据的用于调用图像或视频搜索结果的请求，并且提供从外部设备接收到的搜索结果的至少一部分。

下面，将描述根据本公开的各种实施例的语音标签注册方法。以下方法可以由电子设备(例如，电子设备101)运行。此外，所示流程图中所公开的顺序可以遵循逻辑流，而不是时间顺序，并且各个操作可以在相同的时间执行，除非在逻辑上发生冲突，或者可以根据任何其他顺序执行。而且，参照图1至图5描述的各种修改和扩展可以应用于以下方法。

图6是示意性地示出根据本公开的各种实施例的语音标签注册方法的图。

在操作610中，电子设备101可以获取关于特定图像(例如，特定图像300)的语音数据。例如，输入/输出接口150或语音输入模块152可以获取用户发声作为语音数据。此外，在显示其中注册了语音标签的图像、或者在其中注册了语音标签的图像中选择了语音标签图标(例如，图2中的语音标签图标241等)的情况下，电子设备101可以获取存储在存储器130上的对应于语音标签的语音数据。

操作610可以在用户拍摄对象(例如，图2的屏幕210等)之后执行，或者可以在用户在图库应用中选择特定图像(例如，图2的屏幕250等)之后执行。

在操作620中，电子设备101(或电子设备101的处理器120)可以基于语音数据确定元数据信息320。特定图像可以具有多条元数据信息320，并且电子设备101可以分析语音数据，以便从多条元数据信息320当中确定被确定为与语音数据相关联的至少一条元数据信息320。例如，参照图3描述的元数据信息320确定方法可以应用于操作620。

在操作630中，电子设备101可以使用包括在特定图像300中的对象或出现在特定图像中的目标信息(例如，图像信息310)和/或在操作620中确定的至少一条元数据信息320，来确定被确定为与特定图像300相关联的关联图像。

在操作630中，可以使用各种参考来确定关联图像。例如，可以使用诸如图像之间的恒定等级的相似性、元数据信息320的一致性、相似性、关系满足性等的参考。在这种连接下，参照图3和图4描述的参考和条件可以应用于操作630。

在操作640中，电子设备101可以在操作630中被确定为关联图像的图像中，将在操作610中获得的语音数据注册为语音标签。在其中注册了语音标签的图像可以与指示注册了语音标签的图标(例如，图2的语音输入图标241)一起显示。

根据本公开的各种实施例，可以在一个图像中注册多个语音标签。例如，可以在其中注册了语音标签的图像上相对于任何其他语音输入再次执行操作610、620、630和640，从而可以注册任何其他语音标签。在其中注册了多个标签的图像可以包括诸如图标241的多个标记。

根据本公开的各种实施例，电子设备101可以在操作610中连续获得语音输入(例如，“夏天”的语音输入或“海”的语音输入)，并且可以在使用基于每个语音输入确定的元数据信息320(例如，时间信息或者位置信息)确定的关联图像(例如，关联图像组A或关联图像组B)中注册各语音标签(例如，“夏天”和“海”)。根据本公开的一些实施例，电子设备101可以在操作610中获得语音输入(例如，“夏天海”)，可以通过含义或者通过字划分所获得的语音输入以确定元数据信息320，并且可以使用所划分的语音输入确定关联图像以注册语音标签(“夏天海”)。在这种情况下，即使使用“夏天”、“海”或“夏天海”来执行搜索操作，也可以提供具有“夏天海”的语音标签的图像作为搜索结果。

图7是示意性地示出根据本公开的各种实施例的使用参数优先级来确定关联图像的方法的图。在与图7和图8至图10相关联的描述中，与以上描述重复或类似的描述可以省略。

在操作710中，电子设备101可以获得关于特定图像300的语音数据。在操作720中，电子设备101可以基于所获得的语音数据确定元数据信息320。操作710和操作720可以对应于图6的操作610和操作620。

在操作730中，电子设备101可以确定图像信息和元数据信息320的优先级。例如，图4的实施例可以被理解为，关联图像是在位置信息的优先级高于图像信息的优先级的条件下确定的。

图像信息和多条元数据信息320可以被理解为用于确定关联图像的参数。电子设备101可以确定每个参数的优先级。在确定(多个)关联图像时可以向参数应用不同的参考。例如，根据图像处理确定相似性可以应用于图像信息作为参考，并且确定是否具有作为元数据信息320的日期可以应用于时间信息作为参照。

在操作740中，电子设备101可以根据优先级通过应用参数确定关联图像。例如，电子设备101可以通过应用最高优先级的参数以及与其有关的确定参考，从多个存储的图像当中确定被确定为与特定图像300相关联的关联图像的候选(以下称为“关联图像候选”)。

在操作750中，电子设备101可以确定在操作740中确定的关联图像，即，关联图像候选是否满足特定范围。特定范围可以提供用户的输入或电子设备101的设置(其可以是预先确定的)来确定。例如，电子设备101可以确定关联图像候选的数目是否小于参考值(例如，15)。如果关联图像候选的数目满足特定范围(例如，13)，则关联图像候选可以被确定为关联图像。在操作770，电子设备101可以在关联图像(在这种情况下，与关联图像候选相同)处，将在操作710中获得的语音数据输入作为语音标签。

如果关联图像候选的数目不满足特定范围(例如，49)，则在操作760中，电子设备101可以确定第二优先级的参数。在操作740中，电子设备101可以相对于所确定的参数(第二优先级的参数)再次确定关联图像。根据确定结果确定的关联图像候选(第二)可以满足最高优先级的参数的条件和第二优先级的参数的条件二者。电子设备101可以重复操作740、操作750和操作760的过程，直到关联图像候选的数目满足特定范围。

图8是示意性示出根据本公开的各种实施例的使用参数的权重确定关联图像的方法的图。

在操作810中，电子设备101可以获得关于特定图像的语音数据。在操作820中，电子设备101可以基于所获得的语音数据确定一个元数据信息320的至少一部分。操作810和操作820可以对应于图6的操作610和操作620。

在操作830中，电子设备101可以确定每个参数的权重。例如，电子设备101可以相对于图像信息来确定为1的权重，并且相对于时间信息确定为0.8的权重。权重可以根据分析在操作810中获得的语音数据的结果或者根据情境来不同地设置。

在操作840中，电子设备101可以基于所确定的参数和权重来确定关联图像。例如，在图像相对于特定图像(例如，特定图像300)具有80％的相似性、位于距特定图像(例如，特定图像300)的拍摄地点1公里的半径内、并且在与捕获特定图像(例如，特定图像300)时的日期相同的日期捕获的情况下，可以通过分别将(0.8(80％)*1(权重))的得分应用于图像信息、将(1(位置转换得分)*0.5(权重))的得分应用于位置信息、并且将(1(时间转换得分)*0.8)的得分应用于时间信息来获得总得分2.1。这里，当图像属于距捕获特定图像(例如，特定图像300)的位置1公里内时位置转换得分可以是1，当图像属于距所述位置2公里内时位置转换得分可以是0.8，当图像属于距所述位置3公里内时位置转换得分可以是0.6，当图像属于距所述位置4公里内时位置转换得分可以是0.4，以及当图像距所述位置超过5公里时位置转换得分可以是0。同时，当日期与捕获特定图像(例如，特定图像300)时的日期相同时，时间转换得分可以是1，并且当当日期与捕获特定图像(例如，特定图像300)时的日期不同时，时间转换得分可以是0。每个得分转换方式可以根据用户设置或者语音数据分析结果被不同地设置。例如，如果语音数据分析结果指示语音数据是与位置信息相关联的语音输入(例如，马尔代夫)，则高权重可以被设置给元数据信息320的位置信息。如果语音数据分析结果指示语音数据是与时间信息相关联的语音输入(例如，日出)，则高权重可以被设置给元数据信息320的时间信息。

如果确定了作为关联图像候选的每个图像的得分，则电子设备101可以将其得分大于或等于参考得分的图像确定为关联图像。例如，在参考得分是1.5的情况下，电子设备101可以将其得分大于或等于1.5的图像确定为关联图像。如果确定了关联图像，电子设备101可以将在操作810中获得的语音数据注册为语音标签。

根据本公开的各种实施例，电子设备101可以调整参考得分以改变关联图像的数目。例如，在关联图像的数目被设置为小于或等于20的情况下，满足参考得分的关联图像可以超过20。例如，在关联图像的数目不满足特定范围(例如，小于或等于20)的情况下(操作843)，电子设备101可以在操作847中调整(例如，增加)关联图像的确定参考，例如，参考得分，以允许关联图像的数目属于特定范围。在操作847中，电子设备101可以调整关联图像确定参考并且返回到操作841。在操作845中，电子设备101可以将满足最终设置的范围的图像确定为关联图像。在操作850中，电子设备101在关联图像处将语音数据注册为语音标签。

图9是示意性地示出根据本发明的各种实施例的语音标签注册方法的图。

在操作910中，电子设备101可以获得关于特定图像300的语音数据。在操作920中，电子设备101可以基于所获得的语音数据确定元数据信息320。操作910和操作920可以对应于图6的操作610和操作620。

在操作930中，电子设备101可以确定相对于特定图像300具有阈值或以上的相似性的至少一个图像。例如，电子设备101可以基于图像信息310确定多个图像，该多个图像的每个均包括完全类似或类似于特定图像300的对象。

在操作940中，电子设备101可以从在操作930中确定的多个图像当中确定相对于在操作920中确定的元数据信息320满足特定参考的图像，在操作950中，电子设备101可以在操作940中确定的图像处将在操作910中获得的语音数据注册为语音标签。

参照图7或图8描述的使用优先级或权重的语音标签的注册可以通过适合的修改或改变来应用于图9的方法。因为参照图9描述的方法主要使用出现在图像中的对象的相似性(图像的可视信息)，所以优先级或权重可以仅应用于在操作920中确定的元数据信息320。

图10是示意性地示出根据本公开的各种实施例的，在存储在电子设备101和服务器106上的图像处注册语音标签的方法的图。

一般情况下，由用户终端捕获的图像可以被存储在相同的用户终端中。然而，近来对于在不同位置存储图像和图像信息的兴趣不断增加，例如，使用用户帐户等管理存储在用户终端上的图像、存储在用户的个人计算机(PC)或膝上型计算机上的图像、存储在用户的平板上的图像、存储在用户的社交帐户上的图像、存储在用户的云服务器上的图像等。将参照图10描述在上述条件下相对于未存储在用户终端上的图像来确定关联图像以便注册语音标签的方法。为了容易描述，可以在图10中示例性说明在存储在电子设备101和服务器106上的图像处注册语音标签的方法。服务器106可以包括各种设备(例如，云服务器、用户计算机、平板等)，而不是用户终端(即，电子设备101)。

在操作1010中，电子设备101可以获得关于特定图像(例如，特定图像300)的语音数据。在操作1020中，电子设备101可以基于所获得的语音数据确定元数据信息320。操作1010和操作1020可以对应于图6的操作610和操作620。

根据本公开的各种实施例，操作1010可以连同与电子设备101连接的任何其他设备执行。例如，可以相对于存储在电子设备101上的特定图像(例如，特定图像300)，从与电子设备101连接(例如，蓝牙连接)的可穿戴设备(例如，智能手表等)获取语音数据。这里，可穿戴设备可以包括用于获取语音数据的语音识别模块(例如，麦克风)，并且可以通过连接的通信信道(例如，蓝牙通信信道)将所获得的语音数据(或分析/处理所获得的语音数据的结果)提供给电子设备101。

在操作1030中，电子设备101可以通过通信模块(例如，通信接口170)向服务器106发送图像信息和元数据信息320。当发送信息时，电子设备101也可以发送消息/指令，使得服务器106基于所述信息确定存储在服务器106上的相对于所述图像的关联图像，并且将确定结果发送到电子设备101。

在操作1040中，电子设备101和服务器106中的每一个可以确定关于特定图像(例如，特定图像300)的关联图像。操作1040可以由电子设备101和服务器106二者来执行，或者可以仅由服务器106来执行。在操作1050中，服务器106可以向电子设备101发送确定关联图像的结果。如果关联图像的数目是受限的，则服务器106可以连同确定结果发送相对于每个图像计算出得得分或优先级信息。根据本公开的各种实施例，服务器106可以发送根据电子设备101的请求或其他条件确定的关联图像确定结果，以适合特定数目(或特定范围)。

在操作1060中，电子设备101可以通过组合在电子设备101中确定的结果和从服务器106接收到的结果来确定关联图像。作为一个例示，电子设备101可以将存储在电子设备101上的图像当中的被确定为关联图像的图像、以及在服务器106中被确定为关联图像的结果中所包括的图像确定为关联图像。作为另一个例示，在组合电子设备101和服务器106的确定结果之后，电子设备101可以根据参考(例如，计算出的得分等)确定其数目被指定的关联图像。

在操作1070中，电子设备101可以向服务器106发送操作1060的确定结果。

在操作1080中，电子设备101和服务器106中的每一个可以在与操作1060的确定结果相对应的关联图像处将语音数据注册为语音标签。

根据本公开的各种实施例，注册语音标签的方法可以包括获得关于至少一个图像的语音数据，基于语音数据确定特定图像(例如，特定图像300)的至少一个元数据信息320，确定相对于特定图像(例如，特定图像300)或所确定的元数据信息320满足特定参考的至少一个关联图像，并且在至少一个关联图像中将语音数据注册为语音标签。这里，确定至少一个关联图像可以包括基于特定图像(例如，特定图像300)或所确定的元数据信息320的优先级来确定关联图像候选，确定关联图像候选的数目是否满足特定范围，以及根据关联图像候选的数目是否满足特定范围来将关联图像候选的至少一部分确定为关联图像。该方法还可以包括，如果未满足特定范围，则根据优先级顺序地应用特定图像(例如，特定图像300)或所确定的元数据信息320。

根据本公开的各种实施例，确定至少一个关联图像可以包括相对于特定图像或所确定的元数据信息320确定权重，基于特定图像(例如，特定图像300)或所确定的元数据信息320以及关于特定图像(例如，特定图像300)或所确定的元数据信息320中的每一个的权重来计算每个关联图像候选的得分，并且基于计算出的得分是否满足参考得分来将关联图像候选的至少一部分确定为关联图像。这里，该方法还可以包括，如果关联图像候选的数目满足特定范围，则将所有的关联图像候选确定为关联图像。该方法还可以包括，如果关联图像候选的数目不满足特定范围，则调整参考得分。

根据本公开的各种实施例，在电子设备101中在特定图像(例如，特定图像300)处注册语音标签的方法可以包括获得关于特定图像(例如，特定图像300)的语音数据，基于语音数据确定特定图像(例如，特定图像300)的多个元数据信息320中的至少一个，确定多个图像，其中每个图像相对于特定图像(例如，特定图像300)具有阈值或以上的相似性，并且在多个图像当中的相对于所确定的元数据信息320满足特定参考的至少一个图像上将语音数据注册为语音标签。

图11是示出根据本公开的各种实施例的电子设备的框图。

参照图11，例如，电子设备1101可以包括图1所示的电子设备101的全部或一部分。电子设备1101可以包括一个或多个处理器(例如，应用处理器(AP))1110、通信模块1120、订户识别模块1124、存储器1130、传感器模块1140、输入设备1150、显示器1160、接口1170、音频模块1180、相机模块1191、功率管理模块1195、电池1196、指示器1197和马达1198。

处理器1110可以驱动操作系统(OS)或者应用以控制连接到处理器1110的多个硬件或软件组件，并且可以处理和计算各种数据。例如，处理器1110可以利用片上系统(SoC)来实现。根据本公开的实施例，处理器1110可以进一步包括图形处理单元(GPU)和/或图像信号处理器。处理器1110可以包括图11中所示的组件中的至少一部分(例如，蜂窝模块1121)。处理器1110可以加载和处理从至少一个其它组件(例如，非易失性存储器)接收到的指令或数据，并且可以将各种数据存储到非易失性存储器。

通信模块1120可以被配置为与图1所示的通信接口170相同或相似。通信模块1120可以包括蜂窝模块1121、无线保真(Wi-Fi)模块1123、蓝牙(BT)模块1125、全球定位系统(GPS)模块1127、近场通讯(NFC)模块1128和射频(RF)模块1129。

蜂窝模块1121可以通过通信网络提供语音通信、视频通信、字符服务(characterservice)、互联网服务等。根据本公开的实施例，例如，蜂窝模块1121可以通过使用订户识别模块(例如，SIM卡1124)在通信网络中执行电子设备1101的区分和验证。根据本公开的实施例，蜂窝模块1121可以执行由处理器1110提供的功能中的至少一部分。根据本公开的实施例，蜂窝模块1121可以包括通信处理器(CP)。

例如，WiFi模块1123、BT模块1125、GPS模块1127和NFC模块1128中的每一个可以包括用于处理通过相应模块交换的数据的处理器。根据本公开的实施例，蜂窝模块1121、WiFi模块1123、BT模块1125、GPS模块1127和NFC模块1128中的至少一部分(例如，两个或更多个组件)可以被包括在一个集成芯片(IC)或IC封装内。

RF模块1129可以发送和接收通信信号(例如，RF信号)。RF模块1129可以包括收发器、功率放大器模块(PAM)、频率滤波器、低噪声放大器(LNA)、天线等。根据本公开的各种实施例，蜂窝模块1121、WiFi模块1123、BT模块1125、GPS模块1127、或NFC模块1128中的至少一个可以通过单独的RF模块发送和接收RF信号。

例如，订户识别模块1124可以包括订户识别模块并且可以包括唯一标识信息(例如，集成电路卡标识符(ICCID))或订户信息(例如，综合移动订户身份(IMSI))。

例如，存储器1130(例如，存储器130)可以包括内部存储器1132或外部存储器1134。例如，内部存储器1132可以包括易失性存储器(例如，动态随机存取存储器(DRAM)、静态RAM(SRAM)或同步DRAM(SDRAM))，非易失性存储器(例如，一次性可编程只读存储器(OTPROM)、可编程ROM(PROM)、可擦除和可编程ROM(EPROM)、电可擦除和可编程ROM(EEPROM)、掩模ROM、闪速ROM、NAND闪存或NOR闪存)，硬盘驱动器或固态驱动器(SSD)中的至少一个。

外部存储器1134可以包括闪速驱动器，诸如紧凑型闪存(CF)、安全数字(SD)、微安全数字(micro-SD)、迷你安全数字(mini-SD)、极速数字(xD)、多媒体卡(MMC)、记忆棒等。外部存储器1134可以经由各种接口在功能上和/或物理上与电子设备1101连接。

例如，传感器模块1140可以测量物理量或可以检测电子设备1101的操作状态。传感器模块1140可以将测量的或检测的信息转换成电信号。传感器模块1140可以包括手势传感器1140A、陀螺仪传感器1140B、压力传感器1140C、磁传感器1140D、加速度传感器1140E、抓握传感器1140F、接近传感器1140G、颜色传感器1140H(例如，红绿蓝(RGB)传感器)、生命体传感器1140I、温度/湿度传感器1140J、照度传感器1140K、或UV传感器1140M中的至少一个。虽然未示出，附加地或一般地，例如，传感器模块1140还可以包括电子鼻传感器、肌电图(EMG)传感器、脑电图(EEG)传感器、心电图(ECG)传感器、光电容积脉搏波(PPG)传感器、红外线(IR)传感器、虹膜传感器和/或指纹传感器。传感器模块1140还可以包括控制电路，以用于控制包括在其中的至少一个或多个传感器。根据本公开的实施例，电子设备1101可以进一步包括处理器，其是处理器1110的一部分或者独立于处理器1110，并且被配置为控制传感器模块1140。处理器可以在处理器1110处于睡眠模式的时候控制传感器模块1140。

例如，输入设备1150可以包括触摸面板1152、(数字)笔传感器1154、键1156、或超声输入单元1158。例如，触摸面板1152可以采用电容式、电阻式、红外线、和超声波检测方法中的至少一个。此外，触摸面板1152还可以包括控制电路。触摸面板1152还可以包括触觉层以向用户提供触觉反应。

例如，(数字)笔传感器1154可以是触摸面板的一部分或者可以包括用于识别的附加片。例如，键1156可以包括物理按钮、光学键、键盘等。超声波输入单元1158可以通过麦克风(例如，麦克风288)检测(或者感应)从输入设备生成的超声波信号，并且可以确定与检测到的超声波信号相对应的数据。

显示器1160(例如，显示器160)可以包括面板1162、全息图设备1164、或投影仪1166。面板1162可以与图1中的显示器160相同或相似地配置。面板1162和触摸面板1152可以被集成到单个模块中。全息图设备1164可以使用光干涉现象来在空中显示立体图像。投影仪1166可以将光投射到屏幕上以显示图像。屏幕可以被安排在电子设备1101的内部或外部。根据本公开的实施例，显示器1160还可以包括控制电路，以控制面板1162、全息图设备1164或投影仪1166。

例如，接口1170可以包括HDMI(高清晰度多媒体接口)1172、USB(通用串行总线)1174、光学接口1176、或D-Sub(D-超小型)1178。例如，接口1170可以被包括在图1所示的通信接口170中。附加地或一般地，例如，接口1170可以包括移动高清链路(MHL)接口、SD卡/多媒体卡(MMC)接口、或红外数据协会(IrDA)标准接口。

音频模块1180可以双向转换语音和电信号。例如，音频模块1180的至少一部分可以被包括在图1所示的输入/输出接口150中。例如，音频模块1180可以处理通过扬声器1182、接收器1184、耳机1186、或麦克风1188输入或输出的声音信息。

例如，用于拍摄静态图像或视频的相机模块1191可以包括至少一个图像传感器(例如，前传感器或后传感器)、镜头、图像信号处理器(ISP)或闪光灯(例如，LED或氙灯)。

例如，功率管理模块1195可以管理电子设备1101的功率。根据本公开的实施例，功率管理模块1195中可以包括电源管理集成电路(PMIC)、充电器IC、或电池或燃料计(fuelgauge)。PMIC可以具有有线充电方法和/或无线充电方法。例如，无线充电方法可以包括磁共振方法、磁感应方法或电磁方法，并且还可以包括附加电路，例如，线圈回路、谐振电路或整流电路等。例如，电池计可以测量电池1196的剩余电量，以及在对电池充电时电池的电压、电流或温度。例如，电池1196可以包括可充电电池或太阳能电池。

指示器1197可以显示电子设备1101或它的一部分(例如，处理器1110)的特定状态，诸如引导状态、消息状态、充电状态等。马达1198可以将电信号转换成机械振动且可以产生以下效果：振动、触觉等。虽然未示出，但是电子设备1101中可以包括用于支持移动TV的处理设备(例如，GPU)。用于支持移动TV的处理设备可以处理根据DMB、数字视频广播(DVB)、MediaFLo^TM等的标准的媒体数据。

根据本公开的各种实施例的电子设备的上述元件中每一个可以配置有一个或多个组件，并且相应元件的名称可以根据电子设备的类型而变化。根据本公开的各种实施例，根据本公开的各种实施例的电子设备可以包括上述元件中的至少一个，可以不包括上述元件中的一些，或者可以添加其他附加元件。此外，根据本公开的各种实施例的电子设备中的一些元件可以被配置为相互组合以形成一个实体，从而这些元件的功能可以以与组合之前相同的方式来执行。

图12示出了根据本公开的各种实施例的程序模块的框图。

参照图12，根据本公开的实施例，程序模块1210(例如，程序140)可以包括用于控制与电子设备(例如，电子设备101)相关联的资源的操作系统(OS)和/或在OS上驱动的各种应用(例如，应用程序147)。例如，OS包括Android、iOS、Windows、Symbian、Tizen或Bada。

程序模块1210可以包括内核1220、中间件1230、应用编程接口(API)1260和/或应用1270。程序模块1210中的至少一部分可以被预加载在电子设备上，或者可以是可从外部电子设备(例如，外部电子设备102或104、服务器106等)下载的。

例如，内核1220(例如，内核141)可以包括系统资源管理器1221或设备驱动程序1223。系统资源管理器1221可以执行系统资源的控制、分配或检索。根据本公开的实施例，系统资源管理器1221可以包括处理管理部件、存储器管理部件或文件系统管理部件。例如，设备驱动器1223可以包括显示驱动器、相机驱动器、蓝牙驱动器、公共存储器驱动器、USB驱动器、键盘驱动器、WiFi驱动器、音频驱动器或进程间通信(IPC)驱动器。

例如，中间件1230可以提供应用1270共同需要的功能，或者可以通过API 1260向应用1270提供各种功能以使得应用1270有效地使用电子设备的有限系统资源。根据本公开的实施例，中间件1230(例如，中间件143)可以包括运行时间库1235、应用管理器1241、窗口管理器1242、多媒体管理器1243、资源管理器1244、功率管理器1245、数据库管理器1246、分组管理器1247、连接管理器1248、通知管理器1249、位置管理器1250、图形管理器1251、或安全管理器1252中的至少一个。

例如，运行时库1235可以包括由编译器使用以便当应用1270运行时通过编程语言来添加新功能的库模块。运行时间库1235可以执行输入/输出管理、存储器管理、或关于算术函数的能力。

例如，应用管理器1241可以管理应用1270当中的至少一个应用的生命周期。窗口管理器1242可以管理在屏幕中使用的GUI资源。多媒体管理器1243可以识别用于播放各种媒体文件所需的格式，并且可以通过使用适合于所述格式的编解码器来执行媒体文件的编码或解码。资源管理器1244可以管理资源，诸如应用1270中的至少一个应用的存储空间、存储器或源代码。

例如，功率管理器1245可以与基本输入/输出系统(BIOS)一起操作以管理电池或功率，并且提供用于操作电子设备的功率信息。数据库管理器1246可以生成、搜索或修改在应用1270当中的至少一个应用中使用的数据库。分组管理器1247可以安装或更新以分组文件的格式发布的应用。

例如，连接管理器1248可以管理无线连接，诸如WiFi或蓝牙。通知管理器1249可以以不打扰用户的模式显示或通知事件，诸如到达消息、许诺或接近通知。位置管理器1250可以管理电子设备的位置信息。图形管理器1251可以管理将要提供给用户的图形效果或者管理与其相关的用户界面。安全管理器1252可以提供系统安全性或用户认证所需的一般安全功能。根据本公开的实施例，在电子设备(例如，电子设备101)包括电话功能的情况下，中间件1230可以进一步包括用于管理电子设备的语音或视频呼叫功能的电话管理器。

中间件1230可以包括组合了上述组件的各种功能的中间件模块。中间件1230可以提供专用于每种OS类型的模块，以提供差异化功能。此外，中间件1230可以动态地移除现有组件的一部分，或者可以向其添加新的组件。

例如，API 1260(例如，API 145)可以是编程功能的集合，并且被提供为根据OS可变的配置。例如，在OS是Android或iOS的情况下，可以允许为每个平台提供一个API 1260集合。在OS是Tizen的情况下，可以允许为每个平台提供两个或更多个API 1260集合。

例如，应用1270(例如，应用程序147)可以包括用于提供功能的一个或多个应用，诸如主页1271、拨号器1272、SMS/MMS 1273、即时消息(IM)1274、浏览器1275、相机1276、闹钟1277、联系人1278、语音拨号器1279、电子邮件1280、日历1281、媒体播放器1282、照片集1283和时钟1284，或者提供健康保健(例如，测量锻炼量或血糖)或环境信息(例如，气压、湿度或温度)。

根据本公开的实施例，应用1270可以包括用于支持电子设备(例如，电子设备101)和外部电子设备(例如，外部电子设备102或104)之间的信息交换的应用(为了便于描述，以下称为“信息交换应用”)。例如，信息交换应用可以包括用于将特定信息发送到外部电子设备的通知中继应用，或用于管理外部电子设备的设备管理应用。

例如，信息交换应用可以包括将从其他应用(例如，用于SMS/MMS、电子邮件、卫生保健或环境信息的应用)发生的通知信息发送到外部电子设备(例如，外部电子设备102或104)的功能。此外，信息交换应用可以从外部电子设备接收通知信息，并且可以将通知信息提供给用户。

例如，设备管理应用可以管理(例如，安装、删除或更新)与电子设备101通信的外部电子设备(例如，外部电子设备102或104)的至少一个功能(外部电子设备本身(或一部分组件)的开启/关闭或者显示器的亮度(或分辨率)的调整)，在外部电子设备中运行的应用，或者从外部电子设备提供的服务(例如，呼叫服务或消息服务)。

根据本公开的实施例，应用1270可以包括根据外部电子设备(例如，外部电子设备102或104)的属性(例如，作为一种电子设备的移动医疗设备的属性)而被分配的应用(例如，卫生保健应用)。根据本公开的实施例，应用1270可以包括从外部电子设备(例如，外部服务器106或电子设备102或104)接收到的应用。根据本公开的实施例，应用1270可以包括预加载的应用或从服务器下载的第三方应用。根据所示的实施例的程序模块1210中的组件的名称可以根据OS的种类而修改。

根据本公开的各种实施例，程序模块1210的至少一部分可以通过软件、固件、硬件或它们的两个或更多个的组合来实施。例如，程序模块1210的至少一部分可以由处理器(例如，处理器120)实施(例如，运行)。例如，程序模块1210的至少一部分可以包括用于执行一个或多个功能的模块、程序、例程、指令集、进程等。

在这里使用的术语“模块”可以表示，例如，包括硬件、软件和固件的一个或多个组合的单元。术语“模块”可以与术语“单元”、“逻辑”、“逻辑块”、“组件”或“电路”交换使用。“模块”可以是集成组件的最小单元，或者可以是其一部分。“模块”可以是用于执行一个或多个功能的最小单元或其一部分。“模块”可以机械地或电子地实施。例如，“模块”可以包括执行一些操作的专用IC(ASIC)芯片、现场可编程门阵列(FPGA)和可编程逻辑设备中的至少一个，它们是已公知的或将被开发的。

例如，根据本公开的各种实施例的装置(例如，其模块或功能)或方法(例如，操作)中的至少一部分可以通过以程序模块的形式存储在计算机可读存储介质中的指令来实施。当一个或多个处理器(例如，处理器120)运行所述指令时，可以使得一个或多个处理器执行与指令相对应的功能。例如，计算机可读存储介质可以是存储器130。

计算机可读存储介质可以包括硬盘，磁介质，软盘，磁介质(例如，磁带)，光学介质(例如，压缩盘只读存储器(CD-ROM)和数字多功能碟(DVD)，磁光介质(例如，可光读盘)，和硬件设备(例如，只读存储器(ROM)、随机存取存储器(RAM)、或闪速存储器)。此外，程序指令不仅可以包括由编译器创建的机器代码，而且还可以包括可由计算机使用解释器来运行的高级语言代码。以上硬件单元可以被配置以经由用于执行本公开的操作的一个或多个软件模块来操作，反之亦然。

例如，计算机可读存储介质可以包括指令，当指令被运行时使得电子设备生成关于相对于第一图像或视频接收到的语音的语音数据，链接语音数据，或者基于语音数据来链接第一元数据信息，确定第二图像或视频与第一图像或视频之间的关系，并且基于所确定的关系的至少一部分将(1)语音数据，(2)第一元数据信息，或(3)从语音数据和/或第一元数据信息生成的第二元数据信息中的至少一个与第二图像或视频链接。此外，可以额外地或者一般地包括用于执行上述方法的指令。

根据本公开的各种实施例的模块或编程模块可以包括以上元件中的至少一个，或者可以省略以上元件中的一部分，或者还包括附加的其他元件。由根据本公开的各种实施例的模块、编程模块或其他元件执行的操作可以按顺序地、并行地、重复地或启发式方法运行。此外，一部分操作可以以不同的顺序运行，可以被省略，或者可以添加其他操作。

根据本公开的各种实施例，用户可以使用语音标签管理或搜索存储在电子设备或另一位置(设备)中的多个照片当中的期望照片。例如，用户可以相对于特定照片或者与特定照片有关系的照片来注册语音标签，并且可以使用相应的语音标签来搜索期望照片。

虽然已经参照本公开的各种示例性实施例示出和描述了本公开，但是本领域术人员应当理解，可以在形式和细节上对其做出各种改变而不脱离由所附权利要求及其等同定义的本公开的精神和范围。

Claims

1.一种电子设备，包括：

语音输入模块；

显示器；

存储器；以及

处理器，电连接至语音输入模块和存储器，

其中，存储器被配置为存储一个或多个图像或视频，以及

其中，存储器包括指令，所述指令当由处理器运行时，使得电子设备：

生成相对于存储在存储器中的第一图像或视频的、关于通过语音输入模块接收到的语音的语音数据，

基于语音数据将语音数据或第一元数据信息与第一图像或视频链接，

确定存储在存储器中的第二图像或视频与第一图像或视频之间的关系，并且

基于存储在存储器中的第二图像或视频与第一图像或视频之间的所确定的关系的至少一部分，将(1)语音数据，(2)第一元数据信息，或(3)从语音数据和/或第一元数据信息生成的第二元数据信息中的至少一个与第二图像或视频链接；

其中，所述指令当由处理器运行时，使得电子设备进一步在显示器上显示包括与语音数据相对应的第一语音标签的语音标签的列表。

2.如权利要求1所述的电子设备，其中，所述电子设备以标签形式将第一元数据信息与第一图像或视频链接，并且其中电子设备被配置为以标签形式将(1)语音数据，(2)第一元数据信息，或(3)第二元数据信息中的至少一个与第二图像或视频链接。

3.如权利要求1所述的电子设备，其中，第一元数据信息包括从语音数据提取的语言到文本信息。

4.如权利要求1所述的电子设备，其中，所述电子设备被配置为使用与第一图像或视频和第二图像或视频相关联的图像分析、位置信息、时间信息、文本信息或面部识别信息中的至少一个来确定关系。

5.一种电子设备，包括：

语音输入模块，被配置为接收来自外部的语音以生成语音数据；

通信模块；

显示器；

存储器；以及

处理器，电连接至语音输入模块、通信模块和存储器，

其中，存储器被配置为存储一个或多个图像或视频，以及

通过通信模块向电子设备的外部发送第一图像或视频以及链接的语音数据或第一元数据信息，

向电子设备的外部发送用于要求与链接的语音数据或第一元数据信息相关联的一个或多个图像或视频的请求，并且

从电子设备的外部接收与(1)语音数据，(2)第一元数据信息，或(3)从语音数据和/或第一元数据信息生成的第二元数据信息链接的一个或多个图像或视频；以及

6.如权利要求5所述的电子设备，其中，所述列表包括分别与语音标签相对应的图标或文本。

7.一种电子设备，包括：

语音输入模块，被配置为获得关于特定图像的语音数据；

显示器；以及

处理器，被配置为：

分析语音数据以确定特定图像的元数据信息的至少一部分，

相对于特定图像将语音数据注册为语音标签；

相对于多个图像当中的满足相对于特定图像的特定参考或所确定的元数据信息的至少一个关联图像，将语音数据注册为语音标签；以及

显示包括与语音数据相对应的语音标签的语音标签的列表。

8.如权利要求7所述的电子设备，其中，多个元数据信息包括关于捕获特定图像的位置或时间的信息、关于捕获特定图像的设备的信息或者关于特定图像的拍摄模式的信息中的至少一个。

9.如权利要求7所述的电子设备，进一步包括：

拍摄模块，

其中，如果由拍摄模块捕获特定图像，则处理器被配置为激活语音输入模块，以指导获得语音数据。

10.如权利要求7所述的电子设备，其中，所述处理器被配置为如果选择特定图像，则提供用于引导获得语音数据的用户界面(UI)。

11.如权利要求7所述的电子设备，其中，所述处理器被配置为相对于所述至少一个关联图像连同语音标签一起注册通过将语音数据转换成文本所获得的文本标签。

12.如权利要求7所述的电子设备，其中，所述处理器被配置为使用出现在特定图像中的对象来分析语音数据。

13.如权利要求8所述的电子设备，其中，所述处理器被配置为基于语音数据的分析结果与多个信息中的每个，确定关于位置、时间、捕获特定图像的设备、和拍摄模式的信息当中的元数据信息的至少一部分。

14.如权利要求13所述的电子设备，其中，所述处理器被配置为将所述多个图像当中的、包括属于在特定图像的位置的特定范围内的位置信息作为元数据信息的图像确定为所述至少一个关联图像。

15.如权利要求13所述的电子设备，其中，所述处理器被配置为将所述多个图像当中的、包括属于在特定图像的时间的特定范围内的时间信息作为元数据信息的图像确定为所述至少一个关联图像。

16.如权利要求13所述的电子设备，其中，所述处理器被配置为将所述多个图像当中的、包括与特定图像的时间具有特定关系的位置信息作为元数据信息的图像确定为所述至少一个关联图像。

17.如权利要求7所述的电子设备，其中，所述处理器被配置为将所述多个图像当中的、具有与特定图像阈值或以上的相似性的图像确定为所述至少一个关联图像。

18.如权利要求7所述的电子设备，其中，所述多个图像中的至少一部分被存储在与所述电子设备在功能上连接的外部设备上，而且

其中，所述电子设备还包括：

与所述外部设备通信的通信模块。

19.如权利要求7所述的电子设备，其中，所述处理器还被配置为响应于从列表中选择与语音数据相对应的语音标签来再现语音数据。

20.如权利要求7所述的电子设备，其中，所述处理器还被配置为响应于从列表中选择与语音数据相对应的语音标签来搜索所述至少一个关联图像。