CN108255917A

CN108255917A - 图像管理方法、设备及电子设备

Info

Publication number: CN108255917A
Application number: CN201710833888.0A
Authority: CN
Inventors: 吴伟勇
Original assignee: Guangzhou Dongjing Computer Technology Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2017-09-15
Filing date: 2017-09-15
Publication date: 2018-07-06
Anticipated expiration: 2037-09-15
Also published as: CN108255917B

Abstract

本发明公开了一种图像管理方法、设备及电子设备。该方法包括：接收语音检索信息，并识别语音检索信息的语种；根据语音检索信息及其语种，检索目标图像集合，以得到与语音检索信息对应的目标图像。根据本发明，可以通过语音有效检索对应的图像，提高图像管理效率，提升用户的图像管理体验。特别适用于检索具有多语种的关联语音信息的图像。

Description

图像管理方法、设备及电子设备

技术领域

本发明涉及图像处理技术领域，更具体地，涉及一种图像管理方法、设备及电子设备。

背景技术

随着互联网技术的飞速发展、硬件制造技术升级以及智能终端的普及，配置有摄像头等摄像单元的移动设备例如手机、平板电脑、数码视听装置等，由于其移动性、便携性，已渐渐取代专门的数码摄像产品例如数目相机，成为拍摄图像的常用设备。越来越多的用户习惯于通过移动设备拍摄图像，来记录生活的各个片段例如旅行出游的点滴、进行自拍满足个人社交需求、拍摄商品实物或者个人买家秀等来分享购买信息、记录突发状况还原现场等等。

用户拍摄图像都具有对应的目的。例如，拍摄旅行出游的图像，是为了记忆存储，以便经年之后可以通过拍摄的图像回顾当时情景；拍摄购买的商品实物或者个人买家秀，是通过社交应用分享给其他用户以使得更多人可以还原突发事件的现场等等。因此，用户需要对已拍摄的多张具有不同拍摄目的的图像进行管理，可以实现对已拍摄的多张图像进行有效检索，得到对应的图像，以支持该图像的查看、分享等。

但是，目前拍摄图像、存储图像的移动设备例如手机，通常只提供对拍摄的图像提供对图像进行重命名、基于图像的文件名进行检索等简单的图像管理功能，尽管某些移动设备对此进行改进，提供通过对图像增加语音备注信息的功能，但是，却不能支持针对语音备注信息的图像检索，无法满足用户通过语音检索到匹配的图像的需求，影响用户体验。

因此，发明人认为，有必要对上述现有技术中存在的问题进行改进。

发明内容

本发明的一个目的是提供一种用于图像管理的新技术方案。

根据本发明的第一方面，提供了一种图像管理方法，包括：

接收语音检索信息，并识别所述语音检索信息的语种；

根据所述语音检索信息及其语种，检索目标图像集合，以得到与所述语音检索信息对应的目标图像；

其中，所述目标图像集合中包含多张具有关联信息的图像；

所述关联信息至少包括关联语音信息、关联语种信息；

所述关联语音信息与对应的图像唯一关联；

所述关联语种信息包括所述关联语音信息的所有语种。

可选地，所述识别所述语音检索信息的语种的步骤，包括：

转换所述语音检索信息得到对应的文本检索信息，根据所述文件检索信息识别所述语音检索信息的语种。

可选地，所述根据所述语音检索信息以及对应的语种，检索目标图像集合的步骤包括：

转换所述语音检索信息得到对应的文本检索信息，并转换目标图像集合中全部图像的所述关联语音信息，得到对应的关联文本信息；

获取与所述目标图像集合对应的语种集合，

所述语种集合包括所述目标图像集中所有图像的所述关联语种信息包括的语种；

当所述语种集合中存在与所述语音检索信息的语种不同的其他语种时，转换所述文本检索信息，得到与所述其他语种对应的扩展文本检索信息；

根据所述文本检索信息以及所述扩展文本检索信息，在所述关联文本信息中检索，确定存在与所述文本检索信息或扩展文本检索信息对应的目标关联文本信息时，得到与所述目标关联文本信息唯一对应的所述目标图像。

可选地，

所述关联信息还包括与所述关联语音信息对应的关联文本信息；

所述根据所述语音检索信息以及对应的语种，检索目标图像集合的步骤包括：

将所述语音检索信息转换为对应的文本检索信息；

获取与所述目标图像集合对应的语种集合，

可选地，所述根据所述文本检索信息以及所述扩展文本检索信息，在所述关联文本信息中检索的步骤包括：

根据所述文本检索信息，在与所述文本检索信息对应相同语种的关联文本信息中检索，确定是否存在与所述文本检索信息对应的目标关联文本信息；以及

根据所述扩展文本检索信息，在与所述扩展文本检索信息对应相同语种的关联文本信息中检索，确定是否存在与所述文本检索信息对应的目标关联文本信息。

可选地，在获取所述语种集合的步骤之前，根据所述文本检索信息，在与所述文本检索信息对应相同语种的关联文本信息中检索；

当确定不存在与所述文本检索信息对应的目标关联文本信息时，执行所述获取语种集合、得到所述扩展检索文本信息的步骤，并根据所述扩展文本检索信息，在与所述扩展文本检索信息对应相同语种的关联文本信息中检索。

可选地，所述方法还包括：

当所述语音检索信息包括多种语种的语音时，根据多种语种中每一种语种，所述语音检索信息转换为对应的文本检索信息。

可选地，所述方法还包括：

当所述关联语音信息包括多种语种的语音时，对应的所述关联文本信息中包括每一种语种的语音转换的关联文本。

可选地，所述方法还包括：

提供图像关联语音界面，以供用户操作录入语音并与图像进行关联；

响应于用户对所述图像关联语音界面的操作，将用户录入的语音存储为对应图像的关联语音信息，并识别所述关联语音信息的语种存储为所述关联语种信息。

可选地，所述方法还包括：

分别对所述关联语种信息中包含每一种语种的语音，转换得到对应的关联文本，以得到包括所有所述关联文本的关联文本信息。

可选地，所述方法还包括：

提供图像查看界面，以供用户操作查看所述目标图像、播放所述目标图像的所述关联语音信息；

和/或

提供图像分享界面，以供用户操作将所述目标图像以及所述目标图像的关联语音信息分享至对应的应用。

根据本发明的第二方面，提供一种图像管理设备，包括：

接收单元，用于接收语音检索信息，并识别所述语音检索信息的语种；

检索单元，用于根据所述语音检索信息及其语种，检索目标图像集合，以得到与所述语音检索信息对应的目标图像；

其中，所述目标图像集合中包含多张具有关联信息的图像；

所述关联信息至少包括关联语音信息、关联语种信息；

所述关联语音信息与对应的图像唯一关联；

所述关联语种信息包括所述关联语音信息的所有语种。

根据本发明的第三方面，提供一种电子设备，包括存储器和处理器，其中，存储器用于存储可执行指令，所述可执行指令用于在所述电子设备运行时控制所述处理器执行本发明第一方面提供的任意一项图像管理方法，包括：

接收语音检索信息，并识别所述语音检索信息的语种；

其中，所述目标图像集合中包含多张具有关联信息的图像；

所述关联信息至少包括关联语音信息、关联语种信息；

所述关联语音信息与对应的图像唯一关联；

所述关联语种信息包括所述关联语音信息的所有语种。

本发明的发明人发现，在现有技术中，不能提供通过语音检索图像的图像管理功能，无法满足用户的相应需求，影响用户体验。因此，本发明所要实现的技术任务或者所要解决的技术问题是本领域技术人员从未想到的或者没有预期到的，故本发明是一种新的技术方案。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是显示可用于实现本发明的实施例的电子设备的硬件配置的例子的框图。

图2示出了本发明的实施例中的图像管理方法的流程图。

图3示出了本发明的实施例中的搜索目标图像的步骤的流程图。

图4示出了本发明的实施例中的搜索目标图像的步骤又一流程图。

图5示出了本发明的实施例中的搜索目标图像的步骤又一流程图。

图6示出了本发明的实施例中的搜索目标图像的步骤又一流程图。

图7示出了本发明的实施例中的图像管理方法的例子的流程图。

图8示出了本发明的实施例的图像管理设备的框图。

图9示出了本发明的实施例的电子设备的框图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

<硬件配置>

图1是示出可以实现本发明的实施例的电子设备1000的硬件配置的框图。

电子设备1000可以是便携式电脑、台式计算机、手机、平板电脑等。如图1所示，电子设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中，处理器1100可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400例如能够进行有线或无线通信，具体地可以包括Wifi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。用户可以通过扬声器1700和麦克风1800输入/输出语音信息。

图1所示的电子设备仅仅是说明性的并且决不意味着对本发明、其应用或使用的任何限制。应用于本发明的实施例中，电子设备1000的所述存储器1200用于存储可执行指令，所述可执行指令用于控制所述处理器1100进行操作以执行本发明实施例提供的任意一项图像管理方法。

本领域技术人员应当理解，尽管在图1中对电子设备1000示出了多个装置，但是，本发明可以仅涉及其中的部分装置，例如，电子设备1000只涉及处理器1100和存储装置1200。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

<实施例>

本发明实施例的总体构思，是提供一种可以基于语音管理图像的新技术方案，根据语音检索信息以及对应的语种，检索具有关联语音信息的图像，使得用户可以通过语音有效检索对应的图像，提高图像管理效率，提升用户的图像管理体验。特别适用于检索具有多语种的关联语音信息的图像。

<方法>

在本实施例中提供一种图像管理方法，如图2所示，包括：

步骤S2100，接收语音检索信息，并识别所述语音检索信息的语种。

在本实施例中，图像可以是用户拍摄的照片、通过网络下载的图片、通过应用程序例如社交类应用、购物类应用分享的图片、电子设备的屏幕截图等。

语音检索信息可以是包含检索关键字、关键词或关键语句的语音信息，可以是用户通过可实施本实施例的设备(例如图1所示的电子设备1000)输入的语音，或者预先存储的录音信息等。

例如，用户曾经拍摄过一张武汉大桥的图像，用户可以通过录入语音“桥”、“大桥”或“武汉大桥”作为语音检索信息。

语音检索信息的语种，是指语音检索信息对应的语言的种类。语言的种类是语言学家根据语言的相似程度划分的语言的种类。总所周知，全世界的语言种类几千种，汉语、英语、日语、韩语是目前常见的语种。

在本实施例中，识别语音检索信息的语种可以是多种方式，例如，可以转换所述语音检索信息得到对应的文本检索信息，根据所述文件检索信息识别所述语音检索信息的语种。

以语音检索信息为“大桥”为例，将语音“大桥”转换为检索文本信息即文字“大桥”，可以通过识别文本“大桥”为中文，确定对应的语种为汉语；而假设语音检索信息为“bridge”，将语音“bridge”转换为检索文本信息即文字“bridge”，可以通过识别文本“bridge”为英文，确定对应的语种为英语等等。

在本实施例中，将语音检索信息转换为文本检索信息的具体实施方式可以通过例如Speech To Text这类语音转换文本的引擎系统实现，或者通语音转换文本的例如基于HMM(Hidden Markov Model，隐马尔可夫模型)的语音识别文本算法实现，在此不做限制。

识别语音检索信息的语种还可以是通过现有的语种识别算法(languagerecognition)进行识别，在此不再赘述。

在步骤S2100之后，进入步骤S2200，

根据语音检索信息及其语种，检索目标图像集合，以得到与语音检索信息对应的目标图像。

在本实施例中，目标图像集合中包含多张具有关联信息的图像。

关联信息至少包括关联语音信息、关联语种信息，关联语音信息与对应的图像唯一关联，关联语种信息包括所述关联语音信息的所有语种。

目标图像集合是包括可被检索的图像的资源集合，例如，可以是在实施本实施例的设备提供的本地存储中的图库，或者是某个应用提供的图像资源库，比如社交应用平台通过用户分享的图片构建的图片资源库，或者是网络上的图片资源服务器提供的图片资源等。

目标图像集合中包括多张具有关联信息的图像。对于不具有关联信息的普通图像，例如拍摄的图像、从网络下载的图像、其他用户分享的图像，本实施例中还可以实现为上述普通图像添加关联信息。

例如，本实施例中提供的图像管理方法还可以包括：

图像关联语音界面，是用于实施为图像添加关联语音信息的人机交互界面，可以是用户拍摄图像后、接收网络下载或者其他用户分享的图像后，以提醒点击弹出、按钮内容提示点击弹出、直接展示等方式展示给用户，用户可以通过操作该界面，录入期望与图像进行关联的语音。

而通过本实施例的方法，在用户操作该界面后录入语音后，将该语音存储为对应图像的关联语音信息，可以通过提供界面供用户操作设置语种、或者根据前述识别语音检索信息的语种的相同方法，识别关联语音信息的语种，并存储为关联语种信息。

例如，用户拍摄了一张武汉大桥的照片，操作图像关联语音界面录入语音“Hello，武汉大桥，I love you”，关联与武汉大桥的照片。

响应于用户的操作，将语音“Hello，武汉大桥，I love you”存储为武汉大桥的照片的关联语音信息，并且将关联语音信息转换为关联文本信息“Hello，武汉大桥，I loveyou”，识别出对应的关联语音的语种为汉语、英语，存储为关联语种信息。从而得到一张具有关联信息的武汉大桥的图片，关联信息包括：

关联语音信息：“Hello，武汉大桥，I love you”；

关联语种信息：汉语、英语。

当关联信息还可以包括关联文本信息时，在上述的图像管理方法，为普通图像添加关联信息时，还可以包括：

继续以上述武汉大桥的照片为例，关联语种信息为：汉语、英语。

对于汉语的语音“武汉大桥”，转换得到对应的中文的关联文本“武汉大桥”；

对于英语的语音“Hello”、“I Love You”，转换得到对应的英文的关联文本“Hello”,”I Love You”。

从而得到关联文本信息为：

汉语：“武汉大桥”；

英语：“Hello”、“I love you”。

因此可以得到武汉大桥照片的关联信息为：

武汉大桥照片{

关联语音信息：“Hello，武汉大桥，I love you”的语音；

关联语种信息：[“汉语”,“英语”]；

关联文本信息：{

“汉语”:[“武汉大桥”]；

“英语”：[“Hello”、“I love you”]；

}

通过步骤S2200，根据语音检索信息及其语种，检索目标图像集合中的具有关联信息的图像，实现根据语音检索信息的语种进行语种区分检索，提高图像检索的准确度。

在一个例子中，步骤S2200可以如图3所示，包括：

步骤S2210，转换语音检索信息得到对应的文本检索信息，并转换全部关联语音信息，得到对应的关联文本信息。

转换语音检索信息得到对应的文本检索信息，可以通过例如SpeechTo Text这类语音转换文本的引擎系统实现，或者通语音转换文本的例如基于HMM(Hidden MarkovModel，隐马尔可夫模型)的语音识别文本算法实现，在此不做限制。

语音检索信息可能存在包括多种语种的语音，例如，用户输入的语音检索信息是“Hello，桥”。

在本例中图像管理方法，还可以包括：当语音检索信息包括多种语种的语音时，根据多种语种中每一种语种，语音检索信息转换为对应的文本检索信息。

以上例用户输入的语音检索信息是“Hello，桥”时，涉及的语种是汉语、英语，转换对应的文本检索信息可以是“你好，桥”以及“Hello，bridge”。

转换全部关联语音信息，是指对目标图像集合中包括的所有图像的关联信息中的关联语音信息都分别做转换，得到对应的关联文本信息，具体实施转换的方式可以如上述采用Speech To Text或者基于HMM的语音识别文本算法，在此不做限制。

在一个例子中，当所述关联语音信息包括多种语种的语音时，对应的关联文本信息中包括每一种语种的语音转换的关联文本。

例如，前述的武汉大桥照片的例子，关联语音信息“Hello，武汉大桥，I loveyou”，关联文本信息中包括汉语的关联文本“武汉大桥”以及英语的关联文本“Hello”、“Ilove you”。

步骤S2220，获取与目标图像集合对应的语种集合，

该语种集合包括目标图像集中所有图像的所述关联语种信息包括的语种。

例如，目标图像集合中包括三张图片X、Y、Z，图片X的关联语种信息是汉语，图片Y的关联语种信息是日语、英语，图片Z的关联语种是汉语、英语，则对应的语种集合是{汉语，日语，英语}。

在本实施例中，可以在实施图像检索之前，预先生成目标图像集合应的语种集合并存储以供获取。例如，可以在创建目标图像集合时，根据目标图像集合中包括所有图片的关联语种信息生成对应的语种集合并存储，在目标图像集合包括的图像增加、删除时，也对应地更新对应的语种集合。在已经预先生成语种集合时，步骤S2220中，可以直接获取该语种集合。

或者，也可以在执行步骤S2220时，根据目标图像集合当前包括的所有图片的关联语种信息，实时生成获取对应的语种集合。

步骤S2230，当语种集合中存在与语音检索信息的语种不同的其他语种时，转换文本检索信息，得到与其他语种对应的扩展文本检索信息。

例如，语种集合中包括语种X、Y、Z，语音检索信息的语种是X，对应的文本检索信息是文本T_X，将T_X转换为与语种Y对应的文本T_Y、与语种Z对应的文本T_Z，即扩展文本检索信息包括文本T_Y，文本T_Z。

以语种集合中包括汉语、英语，语音检索信息是英语语音“bridge”为例，语音检索信息的语种是英语，对应的文本检索信息是英文文本“bridge”，将英文文本“bridge”转换得到与语种汉语对应的扩展文本检索信息：中文文本“桥”。

转换文本检索信息得到其他语种对应的扩展文本检索信息，可以使用文本翻译算法进行语种之间的转换翻译来实现，也可以预先构建的将不同语种的同语义文本关联的同语义文本关联索引库，通过查询该同语义文本关联索引库中文本检索信息其他语种的同语义文本，得到对应的扩展文本检索信息，等等。

应当理解的是，当语种集合中只包括语音检索信息的语种时，可以直接根据文本检索信息检索目标图像集合中的全部图像的关联文本信息，确定存在与所述文本检索信息对应的目标关联文本信息时，得到与所述目标关联文本信息唯一对应的所述目标图像，而不再执行所述步骤S2230、S2240。

步骤S2240，根据文本检索信息以及扩展文本检索信息，在关联文本信息中检索，确定存在与文本检索信息或扩展文本检索信息对应的目标关联文本信息时，得到与目标关联文本信息唯一对应的所述目标图像。

继续以上述文本检索信息为英文文本“bridge”、扩展文本检索信息中文文本“桥”为例，假设目标图像集合中包括前述例子中的武汉大桥的图片，其关联文本信息包括：中文文本“武汉大桥”、英文文本“Hello”“I love you”,还包括一张日出的图像，关联语音信息是“Good morning，心情好吗？”，其关联文本信息包括：中文文本“心情好吗”，英文文本“Good morning”；可被检索的关联文本信息包括：中文文本“武汉大桥”、“心情好吗”，英文文本“Hello”“I love you”“Good morning”。

根据“bridge”，在包括中文文本、英文文本的关联文本信息中检索，无结果；再根据“桥”在该关联文本信息中检索，确定存在对应“桥”的目标关联文本信息“武汉大桥”，得到与“武汉大桥”唯一对应的目标图像。

出于提升检索效率的目的，以单语种的检索文本信息或扩展检索文本信息，在多语种的关联文本信息中检索，可以只在与检索文本信息或扩展检索文本信息的语种相同的关联文本信息中进行针对性检索。因此，一个例子中，可以如图4所示，步骤S2240可以包括：

步骤S2241，根据文本检索信息，在与文本检索信息对应相同语种的关联文本信息中检索，确定是否存在与文本检索信息对应的目标关联文本信息；以及

步骤SS2242，根据扩展文本检索信息，在与扩展文本检索信息对应相同语种的关联文本信息中检索，确定是否存在与文本检索信息对应的目标关联文本信息。

继续以上述文本检索信息为英文文本“bridge”、扩展文本检索信息中文文本“桥”为例，被检索的关联文本信息包括：中文文本“武汉大桥”、“心情好吗”，英文文本“Hello”“Ilove you”“Good morning”时，可以根据“bridge”在“Hello”、“I love you”、“Goodmorning”中检索，以及根据“桥”在“武汉大桥”、“心情好吗”中检索，区分语种进行单语种检索，提升检索效率。

应当理解的是，在本例中，上述两个步骤S2241、S2242，可以是并行实施的，也可以是根据具体的应用场景设置先后顺序，这是根据本例所公开的内容，很容易得到的。

而为进一步提升检索效率，在另一个例子中，可以如图5所示，还可以在实施步骤S2220获取语种集合的步骤之前，

执行步骤S2211，根据文本检索信息，在与文本检索信息对应相同语种的关联文本信息中检索；

当确定不存在与文本检索信息对应的目标关联文本信息时，才执行步骤S2220、步骤SS2230，并执行步骤S2231，根据所扩展文本检索信息，在与扩展文本检索信息对应相同语种的关联文本信息中检索。

继续以上述文本检索信息为英文文本“bridge”为例，被检索的关联文本信息包括：中文文本“武汉大桥”、“心情好吗”，英文文本“Hello”“I love you”“Good morning”时：

先根据“bridge”，在与“bridge”语种相同的英文文本“Hello”“I love you”“Goodmorning”中检索，检索无结果后，再将英文文本“bridge”转换为中文文本“桥”，在中文文本“武汉大桥”、“心情好吗”中检索，确定存在对应“桥”的目标关联文本信息“武汉大桥”，得到与“武汉大桥”唯一对应的目标图像。

而当文本检索信息为“桥”时，在搜素与“桥”语种相同的中文文本“武汉大桥”、“心情好吗”时就可以得到目标图像，从而不必执行后续的步骤，提升检索效率。

上述已经结合附图和多个例子说明如图3所示的步骤S2200的实施。

在另一个例子中，目标图像集合中每一张图像的关联信息，还可以包括与该图像的关联语音信息对应的关联文本信息，具体地，当所述关联语音信息中包括多种语种的语音时，对应的所述关联文本信息中包括每一种语种的语音转换的关联文本。

对应地，步骤S2200的实施可以如图6所示，包括：

步骤S2201，将语音检索信息转换为对应的文本检索信息；

具体地，与图3所示的步骤S2210中将语音检索信息转换为对应的文本检索信息的步骤实施方式类似，在此不再赘述。

步骤S2202，获取与目标图像集合对应的语种集合，

该语种集合包括目标图像集中所有图像的所述关联语种信息包括的语种；

具体地，与图3所示的步骤S2220中实施方式类似，在此不再赘述。

步骤S2203，当语种集合中存在与语音检索信息的语种不同的其他语种时，转换文本检索信息，得到与该其他语种对应的扩展文本检索信息。

具体地，与图3所示的步骤S2230中实施方式类似，在此不再赘述。

步骤S2204，根据文本检索信息以及扩展文本检索信息，在关联文本信息中检索，确定存在与文本检索信息或扩展文本检索信息对应的目标关联文本信息时，得到与目标关联文本信息唯一对应的目标图像。

具体地，与图3所示的步骤S2240中实施方式类似，在此不再赘述。

类似地，本例中的步骤S2200还可以如图5所示的实施的方式或图6所示的实施方法，区别在于步骤S2201中不执行关联文本信息的转换步骤，因此不再赘述。

在本实施例中，通过如图2所示的方法，获取目标图像后，可以提供用户查看目标图像时播放关联语音信息的功能，丰富用户的图像查看体验。例如，提供图像查看界面，以供用户操作查看目标图像、播放所述目标图像的关联语音信息。

以目标图像是上述的武汉大桥的照片为例，用户在查看该照片时，可以展示该照片，同时播放关联语音信息“Hello，武汉大桥，I love you”。

当然，在提供用户查看目标图像时播放关联语音信息的功能时，也可以由用户选择是否播放关联语音信息，在用户选在不播放时，仅展示目标图像。

在获取目标图像后，还可以提供用户分享该目标图像的功能，可以让用户将目标图像以及关联语音信息分享到对应的应用，丰富用户的图像分享体验。例如，提供图像分享界面，以供用户操作将目标图像以及目标图像的关联语音信息分享至对应的应用，分享的应用可以是社交类应用或者购物类应用等。

以目标图像是上述的武汉大桥的照片为例，用户可以将该照片以及可关联语音信息“Hello，武汉大桥，I love you”分享到社交平台上，让他的朋友们在查看该照片时也能听到“Hello，武汉大桥，I love you”。

当然，在提供用户分享目标图像的功能，也可以由用户选择是否同时分享关联语音信息，在用户选在不分享时，仅分享目标图像。

<例子>

以下将结合图7所示的例子，进一步说明本实施例中提供的图像管理方法。在本例中，实施本例的设备

步骤S201，在用户拍摄图像后，提供图像关联语音界面，供用户操作输入语音关联该照片；

具体地，用户拍摄武汉大桥的照片，关联输入语音“Hello，武汉大桥，I loveyou”。

步骤S202，对照片添加关联信息并存储照片及其关联信息。

关联信息包括图像的关联语音信息、关联语种信息、关联文本信息。

在前文中描述照片添加关联信息的例子，在此不再赘述。

本例中，可以得到关联信息：

武汉大桥照片{

关联语音信息：“Hello，武汉大桥，I love you”的语音；

关联语种信息：[“汉语”,“英语”]；

关联文本信息：{

“汉语”:[“武汉大桥”]；

“英语”：[“Hello”、“I love you”]；

}

步骤S203，接收用户输入的检索语音信息，转换为文本检索信息，并识别检索语音信息的语种。

在本例中，用户输入的语音检索信息是“bridge”，转换为检索文本信息是英文文本“bridge”，识别语种是英语。

步骤S204，根据语音检索信息及其语种，在目标图像集合中检索，得到与语音检索信息对应的目标图像。

在本例中，目标图像集合至少包括两张照片：一张是前述的武汉大桥的照片，关联语音信息“Hello，武汉大桥，I love you”的语音，其关联文本信息包括：中文文本“武汉大桥”、英文文本“Hello”“I love you”,一张是日出的照片，关联语音信息是“Good morning，心情好吗？”，其关联文本信息包括：中文文本“心情好吗”，英文文本“Good morning”。

通过前文已详细描述的，如图2所示的步骤S2200中的各种具体实施方式，可以从上述目标图像集合中，得到与检索语音信息“bridge”对应的目标图像是武汉大桥的照片，在此不再赘述。

步骤S205，提供图像查看界面，供用户操作查看目标图像、播放目标图像的所述关联语音信息。

在本例中，用户在操作查看武汉大桥的照片时，可以展示该照片，同时播放关联语音信息“Hello，武汉大桥，I love you”。

步骤S206，提供图像分享界面，以供用户操作将目标图像以及目标图像的关联语音信息分享至对应的应用。

在本例中，用户在查看武汉大桥的照片后，可以操作将该照片以及关联语音信息“Hello，武汉大桥，I love you”分享到例如朋友圈中，他的其他朋友都可以通过朋友圈看到这张照片并听到“Hello，武汉大桥，I loveyou”的语音。

<图像管理设备>

在本实施例中，还提供一种图像管理设备3000，如图9所示，包括接收单元2100、检索单元2200，用于实施本实施中提供的任意一种图像管理方法，在此不再赘述。

图像管理设备3000，包括：

接收单元3100，用于接收语音检索信息，并识别所述语音检索信息的语种；

检索单元3200，用于根据所述语音检索信息及其语种，检索目标图像集合，以得到与所述语音检索信息对应的目标图像；

其中，所述目标图像集合中包含多张具有关联信息的图像；

所述关联信息至少包括关联语音信息、关联语种信息；

所述关联语音信息与对应的图像唯一关联；

所述关联语种信息包括所述关联语音信息的所有语种。

在本实施例中，图像管理设备3000可以有多种实施方式，例如，图像管理设备3000可以是软件形式的应用程序，包括可以实施图像管理功能的图库应用、社交类应用或者购物类应用，或者是具有网络访问功能的浏览器应用、内嵌浏览器引擎的应用等。或者，图像管理设备3000可以是实体设备，例如，手机、掌上电脑、平板电脑或者台式计算机等。在一个例子中，图像管理设备可以如图1所示的电子设备1000。

本领域技术人员应当明白，可以通过各种方式来实现图像管理设备3000。例如，可以通过指令配置处理器来实现图像管理设备3000。例如，可以将指令存储在ROM中，并且当启动设备时，将指令从ROM读取到可编程器件中来实现图像管理设备3000。例如，可以将图像管理设备3000固化到专用器件(例如ASIC)中。可以将图像管理设备3000分成相互独立的单元，或者可以将它们合并在一起实现。图像管理设备3000可以通过上述各种实现方式中的一种来实现，或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。

<电子设备>

在本实施例中，还提供一种电子设备4000，包括存储器4100和处理器4200，其中，存储器4100用于存储可执行指令，所述可执行指令用于在所述电子设备4000运行时控制所述处理器执行如本实施例的任意一项图像管理方法，包括：

接收语音检索信息，并识别所述语音检索信息的语种；

其中，所述目标图像集合中包含多张具有关联信息的图像；

所述关联信息至少包括关联语音信息、关联语种信息；

所述关联语音信息与对应的图像唯一关联；

所述关联语种信息包括所述关联语音信息的所有语种。

在本实施例中，电子设备4000可以根据各种具体的应用需求还包括其他各种功能单元，例如，电子设备4000可以如图1所示的电子设备1000。

以上已经结合附图描述了本发明的实施例，根据本实施例，提供一种图像管理方法、设备及电子设备，根据语音检索信息以及对应的语种，检索具有关联语音信息的图像，使得用户可以通过语音有效检索对应的图像，提高图像管理效率，提升用户的图像管理体验。特别适用于检索具有多语种的关联语音信息的图像。

本领域技术人员公知的是，随着诸如大规模集成电路技术的电子信息技术的发展和软件硬件化的趋势，要明确划分计算机系统软、硬件界限已经显得比较困难了。因为，任何操作可以软件来实现，也可以由硬件来实现。任何指令的执行可以由硬件完成，同样也可以由软件来完成。对于某一机器功能采用硬件实现方案还是软件实现方案，取决于价格、速度、可靠性、存储容量、变更周期等非技术性因素。因此，对于电子信息技术领域的普通技术人员来说，更为直接和清楚地描述一个技术方案的方式是描述该方案中的各个操作。在知道所要执行的操作的情况下，本领域技术人员可以基于对所述非技术性因素的考虑直接设计出期望的产品。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种图像管理方法，其特征在于，包括：

接收语音检索信息，并识别所述语音检索信息的语种；

其中，所述目标图像集合中包含多张具有关联信息的图像；

所述关联信息至少包括关联语音信息、关联语种信息；

所述关联语音信息与对应的图像唯一关联；

所述关联语种信息包括所述关联语音信息的所有语种。

2.根据权利要求1所述的方法，其特征在于，所述识别所述语音检索信息的语种的步骤包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述语音检索信息以及对应的语种，检索目标图像集合的步骤包括：

获取与所述目标图像集合对应的语种集合，

4.根据权利要求1所述的方法，其特征在于，

将所述语音检索信息转换为对应的文本检索信息；

获取与所述目标图像集合对应的语种集合，

5.根据权利要求3或4的方法，其特征在于，所述根据所述文本检索信息以及所述扩展文本检索信息，在所述关联文本信息中检索的步骤包括：

6.根据权利要求3或4所述的方法，其特征在于，

在获取所述语种集合的步骤之前，根据所述文本检索信息，在与所述文本检索信息对应相同语种的关联文本信息中检索；

7.根据权利要求3或4所述的方法，其特征在于，还包括：

8.根据权利要求3或4所述的方法，其特征在于，

9.根据权利要求1所述的方法，其特征在于，还包括：

10.根据权利要求1所述的方法，其特征在于，还包括：

11.根据权利要求1所述的方法，其特征在于，还包括：

和/或

12.一种图像管理设备，包括：

其中，所述目标图像集合中包含多张具有关联信息的图像；

所述关联信息至少包括关联语音信息、关联语种信息；

所述关联语音信息与对应的图像唯一关联；

所述关联语种信息包括所述关联语音信息的所有语种。

13.一种电子设备，包括存储器和处理器，

其中，存储器用于存储可执行指令，所述可执行指令用于在所述电子设备运行时控制所述处理器执行如权利要求1-11所述的任意一项图像管理方法，包括：

接收语音检索信息，并识别所述语音检索信息的语种；

其中，所述目标图像集合中包含多张具有关联信息的图像；

所述关联信息至少包括关联语音信息、关联语种信息；

所述关联语音信息与对应的图像唯一关联；

所述关联语种信息包括所述关联语音信息的所有语种。