CN106033418A - 语音添加、播放方法及装置、图片分类、检索方法及装置 - Google Patents

语音添加、播放方法及装置、图片分类、检索方法及装置 Download PDF

Info

Publication number
CN106033418A
CN106033418A CN201510104464.1A CN201510104464A CN106033418A CN 106033418 A CN106033418 A CN 106033418A CN 201510104464 A CN201510104464 A CN 201510104464A CN 106033418 A CN106033418 A CN 106033418A
Authority
CN
China
Prior art keywords
voice messaging
picture
voice
module
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510104464.1A
Other languages
English (en)
Other versions
CN106033418B (zh
Inventor
党茂昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510104464.1A priority Critical patent/CN106033418B/zh
Priority to TW104129022A priority patent/TW201636878A/zh
Priority to US15/064,362 priority patent/US9984486B2/en
Priority to PCT/US2016/021779 priority patent/WO2016145200A1/en
Publication of CN106033418A publication Critical patent/CN106033418A/zh
Application granted granted Critical
Publication of CN106033418B publication Critical patent/CN106033418B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

本申请公开了一种语音添加方法,包括:显示图片;确定所述图片中的待添加对象;接收语音信息;创建所述语音信息与所述待添加对象的映射关系。本申请实施例通过为图片中不同对象添加不同的语音信息,以实现准确反映图片的内容。

Description

语音添加、播放方法及装置、图片分类、检索方法及装置
技术领域
本申请涉及图片处理技术,特别涉及图片中语音信息添加、播放方法及装置、语音信息图片分类、检索方法及装置。
背景技术
目前,用照片或者视频的方式记录生活片段是人们使用的比重较高的一种方式。手机照相是手机的一个附加功能,且由于手机具有体积小,厚度薄,携带和操作方便的特点,使用手机进行拍照和摄影更受到人们的青睐。照片产生的主要目的就是为了记忆存储,但是随着时间的久远,这种照片的记忆会因为没有环境记忆而淡去。而视频的录制、存储、浏览、分享并不能达到人们需要的简单方便的要求。人们一方面对于手机摄影功能和照片多样性艺术表现的要求不断提高,另一方面又要去录制、存储、浏览、分享等操作简单方便。因此,如何解决准确反映图片内容的问题已成为业内重要问题。
有鉴于此,实有必要提供一种新的技术方案以解决上述问题。
发明内容
本申请实施例提供一种语音信息添加方法,用于解决如何准确反映图片内容的问题。
本申请实施例提供一种语音信息添加装置,用于解决如何准确反映图片内容的问题。
本申请实施例提供一种语音信息播放方法,用于解决如何准确反映图片内容的问题。
本申请实施例提供一种语音信息播放装置,用于解决如何准确反映图片内容的问题。
本申请实施例提供一种图片分类方法,用于解决如何准确反映图片内容的问题。
本申请实施例提供一种图片分类装置,用于解决如何准确反映图片内容的问题。
本申请实施例提供一种图片检索方法,用于解决如何准确反映图片内容的问题。
本申请实施例提供一种图片检索装置,用于解决如何准确反映图片内容的问题。
为解决上述技术问题,本申请实施例提供:
一种语音添加方法,包括:
显示图片;
确定所述图片中的待添加对象;
接收语音信息;
创建所述语音信息与所述待添加对象的映射关系。
一种语音添加装置,包括:
第一显示模块,用于显示图片;
第一处理模块,用于确定所述图片中的待添加对象;
第一语音信息输入模块,用于接收语音信息;
所述第一处理模块具体还用于,创建所述语音信息与所述待添加对象的映射关系。
一种语音播放方法,包括:
显示图片,所述图片包括对象及与所述对象映射的语音信息;
接收第二选中指令,将被选中的对象作为待播放对象;
查找所述待播放对象映射的语音信息;
播放所述语音信息。
一种语音播放装置,包括:
第二显示模块,用于显示图片;所述图片包括对象及与所述对象映射的语音信息;
第二选定模块,用于接收第二选中指令;
第二处理模块,用于将被选中的对象作为待播放对象,查找所述待播放对象映射的语音信息;
语音信息输出模块,用于播放所述语音信息。
一种图片分类方法,包括:
读取图片,所述图片包括对象及与所述对象映射的语音信息;
通过分析对象映射的语音信息的内容,将图片进行分类。
一种图片分类装置,包括:
读取模块,用于读取图片;所述图片包括对象及与所述对象映射的语音信息;
第三处理模块,用于通过分析对象映射的语音信息的内容,将图片进行分类。
一种图片检索方法,包括:
接收检索语音信息;
查询被存储的图片;所述图片包括对象及与所述对象映射的语音信息;
将查询语音信息的内容与对象映射的语音信息的内容进行对比;
若对比结果为相同,则显示出对象的语音信息所映射的图片。
一种图片检索装置,包括:
第二语音信息输入模块,用于接收检索语音信息;
查询模块,用于查询被存储的图片;所述图片包括对象及与所述对象映射的语音信息;
对比模块,用于将查询语音信息的内容与对象映射的语音信息的内容进行对比;
第三显示模块;用于若对比结果为相同,则显示出对象的语音信息所映射的图片。
与现有技术相比,本申请实施例具有以下有益效果:
本申请实施例通过为图片中不同对象添加不同的语音信息,以实现准确反映图片的内容。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实施例提供的一种语音信息添加方法的流程示意图;
图2是本申请实施例提供的一种语音信息添加装置的架构示意图;
图3是本申请实施例提供的一种语音信息播放方法的流程示意图;
图4是本申请实施例提供的一种语音信息播放装置的架构示意图;
图5是本申请实施例提供的一种图片分类方法的流程示意图;
图6是本申请实施例提供的一种图片分类装置的架构示意图;
图7是本申请实施例提供的一种图片检索方法的流程示意图;
图8是本申请实施例提供的一种图片检索装置的架构示意图;
图9是本申请实施例提供的一种图片检索方法的具体实施例的过程示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是本申请实施例提供的一种语音信息添加方法的流程示意图。
所述语音信息添加方法具体包括以下步骤:
S101:显示图片。
本实施例中,执行主体为语音信息添加装置。所述语音信息添加装置包括第一显示模块,所述第一显示模块显示图片。所述图片具有若干对象。
S102:确定所述图片中的待添加对象。
所述语音信息添加装置还包括第一处理模块,所述第一处理模块确定图片中的待添加对象。
S103:接收语音信息。
所述语音信息添加装置还包括第一语音信息输入模块,所述第一语音信息输入模块接收语音信息,并将接收到的语音信息传送至第一处理模块。
S104:创建所述语音信息与所述待添加对象的映射关系。
所述第一处理模块在接收到语音信息后,创建该语音信息与待添加对象的映射关系。
本申请实施例通过为图片中不同对象添加不同的语音信息,以实现准确反映图片的内容。
进一步的,所述方法还包括:创建所述语音与所述待添加对象的映射关系之前,接收语音信息添加指令。
所述语音信息添加装置还包括第一接收模块,所述第一接收模块接收语音信息添加指令,并将语音信息添加指令传送至第一处理模块。所述第一处理模块根据该语音信息添加指令触发上述的语音信息添加流程。通过语音信息添加指令来触发语音信息添加流程,本实施例可以防止语音信息添加流程被误操作。
一种实施例中,所述第一接收模块接收语音信息指令,当语音信息指令为与预定义在第一处理模块中的语音信息添加指令相同,则触发语音信息添加流程。但是,由于语音信息识别准确率还不佳,因此,通过语音信息识别来触发语音信息添加流程的准确性还不佳。
进一步的,所述方法还包括:在显示图片时,创建语音信息添加控件;所述语音信息添加指令为所述语音信息添加控件被点击产生的指令。
在所述第一显示模块显示图片时,所述第一处理模块创建语音信息添加控件,且所述语音信息添加控件同时由第一显示模块显示出来。当语音信息添加控件被点击时,即用于需要进行添加语音信息,所述第一接收模块接收到语音信息添加控件被点击产生的指令,并将该指令传送至第一处理模块。所述第一处理模块根据该指令触发语音信息添加流程。通过第一显示模块显示语音信息添加控件,本实施例可以便捷且准确的触发语音信息添加流程。
进一步的,对确定所述图片中的待添加对象进行具体说明。通过图像结构分割方法或图像非结构分割方法识别图片中的不同对象。特效显示不同对象。接收第一选中指令,将被选中的对象作为待添加对象。
所述第一处理模块通过图像结构分割方法或图像非结构分割方法识别图片中的不同对象。所述图像结构分割方法或图像非结构分割方法请参考赵衍运先生的博士学位论文《图像对象特征提取与识别》。所述第一显示模块特效显示识别出的对象。如对象虚化、对象轮廓添加红色边框、立体化显示对象、图像对应区域弹出光标控件等。所述语音信息添加装置还包括第一选定模块,当用户点击对象时,所述第一选定模块接收第一选中指令并将第一选中指令发送至第一处理模块。所述第一处理模块将被选中的对象作为待添加对象。进一步的,所述第一语音信息输入模块接收语音信息并将接收到的语音信息发送至第一处理模块将,所述第一处理模块将语音信息与被选中的对象建立映射关系。
进一步的,对确定所述图片中的待添加对象进行具体说明。接收手动划定指令,根据手动划定指令确定划定区域。根据划定区域结合图像结构分割方法或图像非结构分割方法,确定被划定的对象。将被划定的对象作为待添加对象。
所述语音信息添加装置还包括第一选定模块。当用户手动划定图片中特定的图像时,所述第一选定模块接收该手动划定指令,并将手动划定指令传输至所述第一处理模块。所述第一处理模块根据手动划定指令确定划定区域,并根据划定区域结合图像结构分割方法或图像非结构分割方法,确定被划定的对象。所述第一处理模块再将被划定的对象作为待添加对象。进一步的,所述第一语音信息输入模块接收语音信息并将接收到的语音信息发送至第一处理模块将,所述第一处理模块将语音信息与被划定的对象建立映射关系。
进一步的,所述方法还包括:接收权限设置指令;根据权限设置指令,为所述待添加对象映射的语音信息设置权限。
为了保证安全,所述语音信息添加装置还包括权限设置模块,所述权限设置模块接收权限设置指令;并根据权限设置指令,为待添加对象映射的语音信息设置权限。
一种实施例中,所述访问权限具体为公开或私密。其中,针对一个设备,如果所述设备是添加所述语音信息的设备,则所述语音信息允许被所述设备访问和编辑;如果所述设备不是添加所述语音信息的设备,且所述语音信息的权限为公开,则所述语音信息允许被所述设备访问,禁止被所述设备编辑;如果所述设备不是添加所述语音信息的设备,且所述语音信息的权限为私密,则所述语音信息禁止被所述设备访问和编辑。其他事实例中,用户可以设置或调整不同的权限。
以上为本申请实施例提供的语音信息添加方法,本领域相关技术人员应能理解,本申请实施例还对应提供一种语音信息添加装置,如图2。
图2是本申请实施例提供的一种语音信息添加装置的架构示意图。
所述语音信息添加装置100,包括:
第一显示模块101,用于显示图片;
第一处理模块102,用于确定图片中的待添加对象;
第一语音信息输入模块103,用于接收语音信息;
所述第一处理模块102具体还用于,创建语音信息与待添加对象的映射关系。
进一步的,所述装置100还包括:第一接收模块104,用于创建所述语音与所述待添加对象的映射关系之前,接收语音信息添加指令。
进一步的,所述第一处理模块102具体还用于,创建语音信息添加控件。所述第一显示模块101具体还用于,显示语音信息添加控件。所述第一接收模块104具体还用于,接收语音信息添加控件被点击产生的指令。
进一步的,所述第一处理模块102具体还用于,通过图像结构分割方法或图像非结构分割方法识别图片中的不同对象。所述第一显示模块101具体还用于,特效显示不同对象。所述装置100还包括:第一选定模块105,用于接收第一选中指令。所述第一处理模块102具体还用于,将被选中的对象作为待添加对象。
进一步的,所述装置100还包括:第一选定模块105,用于接收手动划定指令,并将手动划定指令传输至第一处理模块102。所述第一处理模块102具体还用于,根据手动划定指令确定划定区域;并根据划定区域结合图像结构分割方法或图像非结构分割方法,确定被划定的对象;将被划定的对象作为待添加对象。
进一步的,所述装置100还包括:权限设置模块106,用于接收权限设置指令;并根据权限设置指令,为所述待添加对象映射的语音信息设置权限。
进一步的,所述访问权限具体为公开或私密。其中,针对一个设备,如果所述设备是添加所述语音信息的设备,则所述语音信息允许被所述设备访问和编辑;如果所述设备不是添加所述语音信息的设备,且所述语音信息的权限为公开,则所述语音信息允许被所述设备访问,禁止被所述设备编辑;如果所述设备不是添加所述语音信息的设备,且所述语音信息的权限为私密,则所述语音信息禁止被所述设备访问和编辑。其他事实例中,用户可以设置或调整不同的权限。
以上为本申请实施例提供的语音信息添加方法及装置,本领域相关技术人员应能理解,本申请实施例还对应提供一种语音信息播放方法,如图3。
图3是本申请实施例提供的一种语音信息播放方法的流程示意图。
所述语音信息播放方法,包括:
S201:显示图片,所述图片包括对象及与所述对象映射的语音信息。
本实施例中,执行主体为语音信息播放装置,所述语音信息播放装置包括第二显示模块,所述第二显示模块显示图片。所述图片包括对象及与所述对象映射的语音信息。
S202:接收第二选中指令,将被选中的对象作为待播放对象。
所述语音信息播放装置还包括第二选定模块和第二处理模块,所述第二选定模块接收第二选中指令,并将第二选中指令传送至第二处理模块。所述第二处理模块将被选中的对象作为待播放对象。
S203:查找所述待播放对象映射的语音信息。
所述第二处理模块查找待播放对象映射的语音信息。
S204:播放所述语音信息。
所述语音信息播放装置还包括语音信息输出模块,所述语音信息输出模块播放所述语音信息。
进一步的,所述方法还包括:播放所述语音信息之前,接收语音信息播放指令。
所述语音信息播放装置还包括第二接收模块,所述第二接收模块接收语音信息播放指令,并将语音信息播放指令传送至第二处理模块。所述第二处理模块根据该语音信息播放指令触发上述的语音信息播放流程。通过语音信息播放指令来触发语音信息播放流程,本实施例可以防止语音信息播放流程被误操作。
一种实施例中,所述第二接收模块接收语音信息指令,当语音信息指令为与预定义在第二处理模块中的语音信息播放指令相同,则触发语音信息播放流程。但是,由于语音信息识别准确率还不佳,因此,通过语音信息识别来触发语音信息播放流程的准确性还不佳。
进一步的,所述方法还包括:在图片显示时,创建语音信息播放控件;所述语音信息播放指令为所述语音信息播放控件被点击产生的指令。
在所述第二显示模块显示图片时,所述第二处理模块创建语音信息播放控件,且所述语音信息播放控件同时由第二显示模块显示出来。当语音信息播放控件被点击时,即用于需要进行播放语音信息,所述第二接收模块接收到语音信息播放控件被点击产生的指令,并将该指令传送至第二处理模块。所述第二处理模块根据该指令触发语音信息播放流程。通过第二显示模块显示语音信息播放控件,本实施例可以便捷且准确的触发语音信息播放流程。
进一步的,所述方法还包括:在接收语音信息播放指令后,特效显示具有语音信息映射的对象。
在第二处理模块接收语音信息播放指令后,所述第二显示模块特效显示具有语音信息映射的对象。如对象虚化、对象轮廓添加红色边框、立体化显示对象、图像对应区域弹出光标控件等。
以上为本申请实施例提供的语音信息播放方法,本领域相关技术人员应能理解,本申请实施例还对应提供一种语音信息播放装置,如图4。
图4是本申请实施例提供的一种语音信息播放装置的架构示意图。
所述语音信息播放装置200,包括:
第二显示模块201,用于显示图片;所述图片包括对象及与对象映射的语音信息;
第二选定模块202,用于接收第二选中指令;
第二处理模块203,用于将被选中的对象作为待播放对象,查找待播放对象映射的语音信息;
语音信息输出模块204,用于播放语音信息。
进一步的,所述装置200还包括:第二接收模块205,用于播放所述语音信息之前,接收语音信息播放指令。
进一步的,所述第二处理模块203具体还用于,创建语音信息播放控件。所述第二显示模块201具体还用于,显示语音信息播放控件。所述第二接收模块205具体还用于,接收语音信息播放控件被点击产生的指令。
进一步的,所述第二显示模块201具体还用于,在第二接收模块205接收语音信息播放指令后,特效显示具有语音信息映射的对象。
本申请实施例还提供一种图片分类方法,如图5。
图5是本申请实施例提供的一种图片分类方法的流程示意图。
所述图片分类方法,包括:
S301:读取图片,所述图片包括对象及与对象映射的语音信息。
本实施例中,执行主体为图片分类装置,所述图片分类装置包括读取模块,所述读取模块读取图片。所述图片包括对象及与对象映射的语音信息。
S302:通过分析对象映射的语音信息的内容,将图片进行分类。
所述图片分类装置还包括第三处理模块,所述读取模块将读取到的图片传送至第三处理模块。所述第三处理模块通过分析对象映射的语音信息的内容,将图片进行分类。
进一步的,根据语音信息中的时间信息、地址信息或人物信息,将图片进行分类。
具体的,所述第三处理模块为对象映射的语音信息创建如下分类:时间信息分类、地址信息分类、人物信息分类等。假设对象映射的语音信息的内容中包含“2009年12月12日”,所述第三处理模块在时间信息分类目录下创建“2009/12/12”目录,将该对象对应的图片放置该文件夹。假设对象映射的语音信息的内容中包含“浙江杭州”,所述第三处理模块在地址信息分类目录下创建“浙江杭州”目录,将该对象对应的图片放置该文件夹。假设对象映射的语音信息的内容中包含“爷爷”,所述第三处理模块在人物信息分类目录下创建“爷爷”目录,将该对象对应的图片放置该文件夹。通过分析对象映射的语音信息的内容,将图片进行分类。可以根据用户的准确定义,准确分类,便于用户查找。
以上为本申请实施例提供的图片分类方法,本领域相关技术人员应能理解,本申请实施例还对应提供一种图片分类装置,如图6。
图6是本申请实施例提供的一种图片分类装置的架构示意图。
所述图片分类装置300,包括:
读取模块301,用于读取图片;所述图片包括对象及与对象映射的语音信息;
第三处理模块302,用于通过分析对象映射的语音信息的内容,将图片进行分类。
进一步的,所述第三处理模块302具体用于,根据语音信息中的时间信息、地址信息或人物信息,将图片进行分类。
本申请实施例还提供一种图片分类方法,如图7。
图7是本申请实施例提供的一种图片检索方法的流程示意图。
所述图片检索方法,包括:
S401:接收检索语音信息。
本实施例中,执行主体为图片检索装置,所述图片检索装置包括第二语音信息输入模块,所述第二语音信息输入模块接收检索语音信息。
S402:查询被存储的图片;所述图片包括对象及与对象映射的语音信息。
所述图片检索装置还包括查询模块,所述第二语音信息输入模块将接收到的检索语音信息传送至查询模块。所述查询模块查询被存储的图片。所述图片包括对象及与对象映射的语音信息。
S403:将查询语音信息的内容与对象映射的语音信息的内容进行对比。
所述图片检索装置还包括对比模块,所述对比模块将查询语音信息的内容与对象映射的语音信息的内容进行对比。
S404:若对象映射的语音信息的内容中包含查询语音信息的内容,则显示出对象的语音信息所映射的图片。
所述图片检索装置还包括第三显示模块,若对象映射的语音信息的内容中包括查询语音信息的内容,则显示出对象的语音信息所映射的图片。
具体的,所述第二语音信息输入模块接收检索语音信息,用户输入的查询语音信息的内容为“2009年12月12日”。所述第二语音信息输入模块将该检索语音信息传输至查询模块。所述查询模块查询被存储的图片。所述对比模块接收来自查询模块的检索语音信息和查询到的被存储的图片。所述对比模块再将查询语音信息的内容与对象映射的语音信息的内容进行对比。若查找到对象映射的语音的内容包含“2009年12月12日”。所述第三显示模块显示该对象所对应的图片。
进一步的,所述查询语音信息的内容具有一个、两个或多个关键词。若对象映射的语音信息的内容中包含查询语音信息的内容的所有关键词,则显示出对象的语音信息所映射的图片。
具体的,所述第二语音信息输入模块接收检索语音信息,用户输入的查询语音信息的内容具有“2009年12月12日”、“杭州”和“爷爷”。所述第二语音信息输入模块将该检索语音信息传输至查询模块。所述查询模块查询被存储的图片。所述对比模块接收来自查询模块的检索语音信息和查询到的被存储的图片。所述对比模块再将查询语音信息的内容与对象映射的语音信息的内容进行对比。若查找到对象映射的语音的内容同时包含“2009年12月12日”、“杭州”和“爷爷”。所述第三显示模块显示该对象所对应的图片。
以上为本申请实施例提供的图片检索方法,本领域相关技术人员应能理解,本申请实施例还对应提供一种图片检索装置,如图8。
图8是本申请实施例提供的一种图片检索装置的架构示意图。
所述图片检索装置400,包括:
第二语音信息输入模块401,用于接收检索语音信息;
查询模块402,用于查询被存储的图片;所述图片包括对象及与对象映射的语音信息;
对比模块403,用于将查询语音信息的内容与对象映射的语音信息的内容进行对比;
第三显示模块404;用于若对象映射的语音信息的内容中包含查询语音信息的内容,则显示出对象的语音信息所映射的图片。
进一步的,所述查询语音信息的内容包含一个、两个或多个关键词。所述第三显示模块404具体用于,若对象映射的语音信息的内容中包含查询语音信息的内容的所有关键词,则显示出对象的语音信息所映射的图片。
以下将结合图9描述一个具体实施例,以便读者全面理解本申请的实质。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
图9是本申请实施例提供的一种图片检索方法的具体实施例的过程示意图。
请参照图9(a),本实施例中的执行主体为移动终端,所述移动终端包括处理器、存储器、触控显示屏、话筒、喇叭等。所述存储器存储有若干图片。所述处理器从存储器中读取一幅图片,并驱动触控显示屏进行显示。当触控显示屏进行显示图片时,所述处理器同时创建有话筒按钮和喇叭按钮并显示于触控显示屏。请参照图9(b)至9(c),当用户需要对图片中的对象添加语音信息时,用户需要点击话筒按钮。所述触控显示屏的触控模块接收到点击指令,并传送至处理器。所述处理器接收到指令并进入语音信息添加流程。同时,图片中的所有对象被处理器识别出,并驱动触控显示屏在对象的对应位置浮现光标。用户根据需求,按压光标,所述触控模块接收到按压指令,并传送至处理器。所述处理器接收到指令并进入语音信息录入流程。用户向话筒输入语音信息。所述话筒将语音信息传输至处理器。当语音信息录入结束时,松开对光标的按压。所述处理器将该语音信息与被点击的对象建立映射关系。
为了保证安全,所述处理器还根据用户的设置,将部分语音信息设置为只能用户自己可访问且可编辑,而其他用户不可以访问;部分语音信息设置为全部用户可以访问。添加语音信息的用户拥有最高的权限,可以对图片中的所有对象映射的语音信息进行访问以及进行权限设置。当图片被分享后,其他用户只能根据权限进行访问。所述处理器根据设备身份识别码进行用户的判断。
所述处理器为该图片创建如下标签:被加语音信息对象、语音信息压缩格式、语音信息起点和终点、语音信息的权限、添加语音信息的设备身份识别码。为了节省存储空间,语音信息采用MP3压缩。
请参照图9(d)至9(e),当用户需要播放图片中的对象映射的语音信息时,用户需要点击喇叭按钮。所述触控显示屏的触控模块接收到点击指令,并传送至处理器。所述处理器接收到指令并进入语音信息播放流程。同时,图片中的所有具有语音信息映射的对象被处理器识别出,并驱动触控显示屏在具有语音信息映射的对象的对应位置浮现光标。本实施例中,假设图片中房子和飞机已经添加语音。用户根据需求,点击光标,所述触控模块接收到点击指令,并传送至处理器。所述处理器根据点击指令查找到对应的对象,并进一步查找到该对象映射的语音信息。进一步的,所述处理器驱动喇叭播放该语音信息。
所述处理器还通过分析图片中对象映射的语音信息的内容,将图片进行分类。
所述处理器还创建有检索按钮。当用户需要对图片进行检索时,点击检索按钮。所述触控显示屏的触控模块接收到点击指令,并传送至处理器。所述处理器接收到指令并进入图片搜索流程。用户向话筒输入检索语音信息。所述话筒将检索语音信息传输至处理器。所述处理器查询被存储在存储器中的图片,并将查询语音信息的内容与被存储的图片的对象映射的语音信息的内容进行对比。若对比结果为相同,所述处理器则驱动触控显示屏显示出语音信息所映射的图片。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理模块以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理模块执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理模块(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (30)

1.一种语音添加方法,其特征在于,包括:
显示图片;
确定所述图片中的待添加对象;
接收语音信息;
创建所述语音信息与所述待添加对象的映射关系。
2.如权利要求1所述的方法,其特征在于,创建所述语音信息与所述待添加对象的映射关系之前,所述方法还包括:
接收语音信息添加指令。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
在显示图片时,创建语音信息添加控件;
所述语音信息添加指令为所述语音信息添加控件被点击产生的指令。
4.如权利要求1所述的方法,其特征在于,确定所述图片中的待添加对象,具体包括:
通过图像结构分割方法或图像非结构分割方法识别图片中的不同对象;
特效显示不同对象;
接收第一选中指令,将被选中的对象作为待添加对象。
5.如权利要求1所述的方法,其特征在于,确定所述图片中的待添加对象,具体包括:
接收手动划定指令,根据手动划定指令确定划定区域;
根据划定区域结合图像结构分割方法或图像非结构分割方法,确定被划定的对象;
将被划定的对象作为待添加对象。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
接收权限设置指令;
根据权限设置指令,为所述待添加对象映射的语音信息设置权限。
7.如权利要求6所述的方法,其特征在于,所述访问权限具体为公开或私密;
其中,针对一个设备,如果所述设备是添加所述语音信息的设备,则所述语音信息允许被所述设备访问和编辑;
如果所述设备不是添加所述语音信息的设备,且所述语音信息的权限为公开,则所述语音信息允许被所述设备访问,禁止被所述设备编辑;
如果所述设备不是添加所述语音信息的设备,且所述语音信息的权限为私密,则所述语音信息禁止被所述设备访问和编辑。
8.一种语音添加装置,其特征在于,包括:
第一显示模块,用于显示图片;
第一处理模块,用于确定所述图片中的待添加对象;
第一语音信息输入模块,用于接收语音信息;
所述第一处理模块具体还用于,创建所述语音信息与所述待添加对象的映射关系。
9.如权利要求8所述的装置,其特征在于,所述装置还包括:
第一接收模块,用于所述第一处理模块创建所述语音与所述待添加对象的映射关系之前,接收语音信息添加指令。
10.如权利要求9所述的装置,其特征在于,
所述第一处理模块具体还用于,创建语音信息添加控件;
所述第一显示模块具体还用于,显示所述语音信息添加控件;
所述第一接收模块具体还用于,接收所述语音信息添加控件被点击产生的指令。
11.如权利要求8所述的装置,其特征在于,
所述第一处理模块具体还用于,通过图像结构分割方法或图像非结构分割方法识别图片中的不同对象;
所述第一显示模块具体还用于,特效显示不同对象;
所述装置还包括:
第一选定模块,用于接收第一选中指令;
所述第一处理模块具体还用于,将被选中的对象作为待添加对象。
12.如权利要求8所述的装置,其特征在于,所述装置还包括:
第一选定模块,用于接收手动划定指令,并将手动划定指令传输至所述第一处理模块;
所述第一处理模块具体还用于,根据手动划定指令确定划定区域;并根据划定区域结合图像结构分割方法或图像非结构分割方法,确定被划定的对象;将被划定的对象作为待添加对象。
13.如权利要求8所述的装置,其特征在于,所述装置还包括:
权限设置模块,用于接收权限设置指令;并根据权限设置指令,为所述待添加对象映射的语音信息设置权限。
14.如权利要求13所述的装置,其特征在于,所述访问权限具体为公开或私密;
其中,针对一个设备,如果所述设备是添加所述语音信息的设备,则所述语音信息允许被所述设备访问和编辑;
如果所述设备不是添加所述语音信息的设备,且所述语音信息的权限为公开,则所述语音信息允许被所述设备访问,禁止被所述设备编辑;
如果所述设备不是添加所述语音信息的设备,且所述语音信息的权限为私密,则所述语音信息禁止被所述设备访问和编辑。
15.一种语音信息播放方法,其特征在于,包括:
显示图片,所述图片包括对象及与所述对象映射的语音信息;
接收第二选中指令,将被选中的对象作为待播放对象;
查找所述待播放对象映射的语音信息;
播放所述语音信息。
16.如权利要求15所述的方法,其特征在于,播放所述语音信息之前,所述方法还包括:
接收语音信息播放指令。
17.如权利要求16所述的方法,其特征在于,所述方法还包括:
在图片显示时,创建语音信息播放控件;
所述语音信息播放指令为所述语音信息播放控件被点击产生的指令。
18.如权利要求16所述的方法,其特征在于,所述方法还包括:
在接收语音信息播放指令后,特效显示具有语音信息映射的对象。
19.一种语音信息播放装置,其特征在于,包括:
第二显示模块,用于显示图片;所述图片包括对象及与所述对象映射的语音信息;
第二选定模块,用于接收第二选中指令;
第二处理模块,用于将被选中的对象作为待播放对象,查找所述待播放对象映射的语音信息;
语音信息输出模块,用于播放所述语音信息。
20.如权利要求19所述的装置,其特征在于,所述装置还包括:
第二接收模块,用于播放所述语音信息之前,接收语音信息播放指令。
21.如权利要求20所述的装置,其特征在于,
所述第二处理模块具体还用于,创建语音信息播放控件;
所述第二显示模块具体还用于,显示所述语音信息播放控件;
所述第二接收模块具体还用于,接收所述语音信息播放控件被点击产生的指令。
22.如权利要求20所述的装置,其特征在于,
所述第二显示模块具体还用于,在所述第二接收模块接收语音信息播放指令后,特效显示具有语音信息映射的对象。
23.一种图片分类方法,其特征在于,包括:
读取图片,所述图片包括对象及与所述对象映射的语音信息;
通过分析对象映射的语音信息的内容,将图片进行分类。
24.如权利要求23所述的方法,其特征在于,包括:通过分析对象映射的语音信息的内容,将图片进行分类,具体包括:
根据语音信息中的时间信息、地址信息或人物信息,将图片进行分类。
25.一种图片分类装置,其特征在于,包括:
读取模块,用于读取图片;所述图片包括对象及与所述对象映射的语音信息;
第三处理模块,用于通过分析对象映射的语音信息的内容,将图片进行分类。
26.如权利要求25所述的装置,其特征在于,所述第三处理模块具体用于,根据语音信息中的时间信息、地址信息或人物信息,将图片进行分类。
27.一种图片检索方法,其特征在于,包括:
接收检索语音信息;
查询被存储的图片;所述图片包括对象及与所述对象映射的语音信息;
将查询语音信息的内容与对象映射的语音信息的内容进行对比;
若对象映射的语音信息的内容中包含查询语音信息的内容,则显示出对象的语音信息所映射的图片。
28.如权利要求27所述的方法,其特征在于,所述查询语音信息的内容包含一个、两个或多个关键词;
若对象映射的语音信息的内容中包含查询语音信息的内容,则显示出对象的语音信息所映射的图片,具体包括:
若对象映射的语音信息的内容中包含查询语音信息的内容的所有关键词,则显示出对象的语音信息所映射的图片。
29.一种图片检索装置,其特征在于,包括:
第二语音信息输入模块,用于接收检索语音信息;
查询模块,用于查询被存储的图片;所述图片包括对象及与所述对象映射的语音信息;
对比模块,用于将查询语音信息的内容与对象映射的语音信息的内容进行对比;
第三显示模块;用于若对象映射的语音信息的内容中包含查询语音信息的内容,则显示出对象的语音信息所映射的图片。
30.如权利要求29所述的装置,其特征在于,所述查询语音信息的内容包含一个、两个或多个关键词;
所述第三显示模块具体用于,若对象映射的语音信息的内容中包含查询语音信息的内容的所有关键词,则显示出对象的语音信息所映射的图片。
CN201510104464.1A 2015-03-10 2015-03-10 语音添加、播放方法及装置、图片分类、检索方法及装置 Active CN106033418B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201510104464.1A CN106033418B (zh) 2015-03-10 2015-03-10 语音添加、播放方法及装置、图片分类、检索方法及装置
TW104129022A TW201636878A (zh) 2015-03-10 2015-09-02 語音添加、播放方法及裝置,圖片分類、檢索方法及裝置
US15/064,362 US9984486B2 (en) 2015-03-10 2016-03-08 Method and apparatus for voice information augmentation and displaying, picture categorization and retrieving
PCT/US2016/021779 WO2016145200A1 (en) 2015-03-10 2016-03-10 Method and apparatus for voice information augmentation and displaying, picture categorization and retrieving

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510104464.1A CN106033418B (zh) 2015-03-10 2015-03-10 语音添加、播放方法及装置、图片分类、检索方法及装置

Publications (2)

Publication Number Publication Date
CN106033418A true CN106033418A (zh) 2016-10-19
CN106033418B CN106033418B (zh) 2020-01-31

Family

ID=56887974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510104464.1A Active CN106033418B (zh) 2015-03-10 2015-03-10 语音添加、播放方法及装置、图片分类、检索方法及装置

Country Status (3)

Country Link
US (1) US9984486B2 (zh)
CN (1) CN106033418B (zh)
TW (1) TW201636878A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107172485A (zh) * 2017-04-25 2017-09-15 北京百度网讯科技有限公司 一种用于生成短视频的方法与装置
CN107223246A (zh) * 2017-03-20 2017-09-29 深圳前海达闼云端智能科技有限公司 图像标注方法、装置及电子设备
CN112131438A (zh) * 2019-06-25 2020-12-25 腾讯科技(深圳)有限公司 一种信息生成的方法、信息展示的方法及装置
CN112711366A (zh) * 2020-12-23 2021-04-27 维沃移动通信(杭州)有限公司 图像生成方法、装置和电子设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105378738B (zh) * 2013-07-15 2021-11-19 爱克发医疗保健公司 用于数据处理的系统和方法
CN107580242A (zh) * 2017-09-20 2018-01-12 深圳前海茂佳软件科技有限公司 基于电视设备的视频实时传送方法、电视设备及存储介质
KR102595790B1 (ko) * 2018-01-26 2023-10-30 삼성전자주식회사 전자 장치 및 그의 제어방법
US20210303924A1 (en) * 2020-03-31 2021-09-30 Hcl Technologies Limited Method and system for generating and labelling reference images

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101207775A (zh) * 2006-12-22 2008-06-25 富士胶片株式会社 信息处理设备及信息处理方法
CN101997969A (zh) * 2009-08-13 2011-03-30 索尼爱立信移动通讯有限公司 图片声音注释添加方法和装置以及包括该装置的移动终端
CN102822826A (zh) * 2010-03-31 2012-12-12 微软公司 创建和传播注释的信息
US20130249783A1 (en) * 2012-03-22 2013-09-26 Daniel Sonntag Method and system for annotating image regions through gestures and natural speech interaction
US20140164927A1 (en) * 2011-09-27 2014-06-12 Picsured, Inc. Talk Tags
US20140289323A1 (en) * 2011-10-14 2014-09-25 Cyber Ai Entertainment Inc. Knowledge-information-processing server system having image recognition system

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6166803A (en) 1987-03-20 2000-12-26 The United States Of America As Represented By The Secretary Of The Army Imaging simplified laser pointing (ISLAPS)--A system modification/improvement
US5040211A (en) 1988-10-13 1991-08-13 Massachusetts Institute Of Technology Reliable television transmission through analog channels
US5325449A (en) 1992-05-15 1994-06-28 David Sarnoff Research Center, Inc. Method for fusing images and apparatus therefor
US6111605A (en) * 1995-11-06 2000-08-29 Ricoh Company Limited Digital still video camera, image data output system for digital still video camera, frame for data relay for digital still video camera, data transfer system for digital still video camera, and image regenerating apparatus
US6957350B1 (en) 1996-01-30 2005-10-18 Dolby Laboratories Licensing Corporation Encrypted and watermarked temporal and resolution layering in advanced television
US6070167A (en) * 1997-09-29 2000-05-30 Sharp Laboratories Of America, Inc. Hierarchical method and system for object-based audiovisual descriptive tagging of images for information retrieval, editing, and manipulation
US6101289A (en) 1997-10-15 2000-08-08 Electric Planet, Inc. Method and apparatus for unencumbered capture of an object
JP4470242B2 (ja) 1999-04-23 2010-06-02 ソニー株式会社 半導体メモリカード
US6511442B1 (en) 2000-03-03 2003-01-28 The Catholic University Of America System for evaluating and promoting development in persons with severe disabilities
US6810146B2 (en) * 2001-06-01 2004-10-26 Eastman Kodak Company Method and system for segmenting and identifying events in images using spoken annotations
US7071897B2 (en) 2001-07-18 2006-07-04 Hewlett-Packard Development Company, L.P. Immersive augmentation for display systems
AUPR994102A0 (en) 2002-01-11 2002-02-07 Secure Document Exchange Pty Ltd Document management and multi party collaboration system
US20040141630A1 (en) 2003-01-17 2004-07-22 Vasudev Bhaskaran Method and apparatus for augmenting a digital image with audio data
US7180502B2 (en) 2004-03-23 2007-02-20 Fujitsu Limited Handheld device with preferred motion selection
US20060204214A1 (en) 2005-03-14 2006-09-14 Microsoft Corporation Picture line audio augmentation
JP2007150534A (ja) 2005-11-25 2007-06-14 Oki Electric Ind Co Ltd 増幅回路
US20070124507A1 (en) * 2005-11-28 2007-05-31 Sap Ag Systems and methods of processing annotations and multimodal user inputs
EP2052540A2 (en) 2006-08-11 2009-04-29 Koninklijke Philips Electronics N.V. Content augmentation for personal recordings
JP2010512693A (ja) 2006-12-07 2010-04-22 アダックス,インク. データの付加、記録および通信のためのシステムと方法
JP2010530998A (ja) 2007-05-08 2010-09-16 アイトゲネーシッシュ テヒニッシュ ホーホシューレ チューリッヒ 画像ベース情報検索の方法およびシステム
US8055675B2 (en) 2008-12-05 2011-11-08 Yahoo! Inc. System and method for context based query augmentation
US20100323615A1 (en) 2009-06-19 2010-12-23 Vock Curtis A Security, Safety, Augmentation Systems, And Associated Methods
US8819591B2 (en) 2009-10-30 2014-08-26 Accuray Incorporated Treatment planning in a virtual environment
US9361729B2 (en) 2010-06-17 2016-06-07 Microsoft Technology Licensing, Llc Techniques to present location information for social networks using augmented reality
US9348935B2 (en) 2010-06-29 2016-05-24 Vibrant Media, Inc. Systems and methods for augmenting a keyword of a web page with video content
WO2012004933A1 (ja) 2010-07-09 2012-01-12 パナソニック株式会社 オブジェクト関連付け装置、オブジェクト関連付け方法、プログラム及び記録媒体
EP2609752A4 (en) 2010-08-27 2015-04-08 Intel Corp REMOTE CONTROL DEVICE
EP2426641B1 (en) 2010-09-07 2013-04-17 Sony Computer Entertainment Europe Ltd. System and method of image augmentation
US8905314B2 (en) 2010-09-30 2014-12-09 Apple Inc. Barcode recognition using data-driven classifier
US10102354B2 (en) 2010-11-19 2018-10-16 Microsoft Technology Licensing, Llc Integrated application feature store
US10445782B2 (en) 2010-12-22 2019-10-15 Facebook, Inc. Expanded tracking and advertising targeting of social networking users
US10972680B2 (en) 2011-03-10 2021-04-06 Microsoft Technology Licensing, Llc Theme-based augmentation of photorepresentative view
JP2012221393A (ja) * 2011-04-13 2012-11-12 Fujifilm Corp 校正情報処理装置、校正情報処理方法、プログラム及び電子校正システム
EP2512141B1 (en) 2011-04-15 2019-07-17 Sony Interactive Entertainment Europe Limited System and method of user interaction in augmented reality
US9275079B2 (en) 2011-06-02 2016-03-01 Google Inc. Method and apparatus for semantic association of images with augmentation data
US20130007043A1 (en) * 2011-06-30 2013-01-03 Phillips Michael E Voice description of time-based media for indexing and searching
US20130002840A1 (en) * 2011-06-30 2013-01-03 Nokia Corporation Method and apparatus for recording media events
US9418292B2 (en) 2011-10-04 2016-08-16 Here Global B.V. Methods, apparatuses, and computer program products for restricting overlay of an augmentation
WO2013055707A1 (en) 2011-10-09 2013-04-18 Clear Guide Medical, Llc Interventional in-situ image-guidance by fusing ultrasound video
US20130145241A1 (en) 2011-12-04 2013-06-06 Ahmed Salama Automated augmentation of text, web and physical environments using multimedia content
US9183807B2 (en) 2011-12-07 2015-11-10 Microsoft Technology Licensing, Llc Displaying virtual data as printed content
GB2502591B (en) 2012-05-31 2014-04-30 Sony Comp Entertainment Europe Apparatus and method for augmenting a video image
US20140164901A1 (en) 2012-07-26 2014-06-12 Tagaboom, Inc. Method and apparatus for annotating and sharing a digital object with multiple other digital objects
US9336541B2 (en) 2012-09-21 2016-05-10 Paypal, Inc. Augmented reality product instructions, tutorials and visualizations
US9317531B2 (en) * 2012-10-18 2016-04-19 Microsoft Technology Licensing, Llc Autocaptioning of images
US9007365B2 (en) 2012-11-27 2015-04-14 Legend3D, Inc. Line depth augmentation system and method for conversion of 2D images to 3D images
US20140168258A1 (en) 2012-12-13 2014-06-19 David Alexander Dearman Method and apparatus for augmenting an image of a location with a representation of a transient object
US20140195222A1 (en) 2013-01-07 2014-07-10 Microsoft Corporation Speech Modification for Distributed Story Reading
US20140191976A1 (en) 2013-01-07 2014-07-10 Microsoft Corporation Location Based Augmentation For Story Reading
US20140192140A1 (en) 2013-01-07 2014-07-10 Microsoft Corporation Visual Content Modification for Distributed Story Reading
US9224058B2 (en) 2013-04-05 2015-12-29 Xerox Corporation Data augmentation method and system for improved automatic license plate recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101207775A (zh) * 2006-12-22 2008-06-25 富士胶片株式会社 信息处理设备及信息处理方法
CN101997969A (zh) * 2009-08-13 2011-03-30 索尼爱立信移动通讯有限公司 图片声音注释添加方法和装置以及包括该装置的移动终端
CN102822826A (zh) * 2010-03-31 2012-12-12 微软公司 创建和传播注释的信息
US20140164927A1 (en) * 2011-09-27 2014-06-12 Picsured, Inc. Talk Tags
US20140289323A1 (en) * 2011-10-14 2014-09-25 Cyber Ai Entertainment Inc. Knowledge-information-processing server system having image recognition system
US20130249783A1 (en) * 2012-03-22 2013-09-26 Daniel Sonntag Method and system for annotating image regions through gestures and natural speech interaction

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107223246A (zh) * 2017-03-20 2017-09-29 深圳前海达闼云端智能科技有限公司 图像标注方法、装置及电子设备
CN107223246B (zh) * 2017-03-20 2021-08-03 达闼机器人有限公司 图像标注方法、装置及电子设备
US11321583B2 (en) 2017-03-20 2022-05-03 Cloudminds Robotics Co., Ltd. Image annotating method and electronic device
CN107172485A (zh) * 2017-04-25 2017-09-15 北京百度网讯科技有限公司 一种用于生成短视频的方法与装置
CN107172485B (zh) * 2017-04-25 2020-01-31 北京百度网讯科技有限公司 一种用于生成短视频的方法与装置、输入设备
CN112131438A (zh) * 2019-06-25 2020-12-25 腾讯科技(深圳)有限公司 一种信息生成的方法、信息展示的方法及装置
CN112711366A (zh) * 2020-12-23 2021-04-27 维沃移动通信(杭州)有限公司 图像生成方法、装置和电子设备

Also Published As

Publication number Publication date
US9984486B2 (en) 2018-05-29
CN106033418B (zh) 2020-01-31
TW201636878A (zh) 2016-10-16
US20160267921A1 (en) 2016-09-15

Similar Documents

Publication Publication Date Title
CN106033418A (zh) 语音添加、播放方法及装置、图片分类、检索方法及装置
US10419429B2 (en) Information providing method and device for sharing user information
CN107430858B (zh) 传送标识当前说话者的元数据
AU2015349821B2 (en) Parking identification and availability prediction
US9508339B2 (en) Updating language understanding classifier models for a digital personal assistant based on crowd-sourcing
CN110914872A (zh) 用认知洞察力导航视频场景
US20190087498A1 (en) Media selection and display based on conversation topics
JP5908494B2 (ja) 位置ベースの画像編成
CN107293294B (zh) 一种语音识别处理方法及装置
US11019174B2 (en) Adding conversation context from detected audio to contact records
US11488585B2 (en) Real-time discussion relevance feedback interface
US20180084338A1 (en) Crowdsourcing sound captures to determine sound origins and to predict events
CN111835985B (zh) 视频剪辑方法、设备、装置及存储介质
US10929477B2 (en) Environment information storage and playback method, storage and playback system and terminal
US20180024982A1 (en) Real-time dynamic visual aid implementation based on context obtained from heterogeneous sources
US20160345187A1 (en) Signal strength bookmarking for media content
US9916127B1 (en) Audio input replay enhancement with closed captioning display
US20180035285A1 (en) Semantic Privacy Enforcement
CN106856554A (zh) 一种拍照控制方法及终端
CN112291281B (zh) 语音播报及语音播报内容的设定方法和装置
CN114625900A (zh) 内容管理设备、内容管理系统、以及控制方法
US11238088B2 (en) Video management system
KR102503586B1 (ko) 음성을 텍스트로 변환한 음성 기록에서 유사 발음의 단어를 포함하여 검색하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
KR102165339B1 (ko) 전자장치에서 콘텐츠 재생 방법 및 장치
KR102289293B1 (ko) 전자장치에서 콘텐츠 재생 방법 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant