CN102782751B

CN102782751B - 社会网络中的数字媒体语音标签

Info

Publication number: CN102782751B
Application number: CN201180012464.9A
Authority: CN
Inventors: M·拜利; J·E·克里斯滕森; C·M·丹尼斯; J·B·埃利斯; T·D·埃里克森; R·G·法雷尔; W·A·凯罗格
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2010-03-05
Filing date: 2011-02-03
Publication date: 2015-02-11
Anticipated expiration: 2031-02-03
Also published as: GB201217273D0; US8903847B2; TW201209804A; WO2011109137A1; JP2013521567A; GB2491324B; US20110219018A1; GB2491324A; CN102782751A; JP5671557B2

Abstract

一种语音加标签系统包括客户端计算装置，该客户端计算装置包括媒体对象捕获装置及语音捕获装置，并运行将媒体对象与语音样本相关联的客户端应用。该系统还包括：通信网络，其耦接至该客户端计算装置；语音加标签系统，其耦接至该通信网络并接收第一媒体对象和第一语音样本之间的至少一个关联；以及数据库，其耦接至该语音加标签系统，该数据库包括一个或多个语音标签，每个语音标签耦接至一个或多个语音样本。

Description

社会网络中的数字媒体语音标签

技术领域

本发明涉及表征媒体，且更具体而言，利用语音标签表征数字媒体。

背景技术

数字图书馆、照片共享站点、图像搜索引擎、在线百科全书及其它计算机系统皆在文件系统或数据库中拥有大量图像。访问这些站点的用户可能在查找想要的图像方面有困难，因为与文档不同，图像(及其它数字媒体)不包括可索引的字或短语。

对查找想要的图像的问题的一种解决方案是图像识别，但此方法对于用户生成的内容花费极高，且并不高度准确。另一已知方法是按指定种类(诸如，文件夹)对图像分组以促进存取。然而，这需要人工努力，且必须提前知晓图像。

存在组织这些图像的许多方式，包括收集、集合及分层结构。组织收集的一种常用方法为加标签。当用户看到图像时，用户可键入字或短语以对该图像“加标签”(描述该图像)。多个用户可将一个或多个标签添加至同一图像。当另一用户访问该站点时，用户可接着导航至由特定标签标记的图像。

存在可使用标签实现图像导航的各种方式。举例而言，用户可键入作为用于一个或多个图像的集合的现有标签的字或短语。或者，用户可看到按各种方式(按字母顺序、按流行度等)排列的标签，且接着选择描述(这些)图像的标签。用于社会导航的文本加标签的功效被广泛使用且良好地理解。

也存在呈现数字媒体以使得用户能够扫描且识别项目的多个方式(拼贴、网格、可视化)。这些方法的主要缺点为其不可缩放：显示变得杂乱，且屏幕可能用完像素，尤其是在小屏幕上，诸如，在移动装置上。

也存在“自动”处理数字媒体以得出可接着用于搜索的元数据的多个方式。元数据(位置、时间)可在图像获取时捕获，且随后用以导航至视觉数字媒体。

然而，存在不可能或不方便创建或使用文本标签的许多情形。实例包括当用户：正使用移动电话(花费长时间或将注意力自视觉任务转至键入字或短语)时；身体残疾(不能键入字或短语)时；由于受教育有限而文盲或半文盲(仅具有有限的阅读或书写能力)时；或具有视力问题(不能看到字或短语)或这些情形的组合时。

发明内容

根据本发明的一个实施例，提供一种系统，其包括客户端计算装置，该客户端计算装置包括媒体对象捕获装置和语音捕获装置并运行将媒体对象与语音样本相关联的客户端应用。此实施例的系统还包括：通信网络，其耦接至该客户端计算装置；语音加标签系统，其耦接至该通信网络并接收第一媒体对象和第一语音样本之间的至少一个关联；以及数据库，其耦接至该语音加标签系统，该数据库包括一个或多个语音标签，每个语音标签耦接至一个或多个语音样本。

根据本发明的另一实施例，公开一种对媒体对象加标签的方法。此实施例的方法包括：在服务器处接收第一语音样本和第一媒体对象之间的关联；比较该第一语音样本与一个或多个其它语音样本；将该第一语音样本链接至第一语音标签；将该第一语音标签链接至该第一媒体对象；以及将该第一语音样本、该第一语音标签、该第一媒体对象以及它们之间的任何链接存储在耦接至该服务器的数据库中。

根据本发明的另一实施例，公开一种搜索含有已加语音标签的媒体对象的数字数据库的方法。该方法包括：在服务器处接收第一音频搜索；比较该第一音频搜索与存储在该数字数据库中的语音标签的数字表示；以及返回链接至匹配该第一音频搜索的语音标签的一个或多个媒体对象。

经由本发明的技术认识到额外特征及优点。本发明的其它实施例及方面在本文中得以详细描述且被认为是所主张的本发明的一部分。为了更好地理解具有这些优点及特征的本发明，参考描述及附图。

附图说明

本认为是本发明的主题被特别地指出并清楚地在说明书结尾处的权利要求书中被请求。本发明的上述和其它特征和优点从结合附图的下述详细描述中将是明显的，在图中：

图1示出本发明的实施例可实施于其上的计算系统的实例；

图2示出根据本发明的一个实施例的系统的实例；

图3示出可在图2中示出的系统中利用的数据库的一个实施例的方块图；

图4为图3中示出的数据库的更详细描绘；

图5为示出根据本发明的可对媒体对象加标签的方法的流程图；

图6为示出根据本发明的一个实施例的形成数据库的方法的流程图；以及

图7为示出根据本发明的一个实施例的搜索且检索已加语音标签的媒体对象的方法的流程图。

具体实施方式

本发明的实施例可解决以上描述的问题或其它未提到的问题中的一些或全部。在一些情况下，本发明的系统及方法允许用户利用音频标识符对媒体对象加标签。这些音频标识符可在本文中被称作“语音样本”。此外，本发明包括用于基于“语音查询”来搜索链接至数据库中的语音样本的媒体对象的系统及方法。语音查询为人类语言中的一连串字，每个字由一连串音素组成。若语音查询听起来像一个或多个语音样本，则链接至这些语音样本的这些标签将被用于检索媒体对象。

在一个实施例中，提供用于用户利用其说出字或短语的语音的音频记录对数字媒体加标签的方法，以及用于用户使用这些语音标签来搜索和浏览数字媒体的另一方法。应理解，“用户”是说出所述字或短语的人，未必是向其提供语音标签的装置的拥有者。

具体而言，一些实施例提供用于利用口头音频(例如，字及短语)对图像及其它数字媒体加标签的系统及方法。本文中公开的系统及方法可包括将语音样本中的音素序列识别为标签的能力。随后，若同一或另一用户讲出紧密匹配的音素序列，则本文中公开的系统及方法可检索数字媒体。

还提供用于用户收听语音标签并选择标签中的一个来接着检索相关联的数字媒体的方法。可按字母顺序、按流行度、按分层结构或按其它方式排列标签。在分层结构中，可在较具体标签前呈现较概括标签，且标签可具有同义词，如由用户对标签的特定性或相似性层级的判断所确定的。若选择处于给定层级的标签，则可呈现在下一向下层级的更具体标签或可记录用于选定标签的新同义词。若在给定层级下无标签被选择，则一标签可被记录且在此层级处添加至分层结构。当用户收听语音标签时，所链接的语音样本的音频特性(例如，响度)可被用于指示该标签相对于全部标签集合的流行度或其它特性以及身份(若扬声器可被用于根据偏好来选择标签或标签的特定语音样本)。举例而言，一个人可能在听到其它用户的语音前更喜欢听到其自己的语音用于标签。

图1示出本发明的实施例可实施于其上的计算系统的实例。在此实施例中，系统100具有一个或多个中央处理单元(处理器)101a、101b、101c等(被共称作或统称作处理器101)。在一个实施例中，每个处理器101可包括精简指令集计算机(RISC)微处理器。处理器101经由系统总线113耦接至系统内存114及各种其它部件。只读存储器(ROM)102耦接至系统总线113，且可包括基本输入/输出系统(BIOS)，该BIOS控制系统100的某些基本功能。

图1进一步描绘耦接至系统总线113的输入/输出(I/O)适配器107及网络适配器106。I/O适配器107可为与硬盘103和/或磁带存储驱动器105或任何其它类似部件通信的小计算机系统接口(SCSI)适配器。I/O适配器107、硬盘103及磁带存储驱动器105在本文中被共称作大容量存储器104。网络适配器106把总线113与外部网络116互连，从而使数据处理系统100能够与其它这些系统通信。屏幕(例如，显示监视器)115利用显示适配器112连接至系统总线113，显示适配器112可包括用以改进图形密集型应用的性能的图形适配器及视频控制器。在一个实施例中，适配器107、106及112可连接至一个或多个I/O总线，该一个或多个I/O总线可经由中间总线桥接器(未示出)连接至系统总线113。用于连接外围装置(诸如，硬盘控制器、网络适配器及图形适配器)的合适的I/O总线通常包括共同协议，诸如，外围部件接口(PCI)。另外的输入/输出装置被示出为经由用户接口适配器108及显示适配器112连接至系统总线113。键盘109、鼠标110及扬声器111皆经由用户接口适配器108互连至总线113，用户接口适配器108可包括例如将多个装置适配器整合至单个集成电路中的超级I/O芯片。当然，可包括诸如数字相机或数字视频相机(或以数字格式供应一个或多个图像的其它设备)及麦克风的其它输入作为另外的输入装置。

因此，如图1中所配置的，系统100包括呈处理器101的形式的处理设备、包括系统内存114及大容量存储器104的存储设备、诸如键盘109及鼠标110的输入设备，以及包括扬声器111及显示器115的输出设备。在一个实施例中，系统内存114及大容量存储器104的一部分共同地存储操作系统(诸如，来自IBM Corporation的操作系统)以协调图1中示出的各种部件的功能。

应认识到，系统100可以是任何合适的计算机或计算平台，且可包括终端机、无线装置、信息用具、装置、工作站、微型计算机、大型计算机、个人数字助理(PDA)或其它计算装置。应理解，系统100可包括利用通信网络链接在一起的多个计算装置。举例而言，在两个系统之间可存在客户端－服务器关系，且可在两者之间分开进行处理。

可由系统100支持的操作系统的实例包括Windows 95、Windows98、Windows NT4.0、Windows XP、Windows 2000、Windows CE、Windows Vista、Mac OS、Java、AIX、LINUX及UNIX或任何其它合适的操作系统。系统100还包括用于在网络116上通信的网络接口106。网络116可为局域网(LAN)、城域网(MAN)或广域网(WAN)，诸如因特网或万维网。

系统100的用户可经由任何合适的网络接口116连接(诸如，标准电话线、数字用户线、LAN或WAN链路(例如，T1、T3)、宽带连接(帧中继、ATM)及无线连接(例如，802.11(a)、802.11(b)、802.11(g)))连接至网络。

如本文中所公开的，系统100包括存储在机器可读介质(例如，硬盘104)上的机器可读指令，用于用户对屏幕115上示出的信息的捕获及交互显示。如本文中论述，这些指令被称作“软件”120。可使用本领域中已知的软件开发工具生产软件120。软件120可包括本领域中已知的用于提供用户交互能力的各种工具及特征。

在一些实施例中，将软件120提供为对另一程序的覆盖。举例而言，可将软件120提供为针对一应用程序(或操作系统)的“插件(add-in)”。注意，术语“插件”通常指本领域中已知的补充程序代码。在这种实施例中，软件120可替换其合作的应用程序或操作系统的结构或对象。

应理解，在一个实施例中，本发明的系统可按一特定方式配置，且包括多个计算装置。为此，图2示出根据本发明的一个实施例的系统200的实例。可利用系统200来实施本文中公开的方法。

系统200包括一个或多个客户端计算装置202。客户端计算装置202可为任何类型的计算装置。在一个实施例中，客户端计算装置202包括麦克风及扬声器。在一个实施例中，且如图2中所示，客户端计算装置202可为蜂窝或“智能”电话、PDA或包括麦克风204及扬声器206的其它手持型通信(计算)装置。为了完整性，客户端计算装置202的其它部件可包括数字相机208、显示屏210及输入小键盘212。应理解，可将客户端计算装置202的部件中的一些组合在一起。举例而言，显示屏210可包括输入能力，且因此，包括用于输入信息以及显示例如图像的设备。在一个实施例中，客户端计算装置202可包括运行客户端应用、连接至无线数据网络、捕获一个或多个图像、显示图像、捕获音频及广播音频的能力。

客户端计算装置202可耦接至通信网络214。在一个实施例中，通信网络214可为蜂窝网络。举例而言，通信网络214可为GSM、TDMA、2G、3G或4G无线网络。通信网络214也可为诸如WIMAX或802.11的无线数据网络。当然，通信链路216可为无线或实体的。在一个实施例中，通信网络可为内联网或因特网。

系统200还可包括语音加标签系统218。语音加标签系统218耦接至通信网络214。因此，语音加标签系统218可在通信网络214上与客户端计算装置202通信。在一个实施例中，可将语音加标签系统218植入于服务器上。在一些实施例中，语音加标签系统218可被配置成运行web应用，该web应用处理对媒体对象及语音标签的请求且执行语音标签匹配。在一个实施例中，语音加标签系统218可包括具有用于人类语言的音素层级话语模型的话语处理单元，给定一语音样本，则该话语处理单元将返回最紧密匹配的音素序列。当然，该话语处理单元可处于独立的单元中或可实施于独立的单元上。

系统200还可包括耦接至语音加标签系统218的数据库220。数据库220可存储由语音加标签系统218利用的信息。在一个实施例中，语音加标签系统218可在其内包括数据库220。

图3a示出可存储在数据库220中的信息的实例。在一个实施例中，数据库220可包括语音标签存储302、数字媒体304及讲话者注册表306。当然，数据库220无需按此特定方式划分。

数字媒体存储304可包括数字媒体对象。数字媒体对象可包括能够视觉重现的任何类型的媒体，包括但不限于图像、文档、动画及视频。应理解，在一个实施例中，可用于语音加标签系统218(图2)的所有数字媒体可不存储在单个位置中，且可散布在多个数据库220上。

讲话者注册表306可包括与特定讲话者相关联的语音剪辑。在一个实施例中，语音剪辑中的一些或全部可与相应语音剪辑的音素表示相关联。这可能对于语音加标签并不需要，但可用于以下论述的讲话者身份验证(SIV)中。

语音标签为存储一个或多个语音剪辑与一个或多个数字媒体对象之间的关联的对象，且存储在语音标签存储302中。在一个实施例中，“加标签”应指创建媒体对象与语音样本之间的关联。相比之下，语音标签存储302中的语音标签包括至至少一个媒体对象及一个语音样本的链接。

图3b示出讲话者注册表306的较详细版本。讲话者注册表唯一地识别语音加标签系统的用户。讲话者可具有被识别的不同方式：使用触摸屏键入其姓名或特殊代码、匹配的语音剪辑(“说出字‘baggage’”)、来自呼叫者ID的电话号码，或产生可链接至语音剪辑以识别在记录语音剪辑时正交谈的讲话者的唯一讲话者标识符的任何其它方式。

图4示出具有数字媒体存储304与讲话者注册表306之间的链接的数据库220的一个实例。更详细地，图4示出语音剪辑402、404、406及408与数字媒体对象430及432之间的可能连接中的一些的实例。第一语音剪辑402表示某一讲话者讲出字“wheat”的剪辑。第一语音剪辑402链接至第一语音剪辑402的讲话者标识符410及音素表示412。

可按许多不同方式形成音素表示412(以及用于其它语音剪辑的任何其它音素表示)。在一个实施例中，可将音频剪辑分成语音片段及非语音片段，且接着，可利用已知的或日后开发的技术来识别语音部分的音素。如所示出的，以实例说明，第一语音剪辑402可表示描绘为各字母“wheet”的音素

第一语音标签426也可链接至耦接至第二讲话者标识符414及音素表示416的第二语音剪辑404。在此实施例中，第二语音剪辑404表示由各字母“weet”描绘的音素可实施音素匹配算法以推断：当由不同人讲话时，第一语音剪辑402和第二语音剪辑404实际上为同一个字。这种匹配可包括例如基于字的开始且因此基于字的音素序列的开头按同一方式分类的语音剪辑。因此，举例而言，每个语音剪辑中的前N=3个音素被识别且与其它相比较。当然，可利用其它分类技术，诸如，表示使两个序列相同所需的添加、删除及移动的数目的“编辑距离”。无论如何，第一语音标签426与第一数字媒体对象430相关联。

第二语音标签428与第一数字媒体对象430及第二数字媒体对象432两者相关联。这说明本发明允许将一个语音标签链接至包括不同类型的数字媒体对象(诸如，图像及视频)的一个或多个数字媒体对象的原理。类似于第一语音标签426，第二语音标签428可链接至一个或多个语音剪辑。在此实例中，第二语音标签428链接至第三语音剪辑406及第四语音剪辑408。第三语音剪辑406链接至讲话者标识符418及音素表示420。类似地，第四语音剪辑408链接至讲话者标识符422及音素表示424。当然，在一个实施例中，可组合这些讲话者标识符。

用户可创建语音剪辑与媒体对象之间的关联。这些关联可被用于创建语音标签并创建语音标签、数字媒体对象和语音剪辑之间的链接，如图4中所示。这些链接可例如由语音加标签系统218(图1)创建。当记录语音剪辑时，可创建讲话者标识符与语音剪辑之间的链接。也可由语音加标签系统218创建与每个语音剪辑相关联的音素表示且将其链接至语音剪辑。如所示，讲话者1(块422)讲出语音剪辑406及408两者。当收听标签428时，语音剪辑406可较佳，这是由于任意数量的包括清晰性、讲话时间、音量等的可配置原因。

对图像加标签

存在可根据本发明对图像加标签的若干方式。关于图5公开了一种方法。在块502处，获取媒体对象且将其呈现给用户。可按不同方式获取媒体对象。举例而言，媒体对象可由用户利用内置于用户的蜂窝电话中的数字相机拍照而获取。在另一实施例中，可从数据库将媒体对象下载至用户的蜂窝电话的屏幕。当然，在不脱离本发明的情况下，可执行其它获取图像的方法。在一个实施例中，媒体对象必须对用户来说可见以便对图像加标签。当然，这并非必需。

在块504处，启用语音加标签应用。语音加标签应用可以是例如能够接收语音样本且使其与正观看的图像相关联的客户端应用。在一个实施例中，语音加标签应用是蜂窝电话上的客户端应用。

在块506处，从用户接收语音样本。在一个实施例中，可在向用户呈现图像或其它媒体对象时接收语音样本。

在块507处，可分析语音样本以确定讲话者的身份。若无讲话者可被识别，则语音加标签系统可利用匿名讲话者操作。可使用各种信息来确定讲话者身份，包括但不限于呼叫者ID(电话号码)、讲话者身份验证(SIV)及在电话小键盘上键入姓名。存储在讲话者注册表中的一个或多个语音样本也可被用于匹配由用户提供并存储在讲话者注册表中的语音样本。可选地，若在块507处不存在匹配，则可在讲话者注册表中创建新的讲话者标识符。在此情况下，可能需要与用户的对话以记录语音剪辑、姓名、电话号码或其它识别信息。

在块508处，创建语音样本与媒体对象之间的关联。此关联可处于语音样本与下载的媒体文件、已加载于装置上的媒体或由用户创建的媒体对象之间。无论如何，所述关联可描述语音剪辑的位置及媒体对象位置及创建关联的时间。

在块510处，可将所述关联传输至语音加标签系统。当然，若语音样本或媒体对象先前未存储在数据库中，则可将语音样本或媒体对象与所述关联一起传输。举例而言，若用户从数据库220(图2)下载图像，且用语音样本对该图像加标签，则仅需要传输该语音样本及关联。所传输的除了关联之外的数据可以是系统特定且可配置的，且取决于具体情形。

创建已加标签的图像的数据库

如上论述，各个用户可创建语音样本与媒体对象之间的关联。这些关联形成图4中示出的链接的基础。图6为示出根据本发明的一个实施例的形成数据库的方法的流程图。

在块602处，接收关联。该关联使语音样本与媒体对象相关联。该关联可来自例如同时记录语音样本并显示图像。或者，该关联可来自允许在不显示图像的情况下进行关联的系统。在一个实施例中，媒体对象及语音样本中的一个或两者可与关联一起接收，例如在媒体对象或语音样本中的一个或两者尚未存在于数据库中的情况下。可例如由语音加标签系统218(图2)接收所述关联。

在块604处，将语音样本转换成音素表示。可利用已知技术来创建音素表示。音素表示被链接至语音样本。此外，若语音样本的讲话者已知，则其可被链接至讲话者注册表中的语音样本的创建者。此链接可将每个语音样本链接至至少一个讲话者标识符。例如，当不能识别唯一讲话者时，或当不使用讲话者识别且因此所有语音样本链接至匿名讲话者标识符时，讲话者标识符可识别唯一匿名用户。当然，多个样本可链接至单个标识符。

在块606处，比较数据库中的现有语音样本的音素表示与新接收的语音样本的音素表示。存在执行这种匹配的许多方式。一个实例包括匹配(并因此分类)基于字的开始听起来相似的字。这种匹配可包括：针对这些N个音素中的每一个，提取在语音样本中识别的前M个音素。对于一些情形，可使用少至M=3个音素。对于每个语音标签，顺序地比较这些音素。标签接收基于与其第M个音素的匹配程度的计分。与第M-1个音素的匹配可被加权高于第M个音素。在一个实施例中，匹配程度基于音素的匹配特征(诸如，浊辅音及清辅音)的数目，且无匹配接收计分-1。每个音素存在5个特征，因此，最佳计分为15且最差为-3。

在块608处，确定是否存在新语音样本与现有语音样本之间的匹配。若多个现有语音样本被从现有语音样本的数据库中检索出且匹配，则用户可选择最佳者。在存在与单个语音样本的匹配的情况下，在块610处，新语音样本被链接至现有语音样本被链接至的语音标签。举例而言，再次参看图4，第一语音剪辑402及第二语音剪辑404均链接至语音标签426。这可发生是因为第一语音剪辑402先前被链接至语音标签426。当将第二语音剪辑404放置于系统中时，第二音素表示416匹配第一音素表示412。因此，它们均被分配至同一个语音标签(语音标签426)。

现返回参看图6，如上所论述，每个语音标签链接至至少一个媒体对象及至少一个语音样本。在块612处，确定链接至现有语音标签的媒体对象是否匹配与新语音样本相关联的媒体对象。若是，则可记录关于加标签过程的信息且该过程可结束。举例而言，可将已对图像加标签的次数记录于数据库220(图2)中。否则，在块614处，将语音标签链接至与新语音样本相关联的媒体对象。以此方式，可将单个语音标签与多个媒体对象相关联。

在不存在新语音样本与现有语音样本之间的匹配(即，这是先前未讲出的字的语音样本)的情况下，在块616处，创建新语音标签。接着在块618处，将新创建的语音标签链接至新语音样本。新创建的语音标签被用于开始于已描述的块612处的处理。因此，若这是与匹配媒体对象的关联，则将新语音标签链接至语音样本先前相关联的媒体对象。若这是非匹配的新媒体对象，则将新创建的标签链接至该新媒体对象。因此可能使用新记录的语音样本对新捕获的图像加语音标签，在该情况下，该语音样本不匹配任何现有标签。

如上所论述，讲话者注册表306可被用于唯一地识别语音加标签系统的用户。可如上所述搜集用于讲话者的信息。

搜索已加标签的图像的数据库

以上描述详述了可创建及修改数据库的方式，以下描述描述在一个实施例中可如何搜索数据库。

图7为示出搜索且检索已加语音标签的媒体对象的方法的流程图。在块702处，语音加标签系统的用户启用在其客户端计算装置上的系统。在一个实施例中，客户端计算装置可为蜂窝电话。在另一实施例中，能够拍照且记录及播放声音且在WiFi网络上操作的触摸屏装置可形成客户端计算装置。

在块704处，创建利用语音搜索项的搜索。这可包括用户对着麦克风说出字。接着在块706处将搜索提交至服务器。

在块708处，服务器(例如，语音加标签系统218，图2)将(多个)语音搜索项与现有语音标签进行匹配。此匹配可包括将(多个)搜索项分成语音片段及非语音片段。接着，针对每个语音片段，可形成音素表示。可比较这些音素表示与链接至语音标签的现有音素表示，且基于与语音标签一起存储的现有语音样本的音素表示的匹配计分为每个语音标签创建“匹配计分”。可使用以上描述的匹配计分为每个语音标签确定最佳匹配。

在块710处，将结果返回至搜索者。在多个语音标签具有足够高计分的情况下，返回那些标签。在未找到标签的情况下，可将此对搜索者指示。假定存在匹配，则可将关联呈现给用户。向搜索者显示链接至选定标签的一个或多个匹配媒体对象。在触摸屏装置上选择匹配媒体对象可通过播放具有最佳计分的相关联的语音样本来播放与每个媒体对象相关联的语音标签。

在替代实施例中，捕获图像且经由MMS(多媒体消息传送服务)来发送，且系统执行语音输入的层次分类。在此实施例中，系统可包括“语音网关”，该语音网关自身是将用户的电话(经由公共交换电话网络或PSTN)连接至计算机系统的部件的组合。

现返回参看图2，在此实施例中，语音加标签系统218可被配置成操作交互式语音响应系统(IVR)。IVR系统可处理用户的小键盘输入，且引导语音网关播放和/或记录音频流(也被称作音频剪辑或语音剪辑)。系统还可包括无线手持电话，该无线手持电话能够记录和显示图像并具有与语音加标签系统218的无线数据连接。如先前所述，图像(或其它数字媒体)可存储并链接于数据库220中。该系统还可包括用于对其它用户通知新书签的至外部(在本IVR外部)服务的一个或多个接口。实例为公共域电子邮件网络、由无线载体(服务提供者)拥有并操作的SMS(短消息服务)及MMS(多媒体消息服务)网络、及公共交换电话网络(PSTN)。

在此实施例中，用户调用在连接至PSTN的任意移动相机电话上的IVR系统，且历经以下步骤来按层次地分类照片：1.用户利用其相机电话拍摄照片；用户将照片自其移动电话(使用电子邮件或MMS)发送至IVR服务；3.IVR服务将照片存储至数据库中并将照片添加至未加标签的照片的队列；4.用户登录IVR服务。用户的电话的呼叫者ID或明确的登录还被用于识别用户；用户通过收听与每个未加标签的照片相关联的元数据的文本至话音(TTS)生成而使用IVR菜单来选择照片。在此实施例中，使用该队列中每个未加标签的照片的上载时间；接着由IVR提示用户是否想要对该照片加标签，且若是，则从先前记录的语音标签的分层结构构建IVR菜单树；8.在IVR菜单树中的每个层级N处，提示所述用户：a)选择适当标签，b)创建新标签，或c)删除标签；9.若用户已选择适当标签，则检索层级N+l处的语音标签；及10.若无更多特定标签可用，则将该语音标签与照片一起存储。

本文中使用的术语仅用于描述特定实施例的目的，且并不意欲限制本发明。如本文中所使用的，单数形式的“一”、“一个”及“该/所述”意欲还包括复数形式，除非上下文另有清晰指示。应进一步理解，当词语“包括”用于此说明书中时，其指定所述的特征、整数、步骤、操作、元件和/或部件的存在，但并不排除一个或多个其它特征、整数、步骤、操作、元件、部件及/或其群组的存在或添加。

权利要求中的所有设备或步骤加功能元件的对应结构、材料、动作及等效物意欲包括用于连同如具体所主张的其它所主张元件一起执行功能的任何结构、材料或动作。已呈现本发明的描述以用于达成说明及描述的目的，但其并不意欲为详尽的或限于所公开的形式下的本发明。在不脱离本发明的范围及精神的情况下，许多修改及变化对于本领域普通技术人员将显而易见。选择并描述了实施例以便最佳地解释本发明的原理及实践应用，且使其它本领域普通技术人员能够针对具有适合于所预期特定用途的各种修改的各种实施例来理解本发明。

本文中描绘的流程图仅为一个实例。在不脱离本发明的精神的情况下，可存在对本文中描述的该图或步骤(或操作)的许多变化。举例而言，可按不同次序执行这些步骤，或者可添加、删除或修改步骤。将所有这些变化考虑为所主张的本发明的一部分。

尽管已描述了本发明的优选实施例，但本领域技术人员应理解，在现在及将来，可进行落入权利要求的范围的各种改进及增强。这些权利要求应被解释为维持对最初描述的本发明的适度保护。

Claims

1.一种用于对媒体对象加标签的系统，包括：

客户端计算装置，所述客户端计算装置包括媒体对象捕获装置和语音捕获装置，并运行将媒体对象与语音样本相关联的客户端应用；

通信网络，其耦接至所述客户端计算装置；

语音加标签系统，其耦接至所述通信网络并接收第一媒体对象和第一语音样本之间的至少一个关联；以及

数据库，其耦接至所述语音加标签系统，所述数据库包括一个或多个现有语音样本，其中所述一个或多个现有语音样本被用于比较，所述比较包括：顺序地比较所述现有语音样本的音素表示与所述第一语音样本的音素表示，且在前的音素的匹配被加权高于在后的音素。

2.如权利要求1所述的系统，其中，所述至少一个现有语音样本被链接至讲话者标识符。

3.如权利要求1所述的系统，其中，所述客户端计算装置是蜂窝电话。

4.如权利要求1所述的系统，其中，具有类似音素表示的多个语音样本被链接至一个语音标签。

5.如权利要求1所述的系统，其中，所述第一媒体对象是图像。

6.一种对媒体对象加标签的方法，所述方法包括：

在服务器处接收第一语音样本和第一媒体对象之间的关联；

比较所述第一语音样本与一个或多个其它语音样本，其中所述比较包括顺序地比较所述第一语音样本的音素表示与所述一个或多个其它语音样本的音素表示，且在前的音素的匹配被加权高于在后的音素；

将所述第一语音样本链接至第一语音标签；

将所述第一语音标签链接至所述第一媒体对象；以及

将所述第一语音样本、所述第一语音标签、所述第一媒体对象以及它们之间的任何链接存储在耦接至所述服务器的数据库中。

7.如权利要求6所述的方法，其中，将所述第一语音样本链接至第一语音标签包括，将所述第一语音样本链接至用户选择的现有的语音样本所链接至的第一语音标签，所述选择的现有的语音样本与所述第一语音样本匹配。

8.如权利要求6所述的方法，其中，从蜂窝电话接收所述关联。

9.如权利要求8所述的方法，其中，在所述蜂窝电话处创建所述第一媒体对象。

10.如权利要求8所述的方法，其中，从所述数据库中检索所述第一媒体对象并呈现在所述蜂窝电话上。

11.如权利要求6所述的方法，其中，在所述第一语音样本的音素表示匹配所述一个或多个其它语音样本中的一个的情况下，将所述第一语音样本链接至所述第一语音标签，所述第一语音标签先前被链接至所述一个或多个其它语音样本中的一个。

12.如权利要求6所述的方法，其中，在所述第一语音样本的音素表示不匹配所述一个或多个其它语音样本中的一个的情况下，将所述第一语音样本链接至所述第一语音标签进一步包括：

在确定所述第一语音样本的音素表示不匹配所述一个或多个其它语音样本中的一个之后，创建所述第一语音标签。

13.如权利要求8所述的方法，进一步包括：

将所述第一媒体对象存储在所述数据库中。

14.如权利要求8所述的方法，进一步包括：

将所述第一语音标签链接至第二媒体对象。