CN105474212A - 用于基于声音标签对数据项进行分类的方法及设备 - Google Patents

用于基于声音标签对数据项进行分类的方法及设备 Download PDF

Info

Publication number
CN105474212A
CN105474212A CN201480046372.6A CN201480046372A CN105474212A CN 105474212 A CN105474212 A CN 105474212A CN 201480046372 A CN201480046372 A CN 201480046372A CN 105474212 A CN105474212 A CN 105474212A
Authority
CN
China
Prior art keywords
data item
sound
voice tag
sound characteristic
audio frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201480046372.6A
Other languages
English (en)
Inventor
朴民奎
金泰殊
朝玄默
金杜勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN105474212A publication Critical patent/CN105474212A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明揭示一种用于在移动装置中将数据项分组的方法。在此方法中,存储多个数据项及与所述多个数据项中的每一者相关联的声音标签,且所述声音标签包含从指示所述数据项的环境背景的输入声音提取的声音特征。此外,所述方法可包含:产生新数据项;接收环境声音;通过从所述环境声音提取声音特征而产生与所述新数据项相关联的声音标签;及基于与所述新数据项及所述多个数据项相关联的所述声音标签而将所述新数据项与所述多个数据项中的至少一者分组在一起。

Description

用于基于声音标签对数据项进行分类的方法及设备
相关申请案的交叉参考
本申请案主张2013年8月27日申请的第14/011,437号美国非临时专利申请案的优先权,所述申请案的内容明确以全文引用的方式并入本文中。
技术领域
本发明大体上涉及在移动装置中对数据项进行分类。更具体来说,本发明涉及基于移动装置的背景信息对数据项进行分类。
背景技术
近年来,例如智能电话及平板计算机等移动装置的使用已变得普遍。这些装置通常允许用户执行多种功能,例如数据及/或话音通信、浏览因特网、拍照片或视频、上载博客帖子及SNS(社交网络服务)帖子到因特网、进行电话或视频呼叫、发送电子邮件、文本消息及MMS消息、产生备忘录等。归因于此便利特征,用户通常在大多数时间将此移动装置携带在身上。
常规的移动装置经常用于俘获例如照片、声音剪辑等数据,其可存储在移动装置中。在照片的情况下,此移动装置可使用GPS(全球定位系统)位置信息标记照片以指示拍照片的位置。通过使用GPS位置信息,可将在指定地理位置中拍到的照片组织到相同群组中。另外,还可使用拍照片的时间标记照片。随后可根据时间信息组织照片。
然而,常规的移动装置可在多种背景中俘获数据项。例如,可在相同位置中(例如,建筑物)拍照片但具有不同背景(例如,建筑物中的餐馆及便利店)。而且,可在不同位置但在不同位置中的例如餐馆等类似背景中拍照片。在此些情况下,移动装置可不能够组织照片以充分反映类似或不同的背景。
发明内容
本发明提供用于在移动装置中基于声音标签对数据项进行分类的方法及设备。
根据本发明的一个方面,揭示一种用于在移动装置中将数据项分组的方法。在此方法中,存储多个数据项及与所述多个数据项中的每一者相关联的声音标签,且所述声音标签包含从指示所述数据项的环境背景的输入声音提取的声音特征。此外,所述方法可包含:产生新数据项;接收环境声音;通过从所述环境声音提取声音特征而产生与所述新数据项相关联的声音标签;及基于与所述新数据项及所述多个数据项相关联的所述声音标签而将所述新数据项与所述多个数据项中的至少一者分组在一起。本发明还描述了涉及此方法的设备、装置、系统、装置的组合以及计算机可读媒体。
根据本发明的另一方面,揭示一种在移动装置中将数据项分组的方法。此方法包含:产生第一数据项;接收第一环境声音;及通过从第一环境声音提取第一声音特征而产生第一声音标签。此外,所述方法可包含:产生第二数据项;接收第二环境声音;通过从第二环境声音提取第二声音特征而产生第二声音标签;及基于所述第一和第二声音标签将所述第一和第二数据项分组。本发明还描述了涉及此方法的设备、装置、系统、装置的组合以及计算机可读媒体。
根据本发明的仍另一方面,一种移动装置包含存储单元、数据项产生器、声音传感器、声音标签产生器及分组单元。所述储存单元经配置以存储多个数据项及与所述多个数据项中的每一者相关联的声音标签,且所述声音标签包含从指示所述数据项的环境背景的输入声音提取的声音特征。所述数据项产生器经配置以产生新数据项。所述声音传感器经配置以接收环境声音。所述声音标签产生器经配置以通过从所述环境声音提取声音特征而产生与新数据项相关联的声音标签。所述分组单元经配置以基于与所述新数据项及所述多个数据项相关联的声音标签而将所述新数据项与所述多个数据项中的至少一者分组在一起。
根据本发明的另一个方面,一种移动装置包含数据项产生器、声音传感器、声音标签产生器及分组单元。所述数据项产生器经配置以产生第一数据项及第二数据项。所述声音传感器经配置以接收第一环境声音及第二环境声音。所述声音标签产生器经配置以通过从第一环境声音提取第一声音特征而产生第一声音标签且通过从第二环境声音提取第二声音特征而产生第二声音标签。所述分组单元经配置以基于所述第一和第二声音标签而将所述第一和第二数据项分组。
附图说明
当结合附图阅读时,通过参考以下详细描述将理解本发明的发明性方面的实施例。
图1说明根据本发明的一个实施例的经配置以将包含基于环境声音在指定地理位置中产生的多个照片、备忘录、博客帖子及SNS帖子的数据项分组的移动装置。
图2说明根据本发明的一个实施例的经配置以将包含在三个不同建筑物中产生的多个照片、备忘录、博客帖子及SNS帖子的数据项分组的移动装置。
图3说明根据本发明的一个实施例的经配置以产生数据项且通过基于声音标签对数据项进行分类而将数据项分组的移动装置的框图。
图4是根据本发明的一个实施例的在移动装置中执行的用于基于指示环境背景的声音标签将数据项分组的方法的流程图。
图5说明根据本发明的一个实施例的从环境声音产生包含声音特征、音频群组识别符及背景标记的声音标签。
图6说明根据本发明的一个实施例的在移动装置中执行的用于从环境声音提取音频指纹以作为声音特征的示范性方法的流程图。
图7说明根据本发明的一个实施例的在移动装置中执行的用于从环境声音提取MFCC向量以作为声音特征的方法的流程图。
图8说明根据本发明的一个实施例的移动装置中的用于通过产生每一数据项的包含声音特征、音频群组识别符及背景标记的声音标签而对数据项进行分类或分组的声音标签产生器及控制单元的更详细框图。
图9说明根据本发明的一个实施例的示范性加标签的数据项,其中数据项附加有包含声音特征、音频群组识别符及背景标记的声音标签。
图10说明根据本发明的一个实施例的通过确定与选定数据项相关联的声音特征及与其它数据项相关联的每一声音特征之间的类似性值而将选定数据项与其它数据项分组在一起。
图11说明根据本发明的一个实施例的在移动装置的显示屏上显示为单一群组的选定数据项及其它数据项。
图12是根据本发明的一个实施例的说明用于多个输入音频群组识别符的背景标记的示范性背景标记数据库。
图13说明根据本发明的一个实施例的基于与数据项相关联的声音标签中的音频群组识别符而在移动装置的显示屏上显示的多个数据项群组。
图14说明在本发明的另一个实施例中的基于与数据项相关联的声音标签中的背景标记而在移动装置的显示屏上显示的多个数据项群组。
图15说明其中根据一些实施例可实施的基于声音标签对数据项进行分类的方法及设备的示范性移动装置的框图。
具体实施方式
图1说明根据本发明的一个实施例的经配置以将包含基于环境声音在指定地理位置100中产生的多个照片110、120及130、备忘录112、博客帖子122及SNS帖子132的数据项分组的移动装置140。如所说明,指定地理位置100在建筑物102处或附近且可由移动装置140分类或识别为相同位置。在指定地理位置100内的各个位置处,用户可操作移动装置140以产生数据项。
对于在各个位置处产生的数据项中的每一者,移动装置140可经配置以接收或俘获指示环境背景的环境声音。在一个实施例中,移动装置140可经配置以俘获与数据项相关联的环境声音持续预定时间周期。基于所俘获的环境声音,可在移动装置140中产生指示相关联的数据项的环境背景的声音标签。随后可通过移动装置140基于声音标签将所述数据项分类为多个群组。
在所说明的实施例中,用户可在指定地理位置100内的各个位置中操作移动装置140,例如在建筑物102的前方的室外、建筑物102内部的餐馆,及建筑物102内部的百货市场。所述各个位置可具有不同的环境背景。在室外情况中,用户操作移动装置140以产生包含照片110及备忘录112的数据项。对于这些数据项中的每一者,移动装置140可俘获环境声音以产生指示室外环境的声音标签,其可包含例如风噪声、车流声音、行人声音等室外声音。
当用户处于餐馆中时,用户可操作移动装置140以产生包含照片120及博客帖子122的数据项。对于这些数据项中的每一者,移动装置140可俘获环境声音以产生指示餐馆环境的声音标签,其可包含例如餐具、音乐、食物预订的声音等声音。在百货市场的情况下,用户可操作移动装置140以产生包含照片130及SNS帖子132的数据项。对于这些数据项中的每一者,移动装置140可俘获环境声音以产生指示百货市场环境的声音标签,其可包含例如购物手推车、收银机、通告的声音等声音。
基于声音标签,移动装置140可根据所述三个不同的环境背景将数据项分类或分组为群组A、B及C。例如,包含照片110及备忘录112的数据项可根据指示室外环境的声音标签而被一起分组在群组A中。另一方面,包含照片120及博客帖子122的数据项可根据指示餐馆环境的声音标签而被分组在群组B中,而包含照片130及SNS帖子132的数据项可根据指示百货市场环境的声音标签而被一起分组在群组C中。因此,在指定地理位置100内产生的相同数据类型的数据项以及不同数据类型的数据项可根据它们的环境背景被分组到不同群组中。
图2说明根据本发明的一个实施例的经配置以将包含在三个不同建筑物210、220及230中产生的多个照片212、222及232、备忘录214、博客帖子224及SNS帖子234的数据项分组的移动装置140。所述三个建筑物210、220及230位于三个不同地理位置中且由移动装置140分类或识别为在不同位置中。建筑物210、220及230可包含具有类似环境背景的经营场所。
如所说明,建筑物210、220及230包含台球室,其中用户可操作移动装置140以产生具有类似环境背景(例如,台球室)的数据项。在位于建筑物210中的台球室中,用户可操作移动装置140以产生包含照片212及备忘录214的数据项。而在位于建筑物220中的另一台球室中,用户可操作移动装置140以产生包含照片222及博客帖子224的数据项。在建筑物230内的又一台球室内,用户可操作移动装置140以产生包含照片232及SNS帖子234的数据项。
当产生数据项中的每一者时,移动装置140可俘获环境声音持续预定时间周期。所俘获的环境声音可包含例如台球彼此撞击、桌球杆、滚动的台球的声音等声音。移动装置140可从所俘获的环境声音产生指示数据项中的每一者的台球环境的声音标签。基于数据项的声音标签,移动装置140可确定具有台球环境的类似背景的数据项,且将包含照片212、222及232、备忘录214、博客帖子224及SNS帖子234的数据项分类或分组到相同群组X中。以此方式,在不同地理位置中产生的相同数据类型的数据项以及不同数据类型的数据项可根据它们的环境背景被分组到相同群组中。
图3说明根据本发明的一个实施例的经配置以产生数据项且通过基于声音标签对数据项进行分类而将数据项分组的移动装置140的框图。移动装置140可包含I/O单元320、数据项产生器330、声音传感器340、声音标签产生器350、控制单元360及存储单元370。移动装置140可为能够产生数据项且配备有声音俘获及处理能力的任何合适的移动装置,例如蜂窝式电话、智能电话、膝上型计算机、平板计算机、游戏装置、多媒体记录器/播放器等。
在移动装置140中,可响应于经由I/O单元320的用以激活数据项产生器330的第一用户输入而激活数据项产生器330。在一个实施例中,数据项产生器330可为任何应用、装置或其组合,且包含相机模块、相机应用、图像俘获应用、备忘录应用、SNS应用、博客产生应用、联系人应用、电话应用、应用执行记录模块等。在数据项产生器330被激活时,可响应于经由I/O单元320的用于产生数据项的第二用户输入而产生数据项。例如,可由第一用户输入激活相机应用以起始预览模式且响应于第二用户输入而产生照片。类似地,备忘录应用可由第一用户输入激活以起始备忘录编辑器且根据第二用户输入而产生备忘录。在另一实施例中,数据项产生器330可经配置以响应于单一用户输入而直接产生数据项。一旦产生数据项,数据项产生器330便可将数据项提供到控制单元360。
如本文中所用,数据项可为呈指定格式的对象、文件或信息的任何数据表示,例如照片、备忘录、SNS帖子、博客帖子、联系信息、呼叫历史、应用执行记录等。在SNS帖子或博客帖子的情况下,数据项可包含基本信息及到在线帖子的链接,因为在线帖子的内容通常存储在在线服务器中。例如标题、创建日期、代表性图片的缩略图等基本信息可在I/O单元320上(例如在显示屏上)作为数据项输出。替代地,SNS帖子或博客帖子的数据项可包含在线帖子的整个内容。
声音传感器340可被激活以接收及俘获移动装置140的环境声音310以用于产生指示在其中产生数据项的环境背景的声音标签。当数据项产生器330被激活时,其可将可产生数据项的通知发送到声音传感器340。如果声音传感器340已经不在作用中,那么所述通知可激活声音传感器340。作为响应,声音传感器340可俘获环境声音310持续预定时间周期。
在一个实施例中,声音传感器340可在第一用户输入之后俘获环境声音310持续预定时间周期。替代地,声音传感器340可在第二用户输入之后俘获环境声音310持续预定时间周期。在例如博客帖子及SNS帖子等数据项的情况下,可在用户编写博客帖子或SNS帖子的同时俘获环境声音310。在另一实施例中,声音传感器340可在单一用户输入之后俘获环境声音310持续预定时间周期。声音传感器340可包含一或多个麦克风或可用于接收、俘获环境声音310及/或将环境声音310转换为数字数据的任何其它类型的声音传感器,且可使用任何合适的软件及/或硬件来用于执行此功能。
声音标签产生器350可经配置以从声音传感器340接收所俘获的环境声音310且产生指示数据项的环境背景的声音标签。所述声音标签可包含声音特征、音频群组识别符及背景标记中的至少一者,如将在下文详细描述。声音标签产生器350可随后将声音标签提供到控制单元360以用于对所述数据项进行分类或分组。
控制单元360可分别从数据项产生器330及声音标签产生器350接收数据项及相关联的声音标签,且将所述声音标签与所述数据项组合。可通过将声音标签附加到数据项而组合所述数据项及所述声音标签。或者,可使用指针、数据库表等使所述声音标签与所述数据项链接,且一起或单独地存储在存储单元370中。控制单元360还可根据声音标签中指示的背景对数据项进行分类。与声音标签组合的数据项可存储在存储单元370中。存储单元370可使用任何合适的存储装置或存储器装置实施,例如RAM(随机存取存储器)、ROM(只读存储器)、EEPROM(电可擦除可编程只读存储器)、快闪存储器或SSD(固态驱动器)。
移动装置140可产生及存储多个数据项及相关联的声音标签。在此些情况下,控制单元360还可从存储单元370存取所述数据项及它们的声音标签且基于它们的声音标签将所述数据项分组到一或多个群组中。例如,当数据项的声音标签指示类似的环境背景时,可将所述数据项分组到相同的群组中。控制单元360可经由例如触摸屏显示器等I/O单元320接收用于产生或显示已经产生或分组的数据项以及输出数据项的用户输入。
图4是根据本发明的一个实施例的在移动装置140中执行的用于基于指示环境背景的声音标签将数据项分组的方法400的流程图。起初,在410处,可响应于接收到第一用户输入而激活数据项产生器330。在420处,经激活的数据项产生器330可响应于第二用户输入而产生数据项。
在430处,声音传感器340可俘获环境声音持续预定时间周期。所述预定时间周期足以识别在其中产生数据项的环境背景。在一个实施例中,可通过来自数据项产生器330的指示可产生数据项的通知激活声音传感器340。在440处,声音标签产生器350可基于所俘获的环境声音而产生数据项的指示环境背景的声音标签。可在420处产生数据项,同时在430处俘获环境声音或在440处产生声音标签。在一些实施例中,可在430处俘获环境声音之前或在440处产生声音标签之后在420处产生数据项。在另一实施例中,可在420处产生数据项的时间期间俘获环境声音的至少一部分。
在从数据项产生器330及声音标签产生器350接收数据项及声音标签之后,控制单元360可在450处组合所述声音标签与所述数据项。与声音标签组合的数据项可存储在存储单元370中。随后,方法400进行到460以确定是否将产生新数据项。例如,当移动装置140经由I/O单元320接收另一第二输入时,可确定将产生新数据项。如果确定将产生新数据项,那么方法400进行回到420以产生新数据项并且也回到430以俘获所述新数据项的新环境声音。另外,方法进行到470且控制单元360对在420处产生的数据项进行分类或分组。在此情况下,可基于相关联的声音标签将数据项与存储在存储单元370中的一或多个数据项分组在一起。
图5说明根据本发明的一个实施例的从环境声音310产生包含声音特征510、音频群组识别符520及背景标记530的声音标签500。当接收到环境声音310时,可使用任何合适的特征提取方案提取声音特征510,所述特征提取方案例如为音频指纹方法、MFCC(梅尔倒频谱系数)方法等。例如,声音特征510可在音频指纹方法的情况下表示为m个二进制代码的序列(例如,“110…111”),且在MFCC方法的情况下表示为具有n维值的向量(例如,向量{C1,C2,…,Cn})。在一些实施例中,声音标签500可包含多个声音特征,例如表示为音频指纹的声音特征及表示为MFCC向量的另一声音特征。
在另一实施例中,可通过存取参考音频群组数据库而确定所提取的声音特征510的音频群组识别符520。所述参考音频群组数据库可包含多个参考音频群组,其中的每一者与一音频群组识别符相关联。每一参考音频群组可包含可通过音频样本训练产生的统计特性。可通过使用经调适用于识别数据群组的任何算法(例如EM(期望最大化)算法)来确定声音特征所属的参考音频群组。例如,当使用EM算法时,计算声音特征属于所述参考音频群组中的每一者的概率值。在计算概率值之后,识别具有最高概率值的参考音频群组。与具有最高概率值的参考音频群组相关联的音频群组识别符(例如,音频群组识别符“1”)被确定为声音特征510的音频群组识别符520。
在再一实施例中,可通过存取背景标记数据库而识别音频群组识别符520的背景标记530。背景标记数据库可包含音频群组识别符的背景标记。所述背景标记可基于经过训练的音频样本而被指派给音频群组识别符。所述背景标记中的每一者可为识别环境背景的文本串或一或多个字。例如,可通过存取背景标记数据库中的查找表而识别音频群组识别符“1”的背景标记“台球”。如下文将更详细地论述,一些音频群组识别符可能例如归因于缺乏用于将背景标记关联到音频群组识别符的足够数据而不具有所指派的背景标记。
图6说明根据本发明的一个实施例的在移动装置140中执行的用于从环境声音310提取音频指纹以作为声音特征510的示范性方法600的流程图。起初,在610处,声音传感器340可接收环境声音310。通常,以时域中的信号的形式接收环境声音310。在620处,可对环境声音310执行傅里叶变换操作以将时域信号变换为频域信号。随后,在630处,可将频域信号的频谱划分成多个频带且可计算每一频带的信号的功率。
在640处,可对每一频带功率执行二进制化操作,使得当频带功率超过预定功率时输出二进制值“1”,而当频带功率不超过预定功率时输出二进位值“0”。在640处输出的二进制值可用作音频指纹中的二进制代码。图6中说明的方法600是用于从环境声音310提取音频指纹的示范性方法,且可采用用于提取音频指纹的任何其它合适的方法。所述方法可分析环境声音310的各种特性,例如平均过零率、估计节奏、平均频谱、频谱平坦度、跨越一组频带的主音调、带宽等。
图7说明根据本发明的一个实施例的在移动装置140中执行的用于从环境声音310提取MFCC向量以作为声音特征510的方法700的流程图。起初,声音传感器340可在710处接收呈时域信号的形式的环境声音310。可在720处通过对环境声音310执行傅里叶变换操作而将所述时域信号变换为频域信号。可在730处将频域信号的频谱划分成多个频带且可计算每一频带的信号的功率。
在740处,可使用三角形重叠窗将所计算的频带功率映射到梅尔尺度上以产生梅尔频率。可在750处对梅尔频率执行对数操作以产生梅尔对数功率,且随后可在760处对梅尔对数功率执行DCT(离散余弦变换)操作以产生DCT系数。所产生的DCT系数可用作MFCC向量中的分量。
图8说明根据本发明的一个实施例的在移动装置140中的用于通过产生每一数据项的包含声音特征、音频群组识别符及背景标记的声音标签而对数据项进行分类或分组的声音标签产生器350及控制单元360的更详细框图。声音标签产生器350可包含声音特征提取器810、音频群组确定单元820及背景标记识别单元830。控制单元360可包含加标签单元840及分组单元850。移动装置140还可包含如上文参看图3所描述的I/O单元320、数据项产生器330、声音传感器340及存储单元370。
当响应于用户输入而激活数据项产生器330以用于产生数据项时,声音传感器340也可经激活以接收及俘获环境声音持续预定时间周期。声音标签产生器350中的声音特征提取器810可从声音传感器340接收所俘获的环境声音且从所述所接收的环境声音提取声音特征。在声音特征提取器810中,可使用例如音频指纹方法、MFCC(梅尔倒频谱系数)方法等任何合适的特征提取方法从所接收的环境声音提取声音特征。声音特征提取器810可随后将所提取的声音特征提供到音频群组确定单元820。
在从声音特征提取器810接收声音特征之后,音频群组确定单元820可存取存储单元370中的参考音频群组数据库。参考音频群组数据库可包含多个参考音频群组,其中的每一者与音频群组识别符相关联。音频群组确定单元820可确定声音特征所属的参考音频群组且输出相关联的音频群组识别符。
可通过使用经调适用于识别数据群组的任何算法(例如EM(期望最大化)算法)确定声音特征所属的参考音频群组。例如,当使用EM算法时,音频群组确定单元820计算声音特征属于参考音频群组中的每一者的概率值。在计算概率值之后,音频群组确定单元820识别具有最高概率值的参考音频群组。音频群组确定单元820随后将与具有最高概率值的参考音频群组相关联的音频群组识别符提供到背景标记识别单元830。
背景标记识别单元830可从音频群组确定单元820接收音频群组识别符且从存储单元370存取背景标记数据库。背景标记数据库可包含音频群组识别符的背景标记。背景标记中的每一者可为识别环境背景(例如,餐馆环境、台球环境、体育场环境等)的文本串或者一或多个字。如下文将更详细地论述,一些音频群组识别符可能例如归因于缺乏用于使背景标记关联到音频群组识别符的足够数据而不具有所指派的背景标记。背景标记识别单元830可随后识别与背景标记数据库中的所接收的音频群组识别符相关联的背景标记且输出所识别的背景标记。
声音标签产生器350可产生指示相关联的数据项的环境背景的声音标签。在一个实施例中,声音标签产生器350可产生包含声音特征、音频群组识别符及背景标记中的至少一者的声音标签,且将所述声音标签提供到控制单元360中的加标签单元840。或者,声音标签产生器350可将声音特征、音频群组识别符及背景标记中的至少一者提供到加标签单元840以用作声音标签。
当在数据项产生器330中产生与声音标签相关联的数据项时,控制单元360中的加标签单元840可从数据项产生器330接收数据项。另外,加标签单元840可从声音标签产生器350接收数据项的包含声音特征、音频群组识别符及背景标记中的至少一者的声音标签。在一个实施例中,数据项及声音标签可随后由加标签单元840组合且作为加标签的数据项而输出。在另一实施例中,声音特征、音频群组识别符及背景标记中的至少一者可从声音标签产生器350接收且由加标签单元840作为声音标签附加到数据项。
可基于附加的声音标签将数据项分类到群组中。例如,可根据附加的声音标签中的音频群组识别符或背景标记将数据项分类到群组中。可将附加有声音标签的数据项提供到存储单元370以进行存储及/或提供到分组单元850以与一或多个加标签的数据项分组在一起,其可存储在存储单元370中。
在控制单元360中,分组单元850可从加标签单元840接收加标签的数据项以用于与从存储单元370存取的一或多个其它加标签的数据项分组在一起。或者,加标签的数据项可能已由加标签单元840存储在存储单元370中。在此情况下,分组单元850可存取存储在存储单元370中的加标签的数据项连同其它加标签的数据项且基于它们的声音标签将所述加标签的数据项分组。分组单元850可基于声音标签中的声音特征、音频群组识别符及背景标记中的任一者或组合将所述加标签的数据项分组。控制单元360还可响应于用户输入将数据项分组以用于经由I/O单元320输出。
图9说明根据本发明的一个实施例的其中数据项910附加有包含声音特征922、音频群组识别符924及背景标记926的声音标签920的示范性加标签的数据项900。声音特征922、音频群组识别符924及背景标记926可个别地或组合地指示数据项910的环境背景。虽然所说明的声音标签920包含声音特征922、音频群组识别符924及背景标记926,但声音标签920还可经配置以包含声音特征922、音频群组识别符924及背景标记926中的任一者或组合。另外,数据项910、声音特征922、音频群组识别符924及背景标记926的附加次序不限于图9的实例且可恰当地确定。
在一个实施例中,当已经在移动装置140中产生多个加标签的数据项时,它们可基于相关联的声音标签中的声音特征而被分组。例如,可比较一对数据项的声音特征以计算类似性值。如果所计算的类似性值超过预定类似性阈值,那么可确定所述两个数据项彼此类似,如将参考图10及11更详细地描述。
在另一实施例中,多个数据项可基于相关联的音频群组识别符被分类或分组到相同群组中。在此情况下,具有相同音频群组识别符的数据项可被分类到相同群组中。所述多个数据项还可基于相关联的背景标记被分类或分组。在此情况下,具有相同背景标记的数据项可被分组在一起。下文参考图13及14更详细地描述基于相关联的音频群组识别符及背景标记对数据项进行分类及分组。
图10说明根据本发明的一个实施例的通过确定与选定数据项1010相关联的声音特征及与数据项1020到1040相关联的每一声音特征之间的类似性值而将选定数据项1010与其它数据项1020、1030及1040分组在一起。起初,可当产生数据项1010时或响应于用户输入而选择将被分组的数据项1010。对于数据项1020、1030及1040中的每一者,可计算选定数据项1010的声音特征及与数据项1020、1030或1040相关联的声音特征之间的类似性值。
可通过采用任何合适的距离度量(例如马哈拉诺比斯距离、p范数距离、汉明距离、欧几里得距离、曼哈顿距离、契比雪夫距离等)而计算一对声音特征之间的类似性值。例如,在用作声音特征的音频指纹的情况下,可通过计算一对音频指纹之间的汉明距离且取得所述距离的乘法逆元素而确定类似性值。在将MFCC向量用作声音特征的情况下,可通过计算一对MFCC向量之间的欧几里得距离且取得所述距离的乘法逆元素而确定类似性值。
一旦已经确定一对数据项的类似性值,可将所述类似性值与预定类似性阈值进行比较。如果所述类似性值超过阈值,那么可确定所述两个数据项具有类似的环境背景且因此被分组到相同群组中。另一方面,如果所述类似性值不超过阈值,那么所述数据项可被视为具有不同的环境背景且不被分组到相同群组中。
在所说明的实施例中,与数据项1010相关联的声音特征及数据项1020到1030的声音特征之间的类似性值得以确定且与类似性阈值(其预定为例如0.6)进行比较。数据项1010及1020的声音特征之间的所确定的类似性值(即,S12)是0.8,其大于预定类似性阈值。因此,可确定数据项1010及1020具有类似的环境背景且可被分组在一起。对于数据项1010及1030的声音特征,0.7的所确定的类似性值(即,S13)大于预定类似性阈值。因此,还确定数据项1010及1030具有类似的环境背景且可被分组到相同群组中。另一方面,数据项1010及1040的声音特征之间的类似性值(即,S14)是0.5,其小于预定值0.6。因此,确定数据项1010及1040具有不同的环境背景且不被分组在一起。基于以上分组,数据项1010、1020及1030可被分组及显示为单一群组分组。
图11说明根据本发明的一个实施例的在移动装置140的显示屏1100上显示为单一群组的选定数据项1010及数据项1020及1030。如所说明,选定数据项1010可显示在移动装置140的显示屏1100的上部部分1110上。数据项1020及1030可在显示屏1100的下部部分1120中显示为具有与选定数据项1110类似的背景。以此方式,移动装置140可基于从所俘获的环境声音提取的声音特征将数据项与具有类似背景的其它数据项一起分组及显示。
图12是根据本发明的一个实施例的说明多个输入音频群组识别符的背景标记的示范性背景标记数据库1200。背景标记数据库1200可包含与N个音频群组识别符相关联的N个背景标记。在所说明的实施例中,背景标记“台球”、“体育场”、“餐馆”及“汽车”分别与音频群组识别符“1”、“3”、“N-2”、及“N-1”相关联。背景标记数据库1200可实施为查找表或使音频群组识别符与背景标记相关联的任何其它数据结构。
如上文参看图8所描述,背景标记识别单元830可基于音频群组识别符而存取背景标记数据库1200且识别与音频群组识别符相关联的背景标记。例如,当接收到音频群组识别符“3”时,背景标记识别单元830识别及输出背景标记“体育场”。类似地,可针对音频群组识别符“N-2”输出背景标记“餐馆”。
在背景标记数据库1200中,如果唯一背景标记不可用于音频群组识别符(例如,音频群组识别符“2”及“N”),那么可指派背景标记“未知”。在一个实施例中,具有背景标记“未知”的数据项可被分类及分组到相同群组中。以此方式,可根据数据项的背景标记将数据项分类及分组。
图13说明根据本发明的一个实施例的基于与数据项相关联的声音标签中的音频群组识别符在移动装置140的显示屏1100上显示的多个数据项群组1310、1320、1330及1340。如上文参考图1及2所描述,所述多个照片212、222及232、备忘录214、博客帖子224及SNS帖子234产生于台球环境中且与相同的音频群组识别符(例如,图12中的音频群组识别符“1”)组合。因此,数据项212、214、222、224、232及234可被分组及显示为第一数据项群组1310。
照片130及SNS帖子132产生于百货市场环境中且与相同的音频群组识别符组合。因此,数据项130及132可被分组及显示为第二数据项群组1320。照片120及博客帖子122产生于餐馆环境中且与相同的音频群组识别符组合。因此,数据项120及122可被分组及显示为第三数据项群组1330。照片110及备忘录112产生于室外环境中且与相同的音频群组识别符组合。因此,数据项110及112可被分组及显示为第四数据项群组1340。
在一个实施例中,群组1310到1340中的每一者可与音频群组编号一起显示以区分群组1310到1340(例如,如图13中所说明的“音频群组1”到“音频群组4”)。另外或替代地,与群组1310到1340的音频群组识别符中的每一者相关联的背景标记可显示于移动装置140的显示屏1100上。例如,背景标记“台球”及“餐馆”可显示于第一及第三数据项群组1310及1330上方,而背景标记“未知”可显示于第二及第四数据项群组1320及1340上方。
图14说明在本发明的另一个实施例中基于与数据项相关联的声音标签中的背景标记而在移动装置140的显示屏1100上显示的多个数据项群组1410、1420及1430。如上文参考图1及2所描述,多个照片212、222及232、备忘录214、博客帖子224及SNS帖子234产生于台球环境中且与背景标记“台球”组合。因此,数据项212、214、222、224、232及234可被分组及显示为第一数据项群组1410。照片120及博客帖子122产生于餐馆环境中且与相同的背景标记“餐馆”组合。因此,数据项120及122可被分组及显示为第二数据项群组1420。
在图14的所说明的实例中,照片110及备忘录112产生于室外环境中且与背景标记“未知”组合。此外,照片130及SNS帖子132产生于百货市场环境中且与背景标记“未知”组合。虽然数据项110及112的音频群组识别符可不同于数据项130及132的音频群组识别符,但不同音频群组识别符与相同背景标记“未知”相关联。因此,数据项110、112、130及132可根据相同背景标记“未知”被分组且一起显示于第三数据项群组1430中。如图14中所说明,群组1410到1430中的每一者可与背景标记(例如,“台球”、“餐馆”、及“未知”)一起显示以区分群组1410到1430。
图15说明根据本发明的一些实施例的其中可实施用于对数据项进行分类或分组的方法及设备的无线通信系统中的移动装置1500的框图。移动装置1500可以是蜂窝式电话、终端、手持机、个人数字助理(PDA)、无线调制解调器、无绳电话、平板计算机等。无线通信系统可以是码分多址(CDMA)系统、全球移动通信系统(GSM)系统、宽带CDMA(W-CDMA)系统、长期演进(LTE)系统、LTE高级系统等等。
移动装置1500能够经由接收路径和发射路径提供双向通信。在接收路径上,由基站发射的信号被天线1512接收,并且被提供到接收器(RCVR)1514。接收器1514调节和数字化所接收信号,并且将经调节和数字化的信号提供到数字区段1520以用于进一步处理。在发射路径上,发射器(TMTR)从数字区段1520接收待发射的数据,处理并调节所述数据,且产生经调制信号,所述经调制信号经由天线1512发射到基站。接收器1514和发射器1516是支持CDMA、GSM、W-CDMA、LTE、LTE高级等的收发器的一部分。
数字区段1520包含各种处理、接口和存储器单元,例如,调制解调器处理器1522、精简指令集计算机/数字信号处理器(RISC/DSP)1524、控制器/处理器1526、内部存储器1528、通用音频编码器1532、通用音频解码器1534、图形/显示处理器1536,和/或外部总线接口(EBI)1538。调制解调器处理器1522执行对数据发射及接收的处理,例如,编码、调制、解调和解码。RISC/DSP1524执行移动装置1500的通用和专用处理。控制器/处理器1526控制数字区段1520内的各种处理和接口单元的操作。内部存储器1528存储用于数字区段1520内的各种单元的数据和/或指令。
通用音频编码器1532执行对来自音频源1542、麦克风1543等的输入信号的编码。通用音频解码器1534执行对经译码音频数据的解码,并且将输出信号提供到扬声器/耳机1544。应注意,通用音频编码器1532和通用音频解码器1534不一定需要与音频源、麦克风1543和扬声器/耳机1544介接,并且因此未在移动装置1500中展示。图形/显示处理器1536执行对图形、视频、图像和文本的处理,其呈现给显示单元1546。EBI1538促进数字区段1520与主存储器1548之间的数据传递。
数字区段1520使用一或多个处理器、DSP、微处理器、RISC等来实施。还可在一或多个专用集成电路(ASIC)和/或一些其它类型的集成电路(IC)上制造数字区段1520。
一般来说,本文中描述的任何装置指示各种类型的装置,例如,无线电话、蜂窝式电话、膝上型计算机、无线多媒体装置、无线通信个人计算机(PC)卡、PDA、外部或内部调制解调器、通过无线信道通信的装置等等。装置可具有各种名称,例如,接入终端(AT)、接入单元、订户单元、移动台、客户端装置、移动单元、移动电话、移动设备、远程台、远程设备、远程单元、用户装置、用户设备、手持式装置等。本文中描述的任何装置均可具有用于存储指令和数据的存储器以及硬件、软件、固件或其组合。
本文中所描述的技术通过各种装置来实施。例如,这些技术用硬件、固件、软件或其组合来实施。所属领域的技术人员将进一步了解,结合本文中的揭示内容描述的各种说明性逻辑块、模块、电路和算法步骤可以实施为电子硬件、计算机软件或两者的组合。为清晰地说明硬件与软件的此可互换性,以上已大体就其功能性来描述了各种说明性组件、块、模块、电路和步骤。此类功能性是实施为硬件还是软件取决于具体应用及施加于整个系统的设计约束。熟练的技术人员可针对每一特定应用以不同方式实施所描述的功能性,但此类实施决策不应被解释为引起偏离本发明的范围。
对于硬件实施方案,用于执行技术的处理单元在一或多个ASIC、DSP、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文中所描述的功能的其它电子单元、计算机或其组合内实施。
因此,结合本文中的揭示内容描述的各种说明性逻辑块、模块和电路可以用通用处理器、DSP、ASIC、FPGA或经设计以执行本文所述的功能的其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器的组合、一或多个微处理器结合DSP核心,或任何其它此类配置。
如果实施于软件中,则可将所述功能作为一或多个指令或代码而存储在计算机可读媒体上或经由计算机可读媒体进行传输。计算机可读媒体包含计算机存储媒体与通信媒体两者,所述通信媒体包含促进将计算机程序从一处传送到另一处的任何媒体。存储媒体可以是可由计算机存取的任何可用媒体。举例来说且并不限于此,此类计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用于携载或存储呈指令或数据结构形式的所需程序代码且可由计算机存取的任何其它媒体。此外,任何连接都恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源发射软件,则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波等无线技术包含于媒体的定义中。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。以上各者的组合也应该包含在计算机可读媒体的范围内。
提供本发明的先前描述以使得所属领域的技术人员能够制造或使用本发明。所属领域的技术人员将易于明白对本发明的各种修改,且本文中界定的一般原理在不脱离本发明的精神或范围的情况下应用于其它变体。因此,本发明并不既定限于本文中所描述的实例,而应符合与本文中所揭示的原理及新颖特征相一致的最广泛范围。
尽管称示范性实施方案利用在一或多个独立计算机系统的背景下的当前揭示的标的物的方面,但所述标的物不受如此限制,而是可结合任何计算环境(例如网络或分布式计算环境)来实施。再者,目前揭示的标的物的方面可在多个处理芯片或装置中或跨越多个处理芯片或装置实施,且可以类似地跨越多个装置实现存储。此类装置可包含PC、网络服务器和手持式装置。
尽管已经以特定地针对结构特征和/或方法动作的语言来描述标的物,但应理解,所附权利要求书中所界定的标的物未必限于上文所描述的具体特征或动作。而是,揭示上文所描述的特定特征和动作以作为实施权利要求书的实例形式。

Claims (58)

1.一种用于在移动装置中将数据项分组的方法,所述方法包括:
存储多个数据项及与所述多个数据项中的每一者相关联的声音标签,所述声音标签包含从指示所述数据项的环境背景的输入声音提取的声音特征;
产生新数据项;
接收环境声音;
通过从所述环境声音提取声音特征而产生与所述新数据项相关联的声音标签;及
基于与所述新数据项及所述多个数据项相关联的所述声音标签而将所述新数据项与所述多个数据项中的至少一者分组在一起。
2.根据权利要求1所述的方法,其中产生与所述新数据项相关联的所述声音标签包括确定所述所提取的声音特征的音频群组识别符。
3.根据权利要求2所述的方法,其中产生与所述新数据项相关联的所述声音标签进一步包括识别所述音频群组识别符的背景标记。
4.根据权利要求1所述的方法,其中将所述新数据项与所述多个数据项中的至少一者分组在一起包括:
选择所述多个数据项中的一者;
计算与所述新数据项相关联的所述声音特征及与所述选定数据项相关联的所述声音特征之间的类似性值;且
如果所述类似性值超过阈值,那么将所述新数据项及所述选定数据项分组在一起。
5.根据权利要求2所述的方法,其中将所述新数据项与所述多个数据项中的至少一者分组在一起包括基于所述音频群组识别符将所述新数据项与所述多个数据项中的所述至少一者分组在一起。
6.根据权利要求3所述的方法,其中将所述新数据项与所述多个数据项中的至少一者分组在一起包括基于所述背景标记将所述新数据项与所述多个数据项中的所述至少一者分组在一起。
7.根据权利要求1所述的方法,其进一步包括在所述移动装置上显示包含所述新数据项及所述多个数据项中的所述至少一者的所述经分组数据项。
8.根据权利要求1所述的方法,其中接收所述环境声音持续预定时间周期。
9.根据权利要求8所述的方法,其中在产生所述新数据项的时间期间接收所述环境声音的至少一部分。
10.根据权利要求1所述的方法,其中所述声音特征是音频指纹或MFCC向量。
11.根据权利要求1所述的方法,其中所述多个数据项及所述新数据项中的每一者是以下各者中的一者:照片、SNS帖子、博客帖子、备忘录、联系信息、呼叫历史及应用执行历史。
12.根据权利要求1所述的方法,其中所述经分组数据项包含不同数据类型的数据项。
13.一种用于在移动装置中将数据项分组的方法,所述方法包括:
产生第一数据项;
接收第一环境声音;
通过从所述第一环境声音提取第一声音特征而产生第一声音标签;
产生第二数据项;
接收第二环境声音;
通过从所述第二环境声音提取第二声音特征而产生第二声音标签;及
基于所述第一和第二声音标签而将所述第一和第二数据项分组。
14.根据权利要求13所述的方法,其中产生所述第一声音标签包括确定所述第一声音特征的第一音频群组识别符,且
其中产生所述第二声音标签包括确定所述第二声音特征的第二音频群组识别符。
15.根据权利要求14所述的方法,其中产生所述第一声音标签进一步包括识别所述第一音频群组识别符的第一背景标记,且
其中产生所述第二声音标签进一步包括识别所述第二音频群组识别符的第二背景标记。
16.根据权利要求13所述的方法,其中将所述第一和第二数据项分组包括:
计算所述第一声音特征与所述第二声音特征之间的类似性值;且
如果所述类似性值超过阈值,那么将所述第一和第二数据项分组。
17.根据权利要求14所述的方法,其中将所述第一和第二数据项分组包括基于所述第一和第二音频群组识别符将所述第一和第二数据项分组。
18.根据权利要求15所述的方法,其中将所述第一和第二数据项分组包括基于所述第一和第二背景标记将所述第一和第二数据项分组。
19.根据权利要求13所述的方法,其中所述第一和第二数据项的数据类型是不同的。
20.一种移动装置,其包括:
存储单元,其经配置以存储多个数据项及与所述多个数据项中的每一者相关联的声音标签,所述声音标签包含从指示所述数据项的环境背景的输入声音提取的声音特征;
数据项产生器,其经配置以产生新数据项;
声音传感器,其经配置以接收环境声音;
声音标签产生器,其经配置以通过从所述环境声音提取声音特征而产生与所述新数据项相关联的声音标签;及
分组单元,其经配置以基于与所述新数据项及所述多个数据项相关联的所述声音标签而将所述新数据项与所述多个数据项中的至少一者分组在一起。
21.根据权利要求20所述的移动装置,其中所述声音标签产生器进一步经配置以确定所述所提取的声音特征的音频群组识别符。
22.根据权利要求21所述的移动装置,其中所述声音标签产生器进一步经配置以识别所述音频群组识别符的背景标记。
23.根据权利要求20所述的移动装置,其中所述分组单元进一步经配置以:
选择所述多个数据项中的一者;
计算与所述新数据项相关联的所述声音特征及与所述选定数据项相关联的所述声音特征之间的类似性值;且
如果所述类似性值超过阈值,那么将所述新数据项及所述选定数据项分组在一起。
24.根据权利要求21所述的移动装置,其中所述分组单元进一步经配置以基于所述音频群组识别符将所述新数据项与所述多个数据项中的所述至少一者分组在一起。
25.根据权利要求22所述的移动装置,其中所述分组单元进一步经配置以基于所述背景标记将所述新数据项与所述多个数据项中的所述至少一者分组在一起。
26.根据权利要求20所述的移动装置,其进一步包括输出单元,所述输出单元经配置以显示包含所述新数据项及所述多个数据项中的所述至少一者的所述经分组数据项。
27.根据权利要求20所述的移动装置,其中接收所述环境声音持续预定时间周期。
28.根据权利要求27所述的移动装置,其中在产生所述新数据项的时间期间接收所述环境声音的至少一部分。
29.根据权利要求20所述的移动装置,其中所述声音特征是音频指纹或MFCC向量。
30.根据权利要求20所述的移动装置,其中所述多个数据项及所述新数据项中的每一者是以下各者中的一者:照片、SNS帖子、博客帖子、备忘录、联系信息、呼叫历史及应用执行历史。
31.根据权利要求20所述的移动装置,其中所述经分组数据项包含不同数据类型的数据项。
32.一种移动装置,其包括:
数据项产生器,其经配置以产生第一数据项及第二数据项;
声音传感器,其经配置以接收第一环境声音及第二环境声音;
声音标签产生器,其经配置以通过从所述第一环境声音提取第一声音特征而产生第一声音标签且从所述第二环境声音提取第二声音特征而产生第二声音标签;及
分组单元,其经配置以基于所述第一和第二声音标签而将所述第一和第二数据项分组。
33.根据权利要求32所述的移动装置,其中所述声音标签产生器进一步经配置以:
确定所述第一声音特征的第一音频群组识别符;及
确定所述第二声音特征的第二音频群组识别符。
34.根据权利要求33所述的移动装置,其中所述声音标签产生器进一步经配置以:
识别所述第一音频群组识别符的第一背景标记;及
识别所述第二音频群组识别符的第二背景标记。
35.根据权利要求32所述的移动装置,其中所述分组单元进一步经配置以:
计算所述第一声音特征与所述第二声音特征之间的类似性值;且
如果所述类似性值超过阈值,那么将所述第一和第二数据项分组。
36.根据权利要求33所述的移动装置,其中所述分组单元进一步经配置以基于所述第一和第二音频群组识别符将所述第一和第二数据项分组。
37.根据权利要求34所述的移动装置,其中所述分组单元进一步经配置以基于所述第一和第二背景标记将所述第一和第二数据项分组。
38.根据权利要求32所述的移动装置,其中所述第一和第二数据项的数据类型是不同的。
39.一种移动装置,其包括:
用于存储多个数据项及与所述多个数据项中的每一者相关联的声音标签的装置,所述声音标签包含从指示所述数据项的环境背景的输入声音提取的声音特征;
用于产生新数据项的装置;
用于接收环境声音的装置;
用于通过从所述环境声音提取声音特征而产生与所述新数据项相关联的声音标签的装置;及
用于基于与所述新数据项及所述多个数据项相关联的所述声音标签而将所述新数据项与所述多个数据项中的至少一者分组在一起的装置。
40.根据权利要求39所述的移动装置,其中所述用于产生所述声音标签的装置经配置以确定所述所提取的声音特征的音频群组识别符。
41.根据权利要求40所述的移动装置,其中所述用于产生所述声音标签的装置进一步经配置以识别所述音频群组识别符的背景标记。
42.根据权利要求39所述的移动装置,其中所述用于将所述新数据项与所述多个数据项中的至少一者分组在一起的装置经配置以:
选择所述多个数据项中的一者;
计算与所述新数据项相关联的所述声音特征及与所述选定数据项相关联的所述声音特征之间的类似性值;且
如果所述类似性值超过阈值,那么将所述新数据项及所述选定数据项分组在一起。
43.根据权利要求39所述的移动装置,其中所述经分组数据项包含不同数据类型的数据项。
44.一种移动装置,其包括:
用于产生第一数据项及第二数据项的装置;
用于接收第一环境声音及第二环境声音的装置;
用于通过从所述第一环境声音提取第一声音特征而产生第一声音标签且从所述第二环境声音提取第二声音特征而产生第二声音标签的装置;及
用于基于所述第一和第二声音标签而将所述第一和第二数据项分组的装置。
45.根据权利要求44所述的移动装置,其中所述用于产生所述第一声音标签及所述第二声音标签的装置经配置以:
确定所述第一声音特征的第一音频群组识别符;及
确定所述第二声音特征的第二音频群组识别符。
46.根据权利要求45所述的移动装置,其中所述用于产生所述第一声音标签及所述第二声音标签的装置进一步经配置以:
识别所述第一音频群组识别符的第一背景标记;及
识别所述第二音频群组识别符的第二背景标记。
47.根据权利要求44所述的移动装置,其中所述用于将所述第一和第二数据项分组的装置经配置以:
计算所述第一声音特征与所述第二声音特征之间的类似性值;且
如果所述类似性值超过阈值,那么将所述第一和第二数据项分组。
48.根据权利要求44所述的移动装置,其中所述第一和第二数据项的数据类型是不同的。
49.一种存储用于在移动装置中将数据项分组的指令的非暂时性计算机可读存储媒体,所述指令致使处理器执行以下操作:
存储多个数据项及与所述多个数据项中的每一者相关联的声音标签,所述声音标签包含从指示所述数据项的环境背景的输入声音提取的声音特征;
产生新数据项;
接收环境声音;
通过从所述环境声音提取声音特征而产生与所述新数据项相关联的声音标签;及
基于与所述新数据项及所述多个数据项相关联的所述声音标签而将所述新数据项与所述多个数据项中的至少一者分组在一起。
50.根据权利要求49所述的媒体,其中产生与所述新数据项相关联的所述声音标签包括确定所述所提取的声音特征的音频群组识别符。
51.根据权利要求50所述的媒体,其中产生与所述新数据项相关联的所述声音标签进一步包括识别所述音频群组识别符的背景标记。
52.根据权利要求49所述的媒体,其中将所述新数据项与所述多个数据项中的至少一者分组在一起包括:
选择所述多个数据项中的一者;
计算与所述新数据项相关联的所述声音特征及与所述选定数据项相关联的所述声音特征之间的类似性值;且
如果所述类似性值超过阈值,那么将所述新数据项及所述选定数据项分组在一起。
53.根据权利要求49所述的媒体,其中所述经分组数据项包含不同数据类型的数据项。
54.一种存储用于在移动装置中将数据项分组的指令的非暂时性计算机可读存储媒体,所述指令致使处理器执行以下操作:
产生第一数据项;
接收第一环境声音;
通过从所述第一环境声音提取第一声音特征而产生第一声音标签;
产生第二数据项;
接收第二环境声音;
通过从所述第二环境声音提取第二声音特征而产生第二声音标签;及
基于所述第一和第二声音标签而将所述第一和第二数据项分组。
55.根据权利要求54所述的媒体,其中产生所述第一声音标签包括确定所述第一声音特征的第一音频群组识别符,且
其中产生所述第二声音标签包括确定所述第二声音特征的第二音频群组识别符。
56.根据权利要求55所述的媒体,其中产生所述第一声音标签进一步包括识别所述第一音频群组识别符的第一背景标记,且
其中产生所述第二声音标签进一步包括识别所述第二音频群组识别符的第二背景标记。
57.根据权利要求54所述的媒体,其中将所述第一和第二数据项分组包括:
计算所述第一声音特征与所述第二声音特征之间的类似性值;且
如果所述类似性值超过阈值,那么将所述第一和第二数据项分组。
58.根据权利要求54所述的媒体,其中所述第一和第二数据项的数据类型是不同的。
CN201480046372.6A 2013-08-27 2014-08-07 用于基于声音标签对数据项进行分类的方法及设备 Pending CN105474212A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/011,437 US20150066925A1 (en) 2013-08-27 2013-08-27 Method and Apparatus for Classifying Data Items Based on Sound Tags
US14/011,437 2013-08-27
PCT/US2014/050200 WO2015031022A1 (en) 2013-08-27 2014-08-07 Method and apparatus for classifying data items based on sound tags

Publications (1)

Publication Number Publication Date
CN105474212A true CN105474212A (zh) 2016-04-06

Family

ID=51494491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480046372.6A Pending CN105474212A (zh) 2013-08-27 2014-08-07 用于基于声音标签对数据项进行分类的方法及设备

Country Status (6)

Country Link
US (1) US20150066925A1 (zh)
EP (1) EP3039579A1 (zh)
JP (1) JP2016529637A (zh)
KR (1) KR20160047485A (zh)
CN (1) CN105474212A (zh)
WO (1) WO2015031022A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951091A (zh) * 2017-03-29 2017-07-14 联想(北京)有限公司 处理方法及设备
CN109541982A (zh) * 2017-09-22 2019-03-29 哈曼国际工业有限公司 连续活动智能个人助理
CN112074900A (zh) * 2018-05-04 2020-12-11 高通股份有限公司 用于自然语言处理的音频分析

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6295228B2 (ja) * 2015-04-07 2018-03-14 東芝テック株式会社 販売データ処理装置、サーバおよびプログラム
US10198498B2 (en) * 2015-05-13 2019-02-05 Rovi Guides, Inc. Methods and systems for updating database tags for media content
WO2017024501A1 (zh) * 2015-08-11 2017-02-16 赵政荣 归类数据时的信息提醒方法和数据交流系统
WO2017024500A1 (zh) * 2015-08-11 2017-02-16 赵政荣 数据交流方法和数据交流系统
US11146865B2 (en) 2016-03-03 2021-10-12 Comcast Cable Communications, Llc Determining points of interest in a content item
US10191990B2 (en) * 2016-11-21 2019-01-29 Comcast Cable Communications, Llc Content recommendation system with weighted metadata annotations
US11224952B2 (en) 2017-10-13 2022-01-18 Citizen Watch Co., Ltd. Machine tool
JP7244458B2 (ja) * 2020-06-03 2023-03-22 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070038457A1 (en) * 2005-08-12 2007-02-15 Samsung Electronics Co., Ltd. Method and apparatus for extending sound input and output
CN101101779A (zh) * 2006-07-06 2008-01-09 三星电子株式会社 数据记录和再现设备以及产生元数据的方法
CN101271528A (zh) * 2008-04-11 2008-09-24 北京中星微电子有限公司 一种输出图像的方法及装置
CN101799876A (zh) * 2010-04-20 2010-08-11 王巍 一种视音频智能分析管控系统
CN102473411A (zh) * 2010-05-17 2012-05-23 松下电器产业株式会社 声音分类装置、方法、程序及集成电路
CN103038765A (zh) * 2010-07-01 2013-04-10 诺基亚公司 用于适配情境模型的方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4659681B2 (ja) * 2005-06-13 2011-03-30 パナソニック株式会社 コンテンツタグ付け支援装置およびコンテンツタグ付け支援方法
WO2011001002A1 (en) * 2009-06-30 2011-01-06 Nokia Corporation A method, devices and a service for searching
US8706276B2 (en) * 2009-10-09 2014-04-22 The Trustees Of Columbia University In The City Of New York Systems, methods, and media for identifying matching audio
US9264785B2 (en) * 2010-04-01 2016-02-16 Sony Computer Entertainment Inc. Media fingerprinting for content determination and retrieval
US9224388B2 (en) * 2011-03-04 2015-12-29 Qualcomm Incorporated Sound recognition method and system
JP5333517B2 (ja) * 2011-05-26 2013-11-06 ヤマハ株式会社 データ処理装置およびプログラム
US8924345B2 (en) * 2011-09-26 2014-12-30 Adobe Systems Incorporated Clustering and synchronizing content
US8862589B2 (en) * 2013-03-15 2014-10-14 Geofeedia, Inc. System and method for predicting a geographic origin of content and accuracy of geotags related to content obtained from social media and other content providers

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070038457A1 (en) * 2005-08-12 2007-02-15 Samsung Electronics Co., Ltd. Method and apparatus for extending sound input and output
CN101101779A (zh) * 2006-07-06 2008-01-09 三星电子株式会社 数据记录和再现设备以及产生元数据的方法
CN101271528A (zh) * 2008-04-11 2008-09-24 北京中星微电子有限公司 一种输出图像的方法及装置
CN101799876A (zh) * 2010-04-20 2010-08-11 王巍 一种视音频智能分析管控系统
CN102473411A (zh) * 2010-05-17 2012-05-23 松下电器产业株式会社 声音分类装置、方法、程序及集成电路
CN103038765A (zh) * 2010-07-01 2013-04-10 诺基亚公司 用于适配情境模型的方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951091A (zh) * 2017-03-29 2017-07-14 联想(北京)有限公司 处理方法及设备
CN106951091B (zh) * 2017-03-29 2020-06-23 联想(北京)有限公司 处理方法及设备
CN109541982A (zh) * 2017-09-22 2019-03-29 哈曼国际工业有限公司 连续活动智能个人助理
CN112074900A (zh) * 2018-05-04 2020-12-11 高通股份有限公司 用于自然语言处理的音频分析
CN112074900B (zh) * 2018-05-04 2024-04-19 高通股份有限公司 用于自然语言处理的音频分析

Also Published As

Publication number Publication date
EP3039579A1 (en) 2016-07-06
JP2016529637A (ja) 2016-09-23
US20150066925A1 (en) 2015-03-05
KR20160047485A (ko) 2016-05-02
WO2015031022A1 (en) 2015-03-05

Similar Documents

Publication Publication Date Title
CN105474212A (zh) 用于基于声音标签对数据项进行分类的方法及设备
CN107105318B (zh) 一种视频热点片段提取方法、用户设备和服务器
JP6062379B2 (ja) コンテキスト類似度に基づいてクライアントデバイスをグループ化するための方法および装置
KR101615421B1 (ko) 유사한 사운드 환경 내의 모바일 디바이스들을 식별하는 방법 및 장치
CN103370739B (zh) 用于辨识环境声音的系统和方法
CN107959883B (zh) 视频编辑推送方法、系统及智能移动终端
CN102460462B (zh) 用于隐私设置的直观管理的方法和装置
CN109147770A (zh) 声音识别特征的优化、动态注册方法、客户端和服务器
CN104239566B (zh) 视频搜索的方法及装置
TW201018298A (en) Data access based on content of image recorded by a mobile device
US20150234891A1 (en) Method and system for providing code scanning result information
CN105247845A (zh) 用于选择媒体项目的系统和方法
CN101960795A (zh) 用于递送扩充消息的系统和方法
WO2011121479A1 (en) Method and apparatus for object identification within a media file using device identification
CN107977678A (zh) 用于输出信息的方法和装置
CN111312233A (zh) 一种语音数据的识别方法、装置及系统
CN110209921B (zh) 媒体资源的推送方法和装置、以及存储介质和电子装置
CN114023315A (zh) 语音的识别方法、装置、可读介质和电子设备
US20140198998A1 (en) Novel criteria for gaussian mixture model cluster selection in scalable compressed fisher vector (scfv) global descriptor
CN104038832A (zh) 一种播放视频的方法及装置
CN115098449B (zh) 一种文件清理方法及电子设备
CN116055762A (zh) 视频合成方法及装置、电子设备和存储介质
CN108415996A (zh) 一种新闻信息推送方法、装置及电子设备
CN110619086B (zh) 用于处理信息的方法和装置
CN115206296A (zh) 语音识别的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160406

WD01 Invention patent application deemed withdrawn after publication