CN101836219A

CN101836219A - 基于面部表情生成音乐播放列表

Info

Publication number: CN101836219A
Application number: CN200880113197A
Authority: CN
Inventors: 马库斯·曼斯·福尔克·安德烈亚松
Original assignee: Sony Ericsson Mobile Communications AB
Current assignee: Sony Mobile Communications AB
Priority date: 2007-11-01
Filing date: 2008-04-29
Publication date: 2010-09-15
Also published as: EP2203869A1; US20090116684A1; WO2009056995A1; EP2203869B1; US8094891B2; ATE512418T1

Abstract

一种方法可以包括：在设备上播放第一歌曲，捕获用户的图像，基于所述图像执行对所述用户的面部表情识别，以及基于所述用户的面部表情选择第二歌曲。

Description

基于面部表情生成音乐播放列表

背景技术

随着获取音乐的日益普及，各种各样的消费者设备可以包括数字媒体播放器(DMP)或数字音频播放器(DAP)，以播放并且管理数字音乐文件。在某些情况下，消费者设备可能是单功能设备。在另一些情况下，消费者设备可能是多功能设备，如移动电话、个人数字助理(PDA)或手提电脑。由于这些类型的消费者设备不断地变得越来越便携和多用途，因此我们对用于娱乐目的的这些设备的依赖已经增加。

在某些情况下，用户可以创建播放列表。播放列表可以包括由用户选择的且可以例如顺次或按随机顺序播放的一首或更多首歌曲。但是，创建播放列表的过程可能是耗时间并且烦人的。

发明内容

根据一个方面，一种方法可以包括：在设备上播放第一歌曲，捕获所述设备的用户的图像，基于所述图像执行对所述用户的面部表情识别，以及基于所述用户的面部表情选择第二歌曲。

此外，所述捕获操作可以包括基于所述播放第一歌曲的操作而自动捕获所述用户的所述图像。

此外，所述执行操作可以包括确定所述用户的心情。

此外，所述方法可以包括识别所述第一歌曲的一个或更多个音乐特征。

此外，所述方法可以包括确定所述第一歌曲的艺术家或所述第一歌曲的风格中的至少一个。

此外，所述选择操作可以包括基于所述第一歌曲的所述一个或更多个音乐特征选择所述第二歌曲。

此外，所述方法可以包括在所述设备上播放所述第二歌曲。

此外，所述选择操作可以包括基于所述第一歌曲选择所述第二歌曲。

根据另一方面，一种设备可以包括存储指令的存储器和执行所述指令的处理器。所述处理器可以执行捕获用户的图像的指令、基于所述图像执行面部表情识别的指令、以及基于所述用户的心情选择要在所述设备上播放的一首或更多首歌曲的指令。

此外，可以基于所述用户与所述设备的交互或周期定时机制中的至少一种捕获所述用户的所述图像。

此外，所述处理器还可以执行基于所述图像中包含的所述用户的面部表情的一个或更多个特征识别所述用户的心情的指令。

此外，所述处理器还可以执行基于所述图像识别所述用户的指令。

此外，为了选择所述一首或更多首歌曲，所述处理器还可以执行访问与所识别出的用户相关联的音乐库的指令。

此外，所述处理器还可以执行识别当捕获所述图像时在所述设备上播放的歌曲的音乐特征的指令。

此外，所述一首或更多首歌曲可以基于所述歌曲的音乐特征来选择。

根据另一方面，一种计算机可读介质可以包含可由至少一个处理器执行的指令。所述计算机可读介质可以包括用于捕获用户的图像的一个或更多个指令、用于基于所述图像执行面部表情识别的一个或更多个指令、以及用于基于所述用户的面部表情的类别选择要播放的一首或更多首歌曲的一个或更多个指令。

此外，所述计算机可读介质可以包括用于创建活跃播放列表的一个或更多个指令，其中，所述活跃播放列表可以包括正在播放的第一歌曲。

此外，用于选择操作的所述一个或更多个指令可以包括用于基于所述一首或更多首歌曲创建第一播放列表的一个或更多个指令。

此外，所述计算机可读介质可以包括用于从所述第一播放列表中选择一首或更多首歌曲的一个或更多个指令，以及用于播放从所述第一播放列表中选择的所述一首或更多首歌曲的一个或更多个指令。

此外，所述计算机可读介质可以包括用于确定所述用户是否停止播放所选择的所述一首或更多首歌曲而播放其它歌曲的一个或更多个指令。

此外，所述计算机可读介质可以包括用于在所述用户未停止播放所选择的所述一首或更多首歌曲的情况下，对所选择的所述一首或更多首歌曲中的各首歌曲分配增强值的一个或更多个指令。

根据另一方面，一种设备可以包括用于播放歌曲的单元、用于捕获用户图像的单元、用于基于所述图像确定所述用户的心情的单元、以及用于基于所述心情选择要播放的另一首歌曲的单元。

附图说明

附图被包括在本说明书中，并且组成本说明书的一部分，附图示出了本文描述的示例性实施方式，且与文字说明一起用于解释这些示例性实施方式。附图中：

图1是示出本文所描述的原理的图；

图2是示出示例性设备的示例性外部组件的主视图的图；

图3是示出对应于图2中所示的设备的示例性内部组件的图；

图4是示出对应于图3中所示的DAP的示例性功能组件的图；

图5是示出可由图4中所示的面部表情识别来实现的示例性面部表情识别数据库的图；

图6是示出可由图4中所示的DAP来实现的示例性音乐数据库的图；

图7是示出用于执行本文所描述的原理的示例性过程的流程图；以及

图8是示出基于本文所描述的原理生成播放列表的示例的图。

具体实施方式

下面参照附图进行详细描述。不同附图中相同的附图标记可以表示相同或类似的要素。另外，下面的描述不限制本发明。术语“音乐”旨在被广泛地解释为包括任何类型的音乐作品。根据上下文可以将术语“歌曲”与术语“音乐”互换使用。

概述

图1是示出如本文所描述的原理的图。如所示出的，环境100可以包括操作消费者设备(如，移动电话)的用户。移动电话可以包括数字音频播放器(DAP)和图像捕获组件，如摄像机。此外，移动电话可以包括面部表情识别组件。

在一个实施例中，如果用户与移动电话交互，则摄像机可以捕获用户面部的静止图像和/或视频图像。面部表情识别组件可以利用用户的面部图像来确定用户的面部特征。可以将该面部特征与预先定义的面部特征类别进行比较。如果该面部特征与一面部特征类别匹配，则可在该面部特征类别和当前播放的音乐和/或类似于当前播放音乐的音乐之间形成链接。如果该面部特征不与任一面部特征类别匹配，则可基于该面部特征创建新的面部特征类别。可以在新的面部特征类别和当前播放的音乐和/或类似于当前播放音乐的音乐之间形成链接。

鉴于这些规定，可以创建包含潜在歌曲列表的潜在播放列表。例如，当当前音乐结束时，可以从潜在播放列表选择歌曲。作为前述的结果，可以基于用户的面部表情自动更新活跃播放列表。以这种方式，用户可以听到更匹配用户当时心情的音乐。

示例性设备

图2是示出示例性设备的示例性外部组件的主视图的图。如所示出的，设备200可以包括壳体205、麦克风210、扬声器220、小键盘230、功能键240、显示器250和/或摄像机260。术语“组件”，如本文所使用的，旨在被广泛地解释为包括硬件、软件和/或硬件和软件的组合。

壳体205可以包括用于容纳设备200的组件的结构。例如，壳体可以由塑料或金属制成，并且可以支承麦克风210、扬声器220、小键盘230、功能键240、显示器250和摄像机260。

麦克风210可以包括能够将空气压力波转换成对应电信号的任何组件。例如，用户可以在电话呼叫过程中对麦克风210讲话。扬声器220可以包括能够将电信号转换成对应声波的任何组件。例如，用户可以通过扬声器220听音乐。

小键盘230可以包括能够向设备220提供输入的任何组件。小键盘230可以包括标准电话小键盘。小键盘230还可以包括一个或更多个专用键。在一个实施例中，小键盘230的各键例如可以是按钮、触敏屏上的区域等。用户可以使用小键盘230来输入信息，如文本或电话号码，或者激活特殊功能。

功能键240可以包括能够向设备200提供输入的任何组件。功能键240可以包括允许用户使设备200执行一个或更多个操作的按键。与功能键240的按键关联的功能可以根据设备200的模式而变化。例如，功能键240可以执行各种操作，如发出电话呼叫、播放各种媒体(例如，音乐，视频)、发送电子邮件、设定各种摄像机特征(如，焦距、变焦等)和/或访问应用程序。功能键240可以包括提供光标功能和选择功能的按键。在一个实施例中，功能键240的各个键可例如以是按钮、触敏屏上的区域等。

显示器250可以包括能够提供可视信息的任何组件。例如，在一个实施例中，显示器250可以是液晶显示器(LCD)。在另一个实施例中，显示器250可以是任何一种其他显示技术，例如等离子体显示板(PDP)、场发射显示器(FED)、薄膜晶体管(TFT)显示器等。显示器250例如可以显示文本、图像和/或视频信息。

摄像机260可以包括能够捕获静止图像和/或视频图像的任何组件。摄像机260可以是数字摄像机。摄像机260可以提供对摄像机设置的自动和/或手动调节。在一个实施例中，设备200可以包括摄像机软件，该软件提供可以在显示器250上显示的各种功能以允许用户例如调节摄像机设置。例如，用户可以通过操作功能键240调节摄像机设置。

设备200旨在被广泛地解释为包括用于播放音乐的任何数量的设备。例如，设备200可以包括便携式设备，如无线电话、个人数字助理(PDA)、音频播放器和/或音频/视频播放器(如MP3播放器)、游戏系统、计算机或另一种DMP或DAP设备。在其他情况下，设备200可以包括固定式设备，如音频系统、音频/视频系统、游戏系统、计算机或另一种DMP或DAP设备。更进一步，设备200可以包括汽车、飞机等中的DMP或DAP设备。因此，尽管图2示出了设备200的示例性外部组件，但是在其他实施例中，设备200可以包含比图2中所示的外部组件更少的、不同的或附加的外部组件。例如，尽管未示出，但是设备200可以包括通信端口，如红外端口和/或通用串行总线(USB)端口。附加地或可替换地，设备200的一个或更多个外部组件可以执行设备200的一个或更多个其他外部组件的功能。例如，显示器250可以是输入组件(例如，触摸屏)。附加地或可替换地，外部组件可以与图2中所示的外部组件不同地设置。

图3是示出图2中所示的设备的示例性内部组件的图。如所示出的，设备200可以包括麦克风210、扬声器220、小键盘230、功能键240、显示器250、摄像机260、存储器300(具有DAP 310)、收发器320、控制单元330和总线340。麦克风210、扬声器220、小键盘230、功能键240、显示器250和摄像机260可以包括上面参照图2描述的特征和/或性能。

存储器300可以包括存储与设备200的操作和使用相关的数据和指令的任何类型的存储组件。例如，存储器300可以包括存储器组件，如随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、同步动态随机存取存储器(SDRAM)、铁电体随机存取存储器(FRAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)和/或闪速存储器。此外，存储器300可以包括存储组件，如磁存储组件(例如，硬盘驱动器)、CD驱动器、DVD驱动器或另一类型的计算机可读介质。存储器300还可以包括外部存储组件，如USB存储棒、存储卡和/或用户识别模块(SIM)卡。

存储器300还可以包括DAP 310。DAP 310可以包括用于使设备200基于用户的面部表情生成播放列表的组件。下面将参照图4更详细地描述DAP 310。另选的是，DAP 310可以位于存储器300之外。DAP 310可以访问存储器300以播放音乐。

收发器320可以包括能够发送和接收数据的任何组件。例如，收发器320可以包括提供与网络或另一个设备的无线通信的无线电路。收发器320可以支持无线通信。

控制单元330可以包括解释并且执行用于控制设备200的整体操作的指令的任何逻辑。本文中所使用的逻辑可以包括硬件、软件和/或硬件和软件的组合。控制单元330可以包括，例如，通用处理器、微处理器、数据处理器、协处理器、网络处理器、专用集成电路(ASIC)、控制器、可编程逻辑设备、芯片集、现场可编程门阵列(FPGA)等。控制单元330可以访问来自存储器300、来自设备200的其他组件和/或来自设备200外部的源(如，网络或另一个设备)的指令。控制单元330可以提供与设备200关联的不同操作模式。此外，控制单元330可以同时以多个操作模式进行操作。例如，控制单元330可以以摄像机模式、音乐播放模式和/或电话模式来操作。

总线340可以包括允许在设备200的组件间通信的通信路径。总线340可以包括，例如，系统总线、地址总线、数据总线和/或控制总线。总线340可以包括总线驱动器、总线仲裁器、总线接口和/或时钟。

图3中所示的设备200可以执行与DAP 310相关的某些操作。设备200可以响应于控制单元330执行在计算机可读介质(如，存储器300)中包含的软件指令而执行这些操作。计算机可读介质可以被限定为物理或逻辑存储装置。软件指令可以被读入存储器300中，并且可以使控制单元330执行与DAP 310关联的过程。另选的是，固定电路可以用来代替实施本文描述的过程的软件指令或者与实施本文描述的过程的软件指令一起使用。因此，本文所描述的实施例不限于硬件电路和软件的任何特定组合。

尽管图3示出了示例性内部组件，但是在其他实施例中，可以采用比图3中所示的内部组件更少的、附加的和/或不同的内部组件。例如，设备200的一个或更多个内部组件可以包括设备200的一个或更多个其它组件的性能。例如，收发器320和/或控制单元310可以包括它们自己的板载存储器300。附加地或另选地，设备200可以不包括麦克风210、收发器320和/或功能键240。

图4示出了可对应于图3中所示的DAP的示例性功能组件的图。如所示出的，DAP 310可以包括DAP 410和面部表情识别(FER)组件420。

面部识别和面部表情识别结构和处理技术可以重叠。即，虽然面部表情识别的重点可能在于用户的表情，但是面部表情信息还可以包括诸如用户身份的信息。相反地，虽然面部识别的重点可能在于用户身份，但是面部识别信息还可以包括诸如用户面部表情的信息。考虑到这些因素，根据例如设备200的用户个数，用户的面部识别可能是有用的或无用的。

DAP 410可以包括能够播放数字音乐文件的组件。DAP 410可以包括用户界面(UI)，该UI允许用户选择歌曲、创建播放列表、调节音频设置(例如，音量、均衡)、调节皮肤设置、和/或调节视频设置。DAP 410可以支持多个不同的数字音乐文件格式，如运动图像专家组(MPEG-1)音频层3(MP3)、音频视频交织(.avi)、波形音频格式(.wav)、Quicktime(.qt)、视窗媒体音频(.wma)、音频(.au)、真正音频媒体(.ram)、真正音频(.ra)、音乐设备数字接口(.midi)等。

FER组件420可以包括能够识别用户的面部表情的逻辑。可以采用多种识别技术。例如，用于识别面部表情的两种通用方法是分片方法和整体方法。用于面部表情识别的分片方法可以涉及多个特征分类部和某种组合单元。另一方面，在整体方法中，可以提取整个面部并且将其提供给表情识别系统。但是，在其他情况下，可以采用混合方法。

通常，这些方法可以包括图像获取阶段、预处理阶段、特征提取阶段、分类阶段和后处理阶段。

图像获取阶段可以包括摄像机260捕获用户的静止图像和/或视频图像。摄像机260可以基于例如触发事件而捕获用户的静止图像和/或视频图像。触发事件可以包括，例如，用户与设备200的交互。例如，用户可以改变设备200的音量或使用设备200的其他组件(如，打开应用程序、按压按键等)。在其他情况下，设备200可以包括自触发事件。例如，摄像机260可以基于定时机制(例如，时钟)以周期模式捕获用户的静止图像和/或视频图像。附加地或另选地，设备200可以包括可以触发摄像机260捕获用户图像的运动传感器(图中未示出)。

预处理阶段可以包括静止图像和/或视频图像的信号调节。例如，信号调节可以包括噪声去除和/或标准化处理。附加地或另选地，信号调节可以包括分割和/或定位以及跟踪用户面部和/或面部部分(例如，眼睛、嘴巴、鼻子等)。

特征提取阶段可以包括将像素数据转换成形状、运动的表示、面部和/或面部组成的空间结构、纹理和/或颜色。在一个实施例中，可以从面部图像提取能够识别用户面部的特征矢量，以识别用户的面部。例如，可以采用主成分分析(PCA)和/或线性判别分析(LDA)方法。在其他情况下，特征提取可以基于例如特征脸算法。

分类阶段可以包括表情分类。表情分类可以包括，例如，模式分布和判定过程的模板。可以采用与情绪状态(高兴、悲伤、惊讶、愤怒、害怕、厌恶、中立等)相关的典型表情。在其他实施例中，可以使用更细化的分类。后处理阶段可以包括最小化分类差错的处理。

FER组件420可以识别用户的面部表情。与DAP 410相关地还可以执行其它处理，这将在下面更详细地描述。

尽管图4示出了示例性功能组件，但是在其他实施例中，可以采用比参照图4描述的这些更少的、附加的和/或不同的功能组件。例如，代替设备200包括DAP 310，设备200可以包括播放视频和音频的DMP。附加地或另选地，FER组件420可以采用更少的、不同的或附加的操作以识别用户的面部表情。附加地或另选地，尽管DAP 410和FER组件420已经被示出并且描述为相区分的功能组件，但是在其他实施例中，DAP410可以包括FER组件420的一个或更多个性能，而FER组件420也可以包括DAP 410的一个或更多个性能。

图5是示出可由图4中所示的FER实现的示例性面部表情识别数据库的图。如所示出的，面部表情识别(FER)数据库500可以包括一个或更多个记录，如记录510-1和记录510-2。在一个实施例中，各记录510可以包括多个字段。例如，各记录510可以包括用户字段512(例如，用户字段512-1和用户字段512-2)，类别字段514(例如，类别字段514-1至514-8)，和面部特征字段516(如，面部特征字段516-1至516-8)。用户字段512可以包括可以用于识别用户的面部表情信息和/或面部识别信息。类别字段514可以包括用于表示例如用户类别(例如，心情，如悲伤、愤怒、高兴等)的信息。下面将更详细地描述，类别字段514还可以包括已与类别链接的歌曲信息。面部特征字段516可以包括与类别字段514对应的用户面部表情相关的信息。例如，面部特征字段516可以包括与不同面部部分的相对位置、眼睛运动和/或总体面部运动相关的信息。

尽管图5示出了示例性FER数据库500，但是在其他实施例中，FER数据库500可以包括比参照图5描述的更少的、附加的和/或不同的信息。例如，在其他实施例中，FER数据库500可以不包括用户字段512。

图6是示出可由图4中所示的DAP实现的示例性音乐数据库的图。如所示出的，音乐数据库600可以包括一个或更多个记录610，如记录610-1和记录610-2。在一个实施例中，各记录610可以包括多个字段。例如，各记录610可以包括用户字段612(例如，用户字段612-1和612-2)、音乐库字段614(例如，音乐库字段614-1和614-2)、播放列表字段616(例如，播放列表字段616-1至616-8)、活跃播放列表字段618(例如，活跃播放列表字段618-1和618-2)和潜在播放列表字段620(例如，潜在播放列表字段620-1和620-2)。

用户字段612可以包括用户姓名。在仅一个用户使用设备200的一些实施例中，可以省略用户字段612。音乐库字段614可以包括歌曲库。例如，各歌曲可以包括例如歌曲标题、艺术家姓名、风格信息(例如，摇滚、乡村、非主流、经典、爵士、新时代等)、唱片信息(例如，标题、年代)、排行榜等级、用户评价和/或播放频度。

播放列表字段616可以包括一首或更多首歌曲的列表。用户可以通过从音乐库字段614选择一首或更多首歌曲创建播放列表。用户可以保存一个或更多个播放列表，如由字段616-1至616-4中用于用户612-1的播放列表1-4所示。活跃播放列表字段618可以包括当前正由用户播放的一个特定播放列表616。潜在播放列表字段620可以包括可以基于FER数据库500创建的播放列表，这将在下面更详细地描述。

尽管图6示出了示例性音乐数据库600，但是在其他实施例中，音乐数据库600可以包括比参照图6描述的更少的、附加的和/或不同的信息。

图7是示出用手执行本文所描述的原理的示例性过程的流程图。过程700可以开始于在消费者设备上播放音乐(框710)。例如，用户可以使用设备200的DAP 410播放来自音乐数据库600(例如，音乐库614)的歌曲。歌曲可以是来自播放列表616的一首歌，或者歌曲也可以不来自播放列表616。

在框712中，基于触发事件可以获得用户的静止图像和/或视频图像。例如，摄像机260可以基于触发事件而捕获用户的静止图像和/或视频图像。例如，如果用户例如通过在设备200上播放音乐而与设备200交互，则可能发生外部触发事件。附加地或另选地，摄像机260可以基于设备200内部的触发事件捕获静止图像和/或视频图像。内部触发事件可以包括，例如，定时机制(例如，时钟)，如果用户在摄像机260的某个范围和/或视野内，该定时机制可以启动摄像机260捕获用户的静止图像和/或视频图像。附加地或另选地，摄像机260可以基于外部触发事件和内部触发事件的组合捕获静止图像和/或视频图像。例如，设备200可以包括使摄像机260基于用户接近摄像机260和/或基于设备200是否在播放音乐而捕获静止图像和/或视频图像的运动检测器(图2或图3未示出)。

在框714中，可以基于静止图像和/或视频图像和面部表情识别，识别用户的面部表情。例如，FER组件420可以根据本文所描述的面部表情识别过程基于静止图像和/或视频静止图像来确定用户的面部表情。

此外，在一个实施例中，FER组件420可以将面部表情信息与用户字段512进行比较以确定和/或验证用户的身份。在其他实施例中，FER组件420可以不比较面部表情信息与用户字段512来确定和/或验证用户的身份。例如，在例如设备200只有一个用户的情况下，FER组件420可以不基于面部表情信息确定和/或验证用户的身份。另选的是，如果设备200具有多于一个潜在用户，则可以由设备200的另一个组件执行之前的识别操作。例如，在登录阶段中，在对设备200的访问被授权之前，用户可以提供认证信息。

在框716中，确定识别出的面部表情是否与预先定义的类别匹配。例如，FER组件420可以将识别出的用户的面部表情与FER数据库500的面部特征字段516进行比较，以确定是否存在匹配。在一个实施例中，如果识别出的面部表情与面部特征字段516中的一个所包含的信息足够类似(例如，满足类似性阈值)，则FER组件420可以确定存在匹配。因此，例如，可以不需要信息的精确匹配。

在一个实施例中，例如在不存在匹配，而信息满足类似性阈值的情况下，FER组件420可以基于识别出的面部表情信息更新对应于所匹配的类别的面部特征字段516。例如，根据采用的面部表情识别技术，在一个实施例中，例如，可以更新与面部特征字段516的信息关联的平均值。

如果存在匹配(框716：是)，那么可以识别当前播放的音乐的音乐特征(框718)。例如，如果FER组件420确定存在匹配，则在匹配的类别514和当前播放的音乐之间可以形成链接。此外，在一个实施例中，DAP 410可以识别与当前播放的歌曲关联的一个或更多个音乐特征。例如，DAP 410可以识别当前播放歌曲来自例如活跃播放列表618，并且基于例如音乐库字段614和/或活跃播放列表618中包含的信息识别歌曲的音乐特征。音乐特征可能涉及例如当前播放歌曲的标题、艺术家、唱片、用户评价、风格、拍子等。如下所述，可以将音乐特征与其他歌曲进行比较以生成潜在播放列表。

在某些情况下，匹配的类别514可以包括先前与该特定类别链接的一首或更多首歌曲。在这点上，当前播放歌曲可以链接到与匹配的类别514关联的先前链接歌曲。

在框720中，可以基于识别出的音乐特征生成潜在播放列表。例如，DAP 410可以根据音乐库字段614选择可以类似于当前播放歌曲的音乐特征的一首或更多首歌曲。更一般地，DAP 410可以根据音乐库字段614选择可以类似于匹配类别514中的各链接歌曲的各种音乐特征的一首或更多首歌曲。DAP 410可以基于被确定为类似(例如，在拍子、风格等方面类似)的所选歌曲创建播放列表，如潜在播放列表620。

在框722中，可以播放潜在播放列表中的歌曲。例如，当当前歌曲结束时，DAP 410可以从潜在播放列表620中选择歌曲来播放。DAP 410可以以例如随机方式和/或基于其他参数(例如，用户评价)从潜在播放列表620中选择歌曲。在一个实施例中，潜在播放列表620中的歌曲可以包括时间信息和/或在潜在播放列表620中保持仅仅一段时间。

如果不存在匹配(框716：否)，那么可以创建新类别(框724)。例如，如果识别出的面部表情不与特性字段516中所包含的任何信息匹配和/或不与特性字段516中所包含的任何信息足够类似，则FER组件420可以基于新的面部特征516在FER数据库500中创建新类别514。

然后，DAP 310可以执行与框726、框728和框730关联的操作，这可以分别与之前参照框718、框720和框722描述的操作相似。即，在框726中，可以识别当前播放的音乐的音乐特征。在框728中，基于识别出的音乐特征，可以生成潜在播放列表，而在框730中，可以播放潜在播放列表中的歌曲。以这种方式，可以将新的/不同的面部表情与特定歌曲关联，并且可以基于该新的/不同的面部表情创建潜在播放列表。

尽管图7示出了示例性过程，但是在其他实施例中，可以执行比图7中所示的这些更少的、附加的或不同的过程。例如，如果歌曲不与潜在播放列表620中所包含的歌曲的特征匹配，则DAP 410可以从活跃播放列表618去除该歌曲。相反，例如，如果播放列表620中包含的歌曲不与基于用户的当前表情最新确定的类别514的特征匹配，则可以从潜在播放列表620去除该歌曲。

附加地或另选地，DAP 410和/或FER组件420可以包括与上述过程700相关的训练和/或学习机制。例如，在当播放潜在播放列表620中的歌曲时，用户选择不同的歌曲来播放的情况下，DAP 410和/或FER组件420可以将该用户操作解释为否认。即，DAP 410和/或FER组件420可以再解释，例如，为潜在播放列表620选择的一首或更多首歌曲，和/或识别出的与先前播放歌曲关联的音乐特征(即，参照框718)。进一步，DAP 410和/或FER组件420可以基于用户所选歌曲创建新的潜在播放列表620。

附加地或另选地，在当播放潜在播放列表620中的歌曲时，用户未选择不同歌曲来播放的情况下，DAP 410和/或FER组件420可以将用户的未操作解释为对潜在播放列表620中的所选歌曲和/或识别出的类别514的增强。DAP 410和/或FER组件420可以将增强值与已经播放和/或正在播放的潜在播放列表620中的各歌曲关联。增强值可以用作所选歌曲和类别(即，用户的心情)之间的关联。

以这种方式，如果播放潜在播放列表620中的歌曲，则用户的操作和非操作可以充当来自用户的赞成或不赞成的表示，接着可以被DAP 410和/或FER组件420解释为对用户心情的类别的否认或增强，和/或对相对于心情所选歌曲的类别的否认或增强。

示例

图8是示出本文所描述的原理的图。如所示出的，大卫正在包括DMP的移动电话上听布鲁斯·斯普林斯汀的歌曲。大卫的心情很好，因为他最近发现自己中彩票了。随着大卫调节DMP的音量，摄像机260可以捕获大卫面部的图像。基于该捕获的图像，FER组件420可以确定大卫的面部表情与FER数据库500的类别字段514中所包含的一种类别匹配(例如，高兴心情类型)。类别字段514可以包括与高兴心情类型关联的先前链接歌曲(例如，金属乐队的歌曲)。

DMP可以添加高兴类别和布鲁斯·斯普林斯汀歌曲之间的链接。此外，DMP可以添加布鲁斯·斯普林斯汀歌曲和金属乐队歌曲之间的链接。进一步，DMP可以基于布鲁斯·斯普林斯汀歌曲和/或金属乐队歌曲的音乐特征在音乐库614中搜索歌曲。DMP可以在音乐库614中找到多于两首的布鲁斯·斯普林斯汀歌曲，并且可以创建潜在播放列表620。

结论

以上对实施例的描述提供了例示，但是并不是穷尽的或者将实施例限于公开的精确形式。可以按照上述教导或者从对所述教导的实践中提出修改例和变化例。例如，设备200可以提供用户基于面部表情识别符(例如，高兴、悲伤等)分类歌曲的方式。这样，FER 420和/或DAP 310可以基于该信息创建播放列表。可理解的是，本文所描述的原理可以应用于例如用于播放音乐的任何设备。

应当强调的是，在本说明书中使用的术语“包括”用于表明所述特征、要件、步骤或组件的存在，但是并不排除一个或更多个其它特征、要件、步骤、组件或它们的组合的存在或添加。

此外，虽然参照图7中所示的过程描述了一系列框，但是在其他实施例中可以修改框的顺序。而且，非从属框可以并行执行。而且，可以省略一个或更多个框。

应当清楚，本文中所描述的方面可以以附图中所示的实施例中的软件、固件和硬件的许多不同形式实施。用于实施各方面的实际软件代码或专用控制硬件不限制本发明。因此，未参照特定软件代码来描述各方面的操作和行为，但应当理解的是，基于本文中的描述可以设计软件和控制硬件以实施各个方面。

尽管在权利要求书中描述和/或在说明书中公开了特征的特定组合，但是这些组合并不旨在限制本发明。实际上，这些特征中的许多可以以未在权利要求书中具体描述的和/或在说明书中公开的方式组合。

本申请中使用的要素、行为或指令都不应被解释为对于本文所描述的实施例是关键或基本的，除非这样清楚地描述过。另外，在本文中所使用的词“一”旨在包括一个或更多个项。当旨在表示仅一个项时，使用词语“一个”或类似语言。进一步，短语“基于”旨在表示“至少部分地基于”，除非以其他方式清楚描述。本文中所使用的词语“和/或”包括一个或更多个关联列表项的任何和所有组合。

Claims

1.一种方法，该方法包括：

在设备上播放第一歌曲；

捕获所述设备的用户的图像；

基于所述图像执行对所述用户的面部表情识别；以及

基于所述用户的面部表情选择第二歌曲。

2.根据权利要求1所述的方法，其中，所述捕获操作包括：

基于所述播放第一歌曲的操作自动捕获所述用户的所述图像。

3.根据权利要求1所述的方法，其中，所述执行操作包括：

确定所述用户的心情类型。

4.根据权利要求1所述的方法，该方法还包括：

识别所述第一歌曲的一个或更多个音乐特征。

5.根据权利要求4所述的方法，该方法还包括：

确定所述第一歌曲的艺术家或所述第一歌曲的风格中的至少一个。

6.根据权利要求4所述的方法，其中，所述选择操作包括：

基于所述第一歌曲的所述一个或更多个音乐特征选择所述第二歌曲。

7.根据权利要求1所述的方法，该方法还包括：

在所述设备上播放所述第二歌曲。

8.根据权利要求1所述的方法，其中，所述选择操作包括：

基于所述第一歌曲选择所述第二歌曲。

9.一种设备，该设备包括：

存储指令的存储器；和

执行所述指令以执行以下操作的处理器：

捕获用户的图像，

基于所述图像执行面部表情识别，以及

基于所述用户的心情选择要在所述设备上播放的一首或更多首歌曲。

10.根据权利要求9所述的设备，其中，基于所述用户与所述设备的交互或周期定时机制中的至少一种来捕获所述用户的所述图像。

11.根据权利要求9所述的设备，其中，所述处理器还执行基于所述图像中包含的所述用户的面部表情的一个或更多个特征识别所述用户的所述心情的指令。

12.根据权利要求9所述的设备，其中，所述处理器还执行基于所述图像识别所述用户的指令。

13.根据权利要求12所述的设备，其中，为了选择所述一首或更多首歌曲，所述处理器还执行访问与所识别出的用户相关联的音乐库的指令。

14.根据权利要求9所述的设备，其中，所述处理器还执行识别当捕获所述图像时在所述设备上播放的歌曲的音乐特征的指令。

15.根据权利要求14所述的设备，其中，基于所述歌曲的所述音乐特征来选择所述一首或更多首歌曲。

16.一种计算机可读介质，其包含能由至少一个处理器执行的指令，所述计算机可读介质包括：

用于捕获用户的图像的一个或更多个指令；

用于基于所述图像执行面部表情识别的一个或更多个指令；以及

用于基于所述用户的面部表情的类别选择要播放的一首或更多首歌曲的一个或更多个指令。

17.根据权利要求16所述的计算机可读介质，该计算机可读介质还包括用于创建活跃播放列表的一个或更多个指令，其中，所述活跃播放列表包括正在播放的第一歌曲。

18.根据权利要求16所述的计算机可读介质，其中，用于选择操作的所述一个或更多个指令包括用于基于所述一首或更多首歌曲创建第一播放列表的一个或更多个指令。

19.根据权利要求18所述的计算机可读介质，该计算机可读介质还包括：

用于从所述第一播放列表中选择一首或更多首歌曲的一个或更多个指令；以及

用于播放从所述第一播放列表中选择的所述一首或更多首歌曲的一个或更多个指令。

20.根据权利要求19所述的计算机可读介质，该计算机可读介质还包括：

用于确定所述用户是否停止播放所选择的所述一首或更多首歌曲而播放其它歌曲的一个或更多个指令。

21.根据权利要求20所述的计算机可读介质，该计算机可读介质还包括：

用于在所述用户未停止播放所选择的所述一首或更多首歌曲的情况下，对所选择的所述一首或更多首歌曲中的各首歌曲分配增强值的一个或更多个指令。

22.一种设备，该设备包括：

用于播放歌曲的单元；

用于捕获用户的图像的单元；

用于基于所述图像确定所述用户的心情的单元；以及

用于基于所述心情选择要播放的另一首歌曲的单元。