CN101467142A

CN101467142A - 在车辆中从数字媒体存储设备提取元数据以用于媒体选择的系统和方法

Info

Publication number: CN101467142A
Application number: CNA2007800183725A
Authority: CN
Inventors: B·L·杜西特; K·W·施里普塞玛; M·J·西姆斯
Original assignee: Johnson Controls Technology Co
Current assignee: Johnson Controls Technology Co
Priority date: 2006-04-04
Filing date: 2007-04-03
Publication date: 2009-06-24
Also published as: EP2005319B1; US9092435B2; US20090326949A1; WO2007123797A1; EP2005319A1; CN101449538A

Abstract

本申请提供了一种通过车辆的控制模块和数字媒体存储设备之间的通信链接从车辆中的数字媒体存储设备提取元数据的方法。该方法包括在车辆的控制模块和数字媒体存储设备之间建立通信链接，识别数字媒体存储设备上的媒体文件，以及从媒体文件取得元数据，所述元数据包括多个记录项，其中多个记录项中的至少一个包括文本数据。该方法进一步包括识别媒体文件的记录项中的文本数据以及将多个记录项存储到存储器中。

Description

在车辆中从数字媒体存储设备提取元数据以用于媒体选择的系统和方法

交叉引用

[0001]根据35 U.S.C.§119(e)(1)，本申请要求于2006年4月4日提交的、标题为“System and Method for Extraction of Meta Data from a Digital MediaStorage Device for Media Selection in a Vehicle”的美国临时专利申请No.60/789176的优先权(该申请被通过引用全部并入此处)。

技术领域

[0002]本申请总体上涉及从车辆中的数字音频/视频源中提取数据的领域，尤其是涉及从可从车辆中的数字媒体存储设备(例如媒体播放器)中获得的媒体文件中提取元数据并进行处理的系统和方法。

背景技术

[0003]车辆一般包括许多电子系统，例如音频系统、移动电话系统、导航系统、视频娱乐系统等等。与这些系统一起，可将媒体播放器(即数字音频/视频播放器或者MP3播放器)安装在车辆中以便用户访问存储在媒体播放器上的数字音频或者视频内容。常规的媒体播放器包括数据存储设备(即存储器)以及内嵌的软件应用程序，所述软件应用程序允许用户向播放器传送媒体文件并且创建所选媒体文件的自定义列表，即播放列表。媒体文件可以从各种源被传送到播放器的存储器，所述源包括盘(例如CD、DVD等等)以及互联网网站。大多数播放器通过连接端口(例如USB端口、并行端口、串行端口等等)耦合于个人计算机以便传送媒体文件。媒体文件一般包括用于标识文件的内容的数据，被称为元数据。例如，对于数字音频文件，如MP3文件，元数据包括标记格式，所述标记格式包括歌曲标题、艺术家姓名、唱片标题、音轨号、流派等等。MP3(即MPEG音频层III)文件的标记格式通常称为ID3。

[0004]媒体播放器一般被配置成包括其中存储了一个或多个媒体文件的存储器。车辆中的媒体播放器可被耦合到或者集成到用于播放来自播放器的媒体文件的其他车辆电子系统中，例如音频系统。在一个已知配置中，媒体播放器可以通过媒体播放器的模拟音频输出端(例如耳机插孔)连接到车辆的音频系统的辅助输入端，以便由媒体播放器控制回放。在另一个已知配置中，除将媒体播放器的模拟音频输出端连接到车辆的音频系统的辅助输入端外，媒体播放器的控制接口还耦合于音频系统(即收音机)的前部单元的控制接口。在这种配置中，用户可以从音频系统的前部单元中控制媒体的回放。然而，在另一种配置中，音频系统可包括有关某些媒体文件的元数据的数据库。音频系统基于与该文件有关的唯一标识符确定媒体文件的元数据。

[0005]提供一种用于从车辆中的媒体播放器中提取元数据的系统是很有好处的，所述系统用于：1)建立控制模块和媒体播放器之间的通信链接；2)识别存储在媒体播放器上的媒体文件；3)当从用户处收到命令时，从媒体播放器的媒体文件中取得元数据；4)当与媒体播放器之间建立了无线通信链路时，自动地从媒体播放器的媒体文件中取得元数据；5)基于从媒体播放器提取的元数据，产生和/或更新元数据的数据库，包括将信息转换为声音基础形式(acoustic baseform)以便用户可以经由语音命令和语音识别来访问和操纵媒体文件；6)基于用户的可听命令，以可听方式列举媒体文件的元数据记录项(entry)；7)利用从第二媒体播放器提取的元数据产生元数据的第二数据库，其中跨供电周期地保持第一媒体播放器的元数据，借此消除每次当媒体播放器连接至该系统时提取元数据的耗时处理；以及8)同时提供对多个数据库的使用，例如当两个或更多的媒体播放器被同时链接至控制模块时。

发明内容

[0006]根据一个实施例，提供了一种通过车辆的控制模块和车辆中的数字媒体存储设备之间的通信链接从该数字媒体存储设备中提取元数据的方法。该方法包括在车辆的控制模块和数字媒体存储设备之间建立通信链接，识别数字媒体存储设备上的媒体文件，以及从媒体文件中取得元数据，所述元数据包括多个记录项，每个记录项包括文本数据或者枚举码(enumerated code)。该方法进一步包括识别媒体文件的每个记录项中的文本数据或者代码，以及将该多个记录项存储到存储器中。

[0007]根据另一个实施例，提供了一种用于通过通信链接从数字媒体存储设备中提取元数据的车载控制系统。该系统包括：用于与该数字媒体存储设备建立通信链接的通信模块；耦合于该通信模块的处理模块，该处理模块用于通过通信模块从该数字媒体存储设备中取得与媒体文件有关的元数据，该元数据包括多个记录项，其中多个记录项中的每一个包括文本数据；以及用于存储从该数字媒体存储设备取得的多个记录项的存储模块。

附图说明

[0008]参考结合附图进行的以下说明，将更容易理解本发明，其中：

[0009]图1是根据示例性实施例的从车辆中的媒体播放器中提取元数据的控制系统的框图。

[0010]图2是根据实施例的从包括图1的控制模块的车辆中的媒体播放器中提取元数据的控制系统的框图。

[0011]图3是用于控制车辆的音频以及电话系统的集成系统的框图。

[0012]图4举例说明了根据实施例的响应于用户命令从媒体播放器中提取元数据的方法。

[0013]图5举例说明了根据实施例的处理来自媒体播放器的媒体文件数据并组织媒体文件的方法。

[0014]图6举例说明了根据实施例的对媒体文件进行支持语音的回放的方法。

[0015]图7举例说明了根据实施例的以可听方式列出媒体文件的方法。

具体实施方式

[0016]图1是根据示例性实施例的用于从车辆中的媒体播放器中提取元数据的控制系统的框图。该控制系统使得车辆乘坐者(例如驾驶员)能够从乘坐者的媒体播放器114中提取元数据，以及随后产生所提取的文本数据的音素表示(phonemic representation)。其他的车辆乘坐者(例如乘客)也可以使用该系统从他们的个人媒体播放器114中提取元数据。替代地，可以提供一种控制系统，其从大容量存储设备中提取元数据。然而，这里的说明将主要涉及一种用于从媒体播放器114种提取元数据的示例性控制系统。应当清楚的是尽管此处将参考媒体播放器114对用于提取元数据的系统进行详细的描述，但是也可以将此处的一个或多个用于提取元数据的系统和方法应用于其他类型的数字存储或者音频/视频设备并在其中获得其效用。例如，一个或多个用于提取元数据的系统可适合于与闪速驱动器、微型硬盘驱动器、USB记忆棒等一起使用，这些设备均需要某种设备特有的硬件和软件以提取元数据。

[0017]图1所示的示例性系统能够使车辆100的音频系统104和车辆乘坐者的媒体播放器114(例如具有蓝牙连接功能的媒体播放器)之间建立无线通信链接。替代地，可以提供一种控制系统，其包括与车辆乘坐者的个人媒体播放器114的有线连接。该有线连接可以包括媒体播放器114的底座(cradle)或者类似的有线适配器，如模拟音频输出连接(例如耳机插孔)。以下说明将参考在车辆音频系统和车辆乘坐者的媒体播放器114之间使用了无线通信链接的示例性控制系统，然而应当清楚的是在此所描述的从媒体播放器取得和处理元数据的方法和系统可以结合其他配置的控制系统使用，例如与车辆乘坐者的媒体播放器的有线连接等等。

[0018]在图1中，车载控制系统100包括控制模块102，其耦合于音频系统104和天线112。在一个替换实施例中，控制模块102可被并入音频系统104。与控制模块102内的通信设备140相结合，天线112能够与媒体播放器114进行双向通信。通信设备140可被配置成包括模拟和/或数字组件的通信电路，以便通信设备140能够按照若干数据传输格式中的任何一种来发送和接收短程射频(“RF”)信号，所述数据传输格式例如蓝牙通信协议、IEEE 802.11通信协议或者其他的个人局域网无线通信协议或者数据格式。媒体播放器114包括多个收发器电路，比如与通信设备140进行通信的蓝牙收发器电路。

[0019]控制模块102还耦合于用户接口110和音频输入设备108。用户接口110可用于通过如按钮、开关、小键盘、触摸屏显示器等接收来自车辆乘坐者的输入命令。替代地，对控制模块102输入的命令可包括来自车辆乘坐者的一组音频信号。例如，车辆乘坐者可以以直接向音频输入设备108讲话的方式向控制模块102提供输入命令。音频输入设备108可以包括一个或多个用于接收来自车辆乘坐者的口头命令的音频输入设备。该口头命令可以是乘坐者可以讲的、说的或者以其他方式提供的能够使控制系统或者另一个系统执行功能的任何词汇或者短语。控制模块102内的语音识别系统(或数据处理模块)122可用于处理各种数据信号，例如经由音频输入设备108接收到的音频信号(例如口头输入命令)，并且识别口头命令中的词汇或者短语。现有技术中已知的语音识别技术可以被实现于语音识别系统122中。例如，语音识别系统122可以包括任何语音识别软件或者引擎，如由国际商业机器公司生产的IBM Embedded

。

[0020]控制模块102还可以耦合于显示器106。显示器106可以包括小型的阴极射线管(CRT)、液晶显示器(LCD)或者在各种照明条件下易见的各种其他类型的可视显示器。控制模块102可以包括一个或多个模拟和/或数字的电气或者电子组件，以及可以包括微处理器、微控制器、专用集成电路(ASIC)、可编程逻辑和/或其他用于执行各种输入/输出、控制、分析以及在此所描述的其他功能的模拟和/或数字电路元件。控制模块102还可以包括存储器设备124，其包括易失性及非易失性存储器，以便例如存储计算机程序、其他软件或者数据文件，以执行在此所描述的功能。图1所示的车辆100中的每个元件可以安装于或者耦合于相同或者不同的内部车辆元件，如仪表盘、头顶控制台(overhead console)、仪表面板、遮光板、后视镜或者车辆内其他适当的部位。优选的是，用户接口110、音频输入设备108以及输出显示器106安装于便于车辆乘坐者尤其是驾驶员的部位。

[0021]音频系统104可以包括例如收音机、扩音器以及至少一个用于向一个或多个车辆乘坐者提供音频信号的扬声器。所述扬声器(未示出)用于接收来自控制模块102和/或其他系统的音频输出数据(例如来自媒体播放器的数字音频文件、控制模块102提供的信息提示或者其他消息等)。扬声器可以是车辆音频系统104的一部分或者可以是仅服务于控制模块102的专用音频输出设备126。

[0022]如上所述，在图1所示的示例性系统中，控制模块102经由无线通信链接与车辆乘坐者的媒体播放器114进行链接。当允许不同的乘坐者使用该控制系统时，就与不同的媒体播放器建立通信链接。例如，通信链接可响应于经由用户接口110从用户处接收的命令或者经由音频输入设备108接收的口头命令而被建立。无线通信链接根据无线通信标准来操作，所述无线通信标准例如蓝牙通信协议、IEEE 802.11通信协议或者其他适当的无线通信标准。因此，媒体播放器114能够根据用于无线通信链接的无线通信标准进行操作或者与其进行通信。

[0023]控制模块102和媒体播放器114之间的通信链接允许从媒体播放器114上存储的媒体文件中提取元数据给控制模块102。随后，由用户接口110或者音频输入设备108控制媒体文件的回放。例如，在建立了媒体播放器114和控制模块102之间的通信链接之后，一旦建立了通信链接或者作为用户命令的结果，就可以开始提取元数据的处理。用户可以通过向用户接口110输入命令或者向音频输入设备108说出口头命令的方式提供命令。例如，通过接收来自车辆乘坐者的口头命令并经由无线通信链接将回放命令发送至媒体播放器114，就可以通过控制模块102和音频系统104播放歌曲。由控制模块102所接收到的音频信息可以经由音频系统104(例如经由扬声器，未示出)提供给用户，并且从媒体播放器114取得的数据可以被显示在显示器106上。媒体播放器114可以位于车辆100附近范围内的任何位置，例如乘坐者的口袋或者公文包里、在行李箱或者在能够与通信设备140进行通信的范围之内。

[0024]图2是用于从车辆中的媒体播放器中提取元数据的控制系统的框图，所述车辆包括图1所示的控制模块102。存储器124包括用于存储执行控制模块102的功能的计算机或者软件程序的易失性存储器136和非易失性存储器138。例如，存储器124包括可由语音识别系统122的语音识别引擎130识别的命令词汇的预定词汇表。该预定词汇表可用于操纵车辆中的系统和应用，以便于执行功能。语音识别引擎130用于识别口头命令中的词汇或者短语，并且用于将所识别的词汇与命令词汇的预定词汇表进行比较，以便确定适当的动作和/或要向其传递指令的适当系统或者应用。语音识别系统122还包括文本-语音(text-to-speech)引擎132和文本-语法(text-to-grammar)引擎134。文本-语音引擎132用于将文本(例如ASCII文本)转换为可通过音频输出设备126或者音频系统104播放的音频表示(例如PCM)。文本-语法引擎134用于将文本(例如ASCII文本)转换为可由语音识别引擎130采用以识别用户口头命令中的词汇或者文本的音素表示。文本-语音引擎132以及文本-语法引擎134可以是相同应用或者是不同应用的一部分。可以使用本领域中已知的文本-语音以及文本-语法技术，例如由国际商业机器公司生产的Embedded

Text-To-Speech引擎和Text-to-Grammar引擎。

[0025]存储器124包括数据库158，其也用于存储每个唯一的媒体播放器的媒体文件的元数据，或用户在控制系统运行期间结合特定的媒体播放器使用的其他大容量存储设备的媒体文件的元数据。存储器124可包括从媒体播放器提取的每个媒体文件的元数据。每个媒体文件的元数据包括多个记录项。每个媒体文件包括音频数据和元数据，其中元数据可以包括多个记录项，表示存储器124中每个媒体文件的相关信息(context)，例如歌曲标题(例如“We Belong Together”)、唱片标题(例如“Breakthrough”)、艺术家(例如John Doe)、流派(节奏和布鲁斯)、时长(例如3:10)以及音轨号(音轨5)等。在图2中，媒体播放器114包括存储在例如媒体播放器114的存储器148中的媒体文件数据128，例如歌曲标题、唱片标题、艺术家、流派、时长、音轨号等。用户可以利用已知的方法在媒体播放器114中添加、编辑或者操作媒体文件。存储器148还可以包括媒体播放器114的存储器148中的每个媒体文件的元数据。每个媒体文件可以包括多个记录项，表示存储器148中每个媒体文件的相关信息，例如歌曲标题、唱片标题、艺术家、流派、时长以及音轨号等。如上所述，控制模块102包括存储在存储器124中的数据库158。优选的是，数据库158被存储在非易失性存储器138(例如闪速EPROM)中，并因此能够跨越控制系统的供电周期而保持该数据库。

[0026]在一个实施例中，当控制模块102和媒体播放器114之间建立了无线通信链接时，控制模块102自动取得媒体文件数据128。在一个实施例中，从媒体播放器114中取得的媒体文件数据128可被存储在易失性存储器136(例如DRAM)中。因此，不能跨越控制系统的供电周期而保持存储在易失性存储器136中的媒体文件数据。在替换实施例中，媒体文件数据可被存储在非易失性存储器138(图2所示的数据库158)中，并可以被跨供电周期地保持，以及在上电初始化之后可供用户使用。当与不同的媒体播放器(例如另一个车辆乘坐者的媒体播放器)之间建立了第二无线通信链接时，可以利用来自第二媒体播放器的媒体文件数据对易失性存储器136中的数据进行覆写。替代地，每个用户都可以拥有被存储于非易失性存储器138中的、来自其相关媒体播放器的、具有元数据的媒体文件。在此实施例中，只有当特定用户的媒体播放器114经由无线通信链接被连接至控制系统时，才仅可以访问特定媒体播放器114的媒体文件数据。每个媒体播放器114可以具有唯一的标识符，其用于标识出一个用户的媒体播放器114而将其与另一个媒体播放器区别开。

[0027]图3是用于控制车辆的音频和电话系统的集成系统的框图。图3的控制系统使得用户能够连接数字媒体存储设备，例如

媒体播放器，以便从该数字媒体存储设备中提取元数据。图3举例说明了用以支持图1控制系统的软件体系结构的优选实施例。

[0028]音乐管理器242包括媒体编目器(media cataloger)248，其用于从所连接的媒体设备(例如大容量存储设备、媒体播放器、移动电话等)中提取元数据。在大容量存储设备278的情况下，它可以经由通用串行总线(USB)连接而被连接。媒体编目器248搜索大容量存储设备278的文件结构，以便识别存储在该设备的存储器中的音频媒体。媒体编目器248用于分析媒体文件以定位内嵌的元数据(ID3标签)并提取他们。USB回放244在音频媒体文件的文件读取及回放期间解码该音频媒体。媒体编目器248还搜索音频媒体文件以寻找各种文件参数，包括ID3标签，其为MP3文件的标记格式。媒体编目器248可逐个文件地进行元数据提取，以便媒体编目器248创建数据库，其被示为音乐数据库252。当媒体编目器发现已经对媒体文件做出了修改或者添加时，它请求用户重新对设备上的媒体文件进行编目。应当清楚的是，大容量存储设备278可以包括媒体存储设备，例如拇指驱动器、USB棒等。

[0029]在媒体播放器274(例如

媒体播放器)的情况下，它可以利用蓝牙适配器(Bluetooth dongle)通过无线连接与音乐管理器242进行连接。目前市场上出售的一种称为naviPlay^TM的适配器是由TEN技术公司生产的。Impulsesoft公司也创造了一种专有协议，其能够使系统从

媒体播放器提取元数据。在将蓝牙适配器与

媒体播放器相连接后，iPod控制264识别出

媒体播放器已被连接。媒体编目器248与蓝牙控制模块260相交互，以便通过蓝牙连接请求元数据。媒体流266包括的流模式(profile)例如高级音频分发模式(A2DP)，其用于控制将音频数据从媒体播放器274或者移动电话276流向该系统。还应该清楚的是本发明的范围不局限于

媒体播放器。媒体播放器274可以包括能够将媒体文件存储在存储器中的若干类型的媒体存储设备、数字音频/视频播放器等中的任一种。

[0030]另外，移动电话276被显示成通过蓝牙主栈(host stack)262耦合于蓝牙控制模块260。蓝牙控制模块260最好包括免提模式，以便与具有蓝牙HFP功能的移动电话相互操作。替代地，移动电话276可以是具有免提模式的蓝牙功能电话。在替换实施例中，移动电话276还可以包括用于通过蓝牙连接来使媒体文件流入(streaming-in)的媒体播放器。移动电话276用于经由媒体流266使音频流入。媒体编目器248进一步用于从移动电话276提取元数据，其中，所述元数据存储在音乐数据库252中。

[0031]音乐数据库252最好包括客户端应用编程接口(API)254以便媒体编目器248能够调用以请求对媒体文件进行编目。音乐数据库252还可以包括SQL数据库引擎256和音乐数据库模型258，用作关系数据库管理系统。存储模块268耦合于音乐数据库252。音乐数据库252包括易失性存储器270(例如RAM)以及非易失性存储器272(例如闪速存储器)。因此，存储在易失性存储器270中的元数据目录不能被跨系统的供电周期地保持，而媒体文件可以被存储在非易失性存储器272中并被跨供电周期地保持，并且在上电初始化之后可用。

[0032]一旦媒体设备(例如大容量存储设备278、媒体播放器274、移动电话276等)已连接，音乐管理器242就通知状态管理器222媒体设备已被定位(例如已发现蓝牙功能设备或者已经连接了大容量存储设备)。如果媒体设备的编目是必需的，那么音乐管理器242通知状态管理器222编目已完成。状态管理器222利用这些数据经由UI相关信息管理器224和集成模块225来更新图形用户接口(GUI)212和声音用户接口(VUI)232，以告知正在进行编目和/或已经完成了编目。状态管理器222、GUI 212以及VUI 232之间的接口表明了如何实现同步多模式用户接口。当同时使用多个系统时，现有的焦点管理226控制各种车辆系统。当移动电话收到呼叫时，现有的免提应用228控制所连接的移动电话及其他车辆系统的操作。例如，如果当移动电话收到呼叫时用户正在回放音乐，系统此时可暂停音乐回放。随后，用户可切断呼叫并自动使音乐回放恢复。

[0033]VUI 232包括语音识别引擎234、文本-语音引擎236以及文本-语法引擎238。麦克风240以及扬声器250优选地耦合于VUI 232以便处理各种数据信号，例如音频信号(例如口头输入命令、音频输出数据等)。当该编目处理完成时，状态管理器222通知VUI 232媒体设备已被编目。当从状态管理器222接收到编目已完成的更新时，VUI 232解析音乐数据库252中元数据的每个记录项，并将记录项转换为声音基础形式(即记录项的音素表示)。所述声音基础形式被存储在易失性存储器270中的基础形式列表内。因此，不能跨越系统的供电周期而保持该基础形式列表。在替换实施例中，

[0034]供电模块(未示出)通知音乐管理器242系统正在关闭。音乐管理器242将基于RAM的数据库写入非易失性存储器272，以便跨供电周期地保持该数据库。

[0035]另外，VUI 232包括用于将文本数据转换为声音基础形式的软件逻辑，所述文本数据包括首字母缩写词、标点符号和唯一发声名称。文本-语音引擎236用于转换若干这样的元数据记录项。例如，文本-语音引擎236识别并转换艺术家的姓名“INXS”，其在发音上听起来像“in excess”。另一个例子是艺术家的姓名“.38Special”，其在发音上听起来像“thirty-eightspecial”而不是“point three eight special”。在一个实施例中，直接将软件逻辑嵌入VUI 232，其中VUI 232最佳地按照它本身的规则转换文本数据。

在替换实施例中，该系统可以利用所连接的移动电话(例如移动电话276)来建立一个到互联网的拨号连接以访问在线音乐数据库。替代地，该系统可以访问包括语音合成标记语言(SSML)形式的语音表示的共享网络驱动器或者数据库。文本-语音引擎236可以利用SSML正确读出记录项并且创建元数据的记录项的正确声音基础形式。

[0036]音乐管理器242进一步包括USB回放244和

媒体播放器回放246。使用GUI 212或者VUI 232，用户可选择一种模式以利用USB回放244或者

媒体播放器回放246来回放媒体文件。当用户选择了一种回放模式时，GUI 212和/或VUI 232决定如何回放。一旦选择了要播放的艺术家(例如“播放甲壳虫乐队”)，状态管理器222通知音乐管理器242，音乐管理器242通过这两个回放子组件经由客户端API 254访问音乐数据库252以找到与指定艺术家有关的全部音轨。然后可以按照预定的顺序或者随机地回放所述音轨。例如用户可以决定按字母顺序回放“甲壳虫乐队”的唱片，然后在该唱片内按照单个音轨的顺序进行回放。替代地，用户可以决定按年代顺序从甲壳虫乐队的第一张唱片开始播放唱片。

[0037]触摸式用户接口(TUI)202包括旋转输入204、通用输入/输出(GPIO)206以及无线电输入/输出(“无线电IO”)208。TUI 202耦合于GPIO 210和I2C单元214(或者I²C)，其为串行总线。I2C单元214耦合于GPIO扩展器216和无线电单元218。无线电单元218最好包括AM/FM调谐器、功率放大器、均衡器、卫星广播以及辅助输入。

[0038]当系统回放所选音轨时，音乐管理器242最好提供该音轨的回放状态。媒体编目器248用于执行元数据的提取，其包括提取例如歌曲标题、唱片标题、艺术家、流派、时长、音轨号、已播放时间、录制标签、主要艺术家等的数据。

[0039]状态管理器222向GUI 212和VUI 232提供回放状态。GUI 212可以显示所选音轨的列表中当前音轨的回放状态。VUI 232还允许用户“打断”正在播放的音轨并输入所期望的命令。例如，用户可以按下按钮以启动语音识别引擎234，然后用户就可以说出适当的命令开始以另一个媒体文件的回放(例如“下一个”、“暂停”、“播放‘黄色潜水艇’”)。

[0040]图4举例说明了根据实施例的响应于用户命令从媒体播放器取得媒体文件数据的方法。响应于来自车辆中的用户的命令，取得来自媒体播放器114的媒体文件数据。该命令可经由用户接口110(例如按钮或开关)被接收或者经由音频输入设备108作为口头命令而被接收。在控制模块102和媒体播放器114之间建立了无线通信链接之后，用户可以提供命令以从媒体播放器取得媒体文件数据。在步骤302，控制模块102(如图2所示)接收到来自用户的用以从所连接的媒体播放器取得媒体文件数据的命令。如同所述，用户可以经由用户接口110(图2)提供请求，例如利用按钮或开关。替代地，用户可以提供口头命令以请求取得元数据。在步骤304，控制模块102经由无线通信链接向媒体播放器114发出请求并从媒体播放器114取得元数据。一旦媒体文件数据被传送到控制模块102，则在步骤306将数据记录(capture)在一文件中。然后，在步骤308，所取得的媒体文件在被存储到存储器124之前被处理。在经过处理之后，媒体文件被存储到存储器124(如图2所示)中。如前所述，媒体文件数据可被存储到易失性存储器136(如图2所示)中。因此，并不会跨越控制系统的供电周期而保持媒体文件数据。优选的是，该媒体文件数据可被存储到非易失性存储器138(如图2所示)中，并可以被跨供电周期地保持，在上电初始化之后可为用户所用。如上所述，当与不同媒体播放器(例如另一个车辆乘坐者的媒体播放器)之间建立了无线通信链接时，易失性存储器136中的数据被来自该新的媒体播放器的媒体文件数据所覆写。

[0041]图5举例说明用于处理来自媒体播放器的媒体文件数据的方法。在步骤402，控制模块102(如图2所示)访问媒体文件并识别元数据的各个记录项，例如歌曲标题、唱片标题、艺术家、流派、时长、音轨号、已播放时间、录制标签、主要艺术家等。可以利用文本-语法引擎134(图2所示)为媒体文件的每个记录项的文本数据产生声音基础形式。该声音基础形式是可以由语音识别引擎130(图2所示)用以识别用户的发声、从而允许针对媒体文件的每个记录项来执行语音识别的音素表示。在步骤404，基于媒体文件的文本数据产生声音基础形式。在步骤406，声音基础形式被存储在与媒体文件有关的基础形式列表中。因此，可针对媒体文件的文本数据来执行语音识别。回到图4，一旦在步骤310中将媒体文件数据存储到存储器中了，所述媒体文件就可由用户对媒体文件进行具有语音功能的操作。

[0042]如同所述，用户可以利用存储在存储器中的元数据的记录项来对媒体文件进行操作(例如播放、暂停、停止、下一个、上一个、快进、后退等)。图6举例说明了根据实施例的利用存储器124进行具有语音功能的回放的方法。在步骤502，控制模块102(图2所示)经由音频输入设备108接收来自用户的用以启动媒体文件的回放的命令。在一个实施例中，在步骤504，控制模块102提示用户指出回放哪一个媒体文件。该提示可经由音频输出设备126或者音频系统104播放。替代地，用户可使用口头命令提供(即说出)记录项名称来播放歌曲(例如“播放<音轨标题>”)。在步骤506系统收到所期望的媒体文件的音轨标题之后，在步骤508该系统识别所期望的记录项。如果在存储器124中存在类似的记录项，那么语音识别引擎130选择最佳的匹配。在步骤510，语音识别引擎判断是否存在一个以上与一个声音基础形式有关的记录项。例如，如果用户命令该系统“播放<The White Album>”，则系统可识别出一个以上与该唱片标题有关的媒体文件。控制模块102可列出(经由可听到的提示或者经由显示器106)与该唱片名相关的媒体文件(如歌曲或者音轨)。替代地，控制模块102还可以从唱片的开头或者从预先选定的音轨号开始回放该唱片的媒体文件(即音轨)。然后，在步骤512，用户可以选择媒体文件。一旦确定了媒体文件，在步骤514控制模块102提示该用户确认该媒体文件的音轨标题。在步骤516，收到确认之后，控制模块102开始回放该媒体文件。替代地，该系统可确定存在着一张以上的唱片在其唱片标题中包含特定短语(例如“精选”)。在这种情况下，基于置信度记分算法，控制模块102识别出一个以上的唱片标题包含所说出的短语。语音识别引擎130提供最佳的匹配，然后用户被提示从这些匹配中选择所期望的唱片。

[0043]控制模块102(图2)还可根据请求(例如“列举唱片”、“列举艺术家”等)向用户提供可用媒体文件的元数据的列表。图7举例说明了根据实施例的以可听方式列举媒体文件的方法。在步骤602，控制模块102经由音频输入设备108(图3)接收来自用户的用以依据元数据记录项的类型来列出数据库158的内容的命令。响应于该命令，在步骤604控制模块102以可听方式列举每个媒体文件的元数据记录项。例如，如果用户的命令是“列举唱片”，那么将列举每个唱片的标题。使用文本-语音引擎132将每个媒体文件的文本(例如唱片标题)转换为音频表示，并且可以利用音频输出设备126或者音频系统104在车辆内播放该音频。优选的是，所述记录项的文本被按照字母顺序排序逐字符显示在显示器106上。在播放每个记录项之间要经过预设的时间周期。此外，控制模块102通过允许用户“打断(barge-in)”来使得用户可以中断所选元数据的可听列举。用户可在记录项文本播放期间或者在播放记录项之后的预设时间期间内打断以便执行命令。如果在步骤606用户提供命令(即打断)，那么在步骤608控制模块102识别并执行所请求的操作。例如，用户可提供命令以跳到所选元数据列表中的下一个记录项或者跳到以下一个字母开头的记录项。用户还可以提供命令以选择曾经听过的所期望的媒体文件或者重复前一记录项。如果媒体文件被选择，用户就可以启动操作(例如媒体文件的回放)。当在步骤610到达最后一个媒体文件(或者当选择了一个文件)时，处理过程结束。如果还没有到达最后一条记录项，那么处理过程回到步骤604并继续进行，直到或者选择了一条记录项或者到达了数据库158中的最后一条记录项。

[0044]尽管上述的在附图中举例说明的示例性实施例是目前优选的，但是应当清楚的是提供这些实施例仅作为示例。因此，本发明不局限于特定的实施例，而是扩展到落入所附权利要求范围内的各种变型。根据替换性实施例，任何处理或者方法步骤的顺序或次序可以被改变或重新排序。

[0045]利用附图描述本发明不应该被看作是对本发明强加附图中所呈现的任何限制。本发明设想了用于实现其操作的方法、系统和任何机器可读媒体上的程序产品。本发明的实施例可使用现有的计算机处理器来实现，或者通过为这样或那样的目的而并入适当的车辆系统的专用计算机处理器来实现，或者通过硬连线系统来实现。

[0046]如上所述，本发明范围内的实施例包括程序产品，所述程序产品包括带有或其上存储有机器可执行指令或者数据结构的机器可读媒体。这种机器可读媒体可以是通用的或者专用的计算机或者其他具有处理器的机器可访问的任何可用的媒体。举例来说，这种机器可读媒体可以包括RAM、ROM、EPROM、EEPROM、CD-ROM或者其他光盘存储装置、磁盘存储装置或者其他磁存储设备，或者可用于以机器可执行指令或者数据结构的形式携带或者存储程序代码的、并可由通用的或者专用的计算机或者具有处理器的其他机器访问的任何其他媒体。当信息通过网络或者另一通信连接(或者为硬线的、无线的，或者为硬线的或无线的组合)被发送或提供给机器时，该机器完全可以将该连接视为机器可读媒体。因而，任何这种连接当然地被称为机器可读媒体。上述的组合也包括在机器可读媒体的范畴之内。机器可执行命令包括例如使通用计算机、专用计算机或者专用处理机执行某种功能或者某些功能的命令和数据。

[0047]应当指出的是尽管本申请的附图示出了方法步骤的特定顺序，但是应当清楚的是这些步骤的顺序可以与所描述的情况不同。同样，两个或多个步骤可被并发执行或者部分并发执行。这种变化将取决于所选择的软件和硬件系统以及设计者的选择。应当清楚的是所有这些改变均包含在本发明的范围之内。同样地，可以用标准编程技术完成本发明的软件实现，利用基于规则的逻辑及其他逻辑来实现各种连接步骤、处理步骤、比较步骤以及判决步骤。

[0048]为了举例说明以及描述的目的给出了本发明实施例的上述说明。这并不意味着穷举或者是将本发明限于所公开的确定形式，按照上述的教导可以有很多变型和改变，或者可从本发明的实践中获得这些变型和改变。为说明本发明的原理及其实际应用而选择和描述了这些实施例，以使本领域的技术人员能够将本发明用于各种实施例、以及以适合于所预期的特定应用的各种变型来使用本发明。

Claims

1.一种通过车辆的控制模块和该车辆中的数字媒体存储设备之间的通信链接从该数字媒体存储设备中提取元数据的方法，该方法包括：

在所述车辆的控制模块和所述数字媒体存储设备之间建立通信链接；

识别所述数字媒体存储设备上的媒体文件；

从媒体文件中取得元数据，该元数据包括多个记录项，其中所述多个记录项中至少一个包括文本数据；

识别所述媒体文件的记录项中的文本数据；以及

将所述多个记录项存储到存储器中。

2.如权利要求1所述的方法，其中，响应于在所述控制模块和所述数字媒体存储设备之间建立了通信链接而取得所述元数据。

3.如权利要求1所述的方法，其中，响应于用户的命令而取得所述元数据。

4.如权利要求3所述的方法，其中，来自所述用户的命令是经由用户接口接收的。

5.如权利要求3所述的方法，其中，所述命令为口述命令。

6.如权利要求1所述的方法，其中，所述控制模块和所述数字媒体存储设备之间的通信链接是无线的。

7.如权利要求1所述的方法，其中，所述多个记录项包括下列中的任一个：歌曲标题、唱片标题、艺术家、流派、时长、音轨号、已播放时间、录制标签、录制日期、作曲家、制作人以及主要艺术家。

8.如权利要求1所述的方法，还包括：

产生记录项的文本数据的声音基础形式；以及

将所述记录项的声音基础形式存储到基础形式列表中。

9.如权利要求1所述的方法，还包括：

识别所述数字媒体存储设备上的播放列表；以及

从所述数字媒体存储设备中取得所述播放列表，其中该播放列表包括媒体文件的自定义编排。

10.如权利要求1所述的方法，其中，所述声音基础形式用于使每个记录项能被语音识别。

11.一种车载控制系统，用于通过通信链接从数字媒体存储设备中提取元数据，该系统包括：

通信模块，用于与所述数字媒体存储设备建立通信链接；

处理模块，耦合于所述通信模块，该处理模块用于经由该通信模块从所述数字媒体存储设备中取得与媒体文件有关的元数据，该元数据包括多个记录项，其中所述多个记录项中的至少一个包括文本数据；以及

存储模块，用于存储从所述数字媒体存储设备中取得的多个记录项。

12.如权利要求11所述的系统，其中，所述处理模块用于识别记录项的文本数据并且产生该记录项的文本数据的音素表示。

13.如权利要求11所述的系统，还包括：用户接口，用于接收输入，基于媒体文件的相关元数据选择至少一个媒体文件，以及经由音频系统播放该媒体文件的音频数据。

14.如权利要求11所述的系统，其中，所述用户接口包括显示器，并且所述处理模块用于经由该显示器向用户提供元数据。

15.如权利要求11所述的系统，还包括：音频输入设备，用于从用户处接收口头输入命令。

16.如权利要求11所述的系统，还包括：语音识别模块，用于将从用户处接收到的口头输入命令与一组预定的输入命令进行比较，其中该语音识别模块基于该口头输入命令来确定适当的响应。

17.如权利要求11所述的系统，还包括：文本转换引擎，用于将记录项的文本数据转换为该文本数据的可听语音表示。

18.如权利要求11所述的系统，其中，所述存储模块包括易失性存储器。

19.如权利要求11所述的系统，其中，所述存储模块包括非易失性存储器。

20.如权利要求11所述的系统，其中，记录项的文本数据的音素表示有助于所述媒体文件的记录项的语音识别。

21.如权利要求11所述的系统，其中，该系统用于支持媒体编码/解码算法，包括以下中的任一个：MP3、MP3 Pro、Ogg Vorbis、高级音频编码(AAC)、Windows媒体音频(WMA)以及波形音频(WAV)。