CN117083670A

CN117083670A - 用于车辆的交互式音频娱乐系统

Info

Publication number: CN117083670A
Application number: CN202280015604.6A
Authority: CN
Inventors: Y·L·本吉吉; C·瓦尚
Original assignee: Sereni Run Co
Current assignee: Sereni Run Co
Priority date: 2021-02-18
Filing date: 2022-02-17
Publication date: 2023-11-17
Also published as: WO2022178122A1; EP4295361A1; US20240126499A1

Abstract

一种用于与音频流交互以获得歌词信息、控制音频流的回放以及控制音频流的各方面的系统。在某些情况下，终端用户可以请求音频流播放有或没有主唱音轨。获得歌词信息包括经由文本到语音模块接收歌词信息的音频回放。

Description

用于车辆的交互式音频娱乐系统

相关申请的交叉引用

本申请要求2021年2月18日提交的美国临时申请序列号63/151005的权益，其公开内容通过引用全文结合于此。

技术领域

本公开的各方面总体涉及用于车辆的交互式音频娱乐应用。

背景技术

本发明涉及应用，尤其涉及娱乐应用，其中车辆的处理系统是主动参与者。乘客通常不愿意乘坐汽车进行长途旅行。虽然有些不情愿是因为旅行的风险和长时间坐着的身体不适，但一个重要的原因是预见到的无聊。

乘客已经使用了各种方式来缓解长时间旅行或一般旅行的厌倦。阅读书籍以及近来更多的看电影都被证明是缓解无聊的方法。另一种方法是玩游戏，诸如卡拉OK。

基于音频的娱乐长期以来一直是娱乐汽车司机及其乘客的一种形式。司机听歌，有时跟着唱。当司机不知道某一首歌的歌词时，他们会感到沮丧。虽然乘客可以查找歌词并跟着唱，但是司机这样做不安全。

此外，基于车辆的音频游戏和娱乐通常要求所有玩家都可以访问歌词，并能够控制音频的回放和浏览音频。一种这样的游戏即卡拉OK不仅需要听到歌词的能力，还需要随音频播放具有或没有歌词的能力。

发明内容

本文描述了用于与音频流交互的系统和方法，其中该系统包括以第一回放模式播放音频流的音频回放模块。辨别模块从车辆的头部单元接收包括请求与音频流相关的歌词信息的至少一个命令的一个或多个话语。音频回放模块通过识别歌词信息来响应话语中的命令。系统内的娱乐界面从音频回放模块接收歌词信息，并将歌词信息输出给终端用户。

音频播放模块通过车辆的扬声器播放音频流。

音频回放模块识别音频流的时限部分，并搜索或识别该时限部分内的歌词信息。时限部分的特征在于开始时间和停止时间。在一些情况下，音频回放模块通过辨别在时限部分期间音频流内发出的语音来识别歌词信息。在其他情况下，音频回放模块通过找到对应于音频流的时限部分的歌词来识别歌词信息。

该系统可以包括从歌词信息生成合成语音的文本到语音模块。娱乐界面可以获得合成语音，并将其输出给终端用户，以可听见地将歌词信息传递给终端用户。

本文描述了用于与音频流交互的系统和方法，其中该系统包括以第一回放模式播放音频流的音频回放模块和辨别模块。辨别模块从车辆的头部单元接收包括以第二回放模式播放音频流的命令的一个或多个话语。第一回放模式可以包括播放音频流的乐器音轨和主唱音轨，第二回放模式可以包括仅播放音频流的乐器音轨。

本文描述了一种用于交互式音频娱乐的系统，该系统可以包括：至少一个扬声器，其配置成以一种或多种模式将音频流回放到环境中；至少一个麦克风，其配置成接收指示环境中的声音的麦克风信号；以及处理器，其被编程为：指示扬声器以第一回放模式回放音频流，从至少一个麦克风接收第一麦克风信号，第一麦克风信号包括包含以第二回放模式回放音频流的命令的用户话语，指示扬声器以第二回放模式回放音频流。

第一回放模式可以包括播放包括乐器和主唱音轨的音频流。第二回放模式可以包括播放包括乐器音轨的音频流。

该处理器还可被编程为接收包含请求与音频流相关的歌词信息并指示向用户输出歌词信息的命令的至少一个其他话语、指示扬声器输出歌词信息和/或识别音频流的时限部分并识别音频流的时限部分内的歌词信息。

音频流的时限部分具有开始时间和停止时间，其中识别音频流的时限部分内的歌词信息包括辨别在开始时间和停止时间之间发出的语音，和/或其中识别音频流的时限部分内的歌词信息包括在数据库中搜索在音频流的时限部分的开始时间和停止时间之间的时间点发出的歌词信息。

附图说明

图1示出了具有与各种外围设备通信的汽车处理单元的车辆。

图2示出了图1的汽车处理单元中的头部单元的部件。

图3示出了图1所示的汽车处理单元中的头部单元的架构，其独立于到远程服务器的任何连接(例如经由云)而运行。

图4示出了图1中示出的汽车处理单元中的头部单元的替代实施例的架构，与图3中示出的实施例不同，其独立于到远程服务器的任何连接(例如经由云)而运行，不独立于任何远程服务器而运行，并且事实上在其操作期间例如经由云维持到远程服务器的连接。

具体实施方式

本文公开了一种音频处理系统，其允许用户参与车辆内的语音控制，这允许基于对话的体验。在一示例中，车辆的乘客可以导航歌曲库、控制音频流(即开始、停止、倒带和快进流)、发出话语和其他上下文信息来指示其意图和命令、接收如何向用户使用该应用的基于对话的教程，等其他特征和功能。具体地，乘客可能够请求和接收音频流的特定片段的歌词。

此外，在回放所请求的音频流期间，音频处理系统可以继续提供语音辨别、自然语言理解、文本到语音、唤醒词(WuW)检测、娱乐界面、智能助理和交互式娱乐应用。因此，即使是音频流，也可以处理和执行额外的请求、意图和命令。

例如，乘客可以说出“滚石乐在其中”。车辆内的音频处理系统可以响应命令并回放适当的音频流。用户然后可以说出“获取歌词”。音频处理系统然后可以实现各种过程和模块来获取音频流的歌曲的歌词。歌词可以通过由文本到语音引擎生成的合成语音来呈现，并由娱乐界面输出。

乘客也可以选择欣赏音频流的模式。第一回放模式可以包括播放包括乐器和主唱音轨的音频流，第二回放模式可以包括播放仅具有乐器音轨的音频流。

图1图示出了具有客舱12的车辆10，在客舱12中，预期娱乐者14坐在座位16中。每个座位16可以具有关联的麦克风18、扬声器20和触觉元件22。客舱12内有各种反馈单元24，例如客舱灯或触觉单元。

车辆10可包括各种类型的客车，诸如跨界多功能车(CUV)、运动型多功能车(SUV)、卡车、休闲车(RV)、船、飞机或其他用于运送人员或货物的移动机器。此外，车辆10可以是自主的、部分自主的、自动驾驶的、无人驾驶的或驾驶员辅助的车辆。车辆10可以是电动车辆(EV)，诸如电池电动车辆(BEV)、插电式混合动力电动车辆(PHEV)、混合动力电动车辆(HEV)等。

车辆10还包括内部摄像机26和外部摄像机28。内部摄像机26指向客舱12的各个部分。因此，内部摄像机26的视野中经常有娱乐者14。内部摄像机26可以配置为提供对乘客的面部辨别。内部摄像机26也可以配置为检测关于驾驶员行为的非语言提示，诸如用户凝视的方向、用户手势等。内部摄像机26可以监控娱乐者的头部位置，以及检测娱乐者的任何其他运动，诸如娱乐者的手臂或手的运动、用户头部的摇动等。内部摄像机26可以提供对娱乐者拍摄的图像数据，以指示用户做出的某些运动。内部摄像机26可以是能够拍摄静态图像以及视频并检测用户头部、眼睛和身体运动的摄像机。内部摄像机26可以包括多个摄像机，并且成像数据可以用于定性分析。例如，成像数据可用于确定用户是否正看着某个位置或车辆显示器。另外或可替代地，成像数据还可以补充定时信息，因为它与用户运动或手势相关。

外部摄像机28可以指向车辆的环境，并且可以捕捉车辆10周围的环境。

车辆10可以包括其他传感器，诸如除了麦克风18之外的传感器，由其提供的数据可以用于帮助检测占用情况，诸如车辆座椅内的压力传感器、门传感器、摄像机等。来自这些传感器的该乘客数据可以与音频信号结合使用，以确定包括乘客数量在内的占用情况。

反馈单元24可以是客舱灯24，其可以是顶灯、发光二极管条形灯、多色环境照明等。灯24可以布置在中央控制台、地板、仪表板、脚凳、天花板等处。在一些示例中，灯24可以基于某些音频信号进行调节。例如，灯可以配置为随着音乐的节拍闪烁或改变颜色，特别是由卡拉OK应用提供的音乐，这将在本文中更详细地描述。处理器30可以响应于确定音频信号包括来自用户的卡拉OK内容或语音/歌唱内容来指示这种照明改变。

反馈单元也可以是触觉单元24，并且可以包括不美观的通信或3D触摸效果，其可以通过向用户施加力或振动来产生触摸或运动的体验。触觉单元24可以结合触觉传感器，其测量用户在界面上施加的力。触觉单元24可以布置在车辆座椅、显示器等中。在一示例中，触觉单元24可以是配置成在被按压时提供触觉反馈的按钮。

在这里的系统中，触觉单元24可以是配置为进行或启动语音控制的按钮。触觉单元24可以包括布置在每个座位处的单元，使得每个娱乐者或用户可以进行语音控制。该按钮可以专门用于参与卡拉OK应用。

在一些实施例中，车辆10包括投影仪29和指示器31。如2020年12月4日提交的美国专利申请号17/111868中所述，这些与某些娱乐应用的执行结合使用，该申请的内容通过引用整体结合于此。

车辆10还包括车载汽车处理单元30，其细节在图2中进一步讨论。处理单元30在这里也可被称为头部单元30或处理器30。在接合触觉单元24时，处理器30可以启动并执行语音控制。这可以允许用户导航歌曲库、控制音频流(即开始、停止、倒带和快进流)、接收话语和其他上下文信息以接收用户的意图和命令、向用户提供如何使用该应用的基于对话的教程以及其他特征和功能。具体地，用户可能够请求和接收音频流的特定片段的歌词。歌词可以通过由文本到语音引擎生成的合成语音来呈现，并由娱乐界面输出。

此外，虽然这里详细讨论了汽车系统，但可以理解其他应用。例如，类似的功能也可以应用于其他非汽车的情况，例如在生活环境中使用智能眼镜、电话、眼球跟踪器等的增强现实或虚拟现实情况。尽管通篇使用了术语“用户”,但该术语可以与诸如说话者、居住者、娱乐者等其他术语互换。

现在参考图2，汽车处理单元30具有车载导航系统32，其接收卫星信号，处理它们以输出空间坐标，并在从地图数据库34中选择的地图上显示车辆的空间环境的表示。此外，车载导航系统30可以访问特征数据库36，其提供关于对应于各种空间坐标的兴趣点的信息。

汽车处理单元30或处理器30还包括信息娱乐系统38，其包括具有处理器42和存储器44的头部单元40。信息娱乐系统38与包括一个或多个外围设备的外围设备组具有接口。外围设备的示例包括以下中的一个或多个：麦克风18、扬声器20、触觉元件22、客舱灯24、摄像机26、28、投影仪29和指示器31。

麦克风18可以配置为接收来自车厢内的音频信号，诸如声学话语，包括来自用户的口语、短语或命令。麦克风18还可以配置为接收其他声学声音，诸如唱歌、敲击、击打、发信号等。这可能是卡拉OK系统的一部分。麦克风18还可以包括音频输入，其配置为向处理器30提供音频信号处理特征，包括放大、转换、数据处理等。虽然麦克风18在这里被描述为用于处理系统和卡拉OK系统的目的，但麦克风18可以用于其他车辆特征，诸如主动噪声消除、免提接口等。麦克风18可以根据与可用命令相关联的语法，从经由麦克风18接收的音频中进行语音辨别，并生成语音提示。

如所解释的，可以从用户接收各种命令，并且这些可以包括关于音频流的回放命令。这些可以包括播放特定歌曲或艺术家、练习歌曲、播放、暂停、停止、快进、倒回、阅读歌词等的指令。

车辆10可以包括通过车辆扬声器20或耳机具有音频回放功能的音频系统。音频回放可以包括来自诸如车辆无线电(包括卫星无线电)的源的音频、解码的调幅(AM)或调频(FM)无线电信号、来自压缩盘(CD)或数字多功能盘(DVD)音频回放的音频信号、来自移动设备的流式音频、来自导航系统的命令等。扬声器20还可以为卡拉OK系统播放音乐，并向用户提供歌词信息。

车辆10可以配置为包括各种类型的部件、处理器(包括汽车处理单元30)和存储器，并且可以与通信网络66通信。通信网络66可被称为“云”,并且可以涉及经由广域网和/或局域网(诸如互联网、全球定位系统(GPS)、蜂窝网络、Wi-Fi、蓝牙等)的数据传输。通信网络66可以提供车辆10和外部或远程服务器68和/或数据库以及其他外部应用、系统、车辆等之间的通信。该通信网络66可以向车辆10提供导航、音乐或其他音频、节目内容、营销内容、互联网接入、语音辨别、认知计算、人工智能。

在一示例中，通信网络66可以允许车辆到车辆通信。

处理器30可以指示扬声器20回放各种音频流和特定配置。例如，娱乐者可以要求只播放乐器音轨的特定歌曲的回放。其他选项还包括在回放中包含主唱音轨。在另一选项中，回放可以包括乐器音轨。这里将更详细地讨论这些回放模式。

远程服务器68和数据库可包括耦合到一个或多个计算机存储装置的一个或多个计算机硬件处理器，用于执行如本文所述的一个或多个方法的步骤，并可使车辆10能够与车辆10外部以及车辆10本地或车载的系统和子系统通信和交换信息和数据。车辆10可以包括一个或多个处理器30，其配置为执行本文所述的特定指令、命令和其他程序。还可以包括内部车辆网络，诸如车辆控制器局域网(CAN)、以太网和面向媒体的系统传输(MOST)等。内部车辆网络可允许处理器30与其他车辆10系统通信，诸如车辆调制解调器、配置成提供当前车辆位置和航向信息的GPS模块和/或全球移动通信系统(GSM)模块，以及配置成与处理器30合作的各种车辆电子控制单元(ECU)。

处理器30可以执行用于某些车辆应用的指令，包括导航、信息娱乐、气候控制等。用于相应车辆系统的指令可以使用各种类型的计算机可读存储介质以非易失性方式保存。计算机可读存储介质(本文也称为存储器44或存储装置)包括参与提供可由处理器30读取的指令或其他数据的任何非暂时性介质(例如有形介质)。计算机可执行指令可以从使用各种编程语言和/或技术创建的计算机程序中编译或解释，包括但不限于单独或组合的Java、C、C++、C#、Objective C、Fortran、Pascal、Java Script、Python、Perl和PL/结构化查询语言(SQL)。

在一些实施例中，处理系统或处理器30提供关于一个或多个电子设备的输入/输出控制功能，诸如平视显示器(HUD)、车辆显示器和/或驾驶员或乘客的移动设备、传感器、摄像机等。车辆10可以包括无线收发器，诸如蓝牙模块、ZIGBEE收发器、Wi-Fi收发器、IrDA收发器、射频标识(RFID)收发器等)，其配置成与各种用户设备的兼容无线收发器以及通信网络66通信。

车辆10可以包括其他传感器，由其提供的数据可用于帮助检测占用情况，例如车辆座椅内的压力传感器、门传感器、摄像机等。来自这些传感器的该乘客数据可与音频信号结合使用，以确定包括乘客数量在内的占用情况。

现在参考图3，在头部单元40中执行的汽车助手46充当头部单元的操作系统。因此，汽车助手使头部单元30能够执行各种应用，其中包括语音接口48和一个或多个娱乐应用50、52、54。所说明的实施例的特征在于空间认知娱乐应用50、交互式音频娱乐系统52和其他车辆娱乐系统54。

空间认知娱乐应用50的示例包括游戏，其中车辆10充当一个玩家。这种游戏可以由一个人玩，也可以由两个或更多人玩。娱乐应用的其他示例包括产生虚拟世界或体验的应用、教育应用或对娱乐者娱乐的类似应用，以使娱乐者从长时间驾驶的无聊中转移注意力。每个这样的空间认知娱乐应用程序都利用了从连接到信息娱乐系统38的各种外围设备收集的信息中产生的空间智能。

第一娱乐应用程序50实现特征识别游戏，其依赖于空间智能来提出或接受关于车辆环境中各种特征或兴趣点的存在的挑战，以及感官反馈来推断娱乐者的意图。该环境包括客舱的内部和外部。这种特征或兴趣点的示例包括建筑物、纪念碑、地标和地理特征，诸如静止或流动的水体，包括湖泊、河流和瀑布，以及景观上明显的正或负梯度区域，诸如山丘、悬崖、断崖和孤峰。特征和兴趣点还可以包括瞬时特征，诸如路上或停放的另一辆车。外部摄像机28可以为特征识别游戏提供车辆环境的图像。

特征识别游戏由第一和第二玩家玩，其中一个玩家是人类玩家，即娱乐者，另一个是由第一娱乐应用程序50本身实现的非人类玩家。

因此，很明显，术语“玩家”不一定指人。此外，术语“玩家”是一个逻辑结构，它不限于一个人，而是可以代表作为“玩家”合作的一组人。因此，可以将“玩家”视为“游戏实体”。

在这里描述的游戏的上下文中，娱乐者和汽车助手可以交换角色。为了促进表述的紧凑性，逻辑术语“第一玩家”和“第二玩家”将被使用，理解为娱乐者和汽车助手可以交换角色。

第一玩家选择特征。第二玩家试图基于一个或多个提示或线索来猜测第一玩家选择的特定特征。

交互式音频娱乐系统52的示例是卡拉OK应用，其允许用户随着被修改为去除主唱音轨的带歌词音乐一起唱歌。其他交互式音频娱乐系统52允许用户与音频流交互、修改和导航音频流。在一些情况下，交互式音频娱乐系统52可以配置成允许车辆驾驶员访问歌词，与音频流交互，并且以安全的方式控制歌曲回放。也就是说，虽然车辆10可能能够在显示屏上显示文本歌词，例如文本到屏幕(TTS)，但车辆10也可以实现触觉界面(UX)，以及语音命令和对话，以向用户提供反馈和歌词。

交互式音频娱乐系统52可以包括音频回放模块、辨别模块、娱乐界面和文本到语音模块或引擎。虽然这些模块在这里示出为不同的，但每个模块都可以是配置为执行这里描述的过程和方法的处理器或控制器的一部分。例如头部单元30、处理器30等可以包括每个或一个或多个模块及其各种功能。

音频回放模块可以接收和响应用户命令和请求，并以各种模式播放音频流。一种回放模式包括播放音频流的乐器和主唱音轨。第二回放模式包括仅播放音频流的乐器音轨。第三回放模式包括播放乐器音轨和终端用户录制的主唱音轨。音频流的特征在于相对于音频流的开始和音频流的结束定义的时间段。音频流从歌曲或音轨的开头开始，在歌曲或音轨的结尾结束。音频流的开始和结束之间的时间段是根据从音轨开始以来已经过了多长时间来描述的。例如，开始于1分钟并结束于2分钟的时间段开始于音频流开始后1分钟的时间点，结束于音频流开始后2分钟的时间点。音频的该时限部分为时长1分钟。

当用户想要获得一首歌曲的一部分的歌词信息或歌词时，用户可以向头部单元发出命令。该命令可以具有指导音频回放模块寻找音频流的时限部分的歌词的内在意图。例如，如果终端用户在歌曲开始1分30秒时要求音频回放模块提供歌词，则音频回放模块可以获得对应于在歌曲开始时开始并在歌曲开始后1分30秒结束的音频的时限部分的歌词信息。

可以通过在数据库中查询歌词信息或者通过辨别音频流中发出的语音来获得歌词信息。通过首先将歌词信息转换成合成语音，然后输出该合成语音，可以将歌词安全且可听地输出给终端用户。文本到语音模块或引擎可用于生成合成语音。在一些示例中，歌词也可以通过显示器以文本形式呈现。

图4所示的架构提供了类似于图2的通信网络66的云接口100，其接收传感器数据102和语音数据104，并将它们都提供给远程计算机98，诸如在一示例中是图2的远程服务器68。传感器数据102来自内部和外部摄像机26、28以及车载导航系统32。语音数据104来自麦克风18。

可以在远程计算机98上实现的语音接口48包括自动语音辨别模块106和自然语言理解模块108。自动语音辨别模块106识别可由麦克风18接收的声音流中的语义单元，诸如单词和短语。自然语言理解单元108将所识别的语义单元映射成含义。例如，在娱乐应用实现游戏的那些实施例中，语音接口48向所选游戏提供包括传感器数据102和语音数据104的应用输入110。

娱乐应用包括应用逻辑112，其使用应用输入110来执行娱乐应用50、52、54。这导致进入娱乐状态。提供关于娱乐状态的反馈信息116的反馈生成器114。反馈生成器114通常包括输出文本或基于文本的语音的自然语言生成器。反馈信息116包括文本和/或语音，并且在适当的时候，包括关于兴趣点的信息。该反馈信息然后被传送回车辆10，用于经由一种或多种通信模式传送给娱乐者，诸如扬声器20、触觉元件22、客舱灯24、指示器31和/或投影仪29。在一些实施例中，投影仪29是投影图像的虚拟现实投影仪。显示器也可以用于显示某些视觉效果。

远程计算机98还维护空间智能模块118，其包括关于兴趣点的信息。基于由图2的导航系统32提供的位置数据，空间智能模块118提供关于可能与空间认知娱乐应用50相关的兴趣点的信息。这种信息形成反馈信息116的一部分。

应当理解，前面的描述旨在说明而不是限制本发明的范围，本发明的范围由所附权利要求的范围限定。其他实施例在以下权利要求的范围内。

虽然在此描述了示例，但可以包括和考虑其他车辆系统。虽然没有具体示出，但车辆可以包括车载汽车处理单元，其可以包括信息娱乐系统，该信息娱乐系统包括头部单元、处理器和存储器。信息娱乐系统可以与外围设备组连接，该外围设备组包括一个或多个外围设备，例如麦克风、扬声器、触觉元件、客舱灯、摄像机、投影仪和指示器等。头部单元可以执行各种应用，例如语音界面和其他娱乐应用，例如卡拉OK应用。其他处理包括文本到语音、辨别模块等。这些系统和模块可以响应用户命令和请求。

本文描述的计算设备通常包括计算机可执行指令，其中这些指令可由诸如以上列出的一个或多个计算设备来执行。计算机可执行指令可以从使用各种编程语言和/或技术创建的计算机程序中编译或解释，包括但不限于单独或组合的Java^TM、C、C++、C#、VisualBasic、Java Script、Perl等。通常，处理器(例如微处理器)例如从存储器、计算机可读介质等接收指令，并执行这些指令，从而执行一个或多个过程，包括这里描述的一个或多个过程。这些指令和其他数据可以使用各种计算机可读介质来存储和传输。

虽然上面描述了示例性实施例，但这并不意味着这些实施例描述了本发明的所有可能形式。相反，说明书中使用的词语是描述性的词语，而不是限制性的，并且应当理解，在不脱离本发明的精神和范围的情况下，可以进行各种改变。此外，各种实现实施例的特征可被组合以形成本发明的其他实施例。

Claims

1.一种用于与音频流交互的系统，所述系统包括：

音频回放模块，其以第一回放模式播放音频流；

辨别模块，其从车辆的头部单元接收一个或多个话语，所述一个或多个话语包括请求与所述音频流相关联的歌词信息的至少一个命令，其中所述音频回放模块识别所述歌词信息；以及

娱乐界面，其从所述音频回放模块接收所述歌词信息，并将所述歌词信息输出给终端用户。

2.根据权利要求1所述的系统，其中，所述音频回放模块通过所述车辆的扬声器播放所述音频流。

3.根据权利要求1所述的系统，其中，所述音频回放模块通过识别所述音频流的时限部分以及识别所述音频流的所述时限部分内的歌词信息来识别所述歌词信息。

4.根据权利要求3所述的系统，其中，所述音频流的所述时限部分具有开始时间和停止时间。

5.根据权利要求4所述的系统，其中，识别所述音频流的所述时限部分内的所述歌词信息包括辨别在所述开始时间和所述停止时间之间发出的语音。

6.根据权利要求4所述的系统，其中，识别所述音频流的所述时限部分内的所述歌词信息包括在数据库中搜索在所述音频流的所述时限部分的所述开始时间和所述停止时间之间的时间点发出的所述歌词信息。

7.根据权利要求1所述的系统，其中，所述系统还包括文本到语音模块，所述文本到语音模块从所述歌词信息生成合成语音。

8.根据权利要求7所述的系统，其中，所述娱乐界面通过播放由所述文本到语音模块生成的所述合成语音来输出所述歌词信息。

9.一种用于与音频流交互的系统，该系统包括：

音频回放模块，其以第一回放模式播放音频流；以及

辨别模块，其从车辆的头部单元接收一个或多个话语，所述一个或多个话语包括请求所述音频回放模块以第二回放模式播放所述音频流的至少一个命令，

其中，所述音频回放模块响应性地以所述第二回放模式播放所述音频流。

10.根据权利要求9所述的系统，其中，所述第一回放模式包括播放所述音频流的乐器音轨和主唱音轨。

11.根据权利要求9所述的系统，其中，所述第二回放模式包括播放所述音频流的乐器音轨，但不播放主唱音轨。

12.一种用于交互式音频娱乐的系统，包括：

至少一个扬声器，其配置为以一种或多种模式向环境中回放音频流；

至少一个麦克风，其配置为接收指示所述环境中的声音的麦克风信号；以及

处理器，其被编程为：

指示所述扬声器以第一回放模式回放所述音频流，

从至少一个麦克风接收第一麦克风信号，所述第一麦克风信号包括用户话语，所述用户话语包括以第二回放模式回放音频流的命令，

指示所述至少一个扬声器以所述第二回放模式回放所述音频流。

13.根据权利要求12所述的系统，其中，所述第一回放模式包括播放所述音频流的乐器音轨和主唱音轨。

14.根据权利要求12所述的系统，其中，所述第二回放模式包括播放所述音频流的乐器音轨，但不播放主唱音轨。

15.根据权利要求12所述的系统，其中，所述处理器还被编程为接收至少一个其他话语，所述至少一个其他话语包括请求与所述音频流相关的歌词信息并指示在环境中输出所述歌词信息的第二命令。

16.根据权利要求15所述的系统，其中，所述处理器还被编程为指示所述扬声器输出所述歌词信息。

17.根据权利要求15所述的系统，其中，所述处理器还被编程为识别所述音频流的时限部分，并且识别音频流的所述时限部分内的歌词信息。

18.根据权利要求17所述的系统，其中，所述音频流的所述时限部分具有开始时间和停止时间。

19.根据权利要求18所述的系统，其中，所述处理器还被编程为通过辨别在所述开始时间和所述停止时间之间发出的语音来识别所述音频流的所述时限部分内的所述歌词信息。

20.根据权利要求18所述的系统，其中，所述处理器还被编程为通过在数据库中搜索在所述音频流的所述时限部分的所述开始时间和所述停止时间之间的时间点发出的歌词信息来识别所述音频流的所述时限部分内的所述歌词信息。