CN104125483A

CN104125483A - 音频评论信息生成方法和装置，音频评论播放方法和装置

Info

Publication number: CN104125483A
Application number: CN201410320542.7A
Authority: CN
Inventors: 张晨; 李时斌; 王宇; 吴海波; 王丽珍
Original assignee: LeTV Information Technology Beijing Co Ltd
Current assignee: LeTV Information Technology Beijing Co Ltd
Priority date: 2014-07-07
Filing date: 2014-07-07
Publication date: 2014-10-29

Abstract

本发明提供了一种音频评论信息生成方法和装置，音频评论播放方法和装置，以解决文字评论的生成方式复杂，影响用户感知，降低文字评论浏览效率的问题。其中，音频评论信息生成方法包括：当检测到触发语音的输入时，获取音频信息；将音频信息上传至服务器；服务器将音频信息转换成音频评论信息。音频评论播放方法包括：在向服务器发送音频评论播放请求后，接收服务器下发的预先生成的音频评论信息，音频评论信息包括至少一个音频数据的标识；接收到针对某个音频数据的标识的选择指令后，获取对应的音频数据，并播放音频数据。本发明中音频评论的生成过程更加简单，通用性更强，可以调用用户的语音和听感，提升用户体验，提高音频评论的播放效率。

Description

音频评论信息生成方法和装置,音频评论播放方法和装置

技术领域

本发明涉及多媒体技术领域，特别是涉及一种音频评论信息生成方法和装置，音频评论播放方法和装置。

背景技术

视频播放终端泛指视频播放设备及软件，例如：智能电视、智能手机或平板电脑及其上的视频应用、电脑上含有播放器的网页或视频客户端等。用户在通过这些视频播放终端观看视频时，可能还会关注该视频相关的评论信息。

现有对于视频的评论通常都是基于文字信息进行评论，在播放文字评论时将其展示在视频播放终端屏幕的特定位置上供用户浏览。但是，用户在发表文字评论的时候需要有合适的输入环境，例如电脑的键盘、触屏设备的虚拟键盘等，而对于电视机等设备而言因为输入设备的限制，文字输入方法非常不方便。

可见，现有的文字评论的生成方式复杂，并且用户还要花费较大的精力去浏览文字评论，从而影响用户感知，降低文字评论的浏览效率。

发明内容

本发明提供一种音频评论信息生成方法和装置，音频评论播放方法和装置，以解决文字评论的生成方式复杂，影响用户感知，降低文字评论的浏览效率的问题。

为了解决上述问题，本发明公开了一种音频评论信息生成方法，其特征在于，包括：

当检测到触发语音的输入时，获取音频信息，所述音频信息包括输入的音频数据；

将所述音频信息上传至服务器；所述服务器用于将所述音频信息转换成音频评论信息。

优选地，所述音频信息还包括视频数据的时间标签及标识，所述当检测到触发语音的输入时，获取音频信息的步骤包括：

在播放某一视频数据的过程中触发语音输入时，接收输入的音频数据；

记录开始接收输入的音频数据时，当前视频数据的时间标签以及所述视频数据的标识。

优选地，所述将所述音频信息上传至服务器的步骤包括：

将所述输入的音频数据和所述视频数据的时间标签及标识上传至服务器。

优选地，所述音频信息还包括所述音频数据对应的背景视频数据，所述当检测到触发语音的输入时，获取音频信息的步骤包括：

在所述视频数据中截取从开始接收输入的音频数据时开始的、与所述音频数据的时间长度相等的视频数据作为所述音频数据对应的背景视频数据。

优选地，所述将所述音频信息上传至服务器的步骤包括：

将所述音频数据及对应的背景视频数据上传至服务器。

优选地，所述音频信息还包括所述音频数据的音量信息及所述背景视频数据的音量信息；

所述当检测到触发语音的输入时，获取音频信息的步骤，还包括：

分别记录调整后的所述音频数据的音量信息及所述背景视频数据的音量信息；

所述将所述音频信息上传至服务器的步骤，还包括：

将所述音频数据的音量信息及所述背景视频数据的音量信息上传至服务器。

优选地，所述音频信息还包括输入的视频数据，所述当检测到触发语音的输入时，获取音频信息的步骤包括：

当检测到触发语音的输入时，同时接收输入的音频数据和输入的视频数据。

优选地，所述将所述音频信息上传至服务器的步骤包括：

将所述输入的音频数据和输入的视频数据上传至服务器。

优选地，所述当检测到触发语音的输入时，获取音频信息的步骤包括：

在接收到用于开启语音输入的触发指令后，开始获取音频信息；

在接收到用于结束语音输入的触发指令后，停止获取音频信息。

优选地，所述用于开启语音输入的触发指令为在检测到指定设备发起预定义的指示开启语音输入的触控操作和/或指定设备捕获到指示开启语音输入的语音消息时生成的指令；

所述用于结束语音输入的触发指令为在检测到指定设备发起预定义的指示结束语音输入的触控操作和/或指定设备捕获到指示结束语音输入的语音消息时生成的指令。

在到达预设的所述用于开启语音输入的触发指令对应执行时间时，停止获取音频信息。

根据本发明的另一方面，还公开了一种音频评论播放方法，其特征在于，包括：

在向服务器发送音频评论播放请求后，接收服务器针对所述音频评论播放请求下发的预先生成的音频评论信息，所述音频评论信息包括至少一个音频数据的标识；

接收到针对某个音频数据的标识的选择指令后，获取该音频数据的标识对应的音频数据，并播放所述音频数据。

优选地，所述音频评论信息还包括各音频数据对应的视频数据的时间标签及视频数据的标识；

所述获取该音频数据的标识对应的音频数据，并播放所述音频数据的步骤包括：

获取该音频数据的标识对应的音频数据，并获取所述视频数据的标识对应的视频数据；

跳转到所述视频数据的时间标签，同时播放所述时间标签对应的视频数据和所述音频数据。

优选地，所述音频评论信息还包括各音频数据对应的背景视频数据的标识；

获取该音频数据的标识对应的音频数据，并获取所述音频数据对应的背景视频数据的标识所对应的背景视频数据；

同时播放所述背景视频数据和所述音频数据。

优选地，所述音频评论信息还包括各音频数据的音量信息和各背景视频数据的音量信息；

所述获取该音频数据的标识对应的音频数据，并获取所述音频数据对应的背景视频数据的步骤包括：

获取该音频数据的标识对应的音频数据和该音频数据的音量信息，并获取所述音频数据对应的背景视频数据的标识所对应的背景视频数据和该背景视频数据的音量信息；

所述同时播放所述背景视频数据和音频数据的步骤包括：

按照所述音频数据的音量信息控制该音频数据的音量，按照所述背景视频数据的音量信息控制该背景视频数据的音量，同时播放所述背景视频数据和所述音频数据。

优选地，所述音频评论信息还包括各音频数据对应的输入的视频数据标识，

获取该音频数据的标识对应的音频数据，并获取该音频数据对应的输入的视频数据标识所对应的输入的视频数据；

播放所述音频数据，并同时在预设的评论播放区域内播放所述输入的视频数据。

根据本发明的另一方面，还公开了一种音频评论信息生成装置，其特征在于，包括：

获取模块，用于当检测到触发语音的输入时，获取音频信息，所述音频信息包括输入的音频数据；

上传模块，用于将所述音频信息上传至服务器；所述服务器用于将所述音频信息转换成音频评论信息。

优选地，所述音频信息还包括视频数据的时间标签及标识；

所述获取模块包括：

第一接收子模块，用于在播放某一视频数据的过程中检测到触发语音的输入时，接收输入的音频数据；

第一记录子模块，用于记录开始接收输入的音频数据时，当前视频数据的时间标签以及所述视频数据的标识；

所述上传模块包括：

第一上传子模块，用于将所述输入的音频数据和所述视频数据的时间标签及标识上传至服务器。

根据本发明的另一方面，还公开了一种音频评论播放装置，其特征在于，包括：

接收模块，用于在向服务器发送音频评论播放请求后，接收服务器针对所述音频评论播放请求下发的预先生成的音频评论信息，所述音频评论信息包括至少一个音频数据的标识；

播放模块，用于接收到针对某个音频数据的标识的选择指令后，获取该音频数据的标识对应的音频数据，并播放所述音频数据。

所述播放模块包括：

第一获取子模块，用于获取该音频数据的标识对应的音频数据，并获取所述视频数据的标识对应的视频数据；

第一播放子模块，用于跳转到所述视频数据的时间标签，同时播放所述时间标签对应的视频数据和所述音频数据。

与现有技术相比，本发明包括以下优点：

本发明中当检测到触发语音的输入时，可以获取音频信息，然后将所述音频信息上传至服务器，通过所述服务器将所述音频信息转换成音频评论信息。在需要播放音频评论时，向服务器发送音频评论播放请求后，接收服务器针对所述音频评论播放请求下发的预先生成的音频评论信息，所述音频评论信息包括至少一个音频数据的标识；在接收到针对某个音频数据的标识的选择指令后，即可获取该音频数据的标识对应的音频数据，并播放所述音频数据。由于本发明中是通过语音输入从而得到音频评论信息，因此只要具备可以接收语音输入的设备即可，音频评论的生成过程更加简单，通用性更强；并且可以调用用户的语音和听感，提升用户体验，提高音频评论的播放效率。

附图说明

图1是本发明实施例一的一种音频评论信息生成方法的流程图；

图2是本发明实施例一的一种音频评论播放方法的流程图；

图3是本发明实施例二的一种音频评论信息生成方法的流程图；

图4是本发明实施例二的一种音频评论播放方法的流程图；

图5是本发明实施例三的一种音频评论信息生成装置的结构框图；

图6是本发明实施例三的一种音频评论播放装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

目前对于视频的评论通常都是基于文字信息进行评论，但是文字评论的生成方式复杂，并且用户还要花费较大的精力去浏览文字评论，从而影响用户感知，降低文字评论的浏览效率。本发明针对上述问题，提供了一种音频评论信息生成方法和装置，音频评论播放方法和装置，能够基于语音生成音频评论，从而降低评论生成的复杂度，提升用户体验。

下面，通过以下各个实施例分别对音频评论信息生成方法和装置，音频评论播放方法和装置进行详细介绍。

实施例一：

首先，介绍本发明实施例一提出的一种音频评论信息生成方法。

参照图1，示出了本发明实施例一的一种音频评论信息生成方法的流程图，该方法具体可以包括以下步骤：

步骤101，当检测到触发语音的输入时，获取音频信息，所述音频信息包括输入的音频数据。

在需要生成音频评论信息时，首先可以触发语音输入，触发之后可以获取音频信息，所述音频信息可以包括输入的音频数据。

步骤102，将所述音频信息上传至服务器；所述服务器用于将所述音频信息转换成音频评论信息。

获取到音频信息之后，即可以将所述音频信息上传到服务器中。所述服务器可以将所述音频信息转换成音频评论信息，例如在音频信息包括输入的音频数据时，服务器在接收到这些输入的音频数据后，可以为每个输入的音频数据分配一个唯一的标识，然后将这些输入的音频数据的标识作为音频评论信息，例如可以将这些输入的音频数据的标识保存在列表里，将该列表作为音频评论信息，等等。其中，为输入的音频数据分配的标识可以指该输入的音频数据对应的唯一链接或唯一ID，即能够根据音频数据的标识区分不同的音频数据。

其次，介绍基于上述图1所示的音频评论信息生成方法所生成的音频评论信息进行音频评论播放的方法。

参照图2，示出了本发明实施例一的一种音频评论播放方法的流程图，该方法具体可以包括以下步骤：

步骤201，在向服务器发送音频评论播放请求后，接收服务器针对所述音频评论播放请求下发的预先生成的音频评论信息，所述音频评论信息包括至少一个音频数据的标识。

在需要播放音频评论时，播放终端首先可以向服务器发送音频评论播放请求，服务器在接收到所述音频评论播放请求后，即可获取对应的音频评论信息，该音频评论信息即可以为通过上述图1所示的方法生成的音频评论信息，然后可以将获取的音频评论信息发送给播放终端。播放终端接收服务器针对所述音频评论播放请求下发的预先生成的音频评论信息，并可以将所述音频评论信息显示在播放界面的某个预设区域内。其中，所述音频评论信息可以包括至少一个音频数据的标识。

步骤202，接收到针对某个音频数据的标识的选择指令后，获取该音频数据的标识对应的音频数据，并播放所述音频数据。

如果想要播放某个音频数据，则可以触发针对该音频数据的标识的选择指令，例如点击想要播放的音频数据的标识即可触发针对该音频数据的标识的选择指令，在接收到该选择指令之后，可以获取该音频数据的标识对应的音频数据，获取之后播放所述音频数据。

本发明实施例中，通过语音输入从而得到音频评论信息，因此只要具备可以接收语音输入的设备即可，音频评论的生成过程更加简单，通用性更强；并且可以调用用户的语音和听感，提升用户体验，提高音频评论的播放效率。

实施例二：

首先，介绍本发明实施例二提出的一种具体的音频评论信息生成方法。

参照图3，示出了本发明实施例二的一种音频评论信息生成方法的流程图，该方法具体可以包括以下步骤：

步骤301，监控是否检测到触发语音的输入。

本发明实施例中，可以设置一个监控进程，用于实时监控当前是否触发语音输入。

步骤302，当检测到触发语音的输入时，获取音频信息。

在本发明的一种优选实施例中，该步骤302可以通过以下两种方式实现：

第一种方式：

该步骤302可以包括以下子步骤：

子步骤1，在接收到用于开启语音输入的触发指令后，开始获取音频信息。

本发明实施例中，所述用于开启语音输入的触发指令可以为在检测到指定设备发起预定义的指示开启语音输入的触控操作时生成的指令，或者，在检测到指定设备捕获到指示开启语音输入的语音消息时生成的指令，或者，在检测到指定设备发起预定义的指示开启语音输入的触控操作和检测到指定设备捕获到指示开启语音输入的语音消息时生成的指令。其中的指定设备可以为键盘、遥控器、触屏设备、带有麦克风的设备等。

例如，如果所述指定设备为可以为键盘、遥控器或触屏设备，则可以在键盘、遥控器上设置某一表示开始的特定按键(该特定按键可以为键盘、遥控器上原有的按键，也可以为单独添加的按键)，还可以在触屏设备的屏幕上设置某一表示开始的区域。当键盘或遥控器上表示开始的特定按键、或者触屏设备的屏幕上表示开始的区域被点击或按下时，该设备可以发起指示开启语音输入的触控操作，在检测到该触控操作后，可以生成用于开启语音输入的触发指令。

再例如，如果所述指定设备为带有麦克风的设备，则可以在检测到该带有麦克风的设备捕获到指示开启语音输入的语音消息时，生成用于开启语音输入的触发指令，例如在捕获到“我要评论”等语音消息时生成用于开启语音输入的触发指令。

子步骤2，在接收到用于结束语音输入的触发指令后，停止获取音频信息。

本发明实施例中，所述用于结束语音输入的触发指令可以为在检测到指定设备发起预定义的指示结束语音输入的触控操作时生成的指令，或者，在检测到指定设备捕获到指示结束语音输入的语音消息时生成的指令，或者，在检测到指定设备发起预定义的指示结束语音输入的触控操作和检测到指定设备捕获到指示结束语音输入的语音消息时生成的指令。

例如，如果所述指定设备为可以为键盘、遥控器或触屏设备，则可以在键盘、遥控器上设置某一表示结束的特定按键(该特定按键可以为键盘、遥控器上原有的按键，也可以为单独添加的按键)，还可以在触屏设备的屏幕上设置某一表示结束的区域。当键盘或遥控器上表示结束的特定按键、或者触屏设备的屏幕上表示结束的区域被点击或按下时，该设备可以发起指示结束语音输入的触控操作，在检测到该触控操作后，可以生成用于结束语音输入的触发指令。

再例如，如果所述指定设备为带有麦克风的设备，则可以在检测到该带有麦克风的设备捕获到指示结束语音输入的语音消息时，生成用于结束语音输入的触发指令，例如在捕获到“结束评论”等语音消息时生成用于结束语音输入的触发指令。

第二种方式：

该步骤302可以包括以下子步骤：

子步骤i，在接收到用于开启语音输入的触发指令后，开始获取音频信息。

该子步骤i的具体过程与上述子步骤1基本相似，具体参照上述对子步骤1的具体描述即可，本发明实施例在此不再详细论述。

子步骤ii，在到达预设的所述用于开启语音输入的触发指令对应执行时间时，停止获取音频信息。

在该第二种方式中，可以预先设置所述用于开启语音输入的触发指令对应的执行时间(例如30秒、1分钟等)，因此此种方式下可以在到达预设的所述用于开启语音输入的触发指令对应执行时间时，自动停止获取音频信息。

步骤303，将所述音频信息上传至服务器；所述服务器用于将所述音频信息转换成音频评论信息。

在上述步骤302中获取到音频信息之后，即可将所述音频信息上传至服务器，服务器在接收到音频信息后，可以将所述音频信息转换成音频评论信息。

下面，具体针对音频信息的几种不同情况，对上述步骤302和步骤303进行详细描述。

第一种情况：所述音频信息包括输入的音频数据。

该种情况下，上述步骤302可以包括以下子步骤：

子步骤A1，当检测到触发语音的输入时，接收输入的音频数据。

本发明实施例中，可以通过录音设备，例如带有麦克风的遥控器、电视、电脑、手机、平板及其它带有麦克风的智能设备等，接收输入的音频数据。该种情况为单独将输入的音频数据作为音频信息。

该种情况下，上述步骤303可以包括以下子步骤：

子步骤a1，将所述输入的音频数据上传至服务器。

服务器在接收到播放终端上传的所述输入的音频数据后，可以将所述输入的音频数据转换成音频评论信息。

本发明实施例中，服务器在接收到播放终端上传的所述输入的音频数据后，可以为每个输入的音频数据分配一个唯一的标识，然后将这些输入的音频数据的标识作为音频评论信息。例如，可以将这些输入的音频数据的标识保存在列表里从而生成音频评论列表，并将该音频评论列表作为音频评论信息，等等。其中，输入的音频数据的标识可以指为该输入的音频数据分配的唯一链接或唯一ID，音频数据的标识可以用于区分不同的音频数据，即根据某一个音频数据的标识即可唯一确定一个对应的音频数据。

第二种情况：所述音频信息包括输入的音频数据、视频数据的时间标签及标识。

该种情况下，上述步骤302可以包括以下子步骤：

子步骤B1，在播放某一视频数据的过程中触发语音输入时，接收输入的音频数据；

子步骤B2，记录开始接收输入的音频数据时，当前视频数据的时间标签以及所述视频数据的标识。

该种情况是指在播放某一视频数据的过程中生成音频评论信息，将音频评论与所播放的视频数据结合起来。

该种情况下，上述步骤303可以包括以下子步骤：

子步骤b1，将所述输入的音频数据和所述视频数据的时间标签及标识上传至服务器。

对于每个视频数据来说，其都具有一个标识，视频数据的标识可以用于区分不同的视频数据，即根据某一个视频数据的标识即可唯一确定一个对应的视频数据。例如，可以将视频数据的名称等能够唯一确定一个视频数据的信息作为视频数据的标识等等。因此，所述视频数据的时间标签指的是，输入音频数据时对应的视频数据的播放时间点；所述视频数据的标识指的是，能够唯一确定该视频数据的一个标识，例如视频数据的名称或ID号等。并且音频数据的标识与视频数据的标识不相同。

服务器在接收到播放终端上传的上述音频信息后，可以将所述输入的音频数据和所述视频数据的时间标签及标识转换成音频评论信息。

本发明实施例中，服务器在接收到播放终端上传的所述输入的音频数据和所述视频数据的时间标签及标识后，可以为每个输入的音频数据分配一个唯一的标识，将相互对应的输入的音频数据的标识和视频数据的时间标签及视频数据的标识作为音频评论信息。例如，可以将多组相互对应的输入的音频数据的标识和视频数据的时间标签及视频数据的标识保存在列表里从而生成评论列表，其中每一组相互对应的输入的音频数据的标识和视频数据的时间标签及视频数据的标识这三个元素可以保存在列表中的同一行，每个元素占用一列，每一行的各列的元素之间是相互关联的，最后将该评论列表作为音频评论信息，等等。

在本发明的一种优选实施例中，该第二种情况下所述音频信息还可以包括所述音频数据的音量信息及所述视频数据的音量信息。此时，在上述子步骤B2之后，还可以包括以下子步骤：

子步骤B3，分别记录调整后的所述音频数据的音量信息及所述视频数据的音量信息。

因此，在上述子步骤b1之后，还可以包括以下子步骤：

子步骤b2，将所述音频数据的音量信息及所述视频数据的音量信息上传至服务器。

例如，用户在获取音频数据后，暂时不立即向服务器上传，而是提供一个界面供调整后续播放音频评论时视频数据的音量和音频数据的音量，当调整完确定上传后，将用户音量信息同时上传至服务器。后续在播放音频评论时，播放终端则可以按照对应的音量信息控制播放时的音量。其中，音量信息的值可以不是绝对的音量值，而只是表示音量增益的相对值。

服务器即可以将所述输入的音频数据和所述音频数据的音量信息，以及所述视频数据的时间标签、标识及音量信息转换成音频评论信息。本发明实施例中，服务器在接收到播放终端上传的输入的音频数据和所述音频数据的音量信息，以及所述视频数据的时间标签、标识及音量信息后，可以为每个输入的音频数据分配一个唯一标识，将相互对应的所述输入的音频数据的标识和所述音频数据的音量信息，以及所述视频数据的时间标签、视频数据的标识及音量信息作为音频评论信息，例如，可以将多组相互对应的所述输入的音频数据的标识和所述音频数据的音量信息，以及所述视频数据的时间标签、视频数据的标识及视频数据的音量信息保存在列表里从而生成评论列表，其中每一组相互对应的所述输入的音频数据的标识和所述音频数据的音量信息，以及所述视频数据的时间标签、视频数据的标识及视频数据的音量信息这五个元素可以保存在列表中的同一行，每个元素占用一列，每一行的各列的元素之间是相互关联的，最后将该评论列表作为音频评论信息，等等。

第三种情况：所述音频信息包括输入的音频数据和所述音频数据对应的背景视频数据。

该种情况下，上述步骤302可以包括以下子步骤：

子步骤C1，在播放某一视频数据的过程中触发语音输入时，接收输入的音频数据；

子步骤C2，在所述视频数据中截取从开始接收输入的音频数据时开始的、与所述音频数据的时间长度相等的视频数据作为所述音频数据对应的背景视频数据。

该种情况同样是指在播放某一视频数据的过程中生成音频评论信息，将音频评论与所播放的视频数据结合起来。

该种情况下，上述步骤303可以包括以下子步骤：

子步骤c1，将所述音频数据及对应的背景视频数据上传至服务器。

服务器在接收到播放终端上传的上述音频信息后，可以将所述音频数据及对应的背景视频数据转换成音频评论信息。

本发明实施例中，服务器在接收到播放终端上传的所述输入的音频数据和对应的背景视频数据后，可以分别为每个输入的音频数据及每个对应的背景视频数据分配一个唯一标识，将相互对应的音频数据的标识及背景视频数据的标识作为音频评论信息。例如，可以将多组相互对应的音频数据的标识及背景视频数据的标识保存在列表里从而生成评论列表，其中每一组相互对应的音频数据的标识及背景视频数据的标识这两个元素可以保存在列表中的同一行，每个元素占用一列，每一行的各列的元素之间是相互关联的，最后将该评论列表作为音频评论信息，等等。

在本发明的一种优选实施例中，该第三种情况下所述音频信息还可以包括所述音频数据的音量信息及所述背景视频数据的音量信息。此时，在上述子步骤C2之后，还可以包括以下子步骤：

子步骤C3，分别记录调整后的所述音频数据的音量信息及所述背景视频数据的音量信息。

因此，在上述子步骤c1之后，还可以包括以下子步骤：

子步骤c2，将所述音频数据的音量信息及所述背景视频数据的音量信息上传至服务器。

此时，服务器即可以将所述音频数据和对应的背景视频数据，以及所述音频数据的音量信息和所述视频数据的音量信息转换成音频评论信息。本发明实施例中，服务器在接收到播放终端上传的所述音频数据和对应的背景视频数据，以及所述音频数据的音量信息和所述视频数据的音量信息后，可以分别为每个输入的音频数据和每个对应的背景视频数据分配一个唯一标识，将相互对应的音频数据的标识和背景视频数据的标识，以及音频数据的音量信息和视频数据的音量信息作为音频评论信息，例如可以将多组相互对应的音频数据的标识和背景视频数据的标识，以及音频数据的音量信息和视频数据的音量信息保存在列表里从而生成评论列表，其中每一组相互对应的音频数据的标识和背景视频数据的标识，以及音频数据的音量信息和视频数据的音量信息这四个元素可以保存在列表中的同一行，每个元素占用一列，每一行的各列的元素之间是相互关联的，最后将该评论列表作为音频评论信息。

第四种情况：所述音频信息包括输入的音频数据和输入的视频数据。

该种情况下，上述步骤302可以包括以下子步骤：

子步骤D1，当检测到触发语音的输入时，同时接收输入的音频数据和输入的视频数据。

该种情况是指可以在通过录音设备录制音频数据的同时，通过录像设备(例如摄像头等)录制与该音频数据对应的视频数据。

该种情况下，上述步骤303可以包括以下子步骤：

子步骤d1，将所述输入的音频数据和输入的视频数据上传至服务器。

服务器在接收到播放终端上传的上述音频信息后，可以将所述输入的音频数据和输入的视频数据转换成音频评论信息。

本发明实施例中，服务器在接收到播放终端上传的所述输入的音频数据和输入的视频数据后，可以分别为每个输入的音频数据和对应的每个输入的视频数据分配一个唯一标识，将相互对应的输入的音频数据的标识和输入的视频数据的标识作为音频评论信息。例如，可以将多组相互对应的输入的音频数据的标识和输入的视频数据的标识保存在列表里从而生成评论列表，其中每一组相互对应的输入的音频数据的标识和输入的视频数据的标识这两个元素可以保存在列表中的同一行，每个元素占用一列，每一行的各列的元素之间是相互关联的，最后将该评论列表作为音频评论信息。

需要说明的是，上述四种情况中的某些情况也可以同时实现，例如，第二种情况和第四种情况同时实现，第三种情况和第四种情况同时实现，等等，本发明实施例在此不再详细论述。

通过上述各步骤，可以生成音频评论信息，根据该音频评论信息即可满足用户播放音频评论的需求。

其次，介绍基于上述图3所示的音频评论信息生成方法所生成的音频评论信息进行音频评论播放的方法。

参照图4，示出了本发明实施例二的一种音频评论播放方法的流程图，该方法具体可以包括以下步骤：

步骤401，在需要播放音频评论时，向服务器发送音频评论播放请求。

本发明实施例中，可以请求服务器将用户自己上传的音频信息转换成的音频评论信息下发给该用户，也可以请求服务器将所生成的评论列表作为音频评论信息下发给该用户。在需要播放音频评论时，可以向服务器发送音频评论播放请求，以请求服务器下发音频评论信息。

例如，用户在上传音频信息时，还可以同时上传用户信息，因此如果用户想要请求自己上传的音频信息转换成的音频评论信息，则可以将自身的用户信息包括在音频评论播放请求中，服务器即可依据该用户信息下发对应的音频评论信息，用户得到该音频评论信息后，还可以将其分享给好友。再例如，如果请求评论列表形式的音频评论信息，则可以预先获取对应评论列表的标识，例如可以以该评论列表所针对的视频的名称为其标识，则可以将评论列表的标识包括在音频评论播放请求中，服务器即可依据该标识下发对应的音频评论信息。

步骤402，接收服务器针对所述音频评论播放请求下发的预先生成的音频评论信息。

服务器在接收到播放终端发送的音频评论播放请求后，即可获取针对所述音频评论播放请求的音频评论信息，并将音频评论信息下发给播放终端。该音频评论信息可以为通过上述图3所示的方法生成的音频评论信息，对于具体的生成方法参照上述针对图3的相关描述即可，本发明实施例在此不再详细论述。

步骤403，接收到针对某个音频数据的标识的选择指令后，获取该音频数据的标识对应的音频数据，并播放所述音频数据。

下面，分别对应上述针对图3的描述中的四种情况，对该步骤403进行说明。

第一种情况：

对应于上述针对图3的描述中的第一种情况，所述音频评论信息包括至少一个音频数据的标识。

该种情况下，上述步骤403可以包括以下子步骤：

子步骤E1，接收到针对某个音频数据的标识的选择指令后，获取该音频数据的标识对应的音频数据；

子步骤E2，播放所述音频数据。

播放终端在接收到服务器下发的音频评论信息后，可以将该音频评论信息显示给用户，当用户选择其中某个音频数据的标识时，可以触发针对该音频数据的标识的选择指令，播放终端在接收到该选择指令后，即可获取该音频数据的标识对应的音频数据，获取之后播放所述音频数据。

其中，所述获取该音频数据的标识对应的音频数据的步骤可以通过以下两种方式实现：

第一种方式：向服务器发送包括所述音频数据标识的下载请求；接收服务器针对所述下载请求下发的所述音频数据的标识对应的音频数据。

第二种方式：所述音频评论信息还包括各音频数据的标识对应的音频数据；从所述音频评论信息包括的音频数据中提取所述标识对应的音频数据。

第二种情况：

对应于上述针对图3的描述中的第二种情况，所述音频评论信息包括至少一个音频数据的标识、各音频数据对应的视频数据的时间标签及视频数据的标识。所述时间标签指的是，输入音频信息时对应的视频数据的播放时间点。所述视频数据的标识指的是，能够唯一确定该视频数据的一个标识，例如该视频数据的名称或ID号等。

该种情况下，上述步骤403可以包括以下子步骤：

子步骤F1，接收到针对某个音频数据的标识的选择指令后，获取该音频数据的标识对应的音频数据，并获取所述视频数据的标识对应的视频数据；

子步骤F2，跳转到所述视频数据的时间标签，同时播放所述时间标签对应的视频数据和所述音频数据。

该种情况下，在调用相应设备的麦克风获取音频数据后，还可以将音频数据附加于当前所观看视频数据对应的时间标签，因此，所述音频评论信息可以包括至少一个音频数据的标识、各音频数据对应的视频数据的时间标签及视频数据的标识。在接收到针对某个音频数据的标识的选择指令后播放该音频数据时，播放终端从服务器获取该音频数据的标识对应的音频数据，并获取所述视频数据的标识对应的视频数据，并且直接跳转到所述视频数据的时间标签，同时播放所述时间标签对应的视频数据和所述音频数据。

其中，音频数据的标识可以为对应的唯一链接或唯一ID。如果用户当前没有开启播放器，则在点击某一链接后可以进入对应的页面获取该音频数据的标识对应的音频数据，并获取所述视频数据的标识对应的视频数据，或唤出相应应用程序通过唯一ID获取该音频数据的标识对应的音频数据，并获取所述视频数据的标识对应的视频数据。该页面或应用程序中应当包含一个播放器，播放器获得音频数据和视频数据后，即可跳转到对应的时间标签同时播放音频数据和视频数据。如果用户当前已开启页面中或应用程序中的播放器，则在点击某一标识后，该页面或应用程序中的播放器直接获得音频数据和视频数据后，即可跳转到对应的时间标签同时播放音频数据和视频数据。

视频数据和音频数据同时播放的方案，可以按照不同的设备，分方案进行处理。例如，当播放设备支持HTML5(Hyper Text Markup language，超文本标记语言)标准时，可以用HTML5中的媒体播放方案，对视频使用一个视频(video)标签，对音频使用一个音频(audio)标签，使用Javascript判断两者缓冲完成后同时开始播放即可。再例如，对于支持Flash的设备，可以使用Flash中的媒体播放方案，使用Actionscript内建多个媒体对象，分别下载视频数据和音频数据，并用Actionscript判断两者缓冲完成后同时开始播放即可。播放方案包含但不限于上述两种，对于自己开发的播放应用，只要编写支持多媒体流播放即可，本发明实施例对此并不加以限制。

在本发明的一种优选实施例中，该第二种情况下所述音频信息还可以包括所述音频数据的音量信息及所述视频数据的音量信息。因此，在同时播放所述音频数据和视频数据时，还可以按照各自对应的音量信息对播放时的音量进行控制，从而可以保证两者在播放时都能够更加清晰。

在该种情况下，上述子步骤F1具体可以包括：接收到针对某个音频数据的标识的选择指令后，获取该音频数据的标识对应的音频数据和该音频数据的音量信息，并获取所述视频数据的标识对应的视频数据和该视频数据的音量信息。上述子步骤F2具体可以包括：跳转到所述视频数据的时间标签，按照所述音频数据的音量信息控制该音频数据的音量，按照所述视频数据的音量信息控制该视频数据的音量，同时播放所述时间标签对应的视频数据和所述音频数据。

第三种情况：

对应于上述针对图3的描述中的第三种情况，所述音频评论信息包括至少一个音频数据的标识和各音频数据对应的背景视频数据的标识。

该种情况下，上述步骤403可以包括以下子步骤：

子步骤G1，接收到针对某个音频数据的标识的选择指令后，获取该音频数据的标识对应的音频数据，并获取所述音频数据对应的背景视频数据的标识所对应的背景视频数据；

子步骤G2，同时播放所述背景视频数据和所述音频数据。

该种情况下，在调用相应录音设备的麦克风获取音频数据后，还可以将音频数据与当前所观看的视频数据相结合，将视频数据中与所述音频数据相对应的一段视频数据作为该音频数据的背景视频数据。因此所述音频评论信息包括至少一个音频数据的标识和各音频数据对应的背景视频数据的标识。接收到针对某个音频数据的标识的选择指令后，获取对应的音频数据和背景视频数据，并同时播放所述背景视频数据和所述音频数据。

在本发明的一种优选实施例中，该第三种情况下所述音频信息还可以包括各音频数据的音量信息和各背景视频数据的音量信息。因此，在同时播放所述音频数据和背景视频数据时，还可以按照各自对应的音量信息对播放时的音量进行控制，从而可以保证两者在播放时都能够更加清晰。

在该种情况下，上述子步骤G1具体可以包括：接收到针对某个音频数据的标识的选择指令后，获取该音频数据的标识对应的音频数据和该音频数据的音量信息，并获取所述音频数据对应的背景视频数据的标识所对应的背景视频数据和该背景视频数据的音量信息。上述子步骤G2具体可以包括：按照所述音频数据的音量信息控制该音频数据的音量，按照所述背景视频数据的音量信息控制该背景视频数据的音量，同时播放所述背景视频数据和所述音频数据。

第四种情况：

对应于上述针对图3的描述中的第四种情况，所述音频评论信息包括至少一个音频数据的标识和各音频数据对应的输入的视频数据标识。

该种情况下，上述步骤403可以包括以下子步骤：

子步骤H1，接收到针对某个音频数据的标识的选择指令后，获取该音频数据的标识对应的音频数据，并获取该音频数据对应的输入的视频数据标识所对应的输入的视频数据；

子步骤H2，播放所述音频数据，并同时在预设的内播放所述输入的视频数据。

该种情况下，在调用相应录音设备的麦克风获取音频数据时，还可以同时调用录像设备获取与该音频数据对应的输入的视频数据。因此，所述音频评论信息包括至少一个音频数据的标识和各音频数据对应的输入的视频数据标识。本发明实施例中，还可以预先在播放终端设置专门用于播放所述输入的视频数据的评论播放区域，接收到针对某个音频数据的标识的选择指令后，获取对应的音频数据和输入的视频数据，在播放所述音频数据的同时，在预设的评论播放区域内播放该音频数据对应的输入的视频数据。

在本发明的一种优选实施例中，由于上述针对图3所描述的四种情况中的某些情况也可以同时实现，例如，如果其中的第二种情况和第四种情况同时实现，则针对此种场景在播放音频评论时，上述步骤403可以具体可以包括：接收到针对某个音频数据的标识的选择指令后，获取该音频数据的标识对应的音频数据、所述视频数据的标识对应的视频数据和所述输入的视频数据标识所对应的输入的视频数据；跳转到所述视频数据的时间标签，在预设的视频播放区域内播放该时间标签对应的视频数据，同时播放该时间标签对应的音频数据，并在预设的评论播放区域内播放所述输入的视频数据。对于其他情况，按照上述方式进行相关处理即可，本发明实施例在此不再一一论述。

需要说明的是，如果音频数据是与录制时所观看的视频数据相结合的，则在播放音频数据时，还可以在播放界面中提供表示“一键播放整片”的选项，点击该选项后可以触发一键播放指令，播放终端在接收到该指令后，即可向服务器请求录制音频数据时所观看的视频数据的整片，从而播放全部的该视频数据，而不只是播放与音频数据同等时间长度的视频数据。另外，在接收到针对某个音频数据的标识的选择指令后，播放完该标识对应的音频数据后，可以继续连续播放后续音频数据的标识对应的音频数据，直至接收到停止播放指令后停止播放。

本发明实施例提供了一种新的评论形式，在用户评论时，有了更加新颖和生动的交互方式，调动了用户语音和听觉的使用，增加了社交感染力，同时为一些不方便输入文字的场景提供了更加便捷的评论输入方案。另外，考虑到如果只用音频评论，则忽视了播放终端本身显示器的优势，因此对于视频的评论，将评论内容与视频本身相关联，从而更加生动和有影响力。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

实施例三：

参照图5，示出了本发明三的一种音频评论信息生成装置的结构框图，该装置具体可以包括以下模块：

获取模块501，用于当检测到触发语音的输入时，获取音频信息，所述音频信息包括输入的音频数据；

上传模块502，用于将所述音频信息上传至服务器；所述服务器用于将所述音频信息转换成音频评论信息。

其中，所述获取模块，具体可以用于在接收到用于开启语音输入的触发指令后，开始获取音频信息；在接收到用于结束语音输入的触发指令后，停止获取音频信息。其中，所述用于开启语音输入的触发指令为在检测到指定设备发起预定义的指示开启语音输入的触控操作和/或指定设备捕获到指示开启语音输入的语音消息时生成的指令；所述用于结束语音输入的触发指令为在检测到指定设备发起预定义的指示结束语音输入的触控操作和/或指定设备捕获到指示结束语音输入的语音消息时生成的指令。

所述获取模块，具体还可以用于在接收到用于开启语音输入的触发指令后，开始获取音频信息；在到达预设的所述用于开启语音输入的触发指令对应执行时间时，停止获取音频信息。

在本发明的一种优选实施例中，所述音频信息还可以包括视频数据的时间标签及标识。该种情况下，所述获取模块可以包括：第一接收子模块，用于在播放某一视频数据的过程中检测到触发语音的输入时，接收输入的音频数据；第一记录子模块，用于记录开始接收输入的音频数据时，当前视频数据的时间标签以及所述视频数据的标识。所述上传模块可以包括：第一上传子模块，用于将所述输入的音频数据和所述视频数据的时间标签及标识上传至服务器。

在本发明的一种优选实施例中，所述音频信息还可以包括所述音频数据对应的背景视频数据。该种情况下，所述获取模块可以包括：第二接收子模块，用于在播放某一视频数据的过程中触发语音输入时，接收输入的音频数据；截取子模块，用于在所述视频数据中截取从开始接收输入的音频数据时开始的、与所述音频数据的时间长度相等的视频数据作为所述音频数据对应的背景视频数据。所述上传模块可以包括：第二上传子模块，用于将所述音频数据及对应的背景视频数据上传至服务器。

另外，该种情况下所述音频信息还可以包括所述音频数据的音量信息及所述背景视频数据的音量信息。此时，所述获取模块还可以包括：第二记录子模块，用于分别记录调整后的所述音频数据的音量信息及所述背景视频数据的音量信息。所述上传模块还可以包括：第三上传子模块，用于将所述音频数据的音量信息及所述背景视频数据的音量信息上传至服务器。

在本发明的一种优选实施例中，所述音频信息还可以包括输入的视频数据。该种情况下，所述获取模块可以包括：第三接收子模块，用于当检测到触发语音的输入时，同时接收输入的音频数据和输入的视频数据。所述上传可以模块包括：第四上传子模块，用于将所述输入的音频数据和输入的视频数据上传至服务器。

参照图6，示出了本发明实施例三的一种音频评论播放装置的结构框图，该装置具体可以包括以下模块：

接收模块601，用于在向服务器发送音频评论播放请求后，接收服务器针对所述音频评论播放请求下发的预先生成的音频评论信息，所述音频评论信息包括至少一个音频数据的标识；

播放模块602，用于接收到针对某个音频数据的标识的选择指令后，获取该音频数据的标识对应的音频数据，并播放所述音频数据。

在本发明的一种优选实施例中，所述音频评论信息还可以包括各音频数据对应的视频数据的时间标签及视频数据的标识。该种情况下，所述播放模块可以包括：第一获取子模块，用于获取该音频数据的标识对应的音频数据，并获取所述视频数据的标识对应的视频数据；第一播放子模块，用于跳转到所述视频数据的时间标签，同时播放所述时间标签对应的视频数据和所述音频数据。

在本发明的一种优选实施例中，所述音频评论信息还可以包括各音频数据对应的背景视频数据的标识。该种情况下，所述播放模块可以包括：第二获取子模块，用于获取该音频数据的标识对应的音频数据，并获取所述音频数据对应的背景视频数据的标识所对应的背景视频数据；第二播放子模块，用于同时播放所述背景视频数据和所述音频数据。

在该种情况下，所述音频评论信息还可以包括各音频数据的音量信息和各背景视频数据的音量信息。所述第二获取子模块，具体可以用于获取该音频数据的标识对应的音频数据和该音频数据的音量信息，并获取所述音频数据对应的背景视频数据的标识所对应的背景视频数据和该背景视频数据的音量信息；所述第二播放子模块，具体可以用于按照所述音频数据的音量信息控制该音频数据的音量，按照所述背景视频数据的音量信息控制该背景视频数据的音量，同时播放所述背景视频数据和所述音频数据。

在本发明的一种优选实施例中，所述音频评论信息还可以各音频数据对应的输入的视频数据标识。所述播放模块可以包括：第三获取子模块，用于获取该音频数据的标识对应的音频数据，并获取该音频数据对应的输入的视频数据标识所对应的输入的视频数据；第三播放子模块，用于播放所述音频数据，并同时在预设的评论播放区域内播放所述输入的视频数据。

本发明实施例中是通过语音输入从而得到音频评论信息，因此只要具备可以接收语音输入的设备即可，音频评论的生成过程更加简单，通用性更强；并且可以调用用户的语音和听感，提升用户体验，提高音频评论的播放效率。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明可以应用于以下几个场景：

(1)使用智能电视播放，使用带有麦克风的遥控器来控制电视和接收音频数据，那么此场景中，控制设备和音频输入设备就是遥控器，音频数据被遥控器实时传递给电视，智能电视则包含了播放设备、音频录制设备和上传下载设备。

(2)使用带有麦克风的电脑接收音频数据和播放，则电脑本身就包含了控制设备(键盘、鼠标、触摸屏)、音频输入设备、播放设备、音频录制设备和上传下载设备。

(3)使用智能手机或带有麦克风的其他智能设备接收音频数据和播放，则智能设备本身包含了控制设备(键盘、鼠标、触摸屏)、音频输入设备、播放设备、音频录制设备和上传下载设备。

(4)使用智能电视播放，使用与电视配对的、带有麦克风的智能手机或其他智能设备来控制电视和接收音频数据，那么此场景中，控制设备和音频输入设备为智能手机，播放设备为智能电视。如果音频是由手机实时传输给电视，电视将音频录制成为音频文件，则电视是音频录制设备；若手机完成音频录制后将音频文件传递给电视，则手机是音频录制设备。如果由电视获取视频文件后添加时间信息等其他信息传递给服务器，则电视是上传设备。如果由手机向电视获取视频播放对应时间标签，然后组织信息后传递给服务器则手机是上传设备。

当然，还可以包括其他应用场景，例如遥控器控制，手机录制，电视播放和上传等，本发明实施例在此不再一一例举。

需要说明的是，上述播放设备、控制设备、音频输入设备、录制设备、上传下载设备可能并不是同一个设备。它们有可能是不同的设备并分别拥有自己的智能系统，可以通过一些连接方式(包括但不限于wifi、有线网络、蓝牙、红外线、手机通讯网络)以共同的协议来传递信息。在不同设备协同工作的条件下，它们应被视为参与本发明的有机整体。

在发明实现时，可以用电视机获取音频数据、用与电视机配对的智能设备获取音频数据、以及用电视机的遥控器来获取音频数据等等均可实现。也可以将音频输入设备与音频录制设备分开，例如，用手机捕获音频数据并实时传递至电视，由电视进行录制。还可以将音频录制设备与上传设备分开，例如，用手机录制音频数据后发送给电视，由电视整理音频数据后发送至服务器。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种音频评论信息生成方法和装置，音频评论播放方法和装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频评论信息生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述音频信息还包括视频数据的时间标签及标识，所述当检测到触发语音的输入时，获取音频信息的步骤包括：

在播放某一视频数据的过程中检测到触发语音的输入时，接收输入的音频数据；

记录开始接收输入的音频数据时当前视频数据的时间标签以及所述视频数据的标识。

3.根据权利要求1所述的方法，其特征在于，所述音频信息还包括所述音频数据对应的背景视频数据，所述当检测到触发语音的输入时，获取音频信息的步骤包括：

4.根据权利要求3所述的方法，其特征在于，所述音频信息还包括所述音频数据的音量信息及所述背景视频数据的音量信息；

分别记录调整后的所述音频数据的音量信息及所述背景视频数据的音量信息。

5.根据权利要求1所述的方法，其特征在于，所述音频信息还包括输入的视频数据，所述当检测到触发语音的输入时，获取音频信息的步骤包括：

6.根据权利要求1所述的方法，其特征在于，所述当检测到触发语音的输入时，获取音频信息的步骤包括：

7.根据权利要求6所述的方法，其特征在于，

所述用于开启语音输入的触发指令为在检测到指定设备发起预定义的指示开启语音输入的触控操作和/或指定设备捕获到指示开启语音输入的语音消息时生成的指令；

8.根据权利要求1所述的方法，其特征在于，所述当检测到触发语音的输入时，获取音频信息的步骤包括：

9.一种音频评论播放方法，其特征在于，包括：

10.根据权利要求9所述的方法，其特征在于，所述音频评论信息还包括各音频数据对应的视频数据的时间标签及视频数据的标识；

11.根据权利要求9所述的方法，其特征在于，所述音频评论信息还包括各音频数据对应的背景视频数据的标识；

同时播放所述背景视频数据和所述音频数据。

12.根据权利要求11所述的方法，其特征在于，所述音频评论信息还包括各音频数据的音量信息和各背景视频数据的音量信息；

所述同时播放所述背景视频数据和音频数据的步骤包括：

13.根据权利要求9所述的方法，其特征在于，所述音频评论信息还包括各音频数据对应的输入的视频数据标识，

14.一种音频评论信息生成装置，其特征在于，包括：

15.根据权利要求14所述的装置，其特征在于，所述音频信息还包括视频数据的时间标签及标识；

所述获取模块包括：

所述上传模块包括：

16.一种音频评论播放装置，其特征在于，包括：

17.根据权利要求16所述的装置，其特征在于，所述音频评论信息还包括各音频数据对应的视频数据的时间标签及视频数据的标识；

所述播放模块包括：