CN103974143B

CN103974143B - 一种生成媒体数据的方法和设备

Info

Publication number: CN103974143B
Application number: CN201410213456.6A
Authority: CN
Inventors: 王斌忠; 王菁
Original assignee: SUNENG DIGITAL CODE NETWORK TECH Co Ltd BEIJING
Current assignee: SUNENG DIGITAL CODE NETWORK TECH Co Ltd BEIJING
Priority date: 2014-05-20
Filing date: 2014-05-20
Publication date: 2017-11-07
Anticipated expiration: 2034-05-20
Also published as: CN103974143A

Abstract

本发明提供了生成媒体数据的设备、方法以及电子设备，以克服现有的多媒体数据传输技术由于生成的多媒体数据文件较大而导致传输不稳定的问题。上述设备包括：音频录制单元，从第一预定时间开始一次或多次录制，对于每次录制，在满足第一预定条件时对媒体源处的音频数据开始录制并生成音频文件，在满足第二预定条件时停止当前次录制并存储音频文件；图像捕获单元，从第一预定时间开始，以预定时间间隔捕获媒体源的视频图像并存储为图像文件；和生成单元，生成索引文件，以连同所有音频文件和图像文件一起作为用于服务器端的媒体数据，索引文件包括各个音频文件以及各个图像文件的索引信息和时间戳。本发明的上述技术可应用于多媒体数据传输领域。

Description

一种生成媒体数据的方法和设备

技术领域

本发明涉及多媒体数据传输领域，尤其涉及一种生成媒体数据的设备、方法以及电子设备。

背景技术

随着科技进步，人们的生活越来越离不开计算机以及网络技术。目前，在计算机及网络技术领域，存在许多种多媒体数据传输技术。应用开发商通常可以根据应用场景的不同而选择不同的多媒体数据传输技术。

例如，现有的HLS(HTTP Live Streaming)是一种基于HTTP的流媒体传输协议，可通过网络数据传输来实现流媒体的直播和点播。根据HLS协议的媒体数据为一堆的碎片文件，包括m3u(8)的索引文件、TS媒体分片文件和key加密串文件等，其中每个分片文件都是1－2M的小文件。相对于诸如RTMP协议、RTSP协议、MMS协议等的常见流媒体直播协议来说，HLS直播最大的不同在于，客户端所获取到的并不是一个完整的数据流。HLS协议在服务器端将直播数据流存储为连续的、很短时长的媒体文件(MPEG-TS格式)，而客户端则不断的下载并播放这些小文件，因为服务器端总是会将最新的直播数据生成新的小文件，这样客户端只要不停的按顺序播放从服务器获取到的文件，就能够实现直播。由此可见，HLS基本上可看作是以点播的技术方式来实现直播的一种技术。

然而，HLS所生成的HLS分段文件通常较大，当将其用于诸如网络传输(比如直播或录播)等后续应用时，容易出现传输中断等问题(比如用户所感受到的卡顿等现象)，特别是在网络带宽不稳定的情况下，难以实现稳定的传输效果。

由此可知，诸如以上举例所描述的HLS等现有的多媒体数据传输技术，由于其生成的多媒体数据文件较大，容易导致传输中断等问题，难以实现稳定的传输效果，从而不利于诸如网络传输等后续应用。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于此，本发明提供了生成媒体数据的设备、方法以及电子设备，以至少解决现有的多媒体数据传输技术由于生成的多媒体数据文件较大而导致传输不稳定的问题。

根据本发明的一个方面，提供了一种生成媒体数据的设备，该设备包括：音频录制单元，其被配置用于从第一预定时间开始一次或者多次录制，其中对于每次录制，在满足第一预定条件时，对媒体源处的音频数据开始录制并生成音频文件，以及在满足第二预定条件时，停止当前次录制并存储当前次录制所生成的音频文件；图像捕获单元，其被配置用于从第一预定时间开始，以预定时间间隔捕获媒体源的视频图像，并将每次捕获的视频图像存储为图像文件；以及生成单元，其被配置用于生成索引文件，以连同存储的所有音频文件和图像文件一起作为用于服务器端的媒体数据，其中索引文件包括各个音频文件以及各个图像文件的索引信息和时间戳。

根据本发明的另一个方面，还提供了一种生成媒体数据的方法，该方法包括包括：从第一预定时间开始一次或者多次录制，其中对于每次录制，在满足第一预定条件时，对媒体源处的音频数据开始录制并生成音频文件，以及在满足第二预定条件时，停止当前次录制并存储当前次录制所生成的音频文件；从第一预定时间开始，以预定时间间隔捕获媒体源的视频图像，并将每次捕获的视频图像存储为图像文件；以及生成索引文件，以连同存储的所有音频文件和图像文件一起作为用于服务器端的媒体数据，其中索引文件包括各个音频文件以及各个图像文件的索引信息和时间戳。

根据本发明的另一个方面，还提供了一种电子设备，该电子设备包括如上所述的生成媒体数据的设备。

上述根据本发明实施例的生成媒体数据的设备、方法以及电子设备，其将媒体源处的视频数据分别录制(或捕获)为音频文件和图像文件，并生成的相应的索引文件，以便在后续应用中能够将以上文件通过互联网传输至客户端，从而能够通过时间轴的方式将音频和图像同步地呈现。上述设备、方法以及电子设备能够获得至少以下益处之一：减小了编码数据量；在网络传输应用中能够降低对网络带宽的敏感度，能够在网络带宽较不稳定的情况下更稳定地传输；通过分段和/或预加重和/或去除静音帧等预处理过程，能够有效地减少音频信号(比如噪声)的干扰与音频处理的运算量，有利于提取有效的音频文件，能够调高设备的运算性能和识别效率；针对现有的移动网络终端更具有优势；以及在诸如更关心音频而非视频效果的应用场景中，通过设置较长的预定时间间隔采集图像，能够缩小生成的媒体数据文件的大小，使得传输更加快速，播放更加流畅。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1是示意性地示出根据本发明的实施例的生成媒体数据的设备的一种示例结构的框图；

图2是示意性地示出根据本发明的实施例的生成媒体数据的方法的一种示例性处理的流程图；以及

图3是示出可用来实现根据本发明的实施例的生成媒体数据的设备和方法的一种可能的信息处理设备的硬件配置的结构简图。

本领域技术人员应当理解，附图中的元件仅仅是为了简单和清楚起见而示出的，而且不一定是按比例绘制的。例如，附图中某些元件的尺寸可能相对于其他元件放大了，以便有助于提高对本发明实施例的理解。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

如上文所述，诸如HLS等现有的多媒体数据传输技术，由于其生成的多媒体数据文件较大，难以实现稳定的传输(特别是在网络带宽不稳定的情况下)，从而不利于诸如网络传输等后续应用。鉴于此，本发明的实施例提出了一种用于生成媒体数据的新方案(如下文将要描述的生成媒体数据的设备或方法)，该方案能够减少编码数据量，降低对网络带宽的依赖性，从而能够解决以上问题。下面将详细描述以上方案。

本发明的实施例提供了一种生成媒体数据的设备，该设备包括：音频录制单元，其被配置用于从第一预定时间开始一次或者多次录制，其中对于每次录制，在满足第一预定条件时，对媒体源处的音频数据开始录制并生成音频文件，以及在满足第二预定条件时，停止当前次录制并存储当前次录制所生成的音频文件；图像捕获单元，其被配置用于从第一预定时间开始，以预定时间间隔捕获媒体源处的视频图像，并将每次捕获的视频图像存储为图像文件；以及生成单元，其被配置用于生成索引文件，以连同存储的所有音频文件和图像文件一起作为用于服务器端的媒体数据，其中索引文件包括各个音频文件以及各个图像文件的索引信息和时间戳。

下面结合图1来详细描述根据本发明的实施例的生成媒体数据的设备的一个示例，其中，图1所示的生成媒体数据的设备100包括音频录制单元110、图像捕获单元120以及生成单元130。

为了采集媒体源处的视频数据以用于诸如网络传输等用途，可以利用设备100中的音频录制单元110和图像捕获单元120来分别采集其中的音频数据和图像数据。

如图1所示，从第一预定时间起，触发音频录制单元110开始执行一次或者多次录制。其中，第一预定时间例如可以由用户预先设置。

具体来说，对于每一次录制，需要在满足第一预定条件的情况下，音频录制单元110才开始对媒体源处的音频数据进行录制，并生成相应的音频文件，其中生成的音频文件类型例如可以是MP3等类型。换句话说，当上述第一预定条件未被满足时，音频录制单元110不会开始录制。

在根据本发明的实施例的生成媒体数据的设备100的一个实现方式中，第一预定条件例如可以包括如下条件：媒体源处的音频数据与训练样本的音频特征向量相符。

这里，每个训练样本为多个相同类型音频事件的原始音频信号的集合，并且不同训练样本之间没有交叠或者重合。

在一个例子中，假设存在多个训练样本，以其中的三个训练样本A、B和C为例来进行说明。其中，训练样本A例如包括关于某特定体育赛事直播开始时起的时间段Ta内的几段音频信号Sa1、Sa2、……、SaN_a，训练样本B例如包括关于该特定体育赛事直播开始后的时间段Tb内的几段音频信号Sb1、Sb2、……、SbN_b，而训练样本C例如包括关于该特定体育赛事直播开始后的时间段Tc内的几段音频信号Sc1、Sc2、……、ScN_c。其中，时间段Ta、Tb和Tc分别两两不交叠。这样，在该例子中，音频信号Sa1、Sa2、……、SaN_a与音频信号Sb1、Sb2、……、SbN_b之间没有任何重复的信号，也即，没有交叠或重合；同样地，音频信号Sa1、Sa2、……、SaN_a与音频信号Sc1、Sc2、……、ScN_c之间没有交叠或重合，且音频信号Sb1、Sb2、……、SbN_b与音频信号Sc1、Sc2、……、ScN_c之间也没有交叠或重合。

为了确定上述实现方式中的第一预定条件是否被满足，需要预先获得训练样本的音频特征向量。

在一个例子中，可以通过音频录制单元110来预先获得训练样本的音频特征向量。音频录制单元110可以首先对训练样本中的每个原始音频信号进行分段，例如可以通过对其添加窗函数形成音频帧、并设置预定的帧移来完成音频分段。在另一个例子中，在进行分段之前，音频录制单元110还可以选择性地对训练样本中的每个原始音频信号进行预加重处理，以减少尖锐噪声以及提升高频信号，并在完成分段以后，去除所获得的所有音频帧中的静音帧。其中，窗函数和帧移的设置对于本领域的技术人员来说是可以根据公知常识和/或结合公开资料的方式来获知的，故这里不再详述描述。

于是，对于训练样本中的每个原始音频信号，通过上述分段处理，可以得到该原始音频信号所对应的多个音频帧。然后，音频录制单元110可以对获得的每个音频帧进行音频特征提取，以最终获得训练样本的音频特征向量。例如，对于每个原始信号对应的多个音频帧中的每一个来说，音频录制单元110可以提取该音频帧的多种音频特征，比如音调、响度、音色等等，并从所提取的多种音频特征中筛选出其中的若干种，以使得该若干种音频特征的组合能够最有效地表征训练样本的音频特征属性，从而通过将该若干种音频特征进行组合来形成训练样本的音频特征向量。(其中，音频录制单元110所执行的上述分段等预处理以及音频特征提取等处理例如可以参考以下资料：http://www.doc88.com/p-717479269774.html以及http://www.google.com.tw/patents/CN101067930B？cl＝zh&hl＝zh-CN。)

通过以上分段和/或预加重和/或去除静音帧的预处理过程，能够有效地减少音频信号(比如噪声)的干扰与音频处理的运算量，有利于提取有效的音频文件，能够调高设备的运算性能和识别效率。

需要说明的是，在其他例子中，也可以通过具有类似如上功能处理的单元或组件等来获得训练样本的音频特征向量，而不限于通过音频录制单元110来获得。

此外，在执行对第一预定条件的判定过程中，当媒体源发出声音时，例如可以通过音频录制单元110对媒体源处的音频数据进行采样，来获得媒体源处的音频数据的音频特征向量(例如可以采用与以上描述的获得训练样本的音频特征向量的处理相类似的处理来获得媒体源处的音频数据的音频特征向量，这里不再赘述)，以基于媒体源处的音频数据的音频特征向量来确定是否满足第一预定条件。然后，在获得媒体源处的音频数据的音频特征向量之后，音频录制单元110例如可以将其与训练样本的音频特征向量进行相似度比较，当二者之间的相似度高于或等于预定阈值时，判定二者相符，也即判定此时满足第一预定条件，进而可以开始进行录制；而当二者之间的相似度低于上述预定阈值时，则判定二者不符，因此判定此时不满足第一预定条件，从而不开始进行录制。其中，上述预定阈值例如可以通过试验的方式获得，或者也可以根据经验值来确定。

另外，需要说明的是，虽然以上举例描述了第一预定条件为“媒体源处的音频数据与训练样本的音频特征向量相符”的情况，但本发明并不限于此。也就是说，在其他实现方式中，第一预定条件也可以根据实际需要而采用其他预设的条件，用于触发每次的录制开始，这里不再一一赘述。

这样，对于每一次录制来说，当满足第一预定条件时，音频录制单元110便开始对媒体源处的音频数据进行录制，同时生成相应的音频文件。然后，在录制过程中，当满足第二预定条件时，音频录制单元110停止当前次录制并存储当前次录制所生成的音频文件。例如，音频录制单元110可以使用当前次录制所生成的音频文件的录制开始时间来对其命名并进行保存。例如，对于首次录制所生成的音频文件可以将其名称存储为“00:00:00:000”。

在根据本发明的实施例的生成媒体数据的设备100的一个实现方式中，第二预定条件例如可以包括如下条件：媒体源处的音频数据的沉默时长大于或等于第二预定时间。其中，第二预定时间例如可以根据经验值来设定，或者也可以通过试验的方法来确定。在一个例子中，可以将第二预定时间设置为1秒，这样，在开始执行某次录制后，如果当前沉默时长大于或等于1秒的话，则停止本次录制，并生成相应的音频文件以保存。然后，在再次满足第一预定条件时开始下一次录制。

需要说明的是，虽然以上举例描述了第二预定条件为“媒体源处的音频数据的沉默时长大于或等于第二预定时间”的情况，但本发明并不限于此。也就是说，在其他实现方式中，第二预定条件也可以根据实际需要而采用其他预设的条件，用于结束每次的录制，这里不再一一赘述。

此外，在根据本发明的实施例的生成媒体数据的设备100的一个实现方式中，在某次录制中，若在本次录制开始后所过去的第三预定时间(例如30秒)内一直没有满足第二预定条件，则音频录制单元110可以停止本次录制并存储本次录制所生成的音频文件，然后在完成本次录制后立即进行下一次录制。其中，第三预定时间例如可以根据经验值来设定，或者也可以通过试验的方法来确定，并不限于以上举例所说的30秒。利用这种方式，可以确保每次录制获得的音频文件的大小在预定范围之内，并且方便经由网络传输；另外，通过将音频文件的时长设置在预定范围内，有助于索引文件及时进行更新，并且在该媒体文件用于直播时，保证直播的实时性。

这样，通过音频录制单元110的处理可以完成对媒体源处的音频数据的一次或多次录制，进而可以得到一个或多个对应的音频文件。

此外，可选地，如图1所示，在从第一预定时间开始，图像捕获单元120以预定时间间隔(例如0.2秒或0.5秒等)捕获媒体源的视频图像，并将每次捕获的视频图像存储为图像文件。例如，图像捕获单元120可以使用图像文件的捕获时间来对其命名并进行保存。例如，对于首次捕获的对图像文件可以将其名称存储为“00:00:00:000”。这样，通过图像捕获单元120的处理，能够完成对媒体源处的视频图像的多次捕获，进而可以得到多个对应的图像文件。

其中，预定时间间隔例如可以根据经验值来设定，或者也可以通过试验的方法来确定，并不限于以上举例所说的0.2秒或0.5秒。

然后，生成单元130生成索引文件，并将生成的索引文件连同所存储的所有音频文件和图像文件一起来作为用于服务器端的媒体数据，以用于后续诸如网络传输等用途。这里，索引文件包括各个音频文件以及各个图像文件的索引信息和时间戳。

在根据本发明的实施例的生成媒体数据的设备100的一个实现方式中，生成单元130所生成的索引文件例如可以包括音频索引文件和图像索引文件。

其中，音频索引文件是一个目录文件，它提供了一个指向音频文件的索引，例如可以包括各个音频文件的文件名称、音频大小、录制时间和音频时长，来作为对应的音频文件的索引信息，此外还可以包括各个音频文件的录制开始时间和/或录制结束时间，来作为对应的音频文件的时间戳。

类似地，图像索引文件也是一个目录文件，它提供了一个指向图像文件的索引，例如可以包括各个图像文件的文件名称以及图像大小，来作为各个图像文件的索引信息，此外还可以包括各个图像文件的捕获时间，来作为各个图像文件的时间戳。

根据本发明的一个实施例，音频索引文件和/或图像索引文件可以具有预定格式，例如XML格式，从而方便对这些索引文件进行解析。

此外，在根据本发明的实施例的生成媒体数据的设备100的一个实现方式中，生成单元130可以定期地对索引文件进行更新，例如，可以采用增量更新模式对索引文件进行更新。这样，通过定期的更新，客户端也能够从服务器实时地(或定期地)获取最新的索引文件。

当生成单元130生成的媒体数据是用于录播时，可以存储其对应的索引文件，以便客户端随时能够获取该索引文件用于播放媒体数据。

通过以上描述可知，上述根据本发明的实施例的生成媒体数据的设备，其将媒体源处的视频数据分别录制(或捕获)为音频文件和图像文件，并生成的相应的索引文件，以便在后续应用中能够将以上文件通过互联网传输至客户端，从而能够通过时间轴的方式将音频和图像同步地呈现。

相比于现有的诸如HLS等多媒体数据传输技术所生成的媒体数据文件，该设备通过音频录制和图像捕获所得到的文件(包括音频文件和图像文件)较小，其处理过程中减小了编码数据量，从而在网络传输应用中(比如用于直播或录播)能够降低对网络带宽的敏感度，也就是说，在网络带宽较不稳定的情况下，能够比上述现有的多媒体数据传输技术具有更稳定的传输效果，当将该设备生成的媒体数据用于直播或录播时，客户端的播放也会更加流畅。

针对现有的移动网络终端来说，由于利用该设备生成的媒体数据进行直播或录播时的播放效果更为稳定、流畅，因此该设备相比于上述现有的多媒体数据传输技术更具有优势。

此外，在诸如在线教育等应用场景中，用户更关心的往往是授课教师的音频数据，而对于视频效果则考虑较少。因此，在诸如更关心音频而非视频效果的应用场景中，可以将以上所述的预定时间间隔设置得相对较长(比如1秒或2秒等)，从而可以更大程度地缩小生成的媒体数据文件的大小，使得传输更加快速，播放更加流畅等。

应当注意的是，在上面的实施例中，以多媒体数据包括音频数据和图像数据为例进行了描述，但是根据本发明的另一个实施例，多媒体数据可以仅仅包括音频数据，即图像捕获单元120不是必须的，并且索引文件可以仅仅包括音频索引文件。

此外，本发明的实施例还提供了一种生成媒体数据的方法，该方法包括：从第一预定时间开始一次或者多次录制，其中对于每次录制，在满足第一预定条件时，对媒体源处的音频数据开始录制并生成音频文件，以及在满足第二预定条件时，停止当前次录制并存储当前次录制所生成的音频文件；从第一预定时间开始，以预定时间间隔捕获媒体源的视频图像，并将每次捕获的视频图像存储为图像文件；以及生成索引文件，以连同存储的所有音频文件和图像文件一起作为用于服务器端的媒体数据，其中索引文件包括各个音频文件以及各个图像文件的索引信息和时间戳。

下面结合图2来描述上述生成媒体数据的方法的一种示例性处理。

如图2所示，根据本发明的实施例的生成媒体数据的方法的示例性处理流程200开始于步骤S210，然后，执行步骤S220。

在步骤S220中，从第一预定时间开始一次或者多次录制，其中对于每次录制，在满足第一预定条件时，对媒体源处的音频数据开始录制并生成音频文件，以及在满足第二预定条件时，停止当前次录制并存储当前次录制所生成的音频文件。其中，步骤S220中所执行的处理例如可以与上文中结合图1所描述的音频录制单元110的处理相同，并能够达到类似的技术效果，在此不再赘述。然后，执行步骤S230。

其中，音频文件可以以其录制开始时间命名。

在根据本发明的实施例的生成媒体数据的方法的处理流程200的一个实现方式中，第一预定条件例如可以包括：媒体源处的音频数据与训练样本的音频特征向量相符，其中每个训练样本为多个相同类型音频事件的原始音频信号的集合，并且不同训练样本之间没有交叠或者重合。

在步骤S220中，训练样本的音频特征向量例如可以通过如下处理来获得：对训练样本中的每个原始音频信号进行分段，获得每个原始音频信号对应的多个音频帧；以及提取获得的每个音频帧的多种音频特征，并通过对多种音频特征组合的筛选来形成训练样本的音频特征向量。

此外，在步骤S220中，在进行分段前，例如可以对训练样本中的每个原始音频信号进行预加重处理，以减少尖锐噪声以及提升高频信号。另外，在完成分段后，还可以去除所获得的所有音频帧中的静音帧。

在一个例子中，步骤S220还可以包括：当媒体源发出声音时，通过对媒体源处的音频数据进行采样来获得媒体源处的音频数据的音频特征向量，以基于媒体源处的音频数据的音频特征向量来确定是否满足第一预定条件。

此外，在根据本发明的实施例的生成媒体数据的方法的处理流程200的一个实现方式中，第二预定条件例如可以包括：媒体源处的音频数据的沉默时长大于或等于第二预定时间。

此外，在根据本发明的实施例的生成媒体数据的方法的处理流程200的一个实现方式中，若当前次录制开始后，在过去了第三预定时间时仍未满足第二预定条件，则可以停止当前次录制并存储当前次录制所生成的音频文件，以及在完成当前次录制后执行下一次录制。利用这种方式，可以确保每次录制获得的音频文件的大小在预定范围之内，并且方便经由网络传输；另外，通过将音频文件的时长设置在预定范围内，有助于索引文件及时进行更新，并且在该媒体文件用于直播时，保证直播的实时性。

可选地，在步骤S230中，从第一预定时间开始，以预定时间间隔捕获媒体源的视频图像，并将每次捕获的视频图像存储为图像文件。然后，执行步骤S240。其中，步骤S230中所执行的处理例如可以与上文中结合图1所描述的图像捕获单元120的处理相同，并能够达到类似的技术效果，在此不再赘述。

其中，图像文件可以以其捕获时间命名。

在步骤S240中，生成索引文件，以连同存储的所有音频文件和图像文件一起作为用于服务器端的媒体数据，其中索引文件包括各个音频文件以及各个图像文件的索引信息和时间戳。其中，步骤S240中所执行的处理例如可以与上文中结合图1所描述的生成单元130的处理相同，并能够达到类似的技术效果，在此不再赘述。然后，在步骤S250中结束处理流程200。

其中，索引文件例如可以包括音频索引文件和图像索引文件。在一个例子中，音频索引文件例如可以包括各个音频文件的文件名称、音频大小、录制时间和音频时长作为各个音频文件的索引信息，以及包括各个音频文件的录制开始时间和/或录制结束时间以作为各个音频文件的时间戳；而图像索引文件例如可以包括各个图像文件的文件名称以及图像大小以作为各个图像文件的索引信息，此外还可以包括各个图像文件的捕获时间来作为各个图像文件的时间戳。

此外，在根据本发明的实施例的生成媒体数据的方法的处理流程200的一个实现方式中，还可以在步骤S240中定期地更新索引文件。例如，可以采用增量更新模式对索引文件进行更新

通过以上描述可知，上述根据本发明的实施例的生成媒体数据的方法，其将媒体源处的视频数据分别录制(或捕获)为音频文件和图像文件，并生成的相应的索引文件，以便在后续应用中能够将以上文件通过互联网传输至客户端，从而能够通过时间轴的方式将音频和图像同步地呈现。

相比于现有的诸如HLS等多媒体数据传输技术所生成的媒体数据文件，该方法通过音频录制和图像捕获所得到的文件(包括音频文件和图像文件)较小，其处理过程中减小了编码数据量，从而在网络传输应用中(比如用于直播或录播)能够降低对网络带宽的敏感度，也就是说，在网络带宽较不稳定的情况下，能够比上述现有的多媒体数据传输技术具有更稳定的传输效果，当将该方法生成的媒体数据用于直播或录播时，客户端的播放也会更加流畅。

针对现有的移动网络终端来说，由于利用该方法生成的媒体数据进行直播或录播时的播放效果更为稳定、流畅，因此该方法相比于上述现有的多媒体数据传输技术更具有优势。

此外，本发明的实施例还提供了一种电子设备，该电子设备包括如上所述的生成媒体数据的设备。在根据本发明的实施例的上述电子设备的具体实现方式中，上述电子设备可以是以下设备中的任意一种设备：计算机；手机；平板电脑；个人数字助理以及电纸书等等。其中，该电子设备具有上述生成媒体数据的设备的各种功能和技术效果，这里不再赘述。

上述根据本发明的实施例的生成媒体数据的设备中的各个组成单元、子单元、模块等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下，可从存储介质或网络向具有专用硬件结构的机器(例如图3所示的通用机器300)安装构成该软件或固件的程序，该机器在安装有各种程序时，能够执行上述各组成单元、子单元的各种功能。

应当注意的是，在上面的实施例中，以多媒体数据包括音频数据和图像数据为例进行了描述，但是根据本发明的另一个实施例，多媒体数据可以仅仅包括音频数据，即步骤S230不是必须的，并且索引文件可以仅仅包括音频索引文件。

图3是示出了可用来实现根据本发明的实施例的生成媒体数据的设备和方法的一种可能的信息处理设备的硬件配置的结构简图。

在图3中，中央处理单元(CPU)301根据只读存储器(ROM)302中存储的程序或从存储部分308加载到随机存取存储器(RAM)303的程序执行各种处理。在RAM303中，还根据需要存储当CPU301执行各种处理等等时所需的数据。CPU301、ROM302和RAM303经由总线304彼此连接。输入/输出接口305也连接到总线304。

下述部件也连接到输入/输出接口305：输入部分306(包括键盘、鼠标等等)、输出部分307(包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分308(包括硬盘等)、通信部分309(包括网络接口卡例如LAN卡、调制解调器等)。通信部分309经由网络例如因特网执行通信处理。根据需要，驱动器310也可连接到输入/输出接口305。可拆卸介质311例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器310上，使得从中读出的计算机程序可根据需要被安装到存储部分308中。

在通过软件实现上述系列处理的情况下，可以从网络例如因特网或从存储介质例如可拆卸介质311安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图3所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质311。可拆卸介质311的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM302、存储部分308中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

此外，本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行，也可以按照其他的时间顺序、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

A6.根据A1所述的生成媒体数据的设备，其中，所述第二预定条件包括：所述媒体源处的音频数据的沉默时长大于或等于第二预定时间。A7.根据A1所述的生成媒体数据的设备，所述音频录制单元还被配置用于：若当前次录制开始后，在过去了第三预定时间时仍未满足所述第二预定条件，则停止当前次录制并存储当前次录制所生成的音频文件，以及在完成当前次录制后执行下一次录制。A8.根据A1所述的生成媒体数据的设备，其中，所述音频录制单元被配置用于使用所述音频文件的录制开始时间对其命名。A9.根据A1所述的生成媒体数据的设备，其中，所述图像捕获单元被配置用于使用所述图像文件的捕获时间对其命名。A10.根据A1所述的生成媒体数据的设备，其中，所述生成单元还被配置用于定期地对所述索引文件进行更新。A11.根据A10所述的生成媒体数据的设备，其中，所述生成单元被配置用于采用增量更新模式对所述索引文件进行更新。A12.根据A1所述的生成媒体数据的设备，其中，所述索引文件包括音频索引文件和图像索引文件。A13.根据A12所述的生成媒体数据的设备，其中，所述音频索引文件包括各个音频文件的文件名称、音频大小、录制时间和音频时长作为各个音频文件的索引信息，以及包括各个音频文件的录制开始时间和/或录制结束时间以作为各个音频文件的时间戳，以及所述图像索引文件包括各个图像文件的文件名称以及图像大小以作为各个图像文件的索引信息，以及包括各个图像文件的捕获时间以作为各个图像文件的时间戳。

B18.根据B17所述的生成媒体数据的方法，还包括：在进行分段前，对所述训练样本中的每个原始音频信号进行预加重处理，以减少尖锐噪声以及提升高频信号；以及在完成分段后，去除所获得的所有音频帧中的静音帧。B19.根据B14所述的生成媒体数据的方法，其中，所述第二预定条件包括：所述媒体源处的音频数据的沉默时长大于或等于第二预定时间。B20.根据B14所述的生成媒体数据的方法，还包括：若当前次录制开始后，在过去了第三预定时间时仍未满足所述第二预定条件，则停止当前次录制并存储当前次录制所生成的音频文件，以及在完成当前次录制后执行下一次录制。B21.根据B14所述的生成媒体数据的方法，其中，所述音频文件以其录制开始时间命名。B22.根据B14所述的生成媒体数据的方法，其中，所述图像文件以其捕获时间命名。B23.根据B14所述的生成媒体数据的方法，还包括定期地更新所述索引文件。B24.根据B23所述的生成媒体数据的方法，其中，所述索引文件采用增量更新模式进行更新。B25.根据B14所述的生成媒体数据的方法，其中，所述索引文件包括音频索引文件和图像索引文件。B26.根据B25所述的生成媒体数据的方法，其中，所述音频索引文件包括各个音频文件的文件名称、音频大小、录制时间和音频时长作为各个音频文件的索引信息，以及包括各个音频文件的录制开始时间和/或录制结束时间以作为各个音频文件的时间戳，以及所述图像索引文件包括各个图像文件的文件名称以及图像大小以作为各个图像文件的索引信息，以及包括各个图像文件的捕获时间以作为各个图像文件的时间戳。C28.根据C27所述的电子设备，其中，所述电子设备包括以下设备中的任意一种：计算机；手机；平板电脑；个人数字助理以及电纸书。

最后，还需要说明的是，在本文中，诸如左和右、第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种生成媒体数据的设备，包括：

音频录制单元，其被配置用于从第一预定时间开始一次或者多次录制，其中对于每次录制，在满足第一预定条件时，对媒体源处的音频数据开始录制并生成音频文件，以及在满足第二预定条件时，停止当前次录制并存储当前次录制所生成的音频文件；

图像捕获单元，其被配置用于从第一预定时间开始，以预定时间间隔捕获所述媒体源的视频图像，并将每次捕获的视频图像存储为图像文件；以及

生成单元，其被配置用于生成索引文件，以连同存储的所有音频文件和图像文件一起作为用于服务器端的媒体数据，其中所述索引文件包括各个音频文件以及各个图像文件的索引信息和时间戳，

其中，所述第一预定条件包括：所述媒体源处的音频数据与训练样本的音频特征向量相符，其中每个训练样本为多个相同类型音频事件的原始音频信号的集合，并且不同训练样本之间没有交叠或者重合，

所述音频录制单元还被配置用于当媒体源发出声音时，通过对所述媒体源处的音频数据进行采样来获得所述媒体源处的音频数据的音频特征向量，以基于所述媒体源处的音频数据的音频特征向量来确定是否满足所述第一预定条件。

2.根据权利要求1所述的生成媒体数据的设备，所述音频录制单元被配置用于：

对所述训练样本中的每个原始音频信号进行分段，获得每个原始音频信号对应的多个音频帧；以及

提取获得的每个音频帧的多种音频特征，并通过对所述多种音频特征组合的筛选来形成所述训练样本的音频特征向量。

3.根据权利要求2所述的生成媒体数据的设备，所述音频录制单元被配置用于：

在进行分段前，对所述训练样本中的每个原始音频信号进行预加重处理，以减少尖锐噪声以及提升高频信号；以及

在完成分段后，去除所获得的所有音频帧中的静音帧。

4.根据权利要求1所述的生成媒体数据的设备，其中，所述第二预定条件包括：

所述媒体源处的音频数据的沉默时长大于或等于第二预定时间。

5.根据权利要求1所述的生成媒体数据的设备，其中，所述音频录制单元还被配置用于：

若当前次录制开始后，在过去了第三预定时间时仍未满足所述第二预定条件，则停止当前次录制并存储当前次录制所生成的音频文件，以及

在完成当前次录制后执行下一次录制。

6.根据权利要求1所述的生成媒体数据的设备，其中，所述音频录制单元被配置用于使用所述音频文件的录制开始时间对其命名。

7.根据权利要求1所述的生成媒体数据的设备，其中，所述图像捕获单元被配置用于使用所述图像文件的捕获时间对其命名。

8.根据权利要求1所述的生成媒体数据的设备，其中，所述生成单元还被配置用于定期地对所述索引文件进行更新。

9.根据权利要求8所述的生成媒体数据的设备，其中，所述生成单元被配置用于采用增量更新模式对所述索引文件进行更新。

10.根据权利要求1所述的生成媒体数据的设备，其中，所述索引文件包括音频索引文件和图像索引文件。

11.根据权利要求10所述的生成媒体数据的设备，其中，所述音频索引文件包括：

各个音频文件的文件名称、音频大小、录制时间和音频时长作为各个音频文件的索引信息，以及

包括各个音频文件的录制开始时间和/或录制结束时间以作为各个音频文件的时间戳，以及

所述图像索引文件包括各个图像文件的文件名称以及图像大小以作为各个图像文件的索引信息，以及

包括各个图像文件的捕获时间以作为各个图像文件的时间戳。

12.一种生成媒体数据的方法，包括：

从第一预定时间开始一次或者多次录制，其中对于每次录制，在满足第一预定条件时，对媒体源处的音频数据开始录制并生成音频文件，以及在满足第二预定条件时，停止当前次录制并存储当前次录制所生成的音频文件；

从第一预定时间开始，以预定时间间隔捕获所述媒体源的视频图像，并将每次捕获的视频图像存储为图像文件；以及

生成索引文件，以连同存储的所有音频文件和图像文件一起作为用于服务器端的媒体数据，其中所述索引文件包括各个音频文件以及各个图像文件的索引信息和时间戳，

方法还包括：

当媒体源发出声音时，通过对所述媒体源处的音频数据进行采样来获得所述媒体源处的音频数据的音频特征向量，以基于所述媒体源处的音频数据的音频特征向量来确定是否满足所述第一预定条件。

13.根据权利要求12所述的生成媒体数据的方法，还包括通过以下步骤来获取所述训练样本的音频特征向量：

14.根据权利要求13所述的生成媒体数据的方法，还包括：

在完成分段后，去除所获得的所有音频帧中的静音帧。

15.根据权利要求12所述的生成媒体数据的方法，其中，所述第二预定条件包括：

16.根据权利要求12所述的生成媒体数据的方法，还包括：

在完成当前次录制后执行下一次录制。

17.根据权利要求12所述的生成媒体数据的方法，其中，所述音频文件以其录制开始时间命名。

18.根据权利要求12所述的生成媒体数据的方法，其中，所述图像文件以其捕获时间命名。

19.根据权利要求12所述的生成媒体数据的方法，还包括定期地更新所述索引文件。

20.根据权利要求19所述的生成媒体数据的方法，其中，所述索引文件采用增量更新模式进行更新。

21.根据权利要求12所述的生成媒体数据的方法，其中，所述索引文件包括音频索引文件和图像索引文件。

22.根据权利要求21所述的生成媒体数据的方法，其中，所述音频索引文件包括：

23.一种电子设备，包括如权利要求1-11中任一项所述的生成媒体数据的设备。

24.根据权利要求23所述的电子设备，其中，所述电子设备包括以下设备中的任意一种：计算机；手机；平板电脑；个人数字助理以及电纸书。