CN105185397B

CN105185397B - 视频标记方法和装置

Info

Publication number: CN105185397B
Application number: CN201410268811.XA
Authority: CN
Inventors: 谢晓辉; 蔡振华; 傅静静
Original assignee: Beijing Sixiangwuxian Cultural Media Co Ltd
Current assignee: Beijing Sixiangwuxian Cultural Media Co Ltd
Priority date: 2014-06-17
Filing date: 2014-06-17
Publication date: 2018-09-14
Anticipated expiration: 2034-06-17
Also published as: HK1217248A1; CN105185397A

Abstract

本发明涉及视频标记方法和装置，其方法包括：对标记进行编码，其中，所述标记与对视频进行描述的描述信息和位置相对应；将编码后的标记转换成音频文件；以及根据所述位置，将所述音频文件插入所述视频中。本发明提供的基于声音编码来标记视频的技术，可以有效地对视频进行标记，经标记的视频只有一个文件，不会有描述信息文件丢失造成视频无标记、无法整理、检索和/或获取的问题，并且标记后的视频连续性强，重新剪辑、编辑或删除部分视频内容都不会影响对视频文件的标记。

Description

视频标记方法和装置

技术领域

本发明总地涉及视频处理，具体地说，涉及一种对视频进行标记的方法和装置。

背景技术

近年来，可观看的视频节目数量显著增长，能对数量日益庞大的视频节目进行整理、归纳和检索成为非常重要的工作，为此，需要对视频进行描述。视频标记是一种将描述信息与视频内容关联起来的技术。有了这样的技术，可以对视频节目中携带的人物、物品、事件、声音、文字等进行描述，从而便于视频的分类、整理、检索、分发和获取。

目前，常用的视频标记方式是，将描述视频内容的信息存储成文本文件的格式，并给标记相应视频信息的时间戳。这种视频标记方式分别提供了视频文件和描述信息的文本文件，在播放视频文件时，根据时间戳来读取文本文件中的描述信息。例如，在给电影加字幕或者旁白时，现有的做法是，将字幕或旁白制作成文本文件，并根据字幕或旁白在电影播放过程中出现的时间点加上适当的时间戳。这样，在播放电影的视频内容时，播放器通过时间戳指示的时间读取相应的字幕或旁白，在图像上呈现出合适的字幕或旁白。

按照这种标记方式，视频文件和描述信息是分离的两个文件，极易导致二者之间的不匹配，甚至描述信息丢失，造成对视频描述的无效。再者，如果对视频文件进行了剪辑或重新编辑，那么必须对相应的描述信息进行修改；否则，由于时间上的不对准，必然会造成视频文件与描述信息之间的不匹配。这也是我们常常看到电影与其对白对不上的原因之一。

此外，由于视频文件和用于标记它的文件是两个分离的文件，这也给视频整理、检索和获取造成了不少的麻烦和不小的困难。

当前的视频标记方式存在着操作复杂、连续性不强、标记效果不明显的问题。因此，如何提高视频标记性能成为一个亟待解决的技术问题。

发明内容

有鉴于此，本发明提供一种基于声音编码来标记视频的技术，可以有效地对视频进行标记，经标记的视频只有一个文件，不会有描述信息文件丢失造成视频无标记、无法整理、检索和/或获取的问题，并且标记后的视频连续性强，重新剪辑、编辑或删除部分视频内容都不会影响对视频文件的标记。

根据本发明的一方面，一种视频标记方法包括：

对标记进行编码，其中，所述标记与对视频进行描述的描述信息和位置相对应；

将编码后的标记转换成音频文件；以及

根据所述位置，将所述音频文件插入所述视频中。

其中，将所述标记表示成2字节无符号整数、或8字节无符号整数、或16字节无符号整数。

一方面，所述将编码后的标记转换成音频文件的步骤包括：

将编码后的标记转换成比特流；

利用扩频序列，将所述比特流进行直接序列扩频基带调制；

对所获得的直接序列扩频基带调制信号进行低通滤波和正交调制，以获得中心频率是期望频率的音频信号；

对所述音频信号进行采样和量化，以获得数字信号；以及

将所述数字信号写成音频文件。

其中，可以将数字信号写成WAV格式且时长与原视频时长相同的音频文件。

此外，将所述音频文件插入到不影响视听体验的频段，例如，是17-20kHz之间的频段。

另一方面，本发明还提供一种视频标记装置，其包括：

数据库，用于存储对视频进行描述的描述信息及其位置，并指示标记与所述描述信息及其位置之间的对应关系；

编码模块，用于对所述标记进行编码；

转换模块，用于将经编码的标记转换成音频文件；和

混音模块，用于根据所述位置，将所述音频文件与所述视频文件进行混音。

其中，所述编码模块将所述标记表示成2字节无符号整数、或8字节无符号整数、或16字节无符号整数。

其中，所述转换模块包括：

比特流形成模块，用于将编码后的标记转换成比特流；

扩频模块，用于利用扩频序列，将所述比特流进行直接序列扩频基带调制；

调制模块，用于对所获得的直接序列扩频基带调制信号进行低通滤波和正交调制，以获得中心频率是期望频率的音频信号；

采样模块，用于对所述音频信号进行采样和量化，以获得数字信号；以及

格式化模块，用于将所述数字信号写成音频文件。

其中，所述混音模块将所述音频文件混音至不影响视听体验的频段，例如，17-20kHz之间的频段。

采用以上方案，可以有效地对视频文件进行标记，标记后的视频仍然保持一个文件的状态，使得视频文件的完整性得以体现，视频文件的剪辑、截取、部分删除等都不影响对视频文件的标记，不会有标记丢失造成的各种问题；可标记的视频内容也得到大幅提升，不仅可以标记字幕、人物、物品、事件，还可以标记画外音、视频中不可见的物品或说明，因此，对视频进行整理、归纳和/或检索都更加容易和方便。

附图说明

图1是根据本发明的方案对视频进行标记的方法流程图。

图2是根据本发明的方案对视频进行标记的装置的示意性框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明的具体实施方式进行详细说明。附图中所示和根据附图描述的本发明的实施方式仅仅是示例性的，并且本发明并不限于这些实施方式。

需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

本发明的主要目的在于对视频文件进行标记，这里所述的视频可以是任何带有图像和/或声音的文件，包括但不限于一段声音、音乐、一段图像、电影、电视节目、微电影、访谈、录像等等。这里所述的“标记”可以是标记的动作，指用某种信息对视频进行标注、描述、解释和/或说明，包括但不限于给视频加电视字幕、电影字幕、旁白等，这些信息在本发明中称为描述信息；也可以是指标记信息，其可以指示描述信息及其位置或时间，所述的位置信息或者时间信息例如是视频图像的第几帧、开始时间、时间段，位置信息和时间信息在本发明中具有相同的作用和含义。

下面，以在一段时长10分钟的视频的第3分20秒处标记X歌手开始唱歌为例，详细描述根据本发明的视频标记技术。

在这个实施例中，标记与“位置/时间信息——第3分20秒”和“描述信息——X歌手开始唱歌”存在着一一对应的关系。

图1示出了对视频进行标记的过程。参见图1，该过程包括了如下步骤：

S101、对标记进行编码；

一般而言，与视频相关的描述信息及其位置/时间信息存储在服务器的数据库中，按照数据库存储数据的格式或方式，描述信息及其位置/时间信息作为一条记录，会被分配一索引号，通过该索引号，就可以在数据库中查找到相应的记录。

由于标记也对应着描述信息及其位置/时间信息，所以具有索引号的一条记录就对应一个标记。换言之，也可以将标记作为相应描述信息及其位置/时间信息的索引，一并存储在数据库中。

对于本实施例而言，描述信息的具体内容是“X歌手开始唱歌”，其出现的位置/时间是第3′20″，在数据库中可将它们存储成如下形式：

索引号	描述信息	位置/时间
			1	X歌手开始唱歌	3′20″

上述这条记录对应着一个标记。作为示例，将该索引号编码成2字节无符号整数。这种编码方式可表示65536个标记。应该理解，本发明不限于这种编码方式，将标记编码成8字节无符号整数或16字节无符号整数等任何其它码的方式也都落入本发明的范围。

S102、将编码后的标记转换成音频文件；

作为示例，可以采用如下方式将编码后的标记转换成音频文件：

(1)将编码后的标记，即2字节无符号整数(或8字节无符号整数或16字节无符号整数)，按照从最低有效位(LSB)到最高有效位(MSB)的顺序转换成比特流；

(2)采用7阶m序列作为扩频序列，对比特流进行直接序列扩频基带调制，码片速率为1K码片/秒；

(3)对所获得的直接序列扩频基带调制信号进行带宽(-6dB)为1.5kHz的有限脉冲响应(FIR)低通滤波，并利用I/Q正交调制将其调制到中心频率是期望频率(例如，19kHz)的音频信号；

(4)对所获得的音频信号进行采样和量化以获得数字信号，采样率为48kHz的采样率，量化率为16bit；

(5)将如此获得的数字信号写成音频文件。例如，WAV格式的音频文件。

这样，就实现了将标记转换成音频文件，并且该音频文件的频率，19kHz，处于不影响用户的视听体验的高频段(17-20kHz)。

S103、根据位置将所获得的音频文件插入到原视频文件中。

按照位置/时间信息的指示，将在步骤S102中所获得的音频文件与原视频文件进行混音操作。这种混音操作可以通过任意一款视频编辑软件来实现，例如，可商购的AdobePremiere.Pro CS4视频编辑软件。

需要注意的是，在进行混音操作时，可能还需要对音频文件进行幅度调整，以便后续解码时能够加以分辨。

此外，在步骤S102中，在将数字信号写成音频文件时，还可以将数字信号写成与视频文件相同时长的音频文件，即制作成时长为10分钟的音频文件，其中，仅在第3′20″处存在描述信息。这样做的好处是，在与原视频混音时，可以直接合成，而不用考虑位置信息。其中，所获得的音频文件是插入到高频段，例如，17-20kHz的频段。此外，还可以将音频文件插入到不影响用户的视听体验的频段。

根据上述方案，基于声音编码的方式来标记视频，使得标记后的视频仍然保持一个文件的状态，完整性得以体现，视频文件的剪辑、截取、部分删除等都不影响对视频文件的标记，不会有标记丢失造成的各种问题；可标记的视频内容也得到大幅提升，不仅可以标记字幕、人物、物品、事件，还可以标记画外音、视频中不可见的物品或说明，因此，对视频进行整理、归纳和/或检索都更加容易和方便。进一步地，按上述方式标记的描述信息，可以容易地通过声音解码解译出来。

图2示出了对视频进行标记的装置的示意图。如图2所示，视频标记装置1包括：数据库10、编码模块11、转换模块12和混音模块13。

数据库10用于存储对视频进行描述的描述信息及其位置，按照数据库10的存储格式，描述信息及其位置/时间信息作为一条记录，会被分配一索引号，通过该索引号，可以在数据库中查找到相应的记录。将要对视频所做的标记对应于描述信息及其位置/时间信息。这样，索引号与标记也是一一对应的。从某种意义上而言，标记就可以看作是相应描述信息及其位置/时间信息在数据库10中的索引。

编码模块11用于对标记进行编码。例如，对数据库10中与描述信息及其位置/时间信息相对应的索引号进行编码，将其编码成2字节无符号整数，或8字节无符号整数或16字节无符号整数。

转换模块12用于将编码后的标记转换成音频文件，具体地，在本实施例中，转换模块12首先将2字节无符号整数或8字节无符号整数或16字节无符号整数按照从最低有效位(LSB)到最高有效位(MSB)的顺序转换成比特流；然后，采用7阶m序列作为扩频序列，对比特流进行直接序列扩频基带调制，码片速率为1K码片/秒；接着，对所获得的直接序列扩频基带调制信号进行带宽(-6dB)为1.5kHz的有限脉冲响应(FIR)低通滤波，并利用I/Q正交调制将其调制到中心频率是期望频率(例如，19kHz)的音频信号；接下来，对所获得的音频信号进行采样和量化以获得数字信号，采样率为48kHz的采样率，量化率为16bit；最后，将数字信号写成音频文件，例如，写成WAV格式的音频文件。

混音模块13用于将所获得的音频文件与原视频文件进行混音。混音模块13还可以将音频文件按一定幅度的比例进行调整后与原视频文件进行混音。混音模块13可以使用任意一款视频编辑软件来实现，例如，可商购的Adobe Premiere.Pro CS4视频编辑软件。

转换模块12在将标记转换成音频文件时，可以将音频文件制作成与原视频文件时长相同的文件，这样，在混音时，只要对准原视频文件和音频文件的开始时间，就能实现在适当位置给视频加标记；转换模块12也可以仅仅将标记转换成相关描述信息指示的具体内容所处时长的文件，例如，在本实施例中，转换成的音频文件可以是4分钟长的文件，这样，在混音时，混音模块13需要在第3′20″处插入该音频文件，即，需要监控插入时间。

按照上述实施例并入了声音标记的视频文件，可以正常播放。而且，所标记的声音频段是人的耳朵对其不敏感的频段，不会对整个视频的播放造成影响。此外，经过编码的信息，可以容易地通过声音解码而解析出来。

以上所述的具体实施方式是用于帮助理解本发明的目的、技术方案和有益效果，应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频标记方法，其特征在于，该方法包括如下步骤：

将编码后的标记转换成音频文件；以及

根据所述位置，将所述音频文件插入所述视频中；

其中，所述将编码后的标记转换成音频文件的步骤包括：

将编码后的标记转换成比特流；

利用扩频序列，将所述比特流进行直接序列扩频基带调制；

对所述音频信号进行采样和量化，以获得数字信号；以及

将所述数字信号写成音频文件。

2.如权利要求1所述的方法，其特征在于，对标记进行编码包括：

将所述标记表示成2字节无符号整数、或8字节无符号整数、或16字节无符号整数。

3.如权利要求1所述的方法，其特征在于，将所述音频文件插入到不影响视听体验的频段。

4.如权利要求3所述的方法，其特征在于，所述频段是17-20kHz之间的频段。

5.一种视频标记装置，其特征在于，所述装置包括：

编码模块，用于对所述标记进行编码；

转换模块，用于将经编码的标记转换成音频文件；和

混音模块，用于根据所述位置，将所述音频文件与所述视频文件进行混音；

所述转换模块包括：

比特流形成模块，用于将编码后的标记转换成比特流；

格式化模块，用于将所述数字信号写成音频文件。

6.如权利要求5所述的装置，其特征在于，所述编码模块将所述标记表示成2字节无符号整数、或8字节无符号整数、或16字节无符号整数。

7.如权利要求5所述的装置，其特征在于，所述混音模块将所述音频文件混音至不影响视听体验的频段。

8.如权利要求7所述的装置，其特征在于，所述频段是17-20kHz之间的频段。