CN102170528A

CN102170528A - 一种新闻节目的分段方法

Info

Publication number: CN102170528A
Application number: CN 201110073049
Authority: CN
Inventors: 伍昕; 吴鹏; 刘赵杰
Original assignee: TVMining Beijing Media Technology Co Ltd
Current assignee: TVMining Beijing Media Technology Co Ltd
Priority date: 2011-03-25
Filing date: 2011-03-25
Publication date: 2011-08-31
Anticipated expiration: 2031-03-25
Also published as: CN102170528B

Abstract

本发明公开了一种新闻节目的分段方法，采集音视频数据，从新闻节目中挑选出主持人、采访人和节目音乐的片段，根据片段数据训练全局背景模型，将片段的语音/音乐分别在全局背景模型上进行自适应，计算映射矢量作为空间矢量，得到自适应模型，对新闻节目根据端点检测进行分段，调节阈值，根据自适应模型，逐段进行语音/音乐识别，对每一段语音/音乐的发生者的身份进行标注，同时保留置信度打分信息，对置信度打分低于预设值的新闻节目片段，提取视频关键帧，对标注结果进行验证，合并相邻并且语音/音乐的发生者相同的新闻节目片段。采用了本发明的技术方案，极大增加了新闻节目分段的自动化，保证了新闻节目分段的准确性。

Description

一种新闻节目的分段方法

技术领域

本发明涉及多媒体技术领域，尤其涉及一种新闻节目的分段方法。

背景技术

伴随信息时代的发展、多媒体资料的增多，新闻广播节目日益呈现海量化的规模。为了便捷的获取感兴趣的内容，需要对这些资料进行信息提取。其中，对新闻节目的分段是很重要的任务，它有利于迅速定位各个主题，找到本次节目的要点信息。有效地新闻分段，获得相对完整、独立的新闻主题，还有利于语音识别技术的有效展开，取得较好的效果。通常会采用人工观看、标注的方法。需要编辑把节目完整地观看一遍，在主题切换时进行标记即可。工具比较简单，可以单独记下时间分割点，也可以直接用音视频切分工具切开。一般来说，准确率较高。但很明显该方法费时费力。如果编辑不用心或者为了加速，可能会错过一些分割点，带来误差。

基于模式识别的自动方法，主要分为音频分段法和视频分段法两大类。通过把视频和音频结合起来也许可以克服两者的缺点。如果能判别哪些段是音频分的好些，而哪些段是视频分的好些，就可以把两者的优点结合起来。

因为音频分段一般是基于能量和静音长短的，而新闻中由于播音员的声音较快，有可能会出现两个新闻主题衔接很快，几乎没有停顿的现象。这时候，利用视频的信息就可以帮助正确地把段给分出来。同时，视频分段的方法比较单一、性能不是很稳定，如果以音频作为基础进行二次分段，则可以增强视频分段的性能。

然而如何把握音频和视频分段的长处和弱点，正确指出哪些段是音频分的好些，而哪些段又是视频分的好些，是该技术方案的要点和难点。一般来说，需要融入大量人工判断，或者利用开发集调整参数的方法，都很费时费力，又会随着节目的变化而变化，性能得不到保证。

发明内容

本发明的目的在于提出一种新闻节目的分段方法，极大增加了新闻节目分段的自动化，保证了新闻节目分段的准确性。

为达此目的，本发明采用以下技术方案：

一种新闻节目的分段方法，包括以下步骤：

A、采集音视频数据；

B、从新闻节目中挑选出主持人的片段、采访人的片段和节目音乐的片段；

C、根据所述主持人的片段、采访人的片段和节目音乐的片段的数据训练全局背景模型；

D、将所述主持人的片段、采访人的片段和节目音乐的片段的语音/音乐分别在所述全局背景模型上进行自适应，计算映射矢量作为空间矢量，得到自适应模型；

E、对新闻节目根据端点检测进行分段，调节阈值，使得每个片段不短于预设时长；

F、根据所述自适应模型，逐段进行语音/音乐识别，对每一段语音/音乐的发生者的身份进行标注，同时保留置信度打分信息；

G、对置信度打分低于预设值的新闻节目片段，提取视频关键帧，对标注结果进行验证；

H、合并相邻并且语音/音乐的发生者相同的新闻节目片段。

步骤A还包括以下步骤：

将音频数据格式转成WINDOWS WAV格式，采样率为16千赫。

步骤A中，采用电脑和电视卡的方式采集电视节目中的音频数据；采用收音机和声卡的方式采集广播信号中的音频数据。

步骤B中，主持人的片段、采访人的片段和节目音乐的片段的长度不少于10秒，每类不少于20句。

步骤C中，主持人的片段、采访人的片段和节目音乐的片段的数据不少于100个小时。

步骤E中，阈值是新闻节目每个片段的语音能量，新闻节目分段后每个片段不少于10秒。

步骤G进一步包括以下步骤：

对置信度打分低于预设值的新闻节目片段，提取视频关键帧；

根据视频关键帧进行切分，重新进行语音/音乐的发生者的身份的验证，并保留置信度打分信息，直到置信度打分高于预设值为止。

步骤H还包括以下步骤：

对待合并的片段提取视频关键帧，如果判断待合并的片段包含了不少于1个新闻主题，则不进行合并。

采用了本发明的技术方案，大大增加了新闻主题分段的自动化，从各个步骤保证了说话人验证的性能，采用最好的说话人识别技术，而且能克服环境和信道的差异，从而保证了新闻分段的准确性。同时利用视频信息，可以对于音频分段不确定的地方进行二次验证，保证了分段的充分性，以及相似新闻合并的合理性，对于性能的改善很明显，由于只对部分地方进行视频关键帧的提取，计算量的增加不会太大。

附图说明

图1是本发明具体实施方式中新闻节目分段的流程图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

图1是本发明具体实施方式中新闻节目分段的流程图。如图1所示，该新闻节目分段的流程包括以下步骤：

一种新闻节目的分段方法，包括以下步骤：

步骤101、采集音视频数据。采用电脑和电视卡的方式采集电视节目中的音视频数据；采用收音机和声卡的方式采集广播信号中的音频数据，将音频数据格式转成WINDOWS WAV格式（pcm无压缩），采样率为16千赫。

由于电视卡以及声卡录制的格式是确定的，只需要针对特定格式进行编程转码即可。

步骤102、从新闻节目中挑选出主持人的片段、采访人的片段和节目音乐的片段。

根据以往新闻节目挑选出各个主持人的片段、其它采访人的片段、节目音乐的片段，每一段的长度需要十秒以上，每种类型的片段数最好超过几十句。

步骤103、根据主持人的片段、采访人的片段和节目音乐的片段的数据训练全局背景模型。

首选选用以往新闻节目的所有数据，训练全局背景模型。如果节目内容较多，可以选择近期的，训练数据一般要达到一百个小时以上为宜。

步骤104、将主持人的片段、采访人的片段和节目音乐的片段的语音/音乐分别在全局背景模型上进行自适应，计算映射矢量作为空间矢量，得到自适应模型。

步骤105、对新闻节目根据端点检测进行分段，调节阈值，阈值一般是指新闻节目每个片段的语音能量，从而使得每段的长度在十秒以上。

步骤106、根据自适应模型，逐段进行语音/音乐识别，对每一段语音/音乐的发生者的身份进行标注，包括：主持人1，主持人2，其它采访人，音乐等，同时保留置信度打分信息。

步骤107、对置信度打分低于预设值的新闻节目片段，提取视频关键帧，对标注结果进行验证。

例如，当某片段的置信度打分较低时，很可能是混入了多个不同的语音/音乐的发生者，根据视频关键帧进行切分，重新进行语音/音乐的发生者的身份的标注，并保留置信度打分信息，直到语音/音乐的发生者分割的结果较单一，置信度打分高于预设值为止。

步骤108、合并相邻并且语音/音乐的发生者相同的新闻节目片段。

根据新闻节目（例如新闻联播）中，每段新闻通常是由单个主持人介绍的，有时会附加其它采访人的录音，因此，当遇到主持人身份的转换（采访人除外）、以及音乐处，是新闻主题切换的可能地方。

同时，对待合并的片段提取视频关键帧，如果视频关键帧变化较小，说明假设成立，否则，说明待合并的片段可能包含了多个新闻主题，则暂时不进行合并。

据统计，人工分段的时间消耗一般略大于新闻的时长，例如新闻联播大概需要35分钟，而采用了本具体实施方式，大概只需要不到5分钟，速度提高了七倍。性能上，错误率小于3%，接近人工标注的准确率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种新闻节目的分段方法，其特征在于，包括以下步骤：

A、采集音视频数据；

H、合并相邻并且语音/音乐的发生者相同的新闻节目片段。

2.根据权利要求1所述的一种新闻节目的分段方法，其特征在于，步骤A还包括以下步骤：

将音频数据格式转成WINDOWS WAV格式，采样率为16千赫。

3.根据权利要求1所述的一种新闻节目的分段方法，其特征在于，步骤A中，采用电脑和电视卡的方式采集电视节目中的音频数据；采用收音机和声卡的方式采集广播信号中的音频数据。

4.根据权利要求1所述的一种新闻节目的分段方法，其特征在于，步骤B中，主持人的片段、采访人的片段和节目音乐的片段的长度不少于10秒，每类不少于20句。

5.根据权利要求1所述的一种新闻节目的分段方法，其特征在于，步骤C中，主持人的片段、采访人的片段和节目音乐的片段的数据不少于100个小时。

6.根据权利要求1所述的一种新闻节目的分段方法，其特征在于，步骤E中，阈值是新闻节目每个片段的语音能量，新闻节目分段后每个片段不少于10秒。

7.根据权利要求1所述的一种新闻节目的分段方法，其特征在于，步骤G进一步包括以下步骤：

8.根据权利要求1所述的一种新闻节目的分段方法，其特征在于，步骤H还包括以下步骤：