CN102170528A - 一种新闻节目的分段方法 - Google Patents

一种新闻节目的分段方法 Download PDF

Info

Publication number
CN102170528A
CN102170528A CN 201110073049 CN201110073049A CN102170528A CN 102170528 A CN102170528 A CN 102170528A CN 201110073049 CN201110073049 CN 201110073049 CN 201110073049 A CN201110073049 A CN 201110073049A CN 102170528 A CN102170528 A CN 102170528A
Authority
CN
China
Prior art keywords
fragment
news program
music
program
news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201110073049
Other languages
English (en)
Other versions
CN102170528B (zh
Inventor
伍昕
吴鹏
刘赵杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TVMining Beijing Media Technology Co Ltd
Original Assignee
TVMining Beijing Media Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TVMining Beijing Media Technology Co Ltd filed Critical TVMining Beijing Media Technology Co Ltd
Priority to CN 201110073049 priority Critical patent/CN102170528B/zh
Publication of CN102170528A publication Critical patent/CN102170528A/zh
Application granted granted Critical
Publication of CN102170528B publication Critical patent/CN102170528B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种新闻节目的分段方法,采集音视频数据,从新闻节目中挑选出主持人、采访人和节目音乐的片段,根据片段数据训练全局背景模型,将片段的语音/音乐分别在全局背景模型上进行自适应,计算映射矢量作为空间矢量,得到自适应模型,对新闻节目根据端点检测进行分段,调节阈值根据自适应模型,逐段进行语音/音乐识别,对每一段语音/音乐的发生者的身份进行标注,同时保留置信度打分信息,对置信度打分低于预设值的新闻节目片段,提取视频关键帧,对标注结果进行验证,合并相邻并且语音/音乐的发生者相同的新闻节目片段。采用了本发明的技术方案,极大增加了新闻节目分段的自动化,保证了新闻节目分段的准确性。

Description

一种新闻节目的分段方法
技术领域
本发明涉及多媒体技术领域,尤其涉及一种新闻节目的分段方法。
背景技术
伴随信息时代的发展、多媒体资料的增多,新闻广播节目日益呈现海量化的规模。为了便捷的获取感兴趣的内容,需要对这些资料进行信息提取。其中,对新闻节目的分段是很重要的任务,它有利于迅速定位各个主题,找到本次节目的要点信息。有效地新闻分段,获得相对完整、独立的新闻主题,还有利于语音识别技术的有效展开,取得较好的效果。通常会采用人工观看、标注的方法。需要编辑把节目完整地观看一遍,在主题切换时进行标记即可。工具比较简单,可以单独记下时间分割点,也可以直接用音视频切分工具切开。一般来说,准确率较高。但很明显该方法费时费力。如果编辑不用心或者为了加速,可能会错过一些分割点,带来误差。
基于模式识别的自动方法,主要分为音频分段法和视频分段法两大类。通过把视频和音频结合起来也许可以克服两者的缺点。如果能判别哪些段是音频分的好些,而哪些段是视频分的好些,就可以把两者的优点结合起来。
因为音频分段一般是基于能量和静音长短的,而新闻中由于播音员的声音较快,有可能会出现两个新闻主题衔接很快,几乎没有停顿的现象。这时候,利用视频的信息就可以帮助正确地把段给分出来。同时,视频分段的方法比较单一、性能不是很稳定,如果以音频作为基础进行二次分段,则可以增强视频分段的性能。
然而如何把握音频和视频分段的长处和弱点,正确指出哪些段是音频分的好些,而哪些段又是视频分的好些,是该技术方案的要点和难点。一般来说,需要融入大量人工判断,或者利用开发集调整参数的方法,都很费时费力,又会随着节目的变化而变化,性能得不到保证。
发明内容
本发明的目的在于提出一种新闻节目的分段方法,极大增加了新闻节目分段的自动化,保证了新闻节目分段的准确性。
为达此目的,本发明采用以下技术方案:
一种新闻节目的分段方法,包括以下步骤:
A、采集音视频数据;
B、从新闻节目中挑选出主持人的片段、采访人的片段和节目音乐的片段;
C、根据所述主持人的片段、采访人的片段和节目音乐的片段的数据训练全局背景模型;
D、将所述主持人的片段、采访人的片段和节目音乐的片段的语音/音乐分别在所述全局背景模型上进行自适应,计算映射矢量作为空间矢量,得到自适应模型;
E、对新闻节目根据端点检测进行分段,调节阈值,使得每个片段不短于预设时长;
F、根据所述自适应模型,逐段进行语音/音乐识别,对每一段语音/音乐的发生者的身份进行标注,同时保留置信度打分信息;
G、对置信度打分低于预设值的新闻节目片段,提取视频关键帧,对标注结果进行验证;
H、合并相邻并且语音/音乐的发生者相同的新闻节目片段。
步骤A还包括以下步骤:
将音频数据格式转成WINDOWS WAV格式,采样率为16千赫。
步骤A中,采用电脑和电视卡的方式采集电视节目中的音频数据;采用收音机和声卡的方式采集广播信号中的音频数据。
步骤B中,主持人的片段、采访人的片段和节目音乐的片段的长度不少于10秒,每类不少于20句。
步骤C中,主持人的片段、采访人的片段和节目音乐的片段的数据不少于100个小时。
步骤E中,阈值是新闻节目每个片段的语音能量,新闻节目分段后每个片段不少于10秒。
步骤G进一步包括以下步骤:
对置信度打分低于预设值的新闻节目片段,提取视频关键帧;
根据视频关键帧进行切分,重新进行语音/音乐的发生者的身份的验证,并保留置信度打分信息,直到置信度打分高于预设值为止。
步骤H还包括以下步骤:
对待合并的片段提取视频关键帧,如果判断待合并的片段包含了不少于1个新闻主题,则不进行合并。
采用了本发明的技术方案,大大增加了新闻主题分段的自动化,从各个步骤保证了说话人验证的性能,采用最好的说话人识别技术,而且能克服环境和信道的差异,从而保证了新闻分段的准确性。同时利用视频信息,可以对于音频分段不确定的地方进行二次验证,保证了分段的充分性,以及相似新闻合并的合理性,对于性能的改善很明显,由于只对部分地方进行视频关键帧的提取,计算量的增加不会太大。
附图说明
图1是本发明具体实施方式中新闻节目分段的流程图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
图1是本发明具体实施方式中新闻节目分段的流程图。如图1所示,该新闻节目分段的流程包括以下步骤:
一种新闻节目的分段方法,包括以下步骤:
步骤101、采集音视频数据。采用电脑和电视卡的方式采集电视节目中的音视频数据;采用收音机和声卡的方式采集广播信号中的音频数据,将音频数据格式转成WINDOWS WAV格式(pcm无压缩),采样率为16千赫。
由于电视卡以及声卡录制的格式是确定的,只需要针对特定格式进行编程转码即可。
步骤102、从新闻节目中挑选出主持人的片段、采访人的片段和节目音乐的片段。
根据以往新闻节目挑选出各个主持人的片段、其它采访人的片段、节目音乐的片段,每一段的长度需要十秒以上,每种类型的片段数最好超过几十句。
步骤103、根据主持人的片段、采访人的片段和节目音乐的片段的数据训练全局背景模型。
首选选用以往新闻节目的所有数据,训练全局背景模型。如果节目内容较多,可以选择近期的,训练数据一般要达到一百个小时以上为宜。
步骤104、将主持人的片段、采访人的片段和节目音乐的片段的语音/音乐分别在全局背景模型上进行自适应,计算映射矢量作为空间矢量,得到自适应模型。
步骤105、对新闻节目根据端点检测进行分段,调节阈值,阈值一般是指新闻节目每个片段的语音能量,从而使得每段的长度在十秒以上。
步骤106、根据自适应模型,逐段进行语音/音乐识别,对每一段语音/音乐的发生者的身份进行标注,包括:主持人1,主持人2,其它采访人,音乐等,同时保留置信度打分信息。
步骤107、对置信度打分低于预设值的新闻节目片段,提取视频关键帧,对标注结果进行验证。
例如,当某片段的置信度打分较低时,很可能是混入了多个不同的语音/音乐的发生者,根据视频关键帧进行切分,重新进行语音/音乐的发生者的身份的标注,并保留置信度打分信息,直到语音/音乐的发生者分割的结果较单一,置信度打分高于预设值为止。
步骤108、合并相邻并且语音/音乐的发生者相同的新闻节目片段。
根据新闻节目(例如新闻联播)中,每段新闻通常是由单个主持人介绍的,有时会附加其它采访人的录音,因此,当遇到主持人身份的转换(采访人除外)、以及音乐处,是新闻主题切换的可能地方。
同时,对待合并的片段提取视频关键帧,如果视频关键帧变化较小,说明假设成立,否则,说明待合并的片段可能包含了多个新闻主题,则暂时不进行合并。
据统计,人工分段的时间消耗一般略大于新闻的时长,例如新闻联播大概需要35分钟,而采用了本具体实施方式,大概只需要不到5分钟,速度提高了七倍。性能上,错误率小于3%,接近人工标注的准确率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种新闻节目的分段方法,其特征在于,包括以下步骤:
A、采集音视频数据;
B、从新闻节目中挑选出主持人的片段、采访人的片段和节目音乐的片段;
C、根据所述主持人的片段、采访人的片段和节目音乐的片段的数据训练全局背景模型;
D、将所述主持人的片段、采访人的片段和节目音乐的片段的语音/音乐分别在所述全局背景模型上进行自适应,计算映射矢量作为空间矢量,得到自适应模型;
E、对新闻节目根据端点检测进行分段,调节阈值,使得每个片段不短于预设时长;
F、根据所述自适应模型,逐段进行语音/音乐识别,对每一段语音/音乐的发生者的身份进行标注,同时保留置信度打分信息;
G、对置信度打分低于预设值的新闻节目片段,提取视频关键帧,对标注结果进行验证;
H、合并相邻并且语音/音乐的发生者相同的新闻节目片段。
2.根据权利要求1所述的一种新闻节目的分段方法,其特征在于,步骤A还包括以下步骤:
将音频数据格式转成WINDOWS WAV格式,采样率为16千赫。
3.根据权利要求1所述的一种新闻节目的分段方法,其特征在于,步骤A中,采用电脑和电视卡的方式采集电视节目中的音频数据;采用收音机和声卡的方式采集广播信号中的音频数据。
4.根据权利要求1所述的一种新闻节目的分段方法,其特征在于,步骤B中,主持人的片段、采访人的片段和节目音乐的片段的长度不少于10秒,每类不少于20句。
5.根据权利要求1所述的一种新闻节目的分段方法,其特征在于,步骤C中,主持人的片段、采访人的片段和节目音乐的片段的数据不少于100个小时。
6.根据权利要求1所述的一种新闻节目的分段方法,其特征在于,步骤E中,阈值是新闻节目每个片段的语音能量,新闻节目分段后每个片段不少于10秒。
7.根据权利要求1所述的一种新闻节目的分段方法,其特征在于,步骤G进一步包括以下步骤:
对置信度打分低于预设值的新闻节目片段,提取视频关键帧;
根据视频关键帧进行切分,重新进行语音/音乐的发生者的身份的验证,并保留置信度打分信息,直到置信度打分高于预设值为止。
8.根据权利要求1所述的一种新闻节目的分段方法,其特征在于,步骤H还包括以下步骤:
对待合并的片段提取视频关键帧,如果判断待合并的片段包含了不少于1个新闻主题,则不进行合并。
CN 201110073049 2011-03-25 2011-03-25 一种新闻节目的分段方法 Expired - Fee Related CN102170528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110073049 CN102170528B (zh) 2011-03-25 2011-03-25 一种新闻节目的分段方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110073049 CN102170528B (zh) 2011-03-25 2011-03-25 一种新闻节目的分段方法

Publications (2)

Publication Number Publication Date
CN102170528A true CN102170528A (zh) 2011-08-31
CN102170528B CN102170528B (zh) 2012-09-05

Family

ID=44491488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110073049 Expired - Fee Related CN102170528B (zh) 2011-03-25 2011-03-25 一种新闻节目的分段方法

Country Status (1)

Country Link
CN (1) CN102170528B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559882A (zh) * 2013-10-14 2014-02-05 华南理工大学 一种基于说话人分割的会议主持人语音提取方法
CN103905742A (zh) * 2014-04-10 2014-07-02 北京数码视讯科技股份有限公司 视频文件的切分方法及装置
WO2014176790A1 (en) * 2013-05-03 2014-11-06 Nokia Corporation A method and technical equipment for people identification
CN104409080A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 语音端点检测方法和装置
CN110213670A (zh) * 2019-05-31 2019-09-06 北京奇艺世纪科技有限公司 视频处理方法、装置、电子设备及存储介质
CN117201722A (zh) * 2023-09-08 2023-12-08 科博泰(广州)信息技术有限公司 一种基于人工智能的数字会议监管系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040008789A1 (en) * 2002-07-10 2004-01-15 Ajay Divakaran Audio-assisted video segmentation and summarization
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
CN101071460A (zh) * 2006-05-10 2007-11-14 北京中青凯诚网络电视传媒有限公司 文件安全分类保护方法
CN101312520A (zh) * 2007-05-23 2008-11-26 智辉研发股份有限公司 音讯特征的泛用节目时段筛选方法与相关的辅助方法
CN101539929A (zh) * 2009-04-17 2009-09-23 无锡天脉聚源传媒科技有限公司 利用计算机系统进行的电视新闻标引方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040008789A1 (en) * 2002-07-10 2004-01-15 Ajay Divakaran Audio-assisted video segmentation and summarization
CN101071460A (zh) * 2006-05-10 2007-11-14 北京中青凯诚网络电视传媒有限公司 文件安全分类保护方法
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
CN101312520A (zh) * 2007-05-23 2008-11-26 智辉研发股份有限公司 音讯特征的泛用节目时段筛选方法与相关的辅助方法
CN101539929A (zh) * 2009-04-17 2009-09-23 无锡天脉聚源传媒科技有限公司 利用计算机系统进行的电视新闻标引方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014176790A1 (en) * 2013-05-03 2014-11-06 Nokia Corporation A method and technical equipment for people identification
CN105164696A (zh) * 2013-05-03 2015-12-16 诺基亚技术有限公司 用于人物标识的方法和技术设备
CN103559882A (zh) * 2013-10-14 2014-02-05 华南理工大学 一种基于说话人分割的会议主持人语音提取方法
CN103559882B (zh) * 2013-10-14 2016-08-10 华南理工大学 一种基于说话人分割的会议主持人语音提取方法
CN103905742A (zh) * 2014-04-10 2014-07-02 北京数码视讯科技股份有限公司 视频文件的切分方法及装置
CN104409080A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 语音端点检测方法和装置
CN104409080B (zh) * 2014-12-15 2018-09-18 北京国双科技有限公司 语音端点检测方法和装置
CN110213670A (zh) * 2019-05-31 2019-09-06 北京奇艺世纪科技有限公司 视频处理方法、装置、电子设备及存储介质
CN110213670B (zh) * 2019-05-31 2022-01-07 北京奇艺世纪科技有限公司 视频处理方法、装置、电子设备及存储介质
CN117201722A (zh) * 2023-09-08 2023-12-08 科博泰(广州)信息技术有限公司 一种基于人工智能的数字会议监管系统及方法
CN117201722B (zh) * 2023-09-08 2024-03-19 科博泰(广州)信息技术有限公司 一种基于人工智能的数字会议监管系统及方法

Also Published As

Publication number Publication date
CN102170528B (zh) 2012-09-05

Similar Documents

Publication Publication Date Title
CN102170528B (zh) 一种新闻节目的分段方法
CN107169430B (zh) 基于图像处理语义分析的阅读环境音效增强系统及方法
US20230199264A1 (en) Automated voice translation dubbing for prerecorded video
CN102547139A (zh) 一种新闻视频节目切分方法、新闻视频编目方法及系统
CN102122506B (zh) 一种语音识别的方法
IL282781A (en) Adaptive processing with multiple media processor nodes
CN103700370A (zh) 一种广播电视语音识别系统方法及系统
CN110265001B (zh) 用于语音识别训练的语料筛选方法、装置及计算机设备
WO2003043007A3 (en) A method and apparatus for extracting digital data from a medium
CN102799605A (zh) 一种广告监播方法和系统
KR101082073B1 (ko) 비디오 스크랩을 이용한 비디오 콘텐츠 요약 방법 및 장치
CN105788610A (zh) 音频处理方法及装置
CN106372246A (zh) 音频播放方法及其装置
CN102136001B (zh) 一种多媒体信息模糊检索方法
CN101278350A (zh) 通过分割的特征比较而自动生成播放列表的方法和设备
CN105142018A (zh) 基于音频指纹的节目识别方法及装置
CN101594527A (zh) 从音频视频流中高精度检测模板的两阶段方法
CN116705060A (zh) 一种基于神经算法多源音频特征的智能仿真方法和系统
US7985915B2 (en) Musical piece matching judging device, musical piece recording device, musical piece matching judging method, musical piece recording method, musical piece matching judging program, and musical piece recording program
CN102063919B (zh) 一种基于音频片段切分的数字音频时域压缩方法
CN102117335B (zh) 一种多媒体信息检索的方法
CN110428668A (zh) 一种数据提取方法、装置、计算机系统及可读存储介质
Desplanques et al. Model-based speech/non-speech segmentation of a heterogeneous multilingual TV broadcast collection
CN114242120B (zh) 一种基于dtmf技术的音频剪辑方法及音频标记方法
CN116994566A (zh) 语音识别模型的生成方法及语音识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Segmentation method of news program

Effective date of registration: 20120926

Granted publication date: 20120905

Pledgee: Beijing Dongcheng Branch of Industrial Commercial Bank of China Ltd

Pledgor: TVMining (Beijing) Media Technology Co., Ltd.

Registration number: 2012990000566

PLDC Enforcement, change and cancellation of contracts on pledge of patent right or utility model
PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20180905

Granted publication date: 20120905

Pledgee: Beijing Dongcheng Branch of Industrial Commercial Bank of China Ltd

Pledgor: TVMining (Beijing) Media Technology Co., Ltd.

Registration number: 2012990000566

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A segmentation method of news program

Effective date of registration: 20210104

Granted publication date: 20120905

Pledgee: Inner Mongolia Huipu Energy Co.,Ltd.

Pledgor: TVMINING (BEIJING) MEDIA TECHNOLOGY Co.,Ltd.

Registration number: Y2020990001527

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120905

Termination date: 20210325