CN102075695A

CN102075695A - 面向海量广播电视节目的新一代智能编目系统和方法

Info

Publication number: CN102075695A
Application number: CN 201010616492
Authority: CN
Inventors: 徐波; 丁鹏; 韩宝; 姜洪臣
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2010-12-30
Filing date: 2010-12-30
Publication date: 2011-05-25
Anticipated expiration: 2030-12-30
Also published as: CN102075695B

Abstract

本发明公开了一种面向海量广播电视节目的新一代智能编目系统和方法，其初始化模块可自动发现广播电视节目片头曲、片尾曲及广告片段；节目打点模块可对广播电视节目的起止点进行自动标记，并发现新出现的广播电视节目；新闻拆条模块可对新闻节目的条目起止点进行自动标记；广告抽取模块可对广播电视节目中播放广告的起止点进行自动标记，并发现新出现的广告；节目编目模块可对广播电视节目内容进行自动标记；多媒体检索模块可为用户提供经过编目和索引的广播电视节目数据的多媒体检索能力；上述模块提供的处理结果，经人工确认后，输入知识库管理与学习模块，进行学习并更新上述各模块的模型参数，以确保系统在不同应用环境下的适应性和可用性。

Description

面向海量广播电视节目的新一代智能编目系统和方法

技术领域

本发明属于广播电视媒体资产管理领域和面向三网融合的新媒体内容管理与分发领域，特别涉及一种面向海量广播电视节目自动编目和检索的方法，该方法将音视频智能处理技术综合应用于各类广播电视节目的自动时间打点和内容编目，并提供基于文本和音视频样例的多媒体检索。

背景技术

我国拥有世界上最为丰富的广播电视内容资源，目前广播电视传播途径主要包括国内广播电视、境外卫星电视、互联网视听节目及其他新媒体等，总量已经达到3000套，其所包含资讯具有丰富性、全面性和权威性，在广播电视媒体资产管理和面向三网融合的新媒体内容管理与分发领域具有非常巨大的社会效益和商业价值。

对这些资讯的充分利用必须通过分类编目、添加标题、关键词或标签等方式进行，目前主要由电视台和一些面向新媒体服务的广播电视内容编目机构，以人工标注方式为主进行。现行工作方式主要包括广播电视节目收录、采集转码、存储入库，之后采用人工方式进行节目开始结束时间的标注、添加标题、节目描述、检索关键词和标签，通过媒资系统的管理完成内容的再利用。在编目标准方面，各机构都是以2004年发布的广电行业标准《广播电视音像资料编目规范》为基础，进行针对性修订而来。

上述方式存在主要问题如下：

1.效率低下，无法满足千套级以上的广播电视编目要求。现有工作模式下，各单位的编目人员规模通常在100人以上，且日处理能力在60-70路广播电视。如果以这样的比例估算，以1000路广播电视节目处理为例，至少需要1500人以上，无论从运营效率还是成本考虑，都是无法接受的。

2.主观性强，编目粒度较粗。现有模式下，标题、节目描述没有统一标准，以人工定义为准，且视频帧、话音内容与编目内容没有对应关系，无法完成帧和语音级的细粒度检索，导致大量有效信息被淹没在海量存储中，无法满足人们对广播电视内容检索的多方面需求。

在电视内容自动处理方面，文献提出了一种通过人工对语音识别和字幕识别结果校对的方法，实现对电视新闻节目进行标引的方法；美国的BBN公司面向中、英、阿拉伯语开发了广播电视内容监测系统，提供了语音识别、文字翻译、基于检索的内容推送系统。在电视视频内容检索方面，国外部分公司和科研机构进行了电视视频检索相关方面的研究工作，如IBM的QBIC和CueVideo项目、卡内基梅隆大学的Informedia项目等等。

综上所述，面向大规模、全频道、广播、电视节目的内容挖掘和利用，必须采用以计算机音视频智能处理技术为主，辅以少量人工校对的工作方式进行。而从现有国内外范围来看，全面实现大规模、全频道、广播电视节目的打点、编目和检索的系统未见报道。

发明内容

本发明的目的在于提供一种面向海量广播电视节目的新一代智能编目系统和方法，充分利用现代计算机音视频内容自动识别分类算法对海量广播电视节目进行自动分割打点、编目和索引。本发明以模板和参数知识库为核心，通过良好的人机交互界面在对广播电视节目进行主动、高效的管理的同时，实现模板和参数知识库自动发现、学习和更新，为海量广播电视内容的深入开发利用、全面监测监管提供了有效技术方案。

为实现本发明的目的，本发明第一方面是提供面向海量广播电视节目的新一代智能编目系统和方法，所述系统是由以下技术方案实现：

该系统利用计算机实现初始化模块、节目打点模块、新闻拆条模块、广告抽取模块、节目编目模块、多媒体检索模块和知识库管理与学习模块；

初始化模块是从某频道广播电视节目历史数据提取的音频波形和视频图像中自动发现广播电视节目片头曲、片尾曲以及广告片段，系统初始化操作界面提供人工审核、编辑以及入库操作；

节目打点模块对给定广播电视节目进行打点处理，能对广播电视节目的起止点进行自动标记，节目打点操作界面对新发现的广播电视节目提供人工审核、编辑以及入库操作；

新闻拆条模块对给定广播电视新闻节目进行拆条处理，能对广播电视中的新闻节目的条目起止点进行自动标记，新闻拆条操作界面提供人工审核、编辑以及入库操作；

广告抽取模块对给定广播电视节目进行处理，能对广播电视节目中播放广告的起止点进行自动标记，广告抽取操作界面对新发现的广告提供人工审核、编辑以及入库操作；

节目编目模块对给定广播电视节目进行编目处理，能对广播电视节目以及新闻条目的内容进行自动标记，对置信度较低的编目内容，节目编目操作界面提供人工审核、编辑以及入库操作；

多媒体检索模块对给定广播电视节目进行索引处理，为用户提供经过编目和索引的广播电视节目数据的多媒体检索能力，多媒体检索操作界面实现基于多媒体检索；

初始化模块、节目打点模块、新闻拆条模块、广告抽取模块、节目编目模块提供的处理结果，经知识库管理与学习操作界面人工确认后，输入知识库管理与学习模块的知识库，进行学习并更新上述各模块的模型参数，以确保系统在不同应用环境下的适应性和可用性。

为实现本发明的目的，本发明第二方面是提供使用向海量广播电视节目的智能编目系统的面向海量广播电视节目智能编目的方法，所述方法是由以下技术方案实现：

步骤S1：利用计算机对各类广播电视通道采集的音视频数据做音视频解码处理，得到音频波形和视频图像；

步骤S2：通过初始化模块对广播电视节目中的音频波形和视频图像信息同时进行自动处理，发现广播电视片头模板、片尾模板及广告模板，并经过系统初始化操作界面人工审核、编辑后，输入知识库管理与学习模块的知识库，供后续步骤S8处理使用；初始化过程只在系统运行初期进行一次；

步骤S3：系统日常运行开始后，执行步骤S1的各类广播电视通道采集的音视频数据经过采集、解码处理，节目打点模块对广播电视节目中的音频波形和视频图像信息同时进行自动处理，使用知识库管理与学习模块的知识库提供的片头、片尾模板信息以及疑似节目片头、片尾自动发现模型实现对广播电视节目开始和结束点的定位；对于发现的疑似节目片头、片尾自动提供置信度信息，经过节目打点操作界面人工操作审核、编辑后，结果入库，同时输入知识库管理与学习模块的知识库，供后续步骤S8处理使用；

步骤S4：广告抽取模块对广播电视节目中的音频波形和视频图像信息同时进行自动处理，使用知识库管理与学习模块的知识库提供的广告模板信息以及疑似广告自动发现模型，广告抽取模块实现对广播电视广告开始和结束点的定位；对于发现的疑似广告自动提供置信度信息，经过广告抽取操作界面人工审核、编辑后，结果入库，同时进入知识库管理与学习模块的知识库，供后续步骤S8处理使用；

步骤S5：根据上述步骤S3得到的广播电视节目开始和结束点信息，新闻拆条模块能对其中的新闻类节目进行进一步打点，通过对音频波形和视频图像信息的自动处理，使用知识库管理与学习模块的知识库提供的新闻拆条自动发现模型实现对新闻节目的条目开始、结束点的定位，节目编目模块对于发现的新闻条目边界自动提供置信度信息，经过新闻拆条操作界面人工审核、编辑后结果入库，同时进入知识库管理与学习模块的知识库，供后续步骤S8处理使用；

步骤S6：根据上述步骤S3得到的广播电视节目开始结束点信息和步骤S5得到的新闻类节目新闻条目开始结束点信息，使用知识库管理与学习模块的知识库提供的语音、字幕识别模型，通过对音频波形和视频图像信息的自动处理，实现对广播电视节目和新闻条目中字幕、语音内容的自动识别，融合语音、字幕识别结果文本，生成编目关键词和摘要；对编目自动提供置信度信息，经过节目编目操作界面人工审核、编辑后结果入库；审核、编辑后的语音、字幕识别结果文本同时进入知识库管理与学习模块的知识库，供后续步骤S8处理使用；

步骤S7：多媒体检索模块对广播电视节目中的音频波形和视频图像信息同时进行自动处理，使用知识库管理与学习模块的知识库提供与语音内容、视频内容、说话人、人脸和徽标相对应的识别模型，实现对语音内容、视频内容、说话人、人脸和徽标的索引，索引结果入索引库，从而实现了基于搜索的编目方式；索引包括结果置信度信息；

步骤S8：根据上述步骤S2至步骤S6得到的含有置信度信息的各类信息，经过知识库管理与学习操作界面人工编辑、审核、修正后，输入知识库管理与学习模块，更新知识库管理与学习模块的知识库中各模型参数。

本发明的有益效果是：

本发明提出了一种全新的、面向各类广播电视节目的全时段、全媒体的自动打点、编目、检索的系统和方法。利用现代计算机音视频智能处理技术，对多频道、全天的海量广播、电视节目进行自动打点、编目和索引处理，并通过置信度技术将低可靠度的结果输出各类人工坐席，校对并输出最后结果。这种人机有机融合交互的方式，可以结合计算机处理的高效性和人工处理的准确性优点，解决现有以人工方式为主的广播电视节目编目过程中的高投入、低效率问题，为海量广播电视节目内容的有效利用和深入挖掘提供有效技术手段。

附图说明

图1为本发明的流程框图；

图2为本发明的系统架构图；

图3为本发明系统初始化步骤流程图；

图4为本发明节目打点步骤流程图

图5为本发明广告抽取步骤流程图；

图6为本发明新闻拆条步骤流程图；

图7为本发明节目编目步骤流程图；

图8为本发明多媒体检索步骤流程图；

图9为本发明知识库的管理与学习步骤流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

如图1和图2示出本发明的流程框图和本发明的系统架构图，该系统是由计算机实现应用层、服务层和数据层架构，应用层软件体系采用客户端软件、服务层为内容服务中间件平台、数据层为数据计算管理平台的三层体系架构，三层体系架构采用浏览器/服务器，或客户端/服务器模式实现；

初始化模块包括疑似片头/片尾发现子模块、疑似广告发现子模块、疑似片头/片尾审核编辑入库子模块和疑似广告审核编辑入库子模块。疑似片头/片尾发现子模块和疑似广告发现子模块是从某频道广播电视节目历史数据提取的音频波形和视频图像中自动发现广播电视节目片头曲、片尾曲以及广告片段，疑似片头/片尾审核编辑入库子模块和疑似广告审核编辑入库子模块提供人工审核、编辑以及入库操作；

节目打点模块包括已知节目打点子模块、已知节目浏览子模块、疑似节目发现子模块和疑似节目审核编辑子模块。已知节目打点子模块对给定广播电视节目进行打点处理，能对广播电视节目的起止点进行自动标记，疑似节目发现子模块能发现新出现的广播电视节目，已知节目浏览子模块和疑似节目审核编辑子模块提供人工审核、编辑以及入库操作功能；

新闻拆条模块包括新闻拆条子模块、新闻条目浏览子模块和新闻条目审核编辑子模块。新闻拆条子模块对给定广播电视新闻节目进行拆条处理，能对广播电视中的新闻节目的条目起止点进行自动标记，新闻条目浏览子模块和新闻条目审核编辑子模块提供人工审核、编辑以及入库操作功能；

广告抽取模块包括已知广告打点子模块、已知广告浏览子模块和疑似广告发现子模块、疑似广告审核编辑子模块。已知广告打点子模块对给定广播电视节目进行处理，能对广播电视节目中播放广告的起止点进行自动标记，疑似广告发现子模块能发现新出现的广告，已知广告浏览子模块和疑似广告审核编辑子模块提供人工审核、编辑以及入库操作功能；

节目编目模块包括自动编目子模块、编目结果审核编辑子模块。自动编目子模块对给定广播电视节目进行编目处理，能对广播电视节目以及新闻条目的内容进行自动标记，编目结果审核编辑子模块能对对置信度较低的编目内容提供人工审核、编辑以及入库操作。

多媒体检索模块包括语音检索子模块、视频检索子模块、人脸检索子模块、徽标检索子模块、字幕检索子模块、多媒体索引管理子模块。对给定广播电视节目中出现的语音、视频、人脸、徽标和字幕进行索引处理，为用户提供经过编目和索引的广播电视节目数据的多媒体检索能力，实现基于检索的新型编目方式；

节目打点模块、新闻拆条模块、广告抽取模块、节目编目模块提供相应处理结果，经人工确认后，输入知识库管理与学习模块的知识库。该模块包括疑似片头/片尾发现模型参数学习子模块，疑似广告发现模型参数学习子模块、新闻拆条模型参数学习子模块、语音识别模型参数学习子模块、字幕识别模型参数学习子模块进行学习，并更新系统初始化模块、节目打点模块、广告抽取模块、新闻拆条模块、节目编目模块的模型参数，以确保系统在不同应用环境下的适应性和可用性；

下面结合附图1和图2对本发明的方法进行说明：

本发明可接受经过采集收录系统进行数字化的各类传输形式的广播电视数据信号，目前常见的广播电视信号包括模拟、卫星(DVB-S)、CATV、直播星、数字(DVB-C)、地面数字多媒体广播(TDMB)等等。

经过与不同信号类型相应的接收设备，将广播电视信号经过转码转为数字文件存储到大容量存储设备或以音视频流的形式传输到后续处理系统中。数字化文件或音视频流可能以各类常见的音视频编码方式存在，如MPEG2、MPEG3、MPEG4、H.263、H.264等。程序读入文件或音视频流，调用相应解码器将声音和图像进行分离。

完成后，将分离声音和图像文件存储到计算机的临时存储区。

步骤S2：系统初始化，通过初始化模块对广播电视节目中的音频波形和视频图像信息同时进行自动处理，计算机自动发现广播电视片头模板、片尾模板及广告模板，并经过初始化操作界面人工审核、编辑后，输入知识库管理与学习模块的知识库，供后续处理使用；

本操作只在系统开始运行前进行一次，其功能为通过局域网从步骤S1处理得到的临时存储区获得声音和图像文件并进行处理，发现与节目片头、片尾、广告、片花的结构、特征相似的音视频片段，作为节目片头、片尾、广告、片花的候选，并自动生成各类节目、片段、广告的切分点样例，供后续处理使用，如附图3所示本发明系统初始化步骤的流程图。

具体方法为首先应用某频道连续数天的音视频数据，通过初始化模块的疑似片头/片尾发现引擎和疑似广告发现引擎，自动发现具有片头/片尾/广告音视频特性的片段。记录音视频片段时间点，作为节目片头、片尾、广告、片花的候选。人工审核节目片头、片尾、广告、片花后，疑似广告审核编辑入库子模块和疑似片头/片尾审核编辑入库子模块分别根据时间点信息，自动提取节目片头、片尾和广告附近的视频片段信息，作为后续边界分割切分样例，自动提取各类分类及边界音频、视频学习样例并输入知识库管理与学习模块的知识库。

步骤S3：节目打点。

节目打点模块中的已知节目打点子模块通过局域网从步骤S2处理得到的临时存储区获得声音和图像文件并进行处理，同时从知识库管理与学习模块的知识库读入已经存储的节目片头、片尾模板，应用音视频指纹搜索技术，在声音图像文件中查找已知的节目，并标记发现的模板出现的时间，如附图4所示本发明节目打点步骤流程图。

疑似节目发现子模块读入知识库管理与学习模块的知识库中已经建立的节目片头、片尾的分类模型和边界切分模型，应用节目片头、片尾自动发现技术，在声音图像文件中查找新出现、未知的节目，并标记发现的模板出现的时间。

通过节目打点操作界面进行人工审核，将某频道全天播出的广播电视节目的节目片头、片尾的开始和结束点结果入库。

通过节目打点操作界面进行人工审核，将某频道全天出现的新节目片头、片尾模板以及分类和边界学习样例输入知识库管理与学习模块的知识库。

步骤S4：广告抽取。

广告抽取模块中的已知广告打点子模块通过局域网从步骤S2处理得到的临时存储区获得声音和图像文件并进行处理，同时从知识库管理与学习模块的知识库读入已经存储的广告模板，应用音视频指纹搜索与匹配技术，在声音图像文件中查找已知的广告，并标记发现的模板出现的时间，如附图5所示本发明广告抽取步骤流程图。

疑似广告发现子模块读入知识库管理与学习模块的知识库中已经建立的广告分类模型和边界切分模型，应用广告自动发现技术在声音图像文件中查找新出现、未知的广告，并标记发现的模板出现的时间。

通过广告抽取操作界面进行人工审核，将某频道全天播出的广播电视节目的广告的开始和结束点结果入库。

通过广告抽取操作界面进行人工审核，将某频道全天出现的新广告模板以及分类和边界学习样例输入知识库管理与学习模块的知识库。

步骤S5：新闻拆条。

其功能为通过局域网从步骤S2处理得到的临时存储区获得声音和图像文件以及步骤S4获得的新闻类节目时段进行处理，如附图6所示为本发明新闻拆条步骤流程图。

新闻拆条子模块首先提取用于新闻拆条所需的各类音视频特征，包括镜头切变、音频切变、说话人切变、字幕检测、人脸检测与识别等。

继而从知识库管理与学习模块的知识库读入新闻拆条模型，应用新闻自动拆条算法，在声音图像文件中新闻条目的切分点，并标记发现的新闻切分时间。

操作人员通过通过新闻拆条操作界面调用新闻条目浏览子模块和新闻条目审核编辑子模块浏览和审核新闻条目切分点，将审核结果入库，并将错分结果输入知识库管理与学习模块的知识库。

步骤S6：节目编目。

其功能为通过局域网从步骤S2处理得到的临时存储区获得声音和图像文件以及步骤S4和步骤S5获得的节目打点和新闻条目打点时段信息，进行处理。

如附图7所示为本发明广播电视内容编目步骤流程图。自动编目子模块首先对声音数据进行语音检测，去除音乐和其它非语音信息。系统综合应用了多种刻画语音和非语音差异性特征，如LPCC、LSP、RMS、MFCC、SS、ZCR、BP、HZCRR、SS等，经过基于支持向量机模型的语音检测器检测语音。通过计算机内存交换，将检测到的语音信号输入语音识别器输出文字及相对应的词汇级置信度。

自动编目子模块对图像数据进行字幕检测，去除不包含字幕的图像部分。系统综合应用多种刻画图像字幕信息的特征，如文字区域特征、连通性特征、纹理特征等，经过基于支持向量机和人工神经网络分类器的字幕检测器检测字幕。通过计算机内存交换，将检测到的字幕区域输入字幕识别器输出文字及相对应的词汇级置信度。

自动编目子模块继而通过结果融合器融合语音识别和字幕识别结果，具体方法是通过时间标签，将语音识别结果与字幕识别结果进行句子级对齐。以最大匹配为目标函数进行动态规划(DP)，将对齐后的句子进一步对齐到词汇级。对齐后的词汇，选择语音识别与字幕识别结果的词置信度高的作为融合后的结果，并存入大容量存储设备。

自动编目子模块将上述步骤生成的融合文本，进行句子、词分析和统计量提取。首先输入融合文本，提取句、词及统计量特征，包括句子依存关系和骨干词、句子长度、相邻句子长度、命名实体词)、命名实体词出现的句子、单独出现的命名实体词比例、TFIDF(termfrequency-inverse document frequency)特征、句子间的余弦距离等。继而确定编目关键词和摘要句子。将上述特征输入预先训练好的支持向量机分类器，确定重要度较高的关键词和句子作为编目关键词和摘要句。

在互联网接入的前提下，将编目关键词作为搜索词在预先确定的专业网站上搜索相关内容，通过与上述步骤生成的融合文本的相似性比对确定是否满足内容相关性条件，如网络搜索内容适合，则对其进行摘要并作为编目结果输出。

操作人员通过编目操作界面调用编目结果审核编辑子模块浏览和审核编目结果，将适合的网络搜索内容送入知识库管理与学习模块的知识库，供调节语音和字幕识别模型参数使用。

步骤S7：多媒体索引的生成。

其功能为通过局域网从步骤S2处理得到的临时存储区获得声音和图像文件以及步骤S4和步骤S5获得的节目层和片段层时段信息，进行处理，如附图8所示为本发明多媒体索引的生成步骤流程图。

语音检索子模块对音频数据进行语音检测，将语音部分进行说话人和语音内容索引。视频检索子模块对对图像数据进行特征提取和索引，提取特征包括视觉色彩、纹理、轮廓和关键特征点，并进行索引。人脸检索子模块和徽标检索子模块分别对图像数据进行人脸和徽标检测，对人脸和徽标部分进行索引。字幕检索子模块将步骤S6生成的字幕和步骤S7生成的编目关键词和摘要进行文本索引。

通过多媒体索引管理子模块，形成对以文本、语音和图像内容的综合视频检索能力。

步骤S8：知识库的管理与学习。

在上述步骤S2至步骤S6中，计算机以预设的结果置信度阈值为依据，将不可靠的结果输出给相应的人工操作界面，如操作人员发现结果有误，通过键盘或鼠标操作完成修订并将结果入库，具体如下所述；

系统初始化操作界面：面向步骤S2，对系统初始化自动处理结果进行人工分类和审核。

节目打点操作界面：面向步骤S3提供的广播电视栏目结果，进行人工校对和新节目标注入库。

广告抽取操作界面：面向步骤S4提供的广播电视广告结果，进行人工校对和新广告标注入库。

新闻拆条操作界面：面向步骤S5，对新闻拆条自动处理结果进行人工校对。

节目编目操作界面：面向步骤S6，对节目和新闻条目自动编目结果进行人工校对。

各操作界面确认后的样例数据，系统自动将其导入知识库管理与学习模块的知识库。样例数据包括新发现的节目、广告、节目/广告边界样例、新闻条目边界样例以及适合的网络搜索内容等，如附图9所示为本发明知识库的管理与自动学习步骤流程图。

采用上述样例，通过相应的模型参数学习方法，分别对步骤S2至步骤S6所述的识别模型参数进行调整，以提高自动处理引擎的准确性和适用性。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的权利要求书的保护范围之内。

Claims

1.一种面向海量广播电视节目的智能编目系统，其特征在于：该系统利用计算机实现初始化模块、节目打点模块、新闻拆条模块、广告抽取模块、节目编目模块、多媒体检索模块和知识库管理与学习模块；

2.一种使用权利要求1所述面向海量广播电视节目的智能编目系统的面向海量广播电视节目智能编目的方法，其特征在于，实现所述方法的步骤如下：