CN102073635A

CN102073635A - 节目端点时间检测装置和方法以及节目信息检索系统

Info

Publication number: CN102073635A
Application number: CN2009102089502A
Authority: CN
Inventors: 刘昆; 吴伟国; 卢鲤; 赵庆卫; 颜永红; 索宏斌
Original assignee: Institute of Acoustics CAS; Sony Corp
Current assignee: Institute of Acoustics CAS; Sony Corp
Priority date: 2009-10-30
Filing date: 2009-10-30
Publication date: 2011-05-25
Anticipated expiration: 2029-10-30
Also published as: US9009054B2; CN102073635B; US20110106531A1

Abstract

本发明涉及多媒体内容的检索，提供一种节目端点时间检测装置，通过对节目的音频信号进行处理，从而检测节目的端点时间，其包括：音频分类单元，将音频信号分类为语音信号部分和非语音信号部分；关键词检索单元，从语音信号部分检索表示节目开始或结束的端点关键词，作为候选的端点关键词；内容分析单元，对通过关键词检索单元检索出的候选的端点关键词的上下文进行内容分析，以确定候选的端点关键词是否为有效的端点关键词；节目端点时间确定单元，基于关键词检索单元的检索结果和内容分析单元的确定结果进行统计分析，确定节目的端点时间。另外，本发明还提供一种节目信息检索系统。通过本发明，可以迅速得到有关用户关注的节目的节目信息。

Description

节目端点时间检测装置和方法以及节目信息检索系统

技术领域

本发明涉及多媒体内容检索领域，特别涉及一种采用音频信号处理的方法对节目的端点时间进行检测的节目端点时间检测装置和方法以及节目信息检索系统。

背景技术

一般体育视频比赛时间比较长，而往往广大体育爱好者真正关心的内容通常只占居整场内容的很小一部分。随着越来越多的体育视频冲击，使得人们对体育视频的有效检索和管理的要求也越来越迫切。很多时候，人们没有足够时间观看实况转播，因此，很多爱好者会采取将体育节目录制出来，然后等自己有时间的时候再拿出来观看。在观看的时候，用户会有选择的观看其中的一些重要场次，比如下半场、决赛局等。因此，在这种情况下，能够准确获取比赛场次的起始时间信息是非常重要的。

另一方面，如果需要从中找到自己关注的内容，往往需要用户从头至尾遍历一遍之后才能找到所需内容，这样既费时又费力。因此，如果能够有这样一个体育内容检索系统，可以帮助用户检索一些真正关心的内容，就可以大大节约时间。

关于上述课题，本领域技术人员进行了如下的研究。

非专利文献1中，仅利用语音信息来对广告，篮球比赛，足球比赛，新闻报道和天气预报5类电视节目进行识别，采用的是神经网络分类器，最后结合图像分析以提高准确性，没有对电视节目的内容进行分析和检索。

非专利文献2中，结合视频特征用决策树来检测足球比赛进球场景，但是仅对一种体育比赛中的进球进行检索，该检测框架仅适用于足球比赛，对于其他的比赛就不适用了。

专利文献1中，同时利用音频和视频特征对体育比赛进行场景分类，包括：场地全景、特写镜头、角球、任意球和进球五类场景，其中音频特征主要是用来识别鼓掌声和哨声两种类别。

专利文献2中，仅仅利用语音识别技术得到文本内容，在识别后得到的文本内容里面进行待搜索内容匹配，得到需要检索的内容。

专利文献3中，第一阶段对有人工标注的多媒体数据利用语义标签进行相关音频寻找，第二阶段，基于语义标签的音频查询结果在线训练该类音乐特征，并利用于音频内容的查询。

专利文献4中，提出了一种音频、视频内容的采集方法和检索方法，其中音频方面采用将声音分段后识别，生成声音与文字的对应关系表，用户使用所需声音片断对用的文字在该对应关系表中进行检索。

从以上研究可以看出，目前已有的研究仅对某一两种体育比赛内容的特定内容进行分析和检测，这些研究针对性强，不能很好的扩展到其他类别的体育比赛的内容检索中去。而随着体育比赛种类的日益增加，消费者越来越不可能有足够的时间将整场比赛从头至尾的观看一遍了，因此，如何能够提供一套自动的体育比赛的内容检索系统，从而帮助用户快速方便的检索出自己关注的内容是目前广大体育爱好者们迫切关注的问题。

非专利文献1：Liu，Z.，et al.，“Audio feature extraction and analysis for scenesegmentation and classification”，Journal of VLSI Signal Processing，pp.61 to 70(1998).

非专利文献2：Shu-Ching Chen，Mei-ling Shyu，Min Chen，Chengcui Zhang，“A decision tree-based multimodal data mining framework for soccer goaldetection”，2004 IEEE International Conference on Multimedia and Expo，Volume1，June 2004，pp.265-268.

专利文献1：US 2005/0195331 A1

专利文献2：CN101281534

专利文献3：CN101364222

专利文献4：CN101102240

发明内容

为了实现上述目的，本发明提供一种节目端点时间检测装置，通过对所述节目的音频信号进行处理，从而检测所述节目的端点时间，该装置包括：音频分类单元，将所述音频信号分类为语音信号部分和非语音信号部分；关键词检索单元，从所述语音信号部分检索表示节目开始或结束的端点关键词，作为候选的端点关键词；内容分析单元，对通过所述关键词检索单元检索出的所述候选的端点关键词的上下文进行内容分析，以确定所述候选的端点关键词是否为有效的端点关键词；以及节目端点时间确定单元，基于所述关键词检索单元的检索结果和所述内容分析单元的确定结果进行统计分析，确定节目的端点时间。

本发明还提供一种节目端点时间检测方法，通过对所述节目的音频信号进行处理，从而检测所述节目的端点时间，该方法包括：音频分类步骤，将所述音频信号分类为语音信号部分和非语音信号部分；关键词检索步骤，从所述语音信号部分检索表示节目开始或结束的端点关键词，作为候选的端点关键词；内容分析步骤，对通过所述关键词检索步骤检索出的所述候选的端点关键词的上下文进行内容分析，以确定所述候选的端点关键词是否为有效的端点关键词；以及节目端点时间确定步骤，基于所述关键词检索步骤的检索结果和所述内容分析步骤的确定结果进行统计分析，确定节目的端点时间。

另外，本发明还提供一种节目信息检索系统，通过对所述节目的音频信号进行处理，从而获得用户所需的节目信息，该系统包括：显示装置，用于显示该系统的用户界面；节目导入装置，将多个节目导入所述节目信息检索系统，并在所述显示装置中显示节目列表；以及节目端点时间检测装置，对用户从节目列表中选择的节目进行分析，以得到所述节目的端点时间，并显示在所述显示装置上，所述节目端点时间检测装置包括：音频分类单元，将所述音频信号分类为语音信号部分和非语音信号部分；关键词检索单元，从所述语音信号部分检索表示节目开始或结束的端点关键词，作为候选的端点关键词；内容分析单元，对通过所述关键词检索单元检索出的所述候选的端点关键词的上下文进行内容分析，以确定所述候选的端点关键词是否为有效的端点关键词；以及节目端点时间确定单元，基于所述关键词检索单元的检索结果和所述内容分析单元的确定结果进行统计分析，确定节目的端点时间。

通过本发明的节目端点时间检测装置和方法，用户可以快速从冗长的节目视频中轻松地找到节目的准确开始和结束时间点。

另外，通过本发明的节目信息检索系统，可以对节目内容进行理解和分析，帮助用户提取一些感兴趣的事件和信息，比如检索节目的类别，检索精彩事件，检索关键人名和队名等，检索不同节目的开始和结束时间点等等。

附图说明

图1是表示本发明的第一实施例的节目端点时间检测装置1的方框图。

图2是表示本发明的第一实施例的节目端点时间检测方法的流程图。

图3是表示本发明的第二实施例的节目端点时间检测装置1’的方框图。

图4是表示本发明的第二实施例的节目端点时间检测装置1’的模块概念图。

图5是表示应用了本发明的节目端点时间检测装置1(1’)的节目信息检索系统2的方框图。

图6是表示节目信息检索系统2的用户界面的一例的示意图。

具体实施方式

下面，基于附图说明本发明的具体实施方式。

本发明中所提到的“节目”一词包括体育比赛、文艺表演、电视剧、话剧、电视访谈、音乐会、家庭录像等等，一切观众想要观看/收听(视听)的包括音频、视频等在内的多媒体内容。另外，节目的“端点”是指节目中观众所真正关心的部分的开始点和结束点，比如足球比赛中的上下半场的开始点和结束点。在下面的说明中主要以体育比赛节目为例进行说明，但本发明不限于对体育比赛节目的检索，本发明可以适用于包括上述列举的以及列举以外的任何节目内容的检索。

如图1所示，所述节目端点时间检测装置1包括：音频分类单元11，将音频信号分类为语音信号部分和非语音信号部分；关键词检索单元12，从语音信号部分检索表示节目开始或结束的端点关键词，作为候选的端点关键词；内容分析单元13，对通过关键词检索单元12检索出的候选的端点关键词的上下文进行内容分析，以确定候选的端点关键词是否为有效的端点关键词；以及节目端点时间确定单元14，基于关键词检索单元12的检索结果和内容分析单元13的确定结果进行统计分析，确定节目的端点时间。上述各单元可以通过分别独立的装置来实现，也可以是部分或全部集成在同一集成电路上，也可以采用公知的计算机来实现，这对于本领域技术人员是不言而喻的。

音频分类单元11通过未图示的接口取入音频信号，并将音频信号的语音信号部分和非语音信号部分进行分离。作为其分离方法，可以采用基于模型的分类方法，或者基于聚类的方法，或者二者结合的方法等多种方法。以二者结合方法为例，如表1所示，以10种比赛为例，语音分段的结果为：

表1

运动	精度	召回率	F值
				篮球	88.03％	91.40％	89.69％
网球	92.05％	94.20％	93.11％
				足球	89.84％	94.42％	92.07％
网球	85.39％	94.37％	89.65％
				高尔夫	69.25％	94.87％	80.06％
羽毛球	92.34％	87.37％	89.79％
				乒乓球	93.25％	91.87％	92.56％
曲棍球	96.31％	86.89％	91.36％
				沙滩排球	92.71％	89.74％	91.20％
台球	90.29％	91.95％	91.11％
				平均	88.90％	91.70％	90.28％

其中：

精度(语音)＝正确提取语音的持续时间/结果全部语音的持续时间

召回率(语音)＝正确提取语音的持续时间/全部相关语音的持续时间

F值＝2×精度×召回率/(精度+召回率)

作为一例，关键词检索单元12首先将由音频分类单元11分段得到的语音信号部分进行输入识别系统，将得到的识别结果构建一个检索文件，最后在这个检索文件里面搜索需要的关键词即进行关键词匹配，最终得到关键词结果。上述关键词可以预先存储在未图示的存储器中，由关键词检索单元12调用来进行上述关键词检索。在这里需要选取的关键词是指与比赛开始/结束相关联的词语，即端点关键词，比如“比赛开始”、“开始”、“开球”、“开赛”、“结束”、“终止”等等。所述未图示的存储器中，除了上述端点关键词之外，还可以存储用于其他检索目的的其它的关键词以及其它内容，这将在下面进一步叙述。另外，由于类似与“比赛开始”这样的词语在比赛中间也会出现，因此，我们还需要其他的信息辅助以得到最终的结果，从而得到有效的端点关键词，这将在下面叙述。在10种体育类别105场比赛中的关键词检索性能如表2所示：

表2

运动

关键词出现个数

关键词检测正确率

羽毛球	89	64.25
			乒乓球	70	67.62
高尔夫	131	78.19
			排球	140	71.46
网球	264	73.28
			篮球	149	58.72
足球	176	69.65
			沙滩排球	94	65.42
曲棍球	155	62.68
			台球	385	65.04
平均	165	67.63

另外，作为关键词检索的技术，不限于本例中的上述通过检索文件匹配进行关键词检索的方法，除此以外，也有直接从音频上来进行模型匹配的关键词检索的技术，称之为基于垃圾模型(Garbage model based)的检索方法等。由于这种方法虚警比较高，而且与本发明所采用的基于文本匹配的关键词检索方法相比，后者性能更加稳定，因此在本发明中采用基于文本匹配的方法来进行关键词检索。当然，本领域技术人员可以根据需要来适当选择关键词检索方法。

内容分析单元13对上述关键词检索单元12检索处的关键词前后的上下文的语句进行分析，这里，作为一例，对体育比赛中的解说内容进行分析，以判断比赛是否开始。比如解说员说道“现在比赛已经开始10分钟了”，或者“比赛即将结束”，而在此时，由于其语句中包含“开始”“结束”这样的关键词，因此会被关键词检索单元12检索作为候选的端点关键词。但是，由于此时实际上已经距离比赛开始有10分钟，或者比赛尚未结束，此时，内容分析单元13对此处的“开始”“结束”这样的关键词的上下文进行分析，从而能够判定此处的“开始”实质上为虚警，从而可以予以排除。

另外，由于描述比赛开始/结束的词语很多，而且有些时候解说员不明确说“比赛开始/结束”这类词语，在这种情况下，内容分析单元13还可以检索与“比赛开始/结束”这类词语这类表述相似的表述，从而确定比赛是否已经开始/结束了。

作为内容分析单元13所采用的方法，可以利用自然语言理解技术(NaturalLanguage Understanding)来完成上述工作，关于上述自然语言理解技术，例如参见网页：http://home.donews.com/donews/article/1/18368.html以及http://www.dmresearch.net/Natural-Language-Understanding/200412/1907.html等中的介绍。当然，除了自然语言理解技术以外，也可以使用其它任何能够实现上述目的的方法，这对本领域技术人员来说是不言自明的。

节目端点时间确定单元14将以上所能得到的信息进行统计分析，用以最终判断节目，即比赛场次的起始时间信息。节目端点时间确定单元14可以采用很多方法进行统计分析，这里，作为一例，在本发明中采用了信息融合技术。

信息融合系统结构有多种形式、多种级别、多种层次。按照融合层次分类，常用的信息融合系统结构可分为三类，即数据层融合、特征层融合、决策层融合。数据级融合是最低层次的融合，直接对多传感器的观测数据进行融合处理；然后基于融合后的结果进行特征提取和判断决策。采用数据级融合监测信息损失小，但是数据传送量大、数据格式不统一、难以处理。特征级融合属于中间层次的融合，首先对每个传感器的检测数据进行加工处理，获取各自的特征向量；然后对各个特征向量进行融合。特征级融合数据格式统一、易于处理、数据传送量较少，但是会损失一部分信息。决策级融合是一种高层次的融合，首先由每个传感器基于检测数据给出决策；然后再对各个决策进行融合处理，得出最终的决策结果。决策级融合数据传送量小、抗干扰能力强、数据形式统一、易于处理，但是信息损失最为严重。总之，各种融合结构各有利弊，具体选用哪种结构完成信息融合，取决于具体问题的需要。目前比较常用的融合系统结构是特征级融合，因为它既有数据层融合信息损失小的优点，又有决策层融合数据易于传送和处理的优点。

信息融合算法主要源于对现有的信息处理方法的引用和改进，涉及到的理论也非常广泛。常用的融合方法可以归结如下：

a)估计理论方法。如卡尔曼滤波、小波变换、Gauss和滤波等。

b)基于概率论的方法。如经典概率推理、经典Bayes推理、Bayes凸集理论和信息论等。

c)非概率的方法。如DS证据推理、条件事件代数、随机集理论、粗集、小波变换等。

d)智能化方法。如模糊逻辑、人工神经网络、支持向量机、进化算法等。

在具体应用中选择和构造怎样的信息融合系统以及采用何种融合算法取决于应用目标的需要。

在步骤S1中，音频分类单元11将音频信号分类为语音信号部分和非语音信号部分。在步骤S2中，关键词检索单元12从语音信号部分检索表示节目开始或结束的端点关键词，作为候选的端点关键词。在步骤S3中，内容分析单元13对通过关键词检索单元12检索出的候选的端点关键词的上下文进行内容分析，以确定候选的端点关键词是否为有效的端点关键词。在步骤S4中，节目端点时间确定单元14基于关键词检索单元12的检索结果和内容分析单元13的确定结果进行统计分析，确定节目的端点时间。

其中，对于与图1中相同作用的单元，省略重复的说明，而仅仅对不同之处进行说明。

图3中的节目端点时间检测装置1’除了包括图1中的音频分类单元11、关键词检索单元12、内容分析单元13和节目端点时间确定单元14之外，还包括：音频场景分析单元15，其将输入的音频信号划分为包含节目现场音频部分的多个部分；固定音频检索单元16，其在非语音信号部分中，检索固定音频部分；以及特征音频检索单元17，其从由音频分类单元11划分的非语音信号部分中，检索表示节目开始或结束的特征音频部分，其中，节目端点时间确定单元14还基于上述各单元的处理结果，来确定节目的端点时间。

音频场景分析单元15可以将整个输入的音频信号分为演播室音频、节目现场音频(比赛现场音频)、广告音乐和静音等部分。音频场景的划分方法有多种，作为一例，在本发明中采用以下方式，例如节目端点时间检测装置1’中还可以包括未图示的切换间隙检测单元，用于区分不同节目之间切换的间隙即静音部分，通过切换间隙检测单元检测不同节目之间切换间隙即静音部分，从而把音频划分为多个部分，然后例如通过基于模型的方法等方法将所划分的多个部分分别归类为演播室音频、节目现场音频(比赛现场音频)、广告音乐和静音等部分。另外，在上述几个部分中，上述音频分类单元11仅对音频信号中的节目现场音频(比赛现场音频)部分进行分类，从而分类为语音信号部分和非语音信号部分。通过由音频场景分析单元15对音频信号进行预先划分，从而可以提高音频分类单元11分类的效率，从而有助于节目端点时间的检索。

固定音频检索单元16用于在由音频分类单元11划分的非语音信号部分中，检索固定音频部分。此处，该“固定音频部分”是指某种节目开始之前的固定音频，在体育比赛中，比如NBA比赛开场之前会固定播放某一音乐，又比如某些足球比赛开始之前会播放参赛国家的国歌，这些固定音频都预示着比赛即将开始。这类固定音频通常位于非语音信号部分中，通过对该固定音频的捕捉，能够确定比赛大致开始时间，从而可以缩小检索范围，有助于有效的节目端点时间的确定。检索方法有多种，例如通过基于模板的检索方法、基于仿生模式识别的方法等，可以根据具体的需要来灵活选择。另外，虽然图中没有示出，但有时候上述固定音频会包含在上述广告音乐等部分中，因此固定音频检索单元16还可以在由上述音频场景分析单元15划分的多个部分中进行上述检索。

特征音频检索单元17用于从由音频分类单元11划分的非语音信号部分中，检索表示节目开始或结束的特征音频部分。这里的“特征音频部分”是指音乐、哨声以及击球等体育比赛特有的声音，由于这些声音仅仅出现在比赛中，因此随着这些比赛进行中特有的声音的出现或者消失，预示着比赛开始或者结束，通过对该特征音频进行检索，也可以大致确定比赛开始和结束的时间，从而可以缩小检索范围，有助于有效的节目端点时间的确定。作为检索方法有多种，例如通过基于模型的方法，如采用GMM/HMM训练模型的检测方法、采用svm的检测方法、或上述几类的融合方法等，可以根据具体的需要来灵活选择。另外，由于有时这些特征音频遍布整个比赛现场音频部分，因此优选仅在比赛现场音频部分的靠近两端的特定部分中检索上述特征音频部分，以确定比赛开始或结束的大致时间，这样可以大大提高检索的效率。

通过由上述固定音频检索单元16检索出的固定音频，或者由特征音频检索单元17检索出的特征音频，或者它们的组合，可以进一步缩小有效比赛的时间范围，从而关键词检索单元12可以在上述确定了的缩小后的时间范围内，对其中的，特别是靠近两端的特定范围内的语音信号进行检索，从而进一步提高检索的效率，有助于有效的节目端点时间的确定。

在本实施例中，节目端点时间确定单元14除了根据关键词检索和内容分析所获得的信息之外，还可以根据固定音频检索单元16以及特征音频检索单元1 7等的检索结果，综合进行统计分析，从而能够比第一实施例进一步提高有效的端点关键词的确定精度，从而提高节目端点时间的检索效率。其统计所采用的方法与第一实施例相同。

如上所述，在第二实施例的节目端点时间检测装置1’中，通过在第一实施例的节目端点时间检测装置1的基础上增加音频场景分析单元15、固定音频检索单元16以及特征音频检索单元17，从而能够比第一实施例的节目端点时间检测装置1更快速、准确地进行节目的端点检测，但根据需要的效果和性能的不同，在第一实施例的基础上增加音频场景分析单元15、固定音频检索单元16或特征音频检索单元17的其中任意一个，或者它们的任意组合而得到的上述实施例之外的变形例同样在本发明的保护范围之内。

首先，输入的体育比赛音频流由音频场景分析模块分为包括演播室音频、比赛现场音频、静音、广告音乐等多个部分。在这多个部分中，比赛现场音频部分通过音频分段和分类模块进一步划分为语音和非语音(包括音乐、哨声、噪声等，其中噪声中有时包括击球声等体育比赛特有的声音)部分。语音部分由语音识别模块进行处理，包括关键词识别模块和内容分析模块。信息融合技术模块对关键词识别结果、内容分析结果、非语音检索结果、以及固定音频检索结果等等进行综合分析，从而得到体育比赛场次起始时间。

下面，参照附图5来说明应用了本发明的节目端点时间检测装置1(1’)的节目信息检索系统2。该节目信息检索系统2通过对节目的音频信号进行处理，从而获得用户所需的节目信息，其中，至少包括：显示装置21，用于显示该系统的用户界面；节目导入装置22，将多个节目导入所述节目信息检索系统2，并在所述显示装置21中显示节目列表；以及上述实施例中已经说明了的节目端点时间检测装置1(1’)，关于节目端点时间检测装置1(1’)已经在上面进行了说明，这里不再赘述。此外，节目信息检索系统2还可以包括以下装置：节目类别检索装置23，对于由所述节目导入装置22导入的所述多个节目，根据节目所属的类别进行分类，并按照用户指示的类别，在显示装置21上显示该类别的节目列表；精彩事件检索装置24，检索节目中出现的喝彩声片断，并在显示装置21上显示其时间信息；以及解说员检索装置25，检索由特定解说员解说的节目部分，并以不同形式将不同解说员的解说部分的时间信息显示在显示装置21上，其中，所述关键词检索单元12还在显示装置21上显示由用户从所述节目列表中选择的节目所对应的关键词列表，并根据用户的选择来检索相应的关键词，并将该关键词的时间信息显示在显示装置21上。

为了便于用户操作，节目信息检索系统2具有显示装置21，并且在该显示装置21上显示该系统的用户界面，以供用户操作。所述显示装置可采用CRT显示器、液晶显示器、等离子显示器以及触摸面板等多种显示装置。

节目导入装置22将设置在节目信息检索系统2中的未图示的存储器的特定区域中存储的多个节目导入所述节目信息检索系统2，并在所述显示装置21中显示节目列表。从而，用户可以通过从该节目列表中选择自己需要的节目，由节目信息检索系统2进行检索分析。

另外，还可以包括节目类别检索装置23，其将节目进行分类，从而可以使得在显示装置21中显示各个类别的节目，而不是混杂在一起的各类节目。其分类方法例如可以通过上述关键词检索单元12的关键词检索来进行，具体说明如下，如果选择某种比赛特定的关键词进行检索，将得到的关键词按照置信度从大到小排列，这样就能得到置信度最大的N个关键词，若某种比赛的关键词及其置信度组合得到的数值最大，则该类别即为这场比赛的类别。在105场比赛(10种比赛类别)中，进行比赛类别判断结果证明：识别率100％。其中，所述特定的关键词也可以存储在上述未图示的存储器的特定区域中。

另外，节目类别检索装置23也可以用于上述实施例中的节目端点时间检测装置1(1’)，在由节目类别检索装置23预先判断节目类别之后，关键词检索单元12根据节目类型来检索与该节目类型相应的端点关键词。比如，足球中表示比赛开始的词语可能是“开球”，而台球比赛中则可能是“开杆”。通过在节目端点时间检测装置1(1’)导入节目类别判断的功能，从而能够缩小检索范围，提高检索效率和检索精度。

另外，在该节目信息检索系统2中，上述实施例中的关键词检索单元12还可以在显示装置21上显示由用户上述节目列表中选择的节目所对应的关键词列表，比如精彩事件、关键人名、队名等等，并根据用户的选择来检索相应的关键词，通过如上所述的关键词匹配等方法，检索相应的关键词并将其的时间信息显示在显示装置21上。同样，这些关键词也可以存储在上述未图示的存储器的特定区域中。

精彩事件检索装置24主要用于对节目中的喝彩声这样的表示精彩片断等持续的音频进行检索。喝彩声的检索可以采用多种方法，比如滑动窗分析框架和隐马尔科夫框架等，可以根据需要而灵活选择。前者[1]通过对音频流进行加窗，利用分类器对窗内片段的音频类型判定，实现对喝彩声的提取。

说话人检索装置25检索节目中由特定说话人说话的节目部分，并以不同形式将不同说话人的说话部分的时间信息显示在显示装置21上。这里，作为一例，可以检索体育比赛中的不同的解说员的解说部分，解说员检索例如可采用说话人识别来完成，目前方法有：GMM-UBM方法，SVM的方法，HMM的方法等，可以根据需要而灵活选择。

如以上所说明的，虽然本实施例的节目信息检索系统2中，提供了节目端点时间检测装置1(1’)、节目类别检索装置23、精彩事件检索装置24、解说员检索装置25以及关键词检索单元12等部分以实现相应的功能，但是也可以根据用户的需求，以各种形式对上述功能进行单独提供或者组合提供，而且它们的任意组合而得到的上述实施例之外的变形例同样在本发明的保护范围之内。

图6是表示节目信息检索系统2的用户界面的一例的示意图。

作为节目信息检索系统2的一例，在显示装置21上例如显示如下如图6所示的用户界面，其中，点击1处的下拉菜单，可以实现对不同体育比赛数据的选择，在本例中例如选择“足球”，在2处得到的筛选后的体育比赛列表，例如“2008-06-07-欧洲杯捷克-瑞士.wav”、“2008-06-07-欧洲杯葡萄牙-土耳其.wav”、“2008-06-11-欧洲杯瑞士-土耳其.wav”，双击2中的某个体育比赛，这里选择了第一个，在4处显示该体育比赛的音频文件，3处列出了相应于足球这一类别的待检测的关键词列表，5处分别用不同颜色表明不同的音频类别，6处分别用不同颜色表明不同的解说员。点击7、8、9分别可以用来分屏显示检索出来的关键词、场次的起始时间、欢呼声，检索结果显示在10的部分。

通过上述节目信息检索系统2，用户能够全方面的得到与其关注的比赛相关的各种信息。当然，上述功能并非一定全部包含在本发明的节目信息检索系统2中，可以按照客户定制而适当地组合提供。

上面，参照特定的实施例对本发明的发明内容进行了说明，但实施例仅仅是例示，并非对发明保护范围的限定。另外，为了说明的方便，以功能方框图的形式介绍了本发明的节目端点时间检测装置以及节目信息检索系统，但这样的节目端点时间检测装置以及节目信息检索系统也可以采用硬件、软件和它们的组合来实现，抑或通过公知的计算机来实现，这对于本领域技术人员是不言而喻的。

Claims

1.一种节目端点时间检测装置，通过对所述节目的音频信号进行处理，从而检测所述节目的端点时间，该装置包括：

音频分类单元，将所述音频信号分类为语音信号部分和非语音信号部分；

关键词检索单元，从所述语音信号部分检索表示节目开始或结束的端点关键词，作为候选的端点关键词；

内容分析单元，对通过所述关键词检索单元检索出的所述候选的端点关键词的上下文进行内容分析，以确定所述候选的端点关键词是否为有效的端点关键词；以及

节目端点时间确定单元，基于所述关键词检索单元的检索结果和所述内容分析单元的确定结果进行统计分析，确定节目的端点时间。

2.如权利要求1所述的节目端点时间检测装置，其中，

所述内容分析单元还通过对语音信号部分进行内容分析，从而确定与所述表示节目开始或结束的端点关键词相近的表述。

3.如权利要求1所述的节目端点时间检测装置，

还包括特征音频检索单元，其从所述非语音信号部分中，检索表示节目开始或结束的特征音频部分，

其中，所述节目端点时间确定单元还基于所述特征音频部分来确定节目的端点时间。

4.如权利要求3所述的节目端点时间检测装置，

所述关键词检索单元仅对由所述特征音频部分所确定的时间范围内的靠近两端的所述语音信号部分对进行检索。

5.如权利要求3所述的节目端点时间检测装置，

还包括音频场景分析单元，其将所述音频信号划分为包含节目现场音频部分的多个场景部分，

其中，所述音频分类单元仅将所述音频信号中的所述现场音频部分分类为语音信号部分和非语音信号部分。

6.如权利要求5所述的节目端点时间检测装置，

所述特征音频检索单元仅对所述节目现场音频部分中的靠近两端的所述非语音信号部分进行检索。

7.如权利要求1所述的节目端点时间检测装置，

还包括固定音频检索单元，其在所述非语音信号部分中，检索固定音频部分，所述固定音频部分是表示节目即将开始的音频部分，

其中，所述节目端点时间确定单元还基于所述固定音频部分来确定节目的端点时间。

8.如权利要求7所述的节目端点时间检测装置，

所述关键词检索单元仅对由所述固定音频部分所确定的时间范围内的靠近两端的所述语音信号部分对进行检索。

9.如权利要求7所述的节目端点时间检测装置，

所述固定音频检索单元还在由所述音频场景分析单元划分的所述多个场景部分中检索所述固定音频部分。

10.如权利要求5所述的节目端点时间检测装置，

还包括切换间隙检测单元，其在所述音频信号中检测表示不同节目部分之间的切换的静音部分，从而将所述音频信号划分为多个部分，

其中，所述音频场景分析单元对由所述切换间隙检测单元划分的多个部分进行分析，从而分为所述多个场景部分。

11.如权利要求1所述的节目端点时间检测装置，

12.如权利要求1～11的任何一项所述的节目端点时间检测装置，

还包括节目分类单元，从所述语音信号部分检索表示节目类型的关键词，以判断节目类型，

其中，所述关键词检索单元根据所述节目类型来检索相应的端点关键词。

13.如权利要求1～11的任何一项所述的节目端点时间检测装置，还包括：

语音识别单元，对所述语音信号部分进行语音识别，并构建相应的检索文件；以及

存储单元，存储有表示节目特征的关键词，所述关键词至少包括表示节目开始或结束的端点关键词，

其中，所述关键词检索单元从所述检索文件中检索所述表示节目开始或结束的端点关键词，作为候选的端点关键词，

所述内容分析单元对所述检索文件中通过所述关键词检索单元检索出的所述候选的端点关键词的上下文进行内容分析，以确定有效的端点关键词。

14.一种节目端点时间检测方法，通过对所述节目的音频信号进行处理，从而检测所述节目的端点时间，该方法包括：

音频分类步骤，将所述音频信号分类为语音信号部分和非语音信号部分；

关键词检索步骤，从所述语音信号部分检索表示节目开始或结束的端点关键词，作为候选的端点关键词；

内容分析步骤，对通过所述关键词检索步骤检索出的所述候选的端点关键词的上下文进行内容分析，以确定所述候选的端点关键词是否为有效的端点关键词；以及

节目端点时间确定步骤，基于所述关键词检索步骤的检索结果和所述内容分析步骤的确定结果进行统计分析，确定节目的端点时间。

15.如权利要求14所述的节目端点时间检测方法，其中，

所述内容分析步骤中还包括通过对语音信号部分进行内容分析，从而确定与所述表示节目开始或结束的端点关键词相近的表述的步骤。

16.如权利要求14所述的节目端点时间检测方法，

还包括特征音频检索步骤，其从所述非语音信号部分中，检索表示节目开始或结束的特征音频部分，

其中，所述节目端点时间确定步骤还基于所述特征音频部分来确定节目的端点时间。

17.如权利要求16所述的节目端点时间检测装置，

所述关键词检索步骤中仅对由所述特征音频部分所确定的时间范围内的靠近两端的所述语音信号部分对进行检索。

18.如权利要求16所述的节目端点时间检测方法，

还包括音频场景分析步骤，其将所述音频信号划分为包含节目现场音频部分的多个部分，

其中，所述音频分类步骤仅将所述音频信号中的所述现场音频部分分类为语音信号部分和非语音信号部分。

19.如权利要求18所述的节目端点时间检测方法，

所述特征音频检索步骤中仅对所述节目现场音频部分中的靠近两端的所述非语音信号部分进行检索。

20.如权利要求14所述的节目端点时间检测方法，

还包括固定音频检索步骤，其在所述非语音信号部分中，检索固定音频部分，所述固定音频部分是表示节目即将开始的音频部分，

其中，所述节目端点时间确定步骤还基于所述固定音频部分来确定节目的端点时间。

21.如权利要求20所述的节目端点时间检测装置，

所述关键词检索步骤中仅对由所述固定音频部分所确定的时间范围内的靠近两端的所述语音信号部分对进行检索。

22.如权利要求20所述的节目端点时间检测方法，

所述固定音频检索步骤中，还在在所述音频场景分析步骤中划分的所述多个场景部分中检索所述固定音频部分。

23.如权利要求18所述的节目端点时间检测方法，

所述音频场景分析步骤中还包括切换间隙检测步骤，其在所述音频信号中检测表示不同节目部分之间的切换的静音部分，从而将所述音频信号划分为多个部分，

其中，所述音频场景分析步骤中对由所述切换间隙检测单元划分的多个部分进行分析，从而分为所述多个场景部分。

24.如权利要求14所述的节目端点时间检测方法，

25.如权利要求14～24的任何一项所述的节目端点时间检测方法，还包括：

节目分类步骤，从所述语音信号部分检索表示节目类型的关键词，以判断节目类型；

其中，所述关键词检索步骤根据所述节目类型来检索相应的端点关键词。

26.如权利要求14～24的任何一项所述的节目端点时间检测方法，还包括语音识别步骤，对所述语音信号部分进行语音识别，并构建相应的检索文件，

其中，所述关键词检索步骤从存储单元中提取表示节目开始或结束的端点关键词，并从所述检索文件中检索所述表示节目开始或结束的端点关键词，作为候选的端点关键词，

所述内容分析步骤对所述检索文件中通过所述关键词检索步骤检索出的所述候选的端点关键词的上下文进行内容分析，以确定有效的端点关键词。

27.一种节目信息检索系统，通过对所述节目的音频信号进行处理，从而获得用户所需的节目信息，该系统包括：

显示装置，用于显示该系统的用户界面；

节目导入装置，将多个节目导入所述节目信息检索系统，并在所述显示装置中显示节目列表；以及

节目端点时间检测装置，对用户从所述节目列表中选择的节目进行分析，以得到所述节目的端点时间，并显示在所述显示装置上，

所述节目端点时间检测装置包括：

28.如权利要求27所述的信息检索系统，该系统还包括：

节目类别检索装置，对于由所述节目导入装置导入的所述多个节目，根据节目所属的类别进行分类，并按照用户指示的类别，在显示装置上显示该类别的节目列表。

29.如权利要求27所述的信息检索系统，该系统还包括：

精彩事件检索装置，检索节目中出现的喝彩声片断，并在显示装置上显示其时间信息。

30.如权利要求27所述的信息检索系统，该系统还包括：

说话人检索装置，检索特定的说话人说话的节目部分，并以不同形式将不同说话人的说话部分的时间信息显示在显示装置上。

31.如权利要求27所述的信息检索系统，其中，

所述关键词检索单元还在显示装置上显示由用户从所述节目列表中选择的节目所对应的关键词列表，并根据用户的选择来检索相应的关键词，并将该关键词的时间信息显示在显示装置上。