CN102073635A - 节目端点时间检测装置和方法以及节目信息检索系统 - Google Patents
节目端点时间检测装置和方法以及节目信息检索系统 Download PDFInfo
- Publication number
- CN102073635A CN102073635A CN2009102089502A CN200910208950A CN102073635A CN 102073635 A CN102073635 A CN 102073635A CN 2009102089502 A CN2009102089502 A CN 2009102089502A CN 200910208950 A CN200910208950 A CN 200910208950A CN 102073635 A CN102073635 A CN 102073635A
- Authority
- CN
- China
- Prior art keywords
- program
- end points
- keyword
- audio
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims description 59
- 238000004458 analytical method Methods 0.000 claims abstract description 52
- 230000005236 sound signal Effects 0.000 claims abstract description 36
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000008676 import Effects 0.000 claims description 5
- 238000011282 treatment Methods 0.000 abstract description 3
- 230000004927 fusion Effects 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 9
- 238000011065 in-situ storage Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 239000007799 cork Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及多媒体内容的检索,提供一种节目端点时间检测装置,通过对节目的音频信号进行处理,从而检测节目的端点时间,其包括:音频分类单元,将音频信号分类为语音信号部分和非语音信号部分;关键词检索单元,从语音信号部分检索表示节目开始或结束的端点关键词,作为候选的端点关键词;内容分析单元,对通过关键词检索单元检索出的候选的端点关键词的上下文进行内容分析,以确定候选的端点关键词是否为有效的端点关键词;节目端点时间确定单元,基于关键词检索单元的检索结果和内容分析单元的确定结果进行统计分析,确定节目的端点时间。另外,本发明还提供一种节目信息检索系统。通过本发明,可以迅速得到有关用户关注的节目的节目信息。
Description
技术领域
本发明涉及多媒体内容检索领域,特别涉及一种采用音频信号处理的方法对节目的端点时间进行检测的节目端点时间检测装置和方法以及节目信息检索系统。
背景技术
一般体育视频比赛时间比较长,而往往广大体育爱好者真正关心的内容通常只占居整场内容的很小一部分。随着越来越多的体育视频冲击,使得人们对体育视频的有效检索和管理的要求也越来越迫切。很多时候,人们没有足够时间观看实况转播,因此,很多爱好者会采取将体育节目录制出来,然后等自己有时间的时候再拿出来观看。在观看的时候,用户会有选择的观看其中的一些重要场次,比如下半场、决赛局等。因此,在这种情况下,能够准确获取比赛场次的起始时间信息是非常重要的。
另一方面,如果需要从中找到自己关注的内容,往往需要用户从头至尾遍历一遍之后才能找到所需内容,这样既费时又费力。因此,如果能够有这样一个体育内容检索系统,可以帮助用户检索一些真正关心的内容,就可以大大节约时间。
关于上述课题,本领域技术人员进行了如下的研究。
非专利文献1中,仅利用语音信息来对广告,篮球比赛,足球比赛,新闻报道和天气预报5类电视节目进行识别,采用的是神经网络分类器,最后结合图像分析以提高准确性,没有对电视节目的内容进行分析和检索。
非专利文献2中,结合视频特征用决策树来检测足球比赛进球场景,但是仅对一种体育比赛中的进球进行检索,该检测框架仅适用于足球比赛,对于其他的比赛就不适用了。
专利文献1中,同时利用音频和视频特征对体育比赛进行场景分类,包括:场地全景、特写镜头、角球、任意球和进球五类场景,其中音频特征主要是用来识别鼓掌声和哨声两种类别。
专利文献2中,仅仅利用语音识别技术得到文本内容,在识别后得到的文本内容里面进行待搜索内容匹配,得到需要检索的内容。
专利文献3中,第一阶段对有人工标注的多媒体数据利用语义标签进行相关音频寻找,第二阶段,基于语义标签的音频查询结果在线训练该类音乐特征,并利用于音频内容的查询。
专利文献4中,提出了一种音频、视频内容的采集方法和检索方法,其中音频方面采用将声音分段后识别,生成声音与文字的对应关系表,用户使用所需声音片断对用的文字在该对应关系表中进行检索。
从以上研究可以看出,目前已有的研究仅对某一两种体育比赛内容的特定内容进行分析和检测,这些研究针对性强,不能很好的扩展到其他类别的体育比赛的内容检索中去。而随着体育比赛种类的日益增加,消费者越来越不可能有足够的时间将整场比赛从头至尾的观看一遍了,因此,如何能够提供一套自动的体育比赛的内容检索系统,从而帮助用户快速方便的检索出自己关注的内容是目前广大体育爱好者们迫切关注的问题。
非专利文献1:Liu,Z.,et al.,“Audio feature extraction and analysis for scenesegmentation and classification”,Journal of VLSI Signal Processing,pp.61 to 70(1998).
非专利文献2:Shu-Ching Chen,Mei-ling Shyu,Min Chen,Chengcui Zhang,“A decision tree-based multimodal data mining framework for soccer goaldetection”,2004 IEEE International Conference on Multimedia and Expo,Volume1,June 2004,pp.265-268.
专利文献1:US 2005/0195331 A1
专利文献2:CN101281534
专利文献3:CN101364222
专利文献4:CN101102240
发明内容
为了实现上述目的,本发明提供一种节目端点时间检测装置,通过对所述节目的音频信号进行处理,从而检测所述节目的端点时间,该装置包括:音频分类单元,将所述音频信号分类为语音信号部分和非语音信号部分;关键词检索单元,从所述语音信号部分检索表示节目开始或结束的端点关键词,作为候选的端点关键词;内容分析单元,对通过所述关键词检索单元检索出的所述候选的端点关键词的上下文进行内容分析,以确定所述候选的端点关键词是否为有效的端点关键词;以及节目端点时间确定单元,基于所述关键词检索单元的检索结果和所述内容分析单元的确定结果进行统计分析,确定节目的端点时间。
本发明还提供一种节目端点时间检测方法,通过对所述节目的音频信号进行处理,从而检测所述节目的端点时间,该方法包括:音频分类步骤,将所述音频信号分类为语音信号部分和非语音信号部分;关键词检索步骤,从所述语音信号部分检索表示节目开始或结束的端点关键词,作为候选的端点关键词;内容分析步骤,对通过所述关键词检索步骤检索出的所述候选的端点关键词的上下文进行内容分析,以确定所述候选的端点关键词是否为有效的端点关键词;以及节目端点时间确定步骤,基于所述关键词检索步骤的检索结果和所述内容分析步骤的确定结果进行统计分析,确定节目的端点时间。
另外,本发明还提供一种节目信息检索系统,通过对所述节目的音频信号进行处理,从而获得用户所需的节目信息,该系统包括:显示装置,用于显示该系统的用户界面;节目导入装置,将多个节目导入所述节目信息检索系统,并在所述显示装置中显示节目列表;以及节目端点时间检测装置,对用户从节目列表中选择的节目进行分析,以得到所述节目的端点时间,并显示在所述显示装置上,所述节目端点时间检测装置包括:音频分类单元,将所述音频信号分类为语音信号部分和非语音信号部分;关键词检索单元,从所述语音信号部分检索表示节目开始或结束的端点关键词,作为候选的端点关键词;内容分析单元,对通过所述关键词检索单元检索出的所述候选的端点关键词的上下文进行内容分析,以确定所述候选的端点关键词是否为有效的端点关键词;以及节目端点时间确定单元,基于所述关键词检索单元的检索结果和所述内容分析单元的确定结果进行统计分析,确定节目的端点时间。
通过本发明的节目端点时间检测装置和方法,用户可以快速从冗长的节目视频中轻松地找到节目的准确开始和结束时间点。
另外,通过本发明的节目信息检索系统,可以对节目内容进行理解和分析,帮助用户提取一些感兴趣的事件和信息,比如检索节目的类别,检索精彩事件,检索关键人名和队名等,检索不同节目的开始和结束时间点等等。
附图说明
图1是表示本发明的第一实施例的节目端点时间检测装置1的方框图。
图2是表示本发明的第一实施例的节目端点时间检测方法的流程图。
图3是表示本发明的第二实施例的节目端点时间检测装置1’的方框图。
图4是表示本发明的第二实施例的节目端点时间检测装置1’的模块概念图。
图5是表示应用了本发明的节目端点时间检测装置1(1’)的节目信息检索系统2的方框图。
图6是表示节目信息检索系统2的用户界面的一例的示意图。
具体实施方式
下面,基于附图说明本发明的具体实施方式。
本发明中所提到的“节目”一词包括体育比赛、文艺表演、电视剧、话剧、电视访谈、音乐会、家庭录像等等,一切观众想要观看/收听(视听)的包括音频、视频等在内的多媒体内容。另外,节目的“端点”是指节目中观众所真正关心的部分的开始点和结束点,比如足球比赛中的上下半场的开始点和结束点。在下面的说明中主要以体育比赛节目为例进行说明,但本发明不限于对体育比赛节目的检索,本发明可以适用于包括上述列举的以及列举以外的任何节目内容的检索。
图1是表示本发明的第一实施例的节目端点时间检测装置1的方框图。
如图1所示,所述节目端点时间检测装置1包括:音频分类单元11,将音频信号分类为语音信号部分和非语音信号部分;关键词检索单元12,从语音信号部分检索表示节目开始或结束的端点关键词,作为候选的端点关键词;内容分析单元13,对通过关键词检索单元12检索出的候选的端点关键词的上下文进行内容分析,以确定候选的端点关键词是否为有效的端点关键词;以及节目端点时间确定单元14,基于关键词检索单元12的检索结果和内容分析单元13的确定结果进行统计分析,确定节目的端点时间。上述各单元可以通过分别独立的装置来实现,也可以是部分或全部集成在同一集成电路上,也可以采用公知的计算机来实现,这对于本领域技术人员是不言而喻的。
音频分类单元11通过未图示的接口取入音频信号,并将音频信号的语音信号部分和非语音信号部分进行分离。作为其分离方法,可以采用基于模型的分类方法,或者基于聚类的方法,或者二者结合的方法等多种方法。以二者结合方法为例,如表1所示,以10种比赛为例,语音分段的结果为:
表1
运动 | 精度 | 召回率 | F值 |
篮球 | 88.03% | 91.40% | 89.69% |
网球 | 92.05% | 94.20% | 93.11% |
足球 | 89.84% | 94.42% | 92.07% |
网球 | 85.39% | 94.37% | 89.65% |
高尔夫 | 69.25% | 94.87% | 80.06% |
羽毛球 | 92.34% | 87.37% | 89.79% |
乒乓球 | 93.25% | 91.87% | 92.56% |
曲棍球 | 96.31% | 86.89% | 91.36% |
沙滩排球 | 92.71% | 89.74% | 91.20% |
台球 | 90.29% | 91.95% | 91.11% |
平均 | 88.90% | 91.70% | 90.28% |
其中:
精度(语音)=正确提取语音的持续时间/结果全部语音的持续时间
召回率(语音)=正确提取语音的持续时间/全部相关语音的持续时间
F值=2×精度×召回率/(精度+召回率)
作为一例,关键词检索单元12首先将由音频分类单元11分段得到的语音信号部分进行输入识别系统,将得到的识别结果构建一个检索文件,最后在这个检索文件里面搜索需要的关键词即进行关键词匹配,最终得到关键词结果。上述关键词可以预先存储在未图示的存储器中,由关键词检索单元12调用来进行上述关键词检索。在这里需要选取的关键词是指与比赛开始/结束相关联的词语,即端点关键词,比如“比赛开始”、“开始”、“开球”、“开赛”、“结束”、“终止”等等。所述未图示的存储器中,除了上述端点关键词之外,还可以存储用于其他检索目的的其它的关键词以及其它内容,这将在下面进一步叙述。另外,由于类似与“比赛开始”这样的词语在比赛中间也会出现,因此,我们还需要其他的信息辅助以得到最终的结果,从而得到有效的端点关键词,这将在下面叙述。在10种体育类别105场比赛中的关键词检索性能如表2所示:
表2
运动 | 关键词出现个数 | 关键词检测正确率 |
羽毛球 | 89 | 64.25 |
乒乓球 | 70 | 67.62 |
高尔夫 | 131 | 78.19 |
排球 | 140 | 71.46 |
网球 | 264 | 73.28 |
篮球 | 149 | 58.72 |
足球 | 176 | 69.65 |
沙滩排球 | 94 | 65.42 |
曲棍球 | 155 | 62.68 |
台球 | 385 | 65.04 |
平均 | 165 | 67.63 |
另外,作为关键词检索的技术,不限于本例中的上述通过检索文件匹配进行关键词检索的方法,除此以外,也有直接从音频上来进行模型匹配的关键词检索的技术,称之为基于垃圾模型(Garbage model based)的检索方法等。由于这种方法虚警比较高,而且与本发明所采用的基于文本匹配的关键词检索方法相比,后者性能更加稳定,因此在本发明中采用基于文本匹配的方法来进行关键词检索。当然,本领域技术人员可以根据需要来适当选择关键词检索方法。
内容分析单元13对上述关键词检索单元12检索处的关键词前后的上下文的语句进行分析,这里,作为一例,对体育比赛中的解说内容进行分析,以判断比赛是否开始。比如解说员说道“现在比赛已经开始10分钟了”,或者“比赛即将结束”,而在此时,由于其语句中包含“开始”“结束”这样的关键词,因此会被关键词检索单元12检索作为候选的端点关键词。但是,由于此时实际上已经距离比赛开始有10分钟,或者比赛尚未结束,此时,内容分析单元13对此处的“开始”“结束”这样的关键词的上下文进行分析,从而能够判定此处的“开始”实质上为虚警,从而可以予以排除。
另外,由于描述比赛开始/结束的词语很多,而且有些时候解说员不明确说“比赛开始/结束”这类词语,在这种情况下,内容分析单元13还可以检索与“比赛开始/结束”这类词语这类表述相似的表述,从而确定比赛是否已经开始/结束了。
作为内容分析单元13所采用的方法,可以利用自然语言理解技术(NaturalLanguage Understanding)来完成上述工作,关于上述自然语言理解技术,例如参见网页:http://home.donews.com/donews/article/1/18368.html以及http://www.dmresearch.net/Natural-Language-Understanding/200412/1907.html等中的介绍。当然,除了自然语言理解技术以外,也可以使用其它任何能够实现上述目的的方法,这对本领域技术人员来说是不言自明的。
节目端点时间确定单元14将以上所能得到的信息进行统计分析,用以最终判断节目,即比赛场次的起始时间信息。节目端点时间确定单元14可以采用很多方法进行统计分析,这里,作为一例,在本发明中采用了信息融合技术。
信息融合系统结构有多种形式、多种级别、多种层次。按照融合层次分类,常用的信息融合系统结构可分为三类,即数据层融合、特征层融合、决策层融合。数据级融合是最低层次的融合,直接对多传感器的观测数据进行融合处理;然后基于融合后的结果进行特征提取和判断决策。采用数据级融合监测信息损失小,但是数据传送量大、数据格式不统一、难以处理。特征级融合属于中间层次的融合,首先对每个传感器的检测数据进行加工处理,获取各自的特征向量;然后对各个特征向量进行融合。特征级融合数据格式统一、易于处理、数据传送量较少,但是会损失一部分信息。决策级融合是一种高层次的融合,首先由每个传感器基于检测数据给出决策;然后再对各个决策进行融合处理,得出最终的决策结果。决策级融合数据传送量小、抗干扰能力强、数据形式统一、易于处理,但是信息损失最为严重。总之,各种融合结构各有利弊,具体选用哪种结构完成信息融合,取决于具体问题的需要。目前比较常用的融合系统结构是特征级融合,因为它既有数据层融合信息损失小的优点,又有决策层融合数据易于传送和处理的优点。
信息融合算法主要源于对现有的信息处理方法的引用和改进,涉及到的理论也非常广泛。常用的融合方法可以归结如下:
a)估计理论方法。如卡尔曼滤波、小波变换、Gauss和滤波等。
b)基于概率论的方法。如经典概率推理、经典Bayes推理、Bayes凸集理论和信息论等。
c)非概率的方法。如DS证据推理、条件事件代数、随机集理论、粗集、小波变换等。
d)智能化方法。如模糊逻辑、人工神经网络、支持向量机、进化算法等。
在具体应用中选择和构造怎样的信息融合系统以及采用何种融合算法取决于应用目标的需要。
图2是表示本发明的第一实施例的节目端点时间检测方法的流程图。
在步骤S1中,音频分类单元11将音频信号分类为语音信号部分和非语音信号部分。在步骤S2中,关键词检索单元12从语音信号部分检索表示节目开始或结束的端点关键词,作为候选的端点关键词。在步骤S3中,内容分析单元13对通过关键词检索单元12检索出的候选的端点关键词的上下文进行内容分析,以确定候选的端点关键词是否为有效的端点关键词。在步骤S4中,节目端点时间确定单元14基于关键词检索单元12的检索结果和内容分析单元13的确定结果进行统计分析,确定节目的端点时间。
图3是表示本发明的第二实施例的节目端点时间检测装置1’的方框图。
其中,对于与图1中相同作用的单元,省略重复的说明,而仅仅对不同之处进行说明。
图3中的节目端点时间检测装置1’除了包括图1中的音频分类单元11、关键词检索单元12、内容分析单元13和节目端点时间确定单元14之外,还包括:音频场景分析单元15,其将输入的音频信号划分为包含节目现场音频部分的多个部分;固定音频检索单元16,其在非语音信号部分中,检索固定音频部分;以及特征音频检索单元17,其从由音频分类单元11划分的非语音信号部分中,检索表示节目开始或结束的特征音频部分,其中,节目端点时间确定单元14还基于上述各单元的处理结果,来确定节目的端点时间。
音频场景分析单元15可以将整个输入的音频信号分为演播室音频、节目现场音频(比赛现场音频)、广告音乐和静音等部分。音频场景的划分方法有多种,作为一例,在本发明中采用以下方式,例如节目端点时间检测装置1’中还可以包括未图示的切换间隙检测单元,用于区分不同节目之间切换的间隙即静音部分,通过切换间隙检测单元检测不同节目之间切换间隙即静音部分,从而把音频划分为多个部分,然后例如通过基于模型的方法等方法将所划分的多个部分分别归类为演播室音频、节目现场音频(比赛现场音频)、广告音乐和静音等部分。另外,在上述几个部分中,上述音频分类单元11仅对音频信号中的节目现场音频(比赛现场音频)部分进行分类,从而分类为语音信号部分和非语音信号部分。通过由音频场景分析单元15对音频信号进行预先划分,从而可以提高音频分类单元11分类的效率,从而有助于节目端点时间的检索。
固定音频检索单元16用于在由音频分类单元11划分的非语音信号部分中,检索固定音频部分。此处,该“固定音频部分”是指某种节目开始之前的固定音频,在体育比赛中,比如NBA比赛开场之前会固定播放某一音乐,又比如某些足球比赛开始之前会播放参赛国家的国歌,这些固定音频都预示着比赛即将开始。这类固定音频通常位于非语音信号部分中,通过对该固定音频的捕捉,能够确定比赛大致开始时间,从而可以缩小检索范围,有助于有效的节目端点时间的确定。检索方法有多种,例如通过基于模板的检索方法、基于仿生模式识别的方法等,可以根据具体的需要来灵活选择。另外,虽然图中没有示出,但有时候上述固定音频会包含在上述广告音乐等部分中,因此固定音频检索单元16还可以在由上述音频场景分析单元15划分的多个部分中进行上述检索。
特征音频检索单元17用于从由音频分类单元11划分的非语音信号部分中,检索表示节目开始或结束的特征音频部分。这里的“特征音频部分”是指音乐、哨声以及击球等体育比赛特有的声音,由于这些声音仅仅出现在比赛中,因此随着这些比赛进行中特有的声音的出现或者消失,预示着比赛开始或者结束,通过对该特征音频进行检索,也可以大致确定比赛开始和结束的时间,从而可以缩小检索范围,有助于有效的节目端点时间的确定。作为检索方法有多种,例如通过基于模型的方法,如采用GMM/HMM训练模型的检测方法、采用svm的检测方法、或上述几类的融合方法等,可以根据具体的需要来灵活选择。另外,由于有时这些特征音频遍布整个比赛现场音频部分,因此优选仅在比赛现场音频部分的靠近两端的特定部分中检索上述特征音频部分,以确定比赛开始或结束的大致时间,这样可以大大提高检索的效率。
通过由上述固定音频检索单元16检索出的固定音频,或者由特征音频检索单元17检索出的特征音频,或者它们的组合,可以进一步缩小有效比赛的时间范围,从而关键词检索单元12可以在上述确定了的缩小后的时间范围内,对其中的,特别是靠近两端的特定范围内的语音信号进行检索,从而进一步提高检索的效率,有助于有效的节目端点时间的确定。
在本实施例中,节目端点时间确定单元14除了根据关键词检索和内容分析所获得的信息之外,还可以根据固定音频检索单元16以及特征音频检索单元1 7等的检索结果,综合进行统计分析,从而能够比第一实施例进一步提高有效的端点关键词的确定精度,从而提高节目端点时间的检索效率。其统计所采用的方法与第一实施例相同。
如上所述,在第二实施例的节目端点时间检测装置1’中,通过在第一实施例的节目端点时间检测装置1的基础上增加音频场景分析单元15、固定音频检索单元16以及特征音频检索单元17,从而能够比第一实施例的节目端点时间检测装置1更快速、准确地进行节目的端点检测,但根据需要的效果和性能的不同,在第一实施例的基础上增加音频场景分析单元15、固定音频检索单元16或特征音频检索单元17的其中任意一个,或者它们的任意组合而得到的上述实施例之外的变形例同样在本发明的保护范围之内。
图4是表示本发明的第二实施例的节目端点时间检测装置1’的模块概念图。
首先,输入的体育比赛音频流由音频场景分析模块分为包括演播室音频、比赛现场音频、静音、广告音乐等多个部分。在这多个部分中,比赛现场音频部分通过音频分段和分类模块进一步划分为语音和非语音(包括音乐、哨声、噪声等,其中噪声中有时包括击球声等体育比赛特有的声音)部分。语音部分由语音识别模块进行处理,包括关键词识别模块和内容分析模块。信息融合技术模块对关键词识别结果、内容分析结果、非语音检索结果、以及固定音频检索结果等等进行综合分析,从而得到体育比赛场次起始时间。
图5是表示应用了本发明的节目端点时间检测装置1(1’)的节目信息检索系统2的方框图。
下面,参照附图5来说明应用了本发明的节目端点时间检测装置1(1’)的节目信息检索系统2。该节目信息检索系统2通过对节目的音频信号进行处理,从而获得用户所需的节目信息,其中,至少包括:显示装置21,用于显示该系统的用户界面;节目导入装置22,将多个节目导入所述节目信息检索系统2,并在所述显示装置21中显示节目列表;以及上述实施例中已经说明了的节目端点时间检测装置1(1’),关于节目端点时间检测装置1(1’)已经在上面进行了说明,这里不再赘述。此外,节目信息检索系统2还可以包括以下装置:节目类别检索装置23,对于由所述节目导入装置22导入的所述多个节目,根据节目所属的类别进行分类,并按照用户指示的类别,在显示装置21上显示该类别的节目列表;精彩事件检索装置24,检索节目中出现的喝彩声片断,并在显示装置21上显示其时间信息;以及解说员检索装置25,检索由特定解说员解说的节目部分,并以不同形式将不同解说员的解说部分的时间信息显示在显示装置21上,其中,所述关键词检索单元12还在显示装置21上显示由用户从所述节目列表中选择的节目所对应的关键词列表,并根据用户的选择来检索相应的关键词,并将该关键词的时间信息显示在显示装置21上。
为了便于用户操作,节目信息检索系统2具有显示装置21,并且在该显示装置21上显示该系统的用户界面,以供用户操作。所述显示装置可采用CRT显示器、液晶显示器、等离子显示器以及触摸面板等多种显示装置。
节目导入装置22将设置在节目信息检索系统2中的未图示的存储器的特定区域中存储的多个节目导入所述节目信息检索系统2,并在所述显示装置21中显示节目列表。从而,用户可以通过从该节目列表中选择自己需要的节目,由节目信息检索系统2进行检索分析。
另外,还可以包括节目类别检索装置23,其将节目进行分类,从而可以使得在显示装置21中显示各个类别的节目,而不是混杂在一起的各类节目。其分类方法例如可以通过上述关键词检索单元12的关键词检索来进行,具体说明如下,如果选择某种比赛特定的关键词进行检索,将得到的关键词按照置信度从大到小排列,这样就能得到置信度最大的N个关键词,若某种比赛的关键词及其置信度组合得到的数值最大,则该类别即为这场比赛的类别。在105场比赛(10种比赛类别)中,进行比赛类别判断结果证明:识别率100%。其中,所述特定的关键词也可以存储在上述未图示的存储器的特定区域中。
另外,节目类别检索装置23也可以用于上述实施例中的节目端点时间检测装置1(1’),在由节目类别检索装置23预先判断节目类别之后,关键词检索单元12根据节目类型来检索与该节目类型相应的端点关键词。比如,足球中表示比赛开始的词语可能是“开球”,而台球比赛中则可能是“开杆”。通过在节目端点时间检测装置1(1’)导入节目类别判断的功能,从而能够缩小检索范围,提高检索效率和检索精度。
另外,在该节目信息检索系统2中,上述实施例中的关键词检索单元12还可以在显示装置21上显示由用户上述节目列表中选择的节目所对应的关键词列表,比如精彩事件、关键人名、队名等等,并根据用户的选择来检索相应的关键词,通过如上所述的关键词匹配等方法,检索相应的关键词并将其的时间信息显示在显示装置21上。同样,这些关键词也可以存储在上述未图示的存储器的特定区域中。
精彩事件检索装置24主要用于对节目中的喝彩声这样的表示精彩片断等持续的音频进行检索。喝彩声的检索可以采用多种方法,比如滑动窗分析框架和隐马尔科夫框架等,可以根据需要而灵活选择。前者[1]通过对音频流进行加窗,利用分类器对窗内片段的音频类型判定,实现对喝彩声的提取。
说话人检索装置25检索节目中由特定说话人说话的节目部分,并以不同形式将不同说话人的说话部分的时间信息显示在显示装置21上。这里,作为一例,可以检索体育比赛中的不同的解说员的解说部分,解说员检索例如可采用说话人识别来完成,目前方法有:GMM-UBM方法,SVM的方法,HMM的方法等,可以根据需要而灵活选择。
如以上所说明的,虽然本实施例的节目信息检索系统2中,提供了节目端点时间检测装置1(1’)、节目类别检索装置23、精彩事件检索装置24、解说员检索装置25以及关键词检索单元12等部分以实现相应的功能,但是也可以根据用户的需求,以各种形式对上述功能进行单独提供或者组合提供,而且它们的任意组合而得到的上述实施例之外的变形例同样在本发明的保护范围之内。
图6是表示节目信息检索系统2的用户界面的一例的示意图。
作为节目信息检索系统2的一例,在显示装置21上例如显示如下如图6所示的用户界面,其中,点击1处的下拉菜单,可以实现对不同体育比赛数据的选择,在本例中例如选择“足球”,在2处得到的筛选后的体育比赛列表,例如“2008-06-07-欧洲杯捷克-瑞士.wav”、“2008-06-07-欧洲杯葡萄牙-土耳其.wav”、“2008-06-11-欧洲杯瑞士-土耳其.wav”,双击2中的某个体育比赛,这里选择了第一个,在4处显示该体育比赛的音频文件,3处列出了相应于足球这一类别的待检测的关键词列表,5处分别用不同颜色表明不同的音频类别,6处分别用不同颜色表明不同的解说员。点击7、8、9分别可以用来分屏显示检索出来的关键词、场次的起始时间、欢呼声,检索结果显示在10的部分。
通过上述节目信息检索系统2,用户能够全方面的得到与其关注的比赛相关的各种信息。当然,上述功能并非一定全部包含在本发明的节目信息检索系统2中,可以按照客户定制而适当地组合提供。
上面,参照特定的实施例对本发明的发明内容进行了说明,但实施例仅仅是例示,并非对发明保护范围的限定。另外,为了说明的方便,以功能方框图的形式介绍了本发明的节目端点时间检测装置以及节目信息检索系统,但这样的节目端点时间检测装置以及节目信息检索系统也可以采用硬件、软件和它们的组合来实现,抑或通过公知的计算机来实现,这对于本领域技术人员是不言而喻的。
Claims (31)
1.一种节目端点时间检测装置,通过对所述节目的音频信号进行处理,从而检测所述节目的端点时间,该装置包括:
音频分类单元,将所述音频信号分类为语音信号部分和非语音信号部分;
关键词检索单元,从所述语音信号部分检索表示节目开始或结束的端点关键词,作为候选的端点关键词;
内容分析单元,对通过所述关键词检索单元检索出的所述候选的端点关键词的上下文进行内容分析,以确定所述候选的端点关键词是否为有效的端点关键词;以及
节目端点时间确定单元,基于所述关键词检索单元的检索结果和所述内容分析单元的确定结果进行统计分析,确定节目的端点时间。
2.如权利要求1所述的节目端点时间检测装置,其中,
所述内容分析单元还通过对语音信号部分进行内容分析,从而确定与所述表示节目开始或结束的端点关键词相近的表述。
3.如权利要求1所述的节目端点时间检测装置,
还包括特征音频检索单元,其从所述非语音信号部分中,检索表示节目开始或结束的特征音频部分,
其中,所述节目端点时间确定单元还基于所述特征音频部分来确定节目的端点时间。
4.如权利要求3所述的节目端点时间检测装置,
所述关键词检索单元仅对由所述特征音频部分所确定的时间范围内的靠近两端的所述语音信号部分对进行检索。
5.如权利要求3所述的节目端点时间检测装置,
还包括音频场景分析单元,其将所述音频信号划分为包含节目现场音频部分的多个场景部分,
其中,所述音频分类单元仅将所述音频信号中的所述现场音频部分分类为语音信号部分和非语音信号部分。
6.如权利要求5所述的节目端点时间检测装置,
所述特征音频检索单元仅对所述节目现场音频部分中的靠近两端的所述非语音信号部分进行检索。
7.如权利要求1所述的节目端点时间检测装置,
还包括固定音频检索单元,其在所述非语音信号部分中,检索固定音频部分,所述固定音频部分是表示节目即将开始的音频部分,
其中,所述节目端点时间确定单元还基于所述固定音频部分来确定节目的端点时间。
8.如权利要求7所述的节目端点时间检测装置,
所述关键词检索单元仅对由所述固定音频部分所确定的时间范围内的靠近两端的所述语音信号部分对进行检索。
9.如权利要求7所述的节目端点时间检测装置,
所述固定音频检索单元还在由所述音频场景分析单元划分的所述多个场景部分中检索所述固定音频部分。
10.如权利要求5所述的节目端点时间检测装置,
还包括切换间隙检测单元,其在所述音频信号中检测表示不同节目部分之间的切换的静音部分,从而将所述音频信号划分为多个部分,
其中,所述音频场景分析单元对由所述切换间隙检测单元划分的多个部分进行分析,从而分为所述多个场景部分。
11.如权利要求1所述的节目端点时间检测装置,
还包括音频场景分析单元,其将所述音频信号划分为包含节目现场音频部分的多个场景部分,
其中,所述音频分类单元仅将所述音频信号中的所述现场音频部分分类为语音信号部分和非语音信号部分。
12.如权利要求1~11的任何一项所述的节目端点时间检测装置,
还包括节目分类单元,从所述语音信号部分检索表示节目类型的关键词,以判断节目类型,
其中,所述关键词检索单元根据所述节目类型来检索相应的端点关键词。
13.如权利要求1~11的任何一项所述的节目端点时间检测装置,还包括:
语音识别单元,对所述语音信号部分进行语音识别,并构建相应的检索文件;以及
存储单元,存储有表示节目特征的关键词,所述关键词至少包括表示节目开始或结束的端点关键词,
其中,所述关键词检索单元从所述检索文件中检索所述表示节目开始或结束的端点关键词,作为候选的端点关键词,
所述内容分析单元对所述检索文件中通过所述关键词检索单元检索出的所述候选的端点关键词的上下文进行内容分析,以确定有效的端点关键词。
14.一种节目端点时间检测方法,通过对所述节目的音频信号进行处理,从而检测所述节目的端点时间,该方法包括:
音频分类步骤,将所述音频信号分类为语音信号部分和非语音信号部分;
关键词检索步骤,从所述语音信号部分检索表示节目开始或结束的端点关键词,作为候选的端点关键词;
内容分析步骤,对通过所述关键词检索步骤检索出的所述候选的端点关键词的上下文进行内容分析,以确定所述候选的端点关键词是否为有效的端点关键词;以及
节目端点时间确定步骤,基于所述关键词检索步骤的检索结果和所述内容分析步骤的确定结果进行统计分析,确定节目的端点时间。
15.如权利要求14所述的节目端点时间检测方法,其中,
所述内容分析步骤中还包括通过对语音信号部分进行内容分析,从而确定与所述表示节目开始或结束的端点关键词相近的表述的步骤。
16.如权利要求14所述的节目端点时间检测方法,
还包括特征音频检索步骤,其从所述非语音信号部分中,检索表示节目开始或结束的特征音频部分,
其中,所述节目端点时间确定步骤还基于所述特征音频部分来确定节目的端点时间。
17.如权利要求16所述的节目端点时间检测装置,
所述关键词检索步骤中仅对由所述特征音频部分所确定的时间范围内的靠近两端的所述语音信号部分对进行检索。
18.如权利要求16所述的节目端点时间检测方法,
还包括音频场景分析步骤,其将所述音频信号划分为包含节目现场音频部分的多个部分,
其中,所述音频分类步骤仅将所述音频信号中的所述现场音频部分分类为语音信号部分和非语音信号部分。
19.如权利要求18所述的节目端点时间检测方法,
所述特征音频检索步骤中仅对所述节目现场音频部分中的靠近两端的所述非语音信号部分进行检索。
20.如权利要求14所述的节目端点时间检测方法,
还包括固定音频检索步骤,其在所述非语音信号部分中,检索固定音频部分,所述固定音频部分是表示节目即将开始的音频部分,
其中,所述节目端点时间确定步骤还基于所述固定音频部分来确定节目的端点时间。
21.如权利要求20所述的节目端点时间检测装置,
所述关键词检索步骤中仅对由所述固定音频部分所确定的时间范围内的靠近两端的所述语音信号部分对进行检索。
22.如权利要求20所述的节目端点时间检测方法,
所述固定音频检索步骤中,还在在所述音频场景分析步骤中划分的所述多个场景部分中检索所述固定音频部分。
23.如权利要求18所述的节目端点时间检测方法,
所述音频场景分析步骤中还包括切换间隙检测步骤,其在所述音频信号中检测表示不同节目部分之间的切换的静音部分,从而将所述音频信号划分为多个部分,
其中,所述音频场景分析步骤中对由所述切换间隙检测单元划分的多个部分进行分析,从而分为所述多个场景部分。
24.如权利要求14所述的节目端点时间检测方法,
还包括音频场景分析步骤,其将所述音频信号划分为包含节目现场音频部分的多个部分,
其中,所述音频分类步骤仅将所述音频信号中的所述现场音频部分分类为语音信号部分和非语音信号部分。
25.如权利要求14~24的任何一项所述的节目端点时间检测方法,还包括:
节目分类步骤,从所述语音信号部分检索表示节目类型的关键词,以判断节目类型;
其中,所述关键词检索步骤根据所述节目类型来检索相应的端点关键词。
26.如权利要求14~24的任何一项所述的节目端点时间检测方法,还包括语音识别步骤,对所述语音信号部分进行语音识别,并构建相应的检索文件,
其中,所述关键词检索步骤从存储单元中提取表示节目开始或结束的端点关键词,并从所述检索文件中检索所述表示节目开始或结束的端点关键词,作为候选的端点关键词,
所述内容分析步骤对所述检索文件中通过所述关键词检索步骤检索出的所述候选的端点关键词的上下文进行内容分析,以确定有效的端点关键词。
27.一种节目信息检索系统,通过对所述节目的音频信号进行处理,从而获得用户所需的节目信息,该系统包括:
显示装置,用于显示该系统的用户界面;
节目导入装置,将多个节目导入所述节目信息检索系统,并在所述显示装置中显示节目列表;以及
节目端点时间检测装置,对用户从所述节目列表中选择的节目进行分析,以得到所述节目的端点时间,并显示在所述显示装置上,
所述节目端点时间检测装置包括:
音频分类单元,将所述音频信号分类为语音信号部分和非语音信号部分;
关键词检索单元,从所述语音信号部分检索表示节目开始或结束的端点关键词,作为候选的端点关键词;
内容分析单元,对通过所述关键词检索单元检索出的所述候选的端点关键词的上下文进行内容分析,以确定所述候选的端点关键词是否为有效的端点关键词;以及
节目端点时间确定单元,基于所述关键词检索单元的检索结果和所述内容分析单元的确定结果进行统计分析,确定节目的端点时间。
28.如权利要求27所述的信息检索系统,该系统还包括:
节目类别检索装置,对于由所述节目导入装置导入的所述多个节目,根据节目所属的类别进行分类,并按照用户指示的类别,在显示装置上显示该类别的节目列表。
29.如权利要求27所述的信息检索系统,该系统还包括:
精彩事件检索装置,检索节目中出现的喝彩声片断,并在显示装置上显示其时间信息。
30.如权利要求27所述的信息检索系统,该系统还包括:
说话人检索装置,检索特定的说话人说话的节目部分,并以不同形式将不同说话人的说话部分的时间信息显示在显示装置上。
31.如权利要求27所述的信息检索系统,其中,
所述关键词检索单元还在显示装置上显示由用户从所述节目列表中选择的节目所对应的关键词列表,并根据用户的选择来检索相应的关键词,并将该关键词的时间信息显示在显示装置上。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910208950.2A CN102073635B (zh) | 2009-10-30 | 2009-10-30 | 节目端点时间检测装置和方法以及节目信息检索系统 |
US12/914,346 US9009054B2 (en) | 2009-10-30 | 2010-10-28 | Program endpoint time detection apparatus and method, and program information retrieval system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910208950.2A CN102073635B (zh) | 2009-10-30 | 2009-10-30 | 节目端点时间检测装置和方法以及节目信息检索系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102073635A true CN102073635A (zh) | 2011-05-25 |
CN102073635B CN102073635B (zh) | 2015-08-26 |
Family
ID=43926351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910208950.2A Expired - Fee Related CN102073635B (zh) | 2009-10-30 | 2009-10-30 | 节目端点时间检测装置和方法以及节目信息检索系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9009054B2 (zh) |
CN (1) | CN102073635B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105321442A (zh) * | 2014-06-23 | 2016-02-10 | 卡西欧计算机株式会社 | 信息评价装置以及信息评价方法 |
CN106534964A (zh) * | 2016-11-23 | 2017-03-22 | 广东小天才科技有限公司 | 一种语速调节方法和装置 |
CN107507627A (zh) * | 2016-06-14 | 2017-12-22 | 科大讯飞股份有限公司 | 语音数据热度分析方法及系统 |
CN108665889A (zh) * | 2018-04-20 | 2018-10-16 | 百度在线网络技术(北京)有限公司 | 语音信号端点检测方法、装置、设备及存储介质 |
CN109965764A (zh) * | 2019-04-18 | 2019-07-05 | 科大讯飞股份有限公司 | 马桶控制方法和马桶 |
CN111901627A (zh) * | 2020-05-28 | 2020-11-06 | 北京大米科技有限公司 | 视频处理方法、装置、存储介质及电子设备 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8682654B2 (en) * | 2006-04-25 | 2014-03-25 | Cyberlink Corp. | Systems and methods for classifying sports video |
US8463053B1 (en) | 2008-08-08 | 2013-06-11 | The Research Foundation Of State University Of New York | Enhanced max margin learning on multimodal data mining in a multimedia database |
CN102073635B (zh) * | 2009-10-30 | 2015-08-26 | 索尼株式会社 | 节目端点时间检测装置和方法以及节目信息检索系统 |
CN102419976A (zh) * | 2011-12-02 | 2012-04-18 | 清华大学 | 一种基于量子学习优化决策的音频索引方法 |
US9111853B2 (en) | 2013-03-15 | 2015-08-18 | Micron Technology, Inc. | Methods of forming doped elements of semiconductor device structures |
US9741343B1 (en) * | 2013-12-19 | 2017-08-22 | Amazon Technologies, Inc. | Voice interaction application selection |
US10198697B2 (en) * | 2014-02-06 | 2019-02-05 | Otosense Inc. | Employing user input to facilitate inferential sound recognition based on patterns of sound primitives |
US10339917B2 (en) | 2015-09-03 | 2019-07-02 | Google Llc | Enhanced speech endpointing |
US20170069309A1 (en) | 2015-09-03 | 2017-03-09 | Google Inc. | Enhanced speech endpointing |
JP6447578B2 (ja) * | 2016-05-27 | 2019-01-09 | トヨタ自動車株式会社 | 音声対話装置および音声対話方法 |
US10929754B2 (en) | 2017-06-06 | 2021-02-23 | Google Llc | Unified endpointer using multitask and multidomain learning |
EP4083998A1 (en) | 2017-06-06 | 2022-11-02 | Google LLC | End of query detection |
CN109493881B (zh) * | 2018-11-22 | 2023-12-05 | 北京奇虎科技有限公司 | 一种音频的标签化处理方法、装置和计算设备 |
CN110266515A (zh) * | 2019-05-16 | 2019-09-20 | 上海德衡数据科技有限公司 | 一种基于普适计算的运营信息系统 |
CN110992984B (zh) * | 2019-12-02 | 2022-12-06 | 新华智云科技有限公司 | 音频处理方法及装置、存储介质 |
GB2599928A (en) * | 2020-10-14 | 2022-04-20 | Sony Interactive Entertainment Inc | Apparatus and method for audio data analysis |
CN113380275B (zh) * | 2021-06-18 | 2024-06-25 | 北京声智科技有限公司 | 语音处理方法、装置、智能设备及存储介质 |
CN114974258B (zh) * | 2022-07-27 | 2022-12-16 | 深圳市北科瑞声科技股份有限公司 | 基于语音处理的说话人分离方法、装置、设备及存储介质 |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4750052A (en) * | 1981-02-13 | 1988-06-07 | Zenith Electronics Corporation | Apparatus and method for automatically deleting selected program intervals from recorded television broadcasts |
EP0977172A4 (en) * | 1997-03-19 | 2000-12-27 | Hitachi Ltd | METHOD AND DEVICE FOR DETERMINING THE START AND END POINT OF A SOUND SECTION IN VIDEO |
US6718302B1 (en) * | 1997-10-20 | 2004-04-06 | Sony Corporation | Method for utilizing validity constraints in a speech endpoint detector |
US6324509B1 (en) * | 1999-02-08 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for accurate endpointing of speech in the presence of noise |
US7263484B1 (en) * | 2000-03-04 | 2007-08-28 | Georgia Tech Research Corporation | Phonetic searching |
US6901362B1 (en) * | 2000-04-19 | 2005-05-31 | Microsoft Corporation | Audio segmentation and classification |
US6973256B1 (en) * | 2000-10-30 | 2005-12-06 | Koninklijke Philips Electronics N.V. | System and method for detecting highlights in a video program using audio properties |
US7161887B2 (en) * | 2001-11-13 | 2007-01-09 | Digeo, Inc. | Method and apparatus for extracting digital data from a medium |
US7302160B1 (en) * | 2002-01-22 | 2007-11-27 | Lsi Corporation | Audio/video recorder with automatic commercial advancement prevention |
US7120873B2 (en) * | 2002-01-28 | 2006-10-10 | Sharp Laboratories Of America, Inc. | Summarization of sumo video content |
US7412376B2 (en) * | 2003-09-10 | 2008-08-12 | Microsoft Corporation | System and method for real-time detection and preservation of speech onset in a signal |
EP1531456B1 (en) * | 2003-11-12 | 2008-03-12 | Sony Deutschland GmbH | Apparatus and method for automatic dissection of segmented audio signals |
WO2005076594A1 (en) * | 2004-02-06 | 2005-08-18 | Agency For Science, Technology And Research | Automatic video event detection and indexing |
JP4424590B2 (ja) | 2004-03-05 | 2010-03-03 | 株式会社Kddi研究所 | スポーツ映像の分類装置 |
US8838452B2 (en) * | 2004-06-09 | 2014-09-16 | Canon Kabushiki Kaisha | Effective audio segmentation and classification |
CN1934650A (zh) * | 2004-06-18 | 2007-03-21 | 松下电器产业株式会社 | Av内容处理设备、av内容处理方法、av内容处理程序及av处理设备中使用的集成电路 |
US7801910B2 (en) * | 2005-11-09 | 2010-09-21 | Ramp Holdings, Inc. | Method and apparatus for timed tagging of media content |
JP4698453B2 (ja) * | 2006-02-28 | 2011-06-08 | 三洋電機株式会社 | コマーシャル検出装置、映像再生装置 |
US8068719B2 (en) * | 2006-04-21 | 2011-11-29 | Cyberlink Corp. | Systems and methods for detecting exciting scenes in sports video |
US7982797B2 (en) * | 2006-06-30 | 2011-07-19 | Hewlett-Packard Development Company, L.P. | Detecting blocks of commercial content in video data |
CN101102240A (zh) | 2006-07-04 | 2008-01-09 | 王建波 | 一种音频、视频内容的采集方法和检索方法 |
CN101101590A (zh) * | 2006-07-04 | 2008-01-09 | 王建波 | 一种声音与文字对应关系表生成方法及定位方法 |
CN100461179C (zh) * | 2006-10-11 | 2009-02-11 | 北京新岸线网络技术有限公司 | 基于内容的音频分析系统 |
US20080276266A1 (en) * | 2007-04-18 | 2008-11-06 | Google Inc. | Characterizing content for identification of advertising |
JP2008294584A (ja) * | 2007-05-22 | 2008-12-04 | Panasonic Corp | ダイジェスト再生装置及び方法 |
US20080300872A1 (en) * | 2007-05-31 | 2008-12-04 | Microsoft Corporation | Scalable summaries of audio or visual content |
CN101472082B (zh) * | 2007-12-25 | 2012-07-25 | 新奥特(北京)视频技术有限公司 | 一种场记系统和方法 |
CN100565532C (zh) | 2008-05-28 | 2009-12-02 | 叶睿智 | 一种基于音频内容检索的多媒体资源检索方法 |
WO2010001393A1 (en) * | 2008-06-30 | 2010-01-07 | Waves Audio Ltd. | Apparatus and method for classification and segmentation of audio content, based on the audio signal |
US8249872B2 (en) * | 2008-08-18 | 2012-08-21 | International Business Machines Corporation | Skipping radio/television program segments |
CN101364222B (zh) | 2008-09-02 | 2010-07-28 | 浙江大学 | 一种两阶段的音频检索方法 |
US9049477B2 (en) * | 2008-11-13 | 2015-06-02 | At&T Intellectual Property I, Lp | Apparatus and method for managing media content |
CN102073635B (zh) * | 2009-10-30 | 2015-08-26 | 索尼株式会社 | 节目端点时间检测装置和方法以及节目信息检索系统 |
-
2009
- 2009-10-30 CN CN200910208950.2A patent/CN102073635B/zh not_active Expired - Fee Related
-
2010
- 2010-10-28 US US12/914,346 patent/US9009054B2/en not_active Expired - Fee Related
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105321442A (zh) * | 2014-06-23 | 2016-02-10 | 卡西欧计算机株式会社 | 信息评价装置以及信息评价方法 |
CN107507627A (zh) * | 2016-06-14 | 2017-12-22 | 科大讯飞股份有限公司 | 语音数据热度分析方法及系统 |
CN107507627B (zh) * | 2016-06-14 | 2021-02-02 | 科大讯飞股份有限公司 | 语音数据热度分析方法及系统 |
CN106534964A (zh) * | 2016-11-23 | 2017-03-22 | 广东小天才科技有限公司 | 一种语速调节方法和装置 |
CN106534964B (zh) * | 2016-11-23 | 2020-02-14 | 广东小天才科技有限公司 | 一种语速调节方法和装置 |
CN108665889A (zh) * | 2018-04-20 | 2018-10-16 | 百度在线网络技术(北京)有限公司 | 语音信号端点检测方法、装置、设备及存储介质 |
CN108665889B (zh) * | 2018-04-20 | 2021-09-28 | 百度在线网络技术(北京)有限公司 | 语音信号端点检测方法、装置、设备及存储介质 |
CN109965764A (zh) * | 2019-04-18 | 2019-07-05 | 科大讯飞股份有限公司 | 马桶控制方法和马桶 |
CN111901627A (zh) * | 2020-05-28 | 2020-11-06 | 北京大米科技有限公司 | 视频处理方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US9009054B2 (en) | 2015-04-14 |
CN102073635B (zh) | 2015-08-26 |
US20110106531A1 (en) | 2011-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102073635B (zh) | 节目端点时间检测装置和方法以及节目信息检索系统 | |
US20100005485A1 (en) | Annotation of video footage and personalised video generation | |
Merler et al. | Automatic curation of sports highlights using multimodal excitement features | |
Xiong et al. | Audio events detection based highlights extraction from baseball, golf and soccer games in a unified framework | |
US8396878B2 (en) | Methods and systems for generating automated tags for video files | |
US20060059120A1 (en) | Identifying video highlights using audio-visual objects | |
KR101265960B1 (ko) | 하이라이트 추출 장치 및 그 방법 | |
US8213767B1 (en) | Methods and systems for performing top concepts extraction | |
CN106462609A (zh) | 用于呈现与媒体内容相关的音乐项的方法、系统和介质 | |
JP2004258659A (ja) | スポーツイベントのオーディオ信号からハイライトを抽出する方法およびシステム | |
US8214374B1 (en) | Methods and systems for abridging video files | |
CN102110399A (zh) | 一种辅助解说的方法、装置及其系统 | |
EP1789952A1 (en) | Method for refining training data set for audio classifiers and method for classifying data | |
Liu et al. | A framework for flexible summarization of racquet sports video using multiple modalities | |
Sanabria et al. | Hierarchical multimodal attention for deep video summarization | |
CN108334518A (zh) | 一种广告加载方法及装置 | |
Tjondronegoro et al. | Content-based video indexing for sports applications using integrated multi-modal approach | |
Ren et al. | Football video segmentation based on video production strategy | |
Choroś | Fast method of video genre categorization for temporally aggregated broadcast videos | |
Xiong | Audio-visual sports highlights extraction using coupled hidden markov models | |
Liu et al. | A sports video browsing and retrieval system based on multimodal analysis: SportsBR | |
Liu et al. | NewsBR: a content-based news video browsing and retrieval system | |
Xing et al. | A scheme for racquet sports video analysis with the combination of audio-visual information | |
Kanade et al. | Lawn tennis video summarization based on audiovisual and text feature analysis | |
Kim et al. | Indexing of player events using multimodal cues in golf videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150826 |
|
CF01 | Termination of patent right due to non-payment of annual fee |