CN101312520A

CN101312520A - 音讯特征的泛用节目时段筛选方法与相关的辅助方法

Info

Publication number: CN101312520A
Application number: CNA2007101042336A
Authority: CN
Inventors: 王蓓; 叶家宏; 施宣辉; 郭宗杰
Original assignee: MAVs Lab Inc
Current assignee: MAVs Lab Inc
Priority date: 2007-05-23
Filing date: 2007-05-23
Publication date: 2008-11-26
Anticipated expiration: 2027-05-23
Also published as: CN101312520B

Abstract

简单、计算效率高、且强健的音讯特征应用于一泛用节目片段筛选方法，以挑选在所录下的节目中值得拿来当作高潮的视讯片段。通过集中在节目包含的音讯片段中的特定频率，该泛用节目片段筛选方法的计算复杂度大幅的降低。通过多个梅尔刻度式倒频谱参数以及其所产生的主频带能量参数，音讯型样可被用来在节目中分辨出高潮与不必要的信息。不同音讯片段的分数用来挑选值得被选来当作高潮的录制视讯片段集锦。低阶特征变量、带有高潮相关特征的视讯片段、以及重新评分程序用来加强分数的准确性，以提供值得重新观看的视讯片段。

Description

音讯特征的泛用节目时段筛选方法与相关的辅助方法

技术领域

本发明涉及一种泛用节目时段筛选方法与多种相关的辅助方法，尤其涉及一种带有简单且强健的音讯特征的泛用节目时段筛选方法与多种相关的辅助方法。

背景技术

在包含如足球、棒球、篮球、美式足球、及高尔夫球等受到广泛欢迎的职业运动比赛中，相关的比赛转播节目需要能够满足观众在不同收看质量上的需求。上述的所有职业运动比赛的转播节目都会有精采画面，或称为高潮(highlight)。然而，对于一般职业运动比赛的直播节目来说，其转播时间都相当的长，且大约都会持续二小时以上。造成如此长转播时间的主因，大多与转播节目中所穿插的大量商业广告相关，或是与职业运动比赛中发生的大量且多样化的事件有关。在比赛转播的录像中，通常观众都会把注意力放在有趣的事件、比赛中的转戾点、或是其它比赛中的特殊事件等，这些特殊事件又包含了比赛中发生的犯规、得分、有效的攻击或防守动作、延长赛中的关键攻防、球员突然受伤造成的暂停、球员之间的意外冲突、关键的球员更换、裁判的争议性判决等，而比赛转播中的商业广告或是惯例的事件等则为观众在比赛录像中不想去注意的事件。因此，在观看比赛录像时，观众会比较希望仅看到以上所述的观众较感兴趣的画面的集锦，并跳过较为乏味的商业广告或司空见惯的事件。

发明内容

本发明提供一种带有简单且强健的音讯特征的泛用节目时段筛选方法。该方法包含一种带有简单且强健的音讯特征的泛用节目时段筛选方法(uniform program indexing method)。该方法包含检测一节目的一已接收的音讯序列中包含的商业广告，其中该已接收的音讯序列包含多个音讯帧；由该已接收的音讯序列中移除所检测到的商业广告；以一特定频率对该音讯序列作取样，其中该音讯序列已移除所检测到的该商业广告；在该音讯序列所包含的该多个音讯帧的每一音讯帧中，产生多个梅尔刻度式倒频谱参数(Mel Frequency Cepstral Coefficients，MFCC)；在该多个音讯帧的每一音讯帧中，取出该多个梅尔刻度式倒频谱参数中的C2参数与C3参数，其中该C2参数与该C3参数皆已常态化(normalized)；在该多个音讯帧的每一音讯帧中，根据所取出的该C2参数与该C3参数，产生一主频带能量参数(dominant frequency band energy coefficient)；以一低通滤波器，由该音讯序列所产生的多个主频带能量参数中，产生多个峰值型样(peakpattern)，其中单一峰值型样包含该音讯序列中多个连续的音讯帧；决定一阈值，以将所产生的该多个峰值型样转换为多个第一音讯片段，其中该多个第一音讯片段的每一音讯片段包含比一对应的峰值型样更多的音讯帧；及根据该多个第一音讯片段的每一音讯片段所产生的一主频带能量参数与一相关比重(weight)，在该多个第一音讯片段的每一音讯片段中产生一分数。

本发明提供一种以多个低阶特征支持泛用节目时段筛选方法的辅助方法。该方法包含根据一关系式，在多个第一音讯片段的每一音讯片段中产生一第一低阶特征变量(low-level-feature parameter)，其中该关系式表示为

v (n) = \sqrt{1 / N} Σ_{i = 0}^{N - 1} {S_{n}}^{2} (i),

v(n)表示该多个第一音讯片段的第n个音讯片段所包含的第一低阶特征变量，S_n(i)代表该第n个音讯片段所包含的第i个音讯帧的能量，且N代表该第n个音讯片段所包含的音讯帧的数量；根据该多个第一音讯片段的每一音讯片段所包含的多个音讯帧的能量的标准偏差值，产生该多个第一音讯片段的每一音讯片段的一第二低阶特征变量；根据所产生的该多个第一低阶特征变量的每一低阶特征变量，并根据一关系式，在该多个第一音讯片段的每一音讯片段中。产生一第三低阶特征变量，其中该关系式表示为

EDR = \frac{Max (v) - Min (v)}{Max (v)},

EDR表示该第三低阶特征变量，Max(v)表示该多个第一低阶特征变量中的一最大低阶特征变量，且Min(v)表示该多个第一低阶特征变量中的一最小低阶特征变量；根据一关系式，在该多个第一音讯片段的每一音讯片段中，产生一第四低阶特征变量，其中该关系式表示为

z (n) = \frac{1}{2} Σ | sgn (S (m)) - sgn (S (m - 1)) | w (n - m),

z(n)表示该多个第一音讯片段的第n个音讯片段所包含的该第四低阶特征变量，S(m)表示该第n个音讯片段所包含的第m个音讯帧的能量，sgn(S(m))表示能量S(m)的正负值，sgn(S(m))的大小遵守关系式

sgn (S (m)) = \{\begin{matrix} 1 & if & S (m) &GreaterEqual; 0 \\ - 1 & if & S (m) < 0 \end{matrix},

且w(n-m)代表该第m个音讯帧的视窗大小；及根据一关系式产生一分数，其中该关系式表示为

Score = w_{0} * DFBE + Σ_{i = 1}^{4} w_{i} * {LLF}_{i},

Score代表所产生的该分数，DFBE代表该主频带能量参数，w₀代表主频带能量参数DFBE的比重，LLF_i代表上述的第i低阶特征变量，i的值为1至4，且w_i代表第i低阶特征变量的比重。

本发明提供一种以一主频带能量参数支持泛用节目时段筛选方法的辅助方法。该方法包含在一节目包含的一音讯序列所包含的多个音讯帧的每一音讯帧中，产生多个梅尔刻度式倒频谱参数；在该多个音讯帧的每一音讯帧中，取出该多个梅尔刻度式倒频谱参数中的C2参数与C3参数，其中该C2参数与该C3参数都已常态化；及在该多个音讯帧的每一音讯帧中，根据所取出的该C2参数与该C3参数，并根据关系式DFBE＝4*C2+C3，产生一主频带能量参数，其中DFBE代表该主频带能量参数，C2代表该C2参数，且C3代表该C3参数。

本发明提供一种以特定视讯特征支持泛用节目时段筛选方法的辅助方法。该方法包含由一节目包含的一视讯序列中，撷取多个第一视讯片段，其中该节目包含一音讯序列，该音讯序列包含多个第一音讯片段，且该多个第一视讯片段根据由该多个第一音讯片段所产生的多个第二音讯片段的多个分数来加以撷取；根据该节目的种类，决定一特征画面与一主色系；将该多个第一视讯片段的每一视讯片段分类为一第一灰阶区域与一第二灰阶区域，其中该第一灰阶区域的色系以该主色系为主，且该第二灰阶区域的色系并未以该主色系为主；在该多个第一视讯片段的每一视讯片段中，滤除该第二灰阶区域，以产生多个第二视讯片段；由所产生的该多个第二视讯片段中，移除多个孤立特征点；及对该多个第二视讯片段实施边缘检测，以检测该多个第二视讯片段中是否存在有该特征画面。

附图说明

图1为本发明所提供的泛用节目时段筛选方法与用来支持该泛用节目时段筛选方法的多种辅助方法的流程图。

图2为在根据本发明的一较佳实施例所做的实验数据中，用来表示该音讯序列中不同音讯帧对应于不同主频带能量参数的关系示意图。

图3为图2中以一低通滤波器滤除噪声以后所形成的该音讯序列中不同音讯帧对应于不同主频带能量参数的关系示意图。

图4为使用一第二阈值在图3后，所形成的该音讯序列中不同音讯帧对应于不同主频带能量参数的关系示意图。

图5为在本发明的一较佳实施例中，执行用来舍弃多个第一音讯片段的某些音讯片段所使用的分段规则的流程图。

图6为图1所示的步骤120所提供的根据多个第一音讯片段所产生的多个低阶特征变量，以更为精确的更新对应的分数的辅助方法的流程图。

图7为图1所示的步骤122所提供的应用特定视讯特征来支持本发明所提供的泛用节目片段筛选方法的辅助方法的流程图。

图8为霍夫转换程序中实施空间领域转换的示意图。

附图符号说明

100-122、502-504、602-610、步骤702-710

具体实施方式

本发明提供一种带有简单且强健的音讯特征的泛用节目时段筛选方法，并连带提供其它用来支持该泛用节目时段筛选方法的辅助方法。该泛用节目时段筛选方法通过搜寻可指出比赛转播中的精采画面的特征型样，来帮助观众筛选出比赛转播中的精采画面。上述的特征型样大部分依靠节目中的音讯信息来搜寻，因为分析节目中的视讯信息会耗费较多的步骤，并带来较高的复杂度。然而，本发明所提供的泛用节目时段筛选方法仍可通过本发明另外提供的各种以音讯与视讯为基础的辅助方法，来筛选出更能满足观众需求的比赛转播精采镜头与高潮。

请参考图1，其为本发明所提供的泛用节目时段筛选方法与用来支持该泛用节目时段筛选方法的多种辅助方法的流程图。如图1所示，本发明所提供的泛用节目时段筛选方法与多种辅助方法包含下列步骤：

步骤100：对一节目包含的一音讯序列检测其包含的商业广告，其中该音讯序列包含多个音讯帧。

步骤102：以一特定频率对该音讯序列作取样。

步骤104：对该音讯序列包含的多个音讯帧的每一音讯帧，产生多个梅尔刻度式倒频谱参数。

步骤106：对该音讯序列包含的多个音讯帧的每一音讯帧，根据该每一音讯帧所包含的多个梅尔刻度式倒频谱参数的C2参数与C3参数，产生一主频带能量参数。

步骤108：根据该音讯序列所包含的多个主频带能量参数，以一低通滤波器产生多个峰值型样，其中该多个峰值型样的每一峰值型样包含该音讯序列中多个连续的音讯帧。

步骤110：决定一阈值，用来将多个峰值型样转换为多个第一音讯片段。

步骤112：根据一主频带能量参数与一比重，对该多个第一音讯片段的每一音讯片段产生一分数，其中该主频带能量参数根据该多个第一音讯片段的每一音讯片段所产生。

步骤114：根据该多个第一音讯片段的部分音讯片段所产生的分数，提供该节目中对应的多个视讯片段。

步骤116：将该多个第一音讯片段的部分音讯片段合成为多个第二音讯片段，根据一分段规则舍弃该多个第一音讯片段中其它的部分片段，并选择性的执行步骤104，以重新评估音讯片段的分数。

步骤118：步骤结束。

请注意，步骤120与步骤122将于之后再加以详述。在本发明所提供的泛用节目片段筛选方法中，一节目包含如一音讯序列或一视讯序列等的多媒体信息，其中该音讯序列包含多个音讯序列，且该节目可为一运动比赛转播节目。上述的步骤大部分实施于该音讯序列，并用来滤除该音讯序列中所包含的多余信息。上述的步骤亦用来产生多个音讯片段，其中该多个音讯片段的每一音讯片段由多个音讯帧所组成。最后，上述的步骤根据该多个音讯片段，在该视讯序列中撷取出多个对应的视讯片段，以撷取出该节目中观众所想要观看的精采片段。

如以上所述，在观众录下一场比赛转播节目，并在事后观看所录下的比赛转播节目时，在该比赛转播节目中所出现的商业广告对观众来说可能是很多余的。因此，在步骤100中，会先根据这些商业广告的特定视觉特征，由该视讯序列中检测出这些商业广告，并在该音讯序列中移除这些商业广告对应的音讯片段。

在步骤102中，实施过步骤100的该音讯序列会以一特定频率来加以取样。在本发明应用于足球比赛转播节目的一较佳实施例中，该特定频率的值为8KHz，以用来对该音讯序列作取样的动作，其中在该足球比赛转播节目中，8KHz为一般人所发出的声音的统计频率。在这样的足球比赛转播节目的大部分的时间中，播报员都以平顺的语气来对比赛中的各种状况做评论，而场边的观众也会在大部分的情况下情绪较为冷静，因此不致于发出太过高亢的声音，顶多也只是某些加油用的歌声或呼喊声。然而，当某些比赛中的观众想要看到的高潮发生的时候，播报员播报的语气会变的异常的兴奋，观众欢呼的叫响也会变的很高亢。在比赛中发生这样的高潮的时候，在该音讯序列的频域中对应的会产生某些对应的音讯特征，再者，这样的音讯特征的强度也会反映在这样的高潮对于观众的鼓舞程度。因此，在步骤102中，音讯特征用来当作对该音讯序列作取样的依据。

根据某些实验中所取得的统计数据，当足球比赛转播节目中发生高潮时，观众所发出的高亢声音的频率所代表的能量为播报员使用平顺语气播报时声音的两倍，其中观众所发出的声音即为上述的8KHz。除此以外，此时观众所发出的声音也较比赛没有发生任何重要事件时持续的更久。观众的欢呼声在较广的频率范围内的能量也维持在较大的强度。基于以上的理由，对频率在8KHz左右的音讯作取样，最容易发现该音讯序列中代表比赛转播节目中的高潮的部份，也因此，在本发明关于足球比赛转播节目的该较佳实施例中，上述的特定频率的值即为8KHz。请注意，在不同的转播节目中，该特定频率的值也会有所不同，且该特定频率的值根据不同转播节目中对应于观众不同需求的主要音讯特征来决定。再者，仅对该音讯序列中对应于该特定频率的部份作取样，也会大幅降低执行本发明所提供的泛用节目片段筛选方法的复杂度。

在步骤104中，为了避免所收集到的音讯中包含的噪声会影响到对于转播节目的高潮的追踪，多个广为熟悉且取名为梅尔刻度式倒频谱参数的特征参数以不同频带滤波器产生，以表示音讯讯号中不同的特征。梅尔刻度式倒频谱参数包含多个参数C0、C1、C2、...、C11、及C12。为了表示不同型态的能量，在某些状况下，除了C0参数以外的该多个参数以C0参数来加以常态化(normalize)，其中C0参数为音讯讯号的功率的函数。根据上述本发明应用于足球比赛转播节目的该较佳实施例中对该多个已常态化的梅尔刻度式倒频谱参数所建立的实验数据，其中所使用的特定频率的值为8KHz，可发现该多个已常态化的梅尔刻度式倒频谱参数所包含的C2参数与C3参数为该多个已常态化的梅尔刻度式倒频谱参数中能量最强且最能代表该足球比赛转播节目中的高潮的两个参数，其中C2参数又比C3参数对于比赛中的高潮更具有代表性。因此在步骤106中，C2参数与C3参数用来定义一个更为精确的音讯特征，以更为正确的指出比赛转播节目中的高潮。该更为精确的音讯特征称为主频带能量参数，且主频带能量参数DFBE以下列的关系式加以定义：

DFBE＝4*C2+C3 (1)；

其中C2参数所使用的比重为4，C3参数所使用的比重为1，以表示C2参数比C3参数对于比赛中的高潮更具有代表性的事实。

请参阅考图2，其为根据本发明的一较佳实施例所做的实验数据中，用来表示该音讯序列中不同音讯帧对应于不同主频带能量参数的关系示意图。图2中的横轴代表以音讯帧为单位的时间，其中单一音讯帧的时间长度约为100毫秒。图2中的纵轴代表不同主频带能量参数的值。不同音讯帧与不同主频带能量参数之间的关系如图2所示，且很明显的受到了噪声的影响，所以无法提供任何可以代表比赛中发生的高潮的信息。因此在步骤108中，使用一低通滤波器来滤除图2中出现的噪声。

请参考图3，其为图2中以一低通滤波器滤除噪声以后所形成的该音讯序列中不同音讯帧对应于不同主频带能量参数的关系示意图。如图3所示，一粗黑直线所代表的一第一阈值暂时设置于图3中，且该粗黑直线以上的部分形成多个彼此间并不连续的峰值型样，其中该多个峰值型样各自指出比赛转播节目中可能为高潮的部份。因此，如图3中虚线所包围起来的部份所示，出现了四个峰值型样，且该四个峰值型样各自指出了该第一阈值以上强度不大的主频带能量参数。

由于图3中所形成的峰值型样强度并不大，且持续时间也不够长，为了加强所形成的峰值型样的特征以利于辨认，需要调整该第一阈值的值。在调整该第一阈值以后，图3中形成的峰值型样将会转换为对应的多个音讯片段，其中该多个音讯片段的每一音讯片段包含比一对应的峰值型样较多的音讯帧，意即该每一音讯片段比一对应的峰值型样对应于更长的持续时间。在步骤110中，该第一阈值根据一关系式转换为一第二阈值，该关系式表示为：

Thresh＝mean+x*std (2)；

其中Thresh为该第二阈值，mean为图3中所形成的多个峰值型样代表的多个主频带能量参数的平均值，std为该多个主频带能量参数的标准差的值，且x为一变量。请注意，本发明的方法所使用的该第二阈值不受关系式(2)的限制，且在本发明的一较佳实施例中，变数x的值为1。

请参考图4，其为使用上述的第二阈值于图3后，所形成的该音讯序列中不同音讯帧对应于不同主频带能量参数的关系示意图。如图4所示，图3所示的峰值型样的特征在图4中以音讯片段的形式被更为清楚的表示出来，其中一音讯片段比一对应的峰值型样具有更长的持续时间与强度较大的主频带能量参数。需要取得持续时间较长的音讯片段的原因在于观众与播报员的惊呼声通常会在比赛转播节目中的高潮发生后数秒的时间才会出现，因此持续时间较长的音讯片段可以较为完整的记录比赛转播节目中高潮发生的前因后果。

在步骤112中，在步骤110所产生的多个音讯片段的每一音讯片段中产生一分数，以决定该多个音讯片段中哪些音讯片段较可能代表比赛转播节目中的高潮，并收集这些代表高潮的音讯片段。在本发明的一较佳实施例中，较高的分数代表所对应的音讯片段较可能是比赛转播节目中的高潮，然而本发明的实施方式并不只包含以较高的分数来代表较可能为比赛转播节目中高潮的作法。在本发明的方法中，所计算出的分数系主要根据一较为标准的主频带能量参数来决定，且该较为标准的主频带能量参数可为该音讯片段所包含的所有音讯帧对应的多个主频带能量参数的平均值。因此，该分数可表示为：

Score＝w₀*DFBE (3)；

其中Score代表所计算出的分数，DFBE代表一音讯片段的主频带能量参数，且w₀代表主频带能量参数DFBE的比重。在本发明提供的方法中，当根据这些计算出来的分数中所挑选出来的音讯片段所对应的视讯片段确认已符合观众的需求时，可执行步骤118以结束步骤。然而，本发明也另外提供了一些辅助方法，用来更新上述所产生的分数，以使得应用本发明所提供的泛用节目片段筛选方法所找出的视讯片段可更为符合观众想要观看比赛转播节目中高潮的需要，其中，这些辅助方法列于步骤120与122中。再者，当所得到的视讯片段尚未满足观众想要观看比赛转播节目中高潮的需要时，则需要重新执行步骤104至112，以得到更为准确的分数来找出表示比赛节目转播的高潮的视讯片段，意即由步骤116开始递归执行步骤直至步骤112，再来确认更新分数后所找到的视讯片段是否符合观众想要观看比赛转播节目中高潮的需要。在步骤116中，多个第二音讯片段通过合并多个第一音讯片段的某些音讯片段与舍去该多个第一音讯片段的某些音讯片段所产生。其中，步骤116之前所得到的多个音讯片段称为多个第一音讯片段，执行步骤116后更新分数所得到的多个音讯片段为多个第二音讯片段，且舍去该多个第一音讯片段的某些音讯片段的过程根据一分段规则来执行。

请参考图5，其为本发明的一较佳实施例中，执行用来舍弃多个第一音讯片段的某些音讯片段所使用的分段规则的流程图。如图5所示，执行步骤116所述的分段规则的步骤列举如下：

步骤502：递归地合并该多个第一音讯片段包含的任意二个连续的音讯片段，其中该任意二个连续的音讯片段包含一第三音讯片段与一第四音讯片段，且该第三音讯片段与该第四音讯片段之间的一第一时间间隙小于一第一预定时间，该递归合并步骤执行至该多个第一音讯片段中不再存在有任意二个音讯片段之间的时间间隙小于该第一预定时间为止。

步骤504：在该多个第一音讯片段中，递归的舍弃时间长度小于一第二预定时间的音讯片段，直到该多个第一音讯片段中不再出现有任何音讯片段的时间长度小于该第二预定时间为止。

再次以上述的足球比赛为例，在比赛中一次完整的防守通常都需要花费至少十秒的时间，因此将该第一预定时间设定在十秒，可使得属于同一个完整的防守动作的该第三音讯片段与该第四音讯片段被合并，并藉此将一次完整的防守动作完整的撷取下来。

在执行步骤502以后，孤立的音讯片段将会在步骤504中，在该多个第一音讯片段中被舍弃，以确保不会撷取到零碎的比赛转播片段，因为零碎的比赛转播片段的持续时间通常很短，而不太可能是比赛转播节目中的高潮。在足球比赛中，一次零碎的比赛片段至多只会花费三秒的时间，因此可将该第二预定时间的时间长度设定为三秒，以确保不会撷取到零碎的比赛转播画面。在完成步骤502与504以后，将会产生该多个第二音讯片段。

在步骤116中更新分数的过程中，可以归纳出该多个第一音讯片段的数量大于该多个第二音讯片段的数量，以更为精确的撷取比赛转播节目中代表高潮的部分。该多个第二音讯片段接着将继续以步骤104至112来处理。当根据该多个第二音讯片段的分数所得到的多个视讯片段满足观众的要求时，则执行步骤118来结束步骤；否则就再次在步骤116中以递归的方式再次另外产生多个后继的音讯片段，并跳至步骤104至112来继续处理。

步骤120所述的辅助方法用来产生更为精确的分数，以挑选更为接近比赛转播节目中高潮的视讯片段，其中该辅助方法以该多个第一音讯片段所产生的多个低阶特征变量来实施。请参考图6，其为本发明所提供的根据多个第一音讯片段所产生的多个低阶特征变量，以更为精确的更新对应的分数的辅助方法的流程图。图6所述的步骤列举如下：

步骤602：在该多个第一音讯片段的每一音讯片段中根据一关系式产生一第一低阶变量，其中该关系式表示为：

v (n) = \sqrt{1 / N} Σ_{i = 0}^{N - 1} {S_{n}}^{2} (i) - - - (4);

其中v(n)代表该多个第一音讯片段的第n个音讯片段包含的该第一低阶特征变量，S_n(i)表示该第n个音讯片段所包含的第i个音讯帧的能量，且N代表该第n个音讯片段所包含的多个音讯帧的数目。

步骤604：在该多个第一音讯片段的每一音讯片段中，根据该每一音讯片段所包含的所有音讯帧的能量的标准差，产生一第二低阶特征变量。

步骤606：在该多个第一音讯片段的每一音讯片段中，根据多个第一低阶特征变量的每一低阶特征变量与一关系式，产生一第三低阶特征变量。该关系式表示为：

EDR = \frac{Max (v) - Min (v)}{Max (v)} - - - (5);

其中EDR代表该第三低阶特征变量，Max(v)代表该多个第一低阶变量中的最大值，Min(v)代表该多个第一低阶变量中的最小值。

步骤608：在该多个第一音讯片段的每一音讯片段中，根据一关系式产生一第四低阶特征变量。该关系式表示为：

z (n) = \frac{1}{2} Σ | sgn (S (m)) - sgn (S (m - 1)) | w (n - m) - - - (6);

其中z(n)代表该多个第一音讯片段的第n个音讯片段的第四低阶特征变量，S(m)代表该第n个音讯片段的第m个音讯帧的能量，sgn(S(m))代表能量S(m)的正负值并可表示为

sgn (S (m)) = \{\begin{matrix} 1 & if & S (m) &GreaterEqual; 0 \\ - 1 & if & S (m) < 0 \end{matrix},

且w(n-m)代表该第m个音讯帧的视窗大小。

步骤610：以一关系式更新步骤112中所产生的分数。该关系式表示为：

Score = w_{0} * DFBE + Σ_{i = 1}^{4} w_{i} * {LLF}_{i} - - - (7);

其中Score表示已更新的该分数，DFBE表示该主频带能量参数，w₀代表主频带能量参数DFBE的比重，LLF_i代表步骤602、604、606、608中所产生的各低阶特征变量，其中i的值即为1至4，且w_i代表低阶特征变量LLF_i的比重。

请注意，在步骤606中，当运动转播节目中的高潮发生时，观众与播报员所发出的叫声将会瞬间达到高峰而使得第一低阶特征变量增加至如Max(v)所代表的值，因此较小的EDR较能够正确的指出比赛转播节目中的高潮部分。

在步骤608中，第四低阶特征变量z(n)用来分辨纯粹的说话声音与某些特殊的干扰状况下的说话声音，这些干扰状况包含运动场上所播放的音效与其它运动场边的噪音。再者，值较小的第四低阶特征变量z(n)较接近于一般的说话声音，而值较大的第四低阶特征变量z(n)较能够指出比赛转播节目中的高潮部分。

在步骤610中更新该多个第一音讯片段的分数后，这些被更新的分数用来决定该多个第一音讯片段中哪些音讯片段较能够代表比赛转播节目中的高潮部分。请注意，上述的所有低阶特征变量的实施仅为本发明的一较佳实施例。

步骤122中所述的辅助方法与步骤120类似，是以某些特定的视讯特征来指出比赛转播节目中的高潮部分。在本发明的一较佳实施例中，不同种类的运动比赛转播节目会有不同的视讯特征，例如运动比赛中所呈现的主色系。再者，通过视讯特征的可选择性，观众的观看意愿可以充分的反应在不同视讯特征的选择上。举例来说，在足球比赛转播节目中，射门得分与有效射门的转播画面大半都会伴随着白色门柱的出现；因此，白色门柱的视讯特征出现于转播画面中时，将可有效的指出足球比赛转播节目中的特定高潮。请参考图7，其为本发明所提供的应用特定视讯特征来支持本发明所提供的泛用节目片段筛选方法的辅助方法的流程图。如图7所示，该辅助方法包含下列步骤：

步骤702：根据一节目的种类，决定一特征画面与一主色系。

步骤704：将该多个第一视讯片段的每一视讯片段分类为一第一灰阶区域与一第二灰阶区域，其中该第一灰阶区域以步骤702所决定的主色系为其主色系，且该第二灰阶区域并非以步骤702所决定的主色系为其主色系。

步骤706：由该多个第一视讯片段的每一视讯片段中滤除该第二灰阶区域，以产生多个第二视讯片段。

步骤708：由该多个第二视讯片段的每一视讯片段中移除孤立的特征点。

步骤710：对该多个第二视讯片段实施边缘检测(Edge Detection)，以检测该多个第二视讯片段中是否包含有该特征画面。

以运动比赛转播节目为例，每一种运动比赛都会有其比赛场地，因此每一种运动比赛的转播画面的主色系都相当容易判断与检测。在与该多个第一音讯片段相关的视讯片段中检测其主色系有助于在这些视讯片段中较为琐碎的部分。举例来说，足球比赛场地的主色系为绿色，而篮球比赛场地的主色系为黄色。通过图7所示的辅助方法的支持，当所撷取的视讯片段包含有足球比赛场地上的门柱视讯特征时，将可判断该视讯片段相关于足球比赛转播节目中的高潮部分。换言之，当所撷取的视讯片段并未包含有足球比赛场地上的门柱特征画面时，可直接将该视讯片段移除。检测到门柱特征画面最简单的方法就是对视讯片段实施边缘检测。一种本领域技术人员所熟悉的方法用来对视讯片段实施边缘检测以检测门柱特征画面，其中该方法称为霍夫转换程序(Hough Transform)。霍夫转换程序为一种影像分析上可协助在影像空间中识别出广域特征(global pattern)相当常见的工具。霍夫转换程序同时也是用来检测直线、圆形、多角形等几何图形最好用的方法。霍夫转换程序的关系式系列举如下：

H (θ, ρ) = {&Integral;}_{- \infty}^{\infty} {&Integral;}_{- \infty}^{\infty} A (x, y) δ (ρ - x \cos θ - y \sin θ) dxdy - - - (8)

请参考图8，其为霍夫转换程序中实施空间领域转换的示意图。如图8所示，x代表一平面空间的横轴，y代表该平面空间的纵轴，ρ代表半径，且θ代表夹角。有关应用霍夫转换程序的计算将不再详述于后，因为如以上所述，霍夫转换程序为搜寻视觉特征相当常见的方法。

为了找到强健的门柱视讯特征，必须在原始节目的视讯序列所包含的该多个第一视讯片段中执行一些预防措施，以移除某些侧面效应，其中这些侧面效应由具有与门柱类似的视讯特征的物体所产生。举例来说，在足球比赛转播节目中，此类型的物体包含有比赛场地的边线、观众的座位、广播台的商标广告牌等。第一种预防措施为将该多个第一视讯片段的每一视讯片段的光度影像分类为白色区域与非白色区域，因为门柱的主色系必然为白色；接着再将非白色区域在该光度影像中移除，以产生多个第二视讯片段。第二种预防措施称为侵蚀程序(erosion)，并实施于该多个第二视讯片段的每一视讯片段，以用来移除孤立的特征点。最后，应用上述霍夫转换程序的边缘检测实施于已移除孤立特征点的该多个第二视讯片段，以在该多个第二视讯片段的每一视讯片段中找寻门柱视讯特征。根据在该多个第二视讯片段中所找到的门柱视讯特征，可产生多个包含有门柱视讯特征的视讯片段，以用来指出足球比赛转播节目中拍摄到门柱的高潮部分。

请注意，本发明于图7所示的辅助方法并非仅可使用于足球比赛转播节目，且亦可使用于其它类型的转播节目，也包含了其它类型的运动的比赛转播节目。

请注意，在图1中实施步骤120与122的合理排列与组合顺序皆应属于本发明的范畴。除此以外，即使不使用步骤120与122所示的辅助方法来支持，本发明所提供的泛用节目片段筛选方法仍然可以达到原先设定的目的。

本发明提供一种泛用节目片段筛选方法与多种相关的辅助方法，其中该泛用节目片段筛选方法使用了简单、较高计算效率、与强健的音讯特征。通过集中在节目所包含的音讯序列的特定频率上，本发明所提供的泛用节目片段筛选方法的复杂度大幅降低。通过多个梅尔刻度式倒频谱参数与该多个梅尔刻度式倒频谱参数所产生的主频带能量参数，多种音讯特征可用来滤除不必要的信息，并分辨出节目中的高潮部分。最后，不同音讯片段所产生的分数用来当作筛选出事后录下的转播节目中所包含相关于高潮部分的多个视讯片段的基准。某些低阶音讯特征变量亦用来增进上述音讯片段所产生的分数的准确性，以更准确的选出代表节目的高潮部分的视讯片段。再者，某些具有特定视讯特征的视讯片段也会被用来辅助更为准确的筛选出转播节目中的高潮部分。当某些根据音讯片段的分数所筛选出来的视讯片段并不符合观众个人的需求时，这些被筛选出来的视讯片段对应的音讯片段可再次被评分，以更为准确的筛选出对应于节目中高潮部分的视讯片段来，因此本发明的泛用节目片段筛选方法提供了更为可靠的节目片段筛选标准。通过本发明所提供的泛用节目片段筛选方法筛选出所录下的节目中较能代表高潮的部分，现有技术中观众需要完整的看完所录下的转播节目的缺点将可有效的改善。

以上所述仅为本发明的较佳实施例，凡依本发明权利要求所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种带有简单且强健的音讯特征的泛用节目时段筛选方法，包含：

(a)检测一节目的一已接收的音讯序列中包含的商业广告，其中该已接收的音讯序列包含多个音讯帧；

(b)在该已接收的音讯序列中移除所检测到的商业广告；

(c)以一特定频率对该音讯序列作取样，其中该音讯序列已移除所检测到的该商业广告；

(d)在该音讯序列所包含的该多个音讯帧的每一音讯帧中，产生多个梅尔刻度式倒频谱参数；

(e)在该多个音讯帧的每一音讯帧中，取出该多个梅尔刻度式倒频谱参数中的C2参数与C3参数，其中该C2参数与该C3参数都已常态化；

(f)在该多个音讯帧的每一音讯帧中，根据所取出的该C2参数与该C3参数，产生一主频带能量参数；

(g)以一低通滤波器，由该音讯序列所产生的多个主频带能量参数中，产生多个峰值型样，其中单一峰值型样包含该音讯序列中多个连续的音讯帧；

(h)决定一阈值，以将所产生的该多个峰值型样转换为多个第一音讯片段，其中该多个第一音讯片段的每一音讯片段包含比一对应的峰值型样更多的音讯帧；及

(i)根据该多个第一音讯片段的每一音讯片段所产生的一主频带能量参数与一相关比重，在该多个第一音讯片段的每一音讯片段中产生一分数。

2.如权利要求1所述的方法，还包含：

(j)将该多个第一音讯片段包含的部分音讯片段合并为多个第二音讯片段，并根据一分段规则，舍弃该多个第一音讯片段包含的其它部分音讯片段；及

(k)对该多个第二音讯片段实施步骤(d)、(e)、(f)、(g)、(h)、(i)、(j)。

3.如权利要求1所述的方法，其中该特定频率约为8KHz。

4.如权利要求1所述的方法，其中步骤(f)还包含：

(l)根据关系式DFBE＝4*C2+C3产生该主频带能量参数，其中DFBE代表该主频带能量参数，C2代表该C2参数，且C3代表该C3参数。

5.如权利要求4所述的方法，还包含：

(m)在执行步骤(l)之前，根据该多个梅尔刻度式倒频谱参数包含的C0参数，将该C2参数与该C3参数常态化。

6.如权利要求1所述的方法，其中步骤(h)还包含：

(n)在该多个峰值型样包含的多个主频带能量参数中，产生一平均值与一标准偏差值。

7.如权利要求6所述的方法，其中该阈值根据关系式Thresh＝mean+x*std所产生，其中Thresh代表该阈值，mean代表该平均值，std代表该标准偏差值，且x为一变量。

8.如权利要求7所述的方法，其中变量x的值为1。

9.如权利要求1所述的方法，还包含：

(o)根据一关系式，在该多个第一音讯片段的每一音讯片段中产生一第一低阶特征变量，其中该关系式表示为

v (n) = \sqrt{1 / N} Σ_{i = 0}^{N - 1} {S_{n}}^{2} (i),

v(n)表示该多个第一音讯片段的第n个音讯片段所包含的第一低阶特征变量，S_n(i)代表该第n个音讯片段所包含的第i个音讯帧的能量，且N代表该第n个音讯片段所包含的音讯帧的数量；

(p)根据该多个第一音讯片段的每一音讯片段所包含的多个音讯帧的能量的标准偏差值，产生该多个第一音讯片段的每一音讯片段的一第二低阶特征变量；

(q)根据所产生的该多个第一低阶特征变量的每一低阶特征变量，并根据一关系式，在该多个第一音讯片段的每一音讯片段中，产生一第三低阶特征变量，其中该关系式表示为

EDR = \frac{Max (v) - Min (v)}{Max (v)},

EDR表示该第三低阶特征变量，Max(v)表示该多个第一低阶特征变量中的一最大低阶特征变量，且Min(v)表示该多个第一低阶特征变量中的一最小低阶特征变量；

(r)根据一关系式，在该多个第一音讯片段中每一音讯片段中，产生一第四低阶特征变量，其中该关系式表示为

z (n) = \frac{1}{2} Σ | sgn (S (m)) - sgn (S (m - 1)) | w (n - m),

sgn (S (m)) = \{\begin{matrix} 1 & if & S (m) &GreaterEqual; 0 \\ - 1 & if & S (m) < 0 \end{matrix},

且w(n-m)代表该第m个音讯帧的视窗大小；及

(s)根据一关系式，更新步骤(i)所产生的该分数，其中该关系式表示为

Score = w_{0} * DFBE + Σ_{i = 1}^{4} w_{i} * LL F_{i},

Score代表该已更新的分数，DFBE代表该主频带能量参数，w₀代表主频带能量参数DFBE的比重，LLF_i代表步骤(o)、(p)、(q)、(r)中所述的第i低阶特征变量，i的值为1至4，且w_i代表第i低阶特征变量的比重。

10.如权利要求2所述的方法，其中该分段规则包含：

(t)在该多个第一音讯片段中，当出现一第一音讯片段与一第二音讯片段满足一第一条件时，递归地合并该第一音讯片段与该第二音讯片段，直到不再出现有满足该第一条件的该第一音讯片段与该第二音讯片段为止，其中该第一条件包含：

该第一音讯片段与该第二音讯片段之间的一第一时间间隙小于一第一预定时间；及

该第一音讯片段与该第二音讯片段为连续的音讯片段；及

(u)在实施步骤(t)后，递归地舍弃满足一第二条件的一第三音讯片段，直到不再出现有满足该第二条件的该第三音讯片段为止，其中该第二条件包含：

该第三音讯片段的时间长度小于一第二预定时间。

11.如权利要求1所述的方法，还包含：

根据所产生的多个分数，由该节目包含的一视讯序列中，撷取多个第一视讯片段。

12.如权利要求11所述的方法，还包含：

(v1)根据该节目的种类，决定一特征画面与一主色系；

(v2)将该多个第一视讯片段的每一视讯片段分类为一第一灰阶区域与一第二灰阶区域，其中该第一灰阶区域的色系以该主色系为主，且该第二灰阶区域的色系并未以该主色系为主；

(v3)在该多个第一视讯片段的每一视讯片段中，滤除该第二灰阶区域，以产生多个第二视讯片段；

(v4)由所产生的该多个第二视讯片段的每一视讯片段中，移除多个孤立特征点；及

(v5)对该多个第二视讯片段实施边缘检测，以检测该多个第二视讯片段中是否存在有该特征画面。

13.如权利要求12所述的方法，其中步骤(v5)以霍夫转换程序来实施。

14.如权利要求12所述的方法，还包含：

根据执行步骤(v5)的结果，产生多个第三视讯片段。

15.如权利要求12所述的方法，其中该节目为一足球比赛转播，该主色系为白色，且该特征画面为该足球比赛转播中的球门画面。

16.一种以多个低阶特征支持泛用节目时段筛选方法的辅助方法，包含：

(a)根据一关系式，在多个第一音讯片段的每一音讯片段中产生一第一低阶特征变量，其中该关系式表示为

v (n) = \sqrt{1 / N} Σ_{i = 0}^{N - 1} {S_{n}}^{2} (i),

(b)根据该多个第一音讯片段的每一音讯片段所包含的多个音讯帧的能量的标准偏差值，产生该多个第一音讯片段的每一音讯片段的一第二低阶特征变量；

(c)根据所产生的该多个第一低阶特征变量的每一低阶特征变量，并根据一关系式，在该多个第一音讯片段的每一音讯片段中，产生一第三低阶特征变量，其中该关系式表示为

EDR = \frac{Max (v) - Min (v)}{Max (v)},

(d)根据一关系式，在该多个第一音讯片段的每一音讯片段中，产生一第四低阶特征变量，其中该关系式表示为

z (n) = \frac{1}{2} Σ | sgn (S (m)) - sgn (S (m - 1)) | w (n - m),

sgn (S (m)) = \{\begin{matrix} 1 & if & S (m) &GreaterEqual; 0 \\ - 1 & if & S (m) < 0 \end{matrix},

且w(n-m)代表该第m个音讯帧的视窗大小；及

(e)根据一关系式产生一分数，其中该关系式表示为

Score = w_{0} * DFBE + Σ_{i = 1}^{4} w_{i} * LL F_{i},

Score代表所产生的该分数，DFBE代表该主频带能量参数，w₀代表主频带能量参数DFBE的比重，LLF_i代表步骤(o)、(p)、(q)、(r)所述的第i低阶特征变量，i的值为1至4，且w_i代表第i低阶特征变量的比重。

17.如权利要求16所述的方法，还包含：

根据所产生的多个分数，在一节目包含的一视讯序列中，撷取多个第一视讯片段，其中该多个第一音讯片段由该节目中所撷取。

18.一种以一主频带能量参数支持泛用节目时段筛选方法的辅助方法，包含：

(a)在一节目包含的一音讯序列所包含的多个音讯帧的每一音讯帧中，产生多个梅尔刻度式倒频谱参数；

(b)在该多个音讯帧的每一音讯帧中，取出该多个梅尔刻度式倒频谱参数中的C2参数与C3参数，其中该C2参数与该C3参数都已常态化；及

(c)在该多个音讯帧的每一音讯帧中，根据所取出的该C2参数与该C3参数，并根据关系式DFBE＝4*C2+C3，产生一主频带能量参数，其中DFBE代表该主频带能量参数，C2代表该C2参数，且C3代表该C3参数。

19.如权利要求18所述的方法，还包含：

(d)在执行步骤(c)之前，根据该多个梅尔刻度式倒频谱参数包含的C0参数，将该C2参数与该C3参数常态化。

20.一种以特定视讯特征支持泛用节目时段筛选方法的辅助方法，包含：

(a)在一节目包含的一视讯序列中，撷取多个第一视讯片段，其中该节目包含一音讯序列，该音讯序列包含多个第一音讯片段，且该多个第一视讯片段根据由该多个第一音讯片段所产生的多个第二音讯片段的多个分数来加以撷取；

(b)根据该节目的种类，决定一特征画面与一主色系；

(c)将该多个第一视讯片段的每一视讯片段分类为一第一灰阶区域与一第二灰阶区域，其中该第一灰阶区域的色系以该主色系为主，且该第二灰阶区域的色系并未以该主色系为主；

(d)在该多个第一视讯片段的每一视讯片段中，滤除该第二灰阶区域，以产生多个第二视讯片段；

(e)由所产生的该多个第二视讯片段的每一视讯片段中，移除多个孤立特征点；及

(f)对该多个第二视讯片段实施边缘检测，以检测该多个第二视讯片段中是否存在有该特征画面。

21.如权利要求20所述的方法，其中步骤(f)以霍夫转换程序来实施。

22.如权利要求20所述的方法，还包含：

根据执行步骤(f)的结果，产生多个第三视讯片段。

23.如权利要求20所述的方法，其中该节目为一足球比赛转播，该主色系为白色，且该特征画面为该足球比赛转播中的球门画面。