CN100426847C

CN100426847C - 以语音特征为基础的精采片段检测电路及其相关方法

Info

Publication number: CN100426847C
Application number: CNB2005100893267A
Authority: CN
Inventors: 许昱; 叶家宏; 施宣辉; 郭宗杰
Original assignee: MAVs Lab Inc
Current assignee: MAVs Lab Inc
Priority date: 2005-08-02
Filing date: 2005-08-02
Publication date: 2008-10-15
Anticipated expiration: 2025-08-02
Also published as: CN1909605A

Abstract

一种精采片段检测电路，用来检测一视讯信号中的一精采片段。该精采片段检测电路包含有：一音调追踪模块、一音调差异检测模块、一调制器以及一精采片段检测模块。该音调追踪模块用来估计一语音信号的多个音调值，该音调差异检测模块耦接至该音调追踪模块，用来依据该多个音调值以计算出多个音调差异值，该调制器耦接至该音调差异检测模块，用来产生多个调制后音调差异值，而该精采片段检测模块耦接至该调制器，用来依据该多个调制后音调差异值以决定该精采片段的一起始点和一截止点。该视讯信号对应于一信号源的一影像部分，而该语音信号对应于该信号源的一语音部分，且该视讯信号中的精彩片段与该语音信号中的急剧音调变化对应。

Description

以语音特征为基础的精采片段检测电路及其相关方法

技术领域

本发明涉及一种视讯内容检测技术，特别是涉及一种利用一语音信号进行视讯精采片段检测的精采片段检测电路及其相关方法。

背景技术

当一个收视者在观赏一视讯节目，而该视讯节目的内容除了小部分分散的片段(video clips)的外，该收视者对大部分片段的内容并不感兴趣，此时如果能够撷取该收视者感兴趣的片段(highlight)而滤掉其感觉无趣的内容将可使该收视者不用为了小部分的内容而必须完整地看完整个视讯节目，如此一来，该收视者也可花更多的时间在只观看其感觉有趣的节目内容上。举例来说，一个棒球比赛进行的期间，观众大部分的时间都在等待，当一打击者出局时，观众需等待该打击者走下场、等待下一位打击者走上场准备打击以及等待捕手打暗号告诉投手下一球要投什么球，此外，当两队攻、守互换时，观众亦必须等待一段时间，然而，全垒打、得分、双杀守备等精采片段只是少量地分散在一场冗长的棒球比赛之中。对于一个棒球迷或是一个固定的收视者而言，其很难总是有足够的时间坐在电视前面观看完整场比赛，此时，球赛精采片段检测即能帮该棒球迷或该固定收视者撷取比赛中的精采时刻并略过无聊的片段。

有一些现有的方法可以处理这种精采片段的检测问题，这些方法利用一个机率模型架构来处理这种检测问题，而且还需要一训练数据(trainingdata)来估计此一机率模型架构的一些参数，此种现有方法的运算复杂度较高以及执行速度缓慢，因此导致此种现有方法难以实现在一嵌入式系统(embedded system)之中。

发明内容

因此，本发明的目的之一在于提供一种利用一语音信号进行视讯精采片段检测以决定一精采片段的精采片段检测电路及其相关方法，以解决上述问题。

依据本发明的实施例，其披露了一精采片段检测电路，用来检测一视讯信号中的一精采片段(highlight)。该精采片段检测电路包含有：一音调追踪(pitch tracking)模块、一音调差异(pitch difference)检测模块、一调制器以及一精采片段检测模块。该音调追踪模块用来估计一语音信号的多个音调值，该音调差异检测模块耦接至该音调追踪模块，用来依据该多个音调值以计算出多个音调差异值，该音调差异检测模块加总一特定音调值之前多个音调值以产生一第一加总值，加总该特定音调值之后多个音调值以产生一第二加总值，并将该第一加总值和该第二加总值的差设定为与该特定音调值对应的音调差异值，该调制器耦接至该音调差异检测模块，用来产生多个调制后音调差异值，该调制器将与一特定音调值对应的音调差异值乘上该特定音调值以产生与该特定音调值对应的调制后音调差异值，而该精采片段检测模块耦接至该调制器，用来依据该多个调制后音调差异值以决定该精采片段的一起始点和一截止点。该视讯信号对应于一信号源的一影像部分，而该语音信号对应于该信号源的一语音部分，且该视讯信号中的精彩片段与该语音信号中的急剧音调变化对应。

依据本发明的实施例，其还披露了一种用来检测一视讯信号中的一精采片段的方法。该方法包含有：估计一语音信号的多个音调值；依据该多个音调值，计算出多个音调差异值，其中，加总一特定音调值之前多个音调值以产生一第一加总值，加总该特定音调值之后多个音调值以产生一第二加总值，并将该第一加总值和该第二加总值的差设定为与该特定音调值对应的音调差异值；产生多个调制后音调差异值，其中，将与一特定音调值对应的音调差异值乘上该特定音调值以产生与该特定音调值对应的调制后音调差异值；以及依据该多个调制后音调差异值，决定该精采片段的一起始点和一截止点。该视讯信号对应于一信号源的一影像部分，而该语音信号对应于该信号源的一语音部分，且该视讯信号中的精彩片段与该语音信号中的急剧音调变化对应。

附图说明

图1为本发明精采片段检测电路的一实施例的功能方块示意图。

图2为图1所示的音调平滑器的操作示意图。

附图符号说明

100 精采片段检测电路

110 取样电路

120 音调追踪模块

130 音调平滑器

140 音调差异检测模块

150 调制器

160 精采片段检测模块

170 精采片段微调模块

具体实施方式

请参考图1，图1为本发明精采片段检测电路100的一实施例的功能方块示意图。如图1所示，精采片段检测电路100包含有一取样电路110、一音调追踪(pitch tracking)模块120、一音调平滑器(pitch smoother)130、一音调差异(pitch difference)检测模块140、一调制器150、一精采片段(highlight)检测模块160以及一精采片段微调模块170。取样电路110缩减取样(down-sampling)一语音信号至一适当的取样率(例如，8000Hz)，然后输出一缩减取样语音信号到音调追踪模块120以产生多个音调值。此一实施例中，该语音信号为一数字电视信号所传输的一棒球比赛的语音部分，而此一实施例中的视讯信号为该数字电视信号所传输的该棒球比赛的视讯部分，此外，由音调追踪模块120所输出的所述音调值代表该棒球比赛期间中一播报员的声音，而该播报员的声音是后续检测该视讯信号中一精采片段的信号处理的基础。

所述音调值接着馈入音调平滑器130，而音调平滑器130为减低由人群所产生的噪音噪声(背景噪音，background noise)并输出多个平均后音调值到音调差异检测模块140和调制器150，音调差异检测模块140依据该平均后音调值计算出多个音调差异值，然后把所述音调差异值输出到调制器150，调制器150于收到所述音调差异值和所述平均后音调值后，运用乘法运算的方式来调制所述音调差异值和所述平均后音调值，以产生多个调制后音调差异值。接着，精采片段检测模块160便依据该调制后音调差异值粗估该视讯信号中一精采片段的起始点和截止点，最后，精采片段微调模块170对该视讯信号进行一分镜检测(shot detection)运算以提前该起始点来产生一更新后起始点，以及延迟该截止点来产生一更新后截止点。

音调追踪模块120的操作详细叙述如下。假设取样率为8000Hz，则对于包含有1024个取样点(即128ms)的每一个滑动窗口(sliding window)而言，取其滑动窗口跳跃长度(step size)为400个取样点(即50ms)，音调追踪模块120利用现有的傅里叶转换(Fourier transform)处理对应每一个滑动窗口的数据，然后以现有的调和乘积谱(harmonic product spectrum)算法来估计上述的所述音调值，也就是说音调追踪模块120每秒产生20个音调值。有关傅里叶转换以及调和乘积谱算法的运作与实施方式是本领域的技术人员所熟知的，故不予赘述。于此输出的所述音调值是该播报员的声音(此后的说明中，该播报员的声音亦被称为真实音调(real pitch))的估计值，然而，有时候由调和乘积谱算法所估计出的真实音调实际上并非是一真正的真实音调，而是频率为该真正真实音调的2倍的谐波，所以音调追踪模块120会检查是否存在一音调值，其频率为所估计出的真实音调的频率的一半，且该音调值的一强度值为该估计出的真实音调的强度值的某一程度以上(例如，50％以上)，若上述判断结果为真，则音调追踪模块120会把该估计出的真实音调以该音调值来加以取代，亦即以该音调值来做为音调追踪模块120的输出，此外，若音调追踪模块120的输出值太小时，音调追踪模块120会将其输出值以0取代。请注意，调和乘积谱算法仅为音调追踪方法的一个例子，任何能够追踪一音调的运算，例如一自相关(autocorrelation)运算，都可以被应用在本发明中。

请参考图2，图2为图1所示的音调平滑器130的操作示意图。实际上，在这一级所接收到的所述音调值充斥着群众的大量噪音噪声，此外，该播报员的声音在字与字之间也充满着许多不存在音调值的安静期间(silenceperiod)，因此，音调平滑器130首先会检查在一特定窗口(例如，一个1秒钟窗口(1-sec window))内多个音调值来宏观地检测所述音调值是否大于一第一临界值(例如，10Hz)，在本实施例中，若在该特定窗口内的所述音调值中高于该第一临界值的音调值数量的百分比大于一第二临界值(例如，50％)，则音调平滑器130便平均该特定窗口内大于该第一临界值的多个音调值以产生对应该特定窗口的一平均后音调值；反之，若在该特定窗口内的所述音调值中大于该第一临界值的音调值数量的百分比未到达上述第二临界值，则音调平滑器130便将对应该特定窗口的该平均后音调值设定为一默认值(例如，0)。然后，该1秒钟窗口向前滑动一个取样点，而该音调平滑器130重复上述的程序以产生下一个平均后音调值。

为了加强所述音调值的急剧音调改变，音调差异检测模块140首先决定对应一特定平均后音调值的特定音调差异值，其步骤如下：首先加总该特定平均后音调值之前的多个平均后音调值以产生一第一加总值(例如，100个平均后音调值，其对应于一5秒钟窗口(5-sec window))，然后再加总该特定平均后音调值之后的多个平均后音调值以产生一第二加总值(例如，100个平均后音调值，其对应于一5秒钟窗口)，最后将该特定音调差异值设定为该第二加总值减去该第一加总值的差。该音调差异值接着馈入调制器150，而调制器150把对应一特定平均后音调值的特定音调差异值乘上该特定平均后音调值以产生一调制后音调差异值。至此，该播报员声音中多个急剧音调改变的轮廓(contour)已完成追踪，并且以该调制后音调差异值中多个波峰和波谷来加以表示。

精采片段检测模块160用来决定该调制后音调差异值中的多个波峰，每一波峰代表含有急剧音调改变的一精采片段的起始点，在本实施例中，当一精采事件发生时，由于播报员会改变其声音语调以表达其情绪，因此便会发出一较高的音调，此外该播报员的说话速度也会变快，因此造成较密集的音调分布，而该较高的音调和较密集的音调分布皆会影响该调制后音调差异值。精采片段检测模块160首先由该调制后音调差异值中选出一波峰来做为一精采片段的起始点SP’，然后在该峰值之后的一段期间内(例如，5～20秒)，精采片段检测模块160再由该调制后音调差异值中选出一波谷做为该精采片段的截止点EP’，请注意选择一波峰或一波谷来做为一精采片段的起始点是由该音调差异值如何定义所决定，如上所述，一音调差异值定义为一第二加总值减去一第一加总值的差，因此，在本实施例中，应该选择一波峰来做为一起始点，而选择一波谷来做为一截止点；相反地，若一音调差异值定义为一第一加总值减去一第二加总值的差，则应选择一波谷来做为一起始点，而选择一波峰来做为一截止点。

由起始点SP’和截止点EP’所决定出来的该精采片段是由精采片段检测模块160所粗略地估计出来的，但是该精采片段并不是对应至一个完整的事件，亦即，由精采片段检测模块160所粗略地检测出来的起始点SP’可能是在该精采片段真正的发生时间后的一时间点(因为播报员的声音变化发生在一精采片段发生之后)，此外，粗略决定的截止点EP’可能使得该精采片段的结尾无法平顺地结束。因此，精采片段微调模块170依据精采片段检测模块160所决定的起始点SP’和截止点EP’进行现有的分镜检测运算，以进一步微调起始点SP’和截止点EP’，该分镜检测操作于该精采片段的起始点SP’之前一时段内(例如，3～20秒)，在该时段内具有一最大分镜改变(shotchange)的时间点将被选择为该精采片段的一新起始点SP；同样地，该分镜检测亦会操作于该精采片段的截止点SP’之后的一时段内(例如，1～10秒)，在该时段内具有一最大分镜改变的时间点将被选择为该精采片段的一新截止点EP，因此，一微调后精采片段便可以由新起始点SP和新截止点EP而决定出来。请注意，精采片段微调模块170利用分镜检测运算来微调起始点SP’和截止点EP’仅是实施上的一个选择，任何其它可用于微调起始点SP’和截止点EP’的运算或算法皆可被精采片段微调模块170采用以替代上述分镜检测运算的功能，此外，因为本发明应用于撷取一视讯节目的精采片段，所以特别适合于至少有一播报员在对节目内容进行评论的视讯节目，但是本发明并不以此类的节目为限。

之后，依据精采片段检测电路100所产生的起始点SP和截止点EP，下一级电路便可以由该视讯信号撷取该精采片段而只获取该数字电视信号中该影像部分，另一方面，下一级电路也可以依据精采片段检测电路100所产生的起始点SP和截止点EP，同时由该视讯信号和该语音信号撷取该精采片段，以同时获取该数字电视信号的影像部分和语音部分。

以上所述仅为本发明的较佳实施例，凡依本发明的权利要求所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1. 一种精采片段检测电路，用来检测一视讯信号中的一精采片段，其包含有：

一音调追踪模块，用来估计一语音信号的多个音调值；

一音调差异检测模块，耦接至该音调追踪模块，用来依据该多个音调值以计算出多个音调差异值，该音调差异检测模块加总一特定音调值之前多个音调值以产生一第一加总值，加总该特定音调值之后多个音调值以产生一第二加总值，并将该第一加总值和该第二加总值的差设定为与该特定音调值对应的音调差异值；

一调制器，耦接至该音调差异检测模块，用来产生多个调制后音调差异值，该调制器将与一特定音调值对应的音调差异值乘上该特定音调值以产生与该特定音调值对应的调制后音调差异值；以及

一精采片段检测模块，耦接至该调制器，用来依据该多个调制后音调差异值以决定该精采片段的一起始点和一截止点；

其中该视讯信号对应于一信号源的一影像部分，以及该语音信号对应于该信号源的一语音部分，且该视讯信号中的精彩片段与该语音信号中的急剧音调变化对应。

2. 如权利要求1所述的精采片段检测电路，其还包含有：

一音调平滑器，耦接于该音调追踪模块和该音调差异检测模块之间，用来分别对每一窗口内的多个音调值进行平均以产生多个平均后音调值；

其中该音调差异检测模块依据该多个平均后音调值以产生该多个音调差异值。

3. 如权利要求2所述的精采片段检测电路，其中若在一特定窗口内的多个音调值中低于一第一临界值的音调值数量的百分比到达一第二临界值，则该音调平滑器设定一默认值给对应该特定窗口的一平均后音调值；以及若该特定窗口内的该多个音调值中低于该第一临界值的音调值数量的百分比未达到该第二临界值，则该音调平滑器平均该特定窗口内不小于该第一临界值的多个音调值以产生对应该特定窗口的一平均后音调值。

4. 如权利要求1所述的精采片段检测电路，其还包含有：

一精采片段微调模块，耦接至该精采片段检测模块，用来依据该视讯信号以提前该起始点或延迟该截起点的位置。

5. 如权利要求4所述的精采片段检测电路，其中该精采片段微调模块对该视讯信号进行一分镜检测运算以提前该起始点或延迟该截止点的位置以取得较完整的片段。

6. 如权利要求1所述的精采片段检测电路，其中该音调追踪模块对该语音信号进行一傅里叶转换以产生一频域信号，而后对该频域信号进行一调和乘积谱算法以估计该多个音调值。

7. 如权利要求6所述的精采片段检测电路，其中若一第二音调值的一强度达到由该音调追踪模块进行该调和乘积谱算法所估计出的一第一音调值的一强度的一特定百分比，且该第二音调值的一音调为该第一音调值的一音调的一半，则该音调追踪模块以该第二音调值来取代该第一音调值。

8. 如权利要求1所述的精采片段检测电路，其中该音调追踪模块对该语音信号进行一傅里叶转换以产生一频域信号，而后对该频域信号进行一自相关运算以估计该多个音调值。

9. 如权利要求1所述的精采片段检测电路，其中该信号源为一数字电视信号。

10. 如权利要求1所述的精采片段检测电路，其还包含有：

一取样电路，耦接至该音调追踪模块，用来缩减取样该语音信号并输出一缩减取样语音信号至该音调追踪模块。

11. 一种检测一视讯信号中的一精采片段的方法，其包含有步骤：

估计一语音信号的多个音调值；

依据该多个音调值，计算出多个音调差异值，其中，加总一特定音调值之前多个音调值以产生一第一加总值，加总该特定音调值之后多个音调值以产生一第二加总值，并将该第一加总值和该第二加总值的差设定为与该特定音调值对应的音调差异值；

产生多个调制后音调差异值，其中，将与一特定音调值对应的音调差异值乘上该特定音调值以产生与该特定音调值对应的调制后音调差异值；以及

依据该多个调制后音调差异值，决定该精采片段的一起始点和一截止点；

12. 如权利要求11所述的方法，还包含有步骤：

分别对每一窗口内的多个音调值进行平均以产生多个平均后音调值；其中该多个音调差异值依据该多个平均后音调值所产生。

13. 如权利要求12所述的方法，其中平均该多个音调值的步骤还包含有步骤：

若在一特定窗口内的多个音调值中低于一第一临界值的音调值数量的百分比到达一第二临界值，则设定一默认值给对应该特定窗口的一平均后音调值；以及

若该特定窗口内的该多个音调值中低于该第一临界值的音调值数量的百分比未达到该第二临界值，则平均该特定窗口内不小于该第一临界值的多个音调值以产生对应该特定窗口的一平均后音调值。

14. 如权利要求11所述的方法，其还包含有：

依据该视讯信号以提前该起始点或延迟该截起点的位置。

15. 如权利要求14所述的方法，其中一分镜检测运算操作于该视讯信号，以提前该起始点或延迟该截止点的位置。

16. 如权利要求11所述的方法，其中估计该多个音调值的步骤还包含对该语音信号进行一傅里叶转换以产生一频域信号，而后对该频域信号进行一调和乘积谱算法以估计该多个音调值。

17. 如权利要求16所述的方法，其中估计该多个音调值的步骤还包含有步骤：

若一第二音调值的一强度达到由该调和乘积谱算法所估计出的一第一音调值的一强度的一特定百分比，且该第二音调值的一音调为该第一音调值的一音调的一半，则以该第二音调值取代该第一音调值。

18. 如权利要求11所述的方法，其中估计该多个音调值的步骤还包含对该语音信号进行一傅里叶转换以产生一频域信号，而后对该频域信号进行一自相关运算以估计该多个音调值。

19. 如权利要求11所述的方法，其中该信号源为一数字电视信号。

20. 如权利要求11所述的方法，其还包含有步骤：

缩减取样该语音信号以产生一缩减取样语音信号；

其中该多个音调值依据该缩减取样语音信号所估计出。