CN110891202B

CN110891202B - 分段方法、分段系统及非暂态电脑可读取媒体

Info

Publication number: CN110891202B
Application number: CN201910104946.5A
Authority: CN
Inventors: 詹诗涵; 柯兆轩
Original assignee: Delta Electronics Inc
Current assignee: Delta Electronics Inc
Priority date: 2018-09-07
Filing date: 2019-02-01
Publication date: 2022-03-25
Anticipated expiration: 2039-02-01
Also published as: JP6829740B2; TWI699663B; CN110895654A; TW202011231A; SG10201907250TA; CN110891202A; TWI696386B; JP2020042771A; TW202011749A; TW202011232A; TWI700597B; TW202011222A; JP2020042770A; TWI709905B; CN110888896A; JP2020042777A; CN110889034A; CN110888994A; CN110888896B; TWI725375B

Abstract

本公开内容关于一种分段方法、分段系统及非暂态电脑可读取媒体。该分段方法包含下列步骤：接收影片内容；其中，影片内容包含影像信号以及声音信号；针对影像数据进行分段处理，以产生至少一影像段落标记；针对该声音数据进行分段处理，以产生至少一声音段落标记；以及比较该至少一影像段落标记的一影像标记时间与该至少一声音段落标记的一声音标记时间之间的差异，以产生至少一影片内容标记。

Description

分段方法、分段系统及非暂态电脑可读取媒体

技术领域

本公开内容关于一种分段方法、分段系统及非暂态电脑可读取媒体，且特别是有关于一种针对视频源的分段方法、分段系统及非暂态电脑可读取媒体。

背景技术

线上学习平台是指一种将众多学习资料存储于伺服器中，让使用者能通过网际网络连线至伺服器，以随时浏览学习资料的网络服务。在现行的各类线上学习平台中，提供的学习资料类型包含影片、音频、简报、文件或论坛。

由于线上学习平台中储存的学习资料数量庞大，为了能够方便使用者的使用，需要针对学习资料的影音内容进行自动分段。因此，如何根据学习影片的声音内容以及影像内容之间的关联性进行处理，达到将学习影片自动分段是本领域待解决的问题。

发明内容

本公开内容的第一方面在于提供一种分段方法。该分段方法包含下列步骤：接收影片内容；其中，影片内容包含影像数据以及声音数据；针对影像数据进行分段处理，以产生至少一影像段落标记；针对该声音数据进行分段处理，以产生至少一声音段落标记；以及比较该至少一影像段落标记的一影像标记时间与该至少一声音段落标记的一声音标记时间之间的差异，以产生至少一影片内容标记。

本公开内容的第二方面在于提供一种分段系统，其包含储存单元以及处理器。储存单元用以储存视频源以及至少一影片内容标记。处理器与储存单元电性连接，用以接收影片内容；其中，影片内容包含影像数据以及声音数据，处理器包含：影像分段单元、声音分段单元以及段落标记产生单元。影像分段单元用以针对影像数据进行分段处理，以产生至少一影像段落标记。声音分段单元与影像分段单元电性连接，用以针对声音数据进行分段处理，以产生至少一声音段落标记。段落标记产生单元与影像分段单元以及声音分段单元电性连接，用以比较至少一影像段落标记的影像标记时间与至少一声音段落标记的声音标记时间之间的差异，以产生至少一影片内容标记。

本申请的第三方面在于提供一种非暂态电脑可读取媒体，包含至少一指令程序，由处理器执行至少一指令程序以实行一分段方法，该分段方法包含以下步骤：接收影片内容；其中，影片内容包含影像数据以及声音数据；针对影像数据进行分段处理，以产生至少一影像段落标记；针对该声音数据进行分段处理，以产生至少一声音段落标记；以及比较该至少一影像段落标记的一影像标记时间与该至少一声音段落标记的一声音标记时间之间的差异，以产生至少一影片内容标记。

本公开的分段方法、分段系统及非暂态电脑可读取媒体，其主要是改进以往利用人工方式进行影片段落标记，耗费大量人力以及时间的问题。分别针对影像信号以及声音信号进行段落标记，再根据影像信号的段落标记以及声音信号的段落标记产生影片内容标记，达到将学习影片自动分段的功能。

附图说明

为让本申请内容的上述和其他目的、特征、优点与实施例能更明显易懂，对本申请的附图说明如下：

图1为根据本申请的一些实施例所绘示的分段系统的示意图；

图2为根据本申请的一些实施例所绘示的分段方法的流程图；

图3为根据本申请的一些实施例所绘示的步骤S220的流程图；

图4为根据本申请的一些实施例所绘示的步骤S222的流程图；

图5A为根据本申请的一些实施例所绘示的步骤S223的流程图；

图5B为根据本申请的一些实施例所绘示的步骤S223的流程图；以及

图6为根据本申请的一些实施例所绘示的步骤S230的流程图。

【附图标记说明】

100：分段系统

110：储存单元

130：处理器

DB：课程数据库

131：影像分段单元

132：声音分段单元

133：段落标记产生单元

200：分段方法

S210～S240、S221～S223、S2221～S2223、S2231a～S2233a、S2231b～S2233b、S231～S233：步骤

具体实施方式

以下将参照图示披露本申请的多个实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本申请。也就是说，在本公开内容部分实施方式中，这些实务上的细节是非必要的。此外，为简化图示起见，一些公知惯用的结构与元件在图示中将以简单示意的方式被绘示。

于本文中，当一元件被称为“连接”或“耦接”时，可指“电性连接”或“电性耦接”。“连接”或“耦接”亦可用以表示两个或多个元件间相互搭配操作或互动。此外，虽然本文中使用“第一”、“第二”、…等用语描述不同元件，该用语仅是用以区别以相同技术用语描述的元件或操作。除非上下文清楚指明，否则该用语并非特别指称或暗示次序或顺位，亦非用以限定本发明。

请参阅图1。图1为根据本申请的一些实施例所绘示的分段系统100的示意图。如图1所绘示，分段系统100包含存储单元110以及处理器130。存储单元110电性连接至处理器130，存储单元110用以存储视频源、至少一影片内容标记以及课程数据库DB。

承上述，处理器130包含影像分段单元131、声音分段单元132以及段落标记产生单元133。声音分段单元132与影像分段单元131以及段落标记产生单元133电性连接。于本发明各实施例中，存储装置110可以实施为存储装置、硬盘、随身盘、存储卡等。处理器130可以实施为集成电路如微控制单元(microcontroller)、微处理器(microprocessor)、数字信号处理器(digital signal processor)、特殊应用集成电路(application specificintegrated circuit，ASIC)、逻辑电路或其他类似元件或上述元件的组合。

请参阅图2。图2为根据本申请的一些实施例所绘示的分段方法200的流程图。于一实施例中，图2所示的分段方法200可以应用于图1的分段系统100上，处理器130用以根据下列分段方法200所描述的步骤，针对影像数据以及声音信号进行段落标记以产生影片内容标记。如图2所示，分段方法200首先执行步骤S210接收影片内容。于一实施例中，影片内容包含影像数据以及声音数据。处理器130会分别针对影像数据以及声音数据进行处理，在接下来的步骤中会先针对影像数据进行计算，再针对声音数据进行计算，但本公开不限于此，也可以先针对声音数据进行计算，再针对影像数据进行计算。

接着，分段方法200执行步骤S220针对影像数据进行分段处理，以产生至少一影像段落标记。于一实施例中，步骤S220还包含步骤S221～S223，请一并参考图3，图3为根据本申请的一些实施例所绘示的步骤S220的流程图。如图3所示，分段方法200进一步执行步骤S221，选取M个单位的影像数据，并将被选取的影像数据分为当前影像段落。于一实施例中，M个单位以M秒来说明，M个单位也可以实施为M个帧，本公开不以此为限。M秒可以根据影片内容的时间长度进行调整，在此M秒以30秒为例，因此在此步骤中将第0秒的影像数据～第30秒的影像数据作为当前影像段落。

接着，分段方法200执行步骤S222针对当前影像段落的内容进行判断，以产生影像内容结果。其中影像内容结果包含动态内容以及静态内容。于一实施例中，步骤S222还包含步骤S2221～S2223，请一并参考图4，图4为根据本申请的一些实施例所绘示的步骤S222的流程图。如图4所示，分段方法200进一步执行步骤S2221，于当前影像段落中选取T个单位，计算T个单位内的影像的相似度，产生影像差异结果。于一实施例中，T个单位以T秒来说明，T个单位也可以实施为T个帧，本公开不以此为限。举例而言，T秒在此以3秒为例，并假设每秒有60帧，差异计算可以是第1秒的第30帧的影像的灰阶值与第0秒的第30帧的影像的灰阶值相减可以产生第1秒的影像差异值，并可以仅利用第1秒的影像差异值作为影像差异结果以判断影像的内容。于另一实施例中，除了利用第1秒的影像差异值之外，可以再利用第2秒的影像差异值以及第3秒的影像差异值作为影像差异结果以判断影像的内容，由上述可知，利用的影像差异值越多可以更精准的判断影像的内容。

接着，分段方法200执行步骤S2222，如果影像差异结果大于第一影像门槛值，将当前影像段落的内容判定为动态内容。接续上方实施例，如果影像差异值大于第一影像门槛值，表示前后两秒的画面差异很大，因此当前影像段落的内容有可能是动态内容。接着，分段方法200执行步骤S2223如果影像差异结果不大于该第一影像门槛值，将当前影像段落的内容判定为静态内容。于一实施例中，如果影像差异值小于或等于第一影像门槛值，表示前后两秒的画面是属于类似的画面，因此当前影像段落的内容有可能是静态内容，表示画面不太有改变。

接着，分段方法200执行步骤S223，基于影像内容结果针对影像数据探测变化内容，并在变化内容的时间位置产生至少一影像段落标记。于一实施例中，步骤S223还包含步骤S2231a～S2233a，请一并参考图5A，图5A为根据本申请的一些实施例所绘示的步骤S223的流程图。如图5A所示，分段方法200进一步执行步骤S2231a如果当前影像段落的内容为动态内容，计算第M个单位的影像与第M+1个单位的影像之间的相似度，以产生影像差异值。接续上述实施例，M秒以30秒为例，当前影像段落是从第0秒的影像数据～第30秒的影像数据，第M秒的影像数据即为第30秒的影像数据，第M+1秒的影像数据即为第31秒的影像数据。在此情况下可以选择第31秒的第30帧的影像的灰阶值与第30秒的第30帧的影像的灰阶值相减，以产生影像差异值，也可以选择其他帧的影像以计算影像差异值。

承上述，分段方法200进一步执行步骤S2232a如果影像差异值大于第二影像门槛值，将第M+1个单位的影像与当前影像段落合并。接续上方实施例，如果前述的影像差异值大于第二影像门槛值，表示当前影像段落的下一秒的影像仍然是属于动态影像，因此可以将第31秒的影像数据合并进入当前影像段落。接着，分段方法200进一步执行步骤S2233a如果影像差异值不大于第二影像门槛值，在第M+1个单位的影像的时间位置产生至少一影像段落标记，并选取M个单位的该影像数据，将被选取的影像数据分为下一影像段落。承上述，如果前述的影像差异值小于或等于第二影像门槛值，表示当前影像段落的下一秒的影像可能是属于静态影像，因此需要在将影像数据第31秒的时间位置，产生影像段落标记，如此一来当前执行段落变成第31秒的影像数据～第60秒的影像数据。

承上述，步骤S223还包含步骤S2231b～S2233b，请一并参考图5B，图5B为根据本申请的一些实施例所绘示的步骤S223的流程图。如图5B所示，分段方法200进一步执行步骤S2231b，如果当前影像段落的内容为静态内容，计算第M个单位的影像与第M+1个单位的影像之间的相似度，以产生影像差异值。步骤S2231b的操作与步骤S2231a的操作相同，在此不在赘述。

承上述，分段方法200进一步执行步骤S2232b，如果影像差异值不大于第二影像门槛值，将第M+1个单位的影像与当前影像段落合并。接续上方实施例，如果前述的影像差异值小于或等于第二影像门槛值，表示当前影像段落的下一秒的影像仍然是属于静态影像，因此可以将第31秒的影像数据合并进入当前影像段落。接着，分段方法200进一步执行步骤S2233b如果影像差异值大于第二影像门槛值，在第M+1个单位的影像的时间位置产生至少一影像段落标记，并选取M个单位的该影像数据，将被选取的影像数据分为下一影像段落。承上述，如果前述的影像差异值大于第二影像门槛值，表示当前影像段落的下一秒的影像可能是属于动态影像，因此需要在将影像数据第31秒的时间位置，产生影像段落标记，如此一来当前执行段落变成第31秒的影像数据～第60秒的影像数据。

于另一实施例中，可以利用峰值信噪比(Peak signal-to-noise ratio，PSNR)、结构相似性指标(Structural similarity index，SSIM)、影像的纹理或色泽、或是特定的形状(pattern)等方式，来比较影像之间的相似度，本公开不限于此。

接着，分段方法200进一步执行步骤S230针对声音数据进行分段处理，以产生至少一声音段落标记。其中，步骤S230还包含步骤S231～S233，请进一步参考图6，图6为根据本申请的一些实施例所绘示的步骤S230的流程图。如图6所示，分段方法200进一步执行步骤S231将声音数据分别转换成声音时域信号以及声音频域信号。于一实施例中，可以利用傅立叶转换将声音数据转换成频域信号，但不限于此。经过傅立叶转换过的信号是不连续的信号，因此可以用来探测音色与音调的差异，作为判断声音段落标记的依据。

承上述，分段方法200进一步执行步骤S232从声音时域信号中选取时域区段，并判断时域区段的振幅是否小于第一门槛值，如果时域区段的振幅小于第一门槛值，产生至少一声音段落标记。于此实施例中，利用视窗(window)从声音时域信号中选取时域区段，举例而言，可以将视窗的大小设定为5秒钟，因此时域区段即为5秒钟的声音时域信号。接着，判断5秒钟的声音时域信号(时域区段)的振幅是否小于第一门槛值，如果小于第一门槛值，表示被视窗框选到的5秒钟的声音时域信号，可能是无声的区段，表示声音时域信号可能有中断情况发生。因此可以在时域区段的振幅小于门槛值时，产生声音段落标记。

承上述，分段方法200进一步执行步骤S233从声音频域信号中选取第一频域区段以及第二频域区段，计算第一频域区段与第二频域区段的频谱强度差异值(相位大小)是否大于第二门槛值，若超过第二门槛值，产生至少一声音段落标记。于此实施例中，利用视窗从声音频域信号中选取频域区段。举例而言，可以将视窗的大小设定为m秒钟，因此第一频域区段以及第二频域区段即为m秒钟的声音频域信号(两者选取的声音频域信号不同)。声音时域信号以及声音频域信号所利用的视窗大小(长度)可以不同，也可以相同，本公开不限于此。接着，判断第一频域区段以及第二频域区段的频谱强度差异值是否超过第二门槛值。如果大于第二门槛值，表示被视窗框选到的m秒钟的声音频域信号，可能有不同的音色或是音高，表示可能有不同人声出现。因此可以在频域区段的频谱强度差异值大于第二门槛值时，产生声音段落标记。

接着，分段方法200进一步执行步骤S240比较至少一影像段落标记的影像标记时间与至少一声音段落标记的声音标记时间之间的差异，以产生至少一影片内容标记。于一实施例中，步骤S220以及步骤S230分别针对影像数据以及声音数据进行段落标记，在此步骤中需要将影像段落标记与声音段落标记整合以产生影片内容标记。举例而言，如果影像数据总共分成五个段落，并且影像段落标记分别是段落一的(00:45)、段落二的(01:56)、段落三的(03:25)、段落四的(05:10)以及段落五的(05:55)，而声音数据总共分成四个段落，声音段落标记分别是段落一的(02:02)、段落二的(03:12)、段落三的(04:30)以及段落四的(05:00)。假设门槛值是为15秒，如此一来，在段落二的影像段落标记01:56与段落一的声音段落标记02:02之间的差异在门槛值内，可以根据两者的时间差异的平均值作为影片内容标记，因此视频源具有段落一的影片内容标记(01:59)。接着可以继续找到段落三的影像段落标记03:25与段落二的声音段落标记03:12之间的差异在门槛值内，段落四的影像段落标记05:10与段落四的声音段落标记05:00之间的差异在门槛值内，因此可以分别产生段落二的影片内容标记(03:18)以及段落三的影片内容标记(05:05)。由上述可知，段落一的影像段落标记00:45、段落五的影像段落标记05:55以及段落三的声音段落标记04:30与其他标记之间的时间差异大于门槛值，因此是属于被忽略的段落标记。最后，将分好的影片内容标记储存至储存单元110的课程数据库DB中。

由上述本申请的实施方式可知，主要是改进以往利用人工方式进行影片段落标记，耗费大量人力以及时间的问题。分别针对影像数据以及声音数据进行段落标记，再根据影像数据的段落标记以及声音数据的段落标记产生影片内容标记，达到将学习影片自动分段的功能。

另外，上述例示包含依序的示范步骤，但这些步骤不必依所显示的顺序被执行。以不同顺序执行这些步骤皆在本公开内容的考量范围内。在本公开内容的实施例的精神与范围内的情况下，可视情况增加、取代、变更顺序及/或省略这些步骤。

虽然本公开内容已以实施方式披露如上，但其并非用以限定本发明内容，任何本领域普通技术人员，在不脱离本发明内容的精神和范围内的情况下，当可作各种更动与润饰，因此本发明内容的保护范围当视随附的权利要求书所界定者为准。

Claims

1.一种分段方法，包含：

接收一影片内容；其中，该影片内容包含一影像数据以及一声音数据；

针对该影像数据进行分段处理，以产生至少一影像段落标记；

针对该声音数据进行分段处理，以产生至少一声音段落标记；以及

比较该至少一影像段落标记的一影像标记时间与该至少一声音段落标记的一声音标记时间之间的差异，以产生至少一影片内容标记，其中，所述针对该影像数据进行分段处理，以产生该至少一影像段落标记，还包含：

选取M个单位的该影像数据，并将被选取的影像数据分为一第一影像段落；

针对该第一影像段落的内容进行判断，以产生一影像内容结果；其中该影像内容结果包含一动态内容以及一静态内容；以及

基于该影像内容结果针对该影像数据探测一变化内容，并根据该变化内容的时间位置产生该至少一影像段落标记，其中，所述针对该第一影像段落的内容进行判断，以产生该影像内容结果，还包含：

于该第一影像段落中选取T个单位，计算T个单位内的影像的相似度，产生一影像差异结果；

如果该影像差异结果大于一第一影像门槛值，将该第一影像段落的内容判定为该动态内容；以及

如果该影像差异结果不大于该第一影像门槛值，将该第一影像段落的内容判定为该静态内容。

2.如权利要求1所述的分段方法，其中，所述基于该影像内容结果针对该影像数据探测该变化内容，并根据该变化内容的时间位置产生该至少一影像段落标记，还包含：

如果该第一影像段落的内容为该动态内容，计算一第M个单位的影像与一第M+1个单位的影像之间的相似度，以产生一影像差异值；

如果该影像差异值大于一第二影像门槛值，将该第M+1个单位的影像与该第一影像段落合并；以及

如果该影像差异值不大于该第二影像门槛值，在该第M+1个单位的影像的时间位置产生该至少一影像段落标记，并选取M个单位的该影像数据，将被选取的影像数据分为一第二影像段落。

3.如权利要求1所述的分段方法，其中，所述基于该影像内容结果针对该影像数据探测该变化内容，并在该变化内容的时间位置产生该至少一影像段落标记，还包含：

如果该第一影像段落的内容为该静态内容，计算一第M个单位的影像与一第M+1个单位的影像之间的相似度，以产生一影像差异值；

如果该影像差异值不大于一第二影像门槛值，将该第M+1个单位的影像与该第一影像段落合并；以及

如果该影像差异值大于该第二影像门槛值，在该第M+1个单位的影像的时间位置产生该至少一影像段落标记，并选取M个单位的该影像数据，将被选取的影像数据分为一第二影像段落。

4.如权利要求1所述的分段方法，其中，所述针对该声音数据进行分段处理，以产生该至少一声音段落标记，还包含：

将该声音数据分别转换成一声音时域信号以及一声音频域信号；

从该声音时域信号中选取一时域区段，并判断该时域区段的振幅是否小于一第一门槛值，如果该时域区段的振幅小于该第一门槛值，产生一声音段落标记；以及

从该声音频域信号中选取一第一频域区段以及一第二频域区段，并判断该第一频域区段与该第二频域区段的频谱强度差异值是否大于一第二门槛值，如果该第一频域区段与该第二频域区段的频谱强度差异值大于该第二门槛值，产生一声音段落标记。

5.一种分段系统，包含：

一储存单元，用以储存一影片内容以及至少一影片内容标记；以及

一处理器，与该储存单元电性连接，用以接收该影片内容；其中，该影片内容包含一影像数据以及一声音数据，该处理器包含：

一影像分段单元，用以针对该影像数据进行分段处理，以产生至少一影像段落标记；

一声音分段单元，与该影像分段单元电性连接，用以针对该声音数据进行分段处理，以产生至少一声音段落标记；以及

一段落标记产生单元，与该影像分段单元以及该声音分段单元电性连接，用以比较该至少一影像段落标记的一影像标记时间与该至少一声音段落标记的一声音标记时间之间的差异，以产生该至少一影片内容标记，其中，该影像分段单元还用以选取M个单位的该影像数据，并将被选取的影像数据分为一第一影像段落，接着针对该第一影像段落的内容进行判断，以产生一影像内容结果；其中该影像内容结果包含一动态内容以及一静态内容；以及基于该影像内容结果针对该影像数据探测一变化内容，并根据该变化内容的时间位置产生该至少一影像段落标记，其中，该影像分段单元还用以于该第一影像段落中选取T个单位，计算T个单位内的影像的相似度，产生一影像差异结果；如果该影像差异结果大于一第一影像门槛值，将该第一影像段落的内容判定为该动态内容；以及如果该影像差异结果不大于该第一影像门槛值，将该第一影像段落的内容判定为该静态内容。

6.如权利要求5所述的分段系统，其中，该影像分段单元还用以在该第一影像段落的内容为该动态内容时，计算一第M个单位的影像与一第M+1个单位之间的相似度，以产生一影像差异值；如果该影像差异值大于一第二影像门槛值，将该第M+1个单位的影像与该第一影像段落合并；以及如果该影像差异值不大于该第二影像门槛值，在该第M+1个单位的影像的时间位置产生该至少一影像段落标记，并选取M秒的该影像数据，将被选取的影像数据分为一第二影像段落。

7.如权利要求5所述的分段系统，其中，该影像分段单元还用以在该第一影像段落的内容为该静态内容时，计算一第M个单位的影像与该第M+1个单位的影像之间的相似度，以产生一影像差异值；如果该影像差异值不大于一第二影像门槛值，将该第M+1个单位的影像与该第一影像段落合并；以及如果该影像差异值大于该第二影像门槛值，在该第M+1个单位的影像的时间位置产生该至少一影像段落标记，并选取M个单位的该影像数据，将被选取的影像数据分为一第二影像段落。

8.如权利要求5所述的分段系统，其中，该声音分段单元还用以将该声音数据分别转换成一声音时域信号以及一声音频域信号，从该声音时域信号中选取一时域区段，并判断该时域区段的振幅是否小于一第一门槛值，如果该时域区段的振幅小于该第一门槛值，产生一声音段落标记；以及从该声音频域信号中选取一第一频域区段以及一第二频域区段，并判断该第一频域区段与该第二频域区段的频谱强度差异值是否大于一第二门槛值，如果该第一频域区段与该第二频域区段的频谱强度差异值大于该第二门槛值，产生一声音段落标记。

9.一种非暂态电脑可读取媒体，包含至少一指令程序，由一处理器执行该至少一指令程序以实行一分段方法，所述分段方法包含：