CN104391973A

CN104391973A - 一种用于提取关键帧的多媒体系统及处理方法

Info

Publication number: CN104391973A
Application number: CN201410737503.7A
Authority: CN
Inventors: 张耀坤; 苏丹; 秦衡; 谢清玉; 蒋同军
Original assignee: State Grid Corp of China SGCC; State Grid of China Technology College
Current assignee: State Grid Corp of China SGCC; State Grid of China Technology College
Priority date: 2014-12-05
Filing date: 2014-12-05
Publication date: 2015-03-04
Anticipated expiration: 2034-12-05
Also published as: CN104391973B

Abstract

本发明涉及一种多媒体系统，包括拍摄终端、服务器和查询终端；服务器包括第二传输单元、解析单元、数据库、第二存储单元；其中，解析单元用于从多媒体的视频中提取关键帧。本发明还涉及使用所述多媒体系统的多媒体处理方法。

Description

一种用于提取关键帧的多媒体系统及处理方法

技术领域

本发明涉及多媒体领域，特别涉及能够进行关键帧提取的多媒体领域。

背景技术

随着网络和多媒体技术的广泛应用，网络培训已成为员工培训的必然发展趋势。然而，网络培训面临着“来源单一、脱离实践、滞后现场”的问题，尤其是缺少以现场案例为内容的生产技能类培训，这势必会影响以生产技能操作为主的员工培训效果。因此，积极引入现场案例教学，探索智能终端和移动网络的应用，将成为网络培训和资源建设的新方向。

发明内容

本发明涉及一种多媒体系统，包括拍摄终端、服务器和查询终端；其特征在于：服务器包括第二传输单元、解析单元、数据库、第二存储单元；查询终端包括第三摄像单元、第三输入单元、查询单元、第三传输单元；其中，解析单元用于从多媒体的视频中提取关键帧。

本发明还涉及一种使用所述多媒体系统的多媒体处理方法，其特征在于包括以下步骤：

步骤S100，用户使用拍摄终端拍摄多媒体，所述多媒体包括视频和音频；当在某一位置和/或变焦拍摄时，由计时单元记录下拍摄的开始时间和结束时间；随后，计时单元将事件、开始时间和结束时间一并保存到第一存储单元的记录表中，其中所述事件包括位置、变焦；

步骤S200，将多媒体中的音频转换为文字，转换后，在拍摄终端上显示给用户，供用户确认；如果用户认为转换的文字内容有错误或需要调整，则使用拍摄终端的第一输入单元进行修改；

步骤S220，拍摄终端通过第一传输单元将拍摄的多媒体、第一存储单元中的记录表、以及经过用户确认的文字上传到服务器的第二传输单元，服务器将拍摄的多媒体保存到数据库中，并记录多媒体ID，所述多媒体ID是上传的多媒体的唯一标识；

步骤S240，服务器根据记录表中的事件、开始时间和结束时间，使用解析单元从多媒体的视频中提取关键帧，并确定关键帧的录制时长，所述关键帧为拍摄终端在同一事件下拍摄的视频帧的代表；提取关键帧的具体过程如下：

对于每个事件，进行采样，从而获得每个事件的采样帧的集合F：

F＝{F1,F2,……Fi,……Fn}

其中，n为定义的采样频率，n＝10；

Fi为采样的第i帧，即时间ΔTi所对应的帧：

ΔTi＝Tb+(Te–Tb)*(i/n)，i<＝n

其中，Tb为每个事件的开始时间，Te为每个事件的结束时间；

对于集合F内的某一帧Fk，根据以下公式计算帧Fk与视频帧平均值的平均像素近似度ΔFk：

ΔFk = \frac{1}{m} Σ_{j = 1}^{m} | Pkj - \frac{1}{n} Σ_{i}^{n} Pij |

其中Pkj表示帧Fk中的第j个像素值，Pij表示帧Fi中的第j个像素值，n为采样频率，m为帧Fk中的像素总数，k的取值为1,2,3......n；

如果ΔFk大于某个阈值D，则认为帧Fk属于噪声帧，予以剔除；反之如果ΔFk小于或等于某个阈值D，则予以保留，从而形成保留帧的集合G：

G＝{G1,G2,…Gi,…Gt}

其中t<＝n，Gi为保留帧集合中的第i帧；

对于集合G中的每一帧，由于其内容都比较相似，故可任选一帧作为相应事件所对应的关键帧；

步骤S260，得到视频中每个事件对应的关键帧和事件的持续时间，其中根据每个事件的开始时间和结束时间获取持续时间；

步骤S300，服务器从上传的文字中提取文字索引；对于每一个多媒体，服务器形成多媒体索引表，并存储在第二存储单元中；所述多媒体索引表包括：多媒体ID、文字索引、关键帧集合以及事件持续时间集合；

步骤S400，用户使用查询终端查找所述多媒体，并将检索结果呈现给用户。

本发明的多媒体系统及多媒体处理方法特别适用于以生产现场为背景的基于移动智能终端的现场案例培训，获得了以生产实践为基础、培训内容来源多样化的有益效果。并且，本发明的多媒体系统及多媒体处理方法能够从多媒体视频中快速提取具有代表性的视频帧，便于后续的多媒体查询，提高了多媒体查询的准确性和效率。

附图说明

图1是多媒体系统的框图；

图2是拍摄终端位置变化的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，将结合附图对本发明作进一步地详细描述。这种描述是通过示例而非限制的方式介绍了与本发明的原理相一致的具体实施方式，这些实施方式的描述是足够详细的，以使得本领域技术人员能够实践本发明，在不脱离本发明的范围和精神的情况下可以使用其他实施方式并且可以改变和/或替换各要素的结构。因此，不应当从限制性意义上来理解以下的详细描述。

如图1所示，本发明的多媒体系统包括拍摄终端100、服务器200和查询终端300。

拍摄终端100包括第一摄像单元110、录音单元120、记录单元130、第一输入单元140、第一传输单元150、第一存储单元160、显示单元170等。优选的，拍摄终端100还包括计时单元180(例如计时器)、焦距检测单元190。服务器200包括第二传输单元210、解析单元220、数据库230、第二存储单元240等。查询终端300包括第三摄像单元310、第三输入单元320、查询单元330、第三传输单元340等。

多媒体系统的处理流程如下所示：

在步骤S100，用户使用拍摄终端拍摄多媒体，所述多媒体包括视频和音频；在某一位置拍摄时，由计时单元记录下在某一位置拍摄的开始时间和结束时间；当移动拍摄位置或变换焦距时，由计时单元记录下移动拍摄位置或变换焦距后拍摄的开始时间和结束时间；随后，计时单元将事件(包括位置/变焦)、开始时间和结束时间一并保存到第一存储单元的记录表中。

下面参考图2详细说明拍摄终端由位置A移动到位置B再移动到位置C的过程，以及计时单元的计时过程。

首先，在位置A，当用户打开拍摄终端的第一摄像单元开始拍摄时，将自动触发计时单元开始计时，此时由计时单元记录下位置A的开始时间(例如0秒)。可选的，也可由用户操作拍摄终端的特定物理按键或触摸屏上显示的特定按键以触发计时单元开始计时。一段时间后，当在位置A拍摄完成时，由用户操作上述特定按键结束在位置A的计时，并由计时单元记录下结束时间(例如180秒)。随后，计时单元将记录的位置A、开始时间和结束时间保存到第一存储单元的记录表中。

之后，将拍摄终端移动到位置B继续进行拍摄，由用户操作上述特定按键开始在位置B的计时，并由计时单元记录下位置B的开始时间(例如181秒)。又一段时间后，当在位置B拍摄完成时，由用户操作上述特定按键结束位置B的计时，并由计时单元记录下结束时间(例如270秒)。随后，计时单元将记录的位置B、开始时间和结束时间保存到第一存储单元的记录表中。

之后，再将拍摄终端移动到位置C继续进行拍摄，由用户操作上述特定按键开始在位置C的计时，并由计时单元记录下位置C的开始时间(例如271秒)。又拍摄一段时间后，当在位置C拍摄完成时，由用户关闭拍摄终端的第一摄像单元停止拍摄，此时将自动触发计时单元结束位置C的计时，并由计时单元记录下结束时间(例如300秒)。可选的，也可由用户操作上述特定按键结束计时。随后，计时单元将记录的位置C、开始时间和结束时间也保存到第一存储单元的记录表中。

另外，当用户暂停拍摄终端的第一摄像单元拍摄时，将自动触发计时单元结束计时；以及，当拍摄终端的第一摄像单元恢复拍摄时，也将自动触发计时单元继续开始计时。

上述计时单元的自动触发，无需用户额外操作拍摄终端的按键，从而提高了效率。

第一存储单元中的记录表包括事件、开始时间和结束时间，格式优选示例如下：

表1：记录表

事件	开始时间Tb	结束时间Te
			位置A	0秒	180秒
位置B	181秒	270秒
			位置C	271秒	300秒

在另一优选实施例中，在拍摄过程中当用户操作拍摄终端变化焦距时，同样可以记录下变化焦距发生的开始时间和结束时间。在该优选实施例中，假设在位置B使用近焦拍摄完成时，由用户操作拍摄终端的特定物理按键或触摸屏上显示的特定按键以触发计时单元结束位置B的计时，并由计时单元记录下结束时间(例如200秒)。而后，用户变化焦距改为使用远焦进行拍摄，由用户操作上述特定按键开始在位置B/变焦的计时，并由计时单元记录下位置B/变焦的开始时间(例如201秒)，拍摄一段时间，当远焦拍摄完成后，由用户操作上述特定按键结束计时，并由计时单元记录下位置B/变焦的结束时间(例如270秒)。该优选实施例中的记录单元记录如下：

表2：记录表

事件	开始时间Tb	结束时间Te
			位置A	0秒	180秒
位置B	181秒	200秒
			位置B/变焦	201秒	270秒
位置C	271秒	300秒

在另一优选实施例中，拍摄终端还包括与计时单元连接的焦距检测单元。当焦距检测单元检测到焦距变化时，将自动触发计时单元结束计时；并在焦距变化完成后，自动触发技术单元继续开始计时。

在步骤S200，将多媒体中的音频转换为文字，音频是拍摄终端拍摄多媒体时获取的音频。例如采用中国专利申请201210102950.6中公开的将音频转换为文字的方法。转换后，在拍摄终端上显示给用户，供用户确认。如果用户认为转换后的文字内容有错误或需要调整，可以使用拍摄终端的第一输入单元进行修改。用户也可以通过第一输入单元输入额外的说明性文字。

在步骤S220，拍摄终端通过第一传输单元将拍摄的多媒体、第一存储单元中的记录表、以及经过用户确认的文字上传到服务器的第二传输单元，服务器将拍摄的多媒体保存到数据库中，并记录多媒体ID。多媒体ID是上传的多媒体的唯一标识，例如采用上传的多媒体名称和上传时间的组合等。

在步骤S240，服务器根据记录表中的事件、开始时间和结束时间，使用解析单元从多媒体的视频中提取关键帧，所述关键帧定义为拍摄终端在同一事件下拍摄的视频帧的代表。具体提取过程如下：

对于每一个事件，进行采样，从而获得每个事件的采样帧的集合F：

F＝{F1,F2,……Fi,……Fn}

其中，n为定义的采样频率，根据经验获得，例如n＝10。

Fi为采样的第i帧，即时间ΔTi所对应的帧，其中：

ΔTi＝Tb+(Te–Tb)*(i/n)，i<＝n

其中，Tb为每个事件的开始时间，Te为每个事件的结束时间；

对于集合F内的某一帧Fk，根据以下公式计算Fk与视频帧平均值的平均像素近似度ΔFk：

ΔFk = \frac{1}{m} Σ_{j = 1}^{m} | Pkj - \frac{1}{n} Σ_{i}^{n} Pij |

其中Pkj表示帧Fk中的第j个像素值，Pij表示帧Fi中的第j个像素值，n为采样频率(即视频帧的数量)，m为帧Fk中的像素总数，k的取值为1,2,3......n。

如果ΔFk大于某个阈值D，则认为帧Fk属于噪声帧，予以剔除；反之如果ΔFk小于或等于某个阈值D，则予以保留，从而形成保留帧的集合G。

G＝{G1,G2,…Gi,…Gt}

其中t<＝n，Gi为保留帧集合中的第i帧。

对于集合G中的每一帧，由于其内容都比较相似，故可任选一帧作为相应事件所对应的关键帧，例如完全随机选择一帧，或者规定选择集合中的第一帧或最后一帧等。优选的，计算集合G中各帧的平均值，作为相应事件对应的关键帧。

在步骤S260，得到视频中每个事件对应的关键帧Ki和事件持续时间Ti。根据每个事件的开始时间Tb和结束时间Te，获取每个事件的持续时间Ti＝Te-Tb。其中：

K＝{K1,K2,…Ki,…Kn}

T＝{T1,T2,…Ti,…Tn}

其中n为视频中的事件数量，也就是关键帧的数量。对于表1所述的记录表，n＝3，对于表2所述的记录表，n＝4；Ki为第i个事件的关键帧，Ti为第i个事件的持续时间。

在步骤S300，服务器从上传的文字中提取文字索引。对于每一个多媒体，服务器形成多媒体索引表，并存储在第二存储单元中。多媒体索引表中包括：多媒体ID、文字索引、关键帧集合K以及事件持续时间集合T。其中文字索引可以是空值NULL，其代表拍摄终端拍摄的多媒体中没有音频，而且用户也没有对多媒体进行文字说明。

在步骤S400，用户使用查询终端查找多媒体。用户可以通过查询终端的第三输入单元，输入多种查询方式。第一种查询方式为输入照片，照片可以是一幅，也可以是多幅，照片可以来源于第三摄像单元拍摄的照片；第二种查询方式为在第一种的基础上，输入文字和照片；第三种查询方式为纯文字输入。随后，查询终端将检索结果呈现给用户。

本发明公开的方法包括用于实现本发明目的的一个或多个步骤，方法步骤可彼此相互交换而没有离开本发明的范围。换言之，除非实施例的正常操作需要特定顺序的步骤，可修改具体步骤的顺序，而不会离开本发明精神的范围。尽管本发明主要描述了具体实施例和应用，但本领域技术人员应理解本发明并不局限于此。根据本发明公开的方法和系统，对于本领域技术人员明显的各种修改、变化以及改变均不背离本发明的精神和范围。

Claims

1.一种多媒体系统，包括拍摄终端、服务器和查询终端；其特征在于：服务器包括第二传输单元、解析单元、数据库、第二存储单元；查询终端包括第三摄像单元、第三输入单元、查询单元、第三传输单元；其中，解析单元用于从多媒体的视频中提取关键帧。

2.一种使用根据权利要求1所述的多媒体系统的多媒体处理方法，其特征在于包括以下步骤：

F＝{F1,F2,……Fi,……Fn}

其中，n为定义的采样频率，n＝10；

Fi为采样的第i帧，即时间ΔTi所对应的帧：

ΔTi＝Tb+(Te–Tb)*(i/n)，i<＝n

其中，Tb为每个事件的开始时间，Te为每个事件的结束时间；

ΔFk = \frac{1}{m} Σ_{j = 1}^{m} | Pkj - \frac{1}{n} Σ_{i}^{n} Pij |

G＝{G1,G2,…Gi,…Gt}

其中t<＝n，Gi为保留帧集合中的第i帧；