CN105893387A

CN105893387A - 智能多媒体处理方法和系统

Info

Publication number: CN105893387A
Application number: CN201510004939.XA
Authority: CN
Inventors: 吴佳玮; 陈超; 陆明刚; 徐硕; 刘晶晶
Original assignee: EMC Corp
Current assignee: EMC Corp
Priority date: 2015-01-04
Filing date: 2015-01-04
Publication date: 2016-08-24
Anticipated expiration: 2035-01-04
Also published as: CN105893387B; US10691879B2; US20160196252A1

Abstract

本公开的实施例旨在提供一种多媒体数据的处理方法和系统。根据本公开的一个方面，提供了一种多媒体数据的处理方法，包括：生成注释文本；以及将所述注释文本与所述多媒体数据中的相应分区进行关联。通过使用根据本公开的实施例的处理方法和系统，例如可以有效地提供多媒体数据的搜索效率。

Description

智能多媒体处理方法和系统

技术领域

本公开的实施例涉及数据处理，更具体而言，涉及智能多媒体处理系统。

背景技术

近年来，随着信息技术的技术进步，产生了越来越多的多媒体数据，例如，人们越来越多的使用智能手机、相机、录音笔或摄像机来记录日常工作生活中出现的事情，这导致产生的数据量呈几何级增加。然而，对于所产生的数据，尤其是多媒体数据，缺少一种高效搜索方法来对其进行搜索来快速找到感兴趣的内容，例如视频或音频中某一段的视频或音频。通常的搜索方法是根据拍摄时间或是文件名称进行搜索，有时候甚至不得不去遍历所有的视频或音频内容来寻找特定的视频或音频片段。这对于时间要求不紧迫的生活事件而言，尚可以接受。

然而，对于一些特定的工作应用而言，这常常不能满足效率要求。例如，当客户的设备出现问题时，现场技术工程师通常会拍摄或记录现场观察的情况，这也会产生较大的数据量。后方工程师如果没有高效的搜索方法则不得不去浏览所有的多媒体数据资料，这对于现场需要尽快解决技术问题的情形通常不可接受。

因此，需要一种智能多媒体数据处理系统，其能够对多媒体数据进行快速定位或高效搜索。

发明内容

本公开的实施例旨在提供一种多媒体数据的处理方法和系统。

根据本公开的一个方面，提供了一种多媒体数据的处理方法，包括：生成注释文本；以及将所述注释文本与所述多媒体数据中的相应分区进行关联。

根据本公开的另一方面，提供了一种多媒体数据处理系统，包括：文本生成装置，被配置成生成注释文本；以及关联装置，被配置成将所述注释文本与所述多媒体数据中的相应分区进行关联。

根据本公开的又一方面，提供了一种存储在非瞬态计算机可读存储介质上的用于多媒体数据处理的计算机程序产品，包括：第一程序指令，用于生成注释文本；以及第二程序指令，用于将所述注释文本中与所述多媒体数据中的相应分区进行关联。

通过使用根据本公开的一些实施例，可以获得相应的有益效果，例如，可以提高多媒体数据的搜索和定位效率。

附图说明

参考如下附图和描述可以更好地理解本公开。图中的部件并不必须按比例，相反，重点放在了图示本公开的原理上。此外，在图中，相同的参考号指代对应的部分。在附图中：

图1是根据本公开的一个实施例的多媒体数据的处理方法的流程图；

图2是根据本公开的一个实施例的视频分区和注释文本的示意图；以及

图3是根据本公开的一个实施例的多媒体数据的处理系统的框图。

具体实施方式

在下文描述中阐述某些具体细节以便提供对本公开的主题内容的各种方面的透彻理解。然而在不具有这些具体细节的情形下仍然可以实现本公开的主题内容。在一些实例中，暂不具体描述形成与智能多媒体处理方法和系统相关联的公知结构和方法，以免模糊对本公开内容的其它方面的描述。

除非上下文另有要求，否则在说明书和所附权利要求书全文中，词语“包括”将解释成开放式包含意义，也就是说，解释为“包括但不限于”。

在本说明书全文中引用“一个实施例”或者“实施例”意味着结合该实施例描述的特定特征、结构或者特性包含于至少一个实施例中。因此，在本说明书全文中各处出现表达“在一个实施例中”或者“在实施例中”未必都是指相同方面。另外，可以在本公开内容的一个或者多个方面中以任何适当方式组合特定特征、结构或者特性。

现在参见图1，图1示出了根据本公开的多媒体数据的处理方法的一个实施例。在图1的实施例中，在101处，生成注释文本，以及在102处，将注释文本与多媒体数据的相应分区相关联。本领域技术人员可以理解，多媒体数据包括至少一个分区。

图2示出了根据本公开的一个实施例的视频分区和注释文本的示意图。现在结合图1和图2来描述根据本公开的一个示例。

在本公开的实施例中，多媒体数据可以是视频数据、音频数据、图像数据和文本数据之一。例如，视频数据是可以采用诸如MP4、AVI、MKV、RM、RMVB、WMV、M4V、VIDX、XVID、ASF等各种编码格式编码的视频数据。音频数据可以是诸如AAC、MP3、WMA、AMR、FLAC、APE等之类的音频数据。图像数据可以是RAW、BMP、PCX、TIFF、GIF、JPEG、PNG等之类的图像数据。文本数据可以是诸如Microsoft系列的文本数据、txt文本数据等之类的文本数据。

注释文本可以包括各种信息，其中各种信息项可以由人员手动添加或者通过技术方式自动添加。

例如，当多媒体数据为视频或音频数据时，注释本文可以包括指示视频或音频的起始时间和结束时间的信息。此外，当视频或音频数据由多个视频或音频数据分区组成时，注释文本可以包括指示相应分区的起始时间和结束时间的信息。例如，参见图2，图2中的原始视频流包含多个分区201、202和203。该原始视频流诸如是现场技术支持工程师拍摄的视频。拍摄可以在时间上并不连续。每次连续拍摄的视频可以构成一个分区，而多个连续拍摄的视频组合构成原始视频流。在另外的示例中，可以由不同的视频或音频组合构成原始多媒体流，例如分区201可以为视频流第一分区，分区202可以为音频流第二分区，以及分区203可以是视频流第三分区，其中第一分区201是现场支持工程师拍摄的诸如客户服务器故障设备的现场视频，第二分区202是后端技术工程师的故障分析音频，而第三分区203是技术主管的指示如何处理的视频。本领域技术人员可以理解，也可以具有其它分区组合方式，例如图像和音频构成单个分区，其中当播放图像时，音频也被播放。在另一示例中，文本和音频数据构成单个分区，当显示文本数据时，音频也被播放。在另一示例中，音频构成单个分区，当播放音频数据时，可以显示默认图像数据，例如纯黑背景图像。

在图2示出的示例中，第一注释文本211与第一分区201相关联。在第一注释文本211中，记载了第一分区201的开始时间00:00和结束时间01:00。如上所述，第一分区201是现场支持工程师拍摄的诸如客户服务器故障设备的现场视频，该视频持续1分钟。本领域技术人员可以理解，视频持续时间在此并未限制，可以有其它的持续时间，并且具有相应的开始时间和结束时间。本领域技术人员可以理解，视频或音频流的开始时间和结束时间可以手动添加或是自动添加。

本领域技术人员可以理解，在仅包括图像和文本数据的非流媒体的多媒体数据的情形中，注释文本可以不具有开始时间和结束时间的信息项。

此外，注释文本还可以包括关于重要性的信息项。例如，在图2的示例中，该第一分区201的视频重要性为1，第二分区202的视频重要性为3，第三分区203的视频重要性为2。可以理解，对于日趋海量的多媒体数据而言，有必要对多媒体数据进行重要性分级，使得在浏览多媒体时，可以根据重要性级别对多媒体数据进行筛选。例如对于上述的客户服务器故障的情形而言，在没有现场工程师时，客户自行拍摄现场视频可能会拍摄多段视频(多个视频分区)，这其中的大部分对于解决问题而言无足轻重，后端技术支持工程师可以对客户拍摄的视频进行重要性级别进行分级，使得技术主管在需要时可以仅浏览特定重要性级别的多媒体数据。本领域技术人员可以理解，按数字对重要性进行分类仅是示例，可以有其它分类方法，例如按“不重要”、“重要”、“非常重要”等进行分级。本领域技术人员可以理解，关于重要性的信息项可以手动添加或是自动添加。

注释文本还可以包括关于安全级别的信息项。例如，在图2的示例中，该第一分区201的视频安全级别为1，第二分区202的视频安全级别为2，第三分区203的视频安全级别为3。对于一些情形(例如产品研发)而言，相应的多媒体数据(例如关于产品研发的具体细节)通常属于公司或机构的商业秘密，通常需要限制对其的访问。不同的技术部门仅可以具有相应的安全级别和权限，以防止商业秘密外泄。在图2的示例中，现场工程师拍摄的描述服务器故障现场的第一视频分区201的安全级别为1，这可以意味着在公司内部的所有人员均可以对其进行访问。现场技术人员对客户服务器故障进行现场调试的第二视频分区202的安全级别为2，这可以意味着具有安全权限为2或以上的人员(例如后端技术工程师和技术主管)可以对其进行访问。现场工程师的相应分析结论的第三视频分区203的安全级别为3，这可以意味着具有安全权限为3或以上的人员(例如技术主管)可以对其进行访问。由于后端技术工程师的安全级别仅为2，这意味着后端技术工程师不可以访问第三视频分区203。技术主管可以基于后端技术工程师的独立分析报告和第三视频分区203做出相应判断和决定。本领域技术人员可以理解，按数字对安全级别进行分类仅是示例，可以有其它分类方法，例如按“公开”、“秘密”、“绝密”等进行分级。本领域技术人员可以理解，关于安全级别的信息项可以手动添加或是自动添加。可选地，安全级别是首先检查的信息项，即首先检查用户的安全级别是否符合多媒体数据的安全级别要求。例如，在对注释文本进行检索时仅检索所述注释文本中符合安全级别的注释文本，或是在根据检索结果呈现所述多媒体数据的相应分区时仅呈现所述多媒体数据中符合安全级别的分区。

此外，注释文本还可以包括关于多媒体数据分类的信息项。例如，在图2的示例中，第一注释文本211、第二注释文本212和第三注释文本213中均包括分类项，该分类项为“故障”。例如，在如上所述的情形中，可以具有关于客户服务器现场的多种视频，例如安装、调试、运行、监测、故障等视频。后端工程师和技术主管可以根据分类进行筛选。例如，当客户服务器故障时，可以调取故障分类的多媒体数据，其包括关于服务器故障的当前多媒体数据和历史多媒体数据。当前多媒体数据和历史多媒体数据可以组合成新的多媒体数据流以供后端工程师和技术主管浏览。本领域技术人员可以理解，在其它一些情形中，可以相似处理，例如，可以将“访谈”分类的多媒体数据进行组合，以供咨询公司的人员全面了解客户的需求。本领域技术人员可以理解，按文字分类仅是示例，可以有其它分类方法，例如按数字、时间或字母等进行分类。本领域技术人员可以理解，关于分类的信息项可以手动添加或是自动添加。

注释文本还可以包括关于多媒体数据地理位置的信息项。该多媒体数据地理位置可以例如是多媒体数据产生的地理位置，例如多媒体视频拍摄于北京、上海或是广州。在另一示例中，该多媒体数据地理位置也可以是多媒体数据加工位置，例如虽然视频素材拍摄于北京，但是后期处理在上海进行，因此该视频的地理位置信息记录为上海。例如，在图2的示例中，第一注释文本211、第二注释文本212和第三注释文本213中均包括地理位置信息项“北京”，这因为客户公司在北京，其服务器的现场也在北京，因此所拍摄的三个视频的相关联的注释文本中的位置信息也标记为北京。本领域技术人员可以理解，按城市分类仅是示例，可以有其它分类方法，例如按经纬度坐标等进行分类。本领域技术人员可以理解，关于分类的信息项可以手动添加或是自动添加，例如通过GPS装置实时记录。

此外，注释文本还可以包括关于关键字的信息项。为了便于搜索特定感兴趣的内容，人们通常给相应的多媒体添加相应的标签，该标签即为一种类型的关键字。例如，对于视频网站而言，通常会对多媒体数据添加相应的关键字标签，以供用户检索。例如，《舌尖上的中国》在视频网站上通常被添加有记录片、美食、文化等标签。在图2的示例中，注释文本201、202和203均包括相应的关键字项：服务器、故障。本领域技术人员可以理解，关于关键字的信息项可以手动添加或是自动添加。例如，对于诸如论文之类的文本多媒体而言，可以通过计算其中高频出现的词汇来自动添加关键字。在另一示例中，可以使用光学字符识别技术(OCR)来识别例如视频的多媒体中每个视频帧中出现的字符来自动添加关键字。在又一示例中，可以使用语音识别技术来识别音频流中出现的高频词来自动添加关键字。本领域技术人员可以理解，上述通过对视频帧或图像进行光学字符识别或通过对音频进行语音识别的自动添加技术也可应用于注释文本中其它信息项的自动添加。

此外，注释文本还可以包括关于内容描述的信息项。内容描述用于描述多媒体数据的内容以及相关的评论或意见。例如，在图2的示例中，第一注释文本201中的内容描述项记录了“客户的服务器故障现场”，这与视频分区201的内容相对应；第二注释文本202中的内容描述项记录了“客户的服务器故障现场调试”，这与视频分区202的内容相对应；第三注释文本203中的内容描述项记录了“现场工程师的分析结论”，这与视频分区203的内容相对应。除了上述描述外，注释文本的内容描述还可以记录其它内容，例如现场工程师在现场的聊天内容。换言之，关于多媒体数据分区的聊天/评论/意见等内容也可以作为内容描述项被记录在注释文本中。本领域技术人员可以理解，关于内容描述的信息项可以手动添加或是自动添加。

注释文本还可以包括关于角色属性的信息项。例如，对于诸如电影电视之类的视频而言，电影电视中有时会出现不适于儿童观看的内容。通过在注释文本中添加相应的角色属性信息(例如，家长、儿童等之类的角色属性)，可以对多媒体数据的观众进行相应的分类授权浏览。本领域技术人员可以理解，关于角色属性的信息项可以手动添加或是自动添加。本领域技术人员还可以理解，按家长儿童进行角色属性分配仅是示例，还可以具有其他角色属性分级，例如美国电影协会(MPAA)采用的G级、PG级、PG-13级、R级、NC-17级等观众角色属性的分级。

此外，注释文本还可以包括关于热度图的信息项。对于日渐流行的社交网络而言，网络用户会对海量的多媒体数据中的某些内容表现出强烈的兴趣，这可以通过“热度”进行表示。通过对于社交网络中热度较高的多媒体数据进行挖掘分析，可以获得关于诸如流行趋势、用户行为模式等之类有用的信息，由此可以利用这些有用的信息进行商业开发或是部署应对策略。在一个示例中，可以对视频流中的视频数据进行热度分析，以获得该视频数据的热度图。例如，该视频数据包括多个视频分区，通过根据视频分区的重要性、播放次数、评论数等相关信息计算相应视频分区的热度，并且以不同的颜色表示视频分区的热度，从而生成针对该多媒体数据的热度图。例如，当电影和电视剧在网络上播放时，人们通常快进跳过电影或电视剧开头，由此可以将电影或电视剧开头部分的视频分区以白色表示，这意味着开头部分的视频分区的热度较低。再例如，当电影和电视剧的关键部分被播放时，人们通常会全程观看该部分的视频分区，甚至可能会重播该部分的视频分区，这导致播放次数较高(流行度较高)并且不被跳过，这意味着关键部分的视频分区的热度较高。通过使用多媒体数据的热度图，可以获得多个有益效果，例如可以对热度较高的多媒体分区进行优先缓存，从而获得更好更高效的浏览体验。本领域技术人员可以理解，关于热度图的信息项可以手动添加或是自动添加。

此外，注释文本还可以包括指示视频或图像的主要颜色的信息项。主要颜色是指视频帧或图像中占比例较大的若干种颜色，例如占比例最大的一种颜色或是三种颜色。颜色分类可以使用常规的16色或256色系统进行分类。例如，在一个海洋图像中，蓝色占90％，白色占6％，黄色占3％，此时，主要颜色包括蓝色、白色和黄色(按比例排序)。当搜索关于海洋的图像时，可以搜索蓝色占比最大的图像。

在另一示例中，注释文本可以包括指示播放时的显示位置和显示格式中至少一项的信息。上述的关键字、内容描述、重要性级别、分类信息、角色属性、热度图、安全级别和地理位置中的至少一项可以在多媒体数据播放时加载到多媒体数据中以便同时显示。例如，当多媒体数据是视频或音频数据时，注释文本中的多个信息项可以基于需要而选择性地加载到视频或图像数据中，以便于同时显示。因此，注释文本中可以包括指示上述信息项在视频和图像中出现的显示位置和显示格式中的至少一种的信息，例如可以在注释文本中规定安全级别的信息可以显示在视频或图像的左上角并且以红色字体显示安全级别信息。当多媒体数据是视频数据时，注释文本中还可以具有规定上述信息项显示的开始时间和结束时间的信息。本领域技术人员可以理解，关于显示位置和显示格式中至少一项的信息项可以手动添加或是自动添加。

在一个示例中，注释文本还可以包括关于关键区域的信息项。例如，当多媒体数据是超声成像图时，图像中可能具有反映肿瘤病变的区域，需要将其突出显示为关键区域。使用与超声成像图中颜色不同的显著颜色(例如红色或绿色)圈出特定的关键区域，使得当多媒体图像数据播放时，关键区域被突出显示。本领域技术人员可以理解，关于显示位置和显示格式中至少一项的信息项可以手动添加或是自动添加。例如，可以使用医疗领域的超声图像分析算法自动圈出可疑关键区域，并且将其位置信息自动添加至注释文本。

以上介绍了注释文本中包含的一些信息项，本领域技术人员可以理解，上述信息项仅是示例，而非旨在限制。注释文本可以包含其它一些信息项，例如多媒体数据的生成时间、多媒体数据对象的名称(例如患者姓名)等。

虽然上面参照图2示出了三个注释文本，但是本领域技术人员可以理解，上述三个注释文本可以组合为单个注释文本或者对三个分区进行进一步的划分以生成多个子分区以及相应的一个或多个注释文本。

当形成了与多媒体数据相关联的注释文本之后，可以使用注释文本进行检索以及根据检索结果呈现多媒体数据的相应分区。

用户可以根据关键字、内容描述、重要性级别、分类信息、主要颜色、角色属性、热度图、关键区域、安全级别和地理位置中的至少一项进行检索。例如，在图2所示的情形中，后端的技术主管可以根据关键字(故障)、重要性(2或以上)和安全级别(2或以上)进行检索，检索到注释文本212和213，并且根据该检索结果显示对应的多媒体数据分区202和203。本领域技术人员可以理解，在不同的场景下，可以根据一个或多个不同项进行检索以提高效率。例如，如上所述地，检索主要颜色为蓝色的图像。再例如，使用关键字为“可疑肿瘤病变”和重要性为2或以上来进行检索。

如上所述地，对于一些商业应用情形而言，安全分级尤为重要。因此，需要将安全级别设计为首先的考虑项或是默认考虑项。例如，当用户的安全级别为2时，虽然在输入时并没有设置安全级别的条件项，但是系统在检索时，仅检索注释文本中符合安全级别的注释文本(例如安全级别为1或2)，并且呈现相应的多媒体数据给用户。在另一情形中，可以将安全级别设计为最后的考虑项或是默认考虑项。例如，用户的安全级别为2时，虽然在输入时并没有设置安全级别的条件项，但是系统在检索时，仅检索注释文本中符合安全级别的注释文本(例如安全级别为1或2)，并且呈现相应的多媒体数据给用户。

下面参见附图3描述根据本公开的一个实施例的多媒体数据的处理系统的框图。如上所述，该多媒体处理系统包括多媒体数据库301、注释文本生成装置302、关联装置303、检索装置304和呈现装置305。关联装置303将文本生成装置302生成的注释文本与多媒体库301中的多媒体或多媒体分区相关联，其中可以在注释文本中自动(例如使用光学字符识别设备和语音识别设备)或手动地添加如上所述的各个信息项，例如注释文本可以包括指示相应分区的起始时间和结束时间的信息，还可以包括指示所述多媒体数据的关键字、内容描述、重要性级别、分类信息、主要颜色、角色属性、热度图、关键区域、安全级别和地理位置中的至少一项的信息。此外，注释文本也可以包括指示播放时的显示位置和显示格式中至少一项的信息。

在添加完成各个信息项之后，可以使用检索装置304对注释文本进行检索，例如基于指示所述多媒体数据的关键字、内容描述、重要性级别、分类信息、主要颜色、角色属性、热度图、关键区域、安全级别和地理位置中的至少一项的信息进行检索。如上所述地，检索装置可以被配置成仅检索所述注释文本中符合安全级别的注释文本。

此外，呈现装置305根据检索装置304的检索结果从多媒体数据库301中提取对应的多媒体数据分区并且将其呈现。本领域技术人员可以理解，呈现装置305可以对多个多媒体数据分区进行任意组合，并且可以在多媒体数据播放时同时地呈现注释信息中的某些信息项。例如，可以使用诸如动态呈现引擎之类的呈现装置在线呈现搜索结果，并且该呈现引擎可以在线生成组合的多媒体分区并且加载注释文本中的一些信息至多媒体数据。如上所述地，呈现装置305可以被配置成仅呈现所述多媒体数据中符合安全级别的分区。

根据本公开的另一实施例，提供了一种存储在非瞬态计算机可读存储介质上的用于多媒体数据处理的计算机程序产品，包括：第一程序指令，用于生成注释文本；以及第二程序指令，用于将所述注释文本中与所述多媒体数据中的相应分区进行关联。本领域技术人员可以理解，上述的方法步骤和装置产品可以通过计算机软件或程序代码的形式实施。在该实施例中，可以将多媒体数据分区以及与其相关联的注释文本单独地存储为XML或no-sql存储(例如JSON格式)。如本领域所熟知地，XML或no-sql存储均允许全文检索以及数据筛选。

虽然已经参考若干具体实施方式描述了本公开，但是应该理解，本公开并不限于所公开的具体实施方式。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种多媒体数据的处理方法，包括：

生成注释文本；以及

将所述注释文本与所述多媒体数据中的相应分区进行关联。

2.根据权利要求1所述的处理方法，其中所述注释文本包括指示相应分区的起始时间和结束时间的信息。

3.根据权利要求1所述的处理方法，其中所述注释文本包括指示所述多媒体数据的关键字、内容描述、重要性级别、分类信息、主要颜色、角色属性、热度图、关键区域、安全级别和地理位置中的至少一项的信息。

4.根据权利要求1所述的处理方法，其中所述多媒体数据是视频数据、音频数据、图像数据和文本数据之一。

5.根据权利要求4所述的处理方法，其中当所述多媒体数据是视频数据或图像数据时，使用光学字符识别技术来识别视频帧或图像中的字符，以及基于识别出的字符来生成注释文本。

6.根据权利要求4所述的处理方法，其中当所述多媒体数据是音频数据时，使用语音识别技术来识别音频中的文字，以及基于识别出的文字来生成注释文本。

7.根据权利要求1所述的处理方法，其中所述注释文本包括指示播放时的显示位置和显示格式中至少一项的信息。

8.根据权利要求1所述的处理方法，还包括：

对所述注释文本进行检索；以及

根据检索结果呈现所述多媒体数据的相应分区。

9.根据权利要求8所述的处理方法，其中对所述注释文本进行检索包括：

根据关键字、内容描述、重要性级别、分类信息、主要颜色、角色属性、热度图、关键区域、安全级别和地理位置中的至少一项进行检索。

10.根据权利要求8所述的处理方法，其中对所述注释文本进行检索是仅检索所述注释文本中符合安全级别的注释文本。

11.根据权利要求8所述的处理方法，其中根据检索结果呈现所述多媒体数据的相应分区是仅呈现所述多媒体数据中符合安全级别的分区。

12.一种多媒体数据处理系统，包括：

文本生成装置，被配置成生成注释文本；以及

关联装置，被配置成将所述注释文本与所述多媒体数据中的相应分区进行关联。

13.根据权利要求12所述的多媒体数据处理系统，其中所述注释文本包括指示相应分区的起始时间和结束时间的信息。

14.根据权利要求12所述的多媒体数据处理系统，其中所述注释文本包括指示所述多媒体数据的关键字、内容描述、重要性级别、分类信息、主要颜色、角色属性、热度图、关键区域、安全级别和地理位置中的至少一项的信息。

15.根据权利要求12所述的多媒体数据处理系统，其中所述注释文本包括指示播放时的显示位置和显示格式中至少一项的信息。

16.根据权利要求12所述的多媒体数据处理系统，还包括：

检索装置，被配置成对所述注释文本进行检索；以及

呈现装置，被配置成根据检索结果呈现所述多媒体数据的相应分区。

17.根据权利要求16所述的多媒体数据处理系统，其中所述检索装置被配置成根据关键字、内容描述、重要性级别、分类信息、主要颜色、角色属性、热度图、关键区域、安全级别和地理位置中的至少一项进行检索。

18.根据权利要求16所述的多媒体数据处理系统，其中所述检索装置被配置成仅检索所述注释文本中符合安全级别的注释文本。

19.根据权利要求16所述的多媒体数据处理系统，其中所述呈现装置被配置成仅呈现所述多媒体数据中符合安全级别的分区。

20.一种存储在非瞬态计算机可读存储介质上的用于多媒体数据处理的计算机程序产品，包括：

第一程序指令，用于生成注释文本；以及

第二程序指令，用于将所述注释文本中与所述多媒体数据中的相应分区进行关联。