CN105893387A - 智能多媒体处理方法和系统 - Google Patents
智能多媒体处理方法和系统 Download PDFInfo
- Publication number
- CN105893387A CN105893387A CN201510004939.XA CN201510004939A CN105893387A CN 105893387 A CN105893387 A CN 105893387A CN 201510004939 A CN201510004939 A CN 201510004939A CN 105893387 A CN105893387 A CN 105893387A
- Authority
- CN
- China
- Prior art keywords
- annotation text
- information
- data
- medium data
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000005192 partition Methods 0.000 claims abstract description 36
- 238000005516 engineering process Methods 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 3
- 230000001052 transient effect Effects 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims 2
- 238000004458 analytical method Methods 0.000 description 7
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 210000000554 iris Anatomy 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000021603 oncosis Effects 0.000 description 1
- 231100000915 pathological change Toxicity 0.000 description 1
- 230000036285 pathological change Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
Abstract
本公开的实施例旨在提供一种多媒体数据的处理方法和系统。根据本公开的一个方面,提供了一种多媒体数据的处理方法,包括:生成注释文本;以及将所述注释文本与所述多媒体数据中的相应分区进行关联。通过使用根据本公开的实施例的处理方法和系统,例如可以有效地提供多媒体数据的搜索效率。
Description
技术领域
本公开的实施例涉及数据处理,更具体而言,涉及智能多媒体处理系统。
背景技术
近年来,随着信息技术的技术进步,产生了越来越多的多媒体数据,例如,人们越来越多的使用智能手机、相机、录音笔或摄像机来记录日常工作生活中出现的事情,这导致产生的数据量呈几何级增加。然而,对于所产生的数据,尤其是多媒体数据,缺少一种高效搜索方法来对其进行搜索来快速找到感兴趣的内容,例如视频或音频中某一段的视频或音频。通常的搜索方法是根据拍摄时间或是文件名称进行搜索,有时候甚至不得不去遍历所有的视频或音频内容来寻找特定的视频或音频片段。这对于时间要求不紧迫的生活事件而言,尚可以接受。
然而,对于一些特定的工作应用而言,这常常不能满足效率要求。例如,当客户的设备出现问题时,现场技术工程师通常会拍摄或记录现场观察的情况,这也会产生较大的数据量。后方工程师如果没有高效的搜索方法则不得不去浏览所有的多媒体数据资料,这对于现场需要尽快解决技术问题的情形通常不可接受。
因此,需要一种智能多媒体数据处理系统,其能够对多媒体数据进行快速定位或高效搜索。
发明内容
本公开的实施例旨在提供一种多媒体数据的处理方法和系统。
根据本公开的一个方面,提供了一种多媒体数据的处理方法,包括:生成注释文本;以及将所述注释文本与所述多媒体数据中的相应分区进行关联。
根据本公开的另一方面,提供了一种多媒体数据处理系统,包括:文本生成装置,被配置成生成注释文本;以及关联装置,被配置成将所述注释文本与所述多媒体数据中的相应分区进行关联。
根据本公开的又一方面,提供了一种存储在非瞬态计算机可读存储介质上的用于多媒体数据处理的计算机程序产品,包括:第一程序指令,用于生成注释文本;以及第二程序指令,用于将所述注释文本中与所述多媒体数据中的相应分区进行关联。
通过使用根据本公开的一些实施例,可以获得相应的有益效果,例如,可以提高多媒体数据的搜索和定位效率。
附图说明
参考如下附图和描述可以更好地理解本公开。图中的部件并不必须按比例,相反,重点放在了图示本公开的原理上。此外,在图中,相同的参考号指代对应的部分。在附图中:
图1是根据本公开的一个实施例的多媒体数据的处理方法的流程图;
图2是根据本公开的一个实施例的视频分区和注释文本的示意图;以及
图3是根据本公开的一个实施例的多媒体数据的处理系统的框图。
具体实施方式
在下文描述中阐述某些具体细节以便提供对本公开的主题内容的各种方面的透彻理解。然而在不具有这些具体细节的情形下仍然可以实现本公开的主题内容。在一些实例中,暂不具体描述形成与智能多媒体处理方法和系统相关联的公知结构和方法,以免模糊对本公开内容的其它方面的描述。
除非上下文另有要求,否则在说明书和所附权利要求书全文中,词语“包括”将解释成开放式包含意义,也就是说,解释为“包括但不限于”。
在本说明书全文中引用“一个实施例”或者“实施例”意味着结合该实施例描述的特定特征、结构或者特性包含于至少一个实施例中。因此,在本说明书全文中各处出现表达“在一个实施例中”或者“在实施例中”未必都是指相同方面。另外,可以在本公开内容的一个或者多个方面中以任何适当方式组合特定特征、结构或者特性。
现在参见图1,图1示出了根据本公开的多媒体数据的处理方法的一个实施例。在图1的实施例中,在101处,生成注释文本,以及在102处,将注释文本与多媒体数据的相应分区相关联。本领域技术人员可以理解,多媒体数据包括至少一个分区。
图2示出了根据本公开的一个实施例的视频分区和注释文本的示意图。现在结合图1和图2来描述根据本公开的一个示例。
在本公开的实施例中,多媒体数据可以是视频数据、音频数据、图像数据和文本数据之一。例如,视频数据是可以采用诸如MP4、AVI、MKV、RM、RMVB、WMV、M4V、VIDX、XVID、ASF等各种编码格式编码的视频数据。音频数据可以是诸如AAC、MP3、WMA、AMR、FLAC、APE等之类的音频数据。图像数据可以是RAW、BMP、PCX、TIFF、GIF、JPEG、PNG等之类的图像数据。文本数据可以是诸如Microsoft系列的文本数据、txt文本数据等之类的文本数据。
注释文本可以包括各种信息,其中各种信息项可以由人员手动添加或者通过技术方式自动添加。
例如,当多媒体数据为视频或音频数据时,注释本文可以包括指示视频或音频的起始时间和结束时间的信息。此外,当视频或音频数据由多个视频或音频数据分区组成时,注释文本可以包括指示相应分区的起始时间和结束时间的信息。例如,参见图2,图2中的原始视频流包含多个分区201、202和203。该原始视频流诸如是现场技术支持工程师拍摄的视频。拍摄可以在时间上并不连续。每次连续拍摄的视频可以构成一个分区,而多个连续拍摄的视频组合构成原始视频流。在另外的示例中,可以由不同的视频或音频组合构成原始多媒体流,例如分区201可以为视频流第一分区,分区202可以为音频流第二分区,以及分区203可以是视频流第三分区,其中第一分区201是现场支持工程师拍摄的诸如客户服务器故障设备的现场视频,第二分区202是后端技术工程师的故障分析音频,而第三分区203是技术主管的指示如何处理的视频。本领域技术人员可以理解,也可以具有其它分区组合方式,例如图像和音频构成单个分区,其中当播放图像时,音频也被播放。在另一示例中,文本和音频数据构成单个分区,当显示文本数据时,音频也被播放。在另一示例中,音频构成单个分区,当播放音频数据时,可以显示默认图像数据,例如纯黑背景图像。
在图2示出的示例中,第一注释文本211与第一分区201相关联。在第一注释文本211中,记载了第一分区201的开始时间00:00和结束时间01:00。如上所述,第一分区201是现场支持工程师拍摄的诸如客户服务器故障设备的现场视频,该视频持续1分钟。本领域技术人员可以理解,视频持续时间在此并未限制,可以有其它的持续时间,并且具有相应的开始时间和结束时间。本领域技术人员可以理解,视频或音频流的开始时间和结束时间可以手动添加或是自动添加。
本领域技术人员可以理解,在仅包括图像和文本数据的非流媒体的多媒体数据的情形中,注释文本可以不具有开始时间和结束时间的信息项。
此外,注释文本还可以包括关于重要性的信息项。例如,在图2的示例中,该第一分区201的视频重要性为1,第二分区202的视频重要性为3,第三分区203的视频重要性为2。可以理解,对于日趋海量的多媒体数据而言,有必要对多媒体数据进行重要性分级,使得在浏览多媒体时,可以根据重要性级别对多媒体数据进行筛选。例如对于上述的客户服务器故障的情形而言,在没有现场工程师时,客户自行拍摄现场视频可能会拍摄多段视频(多个视频分区),这其中的大部分对于解决问题而言无足轻重,后端技术支持工程师可以对客户拍摄的视频进行重要性级别进行分级,使得技术主管在需要时可以仅浏览特定重要性级别的多媒体数据。本领域技术人员可以理解,按数字对重要性进行分类仅是示例,可以有其它分类方法,例如按“不重要”、“重要”、“非常重要”等进行分级。本领域技术人员可以理解,关于重要性的信息项可以手动添加或是自动添加。
注释文本还可以包括关于安全级别的信息项。例如,在图2的示例中,该第一分区201的视频安全级别为1,第二分区202的视频安全级别为2,第三分区203的视频安全级别为3。对于一些情形(例如产品研发)而言,相应的多媒体数据(例如关于产品研发的具体细节)通常属于公司或机构的商业秘密,通常需要限制对其的访问。不同的技术部门仅可以具有相应的安全级别和权限,以防止商业秘密外泄。在图2的示例中,现场工程师拍摄的描述服务器故障现场的第一视频分区201的安全级别为1,这可以意味着在公司内部的所有人员均可以对其进行访问。现场技术人员对客户服务器故障进行现场调试的第二视频分区202的安全级别为2,这可以意味着具有安全权限为2或以上的人员(例如后端技术工程师和技术主管)可以对其进行访问。现场工程师的相应分析结论的第三视频分区203的安全级别为3,这可以意味着具有安全权限为3或以上的人员(例如技术主管)可以对其进行访问。由于后端技术工程师的安全级别仅为2,这意味着后端技术工程师不可以访问第三视频分区203。技术主管可以基于后端技术工程师的独立分析报告和第三视频分区203做出相应判断和决定。本领域技术人员可以理解,按数字对安全级别进行分类仅是示例,可以有其它分类方法,例如按“公开”、“秘密”、“绝密”等进行分级。本领域技术人员可以理解,关于安全级别的信息项可以手动添加或是自动添加。可选地,安全级别是首先检查的信息项,即首先检查用户的安全级别是否符合多媒体数据的安全级别要求。例如,在对注释文本进行检索时仅检索所述注释文本中符合安全级别的注释文本,或是在根据检索结果呈现所述多媒体数据的相应分区时仅呈现所述多媒体数据中符合安全级别的分区。
此外,注释文本还可以包括关于多媒体数据分类的信息项。例如,在图2的示例中,第一注释文本211、第二注释文本212和第三注释文本213中均包括分类项,该分类项为“故障”。例如,在如上所述的情形中,可以具有关于客户服务器现场的多种视频,例如安装、调试、运行、监测、故障等视频。后端工程师和技术主管可以根据分类进行筛选。例如,当客户服务器故障时,可以调取故障分类的多媒体数据,其包括关于服务器故障的当前多媒体数据和历史多媒体数据。当前多媒体数据和历史多媒体数据可以组合成新的多媒体数据流以供后端工程师和技术主管浏览。本领域技术人员可以理解,在其它一些情形中,可以相似处理,例如,可以将“访谈”分类的多媒体数据进行组合,以供咨询公司的人员全面了解客户的需求。本领域技术人员可以理解,按文字分类仅是示例,可以有其它分类方法,例如按数字、时间或字母等进行分类。本领域技术人员可以理解,关于分类的信息项可以手动添加或是自动添加。
注释文本还可以包括关于多媒体数据地理位置的信息项。该多媒体数据地理位置可以例如是多媒体数据产生的地理位置,例如多媒体视频拍摄于北京、上海或是广州。在另一示例中,该多媒体数据地理位置也可以是多媒体数据加工位置,例如虽然视频素材拍摄于北京,但是后期处理在上海进行,因此该视频的地理位置信息记录为上海。例如,在图2的示例中,第一注释文本211、第二注释文本212和第三注释文本213中均包括地理位置信息项“北京”,这因为客户公司在北京,其服务器的现场也在北京,因此所拍摄的三个视频的相关联的注释文本中的位置信息也标记为北京。本领域技术人员可以理解,按城市分类仅是示例,可以有其它分类方法,例如按经纬度坐标等进行分类。本领域技术人员可以理解,关于分类的信息项可以手动添加或是自动添加,例如通过GPS装置实时记录。
此外,注释文本还可以包括关于关键字的信息项。为了便于搜索特定感兴趣的内容,人们通常给相应的多媒体添加相应的标签,该标签即为一种类型的关键字。例如,对于视频网站而言,通常会对多媒体数据添加相应的关键字标签,以供用户检索。例如,《舌尖上的中国》在视频网站上通常被添加有记录片、美食、文化等标签。在图2的示例中,注释文本201、202和203均包括相应的关键字项:服务器、故障。本领域技术人员可以理解,关于关键字的信息项可以手动添加或是自动添加。例如,对于诸如论文之类的文本多媒体而言,可以通过计算其中高频出现的词汇来自动添加关键字。在另一示例中,可以使用光学字符识别技术(OCR)来识别例如视频的多媒体中每个视频帧中出现的字符来自动添加关键字。在又一示例中,可以使用语音识别技术来识别音频流中出现的高频词来自动添加关键字。本领域技术人员可以理解,上述通过对视频帧或图像进行光学字符识别或通过对音频进行语音识别的自动添加技术也可应用于注释文本中其它信息项的自动添加。
此外,注释文本还可以包括关于内容描述的信息项。内容描述用于描述多媒体数据的内容以及相关的评论或意见。例如,在图2的示例中,第一注释文本201中的内容描述项记录了“客户的服务器故障现场”,这与视频分区201的内容相对应;第二注释文本202中的内容描述项记录了“客户的服务器故障现场调试”,这与视频分区202的内容相对应;第三注释文本203中的内容描述项记录了“现场工程师的分析结论”,这与视频分区203的内容相对应。除了上述描述外,注释文本的内容描述还可以记录其它内容,例如现场工程师在现场的聊天内容。换言之,关于多媒体数据分区的聊天/评论/意见等内容也可以作为内容描述项被记录在注释文本中。本领域技术人员可以理解,关于内容描述的信息项可以手动添加或是自动添加。
注释文本还可以包括关于角色属性的信息项。例如,对于诸如电影电视之类的视频而言,电影电视中有时会出现不适于儿童观看的内容。通过在注释文本中添加相应的角色属性信息(例如,家长、儿童等之类的角色属性),可以对多媒体数据的观众进行相应的分类授权浏览。本领域技术人员可以理解,关于角色属性的信息项可以手动添加或是自动添加。本领域技术人员还可以理解,按家长儿童进行角色属性分配仅是示例,还可以具有其他角色属性分级,例如美国电影协会(MPAA)采用的G级、PG级、PG-13级、R级、NC-17级等观众角色属性的分级。
此外,注释文本还可以包括关于热度图的信息项。对于日渐流行的社交网络而言,网络用户会对海量的多媒体数据中的某些内容表现出强烈的兴趣,这可以通过“热度”进行表示。通过对于社交网络中热度较高的多媒体数据进行挖掘分析,可以获得关于诸如流行趋势、用户行为模式等之类有用的信息,由此可以利用这些有用的信息进行商业开发或是部署应对策略。在一个示例中,可以对视频流中的视频数据进行热度分析,以获得该视频数据的热度图。例如,该视频数据包括多个视频分区,通过根据视频分区的重要性、播放次数、评论数等相关信息计算相应视频分区的热度,并且以不同的颜色表示视频分区的热度,从而生成针对该多媒体数据的热度图。例如,当电影和电视剧在网络上播放时,人们通常快进跳过电影或电视剧开头,由此可以将电影或电视剧开头部分的视频分区以白色表示,这意味着开头部分的视频分区的热度较低。再例如,当电影和电视剧的关键部分被播放时,人们通常会全程观看该部分的视频分区,甚至可能会重播该部分的视频分区,这导致播放次数较高(流行度较高)并且不被跳过,这意味着关键部分的视频分区的热度较高。通过使用多媒体数据的热度图,可以获得多个有益效果,例如可以对热度较高的多媒体分区进行优先缓存,从而获得更好更高效的浏览体验。本领域技术人员可以理解,关于热度图的信息项可以手动添加或是自动添加。
此外,注释文本还可以包括指示视频或图像的主要颜色的信息项。主要颜色是指视频帧或图像中占比例较大的若干种颜色,例如占比例最大的一种颜色或是三种颜色。颜色分类可以使用常规的16色或256色系统进行分类。例如,在一个海洋图像中,蓝色占90%,白色占6%,黄色占3%,此时,主要颜色包括蓝色、白色和黄色(按比例排序)。当搜索关于海洋的图像时,可以搜索蓝色占比最大的图像。
在另一示例中,注释文本可以包括指示播放时的显示位置和显示格式中至少一项的信息。上述的关键字、内容描述、重要性级别、分类信息、角色属性、热度图、安全级别和地理位置中的至少一项可以在多媒体数据播放时加载到多媒体数据中以便同时显示。例如,当多媒体数据是视频或音频数据时,注释文本中的多个信息项可以基于需要而选择性地加载到视频或图像数据中,以便于同时显示。因此,注释文本中可以包括指示上述信息项在视频和图像中出现的显示位置和显示格式中的至少一种的信息,例如可以在注释文本中规定安全级别的信息可以显示在视频或图像的左上角并且以红色字体显示安全级别信息。当多媒体数据是视频数据时,注释文本中还可以具有规定上述信息项显示的开始时间和结束时间的信息。本领域技术人员可以理解,关于显示位置和显示格式中至少一项的信息项可以手动添加或是自动添加。
在一个示例中,注释文本还可以包括关于关键区域的信息项。例如,当多媒体数据是超声成像图时,图像中可能具有反映肿瘤病变的区域,需要将其突出显示为关键区域。使用与超声成像图中颜色不同的显著颜色(例如红色或绿色)圈出特定的关键区域,使得当多媒体图像数据播放时,关键区域被突出显示。本领域技术人员可以理解,关于显示位置和显示格式中至少一项的信息项可以手动添加或是自动添加。例如,可以使用医疗领域的超声图像分析算法自动圈出可疑关键区域,并且将其位置信息自动添加至注释文本。
以上介绍了注释文本中包含的一些信息项,本领域技术人员可以理解,上述信息项仅是示例,而非旨在限制。注释文本可以包含其它一些信息项,例如多媒体数据的生成时间、多媒体数据对象的名称(例如患者姓名)等。
虽然上面参照图2示出了三个注释文本,但是本领域技术人员可以理解,上述三个注释文本可以组合为单个注释文本或者对三个分区进行进一步的划分以生成多个子分区以及相应的一个或多个注释文本。
当形成了与多媒体数据相关联的注释文本之后,可以使用注释文本进行检索以及根据检索结果呈现多媒体数据的相应分区。
用户可以根据关键字、内容描述、重要性级别、分类信息、主要颜色、角色属性、热度图、关键区域、安全级别和地理位置中的至少一项进行检索。例如,在图2所示的情形中,后端的技术主管可以根据关键字(故障)、重要性(2或以上)和安全级别(2或以上)进行检索,检索到注释文本212和213,并且根据该检索结果显示对应的多媒体数据分区202和203。本领域技术人员可以理解,在不同的场景下,可以根据一个或多个不同项进行检索以提高效率。例如,如上所述地,检索主要颜色为蓝色的图像。再例如,使用关键字为“可疑肿瘤病变”和重要性为2或以上来进行检索。
如上所述地,对于一些商业应用情形而言,安全分级尤为重要。因此,需要将安全级别设计为首先的考虑项或是默认考虑项。例如,当用户的安全级别为2时,虽然在输入时并没有设置安全级别的条件项,但是系统在检索时,仅检索注释文本中符合安全级别的注释文本(例如安全级别为1或2),并且呈现相应的多媒体数据给用户。在另一情形中,可以将安全级别设计为最后的考虑项或是默认考虑项。例如,用户的安全级别为2时,虽然在输入时并没有设置安全级别的条件项,但是系统在检索时,仅检索注释文本中符合安全级别的注释文本(例如安全级别为1或2),并且呈现相应的多媒体数据给用户。
下面参见附图3描述根据本公开的一个实施例的多媒体数据的处理系统的框图。如上所述,该多媒体处理系统包括多媒体数据库301、注释文本生成装置302、关联装置303、检索装置304和呈现装置305。关联装置303将文本生成装置302生成的注释文本与多媒体库301中的多媒体或多媒体分区相关联,其中可以在注释文本中自动(例如使用光学字符识别设备和语音识别设备)或手动地添加如上所述的各个信息项,例如注释文本可以包括指示相应分区的起始时间和结束时间的信息,还可以包括指示所述多媒体数据的关键字、内容描述、重要性级别、分类信息、主要颜色、角色属性、热度图、关键区域、安全级别和地理位置中的至少一项的信息。此外,注释文本也可以包括指示播放时的显示位置和显示格式中至少一项的信息。
在添加完成各个信息项之后,可以使用检索装置304对注释文本进行检索,例如基于指示所述多媒体数据的关键字、内容描述、重要性级别、分类信息、主要颜色、角色属性、热度图、关键区域、安全级别和地理位置中的至少一项的信息进行检索。如上所述地,检索装置可以被配置成仅检索所述注释文本中符合安全级别的注释文本。
此外,呈现装置305根据检索装置304的检索结果从多媒体数据库301中提取对应的多媒体数据分区并且将其呈现。本领域技术人员可以理解,呈现装置305可以对多个多媒体数据分区进行任意组合,并且可以在多媒体数据播放时同时地呈现注释信息中的某些信息项。例如,可以使用诸如动态呈现引擎之类的呈现装置在线呈现搜索结果,并且该呈现引擎可以在线生成组合的多媒体分区并且加载注释文本中的一些信息至多媒体数据。如上所述地,呈现装置305可以被配置成仅呈现所述多媒体数据中符合安全级别的分区。
根据本公开的另一实施例,提供了一种存储在非瞬态计算机可读存储介质上的用于多媒体数据处理的计算机程序产品,包括:第一程序指令,用于生成注释文本;以及第二程序指令,用于将所述注释文本中与所述多媒体数据中的相应分区进行关联。本领域技术人员可以理解,上述的方法步骤和装置产品可以通过计算机软件或程序代码的形式实施。在该实施例中,可以将多媒体数据分区以及与其相关联的注释文本单独地存储为XML或no-sql存储(例如JSON格式)。如本领域所熟知地,XML或no-sql存储均允许全文检索以及数据筛选。
虽然已经参考若干具体实施方式描述了本公开,但是应该理解,本公开并不限于所公开的具体实施方式。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释,从而包含所有这样的修改及等同结构和功能。
Claims (20)
1.一种多媒体数据的处理方法,包括:
生成注释文本;以及
将所述注释文本与所述多媒体数据中的相应分区进行关联。
2.根据权利要求1所述的处理方法,其中所述注释文本包括指示相应分区的起始时间和结束时间的信息。
3.根据权利要求1所述的处理方法,其中所述注释文本包括指示所述多媒体数据的关键字、内容描述、重要性级别、分类信息、主要颜色、角色属性、热度图、关键区域、安全级别和地理位置中的至少一项的信息。
4.根据权利要求1所述的处理方法,其中所述多媒体数据是视频数据、音频数据、图像数据和文本数据之一。
5.根据权利要求4所述的处理方法,其中当所述多媒体数据是视频数据或图像数据时,使用光学字符识别技术来识别视频帧或图像中的字符,以及基于识别出的字符来生成注释文本。
6.根据权利要求4所述的处理方法,其中当所述多媒体数据是音频数据时,使用语音识别技术来识别音频中的文字,以及基于识别出的文字来生成注释文本。
7.根据权利要求1所述的处理方法,其中所述注释文本包括指示播放时的显示位置和显示格式中至少一项的信息。
8.根据权利要求1所述的处理方法,还包括:
对所述注释文本进行检索;以及
根据检索结果呈现所述多媒体数据的相应分区。
9.根据权利要求8所述的处理方法,其中对所述注释文本进行检索包括:
根据关键字、内容描述、重要性级别、分类信息、主要颜色、角色属性、热度图、关键区域、安全级别和地理位置中的至少一项进行检索。
10.根据权利要求8所述的处理方法,其中对所述注释文本进行检索是仅检索所述注释文本中符合安全级别的注释文本。
11.根据权利要求8所述的处理方法,其中根据检索结果呈现所述多媒体数据的相应分区是仅呈现所述多媒体数据中符合安全级别的分区。
12.一种多媒体数据处理系统,包括:
文本生成装置,被配置成生成注释文本;以及
关联装置,被配置成将所述注释文本与所述多媒体数据中的相应分区进行关联。
13.根据权利要求12所述的多媒体数据处理系统,其中所述注释文本包括指示相应分区的起始时间和结束时间的信息。
14.根据权利要求12所述的多媒体数据处理系统,其中所述注释文本包括指示所述多媒体数据的关键字、内容描述、重要性级别、分类信息、主要颜色、角色属性、热度图、关键区域、安全级别和地理位置中的至少一项的信息。
15.根据权利要求12所述的多媒体数据处理系统,其中所述注释文本包括指示播放时的显示位置和显示格式中至少一项的信息。
16.根据权利要求12所述的多媒体数据处理系统,还包括:
检索装置,被配置成对所述注释文本进行检索;以及
呈现装置,被配置成根据检索结果呈现所述多媒体数据的相应分区。
17.根据权利要求16所述的多媒体数据处理系统,其中所述检索装置被配置成根据关键字、内容描述、重要性级别、分类信息、主要颜色、角色属性、热度图、关键区域、安全级别和地理位置中的至少一项进行检索。
18.根据权利要求16所述的多媒体数据处理系统,其中所述检索装置被配置成仅检索所述注释文本中符合安全级别的注释文本。
19.根据权利要求16所述的多媒体数据处理系统,其中所述呈现装置被配置成仅呈现所述多媒体数据中符合安全级别的分区。
20.一种存储在非瞬态计算机可读存储介质上的用于多媒体数据处理的计算机程序产品,包括:
第一程序指令,用于生成注释文本;以及
第二程序指令,用于将所述注释文本中与所述多媒体数据中的相应分区进行关联。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510004939.XA CN105893387B (zh) | 2015-01-04 | 2015-01-04 | 智能多媒体处理方法和系统 |
US14/973,412 US10691879B2 (en) | 2015-01-04 | 2015-12-17 | Smart multimedia processing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510004939.XA CN105893387B (zh) | 2015-01-04 | 2015-01-04 | 智能多媒体处理方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105893387A true CN105893387A (zh) | 2016-08-24 |
CN105893387B CN105893387B (zh) | 2021-03-23 |
Family
ID=56286619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510004939.XA Active CN105893387B (zh) | 2015-01-04 | 2015-01-04 | 智能多媒体处理方法和系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10691879B2 (zh) |
CN (1) | CN105893387B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108495184A (zh) * | 2018-02-06 | 2018-09-04 | 北京奇虎科技有限公司 | 一种为视频添加弹幕的方法和装置 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959525A (zh) * | 2018-06-28 | 2018-12-07 | 郑州云海信息技术有限公司 | 一种冷热数据可视化方法、系统、设备及计算机存储介质 |
WO2020081872A1 (en) * | 2018-10-18 | 2020-04-23 | Warner Bros. Entertainment Inc. | Characterizing content for audio-video dubbing and other transformations |
US11087738B2 (en) * | 2019-06-11 | 2021-08-10 | Lucasfilm Entertainment Company Ltd. LLC | System and method for music and effects sound mix creation in audio soundtrack versioning |
JP7299499B2 (ja) * | 2019-09-30 | 2023-06-28 | 富士通株式会社 | 情報処理プログラム、情報処理方法及び情報処理装置 |
CN113448877A (zh) | 2020-03-26 | 2021-09-28 | 伊姆西Ip控股有限责任公司 | 用于数据存储的方法、设备和计算机程序 |
CN112287165A (zh) * | 2020-10-29 | 2021-01-29 | 深圳市艾酷通信软件有限公司 | 文件处理方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070118873A1 (en) * | 2005-11-09 | 2007-05-24 | Bbnt Solutions Llc | Methods and apparatus for merging media content |
CN101646050A (zh) * | 2009-09-09 | 2010-02-10 | 中国电信股份有限公司 | 视频文件的文本注释方法和系统、播放方法和系统 |
US20100235379A1 (en) * | 2008-06-19 | 2010-09-16 | Milan Blair Reichbach | Web-based multimedia annotation system |
US20120102387A1 (en) * | 2008-02-19 | 2012-04-26 | Google Inc. | Annotating Video Intervals |
CN102822826A (zh) * | 2010-03-31 | 2012-12-12 | 微软公司 | 创建和传播注释的信息 |
US20130031457A1 (en) * | 2011-07-28 | 2013-01-31 | Peter Griffiths | System for Creating and Editing Temporal Annotations of Documents |
CN102937959A (zh) * | 2011-06-03 | 2013-02-20 | 苹果公司 | 自动创建文本数据与音频数据之间的映射 |
US20130144414A1 (en) * | 2011-12-06 | 2013-06-06 | Cisco Technology, Inc. | Method and apparatus for discovering and labeling speakers in a large and growing collection of videos with minimal user effort |
CN103345465A (zh) * | 2013-06-28 | 2013-10-09 | 宇龙计算机通信科技(深圳)有限公司 | 一种多媒体文件标注、显示方法及装置 |
US20140143257A1 (en) * | 2002-12-11 | 2014-05-22 | Trio Systems Llc | Annotation system for creating and retrieving media and methods relating to same |
WO2014186052A2 (en) * | 2013-05-17 | 2014-11-20 | Thomson Licensing | Method and system for providing location scouting information |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6799298B2 (en) * | 1998-03-11 | 2004-09-28 | Overture Services, Inc. | Technique for locating an item of interest within a stored representation of data |
US6956593B1 (en) * | 1998-09-15 | 2005-10-18 | Microsoft Corporation | User interface for creating, viewing and temporally positioning annotations for media content |
US6357042B2 (en) * | 1998-09-16 | 2002-03-12 | Anand Srinivasan | Method and apparatus for multiplexing separately-authored metadata for insertion into a video data stream |
KR20040041082A (ko) * | 2000-07-24 | 2004-05-13 | 비브콤 인코포레이티드 | 멀티미디어 북마크와 비디오의 가상 편집을 위한 시스템및 방법 |
US20080250080A1 (en) * | 2007-04-05 | 2008-10-09 | Nokia Corporation | Annotating the dramatic content of segments in media work |
US20080313541A1 (en) * | 2007-06-14 | 2008-12-18 | Yahoo! Inc. | Method and system for personalized segmentation and indexing of media |
US9817832B1 (en) | 2007-10-31 | 2017-11-14 | EMC IP Holding Company LLC | Unified framework for policy-based metadata-driven storage services |
US7860836B1 (en) | 2007-12-26 | 2010-12-28 | Emc (Benelux) B.V., S.A.R.L. | Method and apparatus to recover data in a continuous data protection environment using a journal |
US9390169B2 (en) * | 2008-06-28 | 2016-07-12 | Apple Inc. | Annotation of movies |
US8775356B1 (en) | 2011-04-06 | 2014-07-08 | Emc Corporation | Query enhancement of semantic wiki for improved searching of unstructured data |
JP5571269B2 (ja) * | 2012-07-20 | 2014-08-13 | パナソニック株式会社 | コメント付き動画像生成装置およびコメント付き動画像生成方法 |
US9189408B1 (en) | 2012-08-31 | 2015-11-17 | Emc Corporation | System and method of offline annotation of future accesses for improving performance of backup storage system |
US9038175B1 (en) | 2013-06-17 | 2015-05-19 | Emc Corporation | Providing an automatic electronic fraud network data quality feedback loop |
US9934279B2 (en) * | 2013-12-05 | 2018-04-03 | Oracle International Corporation | Pattern matching across multiple input data streams |
US9189707B2 (en) * | 2014-02-24 | 2015-11-17 | Invent.ly LLC | Classifying and annotating images based on user context |
US20170164056A1 (en) * | 2014-06-25 | 2017-06-08 | Thomson Licensing | Annotation method and corresponding device, computer program product and storage medium |
US9424003B1 (en) | 2014-10-24 | 2016-08-23 | Emc Corporation | Schema-less system output object parser and code generator |
-
2015
- 2015-01-04 CN CN201510004939.XA patent/CN105893387B/zh active Active
- 2015-12-17 US US14/973,412 patent/US10691879B2/en active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140143257A1 (en) * | 2002-12-11 | 2014-05-22 | Trio Systems Llc | Annotation system for creating and retrieving media and methods relating to same |
US20070118873A1 (en) * | 2005-11-09 | 2007-05-24 | Bbnt Solutions Llc | Methods and apparatus for merging media content |
US20120102387A1 (en) * | 2008-02-19 | 2012-04-26 | Google Inc. | Annotating Video Intervals |
US20100235379A1 (en) * | 2008-06-19 | 2010-09-16 | Milan Blair Reichbach | Web-based multimedia annotation system |
CN101646050A (zh) * | 2009-09-09 | 2010-02-10 | 中国电信股份有限公司 | 视频文件的文本注释方法和系统、播放方法和系统 |
CN102822826A (zh) * | 2010-03-31 | 2012-12-12 | 微软公司 | 创建和传播注释的信息 |
CN102937959A (zh) * | 2011-06-03 | 2013-02-20 | 苹果公司 | 自动创建文本数据与音频数据之间的映射 |
US20130031457A1 (en) * | 2011-07-28 | 2013-01-31 | Peter Griffiths | System for Creating and Editing Temporal Annotations of Documents |
US20130144414A1 (en) * | 2011-12-06 | 2013-06-06 | Cisco Technology, Inc. | Method and apparatus for discovering and labeling speakers in a large and growing collection of videos with minimal user effort |
WO2014186052A2 (en) * | 2013-05-17 | 2014-11-20 | Thomson Licensing | Method and system for providing location scouting information |
CN103345465A (zh) * | 2013-06-28 | 2013-10-09 | 宇龙计算机通信科技(深圳)有限公司 | 一种多媒体文件标注、显示方法及装置 |
Non-Patent Citations (1)
Title |
---|
王素芳: "基于内容的多媒体融合分析与检索", 《福建电脑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108495184A (zh) * | 2018-02-06 | 2018-09-04 | 北京奇虎科技有限公司 | 一种为视频添加弹幕的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105893387B (zh) | 2021-03-23 |
US10691879B2 (en) | 2020-06-23 |
US20160196252A1 (en) | 2016-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105893387A (zh) | 智能多媒体处理方法和系统 | |
US8738695B2 (en) | Joint analysis of social and content networks | |
Glass et al. | Multi-level acoustic segmentation of continuous speech | |
CN101755303B (zh) | 采用语义分类器的自动题材创建 | |
KR101557494B1 (ko) | 비디오 인터벌 주석 | |
US8948515B2 (en) | Method and system for classifying one or more images | |
US7818329B2 (en) | Method and apparatus for automatic multimedia narrative enrichment | |
US20150187353A1 (en) | Audio tagging | |
US20080306995A1 (en) | Automatic story creation using semantic classifiers for images and associated meta data | |
US20110218997A1 (en) | Method and system for browsing, searching and sharing of personal video by a non-parametric approach | |
US20120106925A1 (en) | Automatic static video summarization | |
US20130132393A1 (en) | Method and system for displaying activities of friends and computer storage medium therefor | |
US20210117471A1 (en) | Method and system for automatically generating a video from an online product representation | |
Yew et al. | Knowing funny: genre perception and categorization in social video sharing | |
US20150254342A1 (en) | Video dna (vdna) method and system for multi-dimensional content matching | |
US20170294213A1 (en) | Method for video investigation | |
US20150100582A1 (en) | Association of topic labels with digital content | |
Diepold et al. | MPEG-A: multimedia application formats | |
WO2014103374A1 (ja) | 情報管理装置、サーバ及び制御方法 | |
Nixon et al. | Multimodal video annotation for retrieval and discovery of newsworthy video in a news verification scenario | |
Yousefi et al. | Characterizing Multimedia Information Environment through Multi-modal Clustering of YouTube Videos | |
Tomobe et al. | Discussion ontology: knowledge discovery from human activities in meetings | |
US20150026147A1 (en) | Method and system for searches of digital content | |
Song et al. | PVCAIS: A personal videoconference archive indexing system | |
Vennelakanti et al. | The picture says it all! multimodal interactions and interaction metadata |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200416 Address after: Massachusetts, USA Applicant after: EMC IP Holding Company LLC Address before: Massachusetts, USA Applicant before: EMC Corp. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |