CN112528053A - 多媒体库分类检索管理系统 - Google Patents

多媒体库分类检索管理系统 Download PDF

Info

Publication number
CN112528053A
CN112528053A CN202011535846.7A CN202011535846A CN112528053A CN 112528053 A CN112528053 A CN 112528053A CN 202011535846 A CN202011535846 A CN 202011535846A CN 112528053 A CN112528053 A CN 112528053A
Authority
CN
China
Prior art keywords
multimedia library
multimedia
information
user
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011535846.7A
Other languages
English (en)
Inventor
黄耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics China R&D Center, Samsung Electronics Co Ltd filed Critical Samsung Electronics China R&D Center
Priority to CN202011535846.7A priority Critical patent/CN112528053A/zh
Publication of CN112528053A publication Critical patent/CN112528053A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种多媒体库分类检索管理系统。所述多媒体库分类检索管理系统包括:素材信息收集模块,被配置为收集加入多媒体库的素材的信息;素材特征提取模块,被配置为提取加入多媒体库的素材的特征;特征抽象模块,被配置为从所提取的特征获取特征值;深度学习模块,被配置为基于所获取的特征值产生与素材对应的标签;分类存储模块,被配置为对所产生的标签进行归类并与所收集的素材信息一起存储在多媒体库中。所述多媒体库分类检索管理系统对多媒体素材文件进行高效的管理,并且方便用户通过语音、图片、文字等搜索途径更快找到需要的素材文件。

Description

多媒体库分类检索管理系统
技术领域
本公开涉及多媒体库分类检索管理系统。
背景技术
现有技术涉及:对图片进行处理,包括提取图片的特征,对图片特征进行分类,得到清晰度标签以及对应的置信度,最终提升图片清晰度的准确性,但不涉及对图片的检索;对视频进行处理,包括提取目标属性信息,进而获得对应的目标多媒体信息以及目标动画模型,并播放目标多媒体信息,当目标多媒体信息播放到目标时间段时,在目标多媒体信息中渲染目标动画模型中与目标时间段对应的目标动画信息,同样不涉及检索。
发明内容
本发明的一个方面在于提供一种多媒体库分类检索管理系统,对多媒体素材文件进行高效的管理,并且方便用户通过语音、图片、文字等搜索途径更快找到需要的多媒体文件。
在一个总的方面,提供一种多媒体库分类检索管理系统,所述多媒体库分类检索管理系统包括:素材信息收集模块,被配置为收集加入多媒体库的素材的信息;素材特征提取模块,被配置为提取加入多媒体库的素材的特征;特征抽象模块,被配置为从所提取的特征获取特征值;深度学习模块,被配置为基于所获取的特征值产生与素材对应的标签;分类存储模块,被配置为对所产生的标签进行归类并与所收集的素材信息一起存储在多媒体库中。
可选地,加入多媒体库的素材的信息包括素材属性信息和素材内容信息。
可选地,素材属性信息包括大小、名称、素材产生时间、素材加入多媒体库的时间,素材内容信息包括文字、图片、音频。
可选地,所述多媒体库分类检索管理系统还包括:素材检索模块,被配置为对用户输入的信息进行识别并提取素材标签和素材信息,并基于所提取的素材标签和素材信息从多媒体库中检索对应的素材。
可选地,用户输入的信息包括语音、文字或图片。
可选地,所述多媒体库分类检索管理系统还包括:用户画像分析模块,被配置为基于为多媒体库中的用户个人素材所产生的标签形成用户画像,并将用户画像提供给智能服务系统。
可选地,基于为多媒体库中的用户个人素材所产生的标签形成用户画像的步骤包括:对用户个人素材的标签进行分析,以得到用户的年龄、职业、喜好、生活习惯。
可选地,智能服务系统包括智能推荐系统和智能提醒系统。
可选地,加入多媒体库的素材为文档,文档中的文字和图片被分离并分别产生对应的标签。
可选地,加入多媒体库的素材为图片或音视频,其中,视频包括音频部分和图像部分,音频部分通过语音识别技术转变为文字,图像部分包括图片。
可选地,文字中的关键字和摘要被作为特征值并作为标签。
可选地,对图片中的元素进行建模识别,并从识别出的元素获取特征图像作为特征值并作为标签。
在另一总的方面,提供一种多媒体库分类检索管理方法,其特征在于,所述多媒体库分类检索管理方法包括:收集加入多媒体库的素材的信息;提取加入多媒体库的素材的特征;从所提取的特征获取特征值;基于所获取的特征值产生与素材对应的标签;对所产生的标签进行归类并与所收集的素材信息一起存储在多媒体库中。
在另一总的方面,提供一种存储有计算机程序的计算机可读存储介质,当所述计算机程序被处理器执行时实现如上所述的多媒体库分类检索管理方法。
根据本发明的示例性实施例的多媒体库分类检索管理系统对多媒体素材文件进行高效的管理,并且方便用户通过语音、图片、文字等搜索途径更快找到需要的素材文件,并依据用户的多媒体素材库,做用户画像,以提供更多智能服务。
将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本公开总体构思的实施而得知。
附图说明
通过下面结合示例性地示出实施例的附图进行的描述,本公开的示例性实施例的上述和其他目的和特点将会变得更加清楚,其中:
图1是多媒体库分类检索管理系统的组成框图;
图2示出了将文档中文字内容和图片内容分离的示意图;
图3示出了对文字内容进行特征提取的示意图;
图4示出了对音视频进行处理以提取特征并产生标签的示意图;
图5示出了对图片进行处理以提取特征并产生标签的示意图;
图6示出了对各种素材产生标签的分析算法的总览图;
图7示出了用户通过输入信息在多媒体库中进行检索的示意图;
图8示出了根据用户个人的标签形成用户画像的示意图;
图9至图11示出了用户通过输入语音和文字从多媒体库搜索素材的实施例;
图12示出了对用户的个人多媒体库的标签化分析;
图13示出了多媒体库分类检索管理方法的流程图。
具体实施方式
提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,在理解本申请的公开之后,在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如,在此描述的操作的顺序仅是示例,并且不限于在此阐述的那些顺序,而是除了必须以特定的顺序发生的操作之外,可如在理解本申请的公开之后将是清楚的那样被改变。此外,为了更加清楚和简明,本领域已知的特征的描述可被省略。
在此描述的特征可以以不同的形式来实现,而不应被解释为限于在此描述的示例。相反,已提供在此描述的示例,以仅示出实现在此描述的方法、设备和/或系统的许多可行方式中的一些可行方式,所述许多可行方式在理解本申请的公开之后将是清楚的。
如在此使用的,术语“和/或”包括相关联的所列项中的任何一个以及任何两个或更多个的任何组合。
尽管在此可使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或部分,但是这些构件、组件、区域、层或部分不应被这些术语所限制。相反,这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分进行区分。因此,在不脱离示例的教导的情况下,在此描述的示例中所称的第一构件、第一组件、第一区域、第一层或第一部分也可被称为第二构件、第二组件、第二区域、第二层或第二部分。
在说明书中,当元件(诸如,层、区域或基底)被描述为“在”另一元件上、“连接到”或“结合到”另一元件时,该元件可直接“在”另一元件上、直接“连接到”或“结合到”另一元件,或者可存在介于其间的一个或多个其他元件。相反,当元件被描述为“直接在”另一元件上、“直接连接到”或“直接结合到”另一元件时,可不存在介于其间的其他元件。
在此使用的术语仅用于描述各种示例,并不将用于限制公开。除非上下文另外清楚地指示,否则单数形式也意在包括复数形式。术语“包含”、“包括”和“具有”说明存在叙述的特征、数量、操作、构件、元件和/或它们的组合,但不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。
除非另有定义,否则在此使用的所有术语(包括技术术语和科学术语)具有与由本公开所属领域的普通技术人员在理解本公开之后通常理解的含义相同的含义。除非在此明确地如此定义,否则术语(诸如,在通用词典中定义的术语)应被解释为具有与它们在相关领域的上下文和本公开中的含义一致的含义,并且不应被理想化或过于形式化地解释。
此外,在示例的描述中,当认为公知的相关结构或功能的详细描述将引起对本公开的模糊解释时,将省略这样的详细描述。
在下文中,将参照附图详细描述实施例。然而,实施例可以以各种形式实现,并且不限于在此描述的示例。在本发明中,词语“多媒体库”、“多媒体数据库”、“多媒体素材库”应理解为基本相同的含义,即均为包含各种多媒体数据文件的数据库,类似地,词语“素材”、“文件”、“素材文件”、“文件素材”应理解为基本相同的含义,即均为将存储在多媒体库中的数据文件。
如图1所示,本发明提出了一种多媒体库分类检索管理系统,包括素材信息收集模块、素材特征提取模块、特征抽象模块、深度学习模块、分类存储模块、素材检索模块、用户画像分析模块。
其中,素材包括各种形式的文件素材,例如但不限于文档、音频、视频、图片等。素材信息收集模块被配置为收集加入多媒体库的素材的信息,素材信息包括素材属性信息和素材内容信息,素材属性信息包括例如但不限于素材的大小、名称、素材产生时间、素材加入多媒体库的时间、GPS位置等,素材内容信息包括文字、图片、音频,即素材所包括的数据类型,例如当素材为文档时,文档可能包括文字部分和图片部分,则文档的内容信息可以包括文字和图片二者;当素材为音频时,音频的内容信息为音频;当素材为图片时,图片的内容信息为图片;当素材为视频时,视频包括音频部分和图像部分,图像部分包括多个视频帧或者图像帧(即多帧图片),此时,视频的内容信息可以包括音频和图片二者。
素材特征提取模块被配置为提取加入多媒体库的素材的特征,对不同的素材类型使用合适的提取方式,收集信息或者进行数据转换以进行有效提取,例如,例如当素材为文档时,文档可能包括文字部分和图片部分,则提取文档中的文字和图片二者作为特征;当素材为音频时,使用语音识别技术将音频转变为文字,并提取文字作为特征;当素材为图片时,提取图片中的特定图像作为特征;当素材为视频时,使用语音识别技术将音频部分转变为文字,并提取文字作为特征,同时提取图片中的特定图像作为特征。
特征抽象模块被配置为从所提取的特征获取特征值,例如使用卷积神经网络对所提取的特征信息进行甄别并提取特征值;深度学习模块被配置为基于所获取的特征值产生与素材对应的标签,例如对素材进行深度学习,依据特征值识别并生成相应的标签。例如当素材为文档、音频、图片或者视频时,所提取的特征包括文字和图片中的一者或两者,针对文字特征,可以从文字内容中提取关键字和摘要作为特征值和标签,针对图片特征,可以对图片中的元素进行建模识别,并从识别出的元素获取特征图像作为特征值和标签。根据本示例性实施例,深度学习模块可通过各种深度学习网络来实现。
分类存储模块被配置为对所产生的标签进行归类并与所收集的素材信息一起存储在多媒体库中,由此,素材加入到多媒体库中,并且素材的信息以及相应的标签同样存储在多媒体库中。通过素材信息收集模块、素材特征提取模块、特征抽象模块、深度学习模块、分类存储模块完成了多媒体库对加入的各种素材的有效分类和管理,便于后续的素材检索。
如上所述,多媒体库分类检索管理系统还包括素材检索模块,用于检索多媒体库中的素材。素材检索模块被配置为对用户输入的信息进行识别并提取素材标签和素材信息,并基于所提取的素材标签和素材信息从多媒体库中检索对应的素材,用户输入的信息可以包括语音、文字或图片。如图7所示,当用户需要在多媒体库中检索需要的素材时,可以通过输入语音、文字或者图片到素材检索模块,素材检索模块通过已有的神经网络模型对输入的信息进行识别,得到相应的素材标签和素材信息,并依据素材标签和素材信息在多媒体库中检索与素材标签和素材信息对应的素材,并将得到的检索结果显示供用户选择。
如上所述,多媒体库分类检索管理系统还包括用户画像分析模块,被配置为基于为多媒体库中的用户个人素材所产生的标签形成用户画像,并将用户画像提供给智能服务系统。值得注意的是,多媒体库可以存储各种多媒体素材,包括用户个人的素材从而形成用户个人的多媒体库,用户个人素材是指与用户个人有关的各种文件,包括例如但不限于用户个人的证件(例如身份证、护照、驾驶证、社保卡、律师证、工程师证以及其他资格证等)、文件资料(例如签署的购房合同、工作合同、商业合同等)、生活类记录(例如网页浏览历史、网上购物历史、点餐记录、运动记录、逛街历史记录、出行路线、目的地、酒店入住以及拍摄的照片和视频、参加的各种活动等)。如图8所示,对用户个人多媒体素材分析而生成标签库,标签库包括用户个人多媒体素材的各种标签,识别标签即是基于特征值获得的标签,属性标签包含素材的属性信息,根据这些标签做数据发掘与分析,使用归一化的方法将繁杂的标签聚合成该用户的画像,如用户年龄、职业、喜好、生活习惯等,并将画像提供给其他智能服务系统,如智能推荐系统和智能提醒系统等,然后智能服务系统可以根据用户画像主动为用户推荐个性化的相关服务(例如,基于位置的服务,LBS(Location BasedService))。当然,多媒体库不仅可以用作用户个人的多媒体库,也可以用作公共数据库,例如可以用作以家庭、公司、社区为单位的多媒体库,在保证安全性的前提下为用户服务,并且不仅可以在本地存储和检索,也可以使用云端存储和检索。
图2和图3是对文档进行处理以提取特征并产生标签的示意图,其中,对于多媒体素材为文档的处理,需要考虑文档的特点,如果文档中包含图片等内容,则需要对文档中文字内容和图片内容进行分离,分别进行处理,提取相应的标签并关联到该文章的标签库中。对于文字部分的处理,在进行特征提取时,使用局部注意力层与卷积神经网络作为特征提取器,在编解码部分使用门控制单元,并在二者之间使用全局注意力机制,由此文字中的关键字和摘要被作为特征值并作为标签。主体机构包括五层:词向量嵌入层,使用word2vec训练文本得到词的向量表示;局部注意力层,给与不同词以权重,得到加权词向量;卷积层,补全文本以符合N-gram语言模型,输入到CNN中,通过不同的卷积核学习不同长度的特征,得到文本的高层次特征;编码层,将高层次特征输入给门循环单元(GRU)进行编码;具有注意力机制的解码层:将上层数据依据注意力机制生成关键字和摘要进而生成标签,并将标签连同文档信息存储到相应的数据库中。对于图片内容的处理将在下文描述。
图4是对音视频进行处理以提取特征并产生标签的示意图,其中视频包括音频部分和图像部分,将对音频部分和图像部分进行分别处理,例如如果音频部分包括人声部分和环境声音(如火车声音、汽车鸣笛声音等),则使用语音识别技术,将人声部分的语音转变为文字,将环境声音转变为环境描述性文字,并将转变后的文字与视频的时间戳进行对应,方便用户检索调取。对分离识别出来的文字部分使用上述文档的文字部分的处理,提取出关键字和摘要作为标签。对于音频文件的处理,采用与视频中音频部分的处理一样的方式,提取出关键字和摘要作为标签,并将其加入到系统库中。
对于视频的图像部分,先将视频帧数量进行压缩去重,即对于原视频中的每一帧,计算该帧与前一帧图片的相似度。例如,将图片X1和X2输入到Siamese CNN网络中的两个模型中,输出两个向量。如果两个模型输出的一维向量的欧式距离较小,表示图片X1和X2的相似度高;如果两个模型输出的一维向量的欧式距离较大,表示图片X1和X2的相似度低。当相似度达到预定的阀值时,则将该帧合并到前一帧所属的镜头中,如此可以将视频帧进行归类以大幅压缩视频帧数量,对每个镜头的关键帧采样,使用MSER(最大稳定值检测)-SIFT(尺寸不变特征变换)得到该镜头的一些特征点。得到的视频帧再使用下面描述的图片处理技术,将图片中出现的每个元素(例如物品和人物)进行详细建模识别,并从识别出的元素提取出特征图像作为标签,即该识别出的图片元素作为特征值和标签,同时与视频的时间戳进行对应,以方便后续检索。
图5是对图片进行处理以提取特征并产生标签的示意图,对于多媒体素材中的图片,先通过计算机视觉语义分割技术,对图片中事物进行有效分割,使出现在图片中的元素(例如物品和人物)尽可能多的被分割出来,并对分割出来的元素使用神经网络识别,再结合元素属性(如形状、大小、颜色、品牌、人物识别等)生成详细的标签群,即将图片中的元素识别为特征图像并作为特征值和标签。
图6是对各种素材产生标签的分析算法的总览图。如上所述,对于各种类型的素材(包括文档、音频、图片和视频)的处理,最终均以文字和/或图片作为最小单元进行特征提取,并从这些特征获取特征值和标签,其中,文字中的关键字和摘要被作为标签,图片中的特征图像作为标签,如此进行处理提供了批量文件管理功能,可以使各种类型素材的分类更加简单和高效,必然也使得素材检索更加便捷。
下面结合具体实施例对本发明进行进一步的描述说明。以下实施例以用户个人素材为例进行描述,同时多媒体库分类检索管理系统应用于个人设备(包括各种移动设备和终端,例如智能手机、平板、智能手表等),但这仅是示例,如上所述,本发明还包括各种类型的公共数据库,而且多媒体库分类检索管理系统可以以各种其他形式实现,例如个人私有云等,使得保证信息的安全性,同时保证信息检索获取的便捷性,或者可以以远程数据库、远端服务器等形式实现。
图9至图11示出了用户通过输入语音和文字等从多媒体库搜索素材的示例,其中,多媒体库已经如上所述通过相应模块和方法完成了对各种素材的分类和存储,具体步骤不再详述。图9中用户通过向多媒体库分类检索管理系统输入语音或文字,请求从中搜索用户的护照照片,多媒体库分类检索管理系统的素材检索模块对该请求语句进行识别并从提取出关键字和摘要“护照”、“照片”作为素材标签、提取出“图片”作为素材内容信息,并据此从多媒体库中搜索素材标签为“护照”、素材内容信息为“图片”的素材并将搜索结果呈现给用户。图10中用户通过向多媒体库分类检索管理系统输入图片、在图片中圈定风车的图像,并通过语音或文字请求从中搜索用户与图片中圈定的图像的合影照片和视频,多媒体库分类检索管理系统的素材检索模块对用户输入的图片进行识别,并从中提取图像特征“风车”作为素材标签,同时对用户的请求语句进行识别并从提取出关键字和摘要“风车”作为素材标签、提取出“图片”和“音频”作为素材内容信息,并据此从多媒体库中搜索素材标签为“风车”、素材内容信息为“图片”和“音频”的素材并将搜索结果呈现给用户。图11中用户通过向多媒体库分类检索管理系统输入模糊的语音或文字,请求从中搜索用户去年与A公司签署的项目合同,多媒体库分类检索管理系统的素材检索模块对该请求语句进行分析和识别,认为用户想要搜索相关的文档、照片和视频,并从中提取出关键字和摘要“A公司”、“合同”作为素材标签,并将“图片”、“文字”和“音频”作为素材内容信息,将“去年”作为素材属性信息,并据此从多媒体库中搜索素材标签为“A公司”、“合同”、素材内容信息为“图片”、“文字”和“音频”、素材属性信息为“去年”的素材并将搜索结果呈现给用户。
图12出了对用户的个人多媒体库的标签化分析。用户画像分析模块基于为多媒体库中的用户个人素材所产生的标签形成用户画像,如用户年龄、职业、喜好、生活习惯等,例如通过对标签的聚合,描述了用户的特点,例如用户为喜欢粤菜、喜欢游山玩水,是美食达人和旅游达人,职业为工程师,性格类似为男宝妈,然后将用户画像服务推荐给更多的智能服务系统,例如个性化推荐系统,LBS(Location Based Service)等。智能服务系统根据用户画像为用户推荐相关的服务,例如用户喜欢的美食店、旅游景点、相关职业的培训会和研讨会等,从而使得个性化推荐更加精准。
图13示出了多媒体库分类检索管理方法的流程图。所述方法包括:收集加入多媒体库的素材的信息;提取加入多媒体库的素材的特征;从所提取的特征获取特征值;基于所获取的特征值产生与素材对应的标签;对所产生的标签进行归类并与所收集的素材信息一起存储在多媒体库中。所述方法还包括:对用户输入的信息进行识别并提取素材标签和素材信息,并基于所提取的素材标签和素材信息从多媒体库中检索对应的素材;基于为多媒体库中的用户个人素材所产生的标签形成用户画像,并将用户画像提供给智能服务系统。其中,基于为多媒体库中的用户个人素材所产生的标签形成用户画像的步骤包括:对用户个人素材的标签进行分析,以得到用户的年龄、职业、喜好、生活习惯。
此外,根据本公开的示例性实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被执行时,实现根据本公开的多媒体库分类检索管理方法。
计算机可读存储介质例如可以是,但不限于,电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储计算机程序的有形介质,该计算机程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读存储介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。计算机可读存储介质可以包含在任意装置中;也可以单独存在,而未装配入该装置中。
如上所述,根据本公开的示例性实施例的多媒体库分类检索管理系统对多媒体素材文件进行高效的管理,并且方便用户通过语音、图片、文字等搜索途径更快找到需要的素材文件,并依据用户的多媒体素材库,做用户画像,以提供更多智能服务(如智能推荐、智能提醒等)。
虽然已表示和描述了本公开的一些示例性实施例,但本领域技术人员应该理解,在不脱离由权利要求及其等同物限定其范围的本公开的原理和精神的情况下,可以对这些实施例进行修改。

Claims (14)

1.一种多媒体库分类检索管理系统,其特征在于,所述多媒体库分类检索管理系统包括:
素材信息收集模块,被配置为收集加入多媒体库的素材的信息;
素材特征提取模块,被配置为提取加入多媒体库的素材的特征;
特征抽象模块,被配置为从所提取的特征获取特征值;
深度学习模块,被配置为基于所获取的特征值产生与素材对应的标签;
分类存储模块,被配置为对所产生的标签进行归类并与所收集的素材信息一起存储在多媒体库中。
2.根据权利要求1所述的多媒体库分类检索管理系统,其特征在于,加入多媒体库的素材的信息包括素材属性信息和素材内容信息。
3.根据权利要求2所述的多媒体库分类检索管理系统,其特征在于,素材属性信息包括大小、名称、素材产生时间、素材加入多媒体库的时间,素材内容信息包括文字、图片、音频。
4.根据权利要求3所述的多媒体库分类检索管理系统,其特征在于,所述多媒体库分类检索管理系统还包括:
素材检索模块,被配置为对用户输入的信息进行识别并提取素材标签和素材信息,并基于所提取的素材标签和素材信息从多媒体库中检索对应的素材。
5.根据权利要求4所述的多媒体库分类检索管理系统,其特征在于,用户输入的信息包括语音、文字或图片。
6.根据权利要求5所述的多媒体库分类检索管理系统,其特征在于,所述多媒体库分类检索管理系统还包括:
用户画像分析模块,被配置为基于为多媒体库中的用户个人素材所产生的标签形成用户画像,并将用户画像提供给智能服务系统。
7.根据权利要求6所述的多媒体库分类检索管理系统,其特征在于,基于为多媒体库中的用户个人素材所产生的标签形成用户画像的步骤包括:对用户个人素材的标签进行分析,以得到用户的年龄、职业、喜好、生活习惯。
8.根据权利要求7所述的多媒体库分类检索管理系统,其特征在于,智能服务系统包括智能推荐系统和智能提醒系统。
9.根据权利要求8所述的多媒体库分类检索管理系统,其特征在于,加入多媒体库的素材为文档,文档中的文字和图片被分离并分别产生对应的标签。
10.根据权利要求8所述的多媒体库分类检索管理系统,其特征在于,加入多媒体库的素材为图片或音视频,其中,视频包括音频部分和图像部分,音频部分通过语音识别技术转变为文字,图像部分包括图片。
11.根据权利要求9或10所述的多媒体库分类检索管理系统,其特征在于,文字中的关键字和摘要被作为特征值并作为标签。
12.根据权利要求9或10所述的多媒体库分类检索管理系统,其特征在于,对图片中的元素进行建模识别,并从识别出的元素获取特征图像作为特征值并作为标签。
13.一种多媒体库分类检索管理方法,其特征在于,所述多媒体库分类检索管理方法包括:
收集加入多媒体库的素材的信息;
提取加入多媒体库的素材的特征;
从所提取的特征获取特征值;
基于所获取的特征值产生与素材对应的标签;
对所产生的标签进行归类并与所收集的素材信息一起存储在多媒体库中。
14.一种存储有计算机程序的计算机可读存储介质,其中,当所述计算机程序被处理器执行时,实现如权利要求13所述的多媒体库分类检索管理方法。
CN202011535846.7A 2020-12-23 2020-12-23 多媒体库分类检索管理系统 Pending CN112528053A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011535846.7A CN112528053A (zh) 2020-12-23 2020-12-23 多媒体库分类检索管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011535846.7A CN112528053A (zh) 2020-12-23 2020-12-23 多媒体库分类检索管理系统

Publications (1)

Publication Number Publication Date
CN112528053A true CN112528053A (zh) 2021-03-19

Family

ID=74975810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011535846.7A Pending CN112528053A (zh) 2020-12-23 2020-12-23 多媒体库分类检索管理系统

Country Status (1)

Country Link
CN (1) CN112528053A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297509A (zh) * 2021-06-23 2021-08-24 中科迅(深圳)科技有限公司 一种基于互联网的文旅信息化产业化系统
CN113392245A (zh) * 2021-06-16 2021-09-14 南京大学 一种用于众测任务发布的文本摘要与图文检索生成方法
CN113434710A (zh) * 2021-06-29 2021-09-24 平安普惠企业管理有限公司 文档检索方法、装置、服务器以及存储介质
CN113507613A (zh) * 2021-06-07 2021-10-15 茂名市群英网络有限公司 基于cdn的视频录入调度系统及方法
CN114003739A (zh) * 2021-10-29 2022-02-01 北京达佳互联信息技术有限公司 一种多媒体资源的处理方法及装置
CN114138988A (zh) * 2021-11-10 2022-03-04 山东寻声网络科技有限公司 基于Hadoop的大数据快速检索系统及方法
CN115587216A (zh) * 2022-12-13 2023-01-10 广州电力工程监理有限公司 一种监理见证记录仪的标定软件管理方法、系统和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207966A (zh) * 2011-06-01 2011-10-05 华南理工大学 基于对象标签的视频内容快速检索方法
CN104331476A (zh) * 2014-11-04 2015-02-04 周艳 内容交易领域的实时内容推荐方法
CN107766571A (zh) * 2017-11-08 2018-03-06 北京大学 一种多媒体资源的检索方法和装置
CN110990563A (zh) * 2019-11-18 2020-04-10 北京信息科技大学 一种基于人工智能的传统文化素材库构建方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207966A (zh) * 2011-06-01 2011-10-05 华南理工大学 基于对象标签的视频内容快速检索方法
CN104331476A (zh) * 2014-11-04 2015-02-04 周艳 内容交易领域的实时内容推荐方法
CN107766571A (zh) * 2017-11-08 2018-03-06 北京大学 一种多媒体资源的检索方法和装置
CN110990563A (zh) * 2019-11-18 2020-04-10 北京信息科技大学 一种基于人工智能的传统文化素材库构建方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113507613A (zh) * 2021-06-07 2021-10-15 茂名市群英网络有限公司 基于cdn的视频录入调度系统及方法
CN113392245A (zh) * 2021-06-16 2021-09-14 南京大学 一种用于众测任务发布的文本摘要与图文检索生成方法
CN113392245B (zh) * 2021-06-16 2023-12-26 南京大学 一种用于众测任务发布的文本摘要与图文检索生成方法
CN113297509A (zh) * 2021-06-23 2021-08-24 中科迅(深圳)科技有限公司 一种基于互联网的文旅信息化产业化系统
CN113434710A (zh) * 2021-06-29 2021-09-24 平安普惠企业管理有限公司 文档检索方法、装置、服务器以及存储介质
CN114003739A (zh) * 2021-10-29 2022-02-01 北京达佳互联信息技术有限公司 一种多媒体资源的处理方法及装置
CN114138988A (zh) * 2021-11-10 2022-03-04 山东寻声网络科技有限公司 基于Hadoop的大数据快速检索系统及方法
CN115587216A (zh) * 2022-12-13 2023-01-10 广州电力工程监理有限公司 一种监理见证记录仪的标定软件管理方法、系统和介质
CN115587216B (zh) * 2022-12-13 2023-08-22 广州电力工程监理有限公司 一种监理见证记录仪的标定软件管理方法、系统和介质

Similar Documents

Publication Publication Date Title
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
CN112528053A (zh) 多媒体库分类检索管理系统
CN109117777B (zh) 生成信息的方法和装置
Kaur et al. Comparative analysis on cross-modal information retrieval: A review
CN112163122B (zh) 确定目标视频的标签的方法、装置、计算设备及存储介质
US7707162B2 (en) Method and apparatus for classifying multimedia artifacts using ontology selection and semantic classification
CN113010703B (zh) 一种信息推荐方法、装置、电子设备和存储介质
CN109871464B (zh) 一种基于ucl语义标引的视频推荐方法与装置
CN114201621A (zh) 基于图文协同注意力的跨模态检索模型构建及检索方法
CN109492168B (zh) 一种基于旅游照片的可视化旅游兴趣推荐信息生成方法
CN113806588A (zh) 搜索视频的方法和装置
CN112015928A (zh) 多媒体资源的信息提取方法、装置、电子设备及存储介质
Maybury Multimedia information extraction: Advances in video, audio, and imagery analysis for search, data mining, surveillance and authoring
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
Glavan et al. InstaIndoor and multi-modal deep learning for indoor scene recognition
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
CN113076476B (zh) 一种微博异构信息的用户画像构建方法
Nie et al. Cross-domain semantic transfer from large-scale social media
CN113407778A (zh) 标签识别方法及装置
Huang et al. Placepedia: Comprehensive place understanding with multi-faceted annotations
Poornima et al. Multi-modal features and correlation incorporated Naive Bayes classifier for a semantic-enriched lecture video retrieval system
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
Trzcinski Multimodal social media video classification with deep neural networks
CN116977992A (zh) 文本信息识别方法、装置、计算机设备和存储介质
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210319