CN111353055A - 基于智能标签扩展元数据的编目方法及系统 - Google Patents
基于智能标签扩展元数据的编目方法及系统 Download PDFInfo
- Publication number
- CN111353055A CN111353055A CN202010136163.8A CN202010136163A CN111353055A CN 111353055 A CN111353055 A CN 111353055A CN 202010136163 A CN202010136163 A CN 202010136163A CN 111353055 A CN111353055 A CN 111353055A
- Authority
- CN
- China
- Prior art keywords
- resource
- metadata
- level
- media resource
- media
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种基于智能标签扩展元数据的编目方法及系统,所述方法包括:根据媒体资源的文本信息,从预设的标签库中确定出所述媒体资源的资源标签;根据所述资源标签,对所述媒体资源的第一元数据进行扩展,确定所述媒体资源的第二元数据,所述第一元数据包括所述媒体资源的标识及类别信息。本公开的实施例可以在媒体资源的第一元数据中增加个性化的资源标签,得到多维度的第二元数据,可提高媒体资源的第二元数据的准确性。
Description
技术领域
本公开涉及信息处理技术领域,尤其涉及一种基于智能标签扩展元数据的编目方法及系统。
背景技术
媒体资源管理(Media Asset Management,MAM)系统是建立在多媒体、网络、数据库和数字存储等先进技术基础上的一个对各种媒体及内容(如视/音频资料、文本文件、图表等)进行数字化存储、管理以及应用的总体解决方案,包括数字媒体的采集、编目、管理、传输和编码转换等所有环节,其主要是满足媒体资源拥有者收集、保存、查找、编辑、发布各种信息的要求,为媒体资源的使用者提供访问内容的便捷方法,实现对媒体资源的高效管理,大幅度提高媒体资源的价值。
媒体资源管理系统中的编目系统,用于制作媒体资源的分类标签,以便将媒体资源进行合理的分类编排及存储。
传统的编目系统专业性较强,一般由专业工作人员负责上传标签,并将审核过的媒体资源分类到指定的标签下,这种编目方式符合传统的检索思路,适用于电视台、广播电台等传统媒体平台的工作人员。但是在自媒体时代,媒体资源越来越个性化,传统的编目系统难以体现个性化特征,而且,随着检索方式向个性化及潮流化方向发展,传统的编目系统的检索准确性较差,给用户带来了极大不便。
发明内容
有鉴于此,本公开提出了一种基于智能标签扩展元数据的编目方法及系统。
根据本公开的一方面,提供了一种基于智能标签扩展元数据的编目方法,所述方法包括:
根据媒体资源的文本信息,从预设的标签库中确定出所述媒体资源的资源标签;
根据所述资源标签,对所述媒体资源的第一元数据进行扩展,确定所述媒体资源的第二元数据,所述第一元数据包括所述媒体资源的标识及类别信息。
在一种可能的实现方式中,所述媒体资源的类别信息包括N级类别信息,N为大于或等于2的整数,
根据所述资源标签,对所述媒体资源的第一元数据进行扩展,确定所述媒体资源的第二元数据,包括:
对于所述资源标签中的任一资源标签,确定所述资源标签与所述媒体资源的第一级类别信息之间的第一级相似度;
在所述第一级相似度大于或等于预设的第一级相似度阈值的情况下,确定所述资源标签与所述媒体资源的第二级类别信息之间的第二级相似度;
在第i-1级相似度大于或等于预设的第i-1级相似度阈值的情况下,确定所述资源标签与所述媒体资源的第i级类别信息之间的第i级相似度,其中,i为整数且2≤i≤N;
在所述第i级相似度小于预设的第i级相似度阈值的情况下,根据前i-1级类别信息及所述资源标签,确定待更新类别信息;
根据所述媒体资源的第一元数据中类别信息之外的其他信息及所述待更新类别信息,确定所述媒体资源的第二元数据。
在一种可能的实现方式中,根据所述资源标签,对所述媒体资源的第一元数据进行扩展,确定所述媒体资源的第二元数据,还包括:
在所述第一级相似度小于所述第一级相似度阈值的情况下,丢弃所述资源标签。
在一种可能的实现方式中,根据所述资源标签,对所述媒体资源的第一元数据进行扩展,确定所述媒体资源的第二元数据,还包括:
在第N级相似度大于或等于预设的第N级相似度阈值的情况下,丢弃所述资源标签。
在一种可能的实现方式中,第i-1级相似度阈值小于第i级相似度阈值。
在一种可能的实现方式中,所述方法还包括:
根据所述媒体资源的第二元数据,对用户输入的检索信息进行匹配,确定检索结果。
在一种可能的实现方式中,所述方法还包括:
根据预设时段内的检索信息,确定检索关键词及所述检索关键词的词频;
将词频大于或等于词频阈值的检索关键词,确定为待更新标签;
将所述待更新标签添加至所述标签库中。
在一种可能的实现方式中,根据媒体资源的文本信息,从预设的标签库中确定出所述媒体资源的资源标签,包括:
获取所述媒体资源的文本信息,所述文本信息包括声音文本、图像文本及图像主体文本中的至少一种;
提取所述文本信息中的关键词;
确定所述关键词与标签库中各个标签之间的第一相似度;
确定第一相似度中大于或等于第一相似度阈值的第二相似度;
将与所述第二相似度对应的标签,确定为所述媒体资源的资源标签。
在一种可能的实现方式中,所述方法还包括:
根据所述媒体资源的第二元数据中的类别信息,对所述第二元数据进行分类存储。
根据本公开的另一方面,提供了一种基于智能标签扩展元数据的编目系统,其特征在于,所述系统包括:
资源标签确定模块,用于根据媒体资源的文本信息,从预设的标签库中确定出所述媒体资源的资源标签;
元数据扩展模块,用于根据所述资源标签,对所述媒体资源的第一元数据进行扩展,确定所述媒体资源的第二元数据,所述第一元数据包括所述媒体资源的标识及类别信息。
根据本公开的实施例,能够根据媒体资源的文本信息,从预设的标签库中确定媒体资源的资源标签,并根据该资源标签,对媒体资源的第一元数据进行扩展,确定出媒体资源的第二元数据,从而可以在媒体资源的第一元数据(即传统的编目信息)中增加个性化的资源标签,得到多维度的第二元数据,进而可提高媒体资源的第二元数据的准确性。基于媒体资源的第二元数据进行检索匹配,可提高检索的准确性。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开的实施例的基于智能标签扩展元数据的编目方法的流程图。
图2示出根据本公开的实施例的基于智能标签扩展元数据的编目方法的应用场景的示意图。
图3示出根据本公开的实施例的基于智能标签扩展元数据的编目系统的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
图1示出根据本公开的实施例的基于智能标签扩展元数据的编目方法的流程图。如图1所示,所述方法包括:
步骤S11,根据媒体资源的文本信息,从预设的标签库中确定出所述媒体资源的资源标签;
步骤S12,根据所述资源标签,对所述媒体资源的第一元数据进行扩展,确定所述媒体资源的第二元数据,所述第一元数据包括所述媒体资源的标识及类别信息。
根据本公开的实施例,能够根据媒体资源的文本信息,从预设的标签库中确定媒体资源的资源标签,并根据该资源标签,对媒体资源的第一元数据进行扩展,确定出媒体资源的第二元数据,从而可以在媒体资源的第一元数据(即传统的编目信息)中增加个性化的资源标签,得到多维度的第二元数据,进而可提高媒体资源的第二元数据的准确性。基于媒体资源的第二元数据进行检索匹配,可提高检索的准确性。
在一种可能的实现方式中,所述媒体资源可包括音频、视频、文本、图片等各种形式的资源/素材,本公开对媒体资源的具体形式及内容不作限制。
在一种可能的实现方式中,媒体资源的文本信息可包括从媒体资源中提取到的各类文本信息。例如,文本信息可以是与音频资源对应的文本信息;可以是与视频资源的声音对应的文本信息;还可以是从视频资源的视频帧中识别出的文本信息、从图片中识别出的文本信息等。本公开对媒体资源的文本信息的具体内容不作限制。
在一种可能的实现方式中,媒体资源的第一元数据可以是使用传统的编目系统确定的媒体资源的编目信息,可包括媒体资源的标识及类别信息。其中,媒体资源的标识可用于对媒体资源进行识别,具有唯一性,可以是媒体资源的名称、编号等,本公开对此不作限制。媒体资源的类别信息可以是媒体资源进行编目后所属的类别,可包括一级或多级类别。
在一种可能的实现方式中,媒体资源的第一元数据还可包括其他信息,例如,第一元数据还可包括:媒体资源的标题、节目类型、节目名、期次、节目代码、首播时间、所属中心、所属栏目、播出频道、关键词、描述、入库时间、入库者、存储状态、版权、密级、分类、珍贵、来源、视频格式、音频格式、条码、带架位置等。本公开对第一元数据的具体内容不做限制。
在一种可能的实现方式中,对媒体资源进行编目时,使用的编目系统不同,媒体资源的第一元数据可能不同。
在一种可能的实现方式中,可以在步骤S11中,根据媒体资源的文本信息,从预设的标签库中确定出媒体资源的资源标签。
其中,预设的标签库中可包括多个标签,标签的种类可以不同。例如,标签库中可包括类型相关的标签、情感相关的标签、内容相关的标签等。本领域技术人员可以根据实际情况设置标签库中的具体标签,本公开对此不作限制。本公开对标签库中标签的数量也不作限制。
在一种可能的实现方式中,预设的标签库中也可包括传统的编目系统中的部分或全部标签。本公开对此不作限制。
在一种可能的实现方式中,对于待编目的媒体资源,可先确定其文本信息,然后根据文本信息,通过关键词提取、聚类、相似度比对等多种方式,从标签库中确定出媒体资源的一个或多个资源标签。本公开对确定资源标签的具体方式不作限制。
在一种可能的实现方式中,确定出媒体资源的资源标签后,可在步骤S12中,根据资源标签,对媒体资源的第一元数据进行扩展,确定媒体资源的第二元数据。例如,可根据媒体资源的资源标签与第一元数据的关联度或相似度,将资源标签添加到第一元数据中,形成媒体资源的第二元数据。
在一种可能的实现方式中,媒体资源的第二元数据可以为一个或多个。例如,可分别使用5个资源标签,对媒体资源的第一元数据进行扩展,从而可确定出该媒体资源的5个第二元数据。应当理解,本公开对媒体资源的第二元数据的数量不作限制。
在一种可能的实现方式中,步骤S11可包括:获取所述媒体资源的文本信息,所述文本信息包括声音文本、图像文本及图像主体文本中的至少一种;提取所述文本信息中的关键词;确定所述关键词与标签库中各个标签之间的第一相似度;确定第一相似度中大于或等于预设的第一相似度阈值的第二相似度;将与所述第二相似度对应的标签,确定为所述媒体资源的资源标签。
在一种可能的实现方式中,在确定媒体资源的资源标签时,可首先获取媒体资源的文本信息,其中,文本信息可包括声音文本、图像文本及图像主题文本中的至少一种。
在一种可能的实现方式中,声音文本可包括与音频资源对应的文字、与视频资源的声音对应的文字。可使用多种方式提取媒体资源的声音文本,例如,可采用语音采样算法提取媒体资源的声音文件,并识别出对应的文字信息。
在一种可能的实现方式中,图像文本可包括从视频资源的视频帧、图片等图像中提取的文字,包括字幕、弹幕等。可使用多种方式提取媒体资源的图像文本,例如,在提取视频资源中的图像文本时,可首先以预设的时间间隔或预设的帧间隔,提取视频资源中的视频帧,然后通过OCR(Optical Character Recognition,光学字符识别)提取视频帧中的文字,得到视频资源中的图像文本。也可以采用类似的方式提取图片中的文字,得到图片中的图像文本。
在一种可能的实现方式中,图像主体文本是指通过分析图像中的图像主体及场景得到的文本信息。其中,图像主体可以是图像主要表现的对象,例如图像中主要的人、物等,图像场景可以是图像表现的场面,例如劳动场景、工作场景等。本公开对图像主体及场景的具体内容不作限制。可通过多种方式获取图像主体文本,例如,可采用帧差法对视频资源进行处理,得到多个图像,然后通过图像特征识别等算法获取多个图像中主体及场景的文本信息。
应当理解,本领域技术人员可以根据实际情况,确定上述获取媒体资源的文本信息的具体方式,本公开对此不作限制。
在一种可能的实现方式中,获取媒体资源的文本信息后,可对文本信息进行分词、去掉无用词等处理,从文本信息中提取关键词,还可使用关键词提取工具(例如结巴分词)直接从文本信息中提取关键词。本公开对提取关键词的具体方式不作限制。
在一种可能的实现方式中,从文本信息中提取关键词后,可确定关键词与标签库中各个标签之间的第一相似度。例如,可使用Word2Vec模型(可用于词向量计算),分别将各个关键词及标签库中的各个标签转化为向量,然后根据各个关键词对应的向量以及标签库中的各个标签对应的向量,通过欧式距离、余弦相似度等方式,确定各个关键词与标签库中各个标签之间的第一相似度。应当理解,本公开对第一相似度的确定方式不作限制。
在一种可能的实现方式中,可将第一相似度与预设的第一相似度阈值进行比较,从第一相似度中,确定出大于或等于第一相似度阈值的第二相似度,并将与第二相似度对应的标签,确定为媒体资源的资源标签。
在本实施例中,通过获取媒体资源的文本信息,并提取文本信息中的关键词,确定出关键词与标签库中各个标签之间的第一相似度,然后从第一相似度中,确定出大于或等于第一相似度阈值的第二相似度,并将与第二相似度对应的标签,确定为媒体资源的资源标签,从而可以提高资源标签的准确性。
在一种可能的实现方式中,还可通过已训练的神经网络确定媒体资源的资源标签。可将媒体资源的文本信息及预设的标签库中的多个标签,输入神经网络进行特征提取、特征匹配等处理,得到媒体资源的资源标签。神经网络可以为卷积神经网络CNN、深度神经网络DNN等,本公开对神经网络的具体类型不做限制。
在一种可能的实现方式中,媒体资源的第一元数据中的类别信息,可包括N级类别信息,N为大于或等于2的整数。其中,第一级类别信息为最高类别信息,第二级类别信息为第一级类别信息的子类别,依次类推,此处不再赘述。
在一种可能的实现方式中,步骤S12可包括:
对于所述资源标签中的任一资源标签,确定所述资源标签与所述媒体资源的第一级类别信息之间的第一级相似度;
在所述第一级相似度大于或等于预设的第一级相似度阈值的情况下,确定所述资源标签与所述媒体资源的第二级类别信息之间的第二级相似度;
在第i-1级相似度大于或等于预设的第i-1级相似度阈值的情况下,确定所述资源标签与所述媒体资源的第i级类别信息之间的第i级相似度,其中,i为整数且2≤i≤N;
在所述第i级相似度小于预设的第i级相似度阈值的情况下,根据前i-1级类别信息及所述资源标签,确定待更新类别信息;
根据所述媒体资源的第一元数据中类别信息之外的其他信息及所述待更新类别信息,确定所述媒体资源的第二元数据。
在一种可能的实现方式中,对于媒体资源的资源标签中的任一资源标签,可首先确定该资源标签与媒体资源的第一级类别信息之间的第一级相似度。例如,可使用Word2Vec模型,分别将该资源标签及媒体资源的第一级类别信息转化为向量,然后通过余弦相似度,确定该资源标签对应的向量与第一级类别信息对应的向量之间的相似度,并将该相似度确定为该资源标签与第一级类别信息之间的第一级相似度。
在一种可能的实现方式中,确定第一级相似度后,可将第一级相似度与预设的第一级相似度阈值进行比较。在第一级相似度大于或等于第一级相似度阈值的情况下,可认为所述资源标签与第一级类别信息相似,无需更新第一级类别信息,可对其子类别即第二级类别信息进行判断。可通过余弦相似度,确定所述资源标签与媒体资源的第二级类别信息之间的第二级相似度。
在一种可能的实现方式中,确定第i-1级相似度后,可将第i-1级相似度与预设的第i-1级相似度阈值进行比较,其中,i为整数且2≤i≤N。在第i-1级相似度大于或等于预设的第i-1级相似度阈值的情况下,可通过余弦相似度,确定所述资源标签与媒体资源的第i级类别信息之间的第i级相似度。
在一种可能的实现方式中,在第i级相似度小于预设的第i级相似度阈值的情况下,可根据前i-1级类别信息及所述资源标签,确定待更新类别信息。也就是说,第i级相似度小于第i级相似度阈值时,可认为资源标签是第i-1级类别信息的一个新的子类别,可将所述资源标签确定为前i-1级类别信息的子类别,并将“前i-1级类别信息+资源标签”,确定为待更新类别信息。
在一种可能的实现方式中,确定待更新类别信息后,可根据媒体资源的第一元数据中类别信息之外的其他信息及待更新类别信息,确定媒体资源的第二元数据。也就是说,可使用待更新类别信息,替换第一元数据中的类别信息,得到媒体资源的第二元数据。
应当理解,本领域技术人员还可通过其他方式(例如欧式距离、皮尔逊相关系数等)确定第一级相似度及第i级相似度,本公开对此不作限制。
在本实施例中,根据媒体资源的资源标签与多级类别信息的相似度,确定待更新类别信息,并根据第一元数据中类别信息之外的其他信息及待更新类别信息,确定媒体资源的第二元数据,可提高媒体资源的第二元数据的准确性。通过这种方式,可以为基于传统编目架构的第一元数据添加个性化的资源标签,生成媒体资源的多维度的第二元数据。
在一种可能的实现方式中,步骤S12还可包括:在所述第一级相似度小于所述第一级相似度阈值的情况下,丢弃所述资源标签。也就是说,第一级相似度小于第一级相似度阈值时,可认为所述资源标签与第一级类别信息不相似,由于第一级类别信息为级别最高的类别信息,在该情况下,可丢弃该资源标签,以避免不相似的资源标签对第二元数据的影响。
在一种可能的实现方式中,步骤S12还可包括:在第N级相似度大于或等于预设的第N级相似度阈值的情况下,丢弃所述资源标签。也就是说,在第N级相似度大于或等于第N级相似度阈值时,可认为所述资源与第一元数据中的N级类别信息均相似,无需使用该资源标签对第一元数据进行扩展,可将所述资源标签丢弃。
在一种可能的实现方式中,第i-1级相似度阈值可小于第i级相似度阈值。媒体资源的第一元数据中的类别信息的级别越高,其覆盖范围越大,例如,第一级类别信息的覆盖范围比第二级类别信息的覆盖范围大,相应地,可为第一级相似度阈值设置比第二级相似度阈值小的数值。反之,第一元数据中的类别信息的级别越低,其覆盖范围越小,例如第五级类别信息的覆盖范围比第四级类别信息的覆盖范围小,可为第五级相似度阈值设置比第四级相似度阈值大的数值。通过这种方式,可提高各级相似度阈值的准确性。
在一种可能的实现方式中,由于媒体资源的第一元数据与资源标签的格式可能不同,在根据资源标签,对第一元数据进行扩展,确定第二元数据时,可使用大数据中的数据仓库技术。可通过ETL技术(Extract-Transform-Load,数据提取、整合、转换)将媒体资源的第一元数据及其资源标签,转入到数据仓库中,然后通过联机处理分析(On-LineAnalytical Processing,OLAP)技术,按照步骤S12,将第一元数据的多级类别信息与资源标签进行分析比对,对第一元数据进行扩展,确定出媒体资源的第二元数据。还可通过元数据管理技术,对第二元数据以及第二元数据与媒体资源之间的映射关系进行管理,使得第二元数据及媒体资源可以被正确使用。通过这种方式,可提高第二元数据的准确性及媒体资源检索的准确性。
下面对第二元数据的确定过程进行举例说明。
假设媒体资源M的资源标签包括4个,分别为标签1、标签2、标签3、标签4,媒体资源M的第一元数据中的类别信息包括3级类别信息,分别为第一级类别信息A、第二级类别信息B、第三级类别信息C。
对于标签1,可首先确定标签1与第一级类别信息A之间的第一级相似度R1A,并判断R1A与第一级相似度阈值RY1的关系;假设R1A大于RY1,则确定标签1与第二级类别信息B之间的第二级相似度R1B,并判断R1B与第二级相似度阈值RY2的关系;假设R1B大于RY2,则确定标签1与第三级类别信息C之间的第三级相似度R1C,并判断R1C与第三级相似度阈值RY3的关系;假设R1C大于RY3,则认为标签1与三级类别信息均相似,可丢弃标签1。
对于标签2,可首先确定标签2与第一级类别信息A之间的第一级相似度R2A,并判断R2A与第一级相似度阈值RY1的关系;假设R2A大于RY1,则确定标签2与第二级类别信息B之间的第二级相似度R2B,并判断R2B与第二级相似度阈值RY2的关系;假设R2B小于RY2,可认为标签2是第一级类别信息A的一个新的子类别,可将“第一级类别信息A+标签2”确定为待更新类别信息,并使用待更新类别信息“第一级类别信息A+标签2”,替换第一元数据中的类别信息,得到第二元数据,实现了使用标签2对第一元数据的扩展,确定出媒体资源M的第一个第二元数据。
对于标签3,可首先确定标签3与第一级类别信息A之间的第一级相似度R3A,并判断R3A与第一级相似度阈值RY1的关系;假设R3A小于RY1,可认为标签3与第一级类别信息A不相似,可丢弃标签3。
对于标签4,可首先确定标签4与第一级类别信息A之间的第一级相似度R4A,并判断R4A与第一级相似度阈值RY1的关系;假设R4A大于RY1,则确定标签4与第二级类别信息B之间的第二级相似度R4B,并判断R4B与第二级相似度阈值RY2的关系;假设R4B大于RY2,则确定标签4与第三级类别信息C之间的第三级相似度R4C,并判断R4C与第三级相似度阈值RY3的关系;假设R4C小于RY3,可认为标签4是第二级类别信息B的一个新的子类别,可将“第一级类别信息A+第二级类别信息B+标签4”确定为待更新类别信息,并使用待更新类别信息“第一级类别信息A+第二级类别信息B+标签4”,替换第一元数据中的类别信息,得到第二元数据,实现了使用标签4对第一元数据的扩展,确定出媒体资源M的第二个第二元数据。
通过上述过程,根据媒体资源M的2个资源标签,即标签2和标签4,对其第一元数据进行扩展,得到媒体资源M的两个第二元数据。
在一种可能的实现方式中,所述方法还包括:根据所述媒体资源的第二元数据中的类别信息,对所述第二元数据进行分类存储。
在一种可能的实现方式中,可将媒体资源的第二元数据存储在数据库中。数据库可根据实际情况进行选择,例如MySQL、SQL server、Oracle数据库等,本公开对数据库不作限制。可根据媒体资源的第二元数据的类别信息,在数据库中建立不同的表单,对第二元数据进行分类存储。
在一种可能的实现方式中,第二元数据可以按照类别信息中最上层/最高层的类别信息(即第一级类别信息)进行分类存储;也可以设置多级类别信息的分类存储框架,将第二元数据按照对应级别的类别信息进行分类存储。
通过将第二元数据根据类别信息分类存储在数据库中,可在第一元数据的基础上,建立基于多维度的第二元数据的检索数据库/检索平台,以便提高检索准确性。
在一种可能的实现方式中,所述方法还包括:根据所述媒体资源的第二元数据,对用户输入的检索信息进行匹配,确定检索结果。也就是说,在根据媒体资源的资源标签,对第一元数据进行扩展,确定多维度的第二元数据后,用户在进行检索时,可根据媒体资源的第二元数据,对用户输入的检索信息进行匹配,确定检索结果,从而可提高检索的准确性。
在一种可能的实现方式中,所述方法还包括:根据预设时段内的检索信息,确定检索关键词及所述检索关键词的词频;将词频大于或等于预设的词频阈值的检索关键词,确定为待更新标签;将所述待更新标签添加至所述标签库中。
其中,预设时段可以是7天、10天、20天、30天等,本领域技术人员可根据实际情况进行设置,本公开对此不作限制。
在一种可能的实现方式中,可根据预设时段内的检索信息,通过关键词提取等方式,确定检索信息中的检索关键词,并确定检索关键词的词频,其中,词频是检索关键词在检索信息中出现的次数。
在一种可能的实现方式中,可将检索关键词的词频与预设的词频阈值进行比较,将词频大于或等于预设的词频阈值的检索关键词,即检索热词,确定为待更新标签,然后将待更新标签添加到标签库中。
在本实施例中,根据检索信息中的检索关键词,确定待更新标签,并将待更新标签添加到数据库中,使得标签库中的标签可根据用户的检索热度而不断更新,增强标签库中的标签与用户检索的相关性,从而可提高标签库的准确性,进而可提高检索的准确性。
在一种可能的实现方式中,所述方法还包括:可根据不同用户的检索习惯,基于媒体资源的第二元数据,建立与不同用户的检索习惯相匹配的检索界面,以满足不同用户的检索需求。
图2示出根据本公开的实施例的基于智能标签扩展元数据的编目方法的应用场景的示意图。如图2所示,对于待编目的媒体资源21,可根据媒体资源21的文本信息,从预设的标签库22中,确定出媒体资源21的资源标签23,同时,可使用传统的编目系统对媒体资源21进行编目,确定出媒体资源21的第一元数据24;然后可根据资源标签23对第一元数据24进行扩展,得到媒体资源21的第二元数据25。
得到第二元数据25之后,可根据第二元数据25对检索信息26进行匹配,得到检索结果。
还可根据检索信息26,确定检索关键词,进而确定待更新标签,并将待更新标签添加至标签库22中。
根据本公开的实施例,能够在基于传统的编目框架生成的编目信息(即第一元数据)的基础上,根据媒体资源的资源标签,生成多维度的新的元数据(即第二元数据),基于新的元数据进行检索,可提高检索的准确性。此外,还可根据用户的检索信息,确定检索关键词,并根据检索关键词的词频,确定新标签,并将新标签加入生成资源标签时使用的标签库中,使得标签库可以不断更新,符合用户的检索需求。
需要说明的是,尽管以上述实施例作为示例介绍了基于智能标签的编目方法如上,但本领域技术人员能够理解,本公开应不限于此。事实上,用户完全可根据个人喜好和/或实际应用场景灵活设定各步骤,只要符合本公开的技术方案即可。
图3示出根据本公开的实施例的基于智能标签扩展元数据的编目系统的框图。如图3所示,所述基于智能标签扩展元数据的编目系统包括:
资源标签确定模块31,用于根据媒体资源的文本信息,从预设的标签库中确定出所述媒体资源的资源标签;
元数据扩展模块32,用于根据所述资源标签,对所述媒体资源的第一元数据进行扩展,确定所述媒体资源的第二元数据,所述第一元数据包括所述媒体资源的标识及类别信息。
根据本公开的实施例,能够根据媒体资源的文本信息,从预设的标签库中确定媒体资源的资源标签,并根据该资源标签,对媒体资源的第一元数据进行扩展,确定出媒体资源的第二元数据,从而可以在媒体资源的第一元数据(即传统的编目信息)中增加个性化的资源标签,得到多维度的第二元数据,进而可提高媒体资源的第二元数据的准确性。基于媒体资源的第二元数据进行检索匹配,可提高检索的准确性。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (10)
1.一种基于智能标签扩展元数据的编目方法,其特征在于,所述方法包括:
根据媒体资源的文本信息,从预设的标签库中确定出所述媒体资源的资源标签;
根据所述资源标签,对所述媒体资源的第一元数据进行扩展,确定所述媒体资源的第二元数据,所述第一元数据包括所述媒体资源的标识及类别信息。
2.根据权利要求1所述的方法,其特征在于,所述媒体资源的类别信息包括N级类别信息,N为大于或等于2的整数,
根据所述资源标签,对所述媒体资源的第一元数据进行扩展,确定所述媒体资源的第二元数据,包括:
对于所述资源标签中的任一资源标签,确定所述资源标签与所述媒体资源的第一级类别信息之间的第一级相似度;
在所述第一级相似度大于或等于预设的第一级相似度阈值的情况下,确定所述资源标签与所述媒体资源的第二级类别信息之间的第二级相似度;
在第i-1级相似度大于或等于预设的第i-1级相似度阈值的情况下,确定所述资源标签与所述媒体资源的第i级类别信息之间的第i级相似度,其中,i为整数且2≤i≤N;
在所述第i级相似度小于预设的第i级相似度阈值的情况下,根据前i-1级类别信息及所述资源标签,确定待更新类别信息;
根据所述媒体资源的第一元数据中类别信息之外的其他信息及所述待更新类别信息,确定所述媒体资源的第二元数据。
3.根据权利要求2所述的方法,其特征在于,根据所述资源标签,对所述媒体资源的第一元数据进行扩展,确定所述媒体资源的第二元数据,还包括:
在所述第一级相似度小于所述第一级相似度阈值的情况下,丢弃所述资源标签。
4.根据权利要求2所述的方法,其特征在于,根据所述资源标签,对所述媒体资源的第一元数据进行扩展,确定所述媒体资源的第二元数据,还包括:
在第N级相似度大于或等于预设的第N级相似度阈值的情况下,丢弃所述资源标签。
5.根据权利要求2-4中任意一项所述的方法,其特征在于,第i-1级相似度阈值小于第i级相似度阈值。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述媒体资源的第二元数据,对用户输入的检索信息进行匹配,确定检索结果。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据预设时段内的检索信息,确定检索关键词及所述检索关键词的词频;
将词频大于或等于词频阈值的检索关键词,确定为待更新标签;
将所述待更新标签添加至所述标签库中。
8.根据权利要求1所述的方法,其特征在于,根据媒体资源的文本信息,从预设的标签库中确定出所述媒体资源的资源标签,包括:
获取所述媒体资源的文本信息,所述文本信息包括声音文本、图像文本及图像主体文本中的至少一种;
提取所述文本信息中的关键词;
确定所述关键词与标签库中各个标签之间的第一相似度;
确定第一相似度中大于或等于第一相似度阈值的第二相似度;
将与所述第二相似度对应的标签,确定为所述媒体资源的资源标签。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述媒体资源的第二元数据中的类别信息,对所述第二元数据进行分类存储。
10.一种基于智能标签扩展元数据的编目系统,其特征在于,所述系统包括:
资源标签确定模块,用于根据媒体资源的文本信息,从预设的标签库中确定出所述媒体资源的资源标签;
元数据扩展模块,用于根据所述资源标签,对所述媒体资源的第一元数据进行扩展,确定所述媒体资源的第二元数据,所述第一元数据包括所述媒体资源的标识及类别信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010136163.8A CN111353055B (zh) | 2020-03-02 | 2020-03-02 | 基于智能标签扩展元数据的编目方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010136163.8A CN111353055B (zh) | 2020-03-02 | 2020-03-02 | 基于智能标签扩展元数据的编目方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111353055A true CN111353055A (zh) | 2020-06-30 |
CN111353055B CN111353055B (zh) | 2024-04-16 |
Family
ID=71194135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010136163.8A Active CN111353055B (zh) | 2020-03-02 | 2020-03-02 | 基于智能标签扩展元数据的编目方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111353055B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112181968A (zh) * | 2020-09-29 | 2021-01-05 | 京东数字科技控股股份有限公司 | 统一商品信息的方法、装置、系统及存储介质 |
CN113411652A (zh) * | 2021-07-02 | 2021-09-17 | 广州酷狗计算机科技有限公司 | 媒体资源播放方法和装置、存储介质及电子设备 |
CN116594658A (zh) * | 2023-07-03 | 2023-08-15 | 北京火山引擎科技有限公司 | 针对元数据的版本升级方法、装置、电子设备和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101169780A (zh) * | 2006-10-25 | 2008-04-30 | 华为技术有限公司 | 一种基于语义本体的检索系统和方法 |
CN101187938A (zh) * | 2007-11-09 | 2008-05-28 | 中国传媒大学 | 一种多媒体元数据统一描述及检索方法 |
CN107491479A (zh) * | 2017-07-05 | 2017-12-19 | 上海大学 | 一种基于本体库的标签管理方法 |
US20180077460A1 (en) * | 2016-09-10 | 2018-03-15 | The Aleph Group Pte., Ltd. | Method, System, and Apparatus for Providing Video Content Recommendations |
CN107958008A (zh) * | 2016-10-18 | 2018-04-24 | 中国移动通信有限公司研究院 | 一种统一标签库的更新方法及装置 |
CN110781323A (zh) * | 2019-10-25 | 2020-02-11 | 北京达佳互联信息技术有限公司 | 多媒体资源的标签确定方法、装置、电子设备及存储介质 |
-
2020
- 2020-03-02 CN CN202010136163.8A patent/CN111353055B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101169780A (zh) * | 2006-10-25 | 2008-04-30 | 华为技术有限公司 | 一种基于语义本体的检索系统和方法 |
CN101187938A (zh) * | 2007-11-09 | 2008-05-28 | 中国传媒大学 | 一种多媒体元数据统一描述及检索方法 |
US20180077460A1 (en) * | 2016-09-10 | 2018-03-15 | The Aleph Group Pte., Ltd. | Method, System, and Apparatus for Providing Video Content Recommendations |
CN107958008A (zh) * | 2016-10-18 | 2018-04-24 | 中国移动通信有限公司研究院 | 一种统一标签库的更新方法及装置 |
CN107491479A (zh) * | 2017-07-05 | 2017-12-19 | 上海大学 | 一种基于本体库的标签管理方法 |
CN110781323A (zh) * | 2019-10-25 | 2020-02-11 | 北京达佳互联信息技术有限公司 | 多媒体资源的标签确定方法、装置、电子设备及存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112181968A (zh) * | 2020-09-29 | 2021-01-05 | 京东数字科技控股股份有限公司 | 统一商品信息的方法、装置、系统及存储介质 |
CN112181968B (zh) * | 2020-09-29 | 2024-07-19 | 京东科技控股股份有限公司 | 统一商品信息的方法、装置、系统及存储介质 |
CN113411652A (zh) * | 2021-07-02 | 2021-09-17 | 广州酷狗计算机科技有限公司 | 媒体资源播放方法和装置、存储介质及电子设备 |
CN116594658A (zh) * | 2023-07-03 | 2023-08-15 | 北京火山引擎科技有限公司 | 针对元数据的版本升级方法、装置、电子设备和介质 |
CN116594658B (zh) * | 2023-07-03 | 2024-01-26 | 北京火山引擎科技有限公司 | 针对元数据的版本升级方法、装置、电子设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111353055B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8908997B2 (en) | Methods and apparatus for automated true object-based image analysis and retrieval | |
CN112818906A (zh) | 一种基于多模态信息融合理解的全媒体新闻智能编目方法 | |
CN100485665C (zh) | 概念模型空间中的内容表示和检索的方法和设备 | |
CN107766571B (zh) | 一种多媒体资源的检索方法和装置 | |
CN109871464B (zh) | 一种基于ucl语义标引的视频推荐方法与装置 | |
EP2005364B1 (en) | Image classification based on a mixture of elliptical color models | |
CN111353055B (zh) | 基于智能标签扩展元数据的编目方法及系统 | |
CN102165464A (zh) | 用于对视频内容中的人进行自动注释的方法和系统 | |
US20060153460A1 (en) | Method and apparatus for clustering digital photos based on situation and system and method for albuming using the same | |
CN112528053A (zh) | 多媒体库分类检索管理系统 | |
CN109492168B (zh) | 一种基于旅游照片的可视化旅游兴趣推荐信息生成方法 | |
US20070110308A1 (en) | Method, medium, and system with category-based photo clustering using photographic region templates | |
CN118035489A (zh) | 视频搜索方法及装置、存储介质及电子设备 | |
CN116975363A (zh) | 视频标签生成方法、装置、电子设备及存储介质 | |
JP6364387B2 (ja) | 特徴量生成装置、方法、及びプログラム | |
CN114282119A (zh) | 一种基于异构信息网络的科技信息资源检索方法及系统 | |
CN113468377A (zh) | 一种视频与文献关联整合方法 | |
Anh et al. | Video retrieval using histogram and sift combined with graph-based image segmentation | |
Chien et al. | Large-scale image annotation with image–text hybrid learning models | |
Harakawa et al. | An efficient extraction method of hierarchical structure of web communities for web video retrieval | |
JP2005505081A (ja) | マルチメディア文書のインデックスおよび比較方法 | |
CN117493978B (zh) | 一种素材分类管理方法、装置、设备和介质 | |
CN117636356A (zh) | 一种辅助办公的图像分布存储和智能分析系统 | |
Messer et al. | A unified approach to the generation of semantic cues for sports video annotation | |
Tesic et al. | Semantic labeling of multimedia content clusters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |