CN113609315A - 一种媒资相似度的判定方法、装置、电子设备和存储介质 - Google Patents
一种媒资相似度的判定方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113609315A CN113609315A CN202110545177.XA CN202110545177A CN113609315A CN 113609315 A CN113609315 A CN 113609315A CN 202110545177 A CN202110545177 A CN 202110545177A CN 113609315 A CN113609315 A CN 113609315A
- Authority
- CN
- China
- Prior art keywords
- media asset
- sample
- similarity
- media assets
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 239000003607 modifier Substances 0.000 claims abstract description 31
- 238000007781 pre-processing Methods 0.000 claims description 28
- 238000001914 filtration Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 14
- 238000010586 diagram Methods 0.000 description 15
- 230000009191 jumping Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 238000010348 incorporation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010422 painting Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
Abstract
本申请公开了一种媒资相似度的判定方法、装置、电子设备和存储介质,该方法和装置应用于电子设备,具体为初始化媒资元数据基础数据库,媒资元数据基础数据库包括多个样本媒资,还包括每个样本媒资的元数据信息;基于对每个待判定媒资的元数据信息与样本媒资的元数据信息的对比,得到待判定媒资与每个样本媒资的相似度,将最大相似度所对应的样本媒资判定为目标媒资。本申请是基于媒资的元数据信息对其相似度进行判断,而该元数据信息是一个多维度的信息,在判断过程中可以尽可能地排除修饰词的干扰,从而使得到的判断结果更为准确。
Description
技术领域
本申请涉及媒体技术领域,更具体地说,涉及一种媒资相似度的判定方法、装置、电子设备和存储介质。
背景技术
媒资是指媒体内容资产,包括文字、图片、视频、音频等多种类型的业务资源,如以及描述这些业务资源的元数据和版权信息等。以视频类型的内容资源为例,不同的视频网站即媒资平台提供的媒资会有重复的情况,比如同样一部电视剧会在不同的媒资平台提供,但不同的媒资平台对媒资的管理有差异,同样的一部电视剧不同平台上具有不同的标题,发行年份,集数,语言类型等,为了加强对媒资的管理,需要对媒资的相似度进行判断。
目前在对媒资的相似度进行判断时的手段比较简单粗暴,仅根据标题是否相同进行判定,而一般来说媒资的标题会存在修饰词干扰因素,导致判定准确率较低。
发明内容
有鉴于此,本申请提供一种媒资相似度的判定方法、装置、电子设备和存储介质,用于对媒资的相似度进行判断,以提高媒资相似度判断的准确率。
为了实现上述目的,现提出的方案如下:
一种媒资相似度的判定方法,应用于电子设备,所述判定方法包括步骤:
初始化媒资元数据基础数据库,所述媒资元数据基础数据库包括多个样本媒资,还包括每个所述样本媒资的元数据信息;
基于对每个待判定媒资的元数据信息与所述样本媒资的元数据信息的对比,得到所述待判定媒资与每个所述样本媒资的相似度,将最大相似度所对应的所述样本媒资判定为目标媒资。
可选的,所述元数据信息包括标题和系列号,还包括分类、演职人员信息、总集数、发行年份和语言类型中的部分或全部。
可选的,所述初始化媒资源数据基础数据库,包括步骤:
从单一来源获取样本媒资,同时获取所述样本媒资的初始信息;
根据预设的干扰词过滤规则对所述初始信息进行预处理,得到所述元数据信息;
对所述元数据信息中的标题进行抽取处理,得到所述系列号。
可选的,所述根据预设的干扰词过滤规则对所述初始信息进行预处理,包括:
对所述初始信息中各个元素的修饰词进行检测并滤除;
对所述初始信息进行人物检测,得到所述演职人员信息;
对所述元数据信息中的标点符号进行检测并滤除。
可选的,所述基于对每个待判定媒资的元数据信息与所述样本媒资的元数据信息的对比,得到所述待判定媒资与每个所述样本媒资的相似度,将最大相似度所对应的所述样本媒资判定为目标媒资,包括步骤:
对所述待判定媒资的初始信息进行预处理,得到所述待判定媒资的元数据信息;
将所述待判定媒资的元数据信息按预设判断规则依次与每个所述样本媒资的元数据信息进行比较判断,得到所述待判定媒资与每个所述样本媒资的相似度;
将所述相似度大于预设阈值的样本媒资纳入媒资集合;
如果所述媒资集合中存在所述样本媒资,则将最大相似度对应的样本媒资确定为所述目标媒资。
可选的,所述基于对每个待判定媒资的元数据信息与所述样本媒资的元数据信息的对比,得到所述待判定媒资与每个所述样本媒资的相似度,将最大相似度所对应的所述样本媒资判定为目标媒资,还包括步骤:
如果所述媒资集合中没有所述样本媒资,则将所述待判定媒资及其元数据信息纳入所述媒资元数据基础数据库。
一种媒资相似度的判定装置,应用于电子设备,所述判定装置包括:
数据库初始模块,被配置为初始化媒资元数据基础数据库,所述媒资元数据基础数据库包括多个样本媒资,还包括每个所述样本媒资的元数据信息;
判断执行模块,被配置为基于对每个待判定媒资的元数据信息与所述样本媒资的元数据信息的对比,得到所述待判定媒资与每个所述样本媒资的相似度,将最大相似度所对应的所述样本媒资判定为目标媒资。
可选的,所述元数据信息包括标题和系列号,还包括分类、演职人员信息、总集数、发行年份和语言类型中的部分或全部。
可选的,所述数据库处置模块包括:
信息获取单元,被配置为从单一来源获取样本媒资,同时获取所述样本媒资的初始信息;
第一预处理单元,被配置为根据预设的干扰词过滤规则对所述初始信息进行预处理,得到所述元数据信息;
抽取处理单元,被配置为对所述元数据信息中的标题进行抽取处理,得到所述系列号。
可选的,所述第一预处理单元被配置为对所述初始信息中各个元素的修饰词进行检测并滤除,对所述初始信息进行人物检测,得到所述演职人员信息,对所述元数据信息中的标点符号进行检测并滤除。
可选的,所述判断执行模块包括:
第二预处理单元,被配置为对所述待判定媒资的初始信息进行预处理,得到所述待判定媒资的元数据信息;
比较执行单元,被配置为将所述待判定媒资的元数据信息按预设判断规则依次与每个所述样本媒资的元数据信息进行比较判断,得到所述待判定媒资与每个所述样本媒资的相似度;
集合处理单元,被配置为将所述相似度大于预设阈值的样本媒资纳入媒资集合;
目标选定单元,被配置为如果所述媒资集合中存在所述样本媒资,则将最大相似度对应的样本媒资确定为所述目标媒资。
可选的,所述判断执行模块还包括:
媒资纳入单元,被配置为如果所述媒资集合中没有所述样本媒资,则将所述待判定媒资及其元数据信息纳入所述媒资元数据基础数据库。
一种电子设备,设置有如上所述的判定装置。
一种计算机可读存储介质,所述存储介质包括至少一个处理器和与所述处理器连接的存储器,其中:
所述存储器用于存储计算机程序或指令;
所述处理器用于执行所述计算机程序或指令,以使所述存储介质执行如上所述的判定方法。
从上述的技术方案可以看出,本申请公开了一种媒资相似度的判定方法、装置、电子设备和存储介质,该方法和装置应用于电子设备,具体为初始化媒资元数据基础数据库,媒资元数据基础数据库包括多个样本媒资,还包括每个样本媒资的元数据信息;基于对每个待判定媒资的元数据信息与样本媒资的元数据信息的对比,得到待判定媒资与每个样本媒资的相似度,将最大相似度所对应的样本媒资判定为目标媒资。本申请是基于媒资的元数据信息对其相似度进行判断,而该元数据信息是一个多维度的信息,在判断过程中可以尽可能地排除修饰词的干扰,从而使得到的判断结果更为准确。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的一种媒资相似度的判定方法的流程图;
图2为本申请实施例的初始化媒资元数据基础数据库的流程图;
图3为本申请实施例的一种相似度判断的流程图;
图4为本申请实施例的另一种相似度判断的流程图;
图5为本申请实施例的一种媒资相似度的判定装置的框图;
图6为本申请实施例的另一种媒资相似度的判定装置的框图;
图7为本申请实施例的又一种媒资相似度的判定装置的框图;
图8为本申请实施例的又一种媒资相似度的判定装置的框图;
图9为本申请实施例的一种计算机可读存储介质的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
图1为本申请实施例的一种媒资相似度的判定方法的流程图。
如图1所示,本实施例提供的判定方法应用于电子设备,该电子设备可以看做提供计算服务的服务器或者计算机。该判定方法用于对该电子设备接收或获取到的媒资与预先规定的媒资的相似度进行判断,本申请通过一种全新的判断方法实现对媒资相似度的判定,该媒资相似度的判定方法包括如下步骤:
S1、初始化媒资元数据基础数据库。
该媒资元数据基础数据库中预置有多个样本媒资,且存储有与每个样本媒资对应的元数据信息。该元数据信息包括但不限于相应媒资的标题和系列号,还可以包括分类、演职人员信息、总集数、发行年份和语言类型中的部分或全部。
在本申请的一个具体实施方式中,通过如下步骤实现对媒资元数据基础数据库的初始化操作,如图2所示:
S11、从单一来源获取样本媒资和初始信息。
即单一媒资平台或者数据库获取相应的媒资作为基础数据,并同时获取相应媒资的初始标题、分类、初始演职人员信息、总集数、发行年份、语言类型等元数据。由于是从单一来源获取到的媒资及其初始信息,因此认为这份媒资中是没有重复的,不需要经过相似度检查,直接作为基础数据用于之后的媒资相似度判断依据。
S12、对初始信息进行预处理。
在保存至数据库之前,需要对媒资的初始信息进行预处理,在此过程中利用预设的干扰词规则对初始信息进行处理如对标题进行干扰信息过滤,从而得到上述元数据信息。
在此过程中,首先对初始信息中各个元素的修饰词进行检测并滤除;例如:
1、对媒资画质类的修饰词进行检测并滤除。包括但不限于极速、标清、高清、真高清、超清、蓝光、原画、240P、480P、720P、1080P、2K、4K等。规则可以不断扩展。
2、对媒资音效类的修饰词进行检测并滤除。这类修饰词包括但不限于原声、杜比、影院等。规则可以不断扩展。
3、对国家地区类的修饰词进行检测并滤除。这类修饰词包括但不限于日本、泰国、韩国、海外、美版等。规则可以不断扩展。
4、对字幕语言类的修饰词进行检测并滤除。这类修饰词包括但不限于普通话、粤语、外挂字幕等。规则可以不断扩展。
5、对类型类的修饰词进行检测并滤除。这类修饰词包括但不限于DVD 版、TV版、无删减版、网络版、电视剧、卫视版、电影、电影网、1905电影、纪念版、导演剪辑版、抢先版等。规则可以不断扩展。
然后,对媒资中的关键人物进行检测。包括但不限于该媒资的导演、主演、主持人、嘉宾、原创作者等,从而至少得到演职人员信息,规则可以不断扩展。
最后,对其中影响意思表达的标点符号进行检测并滤除,这类标点符号包括但不限于大小写英文字母、半角标点符号、全角标点符号等。规则可以不断扩展。
S13、从元数据信息中抽取系列号。
在对上述初始信息进出预处理得到样本媒资的元数据信息的基础上,根据如下规则抽取相应样本媒资的系列号:
1、抽取出标题中数字长度在2个以内结尾的数字;
2、抽取出标题中连续中文数字结尾的数字;
3、抽取出标题中包含罗马数字的数字;
在抽取上述数字的基础上,将数字按一定的规律进行排列组合,作为相应样本媒资的系列号。
S2、基于样本媒资对待判定媒资进行判断,得到目标媒资。
这里所谓的目标媒资是指媒资元数据基础数据库中与待判定媒资相似度最高的样本媒资,具体来说是基于元数据信息对该数据库中每个样本媒资与该待判定媒资一一比较,通过两者的相似度找出相似度最高的样本媒资,从而将该样本媒资确定为目标媒资,实现对媒资相似度的判断。具体来说,本申请通过如下步骤找出该目标媒资,如图3所示:
S21、对待判定媒资的初始信息进行预处理。
在接收或获取到待判定媒资后,提取其初始信息,这里的初始信息与样本媒资的初始信息相同,即包括但不限于相应媒资的标题、分类、演职人员信息、总集数、发行年份和语言类型中的部分或全部。这里的预处理与上述对样本媒资的预处理相同,通过预处理可以得到待判定媒资的元数据信息。
S22、将待判定媒资与样本媒资依次进行比较处理判断。
即按预设判断规则,将待判定媒资的元数据信息依次与媒资元数据基础数据库中的样本媒资的元数据信息进行比较判断,得到待判定媒资与每个样本媒资的相似度。由于这里是将待判定媒资与所有样本媒资进行比较判断,因此得到的相似度的数量与样本媒资的数量相同,且一一对应。
具体来说,本实施例中的判断规则包括七个预设规则,具体通过如下具体方法进行比较判断:
1、预设规则一:将待判定媒资的系列号样本媒资的系列号进行匹配判断,如果相等,则继续判断标题之间的相似度,如果不相等,则直接判定两者的相似度为0,跳过后续其它纬度的相似度判定,提前进行下一轮媒资的相似度判定;
2、使用待判定媒资的未处理的原始标题与样本媒资的原始标题进行相似度计算,得到两两媒资标题之间的相似度。该相似度如果大于预设阈值,则跳至预设规则二进行判定;
否则,使用待判定媒资未处理的原始标题与样本媒资处理后的标题进行相似度计算,如果得到的相似度大于预设阈值,则跳至预设规则二进行判定;
否则,使用待判定媒资处理后的标题与样本媒资处理后的标题进行相似度计算,如果得到的相似度大于预设阈值,则跳至预设规则二进行判定;
否则,将去掉待判定媒资处理后的标题中可能存在的该媒资的年份后与样本媒资处理后的标题进行相似度计算,如果得到的相似度大于预设阈值,则跳至预设规则二进行判定;
否则,使用待判定媒资处理后的标题与样本媒资处理后的标题且去掉自身年份进行相似度计算,并跳至预设规则二进行判定;
3、预设规则二:当待判定媒资和样本媒资的总集数相等,且年份相等,且标题相似度大于规则二的预设阈值,则添加至候选媒资集合;否则继续其它预设规则进行相似度判定;
4、预设规则三:当待判定媒资和样本媒资的总集数相等,且年份相等,且标题相似度大于规则三的预设阈值,且待判定媒资和样本媒资的导演或者主演或者嘉宾或者主持人等明星有重叠,则增加预设相似度评分,并添加至候选媒资集合;否则,继续其它预设规则进行相似度判定;
5、预设规则四:当待判定媒资和样本媒资的标题相似度为100%时,且总集数相等,两者年份差值在指定预设区间,则增加预设相似度评分,并添加至候选媒资集合;否则,继续其它预设规则进行相似度判定;
6、预设规则五:当待判定媒资和样本媒资的标题相似度为100%时,且总集数相等,两者年份差值在指定预设区间,且待判定媒资和样本媒资的导演或者主演或者嘉宾或者主持人等明星有重叠,则增加预设相似度评分,并添加至候选媒资集合;否则,继续其它预设规则进行相似度判定;
7、预设规则六:当待判定媒资和样本媒资的标题相似度为100%时,且总集数相等,两者年份差值在指定预设区间,且待判定媒资和样本媒资的导演有重叠且主演也有重叠,则增加预设相似度评分,并添加至候选媒资集合;否则,继续其它预设规则进行相似度判定;
8、预设规则七:当待判定媒资和样本媒资的标题相似度为100%时,且发行年份相同,两者集数差值在指定预设区间,且待判定媒资和样本媒资的导演或者主演或者嘉宾或者主持人等明星有重叠,则增加预设相似度评分,并添加至候选媒资集合;否则,继续其它预设规则进行相似度判定;
S23、将相似度大于预设阈值的样本媒资纳入媒资集合。
在得到与每个样本媒资对应的相似度后,基于一个预先规定的预设阈值对每个相似度进行判断,该预设阈值可以根据经验或者最后的效果确定,即通过验证在相应预设阈值的情况下样本媒资确实与待判定媒资非常相似。在确定预设阈值的情况下,将所有相似度大于该预设阈值的样本媒资纳入该媒资集合。
S24、将最大相似度对应的样本媒资确定为目标媒资。
在实际实施时,会存在媒资集合中包括多个样本媒资或者为空的情况,如果包括多个样本媒资,表明基础数据库中存在多个样本媒资其与待判定媒资的相似度大于该预设阈值,此时对其中的多个样本媒资的相似度进行排序,从中找出最大相似度对应的样本媒资确定为该目标媒资。
另外,在实践中还存在所有相似度均小于该预设阈值的情况,此种情况下本申请还包括如下步骤,如图4所示:
S25、将待判定媒资纳入媒资元数据基础数据库。
当所有相似度均小于该预设阈值时,该媒资集合为空,此时将该待判定媒资作为新的样本媒资纳入到该媒资元数据基础数据库。这样一来,可以实现对媒资元数据基础数据库进行自动更新的效果,并用于以后的媒资匹配。
从上述技术方案可以看出,本实施例提供了一种媒资相似度的判定方法,该方法应用于电子设备,具体为初始化媒资元数据基础数据库,媒资元数据基础数据库包括多个样本媒资,还包括每个样本媒资的元数据信息;基于对每个待判定媒资的元数据信息与样本媒资的元数据信息的对比,得到待判定媒资与每个样本媒资的相似度,将最大相似度所对应的样本媒资判定为目标媒资。本申请是基于媒资的元数据信息对其相似度进行判断,而该元数据信息是一个多维度的信息,在判断过程中可以尽可能地排除修饰词的干扰,从而使得到的判断结果更为准确。
实施例二
图5为本申请实施例的一种媒资相似度的判定装置的框图。
如图5所示,本实施例提供的判定装置应用于电子设备,该电子设备可以看做提供计算服务的服务器或者计算机。该判定装置可以理解为该电子设备的实体模块或者功能模块,本申请通过一种全新的判断装置实现对媒资相似度的判定,该媒资相似度的判定装置包括数据库初始模块10和判断执行模块20。
该数据库初始模块用于初始化媒资元数据基础数据库。
该媒资元数据基础数据库中预置有多个样本媒资,且存储有与每个样本媒资对应的元数据信息。该元数据信息包括但不限于相应媒资的标题和系列号,还可以包括分类、演职人员信息、总集数、发行年份和语言类型中的部分或全部。
在本申请的一个具体实施方式中,该数据库初始模块包括信息获取单元 11、第一预处理单元12和抽取处理单元13,如图6所示:
信息获取单元用于从单一来源获取样本媒资和初始信息。
即单一媒资平台或者数据库获取相应的媒资作为基础数据,并同时获取相应媒资的初始标题、分类、初始演职人员信息、总集数、发行年份、语言类型等元数据。由于是从单一来源获取到的媒资及其初始信息,因此认为这份媒资中是没有重复的,不需要经过相似度检查,直接作为基础数据用于之后的媒资相似度判断依据。
第一预处理单元用于对初始信息进行预处理。
在保存至数据库之前,需要对媒资的初始信息进行预处理,在此过程中利用预设的干扰词规则对初始信息进行处理如对标题进行干扰信息过滤,从而得到上述元数据信息。
在此过程中,首先对初始信息中各个元素的修饰词进行检测并滤除;例如:
1、对媒资画质类的修饰词进行检测并滤除。包括但不限于极速、标清、高清、真高清、超清、蓝光、原画、240P、480P、720P、1080P、2K、4K等。规则可以不断扩展。
2、对媒资音效类的修饰词进行检测并滤除。这类修饰词包括但不限于原声、杜比、影院等。规则可以不断扩展。
3、对国家地区类的修饰词进行检测并滤除。这类修饰词包括但不限于日本、泰国、韩国、海外、美版等。规则可以不断扩展。
4、对字幕语言类的修饰词进行检测并滤除。这类修饰词包括但不限于普通话、粤语、外挂字幕等。规则可以不断扩展。
5、对类型类的修饰词进行检测并滤除。这类修饰词包括但不限于DVD 版、TV版、无删减版、网络版、电视剧、卫视版、电影、电影网、1905电影、纪念版、导演剪辑版、抢先版等。规则可以不断扩展。
然后,对媒资中的关键人物进行检测。包括但不限于该媒资的导演、主演、主持人、嘉宾、原创作者等,从而至少得到演职人员信息,规则可以不断扩展。
最后,对其中影响意思表达的标点符号进行检测并滤除,这类标点符号包括但不限于大小写英文字母、半角标点符号、全角标点符号等。规则可以不断扩展。
抽取处理单元用于从元数据信息中抽取系列号。
在对上述初始信息进出预处理得到样本媒资的元数据信息的基础上,根据如下规则抽取相应样本媒资的系列号:
1、抽取出标题中数字长度在2个以内结尾的数字;
2、抽取出标题中连续中文数字结尾的数字;
3、抽取出标题中包含罗马数字的数字;
在抽取上述数字的基础上,将数字按一定的规律进行排列组合,作为相应样本媒资的系列号。
判断执行模块用于基于样本媒资对待判定媒资进行判断,得到目标媒资。
这里所谓的目标媒资是指媒资元数据基础数据库中与待判定媒资相似度最高的样本媒资,具体来说是基于元数据信息对该数据库中每个样本媒资与该待判定媒资一一比较,通过两者的相似度找出相似度最高的样本媒资,从而将该样本媒资确定为目标媒资,实现对媒资相似度的判断。具体来说,本申请中的判断执行模块具体包括第二预处理单元21、比较执行单元22、集合处理单元23和目标选定单元24,如图7所示:
第二预处理单元用于对待判定媒资的初始信息进行预处理。
在接收或获取到待判定媒资后,提取其初始信息,这里的初始信息与样本媒资的初始信息相同,即包括但不限于相应媒资的标题、分类、演职人员信息、总集数、发行年份和语言类型中的部分或全部。这里的预处理与上述对样本媒资的预处理相同,通过预处理可以得到待判定媒资的元数据信息。
比较执行单元用于将待判定媒资与样本媒资依次进行比较处理判断。
即按预设判断规则,将待判定媒资的元数据信息依次与媒资元数据基础数据库中的样本媒资的元数据信息进行比较判断,得到待判定媒资与每个样本媒资的相似度。由于这里是将待判定媒资与所有样本媒资进行比较判断,因此得到的相似度的数量与样本媒资的数量相同,且一一对应。
具体来说,本实施例中的判断规则包括七个预设规则,具体来说该比较执行单元通过如下具体方法进行比较判断:
1、预设规则一:将待判定媒资的系列号样本媒资的系列号进行匹配判断,如果相等,则继续判断标题之间的相似度,如果不相等,则直接判定两者的相似度为0,跳过后续其它纬度的相似度判定,提前进行下一轮媒资的相似度判定;
2、使用待判定媒资的未处理的原始标题与样本媒资的原始标题进行相似度计算,得到两两媒资标题之间的相似度。该相似度如果大于预设阈值,则跳至预设规则二进行判定;
否则,使用待判定媒资未处理的原始标题与样本媒资处理后的标题进行相似度计算,如果得到的相似度大于预设阈值,则跳至预设规则二进行判定;
否则,使用待判定媒资处理后的标题与样本媒资处理后的标题进行相似度计算,如果得到的相似度大于预设阈值,则跳至预设规则二进行判定;
否则,将去掉待判定媒资处理后的标题中可能存在的该媒资的年份后与样本媒资处理后的标题进行相似度计算,如果得到的相似度大于预设阈值,则跳至预设规则二进行判定;
否则,使用待判定媒资处理后的标题与样本媒资处理后的标题且去掉自身年份进行相似度计算,并跳至预设规则二进行判定;
3、预设规则二:当待判定媒资和样本媒资的总集数相等,且年份相等,且标题相似度大于规则二的预设阈值,则添加至候选媒资集合;否则继续其它预设规则进行相似度判定;
4、预设规则三:当待判定媒资和样本媒资的总集数相等,且年份相等,且标题相似度大于规则三的预设阈值,且待判定媒资和样本媒资的导演或者主演或者嘉宾或者主持人等明星有重叠,则增加预设相似度评分,并添加至候选媒资集合;否则,继续其它预设规则进行相似度判定;
5、预设规则四:当待判定媒资和样本媒资的标题相似度为100%时,且总集数相等,两者年份差值在指定预设区间,则增加预设相似度评分,并添加至候选媒资集合;否则,继续其它预设规则进行相似度判定;
6、预设规则五:当待判定媒资和样本媒资的标题相似度为100%时,且总集数相等,两者年份差值在指定预设区间,且待判定媒资和样本媒资的导演或者主演或者嘉宾或者主持人等明星有重叠,则增加预设相似度评分,并添加至候选媒资集合;否则,继续其它预设规则进行相似度判定;
7、预设规则六:当待判定媒资和样本媒资的标题相似度为100%时,且总集数相等,两者年份差值在指定预设区间,且待判定媒资和样本媒资的导演有重叠且主演也有重叠,则增加预设相似度评分,并添加至候选媒资集合;否则,继续其它预设规则进行相似度判定;
8、预设规则七:当待判定媒资和样本媒资的标题相似度为100%时,且发行年份相同,两者集数差值在指定预设区间,且待判定媒资和样本媒资的导演或者主演或者嘉宾或者主持人等明星有重叠,则增加预设相似度评分,并添加至候选媒资集合;否则,继续其它预设规则进行相似度判定;
集合处理单元用于将相似度大于预设阈值的样本媒资纳入媒资集合。
在得到与每个样本媒资对应的相似度后,基于一个预先规定的预设阈值对每个相似度进行判断,该预设阈值可以根据经验或者最后的效果确定,即通过验证在相应预设阈值的情况下样本媒资确实与待判定媒资非常相似。在确定预设阈值的情况下,将所有相似度大于该预设阈值的样本媒资纳入该媒资集合。
目标选定单元用于将最大相似度对应的样本媒资确定为目标媒资。
在实际实施时,会存在媒资集合中包括多个样本媒资或者为空的情况,如果包括多个样本媒资,表明基础数据库中存在多个样本媒资其与待判定媒资的相似度大于该预设阈值,此时对其中的多个样本媒资的相似度进行排序,从中找出最大相似度对应的样本媒资确定为该目标媒资。
另外,在实践中还存在所有相似度均小于该预设阈值的情况,此种情况下本申请的判断执行模块还包括媒资纳入单元25,如图8所示:
媒资纳入单元用于将待判定媒资纳入媒资元数据基础数据库。
当所有相似度均小于该预设阈值时,该媒资集合为空,此时将该待判定媒资作为新的样本媒资纳入到该媒资元数据基础数据库。这样一来,可以实现对媒资元数据基础数据库进行自动更新的效果,并用于以后的媒资匹配。
从上述技术方案可以看出,本实施例提供了一种媒资相似度的判定装置,该装置应用于电子设备,具体用于初始化媒资元数据基础数据库,媒资元数据基础数据库包括多个样本媒资,还包括每个样本媒资的元数据信息;基于对每个待判定媒资的元数据信息与样本媒资的元数据信息的对比,得到待判定媒资与每个样本媒资的相似度,将最大相似度所对应的样本媒资判定为目标媒资。本申请是基于媒资的元数据信息对其相似度进行判断,而该元数据信息是一个多维度的信息,在判断过程中可以尽可能地排除修饰词的干扰,从而使得到的判断结果更为准确。
实施例三
本实施例提供了一种电子设备,该电子设备可以看做具有计算和数据处理功能的设备,如服务器或计算机,该电子设备设置有上一实施例所提供的媒资相似度的判定装置。该装置具体用于初始化媒资元数据基础数据库,媒资元数据基础数据库包括多个样本媒资,还包括每个样本媒资的元数据信息;基于对每个待判定媒资的元数据信息与样本媒资的元数据信息的对比,得到待判定媒资与每个样本媒资的相似度,将最大相似度所对应的样本媒资判定为目标媒资。本申请是基于媒资的元数据信息对其相似度进行判断,而该元数据信息是一个多维度的信息,在判断过程中可以尽可能地排除修饰词的干扰,从而使得到的判断结果更为准确。
实施例四
图9为本申请实施例的一种计算机可读存储介质的框图。
如图9所示,该计算机可读存储介质包括至少一个处理器101,还包括存储器102,两者通过数据总线103连接。该存储器用于存储计算机程序或指令,该处理器用于获取并执行相应计算机程序或指令,以使该计算机可读存储介质实现实施例所提供的媒资相似度的判定方法。
该判定方法具体包括初始化媒资元数据基础数据库,媒资元数据基础数据库包括多个样本媒资,还包括每个样本媒资的元数据信息;基于对每个待判定媒资的元数据信息与样本媒资的元数据信息的对比,得到待判定媒资与每个样本媒资的相似度,将最大相似度所对应的样本媒资判定为目标媒资。本申请是基于媒资的元数据信息对其相似度进行判断,而该元数据信息是一个多维度的信息,在判断过程中可以尽可能地排除修饰词的干扰,从而使得到的判断结果更为准确。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质 (包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的技术方案进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (14)
1.一种媒资相似度的判定方法,应用于电子设备,其特征在于,所述判定方法包括步骤:
初始化媒资元数据基础数据库,所述媒资元数据基础数据库包括多个样本媒资,还包括每个所述样本媒资的元数据信息;
基于对每个待判定媒资的元数据信息与所述样本媒资的元数据信息的对比,得到所述待判定媒资与每个所述样本媒资的相似度,将最大相似度所对应的所述样本媒资判定为目标媒资。
2.如权利要求1所述的判定方法,其特征在于,所述元数据信息包括标题和系列号,还包括分类、演职人员信息、总集数、发行年份和语言类型中的部分或全部。
3.如权利要求2所述的判定方法,其特征在于,所述初始化媒资源数据基础数据库,包括步骤:
从单一来源获取样本媒资,同时获取所述样本媒资的初始信息;
根据预设的干扰词过滤规则对所述初始信息进行预处理,得到所述元数据信息;
对所述元数据信息中的标题进行抽取处理,得到所述系列号。
4.如权利要求3所述的判定方法,其特征在于,所述根据预设的干扰词过滤规则对所述初始信息进行预处理,包括:
对所述初始信息中各个元素的修饰词进行检测并滤除;
对所述初始信息进行人物检测,得到所述演职人员信息;
对所述元数据信息中的标点符号进行检测并滤除。
5.如权利要求2所述的判定方法,其特征在于,所述基于对每个待判定媒资的元数据信息与所述样本媒资的元数据信息的对比,得到所述待判定媒资与每个所述样本媒资的相似度,将最大相似度所对应的所述样本媒资判定为目标媒资,包括步骤:
对所述待判定媒资的初始信息进行预处理,得到所述待判定媒资的元数据信息;
将所述待判定媒资的元数据信息按预设判断规则依次与每个所述样本媒资的元数据信息进行比较判断,得到所述待判定媒资与每个所述样本媒资的相似度;
将所述相似度大于预设阈值的样本媒资纳入媒资集合;
如果所述媒资集合中存在所述样本媒资,则将最大相似度对应的样本媒资确定为所述目标媒资。
6.如权利要求5所述的判定方法,其特征在于,所述基于对每个待判定媒资的元数据信息与所述样本媒资的元数据信息的对比,得到所述待判定媒资与每个所述样本媒资的相似度,将最大相似度所对应的所述样本媒资判定为目标媒资,还包括步骤:
如果所述媒资集合中没有所述样本媒资,则将所述待判定媒资及其元数据信息纳入所述媒资元数据基础数据库。
7.一种媒资相似度的判定装置,应用于电子设备,其特征在于,所述判定装置包括:
数据库初始模块,被配置为初始化媒资元数据基础数据库,所述媒资元数据基础数据库包括多个样本媒资,还包括每个所述样本媒资的元数据信息;
判断执行模块,被配置为基于对每个待判定媒资的元数据信息与所述样本媒资的元数据信息的对比,得到所述待判定媒资与每个所述样本媒资的相似度,将最大相似度所对应的所述样本媒资判定为目标媒资。
8.如权利要求7所述的判定装置,其特征在于,所述元数据信息包括标题和系列号,还包括分类、演职人员信息、总集数、发行年份和语言类型中的部分或全部。
9.如权利要求8所述的判定装置,其特征在于,所述数据库处置模块包括:
信息获取单元,被配置为从单一来源获取样本媒资,同时获取所述样本媒资的初始信息;
第一预处理单元,被配置为根据预设的干扰词过滤规则对所述初始信息进行预处理,得到所述元数据信息;
抽取处理单元,被配置为对所述元数据信息中的标题进行抽取处理,得到所述系列号。
10.如权利要求9所述的判定装置,其特征在于,所述第一预处理单元被配置为对所述初始信息中各个元素的修饰词进行检测并滤除,对所述初始信息进行人物检测,得到所述演职人员信息,对所述元数据信息中的标点符号进行检测并滤除。
11.如权利要求8所述的判定装置,其特征在于,所述判断执行模块包括:
第二预处理单元,被配置为对所述待判定媒资的初始信息进行预处理,得到所述待判定媒资的元数据信息;
比较执行单元,被配置为将所述待判定媒资的元数据信息按预设判断规则依次与每个所述样本媒资的元数据信息进行比较判断,得到所述待判定媒资与每个所述样本媒资的相似度;
集合处理单元,被配置为将所述相似度大于预设阈值的样本媒资纳入媒资集合;
目标选定单元,被配置为如果所述媒资集合中存在所述样本媒资,则将最大相似度对应的样本媒资确定为所述目标媒资。
12.如权利要求11所述的判定装置,其特征在于,所述判断执行模块还包括:
媒资纳入单元,被配置为如果所述媒资集合中没有所述样本媒资,则将所述待判定媒资及其元数据信息纳入所述媒资元数据基础数据库。
13.一种电子设备,其特征在于,设置有如权利要求7~8任一项所述的判定装置。
14.一种计算机可读存储介质,其特征在于,所述存储介质包括至少一个处理器和与所述处理器连接的存储器,其中:
所述存储器用于存储计算机程序或指令;
所述处理器用于执行所述计算机程序或指令,以使所述存储介质执行如权利要求1~6任一项所述的判定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110545177.XA CN113609315A (zh) | 2021-05-19 | 2021-05-19 | 一种媒资相似度的判定方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110545177.XA CN113609315A (zh) | 2021-05-19 | 2021-05-19 | 一种媒资相似度的判定方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113609315A true CN113609315A (zh) | 2021-11-05 |
Family
ID=78336474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110545177.XA Pending CN113609315A (zh) | 2021-05-19 | 2021-05-19 | 一种媒资相似度的判定方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113609315A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114138994A (zh) * | 2022-01-27 | 2022-03-04 | 北京连屏科技有限公司 | 媒资管理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354283A (zh) * | 2015-10-30 | 2016-02-24 | 北京奇艺世纪科技有限公司 | 一种资源的搜索方法和装置 |
CN105786857A (zh) * | 2014-12-24 | 2016-07-20 | Tcl集团股份有限公司 | 一种提高视频聚合效率的方法及系统 |
CN106354827A (zh) * | 2016-08-31 | 2017-01-25 | Tcl集团股份有限公司 | 一种媒资数据整合方法及系统 |
CN108012192A (zh) * | 2017-12-25 | 2018-05-08 | 北京奇艺世纪科技有限公司 | 一种视频资源的识别和聚合的方法及系统 |
-
2021
- 2021-05-19 CN CN202110545177.XA patent/CN113609315A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105786857A (zh) * | 2014-12-24 | 2016-07-20 | Tcl集团股份有限公司 | 一种提高视频聚合效率的方法及系统 |
CN105354283A (zh) * | 2015-10-30 | 2016-02-24 | 北京奇艺世纪科技有限公司 | 一种资源的搜索方法和装置 |
CN106354827A (zh) * | 2016-08-31 | 2017-01-25 | Tcl集团股份有限公司 | 一种媒资数据整合方法及系统 |
CN108012192A (zh) * | 2017-12-25 | 2018-05-08 | 北京奇艺世纪科技有限公司 | 一种视频资源的识别和聚合的方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114138994A (zh) * | 2022-01-27 | 2022-03-04 | 北京连屏科技有限公司 | 媒资管理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8805123B2 (en) | System and method for video recognition based on visual image matching | |
SG194442A1 (en) | In-video product annotation with web information mining | |
CN110287375B (zh) | 视频标签的确定方法、装置及服务器 | |
US11531839B2 (en) | Label assigning device, label assigning method, and computer program product | |
CN110072140B (zh) | 一种视频信息提示方法、装置、设备及存储介质 | |
KR20190063352A (ko) | 클립 간 유사도 분석에 의한 영상 콘텐츠의 클립 연결 장치 및 방법 | |
CN111314732A (zh) | 确定视频标签的方法、服务器及存储介质 | |
US11756301B2 (en) | System and method for automatically detecting and marking logical scenes in media content | |
CN114626024A (zh) | 一种基于区块链的互联网侵权视频低耗检测方法及系统 | |
CN113609315A (zh) | 一种媒资相似度的判定方法、装置、电子设备和存储介质 | |
KR20200063067A (ko) | 자가 증식된 비윤리 텍스트의 유효성 검증 장치 및 방법 | |
CN113992944A (zh) | 视频编目方法、装置、设备、系统及介质 | |
KR20080046490A (ko) | 몽타주 얼굴 영상을 이용한 얼굴 인식 방법 및 그 장치 | |
US20140307968A1 (en) | Method and apparatus for automatic genre identification and classification | |
CN112818984B (zh) | 标题生成方法、装置、电子设备和存储介质 | |
CN113971402A (zh) | 内容识别方法、装置、介质及电子设备 | |
CN108882033B (zh) | 一种基于视频语音的人物识别方法、装置、设备和介质 | |
CN117292303B (zh) | 判断分段视频类型的方法、装置及电子设备 | |
CN109034040B (zh) | 一种基于演员表的人物识别方法、装置、设备和介质 | |
CN110717091B (zh) | 基于人脸识别的词条数据扩充方法及装置 | |
WO2013054348A2 (en) | A method and system for differentiating textual information embedded in streaming news video | |
Khollam et al. | A survey on content based lecture video retrieval using speech and video text information | |
Zhao et al. | VTLayout: A Multi-Modal Approach for Video Text Layout | |
CN116012755A (zh) | 校园热点事件监测方法、装置、电子设备及存储介质 | |
Mocanu et al. | Automatic extraction of story units from TV news |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |