CN111400516B - 标签确定方法、电子设备及存储介质 - Google Patents

标签确定方法、电子设备及存储介质 Download PDF

Info

Publication number
CN111400516B
CN111400516B CN202010180188.8A CN202010180188A CN111400516B CN 111400516 B CN111400516 B CN 111400516B CN 202010180188 A CN202010180188 A CN 202010180188A CN 111400516 B CN111400516 B CN 111400516B
Authority
CN
China
Prior art keywords
sample
similarity
target
label
multimedia resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010180188.8A
Other languages
English (en)
Other versions
CN111400516A (zh
Inventor
刘广东
张洪祯
杨勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202010180188.8A priority Critical patent/CN111400516B/zh
Publication of CN111400516A publication Critical patent/CN111400516A/zh
Application granted granted Critical
Publication of CN111400516B publication Critical patent/CN111400516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种标签确定方法、电子设备及存储介质,其中,上述标签确定方法,包括:确定M个样本多媒体资源中每一个样本多媒体资源与目标多媒体资源的相似值,其中,所述M个样本多媒体资源与P个样本标签关联,M、P均为正整数;基于所述P个样本标签中每一个样本标签关联的样本多媒体资源与所述目标多媒体资源的相似值,确定所述每一个样本标签的评分值;根据所述每一个所述样本标签的评分值确定所述目标多媒体资源关联的目标标签,所述目标标签包括所述P个样本标签中的至少一个样本标签。本发明实施例提供的标签确定方法,能够有效节省标签确定过程所需人力成本,提高多媒体资源的标签的确定效率。

Description

标签确定方法、电子设备及存储介质
技术领域
本发明涉及信息处理技术领域,特别是涉及一种标签确定方法、电子设备及存储介质。
背景技术
随着互联网技术的发展,多媒体资源的数量日益庞大。对于例如小说、新闻、论文等文字类型的多媒体资源,通过为其添加标签,可有助于用户快速获取多媒体资源的核心内容,或者从大量多媒体资源中方便地获取感兴趣的部分。现有技术中,通常采用人工标注的方式逐一为多媒体资源确定标签,然而,人工标注的效率通常较低,标签确定过程费时费力。
发明内容
本发明实施例的目的在于提供一种标签确定方法、电子设备及存储介质,以实现对多媒体资源标签确定过程的效率的提升。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种标签确定方法,包括:
确定M个样本多媒体资源中每一个样本多媒体资源与目标多媒体资源的相似值,其中,所述M个样本多媒体资源与P个样本标签关联,M、P均为正整数;
基于所述P个样本标签中每一个样本标签关联的样本多媒体资源与所述目标多媒体资源的相似值,确定所述每一个样本标签的评分值;
根据所述每一个所述样本标签的评分值确定所述目标多媒体资源关联的目标标签,所述目标标签包括所述P个样本标签中的至少一个样本标签。
在本发明实施的第二方面,还提供了一种电子设备,包括:
第一确定模块,用于确定M个样本多媒体资源中每一个样本多媒体资源与目标多媒体资源的相似值,其中,所述M个样本多媒体资源与P个样本标签关联,M、P均为正整数;
第二确定模块,用于基于所述P个样本标签中每一个样本标签关联的样本多媒体资源与所述目标多媒体资源的相似值,确定所述每一个样本标签的评分值;
第三确定模块,用于根据所述每一个所述样本标签的评分值确定所述目标多媒体资源关联的目标标签,所述目标标签包括所述P个样本标签中的至少一个样本标签。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的标签确定方法。
在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的标签确定方法。
本发明实施例提供的标签确定方法,通过获取样本多媒体资源与目标多媒体资源的相似值,并基于相似值,从样本多媒体资源关联的样本标签中确定出与目标多媒体资源关联的目标标签;相对现有的通过人工标注逐一为多媒体资源确定标签的方式,能够有效节省标签确定过程所需人力成本,提高多媒体资源的标签的确定效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的标签确定方法的流程图;
图2为应用了本发明实施例提供的标签确定方法的一个具体应用实施方式的流程图;
图3为应用了本发明实施例提供的标签确定方法的另一个具体应用实施方式的流程图;
图4为本发明实施例提供的电子设备的结构示意图;
图5为本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
如图1所示,本发明实施例提供的标签确定方法,包括:
步骤101,确定M个样本多媒体资源中每一个样本多媒体资源与目标多媒体资源的相似值,其中,所述M个样本多媒体资源与P个样本标签关联,M、P均为正整数;
步骤102,基于所述P个样本标签中每一个样本标签关联的样本多媒体资源与所述目标多媒体资源的相似值,确定所述每一个样本标签的评分值;
步骤103,根据所述每一个所述样本标签的评分值确定所述目标多媒体资源关联的目标标签,所述目标标签包括所述P个样本标签中的至少一个样本标签。
本实施例中,多媒体资源可以是例如电子书(例如古典名著、现代小说、散文等文学作品)、新闻、论文等类型的资源,以下主要以电子书为例进行说明。对于样本多媒体资源,可以是指一预设的电子书库中已关联有至少一个标签的电子书(以下简称样本电子书),相应地,目标多媒体资源可以是预设的电子书库中暂未关联标签的电子书(以下简称目标电子书)。容易理解的是,电子书的标签可以例如“名著”、“盗墓”、“宫廷”、“嫡女”、“言情”、“虐文”、“扮猪吃虎”等用于表现电子书具体内容或者属性的词汇。样本电子书可以是通过人工对电子书库中的一部分电子书进行标签标注来获得,而样本标签可以是指样本电子书关联的任意标签。
上述M个样本多媒体资源,可以是预设的电子书库中的全部样本电子书,也可以是随机或者通过预设规则从电子书库中挑选的部分样本电子书,此处不做具体限定,可以根据实际需要进行选择。由于每本样本电子书均具有关联的至少一个样本标签,全部M本样本电子书可以总共关联了P个不同的样本标签。
在从P个样本标签中确定目标电子书关联的目标标签时,可以针对P个样本标签中的每一个样本标签进行评分,依据评分得到的评分值确定目标标签。例如,可以将P个样本标签对应的评分值进行排序,将评分值排名在前的一个或多个样本标签作为目标标签;或者将评分值超过评分阈值的样本标签作为目标标签等。
每一个样本标签的评分值,可以通过该样本标签关联的全部样本电子书,以及全部样本电子书中每一本样本电子书与目标电子书的相似值来确定。容易理解的是,如果一本样本电子书与目标电子书高度相似,则该样本电子书关联的样本标签的评分值可能会比较高;同理,如果相似值较高的多本样本电子书均关联有某一样本标签,则该样本标签的评分值也可能会比较高。基于相似值确定评分值的具体方式将在下文中进一步说明。
对于如何确定一本样本电子书与目标电子书之间的相似值,可以通过对电子书的语义分析,或者对不同用户的行为数据的分析来获得,此处不做具体限定,可根据实际需要进行选择。
本发明实施例提供的标签确定方法,通过获取样本多媒体资源与目标多媒体资源的相似值,并基于相似值,从样本多媒体资源关联的样本标签中确定出与目标多媒体资源关联的目标标签;相对现有的通过人工标注逐一为多媒体资源确定标签的方式,能够有效节省人力成本,提高多媒体资源的标签的确定效率。
以下结合一具体应用例对本发明实施例提供的标签确定方法进行说明。
设目标多媒体资源为目标电子书A,存在三个样本多媒体资源分别为:样本电子书B1、样本电子书B2以及样本电子书B3。若三个样本多媒体资源关联的全部样本标签为标签L1与标签L2。
通过语义分析或者用户行为数据分析等方式,得到目标电子书A与样本电子书B1、样本电子书B2、样本电子书B3之间的相似值分别为0.7、0.5、0.3。对于标签L1,关联的样本多媒体资源为样本电子书B1与样本电子书B2,对于标签L2,关联的样本多媒体资源为样本电子书B3。通过比较发现:标签L1为与目标电子书A相似值较高的样本多媒体资源所关联的标签,而标签L2为与目标电子书A相似值较低的样本多媒体资源所关联的标签。若最终需要将其中的样本标签确定为目标电子书A的目标标签,则可以将标签L1确定为目标电子书A的目标标签。
在一个示例中,从电子书库中选取进行人工标签标注的电子书时,可以根据电子书的热度、字数或者日期等进行选取。例如,可以基于电子书的阅读量进行排序,选择排序居中的电子书进行人工标注。
在一个示例中,可以预先确定一标签库,在对电子书进行人工标签标注时,可以是标注者基于对电子书内容的阅读与理解,从预设的标签库中选取标签来为该电子书进行标注,进而得到样本电子书。样本电子书的数量通过为多个,全部样本电子书所关联的全部样本标签,优选包括了上述标签库中的全部标签。
可选地,上一实施例中确定所述样本多媒体资源与所述目标多媒体资源的相似值,包括:
计算目标相似度;
基于所述目标相似度,确定所述样本多媒体资源与所述目标多媒体资源的相似值;
其中,所述目标相似度包括第一相似度和/或第二相似度,所述第一相似度由目标多媒体资源的第一语义向量和所述样本多媒体资源的第二语义向量的相似度确定,所述第二相似度由所述目标多媒体资源的第一评价数据和样本多媒体资源的第二评价数据确定。
本实施例中,第一相似度可以认为是电子书之间的文本内容的相似度。例如,首先可以使用分词工具对目标电子书与各本样本电子书的文本内容进行分词,分词工具可以依据文本类型或者其他业务需求(例如文本内容语言、分词准确度、分词效率等等)进行选取,此处不做具体限定;通过分词工具进行分词可得到各电子书对应的词集合,然后可以采用例如word2vector(直译为将词转化成向量)或者词频-逆文档频率(term frequency–inverse document frequency,tf-idf)等文本内容类算法,将电子书的词集合转化成语义向量,具体地,目标电子书对应第一语义向量,样本电子书对应第二语义向量;最后,可以通过余弦定理等方式,计算第一语义向量与第二语义向量之间的相似度,即上述的第一相似度。
第二相似度可以认为是依据用户行为数据得到的电子书之间的相似度。可以理解的是,计算第二相似度的依据可以是默认有相似阅读习惯的用户,所读书的类型(可以对应电子书的标签)会比较相似;而基于用户行为数据,可以获取到用户对各本电子书的评价数据,如对某一类电子书感兴趣或者对某一类电子书不感兴趣,也即用户的阅读习惯。例如,对于较多的用户,若同时收藏并完整阅读了目标电子书与某一本样本电子书,那么该样本电子书的样本标签很有可能可以确定为目标电子书的目标标签。具体来说,可以应用频繁项集发现(Frequent Pattern–growth,FP-growth)或者似然比(Loglikelihood ratio,LLR)等关联规则类算法等,对上述评价数据进行处理得到第二相似度。
以下以LLR算法为例说明如何应用用户行为数据来获得第二相似度:
首先可以针对用户的不同行为赋予不同的分值(以下简称行为分),例如,针对可以反映用户不喜欢某一电子书的行为赋予负值,针对可以反映用户喜欢某一电子书的行为赋予正值,各个行为所对应的具体的行为分可以是:浏览未点击为-1,点击未阅读为-2,阅读时间小于某个阈值为-3,未读完从书架删除为-1,点击为1,阅读为2,加入书架为3,付费为4。通过对用户关于某一电子书的各个行为的行为分的叠加,可以得到该用户关于该电子书的兴趣得分。然后,可以将兴趣得分与兴趣分阈值进行比较,判断用户是否喜欢该电子书(即对应了评价数据,可选地,也可以直接将兴趣得分作为评价数据);最后可以基于用户喜欢的电子书和用户不喜欢的电子书,使用LLR算法计算电子书之间的相似度,例如目标电子书与样本电子书之间的第二相似度。
在一可行的实施方式中,考虑到过于热门的多本电子书,即便书的类型相差很大,也可能被较多的用户同时收藏或阅读,进而导致第二相似度的计算存在较大偏差(对于过于冷门的电子书同样如此),因此,在选择进行人工标签标注的电子书时,可以选择热度居中的电子书,即不过于热门或者不过于冷门的电子书。
本实施例中,可以是单独基于第一相似度,或者单独基于第二相似度,或者是同时基于第一相似度与第二相似度,确定样本多媒体资源与目标多媒体资源的相似值,能够有效提高标签确定方法的适用范围。
在一个示例中,用于确定与目标多媒体资源的相似值的样本多媒体资源可以是指上文中提供的预设的电子书库中的每一本样本电子书,而M个样本多媒体资源可以是依据电子书库中所有样本电子书对应的相似值的大小排序而确定的,例如:M是预设的固定值,M个样本多媒体资源是对应的相似值排名在前M的样本电子书;或者,M个样本多媒体资源是对应的相似值超过一相似阈值的样本电子书。
在一个示例中,目标相似度包括了第一相似度与第二相似度,此时,基于目标相似度,确定所述样本多媒体资源与所述目标多媒体资源的相似值,包括:
获取所述第一相似度的第一权重与所述第二相似度的第二权重;
依据所述第一相似度、所述第二相似度、所述第一权重以及所述第二权重,加权计算所述目标多媒体资源与所述样本多媒体资源的相似值。
本实施例中,综合了电子书的具体内容的相似度以及基于用户行为数据确定的相似度,来计算目标电子书与样本电子书的相似值,可以有效减小因偶然因素导致的相似值计算误差。例如:“真实历史”类和“架空历史”类的电子书可能在具体内容的相似度(即第一相似度)上较高,但是可能在受众上存在差异,导致第二相似度较低。再例如:比较热门的两本电子书,可能同时被较多用户喜欢(第二相似度较高),但可能是完全不同的两类电子书(第一相似度较低)。通过综合两种相似度来确定相似值,可以有效提高相似值的准确性与合理性。
本实施例对第一相似度与第二相似度分别赋予了权重。在一个可行的实施方式中,可以将两类相似度的权重设置为相同值;在另一些可行的实施方式中,可以根据两类相似度对相似值的准确度的贡献差异而设置为不同值;或者,还可以根据实际应用中对相似值的效果,对第一权重与第二权重进行调整,使得相似值的准确性能够得到进一步提高。
可选地,所述获取所述第一相似度的第一权重与所述第二相似度的第二权重,包括:
获取所述P个样本标签中每一个样本标签所归属的标签类别;
依据所述标签类别,确定所述第一相似度的第一权重与所述第二相似度的第二权重。
可以理解的是,目标电子书与一本样本电子书之间的第一相似度与第二相似度可以是经过计算确定好的,例如分别是0.5和0.6;若第一权重与第二权重均为固定值,例如均为0.5,则可以直接计算得到目标电子书与该样本电子书之间的相似值为0.55。但是在实际应用中,两类相似度对应的算法对不同类别的标签的侧重不同,基于文本内容计算的第一相似度可能在内容元素类别的标签上表现会比较好,例如“盗墓”、“宫廷”、“嫡女”等标签;而基于关联规则计算的第二相似度可能在风格类别的标签表现会更好,比如“言情”、“虐文”、“扮猪吃虎”等标签。因此,可以根据样本标签所归属的标签类别,来分别确定第一相似度的第一权重与第二相似度的第二权重。例如,若需要对目标电子书确定上述的内容元素类别的标签,可以将第一权重设为0.6,将第二权重设为0.4;若需要对目标电子书确定上述的风格类别的标签,可以将第一权重设为0.4,第二权重设为0.6。
可见,基于标签类别来确定上述的第一权重与第二权重,有助于在不同类别标签标注业务中,根据实际的业务需求,确定出有利于提高相似值准确性的计算方式,进而能够针对不同类别的标签都能够起到较好的标注效果。
可选地,所述步骤102,基于所述P个样本标签中每一个样本标签关联的样本多媒体资源与所述目标多媒体资源的相似值,确定所述每一个样本标签的评分值,包括:
获取所述P个样本标签中第一样本标签关联的N个样本多媒体资源,其中,所述第一样本标签为所述P个样本标签中的任一个样本标签,所述N个样本多媒体资源为所述M个样本多媒体资源中的全部或部分样本多媒体资源,N为小于或等于M的正整数;
获取所述N个样本多媒体资源中每一个样本多媒体资源关于所述第一样本标签的标签值;
依据所述标签值与所述N个样本多媒体资源中每一个样本多媒体资源对应的所述相似值,确定所述第一样本标签的评分值,其中,LA=∑i N =1lBi×bi,LA为所述第一样本标签的评分值,lBi为第i个样本多媒体资源对应的相似值,bi为第i个样本多媒体资源对应的标签值,i为小于或等于N的正整数。
本实施例中,在人工对电子书进行标签标注来获得样本电子书时,可以针对该样本电子书关联的各个样本标签,分别赋予对应的标签值。例如,针对目标电子书A,对应有样本电子书B1、样本电子书B2以及样本电子书B3三本样本电子书,且目标电子书A与三本样本电子书之间的相似值分别为0.7、0.5、0.3。样本电子书B1关联有标签L1、标签L2以及标签L3三个样本标签,三个样本标签的标签值可以分别为0.6、0.3、0.1;样本电子书B2关联有标签L1与标签L2两个样本标签,两个样本标签的标签值分别为0.5、0.5;样本电子书B2关联有标签L2与标签L3两个样本标签,两个样本标签的标签值分别为0.6、0.4。
当第一样本标签为标签L1时,N个样本多媒体资源即样本电子书B1与样本电子书B2,此时,第一样本标签,即标签L1的评分值为0.7×0.6+0.5×0.5=0.67;与之类似的,标签L2的评分值为0.7×0.3+0.5×0.5+0.3×0.6=0.64;标签L3的评分值为0.5×0.1+0.3×0.4=0.17。
在得到各个样本标签的评分值后,即可根据评分值从样本标签中确定目标标签,具体方式此处不再赘述。
本实施例中,样本多媒体资源关联的样本标签具有对应的标签值,针对每一个样本标签,确定与该样本标签关联的样本多媒体资源,并依据样本多媒体资源与目标多媒体资源的相似值,以及样本多媒体资源关于该样本标签的标签值,来确定该样本标签的评分值。也就是说,针对每个样本标签,综合考虑了关联该样本标签的样本多媒体资源的数量、相似值以及标签值三个条件来确定评分值,能够有效提高评分值的准确性。
在一个示例中,在为目标电子书确定了目标标签后,也可以对目标标签分配标签值,考虑到各个目标标签的评分值的数值可能会比较大,可以将这些评分值进行归一化或其他方式处理后,得到目标标签的标签值。
可选地,所述步骤103,根据所述每一个所述样本标签的评分值确定所述目标多媒体资源关联的目标标签之后,所述标签确定方法还包括:
获取所述目标多媒体资源所归属的资源类别,以及所述资源类别对应的标签标注规则,所述标签标注规则包括:针对所述资源类别下的多媒体资源添加第一预设标签,和/或,针对所述资源类别下的多媒体资源删除第二预设标签;
依据所述标签标注规则,对所述目标多媒体资源关联的目标标签进行调整。
同样以电子书为例,本实施例中,可以预先对电子书划分类别,例如,对于《封神榜》、《西游记》、《三国演义》等电子书,可以预先归为名著一类;对于《史记》、《资治通鉴》、《战国策》等电子书,可以预先归为史书一类。
在对例如《封神榜》这一目标电子书确定目标标签时,虽然该目标电子书存在修仙的特性,但是目标标签出现“修仙”明显不太合适,而相应地,可以使其目标标签带有“名著”。
标签标注规则可以是针对不同的资源类别建立相应的标签黑名单,和/或,标签白名单来实现。例如,对于名著类别,建立的标签黑名单中可以包括“玄幻”、“修仙”等标签(对应为第二预设标签),建立的标签白名单中可以包括“名著”等标签(对应为第一预设标签)。如果根据样本标签的评分值,将名著类别下的一本目标电子书的目标标签确定为“修仙”,则进一步依据标签标注规则,将“修仙”标签删除,并添加“名著”标签,最终为该目标电子书确定的标签为“名著”。
本实施例通过标签标注规则对目标多媒体资源关联的目标标签进行调整,能够有效提升标签确定结果的合理性,同时可以满足个性化标签标注的需求。
可选地,所述步骤103,根据所述每一个所述样本标签的评分值确定所述目标多媒体资源关联的目标标签之后,所述方法还包括:
将关联有所述目标标签的所述目标多媒体资源作为样本多媒体资源。
可以理解的是,当为目标电子书确定了关联的目标标签后,该目标电子书及其目标标签,也可以作为其他暂未关联有标签的电子书进行标签确定的依据,即将确定了目标标签的目标电子书作为样本电子书。这样可以增加样本电子书的数量,有助于提高后续标签确定过程的准确性。
在一个示例中,在完成对目标多媒体资源的标签确定后,可以统计预设的电子书库中,关联有标签的电子书占全部电子书的比例,即关联有标签的电子书的覆盖度。如果上述覆盖度未达到覆盖阈值,则将上述完成标签确定的目标电子书作为样本多媒体资源,将预设的电子书库中未关联标签的电子书中的至少一本电子书作为目标多媒体资源,返回执行确定M个样本多媒体资源中每一个样本多媒体资源与目标多媒体资源的相似值的步骤,直至上述覆盖度满足覆盖阈值。
以下结合一具体应用实施方式对本发明实施例提供的标签确定方法进行说明。如图2所示,该实施方式中,上述标签确定方法包括:
步骤211,对电子书进行分词;
可以采用分词工具对目标电子书与样本电子书的文本内容进行分词,得到各个电子书分别对应的词集合;
步骤212,文本相似度计算;
使用word2vector或者tf-idf等算法,针对各个电子书分别对应的词集合,进行文本相似度的计算;
步骤213,计算文本相似打分,获得电子书之间的相似度打分;
可以理解的是,相似度打分可以是文本相似度的值,也可以是对相似度进行处理后得到的分值,例如对相似度进行排序后,按照序号分别赋予相似度分值;
步骤221,用户行为数据获取;
用户行为数据可以是指不同用户对不同电子书进行阅读、收藏等操作所对应的数据;
步骤222,关联规则计算;
基于用户行为数据,可以获得不同用户对不同电子书的兴趣程度,或者称为不同用户对不同电子书的评价数据;使用FP-growth或者LLR等关联规则类算法,针对评价数据,可以进行关联度的计算;
步骤223,计算关联度打分,获得每本电子书之间的关联度打分;
关联度可以认为是基于用户行为数据获得的电子书之间的相似度;与上述针对文本相似度的相似度打分类似,关联度打分可以是关联度的值,也可以是对关联度处理后得到的分值;
步骤230,算法打分融合;
即对步骤213得到的相似度打分与步骤223得到的关联度打分进行融合,得到反映不同电子书之间的一个综合的相似度,以下简称相似值;
步骤240,对每本目标电子书选取相似值最高的M本样本电子书;
与目标电子书存在相应的相似值的样本电子书的数量可能较多,可以选择其中相似值大小排名在前的M本样本电子书,用于目标电子书的标签确定;
步骤250,计算目标电子书的标签打分;
M本样本电子书可能关联有多个样本标签,针对每一个样本标签,进行标签打分,最后可以将标签打分的分值最高的一个或多个样本标签,确定为目标电子书的目标标签。至于对样本标签进行标签打分的方式,可使用上文中的样本标签的评分值的计算方式,此处不再赘述。
进一步地,在完成目标电子书的目标标签的确定及标注后,还可以继续判断标注了标签的电子书的数量是否满足要求。具体来说,如图3所示,上述标签确定方法包括:
步骤310,获取已标注标签的样本电子书;
此处已标注标签的样本电子书可以是指通过人工标签标注得到的电子书;
步骤320,通过算法对未标注标签的电子书进行标签标注;
即对目标电子书进行目标标签的确定及标注;
步骤330,计算覆盖度;
进行人工标签标注得到的样本电子书,以及确定并标注了目标标签的目标电子书,均是关联了标签的电子书;通过计算关联了标签的电子书,在预设的电子书库中所有电子书中的占比,得到上述的覆盖度;
步骤340,判断覆盖度是否小于阈值;
判断覆盖度是否小于覆盖度阈值,若是,则执行步骤350,若否,则可以结束标签确定过程;
步骤350,标签标注结果纳入样本;
将确定了目标标签的目标电子书,归入到样本电子书中,返回执行步骤310。
如图4所示,本发明实施例还提供了一种电子设备,包括:
第一确定模块401,用于确定M个样本多媒体资源中每一个样本多媒体资源与目标多媒体资源的相似值,其中,所述M个样本多媒体资源与P个样本标签关联,M、P均为正整数;
第二确定模块402,用于基于所述P个样本标签中每一个样本标签关联的样本多媒体资源与所述目标多媒体资源的相似值,确定所述每一个样本标签的评分值;
第三确定模块403,用于根据所述每一个所述样本标签的评分值确定所述目标多媒体资源关联的目标标签,所述目标标签包括所述P个样本标签中的至少一个样本标签。
可选地,所述第一确定模块401,包括:
计算子模块,用于计算目标相似度;
第一确定子模块,用于基于所述目标相似度,确定所述样本多媒体资源与所述目标多媒体资源的相似值;
其中,所述目标相似度包括第一相似度和/或第二相似度,所述第一相似度由目标多媒体资源的第一语义向量和所述样本多媒体资源的第二语义向量的相似度确定,所述第二相似度由所述目标多媒体资源的第一评价数据和样本多媒体资源的第二评价数据确定。
可选地,在所述目标相似度包括所述第一相似度和第二相似度的情况下,所述第一确定子模块,包括:
获取单元,用于获取所述第一相似度的第一权重与所述第二相似度的第二权重;
计算单元,用于依据所述第一相似度、所述第二相似度、所述第一权重以及所述第二权重,加权计算所述目标多媒体资源与所述样本多媒体资源的相似值。
可选地,所述获取单元,包括:
获取子单元,用于获取所述P个样本标签中每一个样本标签所归属的标签类别;
确定子单元,用于依据所述标签类别,确定所述第一相似度的第一权重与所述第二相似度的第二权重。
可选地,所述第二确定模块402,包括:
第一获取子模块,用于获取所述P个样本标签中第一样本标签关联的N个样本多媒体资源,其中,所述第一样本标签为所述P个样本标签中的任一个样本标签,所述N个样本多媒体资源为所述M个样本多媒体资源中的全部或部分样本多媒体资源,N为小于或等于M的正整数;
第二获取子模块,用于获取所述N个样本多媒体资源中每一个样本多媒体资源关于所述第一样本标签的标签值;
第二确定子模块,用于依据所述标签值与所述N个样本多媒体资源中每一个样本多媒体资源对应的所述相似值,确定所述第一样本标签的评分值,其中,LA为所述第一样本标签的评分值,lBi为第i个样本多媒体资源对应的相似值,bi为第i个样本多媒体资源对应的标签值,i为小于或等于N的正整数。
可选地,所述电子设备还包括:
获取模块,用于获取所述目标多媒体资源所归属的资源类别,以及所述资源类别对应的标签标注规则,所述标签标注规则包括:针对所述资源类别下的多媒体资源添加第一预设标签,和/或,针对所述资源类别下的多媒体资源删除第二预设标签;
调整模块,用于依据所述标签标注规则,对所述目标多媒体资源关联的目标标签进行调整。
可选地,所述电子设备还包括:
第四确定模块,将关联有所述目标标签的所述目标多媒体资源作为样本多媒体资源。
需要说明的是,该电子设备是与上述标签确定方法对应的电子设备,上述方法实施例中所有实现方式均适用于该电子设备的实施例中,也能达到相同的技术效果。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:
确定M个样本多媒体资源中每一个样本多媒体资源与目标多媒体资源的相似值,其中,所述M个样本多媒体资源与P个样本标签关联,M、P均为正整数;
基于所述P个样本标签中每一个样本标签关联的样本多媒体资源与所述目标多媒体资源的相似值,确定所述每一个样本标签的评分值;
根据所述每一个所述样本标签的评分值确定所述目标多媒体资源关联的目标标签,所述目标标签包括所述P个样本标签中的至少一个样本标签。
可选地,确定所述样本多媒体资源与所述目标多媒体资源的相似值,包括:
计算目标相似度;
基于所述目标相似度,确定所述样本多媒体资源与所述目标多媒体资源的相似值;
其中,所述目标相似度包括第一相似度和/或第二相似度,所述第一相似度由目标多媒体资源的第一语义向量和所述样本多媒体资源的第二语义向量的相似度确定,所述第二相似度由所述目标多媒体资源的第一评价数据和样本多媒体资源的第二评价数据确定。
可选地,在所述目标相似度包括所述第一相似度和第二相似度的情况下,所述基于目标相似度,确定所述样本多媒体资源与所述目标多媒体资源的相似值,包括:
获取所述第一相似度的第一权重与所述第二相似度的第二权重;
依据所述第一相似度、所述第二相似度、所述第一权重以及所述第二权重,加权计算所述目标多媒体资源与所述样本多媒体资源的相似值。
可选地,所述获取所述第一相似度的第一权重与所述第二相似度的第二权重,包括:
获取所述P个样本标签中每一个样本标签所归属的标签类别;
依据所述标签类别,确定所述第一相似度的第一权重与所述第二相似度的第二权重。
可选地,所述基于所述P个样本标签中每一个样本标签关联的样本多媒体资源与所述目标多媒体资源的相似值,确定所述每一个样本标签的评分值,包括:
获取所述P个样本标签中第一样本标签关联的N个样本多媒体资源,其中,所述第一样本标签为所述P个样本标签中的任一个样本标签,所述N个样本多媒体资源为所述M个样本多媒体资源中的全部或部分样本多媒体资源,N为小于或等于M的正整数;
获取所述N个样本多媒体资源中每一个样本多媒体资源关于所述第一样本标签的标签值;
依据所述标签值与所述N个样本多媒体资源中每一个样本多媒体资源对应的所述相似值,确定所述第一样本标签的评分值,其中,LA为所述第一样本标签的评分值,lBi为第i个样本多媒体资源对应的相似值,bi为第i个样本多媒体资源对应的标签值,i为小于或等于N的正整数。
可选地,所述根据所述每一个所述样本标签的评分值确定所述目标多媒体资源关联的目标标签之后,还可以实现如下步骤:
获取所述目标多媒体资源所归属的资源类别,以及所述资源类别对应的标签标注规则,所述标签标注规则包括:针对所述资源类别下的多媒体资源添加第一预设标签,和/或,针对所述资源类别下的多媒体资源删除第二预设标签;
依据所述标签标注规则,对所述目标多媒体资源关联的目标标签进行调整。
可选地,所述根据所述每一个所述样本标签的评分值确定所述目标多媒体资源关联的目标标签之后,还可以实现如下步骤:
将关联有所述目标标签的所述目标多媒体资源作为样本多媒体资源。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的标签确定方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的标签确定方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种标签确定方法,其特征在于,包括:
确定M个样本多媒体资源中每一个样本多媒体资源与目标多媒体资源的相似值,其中,所述M个样本多媒体资源与P个样本标签关联,M、P均为正整数;
基于所述P个样本标签中每一个样本标签关联的样本多媒体资源与所述目标多媒体资源的相似值,确定所述每一个样本标签的评分值;
根据所述每一个所述样本标签的评分值确定所述目标多媒体资源关联的目标标签,所述目标标签包括所述P个样本标签中的至少一个样本标签;
确定所述样本多媒体资源与所述目标多媒体资源的相似值,包括:
计算目标相似度;
基于所述目标相似度,确定所述样本多媒体资源与所述目标多媒体资源的相似值;
其中,所述目标相似度包括第一相似度和第二相似度,所述第一相似度由目标多媒体资源的第一语义向量和所述样本多媒体资源的第二语义向量的相似度确定,所述第二相似度由所述目标多媒体资源的第一评价数据和样本多媒体资源的第二评价数据确定;
在所述目标相似度包括所述第一相似度和第二相似度的情况下,所述基于目标相似度,确定所述样本多媒体资源与所述目标多媒体资源的相似值,包括:
获取所述第一相似度的第一权重与所述第二相似度的第二权重;
依据所述第一相似度、所述第二相似度、所述第一权重以及所述第二权重,加权计算所述目标多媒体资源与所述样本多媒体资源的相似值;
所述获取所述第一相似度的第一权重与所述第二相似度的第二权重,包括:
获取所述P个样本标签中每一个样本标签所归属的标签类别;
依据所述标签类别,确定所述第一相似度的第一权重与所述第二相似度的第二权重;
所述基于所述P个样本标签中每一个样本标签关联的样本多媒体资源与所述目标多媒体资源的相似值,确定所述每一个样本标签的评分值,包括:
获取所述P个样本标签中第一样本标签关联的N个样本多媒体资源,其中,所述第一样本标签为所述P个样本标签中的任一个样本标签,所述N个样本多媒体资源为所述M个样本多媒体资源中的全部或部分样本多媒体资源,N为小于或等于M的正整数;
获取所述N个样本多媒体资源中每一个样本多媒体资源关于所述第一样本标签的标签值;
依据所述标签值与所述N个样本多媒体资源中每一个样本多媒体资源对应的所述相似值,确定所述第一样本标签的评分值,其中,LA=ΣlBi×biNi,LA为所述第一样本标签的评分值,lBi为第i个样本多媒体资源对应的相似值,Bi为第i个样本多媒体资源对应的标签值,i为小于或等于N的正整数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述每一个所述样本标签的评分值确定所述目标多媒体资源关联的目标标签之后,所述方法还包括:
获取所述目标多媒体资源所归属的资源类别,以及所述资源类别对应的标签标注规则,所述标签标注规则包括:针对所述资源类别下的多媒体资源添加第一预设标签,和/或,针对所述资源类别下的多媒体资源删除第二预设标签;
依据所述标签标注规则,对所述目标多媒体资源关联的目标标签进行调整。
3.根据权利要求1所述的方法,其特征在于,所述根据所述每一个所述样本标签的评分值确定所述目标多媒体资源关联的目标标签之后,所述方法还包括:
将关联有所述目标标签的所述目标多媒体资源作为样本多媒体资源。
4.一种电子设备,其特征在于,包括:
第一确定模块,用于确定M个样本多媒体资源中每一个样本多媒体资源与目标多媒体资源的相似值,其中,所述M个样本多媒体资源与P个样本标签关联,M、P均为正整数;
第二确定模块,用于基于所述P个样本标签中每一个样本标签关联的样本多媒体资源与所述目标多媒体资源的相似值,确定所述每一个样本标签的评分值;
第三确定模块,用于根据所述每一个所述样本标签的评分值确定所述目标多媒体资源关联的目标标签,所述目标标签包括所述P个样本标签中的至少一个样本标签;
所述第一确定模块,包括:
计算子模块,用于计算目标相似度;
第一确定子模块,用于基于所述目标相似度,确定所述样本多媒体资源与所述目标多媒体资源的相似值;
其中,所述目标相似度包括第一相似度和第二相似度,所述第一相似度由目标多媒体资源的第一语义向量和所述样本多媒体资源的第二语义向量的相似度确定,所述第二相似度由所述目标多媒体资源的第一评价数据和样本多媒体资源的第二评价数据确定;
在所述目标相似度包括所述第一相似度和第二相似度的情况下,所述基于目标相似度,确定所述样本多媒体资源与所述目标多媒体资源的相似值,包括:
获取所述第一相似度的第一权重与所述第二相似度的第二权重;
依据所述第一相似度、所述第二相似度、所述第一权重以及所述第二权重,加权计算所述目标多媒体资源与所述样本多媒体资源的相似值;
所述获取所述第一相似度的第一权重与所述第二相似度的第二权重,包括:
获取所述P个样本标签中每一个样本标签所归属的标签类别;
依据所述标签类别,确定所述第一相似度的第一权重与所述第二相似度的第二权重;
所述第二确定模块,包括:
第一获取子模块,用于获取所述P个样本标签中第一样本标签关联的N个样本多媒体资源,其中,所述第一样本标签为所述P个样本标签中的任一个样本标签,所述N个样本多媒体资源为所述M个样本多媒体资源中的全部或部分样本多媒体资源,N为小于或等于M的正整数;
第二获取子模块,用于获取所述N个样本多媒体资源中每一个样本多媒体资源关于所述第一样本标签的标签值;
第二确定子模块,用于依据所述标签值与所述N个样本多媒体资源中每一个样本多媒体资源对应的所述相似值,确定所述第一样本标签的评分值,其中,LA=ΣlBi×biNi,LA为所述第一样本标签的评分值,lBi为第i个样本多媒体资源对应的相似值,bi为第i个样本多媒体资源对应的标签值,i为小于或等于N的正整数。
5.根据权利要求4所述的电子设备,其特征在于,还包括:
获取模块,用于获取所述目标多媒体资源所归属的资源类别,以及所述资源类别对应的标签标注规则,所述标签标注规则包括:针对所述资源类别下的多媒体资源添加第一预设标签,和/或,针对所述资源类别下的多媒体资源删除第二预设标签;
调整模块,用于依据所述标签标注规则,对所述目标多媒体资源关联的目标标签进行调整。
6.根据权利要求4所述的电子设备,其特征在于,还包括:
第四确定模块,将关联有所述目标标签的所述目标多媒体资源作为样本多媒体资源。
7.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-3任一所述的方法步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一所述的方法。
CN202010180188.8A 2020-03-16 2020-03-16 标签确定方法、电子设备及存储介质 Active CN111400516B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010180188.8A CN111400516B (zh) 2020-03-16 2020-03-16 标签确定方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010180188.8A CN111400516B (zh) 2020-03-16 2020-03-16 标签确定方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111400516A CN111400516A (zh) 2020-07-10
CN111400516B true CN111400516B (zh) 2024-04-16

Family

ID=71435228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010180188.8A Active CN111400516B (zh) 2020-03-16 2020-03-16 标签确定方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111400516B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111932324B (zh) * 2020-09-29 2021-01-15 北京每日优鲜电子商务有限公司 界面呈现方法、装置、电子设备和计算机可读介质
CN113704507B (zh) * 2021-10-26 2022-02-11 腾讯科技(深圳)有限公司 数据处理方法、计算机设备以及可读存储介质
CN114639044A (zh) * 2022-03-17 2022-06-17 北京达佳互联信息技术有限公司 标签确定方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200919230A (en) * 2007-10-23 2009-05-01 Inst Information Industry Methods and systems to provide recommended content annotation
WO2018049960A1 (zh) * 2016-09-14 2018-03-22 厦门幻世网络科技有限公司 一种为文本信息匹配资源的方法及装置
CN108595660A (zh) * 2018-04-28 2018-09-28 腾讯科技(深圳)有限公司 多媒体资源的标签信息生成方法、装置、存储介质及设备
WO2019041280A1 (zh) * 2017-08-31 2019-03-07 深圳市云中飞网络科技有限公司 应用资源推荐方法及相关设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180157759A1 (en) * 2016-12-06 2018-06-07 Facebook, Inc. Systems and methods for determination and provision of similar media content item recommendations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200919230A (en) * 2007-10-23 2009-05-01 Inst Information Industry Methods and systems to provide recommended content annotation
WO2018049960A1 (zh) * 2016-09-14 2018-03-22 厦门幻世网络科技有限公司 一种为文本信息匹配资源的方法及装置
WO2019041280A1 (zh) * 2017-08-31 2019-03-07 深圳市云中飞网络科技有限公司 应用资源推荐方法及相关设备
CN108595660A (zh) * 2018-04-28 2018-09-28 腾讯科技(深圳)有限公司 多媒体资源的标签信息生成方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN111400516A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN108073568B (zh) 关键词提取方法和装置
CN109885770B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN110489639B (zh) 一种内容推荐方法及装置
CN111400516B (zh) 标签确定方法、电子设备及存储介质
CN108376129B (zh) 一种纠错方法及装置
CN109189990B (zh) 一种搜索词的生成方法、装置及电子设备
CN109819015B (zh) 基于用户画像的信息推送方法、装置、设备及存储介质
CN110334356A (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
CN111767713A (zh) 关键词的提取方法、装置、电子设备及存储介质
CN110321560B (zh) 一种从文本信息中确定位置信息的方法、装置及电子设备
CN111984867B (zh) 一种网络资源确定方法及装置
CN111639696A (zh) 一种用户分类方法及装置
CN112905885B (zh) 向用户推荐资源的方法、装置、设备、介质和程序产品
CN112287225B (zh) 一种对象推荐方法及装置
CN113656575A (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN113407584A (zh) 标签抽取方法、装置、设备及存储介质
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN110427496B (zh) 用于文本处理的知识图谱扩充方法及装置
CN110633408A (zh) 智能商业资讯的推荐方法和系统
CN108920492B (zh) 一种网页分类方法、系统、终端及存储介质
CN116306891A (zh) 召回模型训练方法及推荐方法、装置、电子设备
CN111026913B (zh) 一种视频分发方法、装置、电子设备及存储介质
CN110825847B (zh) 目标人物间亲密度识别方法、装置、电子设备及存储介质
CN113901328A (zh) 信息推荐方法和装置、电子设备和存储介质
CN114003772A (zh) 一种视频搜索方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant