CN110555137A - 一种标签补齐方法及装置 - Google Patents
一种标签补齐方法及装置 Download PDFInfo
- Publication number
- CN110555137A CN110555137A CN201810287854.0A CN201810287854A CN110555137A CN 110555137 A CN110555137 A CN 110555137A CN 201810287854 A CN201810287854 A CN 201810287854A CN 110555137 A CN110555137 A CN 110555137A
- Authority
- CN
- China
- Prior art keywords
- entity
- vector
- representation vector
- representation
- triples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种标签补齐方法及装置,涉及多媒体技术领域,能够为缺失标签的视频生成标签,以及在一定程度上避免不同视频标签的同质化。包括:获取第一实体的候选标签集合;所述候选标签集合包括关系表示向量以及至少一个标签值表示向量;计算每一个所述标签值表示向量基于所述关系表示向量与所述第一实体的实体表示向量的匹配度;所述实体表示向量是根据所述第一实体的标识确定的表示向量;将与所述第一实体的实体表示向量匹配度较高的前N个标签值表示向量对应的标签作为为所述第一实体的标签;所述N为大于等于1的整数。
Description
技术领域
本申请实施例涉及多媒体技术领域,尤其涉及一种标签补齐方法及装置。
背景技术
视频运营网站可以利用视频标签来标记视频内容,实现细粒度、多维度的视频索引。现有技术中,首先基于现有视频长评和简介,训练得到视频现有标签中每一个标签的表示向量,并根据表示向量计算标签之间的相似度,将相似的标签构成相似标签簇。对于标签比较匮乏的视频,可以将相似标签簇中除该视频的种子标签以外的其他标签推荐给该视频,从而完成标签的补齐或扩展。
但是,如果视频没有种子标签,如新加入的视频或冷门视频,该技术无法为该视频补齐标签。另外,由于是基于表示向量的相似性来补齐标签,最终导致各个视频的标签在语义上是非常相近的,同质化情况严重。
发明内容
本申请实施例提供一种标签补齐方法及装置,能够为缺失标签的视频生成标签,以及在一定程度上避免不同视频标签的同质化。
为达到上述目的,本申请实施例采用如下技术方案:
第一方面,本申请实施例提供了一种标签补齐方法,包括:对于待补齐标签的第一实体,首先获取第一实体的候选标签集合,其中,候选标签集合包括至少一个标签值表示向量。接着,还可以计算每一个标签值表示向量基于关系表示向量与第一实体的实体表示向量的匹配度,这里的实体表示向量可以是根据第一实体的标识确定的表示向量,关系表示向量指示的关系为标签,关系表示向量可以是根据“标签是”训练得到的表示向量。示例的,A和B满足的关系为“标签”,可以理解为A的标签是B。最后,将与第一实体的实体表示向量匹配度较高的前N个标签值表示向量对应的标签作为为第一实体的标签,其中,N为大于等于1的整数。
本发明实施例提供的标签补齐方法中,计算标签值表示向量在某关系下与实体表示向量的匹配度,即判断标签与实体是否满足该关系。标签值表示向量在某关系表示向量下与实体表示向量匹配,则说明实体名节点(即第一实体的实体表示向量对应的节点)与标签值节点(即标签值表示向量对应的节点)之间存在链接的可能,那么该标签值表示向量所对应的标签可以作为该实体的标签。也就是说,本发明实施例中通过链接预测实现实体的标签补齐,不需要待补齐标签的实体事先有种子标签。另外,本发明实施例决策补齐标签时,考虑的是向量空间中节点间的位置关系(即节点之间是否有链接可能)而非相似关系,因此避免补齐标签的同质化问题。可见,本发明实施例提供的方法能够为缺失标签的实体(如:视频、商品等)生成标签,以及在一定程度上避免不同实体标签的同质化。
结合第一方面,在第一方面的第一种可能的实现方式中,获取第一实体的候选标签集合具体包括:可以根据所有已有标签的实体的元数据确定元数据集合,元数据集合包括至少一个第二实体中每一个第二实体对应的属性以及各个属性对应的属性值;其中,第二实体与第一实体不同。进一步,还可以根据元数据集合生成有效表示向量集合,有效表示向量集合包括实体表示向量、关系表示向量、属性值表示向量、类型值表示向量以及标签值表示向量;最后,根据有效表示向量集合中的标签值表示向量构成候选标签集合。
也就是说,可以对所有实体的元数据进行训练结合,获得很多的表示向量,最终筛选其中的关系表示向量以及标签值表示向量构成候选标签集合。
结合第一方面或以上第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,根据元数据集合生成有效表示向量集合具体包括:根据元数据集合中的属性以及属性值确定M个三元组。其中,三元组包括头实体、关系以及尾实体,头实体与尾实体满足三元组中的“关系”,M为大于等于1的整数。接着,还可以将M个三元组中的每一个三元组的头实体、关系以及尾实体分别转化成表示向量,获得M个三元组中每一个三元组对应的表示向量三元组。需要说明的是,三元组中的“关系”对应的向量为关系表示向量,三元组的头实体对应的表示向量为实体表示向量或属性名表示向量,三元组的尾实体对应的表示向量为属性值表示向量、类型值表示向量或标签值表示向量。在本发实施例中属性名是实体的某一属性的名称,属性值是某个属性维度的具体取值。示例的,“导演”是一个属性名,“周显扬”是具体的属性值。同样,类型名是某一类型的名称,类型值是某个属类型维度的具体取值。例的,“时间”是一个类型值,“人物”也是类型值。
进一步,可以对所有表示向量三元组进行M次有放回的随机采样,获得正例三元组,确定每一个正例三元组对应的负例三元组。需要说明的是,正例三元组中的关系与负例三元组中的关系相同,正例三元组的头实体与负例三元组的头实体不同或正例三元组的尾实体与负例三元组的尾实体不同,负例三元组不在所有表示向量三元组构成的集合中。最后,可以根据正例三元组以及正例三元组对应的负例三元组,在M个三元组对应的表示向量三元组包括的表示向量中确定有效表示向量集合。
也就是说可以根据元数据确定正例三元组以及负例三元组,进一可以在最初向量化后获得的表示向量中确定有效表示向量集合。
结合第一方面或以上第一方面的任意一种可能的实现方式,在第一方面的第三种可能的实现方式中,根据正例三元组以及正例三元组对应的负例三元组,在M个三元组对应的表示向量三元组包括的表示向量中确定有效表示向量集合具体包括:
将正例三元组以及正例三元组对应的负例三元组代入以下公式:判断目标函数L是否收敛;若目标函数L收敛,则根据M个三元组对应的表示向量三元组包括的表示向量构建有效表示向量集合。若目标函数L未收敛,则根据随机梯度下降算法更新所有正例三元组以及所有负例三元组,直至更新后的正例三元组以及负例三元组使得目标函数L收敛;将更新后的正例三元组包括的表示向量确定为有效表示向量;
其中,(h,r,t)代表正例三元组,P为所有正例三元组构成的集合,(h′,r,t′)代表负例三元组,Q为所有正例三元组对应的负例三元组构成的集合,Mh为实数,[x]+表示实数x与0中的较大值,||h||表示向量h的1范数或向量h的2范数。
需要说明的是,目标函数收敛的条件是:迭代次数达到阈值或者目标函数收敛于某个数值。其中,目标函数L收敛于某个数值指的是,连续几次代入正例三元组、负例三元组得到的L值是相同的。
结合第一方面或以上第一方面的任意一种可能的实现方式,在第一方面的第四种可能的实现方式中,根据随机梯度下降算法更新所有正例三元组以及所有负例三元组具体包括:
对于正例三元组中的一个表示向量w,更新后的表示向量w′=w-u*2*|t-h-r|;其中,u为学习率,t为向量w所在正例三元组的尾实体对应的表示向量,h为向量w所在正例三元组的头实体对应的表示向量,r为向量w所在正例三元组的关系对应的表示向量;
对于负例三元组中的一个表示向量w,更新后的表示向量w′=w-u*2*|t′-h′-r|;其中,u为学习率,t′为向量w所在负例三元组的尾实体对应的表示向量,h′为向量w所在负例三元组的头实体对应的表示向量,r为向量w所在负例三元组的关系对应的表示向量。
也就是说,当正例三元组、负例三元组不能使目标函数L收敛,则对正例三元组、负例三元组进行修正,以便重新代入目标函数中进行验证。
结合第一方面或以上第一方面的任意一种可能的实现方式,在第一方面的第五种可能的实现方式中,计算每一个标签值表示向量基于关系表示向量与第一实体的实体表示向量的匹配度具体包括:
根据计算每一个标签值表示向量基于关系表示向量与第一实体的实体表示向量的匹配度系数x;其中,e为第一实体的实体表示向量,r为关系表示向量,f为标签值表示向量,||h||2为向量h的2范数。
需要说明的是,||e+r-f||2越接近于0,表明标签值表示向量f基于关系表示向量r与所述第一实体的实体表示向量e的匹配度越高。由于||e+r-f||2越接近于0匹配度系数越大,因此,匹配度系数x可以代表一个候选标签的标签值表示向量基于一个关系表示向量与所述第一实体的实体表示向量的匹配度,并且匹配度系数x越大候选标签与视频B的匹配度越高。
结合第一方面或以上第一方面的任意一种可能的实现方式,在第一方面的第六种可能的实现方式中,将与第一实体的实体表示向量匹配度较高的前N个标签值表示向量对应的标签作为第一实体的标签具体包括:将匹配度系数较大的前N个标签值表示向量对应的标签确定为第一实体的标签。
第二方面,公开了一种装置,包括:
获取单元,用于获取第一实体的候选标签集合;候选标签集合包括至少一个标签值表示向量;计算单元,用于计算每一个标签值表示向量基于关系表示向量与第一实体的实体表示向量的匹配度,关系表示向量指示的关系为标签,关系表示向量可以是根据“标签是”训练得到的表示向量;实体表示向量是根据第一实体的标识确定的表示向量;标签处理单元,用于将与第一实体的实体表示向量匹配度较高的前N个标签值表示向量对应的标签作为为第一实体的标签;N为大于等于1的整数。
本发明实施例提供的装置,计算标签值表示向量在某关系下与实体表示向量的匹配度,即判断标签与实体是否满足该关系。标签值表示向量在某关系表示向量下与实体表示向量匹配,则说明实体名节点(即第一实体的实体表示向量对应的节点)与标签值节点(即标签值表示向量对应的节点)之间存在链接的可能,那么该标签值表示向量所对应的标签可以作为该实体的标签。也就是说,本发明实施例中通过链接预测实现实体的标签补齐,不需要待补齐标签的实体事先有种子标签。另外,本发明实施例决策补齐标签时,考虑的是向量空间中节点间的位置关系(即节点之间是否有链接可能)而非相似关系,因此避免补齐标签的同质化问题。可见,本发明实施例提供的方法能够为缺失标签的实体(如:视频、商品等)生成标签,以及在一定程度上避免不同实体标签的同质化。
结合第二方面,在第二方面的第一种可能的实现方式中,获取单元具体用于,确定元数据集合,元数据集合包括至少一个第二实体中每一个第二实体对应的属性以及各个属性对应的属性值;根据元数据集合生成有效表示向量集合;有效表示向量集合包括实体表示向量、关系表示向量、属性值表示向量、类型值表示向量以及标签值表示向量;根据有效表示向量集合中的标签值表示向量构成候选标签集合。
结合第二方面或第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,获取单元具体用于,根据元数据集合中的属性以及属性值确定M个三元组;三元组包括头实体、关系以及尾实体,头实体与尾实体满足关系,M为大于等于1的整数;将M个三元组中的每一个三元组的头实体、关系以及尾实体分别转化成表示向量,获得M个三元组中每一个三元组对应的表示向量三元组;三元组中的关系对应的向量为关系表示向量,三元组的头实体对应的表示向量为实体表示向量或属性名表示向量,三元组的尾实体对应的表示向量为属性值表示向量、类型值表示向量或标签值表示向量;对所有表示向量三元组进行M次有放回的随机采样,获得正例三元组,确定每一个正例三元组对应的负例三元组;正例三元组中的关系与负例三元组中的关系相同,正例三元组的头实体与负例三元组的头实体不同或正例三元组的尾实体与负例三元组的尾实体不同,负例三元组不在所有表示向量三元组构成的集合中;根据正例三元组以及正例三元组对应的负例三元组,在M个三元组对应的表示向量三元组包括的表示向量中确定有效表示向量集合。
结合第二方面或第二方面的第一种可能的实现方式,在第二方面的第三种可能的实现方式中,获取单元具体用于,
将正例三元组以及正例三元组对应的负例三元组代入以下公式:判断目标函数L是否收敛;若目标函数L收敛,则根据M个三元组对应的表示向量三元组包括的表示向量构建有效表示向量集合;若目标函数L未收敛,则根据随机梯度下降算法更新所有正例三元组以及所有负例三元组,直至更新后的正例三元组以及负例三元组使得目标函数L收敛;将更新后的正例三元组包括的表示向量确定为有效表示向量集合;其中,(h,r,t)代表正例三元组,P为所有正例三元组构成的集合,(h′,r,t′)代表负例三元组,Q为所有正例三元组对应的负例三元组构成的集合,Mh为实数,[x]+表示实数x与0中的较大值,||h||表示向量h的1范数或向量h的2范数。
结合第二方面或以上第二方面的任意一种可能的实现方式,在第二方面的第四种可能的实现方式中,获取单元具体用于,对于正例三元组中的一个表示向量w,更新后的表示向量w′=w-u*2*|t-h-r|;其中,u为学习率,t为向量w所在正例三元组的尾实体对应的表示向量,h为向量w所在正例三元组的头实体对应的表示向量,r为向量w所在正例三元组的关系对应的表示向量;对于负例三元组中的一个表示向量w,更新后的表示向量w′=w-u*2*|t′-h′-r|;其中,u为学习率,t′为向量w所在负例三元组的尾实体对应的表示向量,h′为向量w所在负例三元组的头实体对应的表示向量,r为向量w所在负例三元组的关系对应的表示向量。
结合第二方面或以上第二方面的任意一种可能的实现方式,在第二方面的第五种可能的实现方式中,计算单元具体用于,
根据计算每一个标签值表示向量基于关系表示向量与第一实体的实体表示向量的匹配度系数x;其中,e为第一实体的实体表示向量,r为关系表示向量,f为标签值表示向量,||h||2为向量h的2范数。
结合第二方面或以上第二方面的任意一种可能的实现方式,在第二方面的第六种可能的实现方式中,标签处理单元具体用于,将匹配度系数较大的前N个标签值表示向量确定为第一实体的标签。
附图说明
图1为现有技术补齐标签的原理框图;
图2为本发明实施例提供的标签分析挖掘系统的架构图;
图2a为本发明实施例提供的标签补齐方法的原理示意图;
图3为本发明实施例提供的标签补齐方法的流程示意图;
图4为本发明实施例提供的标签补齐方法的另一流程示意图;
图5为本发明实施例提供的装置的结构框图;
图6为本发明实施例提供的装置的另一结构框图;
图7为本发明实施例提供的装置的另一结构框图。
具体实施方式
首先,对本发明实施例涉及的术语进行解释说明,具体如下:
(1)实体:本发明实施例中指的是特定领域内的目标物或个体,比如某视频、某小说、某音乐、某商品等。
(2)表示向量:本发明实施例中指的是表示某个词语的向量。其基本思想是通过学习过程(又称训练过程)将特定领域用特定语言表达的每一个单词映射成固定长度的实数向量,进而形成向量空间。另外,引入“距离度量”计算这些单词在词法/语义上的相似性,其中“距离度量”可以认为是两个向量的距离。示例的,单词“可爱”的表示向量为(x1,y1,z1),单词“甜蜜”的表示向量为(x2,y2,z2),这两个单词在语义上的相似度为向量(x1,y1,z1)与向量(x2,y2,z2)的距离
(3)链接预测:又叫链路预测(Link Prediction),是指通过已知信息,预测尚未有连接的两个节点之间链接的可能性。
(4)标签补齐:是指利用某种内在关联性,将系统中已有但尚不属于当前实体的标签标注到该实体的过程。
在面对不断加入的新内容和新用户时,视频运营网站现有的视频分类体系,已满足不了平台内容管理及用户搜索定位视频的需要。此时,就需要引入视频标签来将内容进行索引和标记。某些冷门视频缺乏标签,热门视频则由许多标签。目前,可以将已生成的标签扩散到其他视频,从而提高标签的分布性,满足用户搜索定位视频的需要。
具体地,参考图1,现有技术首先基于视频的关联长文本,如:视频现有的视频长评和简介,训练得到现有标签集合中每个标签的表示向量,并根据各个标签的表示向量计算标签的相似度,获得相似标签簇。然后,将种子标签(视频已拥有的标签)所属的相似标签簇中的其他标签推荐给视频,从而完成标签的补齐或扩展工作。
但是,如果视频一开始没有种子标签(如:新加入的视频),那么该技术无法为其补齐标签。另外,通过表示向量直接计算标签的相似性,最终各个视频的标签在业务语义上是非常相近的,同质化情况严重。另一方面,现有技术需要通过在关联长文本上训练获得标签的表示向量,一旦已有视频缺乏关联长文本,现有技术将失效,无法实现标签的补齐或扩展工作。
本发明实施例提供的标签补齐方法中,首先获取第一实体的候选标签集合,可以由不同与第一实体的其他实体的标签构成。进一步,针对候选标签集合中的关系表示向量,计算每一个标签值表示向量基于该关系表示向量(属于候选标签集合)与第一实体的实体表示向量的匹配度,将与第一实体的实体表示向量匹配度较高的前N个标签值表示向量对应的标签补齐为所述第一实体的标签。本发明实施例提供的方法,计算标签值表示向量在某关系下与实体表示向量的匹配度,即判断标签与实体是否满足该关系。标签值表示向量在某关系表示向量下与实体表示向量匹配,则说明实体名节点(即第一实体的实体表示向量对应的节点)与标签值节点(即标签值表示向量对应的节点)之间存在链接的可能,那么该标签值表示向量所对应的标签可以作为该实体的标签。也就是说,本发明实施例中通过链接预测实现实体的标签补齐,不需要待补齐标签的实体事先有种子标签。另外,本发明实施例决策补齐标签时,考虑的是向量空间中节点间的位置关系(即节点之间是否有链接可能)而非相似关系,因此避免补齐标签的同质化问题。可见,本发明实施例提供的方法能够为缺失标签的实体(如:视频、商品等)生成标签,以及在一定程度上避免不同实体标签的同质化。
需要说明的是,本发明实施例中的表示向量可以认为是由坐标系(平面坐标系或空间坐标系)的原点与某个空间点确定的,其中,该空间点可以认为是“表示向量对应的节点”。另外,缺失标签的实体指的是没有标签的实体或标签数量匮乏的实体。
本发明实施例提供的方法主要应用于图2所示的标签分析挖掘系统。该系统可以为实体补齐标签,包括视频推荐系统(video recommend system,VRS)、视频搜索系统(video search system,VSS)、视频服务提供平台(vedio service provide,VSP)、行为分析挖掘系统(behavior analyze mining system,BAMS)、标签分析挖掘系统(tag analyzemining system,TAMS)、用户分析挖掘系统(user analyze mining system,UAMS)、内容管理系统(content management system,CMS)以及内容管理系统(user management system,UMS)。具体地,首先从CMS导出视频的元数据及标签,再由TAMS实现表示向量的确定以及表示向量对应节点间的链接预测,最终根据预测的结果自动补齐视频标签,并提供给VSP,进而支撑视频的推荐、搜索等业务。
进一步,参考图2a,CMS包括数据采集模块、TAMS包括标签补齐模块以及元数据导出模块,VSP包括推荐生成模块、数据索引模块以及用户画像模块。具体地,参考图2a:
CMS的数据采集模块,用于维护和导入实体全部的元数据,如:在视频领域,元数据可以是视频的现有标签、视频名、导演、演员、流派以及日期。
标签补齐模块,用于根据实体表示向量对应的节点与标签值表示向量对应的节点间的链接可能性,为实体补齐标签。
元数据导出模块,用于按照外部系统需要的格式导出元数据。
VSP推荐生成模块,用于计算实体元数据间的相似度或实体的标签间的相似度,生成“实体-实体”推荐列表,如:相关视频推荐列表、商品推荐列表等。
VSP数据索引模块,用于根据实体元数据及实体标签,构建索引词-实体的倒排表,索引词源于元数据或标签。
VSP用户画像模块,用于根据实体元数据及实体标签,通过关联用户的观看、收藏、评价等行为,构建用户对实体多个维度的偏好度。
其中,VSP推荐生成模块、VSP推荐生成模块是可选的,本发明实施例对此不作限定。
参考图2a,在本发明实施例中,各个模块之间的协作过程包括以下三个步骤:
1.CMS的数据采集模块向标签补齐模块导入元数据,如:实体的长评、简介、标签等。
2.标签补齐模块基于获取的元数据学习表示向量,根据链接预测实现实体的标签齐。
3.元数据导出模块导出标签,也可以导出元数据。
如图3所示,本发明实施例提供的标签补齐方法,具体包括以下步骤:
301、获取第一实体的候选标签集合;所述候选标签集合包括至少一个标签值表示向量。
需要说明的是,候选标签集合可以由不同与第一实体的其他实体已有的标签生成。如:基于TransE模型对实体(即上述不同与第一实体的其他实体)的已有标签进行向量学习,生成实体已有标签的表示向量,进一步,可以根据这些实体已有标签的表示向量构建第一实体的候选标签集合。标签值可以是实体的具体标签,如:“爱情”、“人性”、“青春”等。
具体实现中,CMS首先采集实体的元数据,并将实体的元数据传递给TAMS。TAMS将实体的属性值都解构成三元组,如:”实体-属性名-属性值”或者”实体-标签-标签值”或“实体-类型-类型值”这样的三元组,在本发明实施例中,三元组中的第一个元素可以称为头实体,三元组中的第二个元素可以称为“关系”,三元组中的第三元素可以称为尾实体,当然头实体、尾实体可以统称为实体。“关系”可以理解为头实体与尾实体满足某种关系。示例的,三元组“2012-类型-时间”,其中“关系”为“类型”,可以认为“2012年”和“时间”在“类型”这一关系下是匹配的,也就是说,“时间”是一个类型值,“2012年”是“时间”。在本发明实施例,头实体可以是“实体”、“属性名”,三元组中的“关系”可以是“属性名”、“类型”或“标签”,其中,“关系”为“属性名”代表头实体和尾实体满足的关系是:尾实体是头实体某个属性维度(“属性名”指示的属性维度,如:演员)下的属性值;“关系”为“标签”代表头实体和尾实体满足的关系是:尾实体是头实体的标签。尾实体可以是“属性值”、“类型值”或“标签值”。
在本发实施例中属性名是实体的某一属性的名称,属性值是某个属性维度的具体取值。示例的,“导演”是一个属性名,“周显扬”是具体的属性值。同样,类型名是某一类型的名称,类型值是某个属类型维度的具体取值。例的,“时间”是一个类型名,“人物”也是类型值。
随后,TAMS将三元组中每一个元素向量化,如:将头实体、关系、尾实体初始化成Dim(该值可以设置)维取值范围在[0-1]间的表示向量,向量化后的三元组可以称为表示向量三元组,其中的每个元素都以表示向量的形式存在。可见,三元组是在实体的元数据基础上生成的,不需要实体必须有大规模的关联长文本。具体地,“实体”向量化后称为实体表示向量,“属性值”向量化后称为属性表示向量,“标签值”向量化后称为标签值表示向量,三元组的“关系”向量化后统一称为关系表示向量,“类型值”向量化后称为类型表示向量。关系表示向量可以是根据“关系”确定的表示向量,标签值表示向量可以是根据实体的标签值确定的表示向量。本发明实施例中“关系”可以是“属性名”、“标签”、“类型”等。
然后,TAMS通过迭代不断学习三元组各元素的表示向量,迭代的终止条件为预设的目标函数L收敛或迭代次数达成。在每一轮迭代中,都会依次对所有的表示向量三元组进行有放回的随机采样(采样次数等于原始样本集中样本个数,即初始正例三元组的个数),动态生成正例三元组,正例三元组中的元素都以表示向量的形式存在。进一步,每次生成正例三元组后还可以根据生成的正例三元组生成负例三元组。具体地,利用头有效取值集合(即初始时所有三元组的头实体构成的集合)和尾有效取值集合(即初始时所有三元组的尾实体构成的集合)对正例三元组中的”头”和”尾”元素(即第1个和最后1个元素)进行随机替换获得临时三元组,并将临时三元组中不在初始的三元组中的三元组作为负例三元组。当然,负例三元组中的元素都以表示向量的形式存在。
接着,还可以将所有正例三元组和对应的负例三元组中的表示向量代入到目标函数L,判断目标函数L是否收敛。若目标函数L不收敛,则调用随机梯度下降算法,更新正例三元组中、负例三元组中的表示向量。一旦目标函数L收敛,则可获得头实体、关系、尾实体的(如:实体名、属性名、属性值、标签名、类型值)的表示向量。至此,基于TransE模型实现了对实体已有标签的向量学习。
最后,针对每一个缺乏关联文本的实体,TAMS还可以提取当前不属于该实体的所有标签构成该实体的候选标签集合。
302、计算每一个所述标签值表示向量基于关系表示向量与所述第一实体的实体表示向量的匹配度;所述实体表示向量是根据所述第一实体的标识确定的表示向量,所述关系表示向量指示的关系为标签。
需要说明的是,关系表示向量指示的关系为标签,关系表示向量可以是根据“标签是”这三个字训练得到的表示向量。示例的,A和B满足的关系为“标签”,可以理解为A的标签是B。标签值表示向量在某关系下与实体表示向量匹配,则说明实体名节点(即第一实体的实体表示向量对应的节点)与标签值节点(即标签值表示向量对应的节点)之间存在链接的可能,那么该标签值表示向量所对应的标签可以作为该实体的标签。
具体实现中,可以根据“实体表示向量+关系表示向量-标签值表示向量”来考量标签值表示向量与实体表示向量的匹配度。“实体表示向量+关系表示向量-标签值表示向量”的2范数越趋近于0,标签值表示向量与实体表示向量越匹配。另外,第一实体的标识可以认为是第一实体的ID,可以将实体的ID转化成取值范围在[0-1]间的表示向量。
303、将与所述第一实体的实体表示向量匹配度较高的前N个标签值表示向量对应的标签作为为所述第一实体的标签;所述N为大于等于1的整数。
需要说明的是,实体表示向量+关系表示向量-标签值表示向量”的2范数越接近于0,即实体表示向量+关系表示向量=标签值表示向量,说明标签值表示向量与标签值表示向量满足关系表示向量指示的关系,那么标签值表示向量对应的标签可以作为该实体的标签。在本发明实施例中认为代入计算后结果越接近0的标签值表示向量与与所述第一实体的实体表示向量的匹配度越高,因此,可以根据实体表示向量+关系表示向量-标签值表示向量”的2范数来确定每个候选标签的匹配打分,接着筛选高于预置阈值的标签并按得分降序排列,最后选择排名TOPN的标签作为补齐的标签。
具体地实现中,可以根据计算每一个标签值表示向量基于候选标签集合中的关系表示向量与所述第一实体的实体表示向量的匹配度系数x。其中,e为所述第一实体的实体表示向量,r为关系表示向量,f为标签值表示向量,||h||2为向量h的2范数。
进一步,按照从大到小的顺序排列所有标签值表示向量与所述第一实体的实体表示向量的匹配度系数x,将匹配度系数较大的前N个标签值表示向量确定为所述第一实体的标签。其中,N为大于等于1的整数。
需要说明的是,上述步骤302、步骤303可看成“节点间链接预测”的过程。可见,本发明实施例提供的方法是通过预测候选标签节点(即候选标签集合中的表示向量对应的节点)与实体名节点(即实体表示向量)的链接关系(标签关系)完成标签补齐,而不是通过判断候选标签与种子标签的相似性完成标签补齐的。
在一些实施例中,所述获取第一实体的候选标签集合具体包括:确定元数据集合,所述元数据集合包括至少一个第二实体中每一个第二实体对应的属性以及各个属性对应的属性值;其中,第二实体与第一实体不同。进一步,还可以根据所述元数据集合生成有效表示向量集合。具体地,所述有效表示向量集合包括实体表示向量、关系表示向量、属性值表示向量、类型值表示向量以及标签值表示向量。最后,可以根据所述有效表示向量集合中的关系表示向量以及标签值表示向量构成所述候选标签集合,也就是说,取出有效表示向量集合中所有关系表示向量以及所有标签值表示向量构建第一实体的候选标签集合。
也就是说,可以基于TransE模型对实体的已有标签进行向量学习,生成实体已有标签的表示向量,进一步,可以根据这些实体已有标签的表示向量构建第一实体的候选标签集合。
在一些实施例中,所述根据所述第二实体的属性值生成所述有效表示向量集合具体包括:首先,根据所述元数据集合中的属性以及属性值确定M个三元组,即将获取到的所有元数据解构为三元组。所述三元组包括头实体、关系以及尾实体,其中,头实体可以是三元组中的第一个元素,关系可以是三元组中的第二个元素,尾实体可以是三元组中的第三个元素。所述头实体与所述尾实体满足所述关系,所述M为大于等于1的整数。
进一步,将所述M个三元组中的每一个三元组的头实体、关系以及尾实体分别转化成表示向量,获得所述M个三元组中每一个三元组对应的表示向量三元组;所述三元组中的关系对应的向量为关系表示向量,所述三元组的头实体对应的表示向量为实体表示向量或属性名表示向量,所述三元组的尾实体对应的表示向量为属性值表示向量、类型值表示向量或标签值表示向量;示例的,将头实体、关系、尾实体初始化成Dim(该值可以设置)维取值范围在[0-1]间的表示向量,向量化后的三元组可以称为表示向量三元组,其中的每个元素都以表示向量的形式存在。
接着,对所有所述表示向量三元组进行M次有放回的随机采样,获得正例三元组,确定每一个所述正例三元组对应的负例三元组;所述正例三元组的关系与所述负例三元组的“关系”相同,所述正例三元组的头实体与所述负例三元组的头实体不同或所述正例三元组的尾实体与所述负例三元组的尾实体不同。所述负例三元组初始正例三元组集合中,所谓初始正例三元组集合即所有所述表示向量三元组构成的集合。
最后,可以根据所述第二实体的正例三元组以及每一个所述正例三元组对应的负例三元组,在所述M个三元组对应的表示向量三元组包括的表示向量中确定所述有效表示向量集合。
具体地,可以将所述根据所有正例三元组以及所有正例三元组对应的负例三元组代入公式判断L是否收敛于0。若所述L未收敛于0,则根据随机梯度下降算法更新所有正例三元组以及所有负例三元组,直至更新后的正例三元组以及负例三元组使得所述L收敛于0。将所述更新后的正例三元组包括的表示向量确定为所述有效表示向量集合;所述更新后的正例三元组包括的头实体对应的表示向量和尾实体对应的表示向量为标签值表示向量,所述更新后的正例三元组包括的关系对应的表示向量为关系表示向量;
上述公式中的(h,r,t)代表正例三元组,P为所述第二实体的正例三元组构成的集合,(h′,r,t′)代表负例三元组,Q为所述第二实体的正例三元组对应的负例三元组构成的集合,所述Mh为实数,所述[x]+表示实数x与0中的较大值,||h||表示向量h的1范数或向量h的2范数。
具体实现中,可以根据以下四个步骤确定Mh:
步骤(1):对于给定头实体h,固定三元组中的“关系”r保持不变,找到正例三元组集合(即所有正例三元组构成的集合)中所有的{(h,r,t)},提取{(h,r,t)}中与h距离最近的t,即确定使得||h-t||取值最小的t。
步骤(2):对于给定头实体h,固定三元组中的“关系”r保持不变,在负例三元组集合(即所有负例三元组构成的集合)中筛选出{(h,r,t’)},即头实体为上述给定头实体,关系为上述固定不变的关系r的三元组。进一步,提取{(h,r,t’)}中与h距离最远的t’,即确定使得||h-t′||取值最大的t’。
步骤(3):根据上述与h距离最近的t以及与h距离最远的t’计算||t-t′||。
步骤(4):重复执行上述步骤(1)到步骤(3),计算出多个||t-t′||,取均值作为Mh。
在一些实施例中,所述根据随机梯度下降算法更新所有正例三元组以及所有负例三元组具体包括:
对于所述正例三元组中的一个表示向量w,更新后的表示向量w′=w-u*2*|t-h-r|;其中,u为学习率,t为向量w所在正例三元组的尾实体对应的表示向量,h为向量w所在正例三元组的头实体对应的表示向量,r为向量w所在正例三元组的“关系”对应的表示向量;
对于所述负例三元组中的一个表示向量w,更新后的表示向量w′=w-u*2*|t′-h′-r|;其中,u为学习率,t′为向量w所在负例三元组的尾实体对应的表示向量,h′为向量w所在负例三元组的头实体对应的表示向量,r为向量w所在负例三元组的“关系”对应的表示向量。
也就是说,将所有正例三元组和对应的负例三元组中的表示向量代入到目标函数L后,若目标函数L不收敛,则调用随机梯度下降算法,更新正例三元组中、负例三元组中的表示向量。
以下视频A、视频B作为示例,详细介绍本发明实施例提供的标签补齐方法,其中,视频A已经存在标签(即本发明实施例所述的第二实体),视频B为待补齐标签的实体(基本发明实施例的第一实体)。具体地,参考图4,所述方法包括以下步骤:
步骤S401:构建三元组并根据三元组确定表示向量三元组。
具体实现中,可以通过以下过程实现三元组的构建:
(1):获取视频A的元数据,即本发明实施例所述的属性值。在本发明实施例中,元数据可以是视频宽表的形式,视频宽表即一个关系型二维表。视频宽表的列可以是视频的多个属性维度,如:ID、名称、导演、演员、流派、地区、上映日期、简介、标签等,每个字段间用不可见字符“\1”分隔,字段内若有多个值,不同值间用不可见字符“\2”分隔;视频宽表的行可以是具体的视频实体。视频宽表通常以文本文件形式存在,如:
ID\1名称\1导演\1演员\1流派\1地区\1上映年份\1简介\1标签(用于定义文本内容的具体格式)
示例的,视频A的视频宽表可以是:0561000000016068\1视频A\1William\1萨尔曼\2Amanda\2Jerry\2\1剧情\2人性\2温情\1印度\12012\1沙希达在出生在巴基斯坦的一个农场,时间如梭,转眼沙希达已经六岁了,可仍然不会讲话,心急如焚的母亲带着她去印度德里的大清真寺朝圣祈愿。在乘火车返回巴基斯坦的途中,小沙希达在母亲沉睡之时下了火车,随着火车隆隆起动,母女两人就这样活生生生地被分隔在国境两端。帕万是一位生活在印度德里的哈努曼神的忠实信徒,至憨而近愚。一次机缘巧合,帕万在街头看到了衣衫褴褛、饥肠辘辘的小沙希达,就把她带回家中,从此帕万的生活发生了重大变化,踏上了送沙希达回家的艰难旅途。\1温暖\2剧情\2喜剧\2歌舞\2印度电影。
(2)将视频宽表转化成三元组。
具体地,可以将视频的属性及其属性值进行拆解,如:构建(实体名,属性名,属性值)的三元组,如:(视频A,演员,萨尔曼),当然还可以根据部分字段的数据类型,构成三元组(属性值,类型,类型名),如:(视频A,时间,2012)、(视频A,人物,萨尔曼);还可以将实体现有的标签转换成三元组(实体名,标签,标签值),如:(视频A,标签,喜剧)。需要说明的是,若一个属性有N个属性值,那么该属性就拆解成N个三元组。示例的,视频A有温暖、剧情、喜剧、歌舞、印度电影这5个标签,生成(实体名,标签,标签值)这种形式的三元组时,可以生成的三元组有(视频A,标签,喜剧)、(视频A,标签,温暖)、(视频A,标签,剧情)、(视频A,标签,歌舞)以及(视频A,标签,印度电影)。
至此,一个原始的视频宽表文件,会分别映射成实体集文件entity2id.txt、关系集文件relation2id.txt(即根据视频多个维度的属性构成的文件)、属性值集文件value2id.txt(即根据视频的属性值构成的文件)、训练集文件train.txt(根据三元组构成的文件)。以下对这些文件的格式进行说明:
(1)实体集文件entity2id.txt,该文件保存了视频实体名及其编号。文件由多行组成,每一行包含两列:第1列为实体ID,第2列为实体ID的编号。两列数据之间用“\t”分割。示例如下:
0581000001303913\t1
0561000000025102\t2
0561000000014614\t3
0561000000016068\t4
…
(2)关系集文件relation2id.txt,该文件保存了“关系”及其编号。其中,“关系”可以认为是视频多个维度的属性。文件由多行组成,每一行包含两列:第1列为关系(属性),第2列为关系的编号。两列数据之间用“\t”分割。示例如下:
名称\t1
导演\t2
演员\t3
流派\t4
地区\t5
年份\t6
类型\t7
标签\t8
…
(3)属性值集文件value2id.txt,该文件保存了属性值及其编号。文件由多行组成,每一行包含两列:第1列为属性值,第2列为属性值的编号。两列数据之间用“\t”分割。示例如下:
2012\t1
萨尔曼\t2
Amand\t3
Jerry\t4
剧情\t5
人性\t6
视频A\t7
…
(4)最终,基于上述entity2id.txt、relation2id.txt以及value2id.txt可以构建训练集文件train.txt,该文件保存了反映了视频属性关系的“实体-属性名-属性值”、“属性值-类型-类型值”以及视频标签关系的“实体-标签-标签值”。文件由多行组成,每一行包含三列:第1列为实体名(又称头实体,对应三元组中第1个元素,记做h),第2列为“关系”(对应三元组中第2个元素,记做r),第三列为属性值(又称尾实体,对应三元组中最后1个元素,记做t,后同)。各列数据之间用“\t”分割。
“实体-属性-属性值”示例如下:
0561000000014614\t演员\t萨尔曼
0561000000014614\t演员\t Amand
0561000000014614\t演员\t Jerry
0561000000014614\t导演\tWilliam
0561000000016068\t类型\t电影
0561000000016068\t名称\t视频A
0561000000016068\t上映时间\t2012
…
“属性值-类型-类型值”示例如下:
2012\t类型\t时间
余文乐\t类型\t人物
萨尔曼\t类型\t人物
Aman\t类型\t人物
…
“实体-标签-标签值”示例如下:
0561000000016068\t标签\t温暖
0561000000016068\t标签\t剧情
0561000000016068\t标签\t喜剧
0561000000016068\t标签\t歌舞
0561000000016068\t标签\t印度电影
…
需要说明的是,entity2id.txt、relation2id.txt、value2id.txt会加载至内存以方便访问。
在具体实现中,根据三元组确定表示向量三元组的具体过程包括:依次读取entity2id、relation2id、value2id文件中每一行的元素,如:“萨尔曼”、“2012”、“类型”等。利用均匀分布随机算法将每一个元素转化成Dim维的表示向量,该表示向量的取值在0-1范围内,并将每一个元素与对应的表示向量保存至内存。其中,Dim的具体取值可以设置,如可以根据视频网站维护人员或视频网站的用户需求进行设定。
步骤S402:根据表示向量三元组构造正例三元组集。
对train.txt对应的表示向量三元组中的三元组进行N次(N等于train.txt中三元组的个数)进行有放回的随机抽样,从而获得某轮迭代所需要的正例三元组集合P={(h,r,t)},并保存至内存。所谓有放回的随机抽样,即每次采样结束后将本次采样的样本放回整体样本中再进行下次抽样。
示例的,train.txt对应的表示向量三元组中包括(h1,r1,t1)、(h2,r2,t2)以及(h3,r3,t3)三个三元组,则对train.txt进行3次有放回的随机采样。第一次采样的结果可以是:(h3,r3,t3),第二次采样的结果可以是(h2,r2,t2),第三次采样的结果是(h2,r2,t2)。需要说明的是,这里只是一种可能的采样结果,本发明实施例对有放回的随机抽样的结果不做限定。
步骤S403:根据正例三元组构造负例三元组集。
对于P={(h,r,t)}中的每一个正例三元组,固定r(即关系),然后分别用entity2id.txt中的实体、value2id.txt中的值分别随机替换正例三元组中的h或t,得到新三元组(h’,r,t)或者(h,r,t’),若新三元组不在train.txt中,则说明成功生成了对应的负例三元组,即新三元组就是负例三元组。否则,再进行随机替换和验证。这些负例三元组集记为N={(h’,r,t’)},其中h’,r,t’依然分别代表三元组的头实体、关系和尾实体。
需要说明的是,在每次对train.txt对应的表示向量三元组进行有放回的随机采样时,都要根据采样获得的正例三元组集构建负例三元组集。也就是说,同样的正例三元组可以对应多个负例三元组。
步骤S404:根据目标函数L更新表示向量三元组中的表示向量。
在本发明实施例中,更新表示向量的目的是,使得正例三元组(h,r,t)应满足h+r=t,而负例三元组满足h’+r!=t’,其中“!=”表示不等于。另外,此处的“+”代表向量的加计算,“=”代表向量的等于计算,“!=”代表向量的不等于计算。为此应设置如下目标函数L:
其中:(h,r,t)是正例三元组,属于集合P;(h’,r,t’)是负例三元组,属于集合N。||*||表示向量*的1或向量*的2范数。其中,向量范数1-范数等于向量各个元素绝对值之和,向量2-范数又叫向量的欧几里得范数,等于向量元素绝对值的平方和再开方。Mh的计算方法参考上述步骤(1)~步骤(4),在此不做赘述。[x]+,表示0和实数x的较大值。
需要说明的是,每轮迭代时都会完全重采样初始的表示向量三元组,这会导致采样正例三元组集合中有可能会出现重复的正例三元组。因此,一个正例三元组(h,r,t)可能对应多个负例三元组(h’,r,t’),需要将所有正例三元组对应的所有负例三元组代入目标函数L中进行验证。
进一步,如果若迭代次数没有达到预定值或者目标函数L没有收敛,还可以更新每一个entity(实体)、relation(关系)、value(值)的表示向量,即对正例三元组以及负例三元组中的表示向量进行更新,具体更新方式如下:
对于任意一个三元组(h,r,t),可以是正例三元组或负例三元组,该三元组更新后的头实体h^=h-u*2*|t-h-r|,该三元组更新后的关系r^=r-u*2*|t-h-r|,该三元组更新后的尾实体t^=t-u*2*||t-h-r|;其中,u为学习率,通常为经验值,“|j|”表示向量j的绝对值运算。
需要说明的是,对于不同维度空间的表示向量,u可以不同。另外,每次更新表示向量后,需要使用向量X的1范数对向量进行规范化处理,即令X=X/||x||1。本发明实施例中的“*”表示乘法运算。
步骤S405:当目标函数L收敛,将视频A的表示向量更新为使得目标函数收敛的表示向量。
也就是说,当迭代次数没有达到预定值或者L函数收敛后,就会得到每一个entity(实体)、relation(关系)、value(值)的表示向量,比如视频“视频A”学习得到的表示向量,即有效表示向量集合:
[0.165963,0.141895,-0.046573,-0.030492,-0.181973,-0.155722,-0.008115,0.139305-0.122368,0.008246,0.178326,0.149461,-0.096322,-0.136397,0.126709,-0.160746,-0.107846,-0.152673,-0.169473,-0.151452,0.115710,0.185473,0.169529,0.002271,-0.096940,0.082594,-0.157725,0.148325,-0.113182,-0.158990,0.013055,-0.063735,-0.093295,0.114467,-0.093022,0.147141,-0.065504,0.161225,0.081945,0.190091,-0.138557,0.183582,0.012448,0.164524,-0.119500,-0.1433660.109497,-0.179581,-0.113213,-0.026855,0.183149,0.029990,-0.154405,0.037277,-0.133470,0.128393,0.096617,-0.114441,0.175726,0.135902]
步骤S406:计算标签与视频的匹配度系数。
对于给定视频B,可以是标签数较少的冷门视频或新上线视频,首先,提取不属于给定视频B的所有标签构成候选标签集合。然后,根据计算每一个候选标签的匹配度系数x。
||e+r-f||2越接近于0,表明标签值表示向量f基于关系表示向量r与所述第一实体的实体表示向量e的匹配度越高。由于||e+r-f||2越接近于0匹配度系数越大,因此,匹配度系数x可以代表一个候选标签的标签值表示向量基于一个关系表示向量与所述第一实体的实体表示向量的匹配度,并且匹配度系数x越大候选标签与视频B的匹配度越高。
需要说明的是,||e+r-f||2为向量(e+r-f)的2范数。关系表示向量r指示的关系为标签,关系表示向量可以是根据“标签是”这三个字训练得到的表示向量。示例的,A和B满足的关系为“标签”,可以理解为A的标签是B。
步骤S407:通过过滤排序生成补齐标签。
对于给定视频B,可以首先根据预置阈值对候选标签进行过滤,如:将匹配度系数x低于预置阈值的标签值表示向量排除。进一步,按照从大到小的顺序剩余标签值表示向量与所述第一实体的实体表示向量的匹配度系数x,将匹配度系数较大的前N个标签值表示向量确定为所述第一实体的标签。
若排除匹配度系数x低于预置阈值的标签值表示向量后候选标签不足N,则取所有候选标签作为补齐的标签。
本发明实施例提供的方法不受语言、领域的限制,也可用于为不同领域的实体补齐。在一些实施例中,本发明实施例除了能够实现视频标签的补齐,还可以实现其他语种的视频补齐,也可实现各种语言环境下商品、音乐、小说等领域的标签补齐。
本发明实施例提供的标签补齐方法可应用于是图5中所示的装置。如图5所示,该装置可以包括至少一个处理器501,存储器502、收发器503以及通信总线504。
下面结合图5对该装置的各个构成部件进行具体的介绍:
处理器501是装置的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器501是一个中央处理器(central processing unit,CPU),也可以是特定集成电路(Application Specific Integrated Circuit,ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路,例如:一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)。
其中,处理器501可以通过运行或执行存储在存储器502内的软件程序,以及调用存储在存储器502内的数据,执行装置的各种功能。
在具体的实现中,作为一种实施例,处理器501可以包括一个或多个CPU,例如图5中所示的CPU0和CPU1。
在具体实现中,作为一种实施例,装置可以包括多个处理器,例如图5中所示的处理器501和处理器505。这些处理器中的每一个可以是一个单核处理器(single-CPU),也可以是一个多核处理器(multi-CPU)。这里的处理器可以指一个或多个装置、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
存储器502可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储装置,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储装置,也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储装置、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器502可以是独立存在,通过通信总线504与处理器501相连接。存储器502也可以和处理器501集成在一起。
其中,所述存储器502用于存储执行本发明方案的软件程序,并由处理器501来控制执行。
收发器503,使用任何收发器一类的装置,用于其他装置之间的通信。当然,收发器503还可以用于与通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(Wireless Local Area Networks,WLAN)等。收发器503可以包括接收单元实现接收功能,以及发送单元实现发送功能。
通信总线504,可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部装置互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
图5中示出的装置结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
上述主要从各个节点之间交互的角度对本申请实施例提供的方案进行了介绍。可以理解的是,装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图6示出了上述装置的一种可能的结构示意图。如图6所示,所述装置包括获取单元601、计算单元602以及标签处理单元603。
获取单元601,用于支持所述装置执行上述实施例中的步骤301,和/或用于本文所描述的技术的其它过程。
计算单元602,用于支持所述装置执行上述实施例中的步骤302,和/或用于本文所描述的技术的其它过程;
标签处理单元603,用于支持所述装置执行上述实施例中的步骤303,和/或用于本文所描述的技术的其它过程;
需要说明的是,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
示例性的,在采用集成的单元的情况下,本申请实施例提供的装置的结构示意图如图7所示。在图7中,该装置包括:处理模块701和通信模块702。处理模块701用于对装置的动作进行控制管理,例如,执行上述获取单元601、计算单元602以及标签处理单元603执行的步骤,和/或用于执行本文所描述的技术的其它过程。通信模块702用于支持装置与其他设备之间的交互。如图7所示,装置还可以包括存储模块703,存储模块703用于存储装置的程序代码和数据。
当处理模块701为处理器,通信模块702为收发器,存储模块703为存储器时,装置可以为图5所示的装置。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (14)
1.一种标签补齐方法,其特征在于,包括:
获取第一实体的候选标签集合;所述候选标签集合包括至少一个标签值表示向量;
计算每一个所述标签值表示向量基于关系表示向量与所述第一实体的实体表示向量的匹配度;所述实体表示向量是根据所述第一实体的标识确定的表示向量;所述关系表示向量指示的关系为标签;
将与所述第一实体的实体表示向量匹配度较高的前N个标签值表示向量对应的标签作为为所述第一实体的标签;所述N为大于等于1的整数。
2.根据权利要求1所述的方法,其特征在于,所述获取第一实体的候选标签集合具体包括:
确定元数据集合,所述元数据集合包括至少一个第二实体中每一个第二实体对应的属性以及各个属性对应的属性值;
根据所述元数据集合生成有效表示向量集合;所述有效表示向量集合包括实体表示向量、关系表示向量、属性值表示向量、类型值表示向量以及标签值表示向量;
根据所述有效表示向量集合中的标签值表示向量构成所述候选标签集合。
3.根据权利2所述的方法,其特征在于,所述根据所述元数据集合生成有效表示向量集合具体包括:
根据所述元数据集合中的属性以及属性值确定M个三元组;所述三元组包括头实体、关系以及尾实体,所述头实体与所述尾实体满足所述关系,所述M为大于等于1的整数;
将所述M个三元组中的每一个三元组的头实体、关系以及尾实体分别转化成表示向量,获得所述M个三元组中每一个三元组对应的表示向量三元组;所述三元组中的关系对应的向量为关系表示向量,所述三元组的头实体对应的表示向量为实体表示向量或属性名表示向量,所述三元组的尾实体对应的表示向量为属性值表示向量、类型值表示向量或标签值表示向量;
对所有所述表示向量三元组进行M次有放回的随机采样,获得正例三元组,确定每一个所述正例三元组对应的负例三元组;所述正例三元组中的关系与所述负例三元组中的关系相同,所述正例三元组的头实体与所述负例三元组的头实体不同或所述正例三元组的尾实体与所述负例三元组的尾实体不同,所述负例三元组不在所有所述表示向量三元组构成的集合中;
根据所述正例三元组以及所述正例三元组对应的负例三元组,在所述M个三元组对应的表示向量三元组包括的表示向量中确定所述有效表示向量集合。
4.根据权利要求3所述的方法,其特征在于,所述根据所述正例三元组以及所述正例三元组对应的负例三元组,在所述M个三元组对应的表示向量三元组包括的表示向量中确定所述有效表示向量集合具体包括:
将所述所述正例三元组以及所述正例三元组对应的负例三元组代入以下公式:判断目标函数L是否收敛;
若所述目标函数L收敛,则根据所述所述M个三元组对应的表示向量三元组包括的表示向量构建所述有效表示向量集合;
若所述目标函数L未收敛,则根据随机梯度下降算法更新所有正例三元组以及所有负例三元组,直至更新后的正例三元组以及负例三元组使得所述目标函数L收敛;将所述更新后的正例三元组包括的表示向量确定为所述有效表示向量集合;
其中,(h,r,t)代表正例三元组,P为所有正例三元组构成的集合,(h′,r,t′)代表负例三元组,Q为所有正例三元组对应的负例三元组构成的集合,所述Mh为实数,所述[x]+表示实数x与0中的较大值,||h||表示向量h的1范数或向量h的2范数。
5.根据权利要求4所述的方法,其特征在于,所述根据随机梯度下降算法更新所有正例三元组以及所有负例三元组具体包括:
对于所述正例三元组中的一个表示向量w,更新后的表示向量w′=w-u*2*|t-h-r|;其中,u为学习率,t为向量w所在正例三元组的尾实体对应的表示向量,h为向量w所在正例三元组的头实体对应的表示向量,r为向量w所在正例三元组的关系对应的表示向量;
对于所述负例三元组中的一个表示向量w,更新后的表示向量w′=w-u*2*|t′-h′-r|;其中,u为学习率,t′为向量w所在负例三元组的尾实体对应的表示向量,h′为向量w所在负例三元组的头实体对应的表示向量,r为向量w所在负例三元组的关系对应的表示向量。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述计算每一个所述标签值表示向量基于所述关系表示向量与所述第一实体的实体表示向量的匹配度具体包括:
根据计算所述每一个标签值表示向量基于所述关系表示向量与所述第一实体的实体表示向量的匹配度系数x;
其中,e为所述第一实体的实体表示向量,r为关系表示向量,f为标签值表示向量,||h||2为向量h的2范数。
7.根据权利要求6所述的方法,其特征在于,所述将与所述第一实体的实体表示向量匹配度较高的前N个标签值表示向量对应的标签作为所述第一实体的标签具体包括:
将匹配度系数较大的前N个标签值表示向量所对应的标签确定为所述第一实体的标签。
8.一种装置,其特征在于,包括:
获取单元,用于获取第一实体的候选标签集合;所述候选标签集合包括至少一个标签值表示向量;
计算单元,用于计算每一个所述标签值表示向量基于关系表示向量与所述第一实体的实体表示向量的匹配度;所述实体表示向量是根据所述第一实体的标识确定的表示向量;所述关系表示向量指示的关系为标签;
标签处理单元,用于将与所述第一实体的实体表示向量匹配度较高的前N个标签值表示向量对应的标签作为为所述第一实体的标签;所述N为大于等于1的整数。
9.根据权利要求8所述的装置,其特征在于,所述获取单元具体用于,确定元数据集合,所述元数据集合包括至少一个第二实体中每一个第二实体对应的属性以及各个属性对应的属性值;
根据所述元数据集合生成有效表示向量集合;所述有效表示向量集合包括实体表示向量、关系表示向量、属性值表示向量、类型值表示向量以及标签值表示向量;
根据所述有效表示向量集合中的标签值表示向量构成所述候选标签集合。
10.根据权利要求9所述的装置,其特征在于,所述获取单元具体用于,根据所述元数据集合中的属性以及属性值确定M个三元组;所述三元组包括头实体、关系以及尾实体,所述头实体与所述尾实体满足所述关系,所述M为大于等于1的整数;
将所述M个三元组中的每一个三元组的头实体、关系以及尾实体分别转化成表示向量,获得所述M个三元组中每一个三元组对应的表示向量三元组;所述三元组中的关系对应的向量为关系表示向量,所述三元组的头实体对应的表示向量为实体表示向量或属性名表示向量,所述三元组的尾实体对应的表示向量为属性值表示向量、类型值表示向量或标签值表示向量;
对所有所述表示向量三元组进行M次有放回的随机采样,获得正例三元组,确定每一个所述正例三元组对应的负例三元组;所述正例三元组中的关系与所述负例三元组中的关系相同,所述正例三元组的头实体与所述负例三元组的头实体不同或所述正例三元组的尾实体与所述负例三元组的尾实体不同,所述负例三元组不在所有所述表示向量三元组构成的集合中;
根据所述正例三元组以及所述正例三元组对应的负例三元组,在所述M个三元组对应的表示向量三元组包括的表示向量中确定所述有效表示向量集合。
11.根据权利要求10所述的装置,其特征在于,所述获取单元具体用于,
将所述所述正例三元组以及所述正例三元组对应的负例三元组代入以下公式:判断目标函数L是否收敛;
若所述目标函数L收敛,则根据所述所述M个三元组对应的表示向量三元组包括的表示向量构建所述有效表示向量集合;
若所述目标函数L未收敛,则根据随机梯度下降算法更新所有正例三元组以及所有负例三元组,直至更新后的正例三元组以及负例三元组使得所述目标函数L收敛;将所述更新后的正例三元组包括的表示向量确定为所述有效表示向量集合;
其中,(h,r,t)代表正例三元组,P为所有正例三元组构成的集合,(h′,r,t′)代表负例三元组,Q为所有正例三元组对应的负例三元组构成的集合,所述Mh为实数,所述[x]+表示实数x与0中的较大值,||h||表示向量h的1范数或向量h的2范数。
12.根据权利要求11所述的装置,其特征在于,所述获取单元具体用于,对于所述正例三元组中的一个表示向量w,更新后的表示向量w′=w-u*2*|t-h-r|;其中,u为学习率,t为向量w所在正例三元组的尾实体对应的表示向量,h为向量w所在正例三元组的头实体对应的表示向量,r为向量w所在正例三元组的关系对应的表示向量;
对于所述负例三元组中的一个表示向量w,更新后的表示向量w′=w-u*2*|t′-h′-r|;其中,u为学习率,t′为向量w所在负例三元组的尾实体对应的表示向量,h′为向量w所在负例三元组的头实体对应的表示向量,r为向量w所在负例三元组的关系对应的表示向量。
13.根据权利要求8-12任一项所述的装置,其特征在于,所述计算单元具体用于,
根据计算所述每一个标签值表示向量基于所述关系表示向量与所述第一实体的实体表示向量的匹配度系数x;
其中,e为所述第一实体的实体表示向量,r为关系表示向量,f为标签值表示向量,||h||2为向量h的2范数。
14.根据权利要求13所述的装置,其特征在于,所述标签处理单元具体用于,将匹配度系数较大的前N个标签值表示向量所对应的标签确定为所述第一实体的标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810287854.0A CN110555137A (zh) | 2018-03-31 | 2018-03-31 | 一种标签补齐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810287854.0A CN110555137A (zh) | 2018-03-31 | 2018-03-31 | 一种标签补齐方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110555137A true CN110555137A (zh) | 2019-12-10 |
Family
ID=68733616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810287854.0A Pending CN110555137A (zh) | 2018-03-31 | 2018-03-31 | 一种标签补齐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110555137A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639234A (zh) * | 2020-05-29 | 2020-09-08 | 北京百度网讯科技有限公司 | 用于挖掘核心实体关注点的方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298606A (zh) * | 2011-06-01 | 2011-12-28 | 清华大学 | 基于标签图模型随机游走的图像自动标注方法及装置 |
CN104216882A (zh) * | 2013-05-29 | 2014-12-17 | 华为技术有限公司 | 文件标注方法及装置 |
CN106934032A (zh) * | 2017-03-14 | 2017-07-07 | 软通动力信息技术(集团)有限公司 | 一种城市知识图谱构建方法及装置 |
CN107391577A (zh) * | 2017-06-20 | 2017-11-24 | 中国科学院计算技术研究所 | 一种基于表示向量的作品标签推荐方法和系统 |
CN107506486A (zh) * | 2017-09-21 | 2017-12-22 | 北京航空航天大学 | 一种基于实体链接的关系扩充方法 |
CN107679242A (zh) * | 2017-10-30 | 2018-02-09 | 河海大学 | 融合多信息源耦合张量分解的标签推荐方法 |
-
2018
- 2018-03-31 CN CN201810287854.0A patent/CN110555137A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298606A (zh) * | 2011-06-01 | 2011-12-28 | 清华大学 | 基于标签图模型随机游走的图像自动标注方法及装置 |
CN104216882A (zh) * | 2013-05-29 | 2014-12-17 | 华为技术有限公司 | 文件标注方法及装置 |
CN106934032A (zh) * | 2017-03-14 | 2017-07-07 | 软通动力信息技术(集团)有限公司 | 一种城市知识图谱构建方法及装置 |
CN107391577A (zh) * | 2017-06-20 | 2017-11-24 | 中国科学院计算技术研究所 | 一种基于表示向量的作品标签推荐方法和系统 |
CN107506486A (zh) * | 2017-09-21 | 2017-12-22 | 北京航空航天大学 | 一种基于实体链接的关系扩充方法 |
CN107679242A (zh) * | 2017-10-30 | 2018-02-09 | 河海大学 | 融合多信息源耦合张量分解的标签推荐方法 |
Non-Patent Citations (3)
Title |
---|
ANTOINE BORDES等: ""Irreflexive and Hierarchical Relations as Translations"", 《ICML 2013 WORKSHOP "STRUCTURED LEARNING:INFERRING GRAPHS FROM STRUCTURED AND UNSTRUCTURED INPUTS"》 * |
ANTOINE BORDES等: ""Translating Embeddings for Modeling Multi-relational Data"", 《ADVANCES IN NEURAL INFORMATION PORCESSING SYSTEMS 26(NIPS 2013)》 * |
朱建平: ""面向实体知识的表示学习研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639234A (zh) * | 2020-05-29 | 2020-09-08 | 北京百度网讯科技有限公司 | 用于挖掘核心实体关注点的方法和装置 |
CN111639234B (zh) * | 2020-05-29 | 2023-06-27 | 北京百度网讯科技有限公司 | 用于挖掘核心实体关注点的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tang et al. | Tri-clustered tensor completion for social-aware image tag refinement | |
CN110321482B (zh) | 一种信息的推荐方法、装置及设备 | |
US20200285903A1 (en) | System for time-efficient assignment of data to ontological classes | |
Mcauley et al. | Discovering social circles in ego networks | |
Kumar et al. | Twitter data analytics | |
Wu et al. | Tag completion for image retrieval | |
CN110059198A (zh) | 一种基于相似性保持的跨模态数据的离散哈希检索方法 | |
CN107688605B (zh) | 跨平台数据匹配方法、装置、计算机设备和存储介质 | |
CN110909182A (zh) | 多媒体资源搜索方法、装置、计算机设备及存储介质 | |
CN111966793B (zh) | 基于知识图谱的智慧问答方法、系统和知识图谱更新系统 | |
US20140006166A1 (en) | System and method for determining offers based on predictions of user interest | |
Xu et al. | Instance-level coupled subspace learning for fine-grained sketch-based image retrieval | |
WO2023011382A1 (zh) | 推荐方法、推荐模型训练方法及相关产品 | |
KR102046692B1 (ko) | 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템 | |
CN110851609A (zh) | 表示学习方法及装置 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN113641707B (zh) | 知识图谱消歧方法、装置、设备及存储介质 | |
CN114329051B (zh) | 数据信息识别方法、装置、设备、存储介质及程序产品 | |
CN114330703A (zh) | 搜索模型的更新方法、装置、设备及计算机可读存储介质 | |
Bohra et al. | Group level social media popularity prediction by MRGB and Adam optimization | |
CN114330476A (zh) | 用于媒体内容识别的模型训练方法及媒体内容识别方法 | |
CN116051192A (zh) | 处理数据的方法和装置 | |
CN110555137A (zh) | 一种标签补齐方法及装置 | |
CN113656589B (zh) | 对象属性确定方法、装置、计算机设备及存储介质 | |
Salamat | Heterogeneous Graph-Based Neural Network for Social Recommendations with Balanced Random Walk Initialization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191210 |
|
WD01 | Invention patent application deemed withdrawn after publication |