CN112948632A

CN112948632A - 一种基于向量相似性计算的短视频演员同类客户相斥方法

Info

Publication number: CN112948632A
Application number: CN202110237808.1A
Authority: CN
Inventors: 王梓鉴; 孙伟
Original assignee: Second Shadow Workshop Beijing Technology Co ltd
Current assignee: Second Shadow Workshop Beijing Technology Co ltd
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-06-11

Abstract

本发明公开了一种基于向量相似性计算的短视频演员同类客户相斥方法，包括如下步骤：S1、客户数据库的基础：客户行业、地域、体量和产品信息库的建立，以及整个库的持续优化与迭代，对商业短视频相关的全行业客户有相对全局的覆盖；S2、客户数据经过了清洗，特征工程，对枚举维度、数值维度做预处理；S3、基于S2产生的归一化过的维度数量适中的数据，然后计算所有客户之间的向量余弦距离；S4、设定相似角度余弦值，计算相斥结果，在商业短视频现有拍摄团队众多，兼职演员使用频繁的情况下，自动化的同类客户演员相斥避免了相似品牌出现同一个演员的尴尬，并且这个过程在平台上的过程做到了自动化和实时化，适合更好的推广使用。

Description

一种基于向量相似性计算的短视频演员同类客户相斥方法

技术领域

本发明涉及大数据技术领域，具体为一种基于向量相似性计算的短视频演员同类客户相斥方法。

背景技术

演员，指在表演艺术中扮演某个角色的表演者，或参加戏曲、戏剧、电影、电视剧、舞蹈、曲艺等表演的专业人员，现有各行业的代理商或者商业短视频团队演员的复用和共享是很普遍的，这样可以降低演员的使用成本，和拍摄安排周期的可靠性，但带来的问题是同样的演员被用在了同行业的竞品公司那里就会出现很大的问题，比如同一个演员β，扮演了教育行业公司A的线上课的物理老师，转眼又扮演了教育行业公司B的线上课数学老师，对双方公司的品牌都会造成各种困扰，所以为了避免这种尴尬的情况，目前对各个行业的商业短视频演员匹配和绑定带来了更高的要求，而实现方式只有业内人士的经验处理或者合同约定，这既不高效，也降低整体短视频拍摄的效率，大幅度提高了演员的使用成本。

发明内容

本发明提供一种基于向量相似性计算的短视频演员同类客户相斥方法，可以有效解决上述背景技术中提出目前对各个行业的商业短视频演员匹配和绑定带来了更高的要求，而实现方式只有业内人士的经验处理或者合同约定，这既不高效，也降低整体短视频拍摄的效率，大幅度提高了演员的使用成本的问题。

为实现上述目的，本发明提供如下技术方案：一种基于向量相似性计算的短视频演员同类客户相斥方法，包括如下步骤：

S1、客户数据库的基础：客户行业、地域、体量和产品信息库的建立，以及整个库的持续优化与迭代，对商业短视频相关的全行业客户有相对全局的覆盖；

S2、客户数据经过了清洗，特征工程，对枚举维度、数值维度做预处理；

S3、基于S2产生的归一化过的维度数量适中的数据，然后计算所有客户之间的向量余弦距离；

S4、设定相似角度余弦值，计算相斥结果。

根据上述技术方案，所述S1中客户数据的是平台的一部分，在制作流程中已经由用户自行录入了包括产品在内的结构化数据，除了用户的录入外，会根据其订单的情况抽取进一步的分类；

所述录入信息包括行业、地域、目标人群维度组；

所述分类包括核心产品品类、服务规模、常用演员类型、素材类型。

根据上述技术方案，所述S2中行业类型枚举维度，单一维度内的离散值维度(行业：在线教育/线下教育/保险)，被拆成N个{0，1}的二值维度，原来单一维度扩大到∑Ni个二值维度，表示行业是否是“在线教育”，行业是否是“线下教育”，地域是否是“上海”的；

体量相关数值类维度，按照自然对数LogX计算方法，切成N个离散区间，N个离散区间，再按照枚举维度的方法归一化化为N个独立二值维度，最终将所有维度的值都对齐到[0,1]区间的。

根据上述技术方案，所述S3中没有使用实时KNN(K最近邻，K-NearestNeighbor)算法获得与该客户最相似的TOPK个客户的原因是客户数量并没有达到海量的程度，并且属性相对固定，所以计算的方法是预先计算所有客户之间的向量余弦距离，每增加一个客户，与其他所有向量再做一次预计算，将余弦距离存入数据库中，这样拥有N个客户全库的余弦值库有N^个数。

根据上述技术方案，所述S4中余弦值公式为

其中A，B为两个独立的客户向量；

λ为自设阈值常量，当cosθ≥λ时，为过于相似。

根据上述技术方案，所述S4中历史客户与当前客户的值存在过于相似的情况，要在该订单下对相应演员做相斥处理，在新的客户需求进来的时候，匹配出合适的a个演员，针对a个演员的每一个，都找到他的历史服务客户列表l，当l中的任何一个客户与当前客户存在相似度过高(cosθ≥λ)的情况，就做相斥处理；

余弦距离cosθ已经预先计算并存在数据库中了，这个相斥过程可以做到实时出结果，相斥过程对于同品牌客户不做相斥处理。

与现有技术相比，本发明的有益效果：本发明结构科学合理，使用安全方便，在商业短视频现有拍摄团队众多，兼职演员使用频繁的情况下，自动化的同类客户演员相斥避免了相似品牌出现同一个演员的尴尬，并且这个过程在平台上的过程做到了自动化和实时化，适合更好的推广使用。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的方法步骤结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：如图1所示，本发明提供技术方案，一种基于向量相似性计算的短视频演员同类客户相斥方法，包括如下步骤：

S4、设定相似角度余弦值，计算相斥结果。

根据上述技术方案，S1中客户数据的是平台的一部分，在制作流程中已经由用户自行录入了包括产品在内的结构化数据，除了用户的录入外，会根据其订单的情况抽取进一步的分类；

录入信息包括行业、地域、目标人群维度组；

分类包括核心产品品类、服务规模、常用演员类型、素材类型。

根据上述技术方案，S2中行业类型枚举维度，单一维度内的离散值维度(行业：在线教育/线下教育/保险)，被拆成N个{0，1}的二值维度，原来单一维度扩大到∑Ni个二值维度，表示行业是否是“在线教育”，行业是否是“线下教育”，地域是否是“上海”的；

根据上述技术方案，S3中没有使用实时KNN(K最近邻，K-NearestNeighbor)算法获得与该客户最相似的TOPK个客户的原因是客户数量并没有达到海量的程度，并且属性相对固定，所以计算的方法是预先计算所有客户之间的向量余弦距离，每增加一个客户，与其他所有向量再做一次预计算，将余弦距离存入数据库中，这样拥有N个客户全库的余弦值库有N^个数。

根据上述技术方案，S4中余弦值公式为

其中A，B为两个独立的客户向量；

λ为自设阈值常量，当cosθ≥λ时，为过于相似。

根据上述技术方案，S4中历史客户与当前客户的值存在过于相似的情况，要在该订单下对相应演员做相斥处理，在新的客户需求进来的时候，匹配出合适的a个演员，针对a个演员的每一个，都找到他的历史服务客户列表l，当l中的任何一个客户与当前客户存在相似度过高(cosθ≥λ)的情况，就做相斥处理；

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于向量相似性计算的短视频演员同类客户相斥方法，其特征在于：包括如下步骤：

S4、设定相似角度余弦值，计算相斥结果。

2.根据权利要求1所述的一种基于向量相似性计算的短视频演员同类客户相斥方法，其特征在于，所述S1中客户数据的是平台的一部分，在制作流程中已经由用户自行录入了包括产品在内的结构化数据，除了用户的录入外，会根据其订单的情况抽取进一步的分类；

所述录入信息包括行业、地域、目标人群维度组；

3.根据权利要求1所述的一种基于向量相似性计算的短视频演员同类客户相斥方法，其特征在于，所述S2中行业类型枚举维度，单一维度内的离散值维度(行业：在线教育/线下教育/保险)，被拆成N个{0，1}的二值维度，原来单一维度扩大到∑Ni个二值维度，表示行业是否是“在线教育”，行业是否是“线下教育”，地域是否是“上海”的；

4.根据权利要求1所述的一种基于向量相似性计算的短视频演员同类客户相斥方法，其特征在于，所述S3中没有使用实时KNN(K最近邻，K-NearestNeighbor)算法获得与该客户最相似的TOPK个客户的原因是客户数量并没有达到海量的程度，并且属性相对固定，所以计算的方法是预先计算所有客户之间的向量余弦距离，每增加一个客户，与其他所有向量再做一次预计算，将余弦距离存入数据库中，这样拥有N个客户全库的余弦值库有N^个数。

5.根据权利要求1所述的一种基于向量相似性计算的短视频演员同类客户相斥方法，其特征在于，所述S4中余弦值公式为

其中A，B为两个独立的客户向量；

λ为自设阈值常量，当cosθ≥λ时，为过于相似。

6.根据权利要求5所述的一种基于向量相似性计算的短视频演员同类客户相斥方法，其特征在于，所述S4中历史客户与当前客户的值存在过于相似的情况，要在该订单下对相应演员做相斥处理，在新的客户需求进来的时候，匹配出合适的a个演员，针对a个演员的每一个，都找到他的历史服务客户列表l，当l中的任何一个客户与当前客户存在相似度过高(cosθ≥λ)的情况，就做相斥处理；