CN112948632A - 一种基于向量相似性计算的短视频演员同类客户相斥方法 - Google Patents
一种基于向量相似性计算的短视频演员同类客户相斥方法 Download PDFInfo
- Publication number
- CN112948632A CN112948632A CN202110237808.1A CN202110237808A CN112948632A CN 112948632 A CN112948632 A CN 112948632A CN 202110237808 A CN202110237808 A CN 202110237808A CN 112948632 A CN112948632 A CN 112948632A
- Authority
- CN
- China
- Prior art keywords
- client
- clients
- actors
- similar
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/787—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于向量相似性计算的短视频演员同类客户相斥方法,包括如下步骤:S1、客户数据库的基础:客户行业、地域、体量和产品信息库的建立,以及整个库的持续优化与迭代,对商业短视频相关的全行业客户有相对全局的覆盖;S2、客户数据经过了清洗,特征工程,对枚举维度、数值维度做预处理;S3、基于S2产生的归一化过的维度数量适中的数据,然后计算所有客户之间的向量余弦距离;S4、设定相似角度余弦值,计算相斥结果,在商业短视频现有拍摄团队众多,兼职演员使用频繁的情况下,自动化的同类客户演员相斥避免了相似品牌出现同一个演员的尴尬,并且这个过程在平台上的过程做到了自动化和实时化,适合更好的推广使用。
Description
技术领域
本发明涉及大数据技术领域,具体为一种基于向量相似性计算的短视频演员同类客户相斥方法。
背景技术
演员,指在表演艺术中扮演某个角色的表演者,或参加戏曲、戏剧、电影、电视剧、舞蹈、曲艺等表演的专业人员,现有各行业的代理商或者商业短视频团队演员的复用和共享是很普遍的,这样可以降低演员的使用成本,和拍摄安排周期的可靠性,但带来的问题是同样的演员被用在了同行业的竞品公司那里就会出现很大的问题,比如同一个演员β,扮演了教育行业公司A的线上课的物理老师,转眼又扮演了教育行业公司B的线上课数学老师,对双方公司的品牌都会造成各种困扰,所以为了避免这种尴尬的情况,目前对各个行业的商业短视频演员匹配和绑定带来了更高的要求,而实现方式只有业内人士的经验处理或者合同约定,这既不高效,也降低整体短视频拍摄的效率,大幅度提高了演员的使用成本。
发明内容
本发明提供一种基于向量相似性计算的短视频演员同类客户相斥方法,可以有效解决上述背景技术中提出目前对各个行业的商业短视频演员匹配和绑定带来了更高的要求,而实现方式只有业内人士的经验处理或者合同约定,这既不高效,也降低整体短视频拍摄的效率,大幅度提高了演员的使用成本的问题。
为实现上述目的,本发明提供如下技术方案:一种基于向量相似性计算的短视频演员同类客户相斥方法,包括如下步骤:
S1、客户数据库的基础:客户行业、地域、体量和产品信息库的建立,以及整个库的持续优化与迭代,对商业短视频相关的全行业客户有相对全局的覆盖;
S2、客户数据经过了清洗,特征工程,对枚举维度、数值维度做预处理;
S3、基于S2产生的归一化过的维度数量适中的数据,然后计算所有客户之间的向量余弦距离;
S4、设定相似角度余弦值,计算相斥结果。
根据上述技术方案,所述S1中客户数据的是平台的一部分,在制作流程中已经由用户自行录入了包括产品在内的结构化数据,除了用户的录入外,会根据其订单的情况抽取进一步的分类;
所述录入信息包括行业、地域、目标人群维度组;
所述分类包括核心产品品类、服务规模、常用演员类型、素材类型。
根据上述技术方案,所述S2中行业类型枚举维度,单一维度内的离散值维度(行业:在线教育/线下教育/保险),被拆成N个{0,1}的二值维度,原来单一维度扩大到∑Ni个二值维度,表示行业是否是“在线教育”,行业是否是“线下教育”,地域是否是“上海”的;
体量相关数值类维度,按照自然对数LogX计算方法,切成N个离散区间,N个离散区间,再按照枚举维度的方法归一化化为N个独立二值维度,最终将所有维度的值都对齐到[0,1]区间的。
根据上述技术方案,所述S3中没有使用实时KNN(K最近邻,K-NearestNeighbor)算法获得与该客户最相似的TOPK个客户的原因是客户数量并没有达到海量的程度,并且属性相对固定,所以计算的方法是预先计算所有客户之间的向量余弦距离,每增加一个客户,与其他所有向量再做一次预计算,将余弦距离存入数据库中,这样拥有N个客户全库的余弦值库有N^个数。
其中A,B为两个独立的客户向量;
λ为自设阈值常量,当cosθ≥λ时,为过于相似。
根据上述技术方案,所述S4中历史客户与当前客户的值存在过于相似的情况,要在该订单下对相应演员做相斥处理,在新的客户需求进来的时候,匹配出合适的a个演员,针对a个演员的每一个,都找到他的历史服务客户列表l,当l中的任何一个客户与当前客户存在相似度过高(cosθ≥λ)的情况,就做相斥处理;
余弦距离cosθ已经预先计算并存在数据库中了,这个相斥过程可以做到实时出结果,相斥过程对于同品牌客户不做相斥处理。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,在商业短视频现有拍摄团队众多,兼职演员使用频繁的情况下,自动化的同类客户演员相斥避免了相似品牌出现同一个演员的尴尬,并且这个过程在平台上的过程做到了自动化和实时化,适合更好的推广使用。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的方法步骤结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1所示,本发明提供技术方案,一种基于向量相似性计算的短视频演员同类客户相斥方法,包括如下步骤:
S1、客户数据库的基础:客户行业、地域、体量和产品信息库的建立,以及整个库的持续优化与迭代,对商业短视频相关的全行业客户有相对全局的覆盖;
S2、客户数据经过了清洗,特征工程,对枚举维度、数值维度做预处理;
S3、基于S2产生的归一化过的维度数量适中的数据,然后计算所有客户之间的向量余弦距离;
S4、设定相似角度余弦值,计算相斥结果。
根据上述技术方案,S1中客户数据的是平台的一部分,在制作流程中已经由用户自行录入了包括产品在内的结构化数据,除了用户的录入外,会根据其订单的情况抽取进一步的分类;
录入信息包括行业、地域、目标人群维度组;
分类包括核心产品品类、服务规模、常用演员类型、素材类型。
根据上述技术方案,S2中行业类型枚举维度,单一维度内的离散值维度(行业:在线教育/线下教育/保险),被拆成N个{0,1}的二值维度,原来单一维度扩大到∑Ni个二值维度,表示行业是否是“在线教育”,行业是否是“线下教育”,地域是否是“上海”的;
体量相关数值类维度,按照自然对数LogX计算方法,切成N个离散区间,N个离散区间,再按照枚举维度的方法归一化化为N个独立二值维度,最终将所有维度的值都对齐到[0,1]区间的。
根据上述技术方案,S3中没有使用实时KNN(K最近邻,K-NearestNeighbor)算法获得与该客户最相似的TOPK个客户的原因是客户数量并没有达到海量的程度,并且属性相对固定,所以计算的方法是预先计算所有客户之间的向量余弦距离,每增加一个客户,与其他所有向量再做一次预计算,将余弦距离存入数据库中,这样拥有N个客户全库的余弦值库有N^个数。
其中A,B为两个独立的客户向量;
λ为自设阈值常量,当cosθ≥λ时,为过于相似。
根据上述技术方案,S4中历史客户与当前客户的值存在过于相似的情况,要在该订单下对相应演员做相斥处理,在新的客户需求进来的时候,匹配出合适的a个演员,针对a个演员的每一个,都找到他的历史服务客户列表l,当l中的任何一个客户与当前客户存在相似度过高(cosθ≥λ)的情况,就做相斥处理;
余弦距离cosθ已经预先计算并存在数据库中了,这个相斥过程可以做到实时出结果,相斥过程对于同品牌客户不做相斥处理。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,在商业短视频现有拍摄团队众多,兼职演员使用频繁的情况下,自动化的同类客户演员相斥避免了相似品牌出现同一个演员的尴尬,并且这个过程在平台上的过程做到了自动化和实时化,适合更好的推广使用。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于向量相似性计算的短视频演员同类客户相斥方法,其特征在于:包括如下步骤:
S1、客户数据库的基础:客户行业、地域、体量和产品信息库的建立,以及整个库的持续优化与迭代,对商业短视频相关的全行业客户有相对全局的覆盖;
S2、客户数据经过了清洗,特征工程,对枚举维度、数值维度做预处理;
S3、基于S2产生的归一化过的维度数量适中的数据,然后计算所有客户之间的向量余弦距离;
S4、设定相似角度余弦值,计算相斥结果。
2.根据权利要求1所述的一种基于向量相似性计算的短视频演员同类客户相斥方法,其特征在于,所述S1中客户数据的是平台的一部分,在制作流程中已经由用户自行录入了包括产品在内的结构化数据,除了用户的录入外,会根据其订单的情况抽取进一步的分类;
所述录入信息包括行业、地域、目标人群维度组;
所述分类包括核心产品品类、服务规模、常用演员类型、素材类型。
3.根据权利要求1所述的一种基于向量相似性计算的短视频演员同类客户相斥方法,其特征在于,所述S2中行业类型枚举维度,单一维度内的离散值维度(行业:在线教育/线下教育/保险),被拆成N个{0,1}的二值维度,原来单一维度扩大到∑Ni个二值维度,表示行业是否是“在线教育”,行业是否是“线下教育”,地域是否是“上海”的;
体量相关数值类维度,按照自然对数LogX计算方法,切成N个离散区间,N个离散区间,再按照枚举维度的方法归一化化为N个独立二值维度,最终将所有维度的值都对齐到[0,1]区间的。
4.根据权利要求1所述的一种基于向量相似性计算的短视频演员同类客户相斥方法,其特征在于,所述S3中没有使用实时KNN(K最近邻,K-NearestNeighbor)算法获得与该客户最相似的TOPK个客户的原因是客户数量并没有达到海量的程度,并且属性相对固定,所以计算的方法是预先计算所有客户之间的向量余弦距离,每增加一个客户,与其他所有向量再做一次预计算,将余弦距离存入数据库中,这样拥有N个客户全库的余弦值库有N^个数。
6.根据权利要求5所述的一种基于向量相似性计算的短视频演员同类客户相斥方法,其特征在于,所述S4中历史客户与当前客户的值存在过于相似的情况,要在该订单下对相应演员做相斥处理,在新的客户需求进来的时候,匹配出合适的a个演员,针对a个演员的每一个,都找到他的历史服务客户列表l,当l中的任何一个客户与当前客户存在相似度过高(cosθ≥λ)的情况,就做相斥处理;
余弦距离cosθ已经预先计算并存在数据库中了,这个相斥过程可以做到实时出结果,相斥过程对于同品牌客户不做相斥处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110237808.1A CN112948632A (zh) | 2021-03-03 | 2021-03-03 | 一种基于向量相似性计算的短视频演员同类客户相斥方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110237808.1A CN112948632A (zh) | 2021-03-03 | 2021-03-03 | 一种基于向量相似性计算的短视频演员同类客户相斥方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112948632A true CN112948632A (zh) | 2021-06-11 |
Family
ID=76247500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110237808.1A Pending CN112948632A (zh) | 2021-03-03 | 2021-03-03 | 一种基于向量相似性计算的短视频演员同类客户相斥方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112948632A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704411A (zh) * | 2021-08-31 | 2021-11-26 | 平安银行股份有限公司 | 基于词向量的相似客群挖掘方法、装置、设备及存储介质 |
-
2021
- 2021-03-03 CN CN202110237808.1A patent/CN112948632A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704411A (zh) * | 2021-08-31 | 2021-11-26 | 平安银行股份有限公司 | 基于词向量的相似客群挖掘方法、装置、设备及存储介质 |
CN113704411B (zh) * | 2021-08-31 | 2023-09-15 | 平安银行股份有限公司 | 基于词向量的相似客群挖掘方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ahmed et al. | Movie recommendation system using clustering and pattern recognition network | |
JP6833842B2 (ja) | システムリソース利用を改善するためのメディア指紋保持の最適化 | |
CN111368133B (zh) | 一种视频库的索引表建立方法、装置、服务器及存储介质 | |
US20120331011A1 (en) | System and methods thereof for generation of searchable structures respective of multimedia data content | |
CN106951551B (zh) | 联合gist特征的多重索引图像检索方法 | |
CN113159329A (zh) | 模型训练方法、装置、设备及存储介质 | |
CN112948632A (zh) | 一种基于向量相似性计算的短视频演员同类客户相斥方法 | |
CN102193995B (zh) | 一种建立多媒体数据索引、检索的方法及装置 | |
Fraccaro et al. | Indexable probabilistic matrix factorization for maximum inner product search | |
CN114817717A (zh) | 搜索方法、装置、计算机设备和存储介质 | |
Barman et al. | Color image quantization using gaussian particle swarm optimization (CIQ-GPSO) | |
Mokarizadeh et al. | Mining and analysis of apps in Google Play | |
CN111401482A (zh) | 特征点匹配方法及装置、设备、存储介质 | |
CN115393100A (zh) | 资源推荐方法及装置 | |
CN104506895A (zh) | 视频归类方法 | |
CN113781117A (zh) | 营销方案的生成方法、装置、电子设备及计算机存储介质 | |
CN114023397A (zh) | 药物重定向模型生成方法及装置、存储介质、计算机设备 | |
Maheshwari et al. | Movie recommendation system using Apache Spark | |
CN109636943A (zh) | 一种输电线路手持机巡检方法及装置 | |
CN111695526A (zh) | 网络模型生成方法、行人重识别方法及装置 | |
Tian et al. | FA-MCADF: Feature affinity based multiple correspondence analysis and decision fusion framework for disaster information management | |
CN114205410B (zh) | 一种媒体流推送方法、装置、设备及存储介质 | |
Mimura et al. | Video Indexing for Live nature camera on digital earth | |
Kit et al. | LASOM: Location Aware Self-Organizing Map for discovering similar and unique visual features of geographical locations | |
CN115904810B (zh) | 基于人工智能的数据复制容灾方法及容灾系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |