CN112818213A - 多媒体业务数据推送方法、装置、设备及存储介质 - Google Patents
多媒体业务数据推送方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112818213A CN112818213A CN202011096611.2A CN202011096611A CN112818213A CN 112818213 A CN112818213 A CN 112818213A CN 202011096611 A CN202011096611 A CN 202011096611A CN 112818213 A CN112818213 A CN 112818213A
- Authority
- CN
- China
- Prior art keywords
- user
- target
- cluster
- service
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 127
- 230000003993 interaction Effects 0.000 claims abstract description 86
- 230000002452 interceptive effect Effects 0.000 claims abstract description 38
- 238000004590 computer program Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 15
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000001914 filtration Methods 0.000 description 6
- 238000000354 decomposition reaction Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请实施例公开了多媒体业务数据推送方法、装置、设备及存储介质,包括:根据初始用户业务数据中的所有用户、所有业务标签及各用户对各业务标签的交互数据生成用户词嵌入向量和标签词嵌入向量;对所有用户的用户词嵌入向量和所有业务标签的标签词嵌入向量聚类得到多个目标用户簇和多个目标业务标签簇,以生成目标用户业务数据;从多个目标用户簇中确定洞察目标用户簇;基于洞察目标用户簇中的各用户对各第一目标业务标签簇的交互数据及所有用户对各第一目标业务标签簇的交互数据,从多个第一目标业务标签簇中确定第二目标业务标签簇,向各用户推送第二目标业务标签簇对应的多媒体业务数据。采用本申请实施例,提高了推送效率和精准度。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种多媒体业务数据推送方法、装置、计算机设备及存储介质。
背景技术
数据管理平台(Data Management Platform,DMP)系统是一个把分散的数据进行归纳统一的技术平台,具有对这些数据进行标准化和细分,生成人群包和人群洞察的功能。
如图1所示,DMP系统可以将数据组织成用户到若干用户标签的映射,每个用户标签(如媒体兴趣)对应一个用户群,用户可以通过交集、并集以及补集的操作来筛选一些标签(如媒体兴趣-体育-田径标签(可以表示为A1)、媒体兴趣-科技-互联网(可以表示为A2)以及媒体兴趣-科技-手机(可以表示为A3))以生成人群包(如A1∪A2∪A3),但是现有的DMP系统标签数目过多且体系复杂,用户难以选择需要的标签纬度以生成人群包。另外,针对人群洞察功能,如图2所示,DMP系统可以对生成的人群包或者用户自己上传的人群包进行人群洞察(如单人群包分析或者双人群包分析)以生成标准人群洞察报告,让用户能够了解自己的目标人群。然而,现有的DMP系统是基于最初数据接入系统时的数据源为模块所生成的标签,其中语义相似的标签是分离的,不利于用户进行对比分析,用户使用体验较低。
发明内容
本申请实施例提供一种多媒体业务数据推送方法、装置、设备及存储介质,可以提高用户使用体验,且目标业务标签簇体系简单,同时也提高了多媒体业务数据推送效率和精准度。
本申请实施例一方面提供一种多媒体业务数据推送方法,该方法包括:
获取初始用户业务数据,初始用户业务数据中包括多个用户、多个业务标签以及各用户对各业务标签的交互数据;
根据初始用户业务数据中包括的所有用户、所有业务标签以及各用户对各业务标签的交互数据生成用户词嵌入向量和标签词嵌入向量,其中一个用户对应一个用户词嵌入向量,一个业务标签对应一个标签词嵌入向量;
对所有用户对应的用户词嵌入向量进行聚类得到多个目标用户簇,对所有业务标签对应的标签词嵌入向量进行聚类得到多个目标业务标签簇,并根据多个目标用户簇和多个目标业务标签簇生成目标用户业务数据,目标用户业务数据中包括各目标业务标签簇对应的目标用户簇;
从多个目标用户簇中确定出洞察目标用户簇,洞察目标用户簇对应多个第一目标业务标签簇;
基于洞察目标用户簇中的各用户对各第一目标业务标签簇的交互数据以及所有用户对各第一目标业务标签簇的交互数据,从多个第一目标业务标签簇中确定出第二目标业务标签簇,并向洞察目标用户簇中的各用户推送第二目标业务标签簇对应的多媒体业务数据。
本申请实施例一方面提供一种多媒体业务数据推送装置,该装置包括:
获取模块,用于获取初始用户业务数据,初始用户业务数据中包括多个用户、多个业务标签以及各用户对各业务标签的交互数据;
生成模块,用于根据初始用户业务数据中包括的所有用户、所有业务标签以及各用户对各业务标签的交互数据生成用户词嵌入向量和标签词嵌入向量,其中一个用户对应一个用户词嵌入向量,一个业务标签对应一个标签词嵌入向量;
聚类模块,用于对所有用户对应的用户词嵌入向量进行聚类得到多个目标用户簇,对所有业务标签对应的标签词嵌入向量进行聚类得到多个目标业务标签簇,并根据多个目标用户簇和多个目标业务标签簇生成目标用户业务数据,目标用户业务数据中包括各目标业务标签簇对应的目标用户簇;
确定模块,用于从多个目标用户簇中确定出洞察目标用户簇,洞察目标用户簇对应多个第一目标业务标签簇;
推送模块,用于基于洞察目标用户簇中的各用户对各第一目标业务标签簇的交互数据以及所有用户对各第一目标业务标签簇的交互数据,从多个第一目标业务标签簇中确定出第二目标业务标签簇,并向洞察目标用户簇中的各用户推送第二目标业务标签簇对应的多媒体业务数据。
其中,生成模块包括:
第一确定单元,用于基于各用户对各业务标签的交互数据中任一用户对任一业务标签的交互数据确定任一用户对任一标签的交互度参数;
第二确定单元,用于确定置信度参数,并基于置信度参数以及任一用户对任一业务标签的交互数据确定任一用户对任一业务标签的交互度权重参数;
第一生成单元,用于确定正则化参数,并基于正则化参数、所有用户中各用户对各业务标签的交互度参数和交互度权重参数、初始用户业务数据中包括的所有用户以及所有业务标签,生成各用户的用户词向量以及各业务标签的标签词嵌入向量。
其中,聚类模块包括:
第三确定单元,用于确定目标业务标签簇数目,目标业务标签簇数目大于1;
合并单元,用于将一个业务标签对应的标签词嵌入向量作为一个业务标签子簇以得到对所有业务标签进行第一次聚类的所有业务标签子簇,确定所有业务标签子簇中任意两个业务标签子簇之间的语义相似度,并将具有最大语义相似度的两个业务标签子簇进行合并以得到业务标签簇;
第二生成单元,用于将业务标签簇和所有业务标签子簇中除具有最大语义相似度的两个业务标签子簇之外的其它业务标签子簇作为下一次聚类的所有业务标签子簇,执行确定所有业务标签子簇中任意两个业务标签子簇之间的语义相似度的步骤,直至下一次聚类的所有业务标签子簇的数目等于目标业务标签簇数目,以生成标签层次结构树;
标签簇确定单元,用于将生成标签层次结构树时等于目标业务标签簇数目的所有业务标签子簇作为目标业务标签簇。
其中,聚类模块包括:
第四确定单元,用于基于各目标用户簇中的各用户对各目标业务标签簇的交互数据,从多个目标用户簇中确定出各目标业务标签簇所关联的目标用户簇;
第三生成单元,用于根据多个目标业务标签簇以及各目标业务标签簇所关联的目标用户簇生成目标用户业务数据。
其中,推送模块包括:
第五确定单元,用于基于洞察目标用户簇中的各用户对各第一目标业务标签簇的交互数据以及所有用户对各第一目标业务标签簇的交互数据,确定各第一目标业务标签簇的目标标签簇参数;
第六确定单元,用于从所有第一目标业务标签簇中确定出目标标签簇参数大于标签簇参数阈值的第一目标业务标签簇作为第二目标业务标签簇。
其中,第五确定单元包括:
第一确定子单元,用于基于洞察目标用户簇中的各用户对各第一目标业务标签簇的交互数据,确定各第一目标业务标签簇的第一标签簇参数;
第二确定子单元,用于基于所有用户对各第一目标业务标签簇的交互数据,确定各第一目标业务标签簇的第二标签簇参数;
第三确定子单元,用于将任一第一目标业务标签簇的第一标签簇参数与第二标签簇参数的比值确定为任一第一目标业务标签簇的目标标签簇参数,以得到各第一目标业务标签簇的目标标签簇参数。
其中,确定模块包括:
接收确定单元,用于接收设备用户界面上的目标用户簇选择指令,并根据目标用户簇选择指令从多个目标用户簇中确定出目标用户选择的目标用户簇,以作为洞察目标用户簇;
上述装置还包括:
展示模块,用于将洞察目标用户簇中的各用户的用户属性洞察信息、各第一目标业务标签簇的第一标签簇参数和第二标签簇参数以及目标标签簇参数推送至设备用户界面,以向目标用户展示。
本申请一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;
该处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,该存储器用于存储计算机程序,该处理器用于调用该计算机程序,以执行本申请实施例中上述一方面中的方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面中提供的多媒体业务数据推送方法。
在本申请实施例中,计算机设备在获取初始用户业务数据之后,可以根据初始用户业务数据中包括的所有用户、所有业务标签以及各用户对各业务标签的交互数据生成用户词嵌入向量和标签词嵌入向量,这里的所有用户的用户词嵌入向量和所有标签词嵌入向量后续可以用于聚类得到多个目标用户簇和多个目标业务标签簇,且目标业务标签簇体系简单,减少用户的理解成本,利于用户进行对比分析,进而提高了用户使用体验。进一步地,计算机设备可以根据多个目标用户簇和多个目标业务标签簇生成目标用户业务数据,这里的目标用户业务数据后续可以用于确定第二目标业务标签簇。这时,计算机设备在确定洞察目标用户簇之后,可以基于洞察目标用户簇中的各用户对洞察目标用户簇对应的各第一目标业务标签簇的交互数据以及所有用户对各第一目标业务标签簇的交互数据,从多个第一目标业务标签簇中确定出第二目标业务标签簇,从而可以向洞察目标用户簇中的各用户推送其所需要的第二目标业务标签簇对应的多媒体业务数据,提高了多媒体业务数据推送效率和精准度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一种DMP系统生成人群包的界面示意图;
图2是一种DMP系统对人群包洞察分析的界面示意图;
图3是本申请实施例提供的一种网络架构的结构示意图;
图4是本申请实施例提供的一种多媒体业务数据推送的应用场景图;
图5是本申请实施例提供的一种多媒体业务数据推送方法的流程示意图;
图6是本申请实施例提供的一种生成目标用户簇的场景示意图;
图7是本申请实施例提供的一种标签词嵌入向量聚类方法的流程示意图;
图8是本申请实施例提供的一种标签层次结构树的结构示意图;
图9是本申请实施例提供的一种生成目标用户业务数据的场景示意图;
图10是本申请实施例提供的一种基于计算机设备的用户界面显示的人群洞察分析示意图;
图11是本申请实施例提供的一种用户兴趣洞察分析示意图;
图12是本申请实施例提供的一种多媒体业务数据推送方法的流程示意图;
图13是本申请实施例提供的一种低秩矩阵分解示意图;
图14是本申请实施例提供的一种多媒体业务数据推送装置的结构示意图;
图15是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参见图3,图3是本申请实施例提供的一种网络架构的结构示意图。如图3所示,该网络架构可以包括服务器10和用户终端集群,该用户终端集群可以包括多个用户终端,如图3所示,具体可以包括用户终端100a、用户终端100b、用户终端100c、…、用户终端100n。
其中,服务器10可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端集群中的任一用户终端可以包括但不限于摄像头、考勤机、监控仪、平板设备、台式电脑、笔记本电脑、手机或者其他任何能够完成信息交互的终端设备。
可以理解的是,本申请实施例中的计算机设备可以为具有多媒体业务数据推送功能的实体终端,该实体终端可以为如图3所示的服务器10,也可以为用户终端,在此不做限定。
如图3所示,用户终端100a、用户终端100b、用户终端100c、…、用户终端100n可以分别与上述服务器10进行网络连接,以便于每个用户终端可以通过该网络连接与服务器10进行数据交互。假设计算机设备为服务器10,服务器10可以为DMP系统的后台服务器,服务器10可以向洞察目标用户簇中的各用户推送第二目标业务标签簇对应的多媒体业务数据。本申请实施例可以将目标用户(如客户)需要人群洞察的目标用户簇统称为洞察目标用户簇,本申请实施例还可以将用于向洞察目标用户簇中的各用户推送的目标业务标签簇统称为第二目标业务标签簇。本申请实施例可以将用于向洞察目标用户簇中的各用户推送的业务数据统称为多媒体业务数据,如不同类型的广告。
本申请实施例的应用场景可以为多媒体业务数据推送场景(如广告推送场景或者商品推送场景),本申请实施例中的应用场景还可以为其它应用场景,在此不作具体限定。
进一步地,为便于理解,请参见图4,图4是本申请提供的一种多媒体业务数据推送的场景示意图。如图4所示,本申请实施例中的服务器1可以为上述图1中的服务器10,洞察目标用户簇2中的各用户(如用户200a、用户200b、…、用户200n)对应的用户终端可以为上述图1中用户组终端集群中的用户终端。例如,用户200a对应的用户终端可以为上述用户终端100a,用户200b对应的用户终端可以为上述用户终端100b,…,用户200n对应的用户终端可以为上述用户终端100n。
如图4所示,服务器1可以从DMP系统中获取初始用户业务数据。本申请实施例可以将DMP系统中未经过用户和标签重新聚类的原始数据统称为初始用户业务数据。这里的初始用户业务数据可以包括多个用户、多个业务标签以及各用户对各业务标签的交互数据。本申请实施例可以将多媒体业务数据对应的标签(即类别)统称为业务标签,本申请实施例可以将用户对业务标签的交互频次信息统称为用户对业务标签的交互数据。
在获取到初始用户业务数据之后,服务器1可以对初始用户业务数据进行协同过滤处理,得到所有用户的用户词嵌入向量和所有业务标签的标签词嵌入向量。本申请实施例可以将经过协同过滤得到的用户词向量特征(即用户embedding向量)统称为用户词嵌入向量,本申请实施例还可以将经过协同过滤得到的标签词向量特征(即标签embedding向量)统称为标签词嵌入向量。
进一步地,服务器1可以对所有用户的用户词嵌入向量和所有业务标签的标签词嵌入向量分别进行聚类,得到多个目标用户簇和多个目标业务标签簇以生成目标用户业务数据。本申请实施例可以将DMP系统中经过用户和标签重新聚类的数据统称为目标用户业务数据。在确定洞察目标用户簇(如洞察目标用户簇2)之后,服务器1可以基于目标用户业务数据确定洞察目标用户簇对应的第二目标业务标签簇,可以分别向洞察目标用户簇2中的用户200a、用户200b、…、用户200n推送第二目标业务标签簇对应的多媒体业务数据(如广告),以使用户200a、用户200b、…、用户200n对多媒体业务数据进行查看。
由此可见,在本申请实施例中,计算机设备经过聚类得到的目标业务标签簇体系简单,利于用户进行对比分析,减少用户的理解成本,提高用户使用体验。同时,计算机设备还可以向洞察目标用户簇中的各用户推送其所需要的第二目标业务标签簇对应的多媒体业务数据,提高了多媒体业务数据推送效率和精准度。
其中,计算机设备推送多媒体业务数据的具体实现方式可以参见下述图5-图13所对应的实施例。
进一步地,请参见图5,图5是本申请实施例提供的一种多媒体业务数据推送方法的流程示意图。如图5所示,该方法可以由计算机设备执行,包括以下步骤S101-步骤S105:
步骤S101,获取初始用户业务数据。
在一些可行的实施方式中,计算机设备可以从DMP系统中获取初始用户业务数据。其中,初始用户业务数据中包括多个用户、多个业务标签以及各用户对各业务标签的交互数据(如交互频次信息)。应当理解,DMP系统中的数据可以包含用户对业务标签的交互频次信息,交互频次越高可以表明用户对该业务标签的喜好程度越高。这里的交互频次信息可以理解为用户对业务标签的喜好程度的隐式反馈。其中,DMP系统中数据的数据格式可以为三元组,如(用户,业务标签,用户对业务标签的交互数据)。
步骤S102,根据初始用户业务数据中包括的所有用户、所有业务标签以及各用户对各业务标签的交互数据生成用户词嵌入向量和标签词嵌入向量。
在一些可行的实施方式中,计算机设备可以通过协同过滤算法(如隐式反馈的交替最小二乘(alternating least squares,ALS)算法)对初始用户业务数据中包括的所有用户、所有业务标签以及各用户对各业务标签的交互数据进行协同过滤,得到于所有用户的用户词嵌入向量和所有业务标签的标签词嵌入向量。其中,一个用户可以对应一个用户词嵌入向量,一个业务标签可以对应一个标签词嵌入向量。
步骤S103,对所有用户对应的用户词嵌入向量进行聚类得到多个目标用户簇,对所有业务标签对应的标签词嵌入向量进行聚类得到多个目标业务标签簇,并根据多个目标用户簇和多个目标业务标签簇生成目标用户业务数据。
在一些可行的实施方式中,计算机设备可以基于图卷积网络(graph convolutionnetwork,GCN)的深度聚类算法对所有用户对应的用户词嵌入向量进行聚类,得到多个目标用户簇,其中图卷积网络GCN中可以包含多个卷积网络层和一个全连接层。为便于理解,请一并参见图6,图6是本申请实施例提供的一种生成目标用户簇的场景示意图。如图6所示,计算机设备可以基于近邻算法从所有用户(如N个用户,其中N为正整数)对应的用户词嵌入向量查找每个用户的邻居用户的用户词嵌入向量。这里的N个用户也可以称为N个中心节点,邻居用户可以包括一个用户的1阶邻居用户(也可以称为1跳邻居用户)和2阶邻居用户(也可以称为2跳邻居用户)。这时,计算机设备可以根据每个用户的用户词嵌入向量以及每个用户的1阶邻居用户和2阶邻居用户的用户词嵌入向量,分别构建N个用户中每个用户的关系子图。进一步地,计算机设备可以将每个用户的关系子图输入图卷积网络GCN中,由该图卷积网络GCN输出每个用户与其每个邻居用户之间链接的权重。在每个用户与其每个邻居用户之间链接的权重之和大于权重阈值时,确定每个用户与其所有邻居用户具有连接关系,进而确定最大合并用户数,并在每个用户与其所有邻居用户的数量等于最大合并用户数时,停止向每个用户与其所有邻居用户之中添加其它用户,并进行下一次的用户迭代合并。在迭代至所有用户都划分完成之后,可以将具有连接关系的用户作为一个目标用户簇以得到多个目标用户簇(如3个或者其它数值的目标用户簇),3个目标用户簇具体可以包含目标用户簇1、目标用户簇2以及目标用户簇3。
在一些可行的实施方式中,计算机设备可以通过层次聚类算法对所有业务标签对应的标签词嵌入向量进行聚类,得到多个目标标签业务簇。为便于理解,请一并参见图7,图7是本申请实施例提供的一种标签词嵌入向量聚类方法的流程示意图。如图7所示,该方法由计算机设备执行,包括以下步骤S1031-步骤S1036:
步骤S1031,确定目标业务标签簇数目K。
应当理解,计算机设备可以将所有业务标签的标签词嵌入向量输入层次聚类算法模型中,并确定目标业务标签簇数目K,其中K大于1。这里的目标业务标签簇数目K与后续聚类得到的目标业务标签簇的数目一致。
步骤S1032,将一个标签词嵌入向量作为一个业务标签子簇。
应当理解,计算机设备可以将一个业务标签对应的标签词嵌入向量作为一个业务标签子簇以得到对所有业务标签进行第一次聚类的所有业务标签子簇。
步骤S1033,确定任意两个业务标签子簇之间的语义相似度。
应当理解,计算机设备可以确定所有业务标签子簇中任意两个业务标签子簇之间的语义相似度(如欧氏距离或者余弦相似度)。
步骤S1034,将具有最大语义相似度的两个业务标签子簇进行合并。
应当理解,计算机设备可以基于相似度度量准则将具有最大语义相似度的两个业务标签子簇进行合并以得到业务标签簇。
步骤S1035,在所有业务标签子簇的数目不等于K时,执行步骤S1033;在所有业务标签子簇的数目等于K时,执行步骤S1036。
应当理解,计算机设备可以将上述合并得到的业务标签簇和所有业务标签子簇中除具有最大语义相似度的两个业务标签子簇之外的其它业务标签子簇作为下一次聚类的所有业务标签子簇,并在作为下一次聚类的所有业务标签子簇的数目不等于目标业务标签簇数目K时,执行确定所有业务标签子簇中任意两个业务标签子簇之间的语义相似度的步骤S1033。在作为下一次聚类的所有业务标签子簇的数目等于目标业务标签簇数目K时,执行步骤S1036。
步骤S1036,生成标签层次结构树。
应当理解,计算机设备在作为下一次聚类的所有业务标签子簇的数目等于目标业务标签簇数目K时,可以生成标签层次结构树。这里的标签层次结构树中可以包括所有的目标业务标签簇,且每个目标业务标签簇中包括其对应的所有合并得到的业务标签簇以及未进行标签聚类前的业务标签子簇(即标签词嵌入向量)。本申请实施例可以将对所有业务标签对应的标签词嵌入向量进行聚类后得到的层次结构树称之为标签层次结构树。为便于理解,请一并参见图8,图8是本申请实施例提供的一种标签层次结构树的结构示意图。如图8所示,为方便描述,标签层次结构树将以标签层次结构树1为例进行说明。标签层次结构树1中可以包含多个目标业务标签簇(3个或者其它数值的目标业务标签簇),例如,3个目标业务标签簇具体可以包含目标业务标签簇1、目标业务标签簇2以及目标业务标签簇3。以生成目标业务标签簇1的过程为例进行说明,计算机设备对业务标签子簇1000中的所有业务标签子簇(即第一次聚类的业务标签子簇)分别进行合并以得到业务标签簇100中的两个业务标签簇,进而对业务标签簇100中的两个业务标签簇(这时业务标签簇100中的两个业务标签簇为第二次聚类的业务标签子簇)进行合并得到目标业务标签簇1。需要说明的是,生成目标业务标签簇2和生成目标业务标签簇2的过程可以参见上述生成目标业务标签簇1的过程,在此不再赘述。进一步地,计算机设备可以将生成标签层次结构树时等于目标业务标签簇数目的所有业务标签子簇作为目标业务标签簇以得到多个目标业务标签簇(也可以称为大类标签),例如,上述目标业务标签簇1、目标业务标签簇2以及目标业务标签簇3。
在确定多个目标用户簇和多个目标业务标签簇之后,计算机设备可以基于多个目标用户簇和多个目标业务标签簇生成目标用户业务数据。在一些可行的实施方式中,计算机设备可以基于各目标用户簇中的各用户对各目标业务标签簇的交互数据,从多个目标用户簇中确定出各目标业务标签簇所关联的目标用户簇。进一步地,计算机设备可以根据多个目标业务标签簇以及各目标业务标签簇所关联的目标用户簇生成目标用户业务数据。本申请实施例可以将与各目标业务标签簇具有交互数据的目标用户簇统称为各目标业务标签簇所关联的目标用户簇。
为便于理解,请参见图9,图9是本申请实施例提供的一种生成目标用户业务数据的场景示意图。如图9所示,计算机设备在获取到初始用户业务数据(如初始用户业务数据1)之后,可以对初始用户业务数据1进行协同过滤以得到所有用户的用户词嵌入向量和所有业务标签的标签词嵌入向量。这里的初始用户业务数据1中可以包括N个用户(如用户1、用户2、…、用户N),以及M个业务标签(如业务标签1、业务标签2、…、业务标签M)。进一步地,计算机设备可以对所有用户的用户词嵌入向量和所有业务标签的标签词嵌入向量分别进行聚类,得到多个目标用户簇和多个目标业务标签簇。例如,多个目标用户簇具体可以包含2个或者其它值的目标用户簇,如目标用户簇1和目标用户簇2,多个目标业务标签簇具体可以包含2个或者其它值的目标业务标签簇,如目标业务标签簇1和目标业务标签簇2。在得到目标用户簇1、目标用户簇2、目标业务标签簇1以及目标业务标签簇2生成目标用户业务数据(如目标用户业务数据2)。这里的目标用户业务数据2中的目标业务标签簇1对应的目标用户簇为目标用户簇1,目标业务标签簇2对应的目标用户簇为目标用户簇2。
步骤S104,从多个目标用户簇中确定出洞察目标用户簇。
在一些可行的实施方式中,计算机设备可以接收设备用户界面上的目标用户簇选择指令,并根据目标用户簇选择指令从多个目标用户簇中确定出目标用户(如客户)选择的目标用户簇,以作为洞察目标用户簇。这里的洞察目标用户簇可以为一个或者多个目标用户簇,洞察目标用户簇可以对应一个或者多个第一目标业务标签簇。本申请实施例可以将多个目标业务标签簇中洞察目标用户簇对应的目标业务标签簇统称为第一目标业务标签簇。
步骤S105,基于洞察目标用户簇中的各用户对各第一目标业务标签簇的交互数据以及所有用户对各第一目标业务标签簇的交互数据,从多个第一目标业务标签簇中确定出第二目标业务标签簇,并向洞察目标用户簇中的各用户推送第二目标业务标签簇对应的多媒体业务数据。
在一些可行的实施方式中,在确定出洞察目标用户簇之后,计算机设备可以基于洞察目标用户簇中的各用户对各第一目标业务标签簇的交互数据以及所有用户对各第一目标业务标签簇的交互数据,确定各第一目标业务标签簇的目标标签簇参数。具体地,计算机设备可以基于洞察目标用户簇中的各用户对各第一目标业务标签簇的交互数据,确定各第一目标业务标签簇的第一标签簇参数。同时,计算机设备可以基于所有用户对各第一目标业务标签簇的交互数据,确定各第一目标业务标签簇的第二标签簇参数。进一步地,计算机设备可以将任一第一目标业务标签簇的第一标签簇参数与第二标签簇参数的比值确定为任一第一目标业务标签簇的目标标签簇参数,以得到各第一目标业务标签簇的目标标签簇参数。可以理解,计算机设备确定各第一目标业务标签簇的目标标签簇参数(如目标群体指数(target group index,TGI))的公式可以如下述公式(1)所示:
其中,Ob可以表示任一第一目标业务标签簇的第一标签簇参数,Oavg可以表示任一第一目标业务标签簇的第二标签簇参数。这里的Ob可以理解为在洞察目标用户簇中任一第一目标业务标签簇(如某大类标签)的覆盖度,Oavg可以理解为在所有用户中任一第一目标业务标签簇(如某大类标签)的覆盖度,其中覆盖度可以理解为用户对业务标签的交互数据(如交互频次)非零的用户人数占比。
在一些可行的实施方式中,计算机设备还可以将洞察目标用户簇中的各用户的用户属性洞察信息、各第一目标业务标签簇的第一标签簇参数和第二标签簇参数以及目标标签簇参数作为推送信息,将该推送信息推送至设备用户界面,以向目标用户展示,便于目标用户进行查看。目标用户在该用户界面上查看推送信息之后,可以针对该推送信息返回建议反馈信息以及评分信息。
为便于理解,请参见图10,图10是本申请实施例提供的基于计算机设备的用户界面显示的人群洞察分析示意图。如图10所示,目标用户可以在用户簇输入框(即洞察人群的选择输入框)中输入需要选择的目标用户簇,此时计算机设备可以接收目标用户的目标用户簇选择指令以确定洞察目标用户簇。在确定洞察目标用户簇之后,计算机设备可以从不同洞察维度对洞察目标用户簇中的所有用户进行洞察分析。这里的洞察维度可以为用户的不同用户属性信息(如属性1至属性8),例如,不同属性信息可以包括但不限于性别、年龄、学历、婚恋、地域、兴趣以及行为等用户属性信息。例如,计算机设备可以基于性别洞察维度对洞察目标用户簇中的所有用户进行洞察分析,可以得到洞察目标用户簇中女性用户的人数占比以及男性用户的人数占比。计算机设备可以基于年龄洞察维度和性别洞察维度对洞察目标用户簇中的所有用户进行洞察分析,可以得到洞察目标用户簇中不同年龄段的女性用户的用户人数占比,以及洞察目标用户簇中不同年龄段的男性用户的用户人数占比。计算机设备还可以基于学历洞察维度对洞察目标用户簇中的所有用户进行洞察分析,可以得到洞察目标用户簇中不同学历(如学历1至学历4)的用户对应的用户人数占比,例如,学历1至学历4可以包括但不限于小学、初中、高中、本科、专科、硕士以及博士。
计算机设备还可以基于兴趣洞察维度对洞察目标用户簇中的所有用户进行洞察分析,为便于理解,请参见图11,图11是本申请实施例提供的一种用户兴趣洞察分析示意图。如图11所示,计算机设备在基于兴趣洞察维度对洞察目标用户簇中的所有用户进行洞察分析之后,可以得到基于各第一目标业务标签簇(如标签簇1至标签簇12)的第二标签簇参数所生成的第二标签簇参数柱状图,以及基于各第一目标业务标签簇(如标签簇1至标签簇12)的目标标签簇参数所生成的目标标签簇参数折线图。这里的标签簇1至标签簇12可以包括但不限于新闻资讯、医疗健康、娱乐休闲、餐饮美食、游戏、家具、互联网电子产品、旅游、体育运动以及美容和/或个护等不同类型的广告。计算机设备基于第二标签簇参数柱状图确定各标签簇对应的第二标签簇参数之间的大小关系,如在所有用户中对标签簇1(如新闻资讯)进行交互数据的用户最多,基于上述目标标签簇参数折线图确定各标签簇对应的目标标签簇参数之间的大小关系,如标签簇6(如家居)的目标标签簇参数最大。
进一步地,计算机设备从不同洞察维度对洞察目标用户簇中的所有用户进行洞察分析之后,可以得到洞察分析结果,并根据该洞察分析结果生成推送信息(如洞察分析报告)并进行导出。这里的洞察分析结果中可以包括但不限于洞察目标用户簇中的各用户的用户属性洞察信息、各第一目标业务标签簇的第一标签簇参数和第二标签簇参数(如参数1a、参数1b、参数1c以及参数1d)以及目标标签簇参数(如参数2a、参数2b、参数2c以及参数2d)。这时,计算机设备可以将推送信息显示至用户界面,以使目标用户在用户界面上查看推送信息。
在得到各第一目标业务标签簇的目标标签簇参数之后,计算机设备可以从所有第一目标业务标签簇中确定出目标标签簇参数大于标签簇参数阈值的第一目标业务标签簇作为第二目标业务标签簇。这里的第二目标业务标签簇可以包括一个或者多个目标业务标签簇。可选的,计算机设备可以对各第一目标业务标签簇的目标标签簇参数进行排序(如从大到小排序或者从小到大排序),并将具有最大目标标签簇参数的第一目标业务标签簇作为第二目标业务标签簇(如上述标签簇6),具体可根据实际应用场景确定,在此不作限制。进一步地,计算机设备可以向洞察目标用户簇中的各用户推送第二目标业务标签簇对应的多媒体业务数据(如通过腾讯广告软件向用户推送上述家居类广告)。这时,洞察目标用户簇中的各用户可以针对上述多媒体业务数据反馈评分信息或者建议信息。
在本申请实施例中,计算机设备在获取初始用户业务数据之后,可以根据初始用户业务数据中包括的所有用户、所有业务标签以及各用户对各业务标签的交互数据生成用户词嵌入向量和标签词嵌入向量,这里的所有用户的用户词嵌入向量和所有标签词嵌入向量后续可以用于聚类得到多个目标用户簇和多个目标业务标签簇,且目标业务标签簇体系简单,减少用户的理解成本,利于用户进行对比分析,进而提高了用户使用体验。进一步地,计算机设备可以根据多个目标用户簇和多个目标业务标签簇生成目标用户业务数据,这里的目标用户业务数据后续可以用于确定第二目标业务标签簇。这时,计算机设备在确定洞察目标用户簇之后,可以基于洞察目标用户簇中的各用户对洞察目标用户簇对应的各第一目标业务标签簇的交互数据以及所有用户对各第一目标业务标签簇的交互数据,从多个第一目标业务标签簇中确定出第二目标业务标签簇,从而可以向洞察目标用户簇中的各用户推送其所需要的第二目标业务标签簇对应的多媒体业务数据,提高了多媒体业务数据推送效率和精准度。
进一步地,请参见图12,图12是本申请实施例提供的一种多媒体业务数据推送方法的流程示意图。如图12所示,该方法可以由计算机设备执行,包括以下步骤S201-步骤S207:
步骤S201,获取初始用户业务数据。
其中,该步骤S201的具体实施方式可参见上述图5所对应实施例中对步骤S101的描述,这里将不再赘述。
步骤S202,基于各用户对各业务标签的交互数据中任一用户对任一业务标签的交互数据确定任一用户对任一标签的交互度参数。
可以理解,计算机设备可以基于各用户对各业务标签的交互数据中任一用户对任一业务标签的交互数据,确定任一用户对任一业务标签的交互度参数,例如,交互度参数用于表示任一用户对任一标签的喜好程度。应当理解,不同用户对同一业务标签的交互度参数可以相同,也可以不同;同一用户对不同业务标签的交互度参数可以相同,也可以不同。其中,计算机设备确定交互度参数的公式如下述公式(2)所示:
其中,rij可以表示用户i对业务标签j的交互数据(如交互频次),pij可以表示用户i对业务标签j的交互度参数,其中i大于0,且小于或者等于上述N(即用户总数),j大于0,且小于或者等于上述M(即标签总数)。这里的pij可以理解为用户i对业务标签j的偏好或者喜好程度。
步骤S203,确定置信度参数,并基于置信度参数以及任一用户对任一业务标签的交互数据确定任一用户对任一业务标签的交互度权重参数。
可以理解,计算机设备在确定置信度参数之后,可以基于置信度参数以及任一用户对任一业务标签的交互数据确定任一用户对任一业务标签的交互度权重参数。应当理解,不同用户对同一业务标签的交互度权重参数可以相同,也可以不同;同一用户对不同业务标签的交互度权重参数可以相同,也可以不同。其中,计算机设备确定交互度权重参数的公式如下述公式(3)所示:
cij=1+αrij, (2)
其中,α可以表示置信度参数,rij可以表示用户i对业务标签j的交互数据(如交互频次),cij可以表示用户i对业务标签j的交互度权重参数,其中i大于0,且小于或者等于上述N,j大于0,且小于或者等于上述M。这里的cij可以理解为衡量上述交互度参数pij的信任度。
步骤S204,确定正则化参数,并基于正则化参数、所有用户中各用户对各业务标签的交互度参数和交互度权重参数、初始用户业务数据中包括的所有用户以及所有业务标签,生成各用户的用户词向量以及各业务标签的标签词嵌入向量。
应当理解,在执行步骤S204之前,初始用户业务数据可以为一个矩阵(可以简称为初始用户业务数据矩阵),则计算机设备需要对该矩阵进行低秩矩阵分解(low-rankmatrix factorization)以得到待学习的各用户的用户词嵌入向量以及各业务标签的标签词嵌入向量。为便于理解,请一并参见图13,图13是本申请实施例提供的一种低秩矩阵分解示意图。如图13所示,初始用户业务数据矩阵的行用于表示用户,矩阵的列用于表示业务标签,初始用户业务数据矩阵中的矩阵元素可以为用户对业务标签的交互数据(如交互频次)。计算机设备可以对初始用户业务数据矩阵进行低秩矩阵分解,可以得到用户i待学习的用户词嵌入向量ui(如u1或者u2)以及业务标签j待学习的标签词嵌入向量vj(如v3、v4或者v5)。如图13所示,待学习的用户词嵌入向量u1对待学习的标签词嵌入向量v3的交互频次可以为r13,待学习的用户词嵌入向量u1对待学习的标签词嵌入向量v4的交互频次可以为r14,待学习的用户词嵌入向量u2对待学习的标签词嵌入向量v4的交互频次可以为r24,待学习的用户词嵌入向量u2对待学习的标签词嵌入向量v5的交互频次可以为r25。可以理解,计算机设备对初始用户业务数据矩阵进行低秩矩阵分解之后,可以得到所有用户待学习的用户词嵌入向量以及所有业务标签待学习的标签词嵌入向量。
进一步地,计算机设备在确定正则化参数之后,可以基于正则化参数、所有用户中各用户对各业务标签的交互度参数和交互度权重参数、上述所有用户待学习的用户词嵌入向量以及所有业务标签待学习的标签词嵌入向量,确定目标函数(如ALS算法的损失函数)的损失值。此时,计算机设备可以通过交替最小二乘的方式来迭代优化目标函数的损失值,并在损失值收敛或者小于预置损失阈值时停止迭代,并在停止迭代后生成各用户的用户词向量以及各业务标签的标签词嵌入向量。其中,目标函数可以入下述公式(4)所示:
其中,J(U,V)可以表示目标函数的损失值,U用于表示用户这一侧的向量,V用于表示业务标签这一侧的向量,pij可以表示用户i对业务标签j的交互度参数,cij可以表示用户i对业务标签j的交互度权重参数,ui可以表示用户i待学习的用户词嵌入向量(即待学习的参数向量),vj可以表示业务标签j待学习的标签词嵌入向量(即待学习的参数向量),其中i大于0,且小于或者等于上述N,j大于0,且小于或者等于上述M。
步骤S205,对所有用户对应的用户词嵌入向量进行聚类得到多个目标用户簇,对所有业务标签对应的标签词嵌入向量进行聚类得到多个目标业务标签簇,并根据多个目标用户簇和多个目标业务标签簇生成目标用户业务数据。
步骤S206,从多个目标用户簇中确定出洞察目标用户簇。
步骤S207,基于洞察目标用户簇中的各用户对各第一目标业务标签簇的交互数据以及所有用户对各第一目标业务标签簇的交互数据,从多个第一目标业务标签簇中确定出第二目标业务标签簇,并向洞察目标用户簇中的各用户推送第二目标业务标签簇对应的多媒体业务数据。
其中,该步骤S205-步骤S207的具体实施方式可参见上述图5所对应实施例中对步骤S103-步骤S105的描述,这里将不再赘述。
在本申请实施例中,计算机设备在获取初始用户业务数据之后,可以根据初始用户业务数据中包括的所有用户、所有业务标签以及各用户对各业务标签的交互数据生成用户词嵌入向量和标签词嵌入向量,这里的所有用户的用户词嵌入向量和所有标签词嵌入向量后续可以用于聚类得到多个目标用户簇和多个目标业务标签簇,且目标业务标签簇体系简单,减少用户的理解成本,利于用户进行对比分析,进而提高了用户使用体验。进一步地,计算机设备可以根据多个目标用户簇和多个目标业务标签簇生成目标用户业务数据,这里的目标用户业务数据后续可以用于确定第二目标业务标签簇。这时,计算机设备在确定洞察目标用户簇之后,可以基于洞察目标用户簇中的各用户对洞察目标用户簇对应的各第一目标业务标签簇的交互数据以及所有用户对各第一目标业务标签簇的交互数据,从多个第一目标业务标签簇中确定出第二目标业务标签簇,从而可以向洞察目标用户簇中的各用户推送其所需要的第二目标业务标签簇对应的多媒体业务数据,提高了多媒体业务数据推送效率和精准度。
进一步地,请参见图14,图14是本申请实施例提供的一种多媒体业务数据推送装置的结构示意图。该多媒体业务数据推送装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如,该多媒体业务数据推送装置为一个应用软件;该多媒体业务数据推送装置可以用于执行本申请实施例提供的方法中的相应步骤。如图14所示,该多媒体业务数据推送装置1可以运行于服务器,该服务器可以为上述图4所对应实施例中的服务器1。该多媒体业务数据推送装置1可以包括:获取模块10、生成模块20、聚类模块30、确定模块40、推送模块50以及展示模块60。
获取模块10,用于获取初始用户业务数据,初始用户业务数据中包括多个用户、多个业务标签以及各用户对各业务标签的交互数据。
生成模块20,用于根据初始用户业务数据中包括的所有用户、所有业务标签以及各用户对各业务标签的交互数据生成用户词嵌入向量和标签词嵌入向量,其中一个用户对应一个用户词嵌入向量,一个业务标签对应一个标签词嵌入向量。
其中,生成模块20包括:第一确定单元201、第二确定单元202以及第一生成单元203。
第一确定单元201,用于基于各用户对各业务标签的交互数据中任一用户对任一业务标签的交互数据确定任一用户对任一标签的交互度参数;
第二确定单元202,用于确定置信度参数,并基于置信度参数以及任一用户对任一业务标签的交互数据确定任一用户对任一业务标签的交互度权重参数;
第一生成单元203,用于确定正则化参数,并基于正则化参数、所有用户中各用户对各业务标签的交互度参数和交互度权重参数、初始用户业务数据中包括的所有用户以及所有业务标签,生成各用户的用户词向量以及各业务标签的标签词嵌入向量。
其中,该第一确定单元201、第二确定单元202以及第一生成单元203的具体实现方式可以参见上述图12所对应实施例中对步骤S202-步骤S204的描述,这里将不再继续进行赘述。
聚类模块30,用于对所有用户对应的用户词嵌入向量进行聚类得到多个目标用户簇,对所有业务标签对应的标签词嵌入向量进行聚类得到多个目标业务标签簇,并根据多个目标用户簇和多个目标业务标签簇生成目标用户业务数据,目标用户业务数据中包括各目标业务标签簇对应的目标用户簇。
其中,聚类模块30包括:第三确定单元301、合并单元302、第二生成单元303以及标签簇确定单元304。
第三确定单元301,用于确定目标业务标签簇数目,目标业务标签簇数目大于1;
合并单元302,用于将一个业务标签对应的标签词嵌入向量作为一个业务标签子簇以得到对所有业务标签进行第一次聚类的所有业务标签子簇,确定所有业务标签子簇中任意两个业务标签子簇之间的语义相似度,并将具有最大语义相似度的两个业务标签子簇进行合并以得到业务标签簇;
第二生成单元303,用于将业务标签簇和所有业务标签子簇中除具有最大语义相似度的两个业务标签子簇之外的其它业务标签子簇作为下一次聚类的所有业务标签子簇,执行确定所有业务标签子簇中任意两个业务标签子簇之间的语义相似度的步骤,直至作为下一次聚类的所有业务标签子簇的数目等于目标业务标签簇数目,以生成标签层次结构树;
标签簇确定单元304,用于将生成标签层次结构树时等于目标业务标签簇数目的所有业务标签子簇作为目标业务标签簇。
其中,该第三确定单元301、合并单元302、第二生成单元303以及标签簇确定单元304的具体实现方式可以参见上述图5所对应实施例中对步骤S103的描述,这里将不再继续进行赘述。
其中,聚类模块还包括:第四确定单元305和第三生成单元306。
第四确定单元305,用于基于各目标用户簇中的各用户对各目标业务标签簇的交互数据,从多个目标用户簇中确定出各目标业务标签簇所关联的目标用户簇;
第三生成单元306,用于根据多个目标业务标签簇以及各目标业务标签簇所关联的目标用户簇生成目标用户业务数据。
其中,该第四确定单元305和第三生成单元306的具体实现方式可以参见上述图5所对应实施例中对步骤S103的描述,这里将不再继续进行赘述。
确定模块40,用于从多个目标用户簇中确定出洞察目标用户簇,洞察目标用户簇对应多个第一目标业务标签簇。
其中,确定模块40包括:接收确定单元401。
接收确定单元401,用于接收设备用户界面上的目标用户簇选择指令,并根据目标用户簇选择指令从多个目标用户簇中确定出目标用户选择的目标用户簇,以作为洞察目标用户簇。
其中,该接收确定单元401的具体实现方式可以参见上述图5所对应实施例步骤S104的描述,这里将不再继续进行赘述。
推送模块50,用于基于洞察目标用户簇中的各用户对各第一目标业务标签簇的交互数据以及所有用户对各第一目标业务标签簇的交互数据,从多个第一目标业务标签簇中确定出第二目标业务标签簇,并向洞察目标用户簇中的各用户推送第二目标业务标签簇对应的多媒体业务数据。
其中,推送模块50包括:第五确定单元501和第六确定单元502。
第五确定单元501,用于基于洞察目标用户簇中的各用户对各第一目标业务标签簇的交互数据以及所有用户对各第一目标业务标签簇的交互数据,确定各第一目标业务标签簇的目标标签簇参数。
其中,第五确定单元501包括:第一确定子单元5011、第二确定子单元5012以及第三确定子单元5013。
第一确定子单元5011,用于基于洞察目标用户簇中的各用户对各第一目标业务标签簇的交互数据,确定各第一目标业务标签簇的第一标签簇参数;
第二确定子单元5012,用于基于所有用户对各第一目标业务标签簇的交互数据,确定各第一目标业务标签簇的第二标签簇参数;
第三确定子单元5013,用于将任一第一目标业务标签簇的第一标签簇参数与第二标签簇参数的比值确定为任一第一目标业务标签簇的目标标签簇参数,以得到各第一目标业务标签簇的目标标签簇参数。
其中,该第一确定子单元5011、第二确定子单元5012以及第三确定子单元5013的具体实现方式可以参见上述图5所对应实施例步骤S105中对目标标签簇参数的描述,这里将不再继续进行赘述。
第六确定单元502,用于从所有第一目标业务标签簇中确定出目标标签簇参数大于标签簇参数阈值的第一目标业务标签簇作为第二目标业务标签簇。
其中,该第五确定单元501和第六确定单元502的具体实现方式可以参见上述图5所对应实施例步骤S105的描述,这里将不再继续进行赘述。
其中,上述多媒体业务数据推送装置1还包括:
展示模块60,用于将洞察目标用户簇中的各用户的用户属性洞察信息、各第一目标业务标签簇的第一标签簇参数和第二标签簇参数以及目标标签簇参数推送至设备用户界面,以向目标用户展示。
其中,该获取模块10、生成模块20、聚类模块30、确定模块40、推送模块50以及展示模块60的具体实现方式可以参见上述图5所对应实施例中对步骤S101-步骤S105和/或上述图12所对应实施例中对步骤S201-步骤S207的描述,这里将不再继续进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图15,图15是本申请实施例提供的一种计算机设备的结构示意图。如图15所示,该计算机设备1000可以为上述图4对应实施例中的服务器1,该计算机设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图15所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图15所示的计算机设备1000中,网络接口1004主要用于与洞察目标用户簇2中的各用户进行网络通信;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取初始用户业务数据,初始用户业务数据中包括多个用户、多个业务标签以及各用户对各业务标签的交互数据;
根据初始用户业务数据中包括的所有用户、所有业务标签以及各用户对各业务标签的交互数据生成用户词嵌入向量和标签词嵌入向量,其中一个用户对应一个用户词嵌入向量,一个业务标签对应一个标签词嵌入向量;
对所有用户对应的用户词嵌入向量进行聚类得到多个目标用户簇,对所有业务标签对应的标签词嵌入向量进行聚类得到多个目标业务标签簇,并根据多个目标用户簇和多个目标业务标签簇生成目标用户业务数据,目标用户业务数据中包括各目标业务标签簇对应的目标用户簇;
从多个目标用户簇中确定出洞察目标用户簇,洞察目标用户簇对应多个第一目标业务标签簇;
基于洞察目标用户簇中的各用户对各第一目标业务标签簇的交互数据以及所有用户对各第一目标业务标签簇的交互数据,从多个第一目标业务标签簇中确定出第二目标业务标签簇,并向洞察目标用户簇中的各用户推送第二目标业务标签簇对应的多媒体业务数据。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图5和图12所对应实施例中对该多媒体业务数据推送方法的描述,也可执行前文图14所对应实施例中对该多媒体业务数据推送装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且该计算机可读存储介质中存储有前文提及的多媒体业务数据推送装置1所执行的计算机程序,且该计算机程序包括程序指令,当该处理器执行该程序指令时,能够执行前文图5或者图12所对应实施例中对该多媒体业务数据推送方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中提供的多媒体业务数据推送方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述计算机可读存储介质可以是前述任一实施例提供的多媒体业务数据推送装置或者上述设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(random accessmemory,RAM)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本发明的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (10)
1.一种多媒体业务数据推送方法,其特征在于,包括:
获取初始用户业务数据,所述初始用户业务数据中包括多个用户、多个业务标签以及各用户对各业务标签的交互数据;
根据所述初始用户业务数据中包括的所有用户、所有业务标签以及各用户对各业务标签的交互数据生成用户词嵌入向量和标签词嵌入向量,其中一个用户对应一个用户词嵌入向量,一个业务标签对应一个标签词嵌入向量;
对所述所有用户对应的用户词嵌入向量进行聚类得到多个目标用户簇,对所述所有业务标签对应的标签词嵌入向量进行聚类得到多个目标业务标签簇,并根据所述多个目标用户簇和所述多个目标业务标签簇生成目标用户业务数据,所述目标用户业务数据中包括各目标业务标签簇对应的目标用户簇;
从所述多个目标用户簇中确定出洞察目标用户簇,所述洞察目标用户簇对应多个第一目标业务标签簇;
基于所述洞察目标用户簇中的各用户对各第一目标业务标签簇的交互数据以及所述所有用户对所述各第一目标业务标签簇的交互数据,从所述多个第一目标业务标签簇中确定出第二目标业务标签簇,并向所述洞察目标用户簇中的各用户推送所述第二目标业务标签簇对应的多媒体业务数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述初始用户业务数据中包括的所有用户、所有业务标签以及各用户对各业务标签的交互数据生成用户词向量和标签词嵌入向量,包括:
基于所述各用户对各业务标签的交互数据中任一用户对任一业务标签的交互数据确定所述任一用户对所述任一标签的交互度参数;
确定置信度参数,并基于所述置信度参数以及所述任一用户对任一业务标签的交互数据确定所述任一用户对所述任一业务标签的交互度权重参数;
确定正则化参数,并基于所述正则化参数、所述所有用户中各用户对各业务标签的交互度参数和交互度权重参数、所述初始用户业务数据中包括的所有用户以及所有业务标签,生成各用户的用户词向量以及各业务标签的标签词嵌入向量。
3.根据权利要求2所述的方法,其特征在于,所述对所述所有业务标签对应的标签词嵌入向量进行聚类得到多个目标业务标签簇,包括:
确定目标业务标签簇数目,所述目标业务标签簇数目大于1;
将一个业务标签对应的标签词嵌入向量作为一个业务标签子簇以得到对所有业务标签进行第一次聚类的所有业务标签子簇,确定所述所有业务标签子簇中任意两个业务标签子簇之间的语义相似度,并将具有最大语义相似度的两个业务标签子簇进行合并以得到业务标签簇;
将所述业务标签簇和所述所有业务标签子簇中除所述具有最大语义相似度的两个业务标签子簇之外的其它业务标签子簇作为下一次聚类的所有业务标签子簇,执行确定所述所有业务标签子簇中任意两个业务标签子簇之间的语义相似度的步骤,直至作为下一次聚类的所有业务标签子簇的数目等于所述目标业务标签簇数目,以生成标签层次结构树;
将生成标签层次结构树时等于所述目标业务标签簇数目的所有业务标签子簇作为目标业务标签簇。
4.根据权利要求3所述的方法,其特征在于,所述根据所述多个目标用户簇和所述多个目标业务标签簇生成目标用户业务数据,包括:
基于各目标用户簇中的各用户对各目标业务标签簇的交互数据,从所述多个目标用户簇中确定出所述各目标业务标签簇所关联的目标用户簇;
根据所述多个目标业务标签簇以及所述各目标业务标签簇所关联的目标用户簇生成目标用户业务数据。
5.根据权利要求4所述的方法,其特征在于,所述基于所述洞察目标用户簇中的各用户对各第一目标业务标签簇的交互数据以及所述所有用户对所述各第一目标业务标签簇的交互数据,从所述多个第一目标业务标签簇中确定出第二目标业务标签簇,包括:
基于所述洞察目标用户簇中的各用户对各第一目标业务标签簇的交互数据以及所述所有用户对所述各第一目标业务标签簇的交互数据,确定所述各第一目标业务标签簇的目标标签簇参数;
从所有第一目标业务标签簇中确定出目标标签簇参数大于标签簇参数阈值的第一目标业务标签簇作为第二目标业务标签簇。
6.根据权利要求5所述的方法,其特征在于,所述基于所述洞察目标用户簇中的各用户对各第一目标业务标签簇的交互数据以及所述所有用户对所述各第一目标业务标签簇的交互数据,确定所述各第一目标业务标签簇的目标标签簇参数,包括:
基于所述洞察目标用户簇中的各用户对各第一目标业务标签簇的交互数据,确定所述各第一目标业务标签簇的第一标签簇参数;
基于所述所有用户对所述各第一目标业务标签簇的交互数据,确定所述各第一目标业务标签簇的第二标签簇参数;
将任一第一目标业务标签簇的第一标签簇参数与第二标签簇参数的比值确定为所述任一第一目标业务标签簇的目标标签簇参数,以得到所述各第一目标业务标签簇的目标标签簇参数。
7.根据权利要求1所述的方法,其特征在于,所述从所述多个目标用户簇中确定出洞察目标用户簇,包括:
接收设备用户界面上的目标用户簇选择指令,并根据所述目标用户簇选择指令从所述多个目标用户簇中确定出目标用户选择的目标用户簇,以作为洞察目标用户簇;
所述方法还包括:
将所述洞察目标用户簇中的各用户的用户属性洞察信息、所述各第一目标业务标签簇的第一标签簇参数和第二标签簇参数以及目标标签簇参数推送至所述设备用户界面,以向所述目标用户展示。
8.一种多媒体业务数据推送装置,其特征在于,包括:
获取模块,用于获取初始用户业务数据,所述初始用户业务数据中包括多个用户、多个业务标签以及各用户对各业务标签的交互数据;
生成模块,用于根据所述初始用户业务数据中包括的所有用户、所有业务标签以及各用户对各业务标签的交互数据生成用户词嵌入向量和标签词嵌入向量,其中一个用户对应一个用户词嵌入向量,一个业务标签对应一个标签词嵌入向量;
聚类模块,用于对所述所有用户对应的用户词嵌入向量进行聚类得到多个目标用户簇,对所述所有业务标签对应的标签词嵌入向量进行聚类得到多个目标业务标签簇,并根据所述多个目标用户簇和所述多个目标业务标签簇生成目标用户业务数据,所述目标用户业务数据中包括各目标业务标签簇对应的目标用户簇;
确定模块,用于从所述多个目标用户簇中确定出洞察目标用户簇,所述洞察目标用户簇对应多个第一目标业务标签簇;
推送模块,用于基于所述洞察目标用户簇中的各用户对各第一目标业务标签簇的交互数据以及所述所有用户对所述各第一目标业务标签簇的交互数据,从所述多个第一目标业务标签簇中确定出第二目标业务标签簇,并向所述洞察目标用户簇中的各用户推送所述第二目标业务标签簇对应的多媒体业务数据。
9.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011096611.2A CN112818213A (zh) | 2020-10-14 | 2020-10-14 | 多媒体业务数据推送方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011096611.2A CN112818213A (zh) | 2020-10-14 | 2020-10-14 | 多媒体业务数据推送方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112818213A true CN112818213A (zh) | 2021-05-18 |
Family
ID=75853079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011096611.2A Pending CN112818213A (zh) | 2020-10-14 | 2020-10-14 | 多媒体业务数据推送方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818213A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113919344A (zh) * | 2021-09-26 | 2022-01-11 | 腾讯科技(深圳)有限公司 | 文本处理方法和装置 |
CN114866433A (zh) * | 2022-04-21 | 2022-08-05 | 中国移动通信集团陕西有限公司 | 用户业务感知评估方法、装置、设备及计算机存储介质 |
-
2020
- 2020-10-14 CN CN202011096611.2A patent/CN112818213A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113919344A (zh) * | 2021-09-26 | 2022-01-11 | 腾讯科技(深圳)有限公司 | 文本处理方法和装置 |
CN114866433A (zh) * | 2022-04-21 | 2022-08-05 | 中国移动通信集团陕西有限公司 | 用户业务感知评估方法、装置、设备及计算机存储介质 |
CN114866433B (zh) * | 2022-04-21 | 2024-03-22 | 中国移动通信集团陕西有限公司 | 用户业务感知评估方法、装置、设备及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190188285A1 (en) | Image Search with Embedding-based Models on Online Social Networks | |
US20230017667A1 (en) | Data recommendation method and apparatus, computer device, and storage medium | |
CN109961080B (zh) | 终端识别方法及装置 | |
CN107145485B (zh) | 用于压缩主题模型的方法和装置 | |
CN107077487A (zh) | 利用深度网络对个人照片加标签 | |
EP2973038A1 (en) | Classifying resources using a deep network | |
CN109190046A (zh) | 内容推荐方法、装置及内容推荐服务器 | |
US20230224301A1 (en) | Enhanced access to media, systems and methods | |
CN110909182A (zh) | 多媒体资源搜索方法、装置、计算机设备及存储介质 | |
CN109697641A (zh) | 计算商品相似度的方法和装置 | |
CN111310074B (zh) | 兴趣点的标签优化方法、装置、电子设备和计算机可读介质 | |
CN108288208B (zh) | 基于图像内容的展示对象确定方法、装置、介质及设备 | |
CN111259263A (zh) | 一种物品推荐方法、装置、计算机设备及存储介质 | |
CN109242030A (zh) | 画单生成方法及装置,电子设备,计算机可读存储介质 | |
CN112818213A (zh) | 多媒体业务数据推送方法、装置、设备及存储介质 | |
Ma et al. | Gender estimation for sns user profiling using automatic image annotation | |
CN113641797A (zh) | 数据处理方法、装置、设备、存储介质及计算机程序产品 | |
CN111310025B (zh) | 模型训练方法、数据处理方法、装置以及相关设备 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
CN112287238A (zh) | 用户特征的确定方法和装置、存储介质及电子设备 | |
CN115689672A (zh) | 聊天式商品导购方法及其装置、设备、介质 | |
CN110399564B (zh) | 帐号分类方法和装置、存储介质及电子装置 | |
CN113656699B (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN110147223A (zh) | 组件库的生成方法、装置及设备 | |
CN110363206A (zh) | 数据对象的聚类、数据处理及数据识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40044656 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |