CN117390203A - 多媒体推荐方法、装置、设备及存储介质 - Google Patents
多媒体推荐方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117390203A CN117390203A CN202210764099.7A CN202210764099A CN117390203A CN 117390203 A CN117390203 A CN 117390203A CN 202210764099 A CN202210764099 A CN 202210764099A CN 117390203 A CN117390203 A CN 117390203A
- Authority
- CN
- China
- Prior art keywords
- multimedia
- user
- data
- model
- click
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 claims description 182
- 230000006399 behavior Effects 0.000 claims description 141
- 238000005070 sampling Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 13
- 230000004931 aggregating effect Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 12
- 238000001914 filtration Methods 0.000 description 19
- 238000012163 sequencing technique Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012896 Statistical algorithm Methods 0.000 description 2
- 230000001680 brushing effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于计算机技术领域,公开了一种多媒体推荐方法、装置、设备及存储介质。本发明实施例通过获取针对用户同一用户搜索语句生成的多条多媒体搜索语句;通过预设点击预估模型对多条多媒体搜索语句进行点击率预测,获得各多媒体搜索语句对应的用户点击率;基于用户点击率从多条多媒体搜索语句中选取目标搜索语句;根据目标搜索语句在预设多媒体引擎中进行查找,获得目标多媒体数据,并基于目标多媒体数据进行多媒体推荐。由于是根据多媒体搜索语句对应的用户点击率选取目标搜索语句,并根据目标多媒体语句对应的目标多媒体数据进行数据推荐,可以保证最终推荐的多媒体数据被用户点击的几率较高,从而提高多媒体推荐的推荐效果。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种多媒体推荐方法、装置、设备及存储介质。
背景技术
搜索多媒体数据(包括文本数据及音视频数据)中需要基于包含搜索关键词的用户检索语句(用户query)进行数据召回,但是在一些垂直搜索场景下,可能会缺少用户检索语句或者语句表达不清,此时会导致一次请求到达多媒体引擎后无法召回多媒体数据。此时能采用的解决方案是进行用户检索语句的改写和多媒体搜索语句的推荐,在此过程中,对语句的排序是极为重要的一环,若排序效果差,则会导致整体多媒体推荐的效果也较差。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种多媒体推荐方法、装置、设备及存储介质,旨在提高多媒体推荐效果。
为实现上述目的,本发明提供了一种多媒体推荐方法,所述方法包括以下步骤:
获取针对用户同一用户搜索语句生成的多条多媒体搜索语句;
通过预设点击预估模型对所述多条多媒体搜索语句进行点击率预测,获得各多媒体搜索语句对应的用户点击率;
基于所述用户点击率从所述多条多媒体搜索语句中选取目标搜索语句;
根据所述目标搜索语句在预设多媒体引擎中进行查找,获得目标多媒体数据,并基于所述目标多媒体数据进行多媒体推荐。
可选的,所述获取针对用户同一用户搜索语句生成的多条多媒体搜索语句的步骤之前,还包括:
获取所述用户的用户行为数据及各用户行为数据对应的推荐反馈数据;
根据所述用户行为数据及所述推荐反馈数据构建原始异构图,并从所述用户行为数据中提取行为特征数据;
依据所述原始异构图、所述用户行为数据、所述推荐反馈数据及所述行为特征数据构建模型训练集;
通过所述模型训练集对初始点击预估模型进行训练,获得预设点击预估模型。
可选的,所述依据所述原始异构图、所述用户行为数据、所述推荐反馈数据及所述行为特征数据构建模型训练集的步骤,包括:
对所述用户行为数据及所述推荐反馈数据进行统计,确定所述原始异构图中各边的权重信息;
根据所述权重信息对所述原始异构图进行调整,获得最终异构图;
确定各用户行为数据在所述最终异构图中对应的图节点,并对所述图节点进行子图采样,根据采样结果结合所述行为特征数据生成模型训练样本;
根据所述模型训练样本构建模型训练集。
可选的,所述根据所述模型训练样本构建模型训练集的步骤包括:
依据所述推荐反馈数据确定各模型训练样本对应的点击行为标签;
依据所述点击行为标签将所述模型训练样本划分为正样本及负样本,并设置对应的样本标签;
将设置有样本标签的模型训练样本进行聚合,获得模型训练集。
可选的,所述通过所述模型训练集对初始点击预估模型进行训练,获得预设点击预估模型的步骤,包括:
对所述原始异构图中的文本数据进行分词,并基于分词结果训练词向量;
根据训练得到的词向量对初始点击预估模型进行初始化;
在初始化完成时,通过所述模型训练集对所述初始点击预估模型进行训练,获得预设点击预估模型。
可选的,所述在初始化完成时,通过所述模型训练集对所述初始点击预估模型进行训练,获得预设点击预估模型的步骤,包括:
在初始化完成时,通过所述模型训练集对所述初始点击预估模型进行训练;
在训练至模型收敛时,将所述初始点击预估模型转换为预设格式,获得预设点击预估模型。
可选的,所述获取针对用户同一用户搜索语句生成的多条多媒体搜索语句的步骤,包括:
获取所述用户对应的用户特征数据;
通过预设语句生成模型对所述用户搜索语句及所述用户特征数据进行推荐分析,生成多条多媒体搜索语句。
可选的,所述基于所述用户点击率从所述多条多媒体搜索语句中选取目标搜索语句的步骤,包括:
依据所述用户点击率从大到小对所述多条多媒体搜索语句进行排序,获得语句排序结果;
从所述语句排序结果中选取预设数量的多媒体搜索语句作为目标搜索语句。
可选的,所述依据所述用户点击率从大到小对所述多条多媒体搜索语句进行排序,获得语句排序结果的步骤,包括:
统计所述多条多媒体搜索语句的语句数量;
若所述语句数量大于或等于预设数量阈值,则将所述多条多媒体搜索语句中对应的用户点击率小于或等于预设几率阈值的多媒体搜索语句移除;
将依据所述用户点击率从大到小对剩余的多媒体搜索语句进行排序,获得语句排序结果。
可选的,所述根据所述目标搜索语句在预设多媒体引擎中进行查找,获得目标多媒体数据,并基于所述目标多媒体数据进行多媒体推荐的步骤,包括:
从所述目标搜索语句中提取类型匹配条件和数据过滤条件;
根据所述类型匹配条件在所述预设多媒体引擎中进行查找,获得待处理数据;
根据所述数据过滤条件对所述待处理数据进行过滤,获得目标多媒体数据;
根据所述目标多媒体数据进行多媒体推荐。
可选的,所述根据所述目标多媒体数据进行多媒体推荐的步骤,包括:
获取所述用户对应的用户画像;
根据所述用户画像确定用户偏好类型;
将各目标多媒体数据与所述用户偏好类型进行类型匹配,获得各目标多媒体数据对应的类型匹配分值;
依据所述类型匹配分值对所述目标多媒体数据进行排序,并基于排序结果向所述用户进行多媒体推荐。
此外,为实现上述目的,本发明还提出一种多媒体推荐装置,所述多媒体推荐装置包括以下模块:
数据获取模块,用于获取针对用户同一用户搜索语句生成的多条多媒体搜索语句;
点击预测模块,用于通过预设点击预估模型对所述多条多媒体搜索语句进行点击率预测,获得各多媒体搜索语句对应的用户点击率;
语句确定模块,用于基于所述用户点击率从所述多条多媒体搜索语句中选取目标搜索语句;
数据推荐模块,用于根据所述目标搜索语句在预设多媒体引擎中进行查找,获得目标多媒体数据,并基于所述目标多媒体数据进行多媒体推荐。
可选的,所述数据获取模块,还用于获取所述用户的用户行为数据及各用户行为数据对应的推荐反馈数据;根据所述用户行为数据及所述推荐反馈数据构建原始异构图,并从所述用户行为数据中提取行为特征数据;依据所述原始异构图、所述用户行为数据、所述推荐反馈数据及所述行为特征数据构建模型训练集;通过所述模型训练集对初始点击预估模型进行训练,获得预设点击预估模型。
可选的,所述数据获取模块,还用于对所述用户行为数据及所述推荐反馈数据进行统计,确定所述原始异构图中各边的权重信息;根据所述权重信息对所述原始异构图进行调整,获得最终异构图;确定各用户行为数据在所述最终异构图中对应的图节点,并对所述图节点进行子图采样,根据采样结果结合所述行为特征数据生成模型训练样本;根据所述模型训练样本构建模型训练集。
可选的,所述数据获取模块,还用于依据所述推荐反馈数据确定各模型训练样本对应的点击行为标签;依据所述点击行为标签将所述模型训练样本划分为正样本及负样本,并设置对应的样本标签;将设置有样本标签的模型训练样本进行聚合,获得模型训练集。
可选的,所述数据获取模块,还用于对所述原始异构图中的文本数据进行分词,并基于分词结果训练词向量;根据训练得到的词向量对初始点击预估模型进行初始化;在初始化完成时,通过所述模型训练集对所述初始点击预估模型进行训练,获得预设点击预估模型。
可选的,所述数据获取模块,还用于在初始化完成时,通过所述模型训练集对所述初始点击预估模型进行训练;在训练至模型收敛时,将所述初始点击预估模型转换为预设格式,获得预设点击预估模型。
可选的,所述数据获取模块,还用于获取所述用户对应的用户特征数据;通过预设语句生成模型对所述用户搜索语句及所述用户特征数据进行推荐分析,生成多条多媒体搜索语句。
此外,为实现上述目的,本发明还提出一种多媒体推荐设备,所述多媒体推荐设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的多媒体推荐程序,所述多媒体推荐程序被处理器执行时实现如上所述的多媒体推荐方法的步骤。
此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有多媒体推荐程序,所述多媒体推荐程序执行时实现如上所述的多媒体推荐方法的步骤。
本发明通过获取针对用户同一用户搜索语句生成的多条多媒体搜索语句;通过预设点击预估模型对多条多媒体搜索语句进行点击率预测,获得各多媒体搜索语句对应的用户点击率;基于用户点击率从多条多媒体搜索语句中选取目标搜索语句;根据目标搜索语句在预设多媒体引擎中进行查找,获得目标多媒体数据,并基于目标多媒体数据进行多媒体推荐。由于是根据多媒体搜索语句对应的用户点击率选取目标搜索语句,并根据目标多媒体语句对应的目标多媒体数据进行数据推荐,可以保证最终推荐的多媒体数据被用户点击的几率较高,从而提高多媒体推荐的推荐效果。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的电子设备的结构示意图;
图2为本发明多媒体推荐方法第一实施例的流程示意图;
图3为本发明多媒体推荐方法第二实施例的流程示意图;
图4为本发明多媒体推荐方法第三实施例的流程示意图;
图5为本发明多媒体推荐装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的多媒体推荐设备结构示意图。
如图1所示,该电子设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及多媒体推荐程序。
在图1所示的电子设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明电子设备中的处理器1001、存储器1005可以设置在多媒体推荐设备中,所述电子设备通过处理器1001调用存储器1005中存储的多媒体推荐程序,并执行本发明实施例提供的多媒体推荐方法。
本发明实施例提供了一种多媒体推荐方法,参照图2,图2为本发明一种多媒体推荐方法第一实施例的流程示意图。
本实施例中,所述多媒体推荐方法包括以下步骤:
步骤S100:获取针对用户同一用户搜索语句生成的多条多媒体搜索语句。
需要说明的是,本实施例的执行主体可以是所述多媒体推荐设备,所述多媒体推荐设备可以是个人电脑、服务器等电子设备,还可以是其他可实现相同或相似功能的设备,本实施例对此不加以限制,在本实施例及下述各实施例中,以多媒体推荐设备为例对本发明多媒体推荐方法进行说明。
需要说明的是,用户搜索语句可以是用户进行商品检索或多媒体信息检索时输入的查询语句,用户搜索语句中可以包括至少一个查询关键词。多媒体推荐设备在获取到用户搜索语句时,为了推送合适的多媒体数据,可以对用户搜索语句中的查询关键词进行改写或同义词替换,并基于修改后的关键词生成多媒体搜索语句,而在实际使用中,由于在进行关键词改写时,可以能存在多种改写方式,且同一个关键词可能会存在多个不同的同义词,因此,会生成多条多媒体搜索语句。
进一步的,为了快速获得针对用户同一条用户搜索语句生成的多条多媒体搜索语句,本实施例所述步骤S10,可以包括:
获取所述用户对应的用户特征数据;
通过预设语句生成模型对所述用户搜索语句及所述用户特征数据进行推荐分析,生成多条多媒体搜索语句。
需要说明的是,用户特征数据可以包括用户画像、用户所处的服务界面、用户使用的浏览器、用户所处的城市等特征数据。预设语句生成模型可以是预先训练的用于生成多媒体搜索语句的模型,预设语句生成模型可以是双塔结构的图模型。
可以理解的是,模型在预先训练好之后,在使用时处理的速度极快,预先训练的预设语句生成模型,在需要生成多媒体搜索语句时,通过预设语句生成模型根据用户搜索语句及用户特征数据进行推荐分析,可以快速生成多条可以使用的多媒体搜索语句。
步骤S200:通过预设点击预估模型对所述多条多媒体搜索语句进行点击率预测,获得各多媒体搜索语句对应的用户点击率。
需要说明的是,预设点击预估模型可以是预先训练的神经网络模型。多媒体搜索语句对应的用户点击率可以是多媒体搜索语句对应的多媒体数据被用户点击的几率,其中,多媒体搜索语句对应的多媒体数据可以是根据多媒体搜索语句查询到的多媒体数据。
在实际使用中,还可以获取用户的用户画像或其他可用于表示用户喜好的数据,然后将其与多条多媒体搜索语句一同输入预设点击预估模型进行点击率预测,从而提高点击率预测的准确率。
步骤S300:基于所述用户点击率从所述多条多媒体搜索语句中选取目标搜索语句。
需要说明的是,基于用户点击率从多条多媒体搜索语句中选取目标搜索语句可以是根据用户点击率从多条多媒体搜索语句中选取预设数量的多媒体搜索语句作为目标搜索语句。其中,预设数量可以由多媒体推荐设备的管理人员根据实际需要进行设置,例如:将预设数量设置为3。
进一步的,为了保证多媒体推荐的推荐效果,应当选取用户点击率高的多媒体搜索语句作为目标搜索语句,而为了快速选取,可以先依据用户点击率对各多媒体搜索语句进行排序,从而提高处理效率,则此时本实施例所述步骤S30,可以包括:
依据所述用户点击率从大到小对所述多条多媒体搜索语句进行排序,获得语句排序结果;
从所述语句排序结果中选取预设数量的多媒体搜索语句作为目标搜索语句。
需要说明的是,从语句排序结果中选取预设数量的多媒体搜索语句作为目标搜索语句可以是依据排序顺序,将语句排序结果中排序靠前的预设数量的多媒体搜索语句作为目标搜索语句。
可以理解的是,因为预先已经依据用户点击率从大到小对多条多媒体搜索语句进行排序,然后从排序结果中选取排序靠前的预设数量的多媒体搜索语句作为目标搜索语句,可以保证最终获得的目标多媒体数据被用户点击的几率较高,从而提高多媒体推荐的推荐效果。
进一步的,若是生成的多媒体搜索语句的数量较多,此时将其全部进行排序再获取,可能会导致整体的执行效率较低,为了避免此种现象,本实施例所述依据所述用户点击率从大到小对所述多条多媒体搜索语句进行排序,获得语句排序结果的步骤,可以包括:
统计所述多条多媒体搜索语句的语句数量;
若所述语句数量大于或等于预设数量阈值,则将所述多条多媒体搜索语句中对应的用户点击率小于或等于预设几率阈值的多媒体搜索语句移除;
将依据所述用户点击率从大到小对剩余的多媒体搜索语句进行排序,获得语句排序结果。
需要说明的是,预设数量阈值可以由多媒体推荐设备的管理人员根据实际需要预先进行设置,例如:将预设数量阈值设置为30。预设几率阈值也可以由多媒体推荐设备的管理人员根据实际需要预先进行设置,例如:将预设几率阈值设置为20%。
可以理解的是,若语句数量大于或等于预设数量阈值,则表示当前的多媒体搜索语句的数量较多,可以先排除部分质量较差的多媒体搜索语句,再进行排序,而若是多媒体搜索语句对应的用户点击率小于或等于预设几率阈值,则表示该多媒体搜索语句对应的多媒体数据被用户点击的几率极低,因此,可以将此类多媒体搜索语句先行移除,然后再对剩余的多媒体搜索语句进行排序,从而提高整体的执行效率。
步骤S400:根据所述目标搜索语句在预设多媒体引擎中进行查找,获得目标多媒体数据,并基于所述目标多媒体数据进行多媒体推荐。
需要说明的是,预设多媒体引擎可以是管理有大量多媒体数据的数据引擎。根据目标搜索语句在预设多媒体引擎中进行查找,获得目标多媒体数据可以是将预设多媒体引擎管理的多媒体数据与目标搜索语句中包含的数据筛选条件进行匹配,并将成功匹配到的多媒体数据作为目标多媒体数据。
在实际使用中,目标搜索语句可能存在多条,则此时可以在预设多媒体引擎中分别查找各目标搜索语句对应的多媒体数据,然后求取各目标搜索语句对应的多媒体数据的并集,从而获得目标多媒体数据。基于目标多媒体数据进行多媒体推荐可以是将目标多媒体数据填充至用户当前所处的服务界面中的推荐区域中,从而实现多媒体推荐。
进一步的,由于预设多媒体引擎管理的多媒体数据的数量极多,为了加快获取目标多媒体数据的执行效率,本实施例所述步骤S40,可以包括:
从所述目标搜索语句中提取类型匹配条件和数据过滤条件;
根据所述类型匹配条件在所述预设多媒体引擎中进行查找,获得待处理数据;
根据所述数据过滤条件对所述待处理数据进行过滤,获得目标多媒体数据;
根据所述目标多媒体数据进行多媒体推荐。
需要说明的是,多媒体数据可以包括类型标签和数据内容,其中,类型标签可以用于表示数据类型及内容类型,例如:假设某多媒体数据的类型标签为“文本-金融”则表示该多媒体数据的数据类型为文本,且内容与财经相关。类型匹配条件可以是对多媒体数据进行类型筛选时所使用的匹配条件,数据过滤条件可以是对多媒体数据的进行内容筛选时所使用的匹配条件。
在实际使用中,根据类型匹配条件在预设多媒体引擎中进行查找,获得待处理数据可以是将预设多媒体引擎管理的各多媒体数据的类型标签与类型匹配条件进行匹配,并将匹配成功的多媒体数据作为待处理数据。根据数据过滤条件对待处理数据进行过滤,获得目标多媒体数据可以是将待处理数据的数据内容与数据过滤条件进行匹配,从而进行内容筛选,并将匹配成功的待处理数据作为目标多媒体数据。
进一步的,为了提高多媒体推荐的推荐效果,本实施例所述根据所述目标多媒体数据进行多媒体推荐的步骤,可以包括:
获取所述用户对应的用户画像;
根据所述用户画像确定用户偏好类型;
将各目标多媒体数据与所述用户偏好类型进行类型匹配,获得各目标多媒体数据对应的类型匹配分值;
依据所述类型匹配分值对所述目标多媒体数据进行排序,并基于排序结果向所述用户进行多媒体推荐。
需要说明的是,用户画像可以预先根据用户的历史点击数据、历史浏览数据等数据构建,可以用于表示用户的浏览喜好。获取用户对应的用户画像可以是根据用户的用户标识在预设画像库中查找对应的用户画像,其中,预设画像库可以是存储有各用户的用户画像的数据库。
在具体实现中,根据用户画像确定用户偏好类型可以是提取用户画像中用户在多媒体浏览方向关联的多种多媒体类型,作为用户偏好类型。将目标多媒体数据与用户偏好类型进行类型匹配,获得对应的类型匹配分值可以是确定目标多媒体数据与用户偏好类型的相似度,并将相似度作为类型匹配分值。
在实际使用中,依据类型匹配分值对目标多媒体数据进行排序,并基于排序结果向用户进行多媒体推荐可以是依据类型匹配分值从大到小对目标多媒体数据进行排序,然后依据排序顺序及各推荐区域的优先级将目标多媒体数据分别填充到用户所处的服务界面中的各推荐区域中,例如:将排序顺序中靠前的目标多媒体填充至优先级较高的推荐区域中。
其中,推荐区域的优先级可以根据该推荐区域距离用户使用的搜索框或查询框的距离确定,也可以根据推荐区域的面积确定。例如:距离用户使用的搜索框距离越近,则该推荐区域对应的优先级越高,或推荐区域在界面中占据的面积越大,则该推荐区域对应的优先级越高。
可以理解的是,将依据类型匹配分值对目标多媒体数据进行排序,然后基于排序结果向用户进行多媒体推荐,可以保证将类型匹配分值较高的目标多媒体数据展示在更加优质的推荐区域中,即将与用户喜好匹配度较高的多媒体数据展示在更加优质的推荐区域中,可以提高用户看到符合其喜好的多媒体数据的可能性,从而提升多媒体推荐效果。
本实施例通过获取针对用户同一用户搜索语句生成的多条多媒体搜索语句;通过预设点击预估模型对多条多媒体搜索语句进行点击率预测,获得各多媒体搜索语句对应的用户点击率;基于用户点击率从多条多媒体搜索语句中选取目标搜索语句;根据目标搜索语句在预设多媒体引擎中进行查找,获得目标多媒体数据,并基于目标多媒体数据进行多媒体推荐。由于是根据多媒体搜索语句对应的用户点击率选取目标搜索语句,并根据目标多媒体语句对应的目标多媒体数据进行数据推荐,可以保证最终推荐的多媒体数据被用户点击的几率较高,从而提高多媒体推荐的推荐效果。
参考图3,图3为本发明一种多媒体推荐方法第二实施例的流程示意图。
基于上述第一实施例,本实施例多媒体推荐方法在所述步骤S10之前,还包括:
步骤S010:获取所述用户的用户行为数据及各用户行为数据对应的推荐反馈数据。
需要说明的是,用户行为数据可以包括用户输入的用户搜索语句、用户的内容点击操作信息、用户进入服务界面的时间、用户所处城市、用户所使用的浏览器类型等数据。推荐反馈数据可以包括:向用户进行多媒体推荐时所使用的多媒体搜索语句、推荐时使用的多媒体数据、被用户点击的多媒体数据等数据。
在实际使用中,获取用户的用户行为数据及各用户行为数据对应的推荐反馈数据可以是读取服务端、前端中存储的日志,通过从提取到的日志中提取用户行为数据及各用户行为数据对应的推荐反馈数据。
在具体实现中,由于可能会存在有恶意刷单或恶意刷流量等行为,此种行为形成的数据并不能真实反应真实用户的用户行为,若在构建用户行为数据和多媒体推荐数据时,不将此类数据排除,可能会导致最终训练得到的预设推荐模型的实际使用效果较差,为了避免此种现象,可以对从服务端、前端采集的日志进行反作弊过滤及上下文对齐聚合等处理,然后再从处理后的日志中提取用户行为数据及各用户行为数据对应的推荐反馈数据。
步骤S020:根据所述用户行为数据及所述推荐反馈数据构建原始异构图,并从所述用户行为数据中提取行为特征数据。
需要说明的是,原始异构图可以是无相异构图。根据用户行为数据及推荐反馈数据构建原始异构图可以是根据用户行为数据及推荐反馈数据生成多种不同类型的图节点,然后将各图节点按数据关联关系相连,从而获得原始异构图。
在实际使用中,生成的原始异构图中的图节点可以分为:用户、用户搜索语句(自然query)、多媒体搜索语句(多媒体query)和多媒体数据等几种不同类型的节点,而根据数据之间的关联关系,原始异构图中会存在的边会有三种:用户—自然query(用户有该自然query的检索行为)、用户—多媒体数据(用户有该多媒体数据的点击行为)和多媒体数据—多媒体query(多媒体引擎根据多媒体query返回的相应多媒体数据)。
从用户行为数据中提取行为特征数据可以是从用户行为数据中提取上下文特征,并根据提取到的上下文特征构建特征表,并将构建的特征表作为行为特征数据。其中,上下文特征可以包括:操作时间、所处城市、使用浏览器类型等特征。
步骤S030:依据所述原始异构图、所述用户行为数据、所述推荐反馈数据及所述行为特征数据构建模型训练集。
需要说明的是,依据原始异构图、用户行为数据、推荐反馈数据及行为特征数据构建模型训练集可以是依据原始异构图、用户行为数据、推荐反馈数据及行为特征数据生成多个模型训练样本,然后将获得的模型训练样本进行聚合,从而获得模型训练集。
步骤S040:通过所述模型训练集对初始点击预估模型进行训练,获得预设点击预估模型。
需要说明的是,初始点击预估模型可以是深度图模型,其中可以包括:多层图卷积网络、二阶特征交叉、三阶特征交叉和多层感知机等模块,并且使用adam优化器作为模型优化器。通过模型训练集对初始点击预估模型进行训练,获得预设点击预估模型可以是遍历模型训练集,并将遍历到的模型训练样本输入初始点击预估模型进行训练,直至初始点击预估模型收敛或遍历完成,则将训练后的初始点击预估模型作为预设点击预估模型。
进一步的,为了保证模型训练效率,本实施所述步骤S040,可以包括:
对所述原始异构图中的文本数据进行分词,并基于分词结果训练词向量;
根据训练得到的词向量对初始点击预估模型进行初始化;
在初始化完成时,通过所述模型训练集对所述初始点击预估模型进行训练,获得预设点击预估模型。
需要说明的是,原始异构图中可能会存在大量的文本数据,例如:用户搜索语句(自然query)、多媒体搜索语句、多媒体数据标题和多媒体数据的数据内容等。相应的,构建的模型训练样本中也会存在此类文本数据,为了初始点击预估模型可能难以解析此类数据,因此,可以预先对原始异构图中的文本数据进行分词,并基于分词结果训练词向量,然后通过训练得到的词向量对初始点击预估模型进行初始化,并在初始化完成之后,再通过模型训练集对初始点击预估模型进行训练,从而保证训练过程中初始点击预估模型可正常解析此类文本数据,从而保证模型训练效率。
在实际使用中,对原始异构图中的文本数据进行分词,并基于分词结果训练词向量可以是对原始异构图中的文本数据进行分词,然后使用fasttext模型训练词向量。
进一步的,为了保证训练得到的模型可被其他服务快速调用,本实施例所述在初始化完成时,通过所述模型训练集对所述初始点击预估模型进行训练,获得预设点击预估模型的步骤,可以包括:
在初始化完成时,通过所述模型训练集对所述初始点击预估模型进行训练;
在训练至模型收敛时,将所述初始点击预估模型转换为预设格式,获得预设点击预估模型。
需要说明的是,预设格式可以由多媒体推荐设备的管理人员根据实际需要预先进行设置,例如:将预设格式设置为tensorrt engine格式。
在实际使用中,将初始点击预估模型转换为预设格式,获得预设点击预估模型可以是对初始点击预估模型进行多次转换,然后将多次转换后得到的预设格式的模型作为预设点击预估模型。例如:假设预设格式为tensorrt engine格式,则可以先将训练后的初始点击预估模型转换为onnx模型,然后再进一步转换为tensorrt engine格式,从而供线上的图模型推理服务使用。
本实施例通过获取所述用户的用户行为数据及各用户行为数据对应的推荐反馈数据;根据所述用户行为数据及所述推荐反馈数据构建原始异构图,并从所述用户行为数据中提取行为特征数据;依据所述原始异构图、所述用户行为数据、所述推荐反馈数据及所述行为特征数据构建模型训练集;通过所述模型训练集对初始点击预估模型进行训练,获得预设点击预估模型。由于会预先根据用户的用户行为数据及各用户行为数据对应的推荐反馈数据构建模型训练集,然后根据模型训练集训练预设点击预估模型,使得在需要进行多媒体推荐时可以直接调用预设点击预估模型确定各多媒体搜索语句对应的用户点击率,不必实时训练模型,提高了本发明多媒体推荐方法的执行效率。
参考图4,图4为本发明一种多媒体推荐方法第三实施例的流程示意图。
基于上述第一实施例,本实施例多媒体推荐方法的所述步骤S030,包括:
步骤S0301:对所述用户行为数据及所述推荐反馈数据进行统计,确定所述原始异构图中各边的权重信息。
需要说明的是,对用户行为数据及推荐反馈数据进行统计,确定原始异构图中各边的权重信息可以是通过预设统计算法对用户行为数据及推荐反馈数据进行统计,从而确定原始异构图中各边的权重信息,其中,预设统计算法可以是tf-idf算法,当然,也可以是类似的算法,本实施例对此不加以限制。
步骤S0302:根据所述权重信息对所述原始异构图进行调整,获得最终异构图。
需要说明的是,根据权重信息对原始异构图进行调整,获得最终异构图可以是根据各边的权重信息对原始异构图进行邻居采样,根据采样结果对原始异构图进行调整,并将调整后的原始异构图作为最终异构图。
步骤S0303:确定各用户行为数据在所述最终异构图中对应的图节点,并对所述图节点进行子图采样,根据采样结果结合所述行为特征数据生成模型训练样本。
在实际使用中,可以先查找用户行为数据在最终异构图中对应的图节点,然后对用户行为数据对应的图节点进行子图采样,采样出其1阶到k阶邻居,并获取其中的上下文特征,然后在行为特征数据中查找对应的数据,并进行编码处理,最终根据采样得到的采样结果和编码处理得到的数据构建模型训练样本。
步骤S0304:根据所述模型训练样本构建模型训练集。
需要说明的是,根据模型训练样本构建模型训练集可以是将所有获得的模型训练样本进行聚合,从而获得模型训练集。
进一步的,为了提高模型训练速度,本实施例所述步骤S0304,可以包括:
依据所述推荐反馈数据确定各模型训练样本对应的点击行为标签;
依据所述点击行为标签将所述模型训练样本划分为正样本及负样本,并设置对应的样本标签;
将设置有样本标签的模型训练样本进行聚合,获得模型训练集。
需要说明的是,点击行为标签可以包括存在点击及不存在点击两种。依据推荐反馈数据确定模型训练样本对应的点击行为标签可以是获取构建模型训练样本时所使用的用户行为数据,获取该用户行为数据对应的推荐反馈数据,根据推荐反馈数据确定用户是否对推荐的多媒体数据进行点击,若是,则将该模型训练样本对应的点击行为标签设为存在点击,若不是,则将模型训练样本对应的点击行为标签设为不存在点击。
在具体实现中,依据点击行为标签将模型训练样本划分为正样本及负样本,并设置对应的样本标签可以是将对应的点击行为标签为存在点击的模型训练样本划分为正样本,并为其设置对应的正样本标签;将对应的点击行为标签为不存在点击的模型训练样本划分为负样本,并为其设置对应的负样本标签。
可以理解的是,在对模型训练之前,将模型训练样本设置对应的样本标签,可以令模型在进行训练时确定该样本是正样本还是负样本,可以是的模型在训练过程中明确模型参数的优化方向,从而提高模型训练速度。
本实施例通过对所述用户行为数据及所述推荐反馈数据进行统计,确定所述原始异构图中各边的权重信息;根据所述权重信息对所述原始异构图进行调整,获得最终异构图;确定各用户行为数据在所述最终异构图中对应的图节点,并对所述图节点进行子图采样,根据采样结果结合所述行为特征数据生成模型训练样本;根据所述模型训练样本构建模型训练集。由于会根据所述用户行为数据及推荐反馈数据进行统计的统计结果对原始异构图进行调整,使其可以更加准确的反馈真实推荐情况,之后再根据调整后的最终异构图生成模型训练样本构建模型训练集,可以使得训练得到的预设点击预估模型的点击率预测更加准确。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有多媒体推荐程序,所述多媒体推荐程序被处理器执行时实现如上文所述的多媒体推荐方法的步骤。
参照图5,图5为本发明多媒体推荐装置第一实施例的结构框图。
如图5所示,本发明实施例提出的多媒体推荐装置包括:
数据获取模块10,用于获取针对用户同一用户搜索语句生成的多条多媒体搜索语句。
点击预测模块20,用于通过预设点击预估模型对所述多条多媒体搜索语句进行点击率预测,获得各多媒体搜索语句对应的用户点击率。
语句确定模块30,用于基于所述用户点击率从所述多条多媒体搜索语句中选取目标搜索语句。
数据推荐模块40,用于根据所述目标搜索语句在预设多媒体引擎中进行查找,获得目标多媒体数据,并基于所述目标多媒体数据进行多媒体推荐。
本实施例通过获取针对用户同一用户搜索语句生成的多条多媒体搜索语句;通过预设点击预估模型对多条多媒体搜索语句进行点击率预测,获得各多媒体搜索语句对应的用户点击率;基于用户点击率从多条多媒体搜索语句中选取目标搜索语句;根据目标搜索语句在预设多媒体引擎中进行查找,获得目标多媒体数据,并基于目标多媒体数据进行多媒体推荐。由于是根据多媒体搜索语句对应的用户点击率选取目标搜索语句,并根据目标多媒体语句对应的目标多媒体数据进行数据推荐,可以保证最终推荐的多媒体数据被用户点击的几率较高,从而提高多媒体推荐的推荐效果。
进一步的,所述数据获取模块10,还用于获取所述用户的用户行为数据及各用户行为数据对应的推荐反馈数据;根据所述用户行为数据及所述推荐反馈数据构建原始异构图,并从所述用户行为数据中提取行为特征数据;依据所述原始异构图、所述用户行为数据、所述推荐反馈数据及所述行为特征数据构建模型训练集;通过所述模型训练集对初始点击预估模型进行训练,获得预设点击预估模型。
进一步的,所述数据获取模块10,还用于对所述用户行为数据及所述推荐反馈数据进行统计,确定所述原始异构图中各边的权重信息;根据所述权重信息对所述原始异构图进行调整,获得最终异构图;确定各用户行为数据在所述最终异构图中对应的图节点,并对所述图节点进行子图采样,根据采样结果结合所述行为特征数据生成模型训练样本;根据所述模型训练样本构建模型训练集。
进一步的,所述数据获取模块10,还用于依据所述推荐反馈数据确定各模型训练样本对应的点击行为标签;依据所述点击行为标签将所述模型训练样本划分为正样本及负样本,并设置对应的样本标签;将设置有样本标签的模型训练样本进行聚合,获得模型训练集。
进一步的,所述数据获取模块10,还用于对所述原始异构图中的文本数据进行分词,并基于分词结果训练词向量;根据训练得到的词向量对初始点击预估模型进行初始化;在初始化完成时,通过所述模型训练集对所述初始点击预估模型进行训练,获得预设点击预估模型。
进一步的,所述数据获取模块10,还用于在初始化完成时,通过所述模型训练集对所述初始点击预估模型进行训练;在训练至模型收敛时,将所述初始点击预估模型转换为预设格式,获得预设点击预估模型。
进一步的,所述数据获取模块10,还用于获取所述用户对应的用户特征数据;通过预设语句生成模型对所述用户搜索语句及所述用户特征数据进行推荐分析,生成多条多媒体搜索语句。
进一步的,所述语句确定模块30,还用于依据所述用户点击率从大到小对所述多条多媒体搜索语句进行排序,获得语句排序结果;从所述语句排序结果中选取预设数量的多媒体搜索语句作为目标搜索语句。
进一步的,所述语句确定模块30,还用于统计所述多条多媒体搜索语句的语句数量;若所述语句数量大于或等于预设数量阈值,则将所述多条多媒体搜索语句中对应的用户点击率小于或等于预设几率阈值的多媒体搜索语句移除;将依据所述用户点击率从大到小对剩余的多媒体搜索语句进行排序,获得语句排序结果。
进一步的,所述数据推荐模块40,还用于从所述目标搜索语句中提取类型匹配条件和数据过滤条件;根据所述类型匹配条件在所述预设多媒体引擎中进行查找,获得待处理数据;根据所述数据过滤条件对所述待处理数据进行过滤,获得目标多媒体数据;根据所述目标多媒体数据进行多媒体推荐。
进一步的,所述数据推荐模块40,还用于获取所述用户对应的用户画像;根据所述用户画像确定用户偏好类型;将各目标多媒体数据与所述用户偏好类型进行类型匹配,获得各目标多媒体数据对应的类型匹配分值;依据所述类型匹配分值对所述目标多媒体数据进行排序,并基于排序结果向所述用户进行多媒体推荐。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的多媒体推荐方法,此处不再赘述。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
本发明公开了A1、一种多媒体推荐方法,所述多媒体推荐方法包括以下步骤:
获取针对用户同一用户搜索语句生成的多条多媒体搜索语句;
通过预设点击预估模型对所述多条多媒体搜索语句进行点击率预测,获得各多媒体搜索语句对应的用户点击率;
基于所述用户点击率从所述多条多媒体搜索语句中选取目标搜索语句;
根据所述目标搜索语句在预设多媒体引擎中进行查找,获得目标多媒体数据,并基于所述目标多媒体数据进行多媒体推荐。
A2、如A1所述的多媒体推荐方法,所述获取针对用户同一用户搜索语句生成的多条多媒体搜索语句的步骤之前,还包括:
获取所述用户的用户行为数据及各用户行为数据对应的推荐反馈数据;
根据所述用户行为数据及所述推荐反馈数据构建原始异构图,并从所述用户行为数据中提取行为特征数据;
依据所述原始异构图、所述用户行为数据、所述推荐反馈数据及所述行为特征数据构建模型训练集;
通过所述模型训练集对初始点击预估模型进行训练,获得预设点击预估模型。
A3、如A2所述的多媒体推荐方法,所述依据所述原始异构图、所述用户行为数据、所述推荐反馈数据及所述行为特征数据构建模型训练集的步骤,包括:
对所述用户行为数据及所述推荐反馈数据进行统计,确定所述原始异构图中各边的权重信息;
根据所述权重信息对所述原始异构图进行调整,获得最终异构图;
确定各用户行为数据在所述最终异构图中对应的图节点,并对所述图节点进行子图采样,根据采样结果结合所述行为特征数据生成模型训练样本;
根据所述模型训练样本构建模型训练集。
A4、如A3所述的多媒体推荐方法,所述根据所述模型训练样本构建模型训练集的步骤包括:
依据所述推荐反馈数据确定各模型训练样本对应的点击行为标签;
依据所述点击行为标签将所述模型训练样本划分为正样本及负样本,并设置对应的样本标签;
将设置有样本标签的模型训练样本进行聚合,获得模型训练集。
A5、如A2所述的多媒体推荐方法,所述通过所述模型训练集对初始点击预估模型进行训练,获得预设点击预估模型的步骤,包括:
对所述原始异构图中的文本数据进行分词,并基于分词结果训练词向量;
根据训练得到的词向量对初始点击预估模型进行初始化;
在初始化完成时,通过所述模型训练集对所述初始点击预估模型进行训练,获得预设点击预估模型。
A6、如A5所述的多媒体推荐方法,所述在初始化完成时,通过所述模型训练集对所述初始点击预估模型进行训练,获得预设点击预估模型的步骤,包括:
在初始化完成时,通过所述模型训练集对所述初始点击预估模型进行训练;
在训练至模型收敛时,将所述初始点击预估模型转换为预设格式,获得预设点击预估模型。
A7、如A1所述的多媒体推荐方法,所述获取针对用户同一用户搜索语句生成的多条多媒体搜索语句的步骤,包括:
获取所述用户对应的用户特征数据;
通过预设语句生成模型对所述用户搜索语句及所述用户特征数据进行推荐分析,生成多条多媒体搜索语句。
A8、如A1所述的多媒体推荐方法,所述基于所述用户点击率从所述多条多媒体搜索语句中选取目标搜索语句的步骤,包括:
依据所述用户点击率从大到小对所述多条多媒体搜索语句进行排序,获得语句排序结果;
从所述语句排序结果中选取预设数量的多媒体搜索语句作为目标搜索语句。
A9、如A8所述的多媒体推荐方法,所述依据所述用户点击率从大到小对所述多条多媒体搜索语句进行排序,获得语句排序结果的步骤,包括:
统计所述多条多媒体搜索语句的语句数量;
若所述语句数量大于或等于预设数量阈值,则将所述多条多媒体搜索语句中对应的用户点击率小于或等于预设几率阈值的多媒体搜索语句移除;
将依据所述用户点击率从大到小对剩余的多媒体搜索语句进行排序,获得语句排序结果。
A10、如A1-A9任一项所述的多媒体推荐方法,所述根据所述目标搜索语句在预设多媒体引擎中进行查找,获得目标多媒体数据,并基于所述目标多媒体数据进行多媒体推荐的步骤,包括:
从所述目标搜索语句中提取类型匹配条件和数据过滤条件;
根据所述类型匹配条件在所述预设多媒体引擎中进行查找,获得待处理数据;
根据所述数据过滤条件对所述待处理数据进行过滤,获得目标多媒体数据;
根据所述目标多媒体数据进行多媒体推荐。
A11、如A10所述的多媒体推荐方法,所述根据所述目标多媒体数据进行多媒体推荐的步骤,包括:
获取所述用户对应的用户画像;
根据所述用户画像确定用户偏好类型;
将各目标多媒体数据与所述用户偏好类型进行类型匹配,获得各目标多媒体数据对应的类型匹配分值;
依据所述类型匹配分值对所述目标多媒体数据进行排序,并基于排序结果向所述用户进行多媒体推荐。
本发明还公开了B12、一种多媒体推荐装置,所述多媒体推荐装置包括以下模块:
数据获取模块,用于获取针对用户同一用户搜索语句生成的多条多媒体搜索语句;
点击预测模块,用于通过预设点击预估模型对所述多条多媒体搜索语句进行点击率预测,获得各多媒体搜索语句对应的用户点击率;
语句确定模块,用于基于所述用户点击率从所述多条多媒体搜索语句中选取目标搜索语句;
数据推荐模块,用于根据所述目标搜索语句在预设多媒体引擎中进行查找,获得目标多媒体数据,并基于所述目标多媒体数据进行多媒体推荐。
B13、如B12所述的多媒体推荐装置,所述数据获取模块,还用于获取所述用户的用户行为数据及各用户行为数据对应的推荐反馈数据;根据所述用户行为数据及所述推荐反馈数据构建原始异构图,并从所述用户行为数据中提取行为特征数据;依据所述原始异构图、所述用户行为数据、所述推荐反馈数据及所述行为特征数据构建模型训练集;通过所述模型训练集对初始点击预估模型进行训练,获得预设点击预估模型。
B14、如B13所述的多媒体推荐装置,所述数据获取模块,还用于对所述用户行为数据及所述推荐反馈数据进行统计,确定所述原始异构图中各边的权重信息;根据所述权重信息对所述原始异构图进行调整,获得最终异构图;确定各用户行为数据在所述最终异构图中对应的图节点,并对所述图节点进行子图采样,根据采样结果结合所述行为特征数据生成模型训练样本;根据所述模型训练样本构建模型训练集。
B15、如B14所述的多媒体推荐装置,所述数据获取模块,还用于依据所述推荐反馈数据确定各模型训练样本对应的点击行为标签;依据所述点击行为标签将所述模型训练样本划分为正样本及负样本,并设置对应的样本标签;将设置有样本标签的模型训练样本进行聚合,获得模型训练集。
B16、如B13所述的多媒体推荐装置,所述数据获取模块,还用于对所述原始异构图中的文本数据进行分词,并基于分词结果训练词向量;根据训练得到的词向量对初始点击预估模型进行初始化;在初始化完成时,通过所述模型训练集对所述初始点击预估模型进行训练,获得预设点击预估模型。
B17、如B16所述的多媒体推荐装置,所述数据获取模块,还用于在初始化完成时,通过所述模型训练集对所述初始点击预估模型进行训练;在训练至模型收敛时,将所述初始点击预估模型转换为预设格式,获得预设点击预估模型。
B18、如B12所述的多媒体推荐装置,所述数据获取模块,还用于获取所述用户对应的用户特征数据;通过预设语句生成模型对所述用户搜索语句及所述用户特征数据进行推荐分析,生成多条多媒体搜索语句。
本发明还公开了C19、一种多媒体推荐设备,所述多媒体推荐设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的多媒体推荐程序,所述多媒体推荐程序被处理器执行时实现如上所述的多媒体推荐方法的步骤。
本发明还公开了D20、一种计算机可读存储介质,所述计算机可读存储介质上存储有多媒体推荐程序,所述多媒体推荐程序执行时实现如上所述的多媒体推荐方法的步骤。
Claims (10)
1.一种多媒体推荐方法,其特征在于,所述多媒体推荐方法包括以下步骤:
获取针对用户同一用户搜索语句生成的多条多媒体搜索语句;
通过预设点击预估模型对所述多条多媒体搜索语句进行点击率预测,获得各多媒体搜索语句对应的用户点击率;
基于所述用户点击率从所述多条多媒体搜索语句中选取目标搜索语句;
根据所述目标搜索语句在预设多媒体引擎中进行查找,获得目标多媒体数据,并基于所述目标多媒体数据进行多媒体推荐。
2.如权利要求1所述的多媒体推荐方法,其特征在于,所述获取针对用户同一用户搜索语句生成的多条多媒体搜索语句的步骤之前,还包括:
获取所述用户的用户行为数据及各用户行为数据对应的推荐反馈数据;
根据所述用户行为数据及所述推荐反馈数据构建原始异构图,并从所述用户行为数据中提取行为特征数据;
依据所述原始异构图、所述用户行为数据、所述推荐反馈数据及所述行为特征数据构建模型训练集;
通过所述模型训练集对初始点击预估模型进行训练,获得预设点击预估模型。
3.如权利要求2所述的多媒体推荐方法,其特征在于,所述依据所述原始异构图、所述用户行为数据、所述推荐反馈数据及所述行为特征数据构建模型训练集的步骤,包括:
对所述用户行为数据及所述推荐反馈数据进行统计,确定所述原始异构图中各边的权重信息;
根据所述权重信息对所述原始异构图进行调整,获得最终异构图;
确定各用户行为数据在所述最终异构图中对应的图节点,并对所述图节点进行子图采样,根据采样结果结合所述行为特征数据生成模型训练样本;
根据所述模型训练样本构建模型训练集。
4.如权利要求3所述的多媒体推荐方法,其特征在于,所述根据所述模型训练样本构建模型训练集的步骤包括:
依据所述推荐反馈数据确定各模型训练样本对应的点击行为标签;
依据所述点击行为标签将所述模型训练样本划分为正样本及负样本,并设置对应的样本标签;
将设置有样本标签的模型训练样本进行聚合,获得模型训练集。
5.如权利要求2所述的多媒体推荐方法,其特征在于,所述通过所述模型训练集对初始点击预估模型进行训练,获得预设点击预估模型的步骤,包括:
对所述原始异构图中的文本数据进行分词,并基于分词结果训练词向量;
根据训练得到的词向量对初始点击预估模型进行初始化;
在初始化完成时,通过所述模型训练集对所述初始点击预估模型进行训练,获得预设点击预估模型。
6.如权利要求5所述的多媒体推荐方法,其特征在于,所述在初始化完成时,通过所述模型训练集对所述初始点击预估模型进行训练,获得预设点击预估模型的步骤,包括:
在初始化完成时,通过所述模型训练集对所述初始点击预估模型进行训练;
在训练至模型收敛时,将所述初始点击预估模型转换为预设格式,获得预设点击预估模型。
7.如权利要求1所述的多媒体推荐方法,其特征在于,所述获取针对用户同一用户搜索语句生成的多条多媒体搜索语句的步骤,包括:
获取所述用户对应的用户特征数据;
通过预设语句生成模型对所述用户搜索语句及所述用户特征数据进行推荐分析,生成多条多媒体搜索语句。
8.一种多媒体推荐装置,其特征在于,所述多媒体推荐装置包括以下模块:
数据获取模块,用于获取针对用户同一用户搜索语句生成的多条多媒体搜索语句;
点击预测模块,用于通过预设点击预估模型对所述多条多媒体搜索语句进行点击率预测,获得各多媒体搜索语句对应的用户点击率;
语句确定模块,用于基于所述用户点击率从所述多条多媒体搜索语句中选取目标搜索语句;
数据推荐模块,用于根据所述目标搜索语句在预设多媒体引擎中进行查找,获得目标多媒体数据,并基于所述目标多媒体数据进行多媒体推荐。
9.一种多媒体推荐设备,其特征在于,所述多媒体推荐设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的多媒体推荐程序,所述多媒体推荐程序被处理器执行时实现如权利要求1-7中任一项所述的多媒体推荐方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有多媒体推荐程序,所述多媒体推荐程序执行时实现如权利要求1-7中任一项所述的多媒体推荐方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210764099.7A CN117390203A (zh) | 2022-06-30 | 2022-06-30 | 多媒体推荐方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210764099.7A CN117390203A (zh) | 2022-06-30 | 2022-06-30 | 多媒体推荐方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117390203A true CN117390203A (zh) | 2024-01-12 |
Family
ID=89468937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210764099.7A Pending CN117390203A (zh) | 2022-06-30 | 2022-06-30 | 多媒体推荐方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117390203A (zh) |
-
2022
- 2022-06-30 CN CN202210764099.7A patent/CN117390203A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163647B (zh) | 一种数据处理方法及装置 | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN109885773B (zh) | 一种文章个性化推荐方法、系统、介质及设备 | |
CN112395506A (zh) | 一种资讯推荐方法、装置、电子设备和存储介质 | |
JP7451747B2 (ja) | コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
CN114547257B (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
CN113590811A (zh) | 文本摘要生成方法、装置、电子设备及存储介质 | |
Ghobakhloo et al. | Design of a personalized recommender system using sentiment analysis in social media (case study: banking system) | |
CN114722198A (zh) | 产品分类编码确定方法、系统及相关装置 | |
CN114881712A (zh) | 智能广告投放方法、装置、设备及存储介质 | |
CN111737607B (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN116823410B (zh) | 数据处理方法、对象处理方法、推荐方法及计算设备 | |
CN115794898B (zh) | 一种金融资讯推荐方法、装置、电子设备及存储介质 | |
CN114298023B (zh) | 一种基于任务主题词驱动的用户决策需求生成方法及应用 | |
CN113961811B (zh) | 基于事件图谱的话术推荐方法、装置、设备及介质 | |
CN110941713A (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN115640439A (zh) | 一种网络舆情监控的方法、系统及存储介质 | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN117390203A (zh) | 多媒体推荐方法、装置、设备及存储介质 | |
Kustanto et al. | Sentiment Analysis of Indonesia’s National Health Insurance Mobile Application using Naïve Bayes Algorithm | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 | |
CN113641914A (zh) | 一种基于用户偏好的搜索推荐方法、系统及存储介质 | |
CN112148855A (zh) | 一种智能客服问题检索方法、终端以及存储介质 | |
CN113158039A (zh) | 应用推荐方法、系统、终端以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |