CN110096614B - 信息推荐方法及装置、电子设备 - Google Patents
信息推荐方法及装置、电子设备 Download PDFInfo
- Publication number
- CN110096614B CN110096614B CN201910294427.XA CN201910294427A CN110096614B CN 110096614 B CN110096614 B CN 110096614B CN 201910294427 A CN201910294427 A CN 201910294427A CN 110096614 B CN110096614 B CN 110096614B
- Authority
- CN
- China
- Prior art keywords
- information
- user
- image
- similarity
- video information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 239000013598 vector Substances 0.000 claims description 64
- 230000006399 behavior Effects 0.000 claims description 45
- 238000004364 calculation method Methods 0.000 claims description 29
- 238000004140 cleaning Methods 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims 1
- 230000002776 aggregation Effects 0.000 claims 1
- 238000012163 sequencing technique Methods 0.000 claims 1
- 238000003860 storage Methods 0.000 abstract description 14
- 238000010586 diagram Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000007774 longterm Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/735—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种信息推荐方法及装置、电子设备、存储介质;涉及大数据技术领域。所述信息推荐方法包括:获取浏览各第一信息的各第一用户集合以及获取浏览各第二信息的各第二用户集合;根据各所述第一用户集合和各所述第二用户集合,分别计算各所述第二信息与各所述第一信息之间的相似度;根据各所述第二信息与各所述第一信息之间的相似度,为各所述第一信息确定关联的候选第二信息;获取目标用户浏览的历史第一信息,并为所述目标用户推荐各所述历史第一信息关联的所述候选第二信息。本公开可以摆脱信息推荐对于标签的依赖并提高信息推荐的精准性。
Description
技术领域
本公开涉及大数据技术领域,具体而言,涉及基于大数据的一种信息推荐方法、信息推荐装置、电子设备以及计算机可读存储介质。
背景技术
随着信息技术的发展,根据用户的历史数据进行信息推荐已经越来越普遍。其中,一种主流的信息推荐方式是,基于标签进行信息推荐。
举例而言,在一些领域,需要根据用户对于图文信息的兴趣进行视频信息的推荐。基于标签进行信息推荐的则具体为:获取用户感兴趣的图文信息的标签,并向用户推荐具有相同或者类似标签的视频信息。
上述信息推荐方法强烈依赖于图文信息的标签,如果标签信息不准确,则一般难以得到好的视频信息推荐效果。同时,由于从图文信息和视频信息到标签均经过了一次泛化,因此可能存在推荐不精准的问题。
因此,提供一种不依赖与标签信息且推荐精准的信息推荐方法是非常必要的。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种信息推荐方法、信息推荐装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的标签依赖性高以及推荐精准性不足的问题。
根据本公开的第一方面,提供一种信息推荐方法,包括:
获取浏览各第一信息的各第一用户集合以及获取浏览各第二信息的各第二用户集合;其中,所述第一信息和所述第二信息为类型不同多媒体信息;
根据各所述第一用户集合和各所述第二用户集合,分别计算各所述第二信息与各所述第一信息之间的相似度;
根据各所述第二信息与各所述第一信息之间的相似度,为各所述第一信息确定关联的候选第二信息;
获取目标用户浏览的历史第一信息,并为所述目标用户推荐各所述历史第一信息关联的所述候选第二信息;
其中,所述历史第一消息为所述目标用户浏览过的所述第一消息。
在本公开的一种示例性实施例中,根据各所述第一用户集合和各所述第二用户集合,分别计算各所述第二信息与各所述第一信息之间的相似度,包括:
分别对各所述第一用户集合和各所述第二用户集合进行集合运算,并基于集合运算结果确定各所述第一信息和各所述第二信息之间的相似度。
在本公开的一种示例性实施例中,分别对各所述第一用户集合和各所述第二用户集合进行集合运算,并基于集合运算结果确定各所述第一信息和各所述第二信息之间的相似度,包括:
对于包括一所述第一信息和第二信息的信息对,获取该信息对对应的所述第一用户集合和第二用户集合的交集以及并集;
根据所述交集和所述并集的元素数量之比,确定该所述第一信息和该第二信息之间的相似度。
在本公开的一种示例性实施例中,分别对各所述第一用户集合和各所述第二用户集合进行集合运算,并基于集合运算结果确定各所述第一信息和各所述第二信息之间的相似度,包括:
对于包括一所述第一信息和第二信息的信息对,获取该信息对对应的所述第一用户集合和第二用户集合的交集;
基于所述第一用户集合、所述第二用户集合以及所述交集中元素的数量确定该所述第一信息和该所述第二信息之间的相似度。
在本公开的一种示例性实施例中,根据各所述第一用户集合和各所述第二用户集合,分别计算各所述第二信息与各所述第一信息之间的相似度,包括:
分别将各所述第一用户集合转换为各第一向量以及分别将各所述第二用户集合转换为各第二向量;
分别计算各所述第一向量和各所述第二向量之间的向量相似度,并基于所述向量相似度确定各所述第一信息和各第二信息之间的相似度。
在本公开的一种示例性实施例中,分别计算各所述第一向量和各所述第二向量之间的向量相似度,包括:
分别计算各所述第一向量和各所述第二向量之间的余弦相似度或者皮尔逊相似度。
在本公开的一种示例性实施例中,获取浏览各第一信息的各第一用户集合以及获取浏览各第二信息的各第二用户集合,包括:
获取各用户对于各所述第一信息以及各第二信息的操作日志数据,并按照预设规则对所述操作日志数据进行数据清洗;
基于数据清洗后的所述操作日志数据,获取浏览各第一信息的各第一用户集合以及获取浏览各第二信息的各第二用户集合。
在本公开的一种示例性实施例中,根据各所述第二信息与各所述第一信息之间的相似度,为各所述第一信息确定关联的候选第二信息,包括:
对于每一所述第一信息,选取与该所述第一信息的相似度大于指定阈值的第二信息作为所述候选第二信息;或者,
对于每一所述第一信息,选取与该所述第一信息的相似度最高的预设数量个第二信息作为所述候选第二信息。
在本公开的一种示例性实施例中,为所述目标用户推荐各所述历史第一信息关联的所述候选第二信息,包括:
对各所述历史第一信息关联的所述候选第二信息按照相似度进行排序;
将排序后的所述候选第二信息依序推荐给所述目标用户。
在本公开的一种示例性实施例中,对各所述历史第一信息关联的所述候选第二信息按照相似度进行排序,包括:
如果一所述候选第二信息与多个所述历史第一信息关联,将所述多个历史第一信息与该所述候选第二信息之间的相似度之和作为该所述候选第二信息的相似度;
对各所述历史第一信息关联的所述候选第二信息按照所述相似度进行排序。
在本公开的一种示例性实施例中,获取目标用户浏览的历史第一信息,包括:
获取所述目标用户对于各所述历史第一信息的兴趣度,并根据所述兴趣度从所述历史第一信息中筛选出种子第一信息;
将所述种子第一信息关联的候选第二信息推荐给所述目标用户。
在本公开的一种示例性实施例中,为所述目标用户推荐各所述历史第一信息关联的所述候选第二信息,包括:
确定所述目标用户浏览各所述历史第一信息的时间区间;
依据所述时间区间的先后,顺次将各所述时间区间内的所述第一信息关联的候选第二信息推荐给所述目标用户。
在本公开的一种示例性实施例中,所述第一信息和所述第二信息之一为图文信息,另一为视频信息。
根据本公开的第二方面,提供一种信息推荐装置,包括:
用户集合获取模块,用于获取浏览各第一信息的各第一用户集合以及获取浏览各第二信息的各第二用户集合;其中,所述第一信息和所述第二信息为类型不同多媒体信息;
相似度计算模块,用于根据各所述第一用户集合和各所述第二用户集合,分别计算各所述第二信息与各所述第一信息之间的相似度;
关联关系确定模块,用于根据各所述第二信息与各所述第一信息之间的相似度,为各所述第一信息确定关联的候选第二信息;
第二信息推荐模块,用于获取目标用户浏览的历史第一信息,并为所述目标用户推荐各所述历史第一信息关联的所述候选第二信息;其中,所述历史第一消息为所述目标用户浏览过的所述第一消息。
在本公开的一种示例性实施例中,所述相似度计算模块分别对各所述第一用户集合和各所述第二用户集合进行集合运算,并基于集合运算结果确定各所述第一信息和各所述第二信息之间的相似度。
在本公开的一种示例性实施例中,所述相似度计算模块包括:
集合运算单元,用于对于包括一所述第一信息和第二信息的信息对,获取该信息对对应的所述第一用户集合和第二用户集合的交集以及并集;
相似度计算单元,用于根据所述交集和所述并集的元素数量之比,确定该所述第一信息和该第二信息之间的相似度。
在本公开的一种示例性实施例中,所述相似度计算模块包括:
集合运算单元,用于对于包括一所述第一信息和第二信息的信息对,获取该信息对对应的所述第一用户集合和第二用户集合的交集;
相似度计算单元,用于基于所述第一用户集合、所述第二用户集合以及所述交集中元素的数量确定该所述第一信息和该所述第二信息之间的相似度。
在本公开的一种示例性实施例中,所述相似度计算模块包括:
向量转换单元,用于分别将各所述第一用户集合转换为各第一向量以及分别将各所述第二用户集合转换为各第二向量;
相似度计算单元,用于分别计算各所述第一向量和各所述第二向量之间的向量相似度,并基于所述向量相似度确定各所述第一信息和各第二信息之间的相似度。
在本公开的一种示例性实施例中,相似度计算单元通过如下步骤分别计算各所述第一向量和各所述第二向量之间的向量相似度:
分别计算各所述第一向量和各所述第二向量之间的余弦相似度或者皮尔逊相似度。
在本公开的一种示例性实施例中,所述用户集合获取模块包括:
数据清洗单元,用于获取各用户对于各所述第一信息以及各第二信息的操作日志数据,并按照预设规则对所述操作日志数据进行数据清洗;
用户集合获取单元,用于基于数据清洗后的所述操作日志数据,获取浏览各第一信息的各第一用户集合以及获取浏览各第二信息的各第二用户集合。
在本公开的一种示例性实施例中,所述关联关系确定模块通过如下方法为各所述第一信息确定关联的候选第二信息:
对于每一所述第一信息,选取与该所述第一信息的相似度大于指定阈值的第二信息作为所述候选第二信息;或者,
对于每一所述第一信息,选取与该所述第一信息的相似度最高的预设数量个第二信息作为所述候选第二信息。
在本公开的一种示例性实施例中,第二信息推荐模块包括:
第二信息排序单元,用于对各所述历史第一信息关联的所述候选第二信息按照相似度进行排序;
第二信息推荐单元,用于将排序后的所述候选第二信息依序推荐给所述目标用户。
在本公开的一种示例性实施例中,第二信息排序单元通过如下方法对各所述历史第一信息关联的所述候选第二信息按照相似度进行排序:
如果一所述候选第二信息与多个所述历史第一信息关联,将所述多个历史第一信息与该所述候选第二信息之间的相似度之和作为该所述候选第二信息的相似度;对各所述历史第一信息关联的所述候选第二信息按照所述相似度进行排序。
在本公开的一种示例性实施例中,第二信息推荐模块通过如下步骤获取目标用户浏览的历史第一信息:
获取所述目标用户对于各所述历史第一信息的兴趣度,并根据所述兴趣度从所述历史第一信息中筛选出种子第一信息;将所述种子第一信息关联的候选第二信息推荐给所述目标用户。
在本公开的一种示例性实施例中,第二信息推荐模块通过如下步骤为所述目标用户推荐各所述历史第一信息关联的所述候选第二信息:
确定所述目标用户浏览各所述历史第一信息的时间区间;依据所述时间区间的先后,顺次将各所述时间区间内的所述第一信息关联的候选第二信息推荐给所述目标用户。
在本公开的一种示例性实施例中,所述第一信息和所述第二信息之一为图文信息,另一为视频信息。
根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。
根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
本公开示例性实施例可以具有以下部分或全部有益效果:
在本公开的一示例实施方式所提供的基于大数据的信息推荐方法中,根据用户的浏览行为计算第一信息和第二信息的相似度,进而实现信息的推荐。一方面,本示例实施方式中的方法摆脱了对于标签信息的依赖,因此不会受到标签标注不准确对于视频信息推荐效果的影响,进而可以实现更加精准的信息推荐。另一方面,本示例实施方式中的方法摆脱了对于标签信息的依赖,第二信息推荐范围不再受到标签的局限,第二信息推荐的多样性可以得到较大提高。再一方面,本示例实施方式中的方法不依赖于用户的长期历史行为,进而可以基于用户的短期历史行为进行信息推荐,从而提高第二信息推荐的及时性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本公开实施例的一种信息推荐方法及装置的示例性系统架构的示意图;
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图;
图3示意性示出了根据本公开的一个实施例的信息推荐方法的流程图;
图4示意性示出了根据本公开的一个实施例中确定所述第一信息和第二信息之间的相似度的步骤的流程图;
图5示意性示出了根据本公开的一个实施例中确定所述第一信息和第二信息之间的相似度的步骤的流程图;
图6示意性示出了根据本公开的一个实施例中确定所述第一信息和第二信息之间的相似度的步骤的流程图;
图7示意性示出了根据本公开的一个实施例中关联模型内容示意图;
图8示意性示出了根据本公开的一个实施例中用户浏览行为时间分布示意图;
图9示意性示出了根据本公开的一个实施例中信息推荐实例图;
图10示意性示出了根据本公开的一个实施例中信息推荐过程优化步骤示意图;
图11示意性示出了根据本公开的一个实施例中一种对比实验图;
图12示意性示出了根据本公开的一个实施例中另一对比实验图;
图13示意性示出了根据本公开的一个实施例的信息推荐装置的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图1示出了可以应用本公开实施例的一种信息推荐方法及装置的示例性应用环境的系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
本公开实施例所提供的信息推荐方法一般由服务器105执行,相应地,信息推荐装置一般设置于服务器105中。但本领域技术人员容易理解的是,本公开实施例所提供的信息推荐方法也可以由终端设备101、102、103执行,相应的,信息推荐装置也可以设置于终端设备101、102、103中,本示例性实施例中对此不做特殊限定。
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图2示出的电子设备的计算机系统200仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图2所示,计算机系统200包括中央处理单元(CPU)201,其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中,还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。
以下部件连接至I/O接口205:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207;包括硬盘等的存储部分208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安装入存储部分208。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时,执行本申请的方法和装置中限定的各种功能。在一些实施例中,计算机系统200还可以包括AI(ArtificialIntelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现如图3~图6所示的各个步骤等。
以下对本公开实施例的技术方案进行详细阐述:
本示例实施方式中的信息推荐方法主要是针对多媒体信息的推荐,且是在不同类型的多媒体信息之间进行推荐。举例而言,依据用户对于第一信息的浏览历史向用户推荐第二信息;其中,所述第一信息和所述第二信息为类型不同多媒体信息。例如,第一信息为图文信息、第二信息为视频信息;或者,第一信息为图文信息、第二信息为音频信息;或者,第一信息为视频信息、第二信息为图文信息;或者,第一信息为音频信息、第二信息为图文信息;或者,第一信息为音频信息、第二信息为视频信息;或者,第一信息为视频信息、第二信息为音频信息等等;上述图文信息可以包括纯文字信息、也可以包括纯图像信息、还可以包括图文结合的信息;即本示例实施方式中,对于第一信息和第二信息的具体呈现不进行特殊限定。下面以第一信息为图文信息,第二信息为视频信息为例进行说明。
例如,在一些应用程序中,会同时向用户提供图文信息以及视频信息。通过分析用户的图文信息标签画像(本公开中的标签画像是指将目标对象的具体信息抽象成标签,利用这些标签将目标对象的形象具体化)以及视频信息标签画像可以发现,用户的图文信息兴趣和视频信息兴趣有一定的重合性,即用户的图文信息兴趣一定程度上也反映了用户的视频信息兴趣。从这个角度出发,可以使用用户的图文信息兴趣为用户推荐视频信息;具体而言,可以获取用户浏览的图文信息的标签,并向用户推荐具有相同或者类似标签的视频信息。例如,用户的图文信息标签为层次化的兴趣模型,依次是一级频道标签,如可以包括体育、娱乐、科技、时尚等;二级频道标签,如体育标签下可以包括C罗、意甲、NBA等。以“体育”标签下的“C罗”标签为例,即可根据用户的该图文信息标签向用户推荐“C罗”相关的视频信息。需要说明的是,上面同一应用程序同时向用户提供图文信息以及视频信息仅是举例说明,本公开也可以应用在不同的应用程序之间,即本公开并不以此为限。
上述信息推荐方法在实践中取得了较好的效果,但在以下方面仍存在一定的提升空间。例如:
对于标签的强依赖:一般而言,需要复杂的模块甚至手工来对信息进行预处理才能够得到代表它们的标签,但受信息获取技术的制约以及处理对象的复杂性高等因素,这样工作难以达到较好的效果。如果标签信息不准确,则一般难以得到好的视频信息推荐效果。
信息推荐精准性不足:信息的标签实际上是信息在不同语义维度上泛化。上述信息推荐方法中,首先从用户的长期图文信息浏览历史中归纳得到用户的图文信息标签,进而采用标签匹配的方式推荐视频信息。由于从图文信息和视频信息到标签均经过了一次泛化,因此上述信息推荐是一种泛个性化推荐,可能存在推荐不精准的问题。
忽略短期图文兴趣:在进行基于标签的信息推荐时,一般是基于用户的长期历史行为,即上述信息推荐方法是基于用户的长期图文信息兴趣。但是用户兴趣可能在短期内发生较大变化,例如突然热点事件可能会导致兴趣分布发生较大变化,故而上述推荐方法难以捕捉到用户的图文兴趣变化;可能存在推荐及时性不高的问题。
推荐范围受限:上述信息推荐方法较难推荐出用户兴趣外的信息;具体而言,由于上述信息推荐方法总是倾向于向用户推荐与其图文信息标签一致的视频信息,无法给用户推荐出用户不熟悉但是具有潜在兴趣的视频信息,因此推荐范围受限。
基于上述一个或多个问题,本示例实施方式提供了一种基于大数据的信息推荐方法。该信息推荐方法可以应用于上述服务器105,也可以应用于上述终端设备101、102、103中的一个或多个,本示例性实施例中对此不做特殊限定。参考图3所示,该信息推荐方法可以包括以下步骤S310至步骤S340:
步骤S310.获取浏览各第一信息的各第一用户集合以及获取浏览各第二信息的各第二用户集合;其中,所述第一信息和所述第二信息为类型不同多媒体信息。
步骤S320.根据各所述第一用户集合和各所述第二用户集合,分别计算各所述第二信息与各所述第一信息之间的相似度。
步骤S330.根据各所述第二信息与各所述第一信息之间的相似度,为各所述第一信息确定关联的候选第二信息;
步骤S340.获取目标用户浏览的历史第一信息,并为所述目标用户推荐各所述历史第一信息关联的所述候选第二信息;其中,所述历史第一消息为所述目标用户浏览过的所述第一消息。
在本示例实施方式所提供的信息推荐方法中,根据用户的浏览行为计算第一信息和第二信息的相似度,进而实现信息的推荐。一方面,本示例实施方式中的方法摆脱了对于标签信息的依赖,因此不会受到标签标注不准确对于视频信息推荐效果的影响,进而可以实现更加精准的信息推荐。另一方面,本示例实施方式中的方法摆脱了对于标签信息的依赖,第二信息推荐范围不再受到标签的局限,第二信息推荐的多样性可以得到较大提高。再一方面,本示例实施方式中的方法不依赖于用户的长期历史行为,进而可以基于用户的短期历史行为进行信息推荐,从而提高第二信息推荐的及时性。
下面,对于本示例实施方式的上述步骤进行更加详细的说明。
在步骤S310中,获取浏览各第一信息的各第一用户集合以及获取浏览各第二信息的各第二用户集合;其中,所述第一信息和所述第二信息为类型不同多媒体信息。
关于第一信息和第二信息已经在上文进行了详细介绍,此处不再赘述;本示例实施方式中,主要以第一信息为图文信息,第二信息为视频信息为例进行说明,但本示例性实施例中并不以此为限。根据第一信息和第二信息的具体类型,本示例实施方式中所述的浏览行为包括但不限于对于第一信息或第二信息的点击操作、播放操作、收听操作、阅读操作以及展开操作等,即本示例性实施例中对此不做特殊限定。
本示例实施方式中,可以基于用户对于各所述第一信息以及各第二信息的操作日志数据,获取浏览各第一信息的各第一用户集合以及获取浏览各第二信息的各第二用户集合。同时,为了确保操作日志数据的有效性、减少后续运算量以及降低后续计算的复杂度,本示例实施方式中,可以首先按照预设规则对所述操作日志数据进行数据清洗;再基于数据清洗后的所述操作日志数据,获取浏览各第一信息的各第一用户集合以及获取浏览各第二信息的各第二用户集合。
举例而言,对于图文信息和视频信息,可以分别获取各用户对于各图文信息的点击日志数据,以及,分别获取各用户对于各视频信息的播放日志数据。然而:
一方面,由于存在爬虫行为,即通过网络爬虫模拟真实用户的点击操作和播放操作产生了大量的操作行为,这类行为相互之间没有相关性,如果直接引入则会对后续的相似度计算的产生负向作用。因此,上述的预设规则可以包括,对爬虫行为相关的日志数据进行清洗;例如,去除由于爬虫行为直接产生的操作日志数据或者疑似爬虫行为产生的操作日志数据。
另一方面,由于存在极重度用户行为,这类用户会在短期内发生大量的点击或播放行为,这类行为相互之间相关性一般较弱,如果直接引入则会对后续的相似度计算的产生负向作用。因此,上述的预设规则也可以包括,对极重度用户行为相关的操作日志数据进行清洗;例如,将图文信息浏览超过一定次数(例如200次),或者视频信息浏览超过一定次数(例如400次)的用户,认定为不合法的用户,并直接丢弃这部分用户的操作日志数据。
再一方面,针对图文信息,一般是用户主动点击,故而可以认为所有的图文信息浏览行为都是用户主动触发的,进而可以将针对图文信息的所有的点击行为都认定为有效浏览行为。而针对视频信息,除了用户主动点击之外,还会在部分场景下以沉浸式的方式自动播放下一视频信息;这种视频信息可能用户并不感兴趣,用户会在播放一小段时间(如几秒钟)后立即切换到了再下一个视频信息。对此,本示例实施方式中将播放超过一定时间(如20秒)或者完成度超过阈值(如80%)以上的播放行为认定为有效浏览行为;同时,将其他播放行为认定为无效浏览行为;上述完成度是指用户对于一视频信息的播放时长和该视频信息的总时长之比。因此,上述的预设规则也可以包括,仅保留有效浏览行为相关的日志数据,并清除无效浏览行为相关的日志数据。
当然,本领域技术人员容易理解的是,根据第一信息和第二信息的不同以及需求的不同或者其他因素,也可以采用其他预设规则对于操作日志数据进行清洗,这些同样属于本公开的保护范围。
此外,由于图文信息的时效性比较强,本示例实施方式中可以周期性的进行日志数据采集,例如,每6个小时进行一次日志数据采集。举例而言,以用户为主键(key),将各用户在最近6个小时内,针对图文信息、视频信息的所有点击、播放行为的日志数据聚合在一起,并按照上面各预设规则进行数据清洗。在对日志数据进行清洗之后,可以得到每一用户针对各第一信息以及各第二信息的有效浏览行为数据,即每一用户有效浏览的图文信息列表以及有效浏览的视频信息列表,例如分别如下表一和下表二。
表一
表二
用户ID | 视频信息video1 | 视频信息video2 | 视频信息video3 | 视频信息video4 |
A | 未浏览 | 未浏览 | 未浏览 | 浏览 |
B | 浏览 | 浏览 | 浏览 | 未浏览 |
C | 浏览 | 未浏览 | 浏览 | 浏览 |
D | 浏览 | 浏览 | 未浏览 | 未浏览 |
…… | …… | …… | …… | …… |
在获取每一用户有效浏览的图文信息列表以及有效浏览的视频信息列表之后,则可以进一步获取浏览各第一信息的各第一用户集合以及获取浏览各第二信息的各第二用户集合。举例而言:
图文信息txt1对应的第一用户集合A1为A1={B,C,D};
图文信息txt2对应的第一用户集合A2为A2={C,D};
图文信息txt3对应的第一用户集合A3为A3={C};
图文信息txt4对应的第一用户集合A4为A4={A,B,C,D};
视频信息video1对应的第二用户集合B1为B1={B,C,D};
视频信息video2对应的第二用户集合B2为B2={B,D};
视频信息video3对应的第二用户集合B3为B3={B,C};
视频信息video4对应的第二用户集合B4为B4={A,C}等。
在步骤S320中,根据各所述第一用户集合和各所述第二用户集合,分别计算各所述第二信息与各所述第一信息之间的相似度。本示例实施方式中,可以通过多种方法根据第一用户集合和各所述第二用户集合计算各所述第二信息与各所述第一信息之间的相似度。
举例而言,本示例实施方式中,可以分别对各所述第一用户集合和各所述第二用户集合进行集合运算,并基于集合运算结果确定各所述第一信息和各所述第二信息之间的相似度。例如,参考图4所示,该方法可以包括步骤S410以及步骤S420。其中:
在步骤S410中,对于包括一所述第一信息和第二信息的信息对,获取该信息对对应的所述第一用户集合和第二用户集合的交集以及并集。
例如,对于信息对(图文信息txt1,视频信息videol),其对应的第一用户集合A1和第二用户集合B1的交集为{B,C,D},第一用户集合A1和第二用户集合B1的并集为{B,C,D};对于信息对(图文信息txt1,视频信息video2),其对应的第一用户集合A1和第二用户集合B2的交集为{B,D},第一用户集合A1和第二用户集合B2的交集为{B,C,D};对于信息对(图文信息txt2,视频信息video4),其对应的第一用户集合A1和第二用户集合B4的交集为{C},第一用户集合A1和第二用户集合B4的交集为{A,C,D}。
在步骤S420中,根据所述交集和所述并集的元素数量之比,确定所述第一信息和第二信息之间的相似度。即对于相似度J(doca,docb),可以通过下式计算:
其中,doca、docb表示表示第一信息a和第二信息b;N(doca)表示浏览过第一信息a的第一用户集合;N(docb)表示浏览过第二信息b第二用户集合;N(doca)∩N(docb)表示第一用户集合和第二用户集合的交集,即同时浏览过第一信息a和第二信息b的用户集合;|N(doca)∩N(docb)|表示第一用户集合和第二用户集合的交集的元素数量,即同时浏览过第一信息a和第二信息b的用户数量;N(doca)∪N(docb)表示第一用户集合和第二用户集合的并集,即浏览过第一信息a或第二信息b的用户集合;|N(doca)∪N(docb)|表示第一用户集合和第二用户集合的并集的元素数量,即浏览过第一信息a或第二信息b的用户数量。
基于此,信息对(图文信息txt1,视频信息video1)中第一信息和第二信息之间的相似度则可以表示为信息对(图文信息txt1,视频信息video2)中第一信息和第二信息之间的相似度则可以表示为信息对(图文信息txt2,视频信息video4)中第一信息和第二信息之间的相似度则可以表示为
进一步的,上述公式一中第一用户集合和第二用户集合的并集中的元素数量|N(doca)∩N(docb)|也可以进一步的通过|N(doca)|、|N(docb)|以及|N(doca)∩N(docb)|表示,故而上述公式一可进一步拆解为:
其中,|N(doca)|表示第一用户集合的元素数量,即浏览过第一信息a的用户数量,|N(docb)|表示第二用户集合的元素数量,浏览过第二信息b的数量。
参考图5所示,本示例实施方式中还提供了一种基于上述公式二的方法计算所述第一信息和所述第二信息之间的相似度。图5所示的方法包括步骤S510以及步骤S520。其中:
在步骤S510中,对于包括一所述第一信息和第二信息的信息对,获取该信息对对应的所述第一用户集合和第二用户集合的交集。
例如,对于信息对(图文信息txt1,视频信息video1),其对应的第一用户集合A1和第二用户集合B1的交集为{B,C,D};对于信息对(图文信息txt1,视频信息video2),其对应的第一用户集合A1和第二用户集合B2的交集为{B,D};对于信息对(图文信息txt2,视频信息video4),其对应的第一用户集合A1和第二用户集合B4的交集为{C}。
在步骤S520中,基于所述第一用户集合、所述第二用户集合以及所述交集中元素的数量确定该所述第一信息和该所述第二信息之间的相似度。
基于上述公式二,信息对(图文信息txt1,视频信息video1)中第一信息和第二信息之间的相似度则可以表示为 信息对(图文信息txt1,视频信息video2)中第一信息和第二信息之间的相似度则可以表示为 信息对(图文信息txt2,视频信息video4)中第一信息和第二信息之间的相似度则可以表示为
此外,也可以不必获取上述第一用户集合和第二用户集合的具体元素,而是直接获取第一用户集合、第二用户集合中的元素数量以及第一用户集合和第二用户集合的交集中的元素数量,并基于上述公式二计算第一信息和第二信息之间的相似度。例如:
以用户A浏览m(m>0)条图文信息、浏览n(n>0)条视频信息为例,本示例实施方式中,可以使用hadoop计算平台,在映射(map)阶段遍历上述步骤S310中清洗后的操作日志数据,获取用户A点击的m条图文信息ID、n条视频信息ID以及m*n个图文视频信息对ID,以此作为主键(key)并在约归(reduce)阶段进行频次计数统计。例如,在遍历至用户A时,用户A浏览的m条图文信息、n条视频信息、m*n个图文视频信息对的频次计数都会累加1。即遍历完毕后可以得到上述公式二中的|N(doca)|、|N(docb)|以及|N(doca)∩N(docb)|,进而可以代入上述公式二进行相似度计算。
此外,由于有效浏览行为累计次数过小的第一信息或第二信息可以认为没有得到充分的曝光,对应的浏览行为直接引入后续的相似度计算可能会影响计算的准确度。因此,本示例实施方式中,在得到上述频次统计结果后,还可以对有效浏览行为总数小于阈值(如50次)的图文信息以及视频信息进行滤除;在滤除这些图文信息以及视频信息之后,包括这些图文信息或视频信息的图文视频信息对则也会被相应的滤除。例如,假设户A浏览的m条图文信息中有p(0<p<m)条被滤除,浏览的n条视频信息中q(0<q<n)条被滤除,则遍历用户A的时候,仅会产生(m-p)*(n-q)个图文视频信息对。
再举例而言,参考图6所示,本示例实施方式中,还可以通过下述步骤S610~S620计算各所述第一信息和各第二信息之间的相似度。其中:
在步骤610中,分别将各所述第一用户集合转换为各第一向量以及分别将各所述第二用户集合转换为各第二向量。
例如,对于信息对(图文信息txt1,视频信息video2),其对应的第一用户集合A1为{B,C,D}、第二用户集合B2为{B,D},则可以将第一用户集合和第二用户集合均转换为三维向量(维度数为第一用户集合和第二用户集合的并集元素数量),如第一用户集合A1转换为向量(1,1,1)、第二用户集合B2转换为向量(1,0,1);对于信息对(图文信息txt2,视频信息video4),其对应的第一用户集合A2为{C,D}、第二用户集合B4为{A,C},则可以将第一用户集合和第二用户集合均转换为三维向量,如第一用户集合A2转换为向量(0,1,1)、第二用户集合B2转换为向量(1,1,0)等等。当然,在本公开的其他示例性实施例中,也可以根据其他规则对第一用户集合和第二用户集合进行向量转换,例如,向量的维度为所有第一用户集合和第二用户集合的并集元素数量等等,本示例性实施例中对此不做特殊限定。
在步骤S620中,分别计算各所述第一向量和各所述第二向量之间的向量相似度,并基于所述向量相似度确定各所述第一信息和各第二信息之间的相似度。
以余弦相似度为例,本示例实施方式中可以通过下述公式确定各所述第一信息和各第二信息之间的相似度:
其中,X(doca)表示通过第一用户集合转换得到的第一向量,Y(docb)表示通过第二用户集合转换得到的第二向量。
当然,本领域技术人员容易理解的是,在本公开的其他示例性实施例中,也可以通过计算皮尔逊相似度等其他方式计算第一向量和第二向量之间的相似度,这些均属于本公开的保护范围。
在步骤S330中,根据各所述第二信息与各所述第一信息之间的相似度,为各所述第一信息确定关联的候选第二信息。一般而言,第二信息和第一信息之间的相似度越高,则可以认为第二信息和第一信息之间的关联性越强。本示例实施方式中,可以通过多种方式为各所述第一信息确定关联的候选第二信息。
举例而言,本示例实施方式中可以是,对于每一所述第一信息,选取与该所述第一信息的相似度大于指定阈值的第二信息作为所述候选第二信息。例如,将和第一信息txt1之间的相似度大于0.0015的所有第二信息作为与第一信息txt1关联的候选的第二信息;将和第一信息txt2之间的相似度大于0.0022的所有第二信息作为与第一信息txt2关联的候选的第二信息等等。
再举例而言,本示例实施方式中也可以是,对于每一所述第一信息,选取与该所述第一信息的相似度最高的预设数量个第二信息作为所述候选第二信息。例如,对于第一信息txt1而言,将所有第二信息按照相似度降序排序,并选取排名前10的第二信息作为与第一信息txt1关联的候选的第二信息等等。
在为各所述第一信息确定关联的候选第二信息之后,最后输出关联模型可以如下:即每行以一个图文信息ID开始,后续连接与关联的多个视频信息ID以及相应的相似度值。例如,参考图7所示,其中以ID为0005b661a66830ah的图文信息为例,该图文信息关联的候选视频信息共计26个,第一个候选视频信息的ID为2795b869293229be,该候选视频信息与该图文信息的相似度为0.492063492063;其他图文信息和候选视频信息的关联模型以此类推,此次不再重复举例说明。
需要说明的是,上述两种候选第二信息的确定方法以及关联模型的形式仅是用作举例说明,并不构成对本公开的限制。
在步骤S340中,获取目标用户浏览的历史第一信息,并为所述目标用户推荐各所述历史第一信息关联的所述候选第二信息。
上述目标用户即待进行第二信息推荐的用户,所述历史第一消息为所述目标用户浏览过的所述第一消息。本示例实施方式中,可以首先基于目标用户的操作日志数据或历史浏览记录等获取其浏览的历史第一信息。在获取其浏览过的历史第一信息之后,可以对各所述历史第一信息关联的所述候选第二信息按照相似度进行排序,并将排序后的所述候选第二信息依序推荐给所述目标用户。
例如,目标用户浏览的历史第一信息包括第一信息txt1以及第一信息txt4,第一信息txt1关联的候选第二信息为第二信息video1以及第二信息video2,第二信息video1与第一信息txt1之间的相似度为0.6,第二信息video2与第一信息txt1之间的相似度为0.2;第一信息txt4关联的候选第二信息为第二信息video3以及第二信息video4,第二信息video3与第一信息txt4之间的相似度为0.5,第二信息video4与第一信息txt4之间的相似度为0.4;则候选第二信息的排序为第二信息video1、第二信息video3、第二信息video4、第二信息video2;进而可以按照该排序依序推荐给所述目标用户。
此外,同一个候选第二信息可能与多个所述历史第一信息关联。对于此种情况,本示例实施方式中可以将所述多个历史第一信息与该所述候选第二信息之间的相似度之和作为该所述候选第二信息的相似度,再对各所述历史第一信息关联的所述候选第二信息按照重新计算的所述相似度进行排序。具体可以参考下述公式计算:
其中,Scoreuser,video表示重新计算后的相似度,click_set表示与候选第二信息关联的历史第一信息的集合;J(txt,video)表示候选第二信息与历史第一信息之间的相似度。
例如,目标用户浏览的历史第一信息包括第一信息txt1以及第一信息txt4,第一信息txt1关联的候选第二信息video1以及第二信息video2,第二信息video1与第一信息txt1之间的相似度为0.6,第二信息video2与第一信息txt1之间的相似度为0.2;第一信息txt4关联的候选第二信息为第二信息video2以及第二信息video3,第二信息video2与第一信息txt4之间的相似度为0.5,第二信息video3与第一信息txt4之间的相似度为0.4,则候选第二信息的排序为第二信息video2、第二信息video1、第二信息video3;进而可以按照该排序依序推荐给所述目标用户。
此外,发明人在实践中,发现上述推荐过程仍存在可提升之处。举例而言,未考虑时间衰减,例如如图8所示,目标用户在三十分钟内的浏览行为与在3天、30天前的浏览行为被同等对待。再举例而言,部分历史第一信息关联的候选第二信息长期排在前面位置,进而导致推荐给目标用户大量相似结果。例如如图9所示,会导致持续向目标用户推荐萌宠类视频信息,而降低了视频信息推荐的多样性。对于这些问题,本示例实施方式中,还提出了采用如种子过滤机制、种子滑动机制以及多粒度触发机制等多种方式进行优化的方法。
举例而言,本示例实施方式中,可以首先获取所述目标用户对于各所述历史第一信息的兴趣度,并根据所述兴趣度从所述历史第一信息中筛选出种子第一信息;接着将所述种子第一信息关联的候选第二信息推荐给所述目标用户。
例如,首先将所有的历史第一信息加入种子列表,其次根据目标用户对于已推荐的候选第二信息的浏览行为数据(如点击、展示数等)并结合ICF(Item-basedCollaborative Filtering,基于对象的协同过滤)倒排信息,获取用户对于关联该第二信息的历史第一信息的兴趣度;对于目标用户兴趣度较低的历史第一信息,则可以从种子列表删除。例如,已推荐的某视频信息展示次数较多(如大于4次)但点击率较低(如小于0.25),则可以认为用户虽然浏览了与该视频信息关联的历史图文信息,但目标用户对这些图文信息的兴趣度不高,因此可以将该这些历史图文信息从种子列表中删除。
再举例而言,本示例实施方式中,在获取种子第一信息之后,还可以确定所述目标用户浏览各所述历史第一信息的时间区间,并依据所述时间区间的先后,顺次将各所述时间区间内的所述第一信息关联的候选第二信息推荐给所述目标用户,即种子滑动机制以及多粒度触发机制。
例如:结合不同的场景,本示例实施方式中,可以选取多个时间区间(时间窗口),如分别为30分钟、1天以及3天,对于浏览行为发生在靠前的时间区间内的历史第一信息,则优先触发第二信息推荐。如首先筛选浏览行为发生在30分钟内的历史第一信息,若有则直接基于这些历史第一信息进行第二信息推荐;若无法进行第二信息推荐,则筛选浏览行为发生在最近1天内的历史第一信息,若有则直接基于这些历史第一信息进行第二信息推荐;若仍然无法进行第二信息推荐,则选用浏览行为发生在最近3天内的历史第一信息进行第二信息推荐。进一步的,本示例实施方式在上述个时间区间内,还可以采用步长窗口进行滑动,例如,将各时间区间内历史第一信息按照时间戳从后往前排序,按步长(如7)选择历史第一信息进行第二信息的推荐。比如,如果最近的7条历史第一信息能够进行第二信息推荐,则直接向目标用户推荐;否则,采用最近的8到14条历史第一信息进行第二信息推荐;后续以此类推。
参考图10所示,本示例实施方式中通过引入种子过滤机制、种子滑动机制以及多粒度触发机制,且结合新闻正排信息、ICF倒排信息、CTR模型以及用户模型对第二信息推荐过程进行进一步优化,进而能够在很多程度上改善上述问题,进一步提高的第二信息推荐的精准性、及时性以及多样性。
本示例实施方式中,基于用户的浏览行为计算第一信息和第二信息的相似度,进而实现信息的推荐。一方面,本示例实施方式中的相似度计算方法简单,容易实现实时响应;并且,相似度的计算以及候选第二信息的确定等(即上述步骤S310至步骤S330)一般可以采用离线完成、定期更新的方式,从而可以减少线上计算,提高信息推荐效率,尤其对于用户数远大于信息条数的情况效果更加显著。另一方面,本示例实施方式中的推荐方法可解释性较好,很容易让用户理解为什么推荐了某一第二信息,并且当用户在浏览历史中添加或删除历史第一信息时,可以动态调整对于第二信息的推荐结果,这也是其他方法最难做到的一点。
此外,发明人将对本示例实施方式中信息推荐方法在实际第一信息为图文信息、第二信息为视频信息的应用程序中进行了验证。参考图11所示,本示例实施方式中的信息推荐方法相比于基于标签的信息推荐方法,使得推荐的第二信息的点击率从平均16.38%提升到平均17.39%,相对提升了5.8%。参考图12所示,第二信息的整体点击率相比于基于标签的信息推荐方法从平均18.56%提升到平均19.56%,相对提升了5.4%。同时,所有第二信息的播放量相对提升1.1%,周末高峰期提升将近5千万的播放量。因此,本公开中的信息推荐方法具有明显的有益技术效果。
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
进一步的,本示例实施方式中,还提供了基于大数据的一种信息推荐装置。该信息推荐装置可以应用于一服务器或终端设备。参考图13所示,该信息推荐装置1300可以包括用户集合获取模块1310、相似度计算模块1320、关联关系确定模块1330以及第二信息推荐模块1340。其中:
用户集合获取模块1310,用于获取浏览各第一信息的各第一用户集合以及获取浏览各第二信息的各第二用户集合;其中,所述第一信息和所述第二信息为类型不同多媒体信息;
相似度计算模块1320,用于根据各所述第一用户集合和各所述第二用户集合,分别计算各所述第二信息与各所述第一信息之间的相似度;
关联关系确定模块1330,用于根据各所述第二信息与各所述第一信息之间的相似度,为各所述第一信息确定关联的候选第二信息;
第二信息推荐模块1340,用于获取目标用户浏览的历史第一信息,并为所述目标用户推荐各所述历史第一信息关联的所述候选第二信息。
在本公开的一种示例性实施例中,所述相似度计算模块1320分别对各所述第一用户集合和各所述第二用户集合进行集合运算,并基于集合运算结果确定各所述第一信息和各所述第二信息之间的相似度。
在本公开的一种示例性实施例中,所述相似度计算模块1320包括:
集合运算单元,用于对于包括一所述第一信息和第二信息的信息对,获取该信息对对应的所述第一用户集合和第二用户集合的交集以及并集;
相似度计算单元,用于根据所述交集和所述并集的元素数量之比,确定该所述第一信息和该第二信息之间的相似度。
在本公开的一种示例性实施例中,所述相似度计算模块1320包括:
集合运算单元,用于对于包括一所述第一信息和第二信息的信息对,获取该信息对对应的所述第一用户集合和第二用户集合的交集;
相似度计算单元,用于基于所述第一用户集合、所述第二用户集合以及所述交集中元素的数量确定该所述第一信息和该所述第二信息之间的相似度。
在本公开的一种示例性实施例中,所述相似度计算模块1320包括:
向量转换单元,用于分别将各所述第一用户集合转换为各第一向量以及分别将各所述第二用户集合转换为各第二向量;
相似度计算单元,用于分别计算各所述第一向量和各所述第二向量之间的向量相似度,并基于所述向量相似度确定各所述第一信息和各第二信息之间的相似度。
在本公开的一种示例性实施例中,相似度计算单元通过如下步骤分别计算各所述第一向量和各所述第二向量之间的向量相似度:
分别计算各所述第一向量和各所述第二向量之间的余弦相似度或者皮尔逊相似度。
在本公开的一种示例性实施例中,所述用户集合获取模块1310包括:
数据清洗单元,用于获取各用户对于各所述第一信息以及各第二信息的操作日志数据,并按照预设规则对所述操作日志数据进行数据清洗;
用户集合获取单元,用于基于数据清洗后的所述操作日志数据,获取浏览各第一信息的各第一用户集合以及获取浏览各第二信息的各第二用户集合。
在本公开的一种示例性实施例中,所述关联关系确定模块1330通过如下方法为各所述第一信息确定关联的候选第二信息:
对于每一所述第一信息,选取与该所述第一信息的相似度大于指定阈值的第二信息作为所述候选第二信息;或者,
对于每一所述第一信息,选取与该所述第一信息的相似度最高的预设数量个第二信息作为所述候选第二信息。
在本公开的一种示例性实施例中,第二信息推荐模块1340包括:
第二信息排序单元,用于对各所述历史第一信息关联的所述候选第二信息按照相似度进行排序;
第二信息推荐单元,用于将排序后的所述候选第二信息依序推荐给所述目标用户。
在本公开的一种示例性实施例中,第二信息排序单元通过如下方法对各所述历史第一信息关联的所述候选第二信息按照相似度进行排序:
如果一所述候选第二信息与多个所述历史第一信息关联,将所述多个历史第一信息与该所述候选第二信息之间的相似度之和作为该所述候选第二信息的相似度;对各所述历史第一信息关联的所述候选第二信息按照所述相似度进行排序。
在本公开的一种示例性实施例中,第二信息推荐模块1340通过如下步骤获取目标用户浏览的历史第一信息:
获取所述目标用户对于各所述历史第一信息的兴趣度,并根据所述兴趣度从所述历史第一信息中筛选出种子第一信息;将所述种子第一信息关联的候选第二信息推荐给所述目标用户。
在本公开的一种示例性实施例中,第二信息推荐模块1340通过如下步骤为所述目标用户推荐各所述历史第一信息关联的所述候选第二信息:
确定所述目标用户浏览各所述历史第一信息的时间区间;依据所述时间区间的先后,顺次将各所述时间区间内的所述第一信息关联的候选第二信息推荐给所述目标用户。
在本公开的一种示例性实施例中,所述第一信息和所述第二信息之一为图文信息,另一为视频信息。
上述信息推荐装置中各模块或单元的具体细节已经在对应的信息推荐方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (14)
1.一种信息推荐方法,其特征在于,包括:
基于用户对于各图文信息以及各视频信息的操作日志数据,获取浏览各所述图文信息的各第一用户集合以及获取浏览各所述视频信息的各第二用户集合;
根据各所述第一用户集合和各所述第二用户集合,分别计算各所述视频信息与各所述图文信息之间的相似度;
根据各所述视频信息与各所述图文信息之间的相似度,为各所述图文信息确定关联的候选视频信息;
获取目标用户浏览的历史图文信息以及所述目标用户对于各所述历史图文信息的兴趣度,并根据所述兴趣度从所述历史图文信息中筛选出种子图文信息;所述目标用户对于各所述历史图文信息的兴趣度是通过将所有的历史图文信息加入种子列表,根据所述目标用户对于已推荐的候选视频信息的浏览行为数据并结合ICF倒排信息,获取用于对于关联对应候选视频信息的历史图文信息的兴趣度所得到的;
为所述目标用户推荐各所述种子图文信息关联的所述候选视频信息;
其中,所述历史图文信息为所述目标用户浏览过的所述图文信息;所述目标用户包括浏览过所述图文信息且未浏览过所述视频信息的用户;
当所述目标用户在浏览历史中添加或删除历史图文信息时,动态调整对于视频信息的推荐结果。
2.根据权利要求1所述的信息推荐方法,其特征在于,根据各所述第一用户集合和各所述第二用户集合,分别计算各所述视频信息与各所述图文信息之间的相似度,包括:
分别对各所述第一用户集合和各所述第二用户集合进行集合运算,并基于集合运算结果确定各所述图文信息和各所述视频信息之间的相似度。
3.根据权利要求2所述的信息推荐方法,其特征在于,分别对各所述第一用户集合和各所述第二用户集合进行集合运算,并基于集合运算结果确定各所述图文信息和各所述视频信息之间的相似度,包括:
对于包括一所述图文信息和视频信息的信息对,获取该信息对对应的所述第一用户集合和第二用户集合的交集以及并集;
根据所述交集和所述并集的元素数量之比,确定该所述图文信息和该所述视频信息之间的相似度。
4.根据权利要求2所述的信息推荐方法,其特征在于,分别对各所述第一用户集合和各所述第二用户集合进行集合运算,并基于集合运算结果确定各所述图文信息和各所述视频信息之间的相似度,包括:
对于包括一所述图文信息和视频信息的信息对,获取该信息对对应的所述第一用户集合和第二用户集合的交集;
基于所述第一用户集合、所述第二用户集合以及所述交集中元素的数量确定该所述图文信息和该所述视频信息之间的相似度。
5.根据权利要求1所述的信息推荐方法,其特征在于,根据各所述第一用户集合和各所述第二用户集合,分别计算各所述视频信息与各所述图文信息之间的相似度,包括:
分别将各所述第一用户集合转换为各第一向量以及分别将各所述第二用户集合转换为各第二向量;
分别计算各所述第一向量和各所述第二向量之间的向量相似度,并基于所述向量相似度确定各所述图文信息和各视频信息之间的相似度。
6.根据权利要求5所述的信息推荐方法,其特征在于,分别计算各所述第一向量和各所述第二向量之间的向量相似度,包括:
分别计算各所述第一向量和各所述第二向量之间的余弦相似度或者皮尔逊相似度。
7.根据权利要求6所述的信息推荐方法,其特征在于,基于用户对于各图文信息以及各视频信息的操作日志数据,获取浏览各所述图文信息的各第一用户集合以及获取浏览各所述视频信息的各第二用户集合,包括:
获取各用户对于各所述图文信息以及各视频信息的操作日志数据,并按照预设规则对所述操作日志数据进行数据清洗;
基于数据清洗后的所述操作日志数据,获取浏览各图文信息的各第一用户集合以及获取浏览各视频信息的各第二用户集合。
8.根据权利要求1所述的信息推荐方法,其特征在于,根据各所述视频信息与各所述图文信息之间的相似度,为各所述图文信息确定关联的候选视频信息,包括:
对于每一所述图文信息,选取与该所述图文信息的相似度大于指定阈值的视频信息作为所述候选视频信息;或者,
对于每一所述图文信息,选取与该所述图文信息的相似度最高的预设数量个视频信息作为所述候选视频信息。
9.根据权利要求1所述的信息推荐方法,其特征在于,为所述目标用户推荐各所述历史图文信息关联的所述候选视频信息,包括:
对各所述历史图文信息关联的所述候选视频信息按照相似度进行排序;
将排序后的所述候选视频信息依序推荐给所述目标用户。
10.根据权利要求9所述的信息推荐方法,其特征在于,对各所述历史图文信息关联的所述候选视频信息按照相似度进行排序,包括:
如果一所述候选视频信息与多个所述历史图文信息关联,将多个所述 历史图文信息与该所述候选视频信息之间的相似度之和作为该所述候选视频信息的相似度;
对各所述历史图文信息关联的所述候选视频信息按照所述相似度进行排序。
11.根据权利要求1所述的信息推荐方法,其特征在于,为所述目标用户推荐各所述历史图文信息关联的所述候选视频信息,包括:
确定所述目标用户浏览各所述历史图文信息的时间区间;
依据所述时间区间的先后,顺次将各所述时间区间内的所述图文信息关联的候选视频信息推荐给所述目标用户。
12.根据权利要求1~11任意一项所述的信息推荐方法,其特征在于,所述图文信息和所述视频信息之一为图文信息,另一为视频信息。
13.一种信息推荐装置,其特征在于,包括:
用户集合获取模块,用于基于用户对于各图文信息以及各视频信息的操作日志数据,获取浏览各所述图文信息的各第一用户集合以及获取浏览各所述视频信息的各第二用户集合;
相似度计算模块,用于根据各所述第一用户集合和各所述第二用户集合,分别计算各所述视频信息与各所述图文信息之间的相似度;
关联关系确定模块,用于根据各所述视频信息与各所述图文信息之间的相似度,为各所述图文信息确定关联的候选视频信息;
视频信息推荐模块,用于获取目标用户浏览的历史图文信息以及所述目标用户对于各所述历史图文信息的兴趣度,并根据所述兴趣度从所述历史图文信息中筛选出种子图文信息以及为所述目标用户推荐各所述种子图文信息关联的所述候选视频信息;其中,所述历史图文信息为所述目标用户浏览过的所述图文信息,所述目标用户包括浏览过所述图文信息且未浏览过所述视频信息的用户,所述目标用户对于各所述历史图文信息的兴趣度是通过将所有的历史图文信息加入种子列表,根据所述目标用户对于已推荐的候选视频信息的浏览行为数据并结合ICF倒排信息,获取用于对于关联对应候选视频信息的历史图文信息的兴趣度所得到的;以及当所述目标用户在浏览历史中添加或删除历史图文信息时,动态调整对于视频信息的推荐结果。
14.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910294427.XA CN110096614B (zh) | 2019-04-12 | 2019-04-12 | 信息推荐方法及装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910294427.XA CN110096614B (zh) | 2019-04-12 | 2019-04-12 | 信息推荐方法及装置、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110096614A CN110096614A (zh) | 2019-08-06 |
CN110096614B true CN110096614B (zh) | 2022-09-20 |
Family
ID=67444773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910294427.XA Active CN110096614B (zh) | 2019-04-12 | 2019-04-12 | 信息推荐方法及装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110096614B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395487B (zh) * | 2019-08-14 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 信息推荐方法、装置、计算机可读存储介质及电子设备 |
CN110781395B (zh) * | 2019-10-25 | 2023-04-07 | 广东小天才科技有限公司 | 题目推荐方法、装置及终端设备 |
CN111047360B (zh) * | 2019-12-16 | 2024-04-09 | 北京搜狐新媒体信息技术有限公司 | 一种基于视觉画像的数据处理方法及系统 |
CN111738754A (zh) * | 2020-06-01 | 2020-10-02 | 上海晶赞融宣科技有限公司 | 对象推荐方法及装置、存储介质、计算机设备 |
CN112288390A (zh) * | 2020-10-26 | 2021-01-29 | 北京爱奇艺科技有限公司 | 客户端使用状态检测、消息推送方法、装置及相关设备 |
CN112559868B (zh) * | 2020-12-17 | 2024-07-19 | 广州博冠信息科技有限公司 | 信息召回方法、装置、存储介质及电子设备 |
CN113869991A (zh) * | 2021-12-03 | 2021-12-31 | 深圳市活力天汇科技股份有限公司 | 一种空铁联运组合的推荐方法 |
CN114637601B (zh) * | 2022-03-02 | 2024-10-18 | 马上消费金融股份有限公司 | 信息获取方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101984437A (zh) * | 2010-11-23 | 2011-03-09 | 亿览在线网络技术(北京)有限公司 | 音乐资源个性化推荐方法及系统 |
CN105005576A (zh) * | 2015-03-27 | 2015-10-28 | 合一信息技术(北京)有限公司 | 一种视频网站相似用户搜索系统和方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008146355A (ja) * | 2006-12-11 | 2008-06-26 | Lealcom Kk | 情報配信システム、情報配信装置及び情報配信方法 |
CN102184199A (zh) * | 2011-04-22 | 2011-09-14 | 北京志腾新诺科技有限公司 | 网络信息推荐方法及系统 |
CN105426486B (zh) * | 2015-11-20 | 2018-11-09 | 天津大学 | 一种基于用户行为数据的手机app推送方法 |
CN105404700B (zh) * | 2015-12-30 | 2019-04-16 | 山东大学 | 一种基于协同过滤的视频栏目推荐系统及推荐方法 |
CN106528643B (zh) * | 2016-10-13 | 2020-10-16 | 上海师范大学 | 一种基于社交网络的多维度综合推荐方法 |
CN109299316B (zh) * | 2018-11-09 | 2023-04-18 | 平安科技(深圳)有限公司 | 音乐推荐方法、装置和计算机设备 |
-
2019
- 2019-04-12 CN CN201910294427.XA patent/CN110096614B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101984437A (zh) * | 2010-11-23 | 2011-03-09 | 亿览在线网络技术(北京)有限公司 | 音乐资源个性化推荐方法及系统 |
CN105005576A (zh) * | 2015-03-27 | 2015-10-28 | 合一信息技术(北京)有限公司 | 一种视频网站相似用户搜索系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110096614A (zh) | 2019-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110096614B (zh) | 信息推荐方法及装置、电子设备 | |
CN107609152B (zh) | 用于扩展查询式的方法和装置 | |
WO2017181612A1 (zh) | 个性化视频推荐方法及装置 | |
CN108776676B (zh) | 信息推荐方法、装置、计算机可读介质及电子设备 | |
CN106339507B (zh) | 流媒体消息推送方法和装置 | |
CN109509010B (zh) | 一种多媒体信息处理方法、终端及存储介质 | |
CN104782138A (zh) | 识别缩略图图像以呈现视频 | |
CN109783539A (zh) | 用户挖掘及其模型构建方法、装置及计算机设备 | |
US10762122B2 (en) | Method and device for assessing quality of multimedia resource | |
US20180173713A1 (en) | Generating feedback for a target content item based on published content items | |
US11423096B2 (en) | Method and apparatus for outputting information | |
CN111400586A (zh) | 群组展示方法、终端、服务器、系统及存储介质 | |
CN112116426A (zh) | 一种推送物品信息的方法和装置 | |
CN111815375A (zh) | 广告投放中的用户画像方法及装置 | |
CN103955480A (zh) | 一种用于确定用户所对应的目标对象信息的方法与设备 | |
CN113495991A (zh) | 一种推荐方法和装置 | |
CN112989174A (zh) | 信息推荐方法及装置、介质和设备 | |
US7895206B2 (en) | Search query categrization into verticals | |
CN111507471B (zh) | 一种模型训练方法、装置、设备及存储介质 | |
CN110971973A (zh) | 一种视频推送方法、装置及电子设备 | |
CN111723201A (zh) | 一种用于文本数据聚类的方法和装置 | |
CN115858815A (zh) | 确定映射信息的方法、广告推荐方法、装置、设备及介质 | |
CN113365138B (zh) | 内容展示方法、装置、电子设备、存储介质 | |
CN115034826A (zh) | 一种广告投放方法、装置、电子设备及可读存储介质 | |
CN114782077A (zh) | 信息筛选方法、模型训练方法、装置、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |