CN111523964A - 基于聚类的召回方法、装置、电子设备及可读存储介质 - Google Patents

基于聚类的召回方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN111523964A
CN111523964A CN202010218691.8A CN202010218691A CN111523964A CN 111523964 A CN111523964 A CN 111523964A CN 202010218691 A CN202010218691 A CN 202010218691A CN 111523964 A CN111523964 A CN 111523964A
Authority
CN
China
Prior art keywords
text
cluster
vector
candidate
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010218691.8A
Other languages
English (en)
Inventor
刘海文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202010218691.8A priority Critical patent/CN111523964A/zh
Publication of CN111523964A publication Critical patent/CN111523964A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种基于聚类的召回方法、装置、电子设备及可读存储介质,所述方法包括:获取历史行为序列,所述历史行为序列中包括至少一个参考文本;生成所述参考文本的向量,并根据所述参考文本的向量对所述参考文本进行聚类,得到至少一个文本类簇;根据所述文本类簇中的参考文本的向量,确定所述文本类簇的向量;根据所述文本类簇的向量从候选文本集中进行文本召回。本公开可以对历史行为序列中的参考文本进行聚类得到文本类簇,每个文本类簇均代表用户感兴趣的一类文本,从而可以得到用户感兴趣的多类文本,提高了用户特征的刻画准确度和召回准确度。

Description

基于聚类的召回方法、装置、电子设备及可读存储介质
技术领域
本公开涉及个性化推荐技术领域,尤其涉及一种基于聚类的召回方法、装置、电子设备及可读存储介质。
背景技术
在个性化推荐技术领域中,需要从大量候选文本集中召回部分候选文本,并将这些候选文本按照一定顺序推荐给用户。从而召回过程会直接影响推荐的准确度。
现有技术中,一种文本召回方法主要包括:首先,确定用户行为向量;然后,针对候选文本集中的每个候选文本,计算该候选文本的向量和用户行为向量的相似度;最后,根据该相似度从候选文本集中进行文本召回。
发明人对上述方案进行研究之后发现,上述方案的用户行为向量对用户特征的刻画准确度较差,导致召回准确度较差。
发明内容
本公开提供一种基于聚类的召回方法、装置、电子设备及可读存储介质,可以对历史行为序列中的参考文本进行聚类得到文本类簇,每个文本类簇均代表用户感兴趣的一类文本,从而可以得到用户感兴趣的多类文本,提高了用户特征的刻画准确度和召回准确度。
根据本公开的第一方面,提供了一种基于聚类的召回方法,所述方法包括:
获取历史行为序列,所述历史行为序列中包括至少一个参考文本;
生成所述参考文本的向量,并根据所述参考文本的向量对所述参考文本进行聚类,得到至少一个文本类簇;
根据所述文本类簇中的参考文本的向量,确定所述文本类簇的向量;
根据所述文本类簇的向量从候选文本集中进行文本召回。
根据本公开的第二方面,提供了一种基于聚类的召回装置,所述装置包括:
历史行为序列获取模块,用于获取历史行为序列,所述历史行为序列中包括至少一个参考文本;
文本聚类模块,用于生成所述参考文本的向量,并根据所述参考文本的向量对所述参考文本进行聚类,得到至少一个文本类簇;
文本类簇向量生成模块,用于根据所述文本类簇中的参考文本的向量,确定所述文本类簇的向量;
文本召回模块,用于根据所述文本类簇的向量从候选文本集中进行文本召回。
根据本公开的第三方面,提供了一种电子设备,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现前述基于聚类的召回方法。
根据本公开的第四方面,提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述基于聚类的召回方法。
本公开提供了一种基于聚类的召回方法、装置、电子设备及可读存储介质,可以首先获取历史行为序列,所述历史行为序列中包括至少一个参考文本;然后生成所述参考文本的向量,并根据所述参考文本的向量对所述参考文本进行聚类,得到至少一个文本类簇;再根据所述文本类簇中的参考文本的向量,确定所述文本类簇的向量;最后根据所述文本类簇的向量从候选文本集中进行文本召回。本公开可以对历史行为序列中的参考文本进行聚类得到文本类簇,每个文本类簇均代表用户感兴趣的一类文本,从而可以得到用户感兴趣的多类文本,提高了用户特征的刻画准确度和召回准确度。
附图说明
为了更清楚地说明本公开的技术方案,下面将对本公开的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开的基于聚类的召回方法的步骤流程图;
图2示出了本公开的文本类簇的示意图;
图3示出了本公开的基于聚类的召回装置的结构图;
图4示出了本公开的电子设备的结构图。
具体实施方式
下面将结合本公开中的附图,对本公开中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开的实施例可以应用于提供个性化推荐服务的后台服务器中,后台服务器和对应的客户端构成一个完整的个性化推荐平台。其中,后台服务器用于根据用户的搜索意图生成文本并返回至客户端,以及根据用户的历史行为序列生成个性化推荐的文本并返回至客户端;客户端用于向用户展示后台服务器生成的文本。
参照图1,其示出了本公开的基于聚类的召回方法的步骤流程图,具体如下:
步骤101,获取历史行为序列,所述历史行为序列中包括至少一个参考文本。
其中,历史行为序列可以是其中一个用户在历史时间里操作的多个文本构成的序列,由于可以参考这些文本的特征进行文本召回,并将召回的文本作为向用户进行个性化推荐的文本,从而将这些文本称为参考文本。
上述操作包括但不限于:访问、下载,从而形成了不同类型的历史行为序列。例如,当操作为访问时,历史行为序列是用户在历史时间里访问的多个文本构成的序列;当操作为下载时,历史行为序列是用户在历史时间里下载的多个文本构成的序列。
步骤102,生成所述参考文本的向量,并根据所述参考文本的向量对所述参考文本进行聚类,得到至少一个文本类簇。
其中,参考文本的向量是对参考文本的一种表示,可以作为参考文本的身份信息,通常需要根据参考文本的特征信息生成,具体地,可以将参考文本的特征信息输入至机器模型中生成参考文本的向量,机器模型包括但不限于:Word2Vec(Word To Vector)模型、GE(Graph Embedding,图嵌入模型)、LSTM(Long Short-Term Memory,长短期记忆)网络模型、CNN(ConvolutionalNeuralNetworks,卷积神经网络)。这些模型通过大量文本的特征信息进行训练之后可以准确的生成任意文本的向量。
在得到参考文本的向量之后可以将参考文本进行聚类,从而使得同一个文本类簇中的参考文本的向量接近,即同一个文本类簇中的任意两个参考文本的向量的距离均小于或等于距离阈值。为了实现聚类,可以简单的针对历史行为序列中的任意两个参考文本,计算其向量的距离,若该距离小于或等于距离阈值,则确定这两个参考文本属于同一个文本类簇;否则,确定这两个参考文本不属于同一个文本类簇。如图2所示的文本类簇的示意图,每个参考文本的向量认为是一个简单的二维向量,横坐标x和纵坐标y分别为向量的两个维度,历史行为序列中包含15个参考文本,如图2中的15个黑色圆点,从而将历史行为序列中的参考文本划分为3个文本类簇:CSR1、CSR2和CSR3,每个文本类簇中的参考文本的数目不同,文本类簇CSR1中的参考文本的数目为6,文本类簇CSR2中的参考文本的数目为4,文本类簇CSR3中的参考文本的数目为5。
可以理解,同一个文本类簇中的参考文本具有相似的特征信息,代表用户对具有这一类特征信息的参考文本有兴趣,从而一个文本类簇代表用户的一个兴趣点,文本类簇的向量即为兴趣点的向量。若存在多个文本类簇,则用户存在多个兴趣点,多个兴趣点之间的差别可能较大,若将其平均之后会得到一个中间的兴趣点,这个中间的兴趣点并不能准确的代表用户的兴趣点,而这些离散的多个兴趣点才能准确的代表用户的兴趣点。如图2所示的文本类簇的示意图,可以看出,用户的兴趣点存在3个,文本类簇CSR1的中心点的向量、文本类簇CSR2的中心点的向量和文本类簇CSR3的中心点的向量,分别准确的表示了用户的3个兴趣点的向量,而若将三个文本类簇求平均之后,得到如图2中的O点,这个点的向量与用户真实的3个兴趣点的向量均存在一定差距,并不能准确的表示用户的兴趣点。
需要说明的是,图2是为了方便说明采用二维向量,但在实际应用中,参考文本的向量通过是多维的。
步骤103,根据所述文本类簇中的参考文本的向量,确定所述文本类簇的向量。
其中,文本类簇的向量可以为文本类簇中的参考文本的向量的平均向量,即将参考文本的向量的同一维度求平均得到文本类簇的向量。例如,若文本类簇CSR2中包含4个参考文本:ROB1、ROB2、ROB3和ROB4,其向量分别为[ROV11,ROV12,…,ROV1N],[ROV21,ROV22,…,ROV2N],[ROV31,ROV32,…,ROV3N],[ROV41,ROV42,…,ROV 4N],从而文本类簇CSR 2的向量为[(ROV 11+ROV 21+ROV 31+ROV 41)/4,(ROV 12+ROV 22+ROV 32+ROV 42)/4,…,(ROV 1N+ROV 2N+ROV 3N+ROV 4N)/4]。
步骤104,根据所述文本类簇的向量从候选文本集中进行文本召回。
具体地,可以首先从候选文本集中获取每个候选文本,然后确定该候选文本的向量与每个文本类簇的向量的相似度,若该候选文本的向量和至少一个文本类簇的向量的相似度小于或等于预设的相似度阈值,则将该候选文本作为召回的文本,若该候选文本的向量和每个文本类簇的向量的相似度均大于预设的相似度阈值,则不将该候选文本作为召回的文本。
可以理解,本公开的实施例是针对正在浏览的用户进行文本召回的过程,从而历史行为序列是该用户在历史时间里操作的多个文本构成的序列,以根据该用户曾经操作的文本进行文本召回,使得召回的文本是用户感兴趣的文本。在得到召回的文本之后,还需要将对召回的文本进行排序得到个性化推荐的文本,以推荐给用户。
可选地,在本公开的另一种实施例中,所述步骤103包括子步骤A1至A3:
子步骤A1,获取针对所述参考文本的行为发生时间。
其中,行为发生时间为用户在历史时间里操作该参考文本的时间,包括访问、下载时间。例如,若用户在2019年10月12日13:00访问其中一个参考文本,则该参考文本的行为发生时间为2019年10月12日13:00。
子步骤A2,根据所述当前时间和行为发生时间的时间差,确定所述参考文本的权重。
具体地,可以建立时间差和参考文本的权重之间的递减函数关系,即:时间差越大,参考文本的权重越小;时间差越小,参考文本的权重越大。
基于上述函数关系可知,行为发生时间距离当前时间越近的参考文本,其权重越大;行为发生时间距离当前时间越远的参考文本,其权重越小。例如,若用户在2019年10月12日13:00访问了参考文本ROB1,并在2019年10月15日20:00访问了参考文本ROB2,从而参考文本ROB1的权重小于参考文本ROB2的权重。
可以理解,本公开的实施例不限定时间差和参考文本的权重的具体函数关系,只要保证上述递减函数关系即可。
子步骤A3,根据所述参考文本的权重对所述文本类簇中的参考文本的向量进行加权求平均,得到所述文本类簇的向量。
具体地,文本类簇的向量可以参照如下公式计算得到:
Figure BDA0002425308060000061
其中,OCVj,k为第j个文本类簇的向量在第k维度上的取值,Ij为第j个文本类簇中的参考文本的数目,OWj,i为第j个文本类簇中的第i个参考文本的权重,
Figure BDA0002425308060000062
为第j个文本类簇中的第i个参考文本的归一化权重,ROVj,i,k为第j个文本类簇中的第i个参考文本的向量在第k维度上的取值。
本公开的实施例可以按照与当前时间的时间差调整参考文本对文本类簇的向量的影响,以使行为发生时间接近当前时间的参考文本的影响较大,行为发生时间远离当前时间的参考文本的影响较小,从而提高了文本类簇的向量的准确度。
可选地,在本公开的另一种实施例中,所述子步骤A2包括子步骤B:
子步骤B,以所述当前时间和行为发生时间的时间差为指数,并以衰减参数为底数,确定所述参考文本的权重,所述衰减参数大于0且小于1。
具体地,参考文本的权重可以按照如下公式计算得到:
Figure BDA0002425308060000071
其中,OWj,i为公式(1)中的第j个文本类簇中的第i个参考文本的权重,t0是当前时间,tj,i是第j个文本类簇中的第i个参考文本的行为发生时间,λ为衰减参数,0<λ<1。
本公开的实施例可以采用指数衰减函数确定权重,使得行为发生时间越接近当前时间的参考文本的权重逼近1,极限情况下,行为发生时间为当前时间的参考文本的权重即为1,而行为发生时间越远离当前时间的参考文本的权重无线逼近0但不为0。从而本公开的实施例可以通过指数衰减的函数确定权重,简洁的保证权重大于0且小于或等于1。
可选地,在本公开的另一种实施例中,所述步骤104包括子步骤C1至C4:
子步骤C1,根据所述文本类簇中的参考文本的权重确定所述文本类簇的权重。
其中,文本类簇的权重与参考文本的权重成正比例关系,即:若参考文本的权重越大,则文本类簇的权重越大;若参考文本的权重越小,则文本类簇的权重越小。具体地,可以将文本类簇中的参考文本的权重求和或求平均作为文本类簇的权重。
子步骤C2,针对所述候选文本集中的每个候选文本和每个所述文本类簇,根据所述候选文本的向量与所述文本类簇的向量,确定所述候选文本和所述文本类簇的相似度。
具体地,可以将候选文本的向量和文本类簇的向量的相似度作为候选文本和文本类簇的相似度。向量之间的相似度可以采用基于欧氏距离的相似度、余弦相似度等,向量之间的相似度已经是成熟的算法了,本公开的实施例以基于欧氏距离的相似度为例,得到如下候选文本和文本类簇的相似度:
Figure BDA0002425308060000081
其中,SIMj为候选文本和第j个文本类簇的相似度,K为向量的长度,OCVj,k为公式(1)中第j个文本类簇的向量在第k维度上的取值,COVk为候选文本的向量在第k维度上的取值。
子步骤C3,针对所述候选文本集中的每个候选文本,根据所述文本类簇的权重,对所述候选文本和所述文本类簇的相似度进行加权之后取最大值,得到所述候选文本的质量得分。
具体地,可以按照如下公式计算得到候选文本的质量得分:
SOR=max(CW1·SIM1,...,CWj·SIMj,CWJ·SIMJ) (4)
其中,SOR为候选文本的质量得分,J为历史行为序列聚类得到的文本类簇的数目,CW1、CWj和CWJ分别为第1个、第j个和第J个文本类簇的权重,SIM1、SIMj、SIMJ分别为公式(3)计算得到的候选文本和第1个文本类簇的相似度、候选文本和第j个文本类簇的相似度、候选文本和第J个文本类簇的相似度。
子步骤C4,根据所述质量得分从所述候选文本集中进行文本召回。
具体地,可以将候选文本集首先按照质量得分降序排列,然后获取排序靠前的预设数量的候选文本作为召回的文本。
此外,还可以将候选文本集中的质量得分大于一定得分阈值的候选文本作为召回的文本。
本公开的实施例可以根据各文本类簇的向量和候选文本的向量确定候选文本的质量得分,并根据质量得分进行文本召回,有助于进一步减少召回的文本数目,减小了后续排序的运算压力,有助于提高排序性能。
可选地,在本公开的另一种实施例中,所述子步骤C2之前,还包括子步骤C5:
子步骤C5,从预设的向量索引数据库中获取所述候选文本的向量。
其中,向量索引数据库是基于分类存储的索引库,在存储时会确定分类,并按照分类进行分块存储,有助于提高查询速度。在查询时,可以首先从向量索引数据库中筛选出向量的相似度较大的多个候选文本,然后将这些其中一个候选文本与文本类簇的向量进行计算相似度,如果相似度较大,则这些候选文本与文本类簇的相似度也较大,而若相似度较小,则这些候选文本与文本类簇的相似度也较小。相对于两两计算相似度的方法,向量索引数据库的运算速度更快。其中,向量索引数据库可例如为FAISS(FaceBook开源的工具)。
可选地,在本公开的另一种实施例中,所述子步骤C1包括子步骤D:
子步骤D,针对每个文本类簇,将所述文本类簇中的参考文本的权重之和与所述历史行为序列中各参考文本的权重之和的比值,作为所述文本类簇的权重。
可以理解,若历史行为序列中聚类至其中一个文本类簇中的参考文本越多,且各参考文本的权重越大,则用户对该文本类簇越有兴趣;若历史行为序列中聚类至其中一个文本类簇中的参考文本越少,且各参考文本的权重越小,则用户对该文本类簇越不感兴趣。
在本公开的实施例中,文本类簇的权重是归一化权重,从而避免权重过大导致后续运算复杂。
可选地,在本公开的另一种实施例中,所述步骤102包括子步骤E:
子步骤E,采用基于密度的聚类方式,根据所述参考文本的向量对所述参考文本进行聚类,得到至少一个文本类簇。
本公开的实施例可以直接调用现有的聚类算法进行聚类,而考虑到每个用户的兴趣点的数目通常不同,优先采用基于密度的聚类方式,而不采用基于文本类簇数目的聚类方式。其中,基于密度的聚类方式可以例如为DBSCAN(Density-Based Spatial ClusteringofApplications with Noise,基于密度的噪声应用空间聚类),基于文本类簇数目的聚类方式可例如为K-Means聚类算法。
然而,在某些情况下,用户的兴趣比较广泛,从而用户的兴趣点较多,此时,上述方式通常会导致聚类时对计算资源的消耗较大,且推荐的准确度较差,从而可以采用基于热度的召回方法等其余方式进行文本召回。
可选地,在本公开的另一种实施例中,所述参考文本被替换为参考商家或参考商品,所述文本类簇被替换为商家类簇或商品类簇,所述候选文本集被替换为候选商户集或候选商品集。
本公开的实施例可以应用于网络销售平台中商户或商品的召回过程。当对商户进行召回时,步骤101中的历史行为序列是用户在历史时间里操作的多个商户构成的序列;当对商品进行召回时,历史序列行为是用户在历史时间里操作的多个商品构成的序列。
上述操作包括但不限于:访问、收藏、加购、下单,从而形成了不同类型的历史行为序列。例如,当对商户进行召回,且操作为收藏时,历史行为序列是用户在历史时间里收藏的多个商户构成的序列;当对商户进行召回,且操作为下单时,历史行为序列是用户在历史时间里下单的多个商户构成的序列;当对商品进行召回,且操作为加购时,历史行为序列是用户在历史时间里加购的多个商品构成的序列。
综上所述,本公开提供了一种基于聚类的召回方法,包括:获取历史行为序列,所述历史行为序列中包括至少一个参考文本;生成所述参考文本的向量,并根据所述参考文本的向量对所述参考文本进行聚类,得到至少一个文本类簇;根据所述文本类簇中的参考文本的向量,确定所述文本类簇的向量;根据所述文本类簇的向量从候选文本集中进行文本召回。本公开可以对历史行为序列中的参考文本进行聚类得到文本类簇,每个文本类簇均代表用户感兴趣的一类文本,从而可以得到用户感兴趣的多类文本,提高了用户特征的刻画准确度和召回准确度。
参照图3,其示出了本公开的基于聚类的召回装置的结构图,具体如下:
历史行为序列获取模块201,用于获取历史行为序列,所述历史行为序列中包括至少一个参考文本。
文本聚类模块202,用于生成所述参考文本的向量,并根据所述参考文本的向量对所述参考文本进行聚类,得到至少一个文本类簇。
文本类簇向量生成模块203,用于根据所述文本类簇中的参考文本的向量,确定所述文本类簇的向量。
文本召回模块204,用于根据所述文本类簇的向量从候选文本集中进行文本召回。
可选地,在本公开的另一种实施例中,所述文本类簇向量生成模块203包括行为发生时间获取子模块、参考文本权重确定子模块和文本类簇向量生成子模块:
行为发生时间获取子模块,用于获取针对所述参考文本的行为发生时间。
参考文本权重确定子模块,用于根据所述当前时间和行为发生时间的时间差,确定所述参考文本的权重。
文本类簇向量生成子模块,用于根据所述参考文本的权重对所述文本类簇中的参考文本的向量进行加权求平均,得到所述文本类簇的向量。
可选地,在本公开的另一种实施例中,所述参考文本权重确定子模块包括参考文本权重确定单元:
参考文本权重确定单元,用于以所述当前时间和行为发生时间的时间差为指数,并以衰减参数为底数,确定所述参考文本的权重,所述衰减参数大于0且小于1。
可选地,在本公开的另一种实施例中,所述文本召回模块204包括文本类簇权重确定子模块、相似度确定子模块、质量得分预测子模块和文本召回子模块:
文本类簇权重确定子模块,用于根据所述文本类簇中的参考文本的权重确定所述文本类簇的权重。
相似度确定子模块,用于针对所述候选文本集中的每个候选文本和每个所述文本类簇,根据所述候选文本的向量与所述文本类簇的向量,确定所述候选文本和所述文本类簇的相似度。
质量得分预测子模块,用于针对所述候选文本集中的每个候选文本,根据所述文本类簇的权重,对所述候选文本和所述文本类簇的相似度进行加权之后取最大值,得到所述候选文本的质量得分。
文本召回子模块,用于根据所述质量得分从所述候选文本集中进行文本召回。
可选地,在本公开的另一种实施例中,所述文本召回模块204还包括候选文本向量获取子模块:
候选文本向量获取子模块,用于从预设的向量索引数据库中获取所述候选文本的向量。
可选地,在本公开的另一种实施例中,所述文本类簇权重确定子模块包括文本类簇权重确定单元:
文本类簇权重确定单元,用于针对每个文本类簇,将所述文本类簇中的参考文本的权重之和与所述历史行为序列中各参考文本的权重之和的比值,作为所述文本类簇的权重。
可选地,在本公开的另一种实施例中,所述文本聚类模块202包括文本聚类子模块:
文本聚类子模块,用于采用基于密度的聚类方式,根据所述参考文本的向量对所述参考文本进行聚类,得到至少一个文本类簇。
可选地,在本公开的另一种实施例中,所述参考文本被替换为参考商家或参考商品,所述文本类簇被替换为商家类簇或商品类簇,所述候选文本集被替换为候选商户集或候选商品集。
综上所述,本公开提供了一种基于聚类的召回装置,所述装置包括:历史行为序列获取模块,用于获取历史行为序列,所述历史行为序列中包括至少一个参考文本;文本聚类模块,用于生成所述参考文本的向量,并根据所述参考文本的向量对所述参考文本进行聚类,得到至少一个文本类簇;文本类簇向量生成模块,用于根据所述文本类簇中的参考文本的向量,确定所述文本类簇的向量;文本召回模块,用于根据所述文本类簇的向量从候选文本集中进行文本召回。本公开可以对历史行为序列中的参考文本进行聚类得到文本类簇,每个文本类簇均代表用户感兴趣的一类文本,从而可以得到用户感兴趣的多类文本,提高了用户特征的刻画准确度和召回准确度。
本公开的装置实施例可以参照方法实施例的详细说明,在此不再赘述。
本公开还提供了一种电子设备,参照图4,包括:处理器301、存储器302以及存储在所述存储器302上并可在所述处理器上运行的计算机程序3021,所述处理器301执行所述程序时实现前述实施例的基于聚类的召回方法。
本公开还提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述实施例的基于聚类的召回方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的内容,并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开的基于聚类的召回设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本公开进行说明而不是对本公开进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本公开的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本公开的保护范围之内。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

Claims (11)

1.一种基于聚类的召回方法,其特征在于,所述方法包括:
获取历史行为序列,所述历史行为序列中包括至少一个参考文本;
生成所述参考文本的向量,并根据所述参考文本的向量对所述参考文本进行聚类,得到至少一个文本类簇;
根据所述文本类簇中的参考文本的向量,确定所述文本类簇的向量;
根据所述文本类簇的向量从候选文本集中进行文本召回。
2.根据权利要求1所述的方法,其特征在于,所述根据所述文本类簇中的参考文本的向量,确定所述文本类簇的向量的步骤,包括:
获取针对所述参考文本的行为发生时间;
根据所述当前时间和行为发生时间的时间差,确定所述参考文本的权重;
根据所述参考文本的权重对所述文本类簇中的参考文本的向量进行加权求平均,得到所述文本类簇的向量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述当前时间和行为发生时间的时间差,确定所述参考文本的权重的步骤,包括:
以所述当前时间和行为发生时间的时间差为指数,并以衰减参数为底数,确定所述参考文本的权重,所述衰减参数大于0且小于1。
4.根据权利要求2所述的方法,其特征在于,所述根据所述文本类簇的向量从候选文本集中进行文本召回的步骤,包括:
根据所述文本类簇中的参考文本的权重确定所述文本类簇的权重;
针对所述候选文本集中的每个候选文本和每个所述文本类簇,根据所述候选文本的向量与所述文本类簇的向量,确定所述候选文本和所述文本类簇的相似度;
针对所述候选文本集中的每个候选文本,根据所述文本类簇的权重,对所述候选文本和所述文本类簇的相似度进行加权之后取最大值,得到所述候选文本的质量得分;
根据所述质量得分从所述候选文本集中进行文本召回。
5.根据权利要求4所述的方法,其特征在于,所述针对所述候选文本集中的每个候选文本和每个所述文本类簇,根据所述候选文本的向量与所述文本类簇的向量,确定所述候选文本和所述文本类簇的相似度的步骤之前,还包括:
从预设的向量索引数据库中获取所述候选文本的向量。
6.根据权利要求4所述的方法,其特征在于,所述根据所述文本类簇中的参考文本的权重确定所述文本类簇的权重的步骤,包括:
针对每个文本类簇,将所述文本类簇中的参考文本的权重之和与所述历史行为序列中各参考文本的权重之和的比值,作为所述文本类簇的权重。
7.根据权利要求1所述的方法,其特征在于,所述根据所述参考文本的向量对所述参考文本进行聚类,得到至少一个文本类簇的步骤,包括:
采用基于密度的聚类方式,根据所述参考文本的向量对所述参考文本进行聚类,得到至少一个文本类簇。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述参考文本被替换为参考商家或参考商品,所述文本类簇被替换为商家类簇或商品类簇,所述候选文本集被替换为候选商户集或候选商品集。
9.一种基于聚类的召回装置,其特征在于,所述装置包括:
历史行为序列获取模块,用于获取历史行为序列,所述历史行为序列中包括至少一个参考文本;
文本聚类模块,用于生成所述参考文本的向量,并根据所述参考文本的向量对所述参考文本进行聚类,得到至少一个文本类簇;
文本类簇向量生成模块,用于根据所述文本类簇中的参考文本的向量,确定所述文本类簇的向量;
文本召回模块,用于根据所述文本类簇的向量从候选文本集中进行文本召回。
10.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一项所述的基于聚类的召回方法。
11.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如方法权利要求1-8中任一项所述的基于聚类的召回方法。
CN202010218691.8A 2020-03-25 2020-03-25 基于聚类的召回方法、装置、电子设备及可读存储介质 Pending CN111523964A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010218691.8A CN111523964A (zh) 2020-03-25 2020-03-25 基于聚类的召回方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010218691.8A CN111523964A (zh) 2020-03-25 2020-03-25 基于聚类的召回方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN111523964A true CN111523964A (zh) 2020-08-11

Family

ID=71902113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010218691.8A Pending CN111523964A (zh) 2020-03-25 2020-03-25 基于聚类的召回方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111523964A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113411645A (zh) * 2021-06-16 2021-09-17 北京百度网讯科技有限公司 信息推荐方法及装置、电子设备和介质
CN113672793A (zh) * 2021-08-25 2021-11-19 北京爱奇艺科技有限公司 一种信息召回方法、装置、电子设备及存储介质
CN114880580A (zh) * 2022-06-15 2022-08-09 北京百度网讯科技有限公司 信息推荐方法及装置、电子设备和介质
WO2023245999A1 (zh) * 2022-06-20 2023-12-28 上海二三四五网络科技有限公司 基于聚类技术的用户多兴趣推荐方法、装置、设备及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113411645A (zh) * 2021-06-16 2021-09-17 北京百度网讯科技有限公司 信息推荐方法及装置、电子设备和介质
CN113411645B (zh) * 2021-06-16 2022-12-06 北京百度网讯科技有限公司 信息推荐方法及装置、电子设备和介质
CN113672793A (zh) * 2021-08-25 2021-11-19 北京爱奇艺科技有限公司 一种信息召回方法、装置、电子设备及存储介质
CN114880580A (zh) * 2022-06-15 2022-08-09 北京百度网讯科技有限公司 信息推荐方法及装置、电子设备和介质
WO2023245999A1 (zh) * 2022-06-20 2023-12-28 上海二三四五网络科技有限公司 基于聚类技术的用户多兴趣推荐方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN109902708B (zh) 一种推荐模型训练方法及相关装置
US10878550B2 (en) Utilizing deep learning to rate attributes of digital images
CN107424043B (zh) 一种产品推荐方法及装置,电子设备
CN111523964A (zh) 基于聚类的召回方法、装置、电子设备及可读存储介质
CA2655196C (en) System and method for generating a display of tags
CN108875776B (zh) 模型训练方法和装置、业务推荐的方法和装置、电子设备
Wang et al. Efficient video transformers with spatial-temporal token selection
CN110647696B (zh) 一种业务对象的排序方法及装置
CN112000819A (zh) 多媒体资源推荐方法、装置、电子设备及存储介质
CN106709318B (zh) 一种用户设备唯一性的识别方法、装置和计算设备
CN107808314B (zh) 用户推荐方法及装置
US11481707B2 (en) Risk prediction system and operation method thereof
CN116596095B (zh) 基于机器学习的碳排放量预测模型的训练方法及装置
CN114691973A (zh) 一种推荐方法、推荐网络及相关设备
CN106708871A (zh) 一种社交业务特征用户的识别方法和装置
CN105159898B (zh) 一种搜索的方法和装置
CN109493186A (zh) 确定推送信息的方法和装置
CN111666513A (zh) 页面处理方法、装置、电子设备及可读存储介质
CN115237732A (zh) 一种操作预测方法及相关装置
CN118043802A (zh) 一种推荐模型训练方法及装置
CN116204709A (zh) 一种数据处理方法及相关装置
CN112749332B (zh) 数据处理方法、装置以及计算机可读介质
CN115082844A (zh) 相似人群扩展方法、装置、电子设备和可读存储介质
CN114840759A (zh) 一种推荐方法、装置及计算机可读存储介质
CN111191675B (zh) 行人属性识别模型实现方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200811