CN109783727A - 检索推荐方法、装置、计算机可读存储介质及电子设备 - Google Patents
检索推荐方法、装置、计算机可读存储介质及电子设备 Download PDFInfo
- Publication number
- CN109783727A CN109783727A CN201811585282.0A CN201811585282A CN109783727A CN 109783727 A CN109783727 A CN 109783727A CN 201811585282 A CN201811585282 A CN 201811585282A CN 109783727 A CN109783727 A CN 109783727A
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- interest
- word
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本公开涉及一种检索推荐方法、装置、计算机可读存储介质及电子设备,所述方法包括:将目标检索词的词向量输入至兴趣文本向量模型,确定与所述目标检索词对应的兴趣文本向量,其中,所述兴趣文本向量模型与输入所述目标检索词的用户相对应,并且,所述兴趣文本向量用于表征对所述目标检索词检索后所述用户期望得到的文本;分别确定所述兴趣文本向量与文本集合中的文本的文本向量之间的相似度参数;根据所述相似度参数,从所述文本集合中确定推荐文本,并输出所述推荐文本。因此,可以对用户兴趣进行准确且标准化地表征,可以根据该兴趣文本向量确定推荐文本,使得该推荐文本为符合用户兴趣的文本,满足用户的使用需求,提升用户使用体验。
Description
技术领域
本公开涉及数据处理领域,具体地,涉及一种检索推荐方法、装置、计算机可读存储介质及电子设备。
背景技术
随着计算机技术的发展,用户只需要输入检索词,便可以获得检索数据。但是随着网络数据的逐渐增多,在用户输入检索词时,会检索出大量的数据。并且,同一检索词可能在不同的领域有不同的含义。现有技术中,在根据检索词进行检索时,可以将检索网站中的所有文本与检索词进行匹配,并将匹配成功的文本反馈给用户。但是该方式中,面对多种含义的检索词时,可能出现为用户反馈的检索结果中符合用户期望含义的文本较少,难以满足用户的使用需求。
发明内容
为了解决上述问题,本公开的目的是提供一种准确地、符合用户期望的检索推荐方法、装置、计算机可读存储介质及电子设备。
为了实现上述目的,根据本公开的第一方面,提供一种检索推荐方法,所述方法包括:
将目标检索词的词向量输入至兴趣文本向量模型,确定与所述目标检索词对应的兴趣文本向量,其中,所述兴趣文本向量模型与输入所述目标检索词的用户相对应,并且,所述兴趣文本向量用于表征对所述目标检索词检索后所述用户期望得到的文本;
分别确定所述兴趣文本向量与文本集合中的文本的文本向量之间的相似度参数;
根据所述相似度参数,从所述文本集合中确定推荐文本,并输出所述推荐文本。
可选地,通过以下方式确定词向量:
将包含目标词的文本数据输入词向量模型,获取输出向量,完成所述词向量模型的一次训练;
根据以下公式确定所述目标词的所述输出向量的权重:
其中,P(W)表示所述输出向量的权重;
α表示所述词向量模型的学习速率;
表示所述词向量模型的输出层中目标词wt对应的神经元的激活值;yi表示所述输出层中第i个神经元的激活值;
t表示所述输出层神经元的总个数;
θ表示正则项;
根据所述输出向量的权重,更新所述词向量模型,并重新执行所述将包含目标词的文本数据输入词向量模型,获取输出向量,完成所述词向量模型的一次训练的步骤,直至所述词向量模型的训练次数达到预设次数,或是所述词向量模型连续两次训练对应的输出向量的权重之间的差值在预设范围内;
将权重最大的输出向量确定为所述目标词的词向量。
可选地,所述兴趣文本向量模型是根据所述用户输入的历史检索词的词向量、以及所述用户对根据所述历史检索词检索出的文本的第一浏览行为数据进行训练得到的。
可选地,所述方法还包括:
获取所述用户对所述推荐文本的第二浏览行为数据;
若根据所述第二浏览行为数据确定所述推荐文本中存在所述用户感兴趣的文本,则根据所述用户感兴趣的文本的文本向量与所述兴趣文本向量之间的差异,更新所述兴趣文本向量模型。
可选地,所述方法还包括:
确定所述目标检索词在所述文本集合中的每一文本中的出现次数;
根据所述目标检索词在所述文本集合中的逆文本频率、所述目标检索词在所述文本集合中的每一文本中的出现次数、词频和所述文本集合中的每一文本的文本长度,确定所述目标检索词与所述文本集合中的每一文本之间的相关性参数;
所述根据所述相似度参数,从所述文本集合中确定推荐文本,包括:
根据所述相似度参数和所述相关性参数,确定所述推荐文本。
可选地,所述相关性参数通过以下公式确定:
其中,q表示所述目标检索词;
Score(q,d)表示所述目标检索词q和文本集合中的文本d之间的相关性参数;
IDF(q)表示所述目标检索词q在所述文本集合中的逆向文档频率;
TF(q)表示所述目标检索词q在所述文本集合中的文本d中的词频;
f表示所述目标检索词q在所述文本集合中的文本d中的出现次数;
k、b表示预设的常量,其中,b≠0;
dl表示所述文本集合中的文本d的文本长度;
avgdl表示所述文本集合中的文本的平均文本长度。
可选地,所述根据所述相似度参数和所述相关性参数,确定所述推荐文本,包括:
在所述目标检索词为多个时,将各个所述目标检索词与文本之间相关性参数之和确定为该文本对应的相关性参数;
针对所述文本集合中的每个文本,将该文本对应的相似度参数和该文本对应的相关性参数进行加权求和,确定该文本对应的推荐值;
基于所述文本集合中的每个文本对应的推荐值,确定所述推荐文本。
根据本公开的第二方面,提供一种检索推荐装置,所述装置包括:
第一确定模块,用于将目标检索词的词向量输入至兴趣文本向量模型,确定与所述目标检索词对应的兴趣文本向量,其中,所述兴趣文本向量模型与输入所述目标检索词的用户相对应,并且,所述兴趣文本向量用于表征对所述目标检索词检索后所述用户期望得到的文本;
第二确定模块,用于分别确定所述兴趣文本向量与文本集合中的文本的文本向量之间的相似度参数;
第三确定模块,用于根据所述相似度参数,从所述文本集合中确定推荐文本,并输出所述推荐文本。
可选地,通过以下方式确定词向量:
将包含目标词的文本数据输入词向量模型,获取输出向量,完成所述词向量模型的一次训练;
根据以下公式确定所述目标词的所述输出向量的权重:
其中,P(W)表示所述输出向量的权重;
α表示所述词向量模型的学习速率;
表示所述词向量模型的输出层中目标词wt对应的神经元的激活值;
yi表示所述输出层中第i个神经元的激活值;
t表示所述输出层神经元的总个数;
θ表示正则项;
根据所述输出向量的权重,更新所述词向量模型,并重新执行所述将包含目标词的文本数据输入词向量模型,获取输出向量,完成所述词向量模型的一次训练的步骤,直至所述词向量模型的训练次数达到预设次数,或是所述词向量模型连续两次训练对应的输出向量的权重之间的差值在预设范围内;
将权重最大的输出向量确定为所述目标词的词向量。
可选地,所述兴趣文本向量模型是根据所述用户输入的历史检索词的词向量、以及所述用户对根据所述历史检索词检索出的文本的第一浏览行为数据进行训练得到的。
可选地,所述装置还包括:
获取模块,用于获取所述用户对所述推荐文本的第二浏览行为数据;
更新模块,用于若根据所述第二浏览行为数据确定所述推荐文本中存在所述用户感兴趣的文本,则根据所述用户感兴趣的文本的文本向量与所述兴趣文本向量之间的差异,更新所述兴趣文本向量模型。
可选地,所述装置还包括:
第四确定模块,用于确定所述目标检索词在所述文本集合中的每一文本中的出现次数;
第五确定模块,用于根据所述目标检索词在所述文本集合中的逆文本频率、所述目标检索词在所述文本集合中的每一文本中的出现次数、词频和所述文本集合中的每一文本的文本长度,确定所述目标检索词与所述文本集合中的每一文本之间的相关性参数;
所述第三确定模块用于根据所述相似度参数和所述相关性参数,确定所述推荐文本。
可选地,所述相关性参数通过以下公式确定:
其中,q表示所述目标检索词;
Score(q,d)表示所述目标检索词q和文本集合中的文本d之间的相关性参数;
IDF(q)表示所述目标检索词q在所述文本集合中的逆向文档频率;
TF(q)表示所述目标检索词q在所述文本集合中的文本d中的词频;
f表示所述目标检索词q在所述文本集合中的文本d中的出现次数;
k、b表示预设的常量,其中,b≠0;
dl表示所述文本集合中的文本d的文本长度;
avgdl表示所述文本集合中的文本的平均文本长度。
可选地,所述第三确定模块,包括:
第一确定子模块,用于在所述目标检索词为多个时,将各个所述目标检索词与文本之间相关性参数之和确定为该文本对应的相关性参数;
第二确定子模块,用于针对所述文本集合中的每个文本,将该文本对应的相似度参数和该文本对应的相关性参数进行加权求和,确定该文本对应的推荐值;
第三确定子模块,用于基于所述文本集合中的每个文本对应的推荐值,确定所述推荐文本。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面任一所述方法的步骤。
根据本公开的第四方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述第一方面任一所述方法的步骤。
在上述技术方案中,通过目标检索词确定与用户对应的兴趣文本向量,可以为给用户推荐符合其兴趣的检索结果提供数据支持。之后,根据文本集合中的文本的文本向量与兴趣文本向量之间的相似度参数,确定为用户反馈的推荐文本。因此,通过上述技术方案,一方面,可以对用户兴趣进行准确且标准化地表征,另一方面,可以根据该兴趣文本向量确定推荐文本,使得该推荐文本为符合用户兴趣的文本,满足用户的使用需求,提升用户使用体验。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据本公开的一种实施方式提供的检索推荐方法的流程图;
图2是根据本公开的另一种实施方式提供的检索推荐方法的流程图;
图3是根据本公开的一种实施方式提供的检索推荐装置的框图;
图4是根据一示例性实施例示出的一种电子设备的框图;
图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1所示,为根据本公开的一种实施方式提供的检索推荐方法的流程图,如图1所示,所述方法包括:
在S11中,将目标检索词的词向量输入至兴趣文本向量模型,确定与目标检索词对应的兴趣文本向量,其中,所述兴趣文本向量模型与输入所述目标检索词的用户相对应,并且,所述兴趣文本向量用于表征对所述目标检索词检索后所述用户期望得到的文本。
其中,每一用户具有其对应的兴趣文本向量模型,因此,在将目标检索词的词向量输入至兴趣文本向量模型时,可以得出符合该用户兴趣的兴趣文本向量。
在S12中,分别确定兴趣文本向量与文本集合中的文本的文本向量之间的相似度参数。
其中,文本集合可以是用户检索的网站中的全部或部分文本所形成的集合。示例地,用户在一文库网站中检索文本时,文本集合可以是该文库中的全部文本;也可以是该文库的文本中、包含该目标检索词的文本所形成的集合。
作为示例,可以将兴趣文本向量与文本的文本向量之间的距离确定为相似度参数,也可以将兴趣文本向量与文本的文本向量之间的夹角余弦值确定为该相似度参数。其中,向量之间的距离和夹角余弦值的确定方式为现有技术,在此不再赘述。
在S13中,根据相似度参数,从文本集合中确定推荐文本,并输出推荐文本。
在一实施例中,当相似度参数为距离时,可以将距离小于预设的距离阈值的文本确定为推荐文本,并按照距离由小到大的顺序输出;当相似度参数为夹角余弦值时,可以将余弦值大于预设的余弦值阈值的文本确定为推荐文本,并按照夹角余弦值由大到小的顺序输出推荐文本。
在另一实施例中,也可以预先设置该推荐文本的个数,示例地,可以设置推荐文本的个数为10个,可以根据相似度参数的大小进行排序,从而确定该推荐文本。其中,当相似度参数为距离时,将按照距离由小到大的顺序排名前10的文本确定为推荐文本;当相似度参数为夹角余弦值时,将按照夹角余弦值由大到小的顺序排名前10的文本确定为推荐文本。
在上述技术方案中,通过目标检索词确定与用户对应的兴趣文本向量,可以为给用户推荐符合其兴趣的检索结果提供数据支持。之后,根据文本集合中的文本的文本向量与兴趣文本向量之间的相似度参数,确定为用户反馈的推荐文本。因此,通过上述技术方案,一方面,可以对用户兴趣进行准确且标准化地表征,另一方面,可以根据该兴趣文本向量确定推荐文本,使得该推荐文本为符合用户兴趣的文本,满足用户的使用需求,提升用户使用体验。
为了使本领域技术人员更加理解本发明实施例提供的技术方案,下面对上述步骤进行详细的说明。
可选地,可以通过以下方式确定词向量:
将包含目标词的文本数据输入词向量模型,获取输出向量,完成所述词向量模型的一次训练。
在一实施例中,可以对包含该目标词的文本进行分词处理,并通过one-hot的方式确定各个分词的向量,则包含该目标词的文本数据可以是各个分词的向量,将该文本数据输入词向量模型后,词向量模型则可以根据各个分词的向量生成输出向量。
在另一实施例中,也可以直接将包含该目标词的文本作为文本数据输入词向量模型。在词向量模型中可以对该文本进行分词及确定分词的向量的处理。之后,词向量模型根据各个分词的向量生成输出向量。
在获得输出向量后,根据以下公式确定目标词的输出向量的权重:
其中,P(W)表示所述输出向量W的权重;
α表示所述词向量模型的学习速率,示例地,α可以设置为0.5;
表示所述词向量模型的输出层中目标词wt对应的神经元的激活值,其中,词向量模型的输出层的每个神经元对应一个分词;
yi表示所述输出层中第i个神经元的激活值;
t表示所述输出层神经元的总个数;
θ表示正则项,其可以是L1或L2范式,可以有效防止词向量模型中数据的过拟合;
之后,根据所述输出向量的权重,更新所述词向量模型,并重新执行所述将包含目标词的文本数据输入词向量模型,获取输出向量,完成所述词向量模型的一次训练的步骤,直至所述词向量模型的训练次数达到预设次数,或是所述词向量模型连续两次训练对应的输出向量的权重之间的差值在预设范围内。
将权重最大的输出向量确定为所述目标词的词向量。
其中,该预设次数可以根据实际使用场景进行设置,当要求该词向量模型的精度较高时,该预设系数可以设置较大,如,100次,当要求该词向量模型的精度一般时,该预设系数可以设置为80次。同样,该预设范围也可以根据实际使用场景进行设置,示例地,可以设置为[-0.1,0.1],本公开对此不进行限定。
示例地,词向量模型为一神经网络模型,根据所述输出向量的权重,更新所述词向量模型的一种示例性实现方式可以是将该权重作为反馈值反馈给词向量模型,以更新词向量模型中的各个参数值。其中,根据反馈值更新神经网络模型的方式为现有技术,在此不再赘述。
在一实施例中,在更新完词向量模型,重新执行所述将包含目标词的文本数据输入词向量模型,获取输出向量,完成所述词向量模型的一次训练的步骤时,可以将上一次训练输入词向量的文本数据重新输入至该词向量模型,也可以重新确定包含目标词的新的文本数据,并将该新的文本数据输入词向量模型,以进行下一次训练。
在另一实施例中,在进行词向量模型的多次训练后,每次训练的输出向量都可以作为目标词的词向量的一种表示,在本公开中,将权重最大的输出向量确定为目标词的词向量,从而可以有效保证通过其他词对目标词进行表征时词向量的准确度,进而保证后续确定出的兴趣文本向量的准确性,保证检索结果的准确性。
可选地,文本的文本向量可以通过该文本包含的各个词的词向量进行表征。示例地,文本的文本向量可以通过以下公式进行确定:
其中,D表示文本的文本向量;
s表示文本中的词总数;
Wi表示文本的第i个词的词向量;
βi表示文本的第i个词对应的权重,可以通过马尔科夫链确定;
θ'表示正则项,可以为L1或L2范式。
其中,上述文本向量的公式为现有技术,在本公开中,在确定文本向量时,可以通过本公开中提供的确定词向量的方式确定出文本中的各个词的词向量之后,根据上述公式确定文本的文本向量,便于基于该文本向量确定文本向量与兴趣文本向量之间的相似度参数,为确定推荐文本提供数据支持。
可选地,所述兴趣文本向量模型是根据所述用户输入的历史检索词的词向量、以及所述用户对根据所述历史检索词检索出的文本的第一浏览行为数据进行训练得到的。其中,兴趣文本向量模型可以通过神经网络模型实现,包含输入层、多个隐藏层、输出层,并将用户对根据所述历史检索词检索出的文本的第一浏览行为数据作为用户层,其具体地训练过程如下:
将用户输入的历史检索词的词向量输入至兴趣文本向量模型,得到兴趣文本向量,完成兴趣文本向量模型的一次训练,其中,将历史检索词的词向量输入至兴趣文本向量模型,通过多个隐藏层的参数传播,在输出层获得该兴趣文本向量。
根据用户对根据所述历史检索词检索出的文本的第一浏览行为数据和兴趣文本向量确定所述兴趣文本向量模型的差异。
示例地,输入的历史检索词的词向量表示为x=[x1,x2,...,xt],则针对每层隐藏层而言,可以通过如下公式确定该隐藏层的输出:
Oi=f(δi·Ii),i=1,2,...m
其中,Ii表示所述兴趣文本向量模型的第i层隐藏层的神经元的输入向量,δi表示第i层隐藏层的上一层至第i层隐藏层的权重,初始化时,δi=0,Oi表示所述兴趣文本向量模型的第i层隐藏层的神经元的输出向量,f()表示兴趣文本向量模型的激励函数,本公开中可以将sigmoid函数作为激励函数。
通过各个隐藏层的正向传播,可以在输出层得到兴趣文本向量。示例地,在根据用户对根据所述历史检索词检索出的文本的第一浏览行为数据和兴趣文本向量确定所述兴趣文本向量模型的差异时,一种示例性实现方式如下:根据用户对根据所述历史检索词检索出的文本的第一浏览行为数据确定用户感兴趣的文本,将该用户感兴趣的文本的文本向量与兴趣文本向量之间的差异确定为兴趣文本向量模型的差异。
作为示例,第一浏览行为数据可以是用户点击数据,例如,在将根据所述历史检索词检索出的文本进行显示时,可以根据用户点击数据确定出用户点击的文本,在该文本的数量为一个时,可以将该文本确定为用户感兴趣的文本。又例如,根据用户点击数据确定出用户点击的文本数量为多个时,可以根据第一浏览行为数据确定出用户针对每个点击的文本对应的浏览时长,此时,可以用户点击的文本中、对应浏览时长最长的文本确定为用户感兴趣的文本。
作为另一示例,第一浏览数据可以是文本显示时长数据。例如,现在一些网站中显示检索出的文本时,通常会显示该检索出的文本的摘要,使得用户可以不用点击文本便可预先简单地对检索出的各个文本的内容进行了解。因此,在页面中某一检索出的文本的显示时长较长时,表征该文本为该用户感兴趣的文本的可能性较高,可以将检索出的各个文本中、显示时长最长的文本确定为用户感兴趣的文本。其中,需要说明的是,确定出的用户感兴趣的文本的个数为一个,因此,当显示时长最长的文本为多个时,可以选择任一个确定为用户感兴趣的文本,也可以将检索出的各个文本中、显示时长最长、且鼠标悬停时长最长的文本确定为用户感兴趣的文本。以上示例为确定用户感兴趣的文本的示例性实现方式,不对本公开进行限定。
在确定出用户感兴趣的文本之后,则可以根据用户感兴趣的文本的文本向量和兴趣文本向量确定兴趣文本向量模型的差异,示例地,可以通过如下方式确定该差异:
e=||y-o2
其中,e表示所述兴趣文本向量模型的差异;
y表示用户感兴趣的文本的文本向量;
o表示所述兴趣文本向量。
在确定出兴趣文本向量模型的差异后,根据所述差异更新所述兴趣文本向量模型,并重新执行将用户输入的历史检索词的词向量输入至兴趣文本向量模型,得到兴趣文本向量的步骤,直至所述兴趣文本向量模型的训练次数达到阈值,或是所述差异在预设的差异范围内。
在一实施例中,可以根据如下方式更新所述兴趣文本向量模型的各个隐藏层的参数:
其中,λ表示隐藏层的当前权重;
λ'表示隐藏层更新后的权重;
Δλ表示隐藏层的权重变化;
η表示兴趣文本向量模型的学习速率,示例地,可以设置为0.1;
e表示所述兴趣文本向量模型的差异;
表示所述兴趣文本向量模型的差异的链式求导法则的表示;
表示隐藏层的当前权重的链式求导法则的表示。
其中,兴趣文本向量模型的训练次数对应的阈值的设置方式与词向量模型的训练次数对应的预设次数相似、以及兴趣文本向量模型的差异对应的差异范围与词向量的对应的预设范围的设置方式相似,在此不再赘述。
因此,通过上述技术方案,可以训练用户对应的兴趣文本向量模型,从而可以对用户的兴趣文本进行表征。示例地,用户A和用户B输入的历史检索词为“小米”时,由于两者对根据该历史检索词“小米”检索出的文本的第一浏览行为数据不同,使得确定出的兴趣文本向量不同。例如,用户A点击的是“小米的功效与作用”对应的文本,用户B点击的是“小米商城”对应的文本,由于用户感兴趣的文本不同,使得确定出的差异不同,从而使得根据该差异更新后的兴趣文本向量模型不同,由此通过用户感兴趣的文本对该用户对应的兴趣文本向量模型进行修正时,使得该兴趣文本向量模型输出的兴趣文本向量更加符合用户兴趣,可以使得针对于同一检索词,不同用户可以获得不同的兴趣文本向量,使得检索结果更加贴合用户需求,提升用户使用体验。
可选地,所述方法还包括:
获取所述用户对所述推荐文本的第二浏览行为数据;
若根据所述第二浏览行为数据确定所述推荐文本中存在所述用户感兴趣的文本,则根据所述用户感兴趣的文本的文本向量与所述兴趣文本向量之间的差异,更新所述兴趣文本向量模型。
其中,根据浏览行为数据确定用户感兴趣的文本的具体实施方式已在上文进行详细说明,在此不再赘述。
在该实施例中,在根据用户输入的目标检索词输出推荐文本时,当根据第二浏览行为数据确定出用户感兴趣的文本时,如,用户点击了推荐文本中的一篇文本(以下称“点击文本”)时,可以根据该点击文本的文本向量与兴趣文本向量之间的差异,更新兴趣文本向量模型,其中,确定差异及根据该差异更新兴趣文本向量模型的方式和训练过程中的方式类似,在此不再赘述。
通过上述技术方案,通过根据用户对推荐文本的第二浏览行为数据,更新兴趣文本向量模型,从而可以使得兴趣文本向量模型输出的兴趣文本向量更加贴合用户的实时兴趣,使得用户在刷新检索页面时,可以实时更新推荐文本,进一步提高检索结果的准确性,通过提高检索推荐方法的实时性,提升用户使用体验。
另外,文本可以是分词组合的一种特殊的表现形式,通过确定目标检索词与文本之间的相关性,也可以对检索结果进行表征。因此,本公开还提供以下实施例。可选地,如图2所示,所述方法还包括:
在S21中,确定目标检索词在文本集合中的每一文本中的出现次数;
在S22中,根据目标检索词在文本集合中的逆文本频率、目标检索词在文本集合中的每一文本中的出现次数、词频和文本集合中的每一文本的文本长度,确定目标检索词与所述文本集合中的每一文本之间的相关性参数;
可选地,所述相关性参数可以通过以下公式确定:
其中,q表示所述目标检索词;
Score(q,d)表示所述目标检索词q和文本集合中的文本d之间的相关性参数;
IDF(q)表示所述目标检索词q在所述文本集合中的逆向文档频率;
TF(q)表示所述目标检索词q在所述文本集合中的文本d中的词频;
f表示所述目标检索词q在所述文本集合中的文本d中的出现次数;
k、b表示预设的常量,其中,b≠0;
dl表示所述文本集合中的文本d的文本长度;
avgdl表示所述文本集合中的文本的平均文本长度,即文本集合中的各个文本的文本长度的平均值。
其中,IDF(q)和TF(q)的确定方式为现有技术,在此不再赘述。在上述公式中,在确定目标检索词与文本之间的相关性时,结合该文本的文本长度及目标检索词在该文本中出现的频次进行综合考量,进一步提高目标检索词与文本之间的相关性参数的准确性,从而为确定推荐文本提高准确的数据支持。
在S13中,根据相似度参数,从文本集合中确定推荐文本的另一种示例性实现方式如下,包括:
根据相似度参数和相关性参数,确定推荐文本。
其中,所述相似度参数可以表征文本集合中的文本与根据目标检索词确定的用于表征用户兴趣的兴趣文本向量之间的相似度,相关性参数则可以表征目标检索词与文本集合中的文本之间的相关性,因此,在确定推荐文本时,同时结合目标检索词与文本,以及用户兴趣与文本之间的关系,从而有效提高推荐文本的准确性,并且使得推荐文本符合用户兴趣,贴合用户使用需求。
可选地,所述根据所述相似度参数和所述相关性参数,确定所述推荐文本的一种示例性实现方式如下,包括:
在所述目标检索词为多个时,将各个所述目标检索词与文本之间相关性参数之和确定为该文本对应的相关性参数,在所述目标检索词为一个时,直接将目标检索词与文本之间相关性参数确定为该文本的对应的相关性参数;
针对所述文本集合中的每个文本,将该文本对应的相似度参数和该文本对应的相关性参数进行加权求和,确定该文本对应的推荐值。
需要进行说明的是,当相似度参数为距离,可以将距离的倒数确定为文本对应的相关性参数;当相似度参数为余弦值时,可以直接将该余弦值确定为文本对应的相关性参数。其中,可以通过如下公式确定推荐值:
NEW_Score(d)=γ*Score(d)+(1-γ)*Sim(d)
其中,NEW_Score(d)表示文本d对应的推荐值;
Score(d)表示文本d对应的相关性系数;
Sim(d)表示文本d对应的相似度参数;
γ表示权重值,示例地,可以设置为0.5,其中,该权重值可以根据实际使用场景进行设置,本公开对此不进行限定。
基于所述文本集合中的每个文本对应的推荐值,确定所述推荐文本。
在一实施例中,可以将推荐值大于预设的推荐阈值的文本确定为推荐文本,并按照推荐文本的推荐值由大到小的顺序进行输出,从而反馈给用户检索结果。
在另一实施例中,可以按照推荐值由大到小的顺序进行排序,从而可以按照该顺序依次将对应的文本确定为推荐文本,从而输出推荐文本,反馈给用户检索结果。另外,也可以预先设置推荐文本的推荐个数,因此,在对推荐文本进行排序后,可以直接按照顺序选择排名在前的推荐个数的文本为推荐文本,以反馈给用户检索结果。
在上述实施例中,可以综合文本对应的相似度参数和文本对应的相关性参数确定用户表征文本的推荐值,因此,在确定推荐文本时,既可以保证推荐文本符合用户兴趣,又可以保证推荐文本与目标检索词相关,有效保证推荐文本的准确性,从而为用户反馈准确的检索结果,进一步提升用户使用体验。
本公开还提供一种检索推荐装置,如图3所示,所述装置10包括:
第一确定模块100,用于将目标检索词的词向量输入至兴趣文本向量模型,确定与所述目标检索词对应的兴趣文本向量,其中,所述兴趣文本向量模型与输入所述目标检索词的用户相对应,并且,所述兴趣文本向量用于表征对所述目标检索词检索后所述用户期望得到的文本;
第二确定模块200,用于分别确定所述兴趣文本向量与文本集合中的文本的文本向量之间的相似度参数;
第三确定模块300,用于根据所述相似度参数,从所述文本集合中确定推荐文本,并输出所述推荐文本。
可选地,通过以下方式确定词向量:
将包含目标词的文本数据输入词向量模型,获取输出向量,完成所述词向量模型的一次训练;
根据以下公式确定所述目标词的所述输出向量的权重:
其中,P(W)表示所述输出向量的权重;
α表示所述词向量模型的学习速率;
表示所述词向量模型的输出层中目标词wt对应的神经元的激活值;
yi表示所述输出层中第i个神经元的激活值;
t表示所述输出层神经元的总个数;
θ表示正则项;
根据所述输出向量的权重,更新所述词向量模型,并重新执行所述将包含目标词的文本数据输入词向量模型,获取输出向量,完成所述词向量模型的一次训练的步骤,直至所述词向量模型的训练次数达到预设次数,或是所述词向量模型连续两次训练对应的输出向量的权重之间的差值在预设范围内;
将权重最大的输出向量确定为所述目标词的词向量。
可选地,所述兴趣文本向量模型是根据所述用户输入的历史检索词的词向量、以及所述用户对根据所述历史检索词检索出的文本的第一浏览行为数据进行训练得到的。
可选地,所述装置10还包括:
获取模块,用于获取所述用户对所述推荐文本的第二浏览行为数据;
更新模块,用于若根据所述第二浏览行为数据确定所述推荐文本中存在所述用户感兴趣的文本,则根据所述用户感兴趣的文本的文本向量与所述兴趣文本向量之间的差异,更新所述兴趣文本向量模型。
可选地,所述装置10还包括:
第四确定模块,用于确定所述目标检索词在所述文本集合中的每一文本中的出现次数;
第五确定模块,用于根据所述目标检索词在所述文本集合中的逆文本频率、所述目标检索词在所述文本集合中的每一文本中的出现次数、词频和所述文本集合中的每一文本的文本长度,确定所述目标检索词与所述文本集合中的每一文本之间的相关性参数;
所述第三确定模块300用于根据所述相似度参数和所述相关性参数,确定所述推荐文本。
可选地,所述相关性参数通过以下公式确定:
其中,q表示所述目标检索词;
Score(q,d)表示所述目标检索词q和文本集合中的文本d之间的相关性参数;
IDF(q)表示所述目标检索词q在所述文本集合中的逆向文档频率;
TF(q)表示所述目标检索词q在所述文本集合中的文本d中的词频;
f表示所述目标检索词q在所述文本集合中的文本d中的出现次数;
k、b表示预设的常量,其中,b≠0;
dl表示所述文本集合中的文本d的文本长度;
avgdl表示所述文本集合中的文本的平均文本长度。
可选地,所述第三确定模块300,包括:
第一确定子模块,用于在所述目标检索词为多个时,将各个所述目标检索词与文本之间相关性参数之和确定为该文本对应的相关性参数;
第二确定子模块,用于针对所述文本集合中的每个文本,将该文本对应的相似度参数和该文本对应的相关性参数进行加权求和,确定该文本对应的推荐值;
第三确定子模块,用于基于所述文本集合中的每个文本对应的推荐值,确定所述推荐文本。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种电子设备700的框图。如图4所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的检索推荐方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件707可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的检索推荐方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的检索推荐方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的检索推荐方法。
图5是根据一示例性实施例示出的一种电子设备1900的框图。例如,电子设备1900可以被提供为一服务器。参照图5,电子设备1900包括处理器1922,其数量可以为一个或多个,以及存储器1932,用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1922可以被配置为执行该计算机程序,以执行上述的检索推荐方法。
另外,电子设备1900还可以包括电源组件1926和通信组件1950,该电源组件1926可以被配置为执行电子设备1900的电源管理,该通信组件1950可以被配置为实现电子设备1900的通信,例如,有线或无线通信。此外,该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的检索推荐方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1932,上述程序指令可由电子设备1900的处理器1922执行以完成上述的检索推荐方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (10)
1.一种检索推荐方法,其特征在于,所述方法包括:
将目标检索词的词向量输入至兴趣文本向量模型,确定与所述目标检索词对应的兴趣文本向量,其中,所述兴趣文本向量模型与输入所述目标检索词的用户相对应,并且,所述兴趣文本向量用于表征对所述目标检索词检索后所述用户期望得到的文本;
分别确定所述兴趣文本向量与文本集合中的文本的文本向量之间的相似度参数;
根据所述相似度参数,从所述文本集合中确定推荐文本,并输出所述推荐文本。
2.根据权利要求1所述的方法,其特征在于,通过以下方式确定词向量:
将包含目标词的文本数据输入词向量模型,获取输出向量,完成所述词向量模型的一次训练;
根据以下公式确定所述目标词的所述输出向量的权重:
其中,P(W)表示所述输出向量的权重;
α表示所述词向量模型的学习速率;
表示所述词向量模型的输出层中目标词wt对应的神经元的激活值;
yi表示所述输出层中第i个神经元的激活值;
t表示所述输出层神经元的总个数;
θ表示正则项;
根据所述输出向量的权重,更新所述词向量模型,并重新执行所述将包含目标词的文本数据输入词向量模型,获取输出向量,完成所述词向量模型的一次训练的步骤,直至所述词向量模型的训练次数达到预设次数,或是所述词向量模型连续两次训练对应的输出向量的权重之间的差值在预设范围内;
将权重最大的输出向量确定为所述目标词的词向量。
3.根据权利要求1所述的方法,其特征在于,所述兴趣文本向量模型是根据所述用户输入的历史检索词的词向量、以及所述用户对根据所述历史检索词检索出的文本的第一浏览行为数据进行训练得到的。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述用户对所述推荐文本的第二浏览行为数据;
若根据所述第二浏览行为数据确定所述推荐文本中存在所述用户感兴趣的文本,则根据所述用户感兴趣的文本的文本向量与所述兴趣文本向量之间的差异,更新所述兴趣文本向量模型。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述目标检索词在所述文本集合中的每一文本中的出现次数;
根据所述目标检索词在所述文本集合中的逆文本频率、所述目标检索词在所述文本集合中的每一文本中的出现次数、词频和所述文本集合中的每一文本的文本长度,确定所述目标检索词与所述文本集合中的每一文本之间的相关性参数;
所述根据所述相似度参数,从所述文本集合中确定推荐文本,包括:
根据所述相似度参数和所述相关性参数,确定所述推荐文本。
6.根据权利要求5所述的方法,其特征在于,所述相关性参数通过以下公式确定:
其中,q表示所述目标检索词;
Score(q,d)表示所述目标检索词q和文本集合中的文本d之间的相关性参数;
IDF(q)表示所述目标检索词q在所述文本集合中的逆向文档频率;
TF(q)表示所述目标检索词q在所述文本集合中的文本d中的词频;
f表示所述目标检索词q在所述文本集合中的文本d中的出现次数;
k、b表示预设的常量,其中,b≠0;
dl表示所述文本集合中的文本d的文本长度;
avgdl表示所述文本集合中的文本的平均文本长度。
7.根据权利要求5所述的方法,其特征在于,所述根据所述相似度参数和所述相关性参数,确定所述推荐文本,包括:
在所述目标检索词为多个时,将各个所述目标检索词与文本之间相关性参数之和确定为该文本对应的相关性参数;
针对所述文本集合中的每个文本,将该文本对应的相似度参数和该文本对应的相关性参数进行加权求和,确定该文本对应的推荐值;
基于所述文本集合中的每个文本对应的推荐值,确定所述推荐文本。
8.一种检索推荐装置,其特征在于,所述装置包括:
第一确定模块,用于将目标检索词的词向量输入至兴趣文本向量模型,确定与所述目标检索词对应的兴趣文本向量,其中,所述兴趣文本向量模型与输入所述目标检索词的用户相对应,并且,所述兴趣文本向量用于表征对所述目标检索词检索后所述用户期望得到的文本;
第二确定模块,用于分别确定所述兴趣文本向量与文本集合中的文本的文本向量之间的相似度参数;
第三确定模块,用于根据所述相似度参数,从所述文本集合中确定推荐文本,并输出所述推荐文本。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811585282.0A CN109783727A (zh) | 2018-12-24 | 2018-12-24 | 检索推荐方法、装置、计算机可读存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811585282.0A CN109783727A (zh) | 2018-12-24 | 2018-12-24 | 检索推荐方法、装置、计算机可读存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109783727A true CN109783727A (zh) | 2019-05-21 |
Family
ID=66498240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811585282.0A Pending CN109783727A (zh) | 2018-12-24 | 2018-12-24 | 检索推荐方法、装置、计算机可读存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109783727A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110275943A (zh) * | 2019-06-26 | 2019-09-24 | 南京中孚信息技术有限公司 | 文章推送方法及装置 |
CN110807149A (zh) * | 2019-10-11 | 2020-02-18 | 卓尔智联(武汉)研究院有限公司 | 检索方法、装置及存储介质 |
CN110866106A (zh) * | 2019-10-10 | 2020-03-06 | 重庆金融资产交易所有限责任公司 | 一种文本推荐方法及相关设备 |
CN111159563A (zh) * | 2019-12-31 | 2020-05-15 | 广州市百果园信息技术有限公司 | 用户兴趣点信息的确定方法、装置、设备及存储介质 |
CN111259118A (zh) * | 2020-05-06 | 2020-06-09 | 广东电网有限责任公司 | 一种文本数据检索方法及装置 |
CN111339335A (zh) * | 2020-03-06 | 2020-06-26 | Oppo广东移动通信有限公司 | 图像检索方法、装置、存储介质及电子设备 |
CN113505196A (zh) * | 2021-06-30 | 2021-10-15 | 和美(深圳)信息技术股份有限公司 | 基于词性的文本检索方法、装置、电子设备及存储介质 |
-
2018
- 2018-12-24 CN CN201811585282.0A patent/CN109783727A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110275943A (zh) * | 2019-06-26 | 2019-09-24 | 南京中孚信息技术有限公司 | 文章推送方法及装置 |
CN110866106A (zh) * | 2019-10-10 | 2020-03-06 | 重庆金融资产交易所有限责任公司 | 一种文本推荐方法及相关设备 |
CN110807149A (zh) * | 2019-10-11 | 2020-02-18 | 卓尔智联(武汉)研究院有限公司 | 检索方法、装置及存储介质 |
CN110807149B (zh) * | 2019-10-11 | 2023-07-14 | 卓尔智联(武汉)研究院有限公司 | 检索方法、装置及存储介质 |
CN111159563A (zh) * | 2019-12-31 | 2020-05-15 | 广州市百果园信息技术有限公司 | 用户兴趣点信息的确定方法、装置、设备及存储介质 |
CN111159563B (zh) * | 2019-12-31 | 2024-02-09 | 广州市百果园信息技术有限公司 | 用户兴趣点信息的确定方法、装置、设备及存储介质 |
CN111339335A (zh) * | 2020-03-06 | 2020-06-26 | Oppo广东移动通信有限公司 | 图像检索方法、装置、存储介质及电子设备 |
CN111259118A (zh) * | 2020-05-06 | 2020-06-09 | 广东电网有限责任公司 | 一种文本数据检索方法及装置 |
CN113505196A (zh) * | 2021-06-30 | 2021-10-15 | 和美(深圳)信息技术股份有限公司 | 基于词性的文本检索方法、装置、电子设备及存储介质 |
CN113505196B (zh) * | 2021-06-30 | 2024-01-30 | 和美(深圳)信息技术股份有限公司 | 基于词性的文本检索方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783727A (zh) | 检索推荐方法、装置、计算机可读存储介质及电子设备 | |
US20210279552A1 (en) | Method for making recommendations to a user and apparatus, computing device, and storage medium | |
CN107515909B (zh) | 一种视频推荐方法及系统 | |
CN109544306A (zh) | 一种基于用户行为序列特征的跨领域推荐方法及装置 | |
CN104462593B (zh) | 一种提供用户个性化资源消息推送的方法和装置 | |
CN108431833A (zh) | 端到端深度协作过滤 | |
CN104199896B (zh) | 基于特征分类的视频相似度确定及视频推荐方法 | |
CN107256267A (zh) | 查询方法和装置 | |
EP3617952A1 (en) | Information search method, apparatus and system | |
CN106462801A (zh) | 在分区训练数据上训练神经网络 | |
WO2021135562A1 (zh) | 特征有效性评估方法、装置、电子设备及存储介质 | |
CN108255921A (zh) | 确定并显示推荐内容的相关解释的系统 | |
CN103164463A (zh) | 推荐标签的方法和装置 | |
CN111882370B (zh) | 一种广告推荐方法、装置和电子设备 | |
US20160125028A1 (en) | Systems and methods for query rewriting | |
CN108920665A (zh) | 基于网络结构和评论文本的推荐评分方法及装置 | |
CN110428295A (zh) | 商品推荐方法和系统 | |
CN111159570B (zh) | 一种信息推荐方法及服务器 | |
CN112633973A (zh) | 一种商品推荐方法及其相关设备 | |
CN106294564A (zh) | 一种视频推荐方法及装置 | |
CN109063105A (zh) | 文件存储方法、装置、计算机设备和存储介质 | |
CN108875090A (zh) | 一种歌曲推荐方法、装置和存储介质 | |
US20160012338A1 (en) | Method for creating predictive knowledge structures from experience in an artificial agent | |
CN106528766A (zh) | 相似歌曲推荐方法及装置 | |
CN111552549A (zh) | 一种智能设备的多任务请求动态配置方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |