CN109871491A - 论坛帖子推荐方法、系统、设备及存储介质 - Google Patents
论坛帖子推荐方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN109871491A CN109871491A CN201910211376.XA CN201910211376A CN109871491A CN 109871491 A CN109871491 A CN 109871491A CN 201910211376 A CN201910211376 A CN 201910211376A CN 109871491 A CN109871491 A CN 109871491A
- Authority
- CN
- China
- Prior art keywords
- model
- forum
- user
- similarity
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明提供了一种论坛帖子推荐方法、系统、设备及存储介质,该方法包括:采集论坛中各个帖子的文本;计算所述帖子的文本中各个词的词向量;获取用户浏览的历史帖子记录;根据各个所述帖子的词向量,计算用户浏览的历史帖子与论坛中其他各个帖子的相似度;根据计算得到的相似度向用户推荐论坛帖子。通过采用本发明的方案,基于浅层双层神经网络模型实现推荐推荐与用户浏览的历史帖子相似度高的帖子,在文本相似度计算领域可以得到更好的效果,能够充分发掘用户喜好特征中的隐藏特性,更好地体现用户的喜好,从而提高用户满意度,进而提高用户点击通过率。
Description
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种论坛帖子推荐方法、系统、设备及存储介质。
背景技术
在司机论坛中,司机会把自己的一些意见、建议反馈出来,在反馈信息的同时,也可以通过PGC(Professional Generated Content,专业生成内容)产生一些高质量文章,解答司机运输、货运交接过程中的一些疑惑。在货物运输过程中,司机也会分享一些路途中的见闻、反馈自己对APP的一些观点等等。与此同时司机也会阅读论坛中的其他用户或者PGC的论坛帖子。为了提升司机的阅读效率,现有的论坛会分析司机的喜好,为司机推荐司机可能感兴趣的帖子来阅读。
现有的论坛推荐中,使用的技术往往是基于有监督的分类学习方法。现有技术大多通过主观性的从文章中提取特征,然后对所有文章进行multi label(多重标签)标记,然后基于此数据,进行有监督训练,最终得到训练结果。例如首先将论坛帖子中各个词的数据通过Naive Bayes(朴素贝叶斯)模型,计算给定类别的条件概率,最终通过生成式的方式得到最大可能类别。通过分析用户历史阅读记录,对用户阅读的文章进行排序,根据该用户对于某文章的喜爱程度,优先推荐同类别的文章。
然而,主观性的特征提取很难发现用户喜好中的隐藏特征;而且根据历史经验来看,朴素贝叶斯模型对于文本相似度性能并非太好;此外对于用户喜好文章列表,仅仅给出排序,无法量化喜好程度,推荐效果欠佳。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种论坛帖子推荐方法、系统、设备及存储介质,能够充分发掘用户喜好特征中的隐藏特性,更好地体现用户的喜好,从而提高用户满意度。
本发明实施例提供一种论坛帖子推荐方法,所述方法包括如下步骤:
采集论坛中各个帖子的文本;
计算所述帖子的文本中各个词的Word2Vec词向量;
获取用户浏览的历史帖子记录;
根据各个所述帖子的Word2Vec词向量,计算用户浏览的历史帖子与论坛中其他各个帖子的相似度;
根据计算得到的相似度向用户推荐论坛帖子。
可选地,所述采集论坛中各个帖子的文本之后,还包括采用jieba分词方法对各个帖子的文本进行分词的步骤。
可选地,所述计算所述帖子的文本中各个词的Word2Vec词向量,包括如下步骤:
计算所述帖子的文本中各个词的独热编码向量;
将所述各个词的独热编码向量输入至训练好的Word2Vec模型,得到各个词的Word2Vec词向量,得到各个帖子的Word2Vec词向量;
可选地,所述Word2Vec模型为Skip-gram模型,所述Skip-gram模型包括输入层、隐藏神经网络层和输出层,所述各个词的独热编码向量输入所述输入层,所述隐藏层对所述独热编码向量进行降维处理,所述输出层对所述隐藏神经网络层的输出进行Softmax回归,输出与各个词的独热编码向量维度相同的Word2Vec词向量。
可选地,所述计算所述帖子的文本中各个词的Word2Vec词向量之后,还包括如下步骤:
对所述帖子中各个词的词向量进行筛选,将符合预设筛选条件的词向量筛除。
可选地,所述计算用户浏览的历史帖子与论坛中其他各个帖子的相似度,包括如下步骤:
计算用户浏览的历史帖子中各个词与论坛中一帖子中各个词的相似度,并将计算得到的相似度结果取平均值,作为两个帖子的相似度。
可选地,采用余弦相似度计算方法或欧氏距离计算方法计算用户浏览的历史帖子中各个词与论坛中一帖子中各个词的相似度。
可选地,所述根据计算得到的相似度向用户推荐论坛帖子,包括如下步骤:
判断一论坛帖子与用户浏览的历史帖子的相似度是否大于预设相似度阈值;
如果是,则将该论坛帖子作为推荐的论坛帖子。
可选地,所述论坛帖子推荐方法还包括如下步骤:
获取用户对于每次推荐的论坛帖子的点击数据;
计算用户实际点击的推荐帖子与推荐的论坛帖子的数量比值;
判断所述数量比值是否处于预设比值范围内;
如果所述数量比值大于所述预设比值范围的上限值,则调低所述预设相似度阈值;
如果所述数量比值小于所述预设比值范围的下限值,则调高所述预设相似度阈值。
本发明实施例还提供一种论坛帖子推荐系统,应用于所述的论坛帖子推荐方法,所述系统包括:
文本采集模块,用于采集论坛中各个帖子的文本;
词向量计算模块,用于计算所述帖子的文本中各个词的Word2Vec词向量;
用户记录获取模块,用于获取用户浏览的历史帖子记录;
相似度计算模块,用于根据各个所述帖子的Word2Vec词向量,计算用户浏览的历史帖子与论坛中其他各个帖子的相似度;
帖子推荐模块,用于根据计算得到的相似度向用户推荐论坛帖子。
本发明实施例还提供一种论坛帖子推荐设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的论坛帖子推荐方法的步骤。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的论坛帖子推荐方法的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
本发明所提供的论坛帖子推荐方法、系统、设备及存储介质具有下列优点:
本发明解决了现有技术中的问题,基于浅层双层神经网络Word2Vec模型实现推荐与用户浏览的历史帖子相似度高的帖子,在文本相似度计算领域可以得到更好的效果,能够充分发掘用户喜好特征中的隐藏特性,更好地体现用户的喜好,从而提高用户满意度,进而提高用户点击通过率,不仅可以应用于货运物流的特定场景下司机论坛帖子的推荐,也可以应用于其他场景的论坛中的相似帖子推荐。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明一实施例的论坛帖子推荐方法的流程图;
图2是本发明一实施例的Skip-gram模型的示意图;
图3是本发明根据反馈数据调整相似度阈值的流程图;
图4是本发明一实施例的论坛帖子推荐系统的结构示意图;
图5是本发明一实施例的论坛帖子推荐设备的示意图;
图6是本发明一实施例的计算机可读存储介质的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
如图1所示,本发明实施例提供一种论坛帖子推荐方法,所述方法包括如下步骤:
S100:采集论坛中各个帖子的文本;
S200:计算所述帖子的文本中各个词的Word2Vec词向量;
S300:获取用户浏览的历史帖子记录;
S400:根据各个所述帖子的Word2Vec词向量,计算用户浏览的历史帖子与论坛中其他各个帖子的相似度;
S500:根据计算得到的相似度向用户推荐论坛帖子。
此处,各个步骤的编号仅为区分各个步骤,而不表示各个步骤的顺序。步骤S100和步骤S200可以是根据设定的时间间隔定期执行的,例如每隔1小时统计这1小时内新生成的帖子,计算其中的Word2Vec词向量,也可以是每隔4小时统计这4小时内新生成的帖子,计算其中的Word2Vec词向量等等。而步骤S300到步骤S500则可以是由用户的浏览行为触发的,当用户浏览新的帖子或者用户浏览一段时间后,统计用户新发生的浏览帖子的记录,根据用户的浏览记录为用户推荐相似度高的帖子,也即用户可能感兴趣的帖子。
本发明通过步骤S200,基于浅层双层神经网络Word2Vec模型计算各个帖子中文本的词向量,在文本相似度计算领域可以得到更好的效果,能够充分发掘用户喜好特征中的隐藏特性,更好地体现用户的喜好。通过步骤S400根据Word2Vec词向量计算每两个帖子的相似度,通过步骤S500根据相似度推荐帖子,即推荐相似度高的帖子。在用户浏览论坛时,在帖子详情页中,通过推荐高相关度的用户感兴趣的帖子,从而可以提高用户的点击通过率,提升整体的论坛活跃度。
Word2vec是Google开源的一款用于词向量计算的工具。Word2vec可以在数据集上进行高效地训练,还可以得到训练结果:词向量(word embedding),可以很好地度量词与词之间的相似性。Word2Vec通过学习文本来用词向量的方式表征词的语义信息,即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Embedding其实就是一个映射,将单词从原先所属的空间映射到新的多维空间中,也就是把原先词所在空间嵌入到一个新的空间中去。
在该实施例中,所述采集论坛中各个帖子的文本之后,还包括如下步骤:
对采集到的帖子的文本进行格式化整理,去除所有特殊符号、图像等信息;由于获取的原始帖子数据时用户生产的,里面可能存在一些表情符号、重复句号等,这些信息对于算法模型没有太大意义,可以直接去除。此外,图片信息对于文本内容影响也不大,且识别的工作量十分庞大,也可以先予去除。
在对帖子文本进行格式化整理之后,采用jieba分词方法对各个帖子的文本进行分词。jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环,再采用了动态规划查找最大概率路径,找出基于词频的最大切分组合。
在该实施例中,所述计算所述帖子的文本中各个词的Word2Vec词向量,包括如下步骤:
计算所述帖子的文本中各个词的独热编码(One-Hot Encoding)向量;
将所述各个词的独热编码向量输入至训练好的Word2Vec模型,得到各个词的Word2Vec词向量,得到各个帖子的Word2Vec词向量。
在将各个词转换为独热编码向量时,可以先采用预先创建的词库构建词汇表,根据词汇表将各个词转换为独热编码向量。词库里可以包括与各个论坛的类型相关度比较大的词,例如,应用于司机论坛时,里面会包括很多关于交通、车辆、出行相关的词汇。
如图2所示,在该实施例中,所述Word2Vec模型为Skip-gram模型。Skip-Gram是给定输入词来预测上下文。所述Skip-gram模型包括输入层、隐藏层和输出层,隐藏层为隐藏神经网络层,所述各个词的独热编码向量输入所述输入层,所述输出层对所述隐藏神经网络层的输出进行Softmax回归,输出与各个词的独热编码向量维度相同的Word2Vec词向量。所述隐藏层对所述独热编码向量进行降维处理,隐藏神经网络层可以采用T-SNE等方法对独热编码向量进行降维处理,T-SNE的主要目的是高维数据的可视化。在隐藏层中对向量进行降维处理可以降低神经网络处理向量的工作量,提高处理效率。
在训练所述Skip-gram模型时,可以预先提取一些已知Word2Vec词向量的词的独热编码向量作为训练集进行无监督的迭代训练。迭代时,对损失函数进行梯度下降算法计算。梯度下降是迭代法的一种,可以用于求解最小二乘问题。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一。
在该实施例中,所述计算所述帖子的文本中各个词的Word2Vec词向量之后,还包括如下步骤:
对所述帖子中各个词的词向量进行筛选,将符合预设筛选条件的词向量筛除。例如,将所述帖子中“的”“和”“或”这样的连词或者“啊”“哈”这样的语气词等与实际帖子内容相关度不大的词的词向量筛除。筛选条件可以是具体需要被筛除的词的词向量,如果所述帖子中一个词与需要被筛除的词的词向量相同,则将该词的词向量删除。
通过对所述帖子中各个词的词向量进行一个预先的筛选,可以减少后续计算两个帖子相似度时的计算量,提高相似度计算速度,减少相似度计算造成的系统负担。
在该实施例中,所述计算用户浏览的历史帖子与论坛中其他各个帖子的相似度,包括如下步骤:
计算用户浏览的历史帖子中各个词与论坛中一帖子中各个词的相似度,并将计算得到的相似度结果取平均值,作为两个帖子的相似度。
在该实施例中,采用余弦相似度计算方法或欧氏距离计算方法计算用户浏览的历史帖子中各个词与论坛中一帖子中各个词的相似度。余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。欧氏距离是一个通常采用的距离定义,指在空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。采用余弦相似度计算方法时,表征两个词向量的相似度的特征即为两个词向量的夹角余弦值。采用欧氏距离时,表征两个词向量的相似度的特征即为两个词向量的距离值。在计算一个有m个词的帖子和另一个有n个词的帖子的相似度时,m个词和n个词分别计算相似度,即得到m*n个相似度值,然后取m*n个相似度值的平均值即该有m个词的帖子和另一个有n个词的帖子的相似度值。
本发明通过此种计算相似度的方式,只需要计算实际存在的词之间的相似度,而不需要考虑词库中未包含在该两个帖子中的词的词向量,减小了相似度计算的工作量,提高了相似度计算的速度。
在该实施例中,所述根据计算得到的相似度向用户推荐论坛帖子,包括如下步骤:
判断一论坛帖子与用户浏览的历史帖子的相似度是否大于预设相似度阈值θ;
如果是,则将该论坛帖子作为推荐的论坛帖子。
在实际应用中,用户每点开一个帖子,可以将用户浏览的该帖子与论坛中所有其他帖子进行相似度比较,然后将相似度大于预设相似度阈值θ的帖子定义为用户浏览帖子的相似帖子,加入相似帖子推荐列表中,为用户优先推荐。在其他可选的实施方式中,也可以根据相似度值进行排序,取前x个帖子加入相似帖子推荐列表中,x的数量可以根据需要设置,例如对于每个浏览历史帖子推荐10个相似帖子,推荐50个相似帖子等等。
如图3所示,在该实施例中,所述论坛帖子推荐方法还可以根据后期用户的实际点击反馈来调节预设相似度阈值θ,进一步优化算法。具体地,所述论坛帖子推荐方法还包括如下步骤:
S610:获取用户对于每次推荐的论坛帖子的点击数据;
S620:计算用户实际点击的推荐帖子与推荐的论坛帖子的数量比值,此处可以是一定时间内的统计量,例如在1天之内用户点击的推荐帖子的总数和这1天之内给用户推荐的论坛帖子的总数;
S630:判断所述数量比值是否处于预设比值范围内;
S640:如果所述数量比值大于所述预设比值范围的上限值,则说明推荐的帖子数量可能比较少,并不能满足用户的需求,则调低所述预设相似度阈值,提高推荐的帖子的数量;
S650:如果所述数量比值小于所述预设比值范围的下限值,则说明推荐的帖子数量偏多,用户并不需要这么多的推荐,则调高所述预设相似度阈值,降低推荐的帖子的数量;
S660:如果所述数量比值处于所述预设比值范围内,则保持所述预设相似度阈值不变。
例如,为用户推荐了100个帖子,而设置预设比值范围在30%~70%,如果用户在一定时间内只点击了20个帖子,则预设相似度阈值相应调高一些,下次再推荐时可能只会推荐50个帖子,如果用户在一定时间内点击了85个帖子,则预设相似度阈值相应调低一些,下次再推荐时可能可以推荐120个。
如图4所示,本发明实施例还提供一种论坛帖子推荐系统,应用于所述的论坛帖子推荐方法,所述系统包括:
文本采集模块M100,用于采集论坛中各个帖子的文本;
词向量计算模块M200,用于计算所述帖子的文本中各个词的Word2Vec词向量;
用户记录获取模块M300,用于获取用户浏览的历史帖子记录;
相似度计算模块M400,用于根据各个所述帖子的Word2Vec词向量,计算用户浏览的历史帖子与论坛中其他各个帖子的相似度;
帖子推荐模块M500,用于根据计算得到的相似度向用户推荐论坛帖子。
本发明通过词向量计算模块M200,基于浅层双层神经网络Word2Vec模型计算各个帖子中文本的词向量,在文本相似度计算领域可以得到更好的效果,能够充分发掘用户喜好特征中的隐藏特性,更好地体现用户的喜好。通过相似度计算模块M400根据Word2Vec词向量计算每两个帖子的相似度,通过帖子推荐模块M500根据相似度推荐帖子,即推荐相似度高的帖子。在用户浏览论坛时,在帖子详情页中,通过推荐高相关度的用户感兴趣的帖子,从而可以提高用户的点击通过率,提升整体的论坛活跃度。
本发明的论坛帖子推荐系统中的各个功能模块的功能可以采用上述论坛帖子推荐方法中各个步骤的实施方式来实现。例如,词向量计算模块M200可以采用上述步骤S200的具体实施方式,先对文本进行格式化处理,再生成独热编码向量,然后输入到训练好的Skip-gram模型中,生成各个词的Word2Vec词向量。相似度计算模块M400可以采用上述步骤S400的具体实施方式,帖子推荐模块M500可以采用上述步骤S500的具体实施方式,即选择相似度最高的一个或多个帖子加入相似帖子推荐列表,优先推荐给用户,进而提高用户的点击通过率。
本发明实施例还提供一种论坛帖子推荐设备,包括处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的论坛帖子推荐方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
下面参照图5来描述根据本发明的这种实施方式的电子设备600。图5显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备600以通用计算设备的形式表现。电子设备600的组合可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组合(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的论坛帖子推荐方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,与现有技术相比,本发明所提供的论坛帖子推荐方法、系统、设备及存储介质具有下列优点:
本发明解决了现有技术中的问题,基于浅层双层神经网络Word2Vec模型实现推荐与用户浏览的历史帖子相似度高的帖子,在文本相似度计算领域可以得到更好的效果,能够充分发掘用户喜好特征中的隐藏特性,更好地体现用户的喜好,从而提高用户满意度,进而提高用户点击通过率,不仅可以应用于货运物流的特定场景下司机论坛帖子的推荐,也可以应用于其他场景的论坛中的相似帖子推荐。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (12)
1.一种论坛帖子推荐方法,其特征在于,包括如下步骤:
采集论坛中各个帖子的文本;
计算所述帖子的文本中各个词的Word2Vec词向量;
获取用户浏览的历史帖子记录;
根据各个所述帖子的Word2Vec词向量,计算用户浏览的历史帖子与论坛中其他各个帖子的相似度;
根据计算得到的相似度向用户推荐论坛帖子。
2.根据权利要求1所述的论坛帖子推荐方法,其特征在于,所述采集论坛中各个帖子的文本之后,还包括采用jieba分词方法对各个帖子的文本进行分词的步骤。
3.根据权利要求1所述的论坛帖子推荐方法,其特征在于,所述计算所述帖子的文本中各个词的Word2Vec词向量,包括如下步骤:
计算所述帖子的文本中各个词的独热编码向量;
将所述各个词的独热编码向量输入至训练好的Word2Vec模型,得到各个词的Word2Vec词向量,得到各个帖子的Word2Vec词向量;
4.根据权利要求3所述的论坛帖子推荐方法,其特征在于,所述Word2Vec模型为Skip-gram模型,所述Skip-gram模型包括输入层、隐藏神经网络层和输出层,所述各个词的独热编码向量输入所述输入层,所述隐藏层对所述独热编码向量进行降维处理,所述输出层对所述隐藏神经网络层的输出进行Softmax回归,输出与各个词的独热编码向量维度相同的Word2Vec词向量。
5.根据权利要求1所述的论坛帖子推荐方法,其特征在于,所述计算所述帖子的文本中各个词的Word2Vec词向量之后,还包括如下步骤:
对所述帖子中各个词的词向量进行筛选,将符合预设筛选条件的词向量筛除。
6.根据权利要求1所述的论坛帖子推荐方法,其特征在于,所述计算用户浏览的历史帖子与论坛中其他各个帖子的相似度,包括如下步骤:
计算用户浏览的历史帖子中各个词与论坛中一帖子中各个词的相似度,并将计算得到的相似度结果取平均值,作为两个帖子的相似度。
7.根据权利要求6所述的论坛帖子推荐方法,其特征在于,采用余弦相似度计算方法或欧氏距离计算方法计算用户浏览的历史帖子中各个词与论坛中一帖子中各个词的相似度。
8.根据权利要求1所述的论坛帖子推荐方法,其特征在于,所述根据计算得到的相似度向用户推荐论坛帖子,包括如下步骤:
判断一论坛帖子与用户浏览的历史帖子的相似度是否大于预设相似度阈值;
如果是,则将该论坛帖子作为推荐的论坛帖子。
9.根据权利要求1所述的论坛帖子推荐方法,其特征在于,还包括如下步骤:
获取用户对于每次推荐的论坛帖子的点击数据;
计算用户实际点击的推荐帖子与推荐的论坛帖子的数量比值;
判断所述数量比值是否处于预设比值范围内;
如果所述数量比值大于所述预设比值范围的上限值,则调低所述预设相似度阈值;
如果所述数量比值小于所述预设比值范围的下限值,则调高所述预设相似度阈值。
10.一种论坛帖子推荐系统,其特征在于,应用于权利要求1至9中任一项所述的论坛帖子推荐方法,所述系统包括:
文本采集模块,用于采集论坛中各个帖子的文本;
词向量计算模块,用于计算所述帖子的文本中各个词的Word2Vec词向量;
用户记录获取模块,用于获取用户浏览的历史帖子记录;
相似度计算模块,用于根据各个所述帖子的Word2Vec词向量,计算用户浏览的历史帖子与论坛中其他各个帖子的相似度;
帖子推荐模块,用于根据计算得到的相似度向用户推荐论坛帖子。
11.一种论坛帖子推荐设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至9中任一项所述的论坛帖子推荐方法的步骤。
12.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求1至9中任一项所述的论坛帖子推荐方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910211376.XA CN109871491A (zh) | 2019-03-20 | 2019-03-20 | 论坛帖子推荐方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910211376.XA CN109871491A (zh) | 2019-03-20 | 2019-03-20 | 论坛帖子推荐方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109871491A true CN109871491A (zh) | 2019-06-11 |
Family
ID=66920818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910211376.XA Pending CN109871491A (zh) | 2019-03-20 | 2019-03-20 | 论坛帖子推荐方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109871491A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297987A (zh) * | 2019-07-02 | 2019-10-01 | 武汉斗鱼网络科技有限公司 | 一种帖子推荐方法、装置、设备和存储介质 |
CN110782287A (zh) * | 2019-10-25 | 2020-02-11 | 北京沃东天骏信息技术有限公司 | 实体相似度计算方法及装置、物品推荐系统、介质、设备 |
CN110866095A (zh) * | 2019-10-10 | 2020-03-06 | 重庆金融资产交易所有限责任公司 | 一种文本相似度的确定方法及相关设备 |
CN110941951A (zh) * | 2019-10-15 | 2020-03-31 | 平安科技(深圳)有限公司 | 文本相似度计算方法、装置、介质及电子设备 |
CN111209386A (zh) * | 2020-01-07 | 2020-05-29 | 重庆邮电大学 | 一种基于深度学习的个性化文本推荐方法 |
CN111428138A (zh) * | 2020-03-26 | 2020-07-17 | 中国建设银行股份有限公司 | 一种课程推荐方法、系统、设备及存储介质 |
CN111782964A (zh) * | 2020-06-23 | 2020-10-16 | 北京智能工场科技有限公司 | 一种社区帖子的推荐方法 |
CN111966784A (zh) * | 2020-07-14 | 2020-11-20 | 深圳中泓在线股份有限公司 | 信息推荐方法、电子设备及存储介质 |
CN112307312A (zh) * | 2019-07-30 | 2021-02-02 | 北京三好互动教育科技有限公司 | 一种文章推荐方法和装置 |
CN112579535A (zh) * | 2019-09-30 | 2021-03-30 | 北京国双科技有限公司 | 一种文件匹配方法、装置、电子设备及存储介质 |
CN112650934A (zh) * | 2021-01-18 | 2021-04-13 | 北京小川在线网络技术有限公司 | 一种基于用户高度参与的内容上推方法及其电子设备 |
CN114398558A (zh) * | 2022-01-19 | 2022-04-26 | 北京百度网讯科技有限公司 | 信息推荐方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714084A (zh) * | 2012-10-08 | 2014-04-09 | 腾讯科技(深圳)有限公司 | 推荐信息的方法和装置 |
KR20180121069A (ko) * | 2017-04-28 | 2018-11-07 | 이화여자대학교 산학협력단 | 외상 후 스트레스 장애를 관리하기 위한 음악 컨텐츠 제공 방법 및 음악 컨텐츠 생성 방법 |
CN109063147A (zh) * | 2018-08-06 | 2018-12-21 | 北京航空航天大学 | 基于文本相似度的在线课程论坛内容推荐方法及系统 |
-
2019
- 2019-03-20 CN CN201910211376.XA patent/CN109871491A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714084A (zh) * | 2012-10-08 | 2014-04-09 | 腾讯科技(深圳)有限公司 | 推荐信息的方法和装置 |
KR20180121069A (ko) * | 2017-04-28 | 2018-11-07 | 이화여자대학교 산학협력단 | 외상 후 스트레스 장애를 관리하기 위한 음악 컨텐츠 제공 방법 및 음악 컨텐츠 생성 방법 |
CN109063147A (zh) * | 2018-08-06 | 2018-12-21 | 北京航空航天大学 | 基于文本相似度的在线课程论坛内容推荐方法及系统 |
Non-Patent Citations (2)
Title |
---|
胡昌平 等: "《信息服务与用户 第四版》", 30 November 2015, 武汉大学出版社 * |
高尚: "《分布估计算法及应用》", 31 March 2016, 国防工业出版社 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297987A (zh) * | 2019-07-02 | 2019-10-01 | 武汉斗鱼网络科技有限公司 | 一种帖子推荐方法、装置、设备和存储介质 |
CN112307312A (zh) * | 2019-07-30 | 2021-02-02 | 北京三好互动教育科技有限公司 | 一种文章推荐方法和装置 |
CN112579535A (zh) * | 2019-09-30 | 2021-03-30 | 北京国双科技有限公司 | 一种文件匹配方法、装置、电子设备及存储介质 |
CN110866095A (zh) * | 2019-10-10 | 2020-03-06 | 重庆金融资产交易所有限责任公司 | 一种文本相似度的确定方法及相关设备 |
CN110941951A (zh) * | 2019-10-15 | 2020-03-31 | 平安科技(深圳)有限公司 | 文本相似度计算方法、装置、介质及电子设备 |
CN110782287A (zh) * | 2019-10-25 | 2020-02-11 | 北京沃东天骏信息技术有限公司 | 实体相似度计算方法及装置、物品推荐系统、介质、设备 |
CN111209386A (zh) * | 2020-01-07 | 2020-05-29 | 重庆邮电大学 | 一种基于深度学习的个性化文本推荐方法 |
CN111209386B (zh) * | 2020-01-07 | 2022-04-12 | 重庆邮电大学 | 一种基于深度学习的个性化文本推荐方法 |
CN111428138A (zh) * | 2020-03-26 | 2020-07-17 | 中国建设银行股份有限公司 | 一种课程推荐方法、系统、设备及存储介质 |
CN111782964A (zh) * | 2020-06-23 | 2020-10-16 | 北京智能工场科技有限公司 | 一种社区帖子的推荐方法 |
CN111782964B (zh) * | 2020-06-23 | 2024-02-09 | 北京智能工场科技有限公司 | 一种社区帖子的推荐方法 |
CN111966784A (zh) * | 2020-07-14 | 2020-11-20 | 深圳中泓在线股份有限公司 | 信息推荐方法、电子设备及存储介质 |
CN112650934A (zh) * | 2021-01-18 | 2021-04-13 | 北京小川在线网络技术有限公司 | 一种基于用户高度参与的内容上推方法及其电子设备 |
CN114398558A (zh) * | 2022-01-19 | 2022-04-26 | 北京百度网讯科技有限公司 | 信息推荐方法、装置、电子设备和存储介质 |
CN114398558B (zh) * | 2022-01-19 | 2023-05-23 | 北京百度网讯科技有限公司 | 信息推荐方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109871491A (zh) | 论坛帖子推荐方法、系统、设备及存储介质 | |
JP7206288B2 (ja) | 音楽推薦方法、装置、コンピューティング機器及び媒体 | |
AU2018383346B2 (en) | Domain-specific natural language understanding of customer intent in self-help | |
Styawati et al. | Sentiment analysis on online transportation reviews using Word2Vec text embedding model feature extraction and support vector machine (SVM) algorithm | |
US11403532B2 (en) | Method and system for finding a solution to a provided problem by selecting a winner in evolutionary optimization of a genetic algorithm | |
US11782928B2 (en) | Computerized information extraction from tables | |
US11429405B2 (en) | Method and apparatus for providing personalized self-help experience | |
JP2019505936A (ja) | 人工ニューラルネットワークを使用したウェブインタフェースの生成及びテスト | |
US20140280238A1 (en) | Systems and methods for classifying electronic information using advanced active learning techniques | |
Margaris et al. | What makes a review a reliable rating in recommender systems? | |
US20130268457A1 (en) | System and Method for Extracting Aspect-Based Ratings from Product and Service Reviews | |
EP2827294A1 (en) | Systems and method for determining influence of entities with respect to contexts | |
US8825641B2 (en) | Measuring duplication in search results | |
CN112507153B (zh) | 用于图像检索的方法、计算设备和计算机存储介质 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
Lyu et al. | Weighted multi-information constrained matrix factorization for personalized travel location recommendation based on geo-tagged photos | |
CN111966886A (zh) | 对象推荐方法、对象推荐装置、电子设备及存储介质 | |
CN111429161B (zh) | 特征提取方法、特征提取装置、存储介质及电子设备 | |
Liu et al. | Multi-perspective User2Vec: Exploiting re-pin activity for user representation learning in content curation social network | |
CN114240552A (zh) | 基于深度聚类算法的产品推荐方法、装置、设备及介质 | |
CN110264277B (zh) | 由计算设备执行的数据处理方法及装置、介质和计算设备 | |
Maurya et al. | Deceptive opinion spam detection approaches: a literature survey | |
Guan et al. | Learning social regularized user representation in recommender system | |
CN112784157A (zh) | 行为预测模型的训练方法、行为预测方法及装置、设备 | |
US20230153335A1 (en) | Searchable data structure for electronic documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190611 |