CN106326371A

CN106326371A - 服务推送方法及装置

Info

Publication number: CN106326371A
Application number: CN201610663640.XA
Authority: CN
Inventors: 陈永环
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2016-08-12
Filing date: 2016-08-12
Publication date: 2017-01-11

Abstract

本发明提供了一种服务推送方法及装置，其中的方法包括：收集用户在预置时间段内的视频相关信息和/或服务消费记录信息，从所述视频相关信息和/或服务消费记录信息中提取得到第一文本；获取用户所在地理位置相关的服务信息，从所述服务信息中提取得到第二文本；基于所述第一文本和第二文本，分别挖掘出所述第一文本的第一主题概率分布和所述第二文本的第二主题概率分布；计算所述第一主题概率分布中各主题和所述第二主题概率分布中各主题的相似度；选择相似度高于相似度阈值的主题集合，得到服务推荐列表。本发明可提供服务推荐的准确性。

Description

服务推送方法及装置

技术领域

本发明涉及互联网技术领域，特别是涉及一种服务推送方法及装置。

背景技术

早期的互联网内容主要以图片和文字为主，一些门户网站以这样内容作为载体，建立一系列互联网和本地生活类服务。

现有技术中，基于地理位置的生活服务推送方法包括：获取用户在互联网上点击的或购买的生活类服务等用户行为；根据这些用户行为建立预测模型；根据预测模型预测用户下次需要购买的生活类服务。

但是，由于互联网用户量很大，用户数据非常稀疏，如果根据这些稀疏的数据进行预测，预测结果往往不是很理想，有时甚至根本无法预测。

发明内容

为了提高服务推送的准确性，本发明实施例提供一种服务推送方法及装置。

一种服务推送方法，包括：收集用户在预置时间段内的视频相关信息和/或服务消费记录信息，从所述视频相关信息和/或服务消费记录信息中提取得到第一文本；获取用户所在地理位置相关的服务信息，从所述服务信息中提取得到第二文本；基于所述第一文本和第二文本，分别挖掘出所述第一文本的第一主题概率分布和所述第二文本的第二主题概率分布；计算所述第一主题概率分布中各主题和所述第二主题概率分布中各主题的相似度；选择相似度高于相似度阈值的主题集合，得到服务推荐列表。

优选的，所述基于所述第一文本和第二文本，分别挖掘出所述第一文本的第一主题概率分布和所述第二文本的第二主题概率分布，包括：对所述第一文本和所述第二文本分别进行切词处理，得到第一文档集和第二文档集；针对所述第一文档集和第二文档集分别进行特征词筛选；根据筛选出的特征词，采用主题聚类算法，分别计算得到所述第一文本的第一主题概率分布和所述第二文本的第二主题概率分布。

优选的，所述计算所述第一主题概率分布中各主题和所述第二主题概率分布中各主题的相似度，包括：通过计算所述第一主题概率分布和所述第二主题概率分布之间的相对熵，得到所述第一主题概率分布中各主题和所述第二主题概率分布中各主题的相似度。

优选的，在所述选择相似度高于相似度阈值的主题集合之后，还包括：针对所述主题集合各主题对应的服务，根据各服务的价格和/或与用户所在地理位置的距离，选择出所述服务推荐列表。

优选的，所述从所述视频相关信息和/或服务消费记录信息中提取得到第一文本，包括：从用户历史观看视频的名称、描述、标签、弹幕，和/或，评论信息中，提取得到所述第一文本。

优选的，所述获取用户所在地理位置相关的服务信息，从所述服务信息中提取得到第二文本，包括：从各类应用程序或门户网站，获取用户所在地理位置相关的旅游景点信息、餐饮信息、娱乐信息、美容信息、和/或，房产信息；从上述任一项或多项信息中提取得到所述第二文本。

一种服务推送装置，包括：第一文本生成单元，用于收集用户在预置时间段内的视频相关信息和/或服务消费记录信息，从所述视频相关信息和/或服务消费记录信息中提取得到第一文本；第二文本生成单元，用于获取用户所在地理位置相关的服务信息，从所述服务信息中提取得到第二文本；主题挖掘单元，用于基于所述第一文本和第二文本，分别挖掘出所述第一文本的第一主题概率分布和所述第二文本的第二主题概率分布；相似度计算单元，用于计算所述第一主题概率分布中各主题和所述第二主题概率分布中各主题的相似度；服务推送单元，用于选择相似度高于相似度阈值的主题集合，得到服务推荐列表。

优选的，所述主题挖掘单元包括：切词子单元，用于对所述第一文本和所述第二文本分别进行切词处理，得到第一文档集和第二文档集；特征词筛选子单元，用于针对所述第一文档集和第二文档集分别进行特征词筛选；以及，聚类执行子单元，用于根据筛选出的特征词，采用主题聚类算法，分别计算得到所述第一文本的第一主题概率分布和所述第二文本的第二主题概率分布。

优选的，所述相似度计算单元，通过计算所述第一主题概率分布和所述第二主题概率分布之间的相对熵，得到所述第一主题概率分布中各主题和所述第二主题概率分布中各主题的相似度。

优选的，还包括：综合优选单元，用于针对所述主题集合各主题对应的服务，根据各服务的价格和/或与用户所在地理位置的距离，选择出所述服务推荐列表。

优选的，所述第一文本生成单元，从用户历史观看视频的名称、描述、标签、弹幕，和/或，评论信息中，提取得到所述第一文本。

优选的，所述第二文本生成单元，从各类应用程序或门户网站，获取用户所在地理位置相关的旅游景点信息、餐饮信息、娱乐信息、美容信息、和/或，房产信息，从上述任一项或多项信息中提取得到所述第二文本。

本发明实施例中，通过获得视频相关信息和/或服务消费记录信息对应的第一文本，以及与用户所在地理位置相关服务信息对应的第二文本，并分别对第一文本第二文本进行主题挖掘，然后对二者主题进行相似度计算，选取相似度高的主题进行服务推荐。可见，本发明通过融合视频数据和基于位置的服务信息，实现多源数据的融合，即如何将视频观看记录和基于地理位置的生活服务相关联，从而通过二者的相似度，对用户的生活类服务进行预测和发现，从而为用户提供更精准的生活类服务的推送信息。

由于现有用户观看视频十分普遍，通过视频可以挖掘出用户感兴趣或潜在的生活类服务相关信息，通过获取视频信息，可以得到丰富的数据，可以据此数据得到更为准确的服务推送预测。

附图说明

图1是本发明一个实施例提供的一种服务推送方法流程图；

图2是本发明一个实施例提供的一种服务推送装置结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

随着互联网和视频技术的发展，互联网用户已经不再满足于图片和文字的内容，逐渐发展为视频门户化、门户视频化，通过挖掘互联网用户的视频观看记录，挖掘用户的偏好，从而实现观看视频发现用户喜好的生活服务，这是互联网公司以及用户的双向需求。另一方面，一般生活类服务都是和地理位置相关的，比如旅游、美食等线上线下O2O服务，因此需要融合视频数据和位置信息实现多源数据的融合，这也是本发明需要解决的一个技术问题，即如何将视频观看记录和基于地理位置的生活服务相关联，从而通过二者的相似度，对用户的生活类服务进行预测和发现，从而为用户提供更精准的生活类服务的推送信息。

参见图1，为本发明实施例提供的一种服务推送方法流程图，该方法包括以下步骤S101-S105。

S101：收集用户在预置时间段内的视频相关信息和/或服务消费记录信息，从视频相关信息和/或服务消费记录信息中提取得到第一文本。

其中，视频相关信息，是用户观看的视频的相关描述信息，包括但不限于视频的名称信息、标签信息、评论信息等。同理，服务消费记录信息，是用户在互联网进行服务消费的记录信息，所谓服务，是指用户通过各种生活类APP或专业电子商务平台消费的各类娱乐、餐饮、旅游、房产、健身等服务，服务消费记录信息，描述所消费的服务类型、消费额度、消费平台等信息。

例如，从用户历史观看视频的名称、描述、标签、弹幕，和/或，评论信息中，提取得到第一文本。其中，预置时间段是预先设定的，例如预先设定一年，因此就收集用户一年内的视频观看记录，即可根据用户一年内的视频观看记录提取出第一文本。

除了从视频观看记录提取第一文本之外，还可以通过用户一年内的服务消费记录提取第一文本。例如，收集得到用户一年内的娱乐(电影、演唱会等)、餐饮、旅游、房产、健身等各种生活类服务的消费记录，从而根据一年内的服务消费记录提取出第一文本。例如，目前用户使用智能手机上的各类APP(应用程序)或门户网站，进行生活类服务的消费和查看，是非常普遍的。例如，用户在手机上下载并安装某旅行类APP，在出行预定机票或酒店时，即可通过该APP进行查看和消费。对此，本发明可通过监听并获取该APP的数据，从而得到在该APP上的旅行相关服务的消费记录，其中，监听并获取APP数据的方式可采用现有方式，例如，通过连接该APP的访问接口，从而可以获取到该APP的数据。

优选的，还可以对视频信息或服务消费记录信息进行预处理，从而过滤掉无意义信息。

例如，首先进行数据预处理，过滤掉观看时长小于一定阈值的视频，具体的，可以根据用户观看视频的时长和该视频的总时长的比值，即视频时长观看比大于一定阈值时为有效视频，这样过滤了用户只是预览了该视频，但并不是真正喜好的视频。

再如，通过获取的购买生活类服务的点击日志以及付费服务的文本信息，点击数据根据用户在页面的停留时间，设定阈值进行过滤，目的是为了过滤用户的误点击。

然后，以单个视频ID或单次点击购买生活类服务文本信息做为元素，这样单个用户所有元素汇总后的数据作为一个集合，即第一文本。

S102：获取用户所在地理位置相关的服务信息，从服务信息中提取得到第二文本。

用户所在地理位置可以通过访问用户终端所在位置得到。例如，用户在使用手机时，通过询问用户是否允许获知当前位置来实现。

具体的，可以从各类应用程序或门户网站，获取用户所在地理位置相关的旅游景点信息、餐饮信息、娱乐信息、美容信息、和/或，房产信息；然后从上述任一项或多项信息中提取得到第二文本。

例如，获知用户所在地理位置是北京王府井，那么，可以通过旅行APP或生活服务团购类APP等平台，通过访问这些APP，获取到有关北京王府井的旅游、餐饮、娱乐等各方面的生活类服务信息，然后根据获取到的这些生活类服务信息提取得到第二文本。

S103：基于第一文本和第二文本，分别挖掘出第一文本的第一主题概率分布和第二文本的第二主题概率分布。

此步骤中，通过主题挖掘算法，可以对文本进行主题挖掘，得到主题概率分布。具体的，挖掘过程包括：对第一文本和第二文本分别进行切词处理，得到第一文档集和第二文档集；针对第一文档集和第二文档集分别进行特征词筛选；根据筛选出的特征词，采用主题聚类算法，分别计算得到第一文本的第一主题概率分布和第二文本的第二主题概率分布。

例如，可以采用LDA(Latent Dirichlet Allocation)主题挖掘算法进行主题挖掘。LDA构建了“文档->主题->分词”三层贝叶斯概率模型，对文本进行概率聚类，最终可以得到文档有几个主题、几个主题的占比、每个主题下分词占的比重有多少。LDA是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓文档主题生成模型，就是说，认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。LDA是一种非监督机器学习技术，可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag ofwords)的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

S104：计算第一主题概率分布中各主题和第二主题概率分布中各主题的相似度。

具体的，可以通过计算第一主题概率分布和第二主题概率分布之间的相对熵，得到第一文本的各主题和第二文本的各主题的相似度。

在概率论或信息论中，相对熵(relative entropy)又称KL散度(Kullback–Leibler divergence)，是描述两个概率分布差异的一种方法。其物理意义是：在相同事件空间里，概率分布P(x)的事件空间，若用概率分布Q(x)编码时，平均每个基本事件(符号)编码长度增加了多少比特。利用相对熵来判定两个主题相似性的方法是：将相对熵引入到主题概率分布中，认为相对熵是一个随机变量，用相对熵可以计算这两个随机变量的概率分布距离，如果两个主题服从相同参数的同一概率分布(即它们相似)，那么相对熵越小，以达到主题之间相似性的判定。各主题的之间的相对熵就可以通过各主题的相对熵之和来求得。

S105：选择相似度高于相似度阈值的主题集合，得到服务推荐列表。

通过第一文本的主题和第二文本的主题之间相似度的计算，选取相似度高于预先设定的相似度阈值的主题集合，作为后续服务推荐的基础。

优选的，还可以综合价格、距离等其他因素，标注出生活服务类列表。具体的，可以针对主题集合各主题对应的服务，根据各服务的价格和/或与用户所在地理位置的距离，选择出服务推荐列表，这有利于为用户提供更为符合实际需求的服务推送。

下面以一个具体实例，对本发明方案进行举例说明。

假设用户在北京中关村，则通过以下步骤实现本发明方案：

第1步：获取用户所在地理位置：北京中关村；

第2步：收集用户一年来的视频观看记录/生活类服务购买记录，比如，用户观看了视频的名称、描述、标签、弹幕、评论等文本信息，设为文本A；

第3步：收集地点为北京中关村的相关的服务，如旅游景点描述介绍评论文本、名胜古迹描述介绍评论文本、饭店描述介绍评论文本、商店描述介绍评论文本等的文本信息(可以在服务类APP或搜索引擎上获取)，设为文本B；

第4步：采用LDA算法分别提取用户观看视频相关文本A的主题，以及地理相关服务文本B的主题。

例如，生成的用户观看视频相关文本A的各主题及概率分布如下：

辣0.014833574529667149

美女0.009887005649717515

川菜0.009887005649717515

便宜0.009887005649717515

海鲜0.005178907721280603

夫妻0.005178907721280603

例如，生成的地理相关服务文本B的各主题及概率分布如下：

干煸土豆0.005178907721280603

传奇0.005178907721280603

麻辣0.005178907721280603

香锅0.005178907721280603

实惠0.009887005649717515

第5步：针对根据文本A提取到的主题(用户的偏好主题)和根据文本B提取到的主题(地理位置的偏好主题)，计算二者的相似度；

第6步：选择相似度高于相似度阈值的主题集合，再综合考虑价格、距离等其他因素，得到服务推荐列表。

本发明实施例中，通过获得视频相关信息和/或服务消费记录信息对应的第一文本，以及与用户所在地理位置相关服务信息的第二文本，并分布对第一文本第二文本进行主题挖掘，然后对二者主题进行相似度计算，选取相似度高的主题进行服务推荐。可见，本发明通过融合视频数据和基于位置的服务信息，实现多源数据的融合，即如何将视频观看记录和基于地理位置的生活服务相关联，从而通过二者的相似度，对用户的生活类服务进行预测和发现，从而为用户提供更精准的生活类服务的推送信息。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图2，是本发明实施例提供的一种服务推送装置结构示意图。该装置包括：

第一文本生成单元201，用于收集用户在预置时间段内的视频相关信息和/或服务消费记录信息，从所述视频相关信息和/或服务消费记录信息中提取得到第一文本；

除了从视频观看记录提取第一文本之外，还可以通过用户一年内的服务消费记录提取第一文本。例如，收集得到用户一年内的娱乐(电影、演唱会等)、餐饮、旅游、房产、健身等各种生活类服务的消费记录，从而根据一年内的服务消费记录提取出第一文本。例如，目前用户使用智能手机上的各类APP(应用程序)或门户网站，进行生活类服务的消费和查看，是非常普遍的。例如，用户在手机上下载并安装某旅行类APP，在出行预定机票或酒店时，即可通过该APP进行查看和消费。对此，本发明可通过监听并获取该APP的数据，从而得到在该APP上的旅行相关服务的消费记录。

然后，以单个视频ID或单次点击购买生活类服务文本信息做为元素，这样单个用户所有处理后的数据作为一个集合，即第一文本。

第二文本生成单元202，用于获取用户所在地理位置相关的服务信息，从所述服务信息中提取得到第二文本；

主题挖掘单元203，用于基于所述第一文本和第二文本，分别挖掘出所述第一文本的第一主题概率分布和所述第二文本的第二主题概率分布；

通过主题挖掘算法，可以对文本进行主题挖掘，得到主题概率分布。具体的，挖掘过程包括：对第一文本和第二文本分别进行切词处理，得到第一文档集和第二文档集；针对第一文档集和第二文档集分别进行特征词筛选；根据筛选出的特征词，采用主题聚类算法，分别计算得到第一文本的第一主题概率分布和第二文本的第二主题概率分布。因此，所述主题挖掘单元203包括：切词子单元2031，用于对所述第一文本和所述第二文本分别进行切词处理，得到第一文档集和第二文档集；特征词筛选子单元2032，用于针对所述第一文档集和第二文档集分别进行特征词筛选；以及，聚类执行子单元2033，用于根据筛选出的特征词，采用主题聚类算法，分别计算得到所述第一文本的第一主题概率分布和所述第二文本的第二主题概率分布。

例如，可以采用LDA(Latent Dirichlet Allocation)主题挖掘算法进行主题挖掘。LDA构建了“文档->主题->分词”三层贝叶斯概率模型，对文本进行概率聚类，最终可以得到文档有几个主题、几个主题的占比、每个主题下分词的占的比重有多少。LDA是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。LDA是一种非监督机器学习技术，可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag ofwords)的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

相似度计算单元204，用于计算所述第一主题概率分布中各主题和所述第二主题概率分布中各主题的相似度；

在概率论或信息论中，相对熵(relative entropy)又称KL散度(Kullback–Leibler divergence)，是描述两个概率分布差异的一种方法。

优选的，所述相似度计算单元204，通过计算所述第一主题概率分布和所述第二主题概率分布之间的相对熵，得到所述第一主题概率分布中各主题和所述第二主题概率分布中各主题的相似度。

服务推送单元205，用于选择相似度高于相似度阈值的主题集合，得到服务推荐列表。

优选的，该装置还包括：综合优选单元206，用于针对所述主题集合各主题对应的服务，根据各服务的价格和/或与用户所在地理位置的距离，选择出所述服务推荐列表。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种关系型数据库的调度方法及系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种服务推送方法，其特征在于，包括：

收集用户在预置时间段内的视频相关信息和/或服务消费记录信息，从所述视频相关信息和/或服务消费记录信息中提取得到第一文本；

获取用户所在地理位置相关的服务信息，从所述服务信息中提取得到第二文本；

基于所述第一文本和第二文本，分别挖掘出所述第一文本的第一主题概率分布和所述第二文本的第二主题概率分布；

计算所述第一主题概率分布中各主题和所述第二主题概率分布中各主题的相似度；

选择相似度高于相似度阈值的主题集合，得到服务推荐列表。

2.如权利要求1所述的方法，其特征在于，所述基于所述第一文本和第二文本，分别挖掘出所述第一文本的第一主题概率分布和所述第二文本的第二主题概率分布，包括：

对所述第一文本和所述第二文本分别进行切词处理，得到第一文档集和第二文档集；

针对所述第一文档集和第二文档集分别进行特征词筛选；

根据筛选出的特征词，采用主题聚类算法，分别计算得到所述第一文本的第一主题概率分布和所述第二文本的第二主题概率分布。

3.如权利要求1所述的方法，其特征在于，所述计算所述第一主题概率分布中各主题和所述第二主题概率分布中各主题的相似度，包括：

通过计算所述第一主题概率分布和所述第二主题概率分布之间的相对熵，得到所述第一主题概率分布中各主题和所述第二主题概率分布中各主题的相似度。

4.如权利1所述的方法，其特征在于，在所述选择相似度高于相似度阈值的主题集合之后，还包括：

针对所述主题集合各主题对应的服务，根据各服务的价格和/或与用户所在地理位置的距离，选择出所述服务推荐列表。

5.如权利要求1-4任一项所述的方法，其特征在于，所述从所述视频相关信息和/或服务消费记录信息中提取得到第一文本，包括：

从用户历史观看视频的名称、描述、标签、弹幕，和/或，评论信息中，提取得到所述第一文本。

6.如权利1-4任一项所述的方法，其特征在于，所述获取用户所在地理位置相关的服务信息，从所述服务信息中提取得到第二文本，包括：

从各类应用程序或门户网站，获取用户所在地理位置相关的旅游景点信息、餐饮信息、娱乐信息、美容信息、和/或，房产信息；

从上述任一项或多项信息中提取得到所述第二文本。

7.一种服务推送装置，其特征在于，包括：

第一文本生成单元，用于收集用户在预置时间段内的视频相关信息和/或服务消费记录信息，从所述视频相关信息和/或服务消费记录信息中提取得到第一文本；

第二文本生成单元，用于获取用户所在地理位置相关的服务信息，从所述服务信息中提取得到第二文本；

主题挖掘单元，用于基于所述第一文本和第二文本，分别挖掘出所述第一文本的第一主题概率分布和所述第二文本的第二主题概率分布；

相似度计算单元，用于计算所述第一主题概率分布中各主题和所述第二主题概率分布中各主题的相似度；

服务推送单元，用于选择相似度高于相似度阈值的主题集合，得到服务推荐列表。

8.如权利要求7所述的装置，其特征在于，所述主题挖掘单元包括：

切词子单元，用于对所述第一文本和所述第二文本分别进行切词处理，得到第一文档集和第二文档集；

特征词筛选子单元，用于针对所述第一文档集和第二文档集分别进行特征词筛选；以及，

聚类执行子单元，用于根据筛选出的特征词，采用主题聚类算法，分别计算得到所述第一文本的第一主题概率分布和所述第二文本的第二主题概率分布。

9.如权利要求7所述的装置，其特征在于，所述相似度计算单元，通过计算所述第一主题概率分布和所述第二主题概率分布之间的相对熵，得到所述第一主题概率分布中各主题和所述第二主题概率分布中各主题的相似度。

10.如权利7所述的装置，其特征在于，还包括：

综合优选单元，用于针对所述主题集合各主题对应的服务，根据各服务的价格和/或与用户所在地理位置的距离，选择出所述服务推荐列表。

11.如权利要求7-10任一项所述的装置，其特征在于，所述第一文本生成单元，从用户历史观看视频的名称、描述、标签、弹幕，和/或，评论信息中，提取得到所述第一文本。

12.如权利要求7-10任一项所述的装置，其特征在于，所述第二文本生成单元，从各类应用程序或门户网站，获取用户所在地理位置相关的旅游景点信息、餐饮信息、娱乐信息、美容信息、和/或，房产信息，从上述任一项或多项信息中提取得到所述第二文本。