CN108154390A

CN108154390A - 广告博文的投放方法及装置、存储介质和计算设备

Info

Publication number: CN108154390A
Application number: CN201711379722.2A
Authority: CN
Inventors: 王欣; 李铁牛; 严明; 滕幻
Original assignee: Weimeng Chuangke Network Technology China Co Ltd
Current assignee: Weimeng Chuangke Network Technology China Co Ltd
Priority date: 2017-12-20
Filing date: 2017-12-20
Publication date: 2018-06-12
Anticipated expiration: 2037-12-20
Also published as: CN108154390B

Abstract

一种广告博文的投放方法及装置、存储介质和计算设备，该方法包括：计算已曝光的广告博文之间的相似度，得到第一相似集合，其包括每条已曝光的广告博文分别对应的相似度大于预设阈值的其他已曝光的广告博文；当有新的广告博文上线时，计算新上线的广告博文与每条已曝光的广告博文之间的相似度，得到第二相似集合，其包括新上线的广告博文对应的相似度大于预设阈值的已曝光的广告博文；当需要向用户投放候选广告博文时，根据用户已浏览的广告博文、第一相似集合和第二相似集合，判断是否滤除候选广告博文，并将未滤除的各候选广告博文向用户进行投放。本申请在广告投放流程中增加了博文相似度计算，广告投放实时过滤相似博文，可提升用户体验。

Description

广告博文的投放方法及装置、存储介质和计算设备

技术领域

本发明涉及互联网在线广告的广告投放系统，具体涉及一种广告博文的投放方法及装置、存储介质和计算设备。

背景技术

目前微博广告投放时只针对同一博文ID(博文ID指一条微博博文的唯一标识，一个博文ID和其博文内容一一对应)的频次做了限制，即如果某个用户已经看过某个广告博文，则下次广告投放时，就不会再向这个用户投放相同博文ID的广告。但是如果两个博文的ID不同，但是内容相似或相同，广告投放系统则无法识别，仍然会向用户进行投放。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

用户如果在浏览微博的时候，一次看到两条内容十分相似甚至完全相同的广告博文，肯定会严重影响用户的使用体验。

发明内容

本发明实施例提供一种广告博文的投放方法及装置、存储介质和计算设备，以减少内容相似广告投放，以减小相似广告对同一用户的反复投放，提升用户体验。

一方面，本发明实施例提供了一种广告博文的投放方法，其包括：

计算已曝光的广告博文之间的相似度，得到第一相似集合，所述第一相似集合中包括每条已曝光的广告博文分别对应的相似度大于预设阈值的其他已曝光的广告博文；

当有新的广告博文上线时，计算新上线的广告博文与每条已曝光的广告博文之间的相似度，得到第二相似集合，所述第二相似集合中包括新上线的广告博文对应的相似度大于预设阈值的已曝光的广告博文；

当需要向用户投放候选广告博文时，针对每条候选广告博文，根据所述用户已浏览的广告博文、所述第一相似集合和所述第二相似集合，判断是否滤除该候选广告博文；并将未滤除的各候选广告博文向用户进行投放。

另一方面，本发明实施例提供了一种广告博文的投放装置，其包括：

离线相似度计算模块，用于计算已曝光的广告博文之间的相似度，得到第一相似集合，所述第一相似集合中包括每条已曝光的广告博文分别对应的相似度大于预设阈值的其他已曝光的广告博文；

在线相似度计算模块，用于当有新的广告博文上线时，计算新上线的广告博文与每条已曝光的广告博文之间的相似度，得到第二相似集合，所述第二相似集合中包括新上线的广告博文对应的相似度大于预设阈值的已曝光的广告博文；

广告投放过滤模块，用于当需要向用户投放候选广告博文时，针对每条候选广告博文，根据所述用户已浏览的广告博文、所述第一相似集合和所述第二相似集合，判断是否滤除该候选广告博文；并将未滤除的各候选广告博文向用户进行投放。

此外，本申请还提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被执行时实现上述广告博文的投放方法。

以及，一种计算设备，其包括处理器和存储器，该存储器上具有计算机程序，所述处理器加载并执行所述计算机程序以实现上述广告博文的投放方法。

上述技术方案具有如下有益效果：本发明的实施例提出了一套技术方案，利用LSI算法识别相似博文，并通知给广告投放系统。广告投放系统在广告投放时，如果发现要投放的广告和用户之前看到过的广告是相似的，则不再向这个用户投放此广告而是改换其他广告进行投放，以提升用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的实施例的一种广告博文的投放装置的逻辑功能框图；

图2是本发明的实施例的一种广告博文的投放装置的详细功能框图；

图3是本发明的实施例的广告博文的投放装置的详细工作流程图；

图4是本发明的实施例的作为举例的相似度矩阵的示意图；

图5是本发明的实施例的广告博文的投放方法的总体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图1所示，本发明实施例的减少内容相似广告投放的装置包括：离线相似度计算模块100、在线相似度计算模块200和广告投放过滤模块300。

离线相似度计算模块100，用于计算已曝光的广告博文之间的相似度，得到第一相似集合，所述第一相似集合中包括每条已曝光的广告博文分别对应的相似度大于预设阈值的其他已曝光的广告博文。

在线相似度计算模块200，用于当有新的广告博文上线时，计算新上线的广告博文与每条已曝光的广告博文之间的相似度，得到第二相似集合，所述第二相似集合中包括新上线的广告博文对应的相似度大于预设阈值的已曝光的广告博文；新上线的博文是指广告主最新生成的广告博文，还未向用户投放。比如广告主通过微博提供的接口，新生成了一条圣诞节促销的广告，准备当天晚上投放。

广告投放过滤模块300，用于当需要向用户投放候选广告博文时，针对每条候选广告博文，根据所述用户已浏览的广告博文、所述第一相似集合和所述第二相似集合，判断是否滤除该候选广告博文；并将未滤除的各候选广告博文向用户进行投放。待投放的博文是指符合投放某个微博用户的广告博文的集合。如某微博用户在刷微博时，微博端根据她的用户属性可以给她推送多条广告，比如汽车，奢侈品，化妆品等，这些广告构成一个候选集，经筛选后，只给她展示一条广告。

图2是本发明的实施例的一种广告博文的投放装置的详细功能框图。如图2所示，在一个较佳的实施例中，该离线相似度计算模块100，具体可以包括：

第一博文ID获取单元，用于从广告博文ID数据库中获取已曝光的所有广告博文ID；

第一博文内容获取单元，用于根据已曝光的所有广告博文ID，从博文内容存储系统中获取相应的广告博文内容；博文内容存储系统具体可以采用redis存储系统，但不限于此。

第一分词处理单元，用于将获取到的各广告博文内容逐条进行分词，得到每条广告博文内容的博文单词集合。

第一停用词过滤单元，用于对每个博文单词集合进行停用词过滤。

索引字典和稀疏向量生成单元，用于利用过滤完的所有博文单词集合生成索引字典，并根据该索引字典将过滤完的所有博文单词集合分别转换为对应的稀疏向量；其中，一个博文单词集合对应一个稀疏向量。

LSI模型创建单元，用于利用转换得到的各稀疏向量和所述索引字典生成潜在语义索引LSI模型并进行保存。

第一相似度计算单元，用于使用所述LSI模型计算每个博文单词集合与其他博文单词集合之间的相似度，得到一个相似度矩阵；该相似度矩阵是由各已曝光的博文单词集合别对应稀疏向量的集合形成一个相似度矩阵。矩阵是向量的集合，通过计算所有已曝光的广告博文任意两个之间的相似度生成矩阵(一条已曝光的广告博文和其他广告博文生成一个相似度向量，然后所有已曝光的广告博文的相似度向量的集合最终形成一个相似度矩阵)。

第一相似度过滤单元，用于遍历所述相似度矩阵，将相似度大于预设阈值的广告博文ID提取出来，得到与每一广告博文ID的相似度大于预设阈值的广告博文ID集合，作为第一相似集合并保存至相似度存储系统。相似度存储系统具体可以采用redis存储系统，但不限于此。

如图2所示，在一个较佳的实施例中，在线相似度计算模块200，具体可以包括：

LSI模型加载单元，用于加载保存的LSI模型。

第二博文ID获取单元，用于获取新上线的广告博文ID。

第二博文内容获取单元，用于根据新上线的广告博文ID，从博文内容存储系统中获取相应的广告博文内容；博文内容存储系统可以是博文内容redis存储系统等，但不限于此。

第二分词处理单元，用于对获取到的广告博文内容进行分词，得到广告博文内容的博文单词集合。

第二停用词过滤单元，用于对所述博文单词集合进行停用词过滤。

第二相似度计算单元，用于使用所述LSI模型计算新上线的博文单词集合与已曝光的每个博文单词集合之间的相似度，得到相似度向量。单条新上线的广告博文获得一个相似度向量。

第二相似度过滤单元，用于遍历所述相似度向量，将相似度大于预设阈值的广告博文ID提取出来，得到与新上线的广告博文ID的相似度大于预设阈值的广告博文ID集合，作为第二相似集合并保存至所述相似度存储系统。相似度存储系统具体可以采用redis存储系统，但不限于此。

如图2所示，在一个较佳的实施例中，广告投放过滤模块300，具体可以包括：

广告候选列表获取单元，用于当接收到用户发起的广告投放请求时，选取所述用户对应的候选广告集，并取得相应的候选广告博文ID；

用户历史曝光博文ID获取单元，用于根据用户ID从用户历史曝光存储系统中获取该用户已浏览的所有广告博文ID，生成第一广告博文ID列表；其中，用户历史曝光存储系统具体可以采用redis存储系统，但不以此为限；

相似广告博文列表获取单元，用于从相似度存储系统中存储的所述第一相似集合和第二相似集合中获得与该第一广告博文ID列表中的每个广告博文ID的相似度大于预设阈值的广告博文ID集合，并将获得的广告博文ID集合合并到所述第一广告博文ID列表中，得到第二广告博文ID列表；

相似广告博文过滤单元，用于针对每一个候选广告博文ID，分别进行如下处理：检查当前候选广告博文ID是否存在于所述第二广告博文ID列表中，如果存在，则滤除当前候选广告博文ID；如果不存在，则保留当前候选广告博文ID；

广告投放及曝光广告保存单元，用于将未滤除的各候选广告博文向用户进行投放，并将投放后的各广告博文ID写入用户历史曝光存储系统。

图3是本发明的实施例的广告博文的投放装置的详细工作流程图；以下结合图3对上述各模块和单元的工作过程进行详细说明：

离线相似度计算模块负责计算历史已经曝光过的博文之间的相似度，其工作流程如下：

步骤11.首先离线相似度计算模块从例如mysql数据库中获取历史曝光过的广告博文ID(博文ID:一条微博博文的唯一标识，一个博文ID和其博文内容一一对应)。

步骤12.根据步骤11取得的博文ID，逐一从博文内容redis(Redis：一种Key-Value数据库)中取得相应的博文内容。

步骤13.将步骤12中获取的博文的内容逐条进行分词，得到每条博文的单词集合。

这里的分词是对博文内容进行分词，可以采用python提供的jieba库进行的分词操作。举例如下：博文内容“#最美客片#在沈阳，拍一套这样帅气有型的靓照多少钱？”，经过分词后，得到对应的单词集合“最美、客片、沈阳、拍、一套、这样、帅气、有型、的、靓照、多少、钱”。单词是广告博文的最小语素。

步骤14.对步骤13中的单词集合进行停用词过滤，比如将“的、地、得”等助词过滤掉。

步骤15.利用过滤完的所有博文单词集合生成索引字典，根据该过索引字典将过滤完的所有博文单词集合分别转换为稀疏向量。稀疏向量是现有技术，在此不再赘述。

本步骤可以利用python gensim库的doc2bow方法转换，稀疏向量的生成依赖于索引字典，相应代码如下，其中texts是要转换的单词集合，dictionary是索引字典，corpus是稀疏向量：

dictionary＝corpora.Dictionary(texts)

corpus＝[dictionary.doc2bow(text)for text in texts]

关于稀疏向量的转换过程举例说明如下，例如：

John likes to watch movies.Mary likes too.

John also likes to watch football games.

这两个句子，可以构建出一个字典，key为上文出现过的词，value为这个词的索引序号。

{"John":1,"likes":2,"to":3,"watch":4,"movies":5,"also":6,"football":7,"games":8,"Mary":9,"too":10}

那么，上面两个句子表示成向量就是：

[1,2,1,1,1,0,0,0,1,1]

[1,1,1,1,0,1,1,1,0,0]

然后再将向量转换为稀疏向量。

步骤16.利用步骤15生成的索引字典和稀疏向量生成LSI模型。LSI:潜在语义索引(Latent Semantic Indexing),指的是通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在一个文档中时，这些词之间就可以被认为是语义相关的。

具体地，本步骤可以利用python genism库公开的LsiModel方法实现，相应的代码如下：

lsi_model＝models.LsiModel(corpus,id2word＝dictionary,num_topics＝100,chunksize＝20000,distributed＝True)

步骤17.使用LSI模型计算每个博文单词集合与其他所有博文的单词集合的相似度。最终得到一个相似度矩阵，如图4所示。

步骤15，16，17都可以通过调用python的gensimAPI实现。

具体可以利用pythongenism库的MatrixSimilarity方法实现，相应的代码如下：

documents＝lsi_model[corpus]

index＝similarities.MatrixSimilarity(documents)

query＝lsi_model[dictionary.doc2bow(texts)]

result_list＝index[query]

步骤18.按行遍历相似度矩阵，将相似度大于某一阈值的博文ID过滤出来(阈值可配置，如0.9)，最终得到与某一博文ID相似度大于某阈值的博文ID的集合(相似度集合)。

举例：假设一共有5条博文，则需要从第一条博文开始遍历，计算第一条博文与其他所有博文的相似度，第二条博文与其他所有博文的相似度…计算完成后，再把相似度大于阈值的所有博文ID选出来。例如第一条博文和其他博文的相似度分别为0.21,0.52,0.83,0.96,阈值为0.9，则只选择相似度为0.96的博文(也就是第五条博文)放到相似度集合里。

例如相似度矩阵：

	博文1	博文2	博文3	博文4	博文5
						博文1	1	0.21	0.52	0.83	0.96
博文2	0.21	1	0.81	0.91	0.65
						博文3	0.52	0.81	1	0.93	0.71
博文4	0.83	0.91	0.93	1	0.11
						博文5	0.96	0.65	0.71	0.11	1

当阈值为0.9时，

博文1的相似度集合：博文5；

博文2的相似度集合：博文4；

博文3的相似度集合：博文4；

博文4的相似度集合：博文2，博文3；

博文5的相似度集合：博文1。

步骤19.将LSI模型保存至本地，以供在线相似度计算模块使用。

步骤20.将步骤18得到的相似度集合保存至相似度redis。

Redis的键为(博文ID+相似度级别),值为所有与这个博文相似的博文ID的集合。

参阅图3，在线相似度计算模块负责计算实时上线的广告博文与历史曝光过的博文的相似度，其流程如下：

步骤21.加载/导入离线相似度计算模块计算好的LSI模型。

步骤22.获取实时上线的广告博文ID(如从kafka拉取，Kafka：一种高吞吐量的分布式发布订阅消息系统)。

步骤23.根据步骤22取得的广告博文ID，从博文内容redis中取得其博文内容。

步骤24.将步骤23中获取的广告博文进行分词，得到广告博文的单词集合。

步骤25.对步骤24中的单词集合进行停用词过滤，比如将“的、地、得”等助词过滤掉。

步骤26.利用LSI模型计算上述实时上线的广告博文单词集合与历史曝光博文的相似度，得到相似度向量，如图4离线模型相似度矩阵中的一行。LSI相似度计算是比较成熟的模型，调用现有的python包就可以实现，在此不再详述。

步骤27.遍历步骤26得出的相似度向量，将相似度大于某一阈值的博文ID过滤出来(阈值可配置，如0.9)，得到与新上线广告博文ID相似度大于某阈值的历史曝光博文ID的集合。

步骤28.将步骤27得到的相似度集合保存至相似度redis，数据格式和离线计算导入的数据格式相同。

离线相似度计算模块和在线相似度计算模块相互配合工作，当离线相似度计算模块完成LSI模型的创建后，将通知在线相似度计算模块更新模型，并启动新一轮的离线计算；在线相似度计算模块加载最新的LSI模型后，继续计算新上线广告博文和历史广告博文的相似度，从而保证相似度计算的连续性。

广告投放过滤模块负责对即将曝光的广告博文做相似度过滤，当将曝光的广告博文和历史曝光过的某一博文相似度大于某一阈值(阈值可配置，如0.9)时，广告投放引擎会过滤掉该广告。

再参阅图3，广告投放过滤模块有具体工作流程包括如下步骤：

步骤31.当某个用户请求广告时，广告投放过滤模块首先选取适合投放给该用户的广告的候选集(选取过程不在本申请探讨范围内)，并取得其广告博文ID。

步骤32.广告投放过滤模块根据请求广告的用户ID从用户历史曝光redis中取得该用户已经看过的所有广告博文ID列表(记为列表α)。

步骤33.根据步骤32取得的博文ID，对每个博文ID都进行如下处理：从相似度redis中获取和该博文ID相似度大于某个阈值(阈值可配置，如0.9)的所有博文ID的集合，并将所获得的博文ID集合合并到步骤32中获取到的博文ID列表α中，得到新的列表β。

步骤34.逐个检查步骤31中得到的广告博文ID是否存在于步骤33所得到的博文ID列表β中，如果存在，则过滤掉该广告博文ID,从广告的候选集中选取下一个广告博文ID，并重复步骤34。

步骤35.对于在步骤34中没有被过滤掉的进行广告频次过滤(具体流程不在本申请讨论范围内)，进一步筛选。作为举例，一个比较简单的广告频次过滤机制是，如果用户一天已经看过几次广告后，就不再对该用户投放广告。

步骤36.对最终选取的广告博文进行曝光，并将曝光的广告博文ID写入用户历史曝光redis。

至此，一次相似广告博文过滤过程结束。

本发明的实施例的上述技术方案的优点在于：

在广告投放流程中增加了广告博文相似度计算，使广告投放实时过滤相似广告博文成为可能。用户在刷微博的时候不会再看到两条相似的广告博文，大大提高了用户体验。

实施例2：

本发明的实施例提供一种广告博文的投放方法，如图5所示，其包括：

步骤310：计算已曝光的广告博文之间的相似度，得到第一相似集合，所述第一相似集合中包括每条已曝光的广告博文分别对应的相似度大于预设阈值的其他已曝光的广告博文；

步骤320：当有新的广告博文上线时，计算新上线的广告博文与每条已曝光的广告博文之间的相似度，得到第二相似集合，所述第二相似集合中包括新上线的广告博文对应的相似度大于预设阈值的已曝光的广告博文；

步骤330：当需要向用户投放候选广告博文时，针对每条候选广告博文，根据所述用户已浏览的广告博文、所述第一相似集合和所述第二相似集合，判断是否滤除该候选广告博文；并将未滤除的各候选广告博文向用户进行投放。

在一个较佳的实施例中，步骤310具体可以包括：

步骤311：从广告博文ID数据库中获取已曝光的所有广告博文ID；

步骤312：根据已曝光的所有广告博文ID，从博文内容存储系统中获取相应的广告博文内容；

步骤313：将获取到的各广告博文内容逐条进行分词，得到每条广告博文内容的博文单词集合；

步骤314：对每个博文单词集合进行停用词过滤；

步骤315：利用过滤完的所有博文单词集合生成索引字典，并根据该索引字典将过滤完的所有博文单词集合分别转换为对应的稀疏向量；

步骤316：利用转换得到的各稀疏向量和所述索引字典生成潜在语义索引LSI模型并进行保存；

步骤317：使用所述LSI模型计算每个博文单词集合与其他博文单词集合之间的相似度，得到一个相似度矩阵；

步骤318：遍历所述相似度矩阵，将相似度大于预设阈值的广告博文ID提取出来，得到与每一广告博文ID的相似度大于预设阈值的广告博文ID集合，作为第一相似集合并保存至相似度存储系统。

在一个较佳的实施例中，步骤320具体可以包括：

步骤321：加载保存的LSI模型；

步骤322：获取新上线的广告博文ID；

步骤323：根据新上线的广告博文ID，从博文内容存储系统中获取相应的广告博文内容；

步骤324：对获取到的广告博文内容进行分词，得到广告博文内容的博文单词集合；对所述博文单词集合进行停用词过滤；

步骤325：使用所述LSI模型计算新上线的博文单词集合与已曝光的每个博文单词集合之间的相似度，得到相似度向量；遍历所述相似度向量，将相似度大于预设阈值的广告博文ID提取出来，得到与新上线的广告博文ID的相似度大于预设阈值的广告博文ID集合，作为第二相似集合并保存至所述相似度存储系统。

在一个较佳的实施例中，步骤330具体可以包括：

步骤331：当接收到用户发起的广告投放请求时，选取所述用户对应的候选广告集，并取得相应的候选广告博文ID。

步骤332：根据用户ID从用户历史曝光存储系统中获取该用户已浏览的所有广告博文ID，生成第一广告博文ID列表。

步骤333：从相似度存储系统中存储的所述第一相似集合和第二相似集合中获得与该第一广告博文ID列表中的每个广告博文ID的相似度大于预设阈值的广告博文ID集合，并将获得的广告博文ID集合合并到所述第一广告博文ID列表中，得到第二广告博文ID列表。

步骤334：针对每一个候选广告博文ID，分别进行如下处理：检查当前候选广告博文ID是否存在于所述第二广告博文ID列表中，如果存在，则滤除当前候选广告博文ID；如果不存在，则保留当前候选广告博文ID；将未滤除的各候选广告博文向用户进行投放，并将投放后的各广告博文ID写入用户历史曝光存储系统。

关于本发明方法实施例的实施细节可参阅前面的装置实施例，在此不再赘述。本发明的实施例的上述技术方案的优点在于：

在广告投放流程中增加了博文相似度计算，使广告投放实时过滤相似博文成为可能。用户在刷微博的时候不会再看到两条相似的广告博文，大大提高了用户体验。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrative components)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种广告博文的投放方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述计算已曝光的广告博文之间的相似度，得到第一相似集合，具体包括：

从广告博文ID数据库中获取已曝光的所有广告博文ID；

根据已曝光的所有广告博文ID，从博文内容存储系统中获取相应的广告博文内容；

将获取到的各广告博文内容逐条进行分词，得到每条广告博文内容的博文单词集合；

对每个博文单词集合进行停用词过滤；

利用过滤完的所有博文单词集合生成索引字典，并根据该索引字典将过滤完的所有博文单词集合分别转换为对应的稀疏向量；

利用转换得到的各稀疏向量和所述索引字典生成潜在语义索引LSI模型并进行保存；

使用所述LSI模型计算每个博文单词集合与其他博文单词集合之间的相似度，得到一个相似度矩阵；

遍历所述相似度矩阵，将相似度大于预设阈值的广告博文ID提取出来，得到与每一广告博文ID的相似度大于预设阈值的广告博文ID集合，作为第一相似集合并保存至相似度存储系统。

3.根据权利要求2所述的方法，其特征在于，所述当有新的广告博文上线时，计算新上线的广告博文与每条已曝光的广告博文之间的相似度，得到第二相似集合，具体包括：

加载保存的LSI模型；

获取新上线的广告博文ID；

根据新上线的广告博文ID，从博文内容存储系统中获取相应的广告博文内容；

对获取到的广告博文内容进行分词，得到广告博文内容的博文单词集合；

对所述博文单词集合进行停用词过滤；

使用所述LSI模型计算新上线的博文单词集合与已曝光的每个博文单词集合之间的相似度，得到相似度向量；

遍历所述相似度向量，将相似度大于预设阈值的广告博文ID提取出来，得到与新上线的广告博文ID的相似度大于预设阈值的广告博文ID集合，作为第二相似集合并保存至所述相似度存储系统。

4.根据权利要求3所述的方法，其特征在于，所述当需要向用户投放候选广告博文时，针对每条候选广告博文，根据所述用户已浏览的广告博文、所述第一相似集合和所述第二相似集合，判断是否滤除该候选广告博文；并将未滤除的各候选广告博文向用户进行投放，具体包括：

当接收到用户发起的广告投放请求时，选取所述用户对应的候选广告集，并取得相应的候选广告博文ID；

根据用户ID从用户历史曝光存储系统中获取该用户已浏览的所有广告博文ID，生成第一广告博文ID列表；

从相似度存储系统中存储的所述第一相似集合和第二相似集合中获得与该第一广告博文ID列表中的每个广告博文ID的相似度大于预设阈值的广告博文ID集合，并将获得的广告博文ID集合合并到所述第一广告博文ID列表中，得到第二广告博文ID列表；

针对每一个候选广告博文ID，分别进行如下处理：检查当前候选广告博文ID是否存在于所述第二广告博文ID列表中，如果存在，则滤除当前候选广告博文ID；如果不存在，则保留当前候选广告博文ID；

将未滤除的各候选广告博文向用户进行投放，并将投放后的各广告博文ID写入用户历史曝光存储系统。

5.一种广告博文的投放装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述离线相似度计算模块，具体包括：

第一博文内容获取单元，用于根据已曝光的所有广告博文ID，从博文内容存储系统中获取相应的广告博文内容；

第一分词处理单元，用于将获取到的各广告博文内容逐条进行分词，得到每条广告博文内容的博文单词集合；

第一停用词过滤单元，用于对每个博文单词集合进行停用词过滤；

索引字典和稀疏向量生成单元，用于利用过滤完的所有博文单词集合生成索引字典，并根据该索引字典将过滤完的所有博文单词集合分别转换为对应的稀疏向量；

LSI模型创建单元，用于利用转换得到的各稀疏向量和所述索引字典生成潜在语义索引LSI模型并进行保存；

第一相似度计算单元，用于使用所述LSI模型计算每个博文单词集合与其他博文单词集合之间的相似度，得到一个相似度矩阵；

第一相似度过滤单元，用于遍历所述相似度矩阵，将相似度大于预设阈值的广告博文ID提取出来，得到与每一广告博文ID的相似度大于预设阈值的广告博文ID集合，作为第一相似集合并保存至相似度存储系统。

7.根据权利要求6所述的装置，其特征在于，所述的在线相似度计算模块，具体包括：

LSI模型加载单元，用于加载保存的LSI模型；

第二博文ID获取单元，用于获取新上线的广告博文ID；

第二博文内容获取单元，用于根据新上线的广告博文ID，从博文内容存储系统中获取相应的广告博文内容；

第二分词处理单元，用于对获取到的广告博文内容进行分词，得到广告博文内容的博文单词集合；

第二停用词过滤单元，用于对所述博文单词集合进行停用词过滤；

第二相似度计算单元，用于使用所述LSI模型计算新上线的博文单词集合与已曝光的每个博文单词集合之间的相似度，得到相似度向量；

第二相似度过滤单元，用于遍历所述相似度向量，将相似度大于预设阈值的广告博文ID提取出来，得到与新上线的广告博文ID的相似度大于预设阈值的广告博文ID集合，作为第二相似集合并保存至所述相似度存储系统。

8.根据权利要求7所述的装置，其特征在于，所述的广告投放过滤模块，具体包括：

用户历史曝光博文ID获取单元，用于根据用户ID从用户历史曝光存储系统中获取该用户已浏览的所有广告博文ID，生成第一广告博文ID列表；

9.一种计算机可读存储介质，其存储有计算机程序，其特征在于，所述计算机程序被执行时实现权利要求1-4中任一项所述的方法。

10.一种计算设备，其包括处理器和存储器，该存储器上具有计算机程序，其特征在于，所述处理器加载并执行所述计算机程序以实现权利要求1-4中任一项所述的方法。