CN116362811A

CN116362811A - 一种基于大数据的广告自动化投放管理系统

Info

Publication number: CN116362811A
Application number: CN202310327938.3A
Authority: CN
Inventors: 段松涛; 冯深皇
Original assignee: Shenzhen Chuangyuan Interactive Technology Co ltd
Current assignee: Shenzhen Chuangyuan Interactive Technology Co ltd
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2023-06-30

Abstract

本发明公开了一种基于大数据的广告自动化投放管理系统，通过获取移动终端的存储的日志数据，并从所述日志数据进行预处理得到数据集，根据用户的广告点击行为日志、广告自身特征和用户自身特征构建点击率模型，基于用户的购物行为和点击率模型将广告主的资源和用户进行匹配得到广告推荐信息，从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型，根据用户自身特征和购物行为将用户的兴趣划分为短期兴趣和长期兴趣，并采用滑动时间窗口完成用户兴趣模型的更新，根据点击率模型和用户兴趣模型对移动终端用户自动化投放广告，提升了广告投放的精准度和准确识别用户兴趣度，提高了用户和广告的匹配度。

Description

一种基于大数据的广告自动化投放管理系统

技术领域

本发明属于广告投放技术领域，尤其涉及一种基于大数据的广告自动化投放管理系统。

背景技术

广告作为现代承载产品信息的核心产物，其形式也随着时代变迁而发生变化，在互联网时代前，其多数载体为纸质媒体、线下实体广告牌等，而后电视广告逐渐进入人们视野，但其强制性和时段性也是相对的弊端，随着互联网时代的发展，互联网广告也逐渐替代传统广告行业达到了广告行业的新高度，成为了广告的主要载体。然而，在线计算广告以互联网为载体，其与传统广告的根本区别在于解决了广告产生价值难以追踪的问题，即结果是可以量化的，且基于深度学习等技术的革新，能够提供智能定向的推荐效果，达到个性化推荐，解决了传统广告在观感上的弊端，根据相关数据还可对其中间过程进行优化，通过提升广告和用户之间的匹配度，从而提升了广告平台方点击转化的效益，因此，如何提升广告和用户的匹配程度也成了亟待解决的重要问题。

发明内容

有鉴于此，本发明提供了一种可以提高精准投放、提升系统的数据处理和广告投放有效管理的基于大数据的广告自动化投放管理系统，来解决上述存在的技术问题，具体采用以下技术方案来实现。

本发明提供了一种基于大数据的广告自动化投放管理系统，包括：

数据获取单元，用于获取移动终端的存储的日志数据，并从所述日志数据进行预处理得到数据集，其中，所述数据集包括用户的广告点击行为日志、广告自身特征、用户自身特征和用户的购物行为；

模型构建单元，用于根据用户的广告点击行为日志、广告自身特征和用户自身特征构建点击率模型，基于用户的购物行为和点击率模型将广告主的资源和用户进行匹配得到广告推荐信息；

兴趣挖掘单元，用于从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型，根据用户自身特征和购物行为将用户的兴趣划分为短期兴趣和长期兴趣，并采用滑动时间窗口完成用户兴趣模型的更新；

广告投放单元，用于根据点击率模型和用户兴趣模型对移动终端用户自动化投放广告。

作为上述技术方案的进一步改进，所述广告投放单元的具体执行过程包括：

广告主通过移动终端的点击率模型和用户兴趣模型得到的订购服务上传广告，并设置广告关键词、广告类别和投放维度；

当用户访问一个带有广告位的网页时，广告投放平台将广告位的信息发送至满足条件的移动终端；

根据移动终端对应的用户兴趣从广告投放平台选取相应类别的广告集合，并运用广告匹配算法计算广告的得分，将得分最高的广告推送至与用户兴趣匹配最高的用户。

作为上述技术方案的进一步改进，从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型，包括：

用户的浏览行为通过鼠标移动、鼠标点击、滚轮滚动和按键反映出来，用于的浏览行为信息通过将前端脚本嵌入网页获取，用户在网页不同段落浏览速度以确定用户对所浏览内容的感兴趣程度；

用户的网页相对浏览速度为用户浏览目标网页的速度与其平均网页浏览速度的比值的计算表达式为

其中S_i表示网页i的浏览速度，则/>

其中size_i表示网页文本i的大小，t_i表示用户在该页面停留的时间，且t₁表示最小停留时间，t₂表示最长停留时间，当停留时间t_i小于最小停留时间时，确定用户没有浏览该页面并将其过滤；当停留时间t_i大于最大停留时间时，确定用户长时间打开页面，此时t_i取最大停留时间，S_over表示平均浏览速度的表达式为/>

其中size_all表示用户浏览的所有页面的大小之和，tine_all表示用户浏览所有页面的时间之和；

预设平均浏览速度下的有效浏览速度下的有效浏览内容的基准权重为ε，在浏览速度s_t下的有效浏览内容的权值表达式

作为上述技术方案的进一步改进，用户在网页不同段落浏览速度以确定用户对所浏览内容的感兴趣程度，包括：

预设一个用户有n种不同的浏览行为，采用ε₁,ε₂...ε_n表示关键词w_i在n种不同的浏览行为产生的有效浏览文档中的权重，用f_i1,f_i2...f_in表示该特征关键词在n个有效浏览文档中出现的词频，在向量空间模型中的tf_i的表达式为

结合用户浏览行为提出的向量空间模型，新的tf_i的计算表达式为

则权重的表达式为w′(w_i)＝tf_i′*idf_i，网页d_i和广告d_j的相似度计算表达式为/>

其中w′(w_ki)表示关键词w_k在网页d_i中的权重，w′(w_kj)表示关键词w_k在广告d_j中的权重。

用户兴趣模型对用户历史行为进行抽取则可得到兴趣状态的抽象表示，该兴趣状态即为每个时间步的隐藏层状态输出ht，模型中目标项的单击行为由最终兴趣触发的，中间隐层状态h_t不能得到适当的监督，使用下个时间步的输入b_t+1作为标签即采用下个时间步的输入b_t+1来监督学习训练当前时间步的隐藏状态h_t，则损失函数的计算表达式为

其中N表示行为序列的对数，t表示时间步的个数即用户行为列表长度，h_t表示当前时间步隐藏状态，

表示下一个时间步的输入，σ表示sigmoid函数。

作为上述技术方案的进一步改进，根据用户自身特征和购物行为将用户的兴趣划分为短期兴趣和长期兴趣，包括：

在模型上引入注意力机制的兴趣提取层，分数由兴趣提取层在每个时间步的输出h_t与当前候选广告之间的关联性大小计算的表达式为

e_a表示候选广告的输入向量且维度是n_A×1，n_A表示候选广告特征的输入维度，W表示参数矩阵且维度是n_H×n_A，n_H表示兴趣抽取层隐藏状态的维度，h_t表示某个时间步t的兴趣抽取层的隐藏状态，维度是n_H×1。

作为上述技术方案的进一步改进，采用滑动时间窗口完成用户兴趣模型的更新，包括：

滑动时间窗口为用户访问网页历史记录中用来分析用户行为特征的文档集合，选取用户最近访问的m个浏览文档d₁,d₂,d₃...d_m-1,d_m作为滑动时间窗口，其访问时间依次为t₁,t₂,t₃...t_m-1,t_m，浏览文档按照访问时间递增顺序从左到右依次顺序排列；

采用聚类算法经过语义扩展的向量空间模型计算每个文档的词向量v_i，计算两个词向量间的相似度，若其相似度大于某个阈值α将这两个词向量放到同一词向量簇中，通过表达式为

其中d_c表示词向量簇的质心，则d_c的表达式为/>

作为上述技术方案的进一步改进，预设C表示词向量簇的集合，初始化时选取最左边的词向量d₁作为一个簇的质心d_QE1，则C＝{d_QE1}，从左往右依次从滑动时间窗口中取d_j,1<j<m，并用语义扩展后的向量空间模型计算其词向量v_j，对于任意d_QEi∈C，用向量空间模型计算两者的相似度S_ij＝sim(v_j,d_QE)，取所有计算结果中的最大值，记为S_max＝max(S_ij)，若S_max>α，将v_j加入以d_QEi为质心的簇，重新计算该簇的质心为d′_QEi；若S_max<α，将v_j作为新簇的质心d_QEj，C＝C∪d_QEj；

根据上述步骤处理完滑动窗口中的全部浏览文档，此时滑动时间窗口向右滑动将新的浏览文档d_m+1加入其中，按照上述步骤将d_m+1加入现有的簇或生成新的簇，将滑动时间窗口最左端的d₁从中去除，并重新计算d₁所属簇的质心。

作为上述技术方案的进一步改进，当通过聚类形成的词向量簇中的词向量数占滑动时间窗口中文档总数的比例超过某一比例ζ时，确定该簇为有效的，ζ表示行为因子；

将有效簇的文档访问时间归一化后的值作为行为新鲜度记为W_F，有效簇D_i的平均访问时间E(t)的计算表达式为

采用V_E＝(E₁(t),E₂(t)...E_i(t)...E_k(t))表示所有有效簇的平均访问时间构成的向量，k表示有效簇的数据，则有效向量簇D_i的行为新鲜度/>

的表达式为/>

通过向量对应的网页访问离散程度来衡量用户的长期兴趣，行为离散程度来衡量有效簇反映出的行为特征的分数程度；

将有效簇的文档访问时间的均方差进行归一化后的值作为行为离散度，记为W_D，则有效向量簇D_i浏览时间的均方差的表达式为

其中n表示该有效簇中的文档总数，采用V_D＝(D₁(t),D₂(t)...D_i(t)...D_k(t))表示所有有效簇的访问时间的均方差构成的向量，k表示有效簇的数量；

有效向量簇D_i的行为离散度

可用的表达式为/>

衡量用户长期行为特征的行为离散度和衡量用户短期行为特征的行为离散度和衡量用户短期行为特征的行为新鲜度共同决定有效簇的最终权重/>

离散因子为行为离散度在最终权重中所占的比重记为λ，λ∈[0,1]，有效簇D_i的最终权重的计算表达式为

当0<λ<1时表示同时关注用户长期兴趣和短期兴趣，当λ＝0时表示只关注长期兴趣。

作为上述技术方案的进一步改进，根据用户的广告点击行为日志、广告自身特征和用户自身特征构建点击率模型，包括：

数据收集，数据收集包括离线数据和在线数据，用于模型的离线和在线训练，数据来源于相关类型行为日志；

特征构建，根据数据收集构建用户和广告的相关特征并进行特征的选取以形成点击率模型所需输入格式。

本发明提供了一种基于大数据的广告自动化投放管理系统，通过获取移动终端的存储的日志数据，并从所述日志数据进行预处理得到数据集，根据用户的广告点击行为日志、广告自身特征和用户自身特征构建点击率模型，基于用户的购物行为和点击率模型将广告主的资源和用户进行匹配得到广告推荐信息，从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型，根据用户自身特征和购物行为将用户的兴趣划分为短期兴趣和长期兴趣，并采用滑动时间窗口完成用户兴趣模型的更新，根据点击率模型和用户兴趣模型对移动终端用户自动化投放广告，提升了广告投放的精准度和准确识别用户兴趣度，提高了用户和广告的匹配度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明提供的基于大数据的广告自动化投放管理系统的结构框图；

图2为本发明提供的基于大数据的广告自动化投放管理方法的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参阅图1，本发明提供了一种基于大数据的广告自动化投放管理系统，包括：

本实施例中，所述广告投放单元的具体执行过程包括：广告主通过移动终端的点击率模型和用户兴趣模型得到的订购服务上传广告，并设置广告关键词、广告类别和投放维度；当用户访问一个带有广告位的网页时，广告投放平台将广告位的信息发送至满足条件的移动终端；根据移动终端对应的用户兴趣从广告投放平台选取相应类别的广告集合，并运用广告匹配算法计算广告的得分，将得分最高的广告推送至与用户兴趣匹配最高的用户。根据用户的广告点击行为日志、广告自身特征和用户自身特征构建点击率模型，包括：数据收集，数据收集包括离线数据和在线数据，用于模型的离线和在线训练，数据来源于相关类型行为日志；特征构建，根据数据收集构建用户和广告的相关特征并进行特征的选取以形成点击率模型所需输入格式。

需要说明的是，词向量聚类算法对经过语义扩展后的向量空间模型按关键词进行聚类，计算出聚类形成的每个词向量簇的权重

结合计算每个词向量簇的质心d_QEi，得到用于评价广告与用户匹配得分的计算表达式为/>

其中词向量的簇质心d_QEi与广告α_k的相似度sim(d_QEi,α_k)用改进的向量空间模型计算。广告与每个兴趣簇质心都有一个得分，选取值最大的作为该广告的最终得分，按照这个得分对待投放的广告进行排序并将得分最高的广告投放给用户。行为定向广告以用户为出发点，从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型，并对用户的兴趣投放相应的广告，兴趣不同的用户在浏览同一个网页时将看到不同的广告，可以实现广告的精准化投放目标。通过对用户行为的分析将用户的兴趣分为短期兴趣和长期兴趣，并采用滑动时间窗口的机制完成对用户兴趣模型的更新。

应理解，不同浏览行为对应的浏览内容其重要性显然不一样的，如打印页面、保存页面、增加书签可以表现出用户对该页面有强烈的兴趣，所以它对应的有效浏览内容的权重应该更大，而用户在可编辑区域的编辑行为通常比链接点击行为的权重更大，比如用户输入的关键词比点击链接的关键词更重要，因为用户编辑的内容更能表达用户对该内容感兴趣的程度。在计算关键词权重时考虑了用户浏览行为特征的影响，从而使其能更精确的表达出用户的兴趣。用户的兴趣可以通过两种行为表现出来，一种是长期的行为，对应用户的长期兴趣，在很长一段时间内都不会发生变化，这种行为表现为用户对某一事物保持稳定的兴趣，在很长一段时间内都不会发生变化，这种行为表现表示用户对某一事物保持稳定的兴趣，表现为用户在较短的一段时间里对某一事物表现出浓厚的兴趣，在短时间内访问大量有关该事物的网页，过了这个时间段之后就不再关注该信息。为了挖掘出用户的长期行为特征和短期行为特征，需要对滑动时间长窗口中的浏览文档进行聚类。由于用户访问网页具有很大的随意性，这些网页不能反映出用户的行为特征，聚类后会形成一些很小的簇，需要引入行为因子去掉这些噪声簇。在衡量用户短期兴趣的重要性，由于越是接近集中访问的文档越能体现用户的短期兴趣，可以通过向量对应的网页访问时间来衡量用户的短期兴趣。在衡量用户长期兴趣的重要性时，由于分布得越离散的文档越能体现用户的长期兴趣。由于内容定向广告投放是简单的抽取网页关键词并根据网页的主题投放广告，从网页内容的角度出发，没有充分挖掘出用户的兴趣，所以在广告投放时的效果并不理想，经常会投放一些用户不感兴趣的广告，从而提高了广告投放的精准度和用户体验。

可选地，从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型，包括：

其中S_i表示网页i的浏览速度，则/>

本实施例中，用户在网页不同段落浏览速度以确定用户对所浏览内容的感兴趣程度，包括：预设一个用户有n种不同的浏览行为，采用ε₁,ε₂...ε_n表示关键词w_i在n种不同的浏览行为产生的有效浏览文档中的权重，用f_i1,f_i2...f_in表示该特征关键词在n个有效浏览文档中出现的词频，在向量空间模型中的tf_i的表达式为

需要说明的是，从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型，包括：用户兴趣模型对用户历史行为进行抽取则可得到兴趣状态的抽象表示，该兴趣状态即为每个时间步的隐藏层状态输出h_t，模型中目标项的单击行为由最终兴趣触发的，中间隐层状态h_t不能得到适当的监督，使用下个时间步的输入b_t+1作为标签即采用下个时间步的输入b_t+1来监督学习训练当前时间步的隐藏状态h_t，则损失函数的计算表达式为

表示下一个时间步的输入，σ表示sigmoid函数。广告主的资源和用户进行匹配推荐，并不断进行优化达到更好的匹配度，在广告主端做到以有限的预算达到最大效率的转化，而平台方则是去做到精确匹配广告和用户，从而提高平台方收益并提升广告主的广告转化率，对于用户做候选资源即广告资源的排序问题，在此基础上可以进行优化匹配，提升广告的转化率，并平衡竞价和投放的问题。

可选地，根据用户自身特征和购物行为将用户的兴趣划分为短期兴趣和长期兴趣，包括：

本实施例中，采用滑动时间窗口完成用户兴趣模型的更新，包括：滑动时间窗口为用户访问网页历史记录中用来分析用户行为特征的文档集合，选取用户最近访问的m个浏览文档d₁,d₂,d₃...d_m-1,d_m作为滑动时间窗口，其访问时间依次为t₁,t₂,t₃...t_m-1,t_m，浏览文档按照访问时间递增顺序从左到右依次顺序排列；采用聚类算法经过语义扩展的向量空间模型计算每个文档的词向量v_i，计算两个词向量间的相似度，若其相似度大于某个阈值α将这两个词向量放到同一词向量簇中，通过表达式为

其中d_c表示词向量簇的质心，则d_c的表达式为/>

需要说明的是，预设C表示词向量簇的集合，初始化时选取最左边的词向量d₁作为一个簇的质心d_QE1，则C＝{d_QE1}，从左往右依次从滑动时间窗口中取d_j,1<j<m，并用语义扩展后的向量空间模型计算其词向量v_j，对于任意d_QEi∈C，用向量空间模型计算两者的相似度S_ij＝sim(v_j,d_QE)，取所有计算结果中的最大值，记为S_max＝max(S_ij)，若S_max>α，将v_j加入以d_QEi为质心的簇，重新计算该簇的质心为d′_QEi；若S_max<α，将v_j作为新簇的质心d_QEj，C＝C∪d_QEj；根据上述步骤处理完滑动窗口中的全部浏览文档，此时滑动时间窗口向右滑动将新的浏览文档d_m+1加入其中，按照上述步骤将d_m+1加入现有的簇或生成新的簇，将滑动时间窗口最左端的d₁从中去除，并重新计算d₁所属簇的质心。为了挖掘出用户的长期兴趣和短期兴趣，算法引入滑动时间窗口机制对经过语义扩展后的向量空间模型按关键词进行聚类，引入行为新鲜度和行为离散度用来区分短期兴趣和长期兴趣，计算聚类形成的有效簇的权重和质心，使用向量空间模型计算质心与文本广告的相似度，结合相似度和有效簇的权重计算广告的匹配得分，同一个广告与不同的有效簇有不同的得分，取最高的得分作为广告的最终得分，同一个广告与不同的有效簇有不同的得分，取最高的得分作为广告的最终得分，对所有广告的得分由高到低排序，将得分最高的广告投放给用户。

可选地，当通过聚类形成的词向量簇中的词向量数占滑动时间窗口中文档总数的比例超过某一比例ζ时，确定该簇为有效的，ζ表示行为因子；

的表达式为/>

有效向量簇D_i的行为离散度

可用的表达式为/>

参阅图2，本发明还提供了一种基于大数据的广告自动化投放管理方法，具体包括以下步骤：

S1：获取移动终端的存储的日志数据，并从所述日志数据进行预处理得到数据集，其中，所述数据集包括用户的广告点击行为日志、广告自身特征、用户自身特征和用户的购物行为；

S2：根据用户的广告点击行为日志、广告自身特征和用户自身特征构建点击率模型，基于用户的购物行为和点击率模型将广告主的资源和用户进行匹配得到广告推荐信息；

S3：从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型，根据用户自身特征和购物行为将用户的兴趣划分为短期兴趣和长期兴趣，并采用滑动时间窗口完成用户兴趣模型的更新；

S4：根据点击率模型和用户兴趣模型对移动终端用户自动化投放广告。

本实施例中，通过获取移动终端的存储的日志数据，并从所述日志数据进行预处理得到数据集，根据用户的广告点击行为日志、广告自身特征和用户自身特征构建点击率模型，基于用户的购物行为和点击率模型将广告主的资源和用户进行匹配得到广告推荐信息，从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型，根据用户自身特征和购物行为将用户的兴趣划分为短期兴趣和长期兴趣，并采用滑动时间窗口完成用户兴趣模型的更新，根据点击率模型和用户兴趣模型对移动终端用户自动化投放广告，提升了广告投放的精准度和准确识别用户兴趣度，提高了用户和广告的匹配度。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于大数据的广告自动化投放管理系统，其特征在于，包括：

2.根据权利要求1所述的基于大数据的广告自动化投放管理系统，其特征在于，所述广告投放单元的具体执行过程包括：

3.根据权利要求1所述的基于大数据的广告自动化投放管理系统，其特征在于，从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型，包括：

其中S_i表示网页i的浏览速度，则/>

4.根据权利要求3所述的基于大数据的广告自动化投放管理系统，其特征在于，用户在网页不同段落浏览速度以确定用户对所浏览内容的感兴趣程度，包括：

结合用户浏览行为提出的向量空间模型，新的tf_i的计算表达式为/>

则权重的表达式为w′(w_i)＝tf_i′*idf_i，网页d_i和广告d_j的相似度计算表达式为

5.根据权利要求1所述的基于大数据的广告自动化投放管理系统，其特征在于，从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型，包括：

用户兴趣模型对用户历史行为进行抽取则可得到兴趣状态的抽象表示，该兴趣状态即为每个时间步的隐藏层状态输出h_t，模型中目标项的单击行为由最终兴趣触发的，中间隐层状态h_t不能得到适当的监督，使用下个时间步的输入b_t+1作为标签即采用下个时间步的输入b_t+1来监督学习训练当前时间步的隐藏状态h_t，则损失函数的计算表达式为

表示下一个时间步的输入，σ表示sigmoid函数。

6.根据权利要求1所述的基于大数据的广告自动化投放管理系统，其特征在于，根据用户自身特征和购物行为将用户的兴趣划分为短期兴趣和长期兴趣，包括：

7.根据权利要求1所述的基于大数据的广告自动化投放管理系统，其特征在于，采用滑动时间窗口完成用户兴趣模型的更新，包括：

滑动时间窗口为用户访问网页历史记录中用来分析用户行为特征的文档集合，选取用户最近访问的m个浏览文档d₁，d₂，d₃...d_m-1，d_m作为滑动时间窗口，其访问时间依次为t₁，t₂，t₃...t_m-1，t_m，浏览文档按照访问时间递增顺序从左到右依次顺序排列；

其中d_c表示词向量簇的质心，则d_c的表达式为/>

8.根据权利要求7所述的基于大数据的广告自动化投放管理系统，其特征在于，还包括：

预设C表示词向量簇的集合，初始化时选取最左边的词向量d₁作为一个簇的质心d_QE1，则C＝{d_QE1}，从左往右依次从滑动时间窗口中取d_j，1＜j＜m，并用语义扩展后的向量空间模型计算其词向量v_j，对于任意d_QEi∈C，用向量空间模型计算两者的相似度S_ij＝sim(v_j，d_QE)，取所有计算结果中的最大值，记为S_max＝max(S_ij)，若S_max＞α，将v_j加入以d_QEi为质心的簇，重新计算该簇的质心为d′_QEi；若S_max＜α，将v_j作为新簇的质心d_QEj，C＝C∪d_QEj；

9.根据权利要求7所述的基于大数据的广告自动化投放管理系统，其特征在于，当通过聚类形成的词向量簇中的词向量数占滑动时间窗口中文档总数的比例超过某一比例ζ时，确定该簇为有效的，ζ表示行为因子；