海量数据提取推送工作方法
技术领域
本发明涉及计算机数据挖掘领域,尤其涉及一种海量数据提取推送工作方法。
背景技术
由于互联网越来越普及,使用者在进行网络浏览或者网络搜索过程中都需要对自己的言行进行约束,避免不良信息进行传播造成负面影响,尤其对于未成年人或者思想偏执的人群需要进行网络信息屏蔽,将敏感信息进行提炼,但是现有的做法都是通过简单的数据归类整理进行数据挖掘,不能准确和全面的将敏感词提炼得到,这就亟需本领域技术人员解决相应的技术问题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种海量数据提取推送工作方法。
为了实现本发明的上述目的,本发明提供了一种海量数据提取推送工作方法,包括如下步骤:
S1,获取网络敏感词,通过如下公式进行敏感词聚类计算,通过高斯混合模型的敏感词聚类算法计算聚类因子qs的推荐概率Q(qs=h|i,j,k),h为检索信息类别,i、j、k为敏感词检索信息元素,i>j且i+j=k,实现条件聚类函数的构建,利用推荐概率公式进行计算敏感词聚类信息:
其中,上标T分别为(xi-αi)和(yj-αj)的转置,ui为敏感词检索信息元素i作为样本特征的均值,vj为敏感词检索信息元素j作为样本特征的均值,xi为敏感词检索信息元素i的示例,yj为敏感词检索信息元素j的示例,αi为敏感词检索信息元素i的隐含变量,αj为敏感词检索信息元素j的隐含变量;
E(Qi(k)||Qj(k))为云端服务器构造的关联特征数据集,Qi(k)为总体检索信息k中敏感词检索信息元素i的数据集,Qj(k)为总体检索信息k中敏感词检索信息元素j的数据集,λi,j为敏感词检索信息元素i和j的后验概率,m、n为正整数;其中马氏距离计算公式中M为xi,yj的协方差矩阵,为敏感词检索信息元素i示例的特征向量,为敏感词检索信息元素j示例的特征向量,Φi为敏感词检索信息元素i的类别判断比率,Φj为敏感词检索信息元素j的类别判断比率;
S2,通过推荐信息筛选之后获得筛选后的集成信息,通过如下公式进行筛选计算,获得准确的敏感词推送信息,在敏感词检索信息元素中形成准确率和召回率,
其推荐算法定义为:
其中,p为推荐信息的总分类数,则先验准确率为H(Ar,Br)=z'r/zr,其中Ar为第一推荐数据组,Br为第二推荐数据组,Cr为第三推荐数据组和Dr为第四推荐数据组,zr为Ar第一推荐数据组和Br第二推荐数据组中总的检索信息聚类数,z'r为Ar第一推荐数据组和Br第二推荐数据组中经过筛选的聚类数,后验准确率为H(Cr,Dr)=g'r/gr,其中gr为Cr第三推荐数据组和Dr第四推荐数据组中总的检索信息聚类数,g'r为Cr第三推荐数据组和Dr第四推荐数据组中经过筛选的聚类数,先验召回率为I(Ar,Br)=fr'/fr,其中fr为Ar第一推荐数据组和Br第二推荐数据组中总的检索信息召回数,fr'为Ar第一推荐数据组和Br第二推荐数据组中经过筛选的召回数,后验召回率为H(Cr,Dr)=w'r/wr,其中wr为Cr第三推荐数据组和Dr第四推荐数据组中总的检索信息召回数,w'r为Cr第三推荐数据组和Dr第二四推荐数据组中经过筛选的召回数。
优选的,经过计算之后形成信息推送的评分值,根据形成的检索信息目标函数的权重,设置敏感词需要获取检索数据的推荐阈值。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
通过归类整理相应敏感词的需求,从而提取出具有针对性的特征数据,从而推送给该需求的敏感词,通过收集模型归类的数据能够准确的获取不同敏感词的不同信息需求,然后通过推送模块进行定点推送以及准确发表相应敏感词的需求信息,帮助敏感词获取准确信息,经过归类模型筛选之后的数据具有极强的鲁棒性,对于推送平台提供了良好的参考作用。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明方法流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
如图1所示,一种海量数据提取推送工作方法,包括如下步骤:
S1,获取网络敏感词,通过如下公式进行敏感词聚类计算,通过高斯混合模型的敏感词聚类算法计算聚类因子qs的推荐概率Q(qs=h|i,j,k),h为检索信息类别,i、j、k为敏感词检索信息元素,i>j且i+j=k,实现条件聚类函数的构建,利用推荐概率公式进行计算敏感词聚类信息:
其中,上标T分别为(xi-αi)和(yj-αj)的转置,ui为敏感词检索信息元素i作为样本特征的均值,vj为敏感词检索信息元素j作为样本特征的均值,xi为敏感词检索信息元素i的示例,yj为敏感词检索信息元素j的示例,αi为敏感词检索信息元素i的隐含变量,αj为敏感词检索信息元素j的隐含变量;
E(Qi(k)||Qj(k))为云端服务器构造的关联特征数据集,Qi(k)为总体检索信息k中敏感词检索信息元素i的数据集,Qj(k)为总体检索信息k中敏感词检索信息元素j的数据集,λi,j为敏感词检索信息元素i和j的后验概率,m、n为正整数;其中马氏距离计算公式中M为xi,yj的协方差矩阵,为敏感词检索信息元素i示例的特征向量,为敏感词检索信息元素j示例的特征向量,Φi为敏感词检索信息元素i的类别判断比率,Φj为敏感词检索信息元素j的类别判断比率;
S2,通过推荐信息筛选之后获得筛选后的集成信息,通过如下公式进行筛选计算,获得准确的敏感词推送信息,在敏感词检索信息元素中形成准确率和召回率,
其推荐算法定义为:
其中,p为推荐信息的总分类数,则先验准确率为H(Ar,Br)=z'r/zr,其中Ar为第一推荐数据组,Br为第二推荐数据组,Cr为第三推荐数据组和Dr为第四推荐数据组,zr为Ar第一推荐数据组和Br第二推荐数据组中总的检索信息聚类数,z'r为Ar第一推荐数据组和Br第二推荐数据组中经过筛选的聚类数,后验准确率为H(Cr,Dr)=g'r/gr,其中gr为Cr第三推荐数据组和Dr第四推荐数据组中总的检索信息聚类数,g'r为Cr第三推荐数据组和Dr第四推荐数据组中经过筛选的聚类数,先验召回率为I(Ar,Br)=fr'/fr,其中fr为Ar第一推荐数据组和Br第二推荐数据组中总的检索信息召回数,fr'为Ar第一推荐数据组和Br第二推荐数据组中经过筛选的召回数,后验召回率为H(Cr,Dr)=w'r/wr,其中wr为Cr第三推荐数据组和Dr第四推荐数据组中总的检索信息召回数,w'r为Cr第三推荐数据组和Dr第二四推荐数据组中经过筛选的召回数。
优选的,经过计算之后形成信息推送的评分值,根据形成的检索信息目标函数的权重,设置敏感词需要获取检索数据的推荐阈值。
敏感词发出检索信息元素通过推荐算法选择操作,根据预设的云端服务器数据库中是否存储有所获取的检索信息,若确定所述数据库中存储有所述检索信息,则从所述数据库中提取与所述检索信息所对应的应用程序或者执行程序;以及从所述应用程序或者执行程序中提取与检索信息相关联的关键词;
对所述检索信息相关联的关键词进行分割,得到多个分割词;从而计算各个分割词与检索信息相关联的关键词的相似度;将与所述检索信息相关联的关键词的相似度大于预设相似度阈值的分割词作为与所述应用程序或者执行程序对应的程序。
根据敏感词发送检索信息元素确定该检索信息元素属于哪种类别,其中,计算针对检索信息元素的类别,若当前类别对应的检索信息元素属于对应的敏感词推送信息节点,则进行推送处理,如果不属于该敏感词推送信息节点,则否;
根据敏感词的历史检索时间轨迹;从所述敏感词的历史检索时间轨迹中确定相应的停留区域时间,各所述实时停留时间小于预设停留阈值,从而获取敏感词检索信息时间区间,在该时间区间进行信息加量推送;
计算敏感词发送检索信息元素集中时间点与历史时间点之间的时间差值;判断该时间差值是否大于预设时间阈值,当该时间差值大于预设时间阈值,计算该差值并将敏感词发送检索信息元素集中时间点调整到历史时间点,否则当该时间差值小于等于预设时间阈值,根据敏感词的历史运动轨迹中该参考点之后的下一个最近邻轨迹点作为参考点,从敏感词检索信息元素发出的的历史时间获取敏感词的所在科室,向该敏感词的账户发送确认请求信息,请求敏感词确认是否同意推送兴趣信息,如果敏感词确认该推送信息执行操作,云端服务器根据推荐算法发送推送信息,否则,如果敏感词未确认该推送信息执行操作,云端服务器不发送推送信息。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。