CN109189908A - 海量数据提取推送工作方法 - Google Patents

海量数据提取推送工作方法 Download PDF

Info

Publication number
CN109189908A
CN109189908A CN201810962338.3A CN201810962338A CN109189908A CN 109189908 A CN109189908 A CN 109189908A CN 201810962338 A CN201810962338 A CN 201810962338A CN 109189908 A CN109189908 A CN 109189908A
Authority
CN
China
Prior art keywords
sensitive word
data group
information
information element
recommending data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810962338.3A
Other languages
English (en)
Other versions
CN109189908B (zh
Inventor
刘玉蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qiao Yang
Original Assignee
Chongqing City Intellectual Property Road Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing City Intellectual Property Road Science And Technology Co Ltd filed Critical Chongqing City Intellectual Property Road Science And Technology Co Ltd
Priority to CN201810962338.3A priority Critical patent/CN109189908B/zh
Publication of CN109189908A publication Critical patent/CN109189908A/zh
Application granted granted Critical
Publication of CN109189908B publication Critical patent/CN109189908B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种海量数据提取推送工作方法,包括如下步骤:获取网络敏感词,进入平台之后,敏感词发送信息搜索请求,对具有相似度的信息进行聚类整合形成聚类算法目标函数,通过推荐信息筛选之后获得筛选后的集成信息,通过敏感词所处的信息接口进行信息推送。

Description

海量数据提取推送工作方法
技术领域
本发明涉及计算机数据挖掘领域,尤其涉及一种海量数据提取推送工作方法。
背景技术
由于互联网越来越普及,使用者在进行网络浏览或者网络搜索过程中都需要对自己的言行进行约束,避免不良信息进行传播造成负面影响,尤其对于未成年人或者思想偏执的人群需要进行网络信息屏蔽,将敏感信息进行提炼,但是现有的做法都是通过简单的数据归类整理进行数据挖掘,不能准确和全面的将敏感词提炼得到,这就亟需本领域技术人员解决相应的技术问题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种海量数据提取推送工作方法。
为了实现本发明的上述目的,本发明提供了一种海量数据提取推送工作方法,包括如下步骤:
S1,获取网络敏感词,通过如下公式进行敏感词聚类计算,通过高斯混合模型的敏感词聚类算法计算聚类因子qs的推荐概率Q(qs=h|i,j,k),h为检索信息类别,i、j、k为敏感词检索信息元素,i>j且i+j=k,实现条件聚类函数的构建,利用推荐概率公式进行计算敏感词聚类信息:
其中,上标T分别为(xii)和(yjj)的转置,ui为敏感词检索信息元素i作为样本特征的均值,vj为敏感词检索信息元素j作为样本特征的均值,xi为敏感词检索信息元素i的示例,yj为敏感词检索信息元素j的示例,αi为敏感词检索信息元素i的隐含变量,αj为敏感词检索信息元素j的隐含变量;
E(Qi(k)||Qj(k))为云端服务器构造的关联特征数据集,Qi(k)为总体检索信息k中敏感词检索信息元素i的数据集,Qj(k)为总体检索信息k中敏感词检索信息元素j的数据集,λi,j为敏感词检索信息元素i和j的后验概率,m、n为正整数;其中马氏距离计算公式中M为xi,yj的协方差矩阵,为敏感词检索信息元素i示例的特征向量,为敏感词检索信息元素j示例的特征向量,Φi为敏感词检索信息元素i的类别判断比率,Φj为敏感词检索信息元素j的类别判断比率;
S2,通过推荐信息筛选之后获得筛选后的集成信息,通过如下公式进行筛选计算,获得准确的敏感词推送信息,在敏感词检索信息元素中形成准确率和召回率,
其推荐算法定义为:
其中,p为推荐信息的总分类数,则先验准确率为H(Ar,Br)=z'r/zr,其中Ar为第一推荐数据组,Br为第二推荐数据组,Cr为第三推荐数据组和Dr为第四推荐数据组,zr为Ar第一推荐数据组和Br第二推荐数据组中总的检索信息聚类数,z'r为Ar第一推荐数据组和Br第二推荐数据组中经过筛选的聚类数,后验准确率为H(Cr,Dr)=g'r/gr,其中gr为Cr第三推荐数据组和Dr第四推荐数据组中总的检索信息聚类数,g'r为Cr第三推荐数据组和Dr第四推荐数据组中经过筛选的聚类数,先验召回率为I(Ar,Br)=fr'/fr,其中fr为Ar第一推荐数据组和Br第二推荐数据组中总的检索信息召回数,fr'为Ar第一推荐数据组和Br第二推荐数据组中经过筛选的召回数,后验召回率为H(Cr,Dr)=w'r/wr,其中wr为Cr第三推荐数据组和Dr第四推荐数据组中总的检索信息召回数,w'r为Cr第三推荐数据组和Dr第二四推荐数据组中经过筛选的召回数。
优选的,经过计算之后形成信息推送的评分值,根据形成的检索信息目标函数的权重,设置敏感词需要获取检索数据的推荐阈值。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
通过归类整理相应敏感词的需求,从而提取出具有针对性的特征数据,从而推送给该需求的敏感词,通过收集模型归类的数据能够准确的获取不同敏感词的不同信息需求,然后通过推送模块进行定点推送以及准确发表相应敏感词的需求信息,帮助敏感词获取准确信息,经过归类模型筛选之后的数据具有极强的鲁棒性,对于推送平台提供了良好的参考作用。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明方法流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
如图1所示,一种海量数据提取推送工作方法,包括如下步骤:
S1,获取网络敏感词,通过如下公式进行敏感词聚类计算,通过高斯混合模型的敏感词聚类算法计算聚类因子qs的推荐概率Q(qs=h|i,j,k),h为检索信息类别,i、j、k为敏感词检索信息元素,i>j且i+j=k,实现条件聚类函数的构建,利用推荐概率公式进行计算敏感词聚类信息:
其中,上标T分别为(xii)和(yjj)的转置,ui为敏感词检索信息元素i作为样本特征的均值,vj为敏感词检索信息元素j作为样本特征的均值,xi为敏感词检索信息元素i的示例,yj为敏感词检索信息元素j的示例,αi为敏感词检索信息元素i的隐含变量,αj为敏感词检索信息元素j的隐含变量;
E(Qi(k)||Qj(k))为云端服务器构造的关联特征数据集,Qi(k)为总体检索信息k中敏感词检索信息元素i的数据集,Qj(k)为总体检索信息k中敏感词检索信息元素j的数据集,λi,j为敏感词检索信息元素i和j的后验概率,m、n为正整数;其中马氏距离计算公式中M为xi,yj的协方差矩阵,为敏感词检索信息元素i示例的特征向量,为敏感词检索信息元素j示例的特征向量,Φi为敏感词检索信息元素i的类别判断比率,Φj为敏感词检索信息元素j的类别判断比率;
S2,通过推荐信息筛选之后获得筛选后的集成信息,通过如下公式进行筛选计算,获得准确的敏感词推送信息,在敏感词检索信息元素中形成准确率和召回率,
其推荐算法定义为:
其中,p为推荐信息的总分类数,则先验准确率为H(Ar,Br)=z'r/zr,其中Ar为第一推荐数据组,Br为第二推荐数据组,Cr为第三推荐数据组和Dr为第四推荐数据组,zr为Ar第一推荐数据组和Br第二推荐数据组中总的检索信息聚类数,z'r为Ar第一推荐数据组和Br第二推荐数据组中经过筛选的聚类数,后验准确率为H(Cr,Dr)=g'r/gr,其中gr为Cr第三推荐数据组和Dr第四推荐数据组中总的检索信息聚类数,g'r为Cr第三推荐数据组和Dr第四推荐数据组中经过筛选的聚类数,先验召回率为I(Ar,Br)=fr'/fr,其中fr为Ar第一推荐数据组和Br第二推荐数据组中总的检索信息召回数,fr'为Ar第一推荐数据组和Br第二推荐数据组中经过筛选的召回数,后验召回率为H(Cr,Dr)=w'r/wr,其中wr为Cr第三推荐数据组和Dr第四推荐数据组中总的检索信息召回数,w'r为Cr第三推荐数据组和Dr第二四推荐数据组中经过筛选的召回数。
优选的,经过计算之后形成信息推送的评分值,根据形成的检索信息目标函数的权重,设置敏感词需要获取检索数据的推荐阈值。
敏感词发出检索信息元素通过推荐算法选择操作,根据预设的云端服务器数据库中是否存储有所获取的检索信息,若确定所述数据库中存储有所述检索信息,则从所述数据库中提取与所述检索信息所对应的应用程序或者执行程序;以及从所述应用程序或者执行程序中提取与检索信息相关联的关键词;
对所述检索信息相关联的关键词进行分割,得到多个分割词;从而计算各个分割词与检索信息相关联的关键词的相似度;将与所述检索信息相关联的关键词的相似度大于预设相似度阈值的分割词作为与所述应用程序或者执行程序对应的程序。
根据敏感词发送检索信息元素确定该检索信息元素属于哪种类别,其中,计算针对检索信息元素的类别,若当前类别对应的检索信息元素属于对应的敏感词推送信息节点,则进行推送处理,如果不属于该敏感词推送信息节点,则否;
根据敏感词的历史检索时间轨迹;从所述敏感词的历史检索时间轨迹中确定相应的停留区域时间,各所述实时停留时间小于预设停留阈值,从而获取敏感词检索信息时间区间,在该时间区间进行信息加量推送;
计算敏感词发送检索信息元素集中时间点与历史时间点之间的时间差值;判断该时间差值是否大于预设时间阈值,当该时间差值大于预设时间阈值,计算该差值并将敏感词发送检索信息元素集中时间点调整到历史时间点,否则当该时间差值小于等于预设时间阈值,根据敏感词的历史运动轨迹中该参考点之后的下一个最近邻轨迹点作为参考点,从敏感词检索信息元素发出的的历史时间获取敏感词的所在科室,向该敏感词的账户发送确认请求信息,请求敏感词确认是否同意推送兴趣信息,如果敏感词确认该推送信息执行操作,云端服务器根据推荐算法发送推送信息,否则,如果敏感词未确认该推送信息执行操作,云端服务器不发送推送信息。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (2)

1.一种海量数据提取推送工作方法,其特征在于,包括如下步骤:
S1,获取网络敏感词,通过如下公式进行敏感词聚类计算,通过高斯混合模型的敏感词聚类算法计算聚类因子qs的推荐概率Q(qs=h|i,j,k),h为检索信息类别,i、j、k为敏感词检索信息元素,i>j且i+j=k,实现条件聚类函数的构建,利用推荐概率公式进行计算敏感词聚类信息:
其中,上标T分别为(xii)和(yjj)的转置,ui为敏感词检索信息元素i作为样本特征的均值,vj为敏感词检索信息元素j作为样本特征的均值,xi为敏感词检索信息元素i的示例,yj为敏感词检索信息元素j的示例,αi为敏感词检索信息元素i的隐含变量,αj为敏感词检索信息元素j的隐含变量;
E(Qi(k)||Qj(k))为云端服务器构造的关联特征数据集,Qi(k)为总体检索信息k中敏感词检索信息元素i的数据集,Qj(k)为总体检索信息k中敏感词检索信息元素j的数据集,λi,j为敏感词检索信息元素i和j的后验概率,m、n为正整数;其中马氏距离计算公式中M为xi,yj的协方差矩阵,为敏感词检索信息元素i示例的特征向量,为敏感词检索信息元素j示例的特征向量,Φi为敏感词检索信息元素i的类别判断比率,Φj为敏感词检索信息元素j的类别判断比率;
S2,通过推荐信息筛选之后获得筛选后的集成信息,通过如下公式进行筛选计算,获得准确的敏感词推送信息,在敏感词检索信息元素中形成准确率和召回率,
其推荐算法定义为:
其中,p为推荐信息的总分类数,则先验准确率为H(Ar,Br)=z'r/zr,其中Ar为第一推荐数据组,Br为第二推荐数据组,Cr为第三推荐数据组和Dr为第四推荐数据组,zr为Ar第一推荐数据组和Br第二推荐数据组中总的检索信息聚类数,z'r为Ar第一推荐数据组和Br第二推荐数据组中经过筛选的聚类数,后验准确率为H(Cr,Dr)=g'r/gr,其中gr为Cr第三推荐数据组和Dr第四推荐数据组中总的检索信息聚类数,g'r为Cr第三推荐数据组和Dr第四推荐数据组中经过筛选的聚类数,先验召回率为I(Ar,Br)=fr'/fr,其中fr为Ar第一推荐数据组和Br第二推荐数据组中总的检索信息召回数,f′r为Ar第一推荐数据组和Br第二推荐数据组中经过筛选的召回数,后验召回率为H(Cr,Dr)=w'r/wr,其中wr为Cr第三推荐数据组和Dr第四推荐数据组中总的检索信息召回数,w'r为Cr第三推荐数据组和Dr第二四推荐数据组中经过筛选的召回数。
2.根据权利要求1所述的海量数据提取推送工作方法,其特征在于,经过计算之后形成信息推送的评分值,根据形成的检索信息目标函数的权重,设置敏感词需要获取检索数据的推荐阈值。
CN201810962338.3A 2018-08-22 2018-08-22 海量数据提取推送工作方法 Active CN109189908B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810962338.3A CN109189908B (zh) 2018-08-22 2018-08-22 海量数据提取推送工作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810962338.3A CN109189908B (zh) 2018-08-22 2018-08-22 海量数据提取推送工作方法

Publications (2)

Publication Number Publication Date
CN109189908A true CN109189908A (zh) 2019-01-11
CN109189908B CN109189908B (zh) 2019-08-20

Family

ID=64919191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810962338.3A Active CN109189908B (zh) 2018-08-22 2018-08-22 海量数据提取推送工作方法

Country Status (1)

Country Link
CN (1) CN109189908B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114399058A (zh) * 2022-03-25 2022-04-26 腾讯科技(深圳)有限公司 一种模型更新的方法、相关装置、设备以及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760138A (zh) * 2011-04-26 2012-10-31 北京百度网讯科技有限公司 用户网络行为的分类方法和装置及对应的搜索方法和装置
CN102945273A (zh) * 2012-11-06 2013-02-27 北京百度网讯科技有限公司 一种用于提供搜索结果的方法和设备
CN103186527A (zh) * 2011-12-27 2013-07-03 北京百度网讯科技有限公司 建立音乐分类模型的系统、推荐音乐的系统及相应方法
CN103838756A (zh) * 2012-11-23 2014-06-04 阿里巴巴集团控股有限公司 一种确定推送信息的方法及装置
CN105069102A (zh) * 2015-08-03 2015-11-18 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN106919577A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 基于搜索词进行搜索推荐的方法、装置和搜索引擎
CN107464132A (zh) * 2017-07-04 2017-12-12 北京三快在线科技有限公司 一种相似用户挖掘方法及装置,电子设备
CN107871013A (zh) * 2017-11-23 2018-04-03 安徽科创智慧知识产权服务有限公司 一种海量数据高效抽取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760138A (zh) * 2011-04-26 2012-10-31 北京百度网讯科技有限公司 用户网络行为的分类方法和装置及对应的搜索方法和装置
CN103186527A (zh) * 2011-12-27 2013-07-03 北京百度网讯科技有限公司 建立音乐分类模型的系统、推荐音乐的系统及相应方法
CN102945273A (zh) * 2012-11-06 2013-02-27 北京百度网讯科技有限公司 一种用于提供搜索结果的方法和设备
CN103838756A (zh) * 2012-11-23 2014-06-04 阿里巴巴集团控股有限公司 一种确定推送信息的方法及装置
CN105069102A (zh) * 2015-08-03 2015-11-18 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN106919577A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 基于搜索词进行搜索推荐的方法、装置和搜索引擎
CN107464132A (zh) * 2017-07-04 2017-12-12 北京三快在线科技有限公司 一种相似用户挖掘方法及装置,电子设备
CN107871013A (zh) * 2017-11-23 2018-04-03 安徽科创智慧知识产权服务有限公司 一种海量数据高效抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHANG, HUI;JIN, XIATING; WU, QMJ: "Automatic Visual Detection System of Railway Surface Defects With Curvature Filter and Improved Gaussian Mixture Model", 《IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT》 *
王立源: "关键词检测技术的研究及应用", 《中国优秀硕士学位论文全文数据库》 *
陈英: "高斯混合模型聚类及其优化算法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114399058A (zh) * 2022-03-25 2022-04-26 腾讯科技(深圳)有限公司 一种模型更新的方法、相关装置、设备以及存储介质
CN114399058B (zh) * 2022-03-25 2022-06-10 腾讯科技(深圳)有限公司 一种模型更新的方法、相关装置、设备以及存储介质

Also Published As

Publication number Publication date
CN109189908B (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
Stein et al. Intrinsic plagiarism analysis
CN110674841B (zh) 一种基于聚类算法的测井曲线识别方法
CN111698247B (zh) 异常账号检测方法、装置、设备及存储介质
CN103176983B (zh) 一种基于互联网信息的事件预警方法
CN102937951B (zh) 建立ip地址分类模型的方法、对用户分类的方法及装置
TWI438637B (zh) 用於擷取及管理社群智慧資訊的系統及方法
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
CN110413780A (zh) 文本情感分析方法、装置、存储介质及电子设备
CN106204156A (zh) 一种用于网络论坛的广告投放方法及装置
CN106709754A (zh) 一种用基于文本挖掘的电力用户分群方法
CN107633444B (zh) 基于信息熵与模糊c均值聚类的推荐系统噪声过滤方法
CN102270212A (zh) 一种基于隐半马尔可夫模型的用户兴趣特征提取方法
CN110457672A (zh) 关键词确定方法、装置、电子设备及存储介质
CN110688549B (zh) 一种基于知识体系图谱构建的人工智能分类方法与系统
US20200090058A1 (en) Model variable candidate generation device and method
KR20190128246A (ko) 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체
CN115688760B (zh) 一种智能化导诊方法、装置、设备及存储介质
CN106537387B (zh) 检索/存储与事件相关联的图像
CN103778206A (zh) 一种网络服务资源的提供方法
CN108763496A (zh) 一种基于网格和密度的动静态数据融合客户分类算法
CN108027814A (zh) 停用词识别方法与装置
CN106547864A (zh) 一种基于查询扩展的个性化信息检索方法
CN103970866A (zh) 基于微博文本的微博用户兴趣发现方法及系统
CN103761286A (zh) 一种基于用户兴趣的服务资源检索方法
CN109189908B (zh) 海量数据提取推送工作方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Qiao Yang

Inventor after: Liu Yurong

Inventor before: Liu Yurong

CB03 Change of inventor or designer information
TA01 Transfer of patent application right

Effective date of registration: 20190726

Address after: 250000 Unit 702, Building No. 5, 61 Qilishan Road, Shizhong District, Jinan City, Shandong Province

Applicant after: Qiao Yang

Address before: 401160 6 blocks 27-6, 123 Xinglong Avenue, Yongchuan District, Chongqing

Applicant before: Chongqing city intellectual property road science and Technology Co Ltd

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant