CN110334811A - 基于贝叶斯网络的动态数据流分类方法 - Google Patents
基于贝叶斯网络的动态数据流分类方法 Download PDFInfo
- Publication number
- CN110334811A CN110334811A CN201910571906.1A CN201910571906A CN110334811A CN 110334811 A CN110334811 A CN 110334811A CN 201910571906 A CN201910571906 A CN 201910571906A CN 110334811 A CN110334811 A CN 110334811A
- Authority
- CN
- China
- Prior art keywords
- data
- weight
- data block
- classification
- indicate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Computational Mathematics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于贝叶斯网络的动态数据流分类方法,从互联网应用中采集关于用户点击新闻的批量数据,将所有数据分为若干数据块,所有数据块以流的形式呈现并留待之后处理,先在第一个数据块上使用朴素贝叶斯算法建立朴素贝叶斯模型,将数据块放入数据集中并进行分类取得数据块中每条数据的权重并校正、剔除,直到数据流的分类过程完成。本发明解决了现有技术中存在的朴素贝叶斯分类器处理存在概念漂移和数据转移的动态数据流时分类性能大大降低的问题。
Description
技术领域
本发明属于计算机自然语言处理、数据挖掘技术领域,具体涉及一种基于贝叶斯网络的动态数据流分类方法。
背景技术
随着大数据时代的到来,在线数据大幅增加,实时挖掘海量数据流已成为机器学习领域面临的一大挑战。在线学习方法通过对数据的逐条处理,并利用增量式更新模型的方法实现了海量数据的实时处理,受到了研究人员的广泛关注。在众多专用于数据流分类和在线学习的算法中,Naive Bayes分类器由于其简单性、在线性以及对时间和内存的低要求成为一种极具吸引力的方法。但朴素贝叶斯分类器并没有检测和处理概念漂移的机制,因此当出现数据非静止情况时会严重影响其分类性能。
发明内容
本发明的目的是提供一种基于贝叶斯网络的动态数据流分类方法,解决了现有技术中存在的朴素贝叶斯分类器处理存在概念漂移和数据转移的动态数据流时分类性能大大降低的问题。
本发明所采用的技术方案是,基于贝叶斯网络的动态数据流分类方法,具体按照以下步骤实施:
步骤1、从互联网应用中采集关于用户点击新闻的批量数据,将所有数据分为若干数据块,每个数据块包含10000条数据,其中每个数据块表示互联网应用中某一时间段采集到的数据,所有数据块D1,D2,...Di...,Dn以流的形式呈现并留待之后处理,n表示数据块的个数,先在第一个数据块D1上使用朴素贝叶斯算法建立朴素贝叶斯模型,将数据块D1放入数据集D中;
步骤2:针对第i个数据块Di,使用步骤1中建立的朴素贝叶斯模型对Di进行分类,得到数据块Di的10000条数据的类别,采用最大权重计算公式取得数据块Di中每条数据的权重,并使用权重衰减的遗忘加权公式校正Di中每条数据的权重;
步骤3:将数据块Di合并入数据集D,剔除D中权重小于0.1的所有数据,随后在数据集D上基于更新后的权值采用朴素贝叶斯算法建立朴素贝叶斯模型;
步骤4:重复步骤2和步骤3,直到处理完数据流上的最后一个数据块Dn,数据流的分类过程完成。
本发明的特点还在于,
步骤2中当处理到第k个数据块Dk时,使用步骤1中建立的朴素贝叶斯模型对数据块Dk进行分类,得到数据块Dk的10000条数据的类别,朴素贝叶斯分类模型如下:
其中,cm表示第m个类别,p(cm|a1,a2,...,af)表示在特征为a1,a2,...,af时类别为cm的概率,p(cm)表示所有样本中类别为cm的概率,f为给定特征个数,aj表示第j个特征,p(aj|cm)表示类别为cm的样本包含特征aj的概率,M表示类别个数。
步骤2中采用最大权重计算公式取得数据块Dk中每条数据的权重,因为权重的目的在于提高最近到达的数据块中的实例的重要程度,因此对于来自当前流块Dk的所有实例,为其分配最大权值1,最终得到加权后的实例集,最大权重计算公式为其中xi表示第i条数据,Dk表示第k个数据块,wi表示第i条数据的权值;
步骤2中使用权重衰减的遗忘加权公式校正数据集Dk中每条数据的权重;权重衰减的遗忘加权公式如下:
其中,k表示第k个数据块,表示权重更新之前第i条数据的权重,表示当新数据块Dk到达开始处理处理时第i条数据的权重,β表示遗忘因子。
本发明的有益效果是,一种基于贝叶斯网络的动态数据流分类方法,在依据重要性加权后的实例集上构建用于流数据分类的朴素贝叶斯分类器。通过结合处理来自新输入实例和旧实例的方法,得到了一个自适应分类器,可以在存在概念漂移的情况下进行学习。由于对最新实例赋予了最大权重并且逐渐忘记了过时的实例,所以可以自动地适应变化,不需要任何明确的漂移检测器,这是此模型的一个显著优点,避免了选择适当的漂移探测器的问题。
附图说明
图1是本发明一种基于贝叶斯网络的动态数据流分类方法的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于贝叶斯网络的动态数据流分类方法,流程图如图1所示,具体按照以下步骤实施:
步骤1、从互联网应用中采集关于用户点击新闻的批量数据,将所有数据分为若干数据块,每个数据块包含10000条数据,其中每个数据块表示互联网应用中某一时间段采集到的数据,所有数据块D1,D2,...Di...,Dn以流的形式呈现并留待之后处理,n表示数据块的个数,先在第一个数据块D1上使用朴素贝叶斯算法建立朴素贝叶斯模型,将数据块D1放入数据集D中;
步骤2:针对第i个数据块Di,使用步骤1中建立的朴素贝叶斯模型对Di进行分类,得到数据块Di的10000条数据的类别,采用最大权重计算公式取得数据块Di中每条数据的权重,并使用权重衰减的遗忘加权公式校正Di中每条数据的权重,其中,当处理到第k个数据块Dk时,使用步骤1中建立的朴素贝叶斯模型对数据块Dk进行分类,得到数据块Dk的10000条数据的类别,朴素贝叶斯分类模型如下:
其中,cm表示第m个类别,p(cm|a1,a2,...,af)表示在特征为a1,a2,...,af时类别为cm的概率,p(cm)表示所有样本中类别为cm的概率,f为给定特征个数,aj表示第j个特征,p(aj|cm)表示类别为cm的样本包含特征aj的概率,M表示类别个数。
步骤2中采用最大权重计算公式取得数据块Dk中每条数据的权重,因为权重的目的在于提高最近到达的数据块中的实例的重要程度,因此对于来自当前流块Dk的所有实例,为其分配最大权值1,最终得到加权后的实例集,最大权重计算公式为其中xi表示第i条数据,Dk表示第k个数据块,wi表示第i条数据的权值;
步骤2中使用权重衰减的遗忘加权公式校正数据集Dk中每条数据的权重;权重衰减的遗忘加权公式如下:
其中,k表示第k个数据块,表示权重更新之前第i条数据的权重,表示当新数据块Dk到达开始处理处理时第i条数据的权重,β表示遗忘因子。
步骤3:将数据块Di合并入数据集D,剔除D中权重小于0.1的所有数据,随后在数据集D上基于更新后的权值采用朴素贝叶斯算法建立朴素贝叶斯模型;
步骤4:重复步骤2和步骤3,直到处理完数据流上的最后一个数据块Dn,数据流的分类过程完成。
在本发明基于贝叶斯网络的动态数据流分类方法中:步骤2的作用是为数据集上的所有实例分别实现加权。采用最大权重计算公式取得最新数据块中各实例的权重,其原理是:通过权重来体现各实例的重要程度,为了提高最近到达的数据块中的实例的重要程度,对于来自当前流块Dn的所有对象,为其分配最大权值1。
但是,如果仅为新实例应用此加权方案,就将获得标准的朴素贝叶斯方法,因为所有对象都将具有相同的权重。另外,由于要存储从数据流中提取的所有实例,将会加大对内存的需求,并会导致分类器的泛化能力较差。针对这些问题,可以删除不再代表所分析数据流当前状态的不必要和过时的实例。随着时间的推移,实例的重要程度会逐渐减少,特别是在非静止的环境下,实例的当前特征可能与先前迭代的特征明显不同。基于此,可为加权朴素贝叶斯分类器增加一个遗忘原则。
最简单的方法是从之前或最旧的迭代中删除实例。然而,这样就会丢弃它们所携带的所有信息,即便它们仍然可能对分类有一定的贡献,例如在数据分布变化不快即出现逐渐概念漂移的情况下。因此,可以采用权重衰减的遗忘加权公式校正之前到达的旧数据上所有实例的权重,其优点在于:可以平滑地忘记先前的数据,并且变化的快慢程度可以由用户来控制,漂移速度越快,模型的适应性就会越弱。在每次迭代中,根据遗忘函数减少其权重来惩罚来自先前块的实例,就会逐渐减少旧实例在计算类后验概率时带来的影响。
附图1所示的为基于贝叶斯网络的动态数据流分类方法的流程图,对于各个流式到达的数据块,首先在数据块D1上建立一个朴素贝叶斯模型,并保存于系统中。当Dn到达后,基于最新数据块Dn对旧实例的权重进行更新,并根据最大权重计算公式对新数据赋予权重。然后将Dn与数据集D合并,检查D中所有实例的权重,将低于预先设定阈值的实例丢弃。最后在D上构建加权朴素贝叶斯分类器。将这个过程一直迭代下去,直到输入数据流结束。
实施例
Electricity数据集采集自澳洲威尔士电力市场,数据集包含了自1996年5月7日至1997年8月23日的21364条数据,每条数据由8个特征组成。以1000条数据为单位,将所有数据分为20块。
Covertype数据描述了森林区域观测情况,包括51个数据特征以及6种森林覆盖类型。数据集包含581000条数据,以1000条数据为单位,将所有数据分为581块。
Click-through Rate Prediction数据采集自真实的互联网应用,描述了用户点击新闻的具体情况。该数据集采集自15个自然日。经数据预处理后,每天包含20,000条数据,共计300,000条数据,以及100个数据特征。以10000条数据为单位,将所有数据分为30块,其中每个数据块表示互联网应用中某一时间段采集到的数据,所有数据块D1,D2,...Di...,D30以流的形式呈现出来并留待之后处理,先在第一个数据块D1上使用朴素贝叶斯算法建立朴素贝叶斯模型,将数据块D1放入数据集D;
针对第i个数据块Di,使用步骤1中建立的朴素贝叶斯模型对Di进行分类,得到数据块Di的10000条数据的类别,采用最大权重计算公式取得数据块Di中每条数据的权重,并使用权重衰减的遗忘加权公式校正Di中每条数据的权重;
将数据块Di合并入数据集D,剔除D中权重小于0.1的所有数据,随后在数据集D上基于更新后的权值采用朴素贝叶斯算法建立朴素贝叶斯模型;
重复前面步骤,直到处理完数据流上的最后一个数据块D30,得到所处理数据流的分类模型。
本发明的方法通过为朴素贝叶斯算法加入基于遗忘机制的加权方案成功地解决了数据流中的概念漂移问题。在依据重要性加权后的实例集上构建用于流数据分类的朴素贝叶斯分类器。通过结合处理来自新输入实例和旧实例的方法,得到了一个自适应分类器,可以在存在概念漂移的情况下进行学习。由于对最新实例赋予了最大权重并且逐渐忘记了过时的实例,所以可以自动地适应变化,不需要任何明确的漂移检测器,这是此模型的一个显著优点,避免了选择适当的漂移探测器的问题。
Claims (4)
1.基于贝叶斯网络的动态数据流分类方法,其特征在于,具体按照以下步骤实施:
步骤1、从互联网应用中采集关于用户点击新闻的批量数据,将所有数据分为若干数据块,每个数据块包含10000条数据,其中每个数据块表示互联网应用中某一时间段采集到的数据,所有数据块D1,D2,...Di...,Dn以流的形式呈现并留待之后处理,n表示数据块的个数,先在第一个数据块D1上使用朴素贝叶斯算法建立朴素贝叶斯模型,将数据块D1放入数据集D中;
步骤2:针对第i个数据块Di,使用步骤1中建立的朴素贝叶斯模型对Di进行分类,得到数据块Di的10000条数据的类别,采用最大权重计算公式取得数据块Di中每条数据的权重,并使用权重衰减的遗忘加权公式校正Di中每条数据的权重;
步骤3:将数据块Di合并入数据集D,剔除D中权重小于0.1的所有数据,随后在数据集D上基于更新后的权值采用朴素贝叶斯算法建立朴素贝叶斯模型;
步骤4:重复步骤2和步骤3,直到处理完数据流上的最后一个数据块Dn,数据流的分类过程完成。
2.根据权利要求1所述的基于贝叶斯网络的动态数据流分类方法,其特征在于,所述步骤2中当处理到第k个数据块Dk时,使用步骤1中建立的朴素贝叶斯模型对数据块Dk进行分类,得到数据块Dk的10000条数据的类别,朴素贝叶斯分类模型如下:
其中,cm表示第m个类别,p(cm|a1,a2,...,af)表示在特征为a1,a2,...,af时类别为cm的概率,p(cm)表示所有样本中类别为cm的概率,f为给定特征个数,aj表示第j个特征,p(aj|cm)表示类别为cm的样本包含特征aj的概率,M表示类别个数。
3.根据权利要求2所述的基于贝叶斯网络的动态数据流分类方法,其特征在于,所述步骤2中采用最大权重计算公式取得数据块Dk中每条数据的权重,因为权重的目的在于提高最近到达的数据块中的实例的重要程度,因此对于来自当前流块Dk的所有实例,为其分配最大权值1,最终得到加权后的实例集,最大权重计算公式为其中xi表示第i条数据,Dk表示第k个数据块,wi表示第i条数据的权值。
4.根据权利要求3所述的基于贝叶斯网络的动态数据流分类方法,其特征在于,所述步骤2中使用权重衰减的遗忘加权公式校正数据集Dk中每条数据的权重;权重衰减的遗忘加权公式如下:
其中,k表示第k个数据块,表示权重更新之前第i条数据的权重,表示当新数据块Dk到达开始处理处理时第i条数据的权重,β表示遗忘因子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910571906.1A CN110334811A (zh) | 2019-06-28 | 2019-06-28 | 基于贝叶斯网络的动态数据流分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910571906.1A CN110334811A (zh) | 2019-06-28 | 2019-06-28 | 基于贝叶斯网络的动态数据流分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110334811A true CN110334811A (zh) | 2019-10-15 |
Family
ID=68144487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910571906.1A Pending CN110334811A (zh) | 2019-06-28 | 2019-06-28 | 基于贝叶斯网络的动态数据流分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334811A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256803A (zh) * | 2020-10-21 | 2021-01-22 | 况客科技(北京)有限公司 | 动态数据类别确定系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020288A (zh) * | 2012-12-28 | 2013-04-03 | 大连理工大学 | 一种动态数据环境下的数据流分类方法 |
CN106354753A (zh) * | 2016-07-31 | 2017-01-25 | 信阳师范学院 | 数据流中基于模式发现的贝叶斯分类器 |
-
2019
- 2019-06-28 CN CN201910571906.1A patent/CN110334811A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020288A (zh) * | 2012-12-28 | 2013-04-03 | 大连理工大学 | 一种动态数据环境下的数据流分类方法 |
CN106354753A (zh) * | 2016-07-31 | 2017-01-25 | 信阳师范学院 | 数据流中基于模式发现的贝叶斯分类器 |
Non-Patent Citations (3)
Title |
---|
BARTOSZ KRAWCZYK 等,: "Weighted Naive Bayes Classifier with Forgetting for Drifting Data Streams", 《2015 IEEE INTERNATIONAL CONFERENCE ON SYSTEMS》 * |
任思琪,: "基于概念漂移的数据流集成分类算法研究", 《中国博士学位论文全文数据库信息科技辑》 * |
刘红庆 等,: "基于加权机制概念漂移的数据流GNB分类检测", 《控制工程》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256803A (zh) * | 2020-10-21 | 2021-01-22 | 况客科技(北京)有限公司 | 动态数据类别确定系统 |
CN112256803B (zh) * | 2020-10-21 | 2021-09-14 | 况客科技(北京)有限公司 | 动态数据类别确定系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108388651A (zh) | 一种基于图核和卷积神经网络的文本分类方法 | |
CN110851176B (zh) | 一种自动构造并利用伪克隆语料的克隆代码检测方法 | |
CN103294817A (zh) | 一种基于类别分布概率的文本特征抽取方法 | |
CN103927302A (zh) | 一种文本分类方法和系统 | |
CN102572744B (zh) | 识别特征库获取方法、装置及短消息识别方法、装置 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN103902694B (zh) | 基于聚类和查询行为的检索结果排序方法 | |
CN112256739B (zh) | 一种基于多臂赌博机的动态流大数据中数据项筛选方法 | |
CN106547864A (zh) | 一种基于查询扩展的个性化信息检索方法 | |
CN106960248A (zh) | 一种基于数据驱动预测用户问题的方法及装置 | |
CN109191210A (zh) | 一种基于Adaboost算法的宽带目标用户识别方法 | |
CN107145895A (zh) | 基于k‑means算法的公安犯罪类案研判方法 | |
CN116644184B (zh) | 基于数据聚类的人力资源信息管理系统 | |
CN110334811A (zh) | 基于贝叶斯网络的动态数据流分类方法 | |
Sheng et al. | Data Mining in census data with CART | |
CN103902706A (zh) | 一种基于svm的大数据分类预测方法 | |
CN107122420A (zh) | 一种旅游热点事件检测方法及系统 | |
CN106600100A (zh) | 一种基于加权的多种群粒子群优化的危险源原因分析方法 | |
CN106126739A (zh) | 一种处理业务关联数据的装置 | |
CN109871894A (zh) | 一种结合森林优化和粗糙集的数据离散化方法 | |
CN108874974A (zh) | 基于频繁词集的并行化话题跟踪方法 | |
CN111026863A (zh) | 客户行为预测方法、装置、设备及介质 | |
CN111950717B (zh) | 一种基于神经网络的舆情量化方法 | |
CN112052336B (zh) | 一种基于社交网络平台信息的交通突发事件识别方法及系统 | |
Fong et al. | A scalable data stream mining methodology: stream-based holistic analytics and reasoning in parallel |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191015 |