CN111782705A - 频繁数据的挖掘方法、装置、设备及计算机可读存储介质 - Google Patents
频繁数据的挖掘方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111782705A CN111782705A CN202010471207.2A CN202010471207A CN111782705A CN 111782705 A CN111782705 A CN 111782705A CN 202010471207 A CN202010471207 A CN 202010471207A CN 111782705 A CN111782705 A CN 111782705A
- Authority
- CN
- China
- Prior art keywords
- data
- item
- frequent
- mining
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000007418 data mining Methods 0.000 title claims description 26
- 238000005065 mining Methods 0.000 claims abstract description 73
- 238000004422 calculation algorithm Methods 0.000 abstract description 25
- 241000220225 Malus Species 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 206010006451 bronchitis Diseases 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 239000003814 drug Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 3
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 235000009754 Vitis X bourquina Nutrition 0.000 description 1
- 235000012333 Vitis X labruscana Nutrition 0.000 description 1
- 240000006365 Vitis vinifera Species 0.000 description 1
- 235000014787 Vitis vinifera Nutrition 0.000 description 1
- 230000000954 anitussive effect Effects 0.000 description 1
- 229940124599 anti-inflammatory drug Drugs 0.000 description 1
- 229940124584 antitussives Drugs 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- WQZGKKKJIJFFOK-VFUOTHLCSA-N beta-D-glucose Chemical compound OC[C@H]1O[C@@H](O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-VFUOTHLCSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 229940112822 chewing gum Drugs 0.000 description 1
- 235000015218 chewing gum Nutrition 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- ZZVUWRFHKOJYTH-UHFFFAOYSA-N diphenhydramine Chemical compound C=1C=CC=CC=1C(OCCN(C)C)C1=CC=CC=C1 ZZVUWRFHKOJYTH-UHFFFAOYSA-N 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000011780 sodium chloride Substances 0.000 description 1
- 229940034610 toothpaste Drugs 0.000 description 1
- 239000000606 toothpaste Substances 0.000 description 1
- 229940126673 western medicines Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据,公开了一种频繁数据的挖掘方法、装置、设备及存储介质,涉及数据处理技术领域,该方法的步骤包括:获取预设的待挖掘数据对应数据库中的项目数据集,以及获取所述项目数据集中的数据序列;确定所述项目数据集中各数据项目对应的重要度,并根据所述重要度和所述数据序列确定所述项目数据集对应的目标数据序列;根据所述重要度和所述目标数据序列创建频繁模式树FP‑Tree,并根据所述FP‑Tree挖掘所述待挖掘数据中的频繁数据。本发明提高了服务器运行FP‑Growth算法过程中的运行速率,以及提高了FP‑Growth算法在服务器中的运算速度。本发明还涉及区块链技术,所述频繁数据存储于区块链中。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种频繁数据的挖掘方法、装置、设备及计算机可读存储介质。
背景技术
FP-Growth是频繁数据挖掘的常用算法之一,FP-Growth将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。相较于Apriori(关联规则算法)算法,FP-Growth以牺牲小部分准确性为代价,显著提升了服务器运行FP-Growth算法的运行速率。然而随着大数据的应用越来越广泛,数据挖掘工作中遇到的数据集也越来越庞大,FP-Growth算法有限的算力也难以满足大部分数据挖掘任务的需求。
因此,目前在服务器运行FP-Growth算法过程中,由于数据集庞大,从而导致服务器的运行速率低下。
发明内容
本发明的主要目的在于提供一种频繁数据的挖掘方法、装置、设备及存储介质,旨在解决现有的在服务器运行FP-Growth算法过程中,服务器运行速率低下的技术问题。
为实现上述目的,本发明提供一种频繁数据的挖掘方法,所述频繁数据的挖掘方法包括步骤:
获取预设的待挖掘数据对应数据库中的项目数据集,以及获取所述项目数据集中的数据序列;
确定所述项目数据集中各数据项目对应的重要度,并根据所述重要度和所述数据序列确定所述项目数据集对应的目标数据序列;
根据所述重要度和所述目标数据序列创建频繁模式树FP-Tree,并根据所述FP-Tree挖掘所述待挖掘数据中的频繁数据。
可选地,所述频繁数据存储于区块链中,所述根据所述FP-Tree挖掘所述待挖掘数据中的频繁数据的步骤包括:
获取预设的第一最小支持度,根据所述第一最小支持度删除所述FP-Tree中权重小于所述第一最小支持度的子节点,得到处理后的FP-Tree;
确定处理后的FP-Tree中每一路径对应的待挖掘目标数据,以根据所述待挖掘目标数据确定所述待挖掘数据中的频繁数据。
可选地,所述确定所述项目数据集中各数据项目对应的重要度,并根据所述重要度和所述数据序列确定所述项目数据集对应的目标数据序列的步骤包括:
确定所述项目数据集中各数据项目对应的重要度,将各数据项目对应的重要度与预设第二最小支持度进行对比,以确定所述数据项目中重要度大于或者等于所述第二最小支持度的目标数据项目;
删除所述数据序列中除所述目标数据项目外的数据项目,得到所述项目数据集对应的目标数据序列。
可选地,所述将各数据项目对应的重要度与预设第二最小支持度进行对比,以确定所述数据项目中重要度大于或者等于所述第二最小支持度的目标数据项目的步骤之前,还包括:
确定所述项目数据集中数据项目的项目数量,根据所述项目数量确定所述第二最小支持度,其中,所述第二最小支持度随着所述项目数量的增大而增大。
可选地,所述根据所述重要度和所述目标数据序列创建FP-Tree的步骤包括:
根据所述目标数据项目对应的重要度对所述目标数据项目进行排序,得到排序后的目标数据项目;
根据排序后的目标数据项目和所述目标数据序列创建FP-Tree。
可选地,所述确定所述项目数据集中各数据项目对应的重要度的步骤包括:
确定待挖掘数据对应的项目数据子集,根据所述项目数据子集中的数据项目计算各数据项目的词频TF值,并根据所述项目数据集中的数据项目计算各数据项目逆文本频率指数IDF值;
根据所述IF值和所述IDF值对应计算得到所述项目数据集中各数据项目的重要度。
可选地,所述获取预设的待挖掘数据对应数据库中的项目数据集的步骤之前,还包括:
当侦测到对所述待挖掘数据进行挖掘的挖掘指令后,根据所述挖掘指令遍历所述待挖掘数据对应的数据库,以获取所述数据库中的项目数据集,其中,所述项目数据集中包括不同类型数据对应的数据项目,每一数据序列中至少含有一个数据项目。
此外,为实现上述目的,本发明还提供一种频繁数据的挖掘装置,所述频繁数据的挖掘装置包括:
获取模块,用于获取预设的待挖掘数据对应数据库中的项目数据集,以及获取所述项目数据集中的数据序列;
确定模块,用于确定所述项目数据集中各数据项目对应的重要度,并根据所述重要度和所述数据序列确定所述项目数据集对应的目标数据序列;
创建模块,用于根据所述重要度和所述目标数据序列创建频繁模式树FP-Tree;
挖掘模块,用于根据所述FP-Tree挖掘所述待挖掘数据中的频繁数据。
此外,为实现上述目的,本发明还提供一种频繁数据的挖掘设备,所述频繁数据的挖掘设备包括存储器、处理器和存储在所述存储器上并在所述处理器上运行的频繁数据的挖掘程序,所述频繁数据的挖掘程序被所述处理器执行时实现如上所述的频繁数据的挖掘方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有频繁数据的挖掘程序,所述频繁数据的挖掘程序被处理器执行时实现如上所述的频繁数据的挖掘方法的步骤。
本发明通过获取预设的待挖掘数据对应数据库中的项目数据集,以及获取项目数据集中的数据序列,确定项目数据集中各数据项目对应的重要度,并根据重要度和所述数据序列确定项目数据集对应的目标数据序列,根据重要度和目标数据序列创建FP-Tree,并根据FP-Tree挖掘待挖掘数据中的频繁数据。实现了在运行FP-Growth算法过程中,通过重要度来创建FP-Tree,从而减小创建FP-Tree过程中,含有数据特征较少的样本数据,来减少服务器使用FP-Growth算法过程中所处理的数据量,进而提高服务器运行FP-Growth算法过程中的运行速率,以及提高了FP-Growth算法在服务器中的运算速度。
附图说明
图1是本发明频繁数据的挖掘方法第一实施例的流程示意图;
图2是本发明频繁数据的挖掘方法第三实施例的流程示意图;
图3是本发明频繁数据的挖掘装置较佳的结构示意图;
图4是本发明实施例方案涉及的硬件运行环境的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种频繁数据的挖掘方法,参照图1,图1为本发明频繁数据的挖掘方法第一实施例的流程示意图。
本发明实施例提供了频繁数据的挖掘方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些数据下,可以以不同于此处的顺序执行所示出或描述的步骤。
频繁数据的挖掘方法应用于服务器或者终端中,终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)等移动终端,以及诸如数字TV、台式计算机等固定终端。在频繁数据的挖掘方法的各个实施例中,为了便于描述,以服务器为执行主体进行阐述各个实施例。频繁数据的挖掘方法包括:
步骤S10,获取预设的待挖掘数据对应数据库中的项目数据集,以及获取所述项目数据集中的数据序列。
服务器获取预设的待挖掘数据对应数据库中的项目数据集,其中,项目数据集中包括了所有类型数据对应的数据项目。待挖掘数据种类的不同,项目数据集中的数据项目也不同,即项目数据集中的数据项目由待挖掘数据的种类决定。在项目数据集中,一类数据为一个数据项目,每个用户所对应数据的为数据序列,项目数据集中至少包括一个数据序列。具体地,服务器可通过项目数据集中含有的用户标识的数量确定项目数据中数据序列的数量,用户标识为唯一表示某个用户的信息,本实施例对用户标识的具体表现形式不做具体限制。
如当项目数据集为存储A地区用户购买商品的商品数据,且A地区中存在10个商场时,待挖掘数据可为用户购买其中的某一个种商场的商品数据。此时,在项目数据集中,每个商品都为一个数据项目,每个用户所购买的商品构成一个数据序列,如数据序列中可为“牙膏、苹果、口香糖”或者“杯子、雨伞、苹果、葡萄”等。
当服务器获取到项目数据集后,服务器获取项目数据集中的数据序列。可以理解的是,每一数据序列对应的数据项目可能相同,也可能不相同。
步骤S20,确定所述项目数据集中各数据项目对应的重要度,并根据所述重要度和所述数据序列确定所述项目数据集对应的目标数据序列。
当服务器获取到项目数据集后,服务器确定项目数据集中各数据项目对应的重要度。具体地,服务器可通过TF-IDF(Term Frequency–Inverse Document Frequency)和/或随机森林等重要度算法计算出各个数据项目的重要度。当服务器确定项目数据集中各数据项目对应的重要度后,服务器根据各数据项目对应的重要度和数据序列确定项目数据集对应的目标数据序列。其中,项目数据集至少对应一个目标数据序列,目标数据序列中所含有的数据项目的数量小于或者等于项目数据集对应得数据序列。
进一步地,步骤S20包括:
步骤a,确定所述项目数据集中各数据项目对应的重要度,将各数据项目对应的重要度与预设第二最小支持度进行对比,以确定所述数据项目中重要度大于或者等于所述第二最小支持度的目标数据项目。
具体地,服务器确定项目数据集中各数据项目对应的重要度,将各数据项目对应的重要度与预设第二最小支持度进行对比,得到对比结果。其中,每一数据项目对应一个重要度,第二最小支持度的大小可根据具体需要而设置,本实施例不限制第二最小支持度的大小。当服务器得到对比结果后,服务器根据对比结果确定数据项目中重要度大于或者等于第二最小支持度的目标数据项目,即将重要度大于或者等于第二最小支持度的数据项目确定为目标数据项目。
步骤b,删除所述数据序列中除所述目标数据项目外的数据项目,得到所述项目数据集对应的目标数据序列。
当服务器确定目标数据项目后,服务器删除数据序列中除目标数据项目外的数据项目,得到项目数据集对应的目标数据序列,即删除数据序列重要度小于第二最小支持度的数据项目,得到目标数据序列。
进一步地,所述确定所述项目数据集中各数据项目对应的重要度的步骤包括:
步骤c,确定待挖掘数据对应的项目数据子集,根据所述项目数据子集中的数据项目计算各数据项目的词频TF值,并根据所述项目数据集中的数据项目计算各数据项目逆文本频率指数IDF值。
进一步地,在服务器确定各数据项目对应重要度过程中,服务器确定待挖掘数据对应的项目数据子集。具体地,项目数据子集为项目数据集中数据项目的进一步分类,如“苹果”属于水果的项目数据子集,“杯子”属于生活用品的项目数据子集。在本实施例中,预先设置好各种项目数据子集所包含的数据项目。当服务器获取到待挖掘数据后,服务器即可根据待挖掘数据所属数据项目确定其对应的项目数据子集。
当服务器确定待挖掘数据对应的项目数据子集后,服务器根据项目数据子集中的数据项目计算各数据项目的IF(词频)值,即将项目数据子集中的数据项目作为样本数据计算待挖掘数据对应各数据项目的TF值;并根据项目数据集中的数据项目计算各数据项目的IDF(逆文本频率指数)值,即将项目数据集中的数据项目作为样本数据计算待挖掘数据对应各数据项目的IDF值。
步骤d,根据所述IF值和所述IDF值对应计算得到所述项目数据集中各数据项目的重要度。
当服务器计算得到各数据项目的IF值和IDF值,根据各项目数据对应的IF值和IDF值对应计算得到项目数据集中各数据项目的重要度。具体地,服务器可将同一数据项目的IF值乘以对应的IDF值,得到乘积,将该乘积确定为该数据项目的重要度。如A数据项目对应的IF值为a1,对应的IDF值为a2,则A数据项目对应的重要度为a1×a2。
进一步地,为了提高计算各个数据项目重要度的准确率,可采用至少两种重要度算法计算各个数据项目的重要度。如当采用三种重要度算法计算各个数据项目的重要度时,可将这三种重要度算法计算所得的重要度的平均值作为各个数据项目的最终重要度,将各个数据项目的最终重要度与第二最小支持度进行对比,选择出目标数据项目。
步骤S30,根据所述重要度和所述目标数据序列创建频繁模式树FP-Tree,并根据所述FP-Tree挖掘所述待挖掘数据中的频繁数据。
当服务器确定各个数据项目的重要度和目标数据序列后,服务器根据该重要度和目标数据序列创建FP-Tree(频繁模式树),然后根据该FP-Tree挖掘待挖掘数据中的频繁数据,即根据FP-Tree挖掘待挖掘数据中的频繁项。需要强调的是,为进一步保证上述频繁数据的私密和安全性,上述频繁数据还可以存储于一区块链的节点中。
进一步地,所述根据所述重要度和所述目标数据序列创建FP-Tree的步骤包括:
步骤e,根据所述目标数据项目对应的重要度对所述目标数据项目进行排序,得到排序后的目标数据项目。
具体地,服务器在计算得到各个数据项目的重要度后,服务器确定目标数据项目对应的重要度,根据目标数据项目对应的重要度对目标数据项目进行排序,得到排序后的目标数据项目。可以理解的是,在对目标数据项目进行排序过程中,可根据目标数据项目对应的重要度对目标数据项目进行降序排序,也可根据目标数据项目对应的重要度对目标数据项目进行升序排序。
步骤f,根据排序后的目标数据项目和所述目标数据序列创建FP-Tree。
当服务器得到排序后的目标数据项目后,服务器创建FP-Tree对应树结构的根节点,如可将根节点记为null。服务器将每一目标数据序列添加至根节点后,将目标数据序列中的第一个目标数据项目作为根节点的子节点,然后将第二目标数据项目作为该子节点的子节点,此时,对于第二目标数据项目的子节点来说,第一个目标数据项目对应的子节点为第二目标数据项目的根节点,依此类推,每一目标数据序列都是初始FP-Tree的一条“树枝”,从而创建得到FP-Tree。进一步地,服务器可简化FP-Tree,具体地,服务器遍历FP-Tree所有的节点,检测FP-Tree是否拥有重复的子节点。若服务器检测到FP-Tree拥有重复的子节点,服务器则将重复的子节点进行累加,计算各个重复的子节点的权重,在FP-Tree中保留一个重复的子节点,将计算所得的重复的子节点的权重作为所保留子节点的权重。可以理解的是,当某个子节点的目标数据项目相同时,即可确定这两个子节点重复。如在简化FP-Tree的第一步,需查看根节点null的所有子节点,如果null节点的子节点中有10个都是苹果,那么需要将这10个节点合并为同一个节点,新的苹果节点继承原来10个节点的所有子节点,并且更新null到新的苹果节点的权重,即为10。
进一步地,所述根据所述FP-Tree挖掘所述待挖掘数据中的频繁数据的步骤包括:
步骤g,获取预设的第一最小支持度,根据所述第一最小支持度删除所述FP-Tree中权重小于所述第一最小支持度的子节点,得到处理后的FP-Tree。
服务器在创建得到FP-Tree后,服务器获取预先设置的第一最小支持度,并根据第一最小支持度删除FP-Tree中权重小于第一最小支持度的子节点,保留FP-Tree中权重大于或者等于第一最小支持度的子节点,得到处理后的FP-Tree。可以理解的是,每一子节点都存在对应的权重,子节点的权重为该子节点对应目标数据项目的数量。其中,第一最小支持度可与第二最小支持度相同,也可与第二最小支持度不相同。
步骤h,确定处理后的FP-Tree中每一路径对应的待挖掘目标数据,以根据所述待挖掘目标数据确定所述待挖掘数据中的频繁数据。
当服务器得到处理后的FP-Tree后,服务器确定处理后的FP-Tree中每一路径对应的待挖掘目标数据,即确定FP-Tree每一路径对应的目标数据项目对应的数据,将该数据确定为待挖掘目标数据,该待挖掘目标数据就是待挖掘数据中的频繁数据,从而根据待挖掘目标数据确定待挖掘数据中的频繁数据。可以理解的是,频繁数据为待挖掘数据中出现频率较高的数据。如在FP-Tree中,根节点null存在两个子节点A和B,子节点A存在两个子节A1点和A2,则null→A→A1为FP-Tree中的一条路径,null→A→A2为FP-Tree中的另一条路径。
为了便于理解,举例说明,以医院支气管炎患者的医疗记录为例,使用FP-Growth算法挖掘出医院中可能存在的支气管炎西药套餐(待挖掘数据),则需要经过以下几个步骤:①筛选出医院数据库中诊断结果为支气管炎、处方类型为西药的所有数据(项目数据集),以支气管炎数据为样本数据计算TF值,以数据库中所有病例的数据计算IDF值,可以得到所有药品的TF-IDF值(各数据项目的重要度)。可以理解的是,形如葡萄糖、氯化钠之类的药物虽然出现频次非常高,但是其TF-IDF值很低;而止咳、消炎类药物的TF-IDF值则会相对较高。③将TF-IDF值小于第二最小支持度的药物的记录将不会进入后续挖掘计算过程。④按照TF-IDF值降序排列,创建FP-Tree,将FP-Tree中各条路径对应的数据确定为医院中可能存在的支气管炎西药套餐。
本实施例通过获取预设的待挖掘数据对应数据库中的项目数据集,以及获取项目数据集中的数据序列,确定项目数据集中各数据项目对应的重要度,并根据重要度和所述数据序列确定项目数据集对应的目标数据序列,根据重要度和目标数据序列创建FP-Tree,并根据FP-Tree挖掘待挖掘数据中的频繁数据。实现了在运行FP-Growth算法过程中,通过重要度来创建FP-Tree,从而减小创建FP-Tree过程中,含有数据特征较少的样本数据,来减少服务器使用FP-Growth算法过程中所处理的数据量,进而提高服务器运行FP-Growth算法过程中的运行速率,以及提高了FP-Growth算法在服务器中的运算速度。
进一步地,提出本发明频繁数据的挖掘方法第二实施例。
所述频繁数据的挖掘方法第二实施例与所述频繁数据的挖掘方法第一施例的区别在于,所述频繁数据的挖掘方法还包括:
步骤i,确定所述项目数据集中数据项目的项目数量,根据所述项目数量确定所述第二最小支持度,其中,所述第二最小支持度随着所述项目数量的增大而增大。
当服务器确定项目数据集后,服务器计算项目数据集中数据项目的项目数量,以及获取预设比例,将项目数量除以预设比例,得到第二最小支持度,即第二最小支持度乘以预设比例等于项目数量。在本实施例中,根据项目数量来确定第二最小支持度,可根据项目数量多少来决定最终目标数据项目的数量,第二最小支持度随着项目数量的增大而增大。其中,预设比例的大小可根据具体需要而设置,如可设置为25、30或者45等。第一最小支持度的计算过程也可和第二最小支持度的计算过程相同。
若针对不同的项目数量,第二最小支持度都一样,则在项目数量较大时,无法适应性调整目标数据项目对应的数量,降低了服务器在使用FP-Growth算法过程中运算效率。由此可知,本实施例通过根据项目数量确定第二最小支持度,从而进一步地提高了服务器运行FP-Growth算法过程中的运行速率。
进一步地,提出本发明频繁数据的挖掘方法第三实施例。
所述频繁数据的挖掘方法第三实施例与所述频繁数据的挖掘方法第一和/或第二施例的区别在于,参照图2,所述频繁数据的挖掘方法还包括:
步骤S40,当侦测到对所述待挖掘数据进行挖掘的挖掘指令后,根据所述挖掘指令遍历所述待挖掘数据对应的数据库,以获取所述数据库中的项目数据集,其中,所述项目数据集中包括不同类型数据对应的数据项目,每一数据序列中至少含有一个数据项目。
当服务器侦测到对待挖掘数据进行挖掘的挖掘指令后,服务器根据挖掘指令遍历待挖掘数据对应的数据库,以获取数据库中,待挖掘数据对应的项目数据集。在本实施例中,待挖掘数据至少对应着一个数据库。其中,挖掘指令可为服务器定时触发的,此时,定时对应的时长可根据具体需要而设置。挖掘指令也可为其中终端设备发送给服务器的,当终端设备侦测到挖掘指令后,终端设备将挖掘指令发送给服务器,此时,该挖掘指令可为终端设备定时触发的,也可是终端设备对应用户在终端设备中触发的。需要说明的是,项目数据集中包括不同类型数据对应的数据项目,每一数据序列中至少含有一个数据项目。
本实施例通过侦测到对待挖掘数据进行挖掘的挖掘指令后,根据挖掘指令遍历待挖掘数据对应的数据库,以获取项目数据集,从而提高了所获取项目数据集的全面性,提高了通过所创建FP-Growth挖掘出的频繁数据的准确率。
此外,本发明还提供一种频繁数据的挖掘装置,参照图3,所述频繁数据的挖掘装置包括:
获取模块10,用于获取预设的待挖掘数据对应数据库中的项目数据集,以及获取所述项目数据集中的数据序列;
确定模块20,用于确定所述项目数据集中各数据项目对应的重要度,并根据所述重要度和所述数据序列确定所述项目数据集对应的目标数据序列;
创建模块30,用于根据所述重要度和所述目标数据序列创建频繁模式树FP-Tree;
挖掘模块40,用于根据所述FP-Tree挖掘所述待挖掘数据中的频繁数据。进一步地,所述挖掘模块40包括:
获取单元,用于获取预设的第一最小支持度;
第一删除单元,用于根据所述第一最小支持度删除所述FP-Tree中权重小于所述第一最小支持度的子节点,得到处理后的FP-Tree;
第一确定单元,用于确定处理后的FP-Tree中每一路径对应的待挖掘目标数据,以根据所述待挖掘目标数据确定所述待挖掘数据中的频繁数据。
进一步地,所述确定模块20包括:
第二确定单元,用于确定所述项目数据集中各数据项目对应的重要度;
对比单元,用于将各数据项目对应的重要度与预设第二最小支持度进行对比,以确定所述数据项目中重要度大于或者等于所述第二最小支持度的目标数据项目;
第二删除单元,用于删除所述数据序列中除所述目标数据项目外的数据项目,得到所述项目数据集对应的目标数据序列。
进一步地,所述第二确定单元还用于确定所述项目数据集中数据项目的项目数量,根据所述项目数量确定所述第二最小支持度,其中,所述第二最小支持度随着所述项目数量的增大而增大。
进一步地,所述创建模块30包括:
排序单元,用于根据所述目标数据项目对应的重要度对所述目标数据项目进行排序,得到排序后的目标数据项目;
创建单元,用于根据排序后的目标数据项目和所述目标数据序列创建FP-Tree。
进一步地,所述确定模块20还包括:
第三确定单元,用于确定待挖掘数据对应的项目数据子集;
计算单元,用于根据所述项目数据子集中的数据项目计算各数据项目的词频TF值,并根据所述项目数据集中的数据项目计算各数据项目逆文本频率指数IDF值;根据所述IF值和所述IDF值对应计算得到所述项目数据集中各数据项目的重要度。
进一步地,所述频繁数据的挖掘装置还包括:
遍历模块,用于当侦测到对所述待挖掘数据进行挖掘的挖掘指令后,根据所述挖掘指令遍历所述待挖掘数据对应的数据库,以获取所述数据库中的项目数据集,其中,所述项目数据集中包括不同类型数据对应的数据项目,每一数据序列中至少含有一个数据项目。
本发明基于频繁数据的挖掘装置具体实施方式与上述基于频繁数据的挖掘方法各实施例基本相同,在此不再赘述。需要强调的是,为进一步保证上述频繁数据的私密和安全性,上述频繁数据还可以存储于一区块链的节点中。
此外,本发明还提供一种频繁数据的挖掘设备。如图4所示,图4是本发明实施例方案涉及的硬件运行环境的结构示意图。
需要说明的是,图4即可为频繁数据的挖掘设备的硬件运行环境的结构示意图。
图4即可为频繁数据的挖掘设备的硬件运行环境的结构示意图。
如图所示,该频繁数据的挖掘设备可以包括:处理器1001,例如CPU,存储器1005,用户接口1003,网络接口1004,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,频繁数据的挖掘设备还可以包括RF(Radio Frequency,射频)电路,传感器、WiFi模块等等。
本领域技术人员可以理解,图4中示出的频繁数据的挖掘设备结构并不构成对频繁数据的挖掘设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图4所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及频繁数据的挖掘程序。其中,操作系统是管理和控制频繁数据的挖掘设备硬件和软件资源的程序,支持频繁数据的挖掘程序以及其它软件或程序的运行。
在图所示的频繁数据的挖掘设备中,用户接口1003主要连接其他终端设备,与其他终端设备进行通信;网络接口1004主要连接后台服务器,与后台服务器进行数据通信;处理器1001可以用于调用存储器1005中存储的频繁数据的挖掘程序,并执行如上所述的频繁数据的挖掘方法的步骤。
本发明频繁数据的挖掘设备具体实施方式与上述频繁数据的挖掘方法各实施例基本相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有频繁数据的挖掘程序,所述频繁数据的挖掘程序被处理器执行时实现如上所述的频繁数据的挖掘方法的步骤。
本发明计算机可读存储介质具体实施方式与上述频繁数据的挖掘方法各实施例基本相同,在此不再赘述。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的数据下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多数据下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件货物的形式体现出来,该计算机软件货物存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备执行本发明各个实施例所述的方法。
Claims (10)
1.一种频繁数据的挖掘方法,其特征在于,所述频繁数据的挖掘方法包括以下步骤:
获取预设的待挖掘数据对应数据库中的项目数据集,以及获取所述项目数据集中的数据序列;
确定所述项目数据集中各数据项目对应的重要度,并根据所述重要度和所述数据序列确定所述项目数据集对应的目标数据序列;
根据所述重要度和所述目标数据序列创建频繁模式树FP-Tree,并根据所述FP-Tree挖掘所述待挖掘数据中的频繁数据。
2.如权利要求1所述的频繁数据的挖掘方法,其特征在于,所述频繁数据存储于区块链中,所述根据所述FP-Tree挖掘所述待挖掘数据中的频繁数据的步骤包括:
获取预设的第一最小支持度,根据所述第一最小支持度删除所述FP-Tree中权重小于所述第一最小支持度的子节点,得到处理后的FP-Tree;
确定处理后的FP-Tree中每一路径对应的待挖掘目标数据,以根据所述待挖掘目标数据确定所述待挖掘数据中的频繁数据。
3.如权利要求1所述的频繁数据的挖掘方法,其特征在于,所述确定所述项目数据集中各数据项目对应的重要度,并根据所述重要度和所述数据序列确定所述项目数据集对应的目标数据序列的步骤包括:
确定所述项目数据集中各数据项目对应的重要度,将各数据项目对应的重要度与预设第二最小支持度进行对比,以确定所述数据项目中重要度大于或者等于所述第二最小支持度的目标数据项目;
删除所述数据序列中除所述目标数据项目外的数据项目,得到所述项目数据集对应的目标数据序列。
4.如权利要求3所述的频繁数据的挖掘方法,其特征在于,所述将各数据项目对应的重要度与预设第二最小支持度进行对比,以确定所述数据项目中重要度大于或者等于所述第二最小支持度的目标数据项目的步骤之前,还包括:
确定所述项目数据集中数据项目的项目数量,根据所述项目数量确定所述第二最小支持度,其中,所述第二最小支持度随着所述项目数量的增大而增大。
5.如权利要求3所述的频繁数据的挖掘方法,其特征在于,所述根据所述重要度和所述目标数据序列创建FP-Tree的步骤包括:
根据所述目标数据项目对应的重要度对所述目标数据项目进行排序,得到排序后的目标数据项目;
根据排序后的目标数据项目和所述目标数据序列创建FP-Tree。
6.如权利要求1所述的频繁数据的挖掘方法,其特征在于,所述确定所述项目数据集中各数据项目对应的重要度的步骤包括:
确定待挖掘数据对应的项目数据子集,根据所述项目数据子集中的数据项目计算各数据项目的词频TF值,并根据所述项目数据集中的数据项目计算各数据项目逆文本频率指数IDF值;
根据所述IF值和所述IDF值对应计算得到所述项目数据集中各数据项目的重要度。
7.如权利要求1至6任一项所述的频繁数据的挖掘方法,其特征在于,所述获取预设的待挖掘数据对应数据库中的项目数据集的步骤之前,还包括:
当侦测到对所述待挖掘数据进行挖掘的挖掘指令后,根据所述挖掘指令遍历所述待挖掘数据对应的数据库,以获取所述数据库中的项目数据集,其中,所述项目数据集中包括不同类型数据对应的数据项目,每一数据序列中至少含有一个数据项目。
8.一种频繁数据的挖掘装置,其特征在于,所述频繁数据的挖掘装置包括:
获取模块,用于获取预设的待挖掘数据对应数据库中的项目数据集,以及获取所述项目数据集中的数据序列;
确定模块,用于确定所述项目数据集中各数据项目对应的重要度,并根据所述重要度和所述数据序列确定所述项目数据集对应的目标数据序列;
创建模块,用于根据所述重要度和所述目标数据序列创建频繁模式树FP-Tree;
挖掘模块,用于根据所述FP-Tree挖掘所述待挖掘数据中的频繁数据。
9.一种频繁数据的挖掘设备,其特征在于,所述频繁数据的挖掘设备包括存储器、处理器和存储在所述存储器上并在所述处理器上运行的频繁数据的挖掘程序,所述频繁数据的挖掘程序被所述处理器执行时实现如权利要求1至7中任一项所述的频繁数据的挖掘方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有频繁数据的挖掘程序,所述频繁数据的挖掘程序被处理器执行时实现如权利要求1至7中任一项所述的频繁数据的挖掘方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010471207.2A CN111782705A (zh) | 2020-05-28 | 2020-05-28 | 频繁数据的挖掘方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010471207.2A CN111782705A (zh) | 2020-05-28 | 2020-05-28 | 频繁数据的挖掘方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111782705A true CN111782705A (zh) | 2020-10-16 |
Family
ID=72754267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010471207.2A Pending CN111782705A (zh) | 2020-05-28 | 2020-05-28 | 频繁数据的挖掘方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111782705A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157766A (zh) * | 2021-03-12 | 2021-07-23 | Oppo广东移动通信有限公司 | 应用分析方法及装置、电子设备、计算机可读存储介质 |
CN114050925A (zh) * | 2021-11-09 | 2022-02-15 | 京东科技信息技术有限公司 | 访问控制列表匹配方法、装置、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056222A (zh) * | 2016-05-27 | 2016-10-26 | 大连楼兰科技股份有限公司 | 基于FP‑Tree序列模式挖掘的故障诊断与估价的方法 |
CN106056221A (zh) * | 2016-05-27 | 2016-10-26 | 大连楼兰科技股份有限公司 | 基于FP‑Tree序列模式挖掘和故障码分类的车辆远程诊断与备件检索的方法 |
CN106570128A (zh) * | 2016-11-03 | 2017-04-19 | 南京邮电大学 | 一种基于关联规则分析的挖掘算法 |
CN109062915A (zh) * | 2018-03-30 | 2018-12-21 | 山东管理学院 | 一种文本数据集正负关联规则挖掘方法及装置 |
CN110334796A (zh) * | 2019-06-28 | 2019-10-15 | 北京科技大学 | 一种社会安全事件的关联规则挖掘方法及装置 |
CN110489652A (zh) * | 2019-08-23 | 2019-11-22 | 重庆邮电大学 | 基于用户行为检测的新闻推荐方法、系统及计算机设备 |
CN111143569A (zh) * | 2019-12-31 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及计算机可读存储介质 |
-
2020
- 2020-05-28 CN CN202010471207.2A patent/CN111782705A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056222A (zh) * | 2016-05-27 | 2016-10-26 | 大连楼兰科技股份有限公司 | 基于FP‑Tree序列模式挖掘的故障诊断与估价的方法 |
CN106056221A (zh) * | 2016-05-27 | 2016-10-26 | 大连楼兰科技股份有限公司 | 基于FP‑Tree序列模式挖掘和故障码分类的车辆远程诊断与备件检索的方法 |
CN106570128A (zh) * | 2016-11-03 | 2017-04-19 | 南京邮电大学 | 一种基于关联规则分析的挖掘算法 |
CN109062915A (zh) * | 2018-03-30 | 2018-12-21 | 山东管理学院 | 一种文本数据集正负关联规则挖掘方法及装置 |
CN110334796A (zh) * | 2019-06-28 | 2019-10-15 | 北京科技大学 | 一种社会安全事件的关联规则挖掘方法及装置 |
CN110489652A (zh) * | 2019-08-23 | 2019-11-22 | 重庆邮电大学 | 基于用户行为检测的新闻推荐方法、系统及计算机设备 |
CN111143569A (zh) * | 2019-12-31 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及计算机可读存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157766A (zh) * | 2021-03-12 | 2021-07-23 | Oppo广东移动通信有限公司 | 应用分析方法及装置、电子设备、计算机可读存储介质 |
CN114050925A (zh) * | 2021-11-09 | 2022-02-15 | 京东科技信息技术有限公司 | 访问控制列表匹配方法、装置、电子设备和存储介质 |
CN114050925B (zh) * | 2021-11-09 | 2024-03-01 | 京东科技信息技术有限公司 | 访问控制列表匹配方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110688348B (zh) | 档案管理系统 | |
US10338977B2 (en) | Cluster-based processing of unstructured log messages | |
US9652875B2 (en) | Systems and methods for generating a dense graph | |
CN112148987A (zh) | 基于目标对象活跃度的消息推送方法及相关设备 | |
CN111782705A (zh) | 频繁数据的挖掘方法、装置、设备及计算机可读存储介质 | |
JP7313382B2 (ja) | 分散システムの頻繁パターン分析 | |
CN107291779B (zh) | 缓存数据管理方法及装置 | |
CN116541883B (zh) | 基于信任的差分隐私保护方法、装置、设备及存储介质 | |
CN108804516A (zh) | 相似用户查找装置、方法及计算机可读存储介质 | |
CN110047593A (zh) | 疾病流行季等级的确定方法、装置、设备及可读存储介质 | |
KR20160037922A (ko) | 사용자와 공유된 콘텐츠를 찾고 디스플레이하는 기술 | |
CN112116426A (zh) | 一种推送物品信息的方法和装置 | |
CN113609195A (zh) | 报告生成方法、装置、电子设备及存储介质 | |
CN112347147A (zh) | 基于用户关联关系的信息推送方法、装置及电子设备 | |
US11556595B2 (en) | Attribute diversity for frequent pattern analysis | |
CN107391627B (zh) | 数据的内存占用分析方法、装置及服务器 | |
US11768752B2 (en) | Optimizing large scale data analysis | |
CN116910374A (zh) | 一种基于知识图谱的康养服务推荐方法、装置及存储介质 | |
CN105354506A (zh) | 隐藏文件的方法和装置 | |
CN110852078A (zh) | 生成标题的方法和装置 | |
CN112036988A (zh) | 标签生成方法和装置、存储介质及电子设备 | |
CN110580317A (zh) | 社交信息分析方法、装置、终端设备及存储介质 | |
CN113887621B (zh) | 问答资源调整方法、装置、设备及存储介质 | |
CN115935933A (zh) | 一种清单分析方法、装置、计算机设备和存储介质 | |
CN114036399A (zh) | 信息推荐方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220525 Address after: 518000 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd. Address before: Room 12G, Area H, 666 Beijing East Road, Huangpu District, Shanghai 200001 Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201016 |