CN113254755A - 一种基于分布式框架的舆情并行关联挖掘方法 - Google Patents

一种基于分布式框架的舆情并行关联挖掘方法 Download PDF

Info

Publication number
CN113254755A
CN113254755A CN202110813202.8A CN202110813202A CN113254755A CN 113254755 A CN113254755 A CN 113254755A CN 202110813202 A CN202110813202 A CN 202110813202A CN 113254755 A CN113254755 A CN 113254755A
Authority
CN
China
Prior art keywords
processed
frequent
public opinion
node
maximum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110813202.8A
Other languages
English (en)
Other versions
CN113254755B (zh
Inventor
刘宇
彭艳兵
唐帅
李雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Fiberhome Telecommunication Technologies Co ltd
Original Assignee
Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Fiberhome Telecommunication Technologies Co ltd filed Critical Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority to CN202110813202.8A priority Critical patent/CN113254755B/zh
Publication of CN113254755A publication Critical patent/CN113254755A/zh
Application granted granted Critical
Publication of CN113254755B publication Critical patent/CN113254755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于分布式框架的舆情并行关联挖掘方法,首先将各目标网络舆情文本进行划分投影,生成各频繁项集;接着基于分区划分,设计有序模式森林,用于压缩存储舆情频繁模式;然后基于舆情频繁模式,提出深度路径搜索和长度优先超集检验,进行深度路径递归搜索生成最大舆情频繁候选项集,最后对舆情候选项集进行长度优先排序并检验超集,降低舆情候选项集的规模和挖掘次数,解决传统最大频繁项集挖掘算法在数据量大、维度高时效率低的问题,且对数据集规模具有良好的扩展性。

Description

一种基于分布式框架的舆情并行关联挖掘方法
技术领域
本发明涉及一种基于分布式框架的舆情并行关联挖掘方法,属于舆情数据挖掘技术领域。
背景技术
网络舆情是指在一定的时间空间内,通过网络围绕中介性社会事件的发生、发展和变化,民众对公共问题和社会管理者产生和持有的社会政治态度、信念和价值观。它是较多民众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络舆情形成迅速,对社会影响巨大。传统的社会舆情存在于民间,存在于大众的思想观念和日常的街头巷尾的议论之中,前者难以捕捉,后者稍纵即逝,舆情的获取只能通过社会明察暗访、民意调查等方式进行,获取效率低下,样本少而且容易流于偏颇,耗费巨大。而随着互联网的发展,大众往往以信息化的方式发表各自看法,网络舆情可以采用 Apriori 数据挖掘算法技术自动抓取目标数据,效率高而且信息保真,覆盖面全。
关联规则算法是数据挖掘中一个重要的应用,关联规则挖掘是从大型数据集中挖掘相关信息的最佳技术之一。当关联规则挖掘算法在数据集规模较小的情况下执行,传统算法往往是有效的,然而随着数据集规模的增加,算法的效率也将下降。MapReduce方法使关联规则的挖掘过程非常快,许多基于MapReduce的关联规则算法陆续被提出,与传统方法相比,这些算法显示出较好的性能但仍存在一些局限性。由于频繁模式的反单调性,一个频繁模式包含很多频繁子模式,而一个频繁模式也能到处多个关联规则,因此关联规则数量巨大、且存在多个规则蕴含同个目标项目的情况广泛存在。
网络舆情信息的一大特点是信息量大、更新迅速、实时变化,在海量的网络信息中检索出目标信息,其难度可想而知。在以往关联规则推荐方法中,随着数据集规模的增加,对舆情频繁项进行挖掘时多容易产生巨大的冗余项集,算法效率大大降低。许多基于群集的并行算法能够处理大型数据集,但也带来诸如复杂性、数据同步、数据复制等许多问题,且大多数的数据挖掘算法都是基于内存迭代式的,每次迭代后的中间结果需要单独存储作为下一次迭代的输入,存在算法性能下降、并行化程度和效率低下等一系列问题。
发明内容
本发明所要解决的技术问题是提供一种基于分布式框架的舆情并行关联挖掘方法,采用全新架构与逻辑设计关系,能够有效解决大规模高维舆情数据下的频繁挖掘问题,提高数据挖掘的工作效率。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种基于分布式框架的舆情并行关联挖掘方法,用于实现对各目标网络舆情文本的舆情数据挖掘,包括如下步骤:
步骤A. 分别针对各目标网络舆情文本执行分词操作,获得各目标网络舆情文本分别所对应的各个分词,然后进入步骤B;
步骤B. 根据预设热词库,获得各目标网络舆情文本分别所对应的热度,筛选获得热度大于预设文本热度下限阈值的各个目标网络舆情文本,构成各个待处理目标网络舆情文本,然后进入步骤C;
步骤C. 针对各待处理目标网络舆情文本,通过提取待处理目标网络舆情文本所对应频繁出现的分词作为各个频繁项,并结合各频繁项在待处理目标网络舆情文本中的位置进行排序,构成待处理目标网络舆情文本所对应的频繁项集,进而获得各待处理目标网络舆情文本分别所对应的频繁项集,然后进入步骤D;
步骤D. 分别针对各待处理目标网络舆情文本所对应的频繁项集,按预设分区数
Figure 206408DEST_PATH_IMAGE001
,基于滑动窗口针对频繁项集逐个频繁项滑动下、所获各位置滑动窗口分别对应一个分 区,各分区分别包含对应位置滑动窗口中的各频繁项,获得该频繁项集所对应的
Figure 794515DEST_PATH_IMAGE001
个分区, 即获得各待处理目标网络舆情文本分别所对应的
Figure 653362DEST_PATH_IMAGE001
个分区,然后进入步骤E;
步骤E. 分别基于参数
Figure 490868DEST_PATH_IMAGE002
,针对各待处理目标网络舆情文本所对应的第
Figure 197924DEST_PATH_IMAGE003
分区,通过有序森林存储模式的构建,作为第
Figure 437276DEST_PATH_IMAGE003
汇总分区所对应的有序模式森林,进而获得 各汇总分区分别所对应的有序模式森林,然后进入步骤F;
步骤F. 基于各汇总分区分别所对应的有序模式森林,根据针对有序模式森林中树节点的深度路径搜索应用,通过后缀树的构建,获得各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤G;
步骤G. 针对各汇总分区分别所对应的各最大频繁候选项集,删除最大频繁候选项集中的冗余节点集合、低支持度节点集合,更新各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤H;
步骤H. 针对各汇总分区分别所对应的各最大频繁候选项集,执行降维操作,删除其中彼此之间构成子集的最大频繁候选项集,更新各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤I;
步骤I. 针对各汇总分区分别所对应的各最大频繁候选项集,通过预设置信度阈值、预设提升度阈值挖掘关键词,实现对各目标网络舆情文本的舆情数据挖掘。
作为本发明的一种优选技术方案:所述步骤C中,分别针对各个待处理目标网络舆情文本,执行如下步骤C1至步骤C3,获得各待处理目标网络舆情文本分别所对应的频繁项集;
步骤C1. 获得待处理目标网络舆情文本所对应各不同分词分别出现的次数,并针对该各不同分词按其出现次数由高到低进行排序,然后进入步骤C2;
步骤C2. 按公式
Figure 1112DEST_PATH_IMAGE004
,选取该各不同分词排序中的前
Figure 325914DEST_PATH_IMAGE005
个不同分词,作为该待 处理目标网络舆情文本所对应的各个频繁项,然后进入步骤C3;其中,
Figure 367820DEST_PATH_IMAGE006
表示比例数,
Figure 464607DEST_PATH_IMAGE007
表 示该待处理目标网络舆情文本所对应各不同分词的数量,
Figure 199345DEST_PATH_IMAGE008
表示向上取整;
步骤C3. 获得各频繁项分别在该待处理目标网络舆情文本中最后一次出现的位置,并按此顺序,由各频繁项构成该待处理目标网络舆情文本所对应的频繁项集。
作为本发明的一种优选技术方案:所述步骤E包括如下步骤E1至步骤E6;
步骤E1. 初始化参数
Figure 745864DEST_PATH_IMAGE009
,并进入步骤E2;
步骤E2. 针对各待处理目标网络舆情文本所对应的第
Figure 60302DEST_PATH_IMAGE003
分区,统计其中各不同频 繁项出现次数分别与其中最大频繁项出现次数的比值,作为各不同频繁项分别对应的热 度,并进入步骤E3;
步骤E3. 针对各待处理目标网络舆情文本所对应的第
Figure 8666DEST_PATH_IMAGE003
分区,统计其中各不同频 繁项出现次数分别与其中各不同频繁项出现总次数的比值,作为各不同频繁项分别对应的 频率,并进入步骤E4;
步骤E4. 选择所包含各频繁项的热度、频率分别均小于预设频繁项热度阈值、预 设频繁项频率阈值,且所包含频繁项个数不小于预设分区频繁项数阈值的各第
Figure 179885DEST_PATH_IMAGE003
分区,删 除该各第
Figure 213700DEST_PATH_IMAGE003
分区,然后进入步骤E5;
步骤E5. 基于剩余各第
Figure 797740DEST_PATH_IMAGE003
分区中的各频繁项,构建有序森林存储模式,作为第
Figure 131770DEST_PATH_IMAGE003
汇总分区所对应的有序模式森林,然后进入步骤E6;
步骤E6. 判断
Figure 208310DEST_PATH_IMAGE003
是否等于
Figure 932684DEST_PATH_IMAGE001
,是则即获得各汇总分区分别所对应的有序模式森 林,并进入步骤F;否则针对
Figure 120082DEST_PATH_IMAGE003
的值进行加1更新,并返回步骤E2。
作为本发明的一种优选技术方案:所述步骤E5包括如下步骤E5-1至步骤E5-3;
步骤E5-1. 基于剩余各第
Figure 43039DEST_PATH_IMAGE003
分区中的各频繁项,统计其中各不同频繁项出现次数 分别与其中各不同频繁项出现总次数的比值,作为各不同频繁项分别对应的二次频率,然 后进入步骤E5-2;
步骤E5-2. 分别针对剩余各第
Figure 290481DEST_PATH_IMAGE003
分区,按二次频率由高至低顺序,针对第
Figure 758941DEST_PATH_IMAGE003
分区 中的各频繁项进行排序,进而更新剩余各第
Figure 750030DEST_PATH_IMAGE003
分区中频繁项的排序,然后进入步骤E5-3;
步骤E5-3. 创建、并基于根节点root,依次选择剩余各第
Figure 793073DEST_PATH_IMAGE003
分区,并按所选分区中 频繁项的排序,依次创建各频繁项分别对应的树节点,完成剩余各第
Figure 211416DEST_PATH_IMAGE003
分区中各频繁项的 有序森林存储模式,进而作为第
Figure 441540DEST_PATH_IMAGE003
汇总分区所对应的有序模式森林,然后进入步骤E6。
作为本发明的一种优选技术方案:所述步骤F中,分别针对各汇总分区分别所对应的有序模式森林,执行如下步骤F1至步骤F3,获得各有序模式森林分别所对应的各最大频繁候选项集,即各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤G;
步骤F1. 获得有序模式森林中各树节点分别到对应根节点的跳数,并选择其中跳数大于预设跳数阈值的各个树节点,作为各个待处理节点,然后进入步骤F2;
步骤F2. 分别针对各个待处理节点,基于该有序模式森林,在待处理节点位置进行深度路径搜索,获得该待处理节点到根节点的所有逆向搜索路径,构成该待处理节点所对应的后缀树,进而获得各待处理节点分别所对应的后缀树,然后进入步骤F3;
步骤F3. 分别针对各个待处理节点,由待处理节点所对应后缀树中各路径的节点集合,作为以该待处理节点为结尾节点的各最大频繁候选项集,进而获得各待处理节点分别作为结尾节点的各最大频繁候选项集,即该有序模式森林所对应的各个最大频繁候选项集。
作为本发明的一种优选技术方案:所述步骤G中,分别针对各汇总分区,执行如下步骤G1至步骤G2,更新各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤H;
步骤G1. 提取汇总分区中各最大频繁候选项集所对应的各不同结尾节点,作为各个待处理结尾节点,然后进入步骤G2;
步骤G2. 分别针对各个待处理结尾节点,删除待处理结尾节点所对应的冗余最大频繁候选项集、低支持度最大频繁候选项集,更新各待处理结尾节点分别所对应的各最大频繁候选项集,即更新该汇总分区所对应的各最大频繁候选项集。
作为本发明的一种优选技术方案:所述步骤G2中,分别针对各个待处理结尾节点,执行如下步骤G2-1至步骤G2-4,更新各待处理结尾节点分别所对应的各最大频繁候选项集,即更新该汇总分区所对应的各最大频繁候选项集;
步骤G2-1. 针对待处理结尾节点所对应的各最大频繁候选项集,统计其中各不同节点出现次数分别与其中各不同节点出现总次数的比值,作为该各不同节点分别对应的频率,并进入步骤G2-2;
步骤G2-2. 分别针对该待处理结尾节点所对应的各最大频繁候选项集,按频率由大至小的顺序,针对最大频繁候选项集中的各节点进行排序,更新该最大频繁候选项集中的节点排序,即更新该待处理结尾节点所对应各最大频繁候选项集中的节点排序,然后进入步骤G2-3;
步骤G2-3. 针对该待处理结尾节点所对应的各最大频繁候选项集进行比较,删除其中彼此间构成子集的各最大频繁候选项集,然后进入步骤G2-4;
步骤G2-4. 针对该待处理结尾节点所对应剩余各最大频繁候选项集,删除其中出现次数不大于预设出现次数阈值的最大频繁候选项集,更新该待处理结尾节点所对应的各最大频繁候选项集,即更新该待处理结尾节点所对应的最大频繁候选项集。
作为本发明的一种优选技术方案:所述步骤B中,分别针对各目标网络舆情文本,获得目标网络舆情文本中与预设热词库中词汇相同的分词的数量,并通过与该目标网络舆情文本中分词总数的比值,获得该目标网络舆情文本所对应的热度,进而获得各目标网络舆情文本分别所对应的热度。
作为本发明的一种优选技术方案:所述步骤A中,还包括分别删除各目标网络舆情文本所对应分词中的各个连词,更新各目标网络舆情文本分别所对应的各个分词,然后进入步骤B。
作为本发明的一种优选技术方案:所述步骤I包括如下步骤I1至步骤I2;
步骤I1. 分别针对各汇总分区所对应各最大频繁候选项集,作为待处理最大频繁候选项集,执行如下步骤I1-1至步骤I,获得各待处理最大频繁候选项集分别对应的置信度、提升度,即获得各最大频繁候选项集分别对应的置信度、提升度,然后进入步骤I2;
步骤I1-1. 分别针对各其余最大频繁候选项集,根据待处理最大频繁候选项集所在全部各汇总分区中包含其余最大频繁候选项集的比例,构成待处理最大频繁候选项集到该其余最大频繁候选项集的置信度,进而获得待处理最大频繁候选项集分别到各其余最大频繁候选项集的置信度,并通过平均值法,获得待处理最大频繁候选项集的置信度,然后进入步骤I1-2;
步骤I1-2. 分别针对各其余最大频繁候选项集,根据待处理最大频繁候选项集所在全部各汇总分区中其余最大频繁候选项集出现概率、与全部最大频繁候选项集中该其余最大频繁候选项集出现概率的比值,构成待处理最大频繁候选项集对应该其余最大频繁候选项集的提升度,并通过平均值法,获得待处理最大频繁候选项集的提升度;
步骤I2. 删除置信度、提升度分别均小于预设置信度阈值、预设提升度阈值的最大频繁候选项集,保留剩余各最大频繁候选项集,则剩余各最大频繁候选项集中的各频繁项均为所挖掘的关键词,实现对各目标网络舆情文本的舆情数据挖掘。
本发明所述一种基于分布式框架的舆情并行关联挖掘方法,采用以上技术方案与现有技术相比,具有以下技术效果:
本发明所设计一种基于分布式框架的舆情并行关联挖掘方法,针对舆情文本数据能够有效提升关联规则推荐效率的方法,提出服务于高效关联规则推荐的分布式计算框架,解决面向大规模高维舆情数据的频繁项挖掘问题,并针对传统算法的并行化策略进行优化,结合了Spark的分布式框架和DMFIA(最大频繁项集挖掘算法)的优点,首先将各目标网络舆情文本进行划分投影,对每条目标网络舆情文本生成频繁项集,接着基于分区划分,设计有序模式森林,用于压缩存储舆情频繁模式;然后基于舆情频繁模式,提出深度路径搜索和长度优先超集检验,进行深度路径递归搜索生成最大舆情频繁候选项集,对舆情候选项集进行长度优先排序并检验超集,降低舆情候选项集的规模和挖掘次数,解决传统最大频繁项集挖掘算法在数据量大、维度高时效率低的问题,且对数据集规模具有良好的扩展性。
附图说明
图1是本发明设计基于分布式框架的舆情并行关联挖掘方法的流程示意图;
图2是本发明设计中关于有序模式森林的构建示意;
图3是本发明设计中关于步骤F的应用流程示意;
图4是本发明设计中关于步骤F的应用举例示意。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
本发明设计了一种基于分布式框架的舆情并行关联挖掘方法,用于实现对各目标网络舆情文本的舆情数据挖掘,实际应用当中,如图1所示,具体执行如下步骤A至步骤I。
步骤A. 分别针对各目标网络舆情文本执行分词操作,获得各目标网络舆情文本分别所对应的各个分词,然后删除各目标网络舆情文本所对应分词中的各个连词,更新各目标网络舆情文本分别所对应的各个分词,并进入步骤B。
步骤B. 根据预设热词库,获得各目标网络舆情文本分别所对应的热度,筛选获得热度大于预设文本热度下限阈值的各个目标网络舆情文本,构成各个待处理目标网络舆情文本,然后进入步骤C。
这里对于各目标网络舆情文本分别所对应热度的获得,具体设计分别针对各目标网络舆情文本,获得目标网络舆情文本中与预设热词库中词汇相同的分词的数量,并通过与该目标网络舆情文本中分词总数的比值,获得该目标网络舆情文本所对应的热度,进而获得各目标网络舆情文本分别所对应的热度。
步骤C. 针对各待处理目标网络舆情文本,通过提取待处理目标网络舆情文本所对应频繁出现的分词作为各个频繁项,并结合各频繁项在待处理目标网络舆情文本中的位置进行排序,构成待处理目标网络舆情文本所对应的频繁项集,进而获得各待处理目标网络舆情文本分别所对应的频繁项集,然后进入步骤D。
上述步骤C在实际应用当中,分别针对各个待处理目标网络舆情文本,执行如下步骤C1至步骤C3,获得各待处理目标网络舆情文本分别所对应的频繁项集。
步骤C1. 获得待处理目标网络舆情文本所对应各不同分词分别出现的次数,并针对该各不同分词按其出现次数由高到低进行排序,然后进入步骤C2。
步骤C2. 按公式
Figure 439583DEST_PATH_IMAGE010
,选取该各不同分词排序中的前
Figure 71552DEST_PATH_IMAGE011
个不同分词,作为该待 处理目标网络舆情文本所对应的各个频繁项,然后进入步骤C3;其中,
Figure 926376DEST_PATH_IMAGE012
表示比例数,
Figure 906446DEST_PATH_IMAGE013
表 示该待处理目标网络舆情文本所对应各不同分词的数量,
Figure 239338DEST_PATH_IMAGE008
表示向上取整。
步骤C3. 获得各频繁项分别在该待处理目标网络舆情文本中最后一次出现的位置,并按此顺序,由各频繁项构成该待处理目标网络舆情文本所对应的频繁项集。
步骤D. 分别针对各待处理目标网络舆情文本所对应的频繁项集,按预设分区数
Figure 460235DEST_PATH_IMAGE001
,基于滑动窗口针对频繁项集逐个频繁项滑动下、所获各位置滑动窗口分别对应一个分 区,各分区分别包含对应位置滑动窗口中的各频繁项,获得该频繁项集所对应的
Figure 751539DEST_PATH_IMAGE001
个分区, 即获得各待处理目标网络舆情文本分别所对应的
Figure 956255DEST_PATH_IMAGE001
个分区,然后进入步骤E。
步骤E. 分别基于参数
Figure 827260DEST_PATH_IMAGE002
,针对各待处理目标网络舆情文本所对应的第
Figure 637084DEST_PATH_IMAGE003
分区,通过有序森林存储模式的构建,作为第
Figure 836640DEST_PATH_IMAGE003
汇总分区所对应的有序模式森林,进而获得 各汇总分区分别所对应的有序模式森林,然后进入步骤F。
实际应用中,针对上述步骤E,具体设计包括如下步骤E1至步骤E6。
步骤E1. 初始化参数
Figure 528652DEST_PATH_IMAGE014
,并进入步骤E2。
步骤E2. 针对各待处理目标网络舆情文本所对应的第
Figure 468926DEST_PATH_IMAGE003
分区,统计其中各不同频 繁项出现次数分别与其中最大频繁项出现次数的比值,作为各不同频繁项分别对应的热 度,并进入步骤E3。
步骤E3. 针对各待处理目标网络舆情文本所对应的第
Figure 133257DEST_PATH_IMAGE003
分区,统计其中各不同频 繁项出现次数分别与其中各不同频繁项出现总次数的比值,作为各不同频繁项分别对应的 频率,并进入步骤E4。
步骤E4. 选择所包含各频繁项的热度、频率分别均小于预设频繁项热度阈值、预 设频繁项频率阈值,且所包含频繁项个数不小于预设分区频繁项数阈值的各第
Figure 235205DEST_PATH_IMAGE003
分区,删 除该各第
Figure 680093DEST_PATH_IMAGE003
分区,然后进入步骤E5。
步骤E5. 基于剩余各第
Figure 158479DEST_PATH_IMAGE003
分区中的各频繁项,构建有序森林存储模式,作为第
Figure 143228DEST_PATH_IMAGE003
汇总分区所对应的有序模式森林,然后进入步骤E6。
对于上述步骤E5,设计具体执行如下步骤E5-1至步骤E5-3。
步骤E5-1. 基于剩余各第
Figure 681656DEST_PATH_IMAGE003
分区中的各频繁项,统计其中各不同频繁项出现次数 分别与其中各不同频繁项出现总次数的比值,作为各不同频繁项分别对应的二次频率,然 后进入步骤E5-2。
步骤E5-2. 分别针对剩余各第
Figure 82682DEST_PATH_IMAGE003
分区,按二次频率由高至低顺序,针对第
Figure 630338DEST_PATH_IMAGE003
分区 中的各频繁项进行排序,进而更新剩余各第
Figure 65998DEST_PATH_IMAGE003
分区中频繁项的排序,然后进入步骤E5-3。
步骤E5-3. 创建、并基于根节点root,依次选择剩余各第
Figure 509749DEST_PATH_IMAGE003
分区,并按所选分区中 频繁项的排序,依次创建各频繁项分别对应的树节点,完成剩余各第
Figure 663650DEST_PATH_IMAGE003
分区中各频繁项的 有序森林存储模式,进而作为第
Figure 483839DEST_PATH_IMAGE003
汇总分区所对应的有序模式森林,然后进入步骤E6。
步骤E6. 判断
Figure 991916DEST_PATH_IMAGE003
是否等于
Figure 403306DEST_PATH_IMAGE001
,是则即获得各汇总分区分别所对应的有序模式森 林,并进入步骤F;否则针对
Figure 982186DEST_PATH_IMAGE003
的值进行加1更新,并返回步骤E2。
针对上述步骤E进行举例说明,诸如各待处理目标网络舆情文本分别所对应的第1分区包括[a,b,d], [a,b,c],[c,d,e,l],[b,a,c,d],[b,e,f],[m,n,h],[b,k,q](其中,a,b,c,d,e,f,m,n,h,k,q分别为频繁项),统计此全部第1分区中各频繁项出现频率,即b:5,a:3,c:3,d:3,e:1,f:1,m:1,n:1,h:1,l:1,k:1,q:1,然后选择所包含各频繁项的热度、频率分别均小于20%,且所包含频繁项个数不小于2的各第1分区,删除该各第1分区,执行删除后,剩余各第1分区如下:[a,b,d], [a,b,c],[c,d,e,l],[b,a,c,d], [b,e,f],下面基于剩余各第1分区构建森林存储频繁模式,构建过程如下:针对第一条记录[a,b,d],按照频率由大至小排序后的顺序可调整为[b,a,d],首先创建跟节点root,依次在树中添加节点b,a,d,然后处理第二条记录[a,b,c],同样按照频率排序后的顺序可调整为[b,a,c],之后对第三条记录进行添加[c,d,e,l],依次添加,过程如图2所示。
分区中分布式FP-growth(一种关联分析算法,目的将提供频繁项集的数据压缩到一颗频繁模式树)将在各分区上挖掘出部分频繁模式并进行存储,即包含分区中至少一个项的频繁模式。同时,FP-growth自底向上的遍历方式使得挖掘出的每个频繁模式遵循FList偏序关系。类于FP树可以对每条舆情文本记录进行压缩存储一样,此处提出一种树型结构压缩存储频繁模式。由于频繁模式分布式存储于不同分区中舆情子集列表中的n个节点,这种树型结构本质上是一个森林,称为有序模式森林,定义如下:有序模式森林(Ordered-Patterns Forest,OPF)。有序模式森林由多棵多叉树组成,每个多叉树的节点包含四个域:item、child_list、parent和statinfo,分别对应项目名称、孩子节点、父亲节点与用于推荐计算的统计量。
在有序模式森林中,节点的parent域保存指向父节点的指针,可以通过回溯到根 节点的方式获取完整的频繁模式;statinfo域保存根据关联规则推荐的不同机制灵活定义 的统计量,参与推荐分值的计算。如下算法1给出了构建有序模式森林的伪代码,其中虚根 节点
Figure 606066DEST_PATH_IMAGE015
用来保存指向多叉树根节点的指针。
Figure 750739DEST_PATH_IMAGE017
OPF(有序模式森林)中每条始于根节点止于任意节点的路径对应一条频繁模式, 因此OPF的空间复杂度为
Figure 801872DEST_PATH_IMAGE018
,即等同于频繁模式集合的大小。OPF通过排序以频繁模式 尾项代表一条模式,相比于FIG(频繁项集图)极大地降低了存储空间。
步骤F. 基于各汇总分区分别所对应的有序模式森林,根据针对有序模式森林中树节点的深度路径搜索应用,通过后缀树的构建,获得各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤G。
应用中,针对步骤F,具体设计分别针对各汇总分区分别所对应的有序模式森林,执行如下步骤F1至步骤F3,获得各有序模式森林分别所对应的各最大频繁候选项集,即各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤G。
步骤F1. 获得有序模式森林中各树节点分别到对应根节点的跳数,并选择其中跳数大于预设跳数阈值的各个树节点,作为各个待处理节点,然后进入步骤F2。
步骤F2. 分别针对各个待处理节点,基于该有序模式森林,在待处理节点位置进行深度路径搜索,获得该待处理节点到根节点的所有逆向搜索路径,构成该待处理节点所对应的后缀树,进而获得各待处理节点分别所对应的后缀树,然后进入步骤F3。
步骤F3. 分别针对各个待处理节点,由待处理节点所对应后缀树中各路径的节点集合,作为以该待处理节点为结尾节点的各最大频繁候选项集,进而获得各待处理节点分别作为结尾节点的各最大频繁候选项集,即该有序模式森林所对应的各个最大频繁候选项集。
对于上述步骤F进行举例说明,如图3所示,诸如上一步骤中建立的有序模式森林,接下来针对满足该分区的关键词进行该关键词的后缀树(suffixTree)构建。对后缀树(Item,suffixTree)进行深度路径搜索,基于有序模式森林中各树节点分别到对应根节点的跳数Item.Count,如果Item.Count大于预设跳数阈值minCount,则递归构建子树搜索,最终形成每一条路径都是叶子节点到根节点的逆向最长路径,所有的路径均以该树节点为结尾节点的最大频繁候选项集(prefix-MFICS)。本发明中采用并行生成舆情文本频繁候选集,先对生成树递归进行最长路径搜索,诸如针对以第1汇总分区为例,对满足第1汇总分区的频繁项(步骤二中的每个树节点a,b,c,d等),设置阈值预设跳数阈值mincount,对有序模式森林中的节点item(a,b,c,d,e等),若item.count>mincount,则在节点item处进行深度路径搜索,最终形成每一条路径都是叶子节点到根节点的逆向搜索路径,在该分区中形成多个后缀树,后缀树中的所有路径组成以该item为结尾的最大频繁候选项集。此案例中最大频繁候选项集有(a,b,c),(b,c),(a,c),诸如图4所示。
RDD是Saprk中的分布式数据集,每个汇总分区的数据都在不同机器上,它的API,如map,reduceByKey,filter等就是表示对RDD在每个分区上的数据做相同的function操作,所以是在多个机器上分布式处理。SMFI算法整体伪代码如下:
Figure 664785DEST_PATH_IMAGE020
步骤G. 针对各汇总分区分别所对应的各最大频繁候选项集,删除最大频繁候选项集中的冗余节点集合、低支持度节点集合,更新各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤H。
上述步骤G在实际应用中,具体设计分别针对各汇总分区,执行如下步骤G1至步骤G2,更新各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤H。
步骤G1. 提取汇总分区中各最大频繁候选项集所对应的各不同结尾节点,作为各个待处理结尾节点,然后进入步骤G2。
步骤G2. 分别针对各个待处理结尾节点,删除待处理结尾节点所对应的冗余最大频繁候选项集、低支持度最大频繁候选项集,更新各待处理结尾节点分别所对应的各最大频繁候选项集,即更新该汇总分区所对应的各最大频繁候选项集。
具体来讲,步骤G2中,分别针对各个待处理结尾节点,执行如下步骤G2-1至步骤G2-4,更新各待处理结尾节点分别所对应的各最大频繁候选项集,即更新该汇总分区所对应的各最大频繁候选项集。
步骤G2-1. 针对待处理结尾节点所对应的各最大频繁候选项集,统计其中各不同节点出现次数分别与其中各不同节点出现总次数的比值,作为该各不同节点分别对应的频率,并进入步骤G2-2。
步骤G2-2. 分别针对该待处理结尾节点所对应的各最大频繁候选项集,按频率由大至小的顺序,针对最大频繁候选项集中的各节点进行排序,更新该最大频繁候选项集中的节点排序,即更新该待处理结尾节点所对应各最大频繁候选项集中的节点排序,然后进入步骤G2-3。
步骤G2-3. 针对该待处理结尾节点所对应的各最大频繁候选项集进行比较,删除其中彼此间构成子集的各最大频繁候选项集,然后进入步骤G2-4。
步骤G2-4. 针对该待处理结尾节点所对应剩余各最大频繁候选项集,删除其中出现次数不大于预设出现次数阈值的最大频繁候选项集,更新该待处理结尾节点所对应的各最大频繁候选项集,即更新该待处理结尾节点所对应的最大频繁候选项集,此步骤的应用,诸如该汇总分区中最大频繁候选项集[a,b,c],[c,d,e]都出现了10次,但最大频繁候选项集[m,n,l]只出现了一次,则可删除[m,n,l]。
针对上述步骤G进行举例说明,诸如上一步骤三某一item后缀树得到的候选项集合为(a,b,c),(b,c),(a,c),但c频繁项出现的频率较高,其次为a,b,则此时排序后的结果为(c,a),(c,b),(c,a,b)。从排序后的结果显而易见(c,a),(c,b)为(c,a,b)的子集,(c,a),(c,b)为冗余项,可删除,最大频繁项集为(c,a,b),若(c,a,b)大于设定的支持度阈值,则可保留,此方法提高运行效率。(注:同一分区中有多个符合阈值的节点,故会产生多个后缀树,则会有多个候选项集合)。
步骤H. 针对各汇总分区分别所对应的各最大频繁候选项集,执行降维操作,删除其中彼此之间构成子集的最大频繁候选项集,更新各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤I。此步骤的应用,诸如[a,b,c,d,e,f,g,h,l]为最大频繁候选项集,则对存在能够作为子集的[a,b,c,d,e,f],[b,c,d]等最大频繁候选项集,既可以进行删除操作。
步骤I. 针对各汇总分区分别所对应的各最大频繁候选项集,通过预设置信度阈值、预设提升度阈值挖掘关键词,实现对各目标网络舆情文本的舆情数据挖掘。
实际应用当中,具体设计步骤I执行如下步骤I1至步骤I2。
步骤I1. 分别针对各汇总分区所对应各最大频繁候选项集,作为待处理最大频繁候选项集,执行如下步骤I1-1至步骤I,获得各待处理最大频繁候选项集分别对应的置信度、提升度,即获得各最大频繁候选项集分别对应的置信度、提升度,然后进入步骤I2。
步骤I1-1. 分别针对各其余最大频繁候选项集,根据待处理最大频繁候选项集所在全部各汇总分区中包含其余最大频繁候选项集的比例,构成待处理最大频繁候选项集到该其余最大频繁候选项集的置信度,进而获得待处理最大频繁候选项集分别到各其余最大频繁候选项集的置信度,并通过平均值法,获得待处理最大频繁候选项集的置信度,然后进入步骤I1-2。
步骤I1-2. 分别针对各其余最大频繁候选项集,根据待处理最大频繁候选项集所在全部各汇总分区中其余最大频繁候选项集出现概率、与全部最大频繁候选项集中该其余最大频繁候选项集出现概率的比值,构成待处理最大频繁候选项集对应该其余最大频繁候选项集的提升度,并通过平均值法,获得待处理最大频繁候选项集的提升度。
步骤I2. 删除置信度、提升度分别均小于预设置信度阈值、预设提升度阈值的最大频繁候选项集,保留剩余各最大频繁候选项集,则剩余各最大频繁候选项集中的各频繁项均为所挖掘的关键词,实现对各目标网络舆情文本的舆情数据挖掘。
上述技术方案针对舆情文本数据能够有效提升关联规则推荐效率的方法,提出服务于高效关联规则推荐的分布式计算框架,解决面向大规模高维舆情数据的频繁项挖掘问题,并针对传统算法的并行化策略进行优化,结合了Spark的分布式框架和DMFIA(最大频繁项集挖掘算法)的优点,首先将各目标网络舆情文本进行划分投影,对每条目标网络舆情文本生成频繁项集,接着基于分区划分,设计有序模式森林,用于压缩存储舆情频繁模式;然后基于舆情频繁模式,提出深度路径搜索和长度优先超集检验,进行深度路径递归搜索生成最大舆情频繁候选项集,对舆情候选项集进行长度优先排序并检验超集,降低舆情候选项集的规模和挖掘次数,解决传统最大频繁项集挖掘算法在数据量大、维度高时效率低的问题,且对数据集规模具有良好的扩展性。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (10)

1.一种基于分布式框架的舆情并行关联挖掘方法,用于实现对各目标网络舆情文本的舆情数据挖掘,其特征在于,包括如下步骤:
步骤A. 分别针对各目标网络舆情文本执行分词操作,获得各目标网络舆情文本分别所对应的各个分词,然后进入步骤B;
步骤B. 根据预设热词库,获得各目标网络舆情文本分别所对应的热度,筛选获得热度大于预设文本热度下限阈值的各个目标网络舆情文本,构成各个待处理目标网络舆情文本,然后进入步骤C;
步骤C. 针对各待处理目标网络舆情文本,通过提取待处理目标网络舆情文本所对应频繁出现的分词作为各个频繁项,并结合各频繁项在待处理目标网络舆情文本中的位置进行排序,构成待处理目标网络舆情文本所对应的频繁项集,进而获得各待处理目标网络舆情文本分别所对应的频繁项集,然后进入步骤D;
步骤D. 分别针对各待处理目标网络舆情文本所对应的频繁项集,按预设分区数
Figure 507824DEST_PATH_IMAGE002
,基于滑动窗口针对频繁项集逐个频繁项滑动下、所获各位置滑动窗口分别对应一个分区,各分区分别包含对应位置滑动窗口中的各频繁项,获得该频繁项集所对应的
Figure 110450DEST_PATH_IMAGE002
个分区,即获得各待处理目标网络舆情文本分别所对应的
Figure 827871DEST_PATH_IMAGE002
个分区,然后进入步骤E;
步骤E. 分别基于参数
Figure 675610DEST_PATH_IMAGE004
,针对各待处理目标网络舆情文本所对应的第
Figure 162086DEST_PATH_IMAGE006
分区,通过有序森林存储模式的构建,作为第
Figure 938543DEST_PATH_IMAGE006
汇总分区所对应的有序模式森林,进而获得各汇总分区分别所对应的有序模式森林,然后进入步骤F;
步骤F. 基于各汇总分区分别所对应的有序模式森林,根据针对有序模式森林中树节点的深度路径搜索应用,通过后缀树的构建,获得各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤G;
步骤G. 针对各汇总分区分别所对应的各最大频繁候选项集,删除最大频繁候选项集中的冗余节点集合、低支持度节点集合,更新各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤H;
步骤H. 针对各汇总分区分别所对应的各最大频繁候选项集,执行降维操作,删除其中彼此之间构成子集的最大频繁候选项集,更新各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤I;
步骤I. 针对各汇总分区分别所对应的各最大频繁候选项集,通过预设置信度阈值、预设提升度阈值挖掘关键词,实现对各目标网络舆情文本的舆情数据挖掘。
2.根据权利要求1所述一种基于分布式框架的舆情并行关联挖掘方法,其特征在于:所述步骤C中,分别针对各个待处理目标网络舆情文本,执行如下步骤C1至步骤C3,获得各待处理目标网络舆情文本分别所对应的频繁项集;
步骤C1. 获得待处理目标网络舆情文本所对应各不同分词分别出现的次数,并针对该各不同分词按其出现次数由高到低进行排序,然后进入步骤C2;
步骤C2. 按公式
Figure 877680DEST_PATH_IMAGE008
,选取该各不同分词排序中的前
Figure 263531DEST_PATH_IMAGE010
个不同分词,作为该待处理目标网络舆情文本所对应的各个频繁项,然后进入步骤C3;其中,
Figure 604514DEST_PATH_IMAGE012
表示比例数,
Figure 613442DEST_PATH_IMAGE014
表示该待处理目标网络舆情文本所对应各不同分词的数量,
Figure 39875DEST_PATH_IMAGE016
表示向上取整;
步骤C3. 获得各频繁项分别在该待处理目标网络舆情文本中最后一次出现的位置,并按此顺序,由各频繁项构成该待处理目标网络舆情文本所对应的频繁项集。
3.根据权利要求1所述一种基于分布式框架的舆情并行关联挖掘方法,其特征在于:所述步骤E包括如下步骤E1至步骤E6;
步骤E1. 初始化参数
Figure 963837DEST_PATH_IMAGE018
,并进入步骤E2;
步骤E2. 针对各待处理目标网络舆情文本所对应的第
Figure 424906DEST_PATH_IMAGE006
分区,统计其中各不同频繁项出现次数分别与其中最大频繁项出现次数的比值,作为各不同频繁项分别对应的热度,并进入步骤E3;
步骤E3. 针对各待处理目标网络舆情文本所对应的第
Figure 543166DEST_PATH_IMAGE006
分区,统计其中各不同频繁项出现次数分别与其中各不同频繁项出现总次数的比值,作为各不同频繁项分别对应的频率,并进入步骤E4;
步骤E4. 选择所包含各频繁项的热度、频率分别均小于预设频繁项热度阈值、预设频繁项频率阈值,且所包含频繁项个数不小于预设分区频繁项数阈值的各第
Figure 440583DEST_PATH_IMAGE006
分区,删除该各第
Figure 653390DEST_PATH_IMAGE006
分区,然后进入步骤E5;
步骤E5. 基于剩余各第
Figure 716767DEST_PATH_IMAGE006
分区中的各频繁项,构建有序森林存储模式,作为第
Figure 989617DEST_PATH_IMAGE006
汇总分区所对应的有序模式森林,然后进入步骤E6;
步骤E6. 判断
Figure 639910DEST_PATH_IMAGE006
是否等于
Figure 141561DEST_PATH_IMAGE002
,是则即获得各汇总分区分别所对应的有序模式森林,并进入步骤F;否则针对
Figure 577221DEST_PATH_IMAGE006
的值进行加1更新,并返回步骤E2。
4.根据权利要求3所述一种基于分布式框架的舆情并行关联挖掘方法,其特征在于:所述步骤E5包括如下步骤E5-1至步骤E5-3;
步骤E5-1. 基于剩余各第
Figure 270240DEST_PATH_IMAGE006
分区中的各频繁项,统计其中各不同频繁项出现次数分别与其中各不同频繁项出现总次数的比值,作为各不同频繁项分别对应的二次频率,然后进入步骤E5-2;
步骤E5-2. 分别针对剩余各第
Figure 158561DEST_PATH_IMAGE006
分区,按二次频率由高至低顺序,针对第
Figure 732412DEST_PATH_IMAGE006
分区中的各频繁项进行排序,进而更新剩余各第
Figure 757000DEST_PATH_IMAGE006
分区中频繁项的排序,然后进入步骤E5-3;
步骤E5-3. 创建、并基于根节点root,依次选择剩余各第
Figure 886499DEST_PATH_IMAGE006
分区,并按所选分区中频繁项的排序,依次创建各频繁项分别对应的树节点,完成剩余各第
Figure 262116DEST_PATH_IMAGE006
分区中各频繁项的有序森林存储模式,进而作为第
Figure 105570DEST_PATH_IMAGE006
汇总分区所对应的有序模式森林,然后进入步骤E6。
5.根据权利要求1所述一种基于分布式框架的舆情并行关联挖掘方法,其特征在于:所述步骤F中,分别针对各汇总分区分别所对应的有序模式森林,执行如下步骤F1至步骤F3,获得各有序模式森林分别所对应的各最大频繁候选项集,即各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤G;
步骤F1. 获得有序模式森林中各树节点分别到对应根节点的跳数,并选择其中跳数大于预设跳数阈值的各个树节点,作为各个待处理节点,然后进入步骤F2;
步骤F2. 分别针对各个待处理节点,基于该有序模式森林,在待处理节点位置进行深度路径搜索,获得该待处理节点到根节点的所有逆向搜索路径,构成该待处理节点所对应的后缀树,进而获得各待处理节点分别所对应的后缀树,然后进入步骤F3;
步骤F3. 分别针对各个待处理节点,由待处理节点所对应后缀树中各路径的节点集合,作为以该待处理节点为结尾节点的各最大频繁候选项集,进而获得各待处理节点分别作为结尾节点的各最大频繁候选项集,即该有序模式森林所对应的各个最大频繁候选项集。
6.根据权利要求1所述一种基于分布式框架的舆情并行关联挖掘方法,其特征在于:所述步骤G中,分别针对各汇总分区,执行如下步骤G1至步骤G2,更新各汇总分区分别所对应的各最大频繁候选项集,然后进入步骤H;
步骤G1. 提取汇总分区中各最大频繁候选项集所对应的各不同结尾节点,作为各个待处理结尾节点,然后进入步骤G2;
步骤G2. 分别针对各个待处理结尾节点,删除待处理结尾节点所对应的冗余最大频繁候选项集、低支持度最大频繁候选项集,更新各待处理结尾节点分别所对应的各最大频繁候选项集,即更新该汇总分区所对应的各最大频繁候选项集。
7.根据权利要求6所述一种基于分布式框架的舆情并行关联挖掘方法,其特征在于:所述步骤G2中,分别针对各个待处理结尾节点,执行如下步骤G2-1至步骤G2-4,更新各待处理结尾节点分别所对应的各最大频繁候选项集,即更新该汇总分区所对应的各最大频繁候选项集;
步骤G2-1. 针对待处理结尾节点所对应的各最大频繁候选项集,统计其中各不同节点出现次数分别与其中各不同节点出现总次数的比值,作为该各不同节点分别对应的频率,并进入步骤G2-2;
步骤G2-2. 分别针对该待处理结尾节点所对应的各最大频繁候选项集,按频率由大至小的顺序,针对最大频繁候选项集中的各节点进行排序,更新该最大频繁候选项集中的节点排序,即更新该待处理结尾节点所对应各最大频繁候选项集中的节点排序,然后进入步骤G2-3;
步骤G2-3. 针对该待处理结尾节点所对应的各最大频繁候选项集进行比较,删除其中彼此间构成子集的各最大频繁候选项集,然后进入步骤G2-4;
步骤G2-4. 针对该待处理结尾节点所对应剩余各最大频繁候选项集,删除其中出现次数不大于预设出现次数阈值的最大频繁候选项集,更新该待处理结尾节点所对应的各最大频繁候选项集,即更新该待处理结尾节点所对应的最大频繁候选项集。
8.根据权利要求1所述一种基于分布式框架的舆情并行关联挖掘方法,其特征在于:所述步骤B中,分别针对各目标网络舆情文本,获得目标网络舆情文本中与预设热词库中词汇相同的分词的数量,并通过与该目标网络舆情文本中分词总数的比值,获得该目标网络舆情文本所对应的热度,进而获得各目标网络舆情文本分别所对应的热度。
9.根据权利要求1所述一种基于分布式框架的舆情并行关联挖掘方法,其特征在于:所述步骤A中,还包括分别删除各目标网络舆情文本所对应分词中的各个连词,更新各目标网络舆情文本分别所对应的各个分词,然后进入步骤B。
10.根据权利要求1所述一种基于分布式框架的舆情并行关联挖掘方法,其特征在于:所述步骤I包括如下步骤I1至步骤I2;
步骤I1. 分别针对各汇总分区所对应各最大频繁候选项集,作为待处理最大频繁候选项集,执行如下步骤I1-1至步骤I,获得各待处理最大频繁候选项集分别对应的置信度、提升度,即获得各最大频繁候选项集分别对应的置信度、提升度,然后进入步骤I2;
步骤I1-1. 分别针对各其余最大频繁候选项集,根据待处理最大频繁候选项集所在全部各汇总分区中包含其余最大频繁候选项集的比例,构成待处理最大频繁候选项集到该其余最大频繁候选项集的置信度,进而获得待处理最大频繁候选项集分别到各其余最大频繁候选项集的置信度,并通过平均值法,获得待处理最大频繁候选项集的置信度,然后进入步骤I1-2;
步骤I1-2. 分别针对各其余最大频繁候选项集,根据待处理最大频繁候选项集所在全部各汇总分区中其余最大频繁候选项集出现概率、与全部最大频繁候选项集中该其余最大频繁候选项集出现概率的比值,构成待处理最大频繁候选项集对应该其余最大频繁候选项集的提升度,并通过平均值法,获得待处理最大频繁候选项集的提升度;
步骤I2. 删除置信度、提升度分别均小于预设置信度阈值、预设提升度阈值的最大频繁候选项集,保留剩余各最大频繁候选项集,则剩余各最大频繁候选项集中的各频繁项均为所挖掘的关键词,实现对各目标网络舆情文本的舆情数据挖掘。
CN202110813202.8A 2021-07-19 2021-07-19 一种基于分布式框架的舆情并行关联挖掘方法 Active CN113254755B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110813202.8A CN113254755B (zh) 2021-07-19 2021-07-19 一种基于分布式框架的舆情并行关联挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110813202.8A CN113254755B (zh) 2021-07-19 2021-07-19 一种基于分布式框架的舆情并行关联挖掘方法

Publications (2)

Publication Number Publication Date
CN113254755A true CN113254755A (zh) 2021-08-13
CN113254755B CN113254755B (zh) 2021-10-08

Family

ID=77180535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110813202.8A Active CN113254755B (zh) 2021-07-19 2021-07-19 一种基于分布式框架的舆情并行关联挖掘方法

Country Status (1)

Country Link
CN (1) CN113254755B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100094906A1 (en) * 2008-09-30 2010-04-15 Microsoft Corporation Modular forest automata
CN103744957A (zh) * 2014-01-06 2014-04-23 同济大学 基于Web用户时间属性的序列模式挖掘方法
CN103927398A (zh) * 2014-05-07 2014-07-16 中国人民解放军信息工程大学 基于最大频繁项集挖掘的微博炒作群体发现方法
CN104182527A (zh) * 2014-08-27 2014-12-03 广西教育学院 基于偏序项集的中英文本词间关联规则挖掘方法及其系统
CN106202518A (zh) * 2016-07-22 2016-12-07 桂林电子科技大学 基于chi和分类别关联规则算法的短文本分类方法
CN106503233A (zh) * 2016-11-03 2017-03-15 北京挖玖电子商务有限公司 热门搜索词推荐系统
US20180107695A1 (en) * 2016-10-19 2018-04-19 Futurewei Technologies, Inc. Distributed fp-growth with node table for large-scale association rule mining
CN111611408A (zh) * 2020-05-27 2020-09-01 北京明略软件系统有限公司 一种舆情分析方法、装置、计算机设备及存储介质
CN112860906A (zh) * 2021-04-23 2021-05-28 南京汇宁桀信息科技有限公司 基于自然语言处理的市长热线舆情决策支持方法及系统
CN112925821A (zh) * 2021-02-07 2021-06-08 江西理工大学 基于MapReduce的并行频繁项集增量数据挖掘方法
CN113032653A (zh) * 2021-04-02 2021-06-25 盐城师范学院 一种基于大数据的舆情监测平台
US11055351B1 (en) * 2017-04-17 2021-07-06 The Curators Of The University Of Missouri Frequent pattern mining on a frequent hierarchical pattern tree

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100094906A1 (en) * 2008-09-30 2010-04-15 Microsoft Corporation Modular forest automata
CN103744957A (zh) * 2014-01-06 2014-04-23 同济大学 基于Web用户时间属性的序列模式挖掘方法
CN103927398A (zh) * 2014-05-07 2014-07-16 中国人民解放军信息工程大学 基于最大频繁项集挖掘的微博炒作群体发现方法
CN104182527A (zh) * 2014-08-27 2014-12-03 广西教育学院 基于偏序项集的中英文本词间关联规则挖掘方法及其系统
CN106202518A (zh) * 2016-07-22 2016-12-07 桂林电子科技大学 基于chi和分类别关联规则算法的短文本分类方法
US20180107695A1 (en) * 2016-10-19 2018-04-19 Futurewei Technologies, Inc. Distributed fp-growth with node table for large-scale association rule mining
CN106503233A (zh) * 2016-11-03 2017-03-15 北京挖玖电子商务有限公司 热门搜索词推荐系统
US11055351B1 (en) * 2017-04-17 2021-07-06 The Curators Of The University Of Missouri Frequent pattern mining on a frequent hierarchical pattern tree
CN111611408A (zh) * 2020-05-27 2020-09-01 北京明略软件系统有限公司 一种舆情分析方法、装置、计算机设备及存储介质
CN112925821A (zh) * 2021-02-07 2021-06-08 江西理工大学 基于MapReduce的并行频繁项集增量数据挖掘方法
CN113032653A (zh) * 2021-04-02 2021-06-25 盐城师范学院 一种基于大数据的舆情监测平台
CN112860906A (zh) * 2021-04-23 2021-05-28 南京汇宁桀信息科技有限公司 基于自然语言处理的市长热线舆情决策支持方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ERICH ALLEN PETERSON,等: "A hybrid approach to mining frequent sequential patterns", 《PROCEEDINGS OF THE 47TH ANNUAL SOUTHEAST REGIONAL CONFERENCE》 *
TANVIR AHMAD,等: "Opinion Mining Using Frequent Pattern Growth Method from Unstructured Text", 《2013 INTERNATIONAL SYMPOSIUM ON COMPUTATIONAL AND BUSINESS INTELLIGENCE》 *
于泽璇: "网络舆情热点事件趋势分析技术研究与实现", 《中国优秀硕士学位论文全文数据库社会科学Ⅱ辑》 *
李长胜,等: "关联规则推荐的高效分布式计算框架", 《计算机学报》 *

Also Published As

Publication number Publication date
CN113254755B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN111190900B (zh) 一种云计算模式下json数据可视化优化方法
US20100106713A1 (en) Method for performing efficient similarity search
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
CN104182527B (zh) 基于偏序项集的中英文本词间关联规则挖掘方法及其系统
JP2006526840A (ja) 多次元データベースの照会及び視覚化のためのコンピュータシステム及び方法本発明は、スタンフォード大学(StandfordUniversity)(「統合乱気流シミュレーションのためのセンタ(CenterforIntegratedTurbulenceSimulation)」)とのエネルギー省ASCIレベル1提携契約LLL−B523583だけではなく、防衛高等研究計画局(DefenseAdvancedResearchProjectsAgency)(「複雑なシステム及び環境の視覚化(VisualizationofComplexSystemsandEnvironments)」)、APRA発注番号E269によっても部分的に支援された。米国政府は本発明に権利を有する可能性がある。
Ferragina et al. Learned data structures
Nam et al. Efficient approach for damped window-based high utility pattern mining with list structure
EP3049966A1 (en) Methods and systems for data management and analysis
CN114218389A (zh) 一种基于图神经网络的化工制备领域长文本分类方法
CN105404677A (zh) 一种基于树形结构的检索方法
CN113190593A (zh) 一种基于数字人文知识图谱的搜索推荐方法
Jiang et al. Incremental evaluation of top-k combinatorial metric skyline query
CN105956158A (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法
KR101443285B1 (ko) 유용성 높은 패턴의 마이닝 방법
CN113254755B (zh) 一种基于分布式框架的舆情并行关联挖掘方法
Ansari et al. TFI-Apriori: Using new encoding to optimize the apriori algorithm
CN107609110B (zh) 基于分类树的最大多样频繁模式的挖掘方法及装置
CN105426490A (zh) 一种基于树形结构的索引方法
CN111737482B (zh) 一种适用于数据挖掘的全景可视化图谱生成方法及装置
CN108197295A (zh) 基于多粒度属性树的属性约简在文本分类中的应用方法
Hacid et al. Incremental neighborhood graphs construction for multidimensional databases indexing
Butka et al. A proposal of the information retrieval system based on the generalized one-sided concept lattices
Kovács An algorithm using context reduction for efficient incremental generation of concept set
Boghey et al. A sequential tree approach for incremental sequential pattern mining
Szathmary et al. An efficient hybrid algorithm for mining frequent closures and generators

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant