CN113065781B - 一种目标群体活动事件的演化路径及发展进程分析方法 - Google Patents

一种目标群体活动事件的演化路径及发展进程分析方法 Download PDF

Info

Publication number
CN113065781B
CN113065781B CN202110388525.7A CN202110388525A CN113065781B CN 113065781 B CN113065781 B CN 113065781B CN 202110388525 A CN202110388525 A CN 202110388525A CN 113065781 B CN113065781 B CN 113065781B
Authority
CN
China
Prior art keywords
time
activity
time slice
target
slice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110388525.7A
Other languages
English (en)
Other versions
CN113065781A (zh
Inventor
郭婉
李亚钊
李彭伟
戴大伟
冯燕来
陆君之
欧阳慈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN202110388525.7A priority Critical patent/CN113065781B/zh
Publication of CN113065781A publication Critical patent/CN113065781A/zh
Application granted granted Critical
Publication of CN113065781B publication Critical patent/CN113065781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种目标群体活动事件的演化路径及发展进程分析方法,包括:步骤1、抽取目标活动事件描述文本集中的时间及地理位置特征信息,形成文档和时空特征集;进行分词,构建目标活动事件描述文本集对应的词频矩阵;步骤2、对目标活动事件描述文本集按时序进行排列,对排序后的文本集按照最小时间粒度的整数倍进行分割,生成时间片划分方案;步骤3、分别计算、提取按照时间片划分方案分割后的各时间片内文本子集所蕴含的活动主题,计算各时间片中活动主题间的相对熵,对目标群活动事件进行关键时间点分析,并据此形成活动事件的演化路径;步骤4、对活动事件的演化路径和发展进程进行可视化展现,生成事件发展脉络图。

Description

一种目标群体活动事件的演化路径及发展进程分析方法
技术领域
本发明涉及一种目标群体活动事件的演化路径及发展进程分析方法。
背景技术
准确地概括、刻画目标群体活动事件、研究事件的动态演化情况及发展进程是实现事件尽早预警、处置的关键,在舆情分析、公安判案、军事推演、溯因推理、行为预测等领域有着广泛的应用。实际情况中,目标群体活动事件由于参与活动的主体量大、类型多样复杂、参与时机不确定等因素使得对事件整体的动态演化及发展进程分析仍存在以下问题:1)往往以单一目标或某一类目标的活动事件演化作为研究目标,缺乏对多个目标或多类目标活动事件之间可能存在的正向加强、负向阻碍、演化一致性与分离性等特征的考虑;2)仅从单一目标活动事件的时序特征出发,对其活动事件在离散时间维度上进行演化分析,分析维度单一且未考虑目标群体活动事件之间内在的相关协同、配合的情况;3)根据群体中单一目标两两之间活动事件在时间点上的共现特征构建共现矩阵,而实际情况当中事件的转折或分化等关键特征出现的频次往往并不是最高的,因此仅从共现的频次定量分析事件的演化特征较为片面,缺乏对目标之间的空间位置、信息通联、固有属性等定性关系的考虑。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种目标群体活动事件的演化路径及发展进程分析方法,该方法通过抽取目标活动事件描述文本集中的时间及地理位置特征信息,形成文档-时空特征集;对文本集进行分词,构建文本集对应的词频矩阵;按照文档-时空特征集中的时间信息对目标活动事件描述文本集按时序进行排列,对排序后的文本集按照最小时间粒度的整数倍进行多轮分割,对每轮生成的多个时间片根据文档子集相关的地理位置特征共现情况进行调整,生成时间片划分方案;分别计算、提取按照时间片划分方案分割后的各时间片内文本子集所蕴含的活动主题,计算各时间片中活动主题间的相对熵,对目标群活动事件进行关键时间点分析,并据此形成活动事件的演化路径;对目标群体活动事件的演化路径和发展进程进行可视化展现,生成事件发展脉络图。
本发明公开了一种目标群体活动事件的演化路径及发展进程分析方法,包括如下步骤:
步骤1、抽取目标活动事件描述文本集(目标活动事件描述文本集是指关于某一事件相关活动的一组短文本,如描述“美海军夏季巡航部署”事件的一组文章或报道)中的时间及地理位置特征信息,形成文档和时空特征集;对目标活动事件描述文本集进行分词,构建目标活动事件描述文本集对应的词频矩阵;
步骤2、对目标活动事件描述文本集按时序进行排列,对排序后的文本集按照最小时间粒度的整数倍进行分割,生成时间片划分方案;
步骤3、分别计算、提取按照时间片划分方案分割后的各时间片内文本子集所蕴含的活动主题,计算各时间片中活动主题间的相对熵,对目标群活动事件进行关键时间点分析,并据此形成活动事件的演化路径;
步骤4、对活动事件的演化路径进行可视化展现,生成事件发展脉络图。
步骤1包括:
将目标活动事件描述文本集记为集合D={d1,d2,...dn},其中n∈N*且n>1,N*表示自然数;dn表示集合D中第n个文本;
对集合D中的每个文本di,进行时间及地理位置两类原子信息元素抽取计算(参考文献:周凡坤.面向领域的文本信息抽取方法研究[D].南京邮电大学.2014),记di中抽取的时间集合为Ti,获取T1,T2,...,Tn中的最大时间和最小时间,分别记为tmax和tmin;记di中抽取的地理位置集合为Pi,将最终生成的文本di的文档和时空特征集记为Di-TP,则Di-TP={Ti,Pi},其中i取值为1~n;
遍历目标活动事件描述文本集,对每一个文档di进行中文分词,分词后过滤掉停用词,最终得到文本集D对应的词频矩阵Df。参考文献:石凤贵.基于jieba中文分词的中文文本预料预处理模块实现[J].计算机软件及计算机应用.2020。
步骤2包括如下步骤:
步骤2-1:依据文档和时空特征集Di-TP中的时间集Ti对目标活动事件描述文本集按时序进行排列,待分割时间轴总的开始时间为tmin,结束时间为tmax
步骤2-2:对排序后的目标活动事件描述文本集按照最小时间粒度的整数倍进行两轮以上分割,设定在分割过程中取分割的时间长度为L且L为最小时间粒度的整数倍,则初步划分的时间片有
Figure BDA0003015519200000031
个,设定空间特征共现频率调整阈值为θ,对每一个时间片进行如下两步操作:
第一步,根据相邻时间片之间文本集的空间特征共现频率对时间划分方案进行第一次调整,对于第i个时间片Si,分别计算Si与Si-1和Si+1两个时间片中文本集的空间特征共现频率(空间特征共现频率是统计时间片Si与相邻时间片Si-1的文本集合中出现相同地理位置信息的频率),分别记为fi-1和fi+1,如果fi-1>fi+1>θ,则Si与Si-1和Si+1之间的时间片划分方案由Si向前合并;如果θ<fi-1<fi+1,则Si与Si-1和Si+1之间的时间片划分方案由Si向后合并;
第二步,根据当前时间片内文本集的空间特征共现频率对时间划分方案进行第二次调整,计算第i个时间片Si中文本之间的最大空间特征共现频率f′i;如果f′i≥θ,则对时间片Si以最大空间特征文本集为界线进行分割;如果f′i<θ,则不进行时间片划分方案调整;
步骤3包括如下步骤:
步骤3-1:以词频矩阵Df为输入,计算、提取各时间片的活动主题:取活动主题数目为K,其中K∈N*且K>1,计算各时间片中文本的活动主题分布,记计算所得时间片Si的活动主题分布概率向量为
Figure BDA0003015519200000032
Tik表示时间片Si的第K个主题出现的概率,其中k=1,2,3,..K;参考文献:郭蓝天,李杨等.一种基于LDA主题模型的话题发现方法[J].西北工业大学学报.2016(4):698-702;
步骤3-2:计算各时间片内活动主题间的相对熵,将任意两个时间片Si与Sj的活动主题分布分别记为X(t)和Y(t),
Figure BDA0003015519200000033
Figure BDA0003015519200000034
之间的相对熵记为D(X||Y),则:
Figure BDA0003015519200000035
其中X(tn)表示时间片Si的第n个主题出现的概率;Y(tn)表示时间片Sj的第n个主题出现的概率;
步骤3-3:分析目标活动事件演化的关键点:对于第i个时间片Si,如果S1至Si-1之间的时间片Sk是与Si相对熵最小的且该相对熵值大于预设阈值σ,则将Sk作为Si的前向活动阶段;若S1至Si-1中任意时间片Sk与Si的相对熵小于阈值σ,则判断时间片Si为产生新活动事件的阶段;
将Si+1至Slen中与Si相对熵最大的时间片作为时间片Si的下一步活动演化阶段,其中Slen为划分的最后一个时间片;如果两个时间片Si与Sj的下一步活动演化阶段均为时间片Sk,则判定时间片Si与Sj的活动在第k个时间片发生了合并。
步骤4包括:
根据步骤2和步骤3的分析结果,构建可展示目标群体中各单目标参与整体活动事件的时机与先后顺序的鱼骨图;根据各时间片活动主题间的演化关系,构建目标群体活动事件的演化图。
有益效果:本发明与现有技术相比具有以下的优点:
1)活动事件的研究对象更加广泛,由以往仅针对单一目标或某一类目标活动事件的演化研究扩展至针对多个目标或多类目标活动事件整体演化路径的研究,分析过程充分考虑各类事件之间可能存在的正向加强、负向阻碍、演化一致性与分离性等关系特征。
2)将多个目标的多个事件发生的时间序列特征和空间位置序列特征结合起来分析目标群体活动事件的演化及发展进程,充分挖掘目标群体活动事件在时空维度上的内在关联、协同和配合关系,丰富目标群体活动事件演化分析的依据和维度的同时加强了分析结果的可信度。
3)从时间和空间两个维度共同考虑目标活动事件的共现特征,通过构建目标群体中各单目标活动事件的时空关联共现链,能够清晰、直观地发掘各目标活动事件之间
呈现出的分化、协同特征,提高目标群体活动事件整体演化过程中的阶段转折关键点、重要里程碑等与事件发展进程相关的要素的分析和识别能力。
4)通过对目标群体活动事件在时间序列和空间序列进行动态分割来计算活动主题分布情况,能够有效地减少对事件重要转折点的错失、误判的情况,为分析事件演化路径提供重要依据。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的流程示意图。
图2是本发明实施例中时间片划分方案示意图。
图3是本发明实施例中构建的目标参与活动事件顺序的鱼骨图。
图4是本发明实施例中构建的目标群活动事件演化图。
具体实施方式
如图1所示,本发明提供了一种目标群体活动事件的演化路径及发展进程分析方法,在实施例中通过对某军事巡航相关的目标群体活动事件进行演化路径及发展进程分析,验证了该方法的可行性及其实用价值,具体包括:
步骤1、抽取目标活动事件描述文本集中的时间及地理位置特征信息,形成文档-时空特征集;对文本集进行分词,构建文本集对应的词频矩阵。
在实施例中,取一组目标在约3个月内活动事件的描述文本,将目标活动事件描述文本集记为集合D={d1,d2,...dn},其中n∈N*且n>1,对集合D中的每个文本di,进行时间及地理位置两类原子信息元素抽取计算,记di中抽取的时间集合为Ti,获取T1,T2,...,Tn中的最大时间和最小时间,分别记为tmax和tmin;实施例中,tmax为“2019-06-02 00:00:00”;tmin为“2019-08-26 00:00:00”;记di中抽取的地理位置集合为Pi,将最终生成文本di的文档-时空特征集记为Di-TP,则Di-TP={Ti,Pi},其中i∈N*且i>1;遍历目标活动事件描述文本集,对每一个文档di进行中文分词,分词后过滤掉停用词以提高抽取准确性,最终得到文本集D对应的词频矩阵记为Df;在实施例中中文停用词表包含约2400余个词,如:[“而已”,“不时”,“半”,“任”,“故此”,“使得”,“也罢”,“让”,“于”,“理应”,“尽早”,“尽量”,“其”,“除了”,“依”,“蛮”,“以来”,“难得”,“明显”,“应用”,“倒不如”,“那边”,“明显”,“为了”,“来”,“同时”,“其他”,“左右”,“千万”,“不论”,“但”,“难道说”,“周围”,“个别”,“恰相反”,“话说”,“起”,“立马”,“若是”,“乃至”,“从来”,“倍感”,“莫不”,“倘若”,“更加”,“一直”,“何尝”,“一旦”,“迫于”,...];
步骤2、按照文档-时空特征集中的时间信息对目标活动事件描述文本集按时序进行排列,对排序后的文本集按照最小时间粒度的整数倍进行多轮分割,对每轮生成的多个时间片根据文档子集相关的地理位置特征共现情况进行调整,生成时间片划分方案。
步骤2具体包括:
步骤2-1:依据步骤1中生成的文档-时空特征集Di-TP中的时间集Ti对目标活动事件描述文本集按时序进行排列,由步骤1可知待分割时间轴总的开始时间为“2019-06-02 00:00:00”;结束时间为“2019-08-26 00:00:00”;实施例中将tmin和tmax的单位换算为秒,则tmin=1559404800;tmax=1566748800;
步骤2-2:对排序后的文本集按照最小时间粒度的整数倍进行多轮分割,在实施例中,取最小时间粒度为秒;在分割过程中取分割的时间长度为L为最小时间粒度的86400倍,即L为86400秒共24小时,则初步划分的时间片有
Figure BDA0003015519200000061
取空间特征共现频率调整阈值为θ=3,对每一个时间片进行两步操作:
第一步,根据相邻时间片之间文本集的空间特征共现频率对时间划分方案进行第一次调整,对于时间片Si,分别计算Si与Si-1和Si+1两个时间片中文本集的空间特征共现频率,分别记为fi-1和fi+1,若fi-1>fi+1>θ,则Si与Si-1和Si+1之间的时间片划分方案由Si向前合并;若θ<fi-1<fi+1,则Si与Si-1和Si+1之间的时间片划分方案由Si向后合并;在实施例中,图2展示了时间片划分的部分片段,其中默认时间片划分如图2中的(2-1)所示,可以看到时间片划分方案较为死板,只是按划分长度进行了均匀划分;图2中的(2-2)所示的是第一次调整之后的时间片划分结果,其中虚线表示被合并的点,可以看到,考虑空间特征共现情况后,划分方案更加灵活、接近事实;
第二步,根据当前时间片内文本集的空间特征共现频率对时间划分方案进行第二次调整,计算时间片Si中文本之间的最大空间特征共现频率记为f′i;若f′i≥θ,则对时间片Si以最大空间特征文本集为界线进行分割;若f′i<θ,则不进行时间片划分方案调整;在实施例中,第二次调整后的时间片划分结果如图2中的(2-3)所示,其中灰色粗线表示新增的分割点,可以看到,划分方案更加全面地保留活动事件相关时机的细节;
步骤3、分别计算、提取按照时间片划分方案分割后的各时间片内文本子集所蕴含的活动主题,计算各时间片中活动主题间的相对熵,对目标群活动事件进行关键时间点分析,并据此形成活动事件的演化路径。
步骤3具体包括:
步骤3-1:以步骤1中生成的文档词频矩阵Df为输入计算、提取各时间片的活动主题。在实施例中取主题数目为K=8,计算各时间片中文本的主题分布,记计算所得时间片Si的主题分布概率向量为
Figure BDA0003015519200000071
Tik表示时间片Si的第K个主题出现的概率,其中k∈N*且k=1,2,3,..8;
步骤3-2:计算各时间片内活动主题间的相对熵,将任意两个时间片Si与Sj的主题分布记为分布X(t)和分布Y(t),
Figure BDA0003015519200000072
Figure BDA0003015519200000073
之间的相对熵记为D(X||Y),则
Figure BDA0003015519200000074
其中X(tn)表示时间片Si的第n个主题出现的概率;Y(tn)表示时间片Sj的第n个主题出现的概率;
计算所得主题间相对熵值D(X||Y)越小表示主题分布之间的对数差的期望越小,各主题分布相互代替时的信息损失量越小,进而判定主题间的关联性越强,呈现出继承、合并等类型的演化特征越明显;
步骤3-3:分析目标活动事件演化的关键点。对于时间片Si,如果S1至Si-1中时间片Sk是与Si相对熵最小的且该值大于预设阈值σ,实施例中取σ=0.25,则将Sk作为Si的前向活动阶段;若S1至Si-1中任意时间片Sk与Si的相对熵小于阈值σ,则时间片Si判断为产生新活动事件的阶段;将Si+1至Slen中与Si相对熵最大的时间片作为时间片Si的下一步活动演化阶段,其中Slen为划分的最后一个时间片;若两个时间片Si与Sj的下一步活动演化阶段均为时间片Sk,则认为时间片Si与Sj的活动在第k个时间片发生了合并;实施例中所有时间片之间的关键点演化关系如表1所示:
表1
Figure BDA0003015519200000075
Figure BDA0003015519200000081
步骤4、对目标群体活动事件的演化路径和发展进程进行可视化展现,生成事件发展脉络图。
在本实施例中,根据步骤2和3中对目标群体活动事件时间片的划分及事件演化关键点的分析结果,构建可展示目标群体中各单目标参与整体活动事件的时机与先后顺序的鱼骨图如图3所示,可以看到本实施例中相关的44个目标参与整体活动事件的时机与先后顺序细节;根据各时间片活动主题间的演化关系,构建目标群体活动事件的演化图如图4所示,其中展示了各时间片主题活动之间的分化、合并、进一步发展等演化特征,黄色节点标识出事件整体演化路径中的关键点(由于说明书附图只能是灰度图,所以看不出颜色),在这些点上主题活动表现出相互汇聚或各自分解等演化行为。
本发明提供了一种目标群体活动事件的演化路径及发展进程分析方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (5)

1.一种目标群体活动事件的演化路径及发展进程分析方法,其特征在于,包括如下步骤:
步骤1、抽取目标活动事件描述文本集中的时间及地理位置特征信息,形成文档和时空特征集;对目标活动事件描述文本集进行分词,构建目标活动事件描述文本集对应的词频矩阵;
步骤2、对目标活动事件描述文本集按时序进行排列,对排序后的文本集按照最小时间粒度的整数倍进行分割,生成时间片划分方案;
步骤3、分别计算、提取按照时间片划分方案分割后的各时间片内文本子集所蕴含的活动主题,计算各时间片中活动主题间的相对熵,对目标群活动事件进行关键时间点分析,并据此形成活动事件的演化路径;
步骤4、对活动事件的演化路径进行可视化展现,生成事件发展脉络图。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:
将目标活动事件描述文本集记为集合D={d1,d2,...dn},其中n∈N*且n>1,N*表示自然数;dn表示集合D中第n个文本;
对集合D中的每个文本di,进行时间及地理位置两类原子信息元素抽取计算,记di中抽取的时间集合为Ti,获取T1,T2,...,Tn中的最大时间和最小时间,分别记为tmax和tmin;记di中抽取的地理位置集合为Pi,将最终生成的文本di的文档和时空特征集记为Di-TP,则Di-TP={Ti,Pi},其中i取值为1~n;
遍历目标活动事件描述文本集,对每一个文档di进行中文分词,分词后过滤掉停用词,最终得到文本集D对应的词频矩阵Df
3.根据权利要求2所述的方法,其特征在于,步骤2包括如下步骤:
步骤2-1:依据文档和时空特征集Di-TP中的时间集Ti对目标活动事件描述文本集按时序进行排列,待分割时间轴总的开始时间为tmin,结束时间为tmax
步骤2-2:对排序后的目标活动事件描述文本集按照最小时间粒度的整数倍进行两轮以上分割,设定在分割过程中取分割的时间长度为L且L为最小时间粒度的整数倍,则初步划分的时间片有
Figure FDA0003743893710000011
个,设定空间特征共现频率调整阈值为θ,对每一个时间片进行如下两步操作:
第一步,根据相邻时间片之间文本集的空间特征共现频率对时间划分方案进行第一次调整,对于第i个时间片Si,分别计算Si与Si-1和Si+1两个时间片中文本集的空间特征共现频率,分别记为fi-1和fi+1,如果fi-1>fi+1>θ,则Si与Si-1和Si+1之间的时间片划分方案由Si向前合并;如果θ<fi-1<fi+1,则Si与Si-1和Si+1之间的时间片划分方案由Si向后合并;
第二步,根据当前时间片内文本集的空间特征共现频率对时间划分方案进行第二次调整,计算第i个时间片Si中文本之间的最大空间特征共现频率f′i;如果f′i≥θ,则对时间片Si以最大空间特征文本集为界线进行分割;如果f′i<θ,则不进行时间片划分方案调整。
4.根据权利要求3所述的方法,其特征在于,步骤3包括如下步骤:
步骤3-1:以词频矩阵Df为输入,计算、提取各时间片的活动主题:取活动主题数目为K,其中K∈N*且K>1,计算各时间片中文本的活动主题分布,记计算所得时间片Si的活动主题分布概率向量为
Figure FDA0003743893710000021
Tik表示时间片Si的第K个主题出现的概率,其中k=1,2,3,..K;
步骤3-2:计算各时间片内活动主题间的相对熵,将任意两个时间片Si与Sj的活动主题分布分别记为X(t)和Y(t),
Figure FDA0003743893710000022
Figure FDA0003743893710000023
之间的相对熵记为D(X||Y),则:
Figure FDA0003743893710000024
其中X(tn)表示时间片Si的第n个主题出现的概率;Y(tn)表示时间片Sj的第n个主题出现的概率;
步骤3-3:分析目标活动事件演化的关键点:对于第i个时间片Si,如果S1至Si-1之间的时间片Sk是与Si相对熵最小的且该相对熵值大于预设阈值σ,则将Sk作为Si的前向活动阶段;若S1至Si-1中任意时间片Sk与Si的相对熵小于阈值σ,则判断时间片Si为产生新活动事件的阶段;
将Si+1至Slen中与Si相对熵最大的时间片作为时间片Si的下一步活动演化阶段,其中Slen为划分的最后一个时间片;如果两个时间片Si与Sj的下一步活动演化阶段均为时间片Sk,则判定时间片Si与Sj的活动在第k个时间片发生了合并。
5.根据权利要求4所述的方法,其特征在于,步骤4包括:
根据步骤2和步骤3的分析结果,构建可展示目标群体中各单目标参与整体活动事件的时机与先后顺序的鱼骨图;根据各时间片活动主题间的演化关系,构建目标群体活动事件的演化图。
CN202110388525.7A 2021-04-12 2021-04-12 一种目标群体活动事件的演化路径及发展进程分析方法 Active CN113065781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110388525.7A CN113065781B (zh) 2021-04-12 2021-04-12 一种目标群体活动事件的演化路径及发展进程分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110388525.7A CN113065781B (zh) 2021-04-12 2021-04-12 一种目标群体活动事件的演化路径及发展进程分析方法

Publications (2)

Publication Number Publication Date
CN113065781A CN113065781A (zh) 2021-07-02
CN113065781B true CN113065781B (zh) 2022-10-04

Family

ID=76566373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110388525.7A Active CN113065781B (zh) 2021-04-12 2021-04-12 一种目标群体活动事件的演化路径及发展进程分析方法

Country Status (1)

Country Link
CN (1) CN113065781B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648025B (zh) * 2022-05-18 2022-08-09 国网浙江省电力有限公司信息通信分公司 基于电力领域多维度演化图的电网数据处理方法及系统
CN118396390B (zh) * 2024-06-26 2024-09-10 中国民用航空总局第二研究所 机场群体性事件演化状态的确定方法、装置、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9135242B1 (en) * 2011-10-10 2015-09-15 The University Of North Carolina At Charlotte Methods and systems for the analysis of large text corpora
CN103984681B (zh) * 2014-03-31 2017-01-25 同济大学 基于时序分布信息和主题模型的新闻事件演化分析方法
US20160155067A1 (en) * 2014-11-20 2016-06-02 Shlomo Dubnov Mapping Documents to Associated Outcome based on Sequential Evolution of Their Contents
CN107203513A (zh) * 2017-06-06 2017-09-26 中国人民解放军国防科学技术大学 基于概率模型的微博文本数据细粒度话题演化分析方法

Also Published As

Publication number Publication date
CN113065781A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
US11106999B2 (en) Automatic segmentation of a collection of user profiles
CN113065781B (zh) 一种目标群体活动事件的演化路径及发展进程分析方法
CN110781317B (zh) 事件图谱的构建方法、装置及电子设备
CN104113789B (zh) 一种基于深度学习的视频摘要在线生成方法
US8892484B2 (en) System and method for predicting events
DE202019005589U1 (de) Empfängerbasierte Textvorhersage für elektronische Nachrichtenübertragung
CN106815369A (zh) 一种基于Xgboost分类算法的文本分类方法
CN112163637B (zh) 基于非平衡数据的图像分类模型训练方法、装置
EP3798922A1 (de) Vorrichtung und verfahren zum maschinenlernen und ansteuern einer maschine
CN108509793A (zh) 一种基于用户行为日志数据的用户异常行为检测方法及装置
CN110083507B (zh) 关键性能指标分类方法及装置
CN112508726B (zh) 一种基于信息传播特点的虚假舆论识别系统及其处理方法
CN115409155A (zh) 基于Transformer增强霍克斯过程的信息级联预测系统及方法
Ten Thij et al. Modelling of trends in twitter using retweet graph dynamics
Ali et al. Fake accounts detection on social media using stack ensemble system
Gonzales et al. A new algorithm for learning non-stationary dynamic Bayesian networks with application to event detection
Fumanal-Idocin et al. A generalization of the Sugeno integral to aggregate interval-valued data: an application to brain computer interface and social network analysis
Abd et al. YouTube spam comments detection using Artificial Neural Network
CN109918544A (zh) 基于粗糙集的职务犯罪社会关系网络智能分析方法及系统
Hu et al. Training graph neural networks by graphon estimation
Hui et al. Analysis of decision tree classification algorithm based on attribute reduction and application in criminal behavior
Prayote et al. Detecting anomalies and intruders
Shahrezaye et al. Estimating the Political Orientation of Twitter Users in Homophilic Networks.
Shinde et al. Mining classification rules from fuzzy min-max neural network
Athanasopoulos et al. Predicting the evolution of communities with online inductive logic programming

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant