CN112101002B - 一种基于大数据的案件态势感知预警方法、措施推荐方法、装置及终端设备 - Google Patents

一种基于大数据的案件态势感知预警方法、措施推荐方法、装置及终端设备 Download PDF

Info

Publication number
CN112101002B
CN112101002B CN202010964711.6A CN202010964711A CN112101002B CN 112101002 B CN112101002 B CN 112101002B CN 202010964711 A CN202010964711 A CN 202010964711A CN 112101002 B CN112101002 B CN 112101002B
Authority
CN
China
Prior art keywords
case
early warning
keyword
city
cases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010964711.6A
Other languages
English (en)
Other versions
CN112101002A (zh
Inventor
陈贵龙
周金明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing inspector Intelligent Technology Co.,Ltd.
Original Assignee
Nanjing Xingzheyi Intelligent Transportation Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Xingzheyi Intelligent Transportation Technology Co ltd filed Critical Nanjing Xingzheyi Intelligent Transportation Technology Co ltd
Priority to CN202010964711.6A priority Critical patent/CN112101002B/zh
Publication of CN112101002A publication Critical patent/CN112101002A/zh
Application granted granted Critical
Publication of CN112101002B publication Critical patent/CN112101002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明公开了一种基于大数据的案件态势感知预警方法、措施推荐方法、装置及终端设备,该方法包括根据关键词的影响力提升速度、情绪因子、影响系数计算每个案件主题的关键词感知权重,根据过去m天每天的历史案件计算每个主题

Description

一种基于大数据的案件态势感知预警方法、措施推荐方法、装 置及终端设备
技术领域
本发明涉及自然语言处理和智能案件处理领域,具体涉及一种基于大数据的案件态势感知预警方法、措施推荐方法、装置及终端设备。
背景技术
案件处理部门旨在帮助群众解决问题,解决诉求,然而由于中国人口基数大,社会问题复杂,使得案件总量多、涉及到的领域多,相关部门工作量大、公众需求难以解决,目前部分地区虽然实现了案件流程线上化,但是缺乏案件态势预警的系统,在实现本发明过程中,发明人发现现有技术中至少存在如下问题:案件处理工作部门被动接收申请人提出的诉求并进行处理,无法提前对社会中可能产生的问题主题和案件数量进行提前研判,相关工作处于被动状态,无法提前做好相关应对措施。目前缺乏对案件有效态势进行预警的系统或方法,包括对当下案件主题的预测预警、案件数量变化的预警,无法识别各个主题之间潜在的联系和演变关系,没有将当下的社会舆论情况纳入系统进行预判,无法根据相邻区域之间的关系进行预警。
发明内容
为了克服现有技术的不足,本公开实施例提供了一种基于大数据的案件态势感知预警方法、措施推荐方法、装置及终端设备,该方法实现了对未来的案件主题、数量的有效预警,可以帮助案件处理工作部门提前做好相应准备,提高工作效率,节约人力物力。技术方案如下:
第一方面,提供了一种基于大数据的案件态势感知预警方法,该方法包括以下步骤:
计算本月案件中每个案件主题的关键词的影响力提升速度ΔR(x);
获取本月案件以及上个月的历史案件,对于本月的案件,提取其中每个案件的关键词,取并集形成关键词集合A;对于上个月的案件,提取其中每个案件的关键词,取并集形成关键词集合B。
对于A中每个关键词a,计算关键词a的影响力为:
Figure GDA0002935121700000011
对于B中每个关键词b,计算关键词b的影响力为:
Figure GDA0002935121700000021
计算A中每个关键词x的影响力提升速度
Figure GDA0002935121700000022
计算关键词的情绪因子Emotion(x);
根据申请人的情绪将全部案件分为四大类:L1申请人情绪正面的案件、L2申请人情绪中性的案件、L3申请人情绪负面的案件、L4申请人情绪极端激动的案件;对于本月案件关键词集合A中的每个关键词x,本月案件中包含关键词x的案件数量C(x),计算案件数量关键词x的情绪因子:
Figure GDA0002935121700000023
其中C1(x)为L1中包含关键词x的案件数量,C2(x)为L2中包含关键词x的案件数量,C3(x)为L3中包含关键词x的案件数量,C4(x)为L4中包含关键词x的案件数量,α1、α2、α3、α4分别为L1、L2、L3、L4类别的权重系数,α1<α2<α3<α4。
提取社交舆情关键词,计算关键词影响系数Influence(k);
根据所有历史案件提取的关键词集合M,获取本月的网络媒体数据,筛选取出含有集合M中的关键词、且评论量和/或转发量超过50的文章数据集合S,提取数据集合S中每条文章数据的关键词取并集形成舆情关键词集合K(S),K(S)∈M。
对于集合K(S)中的每个关键词k,计算影响系数:
Figure GDA0002935121700000024
si是数据集合S中包含关键词k的所有网络媒体文章,sj是数据集合S中的所有网络媒体文章。
根据关键词的影响力提升速度ΔR(x)、情绪因子Emotion(x)、影响系数Influence(k)计算每个案件主题t的关键词感知权重Weight1(t)。
统计案件处理工作中的主题,案件主题集合记为T,通过NLP中word2vec中文词向量方法,得到T中每个主题t的词向量V(t);本月案件的关键词集合A中每个关键词x的词向量V(x);社交舆情关键词集合K(S)中每个关键词k的词向量V(k)。
计算得到每个主题t的关键词感知权重Weight1(t):
Figure GDA0002935121700000031
Figure GDA0002935121700000032
根据过去m天每天的历史案件计算每个主题t的主题演变感知权重Weight2(t)。
统计过去m天的案件,分别提取每个案件所涉及的主题,根据word2vec中文词向量方法,得到第i天当天每个案件中涉及主题的词向量,对第i天每个案件主题词向量进行向量求和运算得到新的词向量作为当日主题词向量,当日主题词向量所对应的词语作为当日主题,当日主题记为T(i),当日主题词向量记为V(T(i))。
提取过去m天每天的当日主题词向量和当日主题,过去第1天、第2天…第m天的当日主题分别为T(1),T(2),…,T(m),当日主题词向量分别为V(T(1)),V(T(2)),…V(T(m));将所有词向量V(T(1)),V(T(2)),…V(T(m))投射到高维空间φ中,并且有序依次连接V(T(m))—V(T(m-1))—…—V(T(3))—V(T(2))—V(T(1))形成高维空间φ中的一条历史路径L,对于T中每个主题t,同样将词向量V(t)映射到历史路径L所在的高维空间φ,把路径L延伸至向量V(t)形成新的路径
Figure GDA0002935121700000033
通过微分几何中曲线曲率的计算方法,计算高维空间φ中路径
Figure GDA0002935121700000034
在V(T(1))处的曲线曲率κ(t)。
得到主题集合T中每个主题t的主题演变感知权重Weight2(t):
Figure GDA0002935121700000041
对下个月的案件主题进行态势感知预警:
首先通过sigmoid变换,然后比较综合权重Weight(t)选取权重较高的主题作为预警结果,综合权重计算如下:
Figure GDA0002935121700000042
根据设定的阈值
Figure GDA0002935121700000043
Figure GDA0002935121700000044
和/或
Figure GDA0002935121700000045
和/或
Figure GDA0002935121700000046
时,则对主题t进行态势感知预警,从而得到了所有需要预警的案件主题。
优选的,还包括对影响系数进行优化,具体为:
对于不同网络媒体平台{P1,P2,P3,…},分别计算关键词k在各自平台下计算得到的平台影响系数,并求和得到关键词k的影响系数,当Pi平台中存在包含关键词k的文本,且文本来自其他平台Pj时,则更新Pi平台中关键词k的平台影响系数为:原平台影响系数*η+关键词k在平台Pj中的平台影响系数*(1-η),并重新求和得到关键词k的影响系数;不断迭代更新k在各个平台中的平台影响系数并求和得到关键词k的影响系数,直至关键词k的影响系数的变化率小于指定阈值时停止迭代,取停止迭代时的关键词k的影响系数,此时的影响系数是综合了不同平台以及跨平台之间舆情后的结果。
优选的,还包括对曲线曲率κ(t)进行优化,
分别计算路径历史路径L中去除V(T(1))而由V(T(2))延伸至主题t后新路径在V(T(2))点出的曲线曲率
Figure GDA0002935121700000047
路径历史路径L中去除V(T(2)),V(T(1))而由V(T(3))延伸至主题t后新路径在V(T(3))点出的曲线曲率
Figure GDA0002935121700000048
优化更新κ(t)为κ(t),
Figure GDA0002935121700000049
的均值。
优选的,还包括对综合权重进行优化,根据需求分别设置Weight1(t)和Weight2(t)的系数β1,β2,综合权重为:
Figure GDA00029351217000000410
β1+β2=1,β1≥0,β2≥0。
优选的,还包括对城市中预警案件主题的数量进行态势感知,提前对下个月可能产生的案件数量进行预警;
通过城市自身的态势感知预警主题的案件数量增减情况以及周边城市的预警主题的案件数量增减情况计算了下个月城市该主题的案件数量,统计每个主题每个城市i当月的月度案件数量Q(i)以及相比上月数量的增加量ΔQ(i),城市总数为n。
对于预警主题,预测城市i下个月的案件数量
Figure GDA0002935121700000051
为:
Figure GDA0002935121700000052
j是除城市i之外的其他城各个城市。
进一步的,对城市中预警案件主题的数量进行态势感知还包括:计算城市交流系数,对于任意两个城市a与b,计算城市交流系数。
分别获取城市a与城市b的最新常住人口数目local(a)和local(b),在城市a与城市b之间通过各种交通方式出行的人次之和为flow(a,b),对于所有流动人次flow(a,b),统计每个人次在出行中从出发地-目的地的耗时,对所有出行的耗时取均值得到所有人次flow(a,b)的平均出行耗时t(a,b),单位为小时;
即得到城市a与城市b的交流系数:
Figure GDA0002935121700000053
对于预警主题,预测城市i下个月的案件数量
Figure GDA0002935121700000054
为:
Figure GDA0002935121700000055
j是除城市i之外的其他城各个城市。
进一步的,还包括根据城市i下个月的预测案件数量
Figure GDA0002935121700000056
对城市案件数量进行态势感知预警,当案件数量的增长率超过设定阈值r1或者总数相比与城市自身规模超过给定阈值r2时,对城市案件数量进行预警,即对于城市i,当
Figure GDA0002935121700000057
Figure GDA0002935121700000058
时,对城市i进行数量预警。
第二方面,提供了一种基于大数据的案件态势感知预警的措施推荐方法,该方法包括:
根据所有可能的实现方式中任一项所述的一种基于大数据的案件态势感知预警方法得到的预警结果,采取针对性措施。
对于得到预警主题,提前检索、准备相关案例和法律法规知识,进行相关学习,并在公共媒体平台以及案件处理部门进行展示。
对于数量增加较高的数量预警,提前抽调相关人力、物力、财力等以应对工作量突然增加的情况。
第三方面,提供了一种基于大数据的案件态势感知预警装置,该装置包括主题预警模块、数量预警模块,
所述主题预警模块,用于执行所有可能的实现方式中任一项所述的一种基于大数据的案件态势感知预警方法中“对下个月的案件主题进行态势感知预警”的步骤。
所述数量预警模块,用于执行所有可能的实现方式中任一项所述的一种基于大数据的案件态势感知预警方法中“对城市中预警案件主题的数量进行态势感知”的步骤。
第四方面,提供了一种终端设备,该终端设备包括所有可能的实现方式中任一项所述一种基于大数据的案件态势感知预警装置。
与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:通过提取案件的关键词计算影响力提升速度,感知当下案件中的重要关键词;通过对关键词情绪因子的计算,使得容易造成情绪异常的案件主题更容易被识别预警;通过对网络媒体数据的分析,提取当下舆情的热点关键词以及影响系数,使得本方法更符合当下热点,具有很强的实时性;通过对主题和关键词的相似度计算结合案件主题趋势演变,预测了未来案件可能出现的重要主题;通过结合周边区域的城市案件数量态势感知计算,使得对城市案件数量预警时能够更全面的考虑时间和空间因素。通过对未来的案件主题、数量进行预警,帮助案件处理工作部门提前做好相应准备,提高工作效率,节约人力物力。
具体实施方式
为了阐明本发明的技术方案和工作原理,下面将对本公开实施方式做进一步的详细描述。上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本实施例中,所述案件处理可以用于与此流程模式相关的多个领域。
第一方面:本公开实施例提供了一种基于大数据的案件态势感知预警方法,该方法包括以下步骤:
计算本月案件中每个案件主题的关键词的影响力提升速度ΔR(x);
获取本月案件以及上个月的历史案件,对于本月的案件,提取其中每个案件的关键词,取并集形成关键词集合A;对于上个月的案件,提取其中每个案件的关键词,取并集形成关键词集合B;
对于A中每个关键词a,关键词a的影响力为:
Figure GDA0002935121700000071
对于B中每个关键词b,关键词b的影响力为:
Figure GDA0002935121700000072
计算A中每个关键词x的影响力提升速度
Figure GDA0002935121700000073
当关键词提升速度越高时,说明本月中此关键词的占比提升越大。
计算关键词的情绪因子Emotion(x);
在案件处理中,申请人的情绪也是很重要的考虑因素,针对不同的案件问题申请人的普遍情绪也会有所差异,对于申请人普遍情绪容易激动的案件问题需要给予更高的重视和预警。根据历史案件申请人的情绪状态把所有案件分为四大类:正面,中性,负面,极端激动。
根据申请人的情绪将全部案件分为四大类:L1申请人情绪正面的案件、L2申请人情绪中性的案件、L3申请人情绪负面的案件、L4申请人情绪极端激动的案件;对于本月案件关键词集合A中的每个关键词x,本月案件中包含关键词x的案件数量C(x),计算案件数量关键词x的情绪因子:
Figure GDA0002935121700000074
其中C1(x)为L1中包含关键词x的案件数量,C2(x)为L2中包含关键词x的案件数量,C3(x)为L3中包含关键词x的案件数量,C4(x)为L4中包含关键词x的案件数量,α1、α2、α3、α4分别为L1、L2、L3、L4类别的权重系数,α1<α2<α3<α4;
通过计算情绪因子,当案件中出现了情绪因子高的关键词,说明申请人更有可能会有情绪异常的情况,而在态势感知时综合考虑其他因素的同时充分考虑情绪因子的大小,使得某些数量较少但性质严重容易引发严重结果的案件问题能够得到预警。针对极度敏感问题的情况,也可以通过单一情绪因子超过阈值时就行预警,为案件处理人提供充分的时间准备。
提取社交舆情关键词,计算关键词影响系数Influence(k);
随着移动互联网的发展,社交媒体的实时性使得问题更容易得到传播发酵,通过获取当下社交媒体中的关键词并计算影响系数,使得本方法能够进一步提前预测目前案件中还未大量出现但未来可能出现的案件问题。
根据所有历史案件提取的关键词集合M,获取本月的网络媒体(微博)数据,筛选取出含有集合M中关键词且评论量/转发量超过50的文章数据集合S,提取数据集合S中每条文章数据的关键词取并集形成舆情关键词集合K(S),K(S)∈M
对于集合K(S)中的每个关键词k,计算影响系数:
Figure GDA0002935121700000081
si是数据集合S中包含关键词k的所有网络媒体文章,sj是数据集合S中的所有网络媒体文章;
目前众多用户转发等操作并非在平台自身进行评论、转发操作,存在大量的跨平台转发的情况,例如许多人通过微信转发其他平台的文本/评论等,所以需要进一步通过跨平台的舆情模型来优化关键词k的影响系数。
进一步,还包括对影响系数进行优化,具体为:
对于不同平台{P1,P2,P3,…},分别计算关键词k在各自平台下计算得到的平台影响系数,并求和得到关键词k的影响系数,当Pi平台中存在包含关键词k的文本,且文本来自其他平台Pj时,则更新Pi平台中关键词k的平台影响系数为原平台影响系数*η+关键词k在平台Pj中的平台影响系数*(1-η),并重新求和得到关键词k的影响系数;不断迭代更新k在各个平台中的平台影响系数并求和得到关键词k的影响系数,直至关键词k的影响系数的变化率小于指定阈值时停止迭代,取停止迭代时的关键词k的影响系数,此时的影响系数是综合了不同平台以及跨平台之间舆情后的结果。
根据关键词的影响力提升速度ΔR(x)、情绪因子Emotion(x)、影响系数Influence(k)计算每个案件主题t的关键词感知权重Weight1(t);
通过获取案件的关键词以及社交舆情关键词后,需要进一步根据这些庞大的关键词推断下个月案件的主题并对重要主题进行预警。当关键词本身影响力较大时,与之相关的主题就越重要。
统计案件处理工作中的主题,案件主题集合记为T,通过NLP中word2vec中文词向量方法,得到T中每个主题t的词向量V(t);本月案件的关键词集合A中每个关键词x的词向量V(x);社交舆情关键词集合K(S)中每个关键词k的词向量V(k)。
计算得到每个主题t的关键词感知权重Weight1(t):
Figure GDA0002935121700000091
Figure GDA0002935121700000092
通过将本月包含关键词案件的数量变化情况、包含关键词的案件申请人情绪、社交舆情关键词等因素综合起来,使得本方法能够全方位考虑各方面因素,提供准确及时地预警结果。感知权重Weight1(t)越大,则说明主题t在下个月的重要性就越高。
根据过去m天每天的历史案件计算每个主题t的主题演变感知权重Weight2(t);
在社会中的问题主题演变是存在潜在联系和规律的,且随着时间流逝,近期事件对未来主题的影响更高,而历史较久的事件的影响就会淡化。本步骤通过高维空间中的路径来刻画主题演变的趋势和规律,并通过此演变路径去进一步预测未来的主题走向,进一步的通过路径在最近三天的曲率来反映近期主题对未来主题的更高影响力。
统计过去m天每天的案件,分别提取每个案件所涉及的主题,根据word2vec中文词向量方法,得到第i天当天每个案件中涉及主题的词向量,对第i天每个案件主题词向量进行向量求和运算得到新的词向量作为当日主题词向量,当日主题词向量所对应的词语作为当日主题,当日主题记为T(i),当日主题词向量记为V(T(i));通过此方法能够综合一天中各个案件的主题,并提取出一个综合反映当日各个案件主题信息的当日主题。
提取过去m天每天的当日主题词向量和当日主题,过去第1天、第2天…第m天的当日主题分别为T(1),T(2),…,T(m),当日主题词向量分别为V(T(1)),V(T(2)),…V(T(m));将所有词向量V(T(1)),V(T(2)),…V(T(m))投射到高维空间φ中,并且有序依次连接V(T(m))—V(T(m-1))—…—V(T(3))—V(T(2))—V(T(1))形成高维空间φ中的一条历史路径L,此路径反映了过去m天每天案件当日主题的演变情况。
对于T中每个主题t,同样将词向量V(t)映射到历史路径L所在的高维空间φ,把路径L延伸至向量V(t)形成新的路径
Figure GDA0002935121700000101
通过微分几何中曲线曲率的计算方法,计算高维空间φ中路径
Figure GDA0002935121700000102
在V(T(1))处的曲线曲率κ(t)。当曲率κ(t)越小时,表示过去m天当日主题路径L延伸至主题t的路径越平滑,即过去的主题越可能演变至主题t,未来案件的中涉及主题t的可能性越大。这里计算在V(T(1))处的曲率,反映了从最近一天演变至新主题的路径越平缓,从而也体现出了越近的案件的重要性越高。
得到主题集合T中每个主题t的主题演变感知权重Weight2(t):
Figure GDA0002935121700000103
优选的,还包括对曲线曲率κ(t)进行优化,
分别计算路径历史路径L中去除V(T(1))而由V(T(2))延伸至主题t后新路径在V(T(2))点出的曲线曲率
Figure GDA0002935121700000104
路径历史路径L中去除V(T(2)),V(T(1))而由V(T(3))延伸至主题t后新路径在V(T(3))点出的曲线曲率
Figure GDA0002935121700000105
优化更新κ(t)为κ(t),
Figure GDA0002935121700000111
的均值。从而提高了过去m天中最近3天的主题与未来新主题的关系权重,κ(t)越小,反映了过去m天中(尤其是最近3天)的主题演变至新主题t的可能性越高。
对下个月的案件主题进行态势感知预警:
为保证两个权重的尺度统一,首先通过sigmoid变换,然后比较综合权重Weight(t)选取权重较高的主题作为预警结果,综合权重计算如下:
Figure GDA0002935121700000112
优选的,对综合权重进行优化,根据需求分别设置Weight1(t)和Weight2(t)的系数β1,β2,综合权重为:
Figure GDA0002935121700000113
β1+β2=1,β1≥0,β2≥0。
根据设定的阈值
Figure GDA0002935121700000114
Figure GDA0002935121700000115
和/或
Figure GDA0002935121700000116
和/或
Figure GDA0002935121700000117
时,则对主题t进行态势感知预警,从而得到了所有需要预警的案件主题。
优选的,还包括对城市中预警案件主题的数量进行态势感知,提前对下个月可能产生的案件数量进行预警;
通过城市自身的态势感知预警主题的案件数量增减情况以及周边城市的预警主题的案件数量增减情况计算了下个月城市该主题的案件数量,统计每个主题每个城市i当月的月度案件数量Q(i)以及相比上月数量的增加量ΔQ(i),城市总数为n;
对于预警主题,预测城市i下个月的案件数量
Figure GDA0002935121700000118
为:
Figure GDA0002935121700000119
j是除城市i之外的其他城各个城市
预测下个月的案件数量越大越值得注意,从而在事态感知预警得到案件主题后,对该案件主题的数量增减情况进一步预警提示。
进一步的,对城市中预警案件主题的数量进行态势感知还包括:计算城市交流系数,对于任意两个城市a与b,计算城市交流系数。
考虑到近年来随着交通工具便捷、城镇化推进等因素,不同城市之间的人员、经济活动交流更为密切,从而本方法不仅考虑了城市本身过去的案件数量变化情况,也将周边城市的案件变化形势纳入计算,对城市案件数量提供考量了时间、空间、城市规模因素后更加全面的态势感知预警。
分别获取城市a与城市b的最新常住人口数目local(a)和local(b),在城市a与城市b之间通过(高铁/飞机/自驾等)各种交通方式出行的人次之和为flow(a,b),(出行具体的包括:从城市a出发前往城市b或从城市b出发前往城市a)。
对于所有流动人次flow(a,b),统计每个人次在出行中从出发地-目的地的耗时,对所有出行的耗时取均值得到所有人次flow(a,b)的平均出行耗时t(a,b),单位为小时;自然的,当两个城市之间出行时间越短时,则沟通更加紧密,人员、经济活动交流更加密切。
即得到城市a与城市b的交流系数:
Figure GDA0002935121700000121
对于预警主题,预测城市i下个月的案件数量
Figure GDA0002935121700000122
为:
Figure GDA0002935121700000123
j是除城市i之外的其他城各个城市
通过本方法的计算公式,不仅考虑到城市本身可能产生的新的案件,同时考虑到了周边城市的影响,当某个城市在过去一个因为某些社会问题突然激增了案件数量后,与其在人员、经济活动等方面交流紧密的城市则同样存在可能因为同样的社会问题随后造成案件数量激增的情况。
进一步的,还包括根据城市i下个月的预测案件数量
Figure GDA0002935121700000124
对城市案件数量进行态势感知预警,当案件数量的增长率超过设定阈值r1或者总数相比与城市自身规模超过给定阈值r2时,对城市案件数量进行预警,即对于城市i,当
Figure GDA0002935121700000125
Figure GDA0002935121700000126
时,对城市i进行数量预警。预警内容为“下个月案件数量可能过高”。
通过对城市历史案件数量变化以及周边城市的案件数量变化,结合城市间的人员流动、出行便利程度所计算的交流系数,建立了城市案件数量态势感知方法,使得在对本城市案件数量预测时能够综合考虑其他周边城市当下的主要案件问题以及由于人员、经济活动等使得本城市将来也会产生同样问题。
第二方面,本公开实施例提供了一种基于大数据的案件态势感知预警的措施推荐方法,该方法包括:
根据所有可能的实现方式中任一项所述的一种基于大数据的案件态势感知预警方法得到的预警结果,采取针对性措施:
对于得到预警主题,提前检索、准备相关案例和法律法规知识,进行相关学习,并在公共媒体平台以及案件处理部门进行展示;一方面使得工作人员提取具备专业能力提高工作效率,另一方面也能使得申请人了解相关知识,从而在上访前就能够了解诉求的解决方案并采取自行解决的方式。
对于数量增加较高的数量预警,提前抽调相关人力、物力、财力等以应对工作量突然增加的情况。
以上对本发明进行了示例性描述,显然,本发明具体实现并不受上述方式的限制,凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进;或者未经改进、等同替换,将本发明的上述构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。

Claims (10)

1.一种基于大数据的案件态势感知预警方法,其特征在于,该方法包括以下步骤:
计算本月案件中每个案件主题的关键词的影响力提升速度ΔR(x);
获取本月案件以及上个月的历史案件,对于本月的案件,提取其中每个案件的关键词,取并集形成关键词集合A;对于上个月的案件,提取其中每个案件的关键词,取并集形成关键词集合B;
对于A中每个关键词a,计算关键词a的影响力为:
Figure FDA0002935121690000011
对于B中每个关键词b,计算关键词b的影响力为:
Figure FDA0002935121690000012
计算A中每个关键词x的影响力提升速度
Figure FDA0002935121690000013
计算关键词的情绪因子Emotion(x);
根据申请人的情绪将全部案件分为四大类:L1申请人情绪正面的案件、L2申请人情绪中性的案件、L3申请人情绪负面的案件、L4申请人情绪极端激动的案件;对于本月案件关键词集合A中的每个关键词x,本月案件中包含关键词x的案件数量C(x),计算案件数量关键词x的情绪因子:
Figure FDA0002935121690000014
其中C1(x)为L1中包含关键词x的案件数量,C2(x)为L2中包含关键词x的案件数量,C3(x)为L3中包含关键词x的案件数量,C4(x)为L4中包含关键词x的案件数量,α1、α2、α3、α4分别为L1、L2、L3、L4类别的权重系数,α1<α2<α3<α4;
提取社交舆情关键词,计算关键词影响系数Influence(k);
根据所有历史案件提取的关键词集合M,获取本月的网络媒体数据,筛选取出含有集合M中的关键词、且评论量和/或转发量超过50的文章数据集合S,提取数据集合S中每条文章数据的关键词取并集形成舆情关键词集合K(S),K(S)∈M
对于集合K(S)中的每个关键词k,计算影响系数:
Figure FDA0002935121690000021
si是数据集合S中包含关键词k的所有网络媒体文章,sj是数据集合S中的所有网络媒体文章;
根据关键词的影响力提升速度ΔR(x)、情绪因子Emotion(x)、影响系数Influence(k)计算每个案件主题t的关键词感知权重Weight1(t);
统计案件处理工作中的主题,案件主题集合记为T,通过NLP中word2vec中文词向量方法,得到T中每个主题t的词向量V(t);本月案件的关键词集合A中每个关键词x的词向量V(x);社交舆情关键词集合K(S)中每个关键词k的词向量V(k);
计算得到每个主题t的关键词感知权重Weight1(t):
Figure FDA0002935121690000022
Figure FDA0002935121690000023
根据过去m天每天的历史案件计算每个主题t的主题演变感知权重Weight2(t);
统计过去m天的案件,分别提取每个案件所涉及的主题,根据word2vec中文词向量方法,得到第i天当天每个案件中涉及主题的词向量,对第i天每个案件主题词向量进行向量求和运算得到新的词向量作为当日主题词向量,当日主题词向量所对应的词语作为当日主题,当日主题记为T(i),当日主题词向量记为V(T(i));
提取过去m天每天的当日主题词向量和当日主题,过去第1天、第2天…第m天的当日主题分别为T(1),T(2),…,T(m),当日主题词向量分别为V(T(1)),V(T(2)),…V(T(m));将所有词向量V(T(1)),V(T(2)),…V(T(m))投射到高维空间φ中,并且有序依次连接V(T(m))—V(T(m-1))—…—V(T(3))—V(T(2))—V(T(1))形成高维空间φ中的一条历史路径L,对于T中每个主题t,同样将词向量V(t)映射到历史路径L所在的高维空间φ,把路径L延伸至向量V(t)形成新的路径
Figure FDA0002935121690000037
通过微分几何中曲线曲率的计算方法,计算高维空间φ中路径
Figure FDA0002935121690000038
在V(T(1))处的曲线曲率κ(t);
得到主题集合T中每个主题t的主题演变感知权重Weight2(t):
Figure FDA0002935121690000031
对下个月的案件主题进行态势感知预警:
首先通过sigmoid变换,然后比较综合权重Weight(t)选取权重较高的主题作为预警结果,综合权重计算如下:
Figure FDA0002935121690000032
根据设定的阈值
Figure FDA0002935121690000033
Figure FDA0002935121690000035
和/或
Figure FDA0002935121690000036
和/或
Figure FDA0002935121690000034
时,则对主题t进行态势感知预警,从而得到了所有需要预警的案件主题。
2.根据权利要求1所述的一种基于大数据的案件态势感知预警方法,其特征在于,还包括对影响系数进行优化,具体为:
对于不同网络媒体平台{P1,P2,P3,…},分别计算关键词k在各自平台下计算得到的平台影响系数,并求和得到关键词k的影响系数,当Pi平台中存在包含关键词k的文本,且文本来自其他平台Pj时,则更新Pi平台中关键词k的平台影响系数为:原平台影响系数*η+关键词k在平台Pj中的平台影响系数*(1-η),并重新求和得到关键词k的影响系数;不断迭代更新k在各个平台中的平台影响系数并求和得到关键词k的影响系数,直至关键词k的影响系数的变化率小于指定阈值时停止迭代,取停止迭代时的关键词k的影响系数,此时的影响系数是综合了不同平台以及跨平台之间舆情后的结果。
3.根据权利要求1所述的一种基于大数据的案件态势感知预警方法,其特征在于,还包括对曲线曲率κ(t)进行优化,
分别计算路径历史路径L中去除V(T(1))而由V(T(2))延伸至主题t后新路径在V(T(2))点出的曲线曲率
Figure FDA0002935121690000044
路径历史路径L中去除V(T(2)),V(T(1))而由V(T(3))延伸至主题t后新路径在V(T(3))点出的曲线曲率
Figure FDA0002935121690000045
优化更新κ(t)为κ(t),
Figure FDA0002935121690000046
的均值。
4.根据权利要求1所述的一种基于大数据的案件态势感知预警方法,其特征在于,还包括对综合权重进行优化,根据需求分别设置Weight1(t)和Weight2(t)的系数β1,β2,综合权重为:
Figure FDA0002935121690000041
β1+β2=1,β1≥0,β2≥0。
5.根据权利要求1-4任一项所述的一种基于大数据的案件态势感知预警方法,其特征在于,还包括对城市中预警案件主题的数量进行态势感知,提前对下个月可能产生的案件数量进行预警;
通过城市自身的态势感知预警主题的案件数量增减情况以及周边城市的预警主题的案件数量增减情况计算了下个月城市该主题的案件数量,统计每个主题每个城市i当月的月度案件数量Q(i)以及相比上月数量的增加量ΔQ(i),城市总数为n;
对于预警主题,预测城市i下个月的案件数量
Figure FDA0002935121690000042
为:
Figure FDA0002935121690000043
j是除城市i之外的其他城各个城市。
6.根据权利要求5所述的一种基于大数据的案件态势感知预警方法,其特征在于,对城市中预警案件主题的数量进行态势感知还包括:计算城市交流系数,对于任意两个城市a与b,计算城市交流系数;
分别获取城市a与城市b的最新常住人口数目local(a)和local(b),在城市a与城市b之间通过各种交通方式出行的人次之和为flow(a,b),对于所有流动人次flow(a,b),统计每个人次在出行中从出发地-目的地的耗时,对所有出行的耗时取均值得到所有人次flow(a,b)的平均出行耗时t(a,b),单位为小时;
即得到城市a与城市b的交流系数:
Figure FDA0002935121690000051
对于预警主题,预测城市i下个月的案件数量
Figure FDA0002935121690000052
为:
Figure FDA0002935121690000053
j是除城市i之外的其他城各个城市。
7.根据权利要求6所述的一种基于大数据的案件态势感知预警方法,其特征在于,还包括根据城市i下个月的预测案件数量
Figure FDA0002935121690000054
对城市案件数量进行态势感知预警,当案件数量的增长率超过设定阈值r1或者总数相比与城市自身规模超过给定阈值r2时,对城市案件数量进行预警,即对于城市i,当
Figure FDA0002935121690000055
Figure FDA0002935121690000056
时,对城市i进行数量预警。
8.一种基于大数据的案件态势感知预警的措施推荐方法,其特征在于,该方法包括:
根据权利要求1-7任一项所述的一种基于大数据的案件态势感知预警方法得到的预警结果,采取针对性措施:
对于得到预警主题,提前检索、准备相关案例和法律法规知识,进行相关学习,并在公共媒体平台以及案件处理部门进行展示;
对于数量增加较高的数量预警,提前抽调相关人力、物力、财力等以应对工作量突然增加的情况。
9.一种基于大数据的案件态势感知预警装置,其特征在于,该装置包括主题预警模块、数量预警模块,
所述主题预警模块,用于执行权利要求1-7任一项所述的一种基于大数据的案件态势感知预警方法中“对下个月的案件主题进行态势感知预警”的步骤;
所述数量预警模块,用于执行权利要求1-7任一项所述的一种基于大数据的案件态势感知预警方法中“对城市中预警案件主题的数量进行态势感知”的步骤。
10.一种终端设备,其特征在于,该终端设备包括权利要求9所述一种基于大数据的案件态势感知预警装置。
CN202010964711.6A 2020-09-15 2020-09-15 一种基于大数据的案件态势感知预警方法、措施推荐方法、装置及终端设备 Active CN112101002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010964711.6A CN112101002B (zh) 2020-09-15 2020-09-15 一种基于大数据的案件态势感知预警方法、措施推荐方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010964711.6A CN112101002B (zh) 2020-09-15 2020-09-15 一种基于大数据的案件态势感知预警方法、措施推荐方法、装置及终端设备

Publications (2)

Publication Number Publication Date
CN112101002A CN112101002A (zh) 2020-12-18
CN112101002B true CN112101002B (zh) 2021-04-02

Family

ID=73751031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010964711.6A Active CN112101002B (zh) 2020-09-15 2020-09-15 一种基于大数据的案件态势感知预警方法、措施推荐方法、装置及终端设备

Country Status (1)

Country Link
CN (1) CN112101002B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法
CN106156257A (zh) * 2015-04-28 2016-11-23 北大方正集团有限公司 一种微博舆情事件的态势预测方法
CN107451249A (zh) * 2017-07-28 2017-12-08 成都澳海川科技有限公司 事件发展趋势的预测方法及装置
CN108959383A (zh) * 2018-05-31 2018-12-07 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN109635283A (zh) * 2018-11-26 2019-04-16 汉纳森(厦门)数据股份有限公司 一种基于挖掘市民投诉文本的公共安全事件事前预警方法
CN111221972A (zh) * 2020-01-08 2020-06-02 安徽霍迹寻踪供应链管理有限公司 一种网络舆情信息监控预警系统
CN111523006A (zh) * 2020-04-14 2020-08-11 上海安洵信息技术有限公司 一种针对疫情区的网络舆情追踪方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11636442B2 (en) * 2018-05-02 2023-04-25 Yahoo Assets Llc Systems and methods for future event recommendation
CN111428113B (zh) * 2020-03-27 2022-07-01 华侨大学 一种基于模糊综合评判的网络舆论引导效果预测方法
CN111581370B (zh) * 2020-04-20 2023-06-23 国家计算机网络与信息安全管理中心 综合多通道数据来源的网络舆情热度评估方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763401A (zh) * 2009-12-30 2010-06-30 暨南大学 一种网络舆情的热点预测和分析方法
CN106156257A (zh) * 2015-04-28 2016-11-23 北大方正集团有限公司 一种微博舆情事件的态势预测方法
CN107451249A (zh) * 2017-07-28 2017-12-08 成都澳海川科技有限公司 事件发展趋势的预测方法及装置
CN108959383A (zh) * 2018-05-31 2018-12-07 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
WO2019227710A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN109635283A (zh) * 2018-11-26 2019-04-16 汉纳森(厦门)数据股份有限公司 一种基于挖掘市民投诉文本的公共安全事件事前预警方法
CN111221972A (zh) * 2020-01-08 2020-06-02 安徽霍迹寻踪供应链管理有限公司 一种网络舆情信息监控预警系统
CN111523006A (zh) * 2020-04-14 2020-08-11 上海安洵信息技术有限公司 一种针对疫情区的网络舆情追踪方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Financial Big Data Analysis and Early Warning Platform: A Case Study;YI LIANG 等;《IEEE Access》;20200123;第36515-36526页 *
大数据环境下网络舆情演化规律及预警模型问题探讨;侯学慧;《四川警察学院学报》;20191031;第31卷(第5期);第104-110页 *
突发事件网络舆情研究进展与趋势分析;李晚莲 等;《重庆邮电大学学报(社会科学版)》;20190930;第31卷(第5期);第60-68页 *

Also Published As

Publication number Publication date
CN112101002A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
Batra et al. Integrating StockTwits with sentiment analysis for better prediction of stock price movement
CN104794192B (zh) 基于指数平滑、集成学习模型的多级异常检测方法
CN107992609A (zh) 一种基于文本分类技术和决策树的投诉倾向判断方法
CN107657267B (zh) 产品潜在用户挖掘方法及装置
CN105931068A (zh) 一种持卡人消费画像的生成方法及装置
CN108108352A (zh) 一种基于机器学习文本挖掘技术的企业投诉风险预警方法
CN110310163A (zh) 一种精准制定营销策略的方法、设备及可读介质
CN113051365A (zh) 一种产业链图谱构建方法及相关设备
CN113989019A (zh) 识别风险的方法、装置、设备及存储介质
CN107506877A (zh) Ota平台到店无房的预测方法及系统
CN106952190A (zh) 虚假房源录入行为识别与预警系统
CN109389321A (zh) 一种价格评估方法及装置
CN108491956A (zh) 一种经纪人离职预估系统及方法
CN114240495A (zh) 商机转化概率的预测方法、装置及计算机可读存储介质
CN110084653A (zh) 一种数据处理方法、装置、服务器及存储介质
CN116307928A (zh) 一种目标督查督办管理系统
CN112101002B (zh) 一种基于大数据的案件态势感知预警方法、措施推荐方法、装置及终端设备
CN115099680B (zh) 风险管理方法、装置、设备及存储介质
CN115409616A (zh) 风险检测方法、装置、设备、存储介质及产品
CN115293867A (zh) 财务报销用户画像优化方法、装置、设备及存储介质
CN114742412A (zh) 一种软件技术服务系统及方法
Bogdanova et al. Valuating the position of the control object based on a universal complex indicator using structured and unstructured data
CN114186028A (zh) 咨诉工单处理方法、装置、设备及存储介质
CN113064883A (zh) 物流风控模型的构建方法、计算机设备和存储介质
CN113723663A (zh) 电力工单数据的处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220208

Address after: Room 102, building a, building 4, Nanjing Baixia high tech Industrial Park, Qinhuai District, Nanjing, Jiangsu 210014

Patentee after: Nanjing inspector Intelligent Technology Co.,Ltd.

Address before: 210014 1st floor, building a, building 4, Nanjing Baixia high tech Industrial Park, No.6 Yongzhi Road, Qinhuai District, Nanjing City, Jiangsu Province

Patentee before: NANJING XINGZHEYI INTELLIGENT TRANSPORTATION TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right