CN112883169A - 一种基于大数据的矛盾演化分析方法及装置 - Google Patents

一种基于大数据的矛盾演化分析方法及装置 Download PDF

Info

Publication number
CN112883169A
CN112883169A CN202110468461.1A CN202110468461A CN112883169A CN 112883169 A CN112883169 A CN 112883169A CN 202110468461 A CN202110468461 A CN 202110468461A CN 112883169 A CN112883169 A CN 112883169A
Authority
CN
China
Prior art keywords
contradiction
grid
vector
keywords
day
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110468461.1A
Other languages
English (en)
Other versions
CN112883169B (zh
Inventor
周金明
陈贵龙
熊林海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Inspector Intelligent Technology Co Ltd
Original Assignee
Nanjing Inspector Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Inspector Intelligent Technology Co Ltd filed Critical Nanjing Inspector Intelligent Technology Co Ltd
Priority to CN202110468461.1A priority Critical patent/CN112883169B/zh
Publication of CN112883169A publication Critical patent/CN112883169A/zh
Application granted granted Critical
Publication of CN112883169B publication Critical patent/CN112883169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的矛盾演化分析方法及装置,该方法包括:步骤1,采集城市网格矛盾事件及关键词,构造时间演化模型并训练得到每个网格的矛盾遗忘、更新、输出参数;步骤2,预测网格未来矛盾事件关键词。步骤3,按照关键词词向量的相似度结合聚类算法对这部分关键词进行聚类分组;对于每一组关键词,选取历史矛盾文本中包含这组关键词最多的一条文本作为预测的矛盾文本描述,从而得到每组一个矛盾文本描述,进而得到城市整体的矛盾预测的中文文本描述。通过对区域矛盾的演化预测,帮助工作人员提前预知可能发生的矛盾,提高工作效率,节约大量人力物力。

Description

一种基于大数据的矛盾演化分析方法及装置
技术领域
本发明涉及矛盾推理和自然语言处理研究领域,具体涉及一种基于大数据的矛盾演化分析方法及装置。
背景技术
随着社会现代化的发展,人与人之间的交流沟通越来越多,信息交互越来越频繁,随之也使得各种各样的社会热点事件和矛盾冲突更加凸显化,许多小型矛盾事件最终逐步演化成了较大规模的热点事件。社会管理人员只能人工获取感知事件,工作量大且难以提前准确评估,缺乏相关智能化根据对未来矛盾的发展进行预测。
发明内容
为了克服现有技术的不足,本发明提供了一种基于大数据的矛盾演化分析方法及装置,通过对区域矛盾的演化预测,帮助工作人员提前预知可能发生的矛盾,提高工作效率,节约大量人力物力。技术方案如下:
提供了一种基于大数据的矛盾演化分析方法,该方法包括如下步骤:
步骤1,采集城市网格矛盾事件及关键词,构造时间演化模型并训练得到每个网格的矛盾遗忘、更新、输出参数;
将城市区域划分为N个网格,这些网格记为A1,A2,…,AN
对于每个网格,采集网格内过去数月发生的所有矛盾,每个矛盾用文本来表示,并从文本中提取出多个关键词;
将所有网格的矛盾文本合并拼接作为行业语料库,利用预训练的BERT模型在此语料库中继续训练出适合某行业的语言模型,得到基于矛盾描述习惯的语言模型;
对于社会矛盾事件,其演化过程蕴含了对历史久远矛盾的遗忘、当前矛盾的更新以及最终未来矛盾的输出预测,且不同的网格区域的遗忘、更新和输出规律是不一样的;对于网格Ai,采集其每天的矛盾文本;
矛盾文本向量:对于每个矛盾文本,获取文本的关键词,根据之前训练好的基于矛盾描述习惯的语言模型,计算得到每个关键词的词向量表示,并用求和后的向量来表示矛盾文本向量。
当日矛盾向量:对于网格Ai,若在其区域内一天中可能发生多起矛盾事件,则用每个矛盾文本的词向量取均值后的向量来表示当日矛盾向量,而若在一天中没有发生矛盾事件,则取0向量表示当日矛盾向量;从而对于网格Ai,可以计算得到过去一段时间内的每天的当日矛盾向量C(T),T表示日期,其年月日表示为××××-××-××,如2020-09-26;构造区域内的时间演化模型如下:
Figure 305880DEST_PATH_IMAGE001
,i=1,2,…,M
其中C(T)表示T日期的当日矛盾向量,T-i表示在T日期的基础上往前追溯i天,f(T-i)表示T-i日期的遗忘参数,g(T-i)表示T-i日期的更新参数,h(T-i)表示T-i日期的输出参数;即用T日期之前过去M天的矛盾向量乘以遗忘参数f、更新参数g以及输出参数h去预测T日期的矛盾向量;通过对每个网格计算得到的当日矛盾向量,训练得到每个网格的遗忘、更新、输出参数。
步骤2,预测网格未来矛盾事件关键词,
对于每个网格,提取其过去n天的矛盾事件,计算得到每天的当日矛盾向量C(T),利用步骤1训练得到的时间演化模型
Figure 322377DEST_PATH_IMAGE001
,i=1,2,…,M来预测网格当前日期D的当日矛盾向量C(D),
Figure 820355DEST_PATH_IMAGE002
,i=1,2,…,n。
得到预测的当日矛盾向量C(D)后,通过矛盾向量反推出具体的矛盾事件或者矛盾关键词,对步骤1中采集到的过去一年或数月各个网格的矛盾事件的关键词去重后形成关键词库,对关键词库中的每个关键词用基于矛盾描述习惯的语言模型获得词向量,并对每个词向量除以向量的模获得标准化表示v,即每个向量的长度都为1,将预测的当日矛盾向量C(D)同样除以其模长做标准化处理得到C,依次计算当日矛盾向量和关键词库每个关键词的相似性,其中相似性的计算方法如下:
Figure 529685DEST_PATH_IMAGE003
Similarity(C, v)表示当日矛盾向量C和关键词词向量v的相似度,C • v是向量的点乘运算,选取相似性超过给定阈值的关键词作为预测的当日矛盾关键词,从而预测得到当前日期所有网格的矛盾关键词。
步骤3,预测得到城市整体的矛盾信息和文本描述;
通过步骤2得到每个网格预测的矛盾关键词后,按照关键词词向量的相似度结合聚类算法对这部分关键词进行聚类分组;
对于每一组关键词,选取历史矛盾文本中包含这组关键词最多的一条文本作为预测的矛盾文本描述,从而得到每组一个矛盾文本描述,进而得到城市整体的矛盾预测的中文文本描述。
优选的,所述网格是指具有活动人员相对固定、人之间存在信息交流、面积小于一定阈值的区域。
优选的,步骤1中所述利用预训练的BERT模型在此语料库中继续训练出适合某行业的语言模型,具体训练任务为:将语料库中随机遮蔽10%-30%的词语,并预测被遮蔽的词语,从而得到基于矛盾描述习惯的语言模型。
优选的,步骤1中,采集网格内过去数月发生的所有矛盾,还包括从这所有矛盾中选取涉及人数超过给定阈值的矛盾,进行下一步的处理。
优选的,步骤1中,设置时间演化模型中同一个月的每天遗忘参数f相同、同一个月的每天更新参数g相同、同一个月的每天输出参数h相同。
优选的,步骤2中,预测的当日矛盾向量还包括考虑网格间的影响:
从每个矛盾文本的关键词中,提取任意两个或多个关键词,定义:
地理相关系数=1+(包含这两个或多个关键词的网格数/总网格数);
矛盾相关系数=1+(包含这两个或多个关键词的矛盾数量/总矛盾数量);
对于任意一个网格A,计算其他网格对其的综合影响,记Aj是A1,A2,…AN中除去A的其他某一个网格,w是网格Aj通过当日矛盾向量预测得到的某一个矛盾关键词,则w与网格A的平均相关系数是:ratio(w,A)=w与A中每个关键词的(地理相关系数*矛盾相关系数)的均值。
从而得到网格Aj对网格A的影响向量I(Aj):
Figure 418006DEST_PATH_IMAGE004
,w是Aj预测的每个矛盾关键词;
这里I(Aj)是向量,依次计算每个其他网格对网格A的影响向量后求和得到综合影响向量:
I(A)= ∑(I(Aj))
将I(A)与当日矛盾向量C(D)相加后的向量就是融合了地理因素以及时间因素的两个维度信息的综合向量;再将综合向量标准化处理后得到C’,依次计算综合向量和关键词库每个关键词的相似性,其中相似性的计算方法如下:
Figure 300512DEST_PATH_IMAGE005
Similarity(C’, v)表示综合向量C’和关键词词向量v的相似度,C’ • v是向量的点乘运算,选取相似性超过给定阈值的关键词作为预测的当日矛盾关键词,从而预测得到当前日期所有网格的矛盾关键词。
与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:通过对区域矛盾的演化预测,帮助工作人员提前预知可能发生的矛盾,提高工作效率,节约人力物力;通过提供智能化的自动处理策略,使得工作人员可以提前预防部署人力物力进行管理;通过对历史矛盾的遗忘、更新、输出的学习,使得算法能够学习到在自然生活中一个矛盾真实的消失、生成、演化的规律。
另外,通过对城市进行网格化表示,采集网格矛盾,并提取关键词计算关键词的地理相关系数和矛盾相关系数;通过训练得到每个网格的遗忘、更新、输出参数,得到每个网格矛盾的发展演变的表达公式;通过基于矛盾文本训练语言模型使得模型对本行业的表示更加智能;通过网格之间地理演化以及自身的时间演化共同预测未来的矛盾,大大提高了预测的准确率。
具体实施方式
为了阐明本发明的技术方案和工作原理,下面将对本公开实施方式做进一步的详细描述。上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本申请的说明书和权利要求书中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里描述的那些以外的顺序实施。
第一方面:本公开实施例提供了一种基于大数据的矛盾演化分析方法,该方法包括如下步骤:
步骤1,采集城市网格矛盾事件及关键词,构造时间演化模型并训练得到每个网格的矛盾遗忘、更新、输出参数。
将城市区域划分为N个网格,这些网格记为A1,A2,…,AN;优选的,每个网格并非指长宽相同的区域,而是指具有活动人员相对固定、人物间存在信息交流、面积小于一定阈值的区域,例如城市、小区、学校、单位、写字楼等。
对于每个网格,采集网格内过去数月发生的所有矛盾,每个矛盾用文本来表示,并从文本中提取出多个关键词。优选的,考虑到存储能力和计算性能,这里从过去一年发生的所有矛盾中保留涉及人数超过给定阈值的矛盾。
将所有网格的矛盾文本合并拼接作为行业语料库,利用预训练的BERT模型在此语料库中继续训练出适合某行业的语言模型,优选的,训练任务是将语料库中随机遮蔽10%-30% (如20%)的词语,并预测被遮蔽的词语,从而得到基于矛盾描述习惯的语言模型。
对于社会矛盾事件,其演化过程蕴含了对历史久远矛盾的遗忘、当前矛盾的更新以及最终未来矛盾的输出预测,且不同的网格区域的遗忘、更新和输出规律是不一样的;对于网格Ai,采集其每天的矛盾文本。
矛盾文本向量:对于每个矛盾文本,获取文本的关键词,根据之前训练好的基于矛盾描述习惯的语言模型,计算得到每个关键词的词向量表示,并用求和后的向量来表示矛盾文本向量。
当日矛盾向量:对于网格Ai,若在其区域内一天中可能发生多起矛盾事件,则用每个矛盾文本的词向量取均值后的向量来表示当日矛盾向量,而若在一天中没有发生矛盾事件,则取0向量表示当日矛盾向量;从而对于网格Ai,可以计算得到过去一段时间内的每天的当日矛盾向量C(T),T表示日期,其年月日表示为××××-××-××;构造区域内的时间演化模型如下:
Figure 112652DEST_PATH_IMAGE001
i=1,2,…,M;
其中C(T)表示T日期的当日矛盾向量,T-i表示在T日期的基础上往前追溯i天,f(T-i)表示T-i日期的遗忘参数,g(T-i)表示T-i日期的更新参数,h(T-i)表示T-i日期的输出参数;即用T日期之前过去M天的矛盾向量乘以遗忘参数f、更新参数g以及输出参数h去预测T日期的矛盾向量;通过对每个网格计算得到的当日矛盾向量,训练得到每个网格的遗忘、更新、输出参数。优选的,为了减少参数避免过拟合,这里设置时间演化模型中同一个月的每天遗忘参数f相同、同一个月的每天更新参数g相同、同一个月的每天输出参数h相同。
步骤2,预测网格未来矛盾事件关键词。
对于每个网格,提取其过去n天(一个月)的矛盾事件,计算得到每天的当日矛盾向量C(T),利用步骤1训练得到的时间演化模型
Figure 55200DEST_PATH_IMAGE001
,i=1,2,…,M来预测网格当前日期D的当日矛盾向量C(D),只需取M= n(30)即可。
Figure 430817DEST_PATH_IMAGE002
,i=1,2,…,n。
得到预测的当日矛盾向量C(D)后,通过矛盾向量反推出具体的矛盾事件或者矛盾关键词,从而供社会管理人员提前进行准备;对步骤1中采集到的过去一年或数月各个网格的矛盾事件的关键词去重后形成关键词库,对关键词库中的每个关键词用基于矛盾描述习惯的语言模型获得词向量,并对每个词向量除以向量的模获得标准化表示v,即每个向量的长度都为1,从而保证计算向量相似度时具有可比性;将预测的当日矛盾向量C(D)同样除以其模长做标准化处理得到C,依次计算当日矛盾向量和关键词库每个关键词的相似性,其中相似性的计算方法如下:
Figure 851434DEST_PATH_IMAGE003
Similarity(C, v)表示当日矛盾向量C和关键词词向量v的相似度,C • v是向量的点乘运算,选取相似性超过给定阈值的关键词作为预测的当日矛盾关键词,从而预测得到当前日期所有网格的矛盾关键词。
优选的,考虑到每个网格之间也会存在人员流动和信息交流,就会产生矛盾事件影响,所以还包括考虑网格间的影响:
从每个矛盾文本的若干个关键词中,提取任意两个或多个关键词,定义:
地理相关系数=1+(包含这两个或多个关键词的网格数/总网格数)
矛盾相关系数=1+(包含这两个或多个关键词的矛盾数量/总矛盾数量)
可以看出地理相关系数越高,说明一个网格区域同时出现这两个或多个关键词的矛盾的可能性越高。矛盾相关系数越高,说明一个矛盾事件同时包含这两个或多个关键词的可能性越高。
对于任意一个网格A(A是A1,A2,…AN中的某一个),计算其他网格对其的综合影响,记Aj是A1,A2,…AN中除去A的其他某一个网格,w是网格Aj通过当日矛盾向量预测得到的某一个矛盾关键词,则w与网格A的平均相关系数是:
ratio(w,A)=w与A中每个关键词的(地理相关系数*矛盾相关系数)的均值,从而得到网格Aj对网格A的影响向量I(Aj):
Figure 261687DEST_PATH_IMAGE004
,w是Aj预测的每个矛盾关键词
这里I(Aj)是向量,依次计算每个其他网格对网格A的影响向量后求和得到综合影响向量:
I(A)= ∑(I(Aj))
将I(A)与当日矛盾向量C(D)相加后的向量就是融合了地理因素以及时间因素的两个维度信息的综合向量;再将综合向量标准化处理后得到C’,依次计算综合向量和关键词库每个关键词的相似性,其中相似性的计算方法如下:
Figure 375137DEST_PATH_IMAGE005
Similarity(C’, v)表示综合向量C’和关键词词向量v的相似度,C’ • v是向量的点乘运算,选取相似性超过给定阈值的关键词作为预测的当日矛盾关键词,从而预测得到当前日期所有网格的矛盾关键词。
步骤3,预测得到城市整体的矛盾信息和文本描述。
通过步骤2得到每个网格预测的矛盾关键词后,按照关键词词向量的相似度结合聚类算法对这部分关键词进行聚类分组,例如教育、学区、学校可以作为一组,停车、车位可以作为一组。
对于每一组关键词,选取历史矛盾文本中包含这组关键词最多的一条文本作为预测的矛盾文本描述,从而得到每组一个矛盾文本描述,进而得到城市整体的矛盾预测的中文文本描述。
第二方面,本公开实施例提供了一种基于大数据的矛盾演化分析装置,基于相同的技术构思,该装置可以实现或执行所有可能的实现方式中任一项所述的一种基于大数据的矛盾演化分析方法。
进一步的,该装置包括模型构建模块、第一预测模块、第二预测模块。
所述模型构建模块,用于执行所有可能的实现方式中任一项所述的一种基于大数据的矛盾演化分析方法的步骤1的步骤;
所述第一预测模块,用于执行所有可能的实现方式中任一项所述的一种基于大数据的矛盾演化分析方法的步骤2的步骤;
所述第二预测模块,用于执行所有可能的实现方式中任一项所述的一种基于大数据的矛盾演化分析方法的步骤3的步骤。
需要说明的是,上述实施例提供的一种基于大数据的矛盾演化分析装置在执行一种基于大数据的矛盾演化分析方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外上述实施例提供的一种基于大数据的矛盾演化分析装置与一种基于大数据的矛盾演化分析方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
以上对本发明进行了示例性描述,显然,本发明具体实现并不受上述方式的限制,凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进;或者未经改进、等同替换,将本发明的上述构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。

Claims (7)

1.一种基于大数据的矛盾演化分析方法,其特征在于,该方法包括如下步骤:
步骤1,采集城市网格矛盾事件及关键词,构造时间演化模型并训练得到每个网格的矛盾遗忘、更新、输出参数;
将城市区域划分为N个网格,这些网格记为A1,A2,…,AN
对于每个网格,采集网格内过去数月发生的所有矛盾,每个矛盾用文本来表示,并从文本中提取出多个关键词;
将所有网格的矛盾文本合并拼接作为行业语料库,利用预训练的BERT模型在此语料库中继续训练出适合某行业的语言模型,得到基于矛盾描述习惯的语言模型;
对于社会矛盾事件,其演化过程蕴含了对历史久远矛盾的遗忘、当前矛盾的更新以及最终未来矛盾的输出预测,且不同的网格区域的遗忘、更新和输出规律是不一样的;对于网格Ai,采集其每天的矛盾文本;
矛盾文本向量:对于每个矛盾文本,获取文本的关键词,根据之前训练好的基于矛盾描述习惯的语言模型,计算得到每个关键词的词向量表示,并用求和后的向量来表示矛盾文本向量;
当日矛盾向量:对于网格Ai,若在其区域内一天中可能发生多起矛盾事件,则用每个矛盾文本的词向量取均值后的向量来表示当日矛盾向量,而若在一天中没有发生矛盾事件,则取0向量表示当日矛盾向量;从而对于网格Ai,可以计算得到过去一段时间内的每天的当日矛盾向量C(T),T表示日期,其年月日表示为××××-××-××;构造区域内的时间演化模型如下:
Figure 352919DEST_PATH_IMAGE001
,i=1,2,…,M其中C(T)表示T日期的当日矛盾向量,T-i表示在T日期的基础上往前追溯i天,f(T-i)表示T-i日期的遗忘参数,g(T-i)表示T-i日期的更新参数,h(T-i)表示T-i日期的输出参数;即用T日期之前过去M天的矛盾向量乘以遗忘参数f、更新参数g以及输出参数h去预测T日期的矛盾向量;通过对每个网格计算得到的当日矛盾向量,训练得到每个网格的遗忘、更新、输出参数;
步骤2,预测网格未来矛盾事件关键词,
对于每个网格,提取其过去n天的矛盾事件,计算得到每天的当日矛盾向量C(T),利用步骤1训练得到的时间演化模型
Figure 452593DEST_PATH_IMAGE001
,i=1,2,…,M来预测网格当前日期D的当日矛盾向量C(D),
Figure 514090DEST_PATH_IMAGE002
,i=1,2,…,n;
得到预测的当日矛盾向量C(D)后,通过矛盾向量反推出具体的矛盾事件或者矛盾关键词,对步骤1中采集到的过去一年或数月各个网格的矛盾事件的关键词去重后形成关键词库,对关键词库中的每个关键词用基于矛盾描述习惯的语言模型获得词向量,并对每个词向量除以向量的模获得标准化表示v,即每个向量的长度都为1,将预测的当日矛盾向量C(D)同样除以其模长做标准化处理得到C,依次计算当日矛盾向量和关键词库每个关键词的相似性,其中相似性的计算方法如下:
Figure 234659DEST_PATH_IMAGE003
Similarity(C,v)表示当日矛盾向量C和关键词词向量v的相似度,C • v是向量的点乘运算,选取相似性超过给定阈值的关键词作为预测的当日矛盾关键词,从而预测得到当前日期所有网格的矛盾关键词;
步骤3,预测得到城市整体的矛盾信息和文本描述;
通过步骤2得到每个网格预测的矛盾关键词后,按照关键词词向量的相似度结合聚类算法对这部分关键词进行聚类分组;
对于每一组关键词,选取历史矛盾文本中包含这组关键词最多的一条文本作为预测的矛盾文本描述,从而得到每组一个矛盾文本描述,进而得到城市整体的矛盾预测的中文文本描述。
2.根据权利要求1所述的一种基于大数据的矛盾演化分析方法,其特征在于,所述网格是指具有活动人员相对固定、人之间存在信息交流、面积小于一定阈值的区域。
3.根据权利要求1所述的一种基于大数据的矛盾演化分析方法,其特征在于,步骤1中所述利用预训练的BERT模型在此语料库中继续训练出适合某行业的语言模型,具体训练任务为:将语料库中随机遮蔽10%-30%的词语,并预测被遮蔽的词语,从而得到基于矛盾描述习惯的语言模型。
4.根据权利要求1所述的一种基于大数据的矛盾演化分析方法,其特征在于,步骤1中,采集网格内过去数月发生的所有矛盾,还包括从这所有矛盾中选取涉及人数超过给定阈值的矛盾,进行下一步的处理。
5.根据权利要求1所述的一种基于大数据的矛盾演化分析方法,其特征在于,步骤1中,设置时间演化模型中同一个月的每天遗忘参数f相同、同一个月的每天更新参数g相同、同一个月的每天输出参数h相同。
6.根据权利要求1-5任一项所述的一种基于大数据的矛盾演化分析方法,其特征在于,步骤2中,预测的当日矛盾向量还包括考虑网格间的影响:
从每个矛盾文本的关键词中,提取任意两个或多个关键词,定义:
地理相关系数=1+(包含这两个或多个关键词的网格数/总网格数)
矛盾相关系数=1+(包含这两个或多个关键词的矛盾数量/总矛盾数量)
对于任意一个网格A,计算其他网格对其的综合影响,记Aj是A1,A2,…AN中除去A的其他某一个网格,w是网格Aj通过当日矛盾向量预测得到的某一个矛盾关键词,则w与网格A的平均相关系数是:ratio(w,A)= w与A中每个关键词的(地理相关系数*矛盾相关系数)的均值;
从而得到网格Aj对网格A的影响向量I(Aj):
Figure 647186DEST_PATH_IMAGE004
,w是Aj预测的每个矛盾关键词
这里I(Aj)是向量,依次计算每个其他网格对网格A的影响向量后求和得到综合影响向量:
I(A)= ∑(I(Aj))
将I(A)与当日矛盾向量C(D)相加后的向量就是融合了地理因素以及时间因素的两个维度信息的综合向量;再将综合向量标准化处理后得到C’,依次计算综合向量和关键词库每个关键词的相似性,其中相似性的计算方法如下:
Figure 612868DEST_PATH_IMAGE005
Similarity(C’,v)表示综合向量C’和关键词词向量v的相似度,C’ • v是向量的点乘运算,选取相似性超过给定阈值的关键词作为预测的当日矛盾关键词,从而预测得到当前日期所有网格的矛盾关键词。
7.一种基于大数据的矛盾演化分析装置,其特征在于,该装置可以实现权利要求1-6任一项所述的一种基于大数据的矛盾演化分析方法。
CN202110468461.1A 2021-04-29 2021-04-29 一种基于大数据的矛盾演化分析方法及装置 Active CN112883169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110468461.1A CN112883169B (zh) 2021-04-29 2021-04-29 一种基于大数据的矛盾演化分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110468461.1A CN112883169B (zh) 2021-04-29 2021-04-29 一种基于大数据的矛盾演化分析方法及装置

Publications (2)

Publication Number Publication Date
CN112883169A true CN112883169A (zh) 2021-06-01
CN112883169B CN112883169B (zh) 2021-07-16

Family

ID=76040180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110468461.1A Active CN112883169B (zh) 2021-04-29 2021-04-29 一种基于大数据的矛盾演化分析方法及装置

Country Status (1)

Country Link
CN (1) CN112883169B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822498A (zh) * 2021-10-29 2021-12-21 南京视察者智能科技有限公司 一种基于大数据的社会矛盾指数预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220295A (zh) * 2017-04-27 2017-09-29 银江股份有限公司 一种人民矛盾调解案例搜索和调解策略推荐方法
CN110188092A (zh) * 2019-04-28 2019-08-30 浙江工业大学 一种挖掘人民调解中新型矛盾纠纷的系统及方法
US20190378179A1 (en) * 2018-06-12 2019-12-12 Exxonmobil Upstream Research Company Method and System for Generating Contradiction Scores for Petroleum Geoscience Entities within Text using Associative Topic Sentiment Analysis.
CN110688451A (zh) * 2019-08-15 2020-01-14 中国平安人寿保险股份有限公司 评价信息处理方法、装置、计算机设备及存储介质
CN111026848A (zh) * 2019-12-17 2020-04-17 电子科技大学 一种基于相似上下文和强化学习的中文词向量生成方法
CN111709244A (zh) * 2019-11-20 2020-09-25 中共南通市委政法委员会 一种用于矛盾纠纷事件因果关系识别的深度学习方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220295A (zh) * 2017-04-27 2017-09-29 银江股份有限公司 一种人民矛盾调解案例搜索和调解策略推荐方法
US20190378179A1 (en) * 2018-06-12 2019-12-12 Exxonmobil Upstream Research Company Method and System for Generating Contradiction Scores for Petroleum Geoscience Entities within Text using Associative Topic Sentiment Analysis.
CN110188092A (zh) * 2019-04-28 2019-08-30 浙江工业大学 一种挖掘人民调解中新型矛盾纠纷的系统及方法
CN110688451A (zh) * 2019-08-15 2020-01-14 中国平安人寿保险股份有限公司 评价信息处理方法、装置、计算机设备及存储介质
CN111709244A (zh) * 2019-11-20 2020-09-25 中共南通市委政法委员会 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN111026848A (zh) * 2019-12-17 2020-04-17 电子科技大学 一种基于相似上下文和强化学习的中文词向量生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHUQIN LI等: "A Computational Approach to Finding", 《2018 IEEE/ACM INTERNATIONAL CONFERENCE ON ADVANCES IN SOCIAL NETWORKS ANALYSIS AND MINING (ASONAM)》 *
侯万友: "群体性突发事件微博舆情演化分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822498A (zh) * 2021-10-29 2021-12-21 南京视察者智能科技有限公司 一种基于大数据的社会矛盾指数预测方法
CN113822498B (zh) * 2021-10-29 2023-07-18 南京视察者智能科技有限公司 一种基于大数据的社会矛盾指数预测方法

Also Published As

Publication number Publication date
CN112883169B (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
Zhang et al. A feature selection and multi-model fusion-based approach of predicting air quality
Dragomir Air quality index prediction using K-nearest neighbor technique
Zhang et al. A Traffic Prediction Method of Bicycle-sharing based on Long and Short term Memory Network.
WO2022021727A1 (zh) 城市综合体用电量预测方法、装置、电子设备及存储介质
Jiang et al. Forecasting hourly PM2. 5 based on deep temporal convolutional neural network and decomposition method
Oliveira et al. Automated monitoring of construction sites of electric power substations using deep learning
Lee et al. An online operator support tool for severe accident management in nuclear power plants using dynamic event trees and deep learning
Xie et al. Autoencoder-based deep belief regression network for air particulate matter concentration forecasting
CN113011455A (zh) 一种空气质量预测svm模型构建方法
Yu et al. Passenger flow prediction for new line using region dividing and fuzzy boundary processing
CN112883169B (zh) 一种基于大数据的矛盾演化分析方法及装置
Haggag et al. Infrastructure performance prediction under climate-induced disasters using data analytics
Chowdhury et al. Application of data mining techniques on air pollution of Dhaka city
Ratra et al. A Comprehensive Review on Crime Patterns and Trends Analysis using Machine Learning
Turner et al. Generating spatio-temporal descriptions in pollen forecasts
CN115249081A (zh) 一种对象类型的预测方法、装置、计算机设备和存储介质
Asaei-Moamam et al. Air quality particulate-pollution prediction applying GAN network and the Neural Turing Machine
Cerna et al. Boosting methods for predicting firemen interventions
Ramos-Soto et al. Automatic linguistic descriptions of meteorological data a soft computing approach for converting open data to open information
Zhan et al. Prediction of air quality in major cities of China by deep learning
CN113537607B (zh) 停电预测方法
Karmshahi et al. Application of an integrated CA-Markov model in simulating spatiotemporal changes in forest cover: a case study of Malekshahi county forests, Ilam province
CN115209441A (zh) 基站退服告警预测方法、装置、设备及存储介质
Balasankar et al. Intelligent socio-economic status prediction system using machine learning models on Rajahmundry AP, SES dataset
Malik et al. F-ONTOCOM: A Fuzzified Cost Estimation Approach for Ontology Engineering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant