CN112883169A

CN112883169A - 一种基于大数据的矛盾演化分析方法及装置

Info

Publication number: CN112883169A
Application number: CN202110468461.1A
Authority: CN
Inventors: 周金明; 陈贵龙; 熊林海
Original assignee: Nanjing Inspector Intelligent Technology Co Ltd
Current assignee: Nanjing Inspector Intelligent Technology Co Ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-06-01
Anticipated expiration: 2041-04-29
Also published as: CN112883169B

Abstract

本发明公开了一种基于大数据的矛盾演化分析方法及装置，该方法包括：步骤1，采集城市网格矛盾事件及关键词，构造时间演化模型并训练得到每个网格的矛盾遗忘、更新、输出参数；步骤2，预测网格未来矛盾事件关键词。步骤3，按照关键词词向量的相似度结合聚类算法对这部分关键词进行聚类分组；对于每一组关键词，选取历史矛盾文本中包含这组关键词最多的一条文本作为预测的矛盾文本描述，从而得到每组一个矛盾文本描述，进而得到城市整体的矛盾预测的中文文本描述。通过对区域矛盾的演化预测，帮助工作人员提前预知可能发生的矛盾，提高工作效率，节约大量人力物力。

Description

一种基于大数据的矛盾演化分析方法及装置

技术领域

本发明涉及矛盾推理和自然语言处理研究领域，具体涉及一种基于大数据的矛盾演化分析方法及装置。

背景技术

随着社会现代化的发展，人与人之间的交流沟通越来越多，信息交互越来越频繁，随之也使得各种各样的社会热点事件和矛盾冲突更加凸显化，许多小型矛盾事件最终逐步演化成了较大规模的热点事件。社会管理人员只能人工获取感知事件，工作量大且难以提前准确评估，缺乏相关智能化根据对未来矛盾的发展进行预测。

发明内容

为了克服现有技术的不足，本发明提供了一种基于大数据的矛盾演化分析方法及装置，通过对区域矛盾的演化预测，帮助工作人员提前预知可能发生的矛盾，提高工作效率，节约大量人力物力。技术方案如下：

提供了一种基于大数据的矛盾演化分析方法，该方法包括如下步骤：

步骤1，采集城市网格矛盾事件及关键词，构造时间演化模型并训练得到每个网格的矛盾遗忘、更新、输出参数；

将城市区域划分为N个网格，这些网格记为A₁,A₂,…,A_N；

对于每个网格，采集网格内过去数月发生的所有矛盾，每个矛盾用文本来表示，并从文本中提取出多个关键词；

将所有网格的矛盾文本合并拼接作为行业语料库，利用预训练的BERT模型在此语料库中继续训练出适合某行业的语言模型，得到基于矛盾描述习惯的语言模型；

对于社会矛盾事件，其演化过程蕴含了对历史久远矛盾的遗忘、当前矛盾的更新以及最终未来矛盾的输出预测，且不同的网格区域的遗忘、更新和输出规律是不一样的；对于网格A_i，采集其每天的矛盾文本；

矛盾文本向量：对于每个矛盾文本，获取文本的关键词，根据之前训练好的基于矛盾描述习惯的语言模型，计算得到每个关键词的词向量表示，并用求和后的向量来表示矛盾文本向量。

当日矛盾向量：对于网格A_i，若在其区域内一天中可能发生多起矛盾事件，则用每个矛盾文本的词向量取均值后的向量来表示当日矛盾向量，而若在一天中没有发生矛盾事件，则取0向量表示当日矛盾向量；从而对于网格A_i，可以计算得到过去一段时间内的每天的当日矛盾向量C(T)，T表示日期，其年月日表示为××××-××-××，如2020-09-26；构造区域内的时间演化模型如下：

，i=1,2,…,M

其中C(T)表示T日期的当日矛盾向量，T-i表示在T日期的基础上往前追溯i天，f(T-i)表示T-i日期的遗忘参数，g(T-i)表示T-i日期的更新参数，h(T-i)表示T-i日期的输出参数；即用T日期之前过去M天的矛盾向量乘以遗忘参数f、更新参数g以及输出参数h去预测T日期的矛盾向量；通过对每个网格计算得到的当日矛盾向量，训练得到每个网格的遗忘、更新、输出参数。

步骤2，预测网格未来矛盾事件关键词，

对于每个网格，提取其过去n天的矛盾事件，计算得到每天的当日矛盾向量C(T)，利用步骤1训练得到的时间演化模型

，i=1,2,…,M来预测网格当前日期D的当日矛盾向量C(D)，

，i=1,2,…,n。

得到预测的当日矛盾向量C(D)后，通过矛盾向量反推出具体的矛盾事件或者矛盾关键词，对步骤1中采集到的过去一年或数月各个网格的矛盾事件的关键词去重后形成关键词库，对关键词库中的每个关键词用基于矛盾描述习惯的语言模型获得词向量，并对每个词向量除以向量的模获得标准化表示v，即每个向量的长度都为1，将预测的当日矛盾向量C(D)同样除以其模长做标准化处理得到C，依次计算当日矛盾向量和关键词库每个关键词的相似性，其中相似性的计算方法如下：

Similarity(C, v)表示当日矛盾向量C和关键词词向量v的相似度，C • v是向量的点乘运算，选取相似性超过给定阈值的关键词作为预测的当日矛盾关键词，从而预测得到当前日期所有网格的矛盾关键词。

步骤3，预测得到城市整体的矛盾信息和文本描述；

通过步骤2得到每个网格预测的矛盾关键词后，按照关键词词向量的相似度结合聚类算法对这部分关键词进行聚类分组；

对于每一组关键词，选取历史矛盾文本中包含这组关键词最多的一条文本作为预测的矛盾文本描述，从而得到每组一个矛盾文本描述，进而得到城市整体的矛盾预测的中文文本描述。

优选的，所述网格是指具有活动人员相对固定、人之间存在信息交流、面积小于一定阈值的区域。

优选的，步骤1中所述利用预训练的BERT模型在此语料库中继续训练出适合某行业的语言模型，具体训练任务为：将语料库中随机遮蔽10%-30%的词语，并预测被遮蔽的词语，从而得到基于矛盾描述习惯的语言模型。

优选的，步骤1中，采集网格内过去数月发生的所有矛盾，还包括从这所有矛盾中选取涉及人数超过给定阈值的矛盾，进行下一步的处理。

优选的，步骤1中，设置时间演化模型中同一个月的每天遗忘参数f相同、同一个月的每天更新参数g相同、同一个月的每天输出参数h相同。

优选的，步骤2中，预测的当日矛盾向量还包括考虑网格间的影响：

从每个矛盾文本的关键词中，提取任意两个或多个关键词，定义：

地理相关系数=1+(包含这两个或多个关键词的网格数/总网格数)；

矛盾相关系数=1+(包含这两个或多个关键词的矛盾数量/总矛盾数量)；

对于任意一个网格A，计算其他网格对其的综合影响，记A_j是A₁,A₂,…A_N中除去A的其他某一个网格，w是网格A_j通过当日矛盾向量预测得到的某一个矛盾关键词，则w与网格A的平均相关系数是：ratio(w,A)=w与A中每个关键词的(地理相关系数*矛盾相关系数)的均值。

从而得到网格A_j对网格A的影响向量I(A_j)：

，w是A_j预测的每个矛盾关键词；

这里I(A_j)是向量，依次计算每个其他网格对网格A的影响向量后求和得到综合影响向量：

I(A)= ∑(I(A_j))

将I(A)与当日矛盾向量C(D)相加后的向量就是融合了地理因素以及时间因素的两个维度信息的综合向量；再将综合向量标准化处理后得到C’，依次计算综合向量和关键词库每个关键词的相似性，其中相似性的计算方法如下：

Similarity(C’, v)表示综合向量C’和关键词词向量v的相似度，C’ • v是向量的点乘运算，选取相似性超过给定阈值的关键词作为预测的当日矛盾关键词，从而预测得到当前日期所有网格的矛盾关键词。

与现有技术相比，上述技术方案中的一个技术方案具有如下有益效果：通过对区域矛盾的演化预测，帮助工作人员提前预知可能发生的矛盾，提高工作效率，节约人力物力；通过提供智能化的自动处理策略，使得工作人员可以提前预防部署人力物力进行管理；通过对历史矛盾的遗忘、更新、输出的学习，使得算法能够学习到在自然生活中一个矛盾真实的消失、生成、演化的规律。

另外，通过对城市进行网格化表示，采集网格矛盾，并提取关键词计算关键词的地理相关系数和矛盾相关系数；通过训练得到每个网格的遗忘、更新、输出参数，得到每个网格矛盾的发展演变的表达公式；通过基于矛盾文本训练语言模型使得模型对本行业的表示更加智能；通过网格之间地理演化以及自身的时间演化共同预测未来的矛盾，大大提高了预测的准确率。

具体实施方式

为了阐明本发明的技术方案和工作原理，下面将对本公开实施方式做进一步的详细描述。上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本申请的说明书和权利要求书中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里描述的那些以外的顺序实施。

第一方面：本公开实施例提供了一种基于大数据的矛盾演化分析方法，该方法包括如下步骤：

步骤1，采集城市网格矛盾事件及关键词，构造时间演化模型并训练得到每个网格的矛盾遗忘、更新、输出参数。

将城市区域划分为N个网格，这些网格记为A₁,A₂,…,A_N；优选的，每个网格并非指长宽相同的区域，而是指具有活动人员相对固定、人物间存在信息交流、面积小于一定阈值的区域，例如城市、小区、学校、单位、写字楼等。

对于每个网格，采集网格内过去数月发生的所有矛盾，每个矛盾用文本来表示，并从文本中提取出多个关键词。优选的，考虑到存储能力和计算性能，这里从过去一年发生的所有矛盾中保留涉及人数超过给定阈值的矛盾。

将所有网格的矛盾文本合并拼接作为行业语料库，利用预训练的BERT模型在此语料库中继续训练出适合某行业的语言模型，优选的，训练任务是将语料库中随机遮蔽10%-30% (如20%)的词语，并预测被遮蔽的词语，从而得到基于矛盾描述习惯的语言模型。

对于社会矛盾事件，其演化过程蕴含了对历史久远矛盾的遗忘、当前矛盾的更新以及最终未来矛盾的输出预测，且不同的网格区域的遗忘、更新和输出规律是不一样的；对于网格A_i，采集其每天的矛盾文本。

当日矛盾向量：对于网格A_i，若在其区域内一天中可能发生多起矛盾事件，则用每个矛盾文本的词向量取均值后的向量来表示当日矛盾向量，而若在一天中没有发生矛盾事件，则取0向量表示当日矛盾向量；从而对于网格A_i，可以计算得到过去一段时间内的每天的当日矛盾向量C(T)，T表示日期，其年月日表示为××××-××-××；构造区域内的时间演化模型如下：

i=1,2,…,M；

其中C(T)表示T日期的当日矛盾向量，T-i表示在T日期的基础上往前追溯i天，f(T-i)表示T-i日期的遗忘参数，g(T-i)表示T-i日期的更新参数，h(T-i)表示T-i日期的输出参数；即用T日期之前过去M天的矛盾向量乘以遗忘参数f、更新参数g以及输出参数h去预测T日期的矛盾向量；通过对每个网格计算得到的当日矛盾向量，训练得到每个网格的遗忘、更新、输出参数。优选的，为了减少参数避免过拟合，这里设置时间演化模型中同一个月的每天遗忘参数f相同、同一个月的每天更新参数g相同、同一个月的每天输出参数h相同。

步骤2，预测网格未来矛盾事件关键词。

对于每个网格，提取其过去n天(一个月)的矛盾事件，计算得到每天的当日矛盾向量C(T)，利用步骤1训练得到的时间演化模型

，i=1,2,…,M来预测网格当前日期D的当日矛盾向量C(D)，只需取M= n(30)即可。

，i=1,2,…,n。

得到预测的当日矛盾向量C(D)后，通过矛盾向量反推出具体的矛盾事件或者矛盾关键词，从而供社会管理人员提前进行准备；对步骤1中采集到的过去一年或数月各个网格的矛盾事件的关键词去重后形成关键词库，对关键词库中的每个关键词用基于矛盾描述习惯的语言模型获得词向量，并对每个词向量除以向量的模获得标准化表示v，即每个向量的长度都为1，从而保证计算向量相似度时具有可比性；将预测的当日矛盾向量C(D)同样除以其模长做标准化处理得到C，依次计算当日矛盾向量和关键词库每个关键词的相似性，其中相似性的计算方法如下：

优选的，考虑到每个网格之间也会存在人员流动和信息交流，就会产生矛盾事件影响，所以还包括考虑网格间的影响：

从每个矛盾文本的若干个关键词中，提取任意两个或多个关键词，定义：

地理相关系数=1+(包含这两个或多个关键词的网格数/总网格数)

矛盾相关系数=1+(包含这两个或多个关键词的矛盾数量/总矛盾数量)

可以看出地理相关系数越高，说明一个网格区域同时出现这两个或多个关键词的矛盾的可能性越高。矛盾相关系数越高，说明一个矛盾事件同时包含这两个或多个关键词的可能性越高。

对于任意一个网格A(A是A₁,A₂,…A_N中的某一个)，计算其他网格对其的综合影响，记A_j是A₁,A₂,…A_N中除去A的其他某一个网格，w是网格A_j通过当日矛盾向量预测得到的某一个矛盾关键词，则w与网格A的平均相关系数是：

ratio(w,A)=w与A中每个关键词的(地理相关系数*矛盾相关系数)的均值，从而得到网格A_j对网格A的影响向量I(A_j)：

，w是A_j预测的每个矛盾关键词

I(A)= ∑(I(A_j))

步骤3，预测得到城市整体的矛盾信息和文本描述。

通过步骤2得到每个网格预测的矛盾关键词后，按照关键词词向量的相似度结合聚类算法对这部分关键词进行聚类分组，例如教育、学区、学校可以作为一组，停车、车位可以作为一组。

第二方面，本公开实施例提供了一种基于大数据的矛盾演化分析装置，基于相同的技术构思，该装置可以实现或执行所有可能的实现方式中任一项所述的一种基于大数据的矛盾演化分析方法。

进一步的，该装置包括模型构建模块、第一预测模块、第二预测模块。

所述模型构建模块，用于执行所有可能的实现方式中任一项所述的一种基于大数据的矛盾演化分析方法的步骤1的步骤；

所述第一预测模块，用于执行所有可能的实现方式中任一项所述的一种基于大数据的矛盾演化分析方法的步骤2的步骤；

所述第二预测模块，用于执行所有可能的实现方式中任一项所述的一种基于大数据的矛盾演化分析方法的步骤3的步骤。

需要说明的是，上述实施例提供的一种基于大数据的矛盾演化分析装置在执行一种基于大数据的矛盾演化分析方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外上述实施例提供的一种基于大数据的矛盾演化分析装置与一种基于大数据的矛盾演化分析方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

以上对本发明进行了示例性描述，显然，本发明具体实现并不受上述方式的限制，凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进；或者未经改进、等同替换，将本发明的上述构思和技术方案直接应用于其他场合的，均在本发明的保护范围之内。

Claims

1.一种基于大数据的矛盾演化分析方法，其特征在于，该方法包括如下步骤：

将城市区域划分为N个网格，这些网格记为A₁,A₂,…,A_N；

矛盾文本向量：对于每个矛盾文本，获取文本的关键词，根据之前训练好的基于矛盾描述习惯的语言模型，计算得到每个关键词的词向量表示，并用求和后的向量来表示矛盾文本向量；

，i=1,2,…,M其中C(T)表示T日期的当日矛盾向量，T-i表示在T日期的基础上往前追溯i天，f(T-i)表示T-i日期的遗忘参数，g(T-i)表示T-i日期的更新参数，h(T-i)表示T-i日期的输出参数；即用T日期之前过去M天的矛盾向量乘以遗忘参数f、更新参数g以及输出参数h去预测T日期的矛盾向量；通过对每个网格计算得到的当日矛盾向量，训练得到每个网格的遗忘、更新、输出参数；

步骤2，预测网格未来矛盾事件关键词，

，i=1,2,…,M来预测网格当前日期D的当日矛盾向量C(D)，

，i=1,2,…,n；

Similarity(C,v)表示当日矛盾向量C和关键词词向量v的相似度，C • v是向量的点乘运算，选取相似性超过给定阈值的关键词作为预测的当日矛盾关键词，从而预测得到当前日期所有网格的矛盾关键词；

步骤3，预测得到城市整体的矛盾信息和文本描述；

2.根据权利要求1所述的一种基于大数据的矛盾演化分析方法，其特征在于，所述网格是指具有活动人员相对固定、人之间存在信息交流、面积小于一定阈值的区域。

3.根据权利要求1所述的一种基于大数据的矛盾演化分析方法，其特征在于，步骤1中所述利用预训练的BERT模型在此语料库中继续训练出适合某行业的语言模型，具体训练任务为：将语料库中随机遮蔽10%-30%的词语，并预测被遮蔽的词语，从而得到基于矛盾描述习惯的语言模型。

4.根据权利要求1所述的一种基于大数据的矛盾演化分析方法，其特征在于，步骤1中，采集网格内过去数月发生的所有矛盾，还包括从这所有矛盾中选取涉及人数超过给定阈值的矛盾，进行下一步的处理。

5.根据权利要求1所述的一种基于大数据的矛盾演化分析方法，其特征在于，步骤1中，设置时间演化模型中同一个月的每天遗忘参数f相同、同一个月的每天更新参数g相同、同一个月的每天输出参数h相同。

6.根据权利要求1-5任一项所述的一种基于大数据的矛盾演化分析方法，其特征在于，步骤2中，预测的当日矛盾向量还包括考虑网格间的影响：

对于任意一个网格A，计算其他网格对其的综合影响，记A_j是A₁,A₂,…A_N中除去A的其他某一个网格，w是网格A_j通过当日矛盾向量预测得到的某一个矛盾关键词，则w与网格A的平均相关系数是：ratio(w,A)= w与A中每个关键词的(地理相关系数*矛盾相关系数)的均值；

从而得到网格A_j对网格A的影响向量I(A_j)：

，w是A_j预测的每个矛盾关键词

I(A)= ∑(I(A_j))

Similarity(C’,v)表示综合向量C’和关键词词向量v的相似度，C’ • v是向量的点乘运算，选取相似性超过给定阈值的关键词作为预测的当日矛盾关键词，从而预测得到当前日期所有网格的矛盾关键词。

7.一种基于大数据的矛盾演化分析装置，其特征在于，该装置可以实现权利要求1-6任一项所述的一种基于大数据的矛盾演化分析方法。