CN113822498B

CN113822498B - 一种基于大数据的社会矛盾指数预测方法

Info

Publication number: CN113822498B
Application number: CN202111273135.1A
Authority: CN
Inventors: 陈鹏; 周金明
Original assignee: Nanjing Inspector Intelligent Technology Co ltd
Current assignee: Nanjing Inspector Intelligent Technology Co ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2023-07-18
Anticipated expiration: 2041-10-29
Also published as: CN113822498A

Abstract

本发明公开了一种基于大数据的社会矛盾指数预测方法，该方法包括步骤1，构建社会矛盾指数指标体系，设计指标体系的等级数量、每个等级包含的指标，确定子指标在其父指标中所占的得分权重；步骤2，将采集到的社会矛盾事件，分别归类到N₃个三级指标下；步骤3，基于每个三级指标对应的社会矛盾事件，计算每个三级指标的得分，预测社会矛盾指数；步骤4，模型迭代优化。通过对社会矛盾指数指标体系的构建，能够从整体上、系统的看到社会各个领域矛盾的严重性，从而能够针对性的对矛盾严重领域进行重点关注处理，极大的节省了人力物力。

Description

一种基于大数据的社会矛盾指数预测方法

技术领域

本发明涉及大数据和社会矛盾研究领域，具体涉及一种基于大数据的社会矛盾指数预测方法。

背景技术

随着社会的不断发展和人口的不断增加，人与人之间的交流沟通越来越多，随之也使得各种各样的矛盾冲突更加凸显化，如果社会矛盾冲突发生后无法预测，任由矛盾冲突的发展最终会演变成更大的矛盾事件。在实现本发明过程中，发明人发现现有技术中至少存在如下问题：目前社会治理相关人员判断相关领域出现重大矛盾事件的可能性时，主要通过人工进行判断处理，这种处理方式，严重依赖人的专业知识水平，不同社会领域需要拥有不同背景技术知识的人进行判断处理，花费大量的人力物力，同时人员对社会矛盾事件的领域归属的判断具有一定的主观随意性，不能准确分类，无法对各社会领域的矛盾指数进行科学评价。

发明内容

为了克服现有技术的不足，本发明提供了一种基于大数据的社会矛盾指数预测方法，通过对社会矛盾指数指标体系的构建，能够从整体上、系统的看到社会各个领域矛盾的严重性，从而能够针对性的对矛盾严重领域进行重点关注处理，极大的节省了人力物力。

技术方案如下：本发明提供了一种基于大数据的社会矛盾指数计算方法，该方法包括如下步骤：

步骤1，构建社会矛盾指数指标体系，设计指标体系的等级数量、每个等级包含的指标，确定子指标在其父指标中所占的得分权重；社会矛盾指数指标体系包括N₁个一级指标、N₁个一级指标下包括N₂个二级指标、N₂个二级指标下包括N₃个三级指标，同时确定每个三级指标在其所述二级指标中的得分权重，确定每个二级指标在其所述一级指标中的得分权重。

步骤2，将采集到的社会矛盾事件，分别归类到N₃个三级指标下，社会矛盾事件主要包括矛盾事件的内容、标题和分类；对采集到的社会矛盾事件进行文本清洗，去除掉无效信息。

针对每个三级指标，从采集到的社会矛盾事件中筛选出包含该三级指标的社会矛盾事件，将筛选出的社会矛盾事件中每个事件的标题、分类、内容进行合并，形成该事件新的文本内容；对新的文本内容利用百度LAC模型分词处理，通过词性筛选和停用词去除得到分词结果。

针对每个三级指标，计算每个分词结果中的词语在该三级指标下的权重w_t，选择权重最大的前k个词语作为该三级指标的分类关键词，构建关键词词典。

根据关键词词典，对采集到的所有社会矛盾事件，进行相似度计算，选择相似度最大的三级指标作为该社会矛盾事件的所属三级指标，具体方法如下：

先利用百度LAC模型对所有社会矛盾事件的内容进行分词处理，根据词性和停用词去除筛选出新的分词结果；将新的分词结果中所有分词词语和三级指标关键词词典中所有词语去重后放到一起，形成词袋，给词袋中每个词语标上编号；新的分词结果中的词语和三级指标关键词词典的词语合并形成词语集合，利用标上编号后的词袋，将词语集合中的词语转化成词向量，形式如下：

[(N₁，C₁)，(N₂，C₂)，...(N_n，C_n)]；

其中，N_i表示词语在词袋中的编号，C_i表示该词语在词语集合中出现的次数。

基于转化好的词向量，利用TF-IDF算法计算出每个词向量中各个分量的权重TF_IDF_t，e，生成带权重的标准化向量。

计算每个事件对应的标准化向量和每个三级指标的标准化向量的余弦相似度similarity_X，Y：

其中，X_i为每个事件对应的标准化向量X的第i个词的权重，Y_i为每个三级指标的标准化向量Y的第i个词的权重。

选择相似度最大的三级指标作为该事件的所属三级指标。

步骤3，基于每个三级指标对应的社会矛盾事件，计算每个三级指标的得分，预测社会矛盾指数。

训练特严重事件风险模型Model1：根据矛盾事件的严重程度，从每个三级指标对应的社会矛盾事件中筛选出最近一段时间内特严重事件，统计这些事件发生前一段时间内该三级指标下所有的特严重事件的特征，作为正例；为避免类别不平衡问题，随机选取2倍数量的同时期非特严重事件，统计这些事件发生前一段时间内该三级指标下所有的非特严重事件的特征，作为反例，从而获得训练样本。

根据矛盾事件的严重程度，从每个三级指标对应的社会矛盾事件中筛选出最近一段时间内特严重事件为正例，为避免类别不平衡问题，随机选取2倍数量的同时期非特严重事件为反例，作为样本标签；分别统计这些事件发生前一段时间内该三级指标下所有的社会矛盾事件的特征，作为样本特征。

利用LR模型，训练得到特严重事件风险模型Model1；适当调整模型各特征的权重系数，使其更加适合矛盾事件的预测。

利用训练好的特严重事件风险模型Model1，基于最近一段时间内各三级指标社会矛盾事件的数据，预测发生特严重事件的概率，作为对应三级指标的得分。

计算各级指标的得分：根据三级指标的得分和子指标在其父指标中所占的得分权重，计算二级指标的得分，进一步计算一级指标得分。

将社会矛盾指数看作零级指标，根据一级指标的权重和得分预测社会矛盾指数。

步骤4，模型迭代优化

定期对模型Model1进行迭代优化；

更新三级指标的关键词词典：在初始状态利用步骤2的方法得到初始版本的关键词词典后，将每天新增的社会矛盾事件添加全部的社会矛盾事件中，利用现有的关键词词典进行事件与三级指标匹配，对匹配到的事件再进行分词与权重计算处理，选取每个三级指标下权重最大的k个(比如k取值100)关键词构建新的关键词词典，实现关键词词典的更新。

特严重事件风险模型Model1的迭代训练：将每天新增的社会矛盾事件添加到全部的社会矛盾事件中，更新训练样本，迭代训练后得到新的特严重事件风险模型Model1。

优选的，步骤1中社会矛盾指数指标体系包括：2个一级指标、2个一级指标下包括13个二级指标、13个二级指标下包括36个三级指标。

优选的，步骤1中构建社会矛盾指数指标体系，通过专家评审的方式构建，确定指标体系和得分权重的合理性与完备性。

优选的，选择权重最大的前k个词语作为该三级指标的分类关键词，k取值100。

优选的，步骤2中所述计算每个分词结果中的词语在该三级指标下的权重w_t，具体为：

其中，count(t)代表词语t在事件e_j的分词结果中出现的频次，|e_j|代表事件e_j分词结果中词语的数量，n代表该三级指标下的事件总数。

进一步的，步骤2中利用TF-IDF算法计算出每个词向量中各个分量的权重TF_IDF_t，e，具体为：

其中，count(t)为词语t在事件e_j分词结果中出现的频次，|e_j|为事件e_j分词结果中词语的数量，m为所有事件和所有三级指标的总数，I(t，e_j)表示事件e_j分词结果中是否包含词语t，若包含则为1，否则为0；

与现有技术相比，上述技术方案中的一个技术方案具有如下有益效果：首先，通过构建社会矛盾指数指标体系，将社会矛盾分为三级分类，通过这些分类构建相应的指标体系，从而能够对社会各领域进行科学评价；其次，利用文本算法，将采集到的社会矛盾事件分别归类到各个三级指标下，实现精准分类，避免了人工分类出现的问题；再次，针对每个三级指标，基于分类好的社会矛盾事件，计算出相应的指标得分；最后，利用计算出来的三级指标得分，按照第一步构建出来的指标体系的权重，依次计算出二级指标得分、一级指标得分以及最终的社会矛盾指数得分。

具体实施方式

为了阐明本发明的技术方案和工作原理，下面将对本公开实施方式做进一步的详细描述。上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本申请的说明书和权利要求书中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里描述的那些以外的顺序实施。

第一方面：本公开实施例提供了一种基于大数据的社会矛盾指数计算方法，该方法包括如下步骤：

步骤1，构建社会矛盾指数指标体系，设计指标体系的等级数量、每个等级包含的指标，确定子指标在其父指标中所占的得分权重；社会矛盾指数指标体系包括：2个一级指标、2个一级指标下包括13个二级指标、13个二级指标下包括36个三级指标，同时确定每个三级指标在其所述二级指标中的得分权重，确定每个二级指标在其所述一级指标中的得分权重。

例如，一级指标为物质性矛盾，其下的二级指标有教育问题、医疗问题等，教育问题下有三级指标教育收费、教育公平等。

优选的，构建出社会矛盾指数指标体系，通过专家评审的方式构建，确定指标体系和得分权重的合理性与完备性，确定能够对社会矛盾的分类做到不重不漏。

步骤2，将采集到的社会矛盾事件，分别归类到N₃个三级指标下，社会矛盾事件主要包括矛盾事件的内容、标题和分类。

对采集到的社会矛盾事件进行文本清洗，去除掉无效信息，防止对接下来的操作造成干扰。

针对每个三级指标，如教育公平指标，从采集到的社会矛盾事件中筛选出包含该三级指标(如筛选出包含“教育公平”的社会矛盾事件)的社会矛盾事件，将筛选出的社会矛盾事件中每个事件的标题、分类、内容进行合并，形成该事件新的文本内容；对新的文本内容利用百度LAC模型分词处理，通过词性筛选和停用词去除得到分词结果。

针对每个三级指标，计算每个分词结果中的词语在该三级指标下的权重w_t，选择权重最大的前k个(比如k取值100)词语作为该三级指标的分类关键词，构建关键词词典。

先利用百度LAC模型对所有社会矛盾事件的内容进行分词处理(之所以只针对内容，是为了防止标题和原本分类错误干扰相似度计算)，根据词性和停用词去除筛选出新的分词结果；将新的分词结果中所有分词词语和三级指标关键词词典中所有词语去重后放到一起，形成词袋，给词袋中每个词语标上编号；新的分词结果中的词语和三级指标关键词词典的词语合并形成词语集合，利用标上编号后的词袋，将词语集合中的词语转化成词向量，形式如下：

[(N₁，C₁)，(N₂，C₂)，...(N_n，C_n)]

优选的，步骤2中利用TF-IDF算法计算出每个词向量中各个分量的权重TF_IDF_t，e，具体为：

其中，count(t)为词语t在事件e_j分词结果中出现的频次，|e_j|为事件e_j分词结果中词语的数量，m为所有事件和所有三级指标的总数，I(t，e_j)表示事件e_j分词结果中是否包含词语t，若包含则为1，否则为0。

选择相似度最大的三级指标作为该事件的所属三级指标。

步骤3，基于每个三级指标对应的社会矛盾事件，计算每个三级指标的得分，预测社会矛盾指数；

训练特严重事件风险模型Model1：

根据矛盾事件的严重程度，从每个三级指标对应的社会矛盾事件中筛选出最近一段时间内特严重事件，统计这些事件发生前一段时间内该三级指标下所有的特严重事件的特征，作为正例；为避免类别不平衡问题，随机选取2倍数量的同时期非特严重事件，统计这些事件发生前一段时间内该三级指标下所有的非特严重事件的特征，作为反例，从而获得训练样本。

优选的，还包括步骤4，模型迭代优化

每天设定固定时间，进行模型的迭代优化。

特严重事件风险模型Model1的迭代训练：将每天新增的社会矛盾事件添加到全部的社会矛盾事件中，更新训练样本，重新训练后得到新的特严重事件风险模型Model1，以提高模型预测的准确性。

以上对本发明进行了示例性描述，显然，本发明具体实现并不受上述方式的限制，凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进；或者未经改进、等同替换，将本发明的上述构思和技术方案直接应用于其他场合的，均在本发明的保护范围之内。

Claims

1.一种基于大数据的社会矛盾指数计算方法，其特征在于，该方法包括如下步骤：

步骤1，构建社会矛盾指数指标体系，设计指标体系的等级数量、每个等级包含的指标，确定子指标在其父指标中所占的得分权重；社会矛盾指数指标体系包括N₁个一级指标、N₁个一级指标下包括N₂个二级指标、N₂个二级指标下包括N₃个三级指标，同时确定每个三级指标在其所述二级指标中的得分权重，确定每个二级指标在其所述一级指标中的得分权重；

步骤2，将采集到的社会矛盾事件，分别归类到N₃个三级指标下，社会矛盾事件主要包括矛盾事件的内容、标题和分类；对采集到的社会矛盾事件进行文本清洗，去除掉无效信息；

针对每个三级指标，从采集到的社会矛盾事件中筛选出包含该三级指标的社会矛盾事件，将筛选出的社会矛盾事件中每个事件的标题、分类、内容进行合并，形成该事件新的文本内容；对新的文本内容利用百度LAC模型分词处理，通过词性筛选和停用词去除得到分词结果；

针对每个三级指标，计算每个分词结果中的词语在该三级指标下的权重w_t，选择权重最大的前k个词语作为该三级指标的分类关键词，构建关键词词典；

[(N₁，C₁)，(N₂，C₂)，...(N_n，C_n)]；

其中，N_i表示词语在词袋中的编号，C_i表示该词语在词语集合中出现的次数；

基于转化好的词向量，利用TF-IDF算法计算出每个词向量中各个分量的权重TF_IDF_t，e，生成带权重的标准化向量；

其中，X_i为每个事件对应的标准化向量X的第i个词的权重，Y_i为每个三级指标的标准化向量Y的第i个词的权重；

选择相似度最大的三级指标作为该事件的所属三级指标；

训练特严重事件风险模型Model1：根据矛盾事件的严重程度，从每个三级指标对应的社会矛盾事件中筛选出最近一段时间内特严重事件，统计这些事件发生前一段时间内该三级指标下所有的特严重事件的特征，作为正例；为避免类别不平衡问题，随机选取2倍数量的同时期非特严重事件，统计这些事件发生前一段时间内该三级指标下所有的非特严重事件的特征，作为反例，从而获得训练样本；

根据矛盾事件的严重程度，从每个三级指标对应的社会矛盾事件中筛选出最近一段时间内特严重事件为正例，为避免类别不平衡问题，随机选取2倍数量的同时期非特严重事件为反例，作为样本标签；分别统计这些事件发生前一段时间内该三级指标下所有的社会矛盾事件的特征，作为样本特征；

利用LR模型，训练得到特严重事件风险模型Model1；适当调整模型各特征的权重系数，使其更加适合矛盾事件的预测；

利用训练好的特严重事件风险模型Model1，基于最近一段时间内各三级指标社会矛盾事件的数据，预测发生特严重事件的概率，作为对应三级指标的得分；

计算各级指标的得分：根据三级指标的得分和子指标在其父指标中所占的得分权重，计算二级指标的得分，进一步计算一级指标得分；

将社会矛盾指数看作零级指标，根据一级指标的权重和得分预测社会矛盾指数；

步骤4，模型迭代优化

定期对模型Model1进行迭代优化；

更新三级指标的关键词词典：在初始状态利用步骤2的方法得到初始版本的关键词词典后，将每天新增的社会矛盾事件添加全部的社会矛盾事件中，利用现有的关键词词典进行事件与三级指标匹配，对匹配到的事件再进行分词与权重计算处理，选取每个三级指标下权重最大的k个关键词构建新的关键词词典，实现关键词词典的更新；

2.根据权利要求1所述的一种基于大数据的社会矛盾指数计算方法，其特征在于，步骤1中社会矛盾指数指标体系包括：2个一级指标、2个一级指标下包括13个二级指标、13个二级指标下包括36个三级指标。

3.根据权利要求1所述的一种基于大数据的社会矛盾指数计算方法，其特征在于，步骤1中构建社会矛盾指数指标体系，通过专家评审的方式构建，确定指标体系和得分权重的合理性与完备性。

4.根据权利要求1所述的一种基于大数据的社会矛盾指数计算方法，其特征在于，选择权重最大的前k个词语作为该三级指标的分类关键词，k取值100。

5.根据权利要求1-4任一项所述的一种基于大数据的社会矛盾指数计算方法，其特征在于，步骤2中所述计算每个分词结果中的词语在该三级指标下的权重w_t，具体为：

6.根据权利要求5所述的一种基于大数据的社会矛盾指数计算方法，其特征在于，步骤2中利用TF-IDF算法计算出每个词向量中各个分量的权重TF_IDF_t，e，具体为：