CN113822498B - 一种基于大数据的社会矛盾指数预测方法 - Google Patents
一种基于大数据的社会矛盾指数预测方法 Download PDFInfo
- Publication number
- CN113822498B CN113822498B CN202111273135.1A CN202111273135A CN113822498B CN 113822498 B CN113822498 B CN 113822498B CN 202111273135 A CN202111273135 A CN 202111273135A CN 113822498 B CN113822498 B CN 113822498B
- Authority
- CN
- China
- Prior art keywords
- index
- events
- word
- contradiction
- social
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于大数据的社会矛盾指数预测方法,该方法包括步骤1,构建社会矛盾指数指标体系,设计指标体系的等级数量、每个等级包含的指标,确定子指标在其父指标中所占的得分权重;步骤2,将采集到的社会矛盾事件,分别归类到N3个三级指标下;步骤3,基于每个三级指标对应的社会矛盾事件,计算每个三级指标的得分,预测社会矛盾指数;步骤4,模型迭代优化。通过对社会矛盾指数指标体系的构建,能够从整体上、系统的看到社会各个领域矛盾的严重性,从而能够针对性的对矛盾严重领域进行重点关注处理,极大的节省了人力物力。
Description
技术领域
本发明涉及大数据和社会矛盾研究领域,具体涉及一种基于大数据的社会矛盾指数预测方法。
背景技术
随着社会的不断发展和人口的不断增加,人与人之间的交流沟通越来越多,随之也使得各种各样的矛盾冲突更加凸显化,如果社会矛盾冲突发生后无法预测,任由矛盾冲突的发展最终会演变成更大的矛盾事件。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:目前社会治理相关人员判断相关领域出现重大矛盾事件的可能性时,主要通过人工进行判断处理,这种处理方式,严重依赖人的专业知识水平,不同社会领域需要拥有不同背景技术知识的人进行判断处理,花费大量的人力物力,同时人员对社会矛盾事件的领域归属的判断具有一定的主观随意性,不能准确分类,无法对各社会领域的矛盾指数进行科学评价。
发明内容
为了克服现有技术的不足,本发明提供了一种基于大数据的社会矛盾指数预测方法,通过对社会矛盾指数指标体系的构建,能够从整体上、系统的看到社会各个领域矛盾的严重性,从而能够针对性的对矛盾严重领域进行重点关注处理,极大的节省了人力物力。
技术方案如下:本发明提供了一种基于大数据的社会矛盾指数计算方法,该方法包括如下步骤:
步骤1,构建社会矛盾指数指标体系,设计指标体系的等级数量、每个等级包含的指标,确定子指标在其父指标中所占的得分权重;社会矛盾指数指标体系包括N1个一级指标、N1个一级指标下包括N2个二级指标、N2个二级指标下包括N3个三级指标,同时确定每个三级指标在其所述二级指标中的得分权重,确定每个二级指标在其所述一级指标中的得分权重。
步骤2,将采集到的社会矛盾事件,分别归类到N3个三级指标下,社会矛盾事件主要包括矛盾事件的内容、标题和分类;对采集到的社会矛盾事件进行文本清洗,去除掉无效信息。
针对每个三级指标,从采集到的社会矛盾事件中筛选出包含该三级指标的社会矛盾事件,将筛选出的社会矛盾事件中每个事件的标题、分类、内容进行合并,形成该事件新的文本内容;对新的文本内容利用百度LAC模型分词处理,通过词性筛选和停用词去除得到分词结果。
针对每个三级指标,计算每个分词结果中的词语在该三级指标下的权重wt,选择权重最大的前k个词语作为该三级指标的分类关键词,构建关键词词典。
根据关键词词典,对采集到的所有社会矛盾事件,进行相似度计算,选择相似度最大的三级指标作为该社会矛盾事件的所属三级指标,具体方法如下:
先利用百度LAC模型对所有社会矛盾事件的内容进行分词处理,根据词性和停用词去除筛选出新的分词结果;将新的分词结果中所有分词词语和三级指标关键词词典中所有词语去重后放到一起,形成词袋,给词袋中每个词语标上编号;新的分词结果中的词语和三级指标关键词词典的词语合并形成词语集合,利用标上编号后的词袋,将词语集合中的词语转化成词向量,形式如下:
[(N1,C1),(N2,C2),...(Nn,Cn)];
其中,Ni表示词语在词袋中的编号,Ci表示该词语在词语集合中出现的次数。
基于转化好的词向量,利用TF-IDF算法计算出每个词向量中各个分量的权重TF_IDFt,e,生成带权重的标准化向量。
计算每个事件对应的标准化向量和每个三级指标的标准化向量的余弦相似度similarityX,Y:
其中,Xi为每个事件对应的标准化向量X的第i个词的权重,Yi为每个三级指标的标准化向量Y的第i个词的权重。
选择相似度最大的三级指标作为该事件的所属三级指标。
步骤3,基于每个三级指标对应的社会矛盾事件,计算每个三级指标的得分,预测社会矛盾指数。
训练特严重事件风险模型Model1:根据矛盾事件的严重程度,从每个三级指标对应的社会矛盾事件中筛选出最近一段时间内特严重事件,统计这些事件发生前一段时间内该三级指标下所有的特严重事件的特征,作为正例;为避免类别不平衡问题,随机选取2倍数量的同时期非特严重事件,统计这些事件发生前一段时间内该三级指标下所有的非特严重事件的特征,作为反例,从而获得训练样本。
根据矛盾事件的严重程度,从每个三级指标对应的社会矛盾事件中筛选出最近一段时间内特严重事件为正例,为避免类别不平衡问题,随机选取2倍数量的同时期非特严重事件为反例,作为样本标签;分别统计这些事件发生前一段时间内该三级指标下所有的社会矛盾事件的特征,作为样本特征。
利用LR模型,训练得到特严重事件风险模型Model1;适当调整模型各特征的权重系数,使其更加适合矛盾事件的预测。
利用训练好的特严重事件风险模型Model1,基于最近一段时间内各三级指标社会矛盾事件的数据,预测发生特严重事件的概率,作为对应三级指标的得分。
计算各级指标的得分:根据三级指标的得分和子指标在其父指标中所占的得分权重,计算二级指标的得分,进一步计算一级指标得分。
将社会矛盾指数看作零级指标,根据一级指标的权重和得分预测社会矛盾指数。
步骤4,模型迭代优化
定期对模型Model1进行迭代优化;
更新三级指标的关键词词典:在初始状态利用步骤2的方法得到初始版本的关键词词典后,将每天新增的社会矛盾事件添加全部的社会矛盾事件中,利用现有的关键词词典进行事件与三级指标匹配,对匹配到的事件再进行分词与权重计算处理,选取每个三级指标下权重最大的k个(比如k取值100)关键词构建新的关键词词典,实现关键词词典的更新。
特严重事件风险模型Model1的迭代训练:将每天新增的社会矛盾事件添加到全部的社会矛盾事件中,更新训练样本,迭代训练后得到新的特严重事件风险模型Model1。
优选的,步骤1中社会矛盾指数指标体系包括:2个一级指标、2个一级指标下包括13个二级指标、13个二级指标下包括36个三级指标。
优选的,步骤1中构建社会矛盾指数指标体系,通过专家评审的方式构建,确定指标体系和得分权重的合理性与完备性。
优选的,选择权重最大的前k个词语作为该三级指标的分类关键词,k取值100。
优选的,步骤2中所述计算每个分词结果中的词语在该三级指标下的权重wt,具体为:
其中,count(t)代表词语t在事件ej的分词结果中出现的频次,|ej|代表事件ej分词结果中词语的数量,n代表该三级指标下的事件总数。
进一步的,步骤2中利用TF-IDF算法计算出每个词向量中各个分量的权重TF_IDFt,e,具体为:
其中,count(t)为词语t在事件ej分词结果中出现的频次,|ej|为事件ej分词结果中词语的数量,m为所有事件和所有三级指标的总数,I(t,ej)表示事件ej分词结果中是否包含词语t,若包含则为1,否则为0;
与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:首先,通过构建社会矛盾指数指标体系,将社会矛盾分为三级分类,通过这些分类构建相应的指标体系,从而能够对社会各领域进行科学评价;其次,利用文本算法,将采集到的社会矛盾事件分别归类到各个三级指标下,实现精准分类,避免了人工分类出现的问题;再次,针对每个三级指标,基于分类好的社会矛盾事件,计算出相应的指标得分;最后,利用计算出来的三级指标得分,按照第一步构建出来的指标体系的权重,依次计算出二级指标得分、一级指标得分以及最终的社会矛盾指数得分。
具体实施方式
为了阐明本发明的技术方案和工作原理,下面将对本公开实施方式做进一步的详细描述。上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本申请的说明书和权利要求书中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里描述的那些以外的顺序实施。
第一方面:本公开实施例提供了一种基于大数据的社会矛盾指数计算方法,该方法包括如下步骤:
步骤1,构建社会矛盾指数指标体系,设计指标体系的等级数量、每个等级包含的指标,确定子指标在其父指标中所占的得分权重;社会矛盾指数指标体系包括:2个一级指标、2个一级指标下包括13个二级指标、13个二级指标下包括36个三级指标,同时确定每个三级指标在其所述二级指标中的得分权重,确定每个二级指标在其所述一级指标中的得分权重。
例如,一级指标为物质性矛盾,其下的二级指标有教育问题、医疗问题等,教育问题下有三级指标教育收费、教育公平等。
优选的,构建出社会矛盾指数指标体系,通过专家评审的方式构建,确定指标体系和得分权重的合理性与完备性,确定能够对社会矛盾的分类做到不重不漏。
步骤2,将采集到的社会矛盾事件,分别归类到N3个三级指标下,社会矛盾事件主要包括矛盾事件的内容、标题和分类。
对采集到的社会矛盾事件进行文本清洗,去除掉无效信息,防止对接下来的操作造成干扰。
针对每个三级指标,如教育公平指标,从采集到的社会矛盾事件中筛选出包含该三级指标(如筛选出包含“教育公平”的社会矛盾事件)的社会矛盾事件,将筛选出的社会矛盾事件中每个事件的标题、分类、内容进行合并,形成该事件新的文本内容;对新的文本内容利用百度LAC模型分词处理,通过词性筛选和停用词去除得到分词结果。
针对每个三级指标,计算每个分词结果中的词语在该三级指标下的权重wt,选择权重最大的前k个(比如k取值100)词语作为该三级指标的分类关键词,构建关键词词典。
优选的,步骤2中所述计算每个分词结果中的词语在该三级指标下的权重wt,具体为:
其中,count(t)代表词语t在事件ej的分词结果中出现的频次,|ej|代表事件ej分词结果中词语的数量,n代表该三级指标下的事件总数。
根据关键词词典,对采集到的所有社会矛盾事件,进行相似度计算,选择相似度最大的三级指标作为该社会矛盾事件的所属三级指标,具体方法如下:
先利用百度LAC模型对所有社会矛盾事件的内容进行分词处理(之所以只针对内容,是为了防止标题和原本分类错误干扰相似度计算),根据词性和停用词去除筛选出新的分词结果;将新的分词结果中所有分词词语和三级指标关键词词典中所有词语去重后放到一起,形成词袋,给词袋中每个词语标上编号;新的分词结果中的词语和三级指标关键词词典的词语合并形成词语集合,利用标上编号后的词袋,将词语集合中的词语转化成词向量,形式如下:
[(N1,C1),(N2,C2),...(Nn,Cn)]
其中,Ni表示词语在词袋中的编号,Ci表示该词语在词语集合中出现的次数。
基于转化好的词向量,利用TF-IDF算法计算出每个词向量中各个分量的权重TF_IDFt,e,生成带权重的标准化向量。
优选的,步骤2中利用TF-IDF算法计算出每个词向量中各个分量的权重TF_IDFt,e,具体为:
其中,count(t)为词语t在事件ej分词结果中出现的频次,|ej|为事件ej分词结果中词语的数量,m为所有事件和所有三级指标的总数,I(t,ej)表示事件ej分词结果中是否包含词语t,若包含则为1,否则为0。
计算每个事件对应的标准化向量和每个三级指标的标准化向量的余弦相似度similarityX,Y:
其中,Xi为每个事件对应的标准化向量X的第i个词的权重,Yi为每个三级指标的标准化向量Y的第i个词的权重。
选择相似度最大的三级指标作为该事件的所属三级指标。
步骤3,基于每个三级指标对应的社会矛盾事件,计算每个三级指标的得分,预测社会矛盾指数;
训练特严重事件风险模型Model1:
根据矛盾事件的严重程度,从每个三级指标对应的社会矛盾事件中筛选出最近一段时间内特严重事件,统计这些事件发生前一段时间内该三级指标下所有的特严重事件的特征,作为正例;为避免类别不平衡问题,随机选取2倍数量的同时期非特严重事件,统计这些事件发生前一段时间内该三级指标下所有的非特严重事件的特征,作为反例,从而获得训练样本。
根据矛盾事件的严重程度,从每个三级指标对应的社会矛盾事件中筛选出最近一段时间内特严重事件为正例,为避免类别不平衡问题,随机选取2倍数量的同时期非特严重事件为反例,作为样本标签;分别统计这些事件发生前一段时间内该三级指标下所有的社会矛盾事件的特征,作为样本特征。
利用LR模型,训练得到特严重事件风险模型Model1;适当调整模型各特征的权重系数,使其更加适合矛盾事件的预测。
利用训练好的特严重事件风险模型Model1,基于最近一段时间内各三级指标社会矛盾事件的数据,预测发生特严重事件的概率,作为对应三级指标的得分。
计算各级指标的得分:根据三级指标的得分和子指标在其父指标中所占的得分权重,计算二级指标的得分,进一步计算一级指标得分。
将社会矛盾指数看作零级指标,根据一级指标的权重和得分预测社会矛盾指数。
优选的,还包括步骤4,模型迭代优化
每天设定固定时间,进行模型的迭代优化。
更新三级指标的关键词词典:在初始状态利用步骤2的方法得到初始版本的关键词词典后,将每天新增的社会矛盾事件添加全部的社会矛盾事件中,利用现有的关键词词典进行事件与三级指标匹配,对匹配到的事件再进行分词与权重计算处理,选取每个三级指标下权重最大的k个(比如k取值100)关键词构建新的关键词词典,实现关键词词典的更新。
特严重事件风险模型Model1的迭代训练:将每天新增的社会矛盾事件添加到全部的社会矛盾事件中,更新训练样本,重新训练后得到新的特严重事件风险模型Model1,以提高模型预测的准确性。
以上对本发明进行了示例性描述,显然,本发明具体实现并不受上述方式的限制,凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进;或者未经改进、等同替换,将本发明的上述构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。
Claims (6)
1.一种基于大数据的社会矛盾指数计算方法,其特征在于,该方法包括如下步骤:
步骤1,构建社会矛盾指数指标体系,设计指标体系的等级数量、每个等级包含的指标,确定子指标在其父指标中所占的得分权重;社会矛盾指数指标体系包括N1个一级指标、N1个一级指标下包括N2个二级指标、N2个二级指标下包括N3个三级指标,同时确定每个三级指标在其所述二级指标中的得分权重,确定每个二级指标在其所述一级指标中的得分权重;
步骤2,将采集到的社会矛盾事件,分别归类到N3个三级指标下,社会矛盾事件主要包括矛盾事件的内容、标题和分类;对采集到的社会矛盾事件进行文本清洗,去除掉无效信息;
针对每个三级指标,从采集到的社会矛盾事件中筛选出包含该三级指标的社会矛盾事件,将筛选出的社会矛盾事件中每个事件的标题、分类、内容进行合并,形成该事件新的文本内容;对新的文本内容利用百度LAC模型分词处理,通过词性筛选和停用词去除得到分词结果;
针对每个三级指标,计算每个分词结果中的词语在该三级指标下的权重wt,选择权重最大的前k个词语作为该三级指标的分类关键词,构建关键词词典;
根据关键词词典,对采集到的所有社会矛盾事件,进行相似度计算,选择相似度最大的三级指标作为该社会矛盾事件的所属三级指标,具体方法如下:
先利用百度LAC模型对所有社会矛盾事件的内容进行分词处理,根据词性和停用词去除筛选出新的分词结果;将新的分词结果中所有分词词语和三级指标关键词词典中所有词语去重后放到一起,形成词袋,给词袋中每个词语标上编号;新的分词结果中的词语和三级指标关键词词典的词语合并形成词语集合,利用标上编号后的词袋,将词语集合中的词语转化成词向量,形式如下:
[(N1,C1),(N2,C2),...(Nn,Cn)];
其中,Ni表示词语在词袋中的编号,Ci表示该词语在词语集合中出现的次数;
基于转化好的词向量,利用TF-IDF算法计算出每个词向量中各个分量的权重TF_IDFt,e,生成带权重的标准化向量;
计算每个事件对应的标准化向量和每个三级指标的标准化向量的余弦相似度similarityX,Y:
其中,Xi为每个事件对应的标准化向量X的第i个词的权重,Yi为每个三级指标的标准化向量Y的第i个词的权重;
选择相似度最大的三级指标作为该事件的所属三级指标;
步骤3,基于每个三级指标对应的社会矛盾事件,计算每个三级指标的得分,预测社会矛盾指数;
训练特严重事件风险模型Model1:根据矛盾事件的严重程度,从每个三级指标对应的社会矛盾事件中筛选出最近一段时间内特严重事件,统计这些事件发生前一段时间内该三级指标下所有的特严重事件的特征,作为正例;为避免类别不平衡问题,随机选取2倍数量的同时期非特严重事件,统计这些事件发生前一段时间内该三级指标下所有的非特严重事件的特征,作为反例,从而获得训练样本;
根据矛盾事件的严重程度,从每个三级指标对应的社会矛盾事件中筛选出最近一段时间内特严重事件为正例,为避免类别不平衡问题,随机选取2倍数量的同时期非特严重事件为反例,作为样本标签;分别统计这些事件发生前一段时间内该三级指标下所有的社会矛盾事件的特征,作为样本特征;
利用LR模型,训练得到特严重事件风险模型Model1;适当调整模型各特征的权重系数,使其更加适合矛盾事件的预测;
利用训练好的特严重事件风险模型Model1,基于最近一段时间内各三级指标社会矛盾事件的数据,预测发生特严重事件的概率,作为对应三级指标的得分;
计算各级指标的得分:根据三级指标的得分和子指标在其父指标中所占的得分权重,计算二级指标的得分,进一步计算一级指标得分;
将社会矛盾指数看作零级指标,根据一级指标的权重和得分预测社会矛盾指数;
步骤4,模型迭代优化
定期对模型Model1进行迭代优化;
更新三级指标的关键词词典:在初始状态利用步骤2的方法得到初始版本的关键词词典后,将每天新增的社会矛盾事件添加全部的社会矛盾事件中,利用现有的关键词词典进行事件与三级指标匹配,对匹配到的事件再进行分词与权重计算处理,选取每个三级指标下权重最大的k个关键词构建新的关键词词典,实现关键词词典的更新;
特严重事件风险模型Model1的迭代训练:将每天新增的社会矛盾事件添加到全部的社会矛盾事件中,更新训练样本,迭代训练后得到新的特严重事件风险模型Model1。
2.根据权利要求1所述的一种基于大数据的社会矛盾指数计算方法,其特征在于,步骤1中社会矛盾指数指标体系包括:2个一级指标、2个一级指标下包括13个二级指标、13个二级指标下包括36个三级指标。
3.根据权利要求1所述的一种基于大数据的社会矛盾指数计算方法,其特征在于,步骤1中构建社会矛盾指数指标体系,通过专家评审的方式构建,确定指标体系和得分权重的合理性与完备性。
4.根据权利要求1所述的一种基于大数据的社会矛盾指数计算方法,其特征在于,选择权重最大的前k个词语作为该三级指标的分类关键词,k取值100。
5.根据权利要求1-4任一项所述的一种基于大数据的社会矛盾指数计算方法,其特征在于,步骤2中所述计算每个分词结果中的词语在该三级指标下的权重wt,具体为:
其中,count(t)代表词语t在事件ej的分词结果中出现的频次,|ej|代表事件ej分词结果中词语的数量,n代表该三级指标下的事件总数。
6.根据权利要求5所述的一种基于大数据的社会矛盾指数计算方法,其特征在于,步骤2中利用TF-IDF算法计算出每个词向量中各个分量的权重TF_IDFt,e,具体为:
其中,count(t)为词语t在事件ej分词结果中出现的频次,|ej|为事件ej分词结果中词语的数量,m为所有事件和所有三级指标的总数,I(t,ej)表示事件ej分词结果中是否包含词语t,若包含则为1,否则为0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111273135.1A CN113822498B (zh) | 2021-10-29 | 2021-10-29 | 一种基于大数据的社会矛盾指数预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111273135.1A CN113822498B (zh) | 2021-10-29 | 2021-10-29 | 一种基于大数据的社会矛盾指数预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113822498A CN113822498A (zh) | 2021-12-21 |
CN113822498B true CN113822498B (zh) | 2023-07-18 |
Family
ID=78917586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111273135.1A Active CN113822498B (zh) | 2021-10-29 | 2021-10-29 | 一种基于大数据的社会矛盾指数预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113822498B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062414A (zh) * | 2017-12-31 | 2018-05-22 | 郑州玄机器人有限公司 | 一种矛盾纠纷公共安全指数统计方法 |
CN109711627A (zh) * | 2018-12-28 | 2019-05-03 | 大庆市嘉华科技有限公司 | 一种数据处理方法及装置 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN111798073A (zh) * | 2019-04-08 | 2020-10-20 | 郑州大学 | 一种医疗设备评价方法和指标权重的确定方法及装置 |
CN112883169A (zh) * | 2021-04-29 | 2021-06-01 | 南京视察者智能科技有限公司 | 一种基于大数据的矛盾演化分析方法及装置 |
CN113450026A (zh) * | 2021-08-06 | 2021-09-28 | 智绿(福建)科技有限公司 | 一种环境风险的社会影响指标的评价方法 |
-
2021
- 2021-10-29 CN CN202111273135.1A patent/CN113822498B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062414A (zh) * | 2017-12-31 | 2018-05-22 | 郑州玄机器人有限公司 | 一种矛盾纠纷公共安全指数统计方法 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN109711627A (zh) * | 2018-12-28 | 2019-05-03 | 大庆市嘉华科技有限公司 | 一种数据处理方法及装置 |
CN111798073A (zh) * | 2019-04-08 | 2020-10-20 | 郑州大学 | 一种医疗设备评价方法和指标权重的确定方法及装置 |
CN112883169A (zh) * | 2021-04-29 | 2021-06-01 | 南京视察者智能科技有限公司 | 一种基于大数据的矛盾演化分析方法及装置 |
CN113450026A (zh) * | 2021-08-06 | 2021-09-28 | 智绿(福建)科技有限公司 | 一种环境风险的社会影响指标的评价方法 |
Non-Patent Citations (3)
Title |
---|
突发事件社交网络舆情演化分析研究;魏洁;硕士论文库(第2期);全文 * |
突发事件网络舆情风险预警模型研究;徐建国;刘梦凡;刘泳慧;;软件导刊(第07期);全文 * |
网络舆情衍进指数构建与实证分析;黄微;图书情报工作;第63卷(第20期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113822498A (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110324362B (zh) | 一种基于交互行为的区块链用户可信度评价方法 | |
Ma et al. | LeCaRD: a legal case retrieval dataset for Chinese law system | |
CN106095928B (zh) | 一种事件类型识别方法及装置 | |
CN110928764B (zh) | 移动应用众包测试报告自动化评估方法及计算机存储介质 | |
CN108595525B (zh) | 一种律师信息处理方法和系统 | |
CN101630312A (zh) | 一种用于问答平台中问句的聚类方法及系统 | |
CN103176981A (zh) | 一种事件信息挖掘并预警的方法 | |
CN112035658A (zh) | 基于深度学习的企业舆情监测方法 | |
CN110837601A (zh) | 一种警情的自动分类与预测方法 | |
CN104050556A (zh) | 一种垃圾邮件的特征选择方法及其检测方法 | |
WO2020101477A1 (en) | System and method for dynamic entity sentiment analysis | |
Setty et al. | Event2vec: Neural embeddings for news events | |
CN113722478B (zh) | 多维度特征融合相似事件计算方法、系统及电子设备 | |
CN109657070B (zh) | 一种终端辅助swot指标体系的构建方法 | |
CN109492097B (zh) | 一种企业新闻数据风险分类方法 | |
CN115238040A (zh) | 一种钢铁材料学知识图谱构建方法及系统 | |
CN109033351A (zh) | 案情数据的归并方法及装置 | |
CN115858906A (zh) | 企业搜索方法、装置、设备、计算机存储介质及程序 | |
Freitag | Morphology induction from term clusters | |
Do et al. | Constraints based taxonomic relation classification | |
CN110472048A (zh) | 一种辅助判决方法、装置及终端设备 | |
CN112800232B (zh) | 一种基于大数据的案件自动分类方法 | |
CN113822498B (zh) | 一种基于大数据的社会矛盾指数预测方法 | |
CN108614860A (zh) | 一种律师信息处理方法和系统 | |
CN105930430B (zh) | 一种基于非累积属性的实时欺诈检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |