CN110209953A

CN110209953A - 一种面向不确定性社会计算问题的计算方法

Info

Publication number: CN110209953A
Application number: CN201910138183.6A
Authority: CN
Inventors: 张羽; 靳锐; 张宏莉
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2019-09-06

Abstract

本发明提出一种面向不确定性社会计算问题的计算方法，属于网络社会性趋势计算技术领域，包括一、通过网络公众事件、社会网络话题争议和负面公众情绪的结构模型及信息熵计算模型确定其属于不确定性社会问题；二、确定性社会计算问题的一般性结构以及多维随变量的向量空间；三、确定基于社会性信息系统的信息熵计算公式；四、确定信息系统熵值最大时的概率分布和多维离散型随机变量的最大熵分布，并获得社会性事件多维随机变量熵函数的计算公式；五、利用不确定性社会计算问题的熵值计算公式计算网络公众事件、社会网络话题争议和负面公众情绪的熵值，即可获得不确定性社会计算问题的熵值计算结果，来确定社会网络争议性话题公众对此的负面情绪。

Description

一种面向不确定性社会计算问题的计算方法

技术领域

本发明涉及一种面向不确定性社会计算问题的计算方法，属于网络社会性趋势计算技术领域。

背景技术

近年来，社交网络应用得到了巨大的发展，以facebook，Twitter为代表的社交网络公司获得了巨大的成功。在线社交网络同时改变了人们的行为方式，社交网络成为社会人群获取信息、参与社会活动首选方式，在线志愿者以难以想象的规模合作构建了维基百科。社会人群与团体通过社交网络参与国家政治、经济、文化活动，通过社交网络进行购物评价、商业宣传、公众话题观点表达等，对国家与社会的各个领域产生了重大而深远的影响。同时数据分析专家对社交网络产生的数据产生了极大的兴趣，并提出了社会计算的概念。

社会计算的概念提出后，受到了相关研究人员的广泛重视，2007年哈佛大学举办了社会计算研讨会；2008年4月美国军方在亚利桑那州立大学召开行为建模与行为预测研讨会，社会计算方法在信息安全中的应用受到重视。2009年David Lazer等人在发表在science期刊上的著名文章“Computational social science”中提出了社会计算概念的早期描述，一般认为这篇文章最早提出了社会计算概念的.社会计算已经成为社交网络数据分析，在线销售推荐系统，信息安全等领域研究的基础性理论与方法之一.911事件后，情报与安全信息学(ISI)的研究需要发展新的算法来评估社会性风险，社会计算在信息安全领域获得重要应用。

图论的数据结构可以对在线社区结构进行描述，而基于图结点关系数据结构的计算方法成为了当前社会计算的主要方法，应用基于图论的计算方法可以给出一系列的定量化衡量指标，如中心度，紧密度，连接强度等，在线社区关系分析中获得了较广泛的应用。

在Arab spring运动中，一系列阿拉伯世界国家与非洲国家的政权产生更迭，深刻的影响了当今世界国际政治格局，而由社交网络引发的社会性安全问题再一次震惊了全世界，发展新的社会计算方法对安全问题进行分析，对社会性安全风险进行评估成为了当前社会计算领域的重要研究方向之一。

在社会计算领域存在另外一大类问题，它们往往没有确定的数据结构，类别之间函数关系也是不确定的，这类问题的定量化计算具有重要的意义，但当前还没有有效地计算方法。

发明内容

本发明为了解决现有社会计算方法无法对不确定函数关系的社会性问题进行有效计算的问题，提出了一种面向不确定性社会计算问题的计算方法，所采取的技术方案如下：

一种面向不确定性社会计算问题的计算方法，所述计算方法包括：

步骤一、通过网络公众事件、社会网络话题争议和负面公众情绪的结构模型及其基于香农信息论的信息熵计算模型，确定网络公众事件、社会网络话题争议和负面公众情绪的信息熵的计算均属于不确定性社会计算问题；

步骤二、根据所述网络公众事件、社会网络话题争议和负面公众情绪的结构模型确定不确定性社会计算问题的一般性结构以及多维随变量的向量空间；

步骤三、根据所述不确定性社会计算问题的一般性结构以及香农信息论确定基于社会性信息系统的信息熵计算公式，所述社会性信息系统的信息熵计算公式为：

其中，p(x)表示概率分布函数，X表示离散型多维随机变量，并且有X～(X₁,X₁,…,X_n)；(X₁, X₂，…，X_n)包含值域中的基本取值构成了向量空间中的一个元事件，可以用(x₁,x₂,…,x_n)表示，则所述信息熵计算公式转化为：

步骤四、根据所述信息熵计算公式分别分析确定信息系统熵值最大时的概率分布以及多维离散型随机变量的最大熵分布；根据信息系统熵值最大时的概率分布以及多维离散型随机变量的最大熵分布获取社会性事件多维随机变量熵函数的计算公式，所述社会性事件多维随机变量熵函数的计算公式为：

其中，q_i表示不确定性社会计算问题的事件信息集合中的元素数量；

所述社会性事件多维随机变量熵函数的计算公式即为不确定性社会计算问题的熵值计算公式；

步骤五、利用所述不确定性社会计算问题的熵值计算公式分别计算网络公众事件、社会网络话题争议和负面公众情绪的熵值，即可获得不确定性社会计算问题的熵值计算结果。

进一步地，步骤二所述不确定性社会计算问题的一般性结构为：

不确定性社会计算问题的事件信息集合为全U，由Subcategory 1子集，Subcategory 2子集，…，Subcategory n-1，Subcategory n，U₁，U₂，…，U_n构成，满足条件并且有其中，子集合U₁表示Subcategory 1，子集合U₂表示Subcategory 2，…，子集合U_n表示Subcategory n，n表示子集个数。

进一步地，步骤二所述多维随变量的向量空间为：

其中，矩阵A中的各个元素表示向量空间中的元事件。

进一步地，步骤四所述分析确定信息系统熵值最大时的概率分布的具体过程包括：

第一步、确定随机变量X在(0-1)分布的概率分布函数:

P{X＝k}＝p^k(1-p)^1-k,k＝0(0＜p＜1)

其中，随机变量X只取0与1两个值，并且X服从以p为参数的(0-1)分布；

第二步、当X取0时概率值为p，此时获得熵函数f_b(p)如下：

f_b(p)＝-plogp-(1-p)log(1-p)

其中，X表示随机变量；概率值p满足条件0≤p≤1；

第三步、在0log0＝0(0∞)条件下，熵函数f_b(p)为在区间[0,1]之间的连续函数，即确定为二项熵函数；所述二项熵函数在p＝0.5时取最大值；由此获得所述信息系统熵值最大时的概率分布。

进一步地，步骤四所述社会性事件多维随机变量熵函数的计算公式的获取过程包括：

第1步、根据离散型随机变量X的假设条件概率取值和充分必要条件，其中，概率取值为 p₁,p₂,...,p_i,...,p_n，充分必要条件是所述假设条件为：X为一维离散型随机变量，具有有限可数的取值区域L＝{x₁,x₂,...,x_n}，q(x_i)＝Q{X＝x_i}；

第2步、根据社会性信息系统的信息熵计算公式满足的限制条件，利用拉格朗日乘数法求解限制条件下的最大值，得到一个关于p_i的连续函数如下：

根据取得最大值的必要条件，对p_i求偏导数，求解获得p_i＝exp(λ-1)，为常数；根据限制条件可知np_i＝1，即p_i＝1/n，由此可获得熵函数H(X)＝ln(n)，其函数如下：

即获得结论H(X)＝ln(n)；

第3步、在X～(X₁,X₂,…,X_n)时，将第2步获得的结论推广到多维随机变量情形中，获得如下函数模型：

当X_i在它的值域内完成一次取值，q_i＝1，完成全部的m次取值后，则q_i＝m；当X_i完成事件在第i个维度的所有取值后，共有q_i个取值，则多维离散型随机变量(X₁,X₂,…,X_n)共有个分布项；

第4步、根据约束条件∑p(x₁,x₂,...,x_n)＝1结合最大熵分布情况获得关系式：

第5步、将第3步获得的函数模型与第4步获得的关系式结合，即可获得熵函数的公式为：

将熵函数的公式整合即可获得所述社会性事件多维随机变量熵函数的计算公式，所述社会性事件多维随机变量熵函数的计算公式为：

根据社会性事件多维随机变量熵函数的计算公式的表述，因q_i≥1，根据一般性指数函数的性质可知此函数为单调上升函数,具有严格的单调性。

进一步地，步骤五中所述社会网络话题争议的计算过程中对所述社会性事件多维随机变量熵函数的计算公式进行加权处理，所述加权处理过程为：

将所述社会性事件多维随机变量熵函数的计算公式调整为加权形式：

其中，θ₁,θ₂,…θ_i…,θ_n表示权值，并且θ_i(1≤i≤n)是一个实数；

则此时社会网络话题争议的话题争议度h的熵值H计算公式表示为：

利用上式即可计算获得所述社会网络话题争议的熵值。

本发明有益效果：

本发明提出的一种面向不确定性社会计算问题的计算方法能够有效、准确、精确的对不确定函数关系的社会性问题进行计算，其计算结果准确性和精确度非常高。同时，本发明提出的一种面向不确定性社会计算问题的计算方法还具有量化不确定性问题，负责度较低，提供了同类不确定性问题的解决方法，并指导该类问题可以由该方法获得较好的分析效果。并且，所述一种面向不确定性社会计算问题的计算方法具有坚实的理论基础，可以被广泛的应用在社会计算领域。

附图说明

图1为网络公众事件的结构模型示意图；

图2为社会网络争议的结构模型示意图；

图3为负面公众情绪的结构模型示意图；

图4为不确定性社会计算问题的一般性结构示意图；

图5为(0–1)概率分布的熵函数图；

图6为熵函数H(X)＝ln(n)的单调性示意图；

图7为X₁,X₂,…,X₅的矢量图。

具体实施方式

下面结合具体实施例对本发明做进一步说明，但本发明不受实施例的限制。

实施例1：

步骤一、通过网络公众事件、社会网络话题争议和负面公众情绪的结构模型及其基于香农信息论的信息熵计算模型，确定网络公众事件、社会网络话题争议和负面公众情绪的信息熵的计算均属于不确定性社会计算问题；其中，所述网络公众事件、社会网络话题争议和负面公众情绪的结构模型如图1、图2和图3所示；

步骤二、根据所述网络公众事件、社会网络话题争议和负面公众情绪的结构模型确定不确定性社会计算问题的一般性结构以及多维随变量的向量空间；其中，所述不确定性社会计算问题的一般性结构如图4所示，具体结构描述为：不确定性社会计算问题的事件信息集合为全U，由Subcategory 1子集，Subcategory 2子集，…，Subcategory n-1，Subcategory n，U₁， U₂，…，U_n构成，满足条件并且有其中，子集合U₁表示Subcategory 1，子集合U₂表示Subcategory 2，…，子集合U_n表示Subcategory n，n表示子集个数。

其中，q_i表示不确定性社会计算问题的事件信息集合中的元素数量；所述社会性事件多维随机变量熵函数的计算公式即为不确定性社会计算问题的熵值计算公式；

所述社会网络话题争议的计算过程中需要对所述社会性事件多维随机变量熵函数的计算公式进行加权处理，所述加权处理过程为：

权值θ_i(1≤i≤n-1)可以根据特定的计算情形确定，这里使用矢量法对权值进行确定，矢量图如图7所示。通过上式即可计算获得所述社会网络话题争议的熵值。其中，话题争议度是指在某一时段内，假设社交网络中某一话题争议事件的熵值为H，则定义此话题争议熵值为话题争议度h。

其中，步骤一中，确定网络公众事件、社会网络话题争议和负面公众情绪的信息熵的计算均属于不确定性社会计算问题的具体过程如下：

对于网络公众事件：根据网络公众事件的结构模型，如图1所示，假设离散型随机变量X 表示“a public event”，X₁表示“event body”，X₂表示“the time”，X₃表示“theplace”，X₄表示 “the quantity”，X₅表示“the social(natural)role”,X₆表示“the social(natural)relationship”,X₇表示 “the affiliated institution or system”,X₈表示“the main body behaviors”,X₉表示“the event’s social (natural)category”,X₁₀表示“others”,X～(X₁,X₂……X₁₀)。然后假设X的值域为U，概率分布函数为p(x)，X₁，X₂，…，X₁₀的值域为U₁，U₂，…，U₁₀。分别地，p₁(x),p₂(x),…,与p₁₀(x)为概率分布函数，分变量之间存在着复杂的社会性函数关系(不独立)或无法用明确的数量关系表示。

根据香浓信息论的信息熵定义，可以得到熵计算公式。

因为X～(X₁,X₂……X₁₀)，并且X_i与X_j(1≤i<j≤10)之间的函数关系是未知的；因此对信息熵的计算属于不确定性社会计算问题。

对于社会网络话题争议：根据社会网络话题争议的结构模型，如图2所示，应用多维随机变量对事件进行建模，模型描述如下：

假设离散型随机变量X表示“a topic”，X₁表示“agree”，X₂表示“oppose”，X₃表示“likely to agree”，X₄表示“likely to oppose”，X₅表示“ambiguity”,X₆表示“(agree)-approval”,X₇表示 “(agree)-object”,X₈表示“(oppose)-approval”,X₉表示“(oppose)-object”,X₁₀表示“(likely to agree)-approval”,X₁₁表示“(likely to agree)-object”,X₁₂表示“(likely to oppose)-approval”,X₁₃表示“(likely to oppose)-object”,X₁₄表示“(ambiguity)-approval”,X₁₅表示“(ambiguity)-object”,X₁₆表示“others”,X～(X₁,X₂……X₁₆)。

然后假设X的值域为U，概率分布函数为p(x)，X₁，X₂，…，X₁₆的值域为U₁，U₂，…， U₁₆。分别地，p₁(x),p₂(x),…,与p₁₆(x)为概率分布函数，分变量之间的存在着复杂的社会性函数关系，不独立，但无法用明确的数量关系表示.

根据香农信息论的信息熵定义，可以得到熵计算公式。

因为X～(X₁,X₂……X₁₆)，并且X_i与X_j(1≤i<j≤16)之间的函数关系是未知的；因此对信息熵的计算属于不确定性社会计算问题.

对于负面公众情绪：根据负面公众情绪的结构模型，如图3所示，基于图3的结构，应用多维随机变量对事件进行建模，模型描述如下：

假设离散型随机变量X表示“pessimistic public sentiments”，X₁表示“depression”，X₂表示“worry”，X₃表示“panic”，X₄表示“anxiety”，X₅表示“dread”,X₆表示“indignation”,X₇表示 “despair”,X₈表示“other sentiments”,X～(X₁,X₂……X₁₀)。然后假设X的值域为U，概率分布函数为p(x)，X₁，X₂，…，X₈的值域为U₁，U₂，…，U₈。分别地，p₁(x),p₂(x),…,与p₈(x) 为概率分布函数，分变量之间的存在着复杂的社会性函数关系，不独立，但无法用明确的数量关系表示。

根据香农信息论的信息熵定义，可以得到熵计算公式。

因为X～(X₁,X₂……X₈)，并且X_i与X_j(1≤i<j≤8)之间的函数关系是未知的；因此对信息熵的计算属于不确定性社会计算问题。

步骤二所述多维随变量的向量空间的获得过程如下：

假设在集合U_i之内的元素数量是q_i，在U_i(1≤i≤n)每一个集合中包含X_i所有的取值，共有个元事件，向量空间可以被表示为矩阵A，行n列，具体为

其中，矩阵A中的各个元素表示向量空间中的元事件。

步骤四所述分析确定信息系统熵值最大时的概率分布的具体过程包括：

第一步、确定随机变量X在(0-1)分布的概率分布函数:

P{X＝k}＝p^k(1-p)^1-k,k＝0(0＜p＜1)

第二步、当X取0时概率值为p，此时获得熵函数f_b(p)如下：

f_b(p)＝-plogp-(1-p)log(1-p)

其中，X表示随机变量；概率值p满足条件0≤p≤1；

第三步、在0log0＝0(0∞)条件下，熵函数f_b(p)为在区间[0,1]之间的连续函数，即确定为二项熵函数；如图5所示，所述二项熵函数在p＝0.5时取最大值；由此获得所述信息系统熵值最大时的概率分布。

同时，步骤四所述社会性事件多维随机变量熵函数的计算公式的获取过程包括：

第2步、根据社会性信息系统的信息熵计算公式满足的限制条件，利用拉格朗日乘数法求解限制条件下的最大值，得到一个关于p_i的连续函数数如下：

上式函数如图6所示，即获得结论H(X)＝ln(n)；

当X_i在它的值域内完成一次取值，q_i＝1，完成全部的m次取值后，则q_i＝m；当X_i完成事件在第i个维度的所有取值后，共有q_i个取值，如表1所示：

表1分变量取值的数量

那么，多维离散型随机变量(X₁,X₂,…,X_n)共有个分布项；

本实施例所述一种面向不确定性社会计算问题的计算方法的实验过程及结果如下：

针对网络公众事件的熵值计算：

根据图1所示的网络公众事件结构模型，结合所述会性事件多维随机变量熵函数的计算公式，网络公众事件的信息熵值计算公式可以描述为：

选用路透社语料库中的部分事件作为实验语料，实验数据文本文件如表2所示：

表2实验数据的文本文件

当获取到文本文件时，应用自然语言处理技术对文本进行处理，对四个数据子集进行信息抽取。

首先，应用nltk的nltk.pos_tag(text)函数对数据进行分词与词性标注，

然后，nltk提供了unigram标记器，UnigramChunker根据unigram标记器进行构造，当 UnigramChunker构造完毕后，使用CoNLL-2000Chunking Corpus语料库进行训练，并评价其性能表现，如表3所示：

表3实验数据的文本文件

使用Chunker分块器后，IOB标记被加入文件training/59中，执行相应的命名实体识别。 Nltk提供了一个已经训练好的分类器来识别命名实体，分类器通过函数nltk.ne_chunk()获得，并获得相应的信息抽取项。名词、名词短语通常指的是人名、地名、事件或概念，名词可以被认为事件主体。这里一个主体项包括人名、组织、机构等，并假设仅代表一个社会角色。

当文件training/59执行实体抽取后，存在于实体之间的关系被抽取，利用寻找文本中的三元组(X,α,Y)的方法实现对实体关系的识别。这里X，Y表示相应的命名实体，α表示存在于X，Y之间的连接。基于α项的列表：(in,between,of,with,on,under,about,…)，一个文本 training/59内包含的关系被获取.

第三，信息抽取执行后，相应的项目可以被统计，根据公式社会事件的信息熵可以被确定，文本training/59的信息抽取项的结果如表4所示：

表4实验数据的文本文件

根据公式可得：

这样，表1中的公众事件熵值就可以被获得，计算结果如表5所示：

表5实验数据的文本文件

针对社会网络话题争议的熵值计算：

根据图2所示的社会网络话题争议结构模型，结合所述会性事件多维随机变量熵函数的计算公式，社会网络话题争议的信息熵值计算公式可以描述为：

实验数据使用腾讯微博数据，数据集可以在网站1st CCF Conference onNatural Language Processing&Chinese Computing公开获取，在数据集中共有20个话题，相应的公众话题如表 6所示：

表6社会性公众事件的熵H

使用textrank算法对话题评论提取关键词，根据5种类别话题过滤系统对类别进行判断，并统计数值，每一个过滤系统类别包含一定数量的关键词，由5个过滤词表构成了过滤系统.

根据社会网络话题争议结构模型，表6中第一个话题的类别统计数据可以被获得。这里 X₁表示“agree”,X₂表示“likely to agree”,X₃表示“ambiguity”,X₄表示“likely tooppose”,X₅表示 “oppose”,and X₆表示“others”,X～(X₁,X₂,X₃,X₄,X₅,X₆).在这个计算实例中，q₆＝1是一个常数。其中，q_i的熵如表7所示：

表7 q_i的熵

相应的计算公式公式可以被获得：

因此，话题争议度h＝H，计算结果如下，

h的熵值如表8所示：

表8 h的熵值

社会网络话题争议的计算结果成单调的上升次序，对于社交网络公众意见分析，话题争议度是一个很重要的评价参数，它可以衡量一个话题被争议的程度，如果在某一时段内某一话题的争议度数值较高，则说明这个社会话题相关内容争议较大，参数值可以为相关社会实体、或决策者提供有价值的参考。

为了获得更为合理计算结果，在社会网络话题争议计算过程中进行加权计算，假设 θ₁,θ₂,…θ_i…,θ_n是权值，θ_i(1≤i≤n)是一个实数，默认值为1.根据公式(12)加权形式的如下所示.

因此话题争议度h的计算公式如下，

权值θ_i(1≤i≤n-1)可以根据特定的计算情形确定，这里使用矢量法^[28]对权值进行确定，如图7所示。

因为X₁表示“agree”，X₂表示“likely to agree”，X₃表示“ambiguity”，X₄表示“likely to oppose”，X₅表示“oppose”，X₆表示“others”，X～(X₁,X₂,X₃,X₄,X₅,X₆).矢量图如图7所示。

假设初始向量为Y，α_i为向量X_i与Y的夹角，那么可知α₁＝0，α₂＝π/4，α₃＝π/2， α4＝3π/4，α₅＝π，对α_i示使用归一化方法，则可以得到，因此，θ_i＝β_i+k，这里k是常数。

根据社会网络话题争议的结构和相应分析，可知X₁表示“agree”，且在话题争议事件中为基本类别，假设它与向量Y方向一致，与水平座标线成0度角，即处于起始位置.那么θ₁＝β₁+k在被分配为1，那么k＝1.θ_i(1≤i≤5)的值如表9所示：

表9θ_i(1≤i≤5)的值

话题争议度g的加权计算结果如表10所示

表10 g的值

虽然本发明已以较佳的实施例公开如上，但其并非用以限定本发明，任何熟悉此技术的人，在不脱离本发明的精神和范围内，都可以做各种改动和修饰，因此本发明的保护范围应该以权利要求书所界定的为准。

Claims

1.一种面向不确定性社会计算问题的计算方法，其特征在于，所述计算方法包括：

其中，p(x)表示概率分布函数，X表示离散型多维随机变量，并且有X～(X₁,X₁,…,X_n)；(X₁,X₂，…，X_n)包含值域中的基本取值构成了向量空间中的一个元事件，可以用(x₁,x₂,…,x_n)表示，则所述信息熵计算公式转化为：

2.根据权利要求1所述计算方法，其特征在于，步骤二所述不确定性社会计算问题的一般性结构为：

不确定性社会计算问题的事件信息集合为全U，由Subcategory 1子集，Subcategory 2子集，…，Subcategory n-1，Subcategory n，U₁，U₂，…，U_n构成，满足条件并且有其中，子集合U₁表示Subcategory 1，子集合U₂表示Subcategory2，…，子集合U_n表示Subcategory n，n表示子集个数。

3.根据权利要求1所述计算方法，其特征在于，步骤二所述多维随变量的向量空间为：

其中，矩阵A中的各个元素表示向量空间中的元事件。

4.根据权利要求1所述计算方法，其特征在于，步骤四所述分析确定信息系统熵值最大时的概率分布的具体过程包括：

第一步、确定随机变量X在(0-1)分布的概率分布函数:

P{X＝k}＝p^k(1-p)^1-k,k＝0(0＜p＜1)

第二步、当X取0时概率值为p，此时获得熵函数f_b(p)如下：

f_b(p)＝-plogp-(1-p)log(1-p)

其中，X表示随机变；概率值p满足条件0≤p≤1；

5.根据权利要求1所述计算方法，其特征在于，步骤四所述社会性事件多维随机变量熵函数的计算公式的获取过程包括：

第1步、根据离散型随机变量X的假设条件概率取值和充分必要条件，其中，概率取值为p₁,p₂,...,p_i,...,p_n，充分必要条件是所述假设条件为：X为一维离散型随机变量，具有有限可数的取值区域L＝{x₁,x₂,...,x_n}，q(x_i)＝Q{X＝x_i}；

即获得结论H(X)＝ln(n)；

将熵函数的公式整合即可获得所述社会性事件多维随机变量熵函数的计算公式；所述社会性事件多维随机变量熵函数的计算公式为：

。

6.根据权利要求1所述计算方法，其特征在于，步骤五中所述社会网络话题争议的熵值计算过程中对所述社会性事件多维随机变量熵函数的计算公式进行加权处理，所述加权处理过程为：

利用上式即可计算获得所述社会网络话题争议的熵值。