CN110209953A - 一种面向不确定性社会计算问题的计算方法 - Google Patents
一种面向不确定性社会计算问题的计算方法 Download PDFInfo
- Publication number
- CN110209953A CN110209953A CN201910138183.6A CN201910138183A CN110209953A CN 110209953 A CN110209953 A CN 110209953A CN 201910138183 A CN201910138183 A CN 201910138183A CN 110209953 A CN110209953 A CN 110209953A
- Authority
- CN
- China
- Prior art keywords
- entropy
- social
- function
- calculation formula
- uncertain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 15
- 238000005315 distribution function Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 230000008451 emotion Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 52
- 238000010586 diagram Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000009329 sexual behaviour Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 125000003118 aryl group Chemical group 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种面向不确定性社会计算问题的计算方法,属于网络社会性趋势计算技术领域,包括一、通过网络公众事件、社会网络话题争议和负面公众情绪的结构模型及信息熵计算模型确定其属于不确定性社会问题;二、确定性社会计算问题的一般性结构以及多维随变量的向量空间;三、确定基于社会性信息系统的信息熵计算公式;四、确定信息系统熵值最大时的概率分布和多维离散型随机变量的最大熵分布,并获得社会性事件多维随机变量熵函数的计算公式;五、利用不确定性社会计算问题的熵值计算公式计算网络公众事件、社会网络话题争议和负面公众情绪的熵值,即可获得不确定性社会计算问题的熵值计算结果,来确定社会网络争议性话题公众对此的负面情绪。
Description
技术领域
本发明涉及一种面向不确定性社会计算问题的计算方法,属于网络社会性趋势计算技术 领域。
背景技术
近年来,社交网络应用得到了巨大的发展,以facebook,Twitter为代表的社交网络公司 获得了巨大的成功。在线社交网络同时改变了人们的行为方式,社交网络成为社会人群获取 信息、参与社会活动首选方式,在线志愿者以难以想象的规模合作构建了维基百科。社会人 群与团体通过社交网络参与国家政治、经济、文化活动,通过社交网络进行购物评价、商业 宣传、公众话题观点表达等,对国家与社会的各个领域产生了重大而深远的影响。同时数据 分析专家对社交网络产生的数据产生了极大的兴趣,并提出了社会计算的概念。
社会计算的概念提出后,受到了相关研究人员的广泛重视,2007年哈佛大学举办了社会计 算研讨会;2008年4月美国军方在亚利桑那州立大学召开行为建模与行为预测研讨会,社会 计算方法在信息安全中的应用受到重视。2009年David Lazer等人在发表在science期刊上的 著名文章“Computational social science”中提出了社会计算概念的早期描述,一般认为这篇文章 最早提出了社会计算概念的.社会计算已经成为社交网络数据分析,在线销售推荐系统,信息 安全等领域研究的基础性理论与方法之一.911事件后,情报与安全信息学(ISI)的研究需要发 展新的算法来评估社会性风险,社会计算在信息安全领域获得重要应用。
图论的数据结构可以对在线社区结构进行描述,而基于图结点关系数据结构的计算方法成 为了当前社会计算的主要方法,应用基于图论的计算方法可以给出一系列的定量化衡量指标, 如中心度,紧密度,连接强度等,在线社区关系分析中获得了较广泛的应用。
在Arab spring运动中,一系列阿拉伯世界国家与非洲国家的政权产生更迭,深刻的影响了 当今世界国际政治格局,而由社交网络引发的社会性安全问题再一次震惊了全世界,发展新 的社会计算方法对安全问题进行分析,对社会性安全风险进行评估成为了当前社会计算领域 的重要研究方向之一。
在社会计算领域存在另外一大类问题,它们往往没有确定的数据结构,类别之间函数关系 也是不确定的,这类问题的定量化计算具有重要的意义,但当前还没有有效地计算方法。
发明内容
本发明为了解决现有社会计算方法无法对不确定函数关系的社会性问题进行有效计算的 问题,提出了一种面向不确定性社会计算问题的计算方法,所采取的技术方案如下:
一种面向不确定性社会计算问题的计算方法,所述计算方法包括:
步骤一、通过网络公众事件、社会网络话题争议和负面公众情绪的结构模型及其基于香 农信息论的信息熵计算模型,确定网络公众事件、社会网络话题争议和负面公众情绪的信息 熵的计算均属于不确定性社会计算问题;
步骤二、根据所述网络公众事件、社会网络话题争议和负面公众情绪的结构模型确定不 确定性社会计算问题的一般性结构以及多维随变量的向量空间;
步骤三、根据所述不确定性社会计算问题的一般性结构以及香农信息论确定基于社会性 信息系统的信息熵计算公式,所述社会性信息系统的信息熵计算公式为:
其中,p(x)表示概率分布函数,X表示离散型多维随机变量,并且有X~(X1,X1,…,Xn);(X1, X2,…,Xn)包含值域中的基本取值构成了向量空间中的一个元事件,可以用(x1,x2,…,xn)表示, 则所述信息熵计算公式转化为:
步骤四、根据所述信息熵计算公式分别分析确定信息系统熵值最大时的概率分布以及多 维离散型随机变量的最大熵分布;根据信息系统熵值最大时的概率分布以及多维离散型随机 变量的最大熵分布获取社会性事件多维随机变量熵函数的计算公式,所述社会性事件多维随 机变量熵函数的计算公式为:
其中,qi表示不确定性社会计算问题的事件信息集合中的元素数量;
所述社会性事件多维随机变量熵函数的计算公式即为不确定性社会计算问题的熵值计算 公式;
步骤五、利用所述不确定性社会计算问题的熵值计算公式分别计算网络公众事件、社会 网络话题争议和负面公众情绪的熵值,即可获得不确定性社会计算问题的熵值计算结果。
进一步地,步骤二所述不确定性社会计算问题的一般性结构为:
不确定性社会计算问题的事件信息集合为全U,由Subcategory 1子集,Subcategory 2子 集,…,Subcategory n-1,Subcategory n,U1,U2,…,Un构成,满足条件并且有其中,子集合U1表示Subcategory 1,子集合U2表示Subcategory 2,…, 子集合Un表示Subcategory n,n表示子集个数。
进一步地,步骤二所述多维随变量的向量空间为:
其中,矩阵A中的各个元素表示向量空间中的元事件。
进一步地,步骤四所述分析确定信息系统熵值最大时的概率分布的具体过程包括:
第一步、确定随机变量X在(0-1)分布的概率分布函数:
P{X=k}=pk(1-p)1-k,k=0(0<p<1)
其中,随机变量X只取0与1两个值,并且X服从以p为参数的(0-1)分布;
第二步、当X取0时概率值为p,此时获得熵函数fb(p)如下:
fb(p)=-plogp-(1-p)log(1-p)
其中,X表示随机变量;概率值p满足条件0≤p≤1;
第三步、在0log0=0(0∞)条件下,熵函数fb(p)为在区间[0,1]之间的连续函数,即确定为二 项熵函数;所述二项熵函数在p=0.5时取最大值;由此获得所述信息系统熵值最大时的概率分 布。
进一步地,步骤四所述社会性事件多维随机变量熵函数的计算公式的获取过程包括:
第1步、根据离散型随机变量X的假设条件概率取值和充分必要条件,其中,概率取值为 p1,p2,...,pi,...,pn,充分必要条件是所述假设条件为:X为一维离散型随机变 量,具有有限可数的取值区域L={x1,x2,...,xn},q(xi)=Q{X=xi};
第2步、根据社会性信息系统的信息熵计算公式满足的限 制条件,利用拉格朗日乘数法求解限制条件下的最大值,得到一个关于pi的连续函数 如下:
根据取得最大值的必要条件,对pi求偏导数,求解获得pi=exp(λ-1),为常数;根据限制 条件可知npi=1,即pi=1/n,由此可获得熵函数H(X)=ln(n),其函数如下:
即获得结论H(X)=ln(n);
第3步、在X~(X1,X2,…,Xn)时,将第2步获得的结论推广到多维随机变量情形中,获得如 下函数模型:
当Xi在它的值域内完成一次取值,qi=1,完成全部的m次取值后,则qi=m;当Xi完成事件 在第i个维度的所有取值后,共有qi个取值,则多维离散型随机变量(X1,X2,…,Xn)共有个 分布项;
第4步、根据约束条件∑p(x1,x2,...,xn)=1结合最大熵分布情况获得关系式:
第5步、将第3步获得的函数模型与第4步获得的关系式结合,即可获得熵函数的公式为:
将熵函数的公式整合即可获得所述社会性事件多维随机变量熵函数的计算公式,所述社 会性事件多维随机变量熵函数的计算公式为:
根据社会性事件多维随机变量熵函数的计算公式的表述,因qi≥1,根据一般性指数函数 的性质可知此函数为单调上升函数,具有严格的单调性。
进一步地,步骤五中所述社会网络话题争议的计算过程中对所述社会性事件多维随机变 量熵函数的计算公式进行加权处理,所述加权处理过程为:
将所述社会性事件多维随机变量熵函数的计算公式调整为加权形式:
其中,θ1,θ2,…θi…,θn表示权值,并且θi(1≤i≤n)是一个实数;
则此时社会网络话题争议的话题争议度h的熵值H计算公式表示为:
利用上式即可计算获得所述社会网络话题争议的熵值。
本发明有益效果:
本发明提出的一种面向不确定性社会计算问题的计算方法能够有效、准确、精确的对不 确定函数关系的社会性问题进行计算,其计算结果准确性和精确度非常高。同时,本发明提 出的一种面向不确定性社会计算问题的计算方法还具有量化不确定性问题,负责度较低,提 供了同类不确定性问题的解决方法,并指导该类问题可以由该方法获得较好的分析效果。并 且,所述一种面向不确定性社会计算问题的计算方法具有坚实的理论基础,可以被广泛的应 用在社会计算领域。
附图说明
图1为网络公众事件的结构模型示意图;
图2为社会网络争议的结构模型示意图;
图3为负面公众情绪的结构模型示意图;
图4为不确定性社会计算问题的一般性结构示意图;
图5为(0–1)概率分布的熵函数图;
图6为熵函数H(X)=ln(n)的单调性示意图;
图7为X1,X2,…,X5的矢量图。
具体实施方式
下面结合具体实施例对本发明做进一步说明,但本发明不受实施例的限制。
实施例1:
一种面向不确定性社会计算问题的计算方法,所述计算方法包括:
步骤一、通过网络公众事件、社会网络话题争议和负面公众情绪的结构模型及其基于香 农信息论的信息熵计算模型,确定网络公众事件、社会网络话题争议和负面公众情绪的信息 熵的计算均属于不确定性社会计算问题;其中,所述网络公众事件、社会网络话题争议和负 面公众情绪的结构模型如图1、图2和图3所示;
步骤二、根据所述网络公众事件、社会网络话题争议和负面公众情绪的结构模型确定不 确定性社会计算问题的一般性结构以及多维随变量的向量空间;其中,所述不确定性社会计 算问题的一般性结构如图4所示,具体结构描述为:不确定性社会计算问题的事件信息集合为 全U,由Subcategory 1子集,Subcategory 2子集,…,Subcategory n-1,Subcategory n,U1, U2,…,Un构成,满足条件并且有其中,子集合U1表示Subcategory 1,子集合U2表示Subcategory 2,…,子集合Un表示Subcategory n,n表示子 集个数。
步骤三、根据所述不确定性社会计算问题的一般性结构以及香农信息论确定基于社会性 信息系统的信息熵计算公式,所述社会性信息系统的信息熵计算公式为:
其中,p(x)表示概率分布函数,X表示离散型多维随机变量,并且有X~(X1,X1,…,Xn);(X1, X2,…,Xn)包含值域中的基本取值构成了向量空间中的一个元事件,可以用(x1,x2,…,xn)表示, 则所述信息熵计算公式转化为:
步骤四、根据所述信息熵计算公式分别分析确定信息系统熵值最大时的概率分布以及多 维离散型随机变量的最大熵分布;根据信息系统熵值最大时的概率分布以及多维离散型随机 变量的最大熵分布获取社会性事件多维随机变量熵函数的计算公式,所述社会性事件多维随 机变量熵函数的计算公式为:
其中,qi表示不确定性社会计算问题的事件信息集合中的元素数量;所述社会性事件多 维随机变量熵函数的计算公式即为不确定性社会计算问题的熵值计算公式;
步骤五、利用所述不确定性社会计算问题的熵值计算公式分别计算网络公众事件、社会 网络话题争议和负面公众情绪的熵值,即可获得不确定性社会计算问题的熵值计算结果。
所述社会网络话题争议的计算过程中需要对所述社会性事件多维随机变量熵函数的计算 公式进行加权处理,所述加权处理过程为:
将所述社会性事件多维随机变量熵函数的计算公式调整为加权形式:
其中,θ1,θ2,…θi…,θn表示权值,并且θi(1≤i≤n)是一个实数;
则此时社会网络话题争议的话题争议度h的熵值H计算公式表示为:
权值θi(1≤i≤n-1)可以根据特定的计算情形确定,这里使用矢量法对权值进行确定,矢 量图如图7所示。通过上式即可计算获得所述社会网络话题争议的熵值。其中,话题争议度是 指在某一时段内,假设社交网络中某一话题争议事件的熵值为H,则定义此话题争议熵值为 话题争议度h。
其中,步骤一中,确定网络公众事件、社会网络话题争议和负面公众情绪的信息熵的计 算均属于不确定性社会计算问题的具体过程如下:
对于网络公众事件:根据网络公众事件的结构模型,如图1所示,假设离散型随机变量X 表示“a public event”,X1表示“event body”,X2表示“the time”,X3表示“theplace”,X4表示 “the quantity”,X5表示“the social(natural)role”,X6表示“the social(natural)relationship”,X7表示 “the affiliated institution or system”,X8表示“the main body behaviors”,X9表示“the event’s social (natural)category”,X10表示“others”,X~(X1,X2……X10)。然后假设X的值域为U,概率分布函 数为p(x),X1,X2,…,X10的值域为U1,U2,…,U10。分别地,p1(x),p2(x),…,与p10(x)为 概率分布函数,分变量之间存在着复杂的社会性函数关系(不独立)或无法用明确的数量关系 表示。
根据香浓信息论的信息熵定义,可以得到熵计算公式。
因为X~(X1,X2……X10),并且Xi与Xj(1≤i<j≤10)之间的函数关系是未知的;因此对信 息熵的计算属于不确定性社会计算问题。
对于社会网络话题争议:根据社会网络话题争议的结构模型,如图2所示,应用多维随机 变量对事件进行建模,模型描述如下:
假设离散型随机变量X表示“a topic”,X1表示“agree”,X2表示“oppose”,X3表示“likely to agree”,X4表示“likely to oppose”,X5表示“ambiguity”,X6表示“(agree)-approval”,X7表示 “(agree)-object”,X8表示“(oppose)-approval”,X9表示“(oppose)-object”,X10表示“(likely to agree)-approval”,X11表示“(likely to agree)-object”,X12表示“(likely to oppose)-approval”,X13表 示“(likely to oppose)-object”,X14表示“(ambiguity)-approval”,X15表示“(ambiguity)-object”,X16表 示“others”,X~(X1,X2……X16)。
然后假设X的值域为U,概率分布函数为p(x),X1,X2,…,X16的值域为U1,U2,…, U16。分别地,p1(x),p2(x),…,与p16(x)为概率分布函数,分变量之间的存在着复杂的社会性 函数关系,不独立,但无法用明确的数量关系表示.
根据香农信息论的信息熵定义,可以得到熵计算公式。
因为X~(X1,X2……X16),并且Xi与Xj(1≤i<j≤16)之间的函数关系是未知的;因此对信 息熵的计算属于不确定性社会计算问题.
对于负面公众情绪:根据负面公众情绪的结构模型,如图3所示,基于图3的结构,应用 多维随机变量对事件进行建模,模型描述如下:
假设离散型随机变量X表示“pessimistic public sentiments”,X1表示“depression”,X2表 示“worry”,X3表示“panic”,X4表示“anxiety”,X5表示“dread”,X6表示“indignation”,X7表示 “despair”,X8表示“other sentiments”,X~(X1,X2……X10)。然后假设X的值域为U,概率分布 函数为p(x),X1,X2,…,X8的值域为U1,U2,…,U8。分别地,p1(x),p2(x),…,与p8(x) 为概率分布函数,分变量之间的存在着复杂的社会性函数关系,不独立,但无法用明确的数 量关系表示。
根据香农信息论的信息熵定义,可以得到熵计算公式。
因为X~(X1,X2……X8),并且Xi与Xj(1≤i<j≤8)之间的函数关系是未知的;因此对信息 熵的计算属于不确定性社会计算问题。
步骤二所述多维随变量的向量空间的获得过程如下:
假设在集合Ui之内的元素数量是qi,在Ui(1≤i≤n)每一个集合中包含Xi所有的取值,共有 个元事件,向量空间可以被表示为矩阵A,行n列,具体为
其中,矩阵A中的各个元素表示向量空间中的元事件。
步骤四所述分析确定信息系统熵值最大时的概率分布的具体过程包括:
第一步、确定随机变量X在(0-1)分布的概率分布函数:
P{X=k}=pk(1-p)1-k,k=0(0<p<1)
其中,随机变量X只取0与1两个值,并且X服从以p为参数的(0-1)分布;
第二步、当X取0时概率值为p,此时获得熵函数fb(p)如下:
fb(p)=-plogp-(1-p)log(1-p)
其中,X表示随机变量;概率值p满足条件0≤p≤1;
第三步、在0log0=0(0∞)条件下,熵函数fb(p)为在区间[0,1]之间的连续函数,即确定为二 项熵函数;如图5所示,所述二项熵函数在p=0.5时取最大值;由此获得所述信息系统熵值最 大时的概率分布。
同时,步骤四所述社会性事件多维随机变量熵函数的计算公式的获取过程包括:
第1步、根据离散型随机变量X的假设条件概率取值和充分必要条件,其中,概率取值为 p1,p2,...,pi,...,pn,充分必要条件是所述假设条件为:X为一维离散型随机变 量,具有有限可数的取值区域L={x1,x2,...,xn},q(xi)=Q{X=xi};
第2步、根据社会性信息系统的信息熵计算公式满足的限 制条件,利用拉格朗日乘数法求解限制条件下的最大值,得到一个关于pi的连续函数 数如下:
根据取得最大值的必要条件,对pi求偏导数,求解获得pi=exp(λ-1),为常数;根据限制 条件可知npi=1,即pi=1/n,由此可获得熵函数H(X)=ln(n),其函数如下:
上式函数如图6所示,即获得结论H(X)=ln(n);
第3步、在X~(X1,X2,…,Xn)时,将第2步获得的结论推广到多维随机变量情形中,获得如 下函数模型:
当Xi在它的值域内完成一次取值,qi=1,完成全部的m次取值后,则qi=m;当Xi完成事件 在第i个维度的所有取值后,共有qi个取值,如表1所示:
表1分变量取值的数量
那么,多维离散型随机变量(X1,X2,…,Xn)共有个分布项;
第4步、根据约束条件∑p(x1,x2,...,xn)=1结合最大熵分布情况获得关系式:
第5步、将第3步获得的函数模型与第4步获得的关系式结合,即可获得熵函数的公式为:
将熵函数的公式整合即可获得所述社会性事件多维随机变量熵函数的计算公式,所述社 会性事件多维随机变量熵函数的计算公式为:
本实施例所述一种面向不确定性社会计算问题的计算方法的实验过程及结果如下:
针对网络公众事件的熵值计算:
根据图1所示的网络公众事件结构模型,结合所述会性事件多维随机变量熵函数的计算 公式,网络公众事件的信息熵值计算公式可以描述为:
选用路透社语料库中的部分事件作为实验语料,实验数据文本文件如表2所示:
表2实验数据的文本文件
当获取到文本文件时,应用自然语言处理技术对文本进行处理,对四个数据子集进行信 息抽取。
首先,应用nltk的nltk.pos_tag(text)函数对数据进行分词与词性标注,
然后,nltk提供了unigram标记器,UnigramChunker根据unigram标记器进行构造,当 UnigramChunker构造完毕后,使用CoNLL-2000Chunking Corpus语料库进行训练,并评价其 性能表现,如表3所示:
表3实验数据的文本文件
使用Chunker分块器后,IOB标记被加入文件training/59中,执行相应的命名实体识别。 Nltk提供了一个已经训练好的分类器来识别命名实体,分类器通过函数nltk.ne_chunk()获得, 并获得相应的信息抽取项。名词、名词短语通常指的是人名、地名、事件或概念,名词可以 被认为事件主体。这里一个主体项包括人名、组织、机构等,并假设仅代表一个社会角色。
当文件training/59执行实体抽取后,存在于实体之间的关系被抽取,利用寻找文本中的 三元组(X,α,Y)的方法实现对实体关系的识别。这里X,Y表示相应的命名实体,α表示存在 于X,Y之间的连接。基于α项的列表:(in,between,of,with,on,under,about,…),一个文本 training/59内包含的关系被获取.
第三,信息抽取执行后,相应的项目可以被统计,根据公式社会事件的 信息熵可以被确定,文本training/59的信息抽取项的结果如表4所示:
表4实验数据的文本文件
根据公式可得:
这样,表1中的公众事件熵值就可以被获得,计算结果如表5所示:
表5实验数据的文本文件
针对社会网络话题争议的熵值计算:
根据图2所示的社会网络话题争议结构模型,结合所述会性事件多维随机变量熵函数的 计算公式,社会网络话题争议的信息熵值计算公式可以描述为:
实验数据使用腾讯微博数据,数据集可以在网站1st CCF Conference onNatural Language Processing&Chinese Computing公开获取,在数据集中共有20个话题,相应的公众话题如表 6所示:
表6社会性公众事件的熵H
使用textrank算法对话题评论提取关键词,根据5种类别话题过滤系统对类别进行判断, 并统计数值,每一个过滤系统类别包含一定数量的关键词,由5个过滤词表构成了过滤系统.
根据社会网络话题争议结构模型,表6中第一个话题的类别统计数据可以被获得。这里 X1表示“agree”,X2表示“likely to agree”,X3表示“ambiguity”,X4表示“likely tooppose”,X5表示 “oppose”,and X6表示“others”,X~(X1,X2,X3,X4,X5,X6).在这个计算实例中,q6=1是一个常 数。其中,qi的熵如表7所示:
表7 qi的熵
相应的计算公式公式可以被获得:
因此,话题争议度h=H,计算结果如下,
h的熵值如表8所示:
表8 h的熵值
社会网络话题争议的计算结果成单调的上升次序,对于社交网络公众意见分析,话题争 议度是一个很重要的评价参数,它可以衡量一个话题被争议的程度,如果在某一时段内某一 话题的争议度数值较高,则说明这个社会话题相关内容争议较大,参数值可以为相关社会实 体、或决策者提供有价值的参考。
为了获得更为合理计算结果,在社会网络话题争议计算过程中进行加权计算,假设 θ1,θ2,…θi…,θn是权值,θi(1≤i≤n)是一个实数,默认值为1.根据公式(12)加权形式的如下所示.
因此话题争议度h的计算公式如下,
权值θi(1≤i≤n-1)可以根据特定的计算情形确定,这里使用矢量法[28]对权值进行确定, 如图7所示。
因为X1表示“agree”,X2表示“likely to agree”,X3表示“ambiguity”,X4表示“likely to oppose”,X5表示“oppose”,X6表示“others”,X~(X1,X2,X3,X4,X5,X6).矢量图如图7所示。
假设初始向量为Y,αi为向量Xi与Y的夹角,那么可知α1=0,α2=π/4,α3=π/2, α4=3π/4,α5=π,对αi示使用归一化方法,则可以得到,因此,θi=βi+k,这 里k是常数。
根据社会网络话题争议的结构和相应分析,可知X1表示“agree”,且在话题争议事件中 为基本类别,假设它与向量Y方向一致,与水平座标线成0度角,即处于起始位置.那么θ1=β1+k在被分配为1,那么k=1.θi(1≤i≤5)的值如表9所示:
表9θi(1≤i≤5)的值
话题争议度g的加权计算结果如表10所示
表10 g的值
虽然本发明已以较佳的实施例公开如上,但其并非用以限定本发明,任何熟悉此技术的 人,在不脱离本发明的精神和范围内,都可以做各种改动和修饰,因此本发明的保护范围应 该以权利要求书所界定的为准。
Claims (6)
1.一种面向不确定性社会计算问题的计算方法,其特征在于,所述计算方法包括:
步骤一、通过网络公众事件、社会网络话题争议和负面公众情绪的结构模型及其基于香农信息论的信息熵计算模型,确定网络公众事件、社会网络话题争议和负面公众情绪的信息熵的计算均属于不确定性社会计算问题;
步骤二、根据所述网络公众事件、社会网络话题争议和负面公众情绪的结构模型确定不确定性社会计算问题的一般性结构以及多维随变量的向量空间;
步骤三、根据所述不确定性社会计算问题的一般性结构以及香农信息论确定基于社会性信息系统的信息熵计算公式,所述社会性信息系统的信息熵计算公式为:
其中,p(x)表示概率分布函数,X表示离散型多维随机变量,并且有X~(X1,X1,…,Xn);(X1,X2,…,Xn)包含值域中的基本取值构成了向量空间中的一个元事件,可以用(x1,x2,…,xn)表示,则所述信息熵计算公式转化为:
步骤四、根据所述信息熵计算公式分别分析确定信息系统熵值最大时的概率分布以及多维离散型随机变量的最大熵分布;根据信息系统熵值最大时的概率分布以及多维离散型随机变量的最大熵分布获取社会性事件多维随机变量熵函数的计算公式,所述社会性事件多维随机变量熵函数的计算公式为:
其中,qi表示不确定性社会计算问题的事件信息集合中的元素数量;
所述社会性事件多维随机变量熵函数的计算公式即为不确定性社会计算问题的熵值计算公式;
步骤五、利用所述不确定性社会计算问题的熵值计算公式分别计算网络公众事件、社会网络话题争议和负面公众情绪的熵值,即可获得不确定性社会计算问题的熵值计算结果。
2.根据权利要求1所述计算方法,其特征在于,步骤二所述不确定性社会计算问题的一般性结构为:
不确定性社会计算问题的事件信息集合为全U,由Subcategory 1子集,Subcategory 2子集,…,Subcategory n-1,Subcategory n,U1,U2,…,Un构成,满足条件并且有其中,子集合U1表示Subcategory 1,子集合U2表示Subcategory2,…,子集合Un表示Subcategory n,n表示子集个数。
3.根据权利要求1所述计算方法,其特征在于,步骤二所述多维随变量的向量空间为:
其中,矩阵A中的各个元素表示向量空间中的元事件。
4.根据权利要求1所述计算方法,其特征在于,步骤四所述分析确定信息系统熵值最大时的概率分布的具体过程包括:
第一步、确定随机变量X在(0-1)分布的概率分布函数:
P{X=k}=pk(1-p)1-k,k=0(0<p<1)
其中,随机变量X只取0与1两个值,并且X服从以p为参数的(0-1)分布;
第二步、当X取0时概率值为p,此时获得熵函数fb(p)如下:
fb(p)=-plogp-(1-p)log(1-p)
其中,X表示随机变;概率值p满足条件0≤p≤1;
第三步、在0log0=0(0∞)条件下,熵函数fb(p)为在区间[0,1]之间的连续函数,即确定为二项熵函数;所述二项熵函数在p=0.5时取最大值;由此获得所述信息系统熵值最大时的概率分布。
5.根据权利要求1所述计算方法,其特征在于,步骤四所述社会性事件多维随机变量熵函数的计算公式的获取过程包括:
第1步、根据离散型随机变量X的假设条件概率取值和充分必要条件,其中,概率取值为p1,p2,...,pi,...,pn,充分必要条件是所述假设条件为:X为一维离散型随机变量,具有有限可数的取值区域L={x1,x2,...,xn},q(xi)=Q{X=xi};
第2步、根据社会性信息系统的信息熵计算公式满足的限制条件,利用拉格朗日乘数法求解限制条件下的最大值,得到一个关于pi的连续函数如下:
根据取得最大值的必要条件,对pi求偏导数,求解获得pi=exp(λ-1),为常数;根据限制条件可知npi=1,即pi=1/n,由此可获得熵函数H(X)=ln(n),其函数如下:
即获得结论H(X)=ln(n);
第3步、在X~(X1,X2,…,Xn)时,将第2步获得的结论推广到多维随机变量情形中,获得如下函数模型:
当Xi在它的值域内完成一次取值,qi=1,完成全部的m次取值后,则qi=m;当Xi完成事件在第i个维度的所有取值后,共有qi个取值,则多维离散型随机变量(X1,X2,…,Xn)共有个分布项;
第4步、根据约束条件∑p(x1,x2,...,xn)=1结合最大熵分布情况获得关系式:
第5步、将第3步获得的函数模型与第4步获得的关系式结合,即可获得熵函数的公式为:
将熵函数的公式整合即可获得所述社会性事件多维随机变量熵函数的计算公式;所述社会性事件多维随机变量熵函数的计算公式为:
。
6.根据权利要求1所述计算方法,其特征在于,步骤五中所述社会网络话题争议的熵值计算过程中对所述社会性事件多维随机变量熵函数的计算公式进行加权处理,所述加权处理过程为:
将所述社会性事件多维随机变量熵函数的计算公式调整为加权形式:
其中,θ1,θ2,…θi…,θn表示权值,并且θi(1≤i≤n)是一个实数;
则此时社会网络话题争议的话题争议度h的熵值H计算公式表示为:
利用上式即可计算获得所述社会网络话题争议的熵值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910138183.6A CN110209953A (zh) | 2019-02-25 | 2019-02-25 | 一种面向不确定性社会计算问题的计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910138183.6A CN110209953A (zh) | 2019-02-25 | 2019-02-25 | 一种面向不确定性社会计算问题的计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110209953A true CN110209953A (zh) | 2019-09-06 |
Family
ID=67785211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910138183.6A Pending CN110209953A (zh) | 2019-02-25 | 2019-02-25 | 一种面向不确定性社会计算问题的计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209953A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694955A (zh) * | 2020-05-08 | 2020-09-22 | 中国科学院计算技术研究所 | 一种社交平台的早期争议性消息检测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070265864A1 (en) * | 2006-05-01 | 2007-11-15 | International Business Machines Corporation | System and method for measuring business transformation impact using social network analytics |
CN106815743A (zh) * | 2016-12-09 | 2017-06-09 | 上海交通大学 | 基于熵的数据价值衡量与定价方法 |
-
2019
- 2019-02-25 CN CN201910138183.6A patent/CN110209953A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070265864A1 (en) * | 2006-05-01 | 2007-11-15 | International Business Machines Corporation | System and method for measuring business transformation impact using social network analytics |
CN106815743A (zh) * | 2016-12-09 | 2017-06-09 | 上海交通大学 | 基于熵的数据价值衡量与定价方法 |
Non-Patent Citations (3)
Title |
---|
RUI JIN等: "How to Calculate the Public Psychological Pressure in the Social Networks", 《TELKOMNIKA》 * |
RUI JIN等: "The Uncertainty Problem in Social Computing and Its Solution Method", 《IEEE》 * |
靳锐等: "中文公众事件信息熵计算方法", 《软件学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694955A (zh) * | 2020-05-08 | 2020-09-22 | 中国科学院计算技术研究所 | 一种社交平台的早期争议性消息检测方法及系统 |
CN111694955B (zh) * | 2020-05-08 | 2023-09-12 | 中国科学院计算技术研究所 | 一种社交平台的早期争议性消息检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qiao et al. | Predicting social unrest events with hidden Markov models using GDELT | |
Reich et al. | Bayesian statistical methods | |
Peling et al. | Implementation of Data Mining To Predict Period of Students Study Using Naive Bayes Algorithm | |
CN110852856B (zh) | 一种基于动态网络表征的发票虚开识别方法 | |
CN104933622A (zh) | 一种基于用户和微博主题的微博流行度预测方法及系统 | |
CN106611375A (zh) | 一种基于文本分析的信用风险评估方法及装置 | |
CN110096575B (zh) | 面向微博用户的心理画像方法 | |
CN112132233A (zh) | 一种基于有效影响因子的服刑人员危险行为预测方法及系统 | |
CN104077417A (zh) | 社交网络中的人物标签推荐方法和系统 | |
Zhou et al. | Corporate communication network and stock price movements: insights from data mining | |
US20200090058A1 (en) | Model variable candidate generation device and method | |
CN112419029B (zh) | 类金融机构风险监控方法、风险模拟系统及存储介质 | |
CN109492097B (zh) | 一种企业新闻数据风险分类方法 | |
Li et al. | Lifecycle research of social media rumor refutation effectiveness based on machine learning and visualization technology | |
Hidayatillah et al. | Levels of political participation based on naive bayes classifier | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
Chołoniewski et al. | A calibrated measure to compare fluctuations of different entities across timescales | |
CN106202299A (zh) | 一种基于残疾人特征的残疾人权威用户推荐方法 | |
CN110209953A (zh) | 一种面向不确定性社会计算问题的计算方法 | |
CN111507528A (zh) | 一种基于cnn-lstm的股票长期趋势预测方法 | |
CN112487303B (zh) | 一种基于社交网络用户属性的主题推荐方法 | |
WO2020045107A1 (ja) | 評価更新装置、方法、及びプログラム | |
Seo et al. | Measuring News Sentiment of Korea Using Transformer | |
CN116128275A (zh) | 一种事件推演预测系统 | |
Alguliyev et al. | Weighted clustering for anomaly detection in big data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |