CN113159515B - 一种建设市场主体最优信息透明度区间的确定方法 - Google Patents

一种建设市场主体最优信息透明度区间的确定方法 Download PDF

Info

Publication number
CN113159515B
CN113159515B CN202110307200.1A CN202110307200A CN113159515B CN 113159515 B CN113159515 B CN 113159515B CN 202110307200 A CN202110307200 A CN 202110307200A CN 113159515 B CN113159515 B CN 113159515B
Authority
CN
China
Prior art keywords
index
information
transparency
market
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110307200.1A
Other languages
English (en)
Other versions
CN113159515A (zh
Inventor
丰景春
王龙宝
张可
薛松
蔡时雨
周清琰
李红艳
王婷
董灵莉
翟雨薇
邹磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202110307200.1A priority Critical patent/CN113159515B/zh
Publication of CN113159515A publication Critical patent/CN113159515A/zh
Application granted granted Critical
Publication of CN113159515B publication Critical patent/CN113159515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种建设市场主体最优信息透明度区间的确定方法,包括:求解出信息指标的文本相似度,进一步归纳指标,求得大类指标;求出归纳后的指标综合评价值,量化定性指标;分析赋予权重后的指标,求解建设市场主体的关联度,即为信息透明度;构建PLS政府监管成本与信息透明度模型,通过该模型计算得到政府监管成本视角下的建设市场主体最优信息透明度以及确定最优信息透明度区间。本发明为政府强制建设市场主体达到某一信息透明度提供了参考标准,提高了政府管理的科学性和合理性;构建了政府监管成本视角下建设市场主体最优信息透明度模型,为政府监管部门确定市场主体的最优信息透明度以及信息披露量等并采取相应的监管对策提供依据。

Description

一种建设市场主体最优信息透明度区间的确定方法
技术领域
本发明属于建筑工程管理领域,具体涉及一种政府监管成本视角下的建设市场主体最优信息透明度区间的确定方法。
背景技术
在互联网时代下,社会迅猛发展,随之带来的是信息广泛传播,并且信息容量暴增。在此背景下,政府监管情况备受关注。政府投资项目的监管成本是由政府投入大量的监管资源形成的,目的是让监管主体可以完成项目的一系列过程,包括初期立项、投资、中期建设和运营等过程。目前来看,为了保证项目建设的顺利进行,要求政府不断投入大量的资金,公共支出增长越来越多。政府将会进一步加大监管力度,构造政府监管成本—监管效益平衡状态,最终达到良好的监管效果。除此之外,信息透明度是政府实现有效监管的重要基础,政府会进一步强制建设领域的信息公开工作,加快建设诚信体系,项目信息共享专栏成立,最终建立信息公开平台,简化工作流程,实现“一站式”综合公开处理平台。
从信息公开的角度分析,信息公开要求各类行政机关、团体组织主动的公开相关信息内容,基于一定的法律法规形式,达到高效透明要求,信息公开程度的强弱可以由政府来把控全局,但是信息公开的内容并不是越多越好。
从政府监管成本的角度进行分析,政府管理的科学性和合理性的程度与监管成本和监管效益的成果相关,而目前,监管成本比较冗杂,主要原因是政府职责不清以及存在权责交叉的情况,引发了政府监管动力欠缺、监管方式科学性不足和监管效度不足的问题。
从政府监管成本与信息公开程度进行关联分析。政府付出巨大成本,但是仍然不可能达到信息完全透明状态,并且此类信息对政府进行监管的效用微弱。
综上所述,站在政府监管成本的角度上,如何有针对性地控制市场信息透明度,确定最优信息透明度,填补信息公开管理理论的不足,拓宽政府监管成本平衡选择的思路,完善信息透明度评价的应用方法,是需要解决的重要问题。
发明内容
发明目的:为了克服现有技术中存在的不足,提供一种政府监管成本视角下的建设市场主体最优信息透明度区间的确定方法,计算出建设市场主体信息透明度的同时,还能实现将成本和信息透明度关联起来,确定最优信息透明度及最优区间以提升政府监管效率和正常推进基于信息透明度的政府监管科学决策的方法。
技术方案:为实现上述目的,本发明提供一种建设市场主体最优信息透明度区间的确定方法,包括如下步骤:
S1:WMF-LDA模型求解出信息指标的文本相似度,进一步归纳指标,求得大类指标;
S2:加权集值统计模型求出归纳后的指标综合评价值,量化定性指标;
S3:分析赋予权重后的指标,求解建设市场主体的关联度,即为信息透明度;
S4:构建PLS政府监管成本与信息透明度模型,通过该模型计算得到政府监管成本视角下的建设市场主体最优信息透明度以及确定最优信息透明度区间。
进一步地,所述步骤S1具体为:
A1:对原始的指标集合进行分词处理,将指标内容分开,形成不同的词语;
A2:训练指标向量模型word2vec,将指标的大类词语和近义词语进行统一化的映射;利用word2vec模型,将指标的大类词语和近义词语进行统一化的映射是在语义层面上进行操作,同时,针对映射后的指标进行词性筛选依据其词性中的动词和名词的影响程度操作,保留其中的名词和动词,过滤其他词性的词语;
A3:将映射后的大类指标集合进行词性筛选;
A4:进行WMF-LDA主题建模操作;
A5:进行文本聚类及相似度度量。
在本发明中披露了基于WMF-LDA模型指标分类处理,由29个建设市场主体信息透明度评价指标小分类指标汇总成8大类指标,具体的指标内容不变,经过汇总后,指标内容更加明确,指标之间的界定更加清晰,解决了原始指标可能存在的平行、交错和语义重复问题,得到信息透明度评价指标的最终归类结果,最终可以根据大类指标进行下一步的计算。
所述步骤A1中分词处理的方式为计算原始的词语相似度:
用余弦夹角公式计算出原始的词语相似度:
Figure BDA0002988323610000021
其中,N代表某一个指标中的所有词语;W代表被观察到的词项数量。
进一步地,所述步骤A4中WMF-LDA主题建模操作的过程为:
①将第m个指标采用如下公式表示:
Figure BDA0002988323610000022
Figure BDA0002988323610000031
式中,K代表提前设定的指标名称数量;m代表整个指标集合中所有的指标数量;n表示整个指标中所有的全部词语;W表示可以被查看的指标内容;Z表示选定的某一个词语所属于的某一个指标;θ表示指标名称的分布;
Figure BDA0002988323610000039
表示指标名称—指标内容的分布;α表示θ分布的超参数;β表示分布的超参数;
②生成第m个指标的第n个词语
第m个指标的第n个词语的生成算法步骤如下:
1、将α设定为超参数,获取指标名称的概率分布θm
2、获取指标名称的概率分布θm后,利用多项式分布来获得该词属于的指标名称Zm,n
3、将β设定为超参数,根据上面获得的指标名称Zm,n,获取指标名称—指标内容概率分布
Figure BDA0002988323610000032
4、得到指标名称—指标内容分布
Figure BDA0002988323610000033
利用多项式分布获得词语Wm,n
5、循环步骤①—④Nm次,可生成Nm次第m个指标。
6、循环步骤①—⑤M次,可生成M个指标。
根据上述模型的计算步骤可知,有两个主参数α和β需要提前获知。参阅大量文献后可知,一般取其经验值50/K和0.01,故本发明也采取相同数值。除此之外,模型还需要求解Zm,n,所以可根据已经得到的具体内容的指标分布,用倒推的方法得到具体的参数分布表
首先基于Gibbs采样方式,更新当前指标内容的指标概率,过滤已经存在的指标分布,将词语在不同指标之下的概率进行重新分配估计,即:
Figure BDA0002988323610000034
式中,
Figure BDA0002988323610000035
表示已经去除下标是i的指标内容—指标中出现词语t的数量,
Figure BDA0002988323610000036
表示已经去除下标是i的指标内容—指标中出现指标k的次数,其他符号含义同上;
③计算得到指标层面的概率分布
指标内容—指标概率分布计算公式为:
Figure BDA0002988323610000037
Figure BDA0002988323610000038
④文本相似度计算
经计算后,得到了关于指标层面的概率分布,所以文本相似度的判定标准可以选择距离Dkl。但是距离Dkl是非对称的,故本文采用的文本相似度计算公式是经过改进的距离Dkl公式,确定判定标准选择距离Dkl,其计算公式如下:
Figure BDA0002988323610000041
Figure BDA0002988323610000042
式中,d1,d2表示指标内容—指标概率分布,Dkl表示两者之间的距离,其他符号含义同上;
最终经过计算后,可以由29个建设市场主体信息透明度评价小分类指标汇总成8大类指标。
进一步地,所述步骤A5中采用F值对文本聚类结果的准确性进行判断,即聚类j所属类别i的概率和聚类j所属类别i的概率,其计算公式分别为:
Figure BDA0002988323610000043
式中,nij表示类别i的内容数量,其聚类结果为j;ni表示类别为i的内容数量;nj为聚类结果为j的内容数量;
计算其对应F值:
Figure BDA0002988323610000044
Figure BDA0002988323610000045
式中,N表示整体指标中包括的内容分类数量;n表示指标集合中的内容数量。如果全局聚类的F值越大,那么聚类效果越好,即利用的文本相似度计算公式的计算效果越好。
进一步地,所述步骤S2中披露了加权集值统计模型量化定性指标的方法,采用该方法改善了过去仅仅依赖专家打分的做法,使得指标的评判更为科学合理,具体包括如下步骤:
B1:邀请Z位相关行业的专家对指标具体内容进行打分,规定其的打分形式为某一区间,专家打分的数字越大,代表指标内容的重要程度越大,打分的数字区域越小,代表专家对这个问题的把握程度越大;
B2:利用公式
Figure BDA0002988323610000046
计算专家权重,其中
Figure BDA0002988323610000047
B3:利用公式
Figure BDA0002988323610000048
和Z位专家权重统计数据得出:
Figure BDA0002988323610000051
式中:b1,b2,…,bL,bL+1是各个估计区间的端点从小到大排列的一个序列,L为这一序列构成的区间个数,a1,a2,…,aL是专家给出评价区间中包含b1,b2,…,bL,bL+1的专家权重之和;
B4:将求解的值代入某一个指标内容的评价值方程
Figure BDA0002988323610000052
依次计算出每个指标内容的综合评价值;
B5:利用方差计算公式
Figure BDA0002988323610000053
和标准差公式
Figure BDA0002988323610000054
分别计算出方差和标准差,代入可信程度方程
Figure BDA0002988323610000055
计算,各个专家统计值的方差、标准差越小,专家的评估结果越准确,评估值的可信程度就越大;
B6:将Ei(r)值进行相加得到大类指标的量化数值。
进一步地,所述步骤S3中提供了一种构建灰色关联分析模型计算透明度的方法,具体包括如下步骤:
C1:将理想情况设定为政府可以得知关于建设市场主体的所有信息内容,将建设市场主体的信息内容归结为本文构建的透明度评价指标,将在理想情况下政府得知建设市场主体的信息指标评价值作为参考数列,即:
X′o=(X′o(1),X′o(2),····,X′o(m))
式中,m为指标的个数,X'o(1),X'o(2),…,X'o(m)的取值即为3.2.1中定性指标量化结果;
C2:将已知的公开数据与理想情况下的公开数据进行文本相似度计算,采用余弦夹角公式
Figure BDA0002988323610000056
进行计算,其中N为理想条件下的所有内容,W为某个市场主体信息公开的内容;
则某个市场主体指标内容的量化结果为:
X′m=Ei(r)m×sim(ω12)m
式中,Ei(r)m为理想情况下的指标内容综合评价值;
将某个市场主体量化后的所有数据,建立原始数据矩阵,即比较数列矩阵:
Figure BDA0002988323610000061
式中,X'1(m),X'1(m),...,X'1(m)为第m个指标的信息公开数据,上式为所有指标的信息公开数据矩阵的转置矩阵;
C3:对所有的指标数据进行无量纲化处理,采用公式
Figure BDA0002988323610000062
其中i=0,1,2……,n;k=1,2……,m,形成矩阵:
Figure BDA0002988323610000063
C4:逐个计算比较序列与参考序列对应的元素的绝对差值,即|x0(k)-xi(k)|(i=0,1,2……,n;k=1,2……,m.),确定
Figure BDA0002988323610000064
为两级最小差,
Figure BDA0002988323610000065
为两级最大差;
C5:计算关联系数:
Figure BDA0002988323610000066
式中:ρ代表分辨系数,取值范围为(0,1),取值的大小代表关联系数之间的差异和区分能力,值越大,差异和区分能力越大,一般取0.5;
C6:计算关联度,即信息透明度值:
Figure BDA0002988323610000067
式中,结果取值范围在(0,1)。
进一步地,所述步骤S4提供了一种利用PLS(偏最小二乘法)求解信息透明度的方法,将信息的内容与监管的成本结合考虑,提取两者之间的主要成分,构建偏最小二乘回归方程,求解方程并得到最优透明度,具体包括如下步骤:
D1:将定性指标量化后的数据作为自变量,监管成本节省和监管成本支出之差作为因变量,即净节省成本作为因变量,在MR=MC处,取得净节省成本最大值,利用MATLAB软件,构造几个自变量的简单相关系数矩阵;
D2:根据标准化以后的原始数据矩阵来计算最大特征矩阵所对应的特征向量并且计算提取自变量主成分;
D3:构建变量
Figure BDA0002988323610000071
关于成分t1的回归模型;
D4:求得成本节省以及成本支出两段与指标内容回归模型;
D5:通过步骤D4的回归模型进行最优信息透明度点估计;
D6:进行最优信息透明度区间估计。
进一步地,所述步骤D1具体为:构造的标准化后的数据矩阵分别为:
Figure BDA0002988323610000072
Figure BDA0002988323610000073
式中,i∈Ωm,j∈Ωl
Figure BDA0002988323610000074
Figure BDA0002988323610000075
X1代表自变量矩阵,Y1代表因变量矩阵。
进一步地,所述步骤D2中提取主成分的具体实现过程为:首先,构建拉格朗日函数求得
Figure BDA0002988323610000076
其次,求出求矩阵对应的特征向量Wk
Figure BDA0002988323610000077
对应于(Xk TYkYk TXk)的最大特征值,计算得到的自变量主成分:
Figure BDA0002988323610000078
同时,交叉有效性为
Figure BDA0002988323610000079
交叉有效性检验需要逐步进行,如果在第h步满足比值
Figure BDA00029883236100000710
则模型达到要求,可停止提取成分;若
Figure BDA00029883236100000711
则表示第h步具有显著的边际贡献,应继续第h+1步计算。
进一步地,所述步骤D3中
Figure BDA00029883236100000712
关于成分t1的具体计算公式为:
Figure BDA00029883236100000713
Figure BDA00029883236100000714
则偏最小二乘回归方程式yj=aj1x1+...+ajmxm,(j=1,2,...,m)。
进一步地,所述步骤D4中成本节省以及成本支出两段与指标内容回归模型列式如下:将E点之前的回归方程与E点之后的回归方程联立求解,列式如下:
YN=aj1X1+aj2X2+…+ajNXN
EYN=aej1X1+aej2X2+…+aejNXN
解出信息评价值为:
Figure BDA00029883236100000715
分别代入成本支出方程与成本节省方程中,求得:
Figure BDA00029883236100000716
Figure BDA00029883236100000717
进一步地,所述步骤D5具体为:
将多元线性回归方程联立计算,分别提取第一次,第二次……第K次自变量主成分,求得K个回归方程,利用K组数据可以进行点估计;现在需要求解K个回归方程,且每次提取的主成分个数依次为1,2,3……,K个,则每一次最优信息透明度评价值为:
Figure BDA0002988323610000081
Figure BDA0002988323610000082
……
Figure BDA0002988323610000083
利用灰色关联分析法透明度评价模型,计算出关联度,即为信息透明度。已知每次提取不同成分时求解的最优信息透明度都是在净节省成本曲线峰值处,即净节省成本最大处,按照数学概率论统计方法,此时求得的K个信息透明度值可以构成正态分布模型,所以点估计即为K个信息透明度平均值。上述过程利用MATLAB,最终计算得到信息透明度以及净节省的成本。
进一步地,所述步骤D6具体为:
在所有信息透明度方差已知的情况下,政府已经掌握了建设市场主体的信息透明度值和所有建设市场主体的信息透明度平均值,此时只需要采用检验统计量
Figure BDA0002988323610000084
计算出最优区间:
Figure BDA0002988323610000085
在方差未知的情况下,政府没有掌握到信息透明度值,即在没有掌握到所有的主体信息透明度基础上,可以用样本标准差来对整体的标准差进行无偏估计,即用某几家建设市场主体的信息透明度标准差来代替整体的标准差,此时采用检验统计量
Figure BDA0002988323610000086
计算最优区间:
Figure BDA0002988323610000087
本发明采用WMF-LDA的主题模型方法,同时把词性和词语的信息进行结合,利用不同的领域差异性,将建设市场主体信息透明度指标进行了归类,改进了传统的LDA模型在文本相似度计算领域方面的应用,并且集值统计模型对归纳后的指标进行综合评价,赋予相关权重,改善了过去仅仅依赖专家打分的做法,使得指标的评判更为科学合理;进而利用灰色关联模型对赋予权重后的指标进行分析,求解出建设市场主体的信息透明度;最后构建PLS模型,将信息的内容与监管的成本结合考虑,提取两者之间的主要成分,构建偏最小二乘回归方程,求解方程并得到最优透明度。通过该方法为政府监管部门确定市场主体的最优信息透明度以及信息披露量等提供依据。
有益效果:本发明与现有技术相比,利用灰色关联度理论判定信息透明度高低,为政府强制建设市场主体达到某一信息透明度提供了参考标准,并且可以合理有效的评价信息透明度等级,提高了政府管理的科学性和合理性;构建了政府监管成本视角下建设市场主体最优信息透明度模型,为政府监管部门确定市场主体的最优信息透明度以及信息披露量等并采取相应的监管对策提供依据。
附图说明
图1为本发明方法的流程框架图;
图2为本发明方法的整体框架结构设计图;
图3为本发明方法中基于信息透明度的特殊性监管成本支出组成图;
图4为本发明方法中基于信息透明度的特殊性监管成本节省组成图;
图5为本发明方法中WMF-LDA主题模型流程图;
图6为本发明方法中PLS模型下信息透明度与政府分类成本关系图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明提供一种建设市场主体最优信息透明度区间的确定方法,包括如下步骤:
S1:WMF-LDA模型求解出信息指标的文本相似度,进一步归纳指标,求得大类指标;
S2:加权集值统计模型求出归纳后的指标综合评价值,量化定性指标;
S3:分析赋予权重后的指标,求解建设市场主体的关联度,即为信息透明度;
S4:构建PLS政府监管成本与信息透明度模型,通过该模型计算得到政府监管成本视角下的建设市场主体最优信息透明度以及确定最优信息透明度区间。
步骤S1具体为:
A1:对原始的指标集合进行分词处理,将指标内容分开,形成不同的词语;
A2:训练指标向量模型word2vec,将指标的大类词语和近义词语进行统一化的映射;利用word2vec模型,将指标的大类词语和近义词语进行统一化的映射是在语义层面上进行操作,同时,针对映射后的指标进行词性筛选依据其词性中的动词和名词的影响程度操作,保留其中的名词和动词,过滤其他词性的词语;
A3:将映射后的大类指标集合进行词性筛选;
A4:进行WMF-LDA主题建模操作;
A5:进行文本聚类及相似度度量。
在本发明中披露了基于WMF-LDA模型指标分类处理,由29个建设市场主体信息透明度评价指标小分类指标汇总成8大类指标,具体的指标内容不变,经过汇总后,指标内容更加明确,指标之间的界定更加清晰,解决了原始指标可能存在的平行、交错和语义重复问题,得到信息透明度评价指标的最终归类结果,最终可以根据大类指标进行下一步的计算。
步骤A1中分词处理的方式为计算原始的词语相似度:
用余弦夹角公式计算出原始的词语相似度:
Figure BDA0002988323610000101
其中,N代表某一个指标中的所有词语;W代表被观察到的词项数量。
步骤A4中WMF-LDA主题建模操作的过程为:
①将第m个指标采用如下公式表示:
Figure BDA0002988323610000102
式中,K代表提前设定的指标名称数量;m代表整个指标集合中所有的指标数量;n表示整个指标中所有的全部词语;W表示可以被查看的指标内容;Z表示选定的某一个词语所属于的某一个指标;θ表示指标名称的分布;
Figure BDA0002988323610000105
表示指标名称—指标内容的分布;α表示θ分布的超参数;β表示分布的超参数;
②生成第m个指标的第n个词语
第m个指标的第n个词语的生成算法步骤如下:
1、将α设定为超参数,获取指标名称的概率分布θm
2、获取指标名称的概率分布θm后,利用多项式分布来获得该词属于的指标名称Zm,n
3、将β设定为超参数,根据上面获得的指标名称Zm,n,获取指标名称—指标内容概率分布
Figure BDA0002988323610000103
4、得到指标名称—指标内容分布
Figure BDA0002988323610000104
利用多项式分布获得词语Wm,n
5、循环步骤①—④Nm次,可生成Nm次第m个指标。
6、循环步骤①—⑤M次,可生成M个指标。
根据上述模型的计算步骤可知,有两个主参数α和β需要提前获知。参阅大量文献后可知,一般取其经验值50/K和0.01,故本发明也采取相同数值。除此之外,模型还需要求解Zm,n,所以可根据已经得到的具体内容的指标分布,用倒推的方法得到具体的参数分布表
首先基于Gibbs采样方式,更新当前指标内容的指标概率,过滤已经存在的指标分布,将词语在不同指标之下的概率进行重新分配估计,即:
Figure BDA0002988323610000111
式中,
Figure BDA0002988323610000112
表示已经去除下标是i的指标内容—指标中出现词语t的数量,
Figure BDA0002988323610000113
表示已经去除下标是i的指标内容—指标中出现指标k的次数,其他符号含义同上;
③计算得到指标层面的概率分布
指标内容—指标概率分布计算公式为:
Figure BDA0002988323610000114
Figure BDA0002988323610000115
④文本相似度计算
经计算后,得到了关于指标层面的概率分布,所以文本相似度的判定标准可以选择距离Dkl。但是距离Dkl是非对称的,故本文采用的文本相似度计算公式是经过改进的距离Dkl公式,确定判定标准选择距离Dkl,其计算公式如下:
Figure BDA0002988323610000116
Figure BDA0002988323610000117
式中,d1,d2表示指标内容—指标概率分布,Dkl表示两者之间的距离,其他符号含义同上;
最终经过计算后,可以由29个建设市场主体信息透明度评价小分类指标汇总成8大类指标。
步骤A5中采用F值对文本聚类结果的准确性进行判断,即聚类j所属类别i的概率和聚类j所属类别i的概率,其计算公式分别为:
Figure BDA0002988323610000118
式中,nij表示类别i的内容数量,其聚类结果为j;ni表示类别为i的内容数量;nj为聚类结果为j的内容数量;
计算其对应F值:
Figure BDA0002988323610000119
Figure BDA00029883236100001110
式中,N表示整体指标中包括的内容分类数量;n表示指标集合中的内容数量。如果全局聚类的F值越大,那么聚类效果越好,即利用的文本相似度计算公式的计算效果越好。
步骤S2中披露了加权集值统计模型量化定性指标的方法,采用该方法改善了过去仅仅依赖专家打分的做法,使得指标的评判更为科学合理,具体包括如下步骤:
B1:邀请Z位相关行业的专家对指标具体内容进行打分,规定其的打分形式为某一区间,专家打分的数字越大,代表指标内容的重要程度越大,打分的数字区域越小,代表专家对这个问题的把握程度越大;
B2:利用公式
Figure BDA0002988323610000121
计算专家权重,其中
Figure BDA0002988323610000122
B3:利用公式
Figure BDA0002988323610000123
和Z位专家权重统计数据得出:
Figure BDA0002988323610000124
式中:b1,b2,…,bL,bL+1是各个估计区间的端点从小到大排列的一个序列,L为这一序列构成的区间个数,a1,a2,…,aL是专家给出评价区间中包含b1,b2,…,bL,bL+1的专家权重之和;
B4:将求解的值代入某一个指标内容的评价值方程
Figure BDA0002988323610000125
依次计算出每个指标内容的综合评价值;
B5:利用方差计算公式
Figure BDA0002988323610000126
和标准差公式
Figure BDA0002988323610000127
分别计算出方差和标准差,代入可信程度方程
Figure BDA0002988323610000128
计算,各个专家统计值的方差、标准差越小,专家的评估结果越准确,评估值的可信程度就越大;
B6:将Ei(r)值进行相加得到大类指标的量化数值。
步骤S3中提供了一种构建灰色关联分析模型计算透明度的方法,具体包括如下步骤:
C1:将理想情况设定为政府可以得知关于建设市场主体的所有信息内容,将建设市场主体的信息内容归结为本文构建的透明度评价指标,将在理想情况下政府得知建设市场主体的信息指标评价值作为参考数列,即:
X′o=(X′o(1),X′o(2),····,X′o(m))
式中,m为指标的个数,X'o(1),X'o(2),…,X'o(m)的取值即为3.2.1中定性指标量化结果;
C2:将已知的公开数据与理想情况下的公开数据进行文本相似度计算,采用余弦夹角公式
Figure BDA0002988323610000131
进行计算,其中N为理想条件下的所有内容,W为某个市场主体信息公开的内容;
则某个市场主体指标内容的量化结果为:
X′m=Ei(r)m×sim(ω12)m
式中,Ei(r)m为理想情况下的指标内容综合评价值;
将某个市场主体量化后的所有数据,建立原始数据矩阵,即比较数列矩阵:
Figure BDA0002988323610000132
式中,X'1(m),X'1(m),...,X'1(m)为第m个指标的信息公开数据,上式为所有指标的信息公开数据矩阵的转置矩阵;
C3:对所有的指标数据进行无量纲化处理,采用公式
Figure BDA0002988323610000133
其中i=0,1,2……,n;k=1,2……,m,形成矩阵:
Figure BDA0002988323610000134
C4:逐个计算比较序列与参考序列对应的元素的绝对差值,即|x0(k)-xi(k)|(i=0,1,2……,n;k=1,2……,m.),确定
Figure BDA0002988323610000135
为两级最小差,
Figure BDA0002988323610000136
为两级最大差;
C5:计算关联系数:
Figure BDA0002988323610000137
式中:ρ代表分辨系数,取值范围为(0,1),取值的大小代表关联系数之间的差异和区分能力,值越大,差异和区分能力越大,一般取0.5;
C6:计算关联度,即信息透明度值:
Figure BDA0002988323610000141
式中,结果取值范围在(0,1)。
步骤S4提供了一种利用PLS(偏最小二乘法)求解信息透明度的方法,将信息的内容与监管的成本结合考虑,提取两者之间的主要成分,构建偏最小二乘回归方程,求解方程并得到最优透明度,具体包括如下步骤:
D1:将定性指标量化后的数据作为自变量,监管成本节省和监管成本支出之差作为因变量,即净节省成本作为因变量,在MR=MC处,取得净节省成本最大值,利用MATLAB软件,构造几个自变量的简单相关系数矩阵;
D2:根据标准化以后的原始数据矩阵来计算最大特征矩阵所对应的特征向量并且计算提取自变量主成分;
D3:构建变量
Figure BDA0002988323610000142
关于成分t1的回归模型;
D4:求得成本节省以及成本支出两段与指标内容回归模型;
D5:通过步骤D4的回归模型进行最优信息透明度点估计;
D6:进行最优信息透明度区间估计。
步骤D1具体为:构造的标准化后的数据矩阵分别为:
Figure BDA0002988323610000143
Figure BDA0002988323610000144
式中,i∈Ωm,j∈Ωl
Figure BDA0002988323610000145
Figure BDA0002988323610000146
X1代表自变量矩阵,Y1代表因变量矩阵。步骤D2中提取主成分的具体实现过程为:首先,构建拉格朗日函数求得
Figure BDA0002988323610000147
其次,求出求矩阵对应的特征向量Wk
Figure BDA0002988323610000148
对应于(Xk TYkYk TXk)的最大特征值,计算得到的自变量主成分:
Figure BDA0002988323610000149
同时,交叉有效性为
Figure BDA00029883236100001410
交叉有效性检验需要逐步进行,如果在第h步满足比值
Figure BDA00029883236100001411
则模型达到要求,可停止提取成分;若
Figure BDA00029883236100001412
则表示第h步具有显著的边际贡献,应继续第h+1步计算。
步骤D3中
Figure BDA00029883236100001413
关于成分t1的具体计算公式为:
Figure BDA00029883236100001414
Figure BDA00029883236100001415
则偏最小二乘回归方程式yj=aj1x1+...+ajmxm,(j=1,2,...,m)。
步骤D4中成本节省以及成本支出两段与指标内容回归模型列式如下:将E点之前的回归方程与E点之后的回归方程联立求解,列式如下:
YN=aj1X1+aj2X2+…+ajNXN
EYN=aej1X1+aej2X2+…+aejNXN
解出信息评价值为:
Figure BDA0002988323610000151
分别代入成本支出方程与成本节省方程中,求得:
Figure BDA0002988323610000152
Figure BDA0002988323610000153
步骤D5具体为:
将多元线性回归方程联立计算,分别提取第一次,第二次……第K次自变量主成分,求得K个回归方程,利用K组数据可以进行点估计;现在需要求解K个回归方程,且每次提取的主成分个数依次为1,2,3……,K个,则每一次最优信息透明度评价值为:
Figure BDA0002988323610000154
Figure BDA0002988323610000155
……
Figure BDA0002988323610000156
利用灰色关联分析法透明度评价模型,计算出关联度,即为信息透明度。已知每次提取不同成分时求解的最优信息透明度都是在净节省成本曲线峰值处,即净节省成本最大处,按照数学概率论统计方法,此时求得的K个信息透明度值可以构成正态分布模型,所以点估计即为K个信息透明度平均值。上述过程利用MATLAB,最终计算得到信息透明度以及净节省的成本。
步骤D6具体为:
在所有信息透明度方差已知的情况下,政府已经掌握了建设市场主体的信息透明度值和所有建设市场主体的信息透明度平均值,此时只需要采用检验统计量
Figure BDA0002988323610000157
计算出最优区间:
Figure BDA0002988323610000158
在方差未知的情况下,政府没有掌握到信息透明度值,即在没有掌握到所有的主体信息透明度基础上,可以用样本标准差来对整体的标准差进行无偏估计,即用某几家建设市场主体的信息透明度标准差来代替整体的标准差,此时采用检验统计量
Figure BDA0002988323610000159
计算最优区间:
Figure BDA00029883236100001510
基于上述方案,本实施例中将上述方案应用于确定政府监管成本视角下建设市场主体最优信息透明度区间,经过前文分析可知,如何找到监管成本支出和监管成本节省之间的平衡点是本发明研究的重点,从附图2可以看出,首先应当对各类成本重新分类,确定特殊性监管成本支出和特殊性政府监管成本节省。
本实施例依据附图3和附图4所示的组成,随机选取的5家企业,根据来自建设市场主体信用公开信用信息平台上的企业公开数据,列出各类成本与各类指标关联,其中损失、行政、现场和舆论均为成本支出,透明度与风险均为成本节省。基于本文构建的模型,对现实情况下的政府监管成本视角下的建设市场主体最优信息透明度进行计算,得到了具体的实际值,验证了模型的正确性和可推广性。
接下来,利用本文构建的WMF-LDA模型进行计算,对上述的指标内容进行分类处理,由29个小分类指标汇总成8大类指标,处理流程见附图5,将8个大类指标视为一级指标,将29个小分类指标视为二级指标,具体的指标内容不变,经过汇总后,指标内容更加明确,指标之间的界定更加清晰,解决了原始指标可能存在的平行、交错和语义重复问题,得到信息透明度评价指标的最终归类结果,最终可以根据大类指标进行下一步的计算。另外,对指标的分类效果进行评判,计算查准率p(i,j)和召回率R(i,j),本实施例中已知关于上述指标内容的共有470个,一共被分为八大类别,关于第一类指标基础信息,有50个文档符合相关定义,系统一共检索了75个文档,只有45个符合定义,那么查准率
Figure BDA0002988323610000161
召回率
Figure BDA0002988323610000162
同理计算其他类别的F值,分别为0.7、0.72、0.71、0.7、0.7、0.72、0.74,最终计算得到全局聚类的F值为0.72。分类结果较好,可以进行下一步计算。
上述WMF-LDA模型归纳为的八大指标分别为基础信息、成员信息、责任与目标、结构框架、履职情况、奖惩考核、战略活动与重大事项,以基础信息进行加权集值统计模型指标量化为示例:
本实施例中一共邀请十位相关行业的专家对具体内容进行打分,规定其的打分形式为某一区间,专家打分的数字越大,代表指标内容的重要程度越大,打分的数字区域越小,代表专家对这个问题的把握程度越大。将专家的打分结果进行量化在[0,10]区间上,左右均为闭区间,允许出现0与10分的结果。第一个指标的指标内容共有7个,并且7个指标内容不存在重复性,基础信息指标内容专家打分的具体结果。根据专家给出的判断范围的大小来确定专家的权重,利用公式
Figure BDA0002988323610000163
计算专家权重,其中
Figure BDA0002988323610000164
利用公式
Figure BDA0002988323610000165
Figure BDA0002988323610000166
和专家权重的数据,可以得出:
Figure BDA0002988323610000171
由上式可知b1=3,b2=5,b3=7,b4=7.5,b5=8,b6=8.3,b7=9,b8=10,L为7,a1=0.05,a2=0.15,a3=0.53,a4=0.67,a5=0.73,a6=0.88,a7=0.13。
将求解的值代入公式
Figure BDA0002988323610000172
计算出指标内容J1的综合评价值为9.0779。其他指标内容的计算过程同J1。同时利用方差计算公式
Figure BDA0002988323610000173
Figure BDA0002988323610000174
和标准差公式
Figure BDA0002988323610000175
分别计算出方差和标准差,代入可信程度方程
Figure BDA0002988323610000176
计算,求出指标量化和可信程度结果。可以发现,可信程度均达到0.9以上,验证了加权专家评分模型的合理性,并且无需进行二次打分。由于基础信息由指标内容构成,所以相加得到基础信息的量化结果,即为43.377。
同理,将其他七大类指标按照如上方法进行量化以及相加处理,最终计算出所有指标额综合评价值。
根据关联系数计算公式,利用综合评价值与各个指标内容进行计算:
选取甲公司作为代表,将甲公司信息内容与理想情况信息内容进行汇总整理,在理想情况下,政府得知建设市场主体的信息指标评价值可以作为参考数列,即:X'o=(X'o(1),X'o(2),····,X'o(m)),式中,m为指标的个数,X'o(1),X'o(2),····,X'o(m)的取值即为定性指标量化结果。
收集建设市场主体信息公开数据,将已知的公开数据与理想情况下的公开数据进行文本相似度计算,采用余弦夹角公式
Figure BDA0002988323610000177
进行计算,其中N为理想条件下的所有内容,W为某个市场主体信息公开的内容。
某个市场主体指标内容的量化结果为:X'm=Ei(r)m×sim(ω12)m,式中,Ei(r)m为理想情况下的指标内容综合评价值。
将某个市场主体指标内容的量化结果进行相加计算,得到比较序列矩阵,则比较序列矩阵为:
Figure BDA0002988323610000181
式中,X'1(m),X'1(m),...,X'1(m)为第m个指标的信息公开数据,上式为所有指标的信息公开数据矩阵的转置矩阵。
确定
Figure BDA0002988323610000182
为两级最小差,即0.0881,
Figure BDA0002988323610000183
为两级最大差,即0.7942。
计算关联系数:
Figure BDA0002988323610000184
Figure BDA0002988323610000185
式中:ρ代表分辨系数,取值范围为(0,1),取值的大小代表关联系数之间的差异和区分能力,值越大,差异和区分能力越大,本实施例取0.5。
此外,第一位关联系数需要归一化处理,利用公式
Figure BDA0002988323610000186
计算出指标关联度:
Figure BDA0002988323610000187
即甲企业的关联度为0.5775。
同理,重复上述甲企业计算关联度的过程,分别计算乙、丙、丁、戊企业的灰色关联度,即为建设市场主体的信息透明度,结果取值范围在(0,1)。
关于PLS模型信息透明度求解,如附图6所示,利用政府成本支出、成本节省与信息透明度取值,基于PLS模型,将信息透明度取值作为自变量,政府成本支出和政府成本节省分别作为因变量,利用MATLAB软件,构造这8个变量的简单相关系数矩阵;然后,根据标准化以后的原始数据矩阵来计算最大特征矩阵所对应的特征向量并且计算主成分,计算得应该提出的成分个数为4个,交叉的有效性为-0.280761;求得单位特征向量Wk
Figure BDA0002988323610000188
的取值;成分t1建立的偏最小二乘回归模型为:
Figure BDA0002988323610000189
Figure BDA00029883236100001810
Figure BDA00029883236100001811
求得成本节省与指标内容回归模型为:y=1090.4x1+656.41x2+900.8x3+678.76x4+1942.7x5-15.647,同理,成本支出两段与指标内容回归模型分别为:
y=100.4x1+621.41x2+1089x3+878.98x4+943.7x5+198.576
y=20.56x1+446.21x2+964x3+523.41x4+841.3x5+201.45
观察系数可以发现,对成本节省的影响程度从大到小排列的指标分别为:重大事项,基础信息,成员信息,奖惩项目和责任目标。对成本支出的影响程度从大到小的指标分别为:成员信息,重大事项,责任目标,奖惩考核和基础信息。
对模型精度进行检验,即对所有的数据点绘制预测图。在这个预测图上,检验的值在实际值附近运动,且求得R2大于等于0.9,拟合程度满足要求,方程均有效。
最后是最优信息透明度点估计和区间估计:
本实施例中首先绘制信息透明度与政府监管分类成本图,一条为信息透明度与政府成本支出关系曲线,另一条为信息透明度与政府成本节省关系曲线,将多元线性回归方程联立计算,利用MATLAB,计算得到信息透明度为0.714,此时政府成本支出为1100万,政府成本节省为1490万,则净节省的成本为390万元;其次,根据已经计算出来的数据,可以得知信息透明度在不同多元线性回归方程计算下,可以得到不同的最佳值,其服从于正态分布,且为小样本。用Z检验量来构建区间。本实施例中令置信系数为0.05,则置信区间为0.95。根据公式
Figure BDA0002988323610000191
直接查表带入数值,可以求出置信区间为(0.695,0.733)。该结果表明,最优信息透明度区间在0.695到0.733之间,意味着信息披露的百分比大概在百分之70左右,具体的披露内容应该按照信息的重要程度进行排序选择,取前面百分之70的信息披露内容。
根据以上实施例可知,本发明实现了确定政府监管成本视角下的建设市场主体最优信息透明度区间的获取。本发明采用WMF-LDA的主题模型方法,同时把词性和词语的信息进行结合,利用不同的领域差异性,将建设市场主体信息透明度指标进行了归类,改进了传统的LDA模型在文本相似度计算领域方面的应用,并且集值统计模型对归纳后的指标进行综合评价,赋予相关权重,改善了过去仅仅依赖专家打分的做法,使得指标的评判更为科学合理;进而利用灰色关联模型对赋予权重后的指标进行分析,求解出建设市场主体的信息透明度;最后构建PLS模型,将信息的内容与监管的成本结合考虑,提取两者之间的主要成分,构建偏最小二乘回归方程,求解方程并得到最优透明度。通过该方法为政府监管部门确定市场主体的最优信息透明度以及信息披露量等提供依据。

Claims (9)

1.一种建设市场主体最优信息透明度区间的确定方法,其特征在于,包括如下步骤:
S1:求解出信息指标的文本相似度,进一步归纳指标,求得大类指标;
S2:求出归纳后的指标综合评价值,量化定性指标;
S3:分析赋予权重后的指标,求解建设市场主体的关联度,即为信息透明度;
S4:构建PLS政府监管成本与信息透明度模型,通过该模型计算得到政府监管成本视角下的建设市场主体最优信息透明度以及确定最优信息透明度区间;
所述步骤S3具体包括如下步骤:
Cl:将理想情况设定为政府可以得知关于建设市场主体的所有信息内容,将建设市场主体的信息内容归结为构建的透明度评价指标,将在理想情况下政府得知建设市场主体的信息指标评价值作为参考数列,即:
X′o=(X′o(1),X′o(2),....,X′o(m))
式中,m为指标的个数,X′o(1),X′o(2),....,X′o(m)的取值即为3.2.1中定性指标量化结果;
C2:将已知的公开数据与理想情况下的公开数据进行文本相似度计算,采用余弦夹角公式
Figure FDA0003723053950000011
进行计算,其中N为理想条件下的所有内容,W为某个市场主体信息公开的内容;
则某个市场主体指标内容的量化结果为:
X′m=Ei(r)m×sim(ω1,ω2)m
式中,Ei(r)m为理想情况下的指标内容综合评价值;
将某个市场主体量化后的所有数据,建立原始数据矩阵,即比较数列矩阵:
Figure FDA0003723053950000012
式中,X′1(m),X′1(m),...,X′1(m)为第m个指标的信息公开数据,上式为所有指标的信息公开数据矩阵的转置矩阵;
C3:对所有的指标数据进行无量纲化处理,采用公式
Figure FDA0003723053950000013
其中i=0,1,2......,n;k=1,2......,m,形成矩阵:
Figure FDA0003723053950000021
C4:逐个计算比较序列与参考序列对应的元素的绝对差值,即|x0(k)-xi(k)|(i=0,1,2......,n;k=1,2......,m.),确定
Figure FDA0003723053950000022
为两级最小差,
Figure FDA0003723053950000023
为两级最大差;
C5:计算关联系数:
Figure FDA0003723053950000024
(i=1,2.3,...,p;j=1,2.3,...n)
式中:ρ代表分辨系数;
C6:计算关联度,即信息透明度值:
Figure FDA0003723053950000025
式中,结果取值范围在(0,1)。
2.根据权利要求1所述的一种建设市场主体最优信息透明度区间的确定方法,其特征在于,所述步骤S1具体为:
A1:对原始的指标集合进行分词处理,将指标内容分开,形成不同的词语;
A2:训练指标向量模型word2vec,将指标的大类词语和近义词语进行统一化的映射;
A3:将映射后的大类指标集合进行词性筛选;
A4:进行WMF-LDA主题建模操作;
A5:进行文本聚类及相似度度量。
3.根据权利要求2所述的一种建设市场主体最优信息透明度区间的确定方法,其特征在于,所述步骤A1中分词处理的方式为计算原始的词语相似度:
用余弦夹角公式计算出原始的词语相似度:
Figure FDA0003723053950000026
其中,N代表某一个指标中的所有词语;W代表被观察到的词项数量。
4.根据权利要求2所述的一种建设市场主体最优信息透明度区间的确定方法,其特征在于,所述步骤A4中WMF-LDA主题建模操作的过程为:
①将第m个指标采用如下公式表示:
Figure FDA0003723053950000031
式中,K代表提前设定的指标名称数量;m代表整个指标集合中所有的指标数量;n表示整个指标中所有的全部词语;W表示可以被查看的指标内容;Z表示选定的某一个词语所属于的某一个指标;θ表示指标名称的分布;
Figure FDA0003723053950000032
表示指标名称-指标内容的分布;α表示θ分布的超参数;β表示分布的超参数;
②生成第m个指标的第n个词语
首先基于Gibbs采样方式,更新当前指标内容的指标概率,过滤已经存在的指标分布,将词语在不同指标之下的概率进行重新分配估计,即:
Figure FDA0003723053950000033
式中,
Figure FDA0003723053950000034
表示已经去除下标是i的指标内容-指标中出现词语t的数量,
Figure FDA0003723053950000035
表示已经去除下标是i的指标内容-指标中出现指标k的次数,其他符号含义同上;
③计算得到指标层面的概率分布
指标内容-指标概率分布计算公式为:
Figure FDA0003723053950000036
Figure FDA0003723053950000037
④文本相似度计算
确定判定标准选择距离Dkl,其计算公式如下:
Figure FDA0003723053950000038
Figure FDA0003723053950000039
式中,d1,d2表示指标内容-指标概率分布,Dkl表示两者之间的距离,其他符号含义同上;
最终经过计算后,由建设市场主体信息透明度评价小分类指标汇总成大类指标。
5.根据权利要求2所述的一种建设市场主体最优信息透明度区间的确定方法,其特征在于,所述步骤A5中采用F值对文本聚类结果的准确性进行判断,即聚类j所属类别i的概率和聚类j所属类别i的概率,其计算公式分别为:
Figure FDA0003723053950000041
式中,nij表示类别i的内容数量,其聚类结果为j;ni表示类别为i的内容数量;nj为聚类结果为j的内容数量;
计算其对应F值:
Figure FDA0003723053950000042
Figure FDA0003723053950000043
式中,N表示整体指标中包括的内容分类数量;n表示指标集合中的内容数量。
6.根据权利要求1所述的一种建设市场主体最优信息透明度区间的确定方法,其特征在于,所述步骤S2具体包括如下步骤:
B1:对指标具体内容进行打分,规定其的打分形式为某一区间;
B2:利用公式
Figure FDA0003723053950000044
计算专家权重,其中
Figure FDA0003723053950000045
B3:利用公式
Figure FDA0003723053950000046
和专家权重统计数据得出:
Figure FDA0003723053950000047
式中:b1,b2,…,bL,bL+1是各个估计区间的端点从小到大排列的一个序列,L为这一序列构成的区间个数,a1,a2,…,aL是专家给出评价区间中包含b1,b2,…,bL,bL+1的专家权重之和;
B4:将求解的值代入某一个指标内容的评价值方程
Figure FDA0003723053950000048
依次计算出每个指标内容的综合评价值;
B5:利用方差计算公式
Figure FDA0003723053950000049
和标准差公式
Figure FDA00037230539500000410
分别计算出方差和标准差,代入可信程度方程
Figure FDA00037230539500000411
计算;
B6:将Ei(r)值进行相加得到大类指标的量化数值。
7.根据权利要求1所述的一种建设市场主体最优信息透明度区间的确定方法,其特征在于,所述步骤S4具体包括如下步骤:
D1:将定性指标量化后的数据作为自变量,监管成本节省和监管成本支出之差作为因变量,即净节省成本作为因变量,在MR=MC处,取得净节省成本最大值,利用MATLAB软件,构造几个自变量的相关系数矩阵;
D2:根据标准化以后的原始数据矩阵来计算最大特征矩阵所对应的特征向量并且计算提取自变量主成分;
D3:构建变量yL k关于成分t1的回归模型;
D4:求得成本节省以及成本支出两段与指标内容回归模型;
D5:通过步骤D4的回归模型进行最优信息透明度点估计;
D6:进行最优信息透明度区间估计。
8.根据权利要求7所述的一种建设市场主体最优信息透明度区间的确定方法,其特征在于,所述步骤D5具体为:
将多元线性回归方程联立计算,分别提取第一次,第二次......第K次自变量主成分,求得K个回归方程,利用K组数据进行点估计;求解K个回归方程,且每次提取的主成分个数依次为1,2,3......,K个,则每一次最优信息透明度评价值为:
Figure FDA0003723053950000051
Figure FDA0003723053950000052
……
Figure FDA0003723053950000053
利用灰色关联分析法透明度评价模型,计算出关联度,即为信息透明度,已知每次提取不同成分时求解的最优信息透明度都是在净节省成本曲线峰值处,即净节省成本最大处,按照数学概率论统计方法,此时求得的K个信息透明度值可以构成正态分布模型,所以点估计即为K个信息透明度平均值。
9.根据权利要求7所述的一种建设市场主体最优信息透明度区间的确定方法,其特征在于,所述步骤D6具体为:
在所有信息透明度方差已知的情况下,政府已经掌握了建设市场主体的信息透明度值和所有建设市场主体的信息透明度平均值,此时只需要采用检验统计量
Figure FDA0003723053950000054
计算出最优区间:
Figure FDA0003723053950000055
在方差未知的情况下,政府没有掌握到信息透明度值,即在没有掌握到所有的主体信息透明度基础上,可以用样本标准差来对整体的标准差进行无偏估计,即用某几家建设市场主体的信息透明度标准差来代替整体的标准差,此时采用检验统计量
Figure FDA0003723053950000056
计算最优区间:
Figure FDA0003723053950000057
CN202110307200.1A 2021-03-23 2021-03-23 一种建设市场主体最优信息透明度区间的确定方法 Active CN113159515B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110307200.1A CN113159515B (zh) 2021-03-23 2021-03-23 一种建设市场主体最优信息透明度区间的确定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110307200.1A CN113159515B (zh) 2021-03-23 2021-03-23 一种建设市场主体最优信息透明度区间的确定方法

Publications (2)

Publication Number Publication Date
CN113159515A CN113159515A (zh) 2021-07-23
CN113159515B true CN113159515B (zh) 2022-09-02

Family

ID=76888200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110307200.1A Active CN113159515B (zh) 2021-03-23 2021-03-23 一种建设市场主体最优信息透明度区间的确定方法

Country Status (1)

Country Link
CN (1) CN113159515B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210873A (zh) * 2019-05-16 2019-09-06 贵州电力交易中心有限责任公司 一种电力市场市场主体市场化交易行为信用评价方法
AU2020102465A4 (en) * 2020-09-28 2020-11-12 Chen, Rundong Mr A method of predicting housing price using the method of combining multiple source data with mathematical model
CN111950918A (zh) * 2020-08-19 2020-11-17 江苏电力交易中心有限公司 一种基于电力交易数据的市场风险评估方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060178957A1 (en) * 2005-01-18 2006-08-10 Visa U.S.A. Commercial market determination and forecasting system and method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210873A (zh) * 2019-05-16 2019-09-06 贵州电力交易中心有限责任公司 一种电力市场市场主体市场化交易行为信用评价方法
CN111950918A (zh) * 2020-08-19 2020-11-17 江苏电力交易中心有限公司 一种基于电力交易数据的市场风险评估方法
AU2020102465A4 (en) * 2020-09-28 2020-11-12 Chen, Rundong Mr A method of predicting housing price using the method of combining multiple source data with mathematical model

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
水利建设市场主体政府监管效果评价指标体系研究;李明等;《水利经济》;20180930(第05期);全文 *

Also Published As

Publication number Publication date
CN113159515A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
Hagemann Cluster-robust bootstrap inference in quantile regression models
CN108647643B (zh) 一种基于深度学习的填料塔液泛状态在线辨识方法
CN109492748B (zh) 一种基于卷积神经网络的电力系统的中长期负荷预测模型建立方法
Hayden et al. Statistical methods to develop rating models
CN102629296A (zh) 一种基于灰色模糊的企业信用评价方法
CN111079856B (zh) 一种基于csjitl-rvm的多时段间歇过程软测量建模方法
CN112668822A (zh) 科技成果转化平台共享系统、方法、存储介质、手机app
Bridges Rethinking gender segregation and gender inequality: Measures and meanings
CN112330153A (zh) 基于非线性正交回归的行业规模预测模型建模方法及装置
CN108182231A (zh) 一种基于灰色关联度的可拓聚类方法及系统
CN112633528A (zh) 基于支持向量机的电网一次设备运维检修成本确定方法
CN117112782A (zh) 一种招标公告信息提取方法
CN116468273A (zh) 客户风险识别方法及装置
CN117150232B (zh) 一种大模型非时序训练数据质量评价方法
CN107093005A (zh) 基于大数据挖掘算法实现办税服务厅自动分级的方法
CN110220885A (zh) 一种机械设备磨损状态综合判断方法
CN113159515B (zh) 一种建设市场主体最优信息透明度区间的确定方法
CN117892220A (zh) 一种基于大数据的错题分类分析及提升方法
CN115378653B (zh) 一种基于lstm和随机森林的网络安全态势感知与预测方法及系统
CN116342286A (zh) 一种基于arma-garch的金融交易预测模型
CN109214598A (zh) 基于k-means和arima模型预测住宅小区抵押风险的批量评级方法
Starinsky-Elbaz et al. Weight-of-evidence for DNA identification of missing persons and human remains using CODIS
Liu et al. Personal Credit Evaluation Under the Big Data and Internet Background Based on Group Character
Zhang et al. Credit Scoring model based on kernel density estimation and support vector machine for group feature selection
CN116205361B (zh) 一种基于匹配度的工业用水效率分级预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant