CN114997723A - 面向企业经营活动的多源异构区块链质量评估模型的构建方法 - Google Patents
面向企业经营活动的多源异构区块链质量评估模型的构建方法 Download PDFInfo
- Publication number
- CN114997723A CN114997723A CN202210758926.1A CN202210758926A CN114997723A CN 114997723 A CN114997723 A CN 114997723A CN 202210758926 A CN202210758926 A CN 202210758926A CN 114997723 A CN114997723 A CN 114997723A
- Authority
- CN
- China
- Prior art keywords
- information
- credibility
- enterprise
- value
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Educational Administration (AREA)
- Entrepreneurship & Innovation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及面向企业经营活动的多源异构区块链质量评估模型的构建方法,该模型首先提出基于CEKGRL模型的实体信息表示方法,在区块链中引入相关实体的三元组结构,并与企业经营活动类别相关联,通过上下文信息进行相似度计算;其次,提出基于信息源、信息评论和信息内容的可信度表征方法,通过融合表征结果,获得经营活动信息的可信度评估;最后,在信息可信度表征基础上,通过价值量对区块链中经营活动信息的总价值进行评估,并构建区块链质量评估模型。该模型在评估区块链块间语义相似度、块内交易信息可信度及价值等方面具有很大优势。
Description
技术领域
本发明属于区块链质量评估领域,特别涉及区块链评估模型设计,具体涉及一种面向企业经营活动的多源异构区块链质量评估方法。
背景技术
区块链是一种通过块链式结构、共识算法和智能合约来生成、存储、操作和验证数据的新型分布式技术,可以不依赖于第三方可信机构,实现无信任关系节点之间的价值通信。这些特征使区块链在企业经营活动方面的应用越来越广泛,如上下游供应链、数字资产、经营事件、企业征信等。现有区块链系统中,经营活动信息多源于不同领域、不同机构,导致信息表征方式歧义性较大,并且受企业自身信誉度等条件约束,难以确定区块中信息的可信度及价值。
现有区块链应用在交易信息评估领域主要存在以下问题:虽然区块链以其去中心化特征被各领域广泛应用,但近年来区块链信息增长迅速,且信息来源可信度、内容可信度以及信息价值难以评估,这导致在区块链中进行企业经营活动数据存储时,会出现块间经营活动信息不一致、内容可信度及价值难衡量等现象,进而无法对区块链做出准确高效地评估。
因此,构建一种准确高效的企业经营活动质量评估模型很有必要。
发明内容
为了解决现有企业经营活动领域区块链质量评估的不足,本发明提供一种面向企业经营活动的多源异构区块链质量评估模型的构建方法,能够有效地进行经营活动区块链质量评估。
本发明采用的技术方案是:面向企业经营活动的多源异构区块链质量评估模型的构建方法,包括以下步骤:
步骤1:将企业实体通过融合实体类别信息的类别增强知识图谱表示学习CEKGRL模型表示为三元组形式,并提出区块链的企业实体上下文信息关联图模型,基于该模型实现相似度计算;
步骤2:融合企业经营活动信息源、信息评论和信息内容的可信度表征结果,获得企业区块链信息可信度;
步骤3:通过信息量针对企业区块链内容进行信息价值评估,获得企业区块链信息价值;
步骤4:针对步骤1至步骤3获取相似度、可信度、价值参数赋予权重,得到企业区块链质量评估模型。
所述的步骤1的执行过程包括:基于CEKGRL模型,对企业实体的三元组进行表示,并与活动类别信息关联。针对实体上下文信息,构建相关模型,进而计算区块间相似度;具体为:
步骤1-1:基于CEKGRL模型的区块实体表示:将区块链中存储企业实体的相关信息,通过CEKGRL模型,引入实体的三元组表示;
步骤1-2:定义三元组信息结构及能量函数,针对企业实体信息将基于类别和基于关系的表示相融合:
具体为:(1)定义三元组信息结构:基于CEKGRL模型将企业活动信息定义为G=(E,R,S),其中:E为企业实体集;R为企业关系集;表示三元组集合,三元组集合用(h,r,t)进行表示,h、r和t分别代表头实体(企业名)、关系(活动信息方向)和尾实体(活动金额)。c表示企业活动类别,并定义基于结构和基于类别的实体表示,分别代表从三元组中学习到的实体表示以及引入类别表示所得到的实体表示;
CEKGRL模型的整体架构如图2所示,斜线状的圆圈组成的椭圆代表基于结构的向量表示,网格状的圆圈组成的椭圆代表基于类别的向量表示,实心圆圈组成的椭圆代表关系的向量表示,空心的圆圈组成的椭圆代表实体类别的向量表示,a表示注意力分数;
(2)将基于类别和基于结构的两种表示类型进行融合,定义能量函数为:E=Ess+ηEcc,其中,Ess=||hs+r-ts||、Ecc=||hc+r-tc||为头实体、尾实体使用基于结构、类别的实体表示的能量函数,超参数η用于调整基于类别表示的权重;
步骤1-3关联信息类别与关系:通过注意力机制计算三元组中关系和实体类别之间存在的潜在相关性,具体为:
(1)构建缩放点积注意力模型,结合CEKGRL模型将关系r作为query向量,类别c同时作为key向量和value向量;通过矩阵的形式计算注意力,将多个企业间关系的表示向量及其对应的活动类别表示向量分别拼接为关系矩阵R和类别矩阵C;
(2)引入待训练的权重矩阵WQ、WK和WV,将权重矩阵、关系矩阵和类别矩阵分别做矩阵相乘操作,得到query、key和value对应的矩阵Q、K、V及注意力分数如公式(1)和(2)所示:
其中,Q、K、V为基于query、key和value的矩阵,dk为权重矩阵维度;通过以上注意力计算模型得到的注意力分数越高,说明类别c与关系r的相关性越强,此时该类别赋予更高的权重;
步骤1-4:上下文信息关联图模型构建:
将一个企业实体中的上下文结构表示成一个实体相关模型G=(Ver,Edg),其中Ver表示顶点集合,Edg表示边集合;该模型的构造分为2个步骤:顶点集合构造和边集合构造;
(1)顶点集合构造
每个顶点被赋予一个置信度(CM,Confidence Measure),CM表示在不考虑其他上下文信息的情况下,该节点的重要程度,置信度计算如公式(3)所示:
(2)边集合构造
采用双向最短路径判定法判定两个信息之间路径关联度;视信息之间的超链接结构为有向图,记从信息A链接到信息B路径为前向最短路径,从实体B链接到实体A的路径为后向最短路径,两个节点之间的最短路径计算如公式(4)所示:
其中,FShortPath表示前向最短路径长度,BShortPath表示后向最短路径长度.为了更好地描述两个节点之间的路径关联度,将路经长度转化成路径关联度,计算如公式(5)所示:
由该公式可见,两个节点之间的路径长度越小,两个节点的路径关联度越大;
步骤1-5:块间相似度计算:
在进行区块间相似度度量时,本发明以区块链中第一块为待对比区块,其他区块作为候选对比区块,且针对企业名、活动金额这两种类型的命名实体进行歧义性计算。用待对比区块与其他区块的相似度平均值作为该区块链的一致性度量,即平均相似性度量,区块集合如图3所示;
通过企业活动的具体内容来计算语义相似度,使用SimText(A,B)表示区块A与区块B分别所代表的区块语义相似度,分别将区块A与区块B所代表的语义描述信息向量化表示为A={m11,m12,...,m1x,...},B={m21,m22,...,m2x,...},利用余弦相似度计算如公式(6)所示:
进行归一化处理,如公式(7)所示:
最后,区块链总的一致性计算可以用这些区块相似度的平均值,平均相似性计算如公式(8)所示:
其中,N是区块总数,i是除待消歧区块之外的其他区块,SimText(A,i)是待消歧区块与其它区块的相似度度量。
所述的步骤2的执行过程包括如下步骤:
步骤2-1基于可信度理论的区块链内容评估:通过评估活动信息源、评论以及内容来表征信息的可信程度;
(1)基于源的信息可信度表征包括三部分:发布平台的可信度通过网站的可信度来表征;页面的可信度依据可信度传递理论,通过相关链接评估来表征当前页面的可信度;发布者的可信度是通过不断地知识积累,获取发布者的平均可信度;
(2)基于评论的信息可信度表征:首先对评论进行显性和隐性分类,然后利用词典的方法进行评论倾向性分析,最后得到基于评论的信息可信度表征结果;
(3)基于内容的可信度表征。以采用经营活动特征词典得出的信息可信度结果为主要条件,对信息进行可信度的排序,赋予相应的权重,最后得到基于内容特征的信息可信度表征结果;
步骤2-2基于源的信息可信度表征:
(1)信息网站的可信度
假设点击率越高的网站,可信度越高。由于用户在访问某些信息源时,会连带访问该信息源的某些页面,为平滑以上情况带来的点击率的提升,本发明设计信息源可信度模型如公式(9)所示:
其中,Site_R(i)为某个网站的可信度,hits()表示点击率,i表示网站中与企业经营活动相关栏目,m表示网站的全部栏目数,n为某类网站数;
(2)信息页面的可信度
基于页面相关链接信息表征页面可信度:即页面中链接的可达性和所达页面的可用性来判断一个网页的可信度具体模型如公式(10)所示:
其中,Page_R(iA,B,C)表示信息页面的可信度,A表示相关链接中可达链接的集合,B表示相关链接中不可达链接的集合,C表示链接所达页面中不可用页面的集合;可达性是指网页链接可以正常链接并打开指定的网页,可用性是指链接到的新网页具有足够的信息量和相关性;
(3)信息发布者的可信度
将能够收到信息的网络用户看为一个整体,最初认为数据接收用户是不知者(ignorant);随着信息在网络上的传播,这些用户可进一步分为两类:认为信息可信的用户(believed)以及认为信息不可信的用户(unbelieved);
将网络中的用户状态分为三类:
a)不知者(ignorant):该状态指在网络中,当一条信息尚未传播;或者,当信息发布之后,不知道该条信息的真假且还未作出判断的用户;
b)发布可信信息的用户(believed):有一定的知识储备之后,当看到信息后,作出判断,认为该发布者发布的信息是可信的;
c)发布不可信信息的用户(unbelieved)。有一定的知识储备之后,当看到信息后,作出判断,认为该发布者发布的信息是不可信的;
信息传播过程中,用户间状态转换示意图如图4所示。假设某发布者公开发布了一条信息,那首次看到该信息的用户被看做不知者(ignorant),在以某一时刻为起点的单位时间内,该条信息其他用户看到,该用户认为该信息是可信的概率为α;与此相反,该用户认为该信息是不可信的概率为β。
随着时间的推移,自身学习的知识及认识的积累,用户对信息的认知状态都会发生改变。因此,假设在以某一时刻为起点的单位时间内,可信用户认为该条信息是不可信的概率为γ,那么此时表现出,可信信息用户转换为不可信信息用户;与此同时,不可信信息用户认为该条信息是可信的概率为δ,那么不可信信息用户就转换为可信信息用户。因此,根据以上基于信息内容真假模型的交互规则建立如下方程组如公式(11)所示:
其中I(t),B(t),U(t)分别表示不知者用户、可信信息用户、不可信信息用户在t时刻的比例,且均为非负数;
在以上的交互规则中,用户对信息发布人的可信度衡量可以定义为:假设用户对该信息发布人的信任度为Ti(0≤Ti≤1),当其他用户看到该信息时,可以通过对该条消息的发布者的直观印象(对发布人的信任度Ti(0≤Ti≤1))来直接判断该信息是否可信,那么该发布信息者的平均可信度概率计算如公式(12)所示:
不可信概率计算如公式(13)所示:
(4)基于源的可信度表征结果融合
通过对基于网站、页面和发布者的可信度表征结果进行融合,得到基于源的信息可信度,计算如公式(14)所示:
sou1、sou2和sou3分别代表基于网站、页面和发布者三者所占的权重。
步骤2-3基于评论特征的信息可信度表征:
通过计算评论外在表征来评估信息可信度,首先对评论作如下定义:
无效评论:不含有情感词汇或者与信息内容可信度无关的评论;
显性评论:含有可以明确表征可信度倾向性词汇的评论;
隐性评论:含有情感词汇但不具有明确表征可信度倾向词汇的评论;
(1)显性评论表征倾向性分析:采用了修饰词窗口策略调整情感强度来控制表征值
首先,设置正负两类计算器和一个滑动窗口:若当前分析词为情感词,则将该词依据具体情感倾向性置于对应的计算器,同时取出滑动窗口中的修饰词汇对当前情感词进行修饰的程度,得到该词对该句情感的贡献值;若在分析当前情感词时,滑动窗口中含有否定词,则将情感倾向性反转,用滑动窗口范围控制否定词的作用范围;最后,对整条评论倾向性进行计算得出情感倾向;计算如公式(15)所示:
其中,R_review_dominant表示某一用户发表的评论对信息可信度的表征值,N表示该条总评论的单句数目,R表示单句中可信表征的分值,D表示单句中可疑表征的分值,L表示单句长度;当单句情感分值位于(-0.1,+0.1)区间时,该评论的表征倾向较弱,不予考虑;
(2)隐性评论表征倾向性分析:对于隐性评论的表征倾向分析分两个步骤进行:一是计算评论与信息的相关性;二是对于相关的隐性评论计算表征倾向值;
1)评论与信息的相关性
采用概率检索模型来计算信息与评论的相关性,即将评论和信息看作是检索问题;将评论C假设为查询串,信息I当作文档,则信息集合构成文档集合;在经典概率检索模型的基础上,引入LDA模型来发现的隐含主题集合对P(w|I)进行平滑,具体计算如公式(16)所示:
其中,I是信息,C为I的评论集合中的一条,w是C中的一个词,P(C|I)为I产生C的概率,p(w|I)为w在I中出现的概率。tI为信息I的主题集合,t为tI中的一个主题,λ为参数,p(w|t)为词w在主题t中出现的概率,p(t|I)主题t在信息I中出现的概率;对信息I中的所有评论均计算P(C|I),若概率值大于某一阈值,则判定相关评论;
2)相关隐性评论表征倾向
除了显性情感词外,一些隐性词语同样具有态度特征,对于隐性评价表征倾向值计算如公式(17)所示:
R_review_dominant(R)=∑i(1+p(ai)/count(a|R))×w(ai) (17)
其中,a表示段落、句子或者词,R则对应表示为整条评论、段落或者句子,ai的情感得分表示为w(ai),p(ai)表示情感单元ai在R中的位置,count(a|R)表示R中含有a的总数;
(3)基于评论的可信度表征结果融合
融合的过程分两步:一是获取评论的对象并进行分类;二是分类后的评论结果融合,融合方式如公式(18)所示:
R_review=∑(i,j)Tar(Ri)*Rj+∑Rk (18)
其中,R_review是基于评论得出对于该条信息的可信度,Tar(Ri)是被评论的对象i对信息可信度的表征值,Rj是某个评论j对i的可信度的表征值,Rk是对信息直接发表评论的可信度表征值;
步骤2-4基于内容特征的信息可信度表征:使用数据内容特征来表征信息可信度的方法;
假设:(1)特征词决定信息的专业性,即信息内容中企业活动特征词汇越多,则说明信息的专业性越强;
(2)信息的专业性决定信息的可信度,即越专业的信息则可信度越高;
内容的可信度计算如公式(19)所示:
其中,word_f、word_s和word_t分别表示信息中出现的普通词、特征词和专业词的数目,word_all为信息中总的词数,web_word为该页内容总词数,con1、con2和con3分别表示相关权重;μ、ν为信息类型特征系数;
最后,区块链中信息可信度为基于源的可信度,基于评论的可信度与基于内容的可信度综合衡量,如公式(20)所示:
Accuracy=accu1R_source(i)+accu2R_review+accu3R_content(i) (20)
其中accu1>accu3>accu2,由于信息源是衡量信息可信度的关键因素,如官方信息是百分之百可信,因此信息源的可信度所占比重最大,内容可信度次之,由于评论取决于评论者的主观性,所以基于评论的可信度所占比重最小。
步骤3中所述的通过信息量评估区块链信息价值,包括如下步骤:
(1)对区块链中企业活动信息的有效性度量,采用计算信息量的方式,通过区块中经营活动信息量来衡量其信息有效性;根据信源的信息选择不定度的测定,确定信息表征信源的不定度,随机事件的相关性质如下:
性质1信息量没有负值,且该值越小表示所携带的信息量越小,值越大,信息量越大;
性质2信息量具有可加性;根据该性质,可以认为区块链结点的信息量是块中各活动信息的信息量之和;
(2)在区块链信息量计算过程中,信息量表示区块所含信息的多少,是活动信息有效性的一种度量;各个区块可以看作为一个离散信源,若X为离散随机变量(某条链),则随机变量X的取值集合及其概率测度pi如公式(21)所示:
X={x1,x2,...,xn},pi=P[X=xi] (21)
其中xi是随机变量X可能的取值,离散随机变量X的概率空间如公式(22)所示:
其中,pi是区块中活动信息发生的概率,信息量计算如公式(23)所示:
其中,X是一个随机变量,Validity是区块所含信息量,p(x)是变量X的概率分布函数;通过一个非负的值表述信息的不确定程度,信息量值的大小直接决定信息量的多少;针对某一区块链,可以通过该值来衡量其信息量,其值越大,该区块链所含的信息量越多,该区块链的价值更大。
步骤4中所述的企业区块链质量评估模型实现过程如下:
针对步骤1至步骤3获取的区块链所存企业经营活动信息的相似度、可信度以及价值参数赋权:采用加权平均法综合上述三种评估指标,采用区块表述规范相似程度、基于源的区块可信度表征以及区块所含价值的加权平均来度量区块链的综合质量;最终评估模型如公式(24)所示:
Q=q1CoHerence+q2Accuracy+q3Validity,Q∈(0,1) (24)
其中,q1、q2和q3分别代表这三种评估指标的权重,其中权重q3最大,其次是信息可信度,一致性所占比重最小。
本发明的有益效果:本发明采用上述方案,首先基于区块链中的相关企业实体信息,通过CEKGRL模型,提出企业实体的三元组表示,并将其与对应的活动类别相关联,针对实体上下文信息,构建关联图模型,进而提高区块间相似度计算效率;其次,基于区块链内容评估,通过基于企业经营活动信息源、信息评论和信息内容的可信度表征方法,融合各表征结果,得出区块链信息可信度评估;最后,通过熵论进行区块链内容所含价值量评估,并综合以上信息得到区块链质量评估模型。上述模型具有提升区块链企业活动信息评估准确性,提高评估效率的优点。
附图说明
图1为区块结构示意图。
图2为区块实体集合示意图。
图3为CEKGRL模型整体架构图。
图4为节点间状态转化示意图。
图5为本发明质量评估方法流程图。
具体实施方式
结合附图对本发明做进一步描述。
区块链是一种通过块链式结构、共识算法和智能合约来生成、存储、操作和验证数据的新型分布式技术,可以不依赖于第三方可信机构,实现无信任关系节点之间的价值通信,其结构如图1所示。在区块建立过程中,会出现块间信息不一致、内容可信度及价值等指标不统一的问题。因此,对企业区块链进行有效评估是区块链领域研究的热点和难点。面向企业经营活动的多源异构区块链质量评估模型的构建方法,本发明的步骤如下:
步骤1提出基于上下文信息的区块间语义相似度计算,基于CEKGRL模型,对企业实体的三元组进行表示,并与活动类别信息关联,针对实体上下文信息,构建关联图模型,进而提高区块间相似度计算效率。
步骤1-1基于CEKGRL模型的区块实体表示:
区块链中存储企业实体的相关信息,为有效表示该实体类别信息,同时兼顾一致性计算的效率,本发明提出CEKGRL模型,引入实体的三元组表示,旨在学习三元组知识的同时,能够通过更加准确的知识表示进行实体不一致检测。该模型无需依赖实体类别与关系之间的固定映射,便于将模型灵活地迁移到其他更加复杂且难以得到该映射关系的场景中。同时,该模型对实体类别的组织形式没有要求,可适应各种应用场景,无论是具有层次结构的类别信息,还是其他形式的类别数据均可以使用,然后通过注意力机制捕获实体类别和三元组关系之间的潜在相关性,结合不同实体类别对于某种特定关系的重要程度及实体类别信息进行实体相似度比较。
步骤1-2三元组信息结构:
基于CEKGRL模型将活动活动信息定义为G=(E,R,S),其中:E为企业实体集;R为企业关系集;表示三元组集合,三元组集合用(h,r,t)进行表示,h、r和t分别代表头实体(企业名)、关系(活动信息方向)和尾实体(活动金额)。此外,本发明用c表示活动类别,并定义基于结构和基于类别的实体表示,分别代表从三元组中学习到的实体表示以及引入类别表示所得到的实体表示。
CEKGRL模型的整体架构如图2所示,斜线状的圆圈组成的椭圆代表基于结构的向量表示,网格状的圆圈组成的椭圆代表基于类别的向量表示,实心圆圈组成的椭圆代表关系的向量表示,空心的圆圈组成的椭圆代表实体类别的向量表示,a表示注意力分数,为将两种表示类型进行融合,定义能量函数为:E=Ess+βEcc;
其中,Ess=||hs+r-ts||,为头实体、尾实体使用基于结构的实体表示得到的能量函数;hs、ts分别为基于结构的头实体、尾实体表示;hc、tc分别为基于类别的头实体、尾实体表示;超参数β用于调整基于类别的表示在CEKGRL模型中的重要程度;Ett=||hc+r-tc||,为头实体、尾实体使用基于类别的实体表示得到的能量函数。需要说明的是,实体基于结构和基于类别的表示在训练过程中都使用统一的关系表示r,保证了两种类型的向量表示空间可通过相同的关系表示达到统一。
在训练过程中,首先通过注意力机制得到实体类别表示与三元组关系的相关性,即注意力分数,然后利用该注意力分数对类别表示进行加权求和并将其作为基于类别的实体表示,最后将相同的关系表示作为两种表示空间的联系,将基于结构和基于类别的表示进行联合训练。
步骤1-3关联信息类别与交易表示:
企业实体的不同类别信息可以从多个角度刻画实体,而同一个实体在不同的关系下会侧重关注其不同的类别信息,具体表现为同一实体的不同类别与不同关系之间的语义相关性不同。为有效利用三元组中关系和实体类别之间存在的潜在相关性,本发明通过以下注意力机制计算并得到两者之间的相似度:
注意力机制的本质在于在进行相似度比较时能够学会忽略无关信息而关注重点信息。本发明首先构建缩放点积注意力模型,结合CEKGRL模型将关系r作为query向量,类别c同时作为key向量和value向量。在实现过程中,为加快处理效率,通过矩阵的形式计算注意力,将多个企业间关系的表示向量及其对应的活动类别表示向量分别拼接为关系矩阵R和类别矩阵C。然后,引入待训练的权重矩阵WQ、WK和WV,将权重矩阵、关系矩阵和类别矩阵分别做矩阵相乘操作,得到query、key和value对应的矩阵Q、K、V及注意力分数如公式(1)和(2)所示:
其中,Q、K、V为基于query、key和value的矩阵,dk为权重矩阵维度;通过以上注意力计算模型得到的注意力分数越高,说明类别c与关系r的相关性越强,此时该类别赋予更高的权重;
步骤1-4对比实体生成:
本发明只针对企业名、活动金额这两种类型的命名实体进行消歧。区块集合如图3所示,对任意一个给定的区块中信息使用StanfordNER工具进行命名实体识别,得到待消歧的实体指称集合,记为M={m1,m2,m3,...}。在进行实体消歧义时,上下文活动信息对实体指称起着重要的证据作用。因此,使用StanfordNER工具从除去实体指称集合M的活动信息中提取活动上下文信息D,构成活动上下文信息D的上下文集合,记为C={c1,c2,c3,...}。
将集合M中的命名实体指称通过其他块获取候选对比实体集,对预备候选实体集进行信息提取及格式化整理,筛选后生成最终候选对比实体集合N={{m11,m12,...,m1x,...},{m21,m22,...,m2x,...},...}B={m21,m22,...,m2x,...},其中实体指称mi生成候选对比实体集合为Ni={mi1,mi2,...,mij,...},Ni∈N。
步骤1-5上下文信息关联图模型构建:
本发明将一个企业实体中的上下文结构表示成一个实体相关图模型G=(V,E),其中V表示顶点集合,E表示边集合。实体相关图的构造分为2个步骤:顶点集合构造和边集合构造。
(1)顶点集合构造
图中每个顶点被赋予一个置信度(CM,Confidence Measure),CM表示在不考虑其他上下文信息的情况下,该节点的重要程度,置信度计算如公式(3)所示:
(2)边集合构造
本发明图模型的边由该企业活动所对应的上下文信息组成,上下文信息关联结构由双向路径关联度决定。
已有的方法是利用两个信息之间的超链接所构成的最短路径来衡量关联度,从而构成图模型中两个节点的边,但是这种方法只是将两个信息之间的超链接网络视为无向图,忽略了其方向,在衡量两个词条之间超链接路径长度时,随机地选择任一信息作为起点进行探索,然而现实中,转换信息的终起点能得到两个不同的最短路径长度。
本发明提出一种新的判定两个信息之间路径关联度的方法,即双向最短路径判定法,视信息之间的超链接结构为有向图,记从信息A链接到信息B路径为前向最短路径,从实体B链接到实体A的路径为后向最短路径,两个节点之间的最短路径计算如公式(4)所示:
其中,FShortPath表示前向最短路径长度,BShortPath表示后向最短路径长度.为了更好地描述两个节点之间的路径关联度,将路经长度转化成路径关联度,计算如公式(5)所示:
由该公式可见,两个节点之间的路径长度越小,两个节点的路径关联度越大.根据“六度分离”理论,在探索两个节点最短路径长度时,把最短路径长度的上限设置为6,即如果两个节点之间的路径长度超过6,则认为这两个节点没有路径关联度。
使用Wightba表示图G中边(va,vb)的权重,若Wightba=0,则表示图G中的两个节点之间没有边连接。需要注意的是,对于同一实体指称源对应的多个候选对比实体,不考虑其相互之间的关联关系,即实体相关图中同一实体指称所对应的候选对比实体顶点间不存在关系边,其Wightba=0。
步骤1-6块间相似度计算:
本发明利用企业活动的具体内容来计算语义相似度,使用SimText(A,B)表示区块A与区块B分别所代表的区块语义相似度,分别将区块A与区块B所代表的语义描述信息向量化表示为A={m11,m12,...,m1x,...},B={m21,m22,...,m2x,...},利用余弦相似度计算如公式(6)所示:
进行归一化处理,如公式(7)所示:
最后,区块链总的一致性计算可以用这些区块相似度的平均值,平均相似性计算如公式(8)所示:
其中,N是区块总数,i是除待消歧区块之外的其他区块,SimText(A,i)是待消歧区块与其它区块的相似度度量。
步骤2提出基于信息源、评价以及内容特征的信息可信度表征,进行区块链可信度评估,并融合各表征结果。
步骤2-1基于可信度理论的区块链内容评估:
本发明根据可信度的特征属性,分别用企业经营活动信息源、评价和内容的可信度来独立表征信息的可信度表征程度,并对表征结果进行融合。
(1)基于源的信息可信度表征。包括三部分:发布平台的可信度通过网站的可信度来表征;页面的可信度依据可信度传递理论,通过相关链接评估来表征当前页面的可信度;发布者的可信度是通过不断地知识积累,取发布者的平均可信度。
(2)基于评论的信息可信度表征。首先对评论进行显性和隐性分类,然后利用词典的方法进行评论倾向性分析,最后得到基于评论的信息可信度表征结果。
(3)基于内容的可信度表征。以采用经营活动特征词典得出的信息可信度结果为主要条件,以时效性等为次要条件,对信息进行可信度的排序,赋予相应的权重,以平滑各类信息间差异,最后得到基于内容特征的信息可信度表征结果。
作为企业活动信息的来源或者载体,直接反应了信息的可信度程度。本发明通过评估活动信息源来表征信息可信度。
步骤2-2基于源的信息可信度表征:
(1)信息网站的可信度
本发明假设点击率越高的网站,可信度越高。众所周知,点击率带有热度信息。此外,论坛和博客对于游客的访问限制和其本身的受众的局限性,可能导致论坛和博客的点击率整体低于新闻网站。为平滑以上情况带来的不良影响,本发明设计信息源可信度模型如公式(9)所示:
其中,Site_R(i)为某个网站的可信度,hits()表示点击率,i表示网站中与企业经营活动相关栏目,m表示网站的全部栏目数,n为某类网站数;
(2)信息页面的可信度
信息所在网页在一定程度上也表征着信息可信度。本发明提出基于页面相关链接信息表征页面可信度的方法,即页面中链接的可达性和所达页面的可用性来判断一个网页的可信度。具体模型如公式(10)所示:
其中,Page_R(iA,B,C)表示信息页面的可信度,A表示相关链接中可达链接的集合,B表示相关链接中不可达链接的集合,C表示链接所达页面中不可用页面的集合。可达性是指网页链接可以正常链接并打开指定的网页,可用性是指链接到的新网页具有足够的信息量和相关性。
(3)信息发布者的可信度
信息发布者的可信度主要是侧重对发布者的可信度判断,仅仅针对人的可信度判断信息是否可信,而后随着人们对信息认识的加深以及对知识的获取,有一定的知识储备之后,逐渐转换为可信信息用户和不可信信息用户。
本发明将能够收到信息的网络用户看为一个整体,用户总数记为N。最初认为数据接收用户是不知者(ignorant);随着信息在网络上的传播,这些用户可进一步分为两类:认为信息可信的用户(believed)以及认为信息不可信的用户(unbelieved)。基于此,本发明定义了信息本身可信度的衡量基准,以此来判别信息发布者发布该条信息时,认定该条信息真假性的概率。
因此,基于以上考虑,可以将网络中的用户状态分为三类:
a)不知者(ignorant)。该状态指在网络中,当一条信息尚未传播;或者,当信息发布之后,不知道该条信息的真假且还未作出判断的用户。
b)发布可信信息的用户(believed)。有一定的知识储备之后,当看到信息后,作出判断,认为该发布者发布的信息是可信的。
c)发布不可信信息的用户(unbelieved)。有一定的知识储备之后,当看到信息后,作出判断,认为该发布者发布的信息是不可信的。
信息传播过程中,用户间状态转换示意图如图4所示。假设某发布者公开发布了一条信息,那首次看到该信息的用户被看做不知者I(ignorant),在以t时刻为起点的单位时间内,该条信息其他用户看到,该用户认为该信息是可信的概率为α;与此相反,该用户认为该信息是不可信的概率为β。
随着时间的推移,自身学习的知识及认识的积累,用户对信息的认知状态都会发生改变。因此,假设在以t时刻为起点的单位时间内,可信用户认为该条信息是不可信的概率为γ,那么此时表现出,可信信息用户转换为不可信信息用户;与此同时,不可信信息用户认为该条信息是可信的概率为δ,那么不可信信息用户就转换为可信信息用户。因此,根据以上基于信息内容真假模型的交互规则建立如下方程组如公式(11)所示:
其中I(t),B(t),U(t)分别表示不知者用户、可信信息用户、不可信信息用户在t时刻的比例,且均为非负数;
在以上的交互规则中,用户对信息发布人的可信度衡量可以定义为:假设用户对该信息发布人的信任度为Ti(0≤Ti≤1),当其他用户看到该信息时,可以通过对该条消息的发布者的直观印象(对发布人的信任度Ti(0≤Ti≤1))来直接判断该信息是否可信,那么该发布信息者的平均可信度概率计算如公式(12)所示:
不可信概率计算如公式(13)所示:
(4)基于源的可信度表征结果融合
通过对基于网站、页面和发布者的可信度表征结果进行融合,得到基于源的信息可信度,计算如公式(14)所示:
sou1、sou2和sou3分别代表基于网站、页面和发布者三者所占的权重。
步骤2-3基于评论特征的信息可信度表征:
通过计算评论外在表征来评估信息可信度,首先对评论作如下定义:
无效评论:不含有情感词汇或者与信息内容可信度无关的评论;
显性评论:含有可以明确表征可信度倾向性词汇的评论;
隐性评论:含有情感词汇但不具有明确表征可信度倾向词汇的评论;
(1)显性评论表征倾向性分析:采用了修饰词窗口策略调整情感强度来控制表征值
首先,设置正负两类计算器和一个滑动窗口:若当前分析词为情感词,则将该词依据具体情感倾向性置于对应的计算器,同时取出滑动窗口中的修饰词汇对当前情感词进行修饰的程度,得到该词对该句情感的贡献值;若在分析当前情感词时,滑动窗口中含有否定词,则将情感倾向性反转,用滑动窗口范围控制否定词的作用范围;最后,对整条评论倾向性进行计算得出情感倾向;计算如公式(15)所示:
其中,R_review_dominant表示某一用户发表的评论对信息可信度的表征值,N表示该条总评论的单句数目,R表示单句中可信表征的分值,D表示单句中可疑表征的分值,L表示单句长度;当单句情感分值位于(-0.1,+0.1)区间时,该评论的表征倾向较弱,不予考虑;
(2)隐性评论表征倾向性分析:对于隐性评论的表征倾向分析分两个步骤进行:一是计算评论与信息的相关性;二是对于相关的隐性评论计算表征倾向值;
1)评论与信息的相关性
采用概率检索模型来计算信息与评论的相关性,即将评论和信息看作是检索问题;将评论C假设为查询串,信息I当作文档,则信息集合构成文档集合;在经典概率检索模型的基础上,引入LDA模型来发现的隐含主题集合对P(w|I)进行平滑,具体计算如公式(16)所示:
其中,I是信息,C为I的评论集合中的一条,w是C中的一个词,P(C|I)为I产生C的概率,p(w|I)为w在I中出现的概率。tI为信息I的主题集合,t为tI中的一个主题,λ为参数,p(w|t)为词w在主题t中出现的概率,p(t|I)主题t在信息I中出现的概率;对信息I中的所有评论均计算P(C|I),若概率值大于某一阈值,则判定相关评论;
2)相关隐性评论表征倾向
除了显性情感词外,一些隐性词语同样具有态度特征,对于隐性评价表征倾向值计算如公式(17)所示:
R_review_dominant(R)=∑i(1+p(ai)/count(a|R))×w(ai) (17)
其中,a表示段落、句子或者词,R则对应表示为整条评论、段落或者句子,ai的情感得分表示为w(ai),p(ai)表示情感单元ai在R中的位置,count(a|R)表示R中含有a的总数;
(3)基于评论的可信度表征结果融合
融合的过程分两步:一是获取评论的对象并进行分类;二是分类后的评论结果融合,融合方式如公式(18)所示:
R_review=∑(i,j)Tar(Ri)*Rj+∑Rk (18)
其中,R_review是基于评论得出对于该条信息的可信度,Tar(Ri)是被评论的对象i对信息可信度的表征值,Rj是某个评论j对i的可信度的表征值,Rk是对信息直接发表评论的可信度表征值;
步骤2-4基于内容特征的信息可信度表征:使用数据内容特征来表征信息可信度的方法;
假设:(1)特征词决定信息的专业性,即信息内容中企业活动特征词汇越多,则说明信息的专业性越强;
(2)信息的专业性决定信息的可信度,即越专业的信息则可信度越高;
内容的可信度计算如公式(19)所示:
其中,word_f、word_s和word_t分别表示信息中出现的普通词、特征词和专业词的数目,word_all为信息中总的词数,web_word为该页内容总词数,con1、con2和con3分别表示相关权重;μ、ν为信息类型特征系数;
最后,区块链中信息可信度为基于源的可信度,基于评论的可信度与基于内容的可信度综合衡量,如公式(20)所示:
Accuracy=accu1R_source(i)+accu2R_review+accu3R_content(i) (20)
其中accu1>accu3>accu2,由于信息源是衡量信息可信度的关键因素,如官方信息是百分之百可信,因此信息源的可信度所占比重最大,内容可信度次之,由于评论取决于评论者的主观性,所以基于评论的可信度所占比重最小。
步骤3中所述的通过信息量评估区块链信息价值,包括如下步骤:
(1)对区块链中企业活动信息的有效性度量,采用计算信息量的方式,通过区块中经营活动信息量来衡量其信息有效性;根据信源的信息选择不定度的测定,确定信息表征信源的不定度,随机事件的相关性质如下:
性质1信息量没有负值,且该值越小表示所携带的信息量越小,值越大,信息量越大;
性质2信息量具有可加性;根据该性质,可以认为区块链结点的信息量是块中各活动信息的信息量之和;
(2)在区块链信息量计算过程中,信息量表示区块所含信息的多少,是活动信息有效性的一种度量;各个区块可以看作为一个离散信源,若X为离散随机变量(某条链),则随机变量X的取值集合及其概率测度pi如公式(21)所示:
X={x1,x2,...,xn},pi=P[X=xi] (21)
其中xi是随机变量X可能的取值,离散随机变量X的概率空间如公式(22)所示:
其中,pi是区块中活动信息发生的概率,信息量计算如公式(23)所示:
其中,X是一个随机变量,Validity是区块所含信息量,p(x)是变量X的概率分布函数;通过一个非负的值表述信息的不确定程度,信息量值的大小直接决定信息量的多少;针对某一区块链,可以通过该值来衡量其信息量,其值越大,该区块链所含的信息量越多,该区块链的价值更大。
步骤4中所述的企业区块链质量评估模型实现过程如下:
针对步骤1至步骤3获取的区块链所存企业经营活动信息的相似度、可信度以及价值参数赋权:采用加权平均法综合上述三种评估指标,采用区块表述规范相似程度、基于源的区块可信度表征以及区块所含价值的加权平均来度量区块链的综合质量;最终评估模型如公式(24)所示:
Q=q1CoHerence+q2Accuracy+q3Validity, Q∈(0,1) (24)
其中,q1、q2和q3分别代表这三种评估指标的权重,其中权重q3最大,其次是信息可信度,一致性所占比重最小。
Claims (5)
1.面向企业经营活动的多源异构区块链质量评估模型的构建方法,其特征在于,包括以下步骤:
步骤1:将企业实体通过CEKGRL模型表示为三元组形式,并提出区块链的企业实体上下文信息关联模型,基于该模型实现相似度计算;
步骤2:融合企业经营活动信息源、信息评论和信息内容的可信度表征结果,获得企业区块链信息可信度;
步骤3:通过信息量针对企业区块链内容进行信息价值评估,获得企业区块链信息价值;
步骤4:针对步骤1至步骤3获取相似度、可信度、价值参数赋予权重,得到企业区块链质量评估模型。
2.根据权利要求1所述的面向企业经营活动的多源异构区块链质量评估模型的构建方法,其特征在于,所述的步骤1的执行过程包括:基于CEKGRL模型,对企业实体的三元组进行表示,并与活动类别信息关联;针对实体上下文信息,构建相关模型,进而计算区块间相似度;具体为:
步骤1-1:基于CEKGRL模型的区块实体表示:将区块链中存储企业实体的相关信息,通过CEKGRL模型,引入实体的三元组表示;
步骤1-2:定义三元组信息结构及能量函数,针对企业实体信息将基于类别和基于关系的表示相融合:
具体为:(1)定义三元组信息结构:基于CEKGRL模型将企业活动信息定义为G=(E,R,S);其中:E为企业实体集;R为企业关系集;表示三元组集合,三元组集合用(h,r,t)进行表示,h、r和t分别代表头实体(企业名)、关系(活动信息方向)和尾实体(活动金额);c表示企业活动类别,并定义基于结构和基于类别的实体表示,分别代表从三元组中学习到的实体表示以及引入类别表示所得到的实体表示;
CEKGRL模型的整体架构如下:其中头实体和尾实体分属于不同的类别,然后对这两种实体进行不同的表示,即基于结构的向量表示和基于类别的向量表示,并且两种实体通过关系r进行关联;
(2)将基于类别和基于结构的两种表示类型进行融合,定义能量函数为:E=Ess+ηEcc,其中,Ess=||hs+r-ts||、Ecc=||hc+r-tc||为头实体、尾实体使用基于结构、类别的实体表示的能量函数,超参数η用于调整基于类别表示的权重;
步骤1-3关联信息类别与关系:通过注意力机制计算三元组中关系和实体类别之间存在的潜在相关性,具体为:
(1)构建缩放点积注意力模型,结合CEKGRL模型将关系r作为query向量,类别c同时作为key向量和value向量;通过矩阵的形式计算注意力,将多个企业间关系的表示向量及其对应的活动类别表示向量分别拼接为关系矩阵R和类别矩阵C;
(2)引入待训练的权重矩阵WQ、WK和WV,将权重矩阵、关系矩阵和类别矩阵分别做矩阵相乘操作,得到query、key和value对应的矩阵Q、K、V及注意力分数如公式(1)和(2)所示:
其中,Q、K、V为基于query、key和value的矩阵,dk为权重矩阵维度;通过以上注意力计算模型得到的注意力分数越高,说明类别c与关系r的相关性越强,此时该类别赋予更高的权重;
步骤1-4:上下文信息关联模型构建:
将一个企业实体中的上下文结构表示成一个实体相关模型G=(Ver,Edg),其中Ver表示顶点集合,Edg表示边集合;该模型的构造分为2个步骤:顶点集合构造和边集合构造;
(1)顶点集合构造
每个顶点被赋予一个置信度(CM,Confidence Measure),CM表示在不考虑其他上下文信息的情况下,该节点的重要程度,置信度计算如公式(3)所示:
ResultScore(ci)是基于谷歌知识图谱得到的匹配分数,匹配度越高,代表上下文信息越准确;
(2)边集合构造
采用双向最短路径判定法判定两个信息之间路径关联度;视信息之间的超链接结构为有向图,记从信息A链接到信息B路径为前向最短路径,从实体B链接到实体A的路径为后向最短路径,两个节点之间的最短路径计算如公式(4)所示:
其中,ShortPath是节点之间最短路径,FShortPath表示前向最短路径长度,BShortPath表示后向最短路径长度,va和vb是实体相关模型中的两个顶点;为了更好地描述两个节点之间的路径关联度,将路经长度转化成路径关联度,计算如公式(5)所示:
由该公式可见,两个节点之间的路径长度越小,两个节点的路径关联度越大;
步骤1-5:块间相似度计算:
在进行区块间相似度度量时,以区块链中第一块为待对比区块,其他区块作为候选对比区块,且针对企业名、活动金额这两种类型的命名实体进行歧义性计算;用待对比区块与其他区块的相似度平均值作为该区块链的一致性度量,即平均相似性度量;区块总数为i,即N1,N2,...,Ni,每一个块中的企业活动用mi1,mi2,...,mix表示,其中i表示第i个块,x表示经营活动数;
通过企业活动的具体内容来计算语义相似度,使用SimText(A,B)表示区块A与区块B分别所代表的区块语义相似度,分别将区块A与区块B所代表的语义描述信息向量化表示为A={m11,m12,...,m1x,...},B={m21,m22,...,m2x,...},利用余弦相似度计算如公式(6)所示:
进行归一化处理,如公式(7)所示:
最后,区块链总的一致性计算可以用这些区块相似度的平均值,平均相似性计算如公式(8)所示:
其中,N是区块总数,i是除待消歧区块之外的其他区块,A为区块链首块,SimText(A,i)是待消歧区块与其它区块的相似度度量。
3.根据权利要求1所述的面向企业经营活动的多源异构区块链质量评估模型的构建方法,其特征在于,所述的步骤2的执行过程包括如下步骤:
步骤2-1基于可信度理论的区块链内容评估:通过评估活动信息源、评论以及内容来表征信息的可信程度;
(1)基于源的信息可信度表征包括三部分:发布平台的可信度通过网站的可信度来表征;页面的可信度依据可信度传递理论,通过相关链接评估来表征当前页面的可信度;发布者的可信度是通过不断地知识积累,获取发布者的平均可信度;
(2)基于评论的信息可信度表征:首先对评论进行显性和隐性分类,然后利用词典的方法进行评论倾向性分析,最后得到基于评论的信息可信度表征结果;
(3)基于内容的可信度表征:以采用经营活动特征词典得出的信息可信度结果为主要条件,对信息进行可信度的排序,赋予相应的权重,最后得到基于内容特征的信息可信度表征结果;
步骤2-2基于源的信息可信度表征:
(1)信息网站的可信度
假设点击率越高的网站,可信度越高;由于用户在访问某些信息源时,会连带访问该信息源的某些页面,为平滑以上情况带来的点击率的提升,本发明设计信息源可信度模型如公式(9)所示:
其中,Site_R(i)为某个网站的可信度,hits()表示点击率,i表示网站中与企业经营活动相关栏目,j为该网站中所有企业经营活动栏目数,m表示网站的全部栏目数,k为某类网站数;
(2)信息页面的可信度
基于页面相关链接信息表征页面可信度:即页面中链接的可达性和所达页面的可用性来判断一个网页的可信度;具体模型如公式(10)所示:
其中,Page_R(iA,B,C)表示信息页面的可信度,A表示相关链接中可达链接的集合,B表示相关链接中不可达链接的集合,C表示链接所达页面中不可用页面的集合;可达性是指网页链接可以正常链接并打开指定的网页,可用性是指链接到的新网页具有足够的信息量和相关性;
(3)信息发布者的可信度
将能够收到信息的网络用户看为一个整体,最初认为数据接收用户是不知者(ignorant);随着信息在网络上的传播,这些用户可进一步分为两类:认为信息可信的用户(believed)以及认为信息不可信的用户(unbelieved);
将网络中的用户状态分为三类:
a)不知者(ignorant):该状态指在网络中,当一条信息尚未传播;或者,当信息发布之后,不知道该条信息的真假且还未作出判断的用户;
b)发布可信信息的用户(believed):有一定的知识储备之后,当看到信息后,作出判断,认为该发布者发布的信息是可信的;
c)发布不可信信息的用户(unbelieved):有一定的知识储备之后,当看到信息后,作出判断,认为该发布者发布的信息是不可信的;
信息传播过程中,用户间状态转换示意图转换过程如下:首次看到发布信息的用户被看做不知者(ignorant),在以某一时刻为起点的单位时间内,该条信息其他用户看到,该用户认为该信息是可信的概率为α;与此相反,该用户认为该信息是不可信的概率为β;随着时间的推移,自身学习的知识及认识的积累,用户对信息的认知状态都会发生改变;
因此,假设在以某一时刻为起点的单位时间内,可信用户认为该条信息是不可信的概率为γ,那么此时表现出,可信信息用户转换为不可信信息用户;与此同时,不可信信息用户认为该条信息是可信的概率为δ,那么不可信信息用户就转换为可信信息用户;因此,根据以上基于信息内容真假模型的交互规则建立如下方程组如公式(11)所示:
其中I(t),B(t),U(t)分别表示不知者用户、可信信息用户、不可信信息用户在t时刻的比例,且均为非负数;
在以上的交互规则中,用户对信息发布人的可信度衡量可以定义为:假设用户对该信息发布人的信任度为Ti(0≤Ti≤1),当其他用户看到该信息时,可以通过对该条消息的发布者的直观印象(对发布人的信任度Ti(0≤Ti≤1))来直接判断该信息是否可信,那么该发布信息者的平均可信度概率计算如公式(12)所示:
其中,N为用户总数,j为前一状态,i为后一状态;
不可信概率计算如公式(13)所示:
(4)基于源的可信度表征结果融合
通过对基于网站、页面和发布者的可信度表征结果进行融合,得到基于源的信息可信度,计算如公式(14)所示:
sou1、sou2和sou3分别代表基于网站、页面和发布者三者所占的权重。
步骤2-3基于评论特征的信息可信度表征:
通过计算评论外在表征来评估信息可信度,首先对评论作如下定义:
无效评论:不含有情感词汇或者与信息内容可信度无关的评论;
显性评论:含有可以明确表征可信度倾向性词汇的评论;
隐性评论:含有情感词汇但不具有明确表征可信度倾向词汇的评论;
(1)显性评论表征倾向性分析:采用了修饰词窗口策略调整情感强度来控制表征值
首先,设置正负两类计算器和一个滑动窗口,若当前分析词为情感词,则将该词依据具体情感倾向性置于对应的计算器,同时取出滑动窗口中的修饰词汇对当前情感词进行修饰的程度,得到该词对该句情感的贡献值;若在分析当前情感词时,滑动窗口中含有否定词,则将情感倾向性反转,用滑动窗口范围控制否定词的作用范围;最后,对整条评论倾向性进行计算得出情感倾向;计算如公式(15)所示:
其中,R_review_dominant表示某一用户发表的评论对信息可信度的表征值,N表示该条总评论的单句数目,R表示单句中可信表征的分值,D表示单句中可疑表征的分值,L表示单句长度;当单句情感分值位于(-0.1,+0.1)区间时,该评论的表征倾向较弱,不予考虑;
(2)隐性评论表征倾向性分析:对于隐性评论的表征倾向分析分两个步骤进行:一是计算评论与信息的相关性;二是对于相关的隐性评论计算表征倾向值;
1)评论与信息的相关性
采用概率检索模型来计算信息与评论的相关性,即将评论和信息看作是检索问题;将评论C假设为查询串,信息I当作文档,则信息集合构成文档集合;在经典概率检索模型的基础上,引入LDA模型来发现的隐含主题集合对P(w|I)进行平滑,具体计算如公式(16)所示:
其中,I是信息,C为I的评论集合中的一条,w是C中的一个词,P(C|I)为I产生C的概率,p(w|I)为w在I中出现的概率。tI为信息I的主题集合,t为tI中的一个主题,λ为参数,p(w|t)为词w在主题t中出现的概率,p(t|I)主题t在信息I中出现的概率;对信息I中的所有评论均计算P(C|I),若概率值大于某一阈值,则判定相关评论;
2)相关隐性评论表征倾向
除了显性情感词外,一些隐性词语同样具有态度特征,对于隐性评价表征倾向值计算如公式(17)所示:
R_review_dominant(R)=∑i(1+p(ai)/count(a|R))×w(ai) (17)
其中,a表示段落、句子或者词,R则对应表示为整条评论、段落或者句子,ai的情感得分表示为w(ai),p(ai)表示情感单元ai在R中的位置,count(a|R)表示R中含有a的总数;
(3)基于评论的可信度表征结果融合
融合的过程分两步:一是获取评论的对象并进行分类;二是分类后的评论结果融合,融合方式如公式(18)所示:
R_review=∑(i,j)Tar(Ri)*Rj+∑Rk (18)
其中,R_review是基于评论得出对于该条信息的可信度,Tar(Ri)是被评论的对象i对信息可信度的表征值,Rj是某个评论j对i的可信度的表征值,Rk是对信息直接发表评论的可信度表征值;
步骤2-4基于内容特征的信息可信度表征:使用数据内容特征来表征信息可信度的方法;
假设:(1)特征词决定信息的专业性,即信息内容中企业活动特征词汇越多,则说明信息的专业性越强;
(2)信息的专业性决定信息的可信度,即越专业的信息则可信度越高;
内容的可信度计算如公式(19)所示:
其中,word_f、word_s和word_t分别表示信息中出现的普通词、特征词和专业词的数目,word_all为信息中总的词数,web_word为该页内容总词数,con1、con2和con3分别表示相关权重;μ、ν为信息类型特征系数;
最后,区块链中信息可信度为基于源的可信度,基于评论的可信度与基于内容的可信度综合衡量,如公式(20)所示:
Accuracy=accu1R_source(i)+accu2R_review+accu3R_content(i) (20)
其中accu1>accu3>accu2,由于信息源是衡量信息可信度的关键因素,如官方信息是百分之百可信,因此信息源的可信度所占比重最大,内容可信度次之,由于评论取决于评论者的主观性,所以基于评论的可信度所占比重最小。
4.根据权利要求1所述的面向企业经营活动的多源异构区块链质量评估模型的构建方法,其特征在于,步骤3中所述的通过信息量评估区块链信息价值,包括如下步骤:
(1)对区块链中企业活动信息的有效性度量,采用计算信息量的方式,通过区块中经营活动信息量来衡量其信息有效性;根据信源的信息选择不定度的测定,确定信息表征信源的不定度,随机事件的相关性质如下:
性质1信息量没有负值,且该值越小表示所携带的信息量越小,值越大,信息量越大;
性质2信息量具有可加性;根据该性质,可以认为区块链结点的信息量是块中各活动信息的信息量之和;
(2)在区块链信息量计算过程中,信息量表示区块所含信息的多少,是活动信息有效性的一种度量;各个区块可以看作为一个离散信源,若X为离散随机变量(某条链),则随机变量X的取值集合及其概率测度pi如公式(21)所示:
X={x1,x2,...,xn},pi=P[X=xi] (21)
其中xi是随机变量X可能的取值,离散随机变量X的概率空间如公式(22)所示:
其中,pi是区块中活动信息发生的概率,信息量计算如公式(23)所示:
其中,X是一个随机变量,Validity是区块所含信息量,p(x)是变量X的概率分布函数;通过一个非负的值表述信息的不确定程度,信息量值的大小直接决定信息量的多少;针对某一区块链,可以通过该值来衡量其信息量,其值越大,该区块链所含的信息量越多,该区块链的价值更大。
5.根据权利要求1所述的面向企业经营活动的多源异构区块链质量评估模型的构建方法,其特征在于,步骤4中所述的企业区块链质量评估模型实现过程如下:
针对步骤1至步骤3获取的区块链所存企业经营活动信息的相似度、可信度以及价值参数赋权:采用加权平均法综合上述三种评估指标,采用区块表述规范相似程度、基于源的区块可信度表征以及区块所含价值的加权平均来度量区块链的综合质量;最终评估模型如公式(24)所示:
Q=q1CoHerence+q2Accuracy+q3Validity,Q∈(0,1) (24)
其中,q1、q2和q3分别代表这三种评估指标的权重,其中权重q3最大,其次是信息可信度,一致性所占比重最小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210758926.1A CN114997723A (zh) | 2022-06-30 | 2022-06-30 | 面向企业经营活动的多源异构区块链质量评估模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210758926.1A CN114997723A (zh) | 2022-06-30 | 2022-06-30 | 面向企业经营活动的多源异构区块链质量评估模型的构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114997723A true CN114997723A (zh) | 2022-09-02 |
Family
ID=83020814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210758926.1A Pending CN114997723A (zh) | 2022-06-30 | 2022-06-30 | 面向企业经营活动的多源异构区块链质量评估模型的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114997723A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117575372A (zh) * | 2024-01-16 | 2024-02-20 | 湘江实验室 | 一种基于知识图谱的供应链质量管理系统 |
-
2022
- 2022-06-30 CN CN202210758926.1A patent/CN114997723A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117575372A (zh) * | 2024-01-16 | 2024-02-20 | 湘江实验室 | 一种基于知识图谱的供应链质量管理系统 |
CN117575372B (zh) * | 2024-01-16 | 2024-04-12 | 湘江实验室 | 一种基于知识图谱的供应链质量管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kaliyar | Fake news detection using a deep neural network | |
Bourigault et al. | Representation learning for information diffusion through social networks: an embedded cascade model | |
Yin et al. | Deep fusion of multimodal features for social media retweet time prediction | |
Vydiswaran et al. | Content-driven trust propagation framework | |
Abebe et al. | Generic metadata representation framework for social-based event detection, description, and linkage | |
CN104123352A (zh) | 面向微博的话题层次用户影响力度量方法 | |
CN108228853A (zh) | 一种微博谣言识别方法及系统 | |
Zhang et al. | STCS lexicon: Spectral-clustering-based topic-specific Chinese sentiment lexicon construction for social networks | |
Li et al. | Twitter event summarization by exploiting semantic terms and graph network | |
Wang et al. | Information diffusion prediction with network regularized role-based user representation learning | |
KR101088710B1 (ko) | 온라인 커뮤니티 사용자 간 상호작용 기반 온라인 커뮤니티 포스트 검색 방법, 장치 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체 | |
Chen et al. | Evaluating the rationales of amateur investors | |
Agarwal et al. | Graphnli: A graph-based natural language inference model for polarity prediction in online debates | |
Rana et al. | A survey on sentiment classification algorithms, challenges and applications | |
Sun et al. | Conversational structure aware and context sensitive topic model for online discussions | |
CN114997723A (zh) | 面向企业经营活动的多源异构区块链质量评估模型的构建方法 | |
Halimi et al. | Real-time privacy risk quantification in online social networks | |
Liang et al. | Personalized recommender systems integrating social tags and item taxonomy | |
CN115033803B (zh) | 一种基于元路径的社交媒体用户推荐方法 | |
Wang | Textual information classification of campus network public opinion based on BILSTM and ARIMA | |
Cunningham et al. | Assessing network representations for identifying interdisciplinarity | |
Wang et al. | Quality-sensitive training! social advertisement generation by leveraging user click behavior | |
Rezaeenour et al. | Developing a new hybrid intelligent approach for prediction online news popularity | |
CN113722484A (zh) | 基于深度学习的谣言检测方法、装置、设备及存储介质 | |
Zhao et al. | Detecting fake reviews via dynamic multimode network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |