CN101021869A - 一种数据价值定量评价方法 - Google Patents
一种数据价值定量评价方法 Download PDFInfo
- Publication number
- CN101021869A CN101021869A CN 200710051681 CN200710051681A CN101021869A CN 101021869 A CN101021869 A CN 101021869A CN 200710051681 CN200710051681 CN 200710051681 CN 200710051681 A CN200710051681 A CN 200710051681A CN 101021869 A CN101021869 A CN 101021869A
- Authority
- CN
- China
- Prior art keywords
- data
- value
- cos
- time
- computational
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据价值定量评价方法,其步骤为:①计算数据本身属性量化值SelfAttd、数据供给能力量化值Pd、数据需求状况量化值Acqd;②根据步骤(1)得到的三个量化值,通过公式(I)得到数据d在时间Tn时的数据价值V(d)Tn大小;③间隔计算周期t,再重复上述的步骤①~②,如此循环,得到数据在指定时间段的数据价值序列。本发明通过数据的供给能力,数据的需求状况,以及数据本身的属性进行量化分析,得到指定数据在指定时间的数据价值。根据该评价方法所得出的结果可以用来比较数据的重要性,从而为数据调度与管理提供策略依据。本发明可以根据数据价值的特性,调整数据的供给能力,使得数据的供给能力和需求状况达到平衡,从而提高存储资源的利用效率。V(d)Tn=SelfAttd*Pd*Acqd=[Nd 2*(1+M cosθd)]*f(t)d*(sized/B)(I)。
Description
技术领域
本发明属于计算机领域的信息存储技术,具体涉及一种数据价值定量评价方法。
背景技术
数据的访问呈现出这样一种规律,即数据的使用或者访问频率并不是一成不变的。有些数据在创建之初,访问频率比较高,但是随着时间的推移,访问频率逐渐变为零;有些数据则在整个存在的阶段持续存在一定的访问频率。有统计表明,大型数据中心中90%以上的数据在创建60天以后,就不再被访问了。如果大量不被访问的数据存在于高端的存储设备之上,必然造成存储资源的浪费。基于这种规律,有必要对存储系统中的每个数据进行量化分析,这种量化的结果能够反映系统中数据的重要性程度,从而能够为数据调度与数据管理提供策略支持。这种根据数据重要性在指定时间对数据进行量化分析的结果,就是数据在指定时间的数据价值。
目前,针对数据价值的评价,没有一个公认的评价模型。现有的数据价值评价体系主要分为两种,一种是以澳大利亚墨尔本大学Daniel Moody等人提出的定性的数据价值评价方式为代表(参见Daniel Moody,Petal,Walsh.Measuring the Value of Information:an Assert Valuation Approach.The seventhEuropean Conference on Information System(ECIS`99),Copenhagen BusinessSchool,Frederiksberg,Denmark,23-25 June,1999),这种方式分析了数据价值与数据的共享程度、数据的使用频率、数据与其他数据关联程度等因素的关系;这种方式能够在一定程度上对数据价值进行比较,但是由于没有量化结果,因此该方法只能对同质的属性进行比较,而不能对任意两个数据直接进行比较。另一种是以IBM公司阿尔马登研究中心的Yin Chen等人提出的定量的数据价值评价方法(参见Ying Chen.Information Value for Infor-mation Lifecycle Management.Proceedings of the 2nd International Confer-enceon Autonomic Computing,2005),该方法基于数据的历史使用状况的数据价值评价方式,但是这种方式仅仅考虑数据的历史使用情况,对影响数据价值其他方面的因素则没有考虑,因此这种评价方式的结果带有一定的片面性。
发明内容
本发明的目的是提供一种数据价值定量评价方法,该方法能够定量的衡量数据重要程度,从而为数据调度与数据管理提供依据。
本发明提供的数据价值定量评价方法,包括以下步骤:
(1)计算数据本身属性量化值SelfAttd、数据供给能力量化值Pd、数据需求状况量化值Acqd:
(1.1)按照下式计算数据本身属性量化值SelfAttd,d表示所考察的数据:
SelfAttd=Nd 2*(1+M cosθd),其中,Nd为在(Tn-t,Tn)时间段内指定数据的用户访问数目,Ascd为数据关联度,Tn为计算数据价值的时间点,t为计算周期;每个数据每隔t/n时间内被访问的次数组成了一个向量,即Ai(ai1,ai2,…ain),i=1,2…p,其中n为将时间周期t等分的数目,aij表示数据I在时间段
中数据d被访问的次数,j=0,1,…n-1,而p为系统中数据的总数目;;
d≠j,为数据d与数据j的数据关联度,其中
从而可以得到向量Cd=(cosθd,1,cosθd,2,...,cosθd,d-1,cosθd,d+1,...,cosθd,p),向量Cd中的每个元素分别表示数据d与系统中其它数据的数据关联度;定义数据d的数据关联度Ascd是数据d与存储系统中其它数据的数据关联度的综合量化值,采用下面的方法来计算:Ascd=(1+Mcosθd),其中M为向量Cd中cosθdj大于设定的阈值ε的元素的个数,而
(1.2)计算数据供给能力量化值Pd
Pd=Sized/Bd,其中Sized表示数据d的大小,Bd表示存放数据d的存储设备所能提供的带宽,它包含了数据d所有副本所能提供的带宽,即若数据d有r个副本,系统能为每个副本所提供的带宽为bl,则系统能够提供数据d的带宽
(1.3)计算数据需求状况量化值Acqd
(2)根据步骤(1)得到的三个量化值,通过下面的公式得到数据d在时间Tn时的数据价值V(d)Tn大小:
V(d)Tn=SelfAttd*Pd*Acqd=[Nd 2*(1+M cosθd)]*f(t)d*(sized/B);
(3)间隔计算周期t,再重复上述的步骤(1)~(2),如此循环,得到数据在指定时间段的数据价值序列。
针对以上数据价值评价方法中存在的问题,本发明提出了一种新型的数据价值评价方法。这种评价方法认为影响数据价值的因素包含三个方面,即数据的供给能力,数据的需求状况,以及数据本身的属性,其中数据的供给能力是指存储系统对提供数据的能力,具体包含存储系统所能提供的带宽及数据大小等因素;数据的需求状况则是指用户对该数据的访问状况,用数据访问频率来描述;而数据本身的属性则是指数据能给用户带来多少信息,可以通过数据的访问用户数、数据间的关联程度等因素来表示。同时该评价方式认为数据价值主要由数据本身的属性决定,同时在数据供给能力和数据需求状况的对比关系下进行变化,也即数据价值随数据供给能力增大而减小,随数据需求增大而增大。通过对上述三个方面进行的量化分析,得到指定数据在指定时间的数据价值。根据该评价方法所得出的结果可以用来比较数据的重要性,从而为数据调度与管理提供策略依据。进一步的,根据本发明所阐述内容,可以根据数据价值的特性,调整数据的供给能力,使得数据的供给能力和需求状况达到平衡,从而提高存储资源的利用效率。
附图说明
图1是数据价值序列构建图;
图2是数据关联度量化值构建图。
具体实施方式
下面结合附图和具体的实施方式对本发明做进一步说明。
本发明的技术思路是:寻求一种工程实践性强的数据价值的定量评价方法。该技术通过量化数据属性、数据供给能力和数据需求状况来确定数据在任意时间的数据价值。通过本发明得出的数据价值结果,可用于数据重要性排序,并为数据调度提供依据。
数据价值由数据本身所包含的内容决定的,同时其变化是由数据的供求关系所决定的:数据价值随数据供给能力增大而减小,随数据需求增大而增大。本发明通过对上述三个方面的因素进行量化分析得到数据价值的结果,该结果能够反应数据价值的变化规律。如图1所示,本发明方法包括以下几个步骤:
(1)计算数据本身属性量化值SelfAttd、数据供给能力量化值Pd、数据需求状况量化值Acqd
(1.1)计算数据本身属性量化值SelfAttd
数据本身属性对数据价值的影响由两方面因素决定:某一时间段内指定数据d的用户访问数目Nd和数据关联度Ascd;
计算时,数据的各项属性值取自时间段(Tn-t,Tn),其中Tn为计算数据价值的时间点,t为计算周期,其值为1天,而Tn-t则表示上次计算数据价值的时间点;
通过存储系统的日志,可以得到在这段时间访问指定数据的用户数目Nd;访问用户数目对数据本身属性量化值的影响用公式Ud=Nd 2计算;
数据关联度描述的是数据与存储系统中其它所有数据的关联程度;如果一个数据在被访问后的一个充分小的时间内另一个数据也被访问,而且每次如此,则称这两个数据是关联的。数据关联度的计算步骤如图2所示。在计算上,这个充分小的时间选取为t/n,n为将时间周期t等分的数目,根据实际测试,推荐取10,也即这个充分小的时间为1/10天。在时间段(Tn-t,Tn)内,每个数据每隔t/n时间内被访问的次数组成了一个向量,即Ai(ai1,ai2…ain),i=1,2…p,其中aij表示数据i在时间段
中数据d被访问的次数,j=0,1,…n-1,而p为系统中数据的总数目。称 d≠j为数据d与数据j的数据关联度,其中
从而可以得到向量Cd=(cosθ d,1,cosθd,2,...,cosθd,d-1,cosθd,d+1,...cosθd,p),其中向量Cd中的每个元素分别表示数据d与系统中其它数据的数据关联度(不包括数据d本身)。定义数据d的数据关联度Ascd是数据d与存储系统中其它数据的数据关联度的综合量化值,采用下面的方法来计算:Ascd=(1+M cosθd):M为向量Cd中cosθdj大于某一阈值ε的元素的个数,而
i≠d;根据实际测试,我们推荐ε=0.37;
通过对上述两种因素的量化,得到数据本身属性量化值SelfAttd=Ud*Ascd=Nd 2*(1+M cosθd);
(1.2)计算数据供给能力量化值Pd
影响数据供给能力的因素主要包含数据的大小以及系统对该数据所能提供的带宽:数据供给能力增大,数据价值减小;反之,数据供给能力减小,数据价值减小;本发明通过对这两方面因素的综合考量,得出数据供给能力量化值;
数据供给能力量化值用公式Pd=Sized/Bd来计算,其中Sized表示数据d的大小,单位为字节;Bd表示存放数据d的存储设备所能提供的带宽,单位为字节/秒:它包含了数据d所有副本所能提供的带宽,即若数据d有r个副本,系统能为每个副本所提供的带宽为bi,则系统能够提供数据d的带宽
(1.3)计算数据需求状况量化值Acqd
影响数据需求状况的因素是用户对该数据的访问特征:对数据访问频率增大,也即数据需求状况增大,则数据价值增大;反之,对数据访问频率减小,也即数据需求状况减小,则数据价值减小;通过考察数据访问的时间间隔,并以此来决定数据需求状况量化值;
数据需求状况量化值用公式
来计算,其中ΔTd表示数据d上次被访问和现在相距的时间间隔;
(2)根据步骤(1)得到的三个量化值,得出数据在某个时刻的数据价值V(d)Tn
通过步骤(1)中得到的三个量化值,由下面的公式计算得到数据d在时间Tn时的数据价值V(d)Tn大小:
V(d)Tn=SelgAttd*Pd*Acqd=[Nd 2*(1+M cosθ)]*f(t)d*(sized/B);
(3)间隔计算周期t,再重复上述的步骤(1)~(2),如此循环,得到数据在指定时间段的数据价值序列。
通过进一步的研究可以得到一个使得数据供需达到平衡的数据价值范围:如果数据在某一时刻的数据价值超过了该指定的范围,则其供给能力超过需求状况;反之,若低于该范围,其供给能力则不能满足当前的数据需求状况。根据本发明所阐述的数据价值定量评价方法,可以通过改变数据的供给能力而改变数据价值的大小,使得数据价值能够始终保持在该指定的范围内。这种方法在客观上保证了数据的供给能力和数据的需求状况保持平衡。
应当理解的是,对本发明技术所在领域的普通技术人员来说,可以根据本发明的技术方案及其构思进行相应的等同改变或替换,而所有这些改变或替换,都应属于本发明所附权利要求的保护范围。
实例:
表1给出了数据D1在2006年11月1日和2006年11月2日中的各项属性,包括数据大小,系统为该数据所提供的带宽,据上次数据访问的时间间隔以及在当天数据访问的用户数目。而表2和表3分别提供了系统中所有数据在这两天内各时间段的访问次数。系统中一共有5个数据,分别为D1,D2,D3,D4以及D5。将一天的时间等分为10段,每段的时间为144分钟(0.1天=2.4小时=144分钟),表2和表3中0~9分别表示一天中的这10个时间段。例如第4个时间段表示从该天的第576分钟到第720分钟这段时间,也即从当天9时36分至12时整这段时间。
表1 数据D1的各项属性
表2 2006年11月1日系统中所有数据在各时间段的访问次数
表3 2006年11月2日系统中所有数据在各时间段的访问次数
下面计算Tn=2006年11月2日零时零分数据D1的数据价值V(D1)Tn:
(1)计算数据本身属性量化值、数据供给能力量化值、数据需求状况量化值
(1.1)计算数据D1本身属性量化值SelfAttD1
访问用户数目对数据价值量化值为UD1=ND1 2=12=1;
计算数据D1的数据关联度AscD1
数据D1的访问次数向量A4D1=(0,0,1,2,0,0,0,1,0,0);数据D2的访问次数向量AD2=(1,0,1,2,0,0,0,1,0,1);
数据D1与数据D2的关联度为:
类似的可以计算出数据D1与D3、D4、D5的关联度分别为:
cosθD1,D3=0.274,cosθD1,D4=0,cosθD1,D5=0;
从而得到向量CD1=(0.866,0.274,0,0);由此得到CD1中cosθD1,Di大于等于ε=0.37的个数M=1;而
从而得到数据D1的数据关联度AscD1=1+McosθD1=1+1*0.285=1.285;
综上,得到数据D1本身属性量化值SelfAttD1
SelfAttD1=Nd 2*(1+M cosθd)=1*1.285=1.285;
(1.2)计算数据D1供给能力量化值PD1=SizeD1/BD1=10/1=1;
(1.3)计算数据D1需求状况量化值
(2)计算数据D1在Tn=2006年11月2日零时零分数据价值V(Dl)Tn:
V(D1)Tn=SelfAttd*Pd*Acqd=1.285*11.1*1=14.26.
休眠t=1天后,通过上述的方法可以得到数据D1在Tn+t=2006年11月3日零时零分的数据价值V(D1)Tn+1=679.6。
Claims (1)
1、一种数据价值定量评价方法,包括以下步骤:
(1)计算数据本身属性量化值SelfAttd、数据供给能力量化值Pd、数据需求状况量化值Acqd:
(1.1)按照下式计算数据本身属性量化值SelfAttd,d表示所考察的数据:
SelfAttd=Nd 2*(1+Mcosθd),其中,Nd为在(Tn-t,Tn)时间段内指定数据的用户访问数目,Ascd为数据关联度,Tn为计算数据价值的时间点,t为计算周期;每个数据每隔t/n时间内被访问的次数组成了一个向量,即Ai(αi1,αi2,…αin),i=1,2…p,其中n为将时间周期t等分的数目,αij表示数据I在时间段
中数据d被访问的次数,j=0.1,…n-1,而p为系统中数据的总数目;;
为数据d与数据j的数据关联度,其中
从而可以得到向量Cd=(cosθd,1,cosθd,2,…,cosθd,d-1,cosθd,d+1…,cosθd,p),向量Cd中的每个元素分别表示数据d与系统中其它数据的数据关联度;定义数据d的数据关联度Ascd是数据d与存储系统中其它数据的数据关联度的综合量化值,采用下面的方法来计算:Ascd=(1+Mcosθd),其中M为向量Cd中cosθdj大于设定的阈值ε的元素的个数,而
(1.2)计算数据供给能力量化值Pd
Pd=Sized/Bd,其中Sized表示数据d的大小,Bd表示存放数据d的存储设备所能提供的带宽,它包含了数据d所有副本所能提供的带宽,即若数据d有r个副本,系统能为每个副本所提供的带宽为bi,则系统能够提供数据d的带宽
(1.3)计算数据需求状况量化值Acqd
(2)根据步骤(1)得到的三个量化值,通过下面的公式得到数据d在时间Tn时的数据价值V(d)Tn大小:
V(d)Tn=SelfAttd*Pd*Acqd=[Nd 2*(1+Mcosθd)]*f(t)d*(sized/B);
(3)间隔计算周期t,再重复上述的步骤(1)~(2),如此循环,得到数据在指定时间段的数据价值序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200710051681 CN101021869A (zh) | 2007-03-15 | 2007-03-15 | 一种数据价值定量评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200710051681 CN101021869A (zh) | 2007-03-15 | 2007-03-15 | 一种数据价值定量评价方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101021869A true CN101021869A (zh) | 2007-08-22 |
Family
ID=38709632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200710051681 Pending CN101021869A (zh) | 2007-03-15 | 2007-03-15 | 一种数据价值定量评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101021869A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103457929A (zh) * | 2013-07-26 | 2013-12-18 | 苏州亿倍信息技术有限公司 | 一种数据访问处理方法及系统 |
CN106355031A (zh) * | 2016-09-21 | 2017-01-25 | 大连大学 | 基于层次分析法的数据价值度计算方法 |
CN109062514A (zh) * | 2018-08-16 | 2018-12-21 | 郑州云海信息技术有限公司 | 一种基于命名空间的带宽控制方法、装置和存储介质 |
CN110263073A (zh) * | 2019-06-20 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 一种数据价值评估方法及相关装置 |
-
2007
- 2007-03-15 CN CN 200710051681 patent/CN101021869A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103457929A (zh) * | 2013-07-26 | 2013-12-18 | 苏州亿倍信息技术有限公司 | 一种数据访问处理方法及系统 |
CN106355031A (zh) * | 2016-09-21 | 2017-01-25 | 大连大学 | 基于层次分析法的数据价值度计算方法 |
CN109062514A (zh) * | 2018-08-16 | 2018-12-21 | 郑州云海信息技术有限公司 | 一种基于命名空间的带宽控制方法、装置和存储介质 |
CN109062514B (zh) * | 2018-08-16 | 2021-08-31 | 郑州云海信息技术有限公司 | 一种基于命名空间的带宽控制方法、装置和存储介质 |
CN110263073A (zh) * | 2019-06-20 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 一种数据价值评估方法及相关装置 |
CN110263073B (zh) * | 2019-06-20 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 一种数据价值评估方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Environmental regulation, green technological innovation, and eco-efficiency: The case of Yangtze river economic belt in China | |
Polebitski et al. | Seasonal residential water demand forecasting for census tracts | |
Anderson et al. | Electricity consumption and household characteristics: Implications for census-taking in a smart metered future | |
Lahiri et al. | Forecasting consumption: The role of consumer confidence in real time with many predictors | |
Asgharian et al. | The importance of the macroeconomic variables in forecasting stock return variance: A GARCH‐MIDAS approach | |
Beenstock et al. | Does the appointment of judges increase the output of the judiciary? | |
Newsham et al. | A comparison of four methods to evaluate the effect of a utility residential air-conditioner load control program on peak electricity use | |
Combes et al. | The costs of agglomeration: Land prices in French cities | |
Huang et al. | The impact of the global financial crisis on off-farm employment and earnings in rural China | |
Jongwanich | The determinants of household and private savings in Thailand | |
CN108470233B (zh) | 一种智能电网的需求响应能力评估方法和计算设备 | |
Nicita et al. | Who benefits and how much?: how gender affects welfare impacts of a booming textile industry | |
Byrne et al. | Are solar cities feasible? A review of current research | |
Dias et al. | Inflation expectations in the euro area: are consumers rational? | |
CN109858728A (zh) | 基于分行业用电特性分析的负荷预测方法 | |
McGuinness et al. | Examining the link between skill shortages, training composition and productivity levels in the construction industry: evidence from Northern Ireland | |
Obringer et al. | Managing the water–electricity demand nexus in a warming climate | |
CN104834975A (zh) | 一种基于智能算法优化组合的电网负荷率预测方法 | |
CN101021869A (zh) | 一种数据价值定量评价方法 | |
Liu et al. | Building stock dynamics and the impact of construction bubble and bust on employment in China | |
Girma et al. | Heterogeneity in returns to schooling: Econometric evidence from Ethiopia | |
CN113450031B (zh) | 居民智慧用能服务潜在台区选取方法及装置 | |
CN107832937A (zh) | 金融科技中心指数分析方法、存储介质、及设备 | |
CN110070256A (zh) | 基于critic方法的零电量用户排查优先度权重计算方法 | |
Issa et al. | Detailed analysis of electricity, water, and gas consumption quantities and costs in Toronto’s public schools |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |