CN111681021A - 一种基于gca-rfr模型的数字内容资源价值评估方法 - Google Patents

一种基于gca-rfr模型的数字内容资源价值评估方法 Download PDF

Info

Publication number
CN111681021A
CN111681021A CN202010298653.8A CN202010298653A CN111681021A CN 111681021 A CN111681021 A CN 111681021A CN 202010298653 A CN202010298653 A CN 202010298653A CN 111681021 A CN111681021 A CN 111681021A
Authority
CN
China
Prior art keywords
value
digital content
index
indexes
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010298653.8A
Other languages
English (en)
Inventor
倪渊
蔡功山
赵艳
张健
杨露
高宇东
高霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN202010298653.8A priority Critical patent/CN111681021A/zh
Publication of CN111681021A publication Critical patent/CN111681021A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0206Price or cost determination based on market factors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Complex Calculations (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)

Abstract

本发明公开了一种基于灰色关联分析和随机森林回归GCA‑RFR模型的数字内容资源价值评估方法,步骤为:以“价值链理论”为主线探索内容资源价值的影响因素,并据此构建内容资源价值评估指标体系;借助Python爬取互联网电影资料库的相关数据,并通过删除、替换数据单元格方式对数据进行清洗,获取有效数据;以广义灰色关联分析法进行指标验证及筛选,获取最终有效的指标体系;基于熵值‑邓氏灰色关联分析法进行初始样本筛选,获取最终的样本集进行模型训练;基于上述指标体系和训练数据,不断优化随机森林回归RFR模型以构建数字内容资源价值评估方法。本发明实现数字内容资源价值评估功能,具有较高的科学性、有效性和广泛适用性。

Description

一种基于GCA-RFR模型的数字内容资源价值评估方法
技术领域
本发明属于规范内容资源交易领域,涉及一种基于灰色关联分析和随机森林回归模型(GCA-RFR)的数字内容资源价值评估方法。
背景技术
据《2017—2018中国数字出版产业年度报告》显示,数字出版行业已跨越“流量为王”到达“内容为王”的新时代,内容生产逐渐趋于专业化、精品化。随着《内容资源数据化加工》等10项国家标准的立项,数字内容出版将日趋规范。另外,网络文学IP(Intellec tualProperty)运营生态逐渐成熟,在纸质图书基础上,改编电影、电视剧、动漫、游戏等多元化内容IP开发模式屡见不鲜。但数字内容产业作为一个新兴领域,呈现出一种蓬勃发展的同时。面临数字内容资源激增、数字内容交易混乱、价值衡量缺乏规范性等问题,一套规范化的数字内容资源价值评估指标体系和价值评估方法是保障数字内容资源市场健康有序发展的重要工具。因此构建一种基于灰色关联分析和随机森林回归GCA-RFR模型,以此评估内容资源价值是确保数字交易平台业蓬勃健康发展关键因素。
现阶段我国内容资源交易主要存在以下问题:①数字内容资源质量参差不齐,尚无明确的出版标准;②多与其他服务(如广告、会员等)捆绑变现,具体价值难以区分;③数字内容资源全生命周期涉及因素较多,有些主观因素难以计量;④数字内容资源核心要素——内容版权的界定及其价值评估尚无统一标准。为此首先以“价值链理论”为主线探索内容资源价值的影响因素,并据此构建内容资源价值评估指标体系,其次以灰色关联分析法(简称GCA)进行指标验证及初始样本筛选,最后以随机森林回归模型(简称RFR)为数字内容资源价值进行评估。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提出一种基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法,以解决上述背景技术中提出的问题。
为达到以上目的,本发明采取的技术方案是:
一种基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法,该方法包括以下步骤:
步骤1:构建数字内容资源价值评估指标体系;
步骤2:数据获取与数据处理;
步骤3:基于广义灰色关联分析法进行指标验证及筛选;
步骤4:在步骤3的基础上,基于熵值-邓氏灰色关联分析法进行初始样本筛选;
步骤5:采用随机森林回归RFR模型进行训练,通过不断优化模型以构建数字内容资源价值评估方法。
进一步,所述步骤1具体为:以“价值链理论”为主线,梳理数字内容资源生产制作、版权确认、市场交易、传播效果的4个环节,并以成本价值、版权价值、市场价值和传播价值为一级指标,然后再将一级指标细分为13个二级指标,构建数字内容资源价值评估指标体系。
进一步,所述13个二级指标为:设备投资、技术投资、人力投资、专业化、时效性、丰富度、版权范围、流行性、垄断性、网络外部性、交互性、便捷性和易获得性。
进一步,所述步骤2具体为:选取了互联网电影资料库(简称IMDb)平台作为数据来源平台,抓取与评估指标对应的相关数据250条,并对获取的数据进行初步清洗和标准化处理:对获取的多余列项字段数据进行删除,对部分行项缺失字段数据进行人工查证及填补,对查而未得的数据进行样本剔除,对数据的格式和形式进行标准化处理,最后获取218条有效数据。
进一步,所述步骤3具体为:以影片总票房表征数字内容资源价值,运用广义灰色关联分析探究所选13个二级指标与数字内容资源价值的关系,从整体、全局视角验证指标体系的合理性,并在此基础上进行有效指标的筛选;首先计算13个二级指标与数字内容资源价值的灰色绝对关联度ε0i;其次计算13个二级指标与数字内容资源价值的灰色相对关联度γ0i;最后通过13个二级指标与数字内容资源价值的灰色绝对关联度和灰色相对关联度计算出灰色综合关联度ρ0i;由于灰色综合关联度均大于0.5,因此将指标体系的13个二级指标均定义为有效指标。
进一步,计算13个二级指标与数字内容资源价值的灰色绝对关联度ε0i的具体过程为:
根据上述的评估指标体系和有效数据样本,以影片总票房作为参考数列X0,13个二级指标作为比较序列Xi,其函数形式如下:
X0=(x0(1),x0(2),…,x0(n)) (1)
式中,x0(n)代表参考数列的初始值,n代表样本个数;
Xi=(xi(1),xi(2),…,xi(n)),i=1,2,…,m (2)
式中xi(n)代表比较数列的初始值,n代表样本个数,i代表二级指标的编号,m为二级指标个数,n最大取218,m最大取13;
根据已确定的参考数列X0和比较数列Xi,分别求出其始点零化像
Figure BDA0002453159060000031
其函数形式如下:
Figure BDA0002453159060000032
Figure BDA0002453159060000033
式中,
Figure BDA0002453159060000041
代表参考数列的始点零化像,n代表样本个数,
Figure BDA0002453159060000042
代表比较数列的始点零化像,n代表样本个数,i代表二级指标的编号,
根据广义灰色关联度的定义,求出参考数列X0与比较数列Xi的灰色绝对关联度ε0i,其函数形式如下:
Figure BDA0002453159060000043
其中|S0|、|Si|和|Si-S0|的函数形式分别为:
Figure BDA0002453159060000044
Figure BDA0002453159060000045
Figure BDA0002453159060000046
式中,S0代表参考数列始点零化像的有向面积,Si代表比较数列始点零化像的有向面积,k代表1~n的常数,
Figure BDA0002453159060000047
代表第k个参考数列的始点零化像,
Figure BDA0002453159060000048
代表第k个比较数列的始点零化像。
进一步,计算13个二级指标与数字内容资源价值的灰色相对关联度γ0i的具体过程为:
根据参考数列X0和比较序列Xi,分别求出其初值像X′0和X′i的函数表达式,其函数形式如下:
Figure BDA0002453159060000049
Figure BDA00024531590600000410
采用上式(6)(7)(8)的计算方法分别求出|S′0|、|S′i|以及|S′i-S′0|的函数表达式,再代入下式(11)可得出灰色相对关联度γ0i
Figure BDA00024531590600000411
式中,S′0代表参考数列初始值像的有向面积,S′i代表比较数列初始值像的有向面积。
进一步,计算13个二级指标与数字内容资源价值的灰色综合关联度ρ0i的计算公式为:
ρ0i=θε0i+(1-θ)γ0i (12)
其中,θ为绝对量和相对量的相对比重,若对绝对量给予高度重视,则将θ取大一些,相反,若对相对量给予高度重视,则将θ取小一些,取θ=0.5。
进一步,所述步骤4具体为:首先计算各个评价指标的熵值Hi,然后根据熵值分别求解各个指标的指标权重wi;其次,选择一条数据作为预评估样本Z0,其他数据作为可供筛选样本Zk,分别对其进行标准化处理,其中,规定影响作用为正的指标为效益型指标,影响作用为负的指标为成本型指标,计算预评估样本Z0与可供筛选样本Zk和二级指标上的关联系数ski;最后根据关联系数ski以及指标权重wi求出各个样本数据的关联度γk,并将γk≥0.88的样本构成模型样本集T。
进一步,计算各个评价指标的熵值Hi,然后根据熵值分别求解各个指标的指标权重wi的具体过程为:
Figure BDA0002453159060000051
式中,Hi代表评价指标的熵值,xki代表第k个样本的第i个指标值,fki代表第i项指标下第k个样本所占比重,m为二级指标个数,n为样本个数;
上式需满足以下条件:当fki=0时,fki ln fki=0,并将熵值Hi代入下式获得指标权重wi,其函数形式如下:
Figure BDA0002453159060000052
进一步,((计算预评估样本Z0与可供筛选样本Zk和二级指标上的关联系数ski的公式为:
Figure BDA0002453159060000061
式中,∣z0(i)-Zk(i)∣为预评估样本与可供筛选样本在第i个指标上的差值的绝对值,max1≤k≤n max1≤i≤m∣z0(i)-Zk(i)∣为两级最大差,min1≤k≤n min1≤i≤m∣z0(i)-Zk(i)∣为两级最小差,ρ为分辨系数,其值在0到1之间,通常取值为0.5;
计算各个样本数据的关联度γk,其函数形式如下:
Figure BDA0002453159060000062
进一步,所述步骤5具体为:首先采用Bootstrap重抽样法在上述得到的样本集T中,随机抽取与原样本集样本数量相同的Ф个训练样本集,并随机选取τ个特征评价指标,训练生成RFR模型;其次,将未被抽到的样本集称为袋外OOB数据作为测试样本对RFR模型进行误差估计,再不断调节参数Ф值,分别计算每个模型的泛化误差,获取泛化误差最小的RFR模型为最优评估模型;最后将预评估样本的各项评估指标值输入评估模型,取每个CART的输出值的平均值作为数字内容资源价值的评估结果,用公式
Figure BDA0002453159060000063
表示,其中,F(X)为输出值的平均值,fФ为每个回归树的输出值,
Figure BDA0002453159060000064
为输出值总和,Ф为回归树的数量。
本发明的有益效果在于:本发明采用广义灰色关联分析对指标体系进行验证,有效保证了内容资源价值评估指标体系构建的合理性;通过熵值-邓氏灰色关联分析法对已有样本数据进行初步筛选,其中较高的关联度标准筛选出与预评估样本在指标序列上存在较大相似度的样本数据构成训练样本集,保证了用于训练RFR模型样本数据的可靠性;使用RFR模型可对样本数据和特征向量进行随机抽取,大大降低了分类回归树之间的关联性,具有良好的泛化性优势。综合表明GCA-RFR模型的价值评估方法是一种高效智能的数字内容资源价值评估方法。该方法操作简便,评估精度高,且具有广泛适用性,是一种强客观性的新的非线性价值评估方法。
附图说明
本发明有如下附图:
图1为本发明的流程图。
图2为数字内容资源价值评估模型。
图3为RFR模型的数字内容资源价值预测流程。
具体实施方式
以下结合附图1-3对本发明作进一步详细说明。
为解决现有技术存在的问题,本发明提出了基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法。
首先以“价值链理论”为主线探索数字内容资源价值的影响因素,并据此构建数字内容资源价值评估指标体系;其次以广义灰色关联分析法对评价指标进行验证与筛选,并通过熵值-邓氏灰色关联分析法对初始样本进行筛选;最后采用随机森林回归RFR模型进行训练,通过不断优化模型以构建数字内容资源价值评估方法。
如图1所示,一种基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法,包括以下步骤:
步骤1:构建数字内容资源价值评估指标体系;
步骤2:数据获取与数据处理;
步骤3:基于广义灰色关联分析法进行指标验证及筛选;
步骤4:在步骤3的基础上,基于熵值-邓氏灰色关联分析法进行初始样本筛选;
步骤5:采用随机森林回归RFR模型进行训练,通过不断优化模型以构建数字内容资源价值评估方法。
进一步,所述步骤1具体为:以“价值链理论”为主线,详细分析了数字内容资源生产制作、版权确认、市场交易、传播效果的整个流程,构建了4个一级指标以及13个二级指标的数字内容资源价值评估指标体系。上述一级指标包括成本价值、版权价值、市场价值和传播价值,其中二级指标包括设备投资、技术投资、人力投资、专业化、时效性、丰富度、版权范围、流行性、垄断性、网络外部性、交互性、便捷性和易获得性。
进一步,所述步骤2具体为:选取了互联网电影资料库(简称IMDb)平台作为数据来源平台,抓取与评估指标对应的相关数据250条,并对获取的多余列项字段数据进行删除,对部分行项缺失字段数据进行人工查证及填补,对查而未得的数据进行样本剔除,对数据的格式和形式进行标准化处理,经过上述处理一共获取218条有效数据。
进一步,所述步骤3具体为:以影片总票房表征数字内容资源价值,运用广义灰色关联分析探究所选13个二级指标与数字内容资源价值的关系,从整体、全局视角验证指标体系的合理性,并在此基础上进行有效指标的筛选。
首先计算13个二级指标与数字内容资源价值的灰色绝对关联度ε0i,其计算过程如下:
根据本研究的指标体系以及已进行数据清洗处理的数据样本,确定影片的总票房作为参考数列X0,其函数形式如下:
X0=(x0(1),x0(2),…,x0(n)) (1)
式中,x0(n)代表参考数列的初始值,n代表样本个数;
其余指标序列为比较序列Xi,其函数形式如下:
Xi=(xi(1),xi(2),…,xi(n))(i=1,2,…,m) (2)
式中xi(n)代表比较数列的初始值,n代表样本个数,i代表二级指标的编号,m为二级指标个数,由上述的有效数据和指标体系可知,n最大取218,m最大取13。
根据已确定的参考数列X0和比较数列Xi,分别求出其始点零化像
Figure BDA0002453159060000091
其函数形式如下:
Figure BDA0002453159060000092
Figure BDA0002453159060000093
式中,
Figure BDA0002453159060000094
代表参考数列的始点零化像,n代表样本个数,
Figure BDA0002453159060000095
代表比较数列的始点零化像,n代表样本个数,i代表二级指标的编号,
根据广义灰色关联度的定义,可求出参考数列X0与比较数列Xi的灰色绝对关联度ε0i,其函数形式如下:
Figure BDA0002453159060000096
其中|S0|、|Si|和|Si-S0|的函数形式分别为:
Figure BDA0002453159060000097
Figure BDA0002453159060000098
Figure BDA0002453159060000099
式中,S0代表参考数列始点零化像的有向面积,Si代表比较数列始点零化像的有向面积,k代表1~n的常数,
Figure BDA00024531590600000910
代表第k个参考数列的始点零化像,
Figure BDA00024531590600000911
代表第k个比较数列的始点零化像。
其次计算13个二级指标与数字内容资源价值灰色相对关联度γ0i,其计算过程如下:
根据上式X0和Xi可分别求出其初值像X′0和X′i的函数表达式,其函数形式如下:
Figure BDA0002453159060000101
Figure BDA0002453159060000102
采用上式(6)(7)(8)的计算方法可分别求出|S′0|、|S′i|以及|S′i-S′0|的函数表达式,再代入下式(11)可得出灰色相对关联度γ0i
Figure BDA0002453159060000103
式中,S′0代表参考数列初始值像的有向面积,S′i代表比较数列初始值像的有向面积。
最后计算13个二级指标与数字内容资源价值灰色综合关联度ρ0i,其函数形式如下:
ρ0i=θε0i+(1-θ)γ0i (12)
其中θ的取值时,可根据绝对量和相对量的相对比重,若需要对绝对量给予高度重视,则可将θ取大一些相反,若对相对量较为看重,则可将θ取小一些。本方法也遵循一般化处理,取θ=0.5。
由图2可知,通过判定指标的灰色关联度是否大于0.5,以检验指标体系的合理性和进一步筛选有效指标。通过广义灰色关联分析法得到了最终有效的指标体系。
进一步,所述步骤4具体为:首先计算各个评价指标的熵值Hi,然后根据熵值分别求解各个指标的指标权重wi,具体的计算过程如下:
Figure BDA0002453159060000104
式中,Hi代表评价指标的熵值,xki代表第k个样本的第i个指标值,fki代表第i项指标下第k个样本所占比重,m为二级指标个数,n为样本个数;
上式需满足以下条件:即当fki=0时,fki ln fki=0,并以此计算指标的熵值Hi代入下式可获得指标权重wi,其函数形式如下:
Figure BDA0002453159060000111
其次,选择一条数据作为预评估样本Z0,其他数据作为可供筛选样本Zk,分别对其进行标准化处理。其中,规定影响作用为正的指标为效益型指标,影响作用为负的指标为成本型指标,((然后计算预评估样本Z0与可供筛选的样本Zk在二级指标上的关联系数ski,其函数形式如下:
Figure BDA0002453159060000112
上式中,∣z0(i)-Zk(i)∣为预评估样本与可供筛选样本在第i个指标上的差值的绝对值,max1≤k≤n max1≤i≤m∣z0(i)-Zk(i)∣为两级最大差,min1≤k≤n min1≤i≤m∣z0(i)-Zk(i)∣为两级最小差,ρ为分辨系数,其值在0到1之间,通常取值为0.5。
最后,计算各个样本数据的关联度γi,其函数形式如下:
Figure BDA0002453159060000113
由图2所示,本方法选取关联度γk≥0.88的样本数据构成模型样本集T,并最终获取37个样本数据进入运算模型。
进一步,所述步骤5具体为:如图3所示,首先采用Bootstrap重抽样法在上述得到的样本集T中,随机抽取与原样本集样本数量相同的Ф个训练样本集,并随机选取τ个特征评价指标,训练生成RFR模型;其次,将未被抽到的样本集称为袋外OOB数据作为测试样本对RFR模型进行误差估计,再通过调整模型中CART的数值Ф,分别计算每个模型的泛化误差,选择泛化误差最小的RFR模型为最终数字内容资源价值预测模型;最后将预评估样本的各项评估指标值输入预测模型,取每个CART的输出值的平均值为数字内容资源价值的预测结果,可用公式
Figure BDA0002453159060000121
表示。其中,F(X)为输出值的平均值,fФ为每个回归树的输出值,
Figure BDA0002453159060000122
为输出值总和,Ф为回归树的数量。
以上所述仅为本发明的优选实施例,并不用以限制本发明,凡在本发明的形式和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (9)

1.一种基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法,其特征在于,该方法包括以下步骤:
步骤1:构建数字内容资源价值评估指标体系;
步骤2:数据获取与数据处理;
步骤3:基于广义灰色关联分析法进行指标验证及筛选;
步骤4:在步骤3的基础上,基于熵值-邓氏灰色关联分析法进行初始样本筛选;
步骤5:采用随机森林回归RFR模型进行训练,通过不断优化模型以构建数字内容资源价值评估方法。
2.如权利要求1所述的基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法,其特征在于,所述步骤1具体为:以“价值链理论”为主线,梳理数字内容资源生产制作、版权确认、市场交易、传播效果的4个环节,并以成本价值、版权价值、市场价值和传播价值为一级指标,然后再将一级指标细分为13个二级指标,构建数字内容资源价值评估指标体系。
3.如权利要求2所述的基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法,其特征在于,所述13个二级指标为:设备投资、技术投资、人力投资、专业化、时效性、丰富度、版权范围、流行性、垄断性、网络外部性、交互性、便捷性和易获得性。
4.如权利要求1所述的基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法,其特征在于,所述步骤2具体为:选取了互联网电影资料库平台作为数据来源平台,抓取与评估指标对应的相关数据250条,并对获取的数据进行初步清洗和标准化处理:对获取的多余列项字段数据进行删除,对部分行项缺失字段数据进行人工查证及填补,对查而未得的数据进行样本剔除,对数据的格式和形式进行标准化处理,最后获取218条有效数据。
5.如权利要求4所述的基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法,其特征在于,所述步骤3具体为:以影片总票房表征数字内容资源价值,运用广义灰色关联分析探究所选13个二级指标与数字内容资源价值的关系,从整体、全局视角验证指标体系的合理性,并在此基础上进行有效指标的筛选;首先计算13个二级指标与数字内容资源价值的灰色绝对关联度ε0i;其次计算13个二级指标与数字内容资源价值的灰色相对关联度γ0i;最后通过13个二级指标与数字内容资源价值的灰色绝对关联度和灰色相对关联度计算出灰色综合关联度ρ0i;由于灰色综合关联度均大于0.5,因此将指标体系的13个二级指标均定义为有效指标。
6.如权利要求5所述的基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法,其特征在于,计算13个二级指标与数字内容资源价值的灰色绝对关联度ε0i的具体过程为:
根据上述的评估指标体系和有效数据样本,以影片总票房作为参考数列X0,13个二级指标作为比较序列Xi,其函数形式如下:
X0=(x0(1),x0(2),…,x0(n)) (1)
式中,x0(n)代表参考数列的初始值,n代表样本个数;
Xi=(xi(1),xi(2),…,xi(n)),i=1,2,…,m (2)
式中xi(n)代表比较数列的初始值,n代表样本个数,i代表二级指标的编号,m为二级指标个数,n最大取218,m最大取13;
根据已确定的参考数列X0和比较数列Xi,分别求出其始点零化像
Figure FDA0002453159050000021
其函数形式如下:
Figure FDA0002453159050000022
Figure FDA0002453159050000023
式中,
Figure FDA0002453159050000024
代表参考数列的始点零化像,n代表样本个数,
Figure FDA0002453159050000025
代表比较数列的始点零化像,n代表样本个数,i代表二级指标的编号,
根据广义灰色关联度的定义,求出参考数列X0与比较数列Xi的灰色绝对关联度ε0i,其函数形式如下:
Figure FDA0002453159050000031
其中|S0|、|Si|和|Si-S0|的函数形式分别为:
Figure FDA0002453159050000032
Figure FDA0002453159050000033
Figure FDA0002453159050000034
式中,S0代表参考数列始点零化像的有向面积,Si代表比较数列始点零化像的有向面积,k代表1~n的常数,
Figure FDA0002453159050000035
代表第k个参考数列的始点零化像,
Figure FDA0002453159050000036
代表第k个比较数列的始点零化像;
计算13个二级指标与数字内容资源价值的灰色相对关联度γ0i的具体过程为:
根据参考数列X0和比较序列Xi,分别求出其初值像X′0和X′i的函数表达式,其函数形式如下:
Figure FDA0002453159050000037
Figure FDA0002453159050000038
采用上式(6)(7)(8)的计算方法分别求出|S′0|、|S′i|以及|S′i-S′0|的函数表达式,再代入下式(11)可得出灰色相对关联度γ0i
Figure FDA0002453159050000039
式中,S′0代表参考数列初始值像的有向面积,S′i代表比较数列初始值像的有向面积;
计算13个二级指标与数字内容资源价值的灰色综合关联度ρ0i的计算公式为:
ρ0i=θε0i+(1-θ)γ0i (12)
其中,θ为绝对量和相对量的相对比重,取θ=0.5。
7.如权利要求6所述的基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法,其特征在于,所述步骤4具体为:首先计算各个评价指标的熵值Hi,然后根据熵值分别求解各个指标的指标权重wi;其次,选择一条数据作为预评估样本Z0,其他数据作为可供筛选样本Zk,分别对其进行标准化处理,其中,规定影响作用为正的指标为效益型指标,影响作用为负的指标为成本型指标,计算预评估样本Z0与可供筛选样本Zk和二级指标上的关联系数ski;最后根据关联系数ski以及指标权重wi求出各个样本数据的关联度γk,并将γk≥0.88的样本构成模型样本集T。
8.如权利要求7所述的基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法,其特征在于,计算各个评价指标的熵值Hi,然后根据熵值分别求解各个指标的指标权重wi的具体过程为:
Figure FDA0002453159050000041
式中,Hi代表评价指标的熵值,xki代表第k个样本的第i个指标值,fki代表第i项指标下第k个样本所占比重,m为二级指标个数,n为样本个数;
上式需满足以下条件:当fki=0时,fki ln fki=0,并将熵值Hi代入下式获得指标权重wi,其函数形式如下:
Figure FDA0002453159050000042
计算预评估样本Z0与可供筛选样本Zk和二级指标上的关联系数ski的公式为:
Figure FDA0002453159050000051
式中,∣z0(i)-Zk(i)∣为预评估样本与可供筛选样本在第i个指标上的差值的绝对值,max1≤k≤nmax1≤i≤m∣z0(i)-Zk(i)∣为两级最大差,min1≤k≤nmin1≤i≤m∣z0(i)-Zk(i)∣为两级最小差,ρ为分辨系数,其值在0到1之间,通常取值为0.5;
计算各个样本数据的关联度γk,其函数形式如下:
Figure FDA0002453159050000052
9.如权利要求8所述的基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法,其特征在于,所述步骤5具体为:首先采用Bootstrap重抽样法在上述得到的样本集T中,随机抽取与原样本集样本数量相同的Ф个训练样本集,并随机选取τ个特征评价指标,训练生成RFR模型;其次,将未被抽到的样本集称为袋外OOB数据作为测试样本对RFR模型进行误差估计,再不断调节参数Ф值,分别计算每个模型的泛化误差,获取泛化误差最小的RFR模型为最优评估模型;最后将预评估样本的各项评估指标值输入评估模型,取每个CART的输出值的平均值作为数字内容资源价值的评估结果,用公式
Figure FDA0002453159050000053
表示,其中,F(X)为输出值的平均值,fФ为每个回归树的输出值,
Figure FDA0002453159050000054
为输出值总和,Ф为回归树的数量。
CN202010298653.8A 2020-04-16 2020-04-16 一种基于gca-rfr模型的数字内容资源价值评估方法 Pending CN111681021A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010298653.8A CN111681021A (zh) 2020-04-16 2020-04-16 一种基于gca-rfr模型的数字内容资源价值评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010298653.8A CN111681021A (zh) 2020-04-16 2020-04-16 一种基于gca-rfr模型的数字内容资源价值评估方法

Publications (1)

Publication Number Publication Date
CN111681021A true CN111681021A (zh) 2020-09-18

Family

ID=72433326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010298653.8A Pending CN111681021A (zh) 2020-04-16 2020-04-16 一种基于gca-rfr模型的数字内容资源价值评估方法

Country Status (1)

Country Link
CN (1) CN111681021A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128907A (zh) * 2021-05-12 2021-07-16 北京大学 专利价值在线评估方法和系统
CN113592289A (zh) * 2021-07-28 2021-11-02 咪咕数字传媒有限公司 图书质量的预测方法、装置及设备
CN114840348A (zh) * 2022-07-01 2022-08-02 石家庄学院 一种用于计算机的资源等级确定方法及系统
CN115907301A (zh) * 2022-12-08 2023-04-04 华中师范大学 基于资源共享机制的科教资源的价值评估方法及系统
CN116821386A (zh) * 2023-08-30 2023-09-29 深圳巨湾科技有限公司 一种基于多源异构数据结构化的单一特征评估控制方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106910012A (zh) * 2017-02-13 2017-06-30 三峡大学 一种基于重要贡献度的中小型水库大坝安全评价指标体系构建方法
CN110363432A (zh) * 2019-07-17 2019-10-22 国网河南省电力公司开封供电公司 基于改进熵权-灰色关联的配电网可靠性影响分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106910012A (zh) * 2017-02-13 2017-06-30 三峡大学 一种基于重要贡献度的中小型水库大坝安全评价指标体系构建方法
CN110363432A (zh) * 2019-07-17 2019-10-22 国网河南省电力公司开封供电公司 基于改进熵权-灰色关联的配电网可靠性影响分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
孙友良 等: "基于改进广义灰色关联分析法的水闸安全评价指标的选取", 《水电能源科学》 *
王子焉 等: "基于灰色关联分析—随机森林回归的网络平台专利价值评估方法研究", 《情报理论与实践》 *
赵艳 等: "数字平台内容资源价值评估指标体系研究", 《情报科学》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128907A (zh) * 2021-05-12 2021-07-16 北京大学 专利价值在线评估方法和系统
CN113592289A (zh) * 2021-07-28 2021-11-02 咪咕数字传媒有限公司 图书质量的预测方法、装置及设备
CN113592289B (zh) * 2021-07-28 2024-06-07 咪咕数字传媒有限公司 图书质量的预测方法、装置及设备
CN114840348A (zh) * 2022-07-01 2022-08-02 石家庄学院 一种用于计算机的资源等级确定方法及系统
CN115907301A (zh) * 2022-12-08 2023-04-04 华中师范大学 基于资源共享机制的科教资源的价值评估方法及系统
CN116821386A (zh) * 2023-08-30 2023-09-29 深圳巨湾科技有限公司 一种基于多源异构数据结构化的单一特征评估控制方法
CN116821386B (zh) * 2023-08-30 2023-11-21 深圳巨湾科技有限公司 一种基于多源异构数据结构化的单一特征评估控制方法

Similar Documents

Publication Publication Date Title
CN111681021A (zh) 一种基于gca-rfr模型的数字内容资源价值评估方法
CN108428227B (zh) 基于全卷积神经网络的无参考图像质量评价方法
CN110728656A (zh) 基于元学习的无参考图像质量数据处理方法、智能终端
CN109727246A (zh) 一种基于孪生网络的对比学习图像质量评估方法
CN105635762A (zh) 一种基于深度信念网络的视频热度预测方法及其系统
Deng et al. Blind noisy image quality assessment using sub-band kurtosis
CN111563071A (zh) 数据清洗方法、装置、终端设备及计算机可读存储介质
CN114782797B (zh) 房屋场景分类方法、装置、设备及可读存储介质
CN109872305A (zh) 一种基于质量图生成网络的无参考立体图像质量评价方法
CN109584203A (zh) 基于深度学习与语义信息的重定位图像质量评价方法
CN108537377A (zh) 一种基于网络搜素指数的房价预测方法
CN107818175B (zh) 一种基于裁判文书的法律类案问题分析方法及装置
CN112612920A (zh) 基于领域交互信息强度因子分解机的电影点击率预估方法
CN117725437B (zh) 一种基于机器学习的数据精准匹配分析方法
CN111400428A (zh) 一种知识图谱体系搭建方法
Shen et al. HQA‐Trans: An end‐to‐end high‐quality‐awareness image translation framework for unsupervised cross‐domain pedestrian detection
CN107203991A (zh) 一种基于光谱残差的半参考图像质量评价方法
CN111506813A (zh) 一种基于用户画像的遥感信息精准推荐方法
CN115170196A (zh) 一种基于大数据智能写作的推广方法
CN114820074A (zh) 基于机器学习的目标用户群体预测模型构建方法
CN107590796A (zh) 基于稀疏分解残差的全参考混合失真图像质量评价方法
CN114839586A (zh) 基于em算法的低压台区计量装置失准计算方法
CN115018007A (zh) 一种基于改进id3决策树的敏感数据分类方法
CN116823003A (zh) 区块链数字资源处理方法、装置、计算机设备和存储介质
CN112950279A (zh) 基于机器学习的精准营销策略模型构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination