CN111681021A

CN111681021A - 一种基于gca-rfr模型的数字内容资源价值评估方法

Info

Publication number: CN111681021A
Application number: CN202010298653.8A
Authority: CN
Inventors: 倪渊; 蔡功山; 赵艳; 张健; 杨露; 高宇东; 高霞
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2020-09-18

Abstract

本发明公开了一种基于灰色关联分析和随机森林回归GCA‑RFR模型的数字内容资源价值评估方法，步骤为：以“价值链理论”为主线探索内容资源价值的影响因素，并据此构建内容资源价值评估指标体系；借助Python爬取互联网电影资料库的相关数据，并通过删除、替换数据单元格方式对数据进行清洗，获取有效数据；以广义灰色关联分析法进行指标验证及筛选，获取最终有效的指标体系；基于熵值‑邓氏灰色关联分析法进行初始样本筛选，获取最终的样本集进行模型训练；基于上述指标体系和训练数据，不断优化随机森林回归RFR模型以构建数字内容资源价值评估方法。本发明实现数字内容资源价值评估功能，具有较高的科学性、有效性和广泛适用性。

Description

一种基于GCA-RFR模型的数字内容资源价值评估方法

技术领域

本发明属于规范内容资源交易领域，涉及一种基于灰色关联分析和随机森林回归模型(GCA-RFR)的数字内容资源价值评估方法。

背景技术

据《2017—2018中国数字出版产业年度报告》显示，数字出版行业已跨越“流量为王”到达“内容为王”的新时代，内容生产逐渐趋于专业化、精品化。随着《内容资源数据化加工》等10项国家标准的立项，数字内容出版将日趋规范。另外，网络文学IP(Intellec tualProperty)运营生态逐渐成熟，在纸质图书基础上，改编电影、电视剧、动漫、游戏等多元化内容IP开发模式屡见不鲜。但数字内容产业作为一个新兴领域，呈现出一种蓬勃发展的同时。面临数字内容资源激增、数字内容交易混乱、价值衡量缺乏规范性等问题，一套规范化的数字内容资源价值评估指标体系和价值评估方法是保障数字内容资源市场健康有序发展的重要工具。因此构建一种基于灰色关联分析和随机森林回归GCA-RFR模型，以此评估内容资源价值是确保数字交易平台业蓬勃健康发展关键因素。

现阶段我国内容资源交易主要存在以下问题：①数字内容资源质量参差不齐，尚无明确的出版标准；②多与其他服务(如广告、会员等)捆绑变现，具体价值难以区分；③数字内容资源全生命周期涉及因素较多，有些主观因素难以计量；④数字内容资源核心要素——内容版权的界定及其价值评估尚无统一标准。为此首先以“价值链理论”为主线探索内容资源价值的影响因素，并据此构建内容资源价值评估指标体系，其次以灰色关联分析法(简称GCA)进行指标验证及初始样本筛选，最后以随机森林回归模型(简称RFR)为数字内容资源价值进行评估。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提出一种基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法，以解决上述背景技术中提出的问题。

为达到以上目的，本发明采取的技术方案是：

一种基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法，该方法包括以下步骤：

步骤1：构建数字内容资源价值评估指标体系；

步骤2：数据获取与数据处理；

步骤3：基于广义灰色关联分析法进行指标验证及筛选；

步骤4：在步骤3的基础上，基于熵值-邓氏灰色关联分析法进行初始样本筛选；

步骤5：采用随机森林回归RFR模型进行训练，通过不断优化模型以构建数字内容资源价值评估方法。

进一步，所述步骤1具体为：以“价值链理论”为主线，梳理数字内容资源生产制作、版权确认、市场交易、传播效果的4个环节，并以成本价值、版权价值、市场价值和传播价值为一级指标，然后再将一级指标细分为13个二级指标，构建数字内容资源价值评估指标体系。

进一步，所述13个二级指标为：设备投资、技术投资、人力投资、专业化、时效性、丰富度、版权范围、流行性、垄断性、网络外部性、交互性、便捷性和易获得性。

进一步，所述步骤2具体为：选取了互联网电影资料库(简称IMDb)平台作为数据来源平台，抓取与评估指标对应的相关数据250条，并对获取的数据进行初步清洗和标准化处理：对获取的多余列项字段数据进行删除，对部分行项缺失字段数据进行人工查证及填补，对查而未得的数据进行样本剔除，对数据的格式和形式进行标准化处理，最后获取218条有效数据。

进一步，所述步骤3具体为：以影片总票房表征数字内容资源价值，运用广义灰色关联分析探究所选13个二级指标与数字内容资源价值的关系，从整体、全局视角验证指标体系的合理性，并在此基础上进行有效指标的筛选；首先计算13个二级指标与数字内容资源价值的灰色绝对关联度ε_0i；其次计算13个二级指标与数字内容资源价值的灰色相对关联度γ_0i；最后通过13个二级指标与数字内容资源价值的灰色绝对关联度和灰色相对关联度计算出灰色综合关联度ρ_0i；由于灰色综合关联度均大于0.5，因此将指标体系的13个二级指标均定义为有效指标。

进一步，计算13个二级指标与数字内容资源价值的灰色绝对关联度ε_0i的具体过程为：

根据上述的评估指标体系和有效数据样本，以影片总票房作为参考数列X₀，13个二级指标作为比较序列X_i，其函数形式如下：

X₀＝(x₀(1),x₀(2),…,x₀(n)) (1)

式中，x₀(n)代表参考数列的初始值，n代表样本个数；

X_i＝(x_i(1),x_i(2),…,x_i(n))，i＝1,2,…,m (2)

式中x_i(n)代表比较数列的初始值，n代表样本个数，i代表二级指标的编号，m为二级指标个数，n最大取218，m最大取13；

根据已确定的参考数列X₀和比较数列X_i，分别求出其始点零化像

其函数形式如下：

式中，

代表参考数列的始点零化像，n代表样本个数，

代表比较数列的始点零化像，n代表样本个数，i代表二级指标的编号，

根据广义灰色关联度的定义，求出参考数列X₀与比较数列X_i的灰色绝对关联度ε_0i，其函数形式如下：

其中|S₀|、|S_i|和|S_i-S₀|的函数形式分别为：

式中，S₀代表参考数列始点零化像的有向面积，S_i代表比较数列始点零化像的有向面积，k代表1～n的常数，

代表第k个参考数列的始点零化像，

代表第k个比较数列的始点零化像。

进一步，计算13个二级指标与数字内容资源价值的灰色相对关联度γ_0i的具体过程为：

根据参考数列X₀和比较序列X_i，分别求出其初值像X′₀和X′_i的函数表达式，其函数形式如下：

采用上式(6)(7)(8)的计算方法分别求出|S′₀|、|S′_i|以及|S′_i-S′₀|的函数表达式，再代入下式(11)可得出灰色相对关联度γ_0i；

式中，S′₀代表参考数列初始值像的有向面积，S′_i代表比较数列初始值像的有向面积。

进一步，计算13个二级指标与数字内容资源价值的灰色综合关联度ρ_0i的计算公式为：

ρ_0i＝θε_0i+(1-θ)γ_0i (12)

其中，θ为绝对量和相对量的相对比重，若对绝对量给予高度重视，则将θ取大一些，相反，若对相对量给予高度重视，则将θ取小一些，取θ＝0.5。

进一步，所述步骤4具体为：首先计算各个评价指标的熵值H_i，然后根据熵值分别求解各个指标的指标权重w_i；其次，选择一条数据作为预评估样本Z₀，其他数据作为可供筛选样本Z_k，分别对其进行标准化处理，其中，规定影响作用为正的指标为效益型指标，影响作用为负的指标为成本型指标，计算预评估样本Z₀与可供筛选样本Z_k和二级指标上的关联系数s_ki；最后根据关联系数s_ki以及指标权重w_i求出各个样本数据的关联度γ_k，并将γ_k≥0.88的样本构成模型样本集T。

进一步，计算各个评价指标的熵值H_i，然后根据熵值分别求解各个指标的指标权重w_i的具体过程为：

式中，H_i代表评价指标的熵值，x_ki代表第k个样本的第i个指标值，f_ki代表第i项指标下第k个样本所占比重，m为二级指标个数，n为样本个数；

上式需满足以下条件：当f_ki＝0时，f_ki ln f_ki＝0，并将熵值H_i代入下式获得指标权重w_i，其函数形式如下：

进一步，((计算预评估样本Z₀与可供筛选样本Z_k和二级指标上的关联系数s_ki的公式为：

式中，∣z₀(i)-Z_k(i)∣为预评估样本与可供筛选样本在第i个指标上的差值的绝对值，max_1≤k≤n max_1≤i≤m∣z₀(i)-Z_k(i)∣为两级最大差，min_1≤k≤n min_1≤i≤m∣z₀(i)-Z_k(i)∣为两级最小差，ρ为分辨系数，其值在0到1之间，通常取值为0.5；

计算各个样本数据的关联度γ_k，其函数形式如下：

进一步，所述步骤5具体为：首先采用Bootstrap重抽样法在上述得到的样本集T中，随机抽取与原样本集样本数量相同的Ф个训练样本集，并随机选取τ个特征评价指标，训练生成RFR模型；其次，将未被抽到的样本集称为袋外OOB数据作为测试样本对RFR模型进行误差估计，再不断调节参数Ф值，分别计算每个模型的泛化误差，获取泛化误差最小的RFR模型为最优评估模型；最后将预评估样本的各项评估指标值输入评估模型，取每个CART的输出值的平均值作为数字内容资源价值的评估结果，用公式

表示，其中，F(X)为输出值的平均值，f_Ф为每个回归树的输出值，

为输出值总和，Ф为回归树的数量。

本发明的有益效果在于：本发明采用广义灰色关联分析对指标体系进行验证，有效保证了内容资源价值评估指标体系构建的合理性；通过熵值-邓氏灰色关联分析法对已有样本数据进行初步筛选，其中较高的关联度标准筛选出与预评估样本在指标序列上存在较大相似度的样本数据构成训练样本集，保证了用于训练RFR模型样本数据的可靠性；使用RFR模型可对样本数据和特征向量进行随机抽取，大大降低了分类回归树之间的关联性，具有良好的泛化性优势。综合表明GCA-RFR模型的价值评估方法是一种高效智能的数字内容资源价值评估方法。该方法操作简便，评估精度高，且具有广泛适用性，是一种强客观性的新的非线性价值评估方法。

附图说明

本发明有如下附图：

图1为本发明的流程图。

图2为数字内容资源价值评估模型。

图3为RFR模型的数字内容资源价值预测流程。

具体实施方式

以下结合附图1-3对本发明作进一步详细说明。

为解决现有技术存在的问题，本发明提出了基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法。

首先以“价值链理论”为主线探索数字内容资源价值的影响因素，并据此构建数字内容资源价值评估指标体系；其次以广义灰色关联分析法对评价指标进行验证与筛选，并通过熵值-邓氏灰色关联分析法对初始样本进行筛选；最后采用随机森林回归RFR模型进行训练，通过不断优化模型以构建数字内容资源价值评估方法。

如图1所示，一种基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法，包括以下步骤：

步骤1：构建数字内容资源价值评估指标体系；

步骤2：数据获取与数据处理；

步骤3：基于广义灰色关联分析法进行指标验证及筛选；

进一步，所述步骤1具体为：以“价值链理论”为主线，详细分析了数字内容资源生产制作、版权确认、市场交易、传播效果的整个流程，构建了4个一级指标以及13个二级指标的数字内容资源价值评估指标体系。上述一级指标包括成本价值、版权价值、市场价值和传播价值，其中二级指标包括设备投资、技术投资、人力投资、专业化、时效性、丰富度、版权范围、流行性、垄断性、网络外部性、交互性、便捷性和易获得性。

进一步，所述步骤2具体为：选取了互联网电影资料库(简称IMDb)平台作为数据来源平台，抓取与评估指标对应的相关数据250条，并对获取的多余列项字段数据进行删除，对部分行项缺失字段数据进行人工查证及填补，对查而未得的数据进行样本剔除，对数据的格式和形式进行标准化处理，经过上述处理一共获取218条有效数据。

进一步，所述步骤3具体为：以影片总票房表征数字内容资源价值，运用广义灰色关联分析探究所选13个二级指标与数字内容资源价值的关系，从整体、全局视角验证指标体系的合理性，并在此基础上进行有效指标的筛选。

首先计算13个二级指标与数字内容资源价值的灰色绝对关联度ε_0i，其计算过程如下：

根据本研究的指标体系以及已进行数据清洗处理的数据样本，确定影片的总票房作为参考数列X₀，其函数形式如下：

X₀＝(x₀(1),x₀(2),…,x₀(n)) (1)

式中，x₀(n)代表参考数列的初始值，n代表样本个数；

其余指标序列为比较序列X_i，其函数形式如下：

X_i＝(x_i(1),x_i(2),…,x_i(n))(i＝1,2,…,m) (2)

式中x_i(n)代表比较数列的初始值，n代表样本个数，i代表二级指标的编号，m为二级指标个数，由上述的有效数据和指标体系可知，n最大取218，m最大取13。

其函数形式如下：

式中，

代表参考数列的始点零化像，n代表样本个数，

根据广义灰色关联度的定义，可求出参考数列X₀与比较数列X_i的灰色绝对关联度ε_0i，其函数形式如下：

其中|S₀|、|S_i|和|S_i-S₀|的函数形式分别为：

代表第k个参考数列的始点零化像，

代表第k个比较数列的始点零化像。

其次计算13个二级指标与数字内容资源价值灰色相对关联度γ_0i，其计算过程如下：

根据上式X₀和X_i可分别求出其初值像X′₀和X′_i的函数表达式，其函数形式如下：

采用上式(6)(7)(8)的计算方法可分别求出|S′₀|、|S′_i|以及|S′_i-S′₀|的函数表达式，再代入下式(11)可得出灰色相对关联度γ_0i。

最后计算13个二级指标与数字内容资源价值灰色综合关联度ρ_0i，其函数形式如下：

ρ_0i＝θε_0i+(1-θ)γ_0i (12)

其中θ的取值时，可根据绝对量和相对量的相对比重，若需要对绝对量给予高度重视，则可将θ取大一些相反，若对相对量较为看重，则可将θ取小一些。本方法也遵循一般化处理，取θ＝0.5。

由图2可知，通过判定指标的灰色关联度是否大于0.5，以检验指标体系的合理性和进一步筛选有效指标。通过广义灰色关联分析法得到了最终有效的指标体系。

进一步，所述步骤4具体为：首先计算各个评价指标的熵值H_i，然后根据熵值分别求解各个指标的指标权重w_i，具体的计算过程如下：

上式需满足以下条件：即当f_ki＝0时，f_ki ln f_ki＝0，并以此计算指标的熵值H_i代入下式可获得指标权重w_i，其函数形式如下：

其次，选择一条数据作为预评估样本Z₀，其他数据作为可供筛选样本Z_k，分别对其进行标准化处理。其中，规定影响作用为正的指标为效益型指标，影响作用为负的指标为成本型指标，((然后计算预评估样本Z₀与可供筛选的样本Z_k在二级指标上的关联系数s_ki，其函数形式如下：

上式中，∣z₀(i)-Z_k(i)∣为预评估样本与可供筛选样本在第i个指标上的差值的绝对值，max_1≤k≤n max_1≤i≤m∣z₀(i)-Z_k(i)∣为两级最大差，min_1≤k≤n min_1≤i≤m∣z₀(i)-Z_k(i)∣为两级最小差，ρ为分辨系数，其值在0到1之间，通常取值为0.5。

最后，计算各个样本数据的关联度γ_i，其函数形式如下：

由图2所示，本方法选取关联度γ_k≥0.88的样本数据构成模型样本集T，并最终获取37个样本数据进入运算模型。

进一步，所述步骤5具体为：如图3所示，首先采用Bootstrap重抽样法在上述得到的样本集T中，随机抽取与原样本集样本数量相同的Ф个训练样本集，并随机选取τ个特征评价指标，训练生成RFR模型；其次，将未被抽到的样本集称为袋外OOB数据作为测试样本对RFR模型进行误差估计，再通过调整模型中CART的数值Ф，分别计算每个模型的泛化误差，选择泛化误差最小的RFR模型为最终数字内容资源价值预测模型；最后将预评估样本的各项评估指标值输入预测模型，取每个CART的输出值的平均值为数字内容资源价值的预测结果，可用公式

表示。其中，F(X)为输出值的平均值，f_Ф为每个回归树的输出值，

为输出值总和，Ф为回归树的数量。

以上所述仅为本发明的优选实施例，并不用以限制本发明，凡在本发明的形式和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法，其特征在于，该方法包括以下步骤：

步骤1：构建数字内容资源价值评估指标体系；

步骤2：数据获取与数据处理；

步骤3：基于广义灰色关联分析法进行指标验证及筛选；

2.如权利要求1所述的基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法，其特征在于，所述步骤1具体为：以“价值链理论”为主线，梳理数字内容资源生产制作、版权确认、市场交易、传播效果的4个环节，并以成本价值、版权价值、市场价值和传播价值为一级指标，然后再将一级指标细分为13个二级指标，构建数字内容资源价值评估指标体系。

3.如权利要求2所述的基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法，其特征在于，所述13个二级指标为：设备投资、技术投资、人力投资、专业化、时效性、丰富度、版权范围、流行性、垄断性、网络外部性、交互性、便捷性和易获得性。

4.如权利要求1所述的基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法，其特征在于，所述步骤2具体为：选取了互联网电影资料库平台作为数据来源平台，抓取与评估指标对应的相关数据250条，并对获取的数据进行初步清洗和标准化处理：对获取的多余列项字段数据进行删除，对部分行项缺失字段数据进行人工查证及填补，对查而未得的数据进行样本剔除，对数据的格式和形式进行标准化处理，最后获取218条有效数据。

5.如权利要求4所述的基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法，其特征在于，所述步骤3具体为：以影片总票房表征数字内容资源价值，运用广义灰色关联分析探究所选13个二级指标与数字内容资源价值的关系，从整体、全局视角验证指标体系的合理性，并在此基础上进行有效指标的筛选；首先计算13个二级指标与数字内容资源价值的灰色绝对关联度ε_0i；其次计算13个二级指标与数字内容资源价值的灰色相对关联度γ_0i；最后通过13个二级指标与数字内容资源价值的灰色绝对关联度和灰色相对关联度计算出灰色综合关联度ρ_0i；由于灰色综合关联度均大于0.5，因此将指标体系的13个二级指标均定义为有效指标。

6.如权利要求5所述的基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法，其特征在于，计算13个二级指标与数字内容资源价值的灰色绝对关联度ε_0i的具体过程为：

X₀＝(x₀(1),x₀(2),…,x₀(n)) (1)

式中，x₀(n)代表参考数列的初始值，n代表样本个数；

X_i＝(x_i(1),x_i(2),…,x_i(n))，i＝1,2,…,m (2)

其函数形式如下：

式中，

代表参考数列的始点零化像，n代表样本个数，

其中|S₀|、|S_i|和|S_i-S₀|的函数形式分别为：

代表第k个参考数列的始点零化像，

代表第k个比较数列的始点零化像；

计算13个二级指标与数字内容资源价值的灰色相对关联度γ_0i的具体过程为：

式中，S′₀代表参考数列初始值像的有向面积，S′_i代表比较数列初始值像的有向面积；

计算13个二级指标与数字内容资源价值的灰色综合关联度ρ_0i的计算公式为：

ρ_0i＝θε_0i+(1-θ)γ_0i (12)

其中，θ为绝对量和相对量的相对比重，取θ＝0.5。

7.如权利要求6所述的基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法，其特征在于，所述步骤4具体为：首先计算各个评价指标的熵值H_i，然后根据熵值分别求解各个指标的指标权重w_i；其次，选择一条数据作为预评估样本Z₀，其他数据作为可供筛选样本Z_k，分别对其进行标准化处理，其中，规定影响作用为正的指标为效益型指标，影响作用为负的指标为成本型指标，计算预评估样本Z₀与可供筛选样本Z_k和二级指标上的关联系数s_ki；最后根据关联系数s_ki以及指标权重w_i求出各个样本数据的关联度γ_k，并将γ_k≥0.88的样本构成模型样本集T。

8.如权利要求7所述的基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法，其特征在于，计算各个评价指标的熵值H_i，然后根据熵值分别求解各个指标的指标权重w_i的具体过程为：

计算预评估样本Z₀与可供筛选样本Z_k和二级指标上的关联系数s_ki的公式为：

式中，∣z₀(i)-Z_k(i)∣为预评估样本与可供筛选样本在第i个指标上的差值的绝对值，max_1≤k≤nmax_1≤i≤m∣z₀(i)-Z_k(i)∣为两级最大差，min_1≤k≤nmin_1≤i≤m∣z₀(i)-Z_k(i)∣为两级最小差，ρ为分辨系数，其值在0到1之间，通常取值为0.5；

计算各个样本数据的关联度γ_k，其函数形式如下：

9.如权利要求8所述的基于灰色关联分析和随机森林回归GCA-RFR模型的数字内容资源价值评估方法，其特征在于，所述步骤5具体为：首先采用Bootstrap重抽样法在上述得到的样本集T中，随机抽取与原样本集样本数量相同的Ф个训练样本集，并随机选取τ个特征评价指标，训练生成RFR模型；其次，将未被抽到的样本集称为袋外OOB数据作为测试样本对RFR模型进行误差估计，再不断调节参数Ф值，分别计算每个模型的泛化误差，获取泛化误差最小的RFR模型为最优评估模型；最后将预评估样本的各项评估指标值输入评估模型，取每个CART的输出值的平均值作为数字内容资源价值的评估结果，用公式

为输出值总和，Ф为回归树的数量。