CN116028869A

CN116028869A - 基于描述性统计与数据挖掘的古代玻璃分析方法及装置

Info

Publication number: CN116028869A
Application number: CN202310315850.XA
Authority: CN
Inventors: 张益鸣; 侯妍冰; 韩旭
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-04-28

Abstract

本申请公开了一种基于描述性统计与数据挖掘的古代玻璃分析方法及装置。所述基于描述性统计与数据挖掘的古代玻璃分析方法包括：获取待分析玻璃文物；获取经过训练的玻璃类型预测模型；提取所述待分析玻璃文物的成分特征以及外在特征；将所述成分特征以及外在特征融合从而形成融合特征；将所述融合特征输入至经过训练的玻璃类型预测模型，从而获取待分析玻璃文物的玻璃类型。本申请的基于描述性统计与数据挖掘的古代玻璃分析方法通过设计的模型能够分类出待分析玻璃文物的类型，从而不论是专家还是普通人均可以通过本申请的方法判断出待分析玻璃文物的类型。

Description

基于描述性统计与数据挖掘的古代玻璃分析方法及装置

技术领域

本申请涉及玻璃分析技术领域，具体涉及一种基于描述性统计与数据挖掘的古代玻璃分析方法以及基于描述性统计与数据挖掘的古代玻璃分析装置。

背景技术

现有技术中，通常只能通过专家根据待分析玻璃文物的成分对玻璃进行各种分类，例如判断玻璃的种类以及是否风化等问题，采用这种方式，一方面各个专家在进行判断时可能会出现有分歧的情况，另一方面，由于普通人没有相关经验知识，因此，这种方法不适用于普通人对玻璃进行判断。

因此，希望有一种技术方案来克服或至少减轻现有技术的至少一个上述缺陷。

发明内容

本发明的目的在于提供一种基于描述性统计与数据挖掘的古代玻璃分析方法来克服或至少减轻现有技术的至少一个上述缺陷。

本发明的一个方面，提供一种基于描述性统计与数据挖掘的古代玻璃分析方法，所述基于描述性统计与数据挖掘的古代玻璃分析方法包括：

获取待分析玻璃文物；

获取经过训练的玻璃类型预测模型；

提取所述待分析玻璃文物的成分特征以及外在特征；

将所述成分特征以及外在特征融合从而形成融合特征；

将所述融合特征输入至经过训练的玻璃类型预测模型，从而获取待分析玻璃文物的玻璃类型。

可选地，所述基于描述性统计与数据挖掘的古代玻璃分析方法进一步包括：

根据所述待分析玻璃文物的玻璃类型获取风化分类模型；

将所述融合特征输入至所述风化分类模型，从而获取待分析玻璃文物的风化情况。

可选地，在所述获取经过训练的玻璃类型预测模型之前，所述基于描述性统计与数据挖掘的古代玻璃分析方法进一步包括：

建立所述玻璃类型预测模型并对所述玻璃类型预测模型进行训练。

可选地，所述外在特征包括待分析玻璃文物的颜色特征以及纹饰特征。

可选地，所述待分析玻璃文物的成分特征包括：

二氧化硅含量特征、氧化钠含量特征、氧化钾含量特征、氧化钙含量特征、氧化铝含量特征、氧化铁含量特征、氧化铜含量特征、氧化铅含量特征、氧化钡含量特征、氧化锶含量特征、氧化锡含量特征以及二氧化硫含量特征。

可选地，在所述提取所述待分析玻璃文物的成分特征以及外在特征，所述基于描述性统计与数据挖掘的古代玻璃分析方法包括：

获取待分析玻璃文物的外在信息；

判断是否使用待分析玻璃文物的外在信息作为外在特征，若是，则

提取所述待分析玻璃文物的外在特征。

可选地，所述判断是否使用待分析玻璃文物的外在信息作为外在特征包括：

获取已知待分析玻璃文物集，所述已知待分析玻璃文物集包括多个已知待分析玻璃文物、每个待分析玻璃文物的风化情况；

根据各个已知待分析玻璃文物的风化情况判断是否使用待分析玻璃文物的外在信息作为外在特征。

本申请还提供了一种基于描述性统计与数据挖掘的古代玻璃分析装置，所述基于描述性统计与数据挖掘的古代玻璃分析装置包括：

待分析玻璃文物获取模块，所述待分析玻璃文物获取模块用于获取待分析玻璃文物；

玻璃类型预测模型获取模块，所述玻璃类型预测模型获取模块用于获取经过训练的玻璃类型预测模型；

特征获取模块，所述特征获取模块用于提取所述待分析玻璃文物的成分特征以及外在特征；

融合模块，所述融合模块用于将所述成分特征以及外在特征融合从而形成融合特征；

分类模块，所述分类模块用于将所述融合特征输入至经过训练的玻璃类型预测模型，从而获取待分析玻璃文物的玻璃类型。

本申请还提供了一种电子设备，所述电子设备包括存储器、处理器以及存储在所述存储器中并能够在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的基于描述性统计与数据挖掘的古代玻璃分析方法。

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时能够实现如上所述的基于描述性统计与数据挖掘的古代玻璃分析方法。

本发明的有益效果是基于描述性统计与数据挖掘的古代玻璃分析方法通过设计的模型能够分类出待分析玻璃文物的类型，从而不论是专家还是普通人均可以通过本申请的方法判断出待分析玻璃文物的类型。

附图说明

图1为本申请一实施例的基于描述性统计与数据挖掘的古代玻璃分析方法的流程示意图；

图2是一种电子设备，用于实现图1所示的基于描述性统计与数据挖掘的古代玻璃分析方法；

图3为本申请的基于描述性统计与数据挖掘的古代玻璃分析方法的纹饰与风化关系图；

图4为本申请的基于描述性统计与数据挖掘的古代玻璃分析方法的类型与风化关系图；

图5为本申请的基于描述性统计与数据挖掘的古代玻璃分析方法的颜色与风化关系图；

图6为本申请的风化分类模型的示意图；

图7a为本申请的铅钡玻璃决策树复杂度参数示意图；

图7b为本申请的高钾玻璃决策树复杂度参数示意图；

图8为高钾玻璃决策树示意图；

图9为铅钡玻璃决策树示意图；

图10为玻璃类型决策树示意图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行更加详细的描述。在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本申请一部分实施例，而不是全部的实施例。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。下面结合附图对本申请的实施例进行详细说明。

需要说明的是，在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

图1为本申请一实施例的基于描述性统计与数据挖掘的古代玻璃分析方法的流程示意图。

如图1所示的基于描述性统计与数据挖掘的古代玻璃分析方法包括：

步骤1：获取待分析玻璃文物；

步骤2：获取经过训练的玻璃类型预测模型；

步骤3：提取待分析玻璃文物的成分特征以及外在特征；

步骤4：将成分特征以及外在特征融合从而形成融合特征；

步骤5：将融合特征输入至经过训练的玻璃类型预测模型，从而获取待分析玻璃文物的玻璃类型。

本申请的基于描述性统计与数据挖掘的古代玻璃分析方法通过设计的模型能够分类出待分析玻璃文物的类型，从而不论是专家还是普通人均可以通过本申请的方法判断出待分析玻璃文物的类型。在本申请的分类器中，不仅考虑玻璃的成分，还考虑外在特征，从而能够使得分类更为准确。

在本实施例中，基于描述性统计与数据挖掘的古代玻璃分析方法进一步包括：

根据所述待分析玻璃文物的玻璃类型获取风化分类模型；

本申请不仅能够进行玻璃类型的分类，还可以进行玻璃风化情况的分类，从而了解玻璃是否被风化。

在本实施例中，在获取经过训练的玻璃类型预测模型之前，所述基于描述性统计与数据挖掘的古代玻璃分析方法进一步包括：

在本实施例中，所述外在特征包括待分析玻璃文物的颜色特征以及纹饰特征。

在本实施例中，所述待分析玻璃文物的成分特征包括：

在本实施例中，在所述提取所述待分析玻璃文物的成分特征以及外在特征，所述基于描述性统计与数据挖掘的古代玻璃分析方法包括：

获取待分析玻璃文物的外在信息；

提取所述待分析玻璃文物的外在特征。

在本实施例中，所述判断是否使用待分析玻璃文物的外在信息作为外在特征包括：

下面以举例的方式对本申请进行进一步详细阐述，可以理解的是，该举例并不构成对本申请的任何限制。

在本举例中，玻璃文物的类型分为高钾玻璃以及铅钡玻璃。

本申请的待分析玻璃文物所选用的成分特征以及外在特征采用如下方法选择：

本申请首先获取一定数量的已知玻璃文物，从宏观角度来看，本申请在进行风化分类时，考虑的玻璃文物的外在特征为玻璃纹饰（如图3所示）、玻璃颜色。

首先考虑上述的玻璃纹饰（如图3所示）、玻璃颜色，本申请的类别的数量特征，利用Excel将数据进行可视化（参见图3至图5）。

由图3可以看出，纹饰A风化和未风化的玻璃文物数量相同，纹饰B的玻璃文物均表面风化，但纹饰B的数量较少，仅有6个，纹饰C玻璃文物风化数目比未风化数目高出4个。

由图4可以看出，这批文物（已知玻璃文物）中铅钡玻璃的数量明显高于高钾玻璃的数目，铅钡玻璃多出22个，它们表面未风化的玻璃数相同，均为12个，但铅钡玻璃的风化数远高于高钾玻璃，因此推断，铅钡玻璃更易导致风化。

图5中各颜色玻璃文物分布并不均匀，其中浅蓝色和蓝绿色玻璃文物最多，且它们风化文物与未风化文物之比为3：2，颜色未知文物全部风化，考虑可能正是由于风化比较严重，导致难以检测出它们的颜色，黑色玻璃文物全部风化，绿色玻璃文物和深蓝色玻璃文物全部未风化，但它们数量过少，很难直接得出结论，需要进一步分析。其次，对发生风化的玻璃文物种类和未发生分化的文物种类进行分析，风化的玻璃文物共有34种。

在本实施例中，这批文物（已知玻璃文物）发生风化的玻璃种类为11种，其中，纹饰A颜色浅蓝的铅钡玻璃、纹饰B颜色蓝绿的高钾玻璃以及纹饰C颜色浅蓝的铅钡玻璃的占比最高，为19%，每种文物类型有6个发生风化。计算出其中总数量不小于4的文物风化率如表1所示：

表1风化玻璃风化率表

，

这些文物的风化率均不低于50%，可以推测出这些种类的玻璃是易分化类型，注意到，纹饰为B的高钾玻璃仅有一种颜色蓝绿色，且它们全部发生风化，而其他类型的高钾玻璃均未发生风化，且其风化率为50%。因此，我们得出推断：纹饰为B的蓝绿色高钾玻璃在高钾玻璃中最容易发生风化。同时，纹饰为C的浅蓝色铅钡玻璃全部风化，而在发生风化的玻璃中，紫色、深绿色、浅绿色是纹饰为C的铅钡玻璃独有的。最后，考虑到颜色的复杂性，本申请仅对玻璃的类型和纹饰进行分析，得到风化率如表2所示：

表2不同类型不同纹饰的玻璃文物分化率表

，

由上表可知，纹饰B玻璃全部为高钾玻璃，且全部风化，而其他纹饰的高钾玻璃均未风化，这进一步证明了上述“纹饰为B的高钾玻璃最容易风化”的推断；纹饰为A的铅钡玻璃更容易风化，风化率为68.75%，纹饰为C的铅钡玻璃更容易风化，且风化率为70.83%。综上，从数量关系来看，本申请可以得出以下结论：

从颜色角度分别出发，颜色未知的文物全部风化；浅蓝和蓝绿玻璃风化比例较高；黑色玻璃全部分化；从类型角度出发，铅钡玻璃比高钾玻璃更容易风化，从纹饰角度出发，纹饰A风化与未风化程度相当，纹饰C更易风化，但风化文物与未风化文物占比之差并不大，纹饰B玻璃全部分化，推断其对风化有较大影响。

从纹饰与类型相组合的角度来说，纹饰为B的高钾玻璃比其他两种高钾玻璃更容易风化，纹饰为C的铅钡玻璃较总体而言更容易风化。

从玻璃的种类角度来说（即考虑三个因素），纹饰为A或者C的浅蓝色铅钡玻璃、纹饰为B的蓝绿色高钾玻璃更容易风化。

从相关性和独立性进行分析，由于数量特征无法更深层次的表示风化与种类的关系，需要进行统计分析，本申请采用计算斯皮尔曼相关系数并进行卡方检验的方法进行分析。

Step1 计算斯皮尔曼相关系数

斯皮尔曼相关系数是秩相关的非参数假设检验的一种，其特点在于计算时使用样本排位位次值，从而得到两随机变量间单调关系的强度。

首先，设文物有无风化为y，文物类型为x₁，文物纹饰为x₂，文物颜色为x₃，规定等级差为两组数据在同一编号下等级排名之差的绝对值。设d₁表示x₁与y的等级差，d₂表示x₂与y的等级差，d₃表示x₃与y的等级差，则有y与x₁的斯皮尔曼系数rs₁如下所示：

，

其中，n=58，则 r_s2、r_s3同理易可得，设显著性水平为 0.05，以下是求出的斯皮尔曼系数表，如表3所示：

表3各数据与有无分化斯皮尔曼系数表

，

由上表可以得出，类型与表面有无风化相关程度显著性水平较高，二者存在相关性。

Step2 皮尔逊

检验

除相关关系外，差异性检验也十分重要，由于本题中数据量较小，数据为离散变量，分布情况未知，故采用皮尔逊

检验。

提出假设：

H0：文物类型（文物颜色、文物纹饰）对表面是否风化没有显著性差异。H1：文物类型（文物颜色、文物纹饰）对表面是否风化有显著性差异。

计算出卡方检验统计值

及自由度，并设定显著性水平为0.05，得到相关数据如表4所示：

表4各数据与有无风化卡方检验值表

，

根据渐进显著性值，得出结论：P=0.009，水平上呈现显著性，故拒绝原假设，文物类型对表面是否风化有显著性差异。P=0.307，水平上不呈现显著性，故不拒绝原假设，文物颜色对表面是否风化无显著性差异。文物纹饰对表面是否风化也无显著性差异。

将表1中的数据按照是否风化和文物类型分为四类文物——未风化高钾玻璃、已风化高钾玻璃、未风化铅钡玻璃及已风化铅钡玻璃。

探究各化学成分的数量特征，分别求出四类文物各化学成分的均值、最大值、最小值、中位数，频数。

下表仅列出无风化高钾玻璃数量特征表（其余表格请见附录），如表5所示：

表5无风化高钾玻璃各化学成分的数量特征

，

作为玻璃的原料，二氧化硅含量最多，它应作为本申请的重点研究对象。绘制出四类数据二氧化硅箱线图如图7a、图7b所示。

可以看出，已风化高钾玻璃二氧化硅含量远高于未风化高钾玻璃，且含量在90%左右，未风化高钾玻璃二氧化硅含量基本上高于铅钡玻璃，已风化铅钡玻璃二氧化硅含量波动范围较大，最低值低于10%，最大值在70%左右，中位线偏向较小值一侧，说明数据存在左偏态，即平均数小于众数，未风化铅钡玻璃波动范围较小，在37%到67%之间，中位线偏向数值较大一侧，说明数据存在右偏态，即平均数大于众数。

探究各化学成分与不同类型玻璃表面有无风化相关性

由于表面有无风化是二分类变量，不满足连续性这一条件，故仍使用斯皮尔曼相关系数，此时，本申请将二分类变量表面有无风化，转换为0-1变量得到高钾玻璃和铅钡玻璃中各化学成分相关系数如表6、表7所示：

表6高钾玻璃各化学成分斯皮尔曼系数表

，

表7铅钡玻璃各化学成分斯皮尔曼系数表

，

注：

、

分别代表1%、5%、10%的显著性水平。

本次检验中0代表已风化，1代表未风化。

由斯皮尔曼系数可知，对于高钾玻璃而言，二氧化硅、氧化钾、氧化镁、氧化铅、五氧化二磷、氧化铁、氧化铝在显著性为5%的水平下均呈现显著性，其中，仅有二氧化硅相关系数为正，这表明在风化过程中，二氧化硅的含量呈增加趋势。对于铅钡玻璃而言，二氧化硅、氧化钠、氧化钾、氧化铅、氧化铜、氧化铁、氧化铝在显著性为5%的水平下呈现显著性，且除氧化钾外其余系数均为正，这表明在风化过程中，它们的含量呈减少趋势。

探究各化学成分与不同类型玻璃表面有无风化差异性：

风化的过程导致了各成分含量的改变，在分析差异性时，本申请首先进行正态检验，检验能否进行单因素方差分析。

进行正态性检验发现：二氧化硅、氧化铅基本服从正态分布，因此可以进行单因素方差分析。检验结果如表8所示：

表8铅钡玻璃单因素方差分析结果表

，

注：

表示1%的显著性水平。

故二氧化硅、氧化铅呈在表面风化上呈现显著性差异。对于不满足正态分布的变量，采用独立样本的曼-惠特尼U检验。检验结果如表9所示：

表9铅钡玻璃曼-惠特尼U检验

，

注：

、

分别代表1%、5%、10%的显著性水平。

可以看出，氧化钠、五氧化二磷、氧化锶、氧化钙对铅钡玻璃有显著性差异而对高钾玻璃而言（高钾玻璃检验表见附录），二氧化硅、五氧化二磷、氧化镁、氧化钙、氧化铅、氧化钾及氧化铁中存在显著性差异。

构建决策树：

决策树是二分类问题的一种常用模型，其基本思想是对预测变量进行二元分离，从而构造一颗可用于预测新样本单元所属类别的树。决策树由决策节点、分支节点和叶子节点组成。其中，决策节点包含的样本集合根据属性测试结果进行划分；分支节点表示对于决策节点进行划分的输出；叶子节点表示该分支最终的预测结果。决策树学习的目的是为了产生一颗泛化能力强的决策树，其基本流程为：

(1)选定一个最佳预测变量将全部样本单元分为两类，实现两类中的纯度最大化。

(2)对每一个子类别继续执行步骤(1)。

(3)重复步骤(1)~(2)，直到子类别中所含的样本单元树过少，或者没有分类法能将不纯度下降到一个给定阈值以下。最终集中的子类别即为终端节点。根据每个终端节点中的样本单元的类别数众数来判别这一终端节点的所属类别。

(4)对任一样本单元执行决策数，得到其终端节点，即可根据步骤3得到模型预测的所属类别。

具体算法如图6所示。

其中，对于特征的选取，通常利用信息熵(information entropy)和信息增益（Information Gain）来判定混乱程度，进而逐步地选取决策树的每个数据节点的最优特征。公式如下所示：

，

，

式中，Gain表示信息增益，Ent(D)表示信息熵，

表示类别的个数，

表示样本属于第k个类别的概率，D表示数据集合，a表示特征，根据特征a的取值将D划分为V个子集

，

为

的样本个数，

为数据集合D的总个数。

为了解决生成的决策树模型过拟合问题，提高树模型的泛化能力并简化决策树模型，本申请采用10折交叉验证法选择预测误差最小的树，根据复杂度参数剪掉最不重要的枝，从而将树的大小控制在理想范围内，这一剪枝后的树即可用于预测。

决策树的实现：

通过对不同类型玻璃的化学成分进行分析，将数据集按照类型拆分成两个数据子集，并分别进行训练模型、调整最优参数并进行了预剪枝处理，得到不同大小的数对应的预测误差表，如表10所示。其中，复杂度参数(cp)用于惩罚过大的树；树的大小即分支数(nsplit)，例如高钾玻璃决策树有一个分支的树将有两个终端节点；Xval Relative Error为交叉验证误差，即基于训练样本所得的10折交叉验证误差。对于所有交叉验证误差在最小交叉验证误差一个标准差范围内的树，最小树即为最优树。

交叉验证误差与复杂度参数的关系图如图8所示。其中，虚线是基于一个标准差准则得到的最大上限，最终确定高钾玻璃决策树为两个节点，铅钡玻璃决策树为四个节点。

表10铅钡玻璃决策树预测误差表

，

最终两种类型玻璃决策树如图9、图10所示。其中，每一个节点处都有对应类别的概率以及样本单元的占比。对于高钾玻璃而言，二氧化硅含量作为划分标准，并且通过分类结果的混淆矩阵，最终的准确率达到了90%；对于铅钡玻璃而言，将二氧化硅、氧化铝以及氧化铜作为划分标准，并通过分类结果的混淆矩阵计算出准确率达到了87.8%。

根据决策树的结果，对于高钾玻璃而言，未风化的二氧化硅含量应低于83%；同时，由表11可知，未风化高钾玻璃二氧化硅占比最小值为59.01%，以此作为下限。

对于铅钡玻璃而言，未风化的铅钡玻璃中，二氧化硅含量应高于31%，由表12可知，未风化的铅钡玻璃中二氧化硅占比最大值为75.51%，以此作为上限。三氧化二铝含量应低于5.6%，氧化铜含量应低于0.67%，同上可得，它们的下限分别为1.44%、0.11%而对于未在决策树模型中出现的化学成分，通过在表6中，已计算得到的各化学成分在四类玻璃文物中的平均值与中位数，分别计算它们数值上下10%波动的范围，并取二者范围之并，从而得到其他化学成分在风化前的可能范围，如表11、表12所示：

表11高钾玻璃未分化各化学成分取值范围

，

表12铅钡玻璃分化前各化学成分取值范围

，

在进行建立决策树模型之前，首先对数据进行分析，得出直观规律。

首先对表单一中的数据进行分析，可以发现规律：

(1)高钾玻璃颜色全部为蓝色系与绿色系；铅钡玻璃颜色种类较多，除蓝色系外，黑色、紫色、未知颜色均为兼备玻璃。

(2)纹饰B玻璃数量极少，且全部为高钾玻璃。由于玻璃在古代多为工艺品，纹饰和颜色应为重要的区分标准，同时，应深层次探究各化学成分与二者的关系，雕刻纹饰不仅取决于雕刻者的手艺，还取决于选用材料的光滑、软硬程度；颜色则取决于玻璃中所含的元素，稀土元素会给玻璃带来多样的颜色，因此得到规律：

1)锶元素大于0.1%，则其为铅钡玻璃。

从原料本身出发，尽管有风化过程，但在烧制过程中使用的原材料所含的化学成分在其中应占较大比例，若不考虑风化造成的元素流失，有分类规律如下：

2)铅钡玻璃中氧化铅含量高于15%、氧化钡的含量高于5%，且两种化学成分至少存在一种。

3)高钾玻璃中氧化钾含量高于5%。

决策树算法步骤同上述步骤相同，故此处不再赘述。该处的决策树算法生成的为玻璃类型预测模型。

风化与纹饰等玻璃特征指标量化如表13所示。通过对附件数据集中玻璃样本的化学成分、风化情况以及纹饰等16个变量进行分析，将数据集拆分成训练集以及测试集，进行训练模型、调整最优参数，并预剪枝处理，预测误差表如表13所示。最终确定玻璃类型决策树为两个节点，如图10所示。玻璃类型决策树按照氧化铝含量为5.5%作为划分标准，大于等于5.5%的样本可以判定为铅钡玻璃；小于5.5%的样本可以判定为高钾玻璃。并且通过分类结果的混淆矩阵，计算出最终的准确率达到了100%。因此，区分玻璃样本类型的关键变量为氧化铝含量。

表13风化与指标的定义

，

由此，得出规律：若氧化铅含量小于5.5%，为高钾玻璃；大于5.5%，为铅钡玻璃。

在另一个实施例中，还可以采用支持向量机的方式建立玻璃类型预测模型。

本实施例针对69个玻璃样本数据，对风化情况进行相应处理并定量分析，设定风化指标。考虑到各种气体组分含量之间的巨大差异性，为降低互相之间由于不同量纲造成的影响，本申请对样本原始数据进行了“归一化”处理。为了在分类过程中使分类模型在复杂性和推广性之间得以平衡，本申请试图通过分析选择最能反映玻璃类型差异的化学成分作为SVM的输入，从而建立较好的分类模型，在化学成分的选择上，我们选取了问题一中曼-惠特尼U检验中得到的有显著差异的指标，对于铅钡玻璃而言，选择二氧化硅、氧化钠、氧化铅、五氧化二磷、氧化锶、氧化钙；对于高钾玻璃而言，选取二氧化硅、五氧化二磷、氧化钙、氧化镁、氧化钙、氧化铅、氧化钾及氧化铁，以上述成分作为指标。

核函数选择

支持向量机在确定核函数之后通过训练迭代寻找最优系数，进而具有推广意义。但由于样本数量不够多，很难推测其分布，这就给核函数的选取造成了很大的困难。本申请分别使用多项式形式和径向基作为核函数，对比其分类效果。

其中，敏感度表示高钾类样本被成功预测的概率；特异性表示铅钡类样本单元被成功预测的概率；正判率表示被预测为高钾类的样本单元中，预测正确的样本单元占比；负判率表示被预测为铅钡类的样本单元中，预测正确的样本单元占比；准确率表示被正确分类的样本单元所占比重。采用径向基类的性能要比多项式更好。对于不了解分布的数据来说，径向基核函数可以取得较好的推广。

选择调和参数：

在使用径向基SVM拟合过程中，gamma和cost两个参数可能会影响最终结果。gamma是核函数的参数，控制分割超平面的形状。也可将gamma看作控制训练样本到达范围的参数，通常来说，gamma越大，训练样本到达范围越广。cost参数代表犯错的成本。一个较大的成本意味着模型对误差的惩罚更大，从而将生成一个更复杂的分类边界，对应的训练集中的误差也会更小，但也意味着可能存在过拟合问题，没有推广性。较小的成本意味着分类边界更平滑，但可能会导致欠拟合。本申请采用网格搜索(Grid Search)作为调参方法，也称穷举搜索。在所有候选的参数选择中，按步长依次调整参数，通过循环遍历，尝试每一种可能性，并找到验证集中精度最高的参数，作为最终结果。由于数据集数目较少，网格搜索法能够遍历所有可能的组合，并能在较短时间内完成搜索。在图像中颜色越浅的参数组合对应的模型预测误差越小，确定gamma参数为0.1，cost参数为1.1。

本申请还提供了一种基于描述性统计与数据挖掘的古代玻璃分析装置，所述基于描述性统计与数据挖掘的古代玻璃分析装置包括待分析玻璃文物获取模块、玻璃类型预测模型获取模块、特征获取模块、融合模块以及分类模块，其中，

待分析玻璃文物获取模块用于获取待分析玻璃文物；

玻璃类型预测模型获取模块用于获取经过训练的玻璃类型预测模型；

特征获取模块用于提取所述待分析玻璃文物的成分特征以及外在特征；

融合模块用于将所述成分特征以及外在特征融合从而形成融合特征；

分类模块用于将融合特征输入至经过训练的玻璃类型预测模型，从而获取待分析玻璃文物的玻璃类型。

本申请还提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并能够在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的基于描述性统计与数据挖掘的古代玻璃分析方法。

图2是能够实现根据本申请一个实施例提供的基于描述性统计与数据挖掘的古代玻璃分析方法的电子设备的示例性结构图。

如图2所示，电子设备包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505以及输出设备506。其中，输入接口502、中央处理器503、存储器504以及输出接口505通过总线507相互连接，输入设备501和输出设备506分别通过输入接口502和输出接口505与总线507连接，进而与电子设备的其他组件连接。具体地，输入设备501接收来自外部的输入信息，并通过输入接口502将输入信息传送到中央处理器503；中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器504中，然后通过输出接口505将输出信息传送到输出设备506；输出设备506将输出信息输出到电子设备的外部供用户使用。

也就是说，图2所示的电子设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及一个或多个处理器，该一个或多个处理器在执行计算机可执行指令时可以实现结合图1描述的基于描述性统计与数据挖掘的古代玻璃分析方法。

在一个实施例中，图2所示的电子设备可以被实现为包括：存储器504，被配置为存储可执行程序代码；一个或多个处理器503，被配置为运行存储器504中存储的可执行程序代码，以执行上述实施例中的基于描述性统计与数据挖掘的古代玻璃分析方法。

在一个典型的配置中，计算设备包括一个或多个处理器（CPU）、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器（RAM）和/或非易失性内存等形式，如只读存储器（ROM）或闪存（flash RAM）。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动，媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM)、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数据多功能光盘（DVD）或其他光学存储、磁盒式磁带、磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

此外，显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。第一、第二等词语用来标识名称，而不标识任何特定的顺序。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地标识的方框实际上可以基本并行地执行，他们有时也可以按相反的顺序执行，这依据所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或总流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本实施例中所称处理器可以是中央处理单元（Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现装置/终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在本实施例中，装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。

需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。本申请虽然以较佳实施例公开如上，但其实并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此，本申请的保护范围应当以本申请权利要求所界定的范围为准。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于描述性统计与数据挖掘的古代玻璃分析方法，其特征在于，所述基于描述性统计与数据挖掘的古代玻璃分析方法包括：

获取待分析玻璃文物；

获取经过训练的玻璃类型预测模型；

提取所述待分析玻璃文物的成分特征以及外在特征；

将所述成分特征以及外在特征融合从而形成融合特征；

2.如权利要求1所述的基于描述性统计与数据挖掘的古代玻璃分析方法，其特征在于，所述基于描述性统计与数据挖掘的古代玻璃分析方法进一步包括：

根据所述待分析玻璃文物的玻璃类型获取风化分类模型；

3.如权利要求2所述的基于描述性统计与数据挖掘的古代玻璃分析方法，其特征在于，在所述获取经过训练的玻璃类型预测模型之前，所述基于描述性统计与数据挖掘的古代玻璃分析方法进一步包括：

4.如权利要求3所述的基于描述性统计与数据挖掘的古代玻璃分析方法，其特征在于，所述外在特征包括待分析玻璃文物的颜色特征以及纹饰特征。

5.如权利要求4所述的基于描述性统计与数据挖掘的古代玻璃分析方法，其特征在于，所述待分析玻璃文物的成分特征包括：

6.如权利要求5所述的基于描述性统计与数据挖掘的古代玻璃分析方法，其特征在于，在所述提取所述待分析玻璃文物的成分特征以及外在特征，所述基于描述性统计与数据挖掘的古代玻璃分析方法包括：

获取待分析玻璃文物的外在信息；

提取所述待分析玻璃文物的外在特征。

7.如权利要求6所述的基于描述性统计与数据挖掘的古代玻璃分析方法，其特征在于，所述判断是否使用待分析玻璃文物的外在信息作为外在特征包括：

8.一种基于描述性统计与数据挖掘的古代玻璃分析装置，其特征在于，所述基于描述性统计与数据挖掘的古代玻璃分析装置包括：