CN105488183A

CN105488183A - 挖掘石窟壁画群中石窟壁画时空关联关系的方法和装置

Info

Publication number: CN105488183A
Application number: CN201510864465.6A
Authority: CN
Inventors: 赵海英; 陈洪
Original assignee: CENTURY COLLEGE BEIJING UNIVERSITY OF POSTS AND TELECOMMUNICATIONS
Current assignee: CENTURY COLLEGE BEIJING UNIVERSITY OF POSTS AND TELECOMMUNICATIONS
Priority date: 2015-12-01
Filing date: 2015-12-01
Publication date: 2016-04-13
Anticipated expiration: 2035-12-01
Also published as: CN105488183B

Abstract

本发明实施例公开了挖掘石窟壁画群中石窟壁画时空关联关系的方法和装置，方案包括：确定石窟壁画群中各石窟壁画的第一描述数据，将各石窟壁画确定为一个元组，基于Apriori算法对第一描述数据进行词频统计，得到各石窟壁画的描述词及所对应的词频，确定相应元组的预定类别属性，根据预定类别属性确定相应元组的属性值，以属于描述类属性的各个描述词的属性值，将各个元组关联成复杂网络，利用复杂网络分析算法，将复杂网络分割为多个网络模块，确定符合预定条件的目标网络模块所包括元组对应的石窟壁画确定为存在时空关联关系，应用本发明实施例可以确定石窟壁画群中石窟壁画的时空关联关系，为研究石窟壁画的整体关联关系提供参考数据。

Description

挖掘石窟壁画群中石窟壁画时空关联关系的方法和装置

技术领域

本发明涉及图像处理领域，特别涉及一种挖掘石窟壁画群中石窟壁画时空关联关系的方法和装置。

背景技术

所谓石窟壁画为绘制在石洞墙壁上的画作，而同一石窟内的多幅石窟壁画构成石窟壁画群，其中，国内已经发现的石窟壁画群包括：新疆石窟壁画群、敦煌莫高窟壁画群等等。由于石窟壁画群作为重要的文化遗产，国内外学者发表了大量关于石窟壁画群的专著文献，以从历史渊源、宗教背景、壁画内容、艺术风格、建筑风格、壁画原材料等诸多方面对壁画群中单幅壁画进行了大量深入细致的研究工作。

尽管关于壁画群中单幅壁画的研究能够为石窟壁画领域的提供大量的参考数据，但是，所提供的参考数据比较单一和分散，因此，为了提供研究石窟壁画的关于整体关系的参考数据，存在对石窟壁画群中各个石窟壁画间的关联关系的确定的需求。

发明内容

本发明实施例公开了一种挖掘石窟壁画群中石窟壁画时空关联关系的方法和装置，以挖掘确定出石窟壁画群中石窟壁画的时空关联关系，为研究石窟壁画的整体的关联关系提供参考数据。具体方案如下：

一方面，本发明实施例提供了一种挖掘石窟壁画群中石窟壁画时空关联关系的方法，所述方法包括：

确定石窟壁画群中各石窟壁画的第一描述数据，并将每幅石窟壁画确定为一个元组，其中，所述石窟壁画的第一描述数据为：从预先获得的该石窟壁画中的描述信息以及预先获得的关于该石窟壁画的介绍信息中提取得到；

基于Apriori算法对各石窟壁画的第一描述数据进行第一词频统计，进而，获得各石窟壁画所对应的描述词和所述描述词所对应的词频；

将各石窟壁画中词频超过第一预设阈值的多个描述词确定为相应元组的预定类别属性，其中，所述预定类别属性包括：时间类属性、空间类属性和描述类属性；

从各石窟壁画的第一描述数据中，确定所对应元组的属于预定类别属性的各个描述词所对应的多个描述子数据，并将所述多个描述子数据中出现次数超过预设数量阈值的目标描述子数据确定为相应描述词所对应的元组的属性值；

根据各个元组的属于描述类属性的各个描述词的属性值，将所述各个元组关联成复杂网络，其中，复杂网络中的节点为所述元组；

利用复杂网络分析算法，将所述复杂网络中的所有元组以模块化参数最大化的标准分割为多个网络模块，每个网络模块中包括至少一个元组；

将所述多个网络模块中符合预定条件的目标网络模块所包括元组对应的石窟壁画确定为存在时空关联关系，其中，所述预定条件包括：所包括元组的属于时间类属性的描述词的属性值不同和/或空间类属性的描述词的属性值不同。

较佳的，所述基于Apriori算法对各石窟壁画的第一描述数据进行第一词频统计，包括：

基于Apriori算法对各石窟壁画的第一描述数据进行除语气助词、数字、语气词、标点符号以及结构助词之外的第一词频统计。

较佳的，关于该石窟壁画中的描述信息的获得方式，包括：

对纸质形式的石窟壁画中的描述信息依次进行扫描和光学字符识别，从而获得该石窟壁画中的描述信息；

关于该石窟壁画的介绍信息的获得方式，包括：

对纸质形式的该石窟壁画的介绍信息依次进行扫描和光学字符识别，从而获得该石窟壁画的介绍信息。

较佳的，所述获得各壁画所对应的描述词和所述描述词所对应的词频包括：

利用基于无监督学习的自组织映射算法对所述各壁画所对应的描述词进行量化分析，以滤除属于噪声的描述词；

获得滤除噪声的描述词的各石窟壁画所对应的描述词和所述描述词所对应的词频，所述属于噪声的描述词为对所述纸质形式的石窟壁画中的描述信息和/或所述纸质形式的该石窟壁画的介绍信息依次进行进行扫描和光学字符识别时，出现的错误识别的描述词；其中，所述自组织映射算法中参数选择六边形映射格点，初始化码书选择随机码书，训练过程选择批处理batch训练算法，映射函数选择高斯邻域函数所述高斯邻域函数中σ为邻域半径，r_c为单元c的位置，c代表batch训练过程中，对应的各石窟壁画所对应的描述词训练输出结果索引，n_c表示滤除噪声的描述词的各石窟壁画所对应的描述词与未滤除噪声的描述词间的高斯距离，r_c是batch训练过程输出的滤除噪声的描述词的各石窟壁画所对应的描述词，r_i是训练输入的各石窟壁画所对应的描述词，||r_c-r_i||表示训练时产生的噪声的一阶原点矩。

较佳的，所述根据各个元组的属于描述类属性的各个描述词的属性值，将所述各个元组关联成复杂网络，包括：

针对每两个元组，当所述两个元组的属于描述类属性的各个描述词的属性值相同的数量超过第三预设阈值时，确定所述两个元组相互关联；

依次确定每两个元组间的关联关系，将所述各元组关联成复杂网络。

较佳的，在所述将所述多个网络模块中符合预定条件的目标网络模块所包括元组对应的石窟壁画确定为存在时空关联关系之后，还包括：

计算所述目标网络模块占所有网络模块的百分比，以定量确定所述石窟壁画群中各石窟壁画的时空关联关系。

另一方面，本发明实施例还提供了一种挖掘石窟壁画群中石窟壁画时空关联关系的装置，所述装置包括：

确定单元：用于确定石窟壁画群中各石窟壁画的第一描述数据，并将每幅石窟壁画确定为一个元组，其中，所述石窟壁画的第一描述数据为：从预先获得的该石窟壁画中的描述信息以及预先获得的关于该石窟壁画的介绍信息中提取得到；

词频统计单元：用于基于Apriori算法对各石窟壁画的第一描述数据进行第一词频统计，进而，获得各石窟壁画所对应的描述词和所述描述词所对应的词频；

预定类别属性确定单元：用于将各石窟壁画中词频超过第一预设阈值的多个描述词确定为相应元组的预定类别属性，其中，所述预定类别属性包括：时间类属性、空间类属性和描述类属性；

属性值确定单元：用于从各石窟壁画的第一描述数据中，确定所对应元组的属于预定类别属性的各个描述词所对应的多个描述子数据，并将所述多个描述子数据中出现次数超过预设数量阈值的目标描述子数据确定为相应描述词所对应的元组的属性值；

复杂网络关联单元：用于根据各个元组的属于描述类属性的各个描述词的属性值，将所述各个元组关联成复杂网络，其中，复杂网络中的节点为所述元组；

网络模块分割单元：用于利用复杂网络分析算法，将所述复杂网络中的所有元组以模块化参数最大化的标准分割为多个网络模块，每个网络模块中包括至少一个元组；

时空关联关系确定单元：用于将所述多个网络模块中符合预定条件的目标网络模块所包括元组对应的石窟壁画确定为存在时空关联关系，其中，所述预定条件包括：所包括元组的属于时间类属性的描述词的属性值不同和/或空间类属性的描述词的属性值不同。

较佳的，关于该石窟壁画中的描述信息的获得方式，包括：

关于该石窟壁画的介绍信息的获得方式，包括：

较佳的，所述词频统计单元具体用于：

较佳的，还包括时空关联关系定量确定单元；

所述时空关联关系定量确定单元：用于在所述时空关联关系确定单元将所述多个网络模块中符合预定条件的目标网络模块所包括元组对应的石窟壁画确定为存在时空关联关系之后，计算所述目标网络模块占所有网络模块的百分比，以定量确定所述石窟壁画群中各石窟壁画的时空关联关系。

本方案中，首先确定石窟壁画群中各石窟壁画的第一描述数据，并将各石窟壁画确定为一个元组，基于Apriori算法对该第一描述数据进行第一词频统计，得到各石窟壁画的描述词及其所对应的词频，进而确定相应元组的预定类别属性，根据该预定类别属性确定相应元组的属性值，以属于描述类属性的各个描述词的属性值，将各个元组关联成复杂网络，然后利用复杂网络分析算法，以模块化参数最大化的标准将该复杂网络分割为多个网络模块，挖掘确定所包括元组的属于时间类属性的描述词的属性值不同和/或空间类属性的描述词的属性值不同的目标网络模块所包括元组对应的石窟壁画确定为存在时空关联关系，为研究石窟壁画的整体关联关系提供了参考数据。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种挖掘石窟壁画群中石窟壁画时空关联关系的方法的流程示意图；

图2为本发明实施例提供的一种挖掘石窟壁画群中石窟壁画时空关联关系的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种挖掘石窟壁画群中石窟壁画时空关联关系的方法和装置，以挖掘确定石窟壁画群中石窟壁画的时空关联关系，为研究石窟壁画的整体的关联关系提供参考数据。

下面首先对本发明实施例所提供的一种挖掘石窟壁画群中石窟壁画时空关联关系的方法进行介绍。

需要说明的是，本发明实施例所提供了一种挖掘石窟壁画群中石窟壁画时空关联关系的方法可以应用于电子设备中，该电子设备可以为终端设备或服务器，举例而言：该终端设备可以为台式电脑、笔记本电脑、平板电脑和智能手机。

如图1所示，本发明实施例所提供的一种挖掘石窟壁画群中石窟壁画时空关联关系的方法，可以包括如下步骤：

S101：确定石窟壁画群中各石窟壁画的第一描述数据，并将每幅石窟壁画确定为一个元组；

需要说明的是，确定该石窟壁画群中石窟壁画时空关联关系，要基于该石窟壁画群中各石窟壁画的具体内容，如石窟壁画中的文字描述信息，以及现有的对该石窟壁画群中各石窟壁画的介绍信息，那么，该石窟壁画的第一描述数据可以为：从预先获得的该石窟壁画中的描述信息以及预先获得的关于该石窟壁画的介绍信息中提取得到。

需要说明的是，对于现有的该石窟壁画中的描述信息以及关于该石窟壁画的介绍信息的存在形式，可以为纸质形式的，也可以为电子文档形式，为了便于对石窟壁画群中石窟壁画的时空关联关系的确定，对于纸质形式的石窟壁画中的描述信息以及纸质形式的该石窟壁画的介绍信息，要首先转换成电子文档形式，具体的，关于该石窟壁画中的描述信息的获得方式，可以包括：

关于该石窟壁画的介绍信息的获得方式，可以包括：

S102：基于Apriori算法对各石窟壁画的第一描述数据进行第一词频统计，进而，获得各石窟壁画所对应的描述词和该描述词所对应的词频；

可以理解的是，在大量的关于该石窟壁画群中各石窟壁画的第一描述数据中，可能存在很多非关键性的描述信息，那么就需要对该第一描述数据进行处理分析，得到关于该石窟壁画群中各石窟壁画的主要的描述信息。对于该第一描述数据而言，其包括的词不会单独存在，大部分会以句子的形式存在于该第一描述数据中，对于存在大量数据中的所有词，采用穷举的方法的运算量非常大，因此在统计关于该石窟壁画群中各石窟壁画的主要的描述信息时，可以利用数据挖掘方法中统计频繁集的Apriori算法。

可以理解的是，在进行词频统计时，希望统计得到对各石窟壁画的关键角度的描述词，然而在实际情况中，在关于该石窟壁画的描述信息和/或关于该石窟壁画的介绍信息中会存在一些语气助词、数字、语气词、标点符号以及结构助词的辅助性的词，对于这些词不会存在关于该石窟壁画的重要信息，它们主要起到保证描述语句的完整与合理性，对关于该石窟壁画的时空关联关系的确定起到的作用很小，但是其存在的数量可能会很大，所以在统计词频时可以不考虑该类性的词，具体的，所述基于Apriori算法对各石窟壁画的第一描述数据进行第一词频统计，可以包括：

可以理解的，对各石窟壁画的第一描述数据进行除语气助词、数字、语气词、标点符号以及结构助词之外的第一词频统计，所获得的各石窟壁画所对应的描述词和该描述词所对应的词频可以认为是包括关于该石窟壁画群中各石窟壁画的主要的描述信息。

可以理解的是，基于Apriori算法，其基本原理为：对于长度为l的词，若其词频满足f_w(i)＞f_T，其中，f_w(i)表示第i幅石窟壁画的词w的词频，f_T表示门限值，则其包含的所有长度为l'＝1,...,l-1的词，其词频均满足f_c(i)＞f_T。此处，若记一个由l个汉字w_i＝(c_i1,c_i2,...,c_il)组成的词，即长度为l的词，则其包含的长度为l'＝1,...,l-1的词是指(c_im,...,c_i(m+l'))，m＝1,...,l-l'。因此，一个长度l的词w_i＝(c_i1,c_i2,...,c_il)，若其词频满足f_c(i)＞f_T，则其必然是由一个长度为l-1的词(c_i1,c_i2,...,c_il-1)和一个长度为1的汉字c_il组成，且词(c_i1,c_i2,...,c_il-1)和汉字c_il的词频均超过门限f_T。故可以采用迭代的方法，统计所有满足f_w(i)＞f_T的词。若统计到长度为l的词时，不存在满足f_c(i)＞f_T的词，则算法停止。

可以理解的是，在本发明中，针对每幅石窟壁画，选择其第一描述数据中的1个汉字c_i作为词频统计的对象，获得词频f_c(i)＞f_T的全部汉字，其中f_T表示词频门限值，i表示壁画索引，c_i表示第i幅石窟壁画的词c。假设得到N₁个汉字。则可利用Apriori算法，进一步统计词频f_w(i)＞f_T包含2个汉字的词的词频，依次增加词所包含的汉字的个数，直至不满足f_w(i)＞f_T的条件，结束统计过程。

可以理解的是，对于关于该石窟壁画的介绍信息一般可以从对该石窟壁画的相关专著文献中获得，然而，相关专著文献的作者在描述介绍石窟壁画时，可能只会侧重于一个或几个该石窟壁画的主要的角度进行描述，很可能较少描述甚至忽略一些各石窟壁画间共有的属性。同时，由于历史原因、气候环境原因的影响，相当数量的石窟壁画内容遭到破坏，以使石窟壁画内容模糊或丢失，或者其中一部分石窟壁画的内容在历史文献中失于记载，并且在对纸质形式的石窟壁画中的描述信息以及纸质形式的该石窟壁画的介绍信息进行扫描和光学字符识别时，也会存在较多的识别错误。因此，在对各石窟壁画的第一描述数据进行第一词频统计，获得各石窟壁画所对应的描述词和该描述词所对应的词频时，可能会存在偏离真实性的情况，然而，考虑到上述因素的随机性与非必要性，在石窟壁画数量非常庞大时，可以将上述因素对石窟壁画的第一描述数据的影响视为噪声。

在对各石窟壁画的第一描述数据进行第一词频统计，获得各石窟壁画所对应的描述词和该描述词所对应的词频时，对于该噪声的描述词的滤除，可以利用无监督学习的自组织映射算法，具体的，所述获得各壁画所对应的描述词和该描述词所对应的词频包括：

利用基于无监督学习的自组织映射算法对该各壁画所对应的描述词进行量化分析，以滤除属于噪声的描述词；

获得滤除噪声的描述词的各石窟壁画所对应的描述词和该描述词所对应的词频，该属于噪声的描述词为对该纸质形式的石窟壁画中的描述信息和/或该纸质形式的该石窟壁画的介绍信息依次进行进行扫描和光学字符识别时，出现的错误识别的描述词；其中，该自组织映射算法中参数选择六边形映射格点，初始化码书选择随机码书，训练过程选择批处理batch训练算法，映射函数选择高斯邻域函数该高斯邻域函数中σ为邻域半径，r_c为单元c的位置，c代表batch训练过程中，对应的各石窟壁画所对应的描述词训练输出结果索引，n_c表示滤除噪声的描述词的各石窟壁画所对应的描述词与未滤除噪声的描述词间的高斯距离，r_c是batch训练过程输出的滤除噪声的描述词的各石窟壁画所对应的描述词，r_i是训练输入的各石窟壁画所对应的描述词，||r_c-r_i||表示训练时产生的噪声的一阶原点矩，根据该高斯距离可以依据现有技术得到滤除噪声的描述词的各石窟壁画所对应的描述词，该描述词得到后，其对应的词频也相应得到；依据现有技术，自组织映射获得的最佳匹配单元(BMU,BestMatchingUnits)可表示为其中，x代表输入的预设的词频值，m_i表示各石窟壁画所对应的描述词所对应的词频，m_c表示最佳匹配的各石窟壁画所对应的描述词所对应的词频，该公式可以表示为最佳匹配的单元的欧拉距离，等于各石窟壁画所对应的描述词所对应的词频与该预设词频值的欧拉距离的最小值。

S103：将各石窟壁画中词频超过第一预设阈值的多个描述词确定为相应元组的预定类别属性，其中，该预定类别属性包括：时间类属性、空间类属性和描述类属性；

需要说明的是，该描述类属性中包含了除时间类属性和空间类属性以外的所有关于该石窟壁画的描述角度的词频超过第一预设阈值的描述词，根据描述词的描述角度进行了分类，其中，该第一预设阈值与门限值意义相同。该描述类属性可以包括风格类属性、色彩类属性和主题类属性等等；该空间类属性可以包括描述该石窟壁画为第几窟的描述词，可以为该石窟壁画所属的地理位置的描述词等等；该时间类属性可以包括该石窟壁画为某某年间所著的描述词，也可以为该石窟壁画所描述的某某年间的情景的描述词等等。

经无监督学习的自组织映射算法得到词w_k,l的词频记为f_k,l，进一步可得到的

S104：从各石窟壁画的第一描述数据中，确定所对应元组的属于预定类别属性的各个描述词所对应的多个描述子数据，并将该多个描述子数据中出现次数超过预设数量阈值的目标描述子数据确定为相应描述词所对应的元组的属性值；

需要说明的是，针对各石窟壁画的第一描述数据，确定所对应元组的属于预定类别属性的各个描述词所对应的多个描述子数据，取该多个描述子数据中出现次数超过预设数量阈值的目标描述子数据确定为相应描述词所对应的元组的属性值，具体的该属性值也相应的可以分为时间类、空间类和描述类，其中，描述类还可以根据该目标描述子数据的描述角度再进行分类。

S105：根据各个元组的属于描述类属性的各个描述词的属性值，将该各个元组关联成复杂网络，其中，复杂网络中的节点为该元组；

需要说明的是，根据社会学相关理论，一个被广泛接受的假设是：关联元组具有相同的属性值。根据这一假设，可以选择具有相同属性值的元组建立关联，从而将该石窟壁画群关联成为一个复杂网络。进一步考虑到最终目的是要确定各石窟壁画间的时空关联关系，故而在关联复杂网络时可以暂时排除对时间类属性值、空间类属性值的考虑，而仅考虑描述类属性值是否相同，进而关联成复杂网络。

具体的，所述根据各个元组的属于描述类属性的各个描述词的属性值，将该各个元组关联成复杂网络，可以包括：

针对每两个元组，当该两个元组的属于描述类属性的各个描述词的属性值相同的数量超过第三预设阈值时，确定该两个元组相互关联；

依次确定每两个元组间的关联关系，将该各个元组关联成复杂网络。

举例而言，记为元组I_l的除时间类属性值、空间类属性值外的描述类属性值，其中，分别表示元组I_l的除时间类属性值、空间类属性值外的描述类属性值，则当两个元组I_l和I_k间属性满足e≥f_n,时，即可认为两个元组I_l和I_k是具有关联关系的，其中，分别表示元组I_k的除时间类属性值、空间类属性值外的描述类属性值，分别表示元组I_l的除时间类属性值、空间类属性值外的描述类属性值，f_n表示关联关系门限即第三预设阈值。

进一步，对于复杂网络，对建立关联关系的元素(即各元组)，可以利用加权邻接矩阵A表示，所有的连接关系。加权邻接矩阵的第l行、第k列元素可表示为：

A (l, k) = \{\begin{matrix} w_{l, k}, & | | {i : u_{l}^{n_{i}} = u_{k}^{n_{i}}} | | &GreaterEqual; f_{n} \\ 0, & e l s e \end{matrix},

其中w_l,k≠0代表网络中顶点l和k之间的有边连通，且边的权为w_l,k(例如，取权值为两个元组I_l和I_k的相同属性个数，即w_l,k表示两个元组I_l和I_k的相同属性个数，若取w_l,k＝1，即为一般的邻接矩阵。

S106：利用复杂网络分析算法，将该复杂网络中的所有元组以模块化参数最大化的标准分割为多个网络模块，每个网络模块中包括至少一个元组；

需要说明的是，以模块化参数最大化的标准分割该由元组关联成的复杂网络，模块化参数最大时，其模块内部的元组具有较强的关联关系。

具体的，以模块化参数最大化的标准分割为多个网络模块，其中，模块化参数可以定义为：

Q = \frac{1}{2 A} \underset{k}{Σ} \underset{l}{Σ} (a_{k, l} - \frac{a_{k} a_{l}}{2 A}) δ (I_{k}, I_{l}),

其中，Q表示模块化参数，δ(I_k,I_l)为克罗内克delta函数(theKroneckerdeltafunction)，定义为

w_k,l表示加权邻接矩阵A的第k行、第l列元素即表示两个元组I_l和I_k的相同属性个数，

a_{k} = \underset{l}{Σ} a_{k l}, A = \frac{1}{2} \underset{k}{Σ} a_{k};

其中，a_k表示加权邻接矩阵A的第l列的第k个元素的和，a_kl表示加权邻接矩阵A的第l列的第k个元素。

要搜索最大化的Q值，一种可行的方法是利用塔布(Tabu)搜索。该算法认为网络是一个马尔可夫链，元组代表马尔科夫链的状态，塔布搜索的过程即状态转换的过程。塔布搜索过程从一个假设的初始的网络模块结构P_Init(即随机选取一个元组)开始，进行迭代搜索。迭代搜索从网络模块结构P_Iter开始，将该网络模块结构P_Iter在迭代开始时认为是当前迭代过程中具有最大模块化参数的网络模块结构P_Best，遍历所有元组，执行塔布移动过程，即随机决定该元组所属的网络模块(也可以由该元组新建网络模块)，塔布移动后产生的网络模块结构为P_Neig。若P_Neig的模块化参数比P_Best的模块化参数大，则更新P_Neig为P_Best。下次迭代起始时，取P_Iter＝P_Best。迭代过程中，P_Best没有更新的次数用变量Num_Idle表示。若迭代进行过程中，Num_Idle＝MT，MT为迭代次数门限，则可认为P_Best已经是最优的网络模块结构，即P_Best为模块化参数最大的网络模块。其中，随着MT的逐渐增大，所取网络模块结构P_Best以概率1收敛于最优网络模块结构。

S107：将该多个网络模块中符合预定条件的目标网络模块所包括元组对应的石窟壁画确定为存在时空关联关系，其中，该预定条件包括：所包括元组的属于时间类属性的描述词的属性值不同和/或空间类属性的描述词的属性值不同。

由于在关联复杂网络时回避了时间类属性值和空间类属性值，故网络模块的选取与时间类属性和空间类属性无关。另一方面，从网络模块化参数最大化的角度出发，网络模块内部的元组具有较强的关联关系。因而，可以考虑元组包含时间类属性和空间类属性在内的所有属性的属性值其中，分别表示元组I_l的除时间类属性值、空间类属性值外的描述类属性值，t_l表示元组I_l的时间类属性值、s_l表示元组I_l的空间类属性值。若同一网络模块内包含具有不同时间类属性值或空间类属性值的元组，则说明不同时间、空间的壁画之间存在时空关联特性即存在时空关联关系。

可以理解的是，为了更好的对该石窟壁画群中各石窟壁画的整体分析，可以进行定量的确定该石窟壁画群中各石窟壁画的时空关联关系，具体的，在所述将该多个网络模块中符合预定条件的目标网络模块所包括元组对应的石窟壁画确定为存在时空关联关系之后，还可以包括：

计算该目标网络模块占所有网络模块的百分比，以定量确定该石窟壁画群中各石窟壁画的时空关联关系。

应用本发明实施例，首先确定石窟壁画群中各石窟壁画的第一描述数据，并将各石窟壁画确定为一个元组，基于Apriori算法对该第一描述数据进行词频统计，得到各石窟壁画的描述词及其所对应的词频，进而确定相应元组的预定类别属性，根据该预定类别属性确定相应元组的属性值，以属于描述类属性的各个描述词的属性值，将各个元组关联成复杂网络，利用复杂网络分析算法，将该复杂网络分割为多个网络模块，确定符合预定条件的目标网络模块所包括元组对应的石窟壁画确定为存在时空关联关系，可以挖掘确定石窟壁画群中石窟壁画的时空关联关系，为研究石窟壁画的整体关联关系提供了参考数据。

相应于上述方法实施例，如图2所示，本发明实施例还提供了一种挖掘石窟壁画群中石窟壁画时空关联关系的装置，该装置可以包括：

确定单元201：用于确定石窟壁画群中各石窟壁画的第一描述数据，并将每幅石窟壁画确定为一个元组，其中，该石窟壁画的第一描述数据为：从预先获得的该石窟壁画中的描述信息以及预先获得的关于该石窟壁画的介绍信息中提取得到；

词频统计单元202：用于基于Apriori算法对各石窟壁画的第一描述数据进行第一词频统计，进而，获得各石窟壁画所对应的描述词和所述描述词所对应的词频；

预定类别属性确定单元203：用于将各石窟壁画中词频超过第一预设阈值的多个描述词确定为相应元组的预定类别属性，其中，该预定类别属性包括：时间类属性、空间类属性和描述类属性；

属性值确定单元204：用于从各石窟壁画的第一描述数据中，确定所对应元组的属于预定类别属性的各个描述词所对应的多个描述子数据，并将该多个描述子数据中出现次数超过预设数量阈值的目标描述子数据确定为相应描述词所对应的元组的属性值；

复杂网络关联单元205：用于根据各个元组的属于描述类属性的各个描述词的属性值，将该各个元组关联成复杂网络，其中，复杂网络中的节点为该元组；

网络模块分割单元206：用于利用复杂网络分析算法，将该复杂网络中的所有元组以模块化参数最大化的标准分割为多个网络模块，每个网络模块中包括至少一个元组；

时空关联关系确定单元207：用于将该多个网络模块中符合预定条件的目标网络模块所包括元组对应的石窟壁画确定为存在时空关联关系，其中，该预定条件包括：所包括元组的属于时间类属性的描述词的属性值不同和/或空间类属性的描述词的属性值不同。

具体的，该词频统计单元202基于Apriori算法对各石窟壁画的第一描述数据进行第一词频统计时，可以包括：

具体的，关于该石窟壁画中的描述信息的获得方式，可以包括：

关于该石窟壁画的介绍信息的获得方式，可以包括：

具体的，所述词频统计单元202具体用于：

获得滤除噪声的描述词的各石窟壁画所对应的描述词和该描述词所对应的词频，该属于噪声的描述词为对该纸质形式的石窟壁画中的描述信息和/或该纸质形式的该石窟壁画的介绍信息依次进行进行扫描和光学字符识别时，出现的错误识别的描述词；其中，该自组织映射算法中参数选择六边形映射格点，初始化码书选择随机码书，训练过程选择批处理batch训练算法，映射函数选择高斯邻域函数该高斯邻域函数中σ为邻域半径，r_c为单元c的位置，c代表batch训练过程中，对应的各石窟壁画所对应的描述词训练输出结果索引，n_c表示滤除噪声的描述词的各石窟壁画所对应的描述词与未滤除噪声的描述词间的高斯距离，r_c是batch训练过程输出的滤除噪声的描述词的各石窟壁画所对应的描述词，r_i是训练输入的各石窟壁画所对应的描述词，||r_c-r_i||表示训练时产生的噪声的一阶原点矩。

具体的，该复杂网络关联单元205根据各个元组的属于描述类属性的各个描述词的属性值，将该各个元组关联成复杂网络，可以包括：

依次确定每两个元组间的关联关系，将该各元组关联成复杂网络。

具体的，本发明实施例所提供的一种挖掘石窟壁画群中石窟壁画时空关联关系的装置，还包括时空关联关系定量确定单元；

该时空关联关系定量确定单元：用于在所述时空关联关系确定单元207将该多个网络模块中符合预定条件的目标网络模块所包括元组对应的石窟壁画确定为存在时空关联关系之后，计算该目标网络模块占所有网络模块的百分比，以定量确定该石窟壁画群中各石窟壁画的时空关联关系。

对于系统/装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种挖掘石窟壁画群中石窟壁画时空关联关系的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于Apriori算法对各石窟壁画的第一描述数据进行第一词频统计，包括：

3.根据权利要求1所述的方法，其特征在于，关于该石窟壁画中的描述信息的获得方式，包括：

关于该石窟壁画的介绍信息的获得方式，包括：

4.根据权利要求3所述的方法，其特征在于，所述获得各壁画所对应的描述词和所述描述词所对应的词频包括：

5.根据权利要求1所述的方法，其特征在于，所述根据各个元组的属于描述类属性的各个描述词的属性值，将所述各个元组关联成复杂网络，包括：

6.根据权利要求1所述的方法，其特征在于，在所述将所述多个网络模块中符合预定条件的目标网络模块所包括元组对应的石窟壁画确定为存在时空关联关系之后，还包括：

7.一种挖掘石窟壁画群中石窟壁画时空关联关系的装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，关于该石窟壁画中的描述信息的获得方式，包括：

关于该石窟壁画的介绍信息的获得方式，包括：

9.根据权利要求8所述的装置，其特征在于，所述词频统计单元具体用于：

10.根据权利要求7所述的装置，其特征在于，还包括时空关联关系定量确定单元；