CN112559848A

CN112559848A - 最优加权有向图的流形搜索方法

Info

Publication number: CN112559848A
Application number: CN202011468252.9A
Authority: CN
Inventors: 黄翰; 刘一鸣; 刘方青; 郝志峰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-03-26
Anticipated expiration: 2040-12-14
Also published as: CN112559848B

Abstract

本发明公开了最优加权有向图的流形搜索方法。所述方法包括以下步骤：用户通过网页终端向服务器发送结构方程模型中的测量模型信息和数据；服务器对预设的测量模型信息进行编码存储；服务器使用存储的预设模型信息，初始化生成结构模型编码；将初始化得到的种群输入到计算服务中，通过多目标优化算法迭代搜索备选范围内较优的结构模型，最终输出搜索到的较优模型；通过对输出的结果进行处理，提取出最终种群的骨干子结构并自动生成图表和文本结果，通过网页终端供用户在线或者离线查看，分析。本发明提高了加权有向图的建立，分析，筛选的效率，节约了用户时间。

Description

最优加权有向图的流形搜索方法

技术领域

本发明涉及到智能算法、结构方程分析领域，具体涉及最优加权有向图的流形搜索方法。

背景技术

结构方程模型是一种非常通用的、主要的线性统计建模技术，广泛应用于心理学、经济学、社会学、行为科学等领域的研究。在这些领域的研究中，研究人员经常会碰到无法准确、直接地测量的相关变量。这种变量本发明称之为潜变量，这些潜变量并不能直接准确地量化测量，但可以通过某些间接的手段去估算它，即使用一些可量化的测量指标来间接测量那些潜变量。传统的统计分析方法并不能很好地处理这些潜变量，而结构方程模型就能同时很好地处理这些潜变量及其指标。

如《一种新的统计方法和研究思路——结构方程建模述评》(张建平.一种新的统计方法和研究思路——结构方程建模述评[J].心理学报,1993(1):93-101.)中所述，现有的结构方程模型分析方法为：从应用者的角度，都需要研究者根据应用领域的理论或者经验，提出一个基本的结构方程模型，继而利用统计分析软件，计算模型的拟合程度，分析模型的不足，再手动修正模型。在模型修正后模型仍然无法拟合，或者失去理论意义的情况下，甚至需要完全重新建立模型。这个过程需要研究者具有一定的专业基础，而且需要大量的反复验证实验，费时费力，让很多研究者望而却步。

结构方程模型本质为一个加权有向图，通过将结构方程模型转化为加权有向图以及使用最优加权有向图的流形搜索方法，可以有效解决用户在使用结构方程模型时可能会遇到的效率低下的问题，进而帮助研究人员提高研究效率，使其可以将更多的时间和精力放在计算结果的分析上。加权有向图中的节点分别表示潜变量、观测变量和误差，潜变量节点之间，潜变量节点到观测变量节点，潜变量节点到误差节点，观测变量节点到误差节点的有向边及其权重分别表示终点对起点的影响大小。

发明内容

本发明针对目前在结构方程模型应用领域的问题，提供了一种最优加权有向图的流形搜索方法。本发明的目的在于在只提供了结构方程模型中的测量模型和看重的拟合指标的情况下，高效地在巨大的解空间中搜索出指定的拟合指标均较优的结构方程模型，同时搜索出结构方程模型中结构模型的骨干网络，并最终给出相应的分析报告及搜索结果。

本发明的目的至少通过如下技术方案之一实现。

最优加权有向图的流形搜索方法，包括以下步骤：

S1、用户通过网页终端向服务器发送结构方程模型中的测量模型信息和数据；

S2、服务器对预设的测量模型信息进行编码存储；

S3、服务器使用存储的预设模型信息，初始化生成结构模型编码；

S4、将步骤S3中初始化得到的种群输入到计算服务中，通过多目标优化算法迭代搜索备选范围内较优的结构模型，最终输出搜索到的较优模型；

S5、通过对步骤S4中输出的结果进行处理，提取出最终种群的骨干子结构并自动生成图表和文本结果，通过网页终端供用户在线或者离线查看，分析。

进一步地，步骤S1中，结构方程模型包括测量模型和结构模型，测量模型表示潜变量与观测变量之间的对应关系，既潜变量能由哪些观测变量表示，结构模型表示潜变量与潜变量之间的关系；

用户直接通过网页终端在网页上通过操作，输入、设定结构方程模型的信息和数据，包括结构方程模型中所有的潜变量、观测变量、待优化的拟合指标、观测变量与潜变量之间的归属关系、全部归属关系的载荷因子和观测变量对应的Excel格式的数据文件；

通过观测变量与潜变量之间的归属关系、归属关系的载荷因子和观测变量对应的Excel格式的数据文件即可确定测量模型的结构和数据；

所述Excel格式的数据文件需要按照原始数据格式、相关系数矩阵和协方差矩阵的数据格式中的一种进行处理。

进一步地，步骤S2具体包括以下步骤：

S2.1、以列表的形式存储潜变量、观测变量和待优化的拟合指标；

S2.2、使用二维矩阵存储潜变量和观测变量之间的对应关系及其之间的载荷因子。

进一步地，步骤S2.1中，采用一个潜变量列表用来记录结构方程模型的全部潜变量；采用一个观测变量列表用来记录结构方程模型的全部观测变量；采用一个待优化拟合指标列表用来记录待优化的拟合指标。

进一步地，步骤S2.2中，二维矩阵中每一行分别记录了潜变量、对应的观测变量和载荷因子；每一个观测变量仅能对应到一个潜变量下，但每一个潜变量可以对应多个观测变量。

进一步地，步骤S3具体包括以下步骤：

S3.1、根据步骤S2中存储的潜变量列表，随机生成初始种群p，初始种群p中每一个个体为一种结构模型编码；

S3.2、对初始种群p中每一个个体的同一个位置变量的分布特征进行统计，若种群初始种群p中每一个个体的相同位置变量的分布特征满足3σ定律(three-sigma rule)，则此时的初始种群p是均匀分布的种群；若初始种群p为均匀分布的种群或者随机生成初始种群p的次数超出阈值，则向下执行步骤S4，否则重新跳转到步骤S3.1。

进一步地，步骤S3.1中，所述结构模型编码具体如下：

对于任意第i个潜变量l_i，1<i<＝n，使用一个长度为n的二进制数表示，n为潜变量数量，若该二进制表示的数上第j位为1，j<＝n，则表示潜变量l_j对潜变量l_i产生了影响，表现在结构方程模型图中为有一条以潜变量l_j为起始点，以潜变量l_i为起终点的有向边，最终一个结构模型使用n*n位二进制数表示。

进一步地，步骤S4具体包括以下步骤：

S4.1、搜索进程接受一个原始种群op，根据结构方程模型的测量模型、结构方程模型对应的数据和原始种群op中每个个体的结构模型编码，通过字符串拼接的方式生成R语言中计算相应数据的计算语句；

S4.2、将步骤S4.1中生成的每个R语言计算语句分别通过网络请求的方式发送到R语言服务器，并等待R语言服务器返回计算结果；

S4.3、在步骤S4.2返回的计算结果中筛选出与步骤S2.1中存储的待优化拟合指标对应的拟合指标数据；

S4.4、将原始种群op随机分成第一子种群p1和第二子种群p2；

S4.5、将第一子种群p1和第二子种群p2及其各自对应的在步骤S4.3中筛选出的拟合指标数据输入到多目标优化算法中进行交叉变异操作，得到交叉变异后的第一变异子种群p1'和第二变异子种群p2'；

S4.6、判断当前迭代次数是否达到设定的提取骨干子结构的迭代条件，迭代条件为1000的整数倍，若达到该迭代条件，通过对整个第一子种群p1中每个个体编码表示中的每一位进行与运算，提取第一子种群p1的第一骨干子结构s1，并跳转到步骤S4.7；若没达到迭代条件，则跳转到步骤S4.8；

S4.7、使用步骤S4.6中提取出的第一骨干子结构s1与第二变异子种群p2'中的每个个体编码表示中的每一位进行或运算，将第一骨干子结构s1融合到第二变异子种群p2'中；

S4.8、合并交叉变异后的第一变异子种群p1'和第二变异子种群p2'，形成变异后种群p'；

S4.9、使用与步骤S4.5中相同的多目标优化算法对变异后种群p'进行筛选，使其规模与原始种群op的规模相同；

S4.10、判断当前迭代次数是否达到指定的迭代次数，若达到该迭代次数，则跳转到步骤S5；若没达到迭代次数，则将变异后种群p'作为原始种群op输入到步骤S4.1中。

进一步地，在第一次执行步骤S4.1时的原始种群op为步骤S3中生成的初始种群p。

进一步地，步骤S5具体包括以下步骤：

S5.1、将步骤S4中迭代结束时的变异后种群p'作为输入I，输入I中包括的个体数量为n；

S5.2、随机从输入I中选取m个个体，0＜m＜n；

S5.3、通过对整个第一子种群p1中每个个体编码表示中的每一位进行与运算，提取出输入I的第二骨干子结构s，并绘制对应的结构图g；

S5.4、将每一个在步骤S5.2中选取出的个体结合步骤S2中存储的预设的测量模型信息和结构方程模型观测变量数据生成R语言相应的计算语句；

S5.5、将步骤S5.4中生成的计算语句通过网络请求输入到R进程中进行计算，并获取计算结果；

S5.6、解析步骤S5.5中返回的计算结果，生成每个个体的拟合指标列表及各个拟合指标对应的拟合指标数值，生成每个个体对应的图结构；

S5.7、根据每个个体的拟合指标列表、各个拟合指标对应的拟合指标数值以及拟合指标建议标准，生成对应的文本分析报告，拟合指标信息以表格的形式展示，结构模型以图的形式展示；

S5.8、整合步骤S5.3中得到的骨干子结构s对应的结构图g、步骤S5.6中生成的每个个体的拟合指标列表及各个拟合指标对应的拟合指标数值和步骤S5.6中生成的每个个体对应的图结构，生成Word版分析文档，供用户下载，离线查看、分析结果；同时通过网页的形式使用户可以通过网页终端工具直接在线查看、分析结果。

与现有的技术方法相比，本发明具有以下优点和技术效果：

1.用户仅仅需要输入模型的潜变量、观测变量、需要优化的拟合指标以及设置其之间的对应关系，系统即可自动绘制生成对应的测量模型图。达成这样的效果仅需要用户在网页上进行点击操作和文本输入操作即可，不需要其他复杂的操作。

2.当潜变量的数量超过5个时，测量模型的搜索空间巨大，传统的方法需要研究人员具有丰富的经验来设计一个较好的测量模型，若测量模型设置不当，会导致最终的分析结果不准确，甚至对导致整个分析结果错误。而本发明中提出的方法充分结合利用计算机的运算能力和多目标优化算法的能力，在仅需要用户输入测量模型的前提下，即可实现在巨大的解空间中高效搜索出较优的结构模型，并给出其骨干子结构供用户参考分析。

附图说明

图1为服务器端对用户输入的模型信息编码存储结构；

图2为结构模型的编码及其对应的图结构；

图3为最优加权有向图的流形搜索方法的流程图。

具体实施方式

以下结合附图对本发明的实施方式作进一步说明，但本发明的实施不限于此。

实施例：

最优加权有向图的流形搜索方法，如图3所示，包括以下步骤：

结构方程模型包括测量模型和结构模型，测量模型表示潜变量与观测变量之间的对应关系，既潜变量能由哪些观测变量表示，结构模型表示潜变量与潜变量之间的关系；

通过观测变量与潜变量之间的归属关系、归属关系的载荷因子和观测变量对应的Excel格式的数据文件即可确定测量模型的结构和数据。

S2、服务器对预设的测量模型信息进行编码存储，具体包括以下步骤：

采用一个潜变量列表用来记录结构方程模型的全部潜变量；采用一个观测变量列表用来记录结构方程模型的全部观测变量；采用一个待优化拟合指标列表用来记录待优化的拟合指标。

二维矩阵中每一行分别记录了潜变量、对应的观测变量和载荷因子；每一个观测变量仅能对应到一个潜变量下，但每一个潜变量可以对应多个观测变量。

本实施例中，如图1所示，其中L1-L3表示潜变量,O1-O6表示观测变量；二维矩阵中第一列为潜变量，第二列为观测变量，第三列为载荷因子。

S3、服务器使用存储的预设模型信息，初始化生成结构模型编码，具体包括以下步骤：

所述结构模型编码具体如下：

如图2上部所示，每一个结构模型采用长度为n*n的二进制编码方式，图中v1-v5为潜变量；对于任意第i个潜变量l_i，1<i<＝n，使用一个长度为n的二进制数表示，n为潜变量数量，若该二进制表示的数上第j位为1，j<＝n，则表示潜变量l_j对潜变量l_i产生了影响，表现在结构方程模型图中为有一条以潜变量l_j为起始点，以潜变量l_i为起终点的有向边，最终一个结构模型使用n*n位二进制数表示。

S3.2、对初始种群p中每一个个体的同一个位置变量的分布特征进行统计，若种群初始种群p中每一个个体的相同位置变量的分布特征满足3σ定律(three-sigma rule)，则此时的初始种群p是均匀分布的种群；

本实施例中，如图2中潜变量v1所示，编码为“01101”,其中第二位为1，则表示v2对v1有影响，表现在图中为一条以v2为起点，以v1为终点的有向边，如图中所示。在由结构模型个体构成的种群中，按照行排列结构模型个体的编码，即每一行表示一个结构模型的编码。对排列好的二维矩阵，若每一列的“0”“1”分布都相对均匀，则种群为均匀分布的种群。

若初始种群p为均匀分布的种群或者随机生成初始种群p的次数超出阈值，则向下执行步骤S4，否则重新跳转到步骤S3.1。

S4、将步骤S3中生成的初始种群输入到计算服务中，通过多目标优化算法迭代搜索备选范围内较优的结构模型，最终输出搜索到的较优模型，具体包括以下步骤：

在第一次执行步骤S4.1时的原始种群op为步骤S3中生成的初始种群p。

S4.4、将原始种群op随机分成第一子种群p1和第二子种群p2；

S4.5、将第一子种群p1和第二子种群p2及其各自对应的在步骤S4.3中筛选出的拟合指标数据输入到多目标优化算法中进行交叉变异操作，得到交叉变异后的第一变异子种群p1'和第二变异子种群p2'；多目标优化算法可以为NSGA、PAES和SPEA等；

S5、通过对步骤S4中输出的结果进行处理，提取出最终种群的骨干子结构并自动生成图表和文本结果，通过网页终端供用户在线或者离线查看，分析，具体包括以下步骤：

S5.2、随机从输入I中选取m个个体，0＜m＜n；

S5.6、解析步骤S5.5中返回的计算结果，生成每个个体的拟合指标列表及各个拟合指标对应的拟合指标数值，本实施例中，使用R中sem包中的pathDiagram方法生成每个个体对应的图结构；

如上即可较好地实现本发明并取得所述的技术效果。本发明在仅需要指定测量模型的前提下，在巨大的解空间中高效地搜索出多项拟合指标均较优的结构方程模型，并给出其骨干结构图，拟合指标计算供用户进行对比分析，帮助用户快速确定最终的结构方程模型，提高用户的研究速度。

Claims

1.最优加权有向图的流形搜索方法，其特征在于，包括以下步骤：

S2、服务器对预设的测量模型信息进行编码存储；

2.根据权利要求1所述的最优加权有向图的流形搜索方法，其特征在于，步骤S1中，结构方程模型包括测量模型和结构模型，测量模型表示潜变量与观测变量之间的对应关系，既潜变量能由哪些观测变量表示，结构模型表示潜变量与潜变量之间的关系；

3.根据权利要求2所述的最优加权有向图的流形搜索方法，其特征在于，步骤S2具体包括以下步骤：

4.根据权利要求3所述的最优加权有向图的流形搜索方法，其特征在于，步骤S2.1中，采用一个潜变量列表用来记录结构方程模型的全部潜变量；采用一个观测变量列表用来记录结构方程模型的全部观测变量；采用一个待优化拟合指标列表用来记录待优化的拟合指标。

5.根据权利要求3所述的最优加权有向图的流形搜索方法，其特征在于，步骤S2.2中，二维矩阵中每一行分别记录了潜变量、对应的观测变量和载荷因子；每一个观测变量仅能对应到一个潜变量下，但每一个潜变量可以对应多个观测变量。

6.根据权利要求3所述的最优加权有向图的流形搜索方法，其特征在于，步骤S3具体包括以下步骤：

7.根据权利要求6所述的最优加权有向图的流形搜索方法，其特征在于，步骤S3.1中，所述结构模型编码具体如下：

8.根据权利要求6所述的最优加权有向图的流形搜索方法，其特征在于，步骤S4具体包括以下步骤：

S4.4、将原始种群op随机分成第一子种群p1和第二子种群p2；

9.根据权利要求8所述的最优加权有向图的流形搜索方法，其特征在于，在第一次执行步骤S4.1时的原始种群op为步骤S3中生成的初始种群p。

10.根据权利要求1～9任一项所述的最优加权有向图的流形搜索方法，其特征在于，步骤S5具体包括以下步骤：

S5.2、随机从输入I中选取m个个体，0＜m＜n；