CN117235533B - 对象变量分析方法、装置、计算机设备和存储介质 - Google Patents

对象变量分析方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN117235533B
CN117235533B CN202311490444.3A CN202311490444A CN117235533B CN 117235533 B CN117235533 B CN 117235533B CN 202311490444 A CN202311490444 A CN 202311490444A CN 117235533 B CN117235533 B CN 117235533B
Authority
CN
China
Prior art keywords
variable
data
candidate
dependent
independent variables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311490444.3A
Other languages
English (en)
Other versions
CN117235533A (zh
Inventor
邹晓园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311490444.3A priority Critical patent/CN117235533B/zh
Publication of CN117235533A publication Critical patent/CN117235533A/zh
Application granted granted Critical
Publication of CN117235533B publication Critical patent/CN117235533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种对象变量分析方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。该方法包括:从待分析对象的多个变量中,确定因变量和至少两个候选自变量;基于各候选自变量和因变量各自的变量数据,构建训练数据集;基于训练数据集进行多轮深度学习,确定从各候选自变量中逐轮筛选得到的目标自变量;将因变量与目标自变量之间的变量关联关系,作为待分析对象的变量分析结果。其中,后一轮深度学习的训练数据,包括因变量以及前一轮深度学习所筛选出的选定自变量各自的变量数据;选定自变量与因变量之间满足变量关联条件。采用上述方法能够提高变量分析结果的准确性。

Description

对象变量分析方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据分析技术领域,特别是涉及一种对象变量分析方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
背景技术
随着科学技术的快速发展和跨领域合作的增强,数据指标不断增多,给数据分析带来了前所未有的挑战。以针对待分析对象的对象变量分析为例,对于某一因变量而言,往往包括大量与之可能存在关联的候选自变量。
传统技术中,将待分析对象的因变量与每一候选自变量进行关联分析,每一候选自变量都会对变量分析结果产生影响,因此,变量分析结果的准确性取决于所选取的候选自变量的准确性,存在变量分析结果的准确性不高的缺点。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高准确性的对象变量分析方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种对象变量分析方法。所述方法包括:
计算机设备确定待分析对象的因变量和至少两个候选自变量;
所述计算机设备基于各所述候选自变量和所述因变量各自的变量数据,构建训练数据集;
所述计算机设备基于所述训练数据集进行多轮深度学习,确定从各所述候选自变量中逐轮筛选得到的目标自变量;其中,后一轮深度学习的训练数据,包括所述因变量的变量数据、以及前一轮深度学习所筛选出的选定自变量的变量数据,所述前一轮深度学习所筛选出的选定自变量的变量数据不同于所述前一轮深度学习的训练数据中自变量的变量数据的数据分布;所述选定自变量与所述因变量之间的相关度满足变量关联条件;
所述计算机设备将所述因变量与所述目标自变量之间的变量关联关系,作为所述待分析对象的变量分析结果。
第二方面,本申请还提供了一种对象变量分析装置。所述装置包括:
变量确定模块,用于确定待分析对象的因变量和至少两个候选自变量;
训练数据集构建模块,用于基于各所述候选自变量和所述因变量各自的变量数据,构建训练数据集;
深度学习模块,用于基于所述训练数据集进行多轮深度学习,确定从各所述候选自变量中逐轮筛选得到的目标自变量;其中,后一轮深度学习的训练数据,包括所述因变量的变量数据、以及前一轮深度学习所筛选出的选定自变量的变量数据,所述前一轮深度学习所筛选出的选定自变量的变量数据不同于所述前一轮深度学习的训练数据中自变量的变量数据的数据分布;所述选定自变量与所述因变量之间的相关度满足变量关联条件;
分析结果确定模块,用于将所述因变量与所述目标自变量之间的变量关联关系,作为所述待分析对象的变量分析结果。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
确定待分析对象的因变量和至少两个候选自变量;
基于各所述候选自变量和所述因变量各自的变量数据,构建训练数据集;
基于所述训练数据集进行多轮深度学习,确定从各所述候选自变量中逐轮筛选得到的目标自变量;其中,后一轮深度学习的训练数据,包括所述因变量的变量数据、以及前一轮深度学习所筛选出的选定自变量的变量数据,所述前一轮深度学习所筛选出的选定自变量的变量数据不同于所述前一轮深度学习的训练数据中自变量的变量数据的数据分布;所述选定自变量与所述因变量之间的相关度满足变量关联条件;
将所述因变量与所述目标自变量之间的变量关联关系,作为所述待分析对象的变量分析结果。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
确定待分析对象的因变量和至少两个候选自变量;
基于各所述候选自变量和所述因变量各自的变量数据,构建训练数据集;
基于所述训练数据集进行多轮深度学习,确定从各所述候选自变量中逐轮筛选得到的目标自变量;其中,后一轮深度学习的训练数据,包括所述因变量的变量数据、以及前一轮深度学习所筛选出的选定自变量的变量数据,所述前一轮深度学习所筛选出的选定自变量的变量数据不同于所述前一轮深度学习的训练数据中自变量的变量数据的数据分布;所述选定自变量与所述因变量之间的相关度满足变量关联条件;
将所述因变量与所述目标自变量之间的变量关联关系,作为所述待分析对象的变量分析结果。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
确定待分析对象的因变量和至少两个候选自变量;
基于各所述候选自变量和所述因变量各自的变量数据,构建训练数据集;
基于所述训练数据集进行多轮深度学习,确定从各所述候选自变量中逐轮筛选得到的目标自变量;其中,后一轮深度学习的训练数据,包括所述因变量的变量数据、以及前一轮深度学习所筛选出的选定自变量的变量数据,所述前一轮深度学习所筛选出的选定自变量的变量数据不同于所述前一轮深度学习的训练数据中自变量的变量数据的数据分布;所述选定自变量与所述因变量之间的相关度满足变量关联条件;
将所述因变量与所述目标自变量之间的变量关联关系,作为所述待分析对象的变量分析结果。
上述对象变量分析方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,将深度学习应用于对象变量分析过程中,能够通过人工智能的辅助,挖掘候选自变量和因变量之间的潜在关联,在提高分析效率的同时提高变量分析结果的准确性。并且,在应用深度学习的过程中,经过多轮深度学习从各候选自变量中逐轮筛选得到目标自变量,将因变量与目标自变量之间的变量关联关系,作为待分析对象的变量分析结果。由于后一轮深度学习的训练数据,包括因变量的变量数据、以及前一轮深度学习所筛选出的选定自变量的变量数据,并且,选定自变量与因变量之间的相关度满足变量关联条件,相当于前一轮深度学习所筛选出的选定自变量的变量数据不同于前一轮深度学习的训练数据中自变量的变量数据的数据分布,也即,后一轮学习之前会根据前一轮的学习结果更新训练数据的数据分布,能够逐步剔除训练数据集中与因变量不满足变量关联条件的冗余自变量,避免训练数据中冗余自变量对分析结果产生影响,有利于进一步提高变量分析结果的准确性。
附图说明
图1为一个实施例中对象变量分析方法的应用环境图;
图2为一个实施例中对象变量分析方法的流程示意图;
图3为一个实施例中多轮深度学习的学习过程示意图;
图4为一个实施例中σ(K)与Meridional translation的虚数部分、以及Longitudinal translation之间的关系示意图;
图5为一个实施例中σ(K)与Meridional translation的实数部分、以及Longitudinal translation之间的关系示意图;
图6为一个实施例中三叶结图形的示意图;
图7为一个实施例中收集的关于纽结理论的各种不变量因子的变量数据;
图8为一个实施例中多层感知机的网络结构示意图;
图9为一个实施例中各候选自变量和因变量之间的显著图;
图10为另一个实施例中对象变量分析方法的流程示意图;
图11为一个实施例中对象变量分析过程的示意图;
图12为一个实施例中遍历次数与模型准确率的关系示意图;
图13为一个实施例中对象变量分析装置的结构框图;
图14为一个实施例中计算机设备的内部结构图;
图15为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的对象变量分析方法可以是基于人工智能的,其中,人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
深度学习(Deep Learning)是机器学习和人工智能领域中的一个分支,是利用深层神经网络系统,进行机器学习的技术。深度学习是指计算机利用多层次的概念和计算,来进行机器学习的方法,其中多层次中的各个层之间具有一定的关联。深度学习在搜索技术、数据挖掘、机器学习、机器翻译、自然语言处理、多媒体学习、语音、推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
本申请实施例提供的方案涉及人工智能的深度学习技术,具体通过如下实施例进行说明:
在一个实施例中,本申请提供的对象变量分析方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。该通信网络可以是有线网络或无线网络。因此,终端102和服务器104可以通过有线或无线通信方式进行直接或间接的连接。比如,终端102可以通过无线接入点与服务器104间接地连接,或者终端102通过因特网与服务器104直接地连接,本申请在此不做限制。其中,终端102包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。本申请实施例可应用于对象变量分析场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以单独设置,可以集成在服务器104上,也可以放在云上或其他服务器上。
需要说明的是,本申请实施例中的对象变量分析方法,可以由终端102或服务器104单独执行,也可以由终端102和服务器104共同执行。通常情况下,本申请的对象变量分析方法可以由服务器104单独执行。在此情形下,用户可以通过终端102向服务器104发送对象变量分析请求,服务器104响应于该对象变量分析请求,可以从终端102或者数据存储系统获取待分析对象的对象信息,这些对象信息可以包括待分析对象的多个变量各自的变量数据。服务器104在进行对象变量分析的过程中:从待分析对象的多个变量中,确定待分析对象的因变量和至少两个候选自变量;基于各候选自变量和因变量各自的变量数据,构建训练数据集;基于训练数据集进行多轮深度学习,确定从各候选自变量中逐轮筛选得到的目标自变量;将因变量与目标自变量之间的变量关联关系,作为待分析对象的变量分析结果。其中,后一轮深度学习的训练数据,包括因变量的变量数据、以及前一轮深度学习所筛选出的选定自变量的变量数据;选定自变量与因变量之间的相关度满足变量关联条件。
在一个实施例中,在终端102的数据处理能力满足数据处理要求的情况下,本申请实施例提供的信息方法,其应用环境可以仅涉及终端102。具体地,用户可以向终端102提供待分析对象的多个变量各自的变量数据,并从各变量中定义因变量,以触发对象变量分析请求。由终端102响应于该对象变量分析请求,从各变量中确定待分析对象的因变量和至少两个候选自变量;并基于各候选自变量和因变量各自的变量数据,通过多轮深度学习从各候选自变量中筛选得到目标自变量,进而得到通过因变量与目标自变量之间的变量关联关系表征的变量分析结果。
在一个实施例中,如图2所示,提供了一种对象变量分析方法,该方法可以由计算机设备执行,包括以下步骤:
步骤S202,计算机设备确定待分析对象的因变量和至少两个候选自变量。
其中,待分析对象是指需要进行对象变量分析的对象。待分析对象的具体类型和所属领域并不唯一。示例性的,待分析对象例如可以是数学领域的凸多面体或扭结等,也可以是化学领域的化学现象或化学物质等,还可以是车联网或物联网领域的产品或功能,等等。待分析对象可以通过多个维度的变量表征。例如,凸多面体可以通过顶点数量(Numberof Vertices)、边数(Number of Edges)、凸多面体体积(Volume)、凸多面体表面积(Surface Area)以及凸多面体面数(Number of Surfaces)等表征;又如,扭结可以通过环绕数、绞拧数(Torsion Numbers)、双曲线不变量(Hyperbolic invariants)、考夫曼多项式(Kauffman polynomial)、琼斯多项式(Jones Polynomial)等表征;再如,车联网或物联网领域的产品可以通过尺寸、颜色、存储空间、运行频率等表征;图像可以通过像素、颜色、纹理、空间关系、大小和清晰度等表征。
进一步地,本申请进行对象变量分析的目的,是为了确定待分析对象的因变量和自变量之间的变量关联关系。其中,因变量是指作为结果的变量,自变量是作为原因的变量。基于此,计算机设备可以从待分析对象的多个变量中,确定该待分析对象的因变量和至少两个候选自变量。其中,候选自变量是与因变量之间可能存在关联的变量。例如,凸多面体面数为因变量的情况下,由于顶点数量、边数、凸多面体体积和凸多面体表面积均有可能影响凸多面体面数,可以将顶点数量、边数、凸多面体体积和凸多面体表面积确定为候选自变量。又如,扭结的代数不变量因子(例如signature)为因变量的情况下,由于环绕数、绞拧数、双曲线不变量、考夫曼多项式、琼斯多项式等均可能影响该代数不变量因子的取值,因此,可以将这些参数均确定为候选自变量。
在一个具体的实施例中,以生物图像分析场景为例,在进行生物特征提取之前,往往需要对生物图像进行修复,以提高图像清晰度,提升所提取的生物特征的准确性。在此情形下,通过对生物图像进行图像变量分析,确定图像清晰度与各关联变量之间的变量关联关系,能够有效提高图像修复效率和效果。
以计算机设备为服务器的情形为例。
可选的,工作人员可以使用终端,向服务器输入采集得到的多张生物图像各自的图像信息,并将生物图像确定为待分析对象,将图像清晰度确定为待分析对象的因变量。采集的图像信息可以包括像素、颜色、纹理、空间关系、大小和图像清晰度等。服务器可以将图像信息中包含的除因变量以外的其他变量,确定为候选自变量。
可选的,工作人员可以通过终端向服务器输入采集得到的多张生物图像,并将生物图像确定为待分析对象,将图像清晰度确定为待分析对象的因变量。由服务器对各生物图像分别进行信息提取和分析,得到各生物图像各自的图像信息,该图像信息可以包括图像清晰度、像素、颜色、纹理、空间关系、大小等。然后,计算机设备再将图像信息中包含的除因变量以外的其他变量,确定为候选自变量。
在一个具体的实施例中,步骤S202包括:计算机设备获取针对待分析对象的变量分析请求,从变量分析请求中提取待分析对象的因变量;计算机设备从因变量所在的知识图谱中,确定待分析对象的至少两个候选自变量。
其中,知识图谱的基本单位,是“实体(Entity)-关系(Relationship)-实体(Entity)”构成的三元组,其中实体对应知识图谱中的节点,关系对应知识图谱中节点之间的连接线。知识图谱是结构化的语义知识库,通过对错综复杂的文档的数据进行有效的加工、处理、整合,转化为简单、清晰的“实体、关系、实体”的三元组,最后聚合大量知识,从而实现知识的快速响应和推理。知识图谱有自顶向下和自底向上两种构建方式。所谓自顶向下构建是借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库中;所谓自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核之后,加入到知识库中。
以计算机设备为服务器的情形为例。具体地,工作人员可以使用终端向服务器发送针对待分析对象的变量分析请求,明确变量分析的目的。该目的,可以是确定待分析对象的因变量与该待分析对象的其他变量之间的变量关联关系。也即,变量分析请求中携带待分析对象的因变量。然后,由服务器从变量分析请求中提取待分析对象的因变量,并获取该因变量所在的知识图谱。进而,服务器可以从该因变量所在的知识图谱中,确定待分析对象的至少两个候选自变量。进一步地,因变量所在的知识图谱,可以是待分析对象所属领域的知识图谱,也可以不是待分析对象所属领域的知识图谱,在此不作限定。
可选地,变量可以作为知识图谱中的实体,对应知识图谱中的节点。服务器可以将知识图谱中与因变量存在直接或间接连接的变量,确定为候选自变量。示例性的,服务器可以根据待分析对象的各变量在知识图谱中各自的位置,从各变量中选择与因变量间隔节点数小于或等于设定数量的候选自变量。该设定数量例如可以是0,也即,将直接与因变量连接的各变量确定为候选自变量;该设定数量例如可以是1,也即,将直接与因变量连接、或者通过一个节点与因变量间接连接的变量确定为候选自变量。
示例性的,在生物图像分析场景下,工作人员可以使用终端,向服务器发送针对生物图像的对象变量分析请求,该变量分析请求中将图像清晰度确定为因变量。服务器可以响应于该对象变量分析请求,从图像清晰度所在的知识图谱中,确定生物图像的至少两个候选自变量,然后,再获取因变量和各候选自变量各自的变量数据。可以理解,在工作人员通过终端向服务器发送多张生物图像的情况下,服务器可以分别对每一生物图像进行数据分析,得到各生物图像各自的图像清晰度、以及各生物图像分别对应于每一候选自变量各自的变量数据。服务器也可以从数据存储系统,或者,通过网络从开源数据库,获取图像清晰度和各候选自变量各自的变量数据。
上述实施例中,从因变量所在的知识图谱中,确定待分析对象的至少两个候选自变量,能够挖掘变量之间的潜在关联,可以避免遗漏候选自变量,从而提高变量分析结果的准确性。
在一个可能的实施例中,计算机设备从因变量所在的知识图谱中,确定待分析对象的至少两个候选自变量,包括:计算机设备确定待分析对象的所属领域,并获取该领域的知识图谱;计算机设备根据各节点在知识图谱中各自的位置,从各第二类节点中确定至少两个选定节点;计算机设备将选定节点所表征的变量,确定为待分析对象的候选自变量。
其中,知识图谱的各节点中包含因变量所在的第一类节点、以及除第一类节点以外的第二类节点。具体地,计算机设备可以确定待分析对象的所属领域,并获取该领域的知识图谱,然后根据各节点在知识图谱中各自的位置,从各第二类节点中确定至少两个选定节点,并将选定节点所表征的变量,确定为待分析对象的候选自变量。可选地,计算机设备可以将知识图谱中与第一节点直接连接的节点,或者,与第一节点之间的间隔节点数小于或等于N的节点,确定为选定节点。N可以为1、2或3等。
示例性的,在待分析对象为数学概念的情况下,计算机设备可以确定待分析对象的所属领域为数学领域,并从数学领域的知识图谱中确定候选自变量;在待分析对象为化学概念的情况下,计算机设备可以确定待分析对象的所属领域为化学领域,并从化学领域的知识图谱中确定候选自变量。
需要说明的是,在待分析对象为跨领域对象的情况下,计算机设备可以确定待分析对象所属的多个领域,并从各领域各自的知识图谱中确定因变量的候选自变量。具体地,在获取了多个领域的知识图谱的情况下,对于每一领域的知识图谱,计算机设备均可以根据各节点在知识图谱中各自的位置,从该知识图谱的各第二类节点中确定选定节点,并将该选定节点所表征的变量,确定为待分析对象的候选自变量,从而得到待分析对象的至少两个候选自变量。
示例性的,以生物图像分析场景为例,计算机设备可以确定生物图像的所属领域。该领域例如可以是医学影像领域、图像处理领域等。然后,计算机设备再获取各领域各自的知识图谱,并针对每一知识图谱,根据各节点在该知识图谱中各自的位置,从各第二类节点中确定至少两个选定节点,并将选定节点所表征的变量,确定为生物图像的候选自变量。例如,对于医学影像领域而言,所确定的候选自变量可以包括设备类型、放大倍率、曝光时间等等;对于图像处理领域而言,所确定的候选自变量可以包括像素、颜色、纹理、空间关系、大小等。
上述实施例中,从待分析对象所属领域的知识图谱中,确定待分析对象的至少两个候选自变量,能够提高候选自变量与变量分析请求的锲合度,进而确保变量分析结果的准确性。
步骤S204,计算机设备基于各候选自变量和因变量各自的变量数据,构建训练数据集。
其中,某一变量的变量数据,是指该变量的具体数值。实际应用中,可以通过对待分析对象进行人工或自动标注的方式,获得该待分析对象对应于多个变量的多组变量数据。例如,在数学领域,可以收集相关数学领域的各种数据,比如几何学中,对各种数学形状定义的不变量,多面体有几个面、几条边、面积、体积等;在物理领域,可以对实验数据、物理规律等进行标注;在化学领域,可以对化学反应、化合物结构等进行标注;在生物领域,可以对基因序列、蛋白质结构等进行标注。数据标注的目的是为了让深度学习模型能够更好地理解和学习相关领域的知识。在一个具体的实现中,计算机设备可以获取待分析对象的对象数据,并根据对象数据中各子数据各自对应的变量,从各子数据中筛选得到各候选自变量和因变量各自的变量数据,以便构建训练数据集。
构建训练数据集的具体方式并不唯一。计算机设备可以对各候选自变量和因变量各自的变量数据进行特征提取,转换为适用于深度学习的格式,获得训练数据集。在一个具体的实施例中,步骤S204包括:计算机设备对各候选自变量和因变量各自的变量数据进行预处理,获得预处理数据;计算机设备对预处理数据进行特征提取,得到满足深度学习需求的变量特征;计算机设备构建包含变量特征的训练数据集。
其中,预处理是指在应用数据之前,对数据进行的在先处理。实际应用中,可以从完整性、一致性和准确性等角度进行预处理。预处理的具体方式可以包括数据清洗、数据变换和数据规约等等。例如,由于变量数据的来源不同,可能同一变量的多个变量数据的单位不一致,则计算机设备可以通过预处理将同一变量的各变量数据转换为同一单位,以确保一致性;又如,变量数据的数据跨度过大,则计算机设备可以通过预处理将各变量数据进行归一化转换,以减小数据跨度。具体地,计算机设备可以对各候选自变量和因变量各自的变量数据进行预处理,获得预处理数据。然后,再对预处理数据进行特征提取,将各预处理数据转换为向量或矩阵形式,得到满足深度学习需求的变量特征,进而构建包含变量特征的训练数据集。
在一个具体的实现中,以生物图像分析场景为例,在因变量为图像清晰度,候选自变量包括像素、颜色、纹理、空间关系、大小等的情况下,计算机设备可以对各变量各自的变量数据进行标准化处理,以消除量纲和单位上的差异,得到预处理数据,然后,再对预处理数据进行特征提取,得到满足深度学习需求的图像特征,进而构建包含图像特征的训练数据集。
上述实施例中,通过对变量数据进行数据预处理和特征提取,构建训练数据集,能够确保训练数据集中所包含数据的质量,进而提升深度学习效果。
步骤S206,计算机设备基于训练数据集进行多轮深度学习,确定从各候选自变量中逐轮筛选得到的目标自变量。
其中,深度学习是机器学习领域中的一个新的研究方向,其能够采用非监督式或半监督式的特征学习和分层特征提取的高效算法,来替代人工,与其他机器学习方式相比更接近于人工智能的目标。通过深度学习,可以学习样本数据的内在规律,并且在学习过程中可以获得对数据解释有帮助的信息。具体到本申请,深度学习过程中所使用的学习算法,可以包括迁移学习、强化学习等等;深度学习过程中所使用的网络类型,可以包括多层感知机(MLP,Multilayer Perceptron)、卷积神经网络(CNN,Convolutional Neural Network)、循环神经网络(RNN,RecurrentNeural Network)、长短记忆神经网络(LSTM,Long Short-Term Memory Neural Network)以及自注意力机制神经网络(Transformer-Based NeuralNetwork)等。
具体地,计算机设备可以基于训练数据集进行多轮深度学习,确定从各候选自变量中逐轮筛选得到的目标自变量。其中,后一轮深度学习的训练数据,包括因变量的变量数据、以及前一轮深度学习所筛选出的选定自变量的变量数据,前一轮深度学习所筛选出的选定自变量的变量数据不同于前一轮深度学习的训练数据中自变量的变量数据的数据分布;选定自变量与因变量之间的相关度满足变量关联条件。变量关联条件可以是指相关度大于或等于设定相关度。进一步地,不同的学习轮次的变量关联条件可以相同,也可以不相同。可以理解,在不同学习轮次的变量关联条件相同的情况下,由于每一学习轮次所使用的训练数据集不相同,筛选出的选定自变量也会存在差异。可选地,在不同学习轮次的变量关联条件不相同的情况下,表征变量关联条件的设定相关度与学习轮次反相关,也即,学习轮次越靠后,所包含的冗余变量越少,学习结果越准确,设置相对宽松的变量关联条件,能够避免将与因变量实际存在关联的候选自变量剔除,有利于提高筛选得到的目标自变量的准确性。
在一个具体的实施例中,如图3所示,计算机设备可以对训练数据集进行深度学习,从训练数据集所包含的各候选自变量中,筛选得到与因变量之间的相关度满足变量关联条件的选定自变量。然后,构建包含因变量的变量数据、以及该选定自变量的变量数据的训练数据集,用于进行后一轮的深度学习。再对新的训练数据集进行深度学习,从该新的训练数据集中所包含的各候选自变量中,筛选得到与因变量之间的相关度满足变量关联条件的选定自变量。以此类推,直到满足结束条件,将最后一轮深度学习确定的选定自变量作为目标自变量。
可以理解,随着学习轮数的增加,筛选得到的选定自变量将逐步减少,从而达到从各候选自变量中剔除与因变量之间关联较弱的冗余变量的目的。示例性的,在生物图像分析场景下,第一轮深度学习可以将图像清晰度的候选自变量“空间关系”剔除,第二轮深度学习可以将候选自变量“纹理”剔除,以此类推,直至满足结束条件。其中,结束条件可以是学习轮次达到了设定轮次,也可以是当前训练得到的学习模型的预测准确率达到了设定准确率。学习模型的预测准确率可以通过使用学习模型对测试数据集进行数据预测得到。需要说明的是,后一轮深度学习的训练数据,可以包括前一轮深度学习的训练数据集中的变量数据,还可以包括针对选定自变量补充的变量数据。例如,第一轮深度学习的训练数据集中包括400组数据,其中只有100组数据包含候选自变量A的变量数据。通过第一轮深度学习确定候选自变量A为选定自变量的情况下,可以将第一轮的训练数据集中的这100组数据保留,作为新的训练数据,在此基础上,还可以通过标注或采样等方式,获取更多包含候选自变量A变量数据的数据组,作为训练数据的补充,以提高学习效果。
步骤S208,计算机设备将因变量与目标自变量之间的变量关联关系,作为待分析对象的变量分析结果。
其中,变量关联关系可以通过函数、列表、文字等表征。以通过文字表征的情况为例,该变量关联关系例如可以是:因变量与目标自变量A强相关、与目标自变量B弱相关。具体地,计算机设备可以基于多轮深度学习的学习结果,确定因变量与目标自变量之间的变量关联关系,进而得到待分析对象的变量分析结果。
在一个具体的实施例中,变量关联关系通过函数表征,在该实施例的情形下,计算机设备可以基于最后一轮深度学习确定的因变量与目标自变量之间的相关度,得到通过该相关度表征因变量与目标自变量之间的变量关联关系,作为待分析对象的变量分析结果。以线性回归分析为例,若因变量Y与目标自变量X1之间的相关度为0.8,因变量Y与目标自变量X2之间的相关度为0.5,则待分析对象的变量分析结果可以是Y=0.8X1+0.5X2
需要说明的是,实际应用中,通过多轮深度学习所得到的变量分析结果,可以输出至用户所持终端,以便用户基于变量分析结果进行进一步的研究。示例性的,针对扭结问题,对于结的signature,记做σ(K),最终确定的目标自变量包括几何不变量因子Meridional translation(子午线平移)的虚数部分(image)、几何不变量因子Longitudinal translation(纵向平移)、几何不变量因子Meridional translation(子午线平移)的实数部分(real)、Cusp volume(尖端体积)和Volume(体积)。如图4和图5所示,将σ(K)、Meridional translation的虚数部分(image)和Longitudinaltranslation画在一起,确实呈现了一定的关联关系,但这三个不变量因子和σ(K)(结的signature)之间是存在一种非线性关系的,公式的具体形式就需要数学家进一步的证明了。
上述对象变量分析方法,将深度学习应用于对象变量分析过程中,能够通过人工智能的辅助,挖掘候选自变量和因变量之间的潜在关联,在提高分析效率的同时提高变量分析结果的准确性。并且,在应用深度学习的过程中,经过多轮深度学习从各候选自变量中逐轮筛选得到目标自变量,将因变量与目标自变量之间的变量关联关系,作为待分析对象的变量分析结果。由于后一轮深度学习的训练数据,包括因变量的变量数据、以及前一轮深度学习所筛选出的选定自变量的变量数据,并且,选定自变量与因变量之间的相关度满足变量关联条件,相当于前一轮深度学习所筛选出的选定自变量的变量数据不同于前一轮深度学习的训练数据中自变量的变量数据的数据分布,也即,后一轮学习之前会根据前一轮的学习结果更新训练数据的数据分布,能够逐步剔除训练数据集中与因变量不满足变量关联条件的冗余自变量,避免训练数据中冗余自变量对分析结果产生影响,有利于进一步提高变量分析结果的准确性。
在一个实施例中,步骤S206包括:计算机设备对训练数据集进行深度学习,获得学习模型;计算机设备基于学习模型对因变量进行归因分析,分别确定每一候选自变量与该因变量的相关度;计算机设备从各候选自变量中,筛选出相关度满足变量关联条件的选定自变量;计算机设备基于选定自变量调整训练数据的数据分布,确定更新的训练数据集,并返回对训练数据集进行深度学习的步骤,直至满足结束条件,得到目标自变量。
其中,更新的训练数据集中包括选定自变量和因变量各自的变量数据。归因分析是指对因变量与自变量之间的关联情况进行分析的过程。本实施例中,可以通过特征选择和主成分分析实现归因分析。特征选择可以帮助找出与因变量相关度最高的变量因子,而主成分分析可以将多维数据降维,使得用户更容易理解和解释最终确定的变量分析结果。变量关联条件可以是指相关度大于或等于设定相关度,不同的学习轮次的变量关联条件可以相同,也可以不相同。
具体地,在第一轮深度学习过程中,计算机设备可以对训练数据集进行深度学习,获得学习模型。深度学习过程中所使用的学习算法,可以包括迁移学习、强化学习等等;深度学习过程中所使用的网络类型,可以包括多层感知机、卷积神经网络、循环神经网络、长短记忆神经网络以及自注意力机制神经网络等。然后,计算机设备基于学习模型对因变量进行归因分析,分别确定每一候选自变量与该因变量的相关度。接着,计算机设备再从各候选自变量中,筛选出相关度满足变量关联条件的选定自变量,并基于选定自变量调整训练数据的数据分布,确定更新的训练数据集,返回对训练数据集进行深度学习的步骤。从而使得前一轮深度学习所筛选出的选定自变量的变量数据不同于前一轮深度学习的训练数据中自变量的变量数据的数据分布。以此类推,直至满足结束条件,将最后一轮深度学习确定的选定自变量作为目标自变量。
在一个具体的实施例中,计算机设备从各候选自变量中,筛选出相关度满足变量关联条件的选定自变量,包括:计算机设备确定与当前学习轮次匹配的变量关联条件;计算机设备将各候选自变量各自的相关度与变量关联条件进行比对,从各候选自变量中筛选出相关度满足变量关联条件的选定自变量。
其中,各学习轮次各自的变量关联条件可以不同。可选的,表征变量关联条件的设定相关度与学习轮次反相关,也即,学习轮次越靠后,所包含的冗余变量越少,学习结果越准确,设置相对宽松的变量关联条件,能够避免将与因变量实际存在关联的候选自变量剔除,有利于提高筛选得到的目标自变量的准确性。进一步地,两个变量反相关,是指:在其他条件不变的情况下,两个变量变动方向相反,一个变量由大到小变化时,另一个变量由小到大变化。可以理解的是,这里的反相关是指变化的方向是相反的,但并不是要求当一个变量有一点变化,另一个变量就必须也变化。示例性的,针对多轮深度学习中的任意两个学习轮次,前一轮次和后一轮次的设定相关度可以相同,前一轮次的设定相关度也可以大于后一轮次的设定相关度。
具体地,对于每一轮的深度学习,计算机设备可以确定当前学习轮次,进而确定与当前学习轮次匹配的变量关联条件,然后,将各候选自变量各自的相关度与变量关联条件进行比对,从各候选自变量中筛选出相关度满足变量关联条件的选定自变量。对各学习轮次设置对应的变量关联条件,一方面,能够匹配不同场景的应用需求,提高变量分析方法的灵活性;另一方面,能够进一步确保筛选得到的目标自变量的准确性,进而提高变量分析结果的准确性。
上述实施例中,通过多轮深度学习和归因分析,从候选自变量中逐轮筛选,得到目标自变量,能够提高所确定的目标自变量的准确性,进而确保最终得到的变量分析结果的准确性。
在一个实施例中,计算机设备对训练数据集进行深度学习,获得学习模型,包括:计算机设备确定训练数据集中各变量数据各自的数据特性;计算机设备采用与各数据特性匹配的骨干网络,对训练数据集进行深度学习,获得学习模型。
其中,数据特性可以通过数据类型和数据敏感度等表征。数据类型可以包括数值型数据、时序相关数据等等。数据敏感度可以包括局部敏感度、全局敏感度和平滑敏感度等。具体地,计算机设备可以对训练数据集中各变量各自的变量数据进行数据特性分析,确定各变量各自的数据特性,然后,采用与各数据特性匹配的骨干网络,对训练数据集进行深度学习,获得学习模型。进一步的,计算机设备可以对各数据特性配置优先级,并将与优先级最高数据特性匹配的骨干网络,确定为与各数据特性匹配的骨干网络;计算机设备也可以将各数据特性中所对应的变量最多的数据特性匹配的骨干网络,确定为与各数据特性匹配的骨干网络。
可选的,若各变量数据中存在局部敏感性的数据,则可以选择卷积神经网络进行深度学习;若各变量数据中存在时序相关的数据,则可以选择循环神经网络、长短记忆神经网络以及自注意力机制神经网络进行深度学习;而多层感知机可以满足大部分场景,并且具备非线性关系的表达能力。进一步地,还可以结合多种类型的神经网络,获得与各数据特性匹配的骨干网络。例如,可以在多层感知机的基础上,增加BatchNorm层(批量归一化层,神经网络的一个计算层),或者使用Transformer或LSTM等网络结构,使得网络能够表达时序关系。
上述实施例中,采用与变量数据的数据特性匹配的骨干网络,对训练数据集进行深度学习,获得学习模型,能够进一步提高深度学习效果,提升变量分析结果的准确性。
实际应用中,可以将对象变量分析问题转化为分类问题进行深度学习。具体地,计算机设备可以确定训练数据集中因变量的取值数量,并将与该取值数量匹配的多层感知网络,确定为与各数据特征匹配的骨干网络。示例性的,生物图像分析场景下,图像清晰度可以使用等级表征,例如,“A”、“B”、“C”,或者 “优”、“良”、“差”等。在此情形下,计算机设备可以将三分类的多层感知网络,确定为深度学习的骨干网络。进一步地,由于每一轮深度学习过程中所使用的训练数据的数据分布存在差异,计算机设备还可以根据每一轮深度学习各自训练数据的数据分布,调整当前学习轮次的骨干网络,以进一步提高学习效果。
在一个具体的实施例中,待分析对象为扭结,因变量为扭结的代数不变量因子。在该实施例的情形下,计算机设备确定训练数据集中各变量数据各自的数据特性,包括:计算机设备确定训练数据集中代数不变量因子的取值数量。对象变量分析方法还包括:计算机设备将与取值数量匹配的多层感知网络,确定为与各数据特性匹配的骨干网络。
其中,纽结理论是一个重要而且活跃的数学分支,属于拓扑学范畴(Topology)。它研究的是空间中的结,也就是将一条绳子首尾相接形成的闭合曲线。这些结可以是三维空间中的曲线,也可以是更高维度空间中的对象。如图6所示,为各种类型的三叶结图形示意图。研究人员通过研究结的性质,可以了解它们在高维拓扑空间中的行为。结理论已经发展成为一个广泛的研究领域,涉及到许多不同的数学分支,如代数、几何和组合拓扑学。简单来说,从代数和几何两方面定义了各种不变量因子,比如环绕数、绞拧数、双曲线不变量、考夫曼多项式、琼斯多项式等等。
具体地,可以将纽结的代数不变量因子(例如signature)作为因变量,并确定训练数据集中该代数不变量因子的取值数量。实际应用中,代数不变量因子的取值数量是有限的,因此,可以将变量分析问题转换为分类问题。基于此,可以将与取值数量匹配的多层感知网络,确定为与各数据特性匹配的骨干网络。其中,多层感知网络用于对代数不变量因子的预测值进行分类,且多层感知网络的分类类别数量与代数不变量因子的取值数量一致。如图7所示,收集的24万条数据中,最后一列代数不变量因子的取值只有14个,因此,可以设置14个分类。
以候选自变量包括17个集合不变量的情况为例,采用本申请的方案,可以辅助发现这17个几何不变量因子和代数不变量之间可能存在的变量关联关系。具体的,可以选择MLP搭建一个深度学习的模型框架,具体的网络结构可以如图8所示,模型的输入是17个几何不变量因子,输出为代数不变量因子signature,中间隐变量层输出个数为256,激活函数使用了relu,最后一层是Softmax回归层用作分类,最后输出signature的预测值。
执行训练的过程中,需要保证训练时梯度稳定性,否则容易出现梯度爆炸的问题,因此,有必要对输入数据进行归一化处理(Normalization),具体可以对各不变量因子统计均值和标准偏差。公式为:Y=(x-μ)/σ ,其中x是原始数据,y是归一化数据,μ是原始数据的平均值,σ是原始数据的标准偏差。此外,为了训练的稳定性,可以选取relu作为激活函数,防止出现梯度消失的问题。
上述实施例中,针对纽结问题,将与因变量的取值数量匹配的多层感知网络,确定为进行深度学习的骨干网络,相当于将变量分析问题转换为分类问题,能够有利于提高变量分析效率。
在一个实施例中,计算机设备对训练数据集进行深度学习,获得学习模型,包括:计算机设备将训练数据集分为多个数据子集;分计算机设备别对每一数据子集进行深度学习,获得各数据子集各自对应的学习模型。
其中,每一数据子集中包括因变量的变量数据、以及至少一部分候选自变量的变量数据。具体地,计算机设备可以通过随机取样的方式,从训练数据集中抽取至少一部分的候选自变量,构成包括抽取出的候选自变量和因变量各自的变量数据的数据子集。随机取样可以是有放回的取样,即不同数据子集中可以包含相同的候选自变量;随机取样也可以是不放回的取样,即不同数据子集中各自包含的候选自变量各不相同。
划分得到多个数据子集的具体方式并不唯一。例如,计算机设备可以将训练数据集按照所包含的候选自变量分为K个训练子集,选择不同的K-1份构成数据子集,得到K个数据子集;又如,计算机设备也可以根据训练数据集中各候选自变量在知识图谱中的相对位置,将相对位置比较靠近的候选自变量划分至同一数据子集;再如,计算机设备还可以根据各候选自变量各自的数据特性,将属于同一数据特性的候选自变量划分至同一数据子集,以便进行后续的分析。
得到多个数据子集后,计算机设备可以分别对每一数据子集进行深度学习,获得各数据子集各自对应的学习模型。在一个具体的实现中,针对每一数据子集,计算机设备可以确定数据子集中各变量数据各自的数据特性,并采用与各数据特性匹配的骨干网络,对该数据子集进行深度学习,获得该数据子集对应的学习模型。
以生物图像分析场景为例,计算机设备可以将在知识图谱中的相对位置比较靠近的颜色和纹理划分至数据子集A,将属于同一数据特性的像素和大小划分至数据子集B,还可以将空间关系作为数据子集A和数据子集B的共有变量。然后,分别对每一数据子集进行深度学习,获得各数据子集各自对应的学习模型。其中,数据子集A对应的学习模型a,用于确定颜色、纹理和空间关系分别与图像清晰度之间的相关度;数据子集B对应的学习模型b,用于确定像素、大小和空间关系分别与图像清晰度之间的相关度。
上述实施例中,将训练数据集分成多个数据子集,分别对每一数据子集进行深度学习,得到各数据子集各自对应的学习模型,使得最终得到的变量分析结果能够融合多个学习模型的结果,有利于提高变量分析结果的准确性。
进一步地,计算机设备还可以结合深度学习和遗传算法确定候选自变量与因变量的相关度。在一个实施例中,计算机设备基于学习模型对因变量进行归因分析,分别确定每一候选自变量与因变量的相关度,包括:计算机设备基于学习模型对因变量进行归因分析,分别确定每一候选自变量与因变量的初始相关度;计算机设备针对每一候选自变量,对该候选自变量的变量数据进行掩码处理,得到掩码数据;计算机设备基于因变量的变量数据、与学习模型对掩码数据的预测结果之间的差异,确定候选自变量对学习模型的鲁棒性影响度;计算机设备结合初始相关度和鲁棒性影响度,确定候选自变量与因变量的相关度。
具体地,计算机设备可以基于学习模型对因变量进行归因分析,分别确定每一候选自变量与因变量的初始相关度。然后,针对每一候选自变量,计算机设备对该候选自变量的变量数据进行掩码处理,得到掩码数据。其中,进行掩码处理的具体方式可以是随机掩码,也可以是有规律的掩码。接着,计算机设备使用学习模型对掩码数据进行预测,得到因变量的预测结果,在基于因变量的变量数据和预测结果之间的差异,确定候选自变量对学习模型的鲁棒性影响度。
其中,因变量的变量数据和预测结果之间的差异,可以通过差值或比值表征。差异越大,候选自变量对学习模型的鲁棒性影响度越大。也即,候选自变量对学习模型的鲁棒性影响度,与因变量的变量数据和预测结果之间的差异正相关。进一步地,候选自变量对学习模型的鲁棒性影响度越大,说明候选自变量与因变量的相关度越高。也即,候选自变量对学习模型的鲁棒性影响度,与该候选自变量和因变量之间的相关度正相关。基于此,计算机设备可以结合候选自变量对学习模型的鲁棒性影响度,对候选自变量与因变量之间的初始相关度进行修正,得到候选自变量与因变量的相关度,以提高所确定的相关度的准确性。
可选的,计算机设备可以对初始相关度和鲁棒性影响度进行加权求和,得到候选自变量与因变量的相关度。初始相关度的权重可以大于鲁棒性影响度的权重。
可选的,计算机设备可以建立鲁棒性影响度与初始相关度之间的对应关系,判断同一候选自变量对应于同一学习模型的鲁棒性影响度与初始相关度之间是否满足该对应关系,并在二者不满足该对应关系的情况下,基于鲁棒性影响度对初始相关度进行微调,得到候选自变量与因变量的相关度。其中,基于鲁棒性影响度对初始相关度进行微调,可以是在初始相关度的基础上,叠加鲁棒性影响度的相关因子,该相关因子,例如可以表示为:k*(鲁棒性影响度-初始相关度),k为取值范围在(0,1)的系数。可以理解,在同一候选自变量对应于同一学习模型的鲁棒性影响度与初始相关度之间满足对应关系的情况下,则无需对初始相关度进行微调,可以将初始相关度确定为候选自变量与因变量的相关度。
需要说明的是,在同一候选自变量存在于多个数据子集的情况下,将获得该候选自变量对应的多个学习模型。在此情形下,计算机设备可以针对每一学习模型,基于该学习模型确定的初始相关度和鲁棒性影响度,确定候选自变量对应于该学习模型的候选相关度。然后,计算机设备再对同一候选自变量对应于每一学习模型的多个候选相关度进行统计分析,得到该候选自变量与因变量的相关度。进行统计分析的具体算法,例如可以包括加法、减法或乘法等算法中的至少一项。示例性的,计算机设备可以将各候选相关度的平均值,确定为候选自变量与因变量的相关度。
以生物图像分析场景为例,在数据子集A和数据子集B同时包括候选自变量“空间关系”的情况下,计算机设备可以基于学习模型a确定空间关系与图像清晰度之间的相关度a1,并确定空间关系对学习模型a的鲁棒影响度c1,再基于鲁棒影响度c1对相关度a1进行微调得到候选相关度d1;基于学习模型b确定空间关系与图像清晰度之间的相关度b1,并确定空间关系对学习模型b的鲁棒影响度c2,再基于鲁棒影响度c2对相关度b1进行微调得到候选相关度d2。然后,计算机设备再将候选相关度d1和候选相关度d2的统计值,确定为空间关系和图像清晰度的相关度。
上述实施例中,结合深度学习和遗传算法,确定候选自变量与因变量的相关度,能够提高所确定的相关度的准确性。
在一个具体的实施例中,计算机设备基于学习模型对因变量进行归因分析,分别确定每一候选自变量与因变量的初始相关度,包括:计算机设备将各候选自变量各自的变量数据作为学习模型的输入,将因变量的变量数据作为学习模型的输出,通过反向传播统计学习模型的输入侧权重累积情况;计算机设备基于各累积权重,分别确定每一候选自变量与因变量的初始相关度。
其中,输入侧权重累积情况通过各候选自变量各自的累积权重表征。初始相关度与候选自变量的累积权重匹配。深度学习过程中,包括前向过程和反向过程。在本实施例中,计算机设备可以通过反向过程确定每一候选自变量与因变量的初始相关度。
具体地,计算机设备可以确定累积权重与初始相关度之间的对应关系。该对应关系例如可以通过函数或表格表征。在通过深度学习得到学习模型之后,计算机设备再将各候选自变量各自的变量数据作为学习模型的输入,将因变量的变量数据作为学习模型的输出,通过反向传播统计学习模型的输入侧权重累积情况。然后,根据表征输入侧权重累积情况的各候选自变量各自的累积权重,结合累积权重与初始相关度之间的对应关系,分别确定每一候选自变量与因变量的初始相关度。
在一个具体的应用中,累积权重可以通过输入层的梯度大小表征。具体地,计算机设备可以根据损失的反向累积,计算输入层的梯度大小,进而确定与梯度绝对值匹配的相关度:梯度绝对值大,表示输入对输出的影响越大,候选自变量与因变量的初始相关度越大;梯度绝对值小,表示输入对输出的影响越小,候选自变量与因变量的初始相关度越小。待分析对象为纽结,候选自变量包括纽结的17个几何不变量因子,因变量为纽结的代数不变量因子的情况下,如图9所示,训练基本稳定后,在所有样本上计算显著图(saliencymap),可以得到17个输入的显著性,即为17个候选自变量与因变量之间各自的初始相关度。
上述实施例中,通过反向传播确定候选自变量与因变量之间的初始相关度,算法简单,有利于提高效率。
在一个实施例中,如图10所示,提供了一种对象变量分析方法,该方法可以由计算机设备执行,在本实施例中,该方法包括以下步骤:
步骤S1001,计算机设备获取针对待分析对象的变量分析请求,从变量分析请求中提取待分析对象的因变量。
步骤S1002,计算机设备确定待分析对象的所属领域,并获取该领域的知识图谱。
其中,知识图谱的各节点中包含因变量所在的第一类节点、以及除第一类节点以外的第二类节点。
步骤S1003,计算机设备根据各节点在知识图谱中各自的位置,从各第二类节点中确定至少两个选定节点。
步骤S1004,计算机设备将选定节点所表征的变量,确定为待分析对象的候选自变量。
步骤S1005,计算机设备对各候选自变量和因变量各自的变量数据进行预处理,获得预处理数据。
步骤S1006,计算机设备对预处理数据进行特征提取,得到满足深度学习需求的变量特征,并构建包含变量特征的训练数据集。
步骤S1007,计算机设备将训练数据集分为多个数据子集,并确定每一数据集中各变量数据各自的数据特性。
其中,每一数据子集中包括因变量的变量数据、以及至少一部分候选自变量的变量数据。
步骤S1008,针对每一数据子集,计算机设备采用与该数据子集对应的各数据特征匹配的骨干网络,对该数据子集进行深度学习,得到该数据子集对应的学习模型。
步骤S1009,针对每一学习模型,计算机设备将对应数据子集中的各候选自变量各自的变量数据作为学习模型的输入,将因变量的变量数据作为学习模型的输出,通过反向传播统计学习模型的输入侧权重累积情况。
其中,输入侧权重累积情况通过各候选自变量各自的累积权重表征。
步骤S1010,计算机设备基于各累积权重,分别确定每一候选自变量与因变量的初始相关度。
其中,初始相关度与候选自变量的累积权重匹配。
步骤S1011,针对每一候选自变量,计算机设备对该候选自变量的变量数据进行掩码处理,得到掩码数据。
步骤S1012,计算机设备基于因变量的变量数据、与学习模型对掩码数据的预测结果之间的差异,确定候选自变量对学习模型的鲁棒性影响度。
步骤S1013,计算机设备结合初始相关度和鲁棒性影响度,确定候选自变量与因变量的相关度。
需要说明的是,在同一候选自变量对应多个学习模型的情况下,可以获得多组初始相关度和鲁棒性影响度,进而,计算机设备可以结合各初始相关度和各鲁棒性影响度,确定该候选自变量与因变量的相关度。
步骤S1014,计算机设备确定与当前学习轮次匹配的变量关联条件。
步骤S1015,计算机设备将各候选自变量各自的相关度与变量关联条件进行比对,从各候选自变量中筛选出相关度满足变量关联条件的选定自变量。
步骤S1016,在不满足结束条件的情况下,计算机设备基于选定自变量确定更新的训练数据集。返回步骤S1007。
其中,更新的训练数据集中包括选定自变量和因变量各自的变量数据。
步骤S1017,计算机设备在满足结束条件的情况下得到目标自变量,并将因变量与目标自变量之间的变量关联关系,作为待分析对象的变量分析结果。
上述对象变量分析方法,将深度学习应用于对象变量分析过程中,能够通过人工智能的辅助,挖掘候选自变量和因变量之间的潜在关联,在提高分析效率的同时提高变量分析结果的准确性。并且,在应用深度学习的过程中,经过多轮深度学习从各候选自变量中逐轮筛选得到目标自变量,将因变量与目标自变量之间的变量关联关系,作为待分析对象的变量分析结果。由于后一轮深度学习的训练数据,包括因变量的变量数据、以及前一轮深度学习所筛选出的选定自变量的变量数据,并且,选定自变量与因变量之间的相关度满足变量关联条件,相当于在后一轮学习之前会根据前一轮的学习结果更新训练数据,能够逐步剔除训练数据集中与因变量不满足变量关联条件的冗余自变量,避免训练数据中冗余自变量对分析结果产生影响,有利于进一步提高变量分析结果的准确性。
本申请还提供了一种应用场景,在该应用场景下可以应用本申请的对象变量分析方法。在一个具体的实施例中,该应用场景例如可以是针对互联网产品的变量分析场景。该互联网产品,例如可以是地图软件或应用于车联网的交互软件。具体地,可以将用户对该互联网产品的单次操作时长作为待分析对象的因变量,将用户年龄、所在城市、操作时间、以及操作页面所展示的信息类型、排版方式等作为候选自变量。然后再由计算机设备基于各候选自变量和因变量各自的变量数据,构建训练数据集;基于训练数据集进行多轮深度学习,确定从各候选自变量中逐轮筛选得到的目标自变量;将因变量与目标自变量之间的变量关联关系,作为待分析对象的变量分析结果。其中,后一轮深度学习的训练数据,包括因变量的变量数据、以及前一轮深度学习所筛选出的选定自变量的变量数据,前一轮深度学习所筛选出的选定自变量的变量数据不同于前一轮深度学习的训练数据中自变量的变量数据的数据分布;选定自变量与因变量之间的相关度满足变量关联条件。采用上述方法得到的变量分析结果,可以挖掘用户针对互联网产品的单次操作时长与其他变量之间的关联关系,从而给产品开发人员提供优化思路。
在一个具体的实施例中,本申请提供的对象变量分析方法,可以应用于生物图像分析场景,以挖掘图像清晰度与其他图像变量之间的变量关联关系,为图像修复提供方向。具体地,工作人员可以通过终端向服务器输入采集得到的多张生物图像,并将生物图像确定为待分析对象,将图像清晰度确定为待分析对象的因变量。由服务器对各生物图像分别进行信息提取和分析,得到各生物图像各自的图像信息,该图像信息可以包括图像清晰度、像素、颜色、纹理、空间关系、大小等。然后,计算机设备再将图像信息中包含的除因变量以外的其他变量,确定为候选自变量,并对各变量各自的变量数据进行标准化处理,以消除量纲和单位上的差异,得到预处理数据,然后,再对预处理数据进行特征提取,得到满足深度学习需求的图像特征,进而构建包含图像特征的训练数据集。
接着,计算机设备基于训练数据集进行多轮深度学习,根据每一学习轮次各自的变量关联条件,确定从各候选自变量中逐轮筛选得到的目标自变量,将因变量与目标自变量之间的变量关联关系,作为待分析对象的变量分析结果。其中,后一轮深度学习的训练数据,包括因变量的变量数据、以及前一轮深度学习所筛选出的选定自变量的变量数据,以调整训练数据的数据分布。例如,第一轮深度学习可以将图像清晰度的候选自变量“空间关系”剔除,第二轮深度学习可以将候选自变量“纹理”剔除,以此类推,直至满足结束条件。最终得到的变量分析结果,可以挖掘图像清晰度与其他图像变量之间的变量关联关系,为图像修复提供方向,提示图像修复的工作效率和修复效果。
在一个实施例中,本申请提供的对象变量分析方法,还可以作为科学研究的辅助方法,实现人工智能与人类直觉的结合。以数学研究为例,数学领域的研究往往涉及到大量的数据分析、模式识别和预测任务。计算机发明后,在数学领域作为一个通用计算载体,扮演的角色侧重于执行复杂计算,从而完成数据分析方面任务,而在模式识别、预测任务多数是依赖数学研究人员的直觉进行判断。在数学研究领域应用本申请的对象变量分析方法,可以部署执行本申请方法的人工智能系统,以指导人类直觉发现数学定理或推测。
如图11所示,将本申请方法应用与数学研究领域,可以包括以下过程:首先,数学家提出假设,人工智能系统根据数学家提出的假设,确定待分析对象的因变量(即Y)和至少两个候选自变量(即X);然后人工智能系统收集各候选自变量和因变量各自的变量数据,构建训练数据集,并对该训练数据集进行深度学习,得到学习模型,再基于该学习模型对因变量进行归因分析,分别确定每一候选自变量与该因变量之间相关度,并基于各相关度调整数学家提出的假设,从各候选自变量中筛选出选定自变量,用于更新训练数据集中的数据分布,进行后一轮的深度学习。经过多轮深度学习后,科学家提出的假设逐步被修正,直至满足学习结束条件,确定从各候选自变量中逐轮筛选得到的目标自变量,并将因变量与目标自变量之间的变量关联关系,作为待分析对象的变量分析结果。该变量分析结果可以反馈给数学家,以便后续数学家可以对该变量分析结果进行论证,发现新的定理和推测。
可选地,可以配置人机协作模块进行人机交互,实现人工智能与人类直觉的结合。研究人员可以根据系统提供的定理和推测进行验证和改进,同时也可以将自己的直觉和想法输入系统,与人工智能共同探索新的定理和推测。人机协作模块可以采用图形用户界面(GUI)、自然语言处理(NLP)等技术,以提高用户体验和交互效果。
可选的,在构建训练数据集的过程中,可以先对数学领域的数据进行预处理,包括数据清洗、数据转换等操作。然后,通过人工或半自动的方式对数据进行标注,将数据转化为适用于深度学习训练的格式。例如,在数学领域,可以收集相关数学领域的各种数据,比如几何学中,对各种数学形状定义的不变量,包括多面体的面数、边数、表面积和体积等;在物理领域,可以对实验数据、物理规律等进行标注;在化学领域,可以对化学反应、化合物结构等进行标注;在生物领域,可以对基因序列、蛋白质结构等进行标注。数据标注的目的是为了让深度学习模型能够更好地理解和学习相关领域的知识。
可选的,深度学习过程中可以采用迁移学习、强化学习等技术,具体选择哪个深度学习的经典骨干网络,可以针对具体的问题进行调整:若各变量数据中存在局部敏感性的数据,则可以选择卷积神经网络进行深度学习;若各变量数据中存在时序相关的数据,则可以选择循环神经网络、长短记忆神经网络以及自注意力机制神经网络进行深度学习;而多层感知机可以满足大部分场景,并且具备非线性关系的表达能力。总之,本申请方案是使用深度学习作为工具帮助发现数学领域推测和定理,具体的网络架构是不受限制的,都可尝试。选定好骨干网络后,对收集到的数据进行训练,神经网络可以自动学习数据中的特征和规律,而迁移学习可以利用已有的知识来加速新任务的学习过程。训练过程中,模型可以自动调整参数,以提高发现定理和推测的准确性。
可选的,归因分析可以采用特征选择、主成分分析等方法实现。特征选择可以帮助找出与因变量相关度最高的变量因子,而主成分分析可以将多维数据降维,使得研究人员更容易理解和解释最终确定的变量分析结果。通过归因分析,研究人员可以更深入地理解和探索数学领域的规律,从而提高科学研究的质量。在一个具体的实施例中,计算机设备可以使用训练得到的学习模型,进行预测,通过反向传播(Back Propagation),定量统计分析神经网络的输入侧的权重(weights)累积,求出各个候选自变量(即输入特征)的重要程度,完成归因分析。
在一个具体的实施例中,以欧拉多面体公式为例,z表示凸多面体,X(z)表示各种凸多面体的几何特性,比如定顶点数量、边数、凸多面体体积、凸多面体表面积,Y(z)表示凸多面体面数,我们要研究 X(z) 和 Y(z) 之间的关系,即函数f的具体表述形式。在这个简单的例子中,除许多其他方法外,可以通过数据驱动猜想生成的传统方法重新发现这种关系。然而,对于高维空间中的 X(z) 和 Y(z),或更复杂的类型(例如图)以及更复杂的非线性f,是非常难以通过传统方法去验证和发现的。针对特定任务,我们可以收集多面体的各种X(z)和Y(z)的数据,这里可以通过平台去导入文本、表格甚至其他结构化类型的数据,快速生成或准备好下面训练需要使用的训练、测试、验证数据集。欧拉公式实际上就是:Y(z)(Number of Surfaces)+ V(Number of Vertices)- E(Number of Edges)= 2,所以理论上选择线性模型足够表达欧拉公式,实际操作时可以选择多层感知机网络。
训练完成神经网络后,还是回到欧拉多面体公式,可以计算每个特征(即X(z)中变量因子),对结果的梯度特征显著图(saliency map)。进行归因分析,就可以发现Y(z)和顶点数成反向相关(接近-1)和边数成正向相关(接近1),而其他特征(变量因子)的梯度特征相关程度不大,也就是说和Y(z)和这些特征关联程度不高,即X(z) · (-1, 1, 0, 0) + 2= Y(z)。
在一个具体的实施例中,以扭结为例进行说明。数学家通过研究结的性质,可以了解它们在高维拓扑空间中的行为。自那时以来,结理论已经发展成为一个广泛的研究领域,涉及到许多不同的数学分支,如代数、几何和组合拓扑学。简单来说,“结”在数学家眼中,从代数和几何两方面定义了各种不变量因子,比如环绕数、绞拧数(Torsion Numbers)、双曲线不变量(Hyperbolic invariants)、考夫曼多项式(Kauffman polynomial)、琼斯多项式(Jones Polynomial)等。具体地,将扭结的代数不变量因子(signature)作为因变量,将扭结的17个集合不变量因子作为候选自变量,通过本申请方法,去辅助发现这17个几何不变量因子和signature之间可能存在的推测和定理。
具体地,可以选择MLP搭建一个深度学习的模型框架,具体的网络结构可以如图8所示,模型的输入是17个几何不变量因子,输出为代数不变量因子signature,中间隐变量层输出个数为256,激活函数使用了relu,最后一层是Softmax回归层用作分类,最后输出signature的预测值。执行训练的过程中,需要保证训练时梯度稳定性,否则容易出现梯度爆炸的问题,因此,有必要对输入数据进行归一化处理(Normalization),具体可以对各不变量因子统计均值和标准偏差。公式为:Y=(x-μ)/σ ,其中x是原始数据,y是归一化数据,μ是原始数据的平均值,σ是原始数据的标准偏差。此外,为了训练的稳定性,可以选取relu作为激活函数,防止出现梯度消失的问题。
训练完成后,遍历6遍数据后,如图12所示,模型预测准确率接近90%了,进行归因分析,通过显著图定量分析不变量因子的重要程度。深度学习的基础优化算法就是梯度下降,涉及到两个正向和反向两个计算传播过程。显著图就是通过反向过程,从loss反向累积计算输入层的梯度大小,以表明哪个输入对最终结果影响较大,梯度绝对值大,表示较大,梯度绝对值小,表示影响较小。如图9所示,训练基本稳定后,在所有样本上计算显著图,可以得到17个输入的显著性,即为17个候选自变量与因变量之间各自的初始相关度。通过上面对显著图分析,对于结的signature,记做σ(K),有三个输入关联度较大,即X1(Meridional translation的虚数部分)、X2(Longitudinal translation)和X3(Meridional translation的实数部分),可能X4(Cusp volume)和X5(Volume)也存在关联,但其他的几何不变量因子就关联度不强了。
如图4和图5所示,将σ(K)、Meridional translation的虚数部分(image)和Longitudinal translation画在一起,确实呈现了一定的关联关系,但这三个不变量因子和σ(K)(结的signature)之间是存在一种非线性关系的,公式的具体形式就需要数学家进一步的证明了。
采用上述方法,能够通过人工智能系统的辅助,使得研究人员可以更快地发现新的定理和推测,从而提高科学研究的效率;基于深度学习的定理和推测发现方法可以挖掘出更多潜在的规律,有利于提高科学研究的质量;并且本申请方案具有通用性和可扩展性,可以应用于数学、物理、化学、生物等多个数学领域,能够促进跨学科研究的发展;通过人机协作模块,实现人工智能与人类直觉的结合,有利于提高科学研究的创新性。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的对象变量分析方法的对象变量分析装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个对象变量分析装置实施例中的具体限定可以参见上文中对于对象变量分析方法的限定,在此不再赘述。
在一个实施例中,如图13所示,提供了一种对象变量分析装置,包括:变量确定模块1301、训练数据集构建模块1302、深度学习模块1303和分析结果确定模块1304,其中:
变量确定模块1301,用于确定待分析对象的因变量和至少两个候选自变量;
训练数据集构建模块1302,用于基于各候选自变量和因变量各自的变量数据,构建训练数据集;
深度学习模块1303,用于基于训练数据集进行多轮深度学习,确定从各候选自变量中逐轮筛选得到的目标自变量;其中,后一轮深度学习的训练数据,包括因变量的变量数据、以及前一轮深度学习所筛选出的选定自变量的变量数据;选定自变量与因变量之间的相关度满足变量关联条件;
分析结果确定模块1304,用于将因变量与目标自变量之间的变量关联关系,作为待分析对象的变量分析结果。
在一个实施例中,变量确定模块1301包括:因变量确定单元,用于获取针对待分析对象的变量分析请求,从变量分析请求中提取待分析对象的因变量;候选自变量确定单元,用于从因变量所在的知识图谱中,确定待分析对象的至少两个候选自变量。
在一个实施例中,候选自变量确定单元具体用于:确定待分析对象的所属领域,并获取该领域的知识图谱;根据各节点在知识图谱中各自的位置,从各第二类节点中确定至少两个选定节点;将选定节点所表征的变量,确定为待分析对象的候选自变量。知识图谱的各节点中包含因变量所在的第一类节点、以及除第一类节点以外的第二类节点。
在一个实施例中,训练数据集构建模块1302具体用于:对各候选自变量和因变量各自的变量数据进行预处理,获得预处理数据;对预处理数据进行特征提取,得到满足深度学习需求的变量特征;构建包含变量特征的训练数据集。
在一个实施例中,深度学习模块1303包括:学习单元,用于对训练数据集进行深度学习,获得学习模型;相关度确定单元,用于基于学习模型对因变量进行归因分析,分别确定每一候选自变量与该因变量的相关度;自变量筛选单元,用于从各候选自变量中,筛选出相关度满足变量关联条件的选定自变量;训练数据更新单元,用于基于选定自变量确定更新的训练数据集,并返回对训练数据集进行深度学习的步骤,直至满足结束条件,得到目标自变量。其中,更新的训练数据集中包括选定自变量和因变量各自的变量数据。
在一个实施例中,学习单元包括:数据特性确定组件,用于确定训练数据集中各变量数据各自的数据特性;学习模型确定组件,用于采用与各数据特性匹配的骨干网络,对训练数据集进行深度学习,获得学习模型。
在一个实施例中,待分析对象为扭结,因变量为扭结的代数不变量因子。在该实施例的情形下,数据特性确定组件具体用于:确定训练数据集中代数不变量因子的取值数量。在该实施例的情形下,对象变量分析装置还包括骨干网络确定单元,用于将与取值数量匹配的多层感知网络,确定为与各数据特性匹配的骨干网络。其中,多层感知网络用于对代数不变量因子的预测值进行分类;多层感知网络的分类类别数量与代数不变量因子的取值数量一致。
在一个实施例中,学习单元具体用于:将训练数据集分为多个数据子集;分别对每一数据子集进行深度学习,获得各数据子集各自对应的学习模型。其中,每一数据子集中包括因变量的变量数据、以及至少一部分候选自变量的变量数据。
在一个实施例中,相关度确定单元包括:归因分析组件,用于基于学习模型对因变量进行归因分析,分别确定每一候选自变量与因变量的初始相关度;掩码组件,用于针对每一候选自变量,对该候选自变量的变量数据进行掩码处理,得到掩码数据;鲁棒性影响度确定组件,用于基于因变量的变量数据、与学习模型对掩码数据的预测结果之间的差异,确定候选自变量对学习模型的鲁棒性影响度;相关度确定组件,用于结合初始相关度和鲁棒性影响度,确定候选自变量与因变量的相关度。
在一个实施例中,归因分析组件具体用于:将各候选自变量各自的变量数据作为学习模型的输入,将因变量的变量数据作为学习模型的输出,通过反向传播统计学习模型的输入侧权重累积情况;基于各累积权重,分别确定每一候选自变量与因变量的初始相关度。其中,输入侧权重累积情况通过各候选自变量各自的累积权重表征。初始相关度与候选自变量的累积权重匹配。
在一个实施例中,自变量筛选单元具体用于:确定与当前学习轮次匹配的变量关联条件;将各候选自变量各自的相关度与变量关联条件进行比对,从各候选自变量中筛选出相关度满足变量关联条件的选定自变量。
上述对象变量分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图14所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储对象变量分析方法所涉及的数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对象变量分析方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图15所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种对象变量分析方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图14和图15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random AccessMemory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
需要说明的是,本申请所涉及的对象信息(包括但不限于设备信息、个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关地域和地区的相关法律法规和标准。并且,所涉及的对象可以选择不进行对象信息和相关数据的授权,也可以拒绝或可以便捷拒绝推送信息等。
本申请中,在实例应用时进行相关数据收集处理的过程中,应该严格根据相关地区法律法规的要求,获取个人信息主体的知情同意或单独同意,并在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理行为。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (16)

1.一种对象变量分析方法,其特征在于,所述方法包括:
计算机设备确定待分析对象的因变量和至少两个候选自变量;所述待分析对象为生物图像;所述因变量为图像清晰度;所述至少两个候选自变量包括像素、颜色、纹理、空间关系和大小中的至少两个;
所述计算机设备基于各所述候选自变量和所述因变量各自的变量数据,构建训练数据集;
所述计算机设备基于所述训练数据集进行多轮深度学习,确定从各所述候选自变量中逐轮筛选得到的目标自变量;
所述计算机设备将所述因变量与所述目标自变量之间的变量关联关系,作为所述待分析对象的变量分析结果;所述变量分析结果用于为图像修复提供方向,以便按照所述变量关联关系对所述生物图像进行图像修复,提高所述生物图像的图像清晰度;
所述计算机设备基于所述训练数据集进行多轮深度学习,确定从各所述候选自变量中逐轮筛选得到的目标自变量,包括:
所述计算机设备对所述训练数据集进行深度学习,获得学习模型;
所述计算机设备将各所述候选自变量各自的变量数据作为所述学习模型的输入,将所述因变量的变量数据作为所述学习模型的输出,通过反向传播统计所述学习模型的输入侧权重累积情况;所述输入侧权重累积情况通过各所述候选自变量各自的累积权重表征;
所述计算机设备基于各所述累积权重,分别确定每一所述候选自变量与所述因变量的初始相关度;所述初始相关度与所述候选自变量的累积权重匹配;
所述计算机设备针对每一所述候选自变量,对所述候选自变量的变量数据进行掩码处理,得到掩码数据;
所述计算机设备基于所述因变量的变量数据、与所述学习模型对所述掩码数据的预测结果之间的差异,确定所述候选自变量对所述学习模型的鲁棒性影响度;
所述计算机设备结合所述初始相关度和所述鲁棒性影响度,确定所述候选自变量与所述因变量的相关度;
所述计算机设备从各所述候选自变量中,筛选出所述相关度满足变量关联条件的选定自变量;
所述计算机设备基于所述选定自变量调整训练数据的数据分布,确定更新的训练数据集,并返回对所述训练数据集进行深度学习的步骤,进行下一轮深度学习,直至学习轮次达到了设定轮次或者学习模型的预测准确率达到了设定准确率,得到目标自变量;所述更新的训练数据集中包括所述选定自变量和所述因变量各自的变量数据。
2.根据权利要求1所述的方法,其特征在于,所述计算机设备确定待分析对象的因变量和至少两个候选自变量,包括:
计算机设备获取针对待分析对象的变量分析请求,从所述变量分析请求中提取所述待分析对象的因变量;
所述计算机设备从所述因变量所在的知识图谱中,确定所述待分析对象的至少两个候选自变量。
3.根据权利要求2所述的方法,其特征在于,所述计算机设备从所述因变量所在的知识图谱中,确定所述待分析对象的至少两个候选自变量,包括:
所述计算机设备确定所述待分析对象的所属领域,并获取所述领域的知识图谱;所述知识图谱的各节点中包含所述因变量所在的第一类节点、以及除所述第一类节点以外的第二类节点;
所述计算机设备根据各所述节点在所述知识图谱中各自的位置,从各所述第二类节点中确定至少两个选定节点;
所述计算机设备将所述选定节点所表征的变量,确定为所述待分析对象的候选自变量。
4.根据权利要求1所述的方法,其特征在于,所述计算机设备基于各所述候选自变量和所述因变量各自的变量数据,构建训练数据集,包括:
所述计算机设备对各所述候选自变量和所述因变量各自的变量数据进行预处理,获得预处理数据;
所述计算机设备对所述预处理数据进行特征提取,得到满足深度学习需求的变量特征;
所述计算机设备构建包含所述变量特征的训练数据集。
5.根据权利要求1所述的方法,其特征在于,所述计算机设备对所述训练数据集进行深度学习,获得学习模型,包括:
所述计算机设备确定所述训练数据集中各所述变量数据各自的数据特性;
所述计算机设备采用与各所述数据特性匹配的骨干网络,对所述训练数据集进行深度学习,获得学习模型。
6.根据权利要求1所述的方法,其特征在于,所述计算机设备对所述训练数据集进行深度学习,获得学习模型,包括:
所述计算机设备将所述训练数据集分为多个数据子集;每一所述数据子集中包括所述因变量的变量数据、以及至少一部分所述候选自变量的变量数据;
所述计算机设备分别对每一所述数据子集进行深度学习,获得各所述数据子集各自对应的学习模型。
7.根据权利要求1所述的方法,其特征在于,所述计算机设备从各所述候选自变量中,筛选出所述相关度满足变量关联条件的选定自变量,包括:
所述计算机设备确定与当前学习轮次匹配的变量关联条件;
所述计算机设备将各所述候选自变量各自的相关度与所述变量关联条件进行比对,从各所述候选自变量中筛选出所述相关度满足所述变量关联条件的选定自变量。
8.一种对象变量分析装置,其特征在于,所述装置包括:
变量确定模块,用于确定待分析对象的因变量和至少两个候选自变量;所述待分析对象为生物图像;所述因变量为图像清晰度;所述至少两个候选自变量包括像素、颜色、纹理、空间关系和大小中的至少两个;
训练数据集构建模块,用于基于各所述候选自变量和所述因变量各自的变量数据,构建训练数据集;
深度学习模块,用于基于所述训练数据集进行多轮深度学习,确定从各所述候选自变量中逐轮筛选得到的目标自变量;
分析结果确定模块,用于将所述因变量与所述目标自变量之间的变量关联关系,作为所述待分析对象的变量分析结果;所述变量分析结果用于为图像修复提供方向,以便按照所述变量关联关系对所述生物图像进行图像修复,提高所述生物图像的图像清晰度;
所述深度学习模块包括:
学习单元,用于对所述训练数据集进行深度学习,获得学习模型;
归因分析组件,用于将各所述候选自变量各自的变量数据作为所述学习模型的输入,将所述因变量的变量数据作为所述学习模型的输出,通过反向传播统计所述学习模型的输入侧权重累积情况;所述输入侧权重累积情况通过各所述候选自变量各自的累积权重表征;基于各所述累积权重,分别确定每一所述候选自变量与所述因变量的初始相关度;所述初始相关度与所述候选自变量的累积权重匹配;
掩码组件,用于针对每一所述候选自变量,对所述候选自变量的变量数据进行掩码处理,得到掩码数据;
鲁棒性影响度确定组件,用于基于所述因变量的变量数据、与所述学习模型对所述掩码数据的预测结果之间的差异,确定所述候选自变量对所述学习模型的鲁棒性影响度;
相关度确定组件,用于结合所述初始相关度和所述鲁棒性影响度,确定所述候选自变量与所述因变量的相关度;
自变量筛选单元,用于从各所述候选自变量中,筛选出所述相关度满足变量关联条件的选定自变量;
训练数据更新单元,用于基于所述选定自变量调整训练数据的数据分布,确定更新的训练数据集,并由所述学习单元进行下一轮深度学习,直至学习轮次达到了设定轮次或者学习模型的预测准确率达到了设定准确率,得到目标自变量;所述更新的训练数据集中包括所述选定自变量和所述因变量各自的变量数据。
9.根据权利要求8所述的装置,其特征在于,所述变量确定模块包括:
因变量确定模块,用于获取针对待分析对象的变量分析请求,从所述变量分析请求中提取所述待分析对象的因变量;
候选自变量确定模块,用于从所述因变量所在的知识图谱中,确定所述待分析对象的至少两个候选自变量。
10.根据权利要求9所述的装置,其特征在于,所述候选自变量确定模块具体用于:
确定所述待分析对象的所属领域,并获取所述领域的知识图谱;所述知识图谱的各节点中包含所述因变量所在的第一类节点、以及除所述第一类节点以外的第二类节点;
根据各所述节点在所述知识图谱中各自的位置,从各所述第二类节点中确定至少两个选定节点;
将所述选定节点所表征的变量,确定为所述待分析对象的候选自变量。
11.根据权利要求8所述的装置,其特征在于,所述训练数据集构建模块具体用于:
对各所述候选自变量和所述因变量各自的变量数据进行预处理,获得预处理数据;
对所述预处理数据进行特征提取,得到满足深度学习需求的变量特征;
构建包含所述变量特征的训练数据集。
12.根据权利要求8所述的装置,其特征在于,所述学习单元包括:
数据特性确定组件,用于确定所述训练数据集中各所述变量数据各自的数据特性;
学习模型确定组件,用于采用与各所述数据特性匹配的骨干网络,对所述训练数据集进行深度学习,获得学习模型。
13.根据权利要求8所述的装置,其特征在于,所述学习单元具体用于:
将所述训练数据集分为多个数据子集;每一所述数据子集中包括所述因变量的变量数据、以及至少一部分所述候选自变量的变量数据;
分别对每一所述数据子集进行深度学习,获得各所述数据子集各自对应的学习模型。
14.根据权利要求8所述的装置,其特征在于,所述自变量筛选单元具体用于:
确定与当前学习轮次匹配的变量关联条件;
将各所述候选自变量各自的相关度与所述变量关联条件进行比对,从各所述候选自变量中筛选出所述相关度满足所述变量关联条件的选定自变量。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任意一项所述的方法的步骤。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任意一项所述的方法的步骤。
CN202311490444.3A 2023-11-10 2023-11-10 对象变量分析方法、装置、计算机设备和存储介质 Active CN117235533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311490444.3A CN117235533B (zh) 2023-11-10 2023-11-10 对象变量分析方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311490444.3A CN117235533B (zh) 2023-11-10 2023-11-10 对象变量分析方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN117235533A CN117235533A (zh) 2023-12-15
CN117235533B true CN117235533B (zh) 2024-03-01

Family

ID=89093104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311490444.3A Active CN117235533B (zh) 2023-11-10 2023-11-10 对象变量分析方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN117235533B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805338A (zh) * 2018-05-21 2018-11-13 重庆小雨点小额贷款有限公司 一种稳定变量确定方法、装置、服务器及存储介质
CN109698028A (zh) * 2018-12-25 2019-04-30 广州天鹏计算机科技有限公司 疾病影响变量筛选方法、装置和计算机设备
CN111275386A (zh) * 2020-01-22 2020-06-12 上海工艺美术职业学院 用于智能运输的方法及系统、电子设备、计算机存储介质
CN112101516A (zh) * 2020-07-30 2020-12-18 鹏城实验室 一种目标变量预测模型的生成方法、系统及装置
CN112434732A (zh) * 2020-11-17 2021-03-02 西安交通大学 一种基于特征筛选的深度学习分类方法
CN113779754A (zh) * 2021-08-02 2021-12-10 张家港宏昌钢板有限公司 高炉影响因素的分析方法及系统、电子设备、计算机可读存储介质
CN113869103A (zh) * 2021-08-03 2021-12-31 阿里巴巴达摩院(杭州)科技有限公司 对象的检测方法、存储介质和系统
CN114999634A (zh) * 2022-06-17 2022-09-02 神州医疗科技股份有限公司 基于预测模型的疾病预测方法和系统
CN115660942A (zh) * 2022-09-15 2023-01-31 阿里巴巴(中国)有限公司 一种图像处理方法、装置、系统及电子设备
CN115713345A (zh) * 2022-11-11 2023-02-24 中国电信股份有限公司 变量筛选方法、装置、非易失性存储介质及处理器
CN116026795A (zh) * 2022-11-25 2023-04-28 华中农业大学 一种基于反射透射光谱的水稻籽粒品质性状无损预测方法
CN116113976A (zh) * 2020-10-29 2023-05-12 Oppo广东移动通信有限公司 图像处理方法及装置、计算机可读介质和电子设备
CN116250018A (zh) * 2020-07-14 2023-06-09 Asml荷兰有限公司 用于生成去噪模型的设备和方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10318882B2 (en) * 2014-09-11 2019-06-11 Amazon Technologies, Inc. Optimized training of linear machine learning models
US10310457B2 (en) * 2014-11-24 2019-06-04 Aspen Technology, Inc. Runtime modeling approach to updating refinery planning models
EP3537346A1 (en) * 2018-03-09 2019-09-11 Tata Consultancy Services Limited Method and system for incorporating regression into stacked auto encoder (sae)
US11544532B2 (en) * 2019-09-26 2023-01-03 Sap Se Generative adversarial network with dynamic capacity expansion for continual learning
US11461646B2 (en) * 2019-12-05 2022-10-04 Capital One Services, Llc Systems and methods for training machine learning models
EP4338022A2 (en) * 2021-05-06 2024-03-20 Strong Force IoT Portfolio 2016, LLC Quantum, biological, computer vision, and neural network systems for industrial internet of things

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805338A (zh) * 2018-05-21 2018-11-13 重庆小雨点小额贷款有限公司 一种稳定变量确定方法、装置、服务器及存储介质
CN109698028A (zh) * 2018-12-25 2019-04-30 广州天鹏计算机科技有限公司 疾病影响变量筛选方法、装置和计算机设备
CN111275386A (zh) * 2020-01-22 2020-06-12 上海工艺美术职业学院 用于智能运输的方法及系统、电子设备、计算机存储介质
CN116250018A (zh) * 2020-07-14 2023-06-09 Asml荷兰有限公司 用于生成去噪模型的设备和方法
CN112101516A (zh) * 2020-07-30 2020-12-18 鹏城实验室 一种目标变量预测模型的生成方法、系统及装置
CN116113976A (zh) * 2020-10-29 2023-05-12 Oppo广东移动通信有限公司 图像处理方法及装置、计算机可读介质和电子设备
CN112434732A (zh) * 2020-11-17 2021-03-02 西安交通大学 一种基于特征筛选的深度学习分类方法
CN113779754A (zh) * 2021-08-02 2021-12-10 张家港宏昌钢板有限公司 高炉影响因素的分析方法及系统、电子设备、计算机可读存储介质
CN113869103A (zh) * 2021-08-03 2021-12-31 阿里巴巴达摩院(杭州)科技有限公司 对象的检测方法、存储介质和系统
CN114999634A (zh) * 2022-06-17 2022-09-02 神州医疗科技股份有限公司 基于预测模型的疾病预测方法和系统
CN115660942A (zh) * 2022-09-15 2023-01-31 阿里巴巴(中国)有限公司 一种图像处理方法、装置、系统及电子设备
CN115713345A (zh) * 2022-11-11 2023-02-24 中国电信股份有限公司 变量筛选方法、装置、非易失性存储介质及处理器
CN116026795A (zh) * 2022-11-25 2023-04-28 华中农业大学 一种基于反射透射光谱的水稻籽粒品质性状无损预测方法

Also Published As

Publication number Publication date
CN117235533A (zh) 2023-12-15

Similar Documents

Publication Publication Date Title
Shahroudnejad et al. Improved explainability of capsule networks: Relevance path by agreement
Samek et al. Evaluating the visualization of what a deep neural network has learned
CN109359564B (zh) 一种图像场景图生成方法及装置
CN110659723B (zh) 基于人工智能的数据处理方法、装置、介质及电子设备
Cheng et al. Evolutionary support vector machine inference system for construction management
CN111782838A (zh) 图像问答方法、装置、计算机设备和介质
Chen et al. Multi-view generative adversarial networks
CN112418292A (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN112529071B (zh) 一种文本分类方法、系统、计算机设备和存储介质
CN112529069A (zh) 一种半监督节点分类方法、系统、计算机设备和存储介质
Tsang et al. Hybrid quantum-classical generative adversarial network for high resolution image generation
CN112633482A (zh) 一种高效宽度图卷积神经网络模型及其训练方法
Klemmer et al. Spate-gan: Improved generative modeling of dynamic spatio-temporal patterns with an autoregressive embedding loss
CN115238582A (zh) 知识图谱三元组的可靠性评估方法、系统、设备及介质
Shi et al. Visualizing and understanding graph convolutional network
CN114997036A (zh) 基于深度学习的网络拓扑重构方法、装置和设备
CN112115744A (zh) 点云数据的处理方法及装置、计算机存储介质、电子设备
CN116150425A (zh) 推荐内容的选择方法、装置、设备、存储介质及程序产品
Hu et al. Attentional weighting strategy-based dynamic GCN for skeleton-based action recognition
CN113609337A (zh) 图神经网络的预训练方法、训练方法、装置、设备及介质
CN117235533B (zh) 对象变量分析方法、装置、计算机设备和存储介质
Apicella et al. Sparse dictionaries for the explanation of classification systems
Konstantinidis et al. Kernel learning with tensor networks
Marco et al. Conditional Variational Autoencoder with Inverse Normalization Transformation on Synthetic Data Augmentation in Software Effort Estimation.
KR20200061154A (ko) 시각 및 텍스트 정보를 포함하는 다이어그램의 분석 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant