CN116881723A - 用于既有结构响应预测的数据扩充方法、系统 - Google Patents

用于既有结构响应预测的数据扩充方法、系统 Download PDF

Info

Publication number
CN116881723A
CN116881723A CN202311140453.XA CN202311140453A CN116881723A CN 116881723 A CN116881723 A CN 116881723A CN 202311140453 A CN202311140453 A CN 202311140453A CN 116881723 A CN116881723 A CN 116881723A
Authority
CN
China
Prior art keywords
data
features
independent
expansion
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311140453.XA
Other languages
English (en)
Other versions
CN116881723B (zh
Inventor
韩玉珍
聂小凡
张雷
何纪忠
张连卫
王旭阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Urban Construction Design and Development Group Co Ltd
Original Assignee
Beijing Urban Construction Design and Development Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Urban Construction Design and Development Group Co Ltd filed Critical Beijing Urban Construction Design and Development Group Co Ltd
Priority to CN202311140453.XA priority Critical patent/CN116881723B/zh
Publication of CN116881723A publication Critical patent/CN116881723A/zh
Application granted granted Critical
Publication of CN116881723B publication Critical patent/CN116881723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/60Rotation of a whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种用于既有结构响应预测的数据扩充方法,包括:基于获取的工程资料信息,将其整理为结构化数据;汇总可用于响应预测的数据;判定数据特征的独立性,将特征划分为独立特征和非独立特征;基于非独立特征,对所述可用于响应预测的数据进行等价值扩充;基于独立特征,对所述等价值扩充后的数据进行相似价值扩充。本发明针对既有结构响应预测问题中可用数据量少的现状,在无法获取更多新数据的前提下,根据地下工程的数据特点设计了一套数据扩充方法,可对原始数据进行合理变换与调整,使可用数据的量级能根据使用需求扩充几倍至几万倍,满足机器学习相关算法进行定量计算的数据需求。

Description

用于既有结构响应预测的数据扩充方法、系统
技术领域
本发明涉及施工技术领域,尤其是地下工程施工,具体为一种用于既有结构响应预测的数据扩充方法、系统。
背景技术
随着城市化进程的不断加快,城市地下空间的开发利用强度不断增大,越来越多的既有地下结构处于新建工程的施工影响范围内。新建工程的施工扰动可能会导致既有结构产生变形或破损,影响结构安全与防水性能,对服役能力产生不利影响,严重时甚至造成安全事故。因此预测相关施工对既有结构的响应是十分必要的。
对于复杂工程,结构响应预测的传统手段是数值仿真与工程类比。数值仿真通常采用有限元模拟对相关结构及土层进行建模并完成定量计算,以此得到既有结构的响应;工程类比则通过类比多个相似工程的地质及施工条件从而定性分析各工程的风险,推测指定工程既有结构的可能响应。近年来,随着工程案例的累积与人工智能的不断发展,使用机器学习方法进行结构响应预测成为了一种极具潜力的方法,其相较于传统手段可更好利用既往数据并完成定量预测,兼顾了数值仿真与工程类比的优势,同时在算法训练后的计算时间远低于传统方法。
使用机器学习算法进行预测需要优质的数据与强力的算法。目前算法部分已较为成熟,其他领域在算法上的突破发展已为地下工程的预测问题提供了许多有效思路。但地下工程的各项数据却存在分布散、结构乱、质量差的现状,使得只有少量的数据可用于解决特定预测问题,难以支撑机器学习算法的训练过程,更难以得到高质量的预测模型,最终导致这种极具潜力的技术手段未能广泛应用于地下工程领域。
发明内容
(一)解决的技术问题
本发明针对既有结构响应预测问题中可用数据量少的现状,在无法获取更多新数据的前提下,根据地下工程的数据特点设计了一套数据扩充方法,可对原始数据进行合理变换与调整,使可用数据的量级能根据使用需求扩充几倍至几万倍,满足机器学习相关算法进行定量计算的数据需求。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明首先提供一种用于既有结构响应预测的数据扩充方法,包括:基于获取的工程资料信息,将其整理为结构化数据;汇总可用于响应预测的数据,总量记为m,所述可用于响应预测的数据包含若干个特征;判定数据特征的独立性,将特征划分为独立特征和非独立特征;基于非独立特征,对所述可用于响应预测的数据进行等价值扩充,扩充后数据总量由m增长为k1m;基于独立特征,对所述等价值扩充后的数据进行相似价值扩充,扩充后数据总量由k1m增长为k1k2m。
在一些实施例中,获取的工程资料信息包括:收集来自设计书、公开文献、监测报告多渠道信息的工程数据,包括图纸、文字、视频。
在一些实施例中,所述可用于响应预测的数据中每条数据均包含工程信息和响应信息两部分。
在一些实施例中,所述工程信息包括:工程地质属性、既有地下结构属性、待施工地下工程施工信息以及其他信息;所述响应信息包括:结构沉降、断面变形、断面最大弯矩、断面最大剪力、结构最大差异沉降。
在一些实施例中,所述判定数据特征的独立性,将特征划分为独立特征和非独立特征包括:分析数据的特征,根据特征之间的限制关系,将特征划分为独立特征和非独立特征,其中,独立特征表明该特征与其他特征之间不存在限制关系,非独立特征表明该特征与其他某个或多个特征之间具有限制关系。
在一些实施例中,所述判定数据特征的独立性,将特征划分为独立特征和非独立特征还进一步包括:表征非独立特征间的定量限制关系。
在一些实施例中,所述表征非独立特征间的定量限制关系包括:对于一组存在定量限制关系的n个非独立特征z i (i=1,2,……,n),其定量限制关系表达为:f(z 1 ,z 2 ,……, z n )=0
在一些实施例中,所述基于非独立特征,对所述可用于响应预测的数据进行等价值扩充包括:
设计扩充规则,所述扩充规则包括数据价值不变化原则;
基于任一条原始数据,选取一组存在定量限制关系的非独立特征;
根据数据价值不变化原则,选取该组非独立特征中若干个特征,对该若干个特征的取值在合理范围内随机变化;
根据定量限制关系,计算其他存在定量限制关系的特征的取值;
组合所有特征,生成新数据;
重复以上过程,直至该条原始数据生成的新数据数量超过预设值后,跳转至下一条原始数据。
在一些实施例中,所述基于独立特征,对所述等价值扩充后的数据进行相似价值扩充包括:
对每个独立特征设定特征波动函数,所述波动函数规定了特征波动幅值与概率之间的关系;
基于任一条所述等价值扩充后的数据,随机选取若干个可变化的独立特征,将该若干个可变化的独立特征划分为待变特征与不变特征;
根据待变特征的波动函数,随机生成待变特征的新取值;
待变特征的新取值与不变特征的原取值组合成为新数据;
重复以上过程,直至基于该条所述等价值扩充后的数据生成的新数据数量超过预设值后,跳转至下一条原始数据。
本发明还提供一种用于既有结构响应预测的数据扩充系统,该系统用于执行前述的数据扩充方法。
(三)有益效果
本发明针对地下工程响应预测问题中可用数据量少的现状,结合地下工程地质信息与结构信息的特点,设计一种用于既有结构响应预测的数据扩充方法、系统,在无法获取更多新数据的前提下,可对原始数据进行合理变换与调整,使可用数据的量级能根据使用需求扩充几倍至几万倍,满足机器学习相关算法进行定量计算的数据需求。借助本发明,使机器学习相关算法用于结构响应的定量预测成为了可能,大幅度提升了相关预测的指导性与可靠性。经数据扩充的算法模型,相比未经扩充的模型具有泛化能力强,训练效果好的优势;相比传统方法具有调用速度快,参考案例广的优势。进一步至少具有如下具体的优点:
1、本发明提出对数据特征进行独立性划分,独立性划分有助于梳理数据特征间的潜在联系,避免了原始数据因扩充产生的信息偏移与数据失真,为后续新数据的大规模生成提供了条件。
2、本发明采用等价值扩充:(1)扩充操作的判断仅涉及若干个随机数的调用,总体运算量较小,适合大规模扩充运算;(2)扩充后的数据价值与原数据相同,使核心信息得到了保留,更方便相关机器学习算法在训练过程中学习到重要规律,这如同图像识别任务中,将图片旋转、缩放后得到多张同价值的图像;(3)该算法基于结构化数据,特意凸显了地下工程数据的内在关联性,将地下工程领域的经验性等价处理转化为了直观的算法,使数据拓展内容更具指导性。
3、发明采用相似价值扩充,将工程勘测误差、次要参数扰动等以波动函数体现,使数据内容更贴合地下工程的实际样本工具,而非限定于原始数据中的特定值,从而使扩充的数据更具备指导性,可以显著提高后续学习算法模型的泛化能力和鲁棒性。
应当理解,本发明任一实施方式的实现并不意味要同时具备或达到上述有益效果的多个或全部。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容涵盖的范围内。
图1为本发明实施例的整体流程示意图;
图2为本发明实施例的等价值扩充流程示意图;
图3为本发明实施例的等价值扩充具体操作示意图;
图4为本发明实施例的相似价值扩充流程示意图;
图5为本发明实施例的波动函数示意图。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明实施例作进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
应当理解,术语“包括/包含”、“由……组成”或者任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的产品、设备、过程或方法不仅包括那些要素,而且需要时还可以包括没有明确列出的其他要素,或者是还包括为这种产品、设备、过程或方法所固有的要素。在没有更多限制的情况下,由语句“包括/包含……”、“由……组成”限定的要素,并不排除在包括所述要素的产品、设备、过程或方法中还存在另外的相同要素。
还需要理解,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置、部件或结构必须具有特定的方位、以特定的方位构造或操作,不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
为了更好的理解上述技术方案,下面将结合附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明提供的用于既有结构响应预测的数据扩充方法,尤其用于地下工程施工中既有结构响应预测,包括:
基于获取的工程资料信息,将其整理为结构化数据;
汇总可用于响应预测的数据,总量记为m,可用于响应预测的数据包含若干个特征;
判定数据特征的独立性,将特征划分为独立特征和非独立特征;
基于非独立特征,对可用于响应预测的数据进行等价值扩充,扩充后数据总量由m增长为k1m;
基于独立特征,对等价值扩充后的数据进行相似价值扩充,扩充后数据总量由k1m增长为k1k2m。
参见图1所示的流程框图,在框100中,首先基于获取的工程资料信息,将工程资料整理为结构化数据。
工程资料可以是图纸、文字、视频等等,通过收集来自设计书、公开文献、监测报告等多渠道信息的工程数据获取。
结构化数据例如可以是表格形式,数据量可以理解为表的行数,每一行为一条数据,数据特征可以理解为列,或者叫做数据属性。
整理的过程可以理解为把图纸、文字、视频等非结构化信息“翻译”成一张表格,比如很多个立方体的图纸转化成列名是编号、长、宽、高的表,表中包含立方体的各个参数信息。整理的方式可以是人工直接整理、图像识别等,本发明中不做具体限定。
继续参见图1所示的流程框图,在框200中,获得结构化数据后,汇总可用于响应预测的数据,数量记为m。
可用于响应预测的数据中每条数据均包含工程信息及响应信息两部分,其中工程信息的特征数量为n。工程信息可以理解为自变量特征,响应信息可以理解为预测特征。对于地下工程施工,工程信息包括:工程地质属性、既有地下结构属性、待施工地下工程施工信息以及其他信息等;响应信息包括:结构沉降、断面变形、断面最大弯矩、断面最大剪力、结构最大差异沉降等。
以地下工程施工既有隧道响应预测为例,本发明实施例中收集到来自设计书、公开文献、监测报告等多渠道信息的162条数据,数据包含55个特征,具体为反映工程地质属性的特征30项、反映既有隧道结构属性的特征10项、反应基坑施工信息的特征10项、反应其他信息的特征5项,即m=162,n=55,如下表1所示。
表1可以理解为一个m行、n列的表格,每行为一个工程,每列为该工程的某一个属性,行与列交叉处的具体数值代表特征值或参数。
继续参见附图1中框300,在框300中,判定数据特征的独立性,将特征划分为独立特征和非独立特征。
本发明提出对数据特征进行独立性划分,独立性划分有助于梳理数据特征间的潜在联系,避免了原始数据因扩充产生的信息偏移与数据失真,结合既有工程结构特性,划分独立特征和非独立特征,为后续新数据的大规模生成提供了条件。
具体的,分析数据的特征,根据特征之间的限制关系,将特征划分为独立特征和非独立特征,其中,独立特征表明该特征与其他特征之间不存在限制关系,非独立特征表明该特征与其他某个或多个特征之间具有限制关系。所谓限制关系,也可称之为数理联系。
一般地,对于一组存在定量限制关系的n个非独立特征z i (i=1,2,……,n),其定量限制关系表达为:
f(z 1 ,z 2 ,……,z n )=0
独立特征表明该特征与其他特征之间不存在限制关系,如表1所示的实施例中,地质特征中的地下水水位埋深、土层饱和重度、压缩模量,既有隧道特征中的衬砌弹性模量等均为反应工程某项属性的独立特征,与其他特征的取值无关。
非独立特征表明该特征与其他某个或多个特征共同决定了工程属性,特征之间具有限制关系。如表1所示的实施例中,工程地质特征中的土层厚度与既有隧道结构特征的中的隧道埋深共同决定了该工程的空间几何关系,特征间的大小关系还决定了隧道位于何种土层内,因此存在潜在联系,为非独立特征。本例中地质条件限制为至多3层土的地层,各层土的厚度累加值为100m,因此各层土厚度的三个非独立特征之间的定量限制关系为:
h1+h2+h3-100=0
式中:hi为第i层土的厚度,为工程地质特征中的一项。
在框400中,基于非独立特征,对可用于响应预测的数据进行等价值扩充。
等价值扩充是指保持响应信息不变,通过更改工程信息部分特征的取值来生成新数据,使新数据与原始数据在工程概念上表征了同一工程,以此保证新数据指导价值与原始数据相同的扩充方式。该扩充方法主要应用于非独立特征,扩充规则源于工程经验、信息编码方法等领域知识,通过相关变化使数据的核心指导性内容不变,以此生成新的数据。同时除领域知识指导的变更外,还需满足非独立特征的定量限制条件。
在一些实施例中,参见图2,等价值扩充具体按如下方式进行:
(1)设计扩充规则,扩充规则包括数据价值不变化原则;
(2)基于任一条原始数据,选取一组存在定量限制关系的非独立特征{a1,a2,…,an};
(3)根据数据价值不变化原则,选取该组非独立特征中若干个特征{a1,a2,…,aj},对该若干个特征的取值在合理范围内随机变化,随机生成{a1',a2',…,aj'};
(4)根据定量限制关系f(a1,a2,…,an)=0,计算其他存在定量限制关系的特征的取值;
(5)组合所有特征,生成新数据{a1',a2',…an'};
(6)重复以上过程,直至该条原始数据生成的新数据数量超过预设值后,跳转至下一条原始数据。
继续以地下工程施工既有隧道响应预测为例,本实施例以地质特征的层厚特征为例,具体扩充过程如图3所示。不同土层数的工程案例在被编码为结构化信息时,土层厚度常因定量关系被设定为特定值,该扩充规则针对此情况,以土层数为核心判定逻辑对原始数据中的土层厚度进行变化,通过随机性生成方法拓展了原始的数据空间。具体而言,对于土层数仅为一层的案例,其层厚特征h1、h2、h3可为满足定量限制关系的任意值,且在其他特征不变时,层厚特征取任意值时均未改变工程的几何特征,因此可进行随机生成,以使新数据仍表征该工程,也就是将h1、h2、h3随机变化为h1'、h2'、h3';当土层数为两层时,则可通过变更h2、h3达成类似效果,即保持h1=h1,将h2、h3随机变化为h2'、h3'。因此,土层数小于三层的数据均满足扩充要求,可以用于等价值扩充。扩充过程中,每一项满足初始扩充要求的数据可根据要求由1个数据{h1,h2,h3,...}扩充至β个不同的数据{h1',h2',h3'...}(本例中β=10),最终原始m个数据经扩充后变为k1m个数据(本例中162个原始数据中,有72个数据为一层或两层土,符合扩充条件,即满足扩充要求的数据为72个。因此,经β=10扩充后,72个原始数据变为720个数据,与不满足扩充要求的剩余90个原数据累加起来,本次经等价值扩充后的数据总量变为810个)。
通过采用本发明的等价值扩充,(1)扩充操作的判断仅涉及若干个随机数的调用,总体运算量较小,适合大规模扩充运算;(2)扩充后的数据价值与原数据相同,使核心信息得到了保留,更方便相关机器学习算法在训练过程中学习到重要规律,这如同图像识别任务中,将图片旋转、缩放后得到多张同价值的图像;(3)该算法基于结构化数据,特意凸显了地下工程数据的内在关联性,将地下工程领域的经验性等价处理转化为了直观的算法,使数据拓展内容更具指导性。
在框500中,基于独立特征,对等价值扩充后的数据进行相似价值扩充。
相似价值扩充是指通过更改工程信息特征或响应信息的取值,使新数据与原数据的略微偏移,以此保障新数据核心指导价值与原始数据相似的扩充方法。该扩充方法主要应用于独立特征,相应的偏移范围源于工程经验、力学分析等领域知识。
在一些实施例中,参见图4,相似值扩充具体按如下方式进行:
(1)对每个独立特征设定特征波动函数,所述波动函数规定了特征波动幅值与概率之间的关系;
例如对于独立特征{a1,a2,a3,…,an-1,an},分别对其设置n个对应的波动函数。
波动函数规定了特征波动幅值与概率之间的关系。如对于本例工程地质信息中的地层压缩模量特征,可认为其在1%范围内的波动不会显著影响其最终的响应,因此设定如图5所示的波动函数,该函数为以0为均值、0.333%为标准差的正态分布函数,表示了不同波动幅值出现的概率。函数形式一般可取正态分布函数、常数函数、一次函数等,波动的幅值可为与原值相关的百分比或与原值无关的绝对值。
(2)基于任一条经由前述等价值扩充后的数据,随机选取若干个可变化的独立特征,将该若干个可变化的独立特征划分为待变特征与不变特征。
例如选取{a1,a4,...,an-1}所对应的特征为待变特征,选取{a2,a3,...,an}对应的特征为不变特征。
随机选取方法一般可采用:a.不放回随机抽样。预先设定取样数M,以此在所有可变化的N个独立特征中随机抽样,选取M个特征作为待变特征,其他未被抽样的N-M个特征为不变特征。
b.等概率抽样。预先设定抽取概率k,依据此概率判断每个可变化的独立特征是否被选取,被选取的特征为待变特征,其余未被选取的特征为不变特征。
c.分组取样。将所有可变化的独立特征分为L个组,分别对每个组进行取样数为Mi(i=1,2,……,L)的不放回随机抽样,各个组被选取特征的集合为待变特征,其余特征为不变特征。
本例中采取分组取样,将所有特征按照其反映的属性分为四组,即工程地质属性、既有隧道结构属性、基坑施工属性、其他属性,并分别按5、2、2、1的取样数分别进行随机取样,以此划分出待变特征与不变特征。
(3)根据待变特征的波动函数,随机生成待变特征的新取值;
例如根据选取特征的取值{a1,a4,...,an-1},变化为{a1',a4',...,an-1'}。
(4)待变特征的新取值与不变特征的原取值组合成为新数据;
待变特征的新取值与不变特征的原取值组合成为新数据,例如将以上各取值组合为{a1',a2,a3,a4',...,an-1',an}。
(5)重复以上过程,直至基于该条经由等价值扩充后的数据生成的新数据数量超过预设值γ后,跳转至下一条原始数据。
预设值γ可以为固定值,也可以随原始数据的变化随机生成。本例中,预设值γ设置为固定值15,因此第三步等价值扩充后的810个数据在该步相似价值扩充下达到12150个。
通过采用本发明的相似价值扩充,将工程勘测误差、次要参数扰动等以波动函数体现,使数据内容更贴合地下工程的实际样本工具,而非限定于原始数据中的特定值,从而使扩充的数据更具备指导性,可以显著提高后续学习算法模型的泛化能力和鲁棒性。
经以上方法,原始工程数据得到了大幅度的扩充。值得一提的是,在数据扩充流程中,第三步中的等价值扩充和第四步中的相似价值扩充也可以根据需要循环使用。其中等价值扩充比k1可根据设计的扩充规则取任意值,而相似价值扩充比k2一般不超过100。本例中,组合使用等价值与相似价值扩充一次,即可将原有162条数据扩充至12150个,可用于驱动相关机器学习算法。
本发明继续提供一种用于既有结构响应预测的数据扩充系统,该系统用于执行前述的数据扩充方法。
由此显然可见,本发明针对地下工程地质信息与结构信息的特点,提供了一种数据扩充方法,使机器学习相关算法用于结构响应的定量预测成为了可能,大幅度提升了相关预测的指导性与可靠性。经数据扩充的算法模型,相比未经扩充的模型具有泛化能力强,训练效果好的优势;相比传统方法具有调用速度快,参考案例广的优势。
虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本发明的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种用于既有结构响应预测的数据扩充方法,其特征在于包括:
基于获取的工程资料信息,将其整理为结构化数据;
汇总可用于响应预测的数据,总量记为m,所述可用于响应预测的数据包含若干个特征;
判定数据特征的独立性,将特征划分为独立特征和非独立特征;
基于非独立特征,对所述可用于响应预测的数据进行等价值扩充,扩充后数据总量由m增长为k1m;
基于独立特征,对所述等价值扩充后的数据进行相似价值扩充,扩充后数据总量由k1m增长为k1k2m。
2.根据权利要求1所述的数据扩充方法,其特征在于:
获取的工程资料信息包括:收集来自设计书、公开文献、监测报告多渠道信息的工程数据,包括图纸、文字、视频。
3.根据权利要求1所述的数据扩充方法,其特征在于:
所述可用于响应预测的数据中每条数据均包含工程信息和响应信息两部分。
4.根据权利要求3所述的数据扩充方法,其特征在于:
所述工程信息包括:工程地质属性、既有地下结构属性、待施工地下工程施工信息以及其他信息;
所述响应信息包括:结构沉降、断面变形、断面最大弯矩、断面最大剪力、结构最大差异沉降。
5.根据权利要求1所述的数据扩充方法,其特征在于:
所述判定数据特征的独立性,将特征划分为独立特征和非独立特征包括:
分析数据的特征,根据特征之间的限制关系,将特征划分为独立特征和非独立特征,其中,独立特征表明该特征与其他特征之间不存在限制关系,非独立特征表明该特征与其他某个或多个特征之间具有限制关系。
6.根据权利要求5所述的数据扩充方法,其特征在于:
所述判定数据特征的独立性,将特征划分为独立特征和非独立特征还进一步包括:
表征非独立特征间的定量限制关系。
7.根据权利要求6所述的数据扩充方法,其特征在于:
所述表征非独立特征间的定量限制关系包括:
对于一组存在定量限制关系的n个非独立特征z i (i=1,2,……,n),其定量限制关系表达为:
f(z 1 ,z 2 ,……,z n )=0
8.根据权利要求1所述的数据扩充方法,其特征在于:
所述基于非独立特征,对所述可用于响应预测的数据进行等价值扩充包括:
设计扩充规则,所述扩充规则包括数据价值不变化原则;
基于任一条原始数据,选取一组存在定量限制关系的非独立特征;
根据数据价值不变化原则,选取该组非独立特征中若干个特征,对该若干个特征的取值在合理范围内随机变化;
根据定量限制关系,计算其他存在定量限制关系的特征的取值;
组合所有特征,生成新数据;
重复以上过程,直至该条原始数据生成的新数据数量超过预设值后,跳转至下一条原始数据。
9.根据权利要求1所述的数据扩充方法,其特征在于:
所述基于独立特征,对所述等价值扩充后的数据进行相似价值扩充包括:
对每个独立特征设定特征波动函数,所述波动函数规定了特征波动幅值与概率之间的关系;
基于任一条所述等价值扩充后的数据,随机选取若干个可变化的独立特征,将该若干个可变化的独立特征划分为待变特征与不变特征;
根据待变特征的波动函数,随机生成待变特征的新取值;
待变特征的新取值与不变特征的原取值组合成为新数据;
重复以上过程,直至基于该条所述等价值扩充后的数据生成的新数据数量超过预设值后,跳转至下一条原始数据。
10.一种用于既有结构响应预测的数据扩充系统,其特征在于,该系统用于执行如权利要求1至9任一项所述的数据扩充方法。
CN202311140453.XA 2023-09-06 2023-09-06 用于既有结构响应预测的数据扩充方法、系统 Active CN116881723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311140453.XA CN116881723B (zh) 2023-09-06 2023-09-06 用于既有结构响应预测的数据扩充方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311140453.XA CN116881723B (zh) 2023-09-06 2023-09-06 用于既有结构响应预测的数据扩充方法、系统

Publications (2)

Publication Number Publication Date
CN116881723A true CN116881723A (zh) 2023-10-13
CN116881723B CN116881723B (zh) 2024-02-20

Family

ID=88257200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311140453.XA Active CN116881723B (zh) 2023-09-06 2023-09-06 用于既有结构响应预测的数据扩充方法、系统

Country Status (1)

Country Link
CN (1) CN116881723B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647272A (zh) * 2018-04-28 2018-10-12 江南大学 一种基于数据分布的小样本扩充方法
CN112200307A (zh) * 2020-10-16 2021-01-08 南通大学 一种基于图片数据扩充的识别器处理方法
CN112580826A (zh) * 2021-02-05 2021-03-30 支付宝(杭州)信息技术有限公司 业务模型训练方法、装置及系统
CA3070817A1 (en) * 2020-01-31 2021-07-31 Element Ai Inc. Method of and system for joint data augmentation and classification learning
CN115374570A (zh) * 2022-04-29 2022-11-22 北京城建设计发展集团股份有限公司 一种用于穿越工程隧道变形预测的多源加权训练集构建方法
CN116259109A (zh) * 2023-04-04 2023-06-13 西南交通大学唐山研究院 基于生成式自监督学习和对比学习的人体行为识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647272A (zh) * 2018-04-28 2018-10-12 江南大学 一种基于数据分布的小样本扩充方法
CA3070817A1 (en) * 2020-01-31 2021-07-31 Element Ai Inc. Method of and system for joint data augmentation and classification learning
CN112200307A (zh) * 2020-10-16 2021-01-08 南通大学 一种基于图片数据扩充的识别器处理方法
CN112580826A (zh) * 2021-02-05 2021-03-30 支付宝(杭州)信息技术有限公司 业务模型训练方法、装置及系统
CN115374570A (zh) * 2022-04-29 2022-11-22 北京城建设计发展集团股份有限公司 一种用于穿越工程隧道变形预测的多源加权训练集构建方法
CN116259109A (zh) * 2023-04-04 2023-06-13 西南交通大学唐山研究院 基于生成式自监督学习和对比学习的人体行为识别方法

Also Published As

Publication number Publication date
CN116881723B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN108920720B (zh) 基于深度哈希和gpu加速的大规模图像检索方法
CN110674604A (zh) 基于多维时序帧卷积lstm的变压器dga数据预测方法
CN109857871B (zh) 一种基于社交网络海量情景数据的用户关系发现方法
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
KR100903961B1 (ko) 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
CN102902826B (zh) 一种基于基准图像索引的图像快速检索方法
CN113971209A (zh) 一种基于注意力机制增强的无监督跨模态检索方法
CN110390052B (zh) 搜索推荐方法、ctr预估模型的训练方法、装置及设备
CN109165699B (zh) 细粒度图像分类方法
CN110097096B (zh) 一种基于tf-idf矩阵和胶囊网络的文本分类方法
CN112000772A (zh) 面向智能问答基于语义特征立方体的句子对语义匹配方法
CN115048539B (zh) 基于动态记忆力的社交媒体数据在线检索方法及系统
CN105005616A (zh) 基于文本图片特征交互扩充的文本图解方法及系统
CN109918162B (zh) 一种可学习的海量信息高维图形交互式展示方法
CN111079011A (zh) 一种基于深度学习的信息推荐方法
CN112800590B (zh) 一种机器学习辅助的两相流油藏随机建模的网格粗化方法
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN116881723B (zh) 用于既有结构响应预测的数据扩充方法、系统
Lee et al. Model Regeneration Scheme Using a Deep Learning Algorithm for Reliable Uncertainty Quantification of Channel Reservoirs
CN114972959B (zh) 深度学习中样本生成和类内排序损失的遥感图像检索方法
CN103500214B (zh) 一种基于视频搜索的分词信息推送方法和装置
CN112417267A (zh) 一种用户行为分析方法、装置、计算机设备及存储介质
CN105975564A (zh) 基于相对熵相似度的知识推荐方法
CN112364193A (zh) 面向图像检索的融合多层特征深度神经网络模型方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant