CN116542254A - 风洞试验数据异常决策方法、装置、电子设备及存储介质 - Google Patents
风洞试验数据异常决策方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116542254A CN116542254A CN202310553630.0A CN202310553630A CN116542254A CN 116542254 A CN116542254 A CN 116542254A CN 202310553630 A CN202310553630 A CN 202310553630A CN 116542254 A CN116542254 A CN 116542254A
- Authority
- CN
- China
- Prior art keywords
- wind tunnel
- target
- tunnel test
- test data
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 125
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000002159 abnormal effect Effects 0.000 claims abstract description 60
- 230000005856 abnormality Effects 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims description 67
- 230000015654 memory Effects 0.000 claims description 57
- 230000002457 bidirectional effect Effects 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 8
- 238000001514 detection method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 239000004973 liquid crystal related substance Substances 0.000 description 6
- 230000006403 short-term memory Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000009530 blood pressure measurement Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01M—TESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
- G01M9/00—Aerodynamic testing; Arrangements in or on wind tunnels
- G01M9/02—Wind tunnels
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Fluid Mechanics (AREA)
- Aerodynamic Tests, Hydrodynamic Tests, Wind Tunnels, And Water Tanks (AREA)
Abstract
本发明提出风洞试验数据异常决策方法、装置、电子设备及存储介质,属于数据异常决策技术领域。包括以下步骤:S1、对目标文档进行预处理得到包括异常模式、异常原因和解决方案语句的目标语料集;S3、根据实体类型和关系类型构建知识图谱;S4、接收用户的第一输入,第一输入用于表征当前异常模式;响应于第一输入,在知识图谱中搜索匹配,若匹配成功,则输出与当前异常模式相关的目标信息;其中,匹配成功是指从第一输入中提取的关键词语句与知识图谱中的语句相似度大于或等于目标阈值,目标信息包括:异常模式、异常原因和解决方案。解决风洞试验数据异常检测过程中决策速度较慢、决策准确性不稳定问题。
Description
技术领域
本申请涉及数据异常决策方法,尤其涉及一种风洞试验数据异常决策方法、电子设备及存储介质,属于数据异常决策技术领域。
背景技术
飞行器整体及其部件气动性能的分析方法主要包括理论研究、数值仿真及风洞试验。风洞试验,是指通过风洞对试验模型在不同的状态条件下进行吹风,从而获得飞行器设计所需的精确试验数据,为飞行器设计提供参考,试验数据为气动力系数、表面压力分布等。风洞试验数据通常可以通过试验人员进行逐次分析,在确保数据准确性的基础上进行下一车次试验。当风洞试验数据出现异常时,需要及时判断异常原因并给出解决方案。现有的判断方法是试验人员分别从风洞设备、模型、天平等角度逐个排查异常原因,并与气动专家进行分析讨论,最后给出解决方案。但这种现有方法受限于试验人员的个人经验和工作能力,从而使得决策速度较慢、决策的准确性不稳定。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于此,为解决现有技术中存在的风洞试验数据异常检测过程中决策速度较慢、决策的准确性不稳定的技术问题,本发明提供一种风洞试验数据异常决策方法、装置、电子设备及存储介质。
方案一、风洞试验数据异常决策方法,包括以下步骤:
S1、对目标文档进行预处理得到包括异常模式、异常原因和解决方案语句的目标语料集;
目标文档包括历史风洞试验报告、历史风洞试验交接版本和历史风洞试验异常问题文档;目标语料集包括至少一条表征异常模式、异常原因和解决方案的语句;
S2、根据目标语料集构建实体类型和关系类型;
S3、根据实体类型和关系类型构建知识图谱;
S4、接收用户的第一输入,第一输入用于表征当前异常模式;响应于第一输入,在知识图谱中搜索匹配,若匹配成功,则输出与当前异常模式相关的目标信息;其中,匹配成功是指从第一输入中提取的关键词语句与知识图谱中的语句相似度大于或等于目标阈值,目标信息包括:异常模式、异常原因和解决方案。
优选的,实体类型包括:异常模式、异常原因和解决方案;
关系类型包括:异常模式与异常原因;异常模式与解决方案。
优选的,S3具体包括以下步骤:
S3.1、将目标语料集划分为训练集、测试集和剩余语料集;
S3.2、抽取目标语料集中的实体;
S3.3、抽取目标语料集中的关系;
S3.4、根据抽取的实体和关系,构建知识图谱。
优选的,S32具体包括以下步骤:
S3.2.1、对训练集和测试集进行实体标注;
S3.2.2、通过训练集构建双向长短时记忆实体抽取模型;
S3.2.3、通过测试集验证双向长短时记忆实体抽取模型;
S3.2.4、设置第一目标条件,若双向长短时记忆实体抽取模型满足第一目标条件,双向长短时记忆实体抽取模型对剩余语料集进行实体抽取;
其中,第一目标条件:双向长短时记忆实体抽取模型的精确率小于或等于第一阈值,且双向长短时记忆实体抽取模型的召回率小于或等于第二阈值。
优选的,S33具体包括以下步骤:
S3.3.1、对训练集和测试集进行关系标注;
S3.3.2、通过训练集建立基于注意力层的双向长短时记忆关系抽取模型;
S3.3.3、通过测试集验证基于注意力层的双向长短时记忆关系抽取模型;
S3.3.4、设置第二目标条件,若基于注意力层的双向长短时记忆关系抽取模型满足第二目标条件,则通过基于注意力层的双向长短时记忆关系抽取模型对剩余语料集进行关系抽取;
其中,第二目标条件:基于注意力层的双向长短时记忆关系抽取模型的精确率小于或等于第三阈值,且注意力层的双向长短时记忆关系抽取模型的召回率小于或等于第四阈值。
优选的,精确率和召回率的计算公式为:
;
;
其中,Precision为精确率,Recall为召回率;为正确的正例,即一个实例是正类且被判定为正类;/>为错误的正例,即本为假类但判定为正类;/>为正确的反例,即一个实例是假类且被判定为假类。
优选的,相似度是指两个向量夹角的余弦,将文本转化为向量,假定转化后的A和B是两个n维向量,,/>,则向量A与B的夹角/>的余弦即相似度为:
;
搜索匹配是指计算相似度,值越大就表示越相似;
目标阈值为用户实际使用结果预设的常数值。
优选的,响应于第一输入,在知识图谱中搜索匹配,在匹配不成功的情况下,从第一输入中提取的关键词语句,存储至目标语料集。
方案二、一种电子设备,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现方案一所述的风洞试验数据异常决策方法的步骤。
方案三、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现方案一所述的风洞试验数据异常决策方法。
本发明的有益效果如下:一方面,本发明通过搭建风洞试验数据异常知识图谱,将目标语料集分为训练集、测试集、剩余语料集,并抽取该目标语料集中的实体和关系构建知识图谱,即充分抽取历史风洞试验资料中积累的经验,实现风洞试验数据异常的追根溯因,从而解决传统风洞试验数据异常检测过程中决策速度较慢、决策的准确性不稳定的问题,进而提高判断风洞试验数据异常原因及给出解决方案的准确性及效率。另一方面,本发明还可以帮助风洞试验人员进行数据异常现象的智能决策,有助于提升风洞试验领域决策的智能化水平,提高决策的效率与准确性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为风洞试验数据异常决策方法流程示意图;
图2为知识图谱构建流程图;
图3为实体抽取的示意图;
图4为关系抽取的示意图;
图5为风洞试验数据异常决策装置结构示意图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例1、参照图1-图4说明本实施方式,一种风洞试验数据异常决策方法,可以适用于下述场景中:场景一:风洞试验过程中,当风洞试验数据出现异常时,需要及时判断异常原因并给出解决方案的场景中;场景二:风洞试验过程中,试验人员排查异常原因,并与气动专家进行分析讨论,最后给出解决方案的场景中。具体包括以下步骤:
S1、对目标文档进行预处理得到目标语料集;
目标文档包括历史风洞试验报告、历史风洞试验交接版本和历史风洞试验异常问题文档;目标语料集包括至少一条表征异常模式、异常原因、解决方案的语句。
具体的,以常规测压风洞试验为例,待决策目标文档中的部分内容为:
气动现象:方向舵重复性差;
详细情况:马赫数xx时,迎角x时方向舵重复性差;
可能原因:前机身边条翼产生的涡对方向舵的某一剖面产生影响;
进行预处理,处理后的语句为“马赫数xx时,迎角x时方向舵重复性差的可能原因为前机身边条翼产生的涡对方向舵的某一剖面产生影响。”上述目标语料集为表征异常模式、异常原因、解决方案的语句。例如上述例子中的“马赫数xx时,迎角x时方向舵重复性差的可能原因为前机身边条翼产生的涡对方向舵的某一剖面产生影响。”可以为目标语料。
S2、根据目标语料集构建实体类型和关系类型;
实体类型包括:异常模式、异常原因和解决方案;
关系类型包括:异常模式与异常原因;异常模式与解决方案。
S3、根据实体类型和关系类型构建知识图谱;
S3.1、将目标语料集划分为训练集、测试集和剩余语料集;
具体的,根据实际使用需求划分为训练集、测试集和剩余语料集三部分,划分比例可以为3:2:5、4:1:5。
S3.2、抽取目标语料集中的实体;实体抽取的每个实体均对应一个实体类型;
S3.2.1、对训练集和测试集进行实体标注;
将语料中的各字符添加表征所在实体的位置和实体类型而标注实体;
具体的,可以使用BIOES标注法对训练集和测试集进行实体标注;具体为:将语料中的各个字符添加表征其所在实体的位置和实体类型而标注实体。B为“Begin”的缩写;“I”为中间字符,“E”代表该字符是某个实体的尾字符;“S”代表单一字符;“O”代表该字符不在实体中。
S3.2.2、通过训练集构建双向长短时记忆实体抽取模型;
双向长短时记忆实体抽取模型的输入为目标语料集句子中所有字符,模型输出为向量;
具体的,双向长短时记忆(BiLSTM)实体抽取模型的输入为目标语料集句子中所有的字符,模型输出为向量。LSTM包含若干个单元模块,每个单元模块由神经元和乘法单元组成,其中乘法单元用于实现数据的输入、输出和遗忘舍弃。传统的LSTM只能使用上文信息,无法利用下文信息,无法用于实体抽取。BiLSTM是由一个前向LSTM和后向LSTM组成。BiLSTM可以分别获得两个方向的上下文特征,能够有效解决LSTM算法无法利用下文信息的问题,从而改善实体抽取的效果。
S3.2.3、通过测试集验证双向长短时记忆实体抽取模型;
S3.2.4、设置第一目标条件,若双向长短时记忆实体抽取模型满足第一目标条件,双向长短时记忆实体抽取模型对剩余语料集进行实体抽取;
第一目标条件:双向长短时记忆实体抽取模型的精确率小于或等于第一阈值,且双向长短时记忆实体抽取模型的召回率小于或等于第二阈值;第一阈值和第一阈值为用于根据实际使用需求提前预设的常数值。根据多次实际试验结果,第一阈值取值范围为:80%-100%,第二阈值取值范围为:70%-100%。
精确率和召回率的计算公式为:
;
;
其中,Precision为精确率,Recall为召回率;为正确的正例,即一个实例是正类且被判定为正类;/>为错误的正例,即本为假类但判定为正类;/>为正确的反例,即一个实例是假类且被判定为假类;
具体的,通过BiLSTM抽取实体能够减少人工标注的成本,有效提高实体抽取的效率。
S3.3、抽取目标语料集中的关系;关系抽取的每个关系均对应一个关系类型。
S3.3.1、对训练集和测试集进行关系标注;
具体的,可以通过Brat工具对训练集和测试集进行关系标注。
S3.3.2、通过训练集建立基于注意力层的双向长短时记忆关系抽取模型;
具体的,注意力层的双向长短时记忆关系抽取模型引入了注意力层;引入注意力层的目的是对于关键部分分配较多的注意力记忆,其他部分分配较少的注意力,将输入序列的所有元素分配一个对应的权重系数实现对人类学行为的模仿;
S3.3.3、通过测试集验证基于注意力层的双向长短时记忆关系抽取模型;
S3.3.4、设置第二目标条件,若基于注意力层的双向长短时记忆关系抽取模型满足第二目标条件,则通过基于注意力层的双向长短时记忆关系抽取模型对剩余语料集进行关系抽取;
第二目标条件:注意力层的双向长短时记忆关系抽取模型的精确率小于或等于第三阈值,且双向长短时记忆实体抽取模型的召回率小于或等于第四阈值;
第三阈值和第四阈值为用于根据实际使用需求提前预设的常数值。根据多次实际试验结果,上述第三阈值取值范围为:80%-100%,上述第四阈值取值范围为:70%-100%。
具体的,通过引入注意力层的BiLSTM抽取关系能够减少人工标注的成本,有效提高关系抽取的效率。
S3.4、根据抽取的实体和关系,构建知识图谱。
具体的,可以基于Neo4j图数据库构建知识图谱。
具体的,通过实体抽取和关系抽取后,将其保存在CSV数据文件中,导入到Neo4j图数据库中进行知识的存储及可视化操作。
以测压风洞试验为例,将历史测压风洞试验问题文档作为目标文档,对目标文档中的语句进行预处理获得目标语料集。将目标语料集分为训练集、测试集及剩余语料集。通过BiLSTM建立训练集的实体抽取模型,通过引入注意力层的BiLSTM建立训练集的关系抽取模型,并通过测试集进行验证,验证模型的准确性后对剩余语料集抽取实体和关系。将抽取的实体和关系导入到Noe4j图数据库中搭建知识图谱。
S4、接收用户的第一输入,第一输入用于表征当前异常模式;响应于第一输入,在知识图谱中搜索匹配,若匹配成功,则输出与当前异常模式相关的目标信息;其中,匹配成功是指从第一输入中提取的关键词语句与知识图谱中的语句相似度大于或等于目标阈值,目标信息包括:异常模式、异常原因和解决方案。
具体的,第一输入为用户手动输入的文字。
相似度是指两个向量夹角的余弦,将文本转化为向量,假定转化后的A和B是两个n维向量, ,/>,则向量A与B的夹角/>的余弦即相似度为:
;
匹配成功是指从第一输入中提取的关键词语句与知识图谱中的语句相似度大于或等于目标阈值,该目标信息包括:异常模式、异常原因、解决方案;
搜索匹配是指计算相似度,值越大就表示越相似;
目标阈值为用户实际使用结果预设的常数值;例如,目标阈值可以为80%、85%、90%。
若匹配不成功,则将从第一输入中提取的关键词语句,存储至目标语料集。
在匹配不成功的情况下,电子设备将从第一输入中提取的关键词语句,存储至目标语料集。如此可以扩充目标语料集,从而丰富知识图谱,进而提高异常原因及解决方案匹配的成功率。
具体的,第一输入用于表征当前异常模式,异常模式获取方法为:基于风洞试验数据进行异常检测,包括如下步骤:
S1、采集不同来流条件下的风洞试验数据,并对采集的风洞试验数据进行预处理,划分为风洞试验数据训练集、风洞试验数据测试集;
进一步的,步骤S1中的风洞试验包括测力试验和测压试验;
进一步的,步骤S1中的风洞试验数据包括来流条件数据和气动力数据,来流条件数据包括马赫数、雷诺数、攻角、侧滑角,气动力数据包括升力系数、阻力系数、侧力系数、俯仰力矩系数、滚转力矩系数、偏航力矩系数、压力系数;
设置来流条件数据集为,/>为第i个变量的来流条件数据,数据预处理公式为:
;
其中,为处理后的第i个变量第j个来流条件数据,/>为处理前的第i个变量第j个来流条件数据,/>为第i个变量的来流条件数据最小值,/>为第i个变量的来流条件数据最大值;
进一步的,风洞试验数据训练集、风洞试验数据测试集的划分比例为8:2或7:3;
S2、基于步骤S1得到的风洞试验数据训练集使用梯度提升算法构建预测模型,然后基于步骤S1得到的风洞试验数据测试集对构建的预测模型进行验证;
上述梯度提升算法(Gradient Boosting模型)是一种基于决策树的梯度提升集成学习算法。其核心为每个决策树学习所有前面的树的残差,不断改进上次训练的结果,从而获得最优解;
进一步的,步骤S2中构建风洞试验数据异常检测模型的具体实现方法包括如下步骤:
S2.1、构建预测模型的损失函数并生成初始值,设置L为损失函数、为初始预测值,/>为气动力数据真实值,损失函数L的表达式为:
;
通过最小化当前损失函数,以得出初始值,则初始化的预测模型/>的表达式为:
;
S2.2、建立回归树对预测模型进行预测分析,设置K为创建回归树的总数量,k为第k个回归树,建立每个回归树的最小化损失函数的表达式为:
;
其中,为第k-1个回归树索引的预测模型;
通过取损失函数相对于之前预测模型的导数得出,得到:
;
S2.3、设置回归树中,z为回归树中的叶子结点,Z为叶子结点的总数,为第k个回归树上的各个叶节点,则第k个回归树上的各个叶节点上的损失函数/>表达式为:
;
通过求导得出最终结果:
=0;
;
;
其中是每个叶子节点z中样本的数量,最后求得结果:
;
S2.4、通过循环添加新的回归树以最小化损失函数,得出优化的,则最终的预测模型表达式为:
;
进一步的,步骤S2中对构建的风洞试验数据异常检测模型进行验证的具体实现方法包括如下步骤:
S2.5、设置预测模型的超参数,包括学习率、叶子节点数、最大深度、弱学习器最大迭代次数;
S2.6、设置预测模型的目标条件为误差评价指标小于或等于第一阈值,设置误差评价指标为预测模型的均方误差,设置第一阈值为预测模型超参数调整前后均方误差的最小值;
均方误差的计算公式为:
;
其中,n为样本个数,为气动力数据预测值;
S2.7、利用贝叶斯超参数优化方法对预测模型进行超参数调整,优化目标为均方误差最小;
进一步的,均方误差可以替换为最大绝对误差;
进一步的,步骤S2.7中的超参数调整方法为通过风洞试验数据测试集验证预测模型的精度是否满足目标条件,判断为否则调整预测模型超参数,直至满足目标条件;
贝叶斯超参数优化方法首先生成一个初始候选集,在该候选集上寻找下个最可能成为极值的点,将该点添加至候选集合中,不断迭代,在最终的几何中找到最优结果。通过贝叶斯超参数优化方法寻找使目标误差评价指标的最小时的超参数取值。
S3、基于步骤S2得到的预测模型计算风洞试验数据训练集预测值与真实值之间的残差,通过3准则计算残差目标取值范围;
进一步的,步骤S3通过3准则确定残差的目标取值范围是指通过3/>准则确定残差的目标取值范围为/>,其中,/>为残差的标准差,具体实现方法包括如下步骤:
S3.1、若残差满足正态分布,则通过3准则确定残差的目标取值范围为;
S3.2、若残差不满足正态分布,则确定残差的目标取值范围为,其中,k为经验系数,k的取值范围为[1,5];
进一步的,假设测量值符合正态分布,则测量值在之间的概率为99.73%,因此该准则能够对异常数据进行判定。若经验系数k取值过大,则多数异常值不能检测,反之,则误判率较高;通过使用3/>准则,能够基于残差的统计学分布特征更加合理地确定目标取值范围,从而使得预测模型异常数据的判定更加准确,有效降低误判概率。
S4、采集实时风洞试验数据,基于步骤S2得到的预测模型确定风洞试验数据预测值与实时风洞试验数据之间的残差是否满足步骤S3得到的残差目标取值范围,判断为是则实时风洞试验数据为正常数据,判断为否则实时风洞试验数据为异常数据。
本实施方式所述的一种风洞试验数据异常检测方法,适应于如下场景:
场景一:传统风洞试验数据异常检测过程中过于依赖试验人员的专业能力和经验的场景中。
场景二:传统风洞试验数据异常检测过程中通过Excel表格等方法检测的准确性低的场景中。
场景三:连续式跨声速风洞需要实时分析所有车次的数据的场景中。
实施例2、参照图5说明本实施方式,风洞试验数据异常决策装置,包括处理模块、接收模块和输出模块;所述处理模块、所述接收模块和所述输出模块依次连接;
所述处理模块用于对目标文档进行预处理得到包括异常模式、异常原因和解决方案语句的目标语料集、根据目标语料集构建实体类型和关系类型和根据实体类型和关系类型构建知识图谱;
具体的,处理模块通过BIOES实体标注法对该训练集和该测试集进行实体标注。通过该训练集建立双向长短时记忆(BiLSTM)实体抽取模型。通过该测试集验证该双向长短时记忆(BiLSTM)实体抽取模型。若该双向长短时记忆(BiLSTM)实体抽取模型满足第一目标条件,则通过该双向长短时记忆(BiLSTM)实体抽取模型对该剩余语料集进行实体抽取;抽取的每个实体均对应一个实体类型。其中,满足该第一目标条件是指该双向长短时记忆(BiLSTM)实体抽取模型的精确率小于或等于第一阈值,且该双向长短时记忆(BiLSTM)实体抽取模型的召回率小于或等于第二阈值。
处理模块通过Brat标注工具对该训练集和该测试集进行关系标注。基于该训练集建立关系抽取模型,该关系抽取模型为引入注意力层的双向长短时记忆(BiLSTM)。通过该测试集验证该关系抽取模型。若该关系抽取模型满足第二目标条件,则通过该关系抽取模型对该剩余语料集进行关系抽取。抽取的每个关系均对应一个关系类型。其中,满足该第二目标条件是指该实体抽取模型的精确率小于或等于第三阈值,且该关系抽取模型的召回率小于或等于第四阈值。
处理模块还用于在该知识图谱中搜索匹配之后,若匹配不成功,则将从该第一输入中提取的关键词语句,存储至该目标语料集。
所述接收模块用于接收用户输入的当前异常模式的关键词语句;
所述输出模块用于响应用户的输入输出与当前异常模式相关的异常模式、异常原因和解决方案。
本实施例通过搭建风洞试验数据异常知识图谱(即通过将目标语料集分为训练集、测试集、剩余语料集,并抽取该目标语料集中的实体和关系构建知识图谱),从而可以充分抽取历史风洞试验资料中积累的经验,实现风洞试验数据异常的追根溯因,从而解决传统风洞试验数据异常检测过程中决策速度较慢、决策的准确性不稳定的问题,进而提高判断风洞试验数据异常原因及给出解决方案的准确性及效率。另一方面,该装置可以风洞试验人员进行数据异常现象的智能决策,有助于提升风洞试验领域决策的智能化水平,提高决策的效率与准确性。
实施例3、本发明的计算机装置可以是包括有处理器以及存储器等装置,例如包含中央处理器的单片机等。并且,处理器用于执行存储器中存储的计算机程序时实现上述的风洞试验数据异常决策方法的步骤。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
实施例4、计算机可读存储介质实施例
本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质,包括但不限于非易失性存储器、易失性存储器、铁电存储器等,计算机可读存储介质上存储有计算机程序,当计算机装置的处理器读取并执行存储器中所存储的计算机程序时,可以实现上述的风洞试验数据异常决策方法的步骤。
所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (10)
1.风洞试验数据异常决策方法,其特征在于,包括以下步骤:
S1、对目标文档进行预处理得到包括异常模式、异常原因和解决方案语句的目标语料集;
目标文档包括历史风洞试验报告、历史风洞试验交接版本和历史风洞试验异常问题文档;目标语料集包括至少一条表征异常模式、异常原因和解决方案的语句;
S2、根据目标语料集构建实体类型和关系类型;
S3、根据实体类型和关系类型构建知识图谱;
S4、接收用户的第一输入,第一输入用于表征当前异常模式;响应于第一输入,在知识图谱中搜索匹配,若匹配成功,则输出与当前异常模式相关的目标信息;其中,匹配成功是指从第一输入中提取的关键词语句与知识图谱中的语句相似度大于或等于目标阈值,目标信息包括:异常模式、异常原因和解决方案。
2.根据权利要求1所述风洞试验数据异常决策方法,其特征在于,
实体类型包括:异常模式、异常原因和解决方案;
关系类型包括:异常模式与异常原因;异常模式与解决方案。
3.根据权利要求2所述风洞试验数据异常决策方法,其特征在于,S3具体包括以下步骤:
S3.1、将目标语料集划分为训练集、测试集和剩余语料集;
S3.2、抽取目标语料集中的实体;
S3.3、抽取目标语料集中的关系;
S3.4、根据抽取的实体和关系,构建知识图谱。
4.根据权利要求3所述风洞试验数据异常决策方法,其特征在于,S32具体包括以下步骤:
S3.2.1、对训练集和测试集进行实体标注;
S3.2.2、通过训练集构建双向长短时记忆实体抽取模型;
S3.2.3、通过测试集验证双向长短时记忆实体抽取模型;
S3.2.4、设置第一目标条件,若双向长短时记忆实体抽取模型满足第一目标条件,双向长短时记忆实体抽取模型对剩余语料集进行实体抽取;
其中,第一目标条件:双向长短时记忆实体抽取模型的精确率小于或等于第一阈值,且双向长短时记忆实体抽取模型的召回率小于或等于第二阈值。
5.根据权利要求4所述风洞试验数据异常决策方法,其特征在于,S33具体包括以下步骤:
S3.3.1、对训练集和测试集进行关系标注;
S3.3.2、通过训练集建立基于注意力层的双向长短时记忆关系抽取模型;
S3.3.3、通过测试集验证基于注意力层的双向长短时记忆关系抽取模型;
S3.3.4、设置第二目标条件,若基于注意力层的双向长短时记忆关系抽取模型满足第二目标条件,则通过基于注意力层的双向长短时记忆关系抽取模型对剩余语料集进行关系抽取;
其中,第二目标条件:基于注意力层的双向长短时记忆关系抽取模型的精确率小于或等于第三阈值,且注意力层的双向长短时记忆关系抽取模型的召回率小于或等于第四阈值。
6.根据权利要求4所述风洞试验数据异常决策方法,其特征在于,精确率和召回率的计算公式为:
;
;
其中,Precision为精确率,Recall为召回率;为正确的正例,即一个实例是正类且被判定为正类;/>为错误的正例,即本为假类但判定为正类;/>为正确的反例,即一个实例是假类且被判定为假类。
7.根据权利要求6所述风洞试验数据异常决策方法,其特征在于,相似度是指两个向量夹角的余弦,将文本转化为向量,假定转化后的A和B是两个n维向量,,,则向量A与B的夹角/>的余弦即相似度为:
;
搜索匹配是指计算相似度,值越大就表示越相似;
目标阈值为用户实际使用结果预设的常数值。
8.根据权利要求7所述风洞试验数据异常决策方法,其特征在于,响应于第一输入,在知识图谱中搜索匹配,在匹配不成功的情况下,从第一输入中提取的关键词语句,存储至目标语料集。
9.一种电子设备,其特征在于,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现权利要求1-7任一项所述的风洞试验数据异常决策方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的风洞试验数据异常决策方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310553630.0A CN116542254A (zh) | 2023-05-17 | 2023-05-17 | 风洞试验数据异常决策方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310553630.0A CN116542254A (zh) | 2023-05-17 | 2023-05-17 | 风洞试验数据异常决策方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116542254A true CN116542254A (zh) | 2023-08-04 |
Family
ID=87446743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310553630.0A Pending CN116542254A (zh) | 2023-05-17 | 2023-05-17 | 风洞试验数据异常决策方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116542254A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116992862A (zh) * | 2023-09-26 | 2023-11-03 | 中科航迈数控软件(深圳)有限公司 | 数控机床异常辅助处理方法、装置、设备及介质 |
-
2023
- 2023-05-17 CN CN202310553630.0A patent/CN116542254A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116992862A (zh) * | 2023-09-26 | 2023-11-03 | 中科航迈数控软件(深圳)有限公司 | 数控机床异常辅助处理方法、装置、设备及介质 |
CN116992862B (zh) * | 2023-09-26 | 2024-02-20 | 中科航迈数控软件(深圳)有限公司 | 数控机床异常辅助处理方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN108920445B (zh) | 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN112560478B (zh) | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 | |
CN111368920A (zh) | 基于量子孪生神经网络的二分类方法及其人脸识别方法 | |
CN110688853B (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN113298151A (zh) | 一种基于多级特征融合的遥感图像语义描述方法 | |
WO2020215694A1 (zh) | 一种基于深度学习的中文分词方法、装置、存储介质及计算机设备 | |
CN105810191A (zh) | 融合韵律信息的汉语方言辨识方法 | |
CN110780878A (zh) | 一种基于深度学习进行JavaScript类型推断的方法 | |
CN116542254A (zh) | 风洞试验数据异常决策方法、装置、电子设备及存储介质 | |
CN115081437A (zh) | 基于语言学特征对比学习的机器生成文本检测方法及系统 | |
CN111695335A (zh) | 一种智能面试方法、装置及终端设备 | |
CN111611395A (zh) | 一种实体关系的识别方法及装置 | |
CN111753546B (zh) | 文书信息抽取方法、装置、计算机设备及存储介质 | |
CN111507103B (zh) | 一种利用部分标注集的自训练神经网络分词模型 | |
CN109545186B (zh) | 一种语音识别训练系统及方法 | |
CN114881029B (zh) | 基于混合神经网络的中文文本可读性评价方法 | |
CN114357166B (zh) | 一种基于深度学习的文本分类方法 | |
CN113779199B (zh) | 用于文档和摘要的一致性检测的方法、设备、装置和介质 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN114648029A (zh) | 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法 | |
CN114692615A (zh) | 一种针对小语种的小样本意图识别方法 | |
CN114913871A (zh) | 目标对象分类方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |