CN113268595A - 一种基于实体关系抽取的结构化机场警报处理方法 - Google Patents
一种基于实体关系抽取的结构化机场警报处理方法 Download PDFInfo
- Publication number
- CN113268595A CN113268595A CN202110564234.9A CN202110564234A CN113268595A CN 113268595 A CN113268595 A CN 113268595A CN 202110564234 A CN202110564234 A CN 202110564234A CN 113268595 A CN113268595 A CN 113268595A
- Authority
- CN
- China
- Prior art keywords
- meteorological element
- airport
- output
- weather
- meteorological
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 63
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000004458 analytical method Methods 0.000 claims abstract description 21
- 238000013145 classification model Methods 0.000 claims abstract description 17
- 238000010606 normalization Methods 0.000 claims abstract description 14
- 238000006243 chemical reaction Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000012512 characterization method Methods 0.000 claims description 32
- 238000013507 mapping Methods 0.000 claims description 27
- 230000008859 change Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 16
- 230000002457 bidirectional effect Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 10
- 230000000875 corresponding effect Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000007787 long-term memory Effects 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000012805 post-processing Methods 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 11
- 238000011161 development Methods 0.000 description 10
- 230000033001 locomotion Effects 0.000 description 10
- 239000000284 extract Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 2
- 230000010006 flight Effects 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 208000012661 Dyskinesia Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Human Resources & Organizations (AREA)
- Educational Administration (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于实体关系抽取的结构化机场警报处理方法,包括:获取并预处理机场警报数据,输出非结构化文本数据;构建字典和搜索规则,以及气象要素实体抽取模型,均用于在非结构化文本数据中抽取气象要素实体,并生成气象要素实体集合;以时间和地点为主要对象构建气象要素实体关系分类模型,对气象要素实体进行关系分析,分别确定主要对象与最近天气词语之间的关系,同时根据预设规则,将特殊气象要素实体与对应的天气进行关联并输出关联结果;对输出的关联实体进行时间和单位的归一化换算,最终输出结构化格式的数据。相较于现有技术,本发明极大地提高了管制工作人员在对气象数据处理时的效率。
Description
技术领域
本发明涉及空中交通管制自动化系统技术领域,尤其涉及一种基于实体关系抽取的结构化机场警报处理方法。
背景技术
空中交通管理系统,即空管系统,是有效保障空中交通安全,维护空中交通秩序和实现空中交通顺畅的基础。随着我国经济社会的快速发展,民航运输需求的不断增长,当前空管系统协同处理能力不足、智能化程度较低,难以有效应对日益复杂的空管运行环境,尤其在恶劣天气、流量管制等外部因素的影响下,航班的通行能力急剧下降,航班延误严重,每年所造成的经济损失超过数百亿元,也对社会稳定带来了不利影响。现有的空管系统的数据信息来源以通讯设备、雷达、卫星等感知到的结构化数据为主,未能有效挖掘文本、图像等非结构化数据中蕴含的重要信息,导致其对天气变化和发展的感知能力不足。
机场警报是在危险天气袭击机场附近时由机场气象部门发出的预报,用以防止航空器在飞行时因为恶劣天气,如雷暴、冰雹、大雪、大雾等造成损坏。机场警报内容包括发布单位、发布时间、发布人信息、正文内容等信息,其中正文内容包含了对具体天气信息的描述,以非结构化文本进行描述。机场警报的正文部分对天气类型,出现和持续时间、天气状态变化、能见度变化、受影响的范围和地点进行描述,包括气象态势要素等重要信息。针对机场警报正文中包含的气象态势要素信息,提供智能化的信息抽取技术成为解决空管系统气象信息来源不足的关键。
发明内容
发明目的:本发明通过实体关系抽取和规则方法对机场警报进行结构化处理,提取其中包含的天气要素并形成计算机可读形式,能解析绝大部分在实际工作环境下所产生的非结构化机场警报内容。
技术方案:本发明所提出的一种基于实体关系抽取的结构化机场警报处理方法可以从机场警报正文的非结构化文本中抽取出天气现象、持续时间、强度和方向速度变化等气象态势要素,其实现过程和步骤如下:
步骤1,获取并预处理机场警报数据,输出非结构化文本数据;
步骤2,输入所述非结构化文本数据,构建字典和搜索规则,以及气象要素实体抽取模型,均用于在所述非结构化文本数据中抽取气象要素实体,并生成气象要素实体集合;本发明中,所述气象实体要素类型,比如时间、机场、地点、高度、天气现象、强度、移动速度、移动方向、影响范围等。
步骤3,以时间和地点为主要对象构建气象要素实体关系分类模型,对所述气象要素实体进行关系分析,分别确定所述主要对象与最近天气词语之间的关系,同时根据预设规则,将特殊气象要素实体与对应的天气进行关联并输出关联结果;所述最近天气词语即主要对象与上下文中距离最近的天气词语;
步骤4,对输出的关联实体进行时间和单位的归一化换算,最终输出结构化格式的数据。
进一步地,在一种实现方式中,所述步骤1包括:
步骤1-1,提取所述机场警报数据的有效信息,所述有效信息包括发布单位、发布时间和正文内容;具体的,本发明中,通过所述步骤1-1,对输入的word或pdf形式的机场警报数据按照其文本结构编写正则表达式,以抽取出正文部分和发报时间;
步骤1-2,建立停用词和停用符号库,根据所述停用词和停用符号库删除正文内容中与实体无关的字词、无意义的停用字和不必要的标点符号;将所述正文内容中以字母表示的单位修改为与字母对应的以汉字表示的单位;具体的,本发明中,通过所述步骤1-2对正文内容进行预处理,包括删除“的”、“了”等与实体无关的字词;删除不必要的特殊标点符号,比如逗号、句号等;将字母改成对应的汉字,比如:“km”改成“千米”、“m/s”改成“米/秒”。
步骤1-3,根据正则表达式构建处理规则,输出非结构化文本数据;所述处理规则用于在预处理后的正文内容中提取并移除部分警告内容,所述部分警告内容以预设起始词为起始,以预设结束词为结束。
具体的,本发明中,通过所述步骤1-3对机场警报数据中出现的部分警告内容如与“解除/取消/延长”相关的警告内容进行处理,这类信息内容具有较固定的结构,通常以“解除”、“取消”、“延长”等词语为起始词,以“XX天气警告”或“警告(XX天气)”为结束词,针对这个特点构建基于正则表达式的处理规则:(解除|取消|延长)+\w*(警告|\(\w*警告\))+,将该内容进行提取和移除。
进一步地,在一种实现方式中,所述步骤2包括:
步骤2-1,若所述非结构化文本数据中包含能够通过规则进行气象要素抽取的气象要素实体,比如:天气名称、高度等,针对所述气象要素实体构建字典和搜索规则,在抽取所述气象要素后,生成气象要素实体集合;
本发明中,在机场警报数据中,包含机场名称和天气现象名词的集合是一个有限集,可以通过构建机场名称字典和天气现象字典解决,在对这两类要素信息进行抽取时,构建搜索规则,对机场警报和不同字典中的相同词语进行匹配搜索,可以将相关要素信息提取出来。
步骤2-2,若所述非结构化文本数据中包含无法通过规则抽取的气象要素实体,本发明中,即指除了能够通过规则进行气象要素抽取的气象要素实体的其他气象要素实体,比如:起止时间、运动方向、影响地点等,通过构建气象要素实体抽取模型对所述气象要素实体进行气象要素抽取,对所述步骤1产生的非结构化文本数据进行标注并训练气象要素实体抽取模型。
本发明中,在所述步骤2-2中的标注过程中,使用“BIO”方法对气象态势要素词组进行标注,即使用“B-”表示气象态势要素词组的起始字,使用“I-”表示气象态势要素词组的非起始字,使用“O”表示不属于任何一个气象态势要素的字,比如:“在机场东北20千米处”中,使用标签LOC表示地点词组,则“机场东北20千米处”被标注为“B-LOC I-LOC I-LOCI-LOC I-LOC I-LOC I-LOC I-LOC I-LOC”,而“在”不属于任何气象态势要素,因此被标注为“O”,上面这个短句的标签是“O B-LOC I-LOC I-LOC I-LOC I-LOC I-LOC I-LOC I-LOCI-LOC”。
进一步地,在一种实现方式中,所述步骤2-1包括:
步骤2-1-1,获取搜索关键词,所述搜索关键词为包括机场名称、天气现象词和天气形容词中的一个或多个词语;
步骤2-1-2,根据所述搜索关键词构建字典,所述字典包括机场名称字典和天气现象字典,每个所述词典通过键值对表示;
步骤2-1-3,根据所述搜索关键词构建搜索规则:
根据所述搜索关键词搜索字典,抽取所述非结构化文本数据中出现的气象要素实体,所述气象要素实体包括机场名称、天气现象词和天气形容词;
其中,对抽取出的文本中位置相邻的天气现象词和天气形容词进行合并,形成一个气象要素实体。
进一步地,在一种实现方式中,所述步骤2-2包括:
步骤2-2-1,对所述非结构化文本数据中出现的不同汉字、字母、数字和部分符号进行统计后设计索引序列;
步骤2-2-2,若输入的所述非结构化文本数据的内容中包含的字数最大值为L,每一条输入的所述非结构化文本数据都由两部分表示;
第一部分为所述字典的索引序列映射得到的向量表征:
X=x×WE (1)
其中,x∈R1×L表示索引序列,R表示实数集合,WE∈R1×m表示词向量映射权重矩阵,其中m表示词向量的维度;
第二部分为所述非结构化文本数据中每个字在句子中的位置编码P∈Rm×L,因此X=X+P;
将所述第一部分和第二部分相加后得到输入表示X∈Rm×L,则输入X在气象要素实体抽取模型中的映射层进行表征转化,得到表征结果X∈Rd×L,其中d表示映射层的输出维度;
步骤2-2-3,利用Pytorch框架构建基于BERT-LSTM-Softmax的气象要素实体抽取模型,所述模型如图2所示;其中BERT模型中使用6层编码模块,如图3所示,每一层编码层包括注意力层,利用如下公式计算得到注意力层的输入:
Q=X×WQ (2)
K=X×WK (3)
V=X×WV (4)
其中,Q代表Query向量,K代表Key向量,V代表Value向量,WQ、WK和WV分别为注意力层的输入转换矩阵,所述非结构化文本数据的内容中的每一个字的语义都受到其他字的影响,而注意力值的大小表示影响程度,所述每一个字在经过注意力层之后的输出是:
其中,dk是缩放因子,缩放因子dk的大小与映射层的输出维度d相同,softmax函数用于对输出的注意力值进行归一化,输出结果Attention(Q,K,V)表示表征结果X经过上下文信息的影响后得到的深层语义表征;
在BERT模型中使用多头注意力机制集成更多的信息,本实施例中,通过使用多头注意力机制,能够使结果更精确,假设单头注意力定义为:
headi=Attention(Q,K,V) (6)
则所述多头注意力定义为:
MultiHead(Q,K,V)=Concat(head1,head2,...,headn)WO (7)
其中,Concat()表示对多个注意力头进行拼接计算,WO是转换矩阵,经过多头注意力计算后输出的表征与输入表征进行相加,得到X=X+MultiHead(Q,K,V),然后通过全连接层进行文本语义表征数据的整合,再与输入相加,得到单个编码层输出:
FFN(X)=X+max(0,XW1+b1)W2+b2 (8)
其中,W1和W2是全连接层的转换矩阵,b1和b2是偏置参数,由此得到BERT模型一层的输出,每一个编码层的输出都是下一层的输入;最后得到BERT模型的输出X∈Rd×L;
步骤2-2-4,将所述BERT模型的输出输入进双向长短期记忆网络(LSTM)模型计算,如图4所示,所述双向长短期记忆网络模型包含三个门:遗忘门、输入门和输出门,以及一个内部状态,所述双向长短期记忆网络模型通过这些门控制信息的积累速度,并有选择地加入新的信息或遗忘之前积累的信息,并对输入数据进行编码;
假设所述双向长短期记忆网络模型在t时刻的隐层状态是ht,内部状态是ct,所述遗忘门、输入门和输出门的输出信息分别是ft,it和ot,输入是xt,则当前时刻的隐藏状态ht由以下数学公式得到:
ft=σ(Wfxt+Ufht-1+bf)
it=σ(Wixt+Uiht-1+bi)
ot=σ(Woxt+Uoht-1+bo)
步骤2-2-5,在基于BERT-LSTM-Softmax的气象要素实体抽取模型构建完成后,使用标注的机场警报文本数据进行训练,得到训练后的气象要素实体抽取模型,用于从所述机场警报的正文内容中抽取出气象要素信息,并生成气象要素实体集合。
进一步地,在一种实现方式中,所述步骤3包括:
步骤3-1,按照以下方式,对抽取获得的所述气象要素实体进行预处理,生成可用于关系分析的形式:
在对输入的所述非结构化文本数据的内容中得到气象要素实体之后,使用标签#和标签$分别标注出需要分析关系的两个气象要素实体;若所述两个气象要素实体之间相互关联,使用所述标签1进行标注;若两个气象要素之间不关联,使用所述标签0进行标注;
具体的,本发明中,本发明中,通过步骤3对步骤2得到的气象要素之间的关系进行分析和判断,针对不同类型的气象要素进行分析,得到如下结论:
1)时间、地点、机场等要素与所有出现的天气现象要素之间产生关联;
2)移动速度、移动方向、强度变化等要素通常与强对流天气,如:雷暴云团、对流云团等或与风天气,如:西北风、阵风等产生关系;
3)高度要素通常与能见度、跑道视程(RVR)、云底高等天气现象产生关系,根据以上的特点构建气象要素间的关系分析方法。
而针对结论2)和3)构建关系关联规则,由于移动速度、移动方向、强度变化等要素通常出现在与其相关联的特殊天气现象之后,并且与距离最近的天气现象相关;而高度要素与上文中最近的能见度、RVR、云底高等天气现象相关,因此构建以下规则:
规则1:移动速度、移动方向、强度变化要素与上文信息中距离最近的强对流天气或风天气关联;
规则2:动作词语要素与上文信息中距离最近的天气关联,因为机场警报中的动词较少,只有“影响”、“移动”、“移出”、“出现”、“消失”等词语,因此可以根据具体的动词构建规则,其中,“影响”与下文出现的距离最近的地点要素产生关联,其他四个动词都只表示天气现象的状态变化;
规则3:高度要素与上文信息中距离最近的能见度、RVR、云底高等天气现象关联。
使用以上规则即可以处理部分天气要素与天气现象之间的关系。
而针对结论1)构建关系分析模型,可以发现任意一个天气现象都与上下文中距离最近的时间、地点等要素相关联,且相连接的多个天气现象都具有相同的实体关系,比如:在“预计在3月20日出现大雾,能见度下降到300米,RVR下降到350米”中出现的“大雾”、“能见度”和“RVR”都与时间要素“3月20日”间关联,因此只需要判断其中一个天气现象与上下文中距离最近的时间、地点要素之间是否存在关系即可。
本发明中,首先对数据进行预处理,生成可用于关系分析的形式,在对输入的机场警报文本数据中得到气象要素之后,使用符号“#”和“$”标注出需要分析关系的两个气象要素实体,比如:机场警报“预计#3月20日#出现大雾,$能见度$下降到300米,RVR下降到350米”是判断时间要素“3月20日”和天气现象词语“能见度”之间关系的输入格式,对数据进行标注,标签为“1”和“0”,其中“1”表示两个气象要素之间相互关联,“0”表示两个气象要素之间不关联。
步骤3-2,通过构建BERT-Softmax关系分类模型实现气象态势要素的关系分析功能;所述BERT-Softmax关系分类模型如图5所示,首先对输入的所述非结构化文本数据进行表征处理,所述表征处理的方法与步骤2-2中的式(1)相同,对BERT模型的构建也与所述步骤2的相同,针对输入的所述非结构化文本数据的内容,根据所述索引序列x∈R1×L,确定所述非结构化文本数据输入BERT模型的表征序列为X∈Rm×L,经过BERT后得到第一输出结果X∈Rd×L,然后对所述非结构化文本数据的深层表征X[CLS]、两个气象要素实体的深层表征X[1]和X[2]进行处理,过程如下:
所述非结构化文本数据的深层表征X[CLS]∈Rd×1在BERT模型输出表征序列的最左边的位置,且已知任意两个所述气象要素实体的位置;具体的,本发明中,因为在对所述机场警报进行气象要素抽取后,就已经知道气象要素实体在句子中的位置,并在进行关系分析前使用标签#和标签$进行了位置标记,即已知所述气象要素实体的位置信息。
由于一个气象要素实体包含多个字,若其中一个所述气象要素实体包含l个字,则表示所述气象要素实体输出的表征序列是:X1,X2,…,Xl∈Rd×1,若直接对所述表征序列进行拼接会导致维度变化,因此对所述表征序列进行平均处理,即:
利用以上处理对BERT输出的气象要素实体的表征序列进行处理后,得到所述气象要素实体的深层表征X[1],X[2]∈Rd×1;
分别将所述非结构化文本数据的深层表征X[CLS]和两个气象要素实体的深层表征X[1],X[2]输入映射层,得到第二输出结果:
X[CLS]=WCLS(tanh(X[CLS]))+bCLS (13)
X[1]=W1(tanh(X[1]))+b1 (14)
X[2]=W2(tanh(X[2]))+b2 (15)
其中,WCLS、W1、W2∈Rd′×d分别是不同映射层的转换矩阵,bCLS、b1、b2∈Rd′×1则分别是每个转换矩阵的偏置参数,是非线性激活函数,则经过映射层输出的结果满足维度:X[CLS],X[1],X[2]∈Rd′×1,随后输入拼接映射层,得到第三输出结果:
Y=Wp(tanh(||[X[CLS],X[1],X[2]]))+bp (16)
其中,||[X[CLS],X[1],X[2]]∈R3·d′×1表示将X[CLS],X[1],X[2]进行拼接,Wp∈R3·d′×2是转换矩阵,bp∈R2×1是偏置参数;
再对Y∈R2×1进行softmax归一化处理,得到标签1或标签0的概率;
步骤3-3,在所述BERT-Softmax关系分类模型构建完成后,使用标注的机场警报关系分类数据进行训练,得到训练后的BERT-Softmax关系分类模型用于从所述非结构化文本数据的正文内容中对抽取出的气象要素进行关系分类;
步骤3-4,将具有关系的气象要素关联在一起,以时间要素为最优先级,天气现象为次优先级,其他天气要素与天气现象词语关联的顺序构建结构化输出。
进一步地,在一种实现方式中,所述步骤4包括:
对所述步骤3的输出进行归一化后处理,将其中的时间要素形式进行归一化处理,转换成预设格式;本发明中,所述预设格式包括如“xxxx/xx/xx xx:xx”,即“年/月/日时:分”的格式。
对不同高度或速度单位的数据进行换算,以预设标准单位进行统一处理,本发明中,如将“米”和“米/秒”为预设标准单位,并生成最终的结构化输出;
按照时间对所述结构化输出进行切分,即在不同时间段以天气现象词语为主,具体的,本发明中,比如:风、雨、雷暴云团等,地点、高度、移动方向、移动速度、范围、强度变化和动作词语要素为辅,具体的,本发明中,比如:影响、移动、结束等,构成以下结构化输出的形式:
{
时间1:[
{天气:**,地点:**,移动方向:**,高度:**,…}
{天气:**,地点:**,移动方向:**,高度:**,…}
…];
时间2:[
{天气:**,地点:**,移动方向:**,高度:**,…}
{天气:**,地点:**,移动方向:**,高度:**,…}
…];
…}。
本发明可应用于空中交通管制系统中对机场警报的语义理解和主要信息提取,相较于现有技术,具有如下技术效果:
首先,让计算机自动处理机场警报数据,从中抽取出重要的气象要素信息;
其次,能够分析某一个时间段中某机场上空的气象变化情况和影响情况;
此外,为气象辅助决策系统提供结构化气象数据的支撑。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为基于知识抽取的机场警报智能处理总流程图;
图2为BERT-LSTM-Softmax模型结构图;
图3为BERT中的编码模块结构图;
图4为长短期记忆网络结构图;
图5为BERT-Softmax关系分类模型结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例公开一种基于实体关系抽取的结构化机场警报处理方法,本方法应用于机场运行状态评估,机场运行状态很大程度上受机场周围天气状态的影响,机场警报作为一类描述天气态势变化的数据,可通过本专利方法抽取结构化信息,辅助评估机场的运行状态。
下面结合附图及实施例对本发明做进一步说明,本发明提供了一种基于实体关系抽取的结构化机场警报处理方法,能够从机场警报文本数据中提取出结构化的重要气象信息,步骤如下:
步骤1,获取并预处理机场警报数据,输出非结构化文本数据;
步骤2,输入所述非结构化文本数据,构建字典和搜索规则,以及气象要素实体抽取模型,均用于在所述非结构化文本数据中抽取气象要素实体,并生成气象要素实体集合;本实施例中,所述气象实体要素类型,比如时间、机场、地点、高度、天气现象、强度、移动速度、移动方向、影响范围等。
步骤3,以时间和地点为主要对象构建气象要素实体关系分类模型,对所述气象要素实体进行关系分析,分别确定所述主要对象与最近天气词语之间的关系,同时根据预设规则,将特殊气象要素实体与对应的天气进行关联并输出关联结果;所述最近天气词语即主要对象与上下文中距离最近的天气词语;
步骤4,对输出的关联实体进行时间和单位的归一化换算,最终输出结构化格式的数据。
本实施例中,如图1所示,即通过预处理模块实现所述步骤1,通过实体抽取模块实现所述步骤2,通过关系分析模块实现所述步骤3,通过归一化处理模块实现所述步骤4。
本实施例所述的一种基于实体关系抽取的结构化机场警报处理方法中,所述步骤1包括:
步骤1-1,提取所述机场警报数据的有效信息,所述有效信息包括发布单位、发布时间和正文内容;具体的,本实施例中,通过所述步骤1-1,对输入的word或pdf形式的机场警报数据按照其文本结构编写正则表达式,以抽取出正文部分和发报时间;
步骤1-2,建立停用词和停用符号库,根据所述停用词和停用符号库删除正文内容中与实体无关的字词、无意义的停用字和不必要的标点符号;将所述正文内容中以字母表示的单位修改为与字母对应的以汉字表示的单位;具体的,本实施例中,通过所述步骤1-2对正文内容进行预处理,包括删除“的”、“了”等与实体无关的字词;删除不必要的特殊标点符号,比如逗号、句号等;将字母改成对应的汉字,比如:“km”改成“千米”、“m/s”改成“米/秒”。
步骤1-3,根据正则表达式构建处理规则,输出非结构化文本数据;所述处理规则用于在预处理后的正文内容中提取并移除部分警告内容,所述部分警告内容以预设起始词为起始,以预设结束词为结束。
具体的,本实施例中,通过所述步骤1-3对机场警报数据中出现的部分警告内容如与“解除/取消/延长”相关的警告内容进行处理,这类信息内容具有较固定的结构,通常以“解除”、“取消”、“延长”等词语为起始词,以“XX天气警告”或“警告(XX天气)”为结束词,针对这个特点构建基于正则表达式的处理规则:(解除|取消|延长)+\w*(警告|\(\w*警告\))+,将该内容进行提取和移除。
本实施例所述的一种基于实体关系抽取的结构化机场警报处理方法中,所述步骤2包括:
步骤2-1,若所述非结构化文本数据中包含能够通过规则进行气象要素抽取的气象要素实体,比如:天气名称、高度等,针对所述气象要素实体构建字典和搜索规则,在抽取所述气象要素后,生成气象要素实体集合;
本实施例中,在机场警报数据中,包含机场名称和天气现象名词的集合是一个有限集,可以通过构建机场名称字典和天气现象字典解决,在对这两类要素信息进行抽取时,构建搜索规则,对机场警报和不同字典中的相同词语进行匹配搜索,可以将相关要素信息提取出来。
步骤2-2,若所述非结构化文本数据中包含无法通过规则抽取的气象要素实体,本实施例中,即指除了能够通过规则进行气象要素抽取的气象要素实体的其他气象要素实体,比如:起止时间、运动方向、影响地点等,通过构建气象要素实体抽取模型对所述气象要素实体进行气象要素抽取,对所述步骤1产生的非结构化文本数据进行标注并训练气象要素实体抽取模型。
本实施例中,在所述步骤2-2中的标注过程中,使用“BIO”方法对气象态势要素词组进行标注,即使用“B-”表示气象态势要素词组的起始字,使用“I-”表示气象态势要素词组的非起始字,使用“O”表示不属于任何一个气象态势要素的字,比如:“在机场东北20千米处”中,使用标签LOC表示地点词组,则“机场东北20千米处”被标注为“B-LOC I-LOC I-LOCI-LOC I-LOC I-LOC I-LOC I-LOC I-LOC”,而“在”不属于任何气象态势要素,因此被标注为“O”,上面这个短句的标签是“O B-LOC I-LOC I-LOC I-LOC I-LOC I-LOC I-LOC I-LOCI-LOC”。
本实施例所述的一种基于实体关系抽取的结构化机场警报处理方法中,所述步骤2-1包括:
步骤2-1-1,获取搜索关键词,所述搜索关键词为包括机场名称、天气现象词和天气形容词中的一个或多个词语;
步骤2-1-2,根据所述搜索关键词构建字典,所述字典包括机场名称字典和天气现象字典,每个所述词典通过键值对表示;
步骤2-1-3,根据所述搜索关键词构建搜索规则:
根据所述搜索关键词搜索字典,抽取所述非结构化文本数据中出现的气象要素实体,所述气象要素实体包括机场名称、天气现象词和天气形容词;
其中,对抽取出的文本中位置相邻的天气现象词和天气形容词进行合并,形成一个气象要素实体。
本实施例所述的一种基于实体关系抽取的结构化机场警报处理方法中,所述步骤2-2包括:
步骤2-2-1,对所述非结构化文本数据中出现的不同汉字、字母、数字和部分符号进行统计后设计索引序列;
步骤2-2-2,若输入的所述非结构化文本数据的内容中包含的字数最大值为L,每一条输入的所述非结构化文本数据都由两部分表示;
第一部分为所述字典的索引序列映射得到的向量表征:
X=x×WE (1)
其中,x∈R1×L表示索引序列,R表示实数集合,WE∈R1×m表示词向量映射权重矩阵,其中m表示词向量的维度;
第二部分为所述非结构化文本数据中每个字在句子中的位置编码P∈Rm×L,因此X=X+P;
将所述第一部分和第二部分相加后得到输入表示X∈Rm×L,则输入X在气象要素实体抽取模型中的映射层进行表征转化,得到表征结果X∈Rd×L,其中d表示映射层的输出维度;
步骤2-2-3,利用Pytorch框架构建基于BERT-LSTM-Softmax的气象要素实体抽取模型,所述模型如图2所示;其中BERT模型中使用6层编码模块,如图3所示,每一层编码层包括注意力层,利用如下公式计算得到注意力层的输入:
Q=X×WQ (2)
K=X×WK (3)
V=X×WV (4)
其中,Q代表Query向量,K代表Key向量,V代表Value向量,WQ、WK和WV分别为注意力层的输入转换矩阵,所述非结构化文本数据的内容中的每一个字的语义都受到其他字的影响,而注意力值的大小表示影响程度,所述每一个字在经过注意力层之后的输出是:
其中,dk是缩放因子,缩放因子dk的大小与映射层的输出维度d相同,softmax函数用于对输出的注意力值进行归一化,输出结果Attention(Q,K,V)表示表征结果X经过上下文信息的影响后得到的深层语义表征;
在BERT模型中使用多头注意力机制集成更多的信息,本实施例中,通过使用多头注意力机制,能够使结果更精确,假设单头注意力定义为:
headi=Attention(Q,K,V) (6)
则所述多头注意力定义为:
MultiHead(Q,K,V)=Concat(head1,head2,...,headn)WO (7)
其中,Concat()表示对多个注意力头进行拼接计算,WO是转换矩阵,经过多头注意力计算后输出的表征与输入表征进行相加,得到X=X+MultiHead(Q,K,V),然后通过全连接层进行文本语义表征数据的整合,再与输入相加,得到单个编码层输出:
FFN(X)=X+max(0,XW1+b1)W2+b2 (8)
其中,W1和W2是全连接层的转换矩阵,b1和b2是偏置参数,由此得到BERT模型一层的输出,每一个编码层的输出都是下一层的输入;最后得到BERT模型的输出X∈Rd×L;
步骤2-2-4,将所述BERT模型的输出输入进双向长短期记忆网络(LSTM)模型计算,如图4所示,所述双向长短期记忆网络模型包含三个门:遗忘门、输入门和输出门,以及一个内部状态,所述双向长短期记忆网络模型通过这些门控制信息的积累速度,并有选择地加入新的信息或遗忘之前积累的信息,并对输入数据进行编码;
假设所述双向长短期记忆网络模型在t时刻的隐层状态是ht,内部状态是ct,所述遗忘门、输入门和输出门的输出信息分别是ft,it和ot,输入是xt,则当前时刻的隐藏状态ht由以下数学公式得到:
ft=σ(Wfxt+Ufht-1+bf)
it=σ(Wixt+Uiht-1+bi)
ot=σ(Woxt+Uoht-1+bo)
步骤2-2-5,在基于BERT-LSTM-Softmax的气象要素实体抽取模型构建完成后,使用标注的机场警报文本数据进行训练,得到训练后的气象要素实体抽取模型,用于从所述机场警报的正文内容中抽取出气象要素信息,并生成气象要素实体集合。
本实施例所述的一种基于实体关系抽取的结构化机场警报处理方法中,所述步骤3包括:
步骤3-1,按照以下方式,对抽取获得的所述气象要素实体进行预处理,生成可用于关系分析的形式:
在对输入的所述非结构化文本数据的内容中得到气象要素实体之后,使用标签1和标签0分别标注出需要分析关系的两个气象要素实体;若所述两个气象要素实体之间相互关联,使用所述标签1进行标注;若两个气象要素之间不关联,使用所述标签0进行标注;
具体的,本实施例中,本实施例中,通过步骤3对步骤2得到的气象要素之间的关系进行分析和判断,针对不同类型的气象要素进行分析,得到如下结论:
1)时间、地点、机场等要素与所有出现的天气现象要素之间产生关联;
2)移动速度、移动方向、强度变化等要素通常与强对流天气,如:雷暴云团、对流云团等或与风天气,如:西北风、阵风等产生关系;
3)高度要素通常与能见度、跑道视程(RVR)、云底高等天气现象产生关系,根据以上的特点构建气象要素间的关系分析方法。
而针对结论2)和3)构建关系关联规则,由于移动速度、移动方向、强度变化等要素通常出现在与其相关联的特殊天气现象之后,并且与距离最近的天气现象相关;而高度要素与上文中最近的能见度、RVR、云底高等天气现象相关,因此构建以下规则:
规则1:移动速度、移动方向、强度变化要素与上文信息中距离最近的强对流天气或风天气关联;
规则2:动作词语要素与上文信息中距离最近的天气关联,因为机场警报中的动词较少,只有“影响”、“移动”、“移出”、“出现”、“消失”等词语,因此可以根据具体的动词构建规则,其中,“影响”与下文出现的距离最近的地点要素产生关联,其他四个动词都只表示天气现象的状态变化;
规则3:高度要素与上文信息中距离最近的能见度、RVR、云底高等天气现象关联。
使用以上规则即可以处理部分天气要素与天气现象之间的关系。
而针对结论1)构建关系分析模型,可以发现任意一个天气现象都与上下文中距离最近的时间、地点等要素相关联,且相连接的多个天气现象都具有相同的实体关系,比如:在“预计在3月20日出现大雾,能见度下降到300米,RVR下降到350米”中出现的“大雾”、“能见度”和“RVR”都与时间要素“3月20日”间关联,因此只需要判断其中一个天气现象与上下文中距离最近的时间、地点要素之间是否存在关系即可。
本实施例中,首先对数据进行预处理,生成可用于关系分析的形式,在对输入的机场警报文本数据中得到气象要素之后,使用符号“#”和“$”标注出需要分析关系的两个气象要素实体,比如:机场警报“预计#3月20日#出现大雾,$能见度$下降到300米,RVR下降到350米”是判断时间要素“3月20日”和天气现象词语“能见度”之间关系的输入格式,对数据进行标注,标签为“1”和“0”,其中“1”表示两个气象要素之间相互关联,“0”表示两个气象要素之间不关联。
步骤3-2,通过构建BERT-Softmax关系分类模型实现气象态势要素的关系分析功能;所述BERT-Softmax关系分类模型如图5所示,首先对输入的所述非结构化文本数据进行表征处理,所述表征处理的方法与步骤2-2中的式(1)相同,对BERT模型的构建也与所述步骤2的相同,针对输入的所述非结构化文本数据的内容,根据所述索引序列x∈R1×L,确定所述非结构化文本数据输入BERT模型的表征序列为X∈Rm×L,经过BERT后得到第一输出结果X∈Rd×L,然后对所述非结构化文本数据的深层表征X[CLS]、两个气象要素实体的深层表征X[1]和X[2]进行处理,过程如下:
所述非结构化文本数据的深层表征X[CLS]∈Rd×1在BERT模型输出表征序列的最左边的位置,且已知任意两个所述气象要素实体的位置;具体的,本实施例中,因为在对所述机场警报进行气象要素抽取后,就已经知道气象要素实体在句子中的位置,并在进行关系分析前使用标签1和标签0进行了位置标记,即已知所述气象要素实体的位置信息。
由于一个气象要素实体包含多个字,若其中一个所述气象要素实体包含l个字,则表示所述气象要素实体输出的表征序列是:X1,X2,…,Xl∈Rd×1,若直接对所述表征序列进行拼接会导致维度变化,因此对所述表征序列进行平均处理,即:
利用以上处理对BERT输出的气象要素实体的表征序列进行处理后,得到所述气象要素实体的深层表征X[1],X[2]∈Rd×1;
分别将所述非结构化文本数据的深层表征X[CLS]和两个气象要素实体的深层表征X[1],X[2]输入映射层,得到第二输出结果:
X[CLS]=WCLS(tanh(X[CLS]))+bCLS (13)
X[1]=W1(tanh(X[1]))+b1 (14)
X[2]=W2(tanh(X[2]))+b2 (15)
其中,WCLS、W1、W2∈Rd′×d分别是不同映射层的转换矩阵,bCLS、b1、b2∈Rd′×1则分别是每个转换矩阵的偏置参数,是非线性激活函数,则经过映射层输出的结果满足维度:X[CLS],X[1],X[2]∈Rd′×1,随后输入拼接映射层,得到第三输出结果:
Y=Wp(tanh(||[X[CLS],X[1],X[2]]))+bp (16)
其中,||[X[CLS],X[1],X[2]]∈R3·d′×1表示将X[CLS],X[1],X[2]进行拼接,Wp∈R3·d′×2是转换矩阵,bp∈R2×1是偏置参数;
再对Y∈R2×1进行softmax归一化处理,得到标签1或标签0的概率;
步骤3-3,在所述BERT-Softmax关系分类模型构建完成后,使用标注的机场警报关系分类数据进行训练,得到训练后的BERT-Softmax关系分类模型用于从所述非结构化文本数据的正文内容中对抽取出的气象要素进行关系分类;
步骤3-4,将具有关系的气象要素关联在一起,以时间要素为最优先级,天气现象为次优先级,其他天气要素与天气现象词语关联的顺序构建结构化输出。
本实施例所述的一种基于实体关系抽取的结构化机场警报处理方法中,所述步骤4包括:
对所述步骤3的输出进行归一化后处理,将其中的时间要素形式进行归一化处理,转换成预设格式;本实施例中,所述预设格式包括如“xxxx/xx/xx xx:xx”,即“年/月/日时:分”的格式。
对不同高度或速度单位的数据进行换算,以预设标准单位进行统一处理,本实施例中,如将“米”和“米/秒”为预设标准单位,并生成最终的结构化输出;
按照时间对所述结构化输出进行切分,即在不同时间段以天气现象词语为主,具体的,本实施例中,比如:风、雨、雷暴云团等,地点、高度、移动方向、移动速度、范围、强度变化和动作词语要素为辅,具体的,本实施例中,比如:影响、移动、结束等,构成以下结构化输出的形式:
{
时间1:[
{天气:**,地点:**,移动方向:**,高度:**,…}
{天气:**,地点:**,移动方向:**,高度:**,…}
…];
时间2:[
{天气:**,地点:**,移动方向:**,高度:**,…}
{天气:**,地点:**,移动方向:**,高度:**,…}
…];
…}。
实施例:
下面结合机场警报的使用案例对本发明作进一步的详细描述,首先给出机场警报的例子:
由于机场警报具有一定的格式,因此在处理后可以得到以上格式,其中正文内容是非结构化形式,以下的描述按照图1的流程进行说明。
对机场警报的正文部分进行预处理,删除“的”、“等”、“北京时间”等词语以及一些不必要的符号,并对案例中的“km”变换成“千米”,输出:
“目前本场西南面20-60千米范围内有对流云发展以约100-120千米/小时速度向东北方向移动预计11日12:20-13:00影响机场跑道和北头延长线有小到中雷雨并伴有大风颠簸风切变”
由于该报文中没有出现警告内容,因此抽取的警告结果为空。
使用搜索规则抽取出气象态势要素:对流云发展(天气现象)、小到中雷雨(天气现象)、大风(天气现象)、颠簸(天气现象)、风切变(天气现象)以及它们在句子中的位置信息;
使用BERT-LSTM-Softmax实体抽取模型抽取出以下气象态势要素:目前(时间)、本场西南面20-60千米范围内(地点)、100-120千米/小时(速度)、东北方向(移动方向)、移动(动作)、11日12:20-13:00(时间)、影响(动作)、机场跑道和北头延长线(地点)以及它们在句子中的位置信息,最终输出气象要素实体集合:
目前(时间)(0,1)、本场西南面20-60千米范围内(地点)(2,16)、对流云发展(天气现象)(18,22)、100-120千米/小时(移动速度)(25,36)、东北方向(移动方向)(40,43)、移动(动作)(44,45)、11日12:20-13:00(时间)(48,61)、影响(动作)(62,63)、机场跑道和北头延长线(地点)(64,73)、小到中雷雨(天气现象)(75,79)、大风(天气现象)(83,84)、颠簸(天气现象)(85,86)、风切变(天气现象)(87,89)。
以上输出的气象态势要素包括两个参数:第一个括号中是类别、第二个是词组在句子中的位置。
通过构建的字典可知:对流云发展属于强对流天气,因此根据规则可知移动速度、移动方向与其相关,而动作词语则与其上文中距离最近的天气词语相关,因此,“移动”和“影响”都与对流云发展有关联,同时需要判断时间、地点与不同天气现象词语间的关系,其中最后出现的四个天气现象词语位置紧靠在一起,因此可以视为它们与时间和地点要素的关系是保持一致的。因此只需要判断离时间或地点最近的一个词的关系即可,经过处理得到以下句子:
(1)#目前#本场西南面20-60千米范围内有$对流云发展$以约100-120千米/小时速度向东北方向移动预计11日12:20-13:00影响机场跑道和北头延长线有小到中雷雨并伴有大风颠簸风切变
(2)目前本场西南面20-60千米范围内有#对流云发展#以约100-120千米/小时速度向东北方向移动预计$11日12:20-13:00$影响机场跑道和北头延长线有小到中雷雨并伴有大风颠簸风切变
(3)目前本场西南面20-60千米范围内有对流云发展以约100-120千米/小时速度向东北方向移动预计#11日12:20-13:00#影响机场跑道和北头延长线有$小到中雷雨$并伴有大风颠簸风切变
(4)目前#本场西南面20-60千米范围内#有$对流云发展$以约100-120千米/小时速度向东北方向移动预计11日12:20-13:00影响机场跑道和北头延长线有小到中雷雨并伴有大风颠簸风切变
(5)目前本场西南面20-60千米范围内有#对流云发展#以约100-120千米/小时速度向东北方向移动预计11日12:20-13:00影响$机场跑道和北头延长线$有小到中雷雨并伴有大风颠簸风切变
(6)目前本场西南面20-60千米范围内有对流云发展以约100-120千米/小时速度向东北方向移动预计11日12:20-13:00影响#机场跑道和北头延长线#有$小到中雷雨$并伴有大风颠簸风切变
以上的6个句子中,“#”和“$”符号之间的分别是第一个目标要素和第二个目标要素,其中(1)-(3)判断不同的目标天气现象词语与相应的时间要素之间是否存在关联,而(4)-(6)判断不同的目标天气现象词语与地点要素之间是否存在关联。分别经过训练好的BERT-Softmax关系分类模型处理,得到输出的关系类别:“1”、“1”、“1”、“1”、“1”、“0”,其中,“1”表示输入句子中的两个要素之间存在关联,而“0”表示不存在关联。
根据规则,动词“影响”与下文中的地点“机场跑道和北头延长线”关联。
对关联的天气要素进行归一化处理,将时间要素“目前”替换为报文的发布时间,并对“千米”、“千米/小时”等量词进行转换,并输出结构化形式数据:
本发明提供了一种基于实体关系抽取的结构化机场警报处理方法,通过对非结构化的机场警报文本数据进行处理,提取并关联时间、天气现象、地点等气象态势要素信息,可应用于空中交通管制系统中对机场警报的语义理解和主要信息提取,也可应用于机场气象辅助决策系统中,为管制工作人员提供恶劣天气现象的自动识别和告警功能,相较于现有技术,具有如下技术效果:首先,让计算机自动处理机场警报数据,从中抽取出重要的气象要素信息;其次,能够分析某一个时间段中某机场上空的气象变化情况和影响情况;此外,为气象辅助决策系统提供结构化气象数据的支撑。因此,本方法的优点在于可对非结构化的机场警报数据进行结构化处理,并将结构输入气象辅助系统,不需要人为理解和处理,故本发明极大地提高了管制工作人员在对气象数据处理时的效率。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的一种基于实体关系抽取的结构化机场警报处理方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(random access memory,RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。
Claims (7)
1.一种基于实体关系抽取的结构化机场警报处理方法,其特征在于,包括如下步骤:
步骤1,获取并预处理机场警报数据,输出非结构化文本数据;
步骤2,输入所述非结构化文本数据,构建字典和搜索规则,以及气象要素实体抽取模型,均用于在所述非结构化文本数据中抽取气象要素实体,并生成气象要素实体集合;
步骤3,以时间和地点为主要对象构建气象要素实体关系分类模型,对所述气象要素实体进行关系分析,分别确定所述主要对象与最近天气词语之间的关系,同时根据预设规则,将特殊气象要素实体与对应的天气进行关联并输出关联结果;所述最近天气词语即主要对象与上下文中距离最近的天气词语;
步骤4,对输出的关联实体进行时间和单位的归一化换算,最终输出结构化格式的数据。
2.根据权利要求1中所述的一种基于实体关系抽取的结构化机场警报处理方法,其特征在于,所述步骤1包括:
步骤1-1,提取所述机场警报数据的有效信息,所述有效信息包括发布单位、发布时间和正文内容;
步骤1-2,建立停用词和停用符号库,根据所述停用词和停用符号库删除正文内容中与实体无关的字词、无意义的停用字和不必要的标点符号;将所述正文内容中以字母表示的单位修改为与字母对应的以汉字表示的单位;
步骤1-3,根据正则表达式构建处理规则,输出非结构化文本数据;所述处理规则用于在预处理后的正文内容中提取并移除部分警告内容,所述部分警告内容以预设起始词为起始,以预设结束词为结束。
3.根据权利要求1中所述的一种基于实体关系抽取的结构化机场警报处理方法,其特征在于,所述步骤2包括:
步骤2-1,若所述非结构化文本数据中包含能够通过规则进行气象要素抽取的气象要素实体,针对所述气象要素实体构建字典和搜索规则,在抽取所述气象要素后,生成气象要素实体集合;
步骤2-2,若所述非结构化文本数据中包含无法通过规则抽取的气象要素实体,通过构建气象要素实体抽取模型对所述气象要素实体进行气象要素抽取,对所述步骤1产生的非结构化文本数据进行标注并训练气象要素实体抽取模型。
4.根据权利要求3中所述的一种基于实体关系抽取的结构化机场警报处理方法,其特征在于,所述步骤2-1包括:
步骤2-1-1,获取搜索关键词,所述搜索关键词为包括机场名称、天气现象词和天气形容词中的一个或多个词语;
步骤2-1-2,根据所述搜索关键词构建字典,所述字典包括机场名称字典和天气现象字典,每个所述词典通过键值对表示;
步骤2-1-3,根据所述搜索关键词构建搜索规则:
根据所述搜索关键词搜索字典,抽取所述非结构化文本数据中出现的气象要素实体,所述气象要素实体包括机场名称、天气现象词和天气形容词;
其中,对抽取出的文本中位置相邻的天气现象词和天气形容词进行合并,形成一个气象要素实体。
5.根据权利要求1中所述的一种基于实体关系抽取的结构化机场警报处理方法,其特征在于,所述步骤2-2包括:
步骤2-2-1,对所述非结构化文本数据中出现的不同汉字、字母、数字和部分符号进行统计后设计索引序列;
步骤2-2-2,若输入的所述非结构化文本数据的内容中包含的字数最大值为L,每一条输入的所述非结构化文本数据都由两部分表示;
第一部分为所述字典的索引序列映射得到的向量表征:
X=x×WE (1)
其中,x∈R1×L表示索引序列,R表示实数集合,WE∈R1×m表示词向量映射权重矩阵,其中m表示词向量的维度;
第二部分为所述非结构化文本数据中每个字在句子中的位置编码P∈Rm×L,因此X=X+P;
将所述第一部分和第二部分相加后得到输入表示X∈Rm×L,则输入X在气象要素实体抽取模型中的映射层进行表征转化,得到表征结果X∈Rd×L,其中d表示映射层的输出维度;
步骤2-2-3,利用Pytorch框架构建基于BERT-LSTM-Softmax的气象要素实体抽取模型,其中BERT模型中使用6层编码模块,每一层编码层包括注意力层,利用如下公式计算得到注意力层的输入:
Q=X×WQ (2)
K=X×WK (3)
V=X×WV (4)
其中,Q代表Query向量,K代表Key向量,V代表Value向量,WQ、WK和WV分别为注意力层的输入转换矩阵,所述非结构化文本数据的内容中的每一个字的语义都受到其他字的影响,而注意力值的大小表示影响程度,所述每一个字在经过注意力层之后的输出是:
其中,dk是缩放因子,缩放因子dk的大小与映射层的输出维度d相同,softmax函数用于对输出的注意力值进行归一化,输出结果Attention(Q,K,V)表示表征结果X经过上下文信息的影响后得到的深层语义表征;
在BERT模型中使用多头注意力机制集成更多的信息,假设单头注意力定义为:
headi=Attention(Q,K,V) (6)
则所述多头注意力定义为:
MultiHead(Q,K,V)=Concat(head1,head2,...,headn)WO (7)
其中,Concat()表示对多个注意力头进行拼接计算,WO是转换矩阵,经过多头注意力计算后输出的表征与输入表征进行相加,得到X=X+MultiHead(Q,K,V),然后通过全连接层进行文本语义表征数据的整合,再与输入相加,得到单个编码层输出:
FFN(X)=X+max(0,XW1+b1)W2+b2 (8)
其中,W1和W2是全连接层的转换矩阵,b1和b2是偏置参数,由此得到BERT模型一层的输出,每一个编码层的输出都是下一层的输入;最后得到BERT模型的输出X∈Rd×L;
步骤2-2-4,将所述BERT模型的输出输入进双向长短期记忆网络模型计算,所述双向长短期记忆网络模型包含三个门:遗忘门、输入门和输出门,以及一个内部状态,所述双向长短期记忆网络模型通过这些门控制信息的积累速度,并有选择地加入新的信息或遗忘之前积累的信息,并对输入数据进行编码;
假设所述双向长短期记忆网络模型在t时刻的隐层状态是ht,内部状态是ct,所述遗忘门、输入门和输出门的输出信息分别是ft,it和ot,输入是xt,则当前时刻的隐藏状态ht由以下数学公式得到:
ft=σ(Wfxt+Ufht-1+bf)
it=σ(Wixt+Uiht-1+bi)
ot=σ(Woxt+Uoht-1+bo)
步骤2-2-5,在基于BERT-LSTM-Softmax的气象要素实体抽取模型构建完成后,使用标注的机场警报文本数据进行训练,得到训练后的气象要素实体抽取模型,用于从所述机场警报的正文内容中抽取出气象要素信息,并生成气象要素实体集合。
6.根据权利要求1中所述的一种基于实体关系抽取的结构化机场警报处理方法,其特征在于,所述步骤3包括:
步骤3-1,按照以下方式,对抽取获得的所述气象要素实体进行预处理,生成可用于关系分析的形式:
在对输入的所述非结构化文本数据的内容中得到气象要素实体之后,使用标签#和标签$分别标注出需要分析关系的两个气象要素实体;若所述两个气象要素实体之间相互关联,使用所述标签1进行标注;若两个气象要素之间不关联,使用所述标签0进行标注;
步骤3-2,通过构建BERT-Softmax关系分类模型实现气象态势要素的关系分析功能;首先对输入的所述非结构化文本数据进行表征处理,所述表征处理的方法与步骤2-2中的式(1)相同,对BERT模型的构建也与所述步骤2的相同,针对输入的所述非结构化文本数据的内容,根据所述索引序列x∈R1×L,确定所述非结构化文本数据输入BERT模型的表征序列为X∈Rm×L,经过BERT后得到第一输出结果X∈Rd×L,然后对所述非结构化文本数据的深层表征X[CLS]、两个气象要素实体的深层表征X[1]和X[2]进行处理,过程如下:
所述非结构化文本数据的深层表征X[CLS]∈Rd×1在BERT模型输出表征序列的最左边的位置,且已知任意两个所述气象要素实体的位置;
由于一个气象要素实体包含多个字,若其中一个所述气象要素实体包含l个字,则表示所述气象要素实体输出的表征序列是:X1,X2,…,Xl∈Rd×1,若直接对所述表征序列进行拼接会导致维度变化,因此对所述表征序列进行平均处理,即:
利用以上处理对BERT输出的气象要素实体的表征序列进行处理后,得到所述气象要素实体的深层表征X[1],X[2]∈Rd×1;
分别将所述非结构化文本数据的深层表征X[CLS]和两个气象要素实体的深层表征X[1],X[2]输入映射层,得到第二输出结果:
X[CLS]=WCLS(tanh(X[CLS]))+bCLS (13)
X[1]=W1(tanh(X[1]))+b1 (14)
X[2]=W2(tanh(X[2]))+b2 (15)
其中,WCLS、W1、W2∈Rd′×d分别是不同映射层的转换矩阵,bCLS、b1、b2∈Rd′×1则分别是每个转换矩阵的偏置参数,是非线性激活函数,则经过映射层输出的结果满足维度:X[CLS],X[1],X[2]∈Rd′×1,随后输入拼接映射层,得到第三输出结果:
Y=Wp(tanh(||[X[CLS],X[1],X[2]]))+bp (16)
其中,||[X[CLS],X[1],X[2]]∈R3·d′×1表示将X[CLS],X[1],X[2]进行拼接,Wp∈R3·d′×2是转换矩阵,bp∈R2×1是偏置参数;
再对Y∈R2×1进行softmax归一化处理,得到标签1或标签0的概率;
步骤3-3,在所述BERT-Softmax关系分类模型构建完成后,使用标注的机场警报关系分类数据进行训练,得到训练后的BERT-Softmax关系分类模型用于从所述非结构化文本数据的正文内容中对抽取出的气象要素进行关系分类;
步骤3-4,将具有关系的气象要素关联在一起,以时间要素为最优先级,天气现象为次优先级,其他天气要素与天气现象词语关联的顺序构建结构化输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110564234.9A CN113268595B (zh) | 2021-05-24 | 2021-05-24 | 一种基于实体关系抽取的结构化机场警报处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110564234.9A CN113268595B (zh) | 2021-05-24 | 2021-05-24 | 一种基于实体关系抽取的结构化机场警报处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113268595A true CN113268595A (zh) | 2021-08-17 |
CN113268595B CN113268595B (zh) | 2022-09-06 |
Family
ID=77232368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110564234.9A Active CN113268595B (zh) | 2021-05-24 | 2021-05-24 | 一种基于实体关系抽取的结构化机场警报处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268595B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113821518A (zh) * | 2021-11-24 | 2021-12-21 | 中航材导航技术(北京)有限公司 | 一种航空信息结构化处理系统 |
CN113868301A (zh) * | 2021-12-02 | 2021-12-31 | 昆仑智汇数据科技(北京)有限公司 | 一种工业设备数据抽取的方法、装置及设备 |
CN114298427A (zh) * | 2021-12-30 | 2022-04-08 | 北京金堤科技有限公司 | 企业属性数据预测方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190122145A1 (en) * | 2017-10-23 | 2019-04-25 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus and device for extracting information |
WO2020001373A1 (zh) * | 2018-06-26 | 2020-01-02 | 杭州海康威视数字技术股份有限公司 | 一种本体构建方法及装置 |
CN111160008A (zh) * | 2019-12-18 | 2020-05-15 | 华南理工大学 | 一种实体关系联合抽取方法及系统 |
CN111368542A (zh) * | 2018-12-26 | 2020-07-03 | 北京大学 | 一种基于递归神经网络的文本语言关联抽取方法和系统 |
-
2021
- 2021-05-24 CN CN202110564234.9A patent/CN113268595B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190122145A1 (en) * | 2017-10-23 | 2019-04-25 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus and device for extracting information |
WO2020001373A1 (zh) * | 2018-06-26 | 2020-01-02 | 杭州海康威视数字技术股份有限公司 | 一种本体构建方法及装置 |
CN111368542A (zh) * | 2018-12-26 | 2020-07-03 | 北京大学 | 一种基于递归神经网络的文本语言关联抽取方法和系统 |
CN111160008A (zh) * | 2019-12-18 | 2020-05-15 | 华南理工大学 | 一种实体关系联合抽取方法及系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113821518A (zh) * | 2021-11-24 | 2021-12-21 | 中航材导航技术(北京)有限公司 | 一种航空信息结构化处理系统 |
CN113868301A (zh) * | 2021-12-02 | 2021-12-31 | 昆仑智汇数据科技(北京)有限公司 | 一种工业设备数据抽取的方法、装置及设备 |
CN113868301B (zh) * | 2021-12-02 | 2022-06-07 | 昆仑智汇数据科技(北京)有限公司 | 一种工业设备数据抽取的方法、装置及设备 |
CN114298427A (zh) * | 2021-12-30 | 2022-04-08 | 北京金堤科技有限公司 | 企业属性数据预测方法、装置、电子设备及存储介质 |
CN114298427B (zh) * | 2021-12-30 | 2024-04-19 | 北京金堤科技有限公司 | 企业属性数据预测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113268595B (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113268595B (zh) | 一种基于实体关系抽取的结构化机场警报处理方法 | |
US10901423B2 (en) | Generating driving behavior models | |
US10146769B2 (en) | Determining safety risk using natural language processing | |
CN110555568A (zh) | 一种基于社交网络信息的道路交通运行状态实时感知方法 | |
CN112084336A (zh) | 一种高速公路突发事件的实体提取和事件分类方法及装置 | |
CN113569545B (zh) | 一种基于语音识别纠错模型的管制信息提取方法 | |
CN114282534A (zh) | 一种基于要素信息抽取的气象灾害事件聚合方法 | |
Luo et al. | Using lda2vec topic modeling to identify latent topics in aviation safety reports | |
CN115659244A (zh) | 故障预测方法、装置及存储介质 | |
CN113806538B (zh) | 标签提取模型训练方法、装置、设备与存储介质 | |
CN112084783B (zh) | 基于民航不文明旅客的实体识别方法及系统 | |
Khattak et al. | Assessing wind field characteristics along the airport runway glide slope: An explainable boosting machine-assisted wind tunnel study | |
CN117852541A (zh) | 一种实体关系三元组抽取方法、系统及计算机设备 | |
CN110069771A (zh) | 一种基于语义组块的管制指令信息处理方法 | |
Zeng et al. | [Retracted] Analysis of Abnormal Flight and Controllers Data Based on DBSCAN Method | |
CN110969836A (zh) | 基于网络大数据的路况实时分析系统 | |
Lyall-Wilson et al. | Modeling human factors topics in aviation reports | |
Xing et al. | Discovering latent themes in aviation safety reports using text mining and network analytics | |
CN111858725A (zh) | 一种事件属性确定方法及系统 | |
CN116805150A (zh) | 一种语义相似的短文本聚类方法、系统和计算机设备 | |
Clarke et al. | Natural Language Processing Analysis of Notices To Airmen for Air Traffic Management Optimization | |
Maynard et al. | Natural Language Processing (NLP) Techniques for Air Traffic Management Planning | |
CN112418730A (zh) | 一种运输系统的响应指标预估模型的构建方法 | |
CN113158658A (zh) | 一种基于知识嵌入的结构化管制指令提取方法 | |
Qisong et al. | Research on NOTAM Information Extraction of Civil Aviation with NLP |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |