CN109460547A

CN109460547A - 一种基于自然语言处理的结构化管制指令提取方法

Info

Publication number: CN109460547A
Application number: CN201811094551.3A
Authority: CN
Inventors: 王煊; 盛寅; 丁辉; 陈平; 严勇杰; 王冠; 徐秋程; 才智
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2019-03-12
Anticipated expiration: 2038-09-19
Also published as: CN109460547B

Abstract

本发明公开了一种基于自然语言处理的结构化管制指令提取方法，通过对非结构化的自然语言形式的管制指令进行处理，该方法可以实现以下辅助功能：提取管制指令中出现的场面、气象等信息并进行汇聚；提取航空器的动作、状态等信息并进行模拟仿真；形成计算机可读的结构化信息为知识推理提供数据。该方法是基于管制指令的自然语言形式结构特点和动词的语法特点。其优点在于可对非结构化的管制指令进行语义分析和处理，而不需要管制员严格地按照固定格式发出管制指令，故本发明极大地提高了管制指令语义分析的适用范围，突破了处理对象必须是结构化的管制指令的限制。

Description

一种基于自然语言处理的结构化管制指令提取方法

技术领域

本发明涉及空中交通管制自动化系统技术，尤其涉及一种基于自然语言处理的结构化管制指令提取方法。

背景技术

随着近30年中国民航业的蓬勃发展，空中交通管理的需求不断膨胀，导致了安全隐患问题的日益突出。据统计资料显示，在过去发生的飞行安全事故中，人为因素占比超过75％，而其中因管制员失误而造成的事故占25％。其中以管制员的失误而造成的跑道侵入事故的后果最为严重，财产损失最巨大。目前解决管制员失误的主流方法是加强场面的监控设备，通过借助场面监视雷达、多点定位系统传感器等设备降低失误。同时，一些基于人工智能的更先进的解决方法也被提出，基于语音识别的管制指令提取方法通过语音识别技术将管制语音转换成文本，再利用语义分析的技术提取管制指令的内容。然而在管制指令的语义分析和提取阶段，主要是基于陆空通话规则的模板进行提取，该方法只能处理小部分符合模板的管制指令，不能有效针对所有的管制指令，原因在于实际的管制员发出的管制指令是自然语言形式的，因此无法穷举出所有的模板进行匹配分析，这也是基于陆空通话规则模板的结构化管制指令提取算法的局限。

发明内容

发明目的：本发明从语言学的角度对实际管制指令的结构进行分析，并通过自然语言处理的方法对管制指令进行提取形成计算机可读的结构化指令。能解析绝大部分在实际工作环境下所产生的自然语言形式的管制指令。

技术方案：本发明的实现过程和步骤如下：

步骤1，提取经过语音识别后的管制指令，即文本格式的管制指令，对文本格式的管制指令进行中文分词操作，得到词序列，对词序列中的每个词按对应的词性进行自动标注；

步骤2，根据自动标注的结果获取管制指令中的特殊词和特殊词组；

步骤3，以特殊词组、特殊词为基本单位构建新的词序列；

步骤4，进行句法分析，形成以动词为支配词的依存句法树；

步骤5，对特殊词组的用途分类，保留与动词存在依存关系的特殊词组；

步骤6，判断特殊词组中动词数量，针对动词数量只有1个和大于1个的两种情况，分别进行处理；

步骤7，构建语义网；

步骤8，确定谓词和论元关系：谓词和论元之间的关系是由论元所在格的种类确定的，通过语义网找出谓词、论元和关系组成的三元组结构。

步骤9，判断空范畴：在谓词和论元关系确定后，还需要判断是否会存在未被填入论元的范畴，即空范畴，若空范畴的存在影响了完整语义的理解，则需要对其进行填充(由于在语义网中定义了管制指令中动词的价位和关系格的种类，将属于不同的关系格的论元的重要程度进行定义，如施事格内的论元属于核心论元，状态格内的论元属于非核心论元。若核心论元所属的种类格未出现则影响完整的语义理解，而非核心论元所属的种类格未出现则不影响完整的语义理解)，跳转步骤10；若不存在空范畴，则直接跳转步骤11；

步骤10，提取出谓词的空范畴，使用贝叶斯算法进行论元推理并填补空范畴；

步骤11，构建计算机可读的结构化模板。

步骤2包括：根据自动标注的结果判断管制指令中是否存在特殊词，若存在特殊词则搜寻其前后出现的词是否具有数字或英字的词性(如：地面风300，其中地面风是特殊词，当其相邻词300是数字时，判断形成词组是否具有数字或英字的词性)，若具有则与特殊词形成特殊词组，词性标记为名词；若词语不是特殊词，则保持其词形和词性不变。

步骤5包括：在管制指令中包含两种成分的特殊词，一种直接参与描述航空器的动作，另一种只用来描述外部信息，区分这两类特殊词，根据依存句法树找出与动词存在直接依存关系的特殊词，如果特殊词组与动词不存在依存关系，则将其提取出来，以列表形式进行汇聚，用以描述外部信息；如果特殊词组与动词存在依存关系，则保留。

步骤6中，如果动词数量只有1个，执行如下步骤：

步骤A-1，由于动词数量只有一个，因此该动词必然是谓词，提取该谓词；

步骤A-2，提取谓词论元：将依存句法树中与谓词直接相连的词语提取出来，这些词语将组成谓词的论元。

步骤6中，如果动词数量大于1个，执行如下步骤：

步骤B-1，管制指令中的动词类别分为两类：表动作动词和表状态动词，表动作动词描述了飞行器的运动动作，表状态动词描述飞行器的状态，提取表状态动词：表状态的动词表现了两个状态：实施动作和不实施动作；

步骤B-2，表动作提取动词：表动作的动词能够作为句子的谓词；

步骤B-3，判断谓词数量：若谓词数量只有1个，则跳转步骤A-2，若谓词数量大于1个，则跳转步骤B-4；

步骤B-4，判断谓词间关系：根据管制指令中先出现的动作先发生，后出现的动作后发生的原则判断谓词间关系；

步骤B-5，提取谓词论元：将在依存语法中与谓词有直接关系的词语提取出来，这些词语将组成谓词的论元。

步骤7包括：对管制指令中出现的动词进行分析，提取出表达航空器动作的动词，结合实际的应用领域定义动词的价位、语义格、和论元词语，以实体、属性、实体的三元组方式编写进语义网之中，三元组各部分内容是动词、语义格、论元。如：动词起飞，3价词，施事格：航班，状态格：开始，立即等，处所格：从跑道。以实体-属性-实体的方式编写进语义网之中，如：起飞-施事-航班。

步骤10中，使用贝叶斯网络模型的方法进行空范畴填补，该机器学习算法遵循如下贝叶斯公式：

P(B)＝P(B|A)·P(A)，

其中P(A)是先验概率，表示在句子中出现的信息的概率，P(B|A)是条件概率，表示由句子中出现的信息所推导出语义网中的空范畴填补信息的概率，P(B)是后验概率，表示得出的填补空范畴的论元信息的概率；若需要对空范畴进行填补，根据句子中出现的信息确定先验概率，将该信息的先验概率定义为1，根据空范畴所属谓语动词和格的种类在语义网中找出所有的属于该种类的格的论元，将这些论元定义为候选论元，同时从提前给出的其他不同信息与候选论元间的条件概率表中提取条件概率，使用贝叶斯公式计算得到每个候选论元出现的后验概率，通过比较后选择最大后验概率的论元进行空范畴的填补。

步骤11包括：构建的结构化模板是以谓词为中心，谓词和论元关系所构成的三元组，作为计算机可读的模板。

本发明基于自然语言处理的管制指令语法分析技术、针对管制指令的语义网的构建技术、基于语义网的管制指令语义推理技术、基于语法学的结构化模板生成技术；

所述的基于自然语言处理的管制指令语法分析技术包括了对文本形式的管制指令进行词性分析和句法分析，其中需要提取特殊的管制术语，并利用管制术语的使用规则形成特殊词组；

所述的针对管制指令的语义网的构建技术包括管制指令中涉及的谓词和其相关论元的实体建立、谓词价位的确定、谓词-论元关系的建立；

所述的基于语义网的管制指令语义推理技术包括针对谓词空范畴的填补技术，其中包括了使用机器学习算法对空范畴填补论元的提取方法；

所述的基于语法学的结构化模板生成技术包括基于动词格语法的结构化模板的生成方法、动词属性的确定和多谓词间主次关系的判断。

本发明可应用于空中交通管制系统中对管制指令的语义理解。由于管制员的管制指令同时呈现出了自然语言形式和陆空通话规则两种格式，即存在二元性。本发明能更好地对管制指令进行解析并形成结构化指令，能有效处理从管制指令语音识别到基于管制指令内容的运动趋势预测之间的工作。

有益效果：本发明具有如下的技术效果：

(1)让计算机自主理解管制指令的语义，并判断出飞行器的运动过程。

(2)通过推理补充管制指令中的语义描述残缺部分。

(3)提取管制指令中出现的场面和气象等信息。

(4)将非结构化管制指令转换为结构化管制指令。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

图1为基于自然语言处理的结构化管制指令提取方法的流程图。

图2为基于自然语言处理的结构化管制指令提取方法的模块化主要流程图。

图3为特殊词组和非特殊词组成的新的词/词组序列。

图4为管制指令的依存句法关系。

图5为生成的结构化管制指令模板。

图6为推理空范畴的填补论元所需的概率条件。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

如图1所示，本发明提供了一种基于自然语言处理的结构化管制指令提取方法，步骤1：管制指令的语音识别

提取经过语音识别后的管制指令，即文本格式的管制指令。

步骤2：中文分词

汉语属于孤立语，汉字可以单独成词表义，也可以与其他字组成词语，在用法上与英语等屈折语不同，在使用中字与字之间不用空格分开，因此计算机无法直接区分出词语，需要先进行中文分词操作。利用相应的分词算法对管制指令进行中文分词操作，得到词序列。

步骤3：词性标注

对词序列中的每个词按对应的词性进行自动标注，词性包括：名词(n)、动词(v)、介词(p)、量词(q)、代词(r)、数词(m)、英文字符串(eng)、其他符号(x)等。

步骤4：确定特殊词

通过对无线电陆空通话的规则进行研究，可以发现其中包含很多表示场面信息的特殊管制术语，如：地面风、滑行道等。绝大多数的特殊管制术语都需要以数字或英字描述并形成名词词组，如：地面风180度、滑行道D5-P4-A5等。因此对这类特殊词进行人工标注特征。在实际步骤中根据人工标注特征判断管制指令中是否存在特殊词，若存在特殊词则搜寻其相邻词是否具有数字或英字的词性，若具有则与特殊词形成特殊词组，词性标记为名词，若词语不是特殊词，则保持其词形和词性不变。

步骤5：构建新的词/词组序列

以特殊词组、词为基本单位构建新的词序列。

步骤6：句法分析

根据依存语法理论，句子中的词语是有机关联的整体，而句法关联则建立起词语和词语之间的依存关系。这种依存关系由句子中的支配词和从属词联结形成。根据研究，动词是句子的中心，支配句子中别的成分，而其本身却不受其他任何成分的支配。由于管制员需要通过管制指令引导飞行器的运动，因此管制指令中包含一个甚至多个动词，句法分析的结果是要形成以动词为支配词的依存句法树。

步骤7：特殊词组的用途分类

在管制指令中通常包含两种成分的特殊词，一种直接参与描述航空器的动作，如：跑道，表现了航空器发生动作的位置；另一种只用来描述外部信息，如：能见度，不直接参与修饰动作。该步骤的目的就是区分这两类特殊词，根据依存句法树可以找出与动词存在直接依存关系的特殊词。如果特殊词组与动词不存在依存关系，则将其提取出来，以列表形式进行汇聚，用以描述外部信息。如果特殊词组与动词存在依存关系，则保留。

步骤8：判断动词数量

管制指令中的动词数量不是一个确定的值，对于动词数量的不同，处理方式也不一样，因此有必要对动词数量进行判断：若动词数量只有1个，则跳转步骤9,；若动词数量大于1个，则跳转步骤10。

步骤9：动词数量只有1个的处理

由于动词数量只有一个，因此该动词必然是谓词。

步骤9.1：提取动词(谓词)

步骤9.2：提取谓词论元

将在依存语法中与谓词有直接关系的词语提取出来，这些词语将组成谓词的论元。

步骤10：动词数量大于1个的处理

当动词数量大于1个时，需要判断出这些动词之间的关系，通过对管制指令中的动词类别的研究，发现动词分为两类：表动作动词和表状态动词。表动作动词描述了飞行器的运动动作，如：起飞、滑行、降落等；表状态动词通常用于描述前者的状态，其功能相当于轻动词或副词，如：请、准备等。对表状态动词和表动作动词进行人工标注以示区分。

步骤10.1：提取动词(表状态)

由于表状态动词在功能上类似副词，因此不能作为句子的谓语成分。在管制指令中大部分表状态的动词只表现了两个状态：实施动作(如：开始)和不实施动作(如：停止)。

步骤10.2：提取动词(表动作)

表动作的动词可以作为句子的谓词。

步骤10.3：判断谓词数量:

若谓词数量只有1个，则跳转步骤9.2，若谓词数量大于1个，则跳转步骤10.4。

步骤10.4：判断谓词间关系

若一个句子中存在多个谓词，则表明管制指令中会出现多个动作，因此需要判断这些动作的先后顺序。通常情况下管制指令中先出现的动作先发生，后出现的动作后发生。

步骤10.5：提取谓词论元

步骤11：语义网的构建

管制指令语义网的构建思路来源于框架语义学，其基本理论依据是美国语言学家菲尔莫(Fillmore)的格语法理论。格语法理论的中心是动词，不同的动词配备了不同种类的格。格的种类分为六种：施事格、客体格、方位格、使成格、工具格、承受格。不同类别的动词配备的格的数量和种类也不同，即动词的配价理论。动词的格被称作范畴，范畴的内容由论元填补，研究管制指令中的动词特性并构建语义网。

步骤12：确定谓词-论元关系

谓词和论元之间的关系是由论元所在格的种类而确定的。通过语义网可以找出谓词、论元和关系组成的三元组结构。

步骤13：空范畴的判断

由于一个动词可以自带很多范畴，因此在谓词-论元关系确定后，还需要判断是否会存在未被填入论元的范畴，即空范畴。判断的标准以语义为主，若空范畴的存在影响了完整语义的理解，则需要对其进行填充。若不存在空范畴，则直接跳转步骤15，若存在空范畴，则跳转步骤14。

步骤14：空范畴填补

提取出谓词的空范畴，进入语义网中进行搜索和填补，填补论元的选择将根据相关的机器学习算法确定。

步骤15：构建计算机可读的结构化模板

定义的结构化模板是以谓词为中心，谓词-论元关系所构成的三元组作为计算机可读的模板。因此任何一条管制指令都被转换为该类型的模板，且转换的模板数由管制指令中谓词数量决定。

实施例

下面结合管制指令的使用案例和相关的附图对本发明作进一步的详细描述。首先给出管制指令的例子：DAL185,东方塔台，阵风12米每秒，进入主跑道09等待。为方便配图和描述，此处的实施步骤按照图2显示的主要流程图划分。

步骤1：词性分析

该步骤包含三步处理过程：中文分词、词性标注和特殊词搜索。使用Python软件中的jieba分词对这句管制指令进行中文分词和词性标注工作，得到的结果如图3。对结果进行特殊管制用语的搜索，由于已经进行人工标注，因此根据人工标注找出管制特殊词：塔台、阵风、主跑道。分别利用特殊词组的形成规则，对其前后搜索相关词，形成特殊词组：东方塔台、阵风12米每秒、主跑道09。其余的词语保持不变。重新构成新的词/词组序列后得到结果如图3所示。

步骤2：句法分析

该步骤通过对管制指令进行句法分析构建出依存句法树，主要用Java软件的stanford parser完成句法分析的工作。图4显示了依存句法关系，可以发现Root指向了主要的谓语动词，而其主语成分有三个。根据管制指令的研究挖掘也可以得到以下信息：句子第一个词由航班号构成，也必然是整个管制指令的主语。因此其余两个特殊词组：东方塔台、阵风12米每秒与航班的动作无直接关系，而是表述外部信息的词组，将其提取出来形成列表。

步骤3：谓词分析

该步骤的目的是对管制指令语句中出现的动词进行分析，由于已经用人工标注对不同的动词进行区分，因此通过查找不同的标记可以找出表述动作的谓词。在管制指令例句中没有出现表述状态的动词，能表述动作的动词为：进入、等待。由于这两个动词都能作谓词，因此该管制指令最终会生成两个结构化模板，第一个是以谓词：进入为中心词的模板，第二个是以谓词：等待为中心词的模板。

步骤4：语义分析

该步骤通过语义网补全管制指令中的谓词空范畴。语义网是用本体的形式构建的，能够表达动词在管制领域内与其他实体间的关系。在本发明中谓词的格的种类包括：施事格、客体格、方位格、使成格、工具格、承受格、状态格。其中前六个格应用了格语法中提出的格，而状态格则对应于经常出现在管制指令中的副词和表状态的动词，如：准备起飞，其中动词准备表述动词起飞的状态，由此可知这条指令没有让飞行器起飞。由于将管制指令中已经出现的论元填补进谓词的不同的格之后还有空范畴存在，因此需要在语义网中进行查询填补。值得注意的是，当语义网的规模变得非常巨大的时候，需要用机器学习算法选择合适的论元进行填充。

步骤5：模板形成

由图5可知范例中的管制指令最终以谓词：进入和等待为中心词形成两个结构化模板。需要注意的是在两个模板中都出现了空范畴，但由于一些空范畴不影响计算机对该动作的理解，因此不需要填充。在谓词：等待的空范畴中可以发现出现了语义残缺，由于该管制指令中并未出现等待区域，因此需要利用语义网进行语义的推理进行补全，该过程会使用机器学习的算法。本发明中使用贝叶斯网络模型的方法进行空范畴填补，遵循如下贝叶斯公式:

P(B)＝P(B|A)·P(A)

其中P(A)是先验概率，表示在句子中出现的信息的概率，P(B|A)是条件概率，表示由句子中出现的信息所推导出语义网中的空范畴填补信息的概率，P(B)是后验概率，表示得出的填补空范畴的论元信息的概率。针对给出的例句，图6给出了在管制指令中出现不同主跑道时所需填补论元的条件概率，如(2,2)表示若句子中出现‘主跑道07’时，针对谓词‘等待’的方位格填补论元为‘主跑道07等待点’的出现概率为0.8。若定义句子中出现了某条主跑道信息，则该条主跑道出现的先验概率为1，其余的主跑道的先验概率为0，可知此时管制指令中出现了‘主跑道09’，因此它的先验概率为1，而‘主跑道07’和‘主跑道08’的先验概率分别为0。根据贝叶斯公式计算得：‘主跑道09等待点’的概率为P＝0.8*1.0＝0.8,远大于其他结果，因此选择‘主跑道09等待点’作为方位格空范畴的填补论元。

本发明提供了一种基于自然语言处理的结构化管制指令提取方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于自然语言处理的结构化管制指令提取方法，其特征在于，包括如下步骤：

步骤3，以特殊词组、特殊词为基本单位构建新的词序列；

步骤4，进行句法分析，形成以动词为支配词的依存句法树；

步骤7，构建语义网；

步骤8，确定谓词和论元关系：谓词和论元之间的关系是由论元所在格的种类确定的，通过语义网找出谓词、论元和关系组成的三元组结构；

步骤9，判断空范畴：在谓词和论元关系确定后，还需要判断是否会存在未被填入论元的范畴，即空范畴，若空范畴的存在影响了完整语义的理解，则需要对其进行填充，跳转步骤10；若不存在空范畴，则直接跳转步骤11；

步骤11，构建计算机可读的结构化模板。

2.根据权利要求1中所述的方法，其特征在于，步骤2包括：根据自动标注的结果判断管制指令中是否存在特殊词，若存在特殊词则搜寻其前后出现的词是否具有数字或英字的词性，若具有则与特殊词形成特殊词组，词性标记为名词；若词语不是特殊词，则保持其词形和词性不变。

3.根据权利要求2中所述的方法，其特征在于，步骤5包括：在管制指令中包含两种成分的特殊词，一种直接参与描述航空器的动作，另一种只用来描述外部信息，区分这两类特殊词，根据依存句法树找出与动词存在直接依存关系的特殊词，如果特殊词组与动词不存在依存关系，则将其提取出来，以列表形式进行汇聚，用以描述外部信息；如果特殊词组与动词存在依存关系，则保留。

4.根据权利要求3中所述的方法，其特征在于，步骤6中，如果动词数量只有1个，执行如下步骤：

5.根据权利要求4中所述的方法，其特征在于，步骤6中，如果动词数量大于1个，执行如下步骤：

6.根据权利要求5中所述的方法，其特征在于，步骤7包括：对管制指令中出现的动词进行分析，提取出表达航空器动作的动词，结合实际的应用领域定义动词的价位、语义格、和论元词语，以实体、属性、实体的三元组方式编写进语义网之中，三元组各部分内容是动词、语义格、论元。

7.根据权利要求6中所述的方法，其特征在于，步骤10中，使用贝叶斯网络模型的方法进行空范畴填补，该机器学习算法遵循如下贝叶斯公式：

P(B)＝P(B|A)·P(A)，

8.根据权利要求7中所述的方法，其特征在于，步骤11包括：构建的结构化模板是以谓词为中心，谓词和论元关系所构成的三元组，作为计算机可读的模板。