CN112084785A

CN112084785A - 适航文本特征提取评估方法，系统，装置及存储介质

Info

Publication number: CN112084785A
Application number: CN202010752308.7A
Authority: CN
Inventors: 邵俊; 朱玉屏; 蔡喁
Original assignee: China Civil Aviation Shanghai Aircraft Airworthiness Certification Center
Current assignee: China Civil Aviation Shanghai Aircraft Airworthiness Certification Center
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-12-15

Abstract

本发明提供一种适航文本特征评估预测方法，系统、装置及存储介质，对DSE特征提取算法与其他特征提取算法进行比较，评估不同算法对航空器设计特征和风险因素的识别率，评估结果表明DSE方法采用检测所有潜在重叠句簇，然后选择给定数量的句簇并从中选择最频繁的双词短语作为特征描述符，融合了重叠句簇发现和短语提取方法具有更高的准确性，能够更有效的发现适航指令文本所表达的航空器产品的关键设计特征。

Description

适航文本特征提取评估方法，系统，装置及存储介质

技术领域

本发明涉及自然语言处理在适航审查领域里的应用，具体涉及一种适航文本特征提取评估方法，系统，装置及存储介质。

背景技术

在航空器运行全生命周期过程中提取影响安全的设计特征和安全趋势是适航审查活动的主要开展方式，即适航审定的“监听模式”。监听模式的典型应用是针对设计、制造和使用过程中记录和上报的各类微小偏离和不安全信息。通常情况下，航空器设计、制造和使用环节中会累积大量关于各种偏离和更改的描述信息。这些信息来源、用途以及描述方式各不相同，其中所包含的航空器不安全设计特征往往也并不明显。因此，通过自然语言分析的方式提起适航文本中的安全设计特征是一种必要的技术途径。

现有技术的安全特征提取方法可以分为两大类别：基于句子的方法和基于短语的方法。基于句子的方法认为文本中的每个句子可能涉及多个特征，因此这种方法通过采用不同的聚类方法，提取文本中的不同句簇，并认为每一个句簇中的句子描述了同一个特征。基于短语的方法一般首先定义短语的模板，然后根据模板从文本的句子中提取短语，最后对短语进行聚类，将相似的短语合并。上述不同的特征提取方法，其具体实现过程往往不公开，数据来源也不同，在实际中很有可能导致提取出含有大量噪声的特征，也可能导致有些重要但不常见的短语被排除，而一些高频率的噪音短语被保留下来，因此需要一种方法对适航安全特征的提取结果进行评估。

发明内容

本发明的目的是提供一种适航文本特征提取评估方法，系统、装置及存储介质，以提供对适航安全特征的提取结果进行评估。

为了达到上述目的，本发明一方面提供适航文本特征提取评估方法，包括以下步骤：

获取验证文本，所述验证文本包括文本描述的初始特征集；

基于不同的特征提取方法，获取多个验证文本的验证特征集；

建立评估模型，将所述初始特征集和验证特征集输入评估模型，计算不同的特征提取方法的精准性，所述评估模型的计算过程包括：

其中，p为精准度，T为文本描述的初始特征集，H为文本描述的验证特征集。

进一步的，验证特征集的提取过程中，还包括以下步骤：

采用K均值方法对文本描述中的句子进行聚类，并从每个聚类中选择短语作为特征；

基于词性标注建立短语模板以对短语进行潜在语义分析，获取验证特征集。

进一步的，验证特征集的提取过程中，还包括以下步骤：

采用IDC方法检测重叠句簇，通过删除簇关键字来分割重叠特征；

基于分割后的特征，从句簇中选取代表性句子作为特征描述符以生成验证特征集。

进一步的，验证特征集的提取过程中，还包括以下步骤：

对文本描述进行预处理，保留句子中的名词、动词或形容词，并提取双词短语；

使用Wordnet作为同义词词典对短语中的同义词进行分组，生成验证特征集。

进一步的，验证特征集的提取过程中，还包括以下步骤：

对验证文本的文本描述进行预处理，将文本描述的句子转变为向量；

采用相似性网络检测文本描述中的重叠句簇；

根据检测到的句簇，提取双词短语作为特征描述符，生成验证文本的验证特征集。

进一步的，在所述预处理步骤中，还包括：

将文本描述中的句子进行自然语言处理，将句子转换为以词根形式保留的单词；

使用TF-IDF方法计算每个类别的文本描述中单词的权重，根据权重将所有句子转变为向量，所述向量可通过点积计算获得向量之间的余弦相似值。

进一步的，在所述重叠句簇的检测步骤中，还包括：

以向量表示的句子为节点，以向量间的余弦相似值作为权重建立句子相似性网络；

在所述相似性网络中，迭代计算相邻节点的余弦相似值寻找句簇的质心并更新句簇的成员。

进一步的，基于WordNet来合并句簇中的同义词，根据所述同义词的频率对双词短语进行排序；

将最频繁的双词短语作为一个句簇的特征描述符，以生成生成验证文本的验证特征集。

另一方面，本发明还提供一种适航文本特征评估预测系统，包括：

文本获取单元，用以获取验证文本，所述验证文本包括文本描述的初始特征集；

特征提取单元，用以基于不同的特征提取方法，获取多个验证文本的验证特征集；

评估单元，用以建立评估模型，将所述初始特征集和验证特征集输入评估模型，计算不同的特征提取方法的精准性，所述评估模型的计算过程包括：

另一方面，本发明还提供一种适航文本特征评估预测装置，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述方法的步骤。

另一方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述的步骤。

本发明提供一种适航文本特征评估预测方法，系统、装置及存储介质，对DSE特征提取算法与其他特征提取算法进行比较，评估不同算法对航空器设计特征和风险因素的识别率，评估结果表明采用检测所有潜在重叠句簇，然后选择给定数量的句簇并从中选择最频繁的双词短语作为特征描述符，融合了重叠句簇发现和短语提取方法具有更高的准确性，能够更有效的发现适航指令文本所表达的航空器产品的关键设计特征。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的适航文本特征评估的流程图。

图2为本发明一个实施例的基于DSE的适航特征提取方法的流程图。

图3为本发明一个实施例的评估模型对比结果示意图。

图4是本发明一个实施例的适航文本特征提取评估系统的系统架构图。

图5是本发明一个实施例的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

本发明的目的是在于提供一种适航文本特征提取评估方法，系统、装置及存储介质。通过对不同基于自然语言文本的特征提取方法进行评估，从而获得针对适航指令的特征提取结果中准确度最高，噪声特征最小的提取方法，以适进一步改进和完善现有的适航文本特征提取方法。

图1是本发明一个实施例的适航文本特征评估的流程图，如图1所示，本实施例的适航文本特征评估包括以下步骤：

S1，获取验证文本，所述验证文本包括文本描述的初始特征集。

具体的，在评估适航文本特征提取方法之前，首先需要建立一个数据集以供各种方法使用测试。本实施例采用了从Softpedia.com抓取的软件文本描述来作为验证文本。

优选的，在获得验证文本后，首先删除重复的和具有缺陷的软件文本描述，然后从中识别软件特征来获取用于参考对比的准确的初始特征集合。其中，共选择了antivirus和compress tool两大类的软件文本描述，用于人工分析以获得准确的特征集合。其中antivirus类产品描述包含了1716句描述，compress tool类产品描述包含了1476句描述。对于每一类软件文本描述，通过选择一组有代表性的短语来作为特征的描述符。

S2，基于不同的特征提取方法，获取多个验证文本的验证特征集。

具体的，本实施例首选提出一种方法作为适航文本特征的提取方法，DSE方法不是直接从文本描述中提取短语作为特征，而是首先检测(Detect)文本描述中的重叠句簇，然后对发现的重叠句簇进行排序并选择(Select)给定数量的句簇，最后从选定的句簇中提取(extract)双词短语作为特征描述。

图2为本发明一个实施例的基于DSE的适航特征提取方法的流程图，图2所示，该方法包括：

S210，文本数据预处理。

具体的，文本数据预处理过程中，首先对验证文本的文本描述中冗余描述和空描述进行过滤，然后使用自然语言处理技术做以下处理：

句子提取：将产品描述中的各个句子分离；

词汇切分：将句子分割为单词；

词性标注：识别各个单词的词性；

单词选择：只保留动词、名词和形容词；

删除停用词：删除常用的一些不具有特定含义的单词；

词干化：将单词转换为词根形式。

最后，将一个类别内的所有文本描述的句子集合作为一个文档，使用TF-IDF方法来计算集合中每个单词的权重，这样将一个类别内文本描述的所有句子转变为向量。其具体计算公式如下：

其中，X是其中的一个向量，X＝[x₁,x₂....x_i]，所有的句子向量将根据公式进行归一化处理。经过归一化处理后，两个句子的相似性可以通过计算两个向量的点积来获得两个向量的相似度。

S220，检测重叠句簇。

具体的，本实施例检测重叠句簇的过程中，以文本描述中的句子列表作为输入，有两个参数来控制句簇的大小、簇之间重叠的大小和潜在噪声的影响。该算法将文本中每个句子作为复杂网络中的一个节点来处理，包括以下五个步骤组成：

S221，建立句子相似性网络。

具体的，建立句子相似性网络有助于发现用于检测句簇的种子。在该网络中，节点是用TF-IDF向量表示的句子，节点之间边的权重是它们之间的相似性。设X和Y是两个向量，其中X＝[x₁,x₂....x_i]，Y＝[y₁,y₂....y_n]，则X和Y之间的余弦相似性计算如下述公式所示：

由于表示句子的向量X和Y均可以通过归一化为X^′和Y^′，因此两句之间的余弦相似性可以通过计算归一化向量的点积得到，其具体计算公式如下：

S222，选择种子。

具体的，选择种子是检测句簇的起点，为了发现重叠句簇，我们选择当前与权值最大、且权值大于阈值的边相连的节点作为种子，因为连接他们的边权重最大说明这两个句子更有可能划分到同一个句簇。从一个选定的种子开始，通过最大化句簇内节点的适应度来检测一个新的句簇，通过适应度的计算来检测新的句簇的公式如下：

其中，k_in和k_out是句簇中节点总的内部和外部度数，α是控制句簇大小的正实值参数。

需要说明的是，建立句子相似度网络需要花费一些计算资源。该种子节点的选取过程还可以在种子选择上减少噪声数据影响。在相似性网络中噪声数据要么是孤立的，要么是它们与其他节点连接的权重很小。在这种情况下，它们一般不太可能被选为种子。

此外，种子节点只能从还未被分配给任何句簇的句子集合中选择。当没有候选者被选中，或者所有的剩余句子都不适合选择时，种子的选择就会失败，整个重叠句簇检测过程将停止。

S2223，找到簇成员。

具体的，算法一旦选择了种子则以该种子为句簇质心，开始迭代考察新簇的每个邻居节点是否可以作为当前句簇的成员。邻居节点是相似性网络中的节点，这些节点与当前句簇中的节点有连接。在一次迭代中，如果邻居存在，则选择离簇质心最近的邻居。如果该邻居与簇质心之间的余弦相似度大于阈值，则将该邻居节点添加到簇中。一旦找到簇的新成员，就会重新计算当前句簇的质心，之后，下一次迭代将继续找到新簇的更多成员。当没有邻居节点，或者所有邻居节点都远离簇质心时，算法就停止发现新的句簇成员。

S224，识别句簇关键字。

具体的，因为文本描述中的一个句子可能描述多个特征，识别簇关键字的目的是从句子中删除一个已识别的特征，并分离重叠特征。本实施例采用k-均值算法将簇质心向量中权重大于0的单词分成两组，然后选取平均权重较大的一组单词作为簇关键字。这使得簇关键字的识别能够与簇质心中单词权重的分布相适应。

S225，更新句子相似性网络。

具体的，识别出新的句簇及其簇关键字后，句簇检测算法将进一步更新句子集合和相似性网络。首先，接近簇质心的成员，即与簇质心的余弦相似度大于阈值(即参数MAX)的成员，将从用于进一步发现句簇的句子集合中删除。这些成员是确定地属于当前句簇，所以不应分配给其他簇。换句话说，在进一步的句簇检测过程中，与簇质心的余弦相似度在(MIN，MAX)范围的成员均可以分配给其他簇。这也意味着，如果参数MAX与MIN相等，那么所有簇成员都将被删除，所有检测到的簇都将没有重叠。同时，当参数MAX等于1时，则不会删除任何成员。

可以理解的是，从未确定地分配给某些簇的句子中，删除当前句簇的关键字，以减少它们对进一步聚类检测的影响。由于删除簇关键字后，包含簇关键字的句子也会改变，句子相似性网络也将随后被更新。

S230，选择给定数量的句簇。

具体的，根据句簇检测算法从一个类别内的所有文本描述中得到一个重叠句簇的集合。每个重叠句簇代表了不同的文本特征。实际中分析人员可能只对检测到的特征中的一部分感兴趣，例如，前10名的特征而不是所有这些特征。在这种情况下，对检测到的簇进行排序，并根据排序结果返回给定数量的簇。

为此，可以根据公式来计算每个簇的权重以对各个句簇进行排序。

其中，CW(c_i)表示检测到的簇c_i的权重。它根据簇大小|c_i|和簇关键字的平均权重ac(c_i)来进行计算。簇大小反映簇所表示的特征的频率或支持度。簇关键字的平均权重反映了表示特征的重要性。通过考虑到簇关键字的平均权重，可以提高不频繁但很重要的特征在排序中的位置。

S240，提取特征描述符。

可以理解的是，对于每个检测到的句簇，最接近质心的语句通常被用作表示特征的描述符。但事实上，当选择的句子有许多单词时，按照这种方式所选择的特征并不容易理解。因此DSE方法从句簇的句子中提取双词短语作为特征描述符。

具体的，本实施例中将双词短语提取为特征描述符，则提取的双词短语应包含簇的关键字。由此，DSE方法仅提取包含簇关键字的双词短语(在5个单词距离以内)来作为特征描述符，这可以避免产生大量的双词短语。

优选的，为了进一步避免词语搭配被提取时存在同义词的问题，本实施例的DSE方法进一步基于Wordnet来合并同义词，根据它们的频率对双词短语进行排序，最后将最频繁出现的双词短语作为一个句簇表示特征的描述符。

可以理解的是，本发明采用的DSE方法不是直接从文本描述中提取短语作为特征，而是首先检测文本描述中的重叠句簇，然后从这些重叠句簇中提取短语。因此，为了评估该方法的性能，我们比较了通过检测句簇来提取特征的方法和直接从文本描述中提取短语作为特征的方法。

具体的，本发明的实施例中还采用k均值聚类算法、IDC方法和双词短语提取法获取验证文本的验证特征集作为DSE方法的比对，以验证DSE方法的特征提取准确度。

下面结合实施例简单说明k均值聚类算法、IDC方法和双词短语提取法的特征提取步骤。

优选的，在k均值聚类算法的特征提取过程中，包括以下步骤：

采用k均值方法对文本描述中的句子进行聚类，并从每个聚类中选择短语作为特征。

具体的，在考虑词性标注的基础上，本实施例采用了<形容词、名词>或者<名词、形容词>和<动词、形容词>作为短语模板，并从自然语言评论中提取特征。

优选的，在IDC方法的特征提取过程中，包括以下步骤：

其中，IDC方法与DSE方法类似，均通过检测产品描述中的重叠句簇来提取特征，且IDC方法已与LDA、模糊聚类等聚类方法进行了比较，显示了较好的性能，因此与DSE方法相比具有很大的参考性。

优选的，在双词短语提取法的特征提取过程中，包括以下步骤：

对文本描述进行预处理，保留句子中的名词、动词或形容词，并提取双词短语。

具体的，双词短语提取法将双词短语作为短语模板，从文本中直接提取特征。在特征提取过程中，首先对文本进行预处理，只保留名词、动词或形容词，然后提取频繁的双词短语，并使用使用Wordnet作为同义词词典对短语中的同义词进行分组。双词短语提取法采用直接提取短语的方式，与DSE方法通过句簇提取短语相比具有很大的参考价值。

S3，建立评估模型，将所述初始特征集和验证特征集输入评估模型，计算不同的特征提取方法的精准性。所述评估模型的计算过程包括：

图3为本发明一个实施例的评估模型对比结果示意图。如图3所示，DSE方法与IDC方法相比，DSE方法取得了更好的精度。以antivirus的软件产品描述为例，可以看出当IDC方法选择句子作为描述特征时，很难理解多个词组成的特征。

此外，图3中显示出，当通过句子聚类提取特征时，k均值方法不考虑噪声描述的影响，将整个句子集划分为k个句簇。同时，它们不识别每个句簇的关键字，也不在聚类的过程中删除它们。这意味着，当特征相互重叠时，这俩种方法不会减少一个已识别的特征对检测另一个特征的影响。所有这些都导致它们不能检测到准确描述软件特征的句簇。因此，它们的准确度较低。

从图3中也可以看出，双词短语提取方法往往会产生许多类似的双词短语，他们往往代表着相同的特征，这可能是因为仅仅通过确定这些搭配是否是同义词很难合并它们，而DSE方法通过首先检测句簇，然后识别簇关键字和句簇的句子集合中提取包含关键字的双词短语作为特征来有效的克服这一问题。

图4是本发明一个实施例的适航文本特征提取评估系统的系统架构图。如图4所示，本实施例的适航文本特征提取评估系统，包括：

文本获取单元401，用以获取验证文本，所述验证文本包括文本描述的初始特征集；

特征提取单元402，用以基于不同的特征提取方法，获取多个验证文本的验证特征集；

评估单元403，用以建立评估模型，将所述初始特征集和验证特征集输入评估模型，计算不同的特征提取方法的精准性，所述评估模型的计算过程包括：

图5是本发明一个实施例的一种电子设备的结构示意图。如图5所示，本发明一个实施例的一种电子设备包括一个或多个输入设备1000、一个或多个输出设备1000、一个或多个处理器3000和存储器4000。

在本发明一个实施例中，处理器1000、输入设备2000、输出设备3000和存储器4000可以通过总线或其它方式连接。输入设备2000、输出设备3000可以是标准的有线或无线通信接口。

处理器1000可以是中央处理模块(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器4000可以是高速RAM存储器，也可为非不稳定的存储器，例如磁盘存储器。存储器4000用于存储一组计算机程序，输入设备2000、输出设备3000和处理器1000可以调用存储器4000中存储的程序代码。

存储器4000存储的计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如上述实施例中所述评估方法的步骤。

本发明的一个实施例还提供一种计算机可读存储介质。该计算机可读存储介质可以是高速RAM存储器，也可为非不稳定的存储器，例如磁盘存储器。该计算机可读存储介质可通过外部计算设备或网络进行连接，以读取该计算机可读存储介质所存储的一组计算机程序。该计算机可读存储介质存储的计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如上述实施例中所述方法的步骤。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.适航文本特征提取评估方法，其特征在于，包括以下步骤：

获取验证文本，所述验证文本包括文本描述的初始特征集；

2.如权利要求1所述的适航文本特征提取评估方法，其特征在于，所述特征提取采用DSE方法，所述DSE方法包括以下步骤：

文本数据预处理，过滤验证文本中的冗余描述和空描述，然后将文章中的句子中的成分进行分类提取，并转换为TF-IDF向量；

检测重叠句簇，采用相似性网络检测文本描述中的重叠句簇；

3.如权利要求2所述的适航文本特征提取评估方法，其特征在于，在文本数据数据预处理的过程中，还包括：

4.如权利要求3所述的适航文本特征提取评估方法，其特征在于，检测重叠句簇的提取过程中，还包括以下步骤：

建立句子相似性网络，以句子为节点，以句子之间的余弦相似性为权重建立句子相似性网络；

选择种子，选择当前与权重最大、且权重大于阈值的边相连的节点作为种子，通过最大化句簇内节点的适应度来检测一个新的句簇；

找到簇成员，迭代考察新簇的每个邻居节点是否可以作为当前句簇的成员；

识别句簇关键字，从句子中删除一个已识别的特征，并分离重叠特征；

继续迭代考察句簇的邻居节点寻找新的句簇，更新句子相似性网络。

5.如权利要求2或4所述的任一种适航文本特征提取评估方法，其特征在于，特征描述符的提取过程中，还包括以下步骤：

选择给定数量的句簇，根据簇关键字的评价权重，对重叠句簇中的特征进行排序，根据排序结果返回给定数量的句簇；

提取特征描述符，在句簇中提取包含簇关键字的双词短语，合并双词短语中的同义词，并根据双词短语的出现频率进行排序，将最频繁出现双词短语作为一个句簇表示特征的描述符。

6.如权利要求2所述的适航文本特征评估预测方法，其特征在于，在所述特征提取还采用k均值聚类算法、IDC方法和双词短语提取法获取验证文本的验证特征集，以验证DSE方法的特征提取准确度。

7.适航文本特征评估预测系统，其特征在于，包括：

8.适航文本特征评估预测装置，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1至6中任一项所述方法的步骤。