CN117112773A

CN117112773A - 一种基于nlp的适航非结构化数据的搜索方法及装置

Info

Publication number: CN117112773A
Application number: CN202311158016.0A
Authority: CN
Inventors: 黄楠; 牛文生; 牟明; 许政�; 郭雨枫; 陈鸣; 罗杰; 邹辉; 孙友良
Original assignee: Avic Airborne System General Technology Co ltd
Current assignee: Avic Airborne System General Technology Co ltd
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2023-11-24

Abstract

本发明属于适航测试技术领域，提供了一种基于NLP的适航非结构化数据的搜索方法及装置。本搜索方法，包括以下步骤：S1：获取适航数据，使用RLHF和TF‑IDF算法对适航数据进行处理，获得关键词数据集；S2：根据用户输入的查询语句，获取查询关键词词组；S3：利用NLP模型将查询关键词词组和S1中获得的关键词数据集进行匹配，得到候选适航数据集合；S4：将候选适航数据集合中的各适航数据排序并展示。本搜索方法，在获取关键词数据集的时候，将RLHF和TF‑IDF结合使用，提高关键词提取的准确性和精度。

Description

一种基于NLP的适航非结构化数据的搜索方法及装置

技术领域

本发明涉及适航测试技术领域，具体涉及一种基于NLP的适航非结构化数据的搜索方法及装置。

背景技术

航空领域中的适航性测试需要大量的数据支持，这些数据散布在各种文件中。在飞机的设计、开发和维护过程中，需要从这些文件中快速找到相关信息以支持决策。

在适航数据搜索方面，目前存在以下技术问题：数据无规律：适航数据来源广泛，格式不一，内容复杂，难以进行有效的分类和整理；搜索效率低：传统的搜索方法需要手动输入关键词，搜索结果不准确，且搜索速度慢；搜索结果不全面：传统的搜索方法只能搜索到与关键词相关的数据，无法搜索到与关键词相关的潜在数据。

专利文献CN112507109A（申请号：CN202011442031.4）公开了一种基于语义分析与关键词识别的检索方法和装置，可以在提高搜索的准确率，但是该专利用到的Textrank算法是一种用于文本的基于图的排序算法，通过把文本分割成若干组成单元（句子），构建节点连接图，用句子之间的相似度作为边的权重，通过循环迭代计算句子的TextRank值，最后抽取排名高的句子组合成文本摘要。但这一摘要严重依赖分词结果，如果某词在分词时被切分成了两个词，那么在做关键词提取时无法将两个词黏合在一起，会直接造成关键词生成的准确率降低。此外，由于TextRank涉及到构建词图及迭代计算，所以提取速度会十分缓慢。

发明内容

有鉴于此，本发明实施例提供了一种基于NLP的适航非结构化数据的搜索方法及装置，用以解决或部分解决上述问题。

第一方面，本发明实施例提供了一种基于NLP的适航非结构化数据的搜索方法，包括以下步骤：

S1：获取适航数据，使用RLHF和TF-IDF算法对所述适航数据进行处理，获得关键词数据集；

S2：根据用户输入的查询语句，获取查询关键词词组；

S3：利用NLP模型将所述查询关键词词组和所述关键词数据集进行匹配，得到候选适航数据集合；

S4：将所述候选适航数据集合中的各所述适航数据排序并展示。

根据本发明实施例的一种具体实现方式，所述步骤S1具体为：

S1.1：对所述适航数据的各文本进行分词处理，将所述适航数据的各文本分解成若干个词；

S1.2：计算每个所述词在所述适航数据的各文本中出现的总次数TF；

S1.3：计算每个所述词的RLHF值；

S1.4：计算每个所述词的TF-IDF值；

S1.5：将每个所述词的RLHF值和TF-IDF值相乘，获得综合权重，根据权重值排序，获得所述关键词数据集。

根据本发明实施例的一种具体实现方式，所述步骤S3具体为：

S3.1:将所述用户查询关键词词组和所述关键词数据集中的各关键词转化为对应的向量表示；

S3.2:分别计算所述用户查询关键词词组中关键词的向量与所述关键词数据集中所有关键词的向量的余弦相似度，获得相似度矩阵；

S3.3:通过预设的匹配阈值从所述相似度矩阵中筛除不匹配的关键词，根据所述相似度矩阵获得所述候选适航数据集合。

根据本发明实施例的一种具体实现方式，所述步骤S4中，根据所述适航数据的发布时间或内容更新时间，及所述余弦相似度进行排序。

根据本发明实施例的一种具体实现方式，所述步骤S4中，展示时，在各所述适航数据的文本中加粗出现的关键词。

根据本发明实施例的一种具体实现方式，所述步骤S4中，展示时，使用散点图、卡片翻转、地图和/或词云图形式可视化展示匹配的所述适航数据。便于用户更直观的了解搜索结果。

第二方面，本发明实施例提供了一种基于NLP的适航非结构化数据的搜索装置，包括：

数据集获取模块，所述数据集获取模块用以获取适航数据，使用RLHF和TF-IDF算法对所述适航数据进行处理，获得关键词数据集；

词组获取模块，所述词组获取模块用以根据用户输入的查询语句，获取查询关键词词组；

匹配模块，所述匹配模块用以利用NLP模型将所述查询关键词词组和所述关键词数据集进行匹配，得到候选适航数据集合；

展示模块，所述展示模块用以将所述候选适航数据集合中的各所述适航数据排序并展示。

根据本发明实施例的一种具体实现方式，所述数据集获取模块具体为：对所述适航数据的各文本进行分词处理，将所述适航数据的各文本分解成若干个词；计算每个所述词在所述适航数据的各文本中出现的总次数TF；计算每个所述词的RLHF值；计算每个所述词的TF-IDF值；将每个所述词的RLHF值和TF-IDF值相乘，获得综合权重，根据权重值排序，获得所述关键词数据集。

根据本发明实施例的一种具体实现方式，所述匹配模块具体为：将所述用户查询关键词词组和所述关键词数据集中的各关键词转化为对应的向量表示；分别计算所述用户查询关键词词组中关键词的向量与所述关键词数据集中所有关键词的向量的余弦相似度，获得相似度矩阵；通过预设的匹配阈值从所述相似度矩阵中筛除不匹配的关键词，根据所述相似度矩阵获得所述候选适航数据集合。

第三方面，本发明实施例还提供了一种电子设备，该电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现前述第一方面或第一方面的任一实现方式中的搜索方法的步骤。

本发明的实施例至少具有如下技术效果：

第一、本搜索方法，在获取关键词数据集的时候，将RLHF和TF-IDF结合使用，由于RLHF和TF-IDF在计算方法和侧重点上不同，结合使用可以取长补短，提高关键词提取的准确性和精度。

第二、在数据排序和结果展示环节中，结合相关性和时效性因素，实现更准确、更完整的的数据搜索。

第三、最后通过可视化的方式展示搜索结果，提高了用户体验。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1示出了本发明实施例所提供的一种基于NLP的适航非结构化数据的搜索方法的流程图；

图2示出了本发明实施例所提供的一种基于NLP的适航非结构化数据的搜索装置的结构框图；

图3示出了本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

图1为本发明实施例提供的一种基于NLP的适航非结构化数据的搜索方法的步骤流程图，参见图1，该方法包括以下步骤：

包括以下步骤：

S1：获取适航数据，使用RLHF和TF-IDF算法对所述适航数据进行处理，获得关键词数据集。

在获取适航数据的关键词数据集阶段，从航空数据提供商处获取适航数据，然后利用RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）和TF-IDF(Term Frequency - Inverse Document Frequency，词频-逆文档频率)算法对适航数据进行关键词提取，得到适航文本的关键词数据集。具体为：

S1.1：对适航数据各文本进行分词处理，将适航文本分解成一个个词；

S1.2：计算每个词在适航文本中出现的总次数，即该词在文本中的词频（TermFrequency，TF）；

S1.3：计算每个词的RLHF值；对于一个给定的词w，计算其在文本s中的位置p(w)和文本长度n，得到其相对位置rp(w)=p(w)/n，然后计算所有词在文本中的rp值，对其排序，并标准化为0-1之间的值，得到每个词的RLHF值；

S1.4：计算每个词的TF-IDF值，其公式为：TF-IDF=TF*IDF；TF为该词在所有文档中出现的频率（DocumentFrequency，DF），IDF为该词的逆文档频率（InverseDocumentFrequency，IDF），其公式为：IDF=log(总文档数/DF)；

S1.5：将每个词的RLHF值和TF-IDF值相乘，计算综合权重，然后按照权重值排序，取出具有较高权重值的词汇，作为关键词进行展示和分析。

由于RLHF和TF-IDF在计算方法和侧重点上不同，结合使用可以取长补短，提高关键词提取的准确性和精度。

S2：根据用户输入的查询语句，获取查询关键词词组。

在获取查询关键词阶段，利用深度学习，实现自动关键词标注，对用户输入的查询文本进行分词、纠错等处理，将原始文本转换为若干个关键词词组。

具体为：结合HMM(Hidden Markov Model，隐马尔可夫模型)模型和CRF（conditional random fields，条件随机场）模型可以实现更准确的关键词自动标注。分以下步骤：

S2.1：特征提取：对于输入的查询文本，提取一些特征，如词性、词频、上下文等。这些特征可以帮助模型更好地理解文本。

S2.2：HMM模型训练：使用训练数据集训练HMM模型。根据已标注的关键词信息，计算初始状态概率、状态转移概率和观测概率。

S2.3：HMM模型预测：对于待标注的文本序列，利用Viterbi算法和已训练好的HMM模型，计算出具有最大概率路径的状态序列。

S2.4：特征转换：将HMM模型预测得到的状态序列转换成特征序列。例如，将关键词状态标记为1，非关键词状态标记为0。

S2.5：CRF模型训练：使用训练数据集和特征序列训练CRF模型。CRF模型可以学习到更复杂的特征之间的关系。

S2.6：CRF模型预测：对于待标注的文本序列和特征序列，利用已训练好的CRF模型进行预测。CRF模型可以考虑更多上下文信息，提高关键词自动标注的准确性。

S2.7：通过结合HMM模型和CRF模型得到的数据集即是关键词词组。

S3：利用NLP模型将查询关键词词组和关键词数据集进行匹配，得到候选适航数据集合。

NLP（自然语言处理）是一种人工智能技术，可以帮助计算机理解和处理人类语言。简单来说即是计算机接受用户自然语言形式的输入，并在内部通过人类所定义的算法进行加工、计算等系列操作，以模拟人类对自然语言的理解，并返回用户所期望的结果。在适航数据搜索方面，NLP可以帮助计算机理解数据的含义，从而实现更准确、更完整的搜索结果。

在获取匹配关键词数据集阶段，利用NLP模型预测两个文本的语义相关性，即通过将用户输入得到的关键词词组和利用适航数据得到的关键词数据集进行匹配，得到候选适航数据集合。具体为：

S3.1:词向量表示。把用户查询关键词词组和关键词数据集中的各关键词转化为对应的向量表示;

假设用户查询数据为“自然语言处理”，现有的关键词数据集包含以下几个关键词：“自然语言处理”、“机器学习”、“数据挖掘”,首先对用户查询关键词词组和关键词数据集中的各词进行处理，转化为向量表示。这里以Word2Vec算法为例，可以使用已经预训练好的词向量模型，将每个词转化为对应的向量表示。例如，可以得到以下向量表示：

“自然语言处理”：[0.1,0.2,0.3,…,0.4]，

“机器学习”：[0.4,0.5,0.6,…,0.2]，

“数据挖掘”：[0.3,0.1,0.9,…,0.7]。

S3.2:相似度计算。分别计算用户查询关键词词组中关键词的向量与关键词数据集中所有关键词的向量的余弦相似度，获得相似度矩阵；

具体计算公式为令用户查询关键词词组Q={q₁,q₂,...q_n}，适航数据库中某个文档d对应的关键词集合，Q与/>的相关度/>的计算方式如下：

（1）

其中，g(⋅,⋅)为相关度计算函数, 如余弦相似度。

例如，可以得到如下表1所示的相似度矩阵：

表1

其中，用户查询数据与自然语言处理关键词的相似度为1，与机器学习关键词的相似度为0.3，与数据挖掘关键词的相似度为0.2。

S3.3:匹配阈值。通过预设的匹配阈值从相似度矩阵中筛除不匹配的关键词，根据相似度矩阵获得候选适航数据集合。

通过设置一个匹配阈值，例如0.5，将用户查询数据与关键词数据集中的关键词进行匹配。如果存在相似度大于匹配阈值的关键词，则表示匹配上。相似度最高的是“自然语言处理”，其相似度为1，大于匹配阈值0.5，因此可以认为用户查询数据与“自然语言处理”这个关键词匹配上了。若有多个相似度大于匹配阈值的关键词，则全保留且按相似度排序。

S4：将候选适航数据集合中的各适航数据排序并展示。

在综合排序和结果展示阶段，从满足用户需求的候选适航数据集合中将各适航数据进行排序和展示。具体为：

在各适航数据文本中加粗出现的关键词或词组，并根据适航数据的发布时间或内容更新时间进行排序；根据预先设定的显示规则，从排序后的结果中选择要展示的关键词，如展示前N个关键词，或者展示匹配得分高于某个阈值的所有关键词等；结合相关性和时效性因素。

根据需要，可视化展示匹配的文本数据，可以使用散点图、卡片翻转、地图、词云图等形式，以便于用户更直观的了解搜索结果。

需要说明的是，各个模块按照流式布局进行排列，仅仅是本发明的一个实施例，也可以采用其他的方式排列，本发明对此不做限定。

本发明的实施例具有如下技术效果：

第一、本搜索方法解决了现有技术中关键词提取准确率低、提取速度慢的问题，利用RLHF和TF-IDF算法有效提升了关键词提取的准确率，加快了提取速度。

第二、本搜索方法在数据展示方面，结合相关性和时效性方法进行排序，通过可视化展示了有关联性的最新数据，提高用户体验。

图2为一种本发明实施例提供的一种基于NLP的适航非结构化数据的搜索装置的结构框图，该装置包括：

数据集获取模块，用以获取适航数据，使用RLHF和TF-IDF算法对适航数据进行处理，获得关键词数据集；具体为：对适航数据的各文本进行分词处理，将适航数据的各文本分解成若干个词；计算每个词在适航数据的各文本中出现的总次数TF；计算每个词的RLHF值；计算每个词的TF-IDF值；将每个词的RLHF值和TF-IDF值相乘，获得综合权重，根据权重值排序，获得关键词数据集。

词组获取模块，用以根据用户输入的查询语句，获取查询关键词词组。

匹配模块，用以利用NLP模型将查询关键词词组和关键词数据集进行匹配，得到候选适航数据集合；具体为：将用户查询关键词词组和关键词数据集中的各关键词转化为对应的向量表示；分别计算用户查询关键词词组中关键词的向量与关键词数据集中所有关键词的向量的余弦相似度，获得相似度矩阵；通过预设的匹配阈值从相似度矩阵中筛除不匹配的关键词，根据相似度矩阵获得候选适航数据集合。

展示模块，用以将候选适航数据集合中的各适航数据排序并展示。

图2实施例中各模块的功能与其对应的方法实施例中的内容相对应，在此不再赘述。

图3示出了本发明实施例提供的电子设备30的结构示意图，电子设备30包括至少一个处理器301(例如CPU)，至少一个输入输出接口304，存储器302，和至少一个通信总线303，用于实现这些部件之间的连接通信。至少一个处理器301用于执行存储器302中存储的计算机指令，以使所述至少一个处理器301能够执行前述任一搜索方法的实施例。存储器302为非暂态存储器(non-transitorymemory)，其可以包含易失性存储器，例如高速随机存取存储器(RAM：RandomAccessMemory)，也可以包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。通过至少一个输入输出接口304(可以是有线或者无线通信接口)实现与至少一个其他设备或单元之间的通信连接。

在一些实施方式中，存储器302存储了程序3021，处理器301执行程序3021，用于执行前述任一分表方法实施例中的内容。

该电子设备可以以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机（例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器（例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)特定服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子设备。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于NLP的适航非结构化数据的搜索方法，其特征在于，包括以下步骤：

S2：根据用户输入的查询语句，获取查询关键词词组；

S3：利用NLP模型将所述查询关键词词组和关键词数据集进行匹配，得到候选适航数据集合；

2.根据权利要求1所述的搜索方法，其特征在于，所述步骤S1具体包括以下步骤：

S1.3：计算每个所述词的RLHF值；

S1.4：计算每个所述词的TF-IDF值；

3.根据权利要求1所述的搜索方法，其特征在于，所述步骤S2中，通过HMM和CRF模型来获取所述查询关键词词组。

4.根据权利要求1所述的搜索方法，其特征在于，所述步骤S3具体包括以下步骤：

5.根据权利要求4所述的搜索方法，其特征在于，所述步骤S4中，根据所述适航数据的发布时间或内容更新时间，及所述余弦相似度进行排序。

6.根据权利要求5所述的搜索方法，其特征在于，所述步骤S4中，展示时，使用散点图、卡片翻转、地图和/或词云图形式，可视化展示匹配的所述适航数据。

7.一种基于NLP的适航非结构化数据的搜索装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述数据集获取模块具体为：对所述适航数据的各文本进行分词处理，将所述适航数据的各文本分解成若干个词；计算每个所述词在所述适航数据的各文本中出现的总次数TF；计算每个所述词的RLHF值；计算每个所述词的TF-IDF值；将每个所述词的RLHF值和TF-IDF值相乘，获得综合权重，根据权重值排序，获得所述关键词数据集。

9.根据权利要求7所述的装置，其特征在于，所述匹配模块具体为：将所述用户查询关键词词组和所述关键词数据集中的各关键词转化为对应的向量表示；分别计算所述用户查询关键词词组中关键词的向量与所述关键词数据集中所有关键词的向量的余弦相似度，获得相似度矩阵；通过预设的匹配阈值从所述相似度矩阵中筛除不匹配的关键词，根据所述相似度矩阵获得所述候选适航数据集合。

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述搜索方法的步骤。