CN115658846A

CN115658846A - 一种适用于开源软件供应链的智能搜索方法及装置

Info

Publication number: CN115658846A
Application number: CN202211218084.7A
Authority: CN
Inventors: 崔星; 吴敬征; 罗天悦; 武延军; 郭智
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2023-01-31

Abstract

本发明涉及一种适用于开源软件供应链的智能搜索方法及装置。其步骤包括：1)接受用户发送的自然语言查询问句，使用多种方法对查询问句进行关键要素识别，具体识别的要素包括：实体、概念、关系名、属性名、数值型属性；2)依据识别到关键要素的情况，生成候选路径；3)对候选路径进行转换并使用匹配排序模型进行路径匹配排序，从而得到搜索结果。本发明提供一个基于开源软件供应链知识图谱数据的自然语言搜索算法，为用户搜索图谱数据提供了高性能的接口。本发明综合利用多种方法提高关键要素识别从而确保结果召回率，并分条件进行候选路径生成从而降低路径匹配排序范围，有效地提升了利用自然语言对知识图谱数据进行搜索的效果。

Description

一种适用于开源软件供应链的智能搜索方法及装置

技术领域

本发明属于计算机技术领域，涉及一种适用于开源软件供应链的智能搜索方法及装置。

背景技术

开源软件已经成为当今应用程序的基础，在开源软件在开发和运行过程中,将涉及到的所有开源软件的上游社区、源码包、二进制包、第三方组件分发市场、应用软件分发市场,以及开发者和维护者、社区、基金会等,按照依赖、组合等形成供应关系网络构成了开源软件供应链。开源软件供应链通常将知识图谱作为信息载体，利用Neo4j等图数据库进行数据存储。对供应链知识图谱数据进行查询通常需要Cypher等查询语句，查询过程中不仅要求查询者掌握基本的语法，也需要查询者对图谱数据的实体、关系类型有一定的了解，但大部分情况下普通用户并不具备以上能力。

目前利用自然语言直接对知识图谱进行查询，主流的方法包括语义解析(Semantic Parser)和信息抽取(Information Retrieval)。基于语义解析的方法是将自然语言问句转化为一系列形式化的逻辑表达式，该逻辑表达式能表达整个问题的语义信息，并且可以转换为可以在知识图谱中执行的查询语句，最后利用相应的查询语句在知识图谱中查询获取目标数据。而基于信息抽取的方法则是识别并提取问题中的中心实体，在知识图谱中查询出该实体节点相邻范围内的知识子图，将子图包含的每一条节点、边或路径都当作候选的答案，建立模型将候选答案和问题都转换为特征向量，进而比较候选答案和问题的相似度进行候选排序获取最终结果。然而，面对现实数据资源复杂多样的情况，仅仅利用单一方法解答往往召回率和精确率都不尽人意。因此在构建查询系统时，应当综合利用多种算法，扩大前期的召回并精确后期的筛选。

发明内容

本发明的目的在于提供一种适用于开源软件供应链的智能搜索方法及装置，包含了基于多方法协作的关键要素挖掘，多条件的候选路径生成以及候选路径匹配排序三个部分组成。该方法综合利用多种方法进行关键要素识别从而确保结果召回率，并分条件生成候选路径从而有效降低路径匹配排序范围。

为实现上述目的，本发明采用如下技术方案：

一种适用于开源软件供应链的智能搜索方法，其步骤包括：

接收用户输入的自然语言查询问句，对自然语言查询问句进行关键要素识别，其中关键要素是开源软件供应链知识图谱中的关键要素；

依据识别的关键要素，采用多条件的候选路径生成策略生成候选路径；

将候选路径与自然语言查询问句进行匹配排序，将匹配排序结果中得分最高的候选路径作为搜索的最终结果。

进一步地，所述关键要素识别，具体识别的要素包括：开源软件供应链知识图谱中的实体、概念、关系名、属性名、数值型属性。

进一步地，所述对查询问句进行关键要素识别，是使用多种方法对查询问句进行关键要素识别，其步骤包括：

1)基于同义词字典的实体、概念、关系名、属性名识别。这一步通过分词工具对query语句进行分词处理，将分词后获得的token，将该token与离线生成的字典树进行匹配。字典树包含了知识图谱中的实体名、概念名、关系名、属性名，并且包含每个词条对应的同义词、近义词。为提升召回效果，token与字典词条会进行大小写归一，针对英文单词还进行词干提取，词性还原等操作。

2)基于序列标注模型的命名实体识别。由于现实中可能遇到的实体对象无法穷举的情况，因此本发明采用深度学习的方法来进行命名实体识别。通过BERT+FLAT的模型进行序列标注，从而完成实体识别工作。FLAT使用位置编码方式结合外加的词汇边界信息能够提高模型对实体边界的识别效果。

3)数值属性发现和归一。在进行搜索的问句中，可能出现关于部分数值类属性的描述，包括关于时间的描述，此类描述需要进行额外的处理。

4)基于规则的实体识别。对于开源软件供应链知识图谱而言，图谱中部分类型实体的代表属性具有明显的规则特性。针对这部分实体，本发明采用基于规则方法进行实体识别。

进一步地，所述依据识别的关键要素，采用多条件的候选路径生成策略生成候选路径，包括：针对单关键实体的一阶二阶路径扩充；针对多关键实体的候选路径选择及一阶二阶路径扩充；利用识别到的关系对候选路径进行筛选过滤；利用特定类型属性对候选路径进行筛选过滤。

进一步地，所述多条件的候选路径生成策略，具体步骤包括：

1)若关键要素中仅识别到知识图谱中的单个关键实体，则将该实体作为初始化节点，将其分别沿着知识图谱的三元组方向进行拓展，拓展包括关键实体存在的一阶或二阶路径作为候选路径。

2)若关键要素中识别到知识图谱中的单个关键实体和单个关系名，则将该实体作为初始化节点，并将等于识别关系名的一阶路径或包含已识别关系的二阶路径作为候选路径。

3)若关键要素中识别到知识图谱中的两个实体，则将连通两个实体的一阶或二阶路径作为候选路径，并对候选路径做扩展，扩展方式为添加头实体或尾实体的一阶或二阶路径。

4)若关键要素中除了识别到两个实体外，还包括其他关系，则在3)的基础上，按与2)相同的方式对候选路径进行筛选。

5)若关键要素识别中识别到知识图谱的数值属性，则为其候选路径中的各个节点，分别添加候选属性以限制进行筛选，从中剔除不具备该类型属性的节点。

进一步地，所述将候选路径与自然语言查询问句进行匹配排序，包括：利用Sentence-BERT模型作为路径排序模型，用平均池化提取特征并使用余弦相似度计算相似度得分以进行排序。

进一步地，所述将候选路径与自然语言查询问句进行匹配排序，具体步骤包括：

1.使用开源软件供应链知识图谱的训练数据训练匹配排序模型，该匹配排序模型为Sentence-BERT模型，用于对候选路径进行排序。

2.由于图谱中的三元组构建的路径无法被BERT预训练模型直接处理，因此本发明按照预设的规则，对三元组构建的候选路径进行转换，构建出自然语言形式的候选路径表达形式。

3.指标评估，将转换后获得的候选路径表达输入匹配排序模型，并根据问题的相似度进行排序。在测试集上，通过与排序相关的指标来衡量匹配排序模型的好坏。

4.将候选路径和用户输入的查询问句输入训练好的匹配排序模型，根据匹配排序模型给出的分数，选择得分最高的候选路径作为搜索的最终结果。

一种适用于开源软件供应链的智能搜索装置，其包括：

关键要素识别模块，用于接收用户输入的自然语言查询问句，对自然语言查询问句进行关键要素识别，其中关键要素是开源软件供应链知识图谱中的关键要素；

候选路径生成模块，用于依据识别的关键要素，采用多条件的候选路径生成策略生成候选路径；

匹配排序模块，用于将候选路径与自然语言查询问句进行匹配排序，将匹配排序结果中得分最高的候选路径作为搜索的最终结果。

本发明的有益效果是：

本发明设计并实现了基于开源软件供应链知识图谱的智能搜索方法，该方法将用户的自然语言问句自动转化为查询语言并执行，直接返回用户希望查询的目标数据，能够提升用户查询体验。

本发明能够一定程度上解决当前主流搜索算法应用到供应链知识图谱的中的召回率不足问题，提出了多方法协作识别关键要素，并利用分条件路径生成方法降低候选结果搜索范围。本发明为开源软件供应链知识图谱提供了用户友好的自然语言搜索模型，在保证准确性的前提下，有效提升了知识搜索的易用性。

附图说明

图1.适用于开源软件供应链的智能搜索方法流程图。

图2.基于多方法协作的关键要素挖掘示意图。

图3.多条件的候选路径生成策略方法示意图。

图4.候选路径匹配排序的方法示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加清晰，下面结合附图和具体实施方式对本发明做进一步详细的说明。

本发明实施例可以应用于开源软件供应链智能搜索场景中。例如，通过为软件供应链知识图谱提供智能搜索接口，用户通过自然语言问句的形式进行查询，就可以返回用户所期待的相关节点和关系属性。通过该功能及装置可以降低用户对图谱数据进行查询的学习成本，从而提高对开源软件信息处理的效率。

参照图1，展示了本发明中适用于开源软件供应链的智能搜索方法流程图，具体主要包括如下步骤：

1.基于多方法协作的关键要素挖掘：接受用户发送的搜索自然语言问句，使用多种方法对查询问句进行关键要素识别。具体识别的要素包括：实体、概念、关系名、属性名、数值型属性。

2.多条件的候选路径生成：依据识别到关键要素的情况，生成候选路径。

3.候选路径匹配排序：对候选路径进行转换并使用预训练模型进行路径匹配排序。

图2展示了本发明中多方法协作的关键要素挖掘流程。具体包括如下内容：

1.供应链软件图谱中的同义的实体、概念、关系名、属性名识别。具体实现中，利用BabelNet多语言知识库、Synonyms中文近义词工具包、词向量等方法获取相关对象的同义词、近义词。对英文单词表示的关系名、属性名在获取中文表示后获取其中文表示的同义词、近义词，并对其英文表示进行词性还原和词干提取。为所有对象的原始词条和处理后词条构建字典树，通过该字典树与查询语句query进行匹配，识别匹配到的实体、概念、关系名、属性名等对象。

2.引入位置向量进行命名实体识别。具体地，采用Lattice结构的NER模型Flat-Lattice Transformer(FLAT)来进行实体识别。FLAT方法为每个span(span指由字符或词汇组成的字符串片段)增加了两个位置编码，分别表示span在句子中的开始和结束的位置。对于单个字来说，其开始位置和结束位置都是相同的，FLAT使用相对距离表示x_i和x_j之间的关系，其中x_i和x_j表示两个不同的span，从四个不同的角度计算x_i和x_j之间的距离：

其中，s_head[i]和s_tail[i]分别表示span x_i头尾位置坐标，

表示x_i的开始位置和x_j的开始位置间的距离，

表示x_i的开始位置和x_j的结束位置间的距离，

表示x_i的结束位置和x_j的开始位置间的距离，

表示x_i的结束位置和x_j的结束位置间的距离。计算之后得到四个相对距离矩阵，将四个距离拼接后进行非线性变换得到x_i和x_y的位置编码向量：

其中W_r是可学习的参数，P_d是Transformer采用的绝对位置编码：

其中，

表示偶数位的位置编码，

表示奇数位的位置编码，d表示

或

k表示位置编码的维度索引，d_model表示编码器和解码器的输入输出的维度。

这样，每一个span都与其他任意span进行充分的交互，然后采用Transformer-XL中基于相对位置编码的self-attention(自注意力):

其中，

表示注意力权重，

W_k,E、W_k,R、u^T、v^T表示可学习的参数，

表示x_i对应的嵌入向量转置，

表示x_j对应的嵌入向量。

在进行NER训练时，同时使用了通用NER标注数据、利用弱监督方法从通用KBQA问句中获取的NER标注数据以及对特有领域问题的人工标注数据。

3.基于规则的实体识别。本发明是基于开源软件供应链知识图谱的智能搜索，由于软件图谱中部分类型实体的代表属性具有明显的规则特性，通过正则表达就可以进行识别。针对这部分实体，我们使用基于规则方法进行实体识别。部分示例如表1所示：

表1

实体类型	典型表述	正则
			Vulnerability	cve-2021-44228	cve-\\d+-\\d+
Weakness	cwe-125	cwe-\\d+

4.数值属性发现和归一。在进行搜索的问句中，可能出现关于部分数值类属性的描述，包括关于时间的描述，此类描述需要进行额外的处理，并处理成统一的表示形式。部分示例如表2所示：

表2

查询问句	原始描述	归一后描述
			2020年一月的漏洞有哪些？	2020年一月	2020-01
大小为二百二十三兆的软件？	二百二十三	223

图3展示了对识别出的关键要素生成候选路径方法的流程。具体的说明内容如下：

1.若关键要素中仅识别到图谱中的单个关键实体，如仅识别出(nano)实体，则将该实体作为初始化节点，将其分别沿着知识图谱的三元组方向进行拓展，拓展包括(nano)实体存在的一阶或二阶路径作为候选路径。这里，本发明中使用(E)表示策略生成的未知节点，用[R]表示策略生成的未知关系，则此步可能的路径包含如下三种情况：

(nano)-[R]-(E)

(nano)-[R]-(E)-[R]-(E)

(E)–[R]-(nano)-[R]-(E)

2.若关键要素中识别到图谱中的单个关键实体和单个关系类型，则将该实体作为初始化节点，并将其看做识别关系名的一阶路径或包含已识别关系二阶路径作为候选路径，此步骤可以视为对情况1的筛选。如识别出(nano)实体和[作者]关系，此处可能生成的路径示例如下：

(nano)-[作者]-(E)

(nano)-[R]-(E)-[作者]-(E)

(E)–[作者]-(nano)-(R)-(E)

3.若关键要素中识别到图谱中的两个实体，则将连通两个实体的一阶或二阶路径作为候选路径，并对候选路径做扩展，扩展方式为添加头实体或尾市体的一阶或二阶路径。如，识别出(nano)和(BSD)实体，则此时可能生成的路径示例如下：

(nano)-(R)-(E)-(R)-(BSD)

(nano)-[R]-(E)-[R]-(BSD)-(R)-(E)

4.若关键要素中除两个实体外，还包括其他关系，在3的基础上，按2进行处理。如识别出(nano)和(BSD)且识别出关系[依赖]，则此时可能生成的路径示例如下：

(nano)-[依赖]-(E)-(R)-(BSD)

(nano)-[依赖]-(E)-[R]-(BSD)-(R)-(E)

5.若关键要素识别中识别到数值属性，则将为其候选路径中的各个节点，分别添加候选属性限制进行筛选，从中剔除不具备该类型属性的节点。如识别出实体(nano),并识别出数值型属性，则此时可能的生成路径示例如下：

(nano)-[R]-(E<E具有数值型属性>)

图4展示了本发明中用于进行路径匹配排序的方法模型，通过使用孪生网络结构，获取句子对的向量表示，计算句子对的相似度，从而对路径进行排序。具体说明如下：

1.将句子对输入到参数共享的两个BERT模型中，然后BERT模型输出句子的所有字向量传入Pooling(池化)层进行平均池化获取到每个句子的句向量表示。

2.通过Sentence-BERT模型对句子生成的向量构建目标函数，其中包括三种方式：

①将两个句子向量和其按位求差向量进行拼接：

o＝softmax(W_t(u,v,|u-v|))

其中，u、v分别代表了两个句子向量，o表示目标函数，W_t表示可学习的权重参数，|·|表示按位求差。

②对两个句子向量计算余弦相似度：

其中，l表示损失函数，cos(θ)表示余弦相似度，n表示样本数，y表示实际标签，y’表示预测标签，MSE(y,y’)表示求均方误差。

③以及使用锚定句和正负样本的方式：

l＝max(||s_a-s_p||-||s_a-s_n||+∈,0)

其中s_a、s_p、s_n分别代表代表锚定句和正负样本，l表示损失函数，||·||表示欧氏距离，∈表示s_a与s_p的距离至少应比s_a与s_n的距离近∈。

考虑到实际应用中正样本的获取难度远远高于负样本的获取难度，为取得最佳效果在本发明中在训练时使用方式③，并将其迁移至方式②进行预测。

3.训练时，模型输入包括句子a和正确的结果p以及随机构建的负样本n。其中p和n都可以作为候选路径b进行输入。参数包括训练批次大小batch_size、迭代次数epoch以及使用的预训练模型word_embedding_model。

4.用于进行路径排序时，模型输入包括查询语句query，以及候选路径candidate，模型输出两者的相似度得分。根据得分对所有候选路径进行排序并以得分最高的路径作为结果返回。

本发明的另一实施例提供一种适用于开源软件供应链的智能搜索装置，其包括：

本发明的另一实施例提供一种计算机设备(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上公开的本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种适用于开源软件供应链的智能搜索方法，其步骤包括：

2.如权利要求1所述的方法，其特征在于，所述对自然语言查询问句进行关键要素识别，是融合多种方法进行关键要素识别，包括：基于同义词词典的实体、概念、关系名、属性名识别；基于序列标注模型的实体识别；基于规则的实体识别；数值属性发现和归一。

3.如权利要求1所述的方法，其特征在于，所述依据识别的关键要素，采用多条件的候选路径生成策略生成候选路径，包括：针对单关键实体的一阶二阶路径扩充；针对多关键实体的候选路径选择及一阶二阶路径扩充；利用识别到的关系对候选路径进行筛选过滤；利用特定类型属性对候选路径进行筛选过滤。

4.如权利要求4所述的方法，其特征在于，所述多条件的候选路径生成策略，包括：

1)若关键要素中仅识别到知识图谱中的单个关键实体，则将该实体作为初始化节点，将其分别沿着知识图谱的三元组方向进行拓展，拓展包括关键实体存在的一阶或二阶路径作为候选路径；

2)若关键要素中识别到知识图谱中的单个关键实体和单个关系名，则将该实体作为初始化节点，并将等于识别关系名的一阶路径或包含已识别关系的二阶路径作为候选路径；

3)若关键要素中识别到知识图谱中的两个实体，则将连通两个实体的一阶或二阶路径作为候选路径，并对候选路径做扩展，扩展方式为添加头实体或尾实体的一阶或二阶路径；

4)若关键要素中除了识别到两个实体外，还包括其他关系，则在3)的基础上，按与2)相同的方式对候选路径进行筛选；

5)若关键要素识别中识别到知识图谱的数值属性，则将为其候选路径中的各个节点，分别添加候选属性以限制进行筛选，从中剔除不具备该类型属性的节点。

5.如权利要求1所述的方法，其特征在于，所述将候选路径与自然语言查询问句进行匹配排序，包括：利用Sentence-BERT模型作为路径排序模型，用平均池化提取特征并使用余弦相似度计算相似度得分以进行排序。

6.如权利要求5所述的方法，其特征在于，通过所述Sentence-BERT模型对句子生成的向量构建目标函数，其中包括三种方式：

①将两个句子向量和其按位求差向量进行拼接：

o＝softmax(W_t(u,v,|u-v|))

其中，u、v分别代表了两个句子向量，o表示目标函数，W_t表示可学习的权重参数，|·|表示按位求差；

②对两个句子向量计算余弦相似度：

其中，l表示损失函数，cos(θ)表示余弦相似度，n表示样本数，y表示实际标签，y’表示预测标签，MSE(y,y’)表示求均方误差；

③以及使用锚定句和正负样本的方式：

l＝max(||s_a-s_p||-||s_a-s_n||+∈,0)

其中，s_a、s_p、s_n分别代表代表锚定句和正负样本，l表示损失函数，||·||表示欧氏距离，∈表示s_a与s_p的距离至少应比s_a与s_n的距离近∈。

7.如权利要求6所述的方法，其特征在于，在训练时使用方式③，并将其迁移至方式②进行预测。

8.一种适用于开源软件供应链的智能搜索装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一项所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一项所述的方法。