CN117056458B

CN117056458B - 基于向量空间算法进行前端检索的方法

Info

Publication number: CN117056458B
Application number: CN202310982287.1A
Authority: CN
Inventors: 时迎超; 王杨; 陈家栋
Original assignee: Beijing Wangpin Information Technology Co ltd
Current assignee: Beijing Wangpin Information Technology Co ltd
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2024-04-19
Anticipated expiration: 2043-08-04
Also published as: CN117056458A

Abstract

本发明公开了一种基于向量空间算法进行前端检索的方法，属于数据处理技术领域。本发明包括以下步骤：通过针对不同行业和职类设置不同的KG空间，通过描述、段落和句子进行不同维度的重复提取和计算，再与实际场景进行匹配提取命中率最高的关键词，然后将关键词维护到集中的KG空间中，抽取得到编码词库并用于前端检索和推荐。使用transforme r模型层记忆全局信息，使每个字都含有全局信息，经过transformer模型后，将文章分并打包成batch，批量送入序列模型RNN，使RNN并行对文章每句话进行编码，达到高性能记忆的效果。

Description

基于向量空间算法进行前端检索的方法

技术领域

本发明属于数据处理技术领域，具体地说，涉及一种基于向量空间算法进行前端检索的方法，更具体地说，涉及一种基于分场景长词链向量空间算法进行前端检索的方法。

背景技术

大数据的技术和应用价值已被广泛认可，而其未来核心技术之一知识图谱(Knowledge Graph)也随着互联网技术巨头公司的应用得到迅速发展。亚马逊运用大数据为客户推荐商品信息，形成了人与商品的全面关系；微软开发了“人立方”，形成了人与人的立体化关系，真正实现人和人的六度空间搜索；百度开发了“百度大脑”，在国内重新定义了搜索引擎，为用户提供全面扩展的搜索结果；谷歌更是早就开始了用大数据思维“接管世界”，最早开发了互联网搜索引擎，开启了互联网时代，并基于此开发了Google Brain，引领了知识图谱的概念及技术普及。知识图谱是一种图结构的知识库，属于知识工程的范畴。不同于普通知识库，知识图谱融合所有学科，将不同来源、不同类型、不同结构的知识单元通过链接关联成图，基于各学科的元数据，为用户提供更广度、更深度的知识体系并不断扩充，其本质上是将领域知识数据体系化、关系化，并以图的方式将知识可视化。简单来说，可以将知识图谱理解成基于信息系统建立的知识体系，通过数据采集、数据挖掘、信息处理、知识计量和图形绘制等技术把复杂的知识领域系统地显示出来，揭示知识领域的动态发展规律。

在招聘求职行业中最关键的知识图谱元素是JD和CV，其大多以文本形式对自身的属性进行描述，同时其自身带有明确的行业特征和用户属性。如图1所示，是在招聘求职行业中带有最关键的元素JD和CV的知识图谱示意图，为了更加精准和快速的提供JDCV的检索和推荐，基于现有数据进行关键词提取、数据挖掘形成一个完整、准确的知识图谱至关重要。

当前知识图谱系统已经就JD进行了NLP的解析，但是其语义分析不够准确，尤其是对于三级职类的理解还有很大的歧义和误差，包括职位名称、公司名称、技能关键词等，导致下游在召回和排序等场景下，准确度下降。知识图谱对于JD和CV的信息不一致，导致前端搜索和推荐算法的准确度非常低，尤其是在特定行业的专有岗位(三级职类)上，这种现象更加严重。基于JD和CV的沟通场景，目前的非结构化数据挖掘做的不够，基于聊天频次、聊天内容、匹配度等关键信息的挖掘和分析不足，导致了数据资产的浪费与闲置。

如图2所示，传统实体抽取常为短文本的抽取任务。基于词图模型的关键词提取算法主要有PageRank和TextRank。PageRank是TextRank算法的思想基础，TextRank是PageRank在文本上的应用。其来源于Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法，通过计算网页链接的数量和质量来粗略估计网页的重要性。主要应用在在谷歌的搜索引擎中，是谷歌搜索的核心算法，对网页进行排名，从而解决互联网网页的价值排序问题。其核心思想是关注词链的链接数量和链接质量。链接数量：如果一个网页被很多其他网页链接到，说明这个网页比较重要，也就是PageRank值会相对较高。链接质量：如果一个PageRank值很高的网页链接到一个其他的网页，那么被链接到的网页的PageRank值会相应地因此而提高。

对应于在招聘求职行业中，通过整个JD和CV集合看作一张有向图，所有的关键词构成了图中的节点。任务是从图中挖掘每个节点的权重作为其重要性的度量。一个节点如果由很多个其他节点指向它，那么这个节点应该就很重要。同样，如果有多个高权重的节点指向某一节点，且这个节点指向外部的链接数很少，那么这个被链接的点显然非常重要。

但是常规算法针对我们当前的应用场景有以下缺点：词链长度有限制，当词链长度过长后，其效率下降明显。词链分析缺少上下文环境支持，融合NLP与KG标签使标签体系精细且层次分明，但数据需求量庞大，所以导致不同行业和职类的匹配算法难以支撑290类实体使模型难以拟合或者过拟合。

为了提高数据资产的应用价值，提高NLP分析准确性，并且提升知识图谱的一致性，我们计划对当前的NLP和KG(knowledge graph,知识图谱)进行升级和改造，以提高检索效率和匹配的准确度。

针对以上问题，我们创新的提出了分场景长词链向量空间算法，通过针对不同行业和职类设置不同的KG空间，通过描述、段落和句子不同维度的重复提取和计算，再与实际场景进行匹配提取命中率最高的关键词。然后将关键词维护到集中的KG空间中，用于前端检索和推荐。

发明内容

解决的问题

针对上述现有技术存在的问题，本发明提供一种基于分场景长词链向量空间算法进行前端检索的方法。

技术方案

为解决上述问题，本发明采用如下的技术方案。

图3为本发明的基于向量空间算法进行前端检索的方法的流程图；

如图3所示，本发明的基于向量空间算法进行前端检索的方法，包括以下步骤：

S1：通过针对不同行业和职类设置不同的KG空间，通过描述、段落和句子进行不同维度的重复提取和计算。

进一步的，上述所述的基于分场景长词链向量空间算法进行前端检索的方法，所述的KG空间内内核数据为不同行业和职类，内核数据未经历启动时刻的内核初始化，需重定位到原内核数据，内核进行正常执行；依据内核代码及数据与原内核代码及数据相对位置不变这一原理，有：

D_actual-D_{actual_imageBase}＝D_default-D_{defalut_imageBase} (I)

式(I)中，D_{actual_imageBase}是原内核加载基地址；D_actual是原内核中数据的正确值地址，也是内核重定向数据指向的数据位置；D_{default_imageBase}是内核加载基地址；D_default是重定向表给出的需要修复的重定向数据地址。

进一步的，上述所述的基于分场景长词链向量空间算法进行前端检索的方法，

修复内核系统调用表中系统调用的地址，使其指向GPU层内核纯净的可执行代码；根据内核加载基地址与原内核加载基地址之间的偏移，可依据确定每一个系统调用函数地址：

NewSSDTFuncAddr＝OrigSSDTFuncAddr+Δ (II)

式(II)中，NewSSDTFuncAddr是内核SSDT表中的某个系统调用函数地址；OrigSSDTFuncAddr是原内核SSDT表中对应的系统调用函数地址；Δ是内核加载基地址与原内核加载基地址之间的偏移量。

所述的GPU层中集约管理的调度算法如下：

式(III)中，其中FD_Qk代表集约管理的量化复杂性程度值，其中d_kij代表集约管理的第k个构件集的列向上与行向上的知识图谱数据，其中p_ki代表集约管理的第k个构件集的列向上的知识图谱数据的复杂度值，其中p_kj代表集约管理的第k个构件集的行向上的知识图谱数据的复杂度值。

所述的重复提取和计算的技术方法如下：

将结构化的数据、半结构化的数据进行特征表示化处理，其中数据为描述、段落和句子，其中特征表示化时需将第i组关键词的权重值进行如下算法的处理：

式(IV)中，其中P(S)代表所有组的关键词的权重值的分布概率，其中S代表所有组的关键词的权重值的总序列，其中w_i(1≤i≤n)代表第i组关键词的序列号。

进一步的，上述所述的基于分场景长词链向量空间算法进行前端检索的方法，还包括：

S2：与实际场景进行匹配提取命中率最高的关键词。

具体的，所述的匹配提取的模型如下：

匹配调度算法涉及三个参数：任务运行周期T，每个周期内任务运行所需的时间t_r和任务完成的截止时间t_d；每个T内，系统会在t_d之前为任务分配长度为t_r的CPU时间；任务的状态由参数t_s，d和t_r，r描述，t_s，d表示动态调度过程中任务的调度截止时间；t_r，r表示任务的剩余运行时间；Δt表示任务被调度运行的时间；t为当前时刻；任务的实时状态参数为S_t，状态判断门限为S，定义如下所示；

S＝t_r/T； (IV)

S_t＝t_r，r/(t_s，d-t)。 (V)

所述的匹配提取的规则如下：

将非结构化的数据进行NLP的特征表示化处理，其中特征表示化处理为将非结构化的数据根据文本相似度定义规则进行处理。

所述的维护的算法优化的公式如下：

式中，其中MSE_g代表优化后的第二实体关系程度值，其中G_i代表优化后的第一实体关系程度值，其中R_i代表所有组中非结构化的数据的关键词的权重值，其中N代表所有组中非结构化的数据的关键词的统计之和。

所述的编码词库的抽取的方式如下：

将得到的优化后的第一实体关系程度值与得到的优化后的第二实体关系程度值进行比对，然后将优化后的第一实体关系程度值与优化后的第二实体关系程度值进行共性数据的提取。

所述的编码词库设置有多个节点及节点之间的关系边，所述的节点用于存储实体本身，所述的关系边用于存储实体与实体之间的关系本身。

有益效果

相比于现有技术，本发明的有益效果为：

通过针对不同行业和职类设置不同的KG空间，通过描述、段落和句子进行不同维度的重复提取和计算，再与实际场景进行匹配提取命中率最高的关键词，然后将关键词维护到集中的KG空间中，抽取得到编码词库并用于前端检索和推荐。使用transformer模型层记忆全局信息，使每个字都含有全局信息，经过transformer模型后，将文章分并打包成batch，批量送入序列模型RNN，使RNN并行对文章每句话进行编码，达到高性能记忆的效果。

附图说明

图1是在招聘求职行业中带有最关键的元素JD和CV的知识图谱示意图；

图2为传统实体抽取常为短文本的抽取任务示意图；

图3为本发明的基于分场景长词链向量空间算法进行前端检索的方法的流程图；

图4为本发明的分场景长词链向量空间算法的模型结构图；

图5示出了通过本发明的NLP技术对JD和CV中的词链进行向量化处理的示意图；

图6(A)是现有技术中，融合NLP与KG标签之后的使标签体系示意图；

图6(B)是实施本发明后标签体系结构示意图。

具体实施方式

下面结合具体实施例对本发明进一步进行描述。

如图3所示，本发明的基于分场景长词链向量空间算法进行前端检索的方法，包括以下步骤：

其中，本发明的基于分场景长词链向量空间算法进行前端检索的方法，所述的KG空间内内核数据为不同行业和职类，内核数据未经历启动时刻的内核初始化，需重定位到原内核数据，内核进行正常执行；依据内核代码及数据与原内核代码及数据相对位置不变这一原理，有：

D_actual-D_{actual_imageBase}＝D_default-D_{default_imageBase} (I)

本发明的基于分场景长词链向量空间算法进行前端检索的方法，修复内核系统调用表中系统调用的地址，使其指向GPU层内核纯净的可执行代码；根据内核加载基地址与原内核加载基地址之间的偏移，可依据确定每一个系统调用函数地址：

NewSSDTFuncAddr＝OrigSSDTFuncAddr+Δ (II)

本发明的基于分场景长词链向量空间算法进行前端检索的方法，所述的编码词库设置有多个节点及节点之间的关系边，所述的节点用于存储实体本身，所述的关系边用于存储实体与实体之间的关系本身。

本发明的基于分场景长词链向量空间算法进行前端检索的方法，所述的GPU层中集约管理的调度算法如下：

本发明的基于分场景长词链向量空间算法进行前端检索的方法，所述步骤S1中的重复提取和计算的技术方法如下：

本发明的基于分场景长词链向量空间算法进行前端检索的方法，还包括：

S2：与实际场景进行匹配提取命中率最高的关键词。

其中，本发明的基于分场景长词链向量空间算法进行前端检索的方法，所述步骤S2中的匹配提取的模型定义如下所示；

S＝t_r/T； (IV)

S_t＝t_r，r/(t_s，d-t)。 (V)；

式(IV)和(V)中，匹配调度算法涉及三个参数：任务运行周期T，每个周期内任务运行所需的时间t_r和任务完成的截止时间t_d；每个T内，系统会在t_d之前为任务分配长度为t_r的CPU时间；任务的状态由参数t_s，d和t_r，r描述，t_s，d表示动态调度过程中任务的调度截止时间；t_r，r表示任务的剩余运行时间；Δt表示任务被调度运行的时间；t为当前时刻；任务的实时状态参数为S_t，状态判断门限为S。

本发明的基于分场景长词链向量空间算法进行前端检索的方法，所述的匹配提取的规则如下：

传统实体抽取常为短文本的抽取任务，基于词图模型的关键词提取算法主要有PageRank和TextRank。

PageRank是TextRank算法的思想基础，TextRank是PageRank在文本上的应用。其来源于Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法，通过计算网页链接的数量和质量来粗略估计网页的重要性。

主要应用在在谷歌的搜索引擎中，是谷歌搜索的核心算法，对网页进行排名，从而解决互联网网页的价值排序问题。

其核心思想是关注词链的链接数量和链接质量。

链接数量：如果一个网页被很多其他网页链接到，说明这个网页比较重要，也就是PageRank值会相对较高。

链接质量：如果一个PageRank值很高的网页链接到一个其他的网页，那么被链接到的网页的PageRank值会相应地因此而提高。

通过整个JD和CV集合看作一张有向图，所有的关键词构成了图中的节点。任务是从图中挖掘每个节点的权重作为其重要性的度量。一个节点如果由很多个其他节点指向它，那么这个节点应该就很重要。同样，如果有多个高权重的节点指向某一节点，且这个节点指向外部的链接数很少，那么这个被链接的点显然非常重要。

其中，S(vi)是关键词i的重要性(PR值)，初始为1。

d是阻尼系数，一般设置为0.85。

In(vi)表示节点vi的前驱节点集合。

Out(vj)表示节点vj的后继节点集合；

|Out(vj)|是集合中元素的个数。

从而步骤S2的具体算法流程可以是：

S21：给每个网页一个PageRank值(简称PR值)；

S22：通过投票算法不断迭代，直至达到平稳分布为止；

由于步骤S22的算法还存在词链长度有限制，当词链长度过长后，其效率下降明显，以及词链分析缺少上下文环境支持，所以导致不同行业和职类的匹配算法难以拟合或者过拟合的问题，因此，本发明的基于分场景长词链向量空间算法进行前端检索的方法，还包括：

S3：将关键词维护到集中的KG空间中，抽取得到编码词库并用于前端检索和推荐。

所述步骤S3中的的维护的算法优化的公式如下：

式(VII)中，其中MSE_g代表优化后的第二实体关系程度值，其中G_i代表优化后的第一实体关系程度值，其中R_i代表所有组中非结构化的数据的关键词的权重值，其中N代表所有组中非结构化的数据的关键词的统计之和。

本发明的基于分场景长词链向量空间算法进行前端检索的方法，所述步骤S3中的编码词库的抽取的方式如下：

步骤S31：将得到的优化后的第一实体关系程度值与得到的优化后的第二实体关系程度值进行比对；

步骤S32：将优化后的第一实体关系程度值与优化后的第二实体关系程度值进行共性数据的提取。

本发明提出的分场景长词链向量空间算法，通过针对不同行业和职类设置不同的KG空间，通过描述、段落和句子不同维度的重复提取和计算，再与实际场景进行匹配提取命中率最高的关键词。然后将关键词维护到集中的KG中，用于前端检索和推荐。

JDCV内容理解所面对的都是长文本，少则几百字多则上千字，对理解能力是很大的考验，而擅长序列记忆的面模型面对长文本性能较差，使用图内并行计算的方式可以在使用序列表模型的同时兼顾模型性能，其模型结构如图4所示。

使用transformer模型层记忆全局信息，使每个字都含有全局信息，经过transformer模型后，将文章分并打包成batch，批量送入序列模型RNN，使RNN并行对文章每句话进行编码，达到高性能记忆的效果。

如图5所示，示出了通过本发明的NLP技术对JD和CV中的词链进行向量化处理的示意图。

Bert向量化并降维：本发明通过NLP技术对JD和CV中的词链进行向量化处理，考虑到行业特性分别从不同的维度分别进行向量化处理，包括行业上下文、章节、局子三个层次，然后依据历史数据样本，对不同维度的向量化结果进行评估，标注不同的权重。由于不同行业的专有名词及语义的区别，针对不同行业进行降维，不再采用统一的维度模型，从原来的768个维度降低到64个维度，这大大提高了运算效率并降低了数据存取时间。

图6(A)是现有技术中，融合NLP与KG标签之后的使标签体系示意图，从图中可以看出，融合NLP与KG标签使标签体系精细且层次分明，但数据需求量庞大，现有数据无法支撑290类实体使模型难以拟合。图6(B)是实施本发明后标签体系结构示意图。丛图6(B)可以看出，应用本发明后，职位描述(JD)与简历(CV)的标签结构相互对应，理解目标明确。本发明使用transformer模型层记忆全局信息，使每个字都含有全局信息，经过transformer模型后，将文章分并打包成batch，批量送入序列模型RNN，使RNN并行对文章每句话进行编码，达到高性能记忆的效果。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.基于向量空间算法进行前端检索的方法，其特征在于，包括以下步骤：

S1：针对不同行业和职类设置不同的KG空间，通过描述、段落和句子进行不同维度的重复提取和计算；

S2：与实际场景进行匹配提取，得到命中率最高的关键词；

S3：将关键词维护到集中的KG空间中，抽取得到编码词库并用于前端检索和推荐；

所述步骤S1中，

所述的KG空间内内核数据为不同行业和职类，内核数据未经历启动时刻的内核初始化，需重定位到原内核数据，内核进行正常执行；

依据内核代码及数据的相对位置与原内核代码及数据的相对位置不变这一原理，有：

D_actual-D_{actual_imageBase}＝D_default-D_{default_imageBase} (I)

式(I)中，D_{actual_imageBase}是原内核加载基地址；D_actual是原内核中数据的正确值地址，也是内核重定向数据指向的数据位置；D_{actual_imageBase}是内核加载基地址；D_default是重定向表给出的需要修复的重定向数据地址：

其中，修复内核系统调用表中系统调用的地址，使其指向GPU层内核纯净的可执行代码；

根据内核加载基地址与原内核加载基地址之间的偏移，可确定每一个系统调用函数地址：

NewSSDTFuncAddr＝OrigSSDTFuncAddr+Δ (II)

式(II)中，NewSSDTFuncAddr是内核SSDT表中的某个系统调用函数地址；

OrigSSDTFuncAddr是原内核SSDT表中对应的系统调用函数地址；

Δ是内核加载基地址与原内核加载基地址之间的偏移量：

其中，所述的GPU层中集约管理的调度算法如下：

式(III)中，其中FD_Qk代表集约管理的量化复杂性程度值，其中d_kij代表集约管理的第k个构件集的列向上与行向上的知识图谱数据，其中p_ki代表集约管理的第k个构件集的列向上的知识图谱数据的复杂度值，其中p_kj代表集约管理的第k个构件集的行向上的知识图谱数据的复杂度值；

所述步骤S1中，所述的重复提取和计算的方法如下：

式(IV)中，其中P(S)代表所有组的关键词的权重值的分布概率，其中S代表所有组的关键词的权重值的总序列，其中w_i代表第i组关键词的序列号，其中1≤i≤n；

所述步骤S2中，所述的匹配提取的模型定义如下所示；

E＝t_r/T； (IV)

E_t＝t_r,r/(t_s,d-t)； (V)；

式(IV)和(V)中，匹配调度算法涉及以下参数：任务运行周期T，每个周期内任务运行所需的时间t_r；每个T内，系统会在任务完成时间之前为任务分配长度为t_r的CPU时间；任务的状态由参数t_s，d和t_r，r描述，t_s，d表示动态调度过程中任务的调度截止时间；t_r，r表示任务的剩余运行时间；t为当前时刻；任务的实时状态参数为E_t，状态判断门限为E；

所述步骤S3中，所述的维护的算法优化的公式如下：

2.根据权利要求1所述的基于向量空间算法进行前端检索的方法，其特征在于：

所述步骤S2的具体算法流程可以是：

S21：给每个网页一个PageRank值；

S22：通过投票算法不断迭代，直至达到平稳分布为止。

3.根据权利要求1所述的基于向量空间算法进行前端检索的方法，其特征在于：

所述步骤S2中，所述的匹配提取的规则如下：

4.根据权利要求1所述的基于向量空间算法进行前端检索的方法，其特征在于：

所述步骤S3中，所述的编码词库的抽取的方式如下：