CN117056458A - 基于向量空间算法进行前端检索的方法 - Google Patents
基于向量空间算法进行前端检索的方法 Download PDFInfo
- Publication number
- CN117056458A CN117056458A CN202310982287.1A CN202310982287A CN117056458A CN 117056458 A CN117056458 A CN 117056458A CN 202310982287 A CN202310982287 A CN 202310982287A CN 117056458 A CN117056458 A CN 117056458A
- Authority
- CN
- China
- Prior art keywords
- data
- kernel
- vector space
- retrieval based
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012423 maintenance Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 238000004806 packaging method and process Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000007115 recruitment Effects 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 241000208181 Pelargonium Species 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1053—Employment or hiring
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Animal Behavior & Ethology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于向量空间算法进行前端检索的方法,属于数据处理技术领域。本发明包括以下步骤:通过针对不同行业和职类设置不同的KG空间,通过描述、段落和句子进行不同维度的重复提取和计算,再与实际场景进行匹配提取命中率最高的关键词,然后将关键词维护到集中的KG空间中,抽取得到编码词库并用于前端检索和推荐。使用transforme r模型层记忆全局信息,使每个字都含有全局信息,经过transformer模型后,将文章分并打包成batch,批量送入序列模型RNN,使RNN并行对文章每句话进行编码,达到高性能记忆的效果。
Description
技术领域
本发明属于数据处理技术领域,具体地说,涉及一种基于向量空间算法进行前端检索的方法,更具体地说,涉及一种基于分场景长词链向量空间算法进行前端检索的方法。
背景技术
大数据的技术和应用价值已被广泛认可,而其未来核心技术之一知识图谱(Knowledge Graph)也随着互联网技术巨头公司的应用得到迅速发展。亚马逊运用大数据为客户推荐商品信息,形成了人与商品的全面关系;微软开发了“人立方”,形成了人与人的立体化关系,真正实现人和人的六度空间搜索;百度开发了“百度大脑”,在国内重新定义了搜索引擎,为用户提供全面扩展的搜索结果;谷歌更是早就开始了用大数据思维“接管世界”,最早开发了互联网搜索引擎,开启了互联网时代,并基于此开发了Google Brain,引领了知识图谱的概念及技术普及。知识图谱是一种图结构的知识库,属于知识工程的范畴。不同于普通知识库,知识图谱融合所有学科,将不同来源、不同类型、不同结构的知识单元通过链接关联成图,基于各学科的元数据,为用户提供更广度、更深度的知识体系并不断扩充,其本质上是将领域知识数据体系化、关系化,并以图的方式将知识可视化。简单来说,可以将知识图谱理解成基于信息系统建立的知识体系,通过数据采集、数据挖掘、信息处理、知识计量和图形绘制等技术把复杂的知识领域系统地显示出来,揭示知识领域的动态发展规律。
在招聘求职行业中最关键的知识图谱元素是JD和CV,其大多以文本形式对自身的属性进行描述,同时其自身带有明确的行业特征和用户属性。如图1所示,是在招聘求职行业中带有最关键的元素JD和CV的知识图谱示意图,为了更加精准和快速的提供JDCV的检索和推荐,基于现有数据进行关键词提取、数据挖掘形成一个完整、准确的知识图谱至关重要。
当前知识图谱系统已经就JD进行了NLP的解析,但是其语义分析不够准确,尤其是对于三级职类的理解还有很大的歧义和误差,包括职位名称、公司名称、技能关键词等,导致下游在召回和排序等场景下,准确度下降。知识图谱对于JD和CV的信息不一致,导致前端搜索和推荐算法的准确度非常低,尤其是在特定行业的专有岗位(三级职类)上,这种现象更加严重。基于JD和CV的沟通场景,目前的非结构化数据挖掘做的不够,基于聊天频次、聊天内容、匹配度等关键信息的挖掘和分析不足,导致了数据资产的浪费与闲置。
如图2所示,传统实体抽取常为短文本的抽取任务。基于词图模型的关键词提取算法主要有PageRank和TextRank。PageRank是TextRank算法的思想基础,TextRank是PageRank在文本上的应用。其来源于Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,通过计算网页链接的数量和质量来粗略估计网页的重要性。主要应用在在谷歌的搜索引擎中,是谷歌搜索的核心算法,对网页进行排名,从而解决互联网网页的价值排序问题。其核心思想是关注词链的链接数量和链接质量。链接数量:如果一个网页被很多其他网页链接到,说明这个网页比较重要,也就是PageRank值会相对较高。链接质量:如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页的PageRank值会相应地因此而提高。
对应于在招聘求职行业中,通过整个JD和CV集合看作一张有向图,所有的关键词构成了图中的节点。任务是从图中挖掘每个节点的权重作为其重要性的度量。一个节点如果由很多个其他节点指向它,那么这个节点应该就很重要。同样,如果有多个高权重的节点指向某一节点,且这个节点指向外部的链接数很少,那么这个被链接的点显然非常重要。
但是常规算法针对我们当前的应用场景有以下缺点:词链长度有限制,当词链长度过长后,其效率下降明显。词链分析缺少上下文环境支持,融合NLP与KG标签使标签体系精细且层次分明,但数据需求量庞大,所以导致不同行业和职类的匹配算法难以支撑290类实体使模型难以拟合或者过拟合。
为了提高数据资产的应用价值,提高NLP分析准确性,并且提升知识图谱的一致性,我们计划对当前的NLP和KG(knowledge graph,知识图谱)进行升级和改造,以提高检索效率和匹配的准确度。
针对以上问题,我们创新的提出了分场景长词链向量空间算法,通过针对不同行业和职类设置不同的KG空间,通过描述、段落和句子不同维度的重复提取和计算,再与实际场景进行匹配提取命中率最高的关键词。然后将关键词维护到集中的KG空间中,用于前端检索和推荐。
发明内容
解决的问题
针对上述现有技术存在的问题,本发明提供一种基于分场景长词链向量空间算法进行前端检索的方法。
技术方案
为解决上述问题,本发明采用如下的技术方案。
图3为本发明的基于向量空间算法进行前端检索的方法的流程图;
如图3所示,本发明的基于向量空间算法进行前端检索的方法,包括以下步骤:
S1:通过针对不同行业和职类设置不同的KG空间,通过描述、段落和句子进行不同维度的重复提取和计算。
进一步的,上述所述的基于分场景长词链向量空间算法进行前端检索的方法,所述的KG空间内内核数据为不同行业和职类,内核数据未经历启动时刻的内核初始化,需重定位到原内核数据,内核进行正常执行;依据内核代码及数据与原内核代码及数据相对位置不变这一原理,有:
Dactual-Dactual_imageBase=Ddefault-Ddefalut_imageBase (I)
式(I)中,Dactual_imageBase是原内核加载基地址;Dactual是原内核中数据的正确值地址,也是内核重定向数据指向的数据位置;Ddefault_imageBase是内核加载基地址;Ddefault是重定向表给出的需要修复的重定向数据地址。
进一步的,上述所述的基于分场景长词链向量空间算法进行前端检索的方法,
修复内核系统调用表中系统调用的地址,使其指向GPU层内核纯净的可执行代码;根据内核加载基地址与原内核加载基地址之间的偏移,可依据确定每一个系统调用函数地址:
NewSSDTFuncAddr=OrigSSDTFuncAddr+Δ (II)
式(II)中,NewSSDTFuncAddr是内核SSDT表中的某个系统调用函数地址;OrigSSDTFuncAddr是原内核SSDT表中对应的系统调用函数地址;Δ是内核加载基地址与原内核加载基地址之间的偏移量。
所述的GPU层中集约管理的调度算法如下:
式(III)中,其中FDQk代表集约管理的量化复杂性程度值,其中dkij代表集约管理的第k个构件集的列向上与行向上的知识图谱数据,其中pki代表集约管理的第k个构件集的列向上的知识图谱数据的复杂度值,其中pkj代表集约管理的第k个构件集的行向上的知识图谱数据的复杂度值。
进一步的,上述所述的基于分场景长词链向量空间算法进行前端检索的方法,
所述的重复提取和计算的技术方法如下:
将结构化的数据、半结构化的数据进行特征表示化处理,其中数据为描述、段落和句子,其中特征表示化时需将第i组关键词的权重值进行如下算法的处理:
式(IV)中,其中P(S)代表所有组的关键词的权重值的分布概率,其中S代表所有组的关键词的权重值的总序列,其中wi(1≤i≤n)代表第i组关键词的序列号。
进一步的,上述所述的基于分场景长词链向量空间算法进行前端检索的方法,还包括:
S2:与实际场景进行匹配提取命中率最高的关键词。
具体的,所述的匹配提取的模型如下:
匹配调度算法涉及三个参数:任务运行周期T,每个周期内任务运行所需的时间tr和任务完成的截止时间td;每个T内,系统会在td之前为任务分配长度为tr的CPU时间;任务的状态由参数ts,d和tr,r描述,ts,d表示动态调度过程中任务的调度截止时间;tr,r表示任务的剩余运行时间;Δt表示任务被调度运行的时间;t为当前时刻;任务的实时状态参数为St,状态判断门限为S,定义如下所示;
S=tr/T; (IV)
St=tr,r/(ts,d-t)。 (V)
进一步的,上述所述的基于分场景长词链向量空间算法进行前端检索的方法,
所述的匹配提取的规则如下:
将非结构化的数据进行NLP的特征表示化处理,其中特征表示化处理为将非结构化的数据根据文本相似度定义规则进行处理。
进一步的,上述所述的基于分场景长词链向量空间算法进行前端检索的方法,还包括:
进一步的,上述所述的基于分场景长词链向量空间算法进行前端检索的方法,
所述的维护的算法优化的公式如下:
式中,其中MSEg代表优化后的第二实体关系程度值,其中Gi代表优化后的第一实体关系程度值,其中Ri代表所有组中非结构化的数据的关键词的权重值,其中N代表所有组中非结构化的数据的关键词的统计之和。
进一步的,上述所述的基于分场景长词链向量空间算法进行前端检索的方法,
所述的编码词库的抽取的方式如下:
将得到的优化后的第一实体关系程度值与得到的优化后的第二实体关系程度值进行比对,然后将优化后的第一实体关系程度值与优化后的第二实体关系程度值进行共性数据的提取。
进一步的,上述所述的基于分场景长词链向量空间算法进行前端检索的方法,
所述的编码词库设置有多个节点及节点之间的关系边,所述的节点用于存储实体本身,所述的关系边用于存储实体与实体之间的关系本身。
有益效果
相比于现有技术,本发明的有益效果为:
通过针对不同行业和职类设置不同的KG空间,通过描述、段落和句子进行不同维度的重复提取和计算,再与实际场景进行匹配提取命中率最高的关键词,然后将关键词维护到集中的KG空间中,抽取得到编码词库并用于前端检索和推荐。使用transformer模型层记忆全局信息,使每个字都含有全局信息,经过transformer模型后,将文章分并打包成batch,批量送入序列模型RNN,使RNN并行对文章每句话进行编码,达到高性能记忆的效果。
附图说明
图1是在招聘求职行业中带有最关键的元素JD和CV的知识图谱示意图;
图2为传统实体抽取常为短文本的抽取任务示意图;
图3为本发明的基于分场景长词链向量空间算法进行前端检索的方法的流程图;
图4为本发明的分场景长词链向量空间算法的模型结构图;
图5示出了通过本发明的NLP技术对JD和CV中的词链进行向量化处理的示意图;
图6(A)是现有技术中,融合NLP与KG标签之后的使标签体系示意图;
图6(B)是实施本发明后标签体系结构示意图。
具体实施方式
下面结合具体实施例对本发明进一步进行描述。
如图3所示,本发明的基于分场景长词链向量空间算法进行前端检索的方法,包括以下步骤:
S1:通过针对不同行业和职类设置不同的KG空间,通过描述、段落和句子进行不同维度的重复提取和计算。
其中,本发明的基于分场景长词链向量空间算法进行前端检索的方法,所述的KG空间内内核数据为不同行业和职类,内核数据未经历启动时刻的内核初始化,需重定位到原内核数据,内核进行正常执行;依据内核代码及数据与原内核代码及数据相对位置不变这一原理,有:
Dactual-Dactual_imageBase=Ddefault-Ddefault_imageBase (I)
式(I)中,Dactual_imageBase是原内核加载基地址;Dactual是原内核中数据的正确值地址,也是内核重定向数据指向的数据位置;Ddefault_imageBase是内核加载基地址;Ddefault是重定向表给出的需要修复的重定向数据地址。
本发明的基于分场景长词链向量空间算法进行前端检索的方法,修复内核系统调用表中系统调用的地址,使其指向GPU层内核纯净的可执行代码;根据内核加载基地址与原内核加载基地址之间的偏移,可依据确定每一个系统调用函数地址:
NewSSDTFuncAddr=OrigSSDTFuncAddr+Δ (II)
式(II)中,NewSSDTFuncAddr是内核SSDT表中的某个系统调用函数地址;OrigSSDTFuncAddr是原内核SSDT表中对应的系统调用函数地址;Δ是内核加载基地址与原内核加载基地址之间的偏移量。
本发明的基于分场景长词链向量空间算法进行前端检索的方法,所述的编码词库设置有多个节点及节点之间的关系边,所述的节点用于存储实体本身,所述的关系边用于存储实体与实体之间的关系本身。
本发明的基于分场景长词链向量空间算法进行前端检索的方法,所述的GPU层中集约管理的调度算法如下:
式(III)中,其中FDQk代表集约管理的量化复杂性程度值,其中dkij代表集约管理的第k个构件集的列向上与行向上的知识图谱数据,其中pki代表集约管理的第k个构件集的列向上的知识图谱数据的复杂度值,其中pkj代表集约管理的第k个构件集的行向上的知识图谱数据的复杂度值。
本发明的基于分场景长词链向量空间算法进行前端检索的方法,所述步骤S1中的重复提取和计算的技术方法如下:
将结构化的数据、半结构化的数据进行特征表示化处理,其中数据为描述、段落和句子,其中特征表示化时需将第i组关键词的权重值进行如下算法的处理:
式(IV)中,其中P(S)代表所有组的关键词的权重值的分布概率,其中S代表所有组的关键词的权重值的总序列,其中wi(1≤i≤n)代表第i组关键词的序列号。
本发明的基于分场景长词链向量空间算法进行前端检索的方法,还包括:
S2:与实际场景进行匹配提取命中率最高的关键词。
其中,本发明的基于分场景长词链向量空间算法进行前端检索的方法,所述步骤S2中的匹配提取的模型定义如下所示;
S=tr/T; (IV)
St=tr,r/(ts,d-t)。 (V);
式(IV)和(V)中,匹配调度算法涉及三个参数:任务运行周期T,每个周期内任务运行所需的时间tr和任务完成的截止时间td;每个T内,系统会在td之前为任务分配长度为tr的CPU时间;任务的状态由参数ts,d和tr,r描述,ts,d表示动态调度过程中任务的调度截止时间;tr,r表示任务的剩余运行时间;Δt表示任务被调度运行的时间;t为当前时刻;任务的实时状态参数为St,状态判断门限为S。
本发明的基于分场景长词链向量空间算法进行前端检索的方法,所述的匹配提取的规则如下:
将非结构化的数据进行NLP的特征表示化处理,其中特征表示化处理为将非结构化的数据根据文本相似度定义规则进行处理。
传统实体抽取常为短文本的抽取任务,基于词图模型的关键词提取算法主要有PageRank和TextRank。
PageRank是TextRank算法的思想基础,TextRank是PageRank在文本上的应用。其来源于Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,通过计算网页链接的数量和质量来粗略估计网页的重要性。
主要应用在在谷歌的搜索引擎中,是谷歌搜索的核心算法,对网页进行排名,从而解决互联网网页的价值排序问题。
其核心思想是关注词链的链接数量和链接质量。
链接数量:如果一个网页被很多其他网页链接到,说明这个网页比较重要,也就是PageRank值会相对较高。
链接质量:如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页的PageRank值会相应地因此而提高。
通过整个JD和CV集合看作一张有向图,所有的关键词构成了图中的节点。任务是从图中挖掘每个节点的权重作为其重要性的度量。一个节点如果由很多个其他节点指向它,那么这个节点应该就很重要。同样,如果有多个高权重的节点指向某一节点,且这个节点指向外部的链接数很少,那么这个被链接的点显然非常重要。
其中,S(vi)是关键词i的重要性(PR值),初始为1。
d是阻尼系数,一般设置为0.85。
In(vi)表示节点vi的前驱节点集合。
Out(vj)表示节点vj的后继节点集合;
|Out(vj)|是集合中元素的个数。
从而步骤S2的具体算法流程可以是:
S21:给每个网页一个PageRank值(简称PR值);
S22:通过投票算法不断迭代,直至达到平稳分布为止;
由于步骤S22的算法还存在词链长度有限制,当词链长度过长后,其效率下降明显,以及词链分析缺少上下文环境支持,所以导致不同行业和职类的匹配算法难以拟合或者过拟合的问题,因此,本发明的基于分场景长词链向量空间算法进行前端检索的方法,还包括:
S3:将关键词维护到集中的KG空间中,抽取得到编码词库并用于前端检索和推荐。
所述步骤S3中的的维护的算法优化的公式如下:
式(VII)中,其中MSEg代表优化后的第二实体关系程度值,其中Gi代表优化后的第一实体关系程度值,其中Ri代表所有组中非结构化的数据的关键词的权重值,其中N代表所有组中非结构化的数据的关键词的统计之和。
本发明的基于分场景长词链向量空间算法进行前端检索的方法,所述步骤S3中的编码词库的抽取的方式如下:
步骤S31:将得到的优化后的第一实体关系程度值与得到的优化后的第二实体关系程度值进行比对;
步骤S32:将优化后的第一实体关系程度值与优化后的第二实体关系程度值进行共性数据的提取。
本发明的基于分场景长词链向量空间算法进行前端检索的方法,所述的编码词库设置有多个节点及节点之间的关系边,所述的节点用于存储实体本身,所述的关系边用于存储实体与实体之间的关系本身。
本发明提出的分场景长词链向量空间算法,通过针对不同行业和职类设置不同的KG空间,通过描述、段落和句子不同维度的重复提取和计算,再与实际场景进行匹配提取命中率最高的关键词。然后将关键词维护到集中的KG中,用于前端检索和推荐。
JDCV内容理解所面对的都是长文本,少则几百字多则上千字,对理解能力是很大的考验,而擅长序列记忆的面模型面对长文本性能较差,使用图内并行计算的方式可以在使用序列表模型的同时兼顾模型性能,其模型结构如图4所示。
使用transformer模型层记忆全局信息,使每个字都含有全局信息,经过transformer模型后,将文章分并打包成batch,批量送入序列模型RNN,使RNN并行对文章每句话进行编码,达到高性能记忆的效果。
如图5所示,示出了通过本发明的NLP技术对JD和CV中的词链进行向量化处理的示意图。
Bert向量化并降维:本发明通过NLP技术对JD和CV中的词链进行向量化处理,考虑到行业特性分别从不同的维度分别进行向量化处理,包括行业上下文、章节、局子三个层次,然后依据历史数据样本,对不同维度的向量化结果进行评估,标注不同的权重。由于不同行业的专有名词及语义的区别,针对不同行业进行降维,不再采用统一的维度模型,从原来的768个维度降低到64个维度,这大大提高了运算效率并降低了数据存取时间。
图6(A)是现有技术中,融合NLP与KG标签之后的使标签体系示意图,从图中可以看出,融合NLP与KG标签使标签体系精细且层次分明,但数据需求量庞大,现有数据无法支撑290类实体使模型难以拟合。图6(B)是实施本发明后标签体系结构示意图。丛图6(B)可以看出,应用本发明后,职位描述(JD)与简历(CV)的标签结构相互对应,理解目标明确。本发明使用transformer模型层记忆全局信息,使每个字都含有全局信息,经过transformer模型后,将文章分并打包成batch,批量送入序列模型RNN,使RNN并行对文章每句话进行编码,达到高性能记忆的效果。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (10)
1.基于向量空间算法进行前端检索的方法,其特征在于,包括以下步骤:
S1:通过针对不同行业和职类设置不同的KG空间,通过描述、段落和句子进行不同维度的重复提取和计算;
S2:与实际场景进行匹配提取命中率最高的关键词;
S3:将关键词维护到集中的KG空间中,抽取得到编码词库并用于前端检索和推荐。
2.根据权利要求1所述的基于向量空间算法进行前端检索的方法,其特征在于:
所述步骤S1中,
所述的KG空间内内核数据为不同行业和职类,内核数据未经历启动时刻的内核初始化,需重定位到原内核数据,内核进行正常执行;
依据内核代码及数据与原内核代码及数据相对位置不变这一原理,有:
Dactual-Dactual-imageBase=Dddefault-Ddefault-imageBase (I)
式(I)中,Dactual-imageBase是原内核加载基地址;Dactual是原内核中数据的正确值地址,也是内核重定向数据指向的数据位置;Ddefault_imageBase是内核加载基地址;
Ddefault是重定向表给出的需要修复的重定向数据地址。
3.根据权利要求2所述的基于向量空间算法进行前端检索的方法,其特征在于:
修复内核系统调用表中系统调用的地址,使其指向GPU层内核纯净的可执行代码;
根据内核加载基地址与原内核加载基地址之间的偏移,可依据确定每一个系统调用函数地址:
NewSSDTFuncAddr=OrigSSDTFuncAddr+Δ (II)
式(II)中,NewSSDTFuncAddr是内核SSDT表中的某个系统调用函数地址;
OrigSSDTFuncAddr是原内核SSDT表中对应的系统调用函数地址;
Δ是内核加载基地址与原内核加载基地址之间的偏移量。
4.根据权利要求3所述的基于向量空间算法进行前端检索的方法,其特征在于:
所述的GPU层中集约管理的调度算法如下:
式(III)中,其中FDQk代表集约管理的量化复杂性程度值,其中dkij代表集约管理的第k个构件集的列向上与行向上的知识图谱数据,其中pki代表集约管理的第k个构件集的列向上的知识图谱数据的复杂度值,其中pkj代表集约管理的第k个构件集的行向上的知识图谱数据的复杂度值。
5.根据权利要求3所述的基于向量空间算法进行前端检索的方法,其特征在于:
所述步骤S1中,所述的重复提取和计算的方法如下:
将结构化的数据、半结构化的数据进行特征表示化处理,其中数据为描述、段落和句子,其中特征表示化时需将第i组关键词的权重值进行如下算法的处理:
式(IV)中,其中P(S)代表所有组的关键词的权重值的分布概率,其中S代表所有组的关键词的权重值的总序列,其中wi(1≤i≤n)代表第i组关键词的序列号。
6.根据权利要求4所述的基于向量空间算法进行前端检索的方法,其特征在于:
所述步骤S2中,所述的匹配提取的模型定义如下所示;
S=tr/T; (IV)
St=tr,r/(ts,d-t)。 (V);
式(IV)和(V)中,匹配调度算法涉及三个参数:任务运行周期T,每个周期内任务运行所需的时间tr和任务完成的截止时间td;每个T内,系统会在td之前为任务分配长度为tr的CPU时间;任务的状态由参数ts,d和tr,r描述,ts,d表示动态调度过程中任务的调度截止时间;tr,r表示任务的剩余运行时间;Δt表示任务被调度运行的时间;t为当前时刻;任务的实时状态参数为St,状态判断门限为S。
7.根据权利要求1所述的基于向量空间算法进行前端检索的方法,其特征在于:
所述步骤S2的具体算法流程可以是:
S21:给每个网页一个PageRank值;
S22:通过投票算法不断迭代,直至达到平稳分布为止。
8.根据权利要求5所述的基于向量空间算法进行前端检索的方法,其特征在于:
所述步骤S2中,所述的匹配提取的规则如下:
将非结构化的数据进行NLP的特征表示化处理,其中特征表示化处理为将非结构化的数据根据文本相似度定义规则进行处理。
9.根据权利要求6所述的基于向量空间算法进行前端检索的方法,其特征在于:
所述步骤S3中,所述的维护的算法优化的公式如下:
式(VII)中,其中MSEg代表优化后的第二实体关系程度值,其中Gi代表优化后的第一实体关系程度值,其中Ri代表所有组中非结构化的数据的关键词的权重值,其中N代表所有组中非结构化的数据的关键词的统计之和。
10.根据权利要求7所述的基于向量空间算法进行前端检索的方法,其特征在于:
所述步骤S3中,所述的编码词库的抽取的方式如下:
步骤S31:将得到的优化后的第一实体关系程度值与得到的优化后的第二实体关系程度值进行比对;
步骤S32:将优化后的第一实体关系程度值与优化后的第二实体关系程度值进行共性数据的提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310982287.1A CN117056458B (zh) | 2023-08-04 | 2023-08-04 | 基于向量空间算法进行前端检索的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310982287.1A CN117056458B (zh) | 2023-08-04 | 2023-08-04 | 基于向量空间算法进行前端检索的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117056458A true CN117056458A (zh) | 2023-11-14 |
CN117056458B CN117056458B (zh) | 2024-04-19 |
Family
ID=88665580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310982287.1A Active CN117056458B (zh) | 2023-08-04 | 2023-08-04 | 基于向量空间算法进行前端检索的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117056458B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140122355A1 (en) * | 2012-10-26 | 2014-05-01 | Bright Media Corporation | Identifying candidates for job openings using a scoring function based on features in resumes and job descriptions |
CN106909437A (zh) * | 2015-12-23 | 2017-06-30 | 华为技术有限公司 | 虚拟机内核的保护方法及装置 |
US20170193089A1 (en) * | 2016-01-04 | 2017-07-06 | Facebook, Inc. | Systems and methods to search resumes based on keywords |
CN108920544A (zh) * | 2018-06-13 | 2018-11-30 | 桂林电子科技大学 | 一种基于知识图谱的个性化职位推荐方法 |
CN109684441A (zh) * | 2018-12-21 | 2019-04-26 | 义橙网络科技(上海)有限公司 | 对职位和简历进行匹配的方法、系统、设备和介质 |
US20190163690A1 (en) * | 2016-11-10 | 2019-05-30 | Tencent Technology (Shenzhen) Company Limited | Keyword extraction method, apparatus and server |
US20210158144A1 (en) * | 2019-11-25 | 2021-05-27 | Intuit Inc. | Combining statistical methods with a knowledge graph |
CN113268560A (zh) * | 2020-02-17 | 2021-08-17 | 北京沃东天骏信息技术有限公司 | 用于文本匹配的方法和装置 |
CN113673943A (zh) * | 2021-07-19 | 2021-11-19 | 清华大学深圳国际研究生院 | 一种基于履历大数据的人员任免辅助决策方法及系统 |
CN113886604A (zh) * | 2021-10-20 | 2022-01-04 | 前锦网络信息技术(上海)有限公司 | 一种职位知识图谱生成方法和系统 |
CN116127186A (zh) * | 2022-12-09 | 2023-05-16 | 之江实验室 | 一种基于知识图谱人岗个性化匹配推荐方法及系统 |
-
2023
- 2023-08-04 CN CN202310982287.1A patent/CN117056458B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140122355A1 (en) * | 2012-10-26 | 2014-05-01 | Bright Media Corporation | Identifying candidates for job openings using a scoring function based on features in resumes and job descriptions |
CN106909437A (zh) * | 2015-12-23 | 2017-06-30 | 华为技术有限公司 | 虚拟机内核的保护方法及装置 |
US20180314822A1 (en) * | 2015-12-23 | 2018-11-01 | Huawei Technologies Co., Ltd. | Virtual machine kernel protection method and apparatus |
US20170193089A1 (en) * | 2016-01-04 | 2017-07-06 | Facebook, Inc. | Systems and methods to search resumes based on keywords |
US20190163690A1 (en) * | 2016-11-10 | 2019-05-30 | Tencent Technology (Shenzhen) Company Limited | Keyword extraction method, apparatus and server |
CN108920544A (zh) * | 2018-06-13 | 2018-11-30 | 桂林电子科技大学 | 一种基于知识图谱的个性化职位推荐方法 |
CN109684441A (zh) * | 2018-12-21 | 2019-04-26 | 义橙网络科技(上海)有限公司 | 对职位和简历进行匹配的方法、系统、设备和介质 |
US20210158144A1 (en) * | 2019-11-25 | 2021-05-27 | Intuit Inc. | Combining statistical methods with a knowledge graph |
CN113268560A (zh) * | 2020-02-17 | 2021-08-17 | 北京沃东天骏信息技术有限公司 | 用于文本匹配的方法和装置 |
CN113673943A (zh) * | 2021-07-19 | 2021-11-19 | 清华大学深圳国际研究生院 | 一种基于履历大数据的人员任免辅助决策方法及系统 |
CN113886604A (zh) * | 2021-10-20 | 2022-01-04 | 前锦网络信息技术(上海)有限公司 | 一种职位知识图谱生成方法和系统 |
CN116127186A (zh) * | 2022-12-09 | 2023-05-16 | 之江实验室 | 一种基于知识图谱人岗个性化匹配推荐方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117056458B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902145B (zh) | 一种基于注意力机制的实体关系联合抽取方法和系统 | |
CN110909164A (zh) | 一种基于卷积神经网络的文本增强语义分类方法及系统 | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN110532554A (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN107273913B (zh) | 一种基于多特征融合的短文本相似度计算方法 | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN105677857B (zh) | 一种关键词与营销落地页的精准匹配方法和装置 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN113255321A (zh) | 基于文章实体词依赖关系的金融领域篇章级事件抽取方法 | |
CN113515632A (zh) | 基于图路径知识萃取的文本分类方法 | |
CN110019653B (zh) | 一种融合文本和标签网络的社交内容表征方法和系统 | |
CN116304748B (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN113821635A (zh) | 一种用于金融领域的文本摘要的生成方法及系统 | |
CN113918807A (zh) | 数据推荐方法、装置、计算设备及计算机可读存储介质 | |
CN117056458B (zh) | 基于向量空间算法进行前端检索的方法 | |
CN116842934A (zh) | 一种基于持续学习的多文档融合深度学习标题生成方法 | |
CN114969343B (zh) | 结合相对位置信息的弱监督文本分类方法 | |
Tank et al. | Text Summarization Approaches Under Transfer Learning and Domain Adaptation Settings—A Survey | |
Chen | Semantic Matching Efficiency of Supply and Demand Text on Cross‐Border E‐Commerce Online Technology Trading Platforms | |
Feifei et al. | Intelligent question and answer analysis model of power ICT based on BI-LSTM-CRF | |
CN113128210A (zh) | 一种基于同义词发现的网页表格信息解析方法 | |
Mukherjee et al. | Frequent item set, sequential pattern mining and sequence prediction: structures and algorithms | |
CN110930189A (zh) | 基于用户行为的个性化营销方法 | |
Ahmed et al. | Bangla News Popularity Prediction Using Machine Learning Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |