CN117056458B - 基于向量空间算法进行前端检索的方法 - Google Patents

基于向量空间算法进行前端检索的方法 Download PDF

Info

Publication number
CN117056458B
CN117056458B CN202310982287.1A CN202310982287A CN117056458B CN 117056458 B CN117056458 B CN 117056458B CN 202310982287 A CN202310982287 A CN 202310982287A CN 117056458 B CN117056458 B CN 117056458B
Authority
CN
China
Prior art keywords
data
kernel
algorithm
keywords
vector space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310982287.1A
Other languages
English (en)
Other versions
CN117056458A (zh
Inventor
时迎超
王杨
陈家栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wangpin Information Technology Co ltd
Original Assignee
Beijing Wangpin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wangpin Information Technology Co ltd filed Critical Beijing Wangpin Information Technology Co ltd
Priority to CN202310982287.1A priority Critical patent/CN117056458B/zh
Publication of CN117056458A publication Critical patent/CN117056458A/zh
Application granted granted Critical
Publication of CN117056458B publication Critical patent/CN117056458B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于向量空间算法进行前端检索的方法,属于数据处理技术领域。本发明包括以下步骤:通过针对不同行业和职类设置不同的KG空间,通过描述、段落和句子进行不同维度的重复提取和计算,再与实际场景进行匹配提取命中率最高的关键词,然后将关键词维护到集中的KG空间中,抽取得到编码词库并用于前端检索和推荐。使用transforme r模型层记忆全局信息,使每个字都含有全局信息,经过transformer模型后,将文章分并打包成batch,批量送入序列模型RNN,使RNN并行对文章每句话进行编码,达到高性能记忆的效果。

Description

基于向量空间算法进行前端检索的方法
技术领域
本发明属于数据处理技术领域,具体地说,涉及一种基于向量空间算法进行前端检索的方法,更具体地说,涉及一种基于分场景长词链向量空间算法进行前端检索的方法。
背景技术
大数据的技术和应用价值已被广泛认可,而其未来核心技术之一知识图谱(Knowledge Graph)也随着互联网技术巨头公司的应用得到迅速发展。亚马逊运用大数据为客户推荐商品信息,形成了人与商品的全面关系;微软开发了“人立方”,形成了人与人的立体化关系,真正实现人和人的六度空间搜索;百度开发了“百度大脑”,在国内重新定义了搜索引擎,为用户提供全面扩展的搜索结果;谷歌更是早就开始了用大数据思维“接管世界”,最早开发了互联网搜索引擎,开启了互联网时代,并基于此开发了Google Brain,引领了知识图谱的概念及技术普及。知识图谱是一种图结构的知识库,属于知识工程的范畴。不同于普通知识库,知识图谱融合所有学科,将不同来源、不同类型、不同结构的知识单元通过链接关联成图,基于各学科的元数据,为用户提供更广度、更深度的知识体系并不断扩充,其本质上是将领域知识数据体系化、关系化,并以图的方式将知识可视化。简单来说,可以将知识图谱理解成基于信息系统建立的知识体系,通过数据采集、数据挖掘、信息处理、知识计量和图形绘制等技术把复杂的知识领域系统地显示出来,揭示知识领域的动态发展规律。
在招聘求职行业中最关键的知识图谱元素是JD和CV,其大多以文本形式对自身的属性进行描述,同时其自身带有明确的行业特征和用户属性。如图1所示,是在招聘求职行业中带有最关键的元素JD和CV的知识图谱示意图,为了更加精准和快速的提供JDCV的检索和推荐,基于现有数据进行关键词提取、数据挖掘形成一个完整、准确的知识图谱至关重要。
当前知识图谱系统已经就JD进行了NLP的解析,但是其语义分析不够准确,尤其是对于三级职类的理解还有很大的歧义和误差,包括职位名称、公司名称、技能关键词等,导致下游在召回和排序等场景下,准确度下降。知识图谱对于JD和CV的信息不一致,导致前端搜索和推荐算法的准确度非常低,尤其是在特定行业的专有岗位(三级职类)上,这种现象更加严重。基于JD和CV的沟通场景,目前的非结构化数据挖掘做的不够,基于聊天频次、聊天内容、匹配度等关键信息的挖掘和分析不足,导致了数据资产的浪费与闲置。
如图2所示,传统实体抽取常为短文本的抽取任务。基于词图模型的关键词提取算法主要有PageRank和TextRank。PageRank是TextRank算法的思想基础,TextRank是PageRank在文本上的应用。其来源于Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,通过计算网页链接的数量和质量来粗略估计网页的重要性。主要应用在在谷歌的搜索引擎中,是谷歌搜索的核心算法,对网页进行排名,从而解决互联网网页的价值排序问题。其核心思想是关注词链的链接数量和链接质量。链接数量:如果一个网页被很多其他网页链接到,说明这个网页比较重要,也就是PageRank值会相对较高。链接质量:如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页的PageRank值会相应地因此而提高。
对应于在招聘求职行业中,通过整个JD和CV集合看作一张有向图,所有的关键词构成了图中的节点。任务是从图中挖掘每个节点的权重作为其重要性的度量。一个节点如果由很多个其他节点指向它,那么这个节点应该就很重要。同样,如果有多个高权重的节点指向某一节点,且这个节点指向外部的链接数很少,那么这个被链接的点显然非常重要。
但是常规算法针对我们当前的应用场景有以下缺点:词链长度有限制,当词链长度过长后,其效率下降明显。词链分析缺少上下文环境支持,融合NLP与KG标签使标签体系精细且层次分明,但数据需求量庞大,所以导致不同行业和职类的匹配算法难以支撑290类实体使模型难以拟合或者过拟合。
为了提高数据资产的应用价值,提高NLP分析准确性,并且提升知识图谱的一致性,我们计划对当前的NLP和KG(knowledge graph,知识图谱)进行升级和改造,以提高检索效率和匹配的准确度。
针对以上问题,我们创新的提出了分场景长词链向量空间算法,通过针对不同行业和职类设置不同的KG空间,通过描述、段落和句子不同维度的重复提取和计算,再与实际场景进行匹配提取命中率最高的关键词。然后将关键词维护到集中的KG空间中,用于前端检索和推荐。
发明内容
解决的问题
针对上述现有技术存在的问题,本发明提供一种基于分场景长词链向量空间算法进行前端检索的方法。
技术方案
为解决上述问题,本发明采用如下的技术方案。
图3为本发明的基于向量空间算法进行前端检索的方法的流程图;
如图3所示,本发明的基于向量空间算法进行前端检索的方法,包括以下步骤:
S1:通过针对不同行业和职类设置不同的KG空间,通过描述、段落和句子进行不同维度的重复提取和计算。
进一步的,上述所述的基于分场景长词链向量空间算法进行前端检索的方法,所述的KG空间内内核数据为不同行业和职类,内核数据未经历启动时刻的内核初始化,需重定位到原内核数据,内核进行正常执行;依据内核代码及数据与原内核代码及数据相对位置不变这一原理,有:
Dactual-Dactual_imageBase=Ddefault-Ddefalut_imageBase (I)
式(I)中,Dactual_imageBase是原内核加载基地址;Dactual是原内核中数据的正确值地址,也是内核重定向数据指向的数据位置;Ddefault_imageBase是内核加载基地址;Ddefault是重定向表给出的需要修复的重定向数据地址。
进一步的,上述所述的基于分场景长词链向量空间算法进行前端检索的方法,
修复内核系统调用表中系统调用的地址,使其指向GPU层内核纯净的可执行代码;根据内核加载基地址与原内核加载基地址之间的偏移,可依据确定每一个系统调用函数地址:
NewSSDTFuncAddr=OrigSSDTFuncAddr+Δ (II)
式(II)中,NewSSDTFuncAddr是内核SSDT表中的某个系统调用函数地址;OrigSSDTFuncAddr是原内核SSDT表中对应的系统调用函数地址;Δ是内核加载基地址与原内核加载基地址之间的偏移量。
所述的GPU层中集约管理的调度算法如下:
式(III)中,其中FDQk代表集约管理的量化复杂性程度值,其中dkij代表集约管理的第k个构件集的列向上与行向上的知识图谱数据,其中pki代表集约管理的第k个构件集的列向上的知识图谱数据的复杂度值,其中pkj代表集约管理的第k个构件集的行向上的知识图谱数据的复杂度值。
进一步的,上述所述的基于分场景长词链向量空间算法进行前端检索的方法,
所述的重复提取和计算的技术方法如下:
将结构化的数据、半结构化的数据进行特征表示化处理,其中数据为描述、段落和句子,其中特征表示化时需将第i组关键词的权重值进行如下算法的处理:
式(IV)中,其中P(S)代表所有组的关键词的权重值的分布概率,其中S代表所有组的关键词的权重值的总序列,其中wi(1≤i≤n)代表第i组关键词的序列号。
进一步的,上述所述的基于分场景长词链向量空间算法进行前端检索的方法,还包括:
S2:与实际场景进行匹配提取命中率最高的关键词。
具体的,所述的匹配提取的模型如下:
匹配调度算法涉及三个参数:任务运行周期T,每个周期内任务运行所需的时间tr和任务完成的截止时间td;每个T内,系统会在td之前为任务分配长度为tr的CPU时间;任务的状态由参数ts,d和tr,r描述,ts,d表示动态调度过程中任务的调度截止时间;tr,r表示任务的剩余运行时间;Δt表示任务被调度运行的时间;t为当前时刻;任务的实时状态参数为St,状态判断门限为S,定义如下所示;
S=tr/T; (IV)
St=tr,r/(ts,d-t)。 (V)
进一步的,上述所述的基于分场景长词链向量空间算法进行前端检索的方法,
所述的匹配提取的规则如下:
将非结构化的数据进行NLP的特征表示化处理,其中特征表示化处理为将非结构化的数据根据文本相似度定义规则进行处理。
进一步的,上述所述的基于分场景长词链向量空间算法进行前端检索的方法,还包括:
进一步的,上述所述的基于分场景长词链向量空间算法进行前端检索的方法,
所述的维护的算法优化的公式如下:
式中,其中MSEg代表优化后的第二实体关系程度值,其中Gi代表优化后的第一实体关系程度值,其中Ri代表所有组中非结构化的数据的关键词的权重值,其中N代表所有组中非结构化的数据的关键词的统计之和。
进一步的,上述所述的基于分场景长词链向量空间算法进行前端检索的方法,
所述的编码词库的抽取的方式如下:
将得到的优化后的第一实体关系程度值与得到的优化后的第二实体关系程度值进行比对,然后将优化后的第一实体关系程度值与优化后的第二实体关系程度值进行共性数据的提取。
进一步的,上述所述的基于分场景长词链向量空间算法进行前端检索的方法,
所述的编码词库设置有多个节点及节点之间的关系边,所述的节点用于存储实体本身,所述的关系边用于存储实体与实体之间的关系本身。
有益效果
相比于现有技术,本发明的有益效果为:
通过针对不同行业和职类设置不同的KG空间,通过描述、段落和句子进行不同维度的重复提取和计算,再与实际场景进行匹配提取命中率最高的关键词,然后将关键词维护到集中的KG空间中,抽取得到编码词库并用于前端检索和推荐。使用transformer模型层记忆全局信息,使每个字都含有全局信息,经过transformer模型后,将文章分并打包成batch,批量送入序列模型RNN,使RNN并行对文章每句话进行编码,达到高性能记忆的效果。
附图说明
图1是在招聘求职行业中带有最关键的元素JD和CV的知识图谱示意图;
图2为传统实体抽取常为短文本的抽取任务示意图;
图3为本发明的基于分场景长词链向量空间算法进行前端检索的方法的流程图;
图4为本发明的分场景长词链向量空间算法的模型结构图;
图5示出了通过本发明的NLP技术对JD和CV中的词链进行向量化处理的示意图;
图6(A)是现有技术中,融合NLP与KG标签之后的使标签体系示意图;
图6(B)是实施本发明后标签体系结构示意图。
具体实施方式
下面结合具体实施例对本发明进一步进行描述。
如图3所示,本发明的基于分场景长词链向量空间算法进行前端检索的方法,包括以下步骤:
S1:通过针对不同行业和职类设置不同的KG空间,通过描述、段落和句子进行不同维度的重复提取和计算。
其中,本发明的基于分场景长词链向量空间算法进行前端检索的方法,所述的KG空间内内核数据为不同行业和职类,内核数据未经历启动时刻的内核初始化,需重定位到原内核数据,内核进行正常执行;依据内核代码及数据与原内核代码及数据相对位置不变这一原理,有:
Dactual-Dactual_imageBase=Ddefault-Ddefault_imageBase (I)
式(I)中,Dactual_imageBase是原内核加载基地址;Dactual是原内核中数据的正确值地址,也是内核重定向数据指向的数据位置;Ddefault_imageBase是内核加载基地址;Ddefault是重定向表给出的需要修复的重定向数据地址。
本发明的基于分场景长词链向量空间算法进行前端检索的方法,修复内核系统调用表中系统调用的地址,使其指向GPU层内核纯净的可执行代码;根据内核加载基地址与原内核加载基地址之间的偏移,可依据确定每一个系统调用函数地址:
NewSSDTFuncAddr=OrigSSDTFuncAddr+Δ (II)
式(II)中,NewSSDTFuncAddr是内核SSDT表中的某个系统调用函数地址;OrigSSDTFuncAddr是原内核SSDT表中对应的系统调用函数地址;Δ是内核加载基地址与原内核加载基地址之间的偏移量。
本发明的基于分场景长词链向量空间算法进行前端检索的方法,所述的编码词库设置有多个节点及节点之间的关系边,所述的节点用于存储实体本身,所述的关系边用于存储实体与实体之间的关系本身。
本发明的基于分场景长词链向量空间算法进行前端检索的方法,所述的GPU层中集约管理的调度算法如下:
式(III)中,其中FDQk代表集约管理的量化复杂性程度值,其中dkij代表集约管理的第k个构件集的列向上与行向上的知识图谱数据,其中pki代表集约管理的第k个构件集的列向上的知识图谱数据的复杂度值,其中pkj代表集约管理的第k个构件集的行向上的知识图谱数据的复杂度值。
本发明的基于分场景长词链向量空间算法进行前端检索的方法,所述步骤S1中的重复提取和计算的技术方法如下:
将结构化的数据、半结构化的数据进行特征表示化处理,其中数据为描述、段落和句子,其中特征表示化时需将第i组关键词的权重值进行如下算法的处理:
式(IV)中,其中P(S)代表所有组的关键词的权重值的分布概率,其中S代表所有组的关键词的权重值的总序列,其中wi(1≤i≤n)代表第i组关键词的序列号。
本发明的基于分场景长词链向量空间算法进行前端检索的方法,还包括:
S2:与实际场景进行匹配提取命中率最高的关键词。
其中,本发明的基于分场景长词链向量空间算法进行前端检索的方法,所述步骤S2中的匹配提取的模型定义如下所示;
S=tr/T; (IV)
St=tr,r/(ts,d-t)。 (V);
式(IV)和(V)中,匹配调度算法涉及三个参数:任务运行周期T,每个周期内任务运行所需的时间tr和任务完成的截止时间td;每个T内,系统会在td之前为任务分配长度为tr的CPU时间;任务的状态由参数ts,d和tr,r描述,ts,d表示动态调度过程中任务的调度截止时间;tr,r表示任务的剩余运行时间;Δt表示任务被调度运行的时间;t为当前时刻;任务的实时状态参数为St,状态判断门限为S。
本发明的基于分场景长词链向量空间算法进行前端检索的方法,所述的匹配提取的规则如下:
将非结构化的数据进行NLP的特征表示化处理,其中特征表示化处理为将非结构化的数据根据文本相似度定义规则进行处理。
传统实体抽取常为短文本的抽取任务,基于词图模型的关键词提取算法主要有PageRank和TextRank。
PageRank是TextRank算法的思想基础,TextRank是PageRank在文本上的应用。其来源于Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,通过计算网页链接的数量和质量来粗略估计网页的重要性。
主要应用在在谷歌的搜索引擎中,是谷歌搜索的核心算法,对网页进行排名,从而解决互联网网页的价值排序问题。
其核心思想是关注词链的链接数量和链接质量。
链接数量:如果一个网页被很多其他网页链接到,说明这个网页比较重要,也就是PageRank值会相对较高。
链接质量:如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页的PageRank值会相应地因此而提高。
通过整个JD和CV集合看作一张有向图,所有的关键词构成了图中的节点。任务是从图中挖掘每个节点的权重作为其重要性的度量。一个节点如果由很多个其他节点指向它,那么这个节点应该就很重要。同样,如果有多个高权重的节点指向某一节点,且这个节点指向外部的链接数很少,那么这个被链接的点显然非常重要。
其中,S(vi)是关键词i的重要性(PR值),初始为1。
d是阻尼系数,一般设置为0.85。
In(vi)表示节点vi的前驱节点集合。
Out(vj)表示节点vj的后继节点集合;
|Out(vj)|是集合中元素的个数。
从而步骤S2的具体算法流程可以是:
S21:给每个网页一个PageRank值(简称PR值);
S22:通过投票算法不断迭代,直至达到平稳分布为止;
由于步骤S22的算法还存在词链长度有限制,当词链长度过长后,其效率下降明显,以及词链分析缺少上下文环境支持,所以导致不同行业和职类的匹配算法难以拟合或者过拟合的问题,因此,本发明的基于分场景长词链向量空间算法进行前端检索的方法,还包括:
S3:将关键词维护到集中的KG空间中,抽取得到编码词库并用于前端检索和推荐。
所述步骤S3中的的维护的算法优化的公式如下:
式(VII)中,其中MSEg代表优化后的第二实体关系程度值,其中Gi代表优化后的第一实体关系程度值,其中Ri代表所有组中非结构化的数据的关键词的权重值,其中N代表所有组中非结构化的数据的关键词的统计之和。
本发明的基于分场景长词链向量空间算法进行前端检索的方法,所述步骤S3中的编码词库的抽取的方式如下:
步骤S31:将得到的优化后的第一实体关系程度值与得到的优化后的第二实体关系程度值进行比对;
步骤S32:将优化后的第一实体关系程度值与优化后的第二实体关系程度值进行共性数据的提取。
本发明的基于分场景长词链向量空间算法进行前端检索的方法,所述的编码词库设置有多个节点及节点之间的关系边,所述的节点用于存储实体本身,所述的关系边用于存储实体与实体之间的关系本身。
本发明提出的分场景长词链向量空间算法,通过针对不同行业和职类设置不同的KG空间,通过描述、段落和句子不同维度的重复提取和计算,再与实际场景进行匹配提取命中率最高的关键词。然后将关键词维护到集中的KG中,用于前端检索和推荐。
JDCV内容理解所面对的都是长文本,少则几百字多则上千字,对理解能力是很大的考验,而擅长序列记忆的面模型面对长文本性能较差,使用图内并行计算的方式可以在使用序列表模型的同时兼顾模型性能,其模型结构如图4所示。
使用transformer模型层记忆全局信息,使每个字都含有全局信息,经过transformer模型后,将文章分并打包成batch,批量送入序列模型RNN,使RNN并行对文章每句话进行编码,达到高性能记忆的效果。
如图5所示,示出了通过本发明的NLP技术对JD和CV中的词链进行向量化处理的示意图。
Bert向量化并降维:本发明通过NLP技术对JD和CV中的词链进行向量化处理,考虑到行业特性分别从不同的维度分别进行向量化处理,包括行业上下文、章节、局子三个层次,然后依据历史数据样本,对不同维度的向量化结果进行评估,标注不同的权重。由于不同行业的专有名词及语义的区别,针对不同行业进行降维,不再采用统一的维度模型,从原来的768个维度降低到64个维度,这大大提高了运算效率并降低了数据存取时间。
图6(A)是现有技术中,融合NLP与KG标签之后的使标签体系示意图,从图中可以看出,融合NLP与KG标签使标签体系精细且层次分明,但数据需求量庞大,现有数据无法支撑290类实体使模型难以拟合。图6(B)是实施本发明后标签体系结构示意图。丛图6(B)可以看出,应用本发明后,职位描述(JD)与简历(CV)的标签结构相互对应,理解目标明确。本发明使用transformer模型层记忆全局信息,使每个字都含有全局信息,经过transformer模型后,将文章分并打包成batch,批量送入序列模型RNN,使RNN并行对文章每句话进行编码,达到高性能记忆的效果。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (4)

1.基于向量空间算法进行前端检索的方法,其特征在于,包括以下步骤:
S1:针对不同行业和职类设置不同的KG空间,通过描述、段落和句子进行不同维度的重复提取和计算;
S2:与实际场景进行匹配提取,得到命中率最高的关键词;
S3:将关键词维护到集中的KG空间中,抽取得到编码词库并用于前端检索和推荐;
所述步骤S1中,
所述的KG空间内内核数据为不同行业和职类,内核数据未经历启动时刻的内核初始化,需重定位到原内核数据,内核进行正常执行;
依据内核代码及数据的相对位置与原内核代码及数据的相对位置不变这一原理,有:
Dactual-Dactual_imageBase=Ddefault-Ddefault_imageBase (I)
式(I)中,Dactual_imageBase是原内核加载基地址;Dactual是原内核中数据的正确值地址,也是内核重定向数据指向的数据位置;Dactual_imageBase是内核加载基地址;Ddefault是重定向表给出的需要修复的重定向数据地址:
其中,修复内核系统调用表中系统调用的地址,使其指向GPU层内核纯净的可执行代码;
根据内核加载基地址与原内核加载基地址之间的偏移,可确定每一个系统调用函数地址:
NewSSDTFuncAddr=OrigSSDTFuncAddr+Δ (II)
式(II)中,NewSSDTFuncAddr是内核SSDT表中的某个系统调用函数地址;
OrigSSDTFuncAddr是原内核SSDT表中对应的系统调用函数地址;
Δ是内核加载基地址与原内核加载基地址之间的偏移量:
其中,所述的GPU层中集约管理的调度算法如下:
式(III)中,其中FDQk代表集约管理的量化复杂性程度值,其中dkij代表集约管理的第k个构件集的列向上与行向上的知识图谱数据,其中pki代表集约管理的第k个构件集的列向上的知识图谱数据的复杂度值,其中pkj代表集约管理的第k个构件集的行向上的知识图谱数据的复杂度值;
所述步骤S1中,所述的重复提取和计算的方法如下:
将结构化的数据、半结构化的数据进行特征表示化处理,其中数据为描述、段落和句子,其中特征表示化时需将第i组关键词的权重值进行如下算法的处理:
式(IV)中,其中P(S)代表所有组的关键词的权重值的分布概率,其中S代表所有组的关键词的权重值的总序列,其中wi代表第i组关键词的序列号,其中1≤i≤n;
所述步骤S2中,所述的匹配提取的模型定义如下所示;
E=tr/T; (IV)
Et=tr,r/(ts,d-t); (V);
式(IV)和(V)中,匹配调度算法涉及以下参数:任务运行周期T,每个周期内任务运行所需的时间tr;每个T内,系统会在任务完成时间之前为任务分配长度为tr的CPU时间;任务的状态由参数ts,d和tr,r描述,ts,d表示动态调度过程中任务的调度截止时间;tr,r表示任务的剩余运行时间;t为当前时刻;任务的实时状态参数为Et,状态判断门限为E;
所述步骤S3中,所述的维护的算法优化的公式如下:
式(VII)中,其中MSEg代表优化后的第二实体关系程度值,其中Gi代表优化后的第一实体关系程度值,其中Ri代表所有组中非结构化的数据的关键词的权重值,其中N代表所有组中非结构化的数据的关键词的统计之和。
2.根据权利要求1所述的基于向量空间算法进行前端检索的方法,其特征在于:
所述步骤S2的具体算法流程可以是:
S21:给每个网页一个PageRank值;
S22:通过投票算法不断迭代,直至达到平稳分布为止。
3.根据权利要求1所述的基于向量空间算法进行前端检索的方法,其特征在于:
所述步骤S2中,所述的匹配提取的规则如下:
将非结构化的数据进行NLP的特征表示化处理,其中特征表示化处理为将非结构化的数据根据文本相似度定义规则进行处理。
4.根据权利要求1所述的基于向量空间算法进行前端检索的方法,其特征在于:
所述步骤S3中,所述的编码词库的抽取的方式如下:
步骤S31:将得到的优化后的第一实体关系程度值与得到的优化后的第二实体关系程度值进行比对;
步骤S32:将优化后的第一实体关系程度值与优化后的第二实体关系程度值进行共性数据的提取。
CN202310982287.1A 2023-08-04 2023-08-04 基于向量空间算法进行前端检索的方法 Active CN117056458B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310982287.1A CN117056458B (zh) 2023-08-04 2023-08-04 基于向量空间算法进行前端检索的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310982287.1A CN117056458B (zh) 2023-08-04 2023-08-04 基于向量空间算法进行前端检索的方法

Publications (2)

Publication Number Publication Date
CN117056458A CN117056458A (zh) 2023-11-14
CN117056458B true CN117056458B (zh) 2024-04-19

Family

ID=88665580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310982287.1A Active CN117056458B (zh) 2023-08-04 2023-08-04 基于向量空间算法进行前端检索的方法

Country Status (1)

Country Link
CN (1) CN117056458B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909437A (zh) * 2015-12-23 2017-06-30 华为技术有限公司 虚拟机内核的保护方法及装置
CN108920544A (zh) * 2018-06-13 2018-11-30 桂林电子科技大学 一种基于知识图谱的个性化职位推荐方法
CN109684441A (zh) * 2018-12-21 2019-04-26 义橙网络科技(上海)有限公司 对职位和简历进行匹配的方法、系统、设备和介质
CN113268560A (zh) * 2020-02-17 2021-08-17 北京沃东天骏信息技术有限公司 用于文本匹配的方法和装置
CN113673943A (zh) * 2021-07-19 2021-11-19 清华大学深圳国际研究生院 一种基于履历大数据的人员任免辅助决策方法及系统
CN113886604A (zh) * 2021-10-20 2022-01-04 前锦网络信息技术(上海)有限公司 一种职位知识图谱生成方法和系统
CN116127186A (zh) * 2022-12-09 2023-05-16 之江实验室 一种基于知识图谱人岗个性化匹配推荐方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140122355A1 (en) * 2012-10-26 2014-05-01 Bright Media Corporation Identifying candidates for job openings using a scoring function based on features in resumes and job descriptions
US10572519B2 (en) * 2016-01-04 2020-02-25 Facebook, Inc. Systems and methods to search resumes based on keywords
CN108073568B (zh) * 2016-11-10 2020-09-11 腾讯科技(深圳)有限公司 关键词提取方法和装置
US11436489B2 (en) * 2019-11-25 2022-09-06 Intuit Inc. Combining statistical methods with a knowledge graph

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909437A (zh) * 2015-12-23 2017-06-30 华为技术有限公司 虚拟机内核的保护方法及装置
CN108920544A (zh) * 2018-06-13 2018-11-30 桂林电子科技大学 一种基于知识图谱的个性化职位推荐方法
CN109684441A (zh) * 2018-12-21 2019-04-26 义橙网络科技(上海)有限公司 对职位和简历进行匹配的方法、系统、设备和介质
CN113268560A (zh) * 2020-02-17 2021-08-17 北京沃东天骏信息技术有限公司 用于文本匹配的方法和装置
CN113673943A (zh) * 2021-07-19 2021-11-19 清华大学深圳国际研究生院 一种基于履历大数据的人员任免辅助决策方法及系统
CN113886604A (zh) * 2021-10-20 2022-01-04 前锦网络信息技术(上海)有限公司 一种职位知识图谱生成方法和系统
CN116127186A (zh) * 2022-12-09 2023-05-16 之江实验室 一种基于知识图谱人岗个性化匹配推荐方法及系统

Also Published As

Publication number Publication date
CN117056458A (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
CN109902145B (zh) 一种基于注意力机制的实体关系联合抽取方法和系统
CN102207945B (zh) 基于知识网络的文本标引系统及其方法
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
CN110532554A (zh) 一种中文摘要生成方法、系统及存储介质
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
Le et al. Text classification: Naïve bayes classifier with sentiment Lexicon
Ju et al. An efficient method for document categorization based on word2vec and latent semantic analysis
CN105677857B (zh) 一种关键词与营销落地页的精准匹配方法和装置
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
CN113918807A (zh) 数据推荐方法、装置、计算设备及计算机可读存储介质
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
Diao et al. Efficient exploration of interesting aggregates in RDF graphs
CN115688779B (zh) 一种基于自监督深度学习的地址识别方法
CN117056458B (zh) 基于向量空间算法进行前端检索的方法
CN116861269A (zh) 工程领域的多源异构数据融合及分析方法
CN116842934A (zh) 一种基于持续学习的多文档融合深度学习标题生成方法
CN114820134A (zh) 一种商品信息召回方法、装置、设备和计算机存储介质
CN110275957B (zh) 姓名消歧方法、装置、电子设备及计算机可读存储介质
Mukherjee et al. Frequent item set, sequential pattern mining and sequence prediction: structures and algorithms
CN111061939A (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
Feifei et al. Intelligent question and answer analysis model of power ICT based on BI-LSTM-CRF
Ahmed et al. Bangla News Popularity Prediction Using Machine Learning Techniques
Zhang et al. Research on automatic text summarization method based on tf-idf

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant