CN117390173B - 一种语义相似度匹配的海量简历筛选方法 - Google Patents

一种语义相似度匹配的海量简历筛选方法 Download PDF

Info

Publication number
CN117390173B
CN117390173B CN202311446345.5A CN202311446345A CN117390173B CN 117390173 B CN117390173 B CN 117390173B CN 202311446345 A CN202311446345 A CN 202311446345A CN 117390173 B CN117390173 B CN 117390173B
Authority
CN
China
Prior art keywords
resume
vector
semantic
text
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311446345.5A
Other languages
English (en)
Other versions
CN117390173A (zh
Inventor
李弘扬
唐山杰
郑斌
王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Youcheng Information Technology Co ltd
Original Assignee
Jiangsu Youcheng Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Youcheng Information Technology Co ltd filed Critical Jiangsu Youcheng Information Technology Co ltd
Priority to CN202311446345.5A priority Critical patent/CN117390173B/zh
Publication of CN117390173A publication Critical patent/CN117390173A/zh
Application granted granted Critical
Publication of CN117390173B publication Critical patent/CN117390173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及简历筛选的技术领域,公开了一种语义相似度匹配的海量简历筛选方法,所述方法包括:对任意简历文本进行分段落处理以及关键词提取;对任意简历文本提取得到的关键词集合进行语义编码;对简历文本的稠密语义向量进行基于全局语义覆盖的检索相似度计算;对简历文本的段落级相似度评分进行全局语义融合,根据融合相似度评分对简历文本进行降序排序,取排序后预设筛选数量的简历文本作为简历筛选结果。本发明采用结合细粒度向量以及粗粒度向量的方式,实现多维注意力增强的关键词提取以及简历文本的语义向量提取,对简历文本的段落级相似度评分进行全局语义融合,得到简历文本的融合相似度评分,实现海量简历场景下的简历筛选。

Description

一种语义相似度匹配的海量简历筛选方法
技术领域
本发明涉及简历筛选的技术领域,尤其涉及一种语义相似度匹配的海量简历筛选方法。
背景技术
人员招聘过程中,简历筛选是一项耗时且费力的任务。随着互联网技术的发展和大数据的广泛应用,越来越多的电子简历投送到信箱中,加剧了简历筛选的难度。实际过程中大都根据院校和关键词进行粗粒度筛选,但这种方法往往无法准确捕捉简历中的语义信息,导致筛选结果不够准确。因此迫切需要一种智能化的简历筛选方法,可以在海量简历中快速筛选出与职位需求高度匹配的候选人。这对于提高招聘效率、减轻人力资源部门的工作负担以及提高招聘质量都具有重要意义。目前已经有许多关于简历筛选的研究,其中一些方法基于机器学习和自然语言处理技术。例如,利用词袋模型和TF-IDF算法进行特征提取,并使用支持向量机(SVM)或神经网络进行分类。还有一些研究使用预训练的深度学习模型,如BERT或GPT,来学习简历和职位需求之间的语义关系。尽管已经取得了一些进展,但目前的简历筛选方法仍然存在一些问题。首先,传统的基于关键词匹配的方法无法准确捕捉简历中的语义信息,往往会导致误判。其次,现有的机器学习方法需要大量标记好的数据进行训练,这对于资源有限的企业来说可能是一个挑战。此外,由于职位需求和简历的多样性,单一的模型往往无法覆盖所有情况,导致结果不够准确。针对该问题,本发明提出一种海量简历快速筛选方法,通过简历内容的深度语义分析实现最优匹配,提高筛选准确性。
发明内容
有鉴于此,本发明提供一种语义相似度匹配的海量简历筛选方法,目的在于:1)通过采用独热编码的方式生成表征分词结果在简历中的嵌入编码信息,作为分词结果的细粒度向量,并结合分词结果的位置信息、出现频率生成表征分词结果关键信息量的粗粒度向量,采用结合细粒度向量以及粗粒度向量的方式,得到细粒度向量对粗粒度向量的注意力,其中注意力越大,则当前粗粒度向量越能表征其他细粒度向量的信息,生成不同粗粒度向量的关键得分,实现多维注意力增强的关键词提取,采用语义编码的方式对简历文本的关键词集合进行语义编码,生成对应的语义向量,实现简历文本的语义向量提取;2)对简历文本中每个段落的语义向量进行基于全局语义覆盖的检索相似度计算,得到每个段落与简历关键词指标分别在向量分布以及条件分布的相似度,实现段落级相似度评分,对简历文本的段落级相似度评分进行全局语义融合,得到简历文本的融合相似度评分,并根据融合相似度评分对简历文本进行降序排序,取排序后预设筛选数量的简历文本作为简历筛选结果,实现海量简历场景下,符合筛选指标的简历筛选。
实现上述目的,本发明提供的一种语义相似度匹配的海量简历筛选方法,包括以下步骤:
S1:获取海量简历文本,对任意简历文本进行分段落处理以及关键词提取,得到简历文本的关键词集合,其中基于多维注意力增强的关键词提取方法为所述关键词提取的主要实施方法;
S2:对任意简历文本提取得到的关键词集合进行语义编码,得到简历文本的稠密语义向量;
S3:对简历文本的稠密语义向量进行基于全局语义覆盖的检索相似度计算,得到简历文本的段落级相似度评分;
S4:对简历文本的段落级相似度评分进行全局语义融合,得到简历文本的融合相似度评分,并根据融合相似度评分对简历文本进行降序排序,取排序后预设筛选数量的简历文本作为简历筛选结果。
作为本发明的进一步改进方法:
可选地,所述S1步骤中获取海量简历文本,对任意简历文本进行分段落处理,包括:
获取海量简历文本{Xn|n∈[1,N]},其中Xn表示所获取的第n份简历文本,N表示所获取的简历文本总数;
对任意简历文本进行分段落处理,其中简历文本Xn的分段落处理流程为:
识别简历文本Xn中的换行符,按照换行符将简历文本Xn划分为若干段落;
对简历文本Xn中的任意段落进行分词处理,得到简历文本Xn的分段落处理结果:
其中:
表示简历文本Xn中第i个段落的处理结果,un表示简历文本Xn的段落总数;
表示简历文本Xn第i个段落的第j个分词结果,/>表示简历文本Xn中第i个段落的分词结果总数。在本发明实施例中,所选取的分词方法为jieba分词方法。
可选地,所述S1步骤中对分段落处理后的简历文本进行关键词提取,得到简历文本的关键词集合,包括:
对分段落处理后的简历文本进行关键词提取,得到简历文本的关键词集合,其中简历文本Xn中任意段落处理结果的关键词提取流程为:
S11:对段落处理结果中的任意分词结果进行词性标注,并利用独热编码方式对任意分词结果进行独热编码处理,独热编码表示结果即为分词结果的嵌入向量,并将嵌入向量作为分词结果的细粒度向量,其中/>表示分词结果/>的细粒度向量表示;
S12:根据词性标注结果,提取词性为名词的分词结果的出现频率、嵌入向量以及分词结果在段落中的首次出现位置,将所提取的出现频率、嵌入向量以及首次出现位置作为分词结果的粗粒度向量,得到段落处理结果的粗粒度向量表示集合:
其中:
表示段落处理结果/>中第h个词性为名词的分词结果的粗粒度向量;
表示段落处理结果/>中第h个词性为名词的分词结果的嵌入向量,Hi表示段落处理结果/>中不重复的词性为名词的分词结果的数目;
表示嵌入向量/>所对应分词结果在段落处理结果/>中的首次出现位置;
表示嵌入向量/>所对应分词结果在段落处理结果/>中出现的频率;
S13:计算得到细粒度向量对粗粒度向量的注意力分数,并基于细粒度向量对粗粒度向量的注意力分数计算得到粗粒度向量的关键得分,其中粗粒度向量的关键得分为:
其中:
表示粗粒度向量/>的关键得分;
表示细粒度向量/>对粗粒度向量/>的注意力分数;
exp(·)表示以自然常数为底的指数函数;
WQ,WA分别为权重参数矩阵;
T表示转置;
d表示细粒度向量的长度;
S14:选取关键得分最高的K个不同的粗粒度向量所对应的分词结果构成段落处理结果的关键词集合:
其中:
表示所选取段落处理结果/>的第k个关键词;
表示关键词/>的嵌入向量;
表示关键词/>的关键得分;
表示段落处理结果/>的关键词集合;
则简历文本Xn的关键词集合表示为
可选地,所述S2步骤中对简历文本的关键词集合进行语义编码,得到简历文本的稠密语义向量,包括:
对简历文本的关键词集合进行语义编码,得到简历文本的稠密语义向量,其中简历文本Xn的关键词集合的语义编码流程为:
S21:对简历文本Xn中任意段落处理结果的关键词进行语义编码,其中段落处理结果的关键词/>的语义编码公式为:
其中:
表示关键词/>的语义编码结果;
MV分别为权重参数矩阵;
S22:构成简历文本Xn中任意段落处理结果的语义编码向量,其中段落处理结果的语义编码向量为:
其中:
表示段落处理结果/>的语义编码向量;
S23:构成简历文本Xn的稠密语义向量:
其中:
fn表示简历文本Xn的稠密语义向量。
可选地,所述S3步骤中对简历文本的稠密语义向量进行基于全局语义覆盖的检索相似度计算,包括:
对简历文本的稠密语义向量进行基于全局语义覆盖的检索相似度计算,其中稠密语义向量fn的检索相似度计算流程为:
获取用于简历筛选的简历关键词指标集合,并对简历关键词指标集合中的简历关键词指标进行独热编码处理,生成简历关键词指标向量:
x=(x(1),x(2),...,x(k′),...,x(K′))
其中:
x表示简历关键词指标向量,x(k′)表示简历关键词指标集合中第k′个简历关键词指标的独热编码表示结果,即第k′个简历关键词指标的嵌入向量,K′表示简历关键词指标集合中的简历关键词指标数目;
计算得到稠密语义向量fn与简历关键词指标向量x的检索相似度:
其中:
Sim(fn,x)表示稠密语义向量fn与简历关键词指标向量x的检索相似度;
表示稠密语义向量fn中语义编码向量/>与简历关键词指标向量x在向量分布上的相似度;
表示稠密语义向量fn中语义编码向量/>与简历关键词指标向量x的条件分布相似度,其中稠密语义向量fn与简历关键词指标向量x的检索相似度即为简历文本Xn的段落级相似度评分。
可选地,所述S4步骤中对简历文本的段落级相似度评分进行全局语义融合,得到简历文本的融合相似度评分,包括:
对简历文本的段落级相似度评分进行全局语义融合,得到简历文本的融合相似度评分,其中简历文本Xn的融合相似度评分计算流程为:
对简历文本Xn的段落级相似度评分进行融合处理,其中语义编码向量所对应相似度的融合公式为:
其中:
表示/>与/>的融合结果;
根据相似度融合结果生成简历文本Xn的融合相似度评分:
其中:
Score(Xn)表示简历文本Xn的融合相似度评分;
||·||表示L1范数;
表示融合前un―2个段落的相似度评分的融合结果。
可选地,所述S4步骤中根据融合相似度评分对简历文本进行降序排序,取排序后预设筛选数量的简历文本作为简历筛选结果,包括:
根据融合相似度评分对简历文本进行降序排序,预设筛选数量取排序后前/>份简历文本作为简历筛选结果。
为了解决上述问题,本发明提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;
通信接口,实现电子设备通信;及
处理器,执行所述存储器中存储的指令以实现上述所述的语义相似度匹配的海量简历筛选方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的语义相似度匹配的海量简历筛选方法。
相对于现有技术,本发明提出一种语义相似度匹配的海量简历筛选方法,该技术具有以下优势:
首先,本方案提出一种关键词提取方法,对分段落处理后的简历文本进行关键词提取,得到简历文本的关键词集合,其中简历文本Xn中任意段落处理结果的关键词提取流程为:对段落处理结果/>中的任意分词结果进行词性标注,并利用独热编码方式对任意分词结果进行独热编码处理,独热编码表示结果即为分词结果的嵌入向量,并将嵌入向量作为分词结果的细粒度向量,其中/>表示分词结果/>的细粒度向量表示;根据词性标注结果,提取词性为名词的分词结果的出现频率、嵌入向量以及分词结果在段落中的首次出现位置,将所提取的出现频率、嵌入向量以及首次出现位置作为分词结果的粗粒度向量,得到段落处理结果/>的粗粒度向量表示集合:
其中:表示段落处理结果/>中第h个词性为名词的分词结果的粗粒度向量;/>表示段落处理结果/>中第h个词性为名词的分词结果的嵌入向量,Hi表示段落处理结果/>中不重复的词性为名词的分词结果的数目;/>表示嵌入向量/>所对应分词结果在段落处理结果/>中的首次出现位置;/>表示嵌入向量/>所对应分词结果在段落处理结果/>中出现的频率;计算得到细粒度向量对粗粒度向量的注意力分数,并基于细粒度向量对粗粒度向量的注意力分数计算得到粗粒度向量的关键得分,其中粗粒度向量/>的关键得分为:
其中:表示粗粒度向量/>的关键得分;/>表示细粒度向量/>对粗粒度向量/>的注意力分数;exp(·)表示以自然常数为底的指数函数;WO,WA分别为权重参数矩阵;T表示转置;d表示细粒度向量的长度;选取关键得分最高的K个不同的粗粒度向量所对应的分词结果构成段落处理结果/>的关键词集合:
其中:表示所选取段落处理结果/>的第k个关键词;/>表示关键词/>的嵌入向量;/>表示关键词/>的关键得分;/>表示段落处理结果/>的关键词集合;则简历文本Xn的关键词集合表示为/>本方案通过采用独热编码的方式生成表征分词结果在简历中的嵌入编码信息,作为分词结果的细粒度向量,并结合分词结果的位置信息、出现频率生成表征分词结果关键信息量的粗粒度向量,采用结合细粒度向量以及粗粒度向量的方式,得到细粒度向量对粗粒度向量的注意力,其中注意力越大,则当前粗粒度向量越能表征其他细粒度向量的信息,生成不同粗粒度向量的关键得分,实现多维注意力增强的关键词提取,采用语义编码的方式对简历文本的关键词集合进行语义编码,生成对应的语义向量,实现简历文本的语义向量提取。
同时,本方案提出一种简历检索的方法,通过获取用于简历筛选的简历关键词指标集合,并对简历关键词指标集合中的简历关键词指标进行独热编码处理,生成简历关键词指标向量:
x=(x(1),x(2),...,x(k′),...,x(K′))
其中:
x表示简历关键词指标向量,x(k′)表示简历关键词指标集合中第k′个简历关键词指标的独热编码表示结果,即第k′个简历关键词指标的嵌入向量,K′表示简历关键词指标集合中的简历关键词指标数目;计算得到稠密语义向量fn与简历关键词指标向量x的检索相似度:
其中:Sim(fn,x)表示稠密语义向量fn与简历关键词指标向量x的检索相似度;表示稠密语义向量fn中语义编码向量/>与简历关键词指标向量x在向量分布上的相似度;
表示稠密语义向量fn中语义编码向量/>与简历关键词指标向量x的条件分布相似度,其中稠密语义向量fn与简历关键词指标向量x的检索相似度即为简历文本Xn的段落级相似度评分。对简历文本的段落级相似度评分进行全局语义融合,得到简历文本的融合相似度评分,其中简历文本Xn的融合相似度评分计算流程为:对简历文本Xn的段落级相似度评分进行融合处理,其中语义编码向量/>所对应相似度的融合公式为:
其中:表示/>与/>的融合结果;根据相似度融合结果生成简历文本Xn的融合相似度评分:
其中:Score(Xn)表示简历文本Xn的融合相似度评分;||·||表示L1范数;表示融合前un―2个段落的相似度评分的融合结果。本方案对简历文本中每个段落的语义向量进行基于全局语义覆盖的检索相似度计算,得到每个段落与简历关键词指标分别在向量分布以及条件分布的相似度,实现段落级相似度评分,对简历文本的段落级相似度评分进行全局语义融合,得到简历文本的融合相似度评分,并根据融合相似度评分对简历文本进行降序排序,取排序后预设筛选数量的简历文本作为简历筛选结果,实现海量简历场景下,符合筛选指标的简历筛选。
附图说明
图1为本发明一实施例提供的一种语义相似度匹配的海量简历筛选方法的流程示意图;
图2为本发明一实施例提供的实现语义相似度匹配的海量简历筛选方法的电子设备的结构示意图。
图中:1电子设备,10处理器,11存储器,12程序,13通信接口。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种语义相似度匹配的海量简历筛选方法。所述语义相似度匹配的海量简历筛选方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述语义相似度匹配的海量简历筛选方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
实施例1:
S1:获取海量简历文本,对任意简历文本进行分段落处理以及关键词提取,得到简历文本的关键词集合。
所述S1步骤中获取海量简历文本,对任意简历文本进行分段落处理,包括:
获取海量简历文本{Xn|n∈[1,N]},其中Xn表示所获取的第n份简历文本,N表示所获取的简历文本总数;
对任意简历文本进行分段落处理,其中简历文本Xn的分段落处理流程为:
识别简历文本Xn中的换行符,按照换行符将简历文本Xn划分为若干段落;
对简历文本Xn中的任意段落进行分词处理,得到简历文本Xn的分段落处理结果:
其中:
表示简历文本Xn中第i个段落的处理结果,un表示简历文本Xn的段落总数;
表示简历文本Xn第i个段落的第j个分词结果,/>表示简历文本Xn中第i个段落的分词结果总数。
所述S1步骤中对分段落处理后的简历文本进行关键词提取,得到简历文本的关键词集合,包括:
对分段落处理后的简历文本进行关键词提取,得到简历文本的关键词集合,其中简历文本Xn中任意段落处理结果的关键词提取流程为:
S11:对段落处理结果中的任意分词结果进行词性标注,并利用独热编码方式对任意分词结果进行独热编码处理,独热编码表示结果即为分词结果的嵌入向量,并将嵌入向量作为分词结果的细粒度向量,其中/>表示分词结果/>的细粒度向量表示;
S12:根据词性标注结果,提取词性为名词的分词结果的出现频率、嵌入向量以及分词结果在段落中的首次出现位置,将所提取的出现频率、嵌入向量以及首次出现位置作为分词结果的粗粒度向量,得到段落处理结果的粗粒度向量表示集合:
其中:
表示段落处理结果/>中第h个词性为名词的分词结果的粗粒度向量;
表示段落处理结果/>中第h个词性为名词的分词结果的嵌入向量,Hi表示段落处理结果/>中不重复的词性为名词的分词结果的数目;
表示嵌入向量/>所对应分词结果在段落处理结果/>中的首次出现位置;
表示嵌入向量/>所对应分词结果在段落处理结果/>中出现的频率;
S13:计算得到细粒度向量对粗粒度向量的注意力分数,并基于细粒度向量对粗粒度向量的注意力分数计算得到粗粒度向量的关键得分,其中粗粒度向量的关键得分为:
其中:
表示粗粒度向量/>的关键得分;
表示细粒度向量/>对粗粒度向量/>的注意力分数;
exp(·)表示以自然常数为底的指数函数;
WQ,WA分别为权重参数矩阵;
T表示转置;
d表示细粒度向量的长度;
S14:选取关键得分最高的K个不同的粗粒度向量所对应的分词结果构成段落处理结果的关键词集合:
其中:
表示所选取段落处理结果/>的第k个关键词;
表示关键词/>的嵌入向量;
表示关键词/>的关键得分;
表示段落处理结果/>的关键词集合;
则简历文本Xn的关键词集合表示为
S2:对任意简历文本提取得到的关键词集合进行语义编码,得到简历文本的稠密语义向量。
所述S2步骤中对简历文本的关键词集合进行语义编码,得到简历文本的稠密语义向量,包括:
对简历文本的关键词集合进行语义编码,得到简历文本的稠密语义向量,其中简历文本Xn的关键词集合的语义编码流程为:
S21:对简历文本Xn中任意段落处理结果的关键词进行语义编码,其中段落处理结果的关键词/>的语义编码公式为:
其中:
表示关键词/>的语义编码结果;
WV分别为权重参数矩阵;
S22:构成简历文本Xn中任意段落处理结果的语义编码向量,其中段落处理结果的语义编码向量为:
其中:
表示段落处理结果/>的语义编码向量;
S23:构成简历文本Xn的稠密语义向量:
其中:
fn表示简历文本Xn的稠密语义向量。
S3:对简历文本的稠密语义向量进行基于全局语义覆盖的检索相似度计算,得到简历文本的段落级相似度评分。
所述S3步骤中对简历文本的稠密语义向量进行基于全局语义覆盖的检索相似度计算,包括:
对简历文本的稠密语义向量进行基于全局语义覆盖的检索相似度计算,其中稠密语义向量fn的检索相似度计算流程为:
获取用于简历筛选的简历关键词指标集合,并对简历关键词指标集合中的简历关键词指标进行独热编码处理,生成简历关键词指标向量:
x=(x(1),x(2),...,x(k′),...,x(K′))
其中:
x表示简历关键词指标向量,x(k′)表示简历关键词指标集合中第k′个简历关键词指标的独热编码表示结果,即第k′个简历关键词指标的嵌入向量,K′表示简历关键词指标集合中的简历关键词指标数目;
计算得到稠密语义向量fn与简历关键词指标向量x的检索相似度:
/>
其中:
Sim(fn,x)表示稠密语义向量fn与简历关键词指标向量x的检索相似度;
表示稠密语义向量fn中语义编码向量/>与简历关键词指标向量x在向量分布上的相似度;
表示稠密语义向量fn中语义编码向量/>与简历关键词指标向量x的条件分布相似度,其中稠密语义向量fn与简历关键词指标向量x的检索相似度即为简历文本Xn的段落级相似度评分。
S4:对简历文本的段落级相似度评分进行全局语义融合,得到简历文本的融合相似度评分,并根据融合相似度评分对简历文本进行降序排序,取排序后预设筛选数量的简历文本作为简历筛选结果。
所述S4步骤中对简历文本的段落级相似度评分进行全局语义融合,得到简历文本的融合相似度评分,包括:
对简历文本的段落级相似度评分进行全局语义融合,得到简历文本的融合相似度评分,其中简历文本Xn的融合相似度评分计算流程为:
对简历文本Xn的段落级相似度评分进行融合处理,其中语义编码向量所对应相似度的融合公式为:
其中:
表示/>与/>的融合结果;
根据相似度融合结果生成简历文本Xn的融合相似度评分:
其中:
Score(Xn)表示简历文本Xn的融合相似度评分;
||·||表示L1范数;
表示融合前un―2个段落的相似度评分的融合结果。
所述S4步骤中根据融合相似度评分对简历文本进行降序排序,取排序后预设筛选数量的简历文本作为简历筛选结果,包括:
根据融合相似度评分对简历文本进行降序排序,预设筛选数量取排序后前/>份简历文本作为简历筛选结果。
实施例2:
如图2所示,是本发明一实施例提供的实现语义相似度匹配的海量简历筛选方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11、通信接口13和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如程序12的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(用于实现语义相似度匹配的海量简历筛选的程序12等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述通信接口13可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接,并实现电子设备内部组件之间的连接通信。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图2仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图2示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
获取海量简历文本,对任意简历文本进行分段落处理以及关键词提取,得到简历文本的关键词集合;
对任意简历文本提取得到的关键词集合进行语义编码,得到简历文本的稠密语义向量;
对简历文本的稠密语义向量进行基于全局语义覆盖的检索相似度计算,得到简历文本的段落级相似度评分;
对简历文本的段落级相似度评分进行全局语义融合,得到简历文本的融合相似度评分,并根据融合相似度评分对简历文本进行降序排序,取排序后预设筛选数量的简历文本作为简历筛选结果。
具体地,所述处理器10对上述指令的具体实现方法可参考图1至图2对应实施例中相关步骤的描述,在此不赘述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种语义相似度匹配的海量简历筛选方法,其特征在于,所述方法包括:
S1:获取海量简历文本,对任意简历文本进行分段落处理以及关键词提取,得到简历文本的关键词集合;
S2:对任意简历文本提取得到的关键词集合进行语义编码,得到简历文本的稠密语义向量;
S3:对简历文本的稠密语义向量进行基于全局语义覆盖的检索相似度计算,得到简历文本的段落级相似度评分;
S4:对简历文本的段落级相似度评分进行全局语义融合,得到简历文本的融合相似度评分,并根据融合相似度评分对简历文本进行降序排序,取排序后预设筛选数量的简历文本作为简历筛选结果;
对简历文本的段落级相似度评分进行全局语义融合,得到简历文本的融合相似度评分,其中简历文本Xn的融合相似度评分计算流程为:
对简历文本Xn的段落级相似度评分进行融合处理,其中语义编码向量所对应相似度的融合公式为:
其中:
表示稠密语义向量fn中语义编码向量/>与简历关键词指标向量x在向量分布上的相似度;
表示稠密语义向量fn中语义编码向量/>与简历关键词指标向量x的条件分布相似度,其中稠密语义向量fn与简历关键词指标向量x的检索相似度即为简历文本Xn的段落级相似度评分;
表示/>与/>的融合结果;
根据相似度融合结果生成简历文本Xn的融合相似度评分:
其中:
Score(Xn)表示简历文本Xn的融合相似度评分;
||·||表示L1范数;
表示融合前un-2个段落的相似度评分的融合结果。
2.如权利要求1所述的一种语义相似度匹配的海量简历筛选方法,其特征在于,所述S1步骤中获取海量简历文本,对任意简历文本进行分段落处理,包括:
获取海量简历文本{Xn|n∈[1,N]},其中Xn表示所获取的第n份简历文本,N表示所获取的简历文本总数;
对任意简历文本进行分段落处理,其中简历文本Xn的分段落处理流程为:
识别简历文本Xn中的换行符,按照换行符将简历文本Xn划分为若干段落;
对简历文本Xn中的任意段落进行分词处理,得到简历文本Xn的分段落处理结果:
其中:
表示简历文本Xn中第i个段落的处理结果,un表示简历文本Xn的段落总数;
表示简历文本Xn第i个段落的第j个分词结果,/>表示简历文本Xn中第i个段落的分词结果总数。
3.如权利要求2所述的一种语义相似度匹配的海量简历筛选方法,其特征在于,所述S1步骤中对分段落处理后的简历文本进行关键词提取,得到简历文本的关键词集合,包括:
对分段落处理后的简历文本进行关键词提取,得到简历文本的关键词集合,其中简历文本Xn中任意段落处理结果的关键词提取流程为:
S11:对段落处理结果中的任意分词结果进行词性标注,并利用独热编码方式对任意分词结果进行独热编码处理,独热编码表示结果即为分词结果的嵌入向量,并将嵌入向量作为分词结果的细粒度向量,其中/>表示分词结果/>的细粒度向量表示;
S12:根据词性标注结果,提取词性为名词的分词结果的出现频率、嵌入向量以及分词结果在段落中的首次出现位置,将所提取的出现频率、嵌入向量以及首次出现位置作为分词结果的粗粒度向量,得到段落处理结果的粗粒度向量表示集合:
其中:
表示段落处理结果/>中第h个词性为名词的分词结果的粗粒度向量;
表示段落处理结果/>中第h个词性为名词的分词结果的嵌入向量,Hi表示段落处理结果/>中不重复的词性为名词的分词结果的数目;
表示嵌入向量/>所对应分词结果在段落处理结果/>中的首次出现位置;
表示嵌入向量/>所对应分词结果在段落处理结果/>中出现的频率;
S13:计算得到细粒度向量对粗粒度向量的注意力分数,并基于细粒度向量对粗粒度向量的注意力分数计算得到粗粒度向量的关键得分,其中粗粒度向量的关键得分为:
其中:
表示粗粒度向量/>的关键得分;
表示细粒度向量/>对粗粒度向量/>的注意力分数;
exp(·)表示以自然常数为底的指数函数;
WQ,WA分别为权重参数矩阵;
T表示转置;
d表示细粒度向量的长度;
S14:选取关键得分最高的K个不同的粗粒度向量所对应的分词结果构成段落处理结果的关键词集合:
其中:
表示所选取段落处理结果/>的第k个关键词;
表示关键词/>的嵌入向量;
表示关键词/>的关键得分;
表示段落处理结果/>的关键词集合;
则简历文本Xn的关键词集合表示为
4.如权利要求2所述的一种语义相似度匹配的海量简历筛选方法,其特征在于,所述S2步骤中对简历文本的关键词集合进行语义编码,得到简历文本的稠密语义向量,包括:
对简历文本的关键词集合进行语义编码,得到简历文本的稠密语义向量,其中简历文本Xn的关键词集合的语义编码流程为:
S21:对简历文本Xn中任意段落处理结果的关键词进行语义编码,其中段落处理结果的关键词/>的语义编码公式为:
其中:
表示关键词/>的语义编码结果;
WV分别为权重参数矩阵;
S22:构成简历文本Xn中任意段落处理结果的语义编码向量,其中段落处理结果的语义编码向量为:
其中:
表示段落处理结果/>的语义编码向量;
S23:构成简历文本Xn的稠密语义向量:
其中:
fn表示简历文本Xn的稠密语义向量。
5.如权利要求4所述的一种语义相似度匹配的海量简历筛选方法,其特征在于,所述S3步骤中对简历文本的稠密语义向量进行基于全局语义覆盖的检索相似度计算,包括:
对简历文本的稠密语义向量进行基于全局语义覆盖的检索相似度计算,其中稠密语义向量fn的检索相似度计算流程为:
获取用于简历筛选的简历关键词指标集合,并对简历关键词指标集合中的简历关键词指标进行独热编码处理,生成简历关键词指标向量:
x=(x(1),x(2),...,x(k′),...,x(K′))
其中:
x表示简历关键词指标向量,x(k′)表示简历关键词指标集合中第k′个简历关键词指标的独热编码表示结果,即第k′个简历关键词指标的嵌入向量,K′表示简历关键词指标集合中的简历关键词指标数目;
计算得到稠密语义向量fn与简历关键词指标向量x的检索相似度:
其中:
Sim(fn,x)表示稠密语义向量fn与简历关键词指标向量x的检索相似度;
表示稠密语义向量fn中语义编码向量/>与简历关键词指标向量x在向量分布上的相似度;
表示稠密语义向量fn中语义编码向量/>与简历关键词指标向量x的条件分布相似度,其中稠密语义向量fn与简历关键词指标向量x的检索相似度即为简历文本Xn的段落级相似度评分。
6.如权利要求1所述的一种语义相似度匹配的海量简历筛选方法,其特征在于,所述S4步骤中根据融合相似度评分对简历文本进行降序排序,取排序后预设筛选数量的简历文本作为简历筛选结果,包括:
根据融合相似度评分对简历文本进行降序排序,预设筛选数量取排序后前/>份简历文本作为简历筛选结果。
CN202311446345.5A 2023-11-02 2023-11-02 一种语义相似度匹配的海量简历筛选方法 Active CN117390173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311446345.5A CN117390173B (zh) 2023-11-02 2023-11-02 一种语义相似度匹配的海量简历筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311446345.5A CN117390173B (zh) 2023-11-02 2023-11-02 一种语义相似度匹配的海量简历筛选方法

Publications (2)

Publication Number Publication Date
CN117390173A CN117390173A (zh) 2024-01-12
CN117390173B true CN117390173B (zh) 2024-03-29

Family

ID=89464638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311446345.5A Active CN117390173B (zh) 2023-11-02 2023-11-02 一种语义相似度匹配的海量简历筛选方法

Country Status (1)

Country Link
CN (1) CN117390173B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133213A (zh) * 2017-05-06 2017-09-05 广东药科大学 一种基于算法的文本摘要自动提取方法与系统
CN111461637A (zh) * 2020-02-28 2020-07-28 平安国际智慧城市科技股份有限公司 简历筛选方法、装置、计算机设备和存储介质
CN112347229A (zh) * 2020-11-12 2021-02-09 润联软件系统(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN116150704A (zh) * 2023-04-21 2023-05-23 广东工业大学 基于语义相似度匹配的多模态融合表征方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133213A (zh) * 2017-05-06 2017-09-05 广东药科大学 一种基于算法的文本摘要自动提取方法与系统
CN111461637A (zh) * 2020-02-28 2020-07-28 平安国际智慧城市科技股份有限公司 简历筛选方法、装置、计算机设备和存储介质
CN112347229A (zh) * 2020-11-12 2021-02-09 润联软件系统(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN116150704A (zh) * 2023-04-21 2023-05-23 广东工业大学 基于语义相似度匹配的多模态融合表征方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李景玉.基于BERT的孪生网络计算句子语义相似度.《科技资讯 信息技术》.(第32期),第1-4页. *

Also Published As

Publication number Publication date
CN117390173A (zh) 2024-01-12

Similar Documents

Publication Publication Date Title
CN108717406B (zh) 文本情绪分析方法、装置及存储介质
CN108629043B (zh) 网页目标信息的提取方法、装置及存储介质
CA2777520C (en) System and method for phrase identification
WO2020224097A1 (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
WO2021068339A1 (zh) 文本分类方法、装置及计算机可读存储介质
CN112597312A (zh) 文本分类方法、装置、电子设备及可读存储介质
CN113157927B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN113378970B (zh) 语句相似性检测方法、装置、电子设备及存储介质
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN112883730B (zh) 相似文本匹配方法、装置、电子设备及存储介质
CN113033198B (zh) 相似文本推送方法、装置、电子设备及计算机存储介质
CN113051356A (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN113627797B (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN114398557A (zh) 基于双画像的信息推荐方法、装置、电子设备及存储介质
WO2021042529A1 (zh) 文章摘要自动生成方法、装置及计算机可读存储介质
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN112364068A (zh) 课程标签生成方法、装置、设备及介质
CN112632264A (zh) 智能问答方法、装置、电子设备及存储介质
CN117390173B (zh) 一种语义相似度匹配的海量简历筛选方法
CN115525761A (zh) 一种文章关键词筛选类别的方法、装置、设备及存储介质
CN114996400A (zh) 裁判文书处理方法、装置、电子设备及存储介质
CN112560427B (zh) 问题扩展方法、装置、电子设备及介质
CN115438048A (zh) 表搜索方法、装置、设备及存储介质
CN115221323A (zh) 基于意图识别模型的冷启动处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant