CN111767390A - 技能词评估方法及装置、电子设备、计算机可读介质 - Google Patents

技能词评估方法及装置、电子设备、计算机可读介质 Download PDF

Info

Publication number
CN111767390A
CN111767390A CN202010598970.1A CN202010598970A CN111767390A CN 111767390 A CN111767390 A CN 111767390A CN 202010598970 A CN202010598970 A CN 202010598970A CN 111767390 A CN111767390 A CN 111767390A
Authority
CN
China
Prior art keywords
skill
word
skill word
training
resume
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010598970.1A
Other languages
English (en)
Inventor
张敬帅
马超
祝恒书
姚开春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010598970.1A priority Critical patent/CN111767390A/zh
Publication of CN111767390A publication Critical patent/CN111767390A/zh
Priority to EP21154941.5A priority patent/EP3929800A1/en
Priority to KR1020210015718A priority patent/KR102456148B1/ko
Priority to US17/169,341 priority patent/US20210406464A1/en
Priority to JP2021017217A priority patent/JP7128919B2/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring

Abstract

本公开提供了一种简历的技能词评估方法,涉及机器学习技术领域,该方法包括:从待评估的简历文档中确定出待评估的第一技能词列表,所述第一技能词列表中包括多个技能词;针对所述第一技能词列表中的每个技能词,利用预先训练好的技能词评估模型和该技能词在所述第一技能词列表中的上下文信息,预测出该技能词出现的概率值,该概率值用于表征该技能词的重要程度。本公开还提供了技能词评估装置、电子设备及计算机可读介质。

Description

技能词评估方法及装置、电子设备、计算机可读介质
技术领域
本公开实施例涉及机器学习技术领域,特别涉及简历的技能词评估方法及装置、电子设备、计算机可读介质。
背景技术
目前,在企业招聘过程中,招聘人员面对的是往往是成百上千份的求职简历,一方面招聘人员往往还采用人工识别、判断、筛选的方式,导致招聘人员需要花费大量的时间来识别简历中的有效信息,以从千百万份简历中筛选出满足企业需求的人才;另一方面,企业针对不同的岗位往往有着不同的专业需求,特别在于专业技能上,而由于招聘人员知识范围有限,其并不能够对简历中所有的专业技能进行有效识别,从而导致优秀简历流失。
因此,如何帮助招聘人员提高简历筛选、目标人才的筛选的效率和准确性,已成为目前亟待解决的技术问题。
发明内容
本公开实施例提供一种简历的技能词评估方法及装置、电子设备、计算机可读介质。
第一方面,本公开实施例提供一种简历的技能词评估方法,该技能词评估方法包括:
从待评估的简历文档中确定出待评估的第一技能词列表,所述第一技能词列表中包括多个技能词;
针对所述第一技能词列表中的每个技能词,利用预先训练好的技能词评估模型和该技能词在所述第一技能词列表中的上下文信息,预测出该技能词出现的概率值,该概率值用于表征该技能词的重要程度。
第二方面,本公开实施例提供一种技能词评估装置,该技能词评估装置包括:
技能词获取模块,用于从待评估的简历文档中确定出待评估的第一技能词列表,所述第一技能词列表中包括多个技能词;
技能词评估模块,用于针对所述第一技能词列表中的每个技能词,利用预先训练好的技能词评估模型和该技能词在所述第一技能词列表中的上下文信息,预测出该技能词出现的概率值,该概率值用于表征该技能词的重要程度。
第三方面,本公开实施例提供一种电子设备,其包括:
一个或多个处理器;
存储器,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据本公开任一实施例所提供的技能词评估方法。
第四方面,本公开实施例提供一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被执行时实现根据本公开任一实施例所提供的技能词评估方法。
本公开实施例提供的简历的技能词评估方法及装置、电子设备、计算机可读介质,提高了技能词评估的准确性,提高了简历筛选效率,极大的节约了人力筛选和评估的时间成本。
附图说明
附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开,并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,在附图中:
图1为本公开实施例提供的一种简历的技能词评估方法的流程图;
图2为图1中步骤11的一种具体实现方式的流程图;
图3为图2中步骤111的一种具体实现方式的流程图;
图4为本公开实施例中一种技能词评估模型的训练方法的流程图;
图5为本公开实施例中一种词嵌入模型的神经网络结构示意图;
图6为本公开实施例提供的一种技能词评估装置的组成框图;
图7为图6中一种技能词获取模块的组成框图;
图8为本公开实施例提供的另一种技能词评估装置的组成框图;
图9为本公开实施例提供的一种电子设备的组成框图。
具体实施方式
为使本领域的技术人员更好地理解本公开的技术方案,下面结合附图对本公开提供的简历的技能词评估方法及装置、电子设备、计算机可读介质进行详细描述。
在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将使本领域技术人员充分理解本公开的范围。
在不冲突的情况下,本公开各实施例及实施例中的各特征可相互组合。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
图1为本公开实施例提供的一种简历的技能词评估方法的流程图,如图1所示,该方法可以由技能词评估装置来执行,该装置可以通过软件和/或硬件的方式实现,该装置可以集成在如服务器等电子设备中。该技能词评估方法包括步骤11和步骤12。
步骤11、从待评估的简历文档中确定出待评估的第一技能词列表,第一技能词列表中包括多个技能词。
在一些应用场景中,招聘人员获取求职者的一份或多份简历文档后,可以将简历文档发送给技能词评估装置进行评估,其中,招聘人员获取简历文档的渠道可以是通过招聘邮箱、招聘网站、招聘客户端等获取。在一些应用场景中,招聘邮箱、招聘网站、招聘客户端等在接收到求职者的简历文档后,还可以自动将简历文档转发给技能词评估装置。在一些应用场景中,技能词评估装置还可以通过每隔预置时间(例如10分钟、20分钟等)主动询问的方式,从招聘邮箱、招聘网站、招聘客户端等获得求职者的简历文档。在一些应用场景中,简历文档还可以是纸质版的简历文档,招聘人员获取到纸质版的简历文档后,可以在通过扫描方式将纸质版的简历文档转换成电子版的简历文档后发送给技能词评估装置。
在本公开实施例中,技能词评估装置在接收到简历文档后,针对每份简历文档进行步骤11和步骤12的操作,从而完成对每份简历文档的技能词的自动评估。在一些实施例中,技能词评估装置在完成每份简历文档的技能词评估后,还可以通过如人机交互界面等合适的方式向招聘人员展示各简历文档的技能词评估结果,以便招聘人员可以快速准确地获取求职者的简历技能画像并完成简历筛选。
图2为图1中步骤11的一种具体实现方式的流程图,如图2所示,在一些实施例中,步骤11包括步骤111至步骤113。
步骤111、从简历文档中确定出第二技能词列表,第二技能词列表包括简历文档中出现的所有技能词。
图3为图2中步骤111的一种具体实现方式的流程图,如图3所示,在一些实施例中,步骤111包括步骤1111和步骤1112。
步骤1111、从简历文档中获取简历文本数据。
具体地,在步骤1111中,在获取简历文档后,对简历文档进行标准化、格式化处理,以得到简历文档中的简历文本数据,其中,简历文本数据包括工作经验描述、项目经验描述、个人专业技能描述等文本数据。
步骤1112、从简历文本数据中提取出简历文本数据中出现的所有技能词,以生成第二技能词列表。
具体地,在步骤1112中,对于简历文本数据,首先利用预设的分词工具对简历文本数据进行分词处理,得到分词处理结果,分词处理结果包含简历文本数据中的各个词语。
然后,利用预设的领域技能词库,从分词处理结果中筛选出简历文本数据中出现的所有技能词。具体地,可以将分词得到的词语与技能词库中的技能词进行匹配,如果匹配一致,则表明该词语为技能词。其中,技能词可以是中文形式的技能词,也可以是英文形式的技能词,或者是中英文简称形式的技能词。
在步骤1112中,在通过领域技能词库对简历文本数据中的非技能词进行过滤后,得到简历文本数据中出现的所有技能词,根据该所有技能词生成第二技能词列表。
步骤112、确定第二技能词列表中每个技能词所属的技术领域。
为了便于加强招聘人员对技能词的理解,在一些实施例中,需要对技能词所属的技术领域进行识别。具体地,在步骤112中,利用预设的知识图谱,确定出第二技能词列表中每个技能词所属的技术领域。其中,知识图谱包含技能词和所属技术领域的对应关系,技术领域可以包含多种技能词。例如,技能:“TensorFlow”属于“深度学习”领域的技能。由于招聘人员可能对于某些技能词(例如TensorFlow)不了解,使得招聘人员可能会对求职者的简历理解产生较大偏差,因此,在一些实施例中,通过引入预设的技术领域与技能词的知识图谱,来扩展技能词的上下位关系、相似关系等,合理地规范化技能词的描述,即能够规范化后续步骤中模型的输入,也能够提高模型输出结果的可读性,加强招聘人员对简历中的技能词的理解。
步骤113、根据第二技能词列表中的所有技能词和对应的技术领域,生成第一技能词列表,每个技术领域作为一个技能词。
在一些实施例中,在步骤113中,在获取到简历文档中出现的所有技能词,并识别出各技能词所属的技术领域后,将技术领域本身也作为一个技能词,并根据简历文档中出现的所有技能词和对应的技术领域,生成第一技能词列表,在第一技能词列表中,每个技术领域作为一个技能词。
步骤12、针对第一技能词列表中的每个技能词,利用预先训练好的技能词评估模型和该技能词在第一技能词列表中的上下文信息,预测出该技能词出现的概率值,该概率值用于表征该技能词的重要程度。
可以理解的是,该技能词在第一技能词列表中的上下文信息包括第一技能词列表中除该技能词以外的其他技能词。在步骤12中,预先训练好的技能词评估模型的输入为除该技能词以外的其他技能词对应的词向量,其输出为该技能词出现的概率值,即该技能词在简历文档中其他技能词已知的情况下出现的概率,该概率值能够表征对应的技能词的重要程度,概率值越大,该技能词的重要程度越高。
具体地,在步骤12中,首先针对第一技能词列表中除该技能词以外的每个技能词,生成除该技能词以外的每个技能词所对应的词向量。其中每个技能词对应的词向量可以通过独热编码(Onehot)的方式生成。
然后,将除该技能词以外的每个技能词所对应的词向量作为预先训练好的技能词评估模型的输入,利用所述技能词评估模型预测得到该技能词出现的概率值。
利用预先训练的技能词评估模型,对第一技能词列表中的每个技能词进行预测,得到第一技能词列表中每个技能词出现的概率值。
图4为本公开实施例中一种技能词评估模型的训练方法的流程图,在一些实施例中,如图4所示,技能词评估模型通过以下步骤训练得到:
步骤21、获取训练数据集,训练数据集包括从简历样本中抽取得到训练技能词表,训练技能词表中包括多个训练技能词。
其中,多个训练技能词包括从简历样本中抽取出的技能词及其对应的技术领域。
步骤22、生成各训练技能词对应的词向量。
在一些实施例中,可以通过对每个训练技能词进行独热编码(Onehot)处理,得到每个训练技能词对应的词向量。
步骤23、针对每个训练技能词,将除该训练技能词以外的每个训练技能词对应的词向量作为输入,利用预设的词嵌入模型进行模型训练,词嵌入模型的输出为该训练技能词出现的概率值。
其中,除该训练技能词以外的每个训练技能词对应的词向量分别记为x1,x2,…,xC,C表示除该训练技能词以外的其他训练技能词的总数量。
在一些实施例中,词嵌入模型包括连续词袋神经网络模型(CBOW),图5为本公开实施例中一种词嵌入模型的神经网络结构示意图,如图5所示,词嵌入模型包括输入层(Inputlayer)、隐藏层(Hidden layer)和输出层(Output layer)。
其中,输入层有C个训练技能词的输入:{x1,x2,…,xC},其中窗口大小为C,词汇表长度为V,V表示领域技能词库中技能词的总数量。
隐藏层是N维的向量,N为隐藏层的神经元个数,隐藏层h的输出表示如下:
Figure BDA0002558516780000071
其中,WT为从输入层到隐藏层的N*V维的权重矩阵,h为隐藏层的输出,h表示C个训练技能词对应的词向量的加权平均,x1,x2,…,xC分别表示除该训练技能词以外的其他训练技能词对应的词向量。
输出层的输入为V×1维的向量u,u=W′T·h,其中W′T为从隐藏层到输出层的N*V维的权重矩阵,向量u的第j个元素uj为W′T的第j列与隐藏层的输出h的内积,即
Figure BDA0002558516780000081
其中,
Figure BDA0002558516780000082
表示W′T的第j列,uj表示领域技能词库中第j个技能词的分数,取分数最高的技能词为预测输出的技能词,并使用Softmax(逻辑回归)函数将向量u归一化到[0,1]之间,从而预测得到输出的技能词的概率,最终得到输出层的输出向量yj,其中,输出向量yj表示如下:
Figure BDA0002558516780000083
其中,xi表示训练技能词表中的第i个技能词,contex(xi)表示训练技能词表中除xi以外的剩余的技能词,P(xi|contex(xi))表示输出的第i个技能词出现的概率值。
步骤24、利用预设的随机梯度算法对所述词嵌入模型的模型参数进行迭代更新,以得到技能词评估模型。
在步骤24中,在模型训练过程中,使用随机梯度下降算法不断更新模型参数WT和W′T,直至模型收敛,最终得到所需的技能词评估模型。
本公开实施例所提供的技能词评估方法,通过自动化抽取简历中的技能信息,并利用技能词的上下文信息和预先训练好的技能词评估模型,预测出技能词出现的概率,概率值越大表示技能词的重要性越高,从而实现了自动对简历中的每个技能词的评估,提高技能词评估的准确性,同时,能够快速的构建一份简历的技能画像,能够有效帮助招聘人员快速提取简历技能信息、了解简历内容以及完成简历筛选,提高了简历筛选效率,极大的节约了人力筛选和评估的时间成本。
图6为本公开实施例提供的一种技能词评估装置的组成框图,如图6所示,该技能词评估装置用于实现上述的技能词评估方法,该技能词评估装置包括:技能词获取模块31和技能词评估模块32。
其中,技能词获取模块31用于从待评估的简历文档中确定出待评估的第一技能词列表,第一技能词列表中包括多个技能词。
技能词评估模块32用于针对第一技能词列表中的每个技能词,利用预先训练好的技能词评估模型和该技能词在第一技能词列表中的上下文信息,预测出该技能词出现的概率值,该概率值用于表征该技能词的重要程度。
图7为图6中一种技能词获取模块的组成框图,如图7所示,在一些实施例中,技能词获取模块31包括技能词抽取子模块311、技能领域确定子模块312和技能词列表生成子模块313。
其中,技能词抽取子模块311用于从简历文档中确定出第二技能词列表,第二技能词列表包括简历文档中出现的所有技能词;技能领域确定子模块312用于确定第二技能词列表中每个技能词所属的技术领域;技能词列表生成子模块313用于根据第二技能词列表中的所有技能词和对应的技术领域,生成第一技能词列表,每个技术领域作为一个技能词。
在一些实施例中,技能词抽取子模块311具体用于:从简历文档中获取简历文本数据;从简历文本数据中提取出简历文本数据中出现的所有技能词,以生成第二技能词列表。
在一些实施例中,技能词抽取子模块311具体用于:利用预设的分词工具,对简历文本数据进行分词处理;利用预设的领域技能词库,从分词处理结果中筛选出简历文本数据中出现的所有技能词。
在一些实施例中,技能领域确定子模块312具体用于利用预设的知识图谱,确定出第二技能词列表中每个技能词所属的技术领域。
图8为本公开实施例提供的另一种技能词评估装置的组成框图,如图8所示,该技能词评估装置还包括模型训练模块33。
其中,模型训练模块33用于:获取训练数据集,训练数据集包括从简历样本中抽取得到的多个训练技能词;生成各训练技能词对应的词向量;针对每个训练技能词,将除该训练技能词以外的每个训练技能词对应的词向量作为输入,利用预设的词嵌入模型进行模型训练,词嵌入模型的输出为该训练技能词出现的概率值;并利用预设的随机梯度算法对词嵌入模型的模型参数进行迭代更新,以得到技能词评估模型。
在一些实施例中,词嵌入模型包括连续词袋神经网络模型。
此外,本公开实施例所提供的技能词评估装置具体用于实现前述的技能词评估方法,具体可参见前述技能词评估方法的描述,此处不再赘述。
图9为本公开实施例提供的一种电子设备的组成框图,如图9所示,该电子设备包括:一个或多个处理器501;存储器502,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器501执行,使得一个或多个处理器501实现上述的技能词评估方法;一个或多个I/O接口503,连接在处理器501与存储器502之间,配置为实现处理器501与存储器502的信息交互。
本公开实施例还提供了一计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被执行时实现前述的技能词评估方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本公开的范围的情况下,可进行各种形式和细节上的改变。

Claims (18)

1.一种简历的技能词评估方法,包括:
从待评估的简历文档中确定出待评估的第一技能词列表,所述第一技能词列表中包括多个技能词;
针对所述第一技能词列表中的每个技能词,利用预先训练好的技能词评估模型和该技能词在所述第一技能词列表中的上下文信息,预测出该技能词出现的概率值,该概率值用于表征该技能词的重要程度。
2.根据权利要求1所述的技能词评估方法,其中所述从待评估的简历文档中确定出待评估的第一技能词列表,包括:
从所述简历文档中确定出第二技能词列表,所述第二技能词列表包括所述简历文档中出现的所有技能词;
确定所述第二技能词列表中每个技能词所属的技术领域;
根据所述第二技能词列表中的所有技能词和对应的技术领域,生成所述第一技能词列表,每个所述技术领域作为一个技能词。
3.根据权利要求2所述的技能词评估方法,其中所述从所述简历文档中确定出第二技能词列表,包括:
从所述简历文档中获取简历文本数据;
从所述简历文本数据中提取出所述简历文本数据中出现的所有技能词,以生成所述第二技能词列表。
4.根据权利要求3所述的技能词评估方法,其中所述从所述简历文本数据中提取出所述简历文本数据中出现的所有技能词,包括:
利用预设的分词工具,对所述简历文本数据进行分词处理;
利用预设的领域技能词库,从分词处理结果中筛选出所述简历文本数据中出现的所有技能词。
5.根据权利要求2所述的技能词评估方法,其中所述确定所述第二技能词列表中每个技能词所属的技术领域,包括:
利用预设的知识图谱,确定出所述第二技能词列表中每个技能词所属的技术领域。
6.根据权利要求1所述的技能词评估方法,其中所述技能词评估模型通过以下步骤训练得到:
获取训练数据集,训练数据集包括从简历样本中抽取得到的多个训练技能词;
生成各训练技能词对应的词向量;
针对每个训练技能词,将除该训练技能词以外的每个训练技能词对应的词向量作为输入,利用预设的词嵌入模型进行模型训练,所述词嵌入模型的输出为该训练技能词出现的概率值;
并利用预设的随机梯度算法对所述词嵌入模型的模型参数进行迭代更新,以得到所述技能词评估模型。
7.根据权利要求6所述的技能词评估方法,其中所述生成各训练技能词对应的词向量,包括:
对每个训练技能词进行独热编码处理,得到每个训练技能词对应的词向量。
8.根据权利要求6所述的技能词评估方法,其中所述词嵌入模型包括连续词袋神经网络模型。
9.根据权利要求1所述的技能词评估方法,其中该技能词在所述第一技能词列表中的上下文信息包括所述第一技能词列表中除该技能词以外的其他技能词;
所述利用预先训练好的技能词评估模型和该技能词在所述第一技能词列表中的上下文信息,预测出该技能词出现的概率值,包括:
生成所述第一技能词列表中除该技能词以外的每个技能词所对应的词向量;
将除该技能词以外的每个技能词所对应的词向量作为所述技能词评估模型的输入,利用所述技能词评估模型预测得到该技能词出现的概率值。
10.一种技能词评估装置,包括:
技能词获取模块,用于从待评估的简历文档中确定出待评估的第一技能词列表,所述第一技能词列表中包括多个技能词;
技能词评估模块,用于针对所述第一技能词列表中的每个技能词,利用预先训练好的技能词评估模型和该技能词在所述第一技能词列表中的上下文信息,预测出该技能词出现的概率值,该概率值用于表征该技能词的重要程度。
11.根据权利要求10所述的技能词评估装置,其中所述技能词获取模块包括技能词抽取子模块、技能领域确定子模块和技能词列表生成子模块;
所述技能词抽取子模块用于从所述简历文档中确定出第二技能词列表,所述第二技能词列表包括所述简历文档中出现的所有技能词;
所述技能领域确定子模块用于确定所述第二技能词列表中每个技能词所属的技术领域;
所述技能词列表生成子模块用于根据所述第二技能词列表中的所有技能词和对应的技术领域,生成所述第一技能词列表,每个所述技术领域作为一个技能词。
12.根据权利要求11所述的技能词评估装置,其中所述技能词抽取子模块具体用于:从所述简历文档中获取简历文本数据;从所述简历文本数据中提取出所述简历文本数据中出现的所有技能词,以生成所述第二技能词列表。
13.根据权利要求12所述的技能词评估装置,其中所述技能词抽取子模块具体用于:利用预设的分词工具,对所述简历文本数据进行分词处理;利用预设的领域技能词库,从分词处理结果中筛选出所述简历文本数据中出现的所有技能词。
14.根据权利要求11所述的技能词评估装置,其中所述技能领域确定子模块具体用于利用预设的知识图谱,确定出所述第二技能词列表中每个技能词所属的技术领域。
15.根据权利要求10所述的技能词评估装置,其中还包括模型训练模块;
所述模型训练模块用于:获取训练数据集,训练数据集包括从简历样本中抽取得到的多个训练技能词;生成各训练技能词对应的词向量;针对每个训练技能词,将除该训练技能词以外的每个训练技能词对应的词向量作为输入,利用预设的词嵌入模型进行模型训练,所述词嵌入模型的输出为该训练技能词出现的概率值;并利用预设的随机梯度算法对所述词嵌入模型的模型参数进行迭代更新,以得到所述技能词评估模型。
16.根据权利要求15所述的技能词评估装置,其中所述词嵌入模型包括连续词袋神经网络模型。
17.一种电子设备,其包括:
一个或多个处理器;
存储器,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一项所述的技能词评估方法。
18.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被执行时实现如权利要求1-9中任一所述的技能词评估方法。
CN202010598970.1A 2020-06-28 2020-06-28 技能词评估方法及装置、电子设备、计算机可读介质 Pending CN111767390A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202010598970.1A CN111767390A (zh) 2020-06-28 2020-06-28 技能词评估方法及装置、电子设备、计算机可读介质
EP21154941.5A EP3929800A1 (en) 2020-06-28 2021-02-03 Skill word evaluation method and device, electronic device, and computer readable medium
KR1020210015718A KR102456148B1 (ko) 2020-06-28 2021-02-03 기술 단어 평가 방법 및 장치, 전자 기기, 컴퓨터 판독 가능 저장 매체
US17/169,341 US20210406464A1 (en) 2020-06-28 2021-02-05 Skill word evaluation method and device, electronic device, and non-transitory computer readable storage medium
JP2021017217A JP7128919B2 (ja) 2020-06-28 2021-02-05 技能用語評定方法および装置、電子機器、コンピュータ読み取り可能な媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010598970.1A CN111767390A (zh) 2020-06-28 2020-06-28 技能词评估方法及装置、电子设备、计算机可读介质

Publications (1)

Publication Number Publication Date
CN111767390A true CN111767390A (zh) 2020-10-13

Family

ID=72722230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010598970.1A Pending CN111767390A (zh) 2020-06-28 2020-06-28 技能词评估方法及装置、电子设备、计算机可读介质

Country Status (5)

Country Link
US (1) US20210406464A1 (zh)
EP (1) EP3929800A1 (zh)
JP (1) JP7128919B2 (zh)
KR (1) KR102456148B1 (zh)
CN (1) CN111767390A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101828A (zh) * 2020-11-23 2020-12-18 广州万维图灵智能科技有限公司 岗位技能评估方法、系统、电子设备及存储介质
CN113011177A (zh) * 2021-03-15 2021-06-22 北京百度网讯科技有限公司 模型训练和词向量确定方法、装置、设备、介质和产品
CN113780669A (zh) * 2021-09-15 2021-12-10 湖北天天数链技术有限公司 一种薪资的预测方法及装置、可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516261A (zh) * 2019-09-03 2019-11-29 北京字节跳动网络技术有限公司 简历评估方法、装置、电子设备及计算机存储介质
CN111078835A (zh) * 2019-12-05 2020-04-28 平安金融管理学院(中国·深圳) 简历评估方法、装置、计算机设备及存储介质
CN111198943A (zh) * 2018-11-19 2020-05-26 Tcl集团股份有限公司 一种简历筛选方法、装置及终端设备
US20200193382A1 (en) * 2018-12-17 2020-06-18 Robert P. Michaels Employment resource system, method and apparatus

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050080657A1 (en) * 2003-10-10 2005-04-14 Unicru, Inc. Matching job candidate information
GB201418017D0 (en) * 2014-10-10 2014-11-26 Workdigital Ltd A system for, and method of, building a taxonomy
GB201418020D0 (en) * 2014-10-10 2014-11-26 Workdigital Ltd A system for, and method of, ranking search results obtained searching a body of data records
US9734436B2 (en) * 2015-06-05 2017-08-15 At&T Intellectual Property I, L.P. Hash codes for images
WO2017019705A1 (en) * 2015-07-27 2017-02-02 Texas State Technical College System Systems and methods for domain-specific machine-interpretation of input data
US20180181544A1 (en) * 2016-12-28 2018-06-28 Google Inc. Systems for Automatically Extracting Job Skills from an Electronic Document
US11210636B1 (en) * 2017-08-14 2021-12-28 Enfuego Technologies, LLC Systems and methods for generating proposals
US20190066843A1 (en) * 2017-08-22 2019-02-28 Koninklijke Philips N.V. Collapsing clinical event data into meaningful states of patient care
US10839157B2 (en) * 2017-10-09 2020-11-17 Talentful Technology Inc. Candidate identification and matching
NL2021559B1 (en) * 2018-09-04 2020-04-30 Aidence B V Determination of a growth rate of an object in 3D data sets using deep learning
US20200126020A1 (en) * 2018-10-22 2020-04-23 Microsoft Technology Licensing, Llc Assessing suitability to join a current team of workers
MX2021006234A (es) * 2018-11-30 2021-09-10 Caris Mpi Inc Perfilado molecular de proxima generacion.
US20200175455A1 (en) * 2018-11-30 2020-06-04 Microsoft Technology Licensing, Llc Classification of skills
US11403279B1 (en) * 2018-12-04 2022-08-02 Marc Brandis Ag Electronic device and method for building a remake of a transaction-processing system
KR102200334B1 (ko) * 2018-12-13 2021-01-08 (주)코멘토 구직 서류 기반 직무능력 분석매칭 시스템 및 그 제어방법
KR20200125531A (ko) * 2019-04-25 2020-11-04 주식회사 마이셀럽스 언어 단위와 이용 내역 간의 연관도를 이용한 항목 추천 관리 방법
US11301636B2 (en) * 2019-05-01 2022-04-12 Microsoft Technology Licensing, Llc Analyzing resumes and highlighting non-traditional resumes
US11250214B2 (en) * 2019-07-02 2022-02-15 Microsoft Technology Licensing, Llc Keyphrase extraction beyond language modeling
US11080491B2 (en) * 2019-10-14 2021-08-03 International Business Machines Corporation Filtering spurious knowledge graph relationships between labeled entities
US11914954B2 (en) * 2019-12-08 2024-02-27 Virginia Tech Intellectual Properties, Inc. Methods and systems for generating declarative statements given documents with questions and answers
US11487947B2 (en) * 2019-12-16 2022-11-01 Microsoft Technology Licensing, Llc Machine learning techniques for analyzing textual content
US11526956B2 (en) * 2020-02-14 2022-12-13 Accenture Global Solutions Limited Skill acquisition platform
US20210358601A1 (en) * 2020-05-13 2021-11-18 Optum Technology, Inc. Artificial intelligence system for clinical data semantic interoperability

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111198943A (zh) * 2018-11-19 2020-05-26 Tcl集团股份有限公司 一种简历筛选方法、装置及终端设备
US20200193382A1 (en) * 2018-12-17 2020-06-18 Robert P. Michaels Employment resource system, method and apparatus
CN110516261A (zh) * 2019-09-03 2019-11-29 北京字节跳动网络技术有限公司 简历评估方法、装置、电子设备及计算机存储介质
CN111078835A (zh) * 2019-12-05 2020-04-28 平安金融管理学院(中国·深圳) 简历评估方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHAO MENG ET AL.: "SKILL:A System for Skill Identification and Normalization", Retrieved from the Internet <URL:https://www.aaai.org/ocs/index.php/IAAI/IAAI15/paper/viewFile/9363/9907> *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101828A (zh) * 2020-11-23 2020-12-18 广州万维图灵智能科技有限公司 岗位技能评估方法、系统、电子设备及存储介质
CN113011177A (zh) * 2021-03-15 2021-06-22 北京百度网讯科技有限公司 模型训练和词向量确定方法、装置、设备、介质和产品
CN113011177B (zh) * 2021-03-15 2023-09-29 北京百度网讯科技有限公司 模型训练和词向量确定方法、装置、设备、介质和产品
CN113780669A (zh) * 2021-09-15 2021-12-10 湖北天天数链技术有限公司 一种薪资的预测方法及装置、可读存储介质

Also Published As

Publication number Publication date
KR102456148B1 (ko) 2022-10-18
KR20220001009A (ko) 2022-01-04
US20210406464A1 (en) 2021-12-30
JP2022020543A (ja) 2022-02-01
JP7128919B2 (ja) 2022-08-31
EP3929800A1 (en) 2021-12-29

Similar Documents

Publication Publication Date Title
US11030415B2 (en) Learning document embeddings with convolutional neural network architectures
WO2021169111A1 (zh) 简历筛选方法、装置、计算机设备和存储介质
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN109492222B (zh) 基于概念树的意图识别方法、装置及计算机设备
RU2707147C1 (ru) Обучение нейронной сети посредством специализированных функций потерь
CN111767390A (zh) 技能词评估方法及装置、电子设备、计算机可读介质
CN110929524A (zh) 数据筛选方法、装置、设备及计算机可读存储介质
CN113590823A (zh) 一种合同审批方法、装置、存储介质及电子设备
CN111723870B (zh) 基于人工智能的数据集获取方法、装置、设备和介质
CN107688609B (zh) 一种职位标签推荐方法和计算设备
CN111325200A (zh) 图像标注方法、装置、设备及计算机可读存储介质
CN115659226A (zh) 一种获取app标签的数据处理系统
CN105164672A (zh) 内容分类
CN113256383B (zh) 保险产品的推荐方法、装置、电子设备及存储介质
CN117114514A (zh) 一种基于大数据的人才信息分析管理方法、系统及装置
CN116304033B (zh) 一种基于半监督、双层多分类的诉请识别方法
CN111950265A (zh) 一种领域词库构建方法和装置
CN112069806B (zh) 简历筛选方法、装置、电子设备及存储介质
RU2703270C1 (ru) Оптическое распознавание символов посредством применения специализированных функций уверенности, реализуемое на базе нейронных сетей
CN111382247B (zh) 一种内容推送优化方法、内容推送优化装置及电子设备
Roelands et al. Classifying businesses by economic activity using web-based text mining
CN112800226A (zh) 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备
CN112836498A (zh) 数据处理方法、识别方法、装置及计算设备
CN116991983B (zh) 一种面向公司资讯文本的事件抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination