CN116738959B - 一种基于人工智能的简历改写方法及系统 - Google Patents

一种基于人工智能的简历改写方法及系统 Download PDF

Info

Publication number
CN116738959B
CN116738959B CN202311021527.8A CN202311021527A CN116738959B CN 116738959 B CN116738959 B CN 116738959B CN 202311021527 A CN202311021527 A CN 202311021527A CN 116738959 B CN116738959 B CN 116738959B
Authority
CN
China
Prior art keywords
resume
data
model
resume data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311021527.8A
Other languages
English (en)
Other versions
CN116738959A (zh
Inventor
龚源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Youteyun Technology Co ltd
Original Assignee
Guizhou Youteyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Youteyun Technology Co ltd filed Critical Guizhou Youteyun Technology Co ltd
Priority to CN202311021527.8A priority Critical patent/CN116738959B/zh
Publication of CN116738959A publication Critical patent/CN116738959A/zh
Application granted granted Critical
Publication of CN116738959B publication Critical patent/CN116738959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于人工智能的简历改写方法及系统,包括:获取第一简历数据;对所述第一简历数据进行预处理以及标准化处理构建人工智能模型,并基于历史简历数据训练所述人工智能模型;将预处理以及标准化处理后的所述第一简历数据输入至所述训练后的人工智能模型中,以使所述训练后的人工智能模型对预处理以及标准化处理后的所述第一简历数据进行分析;基于分析结果进行简历改写及应用。

Description

一种基于人工智能的简历改写方法及系统
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于人工智能的简历改写方法及系统。
背景技术
目前,简历处理和分析主要依赖于人力资源专业人员的专业知识和经验。他们需要阅读大量的简历,通过对简历内容的理解和判断,来确定哪些求职者最适合特定的岗位。这个过程可能涉及到对求职者的教育背景、工作经验、技能等信息的深入理解和综合评估。
此外,也有一些技术方案使用自然语言处理(NLP)技术来进行简历处理和分析。这些方案主要通过对简历内容的关键词匹配和统计,来进行初步的简历筛选和评估。
在自然语言处理的简历处理和分析技术中,首先需要对简历内容进行预处理,包括文本清洗、去噪声、格式化等。然后,通过关键词匹配和统计,对简历内容进行分析和评估。例如,通过统计简历中的关键词频率,可以初步判断求职者的技能和经验是否匹配特定的岗位要求。此外,也可以通过文本分类技术,对简历进行更深入的分析和理解。
然而,现有技术中,自然语言处理简历的上下文理解能力差,且不能对各种格式和结构的简历进行理解,缺乏简历相应的改写和应用机制。
发明内容
本申请提供了一种基于人工智能的简历改写方法及系统,用于解决现有技术中自然语言处理简历的上下文理解能力差,不能对各种格式和结构的简历进行理解,且缺乏简历相应的改写和应用机制的问题。
鉴于上述问题,本申请提供了一种基于人工智能的简历改写方法及系统。
本申请实施例提供一种基于人工智能的简历改写方法,包括:
获取第一简历数据;
对所述第一简历数据进行预处理以及标准化处理;
构建人工智能模型,并基于历史简历数据训练所述人工智能模型,其中,所述人工智能模型包括通用人工智能模型AGI,或卷积神经网络CNN与随机森林的级联模型,或卷积神经网络CNN、长短时记忆LSTM和随机森林的级联模型;
将预处理以及标准化处理后的所述第一简历数据输入至所述训练后的人工智能模型中,以使所述训练后的人工智能模型对预处理以及标准化处理后的所述第一简历数据进行分析;
基于分析结果进行简历改写及应用;
其中,所述对所述第一简历数据进行预处理以及标准化处理,包括:
将所述第一简历数据中的无关信息进行去噪处理;
将去噪处理后的所述第一简历数据进行格式标准化处理;
将格式标准化处理的所述第一简历数据进行结构化处理;
基于所述第一简历数据,生成文字描述提示prompt信息;
其中,将格式标准化处理的所述第一简历数据进行结构化处理,包括:
将格式标准化的所述第一简历数据进行分解,分解为多个部分;
从每一部分中分别提取关键信息;
将提取出的所述关键信息进行格式转换;
则所述基于所述第一简历数据,生成文字描述提示prompt信息,包括:
收集所述历史简历数据及对应的文字描述提示;
将所述历史简历数据及对应的文字描述提示进行预处理;
对预处理后的所述历史简历数据及对应的文字描述提示进行标注,为每个所述文字描述提示与相关的简历内容创建关联;
构建通用人工智能模型AGI,并将预处理后的所述历史简历数据、对应的文字描述提示及所述标注输入至所述AGI并训练所述AGI;
将结构化处理后的所述第一简历数据输入至训练后的所述AGI,以使所述AGI生成与结构化处理后的所述第一简历数据对应的文字描述提示prompt信息;
其中,所述AGI生成与所述结构化处理后的第一简历数据对应的文字描述提示prompt信息,包括:
创建提示模板;
基于所述结构化处理后的第一简历数据创建个性化提示;
融合所述提示模板和所述个性化提示;
收集并反馈所述个性化提示的质量评分;
基于所述质量评分,调整所述个性化提示;
其中,基于分析结果进行简历改写,包括:
对所述第一简历进行内容审核;
基于审核结果,对所述第一简历的内容进行优化;
对优化后的所述第一简历进行结构调整;
基于求职者特性和目标职位需求,对所述结构调整后的简历进行个性化修改。
可选地,所述人工智能模型为通用人工智能模型AGI,则构建人工智能模型,并基于历史简历数据训练所述人工智能模型,包括:
收集所述历史简历数据;
对所述历史简历数据进行特征提取和迁移学习;
构建知识图谱;
设计适应性的神经网络,将所述历史简历数据输入至所述适应性的神经网络,实现多任务连续学习;
使用强化学习增强所述知识图谱。
可选地,所述人工智能模型为卷积神经网络CNN和随机森林模型的级联模型,则构建人工智能模型,并基于历史简历数据训练所述人工智能模型,包括:
构建CNN模型和随机森林模型,其中,所述CNN模型用于处理所述历史简历数据的文本数据,所述随机森林模型用于处理所述历史简历数据中的数值数据;
将所述历史简历数据输入至所述CNN模型中,获取所述CNN模型的输出,所述CNN模型的输出为文本数据的特征;
将所述文本数据的特征与所述历史简历中原始的数值数据一起作为所述随机森林模型的输入;
使用损失函数来衡量所述级联模型的预测结果与实际结果的差距,并使用优化算法来更新所述级联模型的参数,以使得所述损失函数的值最小化。
可选地,所述人工智能模型为卷积神经网络CNN模型、长短时记忆LSTM模型和随机森林模型的级联模型,则所述人工智能模型对预处理以及标准化处理后的所述第一简历数据进行分析,包括:
将所述第一简历数据进行处理,所述第一简历数据包括文本数据、数值数据和分类数据;
将处理后的所述文本数据输入至所述CNN模型,以输出所述文本数据的局部特征;
将所述文本数据的局部特征输入至所述LSTM模型,输出一个固定长度的向量,所述向量表示整个文本的语义信息;
将所述固定长度的向量、处理后的所述数值数据和处理后的所述分类数据输入至所述随机森林模型,输出所述第一简历对应求职者工作能力的预测结果;
其中,将所述第一简历数据进行处理,包括:
对所述文本数据进行词嵌入处理;
对所述数值数据进行标准化处理;
对所述分类数据进行独热编码处理。
可选地,所述人工智能模型为深度学习模型,则所述人工智能模型对预处理以及标准化处理后的所述第一简历数据进行分析,包括:
将预处理以及标准化处理后的所述第一简历数据输入至所述深度学习模型中,所述第一简历数据包括文本数据、数值数据和分类数据;
对所述对所述文本数据进行词嵌入处理,对所述数值数据进行标准化处理,并对所述分类数据进行独热编码处理,以便提取出预处理以及标准化处理后的所述第一简历数据的特征;
对所述预处理以及标准化处理后的所述第一简历数据的特征进行线性和非线性变换,生成特征向量;
基于所述特征向量,输出所述第一简历对应求职者的能力评分、潜力评估和职位匹配度。
可选地,基于分析结果进行简历改写,包括:
对所述第一简历进行内容审核;
基于审核结果,对所述第一简历的内容进行优化;
对优化后的所述第一简历进行结构调整;
基于求职者特性和目标职位需求,对所述结构调整后的简历进行个性化修改。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请实施例提供的技术方案,通过对简历数据的预处理、标准化处理,训练人工智能模型,使人工智能模型能对简历数据进行分析,并依据分析结果对简历进行改写及应用。本申请中,使用人工智能模型进行简历分析,这种模型能够学习和理解简历的复杂模式,从而生成更准确的分析结果;此外,本方案中的简历预处理和标准化流程能够有效地处理各种格式和结构的简历,提高模型的通用性;另,通过改写简历和应用,本系统能够产生多种有用的输出,包括智能人才评分分析、智能人才潜力分析、人才筛选模型、人才培养模型、简历智能质量检测、简历智能解析、职位/岗位匹配、岗位技能知识图谱等。
附图说明
图1为本申请提供的一种基于人工智能的简历改写方法流程示意图;
图2为本申请提供的S102的细化流程图;
图3为当人工智能模型为AGI时S103的细化流程图;
图4为当人工智能模型为CNN和随机森林模型的级联模型时S103的细化流程图;
图5为使用CNN模型、LSTM模型和随机森林模型分析简历数据的方法流程图;
图6为本申请提供的一种基于人工智能的简历改写系统结构示意图。
具体实施方式
本申请通过提供了一种基于人工智能的简历改写方法及系统,通过对简历数据的预处理、标准化处理,训练人工智能模型,使人工智能模型能对简历数据进行分析,并依据分析结果对简历进行改写及应用。
目前,简历处理和分析主要依赖于人力资源专业人员的专业知识和经验。他们需要阅读大量的简历,通过对简历内容的理解和判断,来确定哪些求职者最适合特定的岗位。这个过程可能涉及到对求职者的教育背景、工作经验、技能等信息的深入理解和综合评估。
此外,也有一些技术方案使用自然语言处理(NLP)技术来进行简历处理和分析。这些方案主要通过对简历内容的关键词匹配和统计,来进行初步的简历筛选和评估。
在自然语言处理的简历处理和分析技术中,首先需要对简历内容进行预处理,包括文本清洗、去噪声、格式化等。然后,通过关键词匹配和统计,对简历内容进行分析和评估。例如,通过统计简历中的关键词频率,可以初步判断求职者的技能和经验是否匹配特定的岗位要求。此外,也可以通过文本分类技术,对简历进行更深入的分析和理解。
现有的技术主要存在以下几个问题:
1. 上下文理解能力较差(对简历理解的深度不足):目前的技术主要依赖于关键词匹配和统计,这种方式虽然可以进行初步的简历筛选和评估,但是对简历内容的理解深度有限。例如,它可能无法理解简历中的复杂模式,如求职者的职业发展路径、技能和经验的相关性等。并且对于简历这种较长的文本传统NLP及类似技术无法做到理解内容和记忆内容。
2. 不能处理各种格式和结构的简历:简历的格式和结构可能各不相同,这对简历的预处理和分析提出了挑战。例如,PDF格式的简历可能包含复杂的布局和图形,这可能使得文本提取和理解变得困难。并且简历内容的排版也格式不一,缺乏格式化内容进行程序化处理的基础。
3. 缺乏有效的简历改写和应用机制:现有的技术主要关注于简历的处理和分析,而对简历的改写和应用方面的研究较少。例如,它们可能无法自动地对简历进行改写,以更好地突出求职者的优点和特长。
4. 依赖人力资源专业人员的专业知识和经验:虽然一些技术方案使用了自然语言处理技术,但是在很大程度上,由于专业中存在大量的领域特定术语和缩写简历处理和分析仍然依赖于人力资源专业人员的专业知识和经验。这不仅效率低,而且可能受到人为因素的影响。
5. 结构化信息处理能力弱:简历通常包含大量的结构化信息,如工作经历、教育背景、技能等。传统的NLP技术可能需要设计特定的规则或使用特定的模型来提取这些信息,而这通常需要大量的手动工作和领域知识。
6. 非标准格式和错误:简历的格式并没有统一的标准,每个人可能会以自己的方式来编写和组织简历。此外,简历中可能存在打字错误、语法错误或者不完整的句子。这些因素都会增加自然语言处理的难度。
7. 个性化和主观性:每个人的简历都是独一无二的,反映了他们的个性和职业选择。此外,简历中的很多信息(如自我评价或职业目标)可能具有主观性。理解和处理这些个性化和主观性的信息需要高级的自然语言理解和情感分析技术。
8. 时间序列的处理:简历中的很多信息(如工作经历和教育背景)是按时间顺序排列的。处理这种时间序列的信息需要特定的模型和技术,如序列模型或时间序列分析。
9. 多模态信息的处理:一些简历可能包含除文本外的其他类型的信息,如图片、图表或视频。处理这种多模态信息需要结合自然语言处理和计算机视觉等多种技术。
本发明实施例提供多种实施例,意在解决上述技术问题的部分或全部。
实施例一
如图1所示,本申请提供了一种基于人工智能的简历改写方法,所述方法包括:
S101.获取第一简历数据;
在这个步骤中,本发明实施例将从各种来源获取简历数据。这可能包括在线招聘网站、求职者直接提交的简历等。这些简历可能以各种格式(如PDF、Word、纯文本等)存在。
此外,可以理解的是,第一简历数据为当前时间段内获取到的简历数据,而历史简历数据则为过去某一或某多个时间端内获取到的全部简历数据。
S102.对所述第一简历数据进行预处理以及标准化处理;
获取的简历数据可能会存在各种问题,例如格式不一致、包含噪音等。因此,本发明实施例需要对这些数据进行预处理,将其转换为标准的、适合模型训练的格式。具体地,如图2所示,S102可包括如下步骤A1-A4:
A1.将所述第一简历数据中的无关信息进行去噪处理;如页眉、页脚、页码等;
A2.将去噪处理后的所述第一简历数据进行格式标准化处理;
转换为统一的格式,如纯文本,如从MARKDOWN转换为Word,或从Word转换为纯文本,以适应不同的分析和应用需求。其中,格式转换根据需要,选择合适的工具或库,如Apache PDFBox、Python-docx、pandoc等,进行格式转换。具体的转换步骤可能依赖于所选工具或库。
A3.将格式标准化处理的所述第一简历数据进行结构化处理;
A3具体又可以分为如下步骤:
A31.将格式标准化的所述第一简历数据进行分解,分解为多个部分,如个人信息、教育背景、工作经历、项目经历等;
A32.从每一部分中分别提取关键信息,如姓名、学校、学历、职位、公司、工作年限等;
A33.将提取出的所述关键信息进行格式转换,将提取的信息转换为统一的、标准的格式,如日期、数值等。
通过预处理和标准化处理,该技术能够处理各种格式和结构的简历,提高了模型的通用性和应用范围。
A4.基于所述第一简历数据,生成文字描述提示prompt信息。
A4具体包括如下步骤:
A41.收集历史简历数据及对应的文字描述提示;
这些提示可以是专家或人力资源专业人员撰写的,也可以是从网络上收集的。
A42.将所述历史简历数据及对应的文字描述提示进行预处理;包括文本清洗、去噪声、格式化等;
A43.对预处理后的所述历史简历数据及对应的文字描述提示进行标注,为每个所述文字描述提示与相关的简历内容创建关联;
对预处理后的数据进行标注,为每个所述文字描述提示与相关的简历内容创建关联。这一步是为了训练模型理解简历内容和提示之间的关系。
A44.构建通用人工智能模型AGI,并将预处理后的所述历史简历数据、对应的文字描述提示及所述标注输入至所述AGI并训练所述AGI;
使用预处理和标注的数据训练一个通用人工智能模型,如GPT-3/GPT-4/miniGPT。模型的训练目标是学习如何根据简历内容生成相关的文字描述提示。其中,文字描述提示是对简历进行文字描述的提示性语句,例如对该求职者的评论,对该求职者的简历提问,对该求职者是否满足JD(job description)的结论等等。
示例性地,训练一个语言模型,例如 GPT-3或mini-GPT(事实上,本发明实施例自建一个中小规模的mini-GPT语言模型或调用GPT大语言模型的API接口可满足简历改写的应用),以自动生成文本描述提示,可以分为以下几个步骤:
步骤1:数据收集
在这一步,需要收集用于训练语言模型的文本数据。这可以是公开可用的大规模文本数据集。
步骤2:数据预处理
预处理步骤通常包括以下几个部分:
文本清理:这可能包括去除文本中的特殊字符、HTML标签、标点符号等,并将所有文本转换为小写。
分词:将文本分解成单词或者更小的单位。
建立词汇表:列出所有在训练数据集中出现的词汇,并给每个词汇分配一个唯一的索引。
转化为向量:使用词汇表将每个词转化为一个向量。这一步使用one-hot编码或词嵌入(如Word2Vec或GloVe)。
步骤3:模型训练
在训练过程中,模型会尝试学习每个词在给定其前面的词的条件下的概率分布。训练过程通常包括以下步骤:
前向传播:模型根据当前的参数和输入数据进行预测。
计算损失:损失函数衡量模型的预测与真实数据之间的差距。
反向传播和参数更新:计算损失函数关于模型参数的梯度,并使用这些梯度来更新参数。
这个过程会持续多个轮次(即"epoch"),每个轮次都会遍历整个训练数据集。
步骤4:模型评估
在模型训练完成后,需要评估其性能。这通常在一个独立的验证数据集上完成,该数据集没有在训练过程中使用。常见的评估指标有困惑度(perplexity)和准确率(accuracy)。
步骤5:文本生成
一旦模型被训练和评估,它就可以用来生成新的文本。给模型一个或多个初始词,然后模型会生成下一个词的预测。这个预测的词然后被添加到序列中,并作为新的输入再次被提供给模型。这个过程可以持续直到生成一个结束标记,或者达到一定的长度限制。
在另一个实施例中,不同于上述方法步骤,本发明实施例还将构建一个通用人工智能模型,处理后的所述历史简历数据、对应的文字描述提示及所述标注输入至所述AGI并训练所述AGI。这个模型可能是一个通用的人工智能模型,如AGI模型。
AGI模型训练的过程包括以下几个步骤:
数据分割:将预处理后的简历数据分割为训练集和测试集;
特征工程:从简历数据中提取有用的特征,如关键词、技能、经验年限等;
模型训练:使用训练集数据对模型进行训练;
模型验证:使用测试集数据对模型的性能进行评估。
下面以通用人工智能为例进行详细讲解:
通用人工智能(Artificial General Intelligence, AGI)的技术原理主要包含以下几个方面:
1. 跨模态感知与学习
通用AI需要像人一样,通过不同的感官进行多模态的信息获取,比如视觉、听觉等。并通过深度学习等方式进行跨模态的特征学习和知识表示,获得丰富的世界知识。
2. 知识表示与推理
通用AI需要构建结构化的知识图谱,学习表示概念之间的关系,并通过符号推理等方式进行多步推理和解释。
3. 自然语言理解与生成
通用AI需要深入理解人类语言,进行语义解析、语用推断等,并能进行逻辑自然的语言交互。
4. 多任务连续学习
通用AI需要在不同环境中连续学习多种能力,并通过迁移学习、元学习等方式,实现对新任务的快速适应。
5. 自我意识与自我监督
通用AI可能需要一定的自我意识,并通过自我监督、内在动机等方式,主动探索未知环境,获得新知识和能力。
6. 程序学习与组合
通用AI需要学习新的程序和算法,并能够根据当前问题情况,灵活地选择和组合算法策略,以产生新的解决方案。
7. 组合与符号推理
通用AI需要将学习和推理有机结合,既利用大量数据进行统计学习,也能进行符合逻辑的符号推理。
具体地,将预处理后的所述历史简历数据、对应的文字描述提示及所述标注输入至所述AGI并训练所述AGI具体包括如下步骤B1-B6:
B1. 收集跨模态训练数据
收集包含多种模式(文字、图像等)的训练数据,为AGI学习丰富的世界知识提供输入。本发明实施例中,所述历史简历数据、对应的文字描述提示及所述标注共同组成了该跨模态训练数据。其中,跨模态训练数据指包含不同模式的数据,如文本、图像等。
B2. 进行特征提取和迁移学习
使用自监督学习、迁移学习等方式,从跨模态训练数据中提取通用特征,作为不同下游任务的初始表示。
特征提取:使用无监督学习方法(如自编码器、反向传播等)从跨模态训练数据中学习到输入表示的特征。
迁移学习:利用源任务学到的知识(例如特征提取器),应用到目标任务中,减少目标任务训练需求。
特征提取包括:
1) 构建自编码器模型,包含编码器和解码器。
2) 训练编码器部分,以便从输入数据中学习压缩的特征表示。可以使用MSE损失函数。
3) 解码器部分试图从特征表示中重构原始输入。
4) 重复这一过程,学习到能够重构输入的特征表示。
迁移学习包括:
1) 在源任务上,训练一个特征提取器模型。
2) 冻结特征提取器权重,添加新的输出层用于目标任务。
3) 只训练新增层,利用源任务中预训练的特征。减少目标任务样本需求。
B3. 构建知识图谱
从跨模态训练数据中学习各域知识的实体及其关系,构建结构化的知识图谱,代表AGI的世界知识。
知识图谱:表示概念实体之间关系的结构化知识库,使用图数据库存储,便于AGI系统进行知识推理。
构建方法:从跨模态训练数据中抽取实体和关系,融合外部知识源,形成节点-链接网络结构。
B4. 设计适应性的神经网络
设计能根据环境和任务调整连接权重的神经网络结构,实现多任务连续学习。
适应性神经网络:网络结构和连接权重能够根据学习环境和任务调整的神经网络模型。
实现方法:采用可塑性权重、条件normalization、内存机制等使网络参数动态化。
可塑性权重:根据环境反馈调整连接权重的大小,实现参数动态化。
条件normalization:输入除以动态估计的均值和方差,实现条件计算。
内存机制:使用外部存储器保存知识,通过读取机制选择相应知识,实现动态调整。
B5. 强化交互式学习
通过让AGI与环境进行交互,自主探索和获取新知识,使用强化学习进行训练。
强化学习:系统通过试错 interactions 学习任务完成策略,获得环境反馈作为reward信号。
交互式学习:系统能主动与环境交互,自发地探索知识。用户反馈作为交互的一部分。
设置回报函数,给出不同环境反馈的正负回报。
系统根据反馈结果,调整选择的行为策略,最大化长期回报。
可以使用Q-learning等算法更新策略,也可以使用policy gradient 直接更新策略函数。
B6. 评估和调优模型
在不同环境和任务上评估AGI的学习能力,并通过参数调优和结构设计提升其性能。
A45.将所述结构化处理后的第一简历数据输入至所述训练后的所述AGI,以使所述AGI生成与所述结构化处理后的第一简历数据对应的文字描述提示prompt信息。
此外,文字描述提示可以做成标准化的提示模板+个性化的提示语句的融合,因此,A45中,所述AGI生成与所述结构化处理后的第一简历数据对应的文字描述提示prompt信息,包括如下步骤:
A451.创建提示模板;
创建一系列标准化的提示模板,这些模板包含了撰写简历时常见的主题和问题,如“描述你的教育背景”、“描述你在上一份工作中的主要职责”等。
A452.基于所述结构化处理后的第一简历数据创建个性化提示;
使用训练好的语言模型,根据简历内容生成个性化的提示。例如,如果简历中提到了“软件工程”这个词,模型可能会生成与此相关的提示,如“描述你在软件工程项目中的角色和贡献”。
A453.融合提示模板和所述个性化提示;
将标准化的提示模板和个性化的提示语句融合在一起,生成最终的文字描述提示。例如,“描述你的教育背景”+“特别是你在软件工程领域的学习经历”。
A454.收集并反馈所述个性化提示的质量评分;
获取质量评分,该评分可以由训练过程中进行人为标记,如果评分低,则表明对生成的文字描述提示不满意,可以通过多次迭代和调整来改进。即收集用户对生成的文字描述提示的反馈,了解哪些提示有用,哪些提示需要改进。
A455.基于所述质量评分,调整所述个性化提示。
具体地,调整个性化提示需要根据反馈调整模型,如修改模型参数、增加训练数据等。
根据用户的反馈来调整和优化模型是机器学习中的一个重要步骤。这个过程可能涉及到多个方面,包括模型的参数调整、训练数据的增加和调整、模型的结构和类型的选择等。
具体地,修改模型参数:模型的参数,比如学习率、正则化参数、模型的层数和节点数等,都会对模型的性能产生影响。通过调整这些参数,本发明实施例可以找到最优化的模型配置。例如,如果模型在训练集上的表现很好,但在测试集上的表现较差,这可能是过拟合的表现,本发明实施例可以通过增大正则化参数来避免过拟合。另一种常见的参数调整方法是网格搜索(Grid Search)和随机搜索(Random Search),它们可以系统地探索参数的组合,找到最优的参数设置。
增加训练数据:如果模型的性能不佳,一个可能的原因是训练数据不足。在这种情况下,本发明实施例可以通过收集更多的简历数据来改善模型的性能。例如,如果本发明实施例发现模型在处理某种类型的简历时表现不佳,本发明实施例可以尝试收集更多这种类型的简历作为训练数据。
使用不同的模型结构或类型:有时候,问题可能出在模型结构或类型上。例如,本发明实施例可能会发现某个问题更适合使用卷积神经网络(CNN)而不是递归神经网络(RNN)来处理。在这种情况下,本发明实施例可以试验不同的模型结构和类型,看哪种模型能更好地解决问题。
具体实施的步骤包括:
收集反馈:从用户那里收集关于系统性能和输出质量的反馈。
分析反馈:对收集到的反馈进行分析,确定问题的可能原因。例如,如果用户反馈说生成的提示不准确,可能的原因是模型参数设置不合适,或者训练数据不足。
调整模型:根据分析结果,对模型进行调整。如果问题可能出在模型参数上,可以通过调整参数来优化模型;如果问题可能出在训练数据上,可以尝试收集更多的训练数据。
测试模型:对调整后的模型进行测试,看是否解决了问题。如果问题没有解决,可以重复上述步骤,直到模型的性能满意为止。
在模型调整完毕后,即可使用调整后的模型生成新的文字描述提示。可以针对简历的不同关键信息,如学历、职位、公司、工作年限等,生成多个提示。重复收集反馈、调整模型、生成新提示的步骤,直到用户对生成的文字描述提示满意为止。
S103.构建人工智能模型,并基于历史简历数据训练所述人工智能模型;
这个步骤中,本发明实施例将构建一个人工智能模型,并使用预处理后的简历数据对其进行训练。这个模型可能是一个通用的人工智能模型,如AGI模型,或者是多个模型的级联。
模型训练的过程包括以下几个步骤:
数据分割:将预处理后的简历数据分割为训练集和测试集;
特征工程:从简历数据中提取有用的特征,如关键词、技能、经验年限等;
模型训练:使用训练集数据对模型进行训练;
模型验证:使用测试集数据对模型的性能进行评估。
数据分割通常是在准备训练模型时的第一步,以下是常见的步骤F1-F3:
F1. 决定分割比例:通常情况下,本发明实施例会将数据分割为训练集、验证集和测试集。常见的分割比例可能是60%的数据用于训练,20%的数据用于验证,20%的数据用于测试。
F2. 随机打乱数据:为了保证模型的通用性,本发明实施例需要确保分割后的数据集之间没有明显的偏差。一个常见的做法是先将所有数据随机打乱。
F3. 按比例分割数据:然后按照之前确定的比例,将打乱后的数据分割为训练集、验证集和测试集。
特征工程是将原始数据转化为能更好地表示潜在问题,以提高机器学习性能的过程。以下是具体实现步骤G1-G3:
G1. 特征选择:从原始数据中选择与目标任务相关的特征。例如,如果本发明实施例的任务是预测求职者是否会被雇佣,那么简历中的教育背景和工作经验可能是相关的特征。
G2. 特征转换:将原始特征转换为更适合机器学习的形式。这可能包括归一化(如将数值特征转换为0-1之间的值)、编码(如将分类特征转换为独热编码)等。
G3. 特征创建:从原始特征中创建新的特征,以捕捉更多的信息。例如,本发明实施例可能会从简历的工作经验中创建一个新的特征,表示求职者在特定领域的工作年限。
模型训练是机器学习中的一个关键步骤,以下是实现步骤H1-H3:
H1. 确定损失函数:损失函数度量模型的预测结果与实际结果的差距。例如,对于分类问题,常见的损失函数是交叉熵损失。
H2. 选择优化算法:优化算法决定了如何更新模型的参数以最小化损失函数。常见的优化算法包括随机梯度下降(SGD)、Adam等。
H3. 训练模型:将训练数据输入模型,计算损失函数,然后使用优化算法更新模型的参数。这个过程通常会重复多次,直到模型的性能达到满意的水平。
具体而言,本发明实施例中,人工智能模型可以是通用人工智能模型,也可以是多种人工智能的级联,例如CNN+随机森林,CNN+LSTM+随机森林等。以下分别进行说明:
当人工智能模型为通用人工智能模型AGI,则如图3所示,S103具体包括C1-C5:
C1:收集所述历史简历数据;
可以从公开数据集、搜索引擎、模拟环境中采集历史简历数据。要尽量保证数据的多样性和广泛覆盖目标行业背景和领域知识。
C2:对所述历史简历数据进行特征提取和迁移学习;
以历史简历数据作为训练集,使用自监督学习、迁移学习等方式,从训练数据中提取通用特征,作为不同下游任务的初始表示。使用无监督学习方法(如自编码器、反向传播等)从训练数据中学习到输入表示的特征。利用源任务学到的知识(例如特征提取器),应用到目标任务中,减少目标任务训练需求。
C3:构建知识图谱;
从训练数据中学习各域知识的实体及其关系,构建结构化的知识图谱,代表AGI的世界知识。
构建方法:从训练数据中抽取实体和关系,融合外部知识源,形成节点-链接网络结构。
C4:设计适应性的神经网络,将所述历史简历数据输入至所述适应性的神经网络,实现多任务连续学习;
设计能根据环境和任务调整连接权重的神经网络结构,将所述历史简历数据输入至所述适应性的神经网络,实现多任务连续学习。
实现方法:采用可塑性权重、条件normalization、内存机制等使网络参数动态化。
C5:使用强化学习增强所述知识图谱。
通过让AGI与环境进行交互,自主探索和获取新知识,使用强化学习进行训练,从而增强该知识图谱的节点和链接网络结构。
设置回报函数,给出不同环境反馈的正负回报。
系统根据反馈结果,调整选择的行为策略,最大化长期回报。
可以使用Q-learning等算法更新策略,也可以使用policy gradient 直接更新策略函数。
当人工智能模型为卷积神经网络CNN和随机森林模型的级联模型,则如图4所示,S103包括如下步骤D1-D4:
D1:构建CNN模型和随机森林模型,其中,所述CNN模型用于处理所述历史简历数据的文本数据,所述随机森林模型用于处理所述历史简历数据中的数值数据;
多个模型的级联,是指多个模型按照特定的顺序链接在一起,输出的结果传递给下一个模型。这样,每个模型都在上一个模型的输出基础上进行工作,整个系统的性能可能会超过任何一个单独的模型。
D2:将所述历史简历数据输入至所述CNN模型中,获取所述CNN模型的输出,所述CNN模型的输出为文本数据的特征;
D3:将所述文本数据的特征与所述历史简历中原始的数值数据一起作为所述随机森林模型的输入;
D4:使用损失函数来衡量所述级联模型的预测结果与实际结果的差距,并使用优化算法来更新所述模型的参数,以最小化损失函数。
即首先,本发明实施例用历史简历数据训练CNN模型,然后将CNN模型的输出(也就是文本数据的高级特征)和原始的数值数据一起,作为输入数据训练随机森林模型。在这个过程中,本发明实施例使用损失函数(如交叉熵损失)来衡量模型的预测结果与实际结果的差距,然后使用优化算法(如Adam)来更新模型的参数,以最小化损失函数。
模型验证步骤:
计算评价指标:本发明实施例将验证集数据输入到训练好的级联模型中,得到预测结果,然后计算评价指标(如准确率、召回率、F1分数等)。
分析结果:本发明实施例分析评价指标,了解模型在各个方面的性能。例如,本发明实施例可能会观察模型在正例和负例上的性能是否平衡,是否存在过拟合或欠拟合的问题。
需要说明的是,不限于当前实施例,多种AI模型级联可以包括LSTM、CNN、RNN、随机森林等多种模型。在实践中,本发明实施例会根据任务的具体需求和数据的特性来选择和组合模型。
以一个人才评估分析任务为例,本发明实施例可能会先使用CNN模型来提取文本数据的局部特征,然后使用LSTM模型来捕捉文本的长期依赖性,最后使用一个全连接层来输出预测结果。
对于模型的训练,本发明实施例可以采用和上述类似的方法,即先单独训练每个模型,然后将各个模型的输出作为下一个模型的输入,以此进行训练。
对于模型的验证,本发明实施例可以将验证集数据输入到训练好的级联模型中,得到预测结果,然后计算评价指标,以评估模型的性能。
S104.将预处理以及标准化处理后的所述第一简历数据输入至所述训练后的人工智能模型中,以使所述训练后的人工智能模型对预处理以及标准化处理后的所述第一简历数据进行分析;
在这个步骤中,本发明实施例将使用训练好的模型对新的简历数据进行分析。模型将对简历中的内容进行深度理解,并生成各种有用的输出,如智能人才评分、智能人才潜力分析、人才筛选模型、人才培养模型、简历智能质量检测、简历智能解析、职位/岗位匹配、岗位技能知识图谱等。
示例性地,人工智能模型为AGI,则采用AGI进行简历分析和改写示例包括:
1. AGI系统通过阅读大量简历样本,学习简历写作的标准格式和PRED原则(成就导向)。
2. 对输入简历,AGI先利用自然语言处理技术进行内容解析,提取关键信息。
3. AGI根据已构建的知识图谱,分析简历与职位的匹配程度。
4. 如果简历不匹配,AGI会根据知识库中的简历写作经验,提出改写建议。
5. AGI还可以基于个人能力模型,自动生成匹配职位的内容。
6. 用户提出反馈,AGI继续优化简历改写能力,增强知识图谱。
示例性地,人工智能模型为卷积神经网络CNN模型、长短时记忆LSTM模型和随机森林模型的级联模型。
假设本发明实施例有一份简历,其中包含各种类型的数据,例如:文本数据(求职者的自我介绍、工作经验描述等),数值数据(如工作年限、教育年限等),分类数据(如求职者的行业、职位等)。本发明实施例的目标是根据简历预测求职者的工作能力。
具体地,使用CNN模型、LSTM模型和随机森林模型分析简历数据的步骤如图5所示,包括步骤E1-E4:
E1.将所述第一简历数据进行处理,所述第一简历数据包括文本数据、数值数据和分类数据;
对文本数据进行词嵌入处理,将每个单词或短语转换为一个向量。
对数值数据进行标准化处理,使其分布在一个标准范围内,例如0到1。
对分类数据进行独热编码处理,将每个类别转换为一个二进制向量。
E2.将处理后的所述文本数据输入至所述CNN模型,以输出所述文本数据的局部特征;
CNN模型通过一系列卷积层和池化层,提取文本数据的局部特征。
CNN 是一种深度学习模型,主要用于处理网格形式的数据(例如图像)。在处理文本数据时,可以将文本转化为一个矩阵,其中每一行代表一个单词的嵌入(embedding),然后将这个矩阵作为 CNN 的输入。卷积层可以通过滑动窗口的方式,从这个矩阵中提取出局部的特征。池化层则可以降低数据的维度,从而减少计算量,同时保留重要的信息。具体来说,卷积层可以捕捉词与词之间的局部关系(例如"not good"中的否定关系),而池化层可以从这些局部关系中筛选出最重要的信息。
具体地,使用CNN提取文本局部特征包括:
词嵌入:首先需要将文本转换为数值型向量,这通常通过词嵌入(例如Word2Vec或GloVe)完成。每个词将被转换为一个高维空间中的向量,该空间捕捉了词的语义。
构建输入矩阵:每个句子或段落被转换为一个矩阵,其中每行是一个词的嵌入。
卷积操作:卷积操作将在这个矩阵上执行,通过应用滤波器来检测局部特征。每个滤波器都对应于一个特定的模式或特征,例如特定的词序(例如"not good")或语法结构。
激活函数:卷积层的输出通过非线性激活函数(例如ReLU),以添加更复杂的决策边界和学习更高级的特征。
池化层:然后,池化层(如最大池化层)被用来降低每个特征的空间大小,从而降低计算的复杂性并避免过拟合。
E3.将所述文本数据的局部特征输入至所述LSTM模型,输出一个固定长度的向量,所述向量表示整个文本的语义信息;
LSTM模型通过处理序列数据的能力,捕捉局部特征之间的长期依赖关系。
LSTM模型的输出是一个固定长度的向量,这个向量可以表示整个文本的语义信息。
LSTM 是一种特殊的循环神经网络(RNN),它通过门控机制解决了传统 RNN 在处理长序列数据时的梯度消失问题。在这个系统中,LSTM 接收 CNN 的输出(也就是文本数据的局部特征),并通过处理序列数据的能力,捕捉局部特征之间的长期依赖关系。LSTM 的输出是最后一个时间步的隐藏状态,这个隐藏状态是一个固定长度的向量,可以表示整个文本的语义信息。
具体地,使用LSTM捕获长期依赖关系包括如下步骤:
序列输入:卷积网络的输出被视为一个序列,每个元素都是一个局部特征的集合。
门控机制:LSTM通过其内部门控机制(遗忘门,输入门,输出门)处理这个序列,以选择保留和遗忘哪些信息。
长期依赖:这种机制允许LSTM学习和理解长期依赖关系,因为重要的信息可以在内部状态中保留并用于后续的预测。
固定长度的输出:LSTM的最终输出是最后一个时间步的隐藏状态,这是一个固定长度的向量,可以被认为是输入序列的总结。
E4.将所述固定长度的向量、处理后的所述数值数据和处理后的所述分类数据输入至所述随机森林模型,输出所述第一简历对应求职者工作能力的预测结果;
随机森林模型通过训练多个决策树,并将它们的预测结果进行投票或平均,来做出最终的预测。
随机森林是一种集成学习方法,它由多个决策树组成。在这个系统中,随机森林接收 LSTM 的输出(也就是文本数据的特征向量)和预处理后的数值数据、分类数据,然后进行训练。训练完成后,随机森林可以根据输入数据预测求职者的工作能力。具体来说,每个决策树都会对求职者的工作能力进行一个预测,然后这些预测结果会被综合起来,形成最终的预测结果。
其中,该第一简历数据可能包括求职者的经历、专业、从业年限、公司职位等信息。这些信息可以被转化为数值数据或分类数据,并作为随机森林的输入。
此外,工作能力可能包括求职者的技术能力、管理能力、沟通能力等。这些能力可以通过某种方式(例如面试评分)进行量化,并作为随机森林的输出。
具体地,使用随机森林进行预测包括如下步骤:
特征向量:LSTM输出的特征向量以及任何其他相关的数值或类别特征(例如工作经验,教育程度)被用作随机森林的输入。
训练随机森林:随机森林模型在训练数据上训练,目标可能是预测求职者的某种工作能力。
预测:训练完成后,随机森林可以根据新求职者的简历预测他们的工作能力。每个决策树在森林中都会独立地进行预测,然后通过投票或平均来获得最终的预测结果。
其中,模型训练中,选择一个适合的损失函数,例如对于分类问题,可以选择交叉熵损失函数。此外,选择一个优化算法,例如随机梯度下降(SGD)或Adam。将训练数据输入模型,计算损失函数,然后使用优化算法更新模型的参数,以最小化损失函数。
最后,模型验证:将验证集数据输入模型,得到预测结果。选择一个适合的评价指标,例如对于分类问题,可以选择准确率、召回率、F1分数等。计算评价指标,评估模型的性能。
模型验证是评估级联模型性能的一个关键步骤,以下是步骤J1-J3:
J1. 选择评价指标:评价指标度量模型的性能。例如,对于分类问题,常见的评价指标包括准确率、召回率、F1分数等。
J2. 计算评价指标:将验证集数据输入模型,得到预测结果,然后计算评价指标。
J3. 分析结果:分析评价指标,了解模型在各个方面的性能。例如,本发明实施例可能会观察模型在正例和负例上的性能是否平衡,是否存在过拟合或欠拟合的问题。
与传统的简历处理技术相比,AGI技术和AI级联技术具备以下优势:
1. 处理各种格式和结构的简历:通过预处理和标准化处理,该技术能够处理各种格式和结构的简历,提高了模型的通用性和应用范围。
2. 深度理解简历内容:通过使用人工智能模型,该技术能够对简历内容进行深度理解,包括理解简历中的复杂模式,如求职者的职业发展路径、技能和经验的相关性等。
3. 自动化和高效:通过自动化的数据处理和模型训练,该技术可以快速处理大量的简历,提高了简历处理的效率。
4. 应用广泛:该技术不仅可以用于简历改写,还可以用于多种应用,如智能人才评分分析、智能人才潜力分析、人才筛选模型、人才培养模型、简历智能质量检测、简历智能解析、职位/岗位匹配、岗位技能知识图谱等。
此外,若人工智能模型为单一的深度学习模型(如CNN或RNN网络),则所述人工智能模型对预处理以及标准化处理后的所述第一简历数据进行分析,包括如下步骤K1-K4:
K1.将预处理以及标准化处理后的所述第一简历数据输入至所述深度学习模型中,所述第一简历数据包括文本数据、数值数据和分类数据;
将预处理和标准化处理后的第一简历数据输入到模型中。这可能包括简历中的文本数据(如求职者的自我介绍、工作经验描述等)、数值数据(如工作年限、教育年限等)和分类数据(如求职者的行业、职位等)。
K2.对所述对所述文本数据进行词嵌入处理,对所述数值数据进行标准化处理,并对所述分类数据进行独热编码处理,以便提取出预处理以及标准化处理后的所述第一简历数据的特征;
模型会对输入的简历数据进行一系列的计算和变换,以提取出有用的特征。这可能包括对文本数据的词嵌入、对数值数据的标准化、对分类数据的独热编码等。
K3.对所述预处理以及标准化处理后的所述第一简历数据的特征进行线性和非线性变换,生成特征向量;
模型会通过一系列的线性和非线性变换,将提取出的特征组合在一起,形成一个高维的特征向量。这个特征向量捕捉了简历数据的主要信息和模式。
K4.基于所述特征向量,输出所述第一简历对应求职者的能力评分、潜力评估和职位匹配度。
模型会根据特征向量生成各种有用的输出。这可能包括求职者的能力评分、潜力评估、职位匹配度等。
深度学习模型通过学习数据的内在模式和结构,来理解和生成有用的输出。
其中,该深度学习模型不仅可以评估求职者的能力,还可以对简历中的内容进行深度理解,并生成有用的输出,具体包括步骤L1-L4:
L1. 词嵌入:对于简历中的文本数据,模型通常会首先进行词嵌入。词嵌入是将每个词转换为一个高维向量,这个向量捕捉了词的语义信息和上下文关系。例如,"Python"和"Java"这两个词可能会被转换为接近的向量,因为它们都是编程语言。
L2. 特征学习:模型会通过一系列的卷积、池化、全连接等操作,从词嵌入中学习到更高级的特征。这些特征可能包括求职者的技能、经验、成就等。
L3. 输出生成:模型会根据学习到的特征生成各种有用的输出。例如,模型可能会生成一个求职者的能力评分,这个评分基于求职者的技能、经验、成就等因素。
L4. 输出解释:对于模型的输出,本发明实施例还可以进行进一步的解释和分析。例如,本发明实施例可以分析哪些因素对求职者的能力评分影响最大,或者对于职位匹配度低的求职者,本发明实施例可以给出改善的建议。
S105.基于分析结果进行简历改写及应用。
简历改写具体可以包括:
对所述第一简历进行内容审核;
本发明实施例需要审查简历的内容,检查是否有语法错误、拼写错误、格式错误等基本问题。
基于审核结果,对所述第一简历的内容进行优化;
本发明实施例需要对简历的内容进行优化。例如,本发明实施例可以帮助求职者更好地展示他们的技能和经验,或者帮助他们突出他们的成就和贡献。
对优化后的所述第一简历进行结构调整;
本发明实施例还可以对简历的结构进行调整,以使其更清晰、更易于阅读。例如,本发明实施例可以将相关的信息组织在一起,或者将最重要的信息放在显眼的位置。
基于求职者特性和目标职位需求,对所述结构调整后的简历进行个性化修改。
本发明实施例可以根据求职者的特性和目标职位的需求,进行一些个性化的修改。例如,本发明实施例可以为求职者提供一些定制的职业建议,或者帮助他们修改简历,以更好地匹配目标职位。
分析结果可以应用于各种场景,以下是一些可能的应用:
智能人才评分分析:本发明实施例可以根据求职者的简历特征,如教育背景、工作经验、技能等,给求职者打分。这可以帮助雇主快速评估求职者的能力。
智能人才潜力分析:本发明实施例可以通过深度学习模型,分析求职者的成长潜力。例如,本发明实施例可以分析求职者的学习能力、适应性、领导力等潜在能力。
人才筛选模型:本发明实施例可以使用机器学习模型,根据雇主的需求,自动筛选出最匹配的求职者。
人才培养模型:本发明实施例可以分析求职者的强项和弱项,提供个性化的培养建议。
简历智能质量检测:本发明实施例可以自动检测简历的质量,包括简历的完整性、准确性、清晰性等。
简历智能解析:本发明实施例可以自动解析简历的内容,提取出求职者的基本信息、教育背景、工作经验等。
职位/岗位匹配:本发明实施例可以根据求职者的简历和职位描述,计算匹配度,帮助求职者找到最适合的职位。
岗位技能知识图谱:本发明实施例可以分析不同职位需要的技能和知识,构建岗位技能知识图谱,帮助求职者了解职业发展路径和学习目标。
具体的实现可能会根据任务的具体需求和数据的特性进行调整,但一般来说,这些任务都需要以下几个步骤N1-N5:
N1. 数据收集:收集相关的数据,如简历数据、职位描述数据等。
N2. 数据预处理:对数据进行预处理,如去噪、格式化、特征选择等。
N3. 模型训练:使用预处理后的数据训练模型。模型的选择和训练方法可能会根据任务的需求进行调整。
N4. 模型应用:将训练好的模型应用于实际任务。例如,本发明实施例可以使用模型对新的简历进行评分、匹配职位、检测质量等。
N5. 结果分析:对模型的输出进行分析,提取有用的信息,如求职者的评分、匹配的职位、质量问题等。
与传统的简历处理技术相比,实施例一具备以下优势:
1. 能处理各种格式和结构的简历:通过预处理和标准化处理,该技术能够处理各种格式和结构的简历,提高了模型的通用性和应用范围。
2. 对简历的理解更深入:通过使用人工智能模型,该技术能够对简历内容进行深度理解,包括理解简历中的复杂模式,如求职者的职业发展路径、技能和经验的相关性等。
3. 可以进行简历改写和应用:该技术不仅可以对简历进行分析,还可以对简历进行改写,以更好地突出求职者的优点和特长,以及将分析结果应用于各种场景。
4. 可扩展性和定制性:可以通过微调来在特定的数据集训练数据,更好的理解简历内容,和更自然的生成内容。并且,可以根据需求设计不同风格,来个性化生成需要的简历内容。
综上,本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请实施例提供的技术方案,通过对简历数据的预处理、标准化处理,训练人工智能模型,使人工智能模型能对简历数据进行分析,并依据分析结果对简历进行改写及应用。本申请中,使用人工智能模型进行简历分析,这种模型能够学习和理解简历的复杂模式,从而生成更准确的分析结果;此外,本方案中的简历预处理和标准化流程能够有效地处理各种格式和结构的简历,提高模型的通用性;另,通过改写简历和应用,本系统能够产生多种有用的输出,包括智能人才评分分析、智能人才潜力分析、人才筛选模型、人才培养模型、简历智能质量检测、简历智能解析、职位/岗位匹配、岗位技能知识图谱等。
实施例二
基于与前述实施例中一种基于人工智能的简历改写方法相同的发明构思,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如实施例一内的方法。
实施例三
本发明实施例还提供了一种基于人工智能的简历改写系统6000,如图6所示,包括存储器64和处理器61,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时实现上述的方法。在实际应用中,系统还可以分别包含必要的其他元件,包含但不限于任意数量的输入系统62、输出系统63、处理器61、控制器、存储器64等,而所有可以实现本申请实施例的基于人工智能的简历改写方法的系统都在本申请的保护范围之内。
存储器包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read only memory,ROM)、可擦除可编程只读存储器(erasable programmable readonly memory,EPROM)、或便携式只读存储器(compact disc read only memory,CD至ROM),该存储器用于相关指令及数据。
输入系统62用于输入数据和/或信号,以及输出系统63用于输出数据和/或信号。输出系统63和输入系统62可以是独立的器件,也可以是一个整体的器件。
处理器可以包括是一个或多个处理器,例如包括一个或多个中央处理器(centralprocessing unit,CPU),在处理器是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。处理器还可以包括一个或多个专用处理器,专用处理器可以包括GPU、FPGA等,用于进行加速处理。
存储器用于存储网络设备的程序代码和数据。
处理器用于调用该存储器中的程序代码和数据,执行上述方法实施例中的步骤。具体可参见方法实施例中的描述,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。该计算机指令可以存储在计算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read至onlymemory,ROM),或随机存储存储器(random access memory,RAM),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digital versatile disc,DVD)、或者半导体介质,例如,固态硬盘(solid state disk ,SSD)等。
本说明书和附图仅仅是本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请及其等同技术的范围之内,则本申请意图包括这些改动和变型在内。

Claims (6)

1.一种基于人工智能的简历改写方法,其特征在于,包括:
获取第一简历数据;
对所述第一简历数据进行预处理以及标准化处理;
构建人工智能模型,并基于历史简历数据训练所述人工智能模型,其中,所述人工智能模型包括通用人工智能模型AGI,或卷积神经网络CNN与随机森林的级联模型,或卷积神经网络CNN、长短时记忆LSTM和随机森林的级联模型;
将预处理以及标准化处理后的所述第一简历数据输入至所述训练后的人工智能模型中,以使所述训练后的人工智能模型对预处理以及标准化处理后的所述第一简历数据进行分析;
基于分析结果进行简历改写及应用;
其中,所述对所述第一简历数据进行预处理以及标准化处理,包括:
将所述第一简历数据中的无关信息进行去噪处理;
将去噪处理后的所述第一简历数据进行格式标准化处理;
将格式标准化处理的所述第一简历数据进行结构化处理;
基于所述第一简历数据,生成文字描述提示prompt信息;
其中,将格式标准化处理的所述第一简历数据进行结构化处理,包括:
将格式标准化的所述第一简历数据进行分解,分解为多个部分;
从每一部分中分别提取关键信息;
将提取出的所述关键信息进行格式转换;
则所述基于所述第一简历数据,生成文字描述提示prompt信息,包括:
收集所述历史简历数据及对应的文字描述提示;
将所述历史简历数据及对应的文字描述提示进行预处理;
对预处理后的所述历史简历数据及对应的文字描述提示进行标注,为每个所述文字描述提示与相关的简历内容创建关联;
构建通用人工智能模型AGI,并将预处理后的所述历史简历数据、对应的文字描述提示及所述标注输入至所述AGI并训练所述AGI;
将结构化处理后的所述第一简历数据输入至训练后的所述AGI,以使所述AGI生成与结构化处理后的所述第一简历数据对应的文字描述提示prompt信息;
其中,所述AGI生成与所述结构化处理后的第一简历数据对应的文字描述提示prompt信息,包括:
创建提示模板;
基于所述结构化处理后的第一简历数据创建个性化提示;
融合所述提示模板和所述个性化提示;
收集并反馈所述个性化提示的质量评分;
基于所述质量评分,调整所述个性化提示;
其中,基于分析结果进行简历改写,包括:
对所述第一简历进行内容审核;
基于审核结果,对所述第一简历的内容进行优化;
对优化后的所述第一简历进行结构调整;
基于求职者特性和目标职位需求,对所述结构调整后的简历进行个性化修改。
2.根据权利要求1所述的方法,其特征在于,所述人工智能模型为通用人工智能模型AGI,则构建人工智能模型,并基于历史简历数据训练所述人工智能模型,包括:
收集所述历史简历数据;
对所述历史简历数据进行特征提取和迁移学习;
构建知识图谱;
设计适应性的神经网络,将所述历史简历数据输入至所述适应性的神经网络,实现多任务连续学习;
使用强化学习增强所述知识图谱。
3.根据权利要求1所述的方法,其特征在于,所述人工智能模型为卷积神经网络CNN和随机森林模型的级联模型,则构建人工智能模型,并基于历史简历数据训练所述人工智能模型,包括:
构建CNN模型和随机森林模型,其中,所述CNN模型用于处理所述历史简历数据的文本数据,所述随机森林模型用于处理所述历史简历数据中的数值数据;
将所述历史简历数据输入至所述CNN模型中,获取所述CNN模型的输出,所述CNN模型的输出为文本数据的特征;
将所述文本数据的特征与所述历史简历中原始的数值数据一起作为所述随机森林模型的输入;
使用损失函数来衡量所述级联模型的预测结果与实际结果的差距,并使用优化算法来更新所述级联模型的参数,以使得所述损失函数的值最小化。
4.根据权利要求1所述的方法,其特征在于,所述人工智能模型为卷积神经网络CNN模型、长短时记忆LSTM模型和随机森林模型的级联模型,则所述人工智能模型对预处理以及标准化处理后的所述第一简历数据进行分析,包括:
将所述第一简历数据进行处理,所述第一简历数据包括文本数据、数值数据和分类数据;
将处理后的所述文本数据输入至所述CNN模型,以输出所述文本数据的局部特征;
将所述文本数据的局部特征输入至所述LSTM模型,输出一个固定长度的向量,所述向量表示整个文本的语义信息;
将所述固定长度的向量、处理后的所述数值数据和处理后的所述分类数据输入至所述随机森林模型,输出所述第一简历对应求职者工作能力的预测结果;
其中,将所述第一简历数据进行处理,包括:
对所述文本数据进行词嵌入处理;
对所述数值数据进行标准化处理;
对所述分类数据进行独热编码处理。
5.根据权利要求1所述的方法,其特征在于,所述人工智能模型为深度学习模型,则所述人工智能模型对预处理以及标准化处理后的所述第一简历数据进行分析,包括:
将预处理以及标准化处理后的所述第一简历数据输入至所述深度学习模型中,所述第一简历数据包括文本数据、数值数据和分类数据;
对所述对所述文本数据进行词嵌入处理,对所述数值数据进行标准化处理,并对所述分类数据进行独热编码处理,以便提取出预处理以及标准化处理后的所述第一简历数据的特征;
对所述预处理以及标准化处理后的所述第一简历数据的特征进行线性和非线性变换,生成特征向量;
基于所述特征向量,输出所述第一简历对应求职者的能力评分、潜力评估和职位匹配度。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法。
CN202311021527.8A 2023-08-15 2023-08-15 一种基于人工智能的简历改写方法及系统 Active CN116738959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311021527.8A CN116738959B (zh) 2023-08-15 2023-08-15 一种基于人工智能的简历改写方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311021527.8A CN116738959B (zh) 2023-08-15 2023-08-15 一种基于人工智能的简历改写方法及系统

Publications (2)

Publication Number Publication Date
CN116738959A CN116738959A (zh) 2023-09-12
CN116738959B true CN116738959B (zh) 2023-11-14

Family

ID=87910066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311021527.8A Active CN116738959B (zh) 2023-08-15 2023-08-15 一种基于人工智能的简历改写方法及系统

Country Status (1)

Country Link
CN (1) CN116738959B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117196556B (zh) * 2023-09-19 2024-02-23 江苏锡世科技有限公司 一种基于大数据的多平台招聘信息管理系统及方法
CN117251556A (zh) * 2023-11-17 2023-12-19 北京遥领医疗科技有限公司 一种登记队列中患者筛选系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753909A (zh) * 2018-12-27 2019-05-14 广东人啊人网络技术开发有限公司 一种基于内容分块和BiLSTM模型的简历解析方法
CN109816324A (zh) * 2018-12-13 2019-05-28 平安普惠企业管理有限公司 基于大数据分析的简历的收集方法和装置
CN109948120A (zh) * 2019-04-02 2019-06-28 深圳市前海欢雀科技有限公司 一种基于二元化的简历解析方法
CN111475531A (zh) * 2020-04-12 2020-07-31 魏秋云 一种基于学生就业数据的信息分析系统
CN113204967A (zh) * 2021-05-25 2021-08-03 山东师范大学 简历命名实体识别方法及系统
US11354485B1 (en) * 2021-05-13 2022-06-07 iCIMS, Inc. Machine learning based classification and annotation of paragraph of resume document images based on visual properties of the resume document images, and methods and apparatus for the same
CN115293131A (zh) * 2022-09-29 2022-11-04 广州万维视景科技有限公司 数据匹配方法、装置、设备及存储介质
CN116205211A (zh) * 2022-12-20 2023-06-02 深圳今日人才信息科技有限公司 基于大规模预训练生成模型的文档级简历解析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11969216B2 (en) * 2017-12-28 2024-04-30 Cilag Gmbh International Surgical network recommendations from real time analysis of procedure variables against a baseline highlighting differences from the optimal solution

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109816324A (zh) * 2018-12-13 2019-05-28 平安普惠企业管理有限公司 基于大数据分析的简历的收集方法和装置
CN109753909A (zh) * 2018-12-27 2019-05-14 广东人啊人网络技术开发有限公司 一种基于内容分块和BiLSTM模型的简历解析方法
CN109948120A (zh) * 2019-04-02 2019-06-28 深圳市前海欢雀科技有限公司 一种基于二元化的简历解析方法
CN111475531A (zh) * 2020-04-12 2020-07-31 魏秋云 一种基于学生就业数据的信息分析系统
US11354485B1 (en) * 2021-05-13 2022-06-07 iCIMS, Inc. Machine learning based classification and annotation of paragraph of resume document images based on visual properties of the resume document images, and methods and apparatus for the same
CN113204967A (zh) * 2021-05-25 2021-08-03 山东师范大学 简历命名实体识别方法及系统
CN115293131A (zh) * 2022-09-29 2022-11-04 广州万维视景科技有限公司 数据匹配方法、装置、设备及存储介质
CN116205211A (zh) * 2022-12-20 2023-06-02 深圳今日人才信息科技有限公司 基于大规模预训练生成模型的文档级简历解析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A domain adaptation approach for resume classification using graph attention networks and natural language processing;Thi-Thuy-Quynh Trinh;《Knowledge-Based Systems》;第266卷(第22期);1-12 *
ChatGPT新一代人工智能技术发展的经济和社会影响;郑世林;《产业经济评论》(第03期);5-21 *
人工智能的发展对人力资源管理的影响研究;蒯彦博;《湖北开放职业学院学报》;第32卷(第06期);72-74 *
自然语言处理在简历分析中的应用研究综述;李小伟;《计算机科学》;第49卷(第S1期);66-73 *

Also Published As

Publication number Publication date
CN116738959A (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
CN110188331B (zh) 模型训练方法、对话系统评价方法、装置、设备及存储介质
CN116738959B (zh) 一种基于人工智能的简历改写方法及系统
Raiaan et al. A review on large Language Models: Architectures, applications, taxonomies, open issues and challenges
Cai et al. nCoder+: a semantic tool for improving recall of nCoder coding
Ranta et al. Machine learning in management accounting research: Literature review and pathways for the future
Haug et al. Neural multi-step reasoning for question answering on semi-structured tables
CN112001166B (zh) 面向政务咨询服务的智能问答句子对语义匹配方法和装置
US20220075955A1 (en) Neural network training method and apparatus, semantic classification method and apparatus and medium
CN110852089B (zh) 基于智能分词与深度学习的运维项目管理方法
US20190228297A1 (en) Artificial Intelligence Modelling Engine
Mollas et al. Lionets: Local interpretation of neural networks through penultimate layer decoding
CN117453915A (zh) 一种基于可规划工作流的大语言模型的复杂任务处理方法
Jackson et al. From natural language to simulations: Applying gpt-3 codex to automate simulation modeling of logistics systems
CN117235233B (zh) 一种基于大模型的财报自动化问答方法和装置
CN116610592B (zh) 基于自然语言处理技术的可定制软件测试评价方法及系统
CN117193823A (zh) 一种软件需求变更的代码工作量评估方法、系统及设备
Lambert et al. Entangled preferences: The history and risks of reinforcement learning and human feedback
Surendran et al. Conversational AI-A retrieval based chatbot
Choi et al. Does active learning reduce human coding?: A systematic comparison of neural network with nCoder
Rejeleene et al. Towards Trustable Language Models: Investigating Information Quality of Large Language Models
CN113326348A (zh) 一种博客质量评估方法及工具
CN113761944A (zh) 翻译模型的训练语料处理方法、装置、设备和存储介质
Wang et al. FHTC: Few-shot hierarchical text classification in financial domain
Olivero Figurative Language Understanding based on Large Language Models
CN116453702B (zh) 孤独症行为特征集的数据处理方法、设备、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant