CN113806544A - 简历信息处理方法、装置、电子设备及存储介质 - Google Patents

简历信息处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113806544A
CN113806544A CN202111115155.6A CN202111115155A CN113806544A CN 113806544 A CN113806544 A CN 113806544A CN 202111115155 A CN202111115155 A CN 202111115155A CN 113806544 A CN113806544 A CN 113806544A
Authority
CN
China
Prior art keywords
resume information
core point
points
preset
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111115155.6A
Other languages
English (en)
Inventor
时宝旭
郭玮
莫海江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Tiantian Digital Chain Technology Co ltd
Original Assignee
Hubei Tiantian Digital Chain Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Tiantian Digital Chain Technology Co ltd filed Critical Hubei Tiantian Digital Chain Technology Co ltd
Priority to CN202111115155.6A priority Critical patent/CN113806544A/zh
Publication of CN113806544A publication Critical patent/CN113806544A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种简历信息处理方法、装置、电子设备及存储介质。方法包括:基于预处理算法对获取的多份第一简历信息进行预处理,得到预处理后的多份第二简历信息;对多份第二简历信息中的每份第二简历信息中的文本数据进行数字化编码;从得到经过编码的数据集中,选取核心点,并确定核心点与其他点之间的特征距离,其他点指数据集中除去核心点之外的数据;从其他点中选取与核心点对应的聚类候选点;将聚类候选点、指定数量及预设距离范围,输入预设聚类模型进行迭代训练,得到用于对简历信息分类的目标聚类模型。如此,无需对用于训练的简历信息设置标签,有利于缩短模型训练的时长,提高模型训练的效率,降低人力成本。

Description

简历信息处理方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种简历信息处理方法、装置、电子设备及存储介质。
背景技术
目前,利用人工智能的网络模型,可以实现对简历信息的分类。在使用网络模型之前,需要对网络模型进行训练。例如,传统的网络模型训练方式,主要是通过对简历信息设置标签数据,然后再利用具有标签的简历信息进行模型训练,最后利用训练得到的网络模型进行简历分类。该方式的网络模型在训练之前,需要人工对大量的简历信息设置标签以进行标注,导致训练的效率低、训练所需的人力成本高。
发明内容
本申请实施例的目的在于提供一种简历信息处理方法、装置、电子设备及存储介质,无需人工对简历信息设置标签,能够改善模型训练的效率低、训练所需的人力成本高的问题。
为了实现上述目的,本申请的实施例通过如下方式实现:
第一方面,本申请实施例提供一种简历信息处理方法,所述方法包括:基于预处理算法对获取的多份第一简历信息进行预处理,得到预处理后的多份第二简历信息;基于预设编码算法,对所述多份第二简历信息中的每份第二简历信息中的文本数据进行数字化编码,得到经过编码的数据集;从所述数据集中,选取与任一份第二简历信息对应的数据作为核心点,并确定所述核心点与其他点之间的特征距离,所述其他点指所述数据集中除去所述核心点之外的数据;从所述其他点中选取与所述核心点对应的聚类候选点,其中,所述聚类候选点为所述其他点中的与所述核心点的所述特征距离最近的指定数量的点,或为所述所述其他点中的所述特征距离在与所述核心点对应的预设距离范围内的点;将所述聚类候选点、所述指定数量及所述预设距离范围,输入预设聚类模型进行迭代训练,得到用于对简历信息分类的目标聚类模型。
在上述的实施方式中,通过对多份简历信息进行预处理并编码,然后计算每份简历信息之间的特征距离,再基于特征距离对同类的简历进行聚类,再利用聚类的简历信息进行模型训练,如此,无需人工对简历信息设置标签,也可以实现对模型的训练,且训练后的模型可以对简历信息进行分类。如此,有利于缩短模型训练的时长,提高模型训练的效率,降低人力成本。
结合第一方面,在一些可选的实施方式中,基于预处理算法对获取的多份第一简历信息进行预处理,得到预处理后的多份第二简历信息,包括:
针对多份第一简历信息中的每份第一简历信息,合并所述每份第一简历信息中相关性大于设定值的属性所对应的文本数据,以及仅保留所述每份第一简历信息中指定属性的文本数据;
将所述每份第一简历信息中所保留的表征数值类的文本数据,进行归一化,得到预处理后的所述多份第二简历信息。
在上述的实施方式中,通过对简历信息中的文本数据进行筛选与合并,并对数值类数据进行归一化,可以实现各类简历信息的标准化,以形成统一格式类型的简历信息,便于后续计算简历信息之间的特征距离。
结合第一方面,在一些可选的实施方式中,所述预设编码算法为独热编码算法,对所述多份第二简历信息中的每份第二简历信息中的文本数据进行数字化编码,得到经过编码的数据集,包括:
通过所述独热编码算法,将所述每份第二简历信息中与每个属性对应的文本,进行独热编码,得到与所述每份第二简历信息中的每个属性文本对应的数字,所述数据集包括所有所述数字。
在上述的实施方式中,通过对简历信息中的文本进行独热编码,方便后续计算简历之间的特征距离。
结合第一方面,在一些可选的实施方式中,从所述数据集中,选取与任一份第二简历信息对应的数据作为核心点,并确定所述核心点与其他点之间的特征距离,包括:
从所述数据集中,选取与任一份第二简历信息对应的数据作为核心点,并通过预设欧式距离算法确定所述核心点与其他点之间的欧式距离,以作为所述特征距离。
在上述的实施方式中,欧式距离越小,表征简历信息之间的相似度越大,基于简历信息之间的欧式距离,方便对简历信息进行聚类。
结合第一方面,在一些可选的实施方式中,将所述聚类候选点、所述指定数量及所述预设距离范围,输入预设聚类模型进行迭代训练,得到用于对简历信息分类的目标聚类模型,包括:
从所述数据集中,确定第i个核心点及与所述第i个核心点对应的指定数量及预设距离范围,i依次取1至N,所述N为大于1的整数;
将所述第i个核心点对应的指定数量及预设距离范围,输入预设聚类模型,得到第i次训练结果;
将所述数据集及第i次训练结果输入预设平均轮廓系数计算模型,得到第i次的平均轮廓系数;
将N个所述平均轮廓系数中最高的平均轮廓系数对应的指定数量及预设距离范围,输入迭代训练后的预设聚类模型,得到所述目标聚类模型。
在上述的实施方式中,通过对预设聚类模型进行迭代训练,可以提高训练后得到的目标聚类模型的检测的准确性与可靠性。
结合第一方面,在一些可选的实施方式中,所述方法还包括:
基于接收的简历筛选条件,由所述目标聚类模型从简历信息库中选择与所述简历筛选条件对应的简历信息作为输出的目标简历信息。
结合第一方面,在一些可选的实施方式中,所述预设聚类模型为DBSCAN模型。
第二方面,本申请还提供一种简历信息处理装置,所述装置包括:
预处理单元,用于基于预处理算法对获取的多份第一简历信息进行预处理,得到预处理后的多份第二简历信息;
编码单元,用于基于预设编码算法,对所述多份第二简历信息中的每份第二简历信息中的文本数据进行数字化编码,得到经过编码的数据集;
距离确定单元,用于从所述数据集中,选取与任一份第二简历信息对应的数据作为核心点,并确定所述核心点与其他点之间的特征距离,所述其他点指所述数据集中除去所述核心点之外的数据;
选择单元,用于从所述其他点中选取与所述核心点对应的聚类候选点,其中,所述聚类候选点为所述其他点中的与所述核心点的所述特征距离最近的指定数量的点,或为所述所述其他点中的所述特征距离在与所述核心点对应的预设距离范围内的点;
训练单元,用于将所述聚类候选点、所述指定数量及所述预设距离范围,输入预设聚类模型进行迭代训练,得到用于对简历信息分类的目标聚类模型。
第三方面,本申请还提供一种电子设备,所述电子设备包括相互耦合的处理器及存储器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行上述的方法。
第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的结构示意图。
图2为本申请实施例提供的简历信息处理方法的流程示意图。
图3为本申请实施例提供的步骤S150的子步骤的流程示意图。
图4为本申请实施例提供的简历信息处理装置的框图。
图标:10-电子设备;11-处理模块;12-存储模块;200-简历信息处理装置;210-预处理单元;220-编码单元;230-距离确定单元;240-选择单元;250-训练单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。需要说明的是,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,本申请提供一种电子设备10,可以利用无需设置标签的大量简历信息,对预设聚类模型进行训练,以使训练后所得到的目标聚类模型可以对简历信息进行分类,便于人力资源的用户根据需求,通过目标聚类模型查看所期望的简历信息。
电子设备10可以包括处理模块11及存储模块12。存储模块12内存储计算机程序,当计算机程序被所述处理模块11执行时,使得电子设备10能够执行下述简历信息处理方法中的各步骤。
可以理解的是,图1所示的结构仅为电子设备10的一种结构示意图,电子设备10还可以包括比图1所示更多的组件。图1中所示的各组件可以采用硬件、软件或其组合实现。
请参照图2,本申请实施例还提供一种简历信息处理方法,可以应用于上述的电子设备10,由电子设备10执行或实现方法中的各步骤,方法可以包括如下步骤:
步骤S110,基于预处理算法对获取的多份第一简历信息进行预处理,得到预处理后的多份第二简历信息;
步骤S120,基于预设编码算法,对所述多份第二简历信息中的每份第二简历信息中的文本数据进行数字化编码,得到经过编码的数据集;
步骤S130,从所述数据集中,选取与任一份第二简历信息对应的数据作为核心点,并确定所述核心点与其他点之间的特征距离,所述其他点指所述数据集中除去所述核心点之外的数据;
步骤S140,从所述其他点中选取与所述核心点对应的聚类候选点,其中,所述聚类候选点为所述其他点中的与所述核心点的所述特征距离最近的指定数量的点,或为所述所述其他点中的所述特征距离在与所述核心点对应的预设距离范围内的点;
步骤S150,将所述聚类候选点、所述指定数量及所述预设距离范围,输入预设聚类模型进行迭代训练,得到用于对简历信息分类的目标聚类模型。
在上述的实施方式中,通过对多份简历信息进行预处理并编码,然后计算每份简历信息之间的特征距离,再基于特征距离对同类的简历进行聚类,再利用聚类的简历信息进行模型训练,如此,无需人工对简历信息设置标签,也可以实现对模型的训练,且训练后的模型可以对简历信息进行分类。如此,有利于缩短模型训练的时长,提高模型训练的效率,降低人力成本。
下面将对方法的各步骤进行详细阐述,如下:
在电子设备10执行步骤S110时,电子设备10已获取到多份未经过预处理的简历信息,未经过预处理的简历信息即为第一简历信息。电子设备10所获取的第一简历信息的数量可以根据实际情况进行灵活确定,这里不作具体限定。每份简历信息中的文本数据包括但不限于求职者的姓名、年龄、性别、现居住地、是否党员、教育背景、求职岗位、工作年限、工作经历、项目经验、期望薪资、婚姻状况、自我评价等维度,可以根据实际情况进行灵活确定。
在步骤S110中,预处理算法可以根据实际情况进行灵活确定,用于对每份第一简历信息中的文本数据进行清洗,以及标准化处理,以使经过标准化处理后的简历信息的信息维度相同。例如,经过标准化后的每份简历信息的信息维度均为128个维度。即,电子设备10可以将每份简历信息预处理成具有128个信息维度的模板简历。每份第一简历信息经过预处理后所得到的简历信息,即为一份第二简历信息。
在本实施例中,步骤S110可以包括:
针对多份第一简历信息中的每份第一简历信息,合并所述每份第一简历信息中相关性大于设定值的属性所对应的文本数据,以及仅保留所述每份第一简历信息中指定属性的文本数据;
将所述每份第一简历信息中所保留的表征数值类的文本数据,进行归一化,得到预处理后的所述多份第二简历信息。
在本实施例中,电子设备10可以计算每份简历信息中的各个特征(例如,教育背景、居住地等)之间的相关性。计算相关性的方式可以根据实际情况进行确定,例如,电子设备10可以利用协方差,或卡方检验,或互信息等方式,计算特征之间的相关性,计算方式为本领域技术人员熟知。其中,相关性越高,表示两个特征越相近,此时,可以对相关性大于设定值的特征进行合并,以减少高度相关的特征。设定值可以根据实际情况进行灵活确定。
指定属性的文本数据可理解为模板简历中的各维度的信息。
若当前的简历信息中,存在多余维度的文本数据,而模板简历中不存在这一维度(或属性)的文本数据,则可以对当前简历信息中的这一文本数据进行滤除。比如,当前简历信息中,存在“是否党员”的属性特征,而模板简历中,不存在这一维度的属性特征,此时,便删除简历信息中“是否党员”的这一属性特征。
若当前简历信息中,缺失模板简历中的维度信息。例如,模板简历中,存在“工作年限”的属性特征。而在当前简历信息中,并未记录工作年限”的属性特征,此时,电子设备10可以基于简历信息中的求职者的毕业时间及当前时间,对“工作年限”进行补全。若所缺失维度的文本内容无法补全,则可以对该维度的文本内容设置表征内容缺失的标记。
在本实施例中,电子设备10还可以利用最小最大化函数,对数值类型的文本数据进行归一化,以将数值数据缩放0-1之间。示例性地,最小最大化函数可以为MinMaxScaler(),用于对括号中的元素进行归一化处理。其中,数值类型的文本数据可以根据实际情况进行灵活确定。例如,数值类型的文本数据可以包括简历信息中的工作年限、薪资等。
在步骤S120中,预设编码算法可以为独热编码算法,独热编码算法即为One-Hot编码算法,可以将简历信息中的各维度的文本数据转换为由{0,1}数字组成的二进制串,为本领域技术人员熟知的编码算法。
步骤S120可以包括:通过所述独热编码算法,将所述每份第二简历信息中与每个属性对应的文本,进行独热编码,得到与所述每份第二简历信息中的每个属性文本对应的数字,所述数据集包括所有所述数字。
电子设备10利用独热编码算法,可以得到由二进制串组成的数据集,每份简历信息对应一组二进制串,如此,方便利用二进制串计算第二简历信息之间的特征距离。
在步骤S130中,在数据集中,与任一份第二简历信息对应的数据可理解为一组二进制串。数据集中的每组二进制串可以表示为该简历信息在多维空间中的一个点。每个简历信息可以作为一个核心点。电子设备10可以利用计算特征距离的距离确定算法,计算核心点与其他点之间的特征距离。距离确定算法可以是但不限于欧式距离算法、曼哈顿距离算法。特征距离可以是但不限于欧式距离、曼哈顿距离等。
在本实施例中,步骤S130可以包括:从所述数据集中,选取与任一份第二简历信息对应的数据作为核心点,并通过预设欧式距离算法确定所述核心点与其他点之间的欧式距离,以作为所述特征距离。
可理解地,电子设备10可以利用预设欧式距离算法,计算得到核心点与其他点之间的欧式距离。其中,两点之间的欧式距离越短,表示两点对应的两份简历信息的相似度越大,属于同一类别简历的可能性越大。
在步骤S140中,指定数量与预设距离范围均可以根据实际情况进行设置。指定数量可以表示成MinPts。预设距离范围可以表示成Eps半径。电子设备10在得到核心点与其他点之间的特征距离之后,基于与核心点最近的多个点的特征距离、多维空间中各点的密度分布,针对核心点进行聚类,以得到聚类候选点。聚类候选点可理解为距离核心点较近的点。聚类候选点对应的简历信息与核心点的简历信息可理解为具有相同的简历类别,可以归属为一类简历。其中,每份简历信息可以具有多个简历类别。
在步骤S150中,目标聚类模型可以用于对简历数据库中的简历进行分类,以便于后续将经过分类的简历信息快速推送给有需求的用户。比如,当人力资源的用户需要从简历数据库中,筛选符合公司需求的员工的简历时,可以利用目标聚类模型为用户推荐满足用户需求的简历信息。
在本实施例中,步骤S150可以包括如下的子步骤:
步骤151,从所述数据集中,确定第i个核心点及与所述第i个核心点对应的指定数量及预设距离范围;
步骤152,将所述第i个核心点对应的指定数量及预设距离范围,输入预设聚类模型,得到第i次训练结果;
步骤153,将所述数据集及第i次训练结果输入预设平均轮廓系数计算模型,得到第i次的平均轮廓系数;
步骤154,判断i值是否为N,若为是,则执行步骤155,若为否,则对i值加1,并重复执行步骤151至步骤153,其中,i依次取1至N,i为大于或等于1整数,N为大于1的整数;
步骤155,将N个所述平均轮廓系数中最高的平均轮廓系数对应的指定数量及预设距离范围,输入迭代训练后的预设聚类模型,得到所述目标聚类模型。
在本实施例中,电子设备10可以重复执行所述步骤151至所述步骤153,以对预设聚类模型进行迭代训练。
例如,电子设备10可以从数据集中,确定第1个核心点及与第1个核心点对应的指定数量及预设距离范围;然后,将第1个核心点对应的指定数量及预设距离范围,输入预设聚类模型,得到第1次训练结果,再将数据集及第1次训练结果输入预设平均轮廓系数计算模型,得到第1次的平均轮廓系数,如此,完成一次迭代运算。后续在进行第二次迭代运算时,i的取值即为2,然后重复上述的步骤151至步骤153。直至重复执行的次数为N-1次,此时,可以得到第N次的平均轮廓系数。
其中,N可以根据实际情进行灵活确定。预设平均轮廓系数计算模型可以为silhouette_score()函数,用于对silhouette_score()函数可以用于计算括号中元素的平均轮廓系数。
电子设备10可以记录每次迭代训练得到的平均轮廓系数,并将最高平均轮廓系数对应的指定数量及预设距离范围,如此,可以提高训练后得到的目标聚类模型的检测效果,比如,有利于提高目标聚类模型对简历信息分类的准确性与可靠性。
作为一种可选的实施方式,方法还可以包括:
基于接收的简历筛选条件,由所述目标聚类模型从简历信息库中选择与所述简历筛选条件对应的简历信息作为输出的目标简历信息。
简历筛选条件可以根据实际情况进行灵活确定。例如,简历筛选条件包括但不限于求职岗位、期望薪资等。另外,简历筛选条件还可以包括员工在公司的稳定性(是否频繁离职)、员工的性格等粒度更细的条件。用户将筛选条件输入至目标聚类模型之后,可以由目标聚类模型基于当前简历数据库,为该用户推荐满足简历筛选条件的简历信息。所推荐的简历信息的份数可以根据实际情况进行灵活确定,例如,可以为1份、10份等数量。如此,有利于电子设备10进行粒度更细的简历筛选。
在本实施例中,预设聚类模型为DBSCAN(Density-Based Spatial Clustering ofApplications with Noise,具有噪声的基于密度的聚类)模型或其他可以用于进行聚类的模型,可以根据实际情况进行灵活确定。其中,DBSCAN模型不需要预先指定聚类簇个数,聚类的形状和大小可以灵活设置。
请参照图4,本申请实施例还提供一种简历信息处理装置200,可以应用于上述的电子设备10中,用于执行方法中的各步骤。简历信息处理装置200包括至少一个可以软件或固件(Firmware)的形式存储于存储模块12中或固化在电子设备10操作系统(OperatingSystem,OS)中的软件功能模块。处理模块11用于执行存储模块12中存储的可执行模块,例如简历信息处理装置200所包括的软件功能模块及计算机程序等。
简历信息处理装置200可以包括预处理单元210、编码单元220、距离确定单元230、选择单元240及训练单元250,可以执行的操作步骤如下:
预处理单元210,用于基于预处理算法对获取的多份第一简历信息进行预处理,得到预处理后的多份第二简历信息;
编码单元220,用于基于预设编码算法,对所述多份第二简历信息中的每份第二简历信息中的文本数据进行数字化编码,得到经过编码的数据集;
距离确定单元230,用于从所述数据集中,选取与任一份第二简历信息对应的数据作为核心点,并确定所述核心点与其他点之间的特征距离,所述其他点指所述数据集中除去所述核心点之外的数据;
选择单元240,用于从所述其他点中选取与所述核心点对应的聚类候选点,其中,所述聚类候选点为所述其他点中的与所述核心点的所述特征距离最近的指定数量的点,或为所述所述其他点中的所述特征距离在与所述核心点对应的预设距离范围内的点;
训练单元250,用于将所述聚类候选点、所述指定数量及所述预设距离范围,输入预设聚类模型进行迭代训练,得到用于对简历信息分类的目标聚类模型。
可选地,预处理单元210还可以用于:
针对多份第一简历信息中的每份第一简历信息,合并所述每份第一简历信息中相关性大于设定值的属性所对应的文本数据,以及仅保留所述每份第一简历信息中指定属性的文本数据;
将所述每份第一简历信息中所保留的表征数值类的文本数据,进行归一化,得到预处理后的所述多份第二简历信息。
可选地,设编码算法可以为独热编码算法,编码单元220还可以用于:通过所述独热编码算法,将所述每份第二简历信息中与每个属性对应的文本,进行独热编码,得到与所述每份第二简历信息中的每个属性文本对应的数字,所述数据集包括所有所述数字。
可选地,距离确定单元230还可以用于:从所述数据集中,选取与任一份第二简历信息对应的数据作为核心点,并通过预设欧式距离算法确定所述核心点与其他点之间的欧式距离,以作为所述特征距离。
可选地,训练单元250还可以用于执行如下的步骤:
从所述数据集中,确定第i个核心点及与所述第i个核心点对应的指定数量及预设距离范围,i依次取1至N,所述N为大于1的整数;
将所述第i个核心点对应的指定数量及预设距离范围,输入预设聚类模型,得到第i次训练结果;
将所述数据集及第i次训练结果输入预设平均轮廓系数计算模型,得到第i次的平均轮廓系数;
将N个所述平均轮廓系数中最高的平均轮廓系数对应的指定数量及预设距离范围,输入迭代训练后的预设聚类模型,得到所述目标聚类模型。
可选地,简历信息处理装置200还可以包括筛选单元,用于基于接收的简历筛选条件,由所述目标聚类模型从简历信息库中选择与所述简历筛选条件对应的简历信息作为输出的目标简历信息。
在本实施例中,处理模块11可以是一种集成电路芯片,具有信号的处理能力。上述处理模块11可以是通用处理器。例如,该处理器可以是中央处理器(Central ProcessingUnit,CPU)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。
存储模块12可以是,但不限于,随机存取存储器,只读存储器,可编程只读存储器,可擦除可编程只读存储器,电可擦除可编程只读存储器等。在本实施例中,存储模块12可以用于存储简历信息、预设编码算法、预设聚类模型等。当然,存储模块12还可以用于存储程序,处理模块11在接收到执行指令后,执行该程序。
需要说明的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备10、简历信息处理装置200的具体工作过程,可以参考前述方法中的各步骤对应过程,在此不再过多赘述。
本申请实施例还提供一种计算机可读存储介质。计算机可读存储介质中存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行如上述实施例中所述的简历信息处理方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现,基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
综上所述,在本方案中,通过对多份简历信息进行预处理并编码,然后计算每份简历信息之间的特征距离,再基于特征距离对同类的简历进行聚类,再利用聚类的简历信息进行模型训练,如此,无需人工对简历信息设置标签,也可以实现对模型的训练,且训练后的模型可以对简历信息进行分类。如此,有利于缩短模型训练的时长,提高模型训练的效率,降低人力成本。
在本申请所提供的实施例中,应该理解到,所揭露的装置、系统和方法,也可以通过其它的方式实现。以上所描述的装置、系统和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种简历信息处理方法,其特征在于,所述方法包括:
基于预处理算法对获取的多份第一简历信息进行预处理,得到预处理后的多份第二简历信息;
基于预设编码算法,对所述多份第二简历信息中的每份第二简历信息中的文本数据进行数字化编码,得到经过编码的数据集;
从所述数据集中,选取与任一份第二简历信息对应的数据作为核心点,并确定所述核心点与其他点之间的特征距离,所述其他点指所述数据集中除去所述核心点之外的数据;
从所述其他点中选取与所述核心点对应的聚类候选点,其中,所述聚类候选点为所述其他点中的与所述核心点的所述特征距离最近的指定数量的点,或为所述所述其他点中的所述特征距离在与所述核心点对应的预设距离范围内的点;
将所述聚类候选点、所述指定数量及所述预设距离范围,输入预设聚类模型进行迭代训练,得到用于对简历信息分类的目标聚类模型。
2.根据权利要求1所述的方法,其特征在于,基于预处理算法对获取的多份第一简历信息进行预处理,得到预处理后的多份第二简历信息,包括:
针对多份第一简历信息中的每份第一简历信息,合并所述每份第一简历信息中相关性大于设定值的属性所对应的文本数据,以及仅保留所述每份第一简历信息中指定属性的文本数据;
将所述每份第一简历信息中所保留的表征数值类的文本数据,进行归一化,得到预处理后的所述多份第二简历信息。
3.根据权利要求1所述的方法,其特征在于,所述预设编码算法为独热编码算法,对所述多份第二简历信息中的每份第二简历信息中的文本数据进行数字化编码,得到经过编码的数据集,包括:
通过所述独热编码算法,将所述每份第二简历信息中与每个属性对应的文本,进行独热编码,得到与所述每份第二简历信息中的每个属性文本对应的数字,所述数据集包括所有所述数字。
4.根据权利要求1所述的方法,其特征在于,从所述数据集中,选取与任一份第二简历信息对应的数据作为核心点,并确定所述核心点与其他点之间的特征距离,包括:
从所述数据集中,选取与任一份第二简历信息对应的数据作为核心点,并通过预设欧式距离算法确定所述核心点与其他点之间的欧式距离,以作为所述特征距离。
5.根据权利要求1所述的方法,其特征在于,将所述聚类候选点、所述指定数量及所述预设距离范围,输入预设聚类模型进行迭代训练,得到用于对简历信息分类的目标聚类模型,包括:
从所述数据集中,确定第i个核心点及与所述第i个核心点对应的指定数量及预设距离范围,i依次取1至N,所述N为大于1的整数;
将所述第i个核心点对应的指定数量及预设距离范围,输入预设聚类模型,得到第i次训练结果;
将所述数据集及第i次训练结果输入预设平均轮廓系数计算模型,得到第i次的平均轮廓系数;
将N个所述平均轮廓系数中最高的平均轮廓系数对应的指定数量及预设距离范围,输入迭代训练后的预设聚类模型,得到所述目标聚类模型。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于接收的简历筛选条件,由所述目标聚类模型从简历信息库中选择与所述简历筛选条件对应的简历信息作为输出的目标简历信息。
7.根据权利要求1所述的方法,其特征在于,所述预设聚类模型为DBSCAN模型。
8.一种简历信息处理装置,其特征在于,所述装置包括:
预处理单元,用于基于预处理算法对获取的多份第一简历信息进行预处理,得到预处理后的多份第二简历信息;
编码单元,用于基于预设编码算法,对所述多份第二简历信息中的每份第二简历信息中的文本数据进行数字化编码,得到经过编码的数据集;
距离确定单元,用于从所述数据集中,选取与任一份第二简历信息对应的数据作为核心点,并确定所述核心点与其他点之间的特征距离,所述其他点指所述数据集中除去所述核心点之外的数据;
选择单元,用于从所述其他点中选取与所述核心点对应的聚类候选点,其中,所述聚类候选点为所述其他点中的与所述核心点的所述特征距离最近的指定数量的点,或为所述所述其他点中的所述特征距离在与所述核心点对应的预设距离范围内的点;
训练单元,用于将所述聚类候选点、所述指定数量及所述预设距离范围,输入预设聚类模型进行迭代训练,得到用于对简历信息分类的目标聚类模型。
9.一种电子设备,其特征在于,所述电子设备包括相互耦合的处理器及存储器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-7中任一项所述的方法。
CN202111115155.6A 2021-09-23 2021-09-23 简历信息处理方法、装置、电子设备及存储介质 Pending CN113806544A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111115155.6A CN113806544A (zh) 2021-09-23 2021-09-23 简历信息处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111115155.6A CN113806544A (zh) 2021-09-23 2021-09-23 简历信息处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113806544A true CN113806544A (zh) 2021-12-17

Family

ID=78940331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111115155.6A Pending CN113806544A (zh) 2021-09-23 2021-09-23 简历信息处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113806544A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9998484B1 (en) * 2016-03-28 2018-06-12 EMC IP Holding Company LLC Classifying potentially malicious and benign software modules through similarity analysis
CN109543775A (zh) * 2018-12-18 2019-03-29 贵州联科卫信科技有限公司 一种基于密度聚类的面向聚类算法的特征选择方法
CN110188803A (zh) * 2019-05-16 2019-08-30 南京图申图信息科技有限公司 基于出租车轨迹数据的出行时空模式识别方法与系统
CN110728322A (zh) * 2019-10-11 2020-01-24 深圳市前海随手数据服务有限公司 一种数据分类方法及相关设备
CN111461637A (zh) * 2020-02-28 2020-07-28 平安国际智慧城市科技股份有限公司 简历筛选方法、装置、计算机设备和存储介质
CN111506729A (zh) * 2020-04-17 2020-08-07 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9998484B1 (en) * 2016-03-28 2018-06-12 EMC IP Holding Company LLC Classifying potentially malicious and benign software modules through similarity analysis
CN109543775A (zh) * 2018-12-18 2019-03-29 贵州联科卫信科技有限公司 一种基于密度聚类的面向聚类算法的特征选择方法
CN110188803A (zh) * 2019-05-16 2019-08-30 南京图申图信息科技有限公司 基于出租车轨迹数据的出行时空模式识别方法与系统
CN110728322A (zh) * 2019-10-11 2020-01-24 深圳市前海随手数据服务有限公司 一种数据分类方法及相关设备
CN111461637A (zh) * 2020-02-28 2020-07-28 平安国际智慧城市科技股份有限公司 简历筛选方法、装置、计算机设备和存储介质
CN111506729A (zh) * 2020-04-17 2020-08-07 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙学刚 等: "基于主题的Web文档聚类研究", 中文信息学报 *
王光 等: "改进的自适应参数DBSCAN聚类算法", 计算机工程与应用 *

Similar Documents

Publication Publication Date Title
CN111783875B (zh) 基于聚类分析的异常用户检测方法、装置、设备及介质
US8280915B2 (en) Binning predictors using per-predictor trees and MDL pruning
CN111159407B (zh) 训练实体识别和关系分类模型的方法、装置、设备及介质
CN110245557B (zh) 图片处理方法、装置、计算机设备及存储介质
CN110046634B (zh) 聚类结果的解释方法和装置
US20100287160A1 (en) Method and system for clustering datasets
US20190130030A1 (en) Generation method, generation device, and recording medium
CN110796171A (zh) 机器学习模型的未分类样本处理方法、装置及电子设备
CN112347223A (zh) 文档检索方法、设备及计算机可读存储介质
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
CN113239702A (zh) 意图识别方法、装置、电子设备
CN113435499B (zh) 标签分类方法、装置、电子设备和存储介质
Llerena et al. On using sum-product networks for multi-label classification
JP7389389B2 (ja) 処理装置、処理方法および処理プログラム
CN113239668A (zh) 关键词智能提取方法、装置、计算机设备及存储介质
CN113806544A (zh) 简历信息处理方法、装置、电子设备及存储介质
CN115080745A (zh) 基于人工智能的多场景文本分类方法、装置、设备及介质
CN115952800A (zh) 命名实体识别方法、装置、计算机设备及可读存储介质
CN112463964B (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN114238062A (zh) 板卡烧录装置性能分析方法、装置、设备及可读存储介质
CN112507912A (zh) 一种识别违规图片的方法及装置
CN112541357A (zh) 实体识别方法、装置及智能设备
CN114338058A (zh) 一种信息处理方法、装置和存储介质
KR102661768B1 (ko) 추천 질의문 생성 방법
CN116561540B (zh) 业务数据校正方法、装置及ai数字人的训练方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination