CN109992778A - 基于机器学习的简历文档判别方法及装置 - Google Patents

基于机器学习的简历文档判别方法及装置 Download PDF

Info

Publication number
CN109992778A
CN109992778A CN201910234751.2A CN201910234751A CN109992778A CN 109992778 A CN109992778 A CN 109992778A CN 201910234751 A CN201910234751 A CN 201910234751A CN 109992778 A CN109992778 A CN 109992778A
Authority
CN
China
Prior art keywords
text
importing
feature
imported
resume
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910234751.2A
Other languages
English (en)
Other versions
CN109992778B (zh
Inventor
黄威威
沈剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Bazhao Network Technology Co Ltd
Original Assignee
Shenzhen Bazhao Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Bazhao Network Technology Co Ltd filed Critical Shenzhen Bazhao Network Technology Co Ltd
Priority to CN201910234751.2A priority Critical patent/CN109992778B/zh
Publication of CN109992778A publication Critical patent/CN109992778A/zh
Application granted granted Critical
Publication of CN109992778B publication Critical patent/CN109992778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于机器学习的简历文档判别方法及装置,其中,所述基于机器学习的简历文档判别方法,包括:对导入文档进行预处理,得到导入文本;抽取预处理导入文本中的关键词特征以及导入文本顺序特征,并将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量;根据构建的预测模型对文本特征向量进行预测,得到对应的置信度;根据置信度对导入文本进行判别,如果置信度大于设定阈值,则表示导入文本为简历文档。本发明的技术方案能够在保护用户隐私信息前提下,高效快速准确的筛选出简历文档,从而提高用户体验。

Description

基于机器学习的简历文档判别方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于机器学习的简历文档判别方法、装置、计算机设备及存储介质。
背景技术
人力资源公司的用户简历一般都分布在不同的渠道,包括各大招聘网站、邮箱、U盘、云端、电脑桌面等。为了更好的管理用户的简历,平台会让用户将不同渠道的简历统一上传到管理平台。在上传的过程中,除了各大招聘网站的导入文本质量较高外,邮箱、U盘、云端、客户端等方式上传时会获取到用户很多隐私性的非简历文件。因此,为了能够自动高效正确的获取用户的导入文本,需要在文件上传时建立一种判别机制。
当前的处理机制有以下几种:
1、让用户上传所有的文档,然后进行解析。对解析后的文档进行分析判断。基于这种方法的判断存在一个非常大的问题就是用户安全隐私问题,会导致用户非简历类重要文件全部自动上传。
2、基于简单的规则进行判断,如“工作职责”、“基本信息”等。基于这种方法的判断的准确度低,而且这种规则很容易识别,导致在文本加入这些规则后达到以假乱真的效果。
有鉴于此,有必要提出对目前的简历判别方法进行进一步的改进。
发明内容
为解决上述至少一技术问题,本发明的主要目的是提供一种基于机器学习的简历文档判别方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用的第一个技术方案为:提供一种基于机器学习的简历文档判别方法,包括:
对导入文档进行预处理,得到导入文本;
抽取预处理导入文本中的关键词特征以及导入文本顺序特征,并将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量;
根据构建的预测模型对文本特征向量进行预测,得到对应的置信度;
根据置信度对导入文本进行判别,如果置信度大于设定阈值,则表示导入文本为简历文档。
其中,所述抽取预处理导入文本中关键词特征,具体包括:
在导入文本中的分词与预定义关键词完全匹配时,抽取导入文本中的分词作为关键词特征;以及在导入文本中的分词与预定义关键词匹配的语义相似度值和/或词移距离大于设定阈值时,抽取导入文本中的分词作为关键词特征。
其中,所述将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量,具体包括:
根据与预定义关键词完全匹配的分词获取相应的子文本特征向量,根据与预定义关键词匹配的语义相似度值和/或词移距离大于设定阈值的分词获取相应的子文本特征向量,通过相加得到新的子文本特征向量,再与根据导入文本顺序特征获取相应的子文本特征向量进行拼接,形成最终的文本向量特征。
其中,所述根据构建的预测模型对文本特征向量进行预测,得到对应的置信度,具体包括:
根据构建的多个预测模型分别对文本特征向量进行预测,得到对应的多个子置信度;
分别对多个置信度进行加权,并计算出多个子置信度的均值,并将均值作为导入文本的置信度。
其中,所述根据置信度对导入文本进行判别,还包括:
在置信度小于或等于设定阈值,则表示导入文本为非简历文档。
其中,所述对导入文档进行预处理,得到导入文本,包括:
对导入文档进行解析得到解析文本;以及
对解析文本进行无用字符删除处理、特殊字符转换处理、大小写转换处理、全角半角转换处理及分词处理中至少一种文本处理。
其中,所述根据构建的预测模型对文本特征向量进行预测之前,还包括:
训练分类预测模型。
为实现上述目的,本发明采用的第二个技术方案为:提供一种基于机器学习的简历文档判别装置,包括:
预处理模块,用于对导入文档进行预处理,得到导入文本;
抽取模块,用于抽取预处理导入文本中的关键词特征以及导入文本顺序特征,并将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量;
预测模块,用于根据构建的预测模型对文本特征向量进行预测,得到对应的置信度;
判别模块,用于根据置信度对导入文本进行判别,在置信度大于设定阈值,则表示导入文本为简历文档。
为实现上述目的,本发明采用的第三个技术方案为:提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
为实现上述目的,本发明采用的第四个技术方案为:提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本发明的技术方案主要采用先对导入文档进行预处理,得到导入文本,然后抽取预处理导入文本中的关键词特征以及导入文本顺序特征,并将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量,再根据构建的预测模型对文本特征向量进行预测,得到对应的置信度;最后根据置信度对导入文本进行判别,如果置信度大于设定阈值,则表示导入文本为简历文档。本方案通过自动抓取导入文本,提取更加有效的导入文本特征,能够在保护用户隐私的情况下,高效快速准确的筛选出简历文档,从而提高用户体验。
附图说明
图1为本发明一实施例基于机器学习的简历文档判别方法的方法流程图;
图2为图1中步骤S20的流程图;
图3为图1中步骤S30与步骤S40的流程图;
图4为本发明一实施例基于机器学习的简历文档判别装置的模块方框图;
图5为本发明一实施例计算机设备的内部结构图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请参照图1,图1为本发明一实施例基于机器学习的简历文档判别方法的方法流程图。在本发明实施例中,该基于机器学习的简历文档判别方法,包括:
步骤S10、对导入文档进行预处理,得到导入文本;
步骤S20、抽取预处理导入文本中的关键词特征以及导入文本顺序特征,并将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量;
步骤S30、根据构建的预测模型对文本特征向量进行预测,得到对应的置信度;
步骤S40、根据置信度对导入文本进行判别,在置信度大于设定阈值,则表示导入文本为简历文档。
本实施例中,该方法适用于对WEB端、客户端及邮件等方式导入文档的处理。导入文档包括简历文档及非简历文档。应用该方法可以从导入文档中准确判别出简历文档。具体,在获取到待判别的文档时,先对对导入文档进行预处理,可以解析得到多个分词形式的导入文本。然后从预处理导入文本中的抽取关键词特征及导入文本顺序特征。判断一份简历里面是否存在关键词或者类似的词,当一份简历中存在某些关键词时,该特征的特征值就为1或者是关键词的频次。导入文本顺序特征为,根据简历的格式(在简历的排版上某部分内容的位置信息),可以确定简历的某一部分内容一定出现在另部分内容前面或者后面,例如,简历基本信息一定在工作描述前面。根据上述的内在逻辑能得到对应的特征信息。而后将关键词特征以及导入文本顺序特征分别转化为数值向量,以方便简历的预测及训练,根据数值向量的累加和拼接确定导入文本的文本特征向量。根据构建的预测模型对文本特征向量进行预测,得到对应的置信度。该预测模型可以是一个,也可以是多个。在多个模型的构建上采用集成学习(Ensemble Learning)思想,在模型的训练上则采用正则化思想。最后,根据置信度是否大于设定阈值对导入文本进行判断,如果置信度大于设定阈值,则表示导入文本为简历文档。如此,以从导入文档中准确判别出简历文档。在置信度小于或等于设定阈值,则表示导入文本为非简历文档。在导入文本为非简历文档时,不导入非简历文本的数据,以避免导入非简历文档数据,能够保护用户的隐私。
本发明的技术方案主要采用先对导入文档进行预处理,得到导入文本,然后抽取预处理导入文本中的关键词特征以及导入文本顺序特征,并将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量,再根据构建的预测模型对文本特征向量进行预测,得到对应的置信度;最后根据置信度对导入文本进行判别,如果置信度大于设定阈值,则表示导入文本为简历文档。本方案通过自动抓取导入文本,提取更加有效的导入文本特征,能够在保护用户隐私的情况下,高效快速准确的筛选出简历文档,从而提高用户体验。
在一具体的实施方式中,所述抽取预处理导入文本中关键词特征,具体包括:
在导入文本中的分词与预定义关键词完全匹配时,抽取导入文本中的分词作为关键词特征;以及在导入文本中的分词与预定义关键词匹配的语义相似度值和/或词移距离大于设定阈值时,抽取导入文本中的分词作为关键词特征。
上述的,预定义的关键词可以根据业务知识和统计分析来获取。导入文本中的分词可以与预定义的关键词进行匹配。该匹配的方式包括完全匹配以及相似度匹配。在两者为完全匹配时,完全匹配一次的特征值为1。在两者为语义相似度匹配和/或词移距离(WordMover’s Distance)匹配,计算导入文本中分词与预定义的关键词相似度,在语义相似度值和/或词移距离大于设定阈值时,将导入文本中的分词作为关键词特征,并将相应的相似度数值作为特征值。
请参照图2,图2为图1中步骤S20的流程图。在一具体的实施方式中,所述将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量,具体包括:
根据与预定义关键词完全匹配的分词获取相应的子文本特征向量,根据与预定义关键词匹配的语义相似度值和/或词移距离大于设定阈值的分词获取相应的子文本特征向量,通过相加得到新的子文本特征向量,再与根据导入文本顺序特征获取相应的子文本特征向量进行拼接,形成最终的文本向量特征。
上述的,根据与预定义关键词完全匹配的分词获取相应的子文本特征向量;根据与预定义关键词匹配的语义相似度值和/或词移距离大于设定阈值的分词获取相应的子文本特征向量,两者相加得到新的子文本特征向量。对于导入文本顺序特征为,判断是否内容上是否存在先后顺序,存在特征值就为1,否则为0。根据上述的转化竖直向量可以获取子文本特征向量,并拼接上述的相加得到的新的子文本特征向量,可以形成最终的文本向量特征。
请参照图3,图3为图1中步骤S30与步骤S40的流程图。在一具体的实施方式中,所述根据构建的预测模型对文本特征向量进行预测,得到对应的置信度,具体包括:
根据构建的多个预测模型分别对文本特征向量进行预测,得到对应的多个子置信度;
分别对多个置信度进行加权,并计算出多个子置信度的均值,并将均值作为导入文本的置信度。
上述的,为了提高预测的准确性,得到的文本向量特征输入多个预测模型,通过多个预测模型对文本向量特征进行预测,得到对应的多个子置信度,然后根据分别对多个置信度进行加权,并计算出多个子置信度的均值,并将均值作为导入文本的置信度,能够得到准确的置信度。
在一具体的实施方式中,所述对导入文档进行预处理,得到导入文本,包括:
对导入文档进行解析得到解析文本;以及
对解析文本进行无用字符删除处理、特殊字符转换处理、大小写转换处理、全角半角转换处理及分词处理中至少一种文本处理。
上述的,对导入文档可以进行不同格式的解析得到解析文本,然后将解析后的文本进行删除无用字符、特殊字符转换、大小写转换、全角半角转换、分词等中的至少一种文本处理,得到多个分词。在进行分词处理时,还需要加入相应词库,以方便后续处理。
在一具体的实施方式中,所述根据构建的预测模型对文本特征向量进行预测之前,还包括:
训练分类预测模型。
上述的,模型训练主要包含正负样本确定、样本不平衡的处理和模型构建三部分内容。上述的正负样本确定就是将简历认为是正样本,负样本是基于用户反馈数据统计分析确定当前有哪些类型的非简历,从而构建负样本。所谓的样本不平衡的处理就是采用上采样或者下采样的方法来采集训练样本,在模型构建上采用了正则化的逻辑回归模型、SVM、GBDT等机器学习模型。
请参照图4,图4为本发明一实施例基于机器学习的简历文档判别装置的模块方框图。本发明的实施例中,该基于机器学习的简历文档判别装置,包括:
预处理模块10,用于对导入文档进行预处理,得到导入文本;
抽取模块20,用于抽取预处理导入文本中的关键词特征以及导入文本顺序特征,并将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量;
预测模块30,用于根据构建的预测模型对文本特征向量进行预测,得到对应的置信度;
判别模块40,用于根据置信度对导入文本进行判别,在置信度大于设定阈值,则表示导入文本为简历文档。
在获取到待判别的文档时,通过预处理模块10,对导入文档进行预处理,可以解析得到多个分词形式的导入文本。通过抽取模块20,从预处理导入文本中的抽取关键词特征及导入文本顺序特征。判断一份简历里面是否存在关键词或者类似的词,当一份简历中存在某些关键词时,该特征的特征值就为1或者是关键词的频次。导入文本顺序特征为,根据简历的格式(在简历的排版上某部分内容的位置信息),可以确定简历的某一部分内容一定出现在另部分内容前面或者后面,例如,简历基本信息一定在工作描述前面。根据上述的内在逻辑能得到对应的特征信息。而后将关键词特征以及导入文本顺序特征分别转化为数值向量,以方便简历的预测及训练,根据数值向量的累加确定导入文本的文本特征向量。通过预测模块30,可以根据构建的预测模型对文本特征向量进行预测,得到对应的置信度。该预测模型可以是一个,也可以是多个。在多个模型的构建上采用集成学习(EnsembleLearning)思想,在模型的训练上则采用正则化思想。最后,通过判别模块40,根据置信度是否大于设定阈值对导入文本进行判断,如果置信度大于设定阈值,则表示导入文本为简历文档。如此,以从导入文档中准确判别出简历文档。在置信度小于或等于设定阈值,则表示导入文本为非简历文档。
在一具体的实施方式中,所述抽取模块20,还用于:
在导入文本中的分词与预定义关键词完全匹配时,抽取导入文本中的分词作为关键词特征;以及在导入文本中的分词与预定义关键词匹配的语义相似度值和/或词移距离大于设定阈值时,抽取导入文本中的分词作为关键词特征。
在一具体的实施方式中,所述抽取模块20,还用于:
根据与预定义关键词完全匹配的分词获取相应的子文本特征向量,根据与预定义关键词匹配的语义相似度值和/或词移距离大于设定阈值的分词获取相应的子文本特征向量,通过相加得到新的子文本特征向量,再与根据导入文本顺序特征获取相应的子文本特征向量进行拼接,形成最终的文本向量特征。
在一具体的实施方式中,所述预测模块30,还用于:
根据构建的多个预测模型分别对文本特征向量进行预测,得到对应的多个子置信度;
分别对多个置信度进行加权,并计算出多个子置信度的均值,并将均值作为导入文本的置信度。
其中,所述根据置信度对导入文本进行判别,还包括:
在置信度小于或等于设定阈值,则表示导入文本为非简历文档。
在一具体的实施方式中,所述预处理模块10,用于:
对导入文档进行解析得到解析文本;以及
对解析文本进行无用字符删除处理、特殊字符转换处理、大小写转换处理、全角半角转换处理及分词处理中至少一种文本处理。
请参照图5,图5为本发明一实施例计算机设备的内部结构图。在一实施例中,该计算机设备包括通过系统总线连接的处理器、存储器及网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于机器学习的简历文档判别方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以上各个方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以上各个方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (10)

1.一种基于机器学习的简历文档判别方法,其特征在于,所述基于机器学习的简历文档判别方法,包括:
对导入文档进行预处理,得到导入文本;
抽取预处理导入文本中的关键词特征以及导入文本顺序特征,并将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量;
根据构建的预测模型对文本特征向量进行预测,得到对应的置信度;
根据置信度对导入文本进行判别,如果置信度大于设定阈值,则表示导入文本为简历文档。
2.如权利要求1所述的基于机器学习的简历文档判别方法,其特征在于,所述抽取预处理导入文本中关键词特征,具体包括:
在导入文本中的分词与预定义关键词完全匹配时,抽取导入文本中的分词作为关键词特征;以及在导入文本中的分词与预定义关键词匹配的语义相似度值和/或词移距离大于设定阈值时,抽取导入文本中的分词作为关键词特征。
3.如权利要求2所述的基于机器学习的简历文档判别方法,其特征在于,所述将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量,具体包括:
根据与预定义关键词完全匹配的分词获取相应的子文本特征向量,根据与预定义关键词匹配的语义相似度值和/或词移距离大于设定阈值的分词获取相应的子文本特征向量,通过相加得到新的子文本特征向量,再与根据导入文本顺序特征获取相应的子文本特征向量进行拼接,形成最终的文本向量特征。
4.如权利要求1所述的基于机器学习的简历文档判别方法,其特征在于,所述根据构建的预测模型对文本特征向量进行预测,得到对应的置信度,具体包括:
根据构建的多个预测模型分别对文本特征向量进行预测,得到对应的多个子置信度;
分别对多个置信度进行加权,并计算出多个子置信度的均值,并将均值作为导入文本的置信度。
5.如权利要求4所述的基于机器学习的简历文档判别方法,其特征在于,所述根据置信度对导入文本进行判别,还包括:
如果置信度小于或等于设定阈值,则表示导入文本为非简历文档。
6.如权利要求1所述的基于机器学习的简历文档判别方法,其特征在于,所述对导入文档进行预处理,得到导入文本,包括:
对导入文档进行解析得到解析文本;以及
对解析文本进行无用字符删除处理、特殊字符转换处理、大小写转换处理、全角半角转换处理及分词处理中至少一种文本处理。
7.如权利要求1所述的基于机器学习的简历文档判别方法,其特征在于,所述根据构建的预测模型对文本特征向量进行预测之前,还包括:
训练分类预测模型。
8.一种基于机器学习的简历文档判别装置,其特征在于,所述基于机器学习的简历文档判别装置,包括:
预处理模块,用于对导入文档进行预处理,得到导入文本;
抽取模块,用于抽取预处理导入文本中的关键词特征以及导入文本顺序特征,并将关键词特征以及导入文本顺序特征分别转化为数值向量并确定导入文本的文本特征向量;
预测模块,用于根据构建的预测模型对文本特征向量进行预测,得到对应的置信度;
判别模块,用于根据置信度对导入文本进行判别,如果置信度大于设定阈值,则表示导入文本为简历文档。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201910234751.2A 2019-03-26 2019-03-26 基于机器学习的简历文档判别方法及装置 Active CN109992778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910234751.2A CN109992778B (zh) 2019-03-26 2019-03-26 基于机器学习的简历文档判别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910234751.2A CN109992778B (zh) 2019-03-26 2019-03-26 基于机器学习的简历文档判别方法及装置

Publications (2)

Publication Number Publication Date
CN109992778A true CN109992778A (zh) 2019-07-09
CN109992778B CN109992778B (zh) 2022-12-13

Family

ID=67131621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910234751.2A Active CN109992778B (zh) 2019-03-26 2019-03-26 基于机器学习的简历文档判别方法及装置

Country Status (1)

Country Link
CN (1) CN109992778B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941703A (zh) * 2019-12-03 2020-03-31 南京烽火星空通信发展有限公司 一种基于机器学习和模糊规则的集成简历信息抽取方法
CN112185564A (zh) * 2020-10-20 2021-01-05 福州数据技术研究院有限公司 一种基于结构化电子病历的眼科疾病预测方法和存储设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055426A1 (en) * 2014-08-25 2016-02-25 Sunstone Analytics Customizable machine learning models
CN105393263A (zh) * 2013-07-12 2016-03-09 微软技术许可有限责任公司 计算机-人交互式学习中的特征完成
CN108874928A (zh) * 2018-05-31 2018-11-23 平安科技(深圳)有限公司 简历数据信息解析处理方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105393263A (zh) * 2013-07-12 2016-03-09 微软技术许可有限责任公司 计算机-人交互式学习中的特征完成
US20160055426A1 (en) * 2014-08-25 2016-02-25 Sunstone Analytics Customizable machine learning models
CN108874928A (zh) * 2018-05-31 2018-11-23 平安科技(深圳)有限公司 简历数据信息解析处理方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王玮等: "情感分析在社会化媒体效果研究中的应用――基于分类序列规则的微博文本情绪分析", 《国际新闻界》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941703A (zh) * 2019-12-03 2020-03-31 南京烽火星空通信发展有限公司 一种基于机器学习和模糊规则的集成简历信息抽取方法
CN112185564A (zh) * 2020-10-20 2021-01-05 福州数据技术研究院有限公司 一种基于结构化电子病历的眼科疾病预测方法和存储设备

Also Published As

Publication number Publication date
CN109992778B (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
US10664660B2 (en) Method and device for extracting entity relation based on deep learning, and server
US20210200961A1 (en) Context-based multi-turn dialogue method and storage medium
KR20190085098A (ko) 키워드 추출 방법, 컴퓨터 장치, 및 저장 매체
CN109858010B (zh) 领域新词识别方法、装置、计算机设备和存储介质
CN110020422B (zh) 特征词的确定方法、装置和服务器
CN108875059B (zh) 用于生成文档标签的方法、装置、电子设备和存储介质
US11216896B2 (en) Identification of legal concepts in legal documents
CN107102993B (zh) 一种用户诉求分析方法和装置
US10042880B1 (en) Automated identification of start-of-reading location for ebooks
CN112464656A (zh) 关键词抽取方法、装置、电子设备和存储介质
CN110008474B (zh) 一种关键短语确定方法、装置、设备及存储介质
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN105912645A (zh) 一种智能问答方法及装置
CN110309504B (zh) 基于分词的文本处理方法、装置、设备及存储介质
CN112732871A (zh) 一种机器人催收获取客户意向标签的多标签分类方法
CN107958068B (zh) 一种基于实体知识库的语言模型平滑方法
CN112507073A (zh) 配电网作业文件的内容校验方法及相关设备
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN109992778A (zh) 基于机器学习的简历文档判别方法及装置
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN114202443A (zh) 政策分类方法、装置、设备及存储介质
CN111754352A (zh) 一种观点语句正确性的判断方法、装置、设备和存储介质
RU2755606C2 (ru) Способ и система классификации данных для выявления конфиденциальной информации в тексте
KR102215259B1 (ko) 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치
CN110413782B (zh) 一种表自动主题分类方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant