CN110851582A - 文本处理方法及系统、计算机系统和计算机可读存储介质 - Google Patents

文本处理方法及系统、计算机系统和计算机可读存储介质 Download PDF

Info

Publication number
CN110851582A
CN110851582A CN201810832221.3A CN201810832221A CN110851582A CN 110851582 A CN110851582 A CN 110851582A CN 201810832221 A CN201810832221 A CN 201810832221A CN 110851582 A CN110851582 A CN 110851582A
Authority
CN
China
Prior art keywords
text
target
texts
user
capability level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810832221.3A
Other languages
English (en)
Inventor
周默
李朋辉
吴佳禹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201810832221.3A priority Critical patent/CN110851582A/zh
Publication of CN110851582A publication Critical patent/CN110851582A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种文本处理方法,包括:获取目标文本,其中,目标文本包括多种类型的用户关联信息,每一种类型的用户关联信息用于描述用户在相应类型下的特征;根据目标文本中的用户关联信息从目标样本集中获取与目标文本相匹配的文本,其中,目标样本集中包括多个文本,每个文本具有与每个文本中的用户关联信息相匹配的能力等级,能力等级用于评价相应用户的能力;以及根据与目标文本相匹配的文本的能力等级确定目标文本的能力等级。本公开还提供了一种文本处理系统、一种计算机系统和一种计算机可读存储介质。

Description

文本处理方法及系统、计算机系统和计算机可读存储介质
技术领域
本公开涉及计算机技术领域,更具体地,涉及一种文本处理方法及系统、计算机系统和计算机可读存储介质。
背景技术
目前,公司为了能够招聘到符合公司要求的员工,可能需要处理大量的求职简历,而这需要花费大量的时间和精力去筛选简历,并且由于人为主观因素的干扰,往往会造成筛选简历的标准和效果不一致,从而错过很多优秀的人才。
随着大数据技术的兴起,简历的自动化推荐大大简化了筛选成本,但推荐具有一定的随机性,缺乏个性化的定制功能,并且推荐算法一般基于求职者编辑的数据,例如期望薪资、目标职位等进行分析,而这些往往并不能客观的反映求职者的实际能力。同样地,对于类似于简历的其它文本信息,例如调查问卷,相关技术中的处理方式也不能客观的反映被调查者的实际能力。
在实现本公开构思的过程中,发明人发现相关技术中至少存在如下问题:采用相关技术分析用于描述用户特征的文本内容,得到的分析结果不能客观的反映用户的实际能力。
发明内容
有鉴于此,本公开提供了一种文本处理方法及系统、计算机系统和计算机可读存储介质。
本公开的一个方面提供了一种文本处理方法,包括获取目标文本,其中,上述目标文本包括多种类型的用户关联信息,每一种类型的用户关联信息用于描述用户在相应类型下的特征;根据上述目标文本中的用户关联信息从目标样本集中获取与上述目标文本相匹配的文本,其中,上述目标样本集中包括多个文本,每个文本具有与上述每个文本中的用户关联信息相匹配的能力等级,上述能力等级用于评价相应用户的能力;以及根据与上述目标文本相匹配的文本的能力等级确定上述目标文本的能力等级。
根据本公开的实施例,上述方法还包括基于上述目标文本中的用户关联信息与上述目标样本集中的文本的用户关联信息,采用统计学分类模型确定与上述目标文本相匹配的第一文本;根据上述第一文本的能力等级确定上述目标文本的第一能力等级;基于上述目标样本集中的文本的用户关联信息,训练得到深度学习模型;通过上述深度学习模型确定上述目标文本的第二能力等级;以及根据上述第一能力等级和上述第二能力等级确定上述目标文本最终的能力等级。
根据本公开的实施例,上述方法还包括基于区块链技术存储上述目标文本的能力等级。
根据本公开的实施例,上述目标文本包括多个,多个上述目标文本的文本格式包括一种或多种,多个上述目标文本是从不同采集渠道分别获取得到的。
根据本公开的实施例,上述目标文本为简历,上述方法还包括在获取简历之后,从上述简历中提取多种类型的用户关联信息,其中,上述多种类型的用户关联信息包括以下至少之一:用户的基本信息特征,工作经历特征,教育经历特征,技能特征;以及根据从上述简历中提取的多种类型的用户关联信息从上述目标样本集中获取与上述简历相匹配的文本。
本公开的另一个方面提供了一种文本处理系统,包括第一获取模块、第二获取模块和第一确定模块。第一获取模块用于获取目标文本,其中,上述目标文本包括多种类型的用户关联信息,每一种类型的用户关联信息用于描述用户在相应类型下的特征;第二获取模块用于根据上述目标文本中的用户关联信息从目标样本集中获取与上述目标文本相匹配的文本,其中,上述目标样本集中包括多个文本,每个文本具有与上述每个文本中的用户关联信息相匹配的能力等级,上述能力等级用于评价相应用户的能力;以及第一确定模块用于根据与上述目标文本相匹配的文本的能力等级确定上述目标文本的能力等级。
根据本公开的实施例,上述系统还包括第二确定模块、第三确定模块、训练模块、第四确定模块和第五确定模块。第二确定模块用于基于上述目标文本中的用户关联信息与上述目标样本集中的文本的用户关联信息,采用统计学分类模型确定与上述目标文本相匹配的第一文本;第三确定模块用于根据上述第一文本的能力等级确定上述目标文本的第一能力等级;训练模块基于上述目标样本集中的文本的用户关联信息,训练得到深度学习模型;第四确定模块用于通过上述深度学习模型确定上述目标文本的第二能力等级;第五确定模块用于根据上述第一能力等级和上述第二能力等级确定上述目标文本最终的能力等级。
根据本公开的实施例,上述系统还包括存储模块,用于基于区块链技术存储上述目标文本的能力等级。
根据本公开的实施例,上述目标文本包括多个,多个上述目标文本的文本格式包括一种或多种,多个上述目标文本是从不同采集渠道分别获取得到的。
根据本公开的实施例,上述目标文本为简历,上述系统还包括提取模块和第三获取模块。提取模块用于在获取简历之后,从上述简历中提取多种类型的用户关联信息,其中,上述多种类型的用户关联信息包括以下至少之一:用户的基本信息特征,工作经历特征,教育经历特征,技能特征;以及第三获取模块用于根据从上述简历中提取的多种类型的用户关联信息从上述目标样本集中获取与上述简历相匹配的文本。
本公开的另一个方面提供了一种计算机系统,包括一个或多个处理器;存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上所述的文本处理方法。
本公开的另一个方面提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现如上所述的文本处理方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
通过本公开的实施例,由于采用了根据目标文本中的用户关联信息从目标样本集中获取与目标文本相匹配的文本,根据与目标文本相匹配的文本的能力等级确定目标文本的能力等级的技术手段,而不是直接只根据目标文本本身中记载的用户关联信息确定用户的能力等级,不仅可以使得分析结果与实际情况相匹配,而且可以客观的反映用户的实际能力,所以至少部分地克服了相关技术中难以有效的对用户能力进行评定的技术问题,进而达到了提高用户能力评定准确性的技术效果。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可以应用文本处理方法及系统的示例性系统架构;
图2示意性示出了根据本公开实施例的文本处理方法的流程图;
图3示意性示出了根据本公开另一实施例的文本处理方法的流程图;
图4示意性示出了根据本公开实施例的基于区块链技术存储目标文本的能力等级的示意图;
图5示意性示出了根据本公开实施例的从不同采集渠道获取目标文本的示意图;
图6示意性示出了根据本公开实施例的从目标样本集中获取与简历相匹配的文本的流程图;
图7示意性示出了根据本公开另一实施例的文本处理方法的示意图;
图8示意性示出了根据本公开实施例的文本处理系统的框图;
图9示意性示出了根据本公开另一实施例的文本处理系统的框图;
图10示意性示出了根据本公开另一实施例的文本处理系统的框图;
图11示意性示出了根据本公开另一实施例的文本处理系统的框图;以及
图12示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机系统的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。本领域技术人员还应理解,实质上任意表示两个或更多可选项目的转折连词和/或短语,无论是在说明书、权利要求书还是附图中,都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如,短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。
本公开的实施例提供了一种文本处理方法及系统。该方法包括获取目标文本,其中,上述目标文本包括多种类型的用户关联信息,每一种类型的用户关联信息用于描述用户在相应类型下的特征;根据上述目标文本中的用户关联信息从目标样本集中获取与上述目标文本相匹配的文本,其中,上述目标样本集中包括多个文本,每个文本具有与上述每个文本中的用户关联信息相匹配的能力等级,上述能力等级用于评价相应用户的能力;以及根据与上述目标文本相匹配的文本的能力等级确定上述目标文本的能力等级。
图1示意性示出了根据本公开实施例的可以应用文本处理方法及系统的示例性系统架构。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的文本处理方法一般可以由服务器105执行。相应地,本公开实施例所提供的文本处理系统一般可以设置于服务器105中。本公开实施例所提供的文本处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的文本处理系统也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。或者,本公开实施例所提供的文本处理方法也可以由终端设备101、102、或103执行,或者也可以由不同于终端设备101、102、或103的其他终端设备执行。相应地,本公开实施例所提供的文本处理系统也可以设置于终端设备101、102、或103中,或设置于不同于终端设备101、102、或103的其他终端设备中。
例如,目标文本可以原本存储在终端设备101、102、或103中的任意一个(例如,终端设备101,但不限于此)之中,或者存储在外部存储设备上并可以导入到终端设备101中。然后,终端设备101可以在本地执行本公开实施例所提供的文本处理方法,或者将目标文本发送到其他终端设备、服务器、或服务器集群,并由接收该目标文本的其他终端设备、服务器、或服务器集群来执行本公开实施例所提供的文本处理方法。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的文本处理方法的流程图。
如图2所示,该文本处理方法包括操作S201~S203。
在操作S201,获取目标文本,其中,目标文本包括多种类型的用户关联信息,每一种类型的用户关联信息用于描述用户在相应类型下的特征。
根据本公开的实施例,目标文本的种类包括但不限于简历和问卷调查等文本。以简历为例,简历中可以包括多种类型的用户关联信息,例如,用户关联信息包括但不限于姓名、性别、年龄、工作经历、项目经历、教育经历等,姓名、性别、年龄这一类用户个人信息用于描述用户的基本信息,工作经历用于描述用户之前的工作经历的特征,其它信息所描述的用户在相应类型下的特征不再赘述。
在操作S202,根据目标文本中的用户关联信息从目标样本集中获取与目标文本相匹配的文本,其中,目标样本集中包括多个文本,每个文本具有与每个文本中的用户关联信息相匹配的能力等级,能力等级用于评价相应用户的能力。
根据本公开的实施例,目标样本集中包括多个文本,每个文本具有与每个文本中的用户关联信息相匹配的能力等级,目标样本集中的文本的能力等级确定方法包括多种,例如,可以对较大量级的已知文本做人工标注,按1到10的等级对这些文本进行人为判断,能力越强的评分越高。或者,也可以将已经评定好职级的人群作为目标样本集,把已经评定好职级的人群的文本作为训练数据,这样就可以快速的获取大量的标注数据,从而得到目标样本集中的文本的能力等级。
根据本公开的实施例,目标样本集中的文本包括用户关联信息,将目标文本中的用户关联信息与目标样本集中的文本的用户关联信息进行匹配,可以得到用户关联信息相似的文本,从而可以从目标样本集中获取与目标文本相匹配的文本。
在操作S203,根据与目标文本相匹配的文本的能力等级确定目标文本的能力等级。
根据本公开的实施例,由于目标样本集中的每个文本具有与每个文本中的用户关联信息相匹配的能力等级,在获取到与目标文本相匹配的文本之后,可以根据与目标文本相匹配的文本的能力等级确定目标文本的能力等级。
由于相关技术通过直接分析用于描述用户特征的文本内容本身,而文本内容中的个人信息具有一定的主观性,不能作为通用的评级标准,在没有考虑其他用户的能力等级的情况下,相关技术得到的分析结果不能客观的反映用户的实际能力。通过本公开的实施例,由于采用了根据目标文本中的用户关联信息从目标样本集中获取与目标文本相匹配的文本,根据与目标文本相匹配的文本的能力等级确定目标文本的能力等级的技术手段,而不是直接只根据目标文本本身中记载的用户关联信息确定用户的能力等级,不仅可以使得分析结果与实际情况相匹配,而且可以客观的反映用户的实际能力,所以至少部分地克服了相关技术中难以有效的对用户能力进行评定的技术问题,进而达到了提高用户能力评定准确性的技术效果。
下面参考图3~图7,结合具体实施例对图2所示的方法做进一步说明。
图3示意性示出了根据本公开另一实施例的文本处理方法的流程图。
如图3所示,该文本处理方法还包括操作S204~S208。
在操作S204,基于目标文本中的用户关联信息与目标样本集中的文本的用户关联信息,采用统计学分类模型确定与目标文本相匹配的第一文本。
在操作S205,根据第一文本的能力等级确定目标文本的第一能力等级。
根据本公开的实施例,可以将文本的用户关联信息转化为一个目标维的特征向量,例如,可以将目标文本中的用户关联信息转化为1000维的特征向量,目标样本集中的每一文本的用户关联信息也转化为1000维的特征向量。根据特征向量采用统计学分类模型确定与目标文本相匹配的第一文本。例如,通过特征向量计算目标文本与其他已标注文本的余弦距离,通过KNN算法获取离目标文本最近的若干个第一文本,然后统计出现次数最多的等级,作为目标文本的第一能力等级。其中,也可以通过KNN算法获取离目标文本最近的1个第一文本,直接根据第一文本的能力等级确定目标文本的第一能力等级。
在操作S206,基于目标样本集中的文本的用户关联信息,训练得到深度学习模型。
在操作S207,通过深度学习模型确定目标文本的第二能力等级。
根据本公开的实施例,深度学习模型可以是采用分类模型。例如,可以先将文本进行分词处理,统计各分词出现的频率构建出词袋模型,将所有分词及其词频进行处理,并将处理后的结果输入到一个分类器中,输出是对应的技能等级1到10,可以针对1到10分别建立10个二分类模型,再通过Softmax转化为最大概率的等级值。
在操作S208,根据第一能力等级和第二能力等级确定目标文本最终的能力等级。
根据本公开的实施例,可以是将两个模型所得到的等级值取平均数,最终得到目标文本的能力的参考评分,这个参考评分可以用于区分目标文本的重要强特征。
通过本公开的实施例,根据两种不同模型分别确定出的与目标文本相匹配的文本的能力等级,确定目标文本最终的能力等级,可以提高确定的目标文本的等级的准确性,可以更加真实的反映用户的实际能力。
根据本公开的实施例,还可以基于区块链技术存储目标文本的能力等级。
根据本公开的实施例,可以对上述所得的特征数据进行持久化,出于人才信息的安全、隐私、监管、审计、性能等方面的考虑,采取基于区块链技术的分布式存储方案。为提高准入门槛,将数据写入到基于Hyperledger Fabric构建的联盟链中,信息存储的主键可以是用户真实姓名+用户手机号码的哈希值,存储的内容是上述抽取的目标文本的用户关联信息和能力等级分值,联盟链依托于各联盟成员共同进行背书,具备非常强的公信认证能力。
图4示意性示出了根据本公开实施例的基于区块链技术存储目标文本的能力等级的示意图。
如图4所示,Client是客户端程序,负责获取目标文本的用户关联信息数据和能力等级分值。证书服务主要提供成员注册和证书颁发功能,一方面用于系统接入,另一方面用于交易签名。Peer是区块链节点,主要功能是调用智能合约执行交易和记账,智能合约是运行于区块链上的应用程序,共享账本存储K-V状态数据,提供给链码存取使用,采用LevelDB存储。共识网络由Orderer集群组成,用于交易共识并生成区块。Orderer使用SBFT机制,SBFT是拜占庭容错算法PBFT的简化版,能够容忍部分节点故障。Java链码是定制化开发的,提供目标文本信息写入和查询接口。整个联盟链可以部署在各联盟成员的私有云系统中,构成一个大的共识网络,形成高可信的认证机制。
通过本公开的实施例,基于区块链技术的去中心化存储目标文本的能力等级,可以提高信息的安全和隐私,形成高可信的认证机制。
根据本公开的实施例,目标文本包括多个,多个目标文本的文本格式包括一种或多种,多个目标文本是从不同采集渠道分别获取得到的。
图5示意性示出了根据本公开实施例的从不同采集渠道获取目标文本的示意图。
如图5所示,以目标文本为简历为例,可以支持多渠道、多格式的简历采集,例如,通过订阅各大招聘网站的企业账号,每天会有大量的简历邮件推送至目标邮箱,同时,应聘者或内推人员会不定期发送邮件到目标邮箱,这些渠道产生的简历大致包括三种形式:
1.邮件正文直接包含详细的简历信息,此时直接利用Java Mail API读取邮件正文并存储。
2.邮件正文仅包含简历摘要,明细信息需要通过URL跳转到目标渠道主站,此时利用Http Client方式模拟访问操作,并将权限信息附加到Http Request中绕过登录权限认证。
3.邮件正文包含部分主要信息,明细信息存储到邮件附件中,通常包括WORD格式和PDF格式。使用Aspose.Words API读取Doc/Docx文档内容,使用iText API读取PDF文档内容。
由于企业内网往往会对邮件读取进行访问限制,可以使用Exchange技术采用EWS协议代替SMTP协议,对目标邮件进行读写操作。通过本公开的实施例,可以支持多渠道和多格式的文本采集。
图6示意性示出了根据本公开实施例的从目标样本集中获取与简历相匹配的文本的流程图。
如图6所示,该方法包括操作S209和S210。
在操作S209,在获取简历之后,从简历中提取多种类型的用户关联信息,其中,多种类型的用户关联信息包括以下至少之一:用户的基本信息特征,工作经历特征,教育经历特征,技能特征。
在操作S210,根据从简历中提取的多种类型的用户关联信息从目标样本集中获取与简历相匹配的文本。
根据本公开的实施例,可以针对不同的渠道来源,利用XPath表达式定位固定位置的信息,例如姓名、性别、年龄、工作经历文本块、项目经历文本块、教育经历文本块、技能特征文本块等。
根据本公开的实施例,还可以针对不同经历的文本块,通过正则表达式抽取时间标签,并转化成为标准Date格式,同时构建时间轴,便于复杂的时序查询。
根据本公开的实施例,对于简历中出现的机构实体,例如公司名、学校名,对语料自动进行角色标注,统计分词的角色频次、角色转移概率等,同时可以训练出一个模型,总结出一些可用的模式串。利用HMM-Viterbi算法标注陌生文本的粗分结果,利用Aho-Corasick算法模式匹配,匹配出可能的机构实体,将其送入隐马尔可夫模型中得到分词器。
根据本公开的实施例,对于技能特征的关键词,例如Java、Hadoop、机器学习等领域词,可以构建基本语料库,把常见的技能名词做成字典表,然后利用基于CRF模型和BEMS标注训练得到的分词器,将技能词按出现频率统计出来,这个分词器的好处是对新词的发现能力较强,可以识别出比较前沿或冷门的未知领域词。
上述提取出的所有特征,都将作为该简历的检索维度进行后续的持久化操作,并对外提供Ad-HOC查询服务。
根据本公开的实施例,根据从简历中提取的多种类型的用户关联信息,基于目标样本集中的简历文本信息,从目标样本集中获取与简历相匹配的文本。
通过本公开的实施例,由于采用了根据简历中的用户关联信息从目标样本集中获取与简历相匹配的文本,根据与简历相匹配的文本的能力等级确定简历的能力等级的技术手段,而不是直接只根据简历本身中记载的用户关联信息确定用户的能力等级,不仅可以使得分析结果与实际情况相匹配,而且可以客观的反映用户的实际能力,所以至少部分地克服了相关技术中难以有效的对用户能力进行评定的技术问题,进而达到了提高用户能力评定准确性的技术效果。
图7示意性示出了根据本公开另一实施例的文本处理方法的示意图。
如图7所示,文本处理方法包含信息采集、特征提取、能力评定、公信认证(联盟链)等4个方面。每一方面都可以采用上述提供的文本处理方法得以实现。例如,信息采集时可以采集HTML格式的文本,E-Mail、WORD版和PDF版格式的文本。特征提取可以提取不同类型下的特征,如领域词特征、用户基本特征等等。能力评定可以采用上述两种模型分别对简历的能力进行评定之后,再根据两者的评定结果综合评定简历最终的能力等级。公信认证(联盟链)中包括多个企业私有云。根据本公开的实施例,还提供了查询检索服务,通过外部应用查询数据库的方式,获取简历的相关信息。
根据本公开的实施例,还将上述文本处理方法生成集信息采集、特征提取、能力评定、公信认证于一体的人才管理系统,能够获取多渠道、多格式的简历信息,利用NLP技术对简历内容进行关键特征提取,使用机器学习算法评定人才的能力等级和归属领域,并将人才信息存储到去中心化的联盟链系统中,实现分布式、不可篡改的公信认证。使得各大公司所收集的简历信息可以共同存储,可以解决可能出现的同一个人拥有多个不同水平等级的简历文档的情况,可以使得企业级内部管理系统对这种场景的监管和认证功能。
图8示意性示出了根据本公开实施例的文本处理系统的框图。
如图8所示,文本处理系统400包括第一获取模块401、第二获取模块402和第一确定模块403。
第一获取模块401用于获取目标文本,其中,目标文本包括多种类型的用户关联信息,每一种类型的用户关联信息用于描述用户在相应类型下的特征。
第二获取模块402用于根据目标文本中的用户关联信息从目标样本集中获取与目标文本相匹配的文本,其中,目标样本集中包括多个文本,每个文本具有与每个文本中的用户关联信息相匹配的能力等级,能力等级用于评价相应用户的能力。
第一确定模块403用于根据与目标文本相匹配的文本的能力等级确定目标文本的能力等级。
通过本公开的实施例,由于采用了根据目标文本中的用户关联信息从目标样本集中获取与目标文本相匹配的文本,根据与目标文本相匹配的文本的能力等级确定目标文本的能力等级的技术手段,而不是直接只根据目标文本本身中记载的用户关联信息确定用户的能力等级,不仅可以使得分析结果与实际情况相匹配,而且可以客观的反映用户的实际能力,所以至少部分地克服了相关技术中难以有效的对用户能力进行评定的技术问题,进而达到了提高用户能力评定准确性的技术效果。
图9示意性示出了根据本公开另一实施例的文本处理系统的框图。
如图9所示,根据本公开的实施例,文本处理系统400还包括第二确定模块404、第三确定模块405、训练模块406、第四确定模块407和第五确定模块408。
第二确定模块404用于基于目标文本中的用户关联信息与目标样本集中的文本的用户关联信息,采用统计学分类模型确定与目标文本相匹配的第一文本。
第三确定模块405用于根据第一文本的能力等级确定目标文本的第一能力等级。
训练模块406基于目标样本集中的文本的用户关联信息,训练得到深度学习模型。
第四确定模块407用于通过深度学习模型确定目标文本的第二能力等级。
第五确定模块408用于根据第一能力等级和第二能力等级确定目标文本最终的能力等级。
通过本公开的实施例,根据两种不同模型分别确定出的与目标文本相匹配的文本的能力等级,确定目标文本最终的能力等级,可以提高确定的目标文本的等级的准确性,可以更加真实的反映用户的实际能力。
图10示意性示出了根据本公开另一实施例的文本处理系统的框图。
如图10所示,根据本公开的实施例,文本处理系统400还包括存储模块409,用于基于区块链技术存储目标文本的能力等级。
通过本公开的实施例,基于区块链技术的去中心化存储目标文本的能力等级,可以提高信息的安全和隐私,形成高可信的认证机制。
根据本公开的实施例,目标文本包括多个,多个目标文本的文本格式包括一种或多种,多个目标文本是从不同采集渠道分别获取得到的。
通过本公开的实施例,可以支持多渠道和多格式的文本采集。
图11示意性示出了根据本公开另一实施例的文本处理系统的框图。
如图11所示,根据本公开的实施例,目标文本为简历,文本处理系统400还包括提取模块410和第三获取模块411。
提取模块410用于在获取简历之后,从简历中提取多种类型的用户关联信息,其中,多种类型的用户关联信息包括以下至少之一:用户的基本信息特征,工作经历特征,教育经历特征,技能特征。
第三获取模块411用于根据从简历中提取的多种类型的用户关联信息从目标样本集中获取与简历相匹配的文本。
通过本公开的实施例,由于采用了根据简历中的用户关联信息从目标样本集中获取与简历相匹配的文本,根据与简历相匹配的文本的能力等级确定简历的能力等级的技术手段,而不是直接只根据简历本身中记载的用户关联信息确定用户的能力等级,不仅可以使得分析结果与实际情况相匹配,而且可以客观的反映用户的实际能力,所以至少部分地克服了相关技术中难以有效的对用户能力进行评定的技术问题,进而达到了提高用户能力评定准确性的技术效果。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,第一获取模块401、第二获取模块402、第一确定模块403、第二确定模块404、第三确定模块405、训练模块406、第四确定模块407、第五确定模块408、存储模块409、提取模块410和第三获取模块411中的任意多个可以合并在一个模块/单元/子单元中实现,或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者,这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合,并在一个模块/单元/子单元中实现。根据本公开的实施例,第一获取模块401、第二获取模块402、第一确定模块403、第二确定模块404、第三确定模块405、训练模块406、第四确定模块407、第五确定模块408、存储模块409、提取模块410和第三获取模块411中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一获取模块401、第二获取模块402、第一确定模块403、第二确定模块404、第三确定模块405、训练模块406、第四确定模块407、第五确定模块408、存储模块409、提取模块410和第三获取模块411中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
需要说明的是,本公开的实施例中文本处理系统部分与本公开的实施例中文本处理方法部分是相对应的,文本处理系统部分的描述具体参考文本处理方法部分,在此不再赘述。
本公开的另一个方面提供了一种计算机系统,包括一个或多个处理器;存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上所述的文本处理方法。
图12示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机系统的框图。图12示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图12所示,根据本公开实施例的计算机系统500包括处理器501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。处理器501例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器501还可以包括用于缓存用途的板载存储器。处理器501可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 503中,存储有系统500操作所需的各种程序和数据。处理器501、ROM 502以及RAM 503通过总线504彼此相连。处理器501通过执行ROM 502和/或RAM 503中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 502和RAM 503以外的一个或多个存储器中。处理器501也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,系统500还可以包括输入/输出(I/O)接口505,输入/输出(I/O)接口505也连接至总线504。系统500还可以包括连接至I/O接口505的以下部件中的一项或多项:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被处理器501执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、射频信号等等,或者上述的任意合适的组合。
例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 502和/或RAM 503和/或ROM 502和RAM 503以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (12)

1.一种文本处理方法,包括:
获取目标文本,其中,所述目标文本包括多种类型的用户关联信息,每一种类型的用户关联信息用于描述用户在相应类型下的特征;
根据所述目标文本中的用户关联信息从目标样本集中获取与所述目标文本相匹配的文本,其中,所述目标样本集中包括多个文本,每个文本具有与所述每个文本中的用户关联信息相匹配的能力等级,所述能力等级用于评价相应用户的能力;以及
根据与所述目标文本相匹配的文本的能力等级确定所述目标文本的能力等级。
2.根据权利要求1所述的方法,其中,所述方法还包括:
基于所述目标文本中的用户关联信息与所述目标样本集中的文本的用户关联信息,采用统计学分类模型确定与所述目标文本相匹配的第一文本;
根据所述第一文本的能力等级确定所述目标文本的第一能力等级;
基于所述目标样本集中的文本的用户关联信息,训练得到深度学习模型;
通过所述深度学习模型确定所述目标文本的第二能力等级;以及
根据所述第一能力等级和所述第二能力等级确定所述目标文本最终的能力等级。
3.根据权利要求1所述的方法,其中,所述方法还包括:
基于区块链技术存储所述目标文本的能力等级。
4.根据权利要求1所述的方法,其中,所述目标文本包括多个,多个所述目标文本的文本格式包括一种或多种,多个所述目标文本是从不同采集渠道分别获取得到的。
5.根据权利要求1所述的方法,其中,所述目标文本为简历,所述方法还包括:
在获取简历之后,从所述简历中提取多种类型的用户关联信息,其中,所述多种类型的用户关联信息包括以下至少之一:用户的基本信息特征,工作经历特征,教育经历特征,技能特征;以及
根据从所述简历中提取的多种类型的用户关联信息从所述目标样本集中获取与所述简历相匹配的文本。
6.一种文本处理系统,包括:
第一获取模块,用于获取目标文本,其中,所述目标文本包括多种类型的用户关联信息,每一种类型的用户关联信息用于描述用户在相应类型下的特征;
第二获取模块,用于根据所述目标文本中的用户关联信息从目标样本集中获取与所述目标文本相匹配的文本,其中,所述目标样本集中包括多个文本,每个文本具有与所述每个文本中的用户关联信息相匹配的能力等级,所述能力等级用于评价相应用户的能力;以及
第一确定模块,用于根据与所述目标文本相匹配的文本的能力等级确定所述目标文本的能力等级。
7.根据权利要求6所述的系统,其中,所述系统还包括:
第二确定模块,用于基于所述目标文本中的用户关联信息与所述目标样本集中的文本的用户关联信息,采用统计学分类模型确定与所述目标文本相匹配的第一文本;
第三确定模块,用于根据所述第一文本的能力等级确定所述目标文本的第一能力等级;
训练模块,基于所述目标样本集中的文本的用户关联信息,训练得到深度学习模型;
第四确定模块,用于通过所述深度学习模型确定所述目标文本的第二能力等级;
第五确定模块,用于根据所述第一能力等级和所述第二能力等级确定所述目标文本最终的能力等级。
8.根据权利要求6所述的系统,其中,所述系统还包括:
存储模块,用于基于区块链技术存储所述目标文本的能力等级。
9.根据权利要求6所述的系统,其中,所述目标文本包括多个,多个所述目标文本的文本格式包括一种或多种,多个所述目标文本是从不同采集渠道分别获取得到的。
10.根据权利要求6所述的系统,其中,所述目标文本为简历,所述系统还包括:
提取模块,用于在获取简历之后,从所述简历中提取多种类型的用户关联信息,其中,所述多种类型的用户关联信息包括以下至少之一:用户的基本信息特征,工作经历特征,教育经历特征,技能特征;以及
第三获取模块,用于根据从所述简历中提取的多种类型的用户关联信息从所述目标样本集中获取与所述简历相匹配的文本。
11.一种计算机系统,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至5中任一项所述的文本处理方法。
12.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1至5中任一项所述的文本处理方法。
CN201810832221.3A 2018-07-25 2018-07-25 文本处理方法及系统、计算机系统和计算机可读存储介质 Pending CN110851582A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810832221.3A CN110851582A (zh) 2018-07-25 2018-07-25 文本处理方法及系统、计算机系统和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810832221.3A CN110851582A (zh) 2018-07-25 2018-07-25 文本处理方法及系统、计算机系统和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110851582A true CN110851582A (zh) 2020-02-28

Family

ID=69595359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810832221.3A Pending CN110851582A (zh) 2018-07-25 2018-07-25 文本处理方法及系统、计算机系统和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110851582A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688604A (zh) * 2020-05-18 2021-11-23 北京沃东天骏信息技术有限公司 文本生成方法、装置、电子设备和介质
CN113779018A (zh) * 2020-08-03 2021-12-10 北京沃东天骏信息技术有限公司 一种数据处理方法和装置
CN113837627A (zh) * 2021-09-28 2021-12-24 卡斯柯信号有限公司 一种基于文本处理的职称评审平台及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278633A1 (en) * 2013-03-12 2014-09-18 Kevin M. Daly Skill-based candidate matching
CN105787639A (zh) * 2016-02-03 2016-07-20 北京云太科技有限公司 基于人工智能的人才大数据量化精确匹配方法和装置
CN106682871A (zh) * 2016-12-14 2017-05-17 北京五八信息技术有限公司 确定简历级别的方法及装置
CN108133357A (zh) * 2017-12-22 2018-06-08 北京拉勾科技有限公司 一种人才推荐方法及计算设备
CN108256022A (zh) * 2018-01-10 2018-07-06 广东轩辕网络科技股份有限公司 人才评价模型构建方法及人才评价方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278633A1 (en) * 2013-03-12 2014-09-18 Kevin M. Daly Skill-based candidate matching
CN105787639A (zh) * 2016-02-03 2016-07-20 北京云太科技有限公司 基于人工智能的人才大数据量化精确匹配方法和装置
CN106682871A (zh) * 2016-12-14 2017-05-17 北京五八信息技术有限公司 确定简历级别的方法及装置
CN108133357A (zh) * 2017-12-22 2018-06-08 北京拉勾科技有限公司 一种人才推荐方法及计算设备
CN108256022A (zh) * 2018-01-10 2018-07-06 广东轩辕网络科技股份有限公司 人才评价模型构建方法及人才评价方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈金花: "具有决策支持功能的人力资源管理系统设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688604A (zh) * 2020-05-18 2021-11-23 北京沃东天骏信息技术有限公司 文本生成方法、装置、电子设备和介质
CN113688604B (zh) * 2020-05-18 2024-04-16 北京沃东天骏信息技术有限公司 文本生成方法、装置、电子设备和介质
CN113779018A (zh) * 2020-08-03 2021-12-10 北京沃东天骏信息技术有限公司 一种数据处理方法和装置
CN113837627A (zh) * 2021-09-28 2021-12-24 卡斯柯信号有限公司 一种基于文本处理的职称评审平台及方法
CN113837627B (zh) * 2021-09-28 2024-03-15 卡斯柯信号有限公司 一种基于文本处理的职称评审平台及方法

Similar Documents

Publication Publication Date Title
CN109145280B (zh) 信息推送的方法和装置
US11716401B2 (en) Systems and methods for content audience analysis via encoded links
US11947619B2 (en) Systems and methods for benchmarking online activity via encoded links
US20190005127A1 (en) Categorizing Users Based on Similarity of Posed Questions, Answers and Supporting Evidence
US20200153917A1 (en) Systems and methods for analyzing traffic across multiple media channels via encoded links
US9720904B2 (en) Generating training data for disambiguation
US20080059447A1 (en) System, method and computer program product for ranking profiles
US9710437B2 (en) Group tagging of documents
US20160164812A1 (en) Detection of false message in social media
AU2014400621B2 (en) System and method for providing contextual analytics data
US10742755B2 (en) Systems and methods for online activity monitoring via cookies
CN107977678B (zh) 用于输出信息的方法和装置
US20180101617A1 (en) Ranking Search Results using Machine Learning Based Models
CN107808346B (zh) 一种潜在目标对象的评估方法及评估装置
CN110798567A (zh) 短信分类显示方法及装置、存储介质、电子设备
US20180004855A1 (en) Web link quality analysis and prediction in social networks
CN110851582A (zh) 文本处理方法及系统、计算机系统和计算机可读存储介质
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
CN110059172B (zh) 基于自然语言理解的推荐答案的方法和装置
US9753998B2 (en) Presenting a trusted tag cloud
CN107885872B (zh) 用于生成信息的方法和装置
Žunić et al. Application of Big Data and text mining methods and technologies in modern business analyzing social networks data about traffic tracking
US20230004616A1 (en) System and Method for Ethical Collection of Data
CN112085566B (zh) 基于智能决策的产品推荐方法、装置及计算机设备
US9672537B1 (en) Dynamic content control in an information processing system based on cultural characteristics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination