CN112966068A

CN112966068A - 基于网页信息的简历识别方法和装置

Info

Publication number: CN112966068A
Application number: CN202011237984.7A
Authority: CN
Inventors: 徐震宇; 马军峰; 张雅婷; 蔡如昕
Original assignee: Panming Technology Guangdong Co ltd
Current assignee: Panming Technology Guangdong Co ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-06-15

Abstract

本发明涉及一种基于网页信息的简历识别方法、装置、计算机设备和存储介质，上述基于网页信息的简历识别方法通过从网页界面提取网页文本信息，识别各个网页文本信息的命名体，得到各个网页文本信息分别对应的一组命名体，采用jieba分词器根据各组命名体对各个网页文本信息进行中文分词，得到各个网页文本信息分别对应的一组单元词，根据各组单元词确定各个网页文本信息的一组特征值，将各组特征值输入预先训练的文本分类模型，将各个网页文本信息划分为简历数据和非简历数据，以实现对网页界面中简历数据的准确识别，可以提高识别准确率。

Description

基于网页信息的简历识别方法和装置

技术领域

本申请涉及数据处理技术领域，特别是涉及一种基于网页信息的简历识别方法、装置、计算机设备和存储介质。

背景技术

在相关招聘网页平台，简历往往以网页的形式存在，从大量网页中抽取简历信息是获得简历信息的重要途径。传统的方法大部分都是将大量的网页信息进行关键词的字符串的匹配，对很多人名的识别效果也不佳，导致分类识别效果低下。而且由于是对简历网页数据的识别分类，所以在命名体识别上尤为关键。

命名实体识别(Named Entity Recognition,NER)的主要任务是识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语并加以归类。命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。从语言分析的全过程来看,命名实体识别属于词法分析中未登录词识别的范畴。命名实体是未登录词中数量最多、识别难度最大、对分词效果影响最大的问题。根据、数据评测结果,未登录词造成的分词精度失落至少比歧义大5倍以上,可见命名实体地位的重要性。

国外对于英文命名实体识别的研究开始比较早，英文命名实体的识别中只需考虑词本身的特征而不涉及分词问题,因此实现难度相对较低。根据相关评测结果,测试的准确率、召回率、F1值目前大多可以达到90％左右。中文内在的特殊性决定了在文本处理时首先必须进行词法分析,中文命名实体识别的难度要比英文的难度大。

命名实体是命名实体识别的研究主体,一般包括3大类(实体类、时间类和数字类)和7小类(人名、地名、机构名、时间、日期、货币和百分比)命名实体。实际研究中,命名实体的确切含义需要根据具体应用来确定,比如,可能需要把产品名称、旅游景点名称等作为命名实体。在面向生物命名实体信息提取时,还包括蛋白质、基因、核糖核酸、脱氧核糖核酸、细胞等特殊生物实体。由于数量、时间、日期、货币等实体识别通常可以采用模式匹配的方式获得较好的识别效果,相比之下人名、地名、机构名较复杂,因此近年来的研究主要以这几种实体为主。同时生物领域的实体识别也比较活跃。这些实体中以机构名和生物实体识别难度最大,普遍存在嵌套和缩写的识别问题。从研究的发展趋势上看,由原来的单独针对人名、地名等进行识别发展到开始采用统一的方法同时进行各类中文命名实体的识别,而且识别效果也得到了提高。这种方法虽然考虑了人名、地名和机构名的共同特点，在一定程度解决多种命名实体间的歧义问题。但是，它不能充分分析不同命名实体间的差异性，制约了整体的识别性能。主体所属的领域，包括新闻、生物医学等领域都有相关研究表明命名实体识别呈现弱领域相关性。不同领域具有类似特点，但是从某个领域移植到一个新领域，通常会遇到严重的性能下降问题，主要原因在于命名实体的标记定义不同、不同领域有着不同的形态语法特点。评判一个命名实体是否被正确识别包括两个方面:实体的边界是否正确；；实体的类型是否标注正确。主要错误类型包括文本正确，类型可能错误；反之，文本边界错误，而其包含的主要实体词和词类标记可能正确。

英语中的命名实体具有比较明显的形态标志，如人名、地名等实体中的每个词的第一个字母要大写等，所以实体边界识别相对汉语来说比较容易,任务的重点是确定实体的类型。和英语相比,汉语命名实体识别任务更加复杂,由于分词等因素的影响难度较大,其难点主要表现在如下几个方面:(1)命名实体类型多样,数量众多,不断有新的命名实体涌现,如新的人名、地名等,难以建立大而全的姓氏库、名字库、地址库等数据库。(2)命名实体构成结构比较复杂,并且某些类型的命名实体词的长度没有一定的限制,不同的实体有不同的结构,比如组织名存在大量的嵌套、别名、缩略词等问题,没有严格的规律可以遵循；人名中也存在比较长的少数民族人名或翻译过来的外国人名,没有统一的构词规范。因此,对这类命名实体识别的召回率相对偏低。(3)在不同领域、场景下,命名实体的外延有差异,存在分类模糊的问题。不同命名实体之间界限不清晰,人名也经常出现在地名和组织名称中,存在大量的交叉和互相包含现象,而且部分命名实体常常容易与普通词混淆,影响识别效率。在个体户等商户中,组织名称中也存在大量的人名、地名、数字的现象,要正确标注这些命名实体类型,常常要涉及上下文语义层面的分析,这些都给命名实体的识别带来困难。

文本分类是自然语言处理任务中的一项基础性工作，其目的是对文本资源进行整理和归类，同时其也是解决文本信息过载问题的关键环节。早在上个世纪中叶，有关文本信息处理的研究开始走进人们的视野。词匹配法是最早被提出的分类算法，这种方法仅根据文档中是否出现了与类名相同或相近的词来判断文档是否属于某个类别。很显然，这种过于简单机械的方法无法带来良好的分类效果。20世纪70年代，Salton等人提出了向量空间模型。在后来一段时间内，知识工程成为文本分类的主要技术。然而这种技术高度依赖专业人员的帮助，需要为每个类别定义大量的推理规则和模板，造成了人力、物力的大量浪费。直至上个世纪90年代，基于统计和机器学习的文本分类方法逐渐兴起。通过机器从文档中挖掘出一些能够有效分类的规则，训练得到分类器，成为目前的主流方法。迄今为止，经过数十年的演变，文本分类已经初步形成了相对完整的理论体系。

现在文本分类也面临着挑战。数据标注瓶颈就是其中之一。数据和算法是推动人工智能向前发展的主要动力。高质量的标记数据有助于提升文本分类的准确率。然而，网络上存在大量杂乱无章的无标签数据，依赖人工标注的成本高，效率低。无监督数据的特征学习和半监督学习自动标注过程中的噪音剔除是当前的研究热点和难点。

上述相关技术发展的现状便容易使从大量网页中识别简历数据的准确率低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高简历数据识别准确率的基于网页信息的简历识别方法、装置、计算机设备和存储介质。

一种基于网页信息的简历识别方法，所述方法包括：

从网页界面提取网页文本信息，识别各个网页文本信息的命名体，得到各个网页文本信息分别对应的一组命名体；

采用jieba分词器根据各组命名体对各个网页文本信息进行中文分词，得到各个网页文本信息分别对应的一组单元词；

根据各组单元词确定各个网页文本信息的一组特征值；

将各组特征值输入预先训练的文本分类模型，将各个网页文本信息划分为简历数据和非简历数据；其中，所述文本分类模型为用于划分简历数据和非简历数据的二分类模型。

在其中一个实施例中，所述识别各个网页文本信息的命名体包括：

采用bert提取词向量提取各个网页文本信息分别对应的一组词；

采用BiLSTM网络识别各组词中各个词之间的关系；

采用CRF概率模型根据各组词中各个词之间的关系确定各组词的各个命名体。

在其中一个实施例中，所述采用jieba分词器根据各组命名体对各个网页文本信息进行中文分词，得到各个网页文本信息分别对应的一组单元词包括：

根据各组命名体生成各个trie树，并将每个单元词的出现次数转换为词频率，得到各个trie树中各个词的词频率；

根据各个trie树和各个trie树中各个词的词频率生成有向无环图，读取有向无环图的各个词，依次得到各个网页文本信息分别对应的一组单元词。

在其中一个实施例中，所述根据各组单元词确定各个网页文本信息的一组特征值包括：

采用TF-IDF指数计算各组单元词中各个词的词权重；

采用N-Gram模型根据各个词的词权重计算各个单元词的特征值，得到一组特征值。

在其中一个实施例中，所述文本分类模型的训练过程包括：

构建训练集和测试集；所述训练集包括多个训练样本，所述训练样本为标注简历数据或者非简历数据的网页界面；所述测试集包括多个测试样本，所述测试样本为标注简历数据或者非简历数据的网页界面；

获取训练集中各个训练样本的特征值，得到各个训练特征值，获取测试集中各个测试样本的特征值，得到各个测试特征值；

将各个训练特征值和各个训练特征值对应的标注信息输入支持向量机进行训练，得到初始分类模型；

将各个测试特征值输入初始分类模型，在所述初始分类模型针对各个测试特征值分类得到的结果与各个测试特征值对应的标注信息一致时，根据初始分类模型当前的模型参数确定文本分类模型。

具体地，所述获取训练集中各个训练样本的特征值，得到各个训练特征值包括：

识别各个训练样本的命名体，得到各组训练命名体；

采用jieba分词器根据各组训练命名体对各个训练样本进行中文分词，得到各个训练样本分别对应的一组训练词；

根据各组训练词确定各个训练样本的特征值，得到各个训练特征值。

具体地，所述获取测试集中各个测试样本的特征值，得到各个测试特征值包括：

识别各个测试样本的命名体，得到各组测试命名体；

采用jieba分词器根据各组测试命名体对各个测试样本进行中文分词，得到各个测试样本分别对应的一组测试词；

根据各组测试词确定各个测试样本的特征值，得到各个测试特征值。

一种基于网页信息的简历识别装置，所述装置包括：

提取模块，用于从网页界面提取网页文本信息，识别各个网页文本信息的命名体，得到各个网页文本信息分别对应的一组命名体；

分词模块，用于采用jieba分词器根据各组命名体对各个网页文本信息进行中文分词，得到各个网页文本信息分别对应的一组单元词；

确定模块，用于根据各组单元词确定各个网页文本信息的一组特征值；

划分模块，用于将各组特征值输入预先训练的文本分类模型，将各个网页文本信息划分为简历数据和非简历数据；其中，所述文本分类模型为用于划分简历数据和非简历数据的二分类模型。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述的基于网页信息的简历识别方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的基于网页信息的简历识别方法。

上述基于网页信息的简历识别方法、装置、计算机设备和存储介质，通过从网页界面提取网页文本信息，识别各个网页文本信息的命名体，得到各个网页文本信息分别对应的一组命名体，采用jieba分词器根据各组命名体对各个网页文本信息进行中文分词，得到各个网页文本信息分别对应的一组单元词，根据各组单元词确定各个网页文本信息的一组特征值，将各组特征值输入预先训练的文本分类模型，将各个网页文本信息划分为简历数据和非简历数据，以实现对网页界面中简历数据的准确识别，可以提高识别准确率。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：

图1是一个实施例中基于网页信息的简历识别方法的流程示意图；

图2是一个实施例中bert提取词向量的模型示意图；

图3是一个实施例中LSTM总体框架示意图；

图4是一个实施例中BILSTM的句子编码过程示意图；

图5是一个实施例中支持向量机的最优分类界面示意图；

图6为一个实施例中基于网页信息的简历识别装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

下面结合附图来详细描述本公开的具体实施方式。

在一个实施例中，如图1所示，提供了一种基于网页信息的简历识别方法，包括以下步骤：

S10，从网页界面提取网页文本信息，识别各个网页文本信息的命名体，得到各个网页文本信息分别对应的一组命名体。

具体地，网页文本信息中往往包含很多人名，地名，机构名。如何在这些信息中识别这些数据成为关键。上述步骤可以采用bert+BILSTM+CRF的命名体识别方法。bert是谷歌开源的语言模型，在2018年底在NLP领域横扫了11项任务的最优结果，将其在中文命名实体识别中Fine-tune必然成为趋势。它主要是使用bert模型替换了原来网络的word2vec部分，从而构成Embedding层，同样使用双向LSTM层以及最后的CRF层来完成相应序列预测。对比其他的传统命名体识别方法，采用该技术的文本的命名体识别方法，能够更为准确且快速的识别出人名，地名等网页简历信息中的关键信息。

S20，采用jieba分词器根据各组命名体对各个网页文本信息进行中文分词，得到各个网页文本信息分别对应的一组单元词。

具体地，在得到专有的人名、地名等命名体实体后，要将所有的网页信息做中文分词才能更好的分析这些数据，上述步骤可以采用开源工具jieba分词结合上一步的命名体实体来进行分词。

S30，根据各组单元词确定各个网页文本信息的一组特征值。

具体地，有了分词数据后要将所有数据提取特征值，也就是降维转化为能够被计算机准确处理识别的信息。上述步骤可以采用TF-IDF结合N-gram的方法进行所需特征值的提取。

S40，将各组特征值输入预先训练的文本分类模型，将各个网页文本信息划分为简历数据和非简历数据；其中，所述文本分类模型为用于划分简历数据和非简历数据的二分类模型。

上述二分类模型可以为支持向量机，运用支持向量机做网页简历分类，这类二分类问题，结构简单，快捷好用。

上述基于网页信息的简历识别方法、装置、计算机设备和存储介质，通过从网页界面提取网页文本信息，识别各个网页文本信息的命名体，得到各个网页文本信息分别对应的一组命名体，采用jieba分词器根据各组命名体对各个网页文本信息进行中文分词，得到各个网页文本信息分别对应的一组单元词，根据各组单元词确定各个网页文本信息的一组特征值，将各组特征值输入预先训练的文本分类模型，将各个网页文本信息划分为简历数据和非简历数据，以实现对网页界面中简历数据的准确识别，可以提高识别准确率和识别效率。

在一个实施例中，所述识别各个网页文本信息的命名体包括：

采用BiLSTM网络识别各组词中各个词之间的关系；

具体地，上述bert提取词向量是基于Transformer的双向语言模型。同样，BERT采用Fine-Tuning，Approaches”预训练模式，分两个阶段：第一阶段采用双层双向Transformer模型通过MLM和NSP两种策略进行预训练；第二阶段采用Fine-Tuning的模式应用到下游任务。其中Transformer，这一特征提取器，由Nx个完全一样的layer组成，每个layer有2个sub-layer，分别是：Multi-Head，Self-Attention机制、Position-Wise全连接前向神经网络。对于每个sub-layer，都添加了2个操作：残差连接Residual，Connection和归一化Normalization，用公式来表示sub-layer的输出结果就是LayerNorm(x+Sublayer(x))。对于语言模型，为了模型能够更加准确地判断，需要对输入的文本提取出关键且重要的信息。对输入文本的每个单词赋予不同的权重，携带关键重要信息的单词偏向性地赋予更高的权重。抽象来说，即是：对于输入Input，有相应的向量query和key-value对，通过计算query和key关系的function，赋予每个value不同的权重，最终得到一个正确的向量输出Output。在Transformer编码器里，应用了两个Attention单元：Scaled，Dot-Product，Attention和Multi-Head，Attention。其中Self-Attention机制是在该单元实现的。对于输入Input，通过线性变换得到Q、K、V，然后将Q和K通过Dot-Product相乘计算，得到输入Input中词与词之间的依赖关系，再通过尺度变换Scale、掩码Mask和Softmax操作，得到Self-Attention矩阵，最后跟V进行Dot-Product相乘计算。Multi-Head，Attention通过h个不同线性变换，将d_model维的Q、K、V分别映射成d_k、d_k、d_v维，并行应用Self-Attention机制，得到h个d_v维的输出，进行拼接计算Concat、线性变换Linear操作。在一个示例中bert提取词向量对应的模型可以参考图2所示。

具体地，BiLSTM是Bi-directional Long，Short-Term，Memory的缩写，是由前向LSTM与后向LSTM组合而成。LSTM(长短期神经网络)，属于RNN(循环神经网络)的一种。参考图3所示，LSTM模型是由t时刻的输入词X_t，细胞状态C_t，临时细胞状态C％_t，隐层状态h_t，遗忘门f_t，记忆门i_t，输出门o_t组成。LSTM的计算过程可以概括为，通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递，而无用的信息被丢弃，并在每个时间步都会输出隐层状态h_t，其中遗忘，记忆与输出由通过上个时刻的隐层状态h_t-1和当前输入X_t计算出来的遗忘门f_t，记忆门i_t，输出门o_t来控制。前向的LSTM与后向的LSTM结合成BILSTM，可以对相应句子进行编码。在一个示例中，BILSTM对“我爱中国”这句话进行编码的过程可以参考图4所示。

具体地，CRF(conditional，random，fields，条件随机域场)是一种判别式概率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。条件随机场是条件概率分布模型，P(Y|X)表示的是给定一组输入随机变量X的条件下另一组输出随机变量，Y的马尔可夫随机场，也就是说，CRF的特点是假设输出随机变量构成马尔可夫随机场。条件随机场可被看作是最大熵马尔可夫模型在标注问题上的推广。如同马尔可夫随机场，条件随机场为具有无向的图模型，图中的顶点代表随机变量，顶点间的连线代表随机变量间的相依关系，在条件随机场中，随机变量Y的分布为条件机率，给定的观察值则为随机变量X。原则上，条件随机场的图模型布局是可以任意给定的，一般常用的布局是链结式的架构，链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上，都存在效率较高的算法可供演算。条件随机场是一个典型的判别式模型，其联合概率可以写成若干势函数联乘的形式，其中最常用的是线性链条件随机场。

在一个实施例中，所述采用jieba分词器根据各组命名体对各个网页文本信息进行中文分词，得到各个网页文本信息分别对应的一组单元词包括：

具体地，jieba分词基本的过程为：基于Trie树(字典树)结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)。根据字典文件生成trie树。字典在生成trie树的同时,也把每个词的出现次数转换为了频率；对待分词句子,根据字典文件生成的trie树,生成DAG,实际上通俗的说,就是对待分词句子,根据给定的词典进行查词典操作,生成几种可能的句子切分。jieba在DAG中记录的是句子中某个词的开始位置,从0到n-1(n为句子的长度),每个开始位置作为字典的键,value是个list,其中保存了可能的词语的结束位置(通过查字典得到词,开始位置+词语的长度得到结束位置)。采用了动态规划查找最大概率路径,找出基于词频的最大切分组合。查找待分词句子中已经切分好的词语,对该词语查找该词语出现的频率(次数/总数),如果没有该词,就把词典中出现频率最小的那个词语的频率作为该词的频率,也就是说P(某词语)＝FREQ.get(‘某词语’,min_freq)。根据动态规划查找最大概率路径的方法,对句子从右往左反向计算最大概率,P(NodeN)＝1.0,P(NodeN-1)＝P(NodeN)*Max(P(倒数第一个词))…依次类推,最后得到最大概率路径,得到最大概率的切分组合。

在一个实施例中，所述根据各组单元词确定各个网页文本信息的一组特征值包括：

采用TF-IDF指数计算各组单元词中各个词的词权重；

具体地，TF-IDF(Term，Frequency-Inverse，Document，Frequency,词频-逆文件频率)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。词频，(term，frequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数)，以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。)但是,需要注意,一些通用的词语对于主题并没有太大的作用,，反倒是一些出现频率较少的词才能够表达文章的主题，所以单纯使用是TF不合适的。权重的设计必须满足：一个词预测主题的能力越强，权重越大，反之，权重越小。所有统计的方案中，一些词只是在其中很少几篇文章中出现，那么这样的词对文章的主题的作用很大，这些词的权重应该设计的较大。IDF就是在完成这样的工作。

N-Gram模型是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。该模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

在一个实施例中，所述文本分类模型的训练过程包括：

上述获取训练集中各个训练样本的特征值，得到各个训练特征值，获取测试集中各个测试样本的特征值，得到各个测试特征值与前述实施例中获取各个网页文本信息的特征值的过程一致。

识别各个训练样本的命名体，得到各组训练命名体；

识别各个测试样本的命名体，得到各组测试命名体；

本实施例将划分为简历数据和非简历数据这个问题作为一个分类问题处理，而由于只要判断是否为简历数据信息，所以是个较为典型的二分类问题，采用SVM(支持向量机)算法进行处理。

支持向量机(support，vector，machines，SVM)是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；SVM还包括核技巧，这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。SVM学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。所以在自然语言处理处理中能够很好的处理二分类问题。支持向量机由Vapnik提出，通过控制超平面的间隔度量和核技巧能够解决线性和非线性分类问题。最大间隔分类器是支持向量机的一种，是通过在特征空间找到一个超平面将不同类别分割开，因此最大间隔分类器只能适用于线性可分的二分类问题。最大间隔分类器需要在保证2类样本无错误的分开的同时，使得2个类别的分类间隔最大，如图5所示，在超平面H1、H、H2都能将2个类别分割开的同时，H具有最大边界，为支持向量机寻找的超平面。

参考图5所示，对于上述二分类问题，可以用数学形式表示：对于样本集合(x1，y1)，(x2，y2)，…(xm，ym)，x∈Rn，y∈{-1，+1}，支持向量机寻找一个最优超平面，使得分类间隔最大，在上图中H1、H2为2类分类样本离分类线最近且平行于分类线的直线，这2条线之间的距离称之为分类间隔。设分类方程为x·w+b＝0，y∈{-1，+1}，yi[(w·xi+b)]>0，i＝1，2，3…，m，则分类间隔是2/||w||，使分类间隔最大等价于||w||最小，满足上述约m束条件，并且使得||w||最小的分类线就是最优分类线。这样就可以完成二分类问题，对于多分类问题，可以采用one vs rest的方式训练多个二分类器达到多分类的效果。对于文本分类任务，将文档建模后，将数据放入模型中，训练即可得到模型，达到文本分类的目的。

上述基于网页信息的简历识别方法具有如下有益效果：

(1)对比其他的传统命名体识别方法，采用该技术的文本的命名体识别方法，能够更为准确且快速的识别出人名，地名等网页简历信息中的关键信息。

(2)对比其他的分类方法，运用支持向量机做网页简历分类，这类二分类问题，结构简单，快捷好用。

在一个实施例中，如图6所示，提供了一种基于网页信息的简历识别装置，包括：

提取模块10，用于从网页界面提取网页文本信息，识别各个网页文本信息的命名体，得到各个网页文本信息分别对应的一组命名体；

分词模块20，用于采用jieba分词器根据各组命名体对各个网页文本信息进行中文分词，得到各个网页文本信息分别对应的一组单元词；

确定模块30，用于根据各组单元词确定各个网页文本信息的一组特征值；

划分模块40，用于将各组特征值输入预先训练的文本分类模型，将各个网页文本信息划分为简历数据和非简历数据；其中，所述文本分类模型为用于划分简历数据和非简历数据的二分类模型。

关于基于网页信息的简历识别装置的具体限定可以参见上文中对于基于网页信息的简历识别方法的限定，在此不再赘述。上述基于网页信息的简历识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于网页信息的简历识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述的基于网页信息的简历识别方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的基于网页信息的简历识别方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

在本说明书的上述描述中，除非另有明确的规定和限定，术语“固定”、“安装”、“相连”或“连接”等术语应该做广义的理解。例如，就术语“连接”来说，其可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，或者可以是两个元件内部的连通或两个元件的相互作用关系。因此，除非本说明书另有明确的限定，本领域技术人员可以根据具体情况理解上述术语在本发明中的具体含义。

根据本说明书的上述描述，本领域技术人员还可以理解如下使用的术语，例如“上”、“下”、“前”、“后”、“左”、“右”、“长度”、“宽度”、“厚度”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“轴向”、“径向”、“周向”、“中心”、“纵向”、“横向”、“顺时针”或“逆时针”等指示方位或位置关系的术语是基于本说明书的附图所示的方位或位置关系的，其仅是为了便于阐述本发明的方案和简化描述的目的，而不是明示或暗示所涉及的装置或元件必须要具有所述特定的方位、以特定的方位来构造和进行操作，因此上述的方位或位置关系术语不能被理解或解释为对本发明方案的限制。

另外，本说明书中所使用的术语“第一”或“第二”等用于指代编号或序数的术语仅用于描述目的，而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”或“第二”的特征可以明示或者隐含地包括至少一个该特征。在本说明书的描述中，“多个”的含义是至少两个，例如两个，三个或更多个等，除非另有明确具体的限定。

虽然本说明书已经示出和描述了本发明的多个实施例，但对于本领域技术人员显而易见的是，这样的实施例只是以示例的方式提供的。本领域技术人员会在不偏离本发明思想和精神的情况下想到许多更改、改变和替代的方式。应当理解的是在实践本发明的过程中，可以采用对本文所描述的本发明实施例的各种替代方案。所附权利要求书旨在限定本发明的保护范围，并因此覆盖这些权利要求范围内的模块组成、等同或替代方案。

Claims

1.一种基于网页信息的简历识别方法，其特征在于，包括：

根据各组单元词确定各个网页文本信息的一组特征值；

2.根据权利要求1所述的方法，其特征在于，所述识别各个网页文本信息的命名体包括：

采用BiLSTM网络识别各组词中各个词之间的关系；

3.根据权利要求1所述的方法，其特征在于，所述采用jieba分词器根据各组命名体对各个网页文本信息进行中文分词，得到各个网页文本信息分别对应的一组单元词包括：

4.根据权利要求1所述的方法，其特征在于，所述根据各组单元词确定各个网页文本信息的一组特征值包括：

采用TF-IDF指数计算各组单元词中各个词的词权重；

5.根据权利要求1所述的方法，其特征在于，所述文本分类模型的训练过程包括：

6.根据权利要求5所述的方法，其特征在于，所述获取训练集中各个训练样本的特征值，得到各个训练特征值包括：

识别各个训练样本的命名体，得到各组训练命名体；

7.根据权利要求5所述的方法，其特征在于，所述获取测试集中各个测试样本的特征值，得到各个测试特征值包括：

识别各个测试样本的命名体，得到各组测试命名体；

8.一种基于网页信息的简历识别装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的基于网页信息的简历识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于网页信息的简历识别方法。