CN105912570A

CN105912570A - 基于隐马尔可夫模型的英文简历关键字段抽取方法

Info

Publication number: CN105912570A
Application number: CN201610189293.1A
Authority: CN
Inventors: 李玉鑑; 彭蔚
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2016-03-29
Filing date: 2016-03-29
Publication date: 2016-08-31
Anticipated expiration: 2036-03-29
Also published as: CN105912570B

Abstract

本发明公开了基于隐马尔可夫模型的英文简历关键字段抽取方法，包括：收集英文简历，将收集的英文简历分为训练样本和测试样本；预处理训练样本，并对简历文本序列做隐含状态标记；获取字符字典；计算出隐马尔可夫模型参数初值；使用Baum‑Welch算法对隐马尔可夫模型参数重估，得到一个训练过的隐马尔可夫模型；预处理测试样本；根根据训练过的隐马尔可夫模型，使用维特比算法将测试样本简历标记出最大概率的隐含状态序列。本发明使用隐马尔可夫模型的维特比算法，不仅适应性好、抽取精度较高，而且不需大规模的词典集与规则集，具有很强的实用性。

Description

基于隐马尔可夫模型的英文简历关键字段抽取方法

技术领域

本发明属于电子信息技术领域，涉及一种基于隐马尔可夫模型的英文简历关键字段抽取方法。

背景技术

文本信息抽取，是模式识别和人工智能中的一个重要课题，它是指从自然语言文本中抽取指定类型的实体关系，事件等事实信息并形成结构化数据输出的文本处理技术。这种抽取不仅仅是简单的信息检索，除了利用统计及关键词匹配技术外，还要利用自然语言分析技术对文本中的句子及篇章进行分类、归纳、分析，最后形成格式化的信息。

在日常生活中，简历是一类常见文本。从功能上看，简历是其作者介绍自己，推销自己，最终达到有效沟通的重要手段；从行文结构上看，它是一种半结构化文本。该类文本应用广泛、数目众多，因此，高效、准确的实现其信息抽取成为一个迫切的需求。

目前文本信息抽取模型主要有3种：基于词典的抽取模型，基于规则的抽取模型和基于隐马尔可夫模型的抽取模型。利用隐马尔可夫模型进行文本信息抽取是一种基于统计机器学习的信息抽取方法。隐马尔可夫模型易于建立，不需大规模的词典集与规则集，适应性好，抽取精度较高，因而得到研究者的关注。

发明内容

针对上述基于隐马尔可夫模型的文本信息抽取中存在的容易建立、适应性好、抽取精度较高等优点，本发明提出了一种根据隐马尔可夫模型的英文简历关键字段抽取方法。

本发明的基本原理：本发明将英文简历文本信息作为训练样本，对于每个可观察到的输入字符都有一个隐含的状态，隐含状态共有三种(关键字、非关键字、标点符号)，经过处理、标记、学习得到隐马尔可夫模型，然后采用隐马尔可夫模型的维特比算法，将待抽取的英文简历标记出最大概率的隐含状态序列。

一种基于隐马尔可夫模型的英文简历关键字段抽取方法，其特征在于包括以下步骤：

步骤一，收集英文简历，将收集的英文简历分为训练样本和测试样本；

步骤二，预处理训练样本，并对简历文本序列做隐含状态标记，方法如下：

首先，将无结构的训练样本进行编号处理，并统一转换成html格式；其次，统一编码格式为UTF-8以解决中文符号乱码问题；再次，使用正则表达式将无结构的样本处理成结构化的文本，在此过程中删除训练样本中乱码、用单个空格替换回车符、多个空格，并在每个英文单词后标记非关键字隐含状态符号：N，在标点符号后标记标点隐含状态符号T；最后，手动修改简历中关键字后的隐含状态符号，修改为Y；因此，所有样本的都已经格式化，每个单词后都有隐含状态符号，并以单个空格隔开；

步骤三，从训练样本中获取字符字典，方法如下：

对于步骤二得到的训练样本，将单个样本按空格切分后存入到字符数组中，其中数组下标为奇数的存放的是简历的字符，下标为偶数的存放的是隐含状态符号；在此获取字符数组下标为奇数的简历字符，存入Hashmap中；递归处理所有训练样本，可以得到一个字符字典；

步骤四，计算出隐马尔可夫模型参数初值；

通过训练样本计算隐马尔可夫模型参数初值λ＝(N,M,A,B,П)，隐马尔可夫模型包括N个不同的隐含状态，在系统中对应的是简历字符的隐含状态,隐含状态共有3种(Y：关键字，N：非关键字，T：标点符号)；M个不同的观察符号，在系统中对应的是简历中所有的字符集合，通过将训练样本经过步骤三的处理，可以得到所有简历中出现的字符，并形成一个字符字典；因为N和M已知，所以隐马尔可夫模型可记为一个三元组λ＝(A,B,П)，各参数在系统中的详细解释及计算方法如下：

П＝{π_i}是初始状态概率分布，在本方法中指简历中第一个字符的隐含状态分别是关键字、非关键字、标点符号的概率，通过遍历所有训练样本第一个字符的隐含状态，将隐含状态出现的次数存放到一个长度为3的一维数组中，最后分别将数组各位值除以数组总和可求得初始状态概率分布；

A＝{a_ij}是状态转移概率矩阵，在本方法中指简历中当前字符的隐含状态是i，下一个字符的隐含状态为j的概率；因为本方法只有三种隐含状态，所以A是一个三阶矩阵，可以用一个3×3的数组来存储，其中数组下标0、1、2分别表示字符的隐含状态是关键字、非关键字、标点符号，所以经过遍历所有训练样本，将隐含状态转移数量统计存入3×3的数组后，分别将数组的每个值除以当前值所处行的值的总和，得到状态转移概率矩阵；

B＝{b_j(o_t)}是观察值概率分布，在本方法中指简历中每个字符的隐含状态分别是关键字、非关键字、标点符号的概率；遍历所有训练样本，分别统计出字符的隐含状态是关键字、非关键字、标点符号的总数，再将每个字符隐含状态是关键字、非关键字、标点符号的数量存入Hashmap统计出来，再将每个字符的隐含状态出现次数除以该隐含状态在训练样本出现的总数得到观察值概率分布；

步骤五，使用Baum-Welch算法对隐马尔可夫模型参数重估，得到一个训练过的隐马尔可夫模型。

参数重估过程是已知观察序列，如何不断修正模型参数λ＝{π,A,B}，使得模型λ产生观察序列O的概率p(O|λ)最大。在本方法中，将所有训练简历以及测试简历中的原始文字看作观察序列集合，Baum-Welch算法对模型参数进行重估，得到一个新的Baum-Welch算法在理论上可以保证概率

步骤六，预处理测试样本；

将测试样本统一转换成html格式、统一编码格式为UTF-8以解决中文符号乱码问题；再次，使用正则表达式将无结构化的样本删除乱码、用单个空格替换回车符、多个空格；

步骤七，根据训练过的隐马尔可夫模型，使用维特比算法将测试样本简历标记出最大概率的隐含状态序列；

维特比变量δ_t(j)在本方法中指简历隐含状态序列的最大概率值，递推公式：

δ_{t} (j) = \max_{0 \leq i \leq N} [δ_{t - 1} (i) a_{i j}] b_{j} (o_{t})

辅助变量ψ_t(j)在本方法中用来记录简历中第t-1个字符的最佳隐含状态

ψ_{t} (j) = \arg \max_{0 \leq i \leq N} [δ_{t - 1} (i) a_{i j}]

其中N表示单词的隐含状态总数，N＝3；t表示当前处于简历中第t个字符，j表示第t个字符的隐含状态状态，i表示第t-1个字符的隐含状态状态，a_ij为条件转移概率，即简历中当前字符的隐含状态是i、下一个字符的隐含状态为j的概率，b_j(o_t)为观察值概率分布，即指简历中每个字符的隐含状态分别是关键字、非关键字、标点符号的概率，辅助变量记录了到达此点的最佳上一个时刻的状态点路径，用于最后回溯路径得到最终结果；

经过上述步骤后，简历中的每个字符都会自动标记一个隐含状态符，隐含状态Y的字符，即简历中关键字，连续个Y即为一个关键字段，抽取出简历中的关键字段，两个关键字段之间的字符串即为第一个关键字段的内容。

本发明与现有技术相比，具有以下明显的优势和有益效果：

本发明提出的方法，数据量和时间复杂度均能满足实际应用中对系统性能的要求。本发明也具有一定的应用价值：有效的简历关键字段抽取，不但可以帮助求职者方便、快速的投递简历，提高了求职者的投递效率，而且也提高了招聘单位的工作效率，具有很强的实用性。

附图说明

图1为本发明所涉及的英文简历关键字段抽取的模块构成图；

图2为本发明所涉及的方法流程图。

具体实施方式

下面结合附图1-2及具体实施例对本发明作进一步的描述。

基于隐马尔可夫模型的英文简历关键字段抽取方法的流程图如图2所示。一种基于隐马尔可夫模型的英文简历关键字段抽取方法，其特征在于包括以下步骤：

步骤一，收集英文简历，将收集的英文简历分为训练样本和测试样本。

现有从前程无忧、智联招聘等网站下载的英文简历450份，选取其中400份作为训练样本，50份作为测试样本。

步骤二，预处理训练样本，并对简历文本序列做隐含状态标记。

步骤三，从训练样本中获取字符字典。

步骤四，计算出隐马尔可夫模型参数初值

步骤六，预处理测试样本。

步骤七，根据训练过的隐马尔可夫模型，使用维特比算法将测试样本简历标记出最大概率的隐含状态序列。

本方法根据训练过的隐马尔可夫模型，使用维特比算法将测试样本简历标记出最大概率的隐含状态序列，输入一份测试样本通过维特比算法，经过初始化、递归、终结、求取最佳序列四个步骤后，可以得到一个标记好隐含状态的简历，隐含状态Y的字符，即简历中关键字，连续个Y即为一个关键字段，抽取出简历中的关键字段，两个关键字段之间的字符串即为第一个关键字段的内容。

下面给出一个应用本发明对英文简历关键字进行抽取的实例。

现有从前程无忧、智联招聘等网站下载的英文简历450份，其中选取400份作为训练样本，已基本覆盖所有单词、关键字；选取50份作为测试样本，本发明主要自动识别并标记英文简历中的关键字段。

统计50份测试样本中的关键字词组(连续个关键字标记组成)的出现的次数以及抽取后的正确次数，并计算出测试样本正确率如表1所示：

关键字词组出现总次数	正确次数	错误次数	正确率
				752	602	150	80.05％

表1

50份测试样本抽取完成后，将错误抽取的关键字隐含状态进行修改，再将修改后的50份测试样本做为训练样本进行训练，再次统计50份测试样本中的关键字词组(连续个关键字标记组成)的出现的次数以及抽取后的正确次数，并计算出测试样本正确率如表2所示：

关键字词组出现总次数	正确次数	错误次数	正确率
				752	630	122	83.78％

表2

将400份训练样本作为测试集，统计400份训练样本抽取后的关键字词组(连续个关键字标记组成)的出现的次数以及抽取后的正确次数，并计算出总的正确率如表3所示：

关键字词组出现总次数	正确次数	错误次数	正确率
				6852	5697	1155	83.14％

表3

由实验结果可知，对于随机选取的测试样本，本发明的抽取平均正确率为83.14％，实验结果较好。通过将测试样本的抽取结果手动修正后作为训练样本，再次抽取的正确率有所提升，可见增加测试样本有助于提高抽取的正确率。充分证明了该方法的有效性以及优越性。对于抽取正确率不高的测试样本，后续可将其修改标记作为训练样本，这样可以提升正确率。综上所述，基于隐马尔可夫模型的英文简历关键字段抽取方法易于建立、不需大规模的词典集与规则集、抽取精度较高。

以上实施例仅用以说明本发明，而并非限制本发明所描述的技术方案。因此，一切不脱离本发明的精神和范围的技术方案及其改进，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于隐马尔可夫模型的英文简历关键字段抽取方法，其特征在于：该方法包括以下步骤，

步骤三，从训练样本中获取字符字典，方法如下：

对于步骤二得到的训练样本，将单个样本按空格切分后存入到字符数组中，其中数组下标为奇数的存放的是简历的字符，下标为偶数的存放的是隐含状态符号；在此获取字符数组下标为奇数的简历字符，存入Hashmap中；递归处理所有训练样本，得到一个字符字典；

步骤四，计算出隐马尔可夫模型参数初值；

通过训练样本计算隐马尔可夫模型参数初值λ＝(N,M,A,B,П)，隐马尔可夫模型包括N个不同的隐含状态，在系统中对应的是简历字符的隐含状态,隐含状态共有3种(Y：关键字，N：非关键字，T：标点符号)；M个不同的观察符号，在系统中对应的是简历中所有的字符集合，通过将训练样本经过步骤三的处理，得到所有简历中出现的字符，并形成一个字符字典；因为N和M已知，所以隐马尔可夫模型可记为一个三元组λ＝(A,B,П)，各参数在系统中的详细解释及计算方法如下：

参数重估过程是已知观察序列并不断修正模型参数λ＝{π,A,B}使得模型λ产生观察序列O的概率p(O|λ)最大。在本方法中，将所有训练简历以及测试简历中的原始文字看作观察序列集合，Baum-Welch算法对模型参数进行重估，得到一个新的Baum-Welch算法在理论上可以保证概率

步骤六，预处理测试样本；

δ_{t} (j) = \max_{0 \leq i \leq N} [δ_{t - 1} (i) a_{i j}] b_{j} (o_{t})

ψ_{t} (j) = \arg \max_{0 \leq i \leq N} [δ_{t - 1} (i) a_{i j}]

其中N表示单词的隐含状态总数，N＝3；t表示当前处于简历中第t个字符，j表示第t个字符的隐含状态状态，i表示第t-1个字符的隐含状态状态，a_ij为条件转移概率，即简历中当前字符的隐含状态是i、下一个字符的隐含状态为j的概率，b_j(o_t)为观察值概率分布，即指简历中每个字符的隐含状态分别是关键字、非关键字、标点符号的概率，辅助变量记录了到达此点的最佳上一个时刻的状态点路径，用于最后回溯路径得到最终结果。