CN105718586A

CN105718586A - 分词的方法及装置

Info

Publication number: CN105718586A
Application number: CN201610051438.1A
Authority: CN
Inventors: 黄金才; 陈发君; 刘忠; 程光权; 朱承; 修保新; 陈超; 冯旸赫; 孟果; 易作天
Original assignee: Changsha Yuanben Information Technology Co Ltd; National University of Defense Technology
Current assignee: Changsha Yuanben Information Technology Co Ltd; National University of Defense Technology
Priority date: 2016-01-26
Filing date: 2016-01-26
Publication date: 2016-06-29
Anticipated expiration: 2036-01-26
Also published as: CN105718586B

Abstract

本发明公开了一种分词方法和装置，装置包括用于训练词标注模型的分词&标注模块和CRF训练模块，以及用于分词应用的初始分词模块、词标注模块和词合并模块。首先使用CRF训练词标注模型：训练词标注模型的方法为：采集语料库，并使用N?最短路径分词方法对语料库进行分词，然后使用领域词典对语料库分词结果进行标注，将标注后的语料库使用CRF工具进行训练得到词标注模型；得到词标注模型后即可进入分词应用，分词应用其方法为：首先使用N?最短路径分词方法对文本进行初始分词，对初始分词结果基于词标注模型进行序列标注，将包含特定标注的词进行合并得到最终分词结果。采用CRF进行词标注，考虑了全局上下文信息，有利于提高词合并的准确性。

Description

分词的方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种分词的方法及装置。

背景技术

随着互联网的快速发展，信息服务变得越来越普遍。信息服务提供商提供信息服务时，通常会挖掘实体(现实世界中的客观事物称为实体，例如概念、事物或事件等)之间的关联关系，并根据实体之间的关联关系提供信息服务。例如，“南方航空”是“一带一路”的概念股票，二者是实体的实例并且之间存在联系，基于这种关联关系通过检索“一带一路”可以获取与其相关的概念股票。实体之间的关联关系通常是在文本分词基础之上通过计算共现等测度获得，因此分词性能的好坏直接影响后续处理及最终的关联结果。

在现有技术中通常有基于词典的分词和基于统计模型的分词，如公开号为102982099A的专利文献，提供了一种个性化并行分词处理系统及其处理方法。基于词典的分词方法分词效率较高但准确性较差，而基于统计模型的分词方法可以自动学习词语切分的规则，在歧义切分效果上较好，但受限于训练语料分词结果在粒度和一致性上不够稳定，性能较差。基于N-最短路径的分词方法结合词典与统计模型在分词速度和准确度两方面都取得了较好效果，但受限词典与统计模型，对于词的切分常常过于细，例如“可穿戴设备”被切分为“可”、“穿戴”和“设备”，但在特定领域内常常需要将“可穿戴设备”作为一个整词来与其他实体建立关联。通常可采用领域词典的方式对初始分词结果中的词进行机械合并，但这种方法只能合并领域词典中包含的词，例如词典中只包含“广东旅游”、“北京旅游”则只能合并这两个词而不能合并“西藏旅游”，并且常由于不考虑上下文信息而导致错误的合并。

N-最短路径以及其他基于词典和统计模型的分词方法对特定领域的词常常切分过细导致部分实体之间的关联无法建立，例如在金融领域，一些概念与股票的名词通常是由几个较短的单词组合而成，在切分过程中很容易被切分成多个较短的单词，这对这些特定领域内实体关联的建立非常不利。而采用领域词典的方式虽然能合并词典中包含的词，但常常导致错误的合且不具有泛化能力。

发明内容

针对现有技术存在的缺陷，本发明提出一种分词的方法和装置，在原始分词的基础上考虑上下文信息从而可使特定领域内的实体在分词结果中正确切分，并通过对领域词典中的词模式进行自动学习可识别出具有相同模式的词从而进行正确切分，例如词典中只包含“广东旅游”、“北京旅游”，对于“西藏旅游”也能正确切出来，从而提升实体之间的关联效果。

本发明的技术方案是：首先使用条件随机场(简称CRF)训练词标注模型：训练词标注模型的方法为：采集语料库，并使用N-最短路径分词方法对语料库进行分词，然后使用领域词典对语料库分词结果进行标注，将标注后的语料库使用CRF工具进行训练得到词标注模型；得到词标注模型后即可进入分词应用，分词应用其方法为：首先使用N-最短路径分词方法对文本进行初始分词，对初始分词结果基于词标注模型进行序列标注，将包含特定标注的词进行合并得到最终分词结果。关于领域词典，就是特定领域的定制词典，就是具体应用领域中，需要在分词中完整切分的词，例如金融领域中的相关概念词如“一带一路”、股票全称以及简称等。

具体地，一种分词方法，包括词标注模型训练和分词应用两个阶段，首先使用条件随机场(简称CRF)训练词标注模型，得到词标注模型后即可进入分词应用。

所述词标注模型训练包括以下步骤：

S1.采集语料库和准备语料库所属领域的领域词典

随机选取一定时期内一技术领域内的新闻语料，并选取该领域的领域词典；

S2.对语料库进行分词并进行词性标注，得到分词列表；

分词所采用的方法可以选N-最短路径分词方法、最短路径分词方法、正向最大匹配分词方法、逆向最大匹配分词方法、双向最大匹配分词方法、隐马尔科夫模型分词方法或条件随机场模型分词方法；对语料库分词结果进行词性标注所采用的方法为隐马尔科夫模型标注、最大熵模型标注或条件随机场模型标注。

S3.根据领域词典对步骤S2的分词结果采用“BIO”标记进行标注得到训练语料；

①遍历分词列表：对词进行向后取N个词进行组合，遇到标点符号则停止，每个词最多可产生N-1个词组合，得到当前词的词组合列表；这里的分词列表是步骤S2步骤中经分词后得到。

②遍历词组合列表，将词组合与领域词典进行比较，获取包含于领域词典中的最长词组合；

③若最长词组合存在，则对最长词组合中包含的第一个词标注为“B”，其他词标注为“I”；

④若当前词的最长词组合不存在，则将当前词标注为“O”；

⑤将标注结果保存成CRF工具所要求的格式；

S4.采用CRF工具对训练语料进行训练得到词标注模型；

S5.输出词标注模型，完成模型训练；

所述分词应用包括以下步骤：

a)读取文本，加载词标注模型，采用与模型训练其步骤S2中相同的方法对文本进行初始分词及词性标注，得到初始分词列表；

b)基于初始分词列表构建特征表；

特征表是一个M*3大小的二维列表T[M][3]，其中M为分词列表的长度；遍历初始分词列表，对于第i个词，将该词的字符记录在T[i][1]，词性记录在T[i][2]，其中假设列表的索引从1开始；

c)对特征表T使用模型训练中得到的词标注模型进行标注，将标注结果保存在特征表对应位置的第三列；标注过程采用维特比解码算法；

d)根据词标注结果进行词合并

①初始化分词结果列表r；

②遍历特征表T，假设当前位置为i,若T[i][3]为“B”标注，则继续查找邻接的最后一个“I”标注的位置j，将i到j之间的词合并为一个词，加入到分词结果列表r并更新遍历位置为j+1；

③若否即T[i][3]不为“B”标注则直接将当前词加入到r；

e)输出最终分词结果。

本发明提供一种分词装置，包括用于模型训练阶段的分词&标注模块和CRF训练模块，以及用于分词应用阶段的初始分词模块、词标注模块和词合并模块；

所述分词&标注模块对采集的语料库进行分词然后对分词结果进行前后组合并使用领域词典进行标注，得到用于CRF训练的标注训练集；CRF训练模块配置特征模板并使用CRF工具对标注训练集进行训练得到词标注模型，并将词标注模型以文件形式保存用于分词应用；

所述初始分词模块对输入文本进行初始切分和词性标注，得到初始分词信息列表；词标注模块对初始分词信息列表构建特征表，然后加载词标注模型使用维特比算法对特征表进行标注，并将标注结果保存在特征表的最后一列；词合并模块对特征表的最后一列标注结果进行分析，对于符合{BI+}(表示以B标注开始，后面接一个到多个I标注)标注序列的若干词将其合并为新词，得到最终分词结果进行输出。

其中，所述分词&标注模块对采集的语料库采用N-最短路径分词，采用隐马尔科夫模型进行词性标注。

所述初始分词模块对输入文本采用了N-最短路径分词，采用隐马尔科夫模型进行词性标注。

本发明的有益技术效果：

1.采用多层分词，可根据需要控制分词的切分粒度；

2.采用CRF进行词标注，考虑了全局上下文信息，有利于提高词合并的准确性；

3.通过CRF训练的词标注模型可自动学习语料库中的规则模式，对相同模式但未包含于领域词典中的词也可识别出来，具有一定的新词发现能力。

附图说明

图1为本发明一种分词装置的功能模块图

图2为词标注模型训练流程图

图3为训练语料标注流程图

图4为分词应用流程图

具体实施方式

下面结合附图，对本发明作进一步的说明：

本发明根据应用领域的领域词典(例如对于金融领域，领域词典可包含相关概念词如“一带一路”、股票全称以及简称等)对语料库进行标注并采用CRF进行训练得到词标注模型，然后采用常用分词算法对文本进行初始切分，对初始切分结果基于词标注模型进行合并得到最终的分词结果。

本发明包括模型训练(即词标注模型训练)与分词应用两个阶段，其中词标注模型训练阶段采用CRF工具离线训练词标注模型用于分词应用阶段的词标注，由分词&标注模块和CRF训练模块两部分组成；分词应用阶段实时对文本进行分词应用，包括初始分词模块、词标注模块和词合并模块，如图1所示。

模型训练阶段：分词&标注模块对采集的语料库使用常规分词技术进行分词然后对分词结果进行前后组合并使用领域词典进行标注，得到用于CRF训练的标注训练集；CRF训练模块配置特征模板并使用CRF工具对标注训练集进行训练得到词标注模型，并将词标注模型以文件形式保存用于分词应用。模型训练阶段只需在分词应用阶段之前进行一次即可，得到词标注模型进行保存。

一种分词方法，包括词标注模型训练和分词应用两个阶段，

参照图2，词标注模型训练包括以下步骤：

a)采集语料库和准备领域词典(指在具体应用领域中，需要在分词中完整切分的词，例如金融领域中的相关概念词、股票全称以及简称等)。随机选取一定时期内特定领域内的新闻语料，例如财经领域。领域词典可选取特定领域内的实体以及其他业务需要的词。比如先从互联网将领域类相关的网页爬取下来存储在数据库中，然后从其中随机选取。

b)对语料库使用常用分词技术进行分词并进行词性标注。在案例实施中采用了N-最短路径分词，采用隐马尔科夫模型进行词性标注。

c)根据领域词典对分词结果采用“BIO”标记进行标注得到训练语料，参照图3，其步骤为：

①遍历分词列表，对词进行向后取N个词进行组合，遇到标点符号则停止，N可根据需要设置，每个词最多可产生N-1个词组合，得到当前词的词组合列表。在实施中采用了N＝4，即最长4个词进行组合，例如对于“为发展智能装备和可穿戴设备的崛起奠定了良好的产业环境。”，经b)步骤分词后结果为“为发展智能装备和可穿戴设备的崛起奠定了良好的产业环境。”，当前词的词组合列表为“可”，则“可”的向后组合列表“可穿戴”、“可穿戴设备”、“可穿戴设备的”。

②遍历词组合列表，将词组合与领域词典进行比较，获取包含于领域词典中的最长词组合。例如上述“可”的最长词组合为“可穿戴设备”。

③若最长词组合存在，则对组合中包含的第一个词标注为“B”，其他词标注为“I”。例如上述“可穿戴设备”中的“可”的标注为“B”，“穿戴”和“设备”的标注为“I”。

④若当前词的最长词组合不存在，则将当前词标注为“O”。例如上述的“发展”的最长词组合不存在，其标注为“O”。

⑤将标注结果保存成CRF工具所要求的格式。在案例实施中采用了CRF++工具进行模型训练，训练语料采用“词词性标注”的格式保存，每个词单独一行，句子间以空行分隔。上述“为发展智能装备和可穿戴设备的崛起奠定了良好的产业环境。”在标注结果中保存为如下形式：

.....

为po

发展vno

智能nB

装备nI

和co

可vB

穿戴vnI

设备nI

的uo

崛起vno

奠定vo

了uo

良好ao

的uo

产业no

环境no

。wo

.....

其中“.....”表示其他语句，句子间以空行分离，非空行的第一列为词、第二列为词性、第三列为标注，例如行“智能nB”第一列为词“智能”、第二列为词性“n”(名词)、第三列为标注“B”。

d)采用CRF工具对训练语料进行训练得到词标注模型。在案例实施中采用了CRF++工具，特征选取当前词及前后两个词的字符及词性、当前词与前后一个词的一元组合、当前词及前后两个词共五个词之间相邻两两之间词性组合一共16个特征，特征模板定义如下：

其中“#Unigram”代表一元模型，“#Bigram”代表二元模型。“#Unigram”下定义了“U00”-“U15”16个特征，方括号中的第一个数字表示词在标注集中的行位置，“0”表示当前行，“-1”表示前一行，“1”表示后一行，以此内推；方括号中的第二个数字表示所在行的列数，“0”表示第一列(即词)，“1”表示第二列(即词性)，例如“U03:％x[1,0]”表示第3个特征取当前行的下一行的词。“/”表示特征组合，例如“U12:％x[-2,1]/％x[-1,1]”表示第12个特征取当前行的前面第2行的词性以及前面第1行的词性的组合。“#Bigram”下仅包含“B”表示未使用二元模型。对于上述“为发展智能装备和可穿戴设备的崛起奠定了良好的产业环境。”的标注结果，假设当前词为“穿戴”，则其通过特征模板提取的特征为

e)输出词标注模型。

参照图4，分词应用包括以下步骤：

a)读取文本，加载词标注模型，采用与模型训练中相同的分词技术对文本进行初始分词及词性标注，得到分词列表(包含词性信息)。例如“智能手环是一种可穿戴设备。”进行初始分词及词性标注后的结果为[智能/n,手环/nz,是/v,一/m,种/q,可/v,穿戴/vn,设备/n,。/w]，其中每个词以“，”分隔，“/”之前为词如“智能”，“/”之后为词性如“n”，

b)基于分词列表构建特征表。特征表是一个N*3大小的二维列表T[N][3]，其中N为分词列表的长度。遍历分词列表，对于第i个词，将该词的字符记录在T[i][1],词性记录在T[i][2]，其中假设列表的索引从1开始。例如对于a)中实例的第一个词“智能/n”，T[1][1]＝“智能”，T[1][2]＝“n”。

c)对特征列表T使用词标注模型进行标注，将标注结果保存在特征表对应位置的第三列。标注过程采用维特比解码算法。例如对于a)中实例的标注结果为[智能/n/B,手环/nz/I,是/v/O,一/m/O,种/q/O,可/v/B,穿戴/vn/I,设备/n/I,。/w/O]，其中以“，”分隔每个为一个T[i]，以“/”为分隔每个为T[i]的对应列其中第三列为标注，如T[1][1]＝“智能”、T[1][2]＝“n”、T[1][3]＝“B”为标注，以此类推。

d)根据词标注结果进行词合并。①初始化分词结果列表r。②遍历特征表T，假设当前位置为i,若T[i][3]为“B”标注，则继续查找邻接的最后一个“I”标注的位置j,将i到j(包括i、j)之间的词合并为一个词，加入到r并更新遍历位置为j+1。③若否则直接将当前词加入到r。例如对于a)中实例的标注结果中的“智能/n/B”与“手环/nz/I”合并得到新词“智能手环”，“可/v/B”、“穿戴/vn/I”与“设备/n/I”合并得到新词“可穿戴设备”，其他标注为“O”的词保持不变，合并后得到最终分词结果[智能手环,是,一,种,可穿戴设备,。]。

e)输出最终分词结果。

Claims

1.分词的方法，其特征在于，首先使用条件随机场进行词标注模型训练，得到词标注模型后即可进入分词应用；

所述词标注模型训练包括以下步骤：

S1.采集语料库和准备语料库所属领域的领域词典；

S2.对语料库进行分词并进行词性标注，得到分词列表；

①遍历分词列表：对词进行向后取N个词进行组合，遇到标点符号则停止，每个词最多可产生N-1个词组合，得到当前词的词组合列表；

④若当前词的最长词组合不存在，则将当前词标注为“O”；

⑤将标注结果保存成CRF工具所要求的格式；

S4.采用CRF工具对训练语料进行训练得到词标注模型；

S5.输出词标注模型，完成模型训练；

所述分词应用包括以下步骤：

b)基于初始分词列表构建特征表；

d)根据词标注结果进行词合并

①初始化分词结果列表r；

③若否则直接将当前词加入到r；

e)输出最终分词结果。

2.根据权利要求1所述的分词的方法，其特征在于，词标注模型训练方法中，步骤S2对语料库进行初始分词所采用的方法为N-最短路径分词方法、最短路径分词方法、正向最大匹配分词方法、逆向最大匹配分词方法、双向最大匹配分词方法、隐马尔科夫模型分词方法或条件随机场模型分词方法；词标注模型训练方法中，步骤S2对语料库分词结果进行词性标注所采用的方法为隐马尔科夫模型标注、最大熵模型标注或条件随机场模型标注。

3.分词装置，其特征在于，包括用于训练词标注模型的分词&标注模块和CRF训练模块，以及用于分词应用的初始分词模块、词标注模块和词合并模块；

所述初始分词模块对输入文本进行初始切分和词性标注，得到初始分词信息列表；词标注模块对初始分词信息列表构建特征表，然后加载词标注模型使用维特比算法对特征表进行标注，并将标注结果保存在特征表的最后一列；词合并模块对特征表的最后一列标注结果进行分析，对于符合{BI+}标注序列的若干词将其合并为新词，得到最终分词结果进行输出。

4.根据权利要求3所述的分词装置，其特征在于，所述分词&标注模块对采集的语料库采用N-最短路径分词，采用隐马尔科夫模型进行词性标注。

5.根据权利要求3所述的分词装置，其特征在于，所述初始分词模块对输入文本采用了N-最短路径分词，采用隐马尔科夫模型进行词性标注。