CN105045888A

CN105045888A - 一种用于hmm的分词训练语料标注方法

Info

Publication number: CN105045888A
Application number: CN201510448878.6A
Authority: CN
Inventors: 范莹; 刘福明; 于治楼
Original assignee: Inspur Group Co Ltd
Current assignee: Inspur Group Co Ltd
Priority date: 2015-07-28
Filing date: 2015-07-28
Publication date: 2015-11-11

Abstract

本发明公开一种用于HMM的分词训练语料标注方法,属于大数据语言处理领域；利用trie将已有实体词词典的内容构建成字典树：构建trie字典树函数，标注字典文件全路径及文件名，将字典文件中每个词加入Set，利用开源org.ahocorasick.trie将输入的词加入trie树，从字符串中识别出trie树包含的词函数，读取特定文档，判断是否有文本行，若有则取出文本行与字典树匹配，匹配成功的词加入tagList中，遍历tagList，在待识别实体词的特定文档中识别出的词的一部分，按HMM构建模型时的需求将实体词按词首和词中进行标注状态的语料标注。

Description

一种用于HMM的分词训练语料标注方法

技术领域

本发明公开一种语料标注方法,属于大数据语言处理领域，具体地说是一种用于HMM的分词训练语料标注方法。

背景技术

全球企业都对于大数据充满了积极的热情，以后的大数据将变得无处不在。但是从大数据的应用现状来看，无论是是技术、产品还是应用还有待提升。对于中国的大数据而言，中文的自然语言处理是所有技术的基础。需要对识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语加以归类命名，利用实体识别技术进行信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理才能完成。然而对于特定的行业，用语语料千差万别，现有的实体识别方法不能快速自动地进行语料标注，不利于特定的行业语料标注的进行，不利于提高特定行业实体词识别的效率。本发明提供一种用于HMM的分词训练语料标注方法，用于HMM模型训练的方法，收集各种来源的实体词词库，利用trie树将已有实体词词库的内容构建成字典树，在待识别实体词的样本文档中搜索，并按HMM构建模型时的需求进行标注，达到提高特定行业HMM实体词识别率的目的。

HMM，隐马尔科夫模型，是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。

trie树是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串，但不仅限于字符串。

发明内容

本发明针对现有的实体识别方法不能快速自动地进行语料标注，不利于特定的行业语料标注的进行，不利于提高特定行业实体词识别的效率的问题，提供一种用于HMM的分词训练语料标注方法，对特定行业可以进行语料批量自动标注，达到提高特定行业HMM实体词识别率的目的。

本发明提出的具体方案是：

一种用于HMM的分词训练语料标注方法：

利用trie将已有实体词词典的内容构建成字典树：构建trie字典树函数，标注字典文件全路径及文件名，将字典文件中每个词加入Set，利用开源org.ahocorasick.trie将输入的词加入trie树，从字符串中识别出trie树包含的词函数，读取特定文档，判断是否有文本行，若有则取出文本行与字典树匹配，匹配成功的词加入tagList中，遍历tagList，在待识别实体词的特定文档中识别出的词的一部分，按HMM构建模型时的需求将实体词按词首和词中进行标注状态的语料标注。

所述取出文本行与字典树匹配的过程为：从根结点开始一次搜索；取得要查找包含词的第一个字母，并根据该字母选择对应的子树并转到该子树继续进行检索；在相应的子树上，取得要查找包含词的第二个字母,并进一步选择对应的子树进行检索；迭代过程；在某个结点处，包含词的所有字母已被取出，则读取附在该结点上的词信息，完成匹配查找。

所述实体词的标注状态包括人名词首，人名词中，地名词首，地名词中，组织机构名词首，组织机构名词中，其他状态。

利用trie将已有实体词词典的内容构建成字典树的伪代码为：

buildTrie(StringdictionaryPath)

BEGIN

TrieahoCorasickNaive=newTrie()；

path=dictionaryPath；//

Set<String>dictionary=newTreeSet<String>()；

BufferedReaderbr=newBufferedReader(newFileReader(path))；

Stringline；

while((line=br.readLine())!=null)

{

dictionary.add(line)；//

}

br.close()；

for(Stringword:dictionary)

{

ahoCorasickNaive.addKeyword(word);//

}

END

exactMatch(Stringstr)

BEGIN

Collection<Emit>e=ahoCorasickNaive.parseText(str)；//

List<Emit>res=newArrayList<Emit>()；

for(Emita:e){

res.add(a);//

}

returnres;

}

END

完成构建字典树。

当实体词的标注状态包括人名词首，人名词中，地名词首，地名词中，组织机构名词首，组织机构名词中，其他状态时，标注语料实现的伪代码可以如下：

BEGIN

reader=将待识别实体词样本文档读入BufferedReader；

writer=标注后的行写入的文件（PrintWriter）；

TrieDictionarynameDic=TrieDictionary.buildTrie此为人名字典文件路径；

TrieDictionarylocDic=TrieDictionary.buildTrie此为地名字典文件路径；

TrieDictionaryorgDic=TrieDictionary.buildTrie此为组织机构名字典文件路径；

while((line=reader.readLine())!=null){

tmp=nameDic.exactMatch(line)；//此处开源org.ahocorasick.trie的方法，在一行文本中，匹配出所有nameDic包含的的人名加入到tmp集合中；

for(Emite:tmp){

将tmp中所有人名以TagNode（Tag，Keyword、Start、End）的形式添加到数组列表tagList中；

}

清空tmp

tmp=locDic.exactMatch(line)；//此处开源org.ahocorasick.trie的方法，在一行文本中，匹配出所有locDic包含的的人名加入到tmp集合中；

for(Emite:tmp){

将tmp中所有地名以TagNode（Tag，Keyword、Start、End）的形式添加到数组列表tagList中；

}

tmp=orgDic.exactMatch(line)；//此处开源org.ahocorasick.trie的方法，在一行文本中，匹配出所有orgDic包含的的组织机构名加入到tmp集合中；

for(Emite:tmp){

}

对tagList内所有节点按在行中的先后位置排序；

遍历tagList，对同一起始位置识别出不同的词，只保留最长的；

if(tagList.size()>0){

for(inti=0；i<tagList.size()；i++){遍历所有匹配词

inta=取出词的初始位置；

本词初始位置前的所有字，将“字”+“N”写入语料库；

将本词的第一个字，以“字”+“B-”+“本词的Tag值”写入语料库；

本词中的其他字，以“字”+“I-”+“本词的Tag值”写入语料库；

}

剩余的字，都以“字”+“N”写入语料库；

}else{

本行所有字都以“字”+“N”写入语料库；

}

写入行分隔符；

}

write.close();

reader.close();

}

END

结束标注。

本发明的有益之处是：本发明用于HMM模型训练的方法，收集各种来源的实体词词库，利用trie树将已有实体词词库的内容构建成字典树，在待识别实体词的样本文档中搜索，并按HMM构建模型时的需求进行标注，达到提高特定行业HMM实体词识别率的目的。

附图说明

图1trie树示例示意图；

图2本发明流程示意图。

具体实施方式

结合附图对发明做进一步说明。

比如原文行：尤以收录周恩来总理、马俊烈士的《南开中学同学录》、《李大钊烈士遗篇孤本《中国大学学术演讲录》1923年、黄埔军校政治宣传教材1927年等为收藏界所称道。

一种用于HMM的分词训练语料标注方法：

利用trie将已有实体词词典的内容构建成字典树：构建trie字典树函数，标注字典文件全路径及文件名，将字典文件中每个词加入Set，利用开源org.ahocorasick.trie将输入的词加入trie树，从字符串中识别出trie树包含的词函数，读取特定文档，判断是否有文本行，若有则取出文本行与字典树匹配，匹配成功的词加入tagList中，遍历tagList，在待识别实体词的特定文档中识别出的词的一部分，按HMM构建模型时的需求将实体词按词首和词中进行标注状态的语料标注。实体词的标注状态包括人名词首，人名词中，地名词首，地名词中，组织机构名词首，组织机构名词中，其他状态。

利用trie将已有实体词词典的内容构建成字典树的伪代码为：

构建trie字典树函数：buildTrie(StringdictionaryPath)

BEGIN

TrieahoCorasickNaive=newTrie()；

path=dictionaryPath；此处为字典文件全路径及文件名

Set<String>dictionary=newTreeSet<String>()；

BufferedReaderbr=newBufferedReader(newFileReader(path))；

Stringline；

while((line=br.readLine())!=null)

{

dictionary.add(line)；此处将字典文件中每个词加入Set

}

br.close()；

for(Stringword:dictionary)

{

ahoCorasickNaive.addKeyword(word)；此处利用开源org.ahocorasick.trie的方法，将分类词加入trie树

}

END

exactMatch(Stringstr)

BEGIN

Collection<Emit>e=ahoCorasickNaive.parseText(str)；

List<Emit>res=newArrayList<Emit>()；

for(Emita:e){

res.add(a)；将唯一全匹配的词加入结果集合

}

returnres；

}

END

完成构建字典树。

BEGIN

reader=将待识别实体词样本文档读入BufferedReader；

writer=标注后的行写入的文件（PrintWriter）；

TrieDictionarynameDic=TrieDictionary.buildTrie此为人名字典文件路径；

TrieDictionarylocDic=TrieDictionary.buildTrie此为地名字典文件路径；

while((line=reader.readLine())!=null){

for(Emite:tmp){

}

清空tmp

for(Emite:tmp){

}

for(Emite:tmp){

}

对tagList内所有节点按在行中的先后位置排序；

if(tagList.size()>0){

for(inti=0；i<tagList.size()；i++){遍历所有匹配词

inta=取出词的初始位置；

本词初始位置前的所有字，将“字”+“N”写入语料库；

}

剩余的字，都以“字”+“N”写入语料库；

}else{

本行所有字都以“字”+“N”写入语料库；

}

写入行分隔符；

}

write.close();

reader.close();

}

END

结束标注。

则原文标注后结果为：

Step1：nameDic=TrieDictionary.buildTrie(人名字典文件路径)；参考图1。

locDic=TrieDictionary.buildTrie为地名字典文件路径；

orgDic=TrieDictionary.buildTrie为组织机构名字典文件路径；

Step2：nameDic.exactMatch(原文行)；

结果：[0:0=尤,4:6=周恩来,10:10=马,10:11=马骏,26:28=李大钊,52:52=黄]

locDic.exactMatch(原文行)；

结果：[16:16=南,36:37=中国]

orgDic.exactMatch(原文行)；

结果：[16:19=南开中学,36:37=中国,52:55=黄埔军校]

Step3：词列表合并、过滤；

TagNode（Tag，Keyword、Start、End）

结果：tagList[[PER,周恩来4,6],[PER,马骏10,11],[ORG,南开中学16,19],[PER,李大钊,26,28],[LOC,中国,36,37],[ORG,黄埔军校,52,55]

Step4：标注写入文件

结果：尤N以N收N录N周B-PER恩I-PER来I-PER总N理N、N马B-PER骏I-PER烈N士N的N《N南B-ORG开I-ORG中I-ORG学I-ORG同N学N录N》N（N１NN１N９N年N）N、N李B-PER大I-PER钊I-PER烈N士N遗N篇N孤N本N《N中B-LOC国I-LOC大N学N学N术N演N讲N录N》N（N１N９N２N３N年N）N、N黄B-ORG埔I-ORG军I-ORG校I-ORG政N治N宣N传N教N材N（N１N９N２N７N年N）N等N为N收N藏N界N所N称N道N。N

按HMM构建模型时的需求进行标注，达到提高特定行业HMM实体词识别率的目的。

Claims

1.一种用于HMM的分词训练语料标注方法，其特征是：

2.根据权利要求1所述的一种用于HMM的分词训练语料标注方法，其特征是所述取出文本行与字典树匹配的过程为：从根结点开始一次搜索；取得要查找包含词的第一个字母，并根据该字母选择对应的子树并转到该子树继续进行检索；在相应的子树上，取得要查找包含词的第二个字母,并进一步选择对应的子树进行检索；迭代过程；在某个结点处，包含词的所有字母已被取出，则读取附在该结点上的词信息，完成匹配查找。

3.根据权利要求2所述的一种用于HMM的分词训练语料标注方法，其特征是所述实体词的标注状态包括人名词首，人名词中，地名词首，地名词中，组织机构名词首，组织机构名词中，其他状态。

4.根据权利要求2或3所述的一种用于HMM的分词训练语料标注方法，其特征是利用trie将已有实体词词典的内容构建成字典树的伪代码为：

buildTrie(StringdictionaryPath)

BEGIN

TrieahoCorasickNaive=newTrie()；

path=dictionaryPath；//

Set<String>dictionary=newTreeSet<String>()；

BufferedReaderbr=newBufferedReader(newFileReader(path))；

Stringline；

while((line=br.readLine())!=null)

{

dictionary.add(line)；//

}

br.close()；

for(Stringword:dictionary)

{

ahoCorasickNaive.addKeyword(word);//

}

END

exactMatch(Stringstr)

BEGIN

Collection<Emit>e=ahoCorasickNaive.parseText(str)；//

List<Emit>res=newArrayList<Emit>()；

for(Emita:e){

res.add(a);//

}

returnres;

}

END

完成构建字典树。