CN105446955A

CN105446955A - 一种自适应的分词方法

Info

Publication number: CN105446955A
Application number: CN201510838594.8A
Authority: CN
Inventors: 贺惠新
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-11-27
Filing date: 2015-11-27
Publication date: 2016-03-30

Abstract

一种分词系统的构建和应用的方法，属于自然语言处理的计算机技术应用领域。本发明基于自然语言的句子的内在特性，提出了结合词典和统计模型的分词方法，处理中把词典信息作为一个可由外部适配调整、可在统计模型模型内部产生影响及生成特征的资源，并全面考虑模型学习时原始训练语料对词典的影响，而算法设置了高效的特征的生成和组合方式，可充分降低计算的复杂度，并最终有效生成高准确率的分词模型；而应用时可方便的在词典中有针对的加入相关的词，有效提高算法的在不同场景下的适用性。本发明有效实现了计算机自动对自然语言的语句进行分词处理，并方便在不同领域下进行扩展应用，而分词后的结果可供给计算机做后续的分析。

Description

一种自适应的分词方法

技术领域

本发明涉及一种自适应的分词系统的构建和应用的方法，属于自然语言处理的计算机技术应用领域。

背景技术

目前信息的记录和传输的方法主要是通过人类自然语言。人类的语言与人群活动的环境密切相关，是相互协商，共同完成同一认知范畴中的任务的基础条件。这种自然语言是人参与社会活动，为更高效的信息交流和留存所产生的工具。人类的语言是以独立的词为认知结构，字是词的组成元素。语言用来交流时，采用序列的形式，将各能表示独立意义的词进行衔接，并以带有序关系的连续字串的方式记录下来，形成表达完整意义的句子和文章。

提取出各句子中词这种语义单元是理解信息的基本条件。但在对文本形式记录的句子进行理解时，由于各独立词之间没有明确的隔断信息，不同的字串结合在一起可以形成不同的信息表达，不正确的字串的切分成词的方式（即分词）会带来信息的错误认知。人脑有很强的纠错功能，完全由相关生活环境下的人来阅读理解句子时，这种错误相对可控。

在网络和信息时代，由人参与的活动/行为就在网络上形成了不同的记录信息，而这些信息又绝大多数是以自然语言的句子这种文本形式表达的，形成了文本信息的爆炸。对这种海量文本的分析已无法完全由人工来处理，这就要求计算机能有效对文本进行切分。

对文本进行正确分词的技术，当前主要有两种处理思路，即基于词典的模式匹配和基于统计的分类方法。基于词典的模型依赖于分词所采用的词典，当待切分的句子的正确词语在词典中都有记录时，分词能达到一定效果，但准确率仍相对有限；同时此方法本质上无法解决词语的歧义及新词没在词典中记录的问题。而基于统计的分词方法是以已分好词的语料为基础资源，训练分类器生成判别模型，从而对新的语料进行分词判断。在和训练语料相关的领域，这种方法的分词性能较好。但是此方法对训练语料依赖性强，应用时需要针对不同领域训练不同的模型，而标注语料的成本太高，以至于此方法不便于在不同领域进行扩充。也有技术将基于词典和统计的方法进行结合，但实际上把词典、训练语料当成了内部资源或者独立资源加入模型，应用时推广的效果有限。

本发明将基于词典和基于统计的方法进行结合，把词典信息作为一个可由外部适配调整、可在统计模型模型内部产生影响及生成特征的资源，并全面考虑模型学习时原始训练语料对词典的影响，而算法设置了高效的特征的生成和组合方式，可充分降低计算的复杂度，并最终有效生成高准确率的分词模型；而应用时可方便的在词典中有针对的加入相关的词，有效提高算法的在不同场景下的适用性。

发明内容

本发明的目的是为了解决计算机在自然语言处理中难以对句子做准确分词、并在新领域进行有效推广应用的难题，提供了一种结合词典匹配和统计模型的自动分词方法。

本发明设计的方法由训练模型和应用模型两个阶段组成,它包括以下步骤：

训练阶段

训练步骤一：获取模型训练阶段的依赖资源：获取已分好词（各句子中的字符有确定的切分成独立词的标准答案）的NS个句子的集合S={S(i)}为训练语料，各句子记为S(i)，其中1≤i≤NS，要求NS≥50000；人工给定一个包含50个词以上的词典D，并人为指定词典扩充系数ε_1,ε₂；

训练步骤二：从训练语料中提取语料高相关的词语，对词典进行扩充，提取的步骤细节为：

训练步骤二一：统计S中所有词的总数目，记为NW；进一步统计S中所含有的不同词的总数目，记为NWU；

训练步骤二二：统计S中所有不同的词各自出现的频次，并将词按对应词频由大到小的顺序进行排列，记排序后结果为WD={wd(1),wd(2),…,wd(NWU)}，对应的频次记为NWD={nwd(1),nwd(2),…,nwd(NWU)}；

训练步骤二三：在WD中找出依序排列的第st个序位(1<st<NWU),使得NWD中前st个序位对应的频次满足：

训练步骤二四：在WD中找出依序排列的第ed个序位(1<ed<NWU)，使得NWD中前ed个序位对应的频次满足：

训练步骤二五：在WD中找出从第st个序位开始，到第ed个序位的为止的依序排列的所有的词的集合，记为WDA，即WDA={wd(st),wd(st+1),…,wd(ed)},1<st<ed<NWU

训练步骤二六：将WDA中所有词加入原来的词典中D，构成新的词典Dt，此字典中长度最长的词的长度记为NL_Dt；

训练步骤三：对训练语料S的所有字符进行特征化表示，得到每个字符的抽取后的特征表示结果，记s(i,j_i)为句子S(i)的第j_i个字，其中1≤j_i≤句子S(i)的总字符数，则s(i,j_i)对应的特征化结果为：

；

其中各特征的提取细节步骤为：

训练步骤三一：对各个句子S(i)中的每个序位上的字符，建立各序位的字符对应的5个一元语法特征，分别表示为f₁,f₂,f₃,f₄,f₅:

f₃=此字符

训练步骤三二：对各个句子S(i)中的每个序位上的字符，建立各字符对应的4个二元语法特征，分别表示为f₆,f₇,f₈：

训练步骤三三：对各个句子S(i)中的每个序位上的字符，建立各字符对应的3个类型相关特征，分别表示为f₁₀,f₁₁,f₁₂：

训练步骤三四：对各个句子S(i)中的每个序位上的字符，建立各字符对应的3个字典型特征，分别表示为f₁₃,f₁₄,f₁₅：

f₁₃=在词典Dt中，以此字符为第一个字符进行最大正向匹配所得词的长度值；在Dt中找不到符合条件的词时长度即为0；

f₁₄=在词典Dt中，以此字符为最后一个字符进行逆向最大匹配所得词的长度值；在Dt中找不到符合条件的词时长度即为0；

f₁₅=在本句中，用此字符的前NL_Dt个序位至此字前1个序位的字在词典Dt中采用正向最大匹配后，得到的经过此位置并且不以此字为结尾字符的最长词的长度值；若没有符合条件的情况，长度即为0；

训练步骤四：对训练语料S的各个字符的类别进行数字化表示，对应得到各句子S(i)的每个序位上的字符s(i,j_i)对应的类别表示结果g(i,j_i)；

训练步骤五：基于条件随机场模型，将训练语料中所有字符的特征化结果F(s(i,j_i))和对应的类别表示结果g(i,j_i)作为输入数据，进行训练，得到训练后的分词模型M。

分词应用阶段：

对于一个要做分词处理的句子R={c₁,c₂,…,c_y}，其中c₁,c₂,…,c_y为此句子中的依序排列的各个字符，y为句子R的字符总数，基于以下过程进行分词：

应用步骤一：获得与待分词句子相关的词典Dr（Dr中的词数≥0），并将Dr中所有词加入Dt中，行成新的词典Da,此字典中长度最长的词的长度记为NL_Da；

应用步骤二：先对句子中的每个字符c_m提取特征F(c_m)，其中1≤m≤y，

而，其中各特征的提取细节步骤为：

应用步骤二一：对句子R中的每个序位上的字符，建立各序位的字符对应的5个一元语法特征，分别表示为f₁,f₂,f₃,f₄,f₅:

f₃=此字符

应用步骤二二：对句子R中的每个序位上的字符，建立各字符对应的4个二元语法特征，分别表示为f₆,f₇,f₈：

应用步骤二三：对句子R中的每个序位上的字符，建立各字符对应的3个类型相关特征，分别表示为f₁₀,f₁₁,f₁₂：

应用步骤二四：对句子R中的每个序位上的字符，建立各字符对应的3个字典型特征，分别表示为f₁₃,f₁₄,f₁₅：

f₁₃=在词典Da中，以此字符为第一个字符进行最大正向匹配所得词的长度值；在Da中找不到符合条件的词时长度即为0；

f₁₄=在词典Da中，以此字符为最后一个字符进行逆向最大匹配所得词的长度值；在Da中找不到符合条件的词时长度即为0；

f₁₅=在本句中，用此字符的前NL_Da个序位至此字前1个序位的字在词典Da中采用正向最大匹配后，得到的经过此位置并且不以此字为结尾字符的最长词的长度值；若没有符合条件的情况，长度即为0；

应用步骤三：将句子R中所有字符的特征化结果F(c_m)输入已训练好的模型M中，并由模型M进行分类评判，输出各字符对应的分类结果g(c_m)；

应用步骤四：输出所有g(c_m)值为1或4的字符c_m的序位，即句子R可在这些位置做句子的组成词切分，此即是此句子的分词结果。

本发明的优点是：本发明基于自然语言的句子的内在特性，提出了结合词典和统计模型的分词方法，处理中把词典信息作为一个可由外部适配调整、可在统计模型模型内部产生影响及生成特征的资源，并全面考虑模型学习时原始训练语料对词典的影响，而算法设置了高效的特征的生成和组合方式，可充分降低计算的复杂度，并最终有效生成高准确率的分词模型；而应用时可方便的在词典中有针对的加入相关的词，有效提高算法的在不同场景下的适用性。

本发明有效实现了计算机自动对自然语言的语句进行分词处理，并方便在不同领域下进行扩展应用，而语句分词后的结果可提供给计算机做后续的各种分析。

附图说明

图1为本发明的模型训练的方法的流程图，图2为应用的方法的流程图。

具体实施方式

下面结合附图图1和图2说明本实施方式。

本发明设计的方法由训练模型和应用模型两个阶段组成,它包括以下具体应用方式一的训练阶段和具体应用方式二的应用阶段。

具体应用方式一：训练阶段

；

其中各特征的提取细节步骤为：

f₃=此字符

具体应用方式二：分词应用阶段

而，其中各特征的提取细节步骤为：

f₃=此字符

Claims

1.一种自适应的分词方法，其特征是：它包括以下步骤：

方法由训练模型和应用模型两个阶段组成，其中训练阶段包括：

训练步骤二：从训练语料中提取语料高相关的词语，对词典进行扩充；

；

训练步骤四：对训练语料S的各个字符的类别进行数字化表示，对应得到各句子S(i)的每个序位上的字符s(i,j_i)对应的类别表示结果g(i,j_i)

；

2.根据权利要求1所述的方法，其特征在于所述训练阶段的步骤二具体包括：

训练步骤二三：在WD中找出依序排列的第st个序位(1<st<NWU)，使得NWD中前st个序位对应的频次满足：

训练步骤二六：将WDA中所有词加入原来的词典中D，构成新的词典Dt，此字典中长度最长的词的长度记为NLDt。

3.根据权利要求1或权利要求2所述的方法，其特征在于所述训练阶段的步骤三具体包括：

训练步骤三一：对各个句子S(i)中的每个序位上的字符，建立各序位的字符对应的5个一元语法特征，分别表示为f₁,f₂,f₃,f₄,f₅：

f₃=此字符

f₁₅=在本句中，用此字符的前NL_Dt个序位至此字前1个序位的字在词典Dt中采用正向最大匹配后，得到的经过此位置并且不以此字为结尾字符的最长词的长度值；若没有符合条件的情况，长度即为0。

4.根据权利要求1所述的方法，其特征在于所述应用阶段具体包括：

而，其中各特征的提取细节步骤为：

应用步骤二一：对句子R中的每个序位上的字符，建立各序位的字符对应的5个一元语法特征，分别表示为f₁,f₂,f₃,f₄,f₅：

f₃=此字符