CN104317882B

CN104317882B - 一种决策级中文分词融合方法

Info

Publication number: CN104317882B
Application number: CN201410564432.5A
Authority: CN
Inventors: 张春霞; 梁峰; 王树良; 金福生; 牛振东
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2014-10-21
Filing date: 2014-10-21
Publication date: 2017-05-10
Anticipated expiration: 2034-10-21
Also published as: CN104317882A

Abstract

本发明公开了一种决策级中文分词融合方法，属于自然语言处理和智能信息处理领域。本方法首先利用三种分词工具对中文文本中的句子进行分词，并对分词结果进行预处理，利用整型数组保存每个分词工具的分词结果。然后采用决策级分词融合模型进行分词，决策级分词融合模型为分层的融合结构，包括特征级和决策级，最后采用一种基于Web的方法识别句子中的未登录词。本方法通过采用决策级融合方式进行分词结果融合，有效提高了分词结果的准确性。本发明在信息检索、文本分类、主题检测、网络内容监控等领域具有广阔的应用前景。

Description

一种决策级中文分词融合方法

技术领域

本发明涉及一种决策级中文分词融合方法，属于自然语言处理、信息检索、问答系统和智能信息处理领域，适用于信息检索、文本分类、主题检测、网络内容监控等。

背景技术

汉语作为一种词根语，缺乏形态变化，词语之间的语法关系通过词序和虚词来表示。中文文本书写采用词标的形式，词语之间没有显式的形态界限。因此，汉语的这些特点使得针对英文等其他语言处理的方法不能完全适用于中文信息处理。中文分词是信息检索、信息提取、文本分类、自动文摘、问答系统等中文信息处理任务的基础。

现有的中文分词方法可以分为三大类：基于词典的方法、基于统计的方法以及混合的方法。其中，基于词典的分词方法，其匹配原则包括最大匹配、最小匹配、逐词匹配和最佳匹配，文本扫描顺序包括正向扫描、逆向扫描和双向扫描。基于统计的分词方法主要是利用词语之间的联合出现概率作为分词的依据，常用的统计量或统计模型包括互信息、神经网络模型、隐马尔科夫模型和最大熵模型等。

中文分词的两大困难是对未登录词的识别和切分歧义的消除。其中，未登录词可以分为两大类：一类是新词，即新出现的通用词汇或者专业术语等，例如“大数据”和“天宫一号”；另一类是专有名词，例如地名和组织机构名等。现有的未登录词识别方法包括基于规则的方法和基于语料学习的方法。基于规则的方法依赖于人工构建的规则。当将该方法移植到新领域时，需要重新构建规则以适用领域的变化。基于语料学习的方法依赖于经过人工构建的语料库，通过机器学习方法，从训练语料中学习未登录词识别的规则或统计模型，进而识别测试语料的未登录词。

信息融合是指对来自多数据源的数据进行检测、分析、识别和综合以完成所需的决策和估计任务而进行的信息处理过程。多源数据是信息融合的处理对象，综合优化是信息融合的核心。信息融合的基本原理是通过对多源信息的合理使用，把多源信息在空间或时间等方面的冗余或互补根据某种准则进行综合优化，以获得比单个数据源更准确和更全面的信息。信息融合可分为数据级融合、特征级融合，以及决策级融合。数据级融合是最低层次的融合，是指对多个信息源的原始数据不经过处理直接进行综合和分析。特征级融合是指对多源原始数据进行数据层信息的表示和提取，然后对提取的特征层信息进行综合分析和处理。决策级融合是最高层次的融合，是指分别对每个数据源的数据进行预处理、特征提取和识别，然后按照某种准则构建全局优化的决策。多数投票法是决策级信息融合的一种简单有效的方法。信息融合技术已广泛应用于智能检测、机器人、图像分析、目标检测与跟踪、自动目标识别等领域。

发明内容

本发明的目的是针对现有中文分词工具对不同中文文本分词效果不稳定，以及对未登录词识别准确率不高的问题，提出一种决策级中文分词融合方法。

本方法以多种分词工具为研究对象，通过构建决策级分词融合模型获得准确率更高和对不同文本分词效果更稳定的分词结果，进而提高分词的准确率。

本发明是由以下技术方案实现的。

一种决策级中文分词融合方法，包括以下步骤：

步骤一、利用任意三个中文分词工具分别对待处理文本中的句子进行分词。

所选用的中文分词工具可以是在本技术领域中已有的任意三个分词工具，也包括未来会出现的新的中文分词工具。

步骤二、对得到的三个分词结果进行预处理。具体如下：

将待处理句子保存为字符串数组{s₁,s₂,…,s_n}。其中，n为自然数，表示句子中所有字符的个数，每个数组元素s_i(i＝1,2,…,n)表示单个汉字、标点符号、数字或英文字符。获取三个分词工具的分词结果，连续的两个词语之间用一个空格分隔。

同时，构建三个整型数组，分别记录三个分词结果中每个非空格字符的位置索引，即，整型数组元素记录字符串数组{s₁,s₂,…,s_n}中s_i(i＝1,2,…,n)在分词结果中的位置索引。

步骤三、对字符串数组{s₁,s₂,…,s_n}和三个整型数组，利用决策级分词融合方法进行分词。具体如下：

首先，设三个整型数组为A＝{a₁,a₂,…,a_n}、B＝{b₁,b₂,…,b_n}、C＝{c₁,c₂,…,c_n}，分别记录第一个、第二个、第三个分词结果中s₁,s₂,…,s_n的位置索引，设三个分词工具的准确率为p₁,p₂,p₃。

这三个整型数组具有如下三个技术特征：

第一，对于待处理句子的第i个字符s_i和第i+1个字符s_i+1，在分词结果中二者之间要么存在词语分隔标记空格，要么不存在空格。以数组A为例，对于第i个和第i+1个字符在分词结果中的位置索引a_i和a_i+1，只能满足下述关系之一：若第i个字符和第i+1个字符之间不存在空格，则a_i+1＝a_i+1；若它们之间存在空格，则a_i+1＝a_i+2。

第二，对于第i个和第i+1个字符在三个分词结果中的位置索引a_i,,b_i,c_i和a_i+1,b_i+1,c_i+1，若a_i＝b_i＝c_i，由于在分词结果中第i个字符与第i+1个字符之间只能存在空格或者不存在空格，因此a_i+1,b_i+1,c_i+1中任意两者要么相等，要么差值为1。此外，a_i+1,b_i+1,c_i+1中至少存在两者相等。

第三，在分词过程中，在判别第i(i＝1,2,…,n)个字符的位置索引后，将三个整型数组中记录该字符在三个分词结果中的位置索引都赋值为分词融合方法中第i个字符的位置索引。

然后，采用决策级分词融合方法进行分词。过程如下：

对于待处理句子的第一个字符s₁，有a₁＝b₁＝c₁＝1，则判别第1个字符的位置索引为a₁。

对于待处理句子的第i(i＝2,…,n)个字符，若a_i＝b_i＝c_i，则判别第i个字符的位置索引为a_i。

若a_i＝b_i＝c_i不成立，根据整型数组的特征可知三个整型数组中记录三种分词结果的第i-1个字符的位置索引相同，即a_i-1＝b_i-1＝c_i-1，并且a_i,,b_i,c_i中存在两个数组元素的值相等。若a_i＝b_i，则第i个字符在分词融合结果中的位置索引为a_i的概率p＝p₁+p₂+(1-p₃)。若a_i＝c_i，则第i个字符在分词融合结果中的位置索引为a_i的概率p＝p₁+(1-p₂)+p₃。若b_i＝c_i，则第i个字符在分词融合结果中的位置索引为b_i的概率p＝(1-p₁)+p₂+p₃。

当a_i＝b_i时，若p≥0.5，则判别第i个字符的位置索引为a_i。若a_i<c_i，根据整型数组的特征，可知a_i+1＝c_i。将第三个分词结果的整型数组中第i个元素至最后一个元素的值减1。若a_i>c_i，根据整型数组的特征可知a_i＝c_i+1。将第三个分词结果的整型数组中第i个元素至最后一个元素的值加1，然后继续处理第i+1个字符。

当a_i＝b_i时，若p<0.5，则判别第i个字符的位置索引为c_i。若a_i<c_i，根据整型数组的特征，可知a_i+1＝c_i。将第一个和第二个分词结果的两个整型数组中第i个元素至最后一个元素的值加1。若a_i>c_i，根据整型数组的特征，可知a_i＝c_i+1。将第一个和第二个分词结果的两个整型数组中第i个元素至最后一个元素的值减1。继续处理第i+1个字符。

当a_i＝c_i时，若p≥0.5，则判别第i个字符的位置索引为a_i。若a_i<b_i，根据整型数组的特征，可知a_i+1＝b_i。将第二个分词结果的整型数组中第i个元素至最后一个元素的值减1。若a_i>b_i，根据整型数组的特征，可知a_i＝b_i+1。将第二个分词结果的整型数组中第i个元素至最后一个元素的值加1，然后继续处理第i+1个字符。

当a_i＝c_i时，若p<0.5，则判别第i个字符的位置索引为b_i。若a_i<b_i，根据整型数组的特征，可知a_i+1＝b_i。将第一个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值加1。若a_i>b_i，根据整型数组的特征，可知a_i＝b_i+1。将第一个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值减1。继续处理第i+1个字符。

当b_i＝c_i时，若p≥0.5，则判别第i个字符的位置索引为b_i。若b_i<a_i，根据整型数组的特征，可知b_i+1＝a_i。将第一个分词结果的整型数组中第i个元素至最后一个元素的值减1。若b_i>a_i，根据整型数组的特征，可知b_i＝a_i+1。将第一个分词结果的整型数组中第i个元素至最后一个元素的值加1，然后继续处理第i+1个字符。

当b_i＝c_i时，若p<0.5，则判别第i个字符的位置索引为a_i。若b_i<a_i，根据整型数组的特征，可知b_i+1＝a_i。将第二个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值加1。若b_i>a_i，根据整型数组的特征，可知b_i＝a_i+1。将第二个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值减1。继续处理第i+1个字符，重复上述过程直至处理完句子中所有字符。

步骤四、采用基于Web的方法，对未登录词进行识别。具体如下：

设k＝1，k为整数。

第一步，在对句子分词的结果中，从第k个词语开始，分别将连续两个、三个、四个相邻的词语合并为候选未登录词w₁,w₂,w₃。

第二步，将候选未登录词作为关键词提交到网络上搜索候选未登录词。

第三步，判断候选未登录词是否为有效的未登录词。

判断依据是候选未登录词在网络中存在相应的百科页面。具体而言，在网络页面返回结果的超文本标记语言Html源码中<title>标签包含候选未登录词。若w₃为未登录词，则设置k＝k+4，执行第四步，否则判断w₂是否为未登录词。若w₂为未登录词，则设置k＝k+3，执行第四步，否则判断w₁是否为未登录词。若w₁为未登录词，则设置k＝k+2，执行第四步，否则设置k＝k+1，执行第四步。

第四步，若k<n，则返回第一步执行，否则结束循环。

至此，就完成了本方法的全部过程。

有益效果

本发明方法，针对单个分词工具对不同中文文本分词效果不稳定的现状，引入数据融合思想，采用一种决策级分词融合方法进行分词。该方法将多个分词工具的分词结果在决策级进行融合，以降低单个分词工具处理不同文本时产生的分词准确率的波动，提高分词结果的准确率。

(1)在决策级分词融合模型中，分层的融合结构一方面保持了每个分词工具的独立性，能够完成分词融合系统中多种分词工具的不同组合的分词融合。另一方面，降低了分词融合系统的复杂性，提高了分词融合系统的灵活性，可以动态地增加和更新分词工具。

(2)本发明的决策级分词融合方法，不但利用了每个分词工具的优势，而且通过决策级分词融合模型避免了各个分词工具的不足，具有较强的鲁棒性。也就是，尽可能保留每个分词工具分词准确的地方，多个分词工具的群体智能能够避免单个分词工具的分词错误。

(3)将分词融合系统应用于不同任务需要更高的准确性和实时性时，分层的融合结构可以通过分别改进单个分词工具的性能来提高全局分词融合系统的性能，即提高系统的准确性、灵活性和自适应性。

(4)在未登录词识别方法中，选取互联网信息作为验证候选未登录词的来源，具有实时性和海量性的特点，能够识别不断增加的未登录词，从而提高分词的准确率。

附图说明

图1为本发明方法的流程图。

具体实施方式

下面结合实施例对本发明方法进行详细说明。

实施例

本实施例以Eclipse为开发平台，Java为开发语言，使用JSoup网页解析工具。三个分词工具选用ICTCLAS、哈尔滨工业大学LTP、斯坦福大学Chinese Segment，它们均可通过网络下载获得。

一种决策级中文分词融合方法，包括以下步骤：

步骤一、将待处理句子分别提交给三个分词工具进行分词。

步骤二：对三个分词结果进行预处理。具体如下：

将待处理句子保存为字符串数组{s₁,s₂,…,s_n}。其中，n为自然数，表示句子中所有字符的个数，每个数组元素s_i(i＝1,2,…,n)表示单个汉字、标点符号、数字或英文字符。获取三个分词工具的分词结果，连续两个词语之间用一个空格分隔。

例如，对于句子“小李有一件皮大衣。”，它的一种分词结果为“小李Λ有Λ一件Λ皮大衣Λ。”，其中“Λ”表示空格。保存该句子的字符串数组元素的值依次为“{小,李,有,一,件,皮,大,衣,。}”。记录句子字符在该分词结果中位置索引的整型数组元素的值依次为“{1,2,4,6,7,9,10,11,13}”。其中，表示字符“小”在分词结果中的位置索引为1，“李”的位置索引为2，“有”的位置索引为4，“一件”的位置索引分别为6和7，“皮大衣”的位置索引分别为9,10,11，句号“。”的位置索引为13。

首先，设三个整型数组为A＝{a₁,a₂,…,a_n}、B＝{b₁,b₂,…,b_n}、C＝{c₁,c₂,…,c_n}，分别记录第一种、第二种、第三种分词结果中s₁,s₂,…,s_n的位置索引，设三种分词工具的准确率为p₁,p₂,p₃。

这三个整型数组具有如下三个技术特征：

第二，对于第i个和第i+1个字符在三个分词结果中的位置索引a_i,b_i,c_i和a_i+1,b_i+1,c_i+1，若a_i＝b_i＝c_i，由于在分词结果中第i个字符与第i+1个字符之间只能存在空格或者不存在空格，因此a_i+1,b_i+1,c_i+1中任意两者要么相等，要么差值为1。此外，a_i+1,b_i+1,c_i+1中至少存在两者是相等的。

然后，采用决策级分词融合方法进行分词。过程如下：

若a_i＝b_i＝c_i不成立，根据整型数组的特征，可知三个整型数组中记录三种分词结果的第i-1个字符的位置索引相同，即a_i-1＝b_i-1＝c_i-1，并且a_i,b_i,c_i中存在两个数组元素的值相等。若a_i＝b_i，则第i个字符在分词融合结果中的位置索引为a_i的概率p＝p₁+p₂+(1-p₃)。若a_i＝c_i，则第i个字符在分词融合结果中的位置索引为a_i的概率p＝p₁+(1-p₂)+p₃。若b_i＝c_i，则第i个字符在分词融合结果中的位置索引为b_i的概率p＝(1-p₁)+p₂+p₃。

当a_i＝b_i时，若p<0.5，则判别第i个字符的位置索引为c_i。若a_i<c_i，根据整型数组的特征，可知a_i+1＝c_i。将第一个和第二个分词结果的两个整型数组中第i个元素至最后一个元素的值加1。若a_i>c_i，根据整型数组的特征可知a_i＝c_i+1。将第一个和第二个分词结果的两个整型数组中第i个元素至最后一个元素的值减1。继续处理第i+1个字符。

例如，对于待处理句子“小李有一件皮大衣。”，它的三种分词结果为“小Λ李有Λ一件Λ皮大Λ衣Λ。”，“小李Λ有Λ一Λ件Λ皮Λ大Λ衣Λ。”，“小李Λ有Λ一件Λ皮大衣Λ。”。对于第一个字符“小”，三种分词结果中该字符的位置索引都为1，则分词融合方法判断第一个字符的位置索引为1，继续处理第二个字符。

对于第二个字符“李”在三种分词结果中的位置索引a₂,b₂,c₂，有a₂＝3,b₂＝2,c₂＝2，由于b₂＝c₂，则分词融合方法中该字符在分词融合结果中的位置索引为b₂的概率p＝(1-p₁)+p₂+p₃。(1)若p≥0.5，则分词融合方法判别字符s₂的位置索引为b₂。由于a₂＝b₂+1，则将整型数组A中第二个到最后一个元素的值减1。(2)若p<0.5，则分词融合方法判别字符s₂的位置索引为a₂。由于a₂＝b₂+1，则将整型数组B和C中从第二个到最后一个元素的值加1。依照此方法，直至处理完句子中的最后一个字符。

设k＝1，k为整数。

第一步，在分词融合方法对句子分词的结果中，从第k个词语开始，将连续两个、三个、四个相邻的词语合并为候选未登录词w₁,w₂,w₃。

第二步，将候选未登录词作为关键词提交到网络(如互动百科网站)上搜索候选未登录词。

第三步，判断候选未登录词是否为有效的未登录词。

判断依据是候选未登录词在互动百科网站中存在相应的百科页面，具体而言，在互动百科网站返回结果的超文本标记语言Html源码中<title>标签包含候选未登录词。若w₃为未登录词，则设置k＝k+4，执行第四步，否则判断w₂是否为未登录词。若w₂为未登录词，则设置k＝k+3，执行第四步，否则判断w₁是否为未登录词。若w₁为未登录词，则设置k＝k+2，执行第四步，否则设置k＝k+1，执行第四步。

第四步，若k<n，n为句子中所有字符的个数，则返回第一步执行，否则结束循环。

本实施过程构建了含有约170万短语构成的文本集进行实验测试。这些短语来自百度百科的词条，分词过程中将一个短语看作一个句子进行处理。采用三个分词工具进行分词的效果如下：ICTCLAS的准确率为39.28％，Chinese Segment的准确率为34.87％，LTP的准确率为53.24％。本发明中，利用步骤三的分词方法的分词准确率为46.63％，进一步利用步骤四的未登录词识别方法的分词准确率为89.70％。通过实验表明，本发明提出的分词方法发挥了各个分词工具的优势，其准确率高于其他三个单独的分词工具，从而验证了其有效性。

Claims

1.一种决策级中文分词融合方法，其特征在于包括以下步骤：

步骤一、利用任意三个中文分词工具分别对待处理文本中的句子进行分词；

步骤二、对得到的三个分词结果进行预处理，具体如下：

将待处理句子保存为字符串数组{s₁,s₂,…,s_n}，其中，n为自然数，每个数组元素s_i代表单个汉字、标点符号、数字或英文字符，i＝1,2,…,n；获取三个分词工具的分词结果，连续的两个词语之间用一个空格分隔；

同时，构建三个整型数组，分别记录三个分词结果中每个非空格字符的位置索引，即，整型数组元素记录字符串数组{s₁,s₂,…,s_n}中s_i在分词结果中的位置索引，i＝1,2,…,n；

步骤三、对字符串数组{s₁,s₂,…,s_n}和三个整型数组，利用决策级分词融合方法进行分词，具体如下：

首先，设三个整型数组为A＝{a₁,a₂,…,a_n}、B＝{b₁,b₂,…,b_n}、C＝{c₁,c₂,…,c_n}，分别记录第一个、第二个、第三个分词结果中s₁,s₂,…,s_n的位置索引，设三个分词工具的准确率为p₁,p₂,p₃；

对于待处理句子的第i个字符s_i和第i+1个字符，在分词结果中二者之间要么存在词语分隔标记空格，要么不存在空格；对于第i个和第i+1个字符在分词结果中的位置索引a_i和a_i+1，只能满足下述关系之一：若第i个字符和第i+1个字符之间不存在空格，则a_i+1＝a_i+1；若它们之间存在空格，则a_i+1＝a_i+2；

对于第i个和第i+1个字符在三个分词结果中的位置索引a_i,b_i,c_i和a_i+1,b_i+1,c_i+1，若a_i＝b_i＝c_i，由于在分词结果中第i个字符与第i+1个字符之间只能存在空格或者不存在空格，因此a_i+1,b_i+1,c_i+1中任意两者要么相等，要么差值为1，此外，a_i+1,b_i+1,c_i+1中至少存在两者相等；

在分词过程中，在判别第i个字符的位置索引后，i＝1,2,…,n，将三个整型数组中记录该字符在三个分词结果中的位置索引都赋值为分词融合方法中第i个字符的位置索引；

然后，采用决策级分词融合方法进行分词；过程如下：

对于待处理句子的第一个字符s₁，有a₁＝b₁＝c₁＝1，则判别第1个字符的位置索引为a₁；

对于待处理句子的第i个字符，i＝2,…,n，若a_i＝b_i＝c_i，则判别第i个字符的位置索引为a_i；

若a_i＝b_i＝c_i不成立，根据整型数组的特点可知三个整型数组中记录三种分词结果的第i-1个字符的位置索引相同，即a_i-1＝b_i-1＝c_i-1，并且a_i，b_i，c_i中存在两个数组元素的值相等；若a_i＝b_i，则第i个字符在分词融合结果中的位置索引为a_i的概率p＝p₁+p₂+(1-p₃)；若a_i＝c_i，则第i个字符在分词融合结果中的位置索引为a_i的概率p＝p₁+(1-p₂)+p₃；若b_i＝c_i，则分词融合方法中第i个字符在分词融合结果中的位置索引为b_i的概率p＝(1-p₁)+p₂+p₃；

当a_i＝b_i时，若p≥0.5，则判别第i个字符的位置索引为a_i；若a_i<c_i，根据整型数组的特点，可知a_i+1＝c_i；将第三个分词结果的整型数组中第i个元素至最后一个元素的值减1；若a_i>c_i，根据整型数组的特点可知a_i＝c_i+1；将第三个分词结果的整型数组中第i个元素至最后一个元素的值加1，然后继续处理第i+1个字符；

当a_i＝b_i时，若p<0.5，则判别第i个字符的位置索引为c_i；若a_i<c_i，根据整型数组的特点，可知a_i+1＝c_i；将第一个和第二个分词结果的两个整型数组中第i个元素至最后一个元素的值加1；若a_i>c_i，根据整型数组的特点，可知a_i＝c_i+1；将第一个和第二个分词结果的两个整型数组中第i个元素至最后一个元素的值减1；继续处理第i+1个字符，重复上述过程直至处理完句子中所有字符；

当a_i＝c_i时，若p≥0.5，则判别第i个字符的位置索引为a_i；若a_i<b_i，根据整型数组的特点，可知a_i+1＝b_i；将第二个分词结果的整型数组中第i个元素至最后一个元素的值减1；若a_i>b_i，根据整型数组的特点，可知a_i＝b_i+1；将第二个分词结果的整型数组中第i个元素至最后一个元素的值加1，然后继续处理第i+1个字符；

当a_i＝c_i时，若p<0.5，则判别第i个字符的位置索引为b_i；若a_i<b_i，根据整型数组的特点，可知a_i+1＝b_i；将第一个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值加1；若a_i>b_i，根据整型数组的特点，可知a_i＝b_i+1；将第一个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值减1；继续处理第i+1个字符，重复上述过程直至处理完句子中所有字符；

当b_i＝c_i时，若p≥0.5，则判别第i个字符的位置索引为b_i；若b_i<a_i，根据整型数组的特点，可知b_i+1＝a_i；将第一个分词结果的整型数组中第i个元素至最后一个元素的值减1；若b_i>a_i，根据整型数组的特点，可知b_i＝a_i+1；将第一个分词结果的整型数组中第i个元素至最后一个元素的值加1，然后继续处理第i+1个字符；

当b_i＝c_i时，若p<0.5，则判别第i个字符的位置索引为a_i；若b_i<a_i，根据整型数组的特点，可知b_i+1＝a_i；将第二个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值加1；若b_i>a_i，根据整型数组的特点，可知b_i＝a_i+1；将第二个和第三个分词结果的两个整型数组中第i个元素至最后一个元素的值减1；继续处理第i+1个字符，重复上述过程直至处理完句子中所有字符；

步骤四、对未登录词进行识别，具体如下：

设k＝1，k为整数；

第一步，在对句子分词的结果中，从第k个词语开始，分别将连续两个、三个、四个相邻的词语合并为候选未登录词w₁,w₂,w₃；

第二步，将候选未登录词作为关键词提交到网络上搜索候选未登录词；

第三步，判断候选未登录词是否为有效的未登录词；

判断依据是候选未登录词在网络中存在相应的百科页面；具体而言，在网络页面返回结果的超文本标记语言Html源码中<title>标签包含候选未登录词；若w₃为未登录词，则设置k＝k+4，执行第四步，否则判断w₂是否为未登录词；若w₂为未登录词，则设置k＝k+3，执行第四步，否则判断w₁是否为未登录词；若w₁为未登录词，则设置k＝k+2，执行第四步，否则设置k＝k+1，执行第四步；

最后，若k<n，则返回第一步执行，否则结束循环；其中，n为句子中所有字符的个数。