CN107256212A

CN107256212A - 中文搜索词智能切分方法

Info

Publication number: CN107256212A
Application number: CN201710475020.8A
Authority: CN
Inventors: 张鹏
Original assignee: BEIJING BLTSFE INFORMATION TECHNOLOGY Co Ltd
Current assignee: BEIJING BLTSFE INFORMATION TECHNOLOGY Co Ltd
Priority date: 2017-06-21
Filing date: 2017-06-21
Publication date: 2017-10-17

Abstract

本发明提供了一种中文搜索词智能切分方法，该方法包括：对待输入的文本串，通过预处理得到N组预切分结果，然后基于统计分析和词库优化切分结果，并基于语法对进行新词进行识别，最后进行词性标注，得到最终的切分结果。本发明提出了一种中文搜索词智能切分方法，对于结构复杂的语句识别的准确率明显提高，克服了单独使用基于HMM的模型不能体现复合结构特征的缺点，大大改善系统的整体性能，基本符合实际搜索的需要。

Description

中文搜索词智能切分方法

技术领域

本发明涉及自然语言，特别涉及一种中文搜索词智能切分方法。

背景技术

中文信息处理是计算机互联网应用中的一个重要构成部分，包括多个层面的信息处理任务，包括字词处理、短语处理、句子处理以及全文处理。在中文信息处理的广泛应用中，首先遇到的是词的切分问题。目前对于分词的研究已经取得了很大的成果，广泛应用到多个技术领域当中，包括自动检索、信息分类、话音识别、自动翻译以及内容标注等。而伴随着信息多元化与复杂化日趋明显，在信息处理及应用领域必须跨越传统单纯文本的检索，例如在语音搜索引擎和自动问答系统中，必须对关键字进行语义分析和处理。由于汉语自身的复杂性，歧义和新词识别仍是急需解决的难题，基于近几年语音搜索引擎的实际分析能力来看，距离客观需求标准还是存在较大差距。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种中文搜索词智能切分方法，包括：

对待输入的文本串，通过预处理得到N组预切分结果，然后基于统计分析和词库优化切分结果，并基于语法对进行新词进行识别，最后进行词性标注，得到最终的切分结果。

优选地，所述通过预处理得到N组预切分结果，进一步包括：

对输入的文本中包含的字母、符号符号用分隔符隔开，然后构建DAG图，对DAG图进行遍历得到N组预切分结果，对输入的文本进行字体转化、文本断句和原子切分，输入的文本经过预处理模块后分解成小的处理单元。

优选地，所述对DAG图进行遍历得到N组预切分结果，进一步包括：

对于预处理后的切分结果W，给求解概率P(W)赋予一个最大是N种的切分结果集合；

假设字串S＝c₁，c₂，…，c_n的一个切分结果是w＝w₁，w₂，…，w_m，w_i所代表的是一个词，P(w_i)所代表的是w_i出现概率；

P(w_i)的极大估计值是和词频相等，也就是：

其中k_i表示w_i在训练样本中出现的次数；

根据上述公式得到W的联合概率：

修改切分得到的DAG图的边长，采用加1处理：

1)<V_k-1，V_k>的长度值为L_k＝-ln(0+1)，(k＝1，2，…，n)

2)W＝C₁，C₂，…，C_j对所对应的有向边为<V_i-1，V_j>，其长度值为

最后，得到修改边长之后的一个DAG图；

然后通过贪心算法，针对所有的节点位置，记录N个最短路径值，同时记录相应路径当中的节点前驱情况；如果同一长度能够对应多条路径，则将所有路径中的节点前驱进行记录，从而采用回溯方法求解。

优选地，所述基于统计分析和词库优化切分结果，进一步包括：

对于输入文本的第一次分词，同时利用基于HMM方法识别出部分新词，然后通过频度分析，提取权重较大的值存入递增词库，通过递增词库不断增加主词库的容量，消除由分词词库的大小而引起的歧义。

优选地，所述基于语法对进行新词进行识别，进一步包括：

利用多进程活跃度识别新词对分词得到的新词的识别，输出为经过识别出部分新词和歧义的切分单元，对歧义切分进行二次修正，计算出分词的最优结果。

本发明相比现有技术，具有以下优点：

本发明提出了一种中文搜索词智能切分方法，对于结构复杂的语句识别的准确率明显提高，克服了单独使用基于HMM的模型不能体现复合结构特征的缺点，大大改善系统的整体性能，基本符合实际搜索的需要。

附图说明

图1是根据本发明实施例的中文搜索词智能切分方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

本发明的一方面提供了一种中文搜索词智能切分方法。图1是根据本发明实施例的中文搜索词智能切分方法流程图。

本发明的分词系统包括：预处理模块、分词模块、新词识别模块和词性标注模块。首先，分词预处理模块是对待输入的文本进行预切分，得到N组预切分的最优结果，对输入的文本中包含的字母、符号符号用分隔符隔开，然后构建DAG图，对DAG图进行遍历得到N组预切分结果，即对输入的文本进行字体转化、文本断句和原子切分。输入的文本经过预处理模块后分解成小的处理单元，提高分词系统的整体性能。

分词模块根据分词词库和统计模型进行分词，对预处理模块后的N组预切分结果进行进一步的优化，找出概率最大的结果。采用了基于词库和统计相结合的算法，对于输入文本的第一次分词，同时利用基于改进的HMM方法识别出部分的新词，然后通过频度分析，提取权重较大的值存入递增词库，分词词库是一个动态更新的词库，通过递增词库不断增加主词库的容量，可以最大限度的消除由分词词库的大小而引起的歧义。

在文本经过预处理模块和分词模块后，新词识别模块利用多进程活跃度识别新词对分词得到的新词的识别，输出为经过识别出部分新词和歧义的切分单元，对歧义切分进行二次修正，计算出分词的最优结果。多进程具体包括，通过第一层的统计进程，即活跃度自组织的隐马尔科夫统计模型，对输入的文本进行序列的进一步识别，然后利用第二层的规则进程，即规则库中的多个子进程，对统计进程识别的结果进行修正。匹配监控进程，对系统中统计进程和规则进程的活跃度状态值的变化进行监测，最终输出的识别结果。

通过最后的词性标注模块进行标注和修正，输出切分结果。

本发明的方法对待输入的文本串，通过预处理得到N组预切分结果，然后通过改进的统计分析过程和词库相结合，进一步优化切分结果，然后通过基于语法的新词识别方法进行新词的识别，最后进行词性标注，得到最终的切分结果。

对于预处理后的切分结果W，给求解概率P(W)赋予一个最大是N种的切分结果集合。假设字串S＝c₁，c₂，…，c_n的一个切分结果是w＝w₁，w₂，…，w_m，w_i所代表的是一个词，P(w_i)所代表的是w_i出现概率。P(w_i)的极大估计值是和词频相等，也就是：

其中k_i表示w_i在训练样本中出现的次数。

根据上述公式得到W的联合概率：

修改切分得到的DAG图的边长，为能够使得数据信息平滑简单，采用加1处理：

1)<V_k-1，V_k>的长度值为L_k＝-ln(0+1)，(k＝1，2，…，n)

最后，得到修改边长之后的一个DAG图。然后通过贪心算法来求解。针对所有的节点位置，记录N个最短路径值，同时记录相应路径当中的节点前驱情况。如果同一长度能够对应多条路径，则将所有路径中的节点前驱进行记录，从而采用回溯方法求解。

在本发明的系统中，对分词词库的结构进行了改进，有主词库和递增词库两部分组成。主词库采用多级散列存储结构，在初始化时包括常用的词，随着分词的学习不断加载词条，完善主词库。递增词库在初始化时数据为空，需要不断更新，并把符合预设条件的词条实时的存入到主词库中。

所述多级散列具体包括以下3部分：首字散列表，每个单元包括两个内容，即关键字和表指针，关键字指向中文字A，表指针指向以A起始的所有词的第二个字的索引；次字散列表，每个单元包括关键字和字符串指针，关键字指向中文字B，表指针指向以AB开始的全部词的剩余字符串；剩余串表，排序保存以AB开头的词库中所有词的字符串。

其中，加载主词库的数据结构采用以下方法：

1.首先打开文本文件，读取文件中的第一个词条；

2.读取该词条的首字，并且要和核心词库里面的首字散列表进行对比分析；

3.判断次字关键字词库里面是否有相符字符；

4.把剩余的子串添加到词库下文里面；

5.循环判断文本文件是否已经结束，若是，标记核心词库加载成功；否则复第2步到第4步。

递增词库用于持续扩充主词库，在分词过程当中，统计得出新生词的词频信息。当满足阈值条件时，则将该词存入主词库，并将该词从递增词库去除。为了节省空间，本发明采用中文字的GB2312码构建得出散列函数定位相同码值，并产生递增词库。递增词库的加载是在分词系统初始化以后，语料是学习阶段的待分文本。在实际的加载过程中，需要把所有词按照规定的数据结构存入递增词库，并且记录词语的频度，在预处理阶段将需要分解的文本变成多个短单元，并且统计单句数量。将递增词库中将空间分为大块数据。在每个大块数据里面，都各自存储首字相同的词条。

对于新词识别，本发明通过大量训练语料对统计模型进行训练，得到初步估计值，然后通过自组织学习，去除掉弱链接和实现相邻的状态共享，并对每个状态的活跃度值进行监测，最后重新进行参数估计，得到HMM状态图和最优的新词标记序列。

采用5元组来表示统计模型：S，O，R，W，n，各种参数的定义为：

S＝{S₁，S₂，…，S_n}表示状态集合；

O表示每个S的观测值，O＝{O₁，O₂，…，O_n}表示观测值序列；

R＝{r_ij}表示状态转移矩阵，r_ij表示状态S_i转移到状态S_j的概率；

概率分布矩阵W＝{w_j(k)}表示从状态S_j观测到O_k的概率；

本发明的新词识别是以词性序列作为观测值，每个状态代表某一类新词的内部组成成分、上下文信息或无关成分。采用{B，I，E}作为新词的状态标记集，其中B、I、E分别表示新词的开始、内部和结尾。

给定词性序列X＝{x_l，x₂，…，x_n}，识别过程即获取最优的标注序列Y＝{y_l，y₂，…，y_n}，使得条件概率P(Y|X)值达到最大，其中

P(Y|X)＝P(Y)P(X|Y)/P(X)

识别过程中，观测值为词性，P(X)为常数，得到参数的初步估计值，然后通过HMM的自组织学习，最终输出Y为：

其中P(y_i，y_i-1)表示状态y_i-1到状态y_i的转移概率，p(x_i|y_i)表示状态y_i出现的条件下观测到x_i的发射概率。

对于给定模型和观测值序列，找出概率最大的状态序列，即解码过程。最后在观测序列O的条件下，得到最优内部状态序列。

新词有很大一部分是多个词复合而成的，其内部结构嵌套多种类型的新词。因此本发明通过规则进程中多个子进程的共同协商协调，对统计进程识别的结果进行二次修正。规则库中的每条规则的组成如下：

POS<LOC>+CONTEXT<LOC>＝RESULT<LOC><TYPE>

其中，POS是指词性序列，LOC是指位置，分别用-1，0，1表示前一位，当前位和下一位，CONTEXT是指内部关键词、前后缀词和新词前后的指示词，RESULT是指新词修正后的最终结果，TYPE是指新词的类型，如人名，地名，机构名，术语，针对不同类型的新词，提取不同的规则，并且按照一定权重进行遍历选择。

定义出现在专有名词前面的词为前缀词PreNs，出现在专有名词后面的词为后缀词SufNs，利用前后缀识别出简单的专有名词，对于比较复杂的专有名词，利用首字作为触发词，同时引用到专有名词用字表，规则如下：

P0(ns)+W1(SuNfs)—T0(Ns)；

P0(ni)+W1(SuNfs)—T0(Ni)；

P0(nz)+W1(SuNfs)—T0(Nz)；

表示当前词的词性为ns、ni或者nz时，且下一个词的是ns、ni或nz的后缀词，则当前词的新词标记是分别为NS、Ni或者Nz。

通过新词的内部特征识别复合的新词，内部特征包括内部词性序列和特征词两部分，其中内部词性序列是指组成复合词的各个词对应的词性，从训练语料中获取，并满足一定的阈值，特征值是指具有明确指示新词类别的词语。规则如下：

①POS+Pro+Nh|Ns|Ni|Nz；

②特征词+Nh|Ns|Ni|Nz；

其中POS是指复合NE的词性串序列，Pro是指词性串出现的次数除以POS出现的总数，即是词性串序列出现的概率，Nh|Ns|Ni|Nz为POS或特征词对应的NE类别。

通过不同类型新词处理子进程的协商协调，对统计进程识别的结果进行消歧，提高系统的正确率。

进一步而言，本发明通过增加一层匹配监控进程，对新词识别过程中的统计进程和规则进程的活跃度状态值T进行监测，并且通过活跃度状态值T的变化进行调整，保证各个进程之间协商协调的工作，具体定义如下：

设A是由n个子进程组成的进程，A＝[a₁，a₂，…，a_m]^T，B是由m个子进程组成进程，B＝[b₁，b₂，…，b_m]^T，因此，各层进程间的联络矩阵C：

C＝AB^T

当a_ib_j＝1时，表示A层中第i个和B层中的第j个子进程有活跃度；当a_ib_j＝0时，表示A层中第i个和B层中的第j个子进程没有活跃度。

设D表示权重矩阵，D中的元素d_ij表示A层中的第i个到B层中的第j个子进程的权重选择值，则相应的状态活跃度值为：

在识别过程中，各个进程的活跃度状态值用T表现，通过权重矩阵D，来衡量各层进程中各个子进程的路径选择。利用规则进程对统计进程的结果进行修正时，只有当对应的词性序列、内部特征和上下文相关信息相匹配时，此时a_ib_j＝1，才能利用规则库中的子进程进行修正。当一个词性同时匹配了规则进程中的两种类型时，则选择活跃度状态值T较大的路径，即词性出现的次数除以该词出现的总次数的值最大的类型作为新词识别的结果。

综上所述，本发明提出了一种中文搜索词智能切分方法，对于结构复杂的语句识别的准确率明显提高，克服了单独使用基于HMM的模型不能体现复合结构特征的缺点，大大改善系统的整体性能，基本符合实际搜索的需要。

显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在存储系统中由计算系统来执行。这样，本发明不限制于任何特定的硬件和软件结合。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种中文搜索词智能切分方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过预处理得到N组预切分结果，进一步包括：

3.根据权利要求2所述的方法，其特征在于，所述对DAG图进行遍历得到N组预切分结果，进一步包括：

P(w_i)的极大估计值是和词频相等，也就是：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>k</mi> <mi>i</mi> </msub> <mo>/</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>k</mi> <mi>j</mi> </msub> </mrow>

其中k_i表示w_i在训练样本中出现的次数；

根据上述公式得到W的联合概率：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&Pi;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>k</mi> <mi>i</mi> </msub> <mo>/</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>k</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

修改切分得到的DAG图的边长，采用加1处理：

1)<V_k-1，V_k>的长度值为L_k＝-ln(0+1)，(k＝1，2，…，n)

<mrow> <mi>L</mi> <mi>w</mi> <mo>=</mo> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>k</mi> <mi>j</mi> </msub> <mo>+</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>k</mi> <mi>i</mi> </msub> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

最后，得到修改边长之后的一个DAG图；

4.根据权利要求1所述的方法，其特征在于，所述基于统计分析和词库优化切分结果，进一步包括：

5.根据权利要求1所述的方法，其特征在于，所述基于语法对进行新词进行识别，进一步包括：