CN102867040B

CN102867040B - 一种面向中文搜索引擎混杂语言的查询纠错方法及系统

Info

Publication number: CN102867040B
Application number: CN201210320575.2A
Authority: CN
Inventors: 程舒杨; 熊锦华; 公帅; 颛悦; 张�成; 程学旗; 廖华明
Original assignee: People Search Network Co ltd; Institute of Computing Technology of CAS
Current assignee: People Search Network Co ltd; Institute of Computing Technology of CAS
Priority date: 2012-08-31
Filing date: 2012-08-31
Publication date: 2015-03-18
Anticipated expiration: 2032-08-31
Also published as: CN102867040A

Abstract

本发明涉及一种面向中文搜索引擎混杂语言的查询纠错方法及系统。本发明针对中文搜索引擎混杂语言查询的特点，采用面向混杂语言的异构字符树词典和基于高频或高点击次数用户查询日志构建的语言模型，对用户的查询进行同步切分和纠错尝试，利用状态之间的转移达到对查询进行切分的目的；采用双队列记录每一步编辑后最优的N个完成状态和M个未完成状态，在保障纠错速度的同时获取最佳的切分方式和对应的替代词条组合；利用最终纠错结果侯选集的特征进行判定，输出符合限定条件的纠错结果，有效地提高了准确率。

Description

一种面向中文搜索引擎混杂语言的查询纠错方法及系统

技术领域

本发明属于自然语言处理技术，尤其涉及一种面向中文搜索引擎混杂语言的查询纠错方法及系统。

背景技术

现有的搜索引擎与用户交互的主要方式是由用户输入检索词，搜索引擎针对该检索词给出对应的匹配网页。因而，从用户输入的检索词中正确的理解用户的查询需求是搜索引擎需要不断完善的功能之一。相对于传统的文本，搜索引擎中用户输入的检索词错误概率更高、错误类型更多，这主要是由于搜索引擎用户基数庞大、网络语言新颖多样等原因。据统计，输入英文搜索引擎的查询中有10%-15%含有拼写错误。查询纠错技术是目前已被大多数搜索引擎普遍运用的一项自然语言处理技术，这一技术对于提高用户检索效率和检索结果命中率具有十分重要的意义。

此前，英文查询纠错技术的相关研究主要分为两类：一种是对单词拼写进行纠错，另一种是对用词不当进行纠错。前者主要注重基于编辑距离方程的纠错模型的研究，找出在于一定编辑距离内的最合适的替代单词；后者主要利用Ngram语言模型或朴素贝叶斯分类器来检测上下文中使用不当的单词。

多数的查询纠错方法都是根据正确的词典，基于噪声信道模型，为查询中的每个词条选取N个最优替代词条，统计最可能的概率组合。其中噪声信道模型计算查询中词条的可能替代词条取决于两个概率：一个是从查询中词条转换为其替代词条的可能性，也即为查询中词条到其替代词条的编辑距离；一个是替代词条在上下文语境中出现的可能性，也即为基于统计语言模型计算出的替代词条的出现概率。在查询纠错的过程中，首先，基于正确的词典，对查询中的词条逐个进行一定范围内的编辑，使其成为词典中的某个正确的词条；而后，利用噪声信道模型计算出在给予既定的查询的条件下该正确词条的出现概率，判断是否是最优的替代词条，并保留N个最优替代词条；最后，综合编辑距离和语言模型计算所得的概率，选取最佳的替代词条组合。

在英文查询纠错中，英文有空格作为词与词之间的分隔符，而中文词之间并没有既定的分隔符，要根据词典获取词条一定编辑距离范围内的N个最优候选词，则必须先对查询进行词语的切分。但是由于中文分词是基于语义的，当查询中出现错误时，分词结果往往也是错误的。而且中文搜索引擎的查询中包含汉字、拼音和英文，对查询中拼音片段和英文词片段的切分和纠错，采用传统的分词方法显然是无法完成的。

此前，中文查询纠错技术的研究大多是通过中文模糊音匹配，将中文查询词转换为其模糊音，并通过模糊音匹配找到与其相近的候选，并输出正确集合中存在的候选词。这种方案无法处理正确集合以外的中文查询错误，而且对中文搜索引擎中英文、拼音和中文共存的情况无法处理。

由于中文搜索引擎混杂语言查询的特点，英文查询纠错方法或简单的模糊音匹配的中文查询纠错方法都不能适用于中文搜索引擎的查询纠错。在中文搜索引擎的查询中，中文的错误类型主要为同音别字、近音别字、形近别字、汉字误写为拼音、前后字位置颠倒、多字漏字等；而英文的错误类型主要为单词中字母缺失、字母写错、字母多余、缺少空格、前后字位置颠倒等。与现有的方法相比，本发明针对中文搜索引擎查询的特点，构建面向混杂语言的异构字符树词典，使得查询纠错中对字符的处理变得简易，无需考虑英文字母的组合是拼音还是英文单词，无需显性的对拼音进行切分，而只需顺序的对查询中的字或字母进行编辑处理即可；利用高频或高点击次数的查询文本建立语言模型，使得纠错结果更符合用户的需求；在查询纠错的过程中，对用户的查询进行同步切分和纠错尝试，利用状态之间的转移达到对查询进行切分的目的；采用双队列记录每一步编辑后最优的N个完成状态和M个未完成状态，在保障纠错速度的同时获取最佳的切分方式和对应的替代词条组合；并利用最终纠错结果侯选集的特征进行判定，输出符合限定条件的纠错结果，有效地提高了准确率。

发明内容

为解决上述的技术问题，本发明提出了面向混杂语言的异构字符树词典、基于高频或高点击次数的查询构建的语言模型、中英文字编辑过程中的不同处理方式以及查询同步切分和纠错尝试等方法，从而实现了对中文搜索引擎查询中多种错误类型的处理，并有效地提高了查询纠错的准确率。

为达到以上目的而提供的一种面向中文搜索引擎混杂语言的查询纠错方法，其特征在于，包括：

步骤1，构建面向混杂语言的异构字符树词典，建立语言模型；

步骤2，获取用户查询的内容，初始化n=1，建立两个空的查询处理队列，分别为完成状态队列C_n和未完成状态队列NC_n；

步骤3，对所述用户查询中的第n个字或字母进行编辑；

步骤4，以编辑后获得的字符串作为状态转移条件，基于完成状态队列C_n-1和未完成状态队列NC_n-1中的状态进行状态转移，并获得新的状态；

步骤5，判断所述获得新的状态是否为完成状态，如果是，则在该点对查询内容进行一次词语的切分，将所述查询内容切分成多个切分段，并进行纠错尝试，以所述完成状态中对应的词典节点中的词作为该切分段的替代候选词，基于所述建立语言模型更新该状态的概率；

步骤6，记录编辑后的完成状态队列C_n、未完成状态队列NC_n，根据语言模型和编辑距离选取最优的N个完成状态和M个未完成状态进行保存并用于第n+1个字的编辑，其中，编辑距离是指两个字符之间，由一个转成另一个所需的最少编辑操作次数；

步骤7，判断第n个字是否为用户查询的最后一个字，如果是则进入步骤8，否则n递增到n+1并跳转至步骤3；

步骤8，选取所述最后一个字的编辑完成后的完成状态，对得到的一组最优侯选状态进行判定，如结果符合对应特征判定规则，则返回纠错结果；否则返回原始查询。

所述步骤1中：所述面向混杂语言的异构字符树词典在建立的过程中，处理中文字符时将所述中文字符展开为所述中文字符的拼音字母，以所述拼音字母作为词典树的节点值；处理其他字符时，以所述字符作为词典树的节点值。

所述中文字符和其他字符的词典树根节点到词典树节点的路径若能构成词典中的词或词的拼音扩展形式，则在所述节点中存储所述词典中的词，并标记所述节点为完成节点；否则标记所述节点为未完成节点。

所述语言模型是利用高频或高点击次数的查询文本建立的，且所述语言模型的建立是基于高于F频次或C点击次数的用户查询日志的，针对不同批次的用户查询日志F和C的值将有所不同，所述F和C的值可通过对用户查询日志进行抽样统计而获得。

所述步骤3中：所述编辑操作对中文字采取同音匹配、多音匹配、形近字替换、近音替换、删除、前后字交换的中文编辑规则处理，对英文字母则进行匹配、替换、插入、删除、前后字交换的英文编辑规则处理。

所述步骤4中：状态转移的过程，主要包括：

a)根据所述完成状态队列C_n-1和未完成状态队列NC_n-1中状态内存储的词典树根节点来寻找编辑后获得的字符串对应的词典树路径，并找到所述编辑后获得的字符串对应的路径终节点；

b)在所述状态队列C_n-1和NC_n-1中状态内存储的状态参数的基础上更新本次的编辑操作带来的状态参数。

所述步骤5中：状态状态转移过程中获得的所述路径终节点是完成节点且所述新的状态的状态类型标记为切分完成态，则所述新的状态为完成状态，否则为未完成状态。

所述步骤5中，所述完成状态的判断方法是：通过其他状态向完成状态的转换来实现对查询内容的词语切分，并以所述完成状态中完成节点存储的词作为所述切分段的替代候选词，从词典树根节点到所述完成状态中完成节点的路径即为查询中该切分段之前编辑的结果。

所述切分处理过程是，根据对状态参数的综合评判对完成状态队列或未完成状态队列中的状态进行优劣选取。

所述步骤8中：判定过程是基于候选状态特征向量的分类，分类过程中采用侯选状态中一种或多种特征实施分类过程。

所述步骤8还包括利用候选状态分类器通过人工方式确定的分类规则或监督学习的方式获得，其中监督学习的方式即为对一批查询的侯选状态进行类型标注：分为应输出结果的状态和不应输出纠错结果的状态，并利用标注结果和特征值进行分类器的训练。

为实现本发明的目的还提供了一种面向中文搜索引擎混杂语言的查询纠错系统，包括:

预处理单元，用于构建面向混杂语言的异构字符树词典，并利用高频或高点击次数的查询文本建立语言模型；

查询处理初始化单元，用于获取用户查询的内容，初始化n=1，建立两个空的查询处理队列，分别为完成状态队列C_n和未完成状态队列NC_n；

编辑单元，用于对所述用户查询中的第n个字或字母进行编辑；

状态转移单元，用于以编辑后获得的字符串作为状态转移条件，基于完成状态队列C_n-1和未完成状态队列NC_n-1中的状态进行状态转移，并获得新的状态；

切分纠错单元，用于在所述获得的新的完成状态点对查询内容进行一次词语的切分，将所述查询内容切分成多个切分段，并进行纠错尝试，以所述完成状态中对应的词典节点中的词作为该切分段的替代候选词，基于所述语言模型更新该状态的概率；

最优状态选取单元，用于记录编辑后的完成状态于C_n、未完成状态于NC_n，根据语言模型和编辑距离选取最优的N个完成状态和M个未完成状态进行保存并用于第n+1个字的编辑；

判断处理单元，用于判断第n个字是否为用户查询的最后一个字，如果是则进入纠错结果输出单元，否则n递增到n+1并跳转至编辑单元；

纠错结果输出单元，用于选取所述最后一字的编辑完成后的完成状态，对得到的一组最优侯选状态进行判定，如结果符合对应特征判定规则，则返回纠错结果；否则返回原始查询。

所述的预处理单元包括：

混杂语言处理单元，用于在所述面向混杂语言的异构字符树词典在建立的过程中，处理中文字符时将所述中文字符展开为中文字符的拼音字母，以拼音字母作为词典树的节点值；处理其他字符时，以所述字符作为词典树的节点值。

标记单元，所述中文字符和其他字符的词典树根节点到词典树节点的路径若能构成词典中的词或词的拼音扩展形式，则在该节点中存储所述词典中的词，并标记所述节点为完成节点；否则标记所述节点为未完成节点。

语言模型建立单元，利用高频或高点击次数的查询文本建立所述语言模型，且所述语言模型的建立是基于高于F频次或C点击次数的用户查询日志的，针对不同批次的用户查询日志F和C的值将有所不同，所述F和C的值可通过对用户查询日志进行抽样统计而获得。

编辑单元包括：

中文编辑单元，用于对中文字采取同音匹配、多音匹配、形近字替换、近音替换、删除、前后字交换的中文编辑规则处理；

英文编辑单元，用于对英文字母则进行匹配、替换、插入、删除、前后字交换的英文编辑规则处理。

状态转移单元包括：

路径获取单元，根据所述完成状态队列C_n-1和未完成状态队列NC_n-1中状态内存储的词典节点来寻找编辑后获得的字符串对应的词典树路径，并找到编辑后获得的字符串对应的路径终节点；

更新参数单元，用于在状态队列C_n-1和NC_n-1中状态内存储的状态参数的基础上更新本次的编辑操作带来的状态参数改变。

所述切分纠错单元包括：

状态判断单元，根据状态转移过程中获得的所述路径终节点是完成节点且所述新的状态的状态类型标记为切分完成态，则所述新的状态判断为完成状态，否则判断为未完成状态；

切分处理单元，通过其他状态向完成状态的转换来实现对查询内容的词语切分，并以所述完成状态中完成节点存储的词作为所述切分段的替代候选词，从词典树根节点到所述完成状态中完成节点的路径即为查询中该切分段之前编辑的结果。

所述最优状态选取单元包括：

综合评判单元，用于根据状态参数的综合评判对完成状态队列或未完成状态队列中的状态进行优劣选取。

所述纠错结果输出单元包括：

判定单元，判定过程基于候选状态的特征向量实施候选状态的分类，采用侯选状态中一种或多种特征实施分类过程。

候选状态分类器，通过人工方式确定的分类规则或监督学习的方式获得，其中监督学习的方式即为对一批查询的侯选状态进行类型标注：分为应输出结果的状态和不应输出纠错结果的状态，并利用标注结果和特征值进行分类器的训练。

本发明所提供的一种面向中文搜索引擎混杂语言的查询纠错方法及系统，具有如下特点：

1.建面向混杂语言的异构字符树词典，使得查询纠错中对字符的处理变得简易，无需考虑英文字母的组合是拼音还是英文单词，无需显性的对拼音进行切分，而只需顺序的对查询中的字或字母进行编辑处理即可。

2.利用高频或高点击次数的查询文本建立语言模型，使得纠错结果更符合用户的需求。

3.在查询纠错的过程中，对用户的查询进行同步切分和纠错尝试，利用状态之间的转移达到对查询进行切分的目的。

4.采用双队列记录每一步编辑后最优的N个完成状态和M个未完成状态，在保障纠错速度的同时获取最佳的切分方式和对应的替代词条组合。

5.利用最终纠错结果侯选集的特征进行判定，输出符合限定条件的纠错结果，有效地提高了准确率。

附图说明

图1是面向中文搜索引擎混杂语言的查询纠错方法流程图；

图2是面向混杂语言的异构字符树词典的构建过程；

图3是编辑操作和状态转移更新过程；

图4是面向中文搜索引擎混杂语言的查询纠错系统示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

如图1所示，一种面向中文搜索引擎混杂语言的查询纠错方法，包括以下步骤：

(1)构建面向混杂语言的异构字符树词典，并利用高频或高点击次数的查询文本建立语言模型。

步骤(1)对应图1中步骤102和步骤106。

在步骤102中，利用词库文件104来构建面向混杂语言的异构字符树词典的详细过程如图2所示。

在构建词典树的过程中，对中文字符和其他字符的处理稍有不同。从步骤206-214中可以看出，在获取词库中的词后，将词中的汉字转为对应的拼音，记录下该字符序列(多音字则扩展为多个字符序列，如“重要”扩展为”zhongyao”和”chongyao”)，而后建立从根节点开始的该字符序列路径，并在该路径最后的节点中存储该词，标记该节点为完成节点。当字符树词典的构建过程结束后，所有未被标注为完成节点的节点均为未完成节点。

在步骤106中，利用高频或高点击次数的查询文本108来构建语言模型。

高频或高点击次数的查询文本是高于F频次或C点击次数的用户查询日志中的查询。查询频次和点击次数作为用户查询的两个特性，分别代表了查询的热度和查询结果的质量，故而用于建立语言模型的查询文本，倾向于用热度较高或者质量较高的用户查询。针对不同批次的用户查询日志F和C值，将有所不同。F和C的值的选取，可通过对用户查询日志进行抽样统计而获得。

例如，对查询日志进行抽样，当样本S中频次F′和点击率C′满足以下条件(设查询记录为s，frequency(s)为查询的频次，click(s)为查询的点击次数，is_correct(s)表示该查询是否正确，δ为判定查询文本质量好坏的阈值)：

D_f={s|frequency(s)>f＾is_correct(s)=true,s∈S}

E_f={s|frequency(s)>f,s∈S}

\frac{| D_{F^{'}} |}{| E_{F^{'}} |} &GreaterEqual; δ

D_c={s|click(s)>c＾is_correct(s)=true,s∈S}

E_c={s|click(s)>c,s∈S}

\frac{| D_{C^{'}} |}{| E_{C^{'}} |} &GreaterEqual; δ

则，可得F和C的值：

F=F′,C=C′

设整个搜索引擎中的查询日志集合为Q，则用于建立语言模型的用户日志集合FQ满足：

FQ={s|frequency(s)≥F∨click(s)≥C,s∈Q}

语言模型中以中文字(或中文词)和英文单词作为统计单位，并对所有统计单位采用统一的编码形式，确保编码不重复。

(2)获取用户查询，初始化n=1，建立了两个空的查询队列，分别为完成状态队列C_n和未完成状态队列NC_n。

步骤(2)对应图1中步骤110和步骤114。

(3)对用户查询中的第n个字或字母进行编辑，该编辑操作对中文字采取同音匹配、多音匹配、形近字替换、近音替换、删除、前后字交换等中文编辑规则处理，对英文字母则进行匹配、替换、插入、删除、前后字交换等英文编辑规则处理；

步骤(3)对应图1中步骤116。

在步骤116中，对查询中的字进行编辑操作的详细过程如图3所示。对查询中的字或字母进行编辑时，该编辑操作对中文字、英文字母采取不同的处理。对中文字进行编辑时，同音匹配是将中文字转换为其拼音；多音匹配是将多音字转换为其多个拼音；形近字替换是将中文字转换为其形近字的拼音；近音替换是将中文字转换为其近似拼音；前后字交换操作是指将当前字与其后一个字进行交换，并进行匹配操作。在对英文字母进行编辑时，替换是指将英文字母替换为除该字母以外的25个英文字母，或者依据某种策略替换为该字母对应的容易出错的字母；插入是指在英文字母后插入a到z之间的某个英文字母或其他特殊字符。

(4)以编辑后获得的字符串作为状态转移条件，基于状态队列C_n-1和NC_n-1中的状态进行状态转移，并获得新的状态；

(5)判断新的状态是否为完成状态，如果是，则在该点对查询进行一次切分和纠错尝试，以状态中对应的词典节点中的词作为该切分段的替代候选词，基于语言模型更新该状态的概率；

新的状态是否为完成状态，取决于状态转移过程中获得的路径终节点是否为完成节点以及该状态的状态类型标记。如果状态转移过程中获得的路径终节点为完成节点且该状态的状态类型标记为切分完成态，则该状态为完成状态，否则，该状态为未完成状态。

步骤(4)和步骤(5)对应图1中步骤120。

在步骤120中，状态转移的详细过程如图3所示。

当通过步骤(3)获得了第n个字对应的字符串X₁,X₂,X₃...X_k时，对每个字符串基于前一字的状态队列C_n-1和NC_n-1进行状态转移。

在状态转移的过程中，首先判断是状态队列C_n-1和NC_n-1是否均为空，如果状态队列C_n-1和NC_n-1均为空，则从字典根节点开始寻找字符串路径；如果状态队列C_n-1或NC_n-1不为空，对于状态队列C_n-1中的状态从字典根节点开始寻找字符串路径，对于状态队列NC_n-1中的状态从该状态中存储的词典节点开始寻找字符串路径。在得到字符串路径终节点后，判断其是否为完成节点，如果是完成节点，则生成完成状态和未完成状态，并更新编辑距离、编辑次数等状态参数；否则仅生成未完成状态，并更新编辑距离、编辑次数等状态参数。

当字符串路径终节点为完成节点时，生成的完成状态是由完成节点中存储的词条对应衍生出来的。每产生新的完成状态，即实现了对查询的一次切分，而此次切分段的替代词条即为存储在对应完成节点中的词条。当且仅当生成了完成状态后，根据语言模型，更新词条出现在上下文中的概率，并存储于该完成状态中。

此外，为了用于状态优劣的判断和最终纠错结果候选集的限制条件判定，在新获得的状态中，将存储如下信息：累计编辑距离、总编辑操作次数、同音匹配操作次数、多音匹配操作次数、形近字替换操作次数、近音替换操作次数、英文字母匹配操作次数、英文字母替换操作次数、英文字母插入操作次数、删除操作次数、前后字交换操作次数、候选词条的概率、未完成切分部分与词典路径相匹配的字符串、当前状态类型等。

(6)记录编辑后的完成状态于C_n、未完成状态于NC_n，根据语言模型和编辑距离选取最优的N个完成状态和M个未完成状态进行保存并用于第n+1个字的编辑；

步骤(6)对应图1中步骤122。

由于每次编辑操作和状态转移后都会产生很多的状态，而状态队列中能存储的状态有限且产生的多数状态是无用状态，那么就需要对状态进行评估，仅选取N个最优的完成状态存储于完成状态队列C_n和M个最优的未完成状态存储于未完成状态队列NC_n中，如步骤122。在评估状态优劣时，可利用累计编辑距离和候选词条概率等状态信息，但不限于此来进行评判。

即对完成状态队列或未完成状态队列中的状态进行优劣选取取决于至少包含状态中累计编辑距离、候选词条概率等状态参数的综合评判，例如以累计编辑举例和候选词条概率的log绝对值的加权平均值作为状态优劣的判断标准，该值越小则状态越优，并综合考虑各种编辑操作的次数作为状态的评判，超过一定编辑次数的状态则予以淘汰。

设用户查询为W₁W₂W₃...W_j，s为第r字被编辑后的某一状态，s状态中存储的纠错后字符串序列为W′₁ W′₂ W′₃...Ws′，editdistance(s)为s中的累计编辑距离，word_probability(s)为s中的候选词条概率。则状态s出现的概率为：

p(s)=p(W′₁ W′₂ W′₃...W′_s|W₁W₂W₃...W_r)

p (W_{1}^{'} W_{2}^{'} W_{3}^{'} . . . W_{s}^{'} | W_{1} W_{2} W_{3} . . . W_{r}) = \frac{p (W_{1} W_{2} W_{3} . . . W_{r} | W_{1}^{'} W_{2}^{'} W_{3}^{'} . . . W_{s}^{'}) \times p (W_{1}^{'} W_{2}^{'} W_{3}^{'} . . . W_{s}^{'})}{p (W_{1} W_{2} W_{3} . . . W_{r})}

而在同一个状态队列中，所有状态已编辑的字数r相同。所以在一个状态队列中分子p(W₁W₂W₃...W_r)对于所有状态相同，因此状态s出现的概率仅与分母有关：

p(s)∝p(W₁W₂W₃...W_r|W′₁ W′₂ W′₃...W′_s)×p(W′₁ W′₂ W′₃...W′_s)

log(p(s))∝log(p(W₁W₂W₃...W_r|W′₁ W′₂ W′₃...W′_s))+log(p(W′₁ W′₂ W′₃...W′_s))

而editdistance(s)和word_probability(s)与上式中两个概率的关系为：

log(p(W₁W₂W₃...W_r|W′₁ W′₂ W′₃...W′_s))=editdistance(s)

log(p(W′₁ W′₂ W′₃...W′_s))

=log(p(W′₁))+log(p(W′₂|W′₁))+log(p(W′₃|W′₁W′₂))+...+log(p(W′s|W′₁W′₂W′₃...W_s-1′))

≈log(word_probability(s))

故而状态s出现的概率为：

log(p(s))∝editdistance(s)+word_probability(s)

当队列中有多个状态时，利用上式来获取出现可能性较高的状态，获得最佳的切分方式和对应的替代词条组合。

(7)判断第n个字是否为用户查询的最后一个字或字母，如果是则进入步骤(8)，否则n进行自增并跳转至步骤(3)；

步骤(7)对应图1中步骤124和步骤118。

(8)选取最后一字编辑完成后的完成状态，对得到的一组最优侯选状态进行判定，如结果符合对应特征判定规则，则返回纠错结果；否则返回原始查询。

步骤(8)对应图1中步骤126、步骤128、步骤130和步骤132。

在步骤126和步骤128中，获取最后一字编辑完成后的完成状态后，对得到的一组最优侯选状态进行判定，判定过程是基于其特征向量的分类，分类方法可采用支持向量机、决策树等。

其中所述候选状态分类器可通过人工方式确定的分类规则或监督学习的方式获得，其中监督学习的方式即为对一批查询的侯选状态进行类型标注：分为应输出结果的状态和不应输出纠错结果的状态，并利用标注结果和特征值进行分类器的训练。分类过程中采用的特征包括侯选状态中累计编辑距离、候选查询概率、纠错结果的长度、总编辑次数、同音匹配操作次数、多音匹配操作次数、形近字替换操作次数、近音替换操作次数、英文字母匹配操作次数、英文字母替换操作次数、英文字母插入操作次数、删除操作次数、前后字交换操作次数以及原始查询的概率等特征，此外还包括可信词典特征、搜索结果特征以及敏感词特征等。

一种面向中文搜索引擎混杂语言的查询纠错系统，包括:

预处理单元S100，用于构建面向混杂语言的异构字符树词典，并利用高频或高点击次数的查询文本建立语言模型；

所述的预处理单元S100包括：

混杂语言处理单元，用于在所述面向混杂语言的异构字符树词典在建立的过程中，处理中文字符时将所述中文字符展开为中文字符的拼音字母，以拼音字母作为词典树的节点值；处理其他字符时，以所述字符作为词典树的节点值；

F和C的值的选取，可通过对用户查询日志进行抽样统计而获得。

D_f={s|frequency(s)>f＾is_correct(s)=true,s∈S}

E_f={s|frequency(s)>f,s∈S}

\frac{| D_{F^{'}} |}{| E_{F^{'}} |} &GreaterEqual; δ

D_c={s|click(s)>c＾is_correct(s)=true,s∈S}

E_c={s|click(s)>c,s∈S}

\frac{| D_{C^{'}} |}{| E_{C^{'}} |} &GreaterEqual; δ

则，可得F和C的值：

F=F′,C=C′

FQ={s|frequency(s)≥F∨click(s)≥C,s∈Q}

查询处理初始化单元S200，用于获取用户查询的内容，初始化n=1，建立两个空的查询处理队列，分别为完成状态队列C_n和未完成状态队列NC_n；

编辑单元S300，用于对所述用户查询中的第n个字或字母进行编辑；

所述编辑单元S300包括：

具体而言，对查询中的字或字母进行编辑时，该编辑操作对中文字、英文字母采取不同的处理。对中文字进行编辑时，同音匹配是将中文字转换为其拼音；多音匹配是将多音字转换为其多个拼音；形近字替换是将中文字转换为其形近字的拼音；近音替换是将中文字转换为其近似拼音；前后字交换操作是指将当前字与其后一个字进行交换，并进行匹配操作。在对英文字母进行编辑时，替换是指将英文字母替换为除该字母以外的25个英文字母，或者依据某种策略替换为该字母对应的容易出错的字母；插入是指在英文字母后插入a到z之间的某个英文字母或其他特殊字符。

状态转移单元S400，用于以编辑后获得的字符串作为状态转移条件，基于完成状态队列C_n-1和未完成状态队列NC_n-1中的状态进行状态转移，并获得新的状态；

状态转移单元S400包括：

切分纠错单元S500，用于在所述获得的新的完成状态点对查询内容进行一次词语的切分，将所述查询内容切分成多个切分段，并进行纠错尝试，以所述完成状态中对应的词典节点中的词作为该切分段的替代候选词，基于所述语言模型更新该状态的概率；

所述切分纠错单元S500包括：

具体内容如下：

当通过获得了第n个字对应的字符串X₁,X₂,X₃...X_k时，对每个字符串基于前一字的状态队列C_n-1和NC_n-1进行状态转移。

最优状态选取单元S600，用于记录编辑后的完成状态于C_n、未完成状态于NC_n，根据语言模型和编辑距离选取最优的N个完成状态和M个未完成状态进行保存并用于第n+1个字的编辑；

所述最优状态选取单元S600包括：

由于每次编辑操作和状态转移后都会产生很多的状态，而状态队列中能存储的状态有限且产生的多数状态是无用状态，那么就需要对状态进行评估，仅选取N个最优的完成状态存储于完成状态队列C_n和M个最优的未完成状态存储于未完成状态队列NC_n中。在评估状态优劣时，可利用累计编辑距离和候选词条概率等状态信息，但不限于此来进行评判。

设用户查询为W₁W₂W₃...W_j，s为第r字被编辑后的某一状态，s状态中存储的纠错后字符串序列为W₁′W₂′W₃′...W_s′，editdistance(s)为s中的累计编辑距离，word probability(s)为s中的候选词条概率。则状态s出现的概率为：

p(s)=p(W′₁W′₂W′₃...W′_s|W₁W₂W₃...W_r)

p (W_{1}^{'} W_{2}^{'} W_{3}^{'} . . . W_{s}^{'} | W_{1} W_{2} W_{3} . . . W_{r}) = \frac{p (W_{1} W_{2} W_{3} . . . W_{r} | W_{1}^{'} W_{2}^{'} W_{3}^{'} . . . W_{s}^{'}) \times p (W_{1}^{'} W_{2}^{'} W_{3}^{'} . . . W_{s}^{'})}{p (W_{1} W_{2} W_{3} . . . W_{r})}

p(s)∝p(W₁W₂W₃...W_r|W′₁W′₂W′₃...W′_s)×p(W′₁W′₂W′₃...W′_s)

log(p(s))∝log(p(W₁W₂W₃...W_r|W′₁W′₂W′₃...W′_s))+log(p(W′₁W′₂W′₃...W′_s))

而editdistance(s)和word_probability(s)与上式中两个概率的关系为：

log(p(W₁W₂W₃...W_r|W′₁W′₂W′₃...W′_s))=editdistance(s)

log(p(W′₁ W′₂ W′₃...W′_s))

=log(p(W′₁))+log(p(W′₂|W′₁))+log(p(W′₃|W′₁ W′₂))+...+log(p(W′_s|W′₁ W′₂ W′₃...W_s-1′))

≈log(word_probability(s))

故而状态s出现的概率为：

log(p(s))∝editdistance(s)+word_probability(s)

判断处理单元S700，用于判断第n个字是否为用户查询的最后一个字，如果是则进入纠错结果输出单元，否则n递增到n+1并跳转至编辑单元；

纠错结果输出单元S800，用于选取所述最后一字的编辑完成后的完成状态，对得到的一组最优侯选状态进行判定，如结果符合对应特征判定规则，则返回纠错结果；否则返回原始查询。

所述纠错结果输出单元S800包括：

判定单元，判定过程基于候选状态的特征向量实施候选状态的分类，采用候选状态中一种或多种特征实施分类过程；

其中，判定过程是基于其特征向量的分类，分类方法可采用支持向量机、决策树等。分类过程中采用的特征包括侯选状态中累计编辑距离、候选查询概率、纠错结果的长度、总编辑次数、同音匹配操作次数、多音匹配操作次数、形近字替换操作次数、近音替换操作次数、英文字母匹配操作次数、英文字母替换操作次数、英文字母插入操作次数、删除操作次数、前后字交换操作次数以及原始查询的概率等特征，此外还包括可信词典特征、搜索结果特征以及敏感词特征等。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明做出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种面向中文搜索引擎混杂语言的查询纠错方法，其特征在于，包括：

步骤2，获取用户查询的内容，初始化n＝1，建立两个空的查询处理队列，分别为完成状态队列C_n和未完成状态队列NC_n；

步骤3，对所述用户查询中的第n个字或字母进行编辑；

步骤5，在所述获得的新的完成状态点对查询内容进行一次词语的切分，将所述查询内容切分成多个切分段，并进行纠错尝试，以所述完成状态中对应的词典节点中的词作为该切分段的替代候选词，基于所述语言模型更新该状态的概率；

步骤8，选取所述最后一个字的编辑完成后的完成状态，对得到的一组最优侯选状态进行判定，如结果符合对应特征判定规则，则返回纠错结果，否则返回原始查询；

其中所述步骤4中状态转移的过程，包括：

根据所述完成状态队列C_n-1和所述未完成状态队列NC_n-1中状态内存储的词典树根节点来寻找编辑后获得的字符串对应的词典树路径，并找到所述编辑后获得的字符串对应的路径终节点；

在所述完成状态队列C_n-1和所述未完成状态队列NC_n-1中状态内存储的状态参数的基础上更新本次的编辑操作带来的状态参数。

2.根据权利要求1所述的查询纠错方法，其特征在于，所述步骤1中：所述面向混杂语言的异构字符树词典在建立的过程中，处理中文字符时将所述中文字符展开为所述中文字符的拼音字母，以所述拼音字母作为词典树的节点值；处理其他字符时，以所述字符作为词典树的节点值；

所述中文字符和其他字符的词典树根节点到词典树节点的路径若能构成词典中的词或词的拼音扩展形式，则在所述节点中存储所述词典中的词，并标记所述节点为完成节点；否则标记所述节点为未完成节点；

3.根据权利要求1所述的查询纠错方法，其特征在于，所述步骤3中：所述编辑操作对中文字采取同音匹配、多音匹配、形近字替换、近音替换、删除、前后字交换的中文编辑规则处理，对英文字母则进行匹配、替换、插入、删除、前后字交换的英文编辑规则处理。

4.根据权利要求1的查询纠错方法，其特征在于，所述步骤5包括：状态转移过程中获得的所述路径终节点是完成节点且所述新的状态的状态类型标记为切分完成态，则所述新的状态为完成状态，否则为未完成状态；

所述切分处理过程是：通过其他状态向完成状态的转换来实现对查询内容的词语切分，并以所述完成状态中完成节点存储的词作为所述切分段的替代候选词，从词典树根节点到所述完成状态中完成节点的路径即为查询中该切分段之前编辑的结果。

5.根据权利要求1所述的查询纠错方法，其特征在于，所述步骤6中：根据对状态参数的综合评判对完成状态队列或未完成状态队列中的状态进行优劣选取。

6.根据权利要求1所述的查询纠错方法，其特征在于，所述步骤8中：判定过程是基于候选状态特征向量的分类，分类过程中采用侯选状态中一种或多种特征实施分类过程。

7.根据权利要求1所述的查询纠错方法，其特征在于，所述步骤8还包括利用候选状态分类器通过人工方式确定的分类规则或监督学习的方式获得，其中监督学习的方式即为对一批查询的侯选状态进行类型标注：分为应输出结果的状态和不应输出纠错结果的状态，并利用标注结果和特征值进行分类器的训练。

8.一种面向中文搜索引擎混杂语言的查询纠错系统，包括:

查询处理初始化单元，用于获取用户查询的内容，初始化n＝1，建立两个空的查询处理队列，分别为完成状态队列C_n和未完成状态队列NC_n；

纠错结果输出单元，用于选取所述最后一字的编辑完成后的完成状态，对得到的一组最优侯选状态进行判定，如结果符合对应特征判定规则，则返回纠错结果，否则返回原始查询；

其中，所述状态转移单元包括：

路径获取单元，根据所述完成状态队列C_n-1和所述未完成状态队列NC_n-1中状态内存储的词典节点来寻找编辑后获得的字符串对应的词典树路径，并找到编辑后获得的字符串对应的路径终节点；

更新参数单元，用于在所述完成状态队列C_n-1和所述未完成状态队列NC_n-1中状态内存储的状态参数的基础上更新本次的编辑操作带来的状态参数改变。

9.如权利要求8所述的查询纠错系统，其特征在于，所述的预处理单元包括：

标记单元，所述中文字符和其他字符的词典树根节点到词典树节点的路径若能构成词典中的词或词的拼音扩展形式，则在该节点中存储所述词典中的词，并标记所述节点为完成节点；否则标记所述节点为未完成节点；

10.如权利要求8所述的查询纠错系统，其特征在于，编辑单元包括：

11.根据权利要求8所述的查询纠错系统，其特征在于，所述切分纠错单元包括：

12.根据权利要求8所述的查询纠错系统，其特征在于，所述最优状态选取单元包括：

13.根据权利要求8所述的查询纠错系统，其特征在于，所述纠错结果输出单元包括：