CN105975625A

CN105975625A - 一种面向英文搜索引擎的中式英文查询纠错方法和系统

Info

Publication number: CN105975625A
Application number: CN201610363398.4A
Authority: CN
Inventors: 符文君; 强成仓; 魏圣磊; 宁洪珂; 张振海
Original assignee: TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLICATION TECHNOLOGY Co Ltd
Current assignee: TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLICATION TECHNOLOGY Co Ltd
Priority date: 2016-05-26
Filing date: 2016-05-26
Publication date: 2016-09-28

Abstract

本发明公开了一种面向英文搜索引擎的中式英文查询纠错方法和系统,包括中式英文表达库构建模块、数据预处理模块、拼音纠错模块、中式英文纠错模块、英文候选查询词纠错模块及结果输出模块，中式英文表达库构建模块通过对常用英文词组的直译，构建中式英文词组与对应正确英文词组的对照数据库，数据预处理模块实现对查询词的规范化处理，避免因用户不规范输入引起的纠错误差，提高纠错处理的准确度，拼音纠错模块对查询词进行拼音识别，如果查询词为拼音，则对查询词进行拼音翻译，中式英文纠错模块基于中式英文表达库，对查询词进行中式英文进行纠错，增加了基于拼接邻近词和拆分长词选择候选纠错查询方法，提高候选纠错查询集的准确度。

Description

一种面向英文搜索引擎的中式英文查询纠错方法和系统

技术领域

本发明涉及信息检索技术领域，具体为一种面向英文搜索引擎的中式英文查询纠错方法和系统。

背景技术

搜索引擎是网络信息检索的主要工具，随着信息全球化的飞速发展，用户对英文检索的需求日趋强烈，更多的用户使用英文查询词获取相关信息，尤其是学术资源。据统计，英文搜索引擎中的查询约有10％-15％的查询词存在拼写错误。由于搜索引擎通过用户输入的查询词提供相匹配的信息，查询词的正确性将直接影响搜索引擎搜索结果的准确性。通过对查询词进行纠错处理，可以展现更为优质的信息检索结果，为用户提供更为精准的搜索服务。目前，英文查询纠错技术的重点主要集中在单词层面，即对拼写错误的单词进行纠错，首先基于编辑距离为查询词选择候选纠错查询集，然后根据统计模型计算出候选纠错查询集中每个候选纠错查询的出现概率，最后综合候选纠错查询的编辑距离与其出现概率，从候选纠错查询集中选择最优的纠错查询。现有模型对语法层面考虑较少，对由中国用户使用英语的习惯带来的一些错误考虑得也不多，没有对查询词中出现的用词不规范和词序不当等情况进行纠错。中国用户在使用英语的过程中可能会按照组织中文的方式对英文单词进行组织，即出现语序不正确的情况，比如在表达“我很喜欢它”时，可能会出现“Ivery much like it”，正确的形式应是“I like it verymuch”。此外，在表达一个概念的时候也可能会出现选用“错误的”词组的情况，即搭配问题，选用的英文词组对应的中文可能是有意义的，但是英文词组本身却是不正确的搭配，比如词组“view point dynamics”，中文意思是观点动力学，是有意义的，但在英文中“view point dynamics”并不常见，正确的形式应该是“opinion dynamics”。另外，中国用户由于自身语言习惯，可能会在检索时出现错误输入汉语拼音，将单个英文单词错拆分成多个英文单词输入，多个英文单词合并输入，以及英文单词发音错误等导致的输入错误问题。

发明内容

本发明的目的在于提供一种英文查询纠错方法及系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种英文查询词纠错方法及系统,包括中式英文表达库构建模块、数据预处理模块、拼音纠错模块、中式英文纠错模块、英文候选查询词纠错模块及结果输出模块，中式英文表达库构建模块通过对常用英文词组的直译，构建中式英文词组与对应正确英文词组的对照数据库，为中式英文纠错模块提供辅助信息，数据预处理模块实现对查询词的规范化处理，避免因用户不规范输入引起的纠错误差，提高纠错处理的准确度，拼音纠错模块对查询词进行拼音识别，如果查询词为拼音，则对查询词进行拼音翻译，本模块实现了对用户查询词的拼音兼容，中式英文纠错模块基于中式英文表达库，针对中国用户表达英文的特点，对查询词进行中式英文进行纠错，结果输出模块对拼音纠错模块到英文候选查询词纠错模块三个步骤的结果进行输出，具体步骤如下：

步骤一：中式英文表达库构建模块，中式英文表达库的构建主要分为三步，首先统计英文中常见的词组，其次将常见英文词组翻译为中文词组，最后将中文词组“直译”为英文，至此建立起数据结构为KEY(中式英文词组)-VALUE(正确英文词组)形式的纠错数据库，具体步骤如，第一步，统计英文常见词组，首先从英文搜索引擎收录的大规模英文语料库中获取由二至五个单词构成的词组的频率，取出由两个单词构成的词组中的词频在前60％、由三个单词构成的词组中的词频在前50％、由四个单词构成的词组中的词频在前40％、由五个单词的构成的词组中的词频在前30％的所有词组构成常见的英文词组，第二步，将第一步中的常见英文词组翻译成中文词组，词组英译中翻译采用基于统计机器翻译模型的方法，第三步，将第二步中的中文词组“直译”成英文词组，第四步，对中式英文表达库进行过滤，如果纠错对中“直译”的英文串在A1中的常见英文词组中，那么删除这个纠错对，第五步，通过第一步到第四步，“直译”的结果和对应的原始英文词组就构建成了一个中式英文表达库；

步骤二：数据预处理模块，对用户输入的查询词进行规范化处理，主要采取英文字母大写转小写、全角标点转半角、字符串两侧空格去除、字符串中连续的空格、连接符、斜杠变为一个等处理方式；

步骤三：拼音纠错模块，将输入的英文查询串进行分词，通过拼音词典依次判断分割后的每个单词是否为拼音，如果全部为拼音，则调用拼音翻译模块把拼音翻译成汉字，如果翻译成功，则纠错程序直接返回翻译后的汉字，判断不为拼音或未翻译成功，则继续进行纠错，具体步骤如，(1)首先对输入英文查询串使用空格切分，拼音识别，(2)对(1)中的切分结果进行逐个识别，如果识别查询词是拼音，基于拼音翻译汉字的方法，将翻译结果返回给用户，如果识别结果不为拼音，则继续进行后续步骤的纠错处理，(3)拼音翻译，基于拼音词典、隐马尔科夫模型等方法，将拼音翻译为汉字，再将汉字翻译为相应的英文检索词，首先查找拼音词典，如果该拼音在词典中，则直接返回词典中所对应的中文，如果该拼音没有出现在词典中，采用隐马尔可夫模型和Viterbi算法实现拼音到汉字的转化，先由拼音汉字语料训练得到隐马尔可夫模型，再基于Viterbi算法求解得到拼音查询串对应的最优汉字序列，(4)在(3)中翻译成功后，则将翻译结果返回给用户，如果翻译失败，则继续进行后续步骤的纠错处理；

步骤四：中式英文纠错模块，基于步骤一构建的中式英文表达库进行纠错查询，如果中式英文表达库中存在该查询词对应的纠错对，则将其对应的正确英文词组作为纠错结果返回给用户，否则，查询词保持不变，继续进行后续步骤的纠错处理；

步骤五：候选查询词纠错模块，首先对查询串进行分词，保存切分结果，后续处理均基于切分结果处理，基于切分结果，分别通过基于权重编辑距离、基于拼接词、基于拆分词分别获得相应的候选纠错查询词，最后根据评分标准，输出事先指定数目的最优纠错结果，第一，对用户输入的英文串进行英文分词，第二，基于权重编辑距离方法，从英文词典中获取候选词集合，具体步骤如，步骤a，遍历查询词切分结果，判断单词是否在英文单词词典中，如果存在则遍历下一个单词，否则进行步骤b，步骤b，判断单词是否为包含连字符或斜杠的词，如TCP/IP,Well-known，如果不是，则进行步骤c，如果是，则把单词按照非字母符号分割，然后通过英文单词词典判断是否分割后的单词都在字典中，如果都在字典中，则认为此单词没有问题，继续遍历下一个单词，否则进行步骤c，步骤c，通过权重编辑距离获取单词的候选词集合，遍历已生成好的Trie树词典，采用深度优先的先序遍历算法来查找编辑距离不大于t＝min(3,查询词长度/4)候选词，编辑距离计算公式如，

其中，S_i为原始词，D_j为转换词，lev(S_i,D_j)表示S单词的[0,i]位与D单词[0，j]位之间的编辑距离。S_i到D_j的转换是通过替换、增加、删除字母等操作，需经多次操作实现。在获取满足条件的候选词的同时，获取原词变换到候选词需要进行的变换记录，步骤d，权重编辑距离评分,基于变换记录和权重编辑距离评分的计算规则，计算满足条件的候选词的评分，最后选取评分最高的M个作为最后的候选词，步骤e，将候选词评分最高的K个单词作为候选词，其中K可取32，当满足条件的单词不够时，也可少于32个，第三，基于拼接词方法，获取候选词集合，基于拼接词方法是通过对查询词中的相邻单词拼接来获取候选词，依次遍历整个查询词，并把相邻的K(K<＝Len(Word))个词合并，判断合并后的词是否在英文词典中，如果存在，将该单词作为候选词，基于拼接词评分规则对候选词评分，拼接词评分规则是(90+拼接词个数)，第四，基于拆分词方法，获取候选词集合，通过对检索词中的单词进行拆分来获取候选词，依次遍历整个检索词中的每个单词，首先将把单词分割成两个单词，通过英文词典判断分割后的两个单词是否是存在；如果存在，则将拆分结果作为候选词，并使用评分规则进行评分。其次，将单词分割成三个单词，判断分割后的单词是否存在，如果存在，则将拆分结果保存为候选词，并使用评分规则进行评分，如果一个单词有多种正确分割的方式，则通过N-gram词典，保留频次最高的分割方式，基于拆分词评分规则对候选词评分拆分词的评分规则是(96-分词个数*2)，第五，生成候选纠错查询词集，分别从第二到第四步中的权重编辑距离候选词、拼接词候选词和拆分词候选词中选取各个单词的候选词进行组合，生成候选纠正查询集，第六，候选纠错查询词评分，对每个候选纠正查询进行评分，将评分最高K个的候选纠正查询作为查询词的纠正查询结果，本实施例中K取10，候选纠正查询词的评分S(C,Q)的计算方法如下：

其中，r_e＝36，C＝(w₁,w₂,...,w_n)表示候选纠正查询集中的一个候选纠正查询，且C由单词w₁,w₂,...,w_n构成，lev(Q,C)是查询Q和候选纠正查询C之间的编辑距离，S(C)是候选纠正查询在用户查询或文档集中的得分，S(C)计算公式如，S(C)＝α*∑f(w_i)+β*∑f(w_i,w_i+1)+γ*∑f(w_i,w_i+1,w_i+2)，其中，f(w_i),f(w_i,w_i+1),f(w_i,w_i+1,w_i+2)分别表示(w_i)，(w_i,w_i+1),(w_i,w_i+1,w_i+2)在用户查询或文档集中的频率，α，β，γ表示n-gram的权重，其取值范围是(0,1)，且α+β+γ＝1，α，β，γ分别为0.5,0.3,0.2，K＝10；

步骤六：结果输出模块，将步骤一到步骤五中得到纠错查询词呈现给用户。

优选的，在步骤一中的第二步中，直译的具体步骤如，首先是对得到的中文词组进行分词，分词的依据是将每个英文单词对应的中文翻译结果作为一个中文词，对每个中文词进行翻译，将每个中文词的翻译结果连接起来就构成了“直译”出的英文串，每个中文词可能对应多个英文单词，那么就会“直译”出多个结果，例如，一个中文串包括两个中文词“中文词1”和“中文词2”，“中文词1”的翻译结果有“En11”和“En12”，“中文词2”的翻译结果有“En2”，那么中文串“中文词1中文词2”的“直译”结果有“En11En2”和“En12En2”。这样一个“直译”出的英文串和正确的英文串就构成了一个翻译对，所有的翻译对就构成了一个中式英文表达库。

优选的，在步骤五中，步骤d中的权重编辑距离评分方法为，1、增加字母，增加一个元音字母差异度为9，增加一个辅音字母，差异度为10，2、删除字母，删除一个元音字母差异度为10，删除一个辅音字母，差异度为11，3、替换字母，如果替换字母和被替换字母是上述的易混淆字母，则差异为8，例如’a’和’e’，’b’和’p’，’s’和’c’，’f’和’v’,’m’和’n’等；否则，如果两者都为元音字母，则差异度为11，两者都为辅音字母，差异度为12；一个为元音字母，另一个为辅音字母，则差异度为13，4、交换相邻字母，原词可以仅仅通过交换一对相邻的字母就转变为候选词的情况下，差异度较低为7，5、出现在单词首位的差异字母，将其差异度在原有的基础上乘以2，对于出现在第二个位置的差异字母，将它的差异度加1，而对于出现在最后一个位置的差异字母，如果差异类型为替换字母，则差异度加2，否则，加1，最后，把所有差异字母的差异度叠加，得到整个原词与候选词的差异度，候选词的评分为100减去候选词与原词的差异度。

与现有技术相比，本发明的有益效果是：本发明提供了一种中式英文纠错的方法，此方法主要结合中国用户使用英文的习惯对英文查询词进行纠错，实现了在语法层面上对查询词进行纠错，而且，优化传统查询纠错方法中获取候选纠错查询集的方法，首先，将基于编辑距离选择候选纠错查询的方法扩展为基于权重编辑距离的方法，其次，增加了基于拼接邻近词和拆分长词选择候选纠错查询方法，提高候选纠错查询集的准确度，另外，提供一种有效的计算候选纠错查询词编辑距离和查询词组合概率的方法，能够更好的在单词层面上进行纠错。

附图说明

图1为本发明的系统构成图；

图2为本发明的中式英文表达库的建立示意图；

图3为本发明的拼音纠错示意图；

图4为本发明的英文候选查询词纠错示意图；

图5为本发明的系统流程图。

图中：S1中式英文表达库构建模块、S2数据预处理模块、S3拼音纠错模块、S4中式英文纠错模块、S5英文候选查询词纠错模块、S6英文候选查询词纠错模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-5

实施例

一种英文查询词纠错方法及系统,包括中式英文表达库构建模块、数据预处理模块、拼音纠错模块、中式英文纠错模块、英文候选查询词纠错模块及结果输出模块，中式英文表达库构建模块通过对常用英文词组的直译，构建中式英文词组与对应正确英文词组的对照数据库，为中式英文纠错模块提供辅助信息，数据预处理模块实现对查询词的规范化处理，避免因用户不规范输入引起的纠错误差，提高纠错处理的准确度，拼音纠错模块对查询词进行拼音识别，如果查询词为拼音，则对查询词进行拼音翻译，本模块实现了对用户查询词的拼音兼容，中式英文纠错模块基于中式英文表达库，针对中国用户表达英文的特点，对查询词进行中式英文进行纠错，结果输出模块对拼音纠错模块到英文候选查询词纠错模块三个步骤的结果进行输出，具体步骤如下：

步骤一：中式英文表达库构建模块，中式英文表达库的构建主要分为三步，首先统计英文中常见的词组，其次将常见英文词组翻译为中文词组，最后将中文词组“直译”为英文，至此建立起数据结构为KEY(中式英文词组)-VALUE(正确英文词组)形式的纠错数据库，具体步骤如，第一步，统计英文常见词组，首先从英文搜索引擎收录的大规模英文语料库中获取由二至五个单词构成的词组的频率，取出由两个单词构成的词组中的词频在前60％、由三个单词构成的词组中的词频在前50％、由四个单词构成的词组中的词频在前40％、由五个单词的构成的词组中的词频在前30％的所有词组构成常见的英文词组，第二步，将第一步中的常见英文词组翻译成中文词组，词组英译中翻译采用基于统计机器翻译模型的方法，在步骤一中的第二步中，直译的具体步骤如，首先是对得到的中文词组进行分词，分词的依据是将每个英文单词对应的中文翻译结果作为一个中文词，对每个中文词进行翻译，将每个中文词的翻译结果连接起来就构成了“直译”出的英文串，每个中文词可能对应多个英文单词，那么就会“直译”出多个结果，例如，一个中文串包括两个中文词“中文词1”和“中文词2”，“中文词1”的翻译结果有“En11”和“En12”，“中文词2”的翻译结果有“En2”，那么中文串“中文词1中文词2”的“直译”结果有“En11En2”和“En12En2”。这样一个“直译”出的英文串和正确的英文串就构成了一个翻译对，所有的翻译对就构成了一个中式英文表达库，第三步，将第二步中的中文词组“直译”成英文词组，第四步，对中式英文表达库进行过滤，如果纠错对中“直译”的英文串在A1中的常见英文词组中，那么删除这个纠错对，第五步，通过第一步到第四步，“直译”的结果和对应的原始英文词组就构建成了一个中式英文表达库；

其中，S_i为原始词，D_j为转换词，lev(S_i,D_j)表示S单词的[0,i]位与D单词[0，j]位之间的编辑距离。S_i到D_j的转换是通过替换、增加、删除字母等操作，需经多次操作实现。在获取满足条件的候选词的同时，获取原词变换到候选词需要进行的变换记录，步骤d，权重编辑距离评分,基于变换记录和权重编辑距离评分的计算规则，计算满足条件的候选词的评分，最后选取评分最高的M个作为最后的候选词，在步骤五中，步骤d中的权重编辑距离评分方法为，1、增加字母，增加一个元音字母差异度为9，增加一个辅音字母，差异度为10，2、删除字母，删除一个元音字母差异度为10，删除一个辅音字母，差异度为11，3、替换字母，如果替换字母和被替换字母是上述的易混淆字母，则差异为8，例如’a’和’e’，’b’和’p’，’s’和’c’，’f’和’v’,’m’和’n’等；否则，如果两者都为元音字母，则差异度为11，两者都为辅音字母，差异度为12；一个为元音字母，另一个为辅音字母，则差异度为13，4、交换相邻字母，原词可以仅仅通过交换一对相邻的字母就转变为候选词的情况下，差异度较低为7，5、出现在单词首位的差异字母，将其差异度在原有的基础上乘以2，对于出现在第二个位置的差异字母，将它的差异度加1，而对于出现在最后一个位置的差异字母，如果差异类型为替换字母，则差异度加2，否则，加1，最后，把所有差异字母的差异度叠加，得到整个原词与候选词的差异度，候选词的评分为100减去候选词与原词的差异度，步骤e，将候选词评分最高的K个单词作为候选词，其中K可取32，当满足条件的单词不够时，也可少于32个，第三，基于拼接词方法，获取候选词集合，基于拼接词方法是通过对查询词中的相邻单词拼接来获取候选词，依次遍历整个查询词，并把相邻的K(K<＝Len(Word))个词合并，判断合并后的词是否在英文词典中，如果存在，将该单词作为候选词，基于拼接词评分规则对候选词评分，拼接词评分规则是(90+拼接词个数)，第四，基于拆分词方法，获取候选词集合，通过对检索词中的单词进行拆分来获取候选词，依次遍历整个检索词中的每个单词，首先将把单词分割成两个单词，通过英文词典判断分割后的两个单词是否是存在；如果存在，则将拆分结果作为候选词，并使用评分规则进行评分。其次，将单词分割成三个单词，判断分割后的单词是否存在，如果存在，则将拆分结果保存为候选词，并使用评分规则进行评分，如果一个单词有多种正确分割的方式，则通过N-gram词典，保留频次最高的分割方式，基于拆分词评分规则对候选词评分拆分词的评分规则是(96-分词个数*2)，第五，生成候选纠错查询词集，分别从第二步到第四步中的权重编辑距离候选词、拼接词候选词和拆分词候选词中选取各个单词的候选词进行组合，生成候选纠正查询集，第六，候选纠错查询词评分，对每个候选纠正查询进行评分，将评分最高K个的候选纠正查询作为查询词的纠正查询结果，本实施例中K取10，候选纠正查询词的评分S(C,Q)的计算方法如下：

其中，r_e＝36，C＝(w₁,w₂,...,w_n)表示候选纠正查询集中的一个候选纠正查询，且C由单词w₁,w₂,...,w_n构成，lev(Q,C)是查询Q和候选纠正查询C之间的编辑距离，S(C)是候选纠正查询在用户查询或文档集中的得分，S(C)计算公式如，S(C)＝α*∑f(w_i)+β*∑f(w_i,w_i+1)+γ*∑f(w_i,w_i+1,w_i+2)其中，f(w_i),f(w_i,w_i+1),f(w_i,w_i+1,w_i+2)分别表示(w_i)，(w_i,w_i+1),(w_i,w_i+1,w_i+2)在用户查询或文档集中的频率，α，β，γ表示n-gram的权重，其取值范围是(0,1)，且α+β+γ＝1，α，β，γ分别为0.5,0.3,0.2，K＝10；

步骤六：结果输出模块，将步骤一到步骤五中得到纠错查询词呈现给用户，提供了一种中式英文纠错的方法，此方法主要结合中国用户使用英文的习惯对英文查询词进行纠错，实现了在语法层面上对查询词进行纠错，而且，优化传统查询纠错方法中获取候选纠错查询集的方法，首先，将基于编辑距离选择候选纠错查询的方法扩展为基于权重编辑距离的方法，其次，增加了基于拼接邻近词和拆分长词选择候选纠错查询方法，提高候选纠错查询集的准确度，另外，提供一种有效的计算候选纠错查询词编辑距离和查询词组合概率的方法，能够更好的在单词层面上进行纠错。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种英文查询词纠错方法及系统,其特征在于：包括中式英文表达库构建模块、数据预处理模块、拼音纠错模块、中式英文纠错模块、英文候选查询词纠错模块及结果输出模块，中式英文表达库构建模块通过对常用英文词组的直译，构建中式英文词组与对应正确英文词组的对照数据库，为中式英文纠错模块提供辅助信息，数据预处理模块实现对查询词的规范化处理，避免因用户不规范输入引起的纠错误差，提高纠错处理的准确度，拼音纠错模块对查询词进行拼音识别，如果查询词为拼音，则对查询词进行拼音翻译，本模块实现了对用户查询词的拼音兼容，中式英文纠错模块基于中式英文表达库，针对中国用户表达英文的特点，对查询词进行中式英文进行纠错，结果输出模块对拼音纠错模块到英文候选查询词纠错模块三个步骤的结果进行输出，具体步骤如下：

其中，S_i为原始词，D_j为转换词，lev(S_i,D_j)表示S单词的[0,i]位与D单词[0，j]位之间的编辑距离。S_i到D_j的转换是通过替换、增加、删除字母等操作，需经多次操作实现。在获取满足条件的候选词的同时，获取原词变换到候选词需要进行的变换记录，步骤d，权重编辑距离评分,基于变换记录和权重编辑距离评分的计算规则，计算满足条件的候选词的评分，最后选取评分最高的M个作为最后的候选词，步骤e，将候选词评分最高的K个单词作为候选词，其中K可取32，当满足条件的单词不够时，也可少于32个，第三，基于拼接词方法，获取候选词集合，基于拼接词方法是通过对查询词中的相邻单词拼接来获取候选词，依次遍历整个查询词，并把相邻的K(K<＝Len(Word))个词合并，判断合并后的词是否在英文词典中，如果存在，将该单词作为候选词，基于拼接词评分规则对候选词评分，拼接词评分规则是(90+拼接词个数)，第四，基于拆分词方法，获取候选词集合，通过对检索词中的单词进行拆分来获取候选词，依次遍历整个检索词中的每个单词，首先将把单词分割成两个单词，通过英文词典判断分割后的两个单词是否存在；如果存在，则将拆分结果作为候选词，并使用评分规则进行评分。其次，将单词分割成三个单词，判断分割后的单词是否存在，如果存在，则将拆分结果保存为候选词，并使用评分规则进行评分，如果一个单词有多种正确分割的方式，则通过N-gram词典，保留频次最高的分割方式，基于拆分词评分规则对候选词评分拆分词的评分规则是(96-分词个数*2)，第五，生成候选纠错查询词集，分别从第二步到第四步中的权重编辑距离候选词、拼接词候选词和拆分词候选词中选取各个单词的候选词进行组合，生成候选纠正查询集，第六，候选纠错查询词评分，对每个候选纠正查询进行评分，将评分最高K个的候选纠正查询作为查询词的纠正查询结果，本实施例中K取10，候选纠正查询词的评分S(C,Q)的计算方法如下：

2.根据权利要求1所述的一种英文查询纠错方法及系统，其特征在于：在步骤一中的第二步中，直译的具体步骤如，首先是对得到的中文词组进行分词，分词的依据是将每个英文单词对应的中文翻译结果作为一个中文词，对每个中文词进行翻译，将每个中文词的翻译结果连接起来就构成了“直译”出的英文串，每个中文词可能对应多个英文单词，那么就会“直译”出多个结果，例如，一个中文串包括两个中文词“中文词1”和“中文词2”，“中文词1”的翻译结果有“En11”和“En12”，“中文词2”的翻译结果有“En2”，那么中文串“中文词1中文词2”的“直译”结果有“En11En2”和“En12En2”。这样一个“直译”出的英文串和正确的英文串就构成了一个翻译对，所有的翻译对就构成了一个中式英文表达库。

3.根据权利要求1所述的一种英文查询纠错方法及系统，其特征于：在步骤五中，步骤d中的权重编辑距离评分方法为，1、增加字母，增加一个元音字母差异度为9，增加一个辅音字母，差异度为10，2、删除字母，删除一个元音字母差异度为10，删除一个辅音字母，差异度为11，3、替换字母，如果替换字母和被替换字母是上述的易混淆字母，则差异为8，例如’a’和’e’，’b’和’p’，’s’和’c’，’f’和’v’,’m’和’n’等；否则，如果两者都为元音字母，则差异度为11，两者都为辅音字母，差异度为12；一个为元音字母，另一个为辅音字母，则差异度为13，4、交换相邻字母，原词可以仅仅通过交换一对相邻的字母就转变为候选词的情况下，差异度较低为7，5、出现在单词首位的差异字母，将其差异度在原有的基础上乘以2，对于出现在第二个位置的差异字母，将它的差异度加1，而对于出现在最后一个位置的差异字母，如果差异类型为替换字母，则差异度加2，否则，加1，最后，把所有差异字母的差异度叠加，得到整个原词与候选词的差异度，候选词的评分为100减去候选词与原词的差异度。