CN101369285B

CN101369285B - 一种中文搜索引擎中查询词的拼写校正方法

Info

Publication number: CN101369285B
Application number: CN2008102243233A
Authority: CN
Inventors: 周博; 刘奕群; 张敏; 金奕江; 马少平; 茹立平; 佟子健
Original assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Current assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Priority date: 2008-10-17
Filing date: 2008-10-17
Publication date: 2010-06-02
Anticipated expiration: 2028-10-17
Also published as: CN101369285A

Abstract

本发明公开了一种中文搜索引擎中查询词的拼写校正方法，属于网络信息处理领域。该方法包括：判断输入中文搜索引擎的英文查询词是否为正确的英文查询词；对非正确的英文查询词，生成所述非正确的英文查询词的候选形式，按照预设规则将所述候选形式列入候选集合；对所述候选集合中的所有候选形式进行评分，将分值最高的候选形式作为校正后的形式返回给用户。本发明通过对错误的查询词的候选形式进行度量，选出分值最高的候选形式作为查询词的校正形式，有效地避免拼写错误对搜索引擎的误导，使得搜索引擎更加智能。

Description

一种中文搜索引擎中查询词的拼写校正方法

技术领域

本发明涉及网络信息处理领域，特别涉及一种中文搜索引擎中查询词的拼写校正方法。

背景技术

随着网络在全球的普及，用户与搜索引擎进行交互的方式主要是：用户将所要寻找的信息转换成几个查询词，再将这些查询词输入到搜索引擎中，由搜索引擎完成信息的检索并提交给用户。

目前，对于中文搜索引擎用户来说，使用英文已经成为越来越不可避免的趋势。大量的软件名、地名以及网络中不断出现的新兴词语很多都需要用英文表达。用英文辅助中文表达用户的检索需求逐渐成为中文搜索引擎用户的一种习惯。然而，在这个过程中如果用户向搜索引擎提交的查询词含有拼写错误，搜索引擎就会按照错误的查询词进行信息的检索，最后的结果是搜索引擎检索不到用户实际需要的信息，或者根本检索不到信息。据统计，输入搜索引擎的查询词中有10％-15％含有拼写错误。对于输入中文搜索引擎的英文查询词，拼写错误的比例要大于15％，这是由于中文搜索引擎用户的母语一般为中文，英文作为非母语出错的可能性要比中文大很多。

另外在中文搜索引擎中，用户输入的英文查询词不完全是英文单词，其中相当一部分是拼音串。出错的拼音串也会影响搜索引擎的检索，导致搜索引擎检索不到用户实际需要的信息。

由于非母语的原因，中文搜索引擎用户的英文输入习惯与英文搜索引擎用户的输入习惯大为不同。许多对于英文搜索引擎来说正确的查询词，对于中文搜索引擎用户来说就是拼写错误。例如“goole”对于中文搜索引擎用户来说应该是查询词“google”(谷歌)的错误形式，而对于英文搜索引擎用户来说“goole”却是一个正确的查询词，指的是英国的一个港口城市。另外，中文搜索引擎用户的拼写错误较英文搜索引擎用户也不尽相同，中文搜索引擎用户的拼写错误的种类更多，形式更加复杂。

输入中文搜索引擎的英文查询词就种类来说可以分为：英文单词与拼音串两种。因此，拼写错误分为英文单词错误与拼音串错误两种。

对于中文搜索引擎用户来说，英文单词错误除了包含一般英文搜索引擎用户的输入错误(即知道如何拼写但输入错误)之外，还包含了更多的因为认知错误引起的拼写错误(即不知道如何拼写而引起的错误)。

引起拼音串错误的原因主要是模糊音与地方方言。表1中列出了一些比较常见的拼音串错误。

表1：模糊音错别字分类

类别	说明	举例
类别	说明	举例	平舌音/翘舌音	拼音开始声母：c～ch，s～sh，z～zh，	(“入党自愿书”，“入党志愿书”)
前鼻音/后鼻音	拼音最末韵母：an～ang，en～eng，in～ing	(”圣斗士新矢”，“圣斗士星矢”)	平舌音/翘舌音	拼音开始声母：c～ch，s～sh，z～zh，	(“入党自愿书”，“入党志愿书”)

类别	说明	举例
类别	说明	举例	方言口音	拼音开始声母：L～n，f～h，r～l，k～g	(”摩托诺拉”，“摩托罗拉”)

发明内容

为了避免用户向搜索引擎提交的查询词含有拼写错误，本发明实施例提供了一种中文搜索引擎中查询词的拼写校正方法。所述技术方案如下：

判断输入中文搜索引擎的英文查询词是否为正确的英文查询词；

对非正确的英文查询词，生成所述非正确的英文查询词的候选形式，按照预设规则将所述候选形式列入候选集合；

根据

α*Edsim/max(Edsim)+β*LogSim/max(LogSim)

+(1-α-β)*ErrorTrend/max(ErrorTrend)

，对所述候选集合中的所有候选形式进行评分，将分值最高的候选形式作为校正后的形式返回给用户；

其中，EdSim代表字型相似性特征，LogSim代表词频相似性特征，ErrorTrend代表错误倾向性特征，max()表示对括号内的特征取最大值，α代表字型相似性特征在公式中的所占的比重，β代表词频相似性特征在公式中的所占的比重。

根据预先存储的置信词表判断输入中文搜索引擎的英文查询词是否为正确的英文查询词。

对非正确的英文查询词，根据预先设定的方式生成所述非正确的英文查询词的候选形式；所述预先设定的方式包括以下方式及其任意组合：

在输入的查询词中插入一个字符；

在输入的查询词中删除一个字符；

在输入的查询词中替换一个字符；

交换查询词中相邻两个字符的位置；

在输入的查询词中，将一个字符与其位置靠后且相隔一个字符位置的字符交换位置；

在输入的查询词中，将一个字符与其位置相邻且靠后的两个字符交换位置；

在输入的查询词中，两个相邻字符与其位置相邻且靠后的一个字符交换位置。

对非正确的英文查询词，根据预先设定的方式生成所述非正确的英文查询词的候选形式之后，对所述候选形式再次根据所述预先设定的方式生成所述非正确的英文查询词的候选形式。

所述预设规则包括：

字符长度大于3的英文查询词第一个字符是正确形式；

候选集合中只收录在搜索引擎日志中出现过的候选形式。

所述方法还包括：

判断输入搜索引擎的英文查询内容是否在校正缓存词表中，若所述英文查询内容在所述校正缓存词表中，将所述缓存词表中的校正形式返回给用户。

所述方法还包括：

对输入搜索引擎的查询内容进行分隔。

对分隔后得到的查询词选择对应的校正模式，所述对应的校正模式包括单查询词校正模式、双查询词校正模式和多查询词校正模式。

本发明实施例提供的技术方案的有益效果是：

通过对错误的查询词进行判断，再生成多种候选形式，根据预设规则将候选形式列入候选集合，对候选集合中的候选形式进行度量，最后选出分值最高的候选形式作为查询词的校正形式，实现对于用户输入的查询词进行拼写检查。如果用户输入的查询词含有拼写错误，本实施例提供的技术方案可以向用户提供拼写正确的查询词，进而可以有效地避免拼写错误对搜索引擎的误导，使得搜索引擎更加智能。

附图说明

图1是本发明实施例一提供的一种监测呼叫时网络状态的处理方法流程图；

图2是本发明实施例二提供的一种监测呼叫时网络状态的处理方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供的技术方案包括：判断输入中文搜索引擎的英文查询词是否为正确的英文查询词；对非正确的英文查询词，生成其所有可能的正确候选，将在中文搜索引擎日志中出现过的候选查询词列入候选集合；对候选集合中的所有候选进行评分，将分值最高的候选查询词作为校正后的形式返回给用户。

以下举具体实施例进行详细说明：

实施例一

如图1所示，为本发明实施例一提供的一种监测呼叫时网络状态的处理方法，包括以下步骤：

步骤101：判断输入中文搜索引擎的英文查询词是否为正确的英文查询词。

比如，这个过程具体包括：根据预先存储的置信词表，判断输入中文搜索引擎的英文查询词是否为拼写正确的英文查询词。若输入的英文查询词存在于置信词表中，则将此查询词判断为不含有错误的查询词，不对其进行查询词校正；若英文查询词不存在于置信词典中，则需要对此查询词进行校正处理。

该置信词表中存储的单词来源可以包括可信英文字典，也可以包括流行英文词语例如photoshop，yahoo，olympic等，还可以是中文拼音串。

执行该步骤有利于快捷地判断出错误的查询词，节省时间。

步骤102：对非正确的英文查询词，生成其所有可能的正确候选形式，按照预设规则将候选形式列入候选集合。

其中，对于被判断为非正确的英文查询词，可以按照如下几种方式生成所有可能的候选形式：

方式一：在输入的查询词中插入一个字符；

方式二：在输入的查询词中删除一个字符；

方式三：在输入的查询词中替换一个字符；

方式四：交换查询词中相邻两个字符的位置；

方式五：在输入的查询词中，将一个字符与其位置靠后且相隔一个字符位置的字符交换位置；

方式六：在输入的查询词中，将一个字符与其位置相邻且靠后的两个字符交换位置；

方式七：在输入的查询词中，两个相邻字符与其位置相邻且靠后的一个字符交换位置；

方式八：对于方式一～七中生成的候选形式，利用方式一～六再次进行候选形式的生成，若再次生成的候选形式在易错词表中，则将再次生成的候选形式也加入到候选集合中。

其中，易错词表中包含了许多搜索引擎用户经常查找并且经常出现拼写错误的查询，而某一查询的错误倾向性可以由该查询所有错误形式的查询频次的加和度量。

通过方式一～方式七生成所有可能的候选形式，该步骤的原理是穷举所有可能正确的查询词的形式；例如，方式一中插入一个字符的操作是在查询词中任意一个位置插入字符，生成所有可能正确的查询词形式。上述方式一～方式七均要执行一次，但是方式一～方式七的执行顺序没有具体限定。

上述方式八是优选步骤，对于比较流行的或常见的易错词，采用方式一～方式七生成候选形式之后，对于生成的候选方式执行方式八，即利用方式一～方式七记录的内容再次生成候选形式，若再次生成的候选形式在易错词表中，则将再次生成的候选形式加入到候选集合中。通过执行方式八，可以确保正确的查询词在候选集合内。

在实施本发明的过程中，发现许多经常出现的查询，其拼写错误形式的种类和数量也较多。因此只采用方式一～方式七还不足以描述这些经常出现拼写错误查询的错误特征。因此，如果简单的使用方式一～方式七生成候选集合，则有可能不包含某些错误查询的正确形式。方式八可以很好的适用于拼写错误种类和数量较多的查询的校正。由于方式八建立在两轮方式一～方式七的操作之上，所以通过方式一～方式八生成的候选集合一般会包含拼写错误查询的正确形式。

需要说明的是，方式八基于方式一～方式七，因此执行方式八前需要先执行方式一～方式七。

按照上述方式，生成候选形式后，将候选形式列入候选集合，该过程中需要遵守两条规则：

规则一：对于字符长度大于3的英文查询词第一个字符不会出错；

规则二：候选集合中只收录在搜索引擎日志中出现过的候选形式。

其中，规则一所述保证列入候选集合的候选形式中，字符长度大于3的英文查询词首字符不出错；默认用户在输入查询词的首字符出错时，可以自己识别错误并更正。

规则二缩小了列入候选集合的候选形式范围。由于方式一～方式八对错误的查询词生成候选形式采用穷举的方式，该过程生成的候选形式较多，可能正确的候选形式词汇量较大，为了提高效率与处理速度，采用规则二，只将在搜索引擎日志中出现过的候选形式列入候选集合。

步骤103：对候选集合中的所有候选形式进行评分，将分值最高的候选形式作为校正后的形式返回给用户。

对候选集合中的查询词进行评分需要使用字形相似性特征、词频特征、错误倾向性特征。

其中，字形相似性特征的度量方法如下：

对于步骤102中生成的候选形式，字形相似性特征的计算公式是：

\{\begin{matrix} \frac{del (c_{p - 1}, c_{p})}{chars (c_{p - 1}, c_{p})} \\ \frac{add (c_{p - 1}, q_{p})}{char (c_{p - 1})} \\ \frac{sub (q_{p}, c_{p})}{char (c_{p})} \\ \frac{rev (c_{p}, c_{p + 1})}{chars (c_{p}, c_{p + 1})} \\ \frac{rev (c_{p}, c_{p + 1})}{chars (c_{p}, c_{p + 1})} \\ \frac{trans (c_{p}, c_{p + 2})}{chars (c_{p}, c_{p + 2})} or \frac{trans (c_{p}, c_{p + 1}, c_{p + 2})}{chars (c_{p}, c_{p + 1}, c_{p + 2})} \\ \frac{re_trans (c_{p}, c_{p + 1}, c_{p + 2})}{chars (c_{p}, c_{p + 1}, c_{p + 2})} \end{matrix}

(公式1)

其中，c代表候选形式，p代表候选形式中字符的位置，q代表查询词；各个函数的定义如下：

add(x，y)，字符x被拼写成xy的次数；

del(x，y)，字符xy(xy表示正确形式)被拼写成字符x的次数；

sub(x，y)，字符y被拼写成字符x的次数；

rev(x，y)，字符xy被拼写成字符yx的次数；

trans(x，y)，字符xay被拼写成字符yax的次数；

trans(x，y，z)，字符xyz被拼写成字符yzx的次数；

re_trans(x，y，z)，字符xyz被拼写成字符zxy的次数；

chars(x，y，z)，字符xyz在搜索引擎日志中出现的次数；

chars(x，y)，字符xy在搜索引擎日志中出现的次数；

char(x)，字符x在搜索引擎日志中出现的次数。

上述公式1的含义表示对应于方式一～方式七中每种操作发生的次数占相应字符出现在搜索引擎日志中次数的比例，即各个方式发生的权重，也可以理解为各个方式发生的可能性有多大。

词频特征的度量方法是：count(c)/max_count，其中，count(c)代表单词c在搜索引擎日志中出现的次数；max_count代表搜索引擎日志中单词的最高出现次数。

错误倾向性特征的度量方法是：对进行测试的对象中某一拼写正确单词的所有可能的错误形式的词频求和。

利用字形相似性特征、词频特征、错误倾向性特征，对候选集合中的元素进行评分的公式为：

α*Edsim/max(Edsim)+β*LogSim/max(LogSim) (公式2)

+(1-α-β)*ErrorTrend/max(ErrorTrend)

其中，EdSim代表字型相似性特征，LogSim代表词频相似性特征，ErrorTrend代表错误倾向性特征，max()表示对括号内的某特征取最大值，α与β分别代表字形相似性特征与词频特征在整个公式2中的所占的比重，它们的取值范围均是0-1之间的浮点数；公式2对各个特征采用其出现的最大值进行归一化，之后再加权平均，该方法为线性拟合法。

其中，候选集合中的每个候选形式相对于其他的候选形式均有EdSim值，如果候选集合中的某一个候选形式只采用了公式1中的一个公式对应的方式生成，那么，EdSim取值为根据这个公式计算所得到的取值；如果一个候选形式采用了公式1中的多个公式对应的方式生成，那么，EdSim取值为多个公式取值的求和。

经过上述评分后，将分值最高的候选作为查询词的校正形式返回给用户。

本实施例通过对错误的查询词进行判断，再通过不同方式穷举多种候选形式，根据预设规则将候选形式列入候选集合，对候选集合中的候选形式进行度量，最后选出分值最高的候选形式作为查询词的校正形式，实现对于用户输入的查询词进行拼写检查。如果用户输入的查询词含有拼写错误，本实施例提供的技术方案可以向用户提供拼写正确的查询词。进而可以有效地避免拼写错误对搜索引擎的误导，使得搜索引擎更加智能。

实施例二

本实施例在实施例一的基础上加入优选步骤，在对查询词进行判断之前进行预处理，以提高本发明的效率。如图2所示，本实施例提供的一种监测呼叫时网络状态的处理方法，具体包括以下步骤：

步骤201：判断输入搜索引擎的英文查询内容是否在校正缓存词表中，若存在于校正缓存词表中，直接将缓存词表中的校正形式返回给用户。

其中，校正缓存词表在系统初始启动时加载，词表中存放了较为常见的错误形式及其校正形式。若输入的英文查询词存在于校正缓存词表中，则直接将缓存词表中的校正形式返回给用户；若不存在于校正缓存词表中，则顺序向下执行。

步骤202：对输入搜索引擎的查询内容进行分隔。

具体地，可以采用“空格”作为分隔符，对输入搜索引擎的查询内容进行分隔，分隔后的每一个单位为查询词。本实施例中，具体地，对经过校正缓存词表筛选的输入搜索引擎的查询内容进行分隔。

步骤203：对分隔后得到的查询词选择对应的校正模式。

若输入的查询内容为单查询词，则转入单查询词校正模式；若输入的查询内容中包含两个查询词，则转入双查询词校正模式；若输入的查询内容包含的查询词数大于两个，则转入多查询词校正模式。

下面的步骤均以校正模式为单查询词校正模式为例进行说明。

步骤204：判断输入中文搜索引擎的英文查询词是否为正确的英文查询词。

步骤205：对非正确的英文查询词，生成其所有可能的正确候选，按照预设规则将候选列入候选集合。

步骤206：对候选集合中的所有候选形式进行评分，将分值最高的候选形式作为校正后的形式返回给用户。

其中，步骤204～步骤206与实施例一步骤101～步骤103的原理相似，此处不再赘述。

本实施例提供的技术方案通过判断输入搜索引擎的英文查询词是否在校正缓存词表中，将缓存词表中的校正形式返回给用户可以调高加快处理的速度；对输入搜索引擎的查询内容进行分隔并对分隔后得到的查询词选择对应的校正模式，可以提高查询的效率。

本发明提供的技术方案中，对于由两个查询词组成的校正，即双查询词校正模式，其校正方式类似于实施例一。不同之处在于需要将两个查询词加“空格”字符作为一个完整的查询词按照实施例一进行校正处理。

对于由多查询词组成的查询，即多查询词校正模式，校正方式类似于双查询词的校正方法。不同之处在于需要将每一个查询词按照实施例一进行校正处理，最后将所有查询词的校正形式以单个“空格”字符为间隔字符进行拼接，作为整个查询的校正形式。

本发明提供的技术方案可以通过计算机软件程序实现，主要针对用户输入搜索引擎的查询词进行拼写检查，对于有拼写错误的查询词，该方法可以给出拼写正确的查询词，避免用户的输入错误对搜索引擎的误导，从而帮助用户快捷、高效的获取存在于互联网信息环境中的能够满足用户需求的高质量信息。

本发明提供的技术方案以中文搜索引擎为例说明，除了能够对英文单词进行校正，还可以对出错的拼音串进行校正，将其还原为相应的中文查询词。本领域技术人员可以理解的是，本发明提供的技术方案也可以应用于英文搜索引擎，对英文单词进行校正的原理与在中文搜索引擎中校正的原理相似，此处不再赘述。

在实施本发明的技术方案过程中，对于含有错误的英文查询词进行校正的模型可以称为相似度模型。

为了验证本发明技术方案的有效性与可靠性，进行了相关的性能评测实验。得到如下结果：

在运行效率方面，当程序运行硬件环境为1.8G主频的CPU、2G的内存时，计算机在进行拼写校正时对单个英文查询词进行校正的平均时间为0.47ms，可以很好的满足搜索引擎同时服务多用户的线上需要。

在校正的正确性方面，经过与一定量手工标注结果的比照(10833个英语查询)，本发明提供的技术方案拼写校正的准确率为97.13％。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本发明实施例可以通过软件实现，相应的软件可以存储在可读取的存储介质中，例如计算机的硬盘、光盘或软盘中。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种中文搜索引擎中查询词的拼写校正方法，其特征在于，所述方法包括：

根据

α*Edsim/max(Edsim)+β*LogSim/max(LogSim)

+(1-α-β)*ErrorTrend/max(ErrorTrend)

2.根据权利要求1所述的方法，其特征在于，根据预先存储的置信词表判断输入中文搜索引擎的英文查询词是否为正确的英文查询词。

3.根据权利要求1所述的方法，其特征在于，对非正确的英文查询词，根据预先设定的方式生成所述非正确的英文查询词的候选形式；所述预先设定的方式包括以下方式及其任意组合：

在输入的查询词中插入一个字符；

在输入的查询词中删除一个字符；

在输入的查询词中替换一个字符；

交换查询词中相邻两个字符的位置；

4.根据权利要求3所述的方法，其特征在于，对非正确的英文查询词，根据预先设定的方式生成所述非正确的英文查询词的候选形式之后，对所述候选形式再次根据所述预先设定的方式生成所述非正确的英文查询词的候选形式。

5.根据权利要求1所述的方法，其特征在于，所述预设规则包括：

字符长度大于3的英文查询词第一个字符是正确形式；

候选集合中只收录在搜索引擎日志中出现过的候选形式。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1或6所述的方法，其特征在于，所述方法还包括：

对输入搜索引擎的查询内容进行分隔。

8.根据权利要求7所述的方法，其特征在于，对分隔后得到的查询词选择对应的校正模式，所述对应的校正模式包括单查询词校正模式、双查询词校正模式和多查询词校正模式。