CN110348020A

CN110348020A - 一种英文单词拼写纠错方法、装置、设备及可读存储介质

Info

Publication number: CN110348020A
Application number: CN201910645546.5A
Authority: CN
Inventors: 罗鹏; 钟灵
Original assignee: Hangzhou Jiayun Data Technology Co Ltd
Current assignee: Hangzhou Jiayun Data Technology Co Ltd
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2019-10-18

Abstract

本发明公开了一种英文单词拼写纠错方法，该方法包括以下步骤：获取具有待纠错单词的目标单词序列，以及待纠错单词在目标单词序列中对应的相邻词；利用编辑距离从正确词库中获取待纠错单词的候选集；利用基于全局词频统计的向量化词库，计算相邻词与候选集中的每个候选词之间的相邻共现参数值；利用相邻共现参数值从候选集中确定出正确词，并将目标单词序列中的待纠错单词替换为正确词。该方法，能够结合上下文信息从候选集中筛选得到替换待纠错词的正确词，可能够提高拼写纠错准确率。本发明还公开了一种英文单词拼写纠错装置、设备及可读存储介质，具有相应的技术效果。

Description

一种英文单词拼写纠错方法、装置、设备及可读存储介质

技术领域

本发明涉及数据处理技术领域，特别是涉及一种英文单词拼写纠错方法、装置、设备及可读存储介质。

背景技术

跨境电商正逐步成为中国连接世界的纽带。和传统国内电商不同，跨境电商的用户分布在国外，在网站平台上使用的语言主要是英文。利用键盘输入英文内容，因英文没有输入法，只能单个字母逐个输入，这就容易导致拼写出错。具体的，在拼写单词时，因误触键盘、或者由于发音错误极容易出现漏字母、字母顺序错误、多字母的情况。这些拼写错误的请求会进入搜索引擎，由于错词在搜索工程中的类目映射、索引查询等等相关处理中，会有不良影响，导致不能很准确地得到用户需要的结果。

目前的拼写纠错方法通过对单词查表，如果错误直接通过编辑距离查找正确的词，由于编辑距离和错词相近的词可能有多个。用来筛选正确词的处理方法，难以获得准确正确词，即无法保障纠错后的词为用户期望输入的词。也就是说，目前的拼写纠错方法的准确率较低，难以满足实际纠错需求。

综上所述，如何有效地解决拼写纠错等问题，是目前本领域技术人员急需解决的技术问题。

发明内容

本发明的目的是提供一种英文单词拼写纠错方法、装置、设备及可读存储介质，基于上下文相关性，快速准确地确定出错词对应的正确词，可提高拼写纠错准确率。

为解决上述技术问题，本发明提供如下技术方案：

一种英文单词拼写纠错方法，包括：

获取具有待纠错单词的目标单词序列，以及所述待纠错单词在所述目标单词序列中对应的相邻词；

利用编辑距离从正确词库中获取所述待纠错单词的候选集；

利用基于全局词频统计的向量化词库，计算所述相邻词与所述候选集中的每个候选词之间的相邻共现参数值；

利用所述相邻共现参数值从所述候选集中确定出正确词，并将所述目标单词序列中的所述待纠错单词替换为所述正确词。

优选地，所述获取具有待纠错单词的目标单词序列，包括：

获取拼写内容，对所述拼写内容进行单词拼写检测，获得所述目标单词序列。

优选地，计算所述目标单词序列中所述待纠错单词的相邻词与所述候选集中的每个候选词之间的相邻共现参数值，包括：

利用所述向量化词库中记录的单词词组在文本中一起出现的统计次数，计算所述相邻词与每个所述候选词之间的相邻共现参数值。

优选地，计算所述相邻词与每个所述候选词之间的相邻共现参数值，包括：

从所述向量化词库中获取所述相邻词的单词向量以及每个所述候选词分别对应的单词向量；

计算所述相邻词的单词向量与每个所述候选词分别对应的单词向量的向量乘积；

将所述向量乘积作为所述相邻共现参数值。

优选地，利用所述相邻共现参数值从所述候选集中确定出正确词，包括：

对所述相邻共现参数值进行大小排序，将最大相邻共现参数值对应的候选词作为所述正确词。

优选地，所述利用编辑距离从正确词库中获取所述待纠错单词的候选集，包括：

在所述正确词库中筛选出与所述待纠错单词的编辑距离为2的单词；

将筛选得到的单词作为所述候选词，并添加至所述候选集。

优选地，在将所述目标单词序列中的所述待纠错单词替换为所述正确词之后，还包括：

当所述目标单词序列为搜索描述语时，利用纠错替换后的目标单词序列进行搜索。

一种英文单词拼写纠错装置，包括：

目标单词序列获取模块，用于获取具有待纠错单词的目标单词序列，以及所述待纠错单词在所述目标单词序列中对应的相邻词；

候选集获取模块，用于利用编辑距离从正确词库中获取所述待纠错单词的候选集；

相邻共现参数值计算模块，用于利用基于全局词频统计的向量化词库，计算所述相邻词与所述候选集中的每个候选词之间的相邻共现参数值；

单词拼写纠错模块，用于利用所述相邻共现参数值从所述候选集中确定出正确词，并将所述目标单词序列中的所述待纠错单词替换为所述正确词。

一种英文单词拼写纠错设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述英文单词拼写纠错方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述英文单词拼写纠错方法的步骤。

应用本发明实施例所提供的方法，获取具有待纠错单词的目标单词序列，以及待纠错单词在目标单词序列中对应的相邻词；利用编辑距离从正确词库中获取待纠错单词的候选集；利用基于全局词频统计的向量化词库，计算相邻词与候选集中的每个候选词之间的相邻共现参数值；利用相邻共现参数值从候选集中确定出正确词，并将目标单词序列中的待纠错单词替换为正确词。

考虑到在语义表达时，单词与单词之间往往存在一定关联关系。也就是存在相对固定的上下文信息。基于此，本方法即利用单词与单词之间的上下文信息的关联关系，完成英文单词拼写纠错。即，在获得具有待纠错单词的目标单词序列，以及在目标单词序列中待纠错单词对应的相邻词。利用编辑距离中正确词库中获取待纠错单词的候选集。然后，利用基于全局词频统计的向量化词库，计算分别计算相邻词与候选集中的每个候选词之间的相邻共现参数值。基于该相邻共现参数值从候选集中确定出正确词，并将目标单词序列中的待纠错词替换为正确词，即完成拼写纠错。结合上下文信息从候选集中筛选得到替换待纠错词的正确词，能够提高拼写纠错准确率。

相应地，本发明实施例还提供了与上述英文单词拼写纠错方法相对应的英文单词拼写纠错装置、设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种英文单词拼写纠错方法的实施流程图；

图2为一种应用本发明实施例中英文单词拼写纠错方法的实施流程图；

图3为本发明实施例中一种英文单词拼写纠错装置的结构示意图；

图4为本发明实施例中一种英文单词拼写纠错设备的结构示意图；

图5为本发明实施例中一种英文单词拼写纠错设备的具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

请参考图1，图1为本发明实施例中一种英文单词拼写纠错方法的流程图，该方法包括以下步骤：

S101、获取具有待纠错单词的目标单词序列，以及待纠错单词在目标单词序列中对应的相邻词。

其中，目标单词序列即为包括待纠错单词的单词组合，目标单词序列中的单词数量至少为2个，也就是说，目标单词序列至少为两个单词，且其中一个为待纠错单词，另外，该待纠错词至少对应一个相邻词。例如，若用A表示待纠错单词，B为另外一个单词，则目标单词序列可为AB，或BA，此时B为相邻词。

相邻词即为在目标单词序列中与待纠错单词相邻的词，在本发明实施例中相邻词可以具体为包括待纠错单词前的单词，在该纠错单词后的单词中的至少一个。

在本发明实施例中，获取目标单词序列的方式可直接从可读存储介质中读取预先存入的单词序列。为了实现实时纠错，优选地，还可获取拼写内容，对拼写内容进行单词拼写检测，获得目标单词序列。具体的，该拼写内容可用户使用网页搜索引擎时，输入的检索描述；该拼写内容也可为在文档中录入内容时，通过键盘接收到的拼写内容。其中，单词拼写检测可具体为将每一个拼写单词与正确的单词库进行比对，当单词库中无该词，则可确定该词拼写错误；当单词库中存在该词，则可确定该词拼写无误。

S102、利用编辑距离从正确词库中获取待纠错单词的候选集。

其中，编辑距离为一个词通过替换、增加、删减等编辑处理到另一个词的最小次数。因本发明实施例所关注的为英文单词纠错，因而在选用编辑距离的具体编辑距离类别时，可选用可表述英文单词编辑距离的类别。例如，可选用莱文斯坦距离(Levenshtein)，指两个字串之间，由一个转成另一个所需的最少编辑操作次数，允许的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。例如，将kitten一字转成sitting：需要进行至少三次编辑：sitten(k→s)，sittin(e→i)，sitting(→g)，因而，kitten与sitting之间的编辑距离为3。例如，“apple”和“apples”的编辑距离为1。可见，编辑距离越小，两个单词之间越相似。

在本发明实施例中，可预先建立好正确词库，该正确词库和上文所描述的进行拼写检测的单词库可为同一个。

然后，利用编辑距离从正确词库中获取待纠错单词的候选集。具体的，可根据具体的编辑距离算法计算待纠错单词与正确词库中单词之间的编辑距离，然后筛选出编辑距离小于或等于预设距离的单词。

优选地，候选集确定过程，可包括：

步骤一、在正确词库中筛选出与待纠错单词的编辑距离为2的单词；

步骤二、将筛选得到的单词作为候选词，并添加至候选集。

其中，候选集中的单词数量可为多个，在本发明实施例中对候选集中的单词数量并不限定。候选集中的单词即为用于替换待纠错词的候选词。

S103、利用基于全局词频统计的向量化词库，计算相邻词与候选集中的每个候选词之间的相邻共现参数值。

其中，该向量化词库可具体为利用词向量技术，将英文单词映射成词向量后获得的向量化词库。词向量为文本单词映射到实数向量空间的一种表示。在本发明实施例中采用Glove(Global Vectors for Word Representation)基于全局词频统计(count-based&overall statistics)的词表征(word representation)工具，来进行词向量化。Glove可通过计算词与词在文本中一起出现的次数，将词映射成向量表示。

Glove模型的损失函数为：

其中，h(x)是权重函数，表示两个单词j和i的词向量表示，x_ij表示单词j和i在相邻一段文本中，共同出现过的次数。例如，设定的窗口参数是1，表示两个单词相邻出现的次数。 b_i和c_j为训练过程中的偏置项。Glove模型在训练中的目标为最小化损失函数，因此训练好的模型，有：近似的有，即单词j和i的词向量乘积，近似等于j和i在文本中一同出现的次数的对数。由于对数函数是单调递增函数，两个向量乘积越大，说明共同出现次数越多。

在设置好向量化词库之后，当需要从候选集中筛选出正确的单词时，则可利用向量化词库中记录的单词词组在文本中一起出现的统计次数，计算相邻词与每个候选词之间的相邻共现参数值。

其中，计算相邻词与每个候选词之间的相邻共现参数值，包括：

步骤一、从向量化词库中获取相邻词的单词向量以及每个候选词分别对应的单词向量；

步骤二、计算相邻词的单词向量与每个候选词分别对应的单词向量的向量乘积；

步骤三、将向量乘积作为相邻共现参数值。

为便于描述，下面将上述三个步骤结合起来进行说明。

从Glove的说明介绍可知，向量化词库中的单词向量乘积越大，说明共同出现次数越多。因此，在本申请中为从候选集中选出与相邻词满足上下文信息的正确词，可从向量化词库中获取相邻词的单词向量以及每个候选词分别对应的单词向量。然后分别计算向量乘积，将向量乘积作为相邻共现参数值。该相邻共现参数值越大，则该候选词越有可能为待纠错词的正确拼写。

S104、利用相邻共现参数值从候选集中确定出正确词，并将目标单词序列中的待纠错单词替换为正确词。

计算出相邻共现参数值之后，可对相邻共现参数值进行大小排序，将最大相邻共现参数值对应的候选词作为正确词。

优选地，在本申请中，当相邻词为两个以上时，则可将每个相邻词基于最大向量共现参数值选出的候选词进行比对，当两个候选词为同一个词时，则确定该候选词为正确词。

确定出候选词之后，便可将待纠错词替换为正确词。当然，为了进一步提高准确率，还可将该正确词输出，以供用户确认。

完成拼写纠错之后，便可基于纠错后的目标单词序列存储相应信息或进行诸如检索的数据处理操作。例如，在将目标单词序列中的待纠错单词替换为正确词之后，当目标单词序列为搜索描述语时，利用纠错替换后的目标单词序列进行搜索。将拼写错词改正后进行搜索，可提高检测准确率。

为便于本领域技术人员更好的理解本发明实施例所提供的英文单词拼写纠错方法，下面以电商平台的搜索应用场景为例，对本发明实施例所提供的英文单词拼写纠错方法进行详细说明。

请参考图2图2为一种应用本发明实施例中英文单词拼写纠错方法的实施流程图。该方法在实际应用时，可依次实现以下三个部分：

第一部分：训练词向量。词向量的生成需要训练语料。可收集一段时间用户输入的搜索词及所有的商品标题文本，使用Glove模型训练生成词向量。通过设置和调整模型参数，可以得到训练语料中的单词的向量表示。语料中的用户搜索词，包括了用户输入的正确词汇、拼错的词汇和商品标题，因此对于正确词、拼错词加上商品词，都得到了向量表示。

用户输入的搜索词中有正确的词及拼写错误的词，拼写正确的人数会多于拼写错误的人数，单个词输入正确的次数多于拼错的次数，因此整体输入正确的词数量多于输入错误词的数量。以用户一次输入三个词为例：A B C，三个词中间以空格隔开。A，C两个词是正确词，B是拼写错误的词，假设B 是由BB这个词拼写错得来。因此正确的搜索应该是：A BBC。由上文可知， A BB C在训练语料中出现的次数一定多于A B C出现的次数，那么A BB出现的次数也会多于A B。由上文所描述的得A(C)的词向量乘以B的词向量小于A(C)的词向量乘以BB的词向量。

第二部分：建立正确词库，对输入的搜索词进行纠错，需要首先判断一个词是否正确。通过建立正确词库，对输入的搜索词逐个检查，如果不在词库，即是错词，在处理中需要对其进行纠正。

正确词库可以由英语单词和常用的品牌、商品词汇组成，具体可以再人工检测词表，进行增加、删减，动态维护。

第三部分：在线检查，对用户输入的搜索词进行逐个检查是否出现在正确词库中，如果全部出现，则不进行纠错，否则标记用户输入的正确词及错误词。继续以用户输入A BC为例，由于B是拼错的词(即待纠错单词)，因此正确词表中不包括B，将B标记为错词，并找到与该词最近的一个正确的词 A或C(A和C即为相邻词)。在正确词库中，找到和错词B编辑距离2以内的词，作为可能的拼写正确原词，这一过程可能会有多个候选的英文单词。从上文可知，两个单词共同出现的次数近似等于两个单词向量的乘积。此时可分别计算两个单词之间的乘积并存储，在计算完全部候选词与正确词A的向量乘积后，取乘积最大值对应的候选词作为该错词的正确词，然后将该词替换错词B。当所有错词被替换完成后，纠错过程也就结束了。最后，将替换后的搜索词作为正确的词返回。

相较于目前的拼写纠错算法准确率较低，算法通过对单词查表，如果错误直接通过编辑距离查找正确的词，由于编辑距离和错词相近的词可能有多个；用来筛选正确词的贝叶斯算法，不能很好地计算多个词在当前用户搜索词的情况下的概率情况。同时如果使用贝叶斯算法，对上下文多个词计算概率，但是由于整体数据的先验概率计算量过大，也没有很好地解决。本发明实施例所提供的英文单词拼写纠错方法，在上下文关系处理较为困难，结果置信度不高的情况下，使用词向量来存储词与词之间的上下文信息，一方面提高纠错的准确率；另一方面，对于纠错过程采用数学公式计算，处理速度加快，消耗时间少。

实施例二：

相应于上面的方法实施例，本发明实施例还提供了一种英文单词拼写纠错装置，下文描述的英文单词拼写纠错装置与上文描述的英文单词拼写纠错方法可相互对应参照。

参见图3所示，该装置包括以下模块：

目标单词序列获取模块101，用于获取具有待纠错单词的目标单词序列，以及待纠错单词在目标单词序列中对应的相邻词；

候选集获取模块102，用于利用编辑距离从正确词库中获取待纠错单词的候选集；

相邻共现参数值计算模块103，用于利用基于全局词频统计的向量化词库，计算相邻词与候选集中的每个候选词之间的相邻共现参数值；

单词拼写纠错模块104，用于利用相邻共现参数值从候选集中确定出正确词，并将目标单词序列中的待纠错单词替换为正确词。

应用本发明实施例所提供的装置，获取具有待纠错单词的目标单词序列，以及待纠错单词在目标单词序列中对应的相邻词；利用编辑距离从正确词库中获取待纠错单词的候选集；利用基于全局词频统计的向量化词库，计算相邻词与候选集中的每个候选词之间的相邻共现参数值；利用相邻共现参数值从候选集中确定出正确词，并将目标单词序列中的待纠错单词替换为正确词。

考虑到在语义表达时，单词与单词之间往往存在一定关联关系。也就是存在相对固定的上下文信息。基于此，本装置即利用单词与单词之间的上下文信息的关联关系，完成英文单词拼写纠错。即，在获得具有待纠错单词的目标单词序列，以及在目标单词序列中待纠错单词对应的相邻词。利用编辑距离中正确词库中获取待纠错单词的候选集。然后，利用基于全局词频统计的向量化词库，计算分别计算相邻词与候选集中的每个候选词之间的相邻共现参数值。基于该相邻共现参数值从候选集中确定出正确词，并将目标单词序列中的待纠错词替换为正确词，即完成拼写纠错。结合上下文信息从候选集中筛选得到替换待纠错词的正确词，能够提高拼写纠错准确率。

在本发明的一种具体实施方式中，目标单词序列获取模块101，具体用于获取拼写内容，对拼写内容进行单词拼写检测，获得目标单词序列。

在本发明的一种具体实施方式中，相邻共现参数值计算模块103，具体用于利用向量化词库中记录的单词词组在文本中一起出现的统计次数，计算相邻词与每个候选词之间的相邻共现参数值。

在本发明的一种具体实施方式中，在本发明的一种具体实施方式中，相邻共现参数值计算模块103，具体用于从向量化词库中获取相邻词的单词向量以及每个候选词分别对应的单词向量；计算相邻词的单词向量与每个候选词分别对应的单词向量的向量乘积；将向量乘积作为相邻共现参数值。

在本发明的一种具体实施方式中，单词拼写纠错模块104，具体用于对相邻共现参数值进行大小排序，将最大相邻共现参数值对应的候选词作为正确词。

在本发明的一种具体实施方式中，候选集获取模块102，具体用于在正确词库中筛选出与待纠错单词的编辑距离为2的单词；将筛选得到的单词作为候选词，并添加至候选集。

在本发明的一种具体实施方式中，还包括：

搜索模块，用于在将目标单词序列中的待纠错单词替换为正确词之后，当目标单词序列为搜索描述语时，利用纠错替换后的目标单词序列进行搜索。

实施例三：

相应于上面的方法实施例，本发明实施例还提供了一种英文单词拼写纠错设备，下文描述的一种英文单词拼写纠错设备与上文描述的一种英文单词拼写纠错方法可相互对应参照。

参见图4所示，该英文单词拼写纠错设备包括：

存储器D1，用于存储计算机程序；

处理器D2，用于执行计算机程序时实现上述方法实施例的英文单词拼写纠错方法的步骤。

具体的，请参考图5，图5为本实施例提供的一种英文单词拼写纠错设备的具体结构示意图，该英文单词拼写纠错设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)322 (例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在英文单词拼写纠错设备301上执行存储介质330中的一系列指令操作。

英文单词拼写纠错设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。例如，Windows ServerTM，Mac OS XTM，UnixTM， LinuxTM，FreeBSDTM等。

上文所描述的英文单词拼写纠错方法中的步骤可以由英文单词拼写纠错设备的结构实现。

相应于上面的方法实施例，本发明实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种英文单词拼写纠错方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的英文单词拼写纠错方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种英文单词拼写纠错方法，其特征在于，包括：

利用编辑距离从正确词库中获取所述待纠错单词的候选集；

2.根据权利要求1所述的英文单词拼写纠错方法，其特征在于，所述获取具有待纠错单词的目标单词序列，包括：

3.根据权利要求1所述的英文单词拼写纠错方法，其特征在于，计算所述目标单词序列中所述待纠错单词的相邻词与所述候选集中的每个候选词之间的相邻共现参数值，包括：

4.根据权利要求3所述的英文单词拼写纠错方法，其特征在于，计算所述相邻词与每个所述候选词之间的相邻共现参数值，包括：

将所述向量乘积作为所述相邻共现参数值。

5.根据权利要求4所述的英文单词拼写纠错方法，其特征在于，利用所述相邻共现参数值从所述候选集中确定出正确词，包括：

6.根据权利要求1所述的英文单词拼写纠错方法，其特征在于，所述利用编辑距离从正确词库中获取所述待纠错单词的候选集，包括：

将筛选得到的单词作为所述候选词，并添加至所述候选集。

7.根据权利要求1至6任一项所述的英文单词拼写纠错方法，其特征在于，在将所述目标单词序列中的所述待纠错单词替换为所述正确词之后，还包括：

8.一种英文单词拼写纠错装置，其特征在于，包括：

9.一种英文单词拼写纠错设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述英文单词拼写纠错方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述英文单词拼写纠错方法的步骤。