CN112765962A

CN112765962A - 一种文本纠错方法、装置及介质

Info

Publication number: CN112765962A
Application number: CN202110056370.7A
Authority: CN
Inventors: 周鑫
Original assignee: Shanghai Weimeng Enterprise Development Co ltd
Current assignee: Shanghai Weimeng Enterprise Development Co ltd
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2021-05-07
Anticipated expiration: 2041-01-15
Also published as: CN112765962B

Abstract

本申请公开了一种文本纠错方法、装置及介质，其中方法包括，预先获取正确的样本数据，并根据样本数据得到正确词汇合集，获取目标关键词后，通过最短编辑距离算法从正确词汇合集中选择与目标关键词匹配的目标正确词汇。由于预先获取到正确词汇合集，并且在采集目标关键词后与正确词汇合集匹配得到目标正确词汇，因此在用户输入目标关键词后，无论目标关键词是否存在输入错误均会与正确词汇合集进行匹配，从而避免了搜索引擎无法根据错误的目标关键词搜索结果的问题，达到即使用户输入的存在关键词存在输入错误，用户也能够得到正确的搜索结果，进而提高了用户的体验感，提高了搜索引擎的搜索转化率。

Description

一种文本纠错方法、装置及介质

技术领域

本申请涉及电子信息技术领域，特别是涉及一种文本纠错方法、装置及介质。

背景技术

随着科技的发展，以及互联网的普遍使用，在浩瀚的信息海洋中，人们只有依靠搜索引擎才能不至于迷失方向，才能迅速找到所需的信息。搜索引擎主要是将用户的输入数据进行智能分词，得到目标分词集合，通过搜索引擎的倒排索引进行相关匹配得到搜索结果。

目前，在搜索引擎搜索数据的过程中没有文本纠错的过程，因此当用户的输入数据存在书写错误时，无法针对书写错误的输入数据进行文本纠错，导致搜索引擎无法根据错误的输入数据搜索正确的结果，从而降低了用户的体验感，降低了搜索引擎的搜索转化率。

因此，如何提高用户的体验感，提高搜索引擎的搜索转化率是本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种文本纠错方法，用于提高用户的体验感，提高搜索引擎的搜索转化率。本申请的目的是还提供一种文本纠错装置及介质。

为解决上述技术问题，本申请提供一种文本纠错方法，包括：

预先根据正确的样本数据获取正确词汇合集；

获取目标关键词；

通过最短编辑距离算法从所述正确词汇合集中选择与所述目标关键词匹配的目标正确词汇。

优选的，所述通过最短编辑距离算法选择与所述目标关键词匹配的目标正确词汇后，还包括：

在所述目标正确词汇的个数是多个的情况下，计算所述目标关键词和各所述目标正确词汇间的各文本相似度；

选择所述文本相似度的最高值对应的目标正确词汇。

判断所述目标正确词汇的个数是否为一个；

如果否，则进入人工选择模式以便从多个所述目标正确词汇中选择一个所述目标正确词汇。

优选的，所述预先根据正确的样本数据获取正确词汇合集具体包括：

获取正确的所述样本数据；

通过NLP分词服务、CRF分词服务以及IK分词服务将所述样本数据经过拆分和组合得到所述正确词汇合集。

优选的，所述通过最短编辑距离算法选择与所述目标关键词匹配的目标正确词汇前，还包括：

判断所述目标关键词的长度是否符合预设要求；

如果是，则进入所述通过最短编辑距离算法选择与所述目标关键词匹配的目标正确词汇的步骤。

优选的，所述判断所述目标关键词的长度是否符合预设要求前，还包括：

判断所述目标关键词是否全是数字；

如果否，则进入所述判断所述目标关键词的长度是否符合预设要求的步骤。

优选的，所述进入所述通过最短编辑距离算法选择与所述目标关键词匹配的目标正确词汇的步骤前，还包括：

根据所述正确词汇合集对应的文本类型对所述目标关键词进行归一化处理。

为解决上述技术问题，本申请还提供一种文本纠错装置，基于如上所述的文本纠错方法，包括：

第一获取模块，用于预先根据正确的样本数据获取正确词汇合集；

第二获取模块，用于获取目标关键词；

第一选择模块，用于通过最短编辑距离算法从所述正确词汇合集中选择与所述目标关键词匹配的目标正确词汇。

为解决上述技术问题，本申请还提供一种文本纠错装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上所述的文本纠错方法的步骤。

为解决上述技术问题，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的文本纠错方法的步骤。

本申请所提供的文本纠错方法，预先获取正确的样本数据，并根据样本数据得到正确词汇合集，获取目标关键词后，通过最短编辑距离算法从正确词汇合集中选择与目标关键词匹配的目标正确词汇。由于预先获取到正确词汇合集，并且在采集目标关键词后与正确词汇合集匹配得到目标正确词汇，因此在用户输入目标关键词后，无论目标关键词是否存在输入错误均会与正确词汇合集进行匹配，从而避免了搜索引擎无法根据错误的目标关键词搜索结果的问题，达到即使用户输入的存在关键词存在输入错误，用户也能够得到正确的搜索结果，进而提高了用户的体验感，提高了搜索引擎的搜索转化率。

此外，本申请提供的一种文本纠错装置及介质，与上述文本纠错方法对应，效果同上。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文本纠错方法的流程图；

图2为本申请实施例提供的一种文本纠错装置的结构示意图；

图3为本申请实施例提供的另一种文本纠错装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本申请保护范围。

本申请的核心是提供一种文本纠错方法，用于提高用户的体验感，提高搜索引擎的搜索转化率。本申请的核心是还提供一种文本纠错装置及介质。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。

图1为本申请实施例提供的一种文本纠错方法的流程图。如图1所示，该方法包括：

S10：预先根据正确的样本数据获取正确词汇合集。

本申请实施例中，样本数据可以包括产品名称、商品名称、主题、标签、评论以及外部第三方词库等。可以理解的是，样本数据的涵盖的范围越广，后续与目标关键词匹配的正确词汇的准确率越高。

需要说明的是，在获取样本数据后，还需要对样本数据进行筛选以便于得到正确的样本数据，例如当获取的样本数据包括上海迪士尼和迪士腻时，则迪士腻这一样本数据将会被去除，以便于得到正确的样本数据：上海迪士尼。

S11：获取目标关键词。

需要说明的是，在具体实施中，用户输入的数据可以是直接的关键词，也可以是一句话、一段语句。当用户输入的数据不是关键词时，可从用户输入的数据中提取关键词，以获取目标关键词。

S12：通过最短编辑距离算法从正确词汇合集中选择与目标关键词匹配的目标正确词汇。

为了进一步提高目标关键词匹配的准确性，从而提高用户的体验感和搜索引擎的搜索转化率，作为优选的实施例，在S11后，还包括：判断目标正确词汇的个数是否为一个，如果否，则计算目标关键词和各目标正确词汇间的各文本相似度，选择文本相似度的最高值对应的目标正确词汇。

此外，在目标正确词汇的个数是多个的情况下，还可以进入人工选择模式以便从多个目标正确词汇中选择一个目标正确词汇。需要说明的是，在具体实施中，人工选择模式具体为：将目标输入的数据，以及与目标关键词匹配的各目标正确词汇发送至搜索引擎平台(ElasticSearch，ES)，以便于工作人员通过ES从多个目标正确词汇选择与目标关键词最匹配的、与目标输入数据最匹配的一个目标正确词汇。

可以理解的是，在目标正确词汇的个数是多个时，上文提及的两个方法可以择其一使用，也可以一起使用，具体方法如下：在存在多个目标正确词汇的情况下，计算目标关键词和各目标正确词汇间的各文本相似度，判断各文本相似度是否存在多个最高值，如果否，则在各文本相似度选择文本相似度的最高值对应的目标正确词汇，如果是，则通过人为干预的方法从文本相似度的最高值对应的多个目标正确词汇中选择一个目标正确词汇。

本申请实施例所提供的文本纠错方法，预先获取正确的样本数据，并根据样本数据得到正确词汇合集，获取目标关键词后，通过最短编辑距离算法从正确词汇合集中选择与目标关键词匹配的目标正确词汇。由于预先获取到正确词汇合集，并且在采集目标关键词后与正确词汇合集匹配得到目标正确词汇，因此在用户输入目标关键词后，无论目标关键词是否存在输入错误均会与正确词汇合集进行匹配，从而避免了搜索引擎无法根据错误的目标关键词搜索结果的问题，达到即使用户输入的存在关键词存在输入错误，用户也能够得到正确的搜索结果，进而提高了用户的体验感，提高了搜索引擎的搜索转化率。

在上述实施例的基础上，S10具体包括：

获取正确的样本数据后，通过自然语言处理(Natural Language Processing，NLP)分词服务、条件随机场(Conditional Random Field，CRF)分词服务以及中文分词工具包(IK Analyzer)提供的分词服务，将样本数据经过拆分和组合得到正确词汇合集。

可以理解的是，通过NLP、CRF和IK分词服务能够对样本数据进行处理，通过拆分和组合得到尽可能多的正确词汇集合。例如样本数据为上海迪士尼乐园，则通过NLP、CRF和IK分词服务对样本数据进行拆分和组合，得到正确词汇集合：迪士尼、上海迪士尼、迪士尼乐园、上海迪士尼乐园和上海乐园。

本申请实施例所提供的文本纠错方法，通过NLP、CRF和IK分词服务对样本数据进行拆分和组合得到更多的正确词汇集合，因此能够提高正确词汇集合涵盖的范围，从而提高了与目标关键词匹配的正确词汇的准确率，进一步提高了用户的体验感和搜索引擎的搜索转化率。

在上述实施例的基础上，在S12前，还包括：

判断目标关键词的长度是否符合预设要求，如果是，则进入S12，如果否，则结束匹配。

需要说明的是，预设要求不做具体限制，在具体实施中，预设要求可以为目标关键词的长度在2个字符数至30个字符数之间。

为了进一步提高目标关键词匹配的准确性，从而提高用户的体验感和搜索引擎的搜索转化率，作为优选的实施例，在目标关键词的长度符合预设要求的情况下，在进入S12的步骤前，还包括：根据正确词汇合集对应的文本类型对目标关键词进行归一化处理。其中，文本类型可为中文、中英文、拼音、多音字、前后鼻音、混合词中的任意组合，例如当正确词汇合集对应的文本类型为拼音时，则将目标关键词转化为拼音。

还需说明的是，归一化处理过程中可针对目标关键词的类型选择合适的服务进行归一化处理。例如当目标关键词为全中文、全英文、中英文中任意一类时，可利用识别字符类型服务对目标关键词进行归一化处理；当目标关键词为多音词时，可利用自然语言处理服务工具包(Han Language Processing，HanLP)对目标关键词进行归一化处理。其中，归一化处理具体是指：将目标关键词的文本类型转化为正确词汇合集对应的文本类型，例如当正确词汇合集对应的文本类型为拼音，则目标关键词的文本类型需转化为拼音。

为了提高目标关键词和目标正确词汇间匹配的速度，作为优选的实施例，在判断目标关键词的长度是否符合预设要求前，还包括：

判断目标关键词是否全是数字，如果否，则进入判断目标关键词的长度是否符合预设要求的步骤，如果是，则结束匹配。

本申请实施例所提供的文本纠错方法，在通过最短编辑距离算法选择与目标关键词匹配的目标正确词汇前，判断目标关键词的长度是否符合预设要求，因此能够避免过长或过短的目标关键词进行无意义的匹配，从而提高了目标关键词和目标正确词汇间匹配的速度和准确率。

在上述实施例中，对于文本纠错方法进行了详细描述，本申请还提供文本纠错装置对应的实施例。需要说明的是，本申请从两个角度对装置部分的实施例进行描述，一种是基于功能模块的角度，另一种是基于硬件的角度。

图2为本申请实施例提供的一种文本纠错装置的结构示意图。如图2所示，基于功能模块的角度，该装置包括：

第一获取模块10，用于预先根据正确的样本数据获取正确词汇合集。

第二获取模块11，用于获取目标关键词。

第一选择模块12，用于通过最短编辑距离算法从正确词汇合集中选择与目标关键词匹配的目标正确词汇。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

作为优选的实施例，还包括：

第一判断模块，用于判断目标正确词汇的个数是否为一个。

第二选择模块，用于如果否，则进入人工选择模式以便从多个目标正确词汇中选择一个目标正确词汇。

还包括：

计算模块，用于在目标正确词汇的个数是多个的情况下，计算目标关键词和各目标正确词汇间的各文本相似度。

第三选择模块，用于选择文本相似度的最高值对应的目标正确词汇。

第一获取模块10具体包括：

第三获取模块，用于获取正确的样本数据。

获得模块，用于通过NLP分词服务、CRF分词服务以及IK分词服务将样本数据经过拆分和组合得到正确词汇合集。

还包括：

第二判断模块，用于判断目标关键词的长度是否符合预设要求。

第四选择模块，用于如果是，则进入通过最短编辑距离算法选择与目标关键词匹配的目标正确词汇的步骤。

还包括：

第三判断模块，用于判断目标关键词是否全是数字。

第四判断模块，用于如果否，则进入判断目标关键词的长度是否符合预设要求的步骤。

还包括：

处理模块，用于根据正确词汇合集对应的文本类型对目标关键词进行归一化处理。

本申请实施例所提供的文本纠错装置，预先获取正确的样本数据，并根据样本数据得到正确词汇合集，获取目标关键词后，通过最短编辑距离算法从正确词汇合集中选择与目标关键词匹配的目标正确词汇。由于预先获取到正确词汇合集，并且在采集目标关键词后与正确词汇合集匹配得到目标正确词汇，因此在用户输入目标关键词后，无论目标关键词是否存在输入错误均会与正确词汇合集进行匹配，从而避免了搜索引擎无法根据错误的目标关键词搜索结果的问题，达到即使用户输入的存在关键词存在输入错误，用户也能够得到正确的搜索结果，进而提高了用户的体验感，提高了搜索引擎的搜索转化率。

图3为本申请实施例提供的另一种文本纠错装置的结构示意图。如图3所示，基于硬件结构的角度，该装置包括：

存储器20，用于存储计算机程序；

处理器21，用于执行计算机程序时实现如上述实施例中文本纠错方法的步骤。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(CentralProcessing Unit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有图像处理器(Graphics Processing Unit，GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。

存储器20可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器20至少用于存储以下计算机程序201，其中，该计算机程序被处理器21加载并执行之后，能够实现前述任一实施例公开的文本纠错方法的相关步骤。另外，存储器20所存储的资源还可以包括操作系统202和数据203等，存储方式可以是短暂存储或者永久存储。其中，操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于文本纠错方法中涉及的数据等。

在一些实施例中，文本纠错装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。

本领域技术人员可以理解，图3中示出的结构并不构成对文本纠错装置的限定，可以包括比图示更多或更少的组件。

本申请实施例提供的文本纠错装置，包括存储器和处理器，处理器在执行存储器存储的程序时，能够实现如下方法：预先获取正确的样本数据，并根据样本数据得到正确词汇合集，获取目标关键词后，通过最短编辑距离算法从正确词汇合集中选择与目标关键词匹配的目标正确词汇。由于预先获取到正确词汇合集，并且在采集目标关键词后与正确词汇合集匹配得到目标正确词汇，因此在用户输入目标关键词后，无论目标关键词是否存在输入错误均会与正确词汇合集进行匹配，从而避免了搜索引擎无法根据错误的目标关键词搜索结果的问题，达到即使用户输入的存在关键词存在输入错误，用户也能够得到正确的搜索结果，进而提高了用户的体验感，提高了搜索引擎的搜索转化率。

最后，本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。

可以理解的是，如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例提供的计算机可读存储介质，该介质上存储有计算机程序，计算机程序被处理器执行时，能够实现如下方法：预先获取正确的样本数据，并根据样本数据得到正确词汇合集，获取目标关键词后，通过最短编辑距离算法从正确词汇合集中选择与目标关键词匹配的目标正确词汇。由于预先获取到正确词汇合集，并且在采集目标关键词后与正确词汇合集匹配得到目标正确词汇，因此在用户输入目标关键词后，无论目标关键词是否存在输入错误均会与正确词汇合集进行匹配，从而避免了搜索引擎无法根据错误的目标关键词搜索结果的问题，达到即使用户输入的存在关键词存在输入错误，用户也能够得到正确的搜索结果，进而提高了用户的体验感，提高了搜索引擎的搜索转化率。

以上对本申请所提供的一种文本纠错方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种文本纠错方法，其特征在于，包括：

预先根据正确的样本数据获取正确词汇合集；

获取目标关键词；

2.根据权利要求1所述的文本纠错方法，其特征在于，所述通过最短编辑距离算法选择与所述目标关键词匹配的目标正确词汇后，还包括：

选择所述文本相似度的最高值对应的目标正确词汇。

3.根据权利要求1所述的文本纠错方法，其特征在于，所述通过最短编辑距离算法选择与所述目标关键词匹配的目标正确词汇后，还包括：

判断所述目标正确词汇的个数是否为一个；

4.根据权利要求1所述的文本纠错方法，其特征在于，所述预先根据正确的样本数据获取正确词汇合集具体包括：

获取正确的所述样本数据；

5.根据权利要求1至3任意一项所述的文本纠错方法，其特征在于，所述通过最短编辑距离算法选择与所述目标关键词匹配的目标正确词汇前，还包括：

判断所述目标关键词的长度是否符合预设要求；

6.根据权利要求5所述的文本纠错方法，其特征在于，所述判断所述目标关键词的长度是否符合预设要求前，还包括：

判断所述目标关键词是否全是数字；

7.根据权利要求5所述的文本纠错方法，其特征在于，所述进入所述通过最短编辑距离算法选择与所述目标关键词匹配的目标正确词汇的步骤前，还包括：

8.一种文本纠错装置，其特征在于，包括：

第二获取模块，用于获取目标关键词；

9.一种文本纠错装置，其特征在于，基于如权利要求1至7任意一项所述的文本纠错方法，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任意一项所述的文本纠错方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述的文本纠错方法的步骤。