CN116363671A

CN116363671A - 英文语句的扫描纠错方法、装置及计算机可读存储介质

Info

Publication number: CN116363671A
Application number: CN202310275274.0A
Authority: CN
Inventors: 罗辉; 马志宇; 伍炬彬; 李云军; 韦刚
Original assignee: Shenzhen Yunxigu Technology Co ltd
Current assignee: Shenzhen Yunxigu Technology Co ltd
Priority date: 2023-03-21
Filing date: 2023-03-21
Publication date: 2023-06-30

Abstract

本发明公开了一种英文语句的扫描纠错方法，包括以下步骤：获取当前扫描到的英文语句；根据深度学习模型检查所述英文语句的异常词组；选取符合所述异常词组语义的词组对所述英文语句进行修正形成修正后的英文语句。本发明还公开了一种装置及计算机可读存储介质，本发明能够基于语义上下文，快速准确地确定出错词对应的正确词，以此对错误语句进行纠正，可提高识别英文纠错准确率。

Description

英文语句的扫描纠错方法、装置及计算机可读存储介质

技术领域

本发明涉及扫读笔应用技术领域，尤其涉及一种英文语句的扫描纠错方法、装置及计算机可读存储介质。

背景技术

识别功能作为线上扫读笔最基本的且最核心的功能，识别准确率是用户购买的最重要的标准, 用户快速或慢速扫描可能导致摄像头采集的图片存在丢帧问题，从而极容易出现漏字母、字母顺序错误、多字母的情况, 导致用户无法得到正确的扫描结果。因此对于英文识别准确率的提升,采用英文单词自动纠错技术是必不可少一种方式。

目前的英文单词扫描纠错方法通过采用单词查表的方式，如果错误则通过编辑距离查找正确的词，由于编辑距离和错词相近的词可能有多个。用来筛选正确词的处理方法，难以获得准确正确词，即无法保障纠错后的词为用户扫描的单词。也就是说，目前英文扫描纠错方法的准确率较低，难以满足实际纠错需求。

发明内容

本申请实施例通过提供一种英文语句的扫描纠错方法、装置及计算机可读存储介质，旨在解决现有英文扫描纠错方法的准确率过低的技术问题。

为解决上述技术问题，本申请提供了一种英文语句的扫描纠错方法，包括以下内容：

获取当前扫描到的英文语句；

根据深度学习模型检查所述英文语句的异常词组；

选取符合所述异常词组语义的词组对所述英文语句进行修正形成修正后的英文语句。

可选的，所述选取符合所述异常词组的单词对所述英文语句进行修正的步骤包括：

确认所述英文语句是否存在备用单词库；

若存在所述备用单词库，自所述备用单词库中选取高频出现且符合所述异常词组语义的单词对所述英文语句进行修正。

可选的，所述确认所述英文语句是否存在备用单词库的步骤之前，还包括：

以预设的NLP分词法确认所述英文语句是否存在错误单词；

在确认所述英文语句存在错误单词时，自候选余料词库中筛选高频单词生成所述备选单词库。

可选的，所述以预设的NLP分词法确认所述英文语句是否存在错误单词的步骤，包括：

应用所述NLP分词法对所述英文语句分词；

核验分词结果以确定所述英文语句是否存在错误单词。

可选的，所述在确认所述英文语句存在错误单词的步骤，包括：

确认所述错误词组在所述英文语句的位置，并在所述位置标记目标序列；

对已标记所述目标序列的英文语句进行预处理并得出预处理结果。

可选的，所述选取符合所述异常词组语义的词组对所述英文语句进行修正形成修正后的英文语句的步骤之后，还包括：

以预设的拼写错误模型对修正后的所述英文语句进行数据测试验证；

并在确认所述英文语句验证无误后输出所述英文语句。

可选的，所述英文语句的扫描纠错方法还包括：

采集英语词库数据，以采集到的英语词库数据创建数据语料库；

根据所述数据语料库创建网络模型，以创建的所述网络模型对所述数据语料库的数据进行模型学习和训练并生成深度学习模型。

可选的，所述英文语句的扫描纠错方法还包括：

根据所述数据语料库的数据创建拼写错误模型；

在所述拼写错误模型中设置拼写错误算法以验证纠错后的英语长句。

此外，为实现上述目的，本发明还提供了一种英文语句的扫描纠错装置，所述英文语句的扫描纠错装置包括存储器、处理器以及存储在所述存储器并可在所述处理器上运行的英文语句的扫描纠错程序，所述英文语句的扫描纠错程序被所述处理器执行时实现如上所述英文语句的扫描纠错方法的各个步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有英文语句的扫描纠错程序，所述英文语句的扫描纠错程序被所述处理器执行时实现如上所述的英文语句的扫描纠错方法的各个步骤。

本申请所提供一种英文单词扫描纠错方法，获取当前扫描到的英文语句；根据深度学习模型检查所述英文语句的异常词组；选取符合所述异常词组语义的词组对所述英文语句进行修正形成修正后的英文语句。本申请所公开的技术内容，能够基于语义上下文，快速准确地确定出错词对应的正确词，以此对错误语句进行纠正，可提高识别英文纠错准确率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。；

图2为英文语句的扫描纠错方法第一实施例的流程示意图；

图3为英文语句的扫描纠错方法第二实施例的流程示意图；

图4为英文语句的扫描纠错方法第三实施例的流程示意图。

实施方式

为了更好的理解上述技术方案，下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1，图1为本发明实施例方案涉及的硬件运行环境多终端结构示意图。

如图1所示，该终端可以包括：处理器101，例如CPU，存储器102，通信总线103。其中，通信总线103用于实现这些组件之间的连接通信。存储器103可以是高速RAM存储器，也可以是稳定的存储器（non-volatile memory），例如磁盘存储器。

存储器102可选的还可以是独立于前述处理器101的存储装置。作为一种计算机存储介质的存储器102中可以包括英文语句的扫描纠错程序。处理器101可以用于调用存储器102中存储的英文语句的扫描纠错程序，并执行以下操作：

获取当前扫描到的英文语句；

根据深度学习模型检查所述英文语句的异常词组；

在一实施例中，处理器101可以调用存储器102中存储的英文语句的扫描纠错程序，还执行以下操作：

确认所述英文语句是否存在备用单词库；

以预设的NLP分词法确认所述英文语句是否存在错误单词；

应用所述NLP分词法对所述英文语句分词；

核验分词结果以确定所述英文语句是否存在错误单词。

并在确认所述英文语句验证无误后输出所述英文语句。

根据所述数据语料库的数据创建拼写错误模型；

参照图2，图2为本发明英文语句的扫描纠错方法第一实施例的流程示意图，所述英文语句的扫描纠错方法包括：

步骤S1，获取当前扫描到的英文语句；

步骤S2，根据深度学习模型检查所述英文语句的异常词组；

步骤S3，选取符合所述异常词组语义的词组对所述英文语句进行修正形成修正后的英文语句。

本实施例中，扫读笔通过扫描的动作获取待应用的英文语句，所述英文语句的长度为所述扫描笔的扫描起点开始，并以扫描终点结束，基于所述扫描起点和所述扫描终点为准扫描到的英文语句作为待处理的英文语句。根据扫描到的英文语句，以预先创建的深度学习模型检查所述英文语句的异常词组，所述异常词组定义为所述英文语句中存在书写错误和语义错误的单个单词或者多个单词组成的词组，所述异常词组的定义来自所述深度模型中所具备的基于英文学习内容的识别能力。

根据所述深度学习模型的检查结果确定到的异常词组，确认所述异常词组的语义，基于所述异常词组的语义选取符合所述异常词组语义的单词对所述英文语句进行修正，即将选取到的符合所述异常词组语义的单词更换所述异常词组，并形成修正后的英文语句，其中，考虑到所述异常词组修正的准确率，可基于所述英文语句的备用单词库选取符合异常词组的单词对所述英文语句进行修正，即所述选取符合所述异常词组的单词对所述英文语句进行修正的步骤包括：

确认所述英文语句是否存在备用单词库；

根据当前英文语句的异常词组的修正需求，确认当前英文语句是否存在备用单词库，所述备用单词库是基于英文语句的修正需求所创建的临时备用单词库，所述备用单词库是基于所述英文语句的分词判断所创建的，在进行所述英文语句的修正方案之前，需基于NLP分词法对所述英文语句进行错误单词的判断，其中，在确认到所述英文语句具备错误词组时，自所述英文语句中提取频率较高的单词生成所述备用单词库，或者，根据已确认的高频单词进行语义筛选，筛选出与所述高频单词语义相似或者一致的其他单词存储至所述备用单词库进行备用，所述备用单词库可以为临时数据库，或为预先设置的数据库，将提取到的单词或词组存储至所述备选单词库，以便后续的英文语句修正。进一步的，所述备选单词库还可基于当前待处理的英文语句生成，即所述备选单词库具备所述英文语句的语句特性，或者可以说，在创建所述备选单词库时，新建所述备选单词库与所述英文语句的关联关系。另外，所述备用单词库的生命周期可基于所述英文语句所应用的功能相关，或者与当前扫描笔的扫描需求相关，所述扫描需求可基于所述扫描笔的使用模式进行限定，例如学习模式下，所述备选单词库的生命周期为当前扫描笔开启后至扫描笔关闭，其具体的功能模式设置可基于所述扫读笔功能模式具备的备选单词库的生命周期设置参数进行设置。

另外，所述确认所述英文语句是否存在备用单词库的步骤之前，还包括：

以预设的NLP分词法确认所述英文语句是否存在错误单词；

根据扫描到的英文语句，以预设的NLP分词法对所述英文语句进行分析，在所述预设的NLP分词法中具备异常词组分析算法，通过所述内置的异常词组分析算法对所述英文语句进行分析，根据分析结果确定所述英文语句是否存在错误单词，所述错误单词包括错误拼写和所述英文语句的语义下所存在的语义错误，基于此，所述异常词组分析算法需进行分词后进行分析操作，即所述以预设的NLP分词法确认所述英文语句是否存在错误单词的步骤，包括：

应用所述NLP分词法对所述英文语句分词；

核验分词结果以确定所述英文语句是否存在错误单词。

通过所述NLP分词法将所述英文语句分词，所述分词定义为拆分所述英文语句的单词，在拆分所述英文语句时，需基于所述英文语句的语义进行分词，即将语义相同单词作为一组进行区分，或者单独将单个单词进行区分，其具体的分词方式需基于所述英文语句的实际语义情况进行分词，根据分词后的英文语句确定是否存在错误单词。基于所确认的错误单词对所述英文语句进行预处理以便后续的纠错操作，即所述在确认所述英文语句存在错误单词的步骤，包括：

根据所述英文语句后的分词结果，以及基于所述分词结果所确认到的错误词组处于所述英文语句的所在位置，根据所述所在位置在所述英文语句进行位置标记，标记所述位置的动作限定为在所述英文语句的错误词组所在位置标记对应的目标序列，所述目标序列的格式需基于所述错误词组于所述英文语句总的错误词组的次数决定，例如英文语句中有多个错误单词或错误词组，根据所述错误单词或错误词组于的顺序，按需标记所述错误词组。根据所述英文词语标记所述错误词组所标记的目标序列即为所述英文语句的预处理过程，标记有所述目标序列的英文语句为所述英文语句的预处理结果。

根据当前对所述英文语句的异常词组处理方案，在候选的余料词库中选取符合所述异常词组的语义一致的词组对所述英文局域的异常词组进行修正，所述词组可能还具备在所述英文语句中高频出现的特性，其具体的，与所述英文语句的语义及所述异常词组的语义相关，所述修正操作即将所述异常词组替换为候选的语料词库中语义一致的词组。

在将所述英文语句中异常词组修正后，输出修正后的英文语句以便当前的扫读笔应用。

在本实施例中，本申请所公开的技术内容，能够基于语义上下文，快速准确地确定出错词对应的正确词，以此对错误语句进行纠正，可提高识别英文纠错准确率。

进一步的，参照图3，图3为本发明英文语句的扫描纠错方法第二实施例的流程示意图，所述选取符合所述异常词组语义的词组对所述英文语句进行修正形成修正后的英文语句的步骤之后，还包括：

步骤S4，以预设的拼写错误模型对修正后的所述英文语句进行数据测试验证；

步骤S5，并在确认所述英文语句验证无误后输出所述英文语句。

本实施例中，在将具有异常词组的英文语句修正后，以预设的拼写错误模型对修正后的英文语句进行数据测试验证，所述预设的拼写错误模型用于验证英文语句的语句错误和拼写错误，用于验证英文语句的正确与否，即所述英文语句的扫描纠错方法还包括：

根据所述数据语料库的数据创建拼写错误模型；

基于当前数据语料库的数据创建所述拼写错误模型，所述拼写错误模型以数学模型为结构设置拼写错误算法用以验证英文语句，所述数据语料库为预先创建的，以数据库形式存储有当前英语词库数据的存储区域，为所述拼写错误模型提供英文语句审查的数据支撑。

参照图3，图3为本发明英文语句的扫描纠错方法第三实施例的流程示意图，所述英文语句的扫描纠错方法还包括：

步骤S6，采集英语词库数据，以采集到的英语词库数据创建数据语料库；

步骤S7，根据所述数据语料库创建网络模型，以创建的所述网络模型对所述数据语料库的数据进行模型学习和训练并生成深度学习模型。

本实施例中，采集英语词库的数据，用以创建数据语料库，所述英语词库为现阶段能够获取到的所有英语词组的数据库，所述数据包括单词、单词词性及语法规则等，进行英文语句应用所涉及到的相关数据信息，将采集到的英语词库数据创建数据语料库，所述数据语料库为数据库形式，其中设有多个数据结构形成的数据表，用于分门别类存储不同含义、属性及类型的英语词库数据。

根据所创建的数据语料库创建网络模型，所述网络模型为独立的数据模型，可基于所创建的所述数据语料库进行模型学习和训练形成深度学习模型，以便所述深度学习模型具备英文语句的识别和修正能力。

本申请还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有英文语句的扫描纠错程序，所述英文语句的扫描纠错程序被所述处理器执行时实现如上所述的英文语句的扫描纠错方法实施例的技术内容。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种英文语句的扫描纠错方法，其特征在于，所述英文语句的扫描纠错方法包括以下步骤：

获取当前扫描到的英文语句；

根据深度学习模型检查所述英文语句的异常词组；

2.如权利要求1所述的英文语句的扫描纠错方法，其特征在于，所述选取符合所述异常词组的单词对所述英文语句进行修正的步骤包括：

确认所述英文语句是否存在备用单词库；

3.如权利要求2所述的英文语句的扫描纠错方法，其特征在于，所述确认所述英文语句是否存在备用单词库的步骤之前，还包括：

以预设的NLP分词法确认所述英文语句是否存在错误单词；

4.如权利要求3所述的英文语句的扫描纠错方法，其特征在于，所述以预设的NLP分词法确认所述英文语句是否存在错误单词的步骤，包括：

应用所述NLP分词法对所述英文语句分词；

核验分词结果以确定所述英文语句是否存在错误单词。

5.如权利要求3所述的英文语句的扫描纠错方法，其特征在于，所述在确认所述英文语句存在错误单词的步骤，包括：

6.如权利要求1所述的英文语句的扫描纠错方法，其特征在于，所述选取符合所述异常词组语义的词组对所述英文语句进行修正形成修正后的英文语句的步骤之后，还包括：

并在确认所述英文语句验证无误后输出所述英文语句。

7.如权利要求1所述的英文语句的扫描纠错方法，其特征在于，所述英文语句的扫描纠错方法还包括：

8.如权利要7所述所述的英文语句的扫描纠错方法，其特征在于，所述英文语句的扫描纠错方法还包括：

根据所述数据语料库的数据创建拼写错误模型；

9.一种英文语句的扫描纠错装置，其特征在于，所述英文语句的扫描纠错装置包括存储器、处理器以及存储在所述存储器并可在所述处理器上运行的英文语句的扫描纠错程序，所述英文语句的扫描纠错程序被所述处理器执行时实现如权利要求1-8任一项所述英文语句的扫描纠错方法的各个步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有英文语句的扫描纠错程序，所述英文语句的扫描纠错程序被所述处理器执行时实现如权利要求1-8任一项所述的英文语句的扫描纠错方法的各个步骤。