CN116363671A - 英文语句的扫描纠错方法、装置及计算机可读存储介质 - Google Patents

英文语句的扫描纠错方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN116363671A
CN116363671A CN202310275274.0A CN202310275274A CN116363671A CN 116363671 A CN116363671 A CN 116363671A CN 202310275274 A CN202310275274 A CN 202310275274A CN 116363671 A CN116363671 A CN 116363671A
Authority
CN
China
Prior art keywords
english
english sentence
word
error correction
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310275274.0A
Other languages
English (en)
Inventor
罗辉
马志宇
伍炬彬
李云军
韦刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yunxigu Technology Co ltd
Original Assignee
Shenzhen Yunxigu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yunxigu Technology Co ltd filed Critical Shenzhen Yunxigu Technology Co ltd
Priority to CN202310275274.0A priority Critical patent/CN116363671A/zh
Publication of CN116363671A publication Critical patent/CN116363671A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种英文语句的扫描纠错方法,包括以下步骤:获取当前扫描到的英文语句;根据深度学习模型检查所述英文语句的异常词组;选取符合所述异常词组语义的词组对所述英文语句进行修正形成修正后的英文语句。本发明还公开了一种装置及计算机可读存储介质,本发明能够基于语义上下文,快速准确地确定出错词对应的正确词,以此对错误语句进行纠正,可提高识别英文纠错准确率。

Description

英文语句的扫描纠错方法、装置及计算机可读存储介质
技术领域
本发明涉及扫读笔应用技术领域,尤其涉及一种英文语句的扫描纠错方法、装置及计算机可读存储介质。
背景技术
识别功能作为线上扫读笔最基本的且最核心的功能,识别准确率是用户购买的最重要的标准, 用户快速或慢速扫描可能导致摄像头采集的图片存在丢帧问题,从而极容易出现漏字母、字母顺序错误、多字母的情况, 导致用户无法得到正确的扫描结果。因此对于英文识别准确率的提升,采用英文单词自动纠错技术是必不可少一种方式。
目前的英文单词扫描纠错方法通过采用单词查表的方式,如果错误则通过编辑距离查找正确的词,由于编辑距离和错词相近的词可能有多个。用来筛选正确词的处理方法,难以获得准确正确词,即无法保障纠错后的词为用户扫描的单词。也就是说,目前英文扫描纠错方法的准确率较低,难以满足实际纠错需求。
发明内容
本申请实施例通过提供一种英文语句的扫描纠错方法、装置及计算机可读存储介质,旨在解决 现有英文扫描纠错方法的准确率过低的技术问题。
为解决上述技术问题,本申请提供了一种英文语句的扫描纠错方法,包括以下内容:
获取当前扫描到的英文语句;
根据深度学习模型检查所述英文语句的异常词组;
选取符合所述异常词组语义的词组对所述英文语句进行修正形成修正后的英文语句。
可选的,所述选取符合所述异常词组的单词对所述英文语句进行修正的步骤包括:
确认所述英文语句是否存在备用单词库;
若存在所述备用单词库,自所述备用单词库中选取高频出现且符合所述异常词组语义的单词对所述英文语句进行修正。
可选的,所述确认所述英文语句是否存在备用单词库的步骤之前,还包括:
以预设的NLP分词法确认所述英文语句是否存在错误单词;
在确认所述英文语句存在错误单词时,自候选余料词库中筛选高频单词生成所述备选单词库。
可选的,所述以预设的NLP分词法确认所述英文语句是否存在错误单词的步骤,包括:
应用所述NLP分词法对所述英文语句分词;
核验分词结果以确定所述英文语句是否存在错误单词。
可选的,所述在确认所述英文语句存在错误单词的步骤,包括:
确认所述错误词组在所述英文语句的位置,并在所述位置标记目标序列;
对已标记所述目标序列的英文语句进行预处理并得出预处理结果。
可选的,所述选取符合所述异常词组语义的词组对所述英文语句进行修正形成修正后的英文语句的步骤之后,还包括:
以预设的拼写错误模型对修正后的所述英文语句进行数据测试验证;
并在确认所述英文语句验证无误后输出所述英文语句。
可选的,所述英文语句的扫描纠错方法还包括:
采集英语词库数据,以采集到的英语词库数据创建数据语料库;
根据所述数据语料库创建网络模型,以创建的所述网络模型对所述数据语料库的数据进行模型学习和训练并生成深度学习模型。
可选的,所述英文语句的扫描纠错方法还包括:
根据所述数据语料库的数据创建拼写错误模型;
在所述拼写错误模型中设置拼写错误算法以验证纠错后的英语长句。
此外,为实现上述目的,本发明还提供了一种英文语句的扫描纠错装置,所述英文语句的扫描纠错装置包括存储器、处理器以及存储在所述存储器并可在所述处理器上运行的英文语句的扫描纠错程序,所述英文语句的扫描纠错程序被所述处理器执行时实现如上所述英文语句的扫描纠错方法的各个步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有英文语句的扫描纠错程序,所述英文语句的扫描纠错程序被所述处理器执行时实现如上所述的英文语句的扫描纠错方法的各个步骤。
本申请所提供一种英文单词扫描纠错方法,获取当前扫描到的英文语句;根据深度学习模型检查所述英文语句的异常词组;选取符合所述异常词组语义的词组对所述英文语句进行修正形成修正后的英文语句。本申请所公开的技术内容,能够基于语义上下文,快速准确地确定出错词对应的正确词,以此对错误语句进行纠正,可提高识别英文纠错准确率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。;
图2为英文语句的扫描纠错方法第一实施例的流程示意图;
图3为英文语句的扫描纠错方法第二实施例的流程示意图;
图4为英文语句的扫描纠错方法第三实施例的流程示意图。
实施方式
为了更好的理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1,图1为本发明实施例方案涉及的硬件运行环境多终端结构示意图。
如图1所示,该终端可以包括:处理器101,例如CPU,存储器102,通信总线103。其中,通信总线103用于实现这些组件之间的连接通信。存储器103可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。
存储器102可选的还可以是独立于前述处理器101的存储装置。作为一种计算机存储介质的存储器102中可以包括英文语句的扫描纠错程序。处理器101可以用于调用存储器102中存储的英文语句的扫描纠错程序,并执行以下操作:
获取当前扫描到的英文语句;
根据深度学习模型检查所述英文语句的异常词组;
选取符合所述异常词组语义的词组对所述英文语句进行修正形成修正后的英文语句。
在一实施例中,处理器101可以调用存储器102中存储的英文语句的扫描纠错程序,还执行以下操作:
确认所述英文语句是否存在备用单词库;
若存在所述备用单词库,自所述备用单词库中选取高频出现且符合所述异常词组语义的单词对所述英文语句进行修正。
在一实施例中,处理器101可以调用存储器102中存储的英文语句的扫描纠错程序,还执行以下操作:
以预设的NLP分词法确认所述英文语句是否存在错误单词;
在确认所述英文语句存在错误单词时,自候选余料词库中筛选高频单词生成所述备选单词库。
在一实施例中,处理器101可以调用存储器102中存储的英文语句的扫描纠错程序,还执行以下操作:
应用所述NLP分词法对所述英文语句分词;
核验分词结果以确定所述英文语句是否存在错误单词。
在一实施例中,处理器101可以调用存储器102中存储的英文语句的扫描纠错程序,还执行以下操作:
确认所述错误词组在所述英文语句的位置,并在所述位置标记目标序列;
对已标记所述目标序列的英文语句进行预处理并得出预处理结果。
在一实施例中,处理器101可以调用存储器102中存储的英文语句的扫描纠错程序,还执行以下操作:
以预设的拼写错误模型对修正后的所述英文语句进行数据测试验证;
并在确认所述英文语句验证无误后输出所述英文语句。
在一实施例中,处理器101可以调用存储器102中存储的英文语句的扫描纠错程序,还执行以下操作:
采集英语词库数据,以采集到的英语词库数据创建数据语料库;
根据所述数据语料库创建网络模型,以创建的所述网络模型对所述数据语料库的数据进行模型学习和训练并生成深度学习模型。
在一实施例中,处理器101可以调用存储器102中存储的英文语句的扫描纠错程序,还执行以下操作:
根据所述数据语料库的数据创建拼写错误模型;
在所述拼写错误模型中设置拼写错误算法以验证纠错后的英语长句。
参照图2,图2为本发明英文语句的扫描纠错方法第一实施例的流程示意图,所述英文语句的扫描纠错方法包括:
步骤S1,获取当前扫描到的英文语句;
步骤S2,根据深度学习模型检查所述英文语句的异常词组;
步骤S3,选取符合所述异常词组语义的词组对所述英文语句进行修正形成修正后的英文语句。
本实施例中,扫读笔通过扫描的动作获取待应用的英文语句,所述英文语句的长度为所述扫描笔的扫描起点开始,并以扫描终点结束,基于所述扫描起点和所述扫描终点为准扫描到的英文语句作为待处理的英文语句。根据扫描到的英文语句,以预先创建的深度学习模型检查所述英文语句的异常词组,所述异常词组定义为所述英文语句中存在书写错误和语义错误的单个单词或者多个单词组成的词组,所述异常词组的定义来自所述深度模型中所具备的基于英文学习内容的识别能力。
根据所述深度学习模型的检查结果确定到的异常词组,确认所述异常词组的语义,基于所述异常词组的语义选取符合所述异常词组语义的单词对所述英文语句进行修正,即将选取到的符合所述异常词组语义的单词更换所述异常词组,并形成修正后的英文语句,其中,考虑到所述异常词组修正的准确率,可基于所述英文语句的备用单词库选取符合异常词组的单词对所述英文语句进行修正,即所述选取符合所述异常词组的单词对所述英文语句进行修正的步骤包括:
确认所述英文语句是否存在备用单词库;
若存在所述备用单词库,自所述备用单词库中选取高频出现且符合所述异常词组语义的单词对所述英文语句进行修正。
根据当前英文语句的异常词组的修正需求,确认当前英文语句是否存在备用单词库,所述备用单词库是基于英文语句的修正需求所创建的临时备用单词库,所述备用单词库是基于所述英文语句的分词判断所创建的,在进行所述英文语句的修正方案之前,需基于NLP分词法对所述英文语句进行错误单词的判断,其中,在确认到所述英文语句具备错误词组时,自所述英文语句中提取频率较高的单词生成所述备用单词库,或者,根据已确认的高频单词进行语义筛选,筛选出与所述高频单词语义相似或者一致的其他单词存储至所述备用单词库进行备用,所述备用单词库可以为临时数据库,或为预先设置的数据库,将提取到的单词或词组存储至所述备选单词库,以便后续的英文语句修正。进一步的,所述备选单词库还可基于当前待处理的英文语句生成,即所述备选单词库具备所述英文语句的语句特性,或者可以说,在创建所述备选单词库时,新建所述备选单词库与所述英文语句的关联关系。另外,所述备用单词库的生命周期可基于所述英文语句所应用的功能相关,或者与当前扫描笔的扫描需求相关,所述扫描需求可基于所述扫描笔的使用模式进行限定,例如学习模式下,所述备选单词库的生命周期为当前扫描笔开启后至扫描笔关闭,其具体的功能模式设置可基于所述扫读笔功能模式具备的备选单词库的生命周期设置参数进行设置。
另外,所述确认所述英文语句是否存在备用单词库的步骤之前,还包括:
以预设的NLP分词法确认所述英文语句是否存在错误单词;
在确认所述英文语句存在错误单词时,自候选余料词库中筛选高频单词生成所述备选单词库。
根据扫描到的英文语句,以预设的NLP分词法对所述英文语句进行分析,在所述预设的NLP分词法中具备异常词组分析算法,通过所述内置的异常词组分析算法对所述英文语句进行分析,根据分析结果确定所述英文语句是否存在错误单词,所述错误单词包括错误拼写和所述英文语句的语义下所存在的语义错误,基于此,所述异常词组分析算法需进行分词后进行分析操作,即所述以预设的NLP分词法确认所述英文语句是否存在错误单词的步骤,包括:
应用所述NLP分词法对所述英文语句分词;
核验分词结果以确定所述英文语句是否存在错误单词。
通过所述NLP分词法将所述英文语句分词,所述分词定义为拆分所述英文语句的单词,在拆分所述英文语句时,需基于所述英文语句的语义进行分词,即将语义相同单词作为一组进行区分,或者单独将单个单词进行区分,其具体的分词方式需基于所述英文语句的实际语义情况进行分词,根据分词后的英文语句确定是否存在错误单词。基于所确认的错误单词对所述英文语句进行预处理以便后续的纠错操作,即所述在确认所述英文语句存在错误单词的步骤,包括:
确认所述错误词组在所述英文语句的位置,并在所述位置标记目标序列;
对已标记所述目标序列的英文语句进行预处理并得出预处理结果。
根据所述英文语句后的分词结果,以及基于所述分词结果所确认到的错误词组处于所述英文语句的所在位置,根据所述所在位置在所述英文语句进行位置标记,标记所述位置的动作限定为在所述英文语句的错误词组所在位置标记对应的目标序列,所述目标序列的格式需基于所述错误词组于所述英文语句总的错误词组的次数决定,例如英文语句中有多个错误单词或错误词组,根据所述错误单词或错误词组于的顺序,按需标记所述错误词组。根据所述英文词语标记所述错误词组所标记的目标序列即为所述英文语句的预处理过程,标记有所述目标序列的英文语句为所述英文语句的预处理结果。
根据当前对所述英文语句的异常词组处理方案,在候选的余料词库中选取符合所述异常词组的语义一致的词组对所述英文局域的异常词组进行修正,所述词组可能还具备在所述英文语句中高频出现的特性,其具体的,与所述英文语句的语义及所述异常词组的语义相关,所述修正操作即将所述异常词组替换为候选的语料词库中语义一致的词组。
在将所述英文语句中异常词组修正后,输出修正后的英文语句以便当前的扫读笔应用。
在本实施例中,本申请所公开的技术内容,能够基于语义上下文,快速准确地确定出错词对应的正确词,以此对错误语句进行纠正,可提高识别英文纠错准确率。
进一步的,参照图3,图3为本发明英文语句的扫描纠错方法第二实施例的流程示意图,所述选取符合所述异常词组语义的词组对所述英文语句进行修正形成修正后的英文语句的步骤之后,还包括:
步骤S4,以预设的拼写错误模型对修正后的所述英文语句进行数据测试验证;
步骤S5,并在确认所述英文语句验证无误后输出所述英文语句。
本实施例中,在将具有异常词组的英文语句修正后,以预设的拼写错误模型对修正后的英文语句进行数据测试验证,所述预设的拼写错误模型用于验证英文语句的语句错误和拼写错误,用于验证英文语句的正确与否,即所述英文语句的扫描纠错方法还包括:
根据所述数据语料库的数据创建拼写错误模型;
在所述拼写错误模型中设置拼写错误算法以验证纠错后的英语长句。
基于当前数据语料库的数据创建所述拼写错误模型,所述拼写错误模型以数学模型为结构设置拼写错误算法用以验证英文语句,所述数据语料库为预先创建的,以数据库形式存储有当前英语词库数据的存储区域,为所述拼写错误模型提供英文语句审查的数据支撑。
参照图3,图3为本发明英文语句的扫描纠错方法第三实施例的流程示意图,所述英文语句的扫描纠错方法还包括:
步骤S6,采集英语词库数据,以采集到的英语词库数据创建数据语料库;
步骤S7,根据所述数据语料库创建网络模型,以创建的所述网络模型对所述数据语料库的数据进行模型学习和训练并生成深度学习模型。
本实施例中,采集英语词库的数据,用以创建数据语料库,所述英语词库为现阶段能够获取到的所有英语词组的数据库,所述数据包括单词、单词词性及语法规则等,进行英文语句应用所涉及到的相关数据信息,将采集到的英语词库数据创建数据语料库,所述数据语料库为数据库形式,其中设有多个数据结构形成的数据表,用于分门别类存储不同含义、属性及类型的英语词库数据。
根据所创建的数据语料库创建网络模型,所述网络模型为独立的数据模型,可基于所创建的所述数据语料库进行模型学习和训练形成深度学习模型,以便所述深度学习模型具备英文语句的识别和修正能力。
本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有英文语句的扫描纠错程序,所述英文语句的扫描纠错程序被所述处理器执行时实现如上所述的英文语句的扫描纠错方法实施例的技术内容。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种英文语句的扫描纠错方法,其特征在于,所述英文语句的扫描纠错方法包括以下步骤:
获取当前扫描到的英文语句;
根据深度学习模型检查所述英文语句的异常词组;
选取符合所述异常词组语义的词组对所述英文语句进行修正形成修正后的英文语句。
2.如权利要求1所述的英文语句的扫描纠错方法,其特征在于,所述选取符合所述异常词组的单词对所述英文语句进行修正的步骤包括:
确认所述英文语句是否存在备用单词库;
若存在所述备用单词库,自所述备用单词库中选取高频出现且符合所述异常词组语义的单词对所述英文语句进行修正。
3.如权利要求2所述的英文语句的扫描纠错方法,其特征在于,所述确认所述英文语句是否存在备用单词库的步骤之前,还包括:
以预设的NLP分词法确认所述英文语句是否存在错误单词;
在确认所述英文语句存在错误单词时,自候选余料词库中筛选高频单词生成所述备选单词库。
4.如权利要求3所述的英文语句的扫描纠错方法,其特征在于,所述以预设的NLP分词法确认所述英文语句是否存在错误单词的步骤,包括:
应用所述NLP分词法对所述英文语句分词;
核验分词结果以确定所述英文语句是否存在错误单词。
5.如权利要求3所述的英文语句的扫描纠错方法,其特征在于,所述在确认所述英文语句存在错误单词的步骤,包括:
确认所述错误词组在所述英文语句的位置,并在所述位置标记目标序列;
对已标记所述目标序列的英文语句进行预处理并得出预处理结果。
6.如权利要求1所述的英文语句的扫描纠错方法,其特征在于,所述选取符合所述异常词组语义的词组对所述英文语句进行修正形成修正后的英文语句的步骤之后,还包括:
以预设的拼写错误模型对修正后的所述英文语句进行数据测试验证;
并在确认所述英文语句验证无误后输出所述英文语句。
7.如权利要求1所述的英文语句的扫描纠错方法,其特征在于,所述英文语句的扫描纠错方法还包括:
采集英语词库数据,以采集到的英语词库数据创建数据语料库;
根据所述数据语料库创建网络模型,以创建的所述网络模型对所述数据语料库的数据进行模型学习和训练并生成深度学习模型。
8.如权利要7所述所述的英文语句的扫描纠错方法,其特征在于,所述英文语句的扫描纠错方法还包括:
根据所述数据语料库的数据创建拼写错误模型;
在所述拼写错误模型中设置拼写错误算法以验证纠错后的英语长句。
9.一种英文语句的扫描纠错装置,其特征在于,所述英文语句的扫描纠错装置包括存储器、处理器以及存储在所述存储器并可在所述处理器上运行的英文语句的扫描纠错程序,所述英文语句的扫描纠错程序被所述处理器执行时实现如权利要求1-8任一项所述英文语句的扫描纠错方法的各个步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有英文语句的扫描纠错程序,所述英文语句的扫描纠错程序被所述处理器执行时实现如权利要求1-8任一项所述的英文语句的扫描纠错方法的各个步骤。
CN202310275274.0A 2023-03-21 2023-03-21 英文语句的扫描纠错方法、装置及计算机可读存储介质 Pending CN116363671A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310275274.0A CN116363671A (zh) 2023-03-21 2023-03-21 英文语句的扫描纠错方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310275274.0A CN116363671A (zh) 2023-03-21 2023-03-21 英文语句的扫描纠错方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN116363671A true CN116363671A (zh) 2023-06-30

Family

ID=86927247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310275274.0A Pending CN116363671A (zh) 2023-03-21 2023-03-21 英文语句的扫描纠错方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116363671A (zh)

Similar Documents

Publication Publication Date Title
KR101813683B1 (ko) 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법
CN111753531A (zh) 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
CN110704719B (zh) 企业搜索文本分词方法和装置
US20240201984A1 (en) Deep learning-based java program internal annotation generation method and syste
CN112579466B (zh) 测试用例的生成方法、装置及计算机可读存储介质
CN113033185B (zh) 标准文本纠错方法、装置、电子设备和存储介质
CN111651978A (zh) 基于实体的词法检查方法与装置和计算机设备及存储介质
CN109614623B (zh) 一种基于句法分析的作文处理方法及系统
CN111444718A (zh) 一种保险产品需求文档处理方法、装置及电子设备
CN109753976B (zh) 语料标注装置和方法
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN111368547A (zh) 基于语义解析的实体识别方法、装置、设备和存储介质
CN114579796B (zh) 机器阅读理解方法及装置
CN116363671A (zh) 英文语句的扫描纠错方法、装置及计算机可读存储介质
US8977538B2 (en) Constructing and analyzing a word graph
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
CN112925874B (zh) 基于案例标记的相似代码搜索方法及系统
CN114860873A (zh) 一种生成文本摘要的方法、装置及存储介质
CN109086272B (zh) 句型识别方法及其系统
CN114220113A (zh) 一种论文质量检测方法、装置和设备
CN112101019A (zh) 一种基于词性标注和组块分析的需求模板符合性检查优化方法
CN112395865A (zh) 报关单校验方法及装置
CN118503715B (zh) 文本扩充方法、设备、存储介质及计算机程序产品
CN115687334B (zh) 数据质检方法、装置、设备及存储介质
CN115204182B (zh) 一种待校对电子书数据的识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination