CN113255329A - 英文文本拼写纠错方法、装置、存储介质及电子设备 - Google Patents

英文文本拼写纠错方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN113255329A
CN113255329A CN202110491602.1A CN202110491602A CN113255329A CN 113255329 A CN113255329 A CN 113255329A CN 202110491602 A CN202110491602 A CN 202110491602A CN 113255329 A CN113255329 A CN 113255329A
Authority
CN
China
Prior art keywords
word
clause
probability
corpus
english
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110491602.1A
Other languages
English (en)
Inventor
时静一
邱伟伟
张晓雷
陶俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhitong Oriental Software Technology Co ltd
Original Assignee
Beijing Zhitong Oriental Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhitong Oriental Software Technology Co ltd filed Critical Beijing Zhitong Oriental Software Technology Co ltd
Priority to CN202110491602.1A priority Critical patent/CN113255329A/zh
Publication of CN113255329A publication Critical patent/CN113255329A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本公开涉及一种英文文本拼写纠错方法、装置、存储介质及电子设备。英文文本拼写纠错方法,包括:获取英文文本,对英文文本进行分句,得到英文文本包括的多个分句;针对每个分句,对该分句进行分词,得到该分句包括的多个单词,针对每个单词,从预先确定的概率词库中确定该单词的预测候选单词,之后根据该分句中的每一单词在该分句中的位置,以及该分句中每一单词的预测候选单词,得到该分句的预测候选分句,根据预测候选分句,确定该分句对应的目标分句,其中,概率词库中包括英文单词,以及英文单词的一元文法概率;根据每一分句对应的目标分句,确定英文文本的目标文本。通过本公开,可提高英文文本纠错的召回率和准确度。

Description

英文文本拼写纠错方法、装置、存储介质及电子设备
技术领域
本公开涉及自然语言处理技术领域,具体地,涉及一种英文文本拼写纠错方法、装置、存储介质及电子设备。
背景技术
目前,对英文文本进行拼写纠错时,通常包括人工统计的方式对英文文本进行拼写纠错,或者基于深度学习的语言模型对英文文本进行拼写纠错。
通过人工统计的方式对英文文本进行拼写纠错时,需要消耗大量的人力物力,成本巨大。
通过深度学习的语言模型对英文文本进行拼写纠错时,可实现对多种错误拼写类型进行纠错,但是由于英文文本训练数据多样化的不足,使得在英文文本拼写纠错方面,召回率比较低。
进而,如何有效地解决英文文本拼写纠错,是目前本领域技术人员急需解决的技术问题。
发明内容
为克服相关技术中存在的问题,本公开提供一种英文文本拼写纠错方法、装置、存储介质及电子设备。
根据本公开实施例的第一方面,为了实现上述目的,本公开提供一种英文文本拼写纠错方法,所述方法包括:
获取英文文本,对所述英文文本进行分句,得到所述英文文本包括的多个分句;
针对每个所述分句,对该分句进行分词,得到该分句包括的多个单词,针对每个所述单词,从预先确定的概率词库中确定该单词的预测候选单词,之后根据该分句中的每一单词在该分句中的位置,以及该分句中每一单词的预测候选单词,得到该分句的预测候选分句,根据所述预测候选分句,确定该分句对应的目标分句,其中,所述概率词库中包括英文单词,以及英文单词的一元文法概率;
根据每一分句对应的目标分句,确定所述英文文本的目标文本。
可选地,所述概率词库通过如下方式确定得到:
获取英文单语语料;
对所述单语语料进行分词,得到单词语料;
确定所述单词语料的一元文法概率;
根据所述单词语料、所述单词语料的一元文法概率和预设词库,确定所述概率词库。
可选地,所述根据所述单词语料、所述单词语料的一元文法概率和预设词库,确定所述概率词库,包括:
针对所述单词语料中的第一单词语料,获取所述第一单词语料中一元文法概率大于第一概率阈值的单词语料,得到第二单词语料,其中,所述第一单词语料为单词包括的字符数量大于或者等于第一预设字符数量阈值的单词语料;
针对所述预设词库中的第一单词,获取所述第一单词中一元文法概率大于第二概率阈值的单词,得到第二单词,其中,所述第一单词为单词包括的字符数量大于或者等于第二预设字符数量阈值的单词,其中,所述第一概率阈值小于所述第二概率阈值;
针对所述预设词库中的第三单词,获取所述第三单词中一元文法概率大于第三概率阈值的单词,得到第四单词,其中,所述第三单词为单词包括的字符数量小于第三预设字符数量阈值的单词,所述第三概率阈值小于所述第二概率阈值;
将所述第二单词语料、所述第二单词、以及所述第四单词组成的词库,确定为所述概率词库。
可选地,所述方法还包括:
对所述预设词库中弃用的单词进行过滤。
可选地,所述方法还包括:
获取新的英文单语语料,根据新的英文单语语料,得到新的单词语料,之后确定所述新的单词语料的一元文法概率,将所述新的单词语料以及所述新的单词语料的一元文法概率补充至所述概率词库中。
可选地,所述针对每个所述单词,从预先确定的概率词库中确定该单词的预测候选单词,包括:
针对每个所述单词,执行如下操作,得到该单词的预测候选单词:
根据该单词包括的字符以及第一字符数量,从所述概率词库中获取与该单词的编辑距离等于预设编辑距离的第一预测候选单词,并获取所述第一预测候选单词的一元文法概率;
对该单词进行切分,得到与该单词对应的多组字符串集合,其中,每组字符串集合中包括多个字符串,针对每组字符串集合,从所述概率词库中检测是否存在每个所述字符串,若存在,则将该组字符串集合中包括的字符串作为该单词的第二预测候选单词,并获取所述第二预测候选单词的一元文法概率;
根据所述第一预测候选单词的一元文法概率、所述第二预测候选单词的一元文法概率,确定该单词的预测候选单词。
可选地,所述根据该单词包括的字符以及第一字符数量,从所述概率词库中获取与该单词的编辑距离等于预设编辑距离的第一预测候选单词,包括:
将所述第一字符数量与预设的第一字符数量阈值进行比较;
若所述第一字符数量小于等于第一字符数量阈值,则从预先确定的概率词库中获取与该单词的编辑距离等于第一预设编辑距离的第一预测候选单词。
可选地,所述根据该单词包括的字符以及字符数量,从所述概率词库中获取与该单词的编辑距离等于预设编辑距离的第一预测候选单词,还包括:
若所述第一字符数量大于第一字符数量阈值,则从预先确定的概率词库中获取与该单词的编辑距离等于第二预设编辑距离的第一预测候选单词,其中所述第二预设编辑距离大于所述第一预设编辑距离。
可选地,所述根据所述第一预测候选单词的一元文法概率、所述第二预测候选单词的一元文法概率,确定该单词的预测候选单词,包括:
按照一元文法概率由高到低的顺序,对所述第一预测候选单词和所述第二预测候选单词进行排序;
将预设数量的概率最高的预测候选单词确定为该单词的预测候选单词;
所述根据所述预测候选分句,确定该分句对应的目标分句,包括:
将所述预测候选分句输入英文概率模型,通过所述英文概率模型预测所述预测候选分句的一元文法概率,输出所述预测候选分句对应的一元文法概率;
将一元文法概率最高的预测候选分句,确定为该分句的目标分句。
可选地,所述根据每一分句对应目标分句,确定所述英文文本的目标文本,包括:
按照预设的规范标准,对所述目标分句进行处理,得到规范处理后的目标分句;
按照所述英文文本的先后顺序,对所述规范处理后的目标分句进行合并,得到所述英文文本的目标文本。
可选地,所述针对每个所述单词,从预先确定的概率词库中确定该单词的预测候选单词之前,所述方法还包括:
针对每个所述单词,对该单词进行词性标注,确定该单词词性为非专有名词;以及
确定该单词中不包含非字母字符。
根据本公开实施例的第二方面,提供一种英文文本拼写纠错装置,所述装置包括:
获取模块,用于获取英文文本,对所述英文文本进行分句,得到所述英文文本包括的多个分句;
处理模块,用于针对每个所述分句,对该分句进行分词,得到该分句包括的多个单词,针对每个所述单词,从预先确定的概率词库中确定该单词的预测候选单词,之后根据该分句中的每一单词在该分句中的位置,以及该分句中每一单词的预测候选单词,得到该分句的预测候选分句,根据所述预测候选分句,确定该分句对应的目标分句,其中,所述概率词库中包括英文单词,以及英文单词的一元文法概率;
确定模块,用于根据每一分句对应的目标分句,确定所述英文文本的目标文本。
可选地,所述概率词库通过如下方式确定得到:
获取英文单语语料;
对所述单语语料进行分词,得到单词语料;
确定所述单词语料的一元文法概率;
根据所述单词语料、所述单词语料的一元文法概率和预设词库,确定所述概率词库。
可选地,所述根据所述单词语料、所述单词语料的一元文法概率和预设词库,确定所述概率词库,包括:
针对所述单词语料中的第一单词语料,获取所述第一单词语料中一元文法概率大于第一概率阈值的单词语料,得到第二单词语料,其中,所述第一单词语料为单词包括的字符数量大于或者等于第一预设字符数量阈值的单词语料;
针对所述预设词库中的第一单词,获取所述第一单词中一元文法概率大于第二概率阈值的单词,得到第二单词,其中,所述第一单词为单词包括的字符数量大于或者等于第二预设字符数量阈值的单词,其中,所述第一概率阈值小于所述第二概率阈值;
针对所述预设词库中的第三单词,获取所述第三单词中一元文法概率大于第三概率阈值的单词,得到第四单词,其中,所述第三单词为单词包括的字符数量小于第三预设字符数量阈值的单词,所述第三概率阈值小于所述第二概率阈值;
将所述第二单词语料、所述第二单词、以及所述第四单词组成的词库,确定为所述概率词库。
可选地,所述装置处理装置还用于:
对所述预设词库中弃用的单词进行过滤。
可选地,所述获取模块还用于:
获取新的英文单语语料,根据新的英文单语语料,得到新的单词语料,之后确定所述新的单词语料的一元文法概率,将所述新的单词语料以及所述新的单词语料的一元文法概率补充至所述概率词库中。
可选地,所述处理模块采用如下方式针对每个所述单词,从预先确定的概率词库中确定该单词的预测候选单词:
针对每个所述单词,执行如下操作,得到该单词的预测候选单词:
根据该单词包括的字符以及第一字符数量,从所述概率词库中获取与该单词的编辑距离等于预设编辑距离的第一预测候选单词,并获取所述第一预测候选单词的一元文法概率;
对该单词进行切分,得到与该单词对应的多组字符串集合,其中,每组字符串集合中包括多个字符串,针对每组字符串集合,从所述概率词库中检测是否存在每个所述字符串,若存在,则将该组字符串集合中包括的字符串作为该单词的第二预测候选单词,并获取所述第二预测候选单词的一元文法概率;
根据所述第一预测候选单词的一元文法概率、所述第二预测候选单词的一元文法概率,确定该单词的预测候选单词。
可选地,所述处理模块采用如下方式从所述概率词库中获取与该单词的编辑距离等于预设编辑距离的第一预测候选单词:
根据该单词包括的字符以及第一字符数量,将所述第一字符数量与预设的第一字符数量阈值进行比较;
若所述第一字符数量小于等于第一字符数量阈值,则从预先确定的概率词库中获取与该单词的编辑距离等于第一预设编辑距离的第一预测候选单词。
可选地,所述处理模块采用如下方式从所述概率词库中获取与该单词的编辑距离等于预设编辑距离的第一预测候选单词:
根据该单词包括的字符以及字符数量,若所述第一字符数量大于第一字符数量阈值,则从预先确定的概率词库中获取与该单词的编辑距离等于第二预设编辑距离的第一预测候选单词,其中所述第二预设编辑距离大于所述第一预设编辑距离。
可选地,所述处理模块采用如下方式确定该单词的预测候选单词:
根据所述第一预测候选单词的一元文法概率、所述第二预测候选单词的一元文法概率,按照一元文法概率由高到低的顺序,对所述第一预测候选单词和所述第二预测候选单词进行排序;
将预设数量的概率最高的预测候选单词确定为该单词的预测候选单词;
所述根据所述预测候选分句,确定该分句对应的目标分句,包括:
将所述预测候选分句输入英文概率模型,通过所述英文概率模型预测所述预测候选分句的一元文法概率,输出所述预测候选分句对应的一元文法概率;
将一元文法概率最高的预测候选分句,确定为该分句的目标分句。
可选地,所述确定模块采用如下方式确定所述英文文本的目标文本:
根据每一分句对应目标分句,按照预设的规范标准,对所述目标分句进行处理,得到规范处理后的目标分句;
按照所述英文文本的先后顺序,对所述规范处理后的目标分句进行合并,得到所述英文文本的目标文本。
可选地,所述处理模块采用如下方式从预先确定的概率词库中确定该单词的预测候选单词之前,还用于:
针对每个所述单词,对该单词进行词性标注,确定该单词词性为非专有名词;以及
确定该单词中不包含非字母字符。
通过上述技术方案,通过预先确定包括英文单词,以及英文单词的一元文法概率的概率词库,使得英文文本纠错时,可提高英文文本纠错的召回率。并且对英文文本的拼写纠错时,通过执行如下的处理步骤:将英文文本分句得到多个分句,针对每个分句,对该分句进行分词,得到该分句包括的多个单词后,针对每个所述单词,从概率词库中确定该单词的预测候选单词,之后根据该分句中的每一单词在该分句中的位置,以及该分句中每一单词的预测候选单词,得到该分句的预测候选分句,根据所述预测候选分句,确定该分句对应的目标分句,根据每一分句对应的目标分句,确定所述英文文本的目标文本,可提高英文文本纠错的准确度。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种英文文本拼写纠错方法的流程图。
图2是根据一示例性实施例示出的一种英文文本拼写纠错装置的框图。
图3是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1是根据一示例性实施例示出的一种英文文本拼写纠错方法的流程图,如图1所示,英文文本拼写纠错方法,包括以下步骤。
在步骤S11中,获取英文文本,对英文文本进行分句,得到英文文本包括的多个分句。
其中,例如可通过Spacy工具对英文文本进行分句处理,将英文文本切分成多个句子。其中Spacy工具是一个python自然语言工具包,提供了诸如词性标注、文本分句、文本分词、词性还原等自然语言处理(Natural Language Processing,NLP)任务。
在步骤S12中,针对每个分句,对该分句进行分词,得到该分句包括的多个单词,针对每个单词,从预先确定的概率词库中确定该单词的预测候选单词。
为了提升对单词的纠错效率,对单词纠错前例如可针对每个单词,对单词进行词性标注,获得单词词性,根据单词的词性,若当前单词为专有名词,则不对该词进行纠错,并返回原单词。若当前单词并非专有名词,则判断当前单词是否含有非字母字符,若包含,则判断该单词为特殊词,不对其进行纠错,并返回原单词。若当前单词不包含有非字母字符,则从预先确定的概率词库中确定该单词的预测候选单词。
其中,例如可通过Spacy工具对分句进行分词,得到分句包括的多个单词。
本公开中,为了解决英文文本拼写纠错中拼写纠错覆盖率低的问题,确保对英文文本纠错的召回率,一种实施方式中,本公开可基于预设词库的基础上,预先确定得到概率词库。其中,预设词库可以是根据字典等工具中录入的单词,而形成的常见词库。
其中,概率词库中包括英文单词,以及英文单词的一元文法概率。
一种实施方式中,概率词库例如通过如下方式确定得到:
获取英文单语语料,对单语语料进行分词,得到单词语料。确定单词语料的一元文法(unigram)概率,根据单词语料、单词语料的一元文法概率和预设词库,确定概率词库。
本公开中,例如可通过如下方式根据单词语料、单词语料的一元文法概率和预设词库,确定概率词库:
针对单词语料中的第一单词语料,获取第一单词语料中unigram概率大于第一概率阈值的单词语料,得到第二单词语料,其中,第一单词语料为单词包括的字符数量大于或者等于第一预设字符数量阈值的单词语料。
针对预设词库中的第一单词,获取第一单词中unigram概率大于第二概率阈值的单词,得到第二单词,其中,第一单词为单词包括的字符数量大于或者等于第二预设字符数量阈值的单词,其中,第一概率阈值小于第二概率阈值。
针对预设词库中的第三单词,获取第三单词中unigram概率大于第三概率阈值的单词,得到第四单词,其中,第三单词为单词包括的字符数量小于第三预设字符数量阈值的单词,第三概率阈值小于第二概率阈值。
将第二单词语料、第二单词、以及第四单词组成的词库,确定为概率词库。
例如,第一预设字符数量阈值、第二预设字符数量阈值和第三预设字符数量阈值均为3,由于单词长度(字符数量)小于等于2的有效单词数量有限且较为常见,故对于单词语料中单词包括的字符数量大于或者等于3的单词语料,将第一单词语料中一元文法概率大于第一概率阈值(p1)的保留。
对于预设词库中的字符数量大于或者等于3的第一单词,将第一单词中一元文法概率大于第二概率阈值(p2)的保留。
对于预设词库中包括的字符数量小于3的单词的第三单词,将第三单词中一元文法概率大于第二概率阈值(p3)的保留,其中,例如,p1<p2<p3。
此外,在得到概率词库之后,本公开可对所述预设词库中弃用的单词进行过滤。并获取实时更新的英文类新闻或者社交网站上的英文文本,将获取的新的英文文本作为新的英文单语语料,根据新的英文单语语料,得到新的单词语料,之后确定所述新的单词语料的一元文法概率,将所述新的单词语料以及所述新的单词语料的一元文法概率补充至所述概率词库中。由此,可实现持续对概率词库的维护与更新,根据概率词库对英文单词进行纠错时,保证纠错的召回率。
进而,针对每个所述单词,例如可通过如下方式从预先确定的概率词库中确定该单词的预测候选单词:
针对每个所述单词,执行如下操作,得到该单词的预测候选单词:
根据该单词包括的字符以及第一字符数量,从所述概率词库中采用如下方式获取与该单词的编辑距离等于预设编辑距离的第一预测候选单词:
将所述第一字符数量与预设的第一字符数量阈值进行比较,若所述第一字符数量小于等于第一字符数量阈值,则从预先确定的概率词库中获取与该单词的编辑距离等于第一预设编辑距离的第一预测候选单词,若所述第一字符数量大于第一字符数量阈值,则从预先确定的概率词库中获取与该单词的编辑距离等于第二预设编辑距离的第一预测候选单词。
若所述第一字符数量大于第一字符数量阈值,则从预先确定的概率词库中获取与该单词的编辑距离等于第二预设编辑距离的第一预测候选单词,并获取所述第一预测候选单词的一元文法概率。
其中,第二预设编辑距离大于所述第一预设编辑距离,第二预设编辑距离大于所述第一预设编辑距离。
例如,当单词的字符数量小于10时,获取与该单词的编辑距离为1的预测候选单词,并记录其对应unigram概率。当单词的字符数量大于10时,获取与该单词的编辑距离为2的预测候选单词,并获取该单词的unigram概率。其中,编辑距离可以是表征从该单词转换成预测候选单词所需要的最少编辑次数。
此外,为了解决单词连写、漏写空格的情况,对该单词进行切分,得到与该单词对应的多组字符串集合,其中,每组字符串集合中包括多个字符串,针对每组字符串集合,从所述概率词库中检测是否存在每个所述字符串,若存在,则将该组字符串集合中包括的字符串作为该单词的第二预测候选单词,并获取所述第二预测候选单词的一元文法概率。
例如当前单词为“happylife”,则遍历该单词所有所可能的切分方法,获得由概率词库已有单词组成的切分结果list,如本例中的结果即为,[“happy”,“life”],丢弃掉无意义的切分,如[“happ”,“ylife”],[“hap”,“pyl”,“ife”]等。
一种实施方式中,例如可通过如下方式根据所述第一预测候选单词的一元文法概率、所述第二预测候选单词的一元文法概率,确定该单词的预测候选单词:
按照一元文法概率由高到低的顺序,对所述第一预测候选单词和所述第二预测候选单词进行排序,将预设数量的概率最高的预测候选单词确定为该单词的预测候选单词。
将所述预测候选分句输入英文概率模型,通过所述英文概率模型预测所述预测候选分句的一元文法概率,输出所述预测候选分句对应的一元文法概率,将一元文法概率最高的预测候选分句,确定为该分句的目标分句。
在步骤S13中,根据该分句中的每一单词在该分句中的位置,以及该分句中每一单词的预测候选单词,得到该分句的预测候选分句,根据预测候选分句,确定该分句对应的目标分句。
例如,对于每个单词中的位置i,皆有ki个纠错候选,其中ki≥1,穷举获得所有句子级候选,则所有句子级候选共有
Figure BDA0003052493420000131
个,其中L为预测候选分句的长度即预测候选分句包括的单词数。即根据该分句中的每一单词在该分句中的位置i,以及该分句中每一单词的预测候选单词,得到该分句的预测候选分句。
之后,一种实施方式中,可将所述预测候选分句输入英文概率模型,通过英文概率模型预测所有预测候选分句的一元文法概率,输出所述预测候选分句对应的一元文法概率,将一元文法概率最高的预测候选分句,确定为该分句的目标分句。
其中,英文概率模型可以是在大规模英文单语语料的基础上,借助Kenlm工具训练得到的n元语法n-gram语言模型。例如本公开中的英文概率模型可以是当n大于等于5时训练得到的n-gram语言模型。此处,Kenlm工具为采用了Modified Kneser-ney smoothing平滑技术,速度快,占用内存少的n-gram训练工具。
在步骤S14中,根据每一分句对应的目标分句,确定英文文本的目标文本。
一种实施方式中,可按照预设的规范标准,对所述目标分句进行处理,得到规范处理后的目标分句。例如包括对目标分句首字母大写、因分词产生的多余空格的去除、句末标点符号的修正等。在对目标分句进行处理,得到规范处理后的目标分句后,按照所述英文文本的先后顺序,对所述规范处理后的目标分句进行合并,得到所述英文文本的目标文本。
在本公开的示例性实施例中,通过预先确定包括英文单词,以及英文单词的一元文法概率的概率词库,使得英文文本纠错时,可提高英文文本纠错的召回率。并且对英文文本的拼写纠错时,通过执行如下的处理步骤:将英文文本分句得到多个分句,针对每个分句,对该分句进行分词,得到该分句包括的多个单词后,针对每个所述单词,从概率词库中确定该单词的预测候选单词,之后根据该分句中的每一单词在该分句中的位置,以及该分句中每一单词的预测候选单词,得到该分句的预测候选分句,根据所述预测候选分句,确定该分句对应的目标分句,根据每一分句对应的目标分句,确定所述英文文本的目标文本,可提高英文文本纠错的准确度。
图2是根据一示例性实施例示出的一种英文文本拼写纠错装置的框图。参照图2,该装置包括获取模块201、处理模块202和确定模块203。
其中,获取模块201,用于获取英文文本,对所述英文文本进行分句,得到所述英文文本包括的多个分句;
处理模块202,用于针对每个所述分句,对该分句进行分词,得到该分句包括的多个单词,针对每个所述单词,从预先确定的概率词库中确定该单词的预测候选单词,之后根据该分句中的每一单词在该分句中的位置,以及该分句中每一单词的预测候选单词,得到该分句的预测候选分句,根据所述预测候选分句,确定该分句对应的目标分句,其中,所述概率词库中包括英文单词,以及英文单词的一元文法概率;
确定模块203,用于根据每一分句对应的目标分句,确定所述英文文本的目标文本。
可选地,所述概率词库通过如下方式确定得到:
获取英文单语语料;
对所述单语语料进行分词,得到单词语料;
确定所述单词语料的一元文法概率;
根据所述单词语料、所述单词语料的一元文法概率和预设词库,确定所述概率词库。
可选地,所述根据所述单词语料、所述单词语料的一元文法概率和预设词库,确定所述概率词库,包括:
针对所述单词语料中的第一单词语料,获取所述第一单词语料中一元文法概率大于第一概率阈值的单词语料,得到第二单词语料,其中,所述第一单词语料为单词包括的字符数量大于或者等于第一预设字符数量阈值的单词语料;
针对所述预设词库中的第一单词,获取所述第一单词中一元文法概率大于第二概率阈值的单词,得到第二单词,其中,所述第一单词为单词包括的字符数量大于或者等于第二预设字符数量阈值的单词,其中,所述第一概率阈值小于所述第二概率阈值;
针对所述预设词库中的第三单词,获取所述第三单词中一元文法概率大于第三概率阈值的单词,得到第四单词,其中,所述第三单词为单词包括的字符数量小于第三预设字符数量阈值的单词,所述第三概率阈值小于所述第二概率阈值;
将所述第二单词语料、所述第二单词、以及所述第四单词组成的词库,确定为所述概率词库。
可选地,所述装置处理装置还用于:
对所述预设词库中弃用的单词进行过滤。
可选地,所述获取模块201还用于:
获取新的英文单语语料,根据新的英文单语语料,得到新的单词语料,之后确定所述新的单词语料的一元文法概率,将所述新的单词语料以及所述新的单词语料的一元文法概率补充至所述概率词库中。
可选地,所述处理模块202采用如下方式针对每个所述单词,从预先确定的概率词库中确定该单词的预测候选单词:
针对每个所述单词,执行如下操作,得到该单词的预测候选单词:
根据该单词包括的字符以及第一字符数量,从所述概率词库中获取与该单词的编辑距离等于预设编辑距离的第一预测候选单词,并获取所述第一预测候选单词的一元文法概率;
对该单词进行切分,得到与该单词对应的多组字符串集合,其中,每组字符串集合中包括多个字符串,针对每组字符串集合,从所述概率词库中检测是否存在每个所述字符串,若存在,则将该组字符串集合中包括的字符串作为该单词的第二预测候选单词,并获取所述第二预测候选单词的一元文法概率;
根据所述第一预测候选单词的一元文法概率、所述第二预测候选单词的一元文法概率,确定该单词的预测候选单词。
可选地,所述处理模块202采用如下方式从所述概率词库中获取与该单词的编辑距离等于预设编辑距离的第一预测候选单词:
根据该单词包括的字符以及第一字符数量,将所述第一字符数量与预设的第一字符数量阈值进行比较;
若所述第一字符数量小于等于第一字符数量阈值,则从预先确定的概率词库中获取与该单词的编辑距离等于第一预设编辑距离的第一预测候选单词。
可选地,所述处理模块202采用如下方式从所述概率词库中获取与该单词的编辑距离等于预设编辑距离的第一预测候选单词:
根据该单词包括的字符以及字符数量,若所述第一字符数量大于第一字符数量阈值,则从预先确定的概率词库中获取与该单词的编辑距离等于第二预设编辑距离的第一预测候选单词,其中所述第二预设编辑距离大于所述第一预设编辑距离。
可选地,所述处理模块202采用如下方式确定该单词的预测候选单词:
根据所述第一预测候选单词的一元文法概率、所述第二预测候选单词的一元文法概率,按照一元文法概率由高到低的顺序,对所述第一预测候选单词和所述第二预测候选单词进行排序;
将预设数量的概率最高的预测候选单词确定为该单词的预测候选单词;
所述根据所述预测候选分句,确定该分句对应的目标分句,包括:
将所述预测候选分句输入英文概率模型,通过所述英文概率模型预测所述预测候选分句的一元文法概率,输出所述预测候选分句对应的一元文法概率;
将一元文法概率最高的预测候选分句,确定为该分句的目标分句。
可选地,所述确定模块203采用如下方式确定所述英文文本的目标文本:
根据每一分句对应目标分句,按照预设的规范标准,对所述目标分句进行处理,得到规范处理后的目标分句;
按照所述英文文本的先后顺序,对所述规范处理后的目标分句进行合并,得到所述英文文本的目标文本。
可选地,所述处理模块202采用如下方式从预先确定的概率词库中确定该单词的预测候选单词之前,还用于:
针对每个所述单词,对该单词进行词性标注,确定该单词词性为非专有名词;以及
确定该单词中不包含非字母字符。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图3是根据一示例性实施例示出的一种电子设备700的框图。如图3所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的英文文本拼写纠错方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的英文文本拼写纠错方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的英文文本拼写纠错方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的英文文本拼写纠错方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的英文文本拼写纠错方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,例如。。。。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (14)

1.一种英文文本拼写纠错方法,其特征在于,所述方法包括:
获取英文文本,对所述英文文本进行分句,得到所述英文文本包括的多个分句;
针对每个所述分句,对该分句进行分词,得到该分句包括的多个单词,针对每个所述单词,从预先确定的概率词库中确定该单词的预测候选单词,之后根据该分句中的每一单词在该分句中的位置,以及该分句中每一单词的预测候选单词,得到该分句的预测候选分句,根据所述预测候选分句,确定该分句对应的目标分句,其中,所述概率词库中包括英文单词,以及英文单词的一元文法概率;
根据每一分句对应的目标分句,确定所述英文文本的目标文本。
2.根据权利要求1所述的方法,其特征在于,所述概率词库通过如下方式确定得到:
获取英文单语语料;
对所述单语语料进行分词,得到单词语料;
确定所述单词语料的一元文法概率;
根据所述单词语料、所述单词语料的一元文法概率和预设词库,确定所述概率词库。
3.根据权利要求2所述的方法,其特征在于,所述根据所述单词语料、所述单词语料的一元文法概率和预设词库,确定所述概率词库,包括:
针对所述单词语料中的第一单词语料,获取所述第一单词语料中一元文法概率大于第一概率阈值的单词语料,得到第二单词语料,其中,所述第一单词语料为单词包括的字符数量大于或者等于第一预设字符数量阈值的单词语料;
针对所述预设词库中的第一单词,获取所述第一单词中一元文法概率大于第二概率阈值的单词,得到第二单词,其中,所述第一单词为单词包括的字符数量大于或者等于第二预设字符数量阈值的单词,其中,所述第一概率阈值小于所述第二概率阈值;
针对所述预设词库中的第三单词,获取所述第三单词中一元文法概率大于第三概率阈值的单词,得到第四单词,其中,所述第三单词为单词包括的字符数量小于第三预设字符数量阈值的单词,所述第三概率阈值小于所述第二概率阈值;
将所述第二单词语料、所述第二单词、以及所述第四单词组成的词库,确定为所述概率词库。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对所述预设词库中弃用的单词进行过滤。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取新的英文单语语料,根据新的英文单语语料,得到新的单词语料,之后确定所述新的单词语料的一元文法概率,将所述新的单词语料以及所述新的单词语料的一元文法概率补充至所述概率词库中。
6.根据权利要求1所述的方法,其特征在于,所述针对每个所述单词,从预先确定的概率词库中确定该单词的预测候选单词,包括:
针对每个所述单词,执行如下操作,得到该单词的预测候选单词:
根据该单词包括的字符以及第一字符数量,从所述概率词库中获取与该单词的编辑距离等于预设编辑距离的第一预测候选单词,并获取所述第一预测候选单词的一元文法概率;
对该单词进行切分,得到与该单词对应的多组字符串集合,其中,每组字符串集合中包括多个字符串,针对每组字符串集合,从所述概率词库中检测是否存在每个所述字符串,若存在,则将该组字符串集合中包括的字符串作为该单词的第二预测候选单词,并获取所述第二预测候选单词的一元文法概率;
根据所述第一预测候选单词的一元文法概率、所述第二预测候选单词的一元文法概率,确定该单词的预测候选单词。
7.根据权利要求6所述的方法,其特征在于,所述根据该单词包括的字符以及第一字符数量,从所述概率词库中获取与该单词的编辑距离等于预设编辑距离的第一预测候选单词,包括:
将所述第一字符数量与预设的第一字符数量阈值进行比较;
若所述第一字符数量小于等于第一字符数量阈值,则从预先确定的概率词库中获取与该单词的编辑距离等于第一预设编辑距离的第一预测候选单词。
8.根据权利要求7所述的方法,其特征在于,所述根据该单词包括的字符以及字符数量,从所述概率词库中获取与该单词的编辑距离等于预设编辑距离的第一预测候选单词,还包括:
若所述第一字符数量大于第一字符数量阈值,则从预先确定的概率词库中获取与该单词的编辑距离等于第二预设编辑距离的第一预测候选单词,其中所述第二预设编辑距离大于所述第一预设编辑距离。
9.根据权利要求6所述的方法,其特征在于,所述根据所述第一预测候选单词的一元文法概率、所述第二预测候选单词的一元文法概率,确定该单词的预测候选单词,包括:
按照一元文法概率由高到低的顺序,对所述第一预测候选单词和所述第二预测候选单词进行排序;
将预设数量的概率最高的预测候选单词确定为该单词的预测候选单词;
所述根据所述预测候选分句,确定该分句对应的目标分句,包括:
将所述预测候选分句输入英文概率模型,通过所述英文概率模型预测所述预测候选分句的一元文法概率,输出所述预测候选分句对应的一元文法概率;
将一元文法概率最高的预测候选分句,确定为该分句的目标分句。
10.根据权利要求1所述的方法,其特征在于,所述根据每一分句对应目标分句,确定所述英文文本的目标文本,包括:
按照预设的规范标准,对所述目标分句进行处理,得到规范处理后的目标分句;
按照所述英文文本的先后顺序,对所述规范处理后的目标分句进行合并,得到所述英文文本的目标文本。
11.根据权利要求1所述的方法,其特征在于,所述针对每个所述单词,从预先确定的概率词库中确定该单词的预测候选单词之前,所述方法还包括:
针对每个所述单词,对该单词进行词性标注,确定该单词词性为非专有名词;以及
确定该单词中不包含非字母字符。
12.一种英文文本拼写纠错装置,其特征在于,所述装置包括:
获取模块,用于获取英文文本,对所述英文文本进行分句,得到所述英文文本包括的多个分句;
处理模块,用于针对每个所述分句,对该分句进行分词,得到该分句包括的多个单词,针对每个所述单词,从预先确定的概率词库中确定该单词的预测候选单词,之后根据该分句中的每一单词在该分句中的位置,以及该分句中每一单词的预测候选单词,得到该分句的预测候选分句,根据所述预测候选分句,确定该分句对应的目标分句,其中,所述概率词库中包括英文单词,以及英文单词的一元文法概率;
确定模块,用于根据每一分句对应的目标分句,确定所述英文文本的目标文本。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-11中任一项所述方法的步骤。
14.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-11中任一项所述方法的步骤。
CN202110491602.1A 2021-05-06 2021-05-06 英文文本拼写纠错方法、装置、存储介质及电子设备 Withdrawn CN113255329A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110491602.1A CN113255329A (zh) 2021-05-06 2021-05-06 英文文本拼写纠错方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110491602.1A CN113255329A (zh) 2021-05-06 2021-05-06 英文文本拼写纠错方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN113255329A true CN113255329A (zh) 2021-08-13

Family

ID=77223705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110491602.1A Withdrawn CN113255329A (zh) 2021-05-06 2021-05-06 英文文本拼写纠错方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN113255329A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642318A (zh) * 2021-10-14 2021-11-12 江西风向标教育科技有限公司 英语文章的纠错方法、系统、存储介质及设备
CN113761881A (zh) * 2021-09-06 2021-12-07 北京字跳网络技术有限公司 一种错别词识别方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761881A (zh) * 2021-09-06 2021-12-07 北京字跳网络技术有限公司 一种错别词识别方法及装置
CN113642318A (zh) * 2021-10-14 2021-11-12 江西风向标教育科技有限公司 英语文章的纠错方法、系统、存储介质及设备

Similar Documents

Publication Publication Date Title
CN105917327B (zh) 用于将文本输入到电子设备中的系统和方法
CN112016310A (zh) 文本纠错方法、系统、设备及可读存储介质
KR101524740B1 (ko) 입력 방법 편집기
KR100766169B1 (ko) 컴퓨터-구현 사전 학습 방법 및 상기 방법을 사용하는 장치, 입력 방법 및 상기 입력 방법을 사용하는 사용자 단말기 장치
US7478033B2 (en) Systems and methods for translating Chinese pinyin to Chinese characters
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
US20140012567A1 (en) Text Auto-Correction via N-Grams
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
KR101495240B1 (ko) 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN101815996A (zh) 检测名称实体和新词
US20140380169A1 (en) Language input method editor to disambiguate ambiguous phrases via diacriticization
CN113255329A (zh) 英文文本拼写纠错方法、装置、存储介质及电子设备
CN113225612B (zh) 字幕生成方法、装置、计算机可读存储介质及电子设备
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN104933030A (zh) 一种维吾尔语拼写检查方法及装置
JP2011008784A (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
CN111179937A (zh) 文本处理的方法、设备和计算机可读存储介质
Tarmom et al. Compression versus traditional machine learning classifiers to detect code-switching in varieties and dialects: Arabic as a case study
US8977538B2 (en) Constructing and analyzing a word graph
CN115034209A (zh) 文本分析方法、装置、电子设备以及存储介质
CN112541062B (zh) 平行语料对齐方法、装置、存储介质及电子设备
CN114861628A (zh) 训练机器翻译模型的系统、方法、电子设备及存储介质
Mekki et al. COTA 2.0: An automatic corrector of tunisian Arabic social media texts
CN111626055B (zh) 文本处理方法及装置、计算机存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210813

WW01 Invention patent application withdrawn after publication