CN110083819B - 拼写纠错方法、装置、介质及电子设备 - Google Patents
拼写纠错方法、装置、介质及电子设备 Download PDFInfo
- Publication number
- CN110083819B CN110083819B CN201810078938.3A CN201810078938A CN110083819B CN 110083819 B CN110083819 B CN 110083819B CN 201810078938 A CN201810078938 A CN 201810078938A CN 110083819 B CN110083819 B CN 110083819B
- Authority
- CN
- China
- Prior art keywords
- character string
- processed
- character
- candidate
- selection probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 8
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 6
- 230000015654 memory Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明实施例提供了一种拼写纠错方法、装置、介质及电子设备,该拼写纠错方法包括:获取待处理的字符串;根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串;计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率;根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理。本发明实施例的技术方案能够自动实现对字符串的拼写纠错处理,进而能够保证自然语言理解技术准确识别到用户的意图,有利于提升用户的体验。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种拼写纠错方法、装置、介质及电子设备。
背景技术
自然语言理解(Natural Language Understanding,简称NLU)技术涵盖领域非常广泛,包括句子检测、分词、词性标注、句法分析、文本分类/聚类、信息抽取/自动摘要、机器翻译、自动问答、文本生成等多个领域。自然语言理解技术的前提是用户输入正确的语句,但是实际情况却是用户输入经常出现拼写错误的问题,而拼写错误将导致自然语言理解技术无法正确识别用户的意图,进而会影响用户的体验。
因此如何能够有效地对用户输入的字符串进行拼写纠错成为亟待解决的技术问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明实施例的目的在于提供一种拼写纠错方法、装置、介质及电子设备,进而至少在一定程度上实现对用户输入的字符串自动进行拼写纠错处理。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的第一方面,提供了一种拼写纠错方法,包括:获取待处理的字符串;根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串;计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率;根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理。
在本发明的一些实施例中,基于前述方案,根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串,包括:生成所述待处理的字符串对应的拼音;根据所述拼音,生成所述候选字符串。
在本发明的一些实施例中,基于前述方案,根据所述拼音,生成所述候选字符串,包括:根据所述拼音进行模糊匹配,以得到所述候选字符串。
在本发明的一些实施例中,基于前述方案,根据所述拼音进行模糊匹配,包括:确定与所述拼音相似的目标拼音;根据所述目标拼音,生成所述候选字符串。
在本发明的一些实施例中,基于前述方案,根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串,包括:从已存储的字符串库中查找与所述待处理的字符串之间的编辑距离小于或等于预定值的字符串作为所述候选字符串。
在本发明的一些实施例中,基于前述方案,计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,包括:生成语言模型,所述语言模型用于描述一个字符串中的各个字符同时出现的概率;对所述语言模型进行训练,得到训练后的模型;基于所述训练后的模型,确定所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率。
在本发明的一些实施例中,基于前述方案,根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理,包括:根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串和所述候选字符串进行对比,得到对比结果;根据所述对比结果,确定是否通过所述候选字符串对所述待处理的字符串进行拼写纠错。
在本发明的一些实施例中,基于前述方案,通过以下公式对所述待处理的字符串和所述候选字符串进行对比:
其中,socre表示所述待处理的字符串和所述候选字符串的对比结果;cand_socrei表示所述候选字符串中第i个字符的选择概率;input_socrei表示所述待处理的字符串中第i个字符的选择概率;smooth_factor表示平滑因子。
在本发明的一些实施例中,基于前述方案,根据所述对比结果,确定是否通过所述候选字符串对所述待处理的字符串进行拼写纠错,包括:若所述对比结果的值大于或等于预定值,则通过所述候选字符串对所述待处理的字符串进行拼写纠错。
根据本发明实施例的第二方面,提供了一种拼写纠错装置,包括:获取单元,用于获取待处理的字符串;确定单元,用于根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串;计算单元,用于计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率;处理单元,用于根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理。
根据本发明实施例的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中第一方面所述的拼写纠错方法。
根据本发明实施例的第四方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中第一方面所述的拼写纠错方法。
本发明实施例提供的技术方案可以包括以下有益效果:
在本发明的一些实施例所提供的技术方案中,通过确定待处理的字符串对应的候选字符串,并计算待处理的字符串中各个字符的选择概率和候选字符串中各个字符的选择概率,以根据待处理的字符串中各个字符的选择概率和候选字符串中各个字符的选择概率来对待处理的字符串进行拼写纠错处理,使得能够自动实现对字符串的拼写纠错处理,进而能够保证自然语言理解技术准确识别到用户的意图,有利于提升用户的体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出了根据本发明的一个实施例的拼写纠错方法的流程图;
图2示意性示出了根据本发明的一个实施例的拼写纠错装置的框图;
图3示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示意性示出了根据本发明的一个实施例的拼写纠错方法的流程图。
参照图1所示,根据本发明的一个实施例的拼写纠错方法,包括如下步骤:
步骤S110,获取待处理的字符串;
步骤S120,根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串;
步骤S130,计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率;
步骤S140,根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理。
图1所示实施例的技术方案能够自动实现对字符串的拼写纠错处理,进而能够保证自然语言理解技术准确识别到用户的意图,有利于提升用户的体验。
以下对图1中所示的各个步骤的实现细节进行详细阐述:
在步骤S110中,获取待处理的字符串。
在本发明的一个实施例中,待处理的字符串可以是用户输入的字符串,比如用户通过输入设备,如键盘、触摸板、触摸屏等输入的字符串,该字符串可能是拼写无误的,也有可能是拼写错误的。本发明实施例的技术方案即是对拼写有误的字符串进行纠错处理。
在步骤S120中,根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串。
在本发明的实施例中,步骤S120中确定待处理的字符串对应的候选字符串的方案可以有多种,以下列举本发明的几个实施例:
确定候选字符串的实施例一:
在本发明的一个实施例中,确定候选字符串的过程包括:生成所述待处理的字符串对应的拼音;根据所述拼音,生成所述候选字符串。
在该实施例中,可以根据待处理的字符串生成对应的拼音,然后基于该拼音重新生成相应的字符串,得到候选字符串。比如用户输入的字符串为“刘德花忘情水”,那么生成的拼音为“liu de hua wang qing shui”,然后可以根据该拼音生成候选字符串“刘德华忘情水”。
确定候选字符串的实施例二:
在本发明的一个实施例中,确定候选字符串的过程包括:生成所述待处理的字符串对应的拼音,根据所述拼音进行模糊匹配,以得到所述候选字符串。
可选地,在根据拼音进行模糊匹配时,可以确定与该拼音相似的目标拼音,然后根据该目标拼音来生成候选字符串。
比如用户输入的字符串为“伊朗爱情歌曲”,那么生成的拼音为“yi lang ai qinggu shi”,而拼音“lang”与“lan”相似,那么可以得到拼音“yi lan ai qing gu shi”,然后根据该拼音生成候选字符串“依兰爱情故事”。
确定候选字符串的实施例三:
在本发明的一个实施例中,确定候选字符串的过程包括:从已存储的字符串库中查找与所述待处理的字符串之间的编辑距离小于或等于预定值的字符串作为所述候选字符串。
在该实施例中,编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,若两个字符串之间的编辑距离越小,则说明这两个字符串越相似。
比如用户输入的字符串为“刘德华情水”,已存储的字符串库中有一个字符串为“刘德华忘情水”,由于这两个字符串之间的编辑距离较小(编辑距离为1),因此可以将“刘德华忘情水”作为候选字符串。
继续参照图1,在步骤S130中,计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率。
在本发明的一个实施例中,步骤S130包括:生成语言模型,所述语言模型用于描述一个字符串中的各个字符同时出现的概率;对所述语言模型进行训练,得到训练后的模型;基于所述训练后的模型,确定所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率。
继续参照图1,在步骤S140中,根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理。
在本发明的一个实施例中,步骤S140包括:根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串和所述候选字符串进行对比,得到对比结果;根据所述对比结果,确定是否通过所述候选字符串对所述待处理的字符串进行拼写纠错。
在本发明的一个实施例中,可以通过以下公式对所述待处理的字符串和所述候选字符串进行对比:
其中,socre表示所述待处理的字符串和所述候选字符串的对比结果;cand_socrei表示所述候选字符串中第i个字符的选择概率;input_socrei表示所述待处理的字符串中第i个字符的选择概率;smooth_factor表示平滑因子。
在本发明的一个实施例中,若上述对比结果的值大于或等于预定值,则通过所述候选字符串对所述待处理的字符串进行拼写纠错。
需要说明的是,该预定值的大小可以根据实际情况进行选择,比如在该预定值大于0时,就可以通过候选字符串对待处理的字符串进行拼写纠错,当然也可以在该预定值大于某一个正数时,再通过该候选字符串对待处理的字符串进行拼写纠错。
本发明实施例的技术方案具有广阔的应用领域,比如可以应用到所有涉及自然语音理解的产品中,具体如搜索引擎、聊天机器人等。在本发明的一个具体应用场景中,聊天机器人的点歌服务可能存在着如表1中所示的拼写错误:
表1
由于拼写错误的存在,将严重影响后续的自然语言理解服务,如分词、意图识别等,因此本发明的实施例提出了自动实现拼写纠错的技术方案,具体如下:
步骤一:建立并训练language model(语言模型)
language model用于刻画字符串s的概率分布p(s),p(s)代表字符串s作为一个句子在真实情况下出现的概率分布。对于二元语法(bi-gram)的语言模型,language model的概率表示如下:
其中,wi表示当前词,wi-1表示当前词的前一个词。举例而言,若有A、B、C、D四个词,就可以计算句子中先出现词A,再出现词B的概率,记为P(B|A);并且可以计算先出现AB,AB后紧跟着的词是C的概率P(C|AB)。并且如果P(C|AB)和P(D|AB)都较大,则可认为词C、D较相似;若P(C|AB)较大,P(D|AB)较小,则可以认为C、D不相似。
在本发明的一个实施例中,为了避免数据溢出、提高性能,可以通过取log后使用加法运算替代上述的乘法运算。
language model在建立后,可以使用训练语料对模型进行训练,经过训练后,模型对样本进行预测得到的概率就是样本在训练语料中可能出现的概率。利用这一点,本发明实施例利用language model进行拼写纠错,这基于一个假设:
在训练语料中,同样一句话拼写正确的概率大于拼写错误的概率(这与直观感觉相同,也可以通过清理语料中的错误句子来确保这一点),例如:
p(简弘亦小幸运)>p(简弘亦小星运)
p(再度重相逢)>p(在度重相逢)
在本发明的一个实施例中,可以通过TensorFlow(一种人工智能学习系统)实现一个基于LSTM(Long Short-Term Memory,长短期记忆网络,是一种时间递归神经网络)的language model,这样只需要找到拼写错误的句子和对应的正确句子,通过比对languagemodel概率即可实现纠错。
需要说明的是,在本发明的实施例中,可以利用已有的数据对language model进行训练,并通过多轮迭代来提高准确率。
步骤二:候选子集的确定
在拼写错误中,最影响意图识别的是一些实体(entity)的拼写错误。例如,在点歌场景中,输入的句子为:给我放一首刘德花忘情水。拼写错误将导致后续的分词、slot(意图的槽值信息)提取等算法无法准确的识别歌手“刘德华”。
而在固定的应用场景中,这些实体是有先验知识的,例如,可以通过爬取音乐盒子的热门榜单,获取热门的“歌手名”和“歌曲名”。这样,就可以预先知道正确的歌手名是“刘德华”。利用预先准备好的实体词(如:歌曲名、歌手名)与有拼写错误的句子进行比较,就可以得到可能正确的候选。
通过总结,目前常见的拼写错误包括如下几个方面,其中“->”后面的句子为拼写正确的句子:
(1)同音字错误
如:“刘华花忘情水”->“刘德华忘情水”。
(2)近音字错误(如平翘舌、he变成le等)
如:“伊朗爱情歌曲”->“依兰爱情故事”。
(3)多字/缺字错误
如:“刘德华情水”->“刘德华忘情水”。
针对上述三种拼写错误,本发明的实施例提出了相应的获取候选子集的方案,具体如下:
(1)针对同音字错误提出了拼音匹配
具体地,将出现同音字错误的句子退化成拼音,再将拼音重新对应到可能正确的句子,如:将“刘德花忘情水”转换为拼音“liu de hua wang qing shui”,然后根据拼音得到候选句子“刘德华忘情水”。
(2)拼音模糊拼配
拼音匹配不能覆盖近音字的错误,因此,在本发明的实施例中,可以在算法中加入近音字的模糊匹配,具体地,可以先将拼音相近的归一化成一个拼音,再进行匹配。
如对于用户输入的“伊朗爱情歌曲”,将其转换为拼音“yi lang ai qing gushi”,然后将“lang”和“lan”都归一化成“lan”得到“yi lan ai qing gu shi”,最后再进行拼音匹配得到候选句子“依兰爱情故事”。
(3)编辑距离匹配
可以计算用户输入的句子和语句库中存储的语句之间的编辑距离,将编辑距离较小的句子作为候选。
比如用户输入的句子为s1=“刘德华情水”,语句库中存储有句子s2=“刘德华忘情水”。由于编辑距离Edit(s1,s2)=1,因此可以将s2作为s1的候选句子加入候选子集。
步骤三:纠错处理
在步骤二中得到了用户输入的句子的可能候选子集,因此可以通过languagemodel获取各个句子中每个字符的选择概率,然后通过比较来确定是否用候选句替换原来输入的句子实现拼写纠错。
在本发明的一个实施例中,可以通过如下公式来将原来输入的句子和候选句进行对比,得到分数score:
其中,cand_socrei表示候选句中第i个字符的选择概率;input_socrei表示原来输入的句子中第i个字符的选择概率;smooth_factor表示平滑因子,防止分母为0。如果score为正,则可以对原来输入的句子进行纠错处理。
在本发明的一个具体实施例中,比如用户原来输入的句子为“梁咏其胆小鬼”,候选句子为“梁咏琪胆小鬼”。通过language model得到的原来输入的句子中每个字符的选择概率为:梁0.981|咏0.023|其0.001|胆0.687|小0.997|鬼0.995|;候选句子中每个字符的选择概率为:梁0.999|咏1.0|琪0.997|胆0.985|小0.998|鬼0.993|,那么通过上述公式将原来输入的句子和候选句进行对比,得到分数score为4.801,因此可以对原来输入的句子进行纠错处理,得到纠错后的句子为“梁咏琪胆小鬼”。
本发明上述实施例的技术方案能够自动实现对字符串的拼写纠错处理,进而能够保证自然语言理解技术准确识别到用户的意图,有利于提升用户的体验。
以下介绍本发明的装置实施例,可以用于执行本发明上述的拼写纠错方法。
图2示意性示出了根据本发明的一个实施例的拼写纠错装置的框图。
参照图2所示,根据本发明的一个实施例的拼写纠错装置200,包括:获取单元202、确定单元204、计算单元206和处理单元208。
其中,获取单元202用于获取待处理的字符串;确定单元204用于根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串;计算单元206用于计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率;处理单元208用于根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理。
在本发明的一些实施例中,基于前述方案,确定单元204配置为:生成所述待处理的字符串对应的拼音;根据所述拼音,生成所述候选字符串。
在本发明的一些实施例中,基于前述方案,确定单元204配置为:根据所述拼音进行模糊匹配,以得到所述候选字符串。
在本发明的一些实施例中,基于前述方案,确定单元204配置为:确定与所述拼音相似的目标拼音;根据所述目标拼音,生成所述候选字符串。
在本发明的一些实施例中,基于前述方案,确定单元204配置为:从已存储的字符串库中查找与所述待处理的字符串之间的编辑距离小于或等于预定值的字符串作为所述候选字符串。
在本发明的一些实施例中,基于前述方案,计算单元206配置为:生成语言模型,所述语言模型用于描述一个字符串中的各个字符同时出现的概率;对所述语言模型进行训练,得到训练后的模型;基于所述训练后的模型,确定所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率。
在本发明的一些实施例中,基于前述方案,处理单元208配置为:根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串和所述候选字符串进行对比,得到对比结果;根据所述对比结果,确定是否通过所述候选字符串对所述待处理的字符串进行拼写纠错。
在本发明的一些实施例中,基于前述方案,通过以下公式对所述待处理的字符串和所述候选字符串进行对比:
其中,socre表示所述待处理的字符串和所述候选字符串的对比结果;cand_socrei表示所述候选字符串中第i个字符的选择概率;input_socrei表示所述待处理的字符串中第i个字符的选择概率;smooth_factor表示平滑因子。
在本发明的一些实施例中,基于前述方案,处理单元208配置为:若所述对比结果的值大于或等于预定值,则通过所述候选字符串对所述待处理的字符串进行拼写纠错。
由于本发明的示例实施例的拼写纠错装置的各个功能模块与上述拼写纠错方法的示例实施例的步骤对应,因此对于本发明装置实施例中未披露的细节,请参照本发明上述的拼写纠错方法的实施例。
下面参考图3,其示出了适于用来实现本发明实施例的电子设备的计算机系统300的结构示意图。图3示出的电子设备的计算机系统300仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机系统300包括中央处理单元(CPU)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有系统操作所需的各种程序和数据。CPU301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
以下部件连接至I/O接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分309从网络上被下载和安装,和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(CPU)301执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的拼写纠错方法。
例如,所述的电子设备可以实现如图1中所示的:步骤S110,获取待处理的字符串;步骤S120,根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串;步骤S130,计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率;步骤S140,根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种拼写纠错方法,其特征在于,包括:
获取待处理的字符串;
根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串;
计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率;
根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理;
其中,根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理,包括:
根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串和所述候选字符串进行对比,得到对比结果;
根据所述对比结果,确定是否通过所述候选字符串对所述待处理的字符串进行拼写纠错;
通过以下公式对所述待处理的字符串和所述候选字符串进行对比:
;
其中,表示所述待处理的字符串和所述候选字符串的对比结果;/>表示所述候选字符串中第i个字符的选择概率;/>表示所述待处理的字符串中第i个字符的选择概率;/>表示平滑因子。
2.根据权利要求1所述的拼写纠错方法,其特征在于,根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串,包括:
生成所述待处理的字符串对应的拼音;
根据所述拼音,生成所述候选字符串。
3.根据权利要求2所述的拼写纠错方法,其特征在于,根据所述拼音,生成所述候选字符串,包括:
根据所述拼音进行模糊匹配,以得到所述候选字符串。
4.根据权利要求3所述的拼写纠错方法,其特征在于,根据所述拼音进行模糊匹配,包括:
确定与所述拼音相似的目标拼音;
根据所述目标拼音,生成所述候选字符串。
5.根据权利要求1所述的拼写纠错方法,其特征在于,根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串,包括:
从已存储的字符串库中查找与所述待处理的字符串之间的编辑距离小于或等于预定值的字符串作为所述候选字符串。
6.根据权利要求1所述的拼写纠错方法,其特征在于,计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,包括:
生成语言模型,所述语言模型用于描述一个字符串中的各个字符同时出现的概率;
对所述语言模型进行训练,得到训练后的模型;
基于所述训练后的模型,确定所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率。
7.根据权利要求1所述的拼写纠错方法,其特征在于,根据所述对比结果,确定是否通过所述候选字符串对所述待处理的字符串进行拼写纠错,包括:
若所述对比结果的值大于或等于预定值,则通过所述候选字符串对所述待处理的字符串进行拼写纠错。
8.一种拼写纠错装置,其特征在于,包括:
获取单元,用于获取待处理的字符串;
确定单元,用于根据所述待处理的字符串,确定所述待处理的字符串对应的候选字符串;
计算单元,用于计算所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率;
处理单元,用于根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理;
其中,根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串进行拼写纠错处理,包括:
根据所述待处理的字符串中各个字符的选择概率和所述候选字符串中各个字符的选择概率,对所述待处理的字符串和所述候选字符串进行对比,得到对比结果;
根据所述对比结果,确定是否通过所述候选字符串对所述待处理的字符串进行拼写纠错;
通过以下公式对所述待处理的字符串和所述候选字符串进行对比:
;
其中,表示所述待处理的字符串和所述候选字符串的对比结果;/>表示所述候选字符串中第i个字符的选择概率;/>表示所述待处理的字符串中第i个字符的选择概率;/>表示平滑因子。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的拼写纠错方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7中任一项所述的拼写纠错方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810078938.3A CN110083819B (zh) | 2018-01-26 | 2018-01-26 | 拼写纠错方法、装置、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810078938.3A CN110083819B (zh) | 2018-01-26 | 2018-01-26 | 拼写纠错方法、装置、介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110083819A CN110083819A (zh) | 2019-08-02 |
CN110083819B true CN110083819B (zh) | 2024-02-09 |
Family
ID=67412640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810078938.3A Active CN110083819B (zh) | 2018-01-26 | 2018-01-26 | 拼写纠错方法、装置、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110083819B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516125B (zh) * | 2019-08-28 | 2020-05-08 | 拉扎斯网络科技(上海)有限公司 | 识别异常字符串的方法、装置、设备及可读存储介质 |
CN112651230B (zh) * | 2019-09-25 | 2022-04-26 | 亿度慧达教育科技(北京)有限公司 | 融合语言模型生成方法和装置、单词纠错方法和电子设备 |
CN110909534B (zh) * | 2019-11-08 | 2021-08-24 | 北京华宇信息技术有限公司 | 一种深度学习评价模型、输入法拼音纠错方法及装置 |
CN111368918B (zh) * | 2020-03-04 | 2024-01-05 | 拉扎斯网络科技(上海)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN111665956B (zh) * | 2020-04-17 | 2023-07-25 | 北京百度网讯科技有限公司 | 候选字符串的处理方法、装置、电子设备及存储介质 |
CN114065737A (zh) * | 2021-11-16 | 2022-02-18 | 北京百度网讯科技有限公司 | 文本处理方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11134335A (ja) * | 1997-10-30 | 1999-05-21 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 文字誤り校正装置 |
JP2004265004A (ja) * | 2003-02-28 | 2004-09-24 | Techno Network Shikoku Co Ltd | 固有情報の文字列入力誤り認知システムと文字列入力誤り認知方法 |
CN101371253A (zh) * | 2005-04-25 | 2009-02-18 | 微软公司 | 生成拼写建议的方法和系统 |
CN104298672A (zh) * | 2013-07-16 | 2015-01-21 | 北京搜狗科技发展有限公司 | 一种输入的纠错方法和装置 |
CN105045778A (zh) * | 2015-06-24 | 2015-11-11 | 江苏科技大学 | 一种汉语同音词错误自动校对方法 |
CN107122346A (zh) * | 2016-12-28 | 2017-09-01 | 平安科技(深圳)有限公司 | 一种输入语句的纠错方法及装置 |
-
2018
- 2018-01-26 CN CN201810078938.3A patent/CN110083819B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11134335A (ja) * | 1997-10-30 | 1999-05-21 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 文字誤り校正装置 |
JP2004265004A (ja) * | 2003-02-28 | 2004-09-24 | Techno Network Shikoku Co Ltd | 固有情報の文字列入力誤り認知システムと文字列入力誤り認知方法 |
CN101371253A (zh) * | 2005-04-25 | 2009-02-18 | 微软公司 | 生成拼写建议的方法和系统 |
CN104298672A (zh) * | 2013-07-16 | 2015-01-21 | 北京搜狗科技发展有限公司 | 一种输入的纠错方法和装置 |
CN105045778A (zh) * | 2015-06-24 | 2015-11-11 | 江苏科技大学 | 一种汉语同音词错误自动校对方法 |
CN107122346A (zh) * | 2016-12-28 | 2017-09-01 | 平安科技(深圳)有限公司 | 一种输入语句的纠错方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110083819A (zh) | 2019-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083819B (zh) | 拼写纠错方法、装置、介质及电子设备 | |
CN109241524B (zh) | 语义解析方法及装置、计算机可读存储介质、电子设备 | |
US10713441B2 (en) | Hybrid learning system for natural language intent extraction from a dialog utterance | |
US20210390271A1 (en) | Neural machine translation systems | |
US11520992B2 (en) | Hybrid learning system for natural language understanding | |
CN112417102B (zh) | 一种语音查询方法、装置、服务器和可读存储介质 | |
AU2017408800B2 (en) | Method and system of mining information, electronic device and readable storable medium | |
CN112100354B (zh) | 人机对话方法、装置、设备及存储介质 | |
CN106815311B (zh) | 一种问题匹配方法和装置 | |
US11720756B2 (en) | Deriving multiple meaning representations for an utterance in a natural language understanding (NLU) framework | |
JP7301922B2 (ja) | 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN110569335B (zh) | 基于人工智能的三元组校验方法、装置及存储介质 | |
CN109002186B (zh) | 一种输入预测方法及装置 | |
US9311299B1 (en) | Weakly supervised part-of-speech tagging with coupled token and type constraints | |
KR20190000776A (ko) | 정보 입력 방법 | |
CN116737908A (zh) | 知识问答方法、装置、设备和存储介质 | |
CN113326702B (zh) | 语义识别方法、装置、电子设备及存储介质 | |
CN111984774B (zh) | 搜索方法、装置、设备以及存储介质 | |
CN112163405A (zh) | 问题的生成方法和装置 | |
CN114154487A (zh) | 文本自动纠错方法、装置、电子设备及存储介质 | |
US8219905B2 (en) | Automatically detecting keyboard layout in order to improve the quality of spelling suggestions | |
US11699435B2 (en) | System and method to interpret natural language requests and handle natural language responses in conversation | |
Fusayasu et al. | Word-error correction of continuous speech recognition based on normalized relevance distance | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN112287077A (zh) | 用于文档的结合rpa和ai的语句提取方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |