CN110852087A - 中文纠错方法和装置、存储介质及电子装置 - Google Patents

中文纠错方法和装置、存储介质及电子装置 Download PDF

Info

Publication number
CN110852087A
CN110852087A CN201910901631.3A CN201910901631A CN110852087A CN 110852087 A CN110852087 A CN 110852087A CN 201910901631 A CN201910901631 A CN 201910901631A CN 110852087 A CN110852087 A CN 110852087A
Authority
CN
China
Prior art keywords
corrected
word
sentence
words
statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910901631.3A
Other languages
English (en)
Other versions
CN110852087B (zh
Inventor
何蕾
曹霖
张锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910901631.3A priority Critical patent/CN110852087B/zh
Publication of CN110852087A publication Critical patent/CN110852087A/zh
Application granted granted Critical
Publication of CN110852087B publication Critical patent/CN110852087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种中文纠错方法和装置、存储介质及电子装置。其中,该方法包括:根据待纠错语句中的目标词从候选词表中获取候选词,并将候选词替换待纠错语句中的目标词;计算待纠错语句在替换前的第一困惑度指标PPL值,以及待纠错短句中文字在替换后的第二困惑度指标PPL值;在第一PPL值与第二PPL值的差值小于第一阈值的情况下,获取待纠错语句中疑似错别字的位置;将标记有疑似错别字位置的文字用预测文字进行替换,计算预测文字在目标语句中的概率;在概率大于第二阈值的情况下,将疑似错别字替换为预测字。本发明解决了现有技术中,对语句进行纠错的方式单一、无法快速、有效的实现纠错的技术问题。

Description

中文纠错方法和装置、存储介质及电子装置
技术领域
本发明涉及语言处理领域,具体而言,涉及一种中文纠错方法和装置、 存储介质及电子装置。
背景技术
自媒体时代,面对数量众多、内容庞杂的文章,如何自动识别文章中 的错别字,辅助判断文章质量,是一项重要而又耗时耗力的工作。和英文 相比,汉语表达丰富多样,文法句法结构灵活多变,出错的原因也是千差 万别:有浅层的拼写错误,例如谐音错误、形似错误;也有深层的语法错 误,例如介词误用、搭配不当,更有难以捕捉的逻辑错误,例如把字句与 被字句的混用,大大增加了中文纠错的难度,使得中文纠错面临的问题更 加具有挑战性。
随着人工智能技术和自然语音处理技术的发展,自然语音处理技术已 经成为人工智能技术发展的重要方向。
目前,将人工智能技术和自然语音处理技术应用到中文纠错系统主要 有以下两类技术路线:1、基于语言模型的中文纠错方法:基于语言模型 的中文纠错依赖大规模语料上训练的统计语言模型计算句子的困惑度得 分,设定阈值判断句子是否是合理的自然语言。具体来说,输入一个分好 词的句子,逐词采用同音词候选、近音词候选、形似候选进行替换,计算 替换前、后句子的PPL得分降比,对所有候选的结果比较并排序,得到最 优纠正词。基于语言模型的中文纠错是一种局部特征的纠错方法。统计语 言模型在于多数含有错别字的句子在改正正确后PPL的降比并不显著,常 常达不到阈值,召回率偏低,但降低阈值,则会导致准确率骤降。此外, 语句中的标点和停用词等都对PPL的计算影响很大,PPL指标不稳定。
2、基于深度神经网络模型的中文纠错方法:错别字改正任务现有的 主要解决方法是基于端到端的神经网络生成模型(Seq2Seq),将中文纠错 视为机器翻译的过程,即错误句子翻译为正确句子。生成模型使用 encoder-decoder框架结构解决由源序列转换为目标序列的问题,使用一个 RNN(encoder)将输入句子表示为一个向量,再使用另一个RNN(decoder) 解码这个向量获取目标输出。基于生成模型的错别字纠错方法在生成目标 序列时往往产生大量重复片段、语句不通等情况,模型训练非常容易过拟 合,例如输入句子为“在/与/韩国队/的/金牌/争夺战/中/...”,模型产生的 目标输出为“在/与/韩国队/的/金牌/金牌/中...”,重复片段造成的语句不通 往往难以避免。基于深度神经网络的纠错能够对句子中的错别字根据整句 话判定该错误,是一种全局特征的纠错方法。模型预测结果较稳定,不足 在于模型计算耗时较长(一次Bert MLM预测大约需0.2ms),难以满足线 上服务的响应需求。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种中文纠错方法和装置、存储介质及电子装置, 以至少解决现有技术中,对语句进行纠错的方式单一、无法快速、有效的 实现纠错的技术问题。
根据本发明实施例的一个方面,提供了一种中文纠错方法,包括:根 据待纠错语句中的目标词从候选词表中获取候选词,并将所述候选词替换 所述待纠错语句中的所述目标词;计算所述待纠错语句在替换前的第一困 惑度指标PPL值,以及所述待纠错短句中文字在替换后的第二困惑度指标 PPL值;在所述第一PPL值与所述第二PPL值的差值小于第一阈值的情 况下,获取所述待纠错语句中疑似错别字的位置;将标记有疑似错别字位 置的文字用预测文字进行替换,计算所述预测文字在所述目标语句中的概 率;在所述概率大于第二阈值的情况下,将所述疑似错别字替换为预测字。
根据本发明实施例的另一方面,还提供了一种中文纠错装置,包括: 第一替换单元,用于根据待纠错语句中的目标词从候选词表中获取候选词, 并将所述候选词替换所述待纠错语句中的所述目标词;第一计算单元,用 于计算所述待纠错语句在替换前的第一困惑度指标PPL值,以及所述待纠 错短句中文字在替换后的第二困惑度指标PPL值;第一获取单元,用于在 所述第一PPL值与所述第二PPL值的差值小于第一阈值的情况下,获取 所述待纠错语句中疑似错别字的位置;第二计算单元,用于将标记有疑似 错别字位置的文字用预测文字进行替换,计算所述预测文字在所述目标语 句中的概率;第二替换单元,用于在所述概率大于第二阈值的情况下,将 所述疑似错别字替换为预测字。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质, 该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设 置为运行时执行上述中文纠错方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述 处理器通过计算机程序执行上述的中文纠错方法。
在本发明实施例中,通过根据待纠错语句中的目标词从候选词表中获 取候选词,并将候选词替换待纠错语句中的目标词;计算待纠错语句在替 换前的第一困惑度指标PPL值,以及待纠错短句中文字在替换后的第二困 惑度指标PPL值;在第一PPL值与第二PPL值的差值小于第一阈值的情 况下,获取待纠错语句中疑似错别字的位置;将标记有疑似错别字位置的 文字用预测文字进行替换,计算预测文字在目标语句中的概率;在概率大 于第二阈值的情况下,将疑似错别字替换为预测字,根据待纠错语句中目 标词替换前后的PPL值,在PPL值相差预定阈值的情况下,将待纠错语 句中的词替换为预测词,进而计算替换为预测词后的待纠错语句的概率, 从而现了根据的替换为预测词后的待纠错语句的概率确定待纠错语句中 的词是否需要纠正的技术效果,提高了纠错的效率以及准确度,进而解决了现有技术中,对语句进行纠错的方式单一、无法快速、有效的实现纠错 的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一 部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发 明的不当限定。在附图中:
图1是根据本发明实施例的中文纠错方法的流程图;
图2是根据本发明优选实施例的中文错别字纠错系统的模块示意图;
图3是根据本发明优选实施例的固定搭配挖掘流程图;
图4是根据本发明优选实施例的局部纠错模块的流程图;
图5是根据本发明优选实施例的全局纠错模块的流程图,;
图6是根据本发明实施例的中文纠错装置的结构示意图;
图7是根据本发明实施例的中文纠错电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明 实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施 例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动 前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语 “第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或 先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描 述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实 施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排 他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或 设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出 的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,为了更好的理解本申请提供的实施例,下面介绍本申请实施例 中涉及的技术名词:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算 机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知 识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是 计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的 能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种 智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术 也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智 能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一 体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、 自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与 人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语 言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算 机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即 人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言 处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、 统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机 怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有 的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使 计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习 和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归 纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的自然语言处理以及机器学 习等技术,具体通过如下实施例进行说明:
一种基于人工智能的文本生成方法,即基于人工智能将文本中的中文 错别字进行纠正的方法。该方法可以应用于服务器或终端中。
获取待纠错的文本,通过机器学习获取建立纠错的语音模型,将待纠 错的文本输入到训练好的语音模型中,进而可以获取待纠错的文本中是否 存在错别字,以及在存在错别字的情况下,根据文本的上下文将错别字纠 正为正确的文字,以便提高文本发布的准确度,进而提高用户的阅读的效 率。
根据本发明实施例的一个方面,提供了一种中文纠错方法。下面将对 本发明实施例的中文纠错方法进行详细说明。
图1是根据本发明实施例的中文纠错方法的流程图,如图1所示,该 方法包括如下步骤:
步骤S102,根据待纠错语句中的目标词从候选词表中获取候选词, 并将候选词替换待纠错语句中的目标词。
步骤S104,计算待纠错语句在替换前的第一困惑度指标PPL值, 以及待纠错短句中文字在替换后的第二困惑度指标PPL值。
其中,可以通过机器学习,预先训练好的语音模型,计算待纠错 语句在替换前的第一困惑度指标PPL值以及待纠错短句中文字在替换 后的第二困惑度指标PPL值。也就是说,将待纠错的语句输入到语音 模型中,就可以得到语句的PPL值,进而使得计算方式简便、精确。
步骤S106,在第一PPL值与第二PPL值的差值小于第一阈值的情 况下,获取待纠错语句中疑似错别字的位置。
步骤S108,将标记有疑似错别字位置的文字用预测文字进行替换, 计算预测文字在目标语句中的概率。
在步骤S108中,通过自然语音处理,获取将存在疑似错别字的位 置,并将疑似错别字使用预测文字替换,进而计算出该预测文字在目标 语句中的概率,进而在概率大于某个阈值的情况下,说明该目标语句中 的疑似错别字是真的错别字,将预测文字替代目标语句中的疑似错别字, 进而保证目标语句的没有错别字。
步骤S110,在概率大于第二阈值的情况下,将疑似错别字替换为预 测字。
通过上述步骤,通过根据待纠错语句中的目标词从候选词表中获取 候选词,并将候选词替换待纠错语句中的目标词;计算待纠错语句在替 换前的第一困惑度指标PPL值,以及待纠错短句中文字在替换后的第二 困惑度指标PPL值;在第一PPL值与第二PPL值的差值小于第一阈值 的情况下,获取待纠错语句中疑似错别字的位置;将标记有疑似错别字位置的文字用预测文字进行替换,计算预测文字在目标语句中的概率; 在概率大于第二阈值的情况下,将疑似错别字替换为预测字,根据待纠 错语句中目标词替换前后的PPL值,在PPL值相差预定阈值的情况下, 将待纠错语句中的词替换为预测词,进而计算替换为预测词后的待纠错 语句的概率,从而现了根据的替换为预测词后的待纠错语句的概率确定 待纠错语句中的词是否需要纠正的技术效果,提高了纠错的效率以及准 确度,进而解决了现有技术中,对语句进行纠错的方式单一、无法快速、 有效的实现纠错的技术问题。
例如,待纠错语句为:今天兴期一,可以在候选词表是近音词表 中选取“星”字,然后将待纠错语句“今天兴期一”替换为“今天星 期一”。则计算“今天兴期一”语句的第一PPL值,和“今天星期一” 语句的第二PPL值。在第一PPL值和第二PPL值小于30%的情况下, 获取待纠错语句“今天兴期一”的疑似错别字位置“兴”,然后,在“兴” 字位置遮挡,用预设文字“星”替代,计算语句“今天兴期一”中的 “星”的概率,在“星”出现的概率大于80%的情况下,则将“兴” 字替换为“星”字,完成语句“今天兴期一”的纠错任务。
作为一种可选的实施例,为了快速准确的从获选词表中获取待纠错 语句中对应目标词的候选词,根据待纠错语句中的目标词从候选词表中 获取候选词,并将候选词替换待纠错语句中的目标词包括:待纠错语句 中的目标词与候选词表中的候选词具有映射关系,其中,候选词表至少 包括以下之一:同音词表、近音词表、形似字表、高频词表。
在该实施例中,如果目标词可以是单词、也可以是成语,例如,待 纠错语句的目标词是单词的情况下,可以从对应的形似表中获取候选单 词。同样也可以从同音词表、近音词表、高频词表中获取候选词。进而 确定该目标词是否是错别字。
作为一种可选的实施例,计算待纠错语句在替换前的第一困惑度指 标PPL值,以及待纠错短句中文字在替换后的第二困惑度指标PPL值 包括:通过如下公式确定第一困惑度指标PPL值或第二困惑度指标PPL 值:
其中,S是代表语句,n是句子长度,w1w2...wn代表语句中的词。
作为一种可选的实施例,根据待纠错语句中的目标词从候选词表中 获取候选词,并将候选词替换待纠错语句中的目标词之前,上述方法还 可以包括:获取第一语句;对第一语句进行成语和/或固定搭配纠错之后, 得到待纠错语句。即在获取待纠错语句之间,先对待纠错语句进行词语 或者成语的纠错,进一步实现高准确的纠错。
作为一种可选的实施例,在第一PPL值与第二PPL值的差值大于 第一阈值的情况下,将待纠错语句中的目标词替换为候选词表中的候选 词。在第一PPL值与第二PPL值的差值大于第一阈值的情况下,说明 该语句存在错别字,则可以将候选词替换目标词,进而确定语句中没有 错别字的出现。
作为一种可选的实施例,在第一PPL值与第二PPL值的差值小于 第一阈值的情况下,获取待纠错语句中疑似错别字的位置包括:通过序 列标注模型确定待纠错语句中疑似错别字的位置。进而快速的确定疑似 错别字的位置。
结合上述实施例,本发明还提供了一种优选实施例,该优选实施例 提供了一种开放领域中文错别字纠错方法。
本发明优选实施例,一种基于统计语言模型与深度神经网络模型相 融合的开放领域中文错别字识别与纠错方法,采用三阶段方法有效识别 并改正文章中各种类型的错别字:
基于词典和规则的成语、固定搭配错别字识别:例如无优(忧)无虑、 年纪青青(轻轻)。
基于统计语言模型+候选词表的错别字识别:汉文学史刚(纲)要。
基于Bert神经网络模型的错别字识别:她主演的戏,每一步(部) 都可以称之为经典。
第一阶段,主要识别成语和固定搭配错误,由于成语和固定搭配的 用法比较单一,因此基于词典和规则的方法就能够比较准确地识别出成 语和固定搭配中的错别字。第二阶段,利用5-gram语言模型和构造的 候选词表,逐词采用候选替换,计算替换前、后句子的PPL得分降比, 根据PPL降幅比例来选择后续对应的处理流程。PPL降比明显的可以直 接判定为错别字,PPL降比不足的需要进一步通过Bert神经网络模型加 以甄别判断。第二阶段基于5-gram语言模型,能够利用局部范围内的 上下文信息识别出较为明显的错别字,但统计语言模型的全局建模能力 弱,泛化能力差,难以利用句子的全局信息识别错别字。因此,第三阶 段,首先依赖第二阶段语言模型的PPL句子打分,筛选出含有疑似错别 字的句子,然后采用Bert神经网络模型,综合句子全局信息,识别出局 部语言模型难以甄别出的错别字。
为了实现一种开放领域中文错别字纠错方法,本优选实施例中,还 提供了一种开放领域中文错别字纠错系统,如图2所示,中文错别字纠 错系统的模块示意图。中文错别字纠错系统采用三阶段方法识别并改正 句子中的错别字。系统包含三个子模块,如图2所示,分别是成语、固 定搭配纠错模块,局部纠错模块和全局纠错模块,图2中展示了子模块 模型及所依赖资源。
一、成语、固定搭配纠错模块
第一阶段主要识别成语和固定搭配错误,由于成语和固定搭配的用法 比较单一,因此基于词典和规则的方法就能够比较准确地识别出成语和固 定搭配中的错别字。
1)成语纠错
从网上下载开源的中华成语词典,包含成语和俗语总计5万余条,构 建成语词典。纠错时输入分好词的句子,窗口大小设为4,滑动窗口依次 获取句子中连续的4个汉字,以分词为边界,如果首尾字都是边界词,并 且窗口中包含单字词,则尝试采用同音候选替换该单字,若替换后形成成 语,则用该成语对窗口字串加以改正。基于词典和规则的方法识别成语错 别字准确率为90%。
2)固定搭配纠错
中文存在大量的短语固定搭配,例如:年纪轻轻、市场份额、携号转 网等。这些短语中的词往往共现频率较高并且可以表达特定的含义,固定 搭配错别字往往会严重影响阅读体验。固定搭配包含的词语具有内凝聚、 外自由的特点。固定搭配内部要求有较高的相关性,同时固定搭配左右边 界外出现的词语要求具有多样性。具体抽取过程主要包含种子词的选取、 词组内部边界的判定、外部边界的判定三个部分。种子词获取得到可能构 成固定搭配的种子词库,内部边界和外部边界的判定对其进行筛选,最终 得到短语的固定搭配。具体流程如下:
A、种子词获取
从统计学角度而言,高频共现词组有较大可能是一个完整的短语表达。 因此,首先对分词后的语料设置滑动窗口,统计二元、三元等n-gram共 现词组的频率,按照词频统计设定阈值抽取词组构成种子词库。种子词库 会包含较多无意义的词组,因此可结合停用词过滤、词性过滤(去除包含 副词、语气词的词组等)进行初步筛选。
B、内部边界判定
固定搭配内部词语之间往往结合更加紧密,因此我们采用互信息来衡 量词组内部的紧密程度。假设固定搭配包含X,Y两个词,则该二元词组的 互信息计算公式为
Figure BDA0002212005520000111
上式中P(X,Y)表示X,Y的共现频率,P(X),P(Y)分别表示X,Y出现的 频率,互信息值越高,表明X,Y的相关性越高,构成固定搭配的可能性越 大。
C、外部边界判定
固定搭配的边界词语往往能够和左右边界外的词语具有更多组合的 可能性(边界外的词语具有多样性),因此可以通过边界熵来衡量词组的 外部边界的自由程度。熵越大,说明不确定程度越高。边界熵分为左边界 熵和右边界熵,我们不妨设需要判断固定搭配的n-gram词组为W,A表示 该词组左边界外侧出现的所有词语的集合,a∈A表示左边界集合里的一 个词语,B表示该词组右边界外侧出现的所有词语的集合,b∈B表示右边 界集合里的一个词语。左、右边界熵的计算公式如下:
Figure BDA0002212005520000121
Figure BDA0002212005520000122
EL(W),ER(W)越大,说明该词组左右边界的自由度越高,越有可能 是一个固定搭配。
通过互信息以及边界熵的计算,将二者结合,得到固定搭配判断的最 终指标V计算公式如下:
V=I(W)·EL(W)·ER(W)
上式I(W),(W),ER(W)分别表示n-gram词组W内部的互信息、左边 界熵、右边界熵,V值越大,说明词组为固定搭配的可能性越高,具体流 程如下图3所示,固定搭配挖掘流程图。
在实际应用中,采用8个月的天天快报新闻数据进行n-gram共现词 组的词频统计,数据量大小为33G。分词设置窗口大小为2到8,保留字 数在4-10之间的词组,通过初步筛选构成种子库,包含词组约3692万, 利用边界熵指标过滤最终获取固定搭配2万余条,占比0.05%。提取出的 固定搭配如:年纪/轻轻、人工/智能、上市/公司、不/折/不/扣等等。将挖 掘的固定搭配分别采用起始词和结尾词作为索引建立固定搭配拼音词典 (例如:head年纪qing qing|||轻轻),然后对句子中的词逐一比较是否是 固定搭配的首尾词,如果命中固定搭配拼音词典(年纪命中固定搭配拼音 词典的首词),则看句子中短语的剩余部分是否在词典中含有同音候选(青 青在词典中有同音词轻轻),如果含有同音候选且不是句子中的原词,则 判断为错别字。上述规则可识别如表1所示的固定搭配错误,开放领域识别准确率为65%。
Figure BDA0002212005520000131
二、局部纠错:统计语言模型+候选词表纠错模块
语言模型在自然语言处理领域应用广泛,尤其在语音识别、机器翻译、 文本生成等应用场景中,语言模型可以用来判定一个句子是否是合理的自 然语言,因此我们可以用它来判断句子中是否包含错别字。假设一个句子 s={w1,...,wn},语言模型通常用来构建句子的概率分布,一个句子出现 的概率定义如下:
P(s)=P(w1,w2,...,wn)=P(w1)*P(w2|w1)*...*P(wn|w1,w2,...,wn-1)
P(s)就是语言模型的基本定义。
上述定义在使用中存在两个问题,一是模型的自由参数随着句子长度 的增加呈现指数级爆炸式增长,难以估计;二是由于数据稀疏性,很多词 对的组合都不会在语料中出现,最终得到的实际概率很可能是零。为了解 决这两个问题,N-gram语言模型应运而生,它基于马尔科夫假设,一个 词的概率仅依赖于该词的前n个词,n值越大,对下一个词的约束力就越 强,模型也就越复杂。
中文错别字纠错系统采用5-gram语言模型,该模型的训练集是120G 的新闻语料。在实际使用中,需要考虑句子长度因素,对长度做归一化, 我们采用困惑度指标(PPL)估计一个句子的出现概率,计算公式如下:
上述公式s代表句子,n是句子长度,PPL越小,句子出现的概率就 越大。理论上,我们只需确定一个阈值,PPL大于该阈值,即可判断句子 包含错别字。但是在实际应用中,我们发现单纯利用一个句子的PPL得分 难以区分错别字句子和正常句子,这个原因在于语言模型在训练数据上难 以穷尽各种词语组合,预测语句中的标点和停用词等都对PPL的计算影响 很大,波动几十到几百,语言模型的预测值很不稳定。因此,我们采用构 造的候选词表对句子中的词进行替换,计算替换前、后句子的PPL得分降 比,利用PPL的相对值判断替换后的句子是否更大概率为合理的自然语言, 从而得出替换前的词语是疑似错别字的结论。
依赖语言模型的错别字识别和纠错的准确率很大程度上依赖于可 靠的候选词表,词表的大小和构造方法对该模块的准确率有较大影响。我 们构造了同音字、同音词、近音字、近音词、形似字的候选集:(1)同音 字、同音词候选集构造:对6000中文常用字和10万中文常用词分别获取 拼音,然后将相同拼音的字或词语进行聚合,生成同音字和同音词候选集; (2)近音字、近音词候选集构造:根据构造好的同音字和同音词候选集 获取全部合法拼音,采用改造的编辑距离算法计算两两拼音间的受限编辑 距离(拼音的开头和结尾增、删代价为1,其它地方的增、删代价为N; 拼音的修改操作考虑键盘上字母间的物理距离,相邻字母的修改代价为1, 其它为N),受限编辑距离为1的拼音对互为近音字或近音词;(3)形似 字候选集构造:首先获取6000中文常用字的图片,然后随机模糊图片的 一个区域(Gaussian blurring),OCR识别模糊图片的汉字,识别出的错误 汉字加入候选,最后通过基于汉字笔画的编辑距离小于设定阈值筛选过滤 形似字候选集。
中文句子中的错别字存在局部性,大多数错别字只需要在合理的滑动 窗口内进行检测即可。局部纠错模块的流程图,如图4所示,局部纠错模 块利用训练好的语言模型和构造好的各类候选词表,对窗口内的词逐一采 用不同候选集(同音、近音、形似)中的词替换,计算替换前、后句子的 PPL降比,依据分级阈值,选择不同的分级处理。PPL下降明显的句子可 直接判定错别字,PPL降比不足的句子需通过Bert神经网络模型加以判断。 实际应用中,我们细分单字和词语两种类型的错别字,并分别设定不同的 PPL降幅阈值。
例如,通过例句:泰森放松心情,因用力不当讲女孩的背弄伤,结果 赔付了5000美元的医药费。将该剧通过局部纠错窗口,判断“讲”与“将” 在句子中的PPL将比大于30%的情况下,判断句子中的“讲”是错别字。 在计算PPL将比小于30%的情况下,将该语句输出到神经网络模型判断。
局部纠错模块能够利用局部范围内的上下文信息识别出明显错别字, 但统计语言模型的全局建模能力弱,泛化能力差,难以利用句子的全局信 息识别错别字。因此,需要结合基于Bert的深度神经网络模型利用全局信 息进行识别与纠错。
三、全局纠错:基于Bert的深度神经网络纠错模块
局部纠错阶段基于5-gram语言模型利用局部范围内的上下文信息识 别出较为明显的错别字,但统计语言模型的全局建模能力弱,泛化能力差, 难以利用句子的全局信息识别错别字。因此,我们在全局纠错阶段采用 Bert深度神经网络模型引入句子语义信息解决更深层更难以发现的错别 字。例如:“她主演的戏,每一步(部)都可以称之为经典”,忽略上下文 信息,单独看局部窗口“每一步都可以称之为经典”仍然是合理的自然语 言,错别字很难被识别出。但考虑整个句子,上文“她主演的戏”对错别 字“步”的判断起到了决定性作用。
全局纠错模块包含两种基于Bert的神经网络模型,分别是Bert序列 标注模型和Bert MLM模型。我们将分别介绍这两种模型的原理、作用、 模型训练和实际使用。Bert本质上是一种预训练的语言表征模型,基于双 向的Transformer编码器实现,可以在预训练好的Bert上叠加任务相关的 额外网络结构进行微调(finetune),使其广泛适用于各种NLP任务并产出 最先进的结果。
1)Bert序列标注模型:识别并提供疑似错别字位置
序列标注是对线性输入序列中的每个元素预测标签集合中的某个标 签,本质上是对每个元素根据上下文进行分类。Bert序列标注模型是在 Bert的基础上增加softmax全连接层,把最终的隐向量映射到标签集合。 受双向LSTM+CRF启发,我们在全连接层的基础上增加CRF层,引入一 些约束来保证最终预测结果的合法性。这些约束可以在模型训练时被CRF 层自动学习得到。对于中文文本,BERT模型的最小输入单位为单个汉字, 而句子中出现的错别字可能是单字,也可能是词语,因此我们采用BIO的 标记策略对序列中的每个字进行标注,其中“B”表示该字是词语错别字 的起始字,同时也可以表示单字错别字;“I”表示该字是词语错别字的中 间字或结尾字;“O”表示该字不是错别字。CRF层引入的约束可以保证 序列的合法性,如标签“O”后不能直接跟标签“I”等。Bert序列标注模 型的训练采用自动构造的错别字数据集,该数据集包含200万采用同音、 近音、形似字词替换的错别字句子。其中,同音、近音、形似替换的比例 按照小规模真实数据集上的统计占比进行模拟,候选字词按照词频进行采 样。Bert序列标注模型提供疑似错别字位置,供后续Bert MLM模型使用。
还需要说明的是,可以采用基于seq2seq的序列生成模型,使用 encoder-decoder结构解决序列转换问题,对错误句子进行自动纠错。但序 列生成模型在训练过程中容易过拟合,需要尝试修改目标函数配合多种 attention机制训练模型。
2)Bert MLM模型:判断疑似错别字并纠正
Bert MLM(Masked LM)是Bert原始预训练任务之一。为了使用每 个单词的双向信息进行预测,Bert采用了一个直接的方法进行训练,即随 机遮蔽输入句子中的某些单词,然后预测被遮住的单词,这一步骤就是 Masked LM,类似我们常见的完形填空任务。在Bert原始预训练任务中, 作者随机选择句子中15%的单词进行遮蔽,其中80%的单词被替换为[MASK],10%的单词被随机替换,10%的单词保持不变。在中文纠错系统 的实际使用中,为了更好地模拟真实错别字数据集,我们加入同音字、近 音字替换,即60%的字被替换为[MASK],10%的字被高频同音字替换, 10%的字被高频近音字替换,10%被随机替换,10%保持不变。我们选取 快报优质文章的3400万句子,在谷歌开源的中文字粒度Bert模型基础上, 继续训练适用于中文纠错的Bert MLM模型。Bert MLM模型在全局纠错 模块中用于判断疑似错别字并改正,模型预测时输入包含疑似错别字的句 子以及疑似错别字位置,模型将输出对应的预测字及其概率。这里值得注 意的是原始Bert MLM模型在预测字时会将对应位置的隐向量输入到 softmax函数预测词表中所有词的概率。然而,在错别字任务上,我们往 往只需要Bert MLM模型在一个受限词表上进行预测,从而提高预测的准 确率。实际中,我们将同音字表、近音字表和形似字表进行合并生成受限 词表。针对疑似错别字,BertMLM只需预测该字的所有同音字、近音字 和形似字的概率。例如“莫过于再台上露馅”,BertMLM在全量词表上的 预测字为“舞”,而在受限词表上的预测字为“在”。对这个例子而言,“莫 过于舞台上露馅”也是通顺的,但对错别字纠错任务而言,“再”无疑只 能被改正为“在”。我们将预测概率在受限词表上进行归一化,将归一化 后的预测概率阈值设定为0.5,若预测字不是原字并且归一化后的预测概 率大于该阈值,则将错别字改正为预测字。
全局纠错模块的流程图,如图5所示,首先依赖局部纠错语言模型的 PPL句子打分筛选出含有疑似错别字的句子,然后采用Bert序列标注模型 识别出全部疑似错别字并提供错别字位置信息,最后利用Bert MLM模型 对疑似错别字进行预测,若最终预测的字不是原字,且预测概率大于阈值, 则将该字判断为错别字,并改正成Bert MLM的预测字。全局纠错能够综 合句子全局信息,识别出局部语言模型难以甄别出的错别字。
例如,将“她主演的戏,每一步都可以称之为经典。”,通过图4中的 局部纠错方式确定“步”与“部”在句子中的PPL将比小于30%的情况 下,通过Bert序列标注模型确定序列标注结果:[00000000B-E000000000], 并将标注序列标注结果输入到Bert MLM模型中,MLM模型结果:预测 字-部的概率(0.9998),在归一化预测概率大于0.5的情况下,判断“步” 是错别字,将“步”修改为“部”,在归一化预测概率小于0.5的情况下, 判断“步”不是错别字。
通过本优选实施例中的中文错别字识别与纠错系统可以应用于:1、 在天天快报、QQ看点等信息流产品上,中文错别字识别与纠错系统自动 识别并提示文章中的错别字信息,辅助人审识别错别字,拦截错别字过 多或包含恶劣错别字的低质文章进入推荐池;2、企鹅号优化大师将中文 错别字识别与纠错系统整合入发文助手,辅助自媒体作者发文,在发文 前帮助用户检查文章中的疑似错别字,并提示纠正信息,从而帮助作者 减少或避免文章中的错别字。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都 表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受 所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序 或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实 施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述中文纠 错方法的中文纠错装置。如图6所示,该装置包括:第一替换单元61,第 一计算单元63,第一获取单元65,第二计算单元67以及第二替换单元69。
第一替换单元61,用于根据待纠错语句中的目标词从候选词表中获取 候选词,并将候选词替换待纠错语句中的目标词。
第一计算单元63,用于计算待纠错语句在替换前的第一困惑度指标 PPL值,以及待纠错短句中文字在替换后的第二困惑度指标PPL值。
第一获取单元65,用于在第一PPL值与第二PPL值的差值小于第一 阈值的情况下,获取待纠错语句中疑似错别字的位置。
第二计算单元67,用于将标记有疑似错别字位置的文字用预测文字进 行替换,计算预测文字在目标语句中的概率。
第二替换单元69,用于在概率大于第二阈值的情况下,将疑似错别字 替换为预测字。
通过上述装置,第一替换单元61根据待纠错语句中的目标词从候选 词表中获取候选词,并将候选词替换待纠错语句中的目标词;第一计算单 元63计算待纠错语句在替换前的第一困惑度指标PPL值,以及待纠错短 句中文字在替换后的第二困惑度指标PPL值;第一获取单元65在第一PPL 值与第二PPL值的差值小于第一阈值的情况下,获取待纠错语句中疑似错 别字的位置;第二计算单元67将标记有疑似错别字位置的文字用预测文 字进行替换,计算预测文字在目标语句中的概率;第二替换单元69在概 率大于第二阈值的情况下,将疑似错别字替换为预测字。根据待纠错语句 中目标词替换前后的PPL值,在PPL值相差预定阈值的情况下,将待纠 错语句中的词替换为预测词,进而计算替换为预测词后的待纠错语句的概 率,从而现了根据的替换为预测词后的待纠错语句的概率确定待纠错语句中的词是否需要纠正的技术效果,提高了纠错的效率以及准确度,进而解 决了现有技术中,对语句进行纠错的方式单一、无法快速、有效的实现纠 错的技术问题。
作为一种可选的实施例,上述装置的第一替换单元61可以包括:映 射模块,用于待纠错语句中的目标词与候选词表中的候选词具有映射关系, 其中,候选词表至少包括以下之一:同音词表、近音词表、形似字表、高 频词表。
作为一种可选的实施例,上述第一计算单元63可以包括:通过如下 公式确定第一困惑度指标PPL值或第二困惑度指标PPL值:
Figure BDA0002212005520000201
Figure BDA0002212005520000202
其中,S是代表语句,n是句子长度,w1w2...wn代表语句中的词。
作为一种可选的实施例,上述装置还可以包括:第二获取单元,用于 根据待纠错语句中的目标词从候选词表中获取候选词,并将候选词替换待 纠错语句中的目标词之前,获取第一语句;纠错单元,用于对第一语句进 行成语和/或固定搭配纠错之后,得到待纠错语句。
作为一种可选的实施例,上述装置还可以包括:第三替换单元,用于 在第一PPL值与第二PPL值的差值大于第一阈值的情况下,将待纠错语 句中的目标词替换为候选词表中的候选词。
作为一种可选的实施例,上述第一获取单元61可以包括:确定模块, 用于通过序列标注模型确定待纠错语句中疑似错别字的位置。
根据本发明实施例的又一个方面,还提供了一种用于实施上述中文纠 错方法的电子装置,如图7所示,该电子装置包括存储器702和处理器1304, 该存储器702中存储有计算机程序,该处理器704被设置为通过计算机程 序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网 络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执 行以下步骤:
S1,根据待纠错语句中的目标词从候选词表中获取候选词,并将候选 词替换待纠错语句中的目标词;
S2,计算待纠错语句在替换前的第一困惑度指标PPL值,以及待纠错 短句中文字在替换后的第二困惑度指标PPL值;
S3,在第一PPL值与第二PPL值的差值小于第一阈值的情况下,获 取待纠错语句中疑似错别字的位置;
S4,将标记有疑似错别字位置的文字用预测文字进行替换,计算预测 文字在目标语句中的概率;
S5,在概率大于第二阈值的情况下,将疑似错别字替换为预测字。
可选地,本领域普通技术人员可以理解,图7所示的结构仅为示意, 电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、 掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等 终端设备。图7其并不对上述电子装置的结构造成限定。例如,电子装置 还可包括比图7中所示更多或者更少的组件(如网络接口等),或者具有 与图7所示不同的配置。
其中,存储器702可用于存储软件程序以及模块,如本发明实施例中 的中文纠错方法和装置对应的程序指令/模块,处理器704通过运行存储在 存储器702内的软件程序以及模块,从而执行各种功能应用以及数据处理, 即实现上述的中文纠错方法。存储器702可包括高速随机存储器,还可以 包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非 易失性固态存储器。在一些实例中,存储器702可进一步包括相对于处理 器704远程设置的存储器,这些远程存储器可以通过网络连接至终端。上 述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及 其组合。其中,存储器702具体可以但不限于用于待纠错语句对应的候选 词表等信息。作为一种示例,如图7所示,上述存储器702中可以但不限 于包括上述中文纠错装置中的第一替换单元61,第一计算单元63,第一获取单元65,第二计算单元67以及第二替换单元69。此外,还可以包括 但不限于上述中文纠错装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置706用于经由一个网络接收或者发送数据。 上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装 置706包括一个网络适配器(Network Interface Controller,NIC),其可通 过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。 在一个实例中,传输装置706为射频(Radio Frequency,RF)模块,其用 于通过无线方式与互联网进行通讯。
根据本发明的实施例的又一方面,还提供了一种计算机可读的存储介 质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序 被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存 储用于执行以下步骤的计算机程序:
S1,根据待纠错语句中的目标词从候选词表中获取候选词,并将候选 词替换待纠错语句中的目标词;
S2,计算待纠错语句在替换前的第一困惑度指标PPL值,以及待纠错 短句中文字在替换后的第二困惑度指标PPL值;
S3,在第一PPL值与第二PPL值的差值小于第一阈值的情况下,获 取待纠错语句中疑似错别字的位置;
S4,将标记有疑似错别字位置的文字用预测文字进行替换,计算预测 文字在目标语句中的概率;
S5,在概率大于第二阈值的情况下,将疑似错别字替换为预测字。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的 各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬 件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包 括:闪存盘、只读存储器(Read-OnlyMemory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为 独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。 基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的 部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计 算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算 机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实 施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可 通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的, 例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外 的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统, 或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦 合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或 通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的, 作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地 方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的 部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元 中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在 一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软 件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的 普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进 和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种中文纠错方法,其特征在于,包括:
根据待纠错语句中的目标词从候选词表中获取候选词,并将所述候选词替换所述待纠错语句中的所述目标词;
计算所述待纠错语句在替换前的第一困惑度指标PPL值,以及所述待纠错短句中文字在替换后的第二困惑度指标PPL值;
在所述第一PPL值与所述第二PPL值的差值小于第一阈值的情况下,获取所述待纠错语句中疑似错别字的位置;
将标记有疑似错别字位置的文字用预测文字进行替换,计算所述预测文字在所述目标语句中的概率;
在所述概率大于第二阈值的情况下,将所述疑似错别字替换为预测字。
2.根据权利要求1所述的方法,其特征在于,所述根据待纠错语句中的目标词从候选词表中获取候选词,并将所述候选词替换所述待纠错语句中的所述目标词包括:
所述待纠错语句中的目标词与所述候选词表中的所述候选词具有映射关系,其中,所述候选词表至少包括以下之一:同音词表、近音词表、形似字表、高频词表。
3.根据权利要求1所述的方法,其特征在于,所述计算所述待纠错语句在替换前的第一困惑度指标PPL值,以及所述待纠错短句中文字在替换后的第二困惑度指标PPL值包括:
通过如下公式确定所述第一困惑度指标PPL值或第二困惑度指标PPL值:
Figure FDA0002212005510000021
其中,S是代表语句,n是句子长度,w1w2…wn代表语句中的词。
4.根据权利要求1所述的方法,其特征在于,所述根据待纠错语句中的目标词从候选词表中获取候选词,并将所述候选词替换所述待纠错语句中的所述目标词之前,所述方法还包括:
获取第一语句;
对所述第一语句进行成语和/或固定搭配纠错之后,得到所述待纠错语句。
5.根据权利要求1所述的方法,其特征在于,
在所述第一PPL值与所述第二PPL值的差值大于第一阈值的情况下,将所述待纠错语句中的所述目标词替换为所述候选词表中的所述候选词。
6.根据权利要求1所述的方法,其特征在于,所述在所述第一PPL值与所述第二PPL值的差值小于第一阈值的情况下,获取所述待纠错语句中疑似错别字的位置包括:
通过序列标注模型确定所述待纠错语句中疑似错别字的位置。
7.一种中文纠错装置,其特征在于,包括:
第一替换单元,用于根据待纠错语句中的目标词从候选词表中获取候选词,并将所述候选词替换所述待纠错语句中的所述目标词;
第一计算单元,用于计算所述待纠错语句在替换前的第一困惑度指标PPL值,以及所述待纠错短句中文字在替换后的第二困惑度指标PPL值;
第一获取单元,用于在所述第一PPL值与所述第二PPL值的差值小于第一阈值的情况下,获取所述待纠错语句中疑似错别字的位置;
第二计算单元,用于将标记有疑似错别字位置的文字用预测文字进行替换,计算所述预测文字在所述目标语句中的概率;
第二替换单元,用于在所述概率大于第二阈值的情况下,将所述疑似错别字替换为预测字。
8.根据权利要求7所述的装置,其特征在于,所述第一替换单元包括:
映射模块,用于所述待纠错语句中的目标词与所述候选词表中的所述候选词具有映射关系,其中,所述候选词表至少包括以下之一:同音词表、近音词表、形似字表、高频词表。
9.根据权利要求7所述的装置,其特征在于,所述第一计算单元包括:
通过如下公式确定所述第一困惑度指标PPL值或第二困惑度指标PPL值:
Figure FDA0002212005510000031
其中,S是代表语句,n是句子长度,w1w2…wn代表语句中的词。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于所述根据待纠错语句中的目标词从候选词表中获取候选词,并将所述候选词替换所述待纠错语句中的所述目标词之前,获取第一语句;
纠错单元,用于对所述第一语句进行成语和/或固定搭配纠错之后,得到所述待纠错语句。
11.根据权利要求7所述的装置,其特征在于,
第三替换单元,用于在所述第一PPL值与所述第二PPL值的差值大于第一阈值的情况下,将所述待纠错语句中的所述目标词替换为所述候选词表中的所述候选词。
12.根据权利要求7所述的装置,其特征在于,所述第一获取单元包括:
确定模块,用于通过序列标注模型确定所述待纠错语句中疑似错别字的位置。
13.一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至6任一项中所述的方法。
14.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。
CN201910901631.3A 2019-09-23 2019-09-23 中文纠错方法和装置、存储介质及电子装置 Active CN110852087B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910901631.3A CN110852087B (zh) 2019-09-23 2019-09-23 中文纠错方法和装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910901631.3A CN110852087B (zh) 2019-09-23 2019-09-23 中文纠错方法和装置、存储介质及电子装置

Publications (2)

Publication Number Publication Date
CN110852087A true CN110852087A (zh) 2020-02-28
CN110852087B CN110852087B (zh) 2022-02-22

Family

ID=69595956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910901631.3A Active CN110852087B (zh) 2019-09-23 2019-09-23 中文纠错方法和装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN110852087B (zh)

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159415A (zh) * 2020-04-02 2020-05-15 成都数联铭品科技有限公司 序列标注方法及系统、事件要素抽取方法及系统
CN111553143A (zh) * 2020-04-30 2020-08-18 河北省讯飞人工智能研究院 文本纠错方法、相关设备及可读存储介质
CN111626049A (zh) * 2020-05-27 2020-09-04 腾讯科技(深圳)有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN111639489A (zh) * 2020-05-15 2020-09-08 民生科技有限责任公司 中文文本纠错系统、方法、装置及计算机可读存储介质
CN111651978A (zh) * 2020-07-13 2020-09-11 深圳市智搜信息技术有限公司 基于实体的词法检查方法与装置和计算机设备及存储介质
CN111914532A (zh) * 2020-09-14 2020-11-10 北京阅神智能科技有限公司 一种中文作文评分方法
CN111931775A (zh) * 2020-09-28 2020-11-13 成都索贝数码科技股份有限公司 自动获取新闻标题方法、系统、计算机设备及存储介质
CN111984845A (zh) * 2020-08-17 2020-11-24 江苏百达智慧网络科技有限公司 网站错别字识别方法和系统
CN112199945A (zh) * 2020-08-19 2021-01-08 宿迁硅基智能科技有限公司 一种文本纠错的方法和装置
CN112580324A (zh) * 2020-12-24 2021-03-30 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备以及存储介质
CN112597771A (zh) * 2020-12-29 2021-04-02 重庆邮电大学 基于前缀树合并的中文文本纠错方法
CN112634878A (zh) * 2020-12-15 2021-04-09 深港产学研基地(北京大学香港科技大学深圳研修院) 语音识别后处理方法和系统及相关设备
CN112633852A (zh) * 2020-12-30 2021-04-09 广东电网有限责任公司电力调度控制中心 一种业务文档的审查系统
CN112650843A (zh) * 2020-12-23 2021-04-13 平安银行股份有限公司 问答对知识库的构建方法、装置、设备及存储介质
CN112801829A (zh) * 2020-12-31 2021-05-14 科大讯飞股份有限公司 试题预测网络模型的相关方法和装置
CN112949261A (zh) * 2021-02-04 2021-06-11 维沃移动通信有限公司 文本还原方法、装置及电子设备
CN113010635A (zh) * 2021-02-19 2021-06-22 网易(杭州)网络有限公司 一种文本纠错方法及装置
CN113051896A (zh) * 2021-04-23 2021-06-29 百度在线网络技术(北京)有限公司 对文本进行纠错的方法、装置、电子设备和存储介质
CN113066494A (zh) * 2021-03-15 2021-07-02 上海云从汇临人工智能科技有限公司 文本纠错模型生成方法及系统、文本纠错方法、系统、设备及介质
CN113221542A (zh) * 2021-03-31 2021-08-06 国家计算机网络与信息安全管理中心 一种基于多粒度融合与Bert筛选的中文文本自动校对方法
CN113268600A (zh) * 2021-06-25 2021-08-17 沈阳美行科技有限公司 检索名称的错别字纠正方法、装置、电子设备和存储介质
CN113343671A (zh) * 2021-06-07 2021-09-03 佳都科技集团股份有限公司 一种语音识别后的语句纠错方法、装置、设备及存储介质
CN113361266A (zh) * 2021-06-25 2021-09-07 达闼机器人有限公司 文本纠错方法、电子设备及存储介质
CN113435186A (zh) * 2021-06-18 2021-09-24 上海熙瑾信息技术有限公司 中文文本纠错系统、方法、装置及计算机可读存储介质
WO2021189851A1 (zh) * 2020-09-03 2021-09-30 平安科技(深圳)有限公司 文本纠错方法、系统、设备及可读存储介质
CN113536776A (zh) * 2021-06-22 2021-10-22 深圳价值在线信息科技股份有限公司 混淆语句的生成方法、终端设备及计算机可读存储介质
CN113836919A (zh) * 2021-09-30 2021-12-24 中国建筑第七工程局有限公司 一种基于迁移学习的建筑行业文本纠错方法
CN114154488A (zh) * 2021-12-10 2022-03-08 北京金山数字娱乐科技有限公司 语句处理方法及装置
CN114328798A (zh) * 2021-11-09 2022-04-12 腾讯科技(深圳)有限公司 搜索文本的处理方法、装置、设备、存储介质和程序产品
CN114742037A (zh) * 2020-12-23 2022-07-12 广州视源电子科技股份有限公司 文本纠错方法、装置、计算机设备和存储介质
CN116090441A (zh) * 2022-12-30 2023-05-09 永中软件股份有限公司 一种融合局部语义特征和全局语义特征的中文拼写纠错方法
CN116306594A (zh) * 2023-01-31 2023-06-23 百洋智能科技集团股份有限公司 一种医学ocr识别纠错方法
WO2023173533A1 (zh) * 2022-03-17 2023-09-21 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020032549A1 (en) * 2000-04-20 2002-03-14 International Business Machines Corporation Determining and using acoustic confusability, acoustic perplexity and synthetic acoustic word error rate
TW201011566A (en) * 2008-09-09 2010-03-16 Inst Information Industry Error detection apparatus and methods for Chinese articles, and storage media
US20110022952A1 (en) * 2004-08-25 2011-01-27 Google Inc. Determining Proximity Measurements Indicating Respective Intended Inputs
CN104951469A (zh) * 2014-03-28 2015-09-30 株式会社东芝 优化语料库的方法和装置
CN106503231A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN108255857A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 一种语句检测方法及装置
CN109408829A (zh) * 2018-11-09 2019-03-01 北京百度网讯科技有限公司 文章可读性确定方法、装置、设备和介质
CN109858023A (zh) * 2019-01-04 2019-06-07 北京车慧科技有限公司 一种语句纠错装置
CN109992769A (zh) * 2018-12-06 2019-07-09 平安科技(深圳)有限公司 基于语义解析的语句合理性判断方法、装置、计算机设备
CN110148416A (zh) * 2019-04-23 2019-08-20 腾讯科技(深圳)有限公司 语音识别方法、装置、设备和存储介质
CN110211571A (zh) * 2019-04-26 2019-09-06 平安科技(深圳)有限公司 错句检测方法、装置及计算机可读存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020032549A1 (en) * 2000-04-20 2002-03-14 International Business Machines Corporation Determining and using acoustic confusability, acoustic perplexity and synthetic acoustic word error rate
US20110022952A1 (en) * 2004-08-25 2011-01-27 Google Inc. Determining Proximity Measurements Indicating Respective Intended Inputs
TW201011566A (en) * 2008-09-09 2010-03-16 Inst Information Industry Error detection apparatus and methods for Chinese articles, and storage media
CN104951469A (zh) * 2014-03-28 2015-09-30 株式会社东芝 优化语料库的方法和装置
CN106503231A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN108255857A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 一种语句检测方法及装置
CN109408829A (zh) * 2018-11-09 2019-03-01 北京百度网讯科技有限公司 文章可读性确定方法、装置、设备和介质
CN109992769A (zh) * 2018-12-06 2019-07-09 平安科技(深圳)有限公司 基于语义解析的语句合理性判断方法、装置、计算机设备
CN109858023A (zh) * 2019-01-04 2019-06-07 北京车慧科技有限公司 一种语句纠错装置
CN110148416A (zh) * 2019-04-23 2019-08-20 腾讯科技(深圳)有限公司 语音识别方法、装置、设备和存储介质
CN110211571A (zh) * 2019-04-26 2019-09-06 平安科技(深圳)有限公司 错句检测方法、装置及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DIETRICH KLAKOW ET AL: "Testing the correlation of word error rate and perplexity", 《SPEECH COMMUNICATION》 *
黄浩洋: "基于深度学习的自动句法纠错研究", 《中国优秀博硕士学位论文全文数据(硕士)信息科技辑(月刊)》 *

Cited By (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159415A (zh) * 2020-04-02 2020-05-15 成都数联铭品科技有限公司 序列标注方法及系统、事件要素抽取方法及系统
CN111159415B (zh) * 2020-04-02 2020-07-14 成都数联铭品科技有限公司 序列标注方法及系统、事件要素抽取方法及系统
CN111553143A (zh) * 2020-04-30 2020-08-18 河北省讯飞人工智能研究院 文本纠错方法、相关设备及可读存储介质
CN111639489A (zh) * 2020-05-15 2020-09-08 民生科技有限责任公司 中文文本纠错系统、方法、装置及计算机可读存储介质
CN111626049B (zh) * 2020-05-27 2022-12-16 深圳市雅阅科技有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN111626049A (zh) * 2020-05-27 2020-09-04 腾讯科技(深圳)有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN111651978A (zh) * 2020-07-13 2020-09-11 深圳市智搜信息技术有限公司 基于实体的词法检查方法与装置和计算机设备及存储介质
CN111984845B (zh) * 2020-08-17 2023-10-31 江苏百达智慧网络科技有限公司 网站错别字识别方法和系统
CN111984845A (zh) * 2020-08-17 2020-11-24 江苏百达智慧网络科技有限公司 网站错别字识别方法和系统
CN112199945A (zh) * 2020-08-19 2021-01-08 宿迁硅基智能科技有限公司 一种文本纠错的方法和装置
WO2021189851A1 (zh) * 2020-09-03 2021-09-30 平安科技(深圳)有限公司 文本纠错方法、系统、设备及可读存储介质
CN111914532A (zh) * 2020-09-14 2020-11-10 北京阅神智能科技有限公司 一种中文作文评分方法
CN111914532B (zh) * 2020-09-14 2024-05-03 北京阅神智能科技有限公司 一种中文作文评分方法
CN111931775A (zh) * 2020-09-28 2020-11-13 成都索贝数码科技股份有限公司 自动获取新闻标题方法、系统、计算机设备及存储介质
CN111931775B (zh) * 2020-09-28 2021-01-08 成都索贝数码科技股份有限公司 自动获取新闻标题方法、系统、计算机设备及存储介质
CN112634878B (zh) * 2020-12-15 2024-05-17 深港产学研基地(北京大学香港科技大学深圳研修院) 语音识别后处理方法和系统及相关设备
CN112634878A (zh) * 2020-12-15 2021-04-09 深港产学研基地(北京大学香港科技大学深圳研修院) 语音识别后处理方法和系统及相关设备
CN112650843A (zh) * 2020-12-23 2021-04-13 平安银行股份有限公司 问答对知识库的构建方法、装置、设备及存储介质
CN114742037A (zh) * 2020-12-23 2022-07-12 广州视源电子科技股份有限公司 文本纠错方法、装置、计算机设备和存储介质
CN112580324B (zh) * 2020-12-24 2023-07-25 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备以及存储介质
CN112580324A (zh) * 2020-12-24 2021-03-30 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备以及存储介质
CN112597771A (zh) * 2020-12-29 2021-04-02 重庆邮电大学 基于前缀树合并的中文文本纠错方法
CN112633852A (zh) * 2020-12-30 2021-04-09 广东电网有限责任公司电力调度控制中心 一种业务文档的审查系统
CN112801829A (zh) * 2020-12-31 2021-05-14 科大讯飞股份有限公司 试题预测网络模型的相关方法和装置
CN112801829B (zh) * 2020-12-31 2024-04-30 科大讯飞股份有限公司 试题预测网络模型的相关方法和装置
CN112949261A (zh) * 2021-02-04 2021-06-11 维沃移动通信有限公司 文本还原方法、装置及电子设备
CN113010635A (zh) * 2021-02-19 2021-06-22 网易(杭州)网络有限公司 一种文本纠错方法及装置
CN113066494B (zh) * 2021-03-15 2024-03-08 上海云从汇临人工智能科技有限公司 文本纠错模型生成方法及系统、文本纠错方法、系统、设备及介质
CN113066494A (zh) * 2021-03-15 2021-07-02 上海云从汇临人工智能科技有限公司 文本纠错模型生成方法及系统、文本纠错方法、系统、设备及介质
CN113221542A (zh) * 2021-03-31 2021-08-06 国家计算机网络与信息安全管理中心 一种基于多粒度融合与Bert筛选的中文文本自动校对方法
CN113051896A (zh) * 2021-04-23 2021-06-29 百度在线网络技术(北京)有限公司 对文本进行纠错的方法、装置、电子设备和存储介质
CN113051896B (zh) * 2021-04-23 2023-08-18 百度在线网络技术(北京)有限公司 对文本进行纠错的方法、装置、电子设备和存储介质
CN113343671A (zh) * 2021-06-07 2021-09-03 佳都科技集团股份有限公司 一种语音识别后的语句纠错方法、装置、设备及存储介质
CN113343671B (zh) * 2021-06-07 2023-03-31 佳都科技集团股份有限公司 一种语音识别后的语句纠错方法、装置、设备及存储介质
CN113435186A (zh) * 2021-06-18 2021-09-24 上海熙瑾信息技术有限公司 中文文本纠错系统、方法、装置及计算机可读存储介质
CN113435186B (zh) * 2021-06-18 2022-05-20 上海熙瑾信息技术有限公司 中文文本纠错系统、方法、装置及计算机可读存储介质
CN113536776A (zh) * 2021-06-22 2021-10-22 深圳价值在线信息科技股份有限公司 混淆语句的生成方法、终端设备及计算机可读存储介质
CN113361266A (zh) * 2021-06-25 2021-09-07 达闼机器人有限公司 文本纠错方法、电子设备及存储介质
CN113361266B (zh) * 2021-06-25 2022-12-06 达闼机器人股份有限公司 文本纠错方法、电子设备及存储介质
CN113268600A (zh) * 2021-06-25 2021-08-17 沈阳美行科技有限公司 检索名称的错别字纠正方法、装置、电子设备和存储介质
CN113836919A (zh) * 2021-09-30 2021-12-24 中国建筑第七工程局有限公司 一种基于迁移学习的建筑行业文本纠错方法
CN114328798B (zh) * 2021-11-09 2024-02-23 腾讯科技(深圳)有限公司 搜索文本的处理方法、装置、设备、存储介质和程序产品
CN114328798A (zh) * 2021-11-09 2022-04-12 腾讯科技(深圳)有限公司 搜索文本的处理方法、装置、设备、存储介质和程序产品
CN114154488A (zh) * 2021-12-10 2022-03-08 北京金山数字娱乐科技有限公司 语句处理方法及装置
CN114154488B (zh) * 2021-12-10 2024-07-16 北京金山数字娱乐科技有限公司 语句处理方法及装置
WO2023173533A1 (zh) * 2022-03-17 2023-09-21 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质
CN116090441A (zh) * 2022-12-30 2023-05-09 永中软件股份有限公司 一种融合局部语义特征和全局语义特征的中文拼写纠错方法
CN116090441B (zh) * 2022-12-30 2023-10-20 永中软件股份有限公司 一种融合局部语义特征和全局语义特征的中文拼写纠错方法
CN116306594A (zh) * 2023-01-31 2023-06-23 百洋智能科技集团股份有限公司 一种医学ocr识别纠错方法

Also Published As

Publication number Publication date
CN110852087B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
CN110852087B (zh) 中文纠错方法和装置、存储介质及电子装置
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
Thanaki Python natural language processing
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
Li et al. Recursive deep models for discourse parsing
Peng et al. Phonetic-enriched text representation for Chinese sentiment analysis with reinforcement learning
CN110489760A (zh) 基于深度神经网络文本自动校对方法及装置
CN112069295B (zh) 相似题推荐方法、装置、电子设备和存储介质
Wahid et al. Cricket sentiment analysis from Bangla text using recurrent neural network with long short term memory model
Arumugam et al. Hands-On Natural Language Processing with Python: A practical guide to applying deep learning architectures to your NLP applications
Sawalha Open-source resources and standards for Arabic word structure analysis: Fine grained morphological analysis of Arabic text corpora
Bokka et al. Deep Learning for Natural Language Processing: Solve your natural language processing problems with smart deep neural networks
Islam et al. Bangla sentence correction using deep neural network based sequence to sequence learning
Gamallo et al. Dependency parsing with finite state transducers and compression rules
CN111339772A (zh) 俄语文本情感分析方法、电子设备和存储介质
Da et al. Deep learning based dual encoder retrieval model for citation recommendation
An et al. Resource mention extraction for MOOC discussion forums
Lima et al. A novel data and model centric artificial intelligence based approach in developing high-performance named entity recognition for bengali language
Göker et al. Neural text normalization for turkish social media
Pradhan et al. Knowledge graph generation with deep active learning
CN111090720B (zh) 一种热词的添加方法和装置
Liu Grammatical Error Correction Incorporating First Language Information
Demilie Comparative analysis of automated text summarization techniques: The case of Ethiopian languages
Favre Contextual language understanding Thoughts on Machine Learning in Natural Language Processing
Wang Identifying Base Noun Phrases by Means of Recurrent Neural Networks: Using Morphological and Dependency Features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021447

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant