CN111639489A - 中文文本纠错系统、方法、装置及计算机可读存储介质 - Google Patents
中文文本纠错系统、方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111639489A CN111639489A CN202010414064.1A CN202010414064A CN111639489A CN 111639489 A CN111639489 A CN 111639489A CN 202010414064 A CN202010414064 A CN 202010414064A CN 111639489 A CN111639489 A CN 111639489A
- Authority
- CN
- China
- Prior art keywords
- text
- chinese
- character
- characters
- chinese text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000010801 machine learning Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 8
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 5
- 230000000717 retained effect Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 abstract description 6
- 230000004048 modification Effects 0.000 abstract description 6
- 230000000694 effects Effects 0.000 description 2
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种中文文本纠错系统、方法、装置及计算机可读存储介质,所述中文文本纠错系统及方法通过机器学习的多种方法检查以及修正中文文本中出现的多种错误,将不通顺的文本修正为通顺的、适合阅读的中文文本,有其针对句子中出现的形状相似或者发音相同的文字进行修正;通过困惑度查询到错误字符发生的位置,再利用混淆集以及语言模型的方式选择正确的修改方式对错误字符进行替换,最终通过评分方法选择返回正确的中文语言表述。本发明采用多线程处理,将输入的短文本分成两批,分两个进程一起跑,加快一倍速度,在并发的条件下,现阶段中文拼写检查+中文拼写纠正的处理效率为500QPS。
Description
【技术领域】
本发明涉及计算机文字处理技术领域,尤其涉及一种基于机器学习模型的中文文本纠错系统、方法、装置及计算机可读存储介质。
【背景技术】
中文作为现在世界上使用人数最多的语言在机器学习领域的发展尚存在非常多的局限性,由于中文的字音字形语法顺序等都较为复杂,所以不论是在人工输入或者机器识别领域,中文的拼写检查与纠错都有非常大的需求量。
同时,由于中文作为非字母文字,在NLP的处理方法上与英文为首的大量字母文字存在着非常多的不同。其区别主要表现在,中文书面文本单词之间是没有空间的,因此中文分词技术是在处理中文文本中碰到的第一个难点。其次,中文词性的标注很大程度上取决于该词的前后文以及所处位置,而英文词语的词性可以依赖于单词的拼写方式,因此词性标注的过程依赖特征和算法都不尽相同。目前出现的中文拼写检查以及纠错方法相对比较落后,对NLP的后续工作地进行比如情感识别、篇章分类等工作形成了障碍。
因此,有必要研究一种基于机器学习模型的中文文本纠错系统、方法、装置及计算机可读存储介质来应对现有技术的不足,以解决或减轻上述一个或多个问题。
【发明内容】
有鉴于此,本发明提供了一种中文文本纠错系统、方法、装置及计算机可读存储介质,本发明通过机器学习的多种方法检查以及修正中文文本中出现的多种错误,将不通顺的文本修正为通顺的、适合阅读的中文文本;通过困惑度查询到错误字符发生的位置,再利用混淆集以及语言模型打分的方式选择正确的修改方式对错误字符进行替换,最终返回正确的中文语言表述。
一方面,本发明提供一种中文文本纠错系统,所述系统基于机器学习模型,所述系统包括:
中文文本预训练模块,用于对中文文本进行预训练,并获取中文文本的困惑度、混淆集及语言模型;
中文文本输入模块,对输入的文本进行预处理,删除非常用标点以及长度异常的空格,转换中英文标点以及编码格式;
中文拼写检查模块,用于当中文文本中字符有拼写错误时,自动返回不正确字符的位置;
中文拼写纠正模块,通过预训练模块以及中文拼写检查模块定位错误字符位置,使用候选词逐一替换字符,通过语言模型计算通顺度结果,选择最优拼写纠正文本输出。
如上所述的方面和任一可能的实现方式,进一步提供一种中文文本纠错方法,包括所述的中文文本纠错系统,所述方法包括以下步骤:
所述中文文本纠错方法包括以下步骤:
S1:进行中文文本预训练,获取中文文本的困惑度、混淆集及语言模型;
S2:对输入的文本进行预处理,删除非常用标点以及长度异常的空格,转换中英文标点以及编码格式;
S3:将每个字符或标点作为一个位置,以字符为单位做余下处理,当中文文本中有拼写错误时,系统返回不正确字符的位置;
S4:通过错误检测定位所有疑似错误后,使用候选词逐一替换该字符,基于语言模型得到类候选短文本集的通顺度计算结果,最终选择最优拼写纠正文本输出。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S1具体包括:
S11:对中文文本进行自然语言处理,通过困惑度来衡量文本质量的优劣,并计算每个分词上的困惑度;
S12:对每个存在不正确可能的字符,根据发音、形状相似性以及基于统计上的易混淆字符生成一个候选集,最终生成混淆集;
S13:采用联合二元和三元文法的语言模型,获取得分语言模型,计算每个候选句子的得分;
所述S11-S13顺序不固定。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S11中的困惑度计算方法具体为:
其中,H(p)为概率分布p的熵,x为样本点,一个随机变量X的困惑度为定义在X的概率分布上的X所有可能取值为x的部分。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S13具体为:将每个语言模型替换为每个字符串的概率分布P(W),假设P(W)为字符串作为句子的概率,则概率的公式计算如下:
P(W)=P(x1)P(x2|x1)P(x3|x1x2)P(x4|x2x3)……(Bigram)
P(W)=P(x1)P(x2|x1)P(x3|x1x2)P(x4|x1x2x3)……(Trigram)
其中,x1表示第一个词,x2表示第二个词并以此类推;P(x4|x1x2x3)表示前面三个词是x1x2x3的情况下第四个词是x4的概率;x1x2……xn-1作为历史,由马尔科夫假设获得n元语言模型,n为2或3。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S4具体包括:
S41:取得疑似错误字符的替换字符候选集,通过错误检测定位所有疑似错误后,在混淆集中取得所有疑似错字的音似、形似以及常见识别错误候选词;
S42:使用候选字对字符所在位置进行替换,对于可替换的每个字符,枚举混淆集的每个字来替换原始字符,由此获得替换掉疑似错误字符的短文本候选集;
S43:基于S13中的n元语言模型得到候选短文本的通顺度排序结果,选择通顺度得分最高的句子作为最终候选文本。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S43具体为:
S431:以词语为最小计算单元,利用现有中文分词模型进行分词;
S432:基于特定语言模型、在特定语料库中通过计算常用词语相对应出现的频率计算得到通顺度;
S433:如果文本通顺度大于预定义的阈值,则替换原始文本;
S434:如果最终候选文本通顺度小于预定义的阈值,则原始文本是正确的,保留原始文本。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S3具体包括:
S31:去除训练语料中的特殊符号,替换文本中无效字符,所述无效字符为除中文、英文、数字、常用标点以外字符;
S32:长文本分割为短文本,根据特定标点符号以及空格将长文本切分为短文本。
S33:返回疑似不正确字符位置,利用困惑度结合词出现的概率计算每个字符的似然概率值,如果字符的似然概率值低于文本的平均概率值,则判定该字是疑似错别字返回该字符在文本中的位置。
如上所述的方面和任一可能的实现方式,进一步提供一种中文文本纠错装置,所述装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的中文文本纠错的处理程序,所述中文文本纠错的处理程序被所述处理器执行时实现如权利要求2至8中任一项所述的中文文本纠错方法的步骤。
如上所述的方面和任一可能的实现方式,进一步提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有中文文本纠错的处理程序,所述中文文本纠错的处理程序被处理器执行时实现如权利要求2至8中任一项所述的中文文本纠错方法的步骤。
与现有技术相比,本发明可以获得包括以下技术效果:
1、本发明采用多线程处理,可以多个文本句子同时并发,纠正处理效率为500QPS;
2、本发明通过机器学习的多种方法检查以及修正中文文本中出现的多种错误,将不通顺的文本修正为通顺的、适合阅读的中文文本;
3、本发明通过困惑度查询到错误字符发生的位置,再利用混淆集以及语言模型的方式选择正确的修改方式对错误字符进行替换,最终返回正确的中文语言表述。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一个实施例提供的中文文本纠错系统的结构图;
图2是本发明一个实施例提供的中文文本纠错方法的流程图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
本发明提供一种基于机器学习模型的中文文本纠错系统、方法、装置及可读存储介质。如图1所示,所述中文文本纠错系统具体包括:
1、中文拼写检查模块,输入语料包含多个正确或者错误的句子,错误种类包括多字、缺字、错字、乱序等等。每个字符或标点算一个位置,以字符为单位做余下处理。如果句子中有任何拼写错误,系统应该自动返回不正确字符的位置。以下位中文拼写检查部分的计算步骤:
(1)去除训练语料中的特殊符号。替换文本中大量无效字符(除中文、英文、数字、常用标点以外字符)以减小计算量增加计算效率,实例:删除单个空格:“付款\s到\t期”—“付款到期”;常见符号识别错误:“议付行=中国民生银行”—“议付行:中国民生银行”;罕见字符删除:“『四”—“四”
(2)长文本分割为短文本。根据特定标点符号([,。.:])以及空格(\s{2}|\n)将长文本切分为短文本,如:“单据必须自运输单据签发日或服务提供日起天内提交。(不能晚于信用证有效期)”—[“单据必须自运输单据签发日或服务提供日起天内提交”,”不能晚于信用证有效期”]
(3)返回疑似不正确字符位置。字符的困惑度计算建立在词语的基础上,利用困惑度结合词出现的概率计算每个字符的似然概率值,如果某字的似然概率值低于文本的平均概率值,则判定该字是疑似错别字返回该字在文本中的位置
2、中文拼写纠正模块,通过中文拼写检查模块和预训练模块定位错误字符位置,使用候选词逐一替换字符,通过语言模型计算结果,选择最优拼写纠正文本输出;
通过错误检测定位所有疑似错误后,使用候选词逐一替换该字符,基于语言模型得到类候选短文本的通顺度计算结果,最终选择最优拼写纠正文本输出
(1)取得疑似错误字符的替换字符候选集。通过错误检测定位所有疑似错误后,在混淆集中取得所有疑似错字的音似、形似以及常见识别错误候选词
(2)使用候选字对该字符所在位置进行替换。对于这个句子中可以替换的每个字符,系统将枚举其混淆集的每个字来替换原始字符。由此,我们可以得到一个替换掉疑似错误字符的短文本候选集
(3)基于语言模型得到候选短文本的通顺度排序结果。最后,选择通顺度得分最高的句子作为最终候选文本。该步骤以词语为最小计算单元,首先利用现有中文分词模型进行分词;通顺度的计算运用到特定语料库,包括其中的常用词语以及相对应出现频率计算得到通顺度;如果该文本通顺度大于预定义的阈值,则替换原始文本;如果最终候选文本通顺度小于预定义的阈值,则认为原始文本是正确的,决定保留原始文本
3、中文文本预训练模块,包括:
(1)混淆集,由容易被混淆的字符组成的数据集,在文本的拼写纠正中起着关键作用。基于拼音的输入法往往会导致发音相似的字符出现拼写错误;而基于字形方法的输入法通常会导致与字符形状相关的错误。举例如下:
同音字:情晴擎氢顷……
形近字:请晴情清青……
易混淆字(基于统计):妻西、嫂搜、……
由此,对于每个可能不正确的字符,我们根据发音、形状相似性以及基于统计上的易混淆字符生成一个候选集。
(2)困惑度计算
困惑度公式:
其中,H(p)是概率分布p的熵,x是样本点。因此一个随机变量X的困惑度是定义在X的概率分布上的X所有可能取值为x的部分。
(3)候选短文本通顺度计算:
系统采用联合二元和三元文法语言模型,计算每个候选句子的得分。一个语言模型代表一个字符串的概率分布P(W),假设P(W)是字符串作为句子的概率,则概率由下边的公式计算:
P(W)=P(x1)P(x2|x1)P(x3|x1x2)P(x4|x2x3)……(Bigram)
P(W)=P(x1)P(x2|x1)P(x3|x1x2)P(x4|x1x2x3)……(Trigram)
其中,x1表示第一个词,x2表示第二个词,以此类推。P(x4|x1x2x3)表示前面三个词是x1x2x3的情况下第四个词是x4的概率。x1x2……xn-1称作历史。根据马尔科夫假设,一个词只和他前面n-1个词相关性最高,这就是n元语言模型,在本发明中,n为2或3。
(4)特定语料库
特定语料库是针对各行业或者语言风格所建立的包含常见词语以及词频的语料词典。语料库的生成需要收集大量相关文章,对文章进行清洗、分词、词频统计以及输出。最终生成针对相应行业或者语言风格(新闻、论坛等)的词语备选库。
4、中文文本输入模块,对输入的文本进行预处理,删除非常用标点以及长度异常的空格,转换中英文标点以及编码格式。
如图2所示,本发明所述中文文本纠错方法具体包括:
S1:进行中文文本预训练,获取中文文本的困惑度、混淆集及语言模型;
S2:对输入的文本进行预处理,删除非常用标点以及长度异常的空格,转换中英文标点以及编码格式;
S3:将每个字符或标点作为一个位置,以字符为单位做余下处理,当中文文本中有拼写错误时,系统返回不正确字符的位置;
S4:通过错误检测定位所有疑似错误后,使用候选词逐一替换该字符,基于语言模型得到类候选短文本集的通顺度计算结果,最终选择最优拼写纠正文本输出。
所述S1具体包括:
S11:对中文文本进行自然语言处理,通过困惑度来衡量文本质量的优劣,并计算每个分词上的困惑度;
S12:对每个存在不正确可能的字符,根据发音、形状相似性以及基于统计上的易混淆字符生成一个候选集,最终生成混淆集;
S13:采用联合二元和三元文法的语言模型,获取得分语言模型,计算每个候选句子的得分;
所述S11-S13顺序不固定,所述S11中的困惑度计算方法具体为:
其中,H(p)为概率分布p的熵,x为样本点,一个随机变量X的困惑度为定义在X的概率分布上的X所有可能取值为x的部分。
所述S13具体为:将每个语言模型替换为每个字符串的概率分布P(W),假设P(W)为字符串作为句子的概率,则概率的公式计算如下:
P(W)=P(x1)P(x2|x1)P(x3|x1x2)P(x4|x2x3)……(Bigram)
P(W)=P(x1)P(x2|x1)P(x3|x1x2)P(x4|x1x2x3)……(Trigram)
其中,x1表示第一个词,x2表示第二个词并以此类推;P(x4|x1x2x3)表示前面三个词是x1x2x3的情况下第四个词是x4的概率;x1x2……xn-1作为历史,由马尔科夫假设获得n元语言模型,n为2或3。
所述S4具体包括:
S41:取得疑似错误字符的替换字符候选集,通过错误检测定位所有疑似错误后,在混淆集中取得所有疑似错字的音似、形似以及常见识别错误候选词;
S42:使用候选字对字符所在位置进行替换,对于可替换的每个字符,枚举混淆集的每个字来替换原始字符,由此获得替换掉疑似错误字符的短文本候选集;
S43:基于S13中的n元语言模型得到候选短文本的通顺度排序结果,选择通顺度得分最高的句子作为最终候选文本。
所述S43具体为:
S431:以词语为最小计算单元,利用现有中文分词模型进行分词;
S432:基于特定语言模型、在特定语料库中通过计算常用词语相对应出现的频率计算得到通顺度;
S433:如果文本通顺度大于预定义的阈值,则替换原始文本;
S434:如果最终候选文本通顺度小于预定义的阈值,则原始文本是正确的,保留原始文本。
所述S3具体包括:
S31:去除训练语料中的特殊符号,替换文本中无效字符,所述无效字符为除中文、英文、数字、常用标点以外字符;
S32:长文本分割为短文本,根据特定标点符号以及空格将长文本切分为短文本。
S33:返回疑似不正确字符位置,利用困惑度结合词出现的概率计算每个字符的似然概率值,如果字符的似然概率值低于文本的平均概率值,则判定该字是疑似错别字返回该字符在文本中的位置。
本发明还提供一种中文文本纠错装置,所述装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的中文文本纠错的处理程序,所述中文文本纠错的处理程序被所述处理器执行时实现如所述的中文文本纠错方法的步骤。
本发明还提供一种可读存储介质,所述计算机可读存储介质上存储有中文文本纠错的处理程序,所述中文文本纠错的处理程序被处理器执行时实现如所述的中文文本纠错方法的步骤。
本发明所述中文文本纠错系统及方法通过机器学习的多种方法检查以及修正中文文本中出现的多种错误,将不通顺的文本修正为通顺的、适合阅读的中文文本;通过困惑度查询到错误字符发生的位置,再利用混淆集以及语言模型的方式选择正确的修改方式对错误字符进行替换,最终返回正确的中文语言表述。本发明采用多线程处理,将输入的短文本分成两批,分两个进程一起跑,加快一倍速度,在并发的条件下,现阶段中文拼写检查+中文拼写纠正的处理效率为500QPS。
以上对本申请实施例所提供的中文文本纠错系统、方法、装置及可读存储介质,进行了详细介绍。以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
如在说明书及权利要求书当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求书并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求书当中所提及的“包含”、“包括”为一开放式用语,故应解释成“包含/包括但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求书所界定者为准。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述申请构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求书的保护范围内。
Claims (10)
1.一种中文文本纠错系统,所述系统基于机器学习模型,其特征在于,所述系统包括:
中文文本预训练模块,用于对中文文本进行预训练,并获取中文文本的困惑度、混淆集及语言模型;
中文文本输入模块,对输入的文本进行预处理,删除非常用标点以及长度异常的空格,转换中英文标点以及编码格式;
中文拼写检查模块,用于当中文文本中字符有拼写错误时,自动返回不正确字符的位置;
中文拼写纠正模块,通过预训练模块以及中文拼写检查模块定位错误字符位置,使用候选词逐一替换字符,通过语言模型计算通顺度结果,选择最优拼写纠正文本输出。
2.一种中文文本纠错方法,包括上述权利要求1所述的中文文本纠错系统,其特征在于,所述中文文本纠错方法包括以下步骤:
S1:进行中文文本预训练,获取中文文本的困惑度、混淆集及语言模型;
S2:对输入的文本进行预处理,删除非常用标点以及长度异常的空格,转换中英文标点以及编码格式;
S3:将每个字符或标点作为一个位置,以字符为单位做余下处理,当中文文本中有拼写错误时,系统返回不正确字符的位置;
S4:通过错误检测定位所有疑似错误后,使用候选词逐一替换该字符,基于语言模型得到类候选短文本集的通顺度计算结果,最终选择最优拼写纠正文本输出。
3.根据权利要求2所述的中文文本纠错方法,其特征在于,所述S1具体包括:
S11:对中文文本进行自然语言处理,通过困惑度来衡量文本质量的优劣,并计算每个分词上的困惑度;
S12:对每个存在不正确可能的字符,根据发音、形状相似性以及基于统计上的易混淆字符生成一个候选集,最终生成混淆集;
S13:采用联合二元和三元文法的语言模型,获取得分语言模型,计算每个候选句子的得分;
所述S11-S13顺序不固定。
5.根据权利要求3所述的中文文本纠错方法,其特征在于,所述S13具体为:将每个语言模型替换为每个字符串的概率分布P(W),假设P(W)为字符串作为句子的概率,则概率的公式计算如下:
P(W)=P(x1)P(x2|x1)P(x3|x1x2)P(x4|x2x3)......(Bigram)
P(W)=P(x1)P(x2|x1)P(x3|x1x2)P(x4|x1x2x3)......(Trigram)
其中,x1表示第一个词,x2表示第二个词并以此类推;P(x4|x1x2x3)表示前面三个词是x1x2x3的情况下第四个词是x4的概率;x1x2……xn-1作为历史,由马尔科夫假设获得n元语言模型,n为2或3。
6.根据权利要求3所述的中文文本纠错方法,其特征在于,所述S4具体包括:
S41:取得疑似错误字符的替换字符候选集,通过错误检测定位所有疑似错误后,在混淆集中取得所有疑似错字的音似、形似以及常见识别错误候选词;
S42:使用候选字对字符所在位置进行替换,对于可替换的每个字符,枚举混淆集的每个字来替换原始字符,由此获得替换掉疑似错误字符的短文本候选集;
S43:基于S13中的n元语言模型得到候选短文本的通顺度排序结果,选择通顺度得分最高的句子作为最终候选文本。
7.根据权利要求6所述的中文文本纠错方法,其特征在于,所述S43具体为:
S431:以词语为最小计算单元,利用现有中文分词模型进行分词;
S432:基于特定语言模型、在特定语料库中通过计算常用词语相对应出现的频率计算得到通顺度;
S433:如果文本通顺度大于预定义的阈值,则替换原始文本;
S434:如果最终候选文本通顺度小于预定义的阈值,则原始文本是正确的,保留原始文本。
8.根据权利要求2所述的中文文本纠错方法,其特征在于,所述S3具体包括:
S31:去除训练语料中的特殊符号,替换文本中无效字符,所述无效字符为除中文、英文、数字、常用标点以外字符;
S32:长文本分割为短文本,根据特定标点符号以及空格将长文本切分为短文本;
S33:返回疑似不正确字符位置,利用困惑度结合词出现的概率计算每个字符的似然概率值,如果字符的似然概率值低于文本的平均概率值,则判定该字是疑似错别字返回该字符在文本中的位置。
9.一种中文文本纠错装置,其特征在于,所述装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的中文文本纠错的处理程序,所述中文文本纠错的处理程序被所述处理器执行时实现如权利要求2至8中任一项所述的中文文本纠错方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有中文文本纠错的处理程序,所述中文文本纠错的处理程序被处理器执行时实现如权利要求2至8中任一项所述的中文文本纠错方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010414064.1A CN111639489A (zh) | 2020-05-15 | 2020-05-15 | 中文文本纠错系统、方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010414064.1A CN111639489A (zh) | 2020-05-15 | 2020-05-15 | 中文文本纠错系统、方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111639489A true CN111639489A (zh) | 2020-09-08 |
Family
ID=72333239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010414064.1A Pending CN111639489A (zh) | 2020-05-15 | 2020-05-15 | 中文文本纠错系统、方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111639489A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131877A (zh) * | 2020-09-21 | 2020-12-25 | 民生科技有限责任公司 | 一种海量数据下的实时中文文本分词方法 |
CN112131866A (zh) * | 2020-09-25 | 2020-12-25 | 马上消费金融股份有限公司 | 一种分词方法、装置、设备及可读存储介质 |
CN112307771A (zh) * | 2020-10-29 | 2021-02-02 | 平安科技(深圳)有限公司 | 基于情感分析的课程分析方法、装置、设备及介质 |
CN112364782A (zh) * | 2020-11-13 | 2021-02-12 | 深圳振科智能科技有限公司 | 凌空书写的识别方法、装置、设备和介质 |
CN112580310A (zh) * | 2020-12-28 | 2021-03-30 | 河北省讯飞人工智能研究院 | 一种缺失字/词的补全方法及电子设备 |
CN112989805A (zh) * | 2021-03-09 | 2021-06-18 | 北京百度网讯科技有限公司 | 一种文本检测方法、装置、设备及存储介质 |
CN112988962A (zh) * | 2021-02-19 | 2021-06-18 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN113255350A (zh) * | 2021-06-09 | 2021-08-13 | 中航机载系统共性技术有限公司 | 一种体系文件检查和修正方法、装置、设备及介质 |
CN113435187A (zh) * | 2021-06-24 | 2021-09-24 | 湖北大学 | 工业告警信息的文本纠错方法及系统 |
CN113435186A (zh) * | 2021-06-18 | 2021-09-24 | 上海熙瑾信息技术有限公司 | 中文文本纠错系统、方法、装置及计算机可读存储介质 |
CN113556347A (zh) * | 2021-07-22 | 2021-10-26 | 深信服科技股份有限公司 | 一种钓鱼邮件的检测方法、装置、设备及存储介质 |
CN113627158A (zh) * | 2021-07-02 | 2021-11-09 | 南京理工大学 | 基于多表征和多预训练模型的中文拼写纠错方法及装置 |
CN113779970A (zh) * | 2021-09-24 | 2021-12-10 | 北京字跳网络技术有限公司 | 一种文本纠错方法及其相关设备 |
CN114239553A (zh) * | 2021-12-23 | 2022-03-25 | 佳源科技股份有限公司 | 基于人工智能的日志审核方法、装置、设备及介质 |
CN114495910A (zh) * | 2022-04-07 | 2022-05-13 | 联通(广东)产业互联网有限公司 | 文本纠错方法、系统、设备及存储介质 |
WO2022099589A1 (zh) * | 2020-11-13 | 2022-05-19 | 深圳振科智能科技有限公司 | 凌空书写的识别方法、装置、设备和介质 |
CN114548116A (zh) * | 2022-02-25 | 2022-05-27 | 杭州电子科技大学 | 一种基于语序与语义联合分析的中文文本检错方法及系统 |
CN114692609A (zh) * | 2022-04-01 | 2022-07-01 | 南京优速网络科技有限公司 | 一种基于相似度进行中文文本纠错的实现方法 |
CN114881009A (zh) * | 2022-04-26 | 2022-08-09 | 上海师范大学 | 一种基于UniLM的中文语法纠错方法 |
CN116383346A (zh) * | 2023-06-06 | 2023-07-04 | 荣耀终端有限公司 | 检索理解方法和电子设备 |
US11741302B1 (en) | 2022-05-18 | 2023-08-29 | Microsoft Technology Licensing, Llc | Automated artificial intelligence driven readability scoring techniques |
CN118093527A (zh) * | 2024-04-24 | 2024-05-28 | 脉得智能科技(无锡)有限公司 | 一种报告质检方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948152A (zh) * | 2019-03-06 | 2019-06-28 | 北京工商大学 | 一种基于lstm的中文文本语法纠错模型方法 |
CN110276077A (zh) * | 2019-06-25 | 2019-09-24 | 上海应用技术大学 | 中文纠错的方法、装置及设备 |
CN110852087A (zh) * | 2019-09-23 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 中文纠错方法和装置、存储介质及电子装置 |
-
2020
- 2020-05-15 CN CN202010414064.1A patent/CN111639489A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948152A (zh) * | 2019-03-06 | 2019-06-28 | 北京工商大学 | 一种基于lstm的中文文本语法纠错模型方法 |
CN110276077A (zh) * | 2019-06-25 | 2019-09-24 | 上海应用技术大学 | 中文纠错的方法、装置及设备 |
CN110852087A (zh) * | 2019-09-23 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 中文纠错方法和装置、存储介质及电子装置 |
Non-Patent Citations (1)
Title |
---|
秦英: ""问答系统中文输入纠错技术研究"" * |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131877B (zh) * | 2020-09-21 | 2024-04-09 | 民生科技有限责任公司 | 一种海量数据下的实时中文文本分词方法 |
CN112131877A (zh) * | 2020-09-21 | 2020-12-25 | 民生科技有限责任公司 | 一种海量数据下的实时中文文本分词方法 |
CN112131866A (zh) * | 2020-09-25 | 2020-12-25 | 马上消费金融股份有限公司 | 一种分词方法、装置、设备及可读存储介质 |
CN112307771A (zh) * | 2020-10-29 | 2021-02-02 | 平安科技(深圳)有限公司 | 基于情感分析的课程分析方法、装置、设备及介质 |
CN112364782A (zh) * | 2020-11-13 | 2021-02-12 | 深圳振科智能科技有限公司 | 凌空书写的识别方法、装置、设备和介质 |
WO2022099589A1 (zh) * | 2020-11-13 | 2022-05-19 | 深圳振科智能科技有限公司 | 凌空书写的识别方法、装置、设备和介质 |
CN112580310A (zh) * | 2020-12-28 | 2021-03-30 | 河北省讯飞人工智能研究院 | 一种缺失字/词的补全方法及电子设备 |
CN112580310B (zh) * | 2020-12-28 | 2023-04-18 | 河北省讯飞人工智能研究院 | 一种缺失字/词的补全方法及电子设备 |
CN112988962B (zh) * | 2021-02-19 | 2024-05-28 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
WO2022174495A1 (zh) * | 2021-02-19 | 2022-08-25 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN112988962A (zh) * | 2021-02-19 | 2021-06-18 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN112989805A (zh) * | 2021-03-09 | 2021-06-18 | 北京百度网讯科技有限公司 | 一种文本检测方法、装置、设备及存储介质 |
CN113255350A (zh) * | 2021-06-09 | 2021-08-13 | 中航机载系统共性技术有限公司 | 一种体系文件检查和修正方法、装置、设备及介质 |
CN113435186A (zh) * | 2021-06-18 | 2021-09-24 | 上海熙瑾信息技术有限公司 | 中文文本纠错系统、方法、装置及计算机可读存储介质 |
CN113435186B (zh) * | 2021-06-18 | 2022-05-20 | 上海熙瑾信息技术有限公司 | 中文文本纠错系统、方法、装置及计算机可读存储介质 |
CN113435187A (zh) * | 2021-06-24 | 2021-09-24 | 湖北大学 | 工业告警信息的文本纠错方法及系统 |
CN113627158A (zh) * | 2021-07-02 | 2021-11-09 | 南京理工大学 | 基于多表征和多预训练模型的中文拼写纠错方法及装置 |
CN113556347A (zh) * | 2021-07-22 | 2021-10-26 | 深信服科技股份有限公司 | 一种钓鱼邮件的检测方法、装置、设备及存储介质 |
CN113556347B (zh) * | 2021-07-22 | 2023-04-07 | 深信服科技股份有限公司 | 一种钓鱼邮件的检测方法、装置、设备及存储介质 |
WO2023045868A1 (zh) * | 2021-09-24 | 2023-03-30 | 北京字跳网络技术有限公司 | 一种文本纠错方法及其相关设备 |
CN113779970A (zh) * | 2021-09-24 | 2021-12-10 | 北京字跳网络技术有限公司 | 一种文本纠错方法及其相关设备 |
CN114239553A (zh) * | 2021-12-23 | 2022-03-25 | 佳源科技股份有限公司 | 基于人工智能的日志审核方法、装置、设备及介质 |
CN114548116A (zh) * | 2022-02-25 | 2022-05-27 | 杭州电子科技大学 | 一种基于语序与语义联合分析的中文文本检错方法及系统 |
CN114692609A (zh) * | 2022-04-01 | 2022-07-01 | 南京优速网络科技有限公司 | 一种基于相似度进行中文文本纠错的实现方法 |
CN114495910A (zh) * | 2022-04-07 | 2022-05-13 | 联通(广东)产业互联网有限公司 | 文本纠错方法、系统、设备及存储介质 |
CN114881009A (zh) * | 2022-04-26 | 2022-08-09 | 上海师范大学 | 一种基于UniLM的中文语法纠错方法 |
US11741302B1 (en) | 2022-05-18 | 2023-08-29 | Microsoft Technology Licensing, Llc | Automated artificial intelligence driven readability scoring techniques |
CN116383346A (zh) * | 2023-06-06 | 2023-07-04 | 荣耀终端有限公司 | 检索理解方法和电子设备 |
CN116383346B (zh) * | 2023-06-06 | 2023-10-20 | 荣耀终端有限公司 | 检索理解方法和电子设备 |
CN118093527A (zh) * | 2024-04-24 | 2024-05-28 | 脉得智能科技(无锡)有限公司 | 一种报告质检方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639489A (zh) | 中文文本纠错系统、方法、装置及计算机可读存储介质 | |
CN113435186B (zh) | 中文文本纠错系统、方法、装置及计算机可读存储介质 | |
CN103324621A (zh) | 一种泰语文本拼写纠正方法及装置 | |
CN111613214A (zh) | 一种用于提升语音识别能力的语言模型纠错方法 | |
KR20230061001A (ko) | 문서 교정 장치 및 방법 | |
Noaman et al. | Automatic Arabic spelling errors detection and correction based on confusion matrix-noisy channel hybrid system | |
CN112489655A (zh) | 一种特定领域的语音识别文本纠错方法、系统和存储介质 | |
Chen et al. | Integrating natural language processing with image document analysis: what we learned from two real-world applications | |
CN113449514A (zh) | 一种适用于特定垂直领域的文本纠错方法及其纠错装置 | |
Singh et al. | Review of real-word error detection and correction methods in text documents | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
Rana et al. | Detection and correction of real-word errors in Bangla language | |
Hao et al. | SCESS: a WFSA-based automated simplified chinese essay scoring system with incremental latent semantic analysis | |
Sudoh et al. | Incorporating speech recognition confidence into discriminative named entity recognition of speech data | |
Yang et al. | Spell Checking for Chinese. | |
CN117422064A (zh) | 搜索文本纠错方法、装置、计算机设备及存储介质 | |
Chiu et al. | Chinese spell checking based on noisy channel model | |
Kanwar et al. | N-GRAMS SOLUTION FOR ERROR DETECTION AND CORRECTION IN HINDI LANGUAGE. | |
Mekki et al. | COTA 2.0: An automatic corrector of Tunisian Arabic social media texts | |
Naemi et al. | Informal-to-formal word conversion for persian language using natural language processing techniques | |
CN112784536B (zh) | 数学应用题解答模型的处理方法、系统和存储介质 | |
WO2021196835A1 (zh) | 提取时间字符串的方法、装置、计算机设备及存储介质 | |
Cissé et al. | Automatic Spell Checker and Correction for Under-represented Spoken Languages: Case Study on Wolof | |
Irani et al. | A Supervised Deep Learning-based Approach for Bilingual Arabic and Persian Spell Correction | |
Octaviano et al. | A spell checker for a low-resourced and morphologically rich language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200908 |