CN115146636A - 一种中文错别字纠错处理方法、系统及存储介质 - Google Patents
一种中文错别字纠错处理方法、系统及存储介质 Download PDFInfo
- Publication number
- CN115146636A CN115146636A CN202211079853.XA CN202211079853A CN115146636A CN 115146636 A CN115146636 A CN 115146636A CN 202211079853 A CN202211079853 A CN 202211079853A CN 115146636 A CN115146636 A CN 115146636A
- Authority
- CN
- China
- Prior art keywords
- sentence
- word
- characters
- character
- wrongly written
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012937 correction Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000004048 modification Effects 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 238000003672 processing method Methods 0.000 abstract 1
- 238000009499 grossing Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种中文错别字纠错处理方法、系统及存储介质,该方法将目标短句转化为n元组集合,采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分,对初始字级评分修正计算后识别出错别字,实现了对字粒度的文本进行分析纠错的效果,能够在中文错别字纠错时有效减小改变原句意思的概率。此外,本发明利用kenlm语言模型结合同音同形字典,能够直接将存在错别字的目标短句修改为句子信息熵中的最大者对应的句子,无需遍历操作,有效减少了纠错耗时。
Description
技术领域
本发明涉及文字处理技术领域,特别涉及一种中文错别字纠错处理方法、系统及存储介质。
背景技术
随着拼音输入法和语音识别的广泛应用,出现了越来越多因为音似产生的中文文本错误,同时手写输入法的使用会出现大量的形似字。纠错这些中文文本里字、词级别的书写错误是一个具有挑战性的课题。举个例子,给定一个句子“我对这局话进行了一些修改了”,显然“局”是这句话的目标错误,而句尾的‘了”则是个语法错误。
现有的一部分纠错模型会在尝试修改目标错误时改变语义,例如Transformers模型,它们的训练数据集的单元是句子对。Transformers模型直接将原句转化为另一个句子。这可能会将这句话转化为“我对这句话进行了一些修改”、“我对这句话进行了修改”,“我修改了这句话”。这在句子层面的纠错任务上是很好的方法,但是这样会改变句子结构,可能改出病句,同时因为改变词语甚至会改变句子含义,显然这种方法在工业实践上还不够成熟。
另一部分纠错模型通过穷举法验证目标错误并修改,虽然性能优秀,但十分耗时,不太适用于大规模的文本纠错。例如macbert模型,它们的训练数据集的单元是句子。它不改变句子,只是评估句子的合理性给出分数。但是它不具备探测错误位置的能力,所以它要把句子中的字遍历出来,把这些字依次替换成词典中的字。假如这句话有x个字,模型的字典中有y个字,我们就会得到x*y个句子,也就是说完成一个10个字的句子纠错的背后需要模型评估1000-100000个句子的得分,最后选取最好的几个句子作为参考,这是非常耗时的一个过程。
因此,如何在中文错别字纠错时,减小改变原句意思的概率,同时减少耗时,是本领域技术人员需要解决的技术问题。
发明内容
为此,本发明的实施例提出一种中文错别字纠错处理方法、系统及存储介质,以实现在中文错别字纠错时,减小改变原句意思的概率,同时减少耗时。
根据本发明实施例的中文错别字纠错处理方法,包括以下步骤:
步骤1,通过文本过滤器将原始文本中的非中文部分剔除,获得中间文本;
步骤2,通过分割器将中间文本分割为若干个短句,对于其中任一目标短句,将目标短句转化为n元组集合;
步骤3,采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分;
步骤4,采用平均绝对离差对各个文字的初始字级评分进行修正计算,得到各个文字的修改字级评分,并根据各个文字的修改字级评分确定目标短句中的错别字;
步骤5,获取同音同形字典中与错别字对应的替换字,在目标短句中用替换字替换错别字,以得到替换句子集合;
根据本发明实施例的中文错别字纠错处理方法,将目标短句转化为n元组集合,采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分,对初始字级评分修正计算后识别出错别字,实现了对字粒度的文本进行分析纠错的效果,能够在中文错别字纠错时有效减小改变原句意思的概率。此外,本发明利用kenlm语言模型结合同音同形字典,能够直接将存在错别字的目标短句修改为句子信息熵中的最大者对应的句子,无需遍历操作,有效减少了纠错耗时。
另外,根据本发明上述实施例的中文错别字纠错处理方法,还可以具有如下附加的技术特征:
进一步的,步骤4中,采用平均绝对离差对各个文字的初始字级评分进行修正计算的公式为:
进一步的,步骤4中,根据各个文字的修改字级评分确定目标短句中的错别字具体包括:
进一步的,步骤4中,所述方法还包括:
扫描原始文本中是否存在混淆词典中的收纳词;
若是,则在扫描原始文本中将收纳词替换为混淆词典中指定的替换词。
进一步的,所述方法还包括:
进一步的,步骤1具体为:
通过文本过滤器采用正则表达式将原始文本中的非中文部分剔除,获得只含中文部分的中间文本。
本发明还提出一种中文错别字纠错处理系统,其中,所述系统包括:
文本剔除模块,用于:
通过文本过滤器将原始文本中的非中文部分剔除,获得中间文本;
文本分割模块,用于:
通过分割器将中间文本分割为若干个短句,对于其中任一目标短句,将目标短句转化为n元组集合;
第一计算模块,用于:
采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分;
第二计算模块,用于:
采用平均绝对离差对各个文字的初始字级评分进行修正计算,得到各个文字的修改字级评分,并根据各个文字的修改字级评分确定目标短句中的错别字;
第一替换模块,用于:
获取同音同形字典中与错别字对应的替换字,在目标短句中用替换字替换错别字,以得到替换句子集合;
第二替换模块,用于:
语句修改模块,用于:
本发明还提出一种存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上所述的中文错别字纠错处理方法。
附图说明
本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明提出的中文错别字纠错处理方法的流程图;
图2为本发明提出的中文错别字纠错处理系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明一实施例提出的中文错别字纠错处理方法,包括以下步骤1~步骤7:
步骤1,通过文本过滤器将原始文本中的非中文部分剔除,获得中间文本。
具体的,通过文本过滤器采用正则表达式将原始文本中的非中文部分剔除,获得只含中文部分的中间文本。
步骤2,通过分割器将中间文本分割为若干个短句,对于其中任一目标短句,将目标短句转化为n元组集合。
本实施例中,以标点符号为分割符将中间文本分割为若干个短句。
步骤3,采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分。
本实施例中,对于集合中的元素“12”, “23”, “34”,其n元组信息熵分别为,将这些信息熵首尾延伸得到列表,对列表中相邻的求平均值得到:,它们依次代表目标短句“1234”中字“1”,“2”,“3”,“4”的初始字级评分。如此实现了将n元组评分依据权重比例转化为字级评分的目的,该评分是一个相对值,在实际上错字的评分大概率会比其他汉字的评分要低。
步骤4,采用平均绝对离差对各个文字的初始字级评分进行修正计算,得到各个文字的修改字级评分,并根据各个文字的修改字级评分确定目标短句中的错别字。
其中,采用平均绝对离差对各个文字的初始字级评分进行修正计算的公式为:
通过平均绝对离差对各个文字的初始字级评分进行修正计算,可以避免极端值对决策结果的过度影响。
步骤5,获取同音同形字典中与错别字对应的替换字,在目标短句中用替换字替换错别字,以得到替换句子集合。
此外,作为一个具体示例,所述方法还包括:
扫描原始文本中是否存在混淆词典中的收纳词;
若是,则在扫描原始文本中将收纳词替换为混淆词典中指定的替换词。
此外,本实施例中,kenlm语言模型训练过程分为增加标签、计数、调整计数、平滑处理四步。
第一步,增加标签。在句首加上开始符,在句尾加上结束符结果如下:
第二步,计数。假如要建立一个的n元组语言模型,首先会将上述处理过的句子中所有n元组提取出来并统计其出现的次数,此计数结果表示为f。
第三步,调整计数。由于语言中存在许多组合词,如果只是简单的把上述提取的字符计数会导致某些字计数权重严重不符合该词在实际语言应用中的概率。拿“饕餮”这个词举例,‘饕’和‘餮’都很难以其他方式出现。如果直接计数,“饕”字单独的合理性甚至可能超过“饕餮”这个词的合理。这显然是不符合直觉的,通常认为是汉字一般是成组出现的,长字符的出现应该更合理,所以减少这类长度短于n的字符的权重十分有必要。
具体思路如下:
1)假定短字符的权重只受所接字符的种数影响。具体就是:如有“纽约”,“契约”两词,即‘约’前面可以接两种字符,这决定了“约”的权重。但“纽”字的权重不受“纽约”的影响,而与“X纽”的种类有关。
2)统计出所有短字符接上其他短字符组成长字符的种类,即短字符的调整计数值。
如此保留了长字符的计数值,根据短字符适用的广泛性不同程度的减小了短字符的计数值,好处在于长字符有了更高的权重,短字符减少权重的同时进行了分类处理。
第四步,平滑处理。虽然假定语料库的统计结果能代表语言统计结果,但是语料库不可能包括所有词语,这其中包括根本不存在的词和没统计到的词。这些词在模型中概率为零,但是在计算过程中零的出现是不好处理的。平滑处理就是将调整一些极端词的概率,包括出现次数极高和极低的。
本实施例中的平滑方法为修正的 Kneser-Ney 平滑方法,其操作分为四步:
此参数可以非线性的反映对应词。
这里采用discount公式来计算它:
2)计算字符的伪概率。
公式为:
3)计算退回权值。
上述操作计算得出的已知字符伪概率相较于统计概率更为平滑,但是这并没有解决未知字符概率为零的问题。退回权值策略解决的是长字符多元组不存在于字典中,但其组成部分都存在于字典中的情况。退回权值策为利用低阶信息估计异常的高阶信息,公式如下:
4)插值操作。
由于伪概率之和小于1,插值操作的思想为将总概率补全为一的同时赋予unk的字符一定的概率值。
该操作解决了字符unk概率为零问题,并进一步对数据进行平滑处理。公式如下(此公式为递归公式):
k阶插值:
其中,表示选中字符的退回权值,表示选中字符的伪概率,表示词汇表的长度,表示空字符,表示选中字符相对于选中字符的伪概率,表示n-1元组集合中第个元素,表示n-1元组集合中第个元素,表示调整计数操作,表示对应的伪概率,表示字符长度,的取值为1或2或3。
综上,根据本实施例提供的中文错别字纠错处理方法,将目标短句转化为n元组集合,采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分,对初始字级评分修正计算后识别出错别字,实现了对字粒度的文本进行分析纠错的效果,能够在中文错别字纠错时有效减小改变原句意思的概率,此外,本发明利用kenlm语言模型结合同音同形字典,能够直接将存在错别字的目标短句修改为句子信息熵中的最大者对应的句子,无需遍历操作,有效减少了纠错耗时。
请参阅图2,本发明还提出一种中文错别字纠错处理系统,其中,所述系统包括:
文本剔除模块,用于:
通过文本过滤器将原始文本中的非中文部分剔除,获得中间文本;
文本分割模块,用于:
通过分割器将中间文本分割为若干个短句,对于其中任一目标短句,将目标短句转化为n元组集合;
第一计算模块,用于:
采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分;
第二计算模块,用于:
采用平均绝对离差对各个文字的初始字级评分进行修正计算,得到各个文字的修改字级评分,并根据各个文字的修改字级评分确定目标短句中的错别字;
第一替换模块,用于:
获取同音同形字典中与错别字对应的替换字,在目标短句中用替换字替换错别字,以得到替换句子集合;
第二替换模块,用于:
语句修改模块,用于:
本发明还提出一种存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上所述的中文错别字纠错处理方法。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通讯、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (10)
1.一种中文错别字纠错处理方法,其特征在于,所述方法包括如下步骤:
步骤1,通过文本过滤器将原始文本中的非中文部分剔除,获得中间文本;
步骤2,通过分割器将中间文本分割为若干个短句,对于其中任一目标短句,将目标短句转化为n元组集合;
步骤3,采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分;
步骤4,采用平均绝对离差对各个文字的初始字级评分进行修正计算,得到各个文字的修改字级评分,并根据各个文字的修改字级评分确定目标短句中的错别字;
步骤5,获取同音同形字典中与错别字对应的替换字,在目标短句中用替换字替换错别字,以得到替换句子集合;
5.根据权利要求1所述的中文错别字纠错处理方法,其特征在于,步骤4中,所述方法还包括:
扫描原始文本中是否存在混淆词典中的收纳词;
若是,则在扫描原始文本中将收纳词替换为混淆词典中指定的替换词。
8.根据权利要求1所述的中文错别字纠错处理方法,其特征在于,步骤1具体为:
通过文本过滤器采用正则表达式将原始文本中的非中文部分剔除,获得只含中文部分的中间文本。
9.一种中文错别字纠错处理系统,其特征在于,所述系统包括:
文本剔除模块,用于:
通过文本过滤器将原始文本中的非中文部分剔除,获得中间文本;
文本分割模块,用于:
通过分割器将中间文本分割为若干个短句,对于其中任一目标短句,将目标短句转化为n元组集合;
第一计算模块,用于:
采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分;
第二计算模块,用于:
采用平均绝对离差对各个文字的初始字级评分进行修正计算,得到各个文字的修改字级评分,并根据各个文字的修改字级评分确定目标短句中的错别字;
第一替换模块,用于:
获取同音同形字典中与错别字对应的替换字,在目标短句中用替换字替换错别字,以得到替换句子集合;
第二替换模块,用于:
语句修改模块,用于:
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述权利要求1至8任意一项所述的中文错别字纠错处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211079853.XA CN115146636A (zh) | 2022-09-05 | 2022-09-05 | 一种中文错别字纠错处理方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211079853.XA CN115146636A (zh) | 2022-09-05 | 2022-09-05 | 一种中文错别字纠错处理方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115146636A true CN115146636A (zh) | 2022-10-04 |
Family
ID=83415716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211079853.XA Pending CN115146636A (zh) | 2022-09-05 | 2022-09-05 | 一种中文错别字纠错处理方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115146636A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134952A (zh) * | 2019-04-29 | 2019-08-16 | 华南师范大学 | 一种错误文本拒识方法、装置及存储介质 |
CN110276077A (zh) * | 2019-06-25 | 2019-09-24 | 上海应用技术大学 | 中文纠错的方法、装置及设备 |
CN111753531A (zh) * | 2020-06-28 | 2020-10-09 | 平安科技(深圳)有限公司 | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 |
CN111859921A (zh) * | 2020-07-08 | 2020-10-30 | 金蝶软件(中国)有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN111984845A (zh) * | 2020-08-17 | 2020-11-24 | 江苏百达智慧网络科技有限公司 | 网站错别字识别方法和系统 |
US20220050876A1 (en) * | 2020-08-14 | 2022-02-17 | Salesforce.Com, Inc. | Systems and methods for query autocompletion |
-
2022
- 2022-09-05 CN CN202211079853.XA patent/CN115146636A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134952A (zh) * | 2019-04-29 | 2019-08-16 | 华南师范大学 | 一种错误文本拒识方法、装置及存储介质 |
CN110276077A (zh) * | 2019-06-25 | 2019-09-24 | 上海应用技术大学 | 中文纠错的方法、装置及设备 |
CN111753531A (zh) * | 2020-06-28 | 2020-10-09 | 平安科技(深圳)有限公司 | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 |
CN111859921A (zh) * | 2020-07-08 | 2020-10-30 | 金蝶软件(中国)有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
US20220050876A1 (en) * | 2020-08-14 | 2022-02-17 | Salesforce.Com, Inc. | Systems and methods for query autocompletion |
CN111984845A (zh) * | 2020-08-17 | 2020-11-24 | 江苏百达智慧网络科技有限公司 | 网站错别字识别方法和系统 |
Non-Patent Citations (9)
Title |
---|
KENNETH HEAFIELD ET AL: "Scalable Modified Kneser-Ney Language Model Estimation", 《ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
匿名: "Kenlm中使用的Modified Kneser-Ney平滑方法和计算过程推演", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/406029473》 * |
匿名: "传统语言模型+KenLMu实现", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/270516015》 * |
匿名: "图解N-gram语言模型的原理-以kenlm为例", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/63884335》 * |
苏剑波 等: "《应用模式识别技术导论 人脸识别与语音识别》", 31 May 2001, 上海:上海交通大学出版社 * |
苑少鹏: "基于n-gram和依存句法分析的中文文本纠错研究", 《中国优秀硕士学位论文全文数据库电子期刊 信息科技辑》 * |
袁怡: "基于自然语言处理的行政案件快速办理系统的设计与实现", 《中国优秀硕士学位论文全文数据库电子期刊 社会科学I辑》 * |
高甲伟: "作文句子错误识别系统的设计与实现", 《中国优秀硕士学位论文全文数据库电子期刊 社会科学II辑》 * |
龚静: "《中文文本聚类研究》", 31 March 2012, 北京:中国传媒大学出版社 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Duan et al. | Online spelling correction for query completion | |
JP4652737B2 (ja) | 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、 | |
US9720903B2 (en) | Method for parsing natural language text with simple links | |
CN101131706A (zh) | 一种查询修正方法及系统 | |
CN111046652A (zh) | 文本纠错方法、文本纠错装置、存储介质和电子设备 | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
CN103678282A (zh) | 一种分词方法及装置 | |
US8660969B1 (en) | Training dependency parsers by jointly optimizing multiple objectives | |
JP5809381B1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
CN115965009A (zh) | 文本纠错模型的训练与文本纠错方法、设备 | |
CN112232055A (zh) | 一种基于拼音相似度与语言模型的文本检测与纠正方法 | |
CN117744633B (zh) | 一种文本纠错方法、装置及电子设备 | |
JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
CN114429136A (zh) | 一种文本纠错方法 | |
CN116090441B (zh) | 一种融合局部语义特征和全局语义特征的中文拼写纠错方法 | |
CN115146636A (zh) | 一种中文错别字纠错处理方法、系统及存储介质 | |
US20200097549A1 (en) | Semantic processing method, electronic device, and non-transitory computer readable recording medium | |
CN110929514A (zh) | 文本校对方法、装置、计算机可读存储介质及电子设备 | |
CN115994544A (zh) | 平行语料筛选方法、平行语料筛选设备和可读存储介质 | |
CN115688748A (zh) | 问句纠错方法、装置、电子设备及存储介质 | |
CN114528824A (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN113269192A (zh) | 一种基于词匹配和语法匹配的ocr后处理方法 | |
JP2009176148A (ja) | 未知語判定システム、方法及びプログラム | |
Park et al. | Self-organizing n-gram model for automatic word spacing | |
CN113807081B (zh) | 基于上下文的聊天文本内容纠错方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221004 |
|
RJ01 | Rejection of invention patent application after publication |