CN110489760B

CN110489760B - 基于深度神经网络文本自动校对方法及装置

Info

Publication number: CN110489760B
Application number: CN201910873397.8A
Authority: CN
Inventors: 王璐; 张健; 汪元; 韩伟; 陈运文; 纪达麒
Original assignee: Daguan Data Co ltd
Current assignee: Daguan Data Co ltd
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2023-09-22
Anticipated expiration: 2039-09-17
Also published as: CN110489760A

Abstract

本申请公开了一种基于深度神经网络文本自动校对方法及装置，方法通过获取语料，并对语料进行分词，得到若干第一词组；根据每个第一词组的易混淆词，自动生成每个第一词组的混淆集；获取训练集，并通过训练集对N‑gram模型进行训练和对BiLSTM‑CRF模型进行训练；接收第一文本，并对第一文本进行预处理得到第二文本；通过训练后的N‑gram模型和BiLSTM‑CRF模型以及混淆集对第二文本进行文本查错和文本纠错。达到了自动生成基于音似词、形似词和同义词的混淆集的目的，从而实现了基于混淆集和BiLSTM‑CRF模型的方法既引入上下文词向量对目标词进行校对，又通过混淆集对方法进行一些限制的效果；且结合N‑gram模型和BiLSTM‑CRF模型进行校对，比单一模型校对效果都好。

Description

基于深度神经网络文本自动校对方法及装置

技术领域

本申请涉及文本识别及校对技术领域，具体而言，涉及一种基于深度神经网络文本自动校对方法及装置。

背景技术

文本校对指对文本进行查错并提出修改建议，是出版工作的关键环节，在各个行业都有广泛的应用。随着信息技术和出版业电子化的迅速发展，文本校对的工作量大大增加。目前的文本校对工作大部分还采用人工校对的方法，校对工作强度大、成本高、效率低。同时，在如今信息爆炸的时代，媒体的时效性越来越重要，各家媒体都需要第一时间出稿，这对于人工校对的及时性、准确性、全面性是极大的挑战，人工校对的方式已无法适应迅速增长的电子文本数量。

传统的文本自动校对技术大多分为查错和纠错两部分进行，常见的查错方法有基于规则的方法、基于统计的方法和规则与统计相结合的方法，常见的纠错方法则是结合混淆集和查错模型开展。在申请号为201710947261.8的中国专利申请中，提供一种中文交互式问答文本中错别字的识别和纠错的方法及装置，根据依存分析和上下邻接词共现概率建立局部错误模型和全局错误模型进行查错，建立基于音近词和形近词的混淆集词典，根据目标词的混淆词对目标词进行改写，比较改写后的概率进行纠错。基于传统统计模型的方法主要依据局部上下文特征，没有很好的利用词与词间的关系，当上下文共现组合在训练集没有出现时，是否错误无法判断，同时纠错依赖混淆集，当错误不属于混淆集里的词，错误就无法召回。

近两年来，随着相关数据集规模的逐渐增大以及深度学习技术的不断成熟，开始出现了基于seq2seq模型的端到端文本校对。在申请号为201710618374.3的中国专利申请中，公开了一种基于循环神经网络的seq2seq文本纠正方法。在该文本纠正系统中，先利用编码规则确定待纠正文本对应的特征向量，再将特征向量输入文本纠正模型通过解码网络输出与待纠正文本对应的标准文本。该方法的编码网络和解码网络均为循环神经网络，利用词向量直接实现了一个端到端的文本纠正，涵盖了查错和纠错两部分，且不受混淆集的限制。但由于文本校对过程中完全通过上下文词向量判断，输入输出都是序列，可能会输出一些语义奇怪且无法解释的句子。比如对正确的句子“在与韩国队的金牌争夺战中”，模型会输出如“在与韩国队的金牌金牌中”这种不符合语义的结果。所以该方法虽然引入了词向量，但是由于端到端，不可控性较强。

此外，针对于中文文本翻译还存在以下多个难点：

难点1中文语法表达多样：

英文有比较严格的语法规则，规范时态、单复数等语言规则，所以对于英文文本，可以基于一些预先定义的规则来进行校对；但中文的语法特征比较少，语言表达比较随意，往往需要大规模的语料库学习，对模型学习能力也有更高的要求；

难点2要结合长短距离上下文词判断：

自动校对往往需要依据目标词的上下文进行考察；但有时候发生错误的词符合局部语言规则，但与全局语言规则发生冲突，所以需要考虑该词与长距离的词是否搭配进行判断；

难点3现有的自动校对方法没有很好的结合词向量：

基于规则的方法查错准确率比较高，但是错误规则模版比较局限，而中文错误形态多变，因此规则很难覆盖所有错误，从而导致使用规则查错的召回率很低，且只能通过归纳更多的错误规则模版使召回率提高，十分机械；基于传统统计模型的方法主要依据局部上下文特征，没有很好的利用词与词间的关系，当上下文共现组合在训练集没有出现时，是否错误无法判断，因此还需要大规模语料训练，同时纠错依赖混淆集，当错误不属于混淆集里的词，错误就无法召回；基于深度学习不需要设置混淆集，利用了词向量来代替词，但由于文本校对过程中完全通过上下文词向量判断，输入输出都是序列，不可控性较强，可能会输出一些语义奇怪且无法解释的句子。

针对相关技术中存在的若干个问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种基于深度神经网络文本自动校对方法及装置，以解决相关技术中存在的至少一个问题。

为了实现上述目的，根据本申请的一个方面，提供了一种基于深度神经网络文本自动校对方法。

根据本申请的基于深度神经网络文本自动校对方法包括：

获取语料，并对语料进行分词，得到若干第一词组；

根据每个第一词组的易混淆词，自动生成每个第一词组的混淆集；其中，混淆集中包括一个或多个易混淆词；

获取训练集，并通过训练集对N-gram模型进行训练和对BiLSTM-CRF模型进行训练；

接收第一文本，并对第一文本进行预处理得到第二文本；

通过训练后的N-gram模型和BiLSTM-CRF模型以及混淆集对第二文本进行文本查错和文本纠错。

进一步的，如前述的基于深度神经网络文本自动校对方法，根据每个第一词组的易混淆词，自动生成每个第一词组的混淆集，包括：

确定与每个第一词组中一个或多个字的字形相似的错别字构成的字形易混淆词；

确定与每个第一词组中一个或多个字的音相似的错别字构成的字音易混淆词。

进一步的，如前述的基于深度神经网络文本自动校对方法，通过训练集对N-gram模型进行训练，包括：

统计每个第一词组的上邻接二元概率以及下邻接二元概率，并记w_i-1为词组w_i的上邻接词组，w_i+1为词组w_i的下邻接词组；

上邻接二元概率P_L(w_i|w_i-1)计算方法如下：

下邻接二元概率P_R(w_i|w_i-1)计算方法如下：

其中，count(w_i-1w_i)，count(w_i-1)，count(w_iw_i+1)，count(w_i+1)分别为w_i-1w_i，w_i-1，w_iw_i+1，w_i+1的出现频次；

将上邻接二元概率P_L(w_i|w_i-1)和下邻接二元概率P_R(w_i|w_i-1)加权组合得到二元概率为：

P(w_i│w_i-1,w_i+1)＝λ₁P_L(w_i|w_i-1)+(1-λ₁)P_R(w_i|w_i-1)；

其中，λ₁是调节上下邻接二元概率重要性的参数。

进一步的，如前述的基于深度神经网络文本自动校对方法，对BiLSTM-CRF模型进行训练，包括：

将训练集中的语句进行拆分，得到分词后的文本；文本中包括语句中的所有第二词组，并按序排列；

通过词向量以及词性特征，确定语句中所有第二词组的结构联系，并输出由词向量和词性特征拼接而成的向量特征；

通过BiLSTM将向量特征按顺序序列和逆序序列分别得到顺序隐藏状态和逆序隐藏状态，以分别捕获前文和后文的信息；然后将顺序隐藏状态和逆序隐藏状态相互连接并作为最终输出；

根据连接后的顺序隐藏状态和逆序隐藏状态确定每个第二词组标记为正确时概率和标记为错误时概率，并输入CRF模型；

通过CRF模型对每个第二词组标注的概率进行优化处理，获得最优的全局标注序列，并输出每个第二词组的标记以及置信概率。

进一步的，如前述的基于深度神经网络文本自动校对方法，对第一文本进行预处理，包括：

对第一文本进行分词，得到由多个第三词组按序排列的第一文本；

再对分词后的第一文本中的第三词组进行替换并得到由第四词组构成的第二文本；其中，替换包括：实体替换、数字替换和标点替换；实体替换指的是对文本中的词组进行实体标注，并对文本中的人名词、地名词和日期词分别采用一个固定人名词、地名词和日期词来替换；对数字替换是将所有的0-9数字替换为一个，同时将多位小数点只保留一位；标点替换是将句子结束词替换为统一的标点符号。

进一步的，如前述的基于深度神经网络文本自动校对方法，第二文本进行文本查错，包括：

通过N-gram模型对第二文本中每个句子的每个第四词组进行判断，并计算每个第四词组的二元概率；

当二元概率小于第一阈值时，判断该第四词组是错误词；并保留N-gram模型判断为错误词，以及二元概率为0的词组的位置和二元概率为0的词组的二元概率；

在BiLSTM-CRF模型中输入第二文本中的句子进行分词后的每个第四词组和第四词组词性标注的结果，并输出每个第四词组标注为正确词的置信概率。

进一步的，如前述的基于深度神经网络文本自动校对方法，对第二文本进行文本纠错，包括：

在第二文本中存在二元概率为0的目标词时，对目标词对应的混淆集中的易混淆词一一替换，并计算得到二元概率最高的易混淆词作为目标词的第一候选词；其中，目标词为通过N-gram模型进行二元概率的第四词组；

在第一候选词的二元概率也为0的时候，通过BiLSTM-CRF模型进行纠错判断；反之，通过N-gram模型进行纠错判断；

当第二文本中存在N-gram模型判断得到的错误词时，对错误词对应的混淆集中的易混淆词一一替换，并计算得到二元概率最高的易混淆词作为错误词的第二候选词；

如果第二候选词的二元概率不为0，通过BiLSTM-CRF模型进行纠错判断；反之，通过N-gram模型进行纠错判断。

进一步的，如前述的基于深度神经网络文本自动校对方法，通过BiLSTM-CRF模型进行纠错判断，包括：

通过BiLSTM-CRF模型将混淆集中的易混淆词的一一替换后，输出混淆词标注为正确词的置信概率；

取置信概率最高的混淆词作为候选词，比较候选词以及目标词或错误词的置信概率；

如果候选词的置信概率与目标词或错误词的置信概率之差大于第二阈值，则目标词或错误词是错误的，正确的结果是候选词，反之判定目标词或错误词是正确的；其中，第二阈值为0.5。

进一步的，如前述的基于深度神经网络文本自动校对方法，通过N-gram模型进行纠错判断，包括：

通过N-gram模型分别比较第一候选词与目标词或第二候选词与错误词的二元概率；

如果第一候选词与目标词的二元概率或第二候选词与错误词的二元概率大于第三阈值；则判断目标词或错误词是错误的，正确的结果是候选词；反之判定目标词是正确的；其中，第三阈值为0。

为了实现上述目的，根据本申请的另一方面，提供了一种基于深度神经网络文本自动校对装置。

根据本申请的基于深度神经网络文本自动校对装置包括：

语料获取单元，用于获取语料，并对语料进行分词，得到若干第一词组；

混淆集确定单元，用于根据每个第一词组的易混淆词，自动生成每个第一词组的混淆集；其中，混淆集中包括一个或多个易混淆词；

训练单元，用于获取训练集，并通过训练集对N-gram模型进行训练和对BiLSTM-CRF模型进行训练；

预处理单元，用于接收第一文本，并对第一文本进行预处理得到第二文本；

查错纠错单元，用于通过训练后的N-gram模型和BiLSTM-CRF模型以及混淆集对第二文本进行文本查错和文本纠错。

在本申请实施例中，采用基于深度神经网络文本自动校对方法及装置的方式，方法通过获取语料，并对语料进行分词，得到若干第一词组；根据每个第一词组的易混淆词，自动生成每个第一词组的混淆集；其中，混淆集中包括一个或多个易混淆词；获取训练集，并通过训练集对N-gram模型进行训练和对BiLSTM-CRF模型进行训练；接收第一文本，并对第一文本进行预处理得到第二文本；通过训练后的N-gram模型和BiLSTM-CRF模型对第二文本进行文本查错和文本纠错。达到了自动生成基于音似词、形似词和同义词的混淆集的目的，从而实现了基于混淆集和BiLSTM-CRF模型的方法既引入上下文词向量对目标词进行校对，又通过混淆集对方法进行一些限制，弥补传统的校对方法和现有的基于seq2seq的自动校对模型的一些缺陷；基于N-gram模型和基于BiLSTM-CRF模型结合进行校对，比单一模型的校对效果都好的技术效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请一种实施例的方法流程示意图；

图2是根据本申请一种实施例的处理流程示意图；

图3是根据本申请一种实施例的BiLSTM-CRF模型训练方法示意图；

图4是根据本申请一种实施例的装置的功能模块连接结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了实现上述目的，根据本申请的一个方面，提供了一种基于深度神经网络文本自动校对方法。如图1和图2所示，该方法包括如下的步骤S1至步骤S5：

S1.获取语料，并对语料进行分词，得到若干第一词组。

具体的，语料即为语言材料，语言材料可以是句子或文章；且分词为将句子或文章分为一个个按照原文序列进行排序的词组；举例的，当语料为“我们从小接受爱国主义教育”时，得到的第一词组为“我们从小接收爱国主义教育”共五个。

S2.根据每个第一词组的易混淆词，自动生成每个第一词组的混淆集；其中，混淆集中包括一个或多个易混淆词。

具体的，易混淆词为目标词(此实施例中的第一词组)音相似或形相似的词组，由于一个词组可能存在2个或以上的字数，因此当至少有一个字与目标词中的对应的字构成相似就可以作为易混淆词，所有易混淆词的集合便为混淆集。

S3.获取训练集，并通过训练集对N-gram模型进行训练和对BiLSTM-CRF模型进行训练。

具体地，通过对N-gram模型和BiLSTM-CRF模型进行训练，可以使N-gram模型和BiLSTM-CRF模型具有更好的查错和纠错的能力。

S4.接收第一文本，并对第一文本进行预处理得到第二文本。

具体的，第一文本为需要进行查错及纠错的文本，预处理可以包括：分词、实体替换、数字替换和标点替换等步骤，使得到的第二文本更易于进行后续的查错和纠错的处理。

S5.通过训练后的N-gram模型和BiLSTM-CRF模型以及混淆集对第二文本进行文本查错和文本纠错。

进一步的，步骤S1至S3可以通过离线流程进行实现，步骤S4和S5可以通过线上流程进行处理；因而可以最大化的利用线下计算机以及线上服务器的处理能力，提供最好的处理效率。

具体的，音相似主要是计算词与词之间的拼音相似度。根据语料分词后，读入每个词的拼音，通过编辑距离来计算词与词之间的拼音相似度。编辑距离是两个字符串之间，由一个转换成另外一个所需要的最少操作次数，允许的操作包括字符替换，增加字符，减少字符，颠倒字符。例如，“微信”的拼音“weixin”和“威胁”的拼音“weixie”的编辑距离是1，“微信”的拼音“weixin”和“微笑”的拼音“weixiao”的编辑距离是2。

形相似主要是计算词与词之间的字形相似度。我们通过类似编辑距离来计算字形间的相似程度，字的相似度相加得到词的相似度，不过定义的操作和原始的编辑距离定义方法不同，此时的字到字之间的转换操作是在笔顺层面的，允许的操作包括笔顺替换，增加笔顺和减少笔顺。譬如说，“口”字的笔画顺序是“竖横折横”，“日”字的笔画顺序是“竖横折横横”,“口”字可以通过增加笔画“横”来转换成“日”字，所以编辑距离为1。

在计算两个字的字形相似程度时，先对每种笔画都定义为单个字母，包括点、横、竖、撇、捺、横折、横撇、撇折、横折折、横折钩、横折弯钩、横折折撇等。然后根据编号对所有汉字构建笔顺的词典，譬如“日”表示为“fcjj”，“口”字表示为“fcj”，其中“f”表示竖，“c”表示横折，“j”表示横。

语料中的字数量远小于分词的结果，所以先计算字的形近字，对每一个分词的词，替换词中的每个字进行组合，假如替换后的词也在语料中出现了，将替换后的词作为目标词的混淆集。比如“溶化”和“熔化”的编辑距离是3。

最后再添加一些同义词扩展混淆集，比如《同义词词林》中归纳好的同义词。

在一些实施例中，如前述的基于深度神经网络文本自动校对方法，通过训练集对N-gram模型进行训练，包括：

上邻接二元概率P_L(w_i|w_i-1)计算方法如下：

下邻接二元概率P_R(w_i|w_i-1)计算方法如下：

P(w_i│w_i-1,w_i+1)＝λ₁P_L(w_i|w_i-1)+(1-λ₁)P_R(w_i|w_i-1)；

其中，λ₁是调节上下邻接二元概率重要性的参数。优选的，当认为上邻接二元概率P_L(w_i|w_i-1)和下邻接二元概率P_R(w_i|w_i-1)同样重要的时候，λ₁取0.5。

在一些实施例中，如前述的基于深度神经网络文本自动校对方法，对BiLSTM-CRF模型进行训练，包括：

具体的，BiLSTM-CRF模型的结构框架图如图3所示，输入的是分好词的文本，举例的，当原语句为“我们从小接受爱国主义教育”时，得到的分好词的文本为“我们从小接收爱国主义教育”共五个，输出的是每个词的标注结果及置信概率，分别采用“O”、“W”对正确词和错误词进行标记。

BiLSTM-CRF模型主要分为三个模块：向量特征，BiLSTM模块和CRF模块。首先是向量特征层，输入文本分词后的结果，在词向量的基础上，引入词性特征，能进一步发现语句中词语的结构联系，所以输出的词向量和词性特征拼接而成的向量特征。第二层是BiLSTM层，文本校对的结果取决于目标词的上下文，前后词对预测标签都很重要，所以采用双向LSTM(简称为BiLSTM)将输入的向量特征按顺序序列和逆序序列呈现2个单独的隐藏状态，以分别捕获过去和将来的信息，然后将连接2个隐藏状态作为最终输出。最后一层是CRF层，输入的是BiLSTM层输出的每个词标注的概率，CRF模型对BiLSTM模块的输出结果进行优化处理，获得最优的全局标注序列，输出结果就是文本中每个词的标记以及置信概率。具体的实现方法本领域技术人员在根据上述描述后即可复制重现，在此不进行赘述。

在一些实施例中，如前述的基于深度神经网络文本自动校对方法，对第一文本进行预处理，包括：

因而，由于具体的人名或地名大多不能构成一个词语，因此通过进行纠错后大概率会被判定为错误词，因而经过实体替换后，可以将该类别的词语统一修改为同一个词，在将改词默认设为正确的词的情况下，便不会出现将其误认为错误词的情况；此外，由于数字和标点同样不是通过系统纠错能够实现的，具体的信息只有用户自身知道，因此只能通过用户自身进行判断才能识别纠错。

在一些实施例中，如前述的基于深度神经网络文本自动校对方法，第二文本进行文本查错，包括：

当二元概率小于第一阈值时，判断该第四词组是错误词；并保留N-gram模型判断为错误词，以及二元概率为0的词组的位置和二元概率为0的词组的二元概率；优选的，第一阈值为0.05；

例如对“火山暴发了。”这句话，先进行分词，得到“火山暴发了。”，对于“暴发”一词，计算出“暴发”出现在“火山”之后和“了”之前的二元概率小于第一阈值，认为“暴发”一词是错误的。

在一些实施例中，如前述的基于深度神经网络文本自动校对方法，对第二文本进行文本纠错，包括：

在一些实施例中，如前述的基于深度神经网络文本自动校对方法，通过BiLSTM-CRF模型进行纠错判断，包括：

通过BiLSTM-CRF模型将混淆集中的易混淆词的一一替换后，输出混淆词和标注为正确词的置信概率；

具体的，将易混淆词逐一替换到目标词所在的位置，并结合原文得到混淆词标注为正确词的置信概率；

具体的，此处的目标词或错误词并不是100％错误的，且标注为错的置信概率最高的候选词也不意味着一定正确，因此将候选词与目标词，或候选词与错误词相互进行置信概率比较，并选择置信概率较高的词组作为正确词，可以进一步提高相应的判断的正确率。

例如还是对“火山暴发了。”这句话，由于“暴发”出现在“火山”之后和在“了”之前的二元概率不为0，而第一候选词“爆发”出现在“火山”中后和在“了”之前的二元概率也不为0，通过BiLSTM-CRF模型得到“爆发”和“暴发”为正确词的概率，认为“暴发”是错误的，正确的应该是“爆发”。

在一些实施例中，如前述的基于深度神经网络文本自动校对方法，通过N-gram模型进行纠错判断，包括：

同样的，此处的目标词或错误词并不是100％错误的，且选择出的第一候选词或第二候选词也不意味着一定正确，因此将第一候选词与目标词或第二候选词与错误词的二元概率比较，并选择二元概率较高的词组作为正确词，可以进一步提高相应的判断的正确率。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，还提供了一种用于实施上述基于深度神经网络文本自动校对方法的基于深度神经网络文本自动校对装置，如图4所示，该装置包括：

语料获取单元1，用于获取语料，并对语料进行分词，得到若干第一词组；

混淆集确定单元2，用于根据每个第一词组的易混淆词，自动生成每个第一词组的混淆集；其中，混淆集中包括一个或多个易混淆词；

训练单元3，用于获取训练集，并通过训练集对N-gram模型进行训练和对BiLSTM-CRF模型进行训练；

预处理单元4，用于接收第一文本，并对第一文本进行预处理得到第二文本；

查错纠错单元5，用于通过训练后的N-gram模型和BiLSTM-CRF模型以及混淆集对第二文本进行文本查错和文本纠错。

具体的，本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述，此处不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于深度神经网络文本自动校对方法，其特征在于，包括：

获取语料，并对所述语料进行分词，得到若干第一词组；

根据每个所述第一词组的易混淆词，自动生成每个所述第一词组的混淆集；其中，所述混淆集中包括一个或多个所述易混淆词；

获取训练集，并通过所述训练集对N-gram模型进行训练和对BiLSTM-CRF模型进行训练；

接收第一文本，并对所述第一文本进行预处理得到第二文本；

通过训练后的所述N-gram模型和BiLSTM-CRF模型以及所述混淆集对所述第二文本进行文本查错和文本纠错；

通过所述训练集对N-gram模型进行训练，包括：

统计每个所述第一词组的上邻接二元概率以及下邻接二元概率，并记w_i-1为词组w_i的上邻接词组，w_i+1为所述词组w_i的下邻接词组；

上邻接二元概率P_L(w_i|w_i-1)计算方法如下所述：

下邻接二元概率P_R(w_i|w_i-1)计算方法如下所述：

将所述上邻接二元概率P_L(w_i|w_i-1)和所述下邻接二元概率P_R(w_i|w_i-1)加权组合得到二元概率为：

P(w_i|w_i-1，w_i+1)＝λ₁P_L(w_i|w_i-1)+(1-λ₁)P_R(w_i|w_i-1)；

其中，λ₁是调节上下邻接二元概率重要性的参数；

所述对BiLSTM-CRF模型进行训练，包括：

将所述训练集中的语句进行拆分，得到分词后的文本；所述文本中包括语句中的所有第二词组，并按序排列；

通过词向量以及词性特征，确定所述语句中所有第二词组的结构联系，并输出由所述词向量和词性特征拼接而成的向量特征；

通过BiLSTM将所述向量特征按顺序序列和逆序序列分别得到顺序隐藏状态和逆序隐藏状态，以分别捕获前文和后文的信息；然后将所述顺序隐藏状态和逆序隐藏状态相互连接并作为最终输出；

根据连接后的所述顺序隐藏状态和逆序隐藏状态确定每个所述第二词组标记为正确时概率和标记为错误时概率，并输入CRF模型；

通过所述CRF模型对每个所述第二词组标注的概率进行优化处理，获得最优的全局标注序列，并输出每个所述第二词组的标记以及置信概率；

所述对所述第一文本进行预处理，包括：

对所述第一文本进行分词，得到由多个第三词组按序排列的第一文本；

再对分词后的所述第一文本中的第三词组进行替换并得到由第四词组构成的所述第二文本；其中，所述替换包括：实体替换、数字替换和标点替换；所述实体替换指的是对文本中的词组进行实体标注，并对文本中的人名词、地名词和日期词分别采用一个固定人名词、地名词和日期词来替换；对所述数字替换是将所有的0-9数字替换为一个，同时将多位小数点只保留一位；所述标点替换是将句子结束词替换为统一的标点符号；

所述第二文本进行文本查错，包括：

通过N-gram模型对所述第二文本中每个句子的每个所述第四词组进行判断，并计算每个所述第四词组的二元概率；

当所述二元概率小于第一阈值时，判断该第四词组是错误词；并保留所述N-gram模型判断为错误词，以及二元概率为0的词组的位置和二元概率为0的词组的二元概率；

在所述BiLSTM-CRF模型中输入所述第二文本中的句子进行分词后的每个第四词组和所述第四词组词性标注的结果，并输出每个所述第四词组标注为正确词的置信概率；

对所述第二文本进行文本纠错，包括：

在所述第二文本中存在二元概率为0的目标词时，对所述目标词对应的所述混淆集中的易混淆词一一替换，并计算得到二元概率最高的易混淆词作为所述目标词的第一候选词；其中，所述目标词为通过所述N-gram模型进行二元概率的所述第四词组；

在所述第一候选词的二元概率也为0的时候，通过所述BiLSTM-CRF模型进行纠错判断；反之，通过N-gram模型进行纠错判断；

当所述第二文本中存在N-gram模型判断得到的错误词时，对所述错误词对应的所述混淆集中的易混淆词一一替换，并计算得到二元概率最高的易混淆词作为所述错误词的第二候选词；

如果所述第二候选词的二元概率不为0，通过BiLSTM-CRF模型进行纠错判断；反之，通过N-gram模型进行纠错判断。

2.根据权利要求1所述的基于深度神经网络文本自动校对方法，其特征在于，所述根据每个所述第一词组的易混淆词，自动生成每个所述第一词组的混淆集，包括：

确定与每个所述第一词组中一个或多个字的字形相似的错别字构成的字形易混淆词；

确定与每个所述第一词组中一个或多个字的音相似的错别字构成的字音易混淆词。

3.根据权利要求1所述的基于深度神经网络文本自动校对方法，其特征在于，所述通过BiLSTM-CRF模型进行纠错判断，包括：

通过所述BiLSTM-CRF模型将混淆集中的易混淆词的一一替换后，输出混淆词标注为正确词的置信概率；

取置信概率最高的所述混淆词作为候选词，比较所述候选词以及所述目标词或错误词的置信概率；

如果所述候选词的置信概率与所述目标词或错误词的置信概率之差大于第二阈值，则目标词或错误词是错误的，正确的结果是候选词，反之判定目标词或错误词是正确的。

4.根据权利要求1所述的基于深度神经网络文本自动校对方法，其特征在于，所述通过N-gram模型进行纠错判断，包括：

通过所述N-gram模型分别比较第一候选词与目标词或第二候选词与错误词的二元概率；

如果第一候选词与目标词的二元概率或第二候选词与错误词的二元概率大于第三阈值；则判断所述目标词或错误词是错误的，正确的结果是候选词；反之判定目标词是正确的。

5.一种基于深度神经网络文本自动校对装置，其特征在于，包括：

语料获取单元，用于获取语料，并对所述语料进行分词，得到若干第一词组；

混淆集确定单元，用于根据每个所述第一词组的易混淆词，自动生成每个所述第一词组的混淆集；其中，所述混淆集中包括一个或多个所述易混淆词；

训练单元，用于获取训练集，并通过所述训练集对N-gram模型进行训练和对BiLSTM-CRF模型进行训练；

预处理单元，用于接收第一文本，并对所述第一文本进行预处理得到第二文本；

查错纠错单元，用于通过训练后的所述N-gram模型和BiLSTM-CRF模型以及所述混淆集对所述第二文本进行文本查错和文本纠错；