CN114881011B - 多通道中文文本更正方法、装置、计算机设备和存储介质 - Google Patents
多通道中文文本更正方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN114881011B CN114881011B CN202210816142.XA CN202210816142A CN114881011B CN 114881011 B CN114881011 B CN 114881011B CN 202210816142 A CN202210816142 A CN 202210816142A CN 114881011 B CN114881011 B CN 114881011B
- Authority
- CN
- China
- Prior art keywords
- error
- model
- chinese text
- correction
- grammar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种多通道中文文本更正方法、装置、计算机设备和存储介质。所述方法包括:将中文文本输入预先构建的语法错误诊断模型,输出语法错误信息序列,将语法错误信息序列输入预先构建的多通道中文文本更正模型,根据语法错误信息序列中的语法错误类型匹配多通道中文文本更正模型中的语法更正通道,得到各个语法错误类型的通道修正信息,根据通道修正信息以及语法错误类型及定位信息,进行组合得到中文文本更正结果。采用本方法在进行中文文本纠错时,能够兼顾准确性和处理效率。
Description
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种多通道中文文本更正方法、装置、计算机设备和存储介质。
背景技术
语法错误诊断是最近提出来的一项自然语言处理任务。它的核心任务是利用自然语言处理技术将输入的原始句子中所包含的缺失词(M)、冗余词(R)、字词错误(S)、词序错误(W)四大类语法错误分别标注出来,然后再结合特定的更正算法对标注的语法错误进行更正并输出纠正后的目标句子。对于具有一定知识积累的人类来说,实现上述目标并不难。但是对于计算机来说当前的更正性能还有待进一步提升。若能研制出高效的算法让计算机具备自动识别与更正语法错误的能力,这对文本挖掘任务会有极大帮助。
经过分析发现当前主流的中文语法错误纠正方法包含两大类。第一类属于非深度学习方法,它纠错速度较快,但是缺点就是准确率不高。第二类属于深度学习纠错方法,它的优势是语法错误类型识别与定位准确率较高,但缺点是采用单一的纠错模型来更正错误,导致整体纠错率偏低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决目前中文语法纠错方法不能兼顾效率和准确率问题的多通道中文文本更正方法、装置、计算机设备和存储介质。
一种多通道中文文本更正方法,所述方法包括:
将中文文本输入预先构建的语法错误诊断模型,输出语法错误信息序列;其中,所述语法错误信息序列中包括序列片段的语法错误类型以及语法错误定位信息;
将所述语法错误信息序列输入预先构建的多通道中文文本更正模型,根据所述语法错误信息序列中的语法错误类型匹配所述多通道中文文本更正模型中的语法更正通道,得到各个语法错误类型的通道修正信息;其中,所述多通道中文文本更正模型的每个语法更正通道对应至少一个语法错误类型的处理模型;
根据所述通道修正信息以及所述语法错误类型和错误定位信息,进行组合得到中文文本更正结果。
在其中一个实施例中,所述语法错误诊断模型包括:输入层、Bi-LSTM层以及CRF输出层;还包括:将中文文本输入预先构建的语法错误诊断模型;通过所述输入层对所述中文文本进行向量化,得到中文文本向量序列;通过所述Bi-LSTM层提取所述中文文本向量序列中结合上下文的特征向量;通过所述CRF输出层对所述特征向量进行隐藏拼接后,输入CRF模型,输出中文文本向量序列中每个待标记序列的语法错误类型以及语法错误定位信息,并且输出语法错误信息序列。
在其中一个实施例中,所述输入层包括:BERT词嵌入模型;还包括:通过所述BERT词嵌入模型对所述中文文本中的字符进行向量化,得到中文文本向量序列;所述中文文本向量序列的长度为中文文本中字的个数。
在其中一个实施例中,还包括:通过所述CRF输出层对所述特征向量进行隐藏拼接后,输入CRF模型;根据所述中文文本向量序列中当前待标记序列、当前待标记序列的位置、上一个已标记序列的标签以及当前待标记序列的预测标签,计算每个所述预测标签的得分,取得分最大的为当前待标记序列的语法错误类型,并且输出当前待标记序列的语法错误类型及定位信息;根据所述语法错误类型以及所述语法错误定位信息,输出语法错误信息序列。
在其中一个实施例中,语法错误类型包括:缺失词错误、词序错误、冗余词错误以及字词错误;还包括:将所述缺失词错误和所述词序错误匹配所述多通道中文文本更正模型中用于执行插入和调序任务的处理模型;将所述冗余词错误匹配所述多通道中文文本更正模型中用于执行词语删除任务的处理模型;将所述字词错误匹配所述多通道中文文本更正模型中用于执行词语替换任务的处理模型;根据各个通道处理模型输出的处理结果,输出各个语法错误类型的通道修正信息。
在其中一个实施例中,用于执行插入和调序任务的处理模型为CGEC更正模型;用于执行词语删除任务的处理模型为删除更正模型;用于执行词语替换任务的处理模型为替换更正模型;其中,所述替换更正模型包括:错误检测层和错误纠正层;所述替换更正模型进行训练的损失函数是通过所述错误检测层的损失和所述错误纠正层的损失进行加权得到的。
在其中一个实施例中,所述语法错误类型还包括:无错误;所述处理模型还包括:复制更正模型;将语法错误信息序列中所述无错误匹配所述复制更正模型,并且通过所述复制更正模型复制无错误对应的字符。
一种多通道中文文本更正装置,所述装置包括:
错误诊断模块,用于将中文文本输入预先构建的语法错误诊断模型,输出语法错误信息序列;其中,所述语法错误信息序列中包括序列片段的语法错误类型以及语法错误定位信息;
更正模块,用于将所述语法错误信息序列输入预先构建的多通道中文文本更正模型,根据所述语法错误信息序列中的语法错误类型匹配所述多通道中文文本更正模型中的语法更正通道,得到各个语法错误类型的通道修正信息;其中,所述多通道中文文本更正模型的每个语法更正通道对应至少一个语法错误类型的处理模型;
输出模块,用于根据所述通道修正信息以及所述语法错误类型及定位信息,进行组合得到中文文本更正结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
将中文文本输入预先构建的语法错误诊断模型,输出语法错误信息序列;其中,所述语法错误信息序列中包括序列片段的语法错误类型以及语法错误定位信息;
将所述语法错误信息序列输入预先构建的多通道中文文本更正模型,根据所述语法错误信息序列中的语法错误类型匹配所述多通道中文文本更正模型中的语法更正通道,得到各个语法错误类型的通道修正信息;其中,所述多通道中文文本更正模型的每个语法更正通道对应至少一个语法错误类型的处理模型;
根据所述通道修正信息以及所述语法错误类型及定位信息,进行组合得到中文文本更正结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
将中文文本输入预先构建的语法错误诊断模型,输出语法错误信息序列;其中,所述语法错误信息序列中包括序列片段的语法错误类型以及语法错误定位信息;
将所述语法错误信息序列输入预先构建的多通道中文文本更正模型,根据所述语法错误信息序列中的语法错误类型匹配所述多通道中文文本更正模型中的语法更正通道,得到各个语法错误类型的通道修正信息;其中,所述多通道中文文本更正模型的每个语法更正通道对应至少一个语法错误类型的处理模型;
根据所述通道修正信息以及所述语法错误类型及定位信息,进行组合得到中文文本更正结果。
上述多通道中文文本更正方法、装置、计算机设备和存储介质,首先,通过语法错误诊断模型对输入的中文文本进行处理,输出语法错误信息序列,该语法错误信息序列中包括有语法错误类型以及语法错误定位信息,然后将语法错误信息序列输入至多通道中文文本更正模型,与传统方式不同的是,该多通道中文文本更正模型包括多个不同的通道,每个通道处理至少一个语法错误类型,因此,针对一个大规模的中文文本中存在多种错误类型,可以快速的进行错误更正,实质上,本发明可以根据语法错误类型的标签在多通道中文文本更正模型中进行识别匹配,在输出时,由于通过语法错误诊断模型输出了语法错误类型及定位信息,因此,针对更正后的每个语法错误类型对应的序列片段,组装后可以得到中文文本更正结果。因此,本发明通过神经网络的方式提高了纠错的准确率,通过采用多通道方式将文本处理转化为标签处理,极大的提高了文本纠错的效率。
附图说明
图1为一个实施例中多通道中文文本更正方法的流程示意图;
图2为一个实施例中语法错误诊断模型处理的流程示意图;
图3为另一个实施例中多通道中文文本更正模型处理的流程示意图;
图4为一个实施例中多通道中文文本更正装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种多通道中文文本更正方法,包括以下步骤:
步骤102,将中文文本输入预先构建的语法错误诊断模型,输出语法错误信息序列。
语法错误信息序列中包括序列片段的语法错误类型以及语法错误定位信息。
具体而言,语法错误类型包括有缺失词(M)、冗余词(R)、字词错误(S)、词序错误(W)四大类语法错误,通过本发明设定的语法错误诊断模型可以识别出上述语法错误类型,语法错误类型及定位信息指的是错误出现在序列中的位置及错误类型。
语法错误诊断模型可以是由多个网络组成的命名实体处理模型,例如:BERT-Bi-LSTM-CRF模型。当然,只要能够实现对中文文本进行错误类型识别以及定位的网络均可。
步骤104,将语法错误信息序列输入预先构建的多通道中文文本更正模型,根据语法错误信息序列中的语法错误类型匹配多通道中文文本更正模型中的语法更正通道,得到各个语法错误类型的通道修正信息。
多通道中文文本更正模型的每个语法更正通道对应至少一个语法错误类型的处理模型。
多通道中文文本更正模型实质上是由多个处理通道组成的神经网络,每个通道可以处理一种以上的语法错误类型,处理通道的设置可以根据实际工程需求设定。
例如:在语法错误诊断模型训练时,只考虑了缺失词(M)、冗余词(R)、字词错误(S)、词序错误(W)四类错误类型,那么,对于待处理的中文文本,语法错误信息序列最多只可能有四个语法错误类型,因此在设置通道时,可以设置4个通道,每个通道处理一种错误类型。
另外,在一个中文文本中,语法错误是以一定频次出现,因此在语法错误信息序列,包括大量的语法错误类型,因此,是以匹配的方式,将出现语法错误的序列片段推送至对应的处理通道进行处理。为了进一步优化通道处理,可以设置对应的负载均衡方式进一步提高处理效率,以上是针对多通道进行纠错的优势,具体不再赘述。
步骤106,根据通道修正信息以及语法错误类型及定位信息,进行组合得到中文文本更正结果。
本步骤中,通道输出的通道修正信息是复杂的以及无序的,由于语法错误类型及定位信息的存在,可以通过语法错误类型及定位信息对通道修正信息进行组合,输出最终的纠正结果。
上述多通道中文文本更正方法中,首先,通过语法错误诊断模型对输入的中文文本进行处理,输出语法错误信息序列,该语法错误信息序列中包括有语法错误类型以及语法错误定位信息,然后将语法错误信息序列输入至多通道中文文本更正模型,与传统方式不同的是,该多通道中文文本更正模型包括多个不同的通道,每个通道处理至少一个语法错误类型,因此,针对一个大规模的中文文本中存在多种错误类型,可以快速的进行错误更正,实质上,本发明可以根据语法错误类型的标签在多通道中文文本更正模型中进行识别匹配,在输出时,由于通过语法错误诊断模型输出了语法错误类型及定位信息,因此,针对更正后的每个语法错误类型对应的序列片段,组装后可以得到中文文本更正结果。因此,本发明通过神经网络的方式提高了纠错的准确率,通过采用多通道方式将文本处理转化为标签处理,极大的提高了文本纠错的效率。
在其中一个实施例中,语法错误诊断模型包括:输入层、Bi-LSTM层以及CRF输出层,对于上述步骤102,可以具体采用如下方式实现:
将中文文本输入预先构建的语法错误诊断模型;通过输入层对中文文本进行向量化,得到中文文本向量序列;通过Bi-LSTM层提取中文文本向量序列中结合上下文的特征向量;通过CRF输出层对特征向量进行隐藏拼接后,输入CRF模型,输出中文文本向量序列中每个待标记序列的语法错误类型以及语法错误定位信息,并且输出语法错误信息序列。
本实施例中,如图2所示,给出了语法错误诊断模型一种可行的结构,为了更好的理解本发明如何输出中文文本向量序列中每个待标记序列的语法错误类型以及语法错误定位信息,以下进行具体说明:
1、对于输入层,主要包括文本处理和文本嵌入两个方面,在其中一个实施例中,文本处理的方式不同于常规的分词的处理,本发明采用的将每个字作为一个序列元素,也即对于输入的中文文本x,中文文本向量序列可以表示为,其中,表示中文文本的一个字符,中文文本向量序列的长度为中文文本中字的个数,在文本处理之后,可以采用BERT词嵌入模型对中文文本向量序列中每个序列元素进行嵌入,嵌入的目的是将中文文本转化为计算机可识别的信息。
2、对于Bi-LSTM层,通过前向LSTM和后向LSTM获取上下文信息,找到其中的关联关系。通过Bi-LSTM层可以提取到文本上下文中潜在的特征信息,每个字符的位置都会产生一个特征向量,所有的向量组合之后会得到一个向量矩阵,其中每行代表对应字符经过Bi-LSTM层后的特征向量。这里的特征向量可以用来指导当前位置应该输出的标签信息,也就是根据每个位置的特征向量可以计算出每个位置的标签向量。
3、对于CRF输出层,通过CRF输出层对特征向量进行隐藏拼接后,输入CRF模型;根据中文文本向量序列中当前待标记序列、当前待标记序列的位置、上一个已标记序列的标签以及当前待标记序列的预测标签,计算每个预测标签的得分,取得分最大的为当前待标记序列的语法错误类型,并且输出当前待标记序列的语法错误类型及定位信息;根据语法错误类型以及语法错误定位信息,输出语法错误信息序列。具体而言,在获得Bi-LSTM层输出的向量后,将这些向量通过隐藏层进行拼接后作为CRF层的输入进行学习,CRF层在学习的过程中会从输入序列中获取相邻标签之间的依赖关系,此时处理的不再是单个字符的信息,而是从全局最优的角度获得的序列特征。计算公式如下:
该式中,表示待标记的序列,为当前序列中的位置,为上一个位置的标签,为当前位置的标签,为序列长度,为特征数。该式的计算结果为一个标签序列的分数,利用该式计算出所有标签序列的分数,分值最大的就是最终输出的标签序列。
由上述Bi-LSTM-CRF模型可以高效的给出输入序列所对应的输出序列,这些输出序列里面会完整的给出语法错误类型及其定位信息,从而实现语法错误诊断,为后续更正阶段提供通道适配的划分依据。
在其中一个实施例中,语法错误类型包括:缺失词错误、词序错误、冗余词错误以及字词错误。对于步骤104,如图3所示,具体可以通过如下方式实现:
将缺失词错误和所述词序错误匹配多通道中文文本更正模型中用于执行插入和调序任务的处理模型;将冗余词错误匹配多通道中文文本更正模型中用于执行词语删除任务的处理模型;将字词错误匹配多通道中文文本更正模型中用于执行词语替换任务的处理模型;根据各个通道处理模型输出的处理结果,输出各个语法错误类型的通道修正信息。
在一个具体实施例中,用于执行插入和调序任务的处理模型为CGEC更正模型;用于执行词语删除任务的处理模型为删除更正模型;用于执行词语替换任务的处理模型为替换更正模型;其中,替换更正模型包括:错误检测层和错误纠正层;替换更正模型进行训练的损失函数是通过所述错误检测层的损失和所述错误纠正层的损失进行加权得到的。
针对上述给出的多通道中文文本更正模型,结合实例对每个通道进行说明:
1、CGEC更正模型;CGEC错误更正模型的功能是针对语法错误诊断模型所给出的缺失词(M)和词序错误(W)这两种类型进行更正。CGEC模型相关代码请见Github开源项目seq2edit-based-CGEC。通过针对性的设计插入和调序编辑动作标签,将语法纠错任务视作序列编辑任务进行解决,并对英文上SOTA的Seq2Edit模型进行了一些修改,以使其支持中文语法纠错任务。值得说明的是,CGEC模型不限于seq2edit-based-CGEC,还可以是Seq2Seq-based-CGEC等。
2、删除更正模型;删除错误更正模型的功能很简单,针对语法错误诊断模型所给出的冗余词(R)错误类型进行删除操作。具体实施中采用替换函数将原始句子中的冗余词出现的起始下标和终止下标之间的连续字符序列直接替换为空字符串,其余内容保持不变,以此来完成删除操作。
3、替换更正模型;替换更正模型主要是针对字词错误(S)的类型进行替换操作。这个模型的核心功能就是通过MacBERT4CSC模型自动替换错误的字词,从而达到更正目标。MacBERT4CSC是在Google开源的Chinese BERT-base模型的基础上结合公开的大规模中文纠错语料进行迁移学习后得到的一个预训练模型。根据中文纠错任务的要求,额外追加了一个全连接层作为错误检测层,整个模型利用错误检测层和错误纠正层的Loss加权得到最终Loss值。
在其中一个实施例中,语法错误类型还包括:无错误;处理模型还包括:复制更正模型;将语法错误信息序列中无错误匹配所述复制更正模型,并且通过复制更正模型复制无错误对应的字符。
具体的,复制更正模型的主要功能就是针对不存在语法错误(C)的特殊情况而设计的一种高效的复制操作。它直接复制原始句子内容作为更正后的句子进行输出,从而完成更正任务。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种多通道中文文本更正装置,包括:错误诊断模块402、更正模块404和输出模块406,其中:
错误诊断模块402,用于将中文文本输入预先构建的语法错误诊断模型,输出语法错误信息序列;其中,所述语法错误信息序列中包括序列片段的语法错误类型以及语法错误定位信息;
更正模块404,用于将所述语法错误信息序列输入预先构建的多通道中文文本更正模型,根据所述语法错误信息序列中的语法错误类型匹配所述多通道中文文本更正模型中的语法更正通道,得到各个语法错误类型的通道修正信息;其中,所述多通道中文文本更正模型的每个语法更正通道对应至少一个语法错误类型的处理模型;
输出模块406,用于根据所述通道修正信息以及所述语法错误类型和定位信息,进行组合得到中文文本更正结果。
在其中一个实施例中,语法错误诊断模型包括:输入层、Bi-LSTM层以及CRF输出层,错误诊断模块402还用于将中文文本输入预先构建的语法错误诊断模型;通过所述输入层对所述中文文本进行向量化,得到中文文本向量序列;通过所述Bi-LSTM层提取所述中文文本向量序列中结合上下文的特征向量;通过所述CRF输出层对所述特征向量进行隐藏拼接后,输入CRF模型,输出中文文本向量序列中每个待标记序列的语法错误类型以及语法错误定位信息,并且输出语法错误信息序列。
在其中一个实施例中,输入层包括:BERT词嵌入模型;错误诊断模块402还用于通过所述BERT词嵌入模型对所述中文文本中的字符进行向量化,得到中文文本向量序列;所述中文文本向量序列的长度为中文文本中字的个数。
在其中一个实施例中,错误诊断模块402还用于通过所述CRF输出层对所述特征向量进行隐藏拼接后,输入CRF模型;根据所述中文文本向量序列中当前待标记序列、当前待标记序列的位置、上一个已标记序列的标签以及当前待标记序列的预测标签,计算每个所述预测标签的得分,取得分最大的为当前待标记序列的语法错误类型,并且输出当前待标记序列的语法错误类型及定位信息;根据所述语法错误类型以及所述语法错误定位信息,输出语法错误信息序列。
在其中一个实施例中,语法错误类型包括:缺失词错误、词序错误、冗余词错误以及字词错误;更正模块404还用于将所述缺失词错误和所述词序错误匹配所述多通道中文文本更正模型中用于执行插入和调序任务的处理模型;将所述冗余词错误匹配所述多通道中文文本更正模型中用于执行词语删除任务的处理模型;将所述字词错误匹配所述多通道中文文本更正模型中用于执行词语替换任务的处理模型;根据各个通道处理模型输出的处理结果,输出各个语法错误类型的通道修正信息。
在其中一个实施例中,用于执行插入和调序任务的处理模型为CGEC更正模型;用于执行词语删除任务的处理模型为删除更正模型;用于执行词语替换任务的处理模型为替换更正模型;其中,所述替换更正模型包括:错误检测层和错误纠正层;所述替换更正模型进行训练的损失函数是通过所述错误检测层的损失和所述错误纠正层的损失进行加权得到的。
在其中一个实施例中,语法错误类型还包括:无错误;所述处理模型还包括:复制更正模型;将语法错误信息序列中所述无错误匹配所述复制更正模型,并且通过所述复制更正模型复制无错误对应的字符。
关于多通道中文文本更正装置的具体限定可以参见上文中对于多通道中文文本更正方法的限定,在此不再赘述。上述多通道中文文本更正装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多通道中文文本更正方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种多通道中文文本更正方法,其特征在于,所述方法包括:
将中文文本输入预先构建的语法错误诊断模型,输出语法错误信息序列;其中,所述语法错误信息序列中包括序列片段的语法错误类型以及语法错误定位信息;
将所述语法错误信息序列输入预先构建的多通道中文文本更正模型,根据所述语法错误信息序列中的语法错误类型匹配所述多通道中文文本更正模型中的语法更正通道,得到各个语法错误类型的通道修正信息;其中,所述多通道中文文本更正模型的每个语法更正通道对应至少一个语法错误类型的处理模型;
根据所述通道修正信息以及所述语法错误类型及语法错误定位信息,进行组合得到中文文本更正结果。
2.根据权利要求1所述的方法,其特征在于,所述语法错误诊断模型包括:输入层、Bi-LSTM层以及CRF输出层;
所述将中文文本输入预先构建的语法错误诊断模型,输出语法错误信息序列,包括:
将中文文本输入预先构建的语法错误诊断模型;
通过所述输入层对所述中文文本进行向量化,得到中文文本向量序列;
通过所述Bi-LSTM层提取所述中文文本向量序列中结合上下文的特征向量;
通过所述CRF输出层对所述特征向量进行隐藏拼接后,输入CRF模型,输出中文文本向量序列中每个待标记序列的语法错误类型以及语法错误定位信息,并且输出语法错误信息序列。
3.根据权利要求2所述的方法,其特征在于,所述输入层包括:BERT词嵌入模型;
通过所述输入层对所述中文文本进行向量化,得到中文文本向量序列,包括:
通过所述BERT词嵌入模型对所述中文文本中的字符进行向量化,得到中文文本向量序列;所述中文文本向量序列的长度为中文文本中字的个数。
4.根据权利要求2所述的方法,其特征在于,通过所述CRF输出层对所述特征向量进行隐藏拼接后,输入CRF模型,输出中文文本向量序列中每个待标记序列的语法错误类型以及语法错误定位信息,并且输出语法错误信息序列,包括:
通过所述CRF输出层对所述特征向量进行隐藏拼接后,输入CRF模型;
根据所述中文文本向量序列中当前待标记序列、当前待标记序列的位置、上一个已标记序列的标签以及当前待标记序列的预测标签,计算每个所述预测标签的得分,取得分最大的为当前待标记序列的语法错误类型,并且输出当前待标记序列的语法错误定位信息;
根据所述语法错误类型以及所述语法错误定位信息,输出语法错误信息序列。
5.根据权利要求1至4任一项所述的方法,其特征在于,语法错误类型包括:缺失词错误、词序错误、冗余词错误以及字词错误;
根据所述语法错误信息序列中的语法错误类型匹配所述多通道中文文本更正模型中的语法更正通道,得到各个语法错误类型的通道修正信息,包括:
将所述缺失词错误和所述词序错误匹配所述多通道中文文本更正模型中用于执行插入和调序任务的处理模型;
将所述冗余词错误匹配所述多通道中文文本更正模型中用于执行词语删除任务的处理模型;
将所述字词错误匹配所述多通道中文文本更正模型中用于执行词语替换任务的处理模型;
根据各个通道处理模型输出的处理结果,输出各个语法错误类型的通道修正信息。
6.根据权利要求5所述的方法,其特征在于,用于执行插入和调序任务的处理模型为CGEC更正模型;用于执行词语删除任务的处理模型为删除更正模型;用于执行词语替换任务的处理模型为替换更正模型;其中,所述替换更正模型包括:错误检测层和错误纠正层;所述替换更正模型进行训练的损失函数是通过所述错误检测层的损失和所述错误纠正层的损失进行加权得到的。
7.根据权利要求5所述的方法,其特征在于,所述语法错误类型还包括:无错误;
所述处理模型还包括:复制更正模型;
将语法错误信息序列中所述无错误匹配所述复制更正模型,并且通过所述复制更正模型复制无错误对应的字符。
8.一种多通道中文文本更正装置,其特征在于,所述装置包括:
错误诊断模块,用于将中文文本输入预先构建的语法错误诊断模型,输出语法错误信息序列;其中,所述语法错误信息序列中包括序列片段的语法错误类型以及语法错误定位信息;
更正模块,用于将所述语法错误信息序列输入预先构建的多通道中文文本更正模型,根据所述语法错误信息序列中的语法错误类型匹配所述多通道中文文本更正模型中的语法更正通道,得到各个语法错误类型的通道修正信息;其中,所述多通道中文文本更正模型的每个语法更正通道对应至少一个语法错误类型的处理模型;
输出模块,用于根据所述通道修正信息以及所述语法错误类型及语法错误定位信息,进行组合得到中文文本更正结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210816142.XA CN114881011B (zh) | 2022-07-12 | 2022-07-12 | 多通道中文文本更正方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210816142.XA CN114881011B (zh) | 2022-07-12 | 2022-07-12 | 多通道中文文本更正方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114881011A CN114881011A (zh) | 2022-08-09 |
CN114881011B true CN114881011B (zh) | 2022-09-23 |
Family
ID=82683216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210816142.XA Active CN114881011B (zh) | 2022-07-12 | 2022-07-12 | 多通道中文文本更正方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114881011B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985219A (zh) * | 2020-07-30 | 2020-11-24 | 哈尔滨工业大学 | 一种融合单语数据的文本语法错误纠正方法 |
WO2021115159A1 (zh) * | 2019-12-09 | 2021-06-17 | 中兴通讯股份有限公司 | 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质 |
WO2022134577A1 (zh) * | 2020-12-22 | 2022-06-30 | 深圳壹账通智能科技有限公司 | 翻译错误识别方法、装置、计算机设备及可读存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315666A (zh) * | 2008-07-11 | 2008-12-03 | 中国科学院软件研究所 | 一种基于语音的多通道手写中文纠错方法 |
KR101482430B1 (ko) * | 2013-08-13 | 2015-01-15 | 포항공과대학교 산학협력단 | 전치사 교정 방법 및 이를 수행하는 장치 |
CN109948152B (zh) * | 2019-03-06 | 2020-07-17 | 北京工商大学 | 一种基于lstm的中文文本语法纠错模型方法 |
CN110427619B (zh) * | 2019-07-23 | 2022-06-21 | 西南交通大学 | 一种基于多通道融合与重排序的中文文本自动校对方法 |
CN112364631B (zh) * | 2020-09-21 | 2022-08-02 | 山东财经大学 | 基于层级多任务学习的中文语法错误检测方法及系统 |
CN114254660A (zh) * | 2020-09-22 | 2022-03-29 | 北京三星通信技术研究有限公司 | 多模态翻译方法、装置、电子设备及计算机可读存储介质 |
CN113255331B (zh) * | 2021-06-21 | 2021-11-12 | 智者四海(北京)技术有限公司 | 文本纠错方法、装置及存储介质 |
-
2022
- 2022-07-12 CN CN202210816142.XA patent/CN114881011B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021115159A1 (zh) * | 2019-12-09 | 2021-06-17 | 中兴通讯股份有限公司 | 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质 |
CN111985219A (zh) * | 2020-07-30 | 2020-11-24 | 哈尔滨工业大学 | 一种融合单语数据的文本语法错误纠正方法 |
WO2022134577A1 (zh) * | 2020-12-22 | 2022-06-30 | 深圳壹账通智能科技有限公司 | 翻译错误识别方法、装置、计算机设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114881011A (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11392838B2 (en) | Method, equipment, computing device and computer-readable storage medium for knowledge extraction based on TextCNN | |
US11157686B2 (en) | Text sequence segmentation method, apparatus and device, and storage medium thereof | |
CN110765763A (zh) | 语音识别文本的纠错方法、装置、计算机设备和存储介质 | |
CN107273356B (zh) | 基于人工智能的分词方法、装置、服务器和存储介质 | |
CN110688853B (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN109492215A (zh) | 新闻实体识别方法、装置、计算机设备和存储介质 | |
EP4204968B1 (en) | Unit test case generation with transformers | |
CN111753531A (zh) | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 | |
CN113449489B (zh) | 标点符号标注方法、装置、计算机设备和存储介质 | |
CN112380837B (zh) | 基于翻译模型的相似句子匹配方法、装置、设备及介质 | |
CN113536735B (zh) | 一种基于关键词的文本标记方法、系统和存储介质 | |
CN113033200B (zh) | 数据处理方法、文本识别模型的生成方法和文本识别方法 | |
WO2023010916A1 (zh) | 软件自动修复方法、系统、电子设备及存储介质 | |
CN111783460A (zh) | 一种企业简称提取方法、装置、计算机设备及存储介质 | |
CN112580346A (zh) | 事件抽取方法、装置、计算机设备和存储介质 | |
CN112395880B (zh) | 结构化三元组的纠错方法、装置、计算机设备及存储介质 | |
CN110705211A (zh) | 文本重点内容标记方法、装置、计算机设备及存储介质 | |
CN111753546B (zh) | 文书信息抽取方法、装置、计算机设备及存储介质 | |
CN114881011B (zh) | 多通道中文文本更正方法、装置、计算机设备和存储介质 | |
CN109885702B (zh) | 自然语言处理中的序列标注方法、装置、设备及存储介质 | |
CN114139610A (zh) | 基于深度学习的中医药临床文献数据结构化方法及装置 | |
CN112990181A (zh) | 文本识别的方法、装置、设备和存储介质 | |
CN116013278B (zh) | 基于拼音对齐算法的语音识别多模型结果合并方法及装置 | |
KR102668118B1 (ko) | 자연어 기반의 비디오 검색을 위한 학습 장치 및 학습 방법 | |
CN112380860B (zh) | 句子向量处理方法、句子匹配方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |