CN112749551A - 文本纠错方法、装置、设备及可读存储介质 - Google Patents
文本纠错方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN112749551A CN112749551A CN202011644319.XA CN202011644319A CN112749551A CN 112749551 A CN112749551 A CN 112749551A CN 202011644319 A CN202011644319 A CN 202011644319A CN 112749551 A CN112749551 A CN 112749551A
- Authority
- CN
- China
- Prior art keywords
- corrected
- sentence
- score
- text
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1053—Employment or hiring
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能技术领域,本发明公开了一种文本纠错方法、装置、设备及可读存储介质,该方法包括步骤:获取待纠错文本中的待纠错句子和上文句子,其中,所述上文句子与所述待纠错句子相邻;基于所述待纠错句子、所述上文句子和预设注意力机制为所述待纠错句子进行评分,得到待纠错注意力评分和上文注意力评分;叠加所述待纠错注意力评分和所述上文注意力评分,得到纠错评分;基于所述纠错评分对所述待纠错句子进行纠错,得到纠错后句子。本发明实现了结合待纠错句子的信息和其上文句子的信息以综合考虑对待纠错句子进行纠错的方案,使得通过对待纠错文本进行纠错后,得到的纠错后的文本的准确率得到提高。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本纠错方法、装置、设备及可读存储介质。
背景技术
在目前的招聘的流程中,在需要考察候选者的写作能力时,为了简化招聘流程和提高工作效率,会提供一种自动纠错和评分的系统,以自动对候选者的文本进行检查和评分,进而对候选者面试的结果进行评价。
然而,目前市面上的自动纠错的模型在对文本进行纠错时,只会考虑当前被纠错的句子的通顺度问题,没有办法考虑到上文句子的信息,导致纠错后的文本的准确率不高。
由此可知,目前在进行文本纠错任务时,存在对文本进行纠错时的准确率低的问题。
发明内容
本发明的主要目的在于提供一种文本纠错方法、装置、设备及可读存储介质,旨在解决现有的在进行文本纠错任务时,存在对文本进行纠错时的准确率低的技术问题。
为实现上述目的,本发明提供一种文本纠错方法,所述文本纠错方法包括步骤:
获取待纠错文本中的待纠错句子和上文句子,其中,所述上文句子与所述待纠错句子相邻;
基于所述待纠错句子、所述上文句子和预设注意力机制为所述待纠错句子进行评分,得到待纠错注意力评分和上文注意力评分;
叠加所述待纠错注意力评分和所述上文注意力评分,得到纠错评分;
基于所述纠错评分对所述待纠错句子进行纠错,得到纠错后句子。
可选地,所述获取待纠错文本中的待纠错句子和上文句子之后,包括:
基于预设文本序列转换模型对所述待纠错句子进行向量化处理,得到待纠错词向量;
基于预设文本位置编码模型对所述待纠错句子进行编码化处理,得到待纠错位置编码;
叠加所述待纠错词向量和所述待纠错位置编码,得到待纠错矩阵;
基于所述预设文本序列转换模型对所述上文句子进行向量化处理,得到上文词向量;
基于所述预设文本位置编码模型对所述上文句子进行编码化处理,得到上文位置编码;
叠加所述上文词向量和所述上文位置编码,得到上文矩阵。
可选地,所述叠加所述待纠错词向量和所述待纠错位置编码,得到待纠错矩阵之后,包括:
基于预设卷积机制和预设门控机制对所述待纠错矩阵进行迭代处理,得到迭代后待纠错矩阵。
可选地,所述叠加所述上文词向量和所述上文位置编码,得到上文矩阵之后,包括:
基于所述预设卷积机制和所述预设门控机制对所述上文矩阵进行迭代处理,得到迭代后上文矩阵。
可选地,所述预设注意力机制包括预设待纠错注意力机制和预设上文注意力机制,所述基于所述待纠错句子、所述上文句子和预设注意力机制为所述待纠错句子进行评分,得到待纠错注意力评分和上文注意力评分,包括:
基于预设待纠错注意力机制对所述迭代后待纠错矩阵进行评分,得到待纠错注意力评分;
基于预设上文注意力机制对所述迭代后上文矩阵进行评分,得到上文注意力评分。
可选地,所述基于所述纠错评分对所述待纠错句子进行纠错,得到纠错后句子,包括:
对所述纠错评分进行残差连接处理,得到初始纠错结果;
对所述初始纠错结果进行激活处理,得到纠错概率;
基于所述纠错概率对所述待纠错句子进行纠错,得到纠错后句子。
可选地,所述基于所述纠错评分对所述待纠错句子进行纠错,得到纠错后句子之后,包括:
基于预设语义评判模型对所述纠错后句子进行重评分处理,得到语义评分;
若所述语义评分小于预设评分阈值,则基于所述预设语义评判模型和所述语义评分修改所述纠错后句子。
此外,为实现上述目的,本发明还提供一种文本纠错装置,所述文本纠错装置包括:
获取模块,用于获取待纠错文本中的待纠错句子和上文句子;
评分模块,用于基于所述待纠错句子、所述上文句子和预设注意力机制为所述待纠错句子进行评分,得到待纠错注意力评分和上文注意力评分;
叠加模块,用于叠加所述待纠错注意力评分和所述上文注意力评分,得到纠错评分;
纠错模块,用于基于所述纠错评分对所述待纠错句子进行纠错,得到纠错后句子。
此外,为实现上述目的,本发明还提供一种文本纠错设备,所述文本纠错设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的文本纠错程序,所述文本纠错程序被所述处理器执行时实现如上所述的文本纠错方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本纠错程序,所述文本纠错程序被处理器执行时实现如上所述的文本纠错方法的步骤。
本发明通过获取待纠错文本中的待纠错句子和上文句子,其中,所述上文句子与所述待纠错句子相邻;基于所述待纠错句子、所述上文句子和预设注意力机制为所述待纠错句子进行评分,得到待纠错注意力评分和上文注意力评分;叠加所述待纠错注意力评分和所述上文注意力评分,得到纠错评分;基于所述纠错评分对所述待纠错句子进行纠错,得到纠错后句子。本发明实现了在对待纠错句子进行纠错时,通过待纠错句子和上文句子对待纠错句子进行评分,以同时考虑待纠错句子的信息和其上文句子的信息,并结合两者的信息以综合考虑对待纠错句子进行纠错的方案,使得通过对待纠错文本进行纠错后,得到的纠错后的文本的准确率得到提高。
附图说明
图1是本发明文本纠错方法第一实施例的流程示意图;
图2是本发明实施例中文本纠错模型运行流程示意图;
图3是本发明文本纠错方法第二实施例的流程示意图;
图4是本发明文本纠错装置较佳实施例的功能模块示意图;
图5是本发明实施例方案涉及的硬件运行环境的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种文本纠错方法,参照图1,图1为本发明文本纠错方法第一实施例的流程示意图。
本发明实施例提供了文本纠错方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。文本纠错方法可应用于移动终端中,该移动终端包括但不限于手机、个人计算机等,为了便于描述,以下省略执行主体描述文本纠错方法的各个步骤。文本纠错方法包括:
步骤S110,获取待纠错文本中的待纠错句子和上文句子,其中,所述上文句子与所述待纠错句子相邻。
具体地,获取待纠错文本中的待纠错句子,为考虑待纠错句子的上文信息,以根据该上文信息考虑待纠错句子的时态是否存在错误的问题,还需要获取与该待纠错句子相邻的上文句子(例如待纠错句子的上一个句子)。例如待纠错句子为“我明天买去往北京的飞机票。我已经到北京了。”在对待纠错句子“我已经到北京了”进行纠错时,结合其上文句子“我明天买去往北京的飞机票”,很明显可以确定待纠错句子“我已经到北京了”的上文是未来时,因此,待纠错句子在纠错后可以改为“我将要到北京了。”。
需要说明的是,对待纠错句子进行纠错的任务通过文本纠错模型实现,参照图2,该文本纠错模型至少由待纠错句子编码器、上文句子编码器和解码器组成。
需要说明的是,待纠错句子和上文句子均为一段文本序列。
需要说明的是,对于上文句子,该上文句子可以是一句、两句等,具体如何确定上文句子所包含的句子数量,可通过以下三点确定:1、算力资源是有限的,上文句子所包含的句子数量越多,其消耗的算力资源越多,计算压力越大;2、未训练好的文本纠错模型在训练时的数据集以及数据量是否充分,若充分,则上文句子所包含的句子数量可以少些,若不充分,则上文句子所包含的句子数量可以多些;3、文本纠错模型的结构是否支持较长的信息的输入、处理等,即是否支持上文句子所包含的句子数量较多。
需要说明的是,对于未考虑上文信息的相关文本纠错模型的数学公式为:
而对于考虑了上文信息的相关文本纠错模型的数学公式为:
其中,S为输入的句子(例如待纠错句子),tk.i是修改第k个句子时的第i个字,Sk是第k个输入的句子,T是修改的句子,θ是模型的参数,P(TK|Sk,θ)是通过输入的句子Sk和模型的参数θ对输出的字进行预测,Sdoc是上文信息,即通过上述公式进行对比可以发现,文本纠错模型对待纠错句子进行纠错预测时考虑了上文信息。
需要说明的是,考虑到中文语法纠错的问题通常比较复杂,而目前在训练文本纠错模型的过程中,带标注的训练数据集往往不够充分,例如人工准确标注大规模语料的成本过高、中文语义较为复杂而导致人工标注可能存在标签不够准确的问题以及训练数据集可能无法包括所有的中文语法纠错情况等,此时采用传统的未平滑的标签,意味着需要绝对相信训练数据集的,由未平滑的标签得到的文本纠错模型的效果往往不是特别的好,特别是文本纠错模型的泛化能力,由此可知,对未平滑的标签加上一定的标签平滑,文本纠错模型的表现效果会更好。
具体地,在对于原本的one-hot(一位有效编码)的标签的基础上,对标签进行平滑,例如,原来的(0,1,0)到(α/3,2α/3,α/3)的转变,从而对模型的提升,公式如下:
其中,α为超参数,yk则是当正确类别为1,其余为0,n为向量y的长度。可以理解,经过平滑后的标签,相当于对文本纠错模型对应的标注好的训练集进行了调整,该平滑后的标签对应的数值更稳定、更贴合梯度的运算等。
上述获取待纠错文本中的待纠错句子和上文句子之后,包括:
步骤a,基于预设文本序列转换模型对所述待纠错句子进行向量化处理,得到待纠错词向量。
具体地,基于预设文本序列转换模型对待纠错句子进行向量化处理,得到待纠错词向量。
需要说明的是,对于待纠错句子,其在输入待纠错句子编码器前,需要将对应的文本序列转换为对应句子中的每一个字的词向量(例如句子“我很好”中的“我”字可以转换为词向量(0.1,0.2…,0.4)),其转换过程既可通过预先训练好的模型实现,也可以通过使用未训练的模型进行训练之后得到训练好的模型,并用该训练好的模型来实现。
其中,对于预先训练好的模型,在神经网络深度学习中,存在一种叫做迁移学习的神经网络深度学习方法,迁移学习指的是将一个预先训练好的模型被重新用在另一个深度学习任务中,即可以利用预先训练好的模型来进一步训练以实现词向量转换的功能,例如预先训练好的模型为BERT(Bidirectional Encoder Representations fromTransformers,来自变换器的双向编码器表征量)模型。
需要说明的是,该预先训练好的模型已经完成了很多其他语料的模型参数的学习,对其进一步训练就是在该模型参数的基础上进行进一步的学习,来微调该预先训练好的模型,使微调后的预先训练好的模型能够使用在待纠错文本对应的语言环境中,可以理解,预先训练好的模型的语料和待纠错文本对应的语料不同。
其中,对于使用未训练的模型进行训练,其为根据待纠错文本对应的语料对未训练的模型进行定制化训练。
需要说明的是,在一个待纠错文本中一般包括多个句子,在对该待纠错文本进行纠错时,需要找到该待纠错文本中最长的句子,并确定该句子的长度n、将长度小于n的句子用0在该句子的前部补齐,使得待纠错文本中的所有句子的长度均为n。此外,词向量的大小需要设置,在词向量的大小被设置后,句子中的每个字都被表示为长度为k的向量,即各字对应的向量的维度为k,可以理解,由各字对应的向量所组成的句子可以通过矩阵表示。
需要说明的是,在词向量转换过程中,可将词向量的维度设为768维度,当然,该维度也可以为其他值,例如800,但是,对于目前比较标准的预先训练好的模型(例如BERT模型),其维度一般为768,因此,为方便使用预先训练好的模型,最好将词向量转换过程中的词向量的维度设为768维度。
对于词向量,例如待纠错句子由6个字组成,那么待纠错句子经过词向量转换后,得到的词向量维度为(6,768)。
需要说明的是,在微调该预先训练好的模型或对未训练的模型进行定制化训练的过程中,会按照一定的概率丢弃掉输入的词向量,即随机丢失一些信息,例如训练未训练的模型的过程中存在5%的概率会丢失整个待纠错句子的信息,其目的在于让文本纠错模型学习到这种极端的错误情况,从而加强文本纠错模型的表现效果。
步骤b,基于预设文本位置编码模型对所述待纠错句子进行编码化处理,得到待纠错位置编码。
具体地,基于预设文本位置编码模型对待纠错句子进行编码化处理,得到待纠错位置编码。
需要说明的是,在词向量中还需要考虑位置信息,例如,在句子“我想吃饭,于是我去食堂吃饭了”中,对于文本纠错模型而言,其中的两个“我”是不同的,需要通过对两个“我”进行位置的编码来区别,同样地,对于位置编码也需要通过模型得到,与上述预设文本序列转换模型类似,预设文本位置编码模型既可以通过预先训练好的模型实现,也可以为使用未训练的模型进行训练之后得到的训练好的模型。此外,位置编码的维度和词向量的维度相同,为(6,768)。
步骤c,叠加所述待纠错词向量和所述待纠错位置编码,得到待纠错矩阵。
具体地,叠加上述待纠错词向量和上述待纠错位置编码,得到待纠错矩阵。
需要说明的是,上述叠加的过程为对应位置进行叠加,例如,对于句子“我想吃饭,于是我去食堂吃饭了”,第一个“我”对应一个长度为768的描述文本信息的词向量(0.1,0.2…,0.4),位置编码所对应的是一个的长度为768的向量(0.9,-0.3…,0.7),将两向量的768处对应位置进行叠加之后的向量为(1.0,-0.1…,1.1);同样的,第二个“我”对应的词向量为长度为768的描述文本信息的向量(0.1,0.2…,0.4),但是,其位置编码与第一个“我”的位置编码不同,所以会导致这两个“我”对应的叠加后向量不同。
步骤d,基于所述预设文本序列转换模型对所述上文句子进行向量化处理,得到上文词向量;
步骤e,基于所述预设文本位置编码模型对所述上文句子进行编码化处理,得到上文位置编码;
步骤f,叠加所述上文词向量和所述上文位置编码,得到上文矩阵。
具体地,对于上文句子,同样需要基于预设文本序列转换模型对上文句子进行向量化处理,得到上文词向量,并基于预设文本位置编码模型对上文句子进行编码化处理,得到上文位置编码,最终,叠加该上文词向量和该上文位置编码,得到上文矩阵。其具体实施方式与上述对待纠错句子进行各处理的过程类似,在此不再赘述。
上述叠加所述待纠错词向量和所述待纠错位置编码,得到待纠错矩阵之后,包括:
步骤g,基于预设卷积机制和预设门控机制对所述待纠错矩阵进行迭代处理,得到迭代后待纠错矩阵。
具体地,待纠错句子编码器内部架构包括卷积神经网络单元和门控线性单元,基于卷积神经网络单元提供的预设卷积机制和门控线性单元提供的预设门控机制对待纠错矩阵进行迭代处理,得到迭代后待纠错矩阵,其中,该待纠错矩阵为待纠错句子编码器的输入。
需要说明的是,对于卷积神经网络单元,由上述待纠错矩阵可知,待纠错句子编码器的输入为维度为(6,768)的矩阵。其中,上述矩阵需要经过不同大小的卷积层,以及经过不同长度的卷积窗口,并最终得到不同的卷积后矩阵,需要说明的是,经过多层的卷积处理的效果比经过一层的卷积的效果要好。
需要说明的是,由于各卷积层的大小可能不同,上述待纠错矩阵在经过不同卷积层时得到的卷积后矩阵的大小可能不同。例如待纠错矩阵的维度为(6,768),经过第一层卷积层后,其维度为(6,768),经过第二层卷积层后,其维度为(6,512)。
在待纠错矩阵经过卷积神经网络处理之后,将处理结果(卷积后矩阵)输入到门控线性单元,其公式为:
其中,W,b,V,c都是其中的模型参数,X为待纠错矩阵或卷积后矩阵。其中,每次门控线性单元的输出再输入到下一层卷积层中,如此迭代L次。公式如下:
Hl=GLU(CONV(Hl-1))+Hl-1;
其中,GLU对应门控线性单元,CONV对应卷积神经网络中的卷积层,其中Hl的维度大小为|S|代表的是输入句子的长度,h则是代表卷积神经网络中的隐藏层的大小,其中l=1……L代表为卷积神经网络的L次迭代。
需要说明的是,门控线性单元用于控制信息的传播,例如门控线性单元对应的数字为0,当前卷积层的输出则为0,即输出结果完全为空,而若输出结果为空,则之前传递的信息(例如待纠错矩阵)会完全丢失,导致卷积神经网络中的下一层卷积层没有输入,为避免上述情况的出现,对该卷积中间结果进行残差连接处理,即在当前卷积层的输出之后加上了Hl-1(当前卷积层的上一层卷积层的输出结果),以防止信息的丢失,使得在某次迭代过程中门控线性单元失控时,也可以确保模型能够继续学习或者传播下去。即在该迭代后的输出结果中还添加一个残差结构,该残差结构为Hl-1和当前卷积的输出的隐藏向量相加,从而获得了残差连接的效果。其中,当前卷积的输出为GLU(CONV(Hl-1))。
需要说明的是,隐藏向量为卷积神经网络中的卷积层输出的结果中各字对应的向量,一般地,神经网络除输入层和输出层外还包含其他层(例如卷积层),该其他层为神经网络中的中间结构,本领域技术人员习惯于称之为隐藏层,而隐藏层的输出结果为隐藏结果,即隐藏向量。
上述叠加所述上文词向量和所述上文位置编码,得到上文矩阵之后,包括:
步骤h,基于所述预设卷积机制和所述预设门控机制对所述上文矩阵进行迭代处理,得到迭代后上文矩阵。
具体地,对于上文矩阵,同样地,上文句子编码器内部架构包括卷积神经网络单元和门控线性单元,基于卷积神经网络单元提供的预设卷积机制和门控线性单元提供的预设门控机制对上文矩阵进行迭代处理,得到迭代后上文矩阵,其中,该上文矩阵为上文句子编码器的输入。其具体实施例部分与上述对待纠错矩阵进行各处理的过程类似,在此不再赘述。
步骤S120,基于所述待纠错句子、所述上文句子和预设注意力机制为所述待纠错句子进行评分,得到待纠错注意力评分和上文注意力评分。
具体地,基于预设注意力机制和待纠错句子对待纠错句子进行评分,得到待纠错注意力评分;基于预设注意力机制和上文句子对待纠错句子进行评分,得到上文注意力评分。其中,该预设注意力机制的输入分别来自于待纠错句子编码器和上文句子编码器的输出,即分别为迭代后待纠错矩阵和迭代后上文矩阵。
上述预设注意力机制包括预设待纠错注意力机制和预设上文注意力机制,上述基于所述待纠错句子、所述上文句子和预设注意力机制为所述待纠错句子进行评分,得到待纠错注意力评分和上文注意力评分,包括:
步骤i,基于预设待纠错注意力机制对所述迭代后待纠错矩阵进行评分,得到待纠错注意力评分。
具体地,上述预设注意力机制至少包括预设待纠错注意力机制,通过该预设待纠错注意力机制对迭代后待纠错矩阵进行评分,得到待纠错注意力评分。
可以理解,预设待纠错注意力机制与待纠错句子本身相关与上文信息无关。其中,该预设待纠错注意力机制对应的数学计算公式为:
Zl=Lin(Yl)+T
Xl=SoftMax(Zl*ET)*(E+S)
Cl=Lin(Xl)
其中,Zl是简单线性层运算,T是对应修改的词向量,Xl是当前输出的预测的字,Cl配合参与运算以确定输出到下一层卷积层的信息,ET是待纠错句子编码器中的隐藏层的转置,E是待纠错句子编码器的输出结果,S是输入的词向量,Lin是一个线性组合,SoftMax是激活层。
步骤j,基于预设上文注意力机制对所述迭代后上文矩阵进行评分,得到上文注意力评分。
具体地,上述预设注意力机制还包括预设上文注意力机制,通过预设上文注意力机制对迭代后上文矩阵进行评分,得到上文注意力评分。
可以理解,预设上文注意力机制与上文信息相关。其中,该预设上文注意力机制对应的数学计算公式为:
其中,σ是sigmoid函数,其输出在[0,1]范围内。
需要说明的是,可以采用类似于上述预设待纠错注意力机制中的数学计算公式计算本式中的以及上述Zl对应的和Xl对应的即在使用过程中替换式子中的参数即可,例如参数E不同,可以理解,本式中的E为上文句子编码器的输出结果,而上述预设待纠错注意力机制对应的E为待纠错句子编辑器的输出结果,此外,∧l可以看作为保留来自上文句子编码器对应的注意力机制的概率。
步骤S130,叠加所述待纠错注意力评分和所述上文注意力评分,得到纠错评分。
具体地,叠加待纠错注意力评分和上文注意力评分,得到纠错评分,即综合待纠错注意力评分和上文注意力评分共同对待纠错句子进行评分。
步骤S140,基于所述纠错评分对所述待纠错句子进行纠错,得到纠错后句子。
具体地,基于纠错评分对待纠错句子进行纠错,得到纠错后句子。其中,纠错评分对应待纠错句子中的每个字,即,纠错过程为逐字纠错的过程。
上述基于所述纠错评分对所述待纠错句子进行纠错,得到纠错后句子,包括:
步骤k,对所述纠错评分进行残差连接处理,得到初始纠错结果;
步骤l,对所述初始纠错结果进行激活处理,得到纠错概率;
步骤m,基于所述纠错概率对所述待纠错句子进行纠错,得到纠错后句子。
具体地,对纠错评分进行残差连接处理,得到初始纠错结果;使该初始纠错结果经过线性层和激活层进行线性处理和激活处理,得到纠错概率;基于该纠错概率对待纠错句子进行纠错,得到纠错后句子。
需要说明的是,解码器的输入除包括上述注意力机制的输入外,还包括上述待纠错矩阵(或分别获取词向量和位置编码后进行叠加)。
需要说明的是,在解码器的内部架构中也包括卷积神经网络单元和门控线性单元,与上述两个编码器的不同之处在于,在完成一次迭代后,得到迭代中间结果,下一层卷积层的输入并不仅包括该迭代中间结果,还包括上述注意力机制输出的结果。即门控线性单元的输出结果依旧为Yl=GLU(CONV(Gl-1)),但对于下一层卷积层的输入并不仅包括Yl,还包括其他参数,例如上述注意力机制提供的参数。其中,Gl-1是解码器的第l-1层的输出,而Yl则是第l层的输出。
由上述解码器和待纠错句子编码器注意力机制、解码器和上文句子编码器注意力机制和解码器的输入等可以得到最终的解码器的输出,其公式为:
最后使该Gl经过线性层和激活层进行处理,以输出为纠错句子对应的纠错概率,从而根据该纠错概率对待纠错句子进行纠错,并最终完成待纠错文本的纠错。
本实施例通过获取待纠错文本中的待纠错句子和上文句子,其中,所述上文句子与所述待纠错句子相邻;基于所述待纠错句子、所述上文句子和预设注意力机制为所述待纠错句子进行评分,得到待纠错注意力评分和上文注意力评分;叠加所述待纠错注意力评分和所述上文注意力评分,得到纠错评分;基于所述纠错评分对所述待纠错句子进行纠错,得到纠错后句子。实现了在对待纠错句子进行纠错时,通过待纠错句子和上文句子对待纠错句子进行评分,以同时考虑待纠错句子的信息和其上文句子的信息,并结合两者的信息以综合考虑对待纠错句子进行纠错的方案,使得通过对待纠错文本进行纠错后,得到的纠错后的文本的准确率得到提高。
参照图3,基于上述本发明文本纠错方法第一实施例,提出第二实施例,所述基于所述纠错评分对所述待纠错句子进行纠错,得到纠错后句子之后,包括:
步骤S250,基于预设语义评判模型对所述纠错后句子进行重评分处理,得到语义评分。
具体地,在通过上述纠错概率对待纠错句子进行纠错后,一次得到的纠错结果可通过预设语义评判模型对纠错后句子进行重评分处理,以得到语义评分。
步骤S260,若所述语义评分小于预设评分阈值,则基于所述预设语义评判模型和所述语义评分修改所述纠错后句子。
具体地,若该语义评分小于预设评分阈值,则基于预设语义评判模型和语义评分修改纠错后句子,其公式为:
其中,通过除ti之外的T-i来计算中间字的概率,|T|是经过修改的文本的长度。
在经过上述修改后,得到的目标纠错后句子会更加通顺。
需要说明的是,该预设语义评判模型为区别于文本纠错模型的模型,或者该预设语义评判模型为文本纠错模型中区别于组成部分待纠错句子编码器、上文句子编码器和解码器的新的组成部分,该预设语义评判模型的使用,使得文本纠错模型不止要在梯度、损失函数等方面表现得很好,还需要通过该预设语义评判模型来评判该纠错后句子的语义是否通顺,并得到最终的纠错后文本。
本实施通过基于预设语义评判模型对所述纠错后句子进行重评分处理,得到语义评分;若所述语义评分小于预设评分阈值,则基于所述预设语义评判模型和所述语义评分修改所述纠错后句子。实现了在通过文本纠错模型对待纠错文本进行纠错的基础上还通过预设语义评判模型进行重评分处理,使得最后得到的纠错后文本的正确性更高。
此外,本发明还提供一种文本纠错装置,如图4所示,所述文本纠错装置包括:
获取模块10,用于获取待纠错文本中的待纠错句子和上文句子;
评分模块20,用于基于所述待纠错句子、所述上文句子和预设注意力机制为所述待纠错句子进行评分,得到待纠错注意力评分和上文注意力评分;
叠加模块30,用于叠加所述待纠错注意力评分和所述上文注意力评分,得到纠错评分;
纠错模块40,用于基于所述纠错评分对所述待纠错句子进行纠错,得到纠错后句子。
进一步地,所述文本纠错装置还包括:
向量化模块,用于基于预设文本序列转换模型对所述待纠错句子进行向量化处理,得到待纠错词向量;
编码化模块,用于基于预设文本位置编码模型对所述待纠错句子进行编码化处理,得到待纠错位置编码;
叠加模块,用于叠加所述待纠错词向量和所述待纠错位置编码,得到待纠错矩阵;
所述向量化模块还用于基于所述预设文本序列转换模型对所述上文句子进行向量化处理,得到上文词向量;
所述编码化模块还用于基于所述预设文本位置编码模型对所述上文句子进行编码化处理,得到上文位置编码;
所述叠加模块还用于叠加所述上文词向量和所述上文位置编码,得到上文矩阵。
进一步地,所述文本纠错装置还包括:
迭代处理模块,用于基于预设卷积机制和预设门控机制对所述待纠错矩阵进行迭代处理,得到迭代后待纠错矩阵。
进一步地,所述迭代处理模块还用于基于所述预设卷积机制和所述预设门控机制对所述上文矩阵进行迭代处理,得到迭代后上文矩阵。
进一步地,所述评分模块20包括:
评分单元,用于基于预设待纠错注意力机制对所述迭代后待纠错矩阵进行评分,得到待纠错注意力评分;
所述评分单元还用于基于预设上文注意力机制对所述迭代后上文矩阵进行评分,得到上文注意力评分。
进一步地,所述纠错模块40包括:
残差连接单元,用于对所述纠错评分进行残差连接处理,得到初始纠错结果;
激活单元,用于对所述初始纠错结果进行激活处理,得到纠错概率;
纠错单元,用于基于所述纠错概率对所述待纠错句子进行纠错,得到纠错后句子。
进一步地,所述文本纠错装置还包括:
重评分模块,用于基于预设语义评判模型对所述纠错后句子进行重评分处理,得到语义评分;
修改模块,用于若所述语义评分小于预设评分阈值,则基于所述预设语义评判模型和所述语义评分修改所述纠错后句子。
本发明文本纠错装置具体实施方式与上述文本纠错方法各实施例基本相同,在此不再赘述。
此外,本发明还提供一种文本纠错设备。如图5所示,图5是本发明实施例方案涉及的硬件运行环境的结构示意图。
需要说明的是,图5即可为文本纠错设备的硬件运行环境的结构示意图。
如图5所示,该文本纠错设备可以包括:处理器1001,例如CPU,存储器1005,用户接口1003,网络接口1004,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,文本纠错设备还可以包括RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。
本领域技术人员可以理解,图5中示出的文本纠错设备结构并不构成对文本纠错设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图5所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文本纠错程序。其中,操作系统是管理和控制文本纠错设备硬件和软件资源的程序,支持文本纠错程序以及其它软件或程序的运行。
在图5所示的文本纠错设备中,用户接口1003主要用于连接终端,与终端进行数据通信,例如获取终端发送的待纠错文本;网络接口1004主要用于后台服务器,与后台服务器进行数据通信;处理器1001可以用于调用存储器1005中存储的文本纠错程序,并执行如上所述的文本纠错方法的步骤。
本发明文本纠错设备具体实施方式与上述文本纠错方法各实施例基本相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文本纠错程序,所述文本纠错程序被处理器执行时实现如上所述的文本纠错方法的步骤。
本发明计算机可读存储介质具体实施方式与上述文本纠错方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,设备,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的较佳实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种文本纠错方法,其特征在于,所述文本纠错方法包括以下步骤:
获取待纠错文本中的待纠错句子和上文句子,其中,所述上文句子与所述待纠错句子相邻;
基于所述待纠错句子、所述上文句子和预设注意力机制为所述待纠错句子进行评分,得到待纠错注意力评分和上文注意力评分;
叠加所述待纠错注意力评分和所述上文注意力评分,得到纠错评分;
基于所述纠错评分对所述待纠错句子进行纠错,得到纠错后句子。
2.如权利要求1所述的方法,其特征在于,所述获取待纠错文本中的待纠错句子和上文句子之后,包括:
基于预设文本序列转换模型对所述待纠错句子进行向量化处理,得到待纠错词向量;
基于预设文本位置编码模型对所述待纠错句子进行编码化处理,得到待纠错位置编码;
叠加所述待纠错词向量和所述待纠错位置编码,得到待纠错矩阵;
基于所述预设文本序列转换模型对所述上文句子进行向量化处理,得到上文词向量;
基于所述预设文本位置编码模型对所述上文句子进行编码化处理,得到上文位置编码;
叠加所述上文词向量和所述上文位置编码,得到上文矩阵。
3.如权利要求2所述的方法,其特征在于,所述叠加所述待纠错词向量和所述待纠错位置编码,得到待纠错矩阵之后,包括:
基于预设卷积机制和预设门控机制对所述待纠错矩阵进行迭代处理,得到迭代后待纠错矩阵。
4.如权利要求3所述的方法,其特征在于,所述叠加所述上文词向量和所述上文位置编码,得到上文矩阵之后,包括:
基于所述预设卷积机制和所述预设门控机制对所述上文矩阵进行迭代处理,得到迭代后上文矩阵。
5.如权利要求4所述的方法,其特征在于,所述预设注意力机制包括预设待纠错注意力机制和预设上文注意力机制,所述基于所述待纠错句子、所述上文句子和预设注意力机制为所述待纠错句子进行评分,得到待纠错注意力评分和上文注意力评分,包括:
基于预设待纠错注意力机制对所述迭代后待纠错矩阵进行评分,得到待纠错注意力评分;
基于预设上文注意力机制对所述迭代后上文矩阵进行评分,得到上文注意力评分。
6.如权利要求1所述的方法,其特征在于,所述基于所述纠错评分对所述待纠错句子进行纠错,得到纠错后句子,包括:
对所述纠错评分进行残差连接处理,得到初始纠错结果;
对所述初始纠错结果进行激活处理,得到纠错概率;
基于所述纠错概率对所述待纠错句子进行纠错,得到纠错后句子。
7.如权利要求1所述的方法,其特征在于,所述基于所述纠错评分对所述待纠错句子进行纠错,得到纠错后句子之后,包括:
基于预设语义评判模型对所述纠错后句子进行重评分处理,得到语义评分;
若所述语义评分小于预设评分阈值,则基于所述预设语义评判模型和所述语义评分修改所述纠错后句子。
8.一种文本纠错装置,其特征在于,所述文本纠错装置包括:
获取模块,用于获取待纠错文本中的待纠错句子和上文句子;
评分模块,用于基于所述待纠错句子、所述上文句子和预设注意力机制为所述待纠错句子进行评分,得到待纠错注意力评分和上文注意力评分;
叠加模块,用于叠加所述待纠错注意力评分和所述上文注意力评分,得到纠错评分;
纠错模块,用于基于所述纠错评分对所述待纠错句子进行纠错,得到纠错后句子。
9.一种文本纠错设备,其特征在于,所述文本纠错设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的文本纠错程序,所述文本纠错程序被所述处理器执行时实现如权利要求1至7中任一项所述的文本纠错方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本纠错程序,所述文本纠错程序被处理器执行时实现如权利要求1至7中任一项所述的文本纠错方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011644319.XA CN112749551A (zh) | 2020-12-31 | 2020-12-31 | 文本纠错方法、装置、设备及可读存储介质 |
PCT/CN2021/083277 WO2022141844A1 (zh) | 2020-12-31 | 2021-03-26 | 文本纠错方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011644319.XA CN112749551A (zh) | 2020-12-31 | 2020-12-31 | 文本纠错方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112749551A true CN112749551A (zh) | 2021-05-04 |
Family
ID=75649537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011644319.XA Pending CN112749551A (zh) | 2020-12-31 | 2020-12-31 | 文本纠错方法、装置、设备及可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112749551A (zh) |
WO (1) | WO2022141844A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255332A (zh) * | 2021-07-15 | 2021-08-13 | 北京百度网讯科技有限公司 | 文本纠错模型的训练与文本纠错方法、装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116070595B (zh) * | 2023-03-07 | 2023-07-04 | 深圳市北科瑞讯信息技术有限公司 | 语音识别文本纠错方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11580301B2 (en) * | 2019-01-08 | 2023-02-14 | Genpact Luxembourg S.à r.l. II | Method and system for hybrid entity recognition |
CN111507092A (zh) * | 2019-01-29 | 2020-08-07 | 北京博智天下信息技术有限公司 | 一种基于cnn与bert模型的英文语法纠错方法 |
CN110298037B (zh) * | 2019-06-13 | 2023-08-04 | 同济大学 | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 |
-
2020
- 2020-12-31 CN CN202011644319.XA patent/CN112749551A/zh active Pending
-
2021
- 2021-03-26 WO PCT/CN2021/083277 patent/WO2022141844A1/zh active Application Filing
Non-Patent Citations (1)
Title |
---|
SHAMIL CHOLLAMPATT ET.AL: "Cross-Sentence Grammatical Error Correction", PROCEEDINGS OF THE 57TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, pages 435 - 445 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255332A (zh) * | 2021-07-15 | 2021-08-13 | 北京百度网讯科技有限公司 | 文本纠错模型的训练与文本纠错方法、装置 |
CN113255332B (zh) * | 2021-07-15 | 2021-12-24 | 北京百度网讯科技有限公司 | 文本纠错模型的训练与文本纠错方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2022141844A1 (zh) | 2022-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108874174B (zh) | 一种文本纠错方法、装置以及相关设备 | |
CN109446534B (zh) | 机器翻译方法及装置 | |
KR102565275B1 (ko) | 병렬 처리에 기초한 번역 방법 및 장치 | |
CN108170686B (zh) | 文本翻译方法及装置 | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
JP7149560B2 (ja) | リクエスト言換システム、リクエスト言換モデル及びリクエスト判定モデルの訓練方法、及び対話システム | |
CN110516253B (zh) | 中文口语语义理解方法及系统 | |
CN111209740B (zh) | 文本模型训练方法、文本纠错方法、电子设备及存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN110222330B (zh) | 语义识别方法及装置、存储介质、计算机设备 | |
US11803731B2 (en) | Neural architecture search with weight sharing | |
CN112632912A (zh) | 文本纠错方法、装置、设备及可读存储介质 | |
EP3586276A1 (en) | Sequence processing using online attention | |
CN112749551A (zh) | 文本纠错方法、装置、设备及可读存储介质 | |
CN108959388B (zh) | 信息生成方法及装置 | |
CN114757176A (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
CN110196963A (zh) | 模型生成、语义识别的方法、系统、设备及存储介质 | |
CN111639174A (zh) | 文本摘要生成系统、方法、装置及计算机可读存储介质 | |
CN106030568A (zh) | 自然语言处理系统、自然语言处理方法、以及自然语言处理程序 | |
CN110489727B (zh) | 人名识别方法及相关装置 | |
KR101646461B1 (ko) | 딥 러닝을 이용한 한국어 의존 구문 분석 방법 | |
CN113761883A (zh) | 一种文本信息识别方法、装置、电子设备及存储介质 | |
CN112084769A (zh) | 依存句法模型优化方法、装置、设备及可读存储介质 | |
JP2021524095A (ja) | 文章レベルテキストの翻訳方法及び装置 | |
CN112183062A (zh) | 一种基于交替解码的口语理解方法、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |