CN114676684B - 一种文本纠错方法、装置、计算机设备及存储介质 - Google Patents
一种文本纠错方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN114676684B CN114676684B CN202210261982.4A CN202210261982A CN114676684B CN 114676684 B CN114676684 B CN 114676684B CN 202210261982 A CN202210261982 A CN 202210261982A CN 114676684 B CN114676684 B CN 114676684B
- Authority
- CN
- China
- Prior art keywords
- text
- confusion
- graph
- corpus
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012937 correction Methods 0.000 title claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims abstract description 79
- 238000003062 neural network model Methods 0.000 claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 53
- 238000005096 rolling process Methods 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 238000012986 modification Methods 0.000 claims abstract description 21
- 230000004048 modification Effects 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 59
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000010354 integration Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000003491 array Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能技术领域,揭露了一种文本纠错方法、装置、计算机设备及存储介质。该识别方法包括:利用文本提取器提取待纠错文本的文本表示;根据预置的形近混淆语料集和音近混淆语料集构建混淆预料图结构;将文本中的汉字分为第一类汉字和第二汉字,将第一类汉字的文本表示和邻接矩阵输入图卷积神经网络模型,进行图卷积操作与图注意力计算,图卷积神经网络模型输出叠加了文义和音近形近相似性的向量表示组成的特征矩阵;将特征矩阵输入第一分类器进行更改处理,将第二汉字的文本表示输入第二分类器进行更改处理,得到目标文本。本发明本发明可以解决文本纠错的精确度不高的问题。
Description
技术领域
本发明涉及表格图像识别技术领域,更为具体来说,本发明能够提供一种文本纠错方法、装置、计算机设备及存储介质。
背景技术
在人工智能领域中,中文纠错是自然语言处理中的一个纠察优化步骤,中文纠错的能力越高说明自然语言处理系统的处理准确性越高。中文纠错具体为从包含各种错误的文本中进行错误纠正,还原出正确的标准文本。随着科学技术的发展,中文纠错广泛应用于语音识别和社交网络等场景。
在中文语境下,拼写错误主要来自人工书写错误、语音/图像识别错误等,从错误类型来看,由于字词的相似性导致的混用、误用相对较为常见,这种字词混淆往往来自字词音系相仿或者字形类似,而非仅仅与文义相关。
在英语语境下的拼写错误纠正已有可行方案,但英语和汉语在语言学上存在较大差距。与英文语境相比,中文表述中缺乏天然的语词切分标记,且中文字词不具有英语单词的意群特性,在不同语境下可能分歧较大,因而直接套用英语的文本纠错方案存在局限性。
目前的中文文本纠错方案主要运用主流的语言模型或者序列模型对中文语词进行文义进行学习,忽略了字词混淆中由于音系和字形相似所造成的混用错误,可能导致修改后语义正确但与原句试图表达的意思相去较大;一部分改进方案将已有的文词混淆信息用于对候选修改选项作筛选,但没有将此信息集融入训练过程,没有充分抽取已有混淆信息集中的字形和发音相似性。
发明内容
为解决现有技术存在的一个或多个问题,本发明的主要目的在于提供一种文本纠错方法、装置、计算机设备及存储介质。
为实现上述技术目的,本发明公开了一种文本纠错方法,该文本纠错方法具体包括但不限于如下的至少一个步骤。
利用文本提取器提取待纠错文本的文本表示;
根据预置的形近混淆语料集和音近混淆语料集构建混淆预料图结构,所述混淆预料图结构以混淆集中的每一个字当作节点,字与字之间的关系当作边,构造出邻接矩阵;
将所述文本中的汉字分为第一类汉字和第二汉字,将所述第一类汉字的文本表示和所述邻接矩阵输入图卷积神经网络模型,进行图卷积操作与图注意力计算,所述图卷积神经网络模型输出叠加了文义和音近形近相似性的向量表示组成的特征矩阵;所述第一类汉字与所述形近混淆语料集和所述音近混淆语料集存在匹配项,所述文本中第一类汉字以外的其他汉字为第二类汉字;
将所述特征矩阵输入第一分类器进行更改处理,将第二汉字的文本表示输入第二分类器进行更改处理,得到目标文本。
在一些实施例中,所述利用文本提取器提取待纠错文本的文本表示,包括:
训练待纠错文本中的汉字,得到所述汉字的嵌入向量;
将所述嵌入向量输入自注意力机制和前馈网络层得到每个汉字的文本表示。
在一些实施例中,所述训练待纠错文本中的汉字,得到所述汉字的嵌入向量,包括:
根据Word2Vec中的Skip-Gram神经网络模型训练所述待纠错文本中的汉字,得到每个汉子的字向量以及每个汉字的位置向量,将每个汉子的字向量和位置向量进行相加得到所述嵌入向量。
在一些实施例中,所述将第一类汉字的文本表示和所述邻接矩阵输入图卷积神经网络模型,进行图卷积操作与图注意力计算,包括:
在图卷积神经网络中,对任一混淆集的第l层,按照第一计算公式进行卷积操作,所述第一计算公式为:
其中,Ak为所述邻接矩阵,k∈{1,2};为标准化后的邻接矩阵;H0为第一类汉字的文本表示,Hl为第l层的输出结果,维度为NxD;/>为第l层可训练参数矩阵,维度为DxD;
在多个混淆集的第l层,对每一汉字的各图卷积结果根据第二公式进行加权整合操作,所述第二公式为:
其中,f1(A1,Hl)i表示音近混淆集第l层图卷积结果的第i行,f2(A2,Hl)i表示形近混淆集第l层图卷积结果的第i行;和/>分别为音近混淆集第l层图卷积结果第i行的注意力权重系数和和形近混淆集第l层图卷积结果第i行的注意力权重系数;
将每一汉字所得的行向量拼接得到第l层的加权整合结果矩阵Cl。
按照按照第三公式采用累积式的方法将本层之前所有层的输出结果和本层加权整合结果加总作为输出结果,在文义信息的基础上学习和叠加音近和形近混淆信息,所述第三公式为:
其中,Cl为多混淆集加权整合结果,Hi为图卷积神经网络第i层的层输出结果。
在一些实施例中,将所述第一类汉字的文本表示和所述邻接矩阵输入图卷积神经网络模型之前,所述方法还包括:
构建图卷积神经网络模型;
所述图卷积神经网络模型的输入为包含错误文字的训练文本的所述文本表示和所述邻接矩阵,所述图卷积神经网络模型的输出为所述特征矩阵;
根据所述特征矩阵训练图卷积神经网络模型。
在一些实施例中,所述根据所述特征矩阵训练图卷积神经网络模型,具体为:
在每个训练周期,将由错误语句X和对应的纠错后语句Y构成的训练集输入待训练的神经网络模型,进行图卷积操作与图注意力计算,得到该训练周期的训练特征矩阵;
基于所述训练特征矩阵和预设损失函数,计算当前周期的损失值;
根据每个周期的损失值更新神经网络模型,得到所述图卷积神经网络模型。
在一些实施例中,所述方法还包括:
获取训练语料,利用预置的相似度函数计算所述训练语料与预置的字典中的标准语料之间的基础字形相似度;
筛选出所述基础字形相似度大于相似阈值的目标字形相似度,将所述目标字形相似度对应的标准语料作为所述训练语料的形近混淆语料,将所述训练语料与所述形近混淆语料组合为形近混淆组合,通过所述形近混淆组合生成形近混淆语料集;
利用预置的模糊匹配算法将所述训练语料转化为语料音标,筛选出所述语料音标中的目标音标,所述目标音标包括具有易混淆的韵母和/或声母;
将目标音标转化为音音近标,并在所述预置的字典中查询标准音标与所述音音近标相同的标准语料,将所述标准音标与所述音音近标相同的标准语料作为音近混淆语料,将所述训练语料与所述音近混淆语料组合为音近混淆组合,通过所述音近混淆组合生成音近混淆语料集。
为实现上述技术目的,本发明还公开了文本纠错装置,该文本纠错装置可包括但不限于文本提取单元、第一构建单元、第二构建单元、更改单元。
文本提取单元,用于利用文本提取器提取待纠错文本的文本表示;
第一构建单元,用于根据预置的形近混淆语料集和音近混淆语料集构建混淆预料图结构,所述混淆预料图结构以混淆集中的每一个字当作节点,字与字之间的关系当作边,构造出邻接矩阵;
第二构建单元,用于将所述文本中的汉字分为第一类汉字和第二汉字,将第一类汉字的文本表示和所述邻接矩阵输入图卷积神经网络模型,进行图卷积操作与图注意力计算,所述图卷积神经网络模型输出叠加了文义和音近形近相似性的向量表示组成的特征矩阵;所述第一类汉字与形近混淆语料集和音近混淆语料集存在匹配项,所述文本中第一类汉字以外的其他汉字为第二类汉字;
更改单元,用于将所述特征矩阵输入第一分类器进行更改处理,将第二汉字的文本表示输入第二分类器进行更改处理,得到目标文本。
为实现上述技术目的,本发明可提供一种计算机设备,计算机设备可包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行本发明任一实施例中的所述文本纠错方法的步骤。
为实现上述技术目的,本发明还能够具体提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行本发明任一实施例中的所述文本纠错方法的步骤。
上述文本纠错方法、装置、计算机设备及存储介质,利用文本提取器提取待纠错文本的文本表示;
根据预置的形近混淆语料集和音近混淆语料集构建混淆预料图结构,混淆预料图结构以混淆集中的每一个字当作节点,字与字之间的关系当作边,构造出邻接矩阵;将文本中的汉字分为第一类汉字和第二汉字,将第一类汉字的文本表示和邻接矩阵输入图卷积神经网络模型,进行图卷积操作与图注意力计算,图卷积神经网络模型输出叠加了文义和音近形近相似性的向量表示组成的特征矩阵;第一类汉字与形近混淆语料集和音近混淆语料集存在匹配项,文本中第一类汉字以外的其他汉字为第二类汉字;将特征矩阵输入第一分类器进行更改处理,将第二汉字的文本表示输入第二分类器进行更改处理,得到目标文本。本发明实施例中,将相似发音信息和相似字形信息融入到中文纠错模型中,使得在考虑词义信息的同时更倾向于选择相似发音或相似字形的候选字词。将相似发音信息和相似字形信息转化为邻接矩阵,并使用图卷积操作吸收同音同形信息,从而使文本纠错结果更合理可靠。能够对多个汉字混淆信息集作加权整合,使得模型能够容纳不同类型的混淆信息,具有更好的拓展性;同时多个汉字混淆信息集的图卷积操作能够并行处理后再合并,提高了模型的运行速度。
附图说明
图1示出了本发明一个或多个实施例中文本纠错方法的流程示意图。
图2示出了本发明一个或多个实施例中基于语义分割确定表格单元的流程示意图。
图3示出了本发明一个或多个实施例中计算机设备的内部结构框图示意图。
具体实施方式
下面结合说明书附图对本发明提供的一种文本纠错方法、装置、计算机设备及存储介质进行详细的解释和说明。
如图1所示,本发明一些实施例能够提供一种文本纠错方法,该识别方法包括但不限于如下的至少一个步骤。
步骤101、利用文本提取器提取待纠错文本的文本表示;
其中,待纠错的文本序列X={x1,x2,…xn},输出数据为纠错后的文本序列Y={y1,y2,…yn}。
在一些实施例中,步骤101中利用文本提取器提取待纠错文本的文本表示,包括:
步骤1011、训练待纠错文本中的汉字,得到汉字的嵌入向量;
在一些实施例中,步骤1011中训练待纠错文本中的汉字,得到汉字的嵌入向量,包括:
根据Word2Vec中的Skip-Gram神经网络模型训练待纠错文本中的汉字,得到每个汉子的字向量以及每个汉字的位置向量,将每个汉子的字向量和位置向量进行相加得到嵌入向量。
Word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
步骤1012、将嵌入向量输入自注意力机制和前馈网络层得到每个汉字的文本表示。
该步骤中,对于输入的文本序列X={x1,x2,…xn},将每个汉字通过word2vec机制嵌入高维空间的字向量[e1,e2,…,eD],得到子向量矩阵E;同时为了兼顾每个汉字的位置信息,使用位置向量[p1,p2,…,pD]表示该汉字的位置信息,并将两个向量相加得到最终的汉文本表示以输入后续模型。
在一些实施例中,述获取待纠错的文本,采用预置的文本提取器提取待纠错文本的文本表示,还包括:
将文本表示输入多头自注意力机制和前馈网络层,得到每个汉字的文本表示。
其中,对于输入的文本表示,在自注意力机制层被转化为查询矢量Q,键矢量K和值矢量V,计算得到每个汉字相对其他汉字的权重:
其中dk为键矢量K的维度,这个归一化操作可以让梯度更稳定。
为了在不同的表示子空间里学习到相关信息,在自注意力机制的基础上采用多头自注意力机制,分别初始化多组Q,K,V矩阵,并将每组的注意力矩阵作如下连接,形成一个新的矩阵:
Z=concat(z1,z2,…,zm)
将上述矩阵继续传入前馈神经网络层即可得到最终的多头自注意力机制输出。
在文本提取器这一步骤中,将分词文本表示组成的序列输入,经过多次多头自注意力机制和前馈网络层的传递后得到每个汉字在融入了文义信息的文本表示vi。
步骤102、根据预置的形近混淆语料集和音近混淆语料集构建混淆预料图结构,混淆预料图结构以混淆集中的每一个字当作节点,字与字之间的关系当作边,构造出邻接矩阵;
服务器在得到形近混淆语料集合与音近混淆语料集合后,建立混淆预料图结构与音近混淆结构图谱,图神经网络(graph neuralnetworks,GNN)是一种直接作用于图结构上的神经网络,其中,图是由顶点和边两部分组成的一种数据结构,如:图G可以通过节点集合V和边E进行描述,公式为G=(V,E),根据节点之间是否存在方向依赖关系确定边,边可以是有向的也可以是无向的,在本申请中图G中的节点即为混淆集中的每一个字当作节点,连接节点的边即为字与字之间的关系,可以为形近混淆语料关系或音近语料关系。此外,若两个节点之间没有边,则说明两个节点对应的语料之间不存在上述关系。
步骤103、将文本中的汉字分为第一类汉字和第二汉字,将第一类汉字的文本表示和邻接矩阵输入图卷积神经网络模型,进行图卷积操作与图注意力计算,图卷积神经网络模型输出叠加了文义和音近形近相似性的向量表示组成的矩阵;第一类汉字与形近混淆语料集和音近混淆语料集存在匹配项,文本中第一类汉字以外的其他汉字为第二类汉字;
其中,第一类汉字是存在于形近混淆语料集或音近混淆语料集的汉字。
在一些实施例中,上述步骤103中将第一类汉字的文本表示和邻接矩阵输入图卷积神经网络模型,进行图卷积操作与图注意力计算,包括:
图卷积操作:对同音混淆集,将汉字之间的混淆关系转化为邻接矩阵A1∈RN×N,其中N表示混淆集中的汉字个数,表示第i,j字符有同音混淆关系,/>表示第i,j字符不存在同音混淆关系;同理,对同形混淆集,将汉字之间的混淆关系转化为邻接矩阵A2∈RN×N。
在图卷积神经网络中,对任一混淆集的第l层,按照第一计算公式进行卷积操作,第一计算公式为:
其中,Ak为邻接矩阵,k∈{1,2};为标准化后的邻接矩阵;H0为第一类汉字的文本表示,Hl为第l层的输出结果,维度为NxD;/>为第l层可训练参数矩阵,维度为DxD,D和N均为自然数。
多混淆集加权整合:在任一混淆集的第l层,每一行表示一个汉字与所有汉字之间的文义以及同音混淆、同形混淆关系;
在多个混淆集的第l层,对每一汉字的各图卷积结果根据第二公式进行加权整合操作,第二公式为:
其中,f1(A1,Hl)i表示音近混淆集第l层图卷积结果的第i行,f2(A2,Hl)i表示形近混淆集第l层图卷积结果的第i行;和/>分别为音近混淆集第l层图卷积结果第i行的注意力权重系数和和形近混淆集第l层图卷积结果第i行的注意力权重系数。
具体地,上述注意力权重系数可通过下面公式计算所得:
其中,k∈{1,2},wa为可训练参数,β为预设超参数,Ak为邻接矩阵,k∈{1,2};A1为音近混淆集的邻接矩阵;A2为形近混淆集的邻接矩阵,Hk为第l层的输出结果。
将每一汉字所得的行向量拼接得到第l层的加权整合结果矩阵Cl。
累积式输出:经过图卷积操作和多混淆集加权整合之后,采用累积式的方法将之前所有层的输出结果和本层加权整合结果加总作为输出结果,从而在文义信息的基础上不断学习和叠加同音和同形混淆信息。
按照按照第三公式采用累积式的方法将本层之前所有层的输出结果和本层加权整合结果加总作为输出结果,在文义信息的基础上学习和叠加音近和形近混淆信息,第三公式为:
其中,Cl为多混淆集加权整合结果,Hi为图卷积神经网络第i层的层输出结果。
从图卷积操作到多混淆集加权整合到累积式输出即为图卷积神经网络在一个网络层内的全部步骤,通过重复迭代上述流程L次即可得到总共L层的图卷积神经网络。
在本申请的流程中,选取出现在同音混淆集和同形混淆集中的汉字通过文本提取器得到的嵌入向量组成矩阵H0,将H0输入L层的图卷积神经网络得到叠加了文义和同音同形相似性的向量表示组成的矩阵HL。
步骤104、将特征矩阵输入第一分类器进行更改处理,将第二汉字的文本表示输入第二分类器进行更改处理,得到目标文本。
其中,对于出现在音近混淆集或形近混淆集的汉字,将文本表示组成的矩阵通过图卷积神经网络得到HL,作为这些汉字的分类器;对于没有出现在音近混淆集和形近混淆集的汉字,直接使用文本提取器的文本表示ei作为这些汉字的分类器,即分类器W由如下公式表示:
其中,Wi表示文本提取器的词汇集中第i个汉字对应的分类器;ui表示文本提取器的词汇集中第i个汉字在混淆集图神经网络输出结果HL中的索引。
将文本提取器得到的文本表示vi与分类器W通过softmax函数即可得到模型输出结果,即条件概率
最后通过计算对应的对数似然函数得到损失函数:
采用得到那个ei的方法有BERT模型对ei进行纠错,具体地,用bert对ei进行纠错的方法是,例如“我早上吃了”,早这个字不在混淆集里,那么就把“我【masked】上吃了”输入模型得到的对masked这里的一个预测(是一个词向量,可以匹配到字),和“我早上吃了”输入模型得到的对早这个字的词向量表示对比,有差别就是错的,就用mask预测的那个字。
在一些实施例中,上述方法还包括:
步骤1001、构建图卷积神经网络模型;
步骤1002、图卷积神经网络模型的输入为包含错误文字的训练文本的文本表示和邻接矩阵,图卷积神经网络模型的输出为叠加了文义和音近形近相似性的向量表示组成的特征矩阵;
步骤1003、根据特征矩阵训练图卷积神经网络模型。
具体地,上述步骤1003根据特征矩阵训练图卷积神经网络模型,具体为:
将叠加了文义和音近形近相似性的向量输入平均池化层、全连接层以及Softmax层得到文本更改处理结果;
根据更改处理结果和正确更改处理结果反向训练图卷积神经网络模型。
在模型训练阶段,根据由错误语句X和对应的纠错后语句Y构成的训练集,通过最小化损失函数来更新神经网络模型参数来得到最后的模型。即,在每个训练周期,将由错误语句X和对应的纠错后语句Y构成的训练集输入待训练的神经网络模型,进行图卷积操作与图注意力计算,得到该训练周期的训练特征矩阵;基于所述训练特征矩阵和预设损失函数,计算当前周期的损失值;根据每个周期的损失值更新神经网络模型,得到所述图卷积神经网络模型。
具体地,可以将所述叠加了文义和音近形近相似性的向量输入平均池化层、全连接层以及Softmax层得到文本更改处理结果,根据所述更改处理结果和正确更改处理结果反向训练所述图卷积神经网络模型。
在使用模型时,将给定的一个文本序列X′输入最终的模型即可得到纠错后的文本序列Y′。
在一些实施例中,上述方法还包括:
步骤1001、获取训练语料,利用预置的相似度函数计算训练语料与预置的字典中的标准语料之间的基础字形相似度;
步骤1002、筛选出基础字形相似度大于相似阈值的目标字形相似度,将目标字形相似度对应的标准语料作为训练语料的形近混淆语料,将训练语料与形近混淆语料组合为形近混淆组合,通过形近混淆组合生成形近混淆语料集;
步骤1003、利用预置的模糊匹配算法将训练语料转化为语料音标,筛选出语料音标中的目标音标,目标音标包括具有易混淆的韵母和/或声母;
步骤1004、将目标音标转化为音音近标,并在预置的字典中查询标准音标与音音近标相同的标准语料,将标准音标与音音近标相同的标准语料作为音近混淆语料,将训练语料与音近混淆语料组合为音近混淆组合,通过音近混淆组合生成音近混淆语料集。
可以理解的是,需要说明的是,预置的字典为记录大量字词与短语的标准词语库。
在获取训练语料与预置的字典中标准语料后,服务器可以通过预置的相似度
函数计算两者之间的基础字形相似度,进一步说明的是,每个训练语料均可以与标准语料进行基础字形相似度的计算,因此会通过计算得到多个基础字形相似度,在多个基础字形相似度中筛选出基础字形相似度的数值大于相似阈值的目标字形相似度,将目标字形相似度对应的标准语料作为训练语料的形近混淆语料。
如图2所示,与识别方法基于相同的发明构思,本发明一些实施例还能够提供一种文本纠错装置。
本发明实施例提供的文本纠错装置可包括但不限于:
文本提取单元211,用于利用文本提取器提取待纠错文本的文本表示;
第一构建单元212,用于根据预置的形近混淆语料集和音近混淆语料集构建混淆预料图结构,混淆预料图结构以混淆集中的每一个字当作节点,字与字之间的关系当作边,构造出邻接矩阵;
第二构建单元213,用于将文本中的汉字分为第一类汉字和第二汉字,将第一类汉字的文本表示和邻接矩阵输入图卷积神经网络模型,进行图卷积操作与图注意力计算,图卷积神经网络模型输出叠加了文义和音近形近相似性的向量表示组成的特征矩阵;第一类汉字与形近混淆语料集和音近混淆语料集存在匹配项,文本中第一类汉字以外的其他汉字为第二类汉字;
更改单元214,用于将特征矩阵输入第一分类器进行更改处理,将第二汉字的文本表示输入第二分类器进行更改处理,得到目标文本。
图3为一个实施例中计算机设备的内部结构示意图。如图3所示,该计算机设备包括通过系统总线连接的处理器、存储介质、存储器和网络API接口。其中,该计算机设备的存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种数据迁移方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种数据迁移方法。该计算机设备的网络API接口用于与终端连接通信。本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:利用文本提取器提取待纠错文本的文本表示;根据预置的形近混淆语料集和音近混淆语料集构建混淆预料图结构,混淆预料图结构以混淆集中的每一个字当作节点,字与字之间的关系当作边,构造出邻接矩阵;将文本中的汉字分为第一类汉字和第二汉字,将第一类汉字的文本表示和邻接矩阵输入图卷积神经网络模型,进行图卷积操作与图注意力计算,图卷积神经网络模型输出叠加了文义和音近形近相似性的向量表示组成的特征矩阵;第一类汉字与形近混淆语料集和音近混淆语料集存在匹配项,文本中第一类汉字以外的其他汉字为第二类汉字;将特征矩阵输入第一分类器进行更改处理,将第二汉字的文本表示输入第二分类器进行更改处理,得到目标文本。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:利用文本提取器提取待纠错文本的文本表示;根据预置的形近混淆语料集和音近混淆语料集构建混淆预料图结构,混淆预料图结构以混淆集中的每一个字当作节点,字与字之间的关系当作边,构造出邻接矩阵;将文本中的汉字分为第一类汉字和第二汉字,将第一类汉字的文本表示和邻接矩阵输入图卷积神经网络模型,进行图卷积操作与图注意力计算,图卷积神经网络模型输出叠加了文义和音近形近相似性的向量表示组成的特征矩阵;第一类汉字与形近混淆语料集和音近混淆语料集存在匹配项,文本中第一类汉字以外的其他汉字为第二类汉字;将特征矩阵输入第一分类器进行更改处理,将第二汉字的文本表示输入第二分类器进行更改处理,得到目标文本。
本发明涉及的计算机设备可以为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。计算机设备以及终端可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者其他通讯连接方式进行连接,本发明在此不做限制。计算机设备包括可通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种文本纠错方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种文本纠错方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读存储介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM,Random Access Memory),只读存储器(ROM,Read-Only Memory),可擦除可编辑只读存储器(EPROM,Erasable Programmable Read-Only Memory,或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM,Compact Disc Read-Only Memory)。另外,计算机可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA,Programmable Gate Array),现场可编程门阵列(FPGA,Field Programmable Gate Array)等。
在本说明书的描述中,参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本发明可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明实质内容上所作的任何修改、等同替换和简单改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种文本纠错方法,其特征在于,包括:
利用文本提取器提取待纠错文本的文本表示;
根据预置的形近混淆语料集和音近混淆语料集构建混淆预料图结构,所述混淆预料图结构以混淆集中的每一个字当作节点,字与字之间的关系当作边,构造出邻接矩阵;
将所述文本中的汉字分为第一类汉字和第二汉字,将所述第一类汉字的文本表示和所述邻接矩阵输入图卷积神经网络模型,进行图卷积操作与图注意力计算,所述图卷积神经网络模型输出叠加了文义和音近形近相似性的向量表示组成的特征矩阵;所述第一类汉字与所述形近混淆语料集和所述音近混淆语料集存在匹配项,所述文本中第一类汉字以外的其他汉字为第二类汉字;
将所述特征矩阵输入第一分类器进行更改处理,将第二汉字的文本表示输入第二分类器进行更改处理,得到目标文本;
所述将第一类汉字的文本表示和所述邻接矩阵输入图卷积神经网络模型,进行图卷积操作与图注意力计算,包括:
在图卷积神经网络中,对任一混淆集的第l层,按照第一计算公式进行卷积操作,所述第一计算公式为:
其中,为所述邻接矩阵,/>;/>为标准化后的邻接矩阵;/>为第一类汉字的文本表示,/>为第l层的输出结果,维度为NxD;/>为第l层可训练参数矩阵,维度为DxD;
在多个混淆集的第l层,对每一汉字的各图卷积结果根据第二公式进行加权整合操作,所述第二公式为:
其中,表示音近混淆集第/> 层图卷积结果的第i行,/>表示形近混淆集第/>层图卷积结果的第i行;/>和/>分别为音近混淆集第/> 层图卷积结果第i行的注意力权重系数和和形近混淆集第/> 层图卷积结果第i行的注意力权重系数;
将每一汉字所得的行向量拼接得到第l层的加权整合结果矩阵/>。
按照按照第三公式采用累积式的方法将本层之前所有层的输出结果和本层加权整合结果加总作为输出结果,在文义信息的基础上学习和叠加音近和形近混淆信息,所述第三公式为:
其中,为多混淆集加权整合结果,/>为图卷积神经网络第i层的层输出结果;
所述方法还包括:
获取训练语料,利用预置的相似度函数计算所述训练语料与预置的字典中的标准语料之间的基础字形相似度;
筛选出所述基础字形相似度大于相似阈值的目标字形相似度,将所述目标字形相似度对应的标准语料作为所述训练语料的形近混淆语料,将所述训练语料与所述形近混淆语料组合为形近混淆组合,通过所述形近混淆组合生成形近混淆语料集;
利用预置的模糊匹配算法将所述训练语料转化为语料音标,筛选出所述语料音标中的目标音标,所述目标音标包括具有易混淆的韵母和/或声母;
将目标音标转化为音音近标,并在所述预置的字典中查询标准音标与所述音音近标相同的标准语料,将所述标准音标与所述音音近标相同的标准语料作为音近混淆语料,将所述训练语料与所述音近混淆语料组合为音近混淆组合,通过所述音近混淆组合生成音近混淆语料集。
2.根据权利要求1所述的文本纠错方法,其特征在于,所述利用文本提取器提取待纠错文本的文本表示,包括:
训练待纠错文本中的汉字,得到所述汉字的嵌入向量;
将所述嵌入向量输入自注意力机制和前馈网络层得到每个汉字的文本表示。
3.根据权利要求2所述的文本纠错方法,其特征在于,所述训练待纠错文本中的汉字,得到所述汉字的嵌入向量,包括:
根据Word2Vec中的Skip-Gram神经网络模型训练所述待纠错文本中的汉字,得到每个汉子的字向量以及每个汉字的位置向量,将每个汉子的字向量和位置向量进行相加得到所述嵌入向量。
4.根据权利要求1所述的文本纠错方法,其特征在于,将所述第一类汉字的文本表示和所述邻接矩阵输入图卷积神经网络模型之前,所述方法还包括:
构建图卷积神经网络模型;
所述图卷积神经网络模型的输入为包含错误文字的训练文本的所述文本表示和所述邻接矩阵,所述图卷积神经网络模型的输出为所述特征矩阵;
根据所述特征矩阵训练图卷积神经网络模型。
5.根据权利要求1所述的文本纠错方法,其特征在于,所述根据所述特征矩阵训练图卷积神经网络模型,具体为:
在每个训练周期,将由错误语句X和对应的纠错后语句Y构成的训练集输入待训练的神经网络模型,进行图卷积操作与图注意力计算,得到该训练周期的训练特征矩阵;
基于所述训练特征矩阵和预设损失函数,计算当前周期的损失值;
根据每个周期的损失值更新神经网络模型,得到所述图卷积神经网络模型。
6.一种文本纠错装置,其特征在于,包括:
文本提取单元,用于利用文本提取器提取待纠错文本的文本表示;
第一构建单元,用于根据预置的形近混淆语料集和音近混淆语料集构建混淆预料图结构,所述混淆预料图结构以混淆集中的每一个字当作节点,字与字之间的关系当作边,构造出邻接矩阵;
第二构建单元,用于将所述文本中的汉字分为第一类汉字和第二汉字,将第一类汉字的文本表示和所述邻接矩阵输入图卷积神经网络模型,进行图卷积操作与图注意力计算,所述图卷积神经网络模型输出叠加了文义和音近形近相似性的向量表示组成的特征矩阵;所述第一类汉字与形近混淆语料集和音近混淆语料集存在匹配项,所述文本中第一类汉字以外的其他汉字为第二类汉字;
更改单元,用于将所述特征矩阵输入第一分类器进行更改处理,将第二汉字的文本表示输入第二分类器进行更改处理,得到目标文本。
7.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至5中任一项权利要求所述文本纠错方法的步骤。
8.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至5中任一项权利要求所述文本纠错方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210261982.4A CN114676684B (zh) | 2022-03-17 | 2022-03-17 | 一种文本纠错方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210261982.4A CN114676684B (zh) | 2022-03-17 | 2022-03-17 | 一种文本纠错方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114676684A CN114676684A (zh) | 2022-06-28 |
CN114676684B true CN114676684B (zh) | 2024-02-02 |
Family
ID=82073384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210261982.4A Active CN114676684B (zh) | 2022-03-17 | 2022-03-17 | 一种文本纠错方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114676684B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016303A (zh) * | 2020-09-07 | 2020-12-01 | 平安科技(深圳)有限公司 | 基于图神经网络的文本纠错方法、装置、设备及存储介质 |
CN112287670A (zh) * | 2020-11-18 | 2021-01-29 | 北京明略软件系统有限公司 | 文本纠错方法、系统、计算机设备及可读存储介质 |
CN113535975A (zh) * | 2021-06-29 | 2021-10-22 | 南京中新赛克科技有限责任公司 | 一种基于汉字知识图谱的多维度智能纠错方法 |
CN114118064A (zh) * | 2020-08-27 | 2022-03-01 | 海信视像科技股份有限公司 | 显示设备、文本纠错方法及服务器 |
-
2022
- 2022-03-17 CN CN202210261982.4A patent/CN114676684B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118064A (zh) * | 2020-08-27 | 2022-03-01 | 海信视像科技股份有限公司 | 显示设备、文本纠错方法及服务器 |
CN112016303A (zh) * | 2020-09-07 | 2020-12-01 | 平安科技(深圳)有限公司 | 基于图神经网络的文本纠错方法、装置、设备及存储介质 |
WO2021139349A1 (zh) * | 2020-09-07 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于图神经网络的文本纠错方法、装置、设备及存储介质 |
CN112287670A (zh) * | 2020-11-18 | 2021-01-29 | 北京明略软件系统有限公司 | 文本纠错方法、系统、计算机设备及可读存储介质 |
CN113535975A (zh) * | 2021-06-29 | 2021-10-22 | 南京中新赛克科技有限责任公司 | 一种基于汉字知识图谱的多维度智能纠错方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114676684A (zh) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368996B (zh) | 可传递自然语言表示的重新训练投影网络 | |
CN108733792B (zh) | 一种实体关系抽取方法 | |
US11741109B2 (en) | Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system | |
CN107729309B (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN109887484B (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN110263325B (zh) | 中文分词系统 | |
CN110750959A (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN111832282B (zh) | 融合外部知识的bert模型的微调方法、装置及计算机设备 | |
EP3926531B1 (en) | Method and system for visio-linguistic understanding using contextual language model reasoners | |
CN110866098B (zh) | 基于transformer和lstm的机器阅读方法、装置及可读存储介质 | |
KR102379660B1 (ko) | 딥러닝 기반 의미역 분석을 활용하는 방법 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN114358007A (zh) | 多标签识别方法、装置、电子设备及存储介质 | |
CN113128203A (zh) | 基于注意力机制的关系抽取方法、系统、设备及存储介质 | |
RU2712101C2 (ru) | Предсказание вероятности появления строки с использованием последовательности векторов | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
Mankolli et al. | Machine learning and natural language processing: Review of models and optimization problems | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN114781380A (zh) | 一种融合多粒度信息的中文命名实体识别方法、设备和介质 | |
CN113761151A (zh) | 同义词挖掘、问答方法、装置、计算机设备和存储介质 | |
CN111368531B (zh) | 翻译文本处理方法、装置、计算机设备和存储介质 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN112307754A (zh) | 语句获取方法及装置 | |
CN114611529B (zh) | 意图识别方法和装置、电子设备及存储介质 | |
CN114676684B (zh) | 一种文本纠错方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |