CN112861517A - 一种中文拼写纠错模型 - Google Patents

一种中文拼写纠错模型 Download PDF

Info

Publication number
CN112861517A
CN112861517A CN202011549372.1A CN202011549372A CN112861517A CN 112861517 A CN112861517 A CN 112861517A CN 202011549372 A CN202011549372 A CN 202011549372A CN 112861517 A CN112861517 A CN 112861517A
Authority
CN
China
Prior art keywords
vector
word
neural network
confusion
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011549372.1A
Other languages
English (en)
Inventor
申兴发
赵庆彪
徐胜
李树丰
刘立立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011549372.1A priority Critical patent/CN112861517A/zh
Publication of CN112861517A publication Critical patent/CN112861517A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种中文拼写纠错模型。本发明是一个输入步长和输出步长一致的编解码模型;将待纠错的句子X={x1,x2,x3…xn},输入到混淆字图卷积神经网络和依存句法关系图卷积神经网络中,输出带有混淆字和关系信息的上下文向量;并将该上下文向量输入到编解码模型中,得到纠正后的句子Y={y1,y2,y3…yn}。本发明充分考虑到字与字之间的上下文关系、依存句法关系和混淆字之间的关系,提出了一种新颖的中文拼写纠错模型。

Description

一种中文拼写纠错模型
技术领域
本发明涉及计算机自然语言处理领域,更具体的说涉及一种端到端的中文拼写纠错模型。
背景技术
中文拼写纠错是一种文本纠错,应用于中文输入法、搜索引擎、聊天机器人、语音助手等智能领域,有很好的应用前景。它帮助汉语学习者更好的理解句子含义,帮助搜索引擎更准确的匹配到主题内容,帮助聊天机器人更准确的获得用户需求并回复最相关的信息。现有的模型没有充分考虑到字或词向量的上下文、依存句法关系和混淆字之间的关系,对此,本文提出一种新颖的端到端的充分考虑到上下文信息、依存句法以及混淆字关系的中文拼写纠错模型。
发明内容
本发明的目的是提供一种中文拼写纠错模型。
本发明解决其技术问题所采用的技术方案如下:
本发明模型是一个输入步长和输出步长一致的编解码模型。将待纠错的句子X笰{x1,x2,x3…xn},输入到混淆字图卷积神经网络(CoGcn)和依存句法关系图卷积神经网络(ReGcn)中,输出带有混淆字和依存句法关系信息的上下文向量。并将该上下文向量输入到编解码模型中,得到纠正后的句子Y笰{y1,y2,y3…yn}。
进一步,所述的混淆字图卷积神经网络具体实现如下:
将现有混淆集中的每一个字当作节点,字与字之间的关系当作边,构造出邻接矩阵A∈RN*N,N指的是混淆集的大小。如果A[i][i]与A[i][j]是字形相似或发音相似的混淆字,则A[i][j]=1,否则A[i][j]=0(0≤i,j≤n-1)。然后将邻接矩阵A正则化。公式如下:
Figure BDA0002857395080000011
其中,I是单位矩阵,
Figure BDA0002857395080000012
Figure BDA0002857395080000013
的度矩阵;
Figure BDA0002857395080000021
通过混淆字图卷积神经网络,捕获混淆字之间相似的信息,将混淆字映射到相同的向量空间。每一层的图卷积公式如下:
Figure BDA0002857395080000022
其中,H∈RN*D,D是字向量的维度,它是隐藏层向量。用Bert预训练的上下文字向量初始化H0。Wl∈RD*D,是可训练的参数。为了保持原始语义,进行叠加操作,公式如下:
Figure BDA0002857395080000023
进一步,所述的依存句法关系图卷积神经网络:
用工具提取句子关系,对输入句子的每个字生成关系向量,以每个字为节点,字与字之间的关系为边,通过依存句法关系图卷积神经网络,提取任意两个字之间的依存句法关系。
每一卷积层中每一个节点的图卷积后提取的依存句法关系向量如下:
Figure BDA0002857395080000024
其中l指的是第l层卷积层,i指的是当前节点,R是字与字之间的所有关系,
Figure BDA0002857395080000025
是指与当前节点i具有关系r的所有节点,c是缩放因子,
Figure BDA0002857395080000026
w0 l是可训练的参数,b是偏置参数,h∈R1*D,w∈RD*D,b∈R1*D,D是关系向量的维度。每个节点与其关系节点进行卷积操作,捕获依存句法关系信息。
由于不是每个字都有混淆字,因此,如果句子中的字不在混淆集中,就用Bert预训练的上下文字向量表示;否则用混淆字图神经网络提取的混淆字向量表示。混淆字图神经网络输出的是一个RN*D的矩阵,
Figure BDA0002857395080000027
表示混淆集中第i个字的具有上下文信息和混淆字信息的向量。将混淆字图卷积神经网络提取的混淆字向量称为hc,Bert预训练的上下文向量成为hb,则:
Figure BDA0002857395080000031
依存句法关系图卷积神经网络的输出是每一个字的依存句法关系向量
Figure BDA0002857395080000032
将依存句法关系图卷积神经网络提取的依存句法关系向量称为hr。将上下文向量hb或混淆字向量hc与依存句法关系向量hr融合在一起,
Figure BDA0002857395080000033
将融合的向量输送到编码器。
Figure BDA0002857395080000034
所述编码器是一个双向的长短期记忆网络(LSTM),是循环神经网络的一种。将编码器在最终时间步的隐藏状态作为解码器的初始隐藏状态。解码器是一个单向的LSTM循环神经网络:
Figure BDA0002857395080000035
其中,
Figure BDA0002857395080000036
在训练阶段是目标字的混合向量;在测试阶段是前一个时间步推断出的目标向量。通过注意力机制得到全局上下文向量
Figure BDA0002857395080000037
其中αij是每一个时间步的隐藏状态对应的权重。
Figure BDA0002857395080000038
Figure BDA0002857395080000039
将每个时间步对应的全局上下文向量和解码层的隐藏层向量串联起来,并进行归一化:
Figure BDA00028573950800000310
其中Wt∈RM*D,W是可学习的参数,M是Bert词汇表的大小。损失函数是交叉熵损失函数,
Figure BDA00028573950800000311
最终输出纠正后的句子。
本发明的有益效果:
本发明充分考虑到字与字之间的上下文关系、依存句法关系和混淆字之间的关系,提出了一种新颖的中文拼写纠错模型。
附图说明
图1为本发明模型结构图
图2为本发明流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1和图2所示,本发明模型是一个输入步长和输出步长一致的编解码模型。将待纠错的句子X笰{x1,x2,x3…xn},输入到混淆字图卷积神经网络(CoGcn)和依存句法关系图卷积神经网络(ReGcn)中,输出带有混淆字和关系信息的上下文向量。并将该上下文向量输入到编解码模型中,得到纠正后的句子Y笰{y1,y2,y3…yn}。
进一步,所述的混淆字图卷积神经网络具体实现如下:
将现有混淆集中的每一个字当作节点,字与字之间的关系当作边,构造出邻接矩阵A∈RN*N,N指的是混淆集的大小。如果A[i][i]与A[i][j]是字形相似或发音相似的混淆字,则A[i][j]=1,否则A[i][j]=0(0≤i,j≤n-1)。然后将邻接矩阵A正则化。公式如下:
Figure BDA0002857395080000041
其中,I是单位矩阵,
Figure BDA0002857395080000042
Figure BDA0002857395080000043
的度矩阵;
Figure BDA0002857395080000044
通过混淆字图卷积神经网络,捕获混淆字之间相似的信息,将混淆字映射到相同的向量空间。每一层的图卷积公式如下:
Figure BDA0002857395080000045
其中,H∈RN*D,D是字向量的维度,它是隐藏层向量。用Bert预训练的上下文字向量初始化H0。Wl∈RD*D,是可训练的参数。为了保持原始语义,进行叠加操作,公式如下:
Figure BDA0002857395080000046
进一步,所述的依存句法关系图卷积神经网络:
用工具提取句子关系,对输入句子的每个字生成关系向量,以每个字为节点,字与字之间的关系为边,通过依存句法关系图卷积神经网络,提取任意两个字之间的依存句法关系。
每一卷积层中每一个节点的图卷积后获取的句法关系向量如下:
Figure BDA0002857395080000051
其中l指的是第l层卷积层,i指的是当前节点,R是字与字之间的所有关系,
Figure BDA0002857395080000052
是指与当前节点i具有关系r的所有节点,c是缩放因子,
Figure BDA0002857395080000053
w0 l是可训练的参数,b是偏置参数,h∈R1*D,w∈RD*D,b∈R1*D,D是关系向量的维度。每个节点与其关系节点进行卷积操作,捕获句法关系信息。
由于不是每个字都有混淆字,因此,如果句子中的字不在混淆集中,就用Bert预训练的上下文字向量表示;否则用混淆字图神经网络提取的混淆字向量表示。混淆字图神经网络输出的是一个RN*D的矩阵,
Figure BDA0002857395080000054
表示混淆集中第i个字的具有上下文信息和混淆字信息的向量。将混淆字图卷积神经网络获取的混淆字向量称为hc,Bert预训练的上下文向量成为hb,则:
Figure BDA0002857395080000055
依存句法关系图卷积神经网络的输出是每一个字的依存句法关系向量
Figure BDA0002857395080000056
将依存句法关系图卷积神经网络提取的依存句法关系向量称为hr。将上下文向量hb或混淆字向量hc与依存句法关系向量hr融合在一起,
Figure BDA0002857395080000057
将融合的向量输送到编码器。
Figure BDA0002857395080000058
所述编码器是一个双向的长短期记忆网络(LSTM),是循环神经网络的一种。将编码器在最终时间步的隐藏状态作为解码器的初始隐藏状态。解码器是一个单向的LSTM循环神经网络:
Figure BDA0002857395080000061
其中,
Figure BDA0002857395080000062
在训练阶段是目标字的混合向量;在测试阶段是前一个时间步推断出的目标向量。通过过注意力机制得到全局上下文向量
Figure BDA0002857395080000063
其中αij是每一个时间步的隐藏状态对应的权重。
Figure BDA0002857395080000064
将每个时间步对应的全局上下文向量和解码层的隐藏层向量串联起来,并进行归一化:
Figure BDA0002857395080000065
其中Wt∈RM*D,W是可学习的参数,M是Bert词汇表的大小。损失函数是交叉熵损失函数,
Figure BDA0002857395080000066
最终输出纠正后的句子。
实施例1:
待纠错的句子:遇到逆竟时,我们必须用于面对。
通过混淆字图卷积神经网络输出的混淆字向量矩阵,我们找出待纠错句子中每一个字对应的混淆字向量,如果待纠错字不在混淆集中,我们用Bert预训练的上下文向量表示。
通过工具提取待纠错句子的关系,将每个字对应的关系向量输入依存句法关系图卷积神经网络,获取每个字的依存关系向量。
将待纠错字的混淆字向量或上下文向量和依存关系向量融合起来,E笰{e1,e2,e3…e15}输入编解码模型中,输出纠正后的句子。
纠正后的句子:遇到逆境时,我们必须勇于面对。

Claims (4)

1.一种中文拼写纠错模型,其特征在于该模型是一个输入步长和输出步长一致的编解码模型;将待纠错的句子X={x1,x2,x3...xn},输入到混淆字图卷积神经网络和依存句法关系图卷积神经网络中,输出带有混淆字和依存句法关系信息的上下文向量;并将该上下文向量输入到编解码模型中,得到纠正后的句子Y={y1,y2,y3...yn}。
2.根据权利要求1所述的一种中文拼写纠错模型,其特征在于所述的混淆字图卷积神经网络具体实现如下:
将现有混淆集中的每一个字当作节点,字与字之间的关系当作边,构造出邻接矩阵A∈RN*N,N指的是混淆集的大小;如果A[i][i]与A[i][j]是字形相似或发音相似的混淆字,则A[i][j]=1,否则A[i][j]=0(0≤i,j≤n-1);然后将邻接矩阵A正则化;公式如下:
Figure RE-FDA0003019999350000011
其中,I是单位矩阵,
Figure RE-FDA0003019999350000012
Figure RE-FDA0003019999350000013
的度矩阵;
Figure RE-FDA0003019999350000014
通过混淆字图卷积神经网络,捕获混淆字之间相似的信息,将混淆字映射到相同的向量空间,每一层的图卷积公式如下:
Figure RE-FDA0003019999350000015
其中,H∈RN*D,D是字向量的维度,它是隐藏层向量;用Bert预训练的上下文字向量初始化H0;Wl∈RD*D,是可训练的参数;为了保持原始语义,进行叠加操作,公式如下:
Figure RE-FDA0003019999350000016
3.根据权利要求2所述的一种中文拼写纠错模型,其特征在于所述的依存句法关系图卷积神经网络:
用工具提取句子关系,对输入句子的每个字生成关系向量,以每个字为节点,字与字之间的关系为边,通过依存句法关系图卷积神经网络,提取任意两个字之间的依存句法关系;
每一卷积层中每一个节点的图卷积后提取的依存句法关系向量如下:
Figure RE-FDA0003019999350000021
其中l指的是第l层卷积层,i指的是当前节点,R是字与字之间的所有关系,
Figure RE-FDA0003019999350000022
是指与当前节点i具有关系r的所有节点,c是缩放因子,
Figure RE-FDA0003019999350000023
w0 l是可训练的参数,b是偏置参数,h∈R1*D,w∈RD*D,b∈R1*D,D是关系向量的维度;每个节点与其关系节点进行卷积操作,捕获依存句法关系信息。
4.根据权利要求3所述的一种中文拼写纠错模型,其特征在于由于如果句子中的字不在混淆集中,就用Bert预训练的上下文字向量表示;否则用混淆字图神经网络提取的混淆字向量表示;混淆字图神经网络输出的是一个RN*D的矩阵,
Figure RE-FDA0003019999350000024
表示混淆集中第i个字的具有上下文信息和混淆字信息的向量;将混淆字图卷积神经网络提取的混淆字向量称为hc,Bert预训练的上下文向量成为hb,则:
Figure RE-FDA0003019999350000025
依存句法关系图卷积神经网络的输出是每一个字的依存句法关系向量
Figure RE-FDA0003019999350000026
将依存句法关系图卷积神经网络提取的依存句法关系向量称为hr;将上下文向量hb或混淆字向量hc与依存句法关系向量hr融合在一起,
Figure RE-FDA0003019999350000027
将融合的向量输送到编码器;
Figure RE-FDA00030199993500000211
所述编码器是一个双向的长短期记忆网络;将编码器在最终时间步的隐藏状态作为解码器的初始隐藏状态;
解码器是一个单向的LSTM循环神经网络:
Figure RE-FDA0003019999350000029
其中,
Figure RE-FDA00030199993500000210
在训练阶段是目标字的混合向量;在测试阶段是前一个时间步推断出的目标向量;通过注意力机制得到全局上下文向量
Figure RE-FDA0003019999350000031
其中αij是每一个时间步的隐藏状态对应的权重;
Figure RE-FDA0003019999350000032
将每个时间步对应的全局上下文向量和解码层的隐藏层向量串联起来,并进行归一化:
Figure RE-FDA0003019999350000033
其中Wt∈RM*D,W是可学习的参数,M是Bert词汇表的大小;损失函数是交叉熵损失函数,
Figure RE-FDA0003019999350000034
最终输出纠正后的句子。
CN202011549372.1A 2020-12-24 2020-12-24 一种中文拼写纠错模型 Pending CN112861517A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011549372.1A CN112861517A (zh) 2020-12-24 2020-12-24 一种中文拼写纠错模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011549372.1A CN112861517A (zh) 2020-12-24 2020-12-24 一种中文拼写纠错模型

Publications (1)

Publication Number Publication Date
CN112861517A true CN112861517A (zh) 2021-05-28

Family

ID=75996643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011549372.1A Pending CN112861517A (zh) 2020-12-24 2020-12-24 一种中文拼写纠错模型

Country Status (1)

Country Link
CN (1) CN112861517A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306596A (zh) * 2023-03-16 2023-06-23 北京语言大学 一种结合多重特征进行中文文本拼写检查的方法及装置
CN117151084A (zh) * 2023-10-31 2023-12-01 山东齐鲁壹点传媒有限公司 一种中文拼写、语法纠错方法、存储介质及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306596A (zh) * 2023-03-16 2023-06-23 北京语言大学 一种结合多重特征进行中文文本拼写检查的方法及装置
CN116306596B (zh) * 2023-03-16 2023-09-19 北京语言大学 一种结合多重特征进行中文文本拼写检查的方法及装置
CN117151084A (zh) * 2023-10-31 2023-12-01 山东齐鲁壹点传媒有限公司 一种中文拼写、语法纠错方法、存储介质及设备
CN117151084B (zh) * 2023-10-31 2024-02-23 山东齐鲁壹点传媒有限公司 一种中文拼写、语法纠错方法、存储介质及设备

Similar Documents

Publication Publication Date Title
CN111651557B (zh) 一种自动化文本生成方法、装置及计算机可读存储介质
CN107357789B (zh) 融合多语编码信息的神经机器翻译方法
CN108563653B (zh) 一种用于知识图谱中知识获取模型的构建方法及系统
US7165032B2 (en) Unsupervised data-driven pronunciation modeling
CN111897908A (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
US11475225B2 (en) Method, system, electronic device and storage medium for clarification question generation
CN112861517A (zh) 一种中文拼写纠错模型
CN113704416B (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN113987147A (zh) 样本处理方法及装置
WO2023231576A1 (zh) 混合语言语音识别模型的生成方法及装置
CN115759042A (zh) 一种基于句法感知提示学习的句子级问题生成方法
CN114218928A (zh) 一种基于图知识和主题感知的抽象文本摘要方法
RU2712101C2 (ru) Предсказание вероятности появления строки с использованием последовательности векторов
Gao et al. Generating natural adversarial examples with universal perturbations for text classification
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
CN113360610A (zh) 基于Transformer模型的对话生成方法及系统
Park et al. Softregex: Generating regex from natural language descriptions using softened regex equivalence
CN115374270A (zh) 一种基于图神经网络的法律文本摘要生成方法
CN114218926A (zh) 一种基于分词与知识图谱的中文拼写纠错方法及系统
CN115455197A (zh) 一种融合位置感知细化的对话关系抽取方法
CN111401003A (zh) 一种外部知识增强的幽默文本生成方法
US20210124877A1 (en) Computer-implemented method and device for processing data
CN109815497A (zh) 基于句法依存的人物属性抽取方法
CN113449517B (zh) 基于bert门控多窗口注意力网络模型的实体关系抽取方法
Zhang et al. Opinion mining with sentiment graph

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination