CN112861517A - 一种中文拼写纠错模型 - Google Patents
一种中文拼写纠错模型 Download PDFInfo
- Publication number
- CN112861517A CN112861517A CN202011549372.1A CN202011549372A CN112861517A CN 112861517 A CN112861517 A CN 112861517A CN 202011549372 A CN202011549372 A CN 202011549372A CN 112861517 A CN112861517 A CN 112861517A
- Authority
- CN
- China
- Prior art keywords
- vector
- word
- neural network
- confusion
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种中文拼写纠错模型。本发明是一个输入步长和输出步长一致的编解码模型;将待纠错的句子X={x1,x2,x3…xn},输入到混淆字图卷积神经网络和依存句法关系图卷积神经网络中,输出带有混淆字和关系信息的上下文向量;并将该上下文向量输入到编解码模型中,得到纠正后的句子Y={y1,y2,y3…yn}。本发明充分考虑到字与字之间的上下文关系、依存句法关系和混淆字之间的关系,提出了一种新颖的中文拼写纠错模型。
Description
技术领域
本发明涉及计算机自然语言处理领域,更具体的说涉及一种端到端的中文拼写纠错模型。
背景技术
中文拼写纠错是一种文本纠错,应用于中文输入法、搜索引擎、聊天机器人、语音助手等智能领域,有很好的应用前景。它帮助汉语学习者更好的理解句子含义,帮助搜索引擎更准确的匹配到主题内容,帮助聊天机器人更准确的获得用户需求并回复最相关的信息。现有的模型没有充分考虑到字或词向量的上下文、依存句法关系和混淆字之间的关系,对此,本文提出一种新颖的端到端的充分考虑到上下文信息、依存句法以及混淆字关系的中文拼写纠错模型。
发明内容
本发明的目的是提供一种中文拼写纠错模型。
本发明解决其技术问题所采用的技术方案如下:
本发明模型是一个输入步长和输出步长一致的编解码模型。将待纠错的句子X笰{x1,x2,x3…xn},输入到混淆字图卷积神经网络(CoGcn)和依存句法关系图卷积神经网络(ReGcn)中,输出带有混淆字和依存句法关系信息的上下文向量。并将该上下文向量输入到编解码模型中,得到纠正后的句子Y笰{y1,y2,y3…yn}。
进一步,所述的混淆字图卷积神经网络具体实现如下:
将现有混淆集中的每一个字当作节点,字与字之间的关系当作边,构造出邻接矩阵A∈RN*N,N指的是混淆集的大小。如果A[i][i]与A[i][j]是字形相似或发音相似的混淆字,则A[i][j]=1,否则A[i][j]=0(0≤i,j≤n-1)。然后将邻接矩阵A正则化。公式如下:
通过混淆字图卷积神经网络,捕获混淆字之间相似的信息,将混淆字映射到相同的向量空间。每一层的图卷积公式如下:
其中,H∈RN*D,D是字向量的维度,它是隐藏层向量。用Bert预训练的上下文字向量初始化H0。Wl∈RD*D,是可训练的参数。为了保持原始语义,进行叠加操作,公式如下:
进一步,所述的依存句法关系图卷积神经网络:
用工具提取句子关系,对输入句子的每个字生成关系向量,以每个字为节点,字与字之间的关系为边,通过依存句法关系图卷积神经网络,提取任意两个字之间的依存句法关系。
每一卷积层中每一个节点的图卷积后提取的依存句法关系向量如下:
其中l指的是第l层卷积层,i指的是当前节点,R是字与字之间的所有关系,是指与当前节点i具有关系r的所有节点,c是缩放因子,w0 l是可训练的参数,b是偏置参数,h∈R1*D,w∈RD*D,b∈R1*D,D是关系向量的维度。每个节点与其关系节点进行卷积操作,捕获依存句法关系信息。
由于不是每个字都有混淆字,因此,如果句子中的字不在混淆集中,就用Bert预训练的上下文字向量表示;否则用混淆字图神经网络提取的混淆字向量表示。混淆字图神经网络输出的是一个RN*D的矩阵,表示混淆集中第i个字的具有上下文信息和混淆字信息的向量。将混淆字图卷积神经网络提取的混淆字向量称为hc,Bert预训练的上下文向量成为hb,则:
依存句法关系图卷积神经网络的输出是每一个字的依存句法关系向量将依存句法关系图卷积神经网络提取的依存句法关系向量称为hr。将上下文向量hb或混淆字向量hc与依存句法关系向量hr融合在一起,将融合的向量输送到编码器。
所述编码器是一个双向的长短期记忆网络(LSTM),是循环神经网络的一种。将编码器在最终时间步的隐藏状态作为解码器的初始隐藏状态。解码器是一个单向的LSTM循环神经网络:
其中,在训练阶段是目标字的混合向量;在测试阶段是前一个时间步推断出的目标向量。通过注意力机制得到全局上下文向量其中αij是每一个时间步的隐藏状态对应的权重。 将每个时间步对应的全局上下文向量和解码层的隐藏层向量串联起来,并进行归一化:
本发明的有益效果:
本发明充分考虑到字与字之间的上下文关系、依存句法关系和混淆字之间的关系,提出了一种新颖的中文拼写纠错模型。
附图说明
图1为本发明模型结构图
图2为本发明流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1和图2所示,本发明模型是一个输入步长和输出步长一致的编解码模型。将待纠错的句子X笰{x1,x2,x3…xn},输入到混淆字图卷积神经网络(CoGcn)和依存句法关系图卷积神经网络(ReGcn)中,输出带有混淆字和关系信息的上下文向量。并将该上下文向量输入到编解码模型中,得到纠正后的句子Y笰{y1,y2,y3…yn}。
进一步,所述的混淆字图卷积神经网络具体实现如下:
将现有混淆集中的每一个字当作节点,字与字之间的关系当作边,构造出邻接矩阵A∈RN*N,N指的是混淆集的大小。如果A[i][i]与A[i][j]是字形相似或发音相似的混淆字,则A[i][j]=1,否则A[i][j]=0(0≤i,j≤n-1)。然后将邻接矩阵A正则化。公式如下:
通过混淆字图卷积神经网络,捕获混淆字之间相似的信息,将混淆字映射到相同的向量空间。每一层的图卷积公式如下:
其中,H∈RN*D,D是字向量的维度,它是隐藏层向量。用Bert预训练的上下文字向量初始化H0。Wl∈RD*D,是可训练的参数。为了保持原始语义,进行叠加操作,公式如下:
进一步,所述的依存句法关系图卷积神经网络:
用工具提取句子关系,对输入句子的每个字生成关系向量,以每个字为节点,字与字之间的关系为边,通过依存句法关系图卷积神经网络,提取任意两个字之间的依存句法关系。
每一卷积层中每一个节点的图卷积后获取的句法关系向量如下:
其中l指的是第l层卷积层,i指的是当前节点,R是字与字之间的所有关系,是指与当前节点i具有关系r的所有节点,c是缩放因子,w0 l是可训练的参数,b是偏置参数,h∈R1*D,w∈RD*D,b∈R1*D,D是关系向量的维度。每个节点与其关系节点进行卷积操作,捕获句法关系信息。
由于不是每个字都有混淆字,因此,如果句子中的字不在混淆集中,就用Bert预训练的上下文字向量表示;否则用混淆字图神经网络提取的混淆字向量表示。混淆字图神经网络输出的是一个RN*D的矩阵,表示混淆集中第i个字的具有上下文信息和混淆字信息的向量。将混淆字图卷积神经网络获取的混淆字向量称为hc,Bert预训练的上下文向量成为hb,则:
依存句法关系图卷积神经网络的输出是每一个字的依存句法关系向量将依存句法关系图卷积神经网络提取的依存句法关系向量称为hr。将上下文向量hb或混淆字向量hc与依存句法关系向量hr融合在一起,将融合的向量输送到编码器。
所述编码器是一个双向的长短期记忆网络(LSTM),是循环神经网络的一种。将编码器在最终时间步的隐藏状态作为解码器的初始隐藏状态。解码器是一个单向的LSTM循环神经网络:
其中,在训练阶段是目标字的混合向量;在测试阶段是前一个时间步推断出的目标向量。通过过注意力机制得到全局上下文向量其中αij是每一个时间步的隐藏状态对应的权重。将每个时间步对应的全局上下文向量和解码层的隐藏层向量串联起来,并进行归一化:
实施例1:
待纠错的句子:遇到逆竟时,我们必须用于面对。
通过混淆字图卷积神经网络输出的混淆字向量矩阵,我们找出待纠错句子中每一个字对应的混淆字向量,如果待纠错字不在混淆集中,我们用Bert预训练的上下文向量表示。
通过工具提取待纠错句子的关系,将每个字对应的关系向量输入依存句法关系图卷积神经网络,获取每个字的依存关系向量。
将待纠错字的混淆字向量或上下文向量和依存关系向量融合起来,E笰{e1,e2,e3…e15}输入编解码模型中,输出纠正后的句子。
纠正后的句子:遇到逆境时,我们必须勇于面对。
Claims (4)
1.一种中文拼写纠错模型,其特征在于该模型是一个输入步长和输出步长一致的编解码模型;将待纠错的句子X={x1,x2,x3...xn},输入到混淆字图卷积神经网络和依存句法关系图卷积神经网络中,输出带有混淆字和依存句法关系信息的上下文向量;并将该上下文向量输入到编解码模型中,得到纠正后的句子Y={y1,y2,y3...yn}。
2.根据权利要求1所述的一种中文拼写纠错模型,其特征在于所述的混淆字图卷积神经网络具体实现如下:
将现有混淆集中的每一个字当作节点,字与字之间的关系当作边,构造出邻接矩阵A∈RN*N,N指的是混淆集的大小;如果A[i][i]与A[i][j]是字形相似或发音相似的混淆字,则A[i][j]=1,否则A[i][j]=0(0≤i,j≤n-1);然后将邻接矩阵A正则化;公式如下:
通过混淆字图卷积神经网络,捕获混淆字之间相似的信息,将混淆字映射到相同的向量空间,每一层的图卷积公式如下:
其中,H∈RN*D,D是字向量的维度,它是隐藏层向量;用Bert预训练的上下文字向量初始化H0;Wl∈RD*D,是可训练的参数;为了保持原始语义,进行叠加操作,公式如下:
4.根据权利要求3所述的一种中文拼写纠错模型,其特征在于由于如果句子中的字不在混淆集中,就用Bert预训练的上下文字向量表示;否则用混淆字图神经网络提取的混淆字向量表示;混淆字图神经网络输出的是一个RN*D的矩阵,表示混淆集中第i个字的具有上下文信息和混淆字信息的向量;将混淆字图卷积神经网络提取的混淆字向量称为hc,Bert预训练的上下文向量成为hb,则:
依存句法关系图卷积神经网络的输出是每一个字的依存句法关系向量将依存句法关系图卷积神经网络提取的依存句法关系向量称为hr;将上下文向量hb或混淆字向量hc与依存句法关系向量hr融合在一起,将融合的向量输送到编码器;
所述编码器是一个双向的长短期记忆网络;将编码器在最终时间步的隐藏状态作为解码器的初始隐藏状态;
解码器是一个单向的LSTM循环神经网络:
其中,在训练阶段是目标字的混合向量;在测试阶段是前一个时间步推断出的目标向量;通过注意力机制得到全局上下文向量其中αij是每一个时间步的隐藏状态对应的权重;将每个时间步对应的全局上下文向量和解码层的隐藏层向量串联起来,并进行归一化:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011549372.1A CN112861517A (zh) | 2020-12-24 | 2020-12-24 | 一种中文拼写纠错模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011549372.1A CN112861517A (zh) | 2020-12-24 | 2020-12-24 | 一种中文拼写纠错模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112861517A true CN112861517A (zh) | 2021-05-28 |
Family
ID=75996643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011549372.1A Pending CN112861517A (zh) | 2020-12-24 | 2020-12-24 | 一种中文拼写纠错模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861517A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306596A (zh) * | 2023-03-16 | 2023-06-23 | 北京语言大学 | 一种结合多重特征进行中文文本拼写检查的方法及装置 |
CN117151084A (zh) * | 2023-10-31 | 2023-12-01 | 山东齐鲁壹点传媒有限公司 | 一种中文拼写、语法纠错方法、存储介质及设备 |
-
2020
- 2020-12-24 CN CN202011549372.1A patent/CN112861517A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306596A (zh) * | 2023-03-16 | 2023-06-23 | 北京语言大学 | 一种结合多重特征进行中文文本拼写检查的方法及装置 |
CN116306596B (zh) * | 2023-03-16 | 2023-09-19 | 北京语言大学 | 一种结合多重特征进行中文文本拼写检查的方法及装置 |
CN117151084A (zh) * | 2023-10-31 | 2023-12-01 | 山东齐鲁壹点传媒有限公司 | 一种中文拼写、语法纠错方法、存储介质及设备 |
CN117151084B (zh) * | 2023-10-31 | 2024-02-23 | 山东齐鲁壹点传媒有限公司 | 一种中文拼写、语法纠错方法、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111651557B (zh) | 一种自动化文本生成方法、装置及计算机可读存储介质 | |
CN107357789B (zh) | 融合多语编码信息的神经机器翻译方法 | |
CN108563653B (zh) | 一种用于知识图谱中知识获取模型的构建方法及系统 | |
US7165032B2 (en) | Unsupervised data-driven pronunciation modeling | |
CN111897908A (zh) | 融合依存信息和预训练语言模型的事件抽取方法及系统 | |
US11475225B2 (en) | Method, system, electronic device and storage medium for clarification question generation | |
CN112861517A (zh) | 一种中文拼写纠错模型 | |
CN113704416B (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
CN113987147A (zh) | 样本处理方法及装置 | |
WO2023231576A1 (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN115759042A (zh) | 一种基于句法感知提示学习的句子级问题生成方法 | |
CN114218928A (zh) | 一种基于图知识和主题感知的抽象文本摘要方法 | |
RU2712101C2 (ru) | Предсказание вероятности появления строки с использованием последовательности векторов | |
Gao et al. | Generating natural adversarial examples with universal perturbations for text classification | |
CN111507093A (zh) | 一种基于相似字典的文本攻击方法、装置及存储介质 | |
CN113360610A (zh) | 基于Transformer模型的对话生成方法及系统 | |
Park et al. | Softregex: Generating regex from natural language descriptions using softened regex equivalence | |
CN115374270A (zh) | 一种基于图神经网络的法律文本摘要生成方法 | |
CN114218926A (zh) | 一种基于分词与知识图谱的中文拼写纠错方法及系统 | |
CN115455197A (zh) | 一种融合位置感知细化的对话关系抽取方法 | |
CN111401003A (zh) | 一种外部知识增强的幽默文本生成方法 | |
US20210124877A1 (en) | Computer-implemented method and device for processing data | |
CN109815497A (zh) | 基于句法依存的人物属性抽取方法 | |
CN113449517B (zh) | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 | |
Zhang et al. | Opinion mining with sentiment graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |