CN109492202B - 一种基于拼音的编码与解码模型的中文纠错方法 - Google Patents

一种基于拼音的编码与解码模型的中文纠错方法 Download PDF

Info

Publication number
CN109492202B
CN109492202B CN201811339730.9A CN201811339730A CN109492202B CN 109492202 B CN109492202 B CN 109492202B CN 201811339730 A CN201811339730 A CN 201811339730A CN 109492202 B CN109492202 B CN 109492202B
Authority
CN
China
Prior art keywords
model
chinese
decoding
pinyin
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811339730.9A
Other languages
English (en)
Other versions
CN109492202A (zh
Inventor
吴健
胡汉一
王文哲
陆逸飞
吴福理
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Industrial Technology Research Institute of ZJU
Original Assignee
Shandong Industrial Technology Research Institute of ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Industrial Technology Research Institute of ZJU filed Critical Shandong Industrial Technology Research Institute of ZJU
Priority to CN201811339730.9A priority Critical patent/CN109492202B/zh
Publication of CN109492202A publication Critical patent/CN109492202A/zh
Application granted granted Critical
Publication of CN109492202B publication Critical patent/CN109492202B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于拼音的编码与解码模型的中文纠错方法,属于自然语言处理领域,包括:将中文转化为拼音序列,再将拼音序列向量化后输入编码模型,编码模型对拼音序列进行编码后,解码模型对当前目标中文文本序列使用注意机制正、反向解码。对正反向解码的中文序列概率加权相加后,再判断目标序列字符对应的概率是否大于阈值,若大于阈值使用预测字符,若小于阈值则使用原中文序列字符,所得最终的目标中文序列即为修正后的中文序列。使用了以编码模型与正反向解码模型的结构的深度学习模型,在编码与解码的过程中,提取有效的文本信息特征,从而提高了在中文纠错任务中上下文的相关性,以提高模型的准确率。

Description

一种基于拼音的编码与解码模型的中文纠错方法
技术领域
本发明涉及自然语言处理领域,具体地说,涉及一种基于拼音的编码与解码模型的中文纠错方法。
背景技术
随着深度学习在图像、语音识别等不同的领域取得的巨大发展,基于深度学习方法在自然语言处理的领域也被广泛的运用。目前,以深度学习为基础的计算机系统,与传统的算法相比,在命名实体识别(Named Entity Recognition)、机器翻译(MachineTranslation)、方面提取(Aspect Extraction)等自然语言任务中都有着显著的效果。
中文文本纠错是计算机自然语言处理中的一个重要研究方向,近年来受到了计算机领域的广泛关注,其任务是通过计算机算法完成对中文文本根据其上下文语义信息,纠正其中人为因素产生的错误(错别字或不合乎语境的用词等)。
根据错误的来源,中文纠错可以分为两大类:输入法端以及文本端的纠错。当然这两者之间没有非常清晰的界限。输入法端主要包括了手写、拼音、字型输入以及语音输入。
在2014年,Sutskever等人提出的使用循环神经网络的编码器与解码器结构模型,相比于传统的统计机器翻译方法,有着显著的提高。该结构及后来在该结构基础上修改的模型,被广泛利用,其中最成功的范例之一,即是谷歌的翻译功能。
另有如公布号为CN108257650A的中国专利文献公开了一种应用于医技检查报告的智能纠错方法,包括预处理过程→训练过程→智能纠错过程,通过使用递归神经网络得到的纠错模型,可以在进行纠错时,既考虑到医技检查报告词库对检测的影响,又考虑到上下文的语义关系;同时在应用纠错模型过程中,采取不同的策略,当分词不在医技检查报告词库中时,由拼音和字形给出可替代当前分词的建议值,当分词在词库中时,由纠错模型判断是否进行纠错处理,并根据上下文语义关系给出相应结果。该专利需要经过两次判断,过程复杂。
本专利说明书中主要针对的是文本端的纠错,因任务本身特性更需要结合上下文的文本信息,所以更为适合使用基于统计或深度学习的语言模型或翻译模型来作为纠错任务的实施方案。且本专利书中所针对的中文文本纠错任务,本质上与机器翻译任务类似,也可以理解成一种语言/编码到另外一种语言/编码的映射关系。除却语言本身的复杂性与多样性等特点,相较于翻译任务,中文纠错任务逐字符的对应性更强,故而对模型要求的准确性也更高。因而需要使用相比与翻译模型对数据拟合能力更强的模型。
发明内容
本发明的目的为提供一种基于拼音的编码与解码模型的中文纠错方法,该方法通过提高在中文纠错任务中上下文的相关性,以提高模型的准确率,从而大大提高电子文本的准确性。
为了实现上述目的,本发明提供的基于拼音的编码与解码模型的中文纠错方法包括以下步骤:
1)将含有中文预料的数据集中的句子转换为对应的拼音序列,作为输入数据,原中文序列作为模型训练的标签;
2)采用基于神经网络的编码器作为编码模型,基于神经网络的解码器作为解码模型,将数据集中句子的拼音序列向量化后依次输入编码模型内,编码模型逐字产生对应字的隐藏层向量/矩阵ht,直到完成编码完整的拼音序列;
3)将编码完整的拼音序列输入解码模型内,对每个字符拼音进行正向和反向解码,产生当前待解码字符对应的隐藏层向量/矩阵ht’,并采用注意机制产生当前待解码字符对应的一组权重,该组权重包含拼音序列中每个字符拼音对应的重要性权重;
4)将所有字符拼音的隐藏层矩阵ht和对应的权重进行加权求和,获得生成语境向量/矩阵Ct
5)根据正向解码产生的第一语境向量与当前待解码字符对应的隐藏层矩阵得到当前待解码字符对应中文的概率,利用该概率计算正向解码产生的第一偏差;
6)根据反向解码产生的第二语境向量与当前待解码字符对应的隐藏层矩阵得到当前待解码字符对应中文的概率,利用该概率计算反向解码产生的第二偏差;
7)根据第一偏差和第二偏差加权求和值对编码模型和解码模型进行优化,获得训练好的编码模型和解码模型,构成编码与解码模型;
8)将需要纠错的中文文本输入编码与解码模型,得到输出的中文文本序列以及编码与解码模型对每个字的预测概率,将预测概率大于预设阈值t的字作为最终输出的字,将预测概率低于阈值t的字,使用原中文序列对应位置的字替换,产生最终的纠错的中文序列。
上述技术方案中,使用了以编码模型与正反向解码模型的结构的深度学习模型,在编码与解码的过程中,提取有效的文本信息特征,从而提高了在中文纠错任务中上下文的相关性,以提高模型的准确率。另外模型解码的过程中还采用了一种注意机制,能增加模型在预测时的长距离信息提取的能力以及针对性,加强解码模型的长距离信息提取能力。
上述技术方案中的“字符拼音”指的是一句话中对应一个字的拼音,比如“哪家医院”中“哪”字的字符拼音为“na”。
为了使得模型能够拟合的数据集分布更为符合与真实场景的分布,作为优选,步骤1)中,在将数据集中的句子转换为对应的拼音序列前还包括对含有中文预料的数据集进行预处理:
统计数据集中的句子频率,将句子按频率排列;
设定数据集的大小以及句子最大频率,使用统计学分布函数改变数据集中语句的分布频率。
其中,使用统计学分布函数改变数据集中语句的分布频率,包括但不仅限于使用正态分布、泊松分布、伯努利分布、自然指数分布等一系列分布函数及其变式。
作为优选,所述的神经网络为长短记忆网络(LSTM),门控制基本单元(GRU),递归神经网络(Feed-Forward Network)或其他类似神经网络。
作为优选,所述的神经网络为长短记忆网络或门控制基本单元,编码模型与解码模型的层数为2层或4层。
编码模型从输入拼音向量输入开始往上的循环神经网络单元的前n层单元使用双向单元,编码拼音序列正向与反向的序列信息;当总层数为2层时,双向单元为1层,当总层数为4层时,双向单元的层数取1层或2层。
作为优选,步骤5)中,Multinomial Cross Entropy Loss的计算公式为:
Figure BDA0001862218360000041
其中,K表示字典大小,m表示同时输入网络训练时的句子数量(batch size),T表示每一句话的字数。
Figure BDA0001862218360000042
代表第i句话,第t个拼音字符的向量,
Figure BDA0001862218360000043
代表第i句话,第t个中文字符的类别,P代表当输入为x时,y为字典中第k个字的概率。
作为优选,步骤5)中,反向解码对应Loss的权值α的范围为[0.5,0.7],正向解码对应Loss的权值为1-α。优选α的取值为0.5。
作为优选,步骤5)中,对编码模型和解码模型进行优化的方法为采用SGD或Adam算法更新模型参数。
作为要选,步骤6)中,阈值t的取值区间为[0.5,1)。
与现有技术相比,本发明的有益效果为:
本发明的基于拼音的编码与解码模型的中文纠错方法能够自动纠正因用户输入拼音产生错误的或不合乎语法逻辑的文本,大大提高电子文本的准确性。
附图说明
图1为本发明实施例中的编码模型与正向解码模型(同反向)的整体结构示意图;
图2为本发明实施例的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合实施例及其附图对本发明作进一步说明。
实施例
参见图1和图2,本实施例的基于拼音的编码与解码模型的中文纠错方法包括以下步骤:
S100中文文本数据集预处理
本发明采用控制文本训练集分布的预处理,使得模型能够更真实的拟合在纠错过程中的真实环境。
S101统计原数据集中句子频率,并将句子按照句子频率,从高到低排列;
S102控制数据集最大句子频率,使用自然指数函数,改变句子在数据集中的频率;
S103将数据集中的中文文本序列一一转化为其对应的拼音序列,拼音序列作为模型输入序列,例如:“na”,“jia”,“yi”,“yuan”的拼音序列,而数据集中文对应的中文文本序列的标签则为:“哪”,“家”,“医”,“院”;
S200训练纠错模型
S201将拼音序列向量化后输入编码模型,编码模型逐字产生对应字的隐藏层向量/矩阵ht,直到完成编码完整的拼音序列。
S202解码模型根据当前解码的字符产生解码模型的隐藏层向量/矩阵ht’。
S203将解码模型的隐藏层向量/矩阵ht’与编码模型编码每一个拼音字符对应的隐藏层向量/矩阵ht,采用注意机制产生一组加权系数,再将编码模型编码所有拼音字符对应的隐藏层根据产生的加权系数相加,并最终产生一个语境向量/矩阵。
S204将正向与反向解码产生的语境向量,分别使用Multinomial Cross EntropyLoss计算与目标的原中文序列的偏差。
以上Multinomial Cross Entropy Loss的计算公式为:
Figure BDA0001862218360000061
其中,K表示字典大小,m表示同时输入网络训练时的句子数量,T表示每一句话的字数。
Figure BDA0001862218360000062
代表第i句话,第t个拼音字符的向量,
Figure BDA0001862218360000063
代表第i句话,第t个中文字符的类别,P代表当输入为x时,y为字典中第k个字的概率。
S205将计算的正向与反向解码对应的Loss,加权相加,再将相加的Loss反向传播,更新编码器与解码器参数。
反向解码的准确率普遍略高于正向解码准确率,故而在加权相加的过程中,反向解码的权值α可略高于正向解码权值1-α,α的范围为[0.5,0.7],而实验中采用的α取值为0.5,已达到了较为可观的准确率结果。
S300中文纠错
S301将需要纠错的目标中文序列,转换为对应的等长的拼音序列作为模型输入,并保留其中文序列。
S302将步骤S301转化的拼音序列的每一个拼音字符,转化为向量,再将转化的向量序列输入编码模型,编码模型逐字对向量产生对应的隐藏层向量/矩阵,直到完成编码完整的拼音序列。
S303使用解码模型,根据当前解码的字符产生解码模型的隐藏层向量/矩阵。
S304将步骤S303得到的隐藏层向量/矩阵与编码模型编码每一个拼音字符对应的隐藏层,采用注意机制产生一组加权系数,再将编码器编码所有拼音字符对应的隐藏层根据产生的加权系数相加,并最终产生一个语境向量/矩阵。
S305将步骤S304得到的语境向量,适用一层Dense Layer,将其映射到中文字典对应的分类,产生当前语境向量/矩阵,对应中文字典中每一个字的概率。
S306重复步骤S303至步骤S305,使用解码模型反向解码一组反向的中文序列以及得到对应中文字典中每一个字的概率。
S307将正向与反向解码得到的序列的概率,加权相加,得到最终的中文序列。
S308判断得到的中文序列中的每一个字符对应概率是否大于预设阈值t,若大于阈值t则使用模型预测字符,若小于阈值t则使用原中文序列对应字符。阈值t的取值区间为[0.5,1)。

Claims (10)

1.一种基于拼音的编码与解码模型的中文纠错方法,其特征在于,包括以下步骤:
1)将含有中文预料的数据集中的句子转换为对应的拼音序列,作为输入数据,原中文序列作为模型训练的标签;
2)采用基于循环神经网络的编码器作为编码模型,基于循环神经网络的解码器作为解码模型,将数据集中句子的拼音序列向量化后依次输入编码模型内,编码模型逐字产生对应拼音字符的隐藏层矩阵ht,直到完成编码完整的拼音序列;
3)将编码完整的拼音序列输入解码模型内,对每个字符拼音进行正向和反向解码,产生当前待解码字符对应的隐藏层矩阵ht’,并采用注意机制产生当前待解码字符对应的一组权重,该组权重包含拼音序列中每个字符拼音对应的重要性权重;
4)将所有字符拼音的隐藏层矩阵ht和对应的权重进行加权求和,获得语境矩阵Ct
5)根据正向解码产生的第一语境向量与当前待解码字符对应的隐藏层矩阵得到当前待解码字符对应中文的概率,利用该概率计算正向解码产生的第一偏差;
6)根据反向解码产生的第二语境向量与当前待解码字符对应的隐藏层矩阵得到当前待解码字符对应中文的概率,利用该概率计算反向解码产生的第二偏差;
7)根据第一偏差和第二偏差加权求和值对编码模型和解码模型进行优化,获得训练好的编码模型和解码模型,构成编码与解码模型;
8)将需要纠错的中文文本输入编码与解码模型,得到输出的中文文本序列以及编码与解码模型对每个字的预测概率,将预测概率大于预设阈值t的字作为最终输出的字,将预测概率低于阈值t的字,使用原中文序列对应位置的字替换,产生最终的纠错的中文序列。
2.根据权利要求1所述的基于拼音的编码与解码模型的中文纠错方法,其特征在于,步骤1)中,在将数据集中的句子转换为对应的拼音序列前还包括对含有中文预料的数据集进行预处理:
统计数据集中的句子频率,将句子按频率排列;
设定数据集的大小以及句子最大频率,使用统计学分布函数改变数据集中语句的分布频率。
3.根据权利要求1所述的基于拼音的编码与解码模型的中文纠错方法,其特征在于,所述的神经网络为长短记忆网络,门控制基本单元或递归神经网络。
4.根据权利要求3所述的基于拼音的编码与解码模型的中文纠错方法,其特征在于,所述的神经网络为长短记忆网络或门控制基本单元,编码模型与解码模型的层数为2层或4层。
5.根据权利要求4所述的基于拼音的编码与解码模型的中文纠错方法,其特征在于,编码模型从输入拼音向量输入开始往上的循环神经网络单元的前n层单元使用双向单元,编码拼音序列正向与反向的序列信息;当总层数为2层时,双向单元为1层,当总层数为4层时,双向单元的层数取1层或2层。
6.根据权利要求1所述的基于拼音的编码与解码模型的中文纠错方法,其特征在于,步骤5)中,Multinomial Cross Entropy Loss的计算公式为:
Figure FDA0001862218350000021
其中,K表示字典大小,m表示同时输入网络训练时的句子数量,T表示每一句话的字数,
Figure FDA0001862218350000022
代表第i句话,第t个拼音字符的向量,
Figure FDA0001862218350000023
代表第i句话,第t个中文字符的类别,P代表当输入为x时,y为字典中第k个字的概率。
7.根据权利要求1所述的基于拼音的编码与解码模型的中文纠错方法,其特征在于,步骤5)中,反向解码对应Loss的权值α的范围为[0.5,0.7],正向解码对应Loss的权值为1-α。
8.根据权利要求7所述的基于拼音的编码与解码模型的中文纠错方法,其特征在于,α的取值为0.5。
9.根据权利要求1所述的基于拼音的编码与解码模型的中文纠错方法,其特征在于,步骤7 )中,对编码模型和解码模型进行优化的方法为采用SGD或Adam算法更新模型参数。
10.根据权利要求1所述的基于拼音的编码与解码模型的中文纠错方法,其特征在于,步骤8 )中,所述的阈值t的取值区间为[0.5,1)。
CN201811339730.9A 2018-11-12 2018-11-12 一种基于拼音的编码与解码模型的中文纠错方法 Active CN109492202B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811339730.9A CN109492202B (zh) 2018-11-12 2018-11-12 一种基于拼音的编码与解码模型的中文纠错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811339730.9A CN109492202B (zh) 2018-11-12 2018-11-12 一种基于拼音的编码与解码模型的中文纠错方法

Publications (2)

Publication Number Publication Date
CN109492202A CN109492202A (zh) 2019-03-19
CN109492202B true CN109492202B (zh) 2022-12-27

Family

ID=65695586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811339730.9A Active CN109492202B (zh) 2018-11-12 2018-11-12 一种基于拼音的编码与解码模型的中文纠错方法

Country Status (1)

Country Link
CN (1) CN109492202B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859089B (zh) * 2019-04-30 2024-02-06 北京智慧星光信息技术有限公司 一种用于互联网信息的错词检测控制方法
CN110162789B (zh) * 2019-05-13 2023-07-21 北京一览群智数据科技有限责任公司 一种基于汉语拼音的词表征方法及装置
CN110399607B (zh) * 2019-06-04 2023-04-07 深思考人工智能机器人科技(北京)有限公司 一种基于拼音的对话系统文本纠错系统及方法
CN110263147B (zh) * 2019-06-05 2023-10-20 创新先进技术有限公司 推送信息的生成方法及装置
CN112329446B (zh) * 2019-07-17 2023-05-23 北方工业大学 一种中文拼写的检查方法
CN110569505B (zh) * 2019-09-04 2023-07-28 平顶山学院 一种文本输入方法及装置
CN110705217B (zh) * 2019-09-09 2023-07-21 上海斑马来拉物流科技有限公司 一种错别字检测方法、装置及计算机存储介质、电子设备
CN110765772A (zh) * 2019-10-12 2020-02-07 北京工商大学 拼音作为特征的中文语音识别后的文本神经网络纠错模型
CN112733529B (zh) * 2019-10-28 2023-09-29 阿里巴巴集团控股有限公司 文本纠错方法和装置
CN110909534B (zh) * 2019-11-08 2021-08-24 北京华宇信息技术有限公司 一种深度学习评价模型、输入法拼音纠错方法及装置
CN111199727B (zh) * 2020-01-09 2022-12-06 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质
CN111310441A (zh) * 2020-01-20 2020-06-19 上海眼控科技股份有限公司 基于bert的语音识别后文本修正方法、装置、终端及介质
CN111814437A (zh) * 2020-05-28 2020-10-23 杭州视氪科技有限公司 一种基于深度学习的盲文转中文方法
CN114091408A (zh) * 2020-08-04 2022-02-25 科沃斯商用机器人有限公司 文本纠正、模型训练方法、纠正模型、设备及机器人
CN112395861A (zh) * 2020-11-18 2021-02-23 平安普惠企业管理有限公司 中文文本的纠错方法、装置和计算机设备
CN112489626B (zh) * 2020-11-18 2024-01-16 华为技术有限公司 一种信息识别方法、装置及存储介质
CN113051894B (zh) * 2021-03-16 2024-07-16 京东科技控股股份有限公司 一种文本纠错的方法和装置
CN116227468B (zh) * 2023-01-06 2023-10-31 杭州健海科技有限公司 基于拼音转写翻译的语音识别模型纠错训练方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167367A (en) * 1997-08-09 2000-12-26 National Tsing Hua University Method and device for automatic error detection and correction for computerized text files
CN101350004A (zh) * 2008-09-11 2009-01-21 北京搜狗科技发展有限公司 形成个性化纠错模型的方法及个性化纠错的输入法系统
CN104050255A (zh) * 2014-06-13 2014-09-17 上海交通大学 基于联合图模型的纠错方法及系统
CN104813275A (zh) * 2012-09-27 2015-07-29 谷歌公司 用于预测文本的方法和系统
CN104991889A (zh) * 2015-06-26 2015-10-21 江苏科技大学 一种基于模糊分词的非多字词错误自动校对方法
CN106776501A (zh) * 2016-12-13 2017-05-31 深圳爱拼信息科技有限公司 一种文本错别字自动更正方法和服务器
CN106815197A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 文本相似度的确定方法和装置
CN107092424A (zh) * 2016-02-18 2017-08-25 北京搜狗科技发展有限公司 一种纠错项的显示方法、装置和用于纠错项的显示的装置
CN107357789A (zh) * 2017-07-14 2017-11-17 哈尔滨工业大学 融合多语编码信息的神经机器翻译方法
CN107608963A (zh) * 2017-09-12 2018-01-19 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
CN108647207A (zh) * 2018-05-08 2018-10-12 上海携程国际旅行社有限公司 自然语言修正方法、系统、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170364486A1 (en) * 2016-06-17 2017-12-21 Yan Zhou Precise Encoding and Direct Keyboard Entry of Chinese as Extension of Pinyin

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167367A (en) * 1997-08-09 2000-12-26 National Tsing Hua University Method and device for automatic error detection and correction for computerized text files
CN101350004A (zh) * 2008-09-11 2009-01-21 北京搜狗科技发展有限公司 形成个性化纠错模型的方法及个性化纠错的输入法系统
CN104813275A (zh) * 2012-09-27 2015-07-29 谷歌公司 用于预测文本的方法和系统
CN104050255A (zh) * 2014-06-13 2014-09-17 上海交通大学 基于联合图模型的纠错方法及系统
CN104991889A (zh) * 2015-06-26 2015-10-21 江苏科技大学 一种基于模糊分词的非多字词错误自动校对方法
CN106815197A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 文本相似度的确定方法和装置
CN107092424A (zh) * 2016-02-18 2017-08-25 北京搜狗科技发展有限公司 一种纠错项的显示方法、装置和用于纠错项的显示的装置
CN106776501A (zh) * 2016-12-13 2017-05-31 深圳爱拼信息科技有限公司 一种文本错别字自动更正方法和服务器
CN107357789A (zh) * 2017-07-14 2017-11-17 哈尔滨工业大学 融合多语编码信息的神经机器翻译方法
CN107608963A (zh) * 2017-09-12 2018-01-19 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
CN108647207A (zh) * 2018-05-08 2018-10-12 上海携程国际旅行社有限公司 自然语言修正方法、系统、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Adaptive Correction of Errors from Recognized Chinese Ink Texts Based on Context";Xi-Wen Zhang 等;《 2009 International Conference on Information Technology and Computer Science》;20090804;第314-320页 *
"基于统计模型的搜索引擎查询纠错系统";沈健;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20180415(第4期);第I138-3922页 *
"英文冠词纠错方法研究";靳晓强;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20160215(第2期);第I138-3922页 *
"问答系统中文输入纠错技术研究";秦英;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20130215;第I138-3922页 *

Also Published As

Publication number Publication date
CN109492202A (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
CN109492202B (zh) 一种基于拼音的编码与解码模型的中文纠错方法
CN110765966B (zh) 一种面向手写文字的一阶段自动识别与翻译方法
CN111382582B (zh) 一种基于非自回归的神经机器翻译解码加速方法
CN109522403B (zh) 一种基于融合编码的摘要文本生成方法
CN108829684A (zh) 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN110569505B (zh) 一种文本输入方法及装置
CN111881677A (zh) 基于深度学习模型的地址匹配算法
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN110837733A (zh) 自重建方式的语言模型训练方法、系统及计算机可读介质
CN112800768A (zh) 一种嵌套命名实体识别模型的训练方法及装置
CN110163181A (zh) 手语识别方法及装置
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
CN111428727A (zh) 基于序列变换纠正及注意力机制的自然场景文本识别方法
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN114548053A (zh) 一种基于编辑方法的文本对比学习纠错系统、方法及装置
CN114861637A (zh) 拼写纠错模型生成方法和装置、拼写纠错方法和装置
CN111767744B (zh) 文本风格迁移系统的训练方法及装置
CN111507103B (zh) 一种利用部分标注集的自训练神经网络分词模型
CN114548090B (zh) 基于卷积神经网络和改进级联标注的快速关系抽取方法
CN111813907A (zh) 一种自然语言问答技术中的问句意图识别方法
CN111597831B (zh) 混合深度学习网络与单词生成统计学指导的机器翻译方法
CN115270771A (zh) 细粒度自适应字音预测任务辅助的中文拼写纠错方法
CN115374784A (zh) 一种多模态信息选择性融合的中文命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant