CN110909534B - 一种深度学习评价模型、输入法拼音纠错方法及装置 - Google Patents

一种深度学习评价模型、输入法拼音纠错方法及装置 Download PDF

Info

Publication number
CN110909534B
CN110909534B CN201911085534.8A CN201911085534A CN110909534B CN 110909534 B CN110909534 B CN 110909534B CN 201911085534 A CN201911085534 A CN 201911085534A CN 110909534 B CN110909534 B CN 110909534B
Authority
CN
China
Prior art keywords
syllable
input
layer
pinyin
error correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911085534.8A
Other languages
English (en)
Other versions
CN110909534A (zh
Inventor
沈哲吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Thunisoft Information Technology Co ltd
Original Assignee
Beijing Thunisoft Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Thunisoft Information Technology Co ltd filed Critical Beijing Thunisoft Information Technology Co ltd
Priority to CN201911085534.8A priority Critical patent/CN110909534B/zh
Publication of CN110909534A publication Critical patent/CN110909534A/zh
Application granted granted Critical
Publication of CN110909534B publication Critical patent/CN110909534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种深度学习评价模型、输入法拼音纠错方法及装置,使用了基于自动状态转换机的方法,实现输入拼音串和标准音节的高效的levenshtein distance(编辑距离)匹配。然后通过基于深度学习的评价模型,给出当前输入的拼音串和各不同近似标准音节的组合评分。最后通过使用基于动态规划,计算得到最优的组合拼音解析结果。本发明能够实现对于可能存在错误输入的音节进行纠正,并输出正确且概率最大的分音节结果,以及解决可能存在的二义性的问题,兼顾国产化信息平台,提高输入法的运行效率。

Description

一种深度学习评价模型、输入法拼音纠错方法及装置
技术领域
本发明涉及输入法领域,特别涉及一种深度学习评价模型、基于该模型的输入法拼音纠错方法及装置。
背景技术
拼音输入法,作为中文汉字输出的一种通用方式,是人们日常信息化生活当中必不可少的软件。中文输入法能够实现智能的拼音纠错,将极大的优化用户的日常输入体验,增加用户拼音输入的流畅程度。
现有技术中对拼音串进行纠错首先要先将拼音串进行分音节操作,现有的拼音分音节模型使用正向最大化匹配模型和反向最大化匹配模型实现分音节。但是这些方法都无法有效的处理输入拼音串中本身就存在错误的情况,或者解析方式可能就已经存在二义性。例如:fangan,可以解析成为fan’gan,也可以解析成为fang’an。
为了能够解决输入拼音串中可能存在错误拼音字符输入的情况,同时解决分音节解析可能存在二义性的问题,并且能兼顾国产化信息平台,提高输入法的运行效率,急需对现有技术进行改进。
发明内容
有鉴于此,本发明提供深度学习评价模型、输入法拼音纠错方法及装置,通过使用自动状态转换机,评价模型和动态规划方法,实现对于可能存在错误输入的音节进行纠正,并输出正确且概率最大的分音节结果。处理后的音节,使用基于HMM的语言模型进行组词。
第一方面,本发明提供一种深度学习评价模型,由输入层、推理运算层和输出层组成;所述的输入层、推理层和输出层依次相连;
所述的输入层,将输入的每个音节,通过预训练的编码模型,得到与该音节唯一对应的一个长度50的编码向量,输入到推理层当中;
所述的推理层包括依次连接的设定数量的BiLSTM运算层,在BiLSTM运算层中包括依次连接的双向的LSTM运算单元和非线性激活函数层,每个BiLSTM运算层通过非线性激活函数层连接至下一个BiLSTM运算层;
所述输出层包括数据归一化单元、数据排列单元和损失函数单元,数据归一化单元连接最后一个BiLSTM运算层的非线性激活函数层,将数据进行归一化操作后,输入到数据排列单元中;数据排列单元输出结果,并将结果输入到损失函数单元中,用于计算模型的相关参数的梯度损失。
第二方面,本发明提供一种输入法拼音纠错方法,利用上述深度学习评价模型来查找用户输入的拼音串的概率最大的音节组合方案。
进一步的,一种输入法拼音纠错方法包括以下步骤:
步骤S1、获取用户输入的拼音串;
步骤S2、将输入的拼音串切分为长度小于第一阈值的至少一个音节;
步骤S3、利用标准音节集合匹配每个错误音节的编辑距离小于第二阈值的近似标准音节,形成近似标准音节集合;
步骤S4、利用深度学习评价模型,评价错误音节的每个近似标准音节与该错误音节的前n个音节的匹配度;
步骤S5、利用动态规划方法计算所有的音节组合中,匹配度数值的和最大的值,即为概率最大的音节组合方案。
进一步的,所述的第一阈值为8。
进一步的,所述的第二阈值为2。
进一步的,所述的第二阈值是指将错误的音节转换为近似标准音节所需要的操作数目。
进一步的,所述的步骤S3中,增加一错误输入的特征库,基于所述错误输入的特征库,对近似标准音节集合进行缩减。
进一步的,所述的步骤S3中,匹配时间复杂度为O(mn),其中m为近似标准音节的个数,n为音节个数。
进一步的,所述的步骤S4中,评价所述匹配度的计算公式为:
P(Candj|si-n,si-n+1,…,si-1)=Syllable(Candj|si-n,si-n+1,…,si-1)
其中:
si-1表示当前音节的前一个音节;
Cand表示当前音节的近似标准音节集合;
Candj表示第j个近似标准音节。
进一步的,所述的步骤S5中,匹配度数值的和最大值的计算公式为:
Figure GDA0003146208000000031
其中:
W(Si)表示:音节si的出现的概率;
Figure GDA0003146208000000032
表示:某一个候选组合p中,音节si的出现概率的乘积;
Figure GDA0003146208000000033
表示:P的所有候选组合中概率最大的一个组合方案。
进一步的,通过动态转移方程加快求解,所述的动态转移方程为:
D(si)=D(si-1)+log(P(si|si-1))
其中:
D(si)表示从第一个音节开始,到达第i个音节的组合概率;
P(si|si-1)表示从第si-1个音节转移到第si个音节的概率。
第三方面,本发明提供一种输入法拼音纠错装置,包括获取模块、近似标准音节匹配模块、权利要求1所述的深度学习评价模型、计算模块;
获取模块:用于获得用户输入的拼音串,并将拼音串按第一阈值长度切分为至少一个音节;
近似标准音节匹配模块:用于匹配出每个音节的近似标准音节,并形成近似标准音节集合;
深度学习评价模型:用于评价错误音节的每个近似标准音节与所述错误音节的前n个音节的匹配度;
计算模块:用于计算所有的音节组合中匹配度数值和最大的值。
第四方面,本发明提供一种计算机存储介质,其上存储有输入法拼音纠错程序,所述输入法拼音纠错程序在被处理器执行时实现以上所述的输入法拼音纠错方法。
本发明能够实现对于可能存在错误输入的音节进行纠正,并输出正确且概率最大的分音节结果,以及解决可能存在的二义性的问题,兼顾国产化信息平台,提高输入法的运行效率。
附图说明
图1为本发明的输入法拼音纠错方法的步骤示意图;
图2为本发明的深度学习评价模型结构示意图;
图3为本发明的利用编辑距离匹配的部分结果示意图;
图4为本发明的音节之间的节点权重示意图;
图5为本发明的输入法拼音纠错装置结构示意图。
具体实施方式
下面结合附图对本公开实施例进行详细描述。
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
实施例一
本发明的实施例一提供一种输入法拼音纠错方法,使用了基于自动状态转换机的方法,实现输入拼音串和标准音节的高效的levenshtein distance(编辑距离)匹配。然后通过基于深度学习的评价模型,给出当前输入的拼音串和各不同正确音节的组合评分。最后通过使用基于动态规划,计算得到最优的组合拼音解析结果。
如图1所示,该方法包括以下步骤:
步骤S1、获取用户输入的拼音串。
步骤S2、对于输入的拼音串,切分出长度小于设定第一阈值的若干个音节。优选的,本发明中第一阈值设定为8。
步骤S3、对于每个错误音节,利用自动转换机中保存的已经构建好的标准音节集合,匹配该错误音节的levenshtein distance小于第二阈值的近似标准音节,形成近似标准音节集合。
所述的错误音节,是标准音节集合中没有的音节。
优选的,可以基于错误输入的特征库,实现对近似标准音节集合的缩减。
该第二阈值为2,匹配时间复杂度为O(mn),其中m为标准音节个数,n为音节个数。
本发明的自动转换机是指确定有穷自动机(define finite automation,DFA)。DFA实现的主要功能是实现快速的字符串合法性校验。
标准音节集合是指中文输入法中规定的标准音节的集合,例如标准音节wo,ai,bei,jing这种。举例说明步骤S2的实现过程:假设用户输入了一个错误的音节:kuen。该音节并没有在标准音节集合中的。因此,需要使用基于DFA的匹配算法,找到和kuen近似的标准音节,其近似标准音节包括kun、ken、keng。所述的第二阈值,指的是将错误的音节kuen转换为标准音节所需要的操作数目。这里的操作指的是删除错误字符串中某个字符或者给错误字符串中增加某个字符,删除一个字符或增加一个字符,操作数目记为1,删除一个字符再增加一个字符,操作数目记为2。举例说明:beii->bei,删除字符串中最后的字符i,操作数目为1;jng->jing,增加了一个字符,操作数目记为1。通过这样操作,实现kuen能够匹配到的近似标准音节变为kun,ken,keng。
错误输入的特征库是人工观察总结用户错误音节输入规律得到的,是在使用自动转换机将一个错误音节转化为近似的正确的音节时,再进一步的过滤掉近似正确音节的过程。例如,输入beii这个错误的音节,只需要将其转化为bei即可,过滤掉bi、ei等近似的正确音节候选。基于这种过滤操作来实现候近似准音节集合的缩减。
步骤S4、利用基于BiLSTM构成的深度学习评价模型,评价错误音节的每个近似标准音节与所述错误音节的前n个音节的匹配度。
举例说明:当前音节的为si,si-1为si的前一个音节,依次类推。的当前音节si的近似标准音节集合为Cand,Candj为第j个近似标准音节,深度学习评价模型的作用是评估Si处的近似标准音节集合中的所有近似标准音节与该音节前面的音节的匹配度。
所述深度学习评价模型SyllableEval通过多层BiLSTM网络结构实现,其模型结构如图2所示。其中si-n,si-n+1,…,si-1为si的前n个音节,n大于等于1,在实际使用中根据需要设定为具体数值。Cand为si处出现错误音节通过上述自动转换机得到近似标准音节集合,j表示近似标准音节集合中的第j个近似标准音节。通过该模型,实现了对于第j个近似标准音节在前n个音节组成的拼音串里面出现概率的估量,即P(Candj|si-n,si-n+1,…,si-1)=Syllable(Candj|si-n,si-n+1,…,si-1)。
所述训练完成的基于BiLSTM的深度学习评价网络模型由三部分组成,分别是:输入层、推理运算层和输出层。
所述的输入层、推理层和输出层依次相连;
所述的输入层,将输入的每个音节,通过预训练的编码模型,得到不同音节唯一对应的一个长度50的编码向量,输入到推理层当中。
所述的推理层包括依次连接的设定数量的基于RNN的BiLSTM运算层,在BiLSTM运算层中包括依次连接的双向的LSTM运算单元和非线性激活函数层,每个BiLSTM运算层通过非线性激活函数层连接至下一个BiLSTM运算层;
所述输出层包括数据归一化单元、数据排列单元和损失函数单元。数据归一化单元连接最后一个BiLSTM运算层的非线性激活函数层,将数据进行归一化操作后,输入到数据排列单元中。数据排列单元输出结果,并将结果输入到损失函数单元中,用于计算模型的相关参数的梯度损失。
步骤S5、利用动态规划方法计算所有的音节组合中,匹配度数值的和最大的值,即为概率最大的一种音节组合方案。计算公式为:
Figure GDA0003146208000000071
其中:
W(Si)表示:音节si的出现的概率;
Figure GDA0003146208000000072
表示:某一个候选组合p中,音节si的出现概率的乘积;
Figure GDA0003146208000000073
表示:P的所有候选组合中概率最大的一个组合方案。
优选的,可以通过动态规划方法进行状态转移,加快该组合数值的求解,其状态转移方程为D(si)=D(si-1)+log(P(si|si-1))。
其中,D(si)为从第一个音节s1开始,到达第i个音节的组合概率;P(si|si-1)表示为从si-1音节转移到si音节的概率。
其计算流程详细说明如下:
首先是对于输入拼音串wiaizhognguogongchandagn,进行音节切分,然后进行levenshtein distance的匹配,其部分结果示意图如3所示。
将该图转换成为音节之间的节点权重图,其部分权重图示意如图4所示。
对于该权重图,求解其最优组合方式p′,即
Figure GDA0003146208000000074
其中p′是概率最大的一种音节组合方案。
实施例二
本实施例提供一种输入法拼音纠错装置,如图5所示,包括获取模块、近似标准音节匹配模块、实施例中所述的深度学习评价模型和计算模块。
获取模块:用于获得用户输入的拼音串,并将拼音串按第一阈值长度切分为若干个音节;
近似标准音节匹配模块:用于匹配出每个音节的近似标准音节,并形成近似标准音节集合;
深度学习评价模型:用于评价每个音节的每个近似标准音节与该音节的前n个音节的匹配度;
计算模块:用于计算所有的音节组合中匹配度的匹配度数值和最大的值。
实施例三
本实施例提供一种计算机存储介质,其上存储有输入法拼音纠错程序,输入法拼音纠错程序在被处理器执行时实现实施例一中所述输入法拼音纠错方法。
以上仅为说明本发明的实施方式,并不用于限制本发明,对于本领域的技术人员来说,凡在本发明的精神和原则之内,不经过创造性劳动所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种输入法拼音纠错方法,其特征在于:利用深度学习评价模型来查找用户输入的拼音串的概率最大的音节组合方案;所述的深度学习评价模型由依次相连的输入层、推理运算层和输出层组成;
所述的输入层,将输入的每个音节,通过预训练的编码模型,得到与该音节唯一对应的一个长度50的编码向量,输入到推理层当中;
所述的推理层包括依次连接的设定数量的BiLSTM运算层,在BiLSTM运算层中包括依次连接的双向的LSTM运算单元和非线性激活函数层,每个BiLSTM运算层通过非线性激活函数层连接至下一个BiLSTM运算层;
所述输出层包括数据归一化单元、数据排列单元和损失函数单元,数据归一化单元连接最后一个BiLSTM运算层的非线性激活函数层,将数据进行归一化操作后,输入到数据排列单元中;数据排列单元输出结果,并将结果输入到损失函数单元中,用于计算模型的相关参数的梯度损失;
所述的输入法拼音纠错方法包括以下步骤:
步骤S1、获取用户输入的拼音串;
步骤S2、将输入的拼音串切分为长度小于第一阈值的至少一个音节;
步骤S3、利用标准音节集合匹配每个错误音节的编辑距离小于第二阈值的近似标准音节,形成近似标准音节集合;
步骤S4、利用深度学习评价模型,评价错误音节的每个近似标准音节与该错误音节的前n个音节的匹配度;
步骤S5、利用动态规划方法计算所有的音节组合中,匹配度数值的和最大的值,即为概率最大的音节组合方案;
所述匹配度数值的和最大的值的计算公式为:
Figure FDA0003146207990000011
其中:
W(Si)表示:音节si的出现的概率;
Figure FDA0003146207990000012
表示:某一个候选组合p中,音节si的出现概率的乘积;
Figure FDA0003146207990000021
表示:P的所有候选组合中概率最大的一个组合方案。
2.根据权利要求1所述的一种输入法拼音纠错方法,其特征在于:所述的第一阈值为8。
3.根据权利要求1所述的一种输入法拼音纠错方法,其特征在于:所述的第二阈值为2。
4.根据权利要求3所述的一种输入法拼音纠错方法,其特征在于:所述的第二阈值是指将错误的音节转换为近似标准音节所需要的操作数目。
5.根据权利要求1所述的一种输入法拼音纠错方法,其特征在于:所述的步骤S3中,增加一错误输入的特征库,基于所述错误输入的特征库,对近似标准音节集合进行缩减。
6.根据权利要求1所述的一种输入法拼音纠错方法,其特征在于:所述的步骤S3中,匹配时间复杂度为O(mn),其中m为近似标准音节的个数,n为音节个数。
7.根据权利要求1所述的一种输入法拼音纠错方法,其特征在于:所述的步骤S4中,评价所述匹配度的计算公式为:
P(Candj|si-n,si-n+1,…,si-1)=Syllable(Candj|si-n,si-n+1,…,si-1)
其中:
si-1表示当前音节的前一个音节;
Cand表示当前音节的近似标准音节集合;
Candj表示第j个近似标准音节;
P(Candj|si-n,si-n+1,…,si-1)表示的是,在已知前n个音节si-n,si-n+1,…,si-1的情况下,第i个音节纠错的第j个近似标准音节Candj的概率;
Syllable()函数是深度学习评价模型SyllableEval模型,用SyllableEval模型,来估算已知前n个音节si-n,si-n+1,…,si-1的情况下,第i个音节上纠错的第j个候选音节Candj的概率。
8.根据权利要求1所述的一种输入法拼音纠错方法,其特征在于:通过动态转移方程加快求解匹配度数值的和最大的值,所述的动态转移方程为:
D(si)=D(si-1)+log(P(si|si-1))
其中:
D(si)表示从第一个音节开始,到达第i个音节的组合概率;
P(si|si-1)表示从第si-1个音节转移到第si个音节的概率。
9.一种输入法拼音纠错装置,其特征在于:包括获取模块、近似标准音节匹配模块、深度学习评价模型、计算模块;
所述的深度学习评价模型由依次相连的输入层、推理运算层和输出层组成;
所述的输入层,将输入的每个音节,通过预训练的编码模型,得到与该音节唯一对应的一个长度50的编码向量,输入到推理层当中;
所述的推理层包括依次连接的设定数量的BiLSTM运算层,在BiLSTM运算层中包括依次连接的双向的LSTM运算单元和非线性激活函数层,每个BiLSTM运算层通过非线性激活函数层连接至下一个BiLSTM运算层;
所述输出层包括数据归一化单元、数据排列单元和损失函数单元,数据归一化单元连接最后一个BiLSTM运算层的非线性激活函数层,将数据进行归一化操作后,输入到数据排列单元中;数据排列单元输出结果,并将结果输入到损失函数单元中,用于计算模型的相关参数的梯度损失;
获取模块:用于获得用户输入的拼音串,并将拼音串按第一阈值长度切分为至少一个音节;
近似标准音节匹配模块:用于匹配出每个音节的近似标准音节,并形成近似标准音节集合;
深度学习评价模型:用于评价错误音节的每个近似标准音节与该音节的前n个音节的匹配度;
计算模块:用于计算所有的音节组合中匹配度数值和最大的值;所述匹配度数值的和最大的值的计算公式为:
Figure FDA0003146207990000031
其中:
W(Si)表示:音节si的出现的概率;
Figure FDA0003146207990000041
表示:某一个候选组合p中,音节si的出现概率的乘积;
Figure FDA0003146207990000042
表示:P的所有候选组合中概率最大的一个组合方案。
10.一种计算机存储介质,其特征在于:其上存储有输入法拼音纠错程序,所述输入法拼音纠错程序在被处理器执行时实现权利要求1至8之一所述的输入法拼音纠错方法。
CN201911085534.8A 2019-11-08 2019-11-08 一种深度学习评价模型、输入法拼音纠错方法及装置 Active CN110909534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911085534.8A CN110909534B (zh) 2019-11-08 2019-11-08 一种深度学习评价模型、输入法拼音纠错方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911085534.8A CN110909534B (zh) 2019-11-08 2019-11-08 一种深度学习评价模型、输入法拼音纠错方法及装置

Publications (2)

Publication Number Publication Date
CN110909534A CN110909534A (zh) 2020-03-24
CN110909534B true CN110909534B (zh) 2021-08-24

Family

ID=69816806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911085534.8A Active CN110909534B (zh) 2019-11-08 2019-11-08 一种深度学习评价模型、输入法拼音纠错方法及装置

Country Status (1)

Country Link
CN (1) CN110909534B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992211B (zh) * 2017-12-08 2021-03-12 中山大学 一种基于cnn-lstm的汉字拼写错别字改正方法
CN110083819B (zh) * 2018-01-26 2024-02-09 北京京东尚科信息技术有限公司 拼写纠错方法、装置、介质及电子设备
CN108549637A (zh) * 2018-04-19 2018-09-18 京东方科技集团股份有限公司 基于拼音的语义识别方法、装置以及人机对话系统
CN109492202B (zh) * 2018-11-12 2022-12-27 浙江大学山东工业技术研究院 一种基于拼音的编码与解码模型的中文纠错方法
CN109739368A (zh) * 2018-12-29 2019-05-10 咪咕文化科技有限公司 一种汉语拼音的拆分的方法、装置

Also Published As

Publication number Publication date
CN110909534A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
JP6818941B2 (ja) 多言語音声認識ネットワークをトレーニングする方法、音声認識システム及び多言語音声認識システム
CN106847288B (zh) 语音识别文本的纠错方法与装置
EP2585962B1 (en) Password checking
CN112287670A (zh) 文本纠错方法、系统、计算机设备及可读存储介质
JP2775140B2 (ja) パターン認識方法、音声認識方法および音声認識装置
CN111309915A (zh) 联合学习的自然语言训练方法、系统、设备及存储介质
CN111428474A (zh) 基于语言模型的纠错方法、装置、设备及存储介质
CN111739514B (zh) 一种语音识别方法、装置、设备及介质
JP2019133084A (ja) 学習装置、学習方法及び学習プログラム
Hossain et al. Auto-correction of english to bengali transliteration system using levenshtein distance
CN112560443B (zh) 选择题生成模型训练方法、选择题生成方法、设备及介质
CN111145729A (zh) 语音识别模型训练方法、系统、移动终端及存储介质
US11227110B1 (en) Transliteration of text entry across scripts
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN110245349B (zh) 一种句法依存分析方法、装置及一种电子设备
CN110751234B (zh) Ocr识别纠错方法、装置及设备
CN112951211B (zh) 一种语音唤醒方法及装置
US10394960B2 (en) Transliteration decoding using a tree structure
Fusayasu et al. Word-error correction of continuous speech recognition based on normalized relevance distance
CN111782892B (zh) 基于前缀树的相似字符识别方法、设备、装置和存储介质
CN114065738A (zh) 基于多任务学习的中文拼写纠错方法
CN112463924A (zh) 面向智能问答基于内部相关性编码的文本意图匹配方法
CN103246714B (zh) 基于错误模式挖掘的中文搜索引擎查询纠错方法及系统
Lund et al. Improving optical character recognition through efficient multiple system alignment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Shen Zheji

Inventor after: Zhu Xiangyu

Inventor after: Feng Xianyang

Inventor before: Shen Zheji

CB03 Change of inventor or designer information