CN110909534B - 一种深度学习评价模型、输入法拼音纠错方法及装置 - Google Patents
一种深度学习评价模型、输入法拼音纠错方法及装置 Download PDFInfo
- Publication number
- CN110909534B CN110909534B CN201911085534.8A CN201911085534A CN110909534B CN 110909534 B CN110909534 B CN 110909534B CN 201911085534 A CN201911085534 A CN 201911085534A CN 110909534 B CN110909534 B CN 110909534B
- Authority
- CN
- China
- Prior art keywords
- syllable
- input
- layer
- pinyin
- error correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
- G06F3/0237—Character input methods using prediction or retrieval techniques
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种深度学习评价模型、输入法拼音纠错方法及装置,使用了基于自动状态转换机的方法,实现输入拼音串和标准音节的高效的levenshtein distance(编辑距离)匹配。然后通过基于深度学习的评价模型,给出当前输入的拼音串和各不同近似标准音节的组合评分。最后通过使用基于动态规划,计算得到最优的组合拼音解析结果。本发明能够实现对于可能存在错误输入的音节进行纠正,并输出正确且概率最大的分音节结果,以及解决可能存在的二义性的问题,兼顾国产化信息平台,提高输入法的运行效率。
Description
技术领域
本发明涉及输入法领域,特别涉及一种深度学习评价模型、基于该模型的输入法拼音纠错方法及装置。
背景技术
拼音输入法,作为中文汉字输出的一种通用方式,是人们日常信息化生活当中必不可少的软件。中文输入法能够实现智能的拼音纠错,将极大的优化用户的日常输入体验,增加用户拼音输入的流畅程度。
现有技术中对拼音串进行纠错首先要先将拼音串进行分音节操作,现有的拼音分音节模型使用正向最大化匹配模型和反向最大化匹配模型实现分音节。但是这些方法都无法有效的处理输入拼音串中本身就存在错误的情况,或者解析方式可能就已经存在二义性。例如:fangan,可以解析成为fan’gan,也可以解析成为fang’an。
为了能够解决输入拼音串中可能存在错误拼音字符输入的情况,同时解决分音节解析可能存在二义性的问题,并且能兼顾国产化信息平台,提高输入法的运行效率,急需对现有技术进行改进。
发明内容
有鉴于此,本发明提供深度学习评价模型、输入法拼音纠错方法及装置,通过使用自动状态转换机,评价模型和动态规划方法,实现对于可能存在错误输入的音节进行纠正,并输出正确且概率最大的分音节结果。处理后的音节,使用基于HMM的语言模型进行组词。
第一方面,本发明提供一种深度学习评价模型,由输入层、推理运算层和输出层组成;所述的输入层、推理层和输出层依次相连;
所述的输入层,将输入的每个音节,通过预训练的编码模型,得到与该音节唯一对应的一个长度50的编码向量,输入到推理层当中;
所述的推理层包括依次连接的设定数量的BiLSTM运算层,在BiLSTM运算层中包括依次连接的双向的LSTM运算单元和非线性激活函数层,每个BiLSTM运算层通过非线性激活函数层连接至下一个BiLSTM运算层;
所述输出层包括数据归一化单元、数据排列单元和损失函数单元,数据归一化单元连接最后一个BiLSTM运算层的非线性激活函数层,将数据进行归一化操作后,输入到数据排列单元中;数据排列单元输出结果,并将结果输入到损失函数单元中,用于计算模型的相关参数的梯度损失。
第二方面,本发明提供一种输入法拼音纠错方法,利用上述深度学习评价模型来查找用户输入的拼音串的概率最大的音节组合方案。
进一步的,一种输入法拼音纠错方法包括以下步骤:
步骤S1、获取用户输入的拼音串;
步骤S2、将输入的拼音串切分为长度小于第一阈值的至少一个音节;
步骤S3、利用标准音节集合匹配每个错误音节的编辑距离小于第二阈值的近似标准音节,形成近似标准音节集合;
步骤S4、利用深度学习评价模型,评价错误音节的每个近似标准音节与该错误音节的前n个音节的匹配度;
步骤S5、利用动态规划方法计算所有的音节组合中,匹配度数值的和最大的值,即为概率最大的音节组合方案。
进一步的,所述的第一阈值为8。
进一步的,所述的第二阈值为2。
进一步的,所述的第二阈值是指将错误的音节转换为近似标准音节所需要的操作数目。
进一步的,所述的步骤S3中,增加一错误输入的特征库,基于所述错误输入的特征库,对近似标准音节集合进行缩减。
进一步的,所述的步骤S3中,匹配时间复杂度为O(mn),其中m为近似标准音节的个数,n为音节个数。
进一步的,所述的步骤S4中,评价所述匹配度的计算公式为:
P(Candj|si-n,si-n+1,…,si-1)=Syllable(Candj|si-n,si-n+1,…,si-1)
其中:
si-1表示当前音节的前一个音节;
Cand表示当前音节的近似标准音节集合;
Candj表示第j个近似标准音节。
进一步的,所述的步骤S5中,匹配度数值的和最大值的计算公式为:
其中:
W(Si)表示:音节si的出现的概率;
进一步的,通过动态转移方程加快求解,所述的动态转移方程为:
D(si)=D(si-1)+log(P(si|si-1))
其中:
D(si)表示从第一个音节开始,到达第i个音节的组合概率;
P(si|si-1)表示从第si-1个音节转移到第si个音节的概率。
第三方面,本发明提供一种输入法拼音纠错装置,包括获取模块、近似标准音节匹配模块、权利要求1所述的深度学习评价模型、计算模块;
获取模块:用于获得用户输入的拼音串,并将拼音串按第一阈值长度切分为至少一个音节;
近似标准音节匹配模块:用于匹配出每个音节的近似标准音节,并形成近似标准音节集合;
深度学习评价模型:用于评价错误音节的每个近似标准音节与所述错误音节的前n个音节的匹配度;
计算模块:用于计算所有的音节组合中匹配度数值和最大的值。
第四方面,本发明提供一种计算机存储介质,其上存储有输入法拼音纠错程序,所述输入法拼音纠错程序在被处理器执行时实现以上所述的输入法拼音纠错方法。
本发明能够实现对于可能存在错误输入的音节进行纠正,并输出正确且概率最大的分音节结果,以及解决可能存在的二义性的问题,兼顾国产化信息平台,提高输入法的运行效率。
附图说明
图1为本发明的输入法拼音纠错方法的步骤示意图;
图2为本发明的深度学习评价模型结构示意图;
图3为本发明的利用编辑距离匹配的部分结果示意图;
图4为本发明的音节之间的节点权重示意图;
图5为本发明的输入法拼音纠错装置结构示意图。
具体实施方式
下面结合附图对本公开实施例进行详细描述。
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
实施例一
本发明的实施例一提供一种输入法拼音纠错方法,使用了基于自动状态转换机的方法,实现输入拼音串和标准音节的高效的levenshtein distance(编辑距离)匹配。然后通过基于深度学习的评价模型,给出当前输入的拼音串和各不同正确音节的组合评分。最后通过使用基于动态规划,计算得到最优的组合拼音解析结果。
如图1所示,该方法包括以下步骤:
步骤S1、获取用户输入的拼音串。
步骤S2、对于输入的拼音串,切分出长度小于设定第一阈值的若干个音节。优选的,本发明中第一阈值设定为8。
步骤S3、对于每个错误音节,利用自动转换机中保存的已经构建好的标准音节集合,匹配该错误音节的levenshtein distance小于第二阈值的近似标准音节,形成近似标准音节集合。
所述的错误音节,是标准音节集合中没有的音节。
优选的,可以基于错误输入的特征库,实现对近似标准音节集合的缩减。
该第二阈值为2,匹配时间复杂度为O(mn),其中m为标准音节个数,n为音节个数。
本发明的自动转换机是指确定有穷自动机(define finite automation,DFA)。DFA实现的主要功能是实现快速的字符串合法性校验。
标准音节集合是指中文输入法中规定的标准音节的集合,例如标准音节wo,ai,bei,jing这种。举例说明步骤S2的实现过程:假设用户输入了一个错误的音节:kuen。该音节并没有在标准音节集合中的。因此,需要使用基于DFA的匹配算法,找到和kuen近似的标准音节,其近似标准音节包括kun、ken、keng。所述的第二阈值,指的是将错误的音节kuen转换为标准音节所需要的操作数目。这里的操作指的是删除错误字符串中某个字符或者给错误字符串中增加某个字符,删除一个字符或增加一个字符,操作数目记为1,删除一个字符再增加一个字符,操作数目记为2。举例说明:beii->bei,删除字符串中最后的字符i,操作数目为1;jng->jing,增加了一个字符,操作数目记为1。通过这样操作,实现kuen能够匹配到的近似标准音节变为kun,ken,keng。
错误输入的特征库是人工观察总结用户错误音节输入规律得到的,是在使用自动转换机将一个错误音节转化为近似的正确的音节时,再进一步的过滤掉近似正确音节的过程。例如,输入beii这个错误的音节,只需要将其转化为bei即可,过滤掉bi、ei等近似的正确音节候选。基于这种过滤操作来实现候近似准音节集合的缩减。
步骤S4、利用基于BiLSTM构成的深度学习评价模型,评价错误音节的每个近似标准音节与所述错误音节的前n个音节的匹配度。
举例说明:当前音节的为si,si-1为si的前一个音节,依次类推。的当前音节si的近似标准音节集合为Cand,Candj为第j个近似标准音节,深度学习评价模型的作用是评估Si处的近似标准音节集合中的所有近似标准音节与该音节前面的音节的匹配度。
所述深度学习评价模型SyllableEval通过多层BiLSTM网络结构实现,其模型结构如图2所示。其中si-n,si-n+1,…,si-1为si的前n个音节,n大于等于1,在实际使用中根据需要设定为具体数值。Cand为si处出现错误音节通过上述自动转换机得到近似标准音节集合,j表示近似标准音节集合中的第j个近似标准音节。通过该模型,实现了对于第j个近似标准音节在前n个音节组成的拼音串里面出现概率的估量,即P(Candj|si-n,si-n+1,…,si-1)=Syllable(Candj|si-n,si-n+1,…,si-1)。
所述训练完成的基于BiLSTM的深度学习评价网络模型由三部分组成,分别是:输入层、推理运算层和输出层。
所述的输入层、推理层和输出层依次相连;
所述的输入层,将输入的每个音节,通过预训练的编码模型,得到不同音节唯一对应的一个长度50的编码向量,输入到推理层当中。
所述的推理层包括依次连接的设定数量的基于RNN的BiLSTM运算层,在BiLSTM运算层中包括依次连接的双向的LSTM运算单元和非线性激活函数层,每个BiLSTM运算层通过非线性激活函数层连接至下一个BiLSTM运算层;
所述输出层包括数据归一化单元、数据排列单元和损失函数单元。数据归一化单元连接最后一个BiLSTM运算层的非线性激活函数层,将数据进行归一化操作后,输入到数据排列单元中。数据排列单元输出结果,并将结果输入到损失函数单元中,用于计算模型的相关参数的梯度损失。
其中:
W(Si)表示:音节si的出现的概率;
优选的,可以通过动态规划方法进行状态转移,加快该组合数值的求解,其状态转移方程为D(si)=D(si-1)+log(P(si|si-1))。
其中,D(si)为从第一个音节s1开始,到达第i个音节的组合概率;P(si|si-1)表示为从si-1音节转移到si音节的概率。
其计算流程详细说明如下:
首先是对于输入拼音串wiaizhognguogongchandagn,进行音节切分,然后进行levenshtein distance的匹配,其部分结果示意图如3所示。
将该图转换成为音节之间的节点权重图,其部分权重图示意如图4所示。
实施例二
本实施例提供一种输入法拼音纠错装置,如图5所示,包括获取模块、近似标准音节匹配模块、实施例中所述的深度学习评价模型和计算模块。
获取模块:用于获得用户输入的拼音串,并将拼音串按第一阈值长度切分为若干个音节;
近似标准音节匹配模块:用于匹配出每个音节的近似标准音节,并形成近似标准音节集合;
深度学习评价模型:用于评价每个音节的每个近似标准音节与该音节的前n个音节的匹配度;
计算模块:用于计算所有的音节组合中匹配度的匹配度数值和最大的值。
实施例三
本实施例提供一种计算机存储介质,其上存储有输入法拼音纠错程序,输入法拼音纠错程序在被处理器执行时实现实施例一中所述输入法拼音纠错方法。
以上仅为说明本发明的实施方式,并不用于限制本发明,对于本领域的技术人员来说,凡在本发明的精神和原则之内,不经过创造性劳动所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种输入法拼音纠错方法,其特征在于:利用深度学习评价模型来查找用户输入的拼音串的概率最大的音节组合方案;所述的深度学习评价模型由依次相连的输入层、推理运算层和输出层组成;
所述的输入层,将输入的每个音节,通过预训练的编码模型,得到与该音节唯一对应的一个长度50的编码向量,输入到推理层当中;
所述的推理层包括依次连接的设定数量的BiLSTM运算层,在BiLSTM运算层中包括依次连接的双向的LSTM运算单元和非线性激活函数层,每个BiLSTM运算层通过非线性激活函数层连接至下一个BiLSTM运算层;
所述输出层包括数据归一化单元、数据排列单元和损失函数单元,数据归一化单元连接最后一个BiLSTM运算层的非线性激活函数层,将数据进行归一化操作后,输入到数据排列单元中;数据排列单元输出结果,并将结果输入到损失函数单元中,用于计算模型的相关参数的梯度损失;
所述的输入法拼音纠错方法包括以下步骤:
步骤S1、获取用户输入的拼音串;
步骤S2、将输入的拼音串切分为长度小于第一阈值的至少一个音节;
步骤S3、利用标准音节集合匹配每个错误音节的编辑距离小于第二阈值的近似标准音节,形成近似标准音节集合;
步骤S4、利用深度学习评价模型,评价错误音节的每个近似标准音节与该错误音节的前n个音节的匹配度;
步骤S5、利用动态规划方法计算所有的音节组合中,匹配度数值的和最大的值,即为概率最大的音节组合方案;
所述匹配度数值的和最大的值的计算公式为:
其中:
W(Si)表示:音节si的出现的概率;
2.根据权利要求1所述的一种输入法拼音纠错方法,其特征在于:所述的第一阈值为8。
3.根据权利要求1所述的一种输入法拼音纠错方法,其特征在于:所述的第二阈值为2。
4.根据权利要求3所述的一种输入法拼音纠错方法,其特征在于:所述的第二阈值是指将错误的音节转换为近似标准音节所需要的操作数目。
5.根据权利要求1所述的一种输入法拼音纠错方法,其特征在于:所述的步骤S3中,增加一错误输入的特征库,基于所述错误输入的特征库,对近似标准音节集合进行缩减。
6.根据权利要求1所述的一种输入法拼音纠错方法,其特征在于:所述的步骤S3中,匹配时间复杂度为O(mn),其中m为近似标准音节的个数,n为音节个数。
7.根据权利要求1所述的一种输入法拼音纠错方法,其特征在于:所述的步骤S4中,评价所述匹配度的计算公式为:
P(Candj|si-n,si-n+1,…,si-1)=Syllable(Candj|si-n,si-n+1,…,si-1)
其中:
si-1表示当前音节的前一个音节;
Cand表示当前音节的近似标准音节集合;
Candj表示第j个近似标准音节;
P(Candj|si-n,si-n+1,…,si-1)表示的是,在已知前n个音节si-n,si-n+1,…,si-1的情况下,第i个音节纠错的第j个近似标准音节Candj的概率;
Syllable()函数是深度学习评价模型SyllableEval模型,用SyllableEval模型,来估算已知前n个音节si-n,si-n+1,…,si-1的情况下,第i个音节上纠错的第j个候选音节Candj的概率。
8.根据权利要求1所述的一种输入法拼音纠错方法,其特征在于:通过动态转移方程加快求解匹配度数值的和最大的值,所述的动态转移方程为:
D(si)=D(si-1)+log(P(si|si-1))
其中:
D(si)表示从第一个音节开始,到达第i个音节的组合概率;
P(si|si-1)表示从第si-1个音节转移到第si个音节的概率。
9.一种输入法拼音纠错装置,其特征在于:包括获取模块、近似标准音节匹配模块、深度学习评价模型、计算模块;
所述的深度学习评价模型由依次相连的输入层、推理运算层和输出层组成;
所述的输入层,将输入的每个音节,通过预训练的编码模型,得到与该音节唯一对应的一个长度50的编码向量,输入到推理层当中;
所述的推理层包括依次连接的设定数量的BiLSTM运算层,在BiLSTM运算层中包括依次连接的双向的LSTM运算单元和非线性激活函数层,每个BiLSTM运算层通过非线性激活函数层连接至下一个BiLSTM运算层;
所述输出层包括数据归一化单元、数据排列单元和损失函数单元,数据归一化单元连接最后一个BiLSTM运算层的非线性激活函数层,将数据进行归一化操作后,输入到数据排列单元中;数据排列单元输出结果,并将结果输入到损失函数单元中,用于计算模型的相关参数的梯度损失;
获取模块:用于获得用户输入的拼音串,并将拼音串按第一阈值长度切分为至少一个音节;
近似标准音节匹配模块:用于匹配出每个音节的近似标准音节,并形成近似标准音节集合;
深度学习评价模型:用于评价错误音节的每个近似标准音节与该音节的前n个音节的匹配度;
计算模块:用于计算所有的音节组合中匹配度数值和最大的值;所述匹配度数值的和最大的值的计算公式为:
其中:
W(Si)表示:音节si的出现的概率;
10.一种计算机存储介质,其特征在于:其上存储有输入法拼音纠错程序,所述输入法拼音纠错程序在被处理器执行时实现权利要求1至8之一所述的输入法拼音纠错方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911085534.8A CN110909534B (zh) | 2019-11-08 | 2019-11-08 | 一种深度学习评价模型、输入法拼音纠错方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911085534.8A CN110909534B (zh) | 2019-11-08 | 2019-11-08 | 一种深度学习评价模型、输入法拼音纠错方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110909534A CN110909534A (zh) | 2020-03-24 |
CN110909534B true CN110909534B (zh) | 2021-08-24 |
Family
ID=69816806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911085534.8A Active CN110909534B (zh) | 2019-11-08 | 2019-11-08 | 一种深度学习评价模型、输入法拼音纠错方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909534B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992211B (zh) * | 2017-12-08 | 2021-03-12 | 中山大学 | 一种基于cnn-lstm的汉字拼写错别字改正方法 |
CN110083819B (zh) * | 2018-01-26 | 2024-02-09 | 北京京东尚科信息技术有限公司 | 拼写纠错方法、装置、介质及电子设备 |
CN108549637A (zh) * | 2018-04-19 | 2018-09-18 | 京东方科技集团股份有限公司 | 基于拼音的语义识别方法、装置以及人机对话系统 |
CN109492202B (zh) * | 2018-11-12 | 2022-12-27 | 浙江大学山东工业技术研究院 | 一种基于拼音的编码与解码模型的中文纠错方法 |
CN109739368A (zh) * | 2018-12-29 | 2019-05-10 | 咪咕文化科技有限公司 | 一种汉语拼音的拆分的方法、装置 |
-
2019
- 2019-11-08 CN CN201911085534.8A patent/CN110909534B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110909534A (zh) | 2020-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
JP6818941B2 (ja) | 多言語音声認識ネットワークをトレーニングする方法、音声認識システム及び多言語音声認識システム | |
CN106847288B (zh) | 语音识别文本的纠错方法与装置 | |
EP2585962B1 (en) | Password checking | |
CN112287670A (zh) | 文本纠错方法、系统、计算机设备及可读存储介质 | |
JP2775140B2 (ja) | パターン認識方法、音声認識方法および音声認識装置 | |
CN111309915A (zh) | 联合学习的自然语言训练方法、系统、设备及存储介质 | |
CN111428474A (zh) | 基于语言模型的纠错方法、装置、设备及存储介质 | |
CN111739514B (zh) | 一种语音识别方法、装置、设备及介质 | |
JP2019133084A (ja) | 学習装置、学習方法及び学習プログラム | |
Hossain et al. | Auto-correction of english to bengali transliteration system using levenshtein distance | |
CN112560443B (zh) | 选择题生成模型训练方法、选择题生成方法、设备及介质 | |
CN111145729A (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
US11227110B1 (en) | Transliteration of text entry across scripts | |
CN111274804A (zh) | 基于命名实体识别的案件信息提取方法 | |
CN110245349B (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN110751234B (zh) | Ocr识别纠错方法、装置及设备 | |
CN112951211B (zh) | 一种语音唤醒方法及装置 | |
US10394960B2 (en) | Transliteration decoding using a tree structure | |
Fusayasu et al. | Word-error correction of continuous speech recognition based on normalized relevance distance | |
CN111782892B (zh) | 基于前缀树的相似字符识别方法、设备、装置和存储介质 | |
CN114065738A (zh) | 基于多任务学习的中文拼写纠错方法 | |
CN112463924A (zh) | 面向智能问答基于内部相关性编码的文本意图匹配方法 | |
CN103246714B (zh) | 基于错误模式挖掘的中文搜索引擎查询纠错方法及系统 | |
Lund et al. | Improving optical character recognition through efficient multiple system alignment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information |
Inventor after: Shen Zheji Inventor after: Zhu Xiangyu Inventor after: Feng Xianyang Inventor before: Shen Zheji |
|
CB03 | Change of inventor or designer information |