CN110990588B

CN110990588B - 一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法

Info

Publication number: CN110990588B
Application number: CN201911259369.3A
Authority: CN
Inventors: 高金锋; 姚汝贤; 马贺红; 张瑜; 张俊明; 赖晗
Original assignee: Huanghuai University
Current assignee: Huanghuai University
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2023-04-11
Anticipated expiration: 2039-12-10
Also published as: CN110990588A

Abstract

本发明涉及智能手机、平板电脑、手提电脑、导航仪等移动智能终端的信息输入领域，具体地指一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法，通过存储词汇元组出现概率的传统模式向直接拟合一个泛化了的概率生成函数转变。

Description

一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法

技术领域

本发明涉及智能手机、平板电脑、手提电脑、导航仪等移动智能终端的信息输入领域，具体地指一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法。

背景技术

伴随着移动计算(Mobile Computing)对无线通信、网络、移动技术、云端计算和移动智能终端的整合，笔式用户接口成为研究的热点。智能手机、平板电脑、手提电脑、导航仪等移动智能终端的迅猛发展使得手写体信息输入深受大家欢迎和认可。当前，此类设备主要以手写体单字(一次1个)输入辅以联想候选项集实现信息输入，这大大的限制了输入的自由性及速度；尽管也有一次输入数个单字(一次2、3个)的手写体串输入，但其识别率和速度还有待进一步提高。像人们平时写字一样，手写体文本输入(一次书写多行且每行多字)是进一步提高信息输入速度和自由度的最佳选择，必将进一步方便大家生产及生活。尽管以文本的形式手写输入信息较单字手写输入具有较高的速度且满足人类书写习惯，但手写体文本的识别却挑战巨大。该挑战主要源于手写体文本识别过程中的单字切分和识别产生的不确定性，即首先输入设备不能确定哪些笔画或部分组成一个手写体单字，其次单字识别过程中产生的误识别。因此，手写体文本识别需要经历一系列子专家模块的处理。如果让各子专家模块逐次做出判定，会导致前以子模块产生的错误传递给后续子专家模块，即错误累积，使手写体文本识别率极大地降低。另外，经过识别后的手写体文本为文本而非单字，具有自然语言特性，因此可借助信息融合技术消除以上各子专家模块处理时因不确定性产生的歧义。鉴于此，让单字切分、单字识别、自然语言模型三个子专家模块一起对手写体文本做出识别判断，即统一识别框架下的手写体文本识别，是保证手写体文本高认识率最优选择。虽然统一识别框架保证手写体文本识别器的高认识率，但随着子专家模块的增加，手写体文本识别器所需要的内存空间显著增大。鉴于移动计算过程中完成信息输入的移动智能终端内存相对较小、实时响应性高的特点，要求运行其上的手写体文本识别器占内存相对较小。手写体文本识别器的高认识率与小型化两个特征的互斥性，使现有研究和应用基本都没能够使用全部专家模块，即提高识别率是加专家模块，小型化时则压缩专家模块，导致手写体文本输入无法在移动智能终端上得到应用。

发明内容

为解决上述背景技术中存在的问题，本发明提供了一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法，以同时兼顾高识别率与小型化两个特性。

一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法，具体包括以下步骤：

通过存储词汇元组出现概率的传统模式向直接拟合一个泛化了的概率生成函数转变，具体过程如下：采用基于一元、二元和三元线性内插(Interpolation)平滑的自然语言模型，如式(7)所示，

P₁(ω_i|ω_i-2ω_i-1)＝λ₁P(ω_i|ω_i-2ω_i-1)+λ₂P(ω_i|ω_i-1)+λ₃P(ω_i) 式(7)

式中，P(ω_i|ω_i-2ω_i-1)，P(ω_i|ω_i-1)和P(ω_i)分别为三元、二元和一元模型，其中λ₁，λ₂和λ₃为统合参数，把从语料库中学习到的以上三个元组模型的概率存储在字典中，占内存大，故采用一个拟合函数，直接根据输入的单字ω_i，ω_i-1和ω_i-2的编码，由拟合函数生成元组对应的概率；

鉴于有三个变量，因此可以采用三元高阶多项式函数，如式(8)所示，

式(8)可以同时表示以上三个概率模型，即当ω_i-2和ω_i-1都为零时，可以得到一元组的概率，而当ω_i-2为零时，还可以得到二元组概率；

为防止参数学习过程中的过度拟合，把从语料库中得到的出现频率较小的不稳定元组进行预处理，如第i类一元组在语料库中出现的次数记为

类似的第j类二元和第k类三元组出现次数分别记为

和

其中n₁，n₂和n₃分别标记一元组、二元组和三元组的类数，n₁＜＜n₂＜＜n₃。一元组、二元组和三元组在语料库中出现的总数分别记为N1，N2和N3，那么，第i类一元组，第j类二元组和第k类三元组出现的概率可用式(9)来表示，

把θ₁小于某一阈值的一元组全部赋值为某一极小常数；同理把θ₂和θ₃小于某一阈值的二元组和三元组也分别赋给不同的极小常数。然后，在预处理后的元组集合上通过用随机梯度下降算法优化概率生成函数式(8)的参数。通过该概率生成函数，便实现了自然语言模型零空间复杂度。

具体实施方式

类似的第j类二元和第k类三元组出现次数分别记为

和

Claims

1.一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法，其特征在于，包括以下步骤：

P1(ωi|ωi-2ωi-1)＝λ1P(ωi|ωi-2ωi-1)+λ2P(ωi|ωi-1)+λ3P(ωi) 式(7)

式中，P(ωi|ωi-2ωi-1)，P(ωi|ωi-1)和P(ωi)分别为三元、二元和一元模型，其中λ1，λ2和λ3为统合参数，把从语料库中学习到的以上三个元组模型的概率存储在字典中，占内存大，故采用一个拟合函数，直接根据输入的单字ωi，ωi-1和ωi-2的编码，由拟合函数生成元组对应的概率；

式(8)可以同时表示以上三个概率模型，即当ωi-2和ωi-1都为零时，可以得到一元组的概率，而当ωi-2为零时，还可以得到二元组概率；

为防止参数学习过程中的过度拟合，把从语料库中得到的出现频率较小的不稳定元组进行预处理，如第i类一元组在语料库中出现的次数记为Cⁱ ₁，其中0＜i＜n₁，类似的第j类二元和第k类三元组出现次数分别记为C^j ₂和C^k ₃，其中0＜j＜n₂，0＜k＜n₃，其中n₁，n₂和n₃分别标记一元组、二元组和三元组的类数，n1＜＜n2＜＜n3；一元组、二元组和三元组在语料库中出现的总数分别记为N₁，N₂和N₃，那么，第i类一元组，第j类二元组和第k类三元组出现的概率可用式(9)来表示，

把θ1小于某一阈值的一元组全部赋值为某一极小常数；同理把θ2和θ3小于某一阈值的二元组和三元组也分别赋给不同的极小常数；然后，在预处理后的元组集合上通过用随机梯度下降算法优化概率生成函数式(8)的参数，通过该概率生成函数，便实现了自然语言模型零空间复杂度。