CN110990588B - 一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法 - Google Patents
一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法 Download PDFInfo
- Publication number
- CN110990588B CN110990588B CN201911259369.3A CN201911259369A CN110990588B CN 110990588 B CN110990588 B CN 110990588B CN 201911259369 A CN201911259369 A CN 201911259369A CN 110990588 B CN110990588 B CN 110990588B
- Authority
- CN
- China
- Prior art keywords
- tuple
- probability
- natural language
- language model
- binary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及智能手机、平板电脑、手提电脑、导航仪等移动智能终端的信息输入领域,具体地指一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法,通过存储词汇元组出现概率的传统模式向直接拟合一个泛化了的概率生成函数转变。
Description
技术领域
本发明涉及智能手机、平板电脑、手提电脑、导航仪等移动智能终端的信息输入领域,具体地指一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法。
背景技术
伴随着移动计算(Mobile Computing)对无线通信、网络、移动技术、云端计算和移动智能终端的整合,笔式用户接口成为研究的热点。智能手机、平板电脑、手提电脑、导航仪等移动智能终端的迅猛发展使得手写体信息输入深受大家欢迎和认可。当前,此类设备主要以手写体单字(一次1个)输入辅以联想候选项集实现信息输入,这大大的限制了输入的自由性及速度;尽管也有一次输入数个单字(一次2、3个)的手写体串输入,但其识别率和速度还有待进一步提高。像人们平时写字一样,手写体文本输入(一次书写多行且每行多字)是进一步提高信息输入速度和自由度的最佳选择,必将进一步方便大家生产及生活。尽管以文本的形式手写输入信息较单字手写输入具有较高的速度且满足人类书写习惯,但手写体文本的识别却挑战巨大。该挑战主要源于手写体文本识别过程中的单字切分和识别产生的不确定性,即首先输入设备不能确定哪些笔画或部分组成一个手写体单字,其次单字识别过程中产生的误识别。因此,手写体文本识别需要经历一系列子专家模块的处理。如果让各子专家模块逐次做出判定,会导致前以子模块产生的错误传递给后续子专家模块,即错误累积,使手写体文本识别率极大地降低。另外,经过识别后的手写体文本为文本而非单字,具有自然语言特性,因此可借助信息融合技术消除以上各子专家模块处理时因不确定性产生的歧义。鉴于此,让单字切分、单字识别、自然语言模型三个子专家模块一起对手写体文本做出识别判断,即统一识别框架下的手写体文本识别,是保证手写体文本高认识率最优选择。虽然统一识别框架保证手写体文本识别器的高认识率,但随着子专家模块的增加,手写体文本识别器所需要的内存空间显著增大。鉴于移动计算过程中完成信息输入的移动智能终端内存相对较小、实时响应性高的特点,要求运行其上的手写体文本识别器占内存相对较小。手写体文本识别器的高认识率与小型化两个特征的互斥性,使现有研究和应用基本都没能够使用全部专家模块,即提高识别率是加专家模块,小型化时则压缩专家模块,导致手写体文本输入无法在移动智能终端上得到应用。
发明内容
为解决上述背景技术中存在的问题,本发明提供了一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法,以同时兼顾高识别率与小型化两个特性。
一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法,具体包括以下步骤:
通过存储词汇元组出现概率的传统模式向直接拟合一个泛化了的概率生成函数转变,具体过程如下:采用基于一元、二元和三元线性内插(Interpolation)平滑的自然语言模型,如式(7)所示,
P1(ωi|ωi-2ωi-1)=λ1P(ωi|ωi-2ωi-1)+λ2P(ωi|ωi-1)+λ3P(ωi) 式(7)
式中,P(ωi|ωi-2ωi-1),P(ωi|ωi-1)和P(ωi)分别为三元、二元和一元模型,其中λ1,λ2和λ3为统合参数,把从语料库中学习到的以上三个元组模型的概率存储在字典中,占内存大,故采用一个拟合函数,直接根据输入的单字ωi,ωi-1和ωi-2的编码,由拟合函数生成元组对应的概率;
鉴于有三个变量,因此可以采用三元高阶多项式函数,如式(8)所示,
式(8)可以同时表示以上三个概率模型,即当ωi-2和ωi-1都为零时,可以得到一元组的概率,而当ωi-2为零时,还可以得到二元组概率;
为防止参数学习过程中的过度拟合,把从语料库中得到的出现频率较小的不稳定元组进行预处理,如第i类一元组在语料库中出现的次数记为类似的第j类二元和第k类三元组出现次数分别记为和其中n1,n2和n3分别标记一元组、二元组和三元组的类数,n1<<n2<<n3。一元组、二元组和三元组在语料库中出现的总数分别记为N1,N2和N3,那么,第i类一元组,第j类二元组和第k类三元组出现的概率可用式(9)来表示,
把θ1小于某一阈值的一元组全部赋值为某一极小常数;同理把θ2和θ3小于某一阈值的二元组和三元组也分别赋给不同的极小常数。然后,在预处理后的元组集合上通过用随机梯度下降算法优化概率生成函数式(8)的参数。通过该概率生成函数,便实现了自然语言模型零空间复杂度。
具体实施方式
一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法,具体包括以下步骤:
通过存储词汇元组出现概率的传统模式向直接拟合一个泛化了的概率生成函数转变,具体过程如下:采用基于一元、二元和三元线性内插(Interpolation)平滑的自然语言模型,如式(7)所示,
P1(ωi|ωi-2ωi-1)=λ1P(ωi|ωi-2ωi-1)+λ2P(ωi|ωi-1)+λ3P(ωi) 式(7)
式中,P(ωi|ωi-2ωi-1),P(ωi|ωi-1)和P(ωi)分别为三元、二元和一元模型,其中λ1,λ2和λ3为统合参数,把从语料库中学习到的以上三个元组模型的概率存储在字典中,占内存大,故采用一个拟合函数,直接根据输入的单字ωi,ωi-1和ωi-2的编码,由拟合函数生成元组对应的概率;
鉴于有三个变量,因此可以采用三元高阶多项式函数,如式(8)所示,
式(8)可以同时表示以上三个概率模型,即当ωi-2和ωi-1都为零时,可以得到一元组的概率,而当ωi-2为零时,还可以得到二元组概率;
为防止参数学习过程中的过度拟合,把从语料库中得到的出现频率较小的不稳定元组进行预处理,如第i类一元组在语料库中出现的次数记为类似的第j类二元和第k类三元组出现次数分别记为和其中n1,n2和n3分别标记一元组、二元组和三元组的类数,n1<<n2<<n3。一元组、二元组和三元组在语料库中出现的总数分别记为N1,N2和N3,那么,第i类一元组,第j类二元组和第k类三元组出现的概率可用式(9)来表示,
把θ1小于某一阈值的一元组全部赋值为某一极小常数;同理把θ2和θ3小于某一阈值的二元组和三元组也分别赋给不同的极小常数。然后,在预处理后的元组集合上通过用随机梯度下降算法优化概率生成函数式(8)的参数。通过该概率生成函数,便实现了自然语言模型零空间复杂度。
Claims (1)
1.一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法,其特征在于,包括以下步骤:
通过存储词汇元组出现概率的传统模式向直接拟合一个泛化了的概率生成函数转变,具体过程如下:采用基于一元、二元和三元线性内插(Interpolation)平滑的自然语言模型,如式(7)所示,
P1(ωi|ωi-2ωi-1)=λ1P(ωi|ωi-2ωi-1)+λ2P(ωi|ωi-1)+λ3P(ωi) 式(7)
式中,P(ωi|ωi-2ωi-1),P(ωi|ωi-1)和P(ωi)分别为三元、二元和一元模型,其中λ1,λ2和λ3为统合参数,把从语料库中学习到的以上三个元组模型的概率存储在字典中,占内存大,故采用一个拟合函数,直接根据输入的单字ωi,ωi-1和ωi-2的编码,由拟合函数生成元组对应的概率;
鉴于有三个变量,因此可以采用三元高阶多项式函数,如式(8)所示,
式(8)可以同时表示以上三个概率模型,即当ωi-2和ωi-1都为零时,可以得到一元组的概率,而当ωi-2为零时,还可以得到二元组概率;
为防止参数学习过程中的过度拟合,把从语料库中得到的出现频率较小的不稳定元组进行预处理,如第i类一元组在语料库中出现的次数记为Ci 1,其中0<i<n1,类似的第j类二元和第k类三元组出现次数分别记为Cj 2和Ck 3,其中0<j<n2,0<k<n3,其中n1,n2和n3分别标记一元组、二元组和三元组的类数,n1<<n2<<n3;一元组、二元组和三元组在语料库中出现的总数分别记为N1,N2和N3,那么,第i类一元组,第j类二元组和第k类三元组出现的概率可用式(9)来表示,
把θ1小于某一阈值的一元组全部赋值为某一极小常数;同理把θ2和θ3小于某一阈值的二元组和三元组也分别赋给不同的极小常数;然后,在预处理后的元组集合上通过用随机梯度下降算法优化概率生成函数式(8)的参数,通过该概率生成函数,便实现了自然语言模型零空间复杂度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911259369.3A CN110990588B (zh) | 2019-12-10 | 2019-12-10 | 一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911259369.3A CN110990588B (zh) | 2019-12-10 | 2019-12-10 | 一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110990588A CN110990588A (zh) | 2020-04-10 |
CN110990588B true CN110990588B (zh) | 2023-04-11 |
Family
ID=70091981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911259369.3A Active CN110990588B (zh) | 2019-12-10 | 2019-12-10 | 一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110990588B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101520851A (zh) * | 2008-02-29 | 2009-09-02 | 富士通株式会社 | 字符信息识别装置和方法 |
CN106570458A (zh) * | 2016-10-14 | 2017-04-19 | 上海新同惠自动化系统有限公司 | 一种在线手写中日文的识别方法 |
CN109034147A (zh) * | 2018-09-11 | 2018-12-18 | 上海唯识律简信息科技有限公司 | 基于深度学习和自然语言的光学字符识别优化方法和系统 |
CN110073301A (zh) * | 2017-08-02 | 2019-07-30 | 强力物联网投资组合2016有限公司 | 工业物联网中具有大数据集的数据收集环境下的检测方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7627596B2 (en) * | 2001-02-22 | 2009-12-01 | International Business Machines Corporation | Retrieving handwritten documents using multiple document recognizers and techniques allowing both typed and handwritten queries |
JP5691512B2 (ja) * | 2010-03-24 | 2015-04-01 | 沖電気工業株式会社 | 入力支援装置、入力支援方法、およびプログラム |
-
2019
- 2019-12-10 CN CN201911259369.3A patent/CN110990588B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101520851A (zh) * | 2008-02-29 | 2009-09-02 | 富士通株式会社 | 字符信息识别装置和方法 |
CN106570458A (zh) * | 2016-10-14 | 2017-04-19 | 上海新同惠自动化系统有限公司 | 一种在线手写中日文的识别方法 |
CN110073301A (zh) * | 2017-08-02 | 2019-07-30 | 强力物联网投资组合2016有限公司 | 工业物联网中具有大数据集的数据收集环境下的检测方法和系统 |
CN109034147A (zh) * | 2018-09-11 | 2018-12-18 | 上海唯识律简信息科技有限公司 | 基于深度学习和自然语言的光学字符识别优化方法和系统 |
Non-Patent Citations (2)
Title |
---|
Building a Compact On-Line MRF Recognizer for Large Character Set Using Structured Dictionary Representation and Vector Quantization Technique;Bilan Zhu,等;《2012 International Conference on Frontiers in Handwriting Recognition》;20130131;第155-160页 * |
基于GA-BP神经网络在手写数字识别中的应用研究;程换新,等;《电子测量技术》;20190930;第42卷(第9期);第89-92页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110990588A (zh) | 2020-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102668530B1 (ko) | 음성 인식 방법, 장치 및 디바이스, 및 저장 매체 | |
Sun et al. | Deep LSTM networks for online Chinese handwriting recognition | |
WO2021051577A1 (zh) | 语音情绪识别方法、装置、设备及存储介质 | |
US20100080462A1 (en) | Letter Model and Character Bigram based Language Model for Handwriting Recognition | |
CN112100337B (zh) | 交互对话中的情绪识别方法及装置 | |
CN113204952A (zh) | 一种基于聚类预分析的多意图与语义槽联合识别方法 | |
CN112732864B (zh) | 一种基于稠密伪查询向量表示的文档检索方法 | |
CN108805224B (zh) | 具备可持续学习能力的多符号手绘草图识别方法及装置 | |
CN109558576A (zh) | 一种基于自注意力机制的标点符号预测方法 | |
CN113987179A (zh) | 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质 | |
WO2021135457A1 (zh) | 基于循环神经网络的情绪识别方法、装置及存储介质 | |
CN111816159A (zh) | 一种语种识别方法以及相关装置 | |
CN113590078A (zh) | 虚拟形象合成方法、装置、计算设备及存储介质 | |
CN111357051A (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
CN111241534A (zh) | 一种口令猜测集生成系统及方法 | |
CN110990588B (zh) | 一种在统一识别框架下手写体文本识别器的自然语言模型小型化的方法 | |
US20230394240A1 (en) | Method and apparatus for named entity recognition, and non-transitory computer-readable recording medium | |
KR20240067967A (ko) | 음성 웨이크업 방법, 음성 웨이크업 장치, 전자장비, 저장 매체 및 컴퓨터 프로그램 | |
CN112885367B (zh) | 基频获取方法、装置、计算机设备和存储介质 | |
CN113918696A (zh) | 基于k均值聚类算法的问答匹配方法、装置、设备及介质 | |
CN112749565B (zh) | 基于人工智能的语义识别方法、装置和语义识别设备 | |
Vo | Incremental learning using the time delay neural network | |
CN110969016B (zh) | 分词处理方法及装置 | |
CN112364662A (zh) | 一种基于神经网络的意图识别方法及电子装置 | |
CN111079622A (zh) | 一种在统一识别框架下小型化手写体文本识别器的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |