CN115114887A - 一种联机手写文本行识别方法 - Google Patents
一种联机手写文本行识别方法 Download PDFInfo
- Publication number
- CN115114887A CN115114887A CN202210894092.7A CN202210894092A CN115114887A CN 115114887 A CN115114887 A CN 115114887A CN 202210894092 A CN202210894092 A CN 202210894092A CN 115114887 A CN115114887 A CN 115114887A
- Authority
- CN
- China
- Prior art keywords
- neural network
- artificial neural
- language
- recognition
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供一种联机手写文本行识别方法,该方法包括如下步骤:对输入的轨迹进行预处理;利用人工神经网络提取点级别的特征;利用人工神经网络解码出字符串;对解码结果进行后处理。本发明能够比较准确地识别世界上各主流的自然语言,包括右到左书写的语言,并能够提供输入笔画与输出字符间的对应关系,支持任意倒笔书写,可以在运行期配置识别范围以支持开放或封闭词典场景,可以在一般手机和平板电脑上进行端侧的实时识别。
Description
技术领域
本发明涉及文本行识别技术领域,具体涉及一种联机手写文本行识别方法。
背景技术
联机手写文本行识别是一种把一行手写文字的动态笔迹转换为字符串的技术;与印刷体识别相比,手写识别也由于要应付因人而异的书写习惯而更为困难;与脱机手写识别相比,联机手写识别则由于有额外的时序信息和较少的背景噪声而更有希望达到较高的准确性;现有的识别技术分为两类:
第一类方法基于切分解码机制,首先对笔划序列进行过切分,再通过动态规划利用分类器选取最佳的切分方式及对应的识别结果,使用这类方法的公司包括MyScript(原Vision Objects)和较早前的Google,这类方法的优点在于能够输出准确的对应关系;
第二类方法不进行显式的切分,一般基于双向循环神经网络和CTC解码器,使用这类方法的公司包括Samsung和Google,这类方法的优点是容易实现,因为有关模型是端到端可训练的;
但是,现有技术存在以下的一项或多项局限性:
1)能够识别的语言种类有限,比如仅限于识别中文或者英文;
2)只能支持从左到右或者从右到左的书写顺序;
3)不能提供输入笔画与输出字符间的对应关系;
4)不支持任意倒笔书写,不能在运行期配置识别范围以支持开放或封闭词典场景;
5)不支持在运行期通过一般的LL(1)语法配置识别范围;
6)需要专门的硬件设备支持,不能在一般手机和平板电脑上进行端侧的实时识别;
因此,需要提供一种新的技术方案,解决上述问题。
发明内容
针对现有技术存在的问题,本发明提供一种联机手写文本行识别方法。
为实现上述目的,本发明的具体方案如下:
本发明提供一种联机手写文本行识别方法,包括如下步骤:
S1,对输入的轨迹进行预处理;
S2,利用人工神经网络提取点级别的特征;
S3,利用人工神经网络解码出字符串;
S4,对解码结果进行后处理。
进一步的,步骤S1中,预处理包括如下步骤:
S11,按笔画外接方框的左侧从左到右对笔画进行排序,以便系统能支持任意的倒笔和乱序书写;
S12,利用各笔画的长度,以及外接方框的高度和宽度估计行高,以便对字体大小进行估算;
S13,去除与前一采样点的距离小于行高估计的设定值(比如行高估计的某个倍数,0.05倍、0.06倍、0.07倍等)的采样点,也去除与前后采样点夹角大于设定角度(比如大于172°)的采样点,以便在保持轨迹外观的前提下减低需要输入到人工神经网络的数据量,从而提高识别速度;
S14,利用行高估计对坐标进行规范化,以便让识别结果与字体大小和屏幕分辨率无关。
进一步的,所述人工神经网络为基于多层的双向循环神经网络。
进一步的,在步骤S3中,解码过程具体包含以下特征:
S31,基于beam搜索顺序地预测文本行中的各个字符,直到预测出一个设定的结束符;
S32,采用解码器为带注意力机制的人工神经网络,通过注意力系数给出输入笔画与输出字符间的对应关系;
S33,利用预测分析法确保解码结果符合LL(1)语法,每个未完成的候选都是合法字符串的前缀;使得用户可以通过设置词典、正则表达式以至LL(1)语法来配置识别范围;
S34,结合n-gram语言模型来调整置信度;用语料使识别结果更贴合特定语言的使用习惯;语言模型与识别模型分开训练,让多种字符集相近的语言或方言共用识别模型,减低手写样本采集成本并节省训练时间。
进一步的,在步骤S4中,后处理具体包括如下步骤:
S41,对字符串进行Unicode的NFKC规范化,以便支持带组合标记的语言;
S42,把Unicode码位从视觉顺序转换为逻辑顺序,以便支持左到右语言与右到左语言的混排;
S43,按照启发式规则根据上下文切换全半角和加入空格,使结果符合用户使用标点符号的习惯;
S44,对识别结果进行分词,同时向用户提供字符和单词级别的候选;
S45,把置信度低于设定值且不在词典中的词替换为词典中与之编辑距离最短的词,有冲突时再选择其中词频最高的,纠正识别结果中的拼写错误。
进一步的,所述多层的双向循环神经网络为多层双向LSTM循环神经网络。
采用本发明的技术方案,具有以下有益效果:
本发明能够比较准确地识别世界上各主流的自然语言,包括右到左书写的语言,并能够提供输入笔画与输出字符间的对应关系,支持任意倒笔书写,可以在运行期配置识别范围以支持开放或封闭词典场景,可以在一般手机和平板电脑上进行端侧的实时识别。
附图说明
图1是本发明的整体流程图;
图2是本发明的预处理流程图;
图3是本发明的解码流程图;
图4是本发明的后处理流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在本发明的描述中,除非另有明确的规定和限定,术语“相连”、“连接”、“固定”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本实施例的描述中,术语“上”、“下”、“前”、“后”、“左”、“右”等方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述和简化操作,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅仅用于在描述上加以区分,并没有特殊的含义。
如图1所示,本发明提供一种联机手写文本行识别方法,包括如下步骤:
S1,对输入的轨迹进行预处理;
S2,利用人工神经网络提取点级别的特征;
S3,利用人工神经网络解码出字符串;
S4,对解码结果进行后处理。
其中,所述人工神经网络为基于多层的双向循环神经网络即多层双向LSTM循环神经网络。
如图2所示,在步骤S1中,预处理包括如下步骤:
S11,按笔画外接方框的左侧从左到右对笔画进行排序,以便系统能支持任意的倒笔和乱序书写;
S12,利用各笔画的长度,以及外接方框的高度和宽度估计行高,以便对字体大小进行估算;
S13,去除与前一采样点的距离小于行高估计的设定值(比如行高估计的某个倍数,0.05倍、0.06倍、0.07倍等)的采样点,也去除与前后采样点夹角大于设定角度(比如大于172°)的采样点,以便在保持轨迹外观的前提下减低需要输入到人工神经网络的数据量,从而提高识别速度;
S14,利用行高估计对坐标进行规范化,以便让识别结果与字体大小和屏幕分辨率无关。
如图3所示,在步骤S3中,解码过程具体包含以下特征:
S31,基于beam搜索顺序地预测文本行中的各个字符,直到预测出一个设定的结束符;
S32,采用解码器为带注意力机制的人工神经网络,通过注意力系数给出输入笔画与输出字符间的对应关系;
S33,利用预测分析法确保解码结果符合LL(1)语法,每个未完成的候选都是合法字符串的前缀;使得用户可以通过设置词典、正则表达式以至LL(1)语法来配置识别范围;
S34,结合n-gram语言模型来调整置信度;用语料使识别结果更贴合特定语言的使用习惯;语言模型与识别模型分开训练,让多种字符集相近的语言或方言共用识别模型,减低手写样本采集成本并节省训练时间。
如图4所示,在步骤S4中,后处理具体包括如下步骤:
S41,对字符串进行Unicode的NFKC规范化,以便支持带组合标记的语言;
S42,把Unicode码位从视觉顺序转换为逻辑顺序,以便支持左到右语言与右到左语言的混排;
S43,按照启发式规则根据上下文切换全半角和加入空格,使结果符合用户使用标点符号的习惯;
S44,对识别结果进行分词,同时向用户提供字符和单词级别的候选;
S45,把置信度低于设定值且不在词典中的词替换为词典中与之编辑距离最短的词,有冲突时再选择其中词频最高的,纠正识别结果中的拼写错误。
具体实施如下:
文字识别被建模为一个序列到序列问题,其中输入为一列采样点(包括x、y坐标和笔画结束标记),而输出为一列字符,两者的长度都不是固定的。本法采用基于注意力机制的编码器-解码器架构来解决这个问题。
在训练和预测时,输入的轨迹都经过同样的预处理流程:
(1)规范化笔画顺序。按笔画外接方框的左侧从左到右对笔画进行排序。
(2)估计行高。当一条笔画的长度与其外接方框的宽度相近时,用外接方框的宽度作为该笔画尺度,否则用外接方框的高度。利用这些尺度的某个分位数作为行高的估计。
(3)重新采样。去除与前一采样点的距离小于行高估计的某个倍数的采样点,也去除与前后采样点夹角接近平角的采样点。
(4)坐标规范化。把坐标除以行高估计。
在训练时,预期输出的字符串经过以下的规范化:
(1)进行Unicode的NFKD规范化。
(2)把Unicode码位的顺序从正常的逻辑顺序转换为视觉顺序(从左到右),从而大致与排序过的输入对齐。在预测时,可以预期预测结果通常也是这样规范化的,于是要对解码出的字符串进行Unicode的NFKC规范化,并把Unicode码位的顺序从视觉顺序转换回逻辑顺序。
编码器的输入为各采样点的结束标记和相对于下一采样点的位移向量,输出为上下文矩阵和解码器的初始状态;输入直接进入多层双向LSTM循环神经网络,最终得到上下文矩阵;对于上下文矩阵进行全局平均池化后再经过一层全连接人工神经网络就得到解码器的初始状态;解码器的输入有上一个字符(初始时为一个特殊的开始标记)、状态(初始时由编码器给出)、收敛向量(初始时为零向量)、上下文矩阵(由编码器给出);解码器的输出为下一字符的置信度分布、新的状态和新的收敛向量;这里,收敛向量的作用是记录哪些点已经有对应的输出字符,从而减少丢字和多字的情况。
只要有配对的联机手写轨迹和对应的字符串,就可以同时训练上述的编码器和解码器;损失函数是多个函数的线性组合,除了用来校准置信度分布的交叉熵外,还有引导收敛向量结束时全1的均方差;当已知某些字符对应的笔画时(例如数据有字符级标注或者是合成的),还引导解码出一个字符时,收敛向量对应于有关笔画的点的分量增大1。这样,预测时就可以凭解码时收敛向量的变化来判断各个输出字符分别对应于哪些笔画。
为了提高识别系统的泛化能力,可以使用数据增广方法以增加训练样本的数量。特别地,可以收集一种语言的一个代表性语料库,从其中抽取字符串并合成轨迹以尝试模仿该字符串的手写样式。可能的具体实施方式包括:
1.利用文本排版算法渲染字符串并记录其中各个字符/单词的位置,然后从手写样本库寻找各字符/单词的手写样本并把它们放到相应位置。此外,可以在字符、单词和行等级别对轨迹进行随机仿射变换以进一步提高轨迹的多样性。
2.利用带标注的文本行样本训练一个把字符串转换为轨迹的序列到序列翻译模型,再用来生成手写体。
在识别时,解码过程使用beam搜索逐步建立候选行;对于每条未完成的候选行,记录字符串、置信度、解码器状态、收敛向量和预测分析栈;在需要输出字符级别的候选时,还要记录每个字符的若干个其它候选字符及相应的置信度;在需要输出笔画与字符的对应关系时,还要记录历史的收敛向量;逻辑上,在每一步解码时,对于每条未完成的候选行:
1、调用基于人工神经网络解码器以获取下一字符的候选列表及对应的置信度,同时更新解码器状态与收敛向量。
2、利用n-gram得分调整下一字符的各候选的置信度。
3、对于下一字符的各个候选,计算与原字符串结合后的置信度和预测分析栈:
(1)若候选为结束符且预测分析栈为空,就得到一条已完成候选行。
(2)若候选非结束符且预测分析栈不处于出错状态,就得到一条待下一步解码时处理的未完成候选行。
在下一步开始时只保留其中置信度最高的若干条。在已完成的候选行数目达到预设值时,解码过程中止。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的保护范围内。
Claims (6)
1.一种联机手写文本行识别方法,其特征在于,包括如下步骤:
S1,对输入的轨迹进行预处理;
S2,利用人工神经网络提取点级别的特征;
S3,利用人工神经网络解码出字符串;
S4,对解码结果进行后处理。
2.根据权利要求1所述的联机手写文本行识别方法,其特征在于,步骤S1中,预处理包括如下步骤:
S11,按笔画外接方框的左侧从左到右对笔画进行排序,以便系统能支持任意的倒笔和乱序书写;
S12,利用各笔画的长度,以及外接方框的高度和宽度估计行高,以便对字体大小进行估算;
S13,去除与前一采样点的距离小于行高估计的设定值的采样点,也去除与前后采样点夹角大于设定角度的采样点,以便在保持轨迹外观的前提下减低需要输入到人工神经网络的数据量,从而提高识别速度;
S14,利用行高估计对坐标进行规范化,以便让识别结果与字体大小和屏幕分辨率无关。
3.根据权利要求1所述的联机手写文本行识别方法,其特征在于,所述人工神经网络为基于多层的双向循环神经网络。
4.根据权利要求1所述的联机手写文本行识别方法,其特征在于,在步骤S3中,解码过程具体包含以下特征:
S31,基于beam搜索顺序地预测文本行中的各个字符,直到预测出一个设定的结束符;
S32,采用解码器为带注意力机制的人工神经网络,通过注意力系数给出输入笔画与输出字符间的对应关系;
S33,利用预测分析法确保解码结果符合LL(1)语法,每个未完成的候选都是合法字符串的前缀;使得用户可以通过设置词典、正则表达式以至LL(1)语法来配置识别范围;
S34,结合n-gram语言模型来调整置信度;用语料使识别结果更贴合特定语言的使用习惯;语言模型与识别模型分开训练,让多种字符集相近的语言或方言共用识别模型,减低手写样本采集成本并节省训练时间。
5.根据权利要求1所述的联机手写文本行识别方法,其特征在于,在步骤S4中,后处理具体包括如下步骤:
S41,对字符串进行Unicode的NFKC规范化,以便支持带组合标记的语言;
S42,把Unicode码位从视觉顺序转换为逻辑顺序,以便支持左到右语言与右到左语言的混排;
S43,按照启发式规则根据上下文切换全半角和加入空格,使结果符合用户使用标点符号的习惯;
S44,对识别结果进行分词,同时向用户提供字符和单词级别的候选;
S45,把置信度低于设定值且不在词典中的词替换为词典中与之编辑距离最短的词,有冲突时再选择其中词频最高的,纠正识别结果中的拼写错误。
6.根据权利要求3所述的联机手写文本行识别方法,其特征在于,所述多层的双向循环神经网络为多层双向LSTM循环神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210894092.7A CN115114887A (zh) | 2022-07-27 | 2022-07-27 | 一种联机手写文本行识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210894092.7A CN115114887A (zh) | 2022-07-27 | 2022-07-27 | 一种联机手写文本行识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115114887A true CN115114887A (zh) | 2022-09-27 |
Family
ID=83334206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210894092.7A Pending CN115114887A (zh) | 2022-07-27 | 2022-07-27 | 一种联机手写文本行识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115114887A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116758557A (zh) * | 2023-06-21 | 2023-09-15 | 厦门理工学院 | 一种基于浅层图神经网络的联机手写笔画分类方法 |
-
2022
- 2022-07-27 CN CN202210894092.7A patent/CN115114887A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116758557A (zh) * | 2023-06-21 | 2023-09-15 | 厦门理工学院 | 一种基于浅层图神经网络的联机手写笔画分类方法 |
CN116758557B (zh) * | 2023-06-21 | 2024-04-05 | 厦门理工学院 | 一种基于浅层图神经网络的联机手写笔画分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11715014B2 (en) | System and method of character recognition using fully convolutional neural networks with attention | |
Ghosh et al. | RNN based online handwritten word recognition in Devanagari and Bengali scripts using horizontal zoning | |
Calvo-Zaragoza et al. | Handwritten music recognition for mensural notation with convolutional recurrent neural networks | |
US7756335B2 (en) | Handwriting recognition using a graph of segmentation candidates and dictionary search | |
Toselli et al. | HMM word graph based keyword spotting in handwritten document images | |
CN110046350B (zh) | 文法错误识别方法、装置、计算机设备及存储介质 | |
Kozielski et al. | Improvements in rwth's system for off-line handwriting recognition | |
CN109800414B (zh) | 语病修正推荐方法及系统 | |
Chen et al. | Variable duration hidden Markov model and morphological segmentation for handwritten word recognition | |
Hu et al. | Writer independent on-line handwriting recognition using an HMM approach | |
WO2018090013A1 (en) | System and method of character recognition using fully convolutional neural networks with attention | |
Hussain et al. | Nastalique segmentation-based approach for Urdu OCR | |
Kosmala et al. | On-line handwritten formula recognition using statistical methods | |
CN116432655B (zh) | 基于语用知识学习的少样本命名实体识别方法和装置 | |
CN111680684B (zh) | 一种基于深度学习的书脊文本识别方法、设备及存储介质 | |
CN113887480A (zh) | 基于多解码器联合学习的缅甸语图像文本识别方法及装置 | |
Addis et al. | Printed ethiopic script recognition by using lstm networks | |
Romero et al. | Modern vs diplomatic transcripts for historical handwritten text recognition | |
Perwej | The bidirectional long-short-term memory neural network based word retrieval for Arabic documents | |
CN115114887A (zh) | 一种联机手写文本行识别方法 | |
JP3244068U6 (ja) | ニューラルネットワークに基づく手書き文字識別システム | |
JP3244068U (ja) | ニューラルネットワークに基づく手書き文字識別システム | |
CN113469163A (zh) | 一种基于智能纸笔的医疗信息记录方法和装置 | |
Howe | Inkball models for character localization and out-of-vocabulary word spotting | |
Kosmala et al. | Recognition of on-line handwritten formulas |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |