CN108805224A

CN108805224A - 具备可持续学习能力的多符号手绘草图识别方法及装置

Info

Publication number: CN108805224A
Application number: CN201810523245.0A
Authority: CN
Inventors: 黄健; 潘崇煜; 龚建兴; 袁兴生; 陈程; 张中杰
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2018-11-13
Anticipated expiration: 2038-05-28
Also published as: CN108805224B

Abstract

本发明公开了一种具备可持续学习能力的多符号手绘草图识别方法及装置，本发明将多符号草图的每个图形符号看作是由多个单笔画基元构成的图形，用户预先绘制单符号草图，系统会基于长短时记忆网络识别每个笔画基元，并对符号的空间构成关系建模，将用户绘制的笔画构成及其空间关系存入符号库中；当用户绘制多符号草图时，基于长短时记忆网络在线识别每个笔画基元类型并对笔画之间的空间位置关系进行建模，根据用户输入的笔画序列和关系序列构建一个隐马尔可夫链，并结合之前构建的符号库进行多符号草图在线推断和识别。本方法支持用户自定义符号库并随时进行符号库增加和删除等更新操作，具备多符号草图在线识别和可持续学习能力。

Description

具备可持续学习能力的多符号手绘草图识别方法及装置

技术领域

本发明涉及移动终端上的轨迹识别技术，具体涉及一种具备可持续学习能力的多符号手绘草图识别方法及装置。

背景技术

近年来，随着各种移动终端设备(包括平板电脑，手写板，绘画板，智能手机等)的日益普及，手写输入已经成为越来越重要的人机交互方式。一图胜千言，相对于文字等表达方式，手绘草图能够更直观、简洁、形象地表达多种信息，尤其是在军事态势图标绘、机械制图等应用领域，基于草图的交互方式起着不可替代的重要作用。相比于传统的WIMP(Windows窗口，Icon按钮，Menu菜单，Point device点选)风格的图形交互方式，基于草图的交互具有简明直观、易学易用、符合人类思维模式的独特优势。基于草图的人机交互关键问题就是手绘草图识别。手绘草图识别是将用户在电子输入板上绘制的不同风格的模糊草图映射为精确的图形类别的过程，即从交互过程中不断获取笔画信息，挖掘草图特征，从不规则的，模糊的，具有不确定性的草图中理解用户意图，并识别处特定草图类型。因此，如何实现手绘草图识别，并且允许用户在使用过程中不断更新符号库，具备持续学习能力，更好地满足各类用户需求，已经成为一项亟待解决的关键技术问题。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种具备可持续学习能力的多符号手绘草图识别方法及装置，本发明针对多符号以及小样本条件下的草图识别，采用数据驱动方法识别笔画基元，结合手绘草图的绘制过程信息和整体图像信息对草图进行建模，在此基础上，采用隐马尔可夫概率模型对多符号草图进行在线概率推断，生成使得后验概率最大的多符号分割和识别结果，具有识别精度和准确率高、模型泛化能力强、具备可持续学习能力以及小样本学习能力的优点。

为了解决上述技术问题，本发明采用的技术方案为：

一种具备可持续学习能力的多符号手绘草图识别方法，实施步骤包括：

1)读入草图序列(x₁,x₂,…x_t)构成的待识别草图，将待识别草图的草图序列(x₁,x₂,…x_t)转化为笔画序列S_i＝(x₁,x₂,…x_ni),i＝1,2…l；

2)基于训练好的双向长短时记忆网络BiLSTM对笔画序列S_i进行属性识别形成笔画属性序列Attribute_i；

3)基于预设的笔画位置关系模型对笔画序列S_i进行空间关系建模形成笔画关系序列Relation_i；

4)将待识别草图的l个笔画构成的符号保存进入预设的符号库，形成新的库存符号Sym_mm＝(Attribute_i＝1,2…l,Relation_i＝1,2…l)；

5)结合当前符号库中的库存符号，对待识别草图的笔画属性序列Attribute_i以及笔画关系序列Relation_i基于隐马尔可夫模型进行概率推断识别得到草图识别结果并输出。

优选地，步骤2)中的双向长短时记忆网络BiLSTM由输出端通过sigmod函数相连的前向LSTM和反向LSTM网络构成。

优选地，所述前向LSTM和反向LSTM网络均由式(1)所示长短时记忆网络LSTM构成；

式(1)中，f_t,i_t,o_t,h_t,c_t分别为t时刻的h维的遗忘门向量、输入门向量、输出门向量、系统输出向量、单元状态向量，下标t表示t时刻的系统状态，c_t∈R_h，R_h表示h维实数向量；h_t-1为t-1时刻的h维的系统输出向量，x_t表示t时刻的输入向量；°表示2个同维向量对应元素相乘，σ为sigmod函数，tanh(·)为tanh激活函数，W_f,U_f,b_f,W_i,U_i,b_i,W_o,U_o,b_o,W_c,U_c,b_c分别为长短时记忆网络LSTM的权重参数矩阵以及偏移向量且通过误差反向传播算法迭代训练得出。

优选地，步骤3)中预设的笔画位置关系模型中第1个笔画的位置关系relation(i)的值为0、其余任意当前第i个笔画的位置关系relation(i)如式(2)所示；

式(2)中，Start(i)表示第i个笔画的起始点坐标，End(i)表示第i个笔画的终点坐标，Middle(i)表示第i笔画的中点坐标，Start(i-1)表示第i-1个笔画的起始点坐标，End(i-1)表示第i-1个笔画的终点坐标，Middle(i-1)表示第i-1个笔画的中点坐标，RD_threshold为笔画关系判别的距离阈值，函数D表示二维空间的欧氏距离。

优选地，步骤4)的详细步骤包括：

4.1)将待识别草图的l个笔画(S₁,S₂…S_l)、以及在第l笔画后外加一个终点构成的l+1个节点的隐马尔可夫序列模型HMM的笔画序列图；

4.2)在当前符号库中依次选择每一个库存符号Sym_j(j＝1,2…m)，从笔画序列图的第一个节点开始，与以当前节点开始的连续len_j个节点序列进行单符号匹配，并计算当前符号Sym_j和序列(S_i,S_i+1,…S_i+lenj-1)匹配的条件概率，并记录从节点i到节点(i+len_j-1)的路径及其对应库存符号Sym_j；其中len_j是指Sym_j的笔画数，i＝1,2,…(l+2-len_j)，l是指待识别草图的笔画数量；

4.3)基于单符号匹配生成的所有路径，搜索从第1个到第l+1个节点的所有单向通路，计算每一条通路的完整后验概率；

4.4)在所有单向通路中选择后验概率最小的通路，该条通路中的多条路径对应待识别草图的符号分割，该路径对应的库存匹配符号即为该符号识别结果；

4.5)将所有符号识别结果构成的草图识别结果(sketch₁,sketch₂,…sketch_k)输出。

优选地，步骤4.2)中条件概率的计算函数表达式如式(3)所示；

式(3)中，P(Sym_i|Sym_j)表示两个笔画数均为r的符号Sym_i和Sym_j之间符号相似度的判别条件概率，sym_attribute(i,rr)，sym_ralation(i,rr)分别表示符号Sym_i中r维属性序列和关系序列的第rr个元素，sym_attribute(j,rr)，sym_ralation(j,rr)分别表示符号Sym_j中r维属性序列和关系序列的第rr个元素，r表示符号Sym_i和Sym_j两者笔画属性序列Attribute_i的维度，rr表示符号Sym_i和Sym_j两者笔画关系序列Relation_i的维度。

本发明还提供一种具备可持续学习能力的多符号手绘草图识别装置，包括计算机设备，该计算机设备被编程以执行本发明具备可持续学习能力的多符号手绘草图识别方法的步骤。

和现有技术相比，本发明具有下述有益效果：

1、本发明基于数据驱动的笔画基元识别，不仅识别精度高，而且避免了人工设计笔画特征的过程，可识别的笔画种类数目更多，模型泛化能力更强。

2、本发明通过笔画基元识别和笔画空间位置关系建模，结合了手绘草图的笔画信息和整体图像信息，提高了草图识别的准确率。

3、本发明方法采用隐马尔可夫概率推断模型，可进行多符号草图识别，同时支持符号库的在线更新，具备可持续学习能力以及小样本学习能力。

附图说明

图1为本发明实施例方法的基本流程示意图。

图2为本发明实施例中长短时记忆网络LSTM的内部结构示意图。

图3为本发明实施例中双向长短时记忆网络BiLSTM的结构示意图。

图4为本发明实施例中空间位置建模的位置关系示意图。

图5为本发明实施例中基于HMM的概率推断模型及其推断过程。

图6为本发明实施例中的算例测试符号库(COAD)。

图7为本发明实施例中的算例测试笔画基元。

图8为本发明实施例中的待识别多符号草图(重叠度由0.1依次增加到1.0)。

图9为本发明实施例中的算例测试识别率结果。

具体实施方式

如图1所示，本实施例具备可持续学习能力的多符号手绘草图识别方法的实施步骤包括：

针对笔画绘制过程中可能存在的反序问题，本实施例提出了基于双向LSTM(Bidirectional LSTM,BiLSTM)的笔画基元识别方法。本实施例中，步骤2)中的双向长短时记忆网络BiLSTM由输出端通过sigmod函数相连的前向LSTM和反向LSTM网络构成。

长短时记忆网络(Long Short Term Memory,LSTM)是针对时间序列数据的一种循环神经网络模型，其内部结构包括记忆单元，输入门，输出门以及遗忘门。本实施例中，前向LSTM和反向LSTM网络均由式(1)所示长短时记忆网络LSTM构成，如图2所示；

如图3所示，本实施例中双向长短时记忆网络BiLSTM由输出端通过sigmod函数相连的前向LSTM和反向LSTM网络构成，前向LSTM和反向LSTM网络均由式(1)所示长短时记忆网络LSTM构成，其中，(x₁,x₂,…,x_n)为构成笔画的轨迹点二维坐标序列，和分别是前向LSTM网络和反向LSTM网络的输出向量，h_n为最终的识别结果。

如图4所示，本实施例中预设的笔画位置关系模型在对构成草图的基元笔画进行属性识别之后，本实施例方法中对草图的绘制过程进行空间位置建模，主要针对每一笔画的起始点与上一笔画之间的位置关系进行建模，如图4所示，每一笔画的起始点与上一笔画之间的位置关系包括首首相连、首尾相连、首中相连以及不相连四种。

根据当前笔画起始点与上一笔画起始点，终点以及中点的位置关系，本实施例步骤3)中预设的笔画位置关系模型中第1个笔画的位置关系relation(i)的值为0，即：

relation(1)＝0

其余任意当前第i个笔画的位置关系relation(i)如式(2)所示；

基于上述笔画基元识别和空间位置建模，多笔画构成的草图可以表示为笔画基元属性序列attribute和空间位置关系序列relation，符号库存储的是用户自定义的草图符号Sym_i＝(sym_attribute(i),sym_relation(i)),其中，sym_attribute(i),sym_relation(i)分别为第i个符号Sym_i的属性序列和关系序列。对于两个笔画数均为r的符号Sym_i，Sym_j，定义符号相似度的判别条件概率如式(3)所示；

基于上述定义，将多符号草图识别问题描述如下：

已知符号库{Sym_i,i＝1,2…m}，对待识别的多符号草图Sketch＝(sketch_attribute,sketch_relation)进行多符号推断识别，即将Sketch顺序分割为k个连续符号sketch₁,sketch₂,…sketch_k，并在符号库中识别出对应的符号Sym_y1,Sym_y2…Sym_yk,使得整张草图的后验概率最大，即使用数学模型可表示为：

为求解上述最大化后验概率问题，本方法采用隐马尔可夫序列模型(HiddenMarkov Model,HMM)对笔画序列建模，采用动态规划方法转化为最短路径问题进行模型求解。

本实施例中，步骤4)的详细步骤包括：

4.1)将待识别草图的l个笔画(S₁,S₂…S_l)、以及在第l笔画后外加一个终点构成的l+1个节点的隐马尔可夫序列模型HMM的笔画序列图，如图5(a)所示；

4.2)如图5(b)所示，在当前符号库中依次选择每一个库存符号Sym_j(j＝1,2…m)，从笔画序列图的第一个节点开始，与以当前节点开始的连续len_j个节点序列进行单符号匹配，并计算当前符号Sym_j和序列(S_i,S_i+1,…S_i+lenj-1)匹配的条件概率，并记录从节点i到节点(i+len_j-1)的路径及其对应库存符号Sym_j；其中len_j是指Sym_j的笔画数，i＝1,2,…(l+2-len_j)，l是指待识别草图的笔画数量；

4.3)基于单符号匹配生成的所有路径，搜索从第1个到第l+1个节点的所有单向通路，计算每一条通路的完整后验概率；如图5(c)所示，S₁—>S_i—>S_l-1—>END(黑色实线标示)以及S₁—>S₂—>S_i+1—>END(红色虚线标示)均为完整的单向通路，以S₁—>S_i—>S_l-1—>END通路为例，其后验概率为：

其中，j*,j**,j***分别为形成该路径时对应的匹配库存符号。

4.4)在所有单向通路中选择后验概率最小的通路，该条通路中的多条路径对应待识别草图的符号分割，该路径对应的库存匹配符号即为该符号识别结果；如路径S₁—>S_i+1表示(S₁,S₂,…S_i)为一个连续的完整符号，该路径对应的库存匹配符号即为该符号识别结果；

本实施例中，步骤4.2)中条件概率的计算函数表达式如式(3)所示。

为了对本发明具备可持续学习能力的多符号手绘草图识别方法进行进一步验证，本实施例中使用如图6所示美军部分军标符号构成的COAD(Course Of Action Diagrams)草图数据(共20类符号)为基准展开，首先构建笔画基元数据集，如图7所示，包括横，竖，撇，捺，圆共5类笔画基元。针对草图识别过程中存在的多符号重叠问题，本算例采集了10种不同程度的符号重叠草图，如图8所示，每张草图由多个符号随机构成，在横坐标维度上重叠程度依次由0.1上升到1.0(相邻符号的重叠比例)10个等级。

测试实验共进行10组，每组实验中，每个重叠等级各包含100张多符号草图，每张草图中的多个符号均正确识别则认定该样本识别正确，定义正确识别的样本比例作为识别准确率，作为识别准确性的评价指标。作为对照实验，本算例采用目前图像领域中广泛使用的多目标检测识别算法RCNN(Regions with CNN features)进行多符号草图识别对比验证。RCNN和本方法在10种不同重叠程度的多符号草图数据集上的识别准确率统计结果如表1所示，其中，本实施例方法识别率括弧中给出的是10组测试实验的方差。

表1算例测试识别率结果统计表。

根据表1的数据整理得到的本实施例具备可持续学习能力的多符号手绘草图识别方法和现有的多目标检测识别算法RCNN测试识别率结果如图9所示。参见图9可知，本实施例具备可持续学习能力的多符号手绘草图识别方法在重叠度从0.1～1均能够实现0.8左右的识别率，虽然在0.1～0.28左右的重叠度下识别率相对较差，但是在更高重叠度下的识别率相对现有的多目标检测识别算法RCNN具有显著的改善。

多符号草图包含多个按先后顺序绘制的图形符号，将每个图形符号看作是由多个单笔画基元构成的图形。本实施例具备可持续学习能力的多符号手绘草图识别方法包括用户符号自定义和多符号草图在线识别两个部分。在用户符号自定义部分，用户绘制单符号草图，系统会基于长短时记忆网络识别每个笔画基元，并对符号的空间构成关系建模，将用户绘制的笔画构成及其空间关系存入符号库中。当用户绘制多符号草图时，首先基于长短时记忆网络在线识别每个笔画基元类型并对笔画之间的空间位置关系进行建模，之后根据用户输入的笔画序列和关系序列构建一个隐马尔可夫链，并结合之前构建的符号库进行多符号草图在线推断和识别。本方法支持用户自定义符号库并随时进行符号库增加和删除等更新操作，具备多符号草图在线识别和可持续学习能力。此外，本实施例还提供一种具备可持续学习能力的多符号手绘草图识别装置，包括计算机设备，该计算机设备被编程以执行本实施例具备可持续学习能力的多符号手绘草图识别方法的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种具备可持续学习能力的多符号手绘草图识别方法，其特征在于实施步骤包括：

2.根据权利要求1所述的具备可持续学习能力的多符号手绘草图识别方法，其特征在于，步骤2)中的双向长短时记忆网络BiLSTM由输出端通过sigmod函数相连的前向LSTM和反向LSTM网络构成。

3.根据权利要求2所述的具备可持续学习能力的多符号手绘草图识别方法，其特征在于，所述前向LSTM和反向LSTM网络均由式(1)所示长短时记忆网络LSTM构成；

4.根据权利要求1所述的具备可持续学习能力的多符号手绘草图识别方法，其特征在于，步骤3)中预设的笔画位置关系模型中第1个笔画的位置关系relation(i)的值为0、其余任意当前第i个笔画的位置关系relation(i)如式(2)所示；

5.根据权利要求1～4中任意一项所述的具备可持续学习能力的多符号手绘草图识别方法，其特征在于，步骤4)的详细步骤包括：

6.根据权利要求5所述的具备可持续学习能力的多符号手绘草图识别方法，其特征在于，步骤4.2)中条件概率的计算函数表达式如式(3)所示；

7.一种具备可持续学习能力的多符号手绘草图识别装置，包括计算机设备，其特征在于：所述计算机设备被编程以执行权利要求1～6中任意一项所述具备可持续学习能力的多符号手绘草图识别方法的步骤。