CN117523578A - 一种基于人工智能的课堂纸笔互动方法及装置 - Google Patents
一种基于人工智能的课堂纸笔互动方法及装置 Download PDFInfo
- Publication number
- CN117523578A CN117523578A CN202410013491.7A CN202410013491A CN117523578A CN 117523578 A CN117523578 A CN 117523578A CN 202410013491 A CN202410013491 A CN 202410013491A CN 117523578 A CN117523578 A CN 117523578A
- Authority
- CN
- China
- Prior art keywords
- stroke
- data
- writing
- model
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000003993 interaction Effects 0.000 title claims abstract description 26
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 23
- 239000000203 mixture Substances 0.000 claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000009826 distribution Methods 0.000 claims description 24
- 238000013527 convolutional neural network Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims 2
- 230000015654 memory Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/164—Noise filtering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及文本识别领域,更具体地,本发明涉及一种基于人工智能的课堂纸笔互动方法及装置。所述方法包括:采集用户书写轨迹数据,构建点阵图及笔划轨迹时序数据;计算并构建关于字符笔划轨迹间水平距离值和笔划轨迹间书写的停顿时间的特征向量,根据高斯混合模型中判断相邻两段笔划轨迹是否属于同一字符;将所有笔划轨迹按单个字符划分并存储,对存储的数据进行预处理;将预处理后的数据输入预测模型中得出可能识别出的文字的概率;使用语言模型修正得到的文字概率,并实时输出设定格式的文字。通过本发明的技术方案,能够提高课堂联机时书写文字的识别准确率,并转换为印刷体文字便于教师与学生辨识,提高课堂教学效率。
Description
技术领域
本发明一般地涉及文本识别领域。更具体地,本发明涉及一种基于人工智能的课堂纸笔互动方法及装置。
背景技术
作为传统的阅读和学习手段,纸张在书写、阅读和记忆过程中依然有着不可替代的优势。纸笔互动课堂通过智能手写板的快速接入,协助教师开展信息化课堂即时互动授课、纸笔板书、智能采集课堂数据,及时了解学生知识点掌握情况,实现针对性教学,让教师能关注到每一个学生。
联机手写文字识别所处理的手写文字是书写者通过物理设备 (如数字笔、 数字手写板或者触摸屏) 在线书写获取的文字信号, 书写的轨迹通过定时采样即时输入到计算机中。在纸笔互动课堂场景中,联机手写文字的准确识别对于提升课堂效果具有重要意义。将手写文字实时转化为标准印刷体文字并显示在共享屏幕中可以帮助老师及学生更好地辨识文字,从而提高课堂教学效率。
然而,现有的联机手写文字识别技术中没有考虑到如何准确划分识别出单个字符,很容易造成文字的合并拆分等现象。另外,对于联机手写文字识别的数据处理方法及模型效果均有待优化提升。
发明内容
为解决上述一个或多个技术问题,本发明提出采集用户书写轨迹数据,构建点阵图及笔划轨迹时序数据;计算并构建字符笔划轨迹间水平距离值和笔划轨迹间书写的停顿时间特征向量,输入高斯混合模型中判断相邻两段笔划轨迹是否属于同一字符;将所有笔划轨迹按单个字符划分并存储,对存储的数据进行预处理;将预处理后的数据输入预测模型获得第一预测结果;使用语言模型获得第二预测结果,并实时输出标准印刷体文字。为此,本发明在如下的多个方面中提供方案。
在一个实施例中,包括:采集用户书写轨迹数据,构建点阵图及笔划轨迹时序数据,所述点阵图为书写时产生的压力数据;根据点阵图的点阵坐标,计算字符笔划轨迹间水平距离值;计算笔划轨迹间书写的停顿时间;构建关于字符笔划轨迹间水平距离值和笔划轨迹间书写的停顿时间的特征向量,根据所述特征向量训练预设的高斯混合模型,得到高斯混合模型,通过高斯混合模型生成判断结果,所述判断结果为相邻两段字迹轨迹是否属于同一字符;响应于相邻两段字迹轨迹属于同一字符,将所有笔划轨迹数据按单个字符划分整合,并按照单个字符的点阵图数据集合与笔划轨迹时序数据集合进行存储并进行预处理;将预处理后的数据输入预测模型中分别进行特征提取,得出第一预测结果。
在一个实施例中,还包括步骤:基于语言模型预测模型生成第二预测结果,并结合所述第一预测结果进行综合判断,获得实时输出设定格式的文字。
在一个实施例中,结合所述第一预测结果进行综合判断包括:响应于第一预测结果小于预设阈值,判定所述预测模型中存在多个相似文字,干扰了预测模型的预测结果;响应于第一预测结果与第二预测结果相同,判定第一预测结果与第二预测结果中预设排名内的某一个文字相符合,输出语言模型预测的文字最终结果选择该语言模型预测的文字并进行输出;响应于第一预测结果与第二预测结果不同,判定第一预测结果与第二预测结果中预设排名内的某一个文字相不符合,输出预测模型获得的第一预测结果概率最大的文字。
在一个实施例中,所述笔划轨迹时序数据包括:
笔划轨迹时序数据=(书写状态、压力值);
所述书写状态包括正在书写和未书写,正在书写记为,未书写记为/>;响应于/>及书写的压力值大于预设阈值,判断用户正在进行书写操作;响应于/>及书写的压力值小于或等于预设阈值,判断用户停止书写。
在一个实施例中,所述特征向量包括:
响应于笔划轨迹数据开始生成,实时生成对应特征向量数据为:
其中,E表示特征向量,表示第/>个笔划轨迹与第/>个笔划轨迹之间的距离,/>表示第/>个笔划轨迹与第/>个笔划轨迹间书写的停顿时间。
此实施例的有益效果为:将数据使用两种数据形式进行存储,能够从图像和时序两种特征方向得到待识别字符的特征信息,有利于提高后续文本识别模型的效果。
基于高斯混合模型判断所述第个笔划轨迹与第/>个笔划轨迹是否构成同一字符,若是,发出第一信号,若否,发出第二信号;响应于第一信号,继续沿笔划轨迹生成方向判断第/>个笔划轨迹;响应于第二信号,将前/>个笔划轨迹划分为同一字符。
在一个实施例中,高斯混合模型中,包括:构建多元高斯分布概率密度函数,公式如下:
其中,为数据均值,/>为协方差,/>为数据维度/>表示多元高斯分布概率密度函数,/>代表矩阵转置。
由多元高斯分布概率密度函数公式得出混合高斯分布的表达式,得到高斯混合模型,表达式如下:
其中,表示两段笔划轨迹是否属于同一字符的概率,/>表示近似拟合的第/>个高斯分布模型,/>为每个高斯分布模型所占权重系数,/>代表矩阵转置。
使用期望最大化算法求出取不同值下的预设的高斯混合模型权重系数参数/>,均值参数/>,标准差参数/>;使用赤池信息量准则或贝叶斯信息准则评价指标得出高斯混合模型拟合所需最佳/>值;将特征向量输入到高斯混合模型判断两段笔划轨迹是否属于同一字符:响应于/>,生成判断的两段笔划轨迹视为属于同一字符的判定结果;响应于,生成进行判断的两段笔划轨迹可划分为两个字符的判定结果。
此实施例的有益效果为:相比较于传统的仅考虑数据点在x轴水平投影的距离值划分字符的方法,该步骤所用划分方法充分考虑了可能出现的问题情况,综合考虑了笔划轨迹间书写的停顿时间共同作为判断依据,并使用高斯混合模型对分类概率情况进行预测,最终得到更加准确可信的分类结果,即确定字符间的准确划分方式。
在一个实施例中,所述进行预处理包括:对点阵图的点阵坐标数据进行噪声处理;去除重复笔划轨迹;对点阵图进行倾斜校正及归一化。
在一个实施例中,所述预测模型包括:第一分支和第二分支,第一分支采用循环神经网络,用于处理笔划轨迹时序数据,第二分支采用卷积神经网络,用于处理点阵图数据集合;第一分支与第二分支并行;第一分支设置有第一全连接层,第二分支设置有第二全连接层,第一分支的输出与第二分支的输出相连接,共同作为所述预测模型的输出;对输出采用Softmax函数进行归一化,生成n个可能识别出的文字的概率。
本发明的预测模型使用的是CNN+RNN预测模型;语言模型使用的是GPT语言模型。
通过采用上述技术方案,能够有效提高在纸笔书写课堂互动过程中对联机实时文字的识别准确率,并将之转换为印刷体文字以便于教师与学生辨识,提高课堂教学效率。
可选的,采用CNN+RNN预测模型充分利用了CNN和RNN的优势,能够同时捕捉待识别文字的时间和空间特征,有助于提升识别准确率,同时并行计算方式能够有效加快计算速度。
可选的,利用GPT语言模型作为对CNN+RNN预测模型结果的修正,通过综合考虑上文书写句子中的语义信息,能够在更大程度上排除相似文字的干扰,得到更准确的识别结果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
图1是本发明实施例一种基于人工智能的课堂纸笔互动方法的流程图;
图2是本发明实施例一种基于人工智能的课堂纸笔互动方法的字符笔划轨迹间水平距离的示意图;
图3是本发明实施例一种基于人工智能的课堂纸笔互动方法的CNN+RNN预测模型网络架构图;
图4是本发明实施例一种基于人工智能的课堂纸笔互动装置的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当本发明的权利要求、说明书及附图使用术语“第一”、“第二”等时,其仅是用于区别不同对象,而不是用于描述特定顺序。本发明的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
本发明提供了一种基于人工智能的课堂纸笔互动方法及装置。图1是根据本发明实施例的一种基于人工智能的课堂纸笔互动方法及装置的流程图。如图1所示,一种基于人工智能的课堂纸笔互动方法包括步骤S1至S5,以下具体说明。
S1,采集用户书写轨迹数据,构建点阵图及笔划轨迹时序数据。
示例性的,用户可使用任意纸张在智能手写板中进行书写,配套智能笔采用无源无线电磁压感技术,与智能手写板结合后可采集用户书写过程中的轨迹数据,并表示为点阵图及笔划轨迹时序数据两种形式。
其中,点阵图数据用点阵矩阵表示,在手写板中集成压力传感器并构建点阵坐标,初始化点阵矩阵中值为0。以书写时产生的压力为触发条件,将书写轨迹经过的坐标值标记为1,即可以点阵图形式表示书写文字形状特征。
示例性的,点阵矩阵的形式如下:
此点阵矩阵记录的为书写文字“乙”。
示例性的,笔划轨迹时序数据形式如下:
笔划轨迹时序数据=(书写状态、压力值);
其中,该数据表示在某一个数据采集时刻采集到的用户书写状态信息,当时表示用户当前时刻正在书写,即为有效笔迹记录数据。
示例性的,根据压力值判断用户的书写状态,当压力值大于给定阈值时,表示用户正在进行书写操作,此时将值标记为1;当用户停止书写时,压力值为0小于或等于给定阈值,则/>标记为0,此时用户不处于书写状态。连续的/>状态下的数据即可表示一条有效笔迹记录。
S2,计算并构建关于字符笔划轨迹间水平距离值和笔划轨迹间书写的停顿时间的特征向量,根据高斯混合模型中判断相邻两段笔划轨迹是否属于同一字符。
其中,以点阵坐标在x轴上的投影范围为参考,可计算出每个笔划轨迹间的水平最大距离值,从而判断出哪些笔划轨迹构成了一个单一字符,一般情况下,两个字符间的水平距离会大于同一个字符中偏旁与部首之间的距离。同时,为避免书写过程中可能出现字间距过小导致的字符划分误差,将笔划轨迹间书写的停顿时间作为第二判断条件,使用高斯混合模型进行分类判断相邻的两段轨迹是否属于同一字符。
S2.1,计算字符笔划轨迹间水平距离值,将文本字符点阵坐标沿垂直方法进行投影,获得统计直方图;垂直投影针对点阵图中点在x轴映射的数量进行统计,若映射值为0,即可视为两个字符或者笔划轨迹之间存在的水平间隔,选择直方图上的零值点作为划分点,计算两个笔划轨迹之间的水平距离。该距离即可视为可能存在字符切分的判断条件。
示例性的,如图2所示,仅根据字符笔划轨迹间水平距离值进行切分可能会出现将左右偏旁部首的单个字符切开或将两个距离较近的字符视为一个字符的情况。
S2.2,计算笔划轨迹间书写的停顿时间。示例性的,基于步骤S1中所得的笔划轨迹时序数据,可计算出笔划轨迹间书写的停顿时间。具体为,的数据点表示用户不处于书写状态,从第一个连续/>的数据点的时刻到最后一个/>的数据点的时刻之差的绝对值即为笔划轨迹间书写的停顿时间。
S2.3,基于步骤S2.1的字符笔划轨迹间水平距离值与步骤S2.2的笔划轨迹间书写的停顿时间,构建特征向量。
具体来说,将字符笔划轨迹间水平距离值与笔划轨迹间书写的停顿时间按照笔划轨迹顺序进行排列,构建为特征向量:
表示第/>个笔划轨迹与第/>个笔划轨迹之间的距离,/>表示第/>个笔划轨迹与第/>个笔划轨迹间书写的停顿时间。
S2.4,使用高斯混合模型进行分类计算并判断相邻两段笔划轨迹是否属于同一字符。
具体来说,高斯分布(即正态分布)有极其广泛的实际背景,生产与科学实验中很多随机变量的概率分布都可以近似地用高斯分布来描述。GMM(Gaussian Mixture Model)是一个假定数据服从线性高斯混合模型的统计模型参数推断。参数推断完成后,计算出的后验概率可作为分类结果使用。
示例性的,在本发明中使用高斯混合模型的含义即为根据上述统计得到的距离与时间二维特征判断是否能够划分为不同字符的概率分布同样趋近于高斯分布。因此通过训练拟合得到的高斯混合模型能够得到较为准确可信的分类结果。在本发明中使用高斯混合模型方法如下:
构建多元高斯分布概率密度函数公式如下:
其中,为数据均值,/>为协方差,/>为数据维度/>表示多元高斯分布概率密度函数,/>代表矩阵转置。
由多元高斯分布概率密度函数公式得出混合高斯分布的表达式,得到高斯混合模型,表达式如下:
其中,表示两段笔划轨迹是否属于同一字符的概率,/>表示近似拟合的第/>个高斯分布模型,/>为每个高斯分布模型所占权重系数,/>代表矩阵转置。
使用期望最大化算法求出取不同值下的预设的高斯混合模型权重系数参数/>,均值参数/>,标准差参数/>;使用赤池信息量准则或贝叶斯信息准则评价指标得出高斯混合模型拟合所需最佳/>值;将步骤S2.3中的特征向量输入到高斯混合模型判断两段笔划轨迹是否属于同一字符:响应于/>,有更高概率支持该分类结果,进行判断的两段笔划轨迹视为属于同一字符;响应于/>,视为从进行判断的两段笔划轨迹可划分为两个字符。
在一个实施例中,当用户开始书写时,即开始产生笔划轨迹数据,将会实时产生向量数据,将/>等一系列数据依次输入GMM模型中判定上述前/>个笔划轨迹是否构成同一字符。若判定属于同一字符,则继续使用后续笔划轨迹向量数据进行判断;若第/>个笔划轨迹与第/>个笔划轨迹不属于同一字符,则将前/>个笔划轨迹划分为同一字符,之后模型的输入将从/>开始继续进行判定。
S3,将所有笔划轨迹按单个字符划分并存储,对存储的数据进行预处理。
其中,根据步骤S2中所得到的分类结果将数据按单个字符重新划分整合,将数据存储为每个被划分好的单个字符的点阵图二维向量集合,/>表示第/>个字符的点阵图向量及包含该字符全部的笔划轨迹时序数据集合/>,/>表示第/>个字符的时序数据向量。之后分别对数据集G与S进行数据预处理,包括:
S3.1,对笔划轨迹点阵坐标数据进行噪声处理。由于用户在书写过程中可能存在抖动问题,原始的笔划轨迹点阵坐标数据中存在大量的噪声,需要对其进行处理。对此可采用平滑滤波处理等方法对噪声点进行识别并去除。
S3.2,对相邻轨迹数据使用动态时间规划算法进行距离计算,若距离值小于给定阈值,即认为该两种笔划轨迹近似重叠,此时在数据集G和S中同步去除两条笔划轨迹中第一条笔划轨迹的数据,重复笔划轨迹的出现可能为用户修正的结果。
S3.3,对点阵图进行倾斜校正及归一化。使用图像的矩归一化方法,利用图像矩找到字符的倾斜角,并使用线性归一化算法进行倾斜校正,将原图像归一化到幕布大小的同时使得原图的中质心与幕布的中心对齐,同时尽可能的去除了原图中的边界区域。
S4,将预处理后的数据输入预测模型中获得第一预测结果。
示例性的,预测模型为CNN(Convolutional Neural Networks,卷积神经网络)+RNN(Convolutional Neural Networks,循环神经网络)预测模型。如图3所示,其中,构建CNN+RNN预测模型,CNN+RNN预测模型包括第一分支和第二分支,第一分支采用循环神经网络,用于处理笔划轨迹时序数据,第二分支采用卷积神经网络,用于处理点阵图数据集合;第一分支与第二分支并行;第一分支设置有第一全连接层,第二分支设置有第二全连接层,第一分支的输出与第二分支的输出相连接,共同作为所述预测模型的输出;最终输出采用Softmax函数进行归一化,得到n个可能识别出的文字的概率。
具体来说,CNN和RNN可以分别用于对空间和时间特征进行提取,二者的结合可以进一步提升模型的性能。因此,本发明构建了CNN+RNN预测模型。CNN分支包括卷积层、池化层和全连接层。不同大小的卷积核可以捕捉到不同大小的空间特征,而池化层可以保留重要的信息并降低数据的维度。CNN分支的输出是一个定长的特征向量。RNN分支可采用LSTM(Long Short Term Memory,长短期记忆递归神经网络)或GRU(Gate Recurrent Unit,循环神经网络),能够对输入序列中的长短时关系进行建模,并生成一个定长的向量表示。
CNN+RNN预测模型的最终输出采用Softmax函数进行归一化,得到n个可能识别出的文字的概率,按大小降序排序。
S5,使用GPT(ChatGPT)语言模型修正得到的文字概率,并实时输出标准印刷体文字。
其中,为了防止可能出现将该手写文字错误识别为相近字体的情况,在步骤中预测模型进行计算的同时,使用语言模型根据前文书写的文字预测下一个文字的概率,并综合识别模型的预测结果判断出最合理的识别文字。该语言模型可以为N-gram(自然语言处理),GPT等单向语言模型,即可以仅根据上文预测下一个文字的内容,十分适用于该方法涉及到的联机手写文字识别场景需要,每次需要预测的文字都是当前正在书写的文字,不存在下文的参考。
其中,CNN+RNN预测模型中概率最高的文字预测值小于预设阈值时,CNN+RNN预测模型存在多个相似文字的干扰导致CNN+RNN预测模型存在不准确的预测结果,读取语言模型的预测结果;响应于语言模型的预测结果与CNN+RNN预测模型预测结果中预设排名内的某一个文字相符合,最终结果选择该语言模型预测的文字并进行输出;响应于语言模型的预测结果与CNN+RNN预测模型预测结果中预设排名内的每一个文字均不符合,最终结果仍然选择输出识别模型中概率最高的文字。
示例性的,具体综合判断方法为,若识别模型中概率最高的文字的预测值小于0.6,则认为该模型存在不确定的识别结果,即有多个可能的相似文字的干扰。此时读取语言模型的预测结果,若该结果与识别模型中排名前5中的某一个文字向符合,则最终结果选择该语言模型预测的文字并进行输出;若该结果与识别模型中排名前5中的每一个文字均不相符,则最终结果仍然选择输出识别模型中概率最高的文字。
本发明实施例还公开一种基于人工智能的课堂纸笔互动装置,参照图4,包括处理器和存储器,存储器存储有计算机程序指令,当计算机程序指令被处理器执行时实现根据本发明的一种基于人工智能的课堂纸笔互动方法。
上述系统还包括通信总线和通信接口等本领域技术人员熟知的其他组件,其设置和功能为本领域中已知,因此在此不再赘述。
在本发明中,前述的存储器可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,计算机可读存储介质可以是任何适当的磁存储介质或者磁光存储介质,比如,阻变式存储器RRAM (Resistive RandomAccess Memory)、动态随机存取存储器DRAM (Dynamic Random Access Memory)、静态随机存取存储器SRAM (Static Random-Access Memory)、增强动态随机存取存储器EDRAM(Enhanced Dynamic Random Access Memory)、高带宽内存HBM (High-BandwidthMemory)、混合存储立方HMC (Hybrid Memory Cube)等,或者可以用于存储所需信息并且可以由应用程序、模块或两者访问的任何其他介质。任何这样的计算机存储介质可以是设备的一部分或可访问或可连接到设备。
虽然本说明书已经示出和描述了本发明的多个实施例,但对于本领域技术人员显而易见的是,这样的实施例只是以示例的方式提供的。本领域技术人员会在不偏离本发明思想和精神的情况下想到许多更改、改变和替代的方式。应当理解的是在实践本发明的过程中,可以采用本文所描述的本发明实施例的各种替代方案。
以上均为本发明的较佳实施例,并非依此限制本发明的保护范围,故:凡依本发明的结构、形状、原理所做的等效变化,均应涵盖于本发明的保护范围之内。
Claims (9)
1.一种基于人工智能的课堂纸笔互动方法,其特征在于,包括以下步骤:
采集用户书写轨迹数据,构建点阵图及笔划轨迹时序数据,所述点阵图为书写时产生的压力数据;
根据点阵图的点阵坐标,计算字符笔划轨迹间水平距离值;
计算笔划轨迹间书写的停顿时间;
构建关于字符笔划轨迹间水平距离值和笔划轨迹间书写的停顿时间的特征向量,根据所述特征向量训练预设的高斯混合模型,得到高斯混合模型,通过高斯混合模型生成判断结果,所述判断结果为相邻两段字迹轨迹是否属于同一字符;
响应于相邻两段字迹轨迹属于同一字符,将所有笔划轨迹数据按单个字符划分整合,并按照单个字符的点阵图数据集合与笔划轨迹时序数据集合进行存储并进行预处理;
将预处理后的数据输入预测模型中分别进行特征提取,得出第一预测结果。
2.根据权利要求1所述的一种基于人工智能的课堂纸笔互动方法,其特征在于,还包括步骤:
基于语言模型预测模型生成第二预测结果,并结合所述第一预测结果进行综合判断,获得实时输出设定格式的文字。
3.根据权利要求2所述的一种基于人工智能的课堂纸笔互动方法,其特征在于,结合所述第一预测结果进行综合判断包括:
响应于第一预测结果小于预设阈值,判定所述预测模型中存在多个相似文字,干扰了预测模型的预测结果;
响应于第一预测结果与第二预测结果相同,判定第一预测结果与第二预测结果中预设排名内的某一个文字相符合,输出语言模型预测的文字最终结果选择该语言模型预测的文字并进行输出;
响应于第一预测结果与第二预测结果不同,判定第一预测结果与第二预测结果中预设排名内的某一个文字相不符合,输出预测模型获得的第一预测结果概率最大的文字。
4.根据权利要求1所述的一种基于人工智能的课堂纸笔互动方法,其特征在于,所述笔划轨迹时序数据包括:
笔划轨迹时序数据=(书写状态、压力值);
所述书写状态包括正在书写和未书写,正在书写记为,未书写记为/>;
响应于及书写的压力值大于预设阈值,判断用户正在进行书写操作;
响应于及书写的压力值小于或等于预设阈值,判断用户停止书写。
5.根据权利要求1所述的一种基于人工智能的课堂纸笔互动方法,其特征在于,所述特征向量包括:
响应于笔划轨迹数据开始生成,实时生成对应特征向量数据为:
其中,E表示特征向量,表示第/>个笔划轨迹与第/>个笔划轨迹之间的距离,/>表示第/>个笔划轨迹与第/>个笔划轨迹间书写的停顿时间;
基于高斯混合模型判断所述第个笔划轨迹与第/>个笔划轨迹是否构成同一字符,若是,发出第一信号,若否,发出第二信号;
响应于第一信号,继续沿笔划轨迹生成方向判断第个笔划轨迹;
响应于第二信号,将前个笔划轨迹划分为同一字符。
6.根据权利要求5所述的一种基于人工智能的课堂纸笔互动方法,其特征在于,高斯混合模型中,包括:构建多元高斯分布概率密度函数,公式如下:
其中,为数据均值,/>为协方差,/>为数据维度/>表示多元高斯分布概率密度函数,/>代表矩阵转置;
由多元高斯分布概率密度函数公式得出混合高斯分布的表达式,得到高斯混合模型,表达式如下:
其中,表示两段笔划轨迹是否属于同一字符的概率,/>表示近似拟合的第/>个高斯分布模型,/>为每个高斯分布模型所占权重系数,/>代表矩阵转置;
使用期望最大化算法求出取不同值下的预设的高斯混合模型权重系数参数/>,均值参数/>,标准差参数/>;
使用赤池信息量准则或贝叶斯信息准则评价指标得出高斯混合模型拟合所需最佳值;
将特征向量输入到高斯混合模型判断两段笔划轨迹是否属于同一字符:
响应于,生成判断的两段笔划轨迹视为属于同一字符的判定结果;
响应于,生成进行判断的两段笔划轨迹可划分为两个字符的判定结果。
7.根据权利要求1所述的一种基于人工智能的课堂纸笔互动方法,其特征在于,所述进行预处理包括:
对点阵图的点阵坐标数据进行噪声处理;
去除重复笔划轨迹;
对点阵图进行倾斜校正及归一化。
8.根据权利要求1所述的一种基于人工智能的课堂纸笔互动方法,其特征在于,所述预测模型包括:
第一分支和第二分支,第一分支采用循环神经网络,用于处理笔划轨迹时序数据,第二分支采用卷积神经网络,用于处理点阵图数据集合;
第一分支与第二分支并行;
第一分支设置有第一全连接层,第二分支设置有第二全连接层,第一分支的输出与第二分支的输出相连接,共同作为所述预测模型的输出;
对输出采用Softmax函数进行归一化,生成n个可能识别出的文字的概率。
9.一种基于人工智能的课堂纸笔互动装置,其特征在于,其上存储有计算机可读指令,该计算机可读指令被一个或多个处理器执行时,实现如权利要求1-8任意一项所述的一种基于人工智能的课堂纸笔互动方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410013491.7A CN117523578B (zh) | 2024-01-04 | 2024-01-04 | 一种基于人工智能的课堂纸笔互动方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410013491.7A CN117523578B (zh) | 2024-01-04 | 2024-01-04 | 一种基于人工智能的课堂纸笔互动方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117523578A true CN117523578A (zh) | 2024-02-06 |
CN117523578B CN117523578B (zh) | 2024-04-05 |
Family
ID=89751634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410013491.7A Active CN117523578B (zh) | 2024-01-04 | 2024-01-04 | 一种基于人工智能的课堂纸笔互动方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117523578B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090041354A1 (en) * | 2007-08-10 | 2009-02-12 | Microsoft Corporation | Hidden Markov Model Based Handwriting/Calligraphy Generation |
CN101853126A (zh) * | 2010-05-12 | 2010-10-06 | 中国科学院自动化研究所 | 一种联机手写句子实时识别方法 |
US20220075987A1 (en) * | 2019-01-11 | 2022-03-10 | Institut Mines Telecom | Method for generating information about the production of a handwritten, handaffixed or printed trace |
CN115620312A (zh) * | 2022-09-09 | 2023-01-17 | 重庆傲雄在线信息技术有限公司 | 跨模态字符笔迹验证方法、系统、设备及存储介质 |
CN115937873A (zh) * | 2022-09-09 | 2023-04-07 | 重庆傲雄在线信息技术有限公司 | 一种基于可辨识单字字符的在线笔迹验证系统及方法 |
CN116721464A (zh) * | 2023-06-08 | 2023-09-08 | 浙江大学 | 基于高斯混合模型与动态运动基元的机器书写方法及装置 |
-
2024
- 2024-01-04 CN CN202410013491.7A patent/CN117523578B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090041354A1 (en) * | 2007-08-10 | 2009-02-12 | Microsoft Corporation | Hidden Markov Model Based Handwriting/Calligraphy Generation |
CN101853126A (zh) * | 2010-05-12 | 2010-10-06 | 中国科学院自动化研究所 | 一种联机手写句子实时识别方法 |
US20220075987A1 (en) * | 2019-01-11 | 2022-03-10 | Institut Mines Telecom | Method for generating information about the production of a handwritten, handaffixed or printed trace |
CN115620312A (zh) * | 2022-09-09 | 2023-01-17 | 重庆傲雄在线信息技术有限公司 | 跨模态字符笔迹验证方法、系统、设备及存储介质 |
CN115937873A (zh) * | 2022-09-09 | 2023-04-07 | 重庆傲雄在线信息技术有限公司 | 一种基于可辨识单字字符的在线笔迹验证系统及方法 |
CN116721464A (zh) * | 2023-06-08 | 2023-09-08 | 浙江大学 | 基于高斯混合模型与动态运动基元的机器书写方法及装置 |
Non-Patent Citations (1)
Title |
---|
鄢煜尘;陈庆虎;袁凤;邓伟;: "基于特征融合的脱机中文笔迹鉴别", 模式识别与人工智能, no. 02, 15 April 2010 (2010-04-15), pages 69 - 75 * |
Also Published As
Publication number | Publication date |
---|---|
CN117523578B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Improving attention-based handwritten mathematical expression recognition with scale augmentation and drop attention | |
CN101482920B (zh) | 一种手写字符识别方法及系统 | |
CN105893968B (zh) | 基于深度学习的文本无关的端到端的笔迹识别方法 | |
CN107729865A (zh) | 一种手写体数学公式离线识别方法及系统 | |
CN108664975B (zh) | 一种维吾尔文手写字母识别方法、系统及电子设备 | |
CN108898131A (zh) | 一种复杂自然场景下的数字仪表识别方法 | |
CN110555403A (zh) | 一种手写字评价方法与系统 | |
Peng et al. | Recognition of handwritten Chinese text by segmentation: a segment-annotation-free approach | |
CN111738355B (zh) | 注意力融合互信息的图像分类方法、装置及存储介质 | |
CN109753897B (zh) | 基于记忆单元强化-时序动态学习的行为识别方法 | |
Chen et al. | Multi-scale adaptive task attention network for few-shot learning | |
Jain et al. | Unconstrained OCR for Urdu using deep CNN-RNN hybrid networks | |
CN109087337B (zh) | 基于分层卷积特征的长时间目标跟踪方法及系统 | |
CN106097381A (zh) | 一种基于流形判别非负矩阵分解的目标跟踪方法 | |
CN101477426A (zh) | 一种识别手写输入的方法及系统 | |
CN111062277A (zh) | 基于单目视觉的手语-唇语转化方法 | |
CN113762269A (zh) | 基于神经网络的中文字符ocr识别方法、系统、介质及应用 | |
Liu et al. | Human attention-guided explainable AI for object detection | |
CN101452357A (zh) | 一种手写字符输入方法及系统 | |
Annisa et al. | Analysis and Implementation of CNN in Real-time Classification and Translation of Kanji Characters | |
Fu et al. | Multilinguistic handwritten character recognition by Bayesian decision-based neural networks | |
CN117523578B (zh) | 一种基于人工智能的课堂纸笔互动方法及装置 | |
Yang et al. | Handwriting posture prediction based on unsupervised model | |
Liu et al. | Multi-digit recognition with convolutional neural network and long short-term memory | |
CN108960347A (zh) | 一种卷积神经网络手写体识别排序稳定性的效果评估系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |