CN116110058A - 一种基于手写数字识别的虚拟人交互方法及系统 - Google Patents
一种基于手写数字识别的虚拟人交互方法及系统 Download PDFInfo
- Publication number
- CN116110058A CN116110058A CN202310252558.8A CN202310252558A CN116110058A CN 116110058 A CN116110058 A CN 116110058A CN 202310252558 A CN202310252558 A CN 202310252558A CN 116110058 A CN116110058 A CN 116110058A
- Authority
- CN
- China
- Prior art keywords
- digital
- recognition
- sample
- handwritten
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000002452 interceptive effect Effects 0.000 claims abstract description 58
- 238000010276 construction Methods 0.000 claims description 52
- 238000004458 analytical method Methods 0.000 claims description 44
- 238000012549 training Methods 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 17
- 238000012795 verification Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012952 Resampling Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 238000012545 processing Methods 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19107—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种基于手写数字识别的虚拟人交互方法及系统,涉及数据处理技术领域,该方法包括:获取在预设交互界面输入的手写数字图像;将手写数字图像输入交互识别模型,获得多个数字识别结果,其中,数字识别模型包括根据输入的手写数字图像进行识别的多个数字识别单元;对多个数字识别结果进行聚类,获得M个数字识别结果类别,并计算获得M个数字识别结果类别在多个数字识别结果内的M个出现频率;将M个出现频率输入虚拟交互分析模型内,获得交互展示方案,通过预设交互界面对多个数字识别结果类别进行展示。本发明达到了提升手写数字识别准确性,以及手写数字识别交互工作的可视性、工作效率和效果的技术效果。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于手写数字识别的虚拟人交互方法及系统。
背景技术
手写数字识别技术是人工智能以及机器学习领域内的重要分支,其主要应用于办公自动化、财务以及教学等领域,手写数字的准确识别,能够提升多类工作的效率和准确性。
现有技术中有技术人员通过机器学习内的卷积神经网络,构建、调整并优化模型,提升手写数字识别的准确率,对手写数字图像进行识别,并输出识别出的数字结果。但是在手写数字出现较为复杂的情况时,识别准确率较低,容易输出错误的识别结果,存在着手写数字识别准确率较低、易输出错误识别结果的技术问题。
发明内容
本申请提供了一种基于手写数字识别的虚拟人交互方法及系统,用于针对解决现有技术中手写数字图像识别准确率较低,容易输出错误的识别结果,存在着手写数字识别准确率较低、易输出错误识别结果的技术问题。
鉴于上述问题,本申请提供了一种基于手写数字识别的虚拟人交互方法及系统。
本申请的第一个方面,提供了一种基于手写数字识别的虚拟人交互方法,所述方法包括:
获取在预设交互界面输入的手写数字图像;
将所述手写数字图像输入交互识别模型,获得多个数字识别结果,其中,所述数字识别模型包括根据输入的手写数字图像进行识别的多个数字识别单元;
对所述多个数字识别结果进行聚类,获得M个数字识别结果类别,并计算获得所述M个数字识别结果类别在所述多个数字识别结果内的M个出现频率;
将所述M个出现频率输入虚拟交互分析模型内,获得交互展示方案,通过所述预设交互界面对所述多个数字识别结果类别进行展示,其中,所述交互展示方案包括与所述多个数字识别结果类别对应的多个展示子方案。
本申请的第二个方面,提供了一种基于手写数字识别的虚拟人交互系统,所述系统包括:
数字图像获取模块,用于获取在预设交互界面输入的手写数字图像;
手写数字识别模块,用于将所述手写数字图像输入交互识别模型,获得多个数字识别结果,其中,所述数字识别模型包括根据输入的手写数字图像进行识别的多个数字识别单元;
识别结果分析模块,用于对所述多个数字识别结果进行聚类,获得M个数字识别结果类别,并计算获得所述M个数字识别结果类别在所述多个数字识别结果内的M个出现频率;
识别结果展示模块,用于将所述M个出现频率输入虚拟交互分析模型内,获得交互展示方案,通过所述预设交互界面对所述多个数字识别结果类别进行展示,其中,所述交互展示方案包括与所述多个数字识别结果类别对应的多个展示子方案。
本申请的第三个方面,提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器内存储有计算机程序,所述计算机程序被所述处理器执行时实现第一方面中方法的步骤。
本申请的第四个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中方法的步骤。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请提供的技术方案通过采集用户在交互界面输入的手写数字图像,将其输入具有多个数字识别单元的交互识别模型,获得多个数字识别结果,进行聚类获得多个数字识别结果类别和对应的出现频率,将该M个出现频率输入虚拟交互分析模型内,获得具有多个交展示子方案的展示方案,对该多个数字识别结果类别进行交互展示,本申请实施例基于集成机器学习,构建具有多个数字识别单元的交互识别模型,进行多次手写数字识别,能够提升手写数字识别的准确性,并根据不同数字识别结果的出现频率,制定不同的展示方案进行展示,避免直接输出错误的手写数字识别结果,影响准确性,达到了提升手写数字识别准确性,适应性设置对应的数字识别结果展示方案,避免输出错误识别结果,提升数字识别工作准确性和效率的技术效果。
附图说明
图1为本申请提供的一种基于手写数字识别的虚拟人交互方法流程示意图。
图2为本申请提供的一种基于手写数字识别的虚拟人交互方法中获得多个数字识别结果的流程示意图。
图3为本申请提供的一种基于手写数字识别的虚拟人交互方法中获得交互展示方案的流程示意图。
图4为本申请提供的一种基于手写数字识别的虚拟人交互系统的结构示意图。
图5为本申请实施例示例性计算机设备的结构示意图。
附图标记说明:数字图像获取模块11,手写数字识别模块12,识别结果分析模块13,识别结果展示模块14,计算机设备300,存储器301,处理器302,通信接口303,总线架构304。
实施方式
本申请通过提供了一种基于手写数字识别的虚拟人交互方法及系统,用于针对解决现有技术中手写数字图像识别准确率较低,容易输出错误的识别结果,存在着手写数字识别准确率较低、易输出错误识别结果的技术问题。
实施例
如图1所示,本申请提供了一种基于手写数字识别的虚拟人交互方法,所述方法包括:
S100:获取在预设交互界面输入的手写数字图像;
本申请实施例中,执行本申请实施例提供方法的主体为进行手写数字识别的技术人员,例如财务人员进行发票上的手写数字识别,或者教师进行试卷上手写数字的识别等。
预设交互界面为进行手写数字图像输入以及手写数字识别结果输出展示的界面,示例性地,预设交互界面可为现有技术中的触摸输入显示屏,或通过外接设备进行操作控制的显示屏。可通过直接在该预设交互界面触摸或使用写入装置输入手写数字图像,也可通过数据传输手段,向所述预设交互界面内输入预先采集获取的手写数字图像,例如发票图像等,然后进行预处理,获得进行手写数字识别的手写数字图像。
示例性地,该预设交互界面所处的电子设备内还包括图像采集装置,可通过图像采集装置采集获取手写数字图像,并输入该预设交互界面。
本申请实施例提供的方法中的步骤S100包括:
S110:获取用户在所述预设交互界面输入的手写图像;
S120:按照预设灰度值阈值,对所述手写图像内的像素点进行分类处理,获得手写数字对象;
S130:对所述手写数字对象进行框选,获得框选区域;
S140:对所述框选区域进行重采样,获得具有预设规格的所述手写数字图像。
本申请实施例中,该用户即为执行本申请实施例提供的方法进行手写数字识别的图像,通过上述内容中的方法,向该预设交互界面内输入需要进行手写数字识别的包括手写数字的图像。
按照预设灰度值阈值,对该手写图像内的像素点进行分类处理,获得手写数字对象。其中,手写图像内的手写数字对象和背景的颜色一般具有较大差别,对手写图像进行灰度化处理,转化为灰度图像,然后按照预设灰度值阈值,对灰度图像内的像素点进行分类,将大于该预设灰度值阈值和不大于的分为两类,如此,可将手写数字对象的像素点分类为一类,获得手写数字对象。
该预设灰度值阈值可根据手写数字识别的经验数据进行设置,例如基于该用户此前经常进行的手写数字识别的图像的灰度值分布进行设置。
其中,若手写图像的背景内除了手写数字对象还存在其他文字或图案,可通过裁剪、分辨等现有技术中的技术手段进行分割或识别,进而获得手写数字对象。
对该手写数字对象进行框选,优选采用最小的矩形框对手写数字对象进行框选,获得框选区域,该手写数字对象存在于该框选区域内。
对该框选区域进行图像重采样,示例性地,基于现有技术中的上采样手段,基于插值等方法,提升框选区域内图像的分辨率,获得上述的手写数字图像。
S200:将所述手写数字图像输入交互识别模型,获得多个数字识别结果,其中,所述数字识别模型包括根据输入的手写数字图像进行识别的多个数字识别单元;
本申请实施例中,对获取的手写数字图像进行手写数字识别,本申请实施例通过基于深度学习构建的交互识别模型,对手写数字图像进行分析识别。
其中,本申请实施例基于集成机器学习,该交互识别模型由多个可进行手写数字图像识别的数字识别单元进行手写数字识别,以提升手写数字图像识别的准确性,同时为制定不同的识别结果展示方案建立基础。
如图2所示,本申请实施例提供的方法中的步骤S200包括:
S210:获取多个样本手写数字图像;
S220:对所述多个样本手写数字图像内的手写数字对象进行人工识别,获得多个样本数字识别结果;
S230:采用所述多个样本手写数字图像和所述多个样本数字识别结果作为构建数据,构建所述多个数字识别单元;
S240:集成所述多个数字识别单元,获得所述交互识别模型;
S250:将所述手写数字图像输入所述多个数字识别单元,获得所述多个数字识别结果。
本申请实施例中的手写数字图像识别基于交互识别模型执行,下面具体描述交互识别模型的构建过程。
基于此前历史时间内进行手写数字识别的数据,获取多个样本手写数字图像,该多个样本手写数字图像与前述的手写数字图像的大小、格式相同,但其内的手写数字对象不同。
对该多个样本手写数字图像内的手写数字对象进行人工识别,用以获取构建交互识别模型的数据,获得多个样本数字识别结果。例如某一样本手写数字图像内包括手写数字对象“15”,则对其人工识别,获得样本数字识别结果“15”。
采用该多个样本手写数字图像和多个样本数字识别结果作为构建数据,基于集成机器学习,构建多个数字识别单元,其中,多个数字识别单元的构建数据不同。
本申请实施例提供的方法中的步骤S230包括:
S231:有放回地从所述多个样本手写数字图像和所述多个样本数字识别结果随机抽选P个样本手写数字图像和P个样本数字识别结果,作为第一构建数据集,P为正整数,且小于所述多个样本手写数字图像的数量;
S232:采用所述第一构建数据集,构建第一数字识别单元;
S233:继续有放回地从所述多个样本手写数字图像和所述多个样本数字识别结果随机抽选P个样本手写数字图像和P个样本数字识别结果,作为第二构建数据集;
S234:采用所述第二构建数据集,构建第二数字识别单元;
S235:继续随机抽选构建数据,直到获得第Q构建数据集,构建获得第Q数字识别单元,获得所述多个数字识别单元。
本申请实施例中,为提升手写数字识别的准确性,每个数字识别单元的构建数据不完全相同,如此,构建多个具有不同性能和准确率的数字识别单元,由于每个数字识别单元的构建数据较少,每个数字识别单元进行手写数字识别的普适性和准确性可能较低,但集合多个数字识别单元共同进行数字识别,能够提升整体的手写数字识别准确性。
本申请实施例中,有放回地从多个样本手写数字图像和多个样本数字识别结果随机抽选P个样本手写数字图像和P个样本数字识别结果,作为第一构建数据集,P为正整数,且小于多个样本手写数字图像的数量,提升数字识别单元的训练效率。优选地,P为多个样本手写数字图像的数量的2/3或1/2大小,且进行取整处理。
采用该第一构建数据集,构建第一数字识别单元,第一数字识别单元属于多个数字识别单元内。
多个数字识别单元的构建过程相同,但构建数据随机选取获得,不完全相同,以获得具有不同性能和准确性的数字识别单元。以第一数字识别单元为例,说明多个数字识别单元的构建过程。
本申请实施例提供的方法中的步骤S232包括:
S232-1:基于卷积神经网络,以手写数字图像为输入数据,以数字识别结果为输出数据,构建所述第一数字识别单元的网络结构;
S232-2:对所述第一构建数据集进行划分,获得第一训练集、第一验证集和第一测试集;
S232-3:采用所述第一训练集对所述第一数字识别单元进行迭代监督训练,直到第一数字识别单元收敛或达到预设要求的准确率;
S232-4:采用所述第一验证集和所述第一测试集对所述第一数字识别单元进行验证和测试,若所述第一数字识别单元的准确率符合预设要求,则获得所述第一数字识别单元。
本申请实施例中,基于机器学习中的卷积神经网络,以手写数字图像为输入数据,以数字识别结果为输出数据,构建第一数字识别单元的网络结构,第一数字识别单元内包括输入层、输出层和隐含层,隐含层包括多层,每层包括多个神经元,且每个隐含层内包括多个卷积层、降采样层、池化层和全连接层等,多个神经元在监督训练的过程中能够校正之间连接的权值和阈值等参数,第一数字识别单元可对输入的手写数字图像进行多次的卷积和池化等操作,并经过训练后后的神经元进行复杂的非线性逻辑分析,输出对应的数字识别结果。
对上述的第一构建数据集按照一定的比例进行划分,获得第一训练集、第一验证集和第一测试集。示例性地,第一训练集、第一验证集和第一测试集的比例为7:3:1,第一测试集通过在第一构建数据集内随机选取获得,仅用于进行测试以验证第一数字识别单元的准确率,不参与测试和验证的过程。
基于监督训练,采用第一训练集对第一数字识别单元进行迭代监督训练,在训练过程中,对第一数字识别单元内的模型参数进行不断的修正迭代,直到第一数字识别单元收敛或达到预设要求的准确率。
进一步地,采用第一验证集和第一测试集对第一数字识别单元进行验证和测试,若第一数字识别单元的准确率符合预设要求,则第一数字识别单元的准确率符合要求,则未出现过拟合等情况,获得第一数字识别单元。
基于相同的方法,继续有放回地从多个样本手写数字图像和多个样本数字识别结果随机抽选P个样本手写数字图像和P个样本数字识别结果,作为第二构建数据集,第二构建数据集与第一构建数据集内的数据不完全相同,可能存在部分相同。
采用第二构建数据集,构建第二数字识别单元,构建过程与第一数字识别单元相同,但构建数据不同,如此,获得第二数字识别单元。
继续随机选取获得构建数据集,重复执行第一数字识别单元的构建步骤,获得第Q构建数据集,构建获得第Q数字识别单元,获得多个数字识别单元。其中,Q为整数,示例性地,Q为10。
集成构建完成的所述多个数字识别单元,将多个数字识别单元的输入层集成至同一输入通道内,其他部分保持信息隔离,获得交互识别模型。
基于构建完成的交互识别模型,将当前的手写数字图像输入该交互识别模型内,进而输入该多个数字识别单元,获得多个数字识别结果。
本申请实施例通过基于相同构建方法,采用不同构建数据,构建获得多个数字识别单元,共同进行手写数字识别,能够提升手写数字识别的准确性,避免模型构建数据过大而出现无法收敛的问题,并避免过多构建数据导致的计算资源需求过大的问题。
S300:对所述多个数字识别结果进行聚类,获得M个数字识别结果类别,并计算获得所述M个数字识别结果类别在所述多个数字识别结果内的M个出现频率;
本申请实施例中,基于多个数字识别单元输出的多个数字识别结果,进行聚类,具体将具有相同数字的数字识别结果聚为一类,如此,获得M个数字识别结果类别,M为正整数,且M小于全部数字识别结果的数量。例如,多个数字识别结果包括四个“6”、三个“8”、三个“0”,则分别进行聚类,获得三个数字识别结果类别。
进一步地,计算M个数字识别结果类别在多个数字识别结果内的M个出现频率,例如“6”的数字识别结果类别在多个数字识别结果内的出现频率为40%。
其中,出现频率越大,则该手写数字图像内的数字为该数字识别结果类别的可能性越大。
S400:将所述M个出现频率输入虚拟交互分析模型内,获得交互展示方案,通过所述预设交互界面对所述多个数字识别结果类别进行展示,其中,所述交互展示方案包括与所述多个数字识别结果类别对应的多个展示子方案。
基于M个出现频率,进行M个数字识别结果类别的展示方案的制定。具体地,将M个出现频率输入虚拟交互分析模型内,获得交互展示方案,虚拟交互分析模型可根据不同大小的出现频率,制定不同的展示方案,进行数字识别结果类别的展示,避免直接输出可能为错误的数字识别结果。
如图3所示,本申请实施例提供的方法中的步骤S400包括:
S410:构建所述虚拟交互分析模型,其中,所述虚拟交互分析模型包括最大频率分析单元和展示方案分析单元;
S420:获取所述M个出现频率内的最大值,获得频率峰值;
S430:将频率峰值输入所述最大频率分析单元,判断所述频率峰值是否大于等于预设频率阈值,获得峰值判断结果;
S440:若所述峰值判断结果为是,则获得预设峰值展示方案,并将其他的出现频率输入所述展示方案分析单元,获得其他的多个展示子方案,生成第一交互展示方案;
S450:若所述峰值判断结果为否,则将全部的所述M个出现频率输入所述展示方案分析单元,获得多个展示子方案,生成第二交互展示方案;
S460:以所述第一交互展示方案或所述第二交互展示方案作为所述交互展示方案,对所述多个数字识别结果类别进行展示。
本申请实施例中,首先构建用于制定M个数字识别结果类别的展示方案的虚拟交互分析模型。
本申请实施例提供的方法中的步骤S410包括:
S411:获取所述预设频率阈值;
S412:根据所述预设频率阈值构建判断规则,并获取所述预设峰值展示方案,获得所述最大频率分析单元;
S413:获取多个样本频率区间;
S414:根据所述多个样本频率区间,设置获得多个样本展示子方案,其中,所述多个样本展示子方案内的展示区域小于所述预设峰值展示方案的展示区域;
S415:构建所述多个样本频率区间和所述多个样本展示子方案的映射关系,获得所述展示方案分析单元,结合所述最大频率分析单元,获得所述虚拟交互分析模型。
本申请实施例中,该虚拟交互分析模型包括最大频率分析单元和展示方案分析单元,最大频率分析单元包括一预设频率阈值,用以对M个出现频率内的最大值进行判断,制定不同的展示方案。
示例性地,预设频率阈值可设置为50%。其中,若M个出现频率内的最大值大于该预设频率阈值,则说明该最大值对应的数字识别结果类别准确性的概率较高,当前的手写数字识别较为明确,将其作为答案进行输出展示,并按照其他的数字识别结果类别的出现频率制定其他的展示方案,进行辅助展示。
以及,若M个出现频率内的最大值小于该预设频率阈值,则说明当前的手写数字识别不够明确,M个数字识别结果类别内没有准确概率较高的数字识别结果类别,没有产生答案,此时,不输出展示答案,按照M个数字识别结果类别的出现频率制定对应的展示方案,均进行辅助展示,由技术人员自行识别手写数字图像内的手写数字。
根据该预设频率阈值构建判断规则,并获取预设峰值展示方案,结合该预设频率阈值,获得最大频率分析单元。该判断规则即为将多个数字识别结果类别的出现频率的最大值与该预设频率阈值进行判断,若大于等于该预设频率阈值,则采用预设峰值展示方案进行展示,例如将最大值对应的数字识别结果类别在预设交互界面的中央进行展示,并将其他的出现频率输入展示方案分析单元。若最大值小于该预设频率阈值,则不采用预设峰值展示方案进行展示,将全部的出现频率输入该展示方案分析单元。
本申请实施例中,构建展示方案分析单元,包括获取多个样本频率区间,例如可对出现频率的范围进行等距划分,获得多个样本频率区间,例如0%-20%、20%-40%......80%-100%。
根据多个样本频率区间,设置获得多个样本展示子方案,多个样本展示子方案用于在预设交互界面内进行数字识别结果类别的不同展示。其中,多个样本展示子方案内的展示区域小于预设峰值展示方案的展示区域,多个样本展示子方案的展示醒目程度小于该预设峰值展示方案的展示醒目程度,且越大的样本频率区间对应的样本展示子方案的展示区域越大。
构建多个样本频率区间和多个样本展示子方案的映射关系,获得展示方案分析单元,将数字识别结果类别的出现频率输入该展示方案分析单元,落入对应的频率区间内,进而获得对应的展示子方案。
结合最大频率分析单元和展示方案分析单元,获得上述的虚拟交互分析模型。
基于该虚拟交互分析模型,获取M个出现频率内的最大值,作为频率峰值,输入该最大频率分析单元,判断其是否大于预设频率阈值,获得峰值判断结果。
若峰值判断结果为是,则获得预设峰值展示方案,对该频率峰值对应的数字识别结果类别在预设交互界面内进行展示,并将其他的出现频率输入展示方案分析单元,获得其他的多个展示子方案,生成第一交互展示方案。
若峰值判断结果为否,则将全部的M个出现频率输入展示方案分析单元,获得多个展示子方案,生成第二交互展示方案。
以第一交互展示方案或第二交互展示方案作为交互展示方案,对多个数字识别结果类别进行不同情况下的展示。
本申请实施例通过构建虚拟交互分析模型,能够根据多个数字识别结果的不同情况,设置对应的展示方案,进行手写数字识别结果的交互展示,避免直接输出可能为错误的、不准确的手写数字识别结果,且对于不同出现频率的数字识别结果类别设置不同的展示方案,能够提升手写数字识别交互的可视性和准确性。
综上所述,本申请实施例至少具有如下技术效果:
本申请实施例通过采集用户在交互界面输入的手写数字图像,将其输入具有多个数字识别单元的交互识别模型,获得多个数字识别结果,进行聚类获得多个数字识别结果类别和对应的出现频率,将该M个出现频率输入虚拟交互分析模型内,获得具有多个交展示子方案的展示方案,对该多个数字识别结果类别进行交互展示,本申请实施例基于集成机器学习,构建具有多个数字识别单元的交互识别模型,进行多次手写数字识别,能够提升手写数字识别的准确性,并根据不同数字识别结果的出现频率,制定不同的展示方案进行展示,通过丰富的展示策略进行手写数字识别的辅助展示,避免直接输出错误的手写数字识别结果,影响准确性,提升了手写数字识别交互展示的可视性,达到了提升手写数字识别准确性,适应性设置对应的数字识别结果展示方案,避免输出错误识别结果,提升数字识别工作准确性和效率的技术效果。
实施例
基于与前述实施例中一种基于手写数字识别的虚拟人交互方法相同的发明构思,如图4所示,本申请提供了一种基于手写数字识别的虚拟人交互系统,实施例一中的一种基于手写数字识别的虚拟人交互方法的具体阐述,对于该基于手写数字识别的虚拟人交互系统也同样适用,其中,所述系统包括:
数字图像获取模块11,用于获取在预设交互界面输入的手写数字图像;
手写数字识别模块12,用于将所述手写数字图像输入交互识别模型,获得多个数字识别结果,其中,所述数字识别模型包括根据输入的手写数字图像进行识别的多个数字识别单元;
识别结果分析模块13,用于对所述多个数字识别结果进行聚类,获得M个数字识别结果类别,并计算获得所述M个数字识别结果类别在所述多个数字识别结果内的M个出现频率;
识别结果展示模块14,用于将所述M个出现频率输入虚拟交互分析模型内,获得交互展示方案,通过所述预设交互界面对所述多个数字识别结果类别进行展示,其中,所述交互展示方案包括与所述多个数字识别结果类别对应的多个展示子方案。
进一步地,所述数字图像获取模块11还用于实现以下功能:
获取用户在所述预设交互界面输入的手写图像;
按照预设灰度值阈值,对所述手写图像内的像素点进行分类处理,获得手写数字对象;
对所述手写数字对象进行框选,获得框选区域;
对所述框选区域进行重采样,获得具有预设规格的所述手写数字图像。
进一步地,所述手写数字识别模块12还用于实现以下功能:
获取多个样本手写数字图像;
对所述多个样本手写数字图像内的手写数字对象进行人工识别,获得多个样本数字识别结果;
采用所述多个样本手写数字图像和所述多个样本数字识别结果作为构建数据,构建所述多个数字识别单元;
集成所述多个数字识别单元,获得所述交互识别模型;
将所述手写数字图像输入所述多个数字识别单元,获得所述多个数字识别结果。
其中,采用所述多个样本手写数字图像和所述多个样本数字识别结果作为构建数据,构建所述多个数字识别单元,包括:
有放回地从所述多个样本手写数字图像和所述多个样本数字识别结果随机抽选P个样本手写数字图像和P个样本数字识别结果,作为第一构建数据集,P为正整数,且小于所述多个样本手写数字图像的数量;
采用所述第一构建数据集,构建第一数字识别单元;
继续有放回地从所述多个样本手写数字图像和所述多个样本数字识别结果随机抽选P个样本手写数字图像和P个样本数字识别结果,作为第二构建数据集;
采用所述第二构建数据集,构建第二数字识别单元;
继续随机抽选构建数据,直到获得第Q构建数据集,构建获得第Q数字识别单元,获得所述多个数字识别单元。
其中,采用所述第一构建数据集,构建第一数字识别单元,包括:
基于卷积神经网络,以手写数字图像为输入数据,以数字识别结果为输出数据,构建所述第一数字识别单元的网络结构;
对所述第一构建数据集进行划分,获得第一训练集、第一验证集和第一测试集;
采用所述第一训练集对所述第一数字识别单元进行迭代监督训练,直到第一数字识别单元收敛或达到预设要求的准确率;
采用所述第一验证集和所述第一测试集对所述第一数字识别单元进行验证和测试,若所述第一数字识别单元的准确率符合预设要求,则获得所述第一数字识别单元。
进一步地,所述识别结果展示模块14还用于以下功能:
构建所述虚拟交互分析模型,其中,所述虚拟交互分析模型包括最大频率分析单元和展示方案分析单元;
获取所述M个出现频率内的最大值,获得频率峰值;
将频率峰值输入所述最大频率分析单元,判断所述频率峰值是否大于等于预设频率阈值,获得峰值判断结果;
若所述峰值判断结果为是,则获得预设峰值展示方案,并将其他的出现频率输入所述展示方案分析单元,获得其他的多个展示子方案,生成第一交互展示方案;
若所述峰值判断结果为否,则将全部的所述M个出现频率输入所述展示方案分析单元,获得多个展示子方案,生成第二交互展示方案;
以所述第一交互展示方案或所述第二交互展示方案作为所述交互展示方案,对所述多个数字识别结果类别进行展示。
其中,构建所述虚拟交互分析模型,包括:
获取所述预设频率阈值;
根据所述预设频率阈值构建判断规则,并获取所述预设峰值展示方案,获得所述最大频率分析单元;
获取多个样本频率区间;
根据所述多个样本频率区间,设置获得多个样本展示子方案,其中,所述多个样本展示子方案内的展示区域小于所述预设峰值展示方案的展示区域;
构建所述多个样本频率区间和所述多个样本展示子方案的映射关系,获得所述展示方案分析单元,结合所述最大频率分析单元,获得所述虚拟交互分析模型。
实施例
如图5所示,基于与前述实施例中一种基于手写数字识别的虚拟人交互方法相同的发明构思,本申请还提供了一种计算机设备300,所述计算机设备300包括存储器301和处理器302,所述存储器301内存储有计算机程序,所述计算机程序被所述处理器302执行时实现实施例一种方法的步骤。
该计算机设备300包括:处理器302、通信接口303、存储器301。可选的,计算机设备300还可以包括总线架构304。其中,通信接口303、处理器302以及存储器301可以通过总线架构304相互连接;总线架构304可以是外设部件互连标(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry Standardarchitecture,简称EISA)总线等。所述总线架构304可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
处理器302可以是一个CPU,微处理器,ASIC,或一个或多个用于控制本申请方案程序执行的集成电路。
通信接口303,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN),有线接入网等。
存储器301可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable Programmable read only memory,EEPROM)、只读光盘(compactdiscread only memory,CD ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线架构304与处理器相连接。存储器也可以和处理器集成在一起。
其中,存储器301用于存储执行本申请方案的计算机执行指令,并由处理器302来控制执行。处理器302用于执行存储器301中存储的计算机执行指令,从而实现本申请上述实施例提供的一种基于手写数字识别的虚拟人交互方法。
实施例
基于与前述实施例中一种基于手写数字识别的虚拟人交互方法相同的发明构思,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现实施例一中方法的步骤。
本说明书和附图仅仅是本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请及其等同技术的范围之内,则本申请意图包括这些改动和变型在内。
Claims (10)
1.一种基于手写数字识别的虚拟人交互方法,其特征在于,所述方法包括:
获取在预设交互界面输入的手写数字图像;
将所述手写数字图像输入交互识别模型,获得多个数字识别结果,其中,所述数字识别模型包括根据输入的手写数字图像进行识别的多个数字识别单元;
对所述多个数字识别结果进行聚类,获得M个数字识别结果类别,并计算获得所述M个数字识别结果类别在所述多个数字识别结果内的M个出现频率;
将所述M个出现频率输入虚拟交互分析模型内,获得交互展示方案,通过所述预设交互界面对所述多个数字识别结果类别进行展示,其中,所述交互展示方案包括与所述多个数字识别结果类别对应的多个展示子方案。
2.根据权利要求1所述的方法,其特征在于,获取在预设交互界面输入的手写数字图像,包括:
获取用户在所述预设交互界面输入的手写图像;
按照预设灰度值阈值,对所述手写图像内的像素点进行分类处理,获得手写数字对象;
对所述手写数字对象进行框选,获得框选区域;
对所述框选区域进行重采样,获得具有预设规格的所述手写数字图像。
3.根据权利要求1所述的方法,其特征在于,将所述手写数字图像输入交互识别模型,获得多个数字识别结果,包括:
获取多个样本手写数字图像;
对所述多个样本手写数字图像内的手写数字对象进行人工识别,获得多个样本数字识别结果;
采用所述多个样本手写数字图像和所述多个样本数字识别结果作为构建数据,构建所述多个数字识别单元;
集成所述多个数字识别单元,获得所述交互识别模型;
将所述手写数字图像输入所述多个数字识别单元,获得所述多个数字识别结果。
4.根据权利要求3所述的方法,其特征在于,采用所述多个样本手写数字图像和所述多个样本数字识别结果作为构建数据,构建所述多个数字识别单元,包括:
有放回地从所述多个样本手写数字图像和所述多个样本数字识别结果随机抽选P个样本手写数字图像和P个样本数字识别结果,作为第一构建数据集,P为正整数,且小于所述多个样本手写数字图像的数量;
采用所述第一构建数据集,构建第一数字识别单元;
继续有放回地从所述多个样本手写数字图像和所述多个样本数字识别结果随机抽选P个样本手写数字图像和P个样本数字识别结果,作为第二构建数据集;
采用所述第二构建数据集,构建第二数字识别单元;
继续随机抽选构建数据,直到获得第Q构建数据集,构建获得第Q数字识别单元,获得所述多个数字识别单元。
5.根据权利要求4所述的方法,其特征在于,采用所述第一构建数据集,构建第一数字识别单元,包括:
基于卷积神经网络,以手写数字图像为输入数据,以数字识别结果为输出数据,构建所述第一数字识别单元的网络结构;
对所述第一构建数据集进行划分,获得第一训练集、第一验证集和第一测试集;
采用所述第一训练集对所述第一数字识别单元进行迭代监督训练,直到第一数字识别单元收敛或达到预设要求的准确率;
采用所述第一验证集和所述第一测试集对所述第一数字识别单元进行验证和测试,若所述第一数字识别单元的准确率符合预设要求,则获得所述第一数字识别单元。
6.根据权利要求1所述的方法,其特征在于,将所述M个出现频率输入虚拟交互分析模型内,获得交互展示方案,包括:
构建所述虚拟交互分析模型,其中,所述虚拟交互分析模型包括最大频率分析单元和展示方案分析单元;
获取所述M个出现频率内的最大值,获得频率峰值;
将频率峰值输入所述最大频率分析单元,判断所述频率峰值是否大于等于预设频率阈值,获得峰值判断结果;
若所述峰值判断结果为是,则获得预设峰值展示方案,并将其他的出现频率输入所述展示方案分析单元,获得其他的多个展示子方案,生成第一交互展示方案;
若所述峰值判断结果为否,则将全部的所述M个出现频率输入所述展示方案分析单元,获得多个展示子方案,生成第二交互展示方案;
以所述第一交互展示方案或所述第二交互展示方案作为所述交互展示方案,对所述多个数字识别结果类别进行展示。
7.根据权利要求6所述的方法,其特征在于,构建所述虚拟交互分析模型,包括:
获取所述预设频率阈值;
根据所述预设频率阈值构建判断规则,并获取所述预设峰值展示方案,获得所述最大频率分析单元;
获取多个样本频率区间;
根据所述多个样本频率区间,设置获得多个样本展示子方案,其中,所述多个样本展示子方案内的展示区域小于所述预设峰值展示方案的展示区域;
构建所述多个样本频率区间和所述多个样本展示子方案的映射关系,获得所述展示方案分析单元,结合所述最大频率分析单元,获得所述虚拟交互分析模型。
8.一种基于手写数字识别的虚拟人交互系统,其特征在于,所述系统包括:
数字图像获取模块,用于获取在预设交互界面输入的手写数字图像;
手写数字识别模块,用于将所述手写数字图像输入交互识别模型,获得多个数字识别结果,其中,所述数字识别模型包括根据输入的手写数字图像进行识别的多个数字识别单元;
识别结果分析模块,用于对所述多个数字识别结果进行聚类,获得M个数字识别结果类别,并计算获得所述M个数字识别结果类别在所述多个数字识别结果内的M个出现频率;
识别结果展示模块,用于将所述M个出现频率输入虚拟交互分析模型内,获得交互展示方案,通过所述预设交互界面对所述多个数字识别结果类别进行展示,其中,所述交互展示方案包括与所述多个数字识别结果类别对应的多个展示子方案。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器内存储有计算机程序,所述计算机程序被所述处理器执行时实现权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310252558.8A CN116110058A (zh) | 2023-03-16 | 2023-03-16 | 一种基于手写数字识别的虚拟人交互方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310252558.8A CN116110058A (zh) | 2023-03-16 | 2023-03-16 | 一种基于手写数字识别的虚拟人交互方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116110058A true CN116110058A (zh) | 2023-05-12 |
Family
ID=86261739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310252558.8A Pending CN116110058A (zh) | 2023-03-16 | 2023-03-16 | 一种基于手写数字识别的虚拟人交互方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116110058A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824597A (zh) * | 2023-07-03 | 2023-09-29 | 金陵科技学院 | 动态图像分割及并行学习手写身份证数字及身份识别方法 |
-
2023
- 2023-03-16 CN CN202310252558.8A patent/CN116110058A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116824597A (zh) * | 2023-07-03 | 2023-09-29 | 金陵科技学院 | 动态图像分割及并行学习手写身份证数字及身份识别方法 |
CN116824597B (zh) * | 2023-07-03 | 2024-05-24 | 金陵科技学院 | 动态图像分割及并行学习手写身份证数字及身份识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180165810A1 (en) | Method of automatically detecting microaneurysm based on multi-sieving convolutional neural network | |
CN106980856B (zh) | 公式识别方法及系统和符号推理计算方法及系统 | |
CN112801146B (zh) | 一种目标检测方法及系统 | |
CN105320945A (zh) | 图像分类的方法及装置 | |
CN114549993B (zh) | 实验中线段图像的评分方法、系统、设备及可读存储介质 | |
CN107169485A (zh) | 一种数学公式识别方法和装置 | |
CN110889437B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN114343577B (zh) | 认知功能评价方法、终端设备以及计算机可读存储介质 | |
CN115859128B (zh) | 一种基于档案数据交互相似度的分析方法和系统 | |
CN116110058A (zh) | 一种基于手写数字识别的虚拟人交互方法及系统 | |
CN108520263B (zh) | 一种全景图像的识别方法、系统及计算机存储介质 | |
CN115546692A (zh) | 一种远程教育数据采集分析方法、设备及计算机存储介质 | |
CN111414930B (zh) | 深度学习模型训练方法及装置、电子设备及存储介质 | |
CN115730605A (zh) | 基于多维信息的数据分析方法 | |
CN113780365A (zh) | 样本生成方法和装置 | |
CN112784494A (zh) | 假阳性识别模型的训练方法、目标识别方法及装置 | |
CN109241869A (zh) | 答题卡分数识别方法、装置及终端设备 | |
CN112784733A (zh) | 一种基于线上教育的情绪识别方法、装置及电子设备 | |
JP7293658B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN115375954B (zh) | 一种化学实验溶液识别方法、装置、设备及可读存储介质 | |
CN114387524B (zh) | 基于多层级二阶表征的小样本学习的图像识别方法和系统 | |
CN115984875A (zh) | 一种硬笔楷书临摹作品的笔画相似性评价方法及系统 | |
CN113177602B (zh) | 图像分类方法、装置、电子设备和存储介质 | |
CN115601768A (zh) | 书写文字的判断方法、装置、设备及存储介质 | |
CN113610080A (zh) | 基于跨模态感知的敏感图像识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20230512 |