CN110008839A - 一种自适应手势识别的智能手语交互系统及方法 - Google Patents
一种自适应手势识别的智能手语交互系统及方法 Download PDFInfo
- Publication number
- CN110008839A CN110008839A CN201910174287.2A CN201910174287A CN110008839A CN 110008839 A CN110008839 A CN 110008839A CN 201910174287 A CN201910174287 A CN 201910174287A CN 110008839 A CN110008839 A CN 110008839A
- Authority
- CN
- China
- Prior art keywords
- sign language
- user
- feedback
- translation
- feedback information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种自适应手势识别的智能手语交互系统及方法,手语数据采集模块用于采集用户的手语数据;手语翻译模块用于利用翻译模型对手语数据进行翻译,获得翻译结果;用户反馈模块用于判断翻译结果是否正确,若翻译结果有误,则用户对输出的翻译结果进行校正,生成反馈信息;反馈信息处理模块用于根据反馈信息对翻译模型进行更新后,将更新后的翻译模型发送至手语翻译模块;语音输出模块用于输出翻译结果;由于不同手语用户个体的差异性,翻译错误时有发生,本发明提供的系统和方法采用用户自主反馈和云端后台智能判决的方法,解决用户个体差异性的问题,进而达到用户佩戴时间越长,产品本身越定制化的趋势,实现了低成本的定制化开发。
Description
技术领域
本发明涉及手语交互系统及方法,具体涉及一种自适应手势识别的智能手语交互系统及方法。
背景技术
手语是聋哑人交流使用的语言,它是用手势比量动作,根据手势的变化模拟形象或者音节以构成的一定意思或词语,然而,由于手语的复杂性,让大多数正常人掌握并应用手语与聋哑人进行交流显然是不现实的,这导致了聋哑人与正常人的交流存在障碍。
随着人工智能技术的发展,越来越多的技术应用到民生领域,其中语言障碍人群对通过人工智能技术实现与正常社会群体的沟通交流非常迫切,然而现有技术中的手语交互系统存在精确度不够,忽略用户个体差异性和地区差异性的问题,因为不是所有的聋哑人做出的手语姿势都是按照标准姿态,会存在有些聋哑人由于手指灵活度不高,无法作出标准姿态,导致在使用人工智能对手语进行识别的过程中出现误识别的情况,干扰了聋哑人与正常人之间的交流。也会存在因为地区差异性导致的手语翻译不准确的问题。
发明内容
本发明的目的在于提供一种自适应手势识别的智能手语交互系统,用以解决现有技术中手语识别技术没有考虑到个体差异性和地区差异性导致手语识别结果准确率不高的问题。
为了实现上述任务,本发明采用以下技术方案:
一种自适应手势识别的智能手语交互系统,包括手语数据采集模块、手语翻译模块以及语音输出模块,所述的系统还包括用户反馈模块以及反馈信息处理模块;
所述的手语数据采集模块用于采集用户的手语数据;
所述的手语翻译模块用于利用翻译模型对所述的手语数据进行翻译,获得翻译结果;
所述的用户反馈模块用于判断所述翻译结果是否正确,若所述的翻译结果有误,则用户对所述输出的翻译结果进行校正,生成反馈信息;
所述的反馈信息处理模块用于根据所述的反馈信息对所述的翻译模型进行更新,将所述更新后的翻译模型发送至手语翻译模块;
所述的语音输出模块用于输出所述的翻译结果。
进一步地,所述的用户反馈模块包括翻译结果判断子模块、用户反馈输入子模块、用户反馈信息生成子模块以及用户反馈信息发送子模块;
所述的翻译结果判断子模块用于使用户判断所述输出的翻译结果是否正确;
所述的用户反馈输入子模块用于输入用户对于翻译结果的校正信息;
所述的用户反馈信息生成子模块用于将所述的校正信息、翻译结果、手语数据以及其他信息进行整合后,生成反馈信息;
所述的其他信息包括用户的地区、用户的反馈时间、用户的反馈次数以及用户自身身体缺陷状态;
所述的用户反馈信息发送子模块用于将所述的反馈信息发送至所述的反馈信息处理模块中。
进一步地,所述的反馈信息处理模块包括个体用户反馈信息处理子模块、地区用户反馈处理子模块以及翻译模型发送模块;
所述的个体用户反馈信息处理子模块用于根据单个用户的反馈信息,更新个人翻译模型,获得更新的个人翻译模型;
所述的地区用户反馈处理子模块用于根据多个处于同一地区的用户的反馈信息,更新地区翻译模型,获得更新的地区翻译模型;
所述的翻译模型发送模块用于将所述更新的个人翻译模型发送至反馈的单个用户的手语翻译模块中;
还用于将所述更新的地区翻译模型发送至同一地区的所有用户的手语翻译模块中。
进一步地,所述的个体用户反馈信息处理子模块用于根据单个用户的反馈信息,更新个人翻译模型,获得更新的个人翻译模型,包括:
若同一用户对于同一翻译结果的多个反馈信息中,相邻两个反馈信息的反馈时间小于24小时且反馈信息个数大于3,则根据校正信息更新个人翻译模型,获得更新的个人翻译模型;
若用户对翻译结果的反馈信息中,用户身体缺陷状态为缺陷状态时,则根据校正信息更新个人翻译模型,获得更新的个人翻译模型。
进一步地,所述的地区用户反馈处理子模块用于根据多个处于同一地区的用户的反馈信息,更新地区翻译模型,获得更新的地区翻译模型,包括:
若同一地区的多个用户对于同一翻译结果的反馈信息数量与当前地区的用户数量的比值大于0.8且多个用户对于同一翻译结果的校正信息均相同时,则根据校正信息更新地区翻译模型,获得更新的地区翻译模型。
进一步地,所述的手语数据采集模块包括手语数据采集子模块以及手语数据预处理子模块;
所述的手语数据采集子模块用于采集用户的初始手语数据;
所述的手语数据预处理子模块用于对所述的初始手语数据进行预处理,获得用户的手语数据,包括:
采集用户手势动作序列后,采用卡尔曼滤波对所述的手势动作序列进行滤波后进行重采样,获得预处理后的手势动作序列;
采用加权的方式对所述预处理后的手势动作序列进融合,获得用户的手语数据。
一种自适应手势识别的智能手语交互方法,包括以下步骤:
步骤1、采集当前用户的手语数据,对所述的手语数据进行预处理,获得预处理后的手语数据;
步骤2、将所述的预处理后的手语数据输入至手语翻译模型中,获得翻译结果;
步骤3、判断所述的翻译结果是否正确,若正确则执行步骤7,否则执行步骤4;
步骤4、根据所述的翻译结果,生成当前用户的反馈信息,所述的反馈信息包括手语数据、翻译结果、校正信息以及其他信息;
所述的其他信息包括用户的地区、用户的反馈时间、用户的反馈次数以及用户身体缺陷状态;
步骤5、根据所述的反馈信息对所述的手语翻译模型进行更新,获得更新后的手语翻译模型,包括:
步骤5.1、判断当前用户的反馈信息中用户身体缺陷状态是否为缺陷,若是,则根据校正信息更新手语翻译模型,获得更新后的手语翻译模型,执行步骤6;否则执行步骤5.2;
步骤5.2、根据当前用户的反馈信息中用户的地区,查找该地区所有用户的反馈信息,若该地区中多个用户对于同一翻译结果的反馈信息数量与当前地区的用户数量的比值大于0.8且多个用户对于同一翻译结果的校正信息均相同时,则根据校正信息更新手语翻译模型,获得更新后的手语翻译模型,执行步骤6,否则执行步骤5.3;
步骤5.3、判断当前用户的反馈信息中针对同一翻译结果的反馈信息个数是否大于等于3,若大于等于则执行步骤5.4;否则不更新手语翻译模型,执行步骤7;
步骤5.4、判断当前用户的反馈信息中针对同一翻译结果的相邻两个反馈信息中的反馈时间是否小于24小时,若小于24小时,则根据校正信息更新手语翻译模型,获得更新后的手语翻译模型,执行步骤6,否则不更新手语翻译模型,执行步骤7;
步骤6、将所述更新后的手语翻译模型输入至步骤2中,返回步骤2;
步骤7、将所述步骤2获得的翻译结果采用语音方式输出。
进一步地,所述的步骤1包括:
步骤1.1、采集用户手势动作序列;
步骤1.2、采用卡尔曼滤波对所述的手势动作序列进行滤波以及重采样,获得预处理后的手势动作序列;
步骤1.3、采用加权的方式对所述预处理后的手势动作序列进融合,获得用户的手语数据。
本发明与现有技术相比具有以下技术特点:
1、由于不同手语用户个体的差异性,传统的手语识别未能充分考虑该因素,导致用户体验不佳,翻译错误时有发生,本发明提供的系统采用用户自主反馈和云端后台智能判决的方法,解决用户个体差异性的问题,进而达到用户佩戴时间越长,产品本身越定制化的趋势,实现了低成本的定制化开发。
2、由于针对地区差异,即对于“手语方言区”的,采用系统自带的导航定位结合用户位置确认等信息,通过后台智能判决的方法,进行区域性的地区翻译模型下发,解决地区差异性的问题,同时极大的丰富了后台的数据类型。
3、本发明提供的手语交互系统采用对多类型传感器数据进行加权处理后,送入神经网络进行训练,简化了设备结构,提升了识别率。
附图说明
图1为本发明提供的手语交互系统结构图;
图2为本发明提供的手语交互方法流程图。
具体实施方式
实施例一
如图1所示,在本实施例中公开了一种自适应手势识别的智能手语交互系统,包括手语数据采集模块、手语翻译模块以及语音输出模块,系统还包括用户反馈模块以及反馈信息处理模块;
手语数据采集模块用于采集用户的手语数据;
手语翻译模块用于利用翻译模型对手语数据进行翻译,获得翻译结果;
用户反馈模块用于判断所述输出的翻译结果是否正确,若翻译结果有误,则用户对所述输出的翻译结果进行校正,生成反馈信息;
反馈信息处理模块用于根据反馈信息对翻译模型进行更新后,将所述更新后的翻译模型发送至手语翻译模块;
语音输出模块用于输出翻译结果。
在本实施例中,手语采集模块所实现的功能第一个是手语数据采集,第二个是将采集到的数据进行预处理;
可选地,手语数据采集模块包括手语数据采集子模块以及手语数据预处理子模块;
手语数据采集子模块用于采集用户的初始手语数据;
手语数据预处理子模块用于对初始手语数据进行预处理,获得用户的手语数据,包括:
采集用户手势动作序列后,采用卡尔曼滤波对手势动作序列进行滤波后进行重采样,获得预处理后的手势动作序列;
采用加权的方式对预处理后的手势动作序列进融合,获得用户的手语数据。
其中,手语数据采集子模块为采集用户手部数据的传感器,包括但不限于体感手套、数据手套、肌肉电传感等,其采用惯性传感器的动作捕捉技术来采集用户的手势信息。
当采用数据手套采集用户手部数据时,数据手套中包括弯曲传感器,弯曲传感器采用RB-02S046的压力型Flex传感器,该传感器在发生弯曲时,传感器导通的电阻会发生变化,从而感知识别手指不同的弯曲度变化。通过各个手指不同弯曲度的组合来形成新的不同手势。
当采用体感手套或者数据手套对用户手部数据进行获取时,戴上手语翻译手套并作出手势动作的过程中,每次读取数据时,将各个九轴传感器MPU9255返回的数据转换为三维的欧拉角。手语翻译手套上的12个九轴MPU9255传感器一次可获得一组12*3=36维的原始数据。对同一手势姿态进行多次采集获得原始数据集合。
在本实施例中手语采集模块还可以是以图像的形式采集用户的手部数据,具体为在用户手前方设置三维深度摄像头,在采用图像形式获取用户手部数据时,可以调用OpenCV函数库创建VideoCapture对象来获取当前实时的帧,将获取到的每一帧图像以数组的形式存储到内存队列中,由摄像头采集的图像从队列尾部进队,进行识别的模块从队列首部进行数据提取,当队列的总长度达到最大长度时,从队列首部进行数据删除。
在本实施例中,手语翻译模块还包括将手语采集模块采集的数字信息进行卡尔曼滤波后下采样得到待翻译的数据序列的预处理子模块,并将数据序列送入已经训练好的翻译模型网络中获得翻译结果的翻译模型。
其中,手语翻译模块可以采用通用的中央处理器(Central Processing Unit,CPU),微处理器,应用专用集成电路(Application Specific Integrated Circuit,ASIC),或者一个或多个集成电路,用于执行相关操作,以实现本发明实施例所提供的技术方案。
其中,翻译模型网络可以是训练好的BP神经网络、卷积神经网络还可以是SVM分类器或者更为复杂的神经网络,例如时域卷积网络与循环神经网络融合的手语翻译模型等,只要能够实现对数据进行分类的网络均可,经过翻译模型后,将用户的意图表达成一个个单词,例如用手语表达‘咖啡多少钱’,那么他们手势动作呈现的是‘咖啡’‘钱’‘多少’,之后再手语翻译模块中将翻译模型输出对应的语义信息并结合语法规则进行调整,用于根据所述的手语数据进行翻译,获得翻译结果。
在本实施例中,当采集的用户手部数据为图像数据时,在手语翻译模块中可以调用OpenCV的resize函数对图像进行调整。将调整后的图像输入到深度卷积神经网络中进行处理。深度卷积神经网络第一层为卷积层,卷积后采用relu函数进行激活,relu函数属于线性分段函数,可以同时降低前向传播计算复杂度和反向传播的梯度的计算复杂度。卷积操作是属于线性操作,通过进行非线性激活,更有效的表达的特征映射关系。将卷积后的结果进行池化操作,通过池化操作,图像的通道数不变,长宽减小,从而抑制过拟合现象。然后对池化后的结果进行局部响应归一化(LRN),进一步提高模型的泛化能力。深度卷积神经网络第二层卷积核进行处理,采用relu函数进行激活,然后使用最大池化方式进行池化操作。最后使用局部响应归一化进行处理。深度卷积神经网络第三层采用relu函数进行激活,然后使用最大池化的方式进行处理,最后使用局部响应归一化进行处理。经过上述三层操作后,再进行四层纯卷积操作,激活函数均为relu函数。将三次卷积操作得到的图像连接到全连接层,全连接层一共两层,每一层的后面都会进行Dropout处理,也就是随机性的忽略某些单元不参与下一步的运算过程。将得到向量输入到第t个时刻的LSTM单元中进行计算,LSTM单元的输出一个方向作为P_t(第t个时刻的预测值),另一个方向作为第t+1个时刻的LSTM单元的输入,与t+1时刻由CNN得到的特征向量一起进行第t+1时刻的预测。LSTM单元的输出结果为一个概率向量,向量维度为所有手语手势的总数,选取概率向量中数值最大的位置对应的手语做为第t个时刻的翻译值。每当第t个时刻的LSTM单元完成输出结果,才会调用VideoCapture获取下一帧的图像重新进行翻译。
根据手语标签形成离散词汇,根据输入的离散词汇结合已有的中文语料数据库,选取相似度最大的模板语料生成初始的句子;通过循环神经网络结构将该句子进行初始化,通过网络迭代进行句子修正,在修正过程中,采用相似词替换方式增加句子的准确性和连贯性。
在本实施例中,为了帮助手部活动不方便的用户或者是地区方言用户,例如对于手指活动不太灵活的聋哑人在做出手语姿态时,可能其本身想表达的意思是“裤子钱多少”,而因为手指无法完全展开,可能会出现翻译的结果为“裤子颜色什么”类似于这样的错误翻译,因此本发明在手语交互系统中增加了用户反馈模块,用户反馈模块是在用户端通过主动输入的形式,将用户认为翻译不准确的信息形成反馈信息上传给反馈信息处理模块。
在用户反馈模块中,用户可以查看手语翻译模块的翻译结果是否为其想表达的意思,如果是,在用户反馈模块中通过添加确认按钮,将翻译结果直接发送至语音输出模块中,向外界输出;若翻译结果存在错误,那么在用户反馈模块中通过添加更正按钮后,用户可以通过外部键盘输入或其他输入方式将其认为是正确的校正信息输出至用户反馈模块中,用户反馈模块将用户的反馈信息进行处理打包后发送给反馈信息处理模块。
在本实施例中,反馈信息处理模块是云端后台通过智能前述智能策略根据不同情况,完成翻译模型的修改,并下发新的翻译模型至手语翻译模块。
在本实施例中,语音输出模块采用语音交互技术,结合用户的输入语言类型的选择来,输出翻译结果,语音输出模块可以采用现有技术中外置SD卡与MP3模块结合的方式,将预先录制好的每种语言所对应的语音存放于SD卡中用于MP3模块根据手势信号来进行选择以及匹配。语音输出模块通过语音生成软件结合语音输出设备进行语言表达,语音输出类型包含但不局限于汉语、英语、日语、韩语等语种。
在本实施例中,用户使用手语交互系统的过程为:用户做出动作后,由手语数据采集模块采集用户的手语数据,由手语翻译模块将手语数据进行翻译,获得翻译结果,将翻译结果展示在用户反馈模块中,用户可以看见翻译结果,并对翻译结果进行判断,如果翻译结果正确,用户通过点击或按键的方式,将翻译结果发送至语音输出模块后,向外部输出;如果翻译结果有误,用户通过点击或按键的方式,翻译结果进行校正后生成反馈信息,用户反馈模块将反馈信息通过网络传输的方式将反馈信息发送到反馈信息处理模型中,反馈信息处理模块根据反馈信息,修改翻译模型的映射关系,例如“x1,x2,x3”的手语数据,未校正之前的翻译结果为“天气”,而用户的反馈信息中,该手语数据对应的意思应该是“夜晚”,那么反馈信息处理模块将“x1,x2,x3”的手语数据的映射关系直接修改为“夜晚”即可,之后将修改后的翻译模型再下发至手语翻译模块中,下次用户再做出“x1,x2,x3”的手语数据时,翻译结果为“夜晚”。
本发明提供的手语交互系统,使得用户在实际使用过程中可对所译内容提出修复,系统可以自动记录该条信息,以便用户下次输入时能给给出正确结果,以此达到用户使用时间越长,输出结果越准确的局面,进而解决了个体差异性的问题,提高了用户手语翻译的准确率,提高了聋哑用户交互的效率。
可选地,用户反馈模块包括翻译结果判断子模块、用户反馈输入子模块、用户反馈信息生成子模块以及用户反馈信息发送子模块;
翻译结果判断子模块用于使用户判断所述输出的翻译结果是否正确;
用户反馈输入子模块用于输入用户的校正信息;
用户反馈信息生成子模块用于将校正信息、翻译结果、手语数据以及其他信息进行整合后,生成反馈信息;
其他信息包括用户的地区、用户的反馈时间、用户的反馈次数以及用户身体缺陷状态;
用户反馈信息发送子模块用于将反馈信息发送至反馈信息处理模块中。
在本实施例中,用户反馈模块可以是一个触摸屏的带有通信功能的手机或者电脑等,也可以是一个具有屏幕显示功能、输入功能和通信功能的电子设备。
翻译结果判断子模块能够使用户接收到翻译结果,用户根据接收到的翻译结果,判断是否为其想要表达的意思,例如翻译结果为“今天天气好”,而用户实际想表达的意思的“今天夜很黑”,那么用户查看了翻译结果后就认为翻译结果有误,那么就可以给出翻译结果有误的反馈后,弹出用户反馈输入的功能;如果翻译结果是正确的,那么直接进入用户反馈输入子模块中,用户反馈子模块可以是外部键盘输入或者手写输入等方式,使用户将正确的校正信息输入至用户反馈模块中,例如将“今天夜很黑”输入至用户反馈模块中,此时再由用户反馈信息生成子模块将手语数据、翻译结果、校正信息以及其他信息进行整合,例如用户在使用过程中发现自身的手势动作转换成语义的过程中有误,可以一键提交翻译错误信息至设备厂商云后台,所提交的信息包含{(X1,W1,Y1),(X2,W2,Y2),…(Xn,Wn,Yn),POS,TIMER,NUM,STATUS},其中{(X1,X2…Xn)表示手语数据,即传感器值,(W1,W2…Wn)表示翻译结果,(Y1,Y2…Yn)表示用户输入的校正信息,其余均为其他信息,例如POS表示用户的籍贯,TIMER表示用户的反馈的时间,NUM表示用户反馈的次数,STATUS表示用户的其他状态(身体不协调性及其他身体缺陷)。
其中,翻译结果判断子模块输出翻译结果可以通过显示翻译结果,来输出,也可以通过语音的形式播放翻译结果,或者在显示的同时以语音的形式播放翻译结果。
可选地,所述的反馈信息处理模块包括个体用户反馈信息处理子模块、地区用户反馈处理子模块以及翻译模型发送模块;
所述的个体用户反馈信息处理子模块用于根据单个用户的反馈信息,更新个人翻译模型,获得更新的个人翻译模型;
所述的地区用户反馈处理子模块用于根据多个处于同一地区的用户的反馈信息,更新地区翻译模型,获得更新的地区翻译模型;
所述的翻译模型发送模块用于将所述更新的个人翻译模型发送至反馈的单个用户的手语翻译模块中;
还用于将所述更新的地区翻译模型发送至同一地区的所有用户的手语翻译模块中。
在本实施例中,将反馈信息处理模块实现的功能分为个人翻译模型的更新以及地区翻译模型的更新。
首先,个人翻译模型的更新是由于某些手部活动不够灵活的用户再作出手语姿态时,无法作出标准的姿态,导致翻译结果出错,因此使用个体用户反馈信息处理子模块对单个用户的翻译模型进行更新调整,将更新后的个人翻译模型再发送回该用户的手语翻译模块中,使得用户在使用本发明提供的手语交互系统的时间越长,个体翻译的准确度越高。
其次,在做手语翻译时候,如果南北方差异比较大,地区之间存在方言不统一的情况,不能用其中一个地方的用户的手语姿态替代另一个地方的手语姿态,这种情况就需要区域性的修正了,当出现这种情况的时候,本发明提供的系统根据多个处于同一地区的用户的反馈信息,构建更新的地区翻译模型,将更新的地区翻译模型发送给本地区的所有用户的手语翻译模块中。
在本实施例中,在对个人翻译模型或者地区翻译模型进行更新的时候,可以采用数据处理的方法,可以将原有翻译模型中的映射关系直接修改为现在用户所需的,也可以是在原有翻译模型中增加一类的映射关系。
本发明提供的根据个人差异或者地区差异对翻译模型进行修改的构架,也可以应用至少数民族的用户群体的翻译模型修改,因为少数民族在民俗方面有自己一些手语姿态,这也需要区域性的修正。
可选地,个体用户反馈信息处理子模块根据单个用户的反馈信息,构建更新的个人翻译模型,包括:
若同一用户对于同一翻译结果的多个反馈信息中,相邻两个反馈信息的反馈时间小于24小时且反馈信息个数大于3,则根据校正信息更新个人翻译模型,获得更新的个人翻译模型;
或
若用户对翻译结果的反馈信息中,用户身体缺陷状态为缺陷状态时,则根据校正信息更新个人翻译模型,获得更新的个人翻译模型。
在本实施例中,个体用户反馈信息处理子模块中根据单个用户的反馈信息进行个人翻译模型进行更新时,采用了两种判断方式,这两种方式是或的关系,也就是说,只要满足其中一个条件,那么就对用户的个人翻译模型进行更新。
第一个是根据用户的急迫性来判断的,例如用户多次反馈了这个翻译结果有误,并且均提供了相同的校正信息,那么个体用户反馈信息处理子模块会根据反馈信息的间隔时间可以判断出用户对于这个调整的急迫性,因此设置了相邻两个反馈信息的反馈时间小于24小时且反馈信息个数大于3的判断条件,当满足这个条件时,个体用户反馈信息处理子模块会对个人翻译模型进行更新,将更新的个人翻译模型下发传输至个人的手语翻译模型中。
第二个是根据用户的状态来判断的,在用户的反馈信息中包括了用户的身体状态,是否具有畸形等,那么个体用户反馈信息处理子模块直接判断用户的反馈信息中用户的身体状态是否为畸形,如果用户存在该种状态,那么无需等待其他判断,认为该用户由于身体上的不灵活,导致用户无法做出正确的手语姿态,因为直接根据用户的反馈信息对用户的个人翻译模型进行更新,将更新的个人翻译模型下发传输至个人的手语翻译模型中。
其中对个人翻译模型进行更新时,可以是通过重新训练神经网络的方式修改模型,也可以是直接修改模型中的映射关系,在本实施例中,为了提高更新的速度,直接调整翻译模型中的映射关系,即{(X1,W1),(X2,W2),…(Xn,Wn)}的映射关系调整为{(X1,Y1),(X2,Y2),…(Xn,Yn)},下次用户再作出这个动作时,翻译结果即为用户的校正信息。
在本实施例中,用户可以针对翻译的内容的不当之处进行修正,经过长时间的佩戴进而形成属于自己的智能手语交互设备。
可选地,所述的地区用户反馈处理子模块用于根据多个处于同一地区的用户的反馈信息,更新地区翻译模型,获得更新的地区翻译模型,包括:
若同一地区的多个用户对于同一翻译结果的反馈信息数量与当前地区的用户数量的比值大于0.8且多个用户对于同一翻译结果的校正信息均相同时,则根据校正信息更新地区翻译模型,获得更新的地区翻译模型。
在本实施例中,若对于同一地区的用户,反应同一类型错误较多,即其中ERROR为当前地区反应错误的总数,TOTAL为当前地区的设备使用数,后台认为此类型的翻译属于地区手语差异导致的错误信息,后台将统一更换该区域用户的区域翻译模型,即将{(X1,W1),(X2,W2),…(Xn,Wn)}的映射关系调整为{(X1,Y1),(X2,Y2),…(Xn,Yn)}。
另外,在本实施例中的按钮可以为实体的物理按键,也可以为虚拟的按键。
在本实施例中,由于不同手语用户个体的差异性,传统的手语识别未能充分考虑该因素,导致用户体验不佳,翻译错误时有发生,本发明提供的系统采用用户自主反馈和云端后台智能判决的方法,解决用户个体差异性的问题,进而达到用户佩戴时间越长,产品本身越定制化的趋势,实现了低成本的定制化开发;由于针对地区差异,即对于“手语方言区”的,采用系统自带的导航定位结合用户位置确认等信息,通过云端后台智能判决的方法,进行区域性的翻译策略下发,解决地区差异性的问题,同时极大的丰富了后台的数据类型。
实施例二
一种自适应手势识别的智能手语交互方法,包括以下步骤:
步骤1、采集当前用户的手语数据,对所述的手语数据进行预处理,获得预处理后的手语数据;
在本步骤中,由于手语数据的种类繁多,可以是数据手套采集的到的运动序列,也可以是采集的图像动作序列,也可以是二者结合等方式,为了提高手语数据采集的准确率,在本步骤中对手语数据进行预处理。
可选地,步骤1.1、采集用户手势动作序列;
在本实施例中,采集用户手势动作序列为{P1,i,j,q,P2,i,j,q,…Pn,i,j,q},其中i表示第i位手语学员,j表示第j个标准动作,q表示第q类型传感器,P1,i,j,q表示动作开始,Pn,i,j,q表示动作截止;
步骤1.2、采用卡尔曼滤波对所述的手势动作序列进行滤波以及重采样,获得预处理后的手势动作序列;
在本实施例中,采用卡尔曼滤波对所述的手势动作序列进行滤波,并按照统一的采样周期K进行重采样,获得预处理后的手势动作序列{S1,i,j,q,S2,i,j,q,…Sn,i,j,q};
步骤1.3、采用加权的方式对所述预处理后的手势动作序列进融合,获得用户的手语数据。
在本实施例中,采用加权计算的方式对所述预处理后的手势动作序列进融合,获得用户的手语数据其中λp为加权系数。
步骤2、将所述的预处理后的手语数据输入至手语翻译模型中,获得翻译结果;
在本步骤中,手语翻译模型是经过多组数据训练过的,能够对手语数据进行分类的网络模型,可以是卷积神经网络、深度卷积神经网络等所有能够实现对数据分类的网络模型。
步骤3、判断所述的翻译结果是否正确,若正确则执行步骤7,否则执行步骤4;
步骤4、根据所述的翻译结果,生成当前用户的反馈信息,所述的反馈信息包括手语数据、翻译结果、校正信息以及其他信息;
所述的其他信息包括用户的地区、用户的反馈时间、用户的反馈次数以及用户身体缺陷状态;
在本实施例中,反馈信息包括:
{(X1,W1,Y1),(X2,W2,Y2),…(Xn,Wn,Yn),POS,TIMER,NUM,STATUS}
其中,{(X1,X2…Xn)表示手语数据,(W1,W2…Wn)表示翻译结果,(Y1,Y2…Yn)表示用户输入的校正信息,POS表示用户的地区,TIMER表示用户的反馈的时间,NUM表示用户反馈的次数,STATUS表示用户的其他状态(身体不协调性及其他身体缺陷)。
步骤5、根据所述的反馈信息对所述的手语翻译模型进行更新,获得更新后的手语翻译模型,包括:
步骤5.1、判断当前用户的反馈信息中用户身体缺陷状态是否为缺陷,若是,则根据校正信息更新手语翻译模型,获得更新后的手语翻译模型,执行步骤6;否则执行步骤5.2;
步骤5.2、根据当前用户的反馈信息中用户的地区,查找该地区所有用户的反馈信息,若该地区中多个用户对于同一翻译结果的反馈信息数量与当前地区的用户数量的比值大于0.8且多个用户对于同一翻译结果的校正信息均相同时,则根据校正信息更新手语翻译模型,获得更新后的手语翻译模型,执行步骤6,否则执行步骤5.3;
步骤5.3、判断当前用户的反馈信息中针对同一翻译结果的反馈信息个数是否大于等于3个,若大于等于则执行步骤5.4;否则不更新手语翻译模型,执行步骤7;
步骤5.4、判断当前用户的反馈信息中针对同一翻译结果的相邻两个反馈信息中的反馈时间是否小于24小时,若小于24小时,则根据校正信息更新手语翻译模型,获得更新后的手语翻译模型,执行步骤6,否则不更新手语翻译模型后,执行步骤7;
在本步骤中,如图2所示,根据用户的反馈信息修改手语翻译模型的时候,通过步骤5.1-5.4的判断步骤,实现了地区翻译模型的更新以及个人翻译模型的更新,当满足以上的条件时,本发明提供的方法会自动更新手语翻译模型。
其中对个人翻译模型进行更新时,可以是通过重新训练神经网络的方式修改模型,也可以是直接修改模型中的映射关系,在本实施例中,为了提高更新的速度,直接调整翻译模型中的映射关系,即{(X1,W1),(X2,W2),…(Xn,Wn)}的映射关系调整为{(X1,Y1),(X2,Y2),…(Xn,Yn)},下次用户再作出这个动作时,翻译结果即为用户的校正信息。
步骤6、将所述更新后的手语翻译模型输入至步骤2中,返回步骤2;
在本步骤中,将用户的手语数据采用更新后的手语翻译模型再重新进行翻译,获得翻译结果。
步骤7、将所述步骤2获得的翻译结果采用语音方式输出。
在本步骤中,将翻译结果以语音的方式输出,语音输出的语言可以是中文、英文或日文等多种语言。
将用户的意思表达以语音的方式表达出来后,完成交互。
Claims (8)
1.一种自适应手势识别的智能手语交互系统,包括手语数据采集模块、手语翻译模块以及语音输出模块,其特征在于,所述的系统还包括用户反馈模块以及反馈信息处理模块;
所述的手语数据采集模块用于采集用户的手语数据;
所述的手语翻译模块用于利用翻译模型对所述的手语数据进行翻译,获得翻译结果;
所述的用户反馈模块用于判断所述翻译结果是否正确,若所述的翻译结果有误,则用户对所述输出的翻译结果进行校正,生成反馈信息;
所述的反馈信息处理模块用于根据所述的反馈信息对所述的翻译模型进行更新,将所述更新后的翻译模型发送至手语翻译模块;
所述的语音输出模块用于输出所述的翻译结果。
2.如权利要求1所述的自适应手势识别的智能手语交互系统,其特征在于,所述的用户反馈模块包括翻译结果判断子模块、用户反馈输入子模块、用户反馈信息生成子模块以及用户反馈信息发送子模块;
所述的翻译结果判断子模块用于使用户判断所述输出的翻译结果是否正确;
所述的用户反馈输入子模块用于输入用户对于翻译结果的校正信息;
所述的用户反馈信息生成子模块用于将所述的校正信息、翻译结果、手语数据以及其他信息进行整合后,生成反馈信息;
所述的其他信息包括用户的地区、用户的反馈时间、用户的反馈次数以及用户自身身体缺陷状态;
所述的用户反馈信息发送子模块用于将所述的反馈信息发送至所述的反馈信息处理模块中。
3.如权利要求2所述的自适应手势识别的智能手语交互系统,其特征在于,所述的反馈信息处理模块包括个体用户反馈信息处理子模块、地区用户反馈处理子模块以及翻译模型发送模块;
所述的个体用户反馈信息处理子模块用于根据单个用户的反馈信息,更新个人翻译模型,获得更新的个人翻译模型;
所述的地区用户反馈处理子模块用于根据多个处于同一地区的用户的反馈信息,更新地区翻译模型,获得更新的地区翻译模型;
所述的翻译模型发送模块用于将所述更新的个人翻译模型发送至反馈的单个用户的手语翻译模块中;
还用于将所述更新的地区翻译模型发送至同一地区的所有用户的手语翻译模块中。
4.如权利要求3所述的自适应手势识别的智能手语交互系统,其特征在于,所述的个体用户反馈信息处理子模块用于根据单个用户的反馈信息,更新个人翻译模型,获得更新的个人翻译模型,包括:
若同一用户对于同一翻译结果的多个反馈信息中,相邻两个反馈信息的反馈时间小于24小时且反馈信息个数大于3,则根据校正信息更新个人翻译模型,获得更新的个人翻译模型;
若用户对翻译结果的反馈信息中,用户身体缺陷状态为缺陷状态时,则根据校正信息更新个人翻译模型,获得更新的个人翻译模型。
5.如权利要求4所述的自适应手势识别的智能手语交互系统,其特征在于,所述的地区用户反馈处理子模块用于根据多个处于同一地区的用户的反馈信息,更新地区翻译模型,获得更新的地区翻译模型,包括:
若同一地区的多个用户对于同一翻译结果的反馈信息数量与当前地区的用户数量的比值大于0.8且多个用户对于同一翻译结果的校正信息均相同时,则根据校正信息更新地区翻译模型,获得更新的地区翻译模型。
6.如权利要求5所述的自适应手势识别的智能手语交互系统,其特征在于,所述的手语数据采集模块包括手语数据采集子模块以及手语数据预处理子模块;
所述的手语数据采集子模块用于采集用户的初始手语数据;
所述的手语数据预处理子模块用于对所述的初始手语数据进行预处理,获得用户的手语数据,包括:
采集用户手势动作序列后,采用卡尔曼滤波对所述的手势动作序列进行滤波后进行重采样,获得预处理后的手势动作序列;
采用加权的方式对所述预处理后的手势动作序列进融合,获得用户的手语数据。
7.一种自适应手势识别的智能手语交互方法,其特征在于,包括以下步骤:
步骤1、采集当前用户的手语数据,对所述的手语数据进行预处理,获得预处理后的手语数据;
步骤2、将所述的预处理后的手语数据输入至手语翻译模型中,获得翻译结果;
步骤3、判断所述的翻译结果是否正确,若正确则执行步骤7,否则执行步骤4;
步骤4、根据所述的翻译结果,生成当前用户的反馈信息,所述的反馈信息包括手语数据、翻译结果、校正信息以及其他信息;
所述的其他信息包括用户的地区、用户的反馈时间、用户的反馈次数以及用户身体缺陷状态;
步骤5、根据所述的反馈信息对所述的手语翻译模型进行更新,获得更新后的手语翻译模型,包括:
步骤5.1、判断当前用户的反馈信息中用户身体缺陷状态是否为缺陷,若是,则根据校正信息更新手语翻译模型,获得更新后的手语翻译模型,执行步骤6;否则执行步骤5.2;
步骤5.2、根据当前用户的反馈信息中用户的地区,查找该地区所有用户的反馈信息,若该地区中多个用户对于同一翻译结果的反馈信息数量与当前地区的用户数量的比值大于0.8且多个用户对于同一翻译结果的校正信息均相同时,则根据校正信息更新手语翻译模型,获得更新后的手语翻译模型,执行步骤6,否则执行步骤5.3;
步骤5.3、判断当前用户的反馈信息中针对同一翻译结果的反馈信息个数是否大于等于3,若大于等于则执行步骤5.4;否则不更新手语翻译模型,执行步骤7;
步骤5.4、判断当前用户的反馈信息中针对同一翻译结果的相邻两个反馈信息中的反馈时间是否小于24小时,若小于24小时,则根据校正信息更新手语翻译模型,获得更新后的手语翻译模型,执行步骤6,否则不更新手语翻译模型,执行步骤7;
步骤6、将所述更新后的手语翻译模型输入至步骤2中,返回步骤2;
步骤7、将所述步骤2获得的翻译结果采用语音方式输出。
8.如权利要求7所述的自适应手势识别的智能手语交互方法,其特征在于,所述的步骤1包括:
步骤1.1、采集用户手势动作序列;
步骤1.2、采用卡尔曼滤波对所述的手势动作序列进行滤波以及重采样,获得预处理后的手势动作序列;
步骤1.3、采用加权的方式对所述预处理后的手势动作序列进融合,获得用户的手语数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910174287.2A CN110008839B (zh) | 2019-03-08 | 2019-03-08 | 一种自适应手势识别的智能手语交互系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910174287.2A CN110008839B (zh) | 2019-03-08 | 2019-03-08 | 一种自适应手势识别的智能手语交互系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110008839A true CN110008839A (zh) | 2019-07-12 |
CN110008839B CN110008839B (zh) | 2023-01-03 |
Family
ID=67166607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910174287.2A Active CN110008839B (zh) | 2019-03-08 | 2019-03-08 | 一种自适应手势识别的智能手语交互系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110008839B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110992783A (zh) * | 2019-10-29 | 2020-04-10 | 东莞市易联交互信息科技有限责任公司 | 一种基于机器学习的手语翻译方法及翻译设备 |
CN111209857A (zh) * | 2020-01-06 | 2020-05-29 | 武汉科技大学 | 一种基于肌电信号的双向递归肌电特征选择方法 |
CN111562815A (zh) * | 2020-05-04 | 2020-08-21 | 北京花兰德科技咨询服务有限公司 | 无线头戴装置及语言翻译系统 |
CN112256827A (zh) * | 2020-10-20 | 2021-01-22 | 平安科技(深圳)有限公司 | 一种手语翻译方法、装置、计算机设备及存储介质 |
CN113220912A (zh) * | 2021-04-07 | 2021-08-06 | 深圳市宝尔爱迪科技有限公司 | 一种交互辅助方法、装置及计算机可读存储介质 |
CN113609922A (zh) * | 2021-07-13 | 2021-11-05 | 中国矿业大学 | 基于模态匹配的连续手语语句识别方法 |
CN116384418A (zh) * | 2023-05-24 | 2023-07-04 | 深圳市微克科技有限公司 | 一种应用智能手表进行翻译的数据处理方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017161741A1 (zh) * | 2016-03-23 | 2017-09-28 | 乐视控股(北京)有限公司 | 聋哑人进行信息交流的方法、装置及智能终端 |
CN108615009A (zh) * | 2018-04-24 | 2018-10-02 | 山东师范大学 | 一种基于动态手势识别的手语翻译交流系统 |
CN108960158A (zh) * | 2018-07-09 | 2018-12-07 | 珠海格力电器股份有限公司 | 一种智能手语翻译的系统和方法 |
-
2019
- 2019-03-08 CN CN201910174287.2A patent/CN110008839B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017161741A1 (zh) * | 2016-03-23 | 2017-09-28 | 乐视控股(北京)有限公司 | 聋哑人进行信息交流的方法、装置及智能终端 |
CN108615009A (zh) * | 2018-04-24 | 2018-10-02 | 山东师范大学 | 一种基于动态手势识别的手语翻译交流系统 |
CN108960158A (zh) * | 2018-07-09 | 2018-12-07 | 珠海格力电器股份有限公司 | 一种智能手语翻译的系统和方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110992783A (zh) * | 2019-10-29 | 2020-04-10 | 东莞市易联交互信息科技有限责任公司 | 一种基于机器学习的手语翻译方法及翻译设备 |
CN111209857A (zh) * | 2020-01-06 | 2020-05-29 | 武汉科技大学 | 一种基于肌电信号的双向递归肌电特征选择方法 |
CN111562815A (zh) * | 2020-05-04 | 2020-08-21 | 北京花兰德科技咨询服务有限公司 | 无线头戴装置及语言翻译系统 |
CN111562815B (zh) * | 2020-05-04 | 2021-07-13 | 北京花兰德科技咨询服务有限公司 | 无线头戴装置及语言翻译系统 |
CN112256827A (zh) * | 2020-10-20 | 2021-01-22 | 平安科技(深圳)有限公司 | 一种手语翻译方法、装置、计算机设备及存储介质 |
WO2021179703A1 (zh) * | 2020-10-20 | 2021-09-16 | 平安科技(深圳)有限公司 | 一种手语翻译方法、装置、计算机设备及存储介质 |
CN113220912A (zh) * | 2021-04-07 | 2021-08-06 | 深圳市宝尔爱迪科技有限公司 | 一种交互辅助方法、装置及计算机可读存储介质 |
CN113609922A (zh) * | 2021-07-13 | 2021-11-05 | 中国矿业大学 | 基于模态匹配的连续手语语句识别方法 |
CN113609922B (zh) * | 2021-07-13 | 2022-05-13 | 中国矿业大学 | 基于模态匹配的连续手语语句识别方法 |
CN116384418A (zh) * | 2023-05-24 | 2023-07-04 | 深圳市微克科技有限公司 | 一种应用智能手表进行翻译的数据处理方法及系统 |
CN116384418B (zh) * | 2023-05-24 | 2023-08-15 | 深圳市微克科技有限公司 | 一种应用智能手表进行翻译的数据处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110008839B (zh) | 2023-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008839A (zh) | 一种自适应手势识别的智能手语交互系统及方法 | |
CN110222653B (zh) | 一种基于图卷积神经网络的骨架数据行为识别方法 | |
CN110021051B (zh) | 一种基于生成对抗网络通过文本指导的人物图像生成方法 | |
He | Research of a sign language translation system based on deep learning | |
CN108351986A (zh) | 学习系统、学习装置、学习方法、学习程序、训练数据生成装置、训练数据生成方法、训练数据生成程序、终端装置以及阈值变更装置 | |
CN107578014A (zh) | 信息处理装置及方法 | |
CN110851760B (zh) | 在web3D环境融入视觉问答的人机交互系统 | |
Rázuri et al. | Automatic emotion recognition through facial expression analysis in merged images based on an artificial neural network | |
CN109711356B (zh) | 一种表情识别方法和系统 | |
CN108764303A (zh) | 一种基于注意力机制的遥感图像自然语言生成方法 | |
CN108805058A (zh) | 目标对象变化姿态识别方法、装置及计算机设备 | |
CN114581502A (zh) | 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质 | |
CN110189397A (zh) | 一种图像处理方法及装置、计算机设备和存储介质 | |
Balasuriya et al. | Learning platform for visually impaired children through artificial intelligence and computer vision | |
CN111354246A (zh) | 一种用于帮助聋哑人交流的系统及方法 | |
WO2021217973A1 (zh) | 情感信息识别方法、装置、存储介质及计算机设备 | |
CN112905762A (zh) | 一种基于同等注意力图网络的视觉问答方法 | |
CN113780059A (zh) | 一种基于多特征点的连续手语识别方法 | |
CN107894834A (zh) | 增强现实环境下控制手势识别方法与系统 | |
CN112668543B (zh) | 一种手模型感知的孤立词手语识别方法 | |
CN114359785A (zh) | 基于自适应矩阵特征融合网络的唇语识别方法、装置及电子设备 | |
CN110472507A (zh) | 基于深度残差网络的人手深度图像位姿估计方法及系统 | |
CN112905750A (zh) | 一种优化模型的生成方法和设备 | |
CN113743247A (zh) | 基于Reders模型的手势识别方法 | |
Rastgoo et al. | All You Need In Sign Language Production |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20221008 Address after: 710199 West House, 6th Floor, National Science and Technology Northwest Building, No. 532, Shenzhou 3rd Road, Xi'an National Civil Aerospace Industry Base, Shaanxi Province Applicant after: SHAANXI LIANSEN ELECTRONIC TECHNOLOGY CO.,LTD. Address before: Room 501, building 2, 239 Shenzhou 4th Road, Xi'an national civil aerospace industry base, Shaanxi 710100 Applicant before: XI'AN YANSHUO INFORMATION TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |