CN114708648A

CN114708648A - 基于人工智能的手语识别方法及系统

Info

Publication number: CN114708648A
Application number: CN202210217048.2A
Authority: CN
Inventors: 詹金平; 刘飞; 郑旭峰
Original assignee: Hangzhou Yishitong Technology Co ltd
Current assignee: Hangzhou Yishitong Technology Co ltd
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2022-07-05

Abstract

本发明公开了一种基于人工智能的手语识别方法，通过对实时标的视频，进行阶段切割，得到若干个分段视频构成的段落视频组；之后通过获取到段落视频组，对其进行差分截取，根据单帧图片之间的关联情况，去除掉一些表示相同内容的单帧图片，从而避免后续的翻译数据过于庞大，需要匹配的内容过多，便于人工智能快速学习；同时还能够根据目标对象实时表达的内容，进行快速的关联其他动作，便于能够精准的实现辅助翻译，从而为手语动作识别提供了强大的助力；本发明简单有效，且易于使用。

Description

基于人工智能的手语识别方法及系统

技术领域

本发明涉及手语识别技术领域，具体涉及基于人工智能的手语识别方法及系统。

背景技术

公开号为CN111723779A的专利公开了一种基于深度学习的中文手语识别系统。该手语识别系统设为手语单词识别和连续手语识别两个模式，分别用于对手语动作表达的单词和句子进行识别。整个系统由数据采集模块、数据处理模块、识别模块和输出显示模块组成，其中手语单词识别模块由图卷积神经网络和三维卷积神经网络组成，连续手语识别模块由编码器-解码器网络组成。系统通过数据采集模块采集手语动作的图像和关节数据，然后进行预处理，并将数据输入识别模块，最终输出对应的手语单词或者句子。本发明可以将手语转换为文本，促进听力障碍人士和普通人之间的沟通。本发明实用性强，稳定性高，便于推广应用。

但是，当前的手语识别时，若借助人工智能来实现，也是基于一种对人物动作采取图像识别，或者动作匹配的方式来实现，但是当前在手语翻译时，如何精准对手语内容进行断句，同时对冗余的帧数图片去除，避免需要翻译过多的帧数图片这一情况，缺乏一种合理方案，基于此，提供一种解决技术。

发明内容

本发明的目的在于提供基于人工智能的手语识别方法及系统；

本发明的目的可以通过以下技术方案实现：

基于人工智能的手语识别方法及系统，

基于人工智能的手语识别方法，该方法具体包括下述步骤：

步骤一：对实时标的视频，进行阶段切割，得到若干个分段视频构成的段落视频组；

步骤二：获取到段落视频组，进行差分截取，差分截取的具体方式为：

S01：按照顺序选取段落视频组中的分段视频，首先获取到第一个分段视频；此处也是根据分段视频的产生情况处理，没产生一个分段视频时，就进行一次处理；

S02：对分段视频按照帧数获取，获取到一帧帧的图片，将其标记为单帧图片，按照顺序依次融合，得到单帧图片组；

S03：按照顺序选择第一个单帧图片，将其标记为核帧图片，之后获取到下一个单帧图片，将其标记为对象帧图；

S04：将对象帧图与核帧图片进行相似度分析，获取到二者差异部分的面积，得到差异面积；此处计算面积以对应照片内横竖方向上的像素点个数为单位计算；

S05：将差异面积除以核帧图片的面积，得到的值标记为异向占比；

S06：当异向占比低于X2时，产生类除信号；X2为预设数值；

S07：在产生类除信号时，将对应的对象帧图去除；

S08：之后获取到下一个单帧图片，将其标记为对象帧图，重复步骤 S04-S07的方式，对对象帧图进行处理，并根据产生的信号对对象帧图去除或者保留；

S09：重复步骤S08，直到对所有的单帧图片处理完毕，完成单帧图片的删除；将剩余的单帧图片保留，构成新的分段视频，将其标记为差分视频；

S010：持续对所有新产生的分段视频按照步骤S02-S09的原理进行处理，得到每一个处理后的差分视频；

S011：将产生的差分视频融合形成差分视频组。

进一步地，设定一个获取到目标对象手语动作的实时视频，将其标记为实时标的视频。

进一步地，步骤一中的阶段切割具体方式为：

S1：获取到实时标的视频，进行下一步的手语动作判定；

S2：每间隔T1时间截取一次实时标的视频的间断图片，连续获取三张间断图片之后；

S3：聚焦手指部相，手指部相指代为腰部以上的位置图片；

S4：获取到第二张图片与第一张图片之间的差异比，同步获取到第三张图片与第一张图片之间的差异比，若差异比均超过X1，则产生连续信号，否则产生终中断信号；X1为预设数值；

S5：第三张图片为实时最新的图片，差异比为将第二张图片与第一张图片差异部分面积除以第一张图片面积的值；

S6：当产生中断信号时，进行断分，将前面的实时标的视频标记为分段视频；

S7：持续进行步骤S1-S6，对实时标的视频进行处理，得到一个个的分段视频，将若干个分段视频，标记为段落视频组；

S8：得到若干个分段视频构成的段落视频组。

进一步地，在进行完步骤二的处理后，还需进行下述步骤：

步骤三：对差分视频组内每产生的一个差分视频进行识别处理，此处识别借助现有技术实现，同时通过本申请提供的辅助处理算法协同进行精准定位数据库操作，精准定位数据库操作的具体方式为：

SS1：获取到所有的手语数据库，手语数据库即为对应手语动作和对应的翻译文字；

SS2：之后根据现有技术逐步识别双方进行手语聊天的内容，进行文字识别，得到交流文字；

SS3：之后根据交流文字进行语境识别，语境识别的方式为提取到交流文字的关键词，具体通过首先对交流文字进行分词处理，得到若干个交流分词，之后将交流分词中的常用语去除，常用语为用户预先设置的词库；

SS4：之后对剩余的关键词在手语数据库中进行匹配，此处匹配时，会自动将所有能够与关键词构成一句话的手语动作标记为关联动作；

SS5：在持续性的对差分视频进行手语动作识别时，优先将其与关联动作进行匹配，匹配一致时直接获取到对应的翻译文字；

SS6：随用户手语动作的持续做出，持续进行准定位数据库操作，辅助进行快速识别；

SS7：对差分视频翻译完毕，得到实时翻译内容。

进一步地，在进行完步骤三之后，还需进行下述步骤：

步骤四：对实时翻译内容进行自检处理，自检处理具体方式为：

获取到实时翻译内容；

对其进行分词处理，得到若干个词语，将其标记为翻译分词；

之后将翻译分词按照顺序依次放置，获取到第一个翻译分词和第二个翻译分词；

在全网数据内搜索语句，查看在互联网中是否存在任意语句中，存在第一个翻译分词和第二个翻译分词连接在一起的语句，

若存在，不做任何处理，否则产生存疑信号，并将对应的手语动作标记为存疑动作，存疑动作和对应的两个翻译分词组合形成存疑内容；

之后获取到第二个翻译分词和第三个翻译分词，同样按照上述方式进行自检，持续进行，对所有的翻译分词进行处理完毕，获取到所有的存疑内容；

当存疑内容超过X3时，产生出错信号，将对应实时翻译内容的差分视频标记为人工辅助视频；X3为预设值。

进一步地，在进行完步骤四的步骤后，还需进行下述步骤，具体为：

借助人工翻译的方式对人工辅助视频和存疑内容进行翻译。

进一步地，包括处理器和视频获取单元；

视频获取单元，用于获取到目标对象手语动作的实时视频，并将其传输到处理器；

处理器，用于按照前述的基于人工智能的手语识别方法对实时视频进行处理。

本发明的有益效果：

本发明通过对实时标的视频，进行阶段切割，得到若干个分段视频构成的段落视频组；之后通过获取到段落视频组，对其进行差分截取，根据单帧图片之间的关联情况，去除掉一些表示相同内容的单帧图片，从而避免后续的翻译数据过于庞大，需要匹配的内容过多，便于人工智能快速学习；

同时还能够根据目标对象实时表达的内容，进行快速的关联其他动作，便于能够精准的实现辅助翻译，从而为手语动作识别提供了强大的助力；本发明简单有效，且易于使用。

附图说明

下面结合附图对本发明作进一步的说明。

图1为本发明手语识别系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明为基于人工智能的手语识别方法，该方法具体包括下述步骤：

步骤一：设定一个获取到目标对象手语动作的实时视频，将其标记为实时标的视频；

步骤二：之后对实时标的视频，进行阶段切割，阶段切割具体方式为：

S1：获取到实时标的视频，进行下一步的手语动作判定；

S3：聚焦手指部相，手指部相指代为腰部以上的位置图片；获取此部分图片是为了单纯精准的对手指动作进行分析，不会存在其他部分来干扰智能分析；

S8：得到若干个分段视频构成的段落视频组；

步骤三：获取到段落视频组，进行差分截取，差分截取的具体方式为：

S06：当异向占比低于X2时，产生类除信号；X2为预设数值；

S07：在产生类除信号时，将对应的对象帧图去除；

S011：将产生的差分视频融合形成差分视频组；

步骤四：对差分视频组内每产生的一个差分视频进行识别处理，此处识别借助现有技术实现，同时通过本申请提供的辅助处理算法协同进行精准定位数据库操作，精准定位数据库操作的具体方式为：

SS3：之后根据交流文字进行语境识别，语境识别的方式为提取到交流文字的关键词，具体通过首先对交流文字进行分词处理，得到若干个交流分词，之后将交流分词中的常用语去除，常用语为用户预先设置的词库，包括“你好”、“我”等常见词语和一些无实际意义的语气助词；

SS7：对差分视频翻译完毕，得到实时翻译内容；

步骤五：对实时翻译内容进行自检处理，自检处理具体方式为：

获取到实时翻译内容；

当存疑内容超过X3时，产生出错信号，将对应实时翻译内容的差分视频标记为人工辅助视频；X3为预设值；

步骤六：借助人工翻译的方式对人工辅助视频进行翻译。

如图1所示，基于人工智能的手语识别系统，包括处理器和视频获取单元，视频获取单元用于获取到目标对象手语动作的实时视频，并将其传输到处理器，处理器用于按照前述的基于人工智能的手语识别方法对实时视频进行处理。

以上对本发明的一个实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.基于人工智能的手语识别方法，其特征在于，该方法具体包括下述步骤：

S06：当异向占比低于X2时，产生类除信号；X2为预设数值；

S07：在产生类除信号时，将对应的对象帧图去除；

S08：之后获取到下一个单帧图片，将其标记为对象帧图，重复步骤S04-S07的方式，对对象帧图进行处理，并根据产生的信号对对象帧图去除或者保留；

S011：将产生的差分视频融合形成差分视频组。

2.根据权利要求1所述的基于人工智能的手语识别方法，其特征在于，设定一个获取到目标对象手语动作的实时视频，将其标记为实时标的视频。

3.根据权利要求1所述的基于人工智能的手语识别方法，其特征在于，步骤一中的阶段切割具体方式为：

S1：获取到实时标的视频，进行下一步的手语动作判定；

S3：聚焦手指部相，手指部相指代为腰部以上的位置图片；

S8：得到若干个分段视频构成的段落视频组。

4.根据权利要求1所述的基于人工智能的手语识别方法，其特征在于，在进行完步骤二的处理后，还需进行下述步骤：

SS7：对差分视频翻译完毕，得到实时翻译内容。

5.根据权利要求4所述的基于人工智能的手语识别方法，其特征在于，在进行完步骤三之后，还需进行下述步骤：

获取到实时翻译内容；

6.根据权利要求5所述的基于人工智能的手语识别方法，其特征在于，在进行完步骤四的步骤后，还需进行下述步骤，具体为：

借助人工翻译的方式对人工辅助视频和存疑内容进行翻译。

7.基于人工智能的手语识别系统，其特征在于,用于实现如权利要求1-6任一项所述的基于人工智能的手语识别方法，所述手语识别系统包括处理器和视频获取单元。

8.根据权利要求7所述的基于人工智能的手语识别系统，其特征在于：

所述视频获取单元获取到目标对象手语动作的实时视频，并将其传输到处理器；

所述处理器按照基于人工智能的手语识别方法对实时视频进行处理。