CN111444791A

CN111444791A - 一种基于计算机视觉的手语翻译系统

Info

Publication number: CN111444791A
Application number: CN202010176300.0A
Authority: CN
Inventors: 郭子睿; 吕昂
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2020-07-24

Abstract

本发明属于手语翻译领域，具体公开了一种基于计算机视觉的手语翻译系统，包括语义库模块、坐标处理模块、数据处理模块、参考系模块、交叉训练模块与采集识别模块，所述语义库模块用于构建语义库，搜集各手语动作，并分析每个动作的关键特征，并以此特征录制视频数据；所述坐标处理模块与语义库模块连接，坐标处理模块关联有openpose模型，openpose模型内左右手各设有21个关键点，坐标处理模块利用openpose模型对每个动作的视频数据进行处理，并获取所述关键点在视频画面中的坐标，并逐帧将画面的点坐标输出，且每个动作得到若干对应的json文件。本发明翻译效率高，通过抽取处理的方式，大幅提高了识别效率，同时采用多帧采集的方式极大地提高了识别的准确度。

Description

一种基于计算机视觉的手语翻译系统

技术领域

本发明涉及手语翻译领域，具体为一种基于计算机视觉的手语翻译系统。

背景技术

手语，作为一种独特的交流方式，已经在无法言语的人身上得到了普遍的使用，通过手势的变化模拟出形象或者音节以构成与人体语言等同的意思或者词语，手语的使用对于促进聋哑人之间的信息沟通具有重要的意义，通过手语能够协助聋哑人重新融入社会，对于社会的和谐发展具有积极的促进作用；比如我国是世界上残疾人数最多的国家，聋哑人约占残疾人总数的33％。生活中手语成为他们的主要交流方式，但在生活中大部分人都不懂手语，通过笔和纸的交流也有着极大的限制，这就导致了聋哑人与正常人存在交流障碍问题；因此实现手语翻译，可以帮助聋哑人克服社交障碍，给他们带来帮助。

现有的手语翻译系统拥有数据量较少，只能翻译少量语句，同时对于多个连续句子的断句处理不太完善，且需要画面比较清晰才可。

发明内容

本发明的目的在于提供一种基于计算机视觉的手语翻译系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于计算机视觉的手语翻译系统，包括语义库模块、坐标处理模块、数据处理模块、参考系模块、交叉训练模块与采集识别模块，所述语义库模块用于构建语义库，搜集各手语动作，并分析每个动作的关键特征，并以此特征录制视频数据；所述坐标处理模块与语义库模块连接，坐标处理模块关联有openpose模型，openpose模型内左右手各设有21个关键点，坐标处理模块利用openpose模型对每个动作的视频数据进行处理，并获取所述关键点在视频画面中的坐标，并逐帧将画面的点坐标输出，且每个动作得到若干对应的json文件；所述数据处理模块与坐标处理模块连接，数据处理模块用于获取json文件并对该json文件进行数据处理，数据处理后形成数据集；所述交叉训练模块与数据处理模块连接，交叉训练模块用于对数据集进行处理，并利用分类算法进行交叉训练，交叉训练后获得机器学习模型。

优选的，数据处理模块对json文件进行数据处理包括：数据处理模块对json文件中的左右手关键点坐标进行数据处理，并转化至参考系模块中，消除在做动作时人与摄像头之间的距离和角度差异而带来的误差，增强数据的鲁棒性。

优选的，分类算法为k均值聚类算法与随机森林算法中任一种。

优选的，采集识别模块与交叉训练模块相关联，采集识别模块包括采集单元、实时处理单元、交叉验证单元与导入单元，采集单元用于实时逐帧捕捉使用者动作，并链接openpose转化为含有关键点坐标信息的数据，实时处理单元用于获取含有关键点坐标信息的数据并对该数据进行转化处理，将数据中的点坐标转化至参考系模块中，并转化为相对坐标。

优选的，交叉验证单元用于调用训练好的机器学习模型进行交叉验证，得到对应编码；所述导入单元用于获取一个语句的连续动作的连续编码导入到seq2seq模型，并转化为语义通顺的句子。

本发明还提供了上述一种基于计算机视觉的手语翻译系统的翻译方法，包括如下步骤：

S1：通过采集单元实时逐帧捕捉使用者动作，并将画面导入openpose，openpose处理转化为含有关键点坐标信息的json文件；

S2：实时处理单元用于读取json文件，并利用算法将关键点信息转化至参考系模块中；

S3：将左右手共42个点的相对坐标与训练好的机器学习模型进行交叉验证预测，并将交叉验证单元输出的语义转换为对应的模型内部的编码；

S4：将一个语句的连续动作的连续编码导入到seq2seq模型，转化为语义通顺的句子，完成翻译。

优选的，S3中交叉验证单元成功识别当前帧手语动作的语义后，采集识别模块会继续采集接下来四到五帧画面并进行手语动作识别，若这些帧的手语动作语义一致，则确认当前动作语义并输出，这种多帧采集的方法极大地提高了识别的准确度。

优选的，S3中，采集识别模块还将每一帧画面关键点矩阵抽象成高维坐标，计算前后两帧画面的欧式距离，去除近似帧。即从一个手部动作保持稳定并被识别开始到使用者的下一个动作被识别之间的若干帧，会被按照算法抽取处理，而不是全部处理，大幅提高了识别效率。

与现有技术相比，本发明的有益效果是：

本发明的手语翻译系统基于计算机视觉，翻译效率高，功能强大，且可翻译大量语句，对于多个连续句子的断句处理完善，识别效率高，通过抽取处理的方式，大幅提高了识别效率，同时采用多帧采集的方式极大地提高了识别的准确度。

附图说明

图1为本发明的结构框图；

图2为本发明机器学习模型的构建流程图；

图3为本发明翻译系统的翻译方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-3，本发明提供一种技术方案：一种基于计算机视觉的手语翻译系统，包括语义库模块、坐标处理模块、数据处理模块、参考系模块、交叉训练模块与采集识别模块，所述语义库模块用于构建语义库，搜集各手语动作，并分析每个动作的关键特征，并以此特征录制视频数据；所述坐标处理模块与语义库模块连接，坐标处理模块关联有openpose模型，openpose模型内左右手各设有21个关键点，坐标处理模块利用openpose模型对每个动作的视频数据进行处理，并获取所述关键点在视频画面中的坐标，并逐帧将画面的点坐标输出，且每个动作得到若干对应的json文件；所述数据处理模块与坐标处理模块连接，数据处理模块用于获取json文件并对该json文件进行数据处理，数据处理后形成数据集；所述交叉训练模块与数据处理模块连接，交叉训练模块用于对数据集进行处理，并利用分类算法进行交叉训练，交叉训练后获得机器学习模型。

在本实施例中，数据处理模块对json文件进行数据处理包括：数据处理模块对json文件中的左右手关键点坐标进行数据处理，并转化至参考系模块中，消除在做动作时人与摄像头之间的距离和角度差异而带来的误差，增强数据的鲁棒性。

在本实施例中，分类算法为k均值聚类算法与随机森林算法中任一种。

在本实施例中，采集识别模块与交叉训练模块相关联，采集识别模块包括采集单元、实时处理单元、交叉验证单元与导入单元，采集单元用于实时逐帧捕捉使用者动作，并链接openpose转化为含有关键点坐标信息的数据，实时处理单元用于获取含有关键点坐标信息的数据并对该数据进行转化处理，将数据中的点坐标转化至参考系模块中，并转化为相对坐标。

在本实施例中，交叉验证单元用于调用训练好的机器学习模型进行交叉验证，得到对应编码；所述导入单元用于获取一个语句的连续动作的连续编码导入到seq2seq模型，并转化为语义通顺的句子。

在本实施例中，S3中交叉验证单元成功识别当前帧手语动作的语义后，采集识别模块会继续采集接下来四到五帧画面并进行手语动作识别，若这些帧的手语动作语义一致，则确认当前动作语义并输出，这种多帧采集的方法极大地提高了识别的准确度。

在本实施例中，S3中，采集识别模块还将每一帧画面关键点矩阵抽象成高维坐标，计算前后两帧画面的欧式距离，去除近似帧。即从一个手部动作保持稳定并被识别开始到使用者的下一个动作被识别之间的若干帧，会被按照算法抽取处理，而不是全部处理，大幅提高了识别效率。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于计算机视觉的手语翻译系统，其特征在于，包括语义库模块、坐标处理模块、数据处理模块、参考系模块、交叉训练模块与采集识别模块，所述语义库模块用于构建语义库，搜集各手语动作，并分析每个动作的关键特征，并以此特征录制视频数据；所述坐标处理模块与语义库模块连接，坐标处理模块关联有openpose模型，openpose模型内左右手各设有21个关键点，坐标处理模块利用openpose模型对每个动作的视频数据进行处理，并获取所述关键点在视频画面中的坐标，并逐帧将画面的点坐标输出，且每个动作得到若干对应的json文件；所述数据处理模块与坐标处理模块连接，数据处理模块用于获取json文件并对该json文件进行数据处理，数据处理后形成数据集；所述交叉训练模块与数据处理模块连接，交叉训练模块用于对数据集进行处理，并利用分类算法进行交叉训练，交叉训练后获得机器学习模型。

2.根据权利要求1所述的一种基于计算机视觉的手语翻译系统，其特征在于，所述数据处理模块对json文件进行数据处理包括：数据处理模块对json文件中的左右手关键点坐标进行数据处理，并转化至参考系模块中，消除在做动作时人与摄像头之间的距离和角度差异而带来的误差，增强数据的鲁棒性。

3.根据权利要求1所述的一种基于计算机视觉的手语翻译系统，其特征在于，所述分类算法为k均值聚类算法与随机森林算法中任一种。

4.根据权利要求1所述的一种基于计算机视觉的手语翻译系统，其特征在于，所述采集识别模块与交叉训练模块相关联，采集识别模块包括采集单元、实时处理单元、交叉验证单元与导入单元，采集单元用于实时逐帧捕捉使用者动作，并链接openpose转化为含有关键点坐标信息的数据，实时处理单元用于获取含有关键点坐标信息的数据并对该数据进行转化处理，将数据中的点坐标转化至参考系模块中，并转化为相对坐标。

5.根据权利要求4所述的一种基于计算机视觉的手语翻译系统，其特征在于，所述交叉验证单元用于调用训练好的机器学习模型进行交叉验证，得到对应编码；所述导入单元用于获取一个语句的连续动作的连续编码导入到seq2seq模型，并转化为语义通顺的句子。

6.根据权利要求1-5任一所述的一种基于计算机视觉的手语翻译系统的翻译方法，其特征在于，包括如下步骤：

7.根据权利要求6所述的一种基于计算机视觉的手语翻译系统的翻译方法，其特征在于，所述S3中交叉验证单元成功识别当前帧手语动作的语义后，采集识别模块会继续采集接下来四到五帧画面并进行手语动作识别，若这些帧的手语动作语义一致，则确认当前动作语义并输出。

8.根据权利要求6所述的一种基于计算机视觉的手语翻译系统的翻译方法，其特征在于，所述S3中，采集识别模块还将每一帧画面关键点矩阵抽象成高维坐标，计算前后两帧画面的欧式距离，去除近似帧。