CN110536003B

CN110536003B - 用于帮助聋哑人的sos系统

Info

Publication number: CN110536003B
Application number: CN201910619771.1A
Authority: CN
Inventors: 穆斯塔法; 艾扎达; 李业芃; 姚凯; 阿克巴
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2021-04-06
Anticipated expiration: 2039-07-10
Also published as: CN110536003A

Abstract

一种用于帮助聋哑人的SOS系统，包括两个单色红外摄像头、三个红外LED、用于语音识别的高清电容式麦克风、GPRS实时语音呼叫系统、显示屏和处理器，所述处理器连接两个单色红外摄像头、三个红外LED、用于语音识别的高清电容式麦克风、GPRS实时语音呼叫系统和显示屏，所述处理器中，将用户的标志转换为响应者的音频，并且响应者的语音可以作为实时服务同时为呼叫者签名。本发明能够帮助聋哑人快速无障碍求救。

Description

用于帮助聋哑人的SOS系统

技术领域

本发明涉及一种SOS系统，利用人工智能将任何给定音频内容转换为由3D可定制动画模型的手语，以帮助聋哑人快速无障碍求救。

背景技术

聋哑人无法说话或倾听，这通常由言语障碍或手术导致，而这种不便导致聋哑人在某些社交场合更不愿意说话。气管插管、气管造口术或声带或气管对疾病或创伤的损伤可能会使患者非常沮丧。据统计，10,000人中有8人天生聋哑。但是，世界人口中目前存在多少聋哑人并未有确切数字。聋哑通常是由于受伤或有关布罗卡大脑区域的问题引起的。

当一个人双耳听力阈值均为25dB或更高时，那他就患有听力损失症状。“听力障碍”是指听力损失从轻微到严重的人。聋人大多有严重的听力损失，这意味着他们几乎没有听力。全球约有4.66亿人患有听力损失，超过世界人口的5％。据估计，到2050年，超过9亿人或每10人中就有一人将遭受听力丧失。他们将不得不使用手语进行交流。

因此，当听障人士想要紧急呼叫消防员、警察或者救护车时，问题就出现了。紧急情况下分秒必争，有时事关生死。许多听力障碍或言语障碍的人(聋哑人)发现自己无法在巨大压力和恐慌情况下进行有效沟通。所以应该有像SOS系统这样可以挽救生命的翻译服务。在英国有人可能会说，如果那些聋哑人无法沟通，那么他们可以发短信，使用eSMS联系SOS服务中心；但实际上据紧急文本服务网站(emergency text service website)称：“你(聋哑人)需要大约两分钟的时间来告知他们紧急信息。如果对方在三分钟内没有回复，我们建议您发送另一条消息。”

虽然SOS呼叫的平均应答时间仅为7秒左右，但文本服务与基于语音的服务无法相提并论。聋哑人或任何患有哮喘和呼吸困难症状的人，当他们想要致电急救中心通知警察、救护车或消防服务时，他们都需要立即帮助。

另一方面，SOS信号是一个由三个点，三个破折号和三个点组成的连续莫尔斯代码串，之间没有空格或句号(......---......)。由于在国际摩尔斯电码，三个点标示为“S”而三个破折号标示为“O”，因此为方便起见，因此该信号被称为“SOS”。

作为社区中庞大而重要的组成部分，聋哑人需要特别服务来将手语翻译成音频以及将音频翻译成手语，以帮助他们了解周围发生的事情，特别是在包含音频内容的公共场所。例如警察局、医院和消防和各种紧急服务中心；或者是街道和任何拥挤的地方，又或者是其他任何发生紧急情况需要立即处理的地方。

发明内容

为了克服已有技术聋哑人无法及时实现SOS呼叫的不足,本发明提供了一种可以辅助聋哑人及时实现SOS呼叫的用于帮助聋哑人的SOS系统。

本发明解决其技术问题所采用的技术方案是：

一种用于帮助聋哑人的SOS系统，包括两个单色红外摄像头、三个红外LED、用于语音识别的高清电容式麦克风、GPRS实时语音呼叫系统、显示屏和处理器，所述处理器连接两个单色红外摄像头、三个红外LED、用于语音识别的高清电容式麦克风、GPRS实时语音呼叫系统和显示屏，所述处理器中，将用户的标志转换为响应者的音频，并且响应者的语音可以作为实时服务同时为呼叫者签名。

进一步，所述SOS系统为移动通信终端，适用于Android和iOS操作系统，设定次数摇动后再次摇动移动通信终端启动SOS呼叫。

再进一步，所述移动通信终端还包括用于使用预先训练的模型进行手语和音频转换的模块。

所述模型建立的步骤如下：

1.构建3D动画数据集；

2.模拟到数字转换；

3.无监督学习模型；

4.重复步骤3以达到局部最小误差；

5.转发监督学习模型的内部表示；

6.比较监督学习的估计和实际输出结果；

7.重复步骤5以获得准确有效的输出；

8.将翻译的手语生成为带有标签的动画3D角色；

9.将经过训练的模型导出到独立设备和移动通信终端的App。

在生成不同语言的手语动作后，将这些手语动作存储在存储器中；上述预先训练的模型能够将任何输入音频内容转换为手语。

所述步骤1中，使用两个单色红外摄像机和三个红外LED模拟不同手语(如阿拉伯语，中文，英语和俄语)的所有字母表集，并将其存储在存储器中。

所述步骤2中，使用模数转换器，使用8位脉冲宽度调制，产生数字输入给计算机进行训练，测试和验证；

所述步骤3中，音频比特流转发到自动编码器神经网络的输入层，开始无监督学习，通过对输入内容进行编码并对其进行解码以再次再现它来生成内部表示；

自动编码器是一个三层神经网络：输入，隐藏和输出层，输入层使用instar学习算法来更新其权重，如公式(1)所示：

dw＝lr*a*(p′-w)(1)

输出层使用outstar学习算法，如公式(2)所示：

dw＝lr*(a-w)*p′(2)

其中，dw是权重变化矩阵，lr是学习率，它是可调整的非负因子，a是该层的输出向量，w是权重矩阵，p′是输入向量；

所述步骤4中，重复步骤2，以达到局部最小误差，通过降低平均绝对误差MAE，如公式(3)所示：

error＝output vector-input cue(3)

其中，error是平均绝对误差MAE，output vector是输出向量，input cue是输入向量；

所述步骤5中，在完成无监督学习之后，自动编码器的内部表示已被转发到量子神经网络以进行监督学习；

该网络是三层量子神经网络，使用公式(4)处理自动编码器的内部表示

U_N是qubit的单式矩阵，σ_i是i∈{1，2，3}的Pauli矩阵，即泡利矩阵，σ₀是2×2单位矩阵，a_j是实际输出；

Pauli矩阵，也叫做泡利自旋矩阵，是量子力学中泡利处理自旋时产生的复杂矩阵，该矩阵由等式(5)定义；

其中，σ₀是2×2单位矩阵，σ_i是i∈{1，2，3}的Pauli矩阵；

所述步骤6中，虽然期望的输出是相关输入音频内容的3D动画手语，等式(6)和(7)使用梯度下降算法将其与实际输出进行比较：

其中，

是变化更新量，lr是式(2)中的学习率，

是实际输出值，

是成本函数的偏导值；

其中，C是使用均方误差定义的成本函数，

为实际输出值，

为期望输出值；

所述步骤7中，重复步骤5，以达到最小的全局误差，通过减小等式(7)的均方误差；

所述步骤8中，训练好的模型现在准备好将每个手语关联起来，该手语作为数据库与其相关的输入音频内容一起存储；

所述步骤9中，用户可以自定义他的3D角色(肤色，装扮体形，面部表情，风格等)，以将其作为独立设备或移动通信终端应用程序所导出的3D动画对象。

更进一步，所述处理器为raspberry pi 3B+。

本发明的有益效果主要表现在：能够帮助聋哑人快速无障碍求救。

附图说明

图1是自编码器神经网络(无监督虚学习模型)的示意图。

图2是量子神经网络(监督学习模型)的示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，一种用于帮助聋哑人的SOS系统，包括两个单色红外摄像头、三个红外LED、用于语音识别的高清电容式麦克风、GPRS实时语音呼叫系统、显示屏和处理器，所述处理器连接两个单色红外摄像头、三个红外LED、用于语音识别的高清电容式麦克风、GPRS实时语音呼叫系统和显示屏，所述处理器中，将用户的标志转换为响应者的音频，并且响应者的语音可以作为实时服务同时为呼叫者签名。

所述模型建立的步骤如下：

1.构建3D动画数据集；

2.模拟到数字转换；

3.无监督学习模型；

4.重复步骤3以达到局部最小误差；

5.转发监督学习模型的内部表示；

6.比较监督学习的估计和实际输出结果；

7.重复步骤5以获得准确有效的输出；

8.将翻译的手语生成为带有标签的动画3D角色；

9.将经过训练的模型导出到独立设备和移动通信终端的App。

所述步骤2中，使用模数转换器，使用8位脉冲宽度调制，产生数字输入给计算机进行训练，测试和验证。

所述步骤3中，音频比特流转发到自动编码器神经网络的输入层(图1)，开始无监督学习，通过对输入内容进行编码并对其进行解码以再次再现它来生成内部表示；

dw＝lr*a*(p′-w)(1)

输出层使用outstar学习算法，如公式(2)所示：

dw＝lr*(a-w)*p′(2)

error＝output vector-input cue(3)

所述步骤5中，在完成无监督学习之后，自动编码器的内部表示已被转发到量子神经网络(图2)以进行监督学习；

其中，σ₀是2×2单位矩阵，σ_i是i∈{1，2，3}的Pauli矩阵；

其中，

是变化更新量，lr是式(2)中的学习率，

是实际输出值，

是成本函数的偏导值；

其中，C是使用均方误差定义的成本函数，

为实际输出值，

为期望输出值；

更进一步，所述处理器为raspberry pi 3B+。

本实施例中，使用与前一个模型相同的程序和步骤进行训练，除了步骤2和8，应作如下调整：

第2步：图像处理作为对象检测：

2.1使用两个单色红外摄像机和三个红外LED来补偿背景物体(如头部)和周围环境照明；

2.2跟踪层匹配数据以提取跟踪信息，例如手指和手的位置；

2.3将输入数据生成为向量；

第8步：数模转换器

8.1获取监督输出作为每个输入字母表的标签；

8.2使用文本语音API生成输出音频。

本实施例中，用于帮助聋哑人的SOS系统可以是一款独立的设备，利用太阳能获取清洁能源，由两个单色红外摄像头和三个红外LED提供手势识别功能。它还具有用于语音识别的高清电容式麦克风。该机具有GPRS实时语音呼叫系统和7英寸高清显示屏。内置处理器(raspberry pi 3B+)连接所有终端器件并处理输入/输出信号。硬件平台可以是“锚型”和“移动式”(静态和可移动式)。移动型具有GPS以获得用户的精确坐标。该硬件平台可以将用户的标志转换为响应者的音频，并且响应者的语音可以作为实时服务同时为呼叫者签名。

所述设备为移动通信终端，适用于Android和iOS操作系统。使用方法是三次摇动(可更改)后再次摇动手机。它使用集成的摄像头，麦克风，GPS，GPRS，显示器以及智能手机本身的电源。它要求使用以上设备的许可。此应用程序还使用预先训练的模型进行手语和音频转换。

Claims

1.一种用于帮助聋哑人的SOS系统，其特征在于，包括两个单色红外摄像头、三个红外LED、用于语音识别的高清电容式麦克风、GPRS实时语音呼叫系统、显示屏和处理器，所述处理器连接两个单色红外摄像头、三个红外LED、用于语音识别的高清电容式麦克风、GPRS实时语音呼叫系统和显示屏，所述处理器中，将用户的标志转换为响应者的音频，并且响应者的语音可以作为实时服务同时为呼叫者签名；

所述SOS系统为移动通信终端，适用于Android和iOS操作系统，设定次数摇动后再次摇动移动通信终端启动SOS呼叫；所述移动通信终端还包括用于使用预先训练的模型进行手语和音频转换的模块；

所述模型建立的步骤如下：

1.构建3D动画数据集；

2.模拟到数字转换；

3.无监督学习模型；

4.重复步骤3以达到局部最小误差；

5.在完成无监督学习之后，自动编码器的内部表示已被转发到量子神经网络以进行监督学习；

6.比较监督学习的估计和实际输出结果；

7.重复步骤5以获得准确有效的输出；

8.将翻译的手语生成为带有标签的动画3D角色；

9.将经过训练的模型导出到独立设备和移动通信终端的App；

在生成不同语言的手语动作后，将这些手语动作存储在存储器中；