CN108831472B

CN108831472B - 一种基于唇语识别的人工智能发声系统及发声方法

Info

Publication number: CN108831472B
Application number: CN201810705967.8A
Authority: CN
Inventors: 程德斌; 刘学奎; 詹羽荣; 赵常均; 吴迪; 赵政; 李茵
Original assignee: Guangzhou Intelligent Equipment Research Institute Co ltd; Sun Yat Sen University Cancer Center
Current assignee: Guangzhou Intelligent Equipment Research Institute Co ltd; Sun Yat Sen University Cancer Center
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2022-03-11
Anticipated expiration: 2038-06-27
Also published as: CN108831472A

Abstract

本发明公开了一种基于唇语识别的人工智能发声系统及发声方法，系统包括：视频采集模块、无线发射模块、中央信号处理模块、无线接收模块、电子发声模块；首先，视频采集模块采集人体对象嘴唇区域的视频；然后，中央信号处理模块对视频信息进行处理，利用人工智能技术分析每段视频所代表的语言信息；最后，电子发声模块根据分析结果信息进行发声。本发明可应用于无喉患者的发声，与现有的电子喉相比有两个显著优点：一是系统采用基于唇语识别的发声方法，使用时不需要手握装置，给用户带来更加舒适的发声体验；二是系统采用电子发声方式进行发声，让声音听起来更加自然。

Description

一种基于唇语识别的人工智能发声系统及发声方法

技术领域

本发明涉及医学仪器领域，特别是涉及一种基于唇语识别的人工智能发声系统及发声方法。

背景技术

全喉切除术后的患者在肿瘤被切除的同时，平时发音的声带也被切除，导致正常的语言交流功能丧失，生活质量大大下降。目前主要的解决方法是让患者使用电子喉，将电子喉的振动头端放置于喉部下方进行发声。这种方式有两个缺点。一是患者使用时需要用手握住电子喉，同时抵住喉部，使用起来不方便；二是电子喉的声音属于金属音，听起来不自然。

发明内容

针对上述不足，本发明提供了一种基于唇语识别的人工智能发声系统及发声方法，其技术方案为：

一种基于唇语识别的人工智能发声系统，包括：视频采集模块、无线发射模块、中央信号处理模块、无线接收模块、电子发声模块。

视频采集模块，用于采集人体对象嘴唇区域的视频；

无线发射模块，用于视频信息传输至中央信号处理模块；

中央信号处理模块，利用人工智能技术分析每段视频信号所代表的语言信息，并输出分析结果；

无线接收模块，用于接收中央信号处理模块的分析结果信息；

电子发声器，用于将分析结果转换成声音。

进一步优选地，所述视频采集模块采集视频的方式包括：彩色相机采集方式、红外相机采集方式、深度相机采集方式。

进一步优选地，所述无线发射模块和无线接收模块包括：4G-LTE模块、5G模块。

一种基于唇语识别的人工智能发声方法，其特征在于，包括以下步骤：

S1.网络模型训练：

S11.采集人体对象嘴唇区域的视频；

S12.对视频进行语言信息标记，形成语言标签；

S13.对视频进行数据预处理，形成输入数据；

S14.重复上述步骤k次,采集k组视频信号；

S15.将输入数据和语音标签输入深度神经网络进行训练，生成网络模型；

S2.语言信息预测

S21.采集人体对象嘴唇区域的视频；

S22.对视频进行数据预处理，形成输入数据；

S23.利用训练好的深度神经网络模型对输入数据进行语言类别的预测，输出分析结果；

S24.将分析结果信号转换成模拟信号，输入电子发声模块进行发声。

进一步优选地，所述S14和S23中的深度神经网络模型包括：

对所述人体对象嘴唇区域的视频进行二维卷积处理，获得视频中唇部的图像特征；

将图像特征输入双向长短时记忆网络BLSTM模型，获得输出结果；

将输入结果输入全连接分类器，获得视频所代表的语言信息分类。

进一步优选地，所述人体对象嘴唇区域的视频进行二维卷积处理，获得视频中唇部的图像特征包括：

对所述人体对象嘴唇区域的视频进行二维卷积处理时，采用VGG网络提取图像特征；

所述步骤S13和S22中的对视频进行数据预处理，形成输入数据包括：

对所输入的视频逐帧进行唇部特征点提取处理，获取唇部图像。

本发明与现有技术相比具有以下优点:

1.与现有技术相比，本发明采用基于唇语识别的发声方法，使用时不需要手握装置，给用户带来更加舒适的发声体验。

2.与现有技术相比，本发明使用电子发声方式进行发声，让声音听起来更自然。

附图说明

图1是本发明的系统框图。

图2是本发明提出发声系统硬件示例图。

图3是本发明提出的深度网络架构图。

具体实施方式

下面结合附图并通过实施例对本发明作进一步的详细说明，以下实施例是对本发明的解释，而本发明并不局限于以下实施例。

如图1所示，本实施例提供了一种基于唇语识别的人工智能发声系统，其特征在于，包括：视频采集模块、无线发射模块、中央信号处理模块、无线接收模块、电子发声模块；

视频采集模块，用于采集人体对象嘴唇区域的视频；本实施例采用固定在特制眼镜镜框上的网络摄像头(如图2)，采集嘴唇区域的视频；

无线发射模块，用于视频信息传输至中央信号处理模块；无线接收模块，用于接收中央信号处理模块的分析结果信息；本实施例采用4G-LTE无线模块内置于特制眼镜里面；每个模块都有一个特别的ID，用于识别特定用户；

中央信号处理模块，利用人工智能技术分析每段视频信号所代表的语言信息，并输出分析结果；本实施例采用远程服务器作为中央信号处理模块，远程服务器包括中央处理器，图形处理器，无线网口等。远程服务器可同时处理100个以上的视频信号；

电子发声器，用于将分析结果转换成声音；本实施例的电子发声器固定在特制眼镜末端(如图2)。

本实施例采用基于唇语识别的人工智能发声方法，包括以下步骤：

S1.网络模型训练：

S11.采集人体对象嘴唇区域的视频；

S12.对视频进行语言信息标记，形成语言标签；

用Y＝{y₁,y₂,...,y_m,...,yi}来记录每个语言标签样本，每个样本对应一个或者多个语言单元。其中y_m是一个i维的One-Hot编码向量，本实施例中i＝1000；

S13.对视频进行数据预处理，形成输入数据；

S14.重复上述步骤k次,采集k组视频信号；

S2.语言信息预测

S21.采集人体对象嘴唇区域的视频；

S22.对视频进行数据预处理，形成输入数据；

本实施例采用的网络模型如图3所示。首先对嘴唇区域的视频进行二维卷积处理，获得视频中唇部的图像特征；然后将图像特征输入双向长短时记忆网络BLSTM模型，获得输出结果；最后将输入结果输入全连接分类器，获得视频所代表的语言信息分类。

本说明书中所描述的以上内容仅仅是对本发明所作的举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明说明书的内容或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于唇语识别的人工智能发声系统，其特征在于，包括：视频采集模块、无线发射模块、中央信号处理模块、无线接收模块、电子发声模块；

视频采集模块，用于采集人体对象嘴唇区域的视频，其中，采用眼镜镜框上的网络摄像头，采集嘴唇区域的视频；

无线发射模块，用于视频信息传输至中央信号处理模块；

中央信号处理模块，利用训练好的深度神经网络模型对视频信息进行语言类别的预测，并输出分析结果；

电子发声器，用于将分析结果转换成声音，固定在眼镜末端；

所述深度神经网络模型包括卷积模块、双向长短时记忆模块和全连接分类器，卷积模块对所述人体对象嘴唇区域的视频进行二维卷积处理，获得视频中唇部的图像特征；图像特征输入双向长短时记忆模块，获得输出结果；输出结果输入全连接分类器，获得视频所代表的语言信息分类；

所述深度神经网络模型是通过如下方法训练得到的：

采集人体对象嘴唇区域的视频，并对视频进行语言信息标记，形成语言标签，用Y＝{y₁,y₂,...,y_m,...,yi}来记录每个语言标签样本，每个语言标签样本对应一个或者多个语言单元，其中y_m是一个i维的One-Hot编码向量；

对视频进行数据预处理，形成输入数据；

将输入数据和语音标签输入深度神经网络进行训练，生成网络模型。

2.根据权利要求1所述的基于唇语识别的人工智能发声系统，其特征在于，所述的视频采集模块采集视频的方式包括：彩色相机采集方式、红外相机采集方式、深度相机采集方式。

3.根据权利要求1所述的基于唇语识别的人工智能发声系统，其特征在于，所述的无线发射模块和无线接收模块包括：4G-LTE模块、5G模块。

4.一种基于唇语识别的人工智能发声方法，其特征在于，包括以下步骤：

S1.网络模型训练：

S11.采集人体对象嘴唇区域的视频；

S12.对视频进行语言信息标记，形成语言标签，用Y＝{y₁,y₂,...,y_m,...,yi}来记录每个语言标签样本，每个语言标签样本对应一个或者多个语言单元，其中y_m是一个i维的One-Hot编码向量；

S13.对视频进行数据预处理，形成输入数据；

S14.重复上述步骤k次,采集k组视频信号；

S2.语言信息预测

S21.采集人体对象嘴唇区域的视频；

S22.对视频进行数据预处理，形成输入数据；

S24.将分析结果信号转换成模拟信号，输入电子发声模块进行发声；

上述方法中，采用眼镜镜框上的网络摄像头，采集嘴唇区域的视频，电子发声器固定在眼镜末端；

所述深度神经网络模型包括卷积模块、双向长短时记忆模块和全连接分类器，卷积模块对所述人体对象嘴唇区域的视频进行二维卷积处理，获得视频中唇部的图像特征；图像特征输入双向长短时记忆模块，获得输出结果；输出结果输入全连接分类器，获得视频所代表的语言信息分类。

5.根据权利要求4所述的方法，其特征在于，所述人体对象嘴唇区域的视频进行二维卷积处理，获得视频中唇部的图像特征包括：

对所述人体对象嘴唇区域的视频进行二维卷积处理时，采用VGG网络提取图像特征。

6.根据权利要求4所述的基于唇语识别的人工智能发声方法，其特征在于，所述步骤S13和S22中的对视频进行数据预处理，形成输入数据包括：