CN108831472B - 一种基于唇语识别的人工智能发声系统及发声方法 - Google Patents

一种基于唇语识别的人工智能发声系统及发声方法 Download PDF

Info

Publication number
CN108831472B
CN108831472B CN201810705967.8A CN201810705967A CN108831472B CN 108831472 B CN108831472 B CN 108831472B CN 201810705967 A CN201810705967 A CN 201810705967A CN 108831472 B CN108831472 B CN 108831472B
Authority
CN
China
Prior art keywords
video
module
lip
language
human body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810705967.8A
Other languages
English (en)
Other versions
CN108831472A (zh
Inventor
程德斌
刘学奎
詹羽荣
赵常均
吴迪
赵政
李茵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Intelligent Equipment Research Institute Co ltd
Sun Yat Sen University Cancer Center
Original Assignee
Guangzhou Intelligent Equipment Research Institute Co ltd
Sun Yat Sen University Cancer Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Intelligent Equipment Research Institute Co ltd, Sun Yat Sen University Cancer Center filed Critical Guangzhou Intelligent Equipment Research Institute Co ltd
Priority to CN201810705967.8A priority Critical patent/CN108831472B/zh
Publication of CN108831472A publication Critical patent/CN108831472A/zh
Application granted granted Critical
Publication of CN108831472B publication Critical patent/CN108831472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于唇语识别的人工智能发声系统及发声方法,系统包括:视频采集模块、无线发射模块、中央信号处理模块、无线接收模块、电子发声模块;首先,视频采集模块采集人体对象嘴唇区域的视频;然后,中央信号处理模块对视频信息进行处理,利用人工智能技术分析每段视频所代表的语言信息;最后,电子发声模块根据分析结果信息进行发声。本发明可应用于无喉患者的发声,与现有的电子喉相比有两个显著优点:一是系统采用基于唇语识别的发声方法,使用时不需要手握装置,给用户带来更加舒适的发声体验;二是系统采用电子发声方式进行发声,让声音听起来更加自然。

Description

一种基于唇语识别的人工智能发声系统及发声方法
技术领域
本发明涉及医学仪器领域,特别是涉及一种基于唇语识别的人工智能发声系统及发声方法。
背景技术
全喉切除术后的患者在肿瘤被切除的同时,平时发音的声带也被切除,导致正常的语言交流功能丧失,生活质量大大下降。目前主要的解决方法是让患者使用电子喉,将电子喉的振动头端放置于喉部下方进行发声。这种方式有两个缺点。一是患者使用时需要用手握住电子喉,同时抵住喉部,使用起来不方便;二是电子喉的声音属于金属音,听起来不自然。
发明内容
针对上述不足,本发明提供了一种基于唇语识别的人工智能发声系统及发声方法,其技术方案为:
一种基于唇语识别的人工智能发声系统,包括:视频采集模块、无线发射模块、中央信号处理模块、无线接收模块、电子发声模块。
视频采集模块,用于采集人体对象嘴唇区域的视频;
无线发射模块,用于视频信息传输至中央信号处理模块;
中央信号处理模块,利用人工智能技术分析每段视频信号所代表的语言信息,并输出分析结果;
无线接收模块,用于接收中央信号处理模块的分析结果信息;
电子发声器,用于将分析结果转换成声音。
进一步优选地,所述视频采集模块采集视频的方式包括:彩色相机采集方式、红外相机采集方式、深度相机采集方式。
进一步优选地,所述无线发射模块和无线接收模块包括:4G-LTE模块、5G模块。
一种基于唇语识别的人工智能发声方法,其特征在于,包括以下步骤:
S1.网络模型训练:
S11.采集人体对象嘴唇区域的视频;
S12.对视频进行语言信息标记,形成语言标签;
S13.对视频进行数据预处理,形成输入数据;
S14.重复上述步骤k次,采集k组视频信号;
S15.将输入数据和语音标签输入深度神经网络进行训练,生成网络模型;
S2.语言信息预测
S21.采集人体对象嘴唇区域的视频;
S22.对视频进行数据预处理,形成输入数据;
S23.利用训练好的深度神经网络模型对输入数据进行语言类别的预测,输出分析结果;
S24.将分析结果信号转换成模拟信号,输入电子发声模块进行发声。
进一步优选地,所述S14和S23中的深度神经网络模型包括:
对所述人体对象嘴唇区域的视频进行二维卷积处理,获得视频中唇部的图像特征;
将图像特征输入双向长短时记忆网络BLSTM模型,获得输出结果;
将输入结果输入全连接分类器,获得视频所代表的语言信息分类。
进一步优选地,所述人体对象嘴唇区域的视频进行二维卷积处理,获得视频中唇部的图像特征包括:
对所述人体对象嘴唇区域的视频进行二维卷积处理时,采用VGG网络提取图像特征;
所述步骤S13和S22中的对视频进行数据预处理,形成输入数据包括:
对所输入的视频逐帧进行唇部特征点提取处理,获取唇部图像。
本发明与现有技术相比具有以下优点:
1.与现有技术相比,本发明采用基于唇语识别的发声方法,使用时不需要手握装置,给用户带来更加舒适的发声体验。
2.与现有技术相比,本发明使用电子发声方式进行发声,让声音听起来更自然。
附图说明
图1是本发明的系统框图。
图2是本发明提出发声系统硬件示例图。
图3是本发明提出的深度网络架构图。
具体实施方式
下面结合附图并通过实施例对本发明作进一步的详细说明,以下实施例是对本发明的解释,而本发明并不局限于以下实施例。
如图1所示,本实施例提供了一种基于唇语识别的人工智能发声系统,其特征在于,包括:视频采集模块、无线发射模块、中央信号处理模块、无线接收模块、电子发声模块;
视频采集模块,用于采集人体对象嘴唇区域的视频;本实施例采用固定在特制眼镜镜框上的网络摄像头(如图2),采集嘴唇区域的视频;
无线发射模块,用于视频信息传输至中央信号处理模块;无线接收模块,用于接收中央信号处理模块的分析结果信息;本实施例采用4G-LTE无线模块内置于特制眼镜里面;每个模块都有一个特别的ID,用于识别特定用户;
中央信号处理模块,利用人工智能技术分析每段视频信号所代表的语言信息,并输出分析结果;本实施例采用远程服务器作为中央信号处理模块,远程服务器包括中央处理器,图形处理器,无线网口等。远程服务器可同时处理100个以上的视频信号;
电子发声器,用于将分析结果转换成声音;本实施例的电子发声器固定在特制眼镜末端(如图2)。
本实施例采用基于唇语识别的人工智能发声方法,包括以下步骤:
S1.网络模型训练:
S11.采集人体对象嘴唇区域的视频;
S12.对视频进行语言信息标记,形成语言标签;
用Y={y1,y2,...,ym,...,yi}来记录每个语言标签样本,每个样本对应一个或者多个语言单元。其中ym是一个i维的One-Hot编码向量,本实施例中i=1000;
S13.对视频进行数据预处理,形成输入数据;
S14.重复上述步骤k次,采集k组视频信号;
S15.将输入数据和语音标签输入深度神经网络进行训练,生成网络模型;
S2.语言信息预测
S21.采集人体对象嘴唇区域的视频;
S22.对视频进行数据预处理,形成输入数据;
S23.利用训练好的深度神经网络模型对输入数据进行语言类别的预测,输出分析结果;
S24.将分析结果信号转换成模拟信号,输入电子发声模块进行发声。
本实施例采用的网络模型如图3所示。首先对嘴唇区域的视频进行二维卷积处理,获得视频中唇部的图像特征;然后将图像特征输入双向长短时记忆网络BLSTM模型,获得输出结果;最后将输入结果输入全连接分类器,获得视频所代表的语言信息分类。
本说明书中所描述的以上内容仅仅是对本发明所作的举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离本发明说明书的内容或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (6)

1.一种基于唇语识别的人工智能发声系统,其特征在于,包括:视频采集模块、无线发射模块、中央信号处理模块、无线接收模块、电子发声模块;
视频采集模块,用于采集人体对象嘴唇区域的视频,其中,采用眼镜镜框上的网络摄像头,采集嘴唇区域的视频;
无线发射模块,用于视频信息传输至中央信号处理模块;
中央信号处理模块,利用训练好的深度神经网络模型对视频信息进行语言类别的预测,并输出分析结果;
无线接收模块,用于接收中央信号处理模块的分析结果信息;
电子发声器,用于将分析结果转换成声音,固定在眼镜末端;
所述深度神经网络模型包括卷积模块、双向长短时记忆模块和全连接分类器,卷积模块对所述人体对象嘴唇区域的视频进行二维卷积处理,获得视频中唇部的图像特征;图像特征输入双向长短时记忆模块,获得输出结果;输出结果输入全连接分类器,获得视频所代表的语言信息分类;
所述深度神经网络模型是通过如下方法训练得到的:
采集人体对象嘴唇区域的视频,并对视频进行语言信息标记,形成语言标签,用Y={y1,y2,...,ym,...,yi}来记录每个语言标签样本,每个语言标签样本对应一个或者多个语言单元,其中ym是一个i维的One-Hot编码向量;
对视频进行数据预处理,形成输入数据;
将输入数据和语音标签输入深度神经网络进行训练,生成网络模型。
2.根据权利要求1所述的基于唇语识别的人工智能发声系统,其特征在于,所述的视频采集模块采集视频的方式包括:彩色相机采集方式、红外相机采集方式、深度相机采集方式。
3.根据权利要求1所述的基于唇语识别的人工智能发声系统,其特征在于,所述的无线发射模块和无线接收模块包括:4G-LTE模块、5G模块。
4.一种基于唇语识别的人工智能发声方法,其特征在于,包括以下步骤:
S1.网络模型训练:
S11.采集人体对象嘴唇区域的视频;
S12.对视频进行语言信息标记,形成语言标签,用Y={y1,y2,...,ym,...,yi}来记录每个语言标签样本,每个语言标签样本对应一个或者多个语言单元,其中ym是一个i维的One-Hot编码向量;
S13.对视频进行数据预处理,形成输入数据;
S14.重复上述步骤k次,采集k组视频信号;
S15.将输入数据和语音标签输入深度神经网络进行训练,生成网络模型;
S2.语言信息预测
S21.采集人体对象嘴唇区域的视频;
S22.对视频进行数据预处理,形成输入数据;
S23.利用训练好的深度神经网络模型对输入数据进行语言类别的预测,输出分析结果;
S24.将分析结果信号转换成模拟信号,输入电子发声模块进行发声;
上述方法中,采用眼镜镜框上的网络摄像头,采集嘴唇区域的视频,电子发声器固定在眼镜末端;
所述深度神经网络模型包括卷积模块、双向长短时记忆模块和全连接分类器,卷积模块对所述人体对象嘴唇区域的视频进行二维卷积处理,获得视频中唇部的图像特征;图像特征输入双向长短时记忆模块,获得输出结果;输出结果输入全连接分类器,获得视频所代表的语言信息分类。
5.根据权利要求4所述的方法,其特征在于,所述人体对象嘴唇区域的视频进行二维卷积处理,获得视频中唇部的图像特征包括:
对所述人体对象嘴唇区域的视频进行二维卷积处理时,采用VGG网络提取图像特征。
6.根据权利要求4所述的基于唇语识别的人工智能发声方法,其特征在于,所述步骤S13和S22中的对视频进行数据预处理,形成输入数据包括:
对所输入的视频逐帧进行唇部特征点提取处理,获取唇部图像。
CN201810705967.8A 2018-06-27 2018-06-27 一种基于唇语识别的人工智能发声系统及发声方法 Active CN108831472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810705967.8A CN108831472B (zh) 2018-06-27 2018-06-27 一种基于唇语识别的人工智能发声系统及发声方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810705967.8A CN108831472B (zh) 2018-06-27 2018-06-27 一种基于唇语识别的人工智能发声系统及发声方法

Publications (2)

Publication Number Publication Date
CN108831472A CN108831472A (zh) 2018-11-16
CN108831472B true CN108831472B (zh) 2022-03-11

Family

ID=64135258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810705967.8A Active CN108831472B (zh) 2018-06-27 2018-06-27 一种基于唇语识别的人工智能发声系统及发声方法

Country Status (1)

Country Link
CN (1) CN108831472B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427809B (zh) * 2019-06-21 2023-07-25 平安科技(深圳)有限公司 基于深度学习的唇语识别方法、装置、电子设备及介质
CN110351631A (zh) * 2019-07-11 2019-10-18 京东方科技集团股份有限公司 聋哑人交流设备及其使用方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
WO2013102403A1 (zh) * 2012-01-04 2013-07-11 中国移动通信集团公司 一种音频信号处理方法、装置及终端
CN104966433A (zh) * 2015-07-17 2015-10-07 江西洪都航空工业集团有限责任公司 一种辅助聋哑人对话的智能眼镜
CN105607289A (zh) * 2016-02-15 2016-05-25 深圳市思迪创新科技投资有限公司 改进结构的可折叠式智能眼镜
CN106157750A (zh) * 2016-08-24 2016-11-23 深圳市铁格龙科技有限公司 一种智能聋哑人发音及交流学习眼镜
US9870716B1 (en) * 2013-01-26 2018-01-16 Ip Holdings, Inc. Smart glasses and smart watches for real time connectivity and health

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1556496A (zh) * 2003-12-31 2004-12-22 天津大学 唇形识别发声器
WO2012003602A1 (zh) * 2010-07-09 2012-01-12 西安交通大学 一种电子喉语音重建方法及其系统
CN104504088A (zh) * 2014-12-26 2015-04-08 安徽寰智信息科技股份有限公司 一种用于唇语识别的唇形模型库构建方法
CN104484656A (zh) * 2014-12-26 2015-04-01 安徽寰智信息科技股份有限公司 基于深度学习的唇语识别唇形模型库构建方法
JP6738342B2 (ja) * 2015-02-13 2020-08-12 ヌープル, インコーポレーテッドNoopl, Inc. 聴力を改善するためのシステムおよび方法
CN104808794B (zh) * 2015-04-24 2019-12-10 北京旷视科技有限公司 一种唇语输入方法和系统
CN105807925A (zh) * 2016-03-07 2016-07-27 浙江理工大学 一种基于柔性电子皮肤的唇语识别系统及方法
CN106126507B (zh) * 2016-06-22 2019-08-09 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN106250829A (zh) * 2016-07-22 2016-12-21 中国科学院自动化研究所 基于唇部纹理结构的数字识别方法
CN107799125A (zh) * 2017-11-09 2018-03-13 维沃移动通信有限公司 一种语音识别方法、移动终端及计算机可读存储介质
CN107864353B (zh) * 2017-11-14 2019-10-18 维沃移动通信有限公司 一种视频录制方法及移动终端
CN107992596B (zh) * 2017-12-12 2021-05-18 百度在线网络技术(北京)有限公司 一种文本聚类方法、装置、服务器和存储介质
CN108171164A (zh) * 2017-12-28 2018-06-15 大连医诚医用科技成果转移转化有限公司 唇语与语音交互系统
CN108197572B (zh) * 2018-01-02 2020-06-12 京东方科技集团股份有限公司 一种唇语识别方法和移动终端

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
WO2013102403A1 (zh) * 2012-01-04 2013-07-11 中国移动通信集团公司 一种音频信号处理方法、装置及终端
US9870716B1 (en) * 2013-01-26 2018-01-16 Ip Holdings, Inc. Smart glasses and smart watches for real time connectivity and health
CN104966433A (zh) * 2015-07-17 2015-10-07 江西洪都航空工业集团有限责任公司 一种辅助聋哑人对话的智能眼镜
CN105607289A (zh) * 2016-02-15 2016-05-25 深圳市思迪创新科技投资有限公司 改进结构的可折叠式智能眼镜
CN106157750A (zh) * 2016-08-24 2016-11-23 深圳市铁格龙科技有限公司 一种智能聋哑人发音及交流学习眼镜

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Investigating back propagation neural network for lip reading;Neeru Rathee;《2016 International Conference on Computing, Communication and Automation (ICCCA)》;20170116;全文 *
结合全局词向量特征的循环神经网络语言模型;李华等;《信号处理》;20160625(第06期);全文 *

Also Published As

Publication number Publication date
CN108831472A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
CN112151030B (zh) 一种基于多模态的复杂场景语音识别方法和装置
US7676372B1 (en) Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech
CN103996155A (zh) 智能交互及心理慰藉机器人服务系统
CN111989031B (zh) 远程医疗中症状的实时标注
CN111973178A (zh) 一种脑电信号识别系统及方法
CN108831472B (zh) 一种基于唇语识别的人工智能发声系统及发声方法
Freitas et al. An introduction to silent speech interfaces
CN108648745B (zh) 一种由唇部图像序列到语音编码参数的转换方法
US20240221762A1 (en) System and method for silent speech decoding
CN110348409A (zh) 一种基于声纹生成人脸图像的方法和装置
CN116758451A (zh) 基于多尺度和全局交叉注意力的视听情感识别方法及系统
CN117836823A (zh) 对检测到的无声语音的破译
CN117409121A (zh) 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质
CN114492579A (zh) 情绪识别方法、摄像装置、情绪识别装置及存储装置
Song et al. Decoding silent speech from high-density surface electromyographic data using transformer
CN113241065A (zh) 基于视觉面部轮廓运动的构音障碍语音识别方法及系统
KR20170086233A (ko) 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법
JP2007018006A (ja) 音声合成システム、音声合成方法、音声合成プログラム
WO2024087337A1 (zh) 一种由舌部超声图像直接合成语音的方法
Freitas et al. Multimodal silent speech interface based on video, depth, surface electromyography and ultrasonic doppler: Data collection and first recognition results
CN115472182A (zh) 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置
CN115731917A (zh) 语音数据处理方法、模型训练方法、装置及存储介质
CN208335209U (zh) 听障生融合教育课堂辅助系统及装置
KR20220122141A (ko) 학습데이터 수집장치, 학습데이터 수집방법, 및 음성인식장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant