CN116524791A - 一种基于元宇宙的唇语学习辅助训练系统及其应用 - Google Patents
一种基于元宇宙的唇语学习辅助训练系统及其应用 Download PDFInfo
- Publication number
- CN116524791A CN116524791A CN202310371018.1A CN202310371018A CN116524791A CN 116524791 A CN116524791 A CN 116524791A CN 202310371018 A CN202310371018 A CN 202310371018A CN 116524791 A CN116524791 A CN 116524791A
- Authority
- CN
- China
- Prior art keywords
- lip
- user
- module
- meta
- universe
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 125
- 230000006854 communication Effects 0.000 claims abstract description 54
- 238000004891 communication Methods 0.000 claims abstract description 53
- 230000000694 effects Effects 0.000 claims abstract description 29
- 208000032041 Hearing impaired Diseases 0.000 claims description 31
- 238000007781 pre-processing Methods 0.000 claims description 17
- 230000015572 biosynthetic process Effects 0.000 claims description 14
- 238000003786 synthesis reaction Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 8
- 238000000034 method Methods 0.000 claims description 8
- 208000016354 hearing loss disease Diseases 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 abstract description 3
- 230000003993 interaction Effects 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 230000008451 emotion Effects 0.000 description 8
- 230000033001 locomotion Effects 0.000 description 8
- 206010011878 Deafness Diseases 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 239000008186 active pharmaceutical agent Substances 0.000 description 4
- 239000005020 polyethylene terephthalate Substances 0.000 description 4
- 210000003477 cochlea Anatomy 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 229920000139 polyethylene terephthalate Polymers 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241001672694 Citrus reticulata Species 0.000 description 1
- 229920004934 Dacron® Polymers 0.000 description 1
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 1
- 241001122315 Polites Species 0.000 description 1
- 206010042345 Subcutaneous haematoma Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000000860 cochlear nerve Anatomy 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 210000001097 facial muscle Anatomy 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 238000002513 implantation Methods 0.000 description 1
- 208000022760 infectious otitis media Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000011089 mechanical engineering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000009323 psychological health Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
- G09B21/009—Teaching or communicating with deaf persons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Educational Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Signal Processing (AREA)
- Educational Administration (AREA)
- Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于元宇宙的唇语学习辅助训练系统及其应用,其中系统包括:唇读训练模块,用于存储标准唇形视频,建立元宇宙学习场景,使得用户在元宇宙学习场景中通过标准唇形视频进行唇读训练,计算用户唇读的文本和标准唇形视频的文本之间的相似度;虚拟人对答沟通模块,用于建立元宇宙社交场景,使得用户在元宇宙社交场景中与虚拟人进行对答沟通;用户个人中心模块,用于记录和反馈用户的唇读训练效果,将用户的音频与人脸结合形成用户的虚拟形象,使得用户在元宇宙社交场景中以虚拟形象与其他用户进行对答沟通。本发明系统可以提高唇语学习的准确率,及时反馈学习效果,互动性强,学习辅助方式多样,使用户通过系统辅助增强沟通能力。
Description
技术领域
本发明属于唇语学习领域,更具体地,涉及一种基于元宇宙的唇语学习辅助训练系统及其应用。
背景技术
听障人士是社会不可或缺的一份子,过去为了帮助听障人士更好地融入社会生活,已经进行了大量的工作。但这些成果或需要复杂昂贵的设备,或使用困难、得不到广泛应用,此外以往的成果普遍缺乏对听障人士心灵上的关怀,辅助聋哑人融入社会,难以有效解决问题。因此,建设一套设备简单、操作便捷、容易掌握、提供人文关怀的听障辅助系统,对听障人士生活质量、社会参与度、幸福感的提高起到十分重要的作用。
现有的辅助硬件系统包括:
(1)手语翻译手套
a.通过手套关节处的五个用于采集关节运动状态的传感器,经过柔性电路模块处理后实现简单的信息输出,能够通过手势运动实现特定信息的采集,并经由柔性电路模块将信号进行处理和识别,并通过无线通信模块将识别后的信息发送出去,被终端设备接收并通过画面或者音频形式显示。
b.优点:设备较为轻便,对正常工作生活影响较小。
c.缺点:学习手语的成本,相较于健全人在交流时可以使用手势动作作为辅助,更好地表达信息,手语的使用限制了用户在交流过程中的手势表达。另外,受限于手语在普通人群中的低普及率,手语的标准不统一,限制了交流对象。
(2)语音识别设备
a.科大讯飞、微软、百度等。
b.优点:能方便地实现正常人向聋哑人表达。
c.缺点:只能提高正常人向聋哑人表达时的效率,难以解决聋哑人与正常人沟通困难的问题,聋哑人仍需要使用打字、手语等方式来表达自己,限制了沟通效率。
(3)人工耳蜗
a.Cochlear、力声特、诺尔康。
b.优点:由体外言语处理器将声音转换为一定编码形式的电信号,通过植入体内的电极系统,直接兴奋听神经来恢复或重建聋人的听觉功能,能够与正常人沟通交流。
c.缺点:人工耳蜗的仪器需要定期的保养和清理,且使用寿命有限,需要通过手术的方式进行安装,风险高且花销庞大。而且植入人工耳蜗会引起一系列的并发症,比如皮下血肿,急性中耳炎等,给患者带来更多的痛苦。
(4)助听器
a.爱可声、爱思华。
b.优点:小型扩音器,把原本听不到的声音加以扩大,再利用听障者的残余听力,使声音能送到大脑听觉中枢,从而感受到声音。
c.缺点:用来提高听力的一种设备,如果使用者彻底丧失听力,则该产品无效,对使用群体存在限制;其次,扩大有效的声音的同时,噪音也会扩大,使用者会听到很多杂音噪音,无法在全场景下保证使用效果。
经调查,目前市面上存在的与唇语识别相关的系统主要分为纯粹唇语识别系统和唇语教学辅助系统两种。
纯粹唇语识别系统主要针对公共安全、残障教育、身份识别这几大应用场景,推出了以唇语识别技术为核心的系统。目前国内主要有搜狗推出的唇语识别系统,通过app结合手机摄像头捕捉使用者的唇形,期望在未来将技术移植,拓展到更多领域;清华机械工程智能系联合生物机械团队推出了一种新颖的唇语解读系统,通过柔性传感器感知唇部动作,在排除摄像头带来的角度,光线,遮挡等外部环境影响因素后,能够较为准确的通过识别人体面部肌肉运动进行唇语识别;海云数据结合大数据可视化分析以及AI技术也推出了一套唇语识别系统的构想,进军公安部门的无声数据识别任务。纯粹唇语识别系统主要追求的是获得唇部信息,达到唇语转换为文字或转换为接收者能理解的信息的目的,这样的系统主要关注的是唇语识别技术的准确度,并不构成一个完整的人机交互生态系统。这类系统缺乏人机的互动性,而且目前缺乏针对听障人士训练的应用场景,不能够提供听障人士所需要的训练和辅助教学,只能够进行唇形和文字的转换,不能从根本上解决听障人士存在的问题。
唇语教学辅助系统主要针对残障教育这一应用场景,推出了以标准数据库为核心的教学辅助系统,目前国内已有公司提出“三维唇语互动教学系统”,系统囊括了包含文字,词汇,唇形的三大内容的知识库,通过三维动画给学生展示和演绎标准的唇形和必要的语义知识,残障学员将可以通过对照标准知识库来辅助自己的唇语学习。目前推出的唇语教学系统主要提供的是标准的唇形库,但缺少人机互动,学员无法通过该系统得到反馈,从而无法得知自己的唇形是对是错,对学习的辅助效果不强。由于缺乏互动,系统的教学模式呆板,无异于照本宣科,听障人士本身的情感辅助需求没能得到满足。
综合来看,现有唇语学习技术存在准确率低、反馈不及时、缺少与用户的互动、用户难以通过系统辅助增强自己现实中沟通能力的技术问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于元宇宙的唇语学习辅助训练系统及其应用,由此解决现有唇语学习技术存在准确率低、反馈不及时、缺少与用户的互动、用户难以通过系统辅助增强自己现实中沟通能力的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于元宇宙的唇语学习辅助训练系统,包括:唇读训练模块、虚拟人对答沟通模块和用户个人中心模块;
所述唇读训练模块,用于存储预先采集的标准唇形视频,建立元宇宙学习场景,使得用户在元宇宙学习场景中通过标准唇形视频进行唇读训练,从用户通过标准唇形视频进行唇读训练时的唇语学习视频中识别用户唇读的文本,计算用户唇读的文本和标准唇形视频的文本之间的相似度,通过相似度判断用户的唇读训练效果;
所述虚拟人对答沟通模块,用于建立元宇宙社交场景,从用户在元宇宙社交场景中讲话的视频中识别社交文本,将社交文本在对答过程的回答文本转化为音频后与人脸结合形成虚拟人,使得用户在元宇宙社交场景中与虚拟人进行对答沟通;
所述用户个人中心模块,用于记录和反馈用户的唇读训练效果,将用户的音频与人脸结合形成用户的虚拟形象,使得用户在元宇宙社交场景中以虚拟形象与使用唇语学习辅助训练系统的其他用户进行对答沟通。
进一步地,所述唇读训练模块包括:视频预处理模块、唇语识别模块和反馈模块,
所述视频预处理模块,用于存储预先采集的多语种下的标准唇形视频,将各语种下的标准唇形视频剪辑为单词模式和句子模式下的标准唇形视频;
所述唇语识别模块,用于从用户通过不同语种下单词模式或句子模式的标准唇形视频进行唇读训练时的唇语学习视频中识别用户唇读的文本;
所述反馈模块,用于计算用户唇读的文本和标准唇形视频的文本之间的相似度,反馈至用户个人中心模块。
进一步地,所述唇读训练模块还包括:唇语识别模型,
所述唇语识别模型包括前端特征提取网络和后端分类网络,通过如下方式训练得到:
获取视频帧中人脸图像及其真实唇部语言,提取人脸图像的唇部区域,组成ROI序列,将ROI序列以及差分后ROI序列分别输入前端特征提取网络的两个分支,输出拼接差分特征的唇部区域特征,将拼接差分特征的唇部区域特征输入后端分类网络,输出预测字符,以预测字符与真实唇部语言之间的误差最小为目标训练至收敛,得到唇语识别模型;
所述视频帧为不同语种的视频帧,最终得到不同语种的唇语识别模型;
所述唇语识别模块,用于使用某一语种的唇语识别模型从用户通过该语种下单词模式或句子模式的标准唇形视频进行唇读训练时的唇语学习视频中识别用户唇读的文本。
进一步地,所述虚拟人对答沟通模块包括:虚拟人形成模块和对话机器人,
所述虚拟人形成模块,用于调用唇语识别模型从用户在元宇宙社交场景中讲话的视频中识别社交文本,将社交文本输入对话机器人,将对话机器人输出的回答文本转化为音频后与人脸结合形成虚拟人。
进一步地,所述虚拟人形成模块包括语音合成模块和动画生成模块,
所述语音合成模块,用于将对话机器人输出的文本通过语音合成软件合成音频;
所述动画生成模块,用于使用说话人脸生成模型将音频与人脸结合,形成虚拟人;其中,说话人脸生成模型包括编码器、解码器和口型判别器,说话人脸生成模型通过如下方式训练得到:
将样本语音片段转换为梅尔频谱形式,通过编码器中的残差卷积将梅尔频谱形式的样本语音片段编码为预处理音频,通过编码器中的残差卷积对样本人脸图片下采样,得到预处理人脸图片,通过解码器中的转置卷积将预处理音频和预处理人脸图片解码,形成虚拟人;口型判别器通过两个卷积网络分别对虚拟人的口型和音频编码,以编码后的口型与预处理人脸图片中口型之间误差最小且编码后的音频与预处理音频之间误差最小为目标,训练至收敛,得到训练好的说话人脸生成模型。
进一步地,所述对话机器人为个性化调整的对话机器人,所述对话机器人通过如下方式进行个性化调整:
收集心理咨询师或者听障学校教师的对话文本,在用户与对话机器人对话前,将对话文本输入ChatGPT、文心一言、微信虫洞助手、聊天机器人PET、聊天机器人Bard或者聊天机器人MOSS,指导对话机器人扮演心理咨询师或者听障学校教师的角色。
进一步地,所述唇语学习辅助训练系统还包括:元宇宙场景建立模块,
所述元宇宙场景建立模块,用于使用Multispace多元空间或者百度希壤元宇宙底座MetaStack建立元宇宙场景;
所述唇读训练模块,用于调用元宇宙场景建立模块建立元宇宙学习场景;
所述虚拟人对答沟通模块,用于调用元宇宙场景建立模块建立不同的元宇宙社交场景;
所述虚拟人形成模块,用于将用户在不同的元宇宙社交场景中讲话的视频中识别社交文本,将社交文本输入对话机器人,将对话机器人输出的回答文本转化为音频后与人脸结合形成不同元宇宙社交场景下的虚拟人,使得用户在不同的元宇宙社交场景中与对应元宇宙社交场景下的虚拟人进行对答沟通。
进一步地,所述用户个人中心模块,用于存储并管理用户使用唇语学习辅助训练系统进行唇语学习的视频数据,调用虚拟人形成模块将用户的音频与人脸结合形成用户的虚拟形象,调用元宇宙社交场景建立模块建立用户的元宇宙私人空间,使得用户与使用唇语学习辅助训练系统的其他用户在元宇宙私人空间交流。
按照本发明的另一方面,提供了一种基于元宇宙的唇语学习辅助训练系统的应用,所述唇语学习辅助训练系统应用于辅助听障人士进行唇语学习,听障人士作为唇语学习辅助训练系统的用户,从唇读训练模块中选择标准唇形视频在元宇宙学习场景中进行唇读训练,并通过唇读训练模块输出的相似度判断用户的唇读训练效果;用户从虚拟人对答沟通模块中选择虚拟人,用户在元宇宙社交场景中与虚拟人进行对答沟通;用户选择用户个人中心模块定制虚拟形象,在元宇宙社交场景中以虚拟形象与使用唇语学习辅助训练系统的其他用户进行对答沟通。
按照本发明的另一方面,提供了一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现一种基于元宇宙的唇语学习辅助训练系统的处理步骤。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明首次将虚拟场景和虚拟人技术运用于唇语辅助系统,增加系统交互性。本发明中唇读训练模块为用户提供元宇宙学习场景和标准唇形视频进行唇读训练,虚拟人对答沟通模块为用户提供元宇宙社交场景,使得用户在元宇宙社交场景中与虚拟人进行对答沟通,用户个人中心模块可以使用户在元宇宙社交场景中以虚拟形象与使用唇语学习辅助训练系统的其他用户进行对答沟通,本发明系统为用户提供了多种学习唇语的方式与场景,学习辅助方式多样,由此提高唇语学习的准确率,使得用户通过系统辅助增强自己现实中的沟通能力。通过相似度可以及时反馈用户的唇读训练效果。在虚拟人对答沟通模块中,用户可以进入元宇宙社交场景,沉浸在氛围中去触发和虚拟人的对话,一方面,这更能引起用户的兴趣,增长用户唇语运用的时间,有助于用户对唇语的掌握更进一步;另一方面,用户可以沉浸在虚拟空间中,更无负担地尝试开口交流,随时随地的良性社交活动有利于增加用户练习并使用唇语的动力。在用户个人中心模块,用户可以定制个人虚拟形象,了解学习效果,增加其他用户的互动。
(2)本发明通过视频预处理模块为用户提供不同语种以及不同学习模式的视频进行唇语学习,提供了多种学习内容,扩大了唇语学习辅助训练系统的受众群体。本发明中唇语识别模型的训练数据为不同语种的视频帧,由此得到不同语种的唇语识别模型,这样在进行不同语种的唇语识别时可以提高准确率。本发明在训练时,将ROI序列以及差分后ROI序列分别输入前端特征提取网络的两个分支,保留原来的输入部分,用一个新的分支对差分后的数据进行特征提取,并且最后对两者进行相加操作,融合两者的信息,从而在提取到每一帧特征的同时,增强模型对运动特征的捕捉能力。使得本发明可以在非限制性环境中仍然准确识别唇语。同时本发明先训练后识别的方式,模型识别准确率高,识别效率高,泛化性能较好。
(3)本发明虚拟人形成模块从用户在元宇宙社交场景中讲话的视频中识别社交文本,将社交文本输入对话机器人,将对话机器人输出的回答文本转化为音频后与人脸结合形成虚拟人。由此形成元宇宙社交场景下具有针对该场景进行应答的虚拟人,可以与用户更好的沟通,提升用户体验。在合成虚拟人时,通过口型判别器减小口型和音频误差,提升口型效果,解决过去模型生成口型效果不理想的问题。
(4)本发明中对话机器人可以通过对多种现有的机器人进行个性化调整,指导对话机器人模拟心理咨询师或者听障学校教师,针对听障人士的需求做定制化,以更好地满足听障人士的心理需求。在满足日常交流的同时,为听障人士提供心理安抚、心理支持,为他们减轻压力、恢复自信保护听障人士的心理健康。
(5)本发明可以通过多种方式建立元宇宙场景,唇读训练模块、虚拟人对答沟通模块和用户个人中心模块均可以调用元宇宙场景建立模块建立所需的虚拟场景。虚拟人对答沟通模块调用元宇宙场景建立模块建立不同的元宇宙社交场景,虚拟人形成模块为不同的元宇宙社交场景形成不同的虚拟人。用户可以选择任一场景,沉浸式融入其中,与场景中的各个虚拟人物对话,无形中进行唇语练习。元宇宙社交场景为用户提供了一种全新的沟通方式和沟通体验,让用户可以沉浸在虚拟空间中,更无负担地尝试开口交流,更自然地进行社交活动。随时随地可以进行的元宇宙社交活动也更有利于促进听障群体唇形纠正与唇语练习,提高听障群体的唇语训练动力,以至良性循环。
(6)本发明中用户个人中心模块可以存储和管理数据,查看用户练习时长和查看用户练习效果。该模块可以帮助用户更了解自己的学习进度和学习情况。定制个人虚拟形象,建立元宇宙私人空间,构建属于用户个人的社交场景,使得用户与使用唇语学习辅助训练系统的其他用户在元宇宙私人空间交流,打造元宇宙下的全新社交场景。
(7)本发明设计的唇语学习辅助训练系统应用于辅助听障人士进行唇语学习,在唇语训练模块中,用户可以观看学习标准唇形视频的唇形,以此模仿唇形,练习唇语发声。用户通过对比自己与标准的唇部运动,不断练习提高唇读准确率。在虚拟人对答沟通模块中,系统基于虚拟人搭建了一个沟通平台,用户可以在此与虚拟人进行对话。用户可以沉浸在虚拟空间中,更无负担地尝试开口交流,随时随地的良性社交活动有利于增加用户练习并使用唇语的动力。在用户个人中心模块,用户可以根据自己的形象个性化制定虚拟人形象,查看用户练习效果。用户可以通过系统辅助增强自己现实中沟通能力。
附图说明
图1是本发明实施例提供的整个系统以及系统内部模块的架构图;
图2是本发明实施例提供的唇读训练模块的内部逻辑流程图;
图3是本发明实施例提供的虚拟人对答沟通模块的内部逻辑流程图;
图4是本发明实施例提供的虚拟人技术实现的逻辑流程图;
图5是本发明实施例提供的用户个人中心模块的内部逻辑流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,一种基于元宇宙的唇语学习辅助训练系统,其特征在于,包括:唇读训练模块、虚拟人对答沟通模块和用户个人中心模块;
所述唇读训练模块,用于存储预先采集的标准唇形视频,建立元宇宙学习场景(教室、书房、图书馆或者办公室),使得用户在元宇宙学习场景中通过标准唇形视频进行唇读训练,从用户通过标准唇形视频进行唇读训练时的唇语学习视频中识别用户唇读的文本,计算用户唇读的文本和标准唇形视频的文本之间的相似度,通过相似度判断用户的唇读训练效果;
所述虚拟人对答沟通模块,用于建立元宇宙社交场景,从用户在元宇宙社交场景中讲话的视频中识别社交文本,将社交文本在对答过程的回答文本转化为音频后与人脸结合形成虚拟人,使得用户在元宇宙社交场景中与虚拟人进行对答沟通;
所述用户个人中心模块,用于记录和反馈用户的唇读训练效果,将用户的音频与人脸结合形成用户的虚拟形象,使得用户在元宇宙社交场景中以虚拟形象与使用唇语学习辅助训练系统的其他用户进行对答沟通。
实施例1
通过实施例1详细记载用户使用唇语学习辅助训练系统的情况。
用户进入系统后进行功能模块的选择,可以选择进入唇读训练模块、虚拟人对答沟通模块和用户个人中心模块中的任一模块。
用户进入唇读训练模块,唇读训练模块中预先采集的标准唇形视频保存在数据库中,用户在元宇宙学习场景中通过标准唇形视频进行唇读训练录制的唇语学习视频经过用户同意也保存于数据库。本发明系统在硬件上可以是一种带有摄像头的VR眼镜,能够显示3D全景的同时能够录制使用者的面部表情,捕捉使用者面部动作,由此进行自身录像,得到用户的唇语学习视频。从唇语学习视频中识别用户唇读的文本,计算用户唇读的文本和标准唇形视频的文本之间的相似度。当相似度小于预设值时,用户不断在元宇宙学习场景中通过标准唇形视频进行唇读训练以提供唇读准确率。
用户进入虚拟人对答沟通模块,用户可以在元宇宙社交场景中与虚拟人进行对答沟通,用户也可以在元宇宙社交场景中与其他用户进行对答沟通。
用户进入用户个人中心模块,可以查看用户的唇读训练效果,定制用户的虚拟形象,使得用户在元宇宙社交场景中以虚拟形象与使用唇语学习辅助训练系统的其他用户进行对答沟通。
实施例2
通过实施例2详细记载在用户训练合格的情况下进行对答沟通。
用户进入唇读训练模块,用户在元宇宙学习场景中通过标准唇形视频进行唇读训练录制唇语学习视频。从唇语学习视频中识别用户唇读的文本,计算用户唇读的文本和标准唇形视频的文本之间的相似度;
在唇读训练模块输出的相似度小于预设值时,用户从唇读训练模块中获取标准唇形视频进行唇读训练,在唇读训练模块输出的相似度大于等于预设值时,用户以真实形象或者虚拟形象在元宇宙社交场景中与虚拟人或者其他用户进行对答沟通。
实施例3
通过实施例3详细记载唇读训练模块的功能以及用户使用唇读训练模块的情况。
所述唇读训练模块包括:视频预处理模块、唇语识别模块和反馈模块,
所述视频预处理模块,用于存储预先采集的多语种下的标准唇形视频,将各语种下的标准唇形视频剪辑为单词模式和句子模式下的标准唇形视频;
所述唇语识别模块,用于从用户通过不同语种下单词模式或句子模式的标准唇形视频进行唇读训练时的唇语学习视频中识别用户唇读的文本;
所述反馈模块,用于计算用户唇读的文本和标准唇形视频的文本之间的相似度,反馈至用户个人中心模块。
所述唇读训练模块还包括:唇语识别模型,
所述唇语识别模型包括前端特征提取网络和后端分类网络,通过如下方式训练得到:
获取视频帧中人脸图像及其真实唇部语言,提取人脸图像的唇部区域,组成ROI序列,将ROI序列以及差分后ROI序列分别输入前端特征提取网络的两个分支,输出拼接差分特征的唇部区域特征,将拼接差分特征的唇部区域特征输入后端分类网络,输出预测字符,以预测字符与真实唇部语言之间的误差最小为目标训练至收敛,得到唇语识别模型;
所述视频帧为不同语种的视频帧,最终得到不同语种的唇语识别模型;
所述唇语识别模块,用于使用某一语种的唇语识别模型从用户通过该语种下单词模式或句子模式的标准唇形视频进行唇读训练时的唇语学习视频中识别用户唇读的文本。
如图2所示,当用户选择进入唇读训练模块时,先进行语言选择,选择中文则使用标准中文唇形数据库(由中文的标准唇形视频组成)进行训练,选择英文则使用标准英文唇形数据库(由英文的标准唇形视频组成),然后选择训练模式,单词模式或者句子模式,用户选择适合自己的训练方式后,标准中文唇形数据库或者标准英文唇形数据库提供学习视频,用户可以清晰的看到标准唇形的3D模型,能够更加准确的进行模仿和学习。同时通过用户自身录像,在学习后上传用户个人中心模块,将其与标准视频进行比对,得到相似度,使用户在交互反馈中提升唇读的能力。为了服务于中文唇形训练,本发明有针对性的设计唇语识别模型,可以在训练时使用中文数据,以提升中文唇读的准确率,并利用模型的反馈机制,提供唇形纠正功能。
标准中文唇形数据库中标准中文唇形视频的来源有三个部分:1.标准中文新闻联播的视频,2.唇语学校老师的中文录制视频,3.常见生活化场景的视频,可以来源于标准普通话电影和电视剧。标准中文唇形视频可以剪辑为单词模式和句子模式。
标准英文唇形数据库中标准英文唇形视频的来源有三个部分:1.标准英文新闻播报的视频,2.唇语学校老师的英文录制视频,3.常见生活化场景的视频,可以来源于英文电影和英文电视剧。标准英文唇形视频可以剪辑为单词模式和句子模式。
类似的方式还可以得到标准日语、韩语、德语或法语的唇形数据库。
用户通过对比自己与标准的唇部运动,可以不断在多个视频中练习提高唇读准确率。
实施例4
通过实施例4详细记载虚拟人对答沟通模块的功能以及用户使用虚拟人对答沟通模块的情况。
如图3所示,虚拟人对答沟通模块为听障人士提供了一个真正模拟现实的交流平台。一方面,解决了现实学习过程中缺少唇语老师,练习交流对象稀少的问题。另一方面,由于长期缺乏与外界的有效沟通,听障人士常常形成以自我为中心的封闭圈,与社会格格不入,虚拟人对答沟通模块能够进行具有心理情感抚慰的有效沟通,给听障人士一个敞开心扉的机会。
当用户选择虚拟人对答沟通模块时,系统将提供不同的元宇宙社交场景,用户能够沉浸式体验现实世界具有情感的交流。为了实现该模块的功能,本发明基于虚拟人和ChatGPT技术(这里也可以是文心一言、微信虫洞助手、聊天机器人PET、聊天机器人Bard或者聊天机器人MOSS)搭建了沟通平台。
如图4所示,将唇语识别模型得到的文本结果作为输入,传入QA模块(问答模块)和TTSA(文本生成语音和动画)模块生成虚拟人。QA模块由微调优化后的ChatGPT(这里也可以是文心一言、微信虫洞助手、聊天机器人PET、聊天机器人Bard或者聊天机器人MOSS)构成,通过流式传输技术实时传出回答。TTSA模块由语音合成和说话人脸生成两部分组成,其中语音合成采用微软Azure语音合成API提供,将QA模块生成的文内容转化为音频,为动画生成做准备;说话人脸生成基于wav21ip模型,并对唇部动作做针对性优化,生成生动准确的说话人动画。
先通过唇语识别算法识别用户口型,识别其说话内容并输出为文本格式,将文本输入QA模块。QA模块由针对听障人士的需求和特点微调后的ChatGPT构成。ChatGPT是由OpenAI推出的在GPT-3的基础上进一步训练获得的对话机器人,由丰富的对话内容,且具有连续对话的能力,原始的ChatGPT系统能实现简单问答、日常聊天等功能。通过合适的指令,指导ChatGPT模拟心理咨询师、听障学校教师、心理关怀师、虚拟陪伴助手等对象,针对听障人士的需求做定制化,以更好地满足听障人士的心理需求。
使用合适的提示语句,对ChatGPT做合适的prompt工程,指导ChatGPT在与听障人士沟通时,充分了解听障人士的情绪和心理,做出礼貌、富有情感的回答;在用户情绪低落时,做出抚慰性的应答。同时,对应答内容做出合适的限制,避免有毒内容的输入和输出。
对话机器人通过如下方式训练得到:
第一步:收集一系列问题,并人工作答,用这些问题和回答微调GPT-3模型;第二步:让微调过的模型对上述问题作答,每一个问题生成多个回答,由人工对这些回答按质量从高到低排序,这些数据用来训练奖励模型(强化学习术语);第三步:由微调后的GPT-3做出回答,奖励模型根据其回答生成成绩,通过强化学习的方式进一步优化。
在调用ChatGPT的API时,通常由一段初始命令开始,命令中包含系统、用户、助手三个部分。系统命令指示助手的具体身份、回复语气、功能等:如”你是一名心理咨询师,要认真倾听用户的话语,理解用户的情绪,与用户共情,做出温柔平和、贴心的回答,为用户的烦恼提供一些建议,抚慰用户的心灵。“然后,提供一或多条用户与助手的对话示例,进一步明确所要扮演的角色。最后再将用户的输入传入系统,与ChatGPT开始对话。此时,ChatGPT已对所要扮演的角色有了充分的了解,并能做出满意的回答。
对一些敏感内容采用黑名单的方式屏蔽。直接触发异常结果。判断回答内容情绪,当回答偏负面时,重新调用API生成新回答,直到回答情绪达到要求,若多次调用失败,返回异常结果并提交该异常日志给维护人员调查。
本发明使用Multispace多元空间或者百度希壤元宇宙底座MetaStack建立元宇宙场景。
具体地,Multispace多元空间为用户提供了多种建设工具,试图从UGC升级到AIGC。目前平台提供可视化的UGC编辑工具,拖拽即可,用来设计、搭建元宇宙建筑和人物等;面向更专业的人士,提供SDK,可以实现更多交互功能;对于追求简单的用户,提供建筑交易市场,一键下单、快速部署;用户也可以将自己设计的建筑、应用、艺术品等挂在交易市场上售卖。另外,平台也在试图为用户提供AIGC工具,让未来产品交互形式从图文点击到语音指令,更便捷地创建元宇宙场景。
百度发布希壤元宇宙底座MetaStack,基于一系列的元宇宙组建化基础设施和一站式的开发平台,最快只需40天就可以打造独立元宇宙,大大降低了元宇宙开发的时间成本。作为首个国产元宇宙平台,除了拥有基础的会议系统、会展艺术中心、数字藏品、元宇宙拍卖等功能,还有强大的“AI+云计算”来更好地承接海量数据的处理、超大模型的训练等。并且针对研发效率低、运营成本高的难题,集成智能视觉、智能语音、自然语言理解、实时音视频等9个技术和20多项AI能力,极力打造“深度智能”保持“技术高配置”。即构科技的元宇宙智能互动引擎具体包括四个部分:解决方案层、MetaWorldSDK、编辑器、内容供给,降低打造元宇宙场景玩法的门槛,让企业能够低成本试水,快速落地具体玩法。
虚拟人对答沟通模块为用户提供了海量虚拟场景,这些场景模仿并超越了现实场景,主要分为办公场景、学习场景、娱乐场景和生活场景。用户可以用手柄自行选择任一场景,沉浸式融入其中,与场景中的各个虚拟人物对话,无形中进行唇语练习。元宇宙社交场景为听障人士用户提供了一种全新的沟通方式和沟通体验,让用户可以沉浸在虚拟空间中,更无负担地尝试开口交流,更自然地进行社交活动。随时随地可以进行的元宇宙社交活动也更有利于促进聋人群体唇形纠正与唇语练习,提高听障人士的唇语训练动力,以至良性循环。下面通过对场景和用户互动的详细介绍来具象化该系统。
A.场景介绍
以办公类场景和生活类场景为例,场景描述如下。
①办公类场景
元宇宙办公场景是一个虚拟的三维空间,用户可以自由地在空间中移动,并且能够看到、听到和感受到虚拟环境中的各种元素,比如建筑、办公桌、文件柜等等。元宇宙办公场景支持在线会议和演示功能,用户可以在虚拟空间中开会、展示PPT、视频等。用户还可以在元宇宙办公场景中组织和参加团队会议,讨论项目进展、问题解决、策略调整等相关议题,并通过虚拟白板等工具共同制定方案。
②生活类场景
以在元宇宙商场为例,用户可以看见商场的指路标、店铺以及同在商场中走动的人群。用户A可能正在商场逛街,来到一家卖家电的店面,担任销售员的用户B热情接待了他们。用户之间可以相互对话了解商品,协商价格。
B.用户互动说明
用户在元宇宙社交场景中可以实现互动,下面介绍互动对象以及互动权限。
a.互动对象的身份情况:
①系统生成的虚拟人与现实人类相互互动
②系统生成的虚拟人相互互动
③现实人类相互互动
b.互动对象的操作权限:
系统将判断用户之间的关系,并根据关系限定互相的操作权限。其中,一级操作权限包括于二级操作权限中,二级操作权限包括于三级操作权限中。
①用户之间存在黑名单关系,则进入一级操作权限,具体包括:用户可相互看见。
②用户之间为陌生人,则进入二级操作权限,具体包括:在收到对方回复前,用户只能说一句话。
③用户之间互为关注,则进入三级操作权限,具体包括:可随时随地沟通,进行语言、肢体互动。
实施例5
通过实施例5详细记载用户个人中心模块的功能以及用户使用用户个人中心模块的情况。
如图5所示,用户个人中心模块相当于用户的个人中心,在该模块中,用户能够管理自己的数据,形象化定制自己在虚拟社区的形象。
当用户选择用户个人中心模块时,系统生成用户的个性化私人空间,构建属于用户个人的社交场景。在这里基于虚拟人形象生成和语音合成技术,用户能够定制自己的虚拟人形象以及声音,打造元宇宙下的全新社交场景。
在用户个人中心模块,用户可以进行个人信息的查看与管理。除了基础的更改昵称、更改自我简介、绑定联系方式、修改密码等功能;该模块还包括根据自己的形象个性化制定虚拟人形象,查看用户练习时长和查看用户练习效果等。该板块可以帮助用户更了解自己的学习进度和学习情况,管理账号基本信息。
基于以上需求本发明采用基于wav21ip的说话人脸生成模型。具体工作流程如下:
对于语音片段,首先将其转换为便于处理的梅尔频谱形式,通过多层残差卷积网络将其编码为音频嵌入。对于图片,用二维残差卷积做下采样,获得图片嵌入。对于视频,将其各帧采用和图片相同的方法处理。采用转置卷积(逆卷积)作为解码器,重建图片。
为模型添加新的损失函数,具体而言,添加一个口型判别器,以解决过去模型生成口型效果不理想的问题。过去的模型普遍使用L1重建损失作为损失函数,部分模型使用判别器构成GAN。由于唇部在整张面部图片中占比较少,约4%,故过去的生成结果对唇部的同步结果较差。
口型判别器由预训练的syncnet构成,通过两个结构相同的卷积网络,分别对口型和音频编码,并评估编码后口型与音频的相似度。
经过调研,对比各大公司提供的示例内容,本发明系统最终选用微软azure语音合成API。目前各大公司的语音合成技术已相当成熟,在用户不被明确告知的情况下已经可以达到与真人十分相似的效果。目前较为出色的有微软的azure语音合成,科大讯飞,谷歌的Tacotron2等。就免费版本的api而言,科大讯飞的语音合成存在机械音和停顿感,基于语音的说话人脸生成也容易出现卡顿和跳变,从而影响项目整体的沉浸体验。相较之下,微软的azure语音合成能产生更好的语音语调,根据内容调整语气和停顿,能带来更好的交互体验。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于元宇宙的唇语学习辅助训练系统,其特征在于,包括:唇读训练模块、虚拟人对答沟通模块和用户个人中心模块;
所述唇读训练模块,用于存储预先采集的标准唇形视频,建立元宇宙学习场景,使得用户在元宇宙学习场景中通过标准唇形视频进行唇读训练,从用户通过标准唇形视频进行唇读训练时的唇语学习视频中识别用户唇读的文本,计算用户唇读的文本和标准唇形视频的文本之间的相似度,通过相似度判断用户的唇读训练效果;
所述虚拟人对答沟通模块,用于建立元宇宙社交场景,从用户在元宇宙社交场景中讲话的视频中识别社交文本,将社交文本在对答过程的回答文本转化为音频后与人脸结合形成虚拟人,使得用户在元宇宙社交场景中与虚拟人进行对答沟通;
所述用户个人中心模块,用于记录和反馈用户的唇读训练效果,将用户的音频与人脸结合形成用户的虚拟形象,使得用户在元宇宙社交场景中以虚拟形象与使用唇语学习辅助训练系统的其他用户进行对答沟通。
2.如权利要求1所述的一种基于元宇宙的唇语学习辅助训练系统,其特征在于,所述唇读训练模块包括:视频预处理模块、唇语识别模块和反馈模块,
所述视频预处理模块,用于存储预先采集的多语种下的标准唇形视频,将各语种下的标准唇形视频剪辑为单词模式和句子模式下的标准唇形视频;
所述唇语识别模块,用于从用户通过不同语种下单词模式或句子模式的标准唇形视频进行唇读训练时的唇语学习视频中识别用户唇读的文本;
所述反馈模块,用于计算用户唇读的文本和标准唇形视频的文本之间的相似度,通过相似度判断用户的唇读训练效果,反馈至用户个人中心模块。
3.如权利要求2所述的一种基于元宇宙的唇语学习辅助训练系统,其特征在于,所述唇读训练模块还包括:唇语识别模型,
所述唇语识别模型包括前端特征提取网络和后端分类网络,通过如下方式训练得到:
获取视频帧中人脸图像及其真实唇部语言,提取人脸图像的唇部区域,组成ROI序列,将ROI序列以及差分后ROI序列分别输入前端特征提取网络的两个分支,输出拼接差分特征的唇部区域特征,将拼接差分特征的唇部区域特征输入后端分类网络,输出预测字符,以预测字符与真实唇部语言之间的误差最小为目标训练至收敛,得到唇语识别模型;
所述视频帧为不同语种的视频帧,最终得到不同语种的唇语识别模型;
所述唇语识别模块,用于使用某一语种的唇语识别模型从用户通过该语种下单词模式或句子模式的标准唇形视频进行唇读训练时的唇语学习视频中识别用户唇读的文本。
4.如权利要求3所述的一种基于元宇宙的唇语学习辅助训练系统,其特征在于,所述虚拟人对答沟通模块包括:虚拟人形成模块和对话机器人,
所述虚拟人形成模块,用于调用唇语识别模型从用户在元宇宙社交场景中讲话的视频中识别社交文本,将社交文本输入对话机器人,将对话机器人输出的回答文本转化为音频后与人脸结合形成虚拟人。
5.如权利要求4所述的一种基于元宇宙的唇语学习辅助训练系统,其特征在于,所述虚拟人形成模块包括语音合成模块和动画生成模块,
所述语音合成模块,用于将对话机器人输出的文本通过语音合成软件合成音频;
所述动画生成模块,用于使用说话人脸生成模型将音频与人脸结合,形成虚拟人;其中,说话人脸生成模型包括编码器、解码器和口型判别器,说话人脸生成模型通过如下方式训练得到:
将样本语音片段转换为梅尔频谱形式,通过编码器中的残差卷积将梅尔频谱形式的样本语音片段编码为预处理音频,通过编码器中的残差卷积对样本人脸图片下采样,得到预处理人脸图片,通过解码器中的转置卷积将预处理音频和预处理人脸图片解码,形成虚拟人;口型判别器通过两个卷积网络分别对虚拟人的口型和音频编码,以编码后的口型与预处理人脸图片中口型之间误差最小且编码后的音频与预处理音频之间误差最小为目标,训练至收敛,得到训练好的说话人脸生成模型。
6.如权利要求4所述的一种基于元宇宙的唇语学习辅助训练系统,其特征在于,所述对话机器人为个性化调整的对话机器人,所述对话机器人通过如下方式进行个性化调整:
收集心理咨询师或者听障学校教师的对话文本,在用户与对话机器人对话前,将对话文本输入ChatGPT、文心一言、微信虫洞助手、聊天机器人PET、聊天机器人Bard或者聊天机器人MOSS,指导对话机器人扮演心理咨询师或者听障学校教师的角色。
7.如权利要求5所述的一种基于元宇宙的唇语学习辅助训练系统,其特征在于,所述唇语学习辅助训练系统还包括:元宇宙场景建立模块,
所述元宇宙场景建立模块,用于使用Multispace多元空间或者百度希壤元宇宙底座MetaStack建立元宇宙场景;
所述唇读训练模块,用于调用元宇宙场景建立模块建立元宇宙学习场景;
所述虚拟人对答沟通模块,用于调用元宇宙场景建立模块建立不同的元宇宙社交场景;
所述虚拟人形成模块,用于将用户在不同的元宇宙社交场景中讲话的视频中识别社交文本,将社交文本输入对话机器人,将对话机器人输出的回答文本转化为音频后与人脸结合形成不同元宇宙社交场景下的虚拟人,使得用户在不同的元宇宙社交场景中与对应元宇宙社交场景下的虚拟人进行对答沟通。
8.如权利要求7所述的一种基于元宇宙的唇语学习辅助训练系统,其特征在于,所述用户个人中心模块,用于存储并管理用户使用唇语学习辅助训练系统进行唇语学习的视频数据,调用虚拟人形成模块将用户的音频与人脸结合形成用户的虚拟形象,调用元宇宙社交场景建立模块建立用户的元宇宙私人空间,使得用户与使用唇语学习辅助训练系统的其他用户在元宇宙私人空间交流。
9.如权利要求1-8任一所述的一种基于元宇宙的唇语学习辅助训练系统的应用,其特征在于,所述唇语学习辅助训练系统应用于辅助听障人士进行唇语学习,听障人士作为唇语学习辅助训练系统的用户,从唇读训练模块中选择标准唇形视频在元宇宙学习场景中进行唇读训练,并通过唇读训练模块输出的相似度判断用户的唇读训练效果;用户从虚拟人对答沟通模块中选择虚拟人,用户在元宇宙社交场景中与虚拟人进行对答沟通;用户选择用户个人中心模块定制虚拟形象,在元宇宙社交场景中以虚拟形象与使用唇语学习辅助训练系统的其他用户进行对答沟通。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1至8中任一项所述的基于元宇宙的唇语学习辅助训练系统的处理步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310371018.1A CN116524791A (zh) | 2023-04-07 | 2023-04-07 | 一种基于元宇宙的唇语学习辅助训练系统及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310371018.1A CN116524791A (zh) | 2023-04-07 | 2023-04-07 | 一种基于元宇宙的唇语学习辅助训练系统及其应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116524791A true CN116524791A (zh) | 2023-08-01 |
Family
ID=87391279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310371018.1A Pending CN116524791A (zh) | 2023-04-07 | 2023-04-07 | 一种基于元宇宙的唇语学习辅助训练系统及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524791A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117196042A (zh) * | 2023-11-03 | 2023-12-08 | 福建天晴数码有限公司 | 一种教育元宇宙中学习目标的语义推理方法及终端 |
CN117576982A (zh) * | 2024-01-16 | 2024-02-20 | 青岛培诺教育科技股份有限公司 | 一种基于ChatGPT的口语训练方法、装置、电子设备及介质 |
-
2023
- 2023-04-07 CN CN202310371018.1A patent/CN116524791A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117196042A (zh) * | 2023-11-03 | 2023-12-08 | 福建天晴数码有限公司 | 一种教育元宇宙中学习目标的语义推理方法及终端 |
CN117196042B (zh) * | 2023-11-03 | 2024-01-30 | 福建天晴数码有限公司 | 一种教育元宇宙中学习目标的语义推理方法及终端 |
CN117576982A (zh) * | 2024-01-16 | 2024-02-20 | 青岛培诺教育科技股份有限公司 | 一种基于ChatGPT的口语训练方法、装置、电子设备及介质 |
CN117576982B (zh) * | 2024-01-16 | 2024-04-02 | 青岛培诺教育科技股份有限公司 | 一种基于ChatGPT的口语训练方法、装置、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110688911B (zh) | 视频处理方法、装置、系统、终端设备及存储介质 | |
US20230042654A1 (en) | Action synchronization for target object | |
Cole et al. | New tools for interactive speech and language training: using animated conversational agents in the classroom of profoundly deaf children | |
CN110488975B (zh) | 一种基于人工智能的数据处理方法及相关装置 | |
CN116524791A (zh) | 一种基于元宇宙的唇语学习辅助训练系统及其应用 | |
CN111290568A (zh) | 交互方法、装置及计算机设备 | |
JP3670180B2 (ja) | 補聴器 | |
GB2601162A (en) | Methods and systems for video translation | |
CN116311456A (zh) | 基于多模态交互信息的虚拟人表情个性化生成方法 | |
CN115494941A (zh) | 基于神经网络的元宇宙情感陪护虚拟人实现方法及系统 | |
CN117523088A (zh) | 一种个性化的三维数字人全息互动形成系统及方法 | |
CN111354362A (zh) | 用于辅助听障者交流的方法和装置 | |
CN114048299A (zh) | 对话方法、装置、设备、计算机可读存储介质及程序产品 | |
Rastgoo et al. | A survey on recent advances in Sign Language Production | |
US11587561B2 (en) | Communication system and method of extracting emotion data during translations | |
CN117313785A (zh) | 一种基于弱势人群的智能数字人交互方法、设备和介质 | |
CN113542797A (zh) | 视频播放中的互动方法、装置及计算机可读存储介质 | |
CN111415662A (zh) | 用于生成视频的方法、装置、设备和介质 | |
JP7130290B2 (ja) | 情報抽出装置 | |
CN110956859A (zh) | 基于深度学习的vr智能语音交互英语方法 | |
Sindoni | Multimodality and Translanguaging in Video Interactions | |
CN111160051B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN115499613A (zh) | 视频通话方法、装置、电子设备及存储介质 | |
CN112820265A (zh) | 一种语音合成模型训练方法和相关装置 | |
CN110718119A (zh) | 基于儿童专用穿戴智能设备的教育能力支持方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |