CN108227903B - 一种虚拟现实语言交互系统与方法 - Google Patents
一种虚拟现实语言交互系统与方法 Download PDFInfo
- Publication number
- CN108227903B CN108227903B CN201611193005.6A CN201611193005A CN108227903B CN 108227903 B CN108227903 B CN 108227903B CN 201611193005 A CN201611193005 A CN 201611193005A CN 108227903 B CN108227903 B CN 108227903B
- Authority
- CN
- China
- Prior art keywords
- lip
- unit
- voice recognition
- audio signals
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/175—Static expression
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Processing Or Creating Images (AREA)
Abstract
一种虚拟现实语言交互系统与方法,系统包括:语音采集模块,用于周期性的采集音频信号;图像采集模块,用于实时采集用户图像;唇动识别模块,用于基于采集的图像识别出唇动特征;VR交互系统,VR交互系统,用于基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别,从而确定虚拟角色的动作指令。本发明通过实时采集用户图像、周期性采集音频信号,基于采集的图像识别出唇动特征,最终基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别,从而确定虚拟角色的动作指令,克服了VR头盔中语音输入的局限性,将语音输入与唇动特征相结合,可以准确识别重要声源的语音命令。
Description
技术领域
本发明涉及虚拟现实自然交互技术领域,尤其涉及一种虚拟现实语言交互系统与方法。
背景技术
语言是人们自然交流中最有效的手段,在基于计算机的人机交互技术研究中语言交互已经达到实用状态,但是在很多场合语音输入具有很大的局限性,使用时不可避免的会遇到使用者语音与周围环境噪声、其他人员语音等噪音的混叠。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种虚拟现实语言交互系统与方法。
本发明解决其技术问题所采用的技术方案是:构造一种虚拟现实语言交互系统,包括:
语音采集模块,用于周期性的采集音频信号;
图像采集模块,用于实时采集用户图像;
唇动识别模块,用于基于采集的图像识别出唇动特征;
VR交互系统,用于基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别,从而确定虚拟角色的动作指令。
在本发明所述的虚拟现实语言交互系统中,所述唇动识别模块包括:
预处理单元,用于针对多帧连续的图像,确定图像的有效区域;
唇部区域检测单元,用于从有效区域中分离出唇部区域;
唇动特征提取单元,用于从唇部区域提取出唇部轮廓,确定唇部轮廓的特征点,通过跟踪多帧连续的图像的特征点识别出唇动特征。
在本发明所述的虚拟现实语言交互系统中,所述VR交互系统包括:
启动单元,用于在语音采集模块采集到音频信号时,判断唇动识别模块是否识别出唇动特征,如果是则判断音频信号有效并触发语音识别单元工作,否则不作处理;
语音识别单元,用于对采集到的音频信号进行语音识别。
在本发明所述的虚拟现实语言交互系统中,所述VR交互系统还包括去噪单元,用于将音频信号中持续存在的低频声音作为环境噪音滤除后再送往语音识别单元进行语音识别。
在本发明所述的虚拟现实语言交互系统中,所述VR交互系统还包括:
有效时域确定单元,用于在每个音频采集周期内,基于唇动识别模块识别出的唇动特征,确定音频采集周期的有效时域,并通知语音识别单元对有效时域内的音频信号进行处理。
在本发明所述的虚拟现实语言交互系统中,所述唇动识别模块还包括唇语识别单元,用于根据唇动特征识别唇语信息;
所述VR交互系统包括还包括语义分析单元,用于对唇语识别单元识别出的唇语信息、语音识别单元的语音识别结果分别进行语义分析,并将唇语信息和语音识别结果两者中的语义分析结果更符合系统的语境的一个转化为虚拟角色的动作指令。
在本发明所述的虚拟现实语言交互系统中,
所述唇动识别模块还包括唇语识别单元,用于根据唇动特征识别唇语信息;
所述VR交互系统包括还包括匹配单元,用于将唇语识别单元识别出的唇语信息与语音识别单元的语音识别结果进行匹配,如果匹配度高于预设值,则将语音识别结果转化为虚拟角色的动作指令,否则不作处理。
在本发明所述的虚拟现实语言交互系统中,所述图像采集模块包括以固定或可伸缩的方式安装在VR头戴显示器上的至少一个摄像头,摄像头采集的图像数据以有线或无线方式传输到唇语识别模块;或者,所述图像采集模块包括在距离用户一定距离的正面和/或四周摆放的至少一个摄像头,摄像头采集的图像数据以有线或无线方式传输到唇语识别模块。
本发明还公开了一种虚拟现实语言交互方法,包括:
S1、周期性的采集音频信号,实时采集用户图像;
S2、基于采集的图像识别出唇动特征;
S3、基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别,从而确定虚拟角色的动作指令。
在本发明所述的虚拟现实语言交互方法中,所述步骤S2包括:
S21、针对多帧连续的图像,确定图像的有效区域;
S22、从有效区域中分离出唇部区域;
S23、从唇部区域提取出唇部轮廓,确定唇部轮廓的特征点,通过跟踪多帧连续的图像的特征点识别出唇动特征;
S24、根据唇动特征识别唇语信息;
所述步骤S3包括:
S31、在采集到音频信号时,判断是否识别出唇动特征,如果是则判断音频信号有效并执行步骤S32,否则不作处理;
S32、在每个音频采集周期内,基于识别出的唇动特征,确定音频采集周期的有效时域;
S33、将音频信号中持续存在的低频声音作为环境噪音滤除;
S34、对音频信号的有效时域内的信号进行语音识别;
S35、对识别出的唇语信息、语音识别结果分别进行语义分析,并将唇语信息和语音识别结果两者中的语义分析结果更符合系统的语境的一个转化为虚拟角色的动作指令;或者,将识别出的唇语信息与语音识别结果进行匹配,如果匹配度高于预设值,则将语音识别结果转化为虚拟角色的动作指令,否则不作处理。
实施本发明的虚拟现实语言交互系统与方法,具有以下有益效果:本发明通过实时采集用户图像、周期性采集音频信号,基于采集的图像识别出唇动特征,最终基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别,从而确定虚拟角色的动作指令,克服了VR头盔中语音输入的局限性,将语音输入与唇动特征相结合,可以准确识别重要声源的语音命令。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图:
图1是本发明虚拟现实语言交互系统的较佳实施例的结构示意图;
图2是较佳实施例的唇动识别模块和VR交互系统的结构示意图;
图3是另一较佳实施例的唇动识别模块和VR交互系统的结构示意图;
图4是本发明虚拟现实语言交互方法的流程图;
图5是较佳实施例的步骤S2流程图;
图6是较佳实施例的步骤S3流程图;
图7是另一较佳实施例的步骤S3流程图。
具体实施方式
在本发明实施例中,本发明通过实时采集用户图像、周期性采集音频信号,基于采集的图像识别出唇动特征,最终基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别,从而确定虚拟角色的动作指令,克服了VR头盔中语音输入的局限性,将语音输入与唇动特征相结合,可以准确识别重要声源的语音命令。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
图1是本发明虚拟现实语言交互系统的较佳实施例的结构示意图;较佳实施例中,虚拟现实语言交互系统具体包括:
语音采集模块,用于周期性的采集音频信号;
图像采集模块,用于实时采集用户图像;
唇动识别模块,用于基于采集的图像识别出唇动特征;
VR交互系统,用于基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别,从而确定虚拟角色的动作指令。
VR渲染系统,用于根据最新变化的场景信息绘制最新输出信息;
输出通道,用于将输出信息在对应的通道输出展示给用户。其中,所述输出通道包括:声音输出通道、显示输出通道以及其他输出通道。
其中,所述图像采集模块包括以固定或可伸缩的方式安装在VR头戴显示器上的至少一个摄像头,摄像头采集的图像数据以有线或无线方式传输到唇语识别模块。或者,所述图像采集模块包括在距离用户一定距离的正面和/或四周摆放的至少一个摄像头,摄像头采集的图像数据以有线或无线方式传输到唇语识别模块。
参考图2是较佳实施例的唇动识别模块和VR交互系统的结构示意图。
较佳实施例中所述唇动识别模块包括:
预处理单元,用于针对多帧连续的图像,确定图像的有效区域;有效区域一般是人脸区域,例如可以利用肤色模型和人脸的几何特征检测出人脸。
唇部区域检测单元,用于从有效区域中分离出唇部区域;例如,在检测到人脸后通过Fisher变换增强嘴唇区域,然后利用Otsu二值化图像,再结合唇色模型实现对唇部的定位。
唇动特征提取单元,用于从唇部区域提取出唇部轮廓,确定唇部轮廓的特征点,通过跟踪多帧连续的图像的特征点识别出唇动特征;例如,唇部轮廓可以采用基于snake模型的嘴唇轮廓提取方法,然后确定特征点,利用光流法和snake模型结合的方法对特征点进行跟踪。
较佳实施例中所述VR交互系统包括:
启动单元,用于在语音采集模块采集到音频信号时,判断唇动识别模块是否识别出唇动特征,如果是则判断音频信号有效并触发语音识别单元工作,否则不作处理;
语音识别单元,用于对采集到的音频信号进行语音识别。语音识别可以基于语音识别软件或者语音识别芯片实现。语音识别过程可以为:把帧识别成状态;把状态组合成音素;把音素组合成单词。
可以理解的是,本发明对于语音识别的具体算法并不做限制,除了上述语音识别过程外,还可以基于模板匹配法等实现,只要能根据音频信息进行直接的音频解析得到文字信息,都在本发明的保护范围之内。
语音采集模块实际收集的音频信息包括周围环境中的噪音干扰的音频信息和用于确定使用者动作指令的音频信息,因此在进行语音识别之前需要进行去噪处理。为此优选的,VR交互系统还包括去噪单元,用于将音频信号中持续存在的低频声音作为环境噪音滤除后再送往语音识别单元进行语音识别。
由于语音采集模块的一个完整的音频采集周期的时长与一个语音命令的语音时长可能不相同,或者在一个完整的音频采集周期中可能接收到多个人类语言,或多个语音命令。为此,优选的,VR交互系统还包括有效时域确定单元,用于在每个音频采集周期内,基于唇动识别模块识别出的唇动特征,确定音频采集周期的有效时域,并通知语音识别单元仅对有效时域内的音频信号进行处理。
考虑到在嘈杂的环境下,语音识别容易受影响而降低可靠性,而唇语识别不受嘈杂环境的影响,为了提高系统的可靠性,更进一步优选的,可以考虑将语音识别和唇语识别相结合,在两者中更符合语境的一个作为系统的有效输入。为此,唇动识别模块还包括唇语识别单元,所述VR交互系统包括还包括语义分析单元。
其中,唇语识别单元用于根据唇动特征识别唇语信息。例如,可以运用BP神经网络的唇读识别方法。采用附加动量法和自适应学习速率法在样本集上训练BP网络。
其中,语义分析单元,用于对唇语识别单元识别出的唇语信息、语音识别单元的语音识别结果分别进行语义分析,并将唇语信息和语音识别结果两者中的语义分析结果更符合系统的语境的一个转化为虚拟角色的动作指令。
参考图3,在本发明的另一较佳实施例中,为了提高系统的可靠性,还可以对考虑将语音识别和唇语识别进行匹配,在两者的识别结果匹配度较高时才认为语音识别结果是有效的。因此,在该实施例中,唇动识别模块还包括唇语识别单元,所述VR交互系统还包括匹配单元。
其中,唇语识别单元用于根据唇动特征识别唇语信息。例如,可以运用BP神经网络的唇读识别方法。采用附加动量法和自适应学习速率法在样本集上训练BP网络。
其中,匹配单元用于将唇语识别单元识别出的唇语信息与语音识别单元的语音识别结果进行匹配,如果匹配度高于预设值,则将语音识别结果转化为虚拟角色的动作指令,否则不作处理。
相应的,本发明还公开了一种虚拟现实语言交互方法,参考图4是本发明虚拟现实语言交互方法的流程图。本发明的虚拟现实语言交互方法包括:
S1、语音采集模块周期性的采集音频信号,图像采集模块实时采集用户图像;
S2、唇动识别模块基于采集的图像识别出唇动特征;
S3、VR交互系统基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别,从而确定虚拟角色的动作指令。
参考图5,其中,所述步骤S2包括:
S21、预处理单元针对多帧连续的图像,确定图像的有效区域;
S22、唇部区域检测单元从有效区域中分离出唇部区域;
S23、唇动特征提取单元从唇部区域提取出唇部轮廓,确定唇部轮廓的特征点,通过跟踪多帧连续的图像的特征点识别出唇动特征;
优选的,步骤S2还包括S24:唇语识别单元根据唇动特征识别唇语信息。
参考图6,其中,在一个较佳实施例中,所述步骤S3包括:
S31、启动单元在语音采集模块采集到音频信号时,判断唇动识别模块是否识别出唇动特征,如果是则判断音频信号有效并执行步骤S32,否则不作处理;
S32、有效时域确定单元在每个音频采集周期内,基于唇动识别模块识别出的唇动特征,确定音频采集周期的有效时域;
S33、去噪单元将音频信号中持续存在的低频声音作为环境噪音滤除后送往语音识别单元;
S34、语音识别单元对去噪单元发送的音频信号的有效时域内的信号进行语音识别。
优选的,步骤S3还包括S35:对识别出的唇语信息、语音识别结果分别进行语义分析,并将唇语信息和语音识别结果两者中的语义分析结果更符合系统的语境的一个转化为虚拟角色的动作指令。
参考图7,其中,在另一个较佳实施例中,所述步骤S3包括:
S31、启动单元在语音采集模块采集到音频信号时,判断唇动识别模块是否识别出唇动特征,如果是则判断音频信号有效并执行步骤S32,否则不作处理;
S32、有效时域确定单元在每个音频采集周期内,基于唇动识别模块识别出的唇动特征,确定音频采集周期的有效时域;
S33、去噪单元将音频信号中持续存在的低频声音作为环境噪音滤除后送往语音识别单元;
S34、语音识别单元对去噪单元发送的音频信号的有效时域内的信号进行语音识别。
优选的,步骤S3还包括S35:匹配单元将唇语识别单元识别出的唇语信息与语音识别单元的语音识别结果进行匹配,如果匹配度高于预设值,则将语音识别结果转化为虚拟角色的动作指令,否则不作处理。
综上所述,实施本发明的虚拟现实语言交互系统与方法,具有以下有益效果:本发明通过实时采集用户图像、周期性采集音频信号,基于采集的图像识别出唇动特征,最终基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别,从而确定虚拟角色的动作指令,克服了VR头盔中语音输入的局限性,将语音输入与唇动特征相结合,可以准确识别重要声源的语音命令。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (7)
1.一种虚拟现实语言交互系统,其特征在于,包括:
语音采集模块,用于周期性的采集音频信号;
图像采集模块,用于实时采集用户图像;
唇动识别模块,用于基于采集的图像识别出唇动特征;
VR交互系统,用于基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别,从而确定虚拟角色的动作指令;
其中,所述VR交互系统包括:
启动单元,用于在语音采集模块采集到音频信号时,判断唇动识别模块是否识别出唇动特征,如果是则判断音频信号有效并触发语音识别单元工作,否则不作处理;
语音识别单元,用于对采集到的音频信号进行语音识别;
去噪单元,用于将音频信号中持续存在的低频声音作为环境噪音滤除后再送往语音识别单元进行语音识别;
有效时域确定单元,用于在每个音频采集周期内,基于唇动识别模块识别出的唇动特征,确定音频采集周期的有效时域,并通知语音识别单元对有效时域内的音频信号进行处理。
2.根据权利要求1所述的虚拟现实语言交互系统,其特征在于,所述唇动识别模块包括:
预处理单元,用于针对多帧连续的图像,确定图像的有效区域;
唇部区域检测单元,用于从有效区域中分离出唇部区域;
唇动特征提取单元,用于从唇部区域提取出唇部轮廓,确定唇部轮廓的特征点,通过跟踪多帧连续的图像的特征点识别出唇动特征。
3.根据权利要求2所述的虚拟现实语言交互系统,其特征在于,所述唇动识别模块还包括唇语识别单元,用于根据唇动特征识别唇语信息;
所述VR交互系统包括还包括语义分析单元,用于对唇语识别单元识别出的唇语信息、语音识别单元的语音识别结果分别进行语义分析,并将唇语信息和语音识别结果两者中的语义分析结果更符合系统的语境的一个转化为虚拟角色的动作指令。
4.根据权利要求2所述的虚拟现实语言交互系统,其特征在于,
所述唇动识别模块还包括唇语识别单元,用于根据唇动特征识别唇语信息;
所述VR交互系统包括还包括匹配单元,用于将唇语识别单元识别出的唇语信息与语音识别单元的语音识别结果进行匹配,如果匹配度高于预设值,则将语音识别结果转化为虚拟角色的动作指令,否则不作处理。
5.根据权利要求1所述的虚拟现实语言交互系统,其特征在于,所述图像采集模块包括以固定或可伸缩的方式安装在VR头戴显示器上的至少一个摄像头,摄像头采集的图像数据以有线或无线方式传输到唇语识别模块;或者,所述图像采集模块包括在距离用户一定距离的正面和/或四周摆放的至少一个摄像头,摄像头采集的图像数据以有线或无线方式传输到唇语识别模块。
6.一种虚拟现实语言交互方法,其特征在于,包括:
S1、周期性的采集音频信号,实时采集用户图像;
S2、基于采集的图像识别出唇动特征;
S3、基于识别出的唇动特征从采集到的音频信号中筛选出有效的音频信号进行语音识别,从而确定虚拟角色的动作指令;
其中,所述步骤S3包括:
S31、在采集到音频信号时,判断是否识别出唇动特征,如果是则判断音频信号有效并执行步骤S32,否则不作处理;
S32、在每个音频采集周期内,基于识别出的唇动特征,确定音频采集周期的有效时域;
S33、将音频信号中持续存在的低频声音作为环境噪音滤除;
S34、对音频信号的有效时域内的信号进行语音识别。
7.根据权利要求6所述的虚拟现实语言交互方法,其特征在于,
所述步骤S2包括:
S21、针对多帧连续的图像,确定图像的有效区域;
S22、从有效区域中分离出唇部区域;
S23、从唇部区域提取出唇部轮廓,确定唇部轮廓的特征点,通过跟踪多帧连续的图像的特征点识别出唇动特征;
S24、根据唇动特征识别唇语信息;
所述步骤S3还包括:
S35、对识别出的唇语信息、语音识别结果分别进行语义分析,并将唇语信息和语音识别结果两者中的语义分析结果更符合系统的语境的一个转化为虚拟角色的动作指令;或者,将识别出的唇语信息与语音识别结果进行匹配,如果匹配度高于预设值,则将语音识别结果转化为虚拟角色的动作指令,否则不作处理。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611193005.6A CN108227903B (zh) | 2016-12-21 | 2016-12-21 | 一种虚拟现实语言交互系统与方法 |
PCT/CN2017/117098 WO2018113650A1 (zh) | 2016-12-21 | 2017-12-19 | 一种虚拟现实语言交互系统与方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611193005.6A CN108227903B (zh) | 2016-12-21 | 2016-12-21 | 一种虚拟现实语言交互系统与方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108227903A CN108227903A (zh) | 2018-06-29 |
CN108227903B true CN108227903B (zh) | 2020-01-10 |
Family
ID=62624745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611193005.6A Active CN108227903B (zh) | 2016-12-21 | 2016-12-21 | 一种虚拟现实语言交互系统与方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108227903B (zh) |
WO (1) | WO2018113650A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596107A (zh) * | 2018-04-26 | 2018-09-28 | 京东方科技集团股份有限公司 | 基于ar设备的唇语识别方法及其装置、ar设备 |
CN110767228B (zh) * | 2018-07-25 | 2022-06-03 | 杭州海康威视数字技术股份有限公司 | 一种声音获取方法、装置、设备及系统 |
CN109344775B (zh) * | 2018-10-08 | 2022-06-17 | 苏州次源科技服务有限公司 | 一种全自动和面机的智能唇读识别控制方法 |
CN109583359B (zh) * | 2018-11-26 | 2023-10-24 | 北京小米移动软件有限公司 | 表述内容识别方法、装置、电子设备、机器可读存储介质 |
CN111724786A (zh) * | 2019-03-22 | 2020-09-29 | 上海博泰悦臻网络技术服务有限公司 | 唇语识别系统及方法 |
CN110110603A (zh) * | 2019-04-10 | 2019-08-09 | 天津大学 | 一种基于面部生理信息的多模态唇读方法 |
CN110021297A (zh) * | 2019-04-13 | 2019-07-16 | 上海影隆光电有限公司 | 一种基于音视频识别的智能显示方法及其装置 |
CN112116926A (zh) * | 2019-06-19 | 2020-12-22 | 北京猎户星空科技有限公司 | 音频数据的处理方法及装置、模型训练方法及装置 |
CN111145282B (zh) * | 2019-12-12 | 2023-12-05 | 科大讯飞股份有限公司 | 虚拟形象合成方法、装置、电子设备和存储介质 |
CN111539408A (zh) * | 2020-04-08 | 2020-08-14 | 王鹏 | 基于拍照识物的智能点读方案 |
CN113516878A (zh) * | 2020-07-22 | 2021-10-19 | 上海语朋科技有限公司 | 用于语言启蒙的多模态交互方法、系统及智能机器人 |
CN111862280A (zh) * | 2020-08-26 | 2020-10-30 | 网易(杭州)网络有限公司 | 虚拟角色控制方法、系统、介质及电子设备 |
CN112084927B (zh) * | 2020-09-02 | 2022-12-20 | 中国人民解放军军事科学院国防科技创新研究院 | 一种融合多种视觉信息的唇语识别方法 |
CN114333896A (zh) * | 2020-09-25 | 2022-04-12 | 华为技术有限公司 | 语音分离方法、电子设备、芯片及计算机可读存储介质 |
CN112887656A (zh) * | 2021-01-26 | 2021-06-01 | 黄旭诗 | 一种基于虚拟现实的多人在线会议系统 |
CN113672155B (zh) * | 2021-07-02 | 2023-06-30 | 浪潮金融信息技术有限公司 | 一种基于vr技术的自助操作系统、方法及介质 |
CN113742687B (zh) * | 2021-08-31 | 2022-10-21 | 深圳时空数字科技有限公司 | 一种基于人工智能的物联网控制方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102023703A (zh) * | 2009-09-22 | 2011-04-20 | 现代自动车株式会社 | 组合唇读与语音识别的多模式界面系统 |
CN102298443A (zh) * | 2011-06-24 | 2011-12-28 | 华南理工大学 | 结合视频通道的智能家居语音控制系统及其控制方法 |
CN204256272U (zh) * | 2014-12-22 | 2015-04-08 | 王傲立 | 耳机式虚拟现实显示器 |
CN105022470A (zh) * | 2014-04-17 | 2015-11-04 | 中兴通讯股份有限公司 | 一种基于唇读的终端操作方法及装置 |
CN105389097A (zh) * | 2014-09-03 | 2016-03-09 | 中兴通讯股份有限公司 | 一种人机交互装置及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657650A (zh) * | 2015-01-06 | 2015-05-27 | 三星电子(中国)研发中心 | 用于数据输入或验证身份的方法及装置 |
-
2016
- 2016-12-21 CN CN201611193005.6A patent/CN108227903B/zh active Active
-
2017
- 2017-12-19 WO PCT/CN2017/117098 patent/WO2018113650A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102023703A (zh) * | 2009-09-22 | 2011-04-20 | 现代自动车株式会社 | 组合唇读与语音识别的多模式界面系统 |
CN102298443A (zh) * | 2011-06-24 | 2011-12-28 | 华南理工大学 | 结合视频通道的智能家居语音控制系统及其控制方法 |
CN105022470A (zh) * | 2014-04-17 | 2015-11-04 | 中兴通讯股份有限公司 | 一种基于唇读的终端操作方法及装置 |
CN105389097A (zh) * | 2014-09-03 | 2016-03-09 | 中兴通讯股份有限公司 | 一种人机交互装置及方法 |
CN204256272U (zh) * | 2014-12-22 | 2015-04-08 | 王傲立 | 耳机式虚拟现实显示器 |
Also Published As
Publication number | Publication date |
---|---|
WO2018113650A1 (zh) | 2018-06-28 |
CN108227903A (zh) | 2018-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108227903B (zh) | 一种虚拟现实语言交互系统与方法 | |
EP3667488B1 (en) | Image processing apparatus and method | |
CN104361276B (zh) | 一种多模态生物特征身份认证方法及系统 | |
CN105976809B (zh) | 基于语音和面部表情的双模态情感融合的识别方法及系统 | |
US20200135158A1 (en) | System and Method of Reading Environment Sound Enhancement Based on Image Processing and Semantic Analysis | |
KR100948600B1 (ko) | 제스처/음성 융합 인식 시스템 및 방법 | |
CN103824481B (zh) | 一种检测用户背诵的方法及装置 | |
CN106157956A (zh) | 语音识别的方法及装置 | |
CN109558788B (zh) | 静默语音输入辨识方法、计算装置和计算机可读介质 | |
CN105957514A (zh) | 一种便携式聋哑人交流设备 | |
CN104808794A (zh) | 一种唇语输入方法和系统 | |
Yargıç et al. | A lip reading application on MS Kinect camera | |
Shinde et al. | Real time two way communication approach for hearing impaired and dumb person based on image processing | |
CN108073875A (zh) | 一种基于单目摄像头的带噪音语音识别系统及方法 | |
CN111326152A (zh) | 语音控制方法及装置 | |
CN109584864B (zh) | 图像处理装置和方法 | |
WO2018113649A1 (zh) | 一种虚拟现实语言交互系统与方法 | |
Ivanko et al. | Automatic lip-reading of hearing impaired people | |
CN114387945A (zh) | 语音生成方法、装置、电子设备及存储介质 | |
KR101950721B1 (ko) | 다중 인공지능 안전스피커 | |
CN114239610A (zh) | 多国语言语音辨识及翻译方法与相关的系统 | |
CN111368800B (zh) | 手势识别方法及装置 | |
KR102291740B1 (ko) | 영상처리 시스템 | |
CN108831472B (zh) | 一种基于唇语识别的人工智能发声系统及发声方法 | |
CN109785843B (zh) | 图像处理装置和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |