CN108109614A - 一种新型的机器人带噪音语音识别装置及方法 - Google Patents

一种新型的机器人带噪音语音识别装置及方法 Download PDF

Info

Publication number
CN108109614A
CN108109614A CN201611034737.0A CN201611034737A CN108109614A CN 108109614 A CN108109614 A CN 108109614A CN 201611034737 A CN201611034737 A CN 201611034737A CN 108109614 A CN108109614 A CN 108109614A
Authority
CN
China
Prior art keywords
information
audio
robot
noisy speech
identification device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611034737.0A
Other languages
English (en)
Inventor
何中平
覃争鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rich Intelligent Science And Technology Ltd Is Reflected In Guangzhou
Original Assignee
Rich Intelligent Science And Technology Ltd Is Reflected In Guangzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rich Intelligent Science And Technology Ltd Is Reflected In Guangzhou filed Critical Rich Intelligent Science And Technology Ltd Is Reflected In Guangzhou
Priority to CN201611034737.0A priority Critical patent/CN108109614A/zh
Publication of CN108109614A publication Critical patent/CN108109614A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开一种新型的机器人带噪音语音识别装置及方法,所述装置包括Kinect设备与仿人机器人;所述Kinect设备用于捕获3D唇部信息与视觉信息并处理;所述仿人机器人用于获取、处理音频信息,并最终融合多种策略。所述方法包括:S1,获取视频源;S2,3D投影法采集唇区,及获取音频信息;S3,3D数据重构侧唇,及提取音频特征;S4,进行多流特征融合;S5,使用HMM模型建模并得出结果。

Description

一种新型的机器人带噪音语音识别装置及方法
技术领域
本发明涉及机器人语音识别技术,具体设计一种新型的机器人带噪音语音识别装置及方法。
背景技术
随着人机交互技术发展,机器人被期望能拥有像人类一样的感知能力并能与人类合作共事。为实现这一目标,一些研究者使用语音技术来让机器人理解人类的语言。
但是,运动状态中的机器人不可避免的会产生噪音,比如电动风扇和马达产生的噪音,因麦克风更靠近机器人,因此这些噪音相比用户的语言信息更易获取,造成了机器人语音识别效果不佳。
申请公布号为CN201610615354.6的发明专利公开了基于自然语言的机器人控制系统及控制方法,方法包括接收用户输入的自然语言声波信号;将自然语言声波信号转换为语言文字信息;对语言文字信息进行分析分解,信息分解结果为根据不同词性将所述语言文字信息分类而组合成的词语集合;根据预置的词汇库对所述词语集合进行语义匹配,获取所述词语集合的行为匹配结果;将行为匹配结果转换成语音输出;通过人机对话模式对行为匹配结果进行确认;对确认的行为匹配结果进行行为分解,并依照行为分解结果控制机器人的执行。
申请公布号为CN201410771233.1的发明专利公开了一种机器人语音识别方法,包含步骤1:打开音频传感器,采集音频信号;步骤2:对采集到的音频信号,进行模数转换;步骤3:将转换后代数字信号送人模式识别缓冲区;步骤4:对模式识别缓冲区中的信号按照振幅做离散化处理;步骤5:将按照振幅做离散化处理的数据,在模式识别数据库中进行匹配算法;步骤6:对所有命令依据匹配算法的结果进行概率运算;步骤7:按照概率从大到小的方式排序;步骤8:将概率最大的命令作为结果输出。
上述发明专利中,都是通过对音频信息进行加工处理,来提高语音识别效果,但噪音仍参与上述的加工处理过程,因此造成语音识别的效果仍然有较大误差。
发明内容
本发明目的在于克服传统方法中的不足,提供一种新型的机器人带噪音语音识别装置及方法。
本发明解决上述技术问题的技术方案为:
一种新型的机器人带噪音语音识别装置及方法,其中,所述装置包括Kinect设备与仿人机器人;其中,
所述Kinect设备用于捕获3D唇部信息与视觉信息并处理;所述仿人机器人用于获取、处理音频信息,并最终融合多种策略;
所述识别方法包括以下步骤:S1,获取视频源;S2,3D投影法采集唇区,及获取音频信息;S3,3D数据重构侧唇,及提取音频特征;S4,进行多流特征融合;S5,使用HMM模型建模并得出结果。
进一步地,本发明步骤S1中,获取视频源由Kinect设备获取。
进一步地,本发明步骤S2中,3D投影法采集唇区由Kinect的SDK提供的函数进行投影,并将唇区保存成32x 32像素;音频信息由机器人自带的麦克风矩阵获取,提取的特征为MFCCs特征。
进一步地,本发明步骤S3中,3D数据重构侧唇后,需将图片保存成bmp格式。
进一步地,本发明步骤S4中,进行多流特征是使用线性插值发完成音频和视频信息的匹配。
进一步地,本发明步骤S5中,通过HMM(出自论文《隐马尔可夫模型及其应用》,作者王志堂,蔡淋波,湖南科技学院学报,2009年04期)完成建模和识别效果。
本发明通过使用视频信息与音频信息两种特征,使用特征融合策略,有效避免如机器人马达,零件摩擦等造成的噪音干扰,提高了机器人语音识别系统的准确率。
附图说明
图1是本发明的新型的机器人带噪音语音识别装置及方法的流程图。
图2是本发明中所述方法的步骤3中的补全唇区的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本发明的一种新型的机器人带噪音语音识别装置及方法,其中,所述装置包括Kinect设备与仿人机器人;其中,所述Kinect设备用于捕获3D唇部信息与视觉信息并处理;所述仿人机器人用于获取、处理音频信息,并最终融合多种策略。
本发明的一种新型的机器人带噪音语音识别方法,具体包括以下步骤:
如图1所示,当用户发出语音命令后,机器人同时采集视频信息和音频信息。机器人采集到视频信息后,首先进行3D投影法定位唇区。定位方法如下:对于视频的每一帧,利用Kinect for windows SDK 121个3D点(其中18个点代表唇区)实时定位用户唇区。定位完成后,SDK自带的坐标转换函数,每个3D坐标(x,y,z)都可按照以下公式投影到彩色图像上,按照Z轴指向说话者,Y轴朝上,X轴指向左边,度量单位为米的原则投影在平面上。
其中,x,y,z分别为对应的3D图像x,y,z轴坐标,m表示Kinect与成像平面之间的距离。P(iamge)(x),P(image)(y)为投影后图像的x,y轴坐标,tan为正切函数。
唇区定位后,开始进行3D坐标重构侧唇。根据ZXY三轴的对应关系,将唇部轮廓插值为栅图代表空间位置和像素网络的点阵数据结构;填充栅格图颜色,距说话者越近,颜色越深,并将该侧唇保存为BMP格式图像。
机器人采集到音频信息后,采用MFCCs作为音频特征,使用了一个长度为30ms,步长为20ms的窗口来提取一阶系数和二阶系数,最终音频特征长度为78维。
采用离散余弦变换和主成分分析结合的方法将图像信息转换为特征向量。使用训练数据集获取平均值Mi和PCA转换矩阵Mpea,对于每个测试数据I,都可以使用
I=Mpca×Ipca+Mi
表示。使用PCA提取的数据像素特征为:
由于音频帧率为100Hz,而视觉信息和3D特征的帧速率是30Hz,因此采用线性插值法处理视觉信息和3D特征,以此来匹配音频速率。
对特征进行归一化操作,与传统声学语音信号中倒谱均归一化类似,以单词为单位,逐帧减去特征均值。并使用一个长度为J,步长为H的观察窗口,将窗口内连续的J帧特征凭借起来,得到唇部动态特征。
在此使用PCA对特征进行降维。
进行多流特征融合。特征融合方法是将时间同步的各个流进行直接连接,或者对连接后的特征进行某种适当的降维变换。假定t时刻同步的音频(A),视频(V)和3D特征向量为O(t),维度为Ds,其中s分别为A,V,3D。特征融合后是这三个流各自特征的串联,记为
其中D=DA+DV+D3D。然后将这些融合后的特征,融合后为:
O=[O(1),O(2),……O(T)]
其中T为一个单词所占发音时间。
最后使用HMM模型进行建模与识别。
上述为本发明较好的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (2)

1.一种新型的机器人带噪音语音识别装置,其特征在于,所述装置包括Kinect设备与仿人机器人;其中,所述Kinect设备用于捕获3D唇部信息与视觉信息并处理;所述仿人机器人用于获取、处理音频信息,并最终融合多种策略。
2.一种应用权利要求1所述的一种新型的机器人带噪音语音识别装置实现的识别方法,其特征在于,所述方法包括:S1,获取视频源;S2,3D投影法采集唇区,及获取音频信息;S3,3D数据重构侧唇,及提取音频特征;S4,进行多流特征融合;S5,使用HMM模型建模并得出结果。
CN201611034737.0A 2016-11-24 2016-11-24 一种新型的机器人带噪音语音识别装置及方法 Pending CN108109614A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611034737.0A CN108109614A (zh) 2016-11-24 2016-11-24 一种新型的机器人带噪音语音识别装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611034737.0A CN108109614A (zh) 2016-11-24 2016-11-24 一种新型的机器人带噪音语音识别装置及方法

Publications (1)

Publication Number Publication Date
CN108109614A true CN108109614A (zh) 2018-06-01

Family

ID=62203614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611034737.0A Pending CN108109614A (zh) 2016-11-24 2016-11-24 一种新型的机器人带噪音语音识别装置及方法

Country Status (1)

Country Link
CN (1) CN108109614A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191490A (zh) * 2018-11-15 2020-05-22 天津大学青岛海洋技术研究院 一种基于Kinect视觉的唇读研究的方法
CN111798849A (zh) * 2020-07-06 2020-10-20 广东工业大学 一种机器人指令识别方法、装置及电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191490A (zh) * 2018-11-15 2020-05-22 天津大学青岛海洋技术研究院 一种基于Kinect视觉的唇读研究的方法
CN111798849A (zh) * 2020-07-06 2020-10-20 广东工业大学 一种机器人指令识别方法、装置及电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN111091824B (zh) 一种语音匹配方法及相关设备
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
Olszewski et al. High-fidelity facial and speech animation for VR HMDs
US9431027B2 (en) Synchronized gesture and speech production for humanoid robots using random numbers
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
CN110751708B (zh) 一种实时的语音驱动人脸动画的方法和系统
JP2019008134A (ja) 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
Yargıç et al. A lip reading application on MS Kinect camera
CN106157956A (zh) 语音识别的方法及装置
US7257538B2 (en) Generating animation from visual and audio input
CN106570473A (zh) 基于机器人的聋哑人手语识别交互系统
CN108073875A (zh) 一种基于单目摄像头的带噪音语音识别系统及方法
CN109116981A (zh) 一种被动触觉反馈的混合现实交互系统
WO2021203880A1 (zh) 一种语音增强方法、训练神经网络的方法以及相关设备
US20230386461A1 (en) Voice user interface using non-linguistic input
Eskimez et al. Noise-resilient training method for face landmark generation from speech
CN114779922A (zh) 教学设备的控制方法、控制设备、教学系统和存储介质
Tezuka et al. Ego-motion noise suppression for robots based on semi-blind infinite non-negative matrix factorization
CN108109614A (zh) 一种新型的机器人带噪音语音识别装置及方法
Tung et al. Multiparty interaction understanding using smart multimodal digital signage
JP4379616B2 (ja) モーションキャプチャデータ補正装置、マルチモーダルコーパス作成システム、画像合成装置、及びコンピュータプログラム
CN116934926B (zh) 一种基于多模态数据融合的识别方法和系统
Wen et al. 3D Face Processing: Modeling, Analysis and Synthesis
Sui et al. A 3D audio-visual corpus for speech recognition
Jaroslavceva et al. Robot Ego‐Noise Suppression with Labanotation‐Template Subtraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180601

WD01 Invention patent application deemed withdrawn after publication