CN108109614A - 一种新型的机器人带噪音语音识别装置及方法 - Google Patents
一种新型的机器人带噪音语音识别装置及方法 Download PDFInfo
- Publication number
- CN108109614A CN108109614A CN201611034737.0A CN201611034737A CN108109614A CN 108109614 A CN108109614 A CN 108109614A CN 201611034737 A CN201611034737 A CN 201611034737A CN 108109614 A CN108109614 A CN 108109614A
- Authority
- CN
- China
- Prior art keywords
- information
- audio
- robot
- noisy speech
- identification device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 230000000007 visual effect Effects 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 238000000354 decomposition reaction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 230000003139 buffering effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开一种新型的机器人带噪音语音识别装置及方法,所述装置包括Kinect设备与仿人机器人;所述Kinect设备用于捕获3D唇部信息与视觉信息并处理;所述仿人机器人用于获取、处理音频信息,并最终融合多种策略。所述方法包括:S1,获取视频源;S2,3D投影法采集唇区,及获取音频信息;S3,3D数据重构侧唇,及提取音频特征;S4,进行多流特征融合;S5,使用HMM模型建模并得出结果。
Description
技术领域
本发明涉及机器人语音识别技术,具体设计一种新型的机器人带噪音语音识别装置及方法。
背景技术
随着人机交互技术发展,机器人被期望能拥有像人类一样的感知能力并能与人类合作共事。为实现这一目标,一些研究者使用语音技术来让机器人理解人类的语言。
但是,运动状态中的机器人不可避免的会产生噪音,比如电动风扇和马达产生的噪音,因麦克风更靠近机器人,因此这些噪音相比用户的语言信息更易获取,造成了机器人语音识别效果不佳。
申请公布号为CN201610615354.6的发明专利公开了基于自然语言的机器人控制系统及控制方法,方法包括接收用户输入的自然语言声波信号;将自然语言声波信号转换为语言文字信息;对语言文字信息进行分析分解,信息分解结果为根据不同词性将所述语言文字信息分类而组合成的词语集合;根据预置的词汇库对所述词语集合进行语义匹配,获取所述词语集合的行为匹配结果;将行为匹配结果转换成语音输出;通过人机对话模式对行为匹配结果进行确认;对确认的行为匹配结果进行行为分解,并依照行为分解结果控制机器人的执行。
申请公布号为CN201410771233.1的发明专利公开了一种机器人语音识别方法,包含步骤1:打开音频传感器,采集音频信号;步骤2:对采集到的音频信号,进行模数转换;步骤3:将转换后代数字信号送人模式识别缓冲区;步骤4:对模式识别缓冲区中的信号按照振幅做离散化处理;步骤5:将按照振幅做离散化处理的数据,在模式识别数据库中进行匹配算法;步骤6:对所有命令依据匹配算法的结果进行概率运算;步骤7:按照概率从大到小的方式排序;步骤8:将概率最大的命令作为结果输出。
上述发明专利中,都是通过对音频信息进行加工处理,来提高语音识别效果,但噪音仍参与上述的加工处理过程,因此造成语音识别的效果仍然有较大误差。
发明内容
本发明目的在于克服传统方法中的不足,提供一种新型的机器人带噪音语音识别装置及方法。
本发明解决上述技术问题的技术方案为:
一种新型的机器人带噪音语音识别装置及方法,其中,所述装置包括Kinect设备与仿人机器人;其中,
所述Kinect设备用于捕获3D唇部信息与视觉信息并处理;所述仿人机器人用于获取、处理音频信息,并最终融合多种策略;
所述识别方法包括以下步骤:S1,获取视频源;S2,3D投影法采集唇区,及获取音频信息;S3,3D数据重构侧唇,及提取音频特征;S4,进行多流特征融合;S5,使用HMM模型建模并得出结果。
进一步地,本发明步骤S1中,获取视频源由Kinect设备获取。
进一步地,本发明步骤S2中,3D投影法采集唇区由Kinect的SDK提供的函数进行投影,并将唇区保存成32x 32像素;音频信息由机器人自带的麦克风矩阵获取,提取的特征为MFCCs特征。
进一步地,本发明步骤S3中,3D数据重构侧唇后,需将图片保存成bmp格式。
进一步地,本发明步骤S4中,进行多流特征是使用线性插值发完成音频和视频信息的匹配。
进一步地,本发明步骤S5中,通过HMM(出自论文《隐马尔可夫模型及其应用》,作者王志堂,蔡淋波,湖南科技学院学报,2009年04期)完成建模和识别效果。
本发明通过使用视频信息与音频信息两种特征,使用特征融合策略,有效避免如机器人马达,零件摩擦等造成的噪音干扰,提高了机器人语音识别系统的准确率。
附图说明
图1是本发明的新型的机器人带噪音语音识别装置及方法的流程图。
图2是本发明中所述方法的步骤3中的补全唇区的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本发明的一种新型的机器人带噪音语音识别装置及方法,其中,所述装置包括Kinect设备与仿人机器人;其中,所述Kinect设备用于捕获3D唇部信息与视觉信息并处理;所述仿人机器人用于获取、处理音频信息,并最终融合多种策略。
本发明的一种新型的机器人带噪音语音识别方法,具体包括以下步骤:
如图1所示,当用户发出语音命令后,机器人同时采集视频信息和音频信息。机器人采集到视频信息后,首先进行3D投影法定位唇区。定位方法如下:对于视频的每一帧,利用Kinect for windows SDK 121个3D点(其中18个点代表唇区)实时定位用户唇区。定位完成后,SDK自带的坐标转换函数,每个3D坐标(x,y,z)都可按照以下公式投影到彩色图像上,按照Z轴指向说话者,Y轴朝上,X轴指向左边,度量单位为米的原则投影在平面上。
其中,x,y,z分别为对应的3D图像x,y,z轴坐标,m表示Kinect与成像平面之间的距离。P(iamge)(x),P(image)(y)为投影后图像的x,y轴坐标,tan为正切函数。
唇区定位后,开始进行3D坐标重构侧唇。根据ZXY三轴的对应关系,将唇部轮廓插值为栅图代表空间位置和像素网络的点阵数据结构;填充栅格图颜色,距说话者越近,颜色越深,并将该侧唇保存为BMP格式图像。
机器人采集到音频信息后,采用MFCCs作为音频特征,使用了一个长度为30ms,步长为20ms的窗口来提取一阶系数和二阶系数,最终音频特征长度为78维。
采用离散余弦变换和主成分分析结合的方法将图像信息转换为特征向量。使用训练数据集获取平均值Mi和PCA转换矩阵Mpea,对于每个测试数据I,都可以使用
I=Mpca×Ipca+Mi
表示。使用PCA提取的数据像素特征为:
由于音频帧率为100Hz,而视觉信息和3D特征的帧速率是30Hz,因此采用线性插值法处理视觉信息和3D特征,以此来匹配音频速率。
对特征进行归一化操作,与传统声学语音信号中倒谱均归一化类似,以单词为单位,逐帧减去特征均值。并使用一个长度为J,步长为H的观察窗口,将窗口内连续的J帧特征凭借起来,得到唇部动态特征。
在此使用PCA对特征进行降维。
进行多流特征融合。特征融合方法是将时间同步的各个流进行直接连接,或者对连接后的特征进行某种适当的降维变换。假定t时刻同步的音频(A),视频(V)和3D特征向量为O(t),维度为Ds,其中s分别为A,V,3D。特征融合后是这三个流各自特征的串联,记为
其中D=DA+DV+D3D。然后将这些融合后的特征,融合后为:
O=[O(1),O(2),……O(T)]
其中T为一个单词所占发音时间。
最后使用HMM模型进行建模与识别。
上述为本发明较好的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (2)
1.一种新型的机器人带噪音语音识别装置,其特征在于,所述装置包括Kinect设备与仿人机器人;其中,所述Kinect设备用于捕获3D唇部信息与视觉信息并处理;所述仿人机器人用于获取、处理音频信息,并最终融合多种策略。
2.一种应用权利要求1所述的一种新型的机器人带噪音语音识别装置实现的识别方法,其特征在于,所述方法包括:S1,获取视频源;S2,3D投影法采集唇区,及获取音频信息;S3,3D数据重构侧唇,及提取音频特征;S4,进行多流特征融合;S5,使用HMM模型建模并得出结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611034737.0A CN108109614A (zh) | 2016-11-24 | 2016-11-24 | 一种新型的机器人带噪音语音识别装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611034737.0A CN108109614A (zh) | 2016-11-24 | 2016-11-24 | 一种新型的机器人带噪音语音识别装置及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108109614A true CN108109614A (zh) | 2018-06-01 |
Family
ID=62203614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611034737.0A Pending CN108109614A (zh) | 2016-11-24 | 2016-11-24 | 一种新型的机器人带噪音语音识别装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108109614A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191490A (zh) * | 2018-11-15 | 2020-05-22 | 天津大学青岛海洋技术研究院 | 一种基于Kinect视觉的唇读研究的方法 |
CN111798849A (zh) * | 2020-07-06 | 2020-10-20 | 广东工业大学 | 一种机器人指令识别方法、装置及电子设备和存储介质 |
-
2016
- 2016-11-24 CN CN201611034737.0A patent/CN108109614A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191490A (zh) * | 2018-11-15 | 2020-05-22 | 天津大学青岛海洋技术研究院 | 一种基于Kinect视觉的唇读研究的方法 |
CN111798849A (zh) * | 2020-07-06 | 2020-10-20 | 广东工业大学 | 一种机器人指令识别方法、装置及电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111091824B (zh) | 一种语音匹配方法及相关设备 | |
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
Olszewski et al. | High-fidelity facial and speech animation for VR HMDs | |
US9431027B2 (en) | Synchronized gesture and speech production for humanoid robots using random numbers | |
JP5323770B2 (ja) | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 | |
CN110751708B (zh) | 一种实时的语音驱动人脸动画的方法和系统 | |
JP2019008134A (ja) | 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム | |
Yargıç et al. | A lip reading application on MS Kinect camera | |
CN106157956A (zh) | 语音识别的方法及装置 | |
US7257538B2 (en) | Generating animation from visual and audio input | |
CN106570473A (zh) | 基于机器人的聋哑人手语识别交互系统 | |
CN108073875A (zh) | 一种基于单目摄像头的带噪音语音识别系统及方法 | |
CN109116981A (zh) | 一种被动触觉反馈的混合现实交互系统 | |
WO2021203880A1 (zh) | 一种语音增强方法、训练神经网络的方法以及相关设备 | |
US20230386461A1 (en) | Voice user interface using non-linguistic input | |
Eskimez et al. | Noise-resilient training method for face landmark generation from speech | |
CN114779922A (zh) | 教学设备的控制方法、控制设备、教学系统和存储介质 | |
Tezuka et al. | Ego-motion noise suppression for robots based on semi-blind infinite non-negative matrix factorization | |
CN108109614A (zh) | 一种新型的机器人带噪音语音识别装置及方法 | |
Tung et al. | Multiparty interaction understanding using smart multimodal digital signage | |
JP4379616B2 (ja) | モーションキャプチャデータ補正装置、マルチモーダルコーパス作成システム、画像合成装置、及びコンピュータプログラム | |
CN116934926B (zh) | 一种基于多模态数据融合的识别方法和系统 | |
Wen et al. | 3D Face Processing: Modeling, Analysis and Synthesis | |
Sui et al. | A 3D audio-visual corpus for speech recognition | |
Jaroslavceva et al. | Robot Ego‐Noise Suppression with Labanotation‐Template Subtraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180601 |
|
WD01 | Invention patent application deemed withdrawn after publication |