CN114664295A - 用于机器人的语音识别方法、装置及机器人 - Google Patents
用于机器人的语音识别方法、装置及机器人 Download PDFInfo
- Publication number
- CN114664295A CN114664295A CN202011420332.7A CN202011420332A CN114664295A CN 114664295 A CN114664295 A CN 114664295A CN 202011420332 A CN202011420332 A CN 202011420332A CN 114664295 A CN114664295 A CN 114664295A
- Authority
- CN
- China
- Prior art keywords
- image
- voice
- array signal
- robot
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000011159 matrix material Substances 0.000 claims description 44
- 230000009467 reduction Effects 0.000 claims description 36
- 239000013598 vector Substances 0.000 claims description 18
- 230000005236 sound signal Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 5
- 230000002238 attenuated effect Effects 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000033001 locomotion Effects 0.000 description 5
- 238000009434 installation Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009347 mechanical transmission Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本公开关于一种用于机器人的语音识别方法,包括以下步骤:获取机器人采集的语音阵列信号,并获取所述机器人采集的图像阵列信号;根据所述图像阵列信号生成注意力权重;以及将所述语音阵列信号和所述注意力权重输入至语音识别模型以生成语音识别结果。本公开的实施例之中,可以根据图像阵列信号对语音识别模型之中的注意力权重进行调整,从而提升语音识别的准确性。通过对图像阵列信号的分析可以获得在采集的图像之中的位置和方向,并将用户所在方向的语音特征的权重相应提高,或对非目标说话人方向麦克风声音特征的权重进行衰减,从而在语音识别算法上进行相应的增强,以提升语音识别准确度。
Description
技术领域
本公开涉及机器人领域,尤其涉及一种用于机器人的语音识别方法、装置及机器人,以及存储介质。
背景技术
随着机器人的不断发展,机器人宠物越来越普及。然而,机器人宠物,例如足式机器人,在与人语音交互过程中,其是不断运动的。与传统固定的智能设备(如智能音箱)不同,由于机器宠物的不断运动,其自身会产生很多噪声,例如驱动电机的噪声,运动过程中关节部分机械传动噪声等等,这些噪声会对语音的识别产生很大的干扰。
此外,由于机器人时刻处于运动状态,因此其可能会距离用户非常远,此时由于自身噪声以及环境噪声的影响,就会导致用户的语音识别不准确,从而导致机器人无法准确响应用户的指令。
发明内容
本公开提供一种用于机器人的语音识别方法、装置及机器人,以及存储介质,以至少解决相关技术中语音识别不准确的问题。本公开的技术方案如下:
根据本公开实施例的一方面,提供一种用于机器人的语音识别方法,包括以下步骤:获取机器人采集的语音阵列信号,并获取所述机器人采集的图像阵列信号;根据所述图像阵列信号生成注意力权重;以及将所述语音阵列信号和所述注意力权重输入至语音识别模型以生成语音识别结果。
在本公开的一个实施例之中,所述获取机器人采集的语音信号,包括:通过所述机器人的多个麦克风采集多组音频信号;以及对所述多组音频信号进行拼接以形成语音阵列信号。
在本公开的一个实施例之中,所述对所述多组音频信号进行拼接以形成语音阵列信号,包括:对所述语音阵列信号进行分帧,以形成多帧语音信号;对所述多帧语音信号进行对齐,并对对齐之后的多帧语音信号进行拼接以形成所述语音阵列信号。
在本公开的一个实施例之中,所述获取所述机器人采集的图像阵列信号,包括:通过所述机器人的多个摄像头采集多个图像信号;对所述多个图像信号进行降维;以及对降维之后的所述多个图像信号进行拼接以生成所述图像阵列信号。
在本公开的一个实施例之中,所述语音阵列信号与所述图像阵列信号的阵列大小相同。
在本公开的一个实施例之中,所述根据所述图像阵列信号生成注意力权重,包括:将所述图像阵列信号输入至图像识别模型以生成所述注意力权重。
在本公开的一个实施例之中,所述对所述多个图像信号进行降维,包括:对所述多个图像信号进行离散余弦变换以生成多个频率域特征矩阵;根据所述多个频率域特征矩阵生成多个图像向量;将所述多个图像向量组合成图像矩阵;根据所述图像矩阵生成协方差矩阵的多个特征值及每个所述特征值对应特征向量;根据所述多个特征值对应的特征向量从所述多个特征值之中选择前k行组成降维矩阵,其中,k为正整数。
在本公开的一个实施例之中,所述语音识别模型和所述图像识别模型通过联合训练生成。
根据本公开实施例的另一方面,还提出了一种用于机器人的语音识别装置,包括:语音采集模块,用于采集机器人的语音阵列信号;图像采集模块,用于采集所述机器人的图像阵列信号;注意力权重生成模块,用于根据所述图像阵列信号生成注意力权重;以及识别模块,用于将所述语音阵列信号和所述注意力权重输入至语音识别模型以生成语音识别结果。
在本公开的一个实施例之中,所述语音采集模块包括:多个麦克风,用于采集多组音频信号;以及第一拼接子模块,用于对所述多组音频信号进行拼接以形成语音阵列信号。
在本公开的一个实施例之中,所述第一拼接子模块对所述语音阵列信号进行分帧,以形成多帧语音信号,并对所述多帧语音信号进行对齐,以及对对齐之后的多帧语音信号进行拼接以形成所述语音阵列信号。
在本公开的一个实施例之中,所述图像采集模块包括:多个摄像头,用于采集所述机器人的多个图像信号;降维子模块,用于对所述多个图像信号进行降维;以及第二拼接子模块,用于对降维之后的所述多个图像信号进行拼接以生成所述图像阵列信号。
在本公开的一个实施例之中,所述语音阵列信号与所述图像阵列信号的阵列大小相同。
在本公开的一个实施例之中,所述注意力权重生成模块将所述图像阵列信号输入至图像识别模型以生成所述注意力权重。
在本公开的一个实施例之中,所述降维子模块包括:变换单元,用于对所述多个图像信号进行离散余弦变换以生成多个频率域特征矩阵;图像向量生成单元,用于根据所述多个频率域特征矩阵生成多个图像向量;图像矩阵生成单元,用于将所述多个图像向量组合成图像矩阵;特征值生成单元,用于根据所述图像矩阵生成协方差矩阵的多个特征值及每个所述特征值对应特征向量;降维矩阵生成单元,根据所述多个特征值对应的特征向量从所述多个特征值之中选择前k行组成降维矩阵,其中,k为正整数。
在本公开的一个实施例之中,还包括:训练模块,用于对所述语音识别模型和所述图像识别模型进行联合训练。
根据本公开实施例的另一方面,还提出了一种机器人,包括如上所述的语音识别装置。
根据本公开实施例的另一方面,还提出了一种语音识别装置,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如上所述的语音识别方法。
根据本公开实施例的另一方面,还提出了一种存储介质,当所述存储介质中的指令由语音识别装置的处理器执行时,使得语音识别装置能够执行如上所述的语音识别方法。
根据本公开实施例的另一方面,还提出了一种计算机程序产品,用于执行如上所述的语音识别方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开的实施例之中,可以根据图像阵列信号对语音识别模型之中的注意力权重进行调整,从而提升语音识别的准确性。通过对图像阵列信号的分析可以获得在采集的图像之中的位置和方向,并将用户所在方向的语音特征的权重相应提高,或对非目标说话人方向麦克风声音特征的权重进行衰减,从而在语音识别算法上进行相应的增强,以提升语音识别准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种用于机器人的语音识别方法的流程图;
图2为本公开实施例的语音识别的示意框图;
图3为本公开的实施例的语音识别模型和图像识别模型的神经网络结构示意图;
图4为本公开实施例的对多个图像信号进行降维的方法流程图;
图5为本公开实施例的用于机器人的语音识别装置的结构图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开的一个实施例之中,机器人,特别是足式机器人,相对于其他智能设备来说,由于其经常处于运动状态,因此其与用户的距离可能会非常远,且用户相对于机器人的位置也不固定。加之在机器人跑动过程之中,特别是户外跑到时的环境噪声非常大,同时机器人自身运动产生的噪声也非常大,导致机器人非常难以识别用户的语音信号。对此,本公开实施例提出了依据用户位置对语音识别模型的注意力权重进行调整,以将用户方向的语音信号进行增强,从而提升语音识别的准确性。在本公开的一个实施例之中,可以通过对摄像头采集的图像进行图像识别,从而生成相应的注意力权重。
图1是根据一示例性实施例示出的一种用于机器人的语音识别方法的流程图,如图1所示,用于机器人的语音识别方法的方法,包括以下步骤:
步骤110,获取机器人采集的语音阵列信号,并获取所述机器人采集的图像阵列信号。
在本公开的一个实施例之中,机器人可为足式机器人,例如四足机器人或两足机器人等。在本公开的其他实施例之中,该机器人之中可以设置多个麦克风。例如在该机器人的前部,后部均设置一个麦克风,同时在机器人的两侧各设置有两个麦克风。这样,无论用户在机器人的哪个方向,都能进行很好的语音采集。此外,在本公开的一个实施例之中,多个麦克风均为全向麦克风。在本公开的实施例之中,通过机器人之上的多个麦克风采集了多组语音信息,并通过多路语音信息生成语音阵列信号。
在本公开的一个实施例之中,可以对多组音频信号进行拼接以形成语音阵列信号。在该实施例之中,语音阵列信号为以机器人为中心的,采集机器人周边360度语音方向的语音阵列。在本公开的实施例之中,以上的麦克风设置方式仅是一种实施方式,然而在本公开的其他实施例之中,还可以通过其他的麦克风设置方式实现,只要能检测360度语音方向即可。当然,以上所述的360度语音方向也仅是一个实施例,在本公开的其他实施例之中,还可以选择180度语音方向或者其他的角度语音方向,具体选择何种语音方向,是依据机器人的产品要求进行选择。
在本公开的一个实施例之中,在获得语音阵列信号之后,由于多个麦克风采集的语音信号会有重复,因此需要消除重复。同时,由于多个麦克风在机器人之上的安装位置不同,因此每个麦克风接收到语音信号的时延信息也不同。因此在本公开的实施例之中,还需要对不同麦克风接收到的语音信号进行对齐,从而消除多个麦克风采集的多组语音信号之间的时延信息。在本公开的实施例之中,由于多个麦克风在机器人之上的安装位置是固定的,因此各个麦克风之间的时延信息也是固定的,即将麦克风的拓扑信息预设在机器人之中。在该实施例之中,可以先对语音阵列信号进行分帧以形成多帧语音信号,并根据拓扑信息对多帧语音信号进行对齐,并对对齐之后的多帧语音信号进行拼接以形成语音阵列信号。通过拓扑信息的对齐,可以消除各个麦克风采集的语音信息之间的时延信息。
在本公开的一个实施例之中,与语音阵列信号相匹配的,在该实施例之中,还可在机器人之上设置多个摄像头,从而采集与语音阵列信号相匹配的图像阵列信号。在该实施例之中,图像阵列信号也可以是360度。如上所述的,由于图像阵列信号是为了后续生成语音阵列信号的注意力权重的生成,因此需要将图像信号进行降维处理,使得图像阵列信号和语音阵列信号能够处于同一个维度。在该实施例之中,首先对对多个图像信号进行降维,之后对降维之后的多个图像信号进行拼接以生成图像阵列信号。在本公开的后续实施例之中,将对如何进行图像降维进行详细的介绍。
在本公开的一个实施例之中,语音阵列信号与图像阵列信号的阵列大小相同,因此通过图像阵列信号生成注意力权重,可以用于语音识别模型的注意力矩阵的调整。
在本公开的一个实施例之中,可以设置一个固定的长度,同时对语音信息和图像信息进行采集,并在采集的语音信息和图像信息到达上述固定长度的帧数之后,将采集的语音信息和图像信息输入到语音识别模型和图像识别模型之中进行识别。
步骤130,根据图像阵列信号生成注意力权重。
在本公开的一个实施例之中,将图像阵列信号输入至图像识别模型以生成注意力权重。如图2所示,为本公开实施例的语音识别的示意框图。其中,包括多个麦克风10以及多个摄像头20,以及语音识别模型30和图像识别模型40。在该实施例之中,多个麦克风10将采集的多个语音信号输入至语音识别模型30,语音识别模型30根据多个语音信号生成语音阵列信号。语音识别模型30根据语音识别神经网络对语音阵列信号进行识别,从而生成相应的语音识别结果。在该实施例之中,语音识别神经网络使用注意力模型进行计算,该注意力模型的注意力权重由图像识别模型40的输出得到。在该实施例之中,多个摄像头采集多个图像信号,并将多个图像信号输入至图像识别模型40进行处理。图像识别模型40对多个图像信号进行处理以生成图像阵列信号,并对图像阵列信号进行图像识别从而生成相应的注意力权重。在上述实施例之中,虽然以多个麦克风和多个摄像头进行举例,但是也可以使用一个麦克风和一个摄像头采集某个特定方向的语音或图像。
在本公开的实施例之中,可以将语音特征和图像特征分别送入语音识别模型和图像识别模型之中,图像识别模型的神经网络专注于提取用于多个麦克风通道的注意力权重,用于增强目标说话人方向的麦克风语音特征,和/或衰减非目标说话人方向麦克风语音特征的权重,从而实现语音识别准确度的大幅提升。在该实施例之中,可以通过图像识别模型40可以及时准确地输出相应的注意力权重。
步骤150,将语音阵列信号和注意力权重输入至语音识别模型以生成语音识别结果。
在本公开的实施例之中,可以将步骤130计算得到的注意力权重输入至语音识别模型之中,通过语音识别模型之中的注意力网络对语音阵列信号进行识别。如图3所示,为本公开的实施例的语音识别模型和图像识别模型的神经网络结构示意图。如图3所示,在对语音阵列信号进行语音特征提取,从而生成语音特征,例如,MFCC(Mel-FrequencyCepstral Coefficients,梅尔频率倒谱系数)特征。在该实施例之中,同样地还需要根据图像阵列信号提取图像特征。图像识别网络之中包括多个CNN(Convolutional NeuralNetwork,卷积神经网络)网络,例如三个CNN网络以及全连接层和SOFTMAX层。同样地,在语音识别模型之中,包括注意力网络和多个DNN(Deep Neural Networks,深度神经网络)以及DENSE层和SOFTMAX层。在该实施例之中,图像识别模型的注意力权重输入至语音识别模型的注意力网络之中。在该实施例之中,通过注意力网络可以将输入的语音阵列信号整合成一个新的特征,并将该新的特征输入值后续的隐藏层从而得到每一帧的后验概率。最后将后验概率转换成似然概率并通过维特比算法进行解码得到识别结果。
在本公开的实施例之中,注意力权重为图像识别模型之中神经网络的SOFTMAX的输出,SOFTMAX的输出维度与麦克风阵列的通道数相等。在本公开的实施例之中,语音识别模型和图像识别模型通过联合训练生成。
如图4所示,为本公开实施例的对多个图像信号进行降维的方法流程图。该方法包括以下步骤:
步骤410,对多个图像信号进行离散余弦变换以生成多个频率域特征矩阵。
首先,对每个摄像头拍摄的图片进行DCT(Discrete Cosine Transform,离散余弦变换)变换。从而将二维图像从空间域转换到频率域,因此看出图像由哪些二维余弦波构成。计算过程如下:
F=AfAT,
其中,c(i)为补偿系数,f为图像信号像素值构成的矩阵,A是转换矩阵,其中i为二维波的水平方向频率,j为二维波的垂直方向频率,取值范围为0-(N-1),N是图像块的大小,F矩阵为转换后的频率域特征矩阵。
步骤420,根据多个频率域特征矩阵生成多个图像向量。
在本公开的实施例之中,对转换后的F进行PCA(Principal Component Analysis,主成分分析)。因为图像维度过高会导致在训练数据不够大的情况下网络难以学到有效信息。同时这样做也降低了网络的计算量。首先,设有m张经过DCT变换后的图像,例如有F1,F2,…,Fm。在该步骤之中,将矩阵F1,F2,…,Fm整形为多个图像向量V1,…,Vm,假设V1,…,Vm,维度为n。
步骤430,将多个图像向量组合成图像矩阵。
在本公开的一个实施例之中,将多个图像向量V1,…,Vm组成n行m列的图像矩阵X。
步骤440,根据图像矩阵生成协方差矩阵的多个特征值及每个特征值对应特征向量。
在本公开的一个实施例之中,将图像矩阵X的每一行进行零均值化,也就是减去这一行的均值。之后获得协方差矩阵,以及求出协方差矩阵的特征值及对应的特征向量。
步骤450,根据多个特征值对应的特征向量从多个特征值之中选择前k行组成降维矩阵,其中,k为正整数。
在本公开的一个实施例之中,将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P,即获得降维到k维后的数据,从而生成降维矩阵。
本公开的实施例之中,可以根据图像阵列信号对语音识别模型之中的注意力权重进行调整,从而提升语音识别的准确性。通过对图像阵列信号的分析可以获得在采集的图像之中的位置和方向,并将用户所在方向的语音特征的权重相应提高,或对非目标说话人方向麦克风声音特征的权重进行衰减,从而在语音识别算法上进行相应的增强,以提升语音识别准确度。
如图5所示,为本公开实施例的用于机器人的语音识别装置的结构图。该用于机器人的语音识别装置500包括语音采集模块510、图像采集模块520、注意力权重生成模块530和识别模块540。其中,语音采集模块510用于采集机器人的语音阵列信号。图像采集模块520用于采集机器人的图像阵列信号。注意力权重生成模块530用于根据图像阵列信号生成注意力权重。识别模块540用于将语音阵列信号和注意力权重输入至语音识别模型以生成语音识别结果。
在本公开的一个实施例之中,机器人可为足式机器人,例如四足机器人或两足机器人等。在本公开的其他实施例之中,该机器人之中可以设置多个麦克风。例如在该机器人的前部,后部均设置一个麦克风,同时在机器人的两侧各设置有两个麦克风。这样,无论用户在机器人的哪个方向,都能进行很好的语音采集。此外,在本公开的一个实施例之中,多个麦克风均为全向麦克风。在本公开的实施例之中,通过机器人之上的多个麦克风采集了多组语音信息,并通过多路语音信息生成语音阵列信号。
在本公开的一个实施例之中,可以对多组音频信号进行拼接以形成语音阵列信号。在该实施例之中,语音阵列信号为以机器人为中心的,采集机器人周边360度语音方向的语音阵列。在本公开的实施例之中,以上的麦克风设置方式仅是一种实施方式,然而在本公开的其他实施例之中,还可以通过其他的麦克风设置方式实现,只要能检测360度语音方向即可。当然,以上所述的360度语音方向也仅是一个实施例,在本公开的其他实施例之中,还可以选择180度语音方向或者其他的角度语音方向,具体选择何种语音方向,是依据机器人的产品要求进行选择。
在本公开的一个实施例之中,在获得语音阵列信号之后,由于多个麦克风采集的语音信号会有重复,因此需要消除重复。同时,由于多个麦克风在机器人之上的安装位置不同,因此每个麦克风接收到语音信号的时延信息也不同。因此在本公开的实施例之中,还需要对不同麦克风接收到的语音信号进行对齐,从而消除多个麦克风采集的多组语音信号之间的时延信息。在本公开的实施例之中,由于多个麦克风在机器人之上的安装位置是固定的,因此各个麦克风之间的时延信息也是固定的,即将麦克风的拓扑信息预设在机器人之中。在该实施例之中,可以先对语音阵列信号进行分帧以形成多帧语音信号,并根据拓扑信息对多帧语音信号进行对齐,并对对齐之后的多帧语音信号进行拼接以形成语音阵列信号。通过拓扑信息的对齐,可以消除各个麦克风采集的语音信息之间的时延信息。
在本公开的一个实施例之中,与语音阵列信号相匹配的,在该实施例之中,还可在机器人之上设置多个摄像头,从而采集与语音阵列信号相匹配的图像阵列信号。在该实施例之中,图像阵列信号也可以是360度。如上所述的,由于图像阵列信号是为了后续生成语音阵列信号的注意力权重的生成,因此需要将图像信号进行降维处理,使得图像阵列信号和语音阵列信号能够处于同一个维度。在该实施例之中,首先对对多个图像信号进行降维,之后对降维之后的多个图像信号进行拼接以生成图像阵列信号。在本公开的后续实施例之中,将对如何进行图像降维进行详细的介绍。
在本公开的一个实施例之中,语音阵列信号与图像阵列信号的阵列大小相同,因此通过图像阵列信号生成注意力权重,可以用于语音识别模型的注意力矩阵的调整。
在本公开的一个实施例之中,语音采集模块510包括多个麦克风511和第一拼接子模块512。其中,多个麦克风511用于采集多组音频信号。第一拼接子模块512用于对多组音频信号进行拼接以形成语音阵列信号。
在本公开的一个实施例之中,第一拼接子模块512对语音阵列信号进行分帧,以形成多帧语音信号,并对多帧语音信号进行对齐,以及对对齐之后的多帧语音信号进行拼接以形成语音阵列信号。
在本公开的一个实施例之中,图像采集模块520包括多个摄像头521、降维子模块522和第二拼接子模块523。其中,多个摄像头521用于采集机器人的多个图像信号。降维子模块522用于对多个图像信号进行降维。第二拼接子模块523用于对降维之后的多个图像信号进行拼接以生成图像阵列信号。
在本公开的一个实施例之中,语音阵列信号与图像阵列信号的阵列大小相同。
在本公开的一个实施例之中,注意力权重生成模块530将图像阵列信号输入至图像识别模型以生成注意力权重。
在本公开的一个实施例之中,降维子模块522包括变换单元、图像向量生成单元、图像矩阵生成单元、特征值生成单元和降维矩阵生成单元。变换单元用于对多个图像信号进行离散余弦变换以生成多个频率域特征矩阵。图像向量生成单元用于根据多个频率域特征矩阵生成多个图像向量。图像矩阵生成单元用于将多个图像向量组合成图像矩阵。特征值生成单元用于根据图像矩阵生成协方差矩阵的多个特征值及每个所述特征值对应特征向量。降维矩阵生成单元根据多个特征值对应的特征向量从多个特征值之中选择前k行组成降维矩阵,其中,k为正整数。
在本公开的一个实施例之中,该用于机器人的语音识别装置500还包括训练模块550。训练模块550用于对语音识别模型和图像识别模型进行联合训练。
根据本公开实施例的另一方面,还提出了一种机器人,包括如上所述的语音识别装置。
根据本公开实施例的另一方面,还提出了一种语音识别装置,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如上所述的语音识别方法。
根据本公开实施例的另一方面,还提出了一种存储介质,当所述存储介质中的指令由语音识别装置的处理器执行时,使得语音识别装置能够执行如上所述的语音识别方法。
根据本公开实施例的另一方面,还提出了一种计算机程序产品,用于执行如上所述的语音识别方法。
本公开的实施例之中,可以根据图像阵列信号对语音识别模型之中的注意力权重进行调整,从而提升语音识别的准确性。通过对图像阵列信号的分析可以获得在采集的图像之中的位置和方向,并将用户所在方向的语音特征的权重相应提高,或对非目标说话人方向麦克风声音特征的权重进行衰减,从而在语音识别算法上进行相应的增强,以提升语音识别准确度。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (20)
1.一种用于机器人的语音识别方法,其特征在于,包括以下步骤:
获取机器人采集的语音阵列信号,并获取所述机器人采集的图像阵列信号;
根据所述图像阵列信号生成注意力权重;以及
将所述语音阵列信号和所述注意力权重输入至语音识别模型以生成语音识别结果。
2.如权利要求1所述的方法,其特征在于,所述获取机器人采集的语音信号,包括:
通过所述机器人的多个麦克风采集多组音频信号;以及
对所述多组音频信号进行拼接以形成语音阵列信号。
3.如权利要求2所述的方法,其特征在于,所述对所述多组音频信号进行拼接以形成语音阵列信号,包括:
对所述语音阵列信号进行分帧,以形成多帧语音信号;
对所述多帧语音信号进行对齐,并对对齐之后的多帧语音信号进行拼接以形成所述语音阵列信号。
4.如权利要求1所述的方法,其特征在于,所述获取所述机器人采集的图像阵列信号,包括:
通过所述机器人的多个摄像头采集多个图像信号;
对所述多个图像信号进行降维;以及
对降维之后的所述多个图像信号进行拼接以生成所述图像阵列信号。
5.如权利要求1所述的方法,其特征在于,所述语音阵列信号与所述图像阵列信号的阵列大小相同。
6.如权利要求1所述的方法,其特征在于,所述根据所述图像阵列信号生成注意力权重,包括:
将所述图像阵列信号输入至图像识别模型以生成所述注意力权重。
7.如权利要求4所述的方法,其特征在于,所述对所述多个图像信号进行降维,包括:
对所述多个图像信号进行离散余弦变换以生成多个频率域特征矩阵;
根据所述多个频率域特征矩阵生成多个图像向量;
将所述多个图像向量组合成图像矩阵;
根据所述图像矩阵生成协方差矩阵的多个特征值及每个所述特征值对应特征向量;
根据所述多个特征值对应的特征向量从所述多个特征值之中选择前k行组成降维矩阵,其中,k为正整数。
8.如权利要求1-7任一项所述的方法,其特征在于,所述语音识别模型和所述图像识别模型通过联合训练生成。
9.一种用于机器人的语音识别装置,其特征在于,包括:
语音采集模块,用于采集机器人的语音阵列信号;
图像采集模块,用于采集所述机器人的图像阵列信号;
注意力权重生成模块,用于根据所述图像阵列信号生成注意力权重;以及
识别模块,用于将所述语音阵列信号和所述注意力权重输入至语音识别模型以生成语音识别结果。
10.如权利要求9所述的装置,其特征在于,所述语音采集模块包括:
多个麦克风,用于采集多组音频信号;以及
第一拼接子模块,用于对所述多组音频信号进行拼接以形成语音阵列信号。
11.如权利要求10所述的装置,其特征在于,所述第一拼接子模块对所述语音阵列信号进行分帧,以形成多帧语音信号,并对所述多帧语音信号进行对齐,以及对对齐之后的多帧语音信号进行拼接以形成所述语音阵列信号。
12.如权利要求9所述的装置,其特征在于,所述图像采集模块包括:
多个摄像头,用于采集所述机器人的多个图像信号;
降维子模块,用于对所述多个图像信号进行降维;以及
第二拼接子模块,用于对降维之后的所述多个图像信号进行拼接以生成所述图像阵列信号。
13.如权利要求9所述的装置,其特征在于,所述语音阵列信号与所述图像阵列信号的阵列大小相同。
14.如权利要求9所述的装置,其特征在于,所述注意力权重生成模块将所述图像阵列信号输入至图像识别模型以生成所述注意力权重。
15.如权利要求12所述的装置,其特征在于,所述降维子模块包括:
变换单元,用于对所述多个图像信号进行离散余弦变换以生成多个频率域特征矩阵;
图像向量生成单元,用于根据所述多个频率域特征矩阵生成多个图像向量;
图像矩阵生成单元,用于将所述多个图像向量组合成图像矩阵;
特征值生成单元,用于根据所述图像矩阵生成协方差矩阵的多个特征值及每个所述特征值对应特征向量;
降维矩阵生成单元,根据所述多个特征值对应的特征向量从所述多个特征值之中选择前k行组成降维矩阵,其中,k为正整数。
16.如权利要求9-15任一项所述的装置,其特征在于,还包括:
训练模块,用于对所述语音识别模型和所述图像识别模型进行联合训练。
17.一种机器人,其特征在于,包括如权利要求9-16任一项所述的语音识别装置。
18.一种语音识别装置,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至8中任一项所述的语音识别方法。
19.一种存储介质,其特征在于,当所述存储介质中的指令由语音识别装置的处理器执行时,使得语音识别装置能够执行如权利要求1至8中任一项所述的语音识别方法。
20.一种计算机程序产品,其特征在于,用于执行如权利要求1至8中任一项所述的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011420332.7A CN114664295A (zh) | 2020-12-07 | 2020-12-07 | 用于机器人的语音识别方法、装置及机器人 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011420332.7A CN114664295A (zh) | 2020-12-07 | 2020-12-07 | 用于机器人的语音识别方法、装置及机器人 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114664295A true CN114664295A (zh) | 2022-06-24 |
Family
ID=82024635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011420332.7A Pending CN114664295A (zh) | 2020-12-07 | 2020-12-07 | 用于机器人的语音识别方法、装置及机器人 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114664295A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140334682A1 (en) * | 2011-12-06 | 2014-11-13 | Kyungpock National Indusrty Academic Cooperation Foundation | Monitoring device using selective attention model and method for monitoring same |
CN106887236A (zh) * | 2015-12-16 | 2017-06-23 | 宁波桑德纳电子科技有限公司 | 一种声像联合定位的远距离语音采集装置 |
CN108877787A (zh) * | 2018-06-29 | 2018-11-23 | 北京智能管家科技有限公司 | 语音识别方法、装置、服务器及存储介质 |
CN109147813A (zh) * | 2018-09-21 | 2019-01-04 | 神思电子技术股份有限公司 | 一种基于影音定位技术的服务机器人降噪方法 |
US20190070735A1 (en) * | 2017-09-01 | 2019-03-07 | Anki, Inc. | Robot Attention Detection |
CN110545396A (zh) * | 2019-08-30 | 2019-12-06 | 上海依图信息技术有限公司 | 一种基于定位去噪的语音识别方法及装置 |
CN110600050A (zh) * | 2019-09-12 | 2019-12-20 | 深圳市华创技术有限公司 | 基于深度神经网络的麦克风阵列语音增强方法及系统 |
CN111522524A (zh) * | 2020-03-19 | 2020-08-11 | 浙江省北大信息技术高等研究院 | 一种基于会议机器人的演示文稿控制方法、装置、存储介质及终端 |
CN111694433A (zh) * | 2020-06-11 | 2020-09-22 | 北京百度网讯科技有限公司 | 语音交互的方法、装置、电子设备及存储介质 |
-
2020
- 2020-12-07 CN CN202011420332.7A patent/CN114664295A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140334682A1 (en) * | 2011-12-06 | 2014-11-13 | Kyungpock National Indusrty Academic Cooperation Foundation | Monitoring device using selective attention model and method for monitoring same |
CN106887236A (zh) * | 2015-12-16 | 2017-06-23 | 宁波桑德纳电子科技有限公司 | 一种声像联合定位的远距离语音采集装置 |
US20190070735A1 (en) * | 2017-09-01 | 2019-03-07 | Anki, Inc. | Robot Attention Detection |
CN108877787A (zh) * | 2018-06-29 | 2018-11-23 | 北京智能管家科技有限公司 | 语音识别方法、装置、服务器及存储介质 |
CN109147813A (zh) * | 2018-09-21 | 2019-01-04 | 神思电子技术股份有限公司 | 一种基于影音定位技术的服务机器人降噪方法 |
CN110545396A (zh) * | 2019-08-30 | 2019-12-06 | 上海依图信息技术有限公司 | 一种基于定位去噪的语音识别方法及装置 |
CN110600050A (zh) * | 2019-09-12 | 2019-12-20 | 深圳市华创技术有限公司 | 基于深度神经网络的麦克风阵列语音增强方法及系统 |
CN111522524A (zh) * | 2020-03-19 | 2020-08-11 | 浙江省北大信息技术高等研究院 | 一种基于会议机器人的演示文稿控制方法、装置、存储介质及终端 |
CN111694433A (zh) * | 2020-06-11 | 2020-09-22 | 北京百度网讯科技有限公司 | 语音交互的方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liao et al. | DR-GAN: Automatic radial distortion rectification using conditional GAN in real-time | |
CN106328156B (zh) | 一种音视频信息融合的麦克风阵列语音增强系统及方法 | |
CN111025233B (zh) | 一种声源方向定位方法和装置、语音设备和系统 | |
CN107534725B (zh) | 一种语音信号处理方法及装置 | |
CN111239687B (zh) | 一种基于深度神经网络的声源定位方法及系统 | |
CN109377555B (zh) | 自主水下机器人前景视场三维重建目标特征提取识别方法 | |
CN107798313A (zh) | 一种人体姿态识别方法、装置、终端和存储介质 | |
CN111044973A (zh) | 一种用于麦克风方阵的mvdr目标声源定向拾音方法 | |
CN110444220B (zh) | 一种多模态远程语音感知方法及装置 | |
Nida et al. | Instructor activity recognition through deep spatiotemporal features and feedforward extreme learning machines | |
CN111291669A (zh) | 一种双通道俯角人脸融合校正gan网络及人脸融合校正方法 | |
CN111898571A (zh) | 动作识别系统及方法 | |
WO2023102224A1 (en) | Data augmentation for multi-task learning for depth mapping and semantic segmentation | |
CN110188179B (zh) | 语音定向识别交互方法、装置、设备及介质 | |
JP7250281B2 (ja) | 三次元構造復元装置、三次元構造復元方法、およびプログラム | |
CN113948105A (zh) | 基于语音的图像生成方法、装置、设备及介质 | |
CN112418046B (zh) | 一种基于云机器人的健身指导方法、存储介质及系统 | |
CN114005046A (zh) | 基于Gabor滤波器和协方差池化的遥感场景分类方法 | |
CN114664295A (zh) | 用于机器人的语音识别方法、装置及机器人 | |
CN117169812A (zh) | 一种基于深度学习和波束形成的声源定位方法 | |
CN116859336A (zh) | 一种声源定位的高精度实现方法 | |
CN112180318A (zh) | 声源波达方向估计模型训练和声源波达方向估计方法 | |
Zhu et al. | Speaker localization based on audio-visual bimodal fusion | |
CN111880146B (zh) | 声源定向方法和装置及存储介质 | |
Schymura et al. | A dynamic stream weight backprop Kalman filter for audiovisual speaker tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |