CN108766435A - 一种基于非触控式的空间机器人控制方法 - Google Patents
一种基于非触控式的空间机器人控制方法 Download PDFInfo
- Publication number
- CN108766435A CN108766435A CN201810470494.8A CN201810470494A CN108766435A CN 108766435 A CN108766435 A CN 108766435A CN 201810470494 A CN201810470494 A CN 201810470494A CN 108766435 A CN108766435 A CN 108766435A
- Authority
- CN
- China
- Prior art keywords
- voice signal
- control platform
- ground control
- portrait
- robot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000005236 sound signal Effects 0.000 claims abstract description 136
- 230000001755 vocal effect Effects 0.000 claims abstract description 59
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 33
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 33
- 238000012795 verification Methods 0.000 claims abstract description 29
- 230000001815 facial effect Effects 0.000 claims description 44
- 230000003321 amplification Effects 0.000 claims description 18
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 6
- 230000000630 rising effect Effects 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 description 24
- 239000013598 vector Substances 0.000 description 11
- 238000012423 maintenance Methods 0.000 description 6
- 208000019901 Anxiety disease Diseases 0.000 description 5
- 230000036506 anxiety Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000010813 municipal solid waste Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B64—AIRCRAFT; AVIATION; COSMONAUTICS
- B64G—COSMONAUTICS; VEHICLES OR EQUIPMENT THEREFOR
- B64G4/00—Tools specially adapted for use in space
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Remote Sensing (AREA)
- Aviation & Aerospace Engineering (AREA)
- Manipulator (AREA)
Abstract
一种基于非触控式的空间机器人控制方法,包括:检测到位于航天器上的空间机器人到达航天器上的某一指定操作位置时,地面控制平台可以通过第一采集设备获取到第一声音信号,以及通过第二采集设备获取到的第二声音信号,在识别出第一声音信号用于表示执行某一目标操作的关键词以及第二声音信号也包含该关键词时,对第一声音信号以及第二声音信号进行合成得到验证声音信号,在判断出预设的空间机器人指令集合中存在与验证声音信号的声纹特征相匹配的目标指令时,向空间机器人发送目标指令,以控制空间机器人在指定操作位置上对航天器执行目标指令对应的操作。降低对空间机器人的操作质量的影响,有利于提升空间机器人操作的稳定性和可靠性。
Description
技术领域
本发明涉及空间遥控技术领域,尤其涉及一种基于非触控式的空间机器人控制方法。
背景技术
随着空间技术的发展,越来越多的航天器被送入太空,受到太空垃圾的存在,航天器的寿命受到了很大的影响,所以采用空间机器人对航天器进行修补就成了未来航天技术发展的趋势之一,但是由于空间机器人本身的智能程度不够,采用空间遥控技术,即在人的手动触控下控制空间机器人对航天器进行维修就成了解决问题的关键。
在实践中发现,由于人的手动触控存在不稳定性,譬如抖动、或者由于紧张产生的控制阻抗变化,这都会大大影响到空间机器人的操作质量,从而降低空间机器人操作的稳定性和可靠性。
发明内容
本发明实施例公开的一种基于非触控式的空间机器人控制方法,能够降低对空间机器人的操作质量的影响,有利于提升空间机器人操作的稳定性和可靠性。
其中,一种基于非触控式的空间机器人控制方法,所述方法包括:
地面控制平台在检测到位于航天器上的空间机器人到达所述航天器上的某一指定操作位置时,开启所述地面控制平台通讯连接的第一采集设备和第二采集设备;
所述地面控制平台获取所述第一采集设备采集到的第一声音信号,以及获取所述第二采集设备采集到的第二声音信号;
所述地面控制平台识别所述第一声音信号是否包含用于表示执行某一目标操作的关键词,以及识别所述第二声音信号是否也包含所述关键词;
若所述第一声音信号包含所述关键词以及所述第二声音信号也包含所述关键词,所述地面控制平台对所述第一声音信号以及所述第二声音信号进行合成得到验证声音信号;
所述地面控制平台判断预设的空间机器人指令集合中是否存在与所述验证声音信号的声纹特征相匹配的目标指令,若存在,判断目标指令对应的操作是否与目标操作相同,若相同,向所述空间机器人发送所述目标指令,以控制所述空间机器人在所述指定操作位置上对所述航天器执行所述目标操作。
作为一种可选的实施方式,本发明实施例中,在所述地面控制平台识别出所述第一声音信号包含所述关键词以及所述第二声音信号也包含所述关键词之后,以及所述地面控制平台对所述第一声音信号以及所述第二声音信号进行合成得到验证声音信号之前,所述方法还包括:
所述地面控制平台识别所述第一声音信号的声纹特征是否与指定操作人员的声纹特征相匹配,以及识别所述第二声音信号的声纹特征是否与指定监护人员的声纹特征相匹配;其中,所述指定监护人员对所述指定操作人进行操作监护;
若所述第一声音信号的声纹特征与所述指定操作人员的声纹特征相匹配,以及所述第二声音信号的声纹特征与所述指定监护人员的声纹特征相匹配,所述地面控制平台执行所述的对所述第一声音信号以及所述第二声音信号进行合成得到验证声音信号的步骤。
作为一种可选的实施方式,本发明实施例中,所述地面控制平台对所述第一声音信号以及所述第二声音信号进行合成得到验证声音信号,包括:
所述地面控制平台确定所述第一声音信号与所述第二声音信号之间的对齐点;其中,所述对齐点是指所述第一声音信号和所述第二声音信号合成的开始位置;
所述地面控制平台根据所述对齐点将所述第一声音信号与所述第二声音信号合成为验证声音信号。
作为一种可选的实施方式,本发明实施例中,所述地面控制平台确定所述第一声音信号与所述第二声音信号之间的对齐点,包括
所述地面控制平台计算所述第一声音信号的第一时长以及所述第二声音信号的第二时长;其中,所述第一时长表示所述第一声音信号的声音持续的时间;所述第二时长表示所述第二声音信号的声音持续的时间;
所述地面控制平台计算所述第一时长和所述第二时长之间的差值;
所述地面控制平台判断所述差值是否小于或等于预设数值,若是,对所述第一声音信号和所述第二声音信号中的任一声音信号进行周期上的缩放,以获得最终持续时长相同的第一声音信号和第二声音信号,再以所述最终持续时长相同的第一声音信号和第二声音信号的首个音频帧作为对齐点。
作为一种可选的实施方式,本发明实施例中,所述地面控制平台对所述第一声音信号和所述第二声音信号中的任一声音信号进行周期上的缩放,包括:
若所述第一声音信号的第一时长相对于所述第二声音信号的第二时长较短,所述地面控制平台根据所述差值确定所述差值占所述第一声音信号的第一时长的比例X;
所述地面控制平台计算所述第一声音信号的音频帧数Y;
所述地面控制平台计算放大系数Z,所述Z=X*(Y/(Y-1));
所述地面控制平台按照所述放大系数,对所述第一声音信号中除了首个音频帧之外的其他音频帧进行等比例放大,以使得放大后的第一声音信号的最终持续时长与所述第二声音信号的第二时长相同。
作为一种可选的实施方式,本发明实施例中,若所述差值大于所述预设数值,所述方法还包括:
所述地面控制平台使用相同的默认采样频率对所述第一声音信号以及所述第二声音信号分别进行采样,得到第一采样组和第二采样组;
所述地面控制平台根据所述默认采样频率、所述第一采样组、所述第二采样组以及互相关权值生成互相关组;其中,所述互相关权值与所述差值正相关,所述互相关组中包含有多个数值;
所述地面控制平台将所述互相关组中的多个数值进行比较,找出最大的数值;
所述地面控制平台使用所述最大的数值对应的音频帧位置作为对齐点。
作为一种可选的实施方式,本发明实施例中,所述地面控制平台根据所述默认采样频率、所述第一采样组、所述第二采样组以及互相关权值生成互相关组,包括:
其中,Sn[t]表示互相关组,x[m]表示所述第一采样组中的第m个采样数据,y[m-t]表示所述第二采样组中的第(m-t)个采样数据,t表示时间的偏移量,t为整数,取值为从0到m,Wt表示窗函数,其中n=l*f,l为互相关权值,f为所述默认采样频率。
作为一种可选的实施方式,本发明实施例中,在所述地面控制平台识别出所述第一声音信号的声纹特征与所述指定操作人员的声纹特征相匹配以及所述第二声音信号的声纹特征与所述指定监护人员的声纹特征相匹配之后,以及所述地面控制平台对所述第一声音信号以及所述第二声音信号进行合成得到验证声音信号之前,所述方法还包括:
所述地面控制平台控制所述第一采集设备进行人像拍摄,获得第一拍摄图像;以及,控制所述第二采集设备进行人像拍摄,获得第二拍摄图像;
所述地面控制平台检测所述第一拍摄图像是否包括第一人像以及所述第二拍摄图像是否包括第二人像;
若所述第一拍摄图像包括第一人像以及所述第二拍摄图像包括第二人像,所述地面控制平台判断所述第一人像包含的第一人脸图像是否与所述指定操作人的人脸图像相匹配,以及第二人像包含的第二人脸图像是否与所述指定监护人员的人脸图像相匹配;
若所述第一人像包含的第一人脸图像与所述指定操作人的人脸图像相匹配以及所述第二人像包含的第二人脸图像与所述指定监护人员的人脸图像相匹配,所述地面控制平台执行所述的对所述第一声音信号以及所述第二声音信号进行合成得到验证声音信号的步骤。
作为一种可选的实施方式,本发明实施例中,在所述地面控制平台判断出若所述第一人像包含的第一人脸图像与所述指定操作人的人脸图像相匹配以及所述第二人像包含的第二人脸图像与所述指定监护人员的人脸图像相匹配之后,以及所述地面控制平台对所述第一声音信号以及所述第二声音信号进行合成得到验证声音信号之前,所述方法还包括:
所述地面控制平台利用人像属性算法对所述第一人像进行前向计算,得到所述第一人像的属性信息;利用所述人像属性算法对所述第二人像进行前向计算,得到所述第二人像的属性信息;
所述地面控制平台判断所述第一人像的属性信息是否与所述指定操作人的属性信息相匹配,以及所述第二人像的属性信息是否与所述指定监护人员的属性信息相匹配;
若所述第一人像的属性信息与所述指定操作人的属性信息相匹配以及所述第二人像的属性信息与所述指定监护人员的属性信息相匹配,所述地面控制平台执行所述的对所述第一声音信号以及所述第二声音信号进行合成得到验证声音信号的步骤。
作为一种可选的实施方式,本发明实施例中,所述人像属性算法是基于多个样本人像图像以及所述多个样本人像图像的多个属性信息的识别结果按照属性信息的不同类型进行训练得到;其中,所述属性信息包括年龄、性别以及身高。
作为一种可选的实施方式,本发明实施例中,所述地面控制平台判断预设的空间机器人指令集合中是否存在与所述验证声音信号的声纹特征相匹配的目标指令,包括:
所述地面控制平台对所述验证声音信号进行预处理,预处理包括预加重、分帧和加窗处理;从预处理后的验证声音信号中提取声纹特征MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分以及GFCC共同组成第一多维特征向量,其中:MFCC为梅尔频率倒谱系数,LPCC为线性预测倒谱系数,△MFCC为 MFCC的一阶差分,△LPCC为LPCC的一阶差分,GFCC为Gammatone滤波器倒谱系数;
所述地面控制平台第一多维特征向量是否与预设的空间机器人指令集合中的目标指令关联的第二多维向量匹配,如果匹配,则确定预设的空间机器人指令集合中存在与所述验证声音信号的声纹特征相匹配的目标指令。
本发明实施例中,检测到位于航天器上的空间机器人到达航天器上的某一指定操作位置时,地面控制平台可以通过第一采集设备获取到第一声音信号,以及通过第二采集设备获取到的第二声音信号,在识别出第一声音信号用于表示执行某一目标操作的关键词以及第二声音信号也包含该关键词时,对第一声音信号以及第二声音信号进行合成得到验证声音信号,在判断出预设的空间机器人指令集合中存在与验证声音信号的声纹特征相匹配的目标指令时,向空间机器人发送目标指令,以控制空间机器人在指定操作位置上对航天器执行目标指令对应的操作。可见,实施本发明实施例,可以省去手动操作下控制空间机器人对航天器执行目标指令对应的操作(如维修操作),从而可以防止因为手动操作存在的不稳定性(如抖动、或者由于紧张产生的控制阻抗变化)而影响到空间机器人的操作质量,从而可以降低对空间机器人的操作质量的影响,有利于提升空间机器人操作的稳定性和可靠性;此外,地面控制平台在获取到第一声音信号和第二声音信号之后,并不是逐一的对这两个声音信号的声纹特征进行验证,而是把这两个声音信号进行合成得到验证声音信号,然后再将验证声音信号的声纹特征与预设的空间机器人指令集合中的指令进行匹配,而声音信号合成后,会产生更多的可验证参数(例如两段声音是否对齐,两段声音的相位差等),从而可以提高验证声音信号与指令匹配的安全性,进而提高控制空间机器人的安全性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种基于非触控式的空间机器人控制的网络架构图;
图2为本发明实施例公开的一种基于非触控式的空间机器人控制方法的流程示意图;
图3为本发明实施例公开的另一种基于非触控式的空间机器人控制方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开的一种基于非触控式的空间机器人控制方法,能够降低对空间机器人的操作质量的影响,有利于提升空间机器人操作的稳定性和可靠性。以下进行结合附图进行详细描述。
为了更好的理解本发明实施例,下面先对本发明实施例涉及到的基于非触控式的空间机器人控制的网络架构进行描述。请参阅图1,图1为本发明实施例公开的一种基于非触控式的空间机器人控制的网络架构图。在图1所示的网络架构中,可以包括:位于航天器上的空间机器人、地面控制平台、第一采集设备以及第二采集设备,其中,位于航天器上的空间机器人与地面控制平台建立通讯连接,地面控制平台分别与第一采集设备、第二采集设备建立通讯连接;其中,第一采集设备、第二采集设备可以用于采集声音、图像等媒体信息;第一采集设备和第二采集设备可以位于同一个地方(例如同一个航天控制心中),或者,第一采集设备和第二采集设备可以分别位于不同地方,例如第一采集设备位于某一个航天控制心中,而第二采集设备可以位于某一航天测量船上,本发明实施例不作限定。
在图1所示的网络架构中,地面控制平台在检测到位于航天器上的空间机器人到达航天器上的某一指定操作位置时,地面控制平台可以通过第一采集设备获取到第一声音信号,以及通过第二采集设备获取到的第二声音信号,在识别出第一声音信号用于表示执行某一目标操作的关键词以及第二声音信号也包含该关键词时,对第一声音信号以及第二声音信号进行合成得到验证声音信号,在判断出预设的空间机器人指令集合中存在与验证声音信号的声纹特征相匹配的目标指令时,向空间机器人发送目标指令,以控制空间机器人在指定操作位置上对航天器执行目标指令对应的操作。可见,实施图1所示的网络架构,可以省去手动触控下控制空间机器人对航天器执行目标指令对应的操作(如维修操作),从而可以防止因为手动触控存在的不稳定性(如抖动、或者由于紧张产生的控制阻抗变化)而影响到空间机器人的操作质量,从而可以降低对空间机器人的操作质量的影响,有利于提升空间机器人操作的稳定性和可靠性;此外,在图1所示的网络架构中,地面控制平台在获取到第一声音信号和第二声音信号之后,并不是逐一的对这两个声音信号的声纹特征进行验证,而是把这两个声音信号进行合成得到验证声音信号,然后再将验证声音信号的声纹特征与预设的空间机器人指令集合中的指令进行匹配,而声音信号合成后,会产生更多的可验证参数(例如两段声音是否对齐,两段声音的相位差等),从而可以提高验证声音信号与指令匹配的安全性,进而提高控制空间机器人的安全性。
请参阅图2,图2为本发明实施例公开的一种基于非触控式的空间机器人控制方法的流程示意图。如图2所示,该基于非触控式的空间机器人控制方法可以包括以下步骤:
201、地面控制平台在检测到位于航天器上的空间机器人到达航天器上的某一指定操作位置时,开启地面控制平台通讯连接的第一采集设备和第二采集设备。
202、地面控制平台获取第一采集设备采集到的第一声音信号,以及获取第二采集设备采集到的第二声音信号。
作为一种可选的实施方式,第一声音信号是由第一采集设备在判断出第一声音信号为语音信号后,由第一采集设备上报给地面控制平台的,其中,第一采集设备判断第一声音信号是否为语音信号的方式为:
第一采集设备对第一声音信号进行快速傅里叶变换得到频域信号;
第一采集设备根据频域信号计算谱幅度值;
第一采集设备根据谱幅度值计算概率密度;
第一采集设备根据概率密度计算第一声音信号的谱熵;
第一采集设备根据谱熵确定第一声音信号是否为语音信号。
其中,第一采集设备根据频域信号计算谱幅度值,包括:
第一采集设备根据频域信号并结合以下公式计算谱幅度值,即:
其中,X(k,y)表示第一声音信号的第y个音频帧的第k个频段的谱幅度值,z(c,y)表示第y个音频帧的音频中的第c个点的幅度,N表示快速傅里叶变换的变化长度,k小于或等于N,exp(-j2πkc/N)表示幅角为2π的kc/N倍的复数。
其中,第一采集设备根据谱幅度值计算概率密度,可以包括:
其中,第一采集设备根据谱幅度值计算第y个音频帧的带噪语音功率谱总能量;
其中,第一采集设备根据带噪语音功率谱总能量以及谱幅度值计算概率密度;
其中,带噪语音功率谱总能量的计算方式为:
其中,Esum(y)表示第y个音频帧的带噪语音功率谱总能量,X(k,y)表示第y个音频帧的第k个频段的谱幅度值,N表示快速傅里叶变换的变化长度;
其中,概率密度的计算方式为:
D(k,y)=X(k,y)2/Esum(y),其中,D(k,y)表示第y个音频帧的第k个频段所对应的概率密度。
其中,第一采集设备根据概率密度计算第一声音信号的谱熵的具体过程为:
其中,H(y)表示第y个音频帧的谱熵。
其中,第一采集设备根据谱熵确定第一声音信号是否为语音信号,可以包括:
第一采集设备计算第一声音信号的能量;
第一采集设备根据第一声音信号的能量以及谱熵确定第一声音信号是否为语音信号;
其中,第一声音信号的能量的计算过程为:
其中,E(y)表示第y个音频帧的能量,M表示音频帧的帧长,z(c,y)表示第y个音频信号所在帧的音频中的第c个点的幅度。
其中,第一采集设备根据第一声音信号的能量以及谱熵确定第一声音信号是否为语音信号,包括:
第一采集设备判断P(y)是否大于预置门限值,若是,则确定第一声音信号是语音信号,若否,则确定第一声音信号不是语音信号,
其中,实施上述实施方式,第一采集设备可以在精确的确定出第一声音信号是语音信号而非噪音信号之后,将第一声音信号上报给地面控制平台,从而可以提高语音信号上报的精确性。
作为一种可选的实施方式,第二声音信号是由第二采集设备在判断出第二声音信号为语音信号后,由第二采集设备上报给地面控制平台的,其中,第二采集设备判断第二声音信号是否为语音信号的方式为:
第二采集设备对第二声音信号进行快速傅里叶变换得到频域信号;
第二采集设备根据频域信号计算谱幅度值;
第二采集设备根据谱幅度值计算概率密度;
第二采集设备根据概率密度计算第一声音信号的谱熵;
第二采集设备根据谱熵确定第一声音信号是否为语音信号。
本发明实施例中,第二采集设备判断第二声音信号是否为语音信号的方式与第一采集设备判断第一声音信号是否为语音信号的方式相同,本发明实施例此处不作赘述。
其中,实施上述实施方式,第二采集设备可以在精确的确定出第二声音信号是语音信号而非噪音信号之后,将第二音信号上报给地面控制平台,从而可以提高语音信号上报的精确性。
203、地面控制平台识别第一声音信号是否包含用于表示执行某一目标操作的关键词,以及识别第二声音信号是否也包含该关键词;若第一声音信号包含该关键词以及第二声音信号也包含该关键词,地面控制平台执行步骤 204-步骤205;反之,若第一声音信号不包含该关键词,和/或,第二声音信号也不包含该关键词,结束本流程。
本发明实施例中,第一声音信号和第二声音信号可以包含用于表示执行维修操作的关键词“维修”、“修补”等,本发明实施例不作限定。
204、地面控制平台对第一声音信号以及第二声音信号进行合成得到验证声音信号。
作为一种可选的实施方式,本发明实施例中,地面控制平台对第一声音信号以及第二声音信号进行合成得到验证声音信号,包括:
地面控制平台确定第一声音信号与第二声音信号之间的对齐点;其中,该对齐点是指第一声音信号和第二声音信号合成的开始位置;换句话说,第一声音信号与第二声音信号要合成的话,需要找到从哪个音频帧开始合成,这个音频帧就可以理解为对齐点;
以及,地面控制平台根据该对齐点将第一声音信号与第二声音信号合成为验证声音信号。
作为一种可选的实施方式,本发明实施例中,地面控制平台确定第一声音信号与第二声音信号之间的对齐点,包括
地面控制平台计算第一声音信号的第一时长以及第二声音信号的第二时长;其中,第一时长表示第一声音信号的声音持续的时间;第二时长表示第二声音信号的声音持续的时间;
地面控制平台计算该第一时长和该第二时长之间的差值;
地面控制平台判断该差值是否小于或等于预设数值,若是,对该第一声音信号和该第二声音信号中的任一声音信号进行周期上的缩放,以获得最终持续时长相同的第一声音信号和第二声音信号,再以最终持续时长相同的第一声音信号和第二声音信号的首个音频帧作为对齐点。
本发明实施例中,如果该差值小于或等于预设数值,则说明两段声音信号(即该第一声音信号和该第二声音信号)在输入时的差距较小,此时可以对其中的一段声音信号(如该第一声音信号)进行周期上的缩放,例如对时长较长的声音信号进行周期上的压缩(也就是俗称的快进),和/或对时长较短的声音信号进行周期上的放大(也就是俗称的慢进),使得两段声音信号的最终持续时长相同,再以两段声音信号的首个音频帧作为对齐点进行对齐。
其中,该预设数值的取值范围可以为0至0.1秒。
本发明实施例中,地面控制平台对该第一声音信号和该第二声音信号中的任一声音信号进行周期上的缩放,包括:
若该第一声音信号的第一时长相对于该第二声音信号的第二时长较短,地面控制平台根据该差值确定该差值占该第一声音信号的第一时长的比例X;
地面控制平台计算该第一声音信号的音频帧数Y;
地面控制平台计算放大系数Z,该Z=X*(Y/(Y-1));
地面控制平台按照该放大系数,对该第一声音信号中除了首个音频帧之外的其他音频帧进行等比例放大,以使得放大后的第一声音信号的最终持续时长与该第二声音信号的第二时长相同。
举例来说,该第一声音信号为1秒,有100个音频帧,则每个音频帧0.01 秒,该第二声音信号为1.1秒,需要把该第一声音信号放大至1.1秒。第一帧不动,放大后续的99帧,先确定放大的系数Z为0.1*(100/(100-1))=0.101,即10.1%;此时后续的99帧,每帧需要放大10.1%,放大后的每帧为0.01* (1+10.1%)=0.01101,放大后这99帧的长度为1.09秒,再加上没有动的第一帧0.01秒,就为1.1秒了,即放大后的第一声音信号的最终持续时长与该第二声音信号的第二时长相同。
本发明实施例中,如果该差值大于预设数值,则说明两段声音信号(即该第一声音信号和该第二声音信号)在输入时的差距较大,如果此时还是对其中的一段声音信号进行周期上的缩放,则缩放后会造成比较严重的失真,后续的校验会出现问题,所以可以采用互相关算法来确定对齐点。即,在该差值大于预设数值时,该方法还包括:
地面控制平台使用相同的默认采样频率对该第一声音信号以及该第二声音信号分别进行采样,得到第一采样组和第二采样组;
地面控制平台根据该默认采样频率(例如8000Hz到10000Hz)、第一采样组、第二采样组以及互相关权值生成互相关组;其中,该互相关权值与该差值正相关(例如该互相关权值可以为该差值的1.5倍),该互相关组中包含有多个数值;
地面控制平台将该互相关组中的多个数值进行比较,找出最大的数值;
地面控制平台使用该最大的数值对应的音频帧位置作为对齐点。
其中,地面控制平台根据该默认采样频率、第一采样组、第二采样组以及互相关权值生成互相关组,包括:
其中,Sn[t]表示互相关组,x[m]表示第一采样组中的第m个采样数据, y[m-t]表示第二采样组中的第(m-t)个采样数据,t表示时间的偏移量,t 为整数,取值为从0到m,Wt表示窗函数,其中n=l*f,l为互相关权值,f 为默认采样频率。
其中,地面控制平台使用该最大的数值对应的音频帧位置作为对齐点可以为:
地面控制平台找到最大的数值后,可以根据上述的公式(A)反推出m是多少,也就是哪一个采样数据,然后再确定该采样数据所在的音频帧是哪一个,并且使用该音频帧作为对齐点。
205、地面控制平台判断预设的空间机器人指令集合中是否存在与验证声音信号的声纹特征相匹配的目标指令,若存在,执行步骤206;若不存在,结束本流程。
作为一种可选的实施方式,上述步骤205中,地面控制平台判断预设的空间机器人指令集合中是否存在与验证声音信号的声纹特征相匹配的目标指令,包括:
地面控制平台对验证声音信号进行预处理,预处理包括预加重、分帧和加窗处理;
地面控制平台从预处理后的验证声音信号中提取声纹特征MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分以及GFCC共同组成第一多维特征向量,其中:MFCC为梅尔频率倒谱系数,LPCC为线性预测倒谱系数,△MFCC为 MFCC的一阶差分,△LPCC为LPCC的一阶差分,GFCC为Gammatone滤波器倒谱系数;
地面控制平台判断第一多维特征向量是否与预设的空间机器人指令集合中的目标指令关联的第二多维向量完全匹配,如果完全匹配,则可以精确的确定预设的空间机器人指令集合中存在与验证声音信号的声纹特征相匹配的目标指令;反之,如果不完全匹配,确定预设的空间机器人指令集合中不存在与验证声音信号的声纹特征相匹配的目标指令。
206、地面控制平台向空间机器人发送该目标指令,以控制空间机器人在该指定操作位置上对航天器执行该目标指令对应的操作。
可见,实施图2所描述的方法,可以省去手动触控下控制空间机器人对航天器执行目标指令对应的操作(如维修操作),从而可以防止因为手动触控存在的不稳定性(如抖动、或者由于紧张产生的控制阻抗变化)而影响到空间机器人的操作质量,从而可以降低对空间机器人的操作质量的影响,有利于提升空间机器人操作的稳定性和可靠性;此外,地面控制平台在获取到第一声音信号和第二声音信号之后,并不是逐一的对这两个声音信号的声纹特征进行验证,而是把这两个声音信号进行合成得到验证声音信号,然后再将验证声音信号的声纹特征与预设的空间机器人指令集合中的指令进行匹配,而声音信号合成后,会产生更多的可验证参数(例如两段声音是否对齐,两段声音的相位差等),从而可以提高验证声音信号与指令匹配的安全性,进而提高控制空间机器人的安全性。
请参阅图3,图3为本发明实施例公开的另一种基于非触控式的空间机器人控制方法的流程示意图。如图3所示,该基于非触控式的空间机器人控制方法可以包括以下步骤:
301、地面控制平台在检测到位于航天器上的空间机器人到达航天器上的某一指定操作位置时,开启地面控制平台通讯连接的第一采集设备和第二采集设备。
302、地面控制平台获取第一采集设备采集到的第一声音信号,以及获取第二采集设备采集到的第二声音信号。
303、地面控制平台识别第一声音信号是否包含用于表示执行某一目标操作的关键词,以及识别第二声音信号是否也包含该关键词;若第一声音信号包含该关键词以及第二声音信号也包含该关键词,地面控制平台执行步骤 304;反之,若第一声音信号不包含该关键词,和/或,第二声音信号也不包含该关键词,结束本流程。
304、地面控制平台识别第一声音信号的声纹特征是否与指定操作人员的声纹特征相匹配,以及识别第二声音信号的声纹特征是否与指定监护人员的声纹特征相匹配;其中,指定监护人员对指定操作人进行操作监护;若第一声音信号的声纹特征与指定操作人员的声纹特征相匹配,以及第二声音信号的声纹特征与指定监护人员的声纹特征相匹配,执行步骤305-步骤306;若第一声音信号的声纹特征与指定操作人员的声纹特征不相匹配,和/或,若第二声音信号的声纹特征与指定监护人员的声纹特征不相匹配,结束本流程。
305、地面控制平台控制第一采集设备进行人像拍摄,获得第一拍摄图像;以及,地面控制平台控制第二采集设备进行人像拍摄,获得第二拍摄图像。
306、地面控制平台检测第一拍摄图像是否包括第一人像以及第二拍摄图像是否包括第二人像,若第一拍摄图像包括第一人像以及第二拍摄图像包括第二人像,执行步骤307;若第一拍摄图像不包括第一人像,和/或第二拍摄图像不包括第二人像,结束本流程。
307、地面控制平台判断第一人像包含的第一人脸图像是否与指定操作人的人脸图像相匹配,以及第二人像包含的第二人脸图像是否与指定监护人员的人脸图像相匹配;若第一人像包含的第一人脸图像与指定操作人的人脸图像相匹配以及第二人像包含的第二人脸图像与指定监护人员的人脸图像相匹配,执行步骤308-步骤309;反之,若第一人像包含的第一人脸图像与指定操作人的人脸图像不相匹配,和/或,第二人像包含的第二人脸图像与指定监护人员的人脸图像不相匹配,结束本流程。
作为一种可选的实施方式,地面控制平台判断第一人像包含的第一人脸图像是否与指定操作人的人脸图像相匹配,包括:
地面控制平台可以根据第一人像包含的第一人脸图像的色彩信息,对第一人脸图像进行二值化处理;进一步地,可以将二值化处理后的第一人脸图像分成多个像素块,并对每个像素块内所有像素对应的像素值进行或运算,得到每个像素块的或运算结果组成第一人脸图像的下采样图片;进一步地,将得到的下采样图片划分为多个像素区域,通过对每个像素区域中所有像素点的或运算结果求和,获得组成第一人脸图像的每个像素区域的特征信息;进一步地,根据第一人脸图像的每个像素区域的特征信息判断第一人脸图像与指定操作人的人脸图像是否相匹配。其中,这种实施方式可以提高人脸图像匹配的准确率和效率。
308、地面控制平台利用人像属性算法对第一人像进行前向计算,得到第一人像的属性信息;利用人像属性算法对第二人像进行前向计算,得到第二人像的属性信息。
其中,人像属性算法是基于多个样本人像图像以及多个样本人像图像的多个属性信息的识别结果按照属性信息的不同类型进行训练得到;其中,所述属性信息包括年龄、性别以及身高。
其中,人像属性算法通过以下方式训练得到,即:
地面控制平台读取预先录入的样本人像数据,每个样本人像数据中包含样本人像图像以及样本人像图像的多个属性信息;
地面控制平台从预先录入的样本人像图像中提取人像特征;
地面控制平台根据初始模型中的不同属性信息对应的子模型对每个样本人像图像的人像特征进行前向计算,得到每个样本人像图像的多个属性信息的预测值;
地面控制平台根据预测值与属性信息的值,按照属性信息的不同类型计算得到多个属性信息的损耗;
地面控制平台将多个属性信息的损耗求和,得到多个属性信息的总损耗;
地面控制平台对初始模型中的不同属性信息对应的子模型的参数进行调整,直到调整后的参数使得多个属性信息的总损耗小于或等于预设阈值时,停止调整得到人像属性算法。
其中,地面控制平台根据预测值与属性信息的值,按照属性信息的不同类型计算得到多个属性信息的损耗,包括:
地面控制平台对于多个属性信息中每一个属性信息,若该属性信息为回归属性,按照如下公式对该属性信息的预测值和属性信息的值进行计算,得到该属性信息的损耗:
其中,s表示该属性信息在多个属性信息中的编号,表示初始模型计算得到的预测值,表示所述属性信息的值,i表示回归维度,j表示回归维度的标,L表示该属性信息对应的损耗。
或者,地面控制平台根据预测值与属性信息的值,按照属性信息的不同类型计算得到多个属性信息的损耗,包括:
地面控制平台对于所述多个属性信息中每一个属性信息,若所述属性信息不为回归属性,按照如下公式对所述属性信息的预测向量和属性信息向量进行计算,得到所述属性信息的损耗:
其中,s表示该属性信息在多个属性信息中的编号,x表示该属性信息的值,q表示初始模型计算得到的预测值,d表示该属性信息的识别结果数目, h表示该属性信息的识别结果的标识,L表示该属性信息对应的损耗。
309、地面控制平台判断第一人像的属性信息是否与指定操作人的属性信息相匹配,以及第二人像包含的第二人像的属性信息是否与指定监护人员的属性信息相匹配;若第一人像的属性信息与指定操作人的属性信息相匹配以及第二人像包含的第二人像的属性信息与指定监护人员的属性信息相匹配,执行步骤310-步骤311;反之,若第一人像的属性信息与指定操作人的属性信息不相匹配,和/或,以及第二人像包含的第二人像的属性信息与指定监护人员的属性信息不相匹配,结束本流程。
310、地面控制平台对第一声音信号以及第二声音信号进行合成得到验证声音信号。
作为一种可选的实施方式,本发明实施例中,地面控制平台对第一声音信号以及第二声音信号进行合成得到验证声音信号,包括:
地面控制平台确定第一声音信号与第二声音信号之间的对齐点;其中,该对齐点是指第一声音信号和第二声音信号合成的开始位置;换句话说,第一声音信号与第二声音信号要合成的话,需要找到从哪个音频帧开始合成,这个音频帧就可以理解为对齐点;
以及,地面控制平台根据该对齐点将第一声音信号与第二声音信号合成为验证声音信号。
作为一种可选的实施方式,本发明实施例中,地面控制平台确定第一声音信号与第二声音信号之间的对齐点,包括
地面控制平台计算第一声音信号的第一时长以及第二声音信号的第二时长;其中,第一时长表示第一声音信号的声音持续的时间;第二时长表示第二声音信号的声音持续的时间;
地面控制平台计算该第一时长和该第二时长之间的差值;
地面控制平台判断该差值是否小于或等于预设数值,若是,对该第一声音信号和该第二声音信号中的任一声音信号进行周期上的缩放,以获得最终持续时长相同的第一声音信号和第二声音信号,再以最终持续时长相同的第一声音信号和第二声音信号的首个音频帧作为对齐点。
本发明实施例中,如果该差值小于或等于预设数值,则说明两段声音信号(即该第一声音信号和该第二声音信号)在输入时的差距较小,此时可以对其中的一段声音信号(如该第一声音信号)进行周期上的缩放,例如对时长较长的声音信号进行周期上的压缩(也就是俗称的快进),和/或对时长较短的声音信号进行周期上的放大(也就是俗称的慢进),使得两段声音信号的最终持续时长相同,再以两段声音信号的首个音频帧作为对齐点进行对齐。
其中,该预设数值的取值范围可以为0至0.1秒。
本发明实施例中,地面控制平台对该第一声音信号和该第二声音信号中的任一声音信号进行周期上的缩放,包括:
若该第一声音信号的第一时长相对于该第二声音信号的第二时长较短,地面控制平台根据该差值确定该差值占该第一声音信号的第一时长的比例X;
地面控制平台计算该第一声音信号的音频帧数Y;
地面控制平台计算放大系数Z,该Z=X*(Y/(Y-1));
地面控制平台按照该放大系数,对该第一声音信号中除了首个音频帧之外的其他音频帧进行等比例放大,以使得放大后的第一声音信号的最终持续时长与该第二声音信号的第二时长相同。
举例来说,该第一声音信号为1秒,有100个音频帧,则每个音频帧0.01 秒,该第二声音信号为1.1秒,需要把该第一声音信号放大至1.1秒。第一帧不动,放大后续的99帧,先确定放大的系数Z为0.1*(100/(100-1))=0.101,即10.1%;此时后续的99帧,每帧需要放大10.1%,放大后的每帧为0.01* (1+10.1%)=0.01101,放大后这99帧的长度为1.09秒,再加上没有动的第一帧0.01秒,就为1.1秒了,即放大后的第一声音信号的最终持续时长与该第二声音信号的第二时长相同。
本发明实施例中,如果该差值大于预设数值,则说明两段声音信号(即该第一声音信号和该第二声音信号)在输入时的差距较大,如果此时还是对其中的一段声音信号进行周期上的缩放,则缩放后会造成比较严重的失真,后续的校验会出现问题,所以可以采用互相关算法来确定对齐点。即,在该差值大于预设数值时,该方法还包括:
地面控制平台使用相同的默认采样频率对该第一声音信号以及该第二声音信号分别进行采样,得到第一采样组和第二采样组;
地面控制平台根据该默认采样频率(例如8000Hz到10000Hz)、第一采样组、第二采样组以及互相关权值生成互相关组;其中,该互相关权值与该差值正相关(例如该互相关权值可以为该差值的1.5倍),该互相关组中包含有多个数值;
地面控制平台将该互相关组中的多个数值进行比较,找出最大的数值;
地面控制平台使用该最大的数值对应的音频帧位置作为对齐点。
其中,地面控制平台根据该默认采样频率、第一采样组、第二采样组以及互相关权值生成互相关组,包括:
其中,Sn[t]表示互相关组,x[m]表示第一采样组中的第m个采样数据, y[m-t]表示第二采样组中的第(m-t)个采样数据,t表示时间的偏移量,t 为整数,取值为从0到m,Wt表示窗函数,其中n=l*f,l为互相关权值,f 为默认采样频率。
其中,地面控制平台使用该最大的数值对应的音频帧位置作为对齐点可以为:
地面控制平台找到最大的数值后,可以根据上述的公式(A)反推出m是多少,也就是哪一个采样数据,然后再确定该采样数据所在的音频帧是哪一个,并且使用该音频帧作为对齐点。
311、地面控制平台判断预设的空间机器人指令集合中是否存在与验证声音信号的声纹特征相匹配的目标指令,若存在,执行步骤312;若不存在,结束本流程。
作为一种可选的实施方式,上述步骤311中,地面控制平台判断预设的空间机器人指令集合中是否存在与验证声音信号的声纹特征相匹配的目标指令,包括:
地面控制平台对验证声音信号进行预处理,预处理包括预加重、分帧和加窗处理;
地面控制平台从预处理后的验证声音信号中提取声纹特征MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分以及GFCC共同组成第一多维特征向量,其中:MFCC为梅尔频率倒谱系数,LPCC为线性预测倒谱系数,△MFCC为 MFCC的一阶差分,△LPCC为LPCC的一阶差分,GFCC为Gammatone滤波器倒谱系数;
地面控制平台判断第一多维特征向量是否与预设的空间机器人指令集合中的目标指令关联的第二多维向量完全匹配,如果完全匹配,则可以精确的确定预设的空间机器人指令集合中存在与验证声音信号的声纹特征相匹配的目标指令;反之,如果不完全匹配,确定预设的空间机器人指令集合中不存在与验证声音信号的声纹特征相匹配的目标指令。
312、地面控制平台向空间机器人发送该目标指令,以控制空间机器人在该指定操作位置上对航天器执行该目标指令对应的操作。
本发明实施例中,第一声音信号和第二声音信号可以分别携带与该目标指令对应的操作相匹配的关键词。例如,该目标指令对应的操作为维修操作,相应地,第一声音信号和第二声音信号可以携带关键词“维修”、“修补”等,本发明实施例不作限定。
可见,实施图3所描述的方法,可以省去手动触控下控制空间机器人对航天器执行目标指令对应的操作(如维修操作),从而可以防止因为手动触控存在的不稳定性(如抖动、或者由于紧张产生的控制阻抗变化)而影响到空间机器人的操作质量,从而可以降低对空间机器人的操作质量的影响,有利于提升空间机器人操作的稳定性和可靠性;此外,地面控制平台在获取到第一声音信号和第二声音信号之后,并不是逐一的对这两个声音信号的声纹特征进行验证,而是把这两个声音信号进行合成得到验证声音信号,然后再将验证声音信号的声纹特征与预设的空间机器人指令集合中的指令进行匹配,而声音信号合成后,会产生更多的可验证参数(例如两段声音是否对齐,两段声音的相位差等),从而可以提高验证声音信号与指令匹配的安全性,进而提高控制空间机器人的安全性。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种基于非触控式的空间机器人控制方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于非触控式的空间机器人控制方法,其特征在于,所述方法包括:
地面控制平台在检测到位于航天器上的空间机器人到达所述航天器上的某一指定操作位置时,开启所述地面控制平台通讯连接的第一采集设备和第二采集设备;
所述地面控制平台获取所述第一采集设备采集到的第一声音信号,以及获取所述第二采集设备采集到的第二声音信号;
所述地面控制平台识别所述第一声音信号是否包含用于表示执行某一目标操作的关键词,以及识别所述第二声音信号是否也包含所述关键词;
若所述第一声音信号包含所述关键词以及所述第二声音信号也包含所述关键词,所述地面控制平台对所述第一声音信号以及所述第二声音信号进行合成得到验证声音信号;
所述地面控制平台判断预设的空间机器人指令集合中是否存在与所述验证声音信号的声纹特征相匹配的目标指令,若存在,判断目标指令对应的操作是否与目标操作相同,若相同,向所述空间机器人发送所述目标指令,以控制所述空间机器人在所述指定操作位置上对所述航天器执行所述目标操作。
2.根据权利要求1所述的基于非触控式的空间机器人控制方法,其特征在于,在所述地面控制平台识别出所述第一声音信号包含所述关键词以及所述第二声音信号也包含所述关键词之后,以及所述地面控制平台对所述第一声音信号以及所述第二声音信号进行合成得到验证声音信号之前,所述方法还包括:
所述地面控制平台识别所述第一声音信号的声纹特征是否与指定操作人员的声纹特征相匹配,以及识别所述第二声音信号的声纹特征是否与指定监护人员的声纹特征相匹配;其中,所述指定监护人员对所述指定操作人进行操作监护;
若所述第一声音信号的声纹特征与所述指定操作人员的声纹特征相匹配,以及所述第二声音信号的声纹特征与所述指定监护人员的声纹特征相匹配,所述地面控制平台执行所述的对所述第一声音信号以及所述第二声音信号进行合成得到验证声音信号的步骤。
3.根据权利要求2所述的基于非触控式的空间机器人控制方法,其特征在于,所述地面控制平台对所述第一声音信号以及所述第二声音信号进行合成得到验证声音信号,包括:
所述地面控制平台确定所述第一声音信号与所述第二声音信号之间的对齐点;其中,所述对齐点是指所述第一声音信号和所述第二声音信号合成的开始位置;
所述地面控制平台根据所述对齐点将所述第一声音信号与所述第二声音信号合成为验证声音信号。
4.根据权利要求3所述的基于非触控式的空间机器人控制方法,其特征在于,所述地面控制平台确定所述第一声音信号与所述第二声音信号之间的对齐点,包括
所述地面控制平台计算所述第一声音信号的第一时长以及所述第二声音信号的第二时长;其中,所述第一时长表示所述第一声音信号的声音持续的时间;所述第二时长表示所述第二声音信号的声音持续的时间;
所述地面控制平台计算所述第一时长和所述第二时长之间的差值;
所述地面控制平台判断所述差值是否小于或等于预设数值,若是,对所述第一声音信号和所述第二声音信号中的任一声音信号进行周期上的缩放,以获得最终持续时长相同的第一声音信号和第二声音信号,再以所述最终持续时长相同的第一声音信号和第二声音信号的首个音频帧作为对齐点。
5.根据权利要求4所述的基于非触控式的空间机器人控制方法,其特征在于,所述地面控制平台对所述第一声音信号和所述第二声音信号中的任一声音信号进行周期上的缩放,包括:
若所述第一声音信号的第一时长相对于所述第二声音信号的第二时长较短,所述地面控制平台根据所述差值确定所述差值占所述第一声音信号的第一时长的比例X;
所述地面控制平台计算所述第一声音信号的音频帧数Y;
所述地面控制平台计算放大系数Z,所述Z=X*(Y/(Y-1));
所述地面控制平台按照所述放大系数,对所述第一声音信号中除了首个音频帧之外的其他音频帧进行等比例放大,以使得放大后的第一声音信号的最终持续时长与所述第二声音信号的第二时长相同。
6.根据权利要求4或5所述的基于非触控式的空间机器人控制方法,其特征在于,若所述差值大于所述预设数值,所述方法还包括:
所述地面控制平台使用相同的默认采样频率对所述第一声音信号以及所述第二声音信号分别进行采样,得到第一采样组和第二采样组;
所述地面控制平台根据所述默认采样频率、所述第一采样组、所述第二采样组以及互相关权值生成互相关组;其中,所述互相关权值与所述差值正相关,所述互相关组中包含有多个数值;
所述地面控制平台将所述互相关组中的多个数值进行比较,找出最大的数值;
所述地面控制平台使用所述最大的数值对应的音频帧位置作为对齐点。
7.根据权利要求6所述的基于非触控式的空间机器人控制方法,其特征在于,所述地面控制平台根据所述默认采样频率、所述第一采样组、所述第二采样组以及互相关权值生成互相关组,包括:
其中,Sn[t]表示互相关组,x[m]表示所述第一采样组中的第m个采样数据,y[m-t]表示所述第二采样组中的第(m-t)个采样数据,t表示时间的偏移量,t为整数,取值为从0到m,Wt表示窗函数,其中n=l*f,l为互相关权值,f为所述默认采样频率。
8.根据权利要求2-7任一项所述的基于非触控式的空间机器人控制方法,其特征在于,在所述地面控制平台识别出所述第一声音信号的声纹特征与所述指定操作人员的声纹特征相匹配以及所述第二声音信号的声纹特征与所述指定监护人员的声纹特征相匹配之后,以及所述地面控制平台对所述第一声音信号以及所述第二声音信号进行合成得到验证声音信号之前,所述方法还包括:
所述地面控制平台控制所述第一采集设备进行人像拍摄,获得第一拍摄图像;以及,控制所述第二采集设备进行人像拍摄,获得第二拍摄图像;
所述地面控制平台检测所述第一拍摄图像是否包括第一人像以及所述第二拍摄图像是否包括第二人像;
若所述第一拍摄图像包括第一人像以及所述第二拍摄图像包括第二人像,所述地面控制平台判断所述第一人像包含的第一人脸图像是否与所述指定操作人的人脸图像相匹配,以及第二人像包含的第二人脸图像是否与所述指定监护人员的人脸图像相匹配;
若所述第一人像包含的第一人脸图像与所述指定操作人的人脸图像相匹配以及所述第二人像包含的第二人脸图像与所述指定监护人员的人脸图像相匹配,所述地面控制平台执行所述的对所述第一声音信号以及所述第二声音信号进行合成得到验证声音信号的步骤。
9.根据权利要求8所述的基于非触控式的空间机器人控制方法,其特征在于,在所述地面控制平台判断出若所述第一人像包含的第一人脸图像与所述指定操作人的人脸图像相匹配以及所述第二人像包含的第二人脸图像与所述指定监护人员的人脸图像相匹配之后,以及所述地面控制平台对所述第一声音信号以及所述第二声音信号进行合成得到验证声音信号之前,所述方法还包括:
所述地面控制平台利用人像属性算法对所述第一人像进行前向计算,得到所述第一人像的属性信息;利用所述人像属性算法对所述第二人像进行前向计算,得到所述第二人像的属性信息;
所述地面控制平台判断所述第一人像的属性信息是否与所述指定操作人的属性信息相匹配,以及所述第二人像的属性信息是否与所述指定监护人员的属性信息相匹配;
若所述第一人像的属性信息与所述指定操作人的属性信息相匹配以及所述第二人像的属性信息与所述指定监护人员的属性信息相匹配,所述地面控制平台执行所述的对所述第一声音信号以及所述第二声音信号进行合成得到验证声音信号的步骤。
10.根据权利要求9所述的基于非触控式的空间机器人控制方法,其特征在于,所述人像属性算法是基于多个样本人像图像以及所述多个样本人像图像的多个属性信息的识别结果按照属性信息的不同类型进行训练得到;其中,所述属性信息包括年龄、性别以及身高。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810470494.8A CN108766435A (zh) | 2018-05-17 | 2018-05-17 | 一种基于非触控式的空间机器人控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810470494.8A CN108766435A (zh) | 2018-05-17 | 2018-05-17 | 一种基于非触控式的空间机器人控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108766435A true CN108766435A (zh) | 2018-11-06 |
Family
ID=64008268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810470494.8A Pending CN108766435A (zh) | 2018-05-17 | 2018-05-17 | 一种基于非触控式的空间机器人控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108766435A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101673545A (zh) * | 2008-09-12 | 2010-03-17 | 华为技术有限公司 | 一种编解码方法及装置 |
CN101763672A (zh) * | 2010-01-22 | 2010-06-30 | 河北莱恩科技有限责任公司 | 一种指纹门禁集中管理系统 |
CN105468145A (zh) * | 2015-11-18 | 2016-04-06 | 北京航空航天大学 | 一种基于手势和语音识别的机器人人机交互方法和装置 |
CN106599866A (zh) * | 2016-12-22 | 2017-04-26 | 上海百芝龙网络科技有限公司 | 一种多维度用户身份识别方法 |
CN106847275A (zh) * | 2016-12-27 | 2017-06-13 | 广东小天才科技有限公司 | 一种用于控制穿戴设备的方法及穿戴设备 |
CN107993663A (zh) * | 2017-09-11 | 2018-05-04 | 北京航空航天大学 | 一种基于Android的声纹识别方法 |
-
2018
- 2018-05-17 CN CN201810470494.8A patent/CN108766435A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101673545A (zh) * | 2008-09-12 | 2010-03-17 | 华为技术有限公司 | 一种编解码方法及装置 |
CN101763672A (zh) * | 2010-01-22 | 2010-06-30 | 河北莱恩科技有限责任公司 | 一种指纹门禁集中管理系统 |
CN105468145A (zh) * | 2015-11-18 | 2016-04-06 | 北京航空航天大学 | 一种基于手势和语音识别的机器人人机交互方法和装置 |
CN106599866A (zh) * | 2016-12-22 | 2017-04-26 | 上海百芝龙网络科技有限公司 | 一种多维度用户身份识别方法 |
CN106847275A (zh) * | 2016-12-27 | 2017-06-13 | 广东小天才科技有限公司 | 一种用于控制穿戴设备的方法及穿戴设备 |
CN107993663A (zh) * | 2017-09-11 | 2018-05-04 | 北京航空航天大学 | 一种基于Android的声纹识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11894014B2 (en) | Audio-visual speech separation | |
US20200321008A1 (en) | Voiceprint recognition method and device based on memory bottleneck feature | |
Hussain et al. | {WaveGuard}: Understanding and mitigating audio adversarial examples | |
CN109065027B (zh) | 语音区分模型训练方法、装置、计算机设备及存储介质 | |
US20060253285A1 (en) | Method and apparatus using spectral addition for speaker recognition | |
Tao et al. | Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection. | |
WO2024055752A9 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
CN110176243B (zh) | 语音增强方法、模型训练方法、装置和计算机设备 | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
CN111932056A (zh) | 客服质量评分方法、装置、计算机设备和存储介质 | |
CN108766435A (zh) | 一种基于非触控式的空间机器人控制方法 | |
CN113724692B (zh) | 一种基于声纹特征的电话场景音频获取与抗干扰处理方法 | |
Mansour et al. | A comparative study in emotional speaker recognition in noisy environment | |
CN113012684B (zh) | 一种基于语音分割的合成语音检测方法 | |
CN108847228A (zh) | 一种基于双人发声的空间机器人控制方法 | |
CN114333844A (zh) | 声纹识别方法、装置、介质及设备 | |
CN108765653A (zh) | 一种电气设备接入的倒闸柜的柜门控制方法 | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
CN113674745A (zh) | 语音识别方法及装置 | |
CN108648317A (zh) | 一种超声波测距与人像的属性信息结合的智能控制方法 | |
CN108744498A (zh) | 一种基于双vr设备的虚拟游戏快速启动方法 | |
Thamburaj et al. | Automatic Speech Recognition Based on Improved Deep Learning | |
Zheng et al. | A robust keyword detection system for criminal scene analysis | |
US20230377560A1 (en) | Speech tendency classification | |
US20240194200A1 (en) | System and method for change point detection in multi-media multi-person interactions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181106 |