CN116890786A - 车辆车锁控制方法、设备和介质 - Google Patents
车辆车锁控制方法、设备和介质 Download PDFInfo
- Publication number
- CN116890786A CN116890786A CN202311159516.6A CN202311159516A CN116890786A CN 116890786 A CN116890786 A CN 116890786A CN 202311159516 A CN202311159516 A CN 202311159516A CN 116890786 A CN116890786 A CN 116890786A
- Authority
- CN
- China
- Prior art keywords
- sound
- vehicle
- frequency
- voice
- stored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 230000007246 mechanism Effects 0.000 claims abstract description 30
- 238000013135 deep learning Methods 0.000 claims abstract description 23
- 238000013459 approach Methods 0.000 claims description 25
- 238000001228 spectrum Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000036651 mood Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 102200159389 rs58999456 Human genes 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241001272996 Polyphylla fullo Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
Abstract
本发明公开了一种车辆车锁控制方法、设备和介质,方法包括:采集车辆指定区域内的声音,声音包括说话声与脚步声;判断声音是否满足多重声音条件,多重声音条件包括:判断说话声中的频率是否为预存频率,判断说话声中的音色是否为预存音色,判断说话声的语音指令是否为预存语音指令,基于深度学习和时序注意力机制判断脚步声是否为预存步频;当声音满足声音判断条件时,车锁执行语音指令。本申请当判断出车辆指定区域内的声音满足声音判断条件时,自动进行车锁控制,只有同时满足四个条件,才执行车锁控制操作,能够提高安全性能。
Description
技术领域
本发明涉及车辆子系统的联合控制技术领域,尤其涉及一种车辆车锁控制方法、设备和介质。
背景技术
现有汽车解锁需要通过钥匙按钮,汽车闭锁也需要钥匙按钮。
本申请发明人在实现本发明实施例技术方法的过程中,至少发现现有技术中存在如下技术问题:
现有的车辆解锁或闭锁过程,需要用户手动操作,智能化程度低。在特殊情况下,这种手动解锁或闭锁会给车主带来不便,例如:当车主双手提有重物时,车主若需要解锁,得先放下重物,再使用钥匙解锁,最后提起重物放入车内。
综上,现有的车辆车锁手动操作繁琐。
发明内容
本发明实施例提供一种车辆车锁控制方法、设备和介质,解决了现有的车辆车锁手动操作繁琐的技术问题。
本发明实施例一方面提供了一种车辆车锁控制方法,所述方法包括:采集车辆指定区域内的声音,所述声音包括说话声与脚步声;判断所述声音是否满足多重声音条件,所述多重声音条件包括:判断所述说话声中的频率是否为预存频率,判断所述说话声中的音色是否为预存音色,判断所述说话声的语音指令是否为预存语音指令,基于深度学习和时序注意力机制判断所述脚步声是否为预存步频;其中,基于深度学习和时序注意力机制判断所述脚步声是否为预存步频,具体包括:对所述脚步声进行预处理,提取所述脚步声的频谱特征;将所述频谱特征输入深度卷积神经网络,学习并提取所述脚步声中的高层语义特征;将所述高层语义特征输入双向长短期记忆网络,捕捉并编码所述脚步声中的时序特征和上下文信息;将所述时序特征输入时序注意力机制,基于所述上下文信息,根据每个时刻的重要性分配不同的权重,得到加权平均后的全局特征向量;将所述全局特征向量输入全连接层,将所述全局特征向量映射到概率分布上,输出脚步声是否为预存步频;当所述声音满足所述声音判断条件时,车锁执行所述语音指令。
可选的,在所述采集车辆指定区域内的声音之前,所述方法还包括:通过神经网络学习授权对象的说话声数据与脚步声数据,提取所述说话声数据中的频率、音色、语音指令和所述脚步声数据中的步频;存储所述频率、音色、语音指令和步频,形成所述预存频率、所述预存音色、所述预存语音指令和所述预存步频。
可选的,在所述采集车辆指定区域内的声音之前,所述方法还包括:检测所述车辆指定区域内是否有对象靠近,若是,则执行步骤:采集车辆指定区域内的声音。
可选的,在所述检测所述车辆指定区域内是否有对象靠近之后,所述方法还包括:当所述车辆指定区域内无对象靠近时,保持低功耗待机检测状态。
可选的,所述车辆指定区域包括以下区域中的至少一种:区域S1、区域S2、区域S3、区域S4、区域S5,其中,所述区域S1为主驾驶车门车锁附近半径为R1的扇形区域,所述区域S2为副驾驶车门车锁附近半径为R2的扇形区域,所述区域S3为后尾箱车锁附近半径为R3的半圆形区域,所述区域S4为左后车门车锁附近半径为R4的扇形区域,所述区域S5为右后车门车锁附近半径为R5的扇形区域。
可选的,所述语音指令具体为解锁指令或闭锁指令。
可选的,所述车锁具体为车门锁和尾门锁中的至少一种。
可选的,在所述判断所述声音是否满足多重声音条件之后,所述方法还包括:当所述声音不满足所述声音判断条件时,执行以下操作中的至少一种:报警操作、语音提示操作。
另一方面,本发明实施例还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述实施例中车辆车锁控制方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述实施例中车辆车锁控制方法的步骤。
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
一种车辆车锁控制方法,所述方法包括:采集车辆指定区域内的声音,所述声音包括说话声与脚步声;判断所述声音是否满足多重声音条件,所述多重声音条件包括:判断所述说话声中的频率是否为预存频率,判断所述说话声中的音色是否为预存音色,判断所述说话声的语音指令是否为预存语音指令,基于深度学习和时序注意力机制判断所述脚步声是否为预存步频;其中,基于深度学习和时序注意力机制判断所述脚步声是否为预存步频,具体包括:对所述脚步声进行预处理,提取所述脚步声的频谱特征;将所述频谱特征输入深度卷积神经网络,学习并提取所述脚步声中的高层语义特征;将所述高层语义特征输入双向长短期记忆网络,捕捉并编码所述脚步声中的时序特征和上下文信息;将所述时序特征输入时序注意力机制,基于所述上下文信息,根据每个时刻的重要性分配不同的权重,得到加权平均后的全局特征向量;将所述全局特征向量输入全连接层,将所述全局特征向量映射到概率分布上,输出脚步声是否为预存步频;当所述声音满足所述声音判断条件时,车锁执行所述语音指令。本申请无需手动操作,当判断出车辆指定区域内的声音满足声音判断条件时,自动进行车锁控制,解决了现有的车辆车锁手动操作繁琐的技术问题;本申请的多重声音条件包括四个条件,四个条件中包括四要素,分别为说话声中的频率、音色和语音指令,以及脚步声中的步频,只有同时满足四个条件,才执行车锁控制操作,能够提高安全性能。基于深度学习和时序注意力机制判断所述脚步声是否为预存步频,能够自主地学习并提取脚步声中的语义和时序特征,对噪声鲁棒,不需要大量的训练数据,具有高准确率和低计算复杂度。
进一步,在所述采集车辆指定区域内的声音之前,所述方法还包括:通过神经网络学习授权对象的说话声数据与脚步声数据,提取所述说话声数据中的频率、音色、语音指令和所述脚步声数据中的步频;存储所述频率、音色、语音指令和步频,形成所述预存频率、所述预存音色、所述预存语音指令和所述预存步频。能够方便授权对象录入频率、音色、语音指令和步频,方便授权对象使用。
再进一步,在所述采集车辆指定区域内的声音之前,所述方法还包括:检测所述车辆指定区域内是否有对象靠近,若是,则执行步骤:采集车辆指定区域内的声音。能够先判断是否有对象靠近,当有对象靠近时,再采集声音,能够按需采集声音。
又进一步,在所述检测所述车辆指定区域内是否有对象靠近之后,所述方法还包括:当所述车辆指定区域内无对象靠近时,保持低功耗待机检测状态。能够在无对象靠近时,维持低功耗待机检测状态,减少车辆耗电。
还进一步,所述车辆指定区域包括以下区域中的至少一种:区域S1、区域S2、区域S3、区域S4、区域S5,其中,所述区域S1为主驾驶车门车锁附近半径为R1的扇形区域,所述区域S2为副驾驶车门车锁附近半径为R2的扇形区域,所述区域S3为后尾箱车锁附近半径为R3的半圆形区域,所述区域S4为左后车门车锁附近半径为R4的扇形区域,所述区域S5为右后车门车锁附近半径为R5的扇形区域。能够采集多个区域的声音数据,提高采集可靠性。
再进一步,所述语音指令具体为解锁指令或闭锁指令。能够按需进行解锁或闭锁,方便用户使用。
又进一步,所述车锁具体为车门锁和尾门锁中的至少一种。不仅能够控制四个车门,还能够控制货箱尾门,实现全面控制,满足用户多样化需求。
还进一步,在所述判断所述声音是否满足多重声音条件之后,所述方法还包括:当所述声音不满足所述声音判断条件时,执行以下操作中的至少一种:报警操作、语音提示操作。能够在多重声音条件不满足声音判断条件时,及时进行报警操作、语音提示操作,例如声光报警,播报语音“抱歉,您没有控制权限,请离开”。
附图说明
图1为本发明一实施例中车辆车锁控制方法的流程图;
图2为本发明一实施例中车辆指定区域示意图;
图3为本发明一实施例中车辆车锁控制系统的架构图;
图4为本发明一实施例中车辆车锁控制方法的整体流程图。
具体实施方式
本发明实施例提供一种车辆车锁控制方法、设备和介质,解决了现有的车辆车锁手动操作繁琐的技术问题。
本发明一实施例的技术方案为解决上述的问题,总体思路如下:
一种车辆车锁控制方法,方法包括:采集车辆指定区域内的声音,声音包括说话声与脚步声;判断声音是否满足多重声音条件,多重声音条件包括:判断说话声中的频率是否为预存频率,判断说话声中的音色是否为预存音色,判断说话声的语音指令是否为预存语音指令,基于深度学习和时序注意力机制判断脚步声是否为预存步频;其中,基于深度学习和时序注意力机制判断脚步声是否为预存步频,具体包括:对脚步声进行预处理,提取脚步声的频谱特征;将频谱特征输入深度卷积神经网络,学习并提取脚步声中的高层语义特征;将高层语义特征输入双向长短期记忆网络,捕捉并编码脚步声中的时序特征和上下文信息;将时序特征输入时序注意力机制,基于上下文信息,根据每个时刻的重要性分配不同的权重,得到加权平均后的全局特征向量;将全局特征向量输入全连接层,将全局特征向量映射到概率分布上,输出脚步声是否为预存步频;当声音满足声音判断条件时,车锁执行语音指令。本申请无需手动操作,当判断出车辆指定区域内的声音满足声音判断条件时,自动进行车锁控制,解决了现有的车辆车锁手动操作繁琐的技术问题;本申请的多重声音条件包括四个条件,四个条件中包括四要素,分别为说话声中的频率、音色和语音指令,以及脚步声中的步频,只有同时满足四个条件,才执行车锁控制操作,能够提高安全性能。基于深度学习和时序注意力机制判断脚步声是否为预存步频,能够自主地学习并提取脚步声中的语义和时序特征,对噪声鲁棒,不需要大量的训练数据,具有高准确率和低计算复杂度。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。显然,本发明所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,对本发明实施例中车辆车锁控制方法进行详细的描述。
步骤101:采集车辆指定区域内的声音,声音包括说话声与脚步声;
步骤102:判断声音是否满足多重声音条件,多重声音条件包括:判断说话声中的频率是否为预存频率,判断说话声中的音色是否为预存音色,判断说话声的语音指令是否为预存语音指令,基于深度学习和时序注意力机制判断脚步声是否为预存步频;其中,基于深度学习和时序注意力机制判断脚步声是否为预存步频,具体包括:对脚步声进行预处理,提取脚步声的频谱特征;将频谱特征输入深度卷积神经网络,学习并提取脚步声中的高层语义特征;将高层语义特征输入双向长短期记忆网络,捕捉并编码脚步声中的时序特征和上下文信息;将时序特征输入时序注意力机制,基于上下文信息,根据每个时刻的重要性分配不同的权重,得到加权平均后的全局特征向量;将全局特征向量输入全连接层,将全局特征向量映射到概率分布上,输出脚步声是否为预存步频;
步骤103:当声音满足声音判断条件时,车锁执行语音指令。
当对象进入车辆指定区域时,开始执行步骤101:采集车辆指定区域内的声音,声音包括说话声与脚步声。为了能够采集多个区域的声音数据,提高采集可靠性,如图2所示,车辆指定区域包括以下区域中的至少一种:区域S1、区域S2、区域S3、区域S4、区域S5。车辆指定区域为以上区域中的一种区域或者两种及两种以上区域的组合。其中,区域S1为主驾驶车门车锁附近半径为R1的扇形区域,区域S2为副驾驶车门车锁附近半径为R2的扇形区域,区域S3为后尾箱车锁附近半径为R3的半圆形区域,区域S4为左后车门车锁附近半径为R4的扇形区域,区域S5为右后车门车锁附近半径为R5的扇形区域。
步骤101在具体实施过程中,例如:声音传感器用于采集车辆指定区域内对象发出的声音,声音包括说话声和脚步声。声音传感器与控制装置连接,声音传感器将采集的声音发送至控制装置。声音传感器可以根据实际需要设置具体数目,可以设置单个传感器或者多个传感器,本申请不作限制。具体地,可以通过麦克风、加速度传感器或地震检波器等传感器,采集对象所发出的声音或震动信号。
在采集车辆指定区域内的声音之后,开始执行步骤102:判断声音是否满足多重声音条件,多重声音条件包括:判断说话声中的频率是否为预存频率,判断说话声中的音色是否为预存音色,判断说话声的语音指令是否为预存语音指令,基于深度学习和时序注意力机制判断脚步声是否为预存步频;其中,基于深度学习和时序注意力机制判断脚步声是否为预存步频,具体包括:对脚步声进行预处理,提取脚步声的频谱特征;将频谱特征输入深度卷积神经网络,学习并提取脚步声中的高层语义特征;将高层语义特征输入双向长短期记忆网络,捕捉并编码脚步声中的时序特征和上下文信息;将时序特征输入时序注意力机制,基于上下文信息,根据每个时刻的重要性分配不同的权重,得到加权平均后的全局特征向量;将全局特征向量输入全连接层,将全局特征向量映射到概率分布上,输出脚步声是否为预存步频。
步骤102在具体实施过程中,例如:控制装置接收声音传感器发送的声音之后,判断声音是否满足多重声音条件。
步骤一:提取说话声中的频率,判断频率是否为预存频率。当频率为预存频率时,开始执行步骤二;而当频率不为预存频率时,结束判断流程,表明声音不满足多重声音条件。
步骤二:提取说话声中的音色,判断音色是否为预存音色。当音色为预存音色时,开始执行步骤三;而当音色不为预存音色时,结束判断流程,表明声音不满足多重声音条件。
步骤三:提取说话声的语音指令,判断语音指令是否为预存语音指令。当语音指令为预存语音指令时,开始执行步骤四;而当语音指令不为预存语音指令时,结束判断流程,表明声音不满足多重声音条件。
步骤四:基于深度学习和时序注意力机制提取脚步声中的步频,判断步频是否为预存步频。当步频为预存步频时,表明声音满足多重声音条件,开始执行步骤103;而当步频不为预存步频时,结束判断流程,表明声音不满足多重声音条件。
需要注意的是,步骤一、步骤二、步骤三和步骤四中的判断条件并没有先后执行顺序,可以根据实际需要,设定不同的执行顺序。
其中,基于深度学习和时序注意力机制判断脚步声是否为预存步频,具体包括:
首先,对脚步声进行预处理,提取脚步声的频谱特征。具体的,对采集到的脚步声进行降噪、端点检测、分帧、加窗、傅里叶变换等预处理操作,以便提取脚步声的频谱特征。降噪是为了消除脚步声中的噪声干扰,提高信噪比。端点检测是为了确定脚步声的起始位置和结束位置,减少无效数据。分帧、加窗和傅里叶变换是为了将时域信号转换为频域信号,方便提取频谱特征。接下来将开始特征提取,从预处理后的脚步声中提取出能够反应脚步声特性和个体差异的特征参数。常用的特征参数有梅尔频率倒谱系数 (MFCC)、线性预测编码 (LPC)、频谱包络相似度 (SES)、脚步声持续时间和间隔时间等。
第二,将提取出的脚步声的频谱特征输入深度卷积神经网络(DCNN),DCNN自主地学习并提取脚步声中的高层语义特征。
第三,将DCNN输出的高层语义特征输入双向长短期记忆网络(Bi-LSTM),Bi-LSTM捕捉并编码脚步声中的时序特征和上下文信息。
第四,将Bi-LSTM输出的时序特征输入时序注意力机制(TAM),基于上下文信息,TAM根据每个时刻的重要性分配不同的权重,得到加权平均后的全局特征向量。
最后,将TAM输出的全局特征向量输入全连接层(FC),FC将全局特征向量映射到概率分布上,输出脚步声是否为预存步频。
其中,语义是指脚步声所表达的行走者的身份、性别、年龄、心情、目的等信息,它们与脚步声的物理特征有一定的关联。物理特征是指脚步声的频率、音色、步频、持续时间、间隔时间等参数,它们可以通过声音信号的分析和处理得到。不同的物理特征反映了不同的语义信息,例如:
频率是指脚步声每秒钟振动的次数,它与行走者的身高、体重、鞋子类型等有关。一般来说,频率越高,说明行走者越矮小或者鞋子越轻盈;频率越低,说明行走者越高大或者鞋子越沉重。
音色是指脚步声的质感和色彩,它与行走者的性别、年龄、鞋子材质等有关。一般来说,音色越清脆,说明行走者越年轻或者鞋子越硬;音色越沉闷,说明行走者越老或者鞋子越软。
步频是指脚步声每分钟出现的次数,它与行走者的速度、节奏、心情等有关。一般来说,步频越快,说明行走者越急速或者心情越紧张;步频越慢,说明行走者越缓慢或者心情越放松。
持续时间是指每个脚步声从开始到结束的时间长度,它与行走者的力度、姿态、地面类型等有关。一般来说,持续时间越长,说明行走者越用力或者地面越软;持续时间越短,说明行走者越轻柔或者地面越硬。
间隔时间是指相邻两个脚步声之间的时间间隔,它与行走者的步幅、平衡、目的等有关。一般来说,间隔时间越长,说明行走者越迈大或者平衡越差;间隔时间越短,说明行走者越迈小或者平衡越好。
语义中的时域参数与时序特征的关系:
时域参数是指在时域上描述声音信号的特征,例如振幅、持续时间、间隔时间等。时序特征是指在时序上描述声音信号的特征,例如频率、音色、步频等。时域参数和时序特征之间有一定的关联,但不完全重叠。例如:
振幅和频率之间有一定的关联,因为振幅越大,说明声音越响亮,而响亮的声音往往伴随着高频成分的增加。但是,振幅和频率之间也有一定的差异,因为不同的声源和声道会影响声音的振幅和频率,使得同样振幅的声音可能有不同的频率,或者同样频率的声音可能有不同的振幅。
持续时间和音色之间有一定的关联,因为持续时间越长,说明声音越持久,而持久的声音往往伴随着低频成分的增加。但是,持续时间和音色之间也有一定的差异,因为不同的声源和声道会影响声音的持续时间和音色,使得同样持续时间的声音可能有不同的音色,或者同样音色的声音可能有不同的持续时间。
间隔时间和步频之间有一定的关联,因为间隔时间越短,说明步频越快,而快速行走往往伴随着脚步声中高频成分的增加。但是,间隔时间和步频之间也有一定的差异,因为不同的行走者和地面会影响脚步声中的间隔时间和步频,使得同样间隔时间的脚步声可能有不同的步频,或者同样步频的脚步声可能有不同的间隔时间。
高层语义特征是指从声音信号中提取出能够反映语义信息的特征参数,它可以是频率、音色、步频等。高层语义特征是通过深度学习方法自动地学习和提取的,它不需要人为地定义或选择。高层语义特征可以更好地描述声音信号中的内在规律和差异,从而提高识别准确率和鲁棒性。
基于深度学习和时序注意力机制判断脚步声是否为预存步频,与现有技术的脚步声识别方法进行比较。
现有技术中的基于高斯混合模型(GMM)的脚步声识别方法,使用梅尔频率倒谱系数 (MFCC) 作为特征参数,使用GMM作为分类器。这种方法虽然简单易实现,但不能有效地利用脚步声中的时序特征,对噪声敏感,需要大量的训练数据。
现有技术中的基于隐马尔可夫模型 (HMM) 的脚步声识别方法,使用MFCC或线性预测编码 (LPC) 作为特征参数,使用HMM作为分类器。这种该方法虽然能够利用脚步声中的时序特征,但对噪声敏感,需要大量的训练数据,计算复杂度高。
现有技术中的基于支持向量机 (SVM) 的脚步声识别方法,使用MFCC或LPC作为特征参数,使用SVM作为分类器,虽然能够处理高维特征空间,但对噪声敏感,但不能有效利用脚步声中的时序特征。
本申请的基于深度学习和时序注意力机制判断脚步声是否为预存步频,使用频谱特征作为特征参数,使用DCNN、Bi-LSTM、TAM和FC作为分类器。能够自主地学习并提取脚步声中的语义和时序特征,对噪声鲁棒,不需要大量的训练数据,具有高准确率和低计算复杂度。
在判断声音是否满足判断条件之后,若声音满足多重声音条件时,开始执行步骤103:当声音满足声音判断条件时,车锁执行语音指令。为了能够按需进行解锁或闭锁,方便用户使用,语音指令具体为解锁指令或闭锁指令。为了不仅能够控制四个车门,还能够控制货箱尾门,实现全面控制,满足用户多样化需求,车锁具体为车门锁和尾门锁中的至少一种。
在具体实施过程中,例如:假设语音指令为解锁尾门,控制装置在提取语音指令之后,解析语音指令,将语音指令发送至尾门锁,尾门锁执行语音指令,自动打开尾门。其他语音指令的执行过程与解锁尾门的执行过程类似,为了说明书的简洁,不再举例说明其他语音指令的执行过程。
如图3和图4所示,下面将对车辆车锁控制方法的整体流程进行描述。车辆车锁控制机系统以区域S1和区域S3为例,在区域S1设置雷达1和声音传感器1,例如,可在主驾驶车门附近设置雷达1和声音传感器1。在区域S2设置雷达2和声音传感器2,例如可在后尾箱附近设置雷达2和声音传感器2。控制装置可设置在车辆内部,控制装置分别与雷达1、雷达2、声音传感器1、声音传感器2、主驾驶车门车锁和后尾箱车锁连接。雷达1和雷达2分别检测区域S1和区域S3是否有对象靠近,声音传感器1和声音传感器2分别接收区域S1和区域S3的声音,雷达1、雷达2、声音传感器1和声音传感器2将结果反馈给控制装置,控制装置生成并发送控制信号至主驾驶车门车锁和后尾箱车锁。
当雷达检测到对象时,声音传感器开始接收声音。并将声音发送至控制装置,将声音频率和音色与车主预存的声音频率和预存音色进行匹配。当声音频率和音色匹配时,将语音指令与车主预存的语音指令进行匹配。当语音指令匹配时,将步频与预设步频进行匹配。当步频匹配时,根据语音指令解锁或者闭锁。具体的步骤如下。
第一,车主需要在控制装置中录入自己的说话频率和音色数据,以及设置开锁和闭锁语音指令密钥,例如“开门”和“关门”等。同时,车主还需要在控制装置中录入自己的步行步频数据,以便识别自己的脚步声。
第二,控制装置需要使用神经网络对录入的数据进行学习和提取,并将训练好的神经网络模型保存在内部存储器中。
第三,当车主靠近车辆时,雷达会检测到物体出现在指定区域内,并唤醒相应的声音传感器。例如,当车主靠近主驾驶车门时,雷达1会检测到物体出现在区域A1内,并唤醒声音传感器1。
第四,声音传感器会接收到区域内的声音,并将其传送给控制装置。例如,当车主说出“开门”时,声音传感器1会接收到该语音指令,并将其传送给控制装置。
第五,控制装置会对接收到的声音进行分析和判断,首先比较其频率和音色是否与车主预存的频率和音色匹配,然后比较其语音指令是否与预存指令匹配,最后比较其步频声音是否与预存步频匹配。如果三者都匹配,则说明该对象是授权对象,并根据其语音指令发送控制信号给相应的车锁。例如,如果控制装置判断该对象是车主,并且其语音指令是“开门”,则发送控制信号给主驾驶车门车锁,使其解锁。
最后,当车主离开车辆时,也可以使用同样的方式进行闭锁操作,只需说出“关门”等语音指令即可。
为了能够在多重声音条件不满足声音判断条件时,及时进行报警操作、语音提示操作,在判断声音是否满足多重判断条件之后,若声音不满足多重声音条件时,开始执行步骤:当声音不满足多重声音判断条件时,执行以下操作中的至少一种:报警操作、语音提示操作。
在具体实施过程中,例如:步骤一、步骤二、步骤三或步骤四中的结束判断流程表明声音不满足多重声音条件,执行语音报警和语音提示操作中的至少一种,报警操作可以是灯光闪烁,发出报警音,语音提示操作可以是播放语音“抱歉,您没有控制权限,请离开”。
为了能够方便授权对象录入频率、音色、语音指令和步频,方便授权对象使用,在步骤101的采集车辆指定区域内的声音之前,方法还包括:通过神经网络学习授权对象的说话声数据与脚步声数据,提取说话声数据中的频率、音色、语音指令和脚步声数据中的步频;存储频率、音色、语音指令和步频,形成预存频率、预存音色、预存语音指令和预存步频。
在具体实施过程中,例如:首先,控制装置从授权对象的说话声和脚步声中采集足够多的声音样本,以便训练神经网络。可以在车辆启动、关闭或者车辆空闲时,提示车主说出一些特定的语句或者走一段距离来采集声音样本。
第二,控制装置对采集到的说话声和脚步声的声音样本进行预处理,例如进行分帧、加窗、傅里叶变换等操作,以便提取出频率、音色和步频等声音特征。这些声音特征可以用一些常用的方法来提取,例如梅尔频率倒谱系数 (MFCC)、线性预测编码 (LPC)、感知线性预测 (PLP)等。
第三,控制装置构建神经网络,以便对提取出的特征进行学习和分类。神经网络可以是深度神经网络 (DNN)、卷积神经网络 (CNN)、循环神经网络 (RNN)或者变换器(Transformer)等。神经网络的输入是提取出的声音特征,输出的是一个概率分布,以表示样本属于授权对象的可能性。
第四,控制装置使用优化算法调整神经网络的参数,优化算法可以采用随机梯度下降 (SGD)、Adam,优化后的神经网络能够最大化地区分授权对象和其他对象的声音特征。优化过程需要使用损失函数,例如交叉熵 (Cross-Entropy)、均方误差 (MSE),以衡量神经网络的预测值和真实值之间的差异,并根据梯度信息更新神经网络的参数。
最后,控制装置将训练好的模型保存在存储器内,并在需要解锁或者闭锁时,使用神经网络模型对实时采集到的声音特征进行预测,并根据预测结果和语音指令控制车门状态。
为了能够先判断是否有对象靠近,当有对象靠近时,再采集声音,能够按需采集声音。在步骤101的采集车辆指定区域内的声音之前,方法还包括:检测车辆指定区域内是否有对象靠近,若是,则执行步骤:采集车辆指定区域内的声音。
在具体实施过程中,例如:雷达用于实时采集车辆指定区域是否有对象靠近,当检测到有对象靠近时,雷达将采集到的传感数据发送至控制装置,控制装置生成唤醒指令,并将唤醒指令发送至声音传感器以唤醒声音传感器,由声音传感器采集车辆指定区域内的声音。雷达可以根据实际需要设置具体数目,可以设置单个雷达或者多个雷达,本申请不作限制。可以根据实际需要设置其他类型的接近传感器,例如红外传感器,本申请不作限制。
为了能够在无对象靠近时,维持低功耗待机检测状态,减少车辆耗电。在检测车辆指定区域内是否有对象靠近之后,方法还包括:当车辆指定区域内无对象靠近时,保持低功耗待机检测状态。
在具体实施过程中,例如:当雷达在车辆指定区域未检测到对象靠近时,不会将传感数据发送给控制装置,且继续保持低功耗待机检测状态。
本发明另一实施例提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现前述实施例中车辆车锁控制方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现前述实施例中车辆车锁控制方法的步骤。
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
一种车辆车锁控制方法,方法包括:采集车辆指定区域内的声音,声音包括说话声与脚步声;判断声音是否满足多重声音条件,多重声音条件包括:判断说话声中的频率是否为预存频率,判断说话声中的音色是否为预存音色,判断说话声的语音指令是否为预存语音指令,基于深度学习和时序注意力机制判断脚步声是否为预存步频;其中,基于深度学习和时序注意力机制判断脚步声是否为预存步频,具体包括:对脚步声进行预处理,提取脚步声的频谱特征;将频谱特征输入深度卷积神经网络,学习并提取脚步声中的高层语义特征;将高层语义特征输入双向长短期记忆网络,捕捉并编码脚步声中的时序特征和上下文信息;将时序特征输入时序注意力机制,基于上下文信息,根据每个时刻的重要性分配不同的权重,得到加权平均后的全局特征向量;将全局特征向量输入全连接层,将全局特征向量映射到概率分布上,输出脚步声是否为预存步频;当声音满足声音判断条件时,车锁执行语音指令。本申请无需手动操作,当判断出车辆指定区域内的声音满足声音判断条件时,自动进行车锁控制,解决了现有的车辆车锁手动操作繁琐的技术问题;本申请的多重声音条件包括四个条件,四个条件中包括四要素,分别为说话声中的频率、音色和语音指令,以及脚步声中的步频,只有同时满足四个条件,才执行车锁控制操作,能够提高安全性能。基于深度学习和时序注意力机制判断脚步声是否为预存步频,能够自主地学习并提取脚步声中的语义和时序特征,对噪声鲁棒,不需要大量的训练数据,具有高准确率和低计算复杂度。
进一步,在采集车辆指定区域内的声音之前,方法还包括:通过神经网络学习授权对象的说话声数据与脚步声数据,提取说话声数据中的频率、音色、语音指令和脚步声数据中的步频;存储频率、音色、语音指令和步频,形成预存频率、预存音色、预存语音指令和预存步频。能够方便授权对象录入频率、音色、语音指令和步频,方便授权对象使用。
再进一步,在采集车辆指定区域内的声音之前,方法还包括:检测车辆指定区域内是否有对象靠近,若是,则执行步骤:采集车辆指定区域内的声音。能够先判断是否有对象靠近,当有对象靠近时,再采集声音,能够按需采集声音。
又进一步,在检测车辆指定区域内是否有对象靠近之后,方法还包括:当车辆指定区域内无对象靠近时,保持低功耗待机检测状态。能够在无对象靠近时,维持低功耗待机检测状态,减少车辆耗电。
还进一步,车辆指定区域包括以下区域中的至少一种:区域S1、区域S2、区域S3、区域S4、区域S5,其中,区域S1为主驾驶车门车锁附近半径为R1的扇形区域,区域S2为副驾驶车门车锁附近半径为R2的扇形区域,区域S3为后尾箱车锁附近半径为R3的半圆形区域,区域S4为左后车门车锁附近半径为R4的扇形区域,区域S5为右后车门车锁附近半径为R5的扇形区域。能够采集多个区域的声音数据,提高采集可靠性。
再进一步,语音指令具体为解锁指令或闭锁指令。能够按需进行解锁或闭锁,方便用户使用。
又进一步,车锁具体为车门锁和尾门锁中的至少一种。不仅能够控制四个车门,还能够控制货箱尾门,实现全面控制,满足用户多样化需求。
还进一步,在判断声音是否满足多重声音条件之后,方法还包括:当声音不满足声音判断条件时,执行以下操作中的至少一种:报警操作、语音提示操作。能够在多重声音条件不满足声音判断条件时,及时进行报警操作、语音提示操作,例如声光报警,播报语音“抱歉,您没有控制权限,请离开”。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种车辆车锁控制方法,其特征在于,所述方法包括:
采集车辆指定区域内的声音,所述声音包括说话声与脚步声;
判断所述声音是否满足多重声音条件,所述多重声音条件包括:判断所述说话声中的频率是否为预存频率,判断所述说话声中的音色是否为预存音色,判断所述说话声的语音指令是否为预存语音指令,基于深度学习和时序注意力机制判断所述脚步声是否为预存步频;其中,基于深度学习和时序注意力机制判断所述脚步声是否为预存步频,具体包括:对所述脚步声进行预处理,提取所述脚步声的频谱特征;将所述频谱特征输入深度卷积神经网络,学习并提取所述脚步声中的高层语义特征;将所述高层语义特征输入双向长短期记忆网络,捕捉并编码所述脚步声中的时序特征和上下文信息;将所述时序特征输入时序注意力机制,基于所述上下文信息,根据每个时刻的重要性分配不同的权重,得到加权平均后的全局特征向量;将所述全局特征向量输入全连接层,将所述全局特征向量映射到概率分布上,输出脚步声是否为预存步频;
当所述声音满足所述声音判断条件时,车锁执行所述语音指令。
2.如权利要求1所述的方法,其特征在于,在所述采集车辆指定区域内的声音之前,所述方法还包括:
通过神经网络学习授权对象的说话声数据与脚步声数据,提取所述说话声数据中的频率、音色、语音指令和所述脚步声数据中的步频;
存储所述频率、音色、语音指令和步频,形成所述预存频率、所述预存音色、所述预存语音指令和所述预存步频。
3.如权利要求1所述的方法,其特征在于,在所述采集车辆指定区域内的声音之前,所述方法还包括:
检测所述车辆指定区域内是否有对象靠近,若是,则执行步骤:采集车辆指定区域内的声音。
4.如权利要求3所述的方法,其特征在于,在所述检测所述车辆指定区域内是否有对象靠近之后,所述方法还包括:
当所述车辆指定区域内无对象靠近时,保持低功耗待机检测状态。
5.如权利要求1所述的方法,其特征在于,所述车辆指定区域包括以下区域中的至少一种:区域S1、区域S2、区域S3、区域S4、区域S5,其中,所述区域S1为主驾驶车门车锁附近半径为R1的扇形区域,所述区域S2为副驾驶车门车锁附近半径为R2的扇形区域,所述区域S3为后尾箱车锁附近半径为R3的半圆形区域,所述区域S4为左后车门车锁附近半径为R4的扇形区域,所述区域S5为右后车门车锁附近半径为R5的扇形区域。
6.如权利要求1所述的方法,其特征在于,所述语音指令具体为解锁指令或闭锁指令。
7.如权利要求1所述的方法,其特征在于,所述车锁具体为车门锁和尾门锁中的至少一种。
8.如权利要求1所述的方法,其特征在于,在所述判断所述声音是否满足多重声音条件之后,所述方法还包括:
当所述声音不满足所述声音判断条件时,执行以下操作中的至少一种:报警操作、语音提示操作。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-8中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311159516.6A CN116890786A (zh) | 2023-09-11 | 2023-09-11 | 车辆车锁控制方法、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311159516.6A CN116890786A (zh) | 2023-09-11 | 2023-09-11 | 车辆车锁控制方法、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116890786A true CN116890786A (zh) | 2023-10-17 |
Family
ID=88312372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311159516.6A Pending CN116890786A (zh) | 2023-09-11 | 2023-09-11 | 车辆车锁控制方法、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116890786A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117370961A (zh) * | 2023-12-05 | 2024-01-09 | 江西五十铃汽车有限公司 | 一种车辆语音交互方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509930A (zh) * | 2018-04-10 | 2018-09-07 | 张姣姣 | 防盗锁传动转化控制平台 |
CN111311860A (zh) * | 2018-12-12 | 2020-06-19 | 杭州海康威视数字技术股份有限公司 | 一种区域入侵检测方法及装置 |
DE102018222761A1 (de) * | 2018-12-21 | 2020-06-25 | Volkswagen Aktiengesellschaft | Verfahren zur Authentifizierung eines Fahrzeugnutzers mittels der Bewegungsdaten eines mobilen elektronischen Identifikationsgebers |
CN111461173A (zh) * | 2020-03-06 | 2020-07-28 | 华南理工大学 | 一种基于注意力机制的多说话人聚类系统及方法 |
CN113963683A (zh) * | 2020-07-01 | 2022-01-21 | 广州汽车集团股份有限公司 | 一种后备箱开启控制方法及后备箱开启控制系统 |
CN116108176A (zh) * | 2022-12-31 | 2023-05-12 | 青岛海尔电冰箱有限公司 | 基于多模态深度学习的文本分类方法、设备及存储介质 |
CN116485607A (zh) * | 2023-04-06 | 2023-07-25 | 中建一局集团第五建筑有限公司 | 基于数字孪生的施工现场人员动态信息检测方法 |
-
2023
- 2023-09-11 CN CN202311159516.6A patent/CN116890786A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509930A (zh) * | 2018-04-10 | 2018-09-07 | 张姣姣 | 防盗锁传动转化控制平台 |
CN111311860A (zh) * | 2018-12-12 | 2020-06-19 | 杭州海康威视数字技术股份有限公司 | 一种区域入侵检测方法及装置 |
DE102018222761A1 (de) * | 2018-12-21 | 2020-06-25 | Volkswagen Aktiengesellschaft | Verfahren zur Authentifizierung eines Fahrzeugnutzers mittels der Bewegungsdaten eines mobilen elektronischen Identifikationsgebers |
CN111461173A (zh) * | 2020-03-06 | 2020-07-28 | 华南理工大学 | 一种基于注意力机制的多说话人聚类系统及方法 |
CN113963683A (zh) * | 2020-07-01 | 2022-01-21 | 广州汽车集团股份有限公司 | 一种后备箱开启控制方法及后备箱开启控制系统 |
CN116108176A (zh) * | 2022-12-31 | 2023-05-12 | 青岛海尔电冰箱有限公司 | 基于多模态深度学习的文本分类方法、设备及存储介质 |
CN116485607A (zh) * | 2023-04-06 | 2023-07-25 | 中建一局集团第五建筑有限公司 | 基于数字孪生的施工现场人员动态信息检测方法 |
Non-Patent Citations (1)
Title |
---|
杨曦 宋彬: "《多模态数据融合与检索技术》", 西安电子科技大学出版社, pages: 74 - 83 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117370961A (zh) * | 2023-12-05 | 2024-01-09 | 江西五十铃汽车有限公司 | 一种车辆语音交互方法及系统 |
CN117370961B (zh) * | 2023-12-05 | 2024-03-15 | 江西五十铃汽车有限公司 | 一种车辆语音交互方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11232788B2 (en) | Wakeword detection | |
US11694679B2 (en) | Wakeword detection | |
US11636851B2 (en) | Multi-assistant natural language input processing | |
US11699433B2 (en) | Dynamic wakeword detection | |
US20210090575A1 (en) | Multi-assistant natural language input processing | |
US9633652B2 (en) | Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon | |
US11393473B1 (en) | Device arbitration using audio characteristics | |
CN116890786A (zh) | 车辆车锁控制方法、设备和介质 | |
US11393477B2 (en) | Multi-assistant natural language input processing to determine a voice model for synthesized speech | |
US20210304774A1 (en) | Voice profile updating | |
US20140195232A1 (en) | Methods, systems, and circuits for text independent speaker recognition with automatic learning features | |
US20230042420A1 (en) | Natural language processing using context | |
US11514900B1 (en) | Wakeword detection | |
US11205428B1 (en) | Deleting user data using keys | |
WO2018233300A1 (zh) | 语音识别方法和语音识别装置 | |
CN106971714A (zh) | 一种应用于机器人的语音去噪识别方法及装置 | |
CN113147675A (zh) | 一种汽车车门的控制系统及控制方法 | |
US11557292B1 (en) | Speech command verification | |
US11334712B1 (en) | Reducing unintended automation events | |
CN107123420A (zh) | 一种语音识别系统及其交互方法 | |
CN115346527A (zh) | 语音控制方法、装置、系统、车辆和存储介质 | |
WO2021061512A1 (en) | Multi-assistant natural language input processing | |
US11893999B1 (en) | Speech based user recognition | |
US11531736B1 (en) | User authentication as a service | |
Manor et al. | Voice trigger system using fuzzy logic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |