CN109584873A - 一种车载语音系统的唤醒方法、装置、可读介质及设备 - Google Patents
一种车载语音系统的唤醒方法、装置、可读介质及设备 Download PDFInfo
- Publication number
- CN109584873A CN109584873A CN201811523829.4A CN201811523829A CN109584873A CN 109584873 A CN109584873 A CN 109584873A CN 201811523829 A CN201811523829 A CN 201811523829A CN 109584873 A CN109584873 A CN 109584873A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- word
- audio frame
- voice system
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 230000002618 waking effect Effects 0.000 claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 239000000284 extract Substances 0.000 claims abstract description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 238000005520 cutting process Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 16
- 238000003860 storage Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Traffic Control Systems (AREA)
Abstract
本说明书公开了一种车载语音系统的唤醒方法、装置、可读介质及设备,方法包括:将采集的音频数据连续划分为多个音频帧,每个所述音频帧包含一定时长的声音数据;将预设数量的两两之间连续的音频帧输入至声学特征提取模块,提取出声学特征向量;将所述声学特征向量输入至深度神经网络,得出预设唤醒词对应的概率值;在判断出所述预设唤醒词对应的概率值大于预设的第一阈值时,唤醒所述车载语音系统。将经过处理的音频数据输入至深度神经网络,得出预设唤醒词对应的概率值大小,在比较预设唤醒词对应的概率值与第一阈值的大小关系后,可以更加准确的唤醒车载语音系统。
Description
技术领域
本说明书涉及语音系统,尤其是涉及一种车载语音系统的唤醒方法、装置、可读介质及设备。
背景技术
车载语音系统是一种新型车内人机交互系统,实现了智能语音技术在车载场景下的应用。驾驶员可以通过说话的方式操作车内的硬件设备和软件系统,实现播放音乐、蓝牙通话、开启导航等一系列人机交互功能。
现有的车载语音系统需要唤醒时,直接对输入的音频数据进行识别,在识别出该音频数据中存在预储存的唤醒词时,唤醒车载语音系统。
在上述这种车载语音系统唤醒识别时,是对音频数据中的唤醒词进行的识别,不能对车载语音系统做出准确的唤醒。
发明内容
本说明书实施例提供一种车载语音系统的唤醒方法、装置、可读介质及设备,解决了上述技术问题。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种车载语音系统的唤醒方法,该方法包括:
将采集的音频数据连续划分为多个音频帧,每个所述音频帧包含一定时长的声音数据;
将预设数量的两两之间连续的音频帧输入至声学特征提取模块,提取出声学特征向量;
将所述声学特征向量输入至深度神经网络,得出预设唤醒词对应的概率值;
在判断出所述预设唤醒词对应的概率值大于预设的第一阈值时,唤醒所述车载语音系统。
可选的,所述将预设数量的音频帧输入至声学特征提取模块转化为声学特征向量,具体包括:
根据所述预设唤醒词对应的音频帧数量,在音频数据中取出和预设唤醒词相同数量的两两之间连续的音频帧,并以一个音频帧为单位移动后逐次取出和预设唤醒词相同数量的两两之间连续的音频帧;
分别将取出的和预设唤醒词相同数量的两两之间连续的音频帧输入至声学特征提取模块转化为声学特征向量。
可选的,在判断出所述预设唤醒词对应的概率值不大于预设阈值时,以一个音频帧为单位移动后在所述音频数据中取出预设数量的两两之间连续的音频帧,之后返回执行所述将预设数量的两两之间连续的音频帧输入至声学特征提取模块转化为声学特征向量的步骤。
可选的,预先设定第二阈值,所述第一阈值大于第二阈值;
在判断出所述预设唤醒词对应的概率值小于或等于所述第一阈值时,并且所述预设唤醒词对应的概率值大于所述第二阈值时所述车载语音系统进入敏感状态。
可选的,所述车载语音系统的所述敏感状态为:执行所述将采集的音频数据连续划分为多个音频帧时,按照预设比例将每个音频帧的时间缩短预设时间。
可选的,所述方法还包括:
获取车辆当前的车速以及车辆当前所处位置;
在判断出车辆的车速变化满足预设规则和/或车辆当前所处位置为预设位置时,降低所述第二阈值的取值。
本说明书实施例提供的一种车载语音系统的唤醒装置,所述装置包括:
分割单元,用于将采集的音频数据连续划分为多个音频帧,每个所述音频帧包含一定时长的声音数据;
提取单元,用于将预设数量的两两之间连续的音频帧输入至声学特征提取模块,提取出声学特征向量;
求值单元,用于将所述声学特征向量输入至深度神经网络,得出预设唤醒词对应的概率值;
唤醒单元,用于在判断出所述预设唤醒词对应的概率值大于预设的第一阈值时,唤醒所述车载语音系统。
可选的,所述转化单元具体用于根据所述预设唤醒词对应的音频帧数量,在音频数据中取出和预设唤醒词相同数量的两两之间连续的音频帧,并以一个音频帧为单位移动后逐次取出和预设唤醒词相同数量的两两之间连续的音频帧;
分别将取出的和预设唤醒词相同数量的两两之间连续的音频帧输入至声学特征提取模块转化为声学特征向量。
可选的,所述装置还包括:
移动单元,用于在判断出所述预设唤醒词对应的概率值不大于预设阈值时,以一个音频帧为单位移动后在所述音频数据中取出预设数量的两两之间连续的音频帧,之后返回执行所述将预设数量的两两之间连续的音频帧输入至声学特征提取模块转化为声学特征向量的步骤。
可选的,预先设定第二阈值,所述第一阈值大于第二阈值;
所述唤醒单元具体用于在判断出所述预设唤醒词对应的概率值小于或等于所述第一阈值时,并且所述预设唤醒词对应的概率值大于所述第二阈值时所述车载语音系统进入敏感状态。
可选的,所述车载语音系统的所述敏感状态为:执行所述将采集的音频数据连续划分为多个音频帧时,按照预设比例将每个音频帧的时间缩短预设时间。
可选的,所述装置还包括:
获取单元,用于获取车辆当前的车速以及车辆当前所处位置;
调节单元,用于在判断出车辆的车速变化满足预设规则和/或车辆当前所处位置为预设位置时,降低所述第二阈值的取值。
本说明书实施例提供的一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以下步骤:
将采集的音频数据连续划分为多个音频帧,每个所述音频帧包含一定时长的声音数据;
将预设数量的两两之间连续的音频帧输入至声学特征提取模块,提取出声学特征向量;
将所述声学特征向量输入至深度神经网络,得出预设唤醒词对应的概率值;
在判断出所述预设唤醒词对应的概率值大于预设的第一阈值时,唤醒所述车载语音系统。
本说明书实施例提供的一种车载语音系统的唤醒设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备执行以下步骤:
分割单元,用于将采集的音频数据连续划分为多个音频帧,每个所述音频帧包含一定时长的声音数据;
提取单元,用于将预设数量的两两之间连续的音频帧输入至声学特征提取模块,提取出声学特征向量;
求值单元,用于将所述声学特征向量输入至深度神经网络,得出预设唤醒词对应的概率值;
唤醒单元,用于在判断出所述预设唤醒词对应的概率值大于预设的第一阈值时,唤醒所述车载语音系统。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
1、将经过处理的音频数据输入至深度神经网络,得出预设唤醒词对应的概率值大小,在比较预设唤醒词对应的概率值与第一阈值的大小关系后,可以更加准确的唤醒车载语音系统;
2、采用双阈值的判定方式,增设敏感状态,使得车载语音系统处于敏感状态时更容易被唤醒;
3、结合车辆的位置信息和速度信息,在判断出车速的变化满足预设条件和/或车辆当前所处预设位置时,降低第二阈值的取值,使得车载语音系统更容易进入敏感状态,从而更容易唤醒。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例一提供的一种车载语音系统的唤醒方法的流程示意图;
图2为本说明书实施例一提供的深度神经网络的结构示意图;
图3为本说明书实施例二提供的一种车载语音系统的唤醒方法的流程示意图;
图4为本说明书实施例三提供的一种车载语音系统的唤醒装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
图1为本说明书实施例提供的一种车载语音系统的唤醒方法的流程示意图,该流程示意图包括:
步骤S101,将采集的音频数据连续划分为多个音频帧。
在本说明书实施例的步骤S101中,车载语音系统唤醒的起始步骤是对音频数据的采集和初步处理。针对本实施例中的车载语音系统,音频数据的采集对象为连续不断的语音。音频帧为包含一定时长的语音,其本质也是音频数据,其中,每个音频帧相对是对立的,使得车载语音系统对音频数据的处理时更加精细,进而使得车载语音系统的唤醒效果更好。
步骤S102,将预设数量的两两之间连续的音频帧输入至声学特征提取模块,提取出声学特征向量。
在本说明书实施例的步骤S102中,根据预设唤醒词对应的音频帧数量,在音频数据中取出和预设唤醒词相同数量的两两之间连续的音频帧,并以一个音频帧为单位移动后逐次取出和预设唤醒词相同数量的两两之间连续的音频帧;分别将取出的和预设唤醒词相同数量的两两之间连续的音频帧输入至声学特征提取模块,提取出声学特征向量。
进一步的,在本说明书实施例的步骤S102中,在音频数据中首次取出连续语音帧时,从音频数据中的首个音频帧起,取出和预设唤醒词相同数量的两两之间连续的音频帧,之后以一个音频帧为单位向后移动,逐次取出和预设唤醒词相同数量的两两之间连续的音频帧,最后,分别将取出的和预设唤醒词相同数量的连续语音帧输入至声学特征提取模块提取声学特征向量。在音频数据中取出连续语音帧时以首个音频帧起向后逐次移动,是一种可以将音频数据中和预设唤醒词相同数量的连续语音帧的组合全部找出来的方法。此外,也可以在音频数据中取出连续语音帧时以末尾的音频帧起向前逐次移动。
在本说明书实施例的步骤S102中,预设唤醒词相同数量的两两之间连续的音频帧输入声学特征提取模块中进行声学特征的提取,并声学特征提取模块中的声学模型完成,声学模型通过计算得到感知线性预测特征(PLP),并使用PLP特征的增量和双增量作为高斯混合模型(GMM)的输入,判断每个音频帧是否属于语音区域。对于属于语音区域的音频帧,进一步使用对数滤波器提取出声学特征向量。
步骤S103,将声学特征向量输入至深度神经网络,得出预设唤醒词对应的概率值。
在本说明书实施例的步骤S103中,多组声学特征向量分别输入至深度神经网络,计算出多组语音类上的概率分布,多组语音类包含了预设唤醒词、与预设唤醒词相类似的词、其他讲话内容等多个语音类,语音类上的概率分布就是预设唤醒词、与预设唤醒词相类似的词、其他讲话内容等多个语音类所占的概率值,而将多组声学特征向量输入至深度神经网络的最终目的是得出预设唤醒对应的概率值。唤醒词在预先设置时只设置有一个,车载语音系统识别出预先设置的唤醒词后唤醒车载语音系统。例如,将唤醒词设置为“Hey,Atom!”,车载语音系统在识别出“Hey,Atom!”后唤醒车载语音系统,此时与预设唤醒词相类似的词包括“Hey,Ato”、“Hey,Tom”或者“Hey,Tomy”。深度神经网络可以为通过监督学习训练出的DNN深度神经网络。
在本说明书实施例的步骤S103中,由图2所示的深度神经网络结构对多组声学特征向量分别进行处理,其间通过多个隐藏层,这些隐藏层具有相同数量的神经元,最后使用softmax层对隐藏层的输出进行归一化处理得出各个语音类的概率分布,进而得出预设唤醒对应的概率值。
步骤S104,在判断出预设唤醒词对应的概率值大于预设的第一阈值时,唤醒车载语音系统。
在本说明书实施例的步骤S104中,在步骤S103中已得出预设唤醒词对应的概率值,此处的第一阈值为预先设定的值,只要判断出预设唤醒词对应的概率值大于第一阈值时则唤醒车载语音系统。
在本说明书实施例的步骤S104中,车载语音系统在步骤S104之前为关闭状态,通过判读出预设唤醒词对应的概率值大于第一阈值,则开启车载语音系统。
通过上述步骤,在本实施例中,将采集的音频数据分为多个相对独立的音频帧,再将处理过音频帧的输入至深度神经网络,得出预设唤醒词对应的概率值,最终通过比较预设唤醒词对应的概率值与第一阈值的大小来判断是否唤醒车载语音系统。
图3为本说明书实施例提供的一种车载语音系统的唤醒方法的流程示意图,该流程示意图包括:
步骤S201,将采集的音频数据连续划分为多个音频帧。
在本说明书实施例的步骤S201中,同上述步骤S101,不再赘述。
步骤S202,将预设数量的两两之间连续的音频帧输入至声学特征提取模块,提取出声学特征向量。
在本说明书实施例的步骤S202中,根据预设唤醒词的音频帧数量,在音频数据中取出和预设唤醒词相同数量的两两之间连续的音频帧,将取出的和预设唤醒词相同数量的两两之间连续的音频帧输入至声学特征提取模块,提取出声学特征向量。
进一步的,在本说明书实施例的步骤S202中,在音频数据中首次取出连续语音帧时,由音频数据中的首个音频帧起取出和预设唤醒词相同数量的两两之间连续的音频帧,将取出的和预设唤醒词相同数量的连续语音帧输入至声学特征提取模块转化为声学特征向量。此外,在音频数据中首次取出连续语音帧时,也可以由末尾的音频帧起取出和预设唤醒词相同数量的两两之间连续的音频帧。
步骤S203,将声学特征向量输入至深度神经网络,得出预设唤醒词对应的概率值。
在本说明书实施例的步骤S203中,将步骤S202得出一组声学特征向量输入至深度神经网络,计算出多组语音类上的概率分布,多组语音类包含了预设唤醒词、与预设唤醒词相类似的词、其他讲话内容等多个语音类,语音类上的概率分布就是预设唤醒词、与预设唤醒词相类似的词、其他讲话内容等多个语音类所占的概率值,而将多组声学特征向量输入至深度神经网络的最终目的是得出预设唤醒对应的概率值。
步骤S204,判断预设唤醒词对应的概率值是否大于预设的第一阈值,若是,则执行步骤S205,若否,则执行步骤S206。
在本说明书实施例的步骤S204中,在步骤S203中已得出预设唤醒词对应的概率值,此处的第一阈值为预先设定的值,若是判断出预设唤醒词对应的概率值大于第一阈值时则执行步骤S205;若是判断出预设唤醒词对应的概率值小于或者等于第一阈值时执行步骤S206。
步骤S205,唤醒车载语音系统。
在本说明书实施例的步骤S205中,同上述步骤S104,不再赘述。
步骤S206,以一个音频帧为单位移动后在音频数据中取出预设数量的两两之间连续的音频帧,之后返回执行步骤S202。
在本说明书实施例的步骤S206中,预设数量的两两之间连续的音频帧与预设唤醒词音频帧的数量相同,在判断预设唤醒词对应的概率值不大于预设阈值时,车载语音系统未被唤醒,需要以一个音频帧为单位移动后在语音数据中取出与预设唤醒词的音频帧数量相同两两之间连续的音频帧,之后返回执行步骤S202进行验证重新选取的两两之间连续的音频帧是否可以唤醒车载语音系统。
进一步的,在本说明书实施例的步骤S206中,可以由语音数据中的首个位置起在语音数据中取出与预设唤醒词的音频帧数量相同两两之间连续的音频帧,在判断出该音频帧无法唤醒车载语音系统后,以一个音频帧为单位移动后在音频数据中取出与预设唤醒词的音频帧数量相同的两两之间连续的音频帧,再次判断该两两之间连续的音频帧是否可以唤醒车载语音系统。
进一步的,本实施例为了提高车载语音系统的唤醒能力,预先设定第二阈值,其中,第一阈值大于第二阈值。在判断出所述预设唤醒词对应的概率值小于或等于所述第一阈值时,并且所述预设唤醒词对应的概率值大于所述第二阈值时所述车载语音系统进入敏感状态。
车载语音系统的所述敏感状态为:执行所述将采集的音频数据连续划分为多个音频帧时,按照预设比例将每个音频帧的时间缩短预设时间。处于敏感状态时可以更加准确的唤醒车载语音系统。
相对于本申请,现有技术中只采用一个阈值来判断是否唤醒车载语音系统,在预设唤醒词对应的概率值低于预设阈值时处于敏感状态,而处于敏感状态时能源利用率高,从而使得车载语音系统的功耗高。
进一步的,本实施例为了提高车载语音系统的唤醒能力,在车辆行驶过程中,需要获取车辆当前的车速以及车辆当前所处位置,在判断出车辆的车速变化满足预设规则和/或车辆当前所处位置为预设位置时,降低第二阈值的取值,使得车载语音系统更容易进入敏感状态。其中,车速的变化满足预设规则为车辆的加速度达到预先设置的数值。车辆当前所处预设位置为预先设定的事故多发地、上下坡或是人行横道。例如,车辆的加速度为3m/s2且车辆处于预先设定的事故多发地时,降低第二阈值的取值。
图3为本说明书实施例提供的一种车载语音系统的唤醒装置的结构示意图,该结构示意图包括:分割单元1、提取单元2、求值单元3、唤醒单元4、移动单元5、获取单元6以及调节单元7。
分割单元1用于将采集的音频数据连续划分为多个音频帧,每个音频帧包含一定时长的声音数据。
提取单元2用于将预设数量的两两之间连续的音频帧输入至声学特征提取模块,提取出声学特征向量。
求值单元3用于将声学特征向量输入至深度神经网络,得出预设唤醒词对应的概率值。
唤醒单元4用于在判断出预设唤醒词对应的概率值大于预设的第一阈值时,唤醒车载语音系统。
提取单元2具体用于根据预设唤醒词对应的音频帧数量,在音频数据中取出和预设唤醒词相同数量的两两之间连续的音频帧,并以一个音频帧为单位移动后逐次取出和预设唤醒词相同数量的两两之间连续的音频帧;分别将取出的和预设唤醒词相同数量的两两之间连续的音频帧输入至声学特征提取模块转化为声学特征向量。
移动单元5用于在判断出预设唤醒词对应的概率值不大于预设阈值时,以一个音频帧为单位移动后在音频数据中取出预设数量的两两之间连续的音频帧,之后返回执行将预设数量的两两之间连续的音频帧输入至声学特征提取模块转化为声学特征向量的步骤。
预先设定第二阈值,第一阈值大于第二阈值。
唤醒单元4具体用于在判断出预设唤醒词对应的概率值小于或等于第一阈值时,并且预设唤醒词对应的概率值大于第二阈值时车载语音系统进入敏感状态。
车载语音系统的敏感状态为:执行将采集的音频数据连续划分为多个音频帧时,按照预设比例将每个音频帧的时间缩短预设时间。
获取单元6用于获取车辆当前的车速以及车辆当前所处位置;
调节单元7用于在判断出车辆的车速变化满足预设规则和/或车辆当前所处位置为预设位置时,降低第二阈值的取值。
本说明书实施例提供的一种计算机可读介质,其上存储有计算机可读指令,计算机可读指令可被处理器执行以下步骤:
将采集的音频数据分为多个音频帧,每个音频帧包含一定时长的声音数据;
将预设数量的两两之间连续的音频帧输入至声学特征提取模块转化为声学特征向量;
将声学特征向量输入至深度神经网络,得出预设唤醒词对应的概率值;
在判断出预设唤醒词对应的概率值大于预设阈值时唤醒车载语音系统。
本说明书实施例提供的一种计算机可读介质,其上存储有计算机可读指令,计算机可读指令可被处理器执行以下步骤:
将采集的音频数据连续划分为多个音频帧,每个所述音频帧包含一定时长的声音数据;
将预设数量的两两之间连续的音频帧输入至声学特征提取模块,提取出声学特征向量;
将所述声学特征向量输入至深度神经网络,得出预设唤醒词对应的概率值;
在判断出所述预设唤醒词对应的概率值大于预设的第一阈值时,唤醒所述车载语音系统。
本说明书实施例提供的一种车载语音系统的唤醒设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备执行以下步骤:
分割单元,用于将采集的音频数据连续划分为多个音频帧,每个所述音频帧包含一定时长的声音数据;
提取单元,用于将预设数量的两两之间连续的音频帧输入至声学特征提取模块,提取出声学特征向量;
求值单元,用于将所述声学特征向量输入至深度神经网络,得出预设唤醒词对应的概率值;
唤醒单元,用于在判断出所述预设唤醒词对应的概率值大于预设的第一阈值时,唤醒所述车载语音系统。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (14)
1.一种车载语音系统的唤醒方法,其特征在于,所述方法包括:
将采集的音频数据连续划分为多个音频帧,每个所述音频帧包含一定时长的声音数据;
将预设数量的两两之间连续的音频帧输入至声学特征提取模块,提取出声学特征向量;
将所述声学特征向量输入至深度神经网络,得出预设唤醒词对应的概率值;
在判断出所述预设唤醒词对应的概率值大于预设的第一阈值时,唤醒所述车载语音系统。
2.根据权利要求1所述的车载语音系统的唤醒方法,其特征在于,所述将预设数量的音频帧输入至声学特征提取模块转化为声学特征向量,具体包括:
根据所述预设唤醒词对应的音频帧数量,在音频数据中取出和预设唤醒词相同数量的两两之间连续的音频帧,并以一个音频帧为单位移动后逐次取出和预设唤醒词相同数量的两两之间连续的音频帧;
分别将取出的和预设唤醒词相同数量的两两之间连续的音频帧输入至声学特征提取模块转化为声学特征向量。
3.根据权利要求1所述的车载语音系统的唤醒方法,其特征在于,在判断出所述预设唤醒词对应的概率值不大于预设阈值时,以一个音频帧为单位移动后在所述音频数据中取出预设数量的两两之间连续的音频帧,之后返回执行所述将预设数量的两两之间连续的音频帧输入至声学特征提取模块转化为声学特征向量的步骤。
4.根据权利要求1所述的车载语音系统的唤醒方法,其特征在于,
预先设定第二阈值,所述第一阈值大于第二阈值;
在判断出所述预设唤醒词对应的概率值小于或等于所述第一阈值时,并且所述预设唤醒词对应的概率值大于所述第二阈值时所述车载语音系统进入敏感状态。
5.根据权利要求4所述的车载语音系统的唤醒方法,其特征在于,
所述车载语音系统的所述敏感状态为:执行所述将采集的音频数据连续划分为多个音频帧时,按照预设比例将每个音频帧的时间缩短预设时间。
6.根据权利要求4所述的车载语音系统的唤醒方法,其特征在于,所述方法还包括:
获取车辆当前的车速以及车辆当前所处位置;
在判断出车辆的车速变化满足预设规则和/或车辆当前所处位置为预设位置时,降低所述第二阈值的取值。
7.一种车载语音系统的唤醒装置,其特征在于,所述装置包括:
分割单元,用于将采集的音频数据连续划分为多个音频帧,每个所述音频帧包含一定时长的声音数据;
提取单元,用于将预设数量的两两之间连续的音频帧输入至声学特征提取模块,提取出声学特征向量;
求值单元,用于将所述声学特征向量输入至深度神经网络,得出预设唤醒词对应的概率值;
唤醒单元,用于在判断出所述预设唤醒词对应的概率值大于预设的第一阈值时,唤醒所述车载语音系统。
8.根据权利要求7所述的车载语音系统的唤醒装置,其特征在于,
所述转化单元具体用于根据所述预设唤醒词对应的音频帧数量,在音频数据中取出和预设唤醒词相同数量的两两之间连续的音频帧,并以一个音频帧为单位移动后逐次取出和预设唤醒词相同数量的两两之间连续的音频帧;
分别将取出的和预设唤醒词相同数量的两两之间连续的音频帧输入至声学特征提取模块转化为声学特征向量。
9.根据权利要求7所述的车载语音系统的唤醒装置,其特征在于,所述装置还包括:
移动单元,用于在判断出所述预设唤醒词对应的概率值不大于预设阈值时,以一个音频帧为单位移动后在所述音频数据中取出预设数量的两两之间连续的音频帧,之后返回执行所述将预设数量的两两之间连续的音频帧输入至声学特征提取模块转化为声学特征向量的步骤。
10.根据权利要求7所述的车载语音系统的唤醒装置,其特征在于,
预先设定第二阈值,所述第一阈值大于第二阈值;
所述唤醒单元具体用于在判断出所述预设唤醒词对应的概率值小于或等于所述第一阈值时,并且所述预设唤醒词对应的概率值大于所述第二阈值时所述车载语音系统进入敏感状态。
11.根据权利要求10所述的车载语音系统的唤醒装置,其特征在于,
所述车载语音系统的所述敏感状态为:执行所述将采集的音频数据连续划分为多个音频帧时,按照预设比例将每个音频帧的时间缩短预设时间。
12.根据权利要求10所述的车载语音系统的唤醒装置,其特征在于,所述装置还包括:
获取单元,用于获取车辆当前的车速以及车辆当前所处位置;
调节单元,用于在判断出车辆的车速变化满足预设规则和/或车辆当前所处位置为预设位置时,降低所述第二阈值的取值。
13.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现权利要求1至6中任一项所述的方法。
14.一种车载语音系统的唤醒设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备执行权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811523829.4A CN109584873A (zh) | 2018-12-13 | 2018-12-13 | 一种车载语音系统的唤醒方法、装置、可读介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811523829.4A CN109584873A (zh) | 2018-12-13 | 2018-12-13 | 一种车载语音系统的唤醒方法、装置、可读介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109584873A true CN109584873A (zh) | 2019-04-05 |
Family
ID=65928354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811523829.4A Pending CN109584873A (zh) | 2018-12-13 | 2018-12-13 | 一种车载语音系统的唤醒方法、装置、可读介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109584873A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047487A (zh) * | 2019-06-05 | 2019-07-23 | 广州小鹏汽车科技有限公司 | 车载语音设备的唤醒方法、装置、车辆以及机器可读介质 |
CN110718212A (zh) * | 2019-10-12 | 2020-01-21 | 出门问问信息科技有限公司 | 语音唤醒方法、装置及系统、终端和计算机可读存储介质 |
CN111429902A (zh) * | 2020-03-17 | 2020-07-17 | 北京百度网讯科技有限公司 | 用于唤醒设备的方法和装置 |
CN112511589A (zh) * | 2020-10-24 | 2021-03-16 | 砚山砚华智讯科技有限公司 | 建立在云计算语音识别基础上的汽车电子说明书系统 |
CN115035896A (zh) * | 2022-05-31 | 2022-09-09 | 中国第一汽车股份有限公司 | 车用语音唤醒方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150066495A1 (en) * | 2013-08-28 | 2015-03-05 | Texas Instruments Incorporated | Robust Feature Extraction Using Differential Zero-Crossing Countes |
CN106782536A (zh) * | 2016-12-26 | 2017-05-31 | 北京云知声信息技术有限公司 | 一种语音唤醒方法及装置 |
US20170154620A1 (en) * | 2015-12-01 | 2017-06-01 | Knowles Electronics, Llc | Microphone assembly comprising a phoneme recognizer |
CN107622770A (zh) * | 2017-09-30 | 2018-01-23 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
CN108288465A (zh) * | 2018-01-29 | 2018-07-17 | 中译语通科技股份有限公司 | 智能语音切轴的方法、信息数据处理终端、计算机程序 |
-
2018
- 2018-12-13 CN CN201811523829.4A patent/CN109584873A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150066495A1 (en) * | 2013-08-28 | 2015-03-05 | Texas Instruments Incorporated | Robust Feature Extraction Using Differential Zero-Crossing Countes |
US20170154620A1 (en) * | 2015-12-01 | 2017-06-01 | Knowles Electronics, Llc | Microphone assembly comprising a phoneme recognizer |
CN106782536A (zh) * | 2016-12-26 | 2017-05-31 | 北京云知声信息技术有限公司 | 一种语音唤醒方法及装置 |
CN107622770A (zh) * | 2017-09-30 | 2018-01-23 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
CN108288465A (zh) * | 2018-01-29 | 2018-07-17 | 中译语通科技股份有限公司 | 智能语音切轴的方法、信息数据处理终端、计算机程序 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047487A (zh) * | 2019-06-05 | 2019-07-23 | 广州小鹏汽车科技有限公司 | 车载语音设备的唤醒方法、装置、车辆以及机器可读介质 |
CN110047487B (zh) * | 2019-06-05 | 2022-03-18 | 广州小鹏汽车科技有限公司 | 车载语音设备的唤醒方法、装置、车辆以及机器可读介质 |
CN110718212A (zh) * | 2019-10-12 | 2020-01-21 | 出门问问信息科技有限公司 | 语音唤醒方法、装置及系统、终端和计算机可读存储介质 |
CN111429902A (zh) * | 2020-03-17 | 2020-07-17 | 北京百度网讯科技有限公司 | 用于唤醒设备的方法和装置 |
CN111429902B (zh) * | 2020-03-17 | 2023-08-18 | 阿波罗智联(北京)科技有限公司 | 用于唤醒设备的方法和装置 |
CN112511589A (zh) * | 2020-10-24 | 2021-03-16 | 砚山砚华智讯科技有限公司 | 建立在云计算语音识别基础上的汽车电子说明书系统 |
CN115035896A (zh) * | 2022-05-31 | 2022-09-09 | 中国第一汽车股份有限公司 | 车用语音唤醒方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584873A (zh) | 一种车载语音系统的唤醒方法、装置、可读介质及设备 | |
CN107704275B (zh) | 智能设备唤醒方法、装置、服务器及智能设备 | |
US11235774B2 (en) | Road condition predicting method and apparatus, computer device and readable medium | |
CN107610695B (zh) | 驾驶人语音唤醒指令词权重的动态调整方法 | |
CN108986822A (zh) | 语音识别方法、装置、电子设备及非暂态计算机存储介质 | |
CN109065044A (zh) | 唤醒词识别方法、装置、电子设备及计算机可读存储介质 | |
CN104538024A (zh) | 语音合成方法、装置及设备 | |
CN105741838A (zh) | 语音唤醒方法及装置 | |
CN108920510A (zh) | 自动聊天方法、装置和电子设备 | |
CN103500516A (zh) | 基于电子地图高效率轨迹回放的方法及系统 | |
CN103337241B (zh) | 一种语音识别方法和装置 | |
CN111238523B (zh) | 一种运动轨迹的预测方法及装置 | |
TWI718379B (zh) | 針對使用共享物品的使用者評估方法、裝置及設備 | |
CN111199733A (zh) | 多级识别语音唤醒方法及装置、计算机存储介质及设备 | |
CN110060658A (zh) | 一种车辆启动引导装置 | |
CN109556610A (zh) | 一种路径规划方法、控制器及系统 | |
CN111128134B (zh) | 声学模型训练方法和语音唤醒方法、装置及电子设备 | |
CN105161096B (zh) | 基于垃圾模型的语音识别处理方法及装置 | |
CN109814457A (zh) | 电器设备的控制方法、装置、存储介质和处理器 | |
CN112918488B (zh) | 车辆控制方法、装置及存储介质 | |
CN108932943A (zh) | 命令词语音检测方法、装置、设备和存储介质 | |
CN112185382A (zh) | 一种唤醒模型的生成和更新方法、装置、设备及介质 | |
CN115871658B (zh) | 一种面向稠密人流的智能驾驶速度决策方法和系统 | |
CN113099043A (zh) | 客户服务的控制方法、装置和计算机可读存储介质 | |
CN115862604A (zh) | 语音唤醒模型训练及语音唤醒方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190405 |
|
RJ01 | Rejection of invention patent application after publication |