CN111599352B - 语音唤醒方法、装置、计算机设备和存储介质 - Google Patents
语音唤醒方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111599352B CN111599352B CN202010483792.8A CN202010483792A CN111599352B CN 111599352 B CN111599352 B CN 111599352B CN 202010483792 A CN202010483792 A CN 202010483792A CN 111599352 B CN111599352 B CN 111599352B
- Authority
- CN
- China
- Prior art keywords
- voice
- awakening word
- awakening
- defect
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000001514 detection method Methods 0.000 claims abstract description 153
- 238000012544 monitoring process Methods 0.000 claims abstract description 147
- 230000007547 defect Effects 0.000 claims abstract description 124
- 238000012549 training Methods 0.000 claims description 71
- 238000004590 computer program Methods 0.000 claims description 25
- 238000003062 neural network model Methods 0.000 claims description 13
- 239000000463 material Substances 0.000 description 34
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000002618 waking effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electric Clocks (AREA)
Abstract
本申请公开了一种语音唤醒方法、装置、计算机设备和存储介质。所述方法包括:在待机状态下检测触发信号,并记录第一时间;当触发信号符合预设条件时,将待机状态转换为监听状态,在监听状态下采集语音监听信号;将语音监听信号输入到语音类别检测模型中,得到检测结果,并记录第二时间;当检测结果为缺陷唤醒词类别时,根据第一时间和第二时间确定目标时间段,当目标时间段在预设时间段内时,根据缺陷唤醒词类别将监听状态转换为运行状态。采用本方法能够在使用前置感应器的低功耗唤醒装置上提高唤醒成功率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种语音唤醒方法、装置、计算机设备和存储介质。
背景技术
随着语音识别技术的发展,可以使用关键词语音来对待唤醒设备进行唤醒。通常在待唤醒设备中,会关闭高功耗的麦克风(MIC),模数转换器(ADC),以及算法处理器(MCU或者DSP)等来实现待唤醒设备低功耗待机的目的。然而,在这种情况下在进行待唤醒设备初次唤醒时,由于存在前置感应器,前置感应器在触发时会存在一定的延迟,并且在前置感应器触发后,开启麦克风(MIC),模数转换器(ADC),以及算法处理器(MCU或者DSP)等时也会存在一定的延迟,从而出现语音信号丢失的现象,致使待唤醒设备在待机状态下的唤醒成功率降低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高唤醒成功率的语音唤醒方法、装置、计算机设备和存储介质。
一种语音唤醒方法,所述方法包括:
在待机状态下检测触发信号,并记录第一时间;
当触发信号符合预设条件时,将待机状态转换为监听状态,在监听状态下采集语音监听信号;
将语音监听信号输入到语音类别检测模型中检测,得到检测结果,并记录第二时间;
当检测结果为缺陷唤醒词类别时,根据第一时间和第二时间确定目标时间段,当目标时间段在预设时间段内时,根据缺陷唤醒词类别将监听状态转换为运行状态。
在其中一个实施例中,在当检测结果为缺陷唤醒词类别时,根据第一时间和第二时间确定目标时间段之后,还包括:
当目标时间段未在预设时间段内时,保持监听状态。
在其中一个实施例中,检测结果还包括唤醒词类别,在将语音信号输入到语音类别检测模型中检测,得到检测结果,并记录第二时间之后,还包括:
当检测结果为唤醒词类别时,根据唤醒词类别将监听状态转换为运行状态。
在其中一个实施例中,检测结果还包括非唤醒词类别,在将语音信号输入到语音类别检测模型中检测,得到检测结果,并记录第二时间之后,还包括:
当检测结果为非唤醒词类别时,保持监听状态。
在其中一个实施例中,在保持所述监听状态之后,还包括:
当在监听状态下预设监听时间内未检测到触发信号时,将监听状态转换为待机状态。
在其中一个实施例中,语音类别检测模型的生成步骤,包括:
获取训练语料,训练语料包括唤醒词语料、非唤醒词语料、缺陷唤醒词语料和缺陷非唤醒词语料;
将训练语料输入到神经网络模型中进行训练,当训练完成时,得到语音类别检测模型,其中,所述唤醒词语料对应唤醒词类别标签、所述缺陷唤醒词语料对应缺陷唤醒词类别标签、所述非唤醒词语料对应非唤醒词类别标签和所述缺陷非唤醒词语料对应所述非唤醒词类别标签。
在其中一个实施例中,获取训练语料,包括:
获取唤醒词语料和非唤醒词语料,将唤醒词语料和非唤醒词语料播放,并进行录音;根据录音结果得到缺陷唤醒词语料和缺陷非唤醒词语料。
一种语音唤醒装置,所述装置包括:
信号检测模块,用于在待机状态下检测触发信号,并记录第一时间;
语音采集模块,当触发信号符合预设条件时,将待机状态转换为监听状态,在监听状态下采集语音监听信号;
语音检测模块,用于将语音监听信号输入到语音类别检测模型中检测,得到检测结果,并记录第二时间;
唤醒模块,用于当检测结果为缺陷唤醒词类别时,根据第一时间和第二时间确定目标时间段,当目标时间段在预设时间段内时,根据缺陷唤醒词类别将监听状态转换为运行状态。
在其中一个实施例中,唤醒模块还用于当目标时间段未在预设时间段内时,保持监听状态。
在其中一个实施例中,唤醒模块还用于当检测结果为唤醒词类别时,根据唤醒词类别将监听状态转换为运行状态。
在其中一个实施例中,唤醒模块还用于当检测结果为非唤醒词类别时,保持监听状态。
在其中一个实施例中,信号检测模块,还用于当在监听状态下预设监听时间内未检测到触发信号时,将监听状态转换为待机状态。
在其中一个实施例中,所述装置还包括:
训练模块,用于获取训练语料,训练语料包括唤醒词语料、非唤醒词语料、缺陷唤醒词语料和缺陷非唤醒词语料;将训练语料输入到神经网络模型中进行训练,当训练完成时,得到语音类别检测模型,其中,唤醒词语料对应唤醒词类别标签、缺陷唤醒词语料对应缺陷唤醒词类别标签、非唤醒词语料对应非唤醒词类别标签和缺陷非唤醒词语料对应所述非唤醒词类别标签。
在其中一个实施例中,所述装置还包括:
缺陷语料获取模块,用于获取唤醒词语料和非唤醒词语料,将所述唤醒词语料和非唤醒词语料播放,并进行录音;根据录音结果得到缺陷唤醒词语料和缺陷非唤醒词语料。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
在待机状态下检测触发信号,并记录第一时间;
当触发信号符合预设条件时,将待机状态转换为监听状态,在监听状态下采集语音监听信号;
将语音监听信号输入到语音类别检测模型中检测,得到检测结果,并记录第二时间;
当检测结果为缺陷唤醒词类别时,根据第一时间和第二时间确定目标时间段,当目标时间段在预设时间段内时,根据缺陷唤醒词类别将监听状态转换为运行状态。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
在待机状态下检测触发信号,并记录第一时间;
当触发信号符合预设条件时,将待机状态转换为监听状态,在监听状态下采集语音监听信号;
将语音监听信号输入到语音类别检测模型中检测,得到检测结果,并记录第二时间;
当检测结果为缺陷唤醒词类别时,根据第一时间和第二时间确定目标时间段,当目标时间段在预设时间段内时,根据缺陷唤醒词类别将监听状态转换为运行状态。
上述语音唤醒方法、装置、计算机设备和存储介质,通过在待机状态下检测触发信号,并记录第一时间;当触发信号符合预设条件时,将待机状态转换为监听状态,在监听状态下采集语音监听信号;将语音监听信号输入到语音类别检测模型中检测,得到检测结果,并记录第二时间;当检测结果为缺陷唤醒词类别时,根据第一时间和第二时间确定目标时间段,当目标时间段在预设时间段内时,根据缺陷唤醒词类别将监听状态转换为运行状态。通过语音类别检测模型检测语音监听信号并记录目标时间段,当检测结果为缺陷唤醒词类别,且目标时间段在预设时间段内时,根据缺陷唤醒词类别将监听状态转换为运行状态,从而在初次唤醒时,如果发生语音信号丢失,使用缺陷唤醒词也能对待唤醒设备进行唤醒,从而能够提高唤醒成功率。
附图说明
图1为一个实施例中语音唤醒方法的应用环境图;
图2为一个实施例中语音唤醒方法的流程示意图;
图3为另一个实施例中语音唤醒方法的流程示意图;
图4为一个实施例中训练语音类别检测模型的流程示意图;
图5为一个实施例中获取训练语料的流程示意图;
图6为一个具体实施例中训练语音类别检测模型的示意图;
图7为一个具体实施例中状态转换的示意图;
图8为一个实施例中语音唤醒装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的语音唤醒方法,可以应用于如图1所示的应用环境中。其中,待唤醒设备中包括有前置感应器和待机器件,前置感应器102与待机器件104连接,在一个实施例中,前置感应器102可以内置到待机器件104中。待唤醒设备在待机状态下通过前置感应器102检测触发信号,并记录第一时间;当触发信号符合预设条件时,将待机器件104的待机状态转换为监听状态,在监听状态下通过待机器件104采集语音监听信号,待唤醒设备通过待机器件104将语音监听信号输入到语音类别检测模型中检测,得到检测结果,并记录第二时间;待唤醒设备当检测结果为缺陷唤醒词类别时,根据第一时间和第二时间确定目标时间段,当目标时间段在预设时间段内时,根据缺陷唤醒词类别将监听状态转换为运行状态。其中,前置感应器102可以是各种感应器,比如,声压感应器、压电感应器等。待唤醒设备可以是能够使用语音进行唤醒的各种智能电子设备,比如,智能机器人、智能音箱,智能电视、智能手机、能够进行语音交互的电脑和智能车载设备等等。
在一个实施例中,如图2所示,提供了一种语音唤醒方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤202,在待机状态下检测触发信号,并记录第一时间。
其中,待机状态是指待唤醒设备处于低功耗的状态下,在低功耗的状态下待唤醒设备会关闭麦克风、模数转换器、算法处理器等高功耗的器件,同时前置感应器处于感应状态。触发信号是指通过前置感应器采集到的信号,可以是声压信号,可以是红外信号等等。第一时间是指待唤醒设备在待机状态下通过前置感应器采集到信号的起始时间点。
具体地,待唤醒设备在待机状态下通过前置感应器检测触发信号,并获取到对应的第一时间,将第一时间进行记录,记录的第一时间可以保存待唤醒设备内存中,也可以保存到缓存中。
步骤204,当触发信号符合预设条件时,将待机状态转换为监听状态,在监听状态下采集语音监听信号。
其中,预设条件是指预先设置好的触发前置感应器进行监听状态转换的条件,比如,可以设置为检测到的声压超过预设的声压值。监听状态是指待唤醒设备开启麦克风、模数转换器、算法处理器等高功耗器件后的状态,并在该状态下进行声音的采集和识别。语音监听信号是指通过语音采集器件采集到的语音信号,语音采集器件可以是麦克风。
具体地,待唤醒设备中的前置感应器接收到触发信号时,判断触发信号是否符合预设条件,当符合预设条件时,将待机状态转换为监听状态,即开启处于待机状态的高功耗器件,当未符合预设条件时,不做处理。当处于监听状态时,采集语音监听信号。由于待唤醒设备中前置感应器接收到的触发信号未符合预设条件时,不做处理,且需要开启处于待机状态的高功耗器件,需要花费时,导致采集的语音信号可能会发生丢失。
步骤206,将语音监听信号输入到语音类别检测模型中检测,得到检测结果,并记录第二时间。
其中,语音类别检测模型用于对语音监听信号对应的关键词的类别进行检测,是根据训练语料使用神经网络模型进行训练后得到的。语音类别用于反映语音监听信号对应关键词的类别,检测结果是指检测输入语音监听信号得到的关键词的类别,可以包括唤醒词类别、缺陷唤醒词类别和非唤醒词类别。第二时间是指得到通过语音类别检测模型初次检测语音监听信号得到检测结果时对应的时间点。
具体地,待唤醒设备将语音监听信号输入到语音类别检测模型中检测,得到检测结果,并获取到得到检测结果时的第二时间,记录第二时间,该第二时间可以保存到内存中,也可以保存到缓存中。
步骤208,当检测结果为缺陷唤醒词类别时,根据第一时间和第二时间确定目标时间段,当目标时间段在预设时间段内时,根据缺陷唤醒词类别将监听状态转换为运行状态。
其中,缺陷唤醒词类别是指对不完整的语音信号进行检测得到的关键词的类别,是存在缺陷的关键词,关键词是预先设置好的用户对待唤醒设备进行唤醒的词语。比如,用户设置好可以使用“小微小微”对待唤醒设备进行唤醒,当用户对待唤醒设备说唤醒语音“小微小微”时,智能音箱通过语音采集器只采集到“微小微”的语音信号,则检测“微小微”的语音信号得到的检测结果为缺陷唤醒词类别。目标时间段是指第一时间和第二时间之间的时间段,用于表示是否为初次唤醒。预设时间段是指预先设置好的初次唤醒时所需要的时间段,比如,预设时间段可以是2秒内。运行状态是指待唤醒设备处于运行状态,可以正常进行使用,比如,待唤醒设备中的所有器件均处于完全运行状态。
具体地,当检测结果为缺陷唤醒词类别时,根据第一时间和第二时间确定目标时间段,当目标时间段在预设时间段内时,说明为初次唤醒,此时,待唤醒设备根据缺陷唤醒词类别将监听状态转换为运行状态。
上述语音唤醒方法中,通过语音类别检测模型检测语音监听信号并记录目标时间段,当检测结果为缺陷唤醒词类别,且目标时间段在预设时间段内时,根据缺陷唤醒词类别将监听状态转换为运行状态,从而在初次唤醒时,如果发生语音信号丢失,使用缺陷唤醒词也能对待唤醒设备进行唤醒,从而能够提高唤醒成功率。
在一个实施例中,如图3所示,在当检测结果为缺陷唤醒词类别时,根据第一时间和第二时间确定目标时间段之后,还包括步骤:
步骤208Ab,当目标时间段未在预设时间段内时,保持监听状态。
其中,非唤醒词是指不是用于唤醒待唤醒设备的词。非唤醒词类别是指未用于唤醒待唤醒设备的词对应的类别。
具体地,当目标时间段未在预设时间段内时,即目标时间段超过预设时间段,此时说明该次检测不是初次唤醒时的检测,此时进行待检测设备唤醒时,当检测结果为缺陷唤醒词类别,说明该缺陷唤醒词不是用于对唤醒设备进行唤醒的,即说明不需要对唤醒设备进行唤醒,此时,待唤醒设备不做处理,保持监听状态即可。当在监听状态再次采集到语音监听信号,返回步骤206进行执行,即返回将语音监听信号输入到语音类别检测模型中,得到目标检测结果,并记录第二时间进行执行。
在上述实施例中,缺陷唤醒词由于有效特征少于唤醒词,误识别率更高。当缺陷唤醒词类别不是在预设时间段内检测得到时,保持监听状态,从而能保证在监听状态下使用唤醒词才能唤醒待唤醒设备,防止缺陷唤醒词类别在监听状态下进行错误的唤醒处理,提高了唤醒的准确性。
在一个实施例中,检测结果还包括唤醒词类别,如图3所示,在步骤206之后,即在将语音信号输入到语音类别检测模型中,得到检测结果,并记录第二时间,还包括步骤:
步骤208B,当检测结果为唤醒词类别时,根据唤醒词类别将监听状态转换为运行状态。
其中,唤醒词类别是指用于唤醒待唤醒设备的关键词对应的类别。
具体地,当检测结果直接为唤醒词类别时,说明前置感应器在采集语音信号时未发生信号丢失,此时,直接根据唤醒词类别将监听状态转换为运行状态,使待唤醒设备处于唤醒后的状态。
在一个实施例中,在运行状态下完成运行任务时,将运行状态转换为监听状态,比如“升高空调温度”任务完成时,将运行状态转换为监听状态。
在上述实施例中,当检测结果为唤醒词类别时,根据唤醒词类别将监听状态转换为运行状态,保证了唤醒成功率。
在一个实施例中,检测结果还包括非唤醒词类别,如图3所示,在步骤204之后,即将语音信号输入到语音类别检测模型中,得到检测结果,并记录第二时间,还包括:
步骤208C,当检测结果为非唤醒词类别时,保持监听状态。
其中,非唤醒词类别是指未用于对待唤醒设备进行唤醒的词对应的类别。
具体地,当检测结果为非唤醒词类别时,说明不需要对待唤醒设备进行唤醒,此时保持待唤醒设备处于监听状态,当在监听状态再次采集到语音监听信号,返回步骤206进行执行,即返回将语音监听信号输入到语音类别检测模型中,得到目标检测结果,并记录第二时间进行执行。
在上述实施例中,当检测结果为非唤醒词类别时,保持监听状态,使得唤醒设备在不需要唤醒时,不进行唤醒,保证唤醒的准确性。
在一个实施例中,在保持监听状态之后,还包括:
当在监听状态下预设监听时间内未检测到触发信号时,将监听状态转换为待机状态。
其中,预设监听时间是指预先设置好的监听状态持续的最大时间。
具体地,待唤醒设备在转换到监听状态时,开始计时,当在监听状态下预设监听时间内都未检测到触发信号时,说明待唤醒设备周围未有语音信号或者使用者,此时,将监听状态转换为待机状态,从而节省功耗。比如,预设监听时间为10s,在10s内未检测到触发信号时,将监听状态转换为待机状态。当在10s内检测到触发信号时,重新开始计时,此时,在10s内未检测到触发信号时,再次将监听状态转换为待机状态。
在一个实施例中,如图4所示,语音类别检测模型的生成步骤,包括:
步骤402,获取训练语料,训练语料包括唤醒词语料、非唤醒词语料、缺陷唤醒词语料和缺陷非唤醒词语料。
其中,唤醒词语料是指在训练时具有唤醒词类别标签的关键词语料。非唤醒词语料是指在训练时具有非唤醒词类别标签的词语料。缺陷唤醒词语料是指在训练时具有缺陷唤醒词类别标签的关键词语料。缺陷非唤醒词语料是指在训练时具有非唤醒词类别标签的词语料。
具体地,待唤醒设备获取到各种训练语料,训练语料包括唤醒词语料、非唤醒词语料、缺陷唤醒词语料和缺陷非唤醒词语料。待唤醒设备可以从各个第三方中文语料数据库中获取到各种训练语料。待唤醒设备也可以将历史进行唤醒时采集到语音作为训练语料。
步骤404,将训练语料输入到神经网络模型中进行训练,当训练完成时,得到语音类别检测模型,其中,唤醒词语料对应唤醒词类别标签、缺陷唤醒词语料对应缺陷唤醒词类别标签、非唤醒词语料对应非唤醒词类别标签和缺陷非唤醒词语料对应所述非唤醒词类别标签。
其中,神经网络模型是指使用神经网络算法建立的分类模型,该神经网络模型中的模型参数都是初始化后的,该神经网络使用的激活函数可以是S型函数或者是tanh(双曲正切函数)函数或者是Relu(Rectified Linear Unit,线性整流函数)函数等等。损失函数可以使用交叉熵损失函数或者指数损失函数或者平方损失函数等等。训练完成是指训练达到预先设置好的训练完成条件,该训练完成条件可以是训练达到最大的迭代次数或者可以是损失函数的值小于预先设置好的值。
具体地,待唤醒设备将训练语料输入到神经网络模型中进行训练,得到训练结果,将训练结果与训练语料对应的标签进行比较,即将唤醒词语料的训练结果与对应唤醒词类别标签进行比较、将缺陷唤醒词语料的训练结果与对应缺陷唤醒词类别标签进行比较、将非唤醒词语料和缺陷非唤醒词语料的训练结果与对应非唤醒词类别标签进行比较。当比较结果符合训练完成条件时,训练完成,得到语音类别检测模型。然后将语音类别检测模型进行部署,从而进行使用。
在一个实施例中,可以在模型训练服务器中训练得到语音类别检测模型,然后将训练得到语音类别检测模型部署到待唤醒设备中,从而进行使用,提高效率并节省了待唤醒设备的资源。
在上述实施例中,通过获取训练语料,训练语料包括唤醒词语料、非唤醒词语料、缺陷唤醒词语料和缺陷非唤醒词语料,将训练语料输入到神经网络模型中进行训练,当训练完成时,得到语音类别检测模型,能够使语音类别检测模型对缺陷唤醒词语料进行识别,使在进行语音唤醒时,能够使用缺陷唤醒词对待唤醒设备进行,提升了唤醒成功率。
在一个实施例中,如图5所示,步骤502,即获取训练语料,包括步骤:
步骤502,获取唤醒词语料和非唤醒词语料,将唤醒词语料和非唤醒词语料播放,并进行录音。
具体地,获取唤醒词语料和非唤醒词语料,将唤醒词语料和非唤醒词语料进行播放,并使用具有前置感应器和语音感应器的待唤醒设备进行初次唤醒的录音,即将进行初次唤醒的唤醒词语料和非唤醒词语料重新进行录音,比如,通过待唤醒设备前置感应器感应到唤醒词语料,且唤醒词语料符合预设条件,则通过待唤醒设备麦克风来进行录音,该录音可能会部分丢失,得到缺陷唤醒词语料。在一个实施例中,可以通过用户来分别说出唤醒词语料和非唤醒词语料,进而使用待唤醒设备进行录音。
步骤504,根据录音结果得到缺陷唤醒词语料和缺陷非唤醒词语料。
具体地,待唤醒设备根据唤醒词语料对应的录音结果就得到了缺陷唤醒词语料,根据非唤醒词语料对应的录音结果就得到了非缺陷唤醒词语料。
在上述实施例中,使用待唤醒设备来对唤醒词语料和非唤醒词语料进行播放并重新进行录音,保证了得到的缺陷唤醒词语料和缺陷非唤醒词语料的准确性,从而提高语音类别检测模型的检测精度。
在一个具体的实施例中,如图6所示,提供一种进行语音类别检测模型训练的示意图,具体来说:
获取到唤醒词语料,和非唤醒词语料,将唤醒词语料和非唤醒词语料通过待唤醒设备录音得到缺陷唤醒词语料和缺陷非唤醒词语料。该待唤醒设备是处于待机状态下的设备,该待唤醒设备中包括了前置感应器、关闭的麦克风、关闭的模数转换器以及关闭的算法处理器等等。
使用唤醒词语料、非唤醒词语料、缺陷唤醒词语料和缺陷唤醒词语料对神经网络模型进行训练,得到的语音类别检测模型,该语音类别检测模型能够检测出唤醒词分类、缺陷唤醒词分类和非唤醒词分类。其中,唤醒词分类是指唤醒词语料对应的类别,缺陷唤醒词分类是指缺陷唤醒词语料对应的类别,非唤醒词分类是指非唤醒词语料和缺陷非唤醒词语料对应的类别。
在一个具体的实施例中,如图7所示,提供一种语音唤醒的状态转换示意图,具体来说:
通过待唤醒设备中的前置感应器拾音,得到触发信号,当触发信号符合预设条件时,即前置感应器触发,将待机状态转换为监听状态。
此时,在监听状态下获取到语音监听信号,将得到的语音监听信号输入到语音类别检测模型中进行类别检测,得到检测结果。当检测结果为唤醒词类别时,直接得到唤醒命中指令,根据该唤醒命中指令唤醒待唤醒设备,即将监听状态在语音检测命中的情况下转换为运行状态。当检测结果为非唤醒词类别时,得到唤醒未命中指令,根据该唤醒未命中指令不做处理,即保持监听状态。当检测结果为缺陷唤醒词类别时,判断是否初次唤醒,即获取到目标时间段,将目标时间段与预设时间段进行比较,当目标时间段在预设时间段内时,说明是初次唤醒,则得到语音检测命中指令,根据该语音检测命中指令唤醒待唤醒设备,即将监听状态转换为运行状态,当处于运行状态时,接收到结束运行命令时,将运行状态转换为监听状态。当目标时间段未在预设时间段内时,说明书不是初次唤醒,则得到唤醒未命中指令,根据该唤醒未命中指令不做处理,即保持监听状态。
当在监听状态下长时间未进行唤醒时,将监听状态转换为待机状态。
应该理解的是,虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种语音唤醒装置800,包括:信号检测模块802、语音采集模块804,语音检测模块806和唤醒模块808,其中:
信号检测模块802,用于在待机状态下检测触发信号,并记录第一时间;
语音采集模块804,当触发信号符合预设条件时,将待机状态转换为监听状态,在监听状态下获取语音监听信号;
语音检测模块806,用于将语音监听信号输入到语音类别检测模型中,得到检测结果,并记录第二时间;
唤醒模块808,用于当检测结果为缺陷唤醒词类别时,根据第一时间和第二时间确定目标时间段,当目标时间段在预设时间段内时,根据缺陷唤醒词类别将监听状态转换为运行状态。
在一个实施例中,唤醒模块808还用于当目标时间段未在预设时间段内时,保持监听状态。
在一个实施例中,唤醒模块808还用于当检测结果为唤醒词类别时,根据唤醒词类别将监听状态转换为运行状态。
在一个实施例中,唤醒模块808还用于当检测结果为非唤醒词类别时,保持监听状态。
在一个实施例中,信号检测模块802还用于当在监听状态下预设监听时间内未检测到触发信号时,将监听状态转换为待机状态。
在一个实施例中,语音唤醒装置800,还包括:
训练模块,用于获取训练语料,训练语料包括唤醒词语料、非唤醒词语料、缺陷唤醒词语料和缺陷非唤醒词语料;将训练语料输入到神经网络模型中进行训练,当训练完成时,得到语音类别检测模型,其中,唤醒词语料对应唤醒词类别标签、缺陷唤醒词语料对应缺陷唤醒词类别标签、非唤醒词语料对应非唤醒词类别标签和缺陷非唤醒词语料对应所述非唤醒词类别标签。
在一个实施例中,语音唤醒装置800,还包括:
缺陷语料获取模块,用于获取唤醒词语料和非唤醒词语料,将唤醒词语料和非唤醒词语料播放,并进行录音;根据录音结果得到缺陷唤醒词语料和缺陷非唤醒词语料。
关于语音唤醒装置的具体限定可以参见上文中对于语音唤醒方法的限定,在此不再赘述。上述语音唤醒装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音唤醒方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等,该计算机设备的前置感应器可以采集周围环境中的语音,可以是声压感应器。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:在待机状态下检测触发信号,并记录第一时间;当触发信号符合预设条件时,将待机状态转换为监听状态,在监听状态下采集语音监听信号;将语音监听输入到语音类别检测模型中,得到检测结果,并记录第二时间;当检测结果为缺陷唤醒词类别时,根据第一时间和第二时间确定目标时间段,当目标时间段在预设时间段内时,根据缺陷唤醒词类别将监听状态转换为运行状态。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当目标时间段未在预设时间段内时,保持监听状态。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当检测结果为唤醒词类别时,根据唤醒词类别将监听状态转换为运行状态。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当检测结果为非唤醒词类别时,保持监听状态。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当在监听状态下预设监听时间内未检测到触发信号时,将监听状态转换为待机状态。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取训练语料,训练语料包括唤醒词语料、非唤醒词语料、缺陷唤醒词语料和缺陷非唤醒词语料;将训练语料输入到神经网络模型中进行训练,当训练完成时,得到语音类别检测模型,其中,唤醒词语料对应唤醒词类别标签、缺陷唤醒词语料对应缺陷唤醒词类别标签、非唤醒词语料对应非唤醒词类别标签和缺陷非唤醒词语料对应所述非唤醒词类别标签。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取唤醒词语料和非唤醒词语料,将唤醒词语料和非唤醒词语料播放,并进行录音;根据录音结果得到缺陷唤醒词语料和缺陷非唤醒词语料。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:在待机状态下检测触发信号,并记录第一时间;当触发信号符合预设条件时,将待机状态转换为监听状态,在监听状态下采集语音监听信号;将语音监听信号输入到语音类别检测模型中,得到检测结果,并记录第二时间;当检测结果为缺陷唤醒词类别时,根据第一时间和第二时间确定目标时间段,当目标时间段在预设时间段内时,根据缺陷唤醒词类别将监听状态转换为运行状态。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当目标时间段未在预设时间段内时,并保持监听状态。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当检测结果为唤醒词类别时,根据唤醒词类别将监听状态转换为运行状态。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当检测结果为非唤醒词类别时,保持监听状态。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当在监听状态下预设监听时间内未检测到触发信号时,将监听状态转换为待机状态。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取训练语料,训练语料包括唤醒词语料、非唤醒词语料、缺陷唤醒词语料和缺陷非唤醒词语料;将训练语料输入到神经网络模型中进行训练,当训练完成时,得到语音类别检测模型,其中,唤醒词语料对应唤醒词类别标签、缺陷唤醒词语料对应缺陷唤醒词类别标签、非唤醒词语料对应非唤醒词类别标签和缺陷非唤醒词语料对应所述非唤醒词类别标签。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取唤醒词语料和非唤醒词语料,将唤醒词语料和非唤醒词语料播放,并进行录音;根据录音结果得到缺陷唤醒词语料和缺陷非唤醒词语料。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种语音唤醒方法,其特征在于,所述方法包括:
在待机状态下检测触发信号,并记录第一时间,所述第一时间是指待唤醒设备在待机状态下通过前置感应器采集到信号的起始时间点;
当所述触发信号符合预设条件时,将所述待机状态转换为监听状态,在所述监听状态下采集语音监听信号;
将所述语音监听信号输入到语音类别检测模型中检测,得到检测结果,并记录第二时间,所述第二时间是指得到通过所述语音类别检测模型初次检测语音监听信号得到检测结果时对应的时间点;
当所述检测结果为缺陷唤醒词类别时,根据所述第一时间和所述第二时间确定目标时间段,当所述目标时间段在预设时间段内时,根据所述缺陷唤醒词类别将所述监听状态转换为运行状态。
2.根据权利要求1所述的方法,其特征在于,在所述当所述检测结果为缺陷唤醒词类别时,根据所述第一时间和所述第二时间确定目标时间段之后,还包括:
当所述目标时间段未在所述预设时间段内时,保持所述监听状态。
3.根据权利要求1所述的方法,其特征在于,在所述检测结果还包括唤醒词类别,在所述将所述语音监听信号输入到语音类别检测模型中检测,得到检测结果,并记录第二时间之后,还包括:
当检测结果为所述唤醒词类别时,根据所述唤醒词类别将所述监听状态转换为运行状态。
4.根据权利要求1所述的方法,其特征在于,在所述检测结果还包括非唤醒词类别,在所述将所述语音监听信号输入到语音类别检测模型中检测,得到检测结果,并记录第二时间之后,还包括:
当所述检测结果为所述非唤醒词类别时,保持所述监听状态。
5.根据权利要求2或4所述的方法,其特征在于,在所述保持所述监听状态之后,还包括:
当在所述监听状态下预设监听时间内未检测到触发信号时,将所述监听状态转换为所述待机状态。
6.根据权利要求1所述的方法,其特征在于,所述语音类别检测模型的生成步骤,包括:
获取训练语料,所述训练语料包括唤醒词语料、非唤醒词语料、缺陷唤醒词语料和缺陷非唤醒词语料;
将所述训练语料输入到神经网络模型中进行训练,当训练完成时,得到所述语音类别检测模型,其中,所述唤醒词语料对应唤醒词类别标签、所述缺陷唤醒词语料对应缺陷唤醒词类别标签、所述非唤醒词语料对应非唤醒词类别标签和所述缺陷非唤醒词语料对应所述非唤醒词类别标签。
7.根据权利要求6所述的方法,其特征在于,所述获取训练语料,包括:
获取唤醒词语料和非唤醒词语料,将所述唤醒词语料和所述非唤醒词语料播放,并进行录音;根据录音结果得到缺陷唤醒词语料和缺陷非唤醒词语料。
8.一种语音唤醒装置,其特征在于,所述装置包括:
信号检测模块,用于在待机状态下检测触发信号,并记录第一时间,所述第一时间是指待唤醒设备在待机状态下通过前置感应器采集到信号的起始时间点;
语音采集模块,当所述触发信号符合预设条件时,将所述待机状态转换为监听状态,在所述监听状态下采集语音监听信号;
语音检测模块,用于将所述语音监听信号输入到语音类别检测模型中检测,得到检测结果,并记录第二时间,所述第二时间是指得到通过所述语音类别检测模型初次检测语音监听信号得到检测结果时对应的时间点;
唤醒模块,用于当所述检测结果为缺陷唤醒词类别时,根据所述第一时间和所述第二时间确定目标时间段,当所述目标时间段在预设时间段内时,根据所述缺陷唤醒词类别将所述监听状态转换为运行状态。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010483792.8A CN111599352B (zh) | 2020-06-01 | 2020-06-01 | 语音唤醒方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010483792.8A CN111599352B (zh) | 2020-06-01 | 2020-06-01 | 语音唤醒方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111599352A CN111599352A (zh) | 2020-08-28 |
CN111599352B true CN111599352B (zh) | 2021-03-30 |
Family
ID=72192201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010483792.8A Active CN111599352B (zh) | 2020-06-01 | 2020-06-01 | 语音唤醒方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111599352B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112241249A (zh) * | 2020-10-21 | 2021-01-19 | 北京小米松果电子有限公司 | 确定唤醒时延的方法、装置、存储介质及终端设备 |
CN112365899B (zh) * | 2020-10-30 | 2024-07-16 | 北京小米松果电子有限公司 | 语音处理方法、装置、存储介质及终端设备 |
CN112908330B (zh) * | 2021-03-04 | 2022-08-09 | 深圳市云希谷科技有限公司 | 终端设备的语音唤醒方法、装置及计算机可读存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9142215B2 (en) * | 2012-06-15 | 2015-09-22 | Cypress Semiconductor Corporation | Power-efficient voice activation |
CN102905029A (zh) * | 2012-10-17 | 2013-01-30 | 广东欧珀移动通信有限公司 | 一种手机及智能语音寻找手机的方法 |
US10304465B2 (en) * | 2012-10-30 | 2019-05-28 | Google Technology Holdings LLC | Voice control user interface for low power mode |
GB2524222B (en) * | 2013-12-18 | 2018-07-18 | Cirrus Logic Int Semiconductor Ltd | Activating speech processing |
US9812126B2 (en) * | 2014-11-28 | 2017-11-07 | Microsoft Technology Licensing, Llc | Device arbitration for listening devices |
FR3030177B1 (fr) * | 2014-12-16 | 2016-12-30 | Stmicroelectronics Rousset | Dispositif electronique comprenant un module de reveil d'un appareil electronique distinct d'un coeur de traitement |
CN108932942A (zh) * | 2018-06-26 | 2018-12-04 | 四川斐讯信息技术有限公司 | 一种实现智能音箱人机对话的系统及其方法 |
CN109059199A (zh) * | 2018-06-28 | 2018-12-21 | 珠海格力电器股份有限公司 | 一种语音唤醒装置、方法及语音控制空调系统 |
CN110875041A (zh) * | 2018-08-29 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 语音控制方法、装置及系统 |
CN109801629A (zh) * | 2019-03-01 | 2019-05-24 | 珠海格力电器股份有限公司 | 一种语音控制方法、装置、存储介质及空调 |
-
2020
- 2020-06-01 CN CN202010483792.8A patent/CN111599352B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111599352A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111599352B (zh) | 语音唤醒方法、装置、计算机设备和存储介质 | |
CN108735209B (zh) | 唤醒词绑定方法、智能设备及存储介质 | |
CN106782554B (zh) | 基于人工智能的语音唤醒方法和装置 | |
EP3522153B1 (en) | Voice control system, wakeup method and wakeup apparatus therefor, electrical appliance and co-processor | |
CN111210021B (zh) | 一种音频信号处理方法、模型训练方法以及相关装置 | |
CN108320738B (zh) | 语音数据处理方法及装置、存储介质、电子设备 | |
US20140281628A1 (en) | Always-On Low-Power Keyword spotting | |
CN110428810A (zh) | 一种语音唤醒的识别方法、装置及电子设备 | |
CN108564948B (zh) | 一种语音识别方法及电子设备 | |
CN110544473B (zh) | 语音交互方法和装置 | |
CN110544468B (zh) | 应用唤醒方法、装置、存储介质及电子设备 | |
CN108831477B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN110223687B (zh) | 指令执行方法、装置、存储介质及电子设备 | |
CN108509225B (zh) | 一种信息处理方法及电子设备 | |
CN111261195A (zh) | 音频测试方法、装置、存储介质及电子设备 | |
CN111522592A (zh) | 一种基于人工智能的智能终端唤醒方法和装置 | |
CN113808584B (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
CN113160815A (zh) | 语音唤醒的智能控制方法、装置、设备及存储介质 | |
CN110580897B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
CN111954868A (zh) | 一种多语音助手控制方法、装置、系统及计算机可读存储介质 | |
CN112740321A (zh) | 唤醒设备的方法、装置、存储介质及电子设备 | |
CN111369992A (zh) | 指令执行方法、装置、存储介质及电子设备 | |
WO2023246036A1 (zh) | 语音识别设备的控制方法、装置、电子设备及存储介质 | |
CN108683981B (zh) | 电子设备的扬声器排水方法、装置、电子设备及存储介质 | |
CN110164431B (zh) | 一种音频数据处理方法及装置、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |