CN112216286A - 语音唤醒识别方法、装置、电子设备及存储介质 - Google Patents

语音唤醒识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112216286A
CN112216286A CN201910618609.8A CN201910618609A CN112216286A CN 112216286 A CN112216286 A CN 112216286A CN 201910618609 A CN201910618609 A CN 201910618609A CN 112216286 A CN112216286 A CN 112216286A
Authority
CN
China
Prior art keywords
modeling unit
acoustic modeling
posterior probability
preset
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910618609.8A
Other languages
English (en)
Other versions
CN112216286B (zh
Inventor
陈孝良
王江
冯大航
苏少炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN201910618609.8A priority Critical patent/CN112216286B/zh
Publication of CN112216286A publication Critical patent/CN112216286A/zh
Application granted granted Critical
Publication of CN112216286B publication Critical patent/CN112216286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种语音唤醒识别方法,应用于语音识别领域,包括:当接收到语音信号后,提取语音信号的声学特征,通过神经网络模型预测声学特征在各声学建模单元上的后验概率,根据后验概率,基于预置的一级评估模型评估是否进入二级评估装置,若进入二级评估装置,则基于后验概率,通过二级评估装置,判断是否进入唤醒状态。本发明还公开了一种语音唤醒识别装置、电子设备及存储介质,具有简单易行、功耗低,同时在保证唤醒率的前提下,降低了误唤醒率。

Description

语音唤醒识别方法、装置、电子设备及存储介质
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音唤醒识别方法、装置、电子设备及存储介质。
背景技术
随着智能交互技术的快速发展和市场需求的不断扩展,语音唤醒技术在近年来取得长足发展,至今已经在多个领域中得到广泛的应用。语音唤醒技术,是对输入的语音信号进行检测,确定语音信号中是否包含唤醒词。利用语音唤醒技术可以实现众多应用场景中的智能语音交互,例如智能音箱,车载、智能家居控制等。
目前,利用语音唤醒技术,在实际的产品中,常会出现误唤醒、高功耗等问题,从而影响用户的体验感。
发明内容
本发明的主要目的在于提供一种语音唤醒识别方法、装置、电子设备及存储介质,旨在解决现有技术中高功耗、误唤醒高的问题。
为实现上述目的,本发明实施例第一方面提供一种语音唤醒识别方法,包括:
当接收到语音信号后,提取所述语音信号的声学特征;
通过神经网络模型预测所述声学特征在各声学建模单元上的后验概率;
根据所述后验概率,基于预置的一级评估模型评估是否进入二级评估装置;
若进入二级评估装置,则基于所述后验概率,通过所述二级评估装置,判断是否进入唤醒状态。
进一步地,所述根据所述后验概率,基于预置的一级评估模型评估是否进入二级评估装置,包括:
获取预设窗口内各声学建模单元的最大后验概率、各声学建模单元的预设权重系数和各声学建模单元的惩罚值;
将所述各声学建模单元的最大后验概率、各声学建模单元的预设权重系数和各声学建模单元的惩罚值,输入至预置的一级评估模型,得到第一评估值;
判断所述第一评估值是否大于预设阈值;
若是,则进入二级评估装置;
若否,则所述预设窗口内不存在唤醒词,不进入唤醒状态。
进一步地,所述一级评估模型具体为:
令Z表示评估值,n表示第n个声学建模单元,xn表示在一个移动窗口内第n个声学建模单元的最大特征值,cn表示第n个声学建模单元的预设权重系数,bn表示第n个声学建模单元的惩罚值,则:
Figure BDA0002123961150000021
进一步地,所述二级评估装置采用预训练的支持向量机模型;
所述若进入二级评估装置,则基于所述后验概率,通过所述二级评估装置,判断是否进入唤醒状态,包括:
若进入二级评估装置,则将所述后验概率输入至所述预训练的支持向量机模型,得到所述语音信号中是否包括唤醒词的分类结果;
若所述分类结果是包含唤醒词,则进入唤醒状态;
若所述分类结果是不包括唤醒词,则不进入唤醒状态。
本发明实施例第二方面提供一种语音唤醒识别装置,包括:
提取模块,用于当接收到语音信号后,提取所述语音信号的声学特征;
预测模块,用于通过神经网络模型预测所述声学特征在各声学建模单元上的后验概率;
评估模块,用于根据所述后验概率,基于预置的一级评估模型评估是否进入二级评估装置;
判断模块,若进入二级评估装置,则基于所述后验概率,通过所述二级评估装置,判断是否进入唤醒状态。
进一步地,所述评估模块包括:
获取子模块,用于获取预设窗口内各声学建模单元的最大后验概率、各声学建模单元的预设权重系数和各声学建模单元的惩罚值;
第一输入子模块,用于将所述各声学建模单元的最大后验概率、各声学建模单元的预设权重系数和各声学建模单元的惩罚值,输入至预置的一级评估模型,得到第一评估值;
判断子模块,用于判断所述第一评估值是否大于预设阈值;
第一执行子模块,用于若是,则进入二级评估装置;
第二执行子模块,用于若否,则所述预设窗口内不存在唤醒词,不进入唤醒状态。
进一步地,所述一级评估模型具体为:
令Z表示评估值,n表示第n个声学建模单元,xn表示在一个移动窗口内第n个声学建模单元的最大特征值,cn表示第n个声学建模单元的预设权重系数,bn表示第n个声学建模单元的惩罚值,则:
Figure BDA0002123961150000031
进一步地,所述二级评估装置采用预训练的支持向量机模型;
所述判断模块包括:
第二输入子模块,用于若进入二级评估装置,则将所述后验概率输入至所述预训练的支持向量机模型,得到所述语音信号中是否包括唤醒词的分类结果;
第三执行子模块,用于所述分类结果是包含唤醒词,则进入唤醒状态;
第四执行子模块,用于所述分类结果是不包括唤醒词,则不进入唤醒状态。
本发明实施例第三方面提供了一种电子设备,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本发明实施例第一方面提供的语音唤醒识别方法。
本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面提供的语音唤醒识别方法。
从上述本发明实施例可知,本发明提供的语音唤醒识别方法、装置、电子设备及存储介质,当接收到语音信号后,提取语音信号的声学特征,通过神经网络模型预测声学特征在各声学建模单元上的后验概率,根据后验概率,基于预置的一级评估模型评估是否进入二级评估装置,若进入二级评估装置,则基于后验概率,通过二级评估装置,判断是否进入唤醒状态,具有低功耗、低误唤醒的特点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的语音唤醒识别方法的流程示意图;
图2为本发明一实施例提供的语音唤醒识别装置的结构示意图;
图3示出了一种电子设备的硬件结构图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明一实施例提供的语音唤醒识别方法的流程示意图,该方法可应用于具有语音识别功能的电子设备中,该电子设备包括:手机、平板电脑(PortableAndroid Device,PAD),笔记本电脑以及个人数字助理(Personal Digital Assistant,PDA)等,也可以是音箱、电视机、汽车等智能设备,该方法主要包括以下步骤:
S101、当接收到语音信号后,提取该语音信号的声学特征;
对获得的语音信号进行声学特征提取,得到该语音信号的声学特征信息。特征提取的过程可以采用本领域常规技术手段来完成,本说明书实施例不对提取声学特征所采用的方法进行限定,例如,可以采用线性预测倒谱系数法(LPCC,LinearPrediction CepstrumCoefficient)、美尔频率倒谱系数法(MFCC,Mel Frequency Cepstrum Coefficient)、感知线性预测参数法(PLP,Perceptual Linear Predict ive)和梅尔标度滤波法(FBANK,Mel-scale Filter Bank)中的任意一种。
更多的,在接收到语音信号之后,在识别过程中,系统会将语音信号分割成多个帧。提取该语音信号中所有帧内声学建模单元的声学特征。在本发明实施例中,语音信号以“小麦丫头”为例,将语音信号可以分割成多个帧后,每个帧内的“小麦丫头”都包含以下声学建模单元:“x”、“iao”、“m”、“ai”、“y”、“a”、“t”、“ou”。同时,还包括“filler”和“silence”。“fill”表示其它非唤醒词声学建模单元或噪声。“silence”表示静音,共十个声学建模单元。
S102、通过神经网络模型预测该声学特征在各声学建模单元上的后验概率;
预测该声学特征在各声学建模单元上的后验概率,可以是通过预先构建的预测模型进行计算,具体可以为通过预先经过神经网络训练出的模型,将声学特征输入该神经网络中,得到声学特征在该模型的各声学建模单元上的后验概率。
神经网络是指一种机器学习方法。在本发明实施例中,其可是深度神经网络(DNN,Deep Neural Networks)、卷积神经网络(CNN,Convolutional Neural Networks)、循环神经网络(RNN,Recurrent Neural Networks)等。使用大量语音样本,训练深度神经网络,实现对语音声学特征在各声学建模单元的后验概率预测。其中,训练深度神经网络的过程为本领域技术人员的常用技术手段,在此不再赘述。
其中,示例性的,唤醒词以“小麦丫头”为例,利用预先训练的深度神经网络(DNN,Deep Neural Network)模型,预测其中一个移动窗口内(100帧)每一帧在各声学建模单元的后验概率,如下表1所示:
表1
x iao m ai y a t ou filler silence
1 0.5 0.3 0.05 0.05 0.01 0.01 0.01 0.01 0.01 0.05
2 0.55 0.2 0.05 0.05 0.02 0.03 0.07 0.01 0.01 0.01
3 0.2 0.6 0.05 0.05 0.02 0.03 0.07 0.01 0.01 0.01
... ... ... ... ... ... ... ... ... ... ...
100 0.05 0.05 0.05 0.05 0.02 0.03 0.03 0.7 0.01 0.01
S103、根据后验概率,基于预置的一级评估模型评估是否进入二级评估装置。
在其中一个实施例中,具体的,获取预设窗口内各声学建模单元的最大后验概率、各声学建模单元的预设权重系数和各声学建模单元的惩罚值,将各声学建模单元的最大后验概率、各声学建模单元的预设权重系数和各声学建模单元的惩罚值,输入至预置的一级评估模型,得到第一评估值。然后,判断第一评估值是否大于预设阈值,若是,则进入二级评估装置。若否,则预设窗口内不存在唤醒词,不进入唤醒状态。
其中,该一级评估模型可以考虑将不同的声学建模单元分配不同的权重。
在其中一个实施例中,一级评估模型具体为:
令Z表示评估值,n表示第n个声学建模单元,xn表示在一个移动窗口内第n个声学建模单元的最大特征值,cn表示第n个声学建模单元的预设权重系数,bn表示第n个声学建模单元的惩罚值,则:
Figure BDA0002123961150000071
本实施例中,当使用环境不同时,语音信号中每个声学建模单元所占权重不同,所以给不同的声学建模单元分配不同的权重。例如,在操作环境中声学建模单元“t”的识别较为困难,则可以给“t”分配较小的权重。该计算公式简单,需要的数据量少,可减少计算时间,同时,给不同的声学建模单元分配不同的权重,可根据操作环境发生相应变化,进而提高识别准确率。
S104、若进入二级评估装置,则基于后验概率,通过二级评估装置,判断是否进入唤醒状态。
在其中一个实施例中,二级评估装置采用预训练的支持向量机模型。若进入二级评估装置,则将后验概率输入至预训练的支持向量机模型,得到语音信号中是否包含唤醒词的分类结果,若分类结果是包含唤醒词,则进入唤醒状态,若分类结果是不包含唤醒词,则不进入唤醒状态。
其中,支持向量机(SVM,Support Vector Machine)是一类按监督学习方式对数据进行二元分类的广义线性分类器。在本发明实施例中,把每一帧在各声学建模单元的后验概率作为输入,是否包含唤醒词做为标签,组成训练数据,训练SVM模型。预测阶段,将上一步得到的后验概率作为SVM的输入,可以得到该移动窗口是否包含唤醒词。由于SVM学习效率高,对的小样本学习效果更佳。因此,通过SVM在只有少量训练语料下就可以得到很好的分类效果,而且实时性更高。其中,训练支持向量机的过程不做限定,可以采用本领域常用的方法。
在本发明实施例中,当接收到语音信号后,提取语音信号的声学特征,通过神经网络模型预测声学特征在各声学建模单元上的后验概率,根据后验概率,基于预置的一级评估模型评估是否进入二级评估装置,若进入二级评估装置,则基于后验概率,通过二级评估装置,判断是否进入唤醒状态,具有低功耗、低误唤醒的特点。
图2是本发明一实施例提供的唤醒词识别装置的结构示意图,该装置主要包括:
提取模块201、预测模块202、评估模块203和判断模块204。
提取模块201,用于当接收到语音信号后,提取语音信号的声学特征。
预测模块202,用于通过神经网络模型预测声学特征在各声学建模单元上的后验概率。
评估模块203,用于根据后验概率,基于预置的一级评估模型评估是否进入二级评估装置。
一级评估模型具体为:
令Z表示评估值,n表示第n个声学建模单元,xn表示在一个移动窗口内第n个声学建模单元的最大特征值,cn表示第n个声学建模单元的预设权重系数,bn表示第n个声学建模单元的惩罚值,则:
Figure BDA0002123961150000081
评估模块203包括:
获取子模块,用于获取预设窗口内各声学建模单元的最大后验概率、各声学建模单元的预设权重系数和各声学建模单元的惩罚值;
第一输入子模块,用于将各声学建模单元的最大后验概率、各声学建模单元的预设权重系数和各声学建模单元的惩罚值,输入至预置的一级评估模型,得到第一评估值;
判断子模块,用于判断第一评估值是否大于预设阈值;
第一执行子模块,用于若是,则进入二级评估装置;
第二执行子模块,用于若否,则预设窗口内不存在唤醒词,不进入唤醒状态。
判断模块204,若进入二级评估装置,则基于后验概率,通过二级评估装置,判断是否进入唤醒状态。
判断模块204包括:
第二输入子模块,用于若进入二级评估装置,则将后验概率输入至预训练的支持向量机模型,得到所述语音信号中是否包括唤醒词的分类结果;
第三执行子模块,用于若分类结果是包括唤醒词,则进入唤醒状态;
第四执行子模块,用于若分类结果是不包括唤醒词,则不进入唤醒状态。
本实施例未尽细节之处,请参阅图1所示实施例的相关描述,在此不再赘述。
在本发明实施例中,当接收到语音信号后,提取语音信号的声学特征,通过神经网络模型预测声学特征在各声学建模单元上的后验概率,根据后验概率,基于预置的一级评估模型评估是否进入二级评估装置,若进入二级评估装置,则基于后验概率,通过二级评估装置,判断是否进入唤醒状态,具有低功耗、低误唤醒的特点。
图3示出了一种电子设备的硬件结构图。
本实施例中所描述的电子设备,包括:
存储器31、处理器32及存储在存储器31上并可在处理器上运行的计算机程序,处理器执行该程序时实现前述图1所示实施例中描述的语音唤醒识别方法。
进一步地,该电子设备还包括:
至少一个输入设备33;至少一个输出设备34。
上述存储器31、处理器32输入设备33和输出设备34通过总线35连接。
其中,输入设备33具体可为单个麦克风或麦克风阵列。输出设备34具体可为显示屏、扬声器等。
存储器31可以是高速随机存取记忆体(RAM,Random Access Memory)存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。存储器31用于存储一组可执行程序代码,处理器32与存储器31耦合。
进一步地,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的终端中,该计算机可读存储介质可以是前述图3所示实施例中的存储器。该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述图1所示实施例中描述的语音唤醒识别方法。进一步地,该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的多个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信链接可以是通过一些接口,模块的间接耦合或通信链接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明所提供的语音唤醒识别方法、装置、电子设备及存储介质的描述,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种语音唤醒识别方法,其特征在于,包括:
当接收到语音信号后,提取所述语音信号的声学特征;
通过神经网络模型预测所述声学特征在各声学建模单元上的后验概率;
根据所述后验概率,基于预置的一级评估模型评估是否进入二级评估装置;
若进入二级评估装置,则基于所述后验概率,通过所述二级评估装置,判断是否进入唤醒状态。
2.根据权利要求1所述的语音唤醒识别方法,其特征在于,所述根据所述后验概率,基于预置的一级评估模型评估是否进入二级评估装置,包括:
获取预设窗口内各声学建模单元的最大后验概率、各声学建模单元的预设权重系数和各声学建模单元的惩罚值;
将所述各声学建模单元的最大后验概率、各声学建模单元的预设权重系数和各声学建模单元的惩罚值,输入至预置的一级评估模型,得到第一评估值;
判断所述第一评估值是否大于预设阈值;
若是,则进入二级评估装置;
若否,则所述预设窗口内不存在唤醒词,不进入唤醒状态。
3.根据权利要求2所述的语音唤醒识别方法,其特征在于,所述一级评估模型具体为:
令Z表示评估值,n表示第n个声学建模单元,xn表示在一个移动窗口内第n个声学建模单元的最大特征值,cn表示第n个声学建模单元的预设权重系数,bn表示第n个声学建模单元的惩罚值,则:
Figure FDA0002123961140000011
4.根据权利要求1所述的语音唤醒识别方法,其特征在于,所述二级评估装置采用预训练的支持向量机模型;
所述若进入二级评估装置,则基于所述后验概率,通过所述二级评估装置,判断是否进入唤醒状态,包括:
若进入二级评估装置,则将所述后验概率输入至所述预训练的支持向量机模型,得到所述语音信号中是否包括唤醒词的分类结果;
若所述分类结果是包含唤醒词,则进入唤醒状态;
若所述分类结果是不包括唤醒词,则不进入唤醒状态。
5.一种语音唤醒识别装置,其特征在于,包括:
提取模块,用于当接收到语音信号后,提取所述语音信号的声学特征;
预测模块,用于通过神经网络模型预测所述声学特征在各声学建模单元上的后验概率;
评估模块,用于根据所述后验概率,基于预置的一级评估模型评估是否进入二级评估装置;
判断模块,若进入二级评估装置,则基于所述后验概率,通过所述二级评估装置,判断是否进入唤醒状态。
6.根据权利要求5所述的语音唤醒识别装置,其特征在于,所述评估模块包括:
获取子模块,用于获取预设窗口内各声学建模单元的最大后验概率、各声学建模单元的预设权重系数和各声学建模单元的惩罚值;
第一输入子模块,用于将所述各声学建模单元的最大后验概率、各声学建模单元的预设权重系数和各声学建模单元的惩罚值,输入至预置的一级评估模型,得到第一评估值;
判断子模块,用于判断所述第一评估值是否大于预设阈值;
第一执行子模块,用于若是,则进入二级评估装置;
第二执行子模块,用于若否,则所述预设窗口内不存在唤醒词,不进入唤醒状态。
7.根据权利要求6所述的语音唤醒识别装置,其特征在于,所述一级评估模型具体为:
令Z表示评估值,n表示第n个声学建模单元,xn表示在一个移动窗口内第n个声学建模单元的最大特征值,cn表示第n个声学建模单元的预设权重系数,bn表示第n个声学建模单元的惩罚值,则:
Figure FDA0002123961140000031
8.根据权利要求5所述的语音唤醒识别装置,其特征在于,所述二级评估装置采用预训练的支持向量机模型;
所述判断模块包括:
第二输入子模块,用于若进入二级评估装置,则将所述后验概率输入至所述预训练的支持向量机模型,得到所述语音信号中是否包括唤醒词的分类结果;
第三执行子模块,用于所述分类结果是包含唤醒词,则进入唤醒状态;
第四执行子模块,用于所述分类结果是不包括唤醒词,则不进入唤醒状态。
9.一种电子设备,包括:存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1至4中的任一项所述的语音唤醒识别方法中的各个步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至4中的任一项所述的语音唤醒识别方法中的各个步骤。
CN201910618609.8A 2019-07-09 2019-07-09 语音唤醒识别方法、装置、电子设备及存储介质 Active CN112216286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910618609.8A CN112216286B (zh) 2019-07-09 2019-07-09 语音唤醒识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910618609.8A CN112216286B (zh) 2019-07-09 2019-07-09 语音唤醒识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112216286A true CN112216286A (zh) 2021-01-12
CN112216286B CN112216286B (zh) 2024-04-23

Family

ID=74048378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910618609.8A Active CN112216286B (zh) 2019-07-09 2019-07-09 语音唤醒识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112216286B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170148444A1 (en) * 2015-11-24 2017-05-25 Intel IP Corporation Low resource key phrase detection for wake on voice
CN106782536A (zh) * 2016-12-26 2017-05-31 北京云知声信息技术有限公司 一种语音唤醒方法及装置
CN107221326A (zh) * 2017-05-16 2017-09-29 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法、装置和计算机设备
KR101836227B1 (ko) * 2016-11-25 2018-03-08 한국과학기술원 무선 네트워크에서의 에너지 절감 방법 및 장치
DE102018002679A1 (de) * 2017-04-05 2018-10-11 Avago Technologies General Ip (Singapore) Pte. Ltd. Sprachenergieerkennung
CN109036428A (zh) * 2018-10-31 2018-12-18 广东小天才科技有限公司 一种语音唤醒设备、方法及计算机可读存储介质
CN109697984A (zh) * 2018-12-28 2019-04-30 北京声智科技有限公司 一种降低智能设备自唤醒的方法
CN109859743A (zh) * 2019-01-29 2019-06-07 腾讯科技(深圳)有限公司 音频识别方法、系统和机器设备
CN109887511A (zh) * 2019-04-24 2019-06-14 武汉水象电子科技有限公司 一种基于级联dnn的语音唤醒优化方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170148444A1 (en) * 2015-11-24 2017-05-25 Intel IP Corporation Low resource key phrase detection for wake on voice
KR101836227B1 (ko) * 2016-11-25 2018-03-08 한국과학기술원 무선 네트워크에서의 에너지 절감 방법 및 장치
CN106782536A (zh) * 2016-12-26 2017-05-31 北京云知声信息技术有限公司 一种语音唤醒方法及装置
DE102018002679A1 (de) * 2017-04-05 2018-10-11 Avago Technologies General Ip (Singapore) Pte. Ltd. Sprachenergieerkennung
CN107221326A (zh) * 2017-05-16 2017-09-29 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法、装置和计算机设备
US20180336886A1 (en) * 2017-05-16 2018-11-22 Baidu Online Network Technology (Beijing) Co., Ltd. Method and device for waking up via speech based on artificial intelligence and computer device
CN109036428A (zh) * 2018-10-31 2018-12-18 广东小天才科技有限公司 一种语音唤醒设备、方法及计算机可读存储介质
CN109697984A (zh) * 2018-12-28 2019-04-30 北京声智科技有限公司 一种降低智能设备自唤醒的方法
CN109859743A (zh) * 2019-01-29 2019-06-07 腾讯科技(深圳)有限公司 音频识别方法、系统和机器设备
CN109887511A (zh) * 2019-04-24 2019-06-14 武汉水象电子科技有限公司 一种基于级联dnn的语音唤醒优化方法

Also Published As

Publication number Publication date
CN112216286B (zh) 2024-04-23

Similar Documents

Publication Publication Date Title
US10332507B2 (en) Method and device for waking up via speech based on artificial intelligence
CN110534099B (zh) 语音唤醒处理方法、装置、存储介质及电子设备
CN112185352B (zh) 语音识别方法、装置及电子设备
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及系统
CN110047512B (zh) 一种环境声音分类方法、系统及相关装置
CN105632486A (zh) 一种智能硬件的语音唤醒方法和装置
CN111862951B (zh) 语音端点检测方法及装置、存储介质、电子设备
CN111754982A (zh) 语音通话的噪声消除方法、装置、电子设备及存储介质
CN111653275A (zh) 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法
CN112652306A (zh) 语音唤醒方法、装置、计算机设备和存储介质
CN111061837A (zh) 话题识别方法、装置、设备及介质
CN113011532A (zh) 分类模型训练方法、装置、计算设备及存储介质
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN106710588B (zh) 语音数据句类识别方法和装置及系统
CN112289311B (zh) 语音唤醒方法、装置、电子设备及存储介质
CN110895930B (zh) 语音识别方法及装置
CN111523604A (zh) 一种用户分类的方法和相关装置
CN111881293A (zh) 一种风险内容识别方法及装置、服务器、存储介质
CN112216286B (zh) 语音唤醒识别方法、装置、电子设备及存储介质
CN112017676A (zh) 音频处理方法、装置和计算机可读存储介质
CN113111855B (zh) 一种多模态情感识别方法、装置、电子设备及存储介质
CN114822562A (zh) 声纹识别模型的训练方法、声纹识别方法及相关设备
CN114566156A (zh) 一种关键词的语音识别方法及装置
CN115455142A (zh) 文本检索方法、计算机设备和存储介质
CN113744734A (zh) 一种语音唤醒方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant