CN118038863A - 唤醒语音识别方法、装置、电子设备及存储介质 - Google Patents
唤醒语音识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN118038863A CN118038863A CN202311718263.1A CN202311718263A CN118038863A CN 118038863 A CN118038863 A CN 118038863A CN 202311718263 A CN202311718263 A CN 202311718263A CN 118038863 A CN118038863 A CN 118038863A
- Authority
- CN
- China
- Prior art keywords
- modeling
- model
- wake
- acoustic
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 106
- 238000012545 processing Methods 0.000 claims abstract description 102
- 230000008569 process Effects 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000010521 absorption reaction Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一种唤醒语音识别方法、装置、电子设备及存储介质,该方法包括:基于待识别语音的声学特征,从模型集合中确定出与所述声学特征适配的建模模型,并利用所述建模模型对所述声学特征进行特征建模处理,得到建模声学特征;所述模型集合包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型;基于所述建模声学特征,从所述待识别语音中识别唤醒语音。上述方案能够提高唤醒语音识别的准确度和识别效率。
Description
技术领域
本申请涉及语音处理技术领域,尤其涉及一种唤醒语音识别方法、装置、电子设备及存储介质。
背景技术
语音唤醒通过理解用户的语音数据,达到唤醒智能终端的目的。相比于语音识别,语音唤醒与其最重要的区别是在识别唤醒词的同时,需要严格避免非唤醒词的语音将智能终端唤醒。
现有方法一般在唤醒词识别之后,会进行唤醒词的确认,具体确认时,根据唤醒词识别过程中分别识别为唤醒词和非唤醒词的声学似然度值,计算识别为唤醒词和非唤醒词的声学似然度之间的比值得到唤醒词的声学似然比,当所述似然比大于阈值时,则认为识唤醒词识别结果可信,唤醒成功,否则唤醒失败。然而,当更换唤醒词或唤醒词的使用场景时,往往需要重新做大量实验来确定唤醒词声学似然比阈值,代价较高,并且如果唤醒词声学似然比阈值设置不当,容易造成唤醒词识别结果准确的情况下,唤醒失败的情况,降低了唤醒成功的准确度。
发明内容
基于上述技术现状,本申请提出一种唤醒语音识别方法、装置、电子设备及存储介质,其中包含了与现有技术完全不同的唤醒语音识别方案,能够提高唤醒语音识别的准确度和识别效率。
为了达到上述技术目的,本申请提出如下具体方案:
本申请第一方面提出一种唤醒语音识别方法,包括:
基于待识别语音的声学特征,从模型集合中确定出与所述声学特征适配的建模模型,并利用所述建模模型对所述声学特征进行特征建模处理,得到建模声学特征;所述模型集合包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型;
基于所述建模声学特征,从所述待识别语音中识别唤醒语音。
本申请第二方面提出一种唤醒语音识别装置,包括:
特征建模单元,用于基于待识别语音的声学特征,从模型集合中确定出与所述声学特征适配的建模模型,并利用所述建模模型对所述声学特征进行特征建模处理,得到建模声学特征;所述模型集合包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型;
唤醒识别单元,用于基于所述建模声学特征,从所述待识别语音中识别唤醒语音。
本申请第三方面提出一种电子设备,包括存储器和处理器;
所述存储器与所述处理器连接,用于存储程序;
所述处理器用于通过运行所述存储器中的程序,实现上述的唤醒语音识别方法。
本申请第四方面提出一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现上述的唤醒语音识别方法。
基于上述第一方面至第四方面中的任意一方面可知,本申请提出的唤醒语音识别方案预先设置了用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型。在此基础上,根据待识别语音的声学特征从唤醒语音的建模模型和非唤醒语音的建模模型中选取与待识别语音的声学特征适配的建模模型,用于对待识别模型的声学特征进行声学特征建模处理,得到建模声学特征。该处理过程将对唤醒语音的特征建模以及对非唤醒语音的特征建模通过不同的模型单独实现,使得对唤醒语音的特征建模以及对非唤醒语音的特征建模均更加准确。在此基础上,选择与待识别语音的声学特征适配的建模模型对待识别语音的声学特征进行建模,能够使得待识别语音的声学特征中的唤醒语音特征部分更加有利于识别唤醒语音,以及使得非唤醒语音特征部分更加有利于识别非唤醒语音,进而,基于建模后的声学特征,能够更加准确地从待识别语音中识别唤醒语音。
而且,本申请实施例提出的唤醒语音识别方案可以直接准确识别唤醒语音,不需要在识别唤醒词后再对唤醒词进行确认,其识别效率更高,而且能够避免由于对唤醒词的确认失败导致唤醒语音识别失败。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种唤醒语音识别方法的流程示意图。
图2为本申请实施例提供的语音解码过程的示意图。
图3为本申请实施例提供的一种声学特征模型的结构示意图。
图4为本申请实施例提供的一种语音唤醒系统的结构示意图。
图5为本申请实施例提供的一种唤醒语音识别装置的结构示意图。
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
本申请实施例技术方案适用于语音唤醒应用场景,比如通过语音唤醒智能设备的应用场景。其中,上述的智能设备,可以是任意的装配语音唤醒功能的设备,比如可以是计算机、智能移动终端、智能穿戴设备、智能电器、服务器等。
理论上,任意的具有音频采集装置,以及音频处理及控制功能的设备,都可以应用本申请实施例技术方案,具体是可以由这些设备中的具备音频处理及控制功能的处理器、控制器等执行本申请实施例技术方案,从而实现对设备的更快、更准确的语音唤醒。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例首先提出一种唤醒语音识别方法,能够更加高效、准确的从待识别语音中识别唤醒语音,进而可以基于唤醒语音识别结果支持对设备的语音唤醒操作。
参见图1所示,本申请实施例提出的唤醒语音识别方法,包括:
S101、基于待识别语音的声学特征,从模型集合中确定出与所述声学特征适配的建模模型,并利用所述建模模型对所述声学特征进行特征建模处理,得到建模声学特征。
其中,上述的待识别语音,是指需要从中识别是否包含唤醒语音的待处理语音,例如可以是通过设备的音频采集装置所采集到的用户语音。在该待识别语音中可能包含唤醒语音,也可能不包含唤醒语音,此外,在该待识别语音中还可能包含噪声。上述的唤醒语音,具体是指预设的唤醒词对应的语音,比如预设的唤醒词为“启动系统”,则相应的唤醒语音可以是用户说出“启动系统”这一唤醒词时的相应语音。而非唤醒语音,则是指不包含唤醒词对应的语音的语音。
该待识别语音可以是任意语种的语音,并且,当该待识别语音中包含唤醒语音时,该唤醒语音的语种与唤醒词的语种相一致。
上述的模型集合包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型。
其中,用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,是指专门用于对唤醒语音的声学特征进行特征建模处理的模型,其可以通过专门对唤醒语音的声学特征进行特征建模训练得到,从而使得该唤醒语音建模模型成为用于对唤醒语音的声学特征进行特征建模的专家模型,
同理,上述的用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型,是指专门用于对非唤醒语音的声学特征进行特征建模处理的模型,其可以通过专门对非唤醒语音的声学特征进行特征建模训练得到,从而使得该非唤醒语音建模模型成为用于对非唤醒语音的声学特征进行特征建模的专家模型。
本申请实施例预先训练上述的用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型,并用唤醒语音建模模型和非唤醒语音建模模型构成模型集合。在该模型集合中,唤醒语音建模模型和非唤醒语音建模模型的数量分别可以为一个或多个。上述的唤醒语音建模模型和非唤醒语音建模模型分别可以基于任意的具有声学特征建模功能的模型结构实现,比如可以基于Transformer的编码器部分实现。
在此基础上,当获取到待识别语音的声学特征时,基于待识别语音的声学特征,从上述的模型集合中,选择与待识别语音的声学特征相适配的建模模型。
其中,待识别语音的声学特征,可以是任意类型的声学特征,一般为频谱特征,比如梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征或感知线性预测(Perceptual Linear Predictive,PLP)特征等。
该待识别语音的声学特征,可以是直接接收的声学特征,也可以是对接收的待识别语音进行声学特征提取得到的声学特征。当对接收的待识别语音进行声学特征提取时,先对待识别语音进行降噪等预处理,然后对待识别语音进行语音活动检测,从中提取包含活动语音的真实语音段,然后对该真实语音段进行声学特征提取。
在声学特征提取过程中,先对语音数据进行分帧处理,并对分帧后的语音数据进行预加重,而后做fft变换为频域,再取平方和对数得到能量谱特征。如果语音为经过麦克风阵列的多麦语音,还可以通过波束成形,将多麦语音降噪合并为增强后的单麦语音,再经过上述的特征提取过程,得到每一帧信号的声学特征。
当基于待识别语音的声学特征从模型集合中选择建模模型时,具体是选择与待识别语音的声学特征相适配的建模模型。其中,与待识别语音的声学特征相适配,具体是指适合用于对待识别语音的声学特征进行特征建模。
示例性的,可以对待识别语音的声学特征进行分类,判断其是唤醒语音的声学特征还是非唤醒语音的声学特征。如果是唤醒语音的声学特征,则模型集合中的唤醒语音建模模型是与待识别语音的声学特征适配的建模模型;如果是非唤醒语音的声学特征,则模型集合中的非唤醒语音建模模型是与待识别语音的声学特征适配的建模模型。其中,对待识别语音的声学特征进行分类,可以是通过预先训练的特征分类模型而实现,该特征分类模型被训练为将声学特征分类为唤醒语音的声学特征或非唤醒语音的声学特征。
在从模型集合中选出与待识别语音的声学特征适配的建模模型后,利用选出的建模模型,对待识别语音的声学特征进行特征建模处理,得到建模声学特征。
可以理解,由于模型集合中的唤醒语音建模模型和非唤醒语音建模模型,分别是专用于对唤醒语音的声学特征进行建模的专家模型,以及专用于对非唤醒语音的声学特征进行建模的专家模型,因此,经过唤醒语音建模模型建模后的声学特征,更加能够体现唤醒语音的声学特点,其建模输出的声学特征更加有利于识别唤醒语音,而经过非唤醒语音建模模型建模后的声学特征,则更加能够体现非唤醒语音的声学特点,其建模输出的声学特征更加有利于识别非唤醒语音。
将唤醒语音声学特征的建模与非唤醒语音的声学特征的建模分开执行,分别由不同的专家模型来实现,可以使得对唤醒语音声学特征的建模以及对非唤醒语音的声学特征的建模都更加准确,不会因为同一个模型既用于对唤醒语音声学特征的建模又用于对非唤醒语音的声学特征的建模而导致对唤醒语音和非唤醒语音的特征建模混淆,从而影响建模准确性。
因此,利用与待识别语音的声学特征相适配的建模模型对待识别语音的声学特征进行特征建模处理后,得到的建模声学特征将更加有利于识别待识别语音是唤醒语音还是非唤醒语音,比如更加有利于识别待识别语音中的各个语音帧是唤醒语音帧还是非唤醒语音帧。
比如,针对待识别语音的每一语音帧对应的声学特征,均按照上述的方案从模型集合中选取与该语音帧对应的声学特征适配的建模模型,然后利用选取的建模模型对该语音帧的声学特征进行建模处理,得到该语音帧对应的建模声学特征。按照上述过程对每一语音帧的声学特征进行建模处理后,使得每一语音帧对应的建模声学特征能够更加利于识别该语音帧是唤醒语音帧还是非唤醒语音帧。
S102、基于所述建模声学特征,从所述待识别语音中识别唤醒语音。
具体的,在借助与待识别语音的声学特征适配的建模模型对待识别语音的声学特征进行特征建模得到待识别语音的建模声学特征后,即可基于该建模声学特征,从待识别语音中识别唤醒语音。
其中,从待识别语音中识别唤醒语音,具体是从待识别语音中识别预设的唤醒词对应的语音。比如识别“启动系统”这一唤醒词对应的语音。如果从待识别语音中识别到唤醒语音,则可以进一步唤醒设备。
示例性的,可以将上述的建模声学特征输入预先训练的语音识别模型,借助预先训练的语音识别模型,从待识别语音中识别唤醒语音。该语音识别模型可以是基于任意的语音识别模型架构训练得到的。
在一些实现方式中,在得到上述的建模声学特征后,通过执行如下步骤A1-A2的处理,从待识别语音中识别唤醒语音;
A1、基于建模声学特征,对待识别语音的语音帧进行音素分类,得到分类结果。
具体的,上述的基于建模声学特征对待识别语音的语音帧进行音素分类,是指基于建模声学特征中对应每一语音帧的建模声学特征,对待识别语音的每一语音帧分别进行音素单元分类处理,得到分类结果。
上述的音素单元是指由音素组成的单元,一个音素单元可以包括单个音素,也可以包括多个音素。
本申请实施例采用三音素构成音素单元,即,待识别语音所属语种的所有音素中的任意三个音素,均可以组成一个音素单元。
在此基础上,本申请实施例对所有的音素单元进行聚类,得到多个音素单元类,这些音素单元类构成音素单元集合。
上述的对待识别语音的每一语音帧分别进行音素单元分类处理,具体是计算待识别语音的每一语音帧被分类为音素单元集合中的每一音素单元类的概率值,得到分类结果。则可以理解,在该分类结果中,包括待识别语音的每一语音帧被分类为音素单元集合中的每一类音素单元的概率。
在本申请实施例中,共设置3004个音素单元类,假设待识别语音共有N帧,则最终得到的分类结果为N帧语音数据的声学特征经过分类后,得到的每一帧语音被分类为每一类三音素单元的概率值,这些概率值可以组成一个N*3004维的概率向量。
A2、基于所述分类结果,从所述待识别语音中识别唤醒语音。
具体的,通过解码网络对上述的分类结果进行解码,从中识别待识别语音。
示例性的,本申请实施例采用keyword+filler的解码网络,该解码网络包括唤醒词(keyword)路径和吸收(filler)路径。唤醒词路径由唤醒词的所有音素单元按照顺序串联而成,吸收路径则由上述的音素单元集合中的所有音素单元类除了唤醒词包含的音素单元之外的所有其他音素单元类组成,每一音素单元类对应一条吸收路径。
具体解码过程可以参见图2所示。
以唤醒词为“启动系统”为例,将上述的分类结果输入解码网络后,比如将N*3004维的概率向量输入解码网络后,从N帧的第一帧开始,会将keyword路径中第一个三音素单元的概率值K0与所有filler路径中最大的概率值F比较,若F>=K0,则认为唤醒词还没开始出现,继续比较下一帧的K0与F,若F<K0,则比较keyword路径中下一个三音素单元的概率值K1与F,依此类推,直到keyword路径中最后一个三音素单元的概率值K5大于F,则认为从待识别语音中识别到“启动系统”的唤醒语音。
通过上述介绍可见,本申请实施例提出的唤醒语音识别方法预先设置了用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型。在此基础上,根据待识别语音的声学特征从唤醒语音的建模模型和非唤醒语音的建模模型中选取与待识别语音的声学特征适配的建模模型,用于对待识别模型的声学特征进行声学特征建模处理,得到建模声学特征。该处理过程将对唤醒语音的特征建模以及对非唤醒语音的特征建模通过不同的模型单独实现,使得对唤醒语音的特征建模以及对非唤醒语音的特征建模均更加准确。在此基础上,选择与待识别语音的声学特征适配的建模模型对待识别语音的声学特征进行建模,能够使得待识别语音的声学特征中的唤醒语音特征部分更加有利于识别唤醒语音,以及使得非唤醒语音特征部分更加有利于识别非唤醒语音,进而,基于建模后的声学特征,能够更加准确地从待识别语音中识别唤醒语音。
而且,本申请实施例提出的唤醒语音识别方法可以直接准确识别唤醒语音,不需要在识别唤醒词后再对唤醒词进行确认,其识别效率更高,而且能够避免由于对唤醒词的确认失败导致唤醒语音识别失败。
在一些实施例中,设置两个模型集合,即第一模型集合和第二模型集合。第一模型集合和第二模型集合的内容相同,均是由用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型构成。
其中,第一模型集合中的唤醒语音建模模型与第二模型集合中的唤醒语音建模模型,可以是参数完全相同的模型,也可以是参数有差异的模型。同理,第一模型集合中的非唤醒语音建模模型与第二模型集合中的非唤醒语音建模模型,可以是参数完全相同的模型,也可以是参数有差异的模型。
基于第一模型集合和第二模型集合,在获取待识别语音的声学特征时,先基于待识别语音的声学特征,从第一模型集合中确定出与待识别语音的声学特征适配的第一建模模型,利用该第一建模模型对待识别语音的声学特征进行特征建模处理,得到第一建模声学特征。
然后,再基于该第一建模声学特征,从第二模型集合中确定出与第一建模声学特征适配的第二建模模型,并利用第二建模模型对第一建模声学特征进行特征建模处理,得到第二建模声学特征。
该第二建模声学特征,即用于后续从待识别语音中识别唤醒语音。
上述过程分两级对待识别语音的声学特征进行特征建模处理,可以进一步提高特征建模准确度,使得最终得到的第二建模声学特征更加有利于识别唤醒语音和非唤醒语音。
在一些实施例中,在获取到待识别语音的声学特征后,先对待识别语音的声学特征进行编码处理,将待识别语音的声学特征转化为高层特征表示,使得该特征更加有利于区分识别唤醒语音和非唤醒语音。
同时,在得到上述的第一建模模型输出的第一建模声学特征后,对该第一建模声学特征进行特征提取处理,从中提取有利于第二模型集合中的各个建模模型进行特征建模处理的特征,也就是提取更加有利于体现第一建模声学特征的特点,从而更加有利于从第二模型集合中选出与其适配的建模模型,以及便于第二模型集合中的各个建模模型进行特征建模的特征成分,作为第一共享建模声学特征。
然后,在从第二模型集合中选择与第一建模声学特征适配的第二建模模型时,是根据上述的第一共享建模声学特征,从第二模型集合中确定出与该第一共享建模声学特征适配的第二建模模型,并利用所述第二建模模型对所述第一共享建模声学特征进行特征建模处理,得到第二建模声学特征。
该第二建模声学特征即可用于执行后续的从待识别语音中识别唤醒语音的处理。
在一些实施例中,在得到上述第第二建模声学特征后,在将其用于从待识别语音中识别唤醒语音之前,还可以对该第二建模声学特征进行特征提取处理,得到适用于对待识别语音的语音帧进行音素分类处理的建模声学特征,然后将该建模声学特征可以用于对待识别语音的语音帧进行音素分类,以及从待识别语音中识别唤醒语音。
其中,对第一建模声学特征和/或第二建模声学特征进行特征提取处理,可以是对建模声学特征进行编码、上下文信息融合、维度变换等处理。
在上述实施例中,对待识别语音的声学特征进行建模的过程中,还对声学特征进行进一步的特征提取和处理,从而可以加速特征处理速度、提高特征处理效率、避免丢失特征信息,使得最终处理得到的声学特征更加有利于从待识别语音中识别唤醒语音。
在一些实施例中,按照非唤醒语音的类型,将用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型,进一步细分为不同类型的建模模型。
具体的,非唤醒语音通常是指不包含唤醒词语音的语音,其进一步可以细分为不包含唤醒词的语音,以及不包含语音内容的语音。
其中,不包含唤醒词的语音,是指在语音中包含人声语音,但是人声语音不包括唤醒词,例如用户说了一段不包括唤醒词的话,则这段话即为不包含唤醒词的语音,本申请实施例将这种不包含唤醒词的语音,作为第一类型非唤醒语音。
不包含语音内容的语音,设置语音中不包含有效语音内容的语音,比如语音中仅包含笑声、车流声、环境噪声等,而不包含具体的语音内容,本申请实施例将这种不包含语音内容的语音,作为第二类型非唤醒语音。
基于上述的不同类型的非唤醒语音,本申请实施例在模型集合中分别设置与之对应的建模模型,即设置用于对第一类型非唤醒语音的声学特征进行建模的第一非唤醒语音建模模型,以及,用于对第二类型非唤醒语音的声学特征进行建模的第二非唤醒语音建模模型。
在此基础上,当从模型集合中选择与待识别语音的声学特征适配的建模模型时,具体是从唤醒语音建模模型、第一非唤醒语音建模模型,以及第二非唤醒语音建模模型中,选择与待识别语音的声学特征适配的建模模型。
上述实施例对非唤醒语音建模模型进行更细致的划分,能够进一步丰富模型集合中的模型种类,从而有利于更加细致、准确地对待识别语音的声学特征进行建模,使建模声学特征更准确。
在一些实施例中,还构建了声学特征模型,用于实现本申请上述实施例所介绍的唤醒语音识别方法。
在该声学特征模型中,包括上述的模型集合,在模型集合中,包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型。
将待识别语音的声学特征输入该声学特征模型后,该声学特征模型基于待识别语音的声学特征,从模型集合中确定出与待识别语音的声学特征适配的建模模型,并利用确定出的建模模型对该声学特征进行特征建模处理,得到建模声学特征。
该声学特征模型的上述选择建模模型以及利用选择的建模模型对待识别语音的声学特征进行建模处理的具体过程,可参见上述实施例的介绍。
在一些实施例中,该声学特征模型包括:
路由模块,用于基于待识别语音的声学特征,从模型集合中确定出与所述声学特征适配的建模模型。
在一些实施例中,该声学特征模型中的模型集合,包括第一模型集合和第二模型集合,其中,第一模型集合和第二模型集合均包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型。
在一些实施例中,上述的非唤醒语音建模模型,又分为用于对第一类型非唤醒语音的声学特征进行建模的第一非唤醒语音建模模型,以及,用于对第二类型非唤醒语音的声学特征进行建模的第二非唤醒语音建模模型。所述第一类型非唤醒语音包括不包含唤醒词的语音,所述第二类型非唤醒语音包括不包含语音内容的音频。
相应的,声学特征模型中的路由模块也细分为第一路由模块和第二路由模块,第一路由模块用于基于待识别语音的声学特征,从第一模型集合中确定出与所述声学特征适配的第一建模模型,以使所述声学特征模型利用所述第一建模模型对所述声学特征进行特征建模处理,得到第一建模声学特征
所述第二路由模块用于基于所述第一建模声学特征,从所述第二模型集合中确定出与所述第一建模声学特征适配的第二建模模型,以使所述声学特征模型利用所述第二建模模型对所述第一建模声学特征进行特征建模处理,得到第二建模声学特征。
在一些实施例中,在声学特征模型中还设置有共享编码器、第一共享特征层和第二共享特征层。
其中,所述共享编码器用于对待识别语音的声学特征进行编码处理。
所述第一共享特征层,用于对所述第一建模声学特征进行特征提取处理,得到适用于被所述第二模型集合中的各个建模模型进行特征建模处理的第一共享建模声学特征。
所述第二共享特征层,用于对所述第二建模声学特征进行特征提取处理,得到适用于对所述待识别语音的语音帧进行音素分类处理的建模声学特征。
以及,在一些实施例中,上述的声学特征模型还包括分类层,用于基于上述处理得到的建模声学特征,对所述待识别语音的语音帧进行音素分类处理。
结合上述各实施例的介绍,本申请实施例构建出如图3所示的声学特征模型,该声学特征模型可以用于实现上述实施例中介绍的唤醒语音识别方法的处理过程,并且具有执行该唤醒语音识别方法所实现的有益效果,该声学特征模型在执行上述唤醒语音识别方法时的具体处理,可以参见上述实施例的相应介绍。
其中,在图3所示的声学特征模型中,Exper1表示唤醒语音建模模型,也就是专用于对唤醒语音的声学特征进行建模的专家模型;Exper2表示第一非唤醒语音建模模型,也就是专用于对第一类型非唤醒语音的声学特征进行建模的专家模型;Exper3表示第二非唤醒语音建模模型,也就是专用于对第二类型非唤醒语音的声学特征进行建模的专家模型。
在一些实施例中,在对上述的声学特征模型进行训练时,采用了对路由模块的有监督和无监督的联合训练,具体是对第一路由模块进行无监督训练,对第二路由模块进行有监督的训练,从而使得第一路由模块和第二路由模块分别执行不同精度的模型选择功能,从而使得声学特征模型能够循序渐进地对待识别语音的声学特征进行特征建模,最终得到更加有利于识别唤醒语音的建模特征。并且,该训练方式能够加速训练速度,提高训练效率。
对上述声学特征模型的具体训练过程包括:
首先获取样本语音声学特征,以及与所述样本语音声学特征对应的音素分类标签;上述的音素分类标签,包括将样本语音声学特征中对应各语音帧的声学特征,分类为各个音素单元的概率。
然后,将获取的样本语音声学特征输入上述的声学特征模型,以使声学特征模型开始执行如下的特征处理过程:
声学特征模型的第一路由模块根据该样本语音声学特征,按照预设的路由策略从第一模型集合中确定出与该样本语音声学特征适配的第一建模模型。其中,第一路由模块的预设路由策略,具体是第一路由模块将输入的声学特征均匀分配至所述第一模型集合中的各个建模模型进行处理。按照该路由策略,第一路由模块执行自监督的训练过程,其自己计算将输入的声学特征中的各个语音帧对应的声学特征分配给第一模型集合中的各个建模模型进行处理的概率,在这一过程中,需保证第一模型集合中的各个建模模型得到的特征数量是均等的,从而使得第一模型集合中的各个建模模型在训练过程中都得到均等的训练。
在确定第一建模模型后,声学特征模型利用该第一建模模型对声学特征进行特征建模处理,得到第一建模声学特征。
然后,第二路由模块基于所述第一建模声学特征,从所述第二模型集合中确定出与所述第一建模声学特征适配的第二建模模型。声学特征模型并利用所述第二建模模型对所述第一建模声学特征进行特征建模处理,得到第二建模声学特征。
最后,基于第二建模声学特征,对待识别语音的语音帧进行音素分类,即计算各个语音帧被分类为各个音素单元类的概率,得到分类结果。该分类过程可以由声学特征模型的分类层实现。
另外,在获取样本语音声学特征后,通过声学特征模型的共享编码器进行编码,然后再由第一路由模块基于编码后的特征选择第一建模模型;在得到第一建模声学特征后,通过声学特征模型的第一共享特征层对其进行特征提取,然后使第二路由模块基于提取的特征选择第二建模模型;以及,在得到第二建模声学特征后,通过声学特征模型的第二共享特征层对其进行特征提取,然后基于提取的特征对待识别语音的语音帧进行音素分类。
最后,基于上述得到的分类结果以及音素分类标签,计算损失函数,并利用损失函数计算结果至少对第一建模模型、第二路由模块、第二建模模型进行参数调整,还可以对共享编码器、第一共享特征层和第二共享特征层进行参数调整,实现对声学特征模型的训练。
在上述训练过程中,对第一路由模块执行了无监督训练,对第二路由模块执行了有监督训练。经过重复训练之后,可以使得声学特征模型整体上能够实现对待识别语音的声学特征的准确建模,使得基于建模特征能够更加准确、快速地从待识别语音中识别唤醒语音。
基于上述的声学特征模型,本申请其他实施例中还提出一种基于该声学特征模型而构建的语音唤醒系统以及相应的语音唤醒方法,参见图4所示,该语音唤醒系统主要由语音处理模型、声学特征模型以及解码网络构成。
基于上述的语音唤醒系统,可以实现如下的语音唤醒方法:
当待识别语音输入语音处理模型后,实现语音的预处理以及声学特征提取。
然后语音处理模型提取的声学特征输入声学特征模型,使得声学特征模型按照上述实施例介绍实现对声学特征的建模,得到声学建模特征,以及基于该声学建模特征实现对待处理语音的语音帧的音素分类。
最后,将分类结果输入解码网络,使解码网络基于该分类结果,对待识别语音进行解码,从中识别唤醒语音。
如果识别到唤醒语音,则可以执行唤醒操作;若未识别到唤醒语音,则不执行唤醒操作。
该语音唤醒系统和语音唤醒方法由于应用了上述的声学特征模型,因此能够实现更加准确、更加高效、快速的语音唤醒。
与上述的唤醒语音识别方法相对应的,本申请实施例还提供了一种唤醒语音识别装置,参见图5所示,该装置包括:
特征建模单元100,用于基于待识别语音的声学特征,从模型集合中确定出与所述声学特征适配的建模模型,并利用所述建模模型对所述声学特征进行特征建模处理,得到建模声学特征;所述模型集合包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型;
唤醒识别单元110,用于基于所述建模声学特征,从所述待识别语音中识别唤醒语音。
根据权利要求1所述的方法,其特征在于,所述模型集合包括第一模型集合和第二模型集合,所述第一模型集合和所述第二模型集合均包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型;
在一些实施例中,所述基于待识别语音的声学特征,从模型集合中确定出与所述声学特征适配的建模模型,并利用所述建模模型对所述声学特征进行特征建模处理,得到建模声学特征,包括:
基于待识别语音的声学特征,从所述第一模型集合中确定出与所述声学特征适配的第一建模模型,并利用所述第一建模模型对所述声学特征进行特征建模处理,得到第一建模声学特征;
基于所述第一建模声学特征,从所述第二模型集合中确定出与所述第一建模声学特征适配的第二建模模型,并利用所述第二建模模型对所述第一建模声学特征进行特征建模处理,得到第二建模声学特征。
在一些实施例中,所述特征建模单元100还用于:
对所述第一建模声学特征进行特征提取处理,得到适用于被所述第二模型集合中的各个建模模型进行特征建模处理的第一共享建模声学特征;
所述基于所述第一建模声学特征,从第二模型集合中确定出与所述第一建模声学特征适配的第二建模模型,并利用所述第二建模模型对所述第一建模声学特征进行特征建模处理,得到第二建模声学特征,包括:
基于所述第一共享建模声学特征,从第二模型集合中确定出与所述第一共享建模声学特征适配的第二建模模型,并利用所述第二建模模型对所述第一共享建模声学特征进行特征建模处理,得到第二建模声学特征。
在一些实施例中,所述特征建模单元100还用于:
对所述第二建模声学特征进行特征提取处理,得到适用于对所述待识别语音的语音帧进行音素分类处理的建模声学特征。
在一些实施例中,在基于待识别语音的声学特征,从模型集合中确定出与所述声学特征适配的建模模型之前,所述特征建模单元100还用于:
对待识别语音的声学特征进行编码处理。
在一些实施例中,所述用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型,包括:
用于对第一类型非唤醒语音的声学特征进行建模的第一非唤醒语音建模模型,以及,用于对第二类型非唤醒语音的声学特征进行建模的第二非唤醒语音建模模型。
在一些实施例中,所述第一类型非唤醒语音包括不包含唤醒词的语音,所述第二类型非唤醒语音包括不包含语音内容的音频。
在一些实施例中,基于所述建模声学特征,从所述待识别语音中识别唤醒语音,包括:
基于所述建模声学特征,对所述待识别语音的语音帧进行音素分类,得到分类结果;
基于所述分类结果,从所述待识别语音中识别唤醒语音。
在一些实施例中,基于所述建模声学特征,对所述待识别语音的语音帧进行音素分类,得到分类结果,包括:
基于所述建模声学特征,对所述待识别语音的每一语音帧分别进行音素单元分类处理,得到分类结果;
其中,所述分类结果包括每一语音帧被分类为音素单元集合中的每一类音素单元的概率,所述音素单元集合中的音素单元类通过对音素单元聚类得到,所述音素单元包括三音素构成的音素单元。
在一些实施例中,基于待识别语音的声学特征,从模型集合中确定出与所述声学特征适配的建模模型,并利用所述建模模型对所述声学特征进行特征建模处理,得到建模声学特征,包括:
将待识别语音的声学特征输入预先训练的声学特征模型,以使所述声学特征模型基于待识别语音的声学特征,从模型集合中确定出与所述声学特征适配的建模模型,并利用所述建模模型对所述声学特征进行特征建模处理,得到建模声学特征;
所述声学特征模型包括模型集合,所述模型集合包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型。
在一些实施例中,所述声学特征模型还包括:
路由模块,用于基于待识别语音的声学特征,从模型集合中确定出与所述声学特征适配的建模模型。
在一些实施例中,所述模型集合包括第一模型集合和第二模型集合,所述第一模型集合和所述第二模型集合均包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型;
所述路由模块包括第一路由模块和第二路由模块,所述第一路由模块用于基于待识别语音的声学特征,从所述第一模型集合中确定出与所述声学特征适配的第一建模模型,以使所述声学特征模型利用所述第一建模模型对所述声学特征进行特征建模处理,得到第一建模声学特征;
所述第二路由模块用于基于所述第一建模声学特征,从所述第二模型集合中确定出与所述第一建模声学特征适配的第二建模模型,以使所述声学特征模型利用所述第二建模模型对所述第一建模声学特征进行特征建模处理,得到第二建模声学特征。
在一些实施例中,所述声学特征模型还包括共享编码器、第一共享特征层和第二共享特征层;
所述共享编码器用于对待识别语音的声学特征进行编码处理;
所述第一共享特征层,用于对所述第一建模声学特征进行特征提取处理,得到适用于被所述第二模型集合中的各个建模模型进行特征建模处理的第一共享建模声学特征;
所述第二共享特征层,用于对所述第二建模声学特征进行特征提取处理,得到适用于对所述待识别语音的语音帧进行音素分类处理的建模声学特征。
在一些实施例中,所述声学特征模型还包括分类层,用于基于所述建模声学特征,对所述待识别语音的语音帧进行音素分类处理。
在一些实施例中,所述用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型,包括:
用于对第一类型非唤醒语音的声学特征进行建模的第一非唤醒语音建模模型,以及,用于对第二类型非唤醒语音的声学特征进行建模的第二非唤醒语音建模模型。
在一些实施例中,所述声学特征模型的训练过程包括:
获取样本语音声学特征,以及与所述样本语音声学特征对应的音素分类标签;
将所述样本语音声学特征输入所述声学特征模型,以使所述第一路由模块按照预设的路由策略从所述第一模型集合中确定出与所述声学特征适配的第一建模模型,并利用所述第一建模模型对所述声学特征进行特征建模处理,得到第一建模声学特征;所述第二路由模块基于所述第一建模声学特征,从所述第二模型集合中确定出与所述第一建模声学特征适配的第二建模模型,并利用所述第二建模模型对所述第一建模声学特征进行特征建模处理,得到第二建模声学特征;基于所述第二建模声学特征,对所述待识别语音的语音帧进行音素分类,得到分类结果;
基于所述分类结果以及所述音素分类标签,计算损失函数,并利用损失函数计算结果至少对所述第一建模模型、所述第二路由模块、所述第二建模模型进行参数调整;
其中,所述预设的路由策略包括输入的声学特征被均匀分配至所述第一模型集合中的各个建模模型进行处理。
本实施例提供的唤醒语音识别装置,与本申请上述实施例所提供的唤醒语音识别方法属于同一申请构思,可执行本申请上述任意实施例所提供的唤醒语音识别方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请上述实施例提供的唤醒语音识别方法的具体处理内容,此处不再加以赘述。
以上的特征建模单元100、唤醒识别单元110所实现的功能可以分别由相同或不同的处理器实现,本申请实施例不作限定。
应理解以上装置中的单元可以以处理器调用软件的形式实现。例如该装置包括处理器,处理器与存储器连接,存储器中存储有指令,处理器调用存储器中存储的指令,以实现以上任一种方法或实现该装置各单元的功能,其中处理器可以为通用处理器,例如CPU或微处理器等,存储器可以为装置内的存储器或装置外的存储器。或者,装置中的单元可以以硬件电路的形式实现,可以通过对硬件电路的设计,实现部分或全部单元的功能,该硬件电路可以理解为一个或多个处理器;例如,在一种实现中,该硬件电路为ASIC,通过对电路内元件逻辑关系的设计,实现以上部分或全部单元的功能;再如,在另一种实现中,该硬件电路可以通过PLD实现,以FPGA为例,其可以包括大量逻辑门电路,通过配置文件来配置逻辑门电路之间的连接关系,从而实现以上部分或全部单元的功能。以上装置的所有单元可以全部通过处理器调用软件的形式实现,或全部通过硬件电路的形式实现,或部分通过处理器调用软件的形式实现,剩余部分通过硬件电路的形式实现。
在本申请实施例中,处理器是一种具有信号的处理能力的电路,在一种实现中,处理器可以是具有指令读取与运行能力的电路,例如CPU、微处理器、GPU、或DSP等;在另一种实现中,处理器可以通过硬件电路的逻辑关系实现一定功能,该硬件电路的逻辑关系是固定的或可以重构的,例如处理器为ASIC或PLD实现的硬件电路,例如FPGA等。在可重构的硬件电路中,处理器加载配置文档,实现硬件电路配置的过程,可以理解为处理器加载指令,以实现以上部分或全部单元的功能的过程。此外,还可以是针对人工智能设计的硬件电路,其可以理解为一种ASIC,例如NPU、TPU、DPU等。
可见,以上装置中的各单元可以是被配置成实施以上方法的一个或多个处理器(或处理电路),例如:CPU、GPU、NPU、TPU、DPU、微处理器、DSP、ASIC、FPGA,或这些处理器形式中至少两种的组合。
此外,以上装置中的各单元可以全部或部分可以集成在一起,或者可以独立实现。在一种实现中,这些单元集成在一起,以SOC的形式实现。该SOC中可以包括至少一个处理器,用于实现以上任一种方法或实现该装置各单元的功能,该至少一个处理器的种类可以不同,例如包括CPU和FPGA,CPU和人工智能处理器,CPU和GPU等。
本申请实施例还提出一种控制装置,该控制装置包括处理器和接口电路,该控制装置中的处理器通过该控制装置的接口电路与音频采集组件连接。
该音频采集组件,具体是指能够采集音频的功能组件,例如麦克风、麦克风阵列等。
上述的接口电路可以是任意的能够实现数据通信功能的接口电路,例如可以是USB接口电路、Type-C接口电路、串口电路、PCIE电路等。
该控制装置中的处理器同样是具有信号处理能力的电路,其通过执行上述实施例中所介绍的任意一种唤醒语音识别方法,从所述音频采集组件中识别唤醒语音。该处理器的具体实现方式可参见上述的处理器实现方式,本申请实施例不作严格限定。
本申请实施例提出一种电子设备,该电子设备包括音频采集组件,以及与音频采集组件连接的处理器。
其中,该音频采集组件用于采集语音数据;
所述处理器,用于通过执行上述任意实施例所述的任意一种唤醒语音识别方法,从所述音频采集组件采集的语音中识别唤醒语音。
上述的音频采集组件可以是麦克风、麦克风阵列等。
上述的处理器的具体处理过程可以参见上述方法实施例的介绍,处理器的具体实现方式,也可以参见上述实施例的介绍。
该电子设备,具体可以是具有语音唤醒功能的终端设备,例如手持终端、可穿戴终端、计算机、智能终端等。
本申请另一实施例还提出一种电子设备,参见图6所示,该设备包括:
存储器200和处理器210;
其中,所述存储器200与所述处理器210连接,用于存储程序;
所述处理器210,用于通过运行所述存储器200中存储的程序,实现上述任一实施例公开的唤醒语音识别方法。
具体的,上述电子设备还可以包括:总线、通信接口220、输入设备230和输出设备240。
处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中:
总线可包括一通路,在计算机系统各个部件之间传送信息。
处理器210可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
处理器210可包括主处理器,还可包括基带芯片、调制解调器等。
存储器200中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器200可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
输入设备230可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
输出设备240可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。
通信接口220可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。
处理器210执行存储器200中所存放的程序,以及调用其他设备,可用于实现本申请上述实施例所提供的任意一种唤醒语音识别方法的各个步骤。
本申请实施例还提出一种芯片,该芯片包括处理器和数据接口,所述处理器通过所述数据接口读取并运行存储器上存储的程序,以执行上述任意实施例所介绍的唤醒语音识别方法,具体处理过程及其有益效果可参见上述的唤醒语音识别方法的实施例介绍。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述任意实施例中描述的唤醒语音识别方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是存储介质,其上存储有计算机程序,计算机程序被处理器执行本说明书上述任意实施例中描述的唤醒语音识别方法中的步骤。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。
本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (19)
1.一种唤醒语音识别方法,其特征在于,包括:
基于待识别语音的声学特征,从模型集合中确定出与所述声学特征适配的建模模型,并利用所述建模模型对所述声学特征进行特征建模处理,得到建模声学特征;所述模型集合包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型;
基于所述建模声学特征,从所述待识别语音中识别唤醒语音。
2.根据权利要求1所述的方法,其特征在于,所述模型集合包括第一模型集合和第二模型集合,所述第一模型集合和所述第二模型集合均包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型;
所述基于待识别语音的声学特征,从模型集合中确定出与所述声学特征适配的建模模型,并利用所述建模模型对所述声学特征进行特征建模处理,得到建模声学特征,包括:
基于待识别语音的声学特征,从所述第一模型集合中确定出与所述声学特征适配的第一建模模型,并利用所述第一建模模型对所述声学特征进行特征建模处理,得到第一建模声学特征;
基于所述第一建模声学特征,从所述第二模型集合中确定出与所述第一建模声学特征适配的第二建模模型,并利用所述第二建模模型对所述第一建模声学特征进行特征建模处理,得到第二建模声学特征。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对所述第一建模声学特征进行特征提取处理,得到适用于被所述第二模型集合中的各个建模模型进行特征建模处理的第一共享建模声学特征;
所述基于所述第一建模声学特征,从第二模型集合中确定出与所述第一建模声学特征适配的第二建模模型,并利用所述第二建模模型对所述第一建模声学特征进行特征建模处理,得到第二建模声学特征,包括:
基于所述第一共享建模声学特征,从第二模型集合中确定出与所述第一共享建模声学特征适配的第二建模模型,并利用所述第二建模模型对所述第一共享建模声学特征进行特征建模处理,得到第二建模声学特征。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对所述第二建模声学特征进行特征提取处理,得到适用于对所述待识别语音的语音帧进行音素分类处理的建模声学特征。
5.根据权利要求3所述的方法,其特征在于,在基于待识别语音的声学特征,从模型集合中确定出与所述声学特征适配的建模模型之前,所述方法还包括:
对待识别语音的声学特征进行编码处理。
6.根据权利要求1至5中任意一项所述的方法,其特征在于,所述用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型,包括:
用于对第一类型非唤醒语音的声学特征进行建模的第一非唤醒语音建模模型,以及,用于对第二类型非唤醒语音的声学特征进行建模的第二非唤醒语音建模模型。
7.根据权利要求6所述的方法,其特征在于,所述第一类型非唤醒语音包括不包含唤醒词的语音,所述第二类型非唤醒语音包括不包含语音内容的音频。
8.根据权利要求1至5中任意一项所述的方法,其特征在于,基于所述建模声学特征,从所述待识别语音中识别唤醒语音,包括:
基于所述建模声学特征,对所述待识别语音的语音帧进行音素分类,得到分类结果;
基于所述分类结果,从所述待识别语音中识别唤醒语音。
9.根据权利要求8所述的方法,其特征在于,基于所述建模声学特征,对所述待识别语音的语音帧进行音素分类,得到分类结果,包括:
基于所述建模声学特征,对所述待识别语音的每一语音帧分别进行音素单元分类处理,得到分类结果;
其中,所述分类结果包括每一语音帧被分类为音素单元集合中的每一类音素单元的概率,所述音素单元集合中的音素单元类通过对音素单元聚类得到,所述音素单元包括三音素构成的音素单元。
10.根据权利要求1所述的方法,其特征在于,基于待识别语音的声学特征,从模型集合中确定出与所述声学特征适配的建模模型,并利用所述建模模型对所述声学特征进行特征建模处理,得到建模声学特征,包括:
将待识别语音的声学特征输入预先训练的声学特征模型,以使所述声学特征模型基于待识别语音的声学特征,从模型集合中确定出与所述声学特征适配的建模模型,并利用所述建模模型对所述声学特征进行特征建模处理,得到建模声学特征;
所述声学特征模型包括模型集合,所述模型集合包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型。
11.根据权利要求10所述的方法,其特征在于,所述声学特征模型还包括:
路由模块,用于基于待识别语音的声学特征,从模型集合中确定出与所述声学特征适配的建模模型。
12.根据权利要求11所述的方法,其特征在于,所述模型集合包括第一模型集合和第二模型集合,所述第一模型集合和所述第二模型集合均包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型;
所述路由模块包括第一路由模块和第二路由模块,所述第一路由模块用于基于待识别语音的声学特征,从所述第一模型集合中确定出与所述声学特征适配的第一建模模型,以使所述声学特征模型利用所述第一建模模型对所述声学特征进行特征建模处理,得到第一建模声学特征;
所述第二路由模块用于基于所述第一建模声学特征,从所述第二模型集合中确定出与所述第一建模声学特征适配的第二建模模型,以使所述声学特征模型利用所述第二建模模型对所述第一建模声学特征进行特征建模处理,得到第二建模声学特征。
13.根据权利要求12所述的方法,其特征在于,所述声学特征模型还包括共享编码器、第一共享特征层和第二共享特征层;
所述共享编码器用于对待识别语音的声学特征进行编码处理;
所述第一共享特征层,用于对所述第一建模声学特征进行特征提取处理,得到适用于被所述第二模型集合中的各个建模模型进行特征建模处理的第一共享建模声学特征;
所述第二共享特征层,用于对所述第二建模声学特征进行特征提取处理,得到适用于对所述待识别语音的语音帧进行音素分类处理的建模声学特征。
14.根据权利要求13所述的方法,其特征在于,所述声学特征模型还包括分类层,用于基于所述建模声学特征,对所述待识别语音的语音帧进行音素分类处理。
15.根据权利要求10至14中任意一项所述的方法,其特征在于,所述用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型,包括:
用于对第一类型非唤醒语音的声学特征进行建模的第一非唤醒语音建模模型,以及,用于对第二类型非唤醒语音的声学特征进行建模的第二非唤醒语音建模模型。
16.根据权利要求12至14中任意一项所述的方法,其特征在于,所述声学特征模型的训练过程包括:
获取样本语音声学特征,以及与所述样本语音声学特征对应的音素分类标签;
将所述样本语音声学特征输入所述声学特征模型,以使所述第一路由模块按照预设的路由策略从所述第一模型集合中确定出与所述声学特征适配的第一建模模型,并利用所述第一建模模型对所述声学特征进行特征建模处理,得到第一建模声学特征;所述第二路由模块基于所述第一建模声学特征,从所述第二模型集合中确定出与所述第一建模声学特征适配的第二建模模型,并利用所述第二建模模型对所述第一建模声学特征进行特征建模处理,得到第二建模声学特征;基于所述第二建模声学特征,对所述待识别语音的语音帧进行音素分类,得到分类结果;
基于所述分类结果以及所述音素分类标签,计算损失函数,并利用损失函数计算结果至少对所述第一建模模型、所述第二路由模块、所述第二建模模型进行参数调整;
其中,所述预设的路由策略包括输入的声学特征被均匀分配至所述第一模型集合中的各个建模模型进行处理。
17.一种唤醒语音识别装置,其特征在于,包括:
特征建模单元,用于基于待识别语音的声学特征,从模型集合中确定出与所述声学特征适配的建模模型,并利用所述建模模型对所述声学特征进行特征建模处理,得到建模声学特征;所述模型集合包括用于对唤醒语音的声学特征进行建模的唤醒语音建模模型,以及用于对非唤醒语音的声学特征进行建模的非唤醒语音建模模型;
唤醒识别单元,用于基于所述建模声学特征,从所述待识别语音中识别唤醒语音。
18.一种电子设备,其特征在于,包括存储器和处理器;
所述存储器与所述处理器连接,用于存储程序;
所述处理器用于通过运行所述存储器中的程序,实现如权利要求1至16中任意一项所述的唤醒语音识别方法。
19.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现如权利要求1至16中任意一项所述的唤醒语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311718263.1A CN118038863A (zh) | 2023-12-13 | 2023-12-13 | 唤醒语音识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311718263.1A CN118038863A (zh) | 2023-12-13 | 2023-12-13 | 唤醒语音识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118038863A true CN118038863A (zh) | 2024-05-14 |
Family
ID=90994056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311718263.1A Pending CN118038863A (zh) | 2023-12-13 | 2023-12-13 | 唤醒语音识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118038863A (zh) |
-
2023
- 2023-12-13 CN CN202311718263.1A patent/CN118038863A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110534099B (zh) | 语音唤醒处理方法、装置、存储介质及电子设备 | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
WO2020247231A1 (en) | Multiple classifications of audio data | |
US7302393B2 (en) | Sensor based approach recognizer selection, adaptation and combination | |
CN112037774B (zh) | 用于关键短语识别的系统和方法 | |
CN111462756B (zh) | 声纹识别方法、装置、电子设备及存储介质 | |
CN106875936B (zh) | 语音识别方法及装置 | |
CN113035231B (zh) | 关键词检测方法及装置 | |
CN113628612A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
US11763801B2 (en) | Method and system for outputting target audio, readable storage medium, and electronic device | |
CN113223560A (zh) | 情绪识别方法、装置、设备及存储介质 | |
CN118173094B (zh) | 结合动态时间规整的唤醒词识别方法、装置、设备及介质 | |
CN115457938A (zh) | 识别唤醒词的方法、装置、存储介质及电子装置 | |
CN116564315A (zh) | 一种声纹识别方法、装置、设备及存储介质 | |
US11437043B1 (en) | Presence data determination and utilization | |
CN112289311B (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
CN111048068B (zh) | 语音唤醒方法、装置、系统及电子设备 | |
CN115132195B (zh) | 语音唤醒方法、装置、设备、存储介质及程序产品 | |
CN118038863A (zh) | 唤醒语音识别方法、装置、电子设备及存储介质 | |
CN115171660A (zh) | 一种声纹信息处理方法、装置、电子设备及存储介质 | |
CN117063229A (zh) | 交互语音信号处理方法、相关设备及系统 | |
CN114566156A (zh) | 一种关键词的语音识别方法及装置 | |
CN114171009A (zh) | 用于目标设备的语音识别方法、装置、设备及存储介质 | |
CN114155882A (zh) | 一种基于语音识别的“路怒”情绪判断方法和装置 | |
CN117223052A (zh) | 基于神经网络的关键词检出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |