CN110444210B

CN110444210B - 一种语音识别的方法、唤醒词检测的方法及装置

Info

Publication number: CN110444210B
Application number: CN201910756837.1A
Authority: CN
Inventors: 高毅; 陈杰; 苏丹; 于蒙; 罗敏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2022-02-08
Anticipated expiration: 2038-10-25
Also published as: CN109192210A; CN109192210B; CN110444210A

Abstract

本申请公开了一种唤醒词检测的方法，该方法应用于人工智能领域，具体可应用于语音识别领域，该方法包括：获取待识别语音信息，待识别语音信息中包含目标字集合，目标字集合由重复的至少两组目标词组成，每组目标词包括至少一个目标字；根据待识别语音信息获取目标语音特征向量；通过语音识别模型确定目标语音特征向量所对应的目标概率分值集合；若目标概率分值集合满足语音唤醒条件，则确定待识别语音信息包含目标唤醒词，目标唤醒词属于唤醒词集合中的一个唤醒词。本申请公开了一种唤醒词检测装置及终端设备。本申请提升叠词式唤醒词的检测性能，具有较高的唤醒率，以及较低的误唤醒率。

Description

一种语音识别的方法、唤醒词检测的方法及装置

本申请为2018年10月25日提交中国专利局、申请号为 201811253171.X、发明名称为“一种语音识别的方法、唤醒词检测的方法及装置”的中国专利申请的分案申请。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音识别的方法、唤醒词检测的方法及装置。

背景技术

随着智能语音设备开始推广，通过语音命令与智能设备进行人机交互已成为重要功能。在语音交互应用中，用户可以通过语音唤醒词来唤醒智能设备，因此智能设备的唤醒词检测性能对人机交互体验具有重大影响。

目前，针对唤醒词检测可以采用基于动态时间弯折(dynamic time warping，DTW)的方法，该方法将语音与预先录制的若干条同一唤醒词的录音进行声学特征的动态匹配，将匹配距离与预先设定的阈值比较，当距离小于阈值时，判断该语音为要检测的唤醒词。

在中文语言应用的场景下，选择叠词作为唤醒词广受用户欢迎，同时选择叠词式唤醒词(例如“腾讯腾讯”)具有良好的唤醒性能，然而，基于目前提供的唤醒词检测方法，尚未针对叠词式唤醒词设计合理的方案，因此，在语音交互设备中，对于叠词式唤醒词的检测而言，其检测性能较差。

发明内容

本申请实施例提供了一种语音识别的方法、唤醒词检测的方法及装置，充分考虑到叠词的发音特征，利用语音识别模型对叠词中的的每个字进行分值计算，只有在分值满足条件的情况下才识别为唤醒词，从而提升叠词式唤醒词的检测性能，具有较高的唤醒率，以及较低的误唤醒率。

有鉴于此，一种语音识别的方法，包括：

获取待识别语音信息，其中，所述待识别语音信息中包含目标字集合，所述目标字集合由重复的至少两组目标词组成，每组目标词包括至少一个目标字；

根据所述待识别语音信息获取目标语音特征向量；

通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合，其中，所述语音识别模型用于输出语音信息中每个字所对应的概率分值，所述目标概率分值集合包括每个目标字所对应的目标概率分值；

若所述目标概率分值集合满足语音唤醒条件，则确定所述待识别语音信息包含目标唤醒词，其中，所述目标唤醒词属于唤醒词集合中的一个唤醒词；

获取所述目标唤醒词所对应的目标语音识别结果；

执行所述目标语音识别结果。

本申请的第二方面提供了一种唤醒词检测的方法，包括：

根据所述待识别语音信息获取目标语音特征向量；

若所述目标概率分值集合满足语音唤醒条件，则确定所述待识别语音信息包含目标唤醒词，其中，所述目标唤醒词属于唤醒词集合中的一个唤醒词。

本申请的第三方面提供了一种唤醒词检测装置，包括：

获取模块，用于获取待识别语音信息，其中，所述待识别语音信息中包含目标字集合，所述目标字集合由重复的至少两组目标词组成，每组目标词包括至少一个目标字；

所述获取模块，还用于根据所述待识别语音信息获取目标语音特征向量；

确定模块，用于通过语音识别模型确定所述获取模块获取的所述目标语音特征向量所对应的目标概率分值集合，其中，所述语音识别模型用于输出语音信息中每个字所对应的概率分值，所述目标概率分值集合包括每个目标字所对应的目标概率分值；

所述确定模块，还用于若所述目标概率分值集合满足语音唤醒条件，则确定所述待识别语音信息包含目标唤醒词，其中，所述目标唤醒词属于唤醒词集合中的一个唤醒词。

本申请的第四方面提供了一种终端设备，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述待识别语音信息获取目标语音特征向量；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请的第五方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种唤醒词检测的方法，首先，唤醒词检测装置获取待识别语音信息，待识别语音信息中包含目标字集合，该目标字集合由重复的至少两组目标词组成，每组目标词包括至少一个目标字，然后根据待识别语音信息获取目标语音特征向量，再通过语音识别模型确定目标语音特征向量所对应的目标概率分值集合，语音识别模型用于输出语音信息中每个字所对应的概率分值，目标概率分值集合包括每个目标字所对应的目标概率分值，如果目标概率分值集合满足语音唤醒条件，那么唤醒词检测装置可以确定待识别语音信息包含目标唤醒词，目标唤醒词属于唤醒词集合中的一个唤醒词。通过上述方式，设计出专用于对叠词进行唤醒词检测的方案，充分考虑到叠词的发音特征，利用语音识别模型对叠词中的的每个字进行分值计算，只有在分值满足条件的情况下才识别为唤醒词，从而提升叠词式唤醒词的检测性能，具有较高的唤醒率，以及较低的误唤醒率。

附图说明

图1A为本申请实施例中唤醒词检测系统的一个架构示意图；

图1B为本申请实施例中唤醒词检测逻辑的一个框架示意图；

图2为本申请实施例中语音识别的方法一个实施例示意图；

图3为本申请实施例中唤醒词检测的方法一个实施例示意图；

图4为本申请实施例中基于叠词的语音识别模型一个结构示意图；

图5为本申请应用场景中检测唤醒词的一个流程示意图；

图6为本申请实施例中概率分值的一个实施例示意图；

图7为本申请实施例中平滑分值的一个实施例示意图；

图8为本申请实施例中唤醒词检测装置一个实施例示意图；

图9为本申请实施例中唤醒词检测装置另一个实施例示意图；

图10为本申请实施例中唤醒词检测装置另一个实施例示意图；

图11为本申请实施例中唤醒词检测装置另一个实施例示意图；

图12为本申请实施例中终端设备一个结构示意图。

具体实施方式

本申请实施例提供了一种语音识别的方法、唤醒词检测的方法及装置，充分考虑到叠词的发音特征，利用语音识别模型对叠词中的的每个字进行分值计算，只有在分值满足条件的情况下才识别为唤醒词，从而提升对于叠词式唤醒词进行检测的性能，具有较高的唤醒率，以及较低的误唤醒率。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请主要用于人机交互场景，具体为语音交互场景。语音交互创造了全新的伴随式场景，比如说早晨起床后我们可以一边洗刷一遍听广播，晚上跑步的同时还可以听音乐，语音交互解放了人的手和眼睛，通过语音交互我们可以做到“一心二用”，这极大的提高了我们在某些场景下的效率，语音交互充分抓住了人类不方便使用手和眼睛的场景。另外随着智能设备影响的扩大，用户群逐步向老龄人群、低龄人群以及身体残障人群渗透扩散的趋势非常明显，而对这些新进入人群而言，原有的触控交互方式或许并不太适合，用户习惯也未形成，例如老年人视力下降、手指也不够灵活；低龄儿童还不能掌握手写等能力也不适合长时间看电子屏幕；弱视或盲人更希望接受语音信息和发出语音指令，因此语音交互也更适合拓展智能设备新的用户人群。

语音交互还具有很多优点，比如交互速度快(通过图形交互界面设置一个闹钟可能需要3分钟，而语音交互下只需要30秒)，操作简单(释放双手，不需要去繁琐的打开应用程序，只需先找到一首歌，然后点击播放，可以一边看书，一边说“放音乐”或者“下一首”)，个性化定制(可以根据之前的背景，理解问题)，成本较低(需要麦克风，扬声器，处理器等，而这些设备的相对低价，提供了唤醒万物的前提)。

语音交互场景包含但不仅限于家里(比如通过语音控制家居)，车上(相比操作手机的不安全性，语音交互也具有绝对的优势)以及路上(在习惯了埋头看手机走路后，能够一边语音控制播放歌曲或者查收邮件)。

基于语音交互的智能设备已经实用化，在诸如家电、汽车以及手机等设备上已经有广泛应用，其中，很多设备都具有语音唤醒功能，用于屏幕解锁或者作为启动应用的辅助手段。其中，语音唤醒是这样一项技术，当设备处于待机状态时，在非常低的功耗条件下，在后台不间断运行一个装置，对某个预先定义的唤醒词进行检测，当检测到用户说出这个词时，将该设备唤醒，从而使得该设备进入正常工作状态。

本申请采用语音技术对唤醒词进行识别和检测，其中，语音技术(SpeechTechnology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS) 以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

请参阅图1A，图1A为本申请实施例中唤醒词检测系统的一个架构示意图，如图所示，用户可以通过终端设备的麦克风输入一段语音，语音交互设备接收终端设备发送的语音之后，采用语音识别模型对该语音进行评分，其中，这里的语音识别模型是专用于识别叠词的网络模型，最后根据叠词中每个字的得分确定是否满足唤醒条件，若满足，则唤醒该语音交互设备。

需要说明的是，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机以及个人电脑(personal computer，PC)，此处不做限定。本申请所提供的唤醒词检测装置部署于语音交互设备，其中，语音交互设备包含但不仅限于智能音响以及智能家电。语音交互设备还具有如下特点：

1、网络化功能，各种语音交互设备可以通过局域网连接到一起，还可以通过家庭网关接口同制造商的服务站点相连，最终可以同互联网相连，实现信息的共享。

2、智能化，语音交互设备可以根据周围环境的不同自动做出响应，不需要人为干预。

3、开放性以及兼容性，由于用户的语音交互设备可能来自不同的厂商，语音交互设备需要具有开发性和兼容性。

4、节能化，智能家电可以根据周围环境自动调整工作时间以及工作状态，从而实现节能。

5、易用性，由于复杂的控制操作流程已由内嵌在语音交互设备中的控制器解决，因此用户只需了解非常简单的操作。语音交互设备并不是单指某一个设备，而应是一个技术系统，随着人类应用需求和语音交互设备智能化的不断发展，其内容将会更加丰富，根据实际应用环境的不同语音交互设备的功能也会有所差异，但一般应具备智能控制技术。

请参阅图1B，图1B为本申请实施例中唤醒词检测逻辑的一个框架示意图，下面将结合图1B对唤醒词检测进行介绍。

步骤S1中，从音频采集设备采集语音数字信号，并转换成语音特征向量，例如，通过麦克风采集16千赫兹采样率的数字语音流，在数字信号处理器或者中央处理器(CentralProcessing Unit，CPU)中通过特征提取器计算当前时刻一帧语音数据的特征向量；

步骤S2中，将一帧或者连续多帧语音的特征向量拼接组合成更大的特征向量，作为当前时刻语音识别模型的输入特征向量。其中，语音识别模型为预先训练好的声学模型；

步骤S3中，通过语音识别模型输出各个输出节点(包括各个唤醒字输出节点以及一个非唤醒字输出节点)计算得到的概率分值，并且根据概率分值计算得到叠词的置信度；

步骤S4中，如果置信度达到预设门限，则根据决策逻辑确定该叠词可以唤醒语音交互设备，而如果置信度未达到预设门限，则根据决策逻辑确定该叠词不属于唤醒词。

语音识别的主要步骤包括：(1)预处理模块：对输入的原始语音信号进行处理，滤除掉其中的不重要的信息以及背景噪声，并进行相关变换处理。(2) 特征提取：提取出反映语音信号特征的关键特征参数形成特征矢量序列，常用的是由频谱衍生出来的梅尔频率倒谱系数。典型地，用长度约为10ms的帧去分割语音波形，然后从每帧中提取出梅尔频率倒谱系数特征，用特征向量来表示。(3)声学模型训练：根据训练语音库的特征参数训练出声学模型参数，识别时将待识别的语音的特征参数同声学模型进行匹配，得到识别结果。 (4)语言模型训练：语言建模能够有效的结合汉语语法和语义的知识，描述词之间的内在关系，从而提高识别率，减少搜索范围。对训练文本数据库进行语法以及语义分析，经过基于统计模型训练得到语言模型。(5)语音解码：即指语音技术中的识别过程。针对输入的语音信号，根据已经训练好的声学模型、语言模型及字典建立一个识别网络，根据搜索算法在该网络中寻找最佳的一条路径，这个路径就是能够以最大概率输出该语音信号的词串。

下面将对本申请中唤醒词检测的应用方法进行介绍，请参阅图2，本申请实施例中语音识别的方法一个实施例包括：

步骤A1、获取待识别语音信息，其中，待识别语音信息中包含目标字集合，目标字集合由重复的至少两组目标词组成，每组目标词包括至少一个目标字；

步骤A2、根据待识别语音信息获取目标语音特征向量；

步骤A3、通过语音识别模型确定目标语音特征向量所对应的目标概率分值集合，其中，语音识别模型用于输出语音信息中每个字所对应的概率分值，目标概率分值集合包括每个目标字所对应的目标概率分值；

步骤A4、若目标概率分值集合满足语音唤醒条件，则确定待识别语音信息包含目标唤醒词，其中，目标唤醒词属于唤醒词集合中的一个唤醒词；

步骤A5、获取目标唤醒词所对应的目标语音识别结果；

步骤A6、执行目标语音识别结果。

本实施例中，基于上述步骤A1至A6，本申请所提供的语音识别方法具体可以应用于智能音箱、智能助理以及智能问答设备等。以智能音箱为例，当用户向智能音箱发出语音指令时，该智能音箱即可通过输入设备获取该语音指令，语音指令包括待识别语音信息，假设该信息为“小腾小腾快开机”，那么可以识别得到目标字集合为“小腾小腾”。接下来对“小腾小腾”中的第一个“小”字、第一个“腾”字、第二个“小”字和第二个“腾”字分别得到目标语音特征向量，将这四个目标字所对应的目标语音特征向量输入至语音识别模型后，可输出相应的目标概率分值集合。在确定目标概率分值集合满足语音唤醒条件时，确定用户触发的语音指令中携带了目标唤醒词，于是，智能音箱会按照该目标唤醒词进行开启。

以智能助理为例，用户还可以发出其他包含叠词的语音指令，比如“天气天气怎么样”，那么智能助理会按照目标唤醒词播报天气情况。以智能问答设备为例，用户也可以发出其他包含叠词的语音指令，比如，“时间时间”，那么智能问答设备可以播报当前的时间。又比如“外卖外卖”，那么智能问答设备可以提供附近可选的外卖商户。

下面将从唤醒词检测装置的角度，对本申请中唤醒词检测的方法进行介绍，请参阅图3，本申请实施例中唤醒词检测的方法一个实施例包括：

101、获取待识别语音信息，其中，待识别语音信息中包含目标字集合，目标字集合由重复的至少两组目标词组成，每组目标词包括至少一个目标字；

本实施例中，部署于语音交互设备的唤醒词检测装置通过输入模块获取待识别语音信息，其中，输入模块通常是指麦克风。待识别语音信息是指用户通过麦克风输入的语音，且待识别语音信息中包含目标字集合，目标字集合由重复的至少两组目标词(比如每组目标词为“腾讯”)组成，每组目标词包括至少一个目标字(比如目标字为“腾”和“讯”)。例如，待识别语音信息为“腾讯腾讯快启动”，这里的目标字集合包括“腾”、“讯”、“腾”、“讯”、“快”、“启”以及“动”，即包括两组目标词，一组目标词即为“腾讯”，目标字分别为“腾”和“讯”。即满足叠词的要求。对于非叠词的情况，本申请实施例中不作具体介绍。

需要说明的是，叠词包含但不仅限于ABAB的形式，还可以包括AABB的形式以及ABCABC的形式等，本实施例将以ABAB的形式为例进行介绍，然而这并不构成对本申请的限定。

102、根据待识别语音信息获取目标语音特征向量；

本实施例中，在数字信号处理器或者CPU中通过特征提取器计算待识别语音信息中每一帧所对应的特征向量，即得到整个待识别语音信息的目标语音特征向量。其中，目标语音特征向量可以是静态滤波器网络(Filter Bank。 Fbank)特征向量，也可以是动态Fbank特征向量，又或者是静态Fbank特征向量与动态Fbank特征向量的结合。人耳对声音频谱的响应是非线性的，经验表明如果我们能够设计一种前端处理算法，以类似于人耳的方式对音频进行处理，可以提高语音识别的性能。Fbank分析就是这样的一种算法。FBank 特征向量提取要在预处理之后进行，这时待识别语音信息已经分帧，我们需要逐帧提取FBank特征向量。

假设滤波带的输出为40维向量，那么静态Fbank特征向量即为40维。而动态Fbank特征向量是指对多帧语音信息做一阶差分得到动态Fbank特征向量为40维，或者进一步做二阶差分处理得到动态Fbank特征向量为80维(一阶差分40维加上二阶差分40维)。

103、通过语音识别模型确定目标语音特征向量所对应的目标概率分值集合，其中，语音识别模型用于输出语音信息中每个字所对应的概率分值，目标概率分值集合包括每个目标字所对应的目标概率分值；

本实施例中，在得到待识别语音信息所对应的目标语音特征向量之后，可以将待识别语音信息中一帧或者连续多帧所对应的特征向量进行拼接，从而组合成更大的特征向量作为当前时刻语音识别模型的输入。为了便于理解，请参阅图4，图4为本申请实施例中基于叠词的语音识别模型一个结构示意图，如图所示，对于叠词“腾讯腾讯”而言，由于其中只包含两个相同的目标字——“腾”和“讯”，因此，语音识别模型的网络结构如图4所示，将目标语音特征向量输入至语音识别模型之后输出“腾”的目标概率分值和“讯”的目标概率分值，这些概率分值统称为目标概率分值集合。

其中，语音识别模型是预先训练好的声学模型，该语音识别模型包含但不仅限于基于混合高斯模型(Gauss of mixture models，GMM)-隐马尔科夫模型(Hidden MarkovModel，HMM)，深度神经网络(Deep Neural Networks， DNN)模型，卷积神经网络(Convolutional Neural Network，CNN)模型以及长短期记忆网络(Long Short-TermMemory，LSTM)中的至少一种所构成的声学模型。语音识别模型的输入为特征提取得到的目标语音特征向量，输出为各个输出节点(包括目标字的输出节点以及一个非目标字的输出节点) 计算得到的目标概率分值。

图4所示的语音识别模型是基于DNN建立的，对语音识别模型的训练首先可以利用大量训练语料进行模型预训练，然后采用与实际使用场景更匹配的训练语料数据进行模型调优。神经网络是基于感知机的扩展，而DNN可以理解为有很多隐藏层的神经网络。多层神经网络和深度神经网络DNN其实也是指的一个东西，DNN有时也叫做多层感知机(Multi-Layer perceptron，MLP)。从DNN按不同层的位置划分，DNN内部的神经网络层可以分为三类，输入层，隐藏层和输出层，一般来说第一层是输入层，最后一层是输出层，而中间的层数都是隐藏层。

(1)加入了隐藏层，隐藏层可以有多层，增强模型的表达能力，增加多个隐藏层的模型复杂度也随之增加。

(2)输出层的神经元也可以不止一个输出，可以有多个输出，这样模型可以灵活的应用于分类回归，以及其他的机器学习领域比如降维和聚类等。

(3)对激活函数做扩展，虽然简单但是处理能力有限，因此神经网络中一般使用的其他的激活函数，比如在逻辑回归里面使用过的Sigmoid函数。

此外，CNN也可用于生成语音识别模型，CNN是一种前馈神经网络，人工神经元可以响应周围单元，可以进行大型图像处理。卷积神经网络包括卷积层和池化层。一般地，CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的Sigmoid 函数作为卷积网络的激活函数，使得特征映射具有位移不变性。

GMM-HMM中的GMM是指给出一堆观察序列(可以是多维的可以是一维的)，用几个高斯函数模拟一个模型，这个模型产生这些观察序列的概率最大，其中组合在一起的每个高斯函数都有一个权重设为Pi，所有Pi的和是1.那么通过学习方法把所有高斯函数的参数都给学习出来。高斯函数的限定只有两个参数[mu，sigma]，mu是中心点也就是均值，sigma代表了高斯函数的胖瘦，还有一个参数就是权重Pi。当模型搭建好了，可以得出每个高斯函数的概率。 GMM也是一个聚类过程，几个高斯函数就是几个中心。学习过程就是训练聚类的训练过程。HMM是隐马尔科夫模型，是在不知道实际状态变化过程的情况下可以看到观察序列。

LSTM是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。一个单元(cell)当中被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中，可以根据规则来判断是否有用。只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。LSTM是解决长序依赖问题的有效技术，并且这种技术的普适性非常高，导致带来的可能性变化非常多。

104、若目标概率分值集合满足语音唤醒条件，则确定待识别语音信息包含目标唤醒词，其中，目标唤醒词属于唤醒词集合中的一个唤醒词。

本实施例中，如果每个目标字对应的目标概率分值均满足语音唤醒条件，则唤醒词检测装置确定待识别语音信息包含目标唤醒词。这里的目标唤醒词属于唤醒词集合中的一个唤醒词。

这是因为一个语音交互设备会提前设置一个唤醒词集合，比如“腾讯腾讯”，“点亮点亮”以及“关机关机”等唤醒词，因此，将目标字集合与唤醒词集合中的唤醒词进行匹配，匹配成功，即确定该目标唤醒词，并可以执行与该目标唤醒词相应的动作(比如启动设备或者关闭设备等)。

本申请实施例中，提供了一种唤醒词检测的方法，首先，唤醒词检测装置获取待识别语音信息，待识别语音信息中包含目标字集合，目标字集合由重复的至少两组目标词组成，每组目标词包括至少一个目标字，然后根据待识别语音信息获取目标语音特征向量，再通过语音识别模型确定目标语音特征向量所对应的目标概率分值集合，语音识别模型用于输出语音信息中每个字所对应的概率分值，目标概率分值集合包括每个目标字所对应的目标概率分值，如果目标概率分值集合满足语音唤醒条件，那么唤醒词检测装置可以确定待识别语音信息包含目标唤醒词，目标唤醒词属于唤醒词集合中的一个唤醒词。通过上述方式，设计出专用于对叠词进行唤醒词检测的方案，充分考虑到叠词的发音特征，利用语音识别模型对叠词中的的每个字进行分值计算，只有在分值满足条件的情况下才识别为唤醒词，从而提升叠词式唤醒词的检测性能，具有较高的唤醒率，以及较低的误唤醒率。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供唤醒词检测的方法第一个可选实施例中，待识别语音信息中还包括非目标字集合，非目标字集合包含至少一个非目标字；

根据待识别语音信息获取目标语音特征向量之后，还可以包括：

通过语音识别模型确定目标语音特征向量所对应的非目标概率分值，其中，非目标概率分值为非目标字集合的概率分值。

本实施例中，将结合附图说明语音识别模型对待识别语音信息中各个字的处理方式。请参阅图4，图4为本申请实施例中基于叠词的语音识别模型一个结构示意图，如图所示，该语音识别模型为基于DNN的网络模型，其网络结构包含输入层、隐藏层和输出层。图4中的输入层有三个节点，需要说明的是，实际使用中输入节点数由特征向量包含的元素个数确定。例如，输入的动态Fbank特征向量有40维，静态Fbank特征向量有40维，即目标语音特征向量为80维，那么根据目标语音特征向量的维度可以确定输入节点个数也为80个，一个节点对应于一个维度。

图4中的隐藏层有三层网络，每层隐藏层包含四个节点，实际使用中，隐藏层层数可以是1到L，L为大于1的正整数，一般为1到200之间。而每层的节点数K为大于1的正整数，一般取2到5000，根据训练数据大小和系统资源情况取不同值。

图4中的输出层包含P个输出节点，分别计算待识别语音信息中的(P-1) 个目标字的目标概率分值，以及一个非目标字所对应的目标概率分值。图4 中所示的目标字为“腾讯腾讯”这样的叠词，其中包含“腾”和“讯”两个目标字，所以输出层有3个节点，其中的2个节点对应于“腾”和“讯”2个目标字，另一个节点对应于所有非目标字发音的信号帧(比如其他的字或者是噪声等)。输出层经过softmax运算之后所有输出节点得到的概率分值之和等于1。如果当前语音帧是属于某一目标字时间段内的语音信号，则对应这一目标字的输出节点计算得到的目标概率分值接近于1，而其它输出节点计算得到的非目标概率分值接近于0。

其次，本申请实施例中，待识别语音信息中还包括非目标字集合，非目标字集合包含至少一个非目标字，唤醒词检测装置还可以通过语音识别模型确定目标语音特征向量所对应的非目标概率分值，其中，非目标概率分值为非目标字集合的概率分值。通过上述方式，对于用户输入的待识别语音信息而言，除了包括目标字以外，非目标字的出现也是不可少的，因此，语音识别模型对非目标字的处理具有可行性和实用性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供唤醒词检测的方法第二个可选实施例中，获取待识别语音信息，可以包括：

从待识别语音信息中提取第一语音帧，其中，第一语音帧包括至少一个子语音帧；

根据待识别语音信息获取目标语音特征向量，包括：

根据第一语音帧生成第一语音特征向量；

通过语音识别模型确定目标语音特征向量所对应的目标概率分值集合，可以包括：

通过语音识别模型确定第一语音特征向量所对应的第一概率分值；

通过语音识别模型确定目标语音特征向量所对应的目标概率分值集合之后，还可以包括：

若第一概率分值达到预设概率值门限，则确定第一语音帧属于第一目标字所在时间段内的语音信号，其中，第一目标字为目标字集合中的一个目标字；

若第一概率分值未达到预设概率值门限，则执行获取待识别语音信息的步骤。

本实施例中，在确定目标字的过程中需要结合待识别语音信息中的各个语音帧来检测，这是因为语音信息通常是由一帧一帧的语音组成的，因此，在识别目标字的过程中可对每帧语音进行识别，从而确定出目标字。

具体地，下面将结合图5对检测目标字的流程进行介绍，请参阅图5，图 5为本申请应用场景中检测唤醒词的一个流程示意图，如图所示，基于概率分值(或者平滑处理后得到的平滑分值)具有五种状态，以“腾讯腾讯”为例，五种状态分别为：非目标字状态，处于第一个“腾”的状态、处于第一个“讯”的状态、处于第二个“腾”的状态、处于第二个“讯”的状态。当依次遍历上述五个状态并满足唤醒条件之后，即可表示检测到了唤醒词。状态转换逻辑检测唤醒词的一种实施例如下为：

步骤201中，判断当前时刻所处的状态，在初始化的情况下处于非目标字状态，这个状态下往往还没有进入字的阶段，通常是静音阶段或者杂音阶段。而待识别语音信息分为多个语音帧，以第一语言帧为例，首先提取该第一语言帧的第一语音特征向量，第一语音特征向量输入至语音识别模型之后可以得到第一概率分值。

步骤202中，如果检测到的第一概率分值达到预设概率值门限，那么可以确定第一语音帧属于第一目标字(即“腾”字)所在时间段内的语音信号，且这个时候下一个目标字(即“讯”字)的概率分值未达到预设概率值门限。在进入第一个“腾”的状态，并且开始启动计时器(例如500毫秒，这个时间是可以根据语速进行设定和调整的)，跟踪记录第一目标字(即第一个“腾”字)的最大得分，保存记录的第一个“腾”的最大得分T1_max，在计时器结束结束后返回非目标字状态。

如果检测到的第一概率分值未达到预设概率值门限，则继续获取待识别语音信息中的下一帧语音，即获取第二语音帧进行处理。

其次，本申请实施例中，介绍了一种如何识别叠词中第一个目标字的方式，即唤醒词检测装置先从待识别语音信息中提取第一语音帧，然后根据第一语音帧生成第一语音特征向量，再通过语音识别模型确定第一语音特征向量所对应的第一概率分值，如果第一概率分值达到预设概率值门限，则确定第一语音帧属于第一目标字所在时间段内的语音信号，其中，第一目标字为目标字集合中的一个目标字，反之，如果第一概率分值未达到预设概率值门限，则再次从待识别语音信息中提取下一个语音帧进行处理。通过上述方式，对待识别语音信息中的每个语音帧进行处理，从而确定该语音帧是否属于目标字所在时间段内的语音信号，由此，提升了目标字识别的准确度。

可选地，在上述图3对应的第二个实施例的基础上，本申请实施例提供唤醒词检测的方法第三个可选实施例中，执行获取待识别语音信息的步骤，可以包括：

从待识别语音信息中提取第二语音帧，其中，第二语音帧包括至少一个子语音帧；

根据待识别语音信息获取目标语音特征向量，包括：

根据第二语音帧生成第二语音特征向量；

通过语音识别模型确定第二语音特征向量所对应的第二概率分值；

若第二概率分值达到预设概率值门限，则确定第二语音帧属于第二目标字所在时间段内的语音信号，其中，第二目标字为第一目标字之后相邻的一个目标字；

若第二概率分值未达到预设概率值门限，则执行获取待识别语音信息的步骤。

具体地，下面将结合图5对检测目标字的流程进行介绍，请继续参阅图5，图5为本申请应用场景中检测唤醒词的一个流程示意图，如图所示，基于概率分值(或者平滑处理后得到的平滑分值)具有五种状态，以“腾讯腾讯”为例，五种状态分别为：非目标字状态，处于第一个“腾”的状态、处于第一个“讯”的状态、处于第二个“腾”的状态、处于第二个“讯”的状态。当依次遍历上述五个状态并满足唤醒条件之后，即可表示检测到了唤醒词。基于图3对应的第二个实施例的基础上，下面将继续介绍如何确定下一个目标字。

步骤203中，以第二语言帧为例，首先提取该第二语言帧的第二语音特征向量，第二语音特征向量输入至语音识别模型之后可以得到第二概率分值。

如果检测到的第二概率分值达到预设概率值门限，那么可以确定第二语音帧属于第二目标字(即“讯”字)所在时间段内的语音信号，且这个时候下一个目标字(即“腾”字)的概率分值未达到预设概率值门限。在进入第一个“讯”的状态，并且开始启动计时器(例如500毫秒，这个时间是可以根据语速进行设定和调整的)，跟踪记录第二目标字(即第一个“讯”字)的最大得分，保存记录的第一个“讯”的最大得分X1_max，在计时器结束结束后返回非目标字状态。

如果检测到的第二概率分值未达到预设概率值门限，则继续获取待识别语音信息中的下一帧语音，即获取第三语音帧进行处理。

再次，本申请实施例中，介绍了一种如何识别叠词中第二个目标字的方式，即唤醒词检测装置先从待识别语音信息中提取第二语音帧，然后根据第二语音帧生成第二语音特征向量，再通过语音识别模型确定第二语音特征向量所对应的第二概率分值，如果第二概率分值达到预设概率值门限，则确定第二语音帧属于第二目标字所在时间段内的语音信号，其中，第二目标字为目标字集合中的二个目标字，反之，如果第二概率分值未达到预设概率值门限，则再次从待识别语音信息中提取下一个语音帧进行处理。通过上述方式，对待识别语音信息中的每个语音帧进行处理，从而确定该语音帧是否属于目标字所在时间段内的语音信号，由此，提升了目标字识别的准确度。

可选地，在上述图3对应的第三个实施例的基础上，本申请实施例提供唤醒词检测的方法第四个可选实施例中，执行获取待识别语音信息的步骤，可以包括：

从待识别语音信息中提取第三语音帧，其中，第三语音帧包括至少一个子语音帧；

根据待识别语音信息获取目标语音特征向量，包括：

根据第三语音帧生成第三语音特征向量；

通过语音识别模型确定第三语音特征向量所对应的第三概率分值；

若第三概率分值达到预设概率值门限，则确定第三语音帧属于第三目标字所在时间段内的语音信号，其中，第三目标字为第二目标字之后相邻的一个目标字；

若第三概率分值未达到预设概率值门限，则执行获取待识别语音信息的步骤。

具体地，下面将结合图5对检测目标字的流程进行介绍，请继续参阅图5，图5为本申请应用场景中检测唤醒词的一个流程示意图，如图所示，基于概率分值(或者平滑处理后得到的平滑分值)具有五种状态，以“腾讯腾讯”为例，五种状态分别为：非目标字状态，处于第一个“腾”的状态、处于第一个“讯”的状态、处于第二个“腾”的状态、处于第二个“讯”的状态。当依次遍历上述五个状态并满足唤醒条件之后，即可表示检测到了唤醒词。基于图3对应的第二个实施例以及第三个实施例的基础上，下面将继续介绍如何确定下一个目标字。

步骤204中，以第三语言帧为例，首先提取该第三语言帧的第三语音特征向量，第三语音特征向量输入至语音识别模型之后可以得到第三概率分值。

如果检测到的第三概率分值达到预设概率值门限，那么可以确定第三语音帧属于第三目标字(即“腾”字)所在时间段内的语音信号，且这个时候下一个目标字(即“讯”字)的概率分值未达到预设概率值门限。在进入第二个“腾”的状态，并且开始启动计时器(例如500毫秒，这个时间是可以根据语速进行设定和调整的)，跟踪记录第三目标字(即第二个“腾”字)的最大得分，保存记录的第二个“腾”的最大得分T2_max，在计时器结束结束后返回非目标字状态。

如果检测到的第三概率分值未达到预设概率值门限，则继续获取待识别语音信息中的下一帧语音，即获取第四语音帧进行处理。

进一步地，本申请实施例中，介绍了一种如何识别叠词中第三个目标字的方式，即唤醒词检测装置先从待识别语音信息中提取第三语音帧，然后根据第三语音帧生成第三语音特征向量，再通过语音识别模型确定第三语音特征向量所对应的第三概率分值，如果第三概率分值达到预设概率值门限，则确定第三语音帧属于第三目标字所在时间段内的语音信号，其中，第三目标字为目标字集合中的三个目标字，反之，如果第三概率分值未达到预设概率值门限，则再次从待识别语音信息中提取下一个语音帧进行处理。通过上述方式，对待识别语音信息中的每个语音帧进行处理，从而确定该语音帧是否属于目标字所在时间段内的语音信号，由此，提升了目标字识别的准确度。

可选地，在上述图3对应的第四个实施例的基础上，本申请实施例提供唤醒词检测的方法第五个可选实施例中，执行获取待识别语音信息的步骤，可以包括：

从待识别语音信息中提取第四语音帧，其中，第四语音帧包括至少一个子语音帧；

根据待识别语音信息获取目标语音特征向量，包括：

根据第四语音帧生成第四语音特征向量；

通过语音识别模型确定第四语音特征向量所对应的第四概率分值；

若第四概率分值达到预设概率值门限，则确定第四语音帧属于第四目标字所在时间段内的语音信号，其中，第四目标字为第三目标字之后相邻的一个目标字；

若第四概率分值未达到预设概率值门限，则执行获取待识别语音信息的步骤。

具体地，下面将结合图5对检测目标字的流程进行介绍，请继续参阅图5，图5为本申请应用场景中检测唤醒词的一个流程示意图，如图所示，基于概率分值(或者平滑处理后得到的平滑分值)具有五种状态，以“腾讯腾讯”为例，五种状态分别为：非目标字状态，处于第一个“腾”的状态、处于第一个“讯”的状态、处于第二个“腾”的状态、处于第二个“讯”的状态。当依次遍历上述五个状态并满足唤醒条件之后，即可表示检测到了唤醒词。基于图3对应的第二个实施例、第三个实施例以及第四个实施例的基础上，下面将继续介绍如何确定下一个目标字。

步骤205中，以第四语言帧为例，首先提取该第四语言帧的第四语音特征向量，第四语音特征向量输入至语音识别模型之后可以得到第四概率分值。

如果检测到的第四概率分值达到预设概率值门限，那么可以确定第四语音帧属于第四目标字(即“讯”字)所在时间段内的语音信号，且这个时候下一个目标字(即“讯”字)的概率分值未达到预设概率值门限。在进入第二个“讯”的状态，并且开始启动计时器(例如500毫秒，这个时间是可以根据语速进行设定和调整的)，跟踪记录第四目标字(即第二个“讯”字)的最大得分，保存记录的第二个“讯”的最大得分X2_max，在计时器结束结束后返回非目标字状态。

如果检测到的第四概率分值未达到预设概率值门限，则可以继续获取待识别语音信息中的下一帧语音。

步骤206中，如果叠词为“腾讯腾讯”，在检测到这四个目标字之后即进入非目标字状态。

步骤207中，如果T1_max、X1max、T2max和X2max四个数的乘积大于预设唤醒概率门限，则声明检测到唤醒词。

更进一步地，本申请实施例中，介绍了一种如何识别叠词中第四个目标字的方式，即唤醒词检测装置先从待识别语音信息中提取第四语音帧，然后根据第四语音帧生成第四语音特征向量，再通过语音识别模型确定第四语音特征向量所对应的第四概率分值，如果第四概率分值达到预设概率值门限，则确定第四语音帧属于第四目标字所在时间段内的语音信号，其中，第四目标字为目标字集合中的四个目标字，反之，如果第四概率分值未达到预设概率值门限，则再次从待识别语音信息中提取下一个语音帧进行处理。通过上述方式，对待识别语音信息中的每个语音帧进行处理，从而确定该语音帧是否属于目标字所在时间段内的语音信号，由此，提升了目标字识别的准确度。

可选地，在上述图3以及图3对应的第一个至第五个实施例中任一项的基础上，本申请实施例提供唤醒词检测的方法第六个可选实施例中，通过语音识别模型确定目标语音特征向量所对应的目标概率分值集合之后，还可以包括：

若第一语音帧属于第一目标字所在时间段内的语音信号，则根据第一语音帧确定第一语音时刻；

根据平滑窗宽度、第一语音时刻以及第一概率分值计算第一平滑分值；

若第二语音帧属于第二目标字所在时间段内的语音信号，则根据第二语音帧确定第二语音时刻；

根据平滑窗宽度、第二语音时刻以及第二概率分值计算第二平滑分值。

本实施例中，在唤醒词检测装置获取到目标概率分值集合之后，还需要对目标字所对应的目标概率分值进行平滑处理。为了便于介绍，请参阅图 6，图6为本申请实施例中概率分值的一个实施例示意图，如图所示，在用户说“腾讯腾讯”之后，语音识别模型输出节点的目标概率分值得分类似于图6中的曲线N2、N3、N4以及N5，其中，一条曲线对应于一个目标字，即第一个“腾”对应的是曲线N2，第一个“讯”对应的是曲线N3，第二个“腾”对应的是曲线N4，第二个“讯”对应的是曲线N5。而N1和N6表示非目标字的曲线。图6中的纵坐标表示概率分值，横坐标表示时间点，假设每10毫秒记录一次的话，横坐标20的地方即表示第200毫秒的时刻。

接下来，唤醒词检测装置判断第一语音帧是否属于第一目标字所在时间段内的语音信号，其中，假设每10毫秒记录一次，第一语言帧可以是第20 帧，而第一目标字的语音信号正在第20帧处出现，那么根据第一语言帧即可确定第一语音时刻为200毫秒。根据根据平滑窗宽度、第一语音时刻以及第一概率分值计算第一平滑分值，该第一平滑分值即为一个目标字的平滑分值。类似地，唤醒词检测装置继续判断第二语音帧是否属于第二目标字所在时间段内的语音信号，其中，假设每10毫秒记录一次，第二语言帧可以是第40 帧，而第二目标字的语音信号正在第40帧处出现，那么根据第二语言帧即可确定第二语音时刻为400毫秒。根据根据平滑窗宽度、第二语音时刻以及第二概率分值计算第二平滑分值，该第二平滑分值即为另一个目标字的平滑分值。

为了便于介绍，请参阅图7，图7为本申请实施例中平滑分值的一个实施例示意图，如图所示，将“腾”和“讯”的概率分值进行平滑处理得到如图7 所示的结果，其中，一条曲线对应于一个目标字，即第一个“腾”对应的是曲线M1，第一个“讯”对应的是曲线M2，第二个“腾”对应的是曲线M3，第二个“讯”对应的是曲线M4，曲线的峰值即记为平滑分值。

平滑滤波是低频增强的时间域滤波技术。它的目的有两类：一类是模糊，另一类是消除噪音。时间域的平滑滤波一般采用简单平均法进行，就是求邻近采样点的平均幅度值。邻域的大小与平滑的效果直接相关，邻域越大平滑的效果越好，但邻域过大，平滑会使信号随时间变化信息损失的越大，因此需合理选择邻域的大小。

再进一步地，本申请实施例中，在唤醒词检测装置通过语音识别模型确定目标语音特征向量所对应的目标概率分值集合之后，还可以对得到的概率分值进行平滑计算，从而得到平滑分值。通过上述方式，利用平滑滤波的方式可以在一定程度上克服噪声对分值的影响，更好地保留主要信息，更为适应语音信息处理的要求。

可选地，在上述图3对应的第六个实施例的基础上，本申请实施例提供唤醒词检测的方法第七个可选实施例中，根据第一语音时刻以及第一概率分值计算第一平滑分值，可以包括：

采用如下方式计算第一平滑分值：

T1_smooth＝sum(T1(t1-W)：T1(t1))/W；

其中，T1_smooth表示第一平滑分值，sum()表示求和计算，W表示平滑窗宽度， T1(t1)表示第一概率分值，t1表示第一语音时刻；

根据第二语音时刻以及第二概率分值计算第二平滑分值，可以包括：

采用如下方式计算第二平滑分值：

T2_smooth＝sum(T2(t2-W)：T2(t2))/W；

其中，T2_smooth表示第二平滑分值，W表示平滑窗宽度，T2(t2)表示第二概率分值，t2表示第二语音时刻。

本实施例中，介绍一种计算平滑分值的具体方式，在实际应用中，需要对语音识别模型输出的概率分值进行平滑计算，从而得到目标字所对应的最大分值。具体地，假设当前计算目标字“腾”的第一平滑分值，第一概率分值为0.9，第一语音时刻表示“腾”字出现时刻第100帧，平滑窗口宽度为 30帧，其中，平滑窗宽度表示为往前减去30帧，即每次计算70帧的平均得分。采用如下公式可以得到：

T1_smooth＝sum(T1(t1-W)：T1(t1))/W；

其中，该公式的物理意义表示为，若W为30，t1为100，那么需要计算从70帧至100帧的概率分值，将这30帧的概率分值加和之后再做平均，从而计算得到平滑分值。

需要说明的是，对其他目标字所所以的平滑分值算法也类似，此处不做限定。

本申请所提供的平滑分值计算方式仅为一个示意，在实际应用中，还可以采用不同类型滤波方式，例如均值滤波、中值滤波、高斯滤波或者双边滤波。其中，均值滤波是典型的线性滤波算法。中值滤波法是一种非线性平滑技术。高斯滤波是一种线性平滑滤波，适用于消除高斯噪。双边滤波是一种非线性的滤波方法。

又进一步地，本申请实施例中，提供了计算平滑分值的具体方式，通过上述方式，为方案的实现提供了实现依据，从而保证了方案的可行性和可操作性。此外，在计算平滑分值的过程中，还能够通过设置平滑窗宽度的大小得到不同平滑程度的结果，由此，提升方案的灵活性以及实用性。

可选地，在上述图3对应的第六个实施例的基础上，本申请实施例提供唤醒词检测的方法第八个可选实施例中，当平滑窗宽度小于第一宽度阈值时，平滑窗宽度用于检测不同目标字之间的语音信号；

当平滑窗宽度大于第二宽度阈值时，平滑窗宽度用于生成不同目标字所对应的平滑分值。

本实施例中，在设置平滑窗宽度的时候可以考虑具体的适用场景。

如果需要检测不同目标字之间的转换状态，则需要取较小的平滑窗宽度，即平滑窗宽度小于第一宽度阈值。具体地，可以根据概率分值(或者平滑后的平滑分值)切换状态，比如“腾”的概率分值(或者平滑后的平滑分值) 高，就说明当前处于“腾”这个目标字的状态，如果“讯”概率分值(或者平滑后的平滑分值)高，就说明当前处于“讯”这个目标字的状态。

如果需要计算目标字所对应的平滑分值，则需要取较大的平滑窗宽度，即平滑窗宽度大于第二宽度阈值。具体地，由于平滑窗宽度越大越平滑，因此可以得到更为平滑的分值结果。

又进一步地，本申请实施例中，当平滑窗宽度小于第一宽度阈值时，平滑窗宽度用于检测不同目标字之间的语音信号，当平滑窗宽度大于第二宽度阈值时，平滑窗宽度用于生成不同目标字所对应的平滑分值。通过上述方式，由于平滑窗宽度越大越平滑，因此，根据具体的场景设置不同的平滑窗宽度能够增加方案的可行性，同时，在检测不同目标字之间的转换状态时，较小的平滑窗宽度有利于提升检测的准确性。而获取平滑分值时，采用较大的平滑窗宽度有利于得到更平滑的得分。由此，提升方案的实用性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供唤醒词检测的方法第九个可选实施例中，通过语音识别模型确定目标语音特征向量所对应的目标概率分值集合之后，还可以包括：

对目标概率分值集合中的各个目标概率分值进行求和处理，以得到第一处理结果；

若第一处理结果大于或等于第一分值门限，则确定目标概率分值集合满足语音唤醒条件。

本实施例中，将介绍第一种满足语音唤醒条件的方式。假设目标字集合为“腾讯腾讯”，那么通过语音识别模型之后即可得到每个目标字所对应的目标概率分值，为了便于介绍，请参阅表1，表1为每个目标字所对应的目标概率分值一个示意。

表1

序号	目标字	目标概率分值
			1	腾	0.8
2	讯	0.9
			3	腾	0.8
4	讯	0.8

如表1所示，第一个“腾”字的目标概率分值为0.8，即T1_max为0.8。第一个“讯”字的目标概率分值为0.9，即X1_max为0.9。第二个“腾”字的目标概率分值为0.8，即T2_max为0.8。第二个“讯”字的目标概率分值为0.8，即 X2_max为0.8。接下来需要对各个目标概率分值进行求和处理，以得到第一处理结果，即0.8+0.9+0.8+0.8＝3.3。

因此，得到的第一处理结果为3.3，如果将第一分值门限设定为3，那么第一处理结果大于第一分值门限，也就可以确定目标概率分值集合满足语音唤醒条件，即说明检测到唤醒词。反之，如果第一处理结果小于第一分值门限，则表示并不满足语音唤醒条件，也就不会执行相应的唤醒处理。

需要说明的是，第一分值门限通常是根据不同的目标字个数进行设置的，比如，两个目标字的情况下第一分值门限为1.5，四个目标字的情况下第一分值门限为3，此处仅为一个示意，在实际应用中可以根据情况进行调整。

其次，本申请实施例中，唤醒词检测装置在通过语音识别模型确定目标语音特征向量所对应的目标概率分值集合之后，需先对目标概率分值集合中的各个目标概率分值进行求和处理，以得到第一处理结果，如果该第一处理结果大于或等于第一分值门限，则确定目标概率分值集合满足语音唤醒条件。通过上述方式，能够通过预先设定的分值门限判断当前获取的叠词是否属于唤醒词，由此为方案的实现提供了具体的实现依据，从而提升了方案的可行性和可操作性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供唤醒词检测的方法第十个可选实施例中，通过语音识别模型确定目标语音特征向量所对应的目标概率分值集合之后，还可以包括：

对目标概率分值集合中的各个目标概率分值进行求积处理，以得到第二处理结果；

若第二处理结果大于或等于第二分值门限，则确定目标概率分值集合满足语音唤醒条件。

本实施例中，将介绍第二种满足语音唤醒条件的方式。假设目标字集合为“腾讯腾讯”，那么通过语音识别模型之后即可得到每个目标字所对应的目标概率分值，为了便于介绍，请参阅表2，表2为每个目标字所对应的目标概率分值一个示意。

表2

序号	目标字	目标概率分值
			1	腾	0.8
2	讯	0.8
			3	腾	0.8
4	讯	0.8

如表2所示，第一个“腾”字的目标概率分值为0.8，即T1_max为0.8。第一个“讯”字的目标概率分值为0.8，即X1_max为0.8。第二个“腾”字的目标概率分值为0.8，即T2_max为0.8。第二个“讯”字的目标概率分值为0.8，即 X2_max为0.8。接下来需要对各个目标概率分值进行乘积处理，即0.8×0.8×0.8×0.8＝0.4096。

然后可以做一个1/n次方，n为目标字的个数。例如“腾讯腾讯”是四个字，则0.4608的四分之一次方为0.8239。即第二处理结果为0.8239。

这样的话，第二分值门限可以设置为大于0或者小于1，如果第二分值门限为0.5的话，那么0.8239大于这个第二分值门限，因此，表示检测到唤醒词。反之，如果第二处理结果小于第二分值门限，则表示并不满足语音唤醒条件，也就不会执行相应的唤醒处理。

其次，本申请实施例中，唤醒词检测装置在通过语音识别模型确定目标语音特征向量所对应的目标概率分值集合之后，需先对目标概率分值集合中的各个目标概率分值进行求积处理，以得到第二处理结果，如果该第二处理结果大于或等于第二分值门限，则确定目标概率分值集合满足语音唤醒条件。通过上述方式，能够通过预先设定的分值门限判断当前获取的叠词是否属于唤醒词，由此为方案的实现提供了具体的实现依据，从而提升了方案的可行性和可操作性。

下面对本申请中的唤醒词检测装置进行详细描述，请参阅图8，图8为本申请实施例中唤醒词检测装置一个实施例示意图，唤醒词检测装置30包括：

获取模块301，用于获取待识别语音信息，其中，所述待识别语音信息中包含目标字集合，所述目标字集合由重复的至少两组目标词组成，每组目标词包括至少一个目标字；

所述获取模块301，还用于根据所述待识别语音信息获取目标语音特征向量；

确定模块302，用于通过语音识别模型确定所述获取模块301获取的所述目标语音特征向量所对应的目标概率分值集合，其中，所述语音识别模型用于输出语音信息中每个字所对应的概率分值，所述目标概率分值集合包括每个目标字所对应的目标概率分值；

所述确定模块302，还用于若所述目标概率分值集合满足语音唤醒条件，则确定所述待识别语音信息包含目标唤醒词，其中，所述目标唤醒词属于唤醒词集合中的一个唤醒词。

本实施例中，获取模块301获取待识别语音信息，其中，所述待识别语音信息中包含目标字集合，所述目标字集合由重复的至少两组目标词组成，每组目标词包括至少一个目标字，所述获取模块301根据所述待识别语音信息获取目标语音特征向量，确定模块302通过语音识别模型确定所述获取模块301获取的所述目标语音特征向量所对应的目标概率分值集合，其中，所述语音识别模型用于输出语音信息中每个字所对应的概率分值，所述目标概率分值集合包括每个目标字所对应的目标概率分值，若所述目标概率分值集合满足语音唤醒条件，则所述确定模块302确定所述待识别语音信息包含目标唤醒词，其中，所述目标唤醒词属于唤醒词集合中的一个唤醒词。

本申请实施例中，提供了一种唤醒词检测装置，首先，该唤醒词检测装置获取待识别语音信息，待识别语音信息中包含目标字集合，目标字集合由重复的至少两组目标词组成，每组目标词包括至少一个目标字，然后根据待识别语音信息获取目标语音特征向量，再通过语音识别模型确定目标语音特征向量所对应的目标概率分值集合，语音识别模型用于输出语音信息中每个字所对应的概率分值，目标概率分值集合包括每个目标字所对应的目标概率分值，如果目标概率分值集合满足语音唤醒条件，那么唤醒词检测装置可以确定待识别语音信息包含目标唤醒词，目标唤醒词属于唤醒词集合中的一个唤醒词。通过上述方式，设计出专用于对叠词进行唤醒词检测的方案，充分考虑到叠词的发音特征，利用语音识别模型对叠词中的的每个字进行分值计算，只有在分值满足条件的情况下才识别为唤醒词，从而提升叠词式唤醒词的检测性能，具有较高的唤醒率，以及较低的误唤醒率。

可选地，在上述图8所对应的实施例的基础上，本申请实施例提供的唤醒词检测装置30的另一实施例中，所述待识别语音信息中还包括非目标字集合，所述非目标字集合包含至少一个非目标字；

所述确定模块302，还用于在所述获取模块301根据所述待识别语音信息获取目标语音特征向量之后，通过所述语音识别模型确定所述目标语音特征向量所对应的非目标概率分值，其中，所述非目标概率分值为所述非目标字集合的概率分值。

可选地，在上述图8所对应的实施例的基础上，请参阅图9，本申请实施例提供的唤醒词检测装置30的另一实施例中，所述唤醒词检测装置30还包括执行模块303；

所述获取模块301，具体用于从所述待识别语音信息中提取第一语音帧，其中，所述第一语音帧包括至少一个子语音帧；

所述获取模块301，具体用于根据所述第一语音帧生成第一语音特征向量；

所述确定模块302，具体用于通过语音识别模型确定所述第一语音特征向量所对应的第一概率分值；

所述确定模块302，还用于通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合之后，若所述第一概率分值达到预设概率值门限，则确定所述第一语音帧属于第一目标字所在时间段内的语音信号，其中，所述第一目标字为所述目标字集合中的一个目标字；

所述执行模块303，用于若所述第一概率分值未达到预设概率值门限，则执行所述获取所述待识别语音信息的步骤。

可选地，在上述图9所对应的实施例的基础上，本申请实施例提供的唤醒词检测装置30的另一实施例中，

所述获取模块301，具体用于从所述待识别语音信息中提取第二语音帧，其中，所述第二语音帧包括至少一个子语音帧；

所述获取模块301，具体用于根据所述第二语音帧生成第二语音特征向量；

所述确定模块302，具体用于通过语音识别模型确定所述第二语音特征向量所对应的第二概率分值；

所述确定模块302，还用于通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合之后，若所述第二概率分值达到所述预设概率值门限，则确定所述第二语音帧属于第二目标字所在时间段内的语音信号，其中，所述第二目标字为所述第一目标字之后相邻的一个目标字；

所述执行模块303，还用于若所述第二概率分值未达到所述预设概率值门限，则执行所述获取所述待识别语音信息的步骤。

所述获取模块301，具体用于从所述待识别语音信息中提取第三语音帧，其中，所述第三语音帧包括至少一个子语音帧；

所述获取模块301，具体用于根据所述第三语音帧生成第三语音特征向量；

所述确定模块302，具体用于通过语音识别模型确定所述第三语音特征向量所对应的第三概率分值；

所述确定模块302，还用于通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合之后，若所述第三概率分值达到所述预设概率值门限，则确定所述第三语音帧属于第三目标字所在时间段内的语音信号，其中，所述第三目标字为所述第二目标字之后相邻的一个目标字；

所述执行模块303，还用于若所述第三概率分值未达到所述预设概率值门限，则执行所述获取所述待识别语音信息的步骤。

所述获取模块301，具体用于从所述待识别语音信息中提取第四语音帧，其中，所述第四语音帧包括至少一个子语音帧；

所述获取模块301，具体用于根据所述第四语音帧生成第四语音特征向量；

所述确定模块302，具体用于通过语音识别模型确定所述第四语音特征向量所对应的第四概率分值；

所述确定模块302，还用于通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合之后，若所述第四概率分值达到所述预设概率值门限，则确定所述第四语音帧属于第四目标字所在时间段内的语音信号，其中，所述第四目标字为所述第三目标字之后相邻的一个目标字；

所述执行模块303，还用于若所述第四概率分值未达到所述预设概率值门限，则执行所述获取所述待识别语音信息的步骤。

可选地，在上述图8或图9所对应的实施例的基础上，请参阅图10，本申请实施例提供的唤醒词检测装置30的另一实施例中，所述唤醒词检测装置 30还包括计算模块304；

所述确定模块302，还用于通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合之后，若第一语音帧属于第一目标字所在时间段内的语音信号，则根据所述第一语音帧确定第一语音时刻；

所述计算模块304，用于根据平滑窗宽度、所述确定模块302确定的所述第一语音时刻以及第一概率分值计算第一平滑分值；

所述确定模块302，还用于若第二语音帧属于第二目标字所在时间段内的语音信号，则根据所述第二语音帧确定第二语音时刻；

所述计算模块304，还用于根据平滑窗宽度、所述确定模块302确定的所述第二语音时刻以及第二概率分值计算第二平滑分值。

可选地，在上述图10所对应的实施例的基础上，本申请实施例提供的唤醒词检测装置30的另一实施例中，

所述计算模块304，具体用于采用如下方式计算所述第一平滑分值：

T1_smooth＝sum(T1(t1-W)：T1(t1))/W；

其中，所述T1_smooth表示所述第一平滑分值，所述sum()表示求和计算，所述W表示所述平滑窗宽度，所述T1(t1)表示所述第一概率分值，所述t1表示所述第一语音时刻；

所述计算模块304，具体用于采用如下方式计算所述第二平滑分值：

T2_smooth＝sum(T2(t2-W)：T2(t2))/W；

其中，所述T2_smooth表示所述第二平滑分值，所述W表示所述平滑窗宽度，所述T2(t2)表示所述第二概率分值，所述t2表示所述第二语音时刻。

可选地，在上述图10所对应的实施例的基础上，本申请实施例提供的唤醒词检测装置30的另一实施例中，当所述平滑窗宽度小于第一宽度阈值时，所述平滑窗宽度用于检测不同目标字之间的语音信号；

当所述平滑窗宽度大于第二宽度阈值时，所述平滑窗宽度用于生成不同目标字所对应的平滑分值。

可选地，在上述图8所对应的实施例的基础上，请参阅图11，本申请实施例提供的唤醒词检测装置30的另一实施例中，所述唤醒词检测装置30还包括处理模块305；

所述处理模块305，用于所述确定模块302通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合之后，对所述目标概率分值集合中的各个目标概率分值进行求和处理，以得到第一处理结果；

所述确定模块302，还用于若所述处理模块305处理得到的所述第一处理结果大于或等于第一分值门限，则确定所述目标概率分值集合满足所述语音唤醒条件。

所述处理模块305，用于所述确定模块302通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合之后，对所述目标概率分值集合中的各个目标概率分值进行求积处理，以得到第二处理结果；

所述确定模块302，还用于若所述处理模块305处理得到的所述第二处理结果大于或等于第二分值门限，则确定所述目标概率分值集合满足所述语音唤醒条件。

本申请实施例还提供了另一种唤醒词检测装置，如图12所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端(Point of Sales， POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图12示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图12，手机包括：射频(Radio Frequency，RF)电路410、存储器 420、输入单元430、显示单元440、传感器450、音频电路460、无线保真 (wireless fidelity，WiFi)模块470、处理器480、以及电源490等部件。本领域技术人员可以理解，图12中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图12对手机的各个构成部件进行具体的介绍：

RF电路410可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器480处理；另外，将设计上行的数据发送给基站。通常，RF电路410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access， CDMA)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器420可用于存储软件程序以及模块，处理器480通过运行存储在存储器420的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元430可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元430可包括触控面板431以及其他输入设备432。触控面板431，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板431上或在触控面板431附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板431可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器480，并能接收处理器 480发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板431。除了触控面板431，输入单元430还可以包括其他输入设备432。具体地，其他输入设备432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元440可包括显示面板441，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板441。进一步的，触控面板431可覆盖显示面板441，当触控面板431检测到在其上或附近的触摸操作后，传送给处理器480以确定触摸事件的类型，随后处理器480根据触摸事件的类型在显示面板441上提供相应的视觉输出。虽然在图12中，触控面板431与显示面板441是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板431与显示面板441集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器450，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板441的亮度，接近传感器可在手机移动到耳边时，关闭显示面板441和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击) 等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路460、扬声器461，传声器462可提供用户与手机之间的音频接口。音频电路460可将接收到的音频数据转换后的电信号，传输到扬声器 461，由扬声器461转换为声音信号输出；另一方面，传声器462将收集的声音信号转换为电信号，由音频电路460接收后转换为音频数据，再将音频数据输出处理器480处理后，经RF电路410以发送给比如另一手机，或者将音频数据输出至存储器420以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块470，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器480是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器420内的软件程序和/或模块，以及调用存储在存储器420内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器480可包括一个或多个处理单元；可选的，处理器480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器480中。

手机还包括给各个部件供电的电源490(比如电池)，可选的，电源可以通过电源管理系统与处理器480逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器480还具有以下功能：

根据所述待识别语音信息获取目标语音特征向量；

可选地，所述待识别语音信息中还包括非目标字集合，所述非目标字集合包含至少一个非目标字；

处理器480还用于执行如下步骤：通过所述语音识别模型确定所述目标语音特征向量所对应的非目标概率分值，其中，所述非目标概率分值为所述非目标字集合的概率分值。

可选地，处理器480具体用于执行如下步骤：

从所述待识别语音信息中提取第一语音帧，其中，所述第一语音帧包括至少一个子语音帧；

根据所述第一语音帧生成第一语音特征向量；

通过语音识别模型确定所述第一语音特征向量所对应的第一概率分值；

处理器480还用于执行如下步骤：

若所述第一概率分值达到预设概率值门限，则确定所述第一语音帧属于第一目标字所在时间段内的语音信号，其中，所述第一目标字为所述目标字集合中的一个目标字；

若所述第一概率分值未达到预设概率值门限，则执行所述获取所述待识别语音信息的步骤。

可选地，处理器480具体用于执行如下步骤：

从所述待识别语音信息中提取第二语音帧，其中，所述第二语音帧包括至少一个子语音帧；

根据所述第二语音帧生成第二语音特征向量；

通过语音识别模型确定所述第二语音特征向量所对应的第二概率分值；

处理器480还用于执行如下步骤：

若所述第二概率分值达到所述预设概率值门限，则确定所述第二语音帧属于第二目标字所在时间段内的语音信号，其中，所述第二目标字为所述第一目标字之后相邻的一个目标字；

若所述第二概率分值未达到所述预设概率值门限，则执行所述获取所述待识别语音信息的步骤。

可选地，处理器480具体用于执行如下步骤：

从所述待识别语音信息中提取第三语音帧，其中，所述第三语音帧包括至少一个子语音帧；

根据所述第三语音帧生成第三语音特征向量；

通过语音识别模型确定所述第三语音特征向量所对应的第三概率分值；

处理器480还用于执行如下步骤：

若所述第三概率分值达到所述预设概率值门限，则确定所述第三语音帧属于第三目标字所在时间段内的语音信号，其中，所述第三目标字为所述第二目标字之后相邻的一个目标字；

若所述第三概率分值未达到所述预设概率值门限，则执行所述获取所述待识别语音信息的步骤。

可选地，处理器480具体用于执行如下步骤：

从所述待识别语音信息中提取第四语音帧，其中，所述第四语音帧包括至少一个子语音帧；

根据所述第四语音帧生成第四语音特征向量；

通过语音识别模型确定所述第四语音特征向量所对应的第四概率分值；

处理器480还用于执行如下步骤：

若所述第四概率分值达到所述预设概率值门限，则确定所述第四语音帧属于第四目标字所在时间段内的语音信号，其中，所述第四目标字为所述第三目标字之后相邻的一个目标字；

若所述第四概率分值未达到所述预设概率值门限，则执行所述获取所述待识别语音信息的步骤。

可选地，处理器480还用于执行如下步骤：

若第一语音帧属于第一目标字所在时间段内的语音信号，则根据所述第一语音帧确定第一语音时刻；

根据平滑窗宽度、所述第一语音时刻以及第一概率分值计算第一平滑分值；

若第二语音帧属于第二目标字所在时间段内的语音信号，则根据所述第二语音帧确定第二语音时刻；

根据平滑窗宽度、所述第二语音时刻以及第二概率分值计算第二平滑分值。

可选地，处理器480具体用于执行如下步骤：

采用如下方式计算所述第一平滑分值：

T1_smooth＝sum(T1(t1-W)：T1(t1))/W；

采用如下方式计算所述第二平滑分值：

T2_smooth＝sum(T2(t2-W)：T2(t2))/W；

可选地，处理器480还用于执行如下步骤：

对所述目标概率分值集合中的各个目标概率分值进行求和处理，以得到第一处理结果；

若所述第一处理结果大于或等于第一分值门限，则确定所述目标概率分值集合满足所述语音唤醒条件。

可选地，处理器480还用于执行如下步骤：

对所述目标概率分值集合中的各个目标概率分值进行求积处理，以得到第二处理结果；

若所述第二处理结果大于或等于第二分值门限，则确定所述目标概率分值集合满足所述语音唤醒条件。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种唤醒词检测的方法，其特征在于，包括：

获取满足叠词形式的待识别语音信息，其中，所述待识别语音信息中包含目标字集合，所述目标字集合由重复的至少两组目标词组成，每组目标词包括至少一个目标字；

根据所述待识别语音信息获取目标语音特征向量，其中，所述目标语音特征向量为静态滤波器网络Fbank特征向量，或，所述目标语音特征向量为动态Fbank特征向量，或，所述目标语音特征向量为静态Fbank特征向量与动态Fbank特征向量的结合；

通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合，其中，所述语音识别模型用于输出语音信息中每个字所对应的概率分值，所述目标概率分值集合包括每个目标字所对应的目标概率分值；所述语音识别模型包含的目标字的输出节点的数量，与所述每组目标词包括的目标字的数量相同；在所述语音识别模型中，一个目标字的输出节点用于输出同一目标字的至少两个目标概率分值；

2.根据权利要求1所述的方法，其特征在于，所述待识别语音信息中还包括非目标字集合，所述非目标字集合包含至少一个非目标字；

所述根据所述待识别语音信息获取目标语音特征向量之后，所述方法还包括：

通过所述语音识别模型确定所述目标语音特征向量所对应的非目标概率分值，其中，所述非目标概率分值为所述非目标字集合的概率分值。

3.根据权利要求1所述的方法，其特征在于，所述获取待识别语音信息，包括：

所述根据所述待识别语音信息获取目标语音特征向量，包括：

根据所述第一语音帧生成第一语音特征向量；

所述通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合，包括：

所述通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合之后，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述执行所述获取所述待识别语音信息的步骤，包括：

根据所述第二语音帧生成第二语音特征向量；

通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合之后，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述执行所述获取所述待识别语音信息的步骤，包括：

根据所述第三语音帧生成第三语音特征向量；

6.根据权利要求5所述的方法，其特征在于，所述执行所述获取所述待识别语音信息的步骤，包括：

根据所述第四语音帧生成第四语音特征向量；

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合之后，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一语音时刻以及第一概率分值计算第一平滑分值，包括：

采用如下方式计算所述第一平滑分值：

T1_smooth＝sum(T1(t1-W):T1(t1))/W；

所述根据所述第二语音时刻以及第二概率分值计算第二平滑分值，包括：

采用如下方式计算所述第二平滑分值：

T2_smooth＝sum(T2(t2-W):T2(t2))/W；

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：

当所述平滑窗宽度小于第一宽度阈值时，所述平滑窗宽度用于检测不同目标字之间的语音信号；

10.根据权利要求1所述的方法，其特征在于，所述通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合之后，所述方法还包括：

11.根据权利要求1所述的方法，其特征在于，所述通过语音识别模型确定所述目标语音特征向量所对应的目标概率分值集合之后，所述方法还包括：

12.一种语音识别的方法，其特征在于，包括：

获取所述目标唤醒词所对应的目标语音识别结果；

执行所述目标语音识别结果。

13.一种唤醒词检测装置，其特征在于，包括：

获取模块，用于获取满足叠词形式的待识别语音信息，其中，所述待识别语音信息中包含目标字集合，所述目标字集合由重复的至少两组目标词组成，每组目标词包括至少一个目标字；

所述获取模块，还用于根据所述待识别语音信息获取目标语音特征向量，其中，所述目标语音特征向量为静态滤波器网络Fbank特征向量，或，所述目标语音特征向量为动态Fbank特征向量，或，所述目标语音特征向量为静态Fbank特征向量与动态Fbank特征向量的结合；

确定模块，用于通过语音识别模型确定所述获取模块获取的所述目标语音特征向量所对应的目标概率分值集合，其中，所述语音识别模型用于输出语音信息中每个字所对应的概率分值，所述目标概率分值集合包括每个目标字所对应的目标概率分值；所述语音识别模型包含的目标字的输出节点的数量，与所述每组目标词包括的目标字的数量相同；在所述语音识别模型中，一个目标字的输出节点用于输出同一目标字的至少两个目标概率分值；

14.一种终端设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：