CN109671434A

CN109671434A - 一种语音设备及自学习语音识别方法

Info

Publication number: CN109671434A
Application number: CN201910119394.5A
Authority: CN
Inventors: 张豪; 何云鹏; 许兵; 高君效
Original assignee: Chengdu Leader Technology Co Ltd
Current assignee: Chengdu Leader Technology Co Ltd; Chipintelli Technology Co Ltd
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2019-04-23

Abstract

一种语音设备自学习语音识别方法，包括自学习和识别过程，所述自学习过程包括如下步骤:S1.语音设备进入自学习状态，向用户播报提示；S2.用户说出想要替换的原缺省命令词，设备识别后进行自学习；S3.用户获得提示后，至少重复N次说出自定义命令词；S4.用户重复N次自定义命令词后；自学习模快将该声学特征向量作为模板特征信息存储。本发明还公开了一种语音设备,包括特征提取模块、语音识别模块、自学习模块、语音播报模块和存储设备。本发明使得语音设备能够学习不同用户的特殊发音，将其与对应的命令词挂钩，或者将命令词替换为用户习惯使用的说法，从而实现识别并进行后续操作。

Description

一种语音设备及自学习语音识别方法

技术领域

本发明属于人工智能技术领域，涉及语音识别技术，具体涉及一种语音设备及自学习语音识别方法。

背景技术

目前，各种语音识别芯片已经成熟的应用在空调，微波炉，晾衣杆等家电设备中;通过预先定义存储的命令词设置,在用户说出命令词时,能够实现针对特定人或非特定人的小词汇量命令词的连续语音识别。但是,用于用户发音在声音声调,方言,习惯表达方式上的差异,对于一个命令,不同用户的命令词发音与固有设置的正常发音可能存在较大差异,造成设备端的语音识别系统可能无法识别这些用户的命令词;同时,对于同一命令,采用固定单一的命令词也显得呆板生硬,影响语言方式的多样性表达。

发明内容

为克服现有技术存在的技术缺陷，为用户提供更好的语音识别体验,本发明公开了一种语音设备及自学习语音识别方法。

本发明所述语音设备自学习语音识别方法，包括自学习和识别过程，所述自学习过程包括如下步骤:

S1.语音设备进入自学习状态，向用户播报提示；

S2.用户说出想要替换的原缺省命令词，设备的 ASR模块识别该缺省命令词后，提示用户N次重复新更换的自定义命令词进行自学习, N不小于3；

S3. 用户获得提示后，至少重复N次说出自定义命令词；

第一次说出自定义命令词时，特征提取模块从采集到的音频信号中提取声学特征向量并存储；

从第二次说出自定义命令词开始，特征提取模块从每次采集到的音频信号中提取声学特征向量并与之前存储的各次声学特征向量进行相似度比较，选择相似度最高值进行判定，最高相似度高于门限值则认为是在重复自定义命令词，提示录入成功，否则提示录入失败；

S4.用户重复N次自定义命令词且未提示录入失败后；自学习模块读取全部各次的声学特征向量并计算两两之间的相似度；找出最能代表该自定义命令词的声学特征向量；自学习模快将该声学特征向量作为模板特征信息存储；设备提示自学习完成，并退出自学习状态；

所述识别过程包括在用户念出命令词后可并行执行的如下步骤：

P1.特征提取模块提取声音信号的特征信息，ASR模块同时动态接受特征信息进行推断，若该命令词是系统缺省命令词；则播报对该命令词的回馈并执行命令；

P2. 自学习模块动态接受声音信号的特征信息，读取步骤S4中所有存储的模板特征信息，分别动态计算每个模板特征信息与当前声音信号的特征信息的相似度；

如果相似度全部小于设定门限则认为不是命令词；

如果至少有一个相似度大于设定门限；则认为相似度最高的模板特征信息对应的自定义命令词与当前用户语音匹配，则反馈识别结果并执行命令。

优选的，还包括模板删除过程，用于删除所述自学习过程中存储的模板特征信息；具体包括以下步骤：

Q1.语音设备进入删除状态，向用户播报提示；

Q2.用户得到提示后，说出想要删除的自定义命令词或者说出该自定义命令词所对应的原缺省命令词; 特征提取模块提取用户语音的特征信息;

Q3.ASR模块和自学习模块接受特征信息；

若该命令词是系统缺省命令词；则自学习模块在存储的模板中寻找该缺省命令词对应的自定义命令词模板并删除，

如果该命令词不是系统缺省命令词，自学习模块找出所有存储的模板特征信息，分别动态计算每个模板特征信息与当前声音信号的特征信息的相似度；

如果相似度全部小于设定门限则不删除并发出提示未找到该自定义命令词；

如果至少有一个相似度大于设定门限；则认为相似度最高的模板特征信息对应的自定义命令词与当前用户语音匹配，并删除相似度最高的模板特征信息，删除后发出提示删除成功。

优选的，所述自学习过程中，还包括重新学习步骤，设备进入所述重新学习步骤后，设备删除暂存的自定义命令词特征信息，并提示用户，随后进入所述步骤S1;

所述重新学习步骤在用户发出重新学习步骤对应的命令词后进入，当时正在进行的自学习过程随之终止。

本发明还公开了一种语音设备，包括特征提取模块、语音识别模块、自学习模块、语音播报模块和存储设备；所述特征提取模块、语音播报模块分别与所述语音识别模块和自学习模块信号连接，所述存储设备与所述特征提取模块、语音识别模块和自学习模块信号连接。

优选的，所述存储设备包括内存和闪存，所述自学习模块与内存和闪存均信号连接。

本发明所述语音设备及自学习语音识别方法使得语音设备能够学习不同用户的特殊发音，将其与对应的命令词挂钩，或者将命令词替换为用户习惯使用的说法，从而实现识别并进行后续操作。本发明可以仅用数个自定义命令词完成训练，计算简单，对特定人孤立词识别效果良好,训练的时间和空间复杂度大大减小，并适用于各种语音设备。

附图说明

图1为本发明所述语音设备的一种具体实施方式示意图；

图2为本发明所述自学习过程的一种具体实施方式流程示意图;

图3为本发明所述模板删除过程的一种具体实施方式流程示意图;

图4为本发明所述识别过程的一种具体实施方式流程示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步的详细说明。

如图1所示, 本发明所述语音设备，包括特征提取模块、语音识别模块、自学习模块、语音播报模块和存储设备；所述特征提取模块、语音播报模块分别与所述语音识别模块和自学习模块信号连接，所述存储设备与所述特征提取模块、语音识别模块和自学习模块信号连接。

所述存储设备的一个具体实施方式为包括内存和闪存，所述自学习模块与内存和闪存均信号连接,闪存用于掉电后保存数据,内存用于开机运算时对数据的暂存。

基于上述设备的语音设备自学习语音识别方法，包括自学习和识别过程，语音设备中已经预先存储有一组缺省命令词,例如包括两个命令词A1,B1,分别执行命令A和B。

以下以用户希望将命令词A1更换为更适合自己的命令词A2,对应执行命令仍然为A,以此为例阐述所述自学习过程

所述自学习过程包括如下步骤:

S1.语音设备进入自学习状态，向用户播报提示；

进入自学习状态可以使用语音命令或手动操作，播报提示的方式可以是进入后通过音频发声，或其他提示方式如显示字幕提示用户设备已经进入自学习状态。

S2.用户说出想要替换的原缺省命令词A1，设备的 ASR（Automatic SpeechRecognition，自动语音识别）模块识别该缺省命令词后，提示用户N次重复新更换的自定义命令词进行自学习, N不小于3；

S3. 用户获得提示后，至少重复N次说出自定义命令词A2；

第一次说出自定义命令词时，特征提取模块从采集到的音频信号中提取声学特征向量A21并存储在内存中；

例如第二次发音的声学特征向量A22，将其与第一次声学特征向量A21比较相似度，高于门限值则认为符合要求。相似度可以选择设置为欧几里得距离的相反数,但也可以是其他表征相似度的度量。欧几里得距离越小相似度越高，门限值是提前定好的设为D1。相似度高于门限值D1则认为是在重复第一次的自定义命令词A2;

第三次发音的声学特征向量A23，将其与第一次和第二次的声学特征向量A21，A22比较相似度，发现其与A22相似度较高并大于门限值D1，则认为第三次也是在重复自定义命令词A2；重复完成N次后，提示录入成功。

S4.用户重复N次自定义命令词且未提示录入失败后；自学习模块读取全部各次的声学特征向量A21,A22,A23；并计算两两之间的相似度；

找出最能代表该自定义命令词的声学特征向量，一般选择方法可以如下：由上一段相似度的计算结果，设S12为A21和A22的相似度，S13为A21和A23的相似度，S23为A22和A23的相似度。再设B1 = S12 + S13,B2 = S12 + S23,B3 = S13 + S23。若B1在B1,B2,B3中值最大，则声学特征向量A21最能代表该命令词,以此类推,B2最大则为A22,B3最大则为A23。自学习模快将该声学特征向量作为模板特征信息可以存储在闪存中；设备提示自学习完成，并退出自学习状态，自学习过程的一个具体流程如图2所示。

所述自学习过程中，还包括重新学习步骤，设备进入所述重新学习步骤后，设备删除暂存的自定义命令词特征信息，并提示用户，随后进入所述步骤S1;

为方便用户在自学习时更换自定义命令词，还可以进行重新学习步骤，所述重新学习步骤在用户发出重新学习步骤对应的命令词后进入，当时正在进行的自学习过程随之终止。

设备进入所述重新学习步骤后，设备删除已经存储的自定义命令词特征信息，并提示用户，随后设备再次进入自学习状态下的所述步骤S1。

完成自学习过程后，意味着用户发出自定义命令词A2或缺省命令词A1时，语音设备均会执行命令A。

自学习完成后，所述识别过程包括在用户念出命令词后可并行执行的如下步骤：

P1.特征提取模块提取声音信号的特征信息，ASR模块同时动态接受特征信息进行推断，若该命令词是系统缺省命令词A1；则播报对该命令词的回馈并执行命令A；

如果相似度全部小于设定门限则认为不是命令词；

如果至少有一个相似度大于设定门限；例如用户发音为自定义命令词A2，则认为相似度最高的模板特征信息对应的自定义命令词与当前用户语音匹配，则反馈识别结果并执行命令A。

为方便用户对自定义命令词进行删除，可以进行模板删除，用于删除所述自学习过程中存储的模板特征信息，删除时用户通过发出原缺省命令词或自定义命令词均可实现，但只删除自定义命令词。

具体包括以下步骤：

Q1.语音设备进入删除状态，向用户播报提示；

Q3.ASR模块和自学习模块接受特征信息；

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种语音设备自学习语音识别方法，其特征在于，包括自学习和识别过程，所述自学习过程包括如下步骤:

S1.语音设备进入自学习状态，向用户播报提示；

S3. 用户获得提示后，至少重复N次说出自定义命令词；

如果相似度全部小于设定门限则认为不是命令词；

2.如权利要求1所述的语音设备自学习语音识别方法，其特征在于，还包括模板删除过程，用于删除所述自学习过程中存储的模板特征信息；具体包括以下步骤：

Q1.语音设备进入删除状态，向用户播报提示；

Q3.ASR模块和自学习模块接受特征信息；

3.如权利要求1所述的语音设备自学习语音识别方法，其特征在于，所述自学习过程中，还包括重新学习步骤，设备进入所述重新学习步骤后，设备删除暂存的自定义命令词特征信息，并提示用户，随后进入所述步骤S1;

4.语音设备，其特征在于，包括特征提取模块、语音识别模块、自学习模块、语音播报模块和存储设备；所述特征提取模块、语音播报模块分别与所述语音识别模块和自学习模块信号连接，所述存储设备与所述特征提取模块、语音识别模块和自学习模块信号连接。

5.如权利要求1所述的语音设备，其特征在于，所述存储设备包括内存和闪存，所述自学习模块与内存和闪存均信号连接。