CN110992932B

CN110992932B - 一种自学习的语音控制方法、系统及存储介质

Info

Publication number: CN110992932B
Application number: CN201911321657.7A
Authority: CN
Inventors: 陈品良; 李强; 魏会杰
Original assignee: Guangdong Ruizhu Intelligent Technology Co ltd
Current assignee: Guangdong Ruizhu Intelligent Technology Co ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2022-07-26
Anticipated expiration: 2039-12-18
Also published as: CN110992932A

Abstract

本发明公开了一种自学习的语音控制方法、系统及存储介质，所述方法包括：实时采集用户的语音输入信号，先后经过前端处理、声学特征提取处理和解码处理，通过构建WFST搜索空间模型筛选匹配概率最高的最优路径，得到最优识别结果中的语音指令词后与语音指令词列表进行匹配，若匹配成功则输出对应的语音控制指令；若匹配不成功则对该语音指令词进行标记，并上传至云端后台；当云端后台检测存在超过预设标记次数的语音指令词后，自动下载该语音指令词至DSP语音处理芯片，完成语音指令词的自学习；在接收更新指令后，将新增的语音指令词关联至对应的场景联动模式。本发明能够深度学习用户日常语音指令习惯从而更新语音指令词，提高用户语音控制体验。

Description

一种自学习的语音控制方法、系统及存储介质

技术领域

本发明涉及智能家居技术领域，尤其涉及一种自学习的语音控制方法、系统及存储介质。

背景技术

随着语音识别技术的发展，已经越来越多的设备嵌入语音识别交互技术，用户可以通过语音在线控制相应的灯光、窗帘、空调等家用设备，实现语音的分布式操控。现在市面上的语音识别技术分为在线语音和离线语音。

但是，在对现有技术的研究与实践的过程中，本发明的发明人发现，目前市面上的离线语音识别系统需要用户先制定固定的指令词，在厂家通过频繁指令词训练后，在语音MCU处理器上进行运算从而实现基本的识别功能，不仅耗时和耗费人力，并且指令词训练过程繁琐而且不够人性化。

发明内容

本发明实施例所要解决的技术问题在于，提供一种自学习的语音控制方法、系统及存储介质，能够基于用户日常使用的语音习惯更新语音指令词。

为解决上述问题，本发明的一个实施例提供一种自学习的语音控制方法，至少包括如下步骤：

当用户通过语音唤醒词唤醒设备后，实时采集用户的语音输入信号，先后经过前端处理、声学特征提取处理和解码处理，并通过构建WFST搜索空间模型筛选匹配概率最高的最优路径，得到最优识别结果；

根据所述最优识别结果中的语音指令词与本地预存的语音指令词列表进行匹配，若匹配成功则输出对应的语音控制指令；

若匹配不成功，则对所述最优识别结果中的语音指令词进行标记，并上传至云端后台后进行存储；

当所述云端后台检测存在超过预设标记次数的语音指令词后，自动下载该语音指令词至DSP语音处理芯片中，完成语音指令词的自学习；

在接收用户发送的更新语音指令词的指令后，将新增的语音指令词更新至所述语音指令词列表，并关联至对应的场景联动模式。

进一步地，所述自学习的语音控制方法，还包括：

预先采集用户录入的语音指令词后，通过语音识别算法先后进行前端处理和声学特征提取处理，得到对应的声学特征数据；

对所述声学特征数据进行解码处理，构建WFST搜索空间模型，生成语音指令词列表后保存至DSP语音处理芯片中。

进一步地，所述实时采集用户的语音输入信号，还包括：

通过双麦克风拾音器进行目标语音信号和环境音的采集，并采用双麦降噪算法进行降噪采集。

进一步地，所述构建WFST搜索空间模型还包括声学模型训练，具体为：

在获取语料集合对应的文字集后，将获得的文字集进行格式化处理，在音频文件中提取声学特征数据并进行单因素训练后，将得到的音频信息和文字信息进行对齐训练，训练得到音频参数。

进一步地，所述前端处理，具体为：

将通过麦克风装置采集的语音信号转化为语音数据流，传输至DSP语音处理芯片；

通过所述DSP语音处理芯片将所接收的语音数据流进行语音格式转码处理，将语音数据流转换成对应格式的语音文件；

对转码后的语音文件进行端点检测，检测得到转码后的语音文件中的有效语音信息。

进一步地，所述声学特征提取处理，具体为：

将通过所述前端处理后的语音信号进行切割，得到若干针的语音信号；

通过傅里叶变换算法计算每针语音信号中包含的能量值、基音频谱、共振峰值和短时过零率，并建立声学特征数学模型。

进一步地，所述解码处理，具体为：

通过DSP语音处理芯片中的解码模块对提取的声学特征数据进行解码处理，并采用发音字典、声学模型和语言模型建立WFST搜索空间模型。

本发明的一个实施例还提供了一种自学习的语音控制系统，包括：

语音识别模块，用于当用户通过语音唤醒词唤醒设备后，实时采集用户的语音输入信号，先后经过前端处理、声学特征提取处理和解码处理，并通过构建WFST搜索空间模型筛选匹配概率最高的最优路径，得到最优识别结果；

指令匹配模块，用于根据所述最优识别结果中的语音指令词与本地预存的语音指令词列表进行匹配，若匹配成功则输出对应的语音控制指令；

自学习模块，用于当语音指令词匹配不成功时，对所述最优识别结果中的语音指令词进行标记，并上传至云端后台后进行存储；当所述云端后台检测存在超过预设标记次数的语音指令词后，自动下载该语音指令词至DSP语音处理芯片中，完成语音指令词的自学习；

指令更新模块，用于在接收用户发送的更新语音指令词的指令后，将新增的语音指令词更新至所述语音指令词列表，并关联至对应的场景联动模式。

进一步地，所述自学习的语音控制系统，还包括：

预处理模块，用于预先采集用户录入的语音指令词后，通过语音识别算法先后进行前端处理和声学特征提取处理，得到对应的声学特征数据；

语音指令词列表模块，用于对所述声学特征数据进行解码处理，构建WFST搜索空间模型，生成语音指令词列表后保存至DSP语音处理芯片中。

本发明的另一实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的自学习的语音控制方法。

实施本发明实施例，具有如下有益效果：

本发明实施例提供的一种自学习的语音控制方法、系统及存储介质，所述方法包括：当用户通过语音唤醒词唤醒设备后，实时采集用户的语音输入信号，先后经过前端处理、声学特征提取处理和解码处理，并通过构建WFST搜索空间模型筛选匹配概率最高的最优路径，得到最优识别结果；根据所述最优识别结果中的语音指令词与本地预存的语音指令词列表进行匹配，若匹配成功则输出对应的语音控制指令；若匹配不成功，则对所述最优识别结果中的语音指令词进行标记，并上传至云端后台后进行存储；当所述云端后台检测存在超过预设标记次数的语音指令词后，自动下载该语音指令词至DSP语音处理芯片中，完成语音指令词的自学习；在接收用户发送的更新语音指令词的指令后，将新增的语音指令词更新至所述语音指令词列表，并关联至对应的场景联动模式。本发明能够深度学习用户日常语音指令习惯，生成基于用户习惯的语音指令词至语音控制系统，无需进行繁琐的语音指令词训练过程，并解决目前固定离线式指令词在语音识别方面灵活性较低的问题，提高用户体验。

附图说明

图1是本发明第一实施例提供的一种自学习的语音控制方法的流程示意图；

图2是本发明第一实施例提供的实现自学习的语音控制方法的流程示意图；

图3是本发明第一实施例提供的实现自学习的语音控制方法的电路装置的结构示意图；

图4是本发明第二实施例提供的一种自学习的语音控制系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明第一实施例：

请参阅图1-3。

如图1所示，本实施例提供了一种自学习的语音控制方法，至少包括如下步骤：

S101、当用户通过语音唤醒词唤醒设备后，实时采集用户的语音输入信号，先后经过前端处理、声学特征提取处理和解码处理，并通过构建WFST搜索空间模型筛选匹配概率最高的最优路径，得到最优识别结果。

具体的，对于步骤S101，如图2所示，当用户说出该设备的语音唤醒词，唤醒语音设备的时候就开始实时采集用户的语音信号。通过语音MCU进行分析和翻译成指令词存储在MCU的存储器上进行标记，当设备的语音采集系统采集到用户的语音指令词以后，通过语音信号模数转换电路，将语音模拟信号转换成数字信号后输入到语音处理专用DSP芯片，DSP芯片运用语音识别算法软件在语音DSP芯片内进行语音识别，先后进行前端处理、特征提取、模型训练和解码四个步骤。采集的每一句语音首先被麦克风拾音后成为语音数据流进入DSP芯片后，最先由前端处理，前端处理是先进行语音格式转码将数据流转成PCM或者WAV格式的语音，然后进行端点检测，将转码后语音中的有效语音检测出来，最后将前端处理得到的分段语音数据送入特征提取模块，进行声学特征提取，最后解码模块对提取的特征数据进行解码，解码过程中利用发音字典，声学模型，语言模型等信息构建WFST搜索空间，在搜索空间内寻找匹配概率最大的最优路径，得到最优的识别结果。

S102、根据所述最优识别结果中的语音指令词与本地预存的语音指令词列表进行匹配，若匹配成功则输出对应的语音控制指令。

具体的，对于步骤S102，根据上一步得到的最优识别结果进行分析，将最优识别结果中识别得到语音指令词与本地存储的语音指令词列表中已有的指令词进行逐条比对，若比对结果一致则输出语音控制指令至对应的设备进行语音控制，以使设备根据语音控制指令进行驱动。

S103、若匹配不成功，则对所述最优识别结果中的语音指令词进行标记，并上传至云端后台后进行存储。

具体的，对于步骤S103，若比对结果不一致，则将该指令信息标记，并上传至云端后台进行存储，而本地设备则不执行动作。

S104、当所述云端后台检测存在超过预设标记次数的语音指令词后，自动下载该语音指令词至DSP语音处理芯片中，完成语音指令词的自学习。

具体的，对于步骤S104，当云端后台检测该语音信息的标记次数达到10次后，自动下载到存储语音芯片内部，完成一次学习过程。

S105、在接收用户发送的更新语音指令词的指令后，将新增的语音指令词更新至所述语音指令词列表，并关联至对应的场景联动模式。

具体的，对于步骤S105，当用户打开APP时，则会提示用户有新的指令词，是否需要关联进场景，用户确定后即可将语音面板生成的指令词关联到场景形成用户习惯的指令。例如设备当前默认的场景语音指令词是“回家模式”，实际上用户喜欢用“我回家了”代替“回家模式”这种生硬的交互模式，当设备标记“我回家了”超过10次则自动生成该指令词完成用户习惯的学习。

在优选的实施例中，所述自学习的语音控制方法，还包括：

具体的，用户通过设备的语音采集系统预先录入相关语音指令词，通过语音信号模数转换电路，将语音模拟信号转换成数字信号后输入至语音处理专用的DSP芯片中，DSP芯片运用语音识别算法软件分别进行前端处理、特征提取、模型训练和解码处理，构建WFST搜索空间，生成语音指令词列表后存储至本地。

在优选的实施例中，所述实时采集用户的语音输入信号，还包括：

具体的，通过配置了两个电容式麦克风，第一麦克风用于采集人声，第二麦克风用于采集环境音，其中第一麦克风是主话筒，用于拾取人与设备对话的语音，第二麦克风是背景声拾音话筒，通常安装在设备的底部或者顶部，并且远离第一麦克风，两个麦克风在内部有主板隔离。正常语音交互时，用户嘴巴靠近第一麦克风或者声源距离与第一麦克风接近，产生较大的音频信号Va，与此同时，第二麦克风也会得到一些语音信号Vb，但Vb要比Va小得多，这两个信号输入语音前端处理器，其输入端是个差分放大器，也就是把两路信号相减后再放大，于是得到的信号是Vm＝Va-Vb。如果在使用环境中有背景噪音，因为音源是远离设备的，所以到达设备的两个麦克风时声波的强度几乎是一样的，也就是Va≈Vb，于是对于背景噪音，两个麦克风虽然都拾取背景噪音了，但Vm＝Va-Vb≈0，从上面的分析可以看出，这样的设计可以有效地抵御设备周边的环境噪声干扰，大大提高正常语音对话的清晰度。

在优选的实施例中，所述前端处理，具体为：

具体的，一句语音首先被麦克风拾音后成为语音数据流进入DSP最先由前端处理，前端处理是先进行语音格式转码将数据流转成PCM或者WAV格式的语音，然后进行端点检测，检测转码后语音中的有效语音。

在优选的实施例中，所述声学特征提取处理，具体为：

具体的，将前端处理得到的分段语音数据送入声学特征提取模块，进行声学特征提取，由于语音信号是短时平稳信号，首先将声音信号切成一针一针的，每针大约20～30MS，每针语音信号包含数个语音信号的基本周期，再通过傅里叶变换计算把语音信号中包含的能量值、基音频谱、共振峰值和短时过零率计算出来，建立数学模型。

在优选的实施例中，所述解码处理，具体为：

具体的，解码模块对提取的特征数据进行解码，解码过程中利用发音字典，声学模型，语言模型等信息构建WFST搜索空间，通过加权有限状态转换器基于半环代数理论，在状态转移弧上设置有输入符号、输出符号以及对应的权重值。在语音识别中，输入可能是发声的声韵母，输出是一个个汉字或词语。在搜索空间内寻找匹配概率最大的最优路径，WFST的计算过程虽然都有一个路径能输出最优结果，但是需要在所有的路径中找到最短的路径，使得语音识别的效率提高，并提高准确率，便得到最优的识别结果。

在优选的实施例中，所述构建WFST搜索空间模型还包括声学模型训练，具体为：

具体的，在采集到的语音指令进行声学特征提取后，将提取出的语音指令片段进行声学模型训练，本实施例中声学模型训练基于目前的圣经网络算法构架，将前端的特征提取出来的语音频谱作为神经网路算法的输入。其中，声学模型的训练步骤如下：1、获取语料集和对应的文字集；2、将获得的文字集进行格式化；3、从音频文件提取声学特征；4、单因素训练；5、将音频和文字对齐训练得到音频参数，最终得到指令词对应的信号信息。

如图3所示，本实施例还提供了一种实现自学习的语音控制方法的电路装置，包括第一麦克风、第二麦克风、AD转DC电源模块、语音主控MCU、按键模块、喇叭和WIFI模组，所述第一麦克风和第二麦克风，用于实现目标语音信号的采集以及环境音的采集并利用算法实现双麦降噪功能；所述语音主控MCU，用于实现语音信号的分析，学习以及控制信号的输出；所述WIFI模组，用于实现与云端的通讯，进而实现手机APP的控制；所述AC转DC电源模块，用于实现强电转弱点的功能，弱点供给语音模块和WIFI模块；所述实体按键模块用于实现场景本地一键操作。

设备预先已默认有一套可控制场景或者设备的语音指令词，当用户对着面板说出固定的指令词，设备即可执行相应的控制动作。比如用户对着面板说：“我回来了。”，面板执行开灯。如果当用户改变了语音内容，说：“我下班了。”此时此刻面板不会执行动作，麦克风会将该没有的语音拾音收集，通过语音MCU进行分析和翻译成指令词存储在MCU的存储器上进行标记，当下一次用户还是说出了该指令词，则再次标注记忆该指令，通过自学习生成该指令词，并通过WIFI通讯上传至服务器，当用户打开APP时，则会提示用户有新的指令词，是否需要关联进场景，用户确定后即可将语音面板生成的指令词关联到场景形成用户习惯的指令。

本发明实施例提供的一种自学习的语音控制方法，包括：当用户通过语音唤醒词唤醒设备后，实时采集用户的语音输入信号，先后经过前端处理、声学特征提取处理和解码处理，并通过构建WFST搜索空间模型筛选匹配概率最高的最优路径，得到最优识别结果；根据所述最优识别结果中的语音指令词与本地预存的语音指令词列表进行匹配，若匹配成功则输出对应的语音控制指令；若匹配不成功，则对所述最优识别结果中的语音指令词进行标记，并上传至云端后台后进行存储；当所述云端后台检测存在超过预设标记次数的语音指令词后，自动下载该语音指令词至DSP语音处理芯片中，完成语音指令词的自学习；在接收用户发送的更新语音指令词的指令后，将新增的语音指令词更新至所述语音指令词列表，并关联至对应的场景联动模式。本发明能够深度学习用户日常语音指令习惯，生成基于用户习惯的语音指令词至语音控制系统，无需进行繁琐的语音指令词训练过程，并解决目前固定离线式指令词在语音识别方面灵活性较低的问题，提高用户体验。

本发明第二实施例：

如图4所示，本实施例提供了一种自学习的语音控制系统，包括：

语音识别模块100，用于当用户通过语音唤醒词唤醒设备后，实时采集用户的语音输入信号，先后经过前端处理、声学特征提取处理和解码处理，并通过构建WFST搜索空间模型筛选匹配概率最高的最优路径，得到最优识别结果。

具体的，对于语音识别模块100，当用户说出该设备的语音唤醒词，唤醒语音设备的时候就开始实时采集用户的语音信号。通过语音MCU进行分析和翻译成指令词存储在MCU的存储器上进行标记，当设备的语音采集系统采集到用户的语音指令词以后，通过语音信号模数转换电路，将语音模拟信号转换成数字信号后输入到语音处理专用DSP芯片，DSP芯片运用语音识别算法软件在语音DSP芯片内进行语音识别，先后进行前端处理、特征提取、模型训练和解码四个步骤。采集的每一句语音首先被麦克风拾音后成为语音数据流进入DSP芯片后，最先由前端处理，前端处理是先进行语音格式转码将数据流转成PCM或者WAV格式的语音，然后进行端点检测，将转码后语音中的有效语音检测出来，最后将前端处理得到的分段语音数据送入特征提取模块，进行声学特征提取，最后解码模块对提取的特征数据进行解码，解码过程中利用发音字典，声学模型，语言模型等信息构建WFST搜索空间，在搜索空间内寻找匹配概率最大的最优路径，得到最优的识别结果。

指令匹配模块200，用于根据所述最优识别结果中的语音指令词与本地预存的语音指令词列表进行匹配，若匹配成功则输出对应的语音控制指令。

具体的，对于指令匹配模块200，根据最优识别结果进行分析，将最优识别结果中识别得到语音指令词与本地存储的语音指令词列表中已有的指令词进行逐条比对，若比对结果一致则输出语音控制指令至对应的设备进行语音控制，以使设备根据语音控制指令进行驱动。

自学习模块300，用于当语音指令词匹配不成功时，对所述最优识别结果中的语音指令词进行标记，并上传至云端后台后进行存储；当所述云端后台检测存在超过预设标记次数的语音指令词后，自动下载该语音指令词至DSP语音处理芯片中，完成语音指令词的自学习。

具体的，对于自学习模块300，若比对结果不一致，则将该指令信息标记，并上传至云端后台进行存储，而本地设备则不执行动作。当云端后台检测该语音信息的标记次数达到10次后，自动下载到存储语音芯片内部，完成一次学习过程。

指令更新模块400，用于在接收用户发送的更新语音指令词的指令后，将新增的语音指令词更新至所述语音指令词列表，并关联至对应的场景联动模式。

具体的，对于指令更新模块400，当用户打开APP时，则会提示用户有新的指令词，是否需要关联进场景，用户确定后即可将语音面板生成的指令词关联到场景形成用户习惯的指令。例如设备当前默认的场景语音指令词是“回家模式”，实际上用户喜欢用“我回家了”代替“回家模式”这种生硬的交互模式，当设备标记“我回家了”超过10次则自动生成该指令词完成用户习惯的学习。

在优选的实施例中，所述自学习的语音控制系统，，还包括：

具体的，对于预处理模块和语音指令词列表模块，用户通过设备的语音采集系统预先录入相关语音指令词，通过语音信号模数转换电路，将语音模拟信号转换成数字信号后输入至语音处理专用的DSP芯片中，DSP芯片运用语音识别算法软件分别进行前端处理、特征提取、模型训练和解码处理，构建WFST搜索空间，生成语音指令词列表后存储至本地。

本发明实施例提供的一种自学习的语音控制系统，包括：语音识别模块，用于当用户通过语音唤醒词唤醒设备后，实时采集用户的语音输入信号，先后经过前端处理、声学特征提取处理和解码处理，并通过构建WFST搜索空间模型筛选匹配概率最高的最优路径，得到最优识别结果；指令匹配模块，用于根据所述最优识别结果中的语音指令词与本地预存的语音指令词列表进行匹配，若匹配成功则输出对应的语音控制指令；自学习模块，用于当语音指令词匹配不成功时，对所述最优识别结果中的语音指令词进行标记，并上传至云端后台后进行存储；当所述云端后台检测存在超过预设标记次数的语音指令词后，自动下载该语音指令词至DSP语音处理芯片中，完成语音指令词的自学习；指令更新模块，用于在接收用户发送的更新语音指令词的指令后，将新增的语音指令词更新至所述语音指令词列表，并关联至对应的场景联动模式。本发明能够深度学习用户日常语音指令习惯，生成基于用户习惯的语音指令词至语音控制系统，无需进行繁琐的语音指令词训练过程，并解决目前固定离线式指令词在语音识别方面灵活性较低的问题，提高用户体验。

本发明的另一个实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的一种自学习的语音控制方法。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述模块的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和变形，这些改进和变形也视为本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

Claims

1.一种自学习的语音控制方法，其特征在于，至少包括如下步骤：

2.根据权利要求1所述的自学习的语音控制方法，其特征在于，还包括：

3.根据权利要求1所述的自学习的语音控制方法，其特征在于，所述实时采集用户的语音输入信号，还包括：

通过双麦克风拾音器进行人声和环境音的采集，并采用双麦降噪算法进行降噪采集得到所述语音输入信号；其中，所述环境音的声源远离所述双麦克风拾音器，所述双麦克风拾音器采集到的环境音的声波强度相同，所述人声距离所述双麦克风拾音器中的一个麦克风拾音器较近，所述双麦克风拾音器采集到的人声的声波强度不同，所述双麦降噪算法为根据所述双麦克风拾音器采集到的人声和环境音的声波强度计算得到所述语音输入信号。

4.根据权利要求1所述的自学习的语音控制方法，其特征在于，所述构建WFST搜索空间模型还包括声学模型训练，具体为：

在获取语料集合对应的文字集后，将获得的文字集进行格式化处理，在音频文件中提取声学特征数据并进行单音素训练后，将得到的音频信息和文字信息进行对齐训练，训练得到音频参数。

5.根据权利要求1所述的自学习的语音控制方法，其特征在于，所述前端处理，具体为：

将所述语音输入信号转化为语音数据流，传输至DSP语音处理芯片；

6.根据权利要求1所述的自学习的语音控制方法，其特征在于，所述声学特征提取处理，具体为：

将通过所述前端处理后的语音信号进行切割，得到若干帧的语音信号；

通过傅里叶变换算法计算每帧语音信号中包含的能量值、基音频谱、共振峰值和短时过零率，并建立声学特征数学模型。

7.根据权利要求2所述的自学习的语音控制方法，其特征在于，所述解码处理，具体为：

通过DSP语音处理芯片中的解码模块对所述声学特征数据进行解码处理，并采用发音字典、声学模型和语言模型建立WFST搜索空间模型。

8.一种自学习的语音控制系统，其特征在于，包括：

9.根据权利要求8所述的自学习的语音控制系统，其特征在于，还包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7任一项所述的自学习的语音控制方法。