CN109192211A

CN109192211A - 一种语音信号识别的方法、装置及设备

Info

Publication number: CN109192211A
Application number: CN201811266724.5A
Authority: CN
Inventors: 张新; 王慧君; 廖湖锋; 毛跃辉; 陶梦春; 汪进; 王现林
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2019-01-11

Abstract

本发明公开了一种语音信号识别的方法、装置及设备，该方法包括：采集输入的语音信号，对所述语音信号进行频谱分析，将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比，筛选出无用语音信号，删除所述语音信号中的所述无用语音信号，并对其余的语音信号进行文字识别；本发明提供的方法，有效地解决了语音识别技术中对不包括控制指令的无用语音信号识别带来的语音识别速率低，和工作效率低的问题。

Description

一种语音信号识别的方法、装置及设备

技术领域

本发明涉及语音识别研究领域，尤其涉及一种语音信号识别的方法、装置及设备。

背景技术

随着计算机技术和人工智能技术的发展，让计算能听、能说，是未来人机交互的重要发展方向，其中语音成为最被看好的人机交互方式，而且利用语音技术进行人机交互比其他的交互方式有更多的优点；

目前的语音识别技术越来越智能化，越来越多的智能设备使用了语音识别技术，但是现阶段的语音识别技术的识别的准确速度慢，导致一些运用语音识别技术的设备的响应慢，且在当前的智能语音识别设备的使用过程中待机时，会识别其所在环境中的所有语音如“啊、呵呵、嘻嘻…”，这时由于解析交流声音、环境声音等无用的词汇文本，浪费了大量的工作，且给用户带来的体验较差；当智能语音设备被唤醒后，也存在很大情况是识别到不包含控制指令的语音，极大的降低了智能语音识别设备的工作效率。

发明内容

本发明提供一种语音信号识别的方法、装置及设备，解决语音识别技术中对不包括控制指令的无用语音信号识别带来的语音识别速率低，和工作效率低的问题。

为了解决上述的技术问题，本发明提供了一种语音信号识别的方法、装置及设备，具体方法包括：

依照本发明第一方面，提供一种语音信号识别的方法，该方法包括：

采集输入的语音信号；

对所述语音信号进行频谱分析，将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比，筛选出无用语音信号；

删除所述语音信号中的所述无用语音信号，并对其余的语音信号进行文字识别。

依照本发明第二方面，提供一种语音信号识别的装置，该装置包括：

语音信号采集单元，用于采集输入的语音信号；

无用语音筛选单元，用于对所述语音信号进行频谱分析，将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比，筛选出无用语音信号；

语音识别单元，删除所述语音信号中的所述无用语音信号，并对其余的语音信号进行文字识别。

依照本发明第三方面，提供一种语音信号识别的设备，该设备包括处理器和存储器，其中，所述处理器用于：

采集输入的语音信号；

依照本发明第四方面，提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，该计算机程序被执行时实现本发明第一方面、第二方面和第三方面任意一项所述的内容。

本发明提供的一种语音信号识别的方法、装置及设备与现有技术相比，具有如下优点和有益效果：

由于本发明通过自学习控制过程中无效、无异议的多余无用词汇，将无用词汇对应音频的频谱图数据记录到无用词汇频谱库，在识别语音时，优先根据无用词汇频谱库识别出包含无用词汇的语音信号，将其删除，无需增加包含无用词汇的语音信号的解析过程，提高了语音信号的识别速率和响应速率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A为实施例一提供的一种语音信号识别的方法的步骤示意图；

图1B为实施例一提供的一种语音信号识别的方法中筛选出无用语音信号的流程图；

图2为实施例二提供的一种语音信号识别的装置的示意图；

图3为实施例三提供的一种语音信号识别的设备的示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一：

本发明提供一种语音信号识别的方法，步骤示意图如图1A，包括：

步骤110，采集输入的语音信号；

可选地，在实施中，用语音采集装置采集用户输入的语音信号；

上述语音采集装置可以是麦克风或其他能够采集语音的装置。

步骤120，对上述语音信号进行频谱分析，将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比，筛选出无用语音信号；

可选地，在实施中，确定触发训练过程时，采集输入的语音信号，对上述语音信号进行文字识别和频谱分析；根据上述文字识别和频谱分析的结果，将上述语音信号中的无用词汇的频谱图数据保存到无用词汇频谱库；

在上述训练过程中，将文字识别的结果与预先建立的无用词汇库中无用词汇对比确定存在无用词汇时，保存上述无用词汇对应音频的频谱图数据并对上述无用词汇的出现次数计数；确定上述无用词汇的计数次数大于预设值时，将上述无用词汇的频谱图数据保存到无用词汇频谱库。

上述无用词汇可以但不限于包括如下词汇：

1)常用的短促音，如：“啊”、“天啊”、“讨厌”、“早上好”、“妈妈”、“弟弟”等；

2)语气音、环境音，如：口腔音、鼻音、沙哑音、情绪变化的哭声、哈哈声、走动时的衣服窸窣音、步伐音、吃饭时吧唧声、气息声、哈欠声等；

3)天气、设备等发出的可被解析成文字的声音；

对上述无用词汇不做过多限定，本领域的技术人员可根据实际情况将影响语音信号识别的声音记录到上述无用词汇库。

对上述无用词汇的计数次数的预设值不做过多限定，本领域的技术人员可根据实际情况设置，在本实施例中，将上述预设值设置为1，即在训练过程中，上述无用词汇出现的次数大于1时，即把上述无用词汇对应音频的频谱图数据保存到无用词汇频谱库。

上述无用词汇库中一个无用词汇可以是单个字的形式，也可以是包括多个字的词的形式，也可以是包括多个词的语句的形式。

在实施中，将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据依次对比；确定频谱分析的结果存在与无用词汇频谱图数据相匹配的频谱图数据片段时，确定上述频谱图数据片段对应的语音信号为无用语音信号；

在实施中，确定上述频谱分析的结果存在与无用词汇频谱图数据的相似度阈值满足设定要求的频谱图数据片段时，确定上述频谱图数据片段为上述频谱分析的结果与无用词汇频谱图数据相匹配的频谱图数据片段。

作为一种可选的实施方式，上述相似度阈值满足设定要求可理解为：上述频谱分析的结果存在与无用词汇频谱图数据的相似度阈值小于预设阈值时，即认为上述相似度阈值满足设定要求。

步骤130，删除上述语音信号中的上述无用语音信号，并对其余的语音信号进行文字识别。

采用上述语音信号识别的方法，在对语音信号进行语义识别之前，先对上述语音信号进行频谱分析，根据上述频谱分析的结果结合训练时建立的无用词汇频谱库筛选出上述语音信号中的无用语音信号，在对上述语音信号进行文字识别之前，将上述无用语音信号直接删除，不再对上述无用语音信号进行文字识别，明显地提高了语音识别的准确率和识别的速率。

作为一种可选的实施方式，该方法用于空调、电视等智能语音设备时，包括：采集输入的语音信号；对上述语音信号进行频谱分析，将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比，筛选出无用语音信号；删除上述语音信号中的上述无用语音信号，并对其余的语音信号进行文字识别。

作为一种可选的实施方式，该方法用于服务器时，包括：接收设备端上传的语音信号；对上述语音信号进行频谱分析，将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比，筛选出无用语音信号；删除上述语音信号中的上述无用语音信号，并对其余的语音信号进行文字识别。

可选地，服务器可以将文字识别的结果发送给设备。

以下给出一个具体的筛选出无用语音信号的流程图，参见图1B，包括：

步骤1101，采集输入的语音信号；

步骤1102，对上述文字识别和频谱分析；

步骤1103，判断文字识别的结果中是否确定存在无用词汇，确定存在无用词汇时，进入步骤1104，否则进入步骤1101；

步骤1104，保存上述无用词汇对应音频的频谱图数据并对上述无用词汇的出现次数计数；

步骤1105，判断上述无用词汇的计数次数是否大于预设值时，若大于，进入步骤1106，否则，进入步骤1101；

步骤1106，将上述无用词汇的频谱图数据保存到无用词汇频谱库，并进入步骤1107；

步骤1107，判断是否指示训练结束，若结束进入步骤1108，否则进入步骤1101；

对指示训练结束的形式不做过多限定，可以是语音控制命令，也可以是设备上的一个按钮触发指示训练结束，本领域的技术人员可根据实际情况设置；

步骤1108，结束训练。

在使用上述方法进行语音识别的具体过程，如上述步骤110，步骤120和步骤130，对重复之处不做过多叙述。

实施例二：

在本实施例中，提供一种语音信号识别的装置，装置图如图2，包括：

语音信号采集单元201，用于采集输入的语音信号；

无用语音筛选单元202，用于对上述语音信号进行频谱分析，将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比，筛选出无用语音信号；

语音识别单元203，删除上述语音信号中的上述无用语音信号，并对其余的语音信号进行文字识别。

上述无用语音筛选单元，用于确定触发训练过程时，采集输入的语音信号，对上述语音信号进行文字识别和频谱分析；根据上述文字识别和频谱分析的结果，将上述语音信号中的无用词汇的频谱图数据保存到无用词汇频谱库。

上述无用语音筛选单元，用于将文字识别的结果与无用词汇库中无用词汇对比确定存在无用词汇时，保存上述无用词汇对应音频的频谱图数据并对上述无用词汇的出现次数计数；确定上述无用词汇的计数次数大于预设值时，将上述无用词汇的频谱图数据保存到无用词汇频谱库。

上述无用语音筛选单元，用于将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据依次对比；确定频谱分析的结果存在与无用词汇频谱图数据相匹配的频谱图数据片段时，确定上述频谱图数据片段对应的语音信号为无用语音信号。

上述无用语音筛选单元，用于确定上述频谱分析的结果存在与无用词汇频谱图数据的相似度阈值满足设定要求的频谱图数据片段时，确定上述频谱图数据片段为上述频谱分析的结果与无用词汇频谱图数据相匹配的频谱图数据片段。

实施例三：

本发明提供一种语音信号识别的设备，该设备包括处理器301和存储器302，如图3所示，其中，上述处理器用于：

采集输入的语音信号；

对上述语音信号进行频谱分析，将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比，筛选出无用语音信号；

删除上述语音信号中的上述无用语音信号，并对其余的语音信号进行文字识别。

上述处理器具体用于，确定触发训练过程时，采集输入的语音信号，对上述语音信号进行文字识别和频谱分析；根据上述文字识别和频谱分析的结果，将上述语音信号中的无用词汇的频谱图数据保存到无用词汇频谱库。

上述处理器具体用于，将文字识别的结果与无用词汇库中无用词汇对比确定存在无用词汇时，保存上述无用词汇对应音频的频谱图数据并对上述无用词汇的出现次数计数；确定上述无用词汇的计数次数大于预设值时，将上述无用词汇的频谱图数据保存到无用词汇频谱库。

上述处理器具体用于，将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据依次对比；确定频谱分析的结果存在与无用词汇频谱图数据相匹配的频谱图数据片段时，确定上述频谱图数据片段对应的语音信号为无用语音信号。

上述处理器具体用于，确定上述频谱分析的结果存在与无用词汇频谱图数据的相似度阈值满足设定要求的频谱图数据片段时，确定上述频谱图数据片段为上述频谱分析的结果与无用词汇频谱图数据相匹配的频谱图数据片段。

作为一种可选的实施方式，上述设备为空调时，上述处理器具体用于，采集输入的语音信号；对上述语音信号进行频谱分析，将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比，筛选出无用语音信号；删除上述语音信号中的上述无用语音信号，并对其余的语音信号进行文字识别。

作为一种可选的实施方式，上述设备为服务器时，上述处理器具体用于，接收设备端上传的语音信号；对上述语音信号进行频谱分析，将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比，筛选出无用语音信号；删除上述语音信号中的上述无用语音信号，并对其余的语音信号进行文字识别。

实施例四：

本实施例提供一种计算机存储介质，上述计算机存储介质存储有计算机程序，该计算机程序被执行时实现本发明实施例一、实施例二和实施例三任意一项所述的内容。

应当说明的是，本发明的各个实施例的技术方案可以相互结合，但是必须是以本领域的技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当人认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音信号识别的方法，其特征在于，包括：

采集输入的语音信号；

2.如权利要求1所述的方法，其特征在于，预先建立的无用词汇频谱库，包括：

确定触发训练过程时，采集输入的语音信号，对所述语音信号进行文字识别和频谱分析；

根据所述文字识别和频谱分析的结果，将所述语音信号中的无用词汇的频谱图数据保存到无用词汇频谱库。

3.如权利要求2所述的方法，其特征在于，根据所述文字识别和频谱分析的结果，将所述语音信号中的无用词汇的频谱图数据保存到无用词汇频谱库，包括：

将文字识别的结果与无用词汇库中无用词汇对比确定存在无用词汇时，保存所述无用词汇对应音频的频谱图数据并对所述无用词汇的出现次数计数；

确定所述无用词汇的计数次数大于预设值时，将所述无用词汇的频谱图数据保存到无用词汇频谱库。

4.如权利要求1所述的方法，其特征在于，将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据对比，筛选出无用语音信号，包括：

将频谱分析的结果与预先建立的无用词汇频谱库中的无用词汇频谱图数据依次对比；

确定频谱分析的结果存在与无用词汇频谱图数据相匹配的频谱图数据片段时，确定所述频谱图数据片段对应的语音信号为无用语音信号。

5.根据权利要求1所述的方法，其特征在于，确定频谱分析的结果存在与无用词汇频谱图数据相匹配的频谱图数据片段，包括：

确定所述频谱分析的结果存在与无用词汇频谱图数据的相似度阈值满足设定要求的频谱图数据片段时，确定所述频谱图数据片段为所述频谱分析的结果与无用词汇频谱图数据相匹配的频谱图数据片段。

6.根据权利要求1所述的方法，其特征在于，该方法应用于空调，包括：

采集输入的语音信号；

7.根据权利要求1所述的方法，其特征在于，该方法应用于服务器，包括：

接收设备端上传的语音信号；

8.一种语音信号识别的装置，其特征在于，包括：

语音信号采集单元，用于采集输入的语音信号；

9.一种语音信号识别的设备，其特征在于，该设备包括处理器和存储器，其中，所述处理器用于：

采集输入的语音信号；

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，该计算机程序被执行时实现权利要求1-7任意一项所述的方法。