CN110992931B

CN110992931B - 一种基于d2d技术的离线式语音控制方法、系统及存储介质

Info

Publication number: CN110992931B
Application number: CN201911314818.XA
Authority: CN
Inventors: 陈品良; 李强; 魏会杰
Original assignee: Guangdong Ruizhu Intelligent Technology Co ltd
Current assignee: Guangdong Ruizhu Intelligent Technology Co ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2022-07-26
Anticipated expiration: 2039-12-18
Also published as: CN110992931A

Abstract

本发明公开了一种基于D2D技术的离线式语音控制方法、系统及存储介质，所述方法包括：预先采集用户录入的语音指令词后，通过语音识别算法进行前端处理和声学特征提取处理，得到声学特征数据后进行解码处理，构建WFST搜索空间模型，生成语音指令词列表；在实时采集用户的语音输入信号后，通过WFST搜索空间模型寻找匹配概率最高的最优路径，得到最优识别结果与语音指令词列表进行比对，得到比对结果后进行匹配语音控制指令，并通过D2D技术传输语音控制指令至设有D2D模块的设备，完成对设备的通讯和控制。本发明能够解决传统网络网关崩溃后无法进行通讯的问题，在网络通讯覆盖盲区能够通过D2D技术借助无线网络覆盖区域内的用户终端连接到无线通信网络。

Description

一种基于D2D技术的离线式语音控制方法、系统及存储介质

技术领域

本发明涉及智能家居技术领域，尤其涉及一种基于D2D技术的离线式语音控制方法、系统及存储介质。

背景技术

近年来海量智能终端设备呈现与日俱增的局面，满足用户特定需求的新兴通信业务也处于爆发之势,移动通信承载的数据流量爆炸式增长和无线频谱资源紧缺的矛盾日益涌现。因此，如何有效的增加网络容量、提高无线频谱利用率、提升不同通信模式下的终端用户体验变成了刻不容缓的任务。而5G提出的关键技术在解决上述问题上将大有可为，内容包含无线技术和网络技术两方面。在无线技术方面，终端直通(Device-to-Device，D2D)、大规模天线阵列、全频谱接入、超密集组网和新型多址等技术已成为业内关注焦点。

但是，在现有技术的研究与实践过程中，本发明的发明人发现，现有技术存在以下缺陷：传统网络在网关崩溃后无法进行通讯，并且在网络通讯覆盖盲区中，用户终端无法连接到无线通讯网络。

发明内容

本发明实施例所要解决的技术问题在于，提供一种基于D2D技术的离线式语音控制方法、系统及存储介质，能够解决传统网络网关崩溃后无法进行通讯的问题，从而实现离线式语音控制设备。

为解决上述问题，本发明的一个实施例提供一种基于D2D技术的离线式语音控制方法，至少包括如下步骤：

预先采集用户录入的语音指令词后，通过语音识别算法先后进行前端处理和声学特征提取处理，得到对应的声学特征数据；

对所述声学特征数据进行解码处理，构建WFST搜索空间模型，并生成语音指令词列表；

在实时采集用户的语音输入信号后，先后经过前端处理、声学特征提取处理和解码处理，并通过所述WFST搜索空间模型寻找匹配概率最高的最优路径，得到最优识别结果；

根据所述最优识别结果与所述语音指令词列表进行比对，得到比对结果；

根据所述比对结果匹配对应的语音控制指令，并通过D2D技术传输所述对应的语音控制指令至对应的设有D2D模块的设备，以使根据所述对应的语音控制指令完成对设备的通讯和控制。

进一步地，所述基于D2D技术的离线式语音控制方法，还包括：

通过D2D技术对设有D2D模块的设备之间进行建立通讯连接和场景添加。

进一步地，所述前端处理，具体为：

将通过麦克风装置采集的语音信号转化为语音数据流，传输至DSP语音处理芯片；

通过所述DSP语音处理芯片将所接收的语音数据流进行语音格式转码处理，将语音数据流转换成对应格式的语音文件；

对转码后的语音文件进行端点检测，检测得到转码后的语音文件中的有效语音信息。

进一步地，所述声学特征提取处理，具体为：

将通过所述前端处理后的语音信号进行切割，得到若干针的语音信号；

通过傅里叶变换算法计算每针语音信号中包含的能量值、基音频谱、共振峰值和短时过零率，并建立声学特征数学模型。

进一步地，所述解码处理，具体为：

通过DSP语音处理芯片中的解码模块对提取的声学特征数据进行解码处理，并采用发音字典、声学模型和语言模型建立WFST搜索空间模型。

进一步地，所述通过D2D技术对设有D2D模块的设备之间进行建立通讯连接和场景添加，具体为：

在第一用户终端发起会话请求后，通过无线网关检测数据包的源端和目的端，判断源端和目的端是否在预设通讯范围内，若是，则执行下一步；

通过无线网关根据预设策略判断是否能够建立D2D连接；若是，则执行下一步；

通过基站请求源端和目的端测量信道质量，判断是否能够建立D2D连接；若是，则执行下一步；

在检测源端和目的端均设有D2D模块后，基站通过控制信令建立D2D连接，以使源端和目的端在D2D链路上通过使用端对端的IP地址进行数据传输，并使得源端通过监听预设范围内的其它设备的IP数据流，直接与其它设备建立D2D连接。

本发明的一个实施例提供了一种基于D2D技术的离线式语音控制系统，包括：

预处理模块，用于预先采集用户录入的语音指令词后，通过语音识别算法先后进行前端处理和声学特征提取处理，得到对应的声学特征数据；

构建WFST模块，对所述声学特征数据进行解码处理，构建WFST搜索空间模型，并生成语音指令词列表；

语音识别模块，用于在实时采集用户的语音输入信号后，先后经过前端处理、声学特征提取处理和解码处理，并通过所述WFST搜索空间模型寻找匹配概率最高的最优路径，得到最优识别结果；

比对模块，用于根据所述最优识别结果与所述语音指令词列表进行比对，得到比对结果；

D2D传输模块，用于根据所述比对结果匹配对应的语音控制指令，并通过D2D技术传输所述对应的语音控制指令至对应的设有D2D模块的设备，以使根据所述对应的语音控制指令完成对设备的通讯和控制。

进一步地，所述的基于D2D技术的离线式语音控制系统，还包括：

场景添加模块，用于通过D2D技术对设有D2D模块的设备之间进行建立通讯连接和场景添加。

本发明的一个实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的基于D2D技术的离线式语音控制方法。

实施本发明实施例，具有如下有益效果：

本发明实施例提供的一种基于D2D技术的离线式语音控制方法、系统及存储介质，所述方法包括：预先采集用户录入的语音指令词后，通过语音识别算法先后进行前端处理和声学特征提取处理，得到对应的声学特征数据；对所述声学特征数据进行解码处理，构建WFST搜索空间模型，并生成语音指令词列表；在实时采集用户的语音输入信号后，先后经过前端处理、声学特征提取处理和解码处理，并通过所述WFST搜索空间模型寻找匹配概率最高的最优路径，得到最优识别结果；根据所述最优识别结果与所述语音指令词列表进行比对，得到比对结果；根据所述比对结果匹配对应的语音控制指令，并通过D2D技术传输所述对应的语音控制指令至对应的设有D2D模块的设备，以使根据所述对应的语音控制指令完成对设备的通讯和控制。本发明能够解决传统网络网关崩溃后无法进行通讯的问题，在网络通讯覆盖盲区能够通过D2D技术借助无线网络覆盖区域内的用户终端连接到无线通信网络，同时，通过利用D2D的相邻传输特性能够快速地发现设备并进行场景添加，实现离线式语音控制设备的效果。

附图说明

图1是本发明第一实施例提供的一种基于D2D技术的离线式语音控制方法的流程示意图；

图2是本发明第一实施例提供的实现基于D2D技术的离线式语音控制方法的电路的结构示意图；

图3是本发明第一实施例提供的实现基于D2D技术的离线式语音控制方法的流程示意图；

图4是本发明第二实施例提供的一种基于D2D技术的离线式语音控制系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明第一实施例：

请参阅图1-3。

如图1所示，本实施例提供了一种基于D2D技术的离线式语音控制方法，至少包括如下步骤：

S101、预先采集用户录入的语音指令词后，通过语音识别算法先后进行前端处理和声学特征提取处理，得到对应的声学特征数据。

S102、对所述声学特征数据进行解码处理，构建WFST搜索空间模型，并生成语音指令词列表。

具体的，对于步骤S101和S102，用户通过设备的语音采集系统预先录入相关语音指令词，通过语音信号模数转换电路，将语音模拟信号转换成数字信号后输入至语音处理专用的DSP芯片中，DSP芯片运用语音识别算法软件分别进行前端处理、特征提取、模型训练和解码处理，构建WFST搜索空间，生成语音指令词列表后存储至本地。

S103、在实时采集用户的语音输入信号后，先后经过前端处理、声学特征提取处理和解码处理，并通过所述WFST搜索空间模型寻找匹配概率最高的最优路径，得到最优识别结果。

具体的，对于步骤S103，如图2和图3所示，当设备的语音采集系统采集到用户的语音指令词以后，通过语音信号模数转换电路，将语音模拟信号转换成数字信号后输入到语音处理专用DSP芯片，DSP芯片运用语音识别算法软件在语音DSP芯片内进行语音识别，先后进行前端处理、特征提取、模型训练和解码四个步骤。采集的每一句语音首先被麦克风拾音后成为语音数据流进入DSP芯片后，最先由前端处理，前端处理是先进行语音格式转码将数据流转成PCM或者WAV格式的语音，然后进行端点检测，将转码后语音中的有效语音检测出来，最后将前端处理得到的分段语音数据送入特征提取模块，进行声学特征提取，最后解码模块对提取的特征数据进行解码，解码过程中利用发音字典，声学模型，语言模型等信息构建WFST搜索空间，在搜索空间内寻找匹配概率最大的最优路径，得到最优的识别结果。

S104、根据所述最优识别结果与所述语音指令词列表进行比对，得到比对结果。

具体的，对于步骤S104，根据上一步得到的最优识别结果进行分析，将最优识别结果中识别得到语音指令词与本地存储的语音指令词列表中已有的指令词进行比对，最终得到比对结果。

S105、根据所述比对结果匹配对应的语音控制指令，并通过D2D技术传输所述对应的语音控制指令至对应的设有D2D模块的设备，以使根据所述对应的语音控制指令完成对设备的通讯和控制。

具体的，对于步骤S105，通过麦克风拾音后经过语音算法处理的数据与已有的语音指令词数据进行对比，如果结果一致，则进行设备的驱动指令的下发，控制对应的设备工作。例如控制灯的开关或者窗帘的打开或者关闭指令后将该带有控制指令的信号通过串口传输技术将信号送入D2D数据传输模块，实现数据的输出，同时匹配对应的语音播报词传输到播报音数模转换电路，实现播报。该控制指令通过D2D技术传输与同样有D2D模块的设备，例如嵌入了D2D模组的灯设备或者窗帘设备进行设备对设备的通讯链接，实现点对点的快速控制。

需要说明的是，D2D技术是终端直通技术D2D通信技术是指两个对等的用户节点之间直接进行通信的一种通信方式。在由D2D通信用户组成的分散式网路中，每个用户节点都能发送和接收信号，并具有自动路由(转发消息)的功能。网路的参与者共用它们所拥有的一部分硬体资源，包括信息处理、存储以及网路连接能力等。这些共用资源向网路提供服务和资源，能被其它用户直接访问而不需要经过中间实体。

在优选的实施例中，所述基于D2D技术的离线式语音控制方法，还包括：

在优选的实施例中，所述通过D2D技术对设有D2D模块的设备之间进行建立通讯连接和场景添加，具体为：

具体的，D2D会话的建立包括以下步骤：

UE发起会话请求；GW检测数据包的源端和目的端，发现源端UE和目的端UE在相同或邻近小区；GW根据一定策略决定其是否可以建立D2D连接；eNodeB请求两端UE测量信道质量，据此判断D2D连接是否可以建立；如果两UE都有D2D功能，则eNodeB通过控制信令建立D2D连接；在D2D链路建立成功后，eNodeB仍然负责蜂窝网络和D2D的资源分配；两端UE在D2D链路上使用端对端的IP地址进行数据传输，不需要经过eNodeB即使D2D连接成功的建立起来，eNodeB仍然负责蜂窝和D2D的资源分配，该UE可继续保持与Internet的连接。通过监听相距较近设备的IP数据流，来建立D2D连接，用户不需要特定的发起一个D2D会话请求，将由网络自动的在蜂窝连接和D2D连接中进行选择。

在优选的实施例中，所述前端处理，具体为：

具体的，一句语音首先被麦克风拾音后成为语音数据流进入DSP最先由前端处理，前端处理是先进行语音格式转码将数据流转成PCM或者WAV格式的语音，然后进行端点检测，检测转码后语音中的有效语音。

在优选的实施例中，所述声学特征提取处理，具体为：

具体的，将前端处理得到的分段语音数据送入声学特征提取模块，进行声学特征提取，由于语音信号是短时平稳信号，首先将声音信号切成一针一针的，每针大约20～30MS，每针语音信号包含数个语音信号的基本周期，再通过傅里叶变换计算把语音信号中包含的能量值、基音频谱、共振峰值、短时过零率计算出来，建立数学模型。

在优选的实施例中，所述解码处理，具体为：

具体的，解码模块对提取的特征数据进行解码，解码过程中利用发音字典，声学模型，语言模型等信息构建WFST搜索空间，通过加权有限状态转换器基于半环代数理论，在状态转移弧上设置有输入符号、输出符号以及对应的权重值。在语音识别中，输入可能是发声的声韵母，输出是一个个汉字或词语。在搜索空间内寻找匹配概率最大的最优路径，WFST的计算过程虽然都有一个路径能输出最优结果，但是需要在所有的路径中找到最短的路径，使得语音识别的效率提高，并提高准确率，便得到最优的识别结果。

本发明实施例提供的一种基于D2D技术的离线式语音控制方法，包括：预先采集用户录入的语音指令词后，通过语音识别算法先后进行前端处理和声学特征提取处理，得到对应的声学特征数据；对所述声学特征数据进行解码处理，构建WFST搜索空间模型，并生成语音指令词列表；在实时采集用户的语音输入信号后，先后经过前端处理、声学特征提取处理和解码处理，并通过所述WFST搜索空间模型寻找匹配概率最高的最优路径，得到最优识别结果；根据所述最优识别结果与所述语音指令词列表进行比对，得到比对结果；根据所述比对结果匹配对应的语音控制指令，并通过D2D技术传输所述对应的语音控制指令至对应的设有D2D模块的设备，以使根据所述对应的语音控制指令完成对设备的通讯和控制。本发明能够解决传统网络网关崩溃后无法进行通讯的问题，在网络通讯覆盖盲区能够通过D2D技术借助无线网络覆盖区域内的用户终端连接到无线通信网络，同时，通过利用D2D的相邻传输特性能够快速地发现设备并进行场景添加，实现离线式语音控制设备的效果。

本发明第二实施例：

如图4所示，本实施例提供了一种基于D2D技术的离线式语音控制系统，包括：

预处理模块100，用于预先采集用户录入的语音指令词后，通过语音识别算法先后进行前端处理和声学特征提取处理，得到对应的声学特征数据。

构建WFST模块200，对所述声学特征数据进行解码处理，构建WFST搜索空间模型，并生成语音指令词列表。

具体的，对于预处理模块100和构建WFST模块200，用户通过设备的语音采集系统预先录入相关语音指令词，通过语音信号模数转换电路，将语音模拟信号转换成数字信号后输入至语音处理专用的DSP芯片中，DSP芯片运用语音识别算法软件分别进行前端处理、特征提取、模型训练和解码处理，构建WFST搜索空间，生成语音指令词列表后存储至本地。

语音识别模块300，用于在实时采集用户的语音输入信号后，先后经过前端处理、声学特征提取处理和解码处理，并通过所述WFST搜索空间模型寻找匹配概率最高的最优路径，得到最优识别结果。

具体的，对于语音识别模块300，当设备的语音采集系统采集到用户的语音指令词以后，通过语音信号模数转换电路，将语音模拟信号转换成数字信号后输入到语音处理专用DSP芯片，DSP芯片运用语音识别算法软件在语音DSP芯片内进行语音识别，先后进行前端处理，特征提取，模型训练，解码四个步骤。一句语音首先被麦克风拾音后成为语音数据流进入DSP芯片后，最先由前端处理，前端处理是先进行语音格式转码将数据流转成PCM或者WAV格式的语音，然后进行端点检测，将转码后语音中的有效语音检测出来，最后将前端处理得到的分段语音数据送入特征提取模块，进行声学特征提取，最后解码模块对提取的特征数据进行解码，解码过程中利用发音字典，声学模型，语言模型等信息构建WFST搜索空间，在搜索空间内寻找匹配概率最大的最优路径，得到最优的识别结果。

比对模块400，用于根据所述最优识别结果与所述语音指令词列表进行比对，得到比对结果。

具体的，对于比对模块400，根据最优识别结果进行分析，将最优识别结果中识别得到语音指令词与本地存储的语音指令词列表中已有的指令词进行比对，最终得到比对结果。

D2D传输模块500，用于根据所述比对结果匹配对应的语音控制指令，并通过D2D技术传输所述对应的语音控制指令至对应的设有D2D模块的设备，以使根据所述对应的语音控制指令完成对设备的通讯和控制。

具体的，对于D2D传输模块500，通过麦克风拾音后经过语音算法处理的数据与已有的语音指令词数据进行对比，如果结果一致，则进行设备的驱动指令的下发，控制对应的设备工作。例如控制灯的开关或者窗帘的打开或者关闭指令后将该带有控制指令的信号通过串口传输技术将信号送入D2D数据传输模块，实现数据的输出，同时匹配对应的语音播报词传输到播报音数模转换电路，实现播报。该控制指令通过D2D技术传输与同样有D2D模块的设备，例如嵌入了D2D模组的灯设备或者窗帘设备进行设备对设备的通讯链接，实现点对点的快速控制。

在优选的实施例中，所述基于D2D技术的离线式语音控制系统，还包括：

具体的，对于场景添加模块，在第一用户终端发起会话请求后，通过无线网关检测数据包的源端和目的端，判断源端和目的端是否在预设通讯范围内，若是，则执行下一步；

具体的，D2D会话的建立包括以下步骤：

本发明实施例提供的一种基于D2D技术的离线式语音控制系统，包括：预处理模块，用于预先采集用户录入的语音指令词后，通过语音识别算法先后进行前端处理和声学特征提取处理，得到对应的声学特征数据；构建WFST模块，对所述声学特征数据进行解码处理，构建WFST搜索空间模型，并生成语音指令词列表；语音识别模块，用于在实时采集用户的语音输入信号后，先后经过前端处理、声学特征提取处理和解码处理，并通过所述WFST搜索空间模型寻找匹配概率最高的最优路径，得到最优识别结果；比对模块，用于根据所述最优识别结果与所述语音指令词列表进行比对，得到比对结果；D2D传输模块，用于根据所述比对结果匹配对应的语音控制指令，并通过D2D技术传输所述对应的语音控制指令至对应的设有D2D模块的设备，以使根据所述对应的语音控制指令完成对设备的通讯和控制。本发明能够解决传统网络网关崩溃后无法进行通讯的问题，在网络通讯覆盖盲区能够通过D2D技术借助无线网络覆盖区域内的用户终端连接到无线通信网络，同时，通过利用D2D的相邻传输特性能够快速地发现设备并进行场景添加，实现离线式语音控制设备的效果。

本发明的另一个实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的一种基于D2D技术的离线式语音控制方法。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述模块的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和变形，这些改进和变形也视为本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

Claims

1.一种基于D2D技术的离线式语音控制方法，其特征在于，至少包括如下步骤：

所述前端处理，具体为：将通过麦克风装置采集的语音信号转化为语音数据流，传输至DSP语音处理芯片；

对转码后的语音文件进行端点检测，检测得到转码后的语音文件中的有效语音信息；

所述声学特征提取处理，具体为：将通过所述前端处理后的语音信号进行切割，得到若干帧的语音信号；

通过傅里叶变换算法计算每帧语音信号中包含的能量值、基音频谱、共振峰值和短时过零率，并建立声学特征数学模型；

所述解码处理，具体为：通过DSP语音处理芯片中的解码模块对提取的声学特征数据进行解码处理，并采用发音字典、声学模型和语言模型建立WFST搜索空间模型；

根据所述比对结果匹配对应的语音控制指令，并通过D2D技术传输所述对应的语音控制指令至对应的设有D2D模块的设备，以使根据所述对应的语音控制指令完成对设备的通讯和控制；

还包括：

通过D2D技术对设有D2D模块的设备之间进行建立通讯连接和场景添加；

所述通过D2D技术对设有D2D模块的设备之间进行建立通讯连接和场景添加，具体为：

2.一种基于D2D技术的离线式语音控制系统，其用于执行如权利要求1所述的基于D2D技术的离线式语音控制方法，其特征在于，包括：

3.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1所述的基于D2D技术的离线式语音控制方法。