CN113687719A

CN113687719A - 一种适用于语音信息的智能交互方法及装置

Info

Publication number: CN113687719A
Application number: CN202110969031.8A
Authority: CN
Inventors: 吴浩珊; 黄达文; 姜南; 梁维铿; 苏建华; 陈诒钊; 吴叶辉
Original assignee: Guangdong Power Grid Co Ltd; Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-23

Abstract

本发明提供了一种适用于语音信息的智能交互方法及装置，通过对采集到的语音信息进行预处理，获得语音特征信息，并通过预先训练好的卷积神经网络对语音特征信息进行过滤，获得新语音特征信息，并通过智能语音识别模型将新语音特征转换为文本信息，在意图识别模型的解析下生成对应的业务操作信息，在符合校验库规则的前提下按照该业务操作信息即可执行对应的业务操作。本发明由于采用了智能语音识别模型可以对语音信息进行高效准确的识别，还通过意图识别模型自动根据文本信息生成对应的业务操作信息，使得效率得到了提升，还避免了采用自然语言的形式沟通业务信息，导致业务管理效率较低、自动化程度不高的问题。

Description

一种适用于语音信息的智能交互方法及装置

技术领域

本发明涉及语音信息处理技术领域，具体涉及一种适用于语音信息的智能交互方法及装置。

背景技术

在电力业务中，语音信息的正确交互是为了保证电网安全稳定运行、对外可靠供电、各类电力生产工作有序进行而采用的一种有效的管理手段。电力业务的具体工作内容是依据各类信息采集设备反馈回来的数据信息，或监控人员提供的信息，结合电网实际运行参数，如电压、电流、频率、负荷等，综合考虑各项生产工作开展情况，对电网安全、经济运行状态进行判断，通过电话或自动系统发布操作指令，指挥现场操作人员或自动控制系统进行调整，如调整发电机出力、调整负荷分布、投切电容器、电抗器等，从而确保电网持续安全稳定运行。近年来随着科技的不断发展，现代化监测、控制手段不断完善，电力业务的技术支持也日趋强大。

在电力业务自动化与信息化的建设中，利用智能虚拟业务操作员代替人工进行现场业务信息的接收、验证与发送等，有利于减少操作员的单一重复性工作量，提高配电业务管理的自动化程度和操作员的分析决策效率。由于配电网业务涉及到大量的电力设备以及相关的设备状态和操作信息，近年来已有不少研究采用知识图谱对配电业务信息进行更为有效的组织和分析。

但在实际电力业务工作中，现场人员通常都以自然语言的形式对业务信息进行复诵或汇报，在控制室的业务操作人员根据现场人员的指令，手动对电力电网进行业务管理，效率较低，自动化程度不高。

发明内容

有鉴于此，本发明旨在解决现有采用自然语言的形式沟通业务信息，导致业务管理效率较低、自动化程度不高的问题。

为了解决上述技术问题，本发明提供以下技术方案：

第一方面，本发明提供了一种适用于语音信息的智能交互方法，包括如下步骤：

采集待识别的语音信息并进行预处理，获得语音特征信息；

将语音特征信息输入到预先训练好的卷积神经网络中，得到新语音特征；

利用智能语音识别模型将新语音特征转换成文本信息；

根据意图识别模型解析文本信息，生成业务操作信息，并将业务操作信息输入至规则库中进行校验；

基于校验后的业务操作信息执行对应的业务操作。

进一步的，采集待识别的语音信息并进行预处理，获得语音特征信息具体包括：

建立基于语音信号的二维分布数据；

从二维分布数据中随机选取一个空间点的信号，利用傅里叶变换计算空间点的信号的幅值和相位，得到空间点的信号的频谱；

对空间点的信号的频谱进行傅里叶变换的逆变换，得到增强语音信号，并提取增强语音信号的特征信息。

进一步的，智能语音识别模型包括热词训练模型，热词训练模型的表达式如下：

式中，S(z)表示热词粘联度，n表示迭代次数，c＝2，P(z_i)表示热词产生的概率，{z₁，z₂，z₃，...，z_i}为热词z的集合。

进一步的，利用智能语音识别模型将新语音特征转换成文本信息具体包括：

将新语音特征信息划分为训练集和测试集，利用训练集和测试集对热词训练模型进行训练；

计算热词训练模型的输出精度是否达到预设精度标准，若是，则停止训练；

将待识别的语音特征信息输入到训练好的热词训练模型中，根据训练好的热词训练模型输出的热词粘联度的大小进行排序，利用声学模型对排序后的语音特征信息进行文本输出，生成文本信息。

进一步的，意图识别模型的表达式如下：

式中，score(p)表示得分概率，q表示生成的文本信息，v_q表示出现次数，p表示数据库文本内容，μ(p，q)表示p、q之间的匹配次数。

第二方面，本发明提供了一种适用于语音信息的智能交互装置，包括：

语音信息采集模块，用于采集待识别的语音信息并进行预处理，获得语音特征信息；

语音特征提取模块，用于将语音特征信息输入到预先训练好的卷积神经网络中，得到新语音特征；

语音特征转换模块，用于利用智能语音识别模型将新语音特征转换成文本信息；

文本解析模块，用于根据意图识别模型解析文本信息，生成业务操作信息，并将业务操作信息输入至规则库中进行校验；

业务执行模块，用于基于校验后的业务操作信息执行对应的业务操作。

进一步的，语音信息采集模块具体包括：

信号采集模块，用于建立基于语音信号的二维分布数据；

第一转换模块，用于从二维分布数据中随机选取一个空间点的信号，利用傅里叶变换计算空间点的信号的幅值和相位，得到空间点的信号的频谱；

第二转换模块，用于对空间点的信号的频谱进行傅里叶变换的逆变换，得到增强语音信号，并提取增强语音信号的特征信息。

进一步的，语音特征转换模块具体包括：

模型训练模块，用于将新语音特征信息划分为训练集和测试集，利用训练集和测试集对热词训练模型进行训练；

精度检验模块，用于计算热词训练模型的输出精度是否达到预设精度标准，若是，则停止训练；

文本生成模块，用于将待识别的语音特征信息输入到训练好的热词训练模型中，根据训练好的热词训练模型输出的热词粘联度的大小进行排序，利用声学模型对排序后的语音特征信息进行文本输出，生成文本信息。

第三方面，本发明提供了一种适用于语音信息的智能交互设备，设备包括处理器以及存储器：

存储器用于存储计算机程序，并将计算机程序的指令发送至处理器；

处理器根据计算机程序的指令执行如第一方面的一种适用于语音信息的智能交互方法。

第四方面，本发明提供了一种计算机存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如第一方面的一种适用于语音信息的智能交互方法。

与现有技术相比，本发明的有益效果是：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种适用于语音信息的智能交互方法的流程示意图。

具体实施方式

为使得本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

以下对本发明的一种适用于语音信息的智能交互方法的一个实施例进行详细阐述。

请参阅图1，本实施例提供了一种适用于语音信息的智能交互方法，包括：

S101：采集待识别的语音信息并进行预处理，获得语音特征信息；

需要说明的是，对采集的待识别语音信息进行预处理具体包括：

建立基于语音信号的二维分布数据，即由语音信号生成的空间点特征，由这些空间点组成二维直角坐标系图；

从二维分布数据中随机选取一个空间点的信号，即从二维直角坐标系图中随机选取一个空间点，利用傅里叶变换计算空间点的信号的幅值和相位，得到空间点的信号的频谱；

对空间点的信号的频谱进行傅里叶变换的逆变换，得到增强语音信号，并提取增强语音信号的特征信息(即语音帧能量、语音频率及带宽、谱等相关特征)。

S102：将语音特征信息输入到预先训练好的卷积神经网络中，得到新语音特征；

需要说明的是，获取新语音特征的过程是将预处理后获得的语音特征信息输入到预设的神经网络模型的捐精神经网络中，这个卷积神经网络包括若干个卷积层；

通过卷积神经网络进行卷积操作，过滤提取新的语音特征信息。

S103：利用智能语音识别模型将新语音特征转换成文本信息；

需要说明的是，智能语音识别模型包括建立电力业务情景，而电力业务情景包括语音识别、自然语音理解和语音合成三个过程。

其中，语音识别包括建立热词训练模型，该模型的表达式如下：

将新语音特征信息输入到热词训练模型中进行训练的过程为：

将新语音特征信息按7：3的比例划分为训练集和测试集，利用训练集和测试集对热词训练模型进行训练；

计算热词训练模型的输出精度是否达到预设精度标准，若是，则停止训练，具体的为计算测试集输出的热词粘联度

在0到预设精度标准之间时，则认为此时的模型精度到达要求，停止训练；

S104：根据意图识别模型解析文本信息，生成业务操作信息，并将业务操作信息输入至规则库中进行校验；

需要说明的是，生成业务操作信息的具体过程是：

根据历史电力业务数据信息建立数据库；

基于深度神经网络建立意图识别模型，解析文本信息并与数据库中的内容进行对比以及信息合成，生成业务操作信息。

其中，意图识别模型的表达式如下：

利用意图识别模型将文本信息与数据库中的数据进行一一比对，根据输出的最高得分概率得到文本信息排序的顺序。

进一步的，将业务操作信息输入至规则库进行校验的目的在于检验其是否符合电力行业对输出业务对应执行业务的准确性判断标准。

根据历史业务信息的语句逻辑及历史用户选择的最佳解析结果建立语意解析规则库，并根据最新信息进行数据的更新；

将业务信息输入到规则库中进行校验，若不符合规则库输出规则，则根据输出规则进行相应的调整，输出调整后的业务信息。

S105：基于校验后的业务操作信息执行对应的业务操作。

本实施例提供了一种适用于语音信息的智能交互方法及装置，通过对采集到的语音信息进行预处理，获得语音特征信息，并通过预先训练好的卷积神经网络对语音特征信息进行过滤，获得新语音特征信息，并通过智能语音识别模型将新语音特征转换为文本信息，在意图识别模型的解析下生成对应的业务操作信息，在符合校验库规则的前提下按照该业务操作信息即可执行对应的业务操作。本发明由于采用了智能语音识别模型可以对语音信息进行高效准确的识别，还通过意图识别模型自动根据文本信息生成对应的业务操作信息，使得效率得到了提升，还避免了采用自然语言的形式沟通业务信息，导致业务管理效率较低、自动化程度不高的问题。

以上是对本发明的一种适用于语音信息的智能交互方法的一个实施例进行的详细介绍，以下将对本发明的一种适用于语音信息的智能交互装置的一个实施例进行详细的介绍。

本实施例提供一种适用于语音信息的智能交互装置，包括：

需要说明的是，语音信息采集模块具体包括：

信号采集模块，用于建立基于语音信号的二维分布数据；

语音特征转换模块具体包括：

以上是对本发明的一种适用于语音信息的智能交互装置的一个实施例进行的详细介绍，以下将对本发明的一种适用于语音信息的智能交互设备的一个实施例进行详细的介绍。

本实施例提供了一种适用于语音信息的智能交互设备，设备包括处理器以及存储器：

处理器根据计算机程序的指令执行如前述实施例的一种适用于语音信息的智能交互方法。

以上是对本发明的一种适用于语音信息的智能交互设备的一个实施例进行的详细介绍，以下将对本发明的一种计算机存储介质的一个实施例进行详细的介绍。

本实施例提供了一种计算机存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如前述实施例的一种适用于语音信息的智能交互方法。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种适用于语音信息的智能交互方法，其特征在于，包括如下步骤：

采集待识别的语音信息并进行预处理，获得语音特征信息；

将所述语音特征信息输入到预先训练好的卷积神经网络中，得到新语音特征；

利用智能语音识别模型将所述新语音特征转换成文本信息；

根据意图识别模型解析文本信息，生成业务操作信息，并将所述业务操作信息输入至规则库中进行校验；

基于校验后的业务操作信息执行对应的业务操作。

2.根据权利要求1所述的一种适用于语音信息的智能交互方法，其特征在于，所述采集待识别的语音信息并进行预处理，获得语音特征信息具体包括：

建立基于语音信号的二维分布数据；

从所述二维分布数据中随机选取一个空间点的信号，利用傅里叶变换计算所述空间点的信号的幅值和相位，得到所述空间点的信号的频谱；

对所述空间点的信号的频谱进行傅里叶变换的逆变换，得到增强语音信号，并提取所述增强语音信号的特征信息。

3.根据权利要求1所述的一种适用于语音信息的智能交互方法，其特征在于，所述智能语音识别模型包括热词训练模型，所述热词训练模型的表达式如下：

4.根据权利要求3所述的一种适用于语音信息的智能交互方法，其特征在于，所述利用智能语音识别模型将所述新语音特征转换成文本信息具体包括：

将所述新语音特征信息划分为训练集和测试集，利用所述训练集和测试集对所述热词训练模型进行训练；

计算所述热词训练模型的输出精度是否达到预设精度标准，若是，则停止训练；

将待识别的语音特征信息输入到训练好的热词训练模型中，根据所述训练好的热词训练模型输出的热词粘联度的大小进行排序，利用声学模型对排序后的语音特征信息进行文本输出，生成文本信息。

5.根据权利要求4所述的一种适用于语音信息的智能交互方法，其特征在于，所述意图识别模型的表达式如下：

式中，score(p)表示得分概率，q表示生成的文本信息，v_q表示出现次数，p表示数据库文本内容，μ(p、q)表示p、q之间的匹配次数。

6.一种适用于语音信息的智能交互装置，其特征在于，包括：

语音特征提取模块，用于将所述语音特征信息输入到预先训练好的卷积神经网络中，得到新语音特征；

语音特征转换模块，用于利用智能语音识别模型将所述新语音特征转换成文本信息；

文本解析模块，用于根据意图识别模型解析文本信息，生成业务操作信息，并将所述业务操作信息输入至规则库中进行校验；

7.根据权利要求6所述的一种适用于语音信息的智能交互装置，其特征在于，所述语音信息采集模块具体包括：

信号采集模块，用于建立基于语音信号的二维分布数据；

第一转换模块，用于从所述二维分布数据中随机选取一个空间点的信号，利用傅里叶变换计算所述空间点的信号的幅值和相位，得到所述空间点的信号的频谱；

第二转换模块，用于对所述空间点的信号的频谱进行傅里叶变换的逆变换，得到增强语音信号，并提取所述增强语音信号的特征信息。

8.根据权利要求6所述的一种适用于语音信息的智能交互装置，其特征在于，所述语音特征转换模块具体包括：

模型训练模块，用于将所述新语音特征信息划分为训练集和测试集，利用所述训练集和测试集对所述热词训练模型进行训练；

精度检验模块，用于计算所述热词训练模型的输出精度是否达到预设精度标准，若是，则停止训练；

文本生成模块，用于将待识别的语音特征信息输入到训练好的热词训练模型中，根据所述训练好的热词训练模型输出的热词粘联度的大小进行排序，利用声学模型对排序后的语音特征信息进行文本输出，生成文本信息。

9.一种适用于语音信息的智能交互设备，其特征在于，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序，并将所述计算机程序的指令发送至处理器；

所述处理器根据所述计算机程序的指令执行权利要求1-5中任一项所述的一种适用于语音信息的智能交互方法。

10.一种计算机存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的一种适用于语音信息的智能交互方法。