CN109741748A

CN109741748A - 一种基于深度学习的智能语音转写方法及系统

Info

Publication number: CN109741748A
Application number: CN201910180846.0A
Authority: CN
Inventors: 吴建伟; 吴秋晗; 杨鸿珍; 王云烨; 卢晓帆; 史俊潇; 方晴程; 贺琛; 段玉帅; 吴立刚; 徐海青; 陈是同; 徐唯耀; 浦正国; 梁翀; 张天奇; 余江斌; 韩涛
Original assignee: State Grid Corp of China SGCC; Anhui Jiyuan Software Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Anhui Jiyuan Software Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2019-05-10

Abstract

本发明公开了一种基于深度学习的智能语音转写方法及其系统，通过提取语音识别的结果构建数据库；分析业务逻辑，且根据业务逻辑分别构建声学模型和语言模型；根据深度学习以及神经网络技术，分析引擎训练优化，增加语音转写综合识别率；根据语音识别技术，结合深度学习技术和自然语言处理技术，构建模型；结合语音转写引擎、语音分析引擎和电视会议业务，建立电力行业高度定制化的语音转写模型和语音分析模型。本发明的一种基于自然语言处理技术的文档模板自动生成技术，通过语音转写、分析引擎和电视业务的有机结合，实现了视频会议的录音文件全程转写，同时智能定位特定与会人员的播放和转写发言内容，有效提高人工会议整理会议笔记的效率。

Description

一种基于深度学习的智能语音转写方法及系统

技术领域

本发明涉及计智能语音领域，具体涉及一种基于深度学习的智能语音转写方法。

背景技术

随着科学技术的发展和进步，各种各样的机器人逐渐出现在我们的生活中，“人机交互”的概念已经逐渐渗透到我们的生产生活中。人工智能、虚拟现实、增强现实等新技术层出不穷，人机交互的重要性日益凸显。如何将现实物理世界与虚拟信息世界更紧密地联系起来，已成为当前科学界关注的焦点之一。

人机交互是指计算机与用户之间的双向通信，即信息的双向交换，即用户可以向计算机输入信息，或者计算机可以向用户反馈信息。自然语言作为人类交流的主要工具，是利用自然语言与机器人进行交流的人工智能的重要研究目标之一。

通过语音识别和自然语言处理技术，人机交互逐渐从键盘、鼠标等传统的人工输入方式中解放出来。它不仅大大提高了人们获取信息的效率，而且使计算机能够取代部分人力来完成生产和促进社会进步。此外，随着智能设备影响的增加，用户群体向老年人、年轻人和残疾人的渗透和扩散趋势非常明显。语音交互也更适合于扩展智能设备的新用户群体

发明内容

为了实现上述目的，本发明提供了以下的技术方案：一种基于深度学习的智能语音转写方法，包括以下步骤：

(11)构建数据库，通过利用语音识别技术预处理以及体征提取技术，对现有的录音音源进行语音识别，提取语音识别的结果构建语音语料数据库和文本语料数据库；

(12)构建声学模型和语言模型，分析业务逻辑，且根据业务逻辑分别构建声学模型和语言模型；

(13)声学及语言模型的训练，根据深度学习网络以及神经网络技术，语音进行转写，分析引擎训练优化，增加语音转写综合识别率；

(14)构建语音转写和语音分析引擎模型，根据语音识别技术，结合深度学习技术和自然语言处理技术，构建语音转写、语音分析引擎的模型；

(15)智能语音分析模型构建，结合语音转写引擎、语音分析引擎和电视会议业务，建立电力行业高度定制化的语音转写模型和语音分析模型；将智能语音技术、大数据技术与传统的视频会议系统结合，实现对电视会议录音文件的全量转写，智能筛选特定的与会人员谈话，播放并转写。

作为上述方案的进一步优化，数据库构建还包括处理自然语言所需的知识本体网络中的本体知识库、术语库和统一知识库的构建。

作为上述方案的进一步优化，所述的录音音源的语音识别过程，基于去噪技术提取经过噪声处理后的有效的因素，对现有的语音音源进行精确裁剪，且根据音频的变化有效剔除语音数据的静音部分。

作为上述方案的进一步优化，去噪技术通过组合语音增强和抗噪特征提取技术实现,其过程包括如下：

(21)分析硬阈值函数、软阈值函数、软硬阈值折中函数和Garrote阈值函数的优缺点，构造改进的阈值函数，且所述的改进阈值函数同时具备以上几种函数的优点；

(22)通过Matlab仿真验证步骤(21)构造的改进阈值函数的可行性与有效性；

(23)抗噪特征提取技术上，采用MFCC参数和基于小波多分辨率分析改进的MFCC参数；

(24)基于语音增强和抗噪特征提取技术的组合方式，构建非特定人、孤立词、小词汇量的语音识别系统，设定声源环境测试为不同信噪比的产生，大数据对比系统每次的识别率，检验所述的组合方式的去噪方法的可行性。

作为上述方案的进一步优化，分析业务逻辑即通过预处理技术针对去噪处理的坐席和客户进行交互的语音数据，将当前的角色分离和场景分割，为客户和坐席的服务规范、服务质量分析做数据准备。

作为上述方案的进一步优化，预处理技术包括预滤波、预加重、加窗和端点检测技术，其影响因子包括语音信号采样、反混叠带通滤波去除个体发音差异和设备以及环境引起的噪声影响，还包括语音识别的基元选取和端点检测。

作为上述方案的进一步优化，基于特征提取技术获取预处理的数据的频域参数以及时域参数，包括共振峰幅度、共振峰幅度、基频和基音轮廓，且根据现有的数据和参数构建声学模型和语音模型，能够作为具体表征一个人的语音声学特征。

作为上述方案的进一步优化，特征提取技术即根据原始的语音信号，抽取直接反映语音本质的特征参数，形成矢量序列。

作为上述方案的进一步优化，所述的声学及语言模型的训练，即通过基于深度学习网络的深层神经网络，对现有的基于业务逻辑分析构建的声学和语言模型训练，应对实际语音识别产生自主优化机制，形成客服中心专属的高度定制化的语音分析模型。

作为上述方案的进一步优化，基于深度学习网络的神经网络的训练过程包括如下：

前先传导，包括卷积层、池化层和全连接层三种前向传导计算，卷积层的输入来自输入层或者来自池化层；

设定输入为A，每一层均有k个卷积核K_i(i+1，...，k)和参数偏置b_i，卷积计算之后，生成K个特征图C_i，为普通向量；

C_i＝conv2(A，K_i)+b_i (1)

池化层，对前一层获得的特征图进行池化操作，获取池化区域的统计信息，生成池化特征图S_i：

全连接层，将N层卷积层和池化层得到的数据按照顺序展开，连接成向量(i＝1，...，k)作为输入到全连接层。

作为上述方案的进一步优化，自然语言处理技术基于机器学习，促使计算机理解和接受人类使用自然语言输入的指令，包括词串分析、语义分析、词法分析和单/多文档分析。

一种基于深度学习的智能语音转写系统，其特征在于：包括

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1-11任一所述的一种基于深度学习的智能语音转写方法。

本发明采用上述技术方案，与现有技术相比，本发明的一种基于深度学习的智能语音转写方法及其系统，具有以下有益效果：

1、本发明的一种基于深度学习的智能语音转写方法及其系统，通过语音转写引擎、语音分析引擎和电视业务的有机结合，实现了视频会议的录音文件全程转写，同时智能定位特定与会人员，完成特定与会人员的播放和转写发言内容，有效提高人工会议整理会议笔记的效率，还提高企业视频会议的管理和应用水平。

2、本发明的一种基于深度学习的智能语音转写方法及其系统，将智能语音技术与大数据技术结合，使用海量的数据对语音识别的声学模型、语言模型进行不间断的训练，大大提升智能语音技术识别率，提高语音数据的转写速度。

3、本发明的一种基于深度学习的智能语音转写方法及其系统，实现在智能视频会议使用过程中，通过深度学习技术训练声学模型和语言模型，使得智能语音具备自学能力，语音识别率会越来越高，同时形成较为成熟的基于视频会议的智能语音模型库。

附图说明

图1是本发明的一种基于深度学习的智能语音转写方法的流程图。

图2是本发明的一种基于深度学习的智能语音转写系统的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图中及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。

实施例1：

参见图1，本发明提供了以下的技术方案：一种基于深度学习的智能语音转写方法，其特征在于，包括以下步骤：

S1，构建数据库1，通过利用语音识别技术预处理以及体征提取技术，对现有的录音音源进行语音识别，提取语音识别的结果构建语音语料数据库6和文本语料数据库8；

S2，构建声学模型和语言模型，分析业务逻辑，且根据业务逻辑分别构建声学模型和语言模型；

S3，声学及语言模型的训练，根据深度学习网络2以及神经网络技术，语音进行转写，分析引擎训练优化，增加语音转写综合识别率；

S4，构建语音转写和语音分析引擎模型，根据语音识别技术3，结合深度学习网络2和自然语言处理技术4，构建语音转写、语音分析引擎的模型；

S5，智能语音分析模型构建，结合语音转写引擎、语音分析引擎和电视会议业务，建立电力行业高度定制化的语音转写模型和语音分析模型。

作为上述方案的进一步优化，数据库1构建还包括处理自然语言所需的知识本体网络中的本体知识库5、术语库7和统一知识库的构建。

作为上述方案的进一步优化，所述的录音音源的语音识别过程，基于去噪技术9提取经过噪声处理后的有效的因素，对现有的语音音源进行精确裁剪，且根据音频的变化有效剔除语音数据的静音部分。

作为上述方案的进一步优化，去噪技术9通过组合语音增强和抗噪特征提取技术实现,其过程包括如下：

作为上述方案的进一步优化，特征提取技术11即根据原始的语音信号，抽取直接反映语音本质的特征参数，形成矢量序列。

作为上述方案的进一步优化，所述的声学及语言模型的训练，即通过基于深度学习网络2的深层神经网络，对现有的基于业务逻辑分析构建的声学和语言模型训练，应对实际语音识别产生自主优化机制，形成客服中心专属的高度定制化的语音分析模型。

作为上述方案的进一步优化，基于深度学习网络2的神经网络的训练过程包括如下：

C_i＝conv2(A，K_i)+b_i (1)

作为上述方案的进一步优化，自然语言处理技术4基于机器学习，促使计算机理解和接受人类使用自然语言输入的指令，包括词串分析12、语义分析13、词法分析14和单/多文档分析15。

实施例2：

本发明提供了一种卷积神经网络模型，包括输入层、卷积层、池化层和输出层。

输入层A，句子的长度为固定值n(当句子长度不大于n时，余下的空白项通过随机数填充)，且单词向量的维数为k，句子的第i个基本单元表示为B，根据上述可得输入句子表达式：

上式中的表示级联运算符，x_i：i+j表示x_i，x_i+1，…，x_i+j的连接；

卷积层，卷积权重矩阵f∈R^hk作为基本单元长度为h的卷积滤波器，x_i：i+h-1滤波提取一个特征，计算输入矩阵的信息，根据一次性计算窗口大小h*k的信息；通过卷积操作之后，输入层A计算为特征点C_i：

C_i＝f(w·x_i：i+h-1+b)

上式的b为偏置项，f为非线性激活函数；

当卷积滤波器向后移动时，对输入矩阵的窗口{x_1：h，x_2：h+1，...，x_n-h+1：n}执行卷积操作，并且获得特征图：

C＝[C₁，C₂，...，C_n-h+1]

当每个卷积滤波器通过如上操作，多个滤波器提取多个特征获取多个特征映射图，卷积神经网络模型中，特征提取器的数量通过网络初始化设置卷积核滤波器的数量进行；

池化层，通过对特征图进行采样操作，其局部区域特征被聚集，最大池化操作即选择特征图区域的最大值作为新的特征，其他特征忽略不计；通过下采样，不仅减小尺寸，还可以保证特征的位置和旋转的不变性；

池化层的输出作为全连接层的输入；卷积层和池化层完成局部特征提取，全连接层根据提取的特征完成分类。

本发明公开了一种基于深度学习的智能语音转写方法及其系统，通过构建数据库，利用语音识别技术预处理以及体征提取技术，对现有的录音音源进行语音识别，提取语音识别的结果构建语音语料数据库和文本语料数据库；分析业务逻辑，且根据业务逻辑分别构建声学模型和语言模型；根据深度学习以及神经网络技术，语音进行转写，分析引擎训练优化，增加语音转写综合识别率；构建语音转写和语音分析引擎模型根据语音识别技术，结合深度学习技术和自然语言处理技术，构建语音转写、语音分析引擎的模型；结合语音转写引擎、语音分析引擎和电视会议业务，建立电力行业高度定制化的语音转写模型和语音分析模型。一种基于深度学习的智能语音转写方法及其系统，通过语音转写引擎、语音分析引擎和电视业务的有机结合，实现了视频会议的录音文件全程转写，同时智能定位特定与会人员，完成特定与会人员的播放和转写发言内容，有效提高人工会议整理会议笔记的效率，还提高企业视频会议的管理和应用水平。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于深度学习的智能语音转写方法，其特征在于，包括以下步骤：

(1)构建数据库，通过利用语音识别技术预处理以及体征提取技术，对现有的录音音源进行语音识别，提取语音识别的结果构建语音语料数据库和文本语料数据库；

(2)构建声学模型和语言模型，分析业务逻辑，且根据业务逻辑分别构建声学模型和语言模型；

(3)声学及语言模型的训练，根据深度学习网络以及神经网络技术，语音进行转写，分析引擎训练优化，增加语音转写综合识别率；

(4)构建语音转写和语音分析引擎模型，根据语音识别技术，结合深度学习网络技术和自然语言处理技术，构建语音转写、语音分析引擎的模型；

(5)智能语音分析模型构建，结合语音转写引擎、语音分析引擎和电视会议业务，建立电力行业高度定制化的语音转写模型和语音分析模型。

2.根据权利要求1所述的一种基于深度学习的智能语音转写方法，所述的数据库构建还包括处理自然语言所需的知识本体网络中的本体知识库、术语库和统一知识库的构建。

3.根据权利要求1所述的一种基于深度学习的智能语音转写方法，其特征在于，所述的录音音源的语音识别过程，基于去噪技术提取经过噪声处理后的有效的因素，对现有的语音音源进行精确裁剪，且根据音频的变化有效剔除语音数据的静音部分。

4.根据权利要求3所述的一种基于深度学习的智能语音转写方法，其特征在于，所述的去噪技术通过组合语音增强和抗噪特征提取技术实现,其过程包括如下：

5.根据权利要求1所述的一种基于深度学习的智能语音转写方法，其特征在于，所述的分析业务逻辑通过预处理技术针对去噪处理的坐席和客户进行交互的语音数据，将当前的角色分离和场景分割，为客户和坐席的服务规范、服务质量分析做数据准备。

6.根据权利要求5所述的一种基于深度学习的智能语音转写方法，其特征在于，所述的预处理技术包括预滤波、预加重、加窗和端点检测技术，其影响因子包括语音信号采样、反混叠带通滤波去除个体发音差异和设备以及环境引起的噪声影响，还包括语音识别的基元选取和端点检测。

7.根据权利要求6所述的一种基于深度学习的智能语音转写方法，其特征在于，基于特征提取技术获取预处理的数据的频域参数以及时域参数，包括共振峰幅度、共振峰幅度、基频和基音轮廓，且根据现有的数据和参数构建声学模型和语音模型。

8.根据权利要求6所述的一种基于深度学习的智能语音转写方法，其特征在于，所述的特征提取技术即根据原始的语音信号，抽取直接反映语音本质的特征参数，形成矢量序列。

9.根据权利要求1所述的一种基于深度学习的智能语音转写方法，其特征在于，所述的声学及语言模型的训练，即通过基于深度学习网络的深层神经网络，对现有的基于业务逻辑分析构建的声学和语言模型训练，应对实际语音识别产生自主优化机制。

10.根据权利要求9所述的一种基于深度学习的智能语音转写方法，其特征在于，所述的基于深度学习网络的神经网络的训练过程包括如下：

C_i＝conv2(A，K_i)+b_i (1)

全连接层，将N层卷积层和池化层得到的数据按照顺序展开，连接成向量作为输入到全连接层。