CN109741748A - 一种基于深度学习的智能语音转写方法及系统 - Google Patents
一种基于深度学习的智能语音转写方法及系统 Download PDFInfo
- Publication number
- CN109741748A CN109741748A CN201910180846.0A CN201910180846A CN109741748A CN 109741748 A CN109741748 A CN 109741748A CN 201910180846 A CN201910180846 A CN 201910180846A CN 109741748 A CN109741748 A CN 109741748A
- Authority
- CN
- China
- Prior art keywords
- speech
- deep learning
- model
- transcription
- intelligent sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于深度学习的智能语音转写方法及其系统,通过提取语音识别的结果构建数据库;分析业务逻辑,且根据业务逻辑分别构建声学模型和语言模型;根据深度学习以及神经网络技术,分析引擎训练优化,增加语音转写综合识别率;根据语音识别技术,结合深度学习技术和自然语言处理技术,构建模型;结合语音转写引擎、语音分析引擎和电视会议业务,建立电力行业高度定制化的语音转写模型和语音分析模型。本发明的一种基于自然语言处理技术的文档模板自动生成技术,通过语音转写、分析引擎和电视业务的有机结合,实现了视频会议的录音文件全程转写,同时智能定位特定与会人员的播放和转写发言内容,有效提高人工会议整理会议笔记的效率。
Description
技术领域
本发明涉及计智能语音领域,具体涉及一种基于深度学习的智能语音转写方法。
背景技术
随着科学技术的发展和进步,各种各样的机器人逐渐出现在我们的生活中,“人机交互”的概念已经逐渐渗透到我们的生产生活中。人工智能、虚拟现实、增强现实等新技术层出不穷,人机交互的重要性日益凸显。如何将现实物理世界与虚拟信息世界更紧密地联系起来,已成为当前科学界关注的焦点之一。
人机交互是指计算机与用户之间的双向通信,即信息的双向交换,即用户可以向计算机输入信息,或者计算机可以向用户反馈信息。自然语言作为人类交流的主要工具,是利用自然语言与机器人进行交流的人工智能的重要研究目标之一。
通过语音识别和自然语言处理技术,人机交互逐渐从键盘、鼠标等传统的人工输入方式中解放出来。它不仅大大提高了人们获取信息的效率,而且使计算机能够取代部分人力来完成生产和促进社会进步。此外,随着智能设备影响的增加,用户群体向老年人、年轻人和残疾人的渗透和扩散趋势非常明显。语音交互也更适合于扩展智能设备的新用户群体
发明内容
为了实现上述目的,本发明提供了以下的技术方案:一种基于深度学习的智能语音转写方法,包括以下步骤:
(11)构建数据库,通过利用语音识别技术预处理以及体征提取技术,对现有的录音音源进行语音识别,提取语音识别的结果构建语音语料数据库和文本语料数据库;
(12)构建声学模型和语言模型,分析业务逻辑,且根据业务逻辑分别构建声学模型和语言模型;
(13)声学及语言模型的训练,根据深度学习网络以及神经网络技术,语音进行转写,分析引擎训练优化,增加语音转写综合识别率;
(14)构建语音转写和语音分析引擎模型,根据语音识别技术,结合深度学习技术和自然语言处理技术,构建语音转写、语音分析引擎的模型;
(15)智能语音分析模型构建,结合语音转写引擎、语音分析引擎和电视会议业务,建立电力行业高度定制化的语音转写模型和语音分析模型;将智能语音技术、大数据技术与传统的视频会议系统结合,实现对电视会议录音文件的全量转写,智能筛选特定的与会人员谈话,播放并转写。
作为上述方案的进一步优化,数据库构建还包括处理自然语言所需的知识本体网络中的本体知识库、术语库和统一知识库的构建。
作为上述方案的进一步优化,所述的录音音源的语音识别过程,基于去噪技术提取经过噪声处理后的有效的因素,对现有的语音音源进行精确裁剪,且根据音频的变化有效剔除语音数据的静音部分。
作为上述方案的进一步优化,去噪技术通过组合语音增强和抗噪特征提取技术实现,其过程包括如下:
(21)分析硬阈值函数、软阈值函数、软硬阈值折中函数和Garrote阈值函数的优缺点,构造改进的阈值函数,且所述的改进阈值函数同时具备以上几种函数的优点;
(22)通过Matlab仿真验证步骤(21)构造的改进阈值函数的可行性与有效性;
(23)抗噪特征提取技术上,采用MFCC参数和基于小波多分辨率分析改进的MFCC参数;
(24)基于语音增强和抗噪特征提取技术的组合方式,构建非特定人、孤立词、小词汇量的语音识别系统,设定声源环境测试为不同信噪比的产生,大数据对比系统每次的识别率,检验所述的组合方式的去噪方法的可行性。
作为上述方案的进一步优化,分析业务逻辑即通过预处理技术针对去噪处理的坐席和客户进行交互的语音数据,将当前的角色分离和场景分割,为客户和坐席的服务规范、服务质量分析做数据准备。
作为上述方案的进一步优化,预处理技术包括预滤波、预加重、加窗和端点检测技术,其影响因子包括语音信号采样、反混叠带通滤波去除个体发音差异和设备以及环境引起的噪声影响,还包括语音识别的基元选取和端点检测。
作为上述方案的进一步优化,基于特征提取技术获取预处理的数据的频域参数以及时域参数,包括共振峰幅度、共振峰幅度、基频和基音轮廓,且根据现有的数据和参数构建声学模型和语音模型,能够作为具体表征一个人的语音声学特征。
作为上述方案的进一步优化,特征提取技术即根据原始的语音信号,抽取直接反映语音本质的特征参数,形成矢量序列。
作为上述方案的进一步优化,所述的声学及语言模型的训练,即通过基于深度学习网络的深层神经网络,对现有的基于业务逻辑分析构建的声学和语言模型训练,应对实际语音识别产生自主优化机制,形成客服中心专属的高度定制化的语音分析模型。
作为上述方案的进一步优化,基于深度学习网络的神经网络的训练过程包括如下:
前先传导,包括卷积层、池化层和全连接层三种前向传导计算,卷积层的输入来自输入层或者来自池化层;
设定输入为A,每一层均有k个卷积核Ki(i+1,...,k)和参数偏置bi,卷积计算之后,生成K个特征图Ci,为普通向量;
Ci=conv2(A,Ki)+bi (1)
池化层,对前一层获得的特征图进行池化操作,获取池化区域的统计信息,生成池化特征图Si:
全连接层,将N层卷积层和池化层得到的数据按照顺序展开,连接成向量(i=1,...,k)作为输入到全连接层。
作为上述方案的进一步优化,自然语言处理技术基于机器学习,促使计算机理解和接受人类使用自然语言输入的指令,包括词串分析、语义分析、词法分析和单/多文档分析。
一种基于深度学习的智能语音转写系统,其特征在于:包括
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1-11任一所述的一种基于深度学习的智能语音转写方法。
本发明采用上述技术方案,与现有技术相比,本发明的一种基于深度学习的智能语音转写方法及其系统,具有以下有益效果:
1、本发明的一种基于深度学习的智能语音转写方法及其系统,通过语音转写引擎、语音分析引擎和电视业务的有机结合,实现了视频会议的录音文件全程转写,同时智能定位特定与会人员,完成特定与会人员的播放和转写发言内容,有效提高人工会议整理会议笔记的效率,还提高企业视频会议的管理和应用水平。
2、本发明的一种基于深度学习的智能语音转写方法及其系统,将智能语音技术与大数据技术结合,使用海量的数据对语音识别的声学模型、语言模型进行不间断的训练,大大提升智能语音技术识别率,提高语音数据的转写速度。
3、本发明的一种基于深度学习的智能语音转写方法及其系统,实现在智能视频会议使用过程中,通过深度学习技术训练声学模型和语言模型,使得智能语音具备自学能力,语音识别率会越来越高,同时形成较为成熟的基于视频会议的智能语音模型库。
附图说明
图1是本发明的一种基于深度学习的智能语音转写方法的流程图。
图2是本发明的一种基于深度学习的智能语音转写系统的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图中及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。
实施例1:
参见图1,本发明提供了以下的技术方案:一种基于深度学习的智能语音转写方法,其特征在于,包括以下步骤:
S1,构建数据库1,通过利用语音识别技术预处理以及体征提取技术,对现有的录音音源进行语音识别,提取语音识别的结果构建语音语料数据库6和文本语料数据库8;
S2,构建声学模型和语言模型,分析业务逻辑,且根据业务逻辑分别构建声学模型和语言模型;
S3,声学及语言模型的训练,根据深度学习网络2以及神经网络技术,语音进行转写,分析引擎训练优化,增加语音转写综合识别率;
S4,构建语音转写和语音分析引擎模型,根据语音识别技术3,结合深度学习网络2和自然语言处理技术4,构建语音转写、语音分析引擎的模型;
S5,智能语音分析模型构建,结合语音转写引擎、语音分析引擎和电视会议业务,建立电力行业高度定制化的语音转写模型和语音分析模型。
作为上述方案的进一步优化,数据库1构建还包括处理自然语言所需的知识本体网络中的本体知识库5、术语库7和统一知识库的构建。
作为上述方案的进一步优化,所述的录音音源的语音识别过程,基于去噪技术9提取经过噪声处理后的有效的因素,对现有的语音音源进行精确裁剪,且根据音频的变化有效剔除语音数据的静音部分。
作为上述方案的进一步优化,去噪技术9通过组合语音增强和抗噪特征提取技术实现,其过程包括如下:
(21)分析硬阈值函数、软阈值函数、软硬阈值折中函数和Garrote阈值函数的优缺点,构造改进的阈值函数,且所述的改进阈值函数同时具备以上几种函数的优点;
(22)通过Matlab仿真验证步骤(21)构造的改进阈值函数的可行性与有效性;
(23)抗噪特征提取技术上,采用MFCC参数和基于小波多分辨率分析改进的MFCC参数;
(24)基于语音增强和抗噪特征提取技术的组合方式,构建非特定人、孤立词、小词汇量的语音识别系统,设定声源环境测试为不同信噪比的产生,大数据对比系统每次的识别率,检验所述的组合方式的去噪方法的可行性。
作为上述方案的进一步优化,分析业务逻辑即通过预处理技术针对去噪处理的坐席和客户进行交互的语音数据,将当前的角色分离和场景分割,为客户和坐席的服务规范、服务质量分析做数据准备。
作为上述方案的进一步优化,预处理技术包括预滤波、预加重、加窗和端点检测技术,其影响因子包括语音信号采样、反混叠带通滤波去除个体发音差异和设备以及环境引起的噪声影响,还包括语音识别的基元选取和端点检测。
作为上述方案的进一步优化,基于特征提取技术获取预处理的数据的频域参数以及时域参数,包括共振峰幅度、共振峰幅度、基频和基音轮廓,且根据现有的数据和参数构建声学模型和语音模型,能够作为具体表征一个人的语音声学特征。
作为上述方案的进一步优化,特征提取技术11即根据原始的语音信号,抽取直接反映语音本质的特征参数,形成矢量序列。
作为上述方案的进一步优化,所述的声学及语言模型的训练,即通过基于深度学习网络2的深层神经网络,对现有的基于业务逻辑分析构建的声学和语言模型训练,应对实际语音识别产生自主优化机制,形成客服中心专属的高度定制化的语音分析模型。
作为上述方案的进一步优化,基于深度学习网络2的神经网络的训练过程包括如下:
前先传导,包括卷积层、池化层和全连接层三种前向传导计算,卷积层的输入来自输入层或者来自池化层;
设定输入为A,每一层均有k个卷积核Ki(i+1,...,k)和参数偏置bi,卷积计算之后,生成K个特征图Ci,为普通向量;
Ci=conv2(A,Ki)+bi (1)
池化层,对前一层获得的特征图进行池化操作,获取池化区域的统计信息,生成池化特征图Si:
全连接层,将N层卷积层和池化层得到的数据按照顺序展开,连接成向量(i=1,...,k)作为输入到全连接层。
作为上述方案的进一步优化,自然语言处理技术4基于机器学习,促使计算机理解和接受人类使用自然语言输入的指令,包括词串分析12、语义分析13、词法分析14和单/多文档分析15。
实施例2:
本发明提供了一种卷积神经网络模型,包括输入层、卷积层、池化层和输出层。
输入层A,句子的长度为固定值n(当句子长度不大于n时,余下的空白项通过随机数填充),且单词向量的维数为k,句子的第i个基本单元表示为B,根据上述可得输入句子表达式:
上式中的表示级联运算符,xi:i+j表示xi,xi+1,…,xi+j的连接;
卷积层,卷积权重矩阵f∈Rhk作为基本单元长度为h的卷积滤波器,xi:i+h-1滤波提取一个特征,计算输入矩阵的信息,根据一次性计算窗口大小h*k的信息;通过卷积操作之后,输入层A计算为特征点Ci:
Ci=f(w·xi:i+h-1+b)
上式的b为偏置项,f为非线性激活函数;
当卷积滤波器向后移动时,对输入矩阵的窗口{x1:h,x2:h+1,...,xn-h+1:n}执行卷积操作,并且获得特征图:
C=[C1,C2,...,Cn-h+1]
当每个卷积滤波器通过如上操作,多个滤波器提取多个特征获取多个特征映射图,卷积神经网络模型中,特征提取器的数量通过网络初始化设置卷积核滤波器的数量进行;
池化层,通过对特征图进行采样操作,其局部区域特征被聚集,最大池化操作即选择特征图区域的最大值作为新的特征,其他特征忽略不计;通过下采样,不仅减小尺寸,还可以保证特征的位置和旋转的不变性;
池化层的输出作为全连接层的输入;卷积层和池化层完成局部特征提取,全连接层根据提取的特征完成分类。
本发明公开了一种基于深度学习的智能语音转写方法及其系统,通过构建数据库,利用语音识别技术预处理以及体征提取技术,对现有的录音音源进行语音识别,提取语音识别的结果构建语音语料数据库和文本语料数据库;分析业务逻辑,且根据业务逻辑分别构建声学模型和语言模型;根据深度学习以及神经网络技术,语音进行转写,分析引擎训练优化,增加语音转写综合识别率;构建语音转写和语音分析引擎模型根据语音识别技术,结合深度学习技术和自然语言处理技术,构建语音转写、语音分析引擎的模型;结合语音转写引擎、语音分析引擎和电视会议业务,建立电力行业高度定制化的语音转写模型和语音分析模型。一种基于深度学习的智能语音转写方法及其系统,通过语音转写引擎、语音分析引擎和电视业务的有机结合,实现了视频会议的录音文件全程转写,同时智能定位特定与会人员,完成特定与会人员的播放和转写发言内容,有效提高人工会议整理会议笔记的效率,还提高企业视频会议的管理和应用水平。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (10)
1.一种基于深度学习的智能语音转写方法,其特征在于,包括以下步骤:
(1)构建数据库,通过利用语音识别技术预处理以及体征提取技术,对现有的录音音源进行语音识别,提取语音识别的结果构建语音语料数据库和文本语料数据库;
(2)构建声学模型和语言模型,分析业务逻辑,且根据业务逻辑分别构建声学模型和语言模型;
(3)声学及语言模型的训练,根据深度学习网络以及神经网络技术,语音进行转写,分析引擎训练优化,增加语音转写综合识别率;
(4)构建语音转写和语音分析引擎模型,根据语音识别技术,结合深度学习网络技术和自然语言处理技术,构建语音转写、语音分析引擎的模型;
(5)智能语音分析模型构建,结合语音转写引擎、语音分析引擎和电视会议业务,建立电力行业高度定制化的语音转写模型和语音分析模型。
2.根据权利要求1所述的一种基于深度学习的智能语音转写方法,所述的数据库构建还包括处理自然语言所需的知识本体网络中的本体知识库、术语库和统一知识库的构建。
3.根据权利要求1所述的一种基于深度学习的智能语音转写方法,其特征在于,所述的录音音源的语音识别过程,基于去噪技术提取经过噪声处理后的有效的因素,对现有的语音音源进行精确裁剪,且根据音频的变化有效剔除语音数据的静音部分。
4.根据权利要求3所述的一种基于深度学习的智能语音转写方法,其特征在于,所述的去噪技术通过组合语音增强和抗噪特征提取技术实现,其过程包括如下:
(21)分析硬阈值函数、软阈值函数、软硬阈值折中函数和Garrote阈值函数的优缺点,构造改进的阈值函数,且所述的改进阈值函数同时具备以上几种函数的优点;
(22)通过Matlab仿真验证步骤(21)构造的改进阈值函数的可行性与有效性;
(23)抗噪特征提取技术上,采用MFCC参数和基于小波多分辨率分析改进的MFCC参数;
(24)基于语音增强和抗噪特征提取技术的组合方式,构建非特定人、孤立词、小词汇量的语音识别系统,设定声源环境测试为不同信噪比的产生,大数据对比系统每次的识别率,检验所述的组合方式的去噪方法的可行性。
5.根据权利要求1所述的一种基于深度学习的智能语音转写方法,其特征在于,所述的分析业务逻辑通过预处理技术针对去噪处理的坐席和客户进行交互的语音数据,将当前的角色分离和场景分割,为客户和坐席的服务规范、服务质量分析做数据准备。
6.根据权利要求5所述的一种基于深度学习的智能语音转写方法,其特征在于,所述的预处理技术包括预滤波、预加重、加窗和端点检测技术,其影响因子包括语音信号采样、反混叠带通滤波去除个体发音差异和设备以及环境引起的噪声影响,还包括语音识别的基元选取和端点检测。
7.根据权利要求6所述的一种基于深度学习的智能语音转写方法,其特征在于,基于特征提取技术获取预处理的数据的频域参数以及时域参数,包括共振峰幅度、共振峰幅度、基频和基音轮廓,且根据现有的数据和参数构建声学模型和语音模型。
8.根据权利要求6所述的一种基于深度学习的智能语音转写方法,其特征在于,所述的特征提取技术即根据原始的语音信号,抽取直接反映语音本质的特征参数,形成矢量序列。
9.根据权利要求1所述的一种基于深度学习的智能语音转写方法,其特征在于,所述的声学及语言模型的训练,即通过基于深度学习网络的深层神经网络,对现有的基于业务逻辑分析构建的声学和语言模型训练,应对实际语音识别产生自主优化机制。
10.根据权利要求9所述的一种基于深度学习的智能语音转写方法,其特征在于,所述的基于深度学习网络的神经网络的训练过程包括如下:
前先传导,包括卷积层、池化层和全连接层三种前向传导计算,卷积层的输入来自输入层或者来自池化层;
设定输入为A,每一层均有k个卷积核Ki(i+1,...,k)和参数偏置bi,卷积计算之后,生成K个特征图Ci,为普通向量;
Ci=conv2(A,Ki)+bi (1)
池化层,对前一层获得的特征图进行池化操作,获取池化区域的统计信息,生成池化特征图Si:
全连接层,将N层卷积层和池化层得到的数据按照顺序展开,连接成向量 作为输入到全连接层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910180846.0A CN109741748A (zh) | 2019-03-11 | 2019-03-11 | 一种基于深度学习的智能语音转写方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910180846.0A CN109741748A (zh) | 2019-03-11 | 2019-03-11 | 一种基于深度学习的智能语音转写方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109741748A true CN109741748A (zh) | 2019-05-10 |
Family
ID=66370053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910180846.0A Pending CN109741748A (zh) | 2019-03-11 | 2019-03-11 | 一种基于深度学习的智能语音转写方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109741748A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110111774A (zh) * | 2019-05-13 | 2019-08-09 | 广西电网有限责任公司南宁供电局 | 机器人语音识别方法和装置 |
CN111598996A (zh) * | 2020-05-08 | 2020-08-28 | 上海实迅网络科技有限公司 | 一种基于ar技术的物品3d模型展示方法和系统 |
CN112188011A (zh) * | 2019-07-04 | 2021-01-05 | 北京航天长峰科技工业集团有限公司 | 一种基于语音识别的呼叫中心质检考核方法 |
CN112562652A (zh) * | 2020-12-02 | 2021-03-26 | 湖南翰坤实业有限公司 | 一种基于Untiy引擎的语音处理方法及系统 |
CN114800538A (zh) * | 2021-01-21 | 2022-07-29 | 谈斯聪 | 一种陪伴陪护机器人装置、自适应学习系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079934A (zh) * | 2007-07-02 | 2007-11-28 | 中兴通讯股份有限公司 | 利用会话初始协议软终端实现录制语音的方法及系统 |
CN102625005A (zh) * | 2012-03-05 | 2012-08-01 | 广东天波信息技术股份有限公司 | 具有服务质量实时监督功能的呼叫中心系统及其实现方法 |
CN103377432A (zh) * | 2012-04-16 | 2013-10-30 | 殷程 | 智能客服营销分析系统 |
CN108418744A (zh) * | 2018-02-06 | 2018-08-17 | 国网浙江省电力有限公司信息通信分公司 | 一种用于提升电力服务质量的电子坐席系统 |
CN108763338A (zh) * | 2018-05-14 | 2018-11-06 | 山东亿云信息技术有限公司 | 一种基于电力行业的新闻采编系统 |
-
2019
- 2019-03-11 CN CN201910180846.0A patent/CN109741748A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079934A (zh) * | 2007-07-02 | 2007-11-28 | 中兴通讯股份有限公司 | 利用会话初始协议软终端实现录制语音的方法及系统 |
CN102625005A (zh) * | 2012-03-05 | 2012-08-01 | 广东天波信息技术股份有限公司 | 具有服务质量实时监督功能的呼叫中心系统及其实现方法 |
CN103377432A (zh) * | 2012-04-16 | 2013-10-30 | 殷程 | 智能客服营销分析系统 |
CN108418744A (zh) * | 2018-02-06 | 2018-08-17 | 国网浙江省电力有限公司信息通信分公司 | 一种用于提升电力服务质量的电子坐席系统 |
CN108763338A (zh) * | 2018-05-14 | 2018-11-06 | 山东亿云信息技术有限公司 | 一种基于电力行业的新闻采编系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110111774A (zh) * | 2019-05-13 | 2019-08-09 | 广西电网有限责任公司南宁供电局 | 机器人语音识别方法和装置 |
CN112188011A (zh) * | 2019-07-04 | 2021-01-05 | 北京航天长峰科技工业集团有限公司 | 一种基于语音识别的呼叫中心质检考核方法 |
CN111598996A (zh) * | 2020-05-08 | 2020-08-28 | 上海实迅网络科技有限公司 | 一种基于ar技术的物品3d模型展示方法和系统 |
CN111598996B (zh) * | 2020-05-08 | 2024-02-09 | 上海实迅网络科技有限公司 | 一种基于ar技术的物品3d模型展示方法和系统 |
CN112562652A (zh) * | 2020-12-02 | 2021-03-26 | 湖南翰坤实业有限公司 | 一种基于Untiy引擎的语音处理方法及系统 |
CN112562652B (zh) * | 2020-12-02 | 2024-01-19 | 湖南翰坤实业有限公司 | 一种基于Untiy引擎的语音处理方法及系统 |
CN114800538A (zh) * | 2021-01-21 | 2022-07-29 | 谈斯聪 | 一种陪伴陪护机器人装置、自适应学习系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109741748A (zh) | 一种基于深度学习的智能语音转写方法及系统 | |
Shou et al. | Conversational emotion recognition studies based on graph convolutional neural networks and a dependent syntactic analysis | |
CN110503971A (zh) | 用于语音处理的基于神经网络的时频掩模估计和波束形成 | |
Zhang et al. | Autoencoder with emotion embedding for speech emotion recognition | |
Vrysis et al. | 1D/2D deep CNNs vs. temporal feature integration for general audio classification | |
CN110517689A (zh) | 一种语音数据处理方法、装置及存储介质 | |
CN112216271A (zh) | 一种基于卷积块注意机制的视听双模态语音识别方法 | |
CN108491421A (zh) | 一种生成问答的方法、装置、设备和计算存储介质 | |
Liu et al. | Speech emotion recognition based on transfer learning from the FaceNet framework | |
CN117765981A (zh) | 一种基于语音文本跨模态融合的情感识别方法及系统 | |
CN117251057A (zh) | 一种基于aigc构建ai数智人的方法及系统 | |
Ge et al. | Exploring local detail perception for scene sketch semantic segmentation | |
Jia et al. | Emotion speech synthesis method based on multi-channel time–frequency domain generative adversarial networks (mc-tfd gans) and mixup | |
Lu et al. | Artcap: A dataset for image captioning of fine art paintings | |
Wang et al. | Self-supervised acoustic representation learning via acoustic-embedding memory unit modified space autoencoder for underwater target recognition | |
CN112992155B (zh) | 一种基于残差神经网络的远场语音说话人识别方法及装置 | |
Lukaj et al. | Optimized NLP models for digital twins in Metaverse | |
Zhao et al. | Speech emotion recognition based on hierarchical attributes using feature nets | |
Jia et al. | ET-GAN: cross-language emotion transfer based on cycle-consistent generative adversarial networks | |
Zhang et al. | Two-stream Emotion-embedded Autoencoder for Speech Emotion Recognition | |
Li | RETRACTED ARTICLE: Speech-assisted intelligent software architecture based on deep game neural network | |
Honggai et al. | Linguistic multidimensional perspective data simulation based on speech recognition technology and big data | |
Sartiukova et al. | Remote Voice Control of Computer Based on Convolutional Neural Network | |
Du et al. | Application of multiple difference feature network and speech recognition in dance training system | |
Jeon et al. | Multimodal audiovisual speech recognition architecture using a three‐feature multi‐fusion method for noise‐robust systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190510 |
|
RJ01 | Rejection of invention patent application after publication |