CN111833897B - 一种用于交互式教育的语音增强方法 - Google Patents

一种用于交互式教育的语音增强方法 Download PDF

Info

Publication number
CN111833897B
CN111833897B CN202010909658.XA CN202010909658A CN111833897B CN 111833897 B CN111833897 B CN 111833897B CN 202010909658 A CN202010909658 A CN 202010909658A CN 111833897 B CN111833897 B CN 111833897B
Authority
CN
China
Prior art keywords
voice
user
semantic
enhancement
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010909658.XA
Other languages
English (en)
Other versions
CN111833897A (zh
Inventor
杨峰
韩忠国
彭岸青
秦建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Decibel Workshop Technology Co ltd
Original Assignee
Hefei Decibel Workshop Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Decibel Workshop Technology Co ltd filed Critical Hefei Decibel Workshop Technology Co ltd
Priority to CN202010909658.XA priority Critical patent/CN111833897B/zh
Publication of CN111833897A publication Critical patent/CN111833897A/zh
Application granted granted Critical
Publication of CN111833897B publication Critical patent/CN111833897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明属于语音处理技术领域,具体涉及一种用于交互式教育的语音增强方法,包括:获取用户语音数据,并提取语音数据的特征值,建立用户交互式语音应答菜单树以及语音增强模型,接受用户的交互申请请求,根据请求数据识别用户身份,继续获取用户语音信息得到语音增强处理后的语音特征,解析并定位至知识点中的标准问,并反馈标准答案。本发明除了基于待处理语音数据的语音特征外,还提取了能够表征说话人的语音特性的身份特征,从而能够基于说话人语音特性进行语音增强,有效提高语音增强效果,相比传统单声道语音增强方法,该方法无论在语音质量还是语音可懂度上,都取得很大的提升,对非平稳噪声也能较好的抑制。

Description

一种用于交互式教育的语音增强方法
技术领域
本发明属于语音处理技术领域,具体涉及一种用于交互式教育的语音增强方法。
背景技术
语音增强(SpeechEnhancement)是指去除语音信号中的噪声,得到干净的语音信号。实际生活场景中,麦克风采集的语音信号通常是带有不同噪声以及混响的语音信号,其中混响主要是由于房间中的墙壁及各种物体的反射带来的干扰信号,不同的房间类型以及材料决定了混响的程度和房间混响的单位冲激响应。语音增强的主要目的就是将包含噪声的语音恢复成原始的干净语音。通过语音增强可以有效抑制各种干扰信号,增强目标语音信号,不仅可以提高语音可懂度和话音质量,还有助于提高语音识别的准确性。
按照进行语音增强所使用的方法来分,可以分为无监督语音增强方法和有监督语音增强方法,前者也称为传统语音增强方法。传统语音增强方法历史悠久,且具有很深的技术奠基,所需计算量也较小,是目前工业界进行降噪的主要思路。然而由于传统单声道语音增强方法进行了一些不合理的假设,而且难以处理突发性非平稳噪声,限制了性能的上限。有监督语音增强方法是近些年提出的,它借鉴机器学习的思路,通过有监督的训练实现语音增强。其中基于深度学习的语音增强方法使用神经网络来学习带噪语音和干净语音之间复杂的非线性关系,对突发性噪声能较好的处理,取得比传统语音增强方法更优的性能。在基于深度学习的语音增强方法中,难点是提升低信噪比、不可见噪声下语音质量和可懂度,设计满足实时应用需求的增强方案。
发明内容
针对现有技术中的问题,本发明的目的是设计一个新的技术方案,提供一种用于交互式教育的语音增强方法,用以解决上述问题。
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
为了达到上述目的,本发明是通过以下技术方案来实现的:
一种用于交互式教育的语音增强方法,包括以下步骤:
预先获取用户语音数据和身份信息,从所述语音数据中提取用户的语音特征,并设定用户身份账户信息,所述语音特征的提取包括:
对语音数据进行预处理,得到每个数据帧;
将所述每个数据帧由时域转换至频域;
利用预设尺度的三角形滤波器,对转换至频域的每个数据帧进行滤波;
对滤波后的每个数据帧进行离散余弦变换,得到所述语音数据的特征值;
建立用户交互式语音应答菜单树以及语音增强模型,所述语音增强模型通过以下方式得到:
在训练阶段,对干净语音和带噪语音提取从幅度谱经过函数g变化之后的特征,通过监督算法并采用最小均方误差准则训练DNN模型,所述最小均方误差准则为:
其中和/>是经过函数g变换之后的估计和干净语音的特征,维数都是D维,/>也是经过函数g变换之后的带噪语音特征,W和b分别表示网络的权重矩阵和偏置向量,W和b采用BP算法来学习,采用minibatch更新网络的梯度,N即为minibatch的大小,λ为用来防止过拟合的规整因子;
将训练结束时的神经网络模型作为语音增强模型;
接受用户的交互申请请求,根据请求数据识别用户身份:
若识别成功则查询并调用与所述用户相匹配的交互式语音应答控制流程,其中交互式语音应答控制流程控制所述用户交互式语音应答菜单树中的播报顺序,所述应答菜单树的每一层均包括多个菜单,每一个所述菜单均映射一个业务节点;所述业务节点中包含知识点的集合,每个知识点包括标准问及对应的标准答案;
否则返回执行获取用户的身份信息、以及与所述用户的身份信息相对应的语音特征的步骤;
继续获取用户语音信息,将带噪语音进行特征提取,将提取后的语音特征和用户身份特征,进行拼接,将拼接后的组合特征输入语音增强模型,得到语音增强处理后的语音特征;
对增强处理后的语音特征进行语义解析并定位至知识点中的标准问,并反馈标准答案。
优选地,所述交互式语音应答控制流程,通过所述用户的多个历史交互中的用户触发的菜单业务的顺序构建得到。
优选地,所述知识点中还包括抽象语义数据库,所述抽象语义数据库包括多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;
根据所述抽象语义数据库对所述标准问进行抽象语义推荐处理,当获得与所述标准问对应的一个或多个抽象语义表达式时,从所述标准问中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述标准问对应的一个或多个具体语义表达式,所述具体语义表达式作为所述标准问的扩展问。
优选地,所述抽象语义推荐处理包括:
对所述标准问进行分词处理,得到若干单词,所述单词为语义规则词或非语义规则词;
分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的词性信息;
分别对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息;
根据所述词性信息和词类信息对抽象语义数据库进行搜索处理,得到与所述标准问匹配的抽象语义表达式。
优选地,所述抽象语义表达式还包括语义规则词,与所述标准问匹配的抽象语义表达式满足以下条件:
抽象语义表达式的缺失语义成分对应的词性包括标准问对应的填充内容的词性;
抽象语义表达式和标准问中对应的语义规则词相同或属于同一词类;
抽象语义表达式的顺序与标准问的表达顺序相同。
优选地,所述对所述语音数据进行预处理,得到每个数据帧的步骤,包括:
对所述语音数据进行预加重处理,得到加重后数据;
对所述加重后数据进行分帧处理,得到分帧数据;
利用预设窗函数对所述分帧数据进行加窗处理,得到每个数据帧。
优选地,所述语音增强处理具体包括:将带噪语音信号首先通过同样的变换函数g得到变换特征,输入到己经训练好的DNN模型生成增强的特征,利用带噪语音信号中的相位信息通过反向离散傅里叶变化得到増强语音的时域波形,并通过重叠相加算法合成得到整个句子的语音波形。
优选地,所述变换函数g为对数变换或线性变换中的一种。
本发明还提供一种用于交互式教育的语音增强方法,包括:
获取建模模块,用于预先获取用户语音数据和身份信息,从所述语音数据中提取用户的语音特征,并设定用户身份账户信息,所述语音特征的提取包括:
对语音数据进行预处理,得到每个数据帧;
将所述每个数据帧由时域转换至频域;
利用预设尺度的三角形滤波器,对转换至频域的每个数据帧进行滤波;
对滤波后的每个数据帧进行离散余弦变换,得到所述语音数据的特征值;
建立用户交互式语音应答菜单树以及语音增强模型,所述语音增强模型通过以下方式得到:
在训练阶段,对干净语音和带噪语音提取从幅度谱经过函数g变化之后的特征,通过监督算法并采用最小均方误差准则训练DNN模型,所述最小均方误差准则为:
其中和/>是经过函数g变换之后的估计和干净语音的特征,维数都是D维,/>也是经过函数g变换之后的带噪语音特征,W和b分别表示网络的权重矩阵和偏置向量,W和b采用BP算法来学习,采用minibatch更新网络的梯度,N即为minibatch的大小,λ为用来防止过拟合的规整因子;
将训练结束时的神经网络模型作为语音增强模型;
交互模块,用于接受用户的交互申请请求,根据请求数据识别用户身份:
若识别成功则查询并调用与所述用户相匹配的交互式语音应答控制流程,其中交互式语音应答控制流程控制所述用户交互式语音应答菜单树中的播报顺序,所述应答菜单树的每一层均包括多个菜单,每一个所述菜单均映射一个业务节点;所述业务节点中包含知识点的集合,每个知识点包括标准问及对应的标准答案;
否则返回执行获取用户的身份信息、以及与所述用户的身份信息相对应的语音特征的步骤;
重构反馈模块,用于继续获取用户语音信息,将带噪语音进行特征提取,将提取后的语音特征和用户身份特征,进行拼接,将拼接后的组合特征输入语音增强模型,得到语音增强处理后的语音特征;
对增强处理后的语音特征进行语义解析并定位至知识点中的标准问,并反馈标准答案。
本发明还提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。。
本发明具有如下的有益效果:
本发明在进行语音增强处理时,除了基于待处理语音数据的语音特征外,还提取了能够表征说话人的语音特性的身份特征,从而能够基于说话人语音特性进行语音增强,有效提高语音增强效果。此外,从噪声语音样本中提取训练语音特征,从无噪声语音样本提取训练参考语音特征和用于识别说话人声学身份的训练身份特征,进而获得拼接训练语音特征与训练身份特征而成的训练拼接特征,利用深层神经网络模型进行语音增强,该深层神经网络模型基于大通过监督算法并采用最小均方误差准则训练DNN模型训练得到,携带有丰富的语音信息,即使场景中出现异常噪声,语音增强效果不受影响,相比于现有方案,提高了语音增强效果;
此外本发明充分利用了知识库中的知识点,获得了与用户问题相关的语料,大大提高了语料对于语言模型训练的针对性,使得以极少的训练成本获得了较高准确度的语言模型
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本实施例2中用于交互式教育的语音增强系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在说明书及权利要求书当中使用了某些名称来指称特定组件。应当理解,本领域普通技术人员可能会用不同名称来指称同一个组件。本申请说明书及权利要求书并不以名称的差异作为区分组件的方式,而是以组件在功能上的实质性差异作为区分组件的准则。如在本申请说明书和权利要求书中所使用的“包含”或“包括”为一开放式用语,其应解释为“包含但不限定于”或“包括但不限定于”。具体实施方式部分所描述的实施例为本发明的较佳实施例,并非用以限定本发明的范围。
此外,所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为软硬件结合的形式,这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明的各个方面还可以实现为在一个或多个微控制器可读介质中的计算机程序产品的形式,该微控制器可读介质中包含微控制器可读的程序代码。
对于交互式语音应答系统,用户以语音输入的形式提出问题。为了回答用户的问题,交互式语音应答系统的后台处理主要包括两个部分:语音识别部分和语义识别部分。语音识别部分的作用是对用户的语音输入进行语音识别,以获得文字形式的用户问题。语义识别部分是基于该文字形式的用户问题从知识库中寻找对应的答案。语音识别技术主要由语言模型训练阶段和使用语言模型的识别阶段构成。
实施例
本实施例提供一种用于交互式教育的语音增强方法,包括以下步骤:
预先获取用户语音数据和身份信息,从所述语音数据中提取用户的语音特征,并设定用户身份账户信息,所述语音特征的提取包括:
对语音数据进行预处理,得到每个数据帧;
将所述每个数据帧由时域转换至频域;
利用预设尺度的三角形滤波器,对转换至频域的每个数据帧进行滤波;
对滤波后的每个数据帧进行离散余弦变换,得到所述语音数据的特征值;
建立用户交互式语音应答菜单树以及语音增强模型,所述语音增强模型通过以下方式得到:
在训练阶段,对干净语音和带噪语音提取从幅度谱经过函数g变化之后的特征,通过监督算法并采用最小均方误差准则训练DNN模型,所述最小均方误差准则为:
其中和/>是经过函数g变换之后的估计和干净语音的特征,维数都是D维,/>也是经过函数g变换之后的带噪语音特征,W和b分别表示网络的权重矩阵和偏置向量,W和b采用BP算法来学习,采用minibatch更新网络的梯度,N即为minibatch的大小,λ为用来防止过拟合的规整因子;
将训练结束时的神经网络模型作为语音增强模型;
接受用户的交互申请请求,根据请求数据识别用户身份:
若识别成功则查询并调用与所述用户相匹配的交互式语音应答控制流程,其中交互式语音应答控制流程控制所述用户交互式语音应答菜单树中的播报顺序,所述应答菜单树的每一层均包括多个菜单,每一个所述菜单均映射一个业务节点;所述业务节点中包含知识点的集合,每个知识点包括标准问及对应的标准答案;
否则返回执行获取用户的身份信息、以及与所述用户的身份信息相对应的语音特征的步骤;
继续获取用户语音信息,将带噪语音进行特征提取,将提取后的语音特征和用户身份特征,进行拼接,将拼接后的组合特征输入语音增强模型,得到语音增强处理后的语音特征;
对增强处理后的语音特征进行语义解析并定位至知识点中的标准问,并反馈标准答案。
本实施例中的交互式语音应答控制流程,通过所述用户的多个历史交互中的用户触发的菜单业务的顺序构建得到。
本实施例中的知识点中还包括抽象语义数据库,所述抽象语义数据库包括多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;
根据所述抽象语义数据库对所述标准问进行抽象语义推荐处理,当获得与所述标准问对应的一个或多个抽象语义表达式时,从所述标准问中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述标准问对应的一个或多个具体语义表达式,所述具体语义表达式作为所述标准问的扩展问。
本实施例中的抽象语义推荐处理包括:
对所述标准问进行分词处理,得到若干单词,所述单词为语义规则词或非语义规则词;
分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的词性信息;
分别对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息;
根据所述词性信息和词类信息对抽象语义数据库进行搜索处理,得到与所述标准问匹配的抽象语义表达式。
本实施例中的抽象语义表达式还包括语义规则词,与所述标准问匹配的抽象语义表达式满足以下条件:
抽象语义表达式的缺失语义成分对应的词性包括标准问对应的填充内容的词性;
抽象语义表达式和标准问中对应的语义规则词相同或属于同一词类;
抽象语义表达式的顺序与标准问的表达顺序相同。
本实施例中对语音数据进行预处理,得到每个数据帧的步骤,包括:
对所述语音数据进行预加重处理,得到加重后数据;
对所述加重后数据进行分帧处理,得到分帧数据;
利用预设窗函数对所述分帧数据进行加窗处理,得到每个数据帧。
本实施例中的语音增强处理具体包括:将带噪语音信号首先通过同样的变换函数g得到变换特征,输入到己经训练好的DNN模型生成增强的特征,利用带噪语音信号中的相位信息通过反向离散傅里叶变化得到増强语音的时域波形,并通过重叠相加算法合成得到整个句子的语音波形。
本实施中的变换函数g为对数变换或线性变换中的一种。
实施例2
如图1所示,本实施例提供一种用于交互式教育的语音增强系统,包括:
获取建模模块,用于预先获取用户语音数据和身份信息,从所述语音数据中提取用户的语音特征,并设定用户身份账户信息,所述语音特征的提取包括:
对语音数据进行预处理,得到每个数据帧;
将所述每个数据帧由时域转换至频域;
利用预设尺度的三角形滤波器,对转换至频域的每个数据帧进行滤波;
对滤波后的每个数据帧进行离散余弦变换,得到所述语音数据的特征值;
建立用户交互式语音应答菜单树以及语音增强模型,所述语音增强模型通过以下方式得到:
在训练阶段,对干净语音和带噪语音提取从幅度谱经过函数g变化之后的特征,通过监督算法并采用最小均方误差准则训练DNN模型,所述最小均方误差准则为:
其中和/>是经过函数g变换之后的估计和干净语音的特征,维数都是D维,/>也是经过函数g变换之后的带噪语音特征,W和b分别表示网络的权重矩阵和偏置向量,W和b采用BP算法来学习,采用minibatch更新网络的梯度,N即为minibatch的大小,λ为用来防止过拟合的规整因子;
将训练结束时的神经网络模型作为语音增强模型;
交互模块,用于接受用户的交互申请请求,根据请求数据识别用户身份:
若识别成功则查询并调用与所述用户相匹配的交互式语音应答控制流程,其中交互式语音应答控制流程控制所述用户交互式语音应答菜单树中的播报顺序,所述应答菜单树的每一层均包括多个菜单,每一个所述菜单均映射一个业务节点;所述业务节点中包含知识点的集合,每个知识点包括标准问及对应的标准答案;
否则返回执行获取用户的身份信息、以及与所述用户的身份信息相对应的语音特征的步骤;
重构反馈模块,用于继续获取用户语音信息,将带噪语音进行特征提取,将提取后的语音特征和用户身份特征,进行拼接,将拼接后的组合特征输入语音增强模型,得到语音增强处理后的语音特征;
对增强处理后的语音特征进行语义解析并定位至知识点中的标准问,并反馈标准答案。
实施例3
本实施例提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现实施例1中的方法步骤。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于交互式教育的语音增强方法,其特征在于:包括以下步骤:
预先获取用户语音数据和身份信息,从所述语音数据中提取用户的语音特征,并设定用户身份账户信息,所述语音特征的提取包括:
对语音数据进行预处理,得到每个数据帧;
将所述每个数据帧由时域转换至频域;
利用预设尺度的三角形滤波器,对转换至频域的每个数据帧进行滤波;
对滤波后的每个数据帧进行离散余弦变换,得到所述语音数据的特征值;
建立用户交互式语音应答菜单树以及语音增强模型,所述语音增强模型通过以下方式得到:
在训练阶段,对干净语音和带噪语音提取从幅度谱经过函数g变化之后的特征,通过监督算法并采用最小均方误差准则训练DNN模型,所述最小均方误差准则为:
其中和/>是经过函数g变换之后的估计和干净语音的特征,维数都是D维,Yn g也是经过函数g变换之后的带噪语音特征,W和b分别表示网络的权重矩阵和偏置向量,W和b采用BP算法来学习,采用minibatch更新网络的梯度,N即为minibatch的大小,λ为用来防止过拟合的规整因子;
将训练结束时的神经网络模型作为语音增强模型;
接受用户的交互申请请求,根据请求数据识别用户身份:
若识别成功则查询并调用与所述用户相匹配的交互式语音应答控制流程,其中交互式语音应答控制流程控制所述用户交互式语音应答菜单树中的播报顺序,所述应答菜单树的每一层均包括多个菜单,每一个所述菜单均映射一个业务节点;所述业务节点中包含知识点的集合,每个知识点包括标准问及对应的标准答案;
否则返回执行获取用户的身份信息、以及与所述用户的身份信息相对应的语音特征的步骤;
继续获取用户语音信息,将带噪语音进行特征提取,将提取后的语音特征和用户身份特征,进行拼接,将拼接后的组合特征输入语音增强模型,得到语音增强处理后的语音特征;
对增强处理后的语音特征进行语义解析并定位至知识点中的标准问,并反馈标准答案。
2.根据权利要求1所述的一种用于交互式教育的语音增强方法,其特征在于:所述交互式语音应答控制流程,通过所述用户的多个历史交互中的用户触发的菜单业务的顺序构建得到。
3.根据权利要求1所述的一种用于交互式教育的语音增强方法,其特征在于:所述知识点中还包括抽象语义数据库,所述抽象语义数据库包括多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;
根据所述抽象语义数据库对所述标准问进行抽象语义推荐处理,当获得与所述标准问对应的一个或多个抽象语义表达式时,从所述标准问中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述标准问对应的一个或多个具体语义表达式,所述具体语义表达式作为所述标准问的扩展问。
4.根据权利要求3所述的一种用于交互式教育的语音增强方法,其特征在于,所述抽象语义推荐处理包括:
对所述标准问进行分词处理,得到若干单词,所述单词为语义规则词或非语义规则词;
分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的词性信息;
分别对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息;
根据所述词性信息和词类信息对抽象语义数据库进行搜索处理,得到与所述标准问匹配的抽象语义表达式。
5.根据权利要求4所述的一种用于交互式教育的语音增强方法,其特征在于,所述抽象语义表达式还包括语义规则词,与所述标准问匹配的抽象语义表达式满足以下条件:
抽象语义表达式的缺失语义成分对应的词性包括标准问对应的填充内容的词性;
抽象语义表达式和标准问中对应的语义规则词相同或属于同一词类;
抽象语义表达式的顺序与标准问的表达顺序相同。
6.根据权利要求1所述的一种用于交互式教育的语音增强方法,其特征在于:对所述语音数据进行预处理,得到每个数据帧的步骤,包括:
对所述语音数据进行预加重处理,得到加重后数据;
对所述加重后数据进行分帧处理,得到分帧数据;
利用预设窗函数对所述分帧数据进行加窗处理,得到每个数据帧。
7.根据权利要求1所述的一种用于交互式教育的语音增强方法,其特征在于:所述语音增强处理具体包括:将带噪语音信号首先通过同样的变换函数g得到变换特征,输入到己经训练好的DNN模型生成增强的特征,利用带噪语音信号中的相位信息通过反向离散傅里叶变化得到増强语音的时域波形,并通过重叠相加算法合成得到整个句子的语音波形。
8.根据权利要求7所述的一种用于交互式教育的语音增强方法,其特征在于:所述变换函数g为对数变换或线性变换中的一种。
9.一种用于交互式教育的语音增强系统,其特征在于,包括:
获取建模模块,用于预先获取用户语音数据和身份信息,从所述语音数据中提取用户的语音特征,并设定用户身份账户信息,所述语音特征的提取包括:
对语音数据进行预处理,得到每个数据帧;
将所述每个数据帧由时域转换至频域;
利用预设尺度的三角形滤波器,对转换至频域的每个数据帧进行滤波;
对滤波后的每个数据帧进行离散余弦变换,得到所述语音数据的特征值;
建立用户交互式语音应答菜单树以及语音增强模型,所述语音增强模型通过以下方式得到:
在训练阶段,对干净语音和带噪语音提取从幅度谱经过函数g变化之后的特征,通过监督算法并采用最小均方误差准则训练DNN模型,所述最小均方误差准则为:
其中和/>是经过函数g变换之后的估计和干净语音的特征,维数都是D维,Yn g也是经过函数g变换之后的带噪语音特征,W和b分别表示网络的权重矩阵和偏置向量,W和b采用BP算法来学习,采用minibatch更新网络的梯度,N即为minibatch的大小,λ为用来防止过拟合的规整因子;
将训练结束时的神经网络模型作为语音增强模型;
交互模块,用于接受用户的交互申请请求,根据请求数据识别用户身份:
若识别成功则查询并调用与所述用户相匹配的交互式语音应答控制流程,其中交互式语音应答控制流程控制所述用户交互式语音应答菜单树中的播报顺序,所述应答菜单树的每一层均包括多个菜单,每一个所述菜单均映射一个业务节点;所述业务节点中包含知识点的集合,每个知识点包括标准问及对应的标准答案;
否则返回执行获取用户的身份信息、以及与所述用户的身份信息相对应的语音特征的步骤;
重构反馈模块,用于继续获取用户语音信息,将带噪语音进行特征提取,将提取后的语音特征和用户身份特征,进行拼接,将拼接后的组合特征输入语音增强模型,得到语音增强处理后的语音特征;
对增强处理后的语音特征进行语义解析并定位至知识点中的标准问,并反馈标准答案。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8任一所述的方法步骤。
CN202010909658.XA 2020-09-02 2020-09-02 一种用于交互式教育的语音增强方法 Active CN111833897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010909658.XA CN111833897B (zh) 2020-09-02 2020-09-02 一种用于交互式教育的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010909658.XA CN111833897B (zh) 2020-09-02 2020-09-02 一种用于交互式教育的语音增强方法

Publications (2)

Publication Number Publication Date
CN111833897A CN111833897A (zh) 2020-10-27
CN111833897B true CN111833897B (zh) 2023-08-22

Family

ID=72918294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010909658.XA Active CN111833897B (zh) 2020-09-02 2020-09-02 一种用于交互式教育的语音增强方法

Country Status (1)

Country Link
CN (1) CN111833897B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154383A (zh) * 2006-09-29 2008-04-02 株式会社东芝 噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置
CN106601237A (zh) * 2016-12-29 2017-04-26 上海智臻智能网络科技股份有限公司 交互式语音应答系统及其语音识别方法
WO2020135462A1 (zh) * 2018-12-27 2020-07-02 上海智臻智能网络科技股份有限公司 一种自动泛化方法及其装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8306817B2 (en) * 2008-01-08 2012-11-06 Microsoft Corporation Speech recognition with non-linear noise reduction on Mel-frequency cepstra
US10347244B2 (en) * 2017-04-21 2019-07-09 Go-Vivace Inc. Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
CN109754814B (zh) * 2017-11-08 2023-07-28 阿里巴巴集团控股有限公司 一种声音处理方法、交互设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154383A (zh) * 2006-09-29 2008-04-02 株式会社东芝 噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置
CN106601237A (zh) * 2016-12-29 2017-04-26 上海智臻智能网络科技股份有限公司 交互式语音应答系统及其语音识别方法
WO2020135462A1 (zh) * 2018-12-27 2020-07-02 上海智臻智能网络科技股份有限公司 一种自动泛化方法及其装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Python的深度学习BP网络语音增强方法研究;王光艳;李玲;王新刚;;信息通信(第03期);全文 *

Also Published As

Publication number Publication date
CN111833897A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN108364650B (zh) 语音识别结果的调整装置及方法
CN111429932A (zh) 语音降噪方法、装置、设备及介质
CN111081223B (zh) 一种语音识别方法、装置、设备和存储介质
CN115602165B (zh) 基于金融系统的数字员工智能系统
Gupta et al. Speech feature extraction and recognition using genetic algorithm
CN113823293A (zh) 一种基于语音增强的说话人识别方法及系统
CN111833897B (zh) 一种用于交互式教育的语音增强方法
CN108492821B (zh) 一种减弱语音识别中说话人影响的方法
CN110797008B (zh) 一种远场语音识别方法、语音识别模型训练方法和服务器
CN116312559A (zh) 跨信道声纹识别模型的训练方法、声纹识别方法及装置
CN113763966B (zh) 一种端到端的文本无关声纹识别方法及系统
CN112002307B (zh) 一种语音识别方法和装置
Upadhyay et al. Robust recognition of English speech in noisy environments using frequency warped signal processing
Zhipeng et al. Voiceprint recognition based on BP Neural Network and CNN
CN113470652A (zh) 一种基于工业互联网的语音识别及处理方法
WO2021051533A1 (zh) 基于地址信息的黑名单识别方法、装置、设备及存储介质
CN112489678A (zh) 一种基于信道特征的场景识别方法及装置
Zhou et al. Environmental sound classification of western black-crowned gibbon habitat based on spectral subtraction and VGG16
Techini et al. Robust Front-End Based on MVA and HEQ Post-processing for Arabic Speech Recognition Using Hidden Markov Model Toolkit (HTK)
CN113516987B (zh) 一种说话人识别方法、装置、存储介质及设备
US20240079022A1 (en) General speech enhancement method and apparatus using multi-source auxiliary information
CN116631406B (zh) 基于声学特征生成的身份特征提取方法、设备及存储介质
CN116229987B (zh) 一种校园语音识别的方法、装置及存储介质
CN113269305B (zh) 一种加强记忆的反馈语音强化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant