CN112259087A - 基于时序神经网络模型补全语音数据的方法 - Google Patents
基于时序神经网络模型补全语音数据的方法 Download PDFInfo
- Publication number
- CN112259087A CN112259087A CN202011112445.0A CN202011112445A CN112259087A CN 112259087 A CN112259087 A CN 112259087A CN 202011112445 A CN202011112445 A CN 202011112445A CN 112259087 A CN112259087 A CN 112259087A
- Authority
- CN
- China
- Prior art keywords
- voice
- text data
- data set
- neural network
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003062 neural network model Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及语音技术领域,具体涉及一种基于时序神经网络模型补全语音数据的方法,实现了对残缺语音数据自动补全,极大地提高了效率,并且同时对补全后的语音数据进行验证,保证了语音补全的正确率。本发明将原始完整的语音数据集随机挖空任意时长的语音单元后,作为缺失的语音数据集;将原始完整的语音数据集以及缺失的语音数据集分别转换为原始完整的文本数据集以及缺失的文本数据集;将缺失的文本数据集输入时序神经网络模型,根据输出结果调整时序神经网络模型中的损失函数对时序神经网络模型不断优化,直到补全输出后的文本数据接近原始文本数据。本发明适用于语音数据补全。
Description
技术领域
本发明涉及语音技术领域,具体涉及一种基于时序神经网络模型补全语音数据的方法。
背景技术
随着互联网的快速发展,生活变得越来越智能化,因此人们也越来越习惯地使用智能终端完成各种需求。语音交互作为智能终端中人机交互主流的交流应用之一,也是越来越受到用户的青睐。智能终端都是基于使用的音频数据集对用户输入的语音进行识别,因此终端使用的语音数据集的准确性严重影响着智能终端所作出的反馈。
由于语音采集输入语音过程中可能出现的意外,同时语音类数据集由于来源广且标注人员良莠不齐,常出现很多的错误。这些错误里最难以解决的就是语音数据本身的缺失。这样语音数据由于年龄、性别、音质、口音、使用场景、录音设备等原因而识别错误导致无法识别,还造成成段音频数据的缺失。对于这些实际场景,传统的修正方法是对语音反复多次的识别,人工在标注语音数据集时也反复确认,但实际效果并不理想。
目前现有技术都是如何对语音进行高质量高效的识别,对语音数据的补全也仅仅是人工辅助的形式,效率非常低。
发明内容
本发明的目的是提供一种基于时序神经网络模型补全语音数据的方法,实现了对残缺语音数据自动补全,极大地提高了效率,并且同时对补全后的语音数据进行验证,保证了语音补全的正确率。
本发明采取如下技术方案实现上述目的,基于时序神经网络模型补全语音数据的方法,包括:
步骤(1)、将原始完整的语音数据集随机挖空任意时长的语音单元后,作为缺失的语音数据集;
步骤(2)、将原始完整的语音数据集以及缺失的语音数据集分别转换为原始完整的文本数据集以及缺失的文本数据集;
步骤(3)、将缺失的文本数据集输入时序神经网络模型,经时序神经网络模型补全后输出完整的文本数据集;
步骤(4)、将完整的文本数据集与原始完整的文本数据集进行相似度对比,若相似度大于设置的阈值,则获取补全后输出的完整的文本数据集,以及当前的时序神经网络模型,否则进入步骤(5);
步骤(5)、调整时序神经网络模型中的损失函数,进入步骤(3)。
进一步的是,基于时序神经网络模型补全语音数据的方法,还包括:
步骤(6)、提取任意时长与挖空的语音单元相邻的前后语音单元,并将挖空的语音单元转化为挖空的文本数据;
步骤(7)、将提取出的语音单元转换为对应的文本数据,并提取出该语音单元的音色特征集;
步骤(8)、将对应的文本数据输入所获取的时序神经网络模型,得到补全的部分文本数据;
步骤(9)、将补全的部分文本数据与挖空的文本数据拼接起来,并将拼接后的文本数据转换为语音数据,再结合提取出的音色特征集来还原原始音频数据集;
步骤(10)、将还原的原始音频数据集与原始完整的语音数据集进行对比来验证语音补全的相似度。
进一步的是,在步骤(2)中,还包括对文本数据进行相应预处理,去掉多余的词组。
进一步的是,所述时序神经网络模型包括多个LSTM单元的补全神经网络,神经网络中遗忘率设置为0.05,dropout设置为0.1。
进一步的是,所述LSTM提取的特征会通过一个全连接层得到最后的补全词汇结果。
本发明采用对完整语音数据集进行挖空,并将相关语音数据转化文本数据,利用文本数据上下文紧密的关系,对时序神经网络模型进行不断优化,直到补全后的完整数据集相似度达到要求,通过优化后的时序神经网络模型进行语音数据补全,实现了对残缺语音数据自动补全,在补全后通过提取挖空部分相邻语音单元的语音数据以及音色特征集来还原原音频数据集的方式来进行验证,保证了语音补全的正确率。
附图说明
图1是本发明基于时序神经网络模型补全语音数据的方法的方法流程图。
图2是本发明基于神经网络模型的文本补全原理示意图。
具体实施方式
本发明基于时序神经网络模型补全语音数据的方法,其方法流程图如图1,包括:
步骤101、将原始完整的语音数据集随机挖空任意时长的语音单元后,作为缺失的语音数据集;
步骤102、将原始完整的语音数据集以及缺失的语音数据集分别转换为原始完整的文本数据集以及缺失的文本数据集;
步骤103、将缺失的文本数据集输入时序神经网络模型,经时序神经网络模型补全后输出完整的文本数据集;
步骤104、将完整的文本数据集与原始完整的文本数据集进行相似度对比;
步骤105、获取补全后输出的完整的文本数据集,以及当前的时序神经网络模型;
步骤106、调整时序神经网络模型中的损失函数,进入步骤103。
为了实现对语音补全的验证,基于时序神经网络模型补全语音数据的方法,还包括:
步骤107、提取任意时长与挖空的语音单元相邻的前后语音单元,并将挖空的语音单元转化为挖空的文本数据;
步骤108、将提取出的语音单元转换为对应的文本数据,并提取出该语音单元的音色特征集;
步骤109、将对应的文本数据输入所获取的时序神经网络模型,得到补全的部分文本数据;
步骤110、将补全的部分文本数据与挖空的文本数据拼接起来,并将拼接后的文本数据转换为语音数据,再结合提取出的音色特征集来还原原始音频数据集;
步骤111、将还原的原始音频数据集与原始完整的语音数据集进行对比来验证语音补全的相似度。
步骤102中,还包括对文本数据进行相应预处理,去掉多余的词组。
本发明使用的时序神经网络模型包括多个LSTM单元的补全神经网络,神经网络中遗忘率设置为0.05,dropout设置为0.1。
其中,LSTM提取的特征会通过一个全连接层得到最后的补全词汇结果。
在具体实施时,采用完整的公开语音数据集作为数据样本,例如腾讯所公布的腾讯视频中各式各样的网络数据集。适用完整的数据集作为测试机,将样本按照8:2的比例随机裁剪,分为训练集和验证集。
训练集:指的是用于语音训练的样本集合,用来训练补全网络中的参数。
验证集:验证补全网络模型的数据集合。网络在训练集上训练结束后,通过数据集来比较判断网络模型的性能。
在训练时,可以对于以30秒为一个单位的语音中,随机挖空一个5秒的单元,将原语音分解成待补全的语音A和挖出部分语音B;使用现今已有的准确率较高的语音转文字网络,将语音A和B都转化为对应的文本数据;对于语音A和B对应的文本数据做基本的预处理:去掉多余的词,并且通过添加基本的谓语动词可以将它们本身连接一个完整的句子,将连接成的完整句子称作文本数据C;通过文本数据C对时序神经网络模型进行训练,不断对时序神经网络模型进行优化,使得补全后的文本数据不断接近原始文本数据集。
附图2为基于神经网络模型的文本补全原理示意图,其中,W为各类权重,x表示输入,y表示输出,h表示隐层处理状态,输入:what the,根据关联态,就会自动补全为:whatis the problem。
综上所述,本发明实现了对残缺语音数据自动补全,极大地提高了效率,并且同时对补全后的语音数据进行验证,保证了语音补全的正确率。
Claims (5)
1.基于时序神经网络模型补全语音数据的方法,其特征在于,包括:
步骤(1)、将原始完整的语音数据集随机挖空任意时长的语音单元后,作为缺失的语音数据集;
步骤(2)、将原始完整的语音数据集以及缺失的语音数据集分别转换为原始完整的文本数据集以及缺失的文本数据集;
步骤(3)、将缺失的文本数据集输入时序神经网络模型,经时序神经网络模型补全后输出完整的文本数据集;
步骤(4)、将完整的文本数据集与原始完整的文本数据集进行相似度对比,若相似度大于设置的阈值,则获取补全后输出的完整的文本数据集,以及当前的时序神经网络模型,否则进入步骤(5);
步骤(5)、调整时序神经网络模型中的损失函数,进入步骤(3)。
2.根据权利要求1所述的基于时序神经网络模型补全语音数据的方法,其特征在于,还包括:
步骤(6)、提取任意时长与挖空的语音单元相邻的前后语音单元,并将挖空的语音单元转化为挖空的文本数据;
步骤(7)、将提取出的语音单元转换为对应的文本数据,并提取出该语音单元的音色特征集;
步骤(8)、将对应的文本数据输入所获取的时序神经网络模型,得到补全的部分文本数据;
步骤(9)、将补全的部分文本数据与挖空的文本数据拼接起来,并将拼接后的文本数据转换为语音数据,再结合提取出的音色特征集来还原原始音频数据集;
步骤(10)、将还原的原始音频数据集与原始完整的语音数据集进行对比来验证语音补全的相似度。
3.根据权利要求1所述的基于时序神经网络模型补全语音数据的方法,其特征在于,在步骤(2)中,还包括对文本数据进行相应预处理,去掉多余的词组。
4.根据权利要求1所述的基于时序神经网络模型补全语音数据的方法,其特征在于,所述时序神经网络模型包括多个LSTM单元的补全神经网络,神经网络中遗忘率设置为0.05,dropout设置为0.1。
5.根据权利要求4所述的基于时序神经网络模型补全语音数据的方法,其特征在于,所述LSTM提取的特征会通过一个全连接层得到最后的补全词汇结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011112445.0A CN112259087A (zh) | 2020-10-16 | 2020-10-16 | 基于时序神经网络模型补全语音数据的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011112445.0A CN112259087A (zh) | 2020-10-16 | 2020-10-16 | 基于时序神经网络模型补全语音数据的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112259087A true CN112259087A (zh) | 2021-01-22 |
Family
ID=74245480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011112445.0A Pending CN112259087A (zh) | 2020-10-16 | 2020-10-16 | 基于时序神经网络模型补全语音数据的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112259087A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115278774A (zh) * | 2022-07-20 | 2022-11-01 | 云南电网有限责任公司电力科学研究院 | 一种北斗短报文缺失数据补录方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1756128A (zh) * | 2004-09-30 | 2006-04-05 | 北京信威通信技术股份有限公司 | 提高通信终端互通的语音质量的方法及通信系统 |
CN1906660A (zh) * | 2004-07-21 | 2007-01-31 | 松下电器产业株式会社 | 语音合成装置 |
CN108334487A (zh) * | 2017-07-14 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 缺失语意信息补全方法、装置、计算机设备和存储介质 |
CN109065017A (zh) * | 2018-07-24 | 2018-12-21 | Oppo(重庆)智能科技有限公司 | 语音数据生成方法及相关装置 |
CN109326288A (zh) * | 2018-10-31 | 2019-02-12 | 四川长虹电器股份有限公司 | 一种ai语音对话系统 |
US20190221206A1 (en) * | 2019-03-27 | 2019-07-18 | Intel Corporation | Spoken keyword detection based utterance-level wake on intent system |
-
2020
- 2020-10-16 CN CN202011112445.0A patent/CN112259087A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1906660A (zh) * | 2004-07-21 | 2007-01-31 | 松下电器产业株式会社 | 语音合成装置 |
CN1756128A (zh) * | 2004-09-30 | 2006-04-05 | 北京信威通信技术股份有限公司 | 提高通信终端互通的语音质量的方法及通信系统 |
CN108334487A (zh) * | 2017-07-14 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 缺失语意信息补全方法、装置、计算机设备和存储介质 |
CN109065017A (zh) * | 2018-07-24 | 2018-12-21 | Oppo(重庆)智能科技有限公司 | 语音数据生成方法及相关装置 |
CN109326288A (zh) * | 2018-10-31 | 2019-02-12 | 四川长虹电器股份有限公司 | 一种ai语音对话系统 |
US20190221206A1 (en) * | 2019-03-27 | 2019-07-18 | Intel Corporation | Spoken keyword detection based utterance-level wake on intent system |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115278774A (zh) * | 2022-07-20 | 2022-11-01 | 云南电网有限责任公司电力科学研究院 | 一种北斗短报文缺失数据补录方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564942B (zh) | 一种基于敏感度可调的语音情感识别方法及系统 | |
CN105244026B (zh) | 一种语音处理方法及装置 | |
CN110853649A (zh) | 基于智能语音技术的标签提取方法、系统、设备及介质 | |
CN109344231B (zh) | 一种补全语义残缺的语料的方法及系统 | |
CN103003876A (zh) | 修改经由声音通道的对话中的语音质量 | |
CN113314124B (zh) | 文本输出方法及系统、存储介质、电子装置 | |
CN107564528B (zh) | 一种语音识别文本与命令词文本匹配的方法及设备 | |
CN110853628A (zh) | 一种模型训练方法、装置、电子设备及存储介质 | |
CN111341318B (zh) | 说话者角色确定方法、装置、设备及存储介质 | |
CN111883137A (zh) | 基于语音识别的文本处理方法及装置 | |
CN111027291A (zh) | 文本中标点符号添加、模型训练方法、装置及电子设备 | |
CN112908301B (zh) | 一种语音识别方法、装置、存储介质及设备 | |
CN112259100A (zh) | 语音识别方法及相关模型的训练方法和相关设备、装置 | |
CN114187898A (zh) | 一种基于融合神经网络结构的端到端语音识别方法 | |
CN111639529A (zh) | 基于多层次逻辑的语音话术检测方法、装置及计算机设备 | |
CN111489754A (zh) | 一种基于智能语音技术的话务数据分析方法 | |
CN110196897B (zh) | 一种基于问答模板的案例识别方法 | |
CN112259087A (zh) | 基于时序神经网络模型补全语音数据的方法 | |
CN114328867A (zh) | 一种人机对话中智能打断的方法及装置 | |
CN112667787A (zh) | 基于话术标签的智能应答方法、系统及存储介质 | |
CN111933121B (zh) | 一种声学模型训练方法及装置 | |
CN113903327B (zh) | 一种基于深度神经网络的语音环境气氛识别方法 | |
CN111402887A (zh) | 一种语音转义文字的方法及装置 | |
CN115547345A (zh) | 声纹识别模型训练及相关识别方法、电子设备和存储介质 | |
CN113345423B (zh) | 语音端点检测方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210122 |