CN110930997B - 一种利用深度学习模型对音频进行标注的方法 - Google Patents

一种利用深度学习模型对音频进行标注的方法 Download PDF

Info

Publication number
CN110930997B
CN110930997B CN201911261339.6A CN201911261339A CN110930997B CN 110930997 B CN110930997 B CN 110930997B CN 201911261339 A CN201911261339 A CN 201911261339A CN 110930997 B CN110930997 B CN 110930997B
Authority
CN
China
Prior art keywords
audio
voice
labeling
learning model
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911261339.6A
Other languages
English (en)
Other versions
CN110930997A (zh
Inventor
邓小红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201911261339.6A priority Critical patent/CN110930997B/zh
Publication of CN110930997A publication Critical patent/CN110930997A/zh
Application granted granted Critical
Publication of CN110930997B publication Critical patent/CN110930997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种利用深度学习模型对音频进行标注的方法,包括以下步骤:A.获取音频并对获取的音频进行语音预处理;B.将经语音预处理的音频数据输入深度学习模型进行语音识别及语音标注,并根据语音标注对音频进行打标签;其中,所述深度学习模型包括深度神经网络和长短时记忆单元;C.对深度学习模型输出的标签进行人工校对。本发明的方法将繁冗的人工听音、人工标注、人工校对工作转变为仅需人工校对,其他均由系统模型自动进行,能极大节约人力和时间成本,并且保障有效性。

Description

一种利用深度学习模型对音频进行标注的方法
技术领域
本发明涉及语音识别技术领域,特别涉及一种利用深度学习模型对音频进行标注的方法。
背景技术
在深度学习语音识别领域中,在进行训练前,需要足够充足的原始语料数据,并对语料数据中的关键字和无效语音进行标注。对关键字进行标注在语音识别、语音增强等语音信号处理系统中是重要的预处理流程。由于语料数据量的庞大,如果基于传统的语音标注手段,使得标注关键字的工作繁琐,并且耗费大量的人力和时间成本。同时,随着人工智能的快速发展,对语音识别带来了新的机遇和挑战,迫切需要一种能降低人力和时间成本的语音标注方法。
目前国内外的自动语音识别技术大多数都是依赖于大量的数据资源,而这些数据的资源都需要通过传统的手段对语音进行标注,在专利CN201811011859.7中,描述了一种针对低资源土家语的语言端到端的语音识别方法,该方法是通过卷积神经网络和BiLSTM提升设别率,该方法主要目的是提升语音识别的结果,即提升识别率,对于语音的识别,大多数是基于纯净语音,而对带有噪声的语音数据效果并不是很好。而本发明是结合深度神经网络和长短时记忆,并根据Gammtone频率倒谱系数的语音特征,提升对关键字进行标注准确率,同时,针对带噪语音的关键字标注,可提高语音标注的准确率,降低人工标注所耗的人力和时间成本,具有重要的理论意义和应用价值。
发明内容
本发明的目的是克服上述背景技术中不足,提供一种利用深度学习模型对音频进行标注的方法,具体是一种应用深度神经网络和长短时记忆单元对关键字标注的方法,可用于降低对大量语料进行标注时所造成的人力和时间成本。
为了达到上述的技术效果,本发明采取以下技术方案:
一种利用深度学习模型对音频进行标注的方法,包括以下步骤:
A.获取音频并对获取的音频进行语音预处理;
B.将经语音预处理的音频数据输入深度学习模型进行语音识别及语音标注,并根据语音标注对音频进行打标签;其中,所述深度学习模型包括深度神经网络和长短时记忆单元;
C.对深度学习模型输出的标签进行人工校对;
本发明的利用深度学习模型对音频进行标注的方法的大致工作流程为:先获取音频,并对音频进行相应的预处理,然后将预处理后的音频数据输入至深度学习模型,先由深度学习模型中具有自主学习功能的深度神经网络进行语音及非语音的初步识别及学习,深度神经网络根据学习结果不断更新判断标准,长短时记忆单元在参照深度学习模型的学习及判定结果对输入的音频数据进行实际判断,输出是否为语音,若是语音将进一步判别具体语音内容从而进行相应标注,并根据语音标注对音频进行打标签,最后由人工对标签结果进行校对,在上述过程中,只要将深度学习模型训练好,仅在最后的校正阶段需要人工处理,因此,可有效降低对大量语料进行标注时所造成的人力和时间成本。
进一步地,所述步骤A中具体是根据用户的音频使用需求获取音频,如包括以下需求场景:智慧家庭常使用的语音、语音的唤醒术语、用户提出的要求等,获取音频时可通过录音设备进行录音获取或通过公共网络爬取音频获取,且所述音频包括纯净语音的音频和带噪语音的音频。
进一步地,所述步骤A中对音频的预处理包括:将得到的音频数据分解成帧,并对语音特征向量进行提取,再将每一组的帧串联成语音帧序列。
进一步地,对语音特征向量进行提取时具体是根据gmmatone频率倒谱系数对语音特征向量进行提取,即使用gammatone滤波器得到64维的cochleagram,再对cochleagram进行离散余弦变换,并取前40维构成gammatone频率倒谱系数。
进一步地,所述步骤B具体为:
B1.将语音帧序列输入深度学习模型进行语音识别及语音标注;
B2.将语音的逐渐提取的语音特征向量与标注看作长度为N(N为正整数)的时间序列特征数据集,对时间序列特征数据集每次按固定的时间窗进行特征抽取,且时间窗按照步长移动;
B3.将抽取的某时刻的特征序列按时间顺序通过深度神经网络层与该时刻的长短时记忆网络进行计算并输出,并基于上下文信息的代价函数进行训练;
B4.将每个时刻的输出通过深度学习模型的预测层进行语音和非语音后验概率输出;
B5.输出音频帧序列即音频的关键字的标注,并基于所述音频帧序列的标注,为音频打标签。
进一步地,所述深度神经网络和长短时记忆单元的网络结构是由一个多层的深度神经网络加一层长短时记忆单元组成,且具体的该深度学习模型的输入是120维GFCC参数,是将当前帧和前后帧相邻俩帧合并的结果,该深度学习模型的输出层为2个神经元的softmax层,模型的代价计算是使用基于上下文信息的代价函数,该方法可以使在低信噪比的环境下也有很好的鲁棒性。
进一步地,所述步骤B3中进行计算时具体是深度神经网络层和长短时记忆单元分别通过反向传导和延时反向传导算法进行梯度计算,具体计算方式为现有技术,此处不再赘述,其中,网络参数更新使用批量训练与自适应梯度调整结合,所述步骤B4中进行后验概率输出时将具体输出每个音频帧序列的各标注的概率值,通过后验概率输出对应的概率值是现有技术,此处不再赘述。
进一步地,所述步骤B5中为音频打标签时具体是将步骤B4中得到的音频帧序列的标签中值最大的标签作为为音频的标注。
进一步地,所述深度神经网络一共有四层,各层的神经元数目依次为150、100、80、60;且每层都采用漏整流线性单元作为激活函数。
进一步地,所述长短时记忆单元层的神经元数位为30,采用tanh作为输出与记忆单元的激活函数。
本发明与现有技术相比,具有以下的有益效果:
本发明的利用深度学习模型对音频进行标注的方法,可以实现对原始语料的标注,将繁冗的人工听音、人工标注、人工校对工作转变为仅需人工校对,其他均由系统模型自动进行,能极大节约人力和时间成本,并且保障有效性。
附图说明
图1是本发明的利用深度学习模型对音频进行标注的方法的流程示意图。
具体实施方式
下面结合本发明的实施例对本发明作进一步的阐述和说明。
实施例:
实施例一:
一种利用深度学习模型对音频进行标注的方法,本发明的利用深度学习模型对音频进行标注的方法的大致工作流程为:先获取音频,并对音频进行相应的预处理,然后将预处理后的音频数据输入至深度学习模型,先由深度学习模型中具有自主学习功能的深度神经网络进行语音及非语音的初步识别及学习,深度神经网络根据学习结果不断更新判断标准,长短时记忆单元在参照深度学习模型的学习及判定结果对输入的音频数据进行实际判断,输出是否为语音,若是语音将进一步判别具体语音内容从而进行相应标注,并根据语音标注对音频进行打标签,最后由人工对标签结果进行校对,在上述过程中,只要将深度学习模型训练好,仅在最后的校正阶段需要人工处理,因此,可有效降低对大量语料进行标注时所造成的人力和时间成本。
如图1所示,本实施例的利用深度学习模型对音频进行标注的方法具体包括以下步骤:
步骤1.获取音频并对获取的音频进行语音预处理;包括:将得到的音频数据分解成帧,并对语音特征向量进行提取,再将每一组的帧串联成语音帧序列。
具体的,获取音频时需根据用户的音频使用需求获取音频,如包括以下需求场景:智慧家庭常使用的语音、语音的唤醒术语、用户提出的要求等。同时,获取音频时可通过录音设备进行录音获取或通过公共网络爬取音频获取,且所述音频包括纯净语音的音频和带噪语音的音频。
具体的,本实施例中,对语音特征向量进行提取时具体是根据gmmatone频率倒谱系数对语音特征向量进行提取,即使用gammatone滤波器得到64维的cochleagram,再对cochleagram进行离散余弦变换,并取前40维构成gammatone频率倒谱系数。
步骤2.将经语音预处理的音频数据输入深度学习模型进行语音识别及语音标注,并根据语音标注对音频进行打标签。
其中,所述深度学习模型包括深度神经网络和长短时记忆单元,网络事件展开长度为20语音特征向量序列,具体的,本实施例中,所述深度神经网络和长短时记忆单元的网络结构是由一个多层的深度神经网络加一层长短时记忆单元组成,且具体的该深度学习模型的输入是120维GFCC参数,是将当前帧和前后帧相邻俩帧合并的结果,该深度学习模型的输出层为2个神经元的softmax层,模型的代价计算是使用基于上下文信息的代价函数,该方法可以使在低信噪比的环境下也有很好的鲁棒性。
具体的,本实施例的所述深度神经网络一共有四层,各层的神经元数目依次为150、100、80、60;且每层都采用漏整流线性单元作为激活函数。长短时记忆单元层的神经元数位为30,采用tanh作为输出与记忆单元的激活函数。
本实施例中,步骤2具体包括:
步骤2.1.将语音帧序列输入深度学习模型进行语音识别及语音标注;
步骤2.2.将语音的逐渐提取的语音特征向量与标注看作长度为N的时间序列特征数据集,对时间序列特征数据集每次按固定的时间窗进行特征抽取,且时间窗按照步长移动;
其中,N为正整数,且深度学习模型的叠加帧的数目也是N,具体将帧号记为i,i大于等于1,并且小于等于N。
步骤2.3.将抽取的某时刻的特征序列按时间顺序通过深度神经网络层与该时刻的长短时记忆网络进行计算并输出,并基于上下文信息的代价函数进行训练;其中,进行计算时具体是深度神经网络层和长短时记忆单元分别通过反向传导和延时反向传导算法进行梯度计算,具体计算方式为现有技术,此处不再赘述,其中,网络参数更新使用批量训练与自适应梯度调整结合。
步骤2.4.将每个时刻的输出通过深度学习模型的预测层进行语音和非语音后验概率输出;具体的,进行后验概率输出时将具体输出每个音频帧序列的各标注的概率值,通过后验概率输出对应的概率值是现有技术,此处不再赘述。
步骤2.5.输出音频帧序列即音频的关键字的标注,并基于所述音频帧序列的标注,为音频打标签,具体是将步骤2.4中得到的音频帧序列的标签中值最大的标签作为为音频的标注。
步骤3.对深度学习模型输出的标签进行人工校对,即对模型所输出的音频的标注进行人工检阅,保证标注的准确性。
综上可知,本发明的利用深度学习模型对音频进行标注的方法,可以实现对原始语料的标注,将繁冗的人工听音、人工标注、人工校对工作转变为仅需人工校对,其他均由系统模型自动进行,能极大节约人力和时间成本,并且保障有效性。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (9)

1.一种利用深度学习模型对音频进行标注的方法,其特征在于,包括以下步骤:
A.获取音频并对获取的音频进行语音预处理;
B.将经语音预处理的音频数据输入深度学习模型进行语音识别及语音标注,并根据语音标注对音频进行打标签;其中,所述深度学习模型包括深度神经网络和长短时记忆单元;
所述步骤B具体为:
B1.将语音帧序列输入深度学习模型进行语音识别及语音标注;
B2.将语音的逐渐提取的语音特征向量与标注看作长度为N的时间序列特征数据集,对时间序列特征数据集每次按固定的时间窗进行特征抽取,且时间窗按照步长移动,其中,N为正整数;
B3.将抽取的某时刻的特征序列按时间顺序通过深度神经网络层与该时刻的长短时记忆网络进行计算并输出,并基于上下文信息的代价函数进行训练;
B4.将每个时刻的输出通过深度学习模型的预测层进行语音和非语音后验概率输出;
B5.输出音频帧序列即音频的关键字的标注,并基于所述音频帧序列的标注,为音频打标签;
C.对深度学习模型输出的标签进行人工校对。
2.根据权利要求1所述的一种利用深度学习模型对音频进行标注的方法,其特征在于,所述步骤A中具体是根据用户的音频使用需求获取音频,获取音频时可通过录音设备进行录音获取或通过公共网络爬取音频获取,且所述音频包括纯净语音的音频和带噪语音的音频。
3.根据权利要求1至2中任一所述的一种利用深度学习模型对音频进行标注的方法,其特征在于,所述步骤A中对音频的预处理包括:将得到的音频数据分解成帧,并对语音特征向量进行提取,再将每一组的帧串联成语音帧序列。
4.根据权利要求3所述的一种利用深度学习模型对音频进行标注的方法,其特征在于,对语音特征向量进行提取时具体是根据gmmatone频率倒谱系数对语音特征向量进行提取。
5.根据权利要求1所述的一种利用深度学习模型对音频进行标注的方法,其特征在于,所述深度神经网络和长短时记忆单元的网络结构是由一个多层的深度神经网络加一层长短时记忆单元组成。
6.根据权利要求5所述的一种利用深度学习模型对音频进行标注的方法,其特征在于,所述步骤B3中进行计算时具体是深度神经网络层和长短时记忆单元分别通过反向传导和延时反向传导算法进行梯度计算,所述步骤B4中进行后验概率输出时将具体输出每个音频帧序列的各标注的概率值。
7.根据权利要求6所述的一种利用深度学习模型对音频进行标注的方法,其特征在于,所述步骤B5中为音频打标签时具体是将步骤B4中得到的音频帧序列的标签中值最大的标签作为为音频的标注。
8.根据权利要求5所述的一种利用深度学习模型对音频进行标注的方法,其特征在于,所述深度神经网络一共有四层,各层的神经元数目依次为150、100、80、60;且每层都采用漏整流线性单元作为激活函数。
9.根据权利要求5所述的一种利用深度学习模型对音频进行标注的方法,其特征在于,所述长短时记忆单元层的神经元数位为30,采用tanh作为输出与记忆单元的激活函数。
CN201911261339.6A 2019-12-10 2019-12-10 一种利用深度学习模型对音频进行标注的方法 Active CN110930997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911261339.6A CN110930997B (zh) 2019-12-10 2019-12-10 一种利用深度学习模型对音频进行标注的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911261339.6A CN110930997B (zh) 2019-12-10 2019-12-10 一种利用深度学习模型对音频进行标注的方法

Publications (2)

Publication Number Publication Date
CN110930997A CN110930997A (zh) 2020-03-27
CN110930997B true CN110930997B (zh) 2022-08-16

Family

ID=69859624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911261339.6A Active CN110930997B (zh) 2019-12-10 2019-12-10 一种利用深度学习模型对音频进行标注的方法

Country Status (1)

Country Link
CN (1) CN110930997B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933120A (zh) * 2020-08-19 2020-11-13 潍坊医学院 一种用于语音识别的语音数据自动化标注方法和系统
CN112735456B (zh) * 2020-11-23 2024-01-16 西安邮电大学 一种基于dnn-clstm网络的语音增强方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345922A (zh) * 2013-07-05 2013-10-09 张巍 一种长篇幅语音全自动切分方法
CN103366731A (zh) * 2012-03-31 2013-10-23 盛乐信息技术(上海)有限公司 语音合成方法及系统
CN103902525A (zh) * 2012-12-28 2014-07-02 新疆电力信息通信有限责任公司 维吾尔语词性标注方法
CN105374350A (zh) * 2015-09-29 2016-03-02 百度在线网络技术(北京)有限公司 语音标注方法及装置
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
CN107220228A (zh) * 2017-06-13 2017-09-29 深圳市鹰硕技术有限公司 一种教学录播数据修正装置
CN108170811A (zh) * 2017-12-29 2018-06-15 北京大生在线科技有限公司 基于在线教育大数据的深度学习样本标注方法
CN108257614A (zh) * 2016-12-29 2018-07-06 北京酷我科技有限公司 音频数据标注的方法及其系统
CN108307229A (zh) * 2018-02-02 2018-07-20 新华智云科技有限公司 一种影音数据的处理方法及设备
CN109378016A (zh) * 2018-10-10 2019-02-22 四川长虹电器股份有限公司 一种基于vad的关键词识别标注方法
CN109493881A (zh) * 2018-11-22 2019-03-19 北京奇虎科技有限公司 一种音频的标签化处理方法、装置和计算设备
CN109982137A (zh) * 2019-02-22 2019-07-05 北京奇艺世纪科技有限公司 模型生成方法、视频标记方法、装置、终端及存储介质
CN110070882A (zh) * 2019-04-12 2019-07-30 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及电子设备
CN110070102A (zh) * 2019-03-13 2019-07-30 西安理工大学 基于双向独立循环神经网络的序列对序列模型的建立方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366731A (zh) * 2012-03-31 2013-10-23 盛乐信息技术(上海)有限公司 语音合成方法及系统
CN103902525A (zh) * 2012-12-28 2014-07-02 新疆电力信息通信有限责任公司 维吾尔语词性标注方法
CN103345922A (zh) * 2013-07-05 2013-10-09 张巍 一种长篇幅语音全自动切分方法
CN105374350A (zh) * 2015-09-29 2016-03-02 百度在线网络技术(北京)有限公司 语音标注方法及装置
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
CN108257614A (zh) * 2016-12-29 2018-07-06 北京酷我科技有限公司 音频数据标注的方法及其系统
CN107220228A (zh) * 2017-06-13 2017-09-29 深圳市鹰硕技术有限公司 一种教学录播数据修正装置
CN108170811A (zh) * 2017-12-29 2018-06-15 北京大生在线科技有限公司 基于在线教育大数据的深度学习样本标注方法
CN108307229A (zh) * 2018-02-02 2018-07-20 新华智云科技有限公司 一种影音数据的处理方法及设备
CN109378016A (zh) * 2018-10-10 2019-02-22 四川长虹电器股份有限公司 一种基于vad的关键词识别标注方法
CN109493881A (zh) * 2018-11-22 2019-03-19 北京奇虎科技有限公司 一种音频的标签化处理方法、装置和计算设备
CN109982137A (zh) * 2019-02-22 2019-07-05 北京奇艺世纪科技有限公司 模型生成方法、视频标记方法、装置、终端及存储介质
CN110070102A (zh) * 2019-03-13 2019-07-30 西安理工大学 基于双向独立循环神经网络的序列对序列模型的建立方法
CN110070882A (zh) * 2019-04-12 2019-07-30 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及电子设备

Also Published As

Publication number Publication date
CN110930997A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
US10332507B2 (en) Method and device for waking up via speech based on artificial intelligence
US11508366B2 (en) Whispering voice recovery method, apparatus and device, and readable storage medium
CN110428820B (zh) 一种中英文混合语音识别方法及装置
WO2018054361A1 (zh) 语音识别的环境自适应方法、语音识别装置和家用电器
CN105632486A (zh) 一种智能硬件的语音唤醒方法和装置
CN110197279B (zh) 变换模型训练方法、装置、设备和存储介质
CN112509555B (zh) 方言语音识别方法、装置、介质及电子设备
CN111402928B (zh) 基于注意力的语音情绪状态评估方法、装置、介质及设备
US11830521B2 (en) Voice activity detection method and system based on joint deep neural network
CN110930997B (zh) 一种利用深度学习模型对音频进行标注的方法
CN112802461B (zh) 语音识别方法和装置、服务器、计算机可读存储介质
WO2023197977A1 (zh) 语音识别方法以及装置
CN112927709A (zh) 一种基于时频域联合损失函数的语音增强方法
CN113782009A (zh) 一种基于Savitzky-Golay滤波器平滑方法的语音唤醒系统
CN115394287A (zh) 混合语种语音识别方法、装置、系统及存储介质
CN112509560A (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
CN115312033A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
WO2021229643A1 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
CN116741159A (zh) 音频分类及模型的训练方法、装置、电子设备和存储介质
CN115273828A (zh) 语音意图识别模型的训练方法、装置及电子设备
CN113470652A (zh) 一种基于工业互联网的语音识别及处理方法
CN113450800A (zh) 一种唤醒词激活概率的确定方法、装置和智能语音产品
CN113823271A (zh) 语音分类模型的训练方法、装置、计算机设备及存储介质
CN111833851A (zh) 一种自动学习优化声学模型的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant