CN111354352B - 一种用于音频检索的模板自动清洗方法及系统 - Google Patents

一种用于音频检索的模板自动清洗方法及系统 Download PDF

Info

Publication number
CN111354352B
CN111354352B CN201811582260.9A CN201811582260A CN111354352B CN 111354352 B CN111354352 B CN 111354352B CN 201811582260 A CN201811582260 A CN 201811582260A CN 111354352 B CN111354352 B CN 111354352B
Authority
CN
China
Prior art keywords
voice
template
probability
neural network
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811582260.9A
Other languages
English (en)
Other versions
CN111354352A (zh
Inventor
石光
胡琦
李超
张学帅
徐杰
邹学强
刘建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, National Computer Network and Information Security Management Center filed Critical Institute of Acoustics CAS
Priority to CN201811582260.9A priority Critical patent/CN111354352B/zh
Publication of CN111354352A publication Critical patent/CN111354352A/zh
Application granted granted Critical
Publication of CN111354352B publication Critical patent/CN111354352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种用于音频检索的模板自动清洗方法及系统,所述方法包括:提取模板的语音信号的特征,形成特征序列;将语音特征序列输入预先训练好的深度神经网络,输出每一帧语音特征的后验概率;将后验概率转换为似然概率,然后进行Viterbi解码,输出最终的模板清洗结果。本发明的方法充分利用了深度神经网络以及数据驱动方法的优点,通过加入多样的非语音数据,使得DNN能够学习到无效语音与输入特征的非线性映射关系;同时,利用Viterbi算法能够增加系统对短时噪声、短暂频谱残缺等问题的鲁棒性。

Description

一种用于音频检索的模板自动清洗方法及系统
技术领域
本发明涉及音频检索领域,具体涉及一种用于音频检索的模板自动清洗方法及系统。
背景技术
作为信息重要传递媒介的音频,伴随着互联网的飞速发展,正以ZB(10万亿亿字节)量级剧增。粗略分析这些音频将会发现,其中不乏大量不良内容。如何快速、准确、高效地发现含有这些信息的音频,是音频样例检索领域关注的问题。
音频样例检索是指从音频数据库中检索出与用户提交的查询样例具有相似内容的音频信息并反馈给用户。其中,音频数据库也称为模板库。即,检索系统通过将待查询样例与模板库中的样例进行比对,以确定待查询样例的敏感级别与音频内容。因此,模板库的质量和丰富程度将直接影响整个检索系统的性能。
一般而言,模板制作需要经过两步流程:首先,根据互联网上的数据获得用于制作模板的原始音频样本;其次,将获得的样本经一系列处理得到满足特定要求的音频,并将其作为模板。其中,一系列处理操作通常被称为模板清洗(Modules Clean,MC)。由于网络上直接获取到的原始音频样例通常存在许多无效成分,如:噪音、音乐、电话回拨音等,这些成分会使得待查询样例中的无效成分被误识别为不良内容,因而造成系统虚警。为了减少这类问题,模板制作过程中常引入一个MC环节。
传统上,模板清洗工作常由全人工完成。虽然,全手动模板清洗具有较好的准确率,但费事费力,且效率低下。由于网络上存在模板种类繁多,音频检测系统常常支持的模板数会达到几万甚至十几万;并且,由于模板时效性问题,模板库会经常更新,因而全人工模板清洗在实际应用中存在明显不足。
另一方面,人们也尝试设计自动MC模块。但是互联网上传输的数据易受各种因素影响,且自动清洗模块需要应对噪音、音乐、回拨音等各种不同特征音频。通常,这些音频在声学层面存在较大差异,因而难以用一种通用的频谱分析方式去解决所有问题。
随着数字化音频数据量的快速增长,音频样例检索技术面临的应用环境越来越复杂,对音频检索算法提出了更高的要求。在实际应用中,音频模板片段有时很短只有一到两秒同时待检音频也极容易受到编解码错误和环境、传输噪声的干扰,导致在实际应用中,检索性能急剧下降。
发明内容
本发明目的在于克服现有手工模板清洗存在的繁琐、效率低的缺陷,提出了一种用于音频检索的模板自动清洗方法。该方法利用数据驱动算法的优点,通过训练一个深度神经网络,学习从非语音到输入特征向量的非线性映射关系,使得模型能够习得特征的局部关系;同时,利用Viterbi算法能够增加方法对短时噪声、短暂频谱残缺等问题的鲁棒性。
为了实现上述目的,本发明提出了一种用于音频检索的模板自动清洗方法,所述方法包括:
提取模板的语音信号的特征,形成语音特征序列;
将语音特征序列输入预先训练好的深度神经网络,输出每一帧语音特征的后验概率;
将后验概率转换为似然概率,然后进行Viterbi解码,输出最终的模板清洗结果。
作为上述方法的一种改进,所述特征包括:感知线性预测系数、基音频率及其可靠性表征和一维先验SNR估计。
作为上述方法的一种改进,所述深度神经网络的训练步骤包括:
步骤1)构建前向神经网络结构的深度神经网络,其包括一个输入层、三个隐含层和一个输出层;输出状态为两类:语音和非语音;
步骤2)提取训练样本集中的每个训练样本的语音特征序列,包括:感知线性预测系数、基音频率及其可靠性表征和一维先验SNR估计;
步骤3)将训练样本的语音特征序列输入深度神经网络,结合分类标签,采用基于交叉熵准则的反向传播算法进行训练,得到训练好的深度神经网络。
作为上述方法的一种改进,所述每一帧语音特征的后验概率
Figure BDA0001918236510000021
为:
Figure BDA0001918236510000022
作为上述方法的一种改进,所述Viterbi解码的步骤具体包括:
步骤S1)预先设定Viterbi解码的两个参数:各个状态间的帧转移概率以及各个状态的先验概率值;
步骤S2)从语音信号的起始点对语音进行逐帧判断,对于当前这一帧,通过前每一帧出现各个状态的后验概率,乘以帧间转移概率,得到某一序列出现的总概率,最大概率对应的路径就是最有可能出现的隐含序列。
本发明还提供了一种用于音频检索的模板自动清洗系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
本发明的优势在于:
本发明的方法充分利用了不同类型干扰数据的特点,通过深度神经网络学习到各种非语音数据的特性,使得模型能够应对各种非语音变化;同时,利用Viterbi后处理能够增加方法对短时噪声干扰等问题的鲁棒性。
附图说明
图1为本发明的用于音频检索的模板自动清洗方法的示意图;
图2为本发明的解码示意图。
具体实施方式
下面结合附图对本发明的方法进行详细的说明。
本发明利用深度神经网络(Deep Neural Network,DNN)作为学习模型,通过加入不同类别的非语音数据,使得DNN能够从数据中习得无效语音的通用特征,这为模板自动清洗方法的设计提供了一种全新视角。
自动模板清洗的主要目的是将输入音频流中的语音和非语音进行区分。该系统大致分为特征参数提取、决策以及后处理等三个环节。特征参数包括时域参数和频域参数及其衍射参数等。特征参数的目的在于量化出原信号中能够高效进行语音/非语音区分的信息。时域参数多基于语音能量强于静音、变化缓慢等假设,通过计算信号的短时能量、过零率等特征及其变种来达到对信号进行区分的目的;频域参数主要通过分析信号的频谱特征,具体包括,谱熵、自适应频域子带选择、基音频率等。决策过程一般采用门限以及模型决策的方法。常用的模型包括高斯混合模型、支持向量机、深/潜层神经网络等。由于环境复杂多变,一步决策结果易产生错误,因而系统中时常增加后处理环节,增加稳健性。
如图1所示,一种用于音频检索的模板自动清洗方法,包括:
首先,模板的语音信号经过特征提取环节,找到量化其特性的参数化表示。
常用的特征包括感知线性预测(PLP)、梅尔频率倒谱系数(MFCC)等。接着,给定输入语音特征
Figure BDA0001918236510000041
DNN输出其后验概率/>
Figure BDA0001918236510000042
然后,利用贝叶斯公式将后验概率转换为似然概率,用于Viterbi解码:
Figure BDA0001918236510000043
其中,qi表示状态;c表示输入特征的窗长;p(qi)是状态qi的先验概率,可以通过在训练集上统计其频率近似。DNN训练采用交叉熵准则。值得注意,为了减少不平衡数据对训练DNN的影响,采样大众类数据,使得两类训练数据总量尽量均衡。
在MC系统中,DNN模型仅针对语音/非语音两个状态进行建模。其输入层为提取的表征语音的特征信息,输出层则是针对这两类状态的概率输出。在进行DNN模型训练时,需要获取到一定量的语音数据,以及对应的帧级别状态目标值。基于这些训练数据和目标值,通过反向传播算法可以训练出用于MC的DNN模型。
利用DNN对语音状态进行建模,每当送入一帧语音特征时,都可通过DNN计算得到这帧数据属于语音/非语音的概率。对于通过每帧的概率最终判断出语音段的起止点,实验中采用Viterbi算法。Viterbi算法是一种动态规划算法,用于寻找最有可能产生观测事件序列的隐含状态序列。对于MC,DNN的输出状态相当于观测序列,语音/非语音的排列则对应于隐含序列。各个状态之间存在转移概率。从信号的起始点对语音进行逐帧判断,对于当前这一帧,通过求得之前每一帧出现各个状态的概率,乘以帧间转移概率,得到某一序列出现的总概率,最大概率对应的路径就是最有可能出现的隐含序列。图2示出了这种表示的一个图例。
在Viterbi算法中,有两个参数需要预先设定:一是各个状态间的转移概率值;二是各个状态的先验概率值。这两个值的设定通过在开发集上进行调优。
DNN通常需要假定训练和测试环境大体匹配。为了增加系统鲁棒性,考虑将环境影响引入到DNN中。为了引入该信息,需要考虑两个问题:1)如何获取环境信息;2))如何使用信息。对于问题1,估计单帧先验信噪比(Signal-to-Noise Ratio,SNR),并将SNR作为环境参数引入到MC系统中。关于问题2,考虑将先验SNR作为DNN的一维输入特征。由于SNR与声学特征存在一定非线性联系,通过合并两者,使得DNN能够学习到不同SNR下的特征规律,进而增加模型的鲁棒性。另外,由于SNR源自另一个视角,因而将其作为输入等效于增加了特征的部分有效信息。
另外,由于非语音(干扰)数据种类繁多,且某些类别中数据并不充分。为了解决这些问题,考虑人工生成各种形式的音频数据,以使得训练数据尽量覆盖所有可能的变化。为将问题简单化,把从互联网上获得的非语音数据作为干扰数据的原型。通过将单个类别中的原型数据加入不同种类、不同SNR的常用噪音(如,Babble、粉色噪声、机场噪声等),获得派生的非语音数据。通过这种方式,可以有效增加单类非语音数据的数量,并提升单类别内数据的多样性。为了产生新的非语音类别,将已有的非语音数据原型以类别为单位进行不同SNR叠加,获得新类别。接着,按照前述的方式增加新类别中的样本数量。
训练数据为实际电信客服和用户的对话数据,录制方式为8k 16bits,单声道电话信道。选取100小时数据用于训练DNN。数据标注首先经过语音识别器做强制对齐得到初步结果;然后,手工对强制对齐的结果进行校验。测试数据选取自互联网的候选模板数据1939条。
实验中,DNN为基本的前向神经网络结构。其包括三个隐含层、一个输入层和一个输出层。输入层节点数为60*11=660、输出层节点数为2(对应两类)、每个隐含层包含128个节点。训练特征为13维PLP(perceptual linear prediciton),以及一维基频特征和一维表征基频可信度的特征、一维先验SNR估计。所有特征做3阶差分,加上静态特征,共构成(13+1+1+1)*4=64维输入特征。64维输入做“左5右5”的特征扩展,共形成704维的特征作为DNN输入。DNN输出状态为两类:语音/非语音。
采用单条语音级别的准确度作为模板自动清洗方法的评价标准。假设待检测样本中共有Nspeech_ref条候选模板;清洗过后人工校正每条模板的清洗质量。如果判断不再需要进行二次人工清洗,则将该条样本判断为清洗质量合格,否则清洗不合格。将清洗合格的样本总量记为Nspeech_Good。根据清洗合格的候选模板数量,可以计算清洗准确率Accuracy:
Figure BDA0001918236510000051
本发明的方法的检测准确率为95%。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种用于音频检索的模板自动清洗方法,所述方法包括:
提取模板的语音信号的特征,形成语音特征序列;
将语音特征序列输入预先训练好的深度神经网络,输出每一帧语音特征的后验概率;
将后验概率转换为似然概率,然后进行Viterbi解码,输出最终的模板清洗结果;
所述语音特征包括:感知线性预测系数、基音频率及其可靠性表征和一维先验SNR估计。
2.根据权利要求1所述的用于音频检索的模板自动清洗方法,其特征在于,所述深度神经网络的训练步骤包括:
步骤1)构建前向神经网络结构的深度神经网络,其包括一个输入层、三个隐含层和一个输出层;输出状态为两类:语音和非语音;
步骤2)提取训练样本集中的每个训练样本的语音特征序列,包括:感知线性预测系数、基音频率及其可靠性表征和一维先验SNR估计;
步骤3)将训练样本的语音特征序列输入深度神经网络,结合分类标签,采用基于交叉熵准则的反向传播算法进行训练,得到训练好的深度神经网络。
3.根据权利要求2所述的用于音频检索的模板自动清洗方法,其特征在于,每一帧语音特征的后验概率
Figure FDA0004189211780000011
为:
Figure FDA0004189211780000012
4.根据权利要求3所述的用于音频检索的模板自动清洗方法,其特征在于,所述Viterbi解码的步骤具体包括:
步骤S1)预先设定Viterbi解码的两个参数:各个状态间的帧转移概率以及各个状态的先验概率值;
步骤S2)从语音信号的起始点对语音进行逐帧判断,对于当前这一帧,通过前每一帧出现各个状态的后验概率,乘以帧间转移概率,得到某一序列出现的总概率,最大概率对应的路径就是最有可能出现的隐含序列。
5.一种用于音频检索的模板自动清洗系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~4之一所述方法的步骤。
CN201811582260.9A 2018-12-24 2018-12-24 一种用于音频检索的模板自动清洗方法及系统 Active CN111354352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811582260.9A CN111354352B (zh) 2018-12-24 2018-12-24 一种用于音频检索的模板自动清洗方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811582260.9A CN111354352B (zh) 2018-12-24 2018-12-24 一种用于音频检索的模板自动清洗方法及系统

Publications (2)

Publication Number Publication Date
CN111354352A CN111354352A (zh) 2020-06-30
CN111354352B true CN111354352B (zh) 2023-07-14

Family

ID=71195566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811582260.9A Active CN111354352B (zh) 2018-12-24 2018-12-24 一种用于音频检索的模板自动清洗方法及系统

Country Status (1)

Country Link
CN (1) CN111354352B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114691664B (zh) * 2022-04-13 2022-12-20 杭州双禾丹网络科技有限公司 基于ai预测的智慧场景大数据清洗方法及智慧场景系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2708842A1 (en) * 2009-07-01 2011-01-01 Comcast Interactive Media, Llc Generating topic-specific language models
CN102156893A (zh) * 2011-03-24 2011-08-17 大连海事大学 Rfid设备网络环境下采集数据的清洗系统及方法
CN104575490A (zh) * 2014-12-30 2015-04-29 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
CN106611604A (zh) * 2015-10-23 2017-05-03 中国科学院声学研究所 一种基于深度神经网络的自动语音叠音检测方法
CN106875943A (zh) * 2017-01-22 2017-06-20 上海云信留客信息科技有限公司 一种用于大数据分析的语音识别系统
CN108363714A (zh) * 2017-12-21 2018-08-03 北京至信普林科技有限公司 一种方便数据分析人员使用的集成机器学习的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100919223B1 (ko) * 2007-09-19 2009-09-28 한국전자통신연구원 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2708842A1 (en) * 2009-07-01 2011-01-01 Comcast Interactive Media, Llc Generating topic-specific language models
CN102156893A (zh) * 2011-03-24 2011-08-17 大连海事大学 Rfid设备网络环境下采集数据的清洗系统及方法
CN104575490A (zh) * 2014-12-30 2015-04-29 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
CN106611604A (zh) * 2015-10-23 2017-05-03 中国科学院声学研究所 一种基于深度神经网络的自动语音叠音检测方法
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
CN106875943A (zh) * 2017-01-22 2017-06-20 上海云信留客信息科技有限公司 一种用于大数据分析的语音识别系统
CN108363714A (zh) * 2017-12-21 2018-08-03 北京至信普林科技有限公司 一种方便数据分析人员使用的集成机器学习的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
施晓华 ; 李芳 ; .知识体系互操作中贝叶斯学习方法应用研究.情报杂志.(第08期),全文. *
李勃昊 ; 张连海 ; 董桂芬 ; 郑永军 ; .基于后验概率特征的改进无监督语音样例检测.信息工程大学学报.(第04期),全文. *
郭开彦 ; 王洪亚 ; 程炜东 ; .基于主动学习的数据清洗系统.软件工程.(第09期),全文. *

Also Published As

Publication number Publication date
CN111354352A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN109599093B (zh) 智能质检的关键词检测方法、装置、设备及可读存储介质
Srinivasan et al. Codebook-based Bayesian speech enhancement for nonstationary environments
EP1515305B1 (en) Noise adaption for speech recognition
CN109034046B (zh) 一种基于声学检测的电能表内异物自动识别方法
JPS62231996A (ja) 音声認識方法
Akbacak et al. Environmental sniffing: noise knowledge estimation for robust speech systems
CN110853628A (zh) 一种模型训练方法、装置、电子设备及存储介质
Karbasi et al. Twin-HMM-based non-intrusive speech intelligibility prediction
JP2018025747A (ja) 対話行為推定方法、対話行為推定装置およびプログラム
Wang et al. Deep learning approaches for voice activity detection
CN117409761B (zh) 基于频率调制的人声合成方法、装置、设备及存储介质
Sharma et al. Non-intrusive estimation of speech signal parameters using a frame-based machine learning approach
US20230245674A1 (en) Method for learning an audio quality metric combining labeled and unlabeled data
CN111354352B (zh) 一种用于音频检索的模板自动清洗方法及系统
JP3987927B2 (ja) 波形認識方法及び装置、並びにプログラム
Li et al. Recurrent neural networks and acoustic features for frame-level signal-to-noise ratio estimation
CN114302301B (zh) 频响校正方法及相关产品
Feng et al. Noise Classification Speech Enhancement Generative Adversarial Network
Odriozola et al. An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods
Sadeghi et al. The effect of different acoustic noise on speech signal formant frequency location
Rashmi et al. Training based noise removal technique for a speech-to-text representation model
Therese et al. A linear visual assessment tendency based clustering with power normalized cepstral coefficients for audio signal recognition system
Kuropatwinski et al. Estimation of the short-term predictor parameters of speech under noisy conditions
Noorani et al. Single channel speech source separation using hierarchical deep neural networks
CN113571036B (zh) 一种低质数据的自动化合成方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant