CN111354352A - 一种用于音频检索的模板自动清洗方法及系统 - Google Patents
一种用于音频检索的模板自动清洗方法及系统 Download PDFInfo
- Publication number
- CN111354352A CN111354352A CN201811582260.9A CN201811582260A CN111354352A CN 111354352 A CN111354352 A CN 111354352A CN 201811582260 A CN201811582260 A CN 201811582260A CN 111354352 A CN111354352 A CN 111354352A
- Authority
- CN
- China
- Prior art keywords
- neural network
- probability
- template
- voice
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000004140 cleaning Methods 0.000 title claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 22
- 230000007704 transition Effects 0.000 claims description 7
- 238000012512 characterization method Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 abstract description 3
- 238000013507 mapping Methods 0.000 abstract description 2
- 230000001052 transient effect Effects 0.000 abstract description 2
- 230000006872 improvement Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种用于音频检索的模板自动清洗方法及系统,所述方法包括:提取模板的语音信号的特征,形成特征序列;将语音特征序列输入预先训练好的深度神经网络,输出每一帧语音特征的后验概率;将后验概率转换为似然概率,然后进行Viterbi解码,输出最终的模板清洗结果。本发明的方法充分利用了深度神经网络以及数据驱动方法的优点,通过加入多样的非语音数据,使得DNN能够学习到无效语音与输入特征的非线性映射关系;同时,利用Viterbi算法能够增加系统对短时噪声、短暂频谱残缺等问题的鲁棒性。
Description
技术领域
本发明涉及音频检索领域,具体涉及一种用于音频检索的模板自动清洗方法及系统。
背景技术
作为信息重要传递媒介的音频,伴随着互联网的飞速发展,正以ZB(10万亿亿字节)量级剧增。粗略分析这些音频将会发现,其中不乏大量不良内容。如何快速、准确、高效地发现含有这些信息的音频,是音频样例检索领域关注的问题。
音频样例检索是指从音频数据库中检索出与用户提交的查询样例具有相似内容的音频信息并反馈给用户。其中,音频数据库也称为模板库。即,检索系统通过将待查询样例与模板库中的样例进行比对,以确定待查询样例的敏感级别与音频内容。因此,模板库的质量和丰富程度将直接影响整个检索系统的性能。
一般而言,模板制作需要经过两步流程:首先,根据互联网上的数据获得用于制作模板的原始音频样本;其次,将获得的样本经一系列处理得到满足特定要求的音频,并将其作为模板。其中,一系列处理操作通常被称为模板清洗(Modules Clean,MC)。由于网络上直接获取到的原始音频样例通常存在许多无效成分,如:噪音、音乐、电话回拨音等,这些成分会使得待查询样例中的无效成分被误识别为不良内容,因而造成系统虚警。为了减少这类问题,模板制作过程中常引入一个MC环节。
传统上,模板清洗工作常由全人工完成。虽然,全手动模板清洗具有较好的准确率,但费事费力,且效率低下。由于网络上存在模板种类繁多,音频检测系统常常支持的模板数会达到几万甚至十几万;并且,由于模板时效性问题,模板库会经常更新,因而全人工模板清洗在实际应用中存在明显不足。
另一方面,人们也尝试设计自动MC模块。但是互联网上传输的数据易受各种因素影响,且自动清洗模块需要应对噪音、音乐、回拨音等各种不同特征音频。通常,这些音频在声学层面存在较大差异,因而难以用一种通用的频谱分析方式去解决所有问题。
随着数字化音频数据量的快速增长,音频样例检索技术面临的应用环境越来越复杂,对音频检索算法提出了更高的要求。在实际应用中,音频模板片段有时很短只有一到两秒同时待检音频也极容易受到编解码错误和环境、传输噪声的干扰,导致在实际应用中,检索性能急剧下降。
发明内容
本发明目的在于克服现有手工模板清洗存在的繁琐、效率低的缺陷,提出了一种用于音频检索的模板自动清洗方法。该方法利用数据驱动算法的优点,通过训练一个深度神经网络,学习从非语音到输入特征向量的非线性映射关系,使得模型能够习得特征的局部关系;同时,利用Viterbi算法能够增加方法对短时噪声、短暂频谱残缺等问题的鲁棒性。
为了实现上述目的,本发明提出了一种用于音频检索的模板自动清洗方法,所述方法包括:
提取模板的语音信号的特征,形成语音特征序列;
将语音特征序列输入预先训练好的深度神经网络,输出每一帧语音特征的后验概率;
将后验概率转换为似然概率,然后进行Viterbi解码,输出最终的模板清洗结果。
作为上述方法的一种改进,所述特征包括:感知线性预测系数、基音频率及其可靠性表征和一维先验SNR估计。
作为上述方法的一种改进,所述深度神经网络的训练步骤包括:
步骤1)构建前向神经网络结构的深度神经网络,其包括一个输入层、三个隐含层和一个输出层;输出状态为两类:语音和非语音;
步骤2)提取训练样本集中的每个训练样本的语音特征序列,包括:感知线性预测系数、基音频率及其可靠性表征和一维先验SNR估计;
步骤3)将训练样本的语音特征序列输入深度神经网络,结合分类标签,采用基于交叉熵准则的反向传播算法进行训练,得到训练好的深度神经网络。
作为上述方法的一种改进,所述Viterbi解码的步骤具体包括:
步骤S1)预先设定Viterbi解码的两个参数:各个状态间的帧转移概率以及各个状态的先验概率值;
步骤S2)从语音信号的起始点对语音进行逐帧判断,对于当前这一帧,通过前每一帧出现各个状态的后验概率,乘以帧间转移概率,得到某一序列出现的总概率,最大概率对应的路径就是最有可能出现的隐含序列。
本发明还提供了一种用于音频检索的模板自动清洗系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
本发明的优势在于:
本发明的方法充分利用了不同类型干扰数据的特点,通过深度神经网络学习到各种非语音数据的特性,使得模型能够应对各种非语音变化;同时,利用Viterbi后处理能够增加方法对短时噪声干扰等问题的鲁棒性。
附图说明
图1为本发明的用于音频检索的模板自动清洗方法的示意图;
图2为本发明的解码示意图。
具体实施方式
下面结合附图对本发明的方法进行详细的说明。
本发明利用深度神经网络(Deep Neural Network,DNN)作为学习模型,通过加入不同类别的非语音数据,使得DNN能够从数据中习得无效语音的通用特征,这为模板自动清洗方法的设计提供了一种全新视角。
自动模板清洗的主要目的是将输入音频流中的语音和非语音进行区分。该系统大致分为特征参数提取、决策以及后处理等三个环节。特征参数包括时域参数和频域参数及其衍射参数等。特征参数的目的在于量化出原信号中能够高效进行语音/非语音区分的信息。时域参数多基于语音能量强于静音、变化缓慢等假设,通过计算信号的短时能量、过零率等特征及其变种来达到对信号进行区分的目的;频域参数主要通过分析信号的频谱特征,具体包括,谱熵、自适应频域子带选择、基音频率等。决策过程一般采用门限以及模型决策的方法。常用的模型包括高斯混合模型、支持向量机、深/潜层神经网络等。由于环境复杂多变,一步决策结果易产生错误,因而系统中时常增加后处理环节,增加稳健性。
如图1所示,一种用于音频检索的模板自动清洗方法,包括:
首先,模板的语音信号经过特征提取环节,找到量化其特性的参数化表示。
其中,qi表示状态;c表示输入特征的窗长;p(qi)是状态qi的先验概率,可以通过在训练集上统计其频率近似。DNN训练采用交叉熵准则。值得注意,为了减少不平衡数据对训练DNN的影响,采样大众类数据,使得两类训练数据总量尽量均衡。
在MC系统中,DNN模型仅针对语音/非语音两个状态进行建模。其输入层为提取的表征语音的特征信息,输出层则是针对这两类状态的概率输出。在进行DNN模型训练时,需要获取到一定量的语音数据,以及对应的帧级别状态目标值。基于这些训练数据和目标值,通过反向传播算法可以训练出用于MC的DNN模型。
利用DNN对语音状态进行建模,每当送入一帧语音特征时,都可通过DNN计算得到这帧数据属于语音/非语音的概率。对于通过每帧的概率最终判断出语音段的起止点,实验中采用Viterbi算法。Viterbi算法是一种动态规划算法,用于寻找最有可能产生观测事件序列的隐含状态序列。对于MC,DNN的输出状态相当于观测序列,语音/非语音的排列则对应于隐含序列。各个状态之间存在转移概率。从信号的起始点对语音进行逐帧判断,对于当前这一帧,通过求得之前每一帧出现各个状态的概率,乘以帧间转移概率,得到某一序列出现的总概率,最大概率对应的路径就是最有可能出现的隐含序列。图2示出了这种表示的一个图例。
在Viterbi算法中,有两个参数需要预先设定:一是各个状态间的转移概率值;二是各个状态的先验概率值。这两个值的设定通过在开发集上进行调优。
DNN通常需要假定训练和测试环境大体匹配。为了增加系统鲁棒性,考虑将环境影响引入到DNN中。为了引入该信息,需要考虑两个问题:1)如何获取环境信息;2))如何使用信息。对于问题1,估计单帧先验信噪比(Signal-to-Noise Ratio,SNR),并将SNR作为环境参数引入到MC系统中。关于问题2,考虑将先验SNR作为DNN的一维输入特征。由于SNR与声学特征存在一定非线性联系,通过合并两者,使得DNN能够学习到不同SNR下的特征规律,进而增加模型的鲁棒性。另外,由于SNR源自另一个视角,因而将其作为输入等效于增加了特征的部分有效信息。
另外,由于非语音(干扰)数据种类繁多,且某些类别中数据并不充分。为了解决这些问题,考虑人工生成各种形式的音频数据,以使得训练数据尽量覆盖所有可能的变化。为将问题简单化,把从互联网上获得的非语音数据作为干扰数据的原型。通过将单个类别中的原型数据加入不同种类、不同SNR的常用噪音(如,Babble、粉色噪声、机场噪声等),获得派生的非语音数据。通过这种方式,可以有效增加单类非语音数据的数量,并提升单类别内数据的多样性。为了产生新的非语音类别,将已有的非语音数据原型以类别为单位进行不同SNR叠加,获得新类别。接着,按照前述的方式增加新类别中的样本数量。
训练数据为实际电信客服和用户的对话数据,录制方式为8k 16bits,单声道电话信道。选取100小时数据用于训练DNN。数据标注首先经过语音识别器做强制对齐得到初步结果;然后,手工对强制对齐的结果进行校验。测试数据选取自互联网的候选模板数据1939条。
实验中,DNN为基本的前向神经网络结构。其包括三个隐含层、一个输入层和一个输出层。输入层节点数为60*11=660、输出层节点数为2(对应两类)、每个隐含层包含128个节点。训练特征为13维PLP(perceptual linear prediciton),以及一维基频特征和一维表征基频可信度的特征、一维先验SNR估计。所有特征做3阶差分,加上静态特征,共构成(13+1+1+1)*4=64维输入特征。64维输入做“左5右5”的特征扩展,共形成704维的特征作为DNN输入。DNN输出状态为两类:语音/非语音。
采用单条语音级别的准确度作为模板自动清洗方法的评价标准。假设待检测样本中共有Nspeech_ref条候选模板;清洗过后人工校正每条模板的清洗质量。如果判断不再需要进行二次人工清洗,则将该条样本判断为清洗质量合格,否则清洗不合格。将清洗合格的样本总量记为Nspeech_Good。根据清洗合格的候选模板数量,可以计算清洗准确率Accuracy:
本发明的方法的检测准确率为95%。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种用于音频检索的模板自动清洗方法,所述方法包括:
提取模板的语音信号的特征,形成语音特征序列;
将语音特征序列输入预先训练好的深度神经网络,输出每一帧语音特征的后验概率;
将后验概率转换为似然概率,然后进行Viterbi解码,输出最终的模板清洗结果。
2.根据权利要求1所述的用于音频检索的模板自动清洗方法,其特征在于,所述语音特征包括:感知线性预测系数、基音频率及其可靠性表征和一维先验SNR估计。
3.根据权利要求2所述的用于音频检索的模板自动清洗方法,其特征在于,所述深度神经网络的训练步骤包括:
步骤1)构建前向神经网络结构的深度神经网络,其包括一个输入层、三个隐含层和一个输出层;输出状态为两类:语音和非语音;
步骤2)提取训练样本集中的每个训练样本的语音特征序列,包括:感知线性预测系数、基音频率及其可靠性表征和一维先验SNR估计;
步骤3)将训练样本的语音特征序列输入深度神经网络,结合分类标签,采用基于交叉熵准则的反向传播算法进行训练,得到训练好的深度神经网络。
5.根据权利要求4所述的用于音频检索的模板自动清洗方法,其特征在于,所述Viterbi解码的步骤具体包括:
步骤S1)预先设定Viterbi解码的两个参数:各个状态间的帧转移概率以及各个状态的先验概率值;
步骤S2)从语音信号的起始点对语音进行逐帧判断,对于当前这一帧,通过前每一帧出现各个状态的后验概率,乘以帧间转移概率,得到某一序列出现的总概率,最大概率对应的路径就是最有可能出现的隐含序列。
6.一种用于音频检索的模板自动清洗系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~5之一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811582260.9A CN111354352B (zh) | 2018-12-24 | 2018-12-24 | 一种用于音频检索的模板自动清洗方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811582260.9A CN111354352B (zh) | 2018-12-24 | 2018-12-24 | 一种用于音频检索的模板自动清洗方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111354352A true CN111354352A (zh) | 2020-06-30 |
CN111354352B CN111354352B (zh) | 2023-07-14 |
Family
ID=71195566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811582260.9A Active CN111354352B (zh) | 2018-12-24 | 2018-12-24 | 一种用于音频检索的模板自动清洗方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111354352B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114691664A (zh) * | 2022-04-13 | 2022-07-01 | 宁夏沸蓝科技发展有限公司 | 基于ai预测的智慧场景大数据清洗方法及智慧场景系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090076813A1 (en) * | 2007-09-19 | 2009-03-19 | Electronics And Telecommunications Research Institute | Method for speech recognition using uncertainty information for sub-bands in noise environment and apparatus thereof |
CA2708842A1 (en) * | 2009-07-01 | 2011-01-01 | Comcast Interactive Media, Llc | Generating topic-specific language models |
CN102156893A (zh) * | 2011-03-24 | 2011-08-17 | 大连海事大学 | Rfid设备网络环境下采集数据的清洗系统及方法 |
CN104575490A (zh) * | 2014-12-30 | 2015-04-29 | 苏州驰声信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
CN106611604A (zh) * | 2015-10-23 | 2017-05-03 | 中国科学院声学研究所 | 一种基于深度神经网络的自动语音叠音检测方法 |
CN106875943A (zh) * | 2017-01-22 | 2017-06-20 | 上海云信留客信息科技有限公司 | 一种用于大数据分析的语音识别系统 |
CN108363714A (zh) * | 2017-12-21 | 2018-08-03 | 北京至信普林科技有限公司 | 一种方便数据分析人员使用的集成机器学习的方法及系统 |
-
2018
- 2018-12-24 CN CN201811582260.9A patent/CN111354352B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090076813A1 (en) * | 2007-09-19 | 2009-03-19 | Electronics And Telecommunications Research Institute | Method for speech recognition using uncertainty information for sub-bands in noise environment and apparatus thereof |
CA2708842A1 (en) * | 2009-07-01 | 2011-01-01 | Comcast Interactive Media, Llc | Generating topic-specific language models |
CN102156893A (zh) * | 2011-03-24 | 2011-08-17 | 大连海事大学 | Rfid设备网络环境下采集数据的清洗系统及方法 |
CN104575490A (zh) * | 2014-12-30 | 2015-04-29 | 苏州驰声信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
CN106611604A (zh) * | 2015-10-23 | 2017-05-03 | 中国科学院声学研究所 | 一种基于深度神经网络的自动语音叠音检测方法 |
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
CN106875943A (zh) * | 2017-01-22 | 2017-06-20 | 上海云信留客信息科技有限公司 | 一种用于大数据分析的语音识别系统 |
CN108363714A (zh) * | 2017-12-21 | 2018-08-03 | 北京至信普林科技有限公司 | 一种方便数据分析人员使用的集成机器学习的方法及系统 |
Non-Patent Citations (3)
Title |
---|
施晓华;李芳;: "知识体系互操作中贝叶斯学习方法应用研究" * |
李勃昊;张连海;董桂芬;郑永军;: "基于后验概率特征的改进无监督语音样例检测" * |
郭开彦;王洪亚;程炜东;: "基于主动学习的数据清洗系统" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114691664A (zh) * | 2022-04-13 | 2022-07-01 | 宁夏沸蓝科技发展有限公司 | 基于ai预测的智慧场景大数据清洗方法及智慧场景系统 |
CN114691664B (zh) * | 2022-04-13 | 2022-12-20 | 杭州双禾丹网络科技有限公司 | 基于ai预测的智慧场景大数据清洗方法及智慧场景系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111354352B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | Multi-objective learning and mask-based post-processing for deep neural network based speech enhancement | |
CN109599093B (zh) | 智能质检的关键词检测方法、装置、设备及可读存储介质 | |
Srinivasan et al. | Codebook-based Bayesian speech enhancement for nonstationary environments | |
EP1515305B1 (en) | Noise adaption for speech recognition | |
KR100766761B1 (ko) | 화자-독립형 보이스 인식 시스템용 보이스 템플릿을구성하는 방법 및 장치 | |
JPS62231996A (ja) | 音声認識方法 | |
US7552049B2 (en) | Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition | |
CN113327626A (zh) | 语音降噪方法、装置、设备及存储介质 | |
CN111429943B (zh) | 音频中音乐及音乐相对响度的联合检测方法 | |
JP2002140087A (ja) | 音声処理システム | |
CN111640456A (zh) | 叠音检测方法、装置和设备 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
Wang et al. | Improved DNN-based segmentation for multi-genre broadcast audio | |
Moore et al. | Say What? A Dataset for Exploring the Error Patterns That Two ASR Engines Make. | |
CN117409761B (zh) | 基于频率调制的人声合成方法、装置、设备及存储介质 | |
CN112489625A (zh) | 语音情绪识别方法、系统、移动终端及存储介质 | |
Wang et al. | Deep learning approaches for voice activity detection | |
Sharma et al. | Non-intrusive estimation of speech signal parameters using a frame-based machine learning approach | |
JP5670298B2 (ja) | 雑音抑圧装置、方法及びプログラム | |
CN111354352B (zh) | 一种用于音频检索的模板自动清洗方法及系统 | |
Parmar et al. | Comparison of performance of the features of speech signal for non-intrusive speech quality assessment | |
CN114302301B (zh) | 频响校正方法及相关产品 | |
JP2004287010A (ja) | 波形認識方法及び装置、並びにプログラム | |
Feng et al. | Noise Classification Speech Enhancement Generative Adversarial Network | |
Odriozola et al. | An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |