CN114780786B - 一种基于瓶颈特征和残差网络的语音关键词检索方法 - Google Patents
一种基于瓶颈特征和残差网络的语音关键词检索方法 Download PDFInfo
- Publication number
- CN114780786B CN114780786B CN202210390224.2A CN202210390224A CN114780786B CN 114780786 B CN114780786 B CN 114780786B CN 202210390224 A CN202210390224 A CN 202210390224A CN 114780786 B CN114780786 B CN 114780786B
- Authority
- CN
- China
- Prior art keywords
- voice
- keyword retrieval
- neural network
- model
- bottleneck
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 43
- 239000011159 matrix material Substances 0.000 claims abstract description 36
- 238000013528 artificial neural network Methods 0.000 claims abstract description 34
- 238000012360 testing method Methods 0.000 claims abstract description 27
- 238000011156 evaluation Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000003062 neural network model Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 230000001788 irregular Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000013210 evaluation model Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims 1
- 230000001172 regenerating effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000009432 framing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于瓶颈特征和残差神经网络的语音关键词检索的方法,所述方法包括以下步骤:步骤1:预处理数据:对训练数据预处理,利用预训练前馈网络得到数据集的瓶颈特征,再生成相似矩阵图像;步骤2:模型训练:构建语音关键词检索模型,将处理后的数据和标签输入残差神经网络,完成关键词检索模型的训练;步骤3:模型测试:对测试集进行关键词检索,并给出置信度判断;步骤4:模型评估:采用准确率、召回率和F1评估关键词检索模型性能;本发明将语音关键词检索任务转化为图像二分类任务,从根本上解决了传统低资源语音关键词检索对语料库资源规模要求高的问题,更加简便快捷的实现低资源语音关键词检索。
Description
技术领域
本发明涉及语音处理的低资源语音关键词检索技术领域,尤其涉及一种基于瓶颈特征和残差神经网络的低资源语音关键词检索技术。
背景技术
移动网络快速发展、存储设备价格持续下降等多种因素,导致越来越多的信息以语音文档的形式存储;人们希望语音文档信息检索能够像文本信息检索一样方便快捷,这促进了语音信息检索相关技术的发展,语音文档信息检索用到的主要技术是语音关键词检索技术;语音关键词检索是定位某个关键词在语音文档中出现位置的一种技术,语音关键词检索技术的一个重要步骤是判断关键词是否出现在语音文档中。
现有主流的关键词检索技术通常先通过语音识别系统将待检测的语音文档转化为文本文档,再在文本文档中检索关键词;但是实际的语音关键词检索主要是查找出关键词,并不需要获取语音文档中所有内容;这种先将语音转化为文本再检索的方式大大增加了工作量;除此之外,这种关键词检索方式需要丰富的语料库资源,对于汉语、英语等大规模语言,带标注的语料库、发音词典等资源十分丰富,语音转化为文本的准确率高,不会影响关键词检索的准确率;但是低资源语言因带标注的语料库、发音词典等语料库资源十分匮乏,语音识别准确率低下,关键词检索准确率也随之急剧下降。
所以鉴于这些问题,无语音识别的语音关键词检索技术受到了众多研究人员的关注,无语音识别的关键词检索方式用到的主要是模板匹配技术;传统的基于模板匹配的关键词检索技术大多直接采用声学特征进行匹配,这种方法容易受到说话人性别、年龄、方言以及录音环境、噪音等多种因素的影响;此外,关键词的不同模板往往在质量上有很大的差异,这些因素导致传统基于模板匹配的关键词检索系统的性能差,并不能应用到实际的低资源语音关键词检索任务中。
研究人员又提出基于动态时间规整(DTW)的语音关键词检索技术,该方法包括两个主要步骤,一是从关键词和语音文档中提取合适的特征向量,二是利用这些特征来估计语音关键词作为子序列出现在语音文档中某处的可能性;动态时间规整算法(DTW)利用关键词和音频文档的特征向量计算出帧级相似性矩阵,根据相似矩阵判断关键词是否出现在语音文档中;之后,Dhananjay Ram等人提出利用卷积神经网络实现低资源语音关键词检索,但是这种检索技术依然受到说话人性别、方言、录音条件、背景噪声等因素的影响。
发明内容
本发明主要对语音关键词检索的特征提取阶段和模板匹配阶段进行优化,解决语音关键词检索技术存在对说话人性别、方言、录音条件、背景噪声鲁棒性差的问题,解决传统语音关键词检索对声学模型、语言模型等语料库资源要求高的问题。
本发明的目的是将语音关键词检索任务转化为图像二分类任务来处理,通过该方法可以完成语音关键词检索任务,提高语音关键词检索对说话人性别、方言、录音条件、背景噪声的鲁棒性,解决传统语音关键词检索方法对发音词典、带标注的语料库等资源要求高的问题。
本发明的目的是通过以下技术方案实现。
一种基于瓶颈特征和残差神经网络的低资源语音关键词检索方法,包括以下步骤。
步骤1:预处理训练数据:对训练数据进行预加重再分帧加窗,通过前馈神经网络获得训练数据集的瓶颈特征,利用瓶颈特征生成帧级相似矩阵,并且把帧级相似矩阵作为图像,最后对训练数据设置标签,预处理后的数据用于训练残差神经网络模型。
步骤2:构建模型并训练:构建基于残差神经网络的语音关键词检索模型,设定合理的训练参数,将模型部署到服务器上,再将预处理后的训练数据集输入模型完成残差神经网络的训练。
步骤3:测试模型:利用训练好的模型对测试语音数据进行关键词检索,并给出置信度判断,完成关键词检索任务。
步骤4:评估模型:采用准确率、召回率、F1评分指标对低资源语音关键词检索模型的性能进行评价。
本发明的模型称为低资源语音关键词检索残差神经网络模型,通过残差神经网络模型,利用声学特征完成低资源语音关键词检索任务;用户只需提供语音关键词和语音文档语句及语音关键词是否出现在语音文档语句中的标签;本发明可以摆脱传统基于语音识别的关键词检索方法需要带标注的语料库、发音词典等资源的制约,从根本上改变语音关键词检索对语料库资源要求高的现状,更加简便快捷的实现低资源语音关键词检索。
步骤1包括以下步骤。
步骤1-1对训练数据设置标签,标签分为两类;语音关键词出现在语音文档语句中,标签为正类,设置为1;关键词语音未出现在语音文档语句中,标签为负类,设置为0;
构建前馈神经网络,分别提取训练数据中关键词语音和语音文档语句的瓶颈特征。
步骤1-2:设关键词语音瓶颈特征为(m表示语音关键词的帧数);设语音文档语句的瓶颈特征为/> (n表示语音文档语句的帧数),给定任意两个瓶颈特征向量/>,计算向量点积的对数/>得到相似距离,再应用范围归一化得到归一化帧级相似距离矩阵。
归一化公式为:
其中,/>。
步骤1-3:根据步骤1-2计算得到帧级相似矩阵,并把帧级相似矩阵看作图像;相似矩阵图像分为两类;一类是关键词语音出现在语音文档语句中,生成的相似矩阵图像中出现一条不规则的斜对角线,另一类是语音关键词未出现在语音文档语句中,生成的相似矩阵图像中不会出现不规则的斜对角线,将相似矩阵图像中是否出现准对角线的特征作为判读语音关键词是否出现在语音文档语句中的依据。
步骤2:残差神经网络的训练:训练数据集生成的相似矩阵图像及标签送入残差神经网络,残差神经网络模型根据标签及相似矩阵图像完成训练。
步骤3包括以下步骤。
步骤3-1:预处理测试数据:对测试数据进行预加重再分帧加窗,通过前馈神经网络获得测试数据集的瓶颈特征。
步骤3-2:生成帧级相似矩阵图像,测试数据语音关键词的瓶颈特征记为;测试数据语音文档语句的瓶颈特征记为/>,计算任意两个瓶颈特征向量的点积对数得到相似距离,再应用范围归一化,生成帧级相似矩阵图像。
步骤3-3,残差神经网络模型对测试数据判别,残差神经网络对测试数据生成的相似矩阵图像根据图像中是否出现准对角线对语音文档语句中是否出现语音关键词给出置信度评分,根据置信度评分和给定的门限值对语音关键词是否出现给出最终判断。
进一步的,步骤4评价指标包括准确率、召回率和F评分,通过这三种评价指标对关键词检索模型的性能进行评估。
进一步的:关键词检索的判别结果分为正类和负类;判定结果会出现四种情况,正类被判定为正类,即真正类(Ture Positive TP) ;正类被判定为负类,即假负类(FalseNegative FN);负类被判定为正类,即假正类(False Positive FP);负类被判定为负类,即真负类(Ture Negative TN),具体判定值和实际值关系如表1所示。
表1判定与实际关系表。
对关键词检索的评价指标包括召回率、精确度、F1评分。
召回率:指被正确预测为正样本的数目所占总正样本数目的比值,计算公式为:
;
精确率:指被正确预测为正样本的数目占被预测为正样本数目的比值,计算公式为:
;
F值:召回率和准确率的调和值,计算公式为:
;
当α=1时,即是评价指标中常见的F1值,即如下式所示:
。
将召回率、精确度和F1三个评价指标作为该发明的评价指标,三个评价指标可精准有效的反应基于残差神经网络的低资源语音关键词检索模型的性能。
采用上述方案,本发明的有益效果包括以下几点。
本发明提供一种基于瓶颈特征和残差神经网络的低资源语音关键词检索方法,有效将深度学习与基于模板匹配的关键词检索技术相结合,构建了结合深度学习的低资源语言关键词检索模型,大大降低了基于模板匹配的语音关键词检索的计算成本。
本发明以声学特征作为语音关键词检索的依据,不需要声学模型和语音模型,大大降低了对语料库资源规模的要求;仅需要较少的标注即可完成语音关键词检索模型的训练;不需要将语音文档完全转化为文本,大大降低了语音关键词检索的工作量,也能有效解决传统语音关键词检索严重依赖语音识别的问题。
本发明可以在关键词语音或语音文档存在噪声的条件下完成语音关键词检索任务,对噪声有很强的鲁棒性。
本发明可以在资源丰富语言的语料库上完成残差神经网络模型的训练,并且仅仅需要很少的监督(关键词语音是否出现在语音文档语句中的标签);残差神经网络模型训练完成后可以直接用于低资源语音关键词检索任务,模型具有很强的通用性。
附图说明
为进一步理解本发明实施的技术方案,对附图1加以说明,附图1构成本申请的一部分,并不构成本发明实施例的限定。
在附图中:图1为本发明的实施例提供的一种基于瓶颈特征和残差神经网络低资源语音关键词检索技术路线示意图。
具体实施方式
在此结合本发明实施例中的附图,对本发明实施例的目的、技术方案以及优点进行详细、完整地说明。在此所说明的实施例是本发明的一部分实施例,并非全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种低资源语音关键词检索方法,利用语音的声学特征生成帧级相似矩阵,将帧级相似矩阵作为图像;残差神经网络根据相似矩阵图像中是否出现准对角线判定关键词在语音文档语句中是否出现,最后评价系统给出各项评价指标值评价关键词检索模型的性能;这种方法解决了传统低资源语音关键词检索带有标注的语料库、发音词典等资源匮乏的问题,又能够解决传统的基于模板匹配的语音关键词检索对噪声的鲁棒性差、检索准确率低及运算成本高等问题,能够更加准确高效的实现低资源语音关键词检索。
如图1所示,本发明的实施例提供一种低资源语音关键词检索技术路线,其中包括以下步骤。
步骤1:预处理训练数据:在数据预处理过程中预加重的主要作用是获得频谱更加缓和的信号,对训练数据设置标签并对训练数据做帧级处理,获取训练语音数据的瓶颈特征。
在数据预处理过程中设置标签的主要作用是用于训练残差神经网络模型;在此,训练数据中是否出现关键词语音是已知的,关键词语音出现在语音文档语句中为正类,设置标签为1,关键词语音未出现在语音文档语句为负类,设置标签为0,并利用预训练前馈神经网络分别提取关键词语音和语音文档语句的瓶颈特征;接下来利用获得的瓶颈特征计算帧级相似矩阵;关键词语音瓶颈特征记为 (m表示语音关键词的帧数);语音文档语句瓶颈特征记为/> (n表示语音文档语句的帧数),计算任意两个向量点积的对数/>得到相似距离,再应用范围归一化得到帧级相似矩阵。
步骤2:构建模型并训练:构建基于残差神经网络的低资源语音关键词检索模型,设定合理的训练参数,将模型部署到服务器上,将生成的帧级相似矩阵图像和标签一并送入残差神经网络,完成残差神经网络模型的训练。
保存训练得到的残差神经网络模型。
步骤3:预处理测试数据:与预处理训练数据类似,对测试数据预加重、分帧加窗,经过预训练的前馈神经网络获取测试语音数据的瓶颈特征。
步骤4:测试模型:经预处理的测试数据的关键词语音和语音文档语句输入预训练前馈神经网络,获得语音关键词和语音文档语句的瓶颈特征,关键词语音瓶颈特征记为 (m表示语音关键词的帧数);语音文档语句瓶颈特征记为/>(n表示语音文档的帧数),计算任意两个向量点积的对数/>得到相似距离,再应用范围归一化得到归一化帧级相似距离矩阵。
进一步的,将步骤4得到的数据输入训练完成的残差神经网络模型,残差神经网络模型对测试数据生成的相似矩阵图像根据相似矩阵图像中是否出现准对角线给出置信度评分,根据置信度评分和给定的门限值对语音关键词是否出现在语音文档语句中给出最终判断。
进一步的,将测试数据中的关键词语音在语音文档中的置信度评分和判定结果保存在Excel表中。
进一步的,评估模型:采用三种评价指标对低资源语音关键词检索模型进行评估。
评价指标包括准确率、召回率和F1评分,这些评价指标可有效准确的对低资源语音关键词检索模型的性能进行评估。
进一步的输出准确率、召回率、F1评分值。
本发明的实施例,模型训练数据来自Spoken Web Search2013数据集,该数据集有9种低资源语言;随机选择数据集中的5000条关键词语音和语音文档语句对作为训练数据集,其中正类数目为2463,负类数目为2537。
测试数据集也来自Spoken Web Search2013数据集(测试数据集与训练数据集不重叠),测试数据集包含500条关键词语音和语音文档语句对,其中正类数目为264,负类数目为236。
进一步的,测试结果,正类被判定为正类的数目为194,正类被判定为负类的数目为70,负类被判定为正类的数目为26,负类被判定为正类的数目为210。
测试结果如表2所示。
表2判定结果情况。
预测 实际 | 正类 | 负类 |
正类 | 194 | 70 |
负类 | 26 | 210 |
进一步的根据判定结果得出评价指标数值。
召回率:;
准确率:;
F1分:。
进一步的输出评价指标值如表所3示。
表3判定指标值情况。
指标 方法 | 召回率 | 精确度 | F1 |
ResNet | 0.7348 | 0.8818 | 0.8117 |
为了证明本发明的有效性及可行性,本实施例与传统的基于DTW模板匹配的低资源语音关键词检索模型和与基于后验特征和卷积神经网络的低资源语音关键词检索模型作对比;瓶颈特征是从前馈神经网络的隐藏层获得的特征,相对于后验特征而言瓶颈特征对噪声鲁棒性好,对录音条件改变和说话人改变的敏感性低,用于低资源语音关键词检索更有优势;残差神经网络采用跳跃连接的方式,从根本上解决了卷积神经网络梯度消失和梯度爆炸的问题,用于低资源语音关键词检索第二阶段能够更准确的对帧级相似矩阵图像分类,从而提高关键词检索的准确率。数据结果对比如表4所示,由下表发现,本实施例召回率、精确度、F1指标值均高于传统的基于DTW模板匹配的低资源语音关键词检索方法,本实施例召回率、精确度、F1值指标均高于基于CNN网络的低资源语音关键词检索方法,其中精确度比基于DTW模板匹配的低资源语音关键词检索方法提高了84.16%,召回率比基于CNN网络的低资源语音关键词检索方法提高了45.6%, F1值比基于CNN网络的低资源语音关键词检索方法提高了27.58%,说明本实施例可以高效准确的实现低资源语音关键词检索。
表参数对比情况。
指标 方法 | 召回率 | 精确度 | F1 |
DTW | 0.7117 | 0.4788 | 0.5725 |
CNN | 0.5045 | 0.8615 | 0.6362 |
本实施例方法 | 0.7348 | 0.8818 | 0.8117 |
由表发现,本实施例中得分均表现较优,且有很大提升,说明本实施例可以解决传统基于DTW模板匹配的语音关键词检索所面临的不足。
以上所述的具体实施方式对本发明的目的、技术路线和有益效果进一步说明,并且仅为本发明具体实施方式以及较佳实施例,其不用以限制本发明,凡在本发明精神和原则之内所做的任何修改、改进,均应在本发明的保护范围在之内。
Claims (5)
1.一种基于瓶颈特征和残差神经网络的低资源语音关键词检索方法,包括以下步骤:
步骤1:预处理训练数据,提取瓶颈特征:首先使用IARP项目中17种语言数据训练多语言前馈神经网络, 对训练数据预处理,以8000HZ频率采样后预加重,再分帧加窗,窗长为25ms, 帧移为10ms,利用前馈神经网络的瓶颈层获得训练集中语音关键词和语音文档语句的瓶颈特征, 瓶颈特征是从前馈神经网络的隐藏瓶颈层获得的数据的低维表征,与其他层的大小相比,瓶颈层的隐藏单元数量较少,较小的层限制了通过网络的信息流,使其能够专注于优化最终目标所需的信息;最后对训练数据设置标签,预处理后的数据用于训练残差神经网络模型;
步骤2:构建模型并训练:设关键词语音的瓶颈特征为,语音文档语句的瓶颈特征为/>;利用瓶颈特征得到帧级相似矩阵,给定任意两个瓶颈特征向量/>,计算点积的对数/>得到相似距离,再应用范围归一化得到归一化相似矩阵;
归一化公式为:
其中,/>;将深度残差神经网络与传统的基于模板匹配的语音关键词检索相结合,构建基于残差神经网络的语音关键词检索模型,将低资源语音关键词检索任务转化为图像二分类任务来处理;将生成的相似矩阵图像和标签输入残差神经网络,完成残差神经网络模型的训练;
步骤3:测试模型:利用训练好的语音关键词检索模型对测试数据进行关键词检索,给出置信度并判断关键词是否出现在语音文档语句中;
步骤4:评估模型:通过准确率、召回率和F1评价指标对关键词检索模型评估。
2.根据权利要求1所述的一种基于瓶颈特征和残差神经网络的低资源语音关键词检索方法,其特征在于所述的步骤1对训练数据设置标签,标签分为两类;语音关键词出现在语音文档语句中,标签为正类,设置为1;语音关键词未出现在语音文档语句中,标签为负类,设置为0。
3.根据权利要求1所述的一种基于瓶颈特征和残差神经网络的低资源语音关键词检索方法,其特征在于所述的相似矩阵图像二分类任务中:一类是关键词语音出现在语音文档语句中,生成的相似矩阵出现一条不规则斜对角线;另一类是语音关键词未出现在语音文档中,生成的相似矩阵中不会出现不规则斜对角线;将相似矩阵的对角线特征作为判读语音关键词是否出现在语音文档中的依据。
4.根据权利要求1所述的一种基于瓶颈特征和残差神经网络的低资源语音关键词检索方法,其特征在于步所述的步骤3关键词检索模型对测试数据生成的相似矩阵进行判别,残差网络模型对测试数据生成的相似矩阵图像判别结果只产生正类和负类;判定结果会出现四种情况,正类被判定为正类,即真正类TP;正类被判定为负类,即假负类FN;负类被判定为正类,即假正类FP;负类被判定为负类,即真负类TN,根据置信度评分和给定的门限值对语音关键词是否出现给出最终判断。
5.根据权利要求1所述的一种基于瓶颈特征和残差神经网络的低资源语音关键词检索方法,其特征在于步骤4中评价指标包括准确率、召回率、F评分对关键词检索的结果进行评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210390224.2A CN114780786B (zh) | 2022-04-14 | 2022-04-14 | 一种基于瓶颈特征和残差网络的语音关键词检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210390224.2A CN114780786B (zh) | 2022-04-14 | 2022-04-14 | 一种基于瓶颈特征和残差网络的语音关键词检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114780786A CN114780786A (zh) | 2022-07-22 |
CN114780786B true CN114780786B (zh) | 2024-05-14 |
Family
ID=82429241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210390224.2A Active CN114780786B (zh) | 2022-04-14 | 2022-04-14 | 一种基于瓶颈特征和残差网络的语音关键词检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114780786B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255392A (zh) * | 2018-09-30 | 2019-01-22 | 百度在线网络技术(北京)有限公司 | 基于非局部神经网络的视频分类方法、装置及设备 |
CN110246490A (zh) * | 2019-06-26 | 2019-09-17 | 合肥讯飞数码科技有限公司 | 语音关键词检测方法及相关装置 |
CN110299150A (zh) * | 2019-06-24 | 2019-10-01 | 中国科学院计算技术研究所 | 一种实时语音说话人分离方法及系统 |
CN112542173A (zh) * | 2020-11-30 | 2021-03-23 | 珠海格力电器股份有限公司 | 一种语音交互方法、装置、设备和介质 |
CN113470655A (zh) * | 2021-07-02 | 2021-10-01 | 因诺微科技(天津)有限公司 | 一种基于音素对数似然比的时延神经网络的声纹识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11664037B2 (en) * | 2020-05-22 | 2023-05-30 | Electronics And Telecommunications Research Institute | Methods of encoding and decoding speech signal using neural network model recognizing sound sources, and encoding and decoding apparatuses for performing the same |
-
2022
- 2022-04-14 CN CN202210390224.2A patent/CN114780786B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255392A (zh) * | 2018-09-30 | 2019-01-22 | 百度在线网络技术(北京)有限公司 | 基于非局部神经网络的视频分类方法、装置及设备 |
CN110299150A (zh) * | 2019-06-24 | 2019-10-01 | 中国科学院计算技术研究所 | 一种实时语音说话人分离方法及系统 |
CN110246490A (zh) * | 2019-06-26 | 2019-09-17 | 合肥讯飞数码科技有限公司 | 语音关键词检测方法及相关装置 |
CN112542173A (zh) * | 2020-11-30 | 2021-03-23 | 珠海格力电器股份有限公司 | 一种语音交互方法、装置、设备和介质 |
CN113470655A (zh) * | 2021-07-02 | 2021-10-01 | 因诺微科技(天津)有限公司 | 一种基于音素对数似然比的时延神经网络的声纹识别方法 |
Non-Patent Citations (3)
Title |
---|
Low- Resource speech keyword search based on residual neural network;Dafei Wang等;《Chinese conference on Biometric recognition 》;20221103;356-363 * |
RBDN: Residual Bottleneck Dense Network for Image Super-Resolution;Zeyu An等;《 IEEE Access》;20210712;第9卷;2169-3536 * |
深度学习框架下鲁棒性说话人识别方法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2021,I136-77. * |
Also Published As
Publication number | Publication date |
---|---|
CN114780786A (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110096570B (zh) | 一种应用于智能客服机器人的意图识别方法及装置 | |
US11210470B2 (en) | Automatic text segmentation based on relevant context | |
Kheddar et al. | Deep transfer learning for automatic speech recognition: Towards better generalization | |
US11113323B2 (en) | Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering | |
Siu et al. | Unsupervised training of an HMM-based self-organizing unit recognizer with applications to topic classification and keyword discovery | |
US10515292B2 (en) | Joint acoustic and visual processing | |
CN112818118B (zh) | 基于反向翻译的中文幽默分类模型的构建方法 | |
Ram et al. | Neural network based end-to-end query by example spoken term detection | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN115617955A (zh) | 分级预测模型训练方法、标点符号恢复方法及装置 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
Elbarougy | Speech emotion recognition based on voiced emotion unit | |
Farooq et al. | Mispronunciation detection in articulation points of Arabic letters using machine learning | |
CN114722798A (zh) | 一种基于卷积神经网络和注意力机制的反讽识别模型 | |
CN116189671B (zh) | 一种用于语言教学的数据挖掘方法及系统 | |
Yoon et al. | Off-Topic Spoken Response Detection with Word Embeddings. | |
Amari et al. | Arabic speech recognition based on a CNN-BLSTM combination | |
Xie et al. | L2 mispronunciation verification based on acoustic phone embedding and siamese networks | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN114780786B (zh) | 一种基于瓶颈特征和残差网络的语音关键词检索方法 | |
Li et al. | Meta learning to classify intent and slot labels with noisy few shot examples | |
Peng | [Retracted] An English Teaching Pronunciation Detection and Recognition Algorithm Based on Cluster Analysis and Improved SSD | |
Anantaram et al. | Adapting general-purpose speech recognition engine output for domain-specific natural language question answering | |
Mehra et al. | Early fusion of phone embeddings for recognition of low-resourced accented speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |