CN114373453A - 一种基于运动轨迹和区分性信息的语音关键词检测方法 - Google Patents
一种基于运动轨迹和区分性信息的语音关键词检测方法 Download PDFInfo
- Publication number
- CN114373453A CN114373453A CN202111460052.3A CN202111460052A CN114373453A CN 114373453 A CN114373453 A CN 114373453A CN 202111460052 A CN202111460052 A CN 202111460052A CN 114373453 A CN114373453 A CN 114373453A
- Authority
- CN
- China
- Prior art keywords
- keyword
- keywords
- syllable
- distribution
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000005315 distribution function Methods 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 241001672694 Citrus reticulata Species 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 102100037651 AP-2 complex subunit sigma Human genes 0.000 description 1
- 101000806914 Homo sapiens AP-2 complex subunit sigma Proteins 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于运动轨迹和区分性信息的语音关键词检测方法,该方法步骤包括:构建关键词特征空间运动轨迹;针对关键词声学相近词对比构建关键词局部区分性信息;利用待检测音段特征空间分布与关键词特征空间分布知识的相似性预选可能的关键词子集,同时检测待检测音段音节数与关键词音节数是否匹配,利用待检测音段特征空间运动轨迹与预选关键词子集中每个词的特征空间运动轨迹相似度选出最可能的关键词,有声学相似竞争者时利用其局部区分性信息甄别确定最后检测结果,本发明利用关键词时序信息和局部区分性信息有效提高在训练数据较少时的关键词检出性能,对音频样本基于音节切分算法划分匹配段使得匹配段语义信息完整,有利于关键词的检出。
Description
技术领域
本发明涉及语音关键词检测技术领域,具体涉及一种基于运动轨迹和区分性信息的语音关键词检测方法。
背景技术
语音关键词检测技术是语音识别技术的一个分支,其目的是从连续语音流中检测预先定义的关键词。随着互联网和多媒体技术的飞速发展,语音数据量呈现爆炸式的增长,如何对语音文档进行组织和检索成为研究热点,因此关键词检测技术越来越受到重视。
传统的语音关键词检测技术主要分为三种:基于QbyE的模板匹配、基于隐马尔科夫模型的关键词/垃圾模型、基于大词汇量语音识别。基于QbyE的模板匹配的语音关键词检测是采用滑动窗口在连续语音流上进行滑窗搜索,利用动态时间规整进行匹配计算,但是该种方法关键词的检出率比较低。基于隐马尔科夫模型的关键词检测将语音分为关键词(keyword)和非关键词(filler),分别对两类进行建模,keyword建模采用精细建模方法,在词级、音素级或状态级上对关键词进行建模;filler建模采用粗放建模的方法,对除关键词之外的任意词语和噪音进行建模,采用维特比算法解码进行识别。基于隐马尔科夫模型的关键词检测方法,虽然能达到较好的检出效果,但是模型训练依赖较大的语料库。基于大词汇量语音识别的关键词检测,对输入语音使用该方法的优点在于可以充分利用语言模型,对集内词的检测准确率高,但是对于集外词的影响较大,同时需要较大的语料库训练语音识别模型。基于直方图的关键词检测方法,只考虑关键词的统计特征,忽略时序特征,虚警率比较高。对于低数据资源的语音数据来说,上述方法并不适用,因此需要找到一种适合低数据资源的语音关键词检测技术。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种基于运动轨迹和区分性信息的语音关键词检测方法,该方法以音节作为建模单元统一描述关键词音频在音频特征空间中的分布信息和运动轨迹信息,与基于矢量量化得到直方图作为关键词模型的方法相比,不仅使得关键词的信息描述更加充分,而且增加了时序信息,减少误检,同时考虑音频类之间的局部区分性信息,能够在低数据资源下取得更好的性能。
为了达到上述目的,本发明采用以下技术方案:
一种基于运动轨迹和区分性信息的语音关键词检测方法,包括下述步骤:
将关键词的特征空间运动轨迹采用其语音样本按音节构成的特征空间分布序列表达;
针对声学相近词对比构建关键词的局部区分性信息,并用关键词中最具有声学混淆的音节分布差异信息表达;
进行关键词检测,具体步骤包括:
利用待检测音段的特征空间分布与关键词的特征空间分布知识的相似性预选可能的关键词子集W(c),同时检测待检测音段的音节数与关键词的音节数是否匹配,若不匹配则该关键词不在预选范围内;
作为优选的技术方案,所述将关键词的特征空间运动轨迹采用其语音样本按音节构成的特征空间分布序列表达,具体步骤包括:
对关键词音频段利用基于VAD的音节切分算法进行音节的划分;
所述音频特征空间表达Ω={gk,k=1,2,...,K}采用聚类方法构建,gk=N(mk,Uk)为多维高斯分布函数。
作为优选的技术方案,所述针对声学相近词对比构建关键词的局部区分性信息,并用关键词中最具有声学混淆的音节分布差异信息表达,具体步骤包括:
根据局部区分性标识子集Ψ构建掩码向量Q=[q1,q2,...,qK]T,其中,
gk表示标识子。
作为优选的技术方案,所述利用待检测音段的特征空间分布与关键词的特征空间分布知识的相似性预选可能的关键词子集W(c),基于SVM分类器判断检测音段的特征空间分布与关键词的特征空间分布知识的相似性,每个关键词训练L个SVM二分分类器,待检测音段的特征空间分布通过每个关键词的L个SVM分类器投票判决给出分类结果,根据分类结果预选可能的关键词子集W(c)。
其中,score1表示相似度得分,表示Pi和的余弦相似度,Pi表示待测音段第i个音节的特征空间分布,表示预选关键词W第i个音节的先验特征空间分布,表示预选关键词W第i个音节到第i+1个音节的标识子转移概率矩阵;
作为优选的技术方案,所述标识子转移概率矩阵具体计算公式为:
当关键词的声学相似竞争者不在关键词列表内,关键词与其声学相似竞争者的第i个音节相似时,对待检测音段第i个音节的特征空间分布Pi和关键词第i个音节的特征空间分布利用掩码向量Q进行掩码操作后再计算余弦相似度,若余弦相似度超过设定阈值,则该音频段的检测结果为关键词否则该音频段的检测结果为非关键词;
当关键词的声学相似竞争者在关键词列表内,关键词与其声学相似竞争者的第i个音节相似时,利用两者进行掩码操作后的特征空间分布数据训练SVM二分分类器,对待检测音段第i个音节的特征空间分布Pi利用掩码向量Q进行掩码操作后送入SVM分类器,根据分类结果给出检测结果。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明利用音频特征空间对关键词建模,描述关键词音频特征在音频特征空间中的分布信息和运动轨迹信息,本质上是音频特征在特征空间中的定位,与生成式模型如隐马尔科夫模型(HMM)相比,定位是相对的,生成模型是绝对的;与基于深度神经网络的方法相比,具有可解释性,每一个知识数据都具有物理语义,不论是基于生成式模型的方法还是基于神经网络的方法,都需要大量的标注训练样本,本发明可在标注数据较少的情况下取得比基于生成式模型的方法和基于神经网络的方法更好的性能。
(2)本发明以音节作为建模单元,不仅描述了关键词音频特征在音频特征空间中的分布,而且描述了运动轨迹,与基于矢量量化得到直方图作为关键词模型的方法相比,不仅使得关键词的信息描述更加充分,而且增加了时序信息,减少误检。
(3)本发明利用基于VAD的音节切分算法对测试语音划分匹配段,与传统的利用固定窗长进行窗移的方式划分匹配段相比,能够使得匹配段的语义信息完整,更有利于关键词的检出,有效避免了关键词音频段被滑动窗阶段而影响关键词检出的情况。同时,能够减少不必要的匹配,加快搜索速度。
附图说明
图1为本发明基于运动轨迹和区分性信息的语音关键词检测方法的流程框架图;
图2为本发明利用音频特征空间构建关键词知识的步骤流程图;
图3为本发明待检测音段的识别流程图;
图4为本发明构建关键词局部区分性信息的步骤流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
如图1所示,本实施例提供一种基于运动轨迹和区分性信息的语音关键词检测方法,具体包括下述步骤:
S2:关键词W=w1w2...wI的局部区分性信息是针对声学相近词对比构建的,并用关键词中最具有声学混淆的音节分布差异信息表达。
S3:关键词检测采用先整体后局部的思路,由以下三步组成:
S31:利用待检测音段的特征空间分布P与关键词的特征空间分布知识的相似性预选可能的关键词子集W(c),其中N表示预先定义的关键词的个数,Pwn表示第n个关键词的特征空间分布,同时考虑待检测音段的音节数与关键词的音节数是否匹配,若不匹配则该关键词不在预选范围内;
如图2所示,为本实施例利用音频特征空间构建关键词知识的步骤,在构建音频特征空间Ω时,从Aishell-1数据集中随机挑选24000条语音数据作为构建音频特征空间的样本集,提取语音样本集12维MFCC(梅尔频率倒谱系数)特征。利用K-Means算法对特征集进行聚类,计算每个类的均值和方差,作为GMM的初始化参数。最后通过EM算法求解GMM模型的参数,保留每个高斯分量的均值mk和对角方差Uk作为语音特征空间表达Ω={gk,k=1,2,...,K},gk=N(mk,Uk)为多维高斯分布函数,称之为标识子,K表示特征空间标识子的数量,K取4096,关键词的一次发音视为空间Ω中的一次运动。
基于音频特征空间,以音节为建模单元构建关键词知识。从Aishell-1收集包含关键词的语音样本,本实施例所选取的关键词为:北京、城市、记者、公司、房地产、互联网。每个关键词500个样本,以3∶1∶1的比例划分训练集、验证集、测试集。对测试集和验证集的样本标注关键词段的起始位置。基于音频特征空间计算关键词W=w1w2...wI的特征序列fw在特征空间中的K维特征空间分布Pw和特征空间运动轨迹其中I表示关键词W的音节数,表示关键词W第i个音节的K维特征空间分布,K维特征空间分布计算过程如下:
1)提取音频段的12维MFCC特征序列f={f1,f2,...,ft},计算ft与标识子gk(mk,Uk)的关联度:
其中ft表示第t帧MFCC特征,mk表示高斯分量均值,Uk表示高斯分量方差,α取1。
2)计算样本集与标识子gk(mk,Uk)关联度的期望值:
3)K维特征空间分布P=[p1,p2,...,pK]T,其中,
其中基于VAD的音节切分算法包括以下步骤:
1)利用双门限法进行VAD,去除静音段;
2)对语音段利用自相关函数法提取基频,划分清音段和浊音段;
3)对长浊音段利用短时能量、频谱强度确定音节边界;
4)根据普通话发音特性,清音在前,浊音在后,将清、浊音段进行结合得到音节。
如图3所示,为本实施例的待检测音段的识别步骤,对测试语音样本,利用基于VAD的音节切分算法进行分段识别,基于音频特征空间表达Ω={gk,k=1,2,...,K}计算待检测音段的特征空间分布和特征空间运动轨迹,关键词检测采用先整体后局部的思路,包括以下步骤:
1)基于SVM分类器判断检测音段的特征空间分布与关键词的特征空间分布知识的相似性。每个关键词训练L个SVM二分分类器,待检测音段的特征空间分布会通过每个关键词的L个SVM分类器投票判决给出分类结果,根据分类结果预选可能的关键词子集W(c),同时考虑待检测音段的音节数与某个关键词的音节数是否匹配,若不匹配则该关键词不在预选范围内。
其中,每个关键词的L个SVM分类器的训练采用bagging算法,从非关键词集随机选取非关键词子集,其大小与关键词集大小一致,重复采样L次得到L个非关键词子集,每一个非关键词子集与关键词集训练一个SVM二分分类器,最终得到L个SVM分类器在对待检测音段分类识别时进行投票判决。对于某个关键词来说,其他关键词的样本会作为负样本参与分类器的训练。本实施例中L取5。
其中表示Pi和的余弦相似度,Pi表示待测音段第i个音节的特征空间分布,表示预选关键词W第i个音节的先验特征空间分布,是特征空间运动轨迹另一种表达方式,表示预选关键词W第i个音节到第i+1个音节的标识子转移概率矩阵。关键词W第i个音节到第i+1个音节的标识子转移概率矩阵计算如下:
3.1)当关键词的声学相似竞争者不在关键词列表内,关键词与其声学相似竞争者的第i个音节相似时,对待检测音段第i个音节的特征空间分布Pi和关键词第i个音节的特征空间分布利用掩码向量Q进行掩码操作后再计算余弦相似度,
若score2超过阈值σ2则该音频段的检测结果为关键词否则该音频段的检测结果为非关键词。阈值σ2通过使用验证集中关键词样本和声学相近词样本使用局部区分性信息进行识别时获得等错误率时的判决门限,取值为0.29。
3.2)当关键词的声学相似竞争者在关键词列表内,关键词与其声学相似竞争者的第i个音节相似时,利用两者进行掩码操作后的特征空间分布数据训练SVM二分分类器,对待检测音段第i个音节的特征空间分布Pi利用掩码向量Q进行掩码操作后送入SVM分类器,根据分类结果给出检测结果。
如图4所示,为本实施例构建关键词局部区分性标识子信息的步骤,在实验中发现,音段“gonglshi4”极易被错误识别为关键词“公司gonglsil”,造成虚警。因此对两者构建局部区分性信息进行进一步的甄别,使用两者最具声学混淆的音节分布差异构建局部区分性信息。由于两者的局部区分性主要体现在第二个音节上,因此使用第二个音节的分布差异构建局部区分性信息,包括以下步骤:
c)根据局部区分性标识子集Ψ构建掩码向量Q=[q1,q2,...,qK]T,其中,
为关键词“公司gonglsil”构建局部区分性信息后,能够有效减少对音段“gonglshi4”的误检,降低虚警率。
本发明利用音频特征空间对关键词建模,描述关键词音频特征在音频特征空间中的分布信息和运动轨迹信息,本质上是音频特征在特征空间中的定位,与生成式模型如隐马尔科夫模型(HMM)相比,定位是相对的,生成模型是绝对的;与基于深度神经网络的方法相比,具有可解释性,每一个知识数据都具有物理语义。不论是基于生成式模型的方法还是基于神经网络的方法,都需要大量的标注训练样本,本发明可在标注数据较少的情况下取得比基于生成式模型的方法和基于神经网络的方法更好的性能。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种基于运动轨迹和区分性信息的语音关键词检测方法,其特征在于,包括下述步骤:
将关键词的特征空间运动轨迹采用其语音样本按音节构成的特征空间分布序列表达;
针对声学相近词对比构建关键词的局部区分性信息,并用关键词中最具有声学混淆的音节分布差异信息表达;
进行关键词检测,具体步骤包括:
利用待检测音段的特征空间分布与关键词的特征空间分布知识的相似性预选可能的关键词子集W(c),同时检测待检测音段的音节数与关键词的音节数是否匹配,若不匹配则该关键词不在预选范围内;
4.根据权利要求1所述的基于运动轨迹和区分性信息的语音关键词检测方法,其特征在于,所述利用待检测音段的特征空间分布与关键词的特征空间分布知识的相似性预选可能的关键词子集W(c),基于SVM分类器判断检测音段的特征空间分布与关键词的特征空间分布知识的相似性,每个关键词训练L个SVM二分分类器,待检测音段的特征空间分布通过每个关键词的L个SVM分类器投票判决给出分类结果,根据分类结果预选可能的关键词子集W(c)。
当关键词的声学相似竞争者不在关键词列表内,关键词与其声学相似竞争者的第i个音节相似时,对待检测音段第i个音节的特征空间分布Pi和关键词第i个音节的特征空间分布利用掩码向量Q进行掩码操作后再计算余弦相似度,若余弦相似度超过设定阈值,则该音频段的检测结果为关键词否则该音频段的检测结果为非关键词;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111460052.3A CN114373453B (zh) | 2021-12-02 | 2021-12-02 | 一种基于运动轨迹和区分性信息的语音关键词检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111460052.3A CN114373453B (zh) | 2021-12-02 | 2021-12-02 | 一种基于运动轨迹和区分性信息的语音关键词检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114373453A true CN114373453A (zh) | 2022-04-19 |
CN114373453B CN114373453B (zh) | 2024-06-04 |
Family
ID=81140222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111460052.3A Active CN114373453B (zh) | 2021-12-02 | 2021-12-02 | 一种基于运动轨迹和区分性信息的语音关键词检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114373453B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115762490A (zh) * | 2022-11-08 | 2023-03-07 | 广东广信通信服务有限公司 | 一种基于轨迹修正的在线强化语义学习方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070879A (zh) * | 2019-05-13 | 2019-07-30 | 吴小军 | 一种基于变声技术制作智能表情及声感游戏的方法 |
CN111524513A (zh) * | 2020-04-16 | 2020-08-11 | 歌尔科技有限公司 | 一种可穿戴设备及其语音传输的控制方法、装置及介质 |
CN112309541A (zh) * | 2020-11-13 | 2021-02-02 | 济南浪潮高新科技投资发展有限公司 | 一种基于语音识别的健康生活陪伴机器人 |
-
2021
- 2021-12-02 CN CN202111460052.3A patent/CN114373453B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070879A (zh) * | 2019-05-13 | 2019-07-30 | 吴小军 | 一种基于变声技术制作智能表情及声感游戏的方法 |
CN111524513A (zh) * | 2020-04-16 | 2020-08-11 | 歌尔科技有限公司 | 一种可穿戴设备及其语音传输的控制方法、装置及介质 |
CN112309541A (zh) * | 2020-11-13 | 2021-02-02 | 济南浪潮高新科技投资发展有限公司 | 一种基于语音识别的健康生活陪伴机器人 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115762490A (zh) * | 2022-11-08 | 2023-03-07 | 广东广信通信服务有限公司 | 一种基于轨迹修正的在线强化语义学习方法 |
CN115762490B (zh) * | 2022-11-08 | 2023-07-21 | 广东广信通信服务有限公司 | 一种基于轨迹修正的在线强化语义学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114373453B (zh) | 2024-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ferrer et al. | A prosody-based approach to end-of-utterance detection that does not require speech recognition | |
CN111128128B (zh) | 一种基于互补模型评分融合的语音关键词检测方法 | |
CN102201237B (zh) | 基于模糊支持向量机的可靠性检测的情感说话人识别方法 | |
Wu et al. | Multiple change-point audio segmentation and classification using an MDL-based Gaussian model | |
Bhati et al. | Unsupervised Speech Signal to Symbol Transformation for Zero Resource Speech Applications. | |
Khan et al. | An intelligent system for spoken term detection that uses belief combination | |
CN114373453B (zh) | 一种基于运动轨迹和区分性信息的语音关键词检测方法 | |
Widyowaty et al. | Accent recognition by native language using mel-frequency cepstral coefficient and K-Nearest neighbor | |
CN111429921B (zh) | 声纹识别方法、系统、移动终端及存储介质 | |
Saputri et al. | Identifying Indonesian local languages on spontaneous speech data | |
Mathur et al. | A study of machine learning algorithms in speech recognition and language identification system | |
Gupta et al. | Deep learning and sociophonetics: Automatic coding of rhoticity using neural networks | |
Petrovska-Delacrétaz et al. | Detecting acoustic morphemes in lattices for spoken language understanding. | |
Shen et al. | Speaker clustering using decision tree-based phone cluster models with multi-space probability distributions | |
Tabibian et al. | A fast hierarchical search algorithm for discriminative keyword spotting | |
Rao et al. | Language identification—a brief review | |
Vasudev et al. | Query-by-example spoken term detection using bessel features | |
Chen et al. | A Rescoring Approach for Keyword Search Using Lattice Context Information. | |
KR20000025827A (ko) | 음성인식시스템에서의 반음소모델 구축방법및 그를 이용한 발화 검증방법 | |
Bouafif et al. | Speech-Music-Noise Discrimination in Sound Indexing of Multimedia Documents. | |
Therese et al. | Optimisation of training samples in recognition of overlapping speech and identification of speaker in a two speakers situation | |
EP2948943B1 (en) | False alarm reduction in speech recognition systems using contextual information | |
Kuriakose | New Features for Discriminative Keyword Spotting | |
Mary et al. | Keyword spotting techniques | |
Chen et al. | The speaker recognition of noisy short utterance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |