CN114373453A - 一种基于运动轨迹和区分性信息的语音关键词检测方法 - Google Patents

一种基于运动轨迹和区分性信息的语音关键词检测方法 Download PDF

Info

Publication number
CN114373453A
CN114373453A CN202111460052.3A CN202111460052A CN114373453A CN 114373453 A CN114373453 A CN 114373453A CN 202111460052 A CN202111460052 A CN 202111460052A CN 114373453 A CN114373453 A CN 114373453A
Authority
CN
China
Prior art keywords
keyword
keywords
syllable
distribution
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111460052.3A
Other languages
English (en)
Other versions
CN114373453B (zh
Inventor
贺前华
田颖慧
兰小添
危卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202111460052.3A priority Critical patent/CN114373453B/zh
Publication of CN114373453A publication Critical patent/CN114373453A/zh
Application granted granted Critical
Publication of CN114373453B publication Critical patent/CN114373453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于运动轨迹和区分性信息的语音关键词检测方法,该方法步骤包括:构建关键词特征空间运动轨迹;针对关键词声学相近词对比构建关键词局部区分性信息;利用待检测音段特征空间分布与关键词特征空间分布知识的相似性预选可能的关键词子集,同时检测待检测音段音节数与关键词音节数是否匹配,利用待检测音段特征空间运动轨迹与预选关键词子集中每个词的特征空间运动轨迹相似度选出最可能的关键词,有声学相似竞争者时利用其局部区分性信息甄别确定最后检测结果,本发明利用关键词时序信息和局部区分性信息有效提高在训练数据较少时的关键词检出性能,对音频样本基于音节切分算法划分匹配段使得匹配段语义信息完整,有利于关键词的检出。

Description

一种基于运动轨迹和区分性信息的语音关键词检测方法
技术领域
本发明涉及语音关键词检测技术领域,具体涉及一种基于运动轨迹和区分性信息的语音关键词检测方法。
背景技术
语音关键词检测技术是语音识别技术的一个分支,其目的是从连续语音流中检测预先定义的关键词。随着互联网和多媒体技术的飞速发展,语音数据量呈现爆炸式的增长,如何对语音文档进行组织和检索成为研究热点,因此关键词检测技术越来越受到重视。
传统的语音关键词检测技术主要分为三种:基于QbyE的模板匹配、基于隐马尔科夫模型的关键词/垃圾模型、基于大词汇量语音识别。基于QbyE的模板匹配的语音关键词检测是采用滑动窗口在连续语音流上进行滑窗搜索,利用动态时间规整进行匹配计算,但是该种方法关键词的检出率比较低。基于隐马尔科夫模型的关键词检测将语音分为关键词(keyword)和非关键词(filler),分别对两类进行建模,keyword建模采用精细建模方法,在词级、音素级或状态级上对关键词进行建模;filler建模采用粗放建模的方法,对除关键词之外的任意词语和噪音进行建模,采用维特比算法解码进行识别。基于隐马尔科夫模型的关键词检测方法,虽然能达到较好的检出效果,但是模型训练依赖较大的语料库。基于大词汇量语音识别的关键词检测,对输入语音使用该方法的优点在于可以充分利用语言模型,对集内词的检测准确率高,但是对于集外词的影响较大,同时需要较大的语料库训练语音识别模型。基于直方图的关键词检测方法,只考虑关键词的统计特征,忽略时序特征,虚警率比较高。对于低数据资源的语音数据来说,上述方法并不适用,因此需要找到一种适合低数据资源的语音关键词检测技术。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种基于运动轨迹和区分性信息的语音关键词检测方法,该方法以音节作为建模单元统一描述关键词音频在音频特征空间中的分布信息和运动轨迹信息,与基于矢量量化得到直方图作为关键词模型的方法相比,不仅使得关键词的信息描述更加充分,而且增加了时序信息,减少误检,同时考虑音频类之间的局部区分性信息,能够在低数据资源下取得更好的性能。
为了达到上述目的,本发明采用以下技术方案:
一种基于运动轨迹和区分性信息的语音关键词检测方法,包括下述步骤:
将关键词的特征空间运动轨迹采用其语音样本按音节构成的特征空间分布序列表达;
针对声学相近词对比构建关键词的局部区分性信息,并用关键词中最具有声学混淆的音节分布差异信息表达;
进行关键词检测,具体步骤包括:
利用待检测音段的特征空间分布与关键词的特征空间分布知识的相似性预选可能的关键词子集W(c),同时检测待检测音段的音节数与关键词的音节数是否匹配,若不匹配则该关键词不在预选范围内;
利用待检测音段的特征空间运动轨迹与预选关键词子集W(c)中每个词的特征空间运动轨迹的相似度选出最可能的关键词
Figure BDA0003387999700000021
当关键词
Figure BDA0003387999700000022
有声学相似竞争者时,利用其局部区分性信息进行甄别确定最后检测结果。
作为优选的技术方案,所述将关键词的特征空间运动轨迹采用其语音样本按音节构成的特征空间分布序列表达,具体步骤包括:
对关键词音频段利用基于VAD的音节切分算法进行音节的划分;
基于音频特征空间表达Ω={gk,k=1,2,...,K}计算关键词W第i个音节的K维特征空间分布
Figure BDA0003387999700000031
所述音频特征空间表达Ω={gk,k=1,2,...,K}采用聚类方法构建,gk=N(mk,Uk)为多维高斯分布函数。
作为优选的技术方案,所述针对声学相近词对比构建关键词的局部区分性信息,并用关键词中最具有声学混淆的音节分布差异信息表达,具体步骤包括:
计算两个音节特征空间分布PA和PB在每一维上的相对差异得到
Figure BDA0003387999700000032
其中,
Figure BDA0003387999700000033
Figure BDA0003387999700000034
从大到小进行排序,取topN对应的标识子作为两者之间的局部区分性标识子,得到局部区分性标识子集Ψ;
根据局部区分性标识子集Ψ构建掩码向量Q=[q1,q2,...,qK]T,其中,
Figure BDA0003387999700000035
gk表示标识子。
作为优选的技术方案,所述利用待检测音段的特征空间分布与关键词的特征空间分布知识的相似性预选可能的关键词子集W(c),基于SVM分类器判断检测音段的特征空间分布与关键词的特征空间分布知识的相似性,每个关键词训练L个SVM二分分类器,待检测音段的特征空间分布通过每个关键词的L个SVM分类器投票判决给出分类结果,根据分类结果预选可能的关键词子集W(c)
作为优选的技术方案,所述利用待检测音段的特征空间运动轨迹与预选关键词子集W(c)中每个词的特征空间运动轨迹的相似度选出最可能的关键词
Figure BDA0003387999700000036
相似度计算公式具体为:
Figure BDA0003387999700000041
其中,score1表示相似度得分,
Figure BDA0003387999700000042
表示Pi
Figure BDA0003387999700000043
的余弦相似度,Pi表示待测音段第i个音节的特征空间分布,
Figure BDA0003387999700000044
表示预选关键词W第i个音节的先验特征空间分布,
Figure BDA0003387999700000045
表示预选关键词W第i个音节到第i+1个音节的标识子转移概率矩阵;
相似度得分超过设定阈值且得分最高的关键词作为最可能的关键词
Figure BDA0003387999700000046
作为优选的技术方案,所述标识子转移概率矩阵具体计算公式为:
Figure BDA0003387999700000047
Figure BDA0003387999700000048
其中
Figure BDA0003387999700000049
表示
Figure BDA00033879997000000410
第k1维的值,
Figure BDA00033879997000000411
表示
Figure BDA00033879997000000412
第k2维的值。
作为优选的技术方案,当关键词
Figure BDA00033879997000000413
有声学相似竞争者时,利用其局部区分性信息进行甄别确定最后检测结果,具体步骤包括:
当关键词
Figure BDA00033879997000000414
的声学相似竞争者不在关键词列表内,关键词
Figure BDA00033879997000000415
与其声学相似竞争者的第i个音节相似时,对待检测音段第i个音节的特征空间分布Pi和关键词
Figure BDA00033879997000000416
第i个音节的特征空间分布
Figure BDA00033879997000000417
利用掩码向量Q进行掩码操作后再计算余弦相似度,若余弦相似度超过设定阈值,则该音频段的检测结果为关键词
Figure BDA00033879997000000418
否则该音频段的检测结果为非关键词;
当关键词
Figure BDA00033879997000000419
的声学相似竞争者在关键词列表内,关键词
Figure BDA00033879997000000420
与其声学相似竞争者的第i个音节相似时,利用两者进行掩码操作后的特征空间分布数据训练SVM二分分类器,对待检测音段第i个音节的特征空间分布Pi利用掩码向量Q进行掩码操作后送入SVM分类器,根据分类结果给出检测结果。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明利用音频特征空间对关键词建模,描述关键词音频特征在音频特征空间中的分布信息和运动轨迹信息,本质上是音频特征在特征空间中的定位,与生成式模型如隐马尔科夫模型(HMM)相比,定位是相对的,生成模型是绝对的;与基于深度神经网络的方法相比,具有可解释性,每一个知识数据都具有物理语义,不论是基于生成式模型的方法还是基于神经网络的方法,都需要大量的标注训练样本,本发明可在标注数据较少的情况下取得比基于生成式模型的方法和基于神经网络的方法更好的性能。
(2)本发明以音节作为建模单元,不仅描述了关键词音频特征在音频特征空间中的分布,而且描述了运动轨迹,与基于矢量量化得到直方图作为关键词模型的方法相比,不仅使得关键词的信息描述更加充分,而且增加了时序信息,减少误检。
(3)本发明利用基于VAD的音节切分算法对测试语音划分匹配段,与传统的利用固定窗长进行窗移的方式划分匹配段相比,能够使得匹配段的语义信息完整,更有利于关键词的检出,有效避免了关键词音频段被滑动窗阶段而影响关键词检出的情况。同时,能够减少不必要的匹配,加快搜索速度。
附图说明
图1为本发明基于运动轨迹和区分性信息的语音关键词检测方法的流程框架图;
图2为本发明利用音频特征空间构建关键词知识的步骤流程图;
图3为本发明待检测音段的识别流程图;
图4为本发明构建关键词局部区分性信息的步骤流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
如图1所示,本实施例提供一种基于运动轨迹和区分性信息的语音关键词检测方法,具体包括下述步骤:
S1:关键词W=w1w2...wI的特征空间运动轨迹由其语音样本按音节构成的特征空间分布序列
Figure BDA0003387999700000061
表达,其中I表示关键词W的音节数,wi为第i个音节,
Figure BDA0003387999700000062
表示关键词W第i个音节的语音特征空间分布。
S2:关键词W=w1w2...wI的局部区分性信息是针对声学相近词对比构建的,并用关键词中最具有声学混淆的音节分布差异信息表达。
S3:关键词检测采用先整体后局部的思路,由以下三步组成:
S31:利用待检测音段的特征空间分布P与关键词的特征空间分布知识
Figure BDA0003387999700000063
的相似性预选可能的关键词子集W(c),其中N表示预先定义的关键词的个数,Pwn表示第n个关键词的特征空间分布,同时考虑待检测音段的音节数与关键词的音节数是否匹配,若不匹配则该关键词不在预选范围内;
S32:利用待检测音段的特征空间运动轨迹与预选关键词子集W(c)中每个词的特征空间运动轨迹的相似性选出最可能的关键词
Figure BDA0003387999700000064
S33:如果关键词
Figure BDA0003387999700000065
有声学相似竞争者,利用其局部区分性信息进行甄别确定最后检测结果。
如图2所示,为本实施例利用音频特征空间构建关键词知识的步骤,在构建音频特征空间Ω时,从Aishell-1数据集中随机挑选24000条语音数据作为构建音频特征空间的样本集,提取语音样本集12维MFCC(梅尔频率倒谱系数)特征。利用K-Means算法对特征集进行聚类,计算每个类的均值和方差,作为GMM的初始化参数。最后通过EM算法求解GMM模型的参数,保留每个高斯分量的均值mk和对角方差Uk作为语音特征空间表达Ω={gk,k=1,2,...,K},gk=N(mk,Uk)为多维高斯分布函数,称之为标识子,K表示特征空间标识子的数量,K取4096,关键词的一次发音视为空间Ω中的一次运动。
基于音频特征空间,以音节为建模单元构建关键词知识。从Aishell-1收集包含关键词的语音样本,本实施例所选取的关键词为:北京、城市、记者、公司、房地产、互联网。每个关键词500个样本,以3∶1∶1的比例划分训练集、验证集、测试集。对测试集和验证集的样本标注关键词段的起始位置。基于音频特征空间计算关键词W=w1w2...wI的特征序列fw在特征空间中的K维特征空间分布Pw和特征空间运动轨迹
Figure BDA0003387999700000071
其中I表示关键词W的音节数,
Figure BDA0003387999700000072
表示关键词W第i个音节的K维特征空间分布,K维特征空间分布计算过程如下:
1)提取音频段的12维MFCC特征序列f={f1,f2,...,ft},计算ft与标识子gk(mk,Uk)的关联度:
Figure BDA0003387999700000073
其中ft表示第t帧MFCC特征,mk表示高斯分量均值,Uk表示高斯分量方差,α取1。
2)计算样本集与标识子gk(mk,Uk)关联度的期望值:
Figure BDA0003387999700000074
其中
Figure BDA0003387999700000075
表示第a个样本第t特征与标识子gk(mk,Uk)的关联度。
3)K维特征空间分布P=[p1,p2,...,pK]T,其中,
Figure BDA0003387999700000081
其中基于VAD的音节切分算法包括以下步骤:
1)利用双门限法进行VAD,去除静音段;
2)对语音段利用自相关函数法提取基频,划分清音段和浊音段;
3)对长浊音段利用短时能量、频谱强度确定音节边界;
4)根据普通话发音特性,清音在前,浊音在后,将清、浊音段进行结合得到音节。
如图3所示,为本实施例的待检测音段的识别步骤,对测试语音样本,利用基于VAD的音节切分算法进行分段识别,基于音频特征空间表达Ω={gk,k=1,2,...,K}计算待检测音段的特征空间分布和特征空间运动轨迹,关键词检测采用先整体后局部的思路,包括以下步骤:
1)基于SVM分类器判断检测音段的特征空间分布与关键词的特征空间分布知识的相似性。每个关键词训练L个SVM二分分类器,待检测音段的特征空间分布会通过每个关键词的L个SVM分类器投票判决给出分类结果,根据分类结果预选可能的关键词子集W(c),同时考虑待检测音段的音节数与某个关键词的音节数是否匹配,若不匹配则该关键词不在预选范围内。
其中,每个关键词的L个SVM分类器的训练采用bagging算法,从非关键词集随机选取非关键词子集,其大小与关键词集大小一致,重复采样L次得到L个非关键词子集,每一个非关键词子集与关键词集训练一个SVM二分分类器,最终得到L个SVM分类器在对待检测音段分类识别时进行投票判决。对于某个关键词来说,其他关键词的样本会作为负样本参与分类器的训练。本实施例中L取5。
2)计算待检测音段的特征空间运动轨迹(P1,P2,...,PI)与预选关键词子集W(c)中每个词的特征空间运动轨迹的相似性,选出最可能的关键词
Figure BDA0003387999700000082
相似度得分的计算如下:
Figure BDA0003387999700000091
其中
Figure BDA0003387999700000092
表示Pi
Figure BDA0003387999700000093
的余弦相似度,Pi表示待测音段第i个音节的特征空间分布,
Figure BDA0003387999700000094
表示预选关键词W第i个音节的先验特征空间分布,
Figure BDA0003387999700000095
是特征空间运动轨迹另一种表达方式,表示预选关键词W第i个音节到第i+1个音节的标识子转移概率矩阵。关键词W第i个音节到第i+1个音节的标识子转移概率矩阵
Figure BDA0003387999700000096
计算如下:
Figure BDA0003387999700000097
Figure BDA0003387999700000098
其中
Figure BDA0003387999700000099
表示
Figure BDA00033879997000000910
第k1维的值,
Figure BDA00033879997000000911
表示
Figure BDA00033879997000000912
第k2维的值。
根据相似度得分,score1超过阈值σ1且得分最高的关键词作为最可能的关键词
Figure BDA00033879997000000913
β取值为0.3,阈值σ1定义为验证集中语音样本通过步骤S3的判决获得等错误率FAR==FRR时的判决门限,取值为0.31。
3)如果关键词
Figure BDA00033879997000000914
有声学相似竞争者,则利用局部区分性信息进行甄别。主要分为两种情况:
3.1)当关键词
Figure BDA00033879997000000915
的声学相似竞争者不在关键词列表内,关键词
Figure BDA00033879997000000916
与其声学相似竞争者的第i个音节相似时,对待检测音段第i个音节的特征空间分布Pi和关键词
Figure BDA00033879997000000917
第i个音节的特征空间分布
Figure BDA00033879997000000918
利用掩码向量Q进行掩码操作后再计算余弦相似度,
Figure BDA00033879997000000919
若score2超过阈值σ2则该音频段的检测结果为关键词
Figure BDA00033879997000000920
否则该音频段的检测结果为非关键词。阈值σ2通过使用验证集中关键词样本和声学相近词样本使用局部区分性信息进行识别时获得等错误率时的判决门限,取值为0.29。
3.2)当关键词
Figure BDA0003387999700000101
的声学相似竞争者在关键词列表内,关键词
Figure BDA0003387999700000102
与其声学相似竞争者的第i个音节相似时,利用两者进行掩码操作后的特征空间分布数据训练SVM二分分类器,对待检测音段第i个音节的特征空间分布Pi利用掩码向量Q进行掩码操作后送入SVM分类器,根据分类结果给出检测结果。
如图4所示,为本实施例构建关键词局部区分性标识子信息的步骤,在实验中发现,音段“gonglshi4”极易被错误识别为关键词“公司gonglsil”,造成虚警。因此对两者构建局部区分性信息进行进一步的甄别,使用两者最具声学混淆的音节分布差异构建局部区分性信息。由于两者的局部区分性主要体现在第二个音节上,因此使用第二个音节的分布差异构建局部区分性信息,包括以下步骤:
a)计算两个音节特征空间分布PA和PB在每一维上的相对差异得到
Figure BDA0003387999700000103
其中,
Figure BDA0003387999700000104
Figure BDA0003387999700000105
越大则第k个标识子越能作为两者之间的局部区分性标识;
b)对
Figure BDA0003387999700000106
队大到小进行排序,取topN对应的标识子作为两者之间的局部区分性标识子,得到局部区分性标识子集Ψ;
c)根据局部区分性标识子集Ψ构建掩码向量Q=[q1,q2,...,qK]T,其中,
Figure BDA0003387999700000107
为关键词“公司gonglsil”构建局部区分性信息后,能够有效减少对音段“gonglshi4”的误检,降低虚警率。
本发明利用音频特征空间对关键词建模,描述关键词音频特征在音频特征空间中的分布信息和运动轨迹信息,本质上是音频特征在特征空间中的定位,与生成式模型如隐马尔科夫模型(HMM)相比,定位是相对的,生成模型是绝对的;与基于深度神经网络的方法相比,具有可解释性,每一个知识数据都具有物理语义。不论是基于生成式模型的方法还是基于神经网络的方法,都需要大量的标注训练样本,本发明可在标注数据较少的情况下取得比基于生成式模型的方法和基于神经网络的方法更好的性能。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种基于运动轨迹和区分性信息的语音关键词检测方法,其特征在于,包括下述步骤:
将关键词的特征空间运动轨迹采用其语音样本按音节构成的特征空间分布序列表达;
针对声学相近词对比构建关键词的局部区分性信息,并用关键词中最具有声学混淆的音节分布差异信息表达;
进行关键词检测,具体步骤包括:
利用待检测音段的特征空间分布与关键词的特征空间分布知识的相似性预选可能的关键词子集W(c),同时检测待检测音段的音节数与关键词的音节数是否匹配,若不匹配则该关键词不在预选范围内;
利用待检测音段的特征空间运动轨迹与预选关键词子集W(c)中每个词的特征空间运动轨迹的相似度选出最可能的关键词
Figure FDA0003387999690000011
当关键词
Figure FDA0003387999690000012
有声学相似竞争者时,利用其局部区分性信息进行甄别确定最后检测结果。
2.根据权利要求1所述的基于运动轨迹和区分性信息的语音关键词检测方法,其特征在于,所述将关键词的特征空间运动轨迹采用其语音样本按音节构成的特征空间分布序列表达,具体步骤包括:
对关键词音频段利用基于VAD的音节切分算法进行音节的划分;
基于音频特征空间表达Ω={gk,k=1,2,...,K}计算关键词W第i个音节的K维特征空间分布
Figure FDA0003387999690000013
所述音频特征空间表达Ω={gk,k=1,2,...,K}采用聚类方法构建,gk=N(mk,Uk)为多维高斯分布函数,称之为标识子。
3.根据权利要求1所述的基于运动轨迹和区分性信息的语音关键词检测方法,其特征在于,所述针对声学相近词对比构建关键词的局部区分性信息,并用关键词中最具有声学混淆的音节分布差异信息表达,具体步骤包括:
计算两个音节特征空间分布PA和PB在每一维上的相对差异得到
Figure FDA0003387999690000021
其中,
Figure FDA0003387999690000022
Figure FDA0003387999690000023
从大到小进行排序,取topN对应的标识子作为两者之间的局部区分性标识子,得到局部区分性标识子集Ψ;
根据局部区分性标识子集Ψ构建掩码向量Q=[q1,q2,...,qK]T,其中,
Figure FDA0003387999690000024
gk表示标识子。
4.根据权利要求1所述的基于运动轨迹和区分性信息的语音关键词检测方法,其特征在于,所述利用待检测音段的特征空间分布与关键词的特征空间分布知识的相似性预选可能的关键词子集W(c),基于SVM分类器判断检测音段的特征空间分布与关键词的特征空间分布知识的相似性,每个关键词训练L个SVM二分分类器,待检测音段的特征空间分布通过每个关键词的L个SVM分类器投票判决给出分类结果,根据分类结果预选可能的关键词子集W(c)
5.根据权利要求1所述的基于运动轨迹和区分性信息的语音关键词检测方法,其特征在于,所述利用待检测音段的特征空间运动轨迹与预选关键词子集W(c)中每个词的特征空间运动轨迹的相似度选出最可能的关键词
Figure FDA0003387999690000025
相似度计算公式具体为:
Figure FDA0003387999690000026
其中,score1表示相似度得分,
Figure FDA0003387999690000027
表示Pi
Figure FDA0003387999690000028
的余弦相似度,Pi表示待测音段第i个音节的特征空间分布,
Figure FDA0003387999690000029
表示预选关键词W第i个音节的先验特征空间分布,
Figure FDA00033879996900000316
表示预选关键词W第i个音节到第i+1个音节的标识子转移概率矩阵;
相似度得分超过设定阈值且得分最高的关键词作为最可能的关键词
Figure FDA0003387999690000031
6.根据权利要求5所述的基于运动轨迹和区分性信息的语音关键词检测方法,其特征在于,所述标识子转移概率矩阵具体计算公式为:
Figure FDA0003387999690000032
Figure FDA0003387999690000033
其中
Figure FDA0003387999690000034
表示
Figure FDA0003387999690000035
第k1维的值,
Figure FDA0003387999690000036
表示
Figure FDA0003387999690000037
第k2维的值。
7.根据权利要求1所述的基于运动轨迹和区分性信息的语音关键词检测方法,其特征在于,当关键词
Figure FDA0003387999690000038
有声学相似竞争者时,利用其局部区分性信息进行甄别确定最后检测结果,具体步骤包括:
当关键词
Figure FDA0003387999690000039
的声学相似竞争者不在关键词列表内,关键词
Figure FDA00033879996900000310
与其声学相似竞争者的第i个音节相似时,对待检测音段第i个音节的特征空间分布Pi和关键词
Figure FDA00033879996900000311
第i个音节的特征空间分布
Figure FDA00033879996900000312
利用掩码向量Q进行掩码操作后再计算余弦相似度,若余弦相似度超过设定阈值,则该音频段的检测结果为关键词
Figure FDA00033879996900000313
否则该音频段的检测结果为非关键词;
当关键词
Figure FDA00033879996900000314
的声学相似竞争者在关键词列表内,关键词
Figure FDA00033879996900000315
与其声学相似竞争者的第i个音节相似时,利用两者进行掩码操作后的特征空间分布数据训练SVM二分分类器,对待检测音段第i个音节的特征空间分布Pi利用掩码向量Q进行掩码操作后送入SVM分类器,根据分类结果给出检测结果。
CN202111460052.3A 2021-12-02 2021-12-02 一种基于运动轨迹和区分性信息的语音关键词检测方法 Active CN114373453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111460052.3A CN114373453B (zh) 2021-12-02 2021-12-02 一种基于运动轨迹和区分性信息的语音关键词检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111460052.3A CN114373453B (zh) 2021-12-02 2021-12-02 一种基于运动轨迹和区分性信息的语音关键词检测方法

Publications (2)

Publication Number Publication Date
CN114373453A true CN114373453A (zh) 2022-04-19
CN114373453B CN114373453B (zh) 2024-06-04

Family

ID=81140222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111460052.3A Active CN114373453B (zh) 2021-12-02 2021-12-02 一种基于运动轨迹和区分性信息的语音关键词检测方法

Country Status (1)

Country Link
CN (1) CN114373453B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115762490A (zh) * 2022-11-08 2023-03-07 广东广信通信服务有限公司 一种基于轨迹修正的在线强化语义学习方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070879A (zh) * 2019-05-13 2019-07-30 吴小军 一种基于变声技术制作智能表情及声感游戏的方法
CN111524513A (zh) * 2020-04-16 2020-08-11 歌尔科技有限公司 一种可穿戴设备及其语音传输的控制方法、装置及介质
CN112309541A (zh) * 2020-11-13 2021-02-02 济南浪潮高新科技投资发展有限公司 一种基于语音识别的健康生活陪伴机器人

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070879A (zh) * 2019-05-13 2019-07-30 吴小军 一种基于变声技术制作智能表情及声感游戏的方法
CN111524513A (zh) * 2020-04-16 2020-08-11 歌尔科技有限公司 一种可穿戴设备及其语音传输的控制方法、装置及介质
CN112309541A (zh) * 2020-11-13 2021-02-02 济南浪潮高新科技投资发展有限公司 一种基于语音识别的健康生活陪伴机器人

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115762490A (zh) * 2022-11-08 2023-03-07 广东广信通信服务有限公司 一种基于轨迹修正的在线强化语义学习方法
CN115762490B (zh) * 2022-11-08 2023-07-21 广东广信通信服务有限公司 一种基于轨迹修正的在线强化语义学习方法

Also Published As

Publication number Publication date
CN114373453B (zh) 2024-06-04

Similar Documents

Publication Publication Date Title
Ferrer et al. A prosody-based approach to end-of-utterance detection that does not require speech recognition
CN111128128B (zh) 一种基于互补模型评分融合的语音关键词检测方法
CN102201237B (zh) 基于模糊支持向量机的可靠性检测的情感说话人识别方法
Wu et al. Multiple change-point audio segmentation and classification using an MDL-based Gaussian model
Bhati et al. Unsupervised Speech Signal to Symbol Transformation for Zero Resource Speech Applications.
Khan et al. An intelligent system for spoken term detection that uses belief combination
CN114373453B (zh) 一种基于运动轨迹和区分性信息的语音关键词检测方法
Widyowaty et al. Accent recognition by native language using mel-frequency cepstral coefficient and K-Nearest neighbor
CN111429921B (zh) 声纹识别方法、系统、移动终端及存储介质
Saputri et al. Identifying Indonesian local languages on spontaneous speech data
Mathur et al. A study of machine learning algorithms in speech recognition and language identification system
Gupta et al. Deep learning and sociophonetics: Automatic coding of rhoticity using neural networks
Petrovska-Delacrétaz et al. Detecting acoustic morphemes in lattices for spoken language understanding.
Shen et al. Speaker clustering using decision tree-based phone cluster models with multi-space probability distributions
Tabibian et al. A fast hierarchical search algorithm for discriminative keyword spotting
Rao et al. Language identification—a brief review
Vasudev et al. Query-by-example spoken term detection using bessel features
Chen et al. A Rescoring Approach for Keyword Search Using Lattice Context Information.
KR20000025827A (ko) 음성인식시스템에서의 반음소모델 구축방법및 그를 이용한 발화 검증방법
Bouafif et al. Speech-Music-Noise Discrimination in Sound Indexing of Multimedia Documents.
Therese et al. Optimisation of training samples in recognition of overlapping speech and identification of speaker in a two speakers situation
EP2948943B1 (en) False alarm reduction in speech recognition systems using contextual information
Kuriakose New Features for Discriminative Keyword Spotting
Mary et al. Keyword spotting techniques
Chen et al. The speaker recognition of noisy short utterance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant