CN111128128B - 一种基于互补模型评分融合的语音关键词检测方法 - Google Patents

一种基于互补模型评分融合的语音关键词检测方法 Download PDF

Info

Publication number
CN111128128B
CN111128128B CN201911366488.9A CN201911366488A CN111128128B CN 111128128 B CN111128128 B CN 111128128B CN 201911366488 A CN201911366488 A CN 201911366488A CN 111128128 B CN111128128 B CN 111128128B
Authority
CN
China
Prior art keywords
keyword
voice
segment
scoring
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911366488.9A
Other languages
English (en)
Other versions
CN111128128A (zh
Inventor
贺前华
李黎晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201911366488.9A priority Critical patent/CN111128128B/zh
Publication of CN111128128A publication Critical patent/CN111128128A/zh
Application granted granted Critical
Publication of CN111128128B publication Critical patent/CN111128128B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于互补模型评分融合的语音关键词检测方法,包括以下步骤:1)在音频特征空间进行关键词建模的基础上,引入基于i‑vector的关键词建模;2)自适应分段窗移:对于待检测的语音样本,从起始信号截取语音段,获取当前段在语音特征空间的分布表达,将其与关键词类属性计算相似度得到当前段的类评分序列,根据当前段的得分获得下一段的窗移,逐段处理直至信号结束,待检测的语音样本被分成K段;3)利用关键词候选点的位置进行评分融合。该发明采用两种有差异的模型实现一种有一定互补性的关键词检测算法,对两种模型的评分结果进行融合,能解决在训练样本量少的情况下的语音关键词检出,同时能提升关键词检出准确度。

Description

一种基于互补模型评分融合的语音关键词检测方法
技术领域
本发明涉及连续语音关键词识别领域,具体涉及一种基于互补模型评分融合的语音关键词检测方法。
背景技术
语音关键词检测是语音识别技术的一项特殊应用,其目的在于从连续语音中检测出是否包含了特定的关键词。目前连续语音关键词识别技术取得快速的发展,成功地在生活中的很多场景得到普及,已经成为语音控制、语音检索、安全监听等领域的重要研究课题。
传统的语音关键词检测技术主要有三种:滑动匹配模型、基于隐马尔可夫模型的垃圾模型和音节网格网络。滑动匹配模型采用滑动窗口在连续语音上进行关键词搜索,并采用动态时间规整进行匹配计算,但识别率不是很高。因此大多数采用的技术是基于隐马尔可夫模型和大词汇量连续语音识别系统的方法。基于隐马尔可夫模型的垃圾模型需要分别对关键词模型、背景模型以及对应关键词的垃圾模型进行建模,采用维特比解码算法进行识别。基于大词汇量连续语音识别系统的方法以语音关键词文本作为输入,通过对语料库进行语音识别,将其转化为识别词网格表示,然后再在该词网络上进行关键词匹配。
基于隐马尔可夫模型的垃圾模型和基于大词汇量连续语音识别系统的方法,比如:论文《基于HMM的汉语语音关键词检测研究与实现》和论文《Recent developments inspoken term detection》(International Journal of Speech Technology,2014,17(2):183-198),虽然能够达到较好的检测效果,但是都必须依赖一个较大的语料库,需要大量的标注数据资源和巨大的工作量,对于低资源的语音数据来说并不具备训练一个鲁棒的关键词检测系统的条件,因此需要找到一种能解决在训练样本量少的情况下的语音关键词检出。
发明内容
本发明要解决的技术问题是用具有一定信息表达互补的模型评价融合解决单一模型信息表达不充分,从而导致判决不可靠的问题。在现有技术中,利用矢量量化得到直方图作为关键词的模型或者使用基于DTW的模板匹配方法,难以充分表达关键词的信息,在对语音样本的每一段进行识别时容易将非关键词误判为关键词,对最终的判决造成混淆。
本发明的目的是针对现有技术的不足,提供了一种基于互补模型评分融合的语音关键词检测方法,对关键词检测的评分进行融合,依靠关键词建模方式的差异,获得检测系统的互补性,使得关键词模型的潜力被更好的挖掘,得到较好的语音关键词检测结果。
本发明至少通过如下技术方案之一实现。
一种基于互补模型评分融合的语音关键词检测方法,利用音频特征空间和i-vector对关键词分别进行建模,对两种差异性建模方法的评分结果进行融合,包括以下步骤:
1)在音频特征空间进行关键词建模的基础上,引入基于身份矢量(i-vector)的关键词建模,获得两种建模方法;
2)自适应分段窗移:对于待检测的语音样本,从起始信号截取窗长为w的语音段,获取当前段在语音特征空间Ω的分布表达p,将其与关键词类属性M计算相似度得到当前段的类评分序列
Figure BDA0002338565200000027
根据当前段的得分获得下一段的窗移,逐段处理直至信号结束,待检测的语音样本被分成K段。
3)利用关键词候选点的位置进行评分融合:对于待检测的语音样本,通过音频特征空间评分序列
Figure BDA0002338565200000028
和利用i-vector所得评分序列/>
Figure BDA0002338565200000029
两条评分曲线极大值点得到关键词候选点的位置,对关键词候选点所在位置的评分进行加权融合,作为关键词检测的判决依据。
进一步地,步骤1)包括以下步骤:
a)利用无标注语音样本训练GMM模型(高斯混合模型),将其高斯分布函数gj(mj,Uj)张成一个语音特征空间Ω={gj,j=1,2,…,J},其中,gj表示特征分布空间中的标识子,J为特征空间标识子的数量,mj表示高斯分布函数的均值,Uj表示高斯分布函数的方差。预设的关键词有N个,计算每个关键词的语音样本特征在语音特征空间中的分布信息作为其类属性Mn
b)利用关键词语音样本的梅尔频谱特征,提取每个关键词的i-vector。
进一步地,类评分序列
Figure BDA0002338565200000021
中每一段的相似度得分是余弦值,取相似度最高的作为该段的评分:
Figure BDA0002338565200000022
Figure BDA0002338565200000023
其中,
Figure BDA0002338565200000024
表示第k段语音的语音特征与第j个特征空间标识子的关联度,/>
Figure BDA0002338565200000025
表示第n个关键词与第j个特征空间标识子的关联度,/>
Figure BDA0002338565200000026
表示第k段语音的分布信息与第n个关键词的类属性Mn的相似度。
进一步地,步骤2)中,获得下一段的窗移据shift是当前段的得分
Figure BDA0002338565200000031
与阈值σ1得到,具体如下:
Figure BDA0002338565200000032
Figure BDA0002338565200000033
进一步地,阈值σ1是统计验证集每一个关键词的样本与它本身类属性Mn的相似度得分
Figure BDA0002338565200000034
取各个关键词最小相似度得分的平均作为阈值σ1
Figure BDA0002338565200000035
/>
其中,N为预设的关键词的数量,i表示关键词的样本数。
进一步地,关键词候选点的定义为两条曲线在同一位置出现的极大值点且在该位置两种建模方法法识别结果一致。
进一步地,步骤3)中,对关键词候选点所在位置的评分进行加权融合,包括以下步骤:
(1)若不存在关键词候选点,则认为待检测语音样本中不含关键词;
(2)若只有一个关键词候选点,检测结果为该候选点所在位置的识别结果;
(3)若有若干个关键词候选点集合L,不同候选点的识别结果不同,则对两种建模方法的评分结果进行融合,两种建模方法采用不同的权重进行线性加权,取融合后的评分最高值作为最终得分S;
当最终得分S大于预设的阈值σ2时,将最终得分所在位置识别的关键词结果作为该文件的检测结果,否则认为待检测语音样本中不含关键词。
进一步地,最终得分S的计算步骤如下:
1)将
Figure BDA0002338565200000036
的取值区间规整到[-1,1]:
Figure BDA0002338565200000037
其中,
Figure BDA0002338565200000038
表示第k段语音的i-vector与第n个关键词的i-vector的PLDA评分;
2)对
Figure BDA0002338565200000039
和/>
Figure BDA00023385652000000310
进行线性加权,sk表示第k段语音加权后的评分:
Figure BDA00023385652000000311
3)取加权后最高值作为最终得分S:
Figure BDA0002338565200000041
上述系数α取0.6≤α≤0.7,β取0.3≤β≤0.4。
进一步地,阈值σ2定义为验证集中语音样本通过步骤3)的判决获得等错误率FAR=FRR时的判决门限。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明提供的一种基于互补模型评分融合的语音关键词检测方法,在利用音频特征空间进行关键词建模的基础上,引入基于i-vector的关键词建模方法,对关键词检测的评分结果进行融合。本发明中所使用的两种模型的互补性主要体现在:1)利用音频特征空间对关键词建模在本质上是语音特征在空间中的定位,对于不同的关键词的语音特征,使用关联度来表示不同关键词的语音特征定位信息,从而表达不同关键词之间的区分性;而基于i-vector的关键词建模方法在计算PLDA评分时,更加关注不同关键词的类间特征而忽略同一个关键词的类内特征来衡量两段语音的相似程度,可以对语音特征定位信息提供有益的补充;2)利用音频特征空间得到的评分序列曲线中有多个极大值点,对最终的判决容易造成混淆,引入基于i-vector的关键词建模所得PLDA评分曲线可以减少一些极大值点的混淆,通过两条曲线得到关键词候选点集合作为关键词检测的判决依据,能提高关键词检出准确度。
2、本发明提供的一种基于互补模型评分融合的语音关键词检测方法,在对语音样本进行检测时,从起始信号截取固定窗长的语音段,根据当前段的相似度得分获取下一段的窗移,若当前段是关键词段,则按固定窗移移动;若当前段是非关键词段,相似度越小,窗移越大,能加快搜索速度。
3、本发明提供的一种基于互补模型评分融合的语音关键词检测方法,对两种模型的评分结果进行融合,能解决在训练样本量少的情况下单一模型信息表达不充分从而导致判决不可靠的问题,提升关键词检出准确度。
附图说明
图1为本发明实施例中基于互补模型评分融合的语音关键词检测方法的概略流程图;
图2为本发明实施例中利用音频特征空间对关键词进行建模的步骤流程图;
图3为本发明实施例中对待检测语音样本进行检测的步骤流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例的一种基于互补模型评分融合的语音关键词检测方法,包括以下步骤:
1)在音频特征空间进行关键词建模的基础上,引入基于i-vector(身份矢量)的关键词建模,获得两种建模方法;利用每个关键词的语音样本特征在语音特征空间中的分布信息作为其类属性;
如图2所示,利用语音特征空间对关键词进行建模,基于i-vector对关键词进行建模。
利用语音特征空间对关键词进行建模具体是使用aishell中文语料库中的语音数据作为无标注的语音样本集来训练语音特征空间,提取无标注语音样本集语音的12维MFCC(梅尔频率倒谱系数)特征,训练一个混合度为J的GMM模型,保留每个高斯分量作为语音特征空间的标识子集合Ω={gj.j=1,2,…,J},其中,gj表示特征分布空间中的标识子,J为特征空间标识子的数量,标识子数量J选择4096;
采集aishell中含有关键词的语音样本,每个关键词500个语音样本,从这些样本中截取关键词段来构成关键词样本集,时长在300ms-400ms,根据6:2:2的比例划分训练集、验证集和测试集。提取关键词段的12维MFCC特征F1={f1,f2,…,ft},计算特征ft与空间标识子gj(mj,Uj)的位置关联度:
Figure BDA0002338565200000051
其中,ft表示第t帧的MFCC特征,mj表示高斯分布函数的均值,Uj表示高斯分布函数的方差,
Figure BDA0002338565200000052
表示第t帧特征与第j个特征空间标识子的关联度,系数α取0.6≤α≤0.7。
计算关键词样本集与空间标识子gj(mj,Uj)的位置关联度的期望值:
Figure BDA0002338565200000053
/>
其中
Figure BDA0002338565200000054
为第n个样本的第t帧特征与标识子gj(mj,Uj)的位置关联度;
计算关键词类属性为:
Figure BDA0002338565200000055
基于i-vector对关键词进行建模具体是利用训练集中关键词样本集的梅尔频谱特征训练一个GMM-UBM模型,将每个GMM成分的均值组合成一个均值超矢量,从均值超矢量提取每个关键词的i-vector。
2)自适应分段窗移:对于待检测的语音样本,从起始信号截取窗长为w的语音段,获取当前段在语音特征空间Ω的分布表达p,将其与关键词类属性M计算相似度得到当前段的类评分序列
Figure BDA00023385652000000610
根据当前段的得分获得下一段的窗移,逐段处理直至信号结束,待检测的语音样本被分成K段。
图3所示,检测过程包括以下步骤:
(1)从起始信号截取窗长为50帧的语音段,提取该段MFCC特征f={f1,f2,…,ft},其中,ft表示第t帧特征;
(2)计算该段MFCC特征f={f1,f2,…,ft}在特征空间Ω的分布p;
(3)计算样本分布p与关键词类属性Mn的相似度,取相似度最高的作为该段的评分:
Figure BDA0002338565200000061
Figure BDA0002338565200000062
其中,
Figure BDA0002338565200000063
表示第k段语音的语音特征与第j个特征空间标识子的关联度,/>
Figure BDA0002338565200000064
表示第n个关键词与第j个特征空间标识子的关联度,/>
Figure BDA0002338565200000065
表示第k段语音的分布信息与第n个关键词的类属性Mn的相似度。
根据当前段的得分
Figure BDA0002338565200000066
与阈值σ1获得下一段的窗移shift:
Figure BDA0002338565200000067
Figure BDA0002338565200000068
逐段分析直至信号结束,待检测的语音样本被分成K段。
阈值σ1是统计验证集中每一个关键词的样本与它本身类属性Mn的相似度得分
Figure BDA0002338565200000069
取各个关键词最小相似度得分的平均值作为阈值σ1
Figure BDA0002338565200000071
其中,N为预设的关键词的数量,i表示关键词的样本数。
(4)对于已分好的K段,对每一段提取i-vector,将其与关键词的i-vector计算PLDA评分,得到待检测语音样本的i-vector评分序列
Figure BDA0002338565200000072
3)利用关键词候选点的位置进行评分融合:对于待检测的语音样本,通过音频特征空间评分序列
Figure BDA0002338565200000073
和利用i-vector所得评分序列/>
Figure BDA0002338565200000074
两条评分曲线极大值点得到关键词候选点的位置,对关键词候选点所在位置的评分进行加权融合,作为关键词检测的判决依据。
两条评分序列曲线存在多个极大值点,但两条曲线在关键词出现位置一定都存在极大值点,因此关键词候选点的定义为:两条曲线在同一位置出现的极大值点且在该位置两种建模方法识别结果一致。
对关键词候选点进行判决,判决如下:
a)若不存在关键词候选点,则认为待检测语音样本中不含关键词;
b)若只有一个关键词候选点,检测结果为该候选点所在位置的识别结果;
c)若有多个关键词候选点集合L,不同候选点的识别结果不同,则对两种建模方法的评分结果进行融合,两种建模方法采用不同的权重进行线性加权,取融合后的评分最高值作为最终得分S:
Figure BDA0002338565200000075
Figure BDA0002338565200000076
Figure BDA0002338565200000077
其中,
Figure BDA0002338565200000078
表示第k段语音的i-vector与第n个关键词的i-vector的PLDA评分,sk表示第k段语音加权后的评分,上述系数α=0.7,β=0.3。
当最终得分S大于预设的阈值σ2时,将最终得分所在位置识别的关健词结果作为该文件的检测结果,否则认为待检测语音样本中不含关键词。
阈值σ2定义为验证集中语音样本通过上述判决方法获得等错误率FAR=FRR时的判决门限,取σ2=0.4。
以上所述,仅为本发明较佳的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都属于本发明的保护范围。

Claims (7)

1.一种基于互补模型评分融合的语音关键词检测方法,利用音频特征空间和i-vector对关键词分别进行建模,对两种差异性建模方法的评分结果进行融合,其特征在于,包括以下步骤:
1)在音频特征空间进行关键词建模的基础上,引入基于身份矢量的关键词建模,获得两种建模方法;
2)自适应分段窗移:对于待检测的语音样本,从起始信号截取窗长为w的语音段,获取当前段在语音特征空间Ω的分布表达p,将其与关键词类属性M计算相似度得到当前段的类评分序列
Figure FDA0004101750020000017
根据当前段的得分获得下一段的窗移,逐段处理直至信号结束,待检测的语音样本被分成K段;
3)利用关键词候选点的位置进行评分融合:对于待检测的语音样本,通过音频特征空间评分序列
Figure FDA0004101750020000019
和利用i-vector所得评分序列/>
Figure FDA0004101750020000018
这两条评分曲线极大值点得到关键词候选点的位置,对关键词候选点所在位置的评分进行加权融合,作为关键词检测的判决依据;对关键词候选点所在位置的评分进行加权融合,包括以下步骤:
(1)若不存在关键词候选点,则认为待检测语音样本中不含关键词;
(2)若只有一个关键词候选点,检测结果为该候选点所在位置的识别结果;
(3)若有若干个关键词候选点集合L,不同候选点的识别结果不同,则对两种建模方法的评分结果进行融合,两种建模方法采用不同的权重进行线性加权,取融合后的评分最高值作为最终得分S;
当最终得分S大于预设的阈值σ2时,将最终得分所在位置识别的关键词结果作为该文件的检测结果,否则认为待检测语音样本中不含关键词;
最终得分S的计算步骤如下:
1)将
Figure FDA0004101750020000011
的取值区间规整到[-1,1]:
Figure FDA0004101750020000012
其中,
Figure FDA0004101750020000013
表示第k段语音的i-vector与第n个关键词的i-vector的PLDA评分;
2)对
Figure FDA0004101750020000014
和/>
Figure FDA0004101750020000015
进行线性加权,sk表示第k段语音加权后的评分:
Figure FDA0004101750020000016
3)取加权后最高值作为最终得分S:
Figure FDA0004101750020000021
上述系数α取0.6≤α≤0.7,β取0.3≤β≤0.4。
2.根据权利要求1所述的一种基于互补模型评分融合的语音关键词检测方法,其特征在于,步骤1)包括以下步骤:
a)利用无标注语音样本训练GMM模型,将其高斯分布函数gj(mj,Uj)张成一个语音特征空间Ω={gj,j=1,2,···,J},其中,gj表示特征分布空间中的标识子,J为特征空间标识子的数量,mj表示高斯分布函数的均值,Uj表示高斯分布函数的方差;预设的关键词有N个,计算每个关键词的语音样本特征在语音特征空间中的分布信息作为其类属性Mn
b)利用关键词语音样本的梅尔频谱特征,提取每个关键词的i-vector。
3.根据权利要求1所述的一种基于互补模型评分融合的语音关键词检测方法,其特征在于,类评分序列s1 k中每一段的相似度得分是余弦值,取相似度最高的作为该段的评分:
Figure FDA0004101750020000022
Figure FDA0004101750020000023
其中,
Figure FDA0004101750020000024
表示第k段语音的语音特征与第j个特征空间标识子的关联度,/>
Figure FDA0004101750020000025
表示第n个关键词与第j个特征空间标识子的关联度,/>
Figure FDA0004101750020000026
表示第k段语音的分布信息与第n个关键词的类属性Mn的相似度。
4.根据权利要求1所述的一种基于互补模型评分融合的语音关键词检测方法,其特征在于,步骤2)中,下一段的窗移shift是由当前段的得分
Figure FDA0004101750020000027
与阈值σ1得到,具体如下:
Figure FDA0004101750020000028
Figure FDA0004101750020000029
5.根据权利要求4所述的一种基于互补模型评分融合的语音关键检测方法,其特征在于,阈值σ1是统计验证集每一个关键词的样本与它本身类属性Mn的相似度得分
Figure FDA00041017500200000210
取各个关键词最小相似度得分的平均作为阈值σ1
Figure FDA0004101750020000031
其中,N为预设的关键词的数量,i表示关键词的样本数。
6.根据权利要求1所述的一种基于互补模型评分融合的语音关键词检测方法,其特征在于,关键词候选点的定义为两条曲线在同一位置出现的极大值点且在该位置两种建模方法识别结果一致。
7.根据权利要求1所述的一种基于互补模型评分融合的语音关键词检测方法,其特征在于,阈值σ2定义为验证集中语音样本通过步骤3)的判决获得等错误率FAR=FRR时的判决门限。
CN201911366488.9A 2019-12-26 2019-12-26 一种基于互补模型评分融合的语音关键词检测方法 Active CN111128128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911366488.9A CN111128128B (zh) 2019-12-26 2019-12-26 一种基于互补模型评分融合的语音关键词检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911366488.9A CN111128128B (zh) 2019-12-26 2019-12-26 一种基于互补模型评分融合的语音关键词检测方法

Publications (2)

Publication Number Publication Date
CN111128128A CN111128128A (zh) 2020-05-08
CN111128128B true CN111128128B (zh) 2023-05-23

Family

ID=70503112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911366488.9A Active CN111128128B (zh) 2019-12-26 2019-12-26 一种基于互补模型评分融合的语音关键词检测方法

Country Status (1)

Country Link
CN (1) CN111128128B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259101B (zh) * 2020-10-19 2022-09-23 腾讯科技(深圳)有限公司 语音关键词识别方法、装置、计算机设备和存储介质
CN113823326B (zh) * 2021-08-16 2023-09-19 华南理工大学 一种高效语音关键词检测器训练样本使用方法
CN113823274B (zh) * 2021-08-16 2023-10-27 华南理工大学 基于检测错误加权编辑距离的语音关键词样本筛选方法
CN113903358B (zh) * 2021-10-15 2022-11-04 贝壳找房(北京)科技有限公司 语音质检方法、可读存储介质及计算机程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559881A (zh) * 2013-11-08 2014-02-05 安徽科大讯飞信息科技股份有限公司 语种无关的关键词识别方法及系统
CN103943107A (zh) * 2014-04-03 2014-07-23 北京大学深圳研究生院 一种基于决策层融合的音视频关键词识别方法
CN103971678A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 关键词检测方法和装置
CN104281835A (zh) * 2014-09-04 2015-01-14 台州学院 基于局部敏感的核稀疏表示的人脸识别方法
CN109545229A (zh) * 2019-01-11 2019-03-29 华南理工大学 一种基于语音样本特征空间轨迹的说话人识别方法
CN110289003A (zh) * 2018-10-10 2019-09-27 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971678A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 关键词检测方法和装置
CN103559881A (zh) * 2013-11-08 2014-02-05 安徽科大讯飞信息科技股份有限公司 语种无关的关键词识别方法及系统
CN103943107A (zh) * 2014-04-03 2014-07-23 北京大学深圳研究生院 一种基于决策层融合的音视频关键词识别方法
CN104281835A (zh) * 2014-09-04 2015-01-14 台州学院 基于局部敏感的核稀疏表示的人脸识别方法
CN110289003A (zh) * 2018-10-10 2019-09-27 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
CN109545229A (zh) * 2019-01-11 2019-03-29 华南理工大学 一种基于语音样本特征空间轨迹的说话人识别方法

Also Published As

Publication number Publication date
CN111128128A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111128128B (zh) 一种基于互补模型评分融合的语音关键词检测方法
CN109410914B (zh) 一种赣方言语音和方言点识别方法
CN106297776B (zh) 一种基于音频模板的语音关键词检索方法
Wshah et al. Script independent word spotting in offline handwritten documents based on hidden markov models
CN109545229B (zh) 一种基于语音样本特征空间轨迹的说话人识别方法
CN111640418B (zh) 一种韵律短语识别方法、装置及电子设备
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
CN101136199A (zh) 语音数据处理方法和设备
CN107886968B (zh) 语音评测方法及系统
CN101887722A (zh) 快速声纹认证方法
Hazen et al. Topic modeling for spoken documents using only phonetic information
CN104575495A (zh) 一种采用总变化量因子的语种识别方法及系统
Birla A robust unsupervised pattern discovery and clustering of speech signals
CN114373453A (zh) 一种基于运动轨迹和区分性信息的语音关键词检测方法
Widyowaty et al. Accent recognition by native language using mel-frequency cepstral coefficient and K-Nearest neighbor
CN104240699A (zh) 一种简单有效的短语语音识别方法
Chandrakala et al. Combination of generative models and SVM based classifier for speech emotion recognition
Mathur et al. A study of machine learning algorithms in speech recognition and language identification system
CN110875044B (zh) 一种基于字相关得分计算的说话人识别方法
Gupta et al. Deep learning and sociophonetics: Automatic coding of rhoticity using neural networks
Shen et al. Speaker clustering using decision tree-based phone cluster models with multi-space probability distributions
Lin et al. Self-Supervised Acoustic Word Embedding Learning via Correspondence Transformer Encoder
Vasudev et al. Query-by-example spoken term detection using bessel features
CN110807370A (zh) 一种基于多模态的会议发言人身份无感确认方法
CN112951212B (zh) 一种多个说话人的语音转折点检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant