CN111128128B - 一种基于互补模型评分融合的语音关键词检测方法 - Google Patents
一种基于互补模型评分融合的语音关键词检测方法 Download PDFInfo
- Publication number
- CN111128128B CN111128128B CN201911366488.9A CN201911366488A CN111128128B CN 111128128 B CN111128128 B CN 111128128B CN 201911366488 A CN201911366488 A CN 201911366488A CN 111128128 B CN111128128 B CN 111128128B
- Authority
- CN
- China
- Prior art keywords
- keyword
- voice
- segment
- scoring
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 39
- 230000004927 fusion Effects 0.000 title claims abstract description 25
- 230000000295 complement effect Effects 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 9
- 230000003044 adaptive effect Effects 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 32
- 238000005315 distribution function Methods 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 2
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于互补模型评分融合的语音关键词检测方法,包括以下步骤:1)在音频特征空间进行关键词建模的基础上,引入基于i‑vector的关键词建模;2)自适应分段窗移:对于待检测的语音样本,从起始信号截取语音段,获取当前段在语音特征空间的分布表达,将其与关键词类属性计算相似度得到当前段的类评分序列,根据当前段的得分获得下一段的窗移,逐段处理直至信号结束,待检测的语音样本被分成K段;3)利用关键词候选点的位置进行评分融合。该发明采用两种有差异的模型实现一种有一定互补性的关键词检测算法,对两种模型的评分结果进行融合,能解决在训练样本量少的情况下的语音关键词检出,同时能提升关键词检出准确度。
Description
技术领域
本发明涉及连续语音关键词识别领域,具体涉及一种基于互补模型评分融合的语音关键词检测方法。
背景技术
语音关键词检测是语音识别技术的一项特殊应用,其目的在于从连续语音中检测出是否包含了特定的关键词。目前连续语音关键词识别技术取得快速的发展,成功地在生活中的很多场景得到普及,已经成为语音控制、语音检索、安全监听等领域的重要研究课题。
传统的语音关键词检测技术主要有三种:滑动匹配模型、基于隐马尔可夫模型的垃圾模型和音节网格网络。滑动匹配模型采用滑动窗口在连续语音上进行关键词搜索,并采用动态时间规整进行匹配计算,但识别率不是很高。因此大多数采用的技术是基于隐马尔可夫模型和大词汇量连续语音识别系统的方法。基于隐马尔可夫模型的垃圾模型需要分别对关键词模型、背景模型以及对应关键词的垃圾模型进行建模,采用维特比解码算法进行识别。基于大词汇量连续语音识别系统的方法以语音关键词文本作为输入,通过对语料库进行语音识别,将其转化为识别词网格表示,然后再在该词网络上进行关键词匹配。
基于隐马尔可夫模型的垃圾模型和基于大词汇量连续语音识别系统的方法,比如:论文《基于HMM的汉语语音关键词检测研究与实现》和论文《Recent developments inspoken term detection》(International Journal of Speech Technology,2014,17(2):183-198),虽然能够达到较好的检测效果,但是都必须依赖一个较大的语料库,需要大量的标注数据资源和巨大的工作量,对于低资源的语音数据来说并不具备训练一个鲁棒的关键词检测系统的条件,因此需要找到一种能解决在训练样本量少的情况下的语音关键词检出。
发明内容
本发明要解决的技术问题是用具有一定信息表达互补的模型评价融合解决单一模型信息表达不充分,从而导致判决不可靠的问题。在现有技术中,利用矢量量化得到直方图作为关键词的模型或者使用基于DTW的模板匹配方法,难以充分表达关键词的信息,在对语音样本的每一段进行识别时容易将非关键词误判为关键词,对最终的判决造成混淆。
本发明的目的是针对现有技术的不足,提供了一种基于互补模型评分融合的语音关键词检测方法,对关键词检测的评分进行融合,依靠关键词建模方式的差异,获得检测系统的互补性,使得关键词模型的潜力被更好的挖掘,得到较好的语音关键词检测结果。
本发明至少通过如下技术方案之一实现。
一种基于互补模型评分融合的语音关键词检测方法,利用音频特征空间和i-vector对关键词分别进行建模,对两种差异性建模方法的评分结果进行融合,包括以下步骤:
1)在音频特征空间进行关键词建模的基础上,引入基于身份矢量(i-vector)的关键词建模,获得两种建模方法;
2)自适应分段窗移:对于待检测的语音样本,从起始信号截取窗长为w的语音段,获取当前段在语音特征空间Ω的分布表达p,将其与关键词类属性M计算相似度得到当前段的类评分序列根据当前段的得分获得下一段的窗移,逐段处理直至信号结束,待检测的语音样本被分成K段。
3)利用关键词候选点的位置进行评分融合:对于待检测的语音样本,通过音频特征空间评分序列和利用i-vector所得评分序列/>两条评分曲线极大值点得到关键词候选点的位置,对关键词候选点所在位置的评分进行加权融合,作为关键词检测的判决依据。
进一步地,步骤1)包括以下步骤:
a)利用无标注语音样本训练GMM模型(高斯混合模型),将其高斯分布函数gj(mj,Uj)张成一个语音特征空间Ω={gj,j=1,2,…,J},其中,gj表示特征分布空间中的标识子,J为特征空间标识子的数量,mj表示高斯分布函数的均值,Uj表示高斯分布函数的方差。预设的关键词有N个,计算每个关键词的语音样本特征在语音特征空间中的分布信息作为其类属性Mn;
b)利用关键词语音样本的梅尔频谱特征,提取每个关键词的i-vector。
其中,N为预设的关键词的数量,i表示关键词的样本数。
进一步地,关键词候选点的定义为两条曲线在同一位置出现的极大值点且在该位置两种建模方法法识别结果一致。
进一步地,步骤3)中,对关键词候选点所在位置的评分进行加权融合,包括以下步骤:
(1)若不存在关键词候选点,则认为待检测语音样本中不含关键词;
(2)若只有一个关键词候选点,检测结果为该候选点所在位置的识别结果;
(3)若有若干个关键词候选点集合L,不同候选点的识别结果不同,则对两种建模方法的评分结果进行融合,两种建模方法采用不同的权重进行线性加权,取融合后的评分最高值作为最终得分S;
当最终得分S大于预设的阈值σ2时,将最终得分所在位置识别的关键词结果作为该文件的检测结果,否则认为待检测语音样本中不含关键词。
进一步地,最终得分S的计算步骤如下:
3)取加权后最高值作为最终得分S:
上述系数α取0.6≤α≤0.7,β取0.3≤β≤0.4。
进一步地,阈值σ2定义为验证集中语音样本通过步骤3)的判决获得等错误率FAR=FRR时的判决门限。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明提供的一种基于互补模型评分融合的语音关键词检测方法,在利用音频特征空间进行关键词建模的基础上,引入基于i-vector的关键词建模方法,对关键词检测的评分结果进行融合。本发明中所使用的两种模型的互补性主要体现在:1)利用音频特征空间对关键词建模在本质上是语音特征在空间中的定位,对于不同的关键词的语音特征,使用关联度来表示不同关键词的语音特征定位信息,从而表达不同关键词之间的区分性;而基于i-vector的关键词建模方法在计算PLDA评分时,更加关注不同关键词的类间特征而忽略同一个关键词的类内特征来衡量两段语音的相似程度,可以对语音特征定位信息提供有益的补充;2)利用音频特征空间得到的评分序列曲线中有多个极大值点,对最终的判决容易造成混淆,引入基于i-vector的关键词建模所得PLDA评分曲线可以减少一些极大值点的混淆,通过两条曲线得到关键词候选点集合作为关键词检测的判决依据,能提高关键词检出准确度。
2、本发明提供的一种基于互补模型评分融合的语音关键词检测方法,在对语音样本进行检测时,从起始信号截取固定窗长的语音段,根据当前段的相似度得分获取下一段的窗移,若当前段是关键词段,则按固定窗移移动;若当前段是非关键词段,相似度越小,窗移越大,能加快搜索速度。
3、本发明提供的一种基于互补模型评分融合的语音关键词检测方法,对两种模型的评分结果进行融合,能解决在训练样本量少的情况下单一模型信息表达不充分从而导致判决不可靠的问题,提升关键词检出准确度。
附图说明
图1为本发明实施例中基于互补模型评分融合的语音关键词检测方法的概略流程图;
图2为本发明实施例中利用音频特征空间对关键词进行建模的步骤流程图;
图3为本发明实施例中对待检测语音样本进行检测的步骤流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例的一种基于互补模型评分融合的语音关键词检测方法,包括以下步骤:
1)在音频特征空间进行关键词建模的基础上,引入基于i-vector(身份矢量)的关键词建模,获得两种建模方法;利用每个关键词的语音样本特征在语音特征空间中的分布信息作为其类属性;
如图2所示,利用语音特征空间对关键词进行建模,基于i-vector对关键词进行建模。
利用语音特征空间对关键词进行建模具体是使用aishell中文语料库中的语音数据作为无标注的语音样本集来训练语音特征空间,提取无标注语音样本集语音的12维MFCC(梅尔频率倒谱系数)特征,训练一个混合度为J的GMM模型,保留每个高斯分量作为语音特征空间的标识子集合Ω={gj.j=1,2,…,J},其中,gj表示特征分布空间中的标识子,J为特征空间标识子的数量,标识子数量J选择4096;
采集aishell中含有关键词的语音样本,每个关键词500个语音样本,从这些样本中截取关键词段来构成关键词样本集,时长在300ms-400ms,根据6:2:2的比例划分训练集、验证集和测试集。提取关键词段的12维MFCC特征F1={f1,f2,…,ft},计算特征ft与空间标识子gj(mj,Uj)的位置关联度:
计算关键词样本集与空间标识子gj(mj,Uj)的位置关联度的期望值:
计算关键词类属性为:
基于i-vector对关键词进行建模具体是利用训练集中关键词样本集的梅尔频谱特征训练一个GMM-UBM模型,将每个GMM成分的均值组合成一个均值超矢量,从均值超矢量提取每个关键词的i-vector。
2)自适应分段窗移:对于待检测的语音样本,从起始信号截取窗长为w的语音段,获取当前段在语音特征空间Ω的分布表达p,将其与关键词类属性M计算相似度得到当前段的类评分序列根据当前段的得分获得下一段的窗移,逐段处理直至信号结束,待检测的语音样本被分成K段。
图3所示,检测过程包括以下步骤:
(1)从起始信号截取窗长为50帧的语音段,提取该段MFCC特征f={f1,f2,…,ft},其中,ft表示第t帧特征;
(2)计算该段MFCC特征f={f1,f2,…,ft}在特征空间Ω的分布p;
(3)计算样本分布p与关键词类属性Mn的相似度,取相似度最高的作为该段的评分:
逐段分析直至信号结束,待检测的语音样本被分成K段。
其中,N为预设的关键词的数量,i表示关键词的样本数。
3)利用关键词候选点的位置进行评分融合:对于待检测的语音样本,通过音频特征空间评分序列和利用i-vector所得评分序列/>两条评分曲线极大值点得到关键词候选点的位置,对关键词候选点所在位置的评分进行加权融合,作为关键词检测的判决依据。
两条评分序列曲线存在多个极大值点,但两条曲线在关键词出现位置一定都存在极大值点,因此关键词候选点的定义为:两条曲线在同一位置出现的极大值点且在该位置两种建模方法识别结果一致。
对关键词候选点进行判决,判决如下:
a)若不存在关键词候选点,则认为待检测语音样本中不含关键词;
b)若只有一个关键词候选点,检测结果为该候选点所在位置的识别结果;
c)若有多个关键词候选点集合L,不同候选点的识别结果不同,则对两种建模方法的评分结果进行融合,两种建模方法采用不同的权重进行线性加权,取融合后的评分最高值作为最终得分S:
当最终得分S大于预设的阈值σ2时,将最终得分所在位置识别的关健词结果作为该文件的检测结果,否则认为待检测语音样本中不含关键词。
阈值σ2定义为验证集中语音样本通过上述判决方法获得等错误率FAR=FRR时的判决门限,取σ2=0.4。
以上所述,仅为本发明较佳的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都属于本发明的保护范围。
Claims (7)
1.一种基于互补模型评分融合的语音关键词检测方法,利用音频特征空间和i-vector对关键词分别进行建模,对两种差异性建模方法的评分结果进行融合,其特征在于,包括以下步骤:
1)在音频特征空间进行关键词建模的基础上,引入基于身份矢量的关键词建模,获得两种建模方法;
2)自适应分段窗移:对于待检测的语音样本,从起始信号截取窗长为w的语音段,获取当前段在语音特征空间Ω的分布表达p,将其与关键词类属性M计算相似度得到当前段的类评分序列根据当前段的得分获得下一段的窗移,逐段处理直至信号结束,待检测的语音样本被分成K段;
3)利用关键词候选点的位置进行评分融合:对于待检测的语音样本,通过音频特征空间评分序列和利用i-vector所得评分序列/>这两条评分曲线极大值点得到关键词候选点的位置,对关键词候选点所在位置的评分进行加权融合,作为关键词检测的判决依据;对关键词候选点所在位置的评分进行加权融合,包括以下步骤:
(1)若不存在关键词候选点,则认为待检测语音样本中不含关键词;
(2)若只有一个关键词候选点,检测结果为该候选点所在位置的识别结果;
(3)若有若干个关键词候选点集合L,不同候选点的识别结果不同,则对两种建模方法的评分结果进行融合,两种建模方法采用不同的权重进行线性加权,取融合后的评分最高值作为最终得分S;
当最终得分S大于预设的阈值σ2时,将最终得分所在位置识别的关键词结果作为该文件的检测结果,否则认为待检测语音样本中不含关键词;
最终得分S的计算步骤如下:
3)取加权后最高值作为最终得分S:
上述系数α取0.6≤α≤0.7,β取0.3≤β≤0.4。
2.根据权利要求1所述的一种基于互补模型评分融合的语音关键词检测方法,其特征在于,步骤1)包括以下步骤:
a)利用无标注语音样本训练GMM模型,将其高斯分布函数gj(mj,Uj)张成一个语音特征空间Ω={gj,j=1,2,···,J},其中,gj表示特征分布空间中的标识子,J为特征空间标识子的数量,mj表示高斯分布函数的均值,Uj表示高斯分布函数的方差;预设的关键词有N个,计算每个关键词的语音样本特征在语音特征空间中的分布信息作为其类属性Mn;
b)利用关键词语音样本的梅尔频谱特征,提取每个关键词的i-vector。
6.根据权利要求1所述的一种基于互补模型评分融合的语音关键词检测方法,其特征在于,关键词候选点的定义为两条曲线在同一位置出现的极大值点且在该位置两种建模方法识别结果一致。
7.根据权利要求1所述的一种基于互补模型评分融合的语音关键词检测方法,其特征在于,阈值σ2定义为验证集中语音样本通过步骤3)的判决获得等错误率FAR=FRR时的判决门限。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911366488.9A CN111128128B (zh) | 2019-12-26 | 2019-12-26 | 一种基于互补模型评分融合的语音关键词检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911366488.9A CN111128128B (zh) | 2019-12-26 | 2019-12-26 | 一种基于互补模型评分融合的语音关键词检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111128128A CN111128128A (zh) | 2020-05-08 |
CN111128128B true CN111128128B (zh) | 2023-05-23 |
Family
ID=70503112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911366488.9A Active CN111128128B (zh) | 2019-12-26 | 2019-12-26 | 一种基于互补模型评分融合的语音关键词检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111128128B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112259101B (zh) * | 2020-10-19 | 2022-09-23 | 腾讯科技(深圳)有限公司 | 语音关键词识别方法、装置、计算机设备和存储介质 |
CN113823326B (zh) * | 2021-08-16 | 2023-09-19 | 华南理工大学 | 一种高效语音关键词检测器训练样本使用方法 |
CN113823274B (zh) * | 2021-08-16 | 2023-10-27 | 华南理工大学 | 基于检测错误加权编辑距离的语音关键词样本筛选方法 |
CN113903358B (zh) * | 2021-10-15 | 2022-11-04 | 贝壳找房(北京)科技有限公司 | 语音质检方法、可读存储介质及计算机程序产品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559881A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 语种无关的关键词识别方法及系统 |
CN103943107A (zh) * | 2014-04-03 | 2014-07-23 | 北京大学深圳研究生院 | 一种基于决策层融合的音视频关键词识别方法 |
CN103971678A (zh) * | 2013-01-29 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 关键词检测方法和装置 |
CN104281835A (zh) * | 2014-09-04 | 2015-01-14 | 台州学院 | 基于局部敏感的核稀疏表示的人脸识别方法 |
CN109545229A (zh) * | 2019-01-11 | 2019-03-29 | 华南理工大学 | 一种基于语音样本特征空间轨迹的说话人识别方法 |
CN110289003A (zh) * | 2018-10-10 | 2019-09-27 | 腾讯科技(深圳)有限公司 | 一种声纹识别的方法、模型训练的方法以及服务器 |
-
2019
- 2019-12-26 CN CN201911366488.9A patent/CN111128128B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971678A (zh) * | 2013-01-29 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 关键词检测方法和装置 |
CN103559881A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 语种无关的关键词识别方法及系统 |
CN103943107A (zh) * | 2014-04-03 | 2014-07-23 | 北京大学深圳研究生院 | 一种基于决策层融合的音视频关键词识别方法 |
CN104281835A (zh) * | 2014-09-04 | 2015-01-14 | 台州学院 | 基于局部敏感的核稀疏表示的人脸识别方法 |
CN110289003A (zh) * | 2018-10-10 | 2019-09-27 | 腾讯科技(深圳)有限公司 | 一种声纹识别的方法、模型训练的方法以及服务器 |
CN109545229A (zh) * | 2019-01-11 | 2019-03-29 | 华南理工大学 | 一种基于语音样本特征空间轨迹的说话人识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111128128A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111128128B (zh) | 一种基于互补模型评分融合的语音关键词检测方法 | |
CN109410914B (zh) | 一种赣方言语音和方言点识别方法 | |
CN106297776B (zh) | 一种基于音频模板的语音关键词检索方法 | |
Wshah et al. | Script independent word spotting in offline handwritten documents based on hidden markov models | |
CN109545229B (zh) | 一种基于语音样本特征空间轨迹的说话人识别方法 | |
CN111640418B (zh) | 一种韵律短语识别方法、装置及电子设备 | |
CN106847259B (zh) | 一种音频关键词模板的筛选和优化方法 | |
CN101136199A (zh) | 语音数据处理方法和设备 | |
CN107886968B (zh) | 语音评测方法及系统 | |
CN101887722A (zh) | 快速声纹认证方法 | |
Hazen et al. | Topic modeling for spoken documents using only phonetic information | |
CN104575495A (zh) | 一种采用总变化量因子的语种识别方法及系统 | |
Birla | A robust unsupervised pattern discovery and clustering of speech signals | |
CN114373453A (zh) | 一种基于运动轨迹和区分性信息的语音关键词检测方法 | |
Widyowaty et al. | Accent recognition by native language using mel-frequency cepstral coefficient and K-Nearest neighbor | |
CN104240699A (zh) | 一种简单有效的短语语音识别方法 | |
Chandrakala et al. | Combination of generative models and SVM based classifier for speech emotion recognition | |
Mathur et al. | A study of machine learning algorithms in speech recognition and language identification system | |
CN110875044B (zh) | 一种基于字相关得分计算的说话人识别方法 | |
Gupta et al. | Deep learning and sociophonetics: Automatic coding of rhoticity using neural networks | |
Shen et al. | Speaker clustering using decision tree-based phone cluster models with multi-space probability distributions | |
Lin et al. | Self-Supervised Acoustic Word Embedding Learning via Correspondence Transformer Encoder | |
Vasudev et al. | Query-by-example spoken term detection using bessel features | |
CN110807370A (zh) | 一种基于多模态的会议发言人身份无感确认方法 | |
CN112951212B (zh) | 一种多个说话人的语音转折点检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |