CN107248410A - 声纹识别垃圾箱开门的方法 - Google Patents
声纹识别垃圾箱开门的方法 Download PDFInfo
- Publication number
- CN107248410A CN107248410A CN201710589339.3A CN201710589339A CN107248410A CN 107248410 A CN107248410 A CN 107248410A CN 201710589339 A CN201710589339 A CN 201710589339A CN 107248410 A CN107248410 A CN 107248410A
- Authority
- CN
- China
- Prior art keywords
- voice
- door
- model
- registration
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000005516 engineering process Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 230000015572 biosynthetic process Effects 0.000 claims description 8
- 238000013139 quantization Methods 0.000 claims description 8
- 230000001934 delay Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 2
- 241000209140 Triticum Species 0.000 description 11
- 235000021307 Triticum Nutrition 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 239000004568 cement Substances 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及一种垃圾箱箱门的开启方法。声纹识别垃圾箱开门的方法,依次包括语音注册、语音开门和逻辑决策,语音注册依次包括如下步骤:采集注册语音、特征提取和模型训练;所述语音开门依次包括如下步骤:采集开门语音、特征提取和模型训练;所述逻辑决策依次包括模式匹配和进行决策步骤。该声纹识别垃圾箱开门的方法的优点是用户不用近距离对着声音采集设备发声仍然可以准确采集声音信号,在声音嘈杂的环境下仍然可以准确识别用户,打开垃圾箱门。
Description
技术领域
本发明涉及一种垃圾箱箱门的开启方法,尤其涉及一种用声纹识别用户身份开启垃圾箱门的方法。
背景技术
城市中无序丢弃垃圾严重影响市容市貌、污染生活环境,给垃圾回收的工作人员增加负担,给城市和居民带来极大的不便。目前,智能垃圾分类回收箱已经在很多小区广泛的使用,智能垃圾分类回收箱使用时先给用户进行身份登记,对用户投放后的垃圾重量进行称重并积分,当积分累积打一定值,用户可以用积分进行兑换商品。通过对用户进行身份认证的方法开启垃圾箱箱门,目前常规是通过扫二维码的方式,需要用户带着印有二维码的卡片或者有包含用户信息的二维码的手机进行扫码,这就需要用户随身携带着卡片和手机,尤其是当手持垃圾时再扫码使用不方便,给用户带来不便的交互体验。
发明内容
本发明的目的是公开一种使用方便,识别准确率高的声纹识别垃圾箱开门的方法。
本发明通过以下技术方案来实现上述目的:声纹识别垃圾箱开门的方法,依次包括语音注册、语音开门和逻辑决策,语音注册依次包括如下步骤:(1)采集注册语音,通过麦克风阵列技术对注册语音进行采集,并且采用固定波束形成算法通过延时控制来补偿声源延时;(2)特征提取,通过模拟和数字处理,采用MFCC特征提取方式从注册语音中提取表征注册用户特征的语音信息;(3)模型训练,建立注册用户语音模型,模型训练方法选择最小分类错误准则即MCE准则进行区分训练;所述语音开门依次包括如下步骤:(1)采集开门语音,通过麦克风阵列技术对开门语音进行采集,并且采用固定波束形成算法通过延时控制来补偿声源延时;(2)特征提取,通过模拟和数字处理技术,采用MFCC特征提取方式从开门语音中选择和提取表征开门用户特征的语音信息;(3)模型训练,建立开门用户语音模型,模型训练方法选择最小分类错误准则即MCE准则进行区分训练;所述逻辑决策依次包括模式匹配和进行决策步骤。
作为优选,通过多个麦克风阵列技术对注册语音和开门语音信息进行采集,麦克风阵列有2麦、4麦、6麦,对应麦数越多,降噪和语音增强的效果越好。
作为优选,语音注册中的MFCC特征提取方式是指将采集的注册语音转换为模拟语音信号,对语音信号进行采样量化,量化后进行预加重处理、汉明窗处理,最后输出语音帧序列。
作为优选,语音开门中的MFCC特征提取方式是指将采集的开门语音转换为模拟语音信号,对语音信号进行采样量化,量化后进行预加重处理、加汉明窗处理,最后输出语音帧序列。
作为优选,模式匹配是将注册用户语音模型与开门用户语音模型进行匹配,计算二者的对数似然比,得出对数似然比得分;进行决策是计算匹配得分,达到设定阈值垃圾箱门开启,达不到设定阈值垃圾箱门不打开。
作为优选,固定波束形成算法其中,xi(t)为麦克风接收到的信号,权系数为wi(k),k为麦克风的数目,τi为时延估计得到的时延。
作为优选,语音注册中的模型训练是先将注册用户模型分成非重叠和共性重叠部分,利用注册用户语音数据集建立注册用户语音GMM模型;语音开门中的模型训练是先将开门用户模型分成非重叠和共性重叠部分,利用开门语音数据集建立开门用户语音GMM模型。进一步的,对于所有的模型进行SVM支持向量机训练,通过计算其在所有说话人模型上的相似度,即对应最大相似度和最小相似度之比小于一个阈值,则归为共性重叠部分,否则归为非重叠部分;注册用户语音GMM模型和开门用户语音GMM模型的训练过程算法是:
p=(maxPr(xj|Mi)/minPr(xj|Mk)),i=1,...,S,K=1,...,S,,p为向量在说话人模型上的最大相似度与最小相似度之比,S为说话人个数,xj第j个训练输入向量,j=1,...,N,N为训练特征向量个数,p小于阈值T,则该向量Xj→Q,属于共性重叠部分向量;p大于阈值T,则该向量Xj→P,属于说话人非重叠部分向量集。
采用了上述技术方案的声纹识别垃圾箱开门的方法,采集注册语音和采集开门语音时,通过麦克风阵列技术对注册语音进行采集,并且采用固定波束形成算法通过延时控制来补偿声源延时,特征提取时采用MFCC特征提取方式,模型训练方法选择最小分类错误准则即MCE准则进行区分训练,该声纹识别垃圾箱开门的方法的优点是用户不用近距离对着声音采集设备发声仍然可以准确采集声音信号,在声音嘈杂的环境下仍然可以准确识别用户,打开垃圾箱门。
附图说明
图1是本发明实施例中麦克风阵列示意图。
图2是本发明实施例中固定波束形成示意图。
图3是本发明实施例中MFCC特征提取流程示意图。
具体实施方式
下面结合图1、图2和图3对本发明作进一步说明。
如图1、图2和图3所示的声纹识别垃圾箱开门的方法,依次包括语音注册、语音开门和逻辑决策步骤。
语音注册依次包括如下步骤:
(1)采集语音注册,语音注册时,录入一段一定时长的用户的声音,重复多遍;通过多个麦克风阵列技术对注册用户语音进行采集,并且采用固定波束形成算法通过延时控制来补偿声源延时;用户在一定距离范围内朝双麦阵列录入音,通过声波抵达阵列中每个麦克风之间的微小时差的相互作用,得到更好的指向性,可以有效降低周边的环境噪音的影响。双麦阵列通过时延估计、时延补偿、加权求和。麦克风阵列有2麦、4麦、6麦,对应麦数越多,降噪和语音增强的效果越好,麦克风1接收到的信号为X1(t)、麦克风2接收到的信号为X2(t),由于麦克风阵元空间位置的差异,各阵元接收到的信号存在时延,Xi(k)经延时估计得到的麦克风时延为τi,在对信号进行处理之前进行时延补偿,保证各阵元待处理数据的一致性。使阵列指向期望的方向。再乘以加权系数Wi(k),进行加权同相相加,使得波束形成器的输出得到最大输出。
(2)特征提取,通过模拟和数字处理,采用MFCC特征提取方式从注册用户语音中提取表征注册用户特征的语音信息;
(3)模型训练,估计特征参数分布,建立注册用户语音模型。模型训练方法选择最小分类错误准则即MCE准则进行区分训练。
语音开门依次包括如下步骤:
(1)采集开门语音信息,通过麦克风阵列技术对开门语音进行采集,并且采用固定波束形成算法通过延时控制来补偿声源延时;
(2)特征提取,通过模拟和数字处理技术,采用MFCC特征提取方式从开门语音中选择和提取表征开门用户特征的语音信息;
(3)模型训练,估计特征参数分布,建立开门用户语音模型,模型训练方法选择最小分类错误准则即MCE准则进行区分训练;
逻辑决策是比对语音注册和语音开门,判断是否开门,依次包括如下步骤:
(1)模式匹配,将注册用户语音模型与开门用户语音模型进行匹配,计算二者的对数似然比,得出对数似然比得分;
(2)进行决策,对匹配的得分进行判决,确定发出开门语音的人是否为语音注册用户,与语音注册匹配达到设定阈值得分,垃圾箱门开启,否则垃圾箱门不会打开。
给逻辑决策判决设定一个阈值分数,通过得出的对数似然比得分与设定的阈值分数进行比较,达到预设获高于预设分数,则逻辑决策判决开门语音属于注册人,启动电机,开启箱门;否则箱门电机不动作。
上述采集语音注册和语音开门信息,必须有采集语音的硬件设备,因为垃圾箱会有异味,用户不会近距离靠近麦克风进行语音注册和语音开门,所以需要有远距离采集注册语音的硬件设备,因此采用麦克风阵列技术采集语音信息。采样距离变远了,在目标语音的实际拾取过程中,不可避免受到外界环境噪声和其他说话人的干扰,这些干扰共同作用,严重影响了声纹语音的采集,利用麦克风阵列技术尤其是多麦阵列能够充分利用语音信号的空时信息,具有灵活的波束控制,较高的空间分辨率、高的信号增益和较强的抗干扰能力等特点。麦克风阵列如图1所示。用户语音注册和语音开门发声后,固定波束形成算法通过延时控制来补偿从声源到每个麦克风的延时,对每个麦克风接收到的信号进行延时补偿,然后使麦克风阵列波束指向有最大输出功率的方向,以此解决不用靠近麦克风,又能良好采样声音的特定的垃圾箱声纹识别场景需求。延迟求和-波束形成输出,其中,xi(t)为麦克风接收到的信号,权系数为wi(k),k为麦克风的数目,τi为时延估计得到的时延,波束形成如图2所示。
上述MFCC特征提取流程如图3所示。首先将注册语音和语音开门的语音进行前端处理,将声音转换为模拟语音信号进行采样,并对其振幅值进行量化编码,从而转化为数字信号,模拟语音信号经采样量化获得语音信号的波形。其次,由于唇端辐射导致语音信号的高频能量损耗,为了去除口唇辐射的影响,将经采样量化后得到的语音信号波形进行预加重处理,增加语音信号的高频分辨率,加强语音高频信号能量,使其适用于统一的分析处理。基于语音的短时平稳特性,即短时段的语音信号对应的声道形状、激励性质基本不会发生改变,将经预加重处理的波形再进行加汉明窗处理,即采用汉明窗对语音进行重叠分帧处理,使语音特征更加明显、清晰,易于观察,最终输出语音帧序列。对加汉明窗分帧后获得的语音帧序列进行时域和频域分析,并采用相应的特征参数描述。MFCC特征参数是一种听觉感知频域倒普参数,该参数依据人耳对声音频率高低的非线性心里感觉构造语音短时幅度谱特征。对输入的语音帧信号作离散傅里叶变换。计算频谱幅度的平方,得到能量谱。将能量谱通过Mel三角滤波器组。计算每个滤波器组输出的对数能量。经离散余弦变换得到MFCC参数和特征向量序列。
上述模型训练是区分“目标”和“冒认者”的训练,由于声纹密码的任务是对两类最小错误进行分类,实现短句上说话人确认错误的最小化。因此选择最小分类错误准则即MCE准则进行区分训练。通过对训练集合总体平均错误率的平滑近似策略,实现最小化识别(分类)错误率的目的。在描述相同密码文本说话人语音特征分布空间中,相同说话人对应的特征向量分布集中,不同说话人对应的特征向量分布相对分散,距离具有区分“目标”和“冒认”的能力。因此设计一种表征距离度量的新特征用以表示区分性训练中正反例样本。如果直接将测试语音Y相对注册语音X的距离D(X,Y)设定为Y的新特征,则将分别产生目标语音新特征和冒认语音新特征,记作Ztar和Zim,此时与原始声学特征不同,所有注册者对应的Ztar和Zim可以被组合成统一的正例集合P和反例集合N。
训练过程首先将用户模型分成非重叠和共性重叠部分,利用用户语音数据集建立GMM模型(高斯混合模型);根据相似度计算和GMM模型确定特征向量的类别,如果两个竞争的说话人模型有公共重叠部分,则其相应特征向量就被归于此部分;对于所有的模型进行SVM支持向量机训练,通过计算其在所有说话人模型上的相似度,若对应最大相似度和最小相似度之比小于一个阈值,则归为共性重叠部分,否则归为非重叠部分。基于重新分类过的特征向量,对每个说话人重新建立模型,即产生了一个共性重叠模型和各自说话人的非重叠模型。假设有S个说话人,则训练过程算法实现过程如下:(1)xj第j个训练输入向量,j=1,...,N,N为训练特征向量个数。p=(maxPr(xj|Mi)/min Pr(xj|Mk)),i=1,...,S,K=1,...,S,p为向量在说话人模型上的最大相似度与最小相似度之比。如果p小于一定的阈值T,则该向量Xj→Q,属于共性重叠部分向量。否则Xj→P,属于说话人非重叠部分向量集。
Claims (8)
1.声纹识别垃圾箱开门的方法,依次包括语音注册、语音开门和逻辑决策,其特征在于语音注册依次包括如下步骤:
(1)采集注册语音,通过麦克风阵列技术对注册语音进行采集,并且采用固定波束形成算法通过延时控制来补偿声源延时;
(2)特征提取,通过模拟和数字处理,采用MFCC特征提取方式从注册语音中提取表征注册用户特征的语音信息;
(3)模型训练,建立注册用户语音模型,模型训练方法选择最小分类错误准则即MCE准则进行区分训练;
所述语音开门依次包括如下步骤:
(1)采集开门语音,通过麦克风阵列技术对开门语音进行采集,并且采用固定波束形成算法通过延时控制来补偿声源延时;
(2)特征提取,通过模拟和数字处理技术,采用MFCC特征提取方式从开门语音中选择和提取表征开门用户特征的语音信息;
(3)模型训练,建立开门用户语音模型,模型训练方法选择最小分类错误准则即MCE准则进行区分训练;
所述逻辑决策依次包括模式匹配和进行决策步骤。
2.根据权利要求1所述的声纹识别垃圾箱开门的方法,其特征在于通过多个麦克风阵列技术对注册语音和开门语音信息进行采集。
3.根据权利要求1所述的声纹识别垃圾箱开门的方法,其特征在于语音注册中的MFCC特征提取方式是指将采集的注册语音转换为模拟语音信号,对语音信号进行采样量化,量化后进行预加重处理、加汉明窗处理,最后输出语音帧序列。
4.根据权利要求1所述的声纹识别垃圾箱开门的方法,其特征在于语音开门中的MFCC特征提取方式是指将采集的开门语音转换为模拟语音信号,对语音信号进行采样量化,量化后进行预加重处理、加汉明窗处理,最后输出语音帧序列。
5.根据权利要求1所述的声纹识别垃圾箱开门的方法,其特征在于模式匹配是将注册用户语音模型与开门用户语音模型进行匹配,计算二者的对数似然比,得出对数似然比得分;进行决策是计算匹配得分,达到设定阈值垃圾箱门开启,达不到设定阈值垃圾箱门不打开。
6.根据权利要求1所述的声纹识别垃圾箱开门的方法,其特征在于固定波束形成算法其中,xi(t)为麦克风接收到的信号,权系数为wi(k),k为麦克风的数目,τi为时延估计得到的时延。
7.根据权利要求1所述的声纹识别垃圾箱开门的方法,其特征在于语音注册中的模型训练是先将注册用户模型分成非重叠和共性重叠部分,利用注册用户语音数据集建立注册用户语音GMM模型;语音开门中的模型训练是先将开门用户模型分成非重叠和共性重叠部分,利用开门语音数据集建立开门用户语音GMM模型。
8.根据权利要求7所述的声纹识别垃圾箱开门的方法,其特征在于对于所有的模型进行SVM支持向量机训练,通过计算其在所有说话人模型上的相似度,即对应最大相似度和最小相似度之比小于一个阈值,则归为共性重叠部分,否则归为非重叠部分;注册用户语音GMM模型和开门用户语音GMM模型的训练过程算法是:p=(maxPr(xj|Mi)/minPr(xj|Mk)),i=1,...,S,K=1,...,S,,p为向量在说话人模型上的最大相似度与最小相似度之比,S为说话人个数,xj第j个训练输入向量,j=1,...,N,N为训练特征向量个数,p小于阈值T,则该向量Xj→Q,属于共性重叠部分向量;p大于阈值T,则该向量Xj→P,属于说话人非重叠部分向量集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710589339.3A CN107248410A (zh) | 2017-07-19 | 2017-07-19 | 声纹识别垃圾箱开门的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710589339.3A CN107248410A (zh) | 2017-07-19 | 2017-07-19 | 声纹识别垃圾箱开门的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107248410A true CN107248410A (zh) | 2017-10-13 |
Family
ID=60014529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710589339.3A Pending CN107248410A (zh) | 2017-07-19 | 2017-07-19 | 声纹识别垃圾箱开门的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107248410A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517695A (zh) * | 2019-09-11 | 2019-11-29 | 国微集团(深圳)有限公司 | 基于声纹的验证方法及装置 |
CN111179938A (zh) * | 2019-12-26 | 2020-05-19 | 安徽仁昊智能科技有限公司 | 一种基于人工智能的语音识别垃圾分类系统 |
CN111583938A (zh) * | 2020-05-19 | 2020-08-25 | 威盛电子股份有限公司 | 电子装置与语音识别方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308653A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种应用于语音识别系统的端点检测方法 |
CN101409819A (zh) * | 2008-11-27 | 2009-04-15 | 杭州电子科技大学 | 一种基于声纹的数码相机图片加密解密方法 |
CN102402984A (zh) * | 2011-09-21 | 2012-04-04 | 哈尔滨工业大学 | 基于置信度的关键词检出系统裁剪方法 |
CN102479511A (zh) * | 2010-11-23 | 2012-05-30 | 盛乐信息技术(上海)有限公司 | 一种大规模声纹认证方法及其系统 |
CN102508204A (zh) * | 2011-11-24 | 2012-06-20 | 上海交通大学 | 基于波束形成和传递路径分析的室内噪声源定位方法 |
CN103984315A (zh) * | 2014-05-15 | 2014-08-13 | 成都百威讯科技有限责任公司 | 一种家用多功能智能机器人 |
CN106098068A (zh) * | 2016-06-12 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
CN106251874A (zh) * | 2016-07-27 | 2016-12-21 | 深圳市鹰硕音频科技有限公司 | 一种语音门禁和安静环境监控方法及系统 |
-
2017
- 2017-07-19 CN CN201710589339.3A patent/CN107248410A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308653A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种应用于语音识别系统的端点检测方法 |
CN101409819A (zh) * | 2008-11-27 | 2009-04-15 | 杭州电子科技大学 | 一种基于声纹的数码相机图片加密解密方法 |
CN102479511A (zh) * | 2010-11-23 | 2012-05-30 | 盛乐信息技术(上海)有限公司 | 一种大规模声纹认证方法及其系统 |
CN102402984A (zh) * | 2011-09-21 | 2012-04-04 | 哈尔滨工业大学 | 基于置信度的关键词检出系统裁剪方法 |
CN102508204A (zh) * | 2011-11-24 | 2012-06-20 | 上海交通大学 | 基于波束形成和传递路径分析的室内噪声源定位方法 |
CN103984315A (zh) * | 2014-05-15 | 2014-08-13 | 成都百威讯科技有限责任公司 | 一种家用多功能智能机器人 |
CN106098068A (zh) * | 2016-06-12 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
CN106251874A (zh) * | 2016-07-27 | 2016-12-21 | 深圳市鹰硕音频科技有限公司 | 一种语音门禁和安静环境监控方法及系统 |
Non-Patent Citations (2)
Title |
---|
张毅 等: "《移动机器人技术基础与制作》", 31 January 2013, 哈尔滨工业大学出版社 * |
肖星星: "短时语音说话人识别方法及应用", 《中国优秀硕士学位论文全文数据库,信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517695A (zh) * | 2019-09-11 | 2019-11-29 | 国微集团(深圳)有限公司 | 基于声纹的验证方法及装置 |
CN111179938A (zh) * | 2019-12-26 | 2020-05-19 | 安徽仁昊智能科技有限公司 | 一种基于人工智能的语音识别垃圾分类系统 |
CN111583938A (zh) * | 2020-05-19 | 2020-08-25 | 威盛电子股份有限公司 | 电子装置与语音识别方法 |
CN111583938B (zh) * | 2020-05-19 | 2023-02-03 | 威盛电子股份有限公司 | 电子装置与语音识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107416387A (zh) | 智能分类垃圾箱 | |
CN106251874B (zh) | 一种语音门禁和安静环境监控方法及系统 | |
US20190324719A1 (en) | Combining results from first and second speaker recognition processes | |
CN107195077A (zh) | 瓶子智能回收机 | |
CN102324232A (zh) | 基于高斯混合模型的声纹识别方法及系统 | |
CN108305615A (zh) | 一种对象识别方法及其设备、存储介质、终端 | |
CN106920303A (zh) | 一种基于语音识别的开锁方法及其智能门锁系统 | |
Saquib et al. | A survey on automatic speaker recognition systems | |
CN102509547A (zh) | 基于矢量量化的声纹识别方法及系统 | |
CN107248410A (zh) | 声纹识别垃圾箱开门的方法 | |
Al-Karawi et al. | Early reflection detection using autocorrelation to improve robustness of speaker verification in reverberant conditions | |
US20220070207A1 (en) | Methods and devices for detecting a spoofing attack | |
CN109584888A (zh) | 基于机器学习的鸣笛识别方法 | |
CN115424620A (zh) | 一种基于自适应触发器的声纹识别后门样本生成方法 | |
Mahesha et al. | LP-Hillbert transform based MFCC for effective discrimination of stuttering dysfluencies | |
CN117762372A (zh) | 一种多模态人机交互系统 | |
CN110085236B (zh) | 一种基于自适应语音帧加权的说话人识别方法 | |
CN110728993A (zh) | 一种变声识别方法及电子设备 | |
Vasuhi et al. | An efficient multi-modal biometric person authentication system using fuzzy logic | |
CN112499016A (zh) | 智能垃圾箱的垃圾回收方法、装置及智能垃圾箱 | |
Sailor et al. | Unsupervised Representation Learning Using Convolutional Restricted Boltzmann Machine for Spoof Speech Detection. | |
CN108074585A (zh) | 一种基于声源特征的语音异常检测方法 | |
Pinheiro et al. | Type-2 fuzzy GMM-UBM for text-independent speaker verification | |
CN110600012B (zh) | 一种人工智能学习的模糊语音语义识别方法及系统 | |
CN112259107A (zh) | 一种会议场景小样本条件下的声纹识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171013 |
|
RJ01 | Rejection of invention patent application after publication |