CN112017658A - 一种基于智能人机交互的操作控制系统 - Google Patents
一种基于智能人机交互的操作控制系统 Download PDFInfo
- Publication number
- CN112017658A CN112017658A CN202010887099.7A CN202010887099A CN112017658A CN 112017658 A CN112017658 A CN 112017658A CN 202010887099 A CN202010887099 A CN 202010887099A CN 112017658 A CN112017658 A CN 112017658A
- Authority
- CN
- China
- Prior art keywords
- voice
- voice information
- module
- information
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 21
- 238000005516 engineering process Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 16
- 238000009432 framing Methods 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 12
- 230000037433 frameshift Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000011161 development Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及一种基于智能人机交互的操作控制系统,属于语音控制技术领域。本发明提供了一种基于智能人机交互的操作控制系统,该系统中使用智能传感模块进行显控台操作控制,智能传感模块采用麦克风阵列采集用户输入的语音信息,将特定语音短语信息转换成可以控制显控台的文本信息,根据文本信息的具体含义对显控台进行相应的控制。通过声纹识别技术进行身份认证,将声纹信息与注册语音库中的声纹信息进行比对,用以授权用户对显控台进行相应权限的控制。该系统充分利用声纹识别和语音控制,使得设备上的人机交互更加智能、便捷、准确。
Description
技术领域
本发明属于语音控制技术领域,具体涉及一种基于智能人机交互的操作控制系统。
背景技术
智能人机交互操作控制正作为一种新型的沟通平台逐渐走进军用设备研制应用中,人机交互的智能化在一定程度上决定了人机交互的多样性,同样也是关键环节之一。随着机器学习、人工智能等技术的发展,语音识别控制技术也得到了极大的发展,语音识别技术的渐渐成熟,性能及稳定性的发展,使之可以越来越广泛的应用在设备研制中。
生物识别领域中包括多种生物性特征,为了满足社会需要,研究一种迅速、有效、稳定的生物识别技术在当今网络技术普及率极高的情况下,显得尤其必要。声纹识别便在这种情况下应运而生,语言是人类所具有的自然属性之一,是人类进行相互通信和交流的最方便快捷的一种手段,每个人说话都具有各自的生物特征,同其他传统的生物识别技术相比,使用说话人语音对说话人的身份进行识别具有更加简便、准确、经济及可扩展性良好等各种优势。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何设计一种基于智能人机交互的操作控制系统,使得设备上的人机交互更加智能、便捷、准确。
(二)技术方案
为了解决上述技术问题,本发明提供了一种基于智能人机交互的操作控制系统,包括:语音信息拾取模块、语音信息预处理模块、语音信息特征提取模块、身份认证模块、语音识别控制模块;
所述语音信息拾取模块用于采用麦克风阵列采集用户的语音信号;
所述语音信息预处理模块,用于对语音信息拾取模块输出的语音信号依次进行预加重处理、分帧加窗处理;
所述语音信息特征提取模块,用于对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征;
所述身份认证模块,用于将语音信息特征提取模块提取出语音信息的特征与已建立的用户语音特征库进行比对,通过计算特征值之间的最小距离,得到用户的身份信息,判断用户是否为合法用户及拥有的权限;
所述语音识别控制模块,用于采用DTW技术计算出采集的语音与短语库中短语的最小距离,即将输入的语音转换为文本,根据文本信息进行相应的操作控制。
优选地,所述语音信息拾取模块具体用于通过声波抵达麦克风阵列中每个麦克风之间的微小时差的相互作用,使用阵列算法处理后的指向性波束形成技术来形成一个锥状窄波束,只接收说话人的声音,同时抑制环境中的噪声与干扰。
优选地,所述语音信息预处理模块在预加重处理时具体是将语音信号S(n)中高频部分的频谱进行提升处理,以抑制语音信号的低频干扰。
优选地,所述语音信息预处理模块在预加重处理的实现方式具体是利用一阶的FIR高通滤波器对语音信号进行预加重,FIR高通滤波器的传递函数为H(z)=1-αz-1,其中α表示FIR高通滤波器的预加重系数,0.9<α<1.0。
优选地,所述语音信息预处理模块在分帧加窗处理时,其中的分帧是指以20毫秒为帧,1/2的时间作为帧移位帧,其中的帧移位是指相邻两帧之间的重叠区域。
优选地,所述语音信息预处理模块在分帧加窗处理时,分帧加窗处理中的加窗是在分帧之后,通过一个有限长度的窗口在语音信号上进行滑动加权,使成帧后的信号变得连续,具体的计算方式是用窗函数Hm(k)与语音信号相乘。
优选地,所述语音信息特征提取模块具体用于按照如下方法对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征:
步骤1)设对语音信号S(n)进行语音信息预处理后,得到一系列按帧计数的短时语音帧信号x(n),对提取出的短时语音帧信号x(n)进行快速傅里叶变换FFT,从而计算出短时语音帧信号x(n)的线性频谱Xα(k):
步骤2)计算步骤1)中Xα(k)模的平方,得到信号能量谱;
步骤3)定义一个含有M个三角滤波器的滤波器组,三角滤波器的中心频率为f(m),m=1,2,…,M,M=24,各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;
步骤4)将所述信号能量谱输入所述滤波器组,得到各三角滤波器的输出:
步骤5)计算每个三角滤波器输出的对数能量,然后经过离散余弦变换DCT得MFCC参数:
其中,L表示MFCC系数的阶数,取为16,即提取16阶MFCC系数作为语音信息的特征。
本发明还提供了一种基于所述系统实现的基于智能人机交互的操作控制方法,包括以下步骤:
所述语音信息拾取模块采用麦克风阵列采集用户的语音信号;
所述语音信息预处理模块对语音信息拾取模块输出的语音信号依次进行预加重处理、分帧加窗处理;
所述语音信息特征提取模块对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征;
所述身份认证模块将语音信息特征提取模块提取出语音信息的特征与已建立的用户语音特征库进行比对,通过计算特征值之间的最小距离,得到用户的身份信息,判断用户是否为合法用户及拥有的权限;
所述语音识别控制模块采用DTW技术计算出采集的语音与短语库中短语的最小距离,即将输入的语音转换为文本,根据文本信息进行相应的操作控制。
优选地,所述文本为短语。
本发明还提供了一种所述的系统在语音控制技术领域中的应用。
(三)有益效果
本发明提供了一种基于智能人机交互的操作控制系统,该系统中使用智能传感模块进行显控台操作控制,智能传感模块采用麦克风阵列采集用户输入的语音信息,将特定语音短语信息转换成可以控制显控台的文本信息,根据文本信息的具体含义对显控台进行相应的控制。通过声纹识别技术进行身份认证,将声纹信息与注册语音库中的声纹信息进行比对,用以授权用户对显控台进行相应权限的控制。该系统充分利用声纹识别和语音控制,使得设备上的人机交互更加智能、便捷、准确。
附图说明
图1为本发明的系统实现原理图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明提供了一种基于智能人机交互的操作控制系统,所述系统包括:
语音信息拾取模块、语音信息预处理模块、语音信息特征提取模块、身份认证模块、语音识别控制模块;
所述语音信息拾取模块用于采用麦克风阵列采集用户的语音信号,通过声波抵达麦克风阵列中每个麦克风之间的微小时差的相互作用,使用阵列算法处理后的指向性波束形成技术来形成一个锥状窄波束,只接收说话人的声音,同时抑制环境中的噪声与干扰;
所述语音信息预处理模块,用于对语音信息拾取模块输出的语音信号依次进行预加重处理、分帧加窗处理。
所述预加重处理,是将语音信号S(n)中高频部分的频谱进行提升处理,以抑制语音信号的低频干扰;具体地,利用一阶的FIR高通滤波器对语音信号进行预加重,FIR高通滤波器的传递函数为H(z)=1-αz-1,其中α表示FIR高通滤波器的预加重系数,0.9<α<1.0;
在10-30ms范围内,可以认为信号是稳定的,因此,所述分帧加窗处理中的分帧是指以20毫秒为帧,1/2的时间作为帧移位帧,其中,帧移位是指相邻两帧之间的重叠区域,以避免相邻两帧的变化;所述分帧加窗处理中的加窗是在分帧之后,通过一个有限长度的窗口在语音信号上进行滑动加权,使成帧后的信号变得连续,具体的计算方式是用窗函数Hm(k)与语音信号相乘。
所述语音信息特征提取模块,用于对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征;具体提取过程如下:
步骤1)设对语音信号S(n)进行语音信息预处理后,得到一系列按帧计数的短时语音帧信号x(n),对提取出的短时语音帧信号x(n)进行快速傅里叶变换FFT,从而计算出短时语音帧信号x(n)的线性频谱Xα(k):
步骤2)计算步骤1)中Xα(k)模的平方,得到信号能量谱;
步骤3)定义一个含有M个三角滤波器的滤波器组,三角滤波器的中心频率为f(m),m=1,2,…,M,M=24,各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;
步骤4)将所述信号能量谱输入所述滤波器组,得到各三角滤波器的输出:
步骤5)计算每个三角滤波器输出的对数能量,然后经过离散余弦变换DCT得MFCC参数:
其中,L表示MFCC系数的阶数,取为16,即提取16阶MFCC系数作为语音信息的特征。
所述身份认证模块,用于将语音信息特征提取模块提取出语音信息的特征与已建立的用户语音特征库进行比对,通过计算特征值之间的最小距离,得到用户的身份信息,判断用户是否为合法用户及拥有的权限;
所述语音识别控制模块,用于采用DTW技术计算出采集的语音与短语库中短语的最小距离,即将输入的语音转换为文本(短语),根据文本信息进行相应的操作控制。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种基于智能人机交互的操作控制系统,其特征在于,包括:语音信息拾取模块、语音信息预处理模块、语音信息特征提取模块、身份认证模块、语音识别控制模块;
所述语音信息拾取模块用于采用麦克风阵列采集用户的语音信号;
所述语音信息预处理模块,用于对语音信息拾取模块输出的语音信号依次进行预加重处理、分帧加窗处理;
所述语音信息特征提取模块,用于对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征;
所述身份认证模块,用于将语音信息特征提取模块提取出语音信息的特征与已建立的用户语音特征库进行比对,通过计算特征值之间的最小距离,得到用户的身份信息,判断用户是否为合法用户及拥有的权限;
所述语音识别控制模块,用于采用DTW技术计算出采集的语音与短语库中短语的最小距离,即将输入的语音转换为文本,根据文本信息进行相应的操作控制。
2.如权利要求1所述的系统,其特征在于,所述语音信息拾取模块具体用于通过声波抵达麦克风阵列中每个麦克风之间的微小时差的相互作用,使用阵列算法处理后的指向性波束形成技术来形成一个锥状窄波束,只接收说话人的声音,同时抑制环境中的噪声与干扰。
3.如权利要求1所述的系统,其特征在于,所述语音信息预处理模块在预加重处理时具体是将语音信号S(n)中高频部分的频谱进行提升处理,以抑制语音信号的低频干扰。
4.如权利要求3所述的系统,其特征在于,所述语音信息预处理模块在预加重处理的实现方式具体是利用一阶的FIR高通滤波器对语音信号进行预加重,FIR高通滤波器的传递函数为H(z)=1-αz-1,其中α表示FIR高通滤波器的预加重系数,0.9<α<1.0。
5.如权利要求4所述的系统,其特征在于,所述语音信息预处理模块在分帧加窗处理时,其中的分帧是指以20毫秒为帧,1/2的时间作为帧移位帧,其中的帧移位是指相邻两帧之间的重叠区域。
6.如权利要求5所述的系统,其特征在于,所述语音信息预处理模块在分帧加窗处理时,分帧加窗处理中的加窗是在分帧之后,通过一个有限长度的窗口在语音信号上进行滑动加权,使成帧后的信号变得连续,具体的计算方式是用窗函数Hm(k)与语音信号相乘。
7.如权利要求6所述的系统,其特征在于,所述语音信息特征提取模块具体用于按照如下方法对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征:
步骤1)设对语音信号S(n)进行语音信息预处理后,得到一系列按帧计数的短时语音帧信号x(n),对提取出的短时语音帧信号x(n)进行快速傅里叶变换FFT,从而计算出短时语音帧信号x(n)的线性频谱Xα(k):
步骤2)计算步骤1)中Xα(k)模的平方,得到信号能量谱;
步骤3)定义一个含有M个三角滤波器的滤波器组,三角滤波器的中心频率为f(m),m=1,2,…,M,M=24,各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;
步骤4)将所述信号能量谱输入所述滤波器组,得到各三角滤波器的输出:
步骤5)计算每个三角滤波器输出的对数能量,然后经过离散余弦变换DCT得MFCC参数:
其中,L表示MFCC系数的阶数,取为16,即提取16阶MFCC系数作为语音信息的特征。
8.一种基于权利要求1至7中任一项所述系统实现的基于智能人机交互的操作控制方法,其特征在于,包括以下步骤:
所述语音信息拾取模块采用麦克风阵列采集用户的语音信号;
所述语音信息预处理模块对语音信息拾取模块输出的语音信号依次进行预加重处理、分帧加窗处理;
所述语音信息特征提取模块对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征;
所述身份认证模块将语音信息特征提取模块提取出语音信息的特征与已建立的用户语音特征库进行比对,通过计算特征值之间的最小距离,得到用户的身份信息,判断用户是否为合法用户及拥有的权限;
所述语音识别控制模块采用DTW技术计算出采集的语音与短语库中短语的最小距离,即将输入的语音转换为文本,根据文本信息进行相应的操作控制。
9.如权利要求8所述的方法,其特征在于,所述文本为短语。
10.一种如权利要求1至7中任一项所述的系统在语音控制技术领域中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010887099.7A CN112017658A (zh) | 2020-08-28 | 2020-08-28 | 一种基于智能人机交互的操作控制系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010887099.7A CN112017658A (zh) | 2020-08-28 | 2020-08-28 | 一种基于智能人机交互的操作控制系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112017658A true CN112017658A (zh) | 2020-12-01 |
Family
ID=73503731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010887099.7A Pending CN112017658A (zh) | 2020-08-28 | 2020-08-28 | 一种基于智能人机交互的操作控制系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112017658A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113093749A (zh) * | 2021-04-01 | 2021-07-09 | 上海应用技术大学 | 服务机器人的导航系统及方法 |
CN114003885A (zh) * | 2021-11-01 | 2022-02-01 | 浙江大学 | 一种智能语音认证方法、系统及可存储介质 |
CN114120980A (zh) * | 2021-10-21 | 2022-03-01 | 北京电子工程总体研究所 | 一种显控台操控系统和方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1941080A (zh) * | 2005-09-26 | 2007-04-04 | 吴田平 | 一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法 |
CN103794207A (zh) * | 2012-10-29 | 2014-05-14 | 西安远声电子科技有限公司 | 一种双模语音身份识别方法 |
CN106231047A (zh) * | 2016-08-05 | 2016-12-14 | 惠州Tcl移动通信有限公司 | 一种基于智能终端的音频采集方法、系统及智能终端 |
CN109102801A (zh) * | 2017-06-20 | 2018-12-28 | 京东方科技集团股份有限公司 | 语音识别方法和语音识别装置 |
-
2020
- 2020-08-28 CN CN202010887099.7A patent/CN112017658A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1941080A (zh) * | 2005-09-26 | 2007-04-04 | 吴田平 | 一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法 |
CN103794207A (zh) * | 2012-10-29 | 2014-05-14 | 西安远声电子科技有限公司 | 一种双模语音身份识别方法 |
CN106231047A (zh) * | 2016-08-05 | 2016-12-14 | 惠州Tcl移动通信有限公司 | 一种基于智能终端的音频采集方法、系统及智能终端 |
CN109102801A (zh) * | 2017-06-20 | 2018-12-28 | 京东方科技集团股份有限公司 | 语音识别方法和语音识别装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113093749A (zh) * | 2021-04-01 | 2021-07-09 | 上海应用技术大学 | 服务机器人的导航系统及方法 |
CN114120980A (zh) * | 2021-10-21 | 2022-03-01 | 北京电子工程总体研究所 | 一种显控台操控系统和方法 |
CN114003885A (zh) * | 2021-11-01 | 2022-02-01 | 浙江大学 | 一种智能语音认证方法、系统及可存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108597496B (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
CN108281146B (zh) | 一种短语音说话人识别方法和装置 | |
CN109215665A (zh) | 一种基于3d卷积神经网络的声纹识别方法 | |
CN112017658A (zh) | 一种基于智能人机交互的操作控制系统 | |
CN109256127B (zh) | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 | |
US5812973A (en) | Method and system for recognizing a boundary between contiguous sounds for use with a speech recognition system | |
CN102543073B (zh) | 一种沪语语音识别信息处理方法 | |
CN106971741A (zh) | 实时将语音进行分离的语音降噪的方法及系统 | |
JPH02238495A (ja) | 時系列信号認識装置 | |
CN108597505A (zh) | 语音识别方法、装置及终端设备 | |
CN108922541A (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
CN110265035B (zh) | 一种基于深度学习的说话人识别方法 | |
CN109256139A (zh) | 一种基于Triplet-Loss的说话人识别方法 | |
CN111243617B (zh) | 一种基于深度学习降低mfcc特征失真的语音增强方法 | |
CN105225672A (zh) | 融合基频信息的双麦克风定向噪音抑制的系统及方法 | |
CN113763965B (zh) | 一种多重注意力特征融合的说话人识别方法 | |
WO2023070874A1 (zh) | 一种声纹识别方法 | |
CN107274887A (zh) | 基于融合特征mgfcc的说话人二次特征提取方法 | |
CN110189746A (zh) | 一种应用于地空通信的话音识别方法 | |
CN113823293A (zh) | 一种基于语音增强的说话人识别方法及系统 | |
CN111899750A (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
CN110570871A (zh) | 一种基于TristouNet的声纹识别方法、装置及设备 | |
EP0292929B1 (en) | Method of feature extraction and recognition of voice and recognition apparatus | |
Chauhan et al. | Speaker recognition using fusion of features with feedforward artificial neural network and support vector machine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201201 |