CN112017658A - 一种基于智能人机交互的操作控制系统 - Google Patents

一种基于智能人机交互的操作控制系统 Download PDF

Info

Publication number
CN112017658A
CN112017658A CN202010887099.7A CN202010887099A CN112017658A CN 112017658 A CN112017658 A CN 112017658A CN 202010887099 A CN202010887099 A CN 202010887099A CN 112017658 A CN112017658 A CN 112017658A
Authority
CN
China
Prior art keywords
voice
voice information
module
information
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010887099.7A
Other languages
English (en)
Inventor
侯祖贵
杨舸
卢秋实
赵鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202010887099.7A priority Critical patent/CN112017658A/zh
Publication of CN112017658A publication Critical patent/CN112017658A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及一种基于智能人机交互的操作控制系统,属于语音控制技术领域。本发明提供了一种基于智能人机交互的操作控制系统,该系统中使用智能传感模块进行显控台操作控制,智能传感模块采用麦克风阵列采集用户输入的语音信息,将特定语音短语信息转换成可以控制显控台的文本信息,根据文本信息的具体含义对显控台进行相应的控制。通过声纹识别技术进行身份认证,将声纹信息与注册语音库中的声纹信息进行比对,用以授权用户对显控台进行相应权限的控制。该系统充分利用声纹识别和语音控制,使得设备上的人机交互更加智能、便捷、准确。

Description

一种基于智能人机交互的操作控制系统
技术领域
本发明属于语音控制技术领域,具体涉及一种基于智能人机交互的操作控制系统。
背景技术
智能人机交互操作控制正作为一种新型的沟通平台逐渐走进军用设备研制应用中,人机交互的智能化在一定程度上决定了人机交互的多样性,同样也是关键环节之一。随着机器学习、人工智能等技术的发展,语音识别控制技术也得到了极大的发展,语音识别技术的渐渐成熟,性能及稳定性的发展,使之可以越来越广泛的应用在设备研制中。
生物识别领域中包括多种生物性特征,为了满足社会需要,研究一种迅速、有效、稳定的生物识别技术在当今网络技术普及率极高的情况下,显得尤其必要。声纹识别便在这种情况下应运而生,语言是人类所具有的自然属性之一,是人类进行相互通信和交流的最方便快捷的一种手段,每个人说话都具有各自的生物特征,同其他传统的生物识别技术相比,使用说话人语音对说话人的身份进行识别具有更加简便、准确、经济及可扩展性良好等各种优势。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何设计一种基于智能人机交互的操作控制系统,使得设备上的人机交互更加智能、便捷、准确。
(二)技术方案
为了解决上述技术问题,本发明提供了一种基于智能人机交互的操作控制系统,包括:语音信息拾取模块、语音信息预处理模块、语音信息特征提取模块、身份认证模块、语音识别控制模块;
所述语音信息拾取模块用于采用麦克风阵列采集用户的语音信号;
所述语音信息预处理模块,用于对语音信息拾取模块输出的语音信号依次进行预加重处理、分帧加窗处理;
所述语音信息特征提取模块,用于对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征;
所述身份认证模块,用于将语音信息特征提取模块提取出语音信息的特征与已建立的用户语音特征库进行比对,通过计算特征值之间的最小距离,得到用户的身份信息,判断用户是否为合法用户及拥有的权限;
所述语音识别控制模块,用于采用DTW技术计算出采集的语音与短语库中短语的最小距离,即将输入的语音转换为文本,根据文本信息进行相应的操作控制。
优选地,所述语音信息拾取模块具体用于通过声波抵达麦克风阵列中每个麦克风之间的微小时差的相互作用,使用阵列算法处理后的指向性波束形成技术来形成一个锥状窄波束,只接收说话人的声音,同时抑制环境中的噪声与干扰。
优选地,所述语音信息预处理模块在预加重处理时具体是将语音信号S(n)中高频部分的频谱进行提升处理,以抑制语音信号的低频干扰。
优选地,所述语音信息预处理模块在预加重处理的实现方式具体是利用一阶的FIR高通滤波器对语音信号进行预加重,FIR高通滤波器的传递函数为H(z)=1-αz-1,其中α表示FIR高通滤波器的预加重系数,0.9<α<1.0。
优选地,所述语音信息预处理模块在分帧加窗处理时,其中的分帧是指以20毫秒为帧,1/2的时间作为帧移位帧,其中的帧移位是指相邻两帧之间的重叠区域。
优选地,所述语音信息预处理模块在分帧加窗处理时,分帧加窗处理中的加窗是在分帧之后,通过一个有限长度的窗口在语音信号上进行滑动加权,使成帧后的信号变得连续,具体的计算方式是用窗函数Hm(k)与语音信号相乘。
优选地,所述语音信息特征提取模块具体用于按照如下方法对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征:
步骤1)设对语音信号S(n)进行语音信息预处理后,得到一系列按帧计数的短时语音帧信号x(n),对提取出的短时语音帧信号x(n)进行快速傅里叶变换FFT,从而计算出短时语音帧信号x(n)的线性频谱Xα(k):
Figure BDA0002655894190000031
0≤k≤N-1,N表示x(n)的个数;
步骤2)计算步骤1)中Xα(k)模的平方,得到信号能量谱;
步骤3)定义一个含有M个三角滤波器的滤波器组,三角滤波器的中心频率为f(m),m=1,2,…,M,M=24,各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;
步骤4)将所述信号能量谱输入所述滤波器组,得到各三角滤波器的输出:
Figure BDA0002655894190000032
步骤5)计算每个三角滤波器输出的对数能量,然后经过离散余弦变换DCT得MFCC参数:
Figure BDA0002655894190000041
其中,L表示MFCC系数的阶数,取为16,即提取16阶MFCC系数作为语音信息的特征。
本发明还提供了一种基于所述系统实现的基于智能人机交互的操作控制方法,包括以下步骤:
所述语音信息拾取模块采用麦克风阵列采集用户的语音信号;
所述语音信息预处理模块对语音信息拾取模块输出的语音信号依次进行预加重处理、分帧加窗处理;
所述语音信息特征提取模块对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征;
所述身份认证模块将语音信息特征提取模块提取出语音信息的特征与已建立的用户语音特征库进行比对,通过计算特征值之间的最小距离,得到用户的身份信息,判断用户是否为合法用户及拥有的权限;
所述语音识别控制模块采用DTW技术计算出采集的语音与短语库中短语的最小距离,即将输入的语音转换为文本,根据文本信息进行相应的操作控制。
优选地,所述文本为短语。
本发明还提供了一种所述的系统在语音控制技术领域中的应用。
(三)有益效果
本发明提供了一种基于智能人机交互的操作控制系统,该系统中使用智能传感模块进行显控台操作控制,智能传感模块采用麦克风阵列采集用户输入的语音信息,将特定语音短语信息转换成可以控制显控台的文本信息,根据文本信息的具体含义对显控台进行相应的控制。通过声纹识别技术进行身份认证,将声纹信息与注册语音库中的声纹信息进行比对,用以授权用户对显控台进行相应权限的控制。该系统充分利用声纹识别和语音控制,使得设备上的人机交互更加智能、便捷、准确。
附图说明
图1为本发明的系统实现原理图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明提供了一种基于智能人机交互的操作控制系统,所述系统包括:
语音信息拾取模块、语音信息预处理模块、语音信息特征提取模块、身份认证模块、语音识别控制模块;
所述语音信息拾取模块用于采用麦克风阵列采集用户的语音信号,通过声波抵达麦克风阵列中每个麦克风之间的微小时差的相互作用,使用阵列算法处理后的指向性波束形成技术来形成一个锥状窄波束,只接收说话人的声音,同时抑制环境中的噪声与干扰;
所述语音信息预处理模块,用于对语音信息拾取模块输出的语音信号依次进行预加重处理、分帧加窗处理。
所述预加重处理,是将语音信号S(n)中高频部分的频谱进行提升处理,以抑制语音信号的低频干扰;具体地,利用一阶的FIR高通滤波器对语音信号进行预加重,FIR高通滤波器的传递函数为H(z)=1-αz-1,其中α表示FIR高通滤波器的预加重系数,0.9<α<1.0;
在10-30ms范围内,可以认为信号是稳定的,因此,所述分帧加窗处理中的分帧是指以20毫秒为帧,1/2的时间作为帧移位帧,其中,帧移位是指相邻两帧之间的重叠区域,以避免相邻两帧的变化;所述分帧加窗处理中的加窗是在分帧之后,通过一个有限长度的窗口在语音信号上进行滑动加权,使成帧后的信号变得连续,具体的计算方式是用窗函数Hm(k)与语音信号相乘。
所述语音信息特征提取模块,用于对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征;具体提取过程如下:
步骤1)设对语音信号S(n)进行语音信息预处理后,得到一系列按帧计数的短时语音帧信号x(n),对提取出的短时语音帧信号x(n)进行快速傅里叶变换FFT,从而计算出短时语音帧信号x(n)的线性频谱Xα(k):
Figure BDA0002655894190000061
0≤k≤N-1,N表示x(n)的个数;
步骤2)计算步骤1)中Xα(k)模的平方,得到信号能量谱;
步骤3)定义一个含有M个三角滤波器的滤波器组,三角滤波器的中心频率为f(m),m=1,2,…,M,M=24,各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;
步骤4)将所述信号能量谱输入所述滤波器组,得到各三角滤波器的输出:
Figure BDA0002655894190000062
步骤5)计算每个三角滤波器输出的对数能量,然后经过离散余弦变换DCT得MFCC参数:
Figure BDA0002655894190000063
其中,L表示MFCC系数的阶数,取为16,即提取16阶MFCC系数作为语音信息的特征。
所述身份认证模块,用于将语音信息特征提取模块提取出语音信息的特征与已建立的用户语音特征库进行比对,通过计算特征值之间的最小距离,得到用户的身份信息,判断用户是否为合法用户及拥有的权限;
所述语音识别控制模块,用于采用DTW技术计算出采集的语音与短语库中短语的最小距离,即将输入的语音转换为文本(短语),根据文本信息进行相应的操作控制。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于智能人机交互的操作控制系统,其特征在于,包括:语音信息拾取模块、语音信息预处理模块、语音信息特征提取模块、身份认证模块、语音识别控制模块;
所述语音信息拾取模块用于采用麦克风阵列采集用户的语音信号;
所述语音信息预处理模块,用于对语音信息拾取模块输出的语音信号依次进行预加重处理、分帧加窗处理;
所述语音信息特征提取模块,用于对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征;
所述身份认证模块,用于将语音信息特征提取模块提取出语音信息的特征与已建立的用户语音特征库进行比对,通过计算特征值之间的最小距离,得到用户的身份信息,判断用户是否为合法用户及拥有的权限;
所述语音识别控制模块,用于采用DTW技术计算出采集的语音与短语库中短语的最小距离,即将输入的语音转换为文本,根据文本信息进行相应的操作控制。
2.如权利要求1所述的系统,其特征在于,所述语音信息拾取模块具体用于通过声波抵达麦克风阵列中每个麦克风之间的微小时差的相互作用,使用阵列算法处理后的指向性波束形成技术来形成一个锥状窄波束,只接收说话人的声音,同时抑制环境中的噪声与干扰。
3.如权利要求1所述的系统,其特征在于,所述语音信息预处理模块在预加重处理时具体是将语音信号S(n)中高频部分的频谱进行提升处理,以抑制语音信号的低频干扰。
4.如权利要求3所述的系统,其特征在于,所述语音信息预处理模块在预加重处理的实现方式具体是利用一阶的FIR高通滤波器对语音信号进行预加重,FIR高通滤波器的传递函数为H(z)=1-αz-1,其中α表示FIR高通滤波器的预加重系数,0.9<α<1.0。
5.如权利要求4所述的系统,其特征在于,所述语音信息预处理模块在分帧加窗处理时,其中的分帧是指以20毫秒为帧,1/2的时间作为帧移位帧,其中的帧移位是指相邻两帧之间的重叠区域。
6.如权利要求5所述的系统,其特征在于,所述语音信息预处理模块在分帧加窗处理时,分帧加窗处理中的加窗是在分帧之后,通过一个有限长度的窗口在语音信号上进行滑动加权,使成帧后的信号变得连续,具体的计算方式是用窗函数Hm(k)与语音信号相乘。
7.如权利要求6所述的系统,其特征在于,所述语音信息特征提取模块具体用于按照如下方法对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征:
步骤1)设对语音信号S(n)进行语音信息预处理后,得到一系列按帧计数的短时语音帧信号x(n),对提取出的短时语音帧信号x(n)进行快速傅里叶变换FFT,从而计算出短时语音帧信号x(n)的线性频谱Xα(k):
Figure FDA0002655894180000021
N表示x(n)的个数;
步骤2)计算步骤1)中Xα(k)模的平方,得到信号能量谱;
步骤3)定义一个含有M个三角滤波器的滤波器组,三角滤波器的中心频率为f(m),m=1,2,…,M,M=24,各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;
步骤4)将所述信号能量谱输入所述滤波器组,得到各三角滤波器的输出:
Figure FDA0002655894180000031
步骤5)计算每个三角滤波器输出的对数能量,然后经过离散余弦变换DCT得MFCC参数:
Figure FDA0002655894180000032
其中,L表示MFCC系数的阶数,取为16,即提取16阶MFCC系数作为语音信息的特征。
8.一种基于权利要求1至7中任一项所述系统实现的基于智能人机交互的操作控制方法,其特征在于,包括以下步骤:
所述语音信息拾取模块采用麦克风阵列采集用户的语音信号;
所述语音信息预处理模块对语音信息拾取模块输出的语音信号依次进行预加重处理、分帧加窗处理;
所述语音信息特征提取模块对语音信息预处理后的信号提取语音信息的梅尔倒谱系数MFCC特征;
所述身份认证模块将语音信息特征提取模块提取出语音信息的特征与已建立的用户语音特征库进行比对,通过计算特征值之间的最小距离,得到用户的身份信息,判断用户是否为合法用户及拥有的权限;
所述语音识别控制模块采用DTW技术计算出采集的语音与短语库中短语的最小距离,即将输入的语音转换为文本,根据文本信息进行相应的操作控制。
9.如权利要求8所述的方法,其特征在于,所述文本为短语。
10.一种如权利要求1至7中任一项所述的系统在语音控制技术领域中的应用。
CN202010887099.7A 2020-08-28 2020-08-28 一种基于智能人机交互的操作控制系统 Pending CN112017658A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010887099.7A CN112017658A (zh) 2020-08-28 2020-08-28 一种基于智能人机交互的操作控制系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010887099.7A CN112017658A (zh) 2020-08-28 2020-08-28 一种基于智能人机交互的操作控制系统

Publications (1)

Publication Number Publication Date
CN112017658A true CN112017658A (zh) 2020-12-01

Family

ID=73503731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010887099.7A Pending CN112017658A (zh) 2020-08-28 2020-08-28 一种基于智能人机交互的操作控制系统

Country Status (1)

Country Link
CN (1) CN112017658A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113093749A (zh) * 2021-04-01 2021-07-09 上海应用技术大学 服务机器人的导航系统及方法
CN114003885A (zh) * 2021-11-01 2022-02-01 浙江大学 一种智能语音认证方法、系统及可存储介质
CN114120980A (zh) * 2021-10-21 2022-03-01 北京电子工程总体研究所 一种显控台操控系统和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1941080A (zh) * 2005-09-26 2007-04-04 吴田平 一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法
CN103794207A (zh) * 2012-10-29 2014-05-14 西安远声电子科技有限公司 一种双模语音身份识别方法
CN106231047A (zh) * 2016-08-05 2016-12-14 惠州Tcl移动通信有限公司 一种基于智能终端的音频采集方法、系统及智能终端
CN109102801A (zh) * 2017-06-20 2018-12-28 京东方科技集团股份有限公司 语音识别方法和语音识别装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1941080A (zh) * 2005-09-26 2007-04-04 吴田平 一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法
CN103794207A (zh) * 2012-10-29 2014-05-14 西安远声电子科技有限公司 一种双模语音身份识别方法
CN106231047A (zh) * 2016-08-05 2016-12-14 惠州Tcl移动通信有限公司 一种基于智能终端的音频采集方法、系统及智能终端
CN109102801A (zh) * 2017-06-20 2018-12-28 京东方科技集团股份有限公司 语音识别方法和语音识别装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113093749A (zh) * 2021-04-01 2021-07-09 上海应用技术大学 服务机器人的导航系统及方法
CN114120980A (zh) * 2021-10-21 2022-03-01 北京电子工程总体研究所 一种显控台操控系统和方法
CN114003885A (zh) * 2021-11-01 2022-02-01 浙江大学 一种智能语音认证方法、系统及可存储介质

Similar Documents

Publication Publication Date Title
CN108597496B (zh) 一种基于生成式对抗网络的语音生成方法及装置
CN108281146B (zh) 一种短语音说话人识别方法和装置
CN109215665A (zh) 一种基于3d卷积神经网络的声纹识别方法
CN112017658A (zh) 一种基于智能人机交互的操作控制系统
CN109256127B (zh) 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法
US5812973A (en) Method and system for recognizing a boundary between contiguous sounds for use with a speech recognition system
CN102543073B (zh) 一种沪语语音识别信息处理方法
CN106971741A (zh) 实时将语音进行分离的语音降噪的方法及系统
JPH02238495A (ja) 時系列信号認識装置
CN108597505A (zh) 语音识别方法、装置及终端设备
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
CN110265035B (zh) 一种基于深度学习的说话人识别方法
CN109256139A (zh) 一种基于Triplet-Loss的说话人识别方法
CN111243617B (zh) 一种基于深度学习降低mfcc特征失真的语音增强方法
CN105225672A (zh) 融合基频信息的双麦克风定向噪音抑制的系统及方法
CN113763965B (zh) 一种多重注意力特征融合的说话人识别方法
WO2023070874A1 (zh) 一种声纹识别方法
CN107274887A (zh) 基于融合特征mgfcc的说话人二次特征提取方法
CN110189746A (zh) 一种应用于地空通信的话音识别方法
CN113823293A (zh) 一种基于语音增强的说话人识别方法及系统
CN111899750A (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN110570871A (zh) 一种基于TristouNet的声纹识别方法、装置及设备
EP0292929B1 (en) Method of feature extraction and recognition of voice and recognition apparatus
Chauhan et al. Speaker recognition using fusion of features with feedforward artificial neural network and support vector machine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201201