CN109493847B - 声音识别系统以及声音识别装置 - Google Patents

声音识别系统以及声音识别装置 Download PDF

Info

Publication number
CN109493847B
CN109493847B CN201811539331.7A CN201811539331A CN109493847B CN 109493847 B CN109493847 B CN 109493847B CN 201811539331 A CN201811539331 A CN 201811539331A CN 109493847 B CN109493847 B CN 109493847B
Authority
CN
China
Prior art keywords
module
indicate
sound
voice recognition
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811539331.7A
Other languages
English (en)
Other versions
CN109493847A (zh
Inventor
肖灵东
李杭永
肖灵江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Yima Network Technology Co Ltd
Original Assignee
Guangzhou Yima Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Yima Network Technology Co Ltd filed Critical Guangzhou Yima Network Technology Co Ltd
Priority to CN201811539331.7A priority Critical patent/CN109493847B/zh
Publication of CN109493847A publication Critical patent/CN109493847A/zh
Application granted granted Critical
Publication of CN109493847B publication Critical patent/CN109493847B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

本发明提出了一种声音识别装置及系统,包括降噪抑制模块,对实时获取的用户声音或已存储的其它声音进行噪声抑制,获得降噪后的声音信息;所述噪声抑制模块采用了谱去除法和/或学习同定法和/或降噪自动编码器至少之一进行噪声抑制;转化模块,将所述声音信息进行拉普拉斯变换,得到频谱信息;特征提取模块,获得所述声音信息的梅尔频谱倒数和线性倒谱系数,得到描述所述声音信息的特征向量;模型训练模块,利用训练样本构建声音识别模型,所述声音识别模型的训练利用转化模块获得的频谱信息及特征提取模块提取的特征向量,将由所述梅尔频谱倒数和所述线性倒谱系数得到的所述特征向量输入SVM层;声音识别模块,利用训练好的所述声音识别模块对所述声音信息进行识别。

Description

声音识别系统以及声音识别装置
技术领域
本发明实施例涉及通信及计算机技术,尤其具体涉及一种声音识别系统以及声音识别装置。
背景技术
声纹是用电声学仪器显示的携带言语信息的声波频谱,人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官,如,舌、牙齿、喉头、肺以及鼻腔,在尺寸和形态上个体差异很大,因此,任何两个人的声纹图谱均会存在差异。不同的用户讲话时对应的声波频谱存在差异性,故可通过声纹识别出唯一的用户。
现有技术中,声纹识别方式存在识别不准确的缺陷,与人脸识别、指纹识别等身份识别方式相比,由于其缺陷的存在,至今应用并不广泛。
本发明开创性地利用所提出的深度学习算法识别出不同个体的声音信息,由于梅尔频谱倒数和线性倒谱系数都是在声音识别中比较有效的信息,从中提取描述声音的特征向量;此外还利用了拉普拉斯变换获得声音的频谱信息,利用卷积神经网络进行其它有效特征的挖掘。
本发明还采用了全新的卷积神经网络结构及池化方法,该网络结构不曾被现有技术公开使用,网络结构中各层的设置以及模型学习更新的方法都是本发明的首创,更是首次将其应用于声音识别中,提高了声音识别的精度;
新设计的激励函数和惩罚函数,随着训练数据的进行,识别精度逐步提高;
而池化层的独特设计加速了声音识别的效率;
经长期实验和理论研究,引入第二惩罚函数,在多层神经网络的设计过程中,调参一直是一个难题,任何参数的改进都可能引起识别精度质的提高,因此绝对不是本领域技术人员不付出创造性劳动能获得的,不是公知常识。
本申请的声音识别装置及系统,简化了声纹识别流程,提高了终端设备的运行效率,降低了终端设备的能源消耗,有利于商业推广。
发明内容
本发明提供了一种声音识别系统以及声音识别装置,提高了声纹识别的准确性,简化了声纹识别流程,提高了终端设备的运行效率,降低了终端设备的能源消耗。
本发明提出了一种声音识别装置,包括以下模块:
降噪抑制模块,对实时获取的用户声音进行噪声抑制,获得降噪后的声音信息;所述噪声抑制模块采用了谱去除法和/或学习同定法和/或降噪自动编码器至少之一进行噪声抑制;
转化模块,将所述声音信息进行拉普拉斯变换,得到频谱信息h(t,f),其中t表示时间,f表示频率;
特征提取模块,获得所述声音信息的梅尔频谱倒数和线性倒谱系数,得到描述所述声音信息的特征向量;
模型训练模块,利用训练样本构建声音识别模型,所述声音识别模型的训练利用转化模块获得的频谱信息及特征提取模块提取的特征向量;
声音识别模块,利用训练好的所述声音识别模块对所述声音信息进行识别。
本发明还提出了一种多层神经网络结构,以用于声音识别:
所述多层神经网络结构,包括输入层、SVM层、卷积层、池化层、全连接层,所述输入层来自拉普拉普变换的频谱信息,所述SVM层的输入来自所述梅尔频谱倒数和所述线性倒谱系数得到的特征向量,卷积层采用5*5的卷积核,8个滤波器;
所述池化层的池化窗口大小为3*3,通道数为16;所述全连接层采用16个滤波器,3*3的卷积核;全连接层的输入来池化层的输出;
所述池化层的池化方法如下:
xe=f(ue+φ(ue))
其中,xe表示当前层的输出,ue表示激活函数的输入,f()表示激活函数,we表示当前层的权重,φ表示损失函数,xe-1表示下一层的输出,be表示偏置,δ表示常数;
采用如下方式对所述多层神经网络模型进行学习更新,以提高对声音识别的精度:
将获得的原始样本数据映射成16维特征向量;计算校正函数,所述校正函数由激励函数及第一惩罚函数、第二惩罚函数融合而成,所述的激励函数为:
其中,N表示样本数据集的大小,yi表示样本xi对应的标签,a为神经网络模型的识别输出;
所述第一惩罚函数如下:
N表示所述样本数据集的大小,i取值1~N,yi表示样本xi对应的标签;表示样本xi在其标签yi处的权重,b向量包括和bj表示样本xi在其标签yi处的偏差,bj表示输出节点j处的偏差;
所述第二惩罚函数如下:
式中,为样本xi与其对应标签yi的权重夹角,θj,i为样本xi与输出节点j处的权重Wj的夹角,m为预设参数,1≤m≤8;k=abs(sign(cosθj,i))-sign(cosθj,i)(abs(sign(cos2θj,i))-sign(cosθj,i))/2;
最终的惩罚函数为:
其中1≤λ≤7;0.4≤μ,β≤0.6。
本发明还提出了一种声音识别系统,包括所述声音识别装置以及麦克风模块。
附图说明
图1表示本申请基本实施例的硬件结构示意图
图2表示本申请的基本实施例的流程示意图
具体实施方式
本申请实施例一所提供实施例可以在移动终端、计算机终端或者智能门锁的运算装置中执行。此处的计算机终端泛指一切具有处理器、存储器的智能设备(包括智能门锁、智能手机等等),图1是本发明实施例的一种用户声音信息的识别方法的计算机终端的硬件结构框图。
如图1所示,计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的用户声音信息的识别方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。
本发明提出了一种声音识别装置,包括以下模块:
降噪抑制模块,对实时获取的用户声音进行噪声抑制,获得降噪后的声音信息;所述噪声抑制模块采用了谱去除法和/或学习同定法和/或降噪自动编码器至少之一进行噪声抑制;
转化模块,将所述声音信息进行拉普拉斯变换,得到频谱信息h(t,f),其中t表示时间,f表示频率;
特征提取模块,获得所述声音信息的梅尔频谱倒数和线性倒谱系数,得到描述所述声音信息的特征向量;
模型训练模块,利用训练样本构建声音识别模型,所述声音识别模型的训练利用转化模块获得的频谱信息及特征提取模块提取的特征向量;
声音识别模块,利用训练好的所述声音识别模块对所述声音信息进行识别。
本申请还提出了一种新的多层神经网络,所述多层神经网络结构,包括输入层、SVM层、卷积层、池化层、全连接层,所述输入层来自拉普拉普变换的频谱信息,所述SVM层的输入来自所述梅尔频谱倒数和所述线性倒谱系数得到的特征向量,卷积层采用5*5的卷积核,8个滤波器;所述池化层的池化窗口大小为3*3,通道数为16;所述全连接层采用16个滤波器,3*3的卷积核;全连接层的输入来池化层的输出;
所述池化层的池化方法如下:
xe=f(ue+φ(ue))
其中,xe表示当前层的输出,ue表示激活函数的输入,f()表示激活函数,we表示当前层的权重,φ表示损失函数,xe-1表示下一层的输出,be表示偏置,δ表示常数;
采用如下方式对所述多层神经网络模型进行学习更新,以提高对声音识别的精度:
将获得的原始样本数据映射成16维特征向量;计算校正函数,所述校正函数由激励函数及第一惩罚函数融合而成,所述的激励函数为:
其中,N表示样本数据集的大小,yi表示样本xi对应的标签,a为神经网络模型的识别输出;
所述第一惩罚函数如下:
N表示所述样本数据集的大小,i取值1~N,yi表示样本xi对应的标签;表示样本xi在其标签yi处的权重,b向量包括和bj表示样本xi在其标签yi处的偏差,bj表示输出节点j处的偏差;
最终的惩罚函数为:
其中0.4≤μ,β≤0.6。
本发明还提出了另一种多层神经网络结构,以用于声音识别:
所述多层神经网络结构,包括输入层、SVM层、卷积层、池化层、全连接层,所述输入层来自拉普拉普变换的频谱信息,所述SVM层的输入来自所述梅尔频谱倒数和所述线性倒谱系数得到的特征向量,卷积层采用5*5的卷积核,8个滤波器;
所述池化层的池化窗口大小为3*3,通道数为16;所述全连接层采用16个滤波器,3*3的卷积核;全连接层的输入来池化层的输出;
所述池化层的池化方法如下:
xe=f(ue+φ(ue))
其中,xe表示当前层的输出,ue表示激活函数的输入,f()表示激活函数,we表示当前层的权重,φ表示损失函数,xe-1表示下一层的输出,be表示偏置,δ表示常数;
采用如下方式对所述多层神经网络模型进行学习更新,以提高对声音识别的精度:
将获得的原始样本数据映射成16维特征向量;计算校正函数,所述校正函数由激励函数及第一惩罚函数、第二惩罚函数融合而成,所述的激励函数为:
其中,N表示样本数据集的大小,yi表示样本xi对应的标签,a为神经网络模型的识别输出;
所述第一惩罚函数如下:
N表示所述样本数据集的大小,i取值1~N,yi表示样本xi对应的标签;表示样本xi在其标签yi处的权重,b向量包括和bj表示样本xi在其标签yi处的偏差,bj表示输出节点j处的偏差;
所述第二惩罚函数如下:
式中,为样本xi与其对应标签yi的权重夹角,θj,i为样本xi与输出节点j处的权重Wj的夹角,m为预设参数,1≤m≤8;k=abs(sign(cosθj,i))-sign(cosθj,i)(abs(sign(cos2θj,i))-sign(cosθj,i))/2;
最终的惩罚函数为:
其中1≤λ≤7;0.4≤μ,β≤0.6。
本发明还提出了一种声音识别系统,包括所述声音识别装置以及麦克风模块。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
一种包含上述各实施例的基于物联网的运输数据采集方法的计算机可执行指令的存储介质,所述存储介质上存储有能实现上述方法的程序指令。上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (4)

1.一种声音识别装置,其特征在于,包括以下模块:
降噪抑制模块,对实时获取的用户声音或已存储的其它声音进行噪声抑制,获得降噪后的声音信息;所述噪声抑制模块采用了谱去除法和/或学习同定法和/或降噪自动编码器至少之一进行噪声抑制;
转化模块,将所述声音信息进行拉普拉斯变换,得到频谱信息h(t,f),其中t表示时间,f表示频率;
特征提取模块,获得所述声音信息的梅尔频谱倒数和线性倒谱系数,得到描述所述声音信息的特征向量;
模型训练模块,利用训练样本构建声音识别模型,所述声音识别模型的训练利用转化模块获得的频谱信息及特征提取模块提取的特征向量,将由所述梅尔频谱倒数和所述线性倒谱系数得到的所述特征向量输入SVM层;
声音识别模块,利用训练好的所述声音识别模型对所述声音信息进行识别;
所述模型训练模块采用了多层神经网络,所述多层神经网络结构,包括输入层、SVM层、卷积层、池化层、全连接层,所述输入层来自拉普拉斯变换的频谱信息,所述SVM层的输入来自所述梅尔频谱倒数和所述线性倒谱系数得到的特征向量,卷积层采用5*5的卷积核,8个滤波器;所述池化层的池化窗口大小为3*3,通道数为16;所述全连接层采用16个滤波器,3*3的卷积核;全连接层的输入来自池化层的输出;
所述池化层的池化方法如下:
xe=f(ue+φ(ue))
其中,xe表示当前层的输出,ue表示激活函数的输入,f()表示激活函数,we表示当前层的权重,φ表示损失函数,xe-1表示上一层的输出,be表示偏置,δ表示常数;
采用如下方式对所述多层神经网络模型进行学习更新,以提高对声音识别的精度:将获得的原始样本数据映射成16维特征向量;计算校正函数,所述校正函数由激励函数及第一惩罚函数融合而成,所述的激励函数为:
其中,N表示样本数据集的大小,yi表示样本xi对应的标签,a为神经网络模型的识别输出;
所述第一惩罚函数如下:
N表示所述样本数据集的大小,i取值1~N,yi表示样本xi对应的标签;Wyi表示样本xi在其标签yi处的权重,b向量包括byi和bj,byi表示样本xi在其标签yi处的偏差,bj表示输出节点j处的偏差;
最终的惩罚函数为:
其中0.4≤μ,β≤0.6。
2.根据权利要求1所述的声音识别装置,对所述多层神经网络模型进行学习更新时,进一步采用第二惩罚函数:
所述第二惩罚函数如下:
式中,ψ(θyi,i)=(-1)kcos(mθyi,i)-2k,θyi,i为样本xi与其对应标签yi的权重夹角,θj,i为样本xi与输出节点j处的权重Wj的夹角,m为预设参数,1≤m≤8;
k=abs(sign(cosθj,i))-sign(cosθj,i)(abs(sign(cos2θj,i))-sign(cosθj,i))/2;
最终的惩罚函数为:
其中1≤λ≤7;0.4≤μ,β≤0.6。
3.一种声音识别系统,所述声音识别系统包括如权利要求1-2任一项所述的声音识别装置,所述声音识别系统还包括声音采集模块,用于对用户声音的采集。
4.根据权利要求3所述的声音识别系统,所述声音采集模块包括麦克风模块。
CN201811539331.7A 2018-12-14 2018-12-14 声音识别系统以及声音识别装置 Active CN109493847B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811539331.7A CN109493847B (zh) 2018-12-14 2018-12-14 声音识别系统以及声音识别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811539331.7A CN109493847B (zh) 2018-12-14 2018-12-14 声音识别系统以及声音识别装置

Publications (2)

Publication Number Publication Date
CN109493847A CN109493847A (zh) 2019-03-19
CN109493847B true CN109493847B (zh) 2019-10-18

Family

ID=65710546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811539331.7A Active CN109493847B (zh) 2018-12-14 2018-12-14 声音识别系统以及声音识别装置

Country Status (1)

Country Link
CN (1) CN109493847B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785282A (zh) * 2019-04-03 2020-10-16 阿里巴巴集团控股有限公司 一种语音识别方法及装置和智能音箱
CN109948739A (zh) * 2019-04-22 2019-06-28 桂林电子科技大学 基于支持向量机的环境声音事件采集与传输系统
CN110808068A (zh) * 2019-11-11 2020-02-18 北京软通智城科技有限公司 一种声音检测方法、装置、设备和存储介质
CN111523776A (zh) * 2020-04-08 2020-08-11 辽宁百思特达半导体科技有限公司 一种基于非法目标危险评估的智慧城市系统及方法
CN111524525B (zh) * 2020-04-28 2023-06-16 平安科技(深圳)有限公司 原始语音的声纹识别方法、装置、设备及存储介质
CN111599234A (zh) * 2020-05-19 2020-08-28 黑龙江工业学院 一种基于声音识别的英语口语朗读自动评分系统
CN114636995A (zh) * 2022-03-16 2022-06-17 中国水产科学研究院珠江水产研究所 一种基于深度学习的水声信号检测方法及系统
CN114779942B (zh) * 2022-05-23 2023-07-21 广州芸荟数字软件有限公司 一种虚拟现实沉浸式互动系统、设备及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101640043A (zh) * 2009-09-01 2010-02-03 清华大学 基于多坐标序列内核的说话人识别方法和系统
CN106404388A (zh) * 2016-09-13 2017-02-15 西安科技大学 一种刮板输送机飘链故障诊断方法
CN107203782A (zh) * 2017-05-23 2017-09-26 哈尔滨工业大学 基于卷积神经网络的大动态信噪比下通信干扰信号识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101640043A (zh) * 2009-09-01 2010-02-03 清华大学 基于多坐标序列内核的说话人识别方法和系统
CN106404388A (zh) * 2016-09-13 2017-02-15 西安科技大学 一种刮板输送机飘链故障诊断方法
CN107203782A (zh) * 2017-05-23 2017-09-26 哈尔滨工业大学 基于卷积神经网络的大动态信噪比下通信干扰信号识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A CNN-SVM combined model for pattern recognition of knee motion using mechanomyography signals;Haifeng Wu 等;《Journal of Electromyography and Kinesiology》;20180723;全文 *

Also Published As

Publication number Publication date
CN109493847A (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
CN109493847B (zh) 声音识别系统以及声音识别装置
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
CN106847292B (zh) 声纹识别方法及装置
US20220351713A1 (en) Synthesis of Speech from Text in a Voice of a Target Speaker Using Neural Networks
CN103700371B (zh) 一种基于声纹识别的来电身份识别系统及其识别方法
TWI527023B (zh) A voiceprint recognition method and apparatus
CN108460081B (zh) 语音数据库创建方法、声纹注册方法、装置、设备及介质
WO2018107810A1 (zh) 声纹识别方法、装置、电子设备及介质
CN110364143A (zh) 语音唤醒方法、装置及其智能电子设备
WO2015180368A1 (zh) 一种半监督语音特征可变因素分解方法
CN102324232A (zh) 基于高斯混合模型的声纹识别方法及系统
CN108766441B (zh) 一种基于离线声纹识别和语音识别的语音控制方法及装置
CN110415687A (zh) 语音处理方法、装置、介质、电子设备
CN107492382A (zh) 基于神经网络的声纹信息提取方法及装置
CN112562691A (zh) 一种声纹识别的方法、装置、计算机设备及存储介质
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN103106717A (zh) 基于声纹识别的智能仓库声控门卫系统及其身份认证方法
CN110415701A (zh) 唇语的识别方法及其装置
CN112712813B (zh) 语音处理方法、装置、设备及存储介质
WO2022141868A1 (zh) 一种提取语音特征的方法、装置、终端及存储介质
CN109448732A (zh) 一种数字串语音处理方法及装置
KR100779242B1 (ko) 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법
Mansour et al. Voice recognition Using back propagation algorithm in neural networks
CN106875944A (zh) 一种语音控制家庭智能终端的系统
CN109545226A (zh) 一种语音识别方法、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant