CN110379419A - 基于卷积神经网络的语音特征匹配方法 - Google Patents

基于卷积神经网络的语音特征匹配方法 Download PDF

Info

Publication number
CN110379419A
CN110379419A CN201910638624.9A CN201910638624A CN110379419A CN 110379419 A CN110379419 A CN 110379419A CN 201910638624 A CN201910638624 A CN 201910638624A CN 110379419 A CN110379419 A CN 110379419A
Authority
CN
China
Prior art keywords
record file
voice record
file
convolutional neural
neural networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910638624.9A
Other languages
English (en)
Inventor
李剑峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Check Credit Intelligent Technology Co Ltd
Original Assignee
Hunan Check Credit Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Check Credit Intelligent Technology Co Ltd filed Critical Hunan Check Credit Intelligent Technology Co Ltd
Priority to CN201910638624.9A priority Critical patent/CN110379419A/zh
Publication of CN110379419A publication Critical patent/CN110379419A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于卷积神经网络的语音特征匹配方法,包括:S1,预处理,提取音频信号的梅尔谱图,在时域上切割成图像片段,对图像片段做傅里叶变换得到频谱信号;并提取出特征向量;S2,将音频样本的特征向量按照时间顺序排列后进行池化处理形成语音记录文件,并将语音记录文件转换成二值特征序列;S3,语音特征匹配,利用语音查询文件与语音记录文件进行比较,查找出与语音查询文件具有相同内容的语音记录文件。本发明提高了语音识别的准确率,降低了语音识别系统的复杂性,增强了软件健壮性。

Description

基于卷积神经网络的语音特征匹配方法
技术领域
本发明涉及语音识别技术领域,更为具体地,涉及一种基于卷积神经网络的语音特征匹配方法。
背景技术
语音是人们之间交流的重要工具,例如语音电话、语音聊天和语音功能提示等,随着信息化时代的深入发展,近年来语音交互技术受到了广泛的关注。
在现有语音处理技术中,例如公开号为CN103236260B的中国专利公开了一种语音识别系统,包括:存储单元,用于存储至少一个用户的语音模型;语音采集及预处理单元,用于采集待识别语音信号,对待识别语音信号进行格式转换及编码;特征提取单元,用于从编码后的待识别语音信号中提取语音特征参数;模式匹配单元,用于将所提取的语音特征参数与至少一个语音模型进行匹配,确定待识别语音信号所属的用户。该系统从语音的产生原理开始分析语音的特性,并使用MFCC参数,建立说话人的语音特征模型,实现说话人的特征识别算法,能够达到提高说话人检测可靠性的目的,使得最终能够在电子产品上实现说话人识别的功能。但是,存在语音识别的准确率较低,语音识别系统的较为复杂,软件运行健壮性较差等问题。
发明内容
本发明的目的在于克服现有技术的不足,提供了一种基于卷积神经网络的语音特征匹配方法,提高了语音识别的准确率,降低了语音识别系统的复杂性,增强了软件健壮性。
本发明的目的是通过以下技术方案来实现的:
一种基于卷积神经网络的语音特征匹配方法,包括:
S1,预处理,提取音频信号的梅尔谱图,在时域上切割成图像片段,对所述图像片段做傅里叶变换得到频谱信号;并提取出特征向量;
S2,将音频样本的特征向量按照时间顺序排列后进行池化处理形成语音记录文件,并将语音记录文件转换成二值特征序列;
S3,语音特征匹配,利用语音查询文件与所述语音记录文件进行比较,查找出与语音查询文件具有相同内容的语音记录文件;
S4,对匹配的语音记录文件进行分类处理后,解码转换为文本信息,并匹配识别相应的情感分类模板,在完成情感匹配识别后,通过输出设备输出匹配结果内容。
进一步的,在步骤S1中,采用PCA白化降低频谱的维度。
进一步的,在步骤S2中,包括如下步骤:
S21,将同一个音频样本的所有特征向量按时间顺序排列;
S22,将排列好的特征向量分成多等份,对每一等份进行池化,然后将所有向量拼起来;
S23,对拼接后的向量再一次池化处理,得到全局特征并形成语音记录文件。
进一步的,在步骤S3中,包括如下步骤:
S31,定义欧氏距离函数,然后建立最小欧式距离的索引;
S32,计算特征向量的欧氏距离并与索引关联的最小欧式距离比较,得到第一距离差值匹配结果,然后计算第二欧式距离并与索引关联的最小欧式距离比较,得到第一距离差值匹配结果,循环计算直到检索到距离差值匹配结果最小值;
S33,将距离差值匹配结果最小值对应的特征向量作为匹配正确的语音记录文件。
进一步的,在步骤S4中,采用SVM算法对匹配的语音记录文件加以分类。
本发明的有益效果是:
(1)本发明提高了语音识别的准确率,降低了语音识别系统的复杂性,增强了软件健壮性。具体而言,本发明形成语音记录文件,提高了特征提取效率,通过建立距离函数索引,快速匹配正确的语音记录文件,提高了匹配效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的步骤流程示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。本说明书中公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
下面将详细描述本发明的具体实施例,应当注意,这里描述的实施例只用于举例说明,并不用于限制本发明。在以下描述中,为了提供对本发明的透彻理解,阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本发明。在其他实例中,为了避免混淆本发明,未具体描述公知的电路,软件或方法。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在对实施例进行描述之前,需要对一些必要的术语进行解释。例如:
若本申请中出现使用“第一”、“第二”等术语来描述各种元件,但是这些元件不应当由这些术语所限制。这些术语仅用来区分一个元件和另一个元件。因此,下文所讨论的“第一”元件也可以被称为“第二”元件而不偏离本发明的教导。应当理解的是,若提及一元件“连接”或者“联接”到另一元件时,其可以直接地连接或直接地联接到另一元件或者也可以存在中间元件。相反地,当提及一元件“直接地连接”或“直接地联接”到另一元件时,则不存在中间元件。
在本申请中出现的各种术语仅仅用于描述具体的实施方式的目的而无意作为对本发明的限定,除非上下文另外清楚地指出,否则单数形式意图也包括复数形式。
当在本说明书中使用术语“包括”和/或“包括有”时,这些术语指明了所述特征、整体、步骤、操作、元件和/或部件的存在,但是也不排除一个以上其他特征、整体、步骤、操作、元件、部件和/或其群组的存在和/或附加。
如图1所示,一种基于卷积神经网络的语音特征匹配方法,包括:
S1,预处理,提取音频信号的梅尔谱图,在时域上切割成图像片段,对所述图像片段做傅里叶变换得到频谱信号;并提取出特征向量;
S2,将音频样本的特征向量按照时间顺序排列后进行池化处理形成语音记录文件,并将语音记录文件转换成二值特征序列;
S3,语音特征匹配,利用语音查询文件与所述语音记录文件进行比较,查找出与语音查询文件具有相同内容的语音记录文件;
S4,对匹配的语音记录文件进行分类处理后,解码转换为文本信息,并匹配识别相应的情感分类模板,在完成情感匹配识别后,通过输出设备输出匹配结果内容。
进一步的,在步骤S1中,采用PCA白化降低频谱的维度。
进一步的,在步骤S2中,包括如下步骤:
S21,将同一个音频样本的所有特征向量按时间顺序排列;
S22,将排列好的特征向量分成多等份,对每一等份进行池化,然后将所有向量拼起来;
S23,对拼接后的向量再一次池化处理,得到全局特征并形成语音记录文件。
进一步的,在步骤S3中,包括如下步骤:
S31,定义欧氏距离函数,然后建立最小欧式距离的索引;
S32,计算特征向量的欧氏距离并与索引关联的最小欧式距离比较,得到第一距离差值匹配结果,然后计算第二欧式距离并与索引关联的最小欧式距离比较,得到第一距离差值匹配结果,循环计算直到检索到距离差值匹配结果最小值;
S33,将距离差值匹配结果最小值对应的特征向量作为匹配正确的语音记录文件。
进一步的,在步骤S4中,采用SVM算法对匹配的语音记录文件加以分类。
实施例1
如图1所示,一种基于卷积神经网络的语音特征匹配方法,包括:
S1,预处理,提取音频信号的梅尔谱图,在时域上切割成图像片段,对所述图像片段做傅里叶变换得到频谱信号;并提取出特征向量;
S2,将音频样本的特征向量按照时间顺序排列后进行池化处理形成语音记录文件,并将语音记录文件转换成二值特征序列;
S3,语音特征匹配,利用语音查询文件与所述语音记录文件进行比较,查找出与语音查询文件具有相同内容的语音记录文件;
S4,对匹配的语音记录文件进行分类处理后,解码转换为文本信息,并匹配识别相应的情感分类模板,在完成情感匹配识别后,通过输出设备输出匹配结果内容。
在本实施例中的其余技术特征,本领域技术人员均可以根据实际情况进行灵活选用和以满足不同的具体实际需求。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实现本发明。在其他实例中,为了避免混淆本发明,未具体描述公知的算法,方法或系统等,均在本发明的权利要求书请求保护的技术方案限定技术保护范围之内。
对于前述的方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法实现所描述的功能,但是这种实现不应超出本发明的范围。
所揭露的系统、模块和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例,仅仅是示意性的,例如,所述单元的划分,可以仅仅是一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以说通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述分立部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例的方案的目的。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、ROM、RAM等。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (5)

1.一种基于卷积神经网络的语音特征匹配方法,其特征在于,包括:
S1,预处理,提取音频信号的梅尔谱图,在时域上切割成图像片段,对所述图像片段做傅里叶变换得到频谱信号;并提取出特征向量;
S2,将音频样本的特征向量按照时间顺序排列后进行池化处理形成语音记录文件,并将语音记录文件转换成二值特征序列;
S3,语音特征匹配,利用语音查询文件与所述语音记录文件进行比较,查找出与语音查询文件具有相同内容的语音记录文件;
S4,对匹配的语音记录文件进行分类处理后,解码转换为文本信息,并匹配识别相应的情感分类模板,在完成情感匹配识别后,通过输出设备输出匹配结果内容。
2.根据权利要求1所述的基于卷积神经网络的语音特征匹配方法,其特征在于,在步骤S1中,采用PCA白化降低频谱的维度。
3.根据权利要求1所述的基于卷积神经网络的语音特征匹配方法,其特征在于,在步骤S2中,包括如下步骤:
S21,将同一个音频样本的所有特征向量按时间顺序排列;
S22,将排列好的特征向量分成多等份,对每一等份进行池化,然后将所有向量拼起来;
S23,对拼接后的向量再一次池化处理,得到全局特征并形成语音记录文件。
4.根据权利要求1所述的基于卷积神经网络的语音特征匹配方法,其特征在于,在步骤S3中,包括如下步骤:
S31,定义欧氏距离函数,然后建立最小欧式距离的索引;
S32,计算特征向量的欧氏距离并与索引关联的最小欧式距离比较,得到第一距离差值匹配结果,然后计算第二欧式距离并与索引关联的最小欧式距离比较,得到第一距离差值匹配结果,循环计算直到检索到距离差值匹配结果最小值;
S33,将距离差值匹配结果最小值对应的特征向量作为匹配正确的语音记录文件。
5.根据权利要求1所述基于卷积神经网络的语音特征匹配方法,其特征在于,在步骤S4中,采用SVM算法对匹配的语音记录文件加以分类。
CN201910638624.9A 2019-07-16 2019-07-16 基于卷积神经网络的语音特征匹配方法 Pending CN110379419A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910638624.9A CN110379419A (zh) 2019-07-16 2019-07-16 基于卷积神经网络的语音特征匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910638624.9A CN110379419A (zh) 2019-07-16 2019-07-16 基于卷积神经网络的语音特征匹配方法

Publications (1)

Publication Number Publication Date
CN110379419A true CN110379419A (zh) 2019-10-25

Family

ID=68253336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910638624.9A Pending CN110379419A (zh) 2019-07-16 2019-07-16 基于卷积神经网络的语音特征匹配方法

Country Status (1)

Country Link
CN (1) CN110379419A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444967A (zh) * 2020-03-30 2020-07-24 腾讯科技(深圳)有限公司 生成对抗网络的训练方法、生成方法、装置、设备及介质
CN111710331A (zh) * 2020-08-24 2020-09-25 城云科技(中国)有限公司 基于多切片深度神经网络的语音立案方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683680A (zh) * 2017-03-10 2017-05-17 百度在线网络技术(北京)有限公司 说话人识别方法及装置、计算机设备及计算机可读介质
CN107944008A (zh) * 2017-12-08 2018-04-20 神思电子技术股份有限公司 一种针对自然语言进行情绪识别的方法
CN108766461A (zh) * 2018-07-17 2018-11-06 厦门美图之家科技有限公司 音频特征提取方法及装置
CN108899051A (zh) * 2018-06-26 2018-11-27 北京大学深圳研究生院 一种基于联合特征表示的语音情感识别模型及识别方法
CN109243490A (zh) * 2018-10-11 2019-01-18 平安科技(深圳)有限公司 司机情绪识别方法及终端设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683680A (zh) * 2017-03-10 2017-05-17 百度在线网络技术(北京)有限公司 说话人识别方法及装置、计算机设备及计算机可读介质
CN107944008A (zh) * 2017-12-08 2018-04-20 神思电子技术股份有限公司 一种针对自然语言进行情绪识别的方法
CN108899051A (zh) * 2018-06-26 2018-11-27 北京大学深圳研究生院 一种基于联合特征表示的语音情感识别模型及识别方法
CN108766461A (zh) * 2018-07-17 2018-11-06 厦门美图之家科技有限公司 音频特征提取方法及装置
CN109243490A (zh) * 2018-10-11 2019-01-18 平安科技(深圳)有限公司 司机情绪识别方法及终端设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
王迈: "《语言形式化原理》", 31 January 2016 *
陈敏: "《认知计算导论》", 31 May 2017 *
韩志艳: "《语音识别及语音可视化技术研究》", 31 January 2017 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444967A (zh) * 2020-03-30 2020-07-24 腾讯科技(深圳)有限公司 生成对抗网络的训练方法、生成方法、装置、设备及介质
CN111444967B (zh) * 2020-03-30 2023-10-31 腾讯科技(深圳)有限公司 生成对抗网络的训练方法、生成方法、装置、设备及介质
CN111710331A (zh) * 2020-08-24 2020-09-25 城云科技(中国)有限公司 基于多切片深度神经网络的语音立案方法和装置

Similar Documents

Publication Publication Date Title
CN103280216B (zh) 改进依赖上下文的语音识别器对环境变化的鲁棒性
CN109767765A (zh) 话术匹配方法及装置、存储介质、计算机设备
CN110782335A (zh) 基于人工智能处理信贷数据的方法、装置及存储介质
CN112487810B (zh) 一种智能客服服务方法、装置、设备及存储介质
CN110890088B (zh) 语音信息反馈方法、装置、计算机设备和存储介质
CN109360572A (zh) 通话分离方法、装置、计算机设备及存储介质
CN105549841A (zh) 一种语音交互方法、装置及设备
CN110751960B (zh) 噪声数据的确定方法及装置
CN112364622B (zh) 对话文本分析方法、装置、电子装置及存储介质
CN109376363A (zh) 一种基于耳机的实时语音翻译方法及装置
CN112131359A (zh) 一种基于图形化编排智能策略的意图识别方法及电子设备
CN103778915A (zh) 语音识别方法和移动终端
CN110379419A (zh) 基于卷积神经网络的语音特征匹配方法
CN105374357A (zh) 一种语音识别方法、装置及语音控制系统
CN115457938A (zh) 识别唤醒词的方法、装置、存储介质及电子装置
CN106710588B (zh) 语音数据句类识别方法和装置及系统
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
CN113724698B (zh) 语音识别模型的训练方法、装置、设备及存储介质
CN109346065A (zh) 一种语音识别方法及系统
CN113643706B (zh) 语音识别方法、装置、电子设备及存储介质
CN110708619A (zh) 一种智能设备的词向量训练方法及装置
CN110288996A (zh) 一种语音识别装置和语音识别方法
CN116110370A (zh) 基于人机语音交互的语音合成系统及相关设备
CN111128127A (zh) 一种语音识别处理方法及装置
CN114218428A (zh) 音频数据聚类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191025