CN110516509A - 用于语音信号识别方法 - Google Patents

用于语音信号识别方法 Download PDF

Info

Publication number
CN110516509A
CN110516509A CN201810487456.3A CN201810487456A CN110516509A CN 110516509 A CN110516509 A CN 110516509A CN 201810487456 A CN201810487456 A CN 201810487456A CN 110516509 A CN110516509 A CN 110516509A
Authority
CN
China
Prior art keywords
voice signal
identified
characteristic image
image
carries out
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810487456.3A
Other languages
English (en)
Inventor
朱姝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810487456.3A priority Critical patent/CN110516509A/zh
Publication of CN110516509A publication Critical patent/CN110516509A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了用于语音信号识别方法,涉及语音信号图像识别,包括语音信号类别样本、待识别特征图像,还包括以下步骤:S1,获取来自语音信号采集点的待识别特征图像,在空间域中进行分解域变换,使图像信息分解到的多个尺度空间中;S2,利用空间域梯度算子进行待识别特征图像的边缘检测;S3,在图像变换域中,利用小波进行待识别特征图像的边缘检测;S4,提取空间域和变换域中边缘检测获取的待识别特征图像的特征向量;S5,利用人工神经网络进行模式识别。本发明能够有效提取语音信号的边缘,作为理想的特征;能够依据空间域和变换域双重检测,提高识别精度。

Description

用于语音信号识别方法
技术领域
本发明涉及语音信号图像识别,具体涉及用于语音信号识别方法。
背景技术
语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。语音识别主要有以下五个问题:对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则;语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化;语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语中常见;单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等;环境噪声和干扰对语音识别有严重影响,致使识别率低。目前语音信号类别存在识别困难、差异性小,存在干扰时难以识别的问题。
发明内容
本发明所要解决的技术问题是目前语音信号类别存在识别困难、差异性小,存在干扰时难以识别的问题,目的在于提供用于语音信号识别方法,解决上述问题。
本发明通过下述技术方案实现:
用于语音信号识别方法,包括语音信号类别样本、待识别特征图像,还包括以下步骤:
S1,获取来自语音信号采集点的待识别特征图像,在空间域中进行分解域变换,使图像信息分解到的多个尺度空间中;
S2,利用空间域梯度算子进行待识别特征图像的边缘检测;
S3,在图像变换域中,利用小波进行待识别特征图像的边缘检测;
S4,提取空间域和变换域中边缘检测获取的待识别特征图像的特征向量;
S5,利用人工神经网络进行模式识别,将语音信号类别样本进行离线训练,确定权值,与S4获得的特征向量进行运算,实现待识别特征图像的识别。
进一步地,所述S1中的分解域变换采用小波多尺度分解域变换。
进一步地,所述S2中的梯度算子采用高斯拉普拉斯算子。
进一步地,所述S3中的边缘检测结果采用链表进行记录。
进一步地,所述S4中的特征向量采用统计特征。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明用于语音信号识别方法,能够有效提取语音信号的边缘,作为理想的特征;
2、本发明用于语音信号识别方法,能够依据空间域和变换域双重检测,提高识别精度。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
本发明用于语音信号识别方法,包括语音信号类别样本、待识别特征图像,还包括以下步骤:
S1,获取来自语音信号采集点的待识别特征图像,在空间域中进行分解域变换,使图像信息分解到的多个尺度空间中;
S2,利用空间域梯度算子进行待识别特征图像的边缘检测;
S3,在图像变换域中,利用小波进行待识别特征图像的边缘检测;
S4,提取空间域和变换域中边缘检测获取的待识别特征图像的特征向量;
S5,利用人工神经网络进行模式识别,将语音信号类别样本进行离线训练,确定权值,与S4获得的特征向量进行运算,实现待识别特征图像的识别。
所述S1中的分解域变换采用小波多尺度分解域变换。
所述S2中的梯度算子采用高斯拉普拉斯算子。
所述S3中的边缘检测结果采用链表进行记录。
所述S4中的特征向量采用统计特征。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.用于语音信号识别方法,包括语音信号类别样本、待识别特征图像,其特征在于,还包括以下步骤:
S1,获取来自语音信号采集点的待识别特征图像,在空间域中进行分解域变换,使图像信息分解到的多个尺度空间中;
S2,利用空间域梯度算子进行待识别特征图像的边缘检测;
S3,在图像变换域中,利用小波进行待识别特征图像的边缘检测;
S4,提取空间域和变换域中边缘检测获取的待识别特征图像的特征向量;
S5,利用人工神经网络进行模式识别,将语音信号类别样本进行离线训练,确定权值,与S4获得的特征向量进行运算,实现待识别特征图像的识别。
2.根据权利要求1所述的用于语音信号识别方法,其特征在于,所述S1中的分解域变换采用小波多尺度分解域变换。
3.根据权利要求1所述的用于语音信号识别方法,其特征在于,所述S2中的梯度算子采用高斯拉普拉斯算子。
4.根据权利要求1所述的用于语音信号识别方法,其特征在于,所述S3中的边缘检测结果采用链表进行记录。
5.根据权利要求1所述的用于语音信号识别方法,其特征在于,所述S4中的特征向量采用统计特征。
CN201810487456.3A 2018-05-21 2018-05-21 用于语音信号识别方法 Withdrawn CN110516509A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810487456.3A CN110516509A (zh) 2018-05-21 2018-05-21 用于语音信号识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810487456.3A CN110516509A (zh) 2018-05-21 2018-05-21 用于语音信号识别方法

Publications (1)

Publication Number Publication Date
CN110516509A true CN110516509A (zh) 2019-11-29

Family

ID=68621985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810487456.3A Withdrawn CN110516509A (zh) 2018-05-21 2018-05-21 用于语音信号识别方法

Country Status (1)

Country Link
CN (1) CN110516509A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767372A (zh) * 2020-06-30 2020-10-13 北京百度网讯科技有限公司 语音查询的解析方法、解析模型的训练方法、装置、设备
DE102022114376A1 (de) 2022-06-08 2023-12-14 Institut für Luft- und Kältetechnik gemeinnützige Gesellschaft mbH Verfahren zur Regelung des Volumenstroms einer raumlufttechnischen Geräteanordnung, Volumenstromregler und Verwendung hierfür

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767372A (zh) * 2020-06-30 2020-10-13 北京百度网讯科技有限公司 语音查询的解析方法、解析模型的训练方法、装置、设备
CN111767372B (zh) * 2020-06-30 2023-08-01 北京百度网讯科技有限公司 语音查询的解析方法、解析模型的训练方法、装置、设备
DE102022114376A1 (de) 2022-06-08 2023-12-14 Institut für Luft- und Kältetechnik gemeinnützige Gesellschaft mbH Verfahren zur Regelung des Volumenstroms einer raumlufttechnischen Geräteanordnung, Volumenstromregler und Verwendung hierfür

Similar Documents

Publication Publication Date Title
Wang et al. Deep extractor network for target speaker recovery from single channel speech mixtures
Sarikaya et al. High resolution speech feature parametrization for monophone-based stressed speech recognition
Tachioka et al. Discriminative methods for noise robust speech recognition: A CHiME challenge benchmark
Zubair et al. Dictionary learning based sparse coefficients for audio classification with max and average pooling
CN108962229B (zh) 一种基于单通道、无监督式的目标说话人语音提取方法
CN109410956B (zh) 一种音频数据的对象识别方法、装置、设备及存储介质
CN103236260A (zh) 语音识别系统
CN111524527A (zh) 话者分离方法、装置、电子设备和存储介质
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN110516509A (zh) 用于语音信号识别方法
CN116092512A (zh) 一种基于数据生成的小样本语音分离方法
CN118212929A (zh) 一种个性化Ambisonics语音增强方法
Do et al. Speech Separation in the Frequency Domain with Autoencoder.
KR101802444B1 (ko) 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법
CN110807370B (zh) 一种基于多模态的会议发言人身份无感确认方法
Ravindran et al. Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing
Wang et al. Robust speech recognition from ratio masks
Sekkate et al. Fusing wavelet and short-term features for speaker identification in noisy environment
Chou et al. Automatic birdsong recognition with MFCC based syllable feature extraction
CN110503939A (zh) 用于语音信号特征选择的方法
Potamitis et al. Spectral and cepstral projection bases constructed by independent component analysis
Nichie et al. Voice recognition using artificial neural networks and Gaussian mixture models
Verma et al. Text independent speaker identification using wavelet transform
Li et al. An investigation of speaker clustering algorithms in adverse acoustic environments
CN114400009B (zh) 声纹识别方法、装置以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20191129

WW01 Invention patent application withdrawn after publication