CN110516509A - 用于语音信号识别方法 - Google Patents
用于语音信号识别方法 Download PDFInfo
- Publication number
- CN110516509A CN110516509A CN201810487456.3A CN201810487456A CN110516509A CN 110516509 A CN110516509 A CN 110516509A CN 201810487456 A CN201810487456 A CN 201810487456A CN 110516509 A CN110516509 A CN 110516509A
- Authority
- CN
- China
- Prior art keywords
- voice signal
- identified
- characteristic image
- image
- carries out
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000003708 edge detection Methods 0.000 claims abstract description 15
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 10
- 230000009466 transformation Effects 0.000 claims abstract description 7
- 239000000284 extract Substances 0.000 claims abstract description 5
- 238000013528 artificial neural network Methods 0.000 claims abstract description 4
- 238000003909 pattern recognition Methods 0.000 claims abstract description 4
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 230000008901 benefit Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了用于语音信号识别方法,涉及语音信号图像识别,包括语音信号类别样本、待识别特征图像,还包括以下步骤:S1,获取来自语音信号采集点的待识别特征图像,在空间域中进行分解域变换,使图像信息分解到的多个尺度空间中;S2,利用空间域梯度算子进行待识别特征图像的边缘检测;S3,在图像变换域中,利用小波进行待识别特征图像的边缘检测;S4,提取空间域和变换域中边缘检测获取的待识别特征图像的特征向量;S5,利用人工神经网络进行模式识别。本发明能够有效提取语音信号的边缘,作为理想的特征;能够依据空间域和变换域双重检测,提高识别精度。
Description
技术领域
本发明涉及语音信号图像识别,具体涉及用于语音信号识别方法。
背景技术
语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。语音识别主要有以下五个问题:对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则;语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化;语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语中常见;单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等;环境噪声和干扰对语音识别有严重影响,致使识别率低。目前语音信号类别存在识别困难、差异性小,存在干扰时难以识别的问题。
发明内容
本发明所要解决的技术问题是目前语音信号类别存在识别困难、差异性小,存在干扰时难以识别的问题,目的在于提供用于语音信号识别方法,解决上述问题。
本发明通过下述技术方案实现:
用于语音信号识别方法,包括语音信号类别样本、待识别特征图像,还包括以下步骤:
S1,获取来自语音信号采集点的待识别特征图像,在空间域中进行分解域变换,使图像信息分解到的多个尺度空间中;
S2,利用空间域梯度算子进行待识别特征图像的边缘检测;
S3,在图像变换域中,利用小波进行待识别特征图像的边缘检测;
S4,提取空间域和变换域中边缘检测获取的待识别特征图像的特征向量;
S5,利用人工神经网络进行模式识别,将语音信号类别样本进行离线训练,确定权值,与S4获得的特征向量进行运算,实现待识别特征图像的识别。
进一步地,所述S1中的分解域变换采用小波多尺度分解域变换。
进一步地,所述S2中的梯度算子采用高斯拉普拉斯算子。
进一步地,所述S3中的边缘检测结果采用链表进行记录。
进一步地,所述S4中的特征向量采用统计特征。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明用于语音信号识别方法,能够有效提取语音信号的边缘,作为理想的特征;
2、本发明用于语音信号识别方法,能够依据空间域和变换域双重检测,提高识别精度。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
本发明用于语音信号识别方法,包括语音信号类别样本、待识别特征图像,还包括以下步骤:
S1,获取来自语音信号采集点的待识别特征图像,在空间域中进行分解域变换,使图像信息分解到的多个尺度空间中;
S2,利用空间域梯度算子进行待识别特征图像的边缘检测;
S3,在图像变换域中,利用小波进行待识别特征图像的边缘检测;
S4,提取空间域和变换域中边缘检测获取的待识别特征图像的特征向量;
S5,利用人工神经网络进行模式识别,将语音信号类别样本进行离线训练,确定权值,与S4获得的特征向量进行运算,实现待识别特征图像的识别。
所述S1中的分解域变换采用小波多尺度分解域变换。
所述S2中的梯度算子采用高斯拉普拉斯算子。
所述S3中的边缘检测结果采用链表进行记录。
所述S4中的特征向量采用统计特征。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.用于语音信号识别方法,包括语音信号类别样本、待识别特征图像,其特征在于,还包括以下步骤:
S1,获取来自语音信号采集点的待识别特征图像,在空间域中进行分解域变换,使图像信息分解到的多个尺度空间中;
S2,利用空间域梯度算子进行待识别特征图像的边缘检测;
S3,在图像变换域中,利用小波进行待识别特征图像的边缘检测;
S4,提取空间域和变换域中边缘检测获取的待识别特征图像的特征向量;
S5,利用人工神经网络进行模式识别,将语音信号类别样本进行离线训练,确定权值,与S4获得的特征向量进行运算,实现待识别特征图像的识别。
2.根据权利要求1所述的用于语音信号识别方法,其特征在于,所述S1中的分解域变换采用小波多尺度分解域变换。
3.根据权利要求1所述的用于语音信号识别方法,其特征在于,所述S2中的梯度算子采用高斯拉普拉斯算子。
4.根据权利要求1所述的用于语音信号识别方法,其特征在于,所述S3中的边缘检测结果采用链表进行记录。
5.根据权利要求1所述的用于语音信号识别方法,其特征在于,所述S4中的特征向量采用统计特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810487456.3A CN110516509A (zh) | 2018-05-21 | 2018-05-21 | 用于语音信号识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810487456.3A CN110516509A (zh) | 2018-05-21 | 2018-05-21 | 用于语音信号识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110516509A true CN110516509A (zh) | 2019-11-29 |
Family
ID=68621985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810487456.3A Withdrawn CN110516509A (zh) | 2018-05-21 | 2018-05-21 | 用于语音信号识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110516509A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767372A (zh) * | 2020-06-30 | 2020-10-13 | 北京百度网讯科技有限公司 | 语音查询的解析方法、解析模型的训练方法、装置、设备 |
DE102022114376A1 (de) | 2022-06-08 | 2023-12-14 | Institut für Luft- und Kältetechnik gemeinnützige Gesellschaft mbH | Verfahren zur Regelung des Volumenstroms einer raumlufttechnischen Geräteanordnung, Volumenstromregler und Verwendung hierfür |
-
2018
- 2018-05-21 CN CN201810487456.3A patent/CN110516509A/zh not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767372A (zh) * | 2020-06-30 | 2020-10-13 | 北京百度网讯科技有限公司 | 语音查询的解析方法、解析模型的训练方法、装置、设备 |
CN111767372B (zh) * | 2020-06-30 | 2023-08-01 | 北京百度网讯科技有限公司 | 语音查询的解析方法、解析模型的训练方法、装置、设备 |
DE102022114376A1 (de) | 2022-06-08 | 2023-12-14 | Institut für Luft- und Kältetechnik gemeinnützige Gesellschaft mbH | Verfahren zur Regelung des Volumenstroms einer raumlufttechnischen Geräteanordnung, Volumenstromregler und Verwendung hierfür |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Deep extractor network for target speaker recovery from single channel speech mixtures | |
Sarikaya et al. | High resolution speech feature parametrization for monophone-based stressed speech recognition | |
Tachioka et al. | Discriminative methods for noise robust speech recognition: A CHiME challenge benchmark | |
Zubair et al. | Dictionary learning based sparse coefficients for audio classification with max and average pooling | |
CN108962229B (zh) | 一种基于单通道、无监督式的目标说话人语音提取方法 | |
CN109410956B (zh) | 一种音频数据的对象识别方法、装置、设备及存储介质 | |
CN103236260A (zh) | 语音识别系统 | |
CN111524527A (zh) | 话者分离方法、装置、电子设备和存储介质 | |
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
CN110516509A (zh) | 用于语音信号识别方法 | |
CN116092512A (zh) | 一种基于数据生成的小样本语音分离方法 | |
CN118212929A (zh) | 一种个性化Ambisonics语音增强方法 | |
Do et al. | Speech Separation in the Frequency Domain with Autoencoder. | |
KR101802444B1 (ko) | 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법 | |
CN110807370B (zh) | 一种基于多模态的会议发言人身份无感确认方法 | |
Ravindran et al. | Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing | |
Wang et al. | Robust speech recognition from ratio masks | |
Sekkate et al. | Fusing wavelet and short-term features for speaker identification in noisy environment | |
Chou et al. | Automatic birdsong recognition with MFCC based syllable feature extraction | |
CN110503939A (zh) | 用于语音信号特征选择的方法 | |
Potamitis et al. | Spectral and cepstral projection bases constructed by independent component analysis | |
Nichie et al. | Voice recognition using artificial neural networks and Gaussian mixture models | |
Verma et al. | Text independent speaker identification using wavelet transform | |
Li et al. | An investigation of speaker clustering algorithms in adverse acoustic environments | |
CN114400009B (zh) | 声纹识别方法、装置以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20191129 |
|
WW01 | Invention patent application withdrawn after publication |