CN109360554A - 一种基于语深度神经网络的语言识别方法 - Google Patents
一种基于语深度神经网络的语言识别方法 Download PDFInfo
- Publication number
- CN109360554A CN109360554A CN201811514704.5A CN201811514704A CN109360554A CN 109360554 A CN109360554 A CN 109360554A CN 201811514704 A CN201811514704 A CN 201811514704A CN 109360554 A CN109360554 A CN 109360554A
- Authority
- CN
- China
- Prior art keywords
- language
- voice
- carried out
- word
- characteristic parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 12
- 230000009466 transformation Effects 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000012512 characterization method Methods 0.000 claims abstract description 6
- 230000003203 everyday effect Effects 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 230000004807 localization Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于语深度神经网络的语言识别方法,S11、采用双正交小波变换对输入的语音信息进行滤波处理;S12、采用梅尔频率倒谱系数提取能够反映语音信号特征的关键特征参数所形成的特征序列;S13、使用训练语音库的特征参数进行声学模型的训练;S14、使用文本数据库的特征参数进行语言模型训练;S15、建立解码器,针对输入的语音信号,根据已经训练好的HMM声学模型、语言模型及字典建立识别网络;S16、根据步骤S15,解码器在文本库中检索与待识别的语音特征参数匹配的词,并判断该词对应的前后关联常用词,并根据步骤S14中识别的语法和语音进行排序,最终转换为文本信息;本发明有具有识别效率高、语音转换准确的优点。
Description
技术领域
本发明属于语言识别方法技术领域,具体涉及一种基于语深度神经网络的语言识别方法。
背景技术
几年来,随着科技的不断发展进步,人们在进行笔记时,已经由最初的纸质记录演变为现在的采用电子产品进行记录,采用单子产品进行记录的方式多数是采用打字记录或者录音记录的方式,然后及时是录音记录的方式,后续也需要将录音转换为文本形式进行存储,这种记录方式无疑也为记录人员造成了工作负担。因此,目前出现了直接将语音转换为本的记录方式,其具体方式是将语音直接转换为文字文本信息,然后将文字文本信息进行存储,然而目前在进行语音转换时,进行语音信息输入时,由于说话者所处周围环境等因素的影响,输入的语音信息多有噪音,从而导致对识别到的语音进行文本信息转换时,出现转换不准确。
发明内容
本发明的目的是克服现有技术的不足而提供一种有效避免高频噪声影响的配电网初始故障定位方法及预警方法。
本发明的技术方案如下:
一种基于语深度神经网络的语言识别方法,具体过程如下:
S11、采用双正交小波变换对输入的语音信息进行滤波处理,去除语音信息中不重要的信息和背景噪音;
S12、采用梅尔频率倒谱系数提取能够反映语音信号特征的关键特征参数所形成的特征序列;
S13、使用训练语音库的特征参数进行声学模型的训练,具体的,将待识别的语音的特征参数与声学模型进行匹配;
S14、使用文本数据库的特征参数进行语言模型训练,具体的,将待识别的语音的特征参数与语言的语法和语义进行匹配;
S15、建立解码器,针对输入的语音信号,根据已经训练好的HMM声学模型、语言模型及字典建立识别网络;
S16、根据步骤S15,解码器在文本库中检索与待识别的语音特征参数匹配的词,并判断该词对应的前后关联常用词,并根据步骤S14中识别的语法和语音进行排序,最终转换为文本信息。
进一步,所述步骤S16的具体做法是,建立关联词文本库,即根据训练的语言文本库中出现频次较高的词语作为特征参数词语,并建立该特征参数词语的常用关联词语。
进一步,所述步骤S12的具体提取过程为:
S31、将经过滤波处理后的语音信息进行预加重处理后进行分帧处理;
S32、对分帧处理后的语音信号的每一帧进行离散FFT变换并将时域信号转换为频域信号;
S33、采用Mel滤波器组对S32得到的频域信号进行计算得到Mel频谱,接着在Mel频谱基础上采用DCT离散余弦变换进行倒谱分析即取对数、做逆变操作;
S34、应用差分原理去掉步骤S33中DCT后信号的直流成分,即获得Mel频率到普系数MFCC。
与现有技术相比,本发明的有益效果是:
本发明采用双正交小波变换去除语音信息中不重要的信息和背景噪音,有效提高语音信息中特征参数的分析与提取;并且,本发明建立识别网络,通过解码器在文本库中检索与待识别的语音特征参数匹配的词,并判断该词对应的前后关联常用词,从而提高语音识别的效率;另外,本发明通过梅尔频率倒谱系数对语音信号的关键特征参数进行精确提取,并形成完成的序列,从而便于后续程序中语音信息转换。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于语深度神经网络的语言识别方法,具体过程如下:
S11、采用双正交小波变换对输入的语音信息进行滤波处理,去除语音信息中不重要的信息和背景噪音;
S12、采用梅尔频率倒谱系数提取能够反映语音信号特征的关键特征参数所形成的特征序列;
S13、使用训练语音库的特征参数进行声学模型的训练,具体的,将待识别的语音的特征参数与声学模型进行匹配;
S14、使用文本数据库的特征参数进行语言模型训练,具体的,将待识别的语音的特征参数与语言的语法和语义进行匹配;
S15、建立解码器,针对输入的语音信号,根据已经训练好的HMM声学模型、语言模型及字典建立识别网络;
S16、根据步骤S15,解码器在文本库中检索与待识别的语音特征参数匹配的词,并判断该词对应的前后关联常用词,并根据步骤S14中识别的语法和语音进行排序,最终转换为文本信息。
进一步,所述步骤S16的具体做法是,建立关联词文本库,即根据训练的语言文本库中出现频次较高的词语作为特征参数词语,并建立该特征参数词语的常用关联词语。
进一步,所述步骤S12的具体提取过程为:
S31、将经过滤波处理后的语音信息进行预加重处理后进行分帧处理;
S32、对分帧处理后的语音信号的每一帧进行离散FFT变换并将时域信号转换为频域信号;
S33、采用Mel滤波器组对S32得到的频域信号进行计算得到Mel频谱,接着在Mel频谱基础上采用DCT离散余弦变换进行倒谱分析即取对数、做逆变操作;
S34、应用差分原理去掉步骤S33中DCT后信号的直流成分,即获得Mel频率到普系数MFCC。
本实施例中采用双正交小波变换去除高频噪声的依据如下:
傅里叶变换无法对对于心电等非稳定信号中时间特性加以分析;小波变换良好的空间和频域局部化特性,使其可以对信号在时域和频域上进行多尺度细化分析,可以有效地从心电信号中提取信号信息
连续小波变换基本定义如下:
其中a为尺度因子,τ为平移因子,称ψa,τ(t)为小波基函数:
由于a和τ是连续变换的值,所以称其为连续小波变换;但连续小波变换实际运算过程复杂,且二位计算存在大量冗余,所以常将连续小波加以离散,得到离散小波变换,实际应用时采用二进的动态采样网络得到小波:
二进小波由于是对尺度参数进行了离散,而平移参数保持连续变化,它所具有的平移不变性使得其非常适合模式识别和信号检测;
而双正交小波(Biorthogonal wavelet)具有低复杂度、高实时性以及多尺度特性,且运算简单,本实施例选择双正交小波变换在心电信号特征提取时对信号进行变换以去除高频噪声。
本发明采用双正交小波变换去除语音信息中不重要的信息和背景噪音,有效提高语音信息中特征参数的分析与提取;并且,本发明建立识别网络,通过解码器在文本库中检索与待识别的语音特征参数匹配的词,并判断该词对应的前后关联常用词,从而提高语音识别的效率;另外,本发明通过梅尔频率倒谱系数对语音信号的关键特征参数进行精确提取,并形成完成的序列,从而便于后续程序中语音信息转换。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于语深度神经网络的语言识别方法,其特征在于,具体过程如下:
S11、采用双正交小波变换对输入的语音信息进行滤波处理,去除语音信息中不重要的信息和背景噪音;
S12、采用梅尔频率倒谱系数提取能够反映语音信号特征的关键特征参数所形成的特征序列;
S13、使用训练语音库的特征参数进行声学模型的训练,具体的,将待识别的语音的特征参数与声学模型进行匹配;
S14、使用文本数据库的特征参数进行语言模型训练,具体的,将待识别的语音的特征参数与语言的语法和语义进行匹配;
S15、建立解码器,针对输入的语音信号,根据已经训练好的HMM声学模型、语言模型及字典建立识别网络;
S16、根据步骤S15,解码器在文本库中检索与待识别的语音特征参数匹配的词,并判断该词对应的前后关联常用词,并根据步骤S14中识别的语法和语音进行排序,最终转换为文本信息。
2.如权利要求1所述的一种基于语深度神经网络的语言识别方法,其特征在于:所述步骤S16的具体做法是,建立关联词文本库,即根据训练的语言文本库中出现频次较高的词语作为特征参数词语,并建立该特征参数词语的常用关联词语。
3.如权利要求1所述的一种基于语深度神经网络的语言识别方法,其特征在于,所述步骤S12的具体提取过程为:
S31、将经过滤波处理后的语音信息进行预加重处理后进行分帧处理;
S32、对分帧处理后的语音信号的每一帧进行离散FFT变换并将时域信号转换为频域信号;
S33、采用Mel滤波器组对S32得到的频域信号进行计算得到Mel频谱,接着在Mel频谱基础上采用DCT离散余弦变换进行倒谱分析即取对数、做逆变操作;
S34、应用差分原理去掉步骤S33中DCT后信号的直流成分,即获得Mel频率到普系数MFCC。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811514704.5A CN109360554A (zh) | 2018-12-10 | 2018-12-10 | 一种基于语深度神经网络的语言识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811514704.5A CN109360554A (zh) | 2018-12-10 | 2018-12-10 | 一种基于语深度神经网络的语言识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109360554A true CN109360554A (zh) | 2019-02-19 |
Family
ID=65330472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811514704.5A Pending CN109360554A (zh) | 2018-12-10 | 2018-12-10 | 一种基于语深度神经网络的语言识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109360554A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047502A (zh) * | 2019-04-18 | 2019-07-23 | 广州九四智能科技有限公司 | 噪声环境下层级式语音降噪识别方法及系统 |
CN110415697A (zh) * | 2019-08-29 | 2019-11-05 | 的卢技术有限公司 | 一种基于深度学习的车载语音控制方法及其系统 |
CN111787380A (zh) * | 2020-07-06 | 2020-10-16 | 四川长虹网络科技有限责任公司 | 语音换台控制方法、装置和手持智能终端 |
CN112133288A (zh) * | 2020-09-22 | 2020-12-25 | 中用科技有限公司 | 一种语音转文字的处理方法、系统及设备 |
CN112365882A (zh) * | 2020-11-30 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成方法及模型训练方法、装置、设备及存储介质 |
CN112951237A (zh) * | 2021-03-18 | 2021-06-11 | 深圳奇实科技有限公司 | 一种基于人工智能的自动语音识别方法及系统 |
WO2021159756A1 (zh) * | 2020-09-04 | 2021-08-19 | 平安科技(深圳)有限公司 | 基于多模态的响应义务检测方法、系统及装置 |
CN113823275A (zh) * | 2021-09-07 | 2021-12-21 | 广西电网有限责任公司贺州供电局 | 一种用于电网调度的语音识别方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869624A (zh) * | 2016-03-29 | 2016-08-17 | 腾讯科技(深圳)有限公司 | 数字语音识别中语音解码网络的构建方法及装置 |
CN105957518A (zh) * | 2016-06-16 | 2016-09-21 | 内蒙古大学 | 一种蒙古语大词汇量连续语音识别的方法 |
CN106531152A (zh) * | 2016-10-26 | 2017-03-22 | 安徽省云逸智能科技有限公司 | 一种基于htk的连续语音识别系统 |
CN107890348A (zh) * | 2017-11-21 | 2018-04-10 | 郑州大学 | 一种基于深度学习法心电节拍特征自动化提取及分类方法 |
CN108492820A (zh) * | 2018-03-20 | 2018-09-04 | 华南理工大学 | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 |
CN108538286A (zh) * | 2017-03-02 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法以及计算机 |
CN108647346A (zh) * | 2018-05-15 | 2018-10-12 | 苏州东巍网络科技有限公司 | 一种用于可穿戴电子设备的老年人语音交互方法和系统 |
-
2018
- 2018-12-10 CN CN201811514704.5A patent/CN109360554A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869624A (zh) * | 2016-03-29 | 2016-08-17 | 腾讯科技(深圳)有限公司 | 数字语音识别中语音解码网络的构建方法及装置 |
CN105957518A (zh) * | 2016-06-16 | 2016-09-21 | 内蒙古大学 | 一种蒙古语大词汇量连续语音识别的方法 |
CN106531152A (zh) * | 2016-10-26 | 2017-03-22 | 安徽省云逸智能科技有限公司 | 一种基于htk的连续语音识别系统 |
CN108538286A (zh) * | 2017-03-02 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法以及计算机 |
CN107890348A (zh) * | 2017-11-21 | 2018-04-10 | 郑州大学 | 一种基于深度学习法心电节拍特征自动化提取及分类方法 |
CN108492820A (zh) * | 2018-03-20 | 2018-09-04 | 华南理工大学 | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 |
CN108647346A (zh) * | 2018-05-15 | 2018-10-12 | 苏州东巍网络科技有限公司 | 一种用于可穿戴电子设备的老年人语音交互方法和系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047502A (zh) * | 2019-04-18 | 2019-07-23 | 广州九四智能科技有限公司 | 噪声环境下层级式语音降噪识别方法及系统 |
CN110415697A (zh) * | 2019-08-29 | 2019-11-05 | 的卢技术有限公司 | 一种基于深度学习的车载语音控制方法及其系统 |
CN111787380A (zh) * | 2020-07-06 | 2020-10-16 | 四川长虹网络科技有限责任公司 | 语音换台控制方法、装置和手持智能终端 |
WO2021159756A1 (zh) * | 2020-09-04 | 2021-08-19 | 平安科技(深圳)有限公司 | 基于多模态的响应义务检测方法、系统及装置 |
CN112133288A (zh) * | 2020-09-22 | 2020-12-25 | 中用科技有限公司 | 一种语音转文字的处理方法、系统及设备 |
CN112365882A (zh) * | 2020-11-30 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成方法及模型训练方法、装置、设备及存储介质 |
CN112365882B (zh) * | 2020-11-30 | 2023-09-22 | 北京百度网讯科技有限公司 | 语音合成方法及模型训练方法、装置、设备及存储介质 |
CN112951237A (zh) * | 2021-03-18 | 2021-06-11 | 深圳奇实科技有限公司 | 一种基于人工智能的自动语音识别方法及系统 |
CN113823275A (zh) * | 2021-09-07 | 2021-12-21 | 广西电网有限责任公司贺州供电局 | 一种用于电网调度的语音识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109360554A (zh) | 一种基于语深度神经网络的语言识别方法 | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
WO2020173133A1 (zh) | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 | |
CN113012720B (zh) | 谱减法降噪下多语音特征融合的抑郁症检测方法 | |
CN108986824B (zh) | 一种回放语音检测方法 | |
CN112259106A (zh) | 声纹识别方法、装置、存储介质及计算机设备 | |
US20170154640A1 (en) | Method and electronic device for voice recognition based on dynamic voice model selection | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN109256150A (zh) | 基于机器学习的语音情感识别系统及方法 | |
CN113314144B (zh) | 声音识别及电力设备故障预警方法、系统、终端及介质 | |
CN102486920A (zh) | 音频事件检测方法和装置 | |
CN105702251B (zh) | 基于Top-k加强音频词袋模型的语音情感识别方法 | |
Huang et al. | Intelligent feature extraction and classification of anuran vocalizations | |
CN112562736B (zh) | 一种语音数据集质量评估方法和装置 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
CN110473571A (zh) | 基于短视频语音的情感识别方法和装置 | |
CN105845126A (zh) | 一种英语有声影像资料自动加注英语字幕的方法 | |
CN113611286B (zh) | 一种基于共性特征提取的跨语种语音情感识别方法和系统 | |
CN117312548A (zh) | 一种多源异构灾情数据融合理解方法 | |
CN113516987B (zh) | 一种说话人识别方法、装置、存储介质及设备 | |
CN116913323A (zh) | 语音情绪分析方法、装置、设备及计算机程序产品 | |
Zhou et al. | Environmental sound classification of western black-crowned gibbon habitat based on spectral subtraction and VGG16 | |
CN110379438A (zh) | 一种语音信号基频检测与提取方法及系统 | |
CN113257226B (zh) | 一种基于gfcc的改进特征参数的语种识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190219 |