CN110930995B - 一种应用于电力行业的语音识别模型 - Google Patents
一种应用于电力行业的语音识别模型 Download PDFInfo
- Publication number
- CN110930995B CN110930995B CN201911170047.1A CN201911170047A CN110930995B CN 110930995 B CN110930995 B CN 110930995B CN 201911170047 A CN201911170047 A CN 201911170047A CN 110930995 B CN110930995 B CN 110930995B
- Authority
- CN
- China
- Prior art keywords
- voice
- information
- speech
- features
- power industry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 26
- 238000013527 convolutional neural network Methods 0.000 claims description 23
- 230000004927 fusion Effects 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 230000005012 migration Effects 0.000 claims description 5
- 238000013508 migration Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 239000013598 vector Substances 0.000 description 13
- 238000000034 method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007474 system interaction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及人工智能客服及智能语音分析技术领域,具体公开了一种应用于电力行业的语音识别模型,包括:预处理语音数据;语音数据包含电力行业特有语音和带有地域特征的语音数据(例如方言);分别提取语音特征;将语音特征进行训练;得到适用于电力行业的语音识别模型。语音识别效率更高,能识别不同地域人员的语音,不需要人工干预,大大减少了人力成本。
Description
技术领域
本发明涉及语音识别技术领域,特别是涉及一种应用于电力行业的语音识别模型。
背景技术
随着近年来电力行业应用的不断发展,智能电网领域发展迅猛,中国电网已经形成了一个跨越巨大时空的跨区跨省特高压交直流混联大电网。电力调度乃至客服领域需要高效协同,共同应对电网大的冲击、扰动、连锁故障。
传统的电力调度交互方式在大型电网事故处理时存在因多个电话同时呼叫造成信息堵塞,造成严重后果,各级间调度信息相互隔离,形成信息孤岛,不能满足高效协同的要求。随着网络和人工智能技术的发展与兴起,基于人工智能技术的多级协同平台是解决这一问题的有效方案。其中语音识别在电网调度中的应用是关键技术之一,将各级调度机构的调度语音进行识别转换成文字之后在平台上共享,可以有效解决信息闭塞的问题,大大的提高了电网故障的排除效率,有利于迅速处理电网事故。并且,该技术还可用于查找调度日志语音记录、电网调度控制系统交互、智能客服等领域,大大减轻了调度员的压力,提高指挥效率。
在语音识别技术领域,常用的基于隐马尔科夫模型(hidden Markov Model,HMM)、高斯混合模型(Gaussian mixture model,GMM)及其扩展,有力的推动了语音识别模型的发展。随着人工智能、深度学习等技术的发展,在语音识别领域出现了循环神经网络(RNN),长短期记忆(LSTM)网络等结构,大大的提高了语音识别的准确率。但是模型存在训练难度大,不能很好的适应特定的领域的问题。
发明内容
本发明要解决的技术问题是克服现有的缺陷,提供一种基于人工智能的应用于电力行业的语音识别模型,语音识别模型的训练难度低,融合了地域信息,能识别不同地区调度员的语音,能够适应多种特定的领域(例如电力行业)。
为解决上述问题,本发明实例提供了一种应用于电力行业的语音识别模型,包括以下形成步骤:
步骤一,对语音信号进行数据增强和数据迁移来增加训练数据,所述语音信号为地域信息的语音信号和电力行业通用语音信号;
步骤二,对所述地域信息的语音信号和所述电力行业通用语音信号进行预处理后再通过卷积神经网络进行特征提取,分别得到地域语音信息特征和通用语音信息特征;对应公式表示如下:
Zlocal=Wlocal*xlocal+blocal
Zvoice=Wvoice*xvoice+bvoice
其中Zlocal表示通过卷积神经网络后的地域语音信息特征,Wlocal表示地域语音信息特征的权重,xlocal表示地域语音信息卷积神经网络全连接层的输出, blocal表示地域语音信息特征的偏置;其中Zvoice表示通过卷积神经网络后的通用语音信息特征,Wvoice表示通用语音信息特征的权重,xvoice表示通用语音信息的卷积神经网络全连接层的输出,bvoice表示通用语音信息特征的偏置;
步骤三,所述地域语音信息特征和所述通用语音信息特征通过激活函数进行特征融合,得到融合特征;对应公式表示如下:
ylocal=softmax(Zlocal)
yvoice=softmax(Zvoice)
yfunction=ρyvoice+γylocal
ylocal表示地域语音信息特征经过激活函数softmax后的输出,yvoice表示通用语音信息特征经过激活函数softmax后的输出,yfunction表示融合后的融合特征,ρ、γ表示融合的权重;
步骤四,对所述融合特征通过长短期记忆网络进行学习训练,长短期记忆网络使用的损失函数公式如下:
其中,flose为损失函数,A为学习的权重,β为学习偏置,G()为高斯函数,σ为正态分布的标准差,x为语音序列。
优选的,步骤一中所述数据增强包括对所述语音数据进行时域调整、频域覆盖以及时域覆盖。
优选的,步骤一中所述数据增强包括对所述语音信号依次进行预加重、分帧、加窗以及快速傅立叶变换处理,其中,快速傅立叶变换处理的函数如下:
其中X(I)表示快速傅里叶变换后的数据,x(i)为采样的模拟信号,i、I 分别代表不同间隔的时序,w为常数。
优选的,步骤二中的所述特征提取包括:先将所述语音数据经过梅尔滤波器组进行降维处理,再取对数,以得到所述语音预处理数据。
优选的,所述语音特征向量包括梅尔频率倒谱系数,将得到的语音特征向量的能量谱通过快速傅里叶变换得到语谱图。
优选的,所述语谱图和地域语音信息输入至卷积神经网络(CNN)进行训练和识别,分别得到地域特征和语音特征。
优选的,所述步骤三中特征融合采用加法规则,将所述地域信息和语音信息加权之后相加,即得到融合特征。所述卷积神经网络连接有注意力机制的长短期记忆网络(LSTM),所述融合特征输入所述有注意力机制的长短期记忆网络后形成所述语音识别模型。
与现有技术相比,本发明实例的有益效果是:采用数据增强方法来增加训练数据,增加地域信息更加适用于电力行业不同区域调度人员口音不同的情况,以此增强语音识别模型的鲁棒性,且本发明的特征提取方式可以有效的提取出语音特征向量,使得语音特征向量训练得到的语音识别模型的后验概率更准确,此外,本发明还采用了注意力机制的长短期记忆网络来增强语音识别模型的学习能力。
附图说明
图1为本发明的应用于电力行业的语音识别模型的形成步骤的整体流程图;
图2为本发明的应用于电力行业的语音识别模型的形成步骤中的数据预处理的具体流程框图;
图3为本发明的应用于电力行业的语音识别模型的形成步骤中的模型结构框图;
图4为本发明的应用于电力行业的语音识别模型的形成步骤中的卷积神经网络框图;
图5为本发明的应用于电力行业的语音识别模型的形成步骤中的特征融合结构框图。
图6为本发明的应用于电力行业的语音识别模型的形成步骤中的注意力机制的长短期记忆网络结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中模型方案进行完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种应用于电力行业的语音识别模型,该语音识别模型的形成步骤为:
步骤一,对语音信号进行数据增强和数据迁移来增加训练数据,所述语音信号为地域信息的语音信号和电力行业通用语音信号;在本发明实施例中所述数据增强采用时间维度上的尺度变换(Time Stretch)(具体包括时域调整、频域覆盖以及时域覆盖)和音调调整(Pitch Shift)的方法,数据迁移则使用多个领域的语音数据来增加数据量,达到增强模型的泛化能力;
步骤二,对语音信号进行预处理,通过预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组滤波、取对数等方式处理得到滤波器组(FILTER BANK) 特征,滤波器组特征包括电力行业通用语音信号的滤波器组特征以及地域信息的语音信号的滤波器组特征,具体过程如图2所示;
在本发明实施例中采用获取滤波器组(FILTER BANK)特征的方法,相比其他常用的方法,计算量更小,特征相关性更高,并且可以降低错误率;步骤二中涉及到的部分函数公式如下:
加窗函数:
其中W为窗函数;N为语音序列的长度取样;n为取样的的序列;θ为常数,取值为0.46;
滤波器组(FILTER BANK)特征公式如下:
magnitude=sqrt(R^2+E^2);
其中magnitude为得到的语音特征向量,R为实时输入的语音序列,E为频率图像。
梅尔滤波公式如下:
b为语音特征向量(即magnitude);j为语音序列采样的值;f为语音序列的频率;M为得到的能量谱;
将能量谱进行快速傅里叶变换得到语谱图并将语谱图输入给卷积神经网络进行训练和识别,卷积神经网络将语谱图当作有特定模式的图像进行识别。卷积神经网络的网络结构如图4所示。这样能有效避免了语音信号在频域和时域两个维度的信息损失,并且语音特征向量在训练过程中比传统算法更快,实现了30%~50%的效率提升。
步骤三,如图5所示,通过卷积神经网络得到的地域特征向量和语音特征量经过激活函数softmax压缩至【0,1】范围,再将压缩后的向量加权相加得到融合特征。对应公式表示如下:
Zlocal=Wlocal*xlocal+blocal
Zvoice=Wvoice*xvoice+bvoice
ylocal=softmax(Zlocal)
yvoice=softmax(Zvoice)
yfunction=ρyvoice+γylocal
其中Zlocal表示通过卷积神经网络后的地域信息特征,Wlocal表示地域信息特征的权重,xlocal表示地域信息卷积神经网络全连接层的输出,blocal表示地域信息特征的偏置;其中Zvoice表示通过卷积神经网络后的语音信息特征,Wvoice表示语音信息特征的权重,xvoice表示语音信息的卷积神经网络全连接层的输出,bvoice表示语音信息特征的偏置;ylocal表示地域信息特征经过激活函数 softmax后的输出,yvoice表示语音信息特征经过激活函数softmax后的输出, yfunction表示融合后的融合特征,ρ,γ表示融合的权重。
步骤四,在特征融合后使用注意力机制的长短期记忆网络作为语音识别模型的输出结构,有效的提升了网络的鲁棒性,利用注意力机制的长短期记忆网络学习输入特征与文本标注之间对齐的能力,得到的性能优于传统的长短期记忆网络。利用注意力机制的长短期记忆网络的多任务学习框架对不同时刻的特征向量进行加权,从而加强鲁棒性。注意力机制的长短期记忆网络模型如下:
et=Attend(xt,st-1,αt-1),
其中x为输入特征,α为权值,t、l为每一帧;exp为指数函数;
对所述语音特征向量进行训练得到语音识别模型,语音识别模型使用新的损失函数,损失函数公式如下:
其中,flose为损失函数;A为学习的权重;β为学习偏置;G()为高斯函数;σ为正态分布的标准差;
使用本发明所述损失函数,相比传统的神经网络损失函数,模型更容易收敛,更好的评估预测值与真实值之间的距离。
通过测试数据的实际测试,相比于传统的语音识别算法,本发明的语音识别模型将原来的识别准确率从70%提升至81%,并且能有效的识别不同地域的调度员或客户的语音,能更好的适用于电力行业,达到更好的准确性。
综上所述,本发明实例中的应用于电力行业的语音识别模型,首先通过对电力行业特有的语音信号进行数据增强和数据迁移,得到更多的训练数据。并且加入了地域信息,增加了信息量,再通过对训练数据进行预处理和提取特征得到语音特征向量和地域信息特征,将两重特征进行特征融合打到了更丰富的语义信息,增加识别率。并在最后加上有注意力机制的长短期记忆网络,加强模型的鲁棒性,使其能够更好的适应电力行业的要求。以此减少了人力成本,提高了电力行业的调度效率,并且该模型还可用于客服的交互,也有很好的效果。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种应用于电力行业的语音识别模型,其特征在于,包括以下形成步骤:
步骤一,对语音信号进行数据增强和数据迁移来增加训练数据,所述语音信号为地域信息的语音信号和电力行业通用语音信号;
步骤二,对所述地域信息的语音信号和所述电力行业通用语音信号进行预处理后再通过卷积神经网络进行特征提取,分别得到地域语音信息特征和通用语音信息特征;对应公式表示如下:
Zlocal=Wlocal*xlocal+blocal
Zvoice=Wvoice*xvoice+bvoice
其中Zlocal表示通过卷积神经网络后的地域语音信息特征,Wlocal表示地域语音信息特征的权重,xlocal表示地域语音信息卷积神经网络全连接层的输出,blocal表示地域语音信息特征的偏置;其中Zvoice表示通过卷积神经网络后的通用语音信息特征,Wvoice表示通用语音信息特征的权重,xvoice表示通用语音信息的卷积神经网络全连接层的输出,bvoice表示通用语音信息特征的偏置;
步骤三,所述地域语音信息特征和所述通用语音信息特征通过激活函数进行特征融合,得到融合特征;对应公式表示如下:
ylocal=softmax(Zlocal)
yvoice=softmax(Zvoice)
yfunction=ρyvoice+γylocal
ylocal表示地域语音信息特征经过激活函数softmax后的输出,yvoice表示通用语音信息特征经过激活函数softmax后的输出,yfunction表示融合后的融合特征,ρ、γ表示融合的权重;
步骤四,对所述融合特征通过长短期记忆网络进行学习训练,长短期记忆网络使用的损失函数公式如下:
其中,flose为损失函数,A为学习的权重,β为学习偏置,G()为高斯函数,σ为正态分布的标准差,x为语音序列。
2.根据权利要求1所述的应用于电力行业的语音识别模型,其特征在于,步骤一中所述数据增强包括对所述语音信号进行时域调整、频域覆盖以及时域覆盖。
3.根据权利要求2所述的应用于电力行业的语音识别模型,其特征在于,步骤二中所述预处理包括对所述语音信号依次进行预加重、分帧、加窗以及快速傅立叶变换处理。
4.根据权利要求3所述的应用于电力行业的语音识别模型,其特征在于,步骤二中的所述预处理还包括:将所述语音信号的地域信息的语音信号和电力行业通用语音信号分别经过梅尔滤波器组进行降维处理,再取对数得到滤波器组(FILTER BANK)特征,并依据电力行业通用语音信号的滤波器组特征转换成语谱图。
5.根据权利要求4所述的应用于电力行业的语音识别模型,其特征在于,所述语谱图和地域信息的语音信号的滤波器组特征输入至卷积神经网络(CNN)进行训练和特征提取,分别得到地域信息特征和语音信息特征。
6.根据权利要求5所述应用于电力行业的语音识别模型,其特征在于,对所述地域信息特征和语音信息特征进行特征融合形成所述融合特征。
7.根据权利要求6所述应用于电力行业的语音识别模型,其特征在于,将所述融合特征输入至有注意力机制的长短期记忆网络,进行特征的学习。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911170047.1A CN110930995B (zh) | 2019-11-26 | 2019-11-26 | 一种应用于电力行业的语音识别模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911170047.1A CN110930995B (zh) | 2019-11-26 | 2019-11-26 | 一种应用于电力行业的语音识别模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110930995A CN110930995A (zh) | 2020-03-27 |
CN110930995B true CN110930995B (zh) | 2022-02-11 |
Family
ID=69851093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911170047.1A Expired - Fee Related CN110930995B (zh) | 2019-11-26 | 2019-11-26 | 一种应用于电力行业的语音识别模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110930995B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102816A (zh) * | 2020-08-17 | 2020-12-18 | 北京百度网讯科技有限公司 | 语音识别方法、装置、系统、电子设备和存储介质 |
CN112349168A (zh) * | 2020-11-10 | 2021-02-09 | 国网天津静海供电有限公司 | 电力调控员沟通协调仿真培训系统及方法 |
CN112489627A (zh) * | 2020-11-18 | 2021-03-12 | 武汉工程大学 | 一种工业流水线音频识别方法、装置及存储介质 |
CN112435686A (zh) * | 2020-11-19 | 2021-03-02 | 中国南方电网有限责任公司超高压输电公司 | 一种基于数据增强的电力设备故障声音识别方法 |
CN112712814A (zh) * | 2020-12-04 | 2021-04-27 | 中国南方电网有限责任公司 | 一种基于深度学习算法的声纹识别方法 |
CN116386603A (zh) * | 2023-06-01 | 2023-07-04 | 蔚来汽车科技(安徽)有限公司 | 语音识别方法、设备、驾驶设备和介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150095027A1 (en) * | 2013-09-30 | 2015-04-02 | Google Inc. | Key phrase detection |
CN106934456A (zh) * | 2017-03-16 | 2017-07-07 | 山东理工大学 | 一种深度卷积神经网络模型构建方法 |
CN107203769A (zh) * | 2017-04-27 | 2017-09-26 | 天津大学 | 基于dct和lbp特征融合的图像特征提取方法 |
CN108172218A (zh) * | 2016-12-05 | 2018-06-15 | 中国移动通信有限公司研究院 | 一种语音建模方法及装置 |
US20190189112A1 (en) * | 2016-07-22 | 2019-06-20 | Baidu Online Network Technology (Beijing) Co., Ltd. | Voice recognition processing method, device and computer storage medium |
CN110189749A (zh) * | 2019-06-06 | 2019-08-30 | 四川大学 | 语音关键词自动识别方法 |
WO2019172734A2 (ko) * | 2019-05-30 | 2019-09-12 | 엘지전자 주식회사 | 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템 |
CN110415687A (zh) * | 2019-05-21 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、介质、电子设备 |
CN110428820A (zh) * | 2019-08-27 | 2019-11-08 | 深圳大学 | 一种中英文混合语音识别方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9190053B2 (en) * | 2013-03-25 | 2015-11-17 | The Governing Council Of The Univeristy Of Toronto | System and method for applying a convolutional neural network to speech recognition |
CN110415683A (zh) * | 2019-07-10 | 2019-11-05 | 上海麦图信息科技有限公司 | 一种基于深度学习的空中管制语音指令识别方法 |
-
2019
- 2019-11-26 CN CN201911170047.1A patent/CN110930995B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150095027A1 (en) * | 2013-09-30 | 2015-04-02 | Google Inc. | Key phrase detection |
US20190189112A1 (en) * | 2016-07-22 | 2019-06-20 | Baidu Online Network Technology (Beijing) Co., Ltd. | Voice recognition processing method, device and computer storage medium |
CN108172218A (zh) * | 2016-12-05 | 2018-06-15 | 中国移动通信有限公司研究院 | 一种语音建模方法及装置 |
CN106934456A (zh) * | 2017-03-16 | 2017-07-07 | 山东理工大学 | 一种深度卷积神经网络模型构建方法 |
CN107203769A (zh) * | 2017-04-27 | 2017-09-26 | 天津大学 | 基于dct和lbp特征融合的图像特征提取方法 |
CN110415687A (zh) * | 2019-05-21 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、介质、电子设备 |
WO2019172734A2 (ko) * | 2019-05-30 | 2019-09-12 | 엘지전자 주식회사 | 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템 |
CN110189749A (zh) * | 2019-06-06 | 2019-08-30 | 四川大学 | 语音关键词自动识别方法 |
CN110428820A (zh) * | 2019-08-27 | 2019-11-08 | 深圳大学 | 一种中英文混合语音识别方法及装置 |
Non-Patent Citations (3)
Title |
---|
Audio-visual feature fusion via deep neural networks for automatic speech recognition;Mohammad Hasan Rahmani et al.;《Digital Signal Processing》;20180730;第54-63页 * |
生成对抗网络在各领域应用研究进展;刘建伟 等;《自动化学报》;20190625;第1-38页 * |
电力智能客服实现的技术研究;张千福 等;《数字通信世界》;20190531;第121-122页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110930995A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110930995B (zh) | 一种应用于电力行业的语音识别模型 | |
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN108597539B (zh) | 基于参数迁移和语谱图的语音情感识别方法 | |
US11908455B2 (en) | Speech separation model training method and apparatus, storage medium and computer device | |
CN109357749A (zh) | 一种基于dnn算法的电力设备音频信号分析方法 | |
CN108717856A (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
CN112509564A (zh) | 基于连接时序分类和自注意力机制的端到端语音识别方法 | |
CN106952643A (zh) | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 | |
CN110534132A (zh) | 一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法 | |
CN105206270A (zh) | 一种组合pca和rbm的孤立数字语音识别分类系统及方法 | |
CN109559736A (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
CN111461025B (zh) | 一种自主进化的零样本学习的信号识别方法 | |
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
CN110853656A (zh) | 基于改进神经网络的音频篡改识别算法 | |
CN114023354A (zh) | 基于聚焦损失函数的指导型声学事件检测模型训练方法 | |
CN113763965A (zh) | 一种多重注意力特征融合的说话人识别方法 | |
CN112927709A (zh) | 一种基于时频域联合损失函数的语音增强方法 | |
CN114387997B (zh) | 一种基于深度学习的语音情感识别方法 | |
CN111090726A (zh) | 一种基于nlp的电力行业文字客服交互方法 | |
CN114783418A (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
CN109190471B (zh) | 基于自然语言描述的视频监控行人搜索的注意力模型方法 | |
CN115249479A (zh) | 基于brnn的电网调度复杂语音识别方法、系统及终端 | |
CN106448660A (zh) | 一种引入大数据分析的自然语言模糊边界确定方法 | |
CN112712814A (zh) | 一种基于深度学习算法的声纹识别方法 | |
CN112863485A (zh) | 口音语音识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220211 |
|
CF01 | Termination of patent right due to non-payment of annual fee |