CN112669881A - 一种语音检测方法、装置、终端及存储介质 - Google Patents
一种语音检测方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN112669881A CN112669881A CN202011564128.2A CN202011564128A CN112669881A CN 112669881 A CN112669881 A CN 112669881A CN 202011564128 A CN202011564128 A CN 202011564128A CN 112669881 A CN112669881 A CN 112669881A
- Authority
- CN
- China
- Prior art keywords
- voice
- sequence
- microphone
- optimal
- characteristic parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 50
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000001228 spectrum Methods 0.000 claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000012821 model calculation Methods 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 230000015654 memory Effects 0.000 description 12
- 238000012549 training Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000012795 verification Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明实施例公开了一种语音检测方法、装置、终端及存储介质。该方法包括:获取麦克风语音信号;提取麦克风语音信号中的特征参数;将特征参数输入预设模型计算,得到最优的标记序列;确定最优的标记序列对应的麦克风语音信号是否为语音段。通过将麦克风语音信号真能过的特征参数输入预设模型中进行计算,得到其中最优的标记序列,最优的标记序列为最可能为语音段的信号,通过确定最优序列对应的麦克风语音信号是否为语音段,解决一段语音中的噪声频谱特点与语音相似时,造成误判的问题,实现精确分辨一段待检测语音中是否存在语音段的效果。
Description
技术领域
本发明实施例涉及语音识别技术,尤其涉及一种语音检测方法、装置、终端及存储介质。
背景技术
激活音检测是关于如何将语音在有背景噪声存在的情况下正确分出语音段与非语音段的问题。
常用的激活音检测算法有基于过零率检测、基于短时能量检测、基于相关性检测、基于GMM统计模型、基于HMM统计模型和基于SVM等方法。
近些年来,深度学习开始应用于激活音检测,基于深度神经网络(deep neuralnetwork)的激活音检测方法显示出比传统方法的优越性。一方面,相比于传统的激活音检测模型,深度神经网络具有更强的非线性变换能力,更适用于语音、非语音的分类问题;另一方面,深度神经网络具有对声学特征再学习的能力,可以充分挖掘数据中的潜在信息,但是当噪声的频谱特点与语音相似时,其检测性能显著下降。
发明内容
本发明提供一种语音检测方法、装置、终端及存储介质,以实现精确分辨一段待检测语音中是否存在语音段的效果。
第一方面,本发明实施例提供了一种语音检测方法,包括:
获取麦克风语音信号;
提取所述麦克风语音信号中的特征参数;
将所述特征参数输入预设模型计算,得到最优的标记序列;
确定所述最优的标记序列对应的所述麦克风语音信号是否为语音段。
可选的,所述提取所述麦克风语音信号中的特征参数,包括:
将所述麦克风语音信号通过Gamm tone滤波器处理得到听觉谱;
将听觉谱取对数并进行改进离散余弦变换;
提取前N维参数构成语音信号的特征参数。
可选的,在所述将所述特征参数输入预设模型计算,得到最优的标记序列之前,还包括:
将当前帧与前后相邻两帧的麦克风语音信号的特征参数合并。
可选的,所述将所述特征参数输入预设模型计算,得到最优的标记序列,包括:
对所述特征参数按固定的时间窗T和步长进行提取,得到多个特征序列和对应的多个标记序列;
多个所述特征序列经过SOFTMAX层后进行分数计算;
采用Viterbi算法寻找分数最高的一个特征序列作为最优的标记序列。
可选的,所述预设模型为LSTM神经网络模型。
第二方面,本发明实施例还提供了一种语音检测装置,包括:
信号获取模块,用于获取麦克风语音信号;
特征提取模块,用于提取所述麦克风语音信号中的特征参数;
模型计算模块,用于将所述特征参数输入预设模型计算,得到最优的标记序列;
结果确定模块,用于确定所述最优的标记序列对应的所述麦克风语音信号是否为语音段。
第三方面,本发明实施例还提供了一种语音检测终端,所述终端包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一所述的语音检测方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一所述的语音检测方法。
本发明通过将麦克风语音信号真能过的特征参数输入预设模型中进行计算,得到其中最优的标记序列,最优的标记序列为最可能为语音段的信号,通过确定最优序列对应的麦克风语音信号是否为语音段,解决一段语音中的噪声频谱特点与语音相似时,造成误判的问题,实现精确分辨一段待检测语音中是否存在语音段的效果。
附图说明
图1为本发明实施例一提供的一种语音检测的流程示意图;
图2为本发明实施例一提供的一种语音检测的子流程示意图;
图3为本发明实施例二提供的一种语音检测装置的结构示意图;
图4为本发明实施例三提供的一种语音检测终端的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种语音检测的流程示意图,本实施例可适用于对一段待测语音信号进行检测判断是否包括语音段的情况,该方法可以由一种语音检测装置来执行,具体包括如下步骤:
步骤110、获取麦克风语音信号。
对于电子产品,人们通常可以通过语音进行唤醒,电子产品需要对接收到的一段语音信号进行检测,判断其中是否包含语音段;本实施例中获取的麦克风信号中包括近端语音信号和噪声信号。
步骤120、提取麦克风语音信号中的特征参数。
麦克风语音信号中的语音段和非语音段的声学特征不同,为了检测麦克风语音信号中是否存在语音段,需要提取麦克风语音信号中的特征参数用于后续检测。
其中,具体包括:
S1、将麦克风语音信号通过Gamm tone滤波器处理得到听觉谱。
Gamm tone滤波器只需要很少的参数就能很好地模拟麦克风语音信号中的声学数据。
S2、将听觉谱取对数并进行改进离散余弦变换。
改进的离散余弦变换,相当于对交叠的数据进行离散余弦变换;由于离散余弦变换具有很强的能量集中特性,常用于对信号和图像进行处理。大多数的自然信号(包括声音和图像)的能力都集中在离散余弦变换后的低频部分,且离散余弦变换具有良好的去相关性。
S3、提取前N维参数构成语音信号的特征参数,N大于20。
提取一定数量的参数构成语音信号的特征参数,麦克风语音信号经过Gamm tone滤波器和改进离散余弦变换后,得到倒谱特征参数GFCC,前30位特征参数GFCC几乎保存了所有信息,在本实施例中,优选为提取前40维参数。
步骤130、将特征参数输入预设模型计算,得到最优的标记序列。
预设模型为LSTM神经网络模型,LSTM网络是对RNN的改进,它克服了RNN固有的梯度消失问题,实现了对序列中有用信息的长时记忆。
预设模型的建立包括:
在基于LSTM的语音检测方法中,语音的输入实际为具有一定时间长度的时间序列。将语音逐帧提取的特征向量与标注看作长度为N的时间序列数据集这里N是语音帧总帧数,xt∈Rd是d维语音特征向量,yt∈(0,1)表示当前帧为语音帧或非语音帧。
首先,对于一个时间长度为T的序列X=(x1,x2,…,xT),标准LSTM单元对以下方程按时间顺序从t=1~T进行计算。
LSTM包括记忆细胞单元Ct与遗忘门Ft输入门It和输出门Ot其计算公式如下:
It=σ(Wixxt+Wihht-1+bi)
Ft=σ(Wfxxt+Wfhht-1+bf)
Ot=σ(Woxxt+Wohht-1+bo)
Zt=σ(Wzxxt+Wzhht-1+bz)
Ct=FtOt-1+ItZt
ht=Otg(Ct)
式中xt,Zt,ht与分别表示t时刻的输入信号,输出信号和隐藏层输出;σ,g分别表示sigmoid激活函数和tanh激活函数;W,b表示连接两层的权重和偏置。
然后,采用与语音分帧操作类似的形式,假设LSTM时间分析长度为T=2k+1,对特征参数数据集每次按固定的时间窗T进行抽取,时间窗按步长u(1≤u≤T)移动。t时刻输入的特征序列以及对应的标记可表达为:
对T个时刻经过SOFTMAX层输出的序列按以下方式进行分数计算:
分数最高的标记序列为最优的标记序列,即为预设模型输出结果。
预设模型的训练包括:
对TIDIGITS数据库的纯净语音使用Noisex-92噪声库中的噪声进行加噪得到带有噪声的语音。选用Noisex-92噪声库中的factory、babble、white,分别在0、5、10和15dB,4种信噪比下加噪,最后得到了12组数据集。所有的纯净语音均进行手工标注,不同信噪比以及不同背景噪声的语音使用与对应纯净语音相同的标记。
将带有噪声的语音数据集分为训练数据集与测试数据集。从语音数据集中随机选取1000段语音作为训练数据集,100段语音作为验证数据集。将每50段语音连接在一起去模拟实际应用情形。对所有语音,其中非语音段占比60%,语音段占比40%。
最后,当验证数据集验证结果满足结束条件时结束训练,保存预设模型的参数。
将从麦克风语音信号获取的特征参数输入预设模型进行计算,得到此段语音中分数最高的标记序列。
步骤140、确定最优的标记序列对应的麦克风语音信号是否为语音段。
提取最优的标记序列对应的语音信号,再次进行语音检测,确定此段语音信号是否为语音段;若判断结果为是,则此段麦克风语音信号中包含至少一段语音段;若判断结果为否,则此段麦克风语音信号中不包含语音段。
本发明实施例通过将麦克风语音信号真能过的特征参数输入预设模型中进行计算,得到其中最优的标记序列,最优的标记序列为最可能为语音段的信号,通过确定最优序列对应的麦克风语音信号是否为语音段,解决一段语音中的噪声频谱特点与语音相似时,造成误判的问题,实现精确分辨一段待检测语音中是否存在语音段的效果。
在上述实施例的基础上,在步骤130之前还包括:将当前帧与前后相邻两帧的麦克风语音信号的特征参数合并。
传统代价函数对每个时刻语音的输出计算代价,这种方式忽略了语音输出在时间上的相关性;本实施例采用将前后两帧的特征参数与当前帧合并作为一个序列,进行基于序列的代价函数设计,充分利用网络输出在时间上的相关性。
由于语音信息存在一定的连贯性,本实施例采用的LSTM神经网络训练的模型进行语音检测,不同于传统的算法只关注局部信息,它通过对过去帧和下一帧的信息加以利用,能更好的对当前帧进行判决。
在上述实施例的基础上,步骤130包括:
步骤131、对特征参数按固定的时间窗T和步长进行提取,得到多个特征序列和对应的多个标记序列。
步骤132、多个特征序列经过SOFTMAX层后进行分数计算。
步骤133、采用Viterbi算法寻找分数最高的一个特征序列作为最优的标记序列。
特征参数输入预设模型后,按照预设的时间窗T和步长进行提取,形成多个特征序列和对应的多个标记序列特征序列经过神经网络SOFTMAX层后输出的序列为分数转移矩阵和网络参数集θ通过网络训练进行优化,最后,采用Viterbi算法寻找分数最高的一个特征序列作为最优的标记序列:
Viterbi算法通过使用递归减少计算复杂度,还对于观察序列的整个上下文进行了最好的解释。
实施例二
图3为本发明实施例二提供的一种语音检测装置的结构示意图;如图3所示,一种语音检测装置,包括:
信号获取模块310,用于获取麦克风语音信号。
对于电子产品,人们通常可以通过语音进行唤醒,电子产品需要对接收到的一段语音信号进行检测,判断其中是否包含语音段;本实施例中获取的麦克风信号中包括近端语音信号和噪声信号。
特征提取模块320,用于提取麦克风语音信号中的特征参数。
麦克风语音信号中的语音段和非语音段的声学特征不同,为了检测麦克风语音信号中是否存在语音段,需要提取麦克风语音信号中的特征参数用于后续检测。
其中,特征提取模块320还包括:
听觉谱获取单元,用于将麦克风语音信号通过Gamm tone滤波器处理得到听觉谱。
计算单元,用于将听觉谱取对数并进行改进离散余弦变换。
参数提取单元,用于提取前N维参数构成语音信号的特征参数。
模型计算模块330,用于将特征参数输入预设模型计算,得到最优的标记序列。
将从麦克风语音信号获取的特征参数输入预设模型进行计算,得到此段语音中分数最高的标记序列。预设模型为LSTM神经网络模型,LSTM网络是对RNN的改进,它克服了RNN固有的梯度消失问题,实现了对序列中有用信息的长时记忆。
其中,模型计算模块330还包括:
模型建立单元,用于基于LSTM神经网络建立输入为语音的特征参数,输出为分数最高的标记序列的预设模型。
模型训练单元,用于采用训练数据集对预设模型进行训练,当验证数据集验证结果满足结束条件时结束训练,保存预设模型的参数。
结果确定模块340,用于确定最优的标记序列对应的麦克风语音信号是否为语音段。
提取最优的标记序列对应的语音信号,再次进行语音检测,确定此段语音信号是否为语音段;若判断结果为是,则此段麦克风语音信号中包含至少一段语音段;若判断结果为否,则此段麦克风语音信号中不包含语音段。
本发明通过将麦克风语音信号真能过的特征参数输入预设模型中进行计算,得到其中最优的标记序列,最优的标记序列为最可能为语音段的信号,通过确定最优序列对应的麦克风语音信号是否为语音段,解决一段语音中的噪声频谱特点与语音相似时,造成误判的问题,实现精确分辨一段待检测语音中是否存在语音段的效果。
进一步的,模型计算模块330还包括:
序列提取单元,用于对特征参数按固定的时间窗T和步长进行提取,得到多个特征序列和对应的多个标记序列。
中间处理单元,用于多个特征序列经过SOFTMAX层后进行分数计算。
结果计算单元,用于采用Viterbi算法寻找分数最高的一个特征序列作为最优的标记序列。
本发明实施例所提供的一种语音检测装置可执行本发明任意实施例所提供的一种语音检测方法,具备执行方法相应的功能模块和有益效果。
实施例三
图4为本发明实施例三提供的一种语音检测终端的结构示意图,如图4所示,该终端包括处理器40、存储器41、输入装置42和输出装置43;设备中处理器40的数量可以是一个或多个,图4中以一个处理器40为例;设备中的处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的语音检测方法对应的程序指令/模块(例如,语音检测装置中的信号获取模块310、特征提取模块320、模型计算模块330和结果确定模块340)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块,从而执行终端的各种功能应用以及数据处理,即实现上述的语音检测方法。
存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置42可用于接收输入的数字或字符信息,以及产生与终端的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。
实施例四
本发明实施例四还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种语音检测方法,该方法包括:
获取麦克风语音信号;
提取麦克风语音信号中的特征参数;
将特征参数输入预设模型计算,得到最优的标记序列;
确定最优的标记序列对应的麦克风语音信号是否为语音段。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的语音检测方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述语音检测装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (8)
1.一种语音检测方法,其特征在于,包括:
获取麦克风语音信号;
提取所述麦克风语音信号中的特征参数;
将所述特征参数输入预设模型计算,得到最优的标记序列;
确定所述最优的标记序列对应的所述麦克风语音信号是否为语音段。
2.根据权利要求1所述的语音检测方法,其特征在于,所述提取所述麦克风语音信号中的特征参数,包括:
将所述麦克风语音信号通过Gamm tone滤波器处理得到听觉谱;
将听觉谱取对数并进行改进离散余弦变换;
提取前N维参数构成语音信号的特征参数,N大于20。
3.根据权利要求1所述的语音检测方法,其特征在于,在所述将所述特征参数输入预设模型计算,得到最优的标记序列之前,还包括:
将当前帧与前后相邻两帧的麦克风语音信号的特征参数合并。
4.根据权利要求1所述的语音检测方法,其特征在于,所述将所述特征参数输入预设模型计算,得到最优的标记序列,包括:
对所述特征参数按固定的时间窗T和步长进行提取,得到多个特征序列和对应的多个标记序列;
多个所述特征序列经过SOFTMAX层后进行分数计算;
采用Viterbi算法寻找分数最高的一个特征序列作为最优的标记序列。
5.根据权利要求1所述的语音检测方法,其特征在于,所述预设模型为LSTM神经网络模型。
6.一种语音检测装置,其特征在于,包括:
信号获取模块,用于获取麦克风语音信号;
特征提取模块,用于提取所述麦克风语音信号中的特征参数;
模型计算模块,用于将所述特征参数输入预设模型计算,得到最优的标记序列;
结果确定模块,用于确定所述最优的标记序列对应的所述麦克风语音信号是否为语音段。
7.一种语音检测终端,其特征在于,所述终端包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的语音检测方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的语音检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011564128.2A CN112669881B (zh) | 2020-12-25 | 2020-12-25 | 一种语音检测方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011564128.2A CN112669881B (zh) | 2020-12-25 | 2020-12-25 | 一种语音检测方法、装置、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112669881A true CN112669881A (zh) | 2021-04-16 |
CN112669881B CN112669881B (zh) | 2023-02-28 |
Family
ID=75409349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011564128.2A Active CN112669881B (zh) | 2020-12-25 | 2020-12-25 | 一种语音检测方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112669881B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170011738A1 (en) * | 2015-07-09 | 2017-01-12 | Google Inc. | Generating acoustic models |
CN107680602A (zh) * | 2017-08-24 | 2018-02-09 | 平安科技(深圳)有限公司 | 语音欺诈识别方法、装置、终端设备及存储介质 |
CN109427328A (zh) * | 2017-08-28 | 2019-03-05 | 中国科学院声学研究所 | 一种基于滤波网络声学模型的多通道语音识别方法 |
CN109754789A (zh) * | 2017-11-07 | 2019-05-14 | 北京国双科技有限公司 | 语音音素的识别方法及装置 |
CN110232192A (zh) * | 2019-06-19 | 2019-09-13 | 中国电力科学研究院有限公司 | 电力术语命名实体识别方法及装置 |
CN111916058A (zh) * | 2020-06-24 | 2020-11-10 | 西安交通大学 | 一种基于增量词图重打分的语音识别方法及系统 |
-
2020
- 2020-12-25 CN CN202011564128.2A patent/CN112669881B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170011738A1 (en) * | 2015-07-09 | 2017-01-12 | Google Inc. | Generating acoustic models |
CN107680602A (zh) * | 2017-08-24 | 2018-02-09 | 平安科技(深圳)有限公司 | 语音欺诈识别方法、装置、终端设备及存储介质 |
CN109427328A (zh) * | 2017-08-28 | 2019-03-05 | 中国科学院声学研究所 | 一种基于滤波网络声学模型的多通道语音识别方法 |
CN109754789A (zh) * | 2017-11-07 | 2019-05-14 | 北京国双科技有限公司 | 语音音素的识别方法及装置 |
CN110232192A (zh) * | 2019-06-19 | 2019-09-13 | 中国电力科学研究院有限公司 | 电力术语命名实体识别方法及装置 |
CN111916058A (zh) * | 2020-06-24 | 2020-11-10 | 西安交通大学 | 一种基于增量词图重打分的语音识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112669881B (zh) | 2023-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107680582B (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
EP3806089B1 (en) | Mixed speech recognition method and apparatus, and computer readable storage medium | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
TWI641965B (zh) | 基於聲紋識別的身份驗證的方法及系統 | |
CN107731233B (zh) | 一种基于rnn的声纹识别方法 | |
CN109272988B (zh) | 基于多路卷积神经网络的语音识别方法 | |
CN108198547B (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
Chavan et al. | An overview of speech recognition using HMM | |
US6772119B2 (en) | Computationally efficient method and apparatus for speaker recognition | |
CN107610707A (zh) | 一种声纹识别方法及装置 | |
CN111276131A (zh) | 一种基于深度神经网络的多类声学特征整合方法和系统 | |
US8301578B2 (en) | System and method for tagging signals of interest in time variant data | |
JP2016502140A (ja) | 音/母音/音節境界検出のための聴覚的注意合図と音素事後確率スコアの組み合わせ | |
CN110120230B (zh) | 一种声学事件检测方法及装置 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN113823293B (zh) | 一种基于语音增强的说话人识别方法及系统 | |
Khdier et al. | Deep learning algorithms based voiceprint recognition system in noisy environment | |
CN111933148A (zh) | 基于卷神经网络的年龄识别方法、装置及终端 | |
Mahesha et al. | LP-Hillbert transform based MFCC for effective discrimination of stuttering dysfluencies | |
CN111666996A (zh) | 一种基于attention机制的高精度设备源识别方法 | |
Neelima et al. | Mimicry voice detection using convolutional neural networks | |
CN104882140A (zh) | 基于盲信号提取算法的语音识别方法及系统 | |
CN112669881B (zh) | 一种语音检测方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A speech detection method, device, terminal, and storage medium Effective date of registration: 20231201 Granted publication date: 20230228 Pledgee: Beijing Yizhuang International Financing Guarantee Co.,Ltd. Pledgor: Beijing Rongxun Technology Co.,Ltd. Registration number: Y2023980068991 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |