CN115206299A - 一种基于命令词语音识别的易混淆词防误识别方法 - Google Patents
一种基于命令词语音识别的易混淆词防误识别方法 Download PDFInfo
- Publication number
- CN115206299A CN115206299A CN202211118939.9A CN202211118939A CN115206299A CN 115206299 A CN115206299 A CN 115206299A CN 202211118939 A CN202211118939 A CN 202211118939A CN 115206299 A CN115206299 A CN 115206299A
- Authority
- CN
- China
- Prior art keywords
- discriminator
- mel
- model
- word
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000011176 pooling Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 description 6
- 238000010438 heat treatment Methods 0.000 description 5
- 238000005057 refrigeration Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000001816 cooling Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于命令词语音识别的易混淆词防误识别方法,属于语音技术领域,包括如下步骤:S1.采集音频数据,对音频数据分类并设置原始分类标签;并提取音频数据的原始梅尔特征作为二次鉴别器训练数据;S2.搭建二次鉴别器模型,模型包括编码器、解码器和多维鉴别器;所述多维鉴别器包括多个并行的一维卷积层及与其连接的最大池化层,多个最大池化层的输出端连接拼接层;以步骤S1得到的训练数据输入编码器网络进行训练,训练模型直至模型收敛,完成训练。本发明通过搭建小尺寸易混淆词鉴别模型,当识别到易混淆词时,对易混淆词的语音进行通过二次鉴别器进行二次鉴别减小原识别系统对易混淆命令词的误识别率。
Description
技术领域
本发明属于语音技术领域,具体涉及一种基于命令词语音识别的易混淆词防误识别方法。
背景技术
随着语音识别技术的发展,语音识别走进人们的生活。基于命令词语音识别系统逐渐轻量化,被部署在嵌入式端,应用在广泛领域。由于各种控制指令不断增加,部分命令词在发音上十分相似,例如常用家电当中的空调指令“二十一度”与“二十七度”,“制冷模式”与“制热模式”这种发音较为相近的命令词误识别率非常大,严重影响用户体验,如何高效减少易混淆命令词的误识别是亟待解决的问题。
发明内容
为克服现有技术存在的缺陷,本发明公开了一种基于命令词语音识别的易混淆词防误识别方法。
本发明所述基于命令词语音识别的易混淆词防误识别方法,包括如下步骤:
S1.采集音频数据,对音频数据分类并设置原始分类标签;并提取音频数据的原始梅尔特征作为二次鉴别器训练数据;
S2.搭建二次鉴别器模型,模型包括编码器、解码器和多维鉴别器;并初始化设置编码器,解码器以及多维鉴别器的模型参数;
所述多维鉴别器包括多个并行的一维卷积层及与其连接的最大池化层,多个最大池化层的输出端连接拼接层,所述拼接层连接线性层,线性层连接归一化指数函数层;
所述一维卷积层的卷积核尺寸为A*B,多维鉴别器各个一维卷积层卷积核的第一尺寸A相等,第二尺寸B不等;
以步骤S1得到的训练数据输入编码器网络进行训练,用L作为二次鉴别器模型的损失,训练模型直至模型收敛,完成训练;
其中L为总损失函数,L= Lmel+Lf;
Lmel,Lf分别为梅尔损失和分类目标损失;
其中m为梅尔特征的总维度,n为梅尔特征的总帧数,a为解码器输出的梅尔特征,b为真实的梅尔特征,即步骤S1中的原始梅尔特征,①式中下标i,j分别表示梅尔特征维度和帧数;
Lf为分类目标损失,其中k为分类类别总数,x为鉴别器输出的分类概率,y为真实分类目标,即步骤S1中的音频数据分类,②式中下标i表示不同的分类类别; i表示鉴别器输出的第i个分类;
采用训练得到的二次鉴别器进行易混淆词识别。
优选的,S1步骤具体为:
S11.采集易混淆词与非易混淆词等量的音频数据作为音频数据集,并对音频进行加噪加混响的数据扩充, 数据扩充是对原始音频加入不同大小的噪音和混响形成新的音频,扩充后的数据为原始音频数量的10倍-20倍;
S12.将音频数据集数据进行分类标签,易混淆词音频中相同词采用同一标签,不同词用不同标签,所有非易混淆词使用同一标签,生成one-hot目标向量;
S13.提取音频数据集中所有音频数据的原始梅尔特征。
优选的,所述编码器由三层以上线性层组成,激活函数为Tanh函数。
优选的,其特征在于,所述解码器由三层以上线性层组成,激活函数为Tanh函数,最后一个线性层直接输出。
本发明通过搭建小尺寸易混淆词鉴别模型,当识别到易混淆词时,对易混淆词的语音进行通过二次鉴别器进行二次鉴别减小原识别系统对易混淆命令词的误识别率;通过采用参数量小的小尺寸模型作为二次鉴别模型,尽可能小的影响识别响应速度的情况下,提升了对易混淆词的识别率,提升用户体验。
附图说明
图1为本发明所述编码器的一个具体实施方式示意图;
图2为本发明所述解码器的一个具体实施方式示意图;
图3为本发明所述二次鉴别器的一个具体应用方式示意图。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明所述基于命令词语音识别的易混淆词二次鉴别器训练方法包括如下步骤:
S1.采集训练数据
S11.采集易混淆词与非易混淆词等量的音频数据作为音频数据集,并对音频进行加噪加混响的数据扩充, 数据扩充是采用加噪加混响算法对音频数据进行扩充,主要是对原始音频加入不同大小的噪音和混响形成新的音频,扩充后的数据为原始音频数量的10倍-20倍,以保证该数据集训练的鉴别器模型具有较高的抗噪,抗混响性能。
S12.将音频数据集数据进行分类标签,易混淆词音频中相同词采用同一标签,不同词用不同标签,所有非易混淆词使用同一标签,生成one-hot目标向量,one-hot向量是指只由0和1构成的向量,例如有“制冷模式”,“制热模式”,“二十一度”,“二十七度”四个命令词,再加上非易混淆词的标签;则该向量一共为5维,其顺序按照:制冷模式,制热模式,二十一度,二十七度,非易混淆词的排列,若一个音频的内容为制热模型,该音频的标签为(0,1,0,0,0),若一个音频的内容为非易混淆词,该音频的标签为(0,0,0,0,1)。设置one-hot目标向量作为标签,模型更容易收敛。
S13.提取音频数据集中所有音频数据的原始梅尔特征。
S2.搭建二次鉴别器模型,模型包括编码器、解码器和多维鉴别器;并初始化设置编码器,解码器以及多维鉴别器的模型参数;
图1所示的具体实施方式中,所述编码器由三层线性层组成,激活函数采用Tanh实现;
将原始梅尔特征输入编码器开始训练;
编码器的主要作用是将原始梅尔特征进行降维,将高维度的原始梅尔特征转化为到低维特征输入解码器和多维鉴别器,以减少多维鉴别器网络模型参数。
图2所示的具体实施方式中,解码器由三层线性层组成,激活函数采用Tanh实现;图2和图3中,线性层的典型实现方式为全连接层。
解码器是将编码器降维之后的低维特征升维到原始梅尔特征的高维维度得到预测梅尔特征,以真实的梅尔特征作为目标减小预测梅尔特征与真实梅尔特征的差距,更新编码器以及解码器参数来确保编码器降维后的特征损失达到最小。
多维鉴别器由多个鉴别器组成,每个鉴别器为一个一维卷积层,经池化层之后将每个鉴别器的输出参数拼接,通过线性层做分类,输出值接归一化指数函数层(softmax)。
三个模型结构如下图所示。
损失函数包括:
Lmel为梅尔损失,其中m为梅尔特征的总维度,n为梅尔特征的总帧数,a为解码器输出的梅尔特征,b为真实的梅尔特征,即原始梅尔特征,①式中下标i,j分别表示梅尔特征维度和帧数;
Lf为分类目标损失,其中k为分类类别总数,x为鉴别器输出的分类概率,y为真实分类目标,即,②式中下标i表示不同的分类类别; i表示鉴别器输出的第i个分类;
总损失函数 L=Lmel+Lf----③
其中L为网络训练的总损失函数,Lmel,Lf分别为梅尔损失和分类目标损失。通过优化梅尔损失可以提升编码器性能,使得编码器对梅尔特征编码后造成的损失更小,分类目标损失可以优化鉴别器性能,使得分类更准确。通过对这两个损失函数的优化可以提升系统整体的鉴别性能。
用L作为二次鉴别器模型的损失,训练模型直至模型收敛,完成训练。
训练过程主要针对多维鉴别器进行训练,从图3可以看出,多维鉴别器中的编码器由三层以上线性层组成,激活函数为Tanh函数;所述解码器由三层以上线性层组成,激活函数为Tanh函数,最后一个线性层直接输出。
本发明得到的二次鉴别器用于对命令词进行二次鉴别,在命令词识别过程中,首先通过原本识别识别模型进行初步识别,通过原本识别模型的初步识别发现部分词发生误识别,将这些词标记为易混淆词,由本发明经过训练完成得到的二次鉴别器再次进行命令词鉴别。
当原本识别模型识别到易混淆词后,将该易混淆词的梅尔特征输入二次鉴别器模型的编码器得到降维特征。
将降维特征输入二次鉴别器模型的多维鉴别器得到二次鉴别结果。
以下给出训练易混淆词鉴别器的一个具体实施例。
采集大量易混淆词语音音频,该示例中以“制冷模式”,“制热模式”,“二十一度”,“二十七度”四个命令词,以及其余非易混淆词的音频。设置非易混淆词类是为了防止第一识别模型将其他命令词错误识别为易混淆词。例如“打开空调”,“十六度”等,将采集的音频进行加噪、加混响的处理对数据进行扩充,以保证训练模型的抗噪,抗混响性能。
根据易混淆词的分类对每一条训练音频做训练标签。此处采用one-hot编码的方式。
例如:在本实例中有四个易混淆词和一类非易混淆可分为五类进行标注。制冷模式=(1,0,0,0,0),制热模式=(0,1,0,0,0),二十一度=(0,0,1,0,0),二十七度(0,0,0,1,0),非易混淆词=(0,0,0,0,1)进行标注。
按照帧移位10ms,梅尔通道数80,提取音频的梅尔特征。
设置编码器参数,编码器由三层线性层组成,第一层线性层为80*40,即网络参数输入为80维,输出是40维;第二层40*20,第三层20*10,每层线性层之间用Tanh函数激活,该编码器将原始的梅尔特征由80维降至10维。
设置解码器参数,解码器由三层线性层组成,第一层10*20,第二层20*40,第三层40*80,每层全连接之间用Tanh函数激活,将解码器输出的低维特征还原到高维,如图2所示,解码器最后一个线性层不连接Tanh函数,直接输出预测梅尔特征,以避免不收敛的情况。
设置多维鉴别器参数,第一鉴别器采用卷积核尺寸为2*10的卷积核,通道数为64;第二鉴别器采用3*10的卷积核,通道数为64;第三鉴别器采用5*10的卷积核,通道数为64;第四鉴别器采用7*10的卷积核,通道数为64;第五鉴别器采用11*10的卷积核,通道数为64;经最大池化层后接320*5的线性层,最后接softmax函数层。
本实施例中,通过编码器将原本的80维特征降到10维,这10维特征是对原本特征的低维度表达,但对于易混淆词的识别信息损失小,解码参数维度是和编码器的维度一致,均为10,解码器的参数量也大幅减小,模型参数量小,运算速度更快,同时,二次鉴别模型是只针对易混淆词,需要识别的词数量少,鉴别效果好。
由于鉴别器是对编码器输出的编码特征做鉴别,所以每个鉴别器的卷积核有一个维度都为10,但另一个维度跨越的帧数不一样,通过跨越多个维度的鉴别器可以从多个角度来对易混淆词的特征进行鉴别,鉴别结果更准确。五个鉴别器对特征进行鉴别后都会输出64通道的向量,经最大池化后,会得到1*64的输出,将五个输出进行拼接,得到一个1*320的向量,经320*5的线性层后得到一个五维向量,经softmax得到五个分类的概率。
损失函数设计
Lmel为梅尔损失,其中m为梅尔特征的维度总数,在此示例中m为80,n为梅尔特征的帧数,其中a为解码器输出的梅尔特征,b为真实的梅尔特征.
Lf为分类目标损失,其中k为分类类别总数,在此示例中k为5,x为鉴别器输出的分类概率,y为真实分类目标.
L=Lmel+Lf
其中L为网络训练的总损失函数,Lmel梅尔损失,Lf为分类目标损失;反复迭代模型,直至模型收敛。
本实施例中所述二次鉴别器的使用方式可以为:
1.当原本识别模型识别到易混淆词后,将该词的梅尔特征输入二次鉴别器的编码器得到降维特征,例如识别到“制冷”的命令,将制冷音频的梅尔特征输入编码器降维。
2.将降维特征输入多维鉴别器得到二次鉴别结果,来进行判别是不是“制冷”。
本发明通过搭建小尺寸易混淆词鉴别模型,当识别到易混淆词时,对易混淆词的语音进行通过二次鉴别器进行二次鉴别减小原识别系统对易混淆命令词的误识别率;通过采用参数量小的小尺寸模型作为二次鉴别模型,尽可能小的影响识别响应速度的情况下,提升了对易混淆词的识别率,提升用户体验。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (4)
1.一种基于命令词语音识别的易混淆词防误识别方法,其特征在于,包括如下步骤:
S1.采集音频数据,对音频数据分类并设置原始分类标签;并提取音频数据的原始梅尔特征作为二次鉴别器训练数据;
S2.搭建二次鉴别器模型,模型包括编码器、解码器和多维鉴别器;并初始化设置编码器,解码器以及多维鉴别器的模型参数;
所述多维鉴别器包括多个并行的一维卷积层及与其连接的最大池化层,多个最大池化层的输出端连接拼接层,所述拼接层连接线性层,线性层连接归一化指数函数层;
所述一维卷积层的卷积核尺寸为A*B,多维鉴别器各个一维卷积层卷积核的第一尺寸A相等,第二尺寸B不等;
以步骤S1得到的训练数据输入编码器网络进行训练,用L作为二次鉴别器模型的损失,训练模型直至模型收敛,完成训练;
其中L为总损失函数,L= Lmel+Lf;
Lmel,Lf分别为梅尔损失和分类目标损失;
其中m为梅尔特征的总维度,n为梅尔特征的总帧数,a为解码器输出的梅尔特征,b为真实的梅尔特征,即步骤S1中的原始梅尔特征,①式中下标i,j分别表示梅尔特征维度和帧数;
Lf为分类目标损失,其中k为分类类别总数,x为鉴别器输出的分类概率,y为真实分类目标,即步骤S1中的音频数据分类,②式中下标i表示不同的分类类别; i表示鉴别器输出的第i个分类;
采用训练得到的二次鉴别器进行易混淆词识别。
2.如权利要求1所述的基于命令词语音识别的易混淆词防误识别方法,其特征在于,S1步骤具体为:
S11.采集易混淆词与非易混淆词等量的音频数据作为音频数据集,并对音频进行加噪加混响的数据扩充, 数据扩充是对原始音频加入不同大小的噪音和混响形成新的音频,扩充后的数据为原始音频数量的10倍-20倍;
S12.将音频数据集数据进行分类标签,易混淆词音频中相同词采用同一标签,不同词用不同标签,所有非易混淆词使用同一标签,生成one-hot目标向量;
S13.提取音频数据集中所有音频数据的原始梅尔特征。
3.如权利要求1所述的基于命令词语音识别的易混淆词防误识别方法,其特征在于,所述编码器由三层以上线性层组成,激活函数为Tanh函数。
4.如权利要求1所述的基于命令词语音识别的易混淆词防误识别方法,其特征在于,所述解码器由三层以上线性层组成,激活函数为Tanh函数,最后一个线性层直接输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211118939.9A CN115206299B (zh) | 2022-09-15 | 2022-09-15 | 一种基于命令词语音识别的易混淆词防误识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211118939.9A CN115206299B (zh) | 2022-09-15 | 2022-09-15 | 一种基于命令词语音识别的易混淆词防误识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115206299A true CN115206299A (zh) | 2022-10-18 |
CN115206299B CN115206299B (zh) | 2022-11-11 |
Family
ID=83572378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211118939.9A Active CN115206299B (zh) | 2022-09-15 | 2022-09-15 | 一种基于命令词语音识别的易混淆词防误识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115206299B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3775963D1 (de) * | 1986-03-25 | 1992-02-27 | American Telephone & Telegraph | Durch einen sprecher ausgebildete spracherkennungseinrichtung. |
US5737723A (en) * | 1994-08-29 | 1998-04-07 | Lucent Technologies Inc. | Confusable word detection in speech recognition |
US6182039B1 (en) * | 1998-03-24 | 2001-01-30 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus using probabilistic language model based on confusable sets for speech recognition |
US6192337B1 (en) * | 1998-08-14 | 2001-02-20 | International Business Machines Corporation | Apparatus and methods for rejecting confusible words during training associated with a speech recognition system |
EP1079370A2 (en) * | 1999-08-26 | 2001-02-28 | Canon Kabushiki Kaisha | Method for training a speech recognition system with detection of confusable words |
EP1457966A1 (de) * | 2003-02-27 | 2004-09-15 | Siemens Aktiengesellschaft | Verfahren zum Ermitteln der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung |
CN102063900A (zh) * | 2010-11-26 | 2011-05-18 | 北京交通大学 | 克服混淆发音的语音识别方法及系统 |
CN108399914A (zh) * | 2017-02-06 | 2018-08-14 | 北京搜狗科技发展有限公司 | 一种语音识别的方法和装置 |
CN109887507A (zh) * | 2019-04-22 | 2019-06-14 | 成都启英泰伦科技有限公司 | 一种降低相似语音命令词误识别率的方法 |
CN113808593A (zh) * | 2020-06-16 | 2021-12-17 | 阿里巴巴集团控股有限公司 | 语音交互系统、相关方法、装置及设备 |
CN114299927A (zh) * | 2021-12-20 | 2022-04-08 | 北京声智科技有限公司 | 唤醒词识别方法、装置、电子设备及存储介质 |
CN114708859A (zh) * | 2022-03-12 | 2022-07-05 | 江苏清微智能科技有限公司 | 语音命令词识别训练方法、装置以及存储介质 |
-
2022
- 2022-09-15 CN CN202211118939.9A patent/CN115206299B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3775963D1 (de) * | 1986-03-25 | 1992-02-27 | American Telephone & Telegraph | Durch einen sprecher ausgebildete spracherkennungseinrichtung. |
US5737723A (en) * | 1994-08-29 | 1998-04-07 | Lucent Technologies Inc. | Confusable word detection in speech recognition |
US6182039B1 (en) * | 1998-03-24 | 2001-01-30 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus using probabilistic language model based on confusable sets for speech recognition |
US6192337B1 (en) * | 1998-08-14 | 2001-02-20 | International Business Machines Corporation | Apparatus and methods for rejecting confusible words during training associated with a speech recognition system |
EP1079370A2 (en) * | 1999-08-26 | 2001-02-28 | Canon Kabushiki Kaisha | Method for training a speech recognition system with detection of confusable words |
JP2001147696A (ja) * | 1999-08-26 | 2001-05-29 | Canon Inc | 信号処理システム |
EP1457966A1 (de) * | 2003-02-27 | 2004-09-15 | Siemens Aktiengesellschaft | Verfahren zum Ermitteln der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung |
CN102063900A (zh) * | 2010-11-26 | 2011-05-18 | 北京交通大学 | 克服混淆发音的语音识别方法及系统 |
CN108399914A (zh) * | 2017-02-06 | 2018-08-14 | 北京搜狗科技发展有限公司 | 一种语音识别的方法和装置 |
CN109887507A (zh) * | 2019-04-22 | 2019-06-14 | 成都启英泰伦科技有限公司 | 一种降低相似语音命令词误识别率的方法 |
CN113808593A (zh) * | 2020-06-16 | 2021-12-17 | 阿里巴巴集团控股有限公司 | 语音交互系统、相关方法、装置及设备 |
CN114299927A (zh) * | 2021-12-20 | 2022-04-08 | 北京声智科技有限公司 | 唤醒词识别方法、装置、电子设备及存储介质 |
CN114708859A (zh) * | 2022-03-12 | 2022-07-05 | 江苏清微智能科技有限公司 | 语音命令词识别训练方法、装置以及存储介质 |
Non-Patent Citations (2)
Title |
---|
KIM, MIN-A 等: "Optimizing Multiple Pronunciation Dictionary Based on a Confusability Measure for Non-native Speech Recognition", 《THE KOREAN SOCIETY OF PHONETIC SCIENCES AND SPEECH TECHNOLOGY》 * |
王欢良 等: "基于HMM/SVM两级结构的汉语易混淆语音识别", 《模式识别与人工智能》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115206299B (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6067517A (en) | Transcription of speech data with segments from acoustically dissimilar environments | |
Dhanalakshmi et al. | Classification of audio signals using SVM and RBFNN | |
JP3453456B2 (ja) | 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置 | |
Xue et al. | Online end-to-end neural diarization with speaker-tracing buffer | |
US20070185714A1 (en) | Large-vocabulary speech recognition method, apparatus, and medium based on multilayer central lexicons | |
CN108932941B (zh) | 语音识别方法、装置及计算机设备、存储介质及程序产品 | |
CN111445899B (zh) | 语音情绪识别方法、装置及存储介质 | |
CN111899766B (zh) | 基于深度特征与声学特征寻优融合的语音情感识别方法 | |
Jung et al. | Self-adaptive soft voice activity detection using deep neural networks for robust speaker verification | |
US20040215457A1 (en) | Selection of alternative word sequences for discriminative adaptation | |
CN114464182A (zh) | 一种音频场景分类辅助的语音识别快速自适应方法 | |
CN113192501B (zh) | 一种指令词识别方法及装置 | |
JPH10240930A (ja) | パターン認識方法およびパターン認識装置 | |
CN115206299B (zh) | 一种基于命令词语音识别的易混淆词防误识别方法 | |
Saito et al. | DNN-based speaker embedding using subjective inter-speaker similarity for multi-speaker modeling in speech synthesis | |
JP3176210B2 (ja) | 音声認識方法及び音声認識装置 | |
CN115565533A (zh) | 语音识别方法、装置、设备及存储介质 | |
Wilkinghoff | Anomalous sound detection with Look, Listen, and Learn embeddings | |
Wilkinghoff | Using Look, Listen, and Learn Embeddings for Detecting Anomalous Sounds in Machine Condition Monitoring. | |
Lim et al. | Interlayer selective attention network for robust personalized wake-up word detection | |
CN114547264A (zh) | 一种基于马氏距离和对比学习的新意图数据识别方法 | |
JPH01204099A (ja) | 音声認識装置 | |
CN112185357A (zh) | 一种同时识别人声和非人声的装置及方法 | |
CN114120973B (zh) | 一种语音语料生成系统训练方法 | |
CN111667836A (zh) | 基于深度学习的文本无关多标号说话人识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |