CN111009236A - 一种基于dblstm+ctc声学模型的语音识别方法 - Google Patents

一种基于dblstm+ctc声学模型的语音识别方法 Download PDF

Info

Publication number
CN111009236A
CN111009236A CN201911142225.XA CN201911142225A CN111009236A CN 111009236 A CN111009236 A CN 111009236A CN 201911142225 A CN201911142225 A CN 201911142225A CN 111009236 A CN111009236 A CN 111009236A
Authority
CN
China
Prior art keywords
model
sequence
acoustic
dblstm
ctc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911142225.XA
Other languages
English (en)
Inventor
袁熹
柳慧芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Shuixiang Electronic Technology Co ltd
Original Assignee
Wuhan Shuixiang Electronic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Shuixiang Electronic Technology Co ltd filed Critical Wuhan Shuixiang Electronic Technology Co ltd
Priority to CN201911142225.XA priority Critical patent/CN111009236A/zh
Publication of CN111009236A publication Critical patent/CN111009236A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

一种基于DBLSTM+CTC声学模型的语音识别方法,所述方法包括:步骤1,获取实时语音信号,对所述语音信号进行特征抽取,获得逐帧的声学特征序列;步骤2,将所述声学特征序列作为DBLSTM+CTC声学模型的输入,并输出音素序列;步骤3,建立音素序列转文字序列的解码模型,将所述音素序列作为所述解码模型的输入,并通过所述解码模型输出文字序列。本发明为基于两级端到端(seq2seq)的语音识别方法,包括“语音‑音素序列”的端到端模型以及“音素序列‑文字序列”,区别现有“语音‑文字序列”的端到端模型,两个模型均不需要超大规模的语料训练,且两部分能够优势互补,在一定程度上,语言模型能够弥补在声学模型在噪声环境下的不足。

Description

一种基于DBLSTM+CTC声学模型的语音识别方法
技术领域
本发明涉及语音识别领域,具体涉及一种基于DBLSTM+CTC声学模型的语音识别方法。
背景技术
语音是人际交互中最常见和有效的方式,一直以来也是人机通信和人机交互研究领域中重要的组成部分。由语音合成、语音识别以及自然语言理解联合构成的人机语音交互技术是世界上公认的高难度且富有挑战性的技术领域。同时,语音识别技术,可以进入工业生产、电子通信、汽车电子、医疗保健、服务教育等各行各业,将引领信息技术革命到一个新的台阶。
语音识别,也称自动语音识别(Automatic Speech Recognition,ASR)。自动语音识别是人机智能交互技术中的关键环节,它所要解决的问题是让计算机能够“听明白”人类的语音,将语音信号中包含的文字信息“剥离”出来。技术相当于给计算机安装上类似于人类的“耳朵”,在“能听会说”的智能计算机系统中扮演着至关重要的角色。语音识别是一个多学科交叉的技术领域,涉及了信号与信息处理、信息论、随机过程,概率论,模式识别、声学处理、语言学、心理学、生理学以及人工智能等多个领域。
语音识别模型是语音识别的另一关键技术,识别模型的优劣直接关系到语音识别的精度。语音识别模型本质上是对信号建立数学模型,常用的语音识别模型有:基于模板匹配技术的动态时间规整(Dynamic Time Warping,DTW)模型、基于非参数模型的矢量量化(Vector Quatization,VQ)方法、基于概率运算的隐马尔可夫(Hidden Markov Model,HMM)模型、基于模拟人脑组织的人工神经网络(ANN)模型和基于统计学习理论的支持向量机(Support Vector Machine,SVM)分类模型及这些模型的组合。
现有方案:
第一种方法是DTW,其方法是在训练阶段,用户将词汇表中的词读一遍,将提取出其中的特征矢量存入模板库,在识别阶段,将输入的语音特征矢量与模板库中的每个模板进行比较,把相似度最高的模板作为识别结果输出。但是语音信号的随机性比较大,同一个人在不同时刻对同一句话中的同一个音也会有不同的时间长度,应用动态时间规划方法很好地解决了语音信号特征参数序列比较时,时长不等的难题。但因其过分依赖语音端点检测的准确程度,没有充分利用语音信号的时序动态特性,不适合非特定人、大词汇量、连续语音识别系统。
第二种方法是VQ方法,其识别过程是首先把词汇表中的每一个单词的维特征矢量进行量化形成一个对应独立的码书,然后把待识别词的特征矢量对各码书进行编码,平均量化失真最小码书所对应的单词就是其识别结果。识别结果不高、识别速度较慢。
第三种是基于HMM,在训练阶段把语音信号作为一个可观察的符号序列组成的随机过程进行建模,即将每一个参考模板用一个数学模型来表示,模型建立好后就可以识别和确认由同一模型所产生的其它序列,在测试阶段,将测试集中待测样本代入所有的参考模型当中,具有最大概率的模型所代表的语音即为识别结果。
第四种是SVM,支持向量机的语音识别方法是把训练集的特征数据通过核函数映射到高维希尔伯特空间,通过学习算法,支持向量机就可以自动寻找那些对分类有较好区分能力的支持向量,确定支持向量机模型,再把测试集数据输入到支持向量机模型中,就可以区分开语音特征数据,输出语音识别结果。
第5种是ANN,方法是把训练集的语音特征参数输入到模型中,通过自组织、自学习训练出模型,把测试集特征参数代入训练好的模型中,输出值即为语音识别结果。目前用于语音识别的神经网络主要有神经网络,典型的有BP神经网络、CNN卷积神经网络和RNN神经网络,和现在的主流的端到端神经网络等。
现有技术概述如下:
发明专利1[专利号:CN201710702440.5],公开了一种基于深度双向长短时记忆(BiLSTM)递归神经网络(RNN)的声学模型,该模型在BiLSTM网络的全连接部分,使用Maxout神经元替代原来的Sigmoid神经元,同时使用Dropout正则化避免过拟合,提出上下文敏感块的随时间反向传播(CSC-BPTT)算法来训练网络;
发明专利2[专利号:CN201810669327.6],公开了一种模型预训练和BiLSTM的语音识别方法。对于待处理的语音信号进行预加重、分帧、加窗预处理,提取梅尔倒谱系数及动态差分得到语音特征,构建双向使用maxout函数优化的LSTM结构,进行模型训练;
发明专利3[专利号:CN201811155813.2],公开了一种基于多路卷积神经网络的语音识别方法,将原始语音进行预处理提,并提取特征矢量序列,构建声学模型,并训练。该声学模型以多路卷积神经网络模型为基础,以CTC作为损失函数;
发明专利4[专利号:CN201811112506.6],公开了一种基于卷积神经网络的语音识别方法,对于原始语音进行预处理,提取关键特征参数,构建端对端方式的声学模型,并训练。此处声学模型以DCNN网络模型为基础,以联结主义时间分类器CTC作为损失函数;
发明专利5[专利号:CN201811036633.2],公开了一种语音识别方法和装置。首先提取待处理语音信号的声学特征进行识别得到识别文本,将声学特征和文本输入已训练好的音节对齐模型,得到声学特征对应的音节序列,将此声学特征输入到已训练好的声学置信度模型,得到该序列的声学置信度,用于提升声学置信度判决精度。
发明专利1中公开的专利描述的是一种基于BiLSTM的声学模型的方法,BiLSTM的输出进入选择变换层,进行变化后输送到全连接层,全连接层激活函数采用Maxout激活函数代替,最后softmax输出声学后验概率;核心是利用了BiLSTM的双向时序建模能力结合CSC-BPTT反向传播算法构建的声学模型。由于专利中并未提及该模型训练输入和采用的loss函数,如果没有采用ctc loss,该模型训练数据的准备势必会比较复杂,且后端的语言模型采用的是HMM模型,对长时依赖的语言解码能力稍显不足。
发明专利2中公开的方法专利描述的声学模型与i中类似,都是采用的多层BiLSTM。为了提高模型在噪声环境下的鲁棒性,数据准备时,加上了噪声语料。这种加噪声的策略不具有普适性,不同场景下噪声是不一样的,加噪声来增广数据这种方法不是通用的解决办法;
发明专利3中公开的语音识别方法,以多路卷积神经网络做声学模型,同样的语音数据分别进入同样的三路卷积网络,不能提取更有甄别性的特征,同时让网络结构更为复杂,需要大量的训练数据,容易过拟合;
发明专利4中公开的语音识别技术,以简单DCNN网络模型为基础,端到端输出语音序列,由于采用的是基于cnn的结构,对于语音这种时序特征较强的数据,处理能力有限;同时,整个模型层数只有9层,对于中文大规模词汇量的语音识别,模型拟合能力有限;
发明专利5公布的方法,将语音识别结果的序列和声学特征输入到已经训练好的音节对齐模型,这样的语音声学判决并不可靠,因此添加了声学置信度模型。这种建模的方式涉及三个模型,且三个模型互为依赖,任何一个模型的短板都会牵制其他的模型,导致整体性能急剧下降。该模型结合音节和声学特征来判决该语音是否为该文本,不能从本质上提升识别准确率。
发明内容
为解决上述结束问题,本发明提供一种基于DBLSTM+CTC声学模型的语音识别方法,所述方法包括
步骤1,获取实时语音信号,对所述语音信号进行特征抽取,获得逐帧的声学特征序列;
步骤2,将所述声学特征序列作为DBLSTM+CTC声学模型的输入,并输出音素序列;
步骤3,建立音素序列转文字序列的解码模型,将所述音素序列作为所述解码模型的输入,并通过所述解码模型输出文字序列。
进一步地,所述方法还包括:步骤1中,在特征抽取前,对获取的语音信号进行VAD检测,用以从语音信号里识别和消除长时间的静音期。
进一步地,步骤1中,通过麦克风获取实时语音信号。
进一步地,步骤1中,对所述语音信号进行特征抽取具体为:对语音信号的MFCC特征进行提取,所述声学特征序列为MFCC特征序列。
进一步地,所述DBLSTM+CTC声学模型的输入为MFCC特征序列,并通过DBLSTM+CTC声学模型的前向计算,输出音素序列。
进一步地,所述DBLSTM+CTC声学模型为多级DBLSTM+CTC声学模型,其包括多级BLSTM网络和位于多级BLSTM网络之后的CTC loss,MFCC特征序列通过多级BLSTM网络的前向计算,最后通过CTC loss输出音素序列。
进一步地,所述方法还包括,步骤2中,在将所述声学特征序列输入DBLSTM+CTC声学模型之前,将所述声学特征序列补齐到固定维度。
进一步地,所述解码模型为NMT模型。
进一步地,NMT模型的输入为音素序列,音素序列经所述NMT模型的前向计算,输出文字序列。
进一步地,所述NMT模型包括Encoder、Attention机制和Decoder、NMT模型的输入为音素序列,音素序列依次经过Encoder过程和Attention机制得到Contextvector,最后经过Decoder过程输出文字序列。
本发明具有以下有益效果:
1.本发明提供的一种基于BiLSTM声学模型和NMT解码模型的语音识别方法,为基于两级端到端(seq2seq)的语音识别方法,声学模型部分基于DBiLSTM+CTC,语言模型采用音素序列转文字序列的NMT解码模型。声学模型负责声学模型的建模,输入声学特征序列,输出对应音素序列,是一种“语音-音素序列”的端到端模型,区别现有“语音-文字序列”的端到端模型,这种语音到音素序列的模型训练不需要庞大的语音数据;解码模型负责音素序列到文字序列的建模,两个模型均不需要超大规模的语料训练,且两部分能够优势互补,在一定程度上,语言模型能够弥补在声学模型在噪声环境下的不足。
2.不同于端到端的模型,音素级的声学模型的建模更为精细,配合后端解码模型,可以在保证较高识别率的同时具备抗噪能力;另外,在音素级别上,声学模型和解码模型的建模,都不是很复杂,模型容易训练,收敛;
3.不同与语音到文字序列的端到端模型,本发明为语音转音素序列的模型加音素序列转文字序列的模型,所述模型训练不需要庞大、昂贵的语音数据集,且语言模型的数据获取成本基本为0。
附图说明
图1为本发明实施例提供的一种基于BiLSTM+CTC声学模型的语音识别方法的原理示意图;
图2为本发明实施例提供的DBiLSTM+CTC模型示意图;
图3位本发明实施例提供的NMT模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明提供的一种基于DBLSTM+CTC声学模型的语音识别方法,所述方法包括
步骤1,获取实时语音信号,对所述语音信号进行特征抽取,获得逐帧的声学特征序列;
步骤2,将所述声学特征序列作为DBLSTM+CTC声学模型的输入,并输出音素序列;
步骤3,建立音素序列转文字序列的解码模型,作为语音模型,将所述音素序列作为所述解码模型的输入,并通过所述解码模型输出文字序列。
本发明公开的技术方案,声学模型部分基于DBiLSTM+CTC,解码模型采用音素序列转文字序列的解码模型;两个模型分别用不同的数据集训练。声学模型负责声学模型的建模,输入声学特征序列,输出对应音素序列,是一种“语音-音素序列”的端到端模型,区别现有“语音-文字序列”的端到端模型;解码模型负责音素序列到文字序列的建模,不同与从语音直接到文字序列的端到端模型,本发明为语音-音素序列的模型加音素序列-文字序列的模型,两个模型训练不需要庞大、昂贵的语音数据集,且语言模型的数据获取成本基本为0。
优选地,所述方法还包括:步骤1中,在特征抽取前,对获取的语音信号进行VAD检测,用以从语音信号里识别和消除长时间的静音期。
优选地,步骤1中,通过麦克风获取实时语音信号。
进一步地,步骤1中,对所述语音信号进行特征抽取具体为:对语音信号的MFCC(Mel Frequency Cepstral Coefficents)特征进行提取,其共14维度,第14维为当前帧的对数能量,所述声学特征序列为MFCC特征序列。
优选地,所述DBLSTM+CTC声学模型的输入为MFCC特征序列,并通过DBLSTM+CTC声学模型的前向计算,输出音素序列。
如图2所示,所述DBLSTM+CTC声学模型为多级DBLSTM+CTC声学模型,其包括多级BLSTM网络和位于多级BLSTM网络之后的CTC loss,MFCC特征序列通过多级BLSTM网络的前向计算,最后通过CTC loss的网络损失计算,输出音素序列,其中,训练采用CTC loss。
优选地,所述方法还包括,步骤2中,在将所述声学特征序列输入DBLSTM+CTC声学模型之前,将所述声学特征序列补齐到固定维度。
另外,所述接收的音素序列为声学模型的输出序列,该序列可以是不定长序列,也可不需要做补齐操作。
优选地,所述解码模型为NMT模型,NMT模型的输入为音素序列,音素序列经所述NMT模型的前向计算,输出文字序列。
如图3所示,所述NMT模型包括Encoder(编码器)、Attention机制和Decoder(解码器)、NMT模型的输入为音素序列,音素序列依次经过Encoder过程和Attention机制得到Context vector,最后经过Decoder过程输出文字序列。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于DBLSTM+CTC声学模型的语音识别方法,其特征在于,所述方法包括
步骤1,获取实时语音信号,对所述语音信号进行特征抽取,获得逐帧的声学特征序列;
步骤2,将所述声学特征序列作为DBLSTM+CTC声学模型的输入,并输出音素序列;
步骤3,建立音素序列转文字序列的解码模型,将所述音素序列作为所述解码模型的输入,并通过所述解码模型输出文字序列。
2.根据权利要求1所述的基于DBLSTM+CTC声学模型的语音识别方法,其特征在于,所述方法还包括:步骤1中,在特征抽取前,对获取的语音信号进行VAD检测,用以从语音信号里识别和消除长时间的静音期。
3.根据权利要求1所述的基于DBLSTM+CTC声学模型的语音识别方法,其特征在于,步骤1中,通过麦克风获取实时语音信号。
4.根据权利要求1所述的DBLSTM+CTC声学模型的语音识别方法,其特征在于,步骤1中,对所述语音信号进行特征抽取具体为:对语音信号的MFCC特征进行提取,所述声学特征序列为MFCC特征序列。
5.根据权利要求4所述的DBLSTM+CTC声学模型的语音识别方法,其特征在于,所述DBLSTM+CTC声学模型的输入为MFCC特征序列,并通过DBLSTM+CTC声学模型的前向计算,输出音素序列。
6.根据权利要求1所述的DBLSTM+CTC声学模型的语音识别方法,其特征在于,所述DBLSTM+CTC声学模型为多级DBLSTM+CTC声学模型,其包括多级BLSTM网络和位于多级BLSTM网络之后的CTC loss,MFCC特征序列通过多级BLSTM网络的前向计算,最后通过CTC loss输出音素序列。
7.根据权利要求1所述的DBLSTM+CTC声学模型的语音识别方法,其特征在于,所述方法还包括,步骤2中,在将所述声学特征序列输入DBLSTM+CTC声学模型之前,将所述声学特征序列补齐到固定维度。
8.根据权利要求1所述的DBLSTM+CTC声学模型的语音识别方法,其特征在于,所述解码模型为NMT模型。
9.根据权利要求8所述的DBLSTM+CTC声学模型的语音识别方法,其特征在于,NMT模型的输入为音素序列,音素序列经所述NMT模型的前向计算,输出文字序列。
10.根据权利要求8所述的DBLSTM+CTC声学模型的语音识别方法,其特征在于,所述NMT模型包括Encoder、Attention机制和Decoder、NMT模型的输入为音素序列,音素序列依次经过Encoder过程和Attention机制得到Context vector,最后经过Decoder过程输出文字序列。
CN201911142225.XA 2019-11-20 2019-11-20 一种基于dblstm+ctc声学模型的语音识别方法 Pending CN111009236A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911142225.XA CN111009236A (zh) 2019-11-20 2019-11-20 一种基于dblstm+ctc声学模型的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911142225.XA CN111009236A (zh) 2019-11-20 2019-11-20 一种基于dblstm+ctc声学模型的语音识别方法

Publications (1)

Publication Number Publication Date
CN111009236A true CN111009236A (zh) 2020-04-14

Family

ID=70113174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911142225.XA Pending CN111009236A (zh) 2019-11-20 2019-11-20 一种基于dblstm+ctc声学模型的语音识别方法

Country Status (1)

Country Link
CN (1) CN111009236A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681646A (zh) * 2020-07-17 2020-09-18 成都三零凯天通信实业有限公司 端到端架构的通用场景中文普通话语音识别方法
CN112674734A (zh) * 2020-12-29 2021-04-20 电子科技大学 一种基于监督Seq2Seq模型的脉搏信号噪声检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法
CN109003601A (zh) * 2018-08-31 2018-12-14 北京工商大学 一种针对低资源土家语的跨语言端到端语音识别方法
CN110335592A (zh) * 2019-06-28 2019-10-15 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法
CN109003601A (zh) * 2018-08-31 2018-12-14 北京工商大学 一种针对低资源土家语的跨语言端到端语音识别方法
CN110335592A (zh) * 2019-06-28 2019-10-15 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681646A (zh) * 2020-07-17 2020-09-18 成都三零凯天通信实业有限公司 端到端架构的通用场景中文普通话语音识别方法
CN112674734A (zh) * 2020-12-29 2021-04-20 电子科技大学 一种基于监督Seq2Seq模型的脉搏信号噪声检测方法
CN112674734B (zh) * 2020-12-29 2021-12-07 电子科技大学 一种基于监督Seq2Seq模型的脉搏信号噪声检测方法

Similar Documents

Publication Publication Date Title
CN112767958B (zh) 一种基于零次学习的跨语种音色转换系统及方法
US11837216B2 (en) Speech recognition using unspoken text and speech synthesis
Zhang et al. Non-parallel sequence-to-sequence voice conversion with disentangled linguistic and speaker representations
CN111009235A (zh) 一种基于cldnn+ctc声学模型的语音识别方法
US11908451B2 (en) Text-based virtual object animation generation method, apparatus, storage medium, and terminal
CN105139864B (zh) 语音识别方法和装置
CN110827801A (zh) 一种基于人工智能的自动语音识别方法及系统
CN101777347B (zh) 一种模型互补的汉语重音识别方法及系统
KR20070098094A (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
CN111460143A (zh) 一种多人对话系统的情绪识别模型
CN112735404A (zh) 一种语音反讽检测方法、系统、终端设备和存储介质
CN111081219A (zh) 一种端到端的语音意图识别方法
CN115836300A (zh) 用于文本到语音的自训练WaveNet
Qu et al. Lipsound2: Self-supervised pre-training for lip-to-speech reconstruction and lip reading
CN112184859A (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
CN111009236A (zh) 一种基于dblstm+ctc声学模型的语音识别方法
Fadel et al. Which French speech recognition system for assistant robots?
CN112185357A (zh) 一种同时识别人声和非人声的装置及方法
Zhao et al. Research on voice cloning with a few samples
Sung et al. Speech Recognition via CTC-CNN Model.
CN112329581A (zh) 基于中文发音视觉特点的唇语识别方法
CN110085212A (zh) 一种用于cnc程序控制器的语音识别方法
Shione et al. Construction of Automatic Speech Recognition Model that Recognizes Linguistic Information and Verbal/Non-verbal Phenomena
CN118410813B (zh) 一种语言学习方法、系统及存储介质
Suyanto et al. Automatic segmented-Syllable and deep learning-based Indonesian Audiovisual speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200414

RJ01 Rejection of invention patent application after publication