CN105551483A - 语音识别的建模方法和装置 - Google Patents

语音识别的建模方法和装置 Download PDF

Info

Publication number
CN105551483A
CN105551483A CN201510920809.0A CN201510920809A CN105551483A CN 105551483 A CN105551483 A CN 105551483A CN 201510920809 A CN201510920809 A CN 201510920809A CN 105551483 A CN105551483 A CN 105551483A
Authority
CN
China
Prior art keywords
modeling
speech recognition
sequence
modeling unit
characteristic vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510920809.0A
Other languages
English (en)
Other versions
CN105551483B (zh
Inventor
白锦峰
苏丹
胡娜
贾磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510920809.0A priority Critical patent/CN105551483B/zh
Publication of CN105551483A publication Critical patent/CN105551483A/zh
Application granted granted Critical
Publication of CN105551483B publication Critical patent/CN105551483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Abstract

本发明提出一种语音识别的建模方法和装置,上述语音识别的建模方法包括:将语音信号转化成特征向量序列,以及将所述语音信号对应的标注文本转化成建模单元序列,所述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元;在所述建模单元序列中的任意建模单元的前面或后面添加空白标签;基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练,建立语音识别模型。本发明基于CTC的深度循环神经网络的声韵母建模,提高了建立的语音识别模型的识别速度和识别准确率。

Description

语音识别的建模方法和装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别的建模方法和装置。
背景技术
现有的大词汇量汉语语音识别方法主要基于混合方法,例如:高斯混合模型(GaussianMixtureModel;以下简称:GMM)+隐马尔科夫模型(HiddenMarkovModel;以下简称:HMM)、深度神经网络(DeepNeuralNetwork;以下简称:DNN)+HMM等。具体而言,在基于统计的混合方法建模的语音识别中,用于估计隐马尔可夫模型的状态后验概率的方法有:高斯混合模型、深度神经网络(特指深度多层感知机)、深度卷积神经网络和深度循环神经网络等以及几者的组合模型。
语音信号是典型的时序信号,具有短时平稳特点,但因为背景噪声、信道、说话人(即性别、年龄、语速和/或口音等)等因素导致语音信号非常复杂。
但是,现有的语音识别方法都是基于混合方法,而且语音识别中的建模单元都是基于传统的状态建模单元,状态建模极大的束缚了现有所有的建模方法,使用上述状态建模单元建立的语音识别模型对语音识别的识别性能较差。
发明内容
本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种语音识别的建模方法。该方法基于连接时序分类(ConnectionistTemporalClassification;以下简称:CTC)的深度循环神经网络,建立语音识别模型,提高了语音识别模型的识别速度和准确率。
本发明的第二个目的在于提出一种语音识别的建模装置。
为了实现上述目的,本发明第一方面实施例的语音识别的建模方法,包括:将语音信号转化成特征向量序列,以及将所述语音信号对应的标注文本转化成建模单元序列,所述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元;在所述建模单元序列中的任意建模单元的前面或后面添加空白标签;基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练,建立语音识别模型。
本发明实施例的语音识别的建模方法,在将语音信号转化成特征向量序列,以及将上述语音信号对应的标注文本转化成建模单元序列之后,在上述建模单元序列中的任意建模单元的前面或后面添加空白标签,然后基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练,建立语音识别模型,其中,上述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元,从而可以实现基于CTC的深度循环神经网络的声韵母建模,提高了建立的语音识别模型的识别速度和识别准确率。
为了实现上述目的,本发明第二方面实施例的语音识别的建模装置,包括:转化模块,用于将语音信号转化成特征向量序列,以及将所述语音信号对应的标注文本转化成建模单元序列,所述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元;添加模块,用于在所述建模单元序列中的任意建模单元的前面或后面添加空白标签;训练模块,用于基于连接时序分类对所述转化模块转化的特征向量序列和所述添加模块添加所述空白标签后的建模单元序列进行训练,建立语音识别模型。
本发明实施例的语音识别的建模装置,在转化模块将语音信号转化成特征向量序列,以及将上述语音信号对应的标注文本转化成建模单元序列之后,添加模块在上述建模单元序列中的任意建模单元的前面或后面添加空白标签,然后训练模块基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练,建立语音识别模型,其中,上述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元,从而可以实现基于CTC的深度循环神经网络的声韵母建模,提高了建立的语音识别模型的识别速度和识别准确率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明语音识别的建模方法一个实施例的流程图;
图2为本发明语音识别的建模方法中提取特征向量一个实施例的示意图;
图3为本发明语音识别的建模方法中两个发音单元中间识别混淆一个实施例的示意图;
图4为本发明语音识别的建模方法另一个实施例的流程图;
图5为本发明语音识别的建模装置一个实施例的结构示意图;
图6为本发明语音识别的建模装置另一个实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1为本发明语音识别的建模方法一个实施例的流程图,如图1所示,上述语音识别的建模方法可以包括:
步骤101,将语音信号转化成特征向量序列,以及将上述语音信号对应的标注文本转化成建模单元序列,上述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元。
具体地,将语音信号转化成特征向量序列可以为:按照预定的窗长和预定的步长将上述语音信号转化为固定维数的特征向量序列。
其中,上述预定的窗长、预定的步长和上述固定维数,可以在具体实现时根据实现需求和/或系统性能等自行设定,本实施例对上述预定的窗长、预定的步长和上述固定维数的大小不作限定。
参见图2,图2为本发明语音识别的建模方法中将语音信号转化为特征向量序列一个实施例的示意图,图2中方框框住的部分即为从语音信号中提取的一个特征向量。图2中,将语音信号转化为特征向量序列的方法是以25毫秒窗长、10毫秒步长提取固定维数(比如40维)的特征向量序列。
步骤102,在上述建模单元序列中的任意建模单元的前面或后面添加空白(blank)标签。
具体地,可以在上述建模单元序列中的任意建模单元的前面或后面添加预定数量的空白标签。
其中,上述预定数量可以在具体实现时自行设定,本实施例对上述预定数量不作限定,举例来说,上述预定数量可以为0个或至少一个。
举例来说,对于图2所示的语音信号对应的标注文本“祝一切都好”来说,转化的建模单元序列可以为{zh,u,y,i,q,ie,d,ou,h,ao},添加blank标签后的建模单元序列可以为{(blank)zh(blank)u(blank)y(blank)i(blank)q(blank)ie(blank)d(blank)ou(blank)h(blank)ao(blank)}
另外,需要说明的是,本实施例对添加的blank标签的个数不作限定,可以在具体实现时,根据实现需求和/或系统性能等自行设定。
本实施例中,在上述建模单元序列中的任意建模单元的前面或后面添加blank标签较好地解决了两个建模单元中间混淆处的帧分类问题,传统的“强制对齐”对两个发音单元中间混淆处一般分类为左边标签、右边标签或者短停顿,这样容易导致对两个发音单元中间混淆处的识别不准确,出现混淆,如图3中方框框住的部分所示,图3为本发明语音识别的建模方法中两个发音单元中间识别混淆一个实施例的示意图,从图3中可以看出,采用传统的“强制对齐”的方式,在对两个发音单元的中间处进行语音识别时,容易出现混淆,而采用添加blank标签的方式则不会出现混淆,可以提高语音识别的准确率。
并且通过添加blank标签,将传统的轨迹建模转化为差异性建模,建立的语音识别模型更加关注一个发音单元与其他发音单元的差异性,缓减了传统模型需要完整地描述发音单元全部信息的建模负担,并且天然地解决了语音与非语音的区分性问题。
步骤103,基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练,建立语音识别模型。
具体地,基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练,建立语音识别模型可以为:通过对深度循环神经网络采用固定边界的交叉熵(CrossEntropy;以下简称:CE)训练,获得初始模型;在上述初始模型的基础上,基于CTC对上述特征向量序列和添加上述blank标签后的建模单元序列进行训练,建立语音识别模型。
其中,上述深度循环神经网络可以包括普通的循环神经网络(SimpleRecurrentNeuralNetwork;以下简称:SimpleRNN)、长短时记忆循环神经网络(LongShortTermMemory;以下简称:LSTM)、带门的循环神经网络(GatedrecurrentUnit;以下简称:GRU)、时钟化的循环神经网络(ClockworkRecurrentNeuralNetwork;以下简称:ClockworkRNN)等及其变种以及组合。
本实施例中,基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练,需要和能够进行轨迹建模的方法结合,例如:循环神经网络(RecurrentNeuralNetwork;以下简称:RNN)或LSTM等,并且在训练时采用整句训练方式,综合考虑全句的上下文信息,力求全局最优。其中,在训练时采用整句训练方式,是指在添加blank标签时,在对一句话的语音信号识别完整之后,再在建模单元之间添加空白标签。
进一步地,还可以在基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练的过程中,进行区分度训练,以强化建立的语音识别模型对正确标注文本和最大可能错误的候选文本之间的区分能力。
其中,进行区分度训练即为将正确的标注文本和最大可能错误的候选文本之间的距离尽量拉开,在具体实现时,可以在训练时,每次将正确的候选文本的概率得分奖励得多一些,将最大可能错误的候选文本的概率得分惩罚得多一些。
图4为本发明语音识别的建模方法另一个实施例的流程图,如图4所示,步骤103之后,还可以包括:
步骤401,通过上述语音识别模型对待识别的语音信号进行识别。
上述语音识别的建模方法中,在将语音信号转化成特征向量序列,以及将上述语音信号对应的标注文本转化成建模单元序列之后,在上述建模单元序列中的任意建模单元的前面或后面添加空白标签,然后基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练,建立语音识别模型,其中,上述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元,从而可以实现基于CTC的深度循环神经网络的声韵母建模,提高了建立的语音识别模型的识别速度和识别准确率。
本实施例提出的语音识别的建模方法是在近万小时的产品训练数据条件下进行了大量的产品应用研究,在大数据和产品能接受的大模型条件下,详细的研究和分析了汉语状态建模、声韵母整体半音节建模、音节整体建模等多种汉语建模单元,并深入探索了不同建模单元的CTC训练的价值和作用。
本实施例提出的语音识别的建模方法采用声韵母整体建模条件下的单向深度循环神经网络建模,先对深度循环神经网络采用固定边界的CE训练,然后以这个模型为初始值,进行CTC训练,最后在CTC训练的模型基础上继续采用区分度训练,从而可以比传统的状态建模的产品得到15%以上的错误率下降。
本实施例提出的语音识别的建模方法在建模方法上区别于已有的方法,同时结合了语音识别中的很多技术,比如CE训练的模型作为初始化,区分度训练等,使得最终获得的语音识别模型的综合性能获得了大幅提升。
另外,本实施例提出的基于CTC的单向深度循环神经网络的语音识别的建模方法的价值是尤为显著的,一个可能的解释是,CTC的空白吸收机制和动态边界尖峰学习能力,可以动态自适应的形成“目标延迟(targetdelay)”,从而可以解决单向LSTM模型的右边信息不完整的问题。值得提及的是,采用CTC模型的语音识别器具有非常快的解码速度,这个对于语音识别产品而言,弥足珍贵;同时基于CTC的语音识别模型在噪音和口音稳定性上,也强于传统的深度学习模型。
图5为本发明语音识别的建模装置一个实施例的结构示意图,本实施例中的语音识别的建模装置可以实现本发明图1和图4所示实施例的流程,如图5所示,上述语音识别的建模装置可以包括:转化模块51、添加模块52和训练模块53;
其中,转化模块51,用于将语音信号转化成特征向量序列,以及将上述语音信号对应的标注文本转化成建模单元序列,上述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元;本实施例中,转化模块51,具体用于按照预定的窗长和预定的步长将上述语音信号转化为固定维数的特征向量序列。
其中,上述预定的窗长、预定的步长和上述固定维数,可以在具体实现时根据实现需求和/或系统性能等自行设定,本实施例对上述预定的窗长、预定的步长和上述固定维数的大小不作限定。
参见图2,图2中方框框住的部分即为从语音信号中提取的一个特征向量。图2中,将语音信号转化为特征向量序列的方法是以25毫秒窗长、10毫秒步长提取固定维数(比如40维)的特征向量序列。
添加模块52,用于在上述建模单元序列中的任意建模单元的前面或后面添加blank标签;
具体地,添加模块52可以在上述建模单元序列中的任意建模单元的前面或后面添加预定数量的空白标签。
其中,上述预定数量可以在具体实现时自行设定,本实施例对上述预定数量不作限定,举例来说,上述预定数量可以为0个或至少一个。
举例来说,对于图2所示的语音信号对应的标注文本“祝一切都好”来说,转化的建模单元序列可以为{zh,u,y,i,q,ie,d,ou,h,ao},添加blank标签后的建模单元序列可以为{(blank)zh(blank)u(blank)y(blank)i(blank)q(blank)ie(blank)d(blank)ou(blank)h(blank)ao(blank)}
另外,需要说明的是,本实施例对添加的blank标签的个数不作限定,可以在具体实现时,根据实现需求和/或系统性能等自行设定。
本实施例中,添加模块52在上述建模单元序列中的任意建模单元的前面或后面添加blank标签较好地解决了两个建模单元中间混淆处的帧分类问题,传统的“强制对齐”对两个发音单元中间混淆处一般分类为左边标签、右边标签或者短停顿,这样容易导致对两个发音单元中间混淆处的识别不准确,出现混淆,如图3中方框框住的部分所示,从图3中可以看出,采用传统的“强制对齐”的方式,在对两个发音单元的中间处进行语音识别时,容易出现混淆,而采用添加blank标签的方式则不会出现混淆,可以提高语音识别的准确率。
并且通过添加blank标签,将传统的轨迹建模转化为差异性建模,建立的语音识别模型更加关注一个发音单元与其他发音单元的差异性,缓减了传统模型需要完整地描述发音单元全部信息的建模负担,并且天然地解决了语音与非语音的区分性问题。
训练模块53,用于基于CTC对转化模块51转化的特征向量序列和添加模块52添加上述blank标签后的建模单元序列进行训练,建立语音识别模型。
本实施例中,训练模块53,具体用于通过对深度循环神经网络采用固定边界的CE训练,获得初始模型;在上述初始模型的基础上,基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练,建立语音识别模型。
其中,上述深度循环神经网络可以包括普通的循环神经网络(SimpleRNN)、LSTM、GRU、时钟化的循环神经网络(ClockworkRNN)等及其变种以及组合。
本实施例中,基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练,需要和能够进行轨迹建模的方法结合,例如:RNN或LSTM等,并且在训练时采用整句训练方式,综合考虑全句的上下文信息,力求全局最优。其中,在训练时采用整句训练方式,是指在添加blank标签时,在对一句话的语音信号识别完整之后,再在建模单元之间添加空白标签。
进一步地,训练模块53,还用于在基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练的过程中,进行区分度训练,以强化建立的语音识别模型对正确标注文本和最大可能错误的候选文本之间的区分能力。
其中,训练模块53进行区分度训练即为将正确的标注文本和最大可能错误的候选文本之间的距离尽量拉开,在具体实现时,训练模块53可以在训练时,每次将正确的候选文本的概率得分奖励得多一些,将最大可能错误的候选文本的概率得分惩罚得多一些。
图6为本发明语音识别的建模装置另一个实施例的结构示意图,与图5所示的语音识别的建模装置相比,不同之处在于,本实施例中的语音识别的建模装置还可以包括:
识别模块54,用于通过训练模块53建立的语音识别模型对待识别的语音信号进行识别。
上述语音识别的建模装置中,在转化模块51将语音信号转化成特征向量序列,以及将上述语音信号对应的标注文本转化成建模单元序列之后,添加模块52在上述建模单元序列中的任意建模单元的前面或后面添加空白标签,然后训练模块53基于CTC对上述特征向量序列和添加上述空白标签后的建模单元序列进行训练,建立语音识别模型,其中,上述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元,从而可以实现基于CTC的深度循环神经网络的声韵母建模,提高了建立的语音识别模型的识别速度和识别准确率。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(ProgrammableGateArray;以下简称:PGA),现场可编程门阵列(FieldProgrammableGateArray;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种语音识别的建模方法,其特征在于,包括:
将语音信号转化成特征向量序列,以及将所述语音信号对应的标注文本转化成建模单元序列,所述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元;
在所述建模单元序列中的任意建模单元的前面或后面添加空白标签;
基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练,建立语音识别模型。
2.根据权利要求1所述的方法,其特征在于,所述基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练,建立语音识别模型包括:
通过对深度循环神经网络采用固定边界的交叉熵训练,获得初始模型;
在所述初始模型的基础上,基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练,建立语音识别模型。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
在基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练的过程中,进行区分度训练,以强化建立的语音识别模型对正确标注文本和最大可能错误的候选文本之间的区分能力。
4.根据权利要求1所述的方法,其特征在于,所述将语音信号转化成特征向量序列包括:
按照预定的窗长和预定的步长将所述语音信号转化为固定维数的特征向量序列。
5.根据权利要求1所述的方法,其特征在于,所述基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练,建立语音识别模型之后,还包括:
通过所述语音识别模型对待识别的语音信号进行识别。
6.一种语音识别的建模装置,其特征在于,包括:
转化模块,用于将语音信号转化成特征向量序列,以及将所述语音信号对应的标注文本转化成建模单元序列,所述建模单元序列中的每个建模单元为完整的声母或韵母的发音单元或者上下文相关的声母或韵母的发音单元;
添加模块,用于在所述建模单元序列中的任意建模单元的前面或后面添加空白标签;
训练模块,用于基于连接时序分类对所述转化模块转化的特征向量序列和所述添加模块添加所述空白标签后的建模单元序列进行训练,建立语音识别模型。
7.根据权利要求6所述的装置,其特征在于,
所述训练模块,具体用于通过对深度循环神经网络采用固定边界的交叉熵训练,获得初始模型;在所述初始模型的基础上,基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练,建立语音识别模型。
8.根据权利要求6或7所述的装置,其特征在于,
所述训练模块,还用于在基于连接时序分类对所述特征向量序列和添加所述空白标签后的建模单元序列进行训练的过程中,进行区分度训练,以强化建立的语音识别模型对正确标注文本和最大可能错误的候选文本之间的区分能力。
9.根据权利要求6所述的装置,其特征在于,
所述转化模块,具体用于按照预定的窗长和预定的步长将所述语音信号转化为固定维数的特征向量序列。
10.根据权利要求6所述的装置,其特征在于,还包括:
识别模块,用于通过所述训练模块建立的语音识别模型对待识别的语音信号进行识别。
CN201510920809.0A 2015-12-11 2015-12-11 语音识别的建模方法和装置 Active CN105551483B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510920809.0A CN105551483B (zh) 2015-12-11 2015-12-11 语音识别的建模方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510920809.0A CN105551483B (zh) 2015-12-11 2015-12-11 语音识别的建模方法和装置

Publications (2)

Publication Number Publication Date
CN105551483A true CN105551483A (zh) 2016-05-04
CN105551483B CN105551483B (zh) 2020-02-04

Family

ID=55830633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510920809.0A Active CN105551483B (zh) 2015-12-11 2015-12-11 语音识别的建模方法和装置

Country Status (1)

Country Link
CN (1) CN105551483B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106098059A (zh) * 2016-06-23 2016-11-09 上海交通大学 可定制语音唤醒方法及系统
CN106792048A (zh) * 2016-12-20 2017-05-31 Tcl集团股份有限公司 一种识别智能电视用户语音命令的方法和装置
CN106981198A (zh) * 2017-05-24 2017-07-25 北京航空航天大学 用于旅行时间预测的深度学习网络模型及其建立方法
CN107610720A (zh) * 2017-09-28 2018-01-19 北京语言大学 发音偏误检测方法、装置、存储介质及设备
CN107680587A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 声学模型训练方法和装置
CN107871496A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 语音识别方法和装置
CN107871497A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 语音识别方法和装置
CN107945789A (zh) * 2017-12-28 2018-04-20 努比亚技术有限公司 语音识别方法、装置及计算机可读存储介质
WO2018098892A1 (zh) * 2016-11-29 2018-06-07 科大讯飞股份有限公司 端到端建模方法及系统
CN108184135A (zh) * 2017-12-28 2018-06-19 泰康保险集团股份有限公司 字幕生成方法及装置、存储介质及电子终端
CN108320740A (zh) * 2017-12-29 2018-07-24 深圳和而泰数据资源与云技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN108510982A (zh) * 2017-09-06 2018-09-07 腾讯科技(深圳)有限公司 音频事件检测方法、装置及计算机可读存储介质
CN108711420A (zh) * 2017-04-10 2018-10-26 北京猎户星空科技有限公司 多语言混杂模型建立、数据获取方法及装置、电子设备
CN108711421A (zh) * 2017-04-10 2018-10-26 北京猎户星空科技有限公司 一种语音识别声学模型建立方法及装置和电子设备
CN108735202A (zh) * 2017-03-13 2018-11-02 百度(美国)有限责任公司 用于小占用资源关键词检索的卷积递归神经网络
CN108766426A (zh) * 2018-05-31 2018-11-06 中国舰船研究设计中心 一种舰艇用智能语音交互指挥系统
CN108831445A (zh) * 2018-05-21 2018-11-16 四川大学 四川方言识别方法、声学模型训练方法、装置及设备
CN109410911A (zh) * 2018-09-13 2019-03-01 何艳玲 基于语音识别的人工智能学习方法
CN109859743A (zh) * 2019-01-29 2019-06-07 腾讯科技(深圳)有限公司 音频识别方法、系统和机器设备
CN110232109A (zh) * 2019-05-17 2019-09-13 深圳市兴海物联科技有限公司 一种网络舆情分析方法以及系统
CN110444203A (zh) * 2019-07-17 2019-11-12 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
CN110503967A (zh) * 2018-05-17 2019-11-26 中国移动通信有限公司研究院 一种语音增强方法、装置、介质和设备
CN111312227A (zh) * 2018-12-11 2020-06-19 上海元趣信息技术有限公司 一种语音识别技术的结构模型
CN112259089A (zh) * 2019-07-04 2021-01-22 阿里巴巴集团控股有限公司 语音识别方法及装置
CN114598565A (zh) * 2022-05-10 2022-06-07 深圳市发掘科技有限公司 一种厨电设备远程控制系统、方法及计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1312543A (zh) * 2000-02-28 2001-09-12 索尼公司 语音识别装置、识别方法以及记录介质
CN1741131A (zh) * 2004-08-27 2006-03-01 中国科学院自动化研究所 一种非特定人孤立词语音识别方法及装置
RU93173U1 (ru) * 2009-12-29 2010-04-20 Общество с ограниченной ответственностью "Стэл-Компьютерные Системы" Система искажения голоса диктора
CN103021407A (zh) * 2012-12-18 2013-04-03 中国科学院声学研究所 一种黏着语语音识别方法及系统
CN105139864A (zh) * 2015-08-17 2015-12-09 北京天诚盛业科技有限公司 语音识别方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1312543A (zh) * 2000-02-28 2001-09-12 索尼公司 语音识别装置、识别方法以及记录介质
CN1741131A (zh) * 2004-08-27 2006-03-01 中国科学院自动化研究所 一种非特定人孤立词语音识别方法及装置
RU93173U1 (ru) * 2009-12-29 2010-04-20 Общество с ограниченной ответственностью "Стэл-Компьютерные Системы" Система искажения голоса диктора
CN103021407A (zh) * 2012-12-18 2013-04-03 中国科学院声学研究所 一种黏着语语音识别方法及系统
CN105139864A (zh) * 2015-08-17 2015-12-09 北京天诚盛业科技有限公司 语音识别方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALEX GRAVES ETC: "Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks", 《ICML ’06 PROCEEDINGS OF THE 23RD INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *
姜彬彬 等: "《多媒体技术使用教程 第2版》", 30 November 2014, 清华大学出版社 *

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106098059A (zh) * 2016-06-23 2016-11-09 上海交通大学 可定制语音唤醒方法及系统
CN106098059B (zh) * 2016-06-23 2019-06-18 上海交通大学 可定制语音唤醒方法及系统
CN107871496B (zh) * 2016-09-23 2021-02-12 北京眼神科技有限公司 语音识别方法和装置
CN107871496A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 语音识别方法和装置
CN107871497A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 语音识别方法和装置
US11651578B2 (en) 2016-11-29 2023-05-16 Iflytek Co., Ltd. End-to-end modelling method and system
WO2018098892A1 (zh) * 2016-11-29 2018-06-07 科大讯飞股份有限公司 端到端建模方法及系统
CN106792048A (zh) * 2016-12-20 2017-05-31 Tcl集团股份有限公司 一种识别智能电视用户语音命令的方法和装置
CN106792048B (zh) * 2016-12-20 2020-08-14 Tcl科技集团股份有限公司 一种识别智能电视用户语音命令的方法和装置
CN108735202A (zh) * 2017-03-13 2018-11-02 百度(美国)有限责任公司 用于小占用资源关键词检索的卷积递归神经网络
CN108735202B (zh) * 2017-03-13 2023-04-07 百度(美国)有限责任公司 用于小占用资源关键词检索的卷积递归神经网络
CN108711421B (zh) * 2017-04-10 2020-12-25 北京猎户星空科技有限公司 一种语音识别声学模型建立方法及装置和电子设备
CN108711421A (zh) * 2017-04-10 2018-10-26 北京猎户星空科技有限公司 一种语音识别声学模型建立方法及装置和电子设备
CN108711420B (zh) * 2017-04-10 2021-07-09 北京猎户星空科技有限公司 多语言混杂模型建立、数据获取方法及装置、电子设备
CN108711420A (zh) * 2017-04-10 2018-10-26 北京猎户星空科技有限公司 多语言混杂模型建立、数据获取方法及装置、电子设备
CN106981198A (zh) * 2017-05-24 2017-07-25 北京航空航天大学 用于旅行时间预测的深度学习网络模型及其建立方法
CN106981198B (zh) * 2017-05-24 2020-11-03 北京航空航天大学 用于旅行时间预测的深度学习网络模型及其建立方法
CN108510982B (zh) * 2017-09-06 2020-03-17 腾讯科技(深圳)有限公司 音频事件检测方法、装置及计算机可读存储介质
CN108510982A (zh) * 2017-09-06 2018-09-07 腾讯科技(深圳)有限公司 音频事件检测方法、装置及计算机可读存储介质
US11521638B2 (en) 2017-09-06 2022-12-06 Tencent Technology (Shenzhen) Company Ltd Audio event detection method and device, and computer-readable storage medium
WO2019047703A1 (zh) * 2017-09-06 2019-03-14 腾讯科技(深圳)有限公司 音频事件检测方法、装置及计算机可读存储介质
CN107610720B (zh) * 2017-09-28 2020-08-04 北京语言大学 发音偏误检测方法、装置、存储介质及设备
CN107610720A (zh) * 2017-09-28 2018-01-19 北京语言大学 发音偏误检测方法、装置、存储介质及设备
CN107680587A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 声学模型训练方法和装置
CN108184135A (zh) * 2017-12-28 2018-06-19 泰康保险集团股份有限公司 字幕生成方法及装置、存储介质及电子终端
CN107945789A (zh) * 2017-12-28 2018-04-20 努比亚技术有限公司 语音识别方法、装置及计算机可读存储介质
CN108320740A (zh) * 2017-12-29 2018-07-24 深圳和而泰数据资源与云技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN110503967A (zh) * 2018-05-17 2019-11-26 中国移动通信有限公司研究院 一种语音增强方法、装置、介质和设备
CN108831445A (zh) * 2018-05-21 2018-11-16 四川大学 四川方言识别方法、声学模型训练方法、装置及设备
CN108766426A (zh) * 2018-05-31 2018-11-06 中国舰船研究设计中心 一种舰艇用智能语音交互指挥系统
CN108766426B (zh) * 2018-05-31 2021-09-07 中国舰船研究设计中心 一种舰艇用智能语音交互指挥系统
CN109410911A (zh) * 2018-09-13 2019-03-01 何艳玲 基于语音识别的人工智能学习方法
CN111312227A (zh) * 2018-12-11 2020-06-19 上海元趣信息技术有限公司 一种语音识别技术的结构模型
EP3920178A4 (en) * 2019-01-29 2022-03-30 Tencent Technology (Shenzhen) Company Limited METHOD AND SYSTEM FOR AUDIO DETECTION AND DEVICE
CN109859743A (zh) * 2019-01-29 2019-06-07 腾讯科技(深圳)有限公司 音频识别方法、系统和机器设备
WO2020156153A1 (zh) * 2019-01-29 2020-08-06 腾讯科技(深圳)有限公司 音频识别方法、系统和机器设备
CN109859743B (zh) * 2019-01-29 2023-12-08 腾讯科技(深圳)有限公司 音频识别方法、系统和机器设备
US11900917B2 (en) 2019-01-29 2024-02-13 Tencent Technology (Shenzhen) Company Limited Audio recognition method and system and machine device
CN110232109A (zh) * 2019-05-17 2019-09-13 深圳市兴海物联科技有限公司 一种网络舆情分析方法以及系统
CN112259089A (zh) * 2019-07-04 2021-01-22 阿里巴巴集团控股有限公司 语音识别方法及装置
CN110444203A (zh) * 2019-07-17 2019-11-12 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
CN110444203B (zh) * 2019-07-17 2024-02-27 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
CN114598565A (zh) * 2022-05-10 2022-06-07 深圳市发掘科技有限公司 一种厨电设备远程控制系统、方法及计算机设备

Also Published As

Publication number Publication date
CN105551483B (zh) 2020-02-04

Similar Documents

Publication Publication Date Title
CN105551483A (zh) 语音识别的建模方法和装置
CN108711421B (zh) 一种语音识别声学模型建立方法及装置和电子设备
CN105869624B (zh) 数字语音识别中语音解码网络的构建方法及装置
CN100411011C (zh) 用于语言学习机的发音质量评价方法
CN104575490B (zh) 基于深度神经网络后验概率算法的口语发音评测方法
CN101645271B (zh) 发音质量评估系统中的置信度快速求取方法
JP7070894B2 (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
CN107301860A (zh) 基于中英文混合词典的语音识别方法及装置
CN107195295A (zh) 基于中英文混合词典的语音识别方法及装置
CN101887725A (zh) 一种基于音素混淆网络的音素后验概率计算方法
CN106782603B (zh) 智能语音评测方法及系统
CN107871496B (zh) 语音识别方法和装置
Räsänen A computational model of word segmentation from continuous speech using transitional probabilities of atomic acoustic events
CN102982811A (zh) 一种基于实时解码的语音端点检测方法
CN109065032A (zh) 一种基于深度卷积神经网络的外部语料库语音识别方法
Lan et al. Insights into machine lip reading
CN102063900A (zh) 克服混淆发音的语音识别方法及系统
CN106057192A (zh) 一种实时语音转换方法和装置
KR20200119377A (ko) 화자 식별 뉴럴 네트워크를 구현하는 방법 및 장치
CN101436403A (zh) 声调识别方法和系统
CN108628859A (zh) 一种实时语音翻译系统
CN109377981A (zh) 音素对齐的方法及装置
CN104299612A (zh) 模仿音相似度的检测方法和装置
US11158308B1 (en) Configuring natural language system
Ward et al. Automated Screening of Speech Development Issues in Children by Identifying Phonological Error Patterns.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant