CN111613215B - 一种语音识别的方法及其装置 - Google Patents

一种语音识别的方法及其装置 Download PDF

Info

Publication number
CN111613215B
CN111613215B CN201910132335.1A CN201910132335A CN111613215B CN 111613215 B CN111613215 B CN 111613215B CN 201910132335 A CN201910132335 A CN 201910132335A CN 111613215 B CN111613215 B CN 111613215B
Authority
CN
China
Prior art keywords
speech recognition
recognition sequence
sequence
score
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910132335.1A
Other languages
English (en)
Other versions
CN111613215A (zh
Inventor
赵洲
李林琳
陈漠沙
仇伟
徐光伟
孟令涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910132335.1A priority Critical patent/CN111613215B/zh
Publication of CN111613215A publication Critical patent/CN111613215A/zh
Application granted granted Critical
Publication of CN111613215B publication Critical patent/CN111613215B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种语音识别的方法及其装置,所述方法包括利用编码器获取与输入的语音数据对应的概率分布向量序列;将所述概率分布向量序列输入到语言模型组件,获取语音识别信息,其中,所述语言模型组件至少包括基于前缀束搜索的CTC模型组件。利用本申请,可提高语音识别的准确性。

Description

一种语音识别的方法及其装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种语音识别的方法及其装置。
背景技术
语音识别也被称为自动语音识别(Automatic Speech Recognition,ASR),是指可通过识别和理解,将输入的语音信号转变为相应的文字或命令输出。随着信息化社会的发展以及信息技术的进步,语音识别技术经历了从稚嫩到成熟的发展过程。
对于传统的语音识别,通常会分为3个部分:语音模型、词典、语言模型。语音模型和语言模型都是分开进行训练的,因此这两个模型优化的损失函数是不相同的。为此提出了端到端的语音识别,模型的输入就为语音特征(输入端),而输出为识别出的语音文本(输出端),整个模型为神经网络的模型。但现如今,端对端的语音识别的准确度还需要提高,因为需要一种准确度更高的端对端的语音识别方法。
发明内容
本申请实施例提供一种语音识别的方法及其装置,旨在解决以上提到的准确度不高的技术问题。
本申请实施例提供一种利用编码器获取与输入的语音数据对应的概率分布向量序列;将所述概率分布向量序列输入到语言模型组件,获取语音识别信息,其中,所述语言模型组件至少包括基于前缀束搜索的CTC模型组件。
本申请实施例还提供一种语音识别装置,所述装置包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
根据本申请的示例性实施例的语音识别方法可利用基于前缀束搜索的CTC模型对获取的概率分布向量序列进行解码,从而获取语音识别信息。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请的示例性实施例的语音识别方法的场景图;
图2是根据本申请的示例性实施例的语音识别方法的框架图;
图3是根据本申请的示例性实施例的语音识别方法的流程图;
图4是根据本申请的示例性实施例的语音识别方法的示图;
图5是根据本申请的示例性实施例的语音识别装置的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1是根据本申请的示例性实施例的语音识别方法的场景图。
如图1所述,用户根据自身情况发出语音,随后,该语音可被电子终端100接收到,例如,用户可利用移动终端的麦克风向移动终端输入语音信息,随后,移动终端可将接收到的语音信息进行处理。
电子终端100可在接收到语音信息后,利用自身的软/硬件对所述语音信息进行处理,但应注意,由于处理的计算量很大,因此,通常可将该语音信息发送到与电子终端对应的服务器200执行根据本申请的示例性实施例的语音识别方法,虽然图1中仅示出了一个服务器,但应理解,可利用多个服务器来执行所述方法。
在关于位置的场景下,用户可利用电子终端100发出关于位置的问话(例如,图书馆在哪里),随后电子终端100可将收集的语音数据发送到服务器200,服务器200可利用本申请的示例性实施例的语音识别方法对所述问话进行“翻译”,将其“翻译成”文本数据,随后,服务器200可根据所述文本数据进行处理,确定与该问话对应的答复,并将该答复回复给用户。
为了更清楚地描述本申请,以下将结合图2具体描述关于端对端的语音识别方法的框架图。
如图2所示,端对端的语音识别方法是一个先编码后解码的过程。具体来说,在获取到语音数据后,可利用编码器执行特征提取,也就是说,利用原始的语音数据得到语音向量(也可称作特征向量),随后可利用后续的解码器,将所述特征向量编码为文本数据。
在编码端,为了提取出语音数据中的特征向量,如何描述语音数据很重要,在语音识别领域,通常利用声谱图来描述语音数据,声谱图(Sonogram)是指将整个音频范围用不同颜色记录的资料。在声谱图中,横轴表示时间,而纵轴表示该时间的频率分量。由于声谱图中包括大量的信息,因此可作为输入信息直接进行处理,而无需将其转换为二维数据(例如,向量)。可采用各种方法(例如,隐马尔可夫模型(HMM)等)对声谱图进行特征提取。当然也可采用本申请中的神经网络模型来提取特征,应注意,在本申请中,可利用已训练好的神经网络模型来执行特征提取,也可将输入端与输出端中间的过程作为统一的整体进行训练。
在解码端,可利用各种语言模型对特征向量进行“翻译”。为了克服必须在训练语音数据之前将训练数据中的每一帧语音与每一个音素对齐的弊端,提出了一种基于神经网络的时序类分类(Connectionist temporal classification,CTC)的方法,CTC引入了空白帧(该帧没有预测值),每个预测的分类对应的一整段语音中的一个尖峰帧(spike),其他不是尖峰的位置认为是空白。对于一段语音,CTC最后的输出是尖峰的序列,并不关心每一个音素持续了多长时间。也就是说,在对特征向量进行解码时,可输出整个语音序列,CTC的训练流程和传统的神经网络类似,构建损失函数(loss function),然后根据反向传播(BP)算法进行训练,不同之处在于传统的神经网络的训练准则是针对每帧数据,即每帧数据的训练误差最小,而CTC的训练准则是基于序列(比如语音识别的一整句话)。
以下将结合图3具体描述根据本申请的示例性实施例的语音识别方法的流程图。
在步骤S310,利用编码器获取与输入的语音数据对应的概率分布向量序列,其中,所述输入的语音数据可以是用户输入的包括中文在内的各种语种的语音数据。在实施过程中,所述编码器可以是神经网络模型构成的组件。具体来说,可将输入的语音数据转换为对应的声谱图,随后可将声谱图经过编码器处理后获取与所述语音数据对应的概率分布向量序列P={p1,p2,...,pt}(也就是特征向量),其中t代表该语音数据中包括的帧数,pi代表该语音样本第i帧的概率分布向量。
所述编码器可以是神经网络组件,可在执行处理之前进行训练,也就是说,可利用各声谱图与对应的语音标签(例如,字/字符)的对应关系进行训练,使编码器的参数达到设定的条件,例如,使得语音模型的准确率达到80%以上。在实施中,所述编码器可包括卷积神经网络(CNN)以及门控循环单元(GRU),其中,所述GRU优选为Bi-GRU,并且CNN以及GRU均是本领域技术人员熟知的神经网络模型,在此将不再详述。在所述编码器包括CNN组件以及GRU组件的情况下,将输入的语音数据依次经过CNN模型组件和GRU模型组进行处理,输出包括多个针对字典的概率分布向量序列。
随后,可在解码端执行步骤S320,将所述概率分布向量序列输入P={p1,p2,...,pt}到语言模型组件,获取语音识别信息,其中,所述语言模型组件至少包括已训练的基于前缀束搜索的CTC模型组件。
具体来说,利用已训练的基于前缀束搜索的CTC模型组件,获取多个语音识别序列a1,a2…am,其中,m是前缀束搜索的波束大小,ai包括多个语音识别字符
Figure BDA0001975817000000051
可根据公式1获取由所述多个语音识别字符/>
Figure BDA0001975817000000052
构成每个语音识别序列的字符概率
Figure BDA0001975817000000053
Figure BDA0001975817000000054
其中,log()表示取对数操作,
Figure BDA0001975817000000055
表示语音识别序列ai由语音识别字符/>
Figure BDA0001975817000000056
构成的概率。
随后,可利用所述概率
Figure BDA0001975817000000057
按照如下公式2生成对应的语音识别序列的分数s1,i
Figure BDA0001975817000000058
其中,log()表示取对数操作,p(ai|x)表示对于语音数据x,语音识别序列为ai的概率,
Figure BDA0001975817000000059
表示ai中的字符数量,而α、β表示提前定义好的两个参数。
利用语音识别序列ai与对应的分数s1,i生成语音识别序列集合S1={(a1,s1,1),(a2,s1,2),...,(am,s1,m)}。也就是说,根据以上步骤可将在步骤S310中获取的概率分布向量序列转换为与所述语音数据对应的多个可能的语音识别序列(语音识别文本),随后,可从这些可能的语音识别序列中选择最合适的语音识别序列。具体来说,从语音识别序列集合S1={(a1,s1,1),(a2,s1,2),...,(am,s1,m)}中将分数最高的语音识别序列作为语音识别信息。
此外,所述语言模型组件还包括基于分词的语言模型。也就是说,在获取语音识别序列集合S1={(a1,s1,1),(a2,s1,2),...,(am,s1,m)}后,还可利用基于语言模型对该序列进行处理,具体来说,针对每个语音识别序列ai,利用以下公式3获取由不同分词
Figure BDA0001975817000000061
构成语音识别序列ai的分词概率/>
Figure BDA0001975817000000062
Figure BDA0001975817000000063
其中,log()表示取对数操作,
Figure BDA0001975817000000064
表示语音识别序列ai由分词
Figure BDA0001975817000000065
组成的概率。
随后,利用所述分词概率
Figure BDA0001975817000000066
以及对应的语音识别序列的分数s1,i按照公式4确定所述语音识别序列的向下文分数contexti
Figure BDA0001975817000000067
其中,γ、δ、ε为提前定义好的三个参数,norm()代表正则化计算,wi,j表示语音识别序列ai的第j个分词,
Figure BDA0001975817000000068
表示语音识别序列ai的分词个数。最后,从语音识别序列集合S1={(a1,s1,1),(a2,s1,2),...,(am,s1,m)}中将上下文分数最高的语音识别序列作为语音识别信息。
此外,所述语言模型组件还包括基于分类的语言模型。也就是说,在获取语音识别序列集合S1={(a1,s1,1),(a2,s1,2),...,(am,s1,m)}后,确定构成语音识别序列集合中的所有分词{w1,w2,...,wo};将所有分词划分为多个分组{group(w1),group(w2),...,group(wo)},在实施例中,利用K均值聚类及循环神经网络对所有分词进行划分,将所有分词划分为多个分组。针对语音识别序列集合中的每个语音识别序列,按照以下公式5确定构成所述语音识别序列的分词所在的分组的概率
Figure BDA0001975817000000069
Figure BDA0001975817000000071
其中,log()表示取对数操作,
Figure BDA0001975817000000072
表示语音识别序列ai的组成分词/>
Figure BDA0001975817000000073
分别属于/>
Figure BDA0001975817000000074
组的概率。
利用所述概率
Figure BDA0001975817000000075
按照以下公式6确定所述语音识别序列ai的语法分数grammari
Figure BDA0001975817000000076
其中,η表示提前定义好的三个参数,norm()表示正则化计算,wi,j表示语音识别序列ai的第j个分词,
Figure BDA0001975817000000077
表示语音识别序列ai的分词个数。
最后,从语音识别序列集合中将语法分数最高的语音识别序列作为语音识别信息。
此外,在实施例中,还可利用上下文分数以及语法分数两者来确定语音识别信息,也就是说,在所述语言模型组件包括已训练的基于前缀束搜索的CTC模型组件、基于分词的语言模型以及基于分类的语言模型的情况下,按照以下公式7利用每个语音识别序列的上下文分数和语法分数确定每个语音识别序列的语音识别分数:
si=contexti+grammari 公式7
其中,contexti和grammari表示语音识别序列ai的上下文分数和语法分数,Si表示ai的语音识别分数,最后,从语音识别序列集合S1={(a1,s1,1),(a2,s1,2),...,(am,s1,m)}中将语音识别分数最高的语音识别序列作为语音识别信息。
在实施中,可利用各种语音会话与中文文本之间的对应关系进行训练而获取的模型,举例来说,可准备包括很多基于位置的对话语音以及对应的文本数据作为训练集对以上提到的语言模型进行训练,根据语言模型输出的训练文本数据与文本数据的差别,对语言模型中的参数进行调整,使其达到设定的要求,比如,准确度达到80%。
为了更清楚地描述本申请的示例性实施例,以下将结合图4具体描述优选实施例。
如图4所示,可将获取的语音数据(x1,x2…xt)输入到编码器,在经过CNN组件已经Bi-GRU组件后可输出概率分布向量(特征向量)序列到解码端,在解码段,可将解码过程分为两部分,在第一部分中,可利用CTC模型以及基于字符的语言模型获取由多种可能的语音序列构成的语音识别序列集合S1={(a1,s1,1),(a2,s1,2),...,(am,s1,m)},随后,进入第二部分,利用基于分词的语言模型以及基于分类的语言模型共同确定针对每个可能的语音序列的语音识别分数,然后将语音识别分数最高的语音序列确定为语音识别信息。
在本实施例中,可根据本申请的示例性实施例的语音识别方法处理测试语音集来评价所述方法。例如,可使用字符错误率(Character Error Rate,(CER))来对于本发明的效果进行评价,得到的CER为6.78%,因此可以看出,所述方法降低了整体错误率(CER)。
综上可述,根据本申请的示例性实施例的语音识别方法可利用基于前缀束搜索的CTC模型对获取的概率分布向量序列进行解码,从而获取语音识别信息。更进一步地,可利用包括CNN模型组件和GRU模型组件的编码器对所述语音数据进行编码,从而能够获取更准确的特征向量,此外,还可利用CTC模型组件获取多个语音识别序列的情况下,利用基于字符的语言模型从多个语音识别序列中获取语音识别信息,从而能够有效解决同音不同字的问题,此外,还可在此基础上利用基于分词的语言模型从多个语音识别序列中获取语音识别信息,这样可利用分词信息来辅助执行语言识别,从而提高语言识别的准确度。更进一步地,可利用基于上下文的语言模型从多个语音识别序列中获取语音识别信息,这样可利用上下文信息来辅助执行语言识别。更进一步地,可利用以上所有的语言模型耦合生成的多语言模型从多个语音识别序列中获取语音识别信息,从而能够实现更好地利用上下文和语法信息,解决同音不同字的语音识别问题并提高语音识别的准确性。
为了更清楚地明白本申请的示例性实施例的发明构思,以下将参照图5描述本申请的示例性实施例的语音识别装置的框图。本领域普通技术人员将理解:图5中的装置仅示出了与本示例性实施例相关的组件,所述装置中还包括除了图5中示出的组件之外的通用组件。
图5示出本申请的示例性实施例的语音识别装置的框图。参考图5,在硬件层面,该装置包括处理器、内部总线和计算机可读存储介质,其中,所述计算机可读存储介质包括易失性存储器和非易失性存储器。处理器从非易失性存储器中读取对应的计算机程序然后运行。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
具体来说,所述处理器执行以下操作:利用编码器获取与输入的语音数据对应的概率分布向量序列;将所述概率分布向量序列输入到语言模型组件,获取语音识别信息,其中,所述语言模型组件至少包括基于前缀束搜索的CTC模型组件。
可选地,所述编码器包括CNN模型组件和GRU模型组件。
可选地,所述处理器实现步骤利用编码器获取与输入的语音数据对应的概率分布向量序列包括:将输入的语音数据依次经过CNN模型组件、GRU模型组进行处理,输出包括多个针对字典的概率分布向量序列。
可选地,所述语言模型组件还包括基于字符的语言模型。
可选地,所述处理器在实现步骤获取语音识别信息包括:获取由多个语音识别字符构成每个语音识别序列的字符概率;利用所述概率生成对应的语音识别序列的分数;利用语音识别序列与对应的分数生成语音识别序列集合;从语音识别序列集合中将分数最高的语音识别序列作为语音识别信息。
可选地,所述语言模型组件还包括基于分词的语言模型。
可选地,所述处理器在实现步骤利用语音识别序列与对应的分数生成语音识别序列集合后包括:针对语音识别序列集合中的每个语音识别序列:获取由不同分词构成所述语音识别序列的分词概率;利用所述分词概率以及对应的语音识别序列的分数确定所述语音识别序列的向下文分数;从语音识别序列集合中将上下文分数最高的语音识别序列作为语音识别信息。
可选地,所述语言模型组件还包括基于分类的语言模型。
可选地,所述处理器在实现步骤利用语音识别序列与对应的分数生成语音识别序列集合后包括:确定构成语音识别序列集合中的所有分词;将所有分词划分为多个分组;针对语音识别序列集合中的每个语音识别序列,确定构成所述语音识别序列的分词所在的分组的概率;利用所述概率确定所述语音识别序列的语法分数;从语音识别序列集合中将语法分数最高的语音识别序列作为语音识别信息。
可选地,将所有分词划分为多个分组包括:利用K均值聚类及循环神经网络对所有分词进行划分,将所有分词划分为多个分组。
可选地,所述处理器还实现步骤:利用每个语音识别序列的上下文分数和语法分数确定每个语音识别序列的语音识别分数;从语音识别序列集合中将语音识别分数最高的语音识别序列作为语音识别信息。
可选地,所述语言模型组件是利用各种语音会话与中文文本之间的对应关系进行训练而获取的模型。
可选地,所述语言模型组件包括已训练的基于前缀束搜索的CTC模型组件、基于分词的语言模型以及基于分类的语言模型。
综上可述,根据本申请的示例性实施例的语言识别装置可利用基于前缀束搜索的CTC模型对获取的概率分布向量序列进行解码,从而获取语音识别信息。更进一步地,可利用包括CNN模型组件和GRU模型组件的编码器对所述语音数据进行编码,从而能够获取更准确的特征向量,此外,还可利用CTC模型组件获取多个语音识别序列的情况下,利用基于字符的语言模型从多个语音识别序列中获取语音识别信息,从而能够有效解决同音不同字的问题,此外,还可在此基础上利用基于分词的语言模型从多个语音识别序列中获取语音识别信息,这样可利用分词信息来辅助执行语言识别,从而提高语言识别的准确度。更进一步地,可利用基于上下文的语言模型从多个语音识别序列中获取语音识别信息,这样可利用上下文信息来辅助执行语言识别。更进一步地,可利用以上所有的语言模型耦合生成的多语言模型从多个语音识别序列中获取语音识别信息,从而能够实现更好地利用上下文和语法信息,解决同音不同字的语音识别问题并提高语音识别的准确性。
需要说明的是,实施例1所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤21和步骤22的执行主体可以为设备1,步骤23的执行主体可以为设备2;又比如,步骤21的执行主体可以为设备1,步骤22和步骤23的执行主体可以为设备2;等等。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种语音识别的方法,其特征在于,包括:
利用编码器获取与输入的语音数据对应的概率分布向量序列;
将所述概率分布向量序列输入到语言模型组件,获取语音识别信息,
其中,所述编码器包括CNN模型组件和GRU模型组件,利用所述编码器获取与输入的语音数据对应的概率分布向量序列包括:
将输入的语音数据依次经过所述CNN模型组件和所述GRU模型组件进行处理,输出多个概率分布向量序列,
其中,所述语言模型组件包括基于前缀束搜索的CTC模型组件、基于分词的语言模型以及基于分类的语言模型,获取语音识别信息包括:
利用由基于前缀束搜索的CTC模型组件、基于分词的语言模型和基于分类的语言模型耦合生成的多语言模型从与所述语音数据对应的多个语音识别序列中获取语音识别信息,
其中,所述基于分类的语言模型用于利用K均值聚类及循环神经网络对所有分词进行划分,将所有分词划分为多个分组。
2.如权利要求1所述的方法,其特征在于,所述CTC模型是已训练过的模型。
3.如权利要求1所述的方法,其特征在于,所述语言模型组件还包括基于字符的语言模型。
4.如权利要求3所述的方法,其特征在于,获取语音识别信息包括:
获取由多个语音识别字符构成每个语音识别序列的字符概率;
利用所述概率生成对应的语音识别序列的分数;
利用语音识别序列与对应的分数生成语音识别序列集合;
从语音识别序列集合中将分数最高的语音识别序列作为语音识别信息。
5.如权利要求4所述的方法,其特征在于,利用语音识别序列与对应的分数生成语音识别序列集合后包括:
针对语音识别序列集合中的每个语音识别序列:
获取由不同分词构成所述语音识别序列的分词概率;
利用所述分词概率以及对应的语音识别序列的分数确定所述语音识别序列的向下文分数;
从语音识别序列集合中将上下文分数最高的语音识别序列作为语音识别信息。
6.如权利要求5所述的方法,其特征在于,利用语音识别序列与对应的分数生成语音识别序列集合后包括:
确定构成语音识别序列集合中的所有分词;
将所有分词划分为多个分组;
针对语音识别序列集合中的每个语音识别序列,确定构成所述语音识别序列的分词所在的分组的概率;
利用所述概率确定所述语音识别序列的语法分数;
从语音识别序列集合中将语法分数最高的语音识别序列作为语音识别信息。
7.如权利要求6所述的方法,其特征在于,将所有分词划分为多个分组包括:
利用K均值聚类及循环神经网络对所有分词进行划分,将所有分词划分为多个分组。
8.如权利要求7所述的方法,其特征在于,还包括:
利用每个语音识别序列的上下文分数和语法分数确定每个语音识别序列的语音识别分数;
从语音识别序列集合中将语音识别分数最高的语音识别序列作为语音识别信息。
9.如权利要求1所述的方法,其特征在于,所述语言模型组件是利用各种语音会话与中文文本之间的对应关系进行训练而获取的模型。
10.一种语音识别装置,其特征在于,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行权利要求1至9中的任一权利要求所述的方法。
CN201910132335.1A 2019-02-22 2019-02-22 一种语音识别的方法及其装置 Active CN111613215B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910132335.1A CN111613215B (zh) 2019-02-22 2019-02-22 一种语音识别的方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910132335.1A CN111613215B (zh) 2019-02-22 2019-02-22 一种语音识别的方法及其装置

Publications (2)

Publication Number Publication Date
CN111613215A CN111613215A (zh) 2020-09-01
CN111613215B true CN111613215B (zh) 2023-06-23

Family

ID=72202903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910132335.1A Active CN111613215B (zh) 2019-02-22 2019-02-22 一种语音识别的方法及其装置

Country Status (1)

Country Link
CN (1) CN111613215B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738989B (zh) * 2019-10-21 2021-12-07 浙江大学 一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法
CN113327599B (zh) * 2021-06-30 2023-06-02 北京有竹居网络技术有限公司 语音识别方法、装置、介质及电子设备
CN113593574B (zh) * 2021-08-25 2024-04-19 广州虎牙科技有限公司 一种语音识别方法、计算机程序产品及电子设备
CN116682420B (zh) * 2022-12-30 2024-04-05 荣耀终端有限公司 语音识别方法、电子设备及可读介质
CN116302294B (zh) * 2023-05-18 2023-09-01 安元科技股份有限公司 一种界面化自动识别组件属性的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法
CN108229286A (zh) * 2017-05-27 2018-06-29 北京市商汤科技开发有限公司 语言模型生成及应用方法、装置、电子设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102386854B1 (ko) * 2015-08-20 2022-04-13 삼성전자주식회사 통합 모델 기반의 음성 인식 장치 및 방법
US20180330718A1 (en) * 2017-05-11 2018-11-15 Mitsubishi Electric Research Laboratories, Inc. System and Method for End-to-End speech recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法
CN108229286A (zh) * 2017-05-27 2018-06-29 北京市商汤科技开发有限公司 语言模型生成及应用方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Multi-level Language Modeling and Decoding for Open Vocabulary End-to-End Speech Recognition;Hori Takaaki等;《IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU)》;20171220;摘要,第2.1、2.3-2.4、3节,附图1 *

Also Published As

Publication number Publication date
CN111613215A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN111613215B (zh) 一种语音识别的方法及其装置
CN111480197B (zh) 语音识别系统
Le et al. Deep shallow fusion for RNN-T personalization
CN112435654B (zh) 通过帧插入对语音数据进行数据增强
CN112599128B (zh) 一种语音识别方法、装置、设备和存储介质
JP2023542685A (ja) 音声認識方法、音声認識装置、コンピュータ機器、及びコンピュータプログラム
CN110459202B (zh) 一种韵律标注方法、装置、设备、介质
CN102063900A (zh) 克服混淆发音的语音识别方法及系统
Ahmed et al. End-to-end lexicon free arabic speech recognition using recurrent neural networks
CN112016271A (zh) 语言风格转换模型的训练方法、文本处理方法以及装置
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
US11893813B2 (en) Electronic device and control method therefor
Murthy et al. Effect of TTS Generated Audio on OOV Detection and Word Error Rate in ASR for Low-resource Languages.
CN106550268B (zh) 视频处理方法和视频处理装置
Cucu et al. Recent improvements of the SpeeD Romanian LVCSR system
CN117877460A (zh) 语音合成方法、装置、语音合成模型训练方法、装置
KR20240065125A (ko) 희귀 단어 스피치 인식을 위한 대규모 언어 모델 데이터 선택
CN112185340A (zh) 语音合成方法、语音合成装置、存储介质与电子设备
EP4068279B1 (en) Method and system for performing domain adaptation of end-to-end automatic speech recognition model
CN113436616B (zh) 一种多领域自适应的端到端语音识别方法、系统及电子装置
CN115424616A (zh) 一种音频数据筛选方法、装置、设备及计算机可读介质
CN114842826A (zh) 语音合成模型的训练方法、语音合成方法及相关设备
KR20210133667A (ko) 코퍼스 구축 서비스 제공 서버 및 방법
JP2938865B1 (ja) 音声認識装置
Toselli et al. Word-graph based applications for handwriting documents: Impact of word-graph size on their performances

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant