CN112017648A - 加权有限状态转换器构建方法、语音识别方法及装置 - Google Patents
加权有限状态转换器构建方法、语音识别方法及装置 Download PDFInfo
- Publication number
- CN112017648A CN112017648A CN202010864932.6A CN202010864932A CN112017648A CN 112017648 A CN112017648 A CN 112017648A CN 202010864932 A CN202010864932 A CN 202010864932A CN 112017648 A CN112017648 A CN 112017648A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- phonemes
- acoustic
- preset
- languages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000010276 construction Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000013507 mapping Methods 0.000 claims abstract description 20
- 238000009432 framing Methods 0.000 claims description 20
- 238000004891 communication Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种加权有限状态转换器构建方法、语音识别方法及装置。该构件方法根据至少两个语种音素的发音属性,获取至少两个语种对应的一个音素集合;采用预设算法,对至少两个语种的语音信号训练样本的各音素和语音信号训练样本对应的声学特征进行运算,得到在各音素条件下产生声学特征的概率;采用预设训练方法,对各音素条件下产生声学特征的概率进行训练,构建声学模型;根据构建的声学模型、预设发音词典和预设语言模型,构建WFST;预设发音词典用于描述至少两个语种的音素与词的映射关系,预设语言模型用于描述词与词序列的映射关系,以及词到词序列的各路径概率。该方法降低了部署成本,提高了语音识别的效率。
Description
技术领域
本申请涉及语音识别技术领域,尤其涉及一种加权有限状态转换器构建方法、语音识别方法及装置。
背景技术
语音识别(Automatic Speech Recognition,ASR)是指一种从语音波形中识别出对应的文字内容的技术,是人工智能领域的重要技术之一。解码器是语音识别技术的核心模块之一,如加权有限状态转换器(Weighted Finite-State Transducers,WFST),可以基于己经训练好的声学模型、语言模型及发音词典建立一个识别网络,其中,语言模型一般是统计语言模型,而发音字典记录了词与音素之间的对应关系,是连接声学模型和语言模型的纽带。也就是说,识别网络中的各路径分别与各种文本信息、以及各文本信息的发音对应,然后针对声学模型输出的发音,在该识别网络中寻找最大的一条路径,基于该路径能够以最大概率输出该语音信号对应的文本信息,完成语音识别。
目前,针对多个语种的语音信号,语音识别方法在进行声学模型训练时,对不同的语种分别构建相应的语种识别器,之后将识别出语种的语音信号的音素输入深度神经网络进行训练,得到每个语种的声学模型,且在发音词典中分别利用各语种的音素对各语种的词语注音,之后通过识别出的语种类别,决定使用对应的语言模型。
可见,在应用于多个语种的语音识别场景时,需要训练每个语种的声学模型,提高了部署成本,且在识别过程中需要先识别语种再对相应语种的语音信号进行识别,降低了语音识别的效率。
发明内容
本申请实施例提供一种加权有限状态转换器构建方法、语音识别方法及装置,解决了现有技术存在的上述问题,降低了部署成本,提高了语音识别的效率。
第一方面,提供了一种加权有限状态转换器的构建方法,该方法可以包括:
根据至少两个语种音素的发音属性,获取所述至少两个语种对应的一个音素集合;
采用预设算法,对所述至少两个语种的语音信号训练样本的各音素和所述语音信号训练样本对应的声学特征进行运算,得到在所述各音素条件下产生所述声学特征的概率;
采用预设训练方法,对所述各音素条件下产生所述声学特征的概率进行训练,构建声学模型;
根据构建的声学模型、预设发音词典和预设语言模型,构建加权有限状态转换器WFST;其中,所述预设发音词典用于描述所述至少两个语种的音素与词的映射关系,所述预设语言模型用于描述词与词序列的映射关系,以及所述词到词序列的各路径概率。
在一个可选的实现中,根据至少两个语种音素的发音属性,获取所述至少两个语种对应的一个音素集合,包括:
根据至少两个语种音素的发音属性,将每个语种的音素使用国际音标中与所述音素发音相同的国际音素进行标识,获取所述至少两个语种对应的一个国际音素集合。
在一个可选的实现中,根据至少两个语种音素的发音属性,获取所述至少两个语种对应的一个音素集合,包括:
根据至少两个语种音素的发音属性,将每个语种音素间发音相同的音素合并,且将所述每个语种音素间发音不同的音素保留,获取所述至少两个语种对应的一个音素集合。
在一个可选的实现中,采用预设算法,对所述至少两个的语音信号训练样本的各音素和所述语音信号训练样本对应的声学特征进行运算之前,所述方法还包括:
采用预设语音分帧算法,对所述至少两个的语音信号训练样本进行分帧,得到至少一个语音帧;
提取所述至少一个语音帧中每个语音帧的声学特征,以获取所述语音信号训练样本对应的声学特征。
在一个可选的实现中,所述预设算法包括隐马尔可夫HMM模型算法。
第二方面,提供了一种语音识别方法,应用在第一方面所述的加权有限状态转换器中,该方法可以包括:
从接收的待识别语音信号中提取声学特征;
将所述声学特征输入所述加权有限状态转换器WFST的声学模型中,获取所述声学特征到音素的各路径的概率;
将所述声学特征到音素的各路径输出的音素作为所述WFST中预设发音词典的输入,获取所述各路径输出的音素对应的词;
将所述各路径输出的音素对应的词作为所述WFST中预设语言模型的输入,获取所述词到词序列的各路径的概率;
根据所述声学特征到音素的各路径的概率和所述词到词序列的各路径的概率,获得所述声学特征到词序列的各路径的目标概率;
确定所述目标概率最大的路径对应的词序列为所述待识别的语音信号对应的目标词序列。
在一个可选的实现中,根据所述声学特征到音素的各路径的概率和所述词到词序列的各路径的概率,获得所述声学特征到词序列的各路径的目标概率,包括:
对所述声学特征到音素的各路径的概率和所述词至词序列的各路径的概率采用求和运算或乘积运算,得到所述声学特征到词序列的各路径的目标概率。
第三方面,提供了一种加权有限状态转换器的构建装置,该装置可以包括:获取单元、运算单元和构建单元;
所述获取单元,用于根据至少两个语种音素的发音属性,获取所述至少两个语种对应的一个音素集合;
所述运算单元,用于采用预设算法,对所述至少两个语种的语音信号训练样本的各音素和所述语音信号训练样本对应的声学特征进行运算,得到在所述各音素条件下产生所述声学特征的概率;
所述构建单元,用于根据所述概率,构建声学模型;
以及,根据构建的声学模型、预设发音词典和预设语言模型,构建加权有限状态转换器WFST;其中,所述预设发音词典用于描述所述至少两个语种的音素与词的映射关系,所述预设语言模型用于描述词与词序列的映射关系,以及所述词到词序列的各路径概率。
在一个可选的实现中,所述获取单元,具体用于根据至少两个语种音素的发音属性,将每个语种的音素使用国际音标中与所述音素发音相同的国际音素进行标识,获取所述至少两个语种对应的一个国际音素集合。
在一个可选的实现中,所述获取单元,还具体用于根据至少两个语种音素的发音属性,将每个语种音素间发音相同的音素合并,且将所述每个语种音素间发音不同的音素保留,获取所述至少两个语种对应的一个音素集合。
在一个可选的实现中,所述装置还包括分帧单元和提取单元;
所述分帧单元,用于采用预设语音分帧算法,对所述至少两个的语音信号训练样本进行分帧,得到至少一个语音帧;
所述提取单元,用于提取所述至少一个语音帧中每个语音帧的声学特征,以获取所述语音信号训练样本对应的声学特征。
在一个可选的实现中,所述预设算法包括隐马尔可夫HMM模型算法。
第四方面,提供了一种语音识别装置,应用在第一方面所述的加权有限状态转换器中,该装置可以包括:提取单元、获取单元和确定单元;
所述提取单元,用于从接收的待识别语音信号中提取声学特征;
所述获取单元,用于将所述声学特征输入所述加权有限状态转换器WFST的声学模型中,获取所述声学特征到音素的各路径的概率;
以及,将所述声学特征到音素的各路径输出的音素作为所述WFST中预设发音词典的输入,获取所述各路径输出的音素对应的词;
将所述各路径输出的音素对应的词作为所述WFST中预设语言模型的输入,获取所述词到词序列的各路径的概率;
根据所述声学特征到音素的各路径的概率和所述词到词序列的各路径的概率,获得所述声学特征到词序列的各路径的目标概率;
所述确定单元,用于确定所述目标概率最大的路径对应的词序列为所述待识别的语音信号对应的目标词序列。
在一个可选的实现中,所述获取单元,具体用于对所述声学特征到音素的各路径的概率和所述词至词序列的各路径的概率采用求和运算或乘积运算,得到所述声学特征到词序列的各路径的目标概率。
第五方面,提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面中任一所述的方法步骤或上述第二方面中任一项上所述的方法步骤。
第六方面,提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤或上述第二方面中任一所述的方法步骤。
本发明实施例提供的加权有限状态转换器WFST构建方法根据至少两个语种音素的发音属性,获取至少两个语种对应的一个音素集合;采用预设算法,对至少两个语种的语音信号训练样本的各音素和语音信号训练样本对应的声学特征进行运算,得到在各音素条件下产生声学特征的概率;采用预设训练方法,对各音素条件下产生声学特征的概率进行训练,构建声学模型;根据构建的声学模型、预设发音词典和预设语言模型,构建WFST;预设发音词典用于描述至少两个语种的音素与词的映射关系,预设语言模型用于描述词与词序列的映射关系,以及词到词序列的各路径概率。该方法通过将多个语种音素映射到一个音素集合中,避免了现有技术中需要训练多个语种的语种识别模型,降低了部署成本,且在识别过程中不需要先识别语种再对相应语种的语音信号进行识别,提高了语音识别的效率。
附图说明
图1为本发明实施例提供的一种加权有限状态转换器WFST构建方法的流程示意图;
图2为本发明实施例提供的一种语音识别方法的流程示意图;
图3为本发明实施例提供的一种加权有限状态转换器WFST构建装置的结构示意图;
图4为本发明实施例提供的一种语音识别装置的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,并不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明实施例提供的应用WFST构建方法的WFST构建装置可以应用在服务器上,也可以应用在终端上,也就是说,构建的WFST可以安装在服务器上,也可以安装在终端上。加权有限状态转换器WFST用于在输入语音信号后,输出对该语音信号的识别结果的各种可能的路径及相应路径的概率。
其中,为了保证WFST的精确性,终端可以是具有较强的计算能力的移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(UserEquipment,UE)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station,MS)、移动终端(Mobile Terminal)等。服务器可以是具有较强计算能力的应用服务器或云服务器。
图1为本发明实施例提供的一种加权有限状态转换器WFST构建方法的流程示意图。如图1所示,该方法可以包括:
步骤110、根据至少两个语种音素的发音属性,获取至少两个语种对应的一个音素集合。
音素是构成音节的最小单位或最小的语音片段,是从音质的角度划分出来的最小的线性的语音单位。在语音学与音韵学中,音素一词所指的是说话时所发出的声音。每一个语种中的音素都是不一样的,即使是同种语言中,方言的音素也是不一样的。例如,英语中的音素可以包括/ei/、/au/等,汉语中的音素可以包括ai、ang等。
为了克服现有的多语种的语言信号识别场景中每个语种对应一套语种识别器而导致的成本高的问题,本申请实施例的WFST构建装置可以根据至少两个语种音素的发音属性,将每个语种的音素使用国际音标中与该音素发音相同的国际音素进行标识,即将每个语种的音素与国际音标中的相应音素进行映射,从而获取至少两个语种对应的一个国际音素集合。
或者,本申请实施例的WFST构建装置也可以根据至少两个语种音素的发音属性,将每个语种音素间发音相同的音素合并,且将每个语种音素间发音不同的音素保留,获取至少两个语种对应的一个音素集合。
步骤120、采用预设算法,对至少两个语种的语音信号训练样本的各音素和语音信号训练样本对应的声学特征进行运算,得到在各音素条件下产生声学特征的概率。
在执行该步骤之前,WFST构建装置可以利用语音信号的短时平稳性,对语音信号进行分帧,提取每帧的声学特征。具体为,采用预设语音分帧算法,对至少两个的语音信号训练样本进行分帧,得到至少一个语音帧;之后对至少一个语音帧进行特征提取,以得到该语音帧的声学特征,从而获取语音信号训练样本对应的声学特征。
其中,声学特征提取的过程可以采用本领域常规技术手段来实现,本申请不对本步骤所采用的方法进行具体限定,例如可以采用线性预测倒谱系数法(Linear PredictionCepstrum Coefficient,LPCC)、美尔频率倒谱系数法(Mel Frequency CepstrumCoefficient,MFCC)、感知线性预测参数法(Perceptual Linear Predict ive,PLP)和梅尔标度滤波法(Melscale Filter Bank,FBANK)中的任意一种。
WFST构建装置可以采用隐马尔可夫(Hidden Markov Model,HMM)模型算法,以训练语音信号的各音素作为状态输入值,以声学特征作为观测输出值,得到在各音素条件下产生声学特征的概率。
步骤130、采用预设训练方法,对各音素条件下产生声学特征的概率进行训练,构建声学模型。
声学模型是WFST中的重要组成模块之一,可以用来描述声学特征与音素之间的对应关系,以及声学特征对应的音素的各路径概率分布。其中,该声学模型可以是训练出的一种卷积神经网络、循环神经网络、深度神经网络、高斯混合模型和长短期记忆网络中的任意一种或多种。同时,声学模型的构建可以通过本领域的常规技术手段进行,本申请不对构建声学模型的方法进行具体限定。
可见,由于将多语种的音素统一为一个音素集合,如国际音标,故WFST构建装置可以训练出多语种对应的一个统一的声学模型,大大降低了训练时间和成本。
步骤140、根据构建的声学模型、预设发音词典和预设语言模型,构建WFST。
其中,预设发音词典用于描述至少两个语种的音素与词的映射关系,预设语言模型用于描述词与词序列的映射关系,以及词到词序列的各路径概率。
与现有的WFST相比,本申请构建的WFST中声学模型在训练时不需要构建不同语种的语种识别器,而是针对不同语种,通过构建一个音素集合,实现各语种的语音识别,故不需要额外训练语种识别模型,降低了构建成本。
需要说明的是,WFST属于有限状态机的一种,是在有限状态机的不同路径上添加了不同的权重,是语音识别过程中进行图搜索的框架。WFST可以把语言模型、发音词典和声学模型统一集成为一个解码网络,大大提高了解码的速度,为语音识别的实时应用提供了基础。
进一步的,本申请构建的WFST不需要通过语种识别器判断语种类型后再进行语音识别,而是可以直接对各种语种进行语音识别,提高了语音识别效率,故本发明实施例还提供了基于构建的加权有限状态转换器WFST,对待识别语音信号的语音识别方法,如图2所示,该方法的执行主体可以为终端或服务器的处理器,该方法可以包括:
步骤210、从接收的待识别语音信号中提取声学特征。
处理器接收待识别语音信号,之后采用现有技术中的多种常用技术方式提取待识别语音的声学特征,例如,提取语音的线性预测倒谱系数(Linear Predictive CepstralCoeficients,LPCC),或者梅尔频率倒谱系数(Mel Frequency Cepstral Cocficients,MFCC)等。
可以理解的是,提取声学特征的数量为至少一个,即声学特征序列,其是采用预设分帧算法对待识别语音信号分帧后得到的至少一个语音帧对应的声学特征组成的序列。
步骤220、将声学特征输入WFST的声学模型中,获取声学特征到音素的各路径的概率。
步骤230、将声学特征到音素的各路径输出的音素作为WFST中预设发音词典的输入,获取各路径输出的音素对应的词。
步骤240、将各路径输出的音素对应的词作为WFST中预设语言模型的输入,获取词到词序列的各路径的概率。
步骤250、根据声学特征到音素的各路径的概率和词到词序列的各路径的概率,获得声学特征到词序列的各路径的目标概率。
步骤260、确定目标概率最大的路径对应的词序列为待识别的语音信号对应的目标词序列。
处理器可以对声学特征到音素的各路径的概率和词至词序列的各路径的概率采用求和运算或乘积运算,得到声学特征到词序列的各路径的目标概率。
可见,本发明上述实施例在语音信号的识别过程中不用判别语种,各个语种之间形成竞争机制,即可得到多语种的声学特征到词序列的各路径的目标概率,将竞争力强(或称目标概率最大)的词序列作为待识别语音信号的识别结果,提高了语音识别的准确性。
本发明实施例提供的加权有限状态转换器WFST构建方法根据至少两个语种音素的发音属性,获取至少两个语种对应的一个音素集合;采用预设算法,对至少两个语种的语音信号训练样本的各音素和语音信号训练样本对应的声学特征进行运算,得到在各音素条件下产生声学特征的概率;采用预设训练方法,对各音素条件下产生声学特征的概率进行训练,构建声学模型;根据构建的声学模型、预设发音词典和预设语言模型,构建WFST;预设发音词典用于描述至少两个语种的音素与词的映射关系,预设语言模型用于描述词与词序列的映射关系,以及词到词序列的各路径概率。该方法通过将多个语种音素映射到一个音素集合中,避免了现有技术中需要训练多个语种的语种识别模型,降低了部署成本,且在识别过程中不需要先识别语种再对相应语种的语音信号进行识别,提高了语音识别的效率。
与上述方法对应的,本发明实施例还提供一种加权有限状态转换器WFST构建装置,如图3所示,该装置包括:获取单元310、运算单元320和构建单元330;
获取单元310,用于根据至少两个语种音素的发音属性,获取所述至少两个语种对应的一个音素集合;
运算单元320,用于采用预设算法,对所述至少两个语种的语音信号训练样本的各音素和所述语音信号训练样本对应的声学特征进行运算,得到在所述各音素条件下产生所述声学特征的概率;
构建单元330,用于根据所述概率,构建声学模型;
以及,根据构建的声学模型、预设发音词典和预设语言模型,构建加权有限状态转换器WFST;其中,所述预设发音词典用于描述所述至少两个语种的音素与词的映射关系,所述预设语言模型用于描述词与词序列的映射关系,以及所述词到词序列的各路径概率。
在一个可选的实现中,获取单元310,具体用于根据至少两个语种音素的发音属性,将每个语种的音素使用国际音标中与所述音素发音相同的国际音素进行标识,获取所述至少两个语种对应的一个国际音素集合。
在一个可选的实现中,获取单元310,还具体用于根据至少两个语种音素的发音属性,将每个语种音素间发音相同的音素合并,且将所述每个语种音素间发音不同的音素保留,获取所述至少两个语种对应的一个音素集合。
在一个可选的实现中,所述装置还包括分帧单元340和提取单元350;
分帧单元340,用于采用预设语音分帧算法,对所述至少两个的语音信号训练样本进行分帧,得到至少一个语音帧;
提取单元350,用于提取所述至少一个语音帧中每个语音帧的声学特征,以获取所述语音信号训练样本对应的声学特征。
在一个可选的实现中,所述预设算法包括隐马尔可夫HMM模型算法。
本发明上述实施例提供的加权有限状态转换器WFST构建装置的各功能单元的功能,可以通过上述各方法步骤来实现,因此,本发明实施例提供的加权有限状态转换器WFST构建装置中的各个单元的具体工作过程和有益效果,在此不复赘述。
与上述方法对应的,本发明实施例还提供一种语音识别装置,如图4所示,该语音识别装置包括:提取单元410、获取单元420和确定单元430;
提取单元410,用于从接收的待识别语音信号中提取声学特征;
获取单元420,用于将所述声学特征输入所述加权有限状态转换器WFST的声学模型中,获取所述声学特征到音素的各路径的概率;
以及,将所述声学特征到音素的各路径输出的音素作为所述WFST中预设发音词典的输入,获取所述各路径输出的音素对应的词;
将所述各路径输出的音素对应的词作为所述WFST中预设语言模型的输入,获取所述词到词序列的各路径的概率;
根据所述声学特征到音素的各路径的概率和所述词到词序列的各路径的概率,获得所述声学特征到词序列的各路径的目标概率;
确定单元430,用于确定所述目标概率最大的路径对应的词序列为所述待识别的语音信号对应的目标词序列。
在一个可选的实现中,获取单元420,具体用于对所述声学特征到音素的各路径的概率和所述词至词序列的各路径的概率采用求和运算或乘积运算,得到所述声学特征到词序列的各路径的目标概率。
本发明上述实施例提供的语音识别装置的各功能单元的功能,可以通过上述各方法步骤来实现,因此,本发明实施例提供的语音识别装置中的各个单元的具体工作过程和有益效果,在此不复赘述。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器510、通信接口520、存储器530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。
存储器530,用于存放计算机程序;
处理器510,用于执行存储器530上所存放的程序时,实现如下步骤:
根据至少两个语种音素的发音属性,获取所述至少两个语种对应的一个音素集合;
采用预设算法,对所述至少两个语种的语音信号训练样本的各音素和所述语音信号训练样本对应的声学特征进行运算,得到在所述各音素条件下产生所述声学特征的概率;
采用预设训练方法,对所述各音素条件下产生所述声学特征的概率进行训练,构建声学模型;
根据构建的声学模型、预设发音词典和预设语言模型,构建加权有限状态转换器WFST;其中,所述预设发音词典用于描述所述至少两个语种的音素与词的映射关系,所述预设语言模型用于描述词与词序列的映射关系,以及所述词到词序列的各路径概率。
在一个可选的实现中,根据至少两个语种音素的发音属性,获取所述至少两个语种对应的一个音素集合,包括:
根据至少两个语种音素的发音属性,将每个语种的音素使用国际音标中与所述音素发音相同的国际音素进行标识,获取所述至少两个语种对应的一个国际音素集合。
在一个可选的实现中,根据至少两个语种音素的发音属性,获取所述至少两个语种对应的一个音素集合,包括:
根据至少两个语种音素的发音属性,将每个语种音素间发音相同的音素合并,且将所述每个语种音素间发音不同的音素保留,获取所述至少两个语种对应的一个音素集合。
在一个可选的实现中,采用预设算法,对所述至少两个的语音信号训练样本的各音素和所述语音信号训练样本对应的声学特征进行运算之前,所述方法还包括:
采用预设语音分帧算法,对所述至少两个的语音信号训练样本进行分帧,得到至少一个语音帧;
提取所述至少一个语音帧中每个语音帧的声学特征,以获取所述语音信号训练样本对应的声学特征。
在一个可选的实现中,所述预设算法包括隐马尔可夫HMM模型算法。
或者,实现以下步骤:
从接收的待识别语音信号中提取声学特征;
将所述声学特征输入所述WFST的声学模型中,获取所述声学特征到音素的各路径的概率;
将所述声学特征到音素的各路径输出的音素作为所述WFST中预设发音词典的输入,获取所述各路径输出的音素对应的词;
将所述各路径输出的音素对应的词作为所述WFST中预设语言模型的输入,获取所述词到词序列的各路径的概率;
根据所述声学特征到音素的各路径的概率和所述词到词序列的各路径的概率,获得所述声学特征到词序列的各路径的目标概率;
确定所述目标概率最大的路径对应的词序列为所述待识别的语音信号对应的目标词序列。
在一个可选的实现中,根据所述声学特征到音素的各路径的概率和所述词到词序列的各路径的概率,获得所述声学特征到词序列的各路径的目标概率,包括:
对所述声学特征到音素的各路径的概率和所述词至词序列的各路径的概率采用求和运算或乘积运算,得到所述声学特征到词序列的各路径的目标概率。
上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图1和图2所示的实施例中的各步骤来实现,因此,本发明实施例提供的电子设备的具体工作过程和有益效果,在此不复赘述。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的加权有限状态转换器WFST构建方法和语音识别方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的加权有限状态转换器WFST构建方法和语音识别方法。
本领域内的技术人员应明白,本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此,本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样,倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内,则本申请实施例中也意图包含这些改动和变型在内。
Claims (16)
1.一种加权有限状态转换器构建方法,其特征在于,所述方法包括:
根据至少两个语种音素的发音属性,获取所述至少两个语种对应的一个音素集合;
采用预设算法,对所述至少两个语种的语音信号训练样本的各音素和所述语音信号训练样本对应的声学特征进行运算,得到在所述各音素条件下产生所述声学特征的概率;
采用预设训练方法,对所述各音素条件下产生所述声学特征的概率进行训练,构建声学模型;
根据构建的声学模型、预设发音词典和预设语言模型,构建加权有限状态转换器;其中,所述预设发音词典用于描述所述至少两个语种的音素与词的映射关系,所述预设语言模型用于描述词与词序列的映射关系,以及所述词到词序列的各路径概率。
2.如权利要求1所述的方法,其特征在于,根据至少两个语种音素的发音属性,获取所述至少两个语种对应的一个音素集合,包括:
根据至少两个语种音素的发音属性,将每个语种的音素使用国际音标中与所述音素发音相同的国际音素进行标识,获取所述至少两个语种对应的一个国际音素集合。
3.如权利要求1所述的方法,其特征在于,根据至少两个语种音素的发音属性,获取所述至少两个语种对应的一个音素集合,包括:
根据至少两个语种音素的发音属性,将每个语种音素间发音相同的音素合并,且将所述每个语种音素间发音不同的音素保留,获取所述至少两个语种对应的一个音素集合。
4.如权利要求1所述的方法,其特征在于,采用预设算法,对所述至少两个的语音信号训练样本的各音素和所述语音信号训练样本对应的声学特征进行运算之前,所述方法还包括:
采用预设语音分帧算法,对所述至少两个的语音信号训练样本进行分帧,得到至少一个语音帧;
提取所述至少一个语音帧中每个语音帧的声学特征,以获取所述语音信号训练样本对应的声学特征。
5.如权利要求1所述的方法,其特征在于,所述预设算法包括隐马尔可夫HMM模型算法。
6.一种语音识别方法,其特征在于,应用在权利要求1-5任一所述的加权有限状态转换器中,所述方法包括:
从接收的待识别语音信号中提取声学特征;
将所述声学特征输入所述加权有限状态转换器的声学模型中,获取所述声学特征到音素的各路径的概率;
将所述声学特征到音素的各路径输出的音素作为所述加权有限状态转换器中预设发音词典的输入,获取所述各路径输出的音素对应的词;
将所述各路径输出的音素对应的词作为所述加权有限状态转换器中预设语言模型的输入,获取所述词到词序列的各路径的概率;
根据所述声学特征到音素的各路径的概率和所述词到词序列的各路径的概率,获得所述声学特征到词序列的各路径的目标概率;
确定所述目标概率最大的路径对应的词序列为所述待识别的语音信号对应的目标词序列。
7.如权利要求6所述的方法,其特征在于,
根据所述声学特征到音素的各路径的概率和所述词到词序列的各路径的概率,获得所述声学特征到词序列的各路径的目标概率,包括:
对所述声学特征到音素的各路径的概率和所述词至词序列的各路径的概率采用求和运算或乘积运算,得到所述声学特征到词序列的各路径的目标概率。
8.一种加权有限状态转换器构建装置,其特征在于,所述装置包括:获取单元、运算单元和构建单元;
所述获取单元,用于根据至少两个语种音素的发音属性,获取所述至少两个语种对应的一个音素集合;
所述运算单元,用于采用预设算法,对所述至少两个语种的语音信号训练样本的各音素和所述语音信号训练样本对应的声学特征进行运算,得到在所述各音素条件下产生所述声学特征的概率;
所述构建单元,用于根据所述概率,构建声学模型;
以及,根据构建的声学模型、预设发音词典和预设语言模型,构建加权有限状态转换器;其中,所述预设发音词典用于描述所述至少两个语种的音素与词的映射关系,所述预设语言模型用于描述词与词序列的映射关系,以及所述词到词序列的各路径概率。
9.如权利要求8所述的装置,其特征在于,
所述获取单元,具体用于根据至少两个语种音素的发音属性,将每个语种的音素使用国际音标中与所述音素发音相同的国际音素进行标识,获取所述至少两个语种对应的一个国际音素集合。
10.如权利要求8所述的装置,其特征在于,所述获取单元,还具体用于根据至少两个语种音素的发音属性,将每个语种音素间发音相同的音素合并,且将所述每个语种音素间发音不同的音素保留,获取所述至少两个语种对应的一个音素集合。
11.如权利要求8所述的装置,其特征在于,所述装置还包括分帧单元和提取单元;
所述分帧单元,用于采用预设语音分帧算法,对所述至少两个的语音信号训练样本进行分帧,得到至少一个语音帧;
所述提取单元,用于提取所述至少一个语音帧中每个语音帧的声学特征,以获取所述语音信号训练样本对应的声学特征。
12.如权利要求8所述的装置,其特征在于,所述预设算法包括隐马尔可夫HMM模型算法。
13.一种语音识别装置,其特征在于,应用在权利要求1-5任一所述的加权有限状态转换器中,所述装置包括:提取单元、获取单元和确定单元;
所述提取单元,用于从接收的待识别语音信号中提取声学特征;
所述获取单元,用于将所述声学特征输入所述加权有限状态转换器的声学模型中,获取所述声学特征到音素的各路径的概率;
以及,将所述声学特征到音素的各路径输出的音素作为所述加权有限状态转换器中预设发音词典的输入,获取所述各路径输出的音素对应的词;
将所述各路径输出的音素对应的词作为所述加权有限状态转换器中预设语言模型的输入,获取所述词到词序列的各路径的概率;
根据所述声学特征到音素的各路径的概率和所述词到词序列的各路径的概率,获得所述声学特征到词序列的各路径的目标概率;
所述确定单元,用于确定所述目标概率最大的路径对应的词序列为所述待识别的语音信号对应的目标词序列。
14.如权利要求13所述的装置,其特征在于,
所述获取单元,具体用于对所述声学特征到音素的各路径的概率和所述词至词序列的各路径的概率采用求和运算或乘积运算,得到所述声学特征到词序列的各路径的目标概率。
15.一种电子设备,其特征在于,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存储的程序时,实现权利要求1-5任一所述的方法步骤或实现权利要求6-7任一所述的方法步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤或实现权利要求6-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010864932.6A CN112017648A (zh) | 2020-08-25 | 2020-08-25 | 加权有限状态转换器构建方法、语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010864932.6A CN112017648A (zh) | 2020-08-25 | 2020-08-25 | 加权有限状态转换器构建方法、语音识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112017648A true CN112017648A (zh) | 2020-12-01 |
Family
ID=73502188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010864932.6A Pending CN112017648A (zh) | 2020-08-25 | 2020-08-25 | 加权有限状态转换器构建方法、语音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112017648A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112820281A (zh) * | 2020-12-31 | 2021-05-18 | 北京声智科技有限公司 | 一种语音识别方法、装置及设备 |
CN113223504A (zh) * | 2021-04-30 | 2021-08-06 | 平安科技(深圳)有限公司 | 声学模型的训练方法、装置、设备和存储介质 |
CN113362813A (zh) * | 2021-06-30 | 2021-09-07 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
WO2022252890A1 (zh) * | 2021-05-31 | 2022-12-08 | 上海商汤智能科技有限公司 | 交互对象驱动和音素处理方法、装置、设备以及存储介质 |
CN116312488A (zh) * | 2023-02-13 | 2023-06-23 | 镁佳(北京)科技有限公司 | 语音识别系统、方法、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971678A (zh) * | 2013-01-29 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 关键词检测方法和装置 |
CN107195296A (zh) * | 2016-03-15 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置、终端及系统 |
CN109817213A (zh) * | 2019-03-11 | 2019-05-28 | 腾讯科技(深圳)有限公司 | 用于自适应语种进行语音识别的方法、装置及设备 |
-
2020
- 2020-08-25 CN CN202010864932.6A patent/CN112017648A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971678A (zh) * | 2013-01-29 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 关键词检测方法和装置 |
CN107195296A (zh) * | 2016-03-15 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置、终端及系统 |
CN109817213A (zh) * | 2019-03-11 | 2019-05-28 | 腾讯科技(深圳)有限公司 | 用于自适应语种进行语音识别的方法、装置及设备 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112820281A (zh) * | 2020-12-31 | 2021-05-18 | 北京声智科技有限公司 | 一种语音识别方法、装置及设备 |
CN112820281B (zh) * | 2020-12-31 | 2022-09-23 | 北京声智科技有限公司 | 一种语音识别方法、装置及设备 |
CN113223504A (zh) * | 2021-04-30 | 2021-08-06 | 平安科技(深圳)有限公司 | 声学模型的训练方法、装置、设备和存储介质 |
CN113223504B (zh) * | 2021-04-30 | 2023-12-26 | 平安科技(深圳)有限公司 | 声学模型的训练方法、装置、设备和存储介质 |
WO2022252890A1 (zh) * | 2021-05-31 | 2022-12-08 | 上海商汤智能科技有限公司 | 交互对象驱动和音素处理方法、装置、设备以及存储介质 |
CN113362813A (zh) * | 2021-06-30 | 2021-09-07 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN113362813B (zh) * | 2021-06-30 | 2024-05-28 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN116312488A (zh) * | 2023-02-13 | 2023-06-23 | 镁佳(北京)科技有限公司 | 语音识别系统、方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11062699B2 (en) | Speech recognition with trained GMM-HMM and LSTM models | |
CN112017648A (zh) | 加权有限状态转换器构建方法、语音识别方法及装置 | |
CN107016994B (zh) | 语音识别的方法及装置 | |
CN103971685B (zh) | 语音命令识别方法和系统 | |
WO2018227781A1 (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN111402862B (zh) | 语音识别方法、装置、存储介质及设备 | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
CN107093422B (zh) | 一种语音识别方法和语音识别系统 | |
WO2014183373A1 (en) | Systems and methods for voice identification | |
CN102013253A (zh) | 基于语音单元语速的差异的语音识别方法及语音识别系统 | |
CN107886968B (zh) | 语音评测方法及系统 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN112562640B (zh) | 多语言语音识别方法、装置、系统及计算机可读存储介质 | |
US20220180864A1 (en) | Dialogue system, dialogue processing method, translating apparatus, and method of translation | |
CN112634866A (zh) | 语音合成模型训练和语音合成方法、装置、设备及介质 | |
CN113744722A (zh) | 一种用于有限句库的离线语音识别匹配装置与方法 | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
CN112542170A (zh) | 对话系统、对话处理方法和电子装置 | |
CN111640423B (zh) | 一种词边界估计方法、装置及电子设备 | |
CN113053409B (zh) | 音频测评方法及装置 | |
CN112216270A (zh) | 语音音素的识别方法及系统、电子设备及存储介质 | |
CN113506561B (zh) | 文本拼音的转换方法及装置、存储介质及电子设备 | |
CN111312216B (zh) | 一种包含多说话人的语音标记方法及计算机可读存储介质 | |
CN114627896A (zh) | 语音评测方法、装置、设备及存储介质 | |
US20230245649A1 (en) | Token confidence scores for automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |