CN107195296B

CN107195296B - 一种语音识别方法、装置、终端及系统

Info

Publication number: CN107195296B
Application number: CN201610146356.5A
Authority: CN
Inventors: 李宏言; 李晓辉
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-03-15
Filing date: 2016-03-15
Publication date: 2021-05-04
Anticipated expiration: 2036-03-15
Also published as: CN107195296A

Abstract

本申请实施例中提供了一种语音识别方法、装置、终端及系统，该方法包括：接收待识别语音；对待识别语音进行特征提取，得到特征信息；将特征信息输入加权有限状态转换器WFST进行识别，其中，该WFST是由预先创建的声学模型、发音词典、语言模型组合得到的，该声学模型中的各第一语种音素与第二语种音素存在对应关系，该发音词典中的各第一语种词语由第二语种音素注音。采用本申请中的方案，能够提升语音识别准确率。

Description

一种语音识别方法、装置、终端及系统

技术领域

本申请涉及语音识别技术，特别涉及一种语音识别方法、装置、终端及系统。

背景技术

语音识别是指一种从语音波形中识别出对应的文字内容的技术，是人工智能领域的重要技术之一。

目前的语音识别方法一般包括三部分：声学模型、发音字典以及语言模型。其中声学模型通过深度神经网络训练，语言模型一般是统计语言模型，而发音字典记录了词与音素之间的对应关系，是连接声学模型和语言模型的纽带。

针对多个语种混杂的语音，现有技术中的语音识别方法在进行声学模型训练时，直接将多个语种的音素均输入深度神经网络进行训练，且在发音词典中分别利用各语种的音素对各语种的词语注音。

现有的通用语音识别方法在应用于多个语种混杂的语音识别场景时，识别准确率低。

发明内容

本申请实施例中提供了一种语音识别方法、装置、终端及系统，用于解决现有技术中的语音识别方法应用于多个语种混杂的语音识别场景时，识别准确率低的问题。

根据本申请的第一个方面，提供了一种语音识别方法，包括：接收待识别语音；对待识别语音进行特征提取，得到特征信息；将特征信息输入加权有限状态转换器WFST进行识别，其中，该WFST是由预先创建的声学模型、发音词典、语言模型组合得到的，该声学模型中的各第一语种音素与第二语种音素存在对应关系，该发音词典中的各第一语种词语由第二语种音素注音。

根据本申请的第二个方面，提供了一种语音识别装置，包括：接收模块，用于接收待识别语音；特征提取模块，用于对待识别语音进行特征提取，得到特征信息；识别模块，用于将特征信息输入加权有限状态转换器WFST进行识别，其中，该WFST是由预先创建的声学模型、发音词典、语言模型组合得到的，该声学模型中的各第一语种音素与第二语种音素存在对应关系，该发音词典中的各第一语种词语由第二语种音素注音。

根据本申请的第三个方面，提供了一种终端，包括：如上述的语音识别装置。

根据本申请的第四个方面，提供了一种语音识别系统，包括：终端，用于接收用户输入的待识别语音，并将待识别语音发送至服务器；服务器，包括如上述的语音识别装置，用于对来自终端的待识别语音进行识别，并将识别结果返回终端。

采用本申请实施例中提供的语音识别方法、装置、终端及系统，将待识别语音输入第一语种音素与第二语种音素存在对应关系的声学模型、第一语种词语由第二语种音素注音的发音词典和语言模型组成的WFST模型进行识别，由于将第一语种音素对应为第二语种音素，且利用该第二语种音素对第一语种词语注音，符合以第二语种作为母语的用户的发音习惯，识别准确度较高。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例一所示的创建WFST的流程图；

图2是本申请实施例一中所示的中文音素和英文音素的示意图；

图3是本申请实施例一中所示的中文音素和英文音素的对应关系示意图；

图4是本申请实施例一中的生成CLG组合的WFST网络时的流程图；

图5是根据本申请实施例二的语音识别方法的流程图；

图6a和图6b是将本申请实施例二中的语音识别方法应用于电商平台的商品搜索场景时的示意图；

图7是根据本申请实施例三所示的语音识别装置的结构示意图；

图8是本申请实施例四所示的包括语音识别装置700的终端80的结构示意图；

图9是本申请实施例五所示的语音识别系统的结构示意图。

具体实施方式

在实现本申请的过程中，申请人发现，伴随着技术发展以及社会进步，移动互联网快速地发展，移动终端也得到了快速的普及，各种移动终端客户端也成为人们接入电子商务网站的重要入口。语音以其交互自然方便的特点越来越多的成为电子商务移动终端人机交互的方式，即，用户可以通过语音进行商品、店铺等的搜索。另一方面，随着全球经济一体化，电子商务网站上的商品类目日益增加，其中出现了一定比例的多语种混合商品名称，例如，英文、中英文混合、中英数字混合商品名称，比如苹果iPad，iPad mini2、三星NOTE 2等；为了识别这些商品名称，相关技术中也存在一些语音识别的方法，但是现有技术中的语音识别方法在进行声学模型训练时，直接将多个语种的音素均输入深度神经网络进行训练，且在发音词典中分别利用各语种的音素对各语种的词语注音；未考虑以某一语种作为母语的用户的发音习惯，在应用于多个语种混杂的语音识别场景时，识别准确率低。

针对上述问题，本申请实施例中提供了一种语音识别方法、装置、终端及系统，预先创建由第一语种音素与第二语种音素存在对应关系的声学模型、第一语种词语由第二语种音素注音的发音词典和语言模型组成的WFST模型；然后将待识别语音输入该WFST模型进行识别，由于将第一语种音素对应为第二语种音素，且利用该第二语种音素对第一语种词语注音，符合以第二语种作为母语的用户的发音习惯，识别准确度较高。

在本申请中，第一语种可以包括一个或多个语种，该第二语种可以包括一个语种。即，可以根据以第二语种作为母语的用户的发音习惯，将一个或多个第一语种音素对应为第二语种音素，且利用第二语种音素对第一语种词语注音。例如，可以将各英文音素对应为中文音素，且用中文音素对各英文单词注音；也可以将可以将各中文音素对应为英文音素，且用英文音素对各中文词语注音；还可以将各英文音素、各法语音素分别对应为中文音素，且用中文音素对各英文单词、法语单词注音等。在具体实施时，第一语种可以是任意一个语种或多个语种之间的组合，第二语种也可以是任意一个语种，本申请在此不一一例举。

本申请实施例中的方案可以应用于各种场景，例如，语音输入系统，包括语音搜索等领域；语音控制系统，即用语音来控制设备的运行，诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域；智能对话查询系统，例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。

本申请涉及的语音识别方案可以使用C/C++/perl/python等编程语言实现，可以部署在linux服务器上。

本申请涉及的语音识别方案可以单独应用，也可以与手动的文字输入法一起应用。

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

在本申请实施例一中，将对根据本申请实施例的创建WFST(Weighted Finite-State Transducers，加权有限状态转换器)的全过程进行描述。

如图1所示，根据本申请实施例创建WFST包括以下步骤：

S101，创建声学模型。

声学模型是语音识别模型中的重要组成模块之一，可以用来描述语音特征与音素状态之间的对应关系，一般用统计模型来进行建模表示。语言模型是语音识别模型中的重要组成模块之一，可以用来描述词汇之间的概率连接关系。

在具体实施时，可以采用以下方式创建声学模型：确定第一语种和第二语种的各个音素；根据第一语种与第二语种的发音，确定与各第一语种音素分别对应的一个第二语种音素或多个第二语种音素；将各第二语种音素、与各第一语种音素分别对应的一个第二语种音素或多个第二语种音素作为待匹配音素，并进行于DNN(Deep Neural Network，深度神经网络)训练，得到本申请实施例中的声学模型。

音素是构成音节的最小单位或最小的语音片段，是从音质的角度划分出来的最小的线性的语音单位。在语音学与音韵学中，音素一词所指的是说话时所发出的声音。每一个语种中的音素都是不一样的，即使是同种语言中，方言的音素也是不一样的。

下面将以第一语种为英文，第二语种为中文为例，对本申请实施例中声学模型的创建过程进行详细阐述。本领域技术人员应当理解，下述的实施过程仅为举例，并不用于限制本申请。

在具体实施时，中文和英文的各个音素可以由系统开发人员结合标准音素和经验值自行设定。例如，可以是如图2所示的音素。如图2所示，中文音素包括如“A、E、I”等多个音素，某些特定的音素还包括如“1、2、3、4”的声调，“1、2、3、4”分别对应于中文的声调“一声、二声、三声、四声”。英文音素包括如“aa、ae、ah”等多个音素，还包括一个用于表示为英文音素的特定前缀“en”。

应当理解，图2中所示的中文音素和英文音素仅为示意的目的示出，并不用于限制本申请。

在具体实施时，可以根据各英文音素的发音与中文音素的发音之间的对应关系，确定与各英文音素分别对应的一个中文音素，或者多个中文音素的对应关系。即，一个英文音素可以对应于一个中文音素，也可以对应于多个中文音素的组合。

更具体地，可以根据各英文音素的国际音标确定对应的中文音素。例如，可以设置各英文音素与中文音素的对应关系如图3所示。在图3中，“序号”表示各音素的编号，“IPA(International Phonetic Alphabet，国际音标符号)”为各英文音素的国际音标，“英文”表示该国际音标对应的英文音素，“中文”表示该国际音标对应的中文音素，同时也是该英文音素对应的中文音素。例如，可以确定英文音素“b”对应为一个中文音素“b”，也可以确定英文音素“OW”对应为两个中文音素“o4W”，即“o4”和“W”的组合。

应当理解，图3中所示的中文音素和英文音素的对应关系仅为示意的目的示出，并不用于限制本申请。

除采用DNN模型之外，还可以采用例如HMM(Hidden Markov Model，隐马尔可夫模型)、GMM(Gaussian Mixture Model，高斯混合模型)等模型进行声学模型的训练，本申请对此不作限制。

与传统浅层网络相比，深度神经网络是层数相对较多的神经网络，该神经网络的每层具有一定数目的节点，相邻层节点之间全连接或部分连接，具有比较强的建模能力，是目前人工智能领域的热门技术之一。

在本申请实施例中，可以将各中文音素、与各英文音素分别对应的一个中文音素或者多个中文音素作为DNN模型最终输出层的待匹配音素进行训练，以得到各特征信息与各中文音素、与各英文音素对应的一个中文音素或多个中文音素之间的匹配概率。

S102，创建发音词典。

在具体实施时，可以采用以下方式创建发音词典：通过爬虫算法在互联网上爬取语料，该语料包括物品名称；如果该语料为第二语种词语，则通过第二语种音素对该语料注音；如果该语料为第一语种词语，则提取组成第一语种词语的第一语种音素；根据各第一语种音素与一个第二语种音素或多个第二语种音素的对应关系，确定组成第一语种词语的一个或多个第一语种音素对应的一个或多个第二语种音素；利用对应的一个或多个第二语种音素对第一语种词语注音。

下面将仍然以第一语种为英文，第二语种为中文为例，对本申请实施例中发音词典的创建过程进行详细阐述。本领域技术人员应当理解，下述的实施过程仅为举例，并不用于限制本申请。

由于电子商务平台，例如淘宝、天猫等的出现的新词，尤其是中英文混合商品的数量较大，因此传统的人工标注发音方式已不能很好地满足需求；因此，可以采用G2P(grapheme to phoneme，字-音)算法对中文语料注音。

G2P算法是一种自动预测词汇发音序列的方法，通过建模的方式，将未知发音序列的单词通过模型预测出发音序列，是发音词典构建中的一种常见方法。

发音词典的注音需要解决多音字、外来词、新词、发音变异(变调、变音)等因素，在具体实施时，还可以在G2P算法自动注音后结合众筹的方式对G2P注音的结果进行人工核查。

在具体实施时，当在互联网上爬取的语料中包括的物品名称为英文单词时，可以提取组成该英文单词的英文音素；根据各英文音素与一个中文音素或多个中文音素的对应关系，确定组成该英文单词的一个或多个英文音素对应的一个或多个中文音素；并利用该对应的一个或多个中文音素对英文单词进行注音。

例如，英文单词chanel的发音有“史奈儿”、“史奈哦”等，组成该英文单词的英文音素有“sh”、“aa”、“n”、“iy”、“ea”、或者“sh”、“aa”、“n”、“ih”、“el”。查询英文音素与中文音素的对应关系，确定分别对应的中文音素为“x”、“al”、“n”、“il”、“Ele”；以及“x”、“al”、“n”、“i4”、“E4l”。因此，可以将chanel注音为“x al n il Ele”，或者“x al n i4 E4l”。

具体的注音结果可以如下表所示。

英文单词	中文音素注音
		iphone	Aa_B Y f ed NG_E
iphone	Ad_B Y f od W N_E
		iphone	Id f od W N_E
zara	z_BAaraa_E
		zara	z_Baaraa_E
gucci	g_Buachia_E
		gucci	g_Bucqib_E
chanel	x al n il Ele
		chanel	x al n i4 E4l
美的	m_BEc Y d ib_E
		美的	m_BEc Y d id_E

S103，创建语言模型。

在具体实施时，可以采用以下方式创建语言模型：获取互联网上爬取的语料，并确定物品语料和用户输入语料；将互联网上爬取的语料、物品语料、用户输入语料作为待匹配词语，并进行N-gram模型训练，得到该语言模型。

在本申请实施例中，可以将互联网上爬取的语料、物品语料、用户输入语料作为待匹配词语进行N-gram模型训练，以得到输入语音与各待匹配词语之间的匹配概率。

下面将仍然以第一语种为英文，第二语种为中文为例，对本申请实施例中语言模型的创建过程进行详细阐述。本领域技术人员应当理解，下述的实施过程仅为举例，并不用于限制本申请。

N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，又称为CLM(Chinese Language Model，汉语语言模型)。该模型利用上下文中相邻词间的搭配信息，在需要把连续的拼音、笔划，或代表字母或笔划的数字，转换成汉字串(即句子)时，可以计算出具有最大概率的句子，从而实现从语音到汉字的自动转换。

在实现本申请的过程中，发明人发现，在例如手机淘宝、天猫等电子商务领域中存在有海量的商品名称和店铺名称，这会导致商品、店铺等的词频较高，如果直接以商品名称和店铺名称作为语料进行语言模型的训练，可能会造成所构造的语言模型和WFST模型的稀疏性、混淆性增强，从而导致识别率降低。

为解决上述问题，在具体实施时，可以获取在创建发音词典时从互联网上爬取的语料作为通用的文本语料、物品语料和用户输入语料作为待匹配词语进行N-gram模型训练，从而在语料层面进行语料平衡，最终提高语音识别的准确率，提升用户感受。

在具体实施时，通过以下方式确定物品语料：获取购物平台展示的物品品牌和物品类别信息；将各物品品牌和物品类别信息分别组合，得到物品语料。例如，获取的物品品牌为“阿里云”，物品类别信息为“手机”，则组合得到物品语料为“阿里云手机”。具体地，该购物平台可以是如天猫、淘宝、京东等购物平台。

在具体实施时，还可以通过以下方式获取用户输入语料：获取用户在购物平台输入的查询语句；将该查询语句，作为用户输入语料。具体地，可以预先采集用户在购物平台通过文字或语音输入的查询语句。例如：“我要买iphone4s手机”、“我要买一双ugg雪地靴”、“三星galaxy s4手机”、“三星i9300手机”、“我想要ipad mini”等。在具体实施时，还可以通过调整平滑参数以优化语言模型，减轻模型的稀疏性和混淆性，具体的调整平滑参数的方法可以采用本领域技术人员的常用算法，本申请对此不作限制。

应当理解，上述步骤101、102、103之间的执行没有严格的时序关系，即，上述三个步骤的执行并没有先后关系，可以一一顺序执行，也可以同时执行某两个步骤，再执行第三个步骤，也可以将三个步骤并发执行，本申请对此均不作限制。

S104，将创建的声学模型、发音词典、语言模型组合得到WFST。

WFST属于有限状态机的一种，是在有限状态机的不同路径上添加了不同的权重，是语音识别过程中进行图搜索的框架。WFST可以把语言模型、发音词典和声学模型统一集成为一个大的解码网络，大大提高了解码的速度，为语音识别的实时应用提供了基础。在具体实施时，经WFST识别后的输出的文本信息可以应用于如商品搜索、音乐搜索等，也可以应用于如人机交互、用户彼此之间的交互等，本申请对此不作限制，但本领域技术人员应当理解，这些应用均在本申请的保护范围之内。

在具体实施时，可以采用本领域的常用技术手段将声学模型、发音词典、语言模型组合为WFST模型。在完成组合运算后，即得到一个从状态概率分布对应到词的加权有限状态转换器。组合后的WFST模型中的每条成功路径都可以表示一种可能的状态概率分布到词的对应，其加权值则表示该路径在语言模型中的概率。而将特征提取后得到的语音特征信息向量输入整合后的有限状态转换器，并搜索一条最佳成功路径，该路径的输出字元就是语音识别的结果。

具体地，可以分别生成声学模型的WFST网络、发音词典的WFST网络、语言模型的WFST网络，再将上述三个WFST网络组合为本申请实施例中的WFST模型。本领域技术人员应当理解，生成声学模型的WFST网络、发音词典的WFST网络、和语言模型的WFST网络，以及将上述三个WFST网络组合为本申请实施例中的WFST模型均可以采用本领域技术人员的常用技术手段，本申请在此不一一赘述。

下面将以HMM声学模型为例，对本申请实施例中声学模型的WFST网络的一种生成过程进行详细阐述。本领域技术人员应当理解，下述的实施过程仅为举例，并不用于限制本申请。

为生成HMM声学模型的WFST网络，首先，将HMM状态概率分布序列转移到有限状态机的转移路径上，并用正则语言表示。然后，将原HMM中的信号模型用有限状态机表示，并将其移到转换路径上作为输入信号模型，由转换成的有限状态转换器输出信号。最后，得到HMM生成的WFST网络，其功能是将状态概率分布模型转换成声学模型。

发音词典的WFST网络能够将已得到的音素序列对应到有意义的词序列，从而使发音词典的有限状态转换器成为有意义的搜索空间。发音词典通常包括线性词典和树状词典两种。

下面将以线性词典为例，描述生成发音词典的WFST网络的一种生成过程。本领域技术人员应当理解，下述的实施过程仅为举例，并不用于限制本申请。

在具体实施时，为生成线性词典的WFST网络，首先针对词典中的每一个词分别建立一个相对应的有限状态转换器，再通过合并演算法将各词的有限状态转换器并集成一个有限状态转换器，加上由终止状态回到初始状态的空转移，就可以得到一个从音素到词的有限状态转换器。即，发音词典的WFST网络。

下面将描述生成语言模型的WFST网络的一种实施过程。本领域技术人员应当理解，下述的实施过程仅为举例，并不用于限制本申请。

语言模型描述的是词与词之间的连接概率，可以针对模型中的每一个词分别建立一个相对应的有限状态转换器，再通过合并演算法将各词的有限状态转换器并集成一个有限状态转换器。

下面将描述将上述三个WFST网络组合为本申请实施例中的WFST模型的一种实施过程。本领域技术人员应当理解，下述的实施过程仅为举例，并不用于限制本申请。

在一种具体实施方式中，可以采用将上述三个有限状态转换器两两运算的方式分别进行组合运算。

首先，可以将发音词典与语言模型进行组合运算。在组合运算过程中，把发音词典的WFST网络作为上层有限状态转换器，语言模型的WFST网络作为下层有限状态转换器。上层的输出将对应下层的输入。此组合运算完成得到的加权有限状态转换器，能够实现音素到符合文法结构的词序列的转换。

然后继续与声学模型的WFST网络组合。具体地，把声学模型的WFST网络作为上层有限状态机，把发音词典与语言模型的组合等作为下层有限状态机。上层的输出将对应下层的输入。此组合运算完成得到的加权有限状态转换器，能够实现从语音特征向量到符合文法结构的词序列的转换。

在实现本申请的过程中，发明人发现，由于声学模型规模较大，这会导致生成WFST模型非常耗时，并且对服务器的内存也提出了较高要求。

为解决上述问题，在具体实施时，将声学模型、发音词典、语言模型组合得到所述WFST模型可以具体包括：将语言模型分割为多个子语言模型，分别生成多个子语言模型的WFST网络；将多个子语言模型的WFST网络分别与声学模型的WFST网络、发音词典的WFST网络分别组合得到多个子WFST模型；将多个子WFST模型合并得到WFST模型。

采用本申请实施例的语音识别方法，将语言模型分割为多个子语言模型，分别生成多个子语言模型的WFST网络；然后再将多个子语言模型的WFST网络分别与声学模型的WFST网络、发音词典的WFST网络分别组合得到多个子WFST模型；最后将多个子WFST模型合并得到WFST模型，因此能够支持大容量的语言模型成功转化为识别网络模型。

图4是根据本申请实施例的生成CLG组合的WFST网络时的流程图。

在图4中，C代表的是上下文相关Context dependent三音素到上下文独立Contextindependent三音素的对应关系，L代表发音字典，G代表语言模型。

如图4所示，考虑到语言模型G的规模相对较大，将语言模型G分割成G_1、G_2……G_n；然后分别得到各部分的WFST：G_1.wstf、G_2.wsft……G_n.wsft；同时根据预先设置的Context dependent三音素到Context independent三音素的对应关系，生成C层面的WFST；并根据发音词典生成L层面的WFST；然后将每个子语言模型的WFST与C层面、L层面的WFST组合成CLG层面的子WFST网络：CLG_1.wstf、CLG_2.wsft……CLG_n.wsft，最终将所有CLG层面的子WFST网络合并，生成最终的CLG层面WFST网络。

为将上下文相关的搜索结构转换成上下文无关的搜索结构，可以引入加权有限状态转换器C，即，上下文相关三音素到上下文无关三音素的对应关系，C只有一条路径，且该路径的每一个转移上均同时标记上下文相关三音素和上下文无关三音素。

在具体实施时，由于语言模型数据量太大，因此，可以将G分割成G_1、G_2……G_n后，再分别得到各部分的WFST：G_1.wstf、G_2.wsft。具体地，在分割时，可以根据数据量大小来分割，例如，将2T的语言模型分割为两个1T、4个0.5T等。

在具体实施时，可以通过以下方法实现每个子语言模型的WFST与C层面、L层面的WFST组合成CLG层面的子WFST网络的组合。首先，将发音词典L与各子语言模型G_1、G_2，……组合起来，以得到L.G_1、L.G_2等。然后将转换器C与发音结构L.G_1、L.G_2等组合起来，得到上下文无关的有限状态转换网络C.L.G_1、C.L.G_2……。具体地，L与子语言模型的组合运算方式，以及C与发音结构的组合运算方式均可以采用本领域技术人员的常用方式，例如，可以参照本申请实施例中前述发音词典与语言模型的组合运算方式等，本申请在此不赘述。

然后，将H.C.L.G_1、H.C.L.G_2等多个子WFST模型直接取并集，以得到最终的搜索空间，即本申请实施例中的WFST模型。

至此，本申请实施例中的WFST模型已经创建完毕，后续可以基于该模型实施语音识别。

在上一实施例中，对WFST模型的创建过程进行了详细阐述，接下来将结合具体实施例对基于该模型的语音识别方法进行描述。

实施例二

图5中示出了根据本申请实施例二的语音识别方法的流程。如图5所示，根据本申请实施例二的语音识别方法包括以下步骤：

S501，接收待识别语音。

在具体实施时，在步骤S501之前，还可以包括提示用户输入语音的步骤。具体地，可以显示语音输入标志来提示用户输入语音，该语音输入标志可以是例如，麦克风图标、音波图标等图标，也可以是例如“请输入语音”、“请大声说出您心仪的宝贝吧”等的文字，本申请不作限制。

具体地，该语音输入标志可以显示在输入框的特定位置，例如输入框正前方、后端、中间、下方等位置，也可以显示在输入屏幕的特定位置，例如，屏幕中间等，还可以显示在文字输入法的特定位置，例如，输入法的候选区域中间、输入法上方等，本申请均不作限制。

在具体实施时，在显示语音输入标志之后，接收待识别语音之前，还可以包括：接收用户对语音输入标志的操作，该操作包括持续按压该语音输入标志超过预定时长，或者点击该语音输入标志。具体地，该预定时长可以为预先设置的某一时长，例如，3秒、2秒等，该时长可以由系统开发人员根据经验值设置。在接收到用户持续按压该语音输入标志超过预定时长后，可以触发接收待识别语音的步骤。

具体地，还可以在用户按压或点击该语音输入标志后，显示语音输入界面，并触发接收待识别语音的步骤。具体地，该语音输入界面上也可以显示例如，麦克风图标、音波图标等语音输入图标，和/或显示例如“请输入语音”、“请大声说出您心仪的宝贝吧”等的文字，本申请不作限制。

在S501的一种具体实施方式中，可以通过终端的语音输入模块接收待识别语音，该语音输入模块可以是例如，手机麦克风、手机外接耳机的声音接收装置、计算机的声音输入模块、机器人的声音输入模块等，本申请不作限制。

在S501的另一种具体实施方式中，还可以是终端接收到用户输入的语音后，将待识别语音发送至服务器，由服务器执行后续其他步骤，本申请不作限制。

S502，对待识别语音进行特征提取，得到特征信息。

在具体实施方式时，可以采用现有技术中的多种常用技术方式提取待识别语音的特征信息，例如提取语音的LPCC系数(Linear Predictive CepstralCoeficients，线性预测倒谱)或者MFCC系数(Mel Frequency CepstralCocficients，梅尔频率倒谱)等，此处不一一赘述。

以MFCC为例，MFCC是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性。具体地，根据人耳听觉机理的研究发现，人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响最大。两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音，故一般来说，低音容易掩蔽高音，而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以，可以从低频到高频这一段频带内按临界带宽的大小由密到疏设置一组带通滤波器，对输入信号进行滤波，以将每个带通滤波器输出的信号能量作为信号的基本特征，对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质，对输入信号不做任何的假设和限制，又利用了听觉模型的研究成果。因此，这种参数比基于声道模型的LPCC相比具有更好的鲁邦性，更符合人耳的听觉特性，而且当信噪比降低时仍然具有较好的识别性能。

MFCC特征提取的基本步骤包括预加重、分帧、加窗、FFT(Fast FourierTransformation，快速傅氏变换)、滤波、对数运算、DCT(Discrete Cosine Transform，离散余弦变换)。

具体地，在预加重步骤中，可以将语音信号输入高通滤波器，以提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，从而能够采用同样的信噪比对不同的待识别语音计算频谱。

在分帧步骤中，可以将N个采样点集合成一个观测单位，称为帧。通常情况下N的值可以为256或512，涵盖的时间可以为20～30ms；为了避免相邻两帧的变化过大，还可以让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值可以设置为N的1/2或1/3；通常语音识别所采用语音信号的采样频率为8KHz或16KHz，以8KHz来说，若帧长度为256个采样点，则对应的时间长度是256/8000×1000＝32ms。

具体地，在加窗步骤中，可以将每一帧乘以汉明窗(Hamming Window)，以增加帧左端和右端的连续性，不同的a值会产生不同的汉明窗，a可以取例如0.46的值。

具体地，在FFT步骤中，可以在乘上汉明窗后，将每帧经过快速傅里叶变换以得到在频谱上的能量分布；并对语音信号的频谱取模平方得到语音信号的功率谱。

在滤波步骤中，可以将能量谱通过一组Mel尺度的三角形滤波器组。以对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰。(因此一段语音的音调或音高，是不会呈现在MFCC参数内，换句话说，以MFCC为特征的语音辨识系统，并不会受到输入语音的音调不同而有所影响)此外，还可以降低运算量。具体地，滤波器的个数可以为22-26中的数值。

在滤波之后，可以计算滤波器组输入的对数能量；并将该对数能量进行DCT变换，得到MFCC系数。

在具体实施时，还可以进一步计算每帧的音量，即，对数能量，该对数能量是指一帧内信号的平方和，再取以10为底的对数值，再乘以10，使得每一帧基本的语音特征增加一维。在具体实施时，如果要加入其它语音特征以测试识别率，也可以在此阶段加入，这些常用的其它语音特征包含音高、过零率以及共振峰等。

在具体实施时，还可以进一步提取语音的动态特征信息，例如，MFCC系数的差分谱等。

S503，将特征信息输入WFST进行识别，得到识别结果。

在具体实施时，可以将该特征信息向量输入实施例一中所创建的WFST进行识别。该识别的过程就是将特征提取后得到的语音特征信息向量输入WFST，搜索一条最佳成功路径，该路径的输出字元就是语音识别的结果。

在具体实施时，在将特征信息输入加权有限状态转换器WFST进行识别之后，还可以包括：显示识别结果。具体地，可以在搜索框中显示识别结果，也可以直接向用户返回根据识别结果搜索的物品，本申请对此不作限制。

图6a和图6b中示出了将本申请实施例中的语音识别方法应用于电商平台的商品搜索场景时的示意图。

如图6a所示，在电商平台的商品搜索页面中，可以以话筒图标作为语音输入标志，并在输入屏幕下方显示。

用户可以在页面上方的搜索栏中直接文字输入，也可以点击该话筒图标进行语音输入；在接收到用户的语音输入后，可以执行步骤501-503的语音识别方法，并将识别结果显示至页面上方的搜索栏中。

在具体实施时，在用户点击该话筒图标后，还可以进一步显示如图6b所示的语音输入界面。

在该语音输入界面上，可以显示放大的语音输入标志，并显示鼓励用户输入的话语，例如，“亲，请大声说出您心仪的宝贝吧！”等。

采用本申请实施例中的语音识别方法，将待识别语音输入第一语种音素与第二语种音素存在对应关系的声学模型、第一语种词语由第二语种音素注音的发音词典和语言模型组成的WFST模型进行识别，由于将第一语种音素对应为第二语种音素，且利用该第二语种音素对第一语种词语注音，符合以第二语种作为母语的用户的发音习惯，识别准确度较高。

基于同一发明构思，本申请实施例中还提供了一种语音识别装置，由于该设备解决问题的原理与本申请实施例二所提供的语音识别方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

实施例三

图7示出了根据本申请实施例三所示的语音识别装置的结构示意图。如图7所示，本申请实施例三所示的语音识别装置700，包括：接收模块701，用于接收待识别语音；特征提取模块702，用于对该待识别语音进行特征提取，得到特征信息；识别模块703，用于将该特征信息输入加权有限状态转换器WFST进行识别，其中，该WFST是由预先创建的声学模型、发音词典、语言模型组合得到的，该声学模型中的各第一语种音素与第二语种音素存在对应关系，该发音词典中的各第一语种词语由第二语种音素注音。

在具体实施时，本申请实施例三所示的语音识别装置还可以包括：声学模型创建模块，该声学模型创建模块，具体包括：音素确定子模块，用于确定第一语种和第二语种的各个音素；对应音素确定子模块，用于根据第一语种与第二语种的发音，确定与各第一语种音素分别对应的一个第二语种音素或多个第二语种音素；第一训练子模块，用于将各第二语种音素、与各第一语种音素分别对应的一个第二语种音素或多个第二语种音素作为待匹配音素，并进行深度神经网络模型训练，得到该声学模型。

在具体实施时，本申请实施例三所示的语音识别装置还可以包括：发音词典创建模块，该发音词典创建模块具体包括：语料爬取子模块，用于通过爬虫算法在互联网上爬取语料，该语料包括物品名称；第一注音子模块，用于在该语料为第二语种词语时，通过第二语种音素对该语料注音；第二注音子模块，用于在该语料为第一语种词语时，提取组成该第一语种词语的第一语种音素；根据各第一语种音素与一个第二语种音素或多个第二语种音素的对应关系，确定组成该第一语种词语的一个或多个第一语种音素对应的一个或多个第二语种音素；并利用该对应的一个或多个第二语种音素对该第一语种词语注音。

在具体实施时，本申请实施例三所示的语音识别装置还可以包括：语言模型创建模块，该语言模型创建模块具体包括：语料确定子模块，用于获取互联网上爬取的语料，并确定物品语料和用户输入语料；第二训练子模块，用于将互联网上爬取的语料、物品语料、用户输入语料作为待匹配词语，并进行N-gram模型训练，得到该语言模型。

在具体实施时，语料确定子模块，具体可以用于获取购物平台展示的物品品牌和物品类别信息；并根据该物品品牌和物品类别信息，确定物品语料。

在具体实施时，根据该物品品牌和物品类别信息，确定物品语料，具体可以包括：将各物品品牌和物品类别信息分别组合，得到物品语料。

在具体实施时，语料确定子模块，具体可以用于：获取用户在购物平台输入的查询语句；将该查询语句，作为用户输入语料。

在具体实施时，本申请实施例三所示的语音识别装置还可以包括：组合模块，用于将该声学模型、发音词典、语言模型组合得到该WFST模型。

在具体实施时，组合模块，具体可以用于将该语言模型分割为多个子语言模型；分别生成多个子语言模型的WFST网络；将该多个子语言模型的WFST网络分别与该声学模型的WFST网络、发音词典的WFST网络组合得到多个子WFST模型；将该多个子WFST模型合并，得到该WFST模型。

在具体实施时，本申请实施例三所示的语音识别装置还可以包括：提示模块，用于提示用户输入语音。

在具体实施时，提示模块具体可以用于显示语音输入标志。

在具体实施时，本申请实施例三所示的语音识别装置还可以包括：接收模块，用于接收用户对该语音输入标志的操作，该操作包括持续按压该语音输入标志超过预定时长，或者点击该语音输入标志。

在具体实施时，本申请实施例三所示的语音识别装置还可以包括：语音输入界面显示模块，用于显示语音输入界面。

在具体实施时，本申请实施例三所示的语音识别装置还可以包括：识别结果显示模块，用于显示识别结果。

在具体实施时，该第一语种可以包括一个或多个语种，该第二语种可以包括一个语种。

在具体实施时，该第一语种可以包括英文，该第二语种可以包括中文。

采用本申请实施例中的语音识别装置，将待识别语音输入第一语种音素与第二语种音素存在对应关系的声学模型、第一语种词语由第二语种音素注音的发音词典和语言模型组成的WFST模型进行识别，由于将第一语种音素对应为第二语种音素，且利用该第二语种音素对第一语种词语注音，符合以第二语种作为母语的用户的发音习惯，识别准确度较高。

基于同一发明构思，本申请实施例中还提供了一种包括语音识别装置的终端，由于该终端解决问题的原理与本申请实施例二所提供的语音识别方法相似，因此该终端的实施可以参见方法的实施，重复之处不再赘述。

实施例四

在具体实施时，本申请实施例中的语音识别装置可以位于终端中。图8为本申请实施例四所示的包括语音识别装置700的终端80的结构示意图。

在具体实施时，在该语音识别装置位于终端中时，该语音识别装置的接收模块可以是终端的语音输入装置，例如，麦克风。

采用本申请实施例中包括语音识别装置的终端，能够准确识别接收到的语音，提升了用户体验。

基于同一发明构思，本申请实施例中还提供了一种语音识别系统，由于该系统解决问题的原理与本申请实施例二所提供的语音识别方法相似，因此该终端的实施可以参见方法的实施，重复之处不再赘述。

实施例五

图9为本申请实施例五所示的语音识别系统的结构示意图。

如图9所示，根据本申请实施例五所示的语音识别系统90，包括：终端902，用于接收用户输入的待识别语音，并将待识别语音发送至服务器904；服务器904，包括语音识别装置700，用于对来自终端的待识别语音进行识别，并将识别结果返回终端。

采用本申请实施例中的语音识别系统，能够准确识别终端接收到的语音，提升了用户体验。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音识别方法，其特征在于，包括：

接收待识别语音；

对所述待识别语音进行特征提取，得到特征信息；

将所述特征信息输入加权有限状态转换器WFST进行识别，

其中，所述WFST是由预先创建的声学模型、发音词典、语言模型组合得到的，所述声学模型中的各第一语种音素与第二语种音素存在对应关系，所述发音词典中的各第一语种词语由第二语种音素注音；

预先创建所述发音词典，包括：通过爬虫算法在互联网上爬取语料；通过字-音G2P方式实现；

预先创建语言模型，包括：获取互联网上爬取的语料；将互联网上爬取的语料作为待匹配词语，得到所述语言模型。

2.根据权利要求1所述的方法，其特征在于，预先创建声学模型，具体包括：

确定第一语种和第二语种的各个音素；

根据第一语种与第二语种的发音，确定与各第一语种音素分别对应的一个第二语种音素或多个第二语种音素；

将各第二语种音素、与各第一语种音素分别对应的一个第二语种音素或多个第二语种音素作为待匹配音素，并进行深度神经网络模型训练，得到所述声学模型。

3.根据权利要求1所述的方法，其特征在于，所述语料包括物品名称；

如果所述语料为第二语种词语，则通过第二语种音素对所述语料注音；

如果所述语料为第一语种词语，则提取组成所述第一语种词语的第一语种音素；根据各第一语种音素与一个第二语种音素或多个第二语种音素的对应关系，确定组成所述第一语种词语的一个或多个第一语种音素对应的一个或多个第二语种音素；并利用所述对应的一个或多个第二语种音素对所述第一语种词语注音。

4.根据权利要求1所述的方法，其特征在于，预先创建语言模型，具体包括：

获取互联网上爬取的语料，并确定物品语料和用户输入语料；

将互联网上爬取的语料、物品语料、用户输入语料作为待匹配词语，并进行N-gram模型训练，得到所述语言模型。

5.根据权利要求4所述的方法，其特征在于，确定物品语料，具体包括：

获取购物平台展示的物品品牌和物品类别信息；

根据所述物品品牌和物品类别信息，确定物品语料。

6.根据权利要求5所述的方法，其特征在于，根据所述物品品牌和物品类别信息，确定物品语料，具体包括：

将各物品品牌和物品类别信息分别组合，得到物品语料。

7.根据权利要求4所述的方法，其特征在于，确定用户输入语料，具体包括：

获取用户在购物平台输入的查询语句；

将所述查询语句，作为用户输入语料。

8.根据权利要求1所述的方法，其特征在于，在将特征信息输入加权有限状态转换器WFST进行识别之前，还包括：

将所述声学模型、发音词典、语言模型组合得到所述WFST模型。

9.根据权利要求8所述的方法，其特征在于，将所述声学模型、发音词典、语言模型组合得到所述WFST模型具体包括：

将所述语言模型分割为多个子语言模型；

分别生成多个子语言模型的WFST网络；

将所述多个子语言模型的WFST网络分别与所述声学模型的WFST网络、发音词典的WFST网络组合得到多个子WFST模型；

将所述多个子WFST模型合并，得到所述WFST模型。

10.根据权利要求1所述的方法，其特征在于，在接收待识别语音之前，还包括：

提示用户输入语音。

11.根据权利要求10所述的方法，其特征在于，提示用户输入语音，具体包括：

显示语音输入标志。

12.根据权利要求11所述的方法，其特征在于，在显示语音输入标志之后，接收待识别语音之前，还包括：

接收用户对所述语音输入标志的操作，所述操作包括持续按压所述语音输入标志超过预定时长，或者点击所述语音输入标志。

13.根据权利要求11所述的方法，其特征在于，在接收用户对所述语音输入标志的操作之后，还包括：

显示语音输入界面。

14.根据权利要求1所述的方法，其特征在于，在将所述特征信息输入加权有限状态转换器WFST进行识别之后，还包括：

显示识别结果。

15.根据权利要求1所述的方法，其特征在于，所述第一语种包括一个或多个语种，所述第二语种包括一个语种。

16.根据权利要求1所述的方法，其特征在于，所述第一语种包括英文，所述第二语种包括中文。

17.一种语音识别装置，其特征在于，包括：

接收模块，用于接收待识别语音；

特征提取模块，用于对所述待识别语音进行特征提取，得到特征信息；

识别模块，用于将所述特征信息输入加权有限状态转换器WFST进行识别，

所述装置还包括：

发音词典创建模块，所述发音词典创建模块用于通过爬虫算法在互联网上爬取语料；通过字-音G2P方式实现；

语言模型创建模块，所述语言模型创建模块用于获取互联网上爬取的语料；将互联网上爬取的语料作为待匹配词语，得到所述语言模型。

18.根据权利要求17所述的装置，其特征在于，还包括：声学模型创建模块，所述声学模型创建模块，具体包括：

音素确定子模块，用于确定第一语种和第二语种的各个音素；

对应音素确定子模块，用于根据第一语种与第二语种的发音，确定与各第一语种音素分别对应的一个第二语种音素或多个第二语种音素；

第一训练子模块，用于将各第二语种音素、与各第一语种音素分别对应的一个第二语种音素或多个第二语种音素作为待匹配音素，并进行深度神经网络模型训练，得到所述声学模型。

19.根据权利要求17所述的装置，其特征在于，所述发音词典创建模块具体包括：

语料爬取子模块，用于通过爬虫算法在互联网上爬取语料，所述语料包括物品名称；

第一注音子模块，用于在所述语料为第二语种词语时，通过第二语种音素对所述语料注音；

第二注音子模块，用于在所述语料为第一语种词语时，提取组成所述第一语种词语的第一语种音素；根据各第一语种音素与一个第二语种音素或多个第二语种音素的对应关系，确定组成所述第一语种词语的一个或多个第一语种音素对应的一个或多个第二语种音素；并利用所述对应的一个或多个第二语种音素对所述第一语种词语注音。

20.根据权利要求17所述的装置，其特征在于，所述语言模型创建模块具体包括：

语料确定子模块，用于获取互联网上爬取的语料，并确定物品语料和用户输入语料；

第二训练子模块，用于将互联网上爬取的语料、物品语料、用户输入语料作为待匹配词语，并进行N-gram模型训练，得到所述语言模型。

21.根据权利要求20所述的装置，其特征在于，语料确定子模块，具体用于获取购物平台展示的物品品牌和物品类别信息；并根据所述物品品牌和物品类别信息，确定物品语料。

22.根据权利要求21所述的装置，其特征在于，根据所述物品品牌和物品类别信息，确定物品语料，具体包括：将各物品品牌和物品类别信息分别组合，得到物品语料。

23.根据权利要求20所述的装置，其特征在于，语料确定子模块，具体用于：获取用户在购物平台输入的查询语句；将所述查询语句，作为用户输入语料。

24.根据权利要求17所述的装置，其特征在于，还包括：

组合模块，用于将所述声学模型、发音词典、语言模型组合得到所述WFST模型。

25.根据权利要求24所述的装置，其特征在于，组合模块，具体用于将所述语言模型分割为多个子语言模型；分别生成多个子语言模型的WFST网络；将所述多个子语言模型的WFST网络分别与所述声学模型的WFST网络、发音词典的WFST网络组合得到多个子WFST模型；将所述多个子WFST模型合并，得到所述WFST模型。

26.根据权利要求17所述的装置，其特征在于，还包括：

提示模块，用于提示用户输入语音。

27.根据权利要求26所述的装置，其特征在于，提示模块具体用于显示语音输入标志。

28.根据权利要求27所述的装置，其特征在于，还包括：

接收模块，用于接收用户对所述语音输入标志的操作，所述操作包括持续按压所述语音输入标志超过预定时长，或者点击所述语音输入标志。

29.根据权利要求27所述的装置，其特征在于，还包括：

语音输入界面显示模块，用于显示语音输入界面。

30.根据权利要求17所述的装置，其特征在于，还包括：

识别结果显示模块，用于显示识别结果。

31.根据权利要求17所述的装置，其特征在于，所述第一语种包括一个或多个语种，所述第二语种包括一个语种。

32.根据权利要求17所述的装置，其特征在于，所述第一语种包括英文，所述第二语种包括中文。

33.一种终端，其特征在于，包括：

如权利要求17-32中任一项所述的语音识别装置。

34.一种语音识别系统，其特征在于，包括：

终端，用于接收用户输入的待识别语音，并将所述待识别语音发送至服务器；

所述服务器，包括如权利要求17-32中任一项所述的语音识别装置，用于对来自所述终端的待识别语音进行识别，并将识别结果返回所述终端。