CN111445898A

CN111445898A - 语种识别方法、装置、电子设备和存储介质

Info

Publication number: CN111445898A
Application number: CN202010187616.XA
Authority: CN
Inventors: 方昕; 李晋; 刘俊华
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2020-07-24
Anticipated expiration: 2040-03-17
Also published as: CN111445898B

Abstract

本发明实施例提供一种语种识别方法、装置、电子设备和存储介质，其中方法包括：确定待识别语音数据；将待识别语音数据输入至语种识别模型中，得到语种识别模型输出的语种识别结果；语种识别模型是基于样本语音数据、样本语音数据的语种，以及多个语种的描述文本训练得到的；多个语种包括集内语种和集外语种，集内语种为样本语音数据的语种。本发明实施例提供的语种识别方法、装置、电子设备和存储介质，语种识别模型基于集内语种和集外语种的描述文本，对待识别语音数据进行语种识别，实现了包含集外语种在内的准确的语种识别。

Description

语种识别方法、装置、电子设备和存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种语种识别方法、装置、电子设备和存储介质。

背景技术

语种识别是指机器根据输入的语音数据，自动判断该语音数据所属的语言种类，例如汉语、英语、法语或日语等。

目前的语种识别方法，例如基于音素识别器的语种识别方法或者基于深度神经网络的语种识别方法，均为针对闭集的语种识别方案，即仅能够识别训练集中的样本语音所对应的语种。如果待识别的语音数据所对应的语种从未在训练集中出现，则目前的语种识别方法无法准确识别出该语音数据的语种。

发明内容

本发明实施例提供一种语种识别方法、装置、电子设备及存储介质，用以解决现有语种识别方法无法识别不在训练集中的语种的问题。

第一方面，本发明实施例提供一种语种识别方法，包括：

确定待识别语音数据；

将所述待识别语音数据输入至语种识别模型中，得到所述语种识别模型输出的语种识别结果；

其中，所述语种识别模型是基于样本语音数据、所述样本语音数据的语种，以及多个语种的描述文本训练得到的；所述多个语种包括集内语种和集外语种，所述集内语种为所述样本语音数据的语种。

可选地，所述语种识别模型用于确定所述待识别语音数据对应的语音语种表征向量，并基于所述语音语种表征向量以及所述多个语种的文本语种表征向量进行语种识别，任一语种的文本语种表征向量是基于所述任一语种的描述文本确定的。

可选地，所述将所述待识别语音数据输入至语种识别模型中，得到所述语种识别模型输出的语种识别结果，具体包括：

将所述待识别语音数据输入至所述语种识别模型的语音语种表征层，得到所述语音语种表征层输出的所述语音语种表征向量；

将所述语音语种表征向量和每一语种的文本语种表征向量输入至所述语种识别模型的相似度判决层，得到所述相似度判决层输出的所述语种识别结果。

可选地，所述将所述待识别语音数据输入至所述语种识别模型的语音语种表征层，得到所述语音语种表征层输出的所述语音语种表征向量，具体包括：

将所述待识别语音数据输入至所述语音语种表征层的语音特征提取层，得到所述语音特征提取层输出的语音特征向量；

将所述语音特征向量输入至所述语音语种表征层的空间变换层，得到所述空间变换层输出的所述语音语种表征向量。

可选地，所述语音语种表征层还包括语种分类层，所述语种分类层用于确定所述语音特征向量对应的语种；

所述语音特征提取层与所述语种分类层构成语种分类模型，所述语种分类模型是基于样本语音数据，以及所述样本语音数据的语种训练得到的。

可选地，所述语音语种表征层构成语音语种表征模型，所述语音语种表征模型是基于样本语音数据，以及所述样本语音数据的语种的描述文本所对应的文本语种表征向量训练得到的。

可选地，所述语音语种表征模型是基于样本语音数据、所述样本语音数据的语种的描述文本所对应的文本语种表征向量，以及语种表征判别器训练得到的；

所述语音语种表征模型和所述语种表征判别器构成生成对抗网络。

可选地，任一语种的文本语种表征向量具体是基于从所述任一语种的描述文本中提取的语言属性信息确定的；所述语言属性信息包括所述任一语种的语系、使用地区、使用人群、发音特征中的至少一种。

第二方面，本发明实施例提供一种语种识别装置，包括：

确定单元，用于确定待识别语音数据；

语种识别单元，用于将所述待识别语音数据输入至语种识别模型中，得到所述语种识别模型输出的语种识别结果；

第三方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑命令，以执行如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种语种识别方法、装置、电子设备及存储介质，语种识别模型基于集内语种和集外语种的描述文本，对待识别语音数据进行语种识别，实现了包含集外语种在内的准确的语种识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语种识别方法的流程示意图；

图2为本发明实施例提供的语种识别模型运行方法的流程示意图；

图3为本发明实施例提供的语音语种表征方法的流程示意图；

图4为本发明又一实施例提供的语种识别方法的流程示意图；

图5为本发明实施例提供的语种识别装置的结构示意图；

图6为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着语音识别技术的不断发展，语种识别作为语音识别的前端系统，得到了广泛的应用。例如在电话客服领域，语种识别系统可以将对应不同语言的电话自动转接给相应的客服人员或系统，或者翻译机上的一键翻译功能可以自动判断待翻译语音的语种，从而自动选择对应的语音识别和翻译模型等等。

目前的语种识别方法主要有两种：基于音素识别器的语种识别方法和基于底层声学特征的语种识别方法。其中，基于音素识别器的语种识别方法利用不同语种之间音素搭配关系的差异作为特征进行语种识别，基于底层声学特征的语种识别方法则是利用底层声学特征所能够描述的声学单元的统计特性差异来对语种进行分类。

然而，上述语种识别方法均是针对闭集的语种识别方案，即上述语种识别方法只有在训练过程中学习过某一语种的样本语音数据时，才能在语种识别时识别出该语种。而当某一语种的样本语音数据从未在训练集中出现，即模型在训练过程中从未学习过该语种的样本语音数据时，目前的语种识别方法无法识别出该语种。

对此，本发明实施例提供一种语种识别方法。图1为本发明实施例提供的语种识别方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待识别语音数据。

此处，待识别语音数据即需要进行语种识别的语音数据。待识别语音数据可以通过拾音设备得到，此处拾音设备可以是智能手机、平板电脑，还可以是智能电器例如音响、电视和空调等，拾音设备在经过麦克风阵列拾音得到待识别语音数据后，还可以对待识别语音数据进行放大和降噪，本发明实施例对此不作具体限定。

步骤120，将待识别语音数据输入至语种识别模型中，得到语种识别模型输出的语种识别结果；

其中，语种识别模型是基于样本语音数据、样本语音数据的语种，以及多个语种的描述文本训练得到的；多个语种包括集内语种和集外语种，集内语种为样本语音数据的语种，集外语种为除样本语音数据的语种以外的语种。

此处，任一语种的描述文本是包含该语种对应的语言属性信息的自然语言描述文本，语言属性信息具体可以是该语种的地理分布、语言历史、词源以及语法等。任一语种的描述文本可以从介绍语言知识的相关资料中获取，例如各语种对应的百科页面，本发明实施例对此不作具体限定。

例如，马来西亚语的描述文本可以是：“马来语是马来西亚和文莱的官方语言，也是新加坡的官方语言之一。在1945年以前，苏门达腊岛以外的很多地方也是使用马来语。属南岛语系印度尼西亚语族。分布于马来西亚、新加坡、文莱、泰国南部及印度尼西亚的苏门答腊、廖内和林加诸岛。马来语有6个单元音，3个双元音，24个辅音。借词多源于梵语和阿拉伯语”。

语种识别模型基于从多个语种的描述文本中学习的语言属性信息，对待识别语音数据进行分析识别，从而确定语种识别结果。此处，语种识别结果即待识别语音数据的语种。

由于语种识别模型预先从每个语种的描述文本学习了对应语种的语言属性信息，因此即使待识别语音数据的语种属于集外语种，即语种识别模型的语音训练集中不包含该语种的样本语音数据，语种识别模型在训练过程中从未学习过该语种的样本语音数据，语种识别模型也能基于待识别语音数据以及集内语种、集外语种的描述文本，得到准确的语种识别结果，从而实现包含集外语种在内的准确识别。

另外，在执行步骤120之前，还可以预先训练得到语种识别模型，具体可通过如下方式训练得到语种识别模型：首先，收集大量已知语种的样本语音数据，以及多个语种的描述文本。其中，多个语种包含样本语音数据所对应的语种，即集内语种，以及集内语种以外的语种，即集外语种。随即，基于样本语音数据、样本语音数据的语种，以及多个语种的描述文本对初始模型进行训练，从而得到语种识别模型。其中，初始模型可以是单一神经网络模型，也可以是多个神经网络模型的组合。

例如，将普通话、英语、俄语作为集内语种，收集普通话、英语、俄语分别对应的样本语音数据，并获取普通话、英语、俄语分别对应的描述文本。将西班牙语、德语、法语作为集外语种，获取西班牙语、德语、法语分别对应的描述文本。将普通话、英语、俄语分别对应的样本语音数据，以及普通话、英语、俄语、西班牙语、德语、法语分别对应的描述文本应用于初始模型的训练，从而得到语种识别模型。由此得到的语种识别模型不仅可以识别普通话、英语、俄语，也可以识别自身没有学习过样本语音数据的西班牙语、德语、法语。

本发明实施例提供的方法，语种识别模型基于集内语种和集外语种的描述文本，对待识别语音数据进行语种识别，实现了包含集外语种在内的准确的语种识别。

基于上述实施例，语种识别模型用于确定待识别语音数据对应的语音语种表征向量，并基于语音语种表征向量以及多个语种的文本语种表征向量进行语种识别，任一语种的文本语种表征向量是基于该语种的描述文本确定的。

具体地，语种识别模型用于确定待识别语音数据对应的语音语种表征向量。此处，待识别语音数据对应的语音语种表征向量即基于待识别语音数据获取的对应语种的语言属性信息的向量表示，其中，语音语种表征向量可以用于区分各语种。

随即，语种识别模型通过将语音语种表征向量与多个语种的文本语种表征向量分别进行匹配，进而得到语种识别结果。语种识别结果即待识别语音数据的语种。

任一语种的文本语种表征向量是基于该语种的描述文本确定的，用于表征该语种的语言属性信息。可选地，通过预训练的词向量模型，例如Word2vec模型或者Glove模型等，或者句向量模型，例如Elmo模型或者Bert模型等，从任一语种的描述文本中抽取出该语种的文本语种表征向量，本发明实施例对此不作具体限定。

进一步地，若采用预训练的词向量模型，可以将任一语种的描述文本中所有词向量的平均向量作为该语种的文本语种表征向量，或者基于TF-IDF(term frequency-inverse document frequency)，对任一语种的描述文本的词向量进行加权平均得到该语种的文本语种表征向量。若采用预训练的句向量模型，可以将任一语种的描述文本分句，将该语种的描述文本中所有分句向量的平均向量作为该语种的文本语种表征向量。本发明实施例不对文本语种表征向量的获取过程作具体限定。需要说明的是，针对每一语种的描述文本，均采用相同的方法获取对应的文本语种表征向量。

语种识别模型所确定的待识别语音数据对应的语音语种表征向量，能够准确表征待识别语音数据所包含的语言属性信息，此外，每一语种的文本语种表征向量能够表征该语种的语言属性信息。因此，待识别语音数据对应的语音语种表征向量与每一语种的文本语种表征向量均可用于表征对应语种的语言属性信息，可以通过将语音语种表征向量与每一语种的文本语种表征向量进行匹配，进而确定待识别语音数据的语种识别结果。因此，即使待识别语音数据的语种属于集外语种，即语种识别模型的语音训练集中不包含该语种的样本语音数据，语种识别模型在训练过程中从未学习过该语种的样本语音数据，但是多个语种的描述文本中包含了集外语种的描述文本，使得语种识别模型也能基于该语音语种表征向量以及集内语种、集外语种的文本语种表征向量，得到准确的语种识别结果，从而实现包含集外语种在内的准确识别。

本发明实施例提供的方法，通过语种识别模型确定待识别语音数据的语音语种表征向量，进而基于该语音语种表征向量与集内语种和集外语种的文本语种表征向量进行语种识别，实现了包含集外语种在内的准确识别。

基于上述任一实施例，图2为本发明实施例提供的语种识别模型运行方法的流程示意图，如图2所示，该方法中，步骤120具体包括：

步骤121，将待识别语音数据输入至语种识别模型的语音语种表征层，得到语音语种表征层输出的语音语种表征向量；

步骤122，将语音语种表征向量和每一语种的文本语种表征向量输入至语种识别模型的相似度判决层，得到相似度判决层输出的语种识别结果。

具体地，语音语种表征层用于基于待识别语音数据，确定待识别语音数据对应的语音语种表征向量。相似度判决层用于计算语音语种表征向量与每一语种的文本语种表征向量之间的相似度，并基于语音语种表征向量与每一语种的文本语种表征向量之间的相似度，得到语种识别结果。可选地，可以确定与语音语种表征向量相似度最高的语种，作为语种识别结果输出，也可以基于语音语种表征向量与每一语种的文本语种表征向量之间的相似度，确定待识别语音数据对应于每一语种的概率，并将概率最大的语种作为语种识别结果输出。

本发明实施例提供的方法，通过语音语种表征层确定待识别语音数据的语音语种表征向量，相似度判决层基于该语音语种表征向量与多个语种的文本语种表征向量之间的相似度确定语种识别结果，实现了集外语种的准确识别。

基于上述任一实施例，图3为本发明实施例提供的语音语种表征方法的流程示意图，如图3所示，步骤121具体包括：

步骤1211，将待识别语音数据输入至语音语种表征层的语音特征提取层，得到语音特征提取层输出的语音特征向量。

具体地，语音特征提取层用于提取待识别语音数据的语音特征向量。其中，语音特征向量用于表征待识别语音数据中能够区分各语种的特征，例如韵律特征、频谱特征、音素搭配关系、包含的词汇或者语法等特征，本发明实施例对此不作具体限定。语音特征提取层可以采用DNN(Deep Neural Network，深度神经网络)、RNN(Recurrent Neural Network，循环神经网络)或者CNN(Convolution Neural Network，卷积神经网络)等神经网络模型提取待识别语音数据的语音特征向量，本发明实施例对此不作具体限定。

步骤1212，将语音特征向量输入至语音语种表征层的空间变换层，得到空间变换层输出的语音语种表征向量。

具体地，空间变换层用于分析语音特征向量中的语言特性，将语音特征向量转换为可以表征待识别语音数据语言特性的语音语种表征向量。在训练过程中，空间变换层学习了语音特征向量和语音语种表征向量之间的映射关系，从而可以将输入的语音特征向量转换为语音语种表征向量。空间变换层可以采用DNN、RNN或者CNN等神经网络模型将语音特征向量转换为语音语种表征向量，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过将待识别语音数据的语音特征向量转换成语音语种表征向量，为语种识别提供了依据。

基于上述任一实施例，该方法中，语音语种表征层还包括语种分类层，语种分类层用于确定语音特征向量对应的语种；

语音特征提取层与语种分类层构成语种分类模型，语种分类模型是基于样本语音数据，以及样本语音数据的语种训练得到的。

具体地，为了提高语音特征提取层提取的语音特征向量的语种区分能力，在语音语种表征层中还设置了用于确定语音特征向量对应语种的语种分类层，其中，语音特征提取层与语种分类层构成语种分类模型。此处，语种分类模型可以通过如下方式训练得到：首先，收集大量样本语音数据，同时确定该样本语音数据的语种。随即，基于样本语音数据以及该样本语音数据的语种对语种分类模型进行训练，对语种分类模型的参数进行更新。进一步地，可以采用语种分类模型所输出的语种与预先确定的样本语音数据的语种之间的交叉熵(Cross Entropy，CE)作为损失函数，以减少两者之间的差异性为目的进行模型训练，从而提高语种分类模型所输出的语种的准确性。

训练完成后，语种分类模型中的语音特征提取层所提取的语音特征向量具备足够的语种区分能力，有助于提高语种识别模型的识别准确性。需要说明的是，语种分类层可以仅存在于语种分类模型的训练阶段，在基于语种识别模型对待识别语音数据进行语种识别时，语种分类层不参与语种识别过程。

本发明实施例提供的方法，通过增加语种分类层，在训练过程中增强语音特征向量的语种区分能力，有助于提高语种识别模型的识别准确性。

基于上述任一实施例，该方法中，语音语种表征层构成语音语种表征模型，语音语种表征模型是基于样本语音数据，以及该样本语音数据的语种的描述文本所对应的文本语种表征向量训练得到的。

具体地，语音语种表征层可以作为语音语种表征模型进行独立训练，可以通过如下方式训练：首先，收集大量样本语音数据，同时确定该样本语音数据的语种的描述文本所对应的文本语种表征向量。其中，文本语种表征向量的确定方式与上述任一实施例中文本语种表征向量的确定方式相同，在此不再赘述。随即，将样本语音数据输入至语音语种表征模型，通过语音语种表征模型输出的对应于样本语音数据的语音语种表征向量，以及该样本语音数据的语种的描述文本所对应的文本语种表征向量对语音语种表征模型的参数进行更新。具体训练时，可以采用文本语种表征向量与语音语种表征模型输出的语音语种表征向量之间的最小均方误差(Minimum Mean Square Error)作为损失函数，可以采用梯度下降方法对语音语种表征模型的参数进行更新。

在语音语种表征模型的训练过程中，语音语种表征模型输出的样本语音数据对应的语音语种表征向量会尽量接近该样本语音数据的语种的描述文本所对应的文本语种表征向量。因此，在语音语种表征模型训练完成后，语音语种表征模型输出的样本语音数据对应的语音语种表征向量会与该样本语音数据的语种的描述文本所对应的文本语种表征向量非常相似。在实际进行语种识别时，语音语种表征模型输出的待识别语音数据对应的语音语种表征向量，与待识别语音数据的语种对应的文本语种表征向量之间的相似度，会高于待识别语音数据对应的语音语种表征向量与其它语种的文本语种表征向量之间的相似度，从而得到准确的语种识别结果。

本发明实施例提供的方法，通过训练语音语种表征模型，使其输出的待识别语音数据对应的语音语种表征向量，与待识别语音数据的语种对应的文本语种表征向量之间的相似度最高，提高了语种识别模型的识别准确性。

基于上述任一实施例，该方法中，语音语种表征模型是基于样本语音数据、该样本语音数据的语种的描述文本所对应的文本语种表征向量，以及语种表征判别器训练得到的；语音语种表征模型和语种表征判别器构成生成对抗网络。

为了进一步提高待识别语音数据对应的语音语种表征向量，与待识别语音数据的语种对应的文本语种表征向量之间的相似度，以提高语种识别的准确性，本发明实施例还设置了语种表征判别器，使语音语种表征模型和语种表征判别器构成生成对抗网络。生成对抗网络中，语音语种表征模型即生成器，语种表征判别器即判别器。其中，语种表征判别器可以采用DNN、RNN或者CNN等神经网络模型实现，本发明对此不作具体限定。

在训练过程中，将语音语种表征模型输出的样本语音数据对应的语音语种表征向量，以及该样本语音数据的语种的描述文本所对应的文本语种表征向量输入至语种表征判别器中。此处，语种表征判别器的输出结果为向量类型，具体为文本语种表征向量或语音语种表征向量，可以采用语种表征判别器的输出结果与实际输入语种表征判别器的向量类型之间的交叉熵作为损失函数，以减少两者之间的差异性为目的进行模型训练，从而使得训练完成的语种表征判别器能够准确区分输入向量的类型。

在此过程中，语音语种表征模型的目标是尽量生成与样本语音数据的语种的描述文本所对应的文本语种表征向量非常相似的语音语种表征向量，使得语种表征判别器无法区分两者。语种表征判别器的目标则是尽量把语音语种表征模型生成的语音语种表征向量，与样本语音数据的语种的描述文本所对应的文本语种表征向量区分开来。

语音语种表征模型和语种表征判别器在训练过程中不断博弈，使得训练完成后，语音语种表征模型可以生成与样本语音数据的语种的描述文本所对应的文本语种表征向量极度相似的语音语种表征向量，而语种表征判别器无法区分语音语种表征模型生成的语音语种表征向量，与样本语音数据的语种的描述文本所对应的文本语种表征向量。

因此，训练完成后的语音语种表征模型，可以进一步提高语音语种表征模型输出的待识别语音数据对应的语音语种表征向量，与待识别语音数据的语种对应的文本语种表征向量之间的相似度，使其明显高于待识别语音数据对应的语音语种表征向量与其它语种的文本语种表征向量之间的相似度，从而最终提高语种识别的准确性。

本发明实施例提供的方法，通过增加语种表征判别器，使之与语音语种表征模型构成生成对抗网络，进一步提高语音语种表征模型输出的待识别语音数据对应的语音语种表征向量，与待识别语音数据的语种对应的文本语种表征向量之间的相似度，提高语种识别的准确性。

基于上述任一实施例，该方法中，任一语种的文本语种表征向量具体是基于从该语种的描述文本中提取的语言属性信息确定的；语言属性信息包括该语种的语系、使用地区、使用人群、发音特征中的至少一种。

具体地，任一语种的描述文本中可能存在大量的冗余信息或者噪音信息，基于该语种的描述文本中的所有信息进行无差别地处理，以提取该语种的文本语种表征向量，会减缓语种识别模型的收敛速度，降低语种识别模型的性能。因此，在任一语种的描述文本基础上，提取能够将该语种与其它语种相区分的语言属性信息，例如该语种的语系、使用地区、使用人群和发音特征中的一种或多种。然后，基于该语言属性信息，确定该语种的文本语种表征向量。

本发明实施例提供的方法，通过提取任一语种的语言属性信息，并基于该语言属性信息确定该语种的文本语种表征向量，提升了语种识别模型的性能。

基于上述任一实施例，图4为本发明又一实施例提供的语种识别方法的流程示意图，如图4所示，该方法包括以下步骤：

首先，获取待识别语音数据，作为示例，待识别语音数据为印度尼西亚语的语音数据；

随即，将待识别语音数据输入至语种识别模型的语音特征提取层，得到语音特征提取层输出的待识别语音数据的语音特征向量，其中语音特征向量用于表征能够区分各语种的特征；语音语种表征层可以为DNN、RNN或者CNN；

然后，将待识别语音数据的语音特征向量输入至语种识别模型的空间变换层，得到空间变换层输出的语音语种表征向量，其中语音语种表征向量用于表征待识别语音数据的语种的语言属性信息；

最后，将语音语种表征向量和每一语种的文本语种表征向量输入至语种识别模型的相似度判决层，相似度判决层计算语音语种表征向量与每一语种的文本语种表征向量之间的相似度，并选择与语音语种表征向量相似度最大的文本语种表征向量对应的语种，作为语种识别结果并输出。

需要说明的是，语种识别模型基于样本语音数据、该样本语音数据的语种，以及多个语种的描述文本训练得到。作为示例，收集1000条样本语音数据以供语种识别模型进行训练，其中包含马来西亚语对应的500条样本语音数据和荷兰语对应的500条样本语音数据。多个语种的描述文本包含马来西亚语、荷兰语和印度尼西亚语等三个语种的描述文本。

在利用马来西亚语和荷兰语的样本语音数据，以及三个语种的描述文本训练语种识别模型时，空间变换层能够将语音特征提取层输出的待识别语音数据的语音特征向量转换成语音语种表征向量，用以表征待识别语音数据的语种的语言属性信息。同时能够保证该语音语种表征向量与待识别语音数据的语种对应的文本语种表征向量之间非常相似，且相似度明显高于待识别语音数据对应的语音语种表征向量与其它语种的文本语种表征向量之间的相似度。

此时，即使语种识别模型的样本语音数据中不包含印度尼西亚语对应的语音数据，训练完成的语种识别模型也能提取待识别语音数据的语音语种表征向量，使其与印度尼西亚语的文本语种表征向量相似度明显高于其与马来西亚语或荷兰语之间的相似度，最终识别出待识别语音数据对应的语种为印度尼西亚语。

本发明实施例提供的方法，通过语音特征提取层和空间变换层确定待识别语音数据的语音语种表征向量，并基于待识别语音数据的语音语种表征向量和每一语种的文本语种表征向量，确定待识别语音数据的语音语种表征向量和每一语种的文本语种表征向量的相似度，进而确定语种识别结果，实现了集外语种的识别并提高了识别准确性。

基于上述任一实施例，图5为本发明实施例提供的语种识别装置的结构示意图，如图5所示，该装置包括确定单元510和语种识别单元520。

其中，确定单元510用于确定待识别语音数据；

语种识别单元520用于将待识别语音数据输入至语种识别模型中，得到语种识别模型输出的语种识别结果；

其中，语种识别模型是基于样本语音数据、样本语音数据的语种，以及多个语种的描述文本训练得到的；多个语种包括集内语种和集外语种，集内语种为样本语音数据的语种。

本发明实施例提供的装置，语种识别模型基于集内语种和集外语种的描述文本，对待识别语音数据进行语种识别，实现了包含集外语种在内的准确的语种识别。

基于上述任一实施例，语种识别模型用于确定待识别语音数据对应的语音语种表征向量，并基于语音语种表征向量以及多个语种的文本语种表征向量进行语种识别，任一语种的文本语种表征向量是基于该语种的描述文本确定的。

本发明实施例提供的装置，通过语种识别模型确定待识别语音数据的语音语种表征向量，进而基于该语音语种表征向量与集内语种和集外语种的文本语种表征向量进行语种识别，实现了包含集外语种在内的准确识别。

基于上述任一实施例，语种识别单元520具体包括：

语音语种表征单元，用于将待识别语音数据输入至语种识别模型的语音语种表征层，得到语音语种表征层输出的语音语种表征向量；

相似度判决单元，用于将语音语种表征向量和每一语种的文本语种表征向量输入至语种识别模型的相似度判决层，得到相似度判决层输出的语种识别结果。

本发明实施例提供的装置，通过语音语种表征层确定待识别语音数据的语音语种表征向量，相似度判决层基于该语音语种表征向量与多个语种的文本语种表征向量之间的相似度确定语种识别结果，实现了集外语种的准确识别。

基于上述任一实施例，语音语种表征单元具体包括：

语音特征提取单元，用于将待识别语音数据输入至语音语种表征层的语音特征提取层，得到语音特征提取层输出的语音特征向量；

空间变换单元，用于将语音特征向量输入至语音语种表征层的空间变换层，得到空间变换层输出的语音语种表征向量。

本发明实施例提供的装置，通过将待识别语音数据的语音特征向量转换成语音语种表征向量，为语种识别提供了依据。

基于上述任一实施例，该装置中，语音语种表征层还包括语种分类层，语种分类层用于确定语音特征向量对应的语种；语音特征提取层与语种分类层构成语种分类模型，语种分类模型是基于样本语音数据，以及样本语音数据的语种训练得到的。

本发明实施例提供的装置，通过增加语种分类层，在训练过程中逐步增强语音特征向量的语种区分能力，有助于提高语种识别模型的识别准确性。

基于上述任一实施例，该装置中，语音语种表征层构成语音语种表征模型，语音语种表征模型是基于样本语音数据，以及该样本语音数据的语种的描述文本所对应的文本语种表征向量训练得到的。

本发明实施例提供的装置，通过训练语音语种表征模型，使其输出的待识别语音数据对应的语音语种表征向量，与待识别语音数据的语种对应的文本语种表征向量之间的相似度最高，提高了语种识别模型的识别准确性。

基于上述任一实施例，该装置中，语音语种表征模型是基于样本语音数据、该样本语音数据的语种的描述文本所对应的文本语种表征向量，以及语种表征判别器训练得到的；语音语种表征模型和语种表征判别器构成生成对抗网络。

本发明实施例提供的装置，通过增加语种表征判别器，使之与语音语种表征模型构成生成对抗网络，进一步提高语音语种表征模型输出的待识别语音数据对应的语音语种表征向量，与待识别语音数据的语种对应的文本语种表征向量之间的相似度，提高语种识别的准确性。

基于上述任一实施例，该装置中，任一语种的文本语种表征向量具体是基于从该语种的描述文本中提取的语言属性信息确定的；语言属性信息包括任一语种的语系、使用地区、使用人群、发音特征中的至少一种。

本发明实施例提供的装置，通过提取任一语种的语言属性信息，并基于该语言属性信息确定该语种的文本语种表征向量，提升了语种识别模型的性能。

图6为本发明实施例提供的电子设备的结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑命令，以执行如下方法：确定待识别语音数据；将所述待识别语音数据输入至语种识别模型中，得到所述语种识别模型输出的语种识别结果；其中，所述语种识别模型是基于样本语音数据、所述样本语音数据的语种，以及多个语种的描述文本训练得到的。

此外，上述的存储器630中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：确定待识别语音数据；将所述待识别语音数据输入至语种识别模型中，得到所述语种识别模型输出的语种识别结果；其中，所述语种识别模型是基于样本语音数据、所述样本语音数据的语种，以及多个语种的描述文本训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语种识别方法，其特征在于，包括：

确定待识别语音数据；

2.根据权利要求1所述的语种识别方法，其特征在于，所述语种识别模型用于确定所述待识别语音数据对应的语音语种表征向量，并基于所述语音语种表征向量以及所述多个语种的文本语种表征向量进行语种识别，任一语种的文本语种表征向量是基于所述任一语种的描述文本确定的。

3.根据权利要求2所述的语种识别方法，其特征在于，所述将所述待识别语音数据输入至语种识别模型中，得到所述语种识别模型输出的语种识别结果，具体包括：

4.根据权利要求3所述的语种识别方法，其特征在于，所述将所述待识别语音数据输入至所述语种识别模型的语音语种表征层，得到所述语音语种表征层输出的所述语音语种表征向量，具体包括：

5.根据权利要求4所述的语种识别方法，其特征在于，所述语音语种表征层还包括语种分类层，所述语种分类层用于确定所述语音特征向量对应的语种；

6.根据权利要求3所述的语种识别方法，其特征在于，所述语音语种表征层构成语音语种表征模型，所述语音语种表征模型是基于样本语音数据，以及所述样本语音数据的语种的描述文本所对应的文本语种表征向量训练得到的。

7.根据权利要求6所述的语种识别方法，其特征在于，所述语音语种表征模型是基于样本语音数据、所述样本语音数据的语种的描述文本所对应的文本语种表征向量，以及语种表征判别器训练得到的；

8.根据权利要求1至7中任一项所述的语种识别方法，其特征在于，任一语种的文本语种表征向量具体是基于从所述任一语种的描述文本中提取的语言属性信息确定的；所述语言属性信息包括所述任一语种的语系、使用地区、使用人群、发音特征中的至少一种。

9.一种语种识别装置，其特征在于，包括：

确定单元，用于确定待识别语音数据；

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8中任一项所述的语种识别方法的步骤。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至8中任一项所述的语种识别方法的步骤。