CN113744717A

CN113744717A - 一种语种识别方法及装置

Info

Publication number: CN113744717A
Application number: CN202010413448.1A
Authority: CN
Inventors: 王宪亮; 蔡寅翔; 索宏彬
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2021-12-03

Abstract

本申请公开了一种语种识别方法，包括：获取待识别音频数据；获取与所述待识别音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得目标语种，其中，所述目标语种信息用于表示所述待识别音频数据对应的语种类别。所述方法通过获取与待识别音频数据对应的、用于表征待识别音频数据的发音分布的音素特征信息，并通过对提取的音素特征信息进行嵌入式向量表示，可以更准确、快速的识别出待识别音频数据对应的语种类别。

Description

一种语种识别方法及装置

技术领域

本申请涉及计算机技术领域，具体涉及一种语种识别方法、装置、电子设备及存储设备。本申请还涉及一种音素特征提取模型的获得方法、装置、电子设备及存储设备。本申请还涉及一种嵌入式向量表示模型的获得方法、装置、电子设备及存储设备。本申请还涉及一种语音服务提供方法、装置、电子设备及存储设备。本申请还涉及一种语音识别方法、装置、电子设备及存储设备。

背景技术

随着计算机技术的不断发展，在日常生活中，用户可以与提供各种语音服务的计算设备进行语音交互，进而方便的获得该计算设备提供的相应服务。

目前，计算设备在获得用户或其它计算设备发出的音频数据后，一般是并行的使用与不同语种类别对应的多个音频识别服务来识别音频数据的内容，并根据识别结果，选用最合适的文本内容来向用户或其它计算设备提供与该音频数据对应的服务。例如，在智能客服系统、智能家居系统、自助语音售票服务、自动语音翻译系统以及语音导航系统等这些可以通过语音进行交互的系统中，与这些系统对应的计算设备一般就是通过上述方式来识别获得的音频数据的内容，并向用户提供对应的服务。然而，这种方式由于同时并行的运行多个音频识别服务，因此，存在过多占用计算资源的问题，并不适应于含有较多语种的语音服务中；由此可知，如果在提供语音服务时，能够快速、准确的识别出与音频数据对应的语种类别，然后再通过与识别出的语种类别对应的音频识别服务来识别该音频数据的内容，那么将能极大的增加音频数据的识别速度和识别准确度。

然而，目前的用于识别音频数据的语种类别的方法，一般或是仅基于声学特征的方法，例如，基于梅尔频率倒谱系数(MFCC，Mel-scaleFrequency Cepstral Coefficients)特征、梅尔滤波器组(Fbank，Mel-Frequency Filter Bank)特征及其移位差分谱等来识别音频数据对应的语种类别；或是仅基于音素特征的方法，例如，采用音素识别器并结合语言模型(PRLM，Phoneme Recognition Language Modeling)的方法，或者并行音素识别器并结合语言模型(PPRLM，Parallel Phoneme Recognition Language Modeling)的方法等来识别音频数据对应的语种类别；又或是直接使用深度神经网络模型来提取音频数据的特征信息，并根据特征信息识别音频数据对应的语种类别，这类方法在识别长时音频数据就存在识别速度慢以及识别准确度低的问题，而在需要实时响应的短时语音交互场景下，其在识别短时音频数据时，更是存在识别速度慢以及识别准确度低的问题。

发明内容

本申请实施例提供一种语种识别方法，以解决现有技术存在的不能快速、准确的识别出音频数据对应的语种类别的问题。

本申请实施例提供一种语种识别方法，包括：获取待识别音频数据；获取与所述待识别音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得目标语种，其中，所述目标语种信息用于表示所述待识别音频数据对应的语种类别。

可选的，所述获取与所述待识别音频数据对应的音素特征信息，包括：获取与所述待识别音频数据对应的声学特征信息；将所述声学特征信息输入到目标音素特征提取模型中，获取所述音素特征信息，其中，所述目标音素特征提取模型是用于获取与音频数据对应的音素特征信息的模型。

可选的，所述目标音素特征提取模型，通过以下方法获得：获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的文本标注信息，其中，所述文本标注信息是与所述样本音频数据对应的文本信息；获取与所述样本音频数据对应的样本声学特征信息；根据所述样本声学特征信息和所述文本标注信息，获得所述目标音素特征提取模型。

可选的，所述获取与所述音素特征信息对应的嵌入式向量信息，包括：将所述音素特征信息输入到目标嵌入式向量表示模型中，获取所述目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示模型是用于对与音频数据对应的音素特征信息进行嵌入式向量表示的模型。

可选的，所述目标嵌入式向量表示模型，通过以下方法获得：获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的语种标注信息，其中，所述语种标注信息用于表示所述样本音频数据对应的语种类别；获取与所述样本音频数据对应的样本音素特征信息；根据所述样本音素特征信息和所述语种标注信息，获得所述目标嵌入式向量表示模型。

可选的，所述根据所述样本音素特征信息和所述语种标注信息，获得所述目标嵌入式向量表示模型，包括：获取与所述目标嵌入式向量表示模型对应的待训练模型，其中，所述待训练模型是用于根据所述样本音素特征信息，获得样本嵌入式向量表示信息，并根据获得的样本嵌入式向量表示信息，获得与所述样本音频数据对应的预测语种数量的模型，所述预测语种数量与所述语种标注信息对应，用于表示与样本数据对应的语种类别的数量；根据所述样本音素特征信息和所述语种标注信息，调整所述待训练模型的参数，获得满足预设收敛条件的优化模型；将所述优化模型中用于根据所述样本嵌入式向量表示信息、预测所述预测语种数量的网络结构层删除，获得所述目标嵌入式向量表示模型。

可选的，所述根据所述目标嵌入式向量表示信息，获得目标语种，包括：将所述目标嵌入式向量表示信息输入到目标预测模型中，获取待确定语种信息和与所述待确定语种信息对应的预测分值，所述预测分值用于表示所述待确定语种信息的正确程度，所述目标预测模型是用于根据与音频数据对应的嵌入式向量表示信息，预测与所述音频数据对应的待确定语种信息和预测分值的模型；根据所述待确定语种信息和所述预测分值，获得所述目标语种信息。

可选的，所述根据所述待确定语种信息和所述预测分值，获得所述目标语种信息，包括：获取所述预测分值中的最大值；根据与所述最大值的预测分值对应的所述待确定语种信息，获得所述目标语种信息。

可选的，还包括：对所述目标嵌入式向量表示信息进行优化处理，获取优化完成的目标嵌入式向量表示信息；所述根据所述目标嵌入式向量表示信息，获得目标语种，包括：根据所述优化完成的目标嵌入式向量表示信息，获得目标语种。

可选的，所述对所述目标嵌入式向量表示信息进行优化处理，包括以下至少一种处理：对所述目标嵌入式向量表示信息进行向量长度规整处理；对所述目标嵌入式向量表示信息进行减均值处理；对所述目标嵌入式向量表示信息进行线性鉴别性分析处理；对所述目标嵌入式向量表示信息进行主成分分析处理；对所述目标嵌入式向量表示信息进行类内方差规整处理。

可选的，所述音素特征信息，包括以下至少一种特征信息：与所述待识别音频数据的至少一个音素状态对应的音素对数似然特征信息、与所述待识别音频数据的至少一个音素状态对应的后验概率特征信息。

可选的，所述待识别音频数据为满足预设时长条件的音频数据。

可选的，所述待识别音频数据包括至少一个语种类别的音频数据。

可选的，所述方法还包括：展示所述目标语种信息。

可选的，所述方法还包括：获取针对所述目标语种信息的确认信息；根据所述确认信息，确定所述待识别音频数据所属的语种类别。

可选的，所述方法还包括：获取历史语种信息，其中，所述历史语种信息用于表征历史待识别音频数据所属的语种类别；根据所述历史语种信息和所述目标语种信息，确定所述待识别音频数据所属的语种类别。

可选的，所述根据所述历史语种信息和所述目标语种信息，确定所述待识别音频数据所属的语种类别，包括：确定所述历史语种信息中的高频语种信息；根据所述高频语种信息和所述目标语种信息，确定所述待识别音频数据所属的语种类别。

本申请实施例还提供一种音素特征提取模型的获得方法，包括：获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的文本标注信息，其中，所述文本标注信息是与所述样本音频数据对应的文本信息；获取与所述样本音频数据对应的样本声学特征信息；根据所述样本声学特征信息和所述文本标注信息，获得所述目标音素特征提取模型，其中，所述目标音素特征提取模型是用于获取与待识别音频数据对应的音素特征信息的模型，所述待识别音频数据与所述样本音频数据对应。

本申请实施例还提供一种嵌入式向量表示模型的获得方法，包括：获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的语种标注信息，其中，所述语种标注信息用于表示所述样本音频数据对应的语种类别；获取与所述样本音频数据对应的样本音素特征信息；根据所述样本音素特征信息和所述语种标注信息，获得所述目标嵌入式向量表示模型，其中，所述目标嵌入式向量表示模型是用于对与音频数据对应的音素特征信息进行嵌入式向量表示的模型，所述待识别音频数据与所述样本音频数据对应，所述音素特征信息与所述样本音素特征信息对应。

本申请实施例还提供一种语音服务提供方法，包括：获取待处理的音频数据；获取与待处理的音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待处理的音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息；根据所述目标语种信息，提供与所述待识别音频数据对应的语音服务。

可选的，所述语音服务，包括以下任意一种服务：语音识别服务、语音转换服务、语音应答服务。

本申请实施例还提供一种语音识别方法，包括：获取待识别音频数据；获取与所述待识别音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待识别音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息；根据所述目标语种信息，获取与所述待识别音频数据对应的文本信息。

本申请实施例还提供一种语种识别装置，包括：音频数据获取单元，用于获取待识别音频数据；音素特征信息获取单元，用于获取与所述待识别音频数据对应的音素特征信息；嵌入式向量表示信息获取单元，用于获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；语种信息获得单元，用于根据所述目标嵌入式向量表示信息，获得目标语种，其中，所述目标语种信息用于表示所述待识别音频数据对应的语种类别。

本申请实施例还提供一种电子设备，包括：

处理器；

存储器，用于存储语种识别方法的程序，该设备通电并通过所述处理器运行所述语种识别方法的程序后，执行下述步骤：

获取待识别音频数据；获取与所述待识别音频数据对应的音素特征信息；

获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得目标语种，其中，所述目标语种信息用于表示所述待识别音频数据对应的语种类别。

本申请实施例还提供一种存储设备，存储有语种识别方法的程序，该程序被处理器运行，执行下述步骤：

本申请实施例还提供一种音素特征提取模型的获得装置，包括：样本音频数据获取单元，用于获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的文本标注信息，其中，所述文本标注信息是与所述样本音频数据对应的文本信息；样本声学特征信息获取单元，用于获取与所述样本音频数据对应的样本声学特征信息；模型获得单元，用于根据所述样本声学特征信息和所述文本标注信息，获得所述目标音素特征提取模型，其中，所述目标音素特征提取模型是用于获取与待识别音频数据对应的音素特征信息的模型，所述待识别音频数据与所述样本音频数据对应。

本申请实施例还提供一种电子设备，包括：

处理器；

存储器，用于存储音素特征提取模型的获得方法的程序，该设备通电并通过所述处理器运行所述音素特征提取模型的获得方法的程序后，执行下述步骤：

获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的文本标注信息，其中，所述文本标注信息是与所述样本音频数据对应的文本信息；获取与所述样本音频数据对应的样本声学特征信息；根据所述样本声学特征信息和所述文本标注信息，获得所述目标音素特征提取模型，其中，所述目标音素特征提取模型是用于获取与待识别音频数据对应的音素特征信息的模型，所述待识别音频数据与所述样本音频数据对应。

本申请实施例还提供一种存储设备，存储有音素特征提取模型的获得方法的程序，该程序被处理器运行，执行下述步骤：

本申请实施例还提供一种嵌入式向量表示模型的获得装置，包括：样本音频数据获取单元，用于获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的语种标注信息，其中，所述语种标注信息用于表示所述样本音频数据对应的语种类别；样本音素特征信息获取单元，用于获取与所述样本音频数据对应的样本音素特征信息；模型获得单元，用于根据所述样本音素特征信息和所述语种标注信息，获得所述目标嵌入式向量表示模型，其中，所述目标嵌入式向量表示模型是用于对与音频数据对应的音素特征信息进行嵌入式向量表示的模型，所述待识别音频数据与所述样本音频数据对应，所述音素特征信息与所述样本音素特征信息对应。

本申请实施例还提供一种电子设备，包括：

处理器；

存储器，用于存储嵌入式向量表示模型的获得方法的程序，该设备通电并通过所述处理器运行所述嵌入式向量表示模型的获得方法的程序后，执行下述步骤：

获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的语种标注信息，其中，所述语种标注信息用于表示所述样本音频数据对应的语种类别；获取与所述样本音频数据对应的样本音素特征信息；根据所述样本音素特征信息和所述语种标注信息，获得所述目标嵌入式向量表示模型，其中，所述目标嵌入式向量表示模型是用于对与音频数据对应的音素特征信息进行嵌入式向量表示的模型，所述待识别音频数据与所述样本音频数据对应，所述音素特征信息与所述样本音素特征信息对应。

本申请实施例还提供一种存储设备，存储有嵌入式向量表示模型的获得方法的程序，该程序被处理器运行，执行下述步骤：

本申请实施例还提供一种语音服务提供装置，包括：音频数据获取单元，用于获取待处理的音频数据；语种信息获得单元，用于获取与待处理的音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待处理的音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息；语音服务提供单元，用于根据所述目标语种信息，提供与所述待识别音频数据对应的语音服务。

本申请实施例还提供一种电子设备，包括：

处理器；

存储器，用于存储语音服务提供方法的程序，该设备通电并通过所述处理器运行所述语音服务提供方法的程序后，执行下述步骤：

获取待处理的音频数据；获取与待处理的音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待处理的音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息；根据所述目标语种信息，提供与所述待识别音频数据对应的语音服务。

本申请实施例还提供一种存储设备，存储有语音服务提供方法的程序，该程序被处理器运行，执行下述步骤：

本申请还提供一种语音识别装置，包括：待识别音频数据获取单元，用于获取待识别音频数据；语种信息获得单元，用于获取与所述待识别音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待识别音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息；文本信息获取单元，用于根据所述目标语种信息，获取与所述待识别音频数据对应的文本信息。

本申请实施例还提供一种电子设备，包括：

处理器；

存储器，用于存储语音识别方法的程序，该设备通电并通过所述处理器运行所述语音识别方法的程序后，执行下述步骤：

获取待识别音频数据；获取与所述待识别音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待识别音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息；根据所述目标语种信息，获取与所述待识别音频数据对应的文本信息。

本申请实施例还提供一种存储设备，存储有语音识别方法的程序，该程序被处理器运行，执行下述步骤：

与现有技术相比，本申请具有以下优点：

本申请实施例提供一种语种识别方法，包括：获取待识别音频数据；获取与所述待识别音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得目标语种，其中，所述目标语种信息用于表示所述待识别音频数据对应的语种类别。所述方法通过获取与待识别音频数据对应的、用于表征待识别音频数据的发音分布的音素特征信息，并通过对提取的音素特征信息进行嵌入式向量表示，可以更准确、快速的识别出待识别音频数据对应的语种类别。

附图说明

图1是本申请第一实施例提供的一种语种识别方法的应用场景示意图。

图2是本申请第一实施例提供的一种语种识别方法的流程图。

图3是本申请第二实施例提供的一种音素特征提取模型的获得方法的流程图。

图4是本申请第三实施例提供的一种嵌入式向量表示模型的获得方法的流程图。

图5是本申请第四实施例提供的一种语音服务提供方法的流程图。

图6是本申请第五实施例提供的一种语音识别方法的流程图。

图7是本申请第六实施例提供的一种语种识别装置的示意图。

图8是本申请第七实施例提供的一种电子设备的示意图。从

图9是本申请第九实施例提供的一种音素特征提取模型的获得装置的示意图。

图10是本申请第十二实施例提供的一种嵌入式向量表示模型的获得装置的示意图。

图11是本申请第十五实施例提供的一种语音服务提供装置的示意图。

图12是本申请第十八实施例提供的一种语音识别装置的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

为了使本领域的技术人员更好的理解本申请方案，下面基于本申请提供的语种识别方法，对其实施例的具体应用场景进行详细描述。如图1所示，其为本申请第一实施例提供的一种语种识别方法的应用场景示意图。

在具体实施时，所述方法可以应用于不同的可以提供语音服务的计算设备中，例如，所述方法可以应用于提供语音识别服务，如，提供智能语音交互服务的计算设备中，在该计算设备获得用户或其它设备发出的待识别音频数据后，该计算设备获取与该待识别音频数据对应的音素特征信息；并获取与该音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；之后，该计算设备根据所述目标嵌入式向量表示信息，既可以获取用于表示该待识别音频数据对应的语种类别的目标语种信息；在该计算设备获取到该待识别音频数据对应的目标语种信息后，即可根据该目标语种信息进行内容识别，获得与该待识别音频数据对应的文本信息。

所述方法可以单独应用于客户端或服务端计算设备中，也可以应用于客户端计算设备和服务端计算设备的交互场景中，例如，客户端计算设备在获得待识别音频数据后，将该待识别音频数据发送给服务端计算设备，并由服务端计算设备获取待识别音频数据对应的目标语种信息，进而根据该目标语种信息进行自动翻译，并获得与该待识别音频数据对应的文本信息；在服务端计算设备获得该文本信息之后，将该文本信息提供给客户端计算设备；之后，客户端计算设备获取该文本信息，并展示该文本信息。

所述语种类别，可以是不同国家或不同地区所使用的语言类别，例如，从广义上来讲，语种类别可以分为中文、英语、阿拉伯语等类别；从狭义上来讲，语种类别可以是不同地区所使用的语言或方言，例如，粤语、闽南语以及藏语，又例如，中文普通话、上海话等方言。

所述客户端计算设备可以是移动终端设备，如手机、平板电脑等，也可以是常用的计算机设备，或者也可以是终端设备，如，智能音箱、智能售票终端等。所述服务端计算设备一般是指服务器，该服务器可以是物理服务器，也可以是云端服务器，此处不做特殊限定。

需要说明的是，以上应用场景仅仅是本申请第一实施例提供的语种识别方法的具体实施例，提供上述应用场景的目的是便于理解所述方法，而并非用于限定所述方法。

在详细介绍本申请第一实施例提供的语种识别方法之前，先对现有技术中的语种识别方法进行简单介绍。

现有技术中的语种识别方法一般有以下方法：1、基于声学特征的方法，例如，基于梅尔频率倒谱系数(MFCC，Mel-scale Frequency Cepstral Coefficients)特征、梅尔滤波器组(Fbank，Mel-Frequency Filter Bank)特征及其移位差分谱等来识别音频数据对应的语种类别；2、基于音素特征的方法，例如，采用音素识别器并结合语言模型(PRLM，PhonemeRecognition Language Modeling)的方法，或者并行音素识别器并结合语言模型(PPRLM，Parallel Phoneme Recognition Language Modeling)的方法等来识别音频数据对应的语种类别；3、使用深度神经网络模型的语种识别方法，即，通过深度神经网络模型提取音频数据的特征信息，并根据特征信息识别音频数据对应的语种类别。

现有技术中的语种识别方法分别存在以下问题：1、现有技术中基于声学特征的方法由于并未考虑音素特征信息，即，没有考虑不同语种类别的音频数据在发音分布上的变化，因此，其识别准确率相对较低，尤其是对于短时音频数据，其识别准确率更低，很难应用于商用产品中；2、现有技术中基于音素特征的方法，一般是使用与音频数据所属的语种类别对应的音素识别模型来获取其音素特征信息，之后，根据该因素特征信息训练获得用于识别该语种类别的音频数据的N元模型(n-gram)，然而，其通常是需要一个语种类别对应一个特定的N元模型，即，在识别未知语种类别的音频数据时，通常需要多个N元模型并行的进行识别，因此，其存在识别速度慢以及识别准确率低的问题，并且，还存在过多占用计算资源的问题；3、现有技术中使用深度神经网络模型的语种识别方法，一般是使用基于卷积神经网络(CNN，Convolutional Neural Network)、循环神经网络(RNN，Recurrent NeuralNetwork)、长短时记忆网络(LSTM，Long Short-Term Memory)的端到端(End-to-End)的方法，一般是使用神经网络模型提取音频数据的尔滤波器组特征、梅尔频率倒谱系数特征或者其它特征，并直接根据获取的上述特征获得音频数据对应的语种类别，然而，该方法直接对语种进行分类，并未利用与发音相关的信息，一般依赖海量的样本音频数据进行神经网络的训练，该方法同样存在识别速度慢以及识别准确率低的问题。

为了解决现有技术中的语种识别方法在识别音频数据，尤其是短时音频数据时，存在的识别速度慢以及识别准确率低的问题，本申请第一实施例提供一种语种识别方法，如图2所示，其为本申请第一实施例提供的一种语种识别方法的流程图。以下结合图2对本申请第一实施例提供的所述方法予以介绍。

步骤S201，获取待识别音频数据。

所述待识别音频数据，是指待进行识别处理的、数字化的声音数据，其中，如无特殊说明，本申请第一实施例中所述识别处理是指识别待识别音频数据所属的语种类别。

需要说明的是，待识别音频数据可以为至少一个语种类别的音频数据，即，本申请第一实施例提供的音频识别方法可以针对包含多个语种类别的混合音频数据进行识别处理，例如，待识别音频数据可以为“我这里有一个idea…”。

所述获取待识别音频数据，可以是用于提供语种识别服务的计算设备获取用户发出的、或者是其它提供语音播放服务的计算设备发出的音频数据。例如，在智能家居场景下，智能音箱可以接收用户发出的音频数据，并通过识别该音频数据对应的语种类别来识别该音频数据的内容，并根据该内容向用户提供相应服务。

需要说明的是，如无特殊说明，在本申请第一实施例中，以所述待识别音频数据为满足预设时长条件的音频数据为例进行说明，例如，以待识别音频数据为不大于5秒的短时音频数据为例进行说明，即，本申请所述方法可以用于解决现有技术中不能快速、准确的识别出与短时音频数据对应的语种类别的技术问题，当然，在具体实施时，也可以根据需要将该预设时长条件设置为其它条件，或者也可以将所述方法应用于其它时长，如长时音频数据的语种类别的识别处理中。

步骤S202，获取与所述待识别音频数据对应的音素特征信息。

区别于现有技术中基于声学特征进行识别处理的方法，在获取到待识别音频数据后，为了提升识别处理的识别速度和准确度，在本申请第一实施例中，采取能够体现音频数据的发音分布特性的音素特征信息的方式，来对待识别音频数据进行识别处理。

一般来讲，在语言学中，音素是根据语音或音频的自然属性划分出来的基本发音单元；音素状态与音素对应，是指音素在隐马尔可夫模型(HMM，Hidden Markov model)中的状态，其中，在本申请第一实施例中，音素状态一般包括音素的开始、中间和结束状态。例如，针对音素i，其声学特征信息可能包含7帧，则前两帧的音素状态一般可以为1，即，为该音素的开始；3-5帧为中间状态，通常可以用2表示；而最后两帧为音素的结束，一般可以用3来表示。另外，在本申请第一实施例中，与待识别音频数据对应的声学特征可以为梅尔频率倒谱系数特征、梅尔滤波器组特征等特征。

所述音素特征信息，一般是指音频数据对应的音素状态，即，与音频数据对应的声学特征的每一帧的发音的音素状态。当然，音素特征信息还可以包括以下至少一种特征信息：与所述待识别音频数据的至少一个音素状态对应的音素对数似然特征信息(PLLR，Phoneme likelihood Rate)，或者与所述待识别音频数据的至少一个音素状态对应的后验概率特征信息，其中，有关如何获取音素状态对应的对数似然特征信息以及后验概率特征信息在现有技术中有详细描述，此处不再赘述。

所述获取与所述待识别音频数据对应的音素特征信息，包括：获取与所述待识别音频数据对应的声学特征信息；将所述声学特征信息输入到目标音素特征提取模型中，获取所述音素特征信息，其中，所述目标音素特征提取模型是用于获取与音频数据对应的音素特征信息的模型。即，通过用于提取音频数据的音素状态的声学模型来提取与待识别音频数据对应的音素特征信息。

在本申请第一实施例中，所述目标音素特征提取模型，可以通过以下方法获得：获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的文本标注信息，其中，所述文本标注信息是与所述样本音频数据对应的文本信息；获取与所述样本音频数据对应的样本声学特征信息；根据所述样本声学特征信息和所述文本标注信息，获得所述目标音素特征提取模型。

即，通过获取样本音频数据，以及获取对应的文本标注信息作为该样本音频数据的监督数据，并将获得的该样本音频数据对应的样本声学特征信息和该文本标注信息作为训练样本数据，训练与目标音素特征提取模型对应的待训练音素特征提取模型，并在训练的过程中，通过与待训练音素特征提取模型对应的损失函数(loss function)调整待训练音素特征提取模型的参数，以获得满足预设收敛条件的目标音素特征提取模型。

需要说明的是，所述样本音频数据，可以是与待识别音频数据对应的音频数据，具体可以为某一特定语种的音频数据，也可以是多个语种的音频数据。例如，如果待识别音频数据的语种类别为中文，那么，样本音频数据需要至少包含中文类别的样本音频数据；另外，目标音素特征提取模型为深度神经网络模型，具体可以为时延神经网络(TDNN，Time-Delay Neural Network)、LSTM、RNN等模型，当然，随着技术的不断进步，目标音素特征提取模型也可以为其它模型，此处不做特殊限定。

在步骤S202之后，执行步骤S203，获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息。

在介绍该步骤之前，先对现有技术中的另一种语种识别方法进行简单介绍，该方法具体为基于深度神经网络模型使用音素对数似然比特征信息和深度瓶颈特征信息(DBN，Deep Belief Network)进行语种识别的方法，即，将提取到的PLLR特征信息或DBN特征信息使用i-vector模型进行低维向量表示，以获得音频数据对应的语种类别的方法，该方法由于是对音频数据的音素特征信息进行了规整或抽象表示，因此，该方法获得到的特征分别与音频数据的真实发音分布通常存在差异，进而导致该方法同样存在识别准确度低的问题，尤其是针对短时音频数据，其识别准确度更低。区别于现有技术中的上述方法，在本申请第一实施例中，在获得与待识别音频数据对应的音素特征信息之后，采取对该音素特征信息进行嵌入式向量表示处理，并使用获得的目标嵌入式向量表示信息来识别待识别音频数据的语种类别，以下予以详细介绍。

所述获取与所述音素特征信息对应的嵌入式向量信息，包括：将所述音素特征信息输入到目标嵌入式向量表示模型中，获取所述目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示模型是用于对与音频数据对应的音素特征信息进行嵌入式向量表示的模型。

所述目标嵌入式向量表示模型，可以通过以下方法获得：获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的语种标注信息，其中，所述语种标注信息用于表示所述样本音频数据对应的语种类别；获取与所述样本音频数据对应的样本音素特征信息；根据所述样本音素特征信息和所述语种标注信息，获得所述目标嵌入式向量表示模型。

其中，所述根据所述样本音素特征信息和所述语种标注信息，获得所述目标嵌入式向量表示模型，包括：获取与所述目标嵌入式向量表示模型对应的待训练模型，其中，所述待训练模型是用于根据所述样本音素特征信息，获得样本嵌入式向量表示信息，并根据获得的样本嵌入式向量表示信息，获得与所述样本音频数据对应的预测语种数量的模型，所述预测语种数量与所述语种标注信息对应，用于表示与样本数据对应的语种类别的数量；根据所述样本音素特征信息和所述语种标注信息，调整所述待训练模型的参数，获得满足预设收敛条件的优化模型；将所述优化模型中用于根据所述样本嵌入式向量表示信息、预测所述预测语种数量的网络结构层删除，获得所述目标嵌入式向量表示模型。

在本申请第一实施例中，待训练模型可以为x-vector模型，其输出的为样本音频数据的预测语种类别的数量，在训练获得目标嵌入式向量表示模型的过程中，首先使用样本音素特征信息和语种标注信息作为训练数据，对待训练模型进行有监督的训练，并在获得收敛，即优化完成的优化模型之后，将该优化模型的最后一层或最后一次、倒数第二层删除，以获得用于对音素特征信息进行嵌入式向量化表示的目标嵌入式向量表示模型。需要说明的是，在具体实施时，待训练模型也可以为其它嵌入式向量表示模型，此处不做特殊限定。

在步骤S203之后，执行步骤S204，根据所述目标嵌入式向量表示信息，获得目标语种，其中，所述目标语种信息用于表示所述待识别音频数据对应的语种类别。

所述根据所述目标嵌入式向量表示信息，获得目标语种，包括：将所述目标嵌入式向量表示信息输入到目标预测模型中，获取待确定语种信息和与所述待确定语种信息对应的预测分值，所述预测分值用于表示所述待确定语种信息的正确程度，所述目标预测模型是用于根据与音频数据对应的嵌入式向量表示信息，预测与所述音频数据对应的待确定语种信息和预测分值的模型；根据所述待确定语种信息和所述预测分值，获得所述目标语种信息。

所述目标预测模型，可以为分类器模型，具体可以为支持向量机(SVM，SupportVector Machine)、逻辑回归(LR，Logistics Regression)等分类模型。

所述根据所述待确定语种信息和所述预测分值，获得所述目标语种信息，包括：获取所述预测分值中的最大值；根据与所述最大值的预测分值对应的所述待确定语种信息，获得所述目标语种信息。

为了进一步提升语种识别速度以及准确度，在获得与待识别音频数据对应的目标嵌入式向量表示信息之后，还可以对该信息进行优化处理，获取优化完成的目标嵌入式向量表示信息；并根据该优化完成的目标嵌入式向量表示信息，获得所述目标语种信息。

在本申请第一实施例中，可以使用以下至少一种处理对目标嵌入式向量表示信息进行优化处理，具体包括：对所述目标嵌入式向量表示信息进行向量长度规整处理；对所述目标嵌入式向量表示信息进行减均值处理；对所述目标嵌入式向量表示信息进行线性鉴别性分析处理(LDA，Latent Dirichlet Allocation)；对所述目标嵌入式向量表示信息进行主成分分析处理(PCA，Principal Component Analysis)；对所述目标嵌入式向量表示信息进行类内方差规整处理。当然，随着技术的不断进步，在具体实施时，也可以通过其它方法对目标嵌入式向量表示信息进行优化处理。

另外，当目标语种信息中包含多个待确定识别结果时，为了进一步提升语种识别的准确度，以及，提升用户体验，在获得目标语种信息之后，还可以展示目标语种信息，以供用户确认计算设备的识别结果是否准确，或者，供用户在计算设备展示的结果列表中，选择准确的识别结果，即，本申请第一实施例提供的该方法还包括：展示目标语种信息；以及，获取针对该目标语种信息的确认信息，根据该确认信息，确定待识别音频数据所属的语种类别。

其中，确认信息，可以是用户针对展示的目标语种信息的确认结果，例如，当展示的目标语种信息为{“英文”，“中文”，“法语”}时，用户可以根据待识别音频数据实际所属的语种类别，在上述列表中选择正确的结果，计算设备可以根据用户的选择操作，生成包含用户选择结果的确认信息。需要说明的是，在具体实施时，确认信息也可以通过其它方式获得，例如，当展示的目标语种信息中不包含待识别音频数据实际所属的语种类别时，可以通过显示界面接收用户输入的实际语种类别，并根据用户输入结果，生成确认信息，此处不再赘述。

此外，当目标语种信息中包含多个待确定识别结果时，为了进一步提升语种识别的准确度，也可以在获得目标识别结果信息之后，获取历史语种信息，其中，该历史语种信息用于表征历史待识别音频数据所属的语种类别；并根据该历史语种信息和目标语种信息，确定待识别音频数据所属的语种类别。

历史待识别音频数据，是指在识别待识别音频数据之前，计算设备识别到的音频数据，

在实际中，由于所处工作环境或所在的地理位置的原因，计算设备在一段时间，例如，一周、一个月或一个季度内需要识别的音频数据所属的语种类别通常是固定不变的，因此，在获得目标语种信息之后，可以根据该目标语种信息以及计算设备经常识别到的音频数据所属的语种类别，确定待识别音频数据所属的语种类别，以提升识别结果的准确度。

具体来讲，可以先确定历史语种信息中的高频语种信息；之后，根据该高频语种信息和该目标语种信息，确定待识别音频数据所属的语种类别。

需要说明的是，高频语种信息可以是历史语种信息中、在预设时间内的出现频率满足预设频率阈值的语种类别的信息，或者，也可以对预设时间内的历史语种信息中的语种类别进行降序排列，并根据排列结果中满足预设位数的语种类别的信息，获得高频语种信息；当然，在具体实施时，预设时间、预设频率阈值以及预设位数可以根据需要进行设定，此处不做特殊限定。

在获得高频语种信息之后，通过获取高频语种信息与目标语种信息中的语种类别的交集，即可确定待识别音频数据所属的语种类别。

例如，待识别音频数据对应的目标语种信息为{“英文”，“中文”，“法语”}，高频语种信息为{“英文”}，通过获取该目标语种信息和该高频语种信息的交集，可以确定待识别音频数据所属的语种类别为“英文”。

当然，在获得目标语种信息和历史语种信息之后，也可以使用其它方法来确定待识别音频数据所属的语种类别，此处不再赘述。

在具体实施时，当目标语种信息中包含多个待确定识别结果时，也可以根据需要将上述方法组合使用，或者与其它方法进行进一步结合，以提升识别结果的准确度，此处不再赘述。

还需要说明的是，本申请第一实施例所述语种识别方法可以应用于各种用于提供语音服务的计算设备中，如，可以将其应用于语音识别服务、语音转换服务、语音应答服务等与语音相关的多语种语音服务中。

例如，在智能客服、智能家居、自助语音售票、自动语音翻译、语音导航等需要支持多语种的服务场景中，在获取到待处理的音频数据之后；可以先获取与待处理的音频数据对应的目标语种信息，其中，该目标语种信息可以使用以下方法获得：获取与所述待处理的音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息；之后，根据所述目标语种信息，提供与所述待识别音频数据对应的语音服务。相较于现有技术中不识别音频数据的语种类别，直接并行使用多个特定语种识别器进行语音内容识别的方法，所述方法的识别速度以及识别准确率更高，并且还具有资源占用率低的优点。

综上所述，本申请第一实施例提供的所述语种识别方法，包括：获取待识别音频数据；获取与所述待识别音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得目标语种，其中，所述目标语种信息用于表示所述待识别音频数据对应的语种类别。所述方法通过获取与待识别音频数据对应的、用于表征待识别音频数据的发音分布的音素特征信息，并通过对提取的音素特征信息进行嵌入式向量表示，可以更准确、快速的识别出待识别音频数据对应的语种类别。

与本申请第一实施例提供的语种识别方法相对应，本申请第二实施例还提供一种音素特征提取模型的获得方法，请参看图3所示，其为本申请第二实施例提供的一种音素特征提取模型的获得方法的流程图，其中部分步骤在本申请第一实施例中已经详细描述，所以此处描述的比较简单，相关之处参见本申请第一实施例提供的一种语种识别方法中的部分说明即可，下述描述的处理过程仅是示意性的。

步骤S301，获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的文本标注信息，其中，所述文本标注信息是与所述样本音频数据对应的文本信息。

步骤S302，获取与所述样本音频数据对应的样本声学特征信息。

步骤S303，根据所述样本声学特征信息和所述文本标注信息，获得所述目标音素特征提取模型，其中，所述目标音素特征提取模型是用于获取与待识别音频数据对应的音素特征信息的模型，所述待识别音频数据与所述样本音频数据对应。

与本申请第一实施例提供的语种识别方法相对应，本申请第三实施例还提供一种嵌入式向量表示模型的获得方法，请参看图4所示，其为本申请第三实施例提供的一种嵌入式向量表示模型的获得方法的流程图，其中部分步骤在本申请第一实施例中已经详细描述，所以此处描述的比较简单，相关之处参见本申请第一实施例提供的一种语种识别方法中的部分说明即可，下述描述的处理过程仅是示意性的。

步骤S401，获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的语种标注信息，其中，所述语种标注信息用于表示所述样本音频数据对应的语种类别。

步骤S402，获取与所述样本音频数据对应的样本音素特征信息。

步骤S403，根据所述样本音素特征信息和所述语种标注信息，获得所述目标嵌入式向量表示模型，其中，所述目标嵌入式向量表示模型是用于对与音频数据对应的音素特征信息进行嵌入式向量表示的模型，所述待识别音频数据与所述样本音频数据对应，所述音素特征信息与所述样本音素特征信息对应。

与本申请第一实施例提供的语种识别方法相对应，本申请第四实施例还提供一种语音服务提供方法，请参看图5所示，其为本申请第四实施例提供的一种语音服务提供方法的流程图，其中部分步骤在本申请第一实施例中已经详细描述，所以此处描述的比较简单，相关之处参见本申请第一实施例提供的一种语音服务提供方法中的部分说明即可，下述描述的处理过程仅是示意性的。

步骤S501，获取待处理的音频数据。

步骤S502，获取与待处理的音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待处理的音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息。

步骤S503，根据所述目标语种信息，提供与所述待识别音频数据对应的语音服务。

与本申请第一实施例提供的语种识别方法相对应，本申请第五实施例还提供一种语音识别方法，请参看图6所示，其为本申请第五实施例提供的一种语音识别方法的流程图，其中部分步骤在本申请第一实施例中已经详细描述，所以此处描述的比较简单，相关之处参见本申请第一实施例提供的一种语音识别方法中的部分说明即可，下述描述的处理过程仅是示意性的。

步骤S601，获取待识别音频数据。

步骤S602，获取与所述待识别音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待识别音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息。

步骤S603，根据所述目标语种信息，获取与所述待识别音频数据对应的文本信息。

与本申请第一实施例提供的一种语种识别方法相对应，本申请第六实施例还提供一种语种识别装置，请参看图7，其为本申请第六实施例提供的语种识别装置的示意图，由于装置实施例基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可，下述描述的装置实施例仅仅是示意性的。本申请第六实施例提供的一种语种识别装置包括如下部分：

音频数据获取单元701，用于获取待识别音频数据。

音素特征信息获取单元702，用于获取与所述待识别音频数据对应的音素特征信息。

嵌入式向量表示信息获取单元703，用于获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息。

语种信息获得单元704，用于根据所述目标嵌入式向量表示信息，获得目标语种，其中，所述目标语种信息用于表示所述待识别音频数据对应的语种类别。

与本申请第一实施例提供的一种语种识别方法相对应，本申请第七实施例还提供一种电子设备，请参看图8，其为本申请第七实施例提供的一种电子设备的示意图，由于电子设备实施例基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可，下述描述的电子设备实施例仅仅是示意性的。本申请第七实施例提供的一种电子设备包括：

处理器801；

存储器802，用于存储语种识别方法的程序，该设备通电并通过所述处理器运行所述语种识别方法的程序后，执行下述步骤：

获取待识别音频数据；

获取与所述待识别音频数据对应的音素特征信息；

获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；

根据所述目标嵌入式向量表示信息，获得目标语种，其中，所述目标语种信息用于表示所述待识别音频数据对应的语种类别。

与本申请第一实施例提供的一种语种识别方法相对应，本申请第八实施例还提供一种存储设备，由于存储设备实施例基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可，下述描述的存储设备实施例仅仅是示意性的。本申请第八实施例提供的一种存储设备，存储有语种识别方法的程序，该程序被处理器运行，执行下述步骤：

获取待识别音频数据；

获取与所述待识别音频数据对应的音素特征信息；

与本申请第二实施例提供的一种音素特征提取模型的获得方法相对应，本申请第九实施例还提供一种音素特征提取模型的获得装置，请参看图9，其为本申请第九实施例提供的音素特征提取模型的获得装置的示意图，由于装置实施例基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可，下述描述的装置实施例仅仅是示意性的。本申请第九实施例提供的一种音素特征提取模型的获得装置包括如下部分：

样本音频数据获取单元901，用于获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的文本标注信息，其中，所述文本标注信息是与所述样本音频数据对应的文本信息。

样本声学特征信息获取单元902，用于获取与所述样本音频数据对应的样本声学特征信息。

模型获得单元903，用于根据所述样本声学特征信息和所述文本标注信息，获得所述目标音素特征提取模型，其中，所述目标音素特征提取模型是用于获取与待识别音频数据对应的音素特征信息的模型，所述待识别音频数据与所述样本音频数据对应。

与本申请第二实施例提供的一种音素特征提取模型的获得方法相对应，本申请第十实施例还提供一种电子设备，由于电子设备实施例基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可，下述描述的电子设备实施例仅仅是示意性的。本申请第十实施例提供的一种电子设备包括：

处理器；

获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的文本标注信息，其中，所述文本标注信息是与所述样本音频数据对应的文本信息；

获取与所述样本音频数据对应的样本声学特征信息；

根据所述样本声学特征信息和所述文本标注信息，获得所述目标音素特征提取模型，其中，所述目标音素特征提取模型是用于获取与待识别音频数据对应的音素特征信息的模型，所述待识别音频数据与所述样本音频数据对应。

与本申请第二实施例提供的一种音素特征提取模型的获得方法相对应，本申请第十一实施例还提供一种存储设备，由于存储设备实施例基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可，下述描述的存储设备实施例仅仅是示意性的。本申请第十一实施例提供的一种存储设备，存储有音素特征提取模型的获得方法的程序，该程序被处理器运行，执行下述步骤：

获取与所述样本音频数据对应的样本声学特征信息；

与本申请第三实施例提供的一种嵌入式向量表示模型的获得方法相对应，本申请第十二实施例还提供一种嵌入式向量表示模型的获得装置，请参看图10，其为本申请第十二实施例提供的音素特征提取模型的获得装置的示意图，由于装置实施例基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可，下述描述的装置实施例仅仅是示意性的。本申请第十二实施例提供的一种嵌入式向量表示模型的获得装置包括如下部分：

样本音频数据获取单元1001，用于获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的语种标注信息，其中，所述语种标注信息用于表示所述样本音频数据对应的语种类别。

样本音素特征信息获取单元1002，用于获取与所述样本音频数据对应的样本音素特征信息。

模型获得单元1003，用于根据所述样本音素特征信息和所述语种标注信息，获得所述目标嵌入式向量表示模型，其中，所述目标嵌入式向量表示模型是用于对与音频数据对应的音素特征信息进行嵌入式向量表示的模型，所述待识别音频数据与所述样本音频数据对应，所述音素特征信息与所述样本音素特征信息对应。

与本申请第三实施例提供的一种嵌入式向量表示模型的获得方法相对应，本申请第十三实施例还提供一种电子设备，由于电子设备实施例基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可，下述描述的电子设备实施例仅仅是示意性的。本申请第十三实施例提供的一种电子设备包括：

处理器；

获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的语种标注信息，其中，所述语种标注信息用于表示所述样本音频数据对应的语种类别；

获取与所述样本音频数据对应的样本音素特征信息；

根据所述样本音素特征信息和所述语种标注信息，获得所述目标嵌入式向量表示模型，其中，所述目标嵌入式向量表示模型是用于对与音频数据对应的音素特征信息进行嵌入式向量表示的模型，所述待识别音频数据与所述样本音频数据对应，所述音素特征信息与所述样本音素特征信息对应。

与本申请第三实施例提供的一种嵌入式向量表示模型的获得方法相对应，本申请第十四实施例还提供一种存储设备，由于存储设备实施例基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可，下述描述的存储设备实施例仅仅是示意性的。本申请第十四实施例提供的一种存储设备，存储有嵌入式向量表示模型的获得方法的程序，该程序被处理器运行，执行下述步骤：

获取与所述样本音频数据对应的样本音素特征信息；

与本申请第四实施例提供的一种语音服务提供方法相对应，本申请第十五实施例还提供一种语音服务提供装置，请参看图11，其为本申请第十五实施例提供的语音服务提供装置的示意图，由于装置实施例基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可，下述描述的装置实施例仅仅是示意性的。本申请第十五实施例提供的一种语音服务提供装置包括如下部分：

音频数据获取单元1101，用于获取待处理的音频数据。

语种信息获得单元1102，用于获取与待处理的音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待处理的音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息。

语音服务提供单元1103，用于根据所述目标语种信息，提供与所述待识别音频数据对应的语音服务。

与本申请第四实施例提供的一种语音服务提供方法相对应，本申请第十六实施例还提供一种电子设备，由于电子设备实施例基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可，下述描述的电子设备实施例仅仅是示意性的。本申请第十六实施例提供的一种电子设备包括：

处理器；

获取待处理的音频数据；

获取与待处理的音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待处理的音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息；

根据所述目标语种信息，提供与所述待识别音频数据对应的语音服务。

与本申请第四实施例提供的一种语音服务提供方法相对应，本申请第十七实施例还提供一种存储设备，由于存储设备实施例基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可，下述描述的存储设备实施例仅仅是示意性的。本申请第十七实施例提供的一种存储设备，存储有语音服务提供方法的程序，该程序被处理器运行，执行下述步骤：

获取待处理的音频数据；

与本申请第五实施例提供的一种语音识别方法相对应，本申请第十八实施例还提供一种语音识别装置，请参看图12，其为本申请第十八实施例提供的语音识别装置的示意图，由于装置实施例基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可，下述描述的装置实施例仅仅是示意性的。本申请第十八实施例提供的一种语音识别装置包括如下部分：

待识别音频数据获取单元1201，用于获取待识别音频数据。

语种信息获得单元1202，用于获取与所述待识别音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待识别音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息。

文本信息获取单元1203，用于根据所述目标语种信息，获取与所述待识别音频数据对应的文本信息。

与本申请第五实施例提供的一种语音识别方法相对应，本申请第十九实施例还提供一种电子设备，由于电子设备实施例基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可，下述描述的电子设备实施例仅仅是示意性的。本申请第十九实施例提供的一种电子设备包括：

处理器；

获取待识别音频数据；

获取与所述待识别音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待识别音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息；

根据所述目标语种信息，获取与所述待识别音频数据对应的文本信息。

与本申请第五实施例提供的一种语音识别方法相对应，本申请第二十实施例还提供一种存储设备，由于存储设备实施例基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可，下述描述的存储设备实施例仅仅是示意性的。本申请第二十实施例提供的一种存储设备，存储有语音识别方法的程序，该程序被处理器运行，执行下述步骤：

获取待识别音频数据；

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种语种识别方法，其特征在于，包括：

获取待识别音频数据；

获取与所述待识别音频数据对应的音素特征信息；

2.根据权利要求1所述的方法，其特征在于，所述获取与所述待识别音频数据对应的音素特征信息，包括：

获取与所述待识别音频数据对应的声学特征信息；

将所述声学特征信息输入到目标音素特征提取模型中，获取所述音素特征信息，其中，所述目标音素特征提取模型是用于获取与音频数据对应的音素特征信息的模型。

3.根据权利要求2所述的方法，其特征在于，所述目标音素特征提取模型，通过以下方法获得：

获取与所述样本音频数据对应的样本声学特征信息；

根据所述样本声学特征信息和所述文本标注信息，获得所述目标音素特征提取模型。

4.根据权利要求1所述的方法，其特征在于，所述获取与所述音素特征信息对应的嵌入式向量信息，包括：

将所述音素特征信息输入到目标嵌入式向量表示模型中，获取所述目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示模型是用于对与音频数据对应的音素特征信息进行嵌入式向量表示的模型。

5.根据权利要求4所述的方法，其特征在于，所述目标嵌入式向量表示模型，通过以下方法获得：

获取与所述样本音频数据对应的样本音素特征信息；

根据所述样本音素特征信息和所述语种标注信息，获得所述目标嵌入式向量表示模型。

6.根据权利要求5所述的方法，其特征在于，所述根据所述样本音素特征信息和所述语种标注信息，获得所述目标嵌入式向量表示模型，包括：

获取与所述目标嵌入式向量表示模型对应的待训练模型，其中，所述待训练模型是用于根据所述样本音素特征信息，获得样本嵌入式向量表示信息，并根据获得的样本嵌入式向量表示信息，获得与所述样本音频数据对应的预测语种数量的模型，所述预测语种数量与所述语种标注信息对应，用于表示与样本数据对应的语种类别的数量；

根据所述样本音素特征信息和所述语种标注信息，调整所述待训练模型的参数，获得满足预设收敛条件的优化模型；

将所述优化模型中用于根据所述样本嵌入式向量表示信息、预测所述预测语种数量的网络结构层删除，获得所述目标嵌入式向量表示模型。

7.根据权利要求1所述的方法，其特征在于，所述根据所述目标嵌入式向量表示信息，获得目标语种，包括：

将所述目标嵌入式向量表示信息输入到目标预测模型中，获取待确定语种信息和与所述待确定语种信息对应的预测分值，所述预测分值用于表示所述待确定语种信息的正确程度，所述目标预测模型是用于根据与音频数据对应的嵌入式向量表示信息，预测与所述音频数据对应的待确定语种信息和预测分值的模型；

根据所述待确定语种信息和所述预测分值，获得所述目标语种信息。

8.根据权利要求7所述的方法，其特征在于，所述根据所述待确定语种信息和所述预测分值，获得所述目标语种信息，包括：

获取所述预测分值中的最大值；

根据与所述最大值的预测分值对应的所述待确定语种信息，获得所述目标语种信息。

9.根据权利要求1所述的方法，其特征在于，还包括：

对所述目标嵌入式向量表示信息进行优化处理，获取优化完成的目标嵌入式向量表示信息；

所述根据所述目标嵌入式向量表示信息，获得目标语种，包括：

根据所述优化完成的目标嵌入式向量表示信息，获得目标语种。

10.根据权利要求9所述的方法，其特征在于，所述对所述目标嵌入式向量表示信息进行优化处理，包括以下至少一种处理：

对所述目标嵌入式向量表示信息进行向量长度规整处理；

对所述目标嵌入式向量表示信息进行减均值处理；

对所述目标嵌入式向量表示信息进行线性鉴别性分析处理；

对所述目标嵌入式向量表示信息进行主成分分析处理；

对所述目标嵌入式向量表示信息进行类内方差规整处理。

11.根据权利要求1所述的方法，其特征在于，所述音素特征信息，包括以下至少一种特征信息：与所述待识别音频数据的至少一个音素状态对应的音素对数似然特征信息、与所述待识别音频数据的至少一个音素状态对应的后验概率特征信息。

12.根据权利要求1所述的方法，其特征在于，所述待识别音频数据为满足预设时长条件的音频数据。

13.根据权利要求1所述的方法，其特征在于，所述待识别音频数据包括至少一个语种类别的音频数据。

14.根据权利要求1所述的方法，其特征在于，所述方法还包括：

展示所述目标语种信息。

15.根据权利要求14所述的方法，其特征在于，所述方法还包括：

获取针对所述目标语种信息的确认信息；

根据所述确认信息，确定所述待识别音频数据所属的语种类别。

16.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取历史语种信息，其中，所述历史语种信息用于表征历史待识别音频数据所属的语种类别；

根据所述历史语种信息和所述目标语种信息，确定所述待识别音频数据所属的语种类别。

17.根据权利要求16所述的方法，其特征在于，所述根据所述历史语种信息和所述目标语种信息，确定所述待识别音频数据所属的语种类别，包括：

确定所述历史语种信息中的高频语种信息；

根据所述高频语种信息和所述目标语种信息，确定所述待识别音频数据所属的语种类别。

18.一种音素特征提取模型的获得方法，其特征在于，包括：

获取与所述样本音频数据对应的样本声学特征信息；

19.一种嵌入式向量表示模型的获得方法，其特征在于，包括：

获取与所述样本音频数据对应的样本音素特征信息；

20.一种语音服务提供方法，其特征在于，包括：

获取待处理的音频数据；

21.根据权利要求20所述的方法，其特征在于，所述语音服务，包括以下任意一种服务：语音识别服务、语音转换服务、语音应答服务。

22.一种语音识别方法，其特征在于，包括：

获取待识别音频数据；

23.一种语种识别装置，其特征在于，包括：

音频数据获取单元，用于获取待识别音频数据；

音素特征信息获取单元，用于获取与所述待识别音频数据对应的音素特征信息；

嵌入式向量表示信息获取单元，用于获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；

语种信息获得单元，用于根据所述目标嵌入式向量表示信息，获得目标语种，其中，所述目标语种信息用于表示所述待识别音频数据对应的语种类别。

24.一种电子设备，其特征在于，包括：

处理器；

获取待识别音频数据；

获取与所述待识别音频数据对应的音素特征信息；

25.一种存储设备，其特征在于，存储有语种识别方法的程序，该程序被处理器运行，执行下述步骤：

获取待识别音频数据；

获取与所述待识别音频数据对应的音素特征信息；

26.一种音素特征提取模型的获得装置，其特征在于，包括：

样本音频数据获取单元，用于获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的文本标注信息，其中，所述文本标注信息是与所述样本音频数据对应的文本信息；

样本声学特征信息获取单元，用于获取与所述样本音频数据对应的样本声学特征信息；

模型获得单元，用于根据所述样本声学特征信息和所述文本标注信息，获得所述目标音素特征提取模型，其中，所述目标音素特征提取模型是用于获取与待识别音频数据对应的音素特征信息的模型，所述待识别音频数据与所述样本音频数据对应。

27.一种电子设备，其特征在于，包括：

处理器；

获取与所述样本音频数据对应的样本声学特征信息；

28.一种存储设备，其特征在于，存储有音素特征提取模型的获得方法的程序，该程序被处理器运行，执行下述步骤：

获取与所述样本音频数据对应的样本声学特征信息；

29.一种嵌入式向量表示模型的获得装置，其特征在于，包括：

样本音频数据获取单元，用于获取与至少一个语种对应的样本音频数据，以及，获取与所述样本音频数据对应的语种标注信息，其中，所述语种标注信息用于表示所述样本音频数据对应的语种类别；

样本音素特征信息获取单元，用于获取与所述样本音频数据对应的样本音素特征信息；

模型获得单元，用于根据所述样本音素特征信息和所述语种标注信息，获得所述目标嵌入式向量表示模型，其中，所述目标嵌入式向量表示模型是用于对与音频数据对应的音素特征信息进行嵌入式向量表示的模型，所述待识别音频数据与所述样本音频数据对应，所述音素特征信息与所述样本音素特征信息对应。

30.一种电子设备，其特征在于，包括：

处理器；

获取与所述样本音频数据对应的样本音素特征信息；

31.一种存储设备，其特征在于，存储有嵌入式向量表示模型的获得方法的程序，该程序被处理器运行，执行下述步骤：

获取与所述样本音频数据对应的样本音素特征信息；

32.一种语音服务提供装置，其特征在于，包括：

音频数据获取单元，用于获取待处理的音频数据；

语种信息获得单元，用于获取与待处理的音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待处理的音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息；

语音服务提供单元，用于根据所述目标语种信息，提供与所述待识别音频数据对应的语音服务。

33.一种电子设备，其特征在于，包括：

处理器；

获取待处理的音频数据；

34.一种存储设备，其特征在于，存储有语音服务提供方法的程序，该程序被处理器运行，执行下述步骤：

获取待处理的音频数据；

35.一种语音识别装置，其特征在于，包括：

待识别音频数据获取单元，用于获取待识别音频数据；

语种信息获得单元，用于获取与所述待识别音频数据对应的目标语种信息，其中，所述目标语种信息是按照下述方式获得的：获取与所述待识别音频数据对应的音素特征信息；获取与所述音素特征信息对应的目标嵌入式向量表示信息，其中，所述目标嵌入式向量表示信息是对所述音素特征信息进行嵌入式向量表示后获得的信息；根据所述目标嵌入式向量表示信息，获得所述目标语种信息；

文本信息获取单元，用于根据所述目标语种信息，获取与所述待识别音频数据对应的文本信息。

36.一种电子设备，其特征在于，包括：

处理器；

获取待识别音频数据；

37.一种存储设备，其特征在于，存储有语音识别方法的程序，该程序被处理器运行，执行下述步骤：

获取待识别音频数据；