CN109147769A

CN109147769A - 一种语种识别方法、装置、翻译机、介质和设备

Info

Publication number: CN109147769A
Application number: CN201811208684.9A
Authority: CN
Inventors: 李宝祥; 吕安超; 钟贵平
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2019-01-04
Anticipated expiration: 2038-10-17
Also published as: CN109147769B

Abstract

本发明涉及语音技术领域，特别涉及一种语种识别方法、装置、翻译机、介质和设备。在进行语种识别时，通过语种识别模型进行第一语种和非第一语种的识别。若第一语种的概率较高，则识别为第一语种，反之，则可以进一步根据本次选择的语种互译范围中包括第一语种和第二语种，确定识别出的非第一语种为第二语种，从而确定采集到的语音时域信号的语种是第一语种还是第二语种。从而可以在进行第一语种和非第一语种区分的基础上，结合语种互译范围确定非第一语种的具体语种为第二语种，无需利用语种识别模型进行第二语种的具体识别，降低语种识别成本，减小实现难度。

Description

一种语种识别方法、装置、翻译机、介质和设备

技术领域

本发明涉及语音技术领域，特别涉及一种语种识别方法、装置、翻译机、介质和设备。

背景技术

语音的语种识别技术是计算机自动识别出语音段所属语言种类的过程。自动语种识别通常包括训练阶段和识别阶段。在训练阶段，需要获取大量的涵盖需要识别的语言种类的语料(语言材料，即训练样本)，并利用针对获取的大量语料提取出的特征，对语种识别模型进行训练，使得后续在识别阶段，可以基于训练出的语种识别模型进行语种识别。

目前语种识别技术存在语种识别成本较高、实现难度大的问题，主要原因如下：

现有的语种识别流程中，在训练阶段，获得的训练样本需要与该语种识别模型需要识别的语种相对应。例如，在需要识别汉语语种、英语语种和法语语种时，需要获取汉语训练样本、英语训练样本和法语训练样本，对获取的训练样本进行特征提取，并利用提取的特征对语种识别模型进行训练，得到可以对汉语语种、英语语种和法语语种进行识别的语种识别模型。在识别阶段，对需要识别的语音信号进行特征提取，将提取出的特征输入语种识别模型进行识别，通过相似度比较以及判决规则的判断，可以对需要识别的语音信号的语种进行识别并输出，确定需要识别的语音信号的语种是汉语语种、英语语种还是法语语种。

在需要识别的语种较为少见或对应的训练样本不易获取时，针对该语种获取训练样本就非常困难，成本会比较高，训练周期会比较长，训练难度会较大。

发明内容

本发明实施例提供一种语种识别方法、装置、翻译机、介质和设备，用于解决语种识别成本较高，实现难度较大的问题。

本发明提供了一种语种识别方法，所述方法包括：

采集语音时域信号；

利用预先训练出的语种识别模型，确定所述语音时域信号对应的语种；

若确定所述语音时域信号对应的语种为非第一语种，获取本次选择的语种互译范围，所述语种互译范围包括第一语种和第二语种互译；

根据所获取的语种互译范围，确定所述语音时域信号对应的语种为所述第二语种。

根据本发明实施例提供的方案，在进行语种识别时，可以通过语种识别模型进行第一语种和非第一语种的识别。若识别结果是第一语种的概率较高，则识别为第一语种，反之，若识别结果是非第一语种的概率较高，则可以进一步根据本次用户选择的语种互译范围中包括的第一语种和第二语种，确定该非第一语种为第二语种，从而确定采集到的语音时域信号的语种是第一语种还是第二语种。从而可以在进行第一语种和非第一语种区分的基础上，结合语种互译范围确定非第一语种为第二语种，由于无需利用该第二语种对应的语种识别模型进行第二语种的具体识别，降低了语种识别成本，减小了实现难度。

在一种可能的实现方式中，所述语种识别模型是利用所述第一语种对应的第一训练样本以及第二训练样本训练得到，所述第二训练样本中包括至少一种非第一语种对应的训练样本。即，在本实施例中，无需特别针对需要识别的语种获取对应的训练样本，从而可以通过较为容易获取的训练样本，对语种识别模型进行训练，降低语种识别的成本以及实现难度。

在一种可能的实现方式中，所述至少一种非第一语种对应的训练样本中，包括所述第二语种对应的训练样本，或者不包括所述第二语种对应的训练样本。

在一种可能的实现方式中，所述语种识别模型通过以下方式训练得到：

获取训练样本，所述训练样本包括所述第一训练样本以及所述第二训练样本；

针对每个训练样本，执行以下操作：

确定所述训练样本中的每一语音帧对应的语音特征序列；

将所述语音特征序列作为输入，训练对应的语种识别模型。

在一种可能的实现方式中，将所述语音特征序列作为输入，训练对应的语种识别模型之前，该方法进一步包括：

对确定出的语音特征序列进行池化，得到所述训练样本对应的语音特征序列。

在一种可能的实现方式中，利用预先训练出的语种识别模型，确定所述语音时域信号对应的语种，包括：

确定采集到的语音时域信号中的每一语音帧对应的语音特征序列；

对所述语音特征序列进行池化，得到采集到的语音时域信号对应的语音特征序列；

将采集到的语音时域信号对应的语音特征序列作为输入，利用预先训练出的语种识别模型，确定所述语音时域信号对应的语种为第一语种还是非第一语种。

在一种可能的实现方式中，对所述语音特征序列进行池化，得到采集到的语音时域信号对应的语音特征序列，包括：

从所述语音特征序列中，选择部分语音特征序列；

对选择出的语音特征序列进行池化，得到采集到的语音时域信号对应的语音特征序列。

在一种可能的实现方式中，所述池化为最大池化。

本发明还提供了一种语种识别装置，所述装置包括：

采集模块，用于采集语音时域信号；

第一识别模块，用于利用预先训练出的语种识别模型，确定所述语音时域信号对应的语种；

第二识别模块，用于若所述第一识别模块确定所述语音时域信号对应的语种为非第一语种，获取本次选择的语种互译范围，所述语种互译范围包括第一语种和第二语种互译,根据所获取的语种互译范围，确定所述语音时域信号对应的语种为所述第二语种。

在一种可能的实现方式中，所述语种识别模型是利用所述第一语种对应的第一训练样本以及第二训练样本训练得到，所述第二训练样本中包括至少一种非第一语种对应的训练样本

针对每个训练样本，执行以下操作：

确定所述训练样本中的每一语音帧对应的语音特征序列；

将所述语音特征序列作为输入，训练对应的语种识别模型。

在一种可能的实现方式中，将所述语音特征序列作为输入，训练对应的语种识别模型之前，还包括：对确定出的语音特征序列进行池化，得到所述训练样本对应的语音特征序列。

在一种可能的实现方式中，所述第一识别模块，用于利用预先训练出的语种识别模型，确定所述语音时域信号对应的语种，包括：

在一种可能的实现方式中，所述第一识别模块，用于对所述语音特征序列进行池化，得到采集到的语音时域信号对应的语音特征序列，包括：

从所述语音特征序列中，选择部分语音特征序列；

在一种可能的实现方式中，所述池化为最大池化。

本发明还提供了一种翻译机，所述翻译机包括如上所述的装置。

本发明还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现如上所述方法的步骤。

本发明还提供了一种语种识别设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述程序时实现如上所述方法的步骤。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的语种识别方法的流程示意图；

图2为本发明实施例二提供的语种识别方法的流程示意图；

图3为本发明实施例四提供的语种识别装置的结构示意图；

图4为本发明实施例六提供的语种识别设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

本发明实施例一提供一种语种识别方法，该方法的步骤流程可以如图1所示，包括：

步骤101、采集语音时域信号。

在本步骤中，可以采集需要进行语种识别的语音时域信号。具体的，可以通过语音采集设备，如麦克风(MIC)等采集需要进行语种识别的语音时域信号。

在实施中，可以由MIC实时采集语音时域信号，也可以由用户触发后进行采集。例如，用户通过物理按键或虚拟按键触发信号采集。

步骤102、进行语种识别。

在本步骤中，可以利用预先训练出的语种识别模型，确定所述语音时域信号对应的语种为第一语种还是非第一语种。即在本实施例中，语种识别模型只需要识别语种是否为第一语种。

如果在本步骤中，确定所述语音时域信号对应的语种为第一语种，则语种识别完成，可以结束本流程。如果确定所述语音时域信号对应的语种为非第一语种，则可以继续执行步骤103，继续对非第一语种的具体语种进行识别。

步骤103、进一步进行语种识别。

若步骤102中确定所述语音时域信号对应的语种为非第一语种，则在本步骤中，可以获取本次选择的语种互译范围，所述语种互译范围包括第一语种和第二语种互译，根据所获取的语种互译范围，确定所述语音时域信号对应的语种为第二语种。

其中，语种互译范围可以理解为表征需要互译的语种范围。由于语种互译范围中包括第一语种和第二语种这两种语种，因此在本实施例中，无需语种识别模型进行非第一语种的具体识别，而是可以通过语种互译范围包括的语种类型，确定非第一语种的具体语种类型。

在一种可能的实现方式中，选择语种互译范围时，可以是用户在交互界面上选择语种环境，例如，交互界面上可以提供多种语言互译方式，如中英互译，中韩互译，中日互译等，用户可以在交互界面上选择自己需要的互译方式，从而可以根据用户的选择确定本次选择的语种互译范围，例如，用户选择中英互译时，可以理解为本次选择的语种互译范围为包括汉语语种和英语语种。

在一种可能的实现方式中，所述语种识别模型可以是利用所述第一语种对应的第一训练样本以及第二训练样本训练得到，所述第二训练样本中可以包括至少一种非第一语种对应的训练样本。从而可以通过训练得到的语种识别模型，实现对语音时域信号对应的语种是否为第一语种的识别。

其中，第一语种可以理解为训练样本更容易获得的语种，即可以将训练样本更容易获得的语种作为第一语种，非第一语种可以理解为相对于第一语种，训练样本更难获得的语种，即可以将训练样本相对难获得的语种作为非第一语种。针对不同母语国家，第一语种和非第一语种可能是不同的。例如，在中国，中文语种的训练样本更容易获取，因此，中文可以作为第一语种；而英文、法文、日文、韩文等外文语种的训练样本不容易获取，因此，可将英文、法文、日文、韩文等外文语种作为非第一语种。又如，在日本，日文语种的训练样本更容易获取，因此，日文可以作为第一语种；而英文、法文、中文、韩文等外文语种的训练样本不容易获取，因此，可将英文、法文、中文、韩文等外文语种作为非第一语种。

在进行模型训练时，获取一定数量的第一训练样本以及一定数量的第二训练样本，对语种识别模型进行训练。具体的，在进行模型训练时，第二训练样本中可以仅包含一种非第一语种的训练样本，也可以包含多种非第一语种的训练样本。

为了提高识别的准确率，优选的，第二训练样本中可以包含多种非第一语种的训练样本，从而也降低了每种非第一语种的训练样本的数量，降低了第二训练样本的获取难度。

需要进一步说明的是，对于步骤103中进一步根据语种互译范围，确定出语音时域信号对应的语种为第二语种的场景下，在进行模型训练时，所述至少一种非第一语种对应的训练样本中，可以包括所述第二语种对应的训练样本，也可以不包括所述第二语种对应的训练样本。也就是说，即使模型训练时的训练样本中未包含该第二语种的训练样本，通过该模型以及语种互译范围，仍可确定出语音时域信号对应的语种为第二语种。

可以理解为，在语种识别模型需要对第一语种(可以理解为相对于第二语种，训练样本更容易获得的语种，即可以将训练样本更容易获得的语种作为第一语种)和第二语种(可以理解为相对于第一语种，训练样本更难获得的语种，即可以将训练样本相对难获得的语种作为第二语种)进行区分时，用于训练语种识别模型的非第一语种对应的训练样本中，可以包括需要识别的第二语种对应的训练样本(可以理解为，非第一语种对应的训练样本可以全部为第二语种对应的训练样本，也可以部分为第二语种对应的训练样本)，或者，也可以不包括第二语种对应的训练样本。

例如，以第一语种为中文，第二语种为英文为例进行说明。语种识别模型可以利用中文语种对应的第一训练样本，以及英语语种对应的第二训练样本训练得到。之后，在进行语种识别时，若输入该训练得到的语种识别模型的语音时域信号为中文，则利用该语种识别模型可以直接识别出输入的语音时域信号的语种为中文；若输入该训练得到的语种识别模型的语音时域信号为英文，则利用该语种识别模型的识别结果为该语音时域信号的语种为非中文语种，进一步的，根据所选择的语种互译范围(如中英互译)，确定该语音时域信号的语种为英文；若输入该训练得到的语种识别模型的语音时域信号为日文等其他语言，则利用该语种识别模型可以识别出输入的语音时域信号的语种为非中文语种，进一步根据所选择的语种互译范围(如中日互译)，确定该语音时域信号的语种为日文。

又如，仍以第一语种为中文，第二语种为英文为例进行说明。语种识别模型可以利用中文语种对应的第一训练样本，以及英语语种和日语语种对应的第二训练样本训练得到。之后，在进行语种识别时，若输入该训练得到的语种识别模型的语音时域信号为中文，则利用该语种识别模型可以直接识别出该语音时域信号的语种为中文；若输入该训练得到的语种识别模型的语音时域信号为英文或日文或其他语言，则利用该语种识别模型的识别结果为该语音时域信号的语种为非中文语种，进一步根据所选择的语种互译范围，确定该语音时域信号的具体语种。这样，当难以获得足够数量的第二语种对应的训练样本时，可以利用其他非第一语种对应的训练样本来作为补充，实现对语种识别模型的训练，既保证了训练样本的充足性，也保证了训练样本的多样性，从而不仅提高了识别精度，还降低了语种识别模型的训练成本以及实现难度，进而降低了语种识别的成本和实现难度。

再如，语种识别模型可以利用中文语种(第一语种)对应的第一训练样本，以及英语语种和日语语种对应的第二训练样本训练得到。之后，在进行语种识别时，若输入该训练得到的语种识别模型的语音时域信号为泰文(可以理解为第二语种语音)，则利用该语种识别模型可以识别出输入的语音时域信号为非中文语种，进一步可根据所选择的语种互译范围(如中泰互译)，确定该语音时域信号的语种为泰文语种。类似的，若输入该训练得到的语种识别模型的语音时域信号为法文(也可以理解为第二语种语音)，则利用该语种识别模型识别出输入的语音时域信号也为非中文语种，进一步可根据所选择的语种互译范围(如中法互译)，确定该语音时域信号的语种为法文语种。若输入该训练得到的语种识别模型的语音时域信号为中文，则利用该语种识别模型可以识别出输入的语音时域信号为中文语种。这样，当第二语种对应的训练样本难以获取时，可以不使用第二语种对应的训练样本，而是完全利用非第一语种、亦非第二语种的其它语种对应的第二训练样本，以及第一语种对应的第一训练样本，来实现对语种识别模型的训练。进一步降低语种识别模型的训练成本以及实现难度，从而进一步进而降低语种识别的成本和实现难度。

即，在本实施例中，语种识别模型可以利用较为容易获取的训练样本(第一语种对应的第一训练样本和非第一语种的其它语种对应的第二训练样本)进行训练，使得后续可以实现第一语种和非第一语种的区分识别，无需针对需要识别的语种获取训练样本，降低训练样本的获取难度，从而降低语种识别的成本和实现难度。

在一种可能的实现方式中，语种识别模型可以通过以下方式训练得到：

针对每个训练样本，执行以下操作：

确定所述训练样本中的每一语音帧对应的语音特征序列；

将所述语音特征序列作为输入，训练对应的语种识别模型。

在另一种可能的实现方式中，将所述语音特征序列作为输入，训练对应的语种识别模型之前，还包括：对确定出的语音特征序列进行池化，得到所述训练样本对应的语音特征序列。

下面以对采集到的语音时域信号的每一语音帧对应的语音特征序列进行池化，从而增强得到的语音特征，进而提高语种识别模型的识别准确性为例，通过实施例二对本发明实施例一提供的方案进行详细说明。

实施例二

本发明实施例二提供一种语种识别方法，该方法的步骤流程可以如图2所示，包括：

步骤201、采集语音时域信号。

步骤202、确定每一语音帧对应的语音特征序列。

在本步骤中，可以对采集到的语音时域信号进行分帧，确定每一语音帧对应的语音特征序列。其中，语音特征序列可以理解为用于表征语音信号本质特征。

一种可能的实现方式中，可以针对得到的每一语音帧进行如下处理，来确定每一语音帧对应的语音特征序列：

对该语音帧进行频域转换，确定对应的语音频域信号；

根据确定出的语音频域信号，提取第一指定维数的滤波器组fbank特征序列；

将该第一指定维数的fbank特征序列进行指定次数的差分运算，确定第二指定维数的语音特征序列；

对该第二指定维数的语音特征序列，利用深度学习模型进行非线性变换，确定对应的第三指定维数的语音特征序列。

其中，第三指定维数根据语种识别模型需要的输入个数确定。

较优的，在本实施例中，深度学习模型可以包括卷积神经网络(CNN)模型和长短期记忆网络(LSTM)模型，即可以依次利用CNN模型和LSTM模型，进行非线性变换。从而通过CNN模型和LSTM模型对语音的语种特征进行提取，保证语种识别的准确性。当然，在本实施例中，深度学习模型不限于采用CNN模型和LSTM模型。

步骤203、对确定出的语音特征序列进行池化。

在本步骤中，可以对得到的语音特征序列进行池化，较佳的，所述池化可以为最大池化(Max-pooling)，得到采集到的语音时域信号对应的语音特征序列。

一种可能的实施方式中，在提取特征时，从进行池化的语音特征序列的同一位置上提取值最大的特征值，组成新的语音特征序列。由于采用最大池化提取特征值，使得得到的新的语音特征序列更能反映语音时域信号的特征，提高了语种识别的准确率。

在实施时，可以基于步骤202确定出的所有语音特征序列进行池化处理，也可以基于步骤202确定出的部分语音特征序列进行池化处理。

具体的，可以从步骤202得到的语音特征序列中，选择部分语音特征序列，并对选择出的语音特征序列进行池化，得到采集到的语音时域信号对应的语音特征序列。由于只对部分语音特征序列进行池化处理，能够减少运算量，提高处理效率。

在实施中，选择语音特征序列的方式为任意方式，如随机选择设定数量的语音特征序列，或者按照设定间隔选择语音特征序列、或者选择前N个语音帧的语音特征序列等等。

较优的，可以从所有语音特征序列中，选择不大于零的特征值个数不大于设定值的语音特征序列，由于一个语音特征序列中包含的不大于零的特征值数量越多，则该语音特征序列中的有效特征值就越少，会影响识别的准确率，本方案中，筛除掉这类语音特征序列，能够进一步提高语种识别的准确率。

在实施中，所选择的语音特征序列可以是连续的语音帧对应的语音特征序列，也可以是不连续的语音帧对应的语音特征序列，可根据需要选择。

步骤204、进行语种识别。

在本步骤中，可以将经池化后得到的语音特征序列(即采集到的语音时域信号对应的语音特征序列)作为输入，利用预先训练出的语种识别模型，确定采集到的语音时域信号对应的语种为第一语种还是非第一语种。

如果确定采集到的语音时域信号对应的语种为第一语种，则语种识别完成，可以结束本流程。如果确定所述语音时域信号对应的语种为非第一语种，则可以继续执行步骤205，继续对非第一语种的具体语种进行识别。

步骤205、进一步进行语种识别。

若步骤204中确定所述语音时域信号对应的语种为非第一语种，则在本步骤中，可以根据本次选择的语种互译范围，所述语种互译范围包括所述第一语种和第二语种，根据所获取的语种互译范围，确定所述非第一语种为所述第二语种。

获取训练样本，所述训练样本包括第一语种对应的第一训练样本以及至少一个非第一语种对应的第二训练样本；

针对每个训练样本，执行以下操作：

确定所述训练样本中的每一语音帧对应的语音特征序列；

对确定出的语音特征序列进行池化，得到所述训练样本对应的语音特征序列；

将所述训练样本对应的语音特征序列作为输入，训练对应的语种识别模型。

本发明各实施例中涉及的语种识别方法主要涉及对两种语种的区分，特别适用于实时翻译场景(例如，自动翻译机等)，例如，可以实现将中文翻译成目标语种语言(即能够提供的语种互译范围所包含的语言)，或者将目标语种语言转换为中文，达到顺利沟通的目的。下面通过实施例三对本发明各实施例涉及的语种识别模型的训练阶段和识别阶段进行说明。

实施例三、

在训练阶段：

由于针对母语语种，可以较为容易地得到大型语料库，本实施例中以第一语种为中文语种为例进行说明。可以得到大量中文语音语料作为训练样本集A。

在本实施例中，不需要特别针对目标语种得到相应的大型语料库，而是可以将任意容易获取的非中文语种的至少一种语种的语音语料作为训练样本集B。当然，目标语种对应的语音语料也可以作为训练样本集B中的训练样本。

利用训练样本集A和训练样本集B中的所有训练样本，对语种识别模型，例如，深度神经网络分类模型，进行训练，得到可以对中文语种和非中文语种进行区分的语种识别模型。

在识别阶段：

获取需要识别的语音信号，输入训练好的语种识别模型进行识别，可以得到语种识别结果为中文语种或非中文语种。

由于已经预先选择出语种互译范围，该语种互译范围包括中文语种和目标语种。例如，在实时翻译场景中，用户可以明确知晓自身所处的语种识别范围，能够明确需要进行目标语种语言和中文之间的转换，因此，可以预先选择包括中文语种和目标语种的语种互译范围。此时，针对语种识别结果为非中文语种的情况，可以根据本次选择的语种互译范围，确定识别出的非中文语种必然为目标语种。

例如，本次选择的语种互译范围包括中文语种和泰语语种，则在语种识别模型的语种识别结果为非中文语种时，可以确定需要识别的语音信号对应的语种为泰语语种。

根据语种识别的结果，可以实现中文和目标语种语言之间的转换，完成翻译等操作。例如，可以将中文语音信号(或目标语种语音信号)输入相应的自动语音识别(ASR)模型进行识别，得到对应的识别文本，然后可以对识别文本进行翻译，得到目标语种语言(或中文)识别文本。

对于有屏幕或者连接了屏幕的设备，可以直接将翻译得到的识别文本进行显示即可。而对于没有显示环境的情况，还可以把翻译得到的识别文本进行文本生成语音(TTS)转换，得到对应的语音，并可以进行播放，达到翻译沟通的目的。

当然，自动语音识别、识别文本翻译和TTS转换，均可以采用任意的现有技术来实现。需要说明的是，在本实施例中，自动语音识别、识别文本翻译和TTS转换可以择优使用任何云端服务器来实现。

根据本实施例提供的方法，语种识别模型的语种识别准确率较高，例如，即使仅使用非常少量的第二语种的语料对语种识别模型进行训练，经实际测试，训练得到的语种识别模型的语种识别的准确率也能达到95％以上。且本实施例提出的语种识别模型训练方法，很容易在任何具有母语语料的环境进行推广，在识别正确率、训练速度、识别成本、识别实现难易程度方面，得到有效权衡。

与实施例一～三基于同一发明构思，提供以下的装置。

实施例四

本发明实施例四提供一种语种识别装置，该装置的结构可以如图3所示，包括：

采集模块11用于采集语音时域信号；

第一识别模块12用于利用预先训练出的语种识别模型，确定所述语音时域信号对应的语种；

第二识别模块13用于若所述第一识别模块确定所述语音时域信号对应的语种为非第一语种，获取本次选择的语种互译范围，所述语种互译范围包括第一语种和第二语种互译,根据所获取的语种互译范围，确定所述语音时域信号对应的语种为所述第二语种。

在一种可能的实现方式中，所述语种识别模型是利用所述第一语种对应的第一训练样本以及第二训练样本训练得到，所述第二训练样本中包括至少一种非第一语种对应的训练样本。

在一种可能的实现方式中，所述语种识别模型可以通过以下方式训练得到：

针对每个训练样本，执行以下操作：

确定所述训练样本中的每一语音帧对应的语音特征序列；

将所述语音特征序列作为输入，训练对应的语种识别模型。

在一种可能的实现方式中，所述第一识别模块12用于利用预先训练出的语种识别模型，确定所述语音时域信号对应的语种，可以包括：

在一种可能的实现方式中，所述第一识别模块12用于对所述语音特征序列进行池化，得到采集到的语音时域信号对应的语音特征序列，可以包括：

从所述语音特征序列中，选择部分语音特征序列；

在一种可能的实现方式中，所述池化为可以最大池化。

基于同一发明构思，本发明实施例五还可以提供一种翻译机，所述翻译机包括如实施例四所述的装置。

基于同一发明构思，本发明实施例提供以下的设备和介质。

实施例六

本发明实施例六提供一种语种识别设备，该设备的结构可以如图4所示，包括存储器21、处理器22及存储在存储器上的计算机程序，所述处理器22执行所述程序时实现本发明实施例一～三所述方法的步骤。

可选的，所述处理器22具体可以包括中央处理器(CPU)、特定应用集成电路(ASIC，application specific integrated circuit)，可以是一个或多个用于控制程序执行的集成电路，可以是使用现场可编程门阵列(FPGA，field programmable gate array)开发的硬件电路，可以是基带处理器。

可选的，所述处理器22可以包括至少一个处理核心。

可选的，所述存储器21可以包括只读存储器(ROM，read only memory)、随机存取存储器(RAM，random access memory)和磁盘存储器。存储器21用于存储至少一个处理器22运行时所需的数据。存储器21的数量可以为一个或多个。

本发明实施例七提供一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，当可执行程序被处理器执行时，实现本发明实施例一～三提供的方法。

在具体的实施过程中，计算机存储介质可以包括：通用串行总线闪存盘(USB，Universal Serial Bus flash drive)、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的存储介质。

在本发明实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性或其它的形式。

在本发明实施例中的各功能单元可以集成在一个处理单元中，或者各个单元也可以均是独立的物理模块。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备，例如可以是个人计算机，服务器，或者网络设备等，或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：通用串行总线闪存盘(universal serial bus flash drive)、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语种识别方法，其特征在于，所述方法包括：

采集语音时域信号；

2.如权利要求1所述的方法，其特征在于，所述语种识别模型是利用所述第一语种对应的第一训练样本以及第二训练样本训练得到，所述第二训练样本中包括至少一种非第一语种对应的训练样本。

3.如权利要求2所述的方法，其特征在于，

所述至少一种非第一语种对应的训练样本中，包括所述第二语种对应的训练样本，或者不包括所述第二语种对应的训练样本。

4.如权利要求2所述的方法，其特征在于，所述语种识别模型通过以下方式训练得到：

针对每个训练样本，执行以下操作：

确定所述训练样本中的每一语音帧对应的语音特征序列；

将所述语音特征序列作为输入，训练对应的语种识别模型。

5.如权利要求4所述的方法，其特征在于，将所述语音特征序列作为输入，训练对应的语种识别模型之前，该方法进一步包括：

6.如权利要求1所述的方法，其特征在于，利用预先训练出的语种识别模型，确定所述语音时域信号对应的语种，包括：

7.如权利要求6所述的方法，其特征在于，对所述语音特征序列进行池化，得到采集到的语音时域信号对应的语音特征序列，包括：

从所述语音特征序列中，选择部分语音特征序列；

8.如权利要求5或6所述的方法，其特征在于，所述池化为最大池化。

9.一种语种识别装置，其特征在于，所述装置包括：

采集模块，用于采集语音时域信号；

10.一种非易失性计算机存储介质，其特征在于，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现权利要求1～8任一所述方法的步骤。