CN108389573A

CN108389573A - 语种识别方法及装置、训练方法及装置、介质、终端

Info

Publication number: CN108389573A
Application number: CN201810135218.6A
Authority: CN
Inventors: 杨嵩; 张邦鑫; 黄琰; 杨松帆; 陈飞
Original assignee: Beijing Easy Thinking Learning Technology Co Ltd; Beijing Xintang Sichuang Educational Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2018-08-10
Anticipated expiration: 2038-02-09
Also published as: CN108389573B

Abstract

本发明实施例公开了一种语种识别方法及装置、训练方法及装置、介质、终端，所述语种识别方法包括：获取待识别视频的语音识别特征以及唇语识别特征；对所述语音识别特征进行识别以获取语音音素序列，计算所述语音音素序列为预设语种的语音语种概率；对所述唇语识别特征进行识别以获取唇语音素序列，计算所述唇语音素序列为预设语种的唇语语种概率；根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。本发明实施例中的技术方案的识别准确性更高。

Description

语种识别方法及装置、训练方法及装置、介质、终端

技术领域

本发明涉及计算机领域，尤其涉及语种识别方法及装置、训练方法及装置、介质、终端。

背景技术

模式识别是人类的一项基本智能，在日常生活中，人们经常进行“模式识别”。随着计算机技术的发展以及人工智能的兴起，利用计算机代替人类进行模式识别迅速发展并成为新的技术学科。

语种识别属于模式识别中一种，语种识别技术主要用于检测输入的信息的语种归类。现有的语种识别方法的准确性有待提升。

发明内容

本发明实施例解决的技术问题是提升语种识别方法的准确性。

为解决上述技术问题，本发明实施例提供一种语种识别方法，包括：获取待识别视频的语音识别特征以及唇语识别特征；对所述语音识别特征进行识别以获取语音音素序列，计算所述语音音素序列为预设语种的语音语种概率；对所述唇语识别特征进行识别以获取唇语音素序列，计算所述唇语音素序列为预设语种的唇语语种概率；根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。

可选的，在获取待识别视频的语音识别特征以及唇语识别特征之前还包括：对待分段视频进行端点检测，以获取所述待识别视频。

可选的，在判断所述待识别视频的语种类型之后还包括：根据所述待分段视频中各个所述待识别视频的识别结果，确定所述待分段视频中不同语种所占的比例。

可选的，所述语音识别特征为PLP特征或Fbank特征。

可选的，基于HMM模型以及其中使用异常数据训练的Sil模型获取所述语音音素序列；和/或，基于HMM模型以及其中使用异常数据训练的Sil模型获取所述唇语音素序列。

可选的，根据所述Sil模型识别异常发音的音素为Sil音素。

可选的，所述预设语种为一种或多种。

可选的，所述预设语种为两种，分别为英文和中文；所述语音音素序列包括中文语音音素序列和英文语音音素序列；所述唇语音素序列包括中文唇语音素序列和英文唇语音素序列；对所述语音识别特征进行识别以获取语音音素序列包括：对所述语音识别特征进行中文识别，以获取所述中文语音音素序列；对所述语音识别特征进行英文识别，以获取所述英文语音音素序列；对所述唇语识别特征进行识别以获取唇语音素序列包括：对所述唇语识别特征进行中文识别，以获取所述中文唇语音素序列；对所述唇语识别特征进行英文识别，以获取所述英文唇语音素序列；所述语音语种概率包括所述英文语音音素序列为英文的语音英文概率、以及所述中文语音音素序列为中文的语音中文概率，所述唇语语种概率包括所述英文唇语音素序列为英文的唇语英文概率、以及所述中文唇语音素序列为中文的唇语中文概率。

可选的，根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型包括：根据所述语音英文概率、语音中文概率、唇语英文概率以及唇语中文概率判断所述待识别视频的语种类型。

可选的，利用N-gram模型计算所述语音音素序列的为预设语种的语音语种概率；和/或，利用N-gram模型所述唇语音素序列为预设语种的唇语语种概率。

可选的，所述N-gram模型中N值取2。

可选的，根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型包括：利用分类器判断所述待识别视频的语种类型。

本发明实施例还提供一种语种识别的训练方法，包括：确定训练语料，所述训练语料包括训练视频及对应的音素标注和语种标注；获取所述训练视频的语音识别特征以及唇语识别特征；利用训练视频的语音识别特征、唇语识别特征以及对应的音素标注对声学模型进行训练，以使得基于所述声学模型能够对语音训练特征以及唇语训练特征进行识别，得到语音音素序列以及唇语音素序列；利用所述训练视频对应的音素标注和语种标注对语言模型进行训练，以使得基于所述语言模型能够对语音音素序列以及唇语音素序列进行识别，分别得到所述语音音素序列的为预设语种的语音语种概率以及所述唇语音素序列为预设语种的唇语语种概率；利用所述训练视频的语音语种概率、唇语语种概率以及对应的语种标注对分类判别模型进行训练，以使得基于所述分类判别模型能够根据语音语种概率以及唇语语种概率进行语种类型的判断。

可选的，所述声学模型包括Sil模型，对声学模型进行训练包括对所述Sil模型进行训练。

可选的，所述训练视频包括异常发音的训练视频；对所述Sil模型进行训练包括：利用所述异常发音的训练视频以及对应的音素标注对所述Sil模型进行训练，以使得所述声学模型能够将异常发音识别为Sil音素。

本发明实施例还提供一种语种识别装置，包括：识别特征获取单元，适于获取待识别视频的语音识别特征以及唇语识别特征；音素序列识别单元，适于对所述语音识别特征进行识别以获取语音音素序列，并且对所述唇语识别特征进行识别以获取唇语音素序列；音素序列概率计算单元，适于计算所述语音音素序列的为预设语种的语音语种概率，并且计算所述唇语音素序列为预设语种的唇语语种概率；分类判别单元，适于根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。

可选的，所述语种识别装置还包括：端点检测单元，适于在获取待识别视频的语音识别特征以及唇语识别特征之前对待分段视频进行端点检测，以获取所述待识别视频。

可选的，所述语种识别装置还包括：语种比例判断单元，适于在判断所述待识别视频的语种类型之后，根据所述待分段视频中各个所述待识别视频的识别结果，确定所述待分段视频中不同语种所占的比例。

可选的，所述语音识别特征为PLP特征或Fbank特征。

可选的，所述音素序列识别单元适于基于HMM模型以及其中使用异常数据训练的Sil模型获取所述语音音素序列和/或所述唇语音素序列。

可选的，所述音素序列识别单元适于根据所述Sil模型识别异常发音的音素为Sil音素。

可选的，所述预设语种为一种或多种。

可选的，所述预设语种为两种，分别为英文和中文；所述语音音素序列包括中文语音音素序列和英文语音音素序列；所述唇语音素序列包括中文唇语音素序列和英文唇语音素序列；所述音素序列识别单元包括：中文语音音素序列识别器，适于对所述语音识别特征进行中文识别，以获取所述中文语音音素序列；英文语音音素序列识别器，适于对所述语音识别特征进行英文识别，以获取所述英文语音音素序列；中文唇语音素序列识别器，适于对所述唇语识别特征进行中文识别，以获取所述中文唇语音素序列；以及英文唇语音素序列识别器，适于对所述唇语识别特征进行英文识别，以获取所述英文唇语音素序列；所述音素序列概率计算单元包括：语音英文概率计算器，适于计算所述英文语音音素序列为英文的语音英文概率；语音中文概率计算器，适于计算所述中文语音音素序列为中文的语音中文概率；唇语英文概率计算器，适于计算所述唇语语种概率包括所述英文唇语音素序列为英文的唇语英文概率；以及唇语中文概率计算器，适于计算中文唇语音素序列为中文的唇语中文概率。

可选的，所述分类判别单元适于根据所述语音英文概率、语音中文概率、唇语英文概率以及唇语中文概率判断所述待识别视频的语种类型。

可选的，所述音素序列概率计算单元，适于利用N-gram模型计算所述语音音素序列的为预设语种的语音语种概率和/或所述唇语音素序列为预设语种的唇语语种概率。

可选的，所述N-gram模型中N值取2。

可选的，所述分类判别单元适于利用分类器判断所述待识别视频的语种类型。

本发明实施例还提供一种语种识别的训练装置，包括：训练语料确定单元，适于确定训练语料，所述训练语料包括训练视频及对应的音素标注和语种标注；识别特征获取单元，适于获取所述训练视频的语音识别特征以及唇语识别特征；声学模型训练单元，适于利用训练视频的语音识别特征、唇语识别特征以及对应的音素标注对声学模型进行训练，以使得基于所述声学模型能够对语音训练特征以及唇语训练特征进行识别，得到语音音素序列以及唇语音素序列；语言模型训练单元，适于利用所述训练视频对应的音素标注和语种标注对语言模型进行训练，以使得基于所述语言模型能够对语音音素序列以及唇语音素序列进行识别，分别得到所述语音音素序列的为预设语种的语音语种概率以及所述唇语音素序列为预设语种的唇语语种概率；分类判别模型训练单元，适于利用所述训练视频的语音语种概率、唇语语种概率以及对应的语种标注对分类判别模型进行训练，以使得基于所述分类判别模型能够根据语音语种概率以及唇语语种概率进行语种类型的判断。

可选的，所述声学模型包括Sil模型，所述声学模型训练单元适于对所述Sil模型进行训练。

可选的，所述训练视频包括异常发音的训练视频；所述声学模型训练单元适于利用所述异常发音的训练视频以及对应的音素标注对所述Sil模型进行训练，以使得所述声学模型能够将异常发音识别为Sil音素。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述语种识别方法的步骤。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述语种识别方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述语种识别的训练方法的步骤。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述语种识别的训练方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

在本发明实施例中，通过获取待识别视频的语音识别特征以及唇语识别特征，根据语音识别特征得到语音音素序列，计算所述语音音素序列的为预设语种的语音语种概率，根据唇语识别特征得到唇语音素序列，计算所述唇语音素序列为预设语种的唇语语种概率，根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。结合语音语种概率和唇语语种概率对待识别视频的语种类型进行判断，抗干扰能力更强，判断的准确性更高。

进一步，根据所述Sil模型识别异常发音的音素为Sil音素，可以在待识别视频中用户发音不准确时，将不准确的音素作为Sil音素处理，从而可以提升得到音素序列的概率，进而可以在用户发音不准确时，提升识别用户使用的语种的准确性。

附图说明

图1是本发明实施例中一种语种识别方法的流程图；

图2是本发明实施例中另一种语种识别方法的流程图；

图3是本发明实施例中另一种语种识别方法的流程图；

图4是本发明实施例中一种语种识别的训练方法的流程图；

图5是本发明实施例中一种语种识别装置的结构示意图；

图6是本发明实施例中另一种语种识别装置的结构示意图；

图7是本发明实施例中一种语种识别的训练装置的结构示意图。

具体实施方式

如背景技术中所述，现有的语种识别方法的准确性有待提升。

在语种识别方法中，可以单独利用文本、语音或者图像进行语种识别，其中利用图像进行语种识别可以是识别图像中的唇形，对唇语进行识别。通常情况下，语音识别的准确性较高，但在环境噪音较大，或者录制语音的设备质量有待提升时，语音识别的准确性会比较差。故单独利用文本、语音或者图像进行语种识别，准确性均有待提升。

在一些应用场景中，例如在网络学习的场景中，需要对用户在学习时使用的语种进行识别，以判断用户的学习情况。在这种场景中，通常可以获取到用户进行学习的视频。

用户进行网络学习时，进行学习用户的陪同者的语音也会被录入在内，陪同者通常不会被摄入视频画面中。在这种情况下，单独利用语音进行识别的准确性较差。而在用户无陪同者进行学习时，利用语音进行识别的准确率较高。

在上述应用场景中，或者在其他可以获取用户视频，并且需要对用户语种进行判断的应用场景中，单独利用语音或者单独利用唇语进行语种识别的准确性均有待提升。

在本发明实施例中，结合语音以及唇语对待识别视频进行识别，可以充分利用语音识别和图像识别的优点，判断的准确性更高。具体地，本发明实施例中的语种识别方法综合了在语音中未出现干扰时语音识别准确性高的优点，以及在语音中出现干扰时，结合图像进行语种识别的结果准确性更高的优点，从而可以提升语种判断的准确性。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例中一种语种识别方法的流程图，具体包括如下步骤：

步骤S11，获取待识别视频的语音识别特征以及唇语识别特征；

步骤S12，对所述语音识别特征进行识别以获取语音音素序列，计算所述语音音素序列为预设语种的语音语种概率；

步骤S13，对所述唇语识别特征进行识别以获取唇语音素序列，计算所述唇语音素序列为预设语种的唇语语种概率；

步骤S14，根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。

其中，步骤S12与步骤S13的顺序不做限定，可以是并行或者先后进行。

在如前所述的网络学习的应用场景中，待识别视频可以来源于用户在进行语言学习时的视频。

在具体实施中，参见图2，在步骤S11之前还可以包括：步骤S25，在获取待识别视频的语音识别特征以及唇语识别特征之前还包括：对待分段视频进行端点检测，以获取所述待识别视频。

例如，在待识别视频来源于用户在进行语言学习时视频时，如果需要对十分钟的学习视频进行分析，可以对该十分钟的视频进行端点检测后进行分段，获取所述待识别视频，通过步骤S11至步骤S14对待识别视频中的语种进行检测。

进一步地，在具体实施中，步骤S14后还可以包括:步骤S26，根据所述待分段视频中各个所述待识别视频的识别结果，确定所述待分段视频中不同语种所占的比例。

沿用上例，如果需要对时长为十分钟的学习视频进行分析，可以对该十分钟视频中每段待识别视频的语种进行识别，确定十分钟的学习视频中各语种所占的比例，例如可以是确定十分钟学习视频中英文部分占的比例或中文部分占的比例。根据该比例结果，可以进一步进行教学质量或教学成果的大数据分析，或者进行其它应用。

本领域技术人员可以理解的是，本发明实施例中的语种识别方法可以应用于多种场景，并不限于网络教学。

以下对本发明实施例中语种识别方法的具体实现进行进一步的说明。

在步骤S11的具体实施中，语音识别特征可以是感知加权线性预测(Perceptuallinear predictive，PLP)特征，或者是滤波声学(Filter-bank，Fbank)特征。其中，PLP特征是一种利用语音信号的发音特性，通过帧与帧之间的非独立型，进行预测，以得到的声学特征。Fbank特征中包含更多的语音信息，可用于之后的训练。

在步骤S11的具体实施中，唇语识别特征可以通过如下方式获得：对待识别视频中的图像进行人脸和唇部的定位后，基于像素的方法或者基于模型的方法，或者基于二者的结合获取唇语识别特征。其中，基于像素的方法可以是图像变换方法。在网络学习的场景中，由于待识别视频的图像中人脸占图像大部分区域，对人脸进行定位的步骤也可以省略。

在此并不对语音识别特征的获取方式以及唇语特征的获取方式进行限定，其它可以通过待识别视频获取到语音识别特征或唇语识别特征，并可以用于后续语种识别的方法均包含于本专利的范围内。

在获取到语音识别特征以及唇语识别特征后，可以分别对语音识别特征和唇语识别特征进行识别，得到对应的语音音素序列和唇语音素序列。

在步骤S12的具体实施中，语音音素序列和唇语音素序列均可以基于隐马尔科夫模型(Hidden Markov Model，HMM)模型以及其中使用异常数据训练的静音(Silence，Sil)模型获得，或者，二者中的任一可以基于HMM模型以及其中使用异常数据训练的Sil模型获得。

其中，HMM是对语音信号的时间序列构件统计模型，将其作为一个数学上的双重随机过程：一个是用具有有限状态数的马尔科夫链来模拟语音信号统计特性变化的隐含的随机过程；另一个是与马尔科夫链的每一个状态相关联的观测序列的随机过程，前者通过后者表现出来。人的语言过程同样可以作为双重随机过程处理，语音信号本身是一个可观测的时变序列，HMM合理模仿了这一过程，是较为理想的一种语音模型。

在具体实施中，可以结合利用深度神经网络(Deep Neural Network，DNN)、卷积神经网络(Convolutional Neural Network，CNN)、时延神经网络(Time Delay NeuralNetwork，TDNN)或者时间递归神经网络(Long Short-Term Memory，LSTM)以及马尔科夫模型进行建模，从而获取唇语音素序列或者语音音素序列。

也即，音素序列识别的建模可以采用HMM-DNN、HMM-TDNN或者HMM-LSTM的技术框架进行建模，或者采用与之类似的技术框架进行建模。

基于HMM方法的识别原理是通过在所有可能的HMM状态跳转序列中找出最优的跳转序列，将其对应的文本信息作为识别结果。基于HMM的方式可以对语音识别特征或者唇语识别特征进行识别，分别得到对应的音素，按照时间特征对音素排列得到的音素序列，即为语音音素序列和唇语音素序列。

为进一步理解，以单独识别“中”和“国”为例：其中“中”对应的HMM状态跳转序列为“zh”、“ong”，“国”对应的HMM状态跳转序列为“g”、“uo”。其中“zh”、“ong”、“g”、“uo”均为音素，“zh”、“ong”和“g”、“uo”均可以作为音素序列。若在时间顺序上依次为“中”和“国”，则音素序列可以是“zh”“ong”“g”“uo”。

在人们说话过程中，说话人因思考、迟疑、咳嗽、惊讶、口吃等原因都会产生停顿，在语音信号中或者唇语信号停顿会体现为一段时间没有声音或动作，或者有声音或动作，但却不是有文义的语音或动作。

为了能够正确识别音素序列，在具体实施中，可以在HMM模型中设置Sil模型，利用Sil模型识别与之匹配的音素，以进行音素序列的识别。这样，在识别过程中，遇到停顿或其他类似情况时，Sil模型会与其他有语义的音素模型竞争，如果sil模型占优势，则会被识别为停顿，这也可以称为被sil模型吸收。从而可以使得音素序列更加有序和规整，提升识别成功率。

进一步地，在本发明一实施例中，采用异常发音训练Sil模型，以使得根据所述Sil模型能够识别异常发音的音素为Sil音素，从而可以在用户发音不准确时，提升识别的成功率和准确性。Sil音素是指与Sil模型匹配的音素。

例如，若用不准确的英文发音对Sil模型进行训练，则在识别过程中，可以将不准确的英文发音识别为Sil音素。

结合网络学习的场景应用进行说明：在网络学习场景下，由于用户对学习的语言正在学习中，经常会出现不能准确发音的情况，唇形也会出现偏差。基于HMM模型对语音识别特征以及唇语识别特征进行识别时，生成的语音音素序列较为杂乱，对音素序列进行语种概率的判断时，会产生偏差。其中，所述的音素序列包括语音音素序列和唇语音素序列中至少一个，语种概率包括语音语种概率和唇语语种概率中至少一个。

若利用不准确的发音对Sil模型进行训练，则可以将不准确的发音识别为与Sil模型匹配的音素，可以提升识别到音素序列的概率，并使得音素序列的识别结果更加整齐有序，进一步可以提升语种概率识别的准确性。从而可以提升本发明实施例中语种识别方法的准确性。

例如，当应用场景为母语为中文的用户学习英文时，由于英文发音不准确，其语音和唇形均不准确，可能出现在用户说英文时，而待识别视频不能被识别为英文的情况，语种识别的准确性较差。在这种情况下，可以采用发音不好的数据，也即异常发音的数据，进行Sil模型的训练，从而使得音素序列更加有序，易于后续语种概率的正确判断。

在具体实施中，预设语种可以是一种或多种。对语音识别特征进行识别以获取语音音素序列的过程是对应于预设语种的，类似地，对所述唇语识别特征进行识别以获取唇语音素序列也是对应于预设语种的。故当预设语种为多种时，对语音识别特征进行识别以获取语音音素序列的过程可以是多个，这些过程分别对应于预设的不同语种；并且，对唇语识别特征进行识别以获取唇语音素序列的过程也可以是多个，分别对应于预设的不同语种。对应于语音音素序列的预设语种可以不同于对应于唇语音素序列的预设语种。

在本发明一实施例中，可以在异常发音的数据所属的语种对应的特征识别的过程中使用Sil模型。下文会结合实施例进行进一步说明。

在具体实施中，当预设语种为两种，分别为中文和英文时，所述语音音素序列可以包括中文语音音素序列和英文语音音素序列，所述语音语种概率包括所述英文语音音素序列为英文的语音英文概率、以及所述中文语音音素序列为中文的语音中文概率，所述唇语语种概率包括所述英文唇语音素序列为英文的唇语英文概率、以及所述中文唇语音素序列为中文的唇语中文概率。

本领域技术人员可以理解的是，预设的语种还可以是多种，例如可以是中文、英文、日文，或者在两种预设语种时，预设语种也可以是英文或日文。预设语种也可以是其它语种，在此不做限制。

参见图3，当预设语种为两种，分别为英文和中文时，本发明实施例中的语种识别方法可以包括如下步骤：

步骤S311，获取待识别视频的语音识别特征；

步骤S312，对所述语音识别特征进行中文识别，以获取中文语音音素序列；

步骤S313，计算所述中文语音音素序列为中文的语音中文概率；

步骤S314，对所述语音识别特征进行英文识别，以获取英文语音音素序列；

步骤S315，计算所述英文语音音素序列为英文的语音英文概率；

步骤S321，获取待识别视频的唇语识别特征；

步骤S322，对所述唇语识别特征进行中文识别，以获取中文唇语音素序列；

步骤S323，计算所述中文唇语音素序列为中文的唇语中文概率；

步骤S324，对所述唇语识别特征进行英文识别，以获取英文唇语音素序列；

步骤S325，计算所述英文唇语音素序列为英文的唇语英文概率；

步骤S33，根据所述语音英文概率、语音中文概率、唇语英文概率以及唇语中文概率判断所述待识别视频的语种类型。

结合参考图1和图3，步骤S11可以包括步骤S311和步骤S321；步骤S12可以包括步骤S312至步骤S315；步骤S13可以包括步骤S322至步骤S325；步骤S14可以包括步骤S33。

如前所述，可以基于HMM模型以及其中使用异常数据训练的Sil模型获取所述语音音素序列，也可以基于HMM模型以及其中使用异常数据训练的Sil模型获取所述唇语音素序列。具体地，可以在异常发音的数据所属的语种对应的特征识别的过程中使用设置于HMM模型中的Sil模型。

在具体实施中，结合图3，当异常发音的数据所述的语种为英文时，可以在步骤S314、步骤S315、步骤S324，以及步骤S325中使用Sil模型进行特征识别，也即使用Sil模型生成对应语种的语音音素序列。

继续以网络学习场景为例进行说明，若在网络学习场景中，用户为以中文为母语，学习英语的用户，则在说英文时，会出现发音不准确的情况，对应的待识别视频的语种可能被误判为中文。若在对语音识别特征和唇语识别特征进行英文识别时，使用Sil模型，则可以将不标准的英文识别为Sil音素，提升英文语音音素序列的有序性，使得英文语音音素序列更加规整，从而可以提升步骤S315和步骤S325中将英文语音音素序列判断为英文的概率，进而可以提升语种识别方法的准确性。

本领域技术人员可以理解的是，中文语音音素序列、英文语音音素序列、中文唇语音素序列以及英文唇语音素序列是从得到音素序列的方式进行的区分，也即是从所采用的分类器的不同的角度进行的区分，而并非对音素序列所述语种的限制。

继续参照图1，在步骤S13的具体实施中，语音语种概率和唇语语种概率中的一个或者多个均可以利用N-gram模型计算，其中N值可以取2。N-Gram是大词汇连续语音识别中常用的一种语言模型，N值为进行判断的连续词汇的个数。

在步骤S14的具体实施中，可以利用分类器判断所述待识别视频的语种类型。

本发明实时例还提供一种语种识别的训练方法，其流程图参见图4，具体包括如下步骤：

步骤S41，确定训练语料，所述训练语料包括训练视频及对应的音素标注和语种标注；

步骤S42，获取所述训练视频的语音识别特征以及唇语识别特征；

步骤S43，利用训练视频的语音识别特征、唇语识别特征以及对应的音素标注对声学模型进行训练，以使得基于所述声学模型能够对语音训练特征以及唇语训练特征进行识别，得到语音音素序列以及唇语音素序列；

步骤S44，利用所述训练视频对应的音素标注和语种标注对语言模型进行训练，以使得基于所述语言模型能够对语音音素序列以及唇语音素序列进行识别，分别得到所述语音音素序列的为预设语种的语音语种概率以及所述唇语音素序列为预设语种的唇语语种概率；

步骤S45，利用所述训练视频的语音语种概率、唇语语种概率以及对应的语种标注对分类判别模型进行训练，以使得基于所述分类判别模型能够根据语音语种概率以及唇语语种概率进行语种类型的判断。

其中，声学模型可以包括前述的HMM模型以及其中使用异常数据训练的Sil模型，或者其它在训练后可以进行音素序列识别的模型。语言模型可以包括前述的N-gram模型，或者其它在训练后可以进行语种概率识别的模型。在具体实施中，对声学模型进行训练包括对所述Sil模型进行训练。

进一步地，对所述Sil模型进行训练可以包括：利用所述异常发音的训练视频以及对应的音素标注对所述Sil模型进行训练，以使得所述声学模型能够将异常发音识别为Sil音素。

本发明实施例中的语种识别的训练方法是语种识别方法的训练过程采用的方法，其涉及的名词解释、训练原理及有益效果可以参见前文所述，在此不再赘述。

本发明实施例还提供一种语种识别装置，其结构示意图参见图5，包括如下单元：

识别特征获取单元51，适于获取待识别视频的语音识别特征以及唇语识别特征；

音素序列识别单元52，适于对所述语音识别特征进行识别以获取语音音素序列，并且对所述唇语识别特征进行识别以获取唇语音素序列；

音素序列概率计算单元53，适于计算所述语音音素序列的为预设语种的语音语种概率，并且计算所述唇语音素序列为预设语种的唇语语种概率；

分类判别单元54，适于根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。

在具体实施中，所述语种识别装置还可以包括：端点检测单元55，适于在获取待识别视频的语音识别特征以及唇语识别特征之前对待分段视频进行端点检测，以获取所述待识别视频。

进一步地，语种识别装置还可以包括：语种比例判断单元56，适于在判断所述待识别视频的语种类型之后，根据所述待分段视频中各个所述待识别视频的识别结果，确定所述待分段视频中不同语种所占的比例。

在具体实施中，所述语音识别特征可以是PLP特征或Fbank特征。

在具体实施中，所述音素序列识别单元52适于基于HMM模型以及其中使用异常数据训练的Sil模型获取所述语音音素序列和/或所述唇语音素序列。

进一步地，所述音素序列识别单元52适于根据所述Sil模型识别异常发音的音素为Sil音素。

在具体实施中，所述预设语种可以是一种或多种。

例如，所述预设语种为两种，分别为英文和中文；所述语音音素序列可以包括中文语音音素序列和英文语音音素序列；所述唇语音素序列可以包括中文唇语音素序列和英文唇语音素序列。

相应地，参见图6，所述识别特征获取单元51可以包括语音识别特征获取单元61和唇语识别特征获取单元62，分别获取语音识别特征和唇语识别特征。

所述音素序列识别单元52可以包括：中文语音音素序列识别器63，适于对所述语音识别特征进行中文识别，以获取所述中文语音音素序列；英文语音音素序列识别器64，适于对所述语音识别特征进行英文识别，以获取所述英文语音音素序列；中文唇语音素序列识别器65，适于对所述唇语识别特征进行中文识别，以获取所述中文唇语音素序列；以及英文唇语音素序列识别器66，适于对所述唇语识别特征进行英文识别，以获取所述英文唇语音素序列。

所述音素序列概率计算单元53可以包括：语音英文概率计算器68，适于计算所述英文语音音素序列为英文的语音英文概率；语音中文概率计算器67，适于计算所述中文语音音素序列为中文的语音中文概率；唇语英文概率计算器610，适于计算所述唇语语种概率包括所述英文唇语音素序列为英文的唇语英文概率；以及唇语中文概率计算器69，适于计算中文唇语音素序列为中文的唇语中文概率。

在具体实施中，所述分类判别单元54适于根据所述语音英文概率、语音中文概率、唇语英文概率以及唇语中文概率判断所述待识别视频的语种类型。

在具体实施中，所述音素序列概率计算单元53适于利用N-gram模型计算所述语音音素序列的为预设语种的语音语种概率和/或所述唇语音素序列为预设语种的唇语语种概率。其中，N-gram模型中N值可以取2。

在具体实施中，所述分类判别单元54适于利用分类器判断所述待识别视频的语种类型。

本发明实施例中的语种识别装置适于实现本发明实施例中的语种识别方法，其原理、名词解释及有益效果可以参见本发明实施例中的语种识别方法，在此不再赘述。

本发明实施例还提供一种语种识别的训练装置，其结构示意图参见图7，包括：

训练语料确定单元71，适于确定训练语料，所述训练语料包括训练视频及对应的音素标注和语种标注；

识别特征获取单元72，适于获取所述训练视频的语音识别特征以及唇语识别特征；

声学模型训练单元73，适于利用训练视频的语音识别特征、唇语识别特征以及对应的音素标注对声学模型进行训练，以使得基于所述声学模型能够对语音训练特征以及唇语训练特征进行识别，得到语音音素序列以及唇语音素序列；

语言模型训练单元74，适于利用所述训练视频对应的音素标注和语种标注对语言模型进行训练，以使得基于所述语言模型能够对语音音素序列以及唇语音素序列进行识别，分别得到所述语音音素序列的为预设语种的语音语种概率以及所述唇语音素序列为预设语种的唇语语种概率；

分类判别模型训练单元75，适于利用所述训练视频的语音语种概率、唇语语种概率以及对应的语种标注对分类判别模型进行训练，以使得基于所述分类判别模型能够根据语音语种概率以及唇语语种概率进行语种类型的判断。

在具体实施中，所述声学模型可以包括Sil模型，所述声学模型训练单元适于对所述Sil模型进行训练。

在具体实施中，所述声学模型训练单元73适于利用所述异常发音的训练视频以及对应的音素标注对所述Sil模型进行训练，以使得所述声学模型能够将异常发音识别为Sil音素。

本发明实施例中的语种识别的训练装置适于实现本发明实施例中的语种识别方法，其具体实现和有益效果可以参见本发明实施例中的语种识别方法，在此不再赘述。

本发明实施例还提供另一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述语种识别的训练方法的步骤。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行权利要求所述语种识别方法的步骤。

本发明实施例还提供另一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行权利要求所述语种识别的训练方法的步骤。

所述计算机可读存储介质可以是光盘、机械硬盘、固态硬盘等。

所述终端可以是服务器、计算机、智能手机、平板电脑等各种适当的终端。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语种识别方法，其特征在于，包括：

获取待识别视频的语音识别特征以及唇语识别特征；

对所述语音识别特征进行识别以获取语音音素序列，计算所述语音音素序列为预设语种的语音语种概率；

对所述唇语识别特征进行识别以获取唇语音素序列，计算所述唇语音素序列为预设语种的唇语语种概率；

根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。

2.根据权利要求1所述的语种识别方法，其特征在于，在获取待识别视频的语音识别特征以及唇语识别特征之前还包括：对待分段视频进行端点检测，以获取所述待识别视频。

3.根据权利要求2所述的语种识别方法，其特征在于，在判断所述待识别视频的语种类型之后还包括：根据所述待分段视频中各个所述待识别视频的识别结果，确定所述待分段视频中不同语种所占的比例。

4.根据权利要求1所述的语种识别方法，其特征在于，所述语音识别特征为PLP特征或Fbank特征。

5.根据权利要求1所述的语种识别方法，其特征在于，基于HMM模型以及其中使用异常数据训练的Sil模型获取所述语音音素序列；和/或，基于HMM模型以及其中使用异常数据训练的Sil模型获取所述唇语音素序列。

6.根据权利要求5所述的语种识别方法，其特征在于，根据所述Sil模型识别异常发音的音素为Sil音素。

7.根据权利要求1所述的语种识别方法，其特征在于，所述预设语种为一种或多种。

8.根据权利要求7所述的语种识别方法，其特征在于，所述预设语种为两种，分别为英文和中文；所述语音音素序列包括中文语音音素序列和英文语音音素序列；所述唇语音素序列包括中文唇语音素序列和英文唇语音素序列；

对所述语音识别特征进行识别以获取语音音素序列包括：对所述语音识别特征进行中文识别，以获取所述中文语音音素序列；对所述语音识别特征进行英文识别，以获取所述英文语音音素序列；

对所述唇语识别特征进行识别以获取唇语音素序列包括：对所述唇语识别特征进行中文识别，以获取所述中文唇语音素序列；对所述唇语识别特征进行英文识别，以获取所述英文唇语音素序列；

所述语音语种概率包括所述英文语音音素序列为英文的语音英文概率、以及所述中文语音音素序列为中文的语音中文概率，所述唇语语种概率包括所述英文唇语音素序列为英文的唇语英文概率、以及所述中文唇语音素序列为中文的唇语中文概率。

9.根据权利要求8所述的语种识别方法，其特征在于，根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型包括：

根据所述语音英文概率、语音中文概率、唇语英文概率以及唇语中文概率判断所述待识别视频的语种类型。

10.根据权利要求1所述的语种识别方法，其特征在于，利用N-gram模型计算所述语音音素序列的为预设语种的语音语种概率；和/或，利用N-gram模型所述唇语音素序列为预设语种的唇语语种概率。

11.根据权利要求10所述的语种识别方法，其特征在于，所述N-gram模型中N值取2。

12.根据权利要求1所述的语种识别方法，其特征在于，根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型包括：

利用分类器判断所述待识别视频的语种类型。

13.一种语种识别的训练方法，其特征在于，包括：

确定训练语料，所述训练语料包括训练视频及对应的音素标注和语种标注；

获取所述训练视频的语音识别特征以及唇语识别特征；

利用训练视频的语音识别特征、唇语识别特征以及对应的音素标注对声学模型进行训练，以使得基于所述声学模型能够对语音训练特征以及唇语训练特征进行识别，得到语音音素序列以及唇语音素序列；

利用所述训练视频对应的音素标注和语种标注对语言模型进行训练，以使得基于所述语言模型能够对语音音素序列以及唇语音素序列进行识别，分别得到所述语音音素序列的为预设语种的语音语种概率以及所述唇语音素序列为预设语种的唇语语种概率；

利用所述训练视频的语音语种概率、唇语语种概率以及对应的语种标注对分类判别模型进行训练，以使得基于所述分类判别模型能够根据语音语种概率以及唇语语种概率进行语种类型的判断。

14.根据权利要求13所述的语种识别的训练方法，其特征在于，所述声学模型包括Sil模型，对声学模型进行训练包括对所述Sil模型进行训练。

15.根据权利要求14所述的语种识别的训练方法，其特征在于，所述训练视频包括异常发音的训练视频；

对所述Sil模型进行训练包括：利用所述异常发音的训练视频以及对应的音素标注对所述Sil模型进行训练，以使得所述声学模型能够将异常发音识别为Sil音素。

16.一种语种识别装置，其特征在于，包括：

识别特征获取单元，适于获取待识别视频的语音识别特征以及唇语识别特征；

音素序列识别单元，适于对所述语音识别特征进行识别以获取语音音素序列，并且对所述唇语识别特征进行识别以获取唇语音素序列；

音素序列概率计算单元，适于计算所述语音音素序列的为预设语种的语音语种概率，并且计算所述唇语音素序列为预设语种的唇语语种概率；

分类判别单元，适于根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。

17.一种语种识别的训练装置，其特征在于，包括：

训练语料确定单元，适于确定训练语料，所述训练语料包括训练视频及对应的音素标注和语种标注；

识别特征获取单元，适于获取所述训练视频的语音识别特征以及唇语识别特征；

声学模型训练单元，适于利用训练视频的语音识别特征、唇语识别特征以及对应的音素标注对声学模型进行训练，以使得基于所述声学模型能够对语音训练特征以及唇语训练特征进行识别，得到语音音素序列以及唇语音素序列；

语言模型训练单元，适于利用所述训练视频对应的音素标注和语种标注对语言模型进行训练，以使得基于所述语言模型能够对语音音素序列以及唇语音素序列进行识别，分别得到所述语音音素序列的为预设语种的语音语种概率以及所述唇语音素序列为预设语种的唇语语种概率；

分类判别模型训练单元，适于利用所述训练视频的语音语种概率、唇语语种概率以及对应的语种标注对分类判别模型进行训练，以使得基于所述分类判别模型能够根据语音语种概率以及唇语语种概率进行语种类型的判断。

18.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至12任一项所述语种识别方法的步骤。

19.一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至12任一项所述语种识别方法的步骤。

20.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求13至15任一项所述语种识别的训练方法的步骤。

21.一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求13至15任一项所述语种识别的训练方法的步骤。