CN109313892B

CN109313892B - 稳健的语言识别方法和系统

Info

Publication number: CN109313892B
Application number: CN201780034751.7A
Authority: CN
Inventors: 傅天晓
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2017-05-17
Filing date: 2017-05-17
Publication date: 2023-02-21
Anticipated expiration: 2037-05-17
Also published as: US20190355345A1; WO2018209608A1; TW201907388A; TWI681383B; US11183171B2; CN109313892A

Abstract

本申请是关于稳健而高效的语言识别系统和方法。该方法包括：接收语言信号；接收所述语音信号(301)；将所述语音信号分割成多个音频帧(305)；提取所述多个音频帧的特征(307)；对所述多个音频帧中的每一个音频帧，利用神经网络确定与语言ID相关的变量和所述语音信号的一个或多个辅助属性(309)；基于所述提取的特征确定所述多个音频帧的评分(311)；以及基于确定的所述多个音频帧的变量和评分确定所述语音信号的语言ID(315)。

Description

稳健的语言识别方法和系统

技术领域

本申请关于自动语言识别，尤其涉及一种稳健而高效的语言识别方法和系统。

背景技术

自动语音识别(ASR)近年来已经成为一个快速发展的领域。在单一语言和多种语言的ASR系统中，已经有了基于语言的特定属性对一段语进行语言识别(LID)的发展。各种用于语言识别的ASR系统的建模技术已经被提出，例如高斯混合和隐马尔可夫模型(HMM)。

自动语言识别技术可以适用于各领域。例如，它可以改善使用者对装置控制和操作的体验。使用不同语言的用户可以输入语音命令来操控他们的终端装置。自动语言识别还可以被服务提供商用于适应不同语言的客户，无论是通过远程电话求助，还是让与客户使用相同语言的员工为客户提供个人服务。现在许多服务和产品都是通过使用者终端和服务提供商服务器之间的远程通讯提供。在出租车服务中，说某种语言的客户可能会打电话给出租车服务提供商来请求叫车服务。自动的LID系统可以迅速的识别出语言类型，该电话可以转接给使用相同语言的客户服务人员，以更好的适应客户的服务需求，从而提高客户体验。

例如，当一位外国客户在呼叫出租车服务时，如果出租车服务提供商可以识别客户正在说的语言，比如德语，该呼叫可以被转接给一名说德语的客户服务代表。这有助于服务请求的理解和处理。例如，出租车服务提供商可以派遣一名会说德语的司机来接送客户。此外，对于中国这样的市场来说，说不同方言的人可能很难相互理解。如果出租车服务提供商可以识别客户的方言，然后将客户的请求转接给使用相同方言的服务代表，客户可以有更好的服务体验。此外，语言识别结果还可以被存储起来并与客户账户相关联，以便将来用于服务参考、客户分析和进行市场分析。

然而，目前的LID系统技术受高错误率的阻碍而无法大规模应用。例如，对于一台机器来说，要精确地区分不同语言或者相同语言的不同方言中的相似的属性或元素，是很有挑战性的。此外，不同的语言，例如具有相同的历史来源的语言，可能会有相似的词汇、声音或结构组成。例如，丹麦语、挪威语和瑞典语在很大程度上是互通的，因为它们来源相同，并且彼此之间有很多相似之处。此外，一种语言可能有各种各样的方言，它们有共同的基本语言元素、词汇或结构组成，但在其他方面可能有所不同。这些细微的差别使得提高语言识别的准确性和效率成为一件困难的事。

鉴于上述问题，这个申请提供了稳健的语言识别方法，装置和系统。

发明内容

本申请的一方面是一种确定语音信号对应的语言ID的方法。该方法包括：接收所述语音信号；将所述语音信号分割成多个音频帧；提取所述多个音频帧的特征；对所述多个音频帧中的每一个音频帧，利用神经网络确定与语言ID相关的变量和所述语音信号的一个或多个辅助属性；基于所述提取的特征确定所述多个音频帧的评分；以及基于确定的所述多个音频帧的变量和评分确定所述语音信号的语言ID。

本申请的另一个方面是针对确定语音信号对应的语言ID的系统。所述系统包括含有指令的内存。该系统还包括被配置为执行所述指令的处理器，用于：接收所述语音信号；将所述语音信号分割成多个音频帧；提取所述多个音频帧的特征；对所述多个音频帧中的每一个音频帧，利用神经网络确定与语言ID相关的变量和所述语音信号的一个或多个辅助属性；基于所述提取的特征确定所述多个音频帧的评分；以及基于确定的所述多个音频帧的变量和评分确定所述语音信号的语言ID。

本申请还有一个方面是一种非暂时性计算机可读介质，该非暂时性计算机可读介质存储指令，当所述指令被一个或多个处理器执行时，使处理器执行一种确定语音信号对应的语音ID的方法。所述方法包括：接收所述语音信号；将所述语音信号分割成多个音频帧；提取所述多个音频帧的特征；对所述多个音频帧中的每一个音频帧，利用神经网络确定与语言ID相关的变量和所述语音信号的一个或多个辅助属性；基于所述提取的特征确定所述多个音频帧的评分；以及基于确定的所述多个音频帧的变量和评分确定所述语音信号的语言ID。

附图说明

图1是根据示例性实施例示出的一种语音识别系统的方块图；

图2是根据示例性实施例示出的一种语音识别装置的方块图；

图3是根据示例性实施例示出的一种语音识别方法的流程图；

图4是根据示例性实施例示出的一种深度神经网络(DNN)分析过程的流程图；

图5是根据示例性实施例示出的一种语音识别确定过程的流程图；

图6是根据示例性实施例示出的训练图2所示的语音识别装置中使用的DNN模块和帧评分模块的示意图。

具体实施方式

本申请中所述的用于识别的“语言”可以包括不互通的语言(如汉语、英语、西班牙语等)、方言(比如普通话和广东话)和口音(比如英式口音和美式口音)。因此，本申请披露的语言识别方法和系统可以识别由音频信号表示的语言、方言和/或口音。

本申请关于稳健的语言识别方法和系统。如下文详细的描述所述，本申请公开的方法和系统将接收到的音频信号分成多个音频帧，并使用多任务机器学习来提高确定音频帧中声学特性的准确度。此外，本申请公开的方法和系统会给多个音频帧赋予置信度或分数，在识别音频信号中的语言时，分数更高的音频帧将被赋予更高的权重。

图1是根据示例性实施例示出的一种语音识别系统100的方块图。根据图1，系统100包含语言识别装置110、网络120、多个使用者终端130和控制台140。

语言识别装置110能被配置为基于从一系列输入的音频信号中提取的特征，识别所述语音信号相对应的语言。如图1所示，除了其他部分，语言识别装置110可以包括内存111、处理器113、存储器115、输入/输出(I/O)接口117和通讯接口119。语言识别装置110中至少一些组件可以被配置为传输数据，并在彼此之间发送或接收指令。在一些实施例中，语言识别装置110可以安装为控制台140的一部分，或者作为服务管理系统的一部分，例如出租车服务管理平台。在其他一些实施例中，它的功能也可以体现在安装于使用者终端上的出租车服务应用程序的一部分。

处理器113包括任何适当类型的通用或专用微处理器、数字信号处理器或微控制器。处理器113可以被配置为单独的处理器模块，专门用于识别语言并输出识别结果。另外，处理器113可以被配置为共享处理器模块，用于执行与语言识别无关的其他功能。

处理器113可以被配置为从系统100的其他组件接收数据和/或信号以执行语言识别。例如，处理器113可以通过，例如I/O接口117，与控制面板140进行信息交换，以接收指令和输出识别结果。识别后，处理器113还可以接收来自控制面板140的指令，以执行功能，例如将识别结果存储到数据库、更新用户帐户记录，或进一步将识别结果输出到相应的使用者终端130。

处理器113还可以访问通过通讯接口119传输的信息。例如，处理器113可以接收来自使用者终端130的语音通话记录，或通过网络120传输的两个不同使用者终端之间的通讯。识别输入音频信号对应的语言后，处理器113可以在接收到控制面板140的指令后通过网络120将识别结果发送给相应的使用者终端130。

处理器113可以执行存储在内存111和/或存储器115的计算机指令(如程序代码)，并可以按照本申请描述的示例性实施例执行功能。更多处理器113的示例性功能将在后文的图2至6相关部分展开描述。

内存111和存储器115可以包括任何合适类型的大容量存储器，用于存储处理器113需要操作的任何类型的信息。内存111和存储器115可以是不稳定、稳定的、磁性的、半导体的、磁带的、光学的、可移动的、不可移动的、或其他类型的储存装置或有形的(即非暂时性的)计算机可读介质，包括但不限于只读内存(ROM)、闪存、动态随机存取内存(RAM)和静态RAM。内存111和/或存储器115可以被配置为存储一个或多个由处理器113执行的计算机程序，以执行本申请公开的语言识别方法。

内存111和/或存储器115可以被进一步配置为存储处理器113使用的信息和数据。例如，内存111和/或存储器115可以存储来自使用者终端130的音频记录、在语言识别过程中生成的数据、以及最终的处理结果。

I/O界面117可以被配置为促进语言识别装置110和控制面板140之间的通信。例如，如上所述，语言识别装置110可以通过I/O接口117向控制面板140提供识别结果，用于更新客户档案或保存记录。语言识别装置110也可接收来自控制面板140的有关语言识别性能、或是进一步将识别结果输出到相应的使用者终端130的指令。

通讯接口119可以被配置为通过网络120与使用者终端130通信。网络120可以是任何允许传输和接收数据的有线或无线网络。例如，网络120可以是有线网络，本地无线网络(例如，蓝牙TM、WiFi、近距离通讯(NFC)等等)，蜂窝网络，因特网，或者类似物，或者其任意组合。其他已知的提供传输数据介质的通信方法也可以被考虑在内。

使用者终端130可以是任何通过网络120接收和递送信息的终端装置，例如，装有出租车服务应用程序的移动电话，诸如笔记本电脑或台式计算机的计算机，个人数字助理(PDA)，平板计算机，智能手表等等。使用者终端130可以被配置为通过网络120接收和记录音频信号以及传输信息。例如，用户可以通过他或她移动电话上的应用程序输入信息，发起或参与到与另一个使用者终端130的对话。移动电话可以作为接收语音录音的使用者终端130，所述语音录音可以被递送至语言识别装置110进行语言识别。在出租车服务内容中，使用者终端130也可以包括乘客终端和司机终端，两者都能接收输入的录音信号并将其通过网络120递送给语言识别装置110。

使用者终端130进一步包括一台显示器，可以是液晶显示器、LED、等离子显示器或其他任何类型的显示器，并提供图形用户界面(GUI)，所述用户界面供使用者输入和数据显示。例如，在出租车服务情境中，显示器可以在各自的终端上显示乘客和司机的帐户信息，也可以显示语言识别结果。

控制面板140进一步包括多个组件，并可作为服务提供商的综合管理系统的一部分，该系统记录语言识别结果，并执行与语言识别不直接相关的功能。控制面板140可以与语言识别装置110通过I/O接口通讯，以发送指令和接收识别结果等。在出租车服务情境中，控制台140可以进一步包括其他组件，如存储与客户相对应的语言识别结果的数据库和处理器，所述处理器可以处理订单和调度与能与客户用识别出的语言交流的可用司机，或者将客户订单转移给可以用所识别的语言与客户沟通并提供所要求的服务或信息的服务人员。其他组件和它们的功能并不与语言识别直接相关，不在此详述。

图2是是根据示例性实施例示出的一种语音识别装置200的方块图。如图2所示，语言识别装置200包括预处理器201、帧分割器203、特征提取器205、深度神经网络(DNN)模块207、帧评分模块209、乘法器211和语言ID分析器213。

预处理模块201被配置为预处理使用者终端130接收的语音信号。所述预处理可以包括从语音信号中去除环境噪声或背景噪声和/或移除语音信号中的无声或未发声的部分。如果存在来自多个使用者终端的语音信号，预处理可以进一步包括选择对应特定使用者终端130的语音信号，所述选择可以基于对应的用户文件中的信息，例如，信道信息、终端信息或性别信息。

帧分割器203被配置为将预处理的语音信号分割成多个音频帧，以进一步处理每个音频帧。参照如下所述图3，帧大小和帧移位会因语音内容和长度或系统配置而不同。

特征提取器205被配置为提取每个帧的特征。从数理上讲，从一个帧中提取的特征是多维特征向量。可以使用在语音或说话者识别技术中使用的各种现有特征提取技术。例如，特征提取模块将被配置为提取广泛用于语音识别的梅尔频率倒谱系数(MFCC)，和其他特征，包括i-向量、滤波器组(FBANK)特性、线性预测系数(LPC)、或者线性预测倒谱系数(LPCC)等等。提取的特征将被输入DNN模块207，具体地，被输入DNN的特征输入层。此外，根据可能的目标语言，反映语音信号的不同特征的声学特征会被DNN模块207提取。

在一些实施例中，多个特征会一起作为DNN特征的输入。例如，在一些实施例中，滤波器组特征和i-向量共同被特征提取器205提取，并用作DNN输入。滤波器组是一种常用的特征提取技术。滤波器组是一种带通滤波器数组，它将输入信号分成多个组成，分别代表各自的频率子带。然后每个组成都会成为特征向量的一个维度。

i-向量也能被提取以作为DNN模块207的其他输入。i-向量提取最初是为说话者识别或验证任务而开发的。在i-向量的框架中，低维空间被构造，每句话语都由称为i-向量的低维特征向量表示。i-向量是特定于说话者的，并且不会因帧而异。它为DNN提供了说话者的特征，并使DNN可以相应的调整自己。

DNN模块207被配置为获取语言身份(ID)的概率分布，也就是音频帧与多个语言中的每一个对应的相似度。它可以使用多个目标语言的数据进行训练，如图6所示。DNN是一个在输入层和输出层之间有多个隐藏层的人工神经网络。特征提取器205提取的每个帧的特征都将输入到特征输入层。输入层和输出层之间的隐藏层数会不同。每个隐藏层的参数可以在训练阶段学习并调整。DNN可以包括一个或多个softmax层，输出由DNN建模的senones的概率分布。不同语言的senones可以包含在相同softmax层中。在一些其他的实施例中，每一个softmax层可以是特定的语言，也就是说，每个语言的senones可以包含在与特定语言相对应的单独的softmax层中。在一些实施例中，DNN模块207使用的神经网络是卷积神经网络(CNN)。CNN可以认为是DNN的子类型。CNN使用卷积层和池层，卷积层是进行大部分计算的关键构件。在CNN中，隐藏层中的神经元只会被连接到它前面的一个小区域，而不是像传统神经网络中完全连接所有的神经元。CNN还使用共享权重和偏差的概念，这与完全连接的神经网络相比将大大减少涉及的参数数量。CNN进一步使用池的概念。池层通常在卷积层之后立即使用，并用于简化卷积层输出的信息。在语言识别领域，与其他类型的神经网络相比，CNN已经表现出了对声音失真和通道失真更强的稳健性。

另外，DNN模块207还将执行多任务学习，其中DNN被训练为用于多个任务，即产生多种类型的输出。DNN学习的主要任务是生成语言的ID概率分布。DNN还将被训练为用于一个或多个辅助任务，例如确定与语音信号相关的信道信息、说话者信息或噪声信息。多任务学习是一种不需要输入额外数据、提高认知或识别精准度的非常有用的技术。当辅助任务被明智地选择时，多任务学习可以帮助提升语言识别系统的稳健性，并获得更好的识别性能。

在一些实施例中，虽然通过提取语言识别相关的属性获取语言ID概率分布是主要任务，DNN模块207也能提取其他辅助属性，例如信号的信道属性、麦克风属性、信号背景或环境、说话者的性别信息、或发声器官(如嘴和鼻子)和麦克风之间的距离。信道属性是指输入信号的传输介质，例如，输入信号可以由不同的电信服务提供商(如

或

)传输。输入信号还可以通过特定的麦克风输入。与麦克风相关的辅助属性包括麦克风的模型、制造商、声音质量、噪声水平等。此外，辅助属性还包括关于信号输入的背景环境的信息，反映信号在何处获得，例如获取自车辆内、在家里或在街道上的装置。例如，在不同环境中获得的音频信号中包含的背景噪声的特征是不同的。说话人的性别信息是另一个有用的辅助属性，因为来自不同性别的人的语音信号包含不同的基频。另外，声源或发声者的声音器官与麦克风之间的距离是另一个有用的辅助属性。虽然DNN模块207最终可以不将辅助属性的结果与语言识别结果一起输出，但是同时确定语言ID和辅助属性可以提高DNN语言识别的精准度(即所述主要任务)，例如，通过基于辨别出的与语言ID不相关的属性来调整生成的语言ID概率分布。

在一些实施例中，在训练期间，多任务学习可以通过配置DNN来实现，使DNN包括与语言模型构造相对应的识别输出和反映辅助属性的辅助输出。然后，可以通过减少或消除输入语音信号的辅助属性的影响，来将辅助输出反馈至模型参数的调整中。

帧评分模块209基于音频帧提取的特征确定每个音频帧的评分。如下详述，分数代表了确定语音信号的语言ID时赋予每个音频帧的权重。与所公开的实施例相一致，不同的语言可以使用不同的声音/用语、音素、音调、字母、强调、特定的语法、语音或文体元素，或其他区分语言的特征。帧评分模块209将基于该帧是否包括这样特定语言的特征分配给每个音频帧对应的分数。例如，如果音频帧中包含的提取的特征不是特定于语言的，或者是由不同语言共享的，那么该音频帧在语言识别中可能不会被认为是重要的，因此会被分配一个低的分数/权重。

例如，某些声音，如“um”、“er”、“uh”，或某些单词的读音，如“mom”，可能不是只在一种特定的语言中使用，而是以非常相似的方式使用。包含声音元素的音频帧可能对识别说什么语言没有太多帮助。换句话说，基于这些音频帧确定的语言ID是可信的。因此，这些音频帧可以据此被分配一个相对较低的分数/权重或不分配分数/权重。相反，一些声音元素可能只用在一种特定、或者非常有限的几种语言中使用。在语言识别方面，包括这种区分声音元素的音频帧更加重要和有区分性。例如，音素

写为

(r-hacek)，可能是捷克语特有的声音，对于外国人来说可能很难发音。一些阿拉伯语的发音可能只存在于阿拉伯语中。此外，在普通话等语言中也存在着声调，例如汉语和不同方言在同一汉字的发音上也有不同的声调。包括这些区别性声音元素的音频帧可以被赋予更高的权重，因为它们更有助于识别所说的语言。

在公开的实施例中，帧评分模块209还可以用对应多个不同语言的大量语言数据来训练，使它可以精确地将相应的得分/权重分配给音频帧。在实施例中，训练期间，帧评分模块209可以获得从训练数据中提取特征，并确定所提取的特征在多个语言中的统计分布。然后，进行回归分析，从统计分布中拟合评分函数。评分函数衡量特征的语言特殊性程度。也就是说，如果统计中某些特征仅出现在特定语言的训练数据中，该特征会被赋予最高分数；如果统计中某些特征由一小部分不同语言共有，该特征会被赋予中等分数；如果统计中某些特征由大量不同语言共有，该特征会被赋予较低的分数。因此，在语言识别阶段，帧评分模块209可以用经过训练的评分功能来基于从音频帧中提取的特征计算音频帧的分数。

在另实施例中，对于大量不同语言中的每种语言对应的训练数据，可以使用任何适当的聚类技术，例如k-均值聚类方法将从多个音频帧中提取的特征或特征向量聚类成一个或多个聚类。所述一个或多个聚类可以形成所述多个语言中每一种语言的“特征库”。在语言识别阶段，“距离函数”可以用来确定音频帧中提取的特征或特征向量被从划分在一个聚类中的程度。然后，可以使用评分函数，例如Softmax函数来基于所述程度计算分散。特别是如果提取的特征落在其中一个聚类中，帧评分模块209可以得出音频帧是特定语言的结论，并给该音频帧赋高分。相反，如果提取的特征不能被划分在一个聚类中，帧评分模块209会得出音频帧不是特定语言的结论，并给该音频帧赋低分。

乘法器211将由DNN模块207输出的语言ID概率分布与由帧评分模块209输出的分数相乘，以计算每个帧的加权语言ID概率分布。

语言ID分析器213被配置为基于多个音频帧的加权语言ID分布生成语言识别结果。具体来说，语言ID分析器213可以确定多个音频帧上加权语言ID分布的平均值，并选择具有最高概率的语言作为输出的被识别的语言ID。

如上所述，计算出的每个音频帧的分数是在确定语音信号的语言ID的过程中赋予帧的权重。该分数可以作为置信值，用于表示每个帧确定的语言ID概率分布的可靠性。因此，对帧进行评分可以提高语言识别的稳健性。

图3是实施例根据示例性实施例示出的一种语音识别方法300的流程图；例如，如图2所示，语言识别装置200可以执行方法300。根据图3，方法200包括下述301-315的步骤。

步骤301，语言识别装置200接收语音信号输入。如上述图1部分的解释，该输入的语音信号可以从使用者终端130通过网络120传输。例如，在出租车服务情境中，使用者终端130可以用来司机和乘客的语音讲话。例如，使用者终端130可以是乘客用的移动电话。乘客可以用安装在移动电话上的应用程序要求出租车服务、报告问题，或请求用户的帐户记录信息。移动电话可以作为使用者终端130接收记录用户语音的语音信号，所述语音信号会通过网络120被传输至语言识别装置200进行语言识别。又例如，当被司机使用时，使用者终端130可用于记录司机和乘客之间的会话，并将所述会话记录发送到用于识别乘客所说的语言的语言识别装置200。

步骤303，预处理器201对接收到的语音信号进行预处理。如上述图2所解释的，预处理可以包括从语音信号过滤背景或环境噪声、提取(即，去除无声或静音部分)语音信号、检测说话人的性别等。预处理使语音信号“更纯粹”，从而减少了后续语言识别的工作量。例如，语音信号的静音部分是不产生语音的部分，而语音信号的无声部分是语音信号中波形在本质上是随机或非周期的部分，因为语音和弦不振动。删除静音和/或无声部分使方法300更有效。又例如，在方法300中的机器学习阶段，可以利用性别信息更好地设置学习模型的参数。

步骤305，在对语音信号进行预处理之后，帧分割器203将语音信号分割为多个重迭的音频帧。每个帧的大小和帧移位可能会有所不同，取决于信号的质量、长度和内容或系统要求。帧必须足够长，以使语音信号的特征稳定或基本恒定。例如，20-30ms的窗口大小可以使语音帧中的频率分辨率和语音信号的平稳性之间有良好的平衡。帧移位通常可以固定在帧大小的一半左右。也就是说，帧大小和帧移位的特定选择通常是面向特定应用的。本申请不限制如何分割语音信号。

步骤307，特征提取器205提取每个帧的特征。根据上述图2所解释的，可以提取不同的特征以输入DNN模块207，例如滤波器组特征、MFCC特征和i-向量，这些特征的细节在此不再重复。

步骤309，步骤307中从每个帧中提取的特征被输入到DNN模块207以确定一个或多个语言的概率。根据上述图2所描述的，DNN模块207使用机器学习模型学习输入特征，所述机器学习模型由基于多个语言对应的语言数据训练训练。。机器学习模块可以是一个DNN。DNN分析的输出对应每个帧的语言ID概率分布。在一些实施例中，所述DNN可以是一个多任务CNN，它不仅决定语言ID概率分布，而且还确定语音信号的其他属性，如辅助属性。虽然其他属性的结果最终不会由DNN模块207输出，但在CNN学习过程中加入辅助任务可以提高CNN主要任务的精确度，例如确定语言ID概率分布。

步骤311，步骤307中从每个帧中提取的特征也被发送到帧评分模块209，以计算相应帧的分数或权重。上文图2部分的描述详述了帧评分的细节。此处不再重复。

步骤313，根据为每个帧确定的分数和生成的语言ID概率分布，语言识别装置200生成每个帧的加权语言ID概率分布。如上文图2部分的描述，这可以由乘法器211执行。

步骤315，在步骤313中生成多个帧的加权语言ID概率分布之后，语言ID分析器213将结果组合并确定语音信号的语言ID。具体来说，在一些实施例中，语言ID分析器213可以计算多个帧上加权语言ID概率分布的平均值，并选择与最高加权概率相关的语言作为方法300的输出。

图4是实施例根据示例性实施例示出的一种DNN分析过程400的流程图。与公开的实施例相一致，过程400对应于语言识别方法300的步骤309，并且可以由语言识别装置200执行。

步骤401，DNN模块207接收由特征提取器205从音频帧中提取的特征。

步骤403，作为DNN分析的主要任务，DNN模块207学习所述提取的特征以确定与帧相关的语言ID概率分布。

步骤405，作为DNN分析的辅助任务，DNN模块207还包括提取与语言ID概率分布不直接相关、但可能影响语言ID概率分布生成的辅助属性，例如上文图2部分所述的说话者性别、信号信道等。具体细节如上文图2所述，不在此重复。

步骤407，DNN模块207基于辅助属性调整所确定的语言ID概率分布。例如，可以包括消除辅助属性对确定语言ID概率分布的影响，从而提高确定语言ID概率分布的精准度。例如，在一些实施例中，多任务学习可以通过联合预测声学模型和纯粹特征来实现训练的正规化，这已经被证明可以改进在噪声数据上训练的声学模型。具体而言，多任务学习可以将网络配置为具有两个输出，一个用来预测声学模型，另一个用来预测用于去噪目的的纯粹特征。多任务学习部分可以表现为后面是线性输出层的两个完全连接的DNN层。这些层只在训练期间使用，之后可以丢弃。在训练期间，分别对从两个输出回传的梯度进行加权。在一些其他实施例中，DNN模块207可以包括两个DNN，一个DNN执行辅助任务，例如估计trigrapheme后验概率，所述估计结果将被输入第二个DNN，作为语言识别的附加输入。

图5是实施例根据示例性实施例示出的一种语音识别确定过程500的流程图。与公开的实施例相一致，过程500对应于语言识别方法300的步骤315，并且可以由语言识别装置200的语言ID分析器213执行。

步骤501，语言ID分析器213从乘法器211中接收多个音频帧的加权语言ID概率分布。

步骤503，语言ID分析器213可以确定语言的概率是否是显性的。具体来说，语言ID分析器213可以计算多个音频帧的加权语言ID分布的平均值。语言ID分析器213可以将语言与最高平均加权概率进行比较，例如，“语言A”与预先设定的概率。如果最高平均加权概率高于或等于预定概率，则语言ID分析器213继续到步骤505。否则，执行步骤507。在步骤505中，语言ID分析器213确定语言A是在输入语音信号中使用的语言，并结束语言识别过程。步骤507中，语言ID分析器213接受新的音频帧的加权语言ID概率分布，并返回步骤503。

根据过程500，在语言ID分析器213确定某语言对应的平均加权概率是显性的之后，就不再有所述语音信号的音频帧。这样，在不影响识别精度的情况下，可以减少计算量。

图6是实施例根据示例性实施例示出的训练DNN模块和帧评分模块209的示意图。根据图6，DNN模块207和帧评分模块209都用与多个潜在目标语言，即语言1、2……N对应的大量的语言数据来训练。DNN模块207的训练包括输入以相应的语言ID标注的语言数据。例如，如果DNN模块207使用DNN，则DNN的输入层接收标记的训练数据。该方法利用隐藏层中不同的权重和函数对标记的训练数据进行处理，并将输出结果与已知的语言ID进行比较。然后，错误通过DNN回传，DNN然后会相应地调整权重，这个过程反复发生，每次都更新和细化权重。有许多针对DNN训练的不同算法已被开发，其中最常用的是反向传播算法。如上所述，在一些实施例中，训练期间，可以结合多任务学习技术来规范DNN以提高建模性能。

仍然参考图6，由于训练日期的语言特殊性未知，不能用标注语言特殊性程度的数据来训练帧评分模块209。如上所述，在实施例中，可以对从不同语言对应的训练数据中提取的语言标识和特征进行回归分析，以拟合基于所提取的特征计算分数的评分函数。在另实施例中，对与每种语言相对应的训练数据，可以提取特征并将其聚类为一个或多个聚类。在此之后，可以根据从音频帧中提取的特征或特征向量能被划分到其中一个聚类的程度来对音频帧进行评分。

本申请的另一方面是针对存储指令的非暂时性计算机可读介质，所述指令在被执行时使得一个或多个处理器执行上面讨论的语言识别方法。所述计算机可读介质包括不稳定或稳定的、磁性的、半导体的、磁带的、光学的、可移动的、不可移动或其他类型的计算机可读介质或计算机可读存储设备。例如，如所公开的，计算机可读介质是其上存储有计算机指令的存储单元或内存模块。在一些实施例中，计算机可读介质是其上存储有计算机指令的盘或闪存驱动器。

通过这里公开的语言识别方法、装置和系统，语言识别可以更稳健地确定。这里公开的技术可以在各个领域使用。例如，在出租车服务情境中，如果客户以某种语言呼叫和请求服务，系统可以迅速识别客户所讲的语言，调度一名讲同一种语言的司机接电话、或者将请求传递给可以说同一种语言的客户代表来处理客户请求，以更好地满足客户的需要。此外，该系统还可以将语言识别结果存储在相应的客户档案中，以供将来参考和其他统计分析。

本领域技术人员显然可以对所公开的语言识别系统和相关方法进行各种修改和变化。考虑到所公开的语言识别系统和相关方法的说明和实践，其他实施例对于本领域技术人员将是显而易见的。本申请中的说明书和示例仅出于示例性目的，真正的范围由以下权利要求及其等价物定义。

Claims

1.一种用于确定语音信号对应的语言ID的方法，包括：

接收所述语音信号；

将所述语音信号分割成多个音频帧；

提取所述多个音频帧的特征；

对所述多个音频帧中的每一个音频帧，利用神经网络确定与语言ID相关的变量和所述语音信号的一个或多个辅助属性，所述语音信号的一个或多个辅助属性用于调整所述语言ID相关的变量；

基于提取的所述特征确定所述多个音频帧的评分；以及

基于确定的多个音频帧的所述变量和所述评分确定所述语音信号的语言ID。

2.根据权利要求1所述的方法，其特征在于，所述变量表明与语言ID相关的概率。

3.根据权利要求1所述的方法，其特征在于，所述辅助属性对应说话人的性别、声源与麦克风之间的距离、背景信息、噪声状况、信道信息，或麦克风信息中的一个或多个。

4.根据权利要求1所述的方法，其特征在于，所述神经网络是卷积神经网络。

5.根据权利要求1所述的方法，其特征在于，所述提取的特征包括滤波器组(FBANK)特性、i-向量，或梅尔频率倒谱系数(MFCC)。

6.根据权利要求1所述的方法，其特征在于，所述基于多个音频帧的变量和评分确定语音信号的语言ID包括：

基于所述多个音频帧的评分计算出的所述变量的加权平均值；以及

基于所述加权平均值确定的语音信号的语言ID。

7.根据权利要求1所述的方法，其特征在于，所述基于提取的特征确定多个音频帧的评分包括：

提取训练数据的特征，所述训练数据对应多种语言；

对从所述训练数据中提取到的特征和训练数据的语言ID进行回归分析；

基于回归分析构造评分函数；以及

基于所述评分函数确定所述多个音频帧的评分。

8.根据权利要求1所述的方法，其特征在于，所述基于提取的特征确定多个音频帧的评分包括：

提取训练数据的特征，所述训练数据对应多种语言；

将从所述训练数据中提取到的特征聚类生成多个聚类；

将所述多个音频帧中提取到的特征分类至所述多个聚类；以及

基于所述分类确定多个音频帧的评分。

9.一种用于确定语音信号相对应的语言ID的系统，包括：

含有指令的内存；以及

被配置为执行所述指令的处理器，所述处理器用于；

接收所述语音信号；

将所述语音信号分割成多个音频帧；

提取所述多个音频帧的特征；

基于提取的所述特征确定所述多个音频帧的评分；以及

10.根据权利要求9所述的系统，其特征在于，所述变量表示与语言ID相关的概率。

11.根据权利要求9所述的系统，其特征在于，所述辅助属性对应说话人的性别、声源与麦克风之间的距离、背景信息、噪声状况、信道信息，或麦克风信息中的一个或多个。

12.根据权利要求9所述的系统，其特征在于，所述神经网络是卷积神经网络。

13.根据权利要求9所述的系统，其特征在于，所述提取的特征包括滤波器组(FBANK)特性、i-向量，或梅尔频率倒谱系数(MFCC)。

14.根据权利要求9所述的系统，其特征在于，所述处理器被进一步配置为执行所述指令以用来：

基于所述加权平均值确定的语音信号的语言ID。

15.根据权利要求9所述的系统，其特征在于，所述处理器被进一步配置为执行所述指令以用来：

提取训练数据的特征，所述训练数据对应多种语言；

基于回归分析构造评分函数；以及

基于所述评分函数确定所述多个音频帧的评分。

16.根据权利要求9所述的系统，其特征在于，所述处理器被进一步配置为执行所述指令以用来：

提取训练数据的特征，所述训练数据对应多种语言；

将从所述训练数据中提取到的特征聚类生成多个聚类；

基于所述分类确定多个音频帧的评分。

17.一种非暂时性计算机可读介质，该非暂时性计算机可读介质存储指令，当所述指令被一个或多个处理器执行时，使处理器执行一种确定语音信号对应的语言ID的方法，所述方法包括：

接收所述语音信号；

将所述语音信号分割成多个音频帧；

提取所述多个音频帧的特征；

基于提取的所述特征确定所述多个音频帧的评分；以及

18.根据权利要求17所述的非暂时性计算机可读介质，其特征在于，所述基于确定的所述多个音频帧的变量和评分确定所述语音信号的语言ID包括：

基于所述加权平均值确定的语音信号的语言ID。

19.根据权利要求17所述的非暂时性计算机可读介质，其特征在于，所述基于所述提取的特征确定所述多个音频帧的评分包括：

提取训练数据的特征，所述训练数据对应多种语言；

基于回归分析构造评分函数；以及

基于所述评分函数确定所述多个音频帧的评分。

20.根据权利要求17所述的非暂时性计算机可读介质，其特征在于，所述基于所述提取的特征确定所述多个音频帧的评分的步骤包括：

提取训练数据的特征，所述训练数据对应多种语言；

将从所述训练数据中提取到的特征聚类生成多个聚类；

基于所述分类确定多个音频帧的评分。