CN106228980B

CN106228980B - 数据处理方法和装置

Info

Publication number: CN106228980B
Application number: CN201610581652.8A
Authority: CN
Inventors: 李先刚; 丁科
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-07-21
Filing date: 2016-07-21
Publication date: 2019-07-05
Anticipated expiration: 2036-07-21
Also published as: CN106228980A

Abstract

本申请提出一种数据处理方法和装置，该数据处理方法包括：获取训练数据，所述训练数据包括：语音数据及对应的标注结果；根据所述训练数据生成第一声学模型；采用所述第一声学模型对所述训练数据进行语音识别，得到识别结果；根据所述标注结果和所述识别结果，确定所述训练数据属于的类别。该方法能够自动对训练数据进行分类，以避免人工抽检方式存在的问题。

Description

数据处理方法和装置

技术领域

本申请涉及语音识别技术领域，尤其涉及一种数据处理方法和装置。

背景技术

声学模型的性能对语音识别的性能会造成很大影响，而训练数据的规模和质量又会影响声学模型的性能。尤其当拥有大规模的训练数据后，如何控制训练数据的质量成为亟待解决的问题。

用于声学模型训练的训练数据通常包括语音数据和对应的标注数据，标注数据通常是人工标注得到的。但是，人工标注会存在一定的错误率，甚至在验收时也并不要求全部正确，例如要求准确率在95％以上即可。因此，训练数据中会包含一定的标注错误的数据。此外，训练数据中还会存在语音质量不佳的数据，例如非语音或低信噪比的语音。这些标注错误的数据或者质量不佳的数据都会严重影响声学模型的性能。

为了保证声学模型的性能，相关技术中，采用人工抽检的方式识别出上述的标注错误或质量不佳的数据，并用过滤掉这些数据后的剩余的训练数据训练生成声学模型。但是，人工抽检方式会存在费时费力等问题。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种数据处理方法，该方法可以自动对训练数据进行分类，以避免人工抽检方式存在的问题。

本申请的另一个目的在于提出一种数据处理装置。

为达到上述目的，本申请第一方面实施例提出的数据处理方法，包括：获取训练数据，所述训练数据包括：语音数据及对应的标注结果；根据所述训练数据生成第一声学模型；采用所述第一声学模型对所述训练数据进行语音识别，得到识别结果；根据所述标注结果和所述识别结果，确定所述训练数据属于的类别。

本申请第二方面实施例提出的数据处理方法，通过根据训练数据生成第一声学模型，采用第一声学模型对训练数据进行语音识别，以及比较识别结果与标注结果，可以自动完成训练数据的分类，相对于人工方式，可以提高效率，节省时间。

为达到上述目的，本申请第二方面实施例提出的数据处理装置，包括：获取模块，用于获取训练数据，所述训练数据包括：语音数据及对应的标注结果；生成模块，用于根据所述训练数据生成第一声学模型；识别模块，用于采用所述第一声学模型对所述训练数据进行语音识别，得到识别结果；分类模块，用于根据所述标注结果和所述识别结果，确定所述训练数据属于的类别。

本申请第二方面实施例提出的数据处理装置，通过根据训练数据生成第一声学模型，采用第一声学模型对训练数据进行语音识别，以及比较识别结果与标注结果，可以自动完成训练数据的分类，相对于人工方式，可以提高效率，节省时间。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一个实施例提出的数据处理方法的流程示意图；

图2是本申请另一个实施例提出的数据处理方法的流程示意图；

图3是本申请实施例中采用的DNN的结构示意图；

图4是本申请一个实施例提出的数据处理装置的结构示意图；

图5是本申请另一个实施例提出的数据处理装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本申请一个实施例提出的数据处理方法的流程示意图。

如图1所示，本实施例的方法包括：

S11：获取训练数据，所述训练数据包括：语音数据及对应的标注结果。

其中，可以收集尽量多的语音数据，并对语音数据进行人工标注，得到标注结果。

收集的语音数据可能包括一些语音质量不佳的数据，如非语音数据、低信噪比的语音数据。

人工标注时，可能会存在一定的标注错误。

因此，由于训练数据中可能包括语音质量不佳的数据或标注结果为错误的数据，会影响训练数据的质量。

S12：根据所述训练数据生成第一声学模型。

其中，可以采用已有的声学模型的训练方式进行处理，由训练数据训练生成声学模型，为了与后续的声学模型区分，该声学模型可以称为第一声学模型。

当训练数据的质量不佳时，根据训练数据生成的第一声学模型的质量也存在一定问题。

如果直接将第一声学模型用于语音识别，则会影响语音识别的准确度。

S13：采用所述第一声学模型对所述训练数据进行语音识别，得到识别结果。

其中，在语音识别时除了使用声学模型，还可以使用其他模型，如语言模型。另外，在语音识别时还可以包括其他步骤，如声学特征提取。可以理解的是，本申请主要是针对声学模型的处理，因此语音识别中未特别说明的其他模型或步骤可以采用已有或将来出现的技术实现。

S14：根据所述标注结果和所述识别结果，确定所述训练数据属于的类别。

其中，训练数据属于的类别可以分为两类，具体可以称为第一类别和第二类别。当所述标注结果与所述识别结果一致时，所述训练数据属于第一类别，当所述标注结果与所述识别结果不一致时，所述训练数据属于第二类别。

比如，第一组训练数据包括第一语音数据和第一标注结果，采用第一声学模型对第一语音数据进行语音识别后得到的识别结果是第一识别结果，如果第一识别结果与第一标注结果相同，则表明第一组训练数据属于第一类别，此时的训练数据可以称为干净的训练数据，反之，当训练数据属于第二类别时，该训练数据可以称为不干净的训练数据。

本实施例中，通过根据训练数据生成第一声学模型，采用第一声学模型对训练数据进行语音识别，以及比较识别结果与标注结果，可以自动完成训练数据的分类，相对于人工方式，可以提高效率，节省时间。

在上述对训练数据进行分类时，通过比对识别结果和标注结果确定出的第二类别的训练数据(不干净的训练数据)，一种可能是训练数据本身的确质量不佳，另一种可能是第一声学模型存在问题，在识别时出现错误，将实际上属于第一类别的训练数据误判为第二类别的训练数据。由于上述确定出的第二类别的训练数据中可能存在大量的误判数据，因此，如果在重新构建声学模型时直接过滤掉上述确定出的第二类别的训练数据，就会降低训练数据的规模，丢失大量的准确的训练数据，这同样会影响声学模型的质量。为此保证声学模型的质量，本申请还给出如下实施例。

图2是本申请另一个实施例提出的数据处理方法的流程示意图。

参见图2，本实施例的方法包括：

S21：获取训练数据，所述训练数据包括：语音数据及对应的标注结果。

S22：根据所述训练数据生成第一声学模型。

S23：采用所述第一声学模型对所述训练数据进行语音识别，得到识别结果。

S24：根据所述标注结果和所述识别结果，确定所述训练数据属于的类别。

S21-S24的具体内容可以参见S11-S14，在此不再详细说明。

S25：根据属于第一类别的训练数据进行决策树聚类，确定建模单元。

为了将协同发音现象(Coarticulation)融入建模中，上下文相关的建模单元(Context Dependent Modeling Units,CD uinits)是一个很好的选择。上下文的选择方法有很多，最常见的是三音素建模单元，也就是考虑左上文右下文各一个音素，加上中心音子形成三音素对。

上下文相关建模大大提高了建模的准确性，但是同时也使得模型数量急剧膨胀，使得模型的可训练性大大降低。为了解决这一问题，就需要引入某些聚类算法来减少模型中需要训练的参数。

本实施例中采用的聚类算法是决策树聚类算法。

经过聚类后，可以解码过程的基本单元，也就是建模单元。建模单元可以是多种层次的，比如聚类后的状态，状态是比音素更小的单元，通常三个状态对应一个音素。

与通常的决策树聚类确定建模单元不同的是，本实施例中，采用第一类的训练数据进行聚类，而不是通常采用的不区分类别的训练数据。由于不区分类别的训练数据中可能会存在质量不佳的数据，如果采用不区分类别的训练数据确定建模单元会影响声学模型的质量。而本实施例中，通过根据第一类的训练数据进行聚类，可以避免被质量不佳的训练数据影响，保证建模单元的准确，进而保证声学模型的质量。

S26：构建包含第一输出层和第二输出层的神经网络。

声学模型的形式有多种，本实施例中选择神经网络形式的声学模型。

神经网络例如是深度神经网络(Deep Neural Networks,DNN)。

如图3所示，DNN包括输入层、隐层和输出层。

通常来讲，DNN包括一个输入层、多个隐层和一个输出层。

与通常的DNN不同的是，本实施例中，输出层有两个，分别称为第一输出层和第二输出层。

在声学模型训练时，输入层的参数是对语音数据进行声学特征提取后得到的声学特征，输出层包括与建模单元个数相同的节点，每个节点对应一个建模单元。隐层的层数及每层包括的节点数可设置。

本实施例中，第一输出层和第二输出层包括相同个数的节点，且每个输出层的每个节点均分别对应一个建模单元。

例如，建模单元是N个，则第一输出层和第二输出层分别包括N个节点，且每个节点分别对应一个建模单元。

S27：采用第一类别的训练数据训练第一输出层，采用第二类别的训练数据训练第二输出层，生成第二声学模型。

在构建出图3所示的DNN后，可以根据训练数据对其进行训练，以生成声学模型。

在训练时，每个输出层对应一种类别的训练数据，比如，当输入是第一类别的训练数据时，输出选择第一输出层的输出。

进一步的，不同类别的训练数据在训练时，可以采用多任务学习机制。

多任务学习早期的研究工作源于对机器学习中的一个重要问题，即“归纳偏置(inductive bias)”问题的研究。机器学习的过程可以看作是对与问题相关的经验数据进行分析，从中归纳出反映问题本质的模型的过程。归纳偏置的作用就是用于指导学习算法如何在模型空间中进行搜索，搜索所得模型的性能优劣将直接受到归纳偏置的影响，而任何一个缺乏归纳偏置的学习系统都不可能进行有效的学习。不同的学习算法(如决策树，神经网络，支持向量机等)具有不同的归纳偏置，人们在解决实际问题时需要人工地确定采用何种学习算法，实际上也就是主观地选择了不同的归纳偏置策略。一个很直观的想法就是，是否可以将归纳偏置的确定过程也通过学习过程来自动地完成，也就是采用“学习如何去学(learning to learn)”的思想。多任务学习恰恰为上述思想的实现提供了一条可行途径，即利用相关任务中所包含的有用信息，为所关注任务的学习提供更强的归纳偏置。受上述思想的启发，R.Caruana对多任务学习的相关问题，如什么是多任务学习，该学习范式是否可行、为什么可行、在什么情况下可行等进行了初步的分析。1997年，其主要研究成果发表于国际机器学习界的权威刊物《Machine Learning》，标志着多任务学习这一机器学习概念的正式提出。当然，随着技术的发展，多任务学习的研究越来越深入，具体的多任务学习的内容可以参见已有或将来出现的各种技术。

通过上述流程生成第二声学模型后，可以将第二声学模型用于后续的语音识别。相应的，在语音识别时，该方法还可以包括：

S28：采用第二声学模型进行语音识别，其中，将每个建模单元对应的第一输出层的得分与第二输出层的得分进行加权求和后，确定为每个建模单元的后验概率得分。

在语音识别时，声学模型用于将语音转换为建模单元(如状态、音素等)，在转换时，是确定每个建模单元的后验概率得分，将得分最高的建模单元确定为语音对应的建模单元，完成语音到建模单元的转换。

本实施例中，由于存在两个输出层，在计算上述得分时，采用的是加权求和的方式。比如，两个输出层均包括N个节点，分别对应N个建模单元，假设第一个建模单元对应的第一输出层的得分是S1，第一个建模单元对应的第二输出层的得分是S2，则第一个建模单元的最终的经过声学模型处理后的得分是a*S1+b*S2，其中，a和b是两个加权值，可设置，例如均为0.5。

本实施例中，通过根据训练数据生成第一声学模型，采用第一声学模型对训练数据进行语音识别，以及比较识别结果与标注结果，可以自动完成训练数据的分类，相对于人工方式，可以提高效率，节省时间。通过根据第一类别的训练数据进行聚类，确定建模单元，可以避免质量不佳的训练数据对聚类结果的影响，提高建模单元的准确度，进而提高声学模型的质量。通过构建两个输出层的神经网络，并采用多任务学习机制训练生成声学模型，可以充分利用第二类别的训练数据中的有用信息，提高声学模型的质量。通过加权求和得到后验概率得分，可以提高识别准确度。

图4是本申请一个实施例提出的数据处理装置的结构示意图。

如图4所示，本实施例的装置40包括：获取模块41、生成模块42、识别模块43和分类模块44。

获取模块41，用于获取训练数据，所述训练数据包括：语音数据及对应的标注结果；

生成模块42，用于根据所述训练数据生成第一声学模型；

识别模块43，用于采用所述第一声学模型对所述训练数据进行语音识别，得到识别结果；

分类模块44，用于根据所述标注结果和所述识别结果，确定所述训练数据属于的类别。

一些实施例中，所述类别包括：

第一类别和第二类别；

其中，当所述标注结果与所述识别结果一致时，所述训练数据属于第一类别，当所述标注结果与所述识别结果不一致时，所述训练数据属于第二类别；

一些实施例中，参见图5，所述装置40还包括：

确定模块45，用于根据属于第一类别的训练数据进行聚类，确定建模单元。

一些实施例中，聚类具体是决策树聚类。

一些实施例中，参见图5，所述装置40还包括：

构建模块46，用于构建包含第一输出层和第二输出层的神经网络；

训练模块47，用于采用第一类别的训练数据训练第一输出层，采用第二类别的训练数据训练第二输出层，生成第二声学模型；

其中，所述第一输出层和所述第二输出层包含相同个数的节点，且每个节点分别对应一个建模单元。

一些实施例中，所述训练模块47具体用于：

采用多任务学习机制，采用第一类别的训练数据训练第一输出层，采用第二类别的训练数据训练第二输出层，生成第二声学模型。

一些实施例中，参见图5，所述装置40还包括：

得分计算模块48，用于将每个建模单元对应的第一输出层的得分与第二输出层的得分进行加权求和后，确定为每个建模单元的后验概率得分。

可以理解的是，本实施例的装置与上述方法实施例对应，具体内容可以参见方法实施例的相关描述，在此不再详细说明。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种数据处理方法，其特征在于，包括：

获取训练数据，所述训练数据包括：语音数据及对应的标注结果；

根据所述训练数据生成第一声学模型；

采用所述第一声学模型对所述训练数据进行语音识别，得到识别结果；

根据所述标注结果和所述识别结果，确定所述训练数据属于的类别；

所述类别包括：

第一类别和第二类别；

还包括：

根据属于第一类别的训练数据进行聚类，确定建模单元。

2.根据权利要求1所述的方法，其特征在于，所述聚类包括：

决策树聚类。

3.根据权利要求1所述的方法，其特征在于，还包括：

构建包含第一输出层和第二输出层的神经网络；

采用第一类别的训练数据训练第一输出层，采用第二类别的训练数据训练第二输出层，生成第二声学模型；

4.根据权利要求3所述的方法，其特征在于，所述采用第一类别的训练数据训练第一输出层，采用第二类别的训练数据训练第二输出层，生成第二声学模型，包括：

5.根据权利要求3所述的方法，其特征在于，还包括：

将每个建模单元对应的第一输出层的得分与第二输出层的得分进行加权求和后，确定为每个建模单元的后验概率得分。

6.一种数据处理装置，其特征在于，包括：

获取模块，用于获取训练数据，所述训练数据包括：语音数据及对应的标注结果；

生成模块，用于根据所述训练数据生成第一声学模型；

识别模块，用于采用所述第一声学模型对所述训练数据进行语音识别，得到识别结果；

分类模块，用于根据所述标注结果和所述识别结果，确定所述训练数据属于的类别；

所述类别包括：

第一类别和第二类别；

所述装置还包括：

确定模块，用于根据属于第一类别的训练数据进行聚类，确定建模单元。

7.根据权利要求6所述的装置，其特征在于，还包括：

构建模块，用于构建包含第一输出层和第二输出层的神经网络；

训练模块，用于采用第一类别的训练数据训练第一输出层，采用第二类别的训练数据训练第二输出层，生成第二声学模型；

8.根据权利要求7所述的装置，其特征在于，所述训练模块具体用于：

9.根据权利要求7或8所述的装置，其特征在于，还包括：

得分计算模块，用于将每个建模单元对应的第一输出层的得分与第二输出层的得分进行加权求和后，确定为每个建模单元的后验概率得分。