CN104464757A

CN104464757A - 语音评测方法和语音评测装置

Info

Publication number: CN104464757A
Application number: CN201410587120.6A
Authority: CN
Inventors: 朱群; 何春江; 胡阳
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2014-10-28
Filing date: 2014-10-28
Publication date: 2015-03-25
Anticipated expiration: 2034-10-28
Also published as: CN104464757B

Abstract

本发明公开了一种语音评测方法，包括：获取语音数据，并对语音数据进行解码以获取语音解码数据；对语音解码数据进行分析以生成评估参数；通过多个映射模型分别对评估参数进行评估以生成多个评估得分；以及根据多个评估得分生成最终评估得分。本发明实施例的方法通过多种不同类型的映射模型综合评估用户的发音好坏，克服了单映射模型评测存在的打分不稳定性问题，保证系统稳定性的同时，也提高了系统评测的效果。本发明还公开了一种语音评测装置。

Description

语音评测方法和语音评测装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音评测方法和语音评测装置。

背景技术

随着语音识别技术的不断成熟，涉及到信号处理、自然语音理解、人工智能、数据挖掘和机器学习等多个学科的智能语音评测技术也得到了越来越广泛的应用。例如，智能辅助教学系统班班通项目在各中小学的推广，普通话口语考试系统在全国的普及等。其中，智能语音评测就是利用计算机自动地或半自动地对人的语音进行标准程度的评估和发音缺陷的检测。如何提高系统的稳定性、评测打分的准确性是智能语音评测的关键，也受到了越来越多的关注。

目前，语音评测方法是基于传统的映射模型以确定用户输入的语音内容，并依据此内容计算声学、语言学特征；然后，系统基于某一通用打分模型，运用上述信息和特征计算最终评测结果。其具体流程如图1所示：步一：输入评测试卷和用户朗读的语音数据；步二：使用声学模型和语言模型进行语音解码，如通过受限语法网络的切分识别，或者通过大词汇量的语音识别；步三：根据识别结果、声学信息，进行发音好坏、语法、语音的正确度的评估分析；步四：系统使用预先训练好的专家知识或打分模型，与步三的发音质量、语法、语义等特征相运算，通过某种线性或非线性的映射模型映射出对应的分数。

目前，传统的语音评测方法主要存在以下几个缺点：

1)由于任何一种映射模型只能做到全局最优，而非局部最优，所以在评分时仅采用单一的映射模型评测方法，无法拟合覆盖到所有的数据，从而对系统的稳定性造成很大的影响；

2)在实际的应用和正规的口语考试中，一定会存在一些系统无法正确评测的数据。然而，如何准确的定位并找出这些异常数据并提交人工复审是非常重要的事情，这对于传统的单映射模型评测方法来说，较难实现。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的一个目的在于提出一种语音评测方法。该方法克服了单映射模型评测存在的打分不稳定性问题，保证系统稳定性的同时，也提高了系统评测的效果。

本发明的另一个目的在于提出一种语音评测装置。

为了实现上述目的，本发明一方面实施例的语音评测方法，包括：获取语音数据，并对所述语音数据进行解码以获取语音解码数据；对所述语音解码数据进行分析以生成评估参数；通过多个映射模型分别对所述评估参数进行评估以生成多个评估得分；以及根据所述多个评估得分生成最终评估得分。

根据本发明实施例的语音评测方法，可先对获取到的语音数据进行解码以获取语音解码数据，之后可对语音解码数据进行分析以生成评估参数，并通过多个映射模型分别对评估参数进行评估以生成多个评估得分，以及根据多个评估得分生成最终评估得分，即通过多种不同类型的映射模型综合评估用户的发音好坏，克服了单映射模型评测存在的打分不稳定性问题，保证系统稳定性的同时，也提高了系统评测的效果。

为了实现上述目的，本发明另一方面实施例的语音评测装置，包括：第一获取模块，用于获取语音数据，并对所述语音数据进行解码以获取语音解码数据；第一生成模块，用于对所述语音解码数据进行分析以生成评估参数；第二生成模块，用于通过多个映射模型分别对所述评估参数进行评估以生成多个评估得分；以及第三生成模块，用于根据所述多个评估得分生成最终评估得分。

根据本发明实施例的语音评测装置，可通过第一获取模块获取语音数据，并对语音数据进行解码以获取语音解码数据，第一生成模块对语音解码数据进行分析以生成评估参数，第二生成模块通过多个映射模型分别对评估参数进行评估以生成多个评估得分，第三生成模块根据多个评估得分生成最终评估得分，即通过多种不同类型的映射模型综合评估用户的发音好坏，克服了单映射模型评测存在的打分不稳定性问题，保证系统稳定性的同时，也提高了系统评测的效果。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是传统的语音评测方法的流程图；

图2是根据本发明一个实施例的语音评测方法的流程图；

图3是根据本发明一个实施例的语音评测方法的流程图；

图4是根据本发明一个实施例的语音评测装置的结构示意图；

图5是根据本发明另一个实施例的语音评测装置的结构示意图；

图6是根据本发明又一个实施例的语音评测装置的结构示意图；以及

图7是根据本发明再一个实施例的语音评测装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述根据本发明实施例的语音评测方法和语音评测装置。

图2是根据本发明一个实施例的语音评测方法的流程图。如图2所示，该语音评测方法可以包括：

S201，获取语音数据，并对语音数据进行解码以获取语音解码数据。

其中，在本发明的实施例中，语音解码数据可包括声学特征信息和语言学特征信息。声学特征信息可包括音高、音长、音强和音色；语音学特征信息可包括但不限于语音、语法、词汇、语义等。

例如，可先获取用户根据评测试卷进行朗读时的语音数据，之后可通过现有技术中的声学模型和语言模型分别对该语音数据进行语音解码以获取对应的声学特征和语言学特征，如受限语法网络的切分识别，或者大词汇量的语音识别等。其中，在本发明的实施例中，声学模型可为语音识别系统中最为重要部分之一，如隐马尔科夫模型；语言模型是根据语言客观事实而进行的语言抽象数学建模，是一种对应关系，语言模型与语言客观事实之间的关系，如同数学上的抽象直线与具体直线之间的关系。

S202，对语音解码数据进行分析以生成评估参数。

具体地，对语音解码数据进行发音好坏、语法、语音的正确度等方面的评估分析，之后可将分析结果作为评估参数，如发音质量、语法正确率、语义正确率等。

S203，通过多个映射模型分别对评估参数进行评估以生成多个评估得分。

其中，在本发明的实施例中，多个映射模型可包括线性的Linear Regression映射模型、非线性的支持向量机SVM映射模型和Cart回归树映射模型等中的两种或多种。

需要说明的是，在本发明的实施例中，针对同一批评估参数(用于评估和描述用户发音、语法、语义正确性的参数)，可使用多个不同类型的映射模型分别对其进行评估。此过程类似于考试现场，针对一个考生的语音数据由多个专家分别进行评分，考生的最终得分通过综合考虑多个专家的得分确定，此过程可以避免出现打分过低、过高等打分不稳定的现象。因此，此过程专家的数量越多，考生最终的得分越可靠，数量一般在3个以上。由此，可通过多映射模型的方法，提高了映射模型的正确性和稳定性。

S204，根据多个评估得分生成最终评估得分。

具体而言，在本发明的实施例中，通过预设得分策略根据多个评估得分生成最终评估得分。其中，在本发明的实施例中，预设得分策略可为对多个评估得分求平均分、或对多个评估得分求最高分、或对多个评估得分求中间分数的平均值等，预设得分策略还可为将采用线性的映射模型来生成的评估得分作为最终评估得分。

图3是根据本发明一个实施例的语音评测方法的流程图。

需要说明的是，由于每种映射模型在拟合数据时均只能做到全局最优，无法兼顾到所有的数据，所以当具有这些模型未考虑到的数据在有些应用场景下(如正规的口语考试等)得到异常评估得分时，需要检测出该异常数据并将其提交人工复审。此类异常数据的多少直接决定了一个评测系统的评分性能的好坏。为此，为了提高评测系统的评分性能，在本发明的实施例中，可对该异常评估得分进行筛选。具体地，如图3所示，该语音评测方法可以包括：

S301，获取语音数据，并对语音数据进行解码以获取语音解码数据。

S302，对语音解码数据进行分析以生成评估参数。

S303，通过多个映射模型分别对评估参数进行评估以生成多个评估得分。

其中，在本发明的实施例中，多个映射模型可包括线性的Linear Regression映射模型、非线性的支持向量机SVM映射模型和Cart回归树映射模型等中的两种或多种

S304，获取多个评估得分中的异常评估得分。

具体地，在通过多个映射模型分别对评估参数进行评估以生成多个评估得分之后，可根据预设规则获取该多个评估得分中的异常评估得分。应当理解，预设规则可根据具体的实际应用场景确定。下面可通过两个实施例对根据预设规则获取该多个评估得分中的异常评估得分进行进一步描述。

在本发明的一个实施例中，获取多个评估得分中的异常评估得分具体包括：判断多个评估得分中是否存在两两差值大于第一预设阈值的评估得分；如果存在两两差值大于第一预设阈值的评估得分，则将存在两两差值大于第一预设阈值的评估得分作为异常评估得分。例如，同一份语音数据在通过不同映射模型进行评估时来得到的多个评估得分，该多个评估得分中存在两两差值大于第一预设阀值时，可确定该语音数据为异常数据，并可将存在两两差值大于第一预设阀值的那两个评估得分作为异常评估得分。又如，若有一种映射模型对某个语音数据进行评估后得到的评估得分与其他各映射模型对该某个语音数据进行评估后得到的评估得分分差较大，则可认为该映射模型得到的评估得分为异常评估得分，该某个语音数据为异常数据。

在本发明的另一个实施例中，根据多个评估得分生成基准评估得分；判断多个评估得分中是否存在与基准评估得分的差值大于第二预设阈值的评估得分；以及如果存在与基准评估得分的差值大于第二预设阈值的评估得分，则将与基准评估得分的差值大于第二预设阈值的评估得分作为异常评估得分。具体地，可对多个评估得分求平均，之后可将得到的平均值作为基准评估得分。之后，可判断多个评估得分中是否存在与基准评估得分的差值大于第二预设阀值的评估得分。若某一种映射模型的评估得分与基准评估得分的差值大于第二预设阀值(如差值大于百分制的30分)，则可将该映射模型的评估得分作为异常评估得分。

S305，对异常评估得分进行筛选。

例如，可将异常评估得分从多个评估得分中筛选出来，之后可提取出该异常评估得分对应的语音数据以进行人工校验。

S306，根据多个评估得分生成最终评估得分。

根据本发明实施例的语音评测方法，在通过多个映射模型分别对评估参数进行评估以生成多个评估得分之后，可根据预设规则获取该多个评估得分中的异常评估得分，并对异常评估得分进行筛选，之后可提取出该异常评估得分对应的语音数据以进行人工校验，通过预设规则可有效地检测出评分异常的数据。

此外，本发明还提出一种语音评测装置。

图4是根据本发明一个实施例的语音评测装置的结构示意图。如图4所示，该语音评测装置可以包括：第一获取模块10、第一生成模块20、第二生成模块30和第三生成模块40。

具体地，第一获取模块10可用于获取语音数据，并对语音数据进行解码以获取语音解码数据。其中，在本发明的实施例中，语音解码数据可包括声学特征信息和语言学特征信息。声学特征信息可包括音高、音长、音强和音色；语音学特征信息可包括但不限于语音、语法、词汇、语义等。

例如，第一获取模块10可先获取用户根据评测试卷进行朗读时的语音数据，之后可通过现有技术中的声学模型和语言模型分别对该语音数据进行语音解码以获取对应的声学特征和语言学特征，如受限语法网络的切分识别，或者大词汇量的语音识别等。其中，在本发明的实施例中，声学模型可为语音识别系统中最为重要部分之一，如隐马尔科夫模型；语言模型是根据语言客观事实而进行的语言抽象数学建模，是一种对应关系，语言模型与语言客观事实之间的关系，如同数学上的抽象直线与具体直线之间的关系。

第一生成模块20可用于对语音解码数据进行分析以生成评估参数。更具体地，第一生成模块20对语音解码数据进行发音好坏、语法、语音的正确度等方面的评估分析，之后可将分析结果作为评估参数，如发音质量、语法正确率、语义正确率等。

第二生成模块30可用于通过多个映射模型分别对评估参数进行评估以生成多个评估得分。其中，在本发明的实施例中，多个映射模型可包括线性的Linear Regression映射模型、非线性的支持向量机SVM映射模型和Cart回归树映射模型等中的两种或多种。

第三生成模块40可用于根据多个评估得分生成最终评估得分。具体而言，在本发明的实施例中，第三生成模块40可通过预设得分策略根据多个评估得分生成最终评估得分。其中，在本发明的实施例中，预设得分策略可为对多个评估得分求平均分、或对多个评估得分求最高分、或对多个评估得分求中间分数的平均值等，预设得分策略还可为将采用线性的映射模型来生成的评估得分作为最终评估得分。

进一步的，在本发明的一个实施例中，如图5所示，该语音评测装置还可包括第二获取模块50和筛选模块60。第二获取模块50可用于获取多个评估得分中的异常评估得分。具体地，在第三生成模块40通过多个映射模型分别对评估参数进行评估以生成多个评估得分之后，第二获取模块50可根据预设规则获取该多个评估得分中的异常评估得分。应当理解，预设规则可根据具体的实际应用场景确定。下面可通过两个实施例对根据预设规则获取该多个评估得分中的异常评估得分进行进一步描述。

在本发明的一个实施例中，如图6所示，该第二获取模块50可包括第一判断单元51和第一获取单元52。第一判断单元51可用于判断多个评估得分中是否存在两两差值大于第一预设阀值的评估得分。第一获取单元52可用于在存在两两差值大于第一预设阀值的评估得分时，将存在两两差值大于第一预设阀值的评估得分作为异常评估得分。例如，同一份语音数据在通过不同映射模型进行评估时来得到的多个评估得分，在第一判断单元51判断该多个评估得分中存在两两差值大于第一预设阀值时，第一获取单元52可确定该语音数据为异常数据，并可将存在两两差值大于第一预设阀值的那两个评估得分作为异常评估得分。又如，若有一种映射模型对某个语音数据进行评估后得到的评估得分与其他各映射模型对该某个语音数据进行评估后得到的评估得分分差较大，则第一获取单元52可认为该映射模型得到的评估得分为异常评估得分，该某个语音数据为异常数据。

在本发明的另一个实施例中，如图7所示，该第二获取模块50可包括生成单元53、第二判断单元54和第二获取单元55。

具体地，生成单元53可用于根据多个评估得分生成基准评估得分。更具体地，生成单元53可对多个评估得分求平均，之后可将得到的平均值作为基准评估得分。

第二判断单元54可用于判断多个评估得分中是否存在与基准评估得分的差值大于第二预设阀值的评估得分。第二获取单元55可用于在存在与基准评估得分的差值大于第二预设阀值的评估得分时，将与基准评估得分的差值大于第二预设阀值的评估得分作为异常评估得分。例如，若某一种映射模型的评估得分与基准评估得分的差值大于第二预设阀值(如差值大于百分制的30分)，则第二获取单元55可将该映射模型的评估得分作为异常评估得分。

筛选模块60可用于对异常评估得分进行筛选。例如，筛选模块60可将异常评估得分从多个评估得分中筛选出来，之后可提取出该异常评估得分对应的语音数据以进行人工校验。由此，通过预设规则可有效地检测出评分异常的数据。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音评测方法，其特征在于，包括以下步骤：

获取语音数据，并对所述语音数据进行解码以获取语音解码数据；

对所述语音解码数据进行分析以生成评估参数；

通过多个映射模型分别对所述评估参数进行评估以生成多个评估得分；以及

根据所述多个评估得分生成最终评估得分。

2.如权利要求1所述的语音评测方法，其特征在于，在所述通过多个映射模型分别对所述评估参数进行评估以生成多个评估得分之后，还包括：

获取所述多个评估得分中的异常评估得分；以及

对所述异常评估得分进行筛选。

3.如权利要求2所述的语音评测方法，其特征在于，所述获取所述多个评估得分中的异常评估得分具体包括：

判断所述多个评估得分中是否存在两两差值大于第一预设阈值的评估得分；

如果存在两两差值所述大于第一预设阈值的评估得分，则将所述存在两两差值大于所述第一预设阈值的评估得分作为异常评估得分。

4.如权利要求2所述的语音评测方法，其特征在于，所述获取所述多个评估得分中的异常评估得分具体包括：

根据所述多个评估得分生成基准评估得分；

判断所述多个评估得分中是否存在与所述基准评估得分的差值大于第二预设阈值的评估得分；以及

如果存在与所述基准评估得分的差值大于所述第二预设阈值的评估得分，则将所述与所述基准评估得分的差值大于所述第二预设阈值的评估得分作为异常评估得分。

5.如权利要求1所述的语音评测方法，其特征在于，所述根据所述多个评估得分生成最终评估得分具体包括：

通过预设得分策略根据所述多个评估得分生成最终评估得分。

6.如权利要求1所述的语音评测方法，其特征在于，所述多个映射模型包括LinearRegression映射模型、支持向量机SVM映射模型和Cart回归树映射模型中的至少两种。

7.一种语音评测装置，其特征在于，包括：

第一获取模块，用于获取语音数据，并对所述语音数据进行解码以获取语音解码数据；

第一生成模块，用于对所述语音解码数据进行分析以生成评估参数；

第二生成模块，用于通过多个映射模型分别对所述评估参数进行评估以生成多个评估得分；以及

第三生成模块，用于根据所述多个评估得分生成最终评估得分。

8.如权利要求7所述的语音评测装置，其特征在于，还包括：

第二获取模块，用于获取所述多个评估得分中的异常评估得分；以及

筛选模块，用于对所述异常评估得分进行筛选。

9.如权利要求8所述的语音评测装置，其特征在于，所述第二获取模块包括：

第一判断单元，用于判断所述多个评估得分中是否存在两两差值大于第一预设阀值的评估得分；

第一获取单元，用于在存在两两差值所述大于第一预设阀值的评估得分时，将所述存在两两差值大于所述第一预设阀值的评估得分作为异常评估得分。

10.如权利要求8所述的语音评测装置，其特征在于，所述第二获取模块包括：

生成单元，用于根据所述多个评估得分生成基准评估得分；

第二判断单元，用于判断所述多个评估得分中是否存在与所述基准评估得分的差值大于第二预设阀值的评估得分；以及

第二获取单元，用于在存在与所述基准评估得分的差值大于所述第二预设阀值的评估得分时，将所述与所述基准评估得分的差值大于所述第二预设阀值的评估得分作为异常评估得分。

11.如权利要求7所述的语音评测装置，其特征在于，所述第三生成模块具体用于：

12.如权利要求7所述的语音评测装置，其特征在于，所述多个映射模块包括LinearRegression映射模型、支持向量机SVM映射模型和Cart回归树映射模型中的至少两种。