CN104464755B

CN104464755B - 语音评测方法和装置

Info

Publication number: CN104464755B
Application number: CN201410723109.8A
Authority: CN
Inventors: 宋碧霄; 朱群; 张儒瑞; 刘飞
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2014-12-02
Filing date: 2014-12-02
Publication date: 2018-01-16
Anticipated expiration: 2034-12-02
Also published as: CN104464755A

Abstract

本发明提出一种语音评测方法和装置，其中，所述语音评测方法，包括：接收待测语音数据；对待测语音数据进行语音识别，以获取语音识别数据；对语音识别数据进行分析，以检测待测语音数据是否为异常语音数据；根据检测结果生成待测语音数据的评测结果。本发明的语音评测方法，能够对异常语音进行检测和识别，从而可从待测语音中剔除异常语音，使之不参与正常语音的评测，极大的降低了异常语音对评测结果影响，提高评估结果的准确性，满足用户的评测需求，提升用户体验。

Description

语音评测方法和装置

技术领域

本发明涉及语音评测技术领域，特别涉及一种语音评测方法和装置。

背景技术

随着语音识别技术的不断成熟，涉及到信号处理、自然语音理解、人工智能、数据挖掘和机器学习等多个学科的智能语音评测技术也得到了越来越广泛的应用。

但是，在进行语音评测的过程中，由于环境的干扰等因素，评测语音中可能会包括一些录制到的非正常的语音，即异常语音，例如：在用户并不知道语音评测已经开始的情况下，可能录制到与评测内容无关的语音，如聊天、唱歌、敲桌子等的声音。此外，在语音录制的过程中也可能会录取到如喷话筒、环境噪音等异常语音。这些异常语音会对评测内容所对应的正常语音的评测过程起到干扰，而是正常语音的评测结果不准确。

目前，语音评测方法主要对基于评测语音的声学特征对评测语音进行语音识别，然后对根据识别结果对评测语音进行发音好坏、语法、语音的正确度的分析，以得到评测语音的音段评估特征，并根据预先建立的评测映射模型进行分析计算得到评测结果。因此，目前的语音评测方法并未对与评测内容无关的异常语音进行检测，而将异常语音作为与评测内容相应的正常语音。但是对于用户来说，更希望在这种情况下能够得到提醒，从而避免异常语音对评测的影响。因此，目前的语音评测方法，并不能对异常语音进行检测并进行提示，因而难以满足用户的这种需求，并且受到异常语音的影响，评测的准确性不稳定，用户体验差。

发明内容

本发明旨在至少在一定程度上解决上述技术问题。

为此，本发明的第一个目的在于提出一种语音评测方法，极大的降低了异常语音对评测结果影响，提高评估结果的准确性，满足用户的评测需求，提升用户体验。

本发明的第二个目的在于提出一种语音评测装置。

为达上述目的，根据本发明第一方面实施例提出了一种语音评测方法，包括：接收待测语音数据；对所述待测语音数据进行语音识别，以获取语音识别数据；对所述语音识别数据进行分析，以检测所述待测语音数据是否为异常语音数据；根据检测结果生成所述待测语音数据的评测结果。

本发明实施例的语音评测方法，通过对待测语音数据进行语音识别，并对获取的语音识别数据进行分析，以检测待测语音数据是否为异常语音数据，并根据检测结果生成评测结果，在评测过程中，能够对异常语音进行检测和识别，从而可从待测语音中剔除异常语音，使之不参与正常语音的评测，极大的降低了异常语音对评测结果影响，提高评估结果的准确性，满足用户的评测需求，提升用户体验。

本发明第二方面实施例提供了一种语音评测装置，包括：接收模块，用于接收待测语音数据；识别模块，用于对所述待测语音数据进行语音识别，以获取语音识别数据；检测模块，用于对所述语音识别数据进行分析，以检测所述待测语音数据是否为异常语音数据；生成模块，用于根据检测结果生成所述待测语音数据的评测结果。

本发明实施例的语音评测装置，通过对待测语音数据进行语音识别，并对获取的语音识别数据进行分析，以检测待测语音数据是否为异常语音数据，并根据检测结果生成评测结果，在评测过程中，能够对异常语音进行检测和识别，从而可从待测语音中剔除异常语音，使之不参与正常语音的评测，极大的降低了异常语音对评测结果影响，提高评估结果的准确性，满足用户的评测需求，提升用户体验。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的语音评测方法的流程图；

图2为根据本发明一个实施例的第二语音声学模型的建立方法的流程图；

图3为根据本发明一个实施例的语音评测装置的结构示意图；

图4为根据本发明一个具体实施例的语音评测装置的结构示意图；

图5为根据本发明另一个实施例的语音评测装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“多个”指两个或两个以上；术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

下面参考附图描述根据本发明实施例的语音评测方法和装置。

图1为根据本发明一个实施例的语音评测方法的流程图。如图1所示，根据本发明实施例的语音评测方法，可包括：

S101，接收待测语音数据。

举例来说，待测语音数据可以是在用户进行语音评测时，用户录入的语音数据。

S102，对待测语音数据进行语音识别，以获取语音识别数据。

具体地，在本发明的一个实施例中，在对待测语音数据进行语音识别的过程中，首先，需要获取根据待测语音数据对应的文本内容构建解码网络，其中，解码网络是以该文本内容中的音素(即文本内容中的韵母、音节、声母等)为节点，音素之间的连接关系为弧的有向图。

然后，提取待测语音数据的声学特征信息。其中，声学特征信息可包括但不限于基频、能量、幅值等。并通过现有技术中的声学模型对待测语音根据声学特征信息进行音段切分，即将待测语音中的发声部分(即有效人声录入对应的录音部分)和未发声部分(例如，在录音刚开始时，没有有效人声录入时的录音空档期对应的录音部分)进行切分，从而得到具有发声内容的音段。

最后，可根据声学模型和语言模型，基于上述解码网络对待测语音中具有发声内容的音段进行解码，使得待测语音与对应的文本内容进行对齐，得到语音识别数据。其中，语音识别数据包括待测语音数据的声学特征信息和语言学特征信息。语音学特征信息可包括但不限于语音、语法、词汇、语义等，可通过与文本内容进行对齐后获得。

其中，在本发明的实施例中，声学模型可为语音识别系统中最为重要部分之一，如HMM(Hidden Markov Model，隐马尔科夫模型)；语言模型是根据语言客观事实而进行的语言抽象数学建模，是一种对应关系，语言模型与语言客观事实之间的关系，如同数学上的抽象直线与具体直线之间的关系。

S103，对语音识别数据进行分析，以检测待测语音数据是否为异常语音数据。

在本发明的一个实施例中，对语音识别数据进行分析可包括：首先，对语音识别数据进行分析，以获取待测语音数据的音段评估特征和异常模型特征。然后，根据音段评估特征和异常模型特征分析待测语音数据是否为异常语音数据。

其中，音段评估特征是指能够评估待测语音数据相对于对应的文本内容正确与否的、用于评估待测语音数据好坏的，即与该文本内容的相似度的一些基本特征，可根据具体评测题型以及需求以选择不同的音段评估特征。举例来说，音段评估特征可包括但不限于单词命中率、发音质量、语法正确率、语义正确率等。具体地，可将语音识别数据与待测语音数据对应的文本内容进行比对分析，从而得到待测语音数据的音段评估特征。

异常模型特征是指能够评估待测语音数据与异常语音的相似度的一些特征，也可根据不同的需求选取不同的异常模型特征。举例来说，异常模型特征可包括但不限于根据异常语音模型计算得到的似然度、后验概率等。具体地，可将语音识别数据的音频特征与异常语音数据的音频特征进行比对分析，从而得到待测语音数据的异常模型特征。

然后，可根据分类器对音段评估特征和异常模型特征进行整合分析，并根据分析结果判断待测语音数据是否为异常语音数据。分类器可以是能够依据分类特征将数据进行分类的任意一种分类器。具体地，可获取到的音段评估特征和异常模型特征整合为分类器的分类特征，然后通过分类器根据整合成的分类特征进行分类，即可将待测语音数据分类为异常语音或者非异常语音(正常语音)。

以SVM(Support Vector Machine，支持向量机)分类方法为例，可将音段评估特征和异常模型特征整合为SVM的分类特征矩阵，然后，可通过SVM方法根据该分类特征矩阵得到待测语音数据为异常语音或者为非异常语音(正常语音)。

其中，可通过第一语音声学模型对语音识别数据进行分析，以获取待测语音数据的音段评估特征，并可通过第二语音声学模型对语音识别数据进行分析，以获取待测语音数据的异常模型特征。

在本发明的一个实施例中，第一语音声学模型根据收集的正常语音数据训练得到，即现有技术中，用于语音评测所适用的声学模型，在此不再详细说明。第二语音声学模型根据收集到的异常语音数据训练得到。具体地，第二语音声学模型可通过如图2所示的步骤建立。如图2所示，建立第二语音声学模型的方法，包括以下步骤：

S201，获取异常语音数据的训练集合。

在本发明的实施例中，可通过收集、整理不同类别的异常语音数据来获取异常语音数据的训练集合。例如，可收集英语口语评测系统中的普通话、唱歌、方言、咳嗽、笑声、物体撞击等异常语音数据分别收集整理，从而得到异常语音数据的训练集合。

S202，分别提取异常语音数据的训练集合中异常语音数据的声学特征。

具体地，可根据现有技术中提取声学特征的方法，分别提取异常语音数据的训练集合中各个异常语音数据的声学特征，从而得到异常语音的音频、能量等特征。

S203，根据提取到的声学特征训练第二语音声学模型。

具体地，可根据任意一种常用的声学模型的建模方法，针对异常语音数据的声学特征构建异常语音声学模型，即第二语音声学模型。举例来说，可采用但不局限与目前比较主流的HTK(HMM Tool Kit，隐马尔科夫模型工具集)来建模以训练第二语音声学模型。

S104，根据检测结果生成待测语音数据的评测结果。

在本发明的一个实施例中，如果待测语音数据为异常语音，则得到异常语音评测结果，并可直接输出。即，可输出异常语音输入提示或向用户反馈异常语音输入警告，以提示用户输入了异常语音，或者输出评测结果为0分/不合格等，也可以是预先设定的异常语音对引擎的其他输出结果。

如果待测语音数据为非异常语音数据，即正常语音数据，则可根据语音识别数据获取待测语音数据的音段评估特征，并通过评测映射模型对音段评估特征进行评估，以得到待测语音数据的评估得分。此外，还可将评估得分提供给用户，以使用户得到评测结果。具体的通过评测映射模型对音段评估特征进行评估的方法，可参考现有技术，本发明在此不再赘述。

为了实现上述实施例，本发明还提出一种语音评测装置。

图3为根据本发明一个实施例的语音评测装置的结构示意图。

如图3所示，根据本发明实施例的语音评测装置，包括：接收模块10、识别模块20、检测模块30和生成模块40。

具体地，接收模块10用于接收待测语音数据。

识别模块20用于对待测语音数据进行语音识别，以获取语音识别数据。

更具体地，在本发明的一个实施例中，在对待测语音数据进行语音识别的过程中，首先，识别模块20需要获取根据待测语音数据对应的文本内容构建解码网络，其中，解码网络是以该文本内容中的音素(即文本内容中的韵母、音节、声母等)为节点，音素之间的连接关系为弧的有向图。

然后，识别模块20提取待测语音数据的声学特征信息。其中，声学特征信息可包括但不限于基频、能量、幅值等。并通过现有技术中的声学模型对待测语音根据声学特征信息进行音段切分，即将待测语音中的发声部分(即有效人声录入对应的录音部分)和未发声部分(例如，在录音刚开始时，没有有效人声录入时的录音空档期对应的录音部分)进行切分，从而得到具有发声内容的音段。

最后，识别模块20可根据声学模型和语言模型，基于上述解码网络对待测语音中具有发声内容的音段进行解码，使得待测语音与对应的文本内容进行对齐，得到语音识别数据。其中，语音识别数据包括待测语音数据的声学特征信息和语言学特征信息。语音学特征信息可包括但不限于语音、语法、词汇、语义等，可通过与文本内容进行对齐后获得。

检测模块30用于对语音识别数据进行分析，以检测待测语音数据是否为异常语音数据。

在本发明的一个实施例中，如图4所示，检测模块30具体包括第一分析单元31和第二分析单元32。

更具体地，第一分析单元31用于对语音识别数据进行分析，以获取待测语音数据的音段评估特征和异常模型特征；

其中，第一分析单元31可通过第一语音声学模型对语音识别数据进行分析，以获取待测语音数据的音段评估特征，并可通过第二语音声学模型对语音识别数据进行分析，以获取待测语音数据的异常模型特征。

第二分析单元32用于根据音段评估特征和异常模型特征分析待测语音数据是否为异常语音数据。

在本发明的一个实施例中，第二分析单元32可根据分类器对音段评估特征和异常模型特征进行整合分析，并根据分析结果判断待测语音数据是否为异常语音数据。分类器可以是能够依据分类特征将数据进行分类的任意一种分类器。更具体地，第二分析单元32可获取到的音段评估特征和异常模型特征整合为分类器的分类特征，然后通过分类器根据整合成的分类特征进行分类，即可将待测语音数据分类为异常语音或者非异常语音(正常语音)。

以SVM(Support Vector Machine，支持向量机)分类方法为例，第二分析单元32可将音段评估特征和异常模型特征整合为SVM的分类特征矩阵，然后，可通过SVM方法根据该分类特征矩阵得到待测语音数据为异常语音或者为非异常语音(正常语音)。

在本发明的一个实施例中，第一语音声学模型根据收集的正常语音数据训练得到，即现有技术中，用于语音评测所适用的声学模型，在此不再详细说明。第二语音声学模型根据收集到的异常语音数据训练得到。具体地，第二语音声学模型可通过如图2所示的步骤建立。

生成模块40用于根据检测结果生成待测语音数据的评测结果。

在本发明的一个实施例中，如果待测语音数据为异常语音，则生成模块40得到异常语音结果。

如果待测语音数据为非异常语音数据，即正常语音数据，则生成模块40可根据语音识别数据获取待测语音数据的音段评估特征，并通过评测映射模型对音段评估特征进行评估，以得到待测语音数据的评估得分。具体的通过评测映射模型对音段评估特征进行评估的方法，可参考现有技术，本发明在此不再赘述。

如图5所示，根据本发明实施例的语音评测装置，包括：接收模块10、识别模块20、检测模块30、生成模块40和输出模块50。

具体地，输出模块50用于当检测到待测语音数据是异常语音数据时，输出异常语音输入提示。

在本发明的一个实施例中，当检测到待测语音数据是异常语音数据时，输出模块50可直接输出异常语音评测结果。即，可输出异常语音输入提示或向用户反馈异常语音输入警告，以提示用户输入了异常语音，或者输出评测结果为0分/不合格等，也可以是预先设定的异常语音对引擎的其他输出结果。

此外，如果待测语音数据为非异常语音数据，即正常语音数据，输出模块50还可将通过生成模块40得到的评估得分提供给用户，以使用户得到评测结果。

本发明实施例的语音评测装置，当在待测语音数据中检测到异常语音数据时，可输出异常语音评测结果，从而对用户进行反馈和提示，以便用户能够做出相应的调整，能够更好地满足用户的需求，进一步提升了用户体验。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同限定。

Claims

1.一种语音评测方法，其特征在于，包括：

接收待测语音数据；

对所述待测语音数据进行语音识别，以获取语音识别数据；

对所述语音识别数据进行分析，以检测所述待测语音数据是否为异常语音数据，所述对所述语音识别结果进行分析，具体包括：对所述语音识别数据进行分析，以获取所述待测语音数据的音段评估特征和异常模型特征；根据所述音段评估特征和所述异常模型特征分析所述待测语音数据是否为异常语音数据，其中，将所述语音识别数据与所述待测语音数据对应的文本内容进行比对分析，从而得到所述待测语音数据的所述音段评估特征，将所述语音识别数据的音频特征与异常语音数据的音频特征进行比对分析，从而得到所述待测语音数据的所述异常模型特征；

根据检测结果生成所述待测语音数据的评测结果。

2.如权利要求1所述的语音评测方法，其特征在于，其中，

通过第一语音声学模型对所述语音识别数据进行分析，以获取所述待测语音数据的音段评估特征；

通过第二语音声学模型对所述语音识别数据进行分析，以获取所述待测语音数据的异常模型特征；

其中，所述第一语音声学模型根据收集的正常语音数据训练得到，所述第二语音声学模型根据收集到的异常语音数据训练得到。

3.如权利要求1所述的语音评测方法，其特征在于，所述根据所述音段评估特征和所述异常模型特征分析所述待测语音数据是否为异常语音数据，具体包括：

根据分类器对所述音段评估特征和所述异常模型特征进行整合分析，并根据分析结果判断所述待测语音数据是否为异常语音数据。

4.如权利要求2所述的语音评测方法，其特征在于，所述第二语音声学模型通过以下步骤建立：

获取异常语音数据的训练集合；

分别提取所述异常语音数据的训练集合中异常语音数据的声学特征；

根据提取到的声学特征训练所述第二语音声学模型。

5.如权利要求1-4任一项所述的语音评测方法，其特征在于，还包括：

当检测到所述待测语音数据是异常语音数据时，输出异常语音输入提示。

6.如权利要求1-4任一项所述的语音评测方法，其特征在于，所述根据检测结果生成所述待测语音数据的评测结果，具体包括：

当检测到所述待测语音数据不是异常语音数据时，根据语音识别数据获取所述待测语音数据的音段评估特征；

通过评测映射模型对所述音段评估特征进行评估，以得到所述待测语音数据的评估得分。

7.一种语音评测装置，其特征在于，包括：

接收模块，用于接收待测语音数据；

识别模块，用于对所述待测语音数据进行语音识别，以获取语音识别数据；

检测模块，用于对所述语音识别数据进行分析，以检测所述待测语音数据是否为异常语音数据，所述检测模块具体包括：第一分析单元，用于对所述语音识别数据进行分析，以获取所述待测语音数据的音段评估特征和异常模型特征；第二分析单元，用于根据所述音段评估特征和所述异常模型特征分析所述待测语音数据是否为异常语音数据，其中，将所述语音识别数据与所述待测语音数据对应的文本内容进行比对分析，从而得到所述待测语音数据的所述音段评估特征，将所述语音识别数据的音频特征与异常语音数据的音频特征进行比对分析，从而得到所述待测语音数据的所述异常模型特征；

生成模块，用于根据检测结果生成所述待测语音数据的评测结果。

8.如权利要求7所述的语音评测装置，其特征在于，其中，

所述第一分析单元通过第一语音声学模型对所述语音识别数据进行分析，以获取所述待测语音数据的音段评估特征；

所述第一分析单元通过第二语音声学模型对所述语音识别数据进行分析，以获取所述待测语音数据的异常模型特征；

9.如权利要求7所述的语音评测装置，其特征在于，所述第二分析单元具体用于：

10.如权利要求8所述的语音评测装置，其特征在于，所述第二语音声学模型通过以下步骤建立：

获取异常语音数据的训练集合；

根据提取到的声学特征训练所述第二语音声学模型。

11.如权利要求7-10任一项所述的语音评测装置，其特征在于，还包括：

输出模块，用于当检测到所述待测语音数据是异常语音数据时，输出异常语音输入提示。

12.如权利要求7-10任一项所述的语音评测装置，其特征在于，所述生成模块具体用于：