CN103810996B

CN103810996B - 待测试语音的处理方法、装置及系统

Info

Publication number: CN103810996B
Application number: CN201410060241.5A
Authority: CN
Inventors: 董明; 刘志; 吴延年; 丁玉国
Original assignee: Lingshengxin Pronunciation Sci & Tech Co Ltd Beijing
Current assignee: Beijing tianxuewang Education Technology Co., Ltd.
Priority date: 2014-02-21
Filing date: 2014-02-21
Publication date: 2016-08-31
Anticipated expiration: 2034-02-21
Also published as: CN103810996A

Abstract

本发明公开了一种待测试语音的处理方法、装置及系统。其中，该方法包括：对待测试语音进行语音识别得到识别结果；依据识别结果中的声学概率数据和音素切分信息计算置信度；对待测试语音和识别结果进行特征分析得到特征数据；使用特征数据和置信度构建用于拒识的特征向量；对特征向量进行拒识判决确定待测试语音是否为拒识语音。采用本发明，解决了口语自动评测系统无法对无关语音准确拒识导致评测结果不准确的问题，实现了准确拒识无关语音，获取准确地语音评测结果的效果。

Description

待测试语音的处理方法、装置及系统

技术领域

本发明涉及语音处理领域，具体而言，涉及一种待测试语音的处理方法、装置及系统。

背景技术

在口语自动评测系统中，被测试者往往被要求发出受限定的发音，例如朗读制定的文本，或是复述听到的语音等。而口语自动评测系统会对被测试者（即说话人）发出的声音录音后进行评测，然后给出发音质量的反馈，例如句子得分、单词得分等。在实际应用中说话人的发音可能同目标发音不一致，这种不一致存在两种情况：一是说话人发音不标准或是发音错误，这种现象在非母语说话人中非常常见，例如说话人受母语影响，导致某些音素发音不够标准，或是不知道字母对应音素的正确发音导致音素发音错误等等，对于这种情况，系统应当根据错误情况给出反馈，如发音不标准时音素和单词得分比正确读时的得分低，并且系统可以指出读错的音素等；另一种情况是是无关语音，即实际录音同目标发音无关，例如系统录音时说话人根本没说话，录音中只有环境噪声，或是录音时说话人胡乱说一些和目标发音不相关的语音，这种情况与第一种情况不同，它无规律可循。由上述可知，口语自动评测系统给出很低的分数可能由于环境影响录入噪声，也可能由于说话人口语水平太差。当然在使用口语自动评测系统时即使一个口语发音很好的人也可能故意乱说来测试系统性能。当用户在测试系统的鲁棒性和评分准确性时，往往会用各种声音（如无关语音和有关语音）作为输入，来看系统输出是否合理，对于系统噪音或者有人故意干扰的无关语音，录音系统应当直接拒识。

对无关语音拒识的途径主要有两种：一是通过对说话人语音的识别来判断某段发音是否是目标发音，具体地，利用垃圾模型或背景模型来识别出录入的声音是否为非目标发音，这种方法主要用于识别系统中集外词检测及发音评测系统中的发音错误检测，但是对于环境噪音无法准确拒识，得到的评测结果不准确；另一种是识别结果的后处理方法，在得到识别结果后利用置信度来鉴别识别结果是否正确，对于置信度低于一定阈值的语音予以拒识，使用这种方法只是对结果进行过滤，无法对录入的语音进行准确的拒识，有可能会将相关语音的结果拒识掉，而保留了无关语音的识别结果，从而得到的结果也不准确。

上述的口语自动评测系统是指对口语的发音、节奏和语调提供客观统一标准的评估系统；上述的无关语音即为不属于语音评测系统的评测对象的声音。

针对现有技术中口语自动评测系统无法对无关语音准确拒识导致评测结果不准确的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中口语自动评测系统无法对无关语音准确拒识导致评测结果不准确的问题，目前尚未提出有效的解决方案，为此，本发明的主要目的在于提供一种待测试语音的处理方法、装置及系统，以解决上述问题。

为了实现上述目的，根据本发明的一个方面，提供了一种待测试语音的处理方法，该处理方法包括：对待测试语音进行语音识别，得到识别结果；依据识别结果中的声学概率数据和音素切分信息计算置信度；对待测试语音和识别结果进行特征分析，得到特征数据；使用特征数据和置信度构建用于拒识的特征向量；对特征向量进行拒识判决，确定待测试语音是否为拒识语音。

进一步地，对特征向量进行拒识判决，确定待测试语音是否为拒识语音包括：计算特征向量的接受概率和拒绝概率；在拒绝概率与接受概率的对数域差值大于预设阈值时，确定待测试语音为拒识语音；在对数域差值小于或等于预设阈值时确定待测试语音不为拒识语音。

进一步地，计算特征向量的接受概率和拒绝概率包括：使用判决方程计算接受概率和拒绝概率，判决方程为：

g_{j} (v) = - \ln | Σ_{j} | - {(v - μ_{j})}^{T} Σ_{j}^{- 1} (v - μ_{j}),

其中，j(j=0,1)表示语音的类别，在j=0时，根据判决方程计算接受概率，在j=1时，根据判决方程计算拒绝概率，其中，μ_j表示第j类的音素的质心，∑_j为第j类的预设特征向量样本的协方差矩阵，v表示要判别的特征向量，

μ_{j} = \frac{1}{N} Σ_{i = 1}^{N} x_{i}, Σ_{j} = \frac{1}{N} Σ_{i = 1}^{N} (x_{i} - μ_{j}) {(x_{i} - μ_{j})}^{T},

x_i为预设特征集中对应j类的第i个预设特征向量，N为组成所建立模型对应j类的预设特征向量的个数，即预设特征集中正确语音或无关语音的预设特征向量的个数，i为自然数。

进一步地，对待测试语音进行语音识别，得到识别结果包括：对待测试语音进行强制匹配得到第一识别结果；对待测试语音进行音素循环识别得到第二识别结果；其中，识别结果包括第一识别结果和第二识别结果。

进一步地，对待测试语音和识别结果进行特征分析得到特征数据包括：按照预设段长条件从第一识别结果中的第一音素切分信息中提取段长特征；和/或按照预设基音特征从待测试语音中提取基音特征；其中，特征数据包括段长特征和/或基音特征。

进一步地，第一识别结果包括音素的第一声学概率数据和第一音素切分信息，第二识别结果包括音素的第二声学概率数据和第二音素切分信息，其中，依据识别结果中的声学概率数据和音素切分信息计算置信度包括：依据第一音素切分信息和第二音素切分信息计算第一声学概率数据和第二声学概率数据的音素置信度；计算待测试语音中单词对应所有音素的音素置信度的均值得到单词的单词置信度，其中，置信度包括音素置信度和单词置信度。

进一步地，依据第一音素切分信息和第二音素切分信息计算第一声学概率数据和第二声学概率数据的音素置信度包括：使用第一公式计算第一声学概率数据和第二声学概率数据的音素置信度GOP(p)，其中，第一公式为：

p为第一识别结果中的音素，O是该音素对应的待测试语音中的声学特征向量，PL是对应第二识别结果中的音素，N是音素P的帧数，第一音素切分信息和第二音素切分信息包括音素的帧数；

计算待测试语音中单词对应所有音素的音素置信度的均值得到单词的单词置信度包括：使用第二公式计算单词对应所有音素的音素置信度的均值得到单词的单词置信度，其中，第二公式为：

GOP (w) &equiv; \frac{1}{| p &Element; w |} \underset{p &Element; w}{Σ} GOP (p),

w为单词。

为了实现上述目的，根据本发明的另一方面，提供了一种待测试语音的处理装置，该处理装置包括：识别模块，用于对待测试语音进行语音识别得到识别结果；计算模块，用于依据识别结果中的声学概率数据和音素切分信息计算置信度；特征分析模块，用于对待测试语音和识别结果进行特征分析，得到特征数据；构建模块，用于使用特征数据和置信度构建用于拒识的特征向量；判决模块，用于对特征向量进行拒识判决，确定待测试语音是否为拒识语音。

进一步地，判决模块包括：概率计算模块，用于计算特征向量的接受概率和拒绝概率；第一拒识模块，用于在拒绝概率与接受概率的对数域差值大于预设阈值时确定待测试语音为拒识语音；第二拒识模块，用于在对数域差值小于或等于预设阈值时确定待测试语音不为拒识语音。

进一步地，识别模块包括：匹配模块，用于对待测试语音进行强制匹配得到第一识别结果；循环识别模块，用于对待测试语音进行音素循环识别得到第二识别结果；其中，识别结果包括第一识别结果和第二识别结果。

进一步地，特征分析模块包括：第一提取模块，用于按照预设段长条件从第一识别结果中的第一音素切分信息中提取段长特征；和/或第二提取模块，用于按照预设基音特征从待测试语音中提取基音特征；其中，特征数据包括段长特征和/或基音特征。

进一步地，第一识别结果包括音素的第一声学概率数据和第一音素切分信息，第二识别结果包括音素的第二声学概率数据和第二音素切分信息，其中，计算模块包括：对数计算模块，用于依据第一音素切分信息和第二音素切分信息计算第一声学概率数据和第二声学概率数据的音素置信度；置信度计算模块，用于计算待测试语音中单词对应所有音素的音素置信度的均值得到单词的单词置信度，其中，置信度包括音素置信度和单词置信度。

为了实现上述目的，根据本发明的另一方面，提供了一种待测试语音的处理系统，该处理系统包括：待测试语音的处理装置。

采用本发明，使用分类器对特征向量（包括特征数据和置信度）进行拒识判决，采用多特征联合判决方法，对发音评测中的非正常语音进行拒识确定待测试语音是否为拒识语音，得到判决结果，而不是单单使用置信度进行待测试语音的拒识，得到的拒识等错误率（EER）可达到6.0%，解决了口语自动评测系统无法对无关语音准确拒识导致评测结果不准确的问题，实现了准确拒识无关语音，获取准确地语音评测结果的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的待测试语音的处理装置的结构示意图；

图2是根据本发明实施例的待测试语音的处理方法的流程图；以及

图3是根据本发明实施例的一种可选的待测试语音的处理方法的流程图。

具体实施方式

首先，在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

音素是构成音节的最小单位或最小的语音片段，如音标。

基音，一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成，这些振动中频率最低的振动发出的音就是基音，即发声体整体振动产生的音。

似然度，即为反应特异度和灵敏度的概率。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1是根据本发明实施例的待测试语音的处理装置的结构示意图。如图1所示，该装置可以包括：识别模块10，用于对待测试语音进行语音识别得到识别结果；计算模块20，用于依据识别结果中的声学概率数据和音素切分信息计算置信度；特征分析模块30，用于对待测试语音和识别结果进行特征分析得到特征数据；构建模块40，用于使用特征数据和置信度构建用于拒识的特征向量；判决模块50，用于对特征向量进行拒识判决确定待测试语音是否为拒识语音。

其中，拒识语音为无关语音，上述实施例中的待测试语音可以用数字信号表示。

具体地，待测试语音通过音素循环识别（即phone-loop识别）得到第二识别结果，通过强制匹配得到第一识别结果（包括切分结果），通过基音提取得到每帧语音的基音值。其中，强制匹配的步骤包括：将待测试语音对应的文本按声学模型展开生成发音网络；从待测试语音中提取声学特征向量；用维特比（Viterbi）算法依据发音网络和声学特征向量计算最优路径，得到匹配结果（即第一识别结果）；根据强制匹配（Forced Alignment）和音素循环（Phone-Loop）识别的声学概率数据（即声学特征和声学模型的似然度）和切分信息计算置信度；并根据强制匹配的音素切分结果（即第二音素切分信息）提取段长特征；根据强制匹配的第一识别结果的第一音素切分信息和基音值提取基音特征；采用高斯混合（GMM）模型作为分类器对待测试语音进行拒识判决。

根据本发明的上述实施例，采用高斯模型作为分类器，判决模块使用分类器对特征向量进行拒识判决确定待测试语音是否为拒识语音，其中，判决模块包括：概率计算模块，用于计算特征向量的接受概率和拒绝概率；第一拒识模块，用于在拒绝概率与接受概率的对数域差值大于预设阈值时确定待测试语音为拒识语音；第二拒识模块，用于在对数域差值小于或等于预设阈值时确定待测试语音不为拒识语音。

在本申请实施中做拒识判决的语料库（即为保存各种语言材料的数据库）包括训练集（即预设特征集）和测试集，训练集的数据用来训练高斯混合GMM分类器，测试集用来测试语音的处理系统（该处理系统可以是语音测试系统）的性能。训练集和测试集都包括接受集（ACC）和拒绝集（REJ），接受集为正确朗读的正确语音，而拒绝集为与测试无关的无关语音。为了研究不同类型的无关语音和不同拒识特征的关系，拒绝集又分为两类REJ-1和REJ-2，其中，Rej-1为学生随机朗读和目标文本完全不同的其它单词的录音，Rej-2为噪声，包括背景噪声、咳嗽声、呼吸声等。

在上述实施例中，高斯混合模型包括第一判决模型和第二判决模型，分别使用第一判决模型和第二判决模型计算特征数据的接受概率和拒绝概率；具体地，通过每个音素的质心计算每个音素的协方差矩阵，并使用判决方程根据协方差矩阵获取判决结果。其中，第一判决模型为接受模型，第二判决模型为拒绝模型，可以分别通过接受模型计算样本数据（即上述实施例中的特征向量）的接受概率和通过拒绝模型计算样本数据的拒绝概率，然后比较接受概率和拒绝概率的大小，哪个概率的数值大，该待测试语音即属于哪个概率值对应的结果，如，计算特征向量A的拒绝概率小于接受概率，则确定该语音为接受语音，即该待测试语音不是拒识语音，则可以接受该待测试语音，然后对该待测试语音进行评测得到评测结果；如果拒绝概率大于接受概率则确定该待测试语音为拒识语音，语音评测系统可以忽略对该待测试语音的评测。

具体地，概率计算模块可以通过如下方法实现：使用判决方程计算接受概率和拒绝概率，判决方程为：

g_{j} (v) = - \ln | Σ_{j} | - {(v - μ_{j})}^{T} Σ_{j}^{- 1} (v - μ_{j}),

其中，j(j=0,1)表示待测试语音的类别，在j=0时，上述判决方程为第一判决模型，根据该判决方程计算待测试语音的接受概率，在j=1时，根据判决方程计算拒绝概率，其中，μ_j表示第j类的音素的质心，∑_j为第j类的预设特征向量样本的协方差矩阵，v表示要判别的特征向量， x_i为预设特征集中对应j类的第i个预设特征向量，N为组成所建立模型对应j类的预设特征向量的个数，即预设特征集中正确语音或无关语音的预设特征向量的个数，i为自然数。

在本发明的上述实施例中，识别模块可以包括：匹配模块，用于对待测试语音进行强制匹配得到第一识别结果；循环识别模块，用于对待测试语音进行音素循环识别得到第二识别结果；其中，识别结果包括第一识别结果和第二识别结果。

具体地，特征分析模块包括：第一提取模块，用于按照预设段长条件从第一识别结果中的第一音素切分信息中提取段长特征；和/或第二提取模块，用于按照预设基音特征从待测试语音中提取基音特征；其中，特征数据包括段长特征和/或基音特征。

其中，预设段长条件包括：段长为音素模型状态数的音素比例、段长小于正常分布5%的音素比例、段长小于正常分布5%的音素比例、段长小于正常分布10%的音素比例、段长小于正常分布90%的音素比例以及段长小于正常分布95%的音素比例；预设基音特征包括：基音差分均值、基音差分值大于10的帧所占比例、基音差分值大于15的帧所占比例、基音差分值大于20的帧所占比例以及第二识别结果同第一识别结果不一致的帧所占比例。

在本发明的上述实施例中，可以从上述提取的三类（12种）特征中选取至少两个种类的特征应用于对语音的拒识判决中。

在本发明上述实施例中，第一识别结果包括音素的第一声学概率数据和第一音素切分信息，第二识别结果包括音素的第二声学概率数据和第二音素切分信息，其中，计算模块包括：对数计算模块，用于依据第一音素切分信息和第二音素切分信息计算第一声学概率数据和第二声学概率数据的音素置信度；置信度计算模块，用于计算待测试语音中单词对应所有音素的音素置信度的均值得到单词的单词置信度，其中，置信度包括音素置信度和单词置信度。

其中，在获取到一段待测试语音之后，对该待测试语音识别得到音素、切分信息、声学概率数据，对待测试语音进行识别时可以使用该待测试语音对应的文字描述（如单词）进行识别，该文字描述中也有对待测试语音中的单词的描述，通过该描述可以从待测试语音中提取单词，然后使用该单词对应待测试语音中所有音素的音素置信度的均值作为单词的单词置信度，使用单词置信度和其他的特征数据构建特征向量。

具体地，对数计算模块包括第一置信度计算子模块，第一置信度计算子模块用于使用第一公式计算第一声学概率数据和第二声学概率数据的对数域差值，对数域差值为音素的音素置信度，其中，第一公式为：P为第一识别结果中的音素，O是该音素对应的待测试语音中的声学特征向量，PL是对应第二识别结果中的音素，N是音素P的帧数，第一音素切分信息和第二音素切分信息包括音素的帧数；第二置信度计算子模块，用于使用第二公式计算单词对应所有音素的音素置信度的均值得到单词的单词置信度，其中，第二公式为：

GOP (w) &equiv; \frac{1}{| p &Element; w |} \underset{p &Element; w}{Σ} GOP (p),

w为单词。

本发明还提供了一种待测试语音的处理系统，该系统可以包括上述实施例中任意一种的待测试语音的处理装置。

上述实施例中的语音的处理系统可以为任意一种语音评测系统。

图2是根据本发明实施例的语音的处理方法的流程图，如图2所示该方法包括如下步骤：

步骤S202，对待测试语音进行语音识别得到识别结果。

步骤S204，依据识别结果中的声学概率数据和音素切分信息计算置信度。

步骤S206，对待测试语音和识别结果进行特征分析得到特征数据。

步骤S208，使用特征数据和置信度构建用于拒识的特征向量。

步骤S210，对特征向量进行拒识判决确定待测试语音是否为拒识语音。

具体地，如图3所示，待测试语音通过音素循环识别（即phone-loop识别）得到第二识别结果，通过强制匹配得到第一识别结果（包括切分结果），通过基音提取得到每帧语音的基音值。其中，强制匹配的步骤包括：将待测试语音对应的文本按声学模型展开生成发音网络；从待测试语音中提取声学特征向量；用维特比（Viterbi）算法依据发音网络和声学特征向量计算最优路径，得到匹配结果（即第一识别结果）；根据强制匹配（ForcedAlignment）和音素循环（Phone-Loop）识别的声学概率数据（即声学特征和声学模型的似然度）和切分信息计算置信度；并根据强制匹配的音素切分结果（即第二音素切分信息）提取段长特征；根据强制匹配的第一识别结果的第一音素切分信息和基音值提取基音特征；采用高斯混合（GMM）模型作为分类器对待测试语音进行拒识判决。

根据本发明的上述实施例，采用高斯模型作为分类器，使用分类器对特征向量进行拒识判决确定待测试语音是否为拒识语音，具体地，对特征向量进行拒识判决确定语音是否为拒识语音包括：计算特征向量的接受概率和拒绝概率；在拒绝概率与接受概率的对数域差值大于预设阈值时确定待测试语音为拒识语音；在对数域差值小于或等于预设阈值时确定待测试语音不为拒识语音。

在本发明的上述实施中，对语音进行语音识别得到识别结果包括：对待测试语音进行强制匹配得到第一识别结果；对待测试语音进行音素循环识别得到第二识别结果；其中，识别结果包括第一识别结果和第二识别结果。

具体地，对待测试语音和识别结果进行特征分析得到特征数据包括：按照预设段长条件从第一识别结果中的第一音素切分信息中提取段长特征；和/或按照预设基音特征从语音中提取基音特征；其中，特征数据包括段长特征和/或基音特征。

上述实施例中的音素的段长特征具体指音素时间长度，从第一识别结果中的第一音素切分信息中提取得到。当待测试语音同强制匹配的路径失配时，识别结果的音素段长分布同正确匹配的音素段长存在差异，体现为某些音素的长度太短或过长。例如正常情况下元音较长，清音很短，而错误匹配的结果可能导致清音比元音还长，如表1所示。表1给出了训练集上的音素段长统计结果。

表1

如表1所示，接受集，REJ-1和REJ-2音素段长分布的结果显示ACC集音素段长为三帧的比例仅有3.94%，而REJ-1为33.12%，REJ-2为57.23%。造成这种现象的原因是：我们采用的声学HMM模型每个音素有3个状态，状态间无跨，因此语音识别的结果中每个音素至少对应3帧，语音识别搜索最优路径时是选取似然得分（即上述实施例中的声学概率数据）最高的路径，音素的段长越短，其似然得分对整条路径的得分影响就越小。例如某失配音素在两个可能的路径中得分都很低，段长短的对整条路径影响小，更有优势胜，而3帧正是音素段长的最短值，所以应当拒识的语音中3帧的音素比例明显要比正常的语音，因此3帧音素的比例被用来作为段长特征之一。

上述实施例中，基频（F0）是周期信号最短周期的倒数，在语音中F0代表发音时声带震动一个周期的倒数。语音可根据声带是否震动分为两类：清音和浊音（voiced/unvoiced）。发浊音需要声带震动，而清音则不需要。在英语中，全部的元音和部分辅音是浊音，这些音素的音频存在基频，而清音音频本质上是一种噪声。在从语音中提取基音的领域，我们可以发现浊音部分基频值比较稳定，该基频值可以在一定范围内变化。因为说话时人声带振动时其频率是有一定范围，而清音部分的基频值是不稳定的，变化大、范围大（实际上清音没有基频值，采用基音提取方法提取的频率值并非基频）。此外录音过程中可能遇到各种噪声，它们的基频同语音也不同，例如气流声、呼吸声等噪声都不是周期信号，不存在基音，而有些噪声存在基频但噪音的基频同人的语音的基频范围存在差别，例如音乐中的基频范围就比语音的要大得多。

具体地，如表2所示，根据上述特征选取方法可以提取3类共12维特征用于构建特征向量，以用于语音拒识判别：

在本发明的上述实施例中，可以从上述提取的三类（12种）特征中选取至少两个种类的特征应用于对待测试语音的拒识判决中。

根据本发明的上述实施例，第一识别结果包括音素的第一声学概率数据和第一音素切分信息，第二识别结果包括音素的第二声学概率数据和第二音素切分信息，其中，依据识别结果中的声学概率数据和音素切分信息计算置信度包括：依据第一音素切分信息和第二音素切分信息计算第一声学概率数据和第二声学概率数据的音素置信度；计算待测试语音中单词对应所有音素的音素置信度的均值得到单词的单词置信度，其中，置信度包括音素置信度和单词置信度。

其中，在获取到一段待测试语音之后，对该待测试语音识别得到音素、切分信息、声学概率数据，对待测试语音进行识别时可以使用该待测试语音对应的文字描述进行识别，该文字描述中也有对待测试语音的单词的描述，通过该描述可以从待测试语音中提取单词，然后使用该单词对应待测试语音中所有音素的音素置信度的均值作为单词的单词置信度，使用单词置信度和其他的特征数据构建特征向量。

具体地，依据第一音素切分信息和第二音素切分信息计算第一声学概率数据和第二声学概率数据的音素置信度包括：使用第一公式计算第一声学概率数据和第二声学概率数据的音素置信度，其中，第一公式为：p为第一识别结果中的音素，O是该音素对应的待测试语音中的声学特征向量，PL是对应第二识别结果中的音素，N是音素P的帧数，第一音素切分信息和第二音素切分信息包括音素的帧数；使用第二公式计算单词对应所有音素的音素置信度的均值得到单词的单词置信度，其中，第二公式为：

GOP (w) &equiv; \frac{1}{| p &Element; w |} \underset{p &Element; w}{Σ} GOP (p),

w为单词。

上述实施例中的置信度计算方法采用似然比的计算方法。具体地，将每个音素强制匹配得到的对数域似然得分减去phone-loop识别结果相应位置的对数域似然得分即是这个音素的置信度得分。其第一公式如下：

GOP (p) &equiv; \frac{1}{N} \log \frac{P (O | P)}{P (O | PL)}

其中，p为音素，O是该音素对应的声学特征向量，PL是phone-loop识别结果对应的音素，N是音素P的帧数。上述的声学特征向量、音素以及帧数均为第一音素切分信息和第二音素切分信息中的信息。

上述实施例中的单词置信度为该单词包含音素的置信度的均值，第二公式为：然后使用第三公式通过置信度拒识无关语音，第三公式为：

Reject (w) &equiv; \{\begin{matrix} 1, & GOP (w) \leq T \\ 0, & GOP (w) > T \end{matrix} .

根据本发明的上述实施例，本发明的分类器（也即上述的判决模型）可以采用单高斯模型也可以选用多元高斯混合模型，选用多元高斯混合模型得到的判决结果会更准确。

需要进一步说明的是，计算接受概率和拒绝概率可以通过如下方法实现：使用判决方程计算接受概率和拒绝概率，判决方程为：其中，j(j=0,1)表示待测试语音的类别，在j=0时，上述判决方程为第一判决模型，根据该判决方程计算待测试语音的接受概率，在j=1时，根据判决方程计算拒绝概率，其中，μ_j表示第j类的音素的质心，∑_j为第j类的预设特征向量样本的协方差矩阵，v表示要判别的特征向量，

μ_{j} = \frac{1}{N} Σ_{i = 1}^{N} x_{i}, Σ_{j} = \frac{1}{N} Σ_{i = 1}^{N} (x_{i} - μ_{j}) {(x_{i} - μ_{j})}^{T},

具体地，单高斯模型的质心为：协方差矩阵：其中，在本发明的上述实施例中，μ为音素的质心，x_i为预设特征集中第i个预设特征向量，N为组成所建立模型的预设特征向量的个数，即训练集中正确语音或无关语音的样本个数，预设特征集可以为预设特征向量的集合，i为自然数。

判决方程为：

g_{j} (v) = - \ln | Σ_{j} | - {(v - μ_{j})}^{T} Σ_{j}^{- 1} (v - μ_{j}) .

其中，j(j=0,1)表示待测试语音的类别，在(j=0时，上述判决方程为第一判决方程，根据该方程得到的为接受概率，在j=1时，上述判决方程为第二判决方程，根据该方程得到的为拒绝概率。如：不拒识（即j₀表示正确语音）或拒识（即j₁表示无关语音），μ_j表示第j类的质心，∑_j为第j类样本的协方差矩阵，v表示要判别的特征向量。具体地，第一判决方程即为使用上述判决方程计算该待测试语音的接受概率g_j0(v_i)，第二判决方程即为使用上述判决方程计算该待测试语音的拒绝概率g_j1(v_i)。训练集中包括接受集（即接收类）和拒绝集（拒绝类），接受集中包括可接受的正确语音的预设特征向量；拒绝集中包括需拒识的无关语音的预设特征向量。其中，可接受的语音即为正确朗读的语音，需拒识的语音即为与测试无关的无关语音。

其判决规则为：如果g_j0(v_i)>g_j1(v_i)，则与v_i对应的待测试语音i将被判决为属于由高斯（Gauss）模型j₀所代表的类别（如正确语音的类别，即该待测试语音不为拒识语音），否则，该语音属于模型j₁所代表的类别（即该待测试语音为拒识语音）。

在本发明的上述实施例中，多元高斯混合模型构成的判决器的判决方程如下：

其中，λ_j为第j类（如接受集或拒绝集的类别）GMM的模型参数，为权重,p[v|μ_i,∑_i]为第i个高斯分布函数，μi为均值矢量，∑_i为协方差矩阵，在该实施例中一共有M个高斯分布函数。

在本发明的上述实施例中可以使用拒绝概率同接受概率的对数域差值大于某一阈值（预设阈值）时确定该待测试语音为拒识语音，即g₁(v)-g₀(v)>T时待测试语音为拒识语音，其中，T为预设阈值，预设阈值可通过训练集得到，也可以是预设好的固定值。

采用等错误率（EER）来衡量衡量本发明上述实施例提供的处理方法的性能。EER是指在两类错误率虚警（FA）和漏报率（FR）相等时的数值，该值越小说明判决性能越好。如表3和表4所示，是采用本发明实施例方法拒识语音与现有技术中采用置信度拒识语音的错误率的比较表：

表3

	EER
		置信度	7.2%
多特征	6.0%

表4

	ACC/REJ-1	ACC/REJ-2
			置信度	9.6%	5.7%
置信度+段长特征	8.9%	3.7%
			置信度+基音特征	9.5%	1.5%

如表4所示，当只用置信度的特征进行拒识判决时，reject set为rej-1和rej-2时EER分别为9.6%和5.7%。当增加段长特征后，rej-1的EER下降到了8.9%比只用置信度时有改进，rej-2的EER下降到了3.7%，有了明显改进。当使用置信度和基音特征时，rej-1的ERR为9.5%，rej-2却降低到了1.5%，有了显著的改进。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

从以上的描述中，可以看出，本发明实现了如下技术效果：

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种待测试语音的处理方法，其特征在于，包括：

对待测试语音进行语音识别，得到识别结果；

依据所述识别结果中的声学概率数据和音素切分信息计算置信度；

对所述待测试语音和所述识别结果进行特征分析，得到特征数据；

使用所述特征数据和所述置信度构建用于拒识的特征向量；

对所述特征向量进行拒识判决，确定所述待测试语音是否为拒识语音。

2.根据权利要求1所述的处理方法，其特征在于，对所述特征向量进行拒识判决，确定所述待测试语音是否为拒识语音包括：

计算所述特征向量的接受概率和拒绝概率；

在所述拒绝概率与所述接受概率的对数域差值大于预设阈值时，确定所述待测试语音为所述拒识语音；

在所述对数域差值小于或等于所述预设阈值时确定所述待测试语音不为所述拒识语音。

3.根据权利要求2所述的处理方法，其特征在于，计算所述特征向量的接受概率和拒绝概率包括：

使用判决方程计算所述接受概率和所述拒绝概率，所述判决方程为：

g_{j} (v) = - \ln | Σ_{j} | - {(v - μ_{j})}^{T} Σ_{j}^{- 1} (v - μ_{j}),

其中，j(j=0,1)表示所述待测试语音的类别，在j=0时，根据所述判决方程计算所述接受概率，在j=1时，根据所述判决方程计算所述拒绝概率，其中，μ_j表示第j类的音素的质心，∑_j为第j类的预设特征向量样本的协方差矩阵，v表示要判别的所述特征向量， x_i为预设特征集中对应所述j类的第i个预设特征向量，N为组成所建立模型对应所述j类的预设特征向量的个数，即所述预设特征集中正确语音或无关语音的预设特征向量的个数，i为自然数。

4.根据权利要求1所述的处理方法，其特征在于，对待测试语音进行语音识别，得到识别结果包括：

对所述待测试语音进行强制匹配得到第一识别结果；

对所述待测试语音进行音素循环识别得到第二识别结果；

其中，所述识别结果包括所述第一识别结果和所述第二识别结果。

5.根据权利要求4所述的处理方法，其特征在于，对所述待测试语音和所述识别结果进行特征分析得到特征数据包括：

按照预设段长条件从所述第一识别结果中的第一音素切分信息中提取段长特征；和/或

按照预设基音特征从所述待测试语音中提取基音特征；

其中，所述特征数据包括所述段长特征和/或所述基音特征。

6.根据权利要求4所述的处理方法，其特征在于，

所述第一识别结果包括音素的第一声学概率数据和第一音素切分信息，所述第二识别结果包括所述音素的第二声学概率数据和第二音素切分信息，其中，

依据所述识别结果中的声学概率数据和音素切分信息计算置信度包括：

依据所述第一音素切分信息和所述第二音素切分信息计算所述第一声学概率数据和所述第二声学概率数据的音素置信度；

计算所述待测试语音中单词对应所有所述音素的所述音素置信度的均值得到所述单词的单词置信度，

其中，所述置信度包括所述音素置信度和所述单词置信度。

7.根据权利要求6所述的处理方法，其特征在于，

依据所述第一音素切分信息和所述第二音素切分信息计算所述第一声学概率数据和所述第二声学概率数据的音素置信度包括：使用第一公式计算所述第一声学概率数据和所述第二声学概率数据的音素置信度GOP(p)，其中，所述第一公式为：

p为所述第一识别结果中的所述音素，O是该音素对应的所述待测试语音中的声学特征向量，PL是对应所述第二识别结果中的所述音素，N是所述音素P的帧数，所述第一音素切分信息和所述第二音素切分信息包括所述音素的所述帧数；

计算所述待测试语音中单词对应所有所述音素的所述音素置信度的均值得到所述单词的单词置信度包括：使用第二公式计算所述单词对应所有所述音素的所述音素置信度的均值得到所述单词的单词置信度，其中，所述第二公式为：w为所述单词。

8.一种待测试语音的处理装置，其特征在于，包括：

识别模块，用于对待测试语音进行语音识别得到识别结果；

计算模块，用于依据所述识别结果中的声学概率数据和音素切分信息计算置信度；

特征分析模块，用于对所述待测试语音和所述识别结果进行特征分析，得到特征数据；

构建模块，用于使用所述特征数据和所述置信度构建用于拒识的特征向量；

判决模块，用于对所述特征向量进行拒识判决，确定所述待测试语音是否为拒识语音。

9.根据权利要求8所述的处理装置，其特征在于，所述判决模块包括：

概率计算模块，用于计算所述特征向量的接受概率和拒绝概率；

第一拒识模块，用于在所述拒绝概率与所述接受概率的对数域差值大于预设阈值时确定所述待测试语音为所述拒识语音；

第二拒识模块，用于在所述对数域差值小于或等于所述预设阈值时确定所述待测试语音不为所述拒识语音。

10.根据权利要求8所述的处理装置，其特征在于，所述识别模块包括：

匹配模块，用于对所述待测试语音进行强制匹配得到第一识别结果；

循环识别模块，用于对所述待测试语音进行音素循环识别得到第二识别结果；

11.根据权利要求10所述的处理装置，其特征在于，特征分析模块包括：

第一提取模块，用于按照预设段长条件从所述第一识别结果中的第一音素切分信息中提取段长特征；和/或

第二提取模块，用于按照预设基音特征从所述待测试语音中提取基音特征；

其中，所述特征数据包括所述段长特征和/或所述基音特征。

12.根据权利要求10所述的处理装置，其特征在于，

所述计算模块包括：

对数计算模块，用于依据所述第一音素切分信息和所述第二音素切分信息计算所述第一声学概率数据和所述第二声学概率数据的音素置信度；

置信度计算模块，用于计算所述待测试语音中单词对应所有所述音素的所述音素置信度的均值得到所述单词的单词置信度，

其中，所述置信度包括所述音素置信度和所述单词置信度。

13.一种待测试语音的处理系统，其特征在于，包括：权利要求8至12中任意一项所述的待测试语音的处理装置。