CN102915731A

CN102915731A - 一种个性化的语音识别的方法及装置

Info

Publication number: CN102915731A
Application number: CN2012103830823A
Authority: CN
Inventors: 刘俊启; 胡星; 郭志峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-10-10
Filing date: 2012-10-10
Publication date: 2013-02-06
Anticipated expiration: 2032-10-10
Also published as: CN102915731B

Abstract

本发明提供了一种个性化的语音识别的方法及装置，其中个性化的语音识别的方法包括：A.确定待识别语音是否属于授权用户，如果是，则利用所述授权用户对应的语音识别模型对所述待识别语音进行识别，否则执行步骤B；B.确定所述待识别语音所属方言类别，并利用所述待识别语音所属方言类别对应的语音识别模型对待识别语音进行识别。通过上述方式，本发明可以提高在各种用户下的语音识别的精度。

Description

一种个性化的语音识别的方法及装置

【技术领域】

本发明涉及语音识别技术，特别涉及一种个性化的语音识别方法及装置。

【背景技术】

语音识别技术在很多领域都有重要的应用，例如语音拨号、语音导航等应用，都依赖语音识别技术。语音识别效果的好坏，直接影响到各种与语音识别相关的应用的效果好坏。

语音识别模型所具有的描述语音到文本的能力，是影响语音识别效果好坏的关键因素。现有技术采用相同的语音识别模型对各种用户的语音进行识别，由于相同的语音识别模型，很难描述不同用户的语音差异，因此，采用这种方式进行语音识别，很多情况下的识别精度不佳，难以满足用户语音识别的个性化需求。

【发明内容】

本发明所要解决的技术问题是提供一种个性化的语音识别方法及装置，以提高在各种用户下的语音识别的精度。

本发明为解决技术问题而采用的技术方案是提供一种个性化的语音识别的方法，包括：A.确定待识别语音是否属于授权用户，如果是，则利用所述授权用户对应的语音识别模型对所述待识别语音进行识别，否则执行步骤B；B.确定所述待识别语音所属方言类别，并利用所述待识别语音所属方言类别对应的语音识别模型对待识别语音进行识别。

根据本发明之一优选实施例，所述方法进一步包括：当无法确定所述待识别语音所属方言类别时，利用通用语音识别模型对待识别语音进行识别。

根据本发明之一优选实施例，所述步骤A中，对所述待识别语音进行识别后进一步包括：根据用户对识别结果的反馈及所述待识别语音，优化所述授权用户对应的语音识别模型。

根据本发明之一优选实施例，所述步骤B中，对所述待识别语音进行识别后进一步包括：根据用户对识别结果的反馈及所述待识别语音，优化所述待识别语音所属方言类别对应的语音识别模型。

根据本发明之一优选实施例，确定待识别语音是否属于授权用户的步骤包括：提取待识别语音的声学特征，并确定所述待识别语音的声学特征与所述授权用户对应的声学模板之间的匹配度是否满足要求，如果是，则确定所述待识别语音属于所述授权用户，否则确定所述待识别语音不属于所述授权用户。

根据本发明之一优选实施例，确定所述待识别语音所属方言类别的步骤包括：将所述待识别语音的声学特征分别与各方言类别对应的声学模板进行比对，当各比对结果中的最大匹配度超过设定值时，将该最大匹配度对应的方言类别作为所述待识别语音所属方言类别。

本发明还提供了一种个性化的语音识别的装置，包括：第一识别单元，用于确定待识别语音是否属于授权用户，如果是，则利用所述授权用户对应的语音识别模型对所述待识别语音进行识别，否则触发第二识别单元执行；第二识别单元，用于确定所述待识别语音所属方言类别，并利用所述待识别语音所属方言类别对应的语音识别模型对待识别语音进行识别。

根据本发明之一优选实施例，所述装置进一步包括：第三识别单元，用于当所述第二识别单元无法确定所述待识别语音所属方言类别时，利用通用语音识别模型对待识别语音进行识别。

根据本发明之一优选实施例，所述装置进一步包括：第一优化单元，用于在所述第一识别单元对所述待识别语音进行识别后，根据用户对识别结果的反馈及所述待识别语音，优化所述授权用户对应的语音识别模型。

根据本发明之一优选实施例，所述装置进一步包括：第二优化单元，用于在所述第二识别单元对所述待识别语音进行识别后，根据用户对识别结果的反馈及所述待识别语音，优化所述待识别语音所属方言类别对应的语音识别模型。

根据本发明之一优选实施例，所述第一识别单元确定待识别语音是否属于授权用户的方式包括：提取待识别语音的声学特征，并确定所述待识别语音的声学特征与所述授权用户对应的声学模板之间的匹配度是否满足要求，如果是，则确定所述待识别语音属于所述授权用户，否则确定所述待识别语音不属于所述授权用户。

根据本发明之一优选实施例，所述第二识别单元确定所述待识别语音所属方言类别的方式包括：将所述待识别语音的声学特征分别与各方言类别对应的声学模板进行比对，当各比对结果中的最大匹配度超过设定值时，将该最大匹配度对应的方言类别作为所述待识别语音所属方言类别。

由以上技术方案可以看出，本发明通过确定待识别语音的归属类型，从而可以利用与待识别语音的归属类型相适应的语音识别模型对待识别语音进行识别，能够很好地提高待识别语音的识别精度。如果待识别语音属于授权用户，则可以选择个人用户适用的语音识别模型对待识别语音进行识别，即使待识别语音不属于授权用户，也可以选择与待识别语音的方言相适应的语音识别模型对待识别语音进行识别，通过这种方式，可以智能适应待识别语音的特点，能够充分提高在各种用户下的语音识别精度。

【附图说明】

图1为本发明中个性化的语音识别的方法的流程示意图；

图2为本发明中确定待识别语音是否属于授权用户的一个实施例的流程示意图；

图3为本发明中语音识别过程的一个实施例的流程示意图；

图4为本发明中个性化的语音识别的装置的实施例一的结构示意框图；

图5为本发明中个性化的语音识别的装置的实施例二的结构示意框图；

图6为本发明中个性化的语音识别的装置的实施例三的结构示意框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

请参考图1，图1为本发明中个性化的语音识别的方法的流程示意图。如图1所示，该方法包括：

步骤S101：确定待识别语音是否属于授权用户，如果是，则利用授权用户对应的语音识别模型对待识别语音进行识别，否则执行步骤S102。

步骤S102：确定待识别语音所属方言类别，并利用待识别语音所属方言类别对应的语音识别模型对待识别语音进行识别。

下面对上述步骤进行具体说明。

本发明中的授权用户，指的是具有注册信息或可标识的身份信息的用户。如果授权用户是具有注册信息的用户，则步骤S101在确定待识别语音是否属于授权用户时，可通过待识别语音所属用户提交的当前身份信息与注册信息是否匹配来判断待识别语音是否属于授权用户。此外，授权用户也可以是具有可标识的身份信息的用户，这里所指的可标识的身份信息，包括预先通过授权用户的语音样本训练得到的声学模板。与之对应的，步骤S101确定待识别语音是否属于授权用户的方式包括：提取待识别语音的声学特征，并确定待识别语音的声学特征与授权用户对应的声学模板之间的匹配度是否满足要求，如果是，则确定待识别语音属于授权用户，否则确定待识别语音不属于授权用户。

请参考图2，图2为本发明中确定待识别语音是否属于授权用户的一个实施例的流程示意图。其中比对是为了确定待识别语音的声学特征与授权用户对应的声学模板之间的匹配度是否满足要求，如确定待识别语音的声学特征与授权用户的声学模板之间的余弦距离是否满足最低限值要求。为了确定待识别语音是否属于授权用户，在对语音样本和待识别语音进行特征提取时，可选择的声学特征包括说话人声道长度信息等，此外，这里的声学特征还可以是本领域技术人员在进行说话人确认时使用的其他特征，本发明对此不做限制。

如果待识别语音是属于授权用户的，则本发明中，将利用与授权用户对应的语音识别模型对待识别语音进行识别。其中与授权用户对应的语音识别模型，是预先利用授权用户的语音标注样本训练得到的。

请参考图3，图3为本发明中语音识别过程的一个实施例的流程示意图。图2中的授权用户的声学模板，只需要授权用户的语音样本即可训练得到，而图3中的授权用户对应的语音识别模型，则是通过授权用户的语音标注样本训练得到的。可以理解，语音识别的过程就是将语音转化为相应文本的过程。因此，为了得到能够描述语音与相应文本之间转化参数的语音识别模型，必须有语音和对应的文本标注形成的样本数据供训练使用。

授权用户对应的语音识别模型，可以是大量采集授权用户的语音标注样本数据对未知参数的模型进行一次性训练后得到的，也可以是每次采集授权用户的少量语音标注样本数据对一个已有参数的通用模型进行增量训练，通过多次训练后得到的。

进一步地，本发明还可以在步骤S101中将识别结果返回给用户后，接受用户对识别结果的反馈，并利用用户反馈与待识别语音优化授权用户对应的语音识别模型。

语音识别结果可以包括多个文本结果项。例如语音“baidu”，在识别后，得到多个文本结果项：“百度”、“白度”和“摆渡”。用户如果点击了“百度”作为对识别结果的反馈，则步骤S101中，就可以将语音“baidu”与“百度”作为标注数据对授权用户对应的语音识别模型进行增量训练，从而优化授权用户对应的语音识别模型。

在上述例子中，如果用户对识别结果中的文本进行了修改，并以修改后的文本作为反馈，则还需要进一步对该反馈进行判断后，才确定是否利用该反馈和待识别语音优化授权用户对应的语音识别模型。

具体地，利用用户反馈与待识别语音优化授权用户对应的语音识别模型的方式包括：

确定用户对识别结果的反馈与识别结果之间的语音差异，当该差异在设定区间内时，接受用户对识别结果的反馈，并使用该反馈与待识别语音优化授权用户对应的语音识别模型。

例如上述例子中，语音“baidu”的识别结果有“百度”、“白度”、“摆渡”，用户的反馈是“拜读”，则根据上述实施方式，在接收到用户反馈的“拜读”后，将确定“拜读”与上述识别结果“百度”、“白度”、“摆渡”之间的语音差异，如果该差异在设定区间，则可以利用“baidu”与“拜读”来优化授权用户对应的语音识别模型。但是，如果用户在接收到上述识别结果“百度”、“白度”、“摆渡”后，将结果改为“谷歌”作为对识别结果的反馈，则根据上述实施方式，在接收到用户反馈的“谷歌”之后，由于“谷歌”与“百度”、“白度”、“摆渡”之间的语音差异太大，就不会采用“baidu”和“谷歌”来优化授权用户对应的语音识别模型。

在步骤S101中，如果待识别语音不属于授权用户，则在步骤S102中，首先需要确定待识别语音所属方言类别。确定待识别语音所属方言类别的方式与确定待识别语音是否属于授权用户的方式是类似的，具体包括：将待识别语音的声学特征分别与各方言类别对应的声学模板进行比对，当各比对结果中的最大匹配度超过设定值时，将该最大匹配度对应的方言类别作为待识别语音所属方言类别。

其中各方言类别对应的声学模板也是预先利用对应方言的语音样本训练得到的。在上述实施方式中，待识别语音的声学特征与各个声学模板均需要进行比对，以确定匹配度最高值，如果该匹配度最高值超过设定值，就可以把待识别语音归类到该最高匹配度对应的方言类别。进一步地，如果待识别语音的声学特征与各个声学模板之间的匹配度均不超过设定值，则说明无法确定待识别语音的方言类别。

当确定了待识别语音所属方言类别之后，就可以利用待识别语音所属方言类别对应的语音识别模型对待识别语音进行识别。其中，待识别语音所属方言类别对应的语音识别模型，是预先利用该方言类别的语音标注样本训练得到的。

各个方言类别对应的语音识别模型的训练方式与授权用户对应的语音识别模型的训练方式是类似的，可以采用大量语音标注数据对未知参数的模型进行一次性训练得到，也可以是每次采用少量的语音标注数据对已知参数的通用模型进行增量训练，通过多次训练后得到。

利用待识别语音所属方言类别对应的语音识别模型对待识别语音进行识别后，进一步也可根据用户对识别结果的反馈及待识别语音，优化待识别语音所属方言类别对应的语音识别模型。具体地包括：确定用户对识别结果的反馈与识别结果之间的语音差异，当该差异在设定区间时，接受用户对识别结果的反馈，并使用该反馈与待识别语音优化授权用户对应的语音识别模型。

进一步地，如果步骤S102中无法确定待识别语音所属方言类别，则本发明还可以进一步利用通用语音识别模型对待识别语音进行识别。其中通用语音识别模型是预先利用各种语音标注样本数据进行训练得到的。

本发明通过对待识别语音进行分析判断，可以选取最适合待识别语音的语音识别模型对其进行识别，从而大大提高语音识别的精度。如果待识别语音属于授权用户，则可以采用根据该用户的语音特点训练得到的个性化模型（授权用户对应的语音识别模型）对待识别语音进行识别；如果待识别语音不属于授权用户，也可以根据待识别语音的方言特点，选取适应该方言特点的语音识别模型对其进行识别；如果待识别语音的方言特点也不能确定，还可以采用通用的语音识别模型对其进行识别。通过这种方式，本发明能够有效实现语音识别的个性化，有针对性地提高语音识别的精度。

本发明的方法，在现有手机（移动终端）可能被多个用户使用的条件下，能够得到很好的应用。例如，手机被机主长期使用，机主就是授权用户，当机主在进行语音识别时，能够根据适用于该机主的语音识别模型对其语音进行识别，从而得到最佳结果，并且，如果机主的反馈行为满足优化条件（即反馈与识别结果的语音差别在设定区间），则机主的反馈可以进一步优化对应的识别模型，而手机被机主之外的人使用时，其他人的反馈行为则不会影响到机主对应的语音识别模型，这样可以在满足各种用户使用需要的同时，保证授权用户对应的语音识别模型的参数不被错误数据影响。如果待识别语音不是机主本人发出的，则在满足非机主用户的使用需求时，本发明也可以根据方言判断适用的语音识别模型，保证了对其他用户的语音进行识别时的精度。

请参考图4，图4为本发明中个性化的语音识别的装置的实施例一的结构示意框图。如图4所示，该实施例包括：第一识别单元201及第二识别单元202。

其中第一识别单元201，用于确定待识别语音是否属于授权用户，如果是，则利用授权用户对应的语音识别模型对待识别语音进行识别，否则触发第二识别单元202执行。

第二识别单元202，用于确定待识别语音所属方言类别，并利用待识别语音所属方言类别对应的语音识别模型对待识别语音进行识别。

具体地，第一识别单元201确定待识别语音是否属于授权用户的方式包括：

提取待识别语音的声学特征，并确定待识别语音的声学特征与授权用户对应的声学模板之间的匹配度是否满足要求，如果是，则确定待识别语音属于授权用户，否则确定待识别语音不属于授权用户。

具体地，第二识别单元202确定待识别语音所属方言类别的方式包括：

将待识别语音的声学特征分别与各方言类别对应的声学模板进行比对，当各比对结果中的最大匹配度超过设定值时，将该最大匹配度对应的方言类别作为待识别语音所属方言类别。

请参考图5，图5为本发明中个性化的语音识别的装置的实施例二的结构示意框图。如图5所示，该实施例在实施例一的基础上进一步包括：第一优化单元203和第二优化单元204。

其中第一优化单元203，用于在第一识别结果201对待识别语音进行识别后，根据用户对识别结果的反馈及待识别语音，优化授权用户对应的语音识别模型。

具体地，第一优化单元203优化授权用户对应的语音识别模型的方式包括：

第二优化单元204，用于在第二识别单元202对待识别语音进行识别后，根据用户对识别结果的反馈及待识别语音，优化待识别语音所属方言类别对应的语音识别模型。

具体地，第二优化单元204优化待识别语音所属方言类别对应的语音识别模型的方式包括：

确定用户对识别结果的反馈与识别结果之间的语音差异，当该差异在设定区间时，接受用户对识别结果的反馈，并使用该反馈与待识别语音优化授权用户对应的语音识别模型。

请参考图6，图6为本发明中个性化的语音识别的装置的实施例三的结构示意框图。如图6所示，该实施例在实施例二的基础上进一步包括：第三识别单元205，用于当第二识别单元202无法确定待识别语音所属方言类别时，利用通用语音识别模型对待识别语音进行识别。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种个性化的语音识别的方法，包括：

A.确定待识别语音是否属于授权用户，如果是，则利用所述授权用户对应的语音识别模型对所述待识别语音进行识别，否则执行步骤B；

B.确定所述待识别语音所属方言类别，并利用所述待识别语音所属方言类别对应的语音识别模型对待识别语音进行识别。

2.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

当无法确定所述待识别语音所属方言类别时，利用通用语音识别模型对待识别语音进行识别。

3.根据权利要求1所述的方法，其特征在于，所述步骤A中，对所述待识别语音进行识别后进一步包括：

根据用户对识别结果的反馈及所述待识别语音，优化所述授权用户对应的语音识别模型。

4.根据权利要求1所述的方法，其特征在于，所述步骤B中，对所述待识别语音进行识别后进一步包括：

根据用户对识别结果的反馈及所述待识别语音，优化所述待识别语音所属方言类别对应的语音识别模型。

5.根据权利要求1所述的方法，其特征在于，确定待识别语音是否属于授权用户的步骤包括：

提取待识别语音的声学特征，并确定所述待识别语音的声学特征与所述授权用户对应的声学模板之间的匹配度是否满足要求，如果是，则确定所述待识别语音属于所述授权用户，否则确定所述待识别语音不属于所述授权用户。

6.根据权利要求5所述的方法，其特征在于，确定所述待识别语音所属方言类别的步骤包括：

将所述待识别语音的声学特征分别与各方言类别对应的声学模板进行比对，当各比对结果中的最大匹配度超过设定值时，将该最大匹配度对应的方言类别作为所述待识别语音所属方言类别。

7.一种个性化的语音识别的装置，包括：

第一识别单元，用于确定待识别语音是否属于授权用户，如果是，则利用所述授权用户对应的语音识别模型对所述待识别语音进行识别，否则触发第二识别单元执行；

第二识别单元，用于确定所述待识别语音所属方言类别，并利用所述待识别语音所属方言类别对应的语音识别模型对待识别语音进行识别。

8.根据权利要求7所述的装置，其特征在于，所述装置进一步包括：

第三识别单元，用于当所述第二识别单元无法确定所述待识别语音所属方言类别时，利用通用语音识别模型对待识别语音进行识别。

9.根据权利要求7所述的装置，其特征在于，所述装置进一步包括：

第一优化单元，用于在所述第一识别单元对所述待识别语音进行识别后，根据用户对识别结果的反馈及所述待识别语音，优化所述授权用户对应的语音识别模型。

10.根据权利要求7所述的装置，其特征在于，所述装置进一步包括：

第二优化单元，用于在所述第二识别单元对所述待识别语音进行识别后，根据用户对识别结果的反馈及所述待识别语音，优化所述待识别语音所属方言类别对应的语音识别模型。

11.根据权利要求1所述的装置，其特征在于，所述第一识别单元确定待识别语音是否属于授权用户的方式包括：

12.根据权利要求11所述的装置，其特征在于，所述第二识别单元确定所述待识别语音所属方言类别的方式包括：