CN111341324A

CN111341324A - 一种基于fasttest模型的识别纠错及训练方法

Info

Publication number: CN111341324A
Application number: CN202010416525.9A
Authority: CN
Inventors: 王磊
Original assignee: Zhejiang Baiying Technology Co Ltd
Current assignee: Zhejiang Baiying Technology Co Ltd
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2020-06-26
Anticipated expiration: 2040-05-18
Also published as: CN111341324B

Abstract

本发明公开了一种基于fasttest模型的识别纠错方法，包括：获取待识别的语音对话流；将待识别的语音对话流输入声纹识别模型中进行二聚类获得第一聚类音频和第二聚类音频；将第一聚类音频输入ASR模型中进行语音识别获得第一聚类音频的第一语音识别结果，将第二聚类音频输入ASR模型中进行语音识别获得第二聚类音频的第二语音识别结果；将第一语音识别结果输入fasttest模型进行二分类判断，获得第一语音识别结果的第一最终标签，将第二语音识别结果输入fasttest模型进行二分类判断，获得第二语音识别结果的第二最终标签。

Description

一种基于fasttest模型的识别纠错及训练方法

技术领域

本发明涉及语音分类领域，尤其涉及一种基于fasttest模型的识别纠错及训练方法。

背景技术

目前，在语音质检的场景中，大部分的厂商均不支持双声道来存储，而单声道存储涉及到声纹分离的工作。如果仅仅通过听录音进行质检，不仅费时费力，而且会遗漏掉badcase，不及时处理这类问题，很容易对公司未来的收益造成隐患。而声纹识别将一段录音拆分成qa（question，问题；answer，答案）的方式，并通过ASR语音识别转化为文字的形式，大幅度降低单通电话的质检时间，不仅提高了效率并且大大增加了badcase的召回率。

此外，由于目前大部分的厂商的客服都不是固定的，人员流动大，基于声纹库进行识别分类，不仅维护困难，而且成本较大。而基于聚类方法进行无监督识别，又容易受到噪声、人的情绪干扰，使得准确率低下，难以符合预期达到商用的效果。

发明内容

本发明要解决的技术问题，在于提供一种基于fasttest模型的识别纠错及训练方法，对声纹识别的二聚类结果通过fasttest模型再进行二分类，提高说话人的分类准确率。

为实现上述目的，本发明采用下述技术方案：

第一方面，本发明提供一种基于fasttest模型的识别纠错方法，所述方法包括：

获取待识别的语音对话流；将所述待识别的语音对话流输入声纹识别模型中进行二聚类获得第一聚类音频和第二聚类音频，其中，所述第一聚类音频为带有第一初始标签的音频集合，所述第二聚类音频为带有第二初始标签的音频集合；将所述第一聚类音频输入ASR模型中进行语音识别获得所述第一聚类音频的第一语音识别结果，将所述第二聚类音频输入ASR模型中进行语音识别获得所述第二聚类音频的第二语音识别结果，其中，所述第一语音识别结果为第一聚类音频的文本集合，所述第二语音识别结果为第二聚类音频的文本集合；将所述第一语音识别结果输入fasttest模型进行二分类判断，获得所述第一语音识别结果的第一最终标签，将所述第二语音识别结果输入fasttest模型进行二分类判断，获得所述第二语音识别结果的第二最终标签。

在上述方案中，所述方法还包括：

将所述第一语音识别结果中的每一个文本分别输入fasttest模型进行二分类获得所述第一语音识别结果中每一个文本的标签，将每一个文本的标签与第一最终标签进行比对，其中某个文本的标签与第一最终标签不一致时，通过人工设定的阈值判断是否更改该文本的标签。

在上述方案中，所述方法还包括：

将所述第二语音识别结果中的每一个文本分别输入fasttest模型进行二分类获得所述第二语音识别结果中每一个文本的标签，将每一个文本的标签与第二最终标签进行比对，其中某个文本的标签与第二最终标签不一致时，通过人工设定的阈值判断是否更改该文本的标签。

在上述方案中，获取待识别的语音对话流之后，将所述待识别的语音对话流转换为wav格式。

第二方面，本发明提供一种fasttest模型的训练方法，应用于fasttest模型，所述训练方法包括：

获取两个不同说话人的语音段；

将所述两个不同说话人的语音段进行预处理获得预处理后的语音段；

对所述预处理后的语音段按照说话人进行标记，获得带有标签的语音段；

将所述带有标签的语音段输入fasttest模型进行训练。

在上述方案中，将所述两个不同说话人的语音段进行预处理包括：去停用词和进行分词。

本发明的有益效果是：

1、本发明提供一种基于fasttest模型的识别纠错方法，首先将对话语音通过声纹识别分割成聚类音频，再将聚类音频输入ASR中获得聚类音频的识别文本，通过识别文本输入fasttest模型进行二分类判断获得最终的聚类音频的标签，既无需声纹数据库、声纹注册，也不用再去对声纹进行标注，降低了系统开销和人工成本；

2、在聚类音频标签的基础上，本发明通过对文本集合中的每一个文本单独进行二分类判断，避免因声纹识别模型误切分造成的音频分类错误；

3、本发明融合了多模型进行分类判断及纠错，鲁棒性更强，准确率更高。

附图说明

图1为本发明提供的一种基于fasttest模型的识别纠错方法的流程示意图；

图2为本发明提供的一种fasttest模型的训练方法的流程示意图。

具体实施方式

下面通过具体实施例，并结合附图，对本发明的技术方案作进一步的具体描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图，详细说明本发明中各实施例提供的技术方案。

第一方面，本发明实施例提供一种基于fasttest模型的识别纠错方法，如附图1所示，所述方法包括：

S101,获取待识别的语音对话流；

一般性地，获取待识别的语音对话流之后，将所述待识别的语音对话流转换为wav格式。

S102，将所述待识别的语音对话流输入声纹识别模型中进行二聚类获得第一聚类音频和第二聚类音频；

其中，所述第一聚类音频为带有第一初始标签的音频集合，所述第二聚类音频为带有第二初始标签的音频集合。

一般性地，将wav格式的语音对话流输入声纹识别模型后，将同一说话人的音频进行聚类获得同一说话人的音频集合，并且对同一说话人的音频集合进行标注。在本发明中，语音对话流一般为两个不同说话人之间的对话，获得的音频集合分别为第一聚类音频和第二聚类音频，第一聚类音频对应第一说话人音频集合，第二聚类音频对应第二说话人音频集合。分别对第一聚类音频和第二聚类音频进行打标，第一聚类音频打标为第一初始标签，第二聚类音频打标为第二初始标签。

S103，将所述第一聚类音频输入ASR（Automatic Speech Recognition，自动语音识别）模型中进行语音识别获得所述第一聚类音频的第一语音识别结果，将所述第二聚类音频输入ASR模型中进行语音识别获得所述第二聚类音频的第二语音识别结果；

其中，所述第一语音识别结果为第一聚类音频的文本集合，所述第二语音识别结果为第二聚类音频的文本集合。

S104，将所述第一语音识别结果输入fasttest模型进行二分类判断，获得所述第一语音识别结果的第一最终标签，将所述第二语音识别结果输入fasttest模型进行二分类判断，获得所述第二语音识别结果的第二最终标签。

在一个示例中，所述方法还包括：

第二方面，本发明实施例提供一种fasttest模型的训练方法，应用于fasttest模型，如附图2所示，所述训练方法包括：

S201，获取两个不同说话人的语音段；

S202，将所述两个不同说话人的语音段进行预处理获得预处理后的语音段；

在一个示例中，将所述两个不同说话人的语音段进行预处理包括：去停用词和进行分词。

S203，对所述预处理后的语音段按照说话人进行标记，获得带有标签的语音段；

S204，将所述带有标签的语音段输入fasttest模型进行训练。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，这些均属于本发明的保护范围之内。

Claims

1.一种基于fasttest模型的识别纠错方法，其特征是，所述方法包括：

2.根据权利要求1所述的一种基于fasttest模型的识别纠错方法，其特征是，

所述方法还包括：

3.根据权利要求1所述的一种基于fasttest模型的识别纠错方法，其特征是，

所述方法还包括：

4.根据权利要求1所述的一种基于fasttest模型的识别纠错方法，其特征是，

获取待识别的语音对话流之后，将所述待识别的语音对话流转换为wav格式。

5.一种fasttest模型的训练方法，应用于fasttest模型，其特征是，所述训

练方法包括：

获取两个不同说话人的语音段；

将所述带有标签的语音段输入fasttest模型进行训练。

6.根据权利要求5所述的一种fasttest模型的训练方法，其特征是，将所述两

个不同说话人的语音段进行预处理包括：去停用词和进行分词。