CN112447167A

CN112447167A - 语音识别模型验证方法、装置、计算机设备和存储介质

Info

Publication number: CN112447167A
Application number: CN202011286770.9A
Authority: CN
Inventors: 张云婵; 王明; 曹田田; 侯进标; 王鑫; 罗锐
Original assignee: Kangjian Information Technology Shenzhen Co Ltd
Current assignee: Kangjian Information Technology Shenzhen Co Ltd
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-03-05
Anticipated expiration: 2040-11-17
Also published as: CN112447167B

Abstract

本申请涉及人工智能，提供了一种语音识别模型验证方法、装置、计算机设备和存储介质。所述方法包括：获取验证需求信息；根据所述验证需求信息确定目标数据类型、目标业务场景与待验证的目标语音识别模型；从所述目标业务场景下获取属于所述目标数据类型的目标音频数据；通过所述目标语音识别模型对所述目标音频数据进行语音识别，得到相应的识别文本；将所述目标音频数据与相应识别文本发送至终端进行审核，并接收所述终端针对所述目标音频数据反馈的标准文本；根据所述目标音频数据对应的标准文本与识别文本对所述目标语音识别模型进行验证，得到相应的验证结果。采用本方法能够语音识别模型的验证效率。

Description

语音识别模型验证方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种语音识别模型验证方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的不断发展，基于人工智能的人机交互模式逐渐发展起来，在节省人力物力的同时，给人们的生活带来了诸多便捷。语音识别技术作为人机交互过程中所涉及的关键技术也逐渐发展起来。目前的语音识别技术通常是基于语音识别模型实现的，也即是通过语音识别模型对音频数据进行语音识别得到相应的识别文本，由此，识别文本的准确性取决于语音识别模型的识别准确性。为了保证实际应用过程中的识别准确性，通常会对已训练得到的语音识别模型进行验证，并通过验证通过的语音识别模型对实际应用过程中所采集的音频数据进行语音识别，以此来保证识别准确性。由此，如何对语音识别模型进行验证是值得关注的问题。

目前，通常是将多个音频数据与每个音频数据对应的识别文本发送至终端，以便于用户借助于终端根据各音频数据与相应的识别文本对语音识别模型进行验证。但是，该种验证方式存在验证效率低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高语音识别模型的验证效率的语音识别模型验证方法、装置、计算机设备和存储介质。

一种语音识别模型验证方法，所述方法包括：

获取验证需求信息；

根据所述验证需求信息确定目标数据类型、目标业务场景与待验证的目标语音识别模型；

从所述目标业务场景下获取属于所述目标数据类型的目标音频数据；

通过所述目标语音识别模型对所述目标音频数据进行语音识别，得到相应的识别文本；

将所述目标音频数据与相应识别文本发送至终端进行审核，并接收所述终端针对所述目标音频数据反馈的标准文本；

根据所述目标音频数据对应的标准文本与识别文本对所述目标语音识别模型进行验证，得到相应的验证结果。

在其中一个实施例中，所述将所述目标音频数据与相应识别文本发送至终端进行审核，并接收所述终端针对所述目标音频数据反馈的标准文本，包括：

根据所述识别文本确定相应目标音频数据所对应的候选数据标签；

将所述目标音频数据与相应候选数据标签、识别文本发送至终端进行审核；

接收所述终端针对所述目标音频数据反馈的标准文本与目标数据标签。

在其中一个实施例中，所述根据所述目标音频数据对应的标准文本与识别文本对所述目标语音识别模型进行验证，得到相应的验证结果，包括：

从所述目标音频数据中筛选目标数据标签为有效数据的目标音频数据；

根据所筛选出的目标音频数据对应的标准文本与识别文本，对所述目标语音识别模型进行验证，得到相应的验证结果。

将每个目标音频数据对应的标准文本与识别文本进行匹配，得到相应的字识别结果与文本识别结果；

根据所述目标业务场景下各目标音频数据对应的字识别结果，得到相应的字识别准确率；

根据所述目标业务场景下各目标音频数据对应的文本识别结果，得到相应的文本识别准确率；

根据所述字识别准确率与所述文本识别准确率，确定所述目标语音识别模型在所述目标业务场景下的验证结果。

在其中一个实施例中，所述从所述目标业务场景下获取属于所述目标数据类型的目标音频数据，包括：

从所述目标业务场景下获取属于所述目标数据类型的候选音频数据；

确定每个候选音频数据的信噪比；

从所获取到的候选音频数据中筛选信噪比大于或等于信噪比阈值的目标音频数据。

在其中一个实施例中，所述方法还包括：

根据所述验证需求信息确定目标设备类型；

所述从所述目标业务场景下获取属于所述目标数据类型的目标音频数据，包括：

从所述目标业务场景下获取属于所述目标数据类型、且由属于所述目标设备类型的设备采集的目标音频数据。

在其中一个实施例中，所述方法还包括：

当所述验证结果为验证未通过时，根据所述目标业务场景下的各目标音频数据，以及每个目标音频数据对应的标准文本与识别文本确定训练样本集；

根据所述训练样本集对所述目标语音识别模型进行优化训练，得到优化后的目标语音识别模型。

一种语音识别模型验证装置，所述装置包括：

获取模块，用于获取验证需求信息；

确定模块，用于根据所述验证需求信息确定目标数据类型、目标业务场景与待验证的目标语音识别模型；

所述获取模块，还用于从所述目标业务场景下获取属于所述目标数据类型的目标音频数据；

识别模块，用于通过所述目标语音识别模型对所述目标音频数据进行语音识别，得到相应的识别文本；

审核模块，用于将所述目标音频数据与相应识别文本发送至终端进行审核，并接收所述终端针对所述目标音频数据反馈的标准文本；

验证模块，用于根据所述目标音频数据对应的标准文本与识别文本对所述目标语音识别模型进行验证，得到相应的验证结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述各方法实施例中的步骤。

一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述各方法实施例中的步骤。

上述语音识别模型验证方法、装置、计算机设备和存储介质，根据验证需求信息确定待验证的目标语音识别模型，以及用于验证该目标语音识别模型的目标数据类型与目标业务场景，从目标业务场景下获取属于目标数据类型的目标音频数据，通过目标语音识别模型对每个目标音频数据进行语音识别得到相应的识别文本，并将各目标音频数据与相应的识别文本发送至终端，以指示终端根据每个目标音频数据对相应的识别文本进行审核及修正，得到相应的标准文本，进而根据各目标音频数据对应的识别文本，以及终端针对各目标音频数据所反馈的标准文本，对目标语音识别模型进行验证得到相应的验证结果。这样，根据每个目标业务场景下属于目标数据类型的目标音频数据，分别对目标语音识别模型进行验证，以验证该目标语音识别模型在各目标业务场景下的识别准确率，能够提高语音识别模型验证的细粒度，从而能够在保证语音识别模型的验证效率的情况下，提高验证准确性。而通过目标语音识别模型与人工审核相结合的方式来确定每个目标音频数据对应的标准文本，能够在保证标准文本的准确性的情况下，提高标准文本的生成效率，从而能够在保证语音识别模型的验证准确性的情况下，提高验证效率。

附图说明

图1为一个实施例中语音识别模型验证方法的应用场景图；

图2为一个实施例中语音识别模型验证方法的流程示意图；

图3为另一个实施例中语音识别模型验证方法的流程示意图；

图4为一个实施例中语音识别模型验证装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的语音识别模型验证方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。服务器104获取验证需求信息，根据验证需求信息确定目标数据类型、目标业务场景与待验证的目标语音识别模型，从目标业务场景下获取属于目标数据类型的目标音频数据，通过目标语音识别模型对目标音频数据进行语音识别，得到相应的识别文本，将目标音频数据与相应识别文本发送至终端102进行审核，并接收终端102针对目标音频数据反馈的标准文本，根据目标音频数据对应的标准文本与识别文本对目标语音识别模型进行验证，得到相应的验证结果。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种语音识别模型验证方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取验证需求信息。

其中，验证需求信息是表征验证需求的信息，用于指定待验证的目标语音识别模型，以及用于验证目标语音识别模型的目标音频数据所属的目标业务场景与目标数据类型，还可用于指定目标音频数据对应的目标设备类型与批次号等。验证需求信息具体可包括待验证的目标语音识别模型对应的模型标识、模型标识所关联的目标数据类型，以及目标业务场景所对应的业务场景标识，还可包括目标设备类型与批次号等。

在一个实施例中，服务器接收终端发送的语音识别模型验证指令，根据所接收到的语音识别模型验证指令获取验证需求信息。服务器可解析语音识别模型验证指令得到相应的验证需求信息，也可根据语音识别模型验证指令从本地获取预配置的验证需求信息。

在一个实施例中，已训练好的语音识别模型有多个。语音识别模型与数据类型相对应，每个语音识别模型用于对属于相应数据类型的音频数据进行语音识别，得到相应的识别文本，这样，能够提高语音识别模型的识别准确率。语音识别模型包括但不限于是搜索模型、医疗模型与基础模型，各自对应的数据类型分别为搜索类、医疗类与基础类。

在一个实施例中，基础模型可同时关联搜索类、医疗类与基础类的音频数据，由此，基础模型能够用于对搜索类、医疗类与基础类的音频数据进行语音识别。

在一个实施例中，业务场景有多个，每个业务场景下区分不同的数据类型。由此，每个语音识别模型适用于一个或多个业务场景，具体可由每个业务场景下的数据类型，以及每个数据类型所关联的语音识别模型来确定。业务场景包括但不限于是客服、主客与药柜。其中，客服这一业务场景下有用户角色与助手角色的区分，用户角色对应医疗类的音频数据，助手角色对应搜索类的音频数据。主客这一业务场景有搜索、问诊与声纹等子业务场景的区分，搜索对应搜索类的音频数据，问诊对应医疗类的音频数据，声纹对应基础类的音频数据。药柜有内屏与外屏等子业务场景的区分，内屏对应医疗类的音频数据，外屏对应搜索类的音频数据。

步骤204，根据验证需求信息确定目标数据类型、目标业务场景与待验证的目标语音识别模型。

具体地，服务器根据所获取到的验证需求信息确定待验证的目标语音识别模型，以及用于验证该目标语音识别模型的目标音频数据所属的目标数据类型与目标业务场景。

在一个实施例中，根据验证需求信息所确定的目标语音识别模型，具体可以是已训练好的一个或多个语音识别模型。若待验证的目标语音识别模型有多个，则根据验证需求信息分别确定每个目标语音识别模型对应的目标数据类型与目标业务场景。

在一个实施例中，验证需求信息具体可针对待验证的每个目标语音识别模型，指定一个或多个目标业务场景。若待验证的目标语音识别模型与多个数据类型相关联，验证需求信息还可针对该目标语音识别模型指定一个或多个目标数据类型。

步骤206，从目标业务场景下获取属于目标数据类型的目标音频数据。

具体地，针对每个业务场景，会动态采集该业务场景下实际生成的业务数据，并将所采集到的业务数据按照业务场景与数据类型进行分区存储。在本实施例中，业务数据可理解为音频数据。在语音识别模型的验证过程中，服务器根据目标业务场景查询相应存储的音频数据，并从所查询到的音频数据筛选属于目标数据类型的音频数据，将所筛选出的音频数据作为从目标业务场景下所获取到的、且属于目标数据类型的目标音频数据。

在一个实施例中，针对待测试的每个目标语音识别模型，从该目标语音识别模型对应的目标业务场景下获取属于相应目标数据类型的目标音频数据。

步骤208，通过目标语音识别模型对目标音频数据进行语音识别，得到相应的识别文本。

具体地，服务器在获取到用于验证目标语音识别模型的目标音频数据后，将每个目标音频数据分别输入该目标语音识别模型进行语音识别，得到相应的识别文本。

在一个实施例中，待验证的目标语音识别模型有多个。服务器则将针对每个目标语音识别模型所获取到的目标音频数据，分别输入相应目标语音识别模型中进行语音识别，得到相应的识别文本。

步骤210，将目标音频数据与相应识别文本发送至终端进行审核，并接收终端针对目标音频数据反馈的标准文本。

其中，识别文本与标准文本相对应，识别文本是指通过待验证的目标语音识别模型对目标音频数据进行语音识别所得到的文本，标准文本是指通过待验证的目标语音识别模型与人工审核相结合的方式，对目标音频数据进行语音识别所得到的文本。

具体地，服务器将各目标音频数据与相应的识别文本发送至终端。终端将所接收到的目标音频数据与相应的识别文本展示给审核人员，以指示审核人员通过试听目标音频数据的方式对相应展示的识别文本进行人工审核，并针对存在识别错误的识别文本进行修正，将修正后的识别文本确定为目标音频数据所对应的标准文本。服务器接收终端针对各目标音频数据反馈的标准文本。

可以理解，终端将目标音频数据与相应的识别文本展示给审核人员进行人工审核，若判定所展示的识别文本是从相应目标音频数据中识别出的正确文本，则直接将该设备文本确定为目标音频数据的标准文本，若判定所展示的识别文本相较于正确文本存在识别错误，则通过修正识别错误的方式得到目标音频数据的标准文本，这样，能够在保证标准文本的准确性的情况下，能够提高标准文本的获取效率。

在一个实施例中，针对每个目标业务场景，服务器从该目标业务场景对应的目标音频数据中筛选预设比例的目标音频数据，将所筛选出的目标音频数据与相应的标准文本发送至终端进行质检，得到相应的质检结果。若质检结果为质检通过，则根据该目标业务场景下各目标音频数据对应的标准文本与识别文本，对目标语音识别模型进行验证得到相应的验证结果。若质检结果为质检未通过，则将该目标业务场景下的各目标音频数据与相应标准文本发送至终端进行再次审核，并按照上述方式对再次审核得到的标准文本进行质检。其中，预设比例可自定义，比如20％。质检过程包括：终端将目标音频数据与相应标准文本展示给质检人员，以指示质检人员通过试听目标音频数据的方式对对应展示的标准文本进行质检，以确定每个目标音频数据是否质检通过，若质检通过的目标音频数据的数据量在待质检的目标音频数据的数据总量中的占比，大于或等于预设占比阈值，则判定相应目标业务场景下各目标音频数据对应的质检结果为质检通过。预设占比阈值比如95％。

步骤212，根据目标音频数据对应的标准文本与识别文本对目标语音识别模型进行验证，得到相应的验证结果。

其中，验证结果包括验证通过与验证未通过。可以理解，验证结果中还可包括字识别准确率与文本识别准确率。

具体地，服务器将每个目标音频数据对应的标准文本与识别文本进行匹配，以根据各目标音频数据对应的匹配结果对目标语音识别模型进行验证，得到相应的验证结果。

在一个实施例中，待验证的目标语音识别模型有多个。针对每个目标语音识别模型，服务器根据该目标语音识别模型对应的各目标音频数据所对应的标准文本与识别文本，对该目标语音识别模型进行验证得到相应验证结果。

在一个实施例中，待验证的每个目标语音识别模型对应的目标业务场景有多个。服务器根据每个目标业务场景下各目标音频数据对应的标准文本与识别文本，分别对相应目标语音识别模型进行验证，得到该目标语音识别模型在每个目标业务场景下对应的验证结果。这样，能够分别验证目标语音识别模型在每个目标业务场景下的识别准确性。可以理解，服务器也可根据多个目标业务场景下各目标音频数据对应的标准文本与识别文本，对相应目标语音识别模型进行验证，得到相应的验证结果。这样，能够从整体上验证目标语音识别模型的识别准确性。

上述语音识别模型验证方法，根据验证需求信息确定待验证的目标语音识别模型，以及用于验证该目标语音识别模型的目标数据类型与目标业务场景，从目标业务场景下获取属于目标数据类型的目标音频数据，通过目标语音识别模型对每个目标音频数据进行语音识别得到相应的识别文本，并将各目标音频数据与相应的识别文本发送至终端，以指示终端根据每个目标音频数据对相应的识别文本进行审核及修正，得到相应的标准文本，进而根据各目标音频数据对应的识别文本，以及终端针对各目标音频数据所反馈的标准文本，对目标语音识别模型进行验证得到相应的验证结果。这样，根据每个目标业务场景下属于目标数据类型的目标音频数据，分别对目标语音识别模型进行验证，以验证该目标语音识别模型在各目标业务场景下的识别准确率，能够提高语音识别模型验证的细粒度，从而能够在保证语音识别模型的验证效率的情况下，提高验证准确性。而通过目标语音识别模型与人工审核相结合的方式来确定每个目标音频数据对应的标准文本，能够在保证标准文本的准确性的情况下，提高标准文本的生成效率，从而能够在保证语音识别模型的验证准确性的情况下，提高验证效率。

在一个实施例中，步骤210，包括：根据识别文本确定相应目标音频数据所对应的候选数据标签；将目标音频数据与相应候选数据标签、识别文本发送至终端进行审核；接收终端针对目标音频数据反馈的标准文本与目标数据标签。

其中，数据标签包括有效数据与无效数据。具体地，服务器通过目标语音识别模型对目标音频数据进行语音识别得到相应识别文本后，判断所得到的识别文本的文本内容是否为空，以根据判断结果确定相应目标音频数据的候选数据标签。当目标音频数据对应的识别文本为空时，表明该目标音频数据为音频空白的音频数据，服务器则将该目标音频数据对应的候选数据标签确定为无效数据，否则，将目标音频数据的候选数据标签确定为有效数据。服务器将各目标音频数据，以及每个目标音频数据对应的候选数据标签与识别文本发送至终端。终端将所接收到的目标音频数据、识别文本与候选数据标签对应展示给审核人员，以指示审核人员通过试听目标音频数据的方式对所展示的识别文本与候选数据标签进行审核，并针对存在识别错误的识别文本进行修正得到相应的标准文本，以及针对标注错误的候选数据标签进行修正得到相应的目标数据标签。服务器接收终端针对各目标音频数据反馈的标准文本与目标数据标签。

在一个实施例中，审核人员在试听目标音频数据时，以非业务数据、音频空白、声音小、方言、调戏、读错与声音嘈杂等为标准或依据，将符合至少一个标准的目标音频数据对应的目标数据标签确定为无效数据。

在一个实施例中，服务器将目标音频数据与相应的候选数据标签、识别文本发送至终端时，还将目标音频数据所属的目标数据类型一并发送至终端。终端将所接收到的目标音频数据、目标数据类型、候选数据标签与识别文本对应展示给审核人员。这样，若审核人员通过试听目标音频数据的方式，判定目标音频数据所涉及的文本内容与目标数据类型不一致，则判定该目标音频数据符合非业务数据这一标准，从而判定该目标音频数据的目标数据标签确定为无效数据。

在一个实施例中，服务器根据目标音频数据对应的目标数据标签，将每个目标业务场景下的目标音频数据划分为有效数据与无效数据，并针对每个目标业务场景下的有效数据与无效数据分别进行质检，在有效数据与无效数据各自的质检结果均为质检通过时，则判定该目标业务场景下各目标音频数据的质检结果为质检通过。

上述实施例中，通过目标语音识别模型与人工审核相结合的方式，确定每个目标音频数据对应的标准文本与目标数据标签，能够在保证标准文本与目标数据标签的准确性的情况下，提高标准文本与目标数据标签的确定效率。

在一个实施例中，步骤212，包括：从目标音频数据中筛选目标数据标签为有效数据的目标音频数据；根据所筛选出的目标音频数据对应的标准文本与识别文本，对目标语音识别模型进行验证，得到相应的验证结果。

具体地，服务器在得到各目标音频数据对应的目标数据标签后，根据每个目标音频数据对应的目标数据标签，从所获取到的各目标音频数据中筛选目标数据标签为有效数据的目标音频数据，并将所筛选出的每个目标音频数据对应的标准文本与识别文本进行匹配，以根据所筛选出的各目标音频数据对应的匹配结果，对目标语音识别模型进行验证得到相应的验证结果。

在一个实施例中，针对每个目标业务场景，根据从该目标业务场景下所筛选出的目标音频数据所对应的标准文本与识别文本，对相应目标语音识别模型进行验证，得到目标语音识别模型在该目标业务场景下对应的验证结果。

上述实施例中，基于目标数据标签为有效数据的目标音频数据对相应目标语音识别模型进行验证，能够提高验证的准确性。

在一个实施例中，步骤212，包括：将每个目标音频数据对应的标准文本与识别文本进行匹配，得到相应的字识别结果与文本识别结果；根据目标业务场景下各目标音频数据对应的字识别结果，得到相应的字识别准确率；根据目标业务场景下各目标音频数据对应的文本识别结果，得到相应的文本识别准确率；根据字识别准确率与文本识别准确率，确定目标语音识别模型在目标业务场景下的验证结果。

其中，字识别结果用于表征识别文本中的字与相应标准文本中的字之间的匹配情况，具体可包括识别文本中识别错误的字数。识别错误包括插入错误、删除错误与替换错误，相应地，识别文本中识别错误的字包括插入错误的字、删除错误的字和替换错误的字，插入错误的字表示识别文本相对于标准文本额外插入的字，删除错误的字表示识别文本相对于标准文本删除的字，即识别文本相对于标准文本所缺少的字，替换错误的字表示识别文本相对于标准文本存在字替换的字，将标准文本中的相应字替换为替换错误的字即可获得对应的识别文本。文本识别结果用于表征识别文本与相应标准文本之间的匹配整体匹配情况，具体可包括识别准确与识别错误，若识别文本与标准文本一致，则相应的文本识别结果为识别准确，若识别文本与标准文本不一致，则相应的文本识别结果为识别错误。

举例说明，假设标准文本为“醋酸地塞米松口腔贴片”，相应的识别文本为“醋酸地塞米松口腔含片”，通过将标准文本与识别文本进行匹配，能够确定识别文本相对于标准文本存在替换错误的字“含”，由此，字识别结果为“识别错误的字数为1”，文本识别结果为“识别错误”。

具体地，服务器将每个目标音频数据对应的标准文本与识别文本进行逐字匹配，若匹配失败，则表示识别文本中的字为识别错误的字，并根据各字的匹配结果确定识别文本中识别错误的字数，进而得到相应的字识别结果与文本识别结果。针对每个目标音频数据，将相应识别文本中识别错误的字数确定为字识别结果，并根据该识别文本中识别错误的字数确定相应的文本识别结果，若识别文本中识别错误的字数为零，则判定文本识别结果为识别正确，否则，判定相应文本识别结果为识别错误。

进一步地，针对每个目标业务场景，服务器将该目标业务场景下各目标音频数据对应的标准文本中的字数，以及各目标音频数据对应的识别文本中识别错误的字数分别进行求和，得到该目标业务场景下标准文本的总字数与识别文本中识别错误的总字数，并根据标准文本的总字数与识别文本中识别错误的总字数，得到相应目标语音识别模型在该目标业务场景下的字识别准确率。相应地，针对每个目标业务场景，服务器确定该目标业务场景下目标音频数据的总数量，并根据该目标业务场景下各目标音频数据对应的文本识别结果，确定该目标业务场景下文本识别结果为识别正确的目标音频数据的数量，进而根据该目标业务场景下目标音频数据的总数量，以及文本识别结果为识别正确的目标音频数据的数量，得到相应目标语音识别模型在该目标业务场景下的文本识别准确率。服务器根据每个目标语音识别模型在相应的每个目标业务场景下对应的字识别准确率与文本识别准确率，得到该目标语音识别模型在相应的每个目标业务场景下的验证结果。

在一个实施例中，针对每个目标语音识别模型，服务器将该目标语音识别模型在相应的每个目标业务场景下对应的字识别准确率与文本识别准确率，分别与预配置的字识别准确率阈值与文本识别准确率阈值进行比较。当字识别准确率大于或等于字识别准确率阈值、且文本识别准确率大于或等于文本识别准确率阈值时，则判定目标语音识别模型在该目标业务场景下的验证结果为验证通过。

上述实施例中，根据每个目标音频数据对应的标准文本与识别文本，确定相应的字识别结果与文本识别结果，并根据字识别结果与文本识别结果分别确定相应的字识别准确率与文本识别准确率，进而得到目标语音识别模型在相应目标业务场景下验证结果。这样，基于多个维度的识别准确率来确定目标语音识别模型的验证结果，能够提高验证的准确性。

在一个实施例中，步骤206，包括：从目标业务场景下获取属于目标数据类型的候选音频数据；确定每个候选音频数据的信噪比；从所获取到的候选音频数据中筛选信噪比大于或等于信噪比阈值的目标音频数据。

其中，信噪比(SIGNAL NOISE RATIO，SNR or S/N)是指音频数据中的信号功率与噪声功率的比值，通常用分贝数表示。信噪比越大，表明混杂在信号中的噪声越小，声音回放的音质量越高，否则相反。信噪比阈值是用于与目标音频数据对应的信噪比进行比较，以判定目标音频数据是否为合格数据的依据，具体可自定义，比如15分贝。可以理解，服务器可将信噪比大于或等于信噪比阈值的音频数据确定为合格数据，将信噪比小于信噪比阈值的音频数据确定为不合格数据，并将判定为合格数据的音频数据确定为目标音频数据。

具体地，服务器根据验证需求信息确定目标数据类型、目标业务场景与待验证的目标语音识别模型后，从每个目标业务场景下获取属于目标数据类型的音频数据，作为用于验证相应目标语音识别模型的候选音频数据。服务器分别确定每个候选音频数据的信噪比，并将每个候选音频数据的信噪比与信噪比阈值进行比较，以根据比较结果从所获取到的候选音频数据中筛选信噪比大于或等于信噪比阈值的音频数据，作为目标音频数据。

在一个实施例中，服务器调用预配置的脚本函数来计算每个候选音频数据的信噪比。

在一个实施例中，服务器采用现有技术中的信噪比确定方式来确定每个候选音频数据的信噪比，在此不作具体赘述。

上述实施例中，由于在真实的业务场景下，通常会存在各种噪声，也即是在真实的业务场景下实际采集的音频数据中可能会包含较多的噪声，由此，按照信噪比从实际采集的音频数据中筛选信噪比大于或等于信噪比阈值的音频数据作为目标音频数据，以便于根据目标音频数据进行语音识别模型的验证时，能够提高语音识别模型的验证准确性。

在一个实施例中，上述语音识别模型验证方法还包括：根据验证需求信息确定目标设备类型；步骤206，包括：从目标业务场景下获取属于目标数据类型、且由属于目标设备类型的设备采集的目标音频数据。

其中，设备类型是指在业务场景下用于采集音频数据的设备所对应的类型。设备类型包括但不限于是Android(安卓)类与iOS(由苹果公司开发的移动操作系统)类。

具体地，服务器根据所获取到的验证需求信息确定目标数据类型、目标业务场景、目标设备类型与待验证的目标语音识别模型。进一步地，服务器获取在目标业务场景下所采集的音频数据，从所获取到的音频数据中筛选属于目标数据类型的音频数据，并从所筛选出的音频数据中选取与目标设备类型对应的音频数据作为目标音频数据，也即是从所筛选出的音频数据中选取由目标设备类型的设备采集的音频数据作为目标音频数据。

在一个实施例中，针对待验证的每个目标语音识别模型，在从该目标语音识别模型对应的每个目标业务场景下，获取到属于目标数据类型、且由目标设备类型的设备采集的目标音频数据后，根据从每个目标业务场景下所获取到的属于目标数据类型、且由目标设备类型的设备采集的目标音频数据，分别对该目标语音识别模型进行验证，得到该目标语音识别模型在每个目标业务场景下的每个设备类型下所对应的验证结果。

上述实施例中，基于每个目标业务场景下由目标设备类型对应的设备采集的、且属于目标数据类型的目标音频数据，分别对目标语音识别模型进行验证，能够提高验证的细粒度，从而能够保证目标语音识别模型针对每个目标业务场景下由目标设备类型的设备采集的音频数据，均具有较高的识别准确率。

在一个实施例中，上述语音识别模型验证方法还包括：当验证结果为验证未通过时，根据目标业务场景下的各目标音频数据，以及每个目标音频数据对应的标准文本与识别文本确定训练样本集；根据训练样本集对目标语音识别模型进行优化训练，得到优化后的目标语音识别模型。

具体地，在按照本申请中一个或多个实施例中提供的语音识别模型验证方法，得到目标语音识别模型在相应的每个目标业务场景下对应的验证结果后，若目标语音识别模型在某个目标业务场景下的验证结果为验证未通过，服务器从该目标语音识别模型在该目标业务场景下对应的各目标音频数据中，筛选出标准文本与相应识别文本不一致的目标音频数据，将所筛选出的目标音频数据与相应的标准文本、识别文本发送至终端进行审核，并接收终端针对各目标音频数据反馈的目标文本。针对标准文本与识别文本一致的目标音频数据，服务器将该一致的标准文本与识别文本确定为该目标音频数据对应的目标文本。进一步地，服务器将目标语音识别模型在该目标业务场景下对应的各目标音频数据，以及每个目标音频数据对应的目标文本得到相应的训练样本集，并根据所得到的训练样本集对该目标语音识别模型进行优化训练，得到优化后的目标语音识别模型。可以理解，终端将所接收到的目标音频数据与相应的标准文本、识别文本对应展示给审核人员，以指示审核人员通过试听目标音频数据的方式，根据对应展示的标准文本与识别文本快速确定相应的目标文本。

在一个实施例中，若目标语音识别模型在多个目标业务场景下的验证结果均为验证未通过，服务器则可根据该多个目标业务场景下的各目标音频数据，以及每个目标音频数据对应的标准文本与识别文本得到相应的训练样本集，并根据训练样本集对该目标语音识别模型进行优化训练，得到优化后的目标语音识别模型。服务器也可根据该多个目标业务场景中的每个目标业务场景下的各目标音频数据，以及每个目标音频数据对应的标准文本与识别文本，得到每个业务场景下的训练样本集，并根据每个业务场景下的训练样本集依次对相应目标语音识别模型进行优化训练，得到优化后的目标语音识别模型。可以理解，当根据多个训练样本集依次对目标语音识别模型进行优化训练时，根据后一个训练样本集对基于前一个训练样本集优化得到的目标语音识别模型进行继续优化，依次类推，最终得到优化后的目标语音识别模型。

在一个实施例中，若目标语音识别模型在某个目标业务场景下的验证结果为验证未通过，服务器则将该目标业务场景下相应标准文本与识别文本不一致的目标音频数据，以及该目标音频数据对应的标准文本与识别文本发送至终端进行审核，若终端通过审核判定目标音频数据对应的标准文本存在错误，则修正该存在错误的标准文本，并基于修正后的标准文本与相应识别文本重新对目标语音识别模型进行验证，若终端通过审核判定目标音频数据对应的识别文本存在错误，则基于该目标业务场景下的各目标音频数据，以及每个目标音频数据对应的标准文本对目标语音识别模型进行优化训练。

上述实施例中，当目标语音识别模型在相应目标业务场景下的验证结果为验证未通过时，则根据该目标语音识别模型在该目标业务场景下对应的目标音频数据与相应的目标文本，对该目标语音识别模型进行优化训练，以提高该目标语音识别模型在该目标业务场景下的识别准确性，通过该种方式能够使得目标语音识别模型在每个目标业务场景下均能达到较高的识别准确性。

如图3所示，在一个实施例中，提供了一种语音识别模型验证方法，该方法具体包括以下步骤：

步骤302，获取验证需求信息。

步骤304，根据验证需求信息确定目标设备类型、目标数据类型、目标业务场景与待验证的目标语音识别模型。

步骤306，从目标业务场景下获取属于目标数据类型、且由属于目标设备类型的设备采集的候选音频数据。

步骤308，确定每个候选音频数据的信噪比。

步骤310，从所获取到的候选音频数据中筛选信噪比大于或等于信噪比阈值的目标音频数据。

步骤312，通过目标语音识别模型对目标音频数据进行语音识别，得到相应的识别文本。

步骤314，根据识别文本确定相应目标音频数据所对应的候选数据标签。

步骤316，将目标音频数据与相应候选数据标签、识别文本发送至终端进行审核。

步骤318，接收终端针对目标音频数据反馈的标准文本与目标数据标签。

步骤320，从目标音频数据中筛选目标数据标签为有效数据的目标音频数据。

步骤322，将所筛选出的每个目标音频数据对应的标准文本与识别文本进行匹配，得到相应的字识别结果与文本识别结果。

步骤324，根据目标业务场景下各目标音频数据对应的字识别结果，得到相应的字识别准确率。

步骤326，根据目标业务场景下各目标音频数据对应的文本识别结果，得到相应的文本识别准确率。

步骤328，根据字识别准确率与文本识别准确率，确定目标语音识别模型在目标业务场景下的验证结果。

步骤330，当验证结果为验证未通过时，根据目标业务场景下的各目标音频数据，以及每个目标音频数据对应的标准文本与识别文本确定训练样本集。

步骤332，根据训练样本集对目标语音识别模型进行优化训练，得到优化后的目标语音识别模型。

上述实施例中，通过验证需求信息指定待验证的目标语音识别模型，以及用于测试每个目标语音识别模型的目标音频数据所属的目标数据类型与目标业务场景，以及采集该每个目标音频数据的设备对应的目标设备类型，按照验证需求信息所指定的目标数据类型、目标业务场景与目标设备类型分别获取相应的候选音频数据，以及按照信噪比从候选音频数据中筛选目标音频数据，并通过目标语音识别模型与人工审核相结合的方式，确定每个目标音频数据对应的标准文本与目标数据标签，能够在保证标准文本与目标数据标签的准确性的情况下，提高标准文本与目标数据标签的获取效率，从而能够提高语音识别模型的验证效率。进一步地，针对每个目标语音识别模型，可根据实际需求，根据所获取到的各目标音频数据与相应的标准文本、识别文本，分别验证该目标语音识别模型在每个目标业务场景下的验证结果，或者，验证该目标语音识别模型在多个目标业务场景下的验证结果，或者，验证该目标语音识别模型在每个目标业务场景下的每个目标设备类型下的验证结果，或者，验证该目标语音识别模型在每个目标设备类型下的验证结果，由此，能够从多个维度对目标语音识别模型的识别准确性进行验证，以便于基于各个维度的验证结果，按照各个维度的目标音频数据与相应的目标文本对目标语音识别模型进行优化训练，使得优化后的目标语音识别模型在各个维度上均能够得到较高的识别准确性。

在一个实施例中，本申请中一个或多个实施例中所涉及的语音识别模型应用于基于人工智能的智能医疗领域，用于对智能医疗中所采集的音频数据进行语音识别。音频数据比如音频问诊数据。这样，通过提高语音识别模型的识别准确性，能够提高音频问诊数据的准确性。

应该理解的是，虽然图2与图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2与图3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种语音识别模型验证装置400，包括：获取模块401、确定模块402、识别模块403、审核模块404和验证模块405，其中：

获取模块401，用于获取验证需求信息；

确定模块402，用于根据验证需求信息确定目标数据类型、目标业务场景与待验证的目标语音识别模型；

获取模块401，还用于从目标业务场景下获取属于目标数据类型的目标音频数据；

识别模块403，用于通过目标语音识别模型对目标音频数据进行语音识别，得到相应的识别文本；

审核模块404，用于将目标音频数据与相应识别文本发送至终端进行审核，并接收终端针对目标音频数据反馈的标准文本；

验证模块405，用于根据目标音频数据对应的标准文本与识别文本对目标语音识别模型进行验证，得到相应的验证结果。

在一个实施例中，审核模块404，还用于根据识别文本确定相应目标音频数据所对应的候选数据标签；将目标音频数据与相应候选数据标签、识别文本发送至终端进行审核；接收终端针对目标音频数据反馈的标准文本与目标数据标签。

在一个实施例中，验证模块405，还用于从目标音频数据中筛选目标数据标签为有效数据的目标音频数据；根据所筛选出的目标音频数据对应的标准文本与识别文本，对目标语音识别模型进行验证，得到相应的验证结果。

在一个实施例中，验证模块405，还用于将每个目标音频数据对应的标准文本与识别文本进行匹配，得到相应的字识别结果与文本识别结果；根据目标业务场景下各目标音频数据对应的字识别结果，得到相应的字识别准确率；根据目标业务场景下各目标音频数据对应的文本识别结果，得到相应的文本识别准确率；根据字识别准确率与文本识别准确率，确定目标语音识别模型在目标业务场景下的验证结果。

在一个实施例中，获取模块401，还用于从目标业务场景下获取属于目标数据类型的候选音频数据；确定每个候选音频数据的信噪比；从所获取到的候选音频数据中筛选信噪比大于或等于信噪比阈值的目标音频数据。

在一个实施例中，确定模块402，还用于根据验证需求信息确定目标设备类型；获取模块401，还用于从目标业务场景下获取属于目标数据类型、且由属于目标设备类型的设备采集的目标音频数据。

在一个实施例中，上述语音识别模型验证装置400，还包括：训练模块；

训练模块，用于当验证结果为验证未通过时，根据目标业务场景下的各目标音频数据，以及每个目标音频数据对应的标准文本与识别文本确定训练样本集；根据训练样本集对目标语音识别模型进行优化训练，得到优化后的目标语音识别模型。

关于语音识别模型验证装置的具体限定可以参见上文中对于语音识别模型验证方法的限定，在此不再赘述。上述语音识别模型验证装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各个业务场景下属于各个数据类型、且由各个设备类型的设备采集的音频数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别模型验证方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取验证需求信息；根据验证需求信息确定目标数据类型、目标业务场景与待验证的目标语音识别模型；从目标业务场景下获取属于目标数据类型的目标音频数据；通过目标语音识别模型对目标音频数据进行语音识别，得到相应的识别文本；将目标音频数据与相应识别文本发送至终端进行审核，并接收终端针对目标音频数据反馈的标准文本；根据目标音频数据对应的标准文本与识别文本对目标语音识别模型进行验证，得到相应的验证结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据识别文本确定相应目标音频数据所对应的候选数据标签；将目标音频数据与相应候选数据标签、识别文本发送至终端进行审核；接收终端针对目标音频数据反馈的标准文本与目标数据标签。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：从目标音频数据中筛选目标数据标签为有效数据的目标音频数据；根据所筛选出的目标音频数据对应的标准文本与识别文本，对目标语音识别模型进行验证，得到相应的验证结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将每个目标音频数据对应的标准文本与识别文本进行匹配，得到相应的字识别结果与文本识别结果；根据目标业务场景下各目标音频数据对应的字识别结果，得到相应的字识别准确率；根据目标业务场景下各目标音频数据对应的文本识别结果，得到相应的文本识别准确率；根据字识别准确率与文本识别准确率，确定目标语音识别模型在目标业务场景下的验证结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：从目标业务场景下获取属于目标数据类型的候选音频数据；确定每个候选音频数据的信噪比；从所获取到的候选音频数据中筛选信噪比大于或等于信噪比阈值的目标音频数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据验证需求信息确定目标设备类型；从目标业务场景下获取属于目标数据类型、且由属于目标设备类型的设备采集的目标音频数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当验证结果为验证未通过时，根据目标业务场景下的各目标音频数据，以及每个目标音频数据对应的标准文本与识别文本确定训练样本集；根据训练样本集对目标语音识别模型进行优化训练，得到优化后的目标语音识别模型。

在一个实施例中，提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取验证需求信息；根据验证需求信息确定目标数据类型、目标业务场景与待验证的目标语音识别模型；从目标业务场景下获取属于目标数据类型的目标音频数据；通过目标语音识别模型对目标音频数据进行语音识别，得到相应的识别文本；将目标音频数据与相应识别文本发送至终端进行审核，并接收终端针对目标音频数据反馈的标准文本；根据目标音频数据对应的标准文本与识别文本对目标语音识别模型进行验证，得到相应的验证结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据识别文本确定相应目标音频数据所对应的候选数据标签；将目标音频数据与相应候选数据标签、识别文本发送至终端进行审核；接收终端针对目标音频数据反馈的标准文本与目标数据标签。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：从目标音频数据中筛选目标数据标签为有效数据的目标音频数据；根据所筛选出的目标音频数据对应的标准文本与识别文本，对目标语音识别模型进行验证，得到相应的验证结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将每个目标音频数据对应的标准文本与识别文本进行匹配，得到相应的字识别结果与文本识别结果；根据目标业务场景下各目标音频数据对应的字识别结果，得到相应的字识别准确率；根据目标业务场景下各目标音频数据对应的文本识别结果，得到相应的文本识别准确率；根据字识别准确率与文本识别准确率，确定目标语音识别模型在目标业务场景下的验证结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：从目标业务场景下获取属于目标数据类型的候选音频数据；确定每个候选音频数据的信噪比；从所获取到的候选音频数据中筛选信噪比大于或等于信噪比阈值的目标音频数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据验证需求信息确定目标设备类型；从目标业务场景下获取属于目标数据类型、且由属于目标设备类型的设备采集的目标音频数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当验证结果为验证未通过时，根据目标业务场景下的各目标音频数据，以及每个目标音频数据对应的标准文本与识别文本确定训练样本集；根据训练样本集对目标语音识别模型进行优化训练，得到优化后的目标语音识别模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音识别模型验证方法，所述方法包括：

获取验证需求信息；

2.根据权利要求1所述的方法，其特征在于，所述将所述目标音频数据与相应识别文本发送至终端进行审核，并接收所述终端针对所述目标音频数据反馈的标准文本，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标音频数据对应的标准文本与识别文本对所述目标语音识别模型进行验证，得到相应的验证结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标音频数据对应的标准文本与识别文本对所述目标语音识别模型进行验证，得到相应的验证结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述从所述目标业务场景下获取属于所述目标数据类型的目标音频数据，包括：

确定每个候选音频数据的信噪比；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述验证需求信息确定目标设备类型；

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

8.一种语音识别模型验证装置，其特征在于，所述装置包括：

获取模块，用于获取验证需求信息；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。