CN113593536A

CN113593536A - 一种检测语音识别准确率的装置和系统

Info

Publication number: CN113593536A
Application number: CN202110644377.0A
Authority: CN
Inventors: 韦胜钰; 叶超; 蔡佳; 黄林轶; 徐华伟; 刘斌辉
Original assignee: China Electronic Product Reliability and Environmental Testing Research Institute
Current assignee: China Electronic Product Reliability and Environmental Testing Research Institute
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-11-02
Anticipated expiration: 2041-06-09
Also published as: CN113593536B

Abstract

本公开涉及一种检测语音识别准确率的装置和系统。包括：语音播放设备、音频采集设备、网络监测设备、音频分析设备，其中，所述网络监测设备用于监测所述音频分析设备的网络连接状态，在所述网络连接状态低于预设值的情况下，向所述音频分析设备发送停止播放的信息；所述音频分析设备与所述语音播放设备、所述音频采集设备和所述网络监测设备电性连接，用于根据所述响应音频和预设响应音频，确定所述待测设备语音识别的准确率，并且在接收到所述停止播放的信息后，删除或停止接收所述响应音频。本公开实施例利用音频分析设备可以自动化的测试待测设备的语音识别准确率，无需人工参与，测试周期短。

Description

一种检测语音识别准确率的装置和系统

技术领域

本公开涉及语音识别技术领域，尤其涉及一种检测语音识别准确率的装置和系统。

背景技术

随着科学技术的发展，越来越多的智能设备出现，如智能音响、智能电视、智能导航设备和智能家居设备等，给人们的生产生活带来极大的便利。相关技术中，对这些智能设备语音识别效果的检测，仍需要检测人员进行判定，耗时长成本高。

因此，亟需一种自动化检测语音识别准确率的装置和系统。

发明内容

为克服相关技术中存在的至少一个问题，本公开提供一种检测语音识别准确率的装置和系统。

根据本公开实施例的第一方面，提供一种检测语音识别准确率的装置，包括：

语音播放设备，用于接收音频分析设备发送的音频文件，并播放所述音频文件；

音频采集设备，用于采集待测设备在接收到所述音频文件后反馈的响应音频，将所述响应音频发送至所述音频分析设备；

网络监测设备，用于监测所述语音播放设备、音频采集设备以及音频分析设备之间的的网络连接状态，在所述网络连接状态低于预设值的情况下，向所述音频分析设备发送停止播放的信息；

音频分析设备，与所述语音播放设备、所述音频采集设备和所述网络监测设备电性连接，用于若接收到所述停止播放的信息后，则停止向所述语音播放设备发送音频文件，停止接收所述音频采集设备发送的响应音频，删除接收到的所述响应音频，在所述音频文件播放个数或时长达到检测条件时，根据接收到的网络状态符合预设条件的响应音频和预设响应音频，确定所述待测设备语音识别的准确率。

在一种可能的实现方式中，所述装置还包括：

噪声发生设备，所述噪声发生设备包括多个，多个所述噪声发生设备对称设置于所述待测设备的四周，所述四周为在同一水平基准面上，以待测设备为原点的坐标系上，相邻两发生设备之间的角度至少间隔预设角度，采用下述方式确定所述预设角度：360除以所述待测设备个数。

在一种可能的实现方式中，所述装置还包括：

噪声测量设备，用于测量所述待测设备预设范围内的噪声信号，并在所述噪声信号大于预设值的情况下，向所述音频分析设备发送停止播放的信息。

在一种可能的实现方式中，所述音频文件被设置为根据多种方言的文本语料转换而成。

在一种可能的实现方式中，所述音频分析设备用于获取所述语音播放设备播放所述音频文件的结束时刻、以及所述音频采集设备采集所述响应音频的开始时刻，并根据所述结束时刻和所述开始时刻，确定待测设备的响应时间。

在一种可能的实现方式中，所述根据所述响应音频和预设响应音频，确定所述待测设备的语音识别准确率，包括：

将所述响应音频和所述预设响应音频输入音频相似度模型，输出所述响应音频是否与所述预设响应音频相似，其中，所述音频相似度模型被设置为根据第一音频样本与第二音频样本的相似关系训练获得；

根据输出结果，确定所述待测设备的语音识别准确率。

在一种可能的实现方式中，还包括：

图像采集设备，用于采集待测设备在接收到所述音频文件后反馈的响应图像，将所述响应图像发送至所述音频分析设备；

所述音频分析设备用于根据所述响应图像和预设响应图像，确定所述待测设备语音识别的准确率。

在一种可能的实现方式中，所述根据所述响应图像和预设响应图像，确定所述待测设备的语音识别的准确率，包括：

将所述响应图像和所述预设响应图像输入至图像相似度模型，输出所述响应图像是否为所述预设响应图像的相似图像，其中，所述图像相似度模型被设置为根据第一图像样本与第二图像样本的相似关系训练获得；

根据输出结果，确定所述待测设备的语音识别准确率。

根据本公开实施例的第二方面，提供一种检测语音识别准确率的方法，包括：

播放音频文件，

接收待测设备反馈的响应音频，所述响应音频是待测设备在接收到所述音频文件后产生的音频；

监测语音播放设备、音频采集设备、音频分析设备之间网络连接状态，若所述网络连接状态不符合预设条件，则停止所述播放音频文件，停止接收所述响应音频，以及删除接收到的所述响应音频；

在所述音频文件播放个数或时长达到检测条件时，根据接收到的网络状态符合预设条件的响应音频和预设响应音频，确定所述待测设备语音识别的准确率。

在一种可能的实现方式中，在所述播放音频文件之后还包括：

接收待测设备反馈的响应图像，所述响应图像是待测设备在接收到所述音频文件后产生的图像；

在所述音频文件播放个数或时长达到检测条件时，根据接收到的网络状态符合预设条件的响应图像和预设响应图像，确定所述待测设备语音识别的准确率。

根据本公开实施例的第三方面，提供一种检测语音识别准确率的系统，包括：

具有语音交互功能的待测设备；

根据本公开任一实施例所述的检测语音识别准确率的装置。

本公开实施例利用音频分析设备可以自动化的测试待测设备的语音识别准确率，无需人工参与，测试周期短。并且，网络监测设备在检测到网络的连接状态不符合预设条件的情况下，会向音频分析设备发送停止播放的信息，音频分析设备在接收到所述停止播放的信息后，停止向所述语音播放设备发送音频文件，停止接收所述音频采集设备发送的响应音频，删除接收到的所述响应音频。因此，本公开实施例可以防止因网络原因造成的响应音频不准或响应时间较长的情况，利用网络状态符合预设条件的响应音频，可提高测试的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种检测语音识别准确率的装置应用场景图。

图2是根据一示例性实施例示出的一种检测语音识别准确率的装置的示意框图。

图3是根据一示例性实施例示出的一种检测语音识别准确率的方法的流程图。

图4是根据一示例性实施例示出的一种检测语音识别准确率的方法的流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

为了方便本领域技术人员理解本公开实施例提供的技术方案，下面先对技术方案实现的技术环境进行说明。

关于语音识别检测，GB/T 36464.2-2018《信息技术智能语音交互系统第2部分：智能家居》等系列标准，规定了语音唤醒、声纹识别等基本的测试方法，但标准规定的检测环境单一，无法模拟真实的使用场景，测试结果与消费者的实际体验存在一定的差距。相关技术中，采用半自动测试系统，在响应时间、响应正确率等检测项目中仍需要检测人员对每次语音交互结果进行判定，耗时长，成本高。在测试过程中，测试环境依赖于网络，相关技术还不能排出网络卡顿或其他测试环境因素引起的响应延迟和响应错误等异常，影响检测结果。另外，相关技术中还不能还原真实复杂的测试环境噪声以及智能设备响应时间的测试。

图1是根据一示例性实施例示出的一种检测语音识别准确率的装置应用场景图。图3是根据一示例性实施例示出的一种检测语音识别准确率的方法的流程图。参考图1和图3所示，该装置包括音频分析仪100、待测智能产品106、图像采集终端102、音频采集终端103、语音播放设备101、噪声产生设备104、噪声测试仪105和网络监测仪106。其中，音频分析仪100中存储有测试用的音频文件(待测语料标签)，通过语音播放设备101进行播放，待测智能产品106在接收到播放的音频后，反馈播出语音或者反馈图像。图像采集终端102和音频采集终端103采集反馈的语音和图像，将其发送给音频分析仪100。音频分析仪100将反馈的语音和图像与预设的语音和图像进行对比，判断两者的相似程度，确定语音识别的准确率。其中，网络监测仪(网络监测河北)106用于监测音频分析仪100与其他各设备的网络连接状态，在网络质量不高的情况下，及时终止测试，以免影响测试结果的准确度。噪声测量仪(噪声测量设备)105用于测量所述待测设备预设范围内的噪声信号，并在所述噪声信号大于预设值的情况下，向所述音频分析设备发送停止播放的信息，以免影响测试结果的准确度。

图2是根据一示例性实施例示出的一种检测语音识别准确率的装置的示意框图。参照图2，该装置包括：

语音播放设备203，用于接收音频分析设备发送的音频文件，并播放所述音频文件；

音频采集设备205，用于采集待测设备在接收到所述音频文件后反馈的响应音频，将所述响应音频发送至所述音频分析设备；

网络监测设备207，用于监测所述语音播放设备、音频采集设备以及音频分析设备之间的网络连接状态，在所述网络连接状态不符合预设条件的情况下，向所述音频分析设备发送停止播放的信息；

音频分析设备201，与所述语音播放设备、所述音频采集设备和所述网络监测设备电性连接，用于若接收到所述停止播放的信息后，则停止向所述语音播放设备发送音频文件，停止接收所述音频采集设备发送的响应音频，删除接收到的所述响应音频，在所述音频文件播放个数或时长达到检测条件时，根据接收到的网络状态符合预设条件的响应音频和预设响应音频，确定所述待测设备语音识别的准确率。。

本公开实施例中，所述语音播放设备203可以包括具有扬声器功能的电子设备，如音响、手机或喇叭等。在测试过程中，所述语音播放设备203可以放置于待测设备的预设距离范围内。所述音频采集设备205可以包括具有录音功能的电子设备，如录音笔、麦克风、手机等。所述网络监测设备207可以包括无线网络测试仪和有线网络测试仪，所述网络监测设备可以判断以太网的链路速率、十兆、百兆或是千兆，还可以判断网络的工作状态，如半双工或全双工。所述网络监测设备207还可以具有ping功能，用于对网络进行连通性测试，检测网络故障点。所述网络监测设备207用于检测所述音频分析设备的网络连接状态，所述网络连接状态可以包括网络带宽大小、网络信号质量的好坏、网络速率等。所述预设条件可包括，网络带宽高于预设带宽，网络信号质量大于预设信号质量，网络速率大于预设速率等。

本公开实施例中，所述音频分析设备201可以包括各种计算机或服务器设备，如手机、平板、笔记本等。所述音频分析设备语音播放设备播放存储的音频文件，待测设备接收到这些音频文件后会做出反馈。例如：语音播放设备播放“小度、小度”或“你好，博越”，待测设备接收到该音频后，会给出反馈“在呢”，“我在呀”，“主人主人，有何吩咐”等。音频分析设备201利用音频采集设备采集反馈的响应音频，并与预先存储的预设响应音频作比较，确定两者的相似度，进而确定待测涉笔语音识别的准确率。其中，比较两音频相似度的方法，在一个示例中，可以响应音频与预设响应音频转换成文本形式，利用预先训练的语义相似度模型，判断响应音频与预设响应音频的相似度。在另一个示例中，可以将响应音频与预设响应音频输入预先训练的语音相似度模型，输出响应音频与预设响应音频的相似度。需要说明的是，本公开实施例语音播放设备播放的音频文件，可以包括多个，可以为各个音频文件的播放间隔设置预设时长。其中多个音频文件之间可以采用顺序播放、循环播放或随机播放等多种方式。对应的，根据响应音频和预设响应音频，确定待测设备语音识别准确率的方式，可以包括比较一次响应音频与预设响应音频的相似度，还可以包括比较多次响应音频与预设音频的相似度，多次比较结果可以取平均值以确定待测设备语音识别的准确率。

在一种可能的实现方式中，所述检测语音识别准确率的装置还可以包括噪声发生设备，所述噪声发生设备包括多个，多个所述噪声发生设备设置于所述待测设备的四周，所述四周为在同一水平基准面上，以待测设备为原点的坐标系上，相邻两发生设备之间的角度至少间隔预设角度，采用下述方式确定所述预设角度：360除以所述待测设备个数。

本公开实施例中，所述噪声发声设备可以包括多种，例如二极管噪声发生器、气体放电管式的噪声发生器、晶体二极管反向电流中的固态噪声等。所述噪声发生设备可以包括多个，多个所述噪声发生设备对称设置于所述待测设备的四周，可以模拟多方位环境噪声来源，更佳贴近真实的生活场景，从而提高测量结果的适用性。

在一种可能的实现方式中，所述检测语音识别准确率的装置还可以包括噪声测量设备，用于测量所述待测设备预设范围内的噪声信号，并在所述噪声信号大于预设值的情况下，向所述音频分析设备发送停止播放的信息。

本公开实施例中，所述噪声测量设备用于测量测试环境中的噪声，可以包括声级计和频谱分析器等。所述噪声可以由噪声发生设备产生，也可以是测试环境中的客观存在的噪声。所述噪声测量设备用于测量所述待测设备预设范围内的噪声信号，并在所述噪声信号大于预设值的情况下，向所述音频分析设备发送停止播放的信息。所述音频分析设备在接收到所述停止播放的信息后，删除或停止接收所述响应音频，本次测量无效。

本公开实施例可以防止因噪声过大造成的响应音频不准或响应时间较长的情况，提高测试的准确度，通过监测测试环境，可以支持24小时重复性测试。

本公开实施例中，所述音频文件可以包括利用待测语料文本通过语音合成的。在一个示例中，可以将所述待测语料文本转换成多种方言转，所述多种方言可以包括中国或其他各国各个地区的方言，例如，如果该产品使用地在中国的话，所述多种方言可以包括东北话、河南话、上海话、四川话等。

本公开实施例通过将待测语料文本转换成多种方言，使得测试环境更加贴近实际的应用场景，提高测试结果的准确率。

本公开实施例中，所述音频文件可以包括多个音频片段，结合具体的应用场景，比如正在进行导航的人机交互：音频文件1：“小德、小德！”，待测设备发出：“您好，主任，有何吩咐？”。音频文件2：“导航去动物园”，待测设备发出：“去动物园的路线有三条，您选哪一条？。音频文件3：“选第一条”。在所有测试音频片段播放完以后。计算平均响应时间和最大响应时间。本公开实施例中，音频文件的结束时刻和音频文件的开始时刻可以通过设置时间戳来实现，比如：利用音频采集设备采集语音播放设备播放音频的结束时刻以及采集待测设备反馈响应音频的时刻，将该时刻与采集到的反馈音频通过时间戳的形式，一起传入音频分析设备。

本公开实施例中音频分析设备利用音频文件的结束时刻，以及响应音频的开始时刻，确定待测设备的响应时间，可以在无人员参与的情况下确定待测设备的响应时间。

根据输出结果，确定所述待测设备的语音识别准确率。

本公开实施例中，所述音频相似度模型可以通过深度学习的方法，预先训练完成。其中，训练方法可以包括：获取第一音频样本和第二音频样本的音频特征，其中，第二音频样本上预先设置标签，所述标签可以包括相似或不相似两种。构建音频相似度模型，所述音频相似度模型内设置有网络参数，将所述第一音频样本和所述第二音频样本输入音频相似度模型中，得到预测结果，基于预测结果跟标注的第二音频的标签之间的差异，对所述网络参数进行迭代调整，直至所述差异满足预设要求。在一个示例中，还可以在所述响应音频输入音频相似度模型前，对所述响应音频进行降噪处理。

本公开实施例，利用深度学习的方法，对响应音频与预设响应音频的相似度做比较，以此判断待测设备语音识别的准确率，具有判断准确率高的有益效果。通过深度学习的判断结果，还可以分析得到待测设备交互拒识率、误唤醒率等指标。为语音识别提供了全自动客观测试手段。

在一种可能的实现方式中，所述检测语音识别准确率的装置还包括图像采集设备，用于采集待测设备在接收到所述音频文件后反馈的响应图像，将所述响应图像发送至所述音频分析设备；

本公开实施例中，在待测设备接收到音频后，还可以以图像的方式做出反馈。例如：智能音响，当语音播放设备中播放“请开机”，待测设备呈现“开机”的画面图像。所述图像采集设备可以包括摄像机。在一个实施例中，在待测设备接收到音频后，还可以以图像和语音两种方式做出反馈。这时，图像采集设备和音频采集设备可以同时进行工作。本公开实施例增加了图像采集设备，能够对以图像形式做出反馈的语音识别做出测试，测试内容更加的丰富。本公开实施例中，可以深度学习的方法，对响应图像与预设响应图像的相似度做比较，以此判断待测设备语音识别的准确率，还可以通过计算响应图像与预设响应图像之间的距离，例如欧氏距离、曼哈顿距离、皮尔逊相关系数、汉明距离、马氏距离等，当所述距离小于预设值的时候，表示两幅图像较为相似。

根据输出结果，确定所述待测设备的语音识别准确率。

本公开实施例中，所述图像相似度模型可以通过深度学习的方法，预先训练完成。其中，训练方法可以包括：获取第一图像样本和第二图像样本的图像特征，其中，第二图像样本上预先设置标签，所述标签可以包括相似或不相似两种。构建图像相似度模型，所述图像相似度模型内设置有网络参数，将所述第一图像样本和所述第二图像样本输入图像相似度模型中，得到预测结果，基于预测结果跟标注的第二图像的标签之间的差异，对所述网络参数进行迭代调整，直至所述差异满足预设要求。在一个示例中，还可以在所述响应图像输入图像相似度模型前，对所述响应图像进行降噪处理。

本公开实施例，利用深度学习的方法，对响应图像与预设响应图像的相似度做比较，以此判断待测设备语音识别的准确率，具有判断准确率高的有益效果。

图4是本公开提供的一种检测语音识别准确率的方法的一种实施例的方法流程图。虽然本公开提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本公开实施例提供的执行顺序。

具体的，本公开提供的检测语音识别准确率的方法一种实施例如图1所示，所述方法可以应用于多个终端设备的交互中，包括：

步骤S401，播放音频文件；

步骤S403，接收待测设备反馈的响应音频，所述响应音频是待测设备在接收到所述音频文件后产生的音频；

步骤S405，监测语音播放设备、音频采集设备、音频分析设备之间网络连接状态，若所述网络连接状态不符合预设条件，则停止所述播放音频文件，停止接收所述响应音频，以及删除接收到的所述响应音频；

步骤S407，在所述音频文件播放个数或时长达到检测条件时，根据接收到的网络状态符合预设条件的响应音频和预设响应音频，确定所述待测设备语音识别的准确率。

关于上述实施例中的装置，其中各个设备执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一种可能的实现方式中，提供一种检测语音识别准确率的系统，包括：

具有语音交互功能的待测设备；

根据本公开任一实施例所述的检测语音识别准确率的装置。

本公开实施例中，所述语音交互功能可以包括待测设备可以与人类通过自然语言进行信息传递的功能。所述待测设备可以应用于家居环境，包括各种家电设备，例如：电视、音响、灯、空调、冰箱、电饭锅、豆浆机、洗衣机等。所述待测设备可以应用于车载场景，包括各种车载设备，例如：导航、空调、空气净化器、雨刷、智能驾驶等。所述待测设备可以包括电子设备，如计算机、平板和手机等。所述待测设备可以应用于医疗场景，例如电子病历的录入设备、挂号设备、缴费设备等。所述待测设备可以应用于企业场景，可以包括办公设备，例如智能客服。所述待测设备可以应用于教育及出行场景，例如各种教学设备，智能耳机等。

需要说明的是，所述待测设备的种类不限于上述举例，所属领域技术人员在本申请技术精髓的启示下，还可能做出其它变更，但只要其实现的功能和效果与本申请相同或相似，均应涵盖于本申请保护范围内。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种检测语音识别准确率的装置，其特征在于，包括：

网络监测设备，用于监测所述语音播放设备、音频采集设备以及音频分析设备之间的网络连接状态，在所述网络连接状态不符合预设条件的情况下，向所述音频分析设备发送停止播放的信息；

2.根据权利要求1所述的装置，其特征在于，还包括：

3.根据权利要求1或2所述的装置，其特征在于，还包括：

4.根据权利要求1所述的装置，其特征在于，所述音频文件被设置为根据多种方言的文本语料转换而成。

5.根据权利要求1所述的装置，其特征在于，所述音频分析设备用于获取所述语音播放设备播放所述音频文件的结束时刻、以及所述音频采集设备采集所述响应音频的开始时刻，并根据所述结束时刻和所述开始时刻，确定待测设备的响应时间。

6.根据权利要求1所述的装置，其特征在于，所述根据所述响应音频和预设响应音频，确定所述待测设备的语音识别准确率，包括：

根据输出结果，确定所述待测设备的语音识别准确率。

7.根据权利要求1所述的装置，其特征在于，还包括：

8.根据权利要求7所述的装置，其特征在于，所述根据所述响应图像和预设响应图像，确定所述待测设备的语音识别的准确率，包括：

根据输出结果，确定所述待测设备的语音识别准确率。

9.一种检测语音识别准确率的方法，其特征在于，包括：

播放音频文件；

10.根据权利要求9所述的方法，其特征在于，在所述播放音频文件之后还包括：

11.一种检测语音识别准确率的系统，其特征在于，包括：

具有语音交互功能的待测设备；

以及权利要求1至8中任一项所述的装置。