CN115206289A - 一种检测设备性能的方法、装置、设备及存储介质 - Google Patents

一种检测设备性能的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115206289A
CN115206289A CN202210726783.6A CN202210726783A CN115206289A CN 115206289 A CN115206289 A CN 115206289A CN 202210726783 A CN202210726783 A CN 202210726783A CN 115206289 A CN115206289 A CN 115206289A
Authority
CN
China
Prior art keywords
voice
test
audio file
voice test
recognition application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210726783.6A
Other languages
English (en)
Inventor
刘志欢
车婷婷
李旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210726783.6A priority Critical patent/CN115206289A/zh
Publication of CN115206289A publication Critical patent/CN115206289A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开提供了一种检测设备性能的方法、装置、设备以及存储介质,涉及人工智能技术领域,尤其涉及语音处理、语音识别等领域。具体实现方案为:当终端设备上安装的语音识别应用被触发进行语音测试时,根据语音测试所需的语音测试参数,获取与语音测试参数相匹配的音频文件。启动语音识别应用。控制语音识别应用读取音频文件,以进行语音测试。在进行语音测试期间,检测终端设备的设备性能。本公开通过获取已经存储好的音频文件进行语音测试,降低了测试时场景布置的成本,提高了测试效率。

Description

一种检测设备性能的方法、装置、设备及存储介质
技术领域
本公开涉及人工智能领域,尤其涉及语音处理、语音识别等领域。
背景技术
近些年,随着语音技术的不断发展,在智能的终端设备产品中,语音是占比最大的信息交互方式。随着终端设备的不断迭代更新,不同产品的硬件要求也各不相同。更快更准确的衡量语音的性能,对终端设备产品的上限发布,以及用户体验起到了至关重要的作用。
发明内容
本公开提供了一种检测设备性能的方法、装置、设备以及存储介质。
根据本公开的第一方面,提供了一种检测设备性能的方法,包括:当终端设备上安装的语音识别应用被触发进行语音测试时,根据语音测试所需的语音测试参数,获取与语音测试参数相匹配的音频文件。启动语音识别应用。控制语音识别应用读取音频文件,以进行语音测试。在进行语音测试期间,检测终端设备的设备性能。本公开通过获取已经存储好的音频文件进行语音测试,降低了测试时场景布置的成本,提高了测试效率。
根据本公开的第二方面,提供了一种检测设备性能的装置,包括:获取模块,用于当终端设备上安装的语音识别应用被触发进行语音测试时,根据语音测试所需的语音测试参数,获取与语音测试参数相匹配的音频文件;测试模块,用于启动语音识别应用;测试模块还用于,控制语音识别应用读取音频文件,以进行语音测试;检测模块,用于在进行语音测试期间,检测终端设备的设备性能。本公开通过获取已经存储好的音频文件进行语音测试,降低了测试时场景布置的成本,提高了测试效率。
根据本公开的第三方面,提供了一种检测设备性能的设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述第一方面中的任意一项方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述第一方面中的任意一项方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述第一方面中的任意一项方法。
本公开提供的一种检测设备性能的方法、装置、设备以及存储介质,通过获取已经存储好的音频文件进行语音测试,降低了测试时场景布置的成本,提高了测试效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例的一种应用场景示意图;
图2是本公开实施例的一种检测设备性能的场景示意图;
图3是本公开实施例的一种检测设备性能的方法流程图;
图4是本公开实施例的一种终端设备系统框架示意图;
图5是本公开实施例的另一种检测设备性能的方法流程图;
图6是本公开实施例的一种语音识别应用前端界面示意图;
图7是本公开实施例的另一种语音识别应用前端界面示意图;
图8是本公开实施例的又一种检测设备性能的方法流程图;
图9是本公开实施例的再一种检测设备性能的方法流程图;
图10是本公开实施例的又一种语音识别应用前端界面示意图;
图11是本公开实施例的一种音频文件获取示意图;
图12是本公开实施例的另一种检测设备性能的方法流程图;
图13是本公开实施例的一种检测设备性能的装置示意图;
图14是本公开实施例的一种检测设备性能的设备示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开主要应用的场景,例如可以是对终端设备进行设备性能测试的场景或是对语音识别应用进行性能测试的场景。例如图1所示出的,在场景下,待测设备101上可以具有一个或多个麦克风1011,待测设备101与检测设备102相连接,使得在测试过程中,检测设备102可以对待测设备101进行性能检测。待测设备101通过获取声源播放设备103播放音频进行测试。可以理解,对于待测设备101而言,其获取到的音频是包含声源播放设备103播放的音频以及环境噪声的。例如若是进行设备性能测试的场景中,则检测设备102可以检测待测设备101在测试过程中的设备性能。又或者,若是对语音识别应用进行性能测试的场景中,则检测设备102可以检测待测设备101在测试过程中的语音识别应用的各项应用性能,例如识别速率、准确率等。
显然,无论在上述哪个场景中,在进行测试的阶段均需要采用人工播测的方式进行测试。例如可以将语音语料提前录制成音频,再通过声源播放设备103将录制好的音频进行播放。待测设备101在进行测试时处于语音交互状态,并基于接收到的音频进行语音交互。此时可以对待测设备101进行相应的检测,例如进行设备性能检测或是语音识别应用的性能检测。但由于待测设备101接收到的音频在不同场景下会存在差异,进而导致待测设备101中各模块的工作状态不同,测试结果也不同。因此需要针对不同的场景,进行相应的模拟场景搭建并测试。目前通用的方式是采用人工进行场景搭建,需要耗费大量的人力、场地以及时间等成本。
显然,目前在进行测试时,需要针对每个不同的场景进行模拟搭建相应的环境。而搭建环境时需要大量时间投入,并且还需准备测试时用到的各种设备等资源。显然每次测试均需要投入大量成本。
同时,由于每次测试的场景均是人工搭建的,因此一点点的不同都将难以复现相同的测试场景。此类方式无法实现自动化测试,需要持续投入人力。
因此,本公开提供了一种检测设备性能的方法,当终端设备进行语音测试时,根据测试所需的语音测试参数,获取与语音测试参数相匹配的音频文件。利用获取到的音频文件进行语音测试。以便进行语音测试期间,检测终端设备的设备性能。本公开通过获取已经存储好的音频文件进行语音测试,降低了测试时场景布置的人力成本、时间成本等,提高了测试效率。
接下来将结合附图对本公开进行详细阐述。
图2是本公开实施例的一种检测设备性能的场景示意图。通过图2可以看出,终端设备201上的语音识别应用在触发需要进行语音测试时,可以直接获取与语音测试参数相匹配的音频文件,以进行语音测试。在进行语音测试的期间,可以通过检测设备202对终端设备201进行相应的检测,例如检测终端设备201的设备性能,或是检测语音识别应用的性能等。
相比于传统方案,无需终端设备201中各麦克风2011获取测试场景中的音频。降低了测试时场景布置的人力成本、时间成本等,提高了测试效率。
当然基于图2所示出的场景,本公开还提供了一种检测设备性能的方法。图3是根据本公开一示例性实施方式中示出的一种检测设备性能的方法流程图。该方法可以应用于终端设备上。例如,终端设备例如可以包括但不限于手机、可穿戴设备、平板电脑、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digitalassistant,PDA)、膝上型计算机(laptop)、移动电脑、增强现实(augmented reality,AR)设备、虚拟现实(virtual reality,VR)设备、人工智能(artificial intelligence,AI)设备和/或车载设备等任意终端设备或便携式终端设备。
本公开所涉及的方法可以包括以下步骤:
S301,当终端设备上安装的语音识别应用被触发进行语音测试时,根据语音测试所需的语音测试参数,获取与语音测试参数相匹配的音频文件。
在一些例子中,终端设备上可以安装有语音识别应用。当终端设备上的语音识别应用被触发需要进行语音测试时,终端设备可以根据语音测试时所需的语音测试参数,获取到与该语音测试参数相匹配的音频文件。
可以理解,语音测试参数为可以表征不同语音测试的相关参数,也就是说,可以通过设定不同的语音测试参数,区分可能存在的不同测试情况。
S302,启动语音识别应用。
在一些例子中,在终端设备上安装的语音识别应用被触发进行语音测试之后,可以启动语音识别应用。可以理解,触发语音识别应用被触发进行语音测试,与语音识别应用被启动可能不是同时进行的。例如,可以先触发语音识别应用进行语音测试,然后启动语音识别应用,以用于后续进行语音测试。当然,在一些例子中,也可以触发语音识别应用进行语音测试的同时,即启动了语音识别应用,本公开不作限定。
S303,控制语音识别应用读取音频文件,以进行语音测试。
在一些例子,当终端设备在S302中启动了语音识别应用之后,可以控制语音识别应用读取S301中获取到的音频文件,以用于进行语音测试。
可以理解,进行语音测试可以是进行语音识别测试,例如,语音识别应用识别音频文件中可能的语义信息,并按照语音识别应用预设的方式进行反馈,比如进行智能对话,或者根据语义信息执行语义信息所指示的相应操作。当然,具体进行语音测试的过程可以参考现有方式,本公开不再赘述。
在一些例子中,语音识别应用可以是语音识别助手应用等可以进行语音识别的应用(application,APP)。
S304,在进行语音测试期间,检测终端设备的设备性能。
在一些例子中,终端设备在进行语音测试的期间,可以检测终端设备的性能。可以理解,若应用的场景为对终端设备进行设备性能测试的场景,则S304中可以在终端设备进行语音测试的期间,检测终端设备的设备性能。例如,可以检测终端设备中央处理器(central processing unit,CPU)的占用率、温度、内存占用率等信息。当然,检测的具体性能可以根据实际情况进行任意选取,本公开不作限定。
在又一些例子中,若应用的场景为对语音识别应用进行性能测试的场景,则在S304中终端设备可以在进行语音测试的期间,检测语音识别应用的性能。例如,可以检测语音识别应用的识别准确率、运行速度等与应用相关的性能。当然,检测的具体性能可以根据实际情况进行任意选取,本公开不作限定。
本公开通过获取已经存储好的音频文件进行语音测试,降低了测试时场景布置的成本,提高了测试效率。可以理解,本公开所涉及的检测设备性能的方法,降低了测试时场景布置的成本可以包括人力成本、时间成本等。
在一些实施例中,语音识别应用在终端设备的硬件抽象层中可以具有音频文件获取接口。S301中获取与语音测试参数相匹配的音频文件,可以包括:利用音频文件获取接口,从预先存储的音频数据集合中获取音频文件。
在一些例子,例如图4示出了一种终端设备系统框架的示意图。可以看出,终端设备系统可以大致分为应用层401、架构(framework)层402、硬件抽象层(hardwareabstraction layer,HAL)403和内核(kernel)层404。
其中,应用层401可以包含终端设备安装的语音识别应用。通常情况下,当用户启动语音识别应用后,语音识别应用会向架构层402中调用相应的服务(service),例如可以是语音识别服务。当然,语音识别服务在本公开中仅为一种示例,以表示与语音识别应用可能相关的一个或多个服务。具体位于架构层402中的服务以及服务数量可以根据实际情况进行调整,本公开不作限定。
在相关技术中,通常语音识别服务在进行语音测试时,通过调用硬件抽象层403中的麦克风接口,以便硬件抽象层403中的麦克风接口进一步通过内核层404中的声卡驱动控制终端设备上的麦克风获取相应的音频。
通过图4可以看出,本公开在硬件抽象层403中重新设计了一个接口,即音频文件获取接口。以便语音识别服务在进行语音测试时,可以通过调用硬件抽象层403中的音频文件获取接口,从预先存储的音频数据集合中获取到相应的音频文件。在一些例子中,可以采用python进行设计。
在一些例子中,音频文件获取接口也可以称为语音音频库,可以理解的是,语音音频库主要用于语音识别应用在进行语音测试时,作为获取音频文件的入口。
在一些例子中,在构建音频文件时,还可以利用语音音频库将从声卡驱动处获取到的各麦克风采集的音频存储成相应的音频文件。可以理解,当存储有多个音频文件时,存储的多个音频文件可以构成音频数据集。当进行语音测试时,则可以利用语音音频库从预先存储的音频数据集合中获取到本次语音测试所需要的音频文件。
本公开通过在硬件抽象层构建音频文件获取接口,从而可以利用该接口从预先存储的音频数据集合中获取音频文件。从而无需每次测试重新搭建测试场景,降低了测试时场景布置的成本,提高了测试效率。
在一些实施例中,图5为本公开实施例提供的另一种检测设备性能的方法流程图。其中,语音测试参数可以包括语音测试场景信息。S301中当终端设备上安装的语音识别应用被触发进行语音测试时,根据语音测试所需的语音测试参数,获取与语音测试参数相匹配的音频文件,还可以包括以下步骤:
S501,确定语音测试场景信息。
在一些例子中,终端设备可以确定语音测试场景信息。例如,终端设备可以获取预先配置好的语音测试场景信息。该语音测试场景信息用于表示本次语音测试时对应的测试场景。如,办公室场景、客厅场景、教室场景、操场场景等。
在又一些例子中,终端设备还可以通过接收用户指令,确定语音测试场景信息。例如,终端设备可以具有显示屏,该显示屏上可以具有第一区域。用户可以通过对第一区域进行相应的触摸操作或选择操作,该触摸操作或选择操作表示用户选择的测试场景。终端设备基于用户的触摸操作或选择操作,可以确定出触摸操作或选择操作所指示的语音测试场景信息。
例如图6所示,用户可以通过第一区域601中的下拉框选择相应的测试场景。终端设备可以根据用户的选择确定出语音测试场景信息,该语音测试场景信息则用于表示用户选择的测试场景。当然,图6仅示出了一种可能的确定方式,用户还可以通过在第一区域601中输入相应的语音测试场景信息,本公开对确定语音测试场景信息的具体方式不作限定。
S502,根据语音测试场景信息,触发语音识别应用进行语音测试。
在一些例子中,终端设备可以根据S501中确定的语音测试场景信息,触发语音识别应用进行语音测试。例如,终端设备可以在确定了语音测试场景信息后,直接触发语音识别应用进行语音测试。
当然,在又一些例子中,例如图7所示出的,终端设备的显示屏上可以包括第二区域702,第二区域可以对应有触发测试的按钮。可以理解,图7中的区域701与图6中的第一区域601相同。当用户点击第二区域702的按钮后,可以触发语音识别应用进行语音测试。但应注意的是,在触发语音识别应用进行语音测试之前,需通过S501的方式确定语音测试场景信息后再进行。也就是说,只有当确定语音测试场景信息后,用户才能点击第二区域702的按钮,以触发语音识别应用进行语音测试。
S503,根据语音测试场景信息,获取与语音测试场景信息相匹配的音频文件。
在一些例子中,当终端设备触发语音识别应用进行语音测试时,可以根据S501中确定的语音测试场景信息,获取与该语音测试场景信息相匹配的音频文件。例如,可以利用音频文件获取接口,从预先存储的音频数据集合中获取与该语音测试场景信息相匹配的音频文件。具体获取过程可以参考图4中相应的描述,本公开在此不再赘述。
当S503执行之后,可以继续执行S302
本公开通过语音测试场景信息将不同场景下需要用到的音频文件进行区分,以便可以根据实际测试需求,有针对性的获取相应测试场景下的音频文件。使得本公开可以适用于任意场景下的语音测试,降低了测试时场景布置的成本,提高了测试效率。
在一个实施例中,图8为本公开实施例的又一种检测设备性能的方法流程图。其中,语音测试参数还可以包括终端设备的设备信息。S301中根据语音测试所需的语音测试参数,获取与语音测试参数相匹配的音频文件,包括:
S801,确定设备信息;
在一些例子中,终端设备在触发语音识别应用进行语音测试时,还可以确定终端设备的设备信息。该设备信息可以用于表示该终端设备。例如设备信息可以是设备ID、设备型号、设备识别码等。当然具体设备信息可以根据实际情况进行选择,本公开不作限定。
S802,根据设备信息,获取与设备信息相匹配的音频文件。
在一些例子中,终端设备在通过S801确定出设备信息后,可以根据设备信息,获取与设备信息相匹配的音频文件。例如,可以利用音频文件获取接口,从预先存储的音频数据集合中获取与该设备信息相匹配的音频文件。具体获取过程可以参考图4中相应的描述,本公开在此不再赘述。
当S802执行之后,可以继续执行S302。
在一些例子中,S802确定的音频文件还可以结合S501中的语音测试场景信息,获取与语音测试场景信息相匹配,且与设备信息相匹配的音频文件。也就是说,音频文件可以是针对特定测试场景且针对特定设备的音频文件。
本公开通过设备信息,可以有效区分对不同设备进行测试的情况。以便可以根据实际测试需求,有针对性的获取用于测试相应设备的音频文件。使得本公开可以适用于针对任意设备的语音测试,降低了测试成本,提高了测试效率。
在一些实施例中,图9是本公开实施例的再一种检测设备性能的方法流程图。S301中的语音识别应用被触发进行语音测试,还可以包括以下步骤:
S901,确定语音测试应用版本信息。
在一些例子中,终端设备可以在触发语音识别应用进行语音测试之前,确定本次语音测试的语音测试应用版本信息。该语音测试应用版本信息用于表示本次进行语音测试时对应的语音识别应用的版本。也就是说,该语音测试应用版本信息指示了本次语音测试需采用哪个版本的语音识别应用进行语音测试。
在一些例子中,终端设备可以获取预先配置好的语音测试应用版本信息。当然,在另一些例子中,终端设备还可以通过接收用户指令,确定语音测试应用版本信息。例如图10所示,终端设备的显示屏上可以包括第三区域1001,用户可以通过第三区域1001中的下拉框选择相应的语音识别应用的版本。终端设备可以根据用户的选择确定出语音测试应用版本信息。当然,用户还可以通过在第三区域1001中输入相应的语音测试应用版本信息,本公开对确定语音测试应用版本信息的具体方式不作限定。
S902,根据语音测试应用版本信息,触发语音识别应用进行语音测试。
在一些例子中,终端设备可以根据S901中确定的语音测试应用版本信息,触发语音应用进行语音测试。可以理解,具体触发语音识别应用进行语音测试的方式与图7所描述的方式相类似,区别在于将图7中的第一区域701替换为图10中的第三区域1001,本公开在此不再赘述。
当S902执行之后,可以继续执行S302。
在一些实施例中,终端设备可以即确定语音测试场景信息,也确定语音测试应用版本信息。之后,基于语音测试场景信息和语音测试应用版本信息,触发语音识别应用进行语音测试。
本公开通过语音测试应用版本信息,可以有针对性的选择进行语音测试的应用版本,以便可以根据实际测试需求,对特定版本下的语音识别应用进行测试,以获取相应的性能信息,降低了测试成本,提高了测试效率。
在一个实施例中,对于S302启动语音识别应用,还可以包括:若语音识别应用的当前版本与语音测试应用版本信息不一致,根据语音测试应用版本信息对语音识别应用进行更新。之后,启动更新后的语音识别应用。
在一些例子中,终端设备上可以预先安装有语音识别应用。显然,已经安装的语音识别应用的版本有可能并不是本次测试所需的版本。因此可以通过语音测试应用版本信息对已经安装的语音识别应用进行版本校验。当终端设备确定语音识别应用的当前版本与语音测试应用版本信息不一致时,则可以获取语音测试应用版本信息所指示版本的语音识别应用。之后,将语音测试应用版本信息所指示版本的语音识别应用安装至终端设备上,以完成对语音识别应用的版本更新。之后,可以启动更新后的语音识别应用,以便进行后续的语音测试,以及性能检测。
本公开通过语音测试应用版本信息对语音识别应用进行更新,使得本公开可以适用于任意应用版本的语音测试,降低了测试成本,提高了测试效率。
在一些实施例中,S303中控制语音识别应用读取音频文件进行语音测试,可以包括:按照预设速度控制语音识别应用读取音频文件进行语音测试。
在一些例子中,由于终端设备在进行语音测试时,通过获取的音频文件进行,并非传统的利用麦克风采集的音频。因此,为了保证本公开进行的语音测试与传统语音测试效果基本一致,进而保证性能检测更为准确。终端设备可以按照预先设定的读取速度控制语音识别应用读取音频文件。可以理解,预先设定的读取速度,即预设速度与传统人工播测时音频流获取速度相近。通常可以预先记录人工播测时的音频流获取速度,并将该速度作为预设速度。
也就是说,预设速度是为了模拟人工播测时读取音频流的速度,使得人工播测的语音性能结果与音频文件读取测试的语音性能效果基本一致。这样,就可以通过预先配置不同的音频文件,实现不同场景下的语音测试,以及进行相应的性能检测。并能重复使用这些音频文件,做到不同场景下场景复原,实现终端设备的全自动化性能测试。
本公开通过控制语音识别应用读取音频文件,从而保证检测结果更加准确。
在一些实施例中,S301中的音频文件可以包含与语音测试参数相对应的语音识别语料和噪声。
在一些例子中,例如图11所示出的一种音频文件获取示意图。可以看出,音频文件可以是在进行传统测试时,通过待测设备1101中各麦克风11011采集得到的。其中,图11中的待测设备1101与图1中的待测设备101可以相同,图11中的声源播放设备1102与图1中的声源播放设备103可以相同,图11中的麦克风11011与图1中的麦克风1011可以相同。
对于各个麦克风11011采集到的音频文件,可以包含声源播放设备1102播放的语音识别语料,以及该测试场景下的环境噪声。可以看出,待测设备1101中的各麦克风11011将采集到的音频作为对应麦克风的音频文件。同时,待测设备1101还可以记录进行语音测试时自身设备所产生的音频,作为参考音频文件。该参考音频文件可以用于后续利用麦克风音频文件进行语音测试时,抵消来自设备自身可能产生的音频,从而保证语音测试的准确性,以及性能检测的准确性。
在一个例子中,图11的场景可以采用传统的人工搭建场景。例如可以在单独的测试场地,根据测试场景需求进行布置。其中,声源播放设备1102可以包括至少2台高保真音箱设备。一台用于播放采集有效的语音识别语料,一台用于播放采集的不同场景的噪声。待测设备1101上需要手动安装好语音识别应用的测试版本。在执行语音测试期间,通过麦克风获取到相应的音频文件。
本公开的音频文件中包含语音测试时所需的语音识别语料和噪声,从而可以模拟出相应测试环境,使得本公开可以适用于任意场景下的语音测试,降低了测试时场景布置的成本,提高了测试效率。
在一些实施例中,图12是本公开实施例的另一种检测设备性能的方法流程图。该方法可以应用于终端设备上的语音识别应用上,该方法可以分为语音识别应用前端步骤和后端步骤。在一些例子中,前端例如可以是网页(web)平台。其中,前端步骤可以包括:
S1201,确定测试版本。
在一些例子中,终端设备可以确定本次语音测试时语音识别应用的测试版本,即语音测试应用版本信息。
S1202,确定测试场景。
在一些例子中,终端设备可以确定本次测试对应的测试场景,即语音测试场景信息。
S1203,触发执行语音测试。
在一些例子中,当终端设备确定了本次语音测试语音识别应用的测试版本,以及对应的测试场景后,可以触发语音识别应用执行本次语音测试。
其中,S1201至S1203中各步骤的具体实现过程可以参考图2至图11中相应部分的描述,本公开不再赘述。
当终端设备执行完S1203之后,可以触发后端步骤,其中,后端步骤可以包括:
S1204,安装测试版本。
在一些例子中,终端设备可以根据S1201确定的测试版本,安装相应测试版本的语音识别应用。
S1205,启动语音识别应用。
在一些例子中,当终端设备上的语音识别应用为相应测试版本的语音识别应用时,可以启动该语音识别应用。
S1206,获取音频文件。
在一些例子中,终端设备可以根据S1202中确定的测试场景,选择相应测试场景对应的音频文件。可以理解,每个测试场景可以对应一份相应的音频文件。
在另一些例子中,终端设备还可以确定终端设备的设备信息。之后选择相应设备信息对应的音频文件。当然,在又一些例子中,终端设备还可以选择相应设备信息和相应测试场景均对应的音频文件,本公开不作限定。
可以理解的是,S1206可以在S1205之前、之后或同时执行,本公开不作限定。
S1207,检测性能。
在一些例子中,终端设备在进行语音测试期间,可以检测终端设备的设备性能。或者终端设备在进行语音测试期间,可以检测语音识别应用的性能。
S1208,检测到音频文件读取完毕。
S1209,测试结束。
其中,S1204至S1209中各步骤的具体实现过程可以参考图2至图11中相应部分的描述,本公开不再赘述。
可以看出,图12所描述的方法可以通过web可视化平台进行测试触发,后端模块负责与语音智能终端设备进行直接交互。
本公开通过获取已经存储好的音频文件进行语音测试,降低了测试时场景布置的成本,提高了测试效率。
基于相同的构思,本公开实施例还提供一种图像属性识别装置、属性识别模型训练装置。
可以理解的是,本公开实施例提供的一种检测设备性能的装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤,本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的技术方案的范围。
作为一示例性实施方式,图13是根据本公开一示例性实施方式中示出的一种检测设备性能的装置示意图。参阅图13所示,提供了一种检测设备性能的装置1300,该装置1300可以实现上述图2至图12中所涉及的任意一种方法。该装置1300可以包括:获取模块1301,用于当终端设备上安装的语音识别应用被触发进行语音测试时,根据语音测试所需的语音测试参数,获取与语音测试参数相匹配的音频文件;测试模块1302,用于启动语音识别应用;测试模块1302还用于,控制语音识别应用读取音频文件,以进行语音测试;检测模块1303,用于在进行语音测试期间,检测终端设备的设备性能。
本公开通过获取已经存储好的音频文件进行语音测试,降低了测试时场景布置的成本,提高了测试效率。
在一个可能的实施方式中,语音识别应用在终端设备的硬件抽象层中具有音频文件获取接口;获取模块1301还用于:利用音频文件获取接口,从预先存储的音频数据集合中获取音频文件。
本公开通过在硬件抽象层构建音频文件获取接口,从而可以利用该接口从预先存储的音频数据集合中获取音频文件。从而无需每次测试重新搭建测试场景,降低了测试时场景布置的成本,提高了测试效率。
在一个可能的实施方式中,语音测试参数包括语音测试场景信息;装置1300还包括:确定模块1304,用于确定语音测试场景信息;触发模块1305,用于根据语音测试场景信息,触发语音识别应用进行语音测试;获取模块1301还用于,根据语音测试场景信息,获取与语音测试场景信息相匹配的音频文件。
本公开通过语音测试场景信息将不同场景下需要用到的音频文件进行区分,以便可以根据实际测试需求,有针对性的获取相应测试场景下的音频文件。使得本公开可以适用于任意场景下的语音测试,降低了测试时场景布置的成本,提高了测试效率。
在一个可能的实施方式中,语音测试参数包括终端设备的设备信息;装置1300还包括:确定模块1304,用于确定设备信息;获取模块1301还用于,根据设备信息,获取与设备信息相匹配的音频文件。
本公开通过设备信息,可以有效区分对不同设备进行测试的情况。以便可以根据实际测试需求,有针对性的获取用于测试相应设备的音频文件。使得本公开可以适用于针对任意设备的语音测试,降低了测试成本,提高了测试效率。
在一个可能的实施方式中,确定模块1304还用于,确定语音测试应用版本信息;触发模块1305还用于,根据语音测试应用版本信息,触发语音识别应用进行语音测试。
本公开通过语音测试应用版本信息,可以有针对性的选择进行语音测试的应用版本,以便可以根据实际测试需求,对特定版本下的语音识别应用进行测试,以获取相应的性能信息,降低了测试成本,提高了测试效率。
在一个可能的实施方式中,测试模块1302还用于:若语音识别应用的当前版本与语音测试应用版本信息不一致,根据语音测试应用版本信息对语音识别应用进行更新;启动更新后的语音识别应用。
本公开通过语音测试应用版本信息对语音识别应用进行更新,使得本公开可以适用于任意应用版本的语音测试,降低了测试成本,提高了测试效率。
在一个可能的实施方式中,测试模块1302还用于:按照预设速度控制语音识别应用读取音频文件进行语音测试。
本公开通过控制语音识别应用读取音频文件,从而保证检测结果更加准确。
在一个可能的实施方式中,音频文件包含与语音测试参数相对应的语音识别语料和噪声。
本公开的音频文件中包含语音测试时所需的语音识别语料和噪声,从而可以模拟出相应测试环境,使得本公开可以适用于任意场景下的语音测试,降低了测试时场景布置的成本,提高了测试效率。
关于本公开上述涉及的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种检测设备性能的设备、一种可读存储介质和一种计算机程序产品。
图14示出了可以用来实施本公开的实施例的一种检测设备性能的设备1400的示意性框图。可以理解,该设备1400可以是图像属性识别设备,也可以是属性识别模型训练设备。该设备1400旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、服务器集群和其它适合的计算机。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图14所示,设备1400包括计算单元1401,其可以根据存储在只读存储器(ROM)1402中的计算机程序或者从存储单元1408加载到随机访问存储器(RAM)1403中的计算机程序,来执行各种适当的动作和处理。在RAM 1403中,还可存储设备1400操作所需的各种程序和数据。计算单元1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(I/O)接口1405也连接至总线1404。
设备1400中的多个部件连接至I/O接口1405,包括:输入单元1406,例如键盘、鼠标等;输出单元1407,例如各种类型的显示器、扬声器等;存储单元1408,例如磁盘、光盘等;以及通信单元1409,例如网卡、调制解调器、无线通信收发机等。通信单元1409允许设备1400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1401执行上文所描述的各个方法和处理,例如图2至图12所描述的任意一种方法。例如,在一些实施例中,图2至图12所描述的任意一种方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1402和/或通信单元1409而被载入和/或安装到设备1400上。当计算机程序加载到RAM 1403并由计算单元1401执行时,可以执行上文描述的一种图像属性识别方法,和/或一种属性识别模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述图2至图12所描述的任意一种方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。当然,在一些例子中,服务器还可以指代服务器集群。
本公开通过对Android系统架构的Audio HAL层进行改造,利用语音音频库将从声卡驱动处的多路mic音频流存储成音频文件。以便在进行性能测试时,语音音频库将不再从麦克风处获取音频流,而是直接读取各场景下录制完成的音频文件。避免了每次性能测试时,都需要人工重复执行上述操作。
本公开通过音频文件输入的方式替代传统的播测方式,实现了对语音智能终端设备性能进行全自动测试。本公开基于此方式构建一套自动化性能测试系统,输入的音频流为人工播测时从麦克风处存储的多路音频文件,可以完整替代传统播测方式。
本公开所涉及的性能测试方案与传统性能测试相比,不用重复布置测试场景,提高了性能测试的效率。将不同场景下的音频流存储成音频文件,可以反复利用此音频文件,并直接通过读取音频文件的方式进行性能测试,以模拟产出人工播测下的语音智能终端设备的性能数据。降低了测试时场景布置的成本,提高了测试效率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

1.一种检测设备性能的方法,所述方法包括:
当终端设备上安装的语音识别应用被触发进行语音测试时,根据所述语音测试所需的语音测试参数,获取与所述语音测试参数相匹配的音频文件;
启动所述语音识别应用;
控制所述语音识别应用读取所述音频文件,以进行所述语音测试;
在进行所述语音测试期间,检测所述终端设备的设备性能。
2.根据权利要求1所述的方法,其中,所述语音识别应用在所述终端设备的硬件抽象层中具有音频文件获取接口;
所述获取与所述语音测试参数相匹配的音频文件,包括:
利用所述音频文件获取接口,从预先存储的音频数据集合中获取所述音频文件。
3.根据权利要求1或2所述的方法,其中,所述语音测试参数包括语音测试场景信息;
所述当终端设备上安装的语音识别应用被触发进行语音测试时,根据所述语音测试所需的语音测试参数,获取与所述语音测试参数相匹配的音频文件,包括:
确定所述语音测试场景信息;
根据所述语音测试场景信息,触发所述语音识别应用进行所述语音测试;
根据所述语音测试场景信息,获取与所述语音测试场景信息相匹配的音频文件。
4.根据权利要求1-3中任意一项所述的方法,其中,所述语音测试参数包括所述终端设备的设备信息;
所述根据所述语音测试所需的语音测试参数,获取与所述语音测试参数相匹配的音频文件,包括:
确定所述设备信息;
根据所述设备信息,获取与所述设备信息相匹配的音频文件。
5.根据权利要求3所述的方法,其中,所述语音识别应用被触发进行语音测试,包括:
确定语音测试应用版本信息;
根据语音测试应用版本信息,触发所述语音识别应用进行所述语音测试。
6.根据权利要求5所述的方法,其中,所述启动所述语音识别应用,包括:
若所述语音识别应用的当前版本与所述语音测试应用版本信息不一致,根据所述语音测试应用版本信息对所述语音识别应用进行更新;
启动更新后的所述语音识别应用。
7.根据权利要求1-6中任意一项所述的方法,其中,控制所述语音识别应用读取所述音频文件进行所述语音测试,包括:
按照预设速度控制所述语音识别应用读取所述音频文件进行所述语音测试。
8.根据权利要求1-7中任意一项所述的方法,其中,所述音频文件包含与所述语音测试参数相对应的语音识别语料和噪声。
9.一种检测设备性能的装置,包括:
获取模块,用于当终端设备上安装的语音识别应用被触发进行语音测试时,根据所述语音测试所需的语音测试参数,获取与所述语音测试参数相匹配的音频文件;
测试模块,用于启动所述语音识别应用;
所述测试模块还用于,控制所述语音识别应用读取所述音频文件,以进行所述语音测试;
检测模块,用于在进行所述语音测试期间,检测所述终端设备的设备性能。
10.根据权利要求9所述的装置,其中,所述语音识别应用在所述终端设备的硬件抽象层中具有音频文件获取接口;
所述获取模块还用于:
利用所述音频文件获取接口,从预先存储的音频数据集合中获取所述音频文件。
11.根据权利要求9或10所述的装置,其中,所述语音测试参数包括语音测试场景信息;
所述装置还包括:
确定模块,用于确定所述语音测试场景信息;
触发模块,用于根据所述语音测试场景信息,触发所述语音识别应用进行所述语音测试;
所述获取模块还用于,根据所述语音测试场景信息,获取与所述语音测试场景信息相匹配的音频文件。
12.根据权利要求9-11中任意一项所述的装置,其中,所述语音测试参数包括所述终端设备的设备信息;
所述装置还包括:
确定模块,用于确定所述设备信息;
所述获取模块还用于,根据所述设备信息,获取与所述设备信息相匹配的音频文件。
13.根据权利要求11所述的装置,其中,
所述确定模块还用于,确定语音测试应用版本信息;
所述触发模块还用于,根据语音测试应用版本信息,触发所述语音识别应用进行所述语音测试。
14.根据权利要求13所述的装置,其中,所述测试模块还用于:
若所述语音识别应用的当前版本与所述语音测试应用版本信息不一致,根据所述语音测试应用版本信息对所述语音识别应用进行更新;
启动更新后的所述语音识别应用。
15.根据权利要求9-14中任意一项所述的装置,其中,所述测试模块还用于:
按照预设速度控制所述语音识别应用读取所述音频文件进行所述语音测试。
16.根据权利要求9-15中任意一项所述的装置,其中,所述音频文件包含与所述语音测试参数相对应的语音识别语料和噪声。
17.一种检测设备性能的设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
CN202210726783.6A 2022-06-24 2022-06-24 一种检测设备性能的方法、装置、设备及存储介质 Pending CN115206289A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210726783.6A CN115206289A (zh) 2022-06-24 2022-06-24 一种检测设备性能的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210726783.6A CN115206289A (zh) 2022-06-24 2022-06-24 一种检测设备性能的方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115206289A true CN115206289A (zh) 2022-10-18

Family

ID=83578690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210726783.6A Pending CN115206289A (zh) 2022-06-24 2022-06-24 一种检测设备性能的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115206289A (zh)

Similar Documents

Publication Publication Date Title
CN107516510B (zh) 一种智能设备自动化语音测试方法及装置
CN108877770B (zh) 用于测试智能语音设备的方法、装置和系统
CN108683937B (zh) 智能电视的语音交互反馈方法、系统及计算机可读介质
US11164574B2 (en) Conversational agent generation
CN108564966B (zh) 语音测试的方法及其设备、具有存储功能的装置
WO2020228383A1 (zh) 口型生成方法、装置及电子设备
CN107463700B (zh) 用于获取信息的方法、装置及设备
CN109637525B (zh) 用于生成车载声学模型的方法和装置
CN111309962B (zh) 提取音频片段的方法、装置以及电子设备
CN104866275B (zh) 一种用于获取图像信息的方法和装置
US20210327427A1 (en) Method and apparatus for testing response speed of on-board equipment, device and storage medium
JP6306528B2 (ja) 音響モデル学習支援装置、音響モデル学習支援方法
CN105430494A (zh) 在播放视频的设备中识别视频中音频的方法和装置
CN112614478B (zh) 音频训练数据处理方法、装置、设备以及存储介质
EP4102499A1 (en) Wakeup testing method and apparatus, electronic device and readable storage medium
CN112306447A (zh) 一种界面导航方法、装置、终端和存储介质
WO2021227308A1 (zh) 一种视频资源的生成方法和装置
US20220215839A1 (en) Method for determining voice response speed, related device and computer program product
CN111768759A (zh) 用于生成信息的方法和装置
CN113495843B (zh) 用于测试视频播放器的起播性能的方法和装置
CN112102836B (zh) 语音控制屏幕显示方法、装置、电子设备和介质
CN113157240A (zh) 语音处理方法、装置、设备、存储介质及计算机程序产品
CN116863910A (zh) 一种语音数据的合成方法、装置、电子设备及存储介质
CN115206289A (zh) 一种检测设备性能的方法、装置、设备及存储介质
JP2024507734A (ja) 音声類似度決定方法及び装置、プログラム製品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination