CN113223496A - 一种语音技能测试方法、装置及设备 - Google Patents

一种语音技能测试方法、装置及设备 Download PDF

Info

Publication number
CN113223496A
CN113223496A CN202110692922.3A CN202110692922A CN113223496A CN 113223496 A CN113223496 A CN 113223496A CN 202110692922 A CN202110692922 A CN 202110692922A CN 113223496 A CN113223496 A CN 113223496A
Authority
CN
China
Prior art keywords
voice
tested
product
identification
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110692922.3A
Other languages
English (en)
Inventor
梁京超
付浩翔
张红娜
张飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202110692922.3A priority Critical patent/CN113223496A/zh
Publication of CN113223496A publication Critical patent/CN113223496A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

本申请实施例公开了一种音技能测试方法,针对具有语音技能的待测试产品,播放测试音频,使得待测试语音产品可以采集该测试音频。待测试语音产品对测试音频进行识别,获得识别参数,该识别参数包括测试音频对应的指令,用于指示待测试语音产品在执行指令时所依据的参数。待测试语音产品执行指令,获得执行结果,返回该执行结果,并输出识别参数。也就是,待测试语音产品在返回执行结果时,还可以返回执行测试音频对应的指令时所依据的数据,在执行结果为错误时,用户可以通过识别参数确定哪个环节出现问题。例如,在识别参数正确的情况下,表明语音识别环节未出现问题,则应该是执行环节出现问题,从而使得用户可以迅速定位问题,提高测试效率。

Description

一种语音技能测试方法、装置及设备
技术领域
本申请涉及计算机处理技术领域,具体涉及一种语音技能测试方法、装置及设备。
背景技术
随着人工智能技术的发展,语音交互变得越来越普及,其中,用到最多的便是语音技能。语音技能是指智能语音产品可以根据用户所发出的指令,执行相应的操作。例如,语音技能包括查天气、查日程、闲聊等。在发布一款智能语音产品时,需要对该智能语音产品进行测试,以保证产品的稳定性。
然而,目前在测试时,测试人员只能通过执行结果来确定测试成功或失败。当出现执行错误时,测试人员很难从执行结果确定问题所在。例如,控制智能电视机调高音量,但执行结果并未调高音量,此时测试人员无法确定是语音采集模块、语音识别模块或执行模块中哪个环节出现问题。
发明内容
有鉴于此,本申请实施例提供一种语音技能测试方法、装置及设备,通过参数可视化,使得用户可以准确定位问题。
为实现上述目的,本申请实施例提供的技术方案如下:
在本申请实施例第一方面,提供了一种语音测试方法,该方法包括:
待测试语音产品获取测试音频,所述待测试语音产品包括一种或多种语音技能;
所述待测试语音产品对所述测试音频中进行识别,获得识别参数,所述识别参数包括所述测试音频对应的指令,所述识别参数用于指示所述待测试语音产品在执行所述指令时所依据的参数;
所述待测试语音产品执行所述指令,获得执行结果;
所述待测试语音产品返回所述执行结果,并输出所述识别参数。
在一种具体的实现方式中,所述识别参数还包括所述测试音频所属领域或所述指令对应的透传参数中的至少一项。
在一种具体的实现方式中,所述透传参数为预先配置的参数。
在一种具体的实现方式中,所述方法还包括:
所述待测试语音产品输出时间参数,所述时间参数包括整个测试过程不同阶段所对应的时长。
在一种具体的实现方式中,所述阶段包括:收音阶段、语音识别阶段、自然语言处理阶段中的至少一项。
在一种具体的实现方式中,响应于测试类型为请求次数的测试,所述时间参数包括不同阶段所对应的平均时长。
在一种具体的实现方式中,所述方法还包括:
响应于测试类型为请求次数的测试,所述待测试语音产品输出所述指令被识别的次数。
在一种具体的实现方式中,所述方法还包括:
响应于测试类型为持续时间的测试,所述待测试语音产品输出所识别的关键词和/或该关键词对应的识别次数。
在一种具体的实现方式中,所述方法还包括:
响应于对所述关键词的触发操作,播放包括所述关键词的音频。
在一种具体的实现方式中,所述方法还包括:
响应于所述待测试语音产品包括多个语音助手时,所述待测试语音产品输出每个所述语音助手的标识以及所述识别参数。
在一种具体的实现方式中,所述待测试语音产品输出每个所述语音助手的标识以及所述识别参数,包括:
所述待测试语音产品以饼图的形式展示每个所述语音助手的标识以及所述识别参数。
在一种具体的实现方式中,所述饼图以领域为维度进行展示。
在一种具体的实现方式中,所述方法还包括:
响应于用户对于所述饼图中任一区域的触发操作,显示所述区域对应的所述语音助手的标识以及所述识别参数。
在本申请实施例第二方面,提供了一种语音技能测试装置,所述装置包括:
获取单元,用于获取测试音频,所述待测试语音产品包括一种或多种语音技能;
识别单元,用于对所述测试音频中进行识别,获得识别参数,所述识别参数包括所述测试音频对应的指令,所述识别参数用于指示所述待测试语音产品在执行所述指令时所依据的参数;
执行单元,用于执行所述指令,获得执行结果;
输出单元,用于返回所述执行结果,并输出所述识别参数。
在本申请实施例第三方面,提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
在本申请实施例第四方面,提供了一种计算机可读存储介质,所述机算机可读存储介质中存储有指令,当所述指令在设备上运行时,使得所述设备执行第一方面所述的方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例提供了一语音技能测试方法,针对具有一种或多种语音技能的待测试产品,播放测试音频,使得待测试语音产品可以采集该测试音频。待测试语音产品对测试音频进行识别,获得识别参数,该识别参数包括测试音频对应的指令,用于指示待测试语音产品在执行指令时所依据的参数。待测试语音产品执行指令,获得执行结果,返回该执行结果,并输出识别参数。也就是,待测试语音产品在返回执行结果时,还可以返回执行测试音频对应的指令时所依据的数据,在执行结果为错误时,用户可以通过识别参数确定哪个环节出现问题。例如,在识别参数正确的情况下,表明语音识别环节未出现问题,则应该是执行环节出现问题,从而使得用户可以迅速定位问题,提高测试效率。
附图说明
图1为本申请实施例提供的一种语音技能测试方法流程图;
图2为本申请实施例提供的一种场景示意图;
图3为本申请实施例提供的一种语音技能测试装置结构图;
图4为本申请实施例提供的一种电子设备结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
申请人在对传统的语音技能测试方法研究中发现,传统的测试方法在对某一语音技能进行测试时,只能通过执行结果,来判断测试成功与否。如果出现执行错误,只能进行多次重复测试,直至问题定位成功。该种测试方法需要耗费大量的人力和时间,影响语音技能的应用。另外,当某一语音产品集成多家服务商提供的语音助手时,不同服务商的语音助手提供语音技能所擅长的领域不同,需要确定不同的语音助手各自所擅长的领域。其中,领域是指约束语音技能的范围,一般一个语音技能对应一个明确的领域。例如,通常情况下,语音助手包括多项语音技能,例如打电话、发短信、查新闻、查天气、听音乐等,其中,服务商1提供的语音助手1其擅长的领域为查天气,服务商2提供的语音助手擅长的领域为闲聊、服务商3提供的语音助手3擅长的领域为智能家居等。因此,如何确定每个语音助手各自所擅长的领域,以根据用户的需求确定出能为其提供更好服务器的语音技能,提高用户的使用体验是急需解决的问题。
基于此,本申请实施例一种语音测试方法,在测试某一待测试语音产品时,针对该待测试语音产品进行测试时,首先待测试语音产品获取测试音频,并对该测试音频进行识别,获得识别参数,该识别参数用于指示待测试产品在执行测试音频对应的指令时所依据的参数。待测试语音产品执行识别参数中的指令,获得执行结果,返回执行结果,并输出识别参数。也就是,在进行测试时,不仅可以获得执行结果,还可以获得执行过程所依据的参数。在执行结果出现错误时,可以通过识别参数定位问题。例如,如果输出的识别参数为空,说明待测试语音产品未获取到测试语音,即麦克风存在问题;如果输出的识别参数存在问题时,表明待测试语音产品的语音识别功能存在问题;如果识别参数正确,执行结果错误,表明执行功能存在问题,从而协助用户快速定位问题。
进一步地,当存在多个语音助手时,多个语音助手采集同一段测试音频,并返回各自执行的结果以及各自对应的识别参数。其中,识别参数中可以包括语音助手所识别的领域。通过每个语音助手所对应的执行结果和识别参数,可以确定该语音助手对哪个领域识别度高,从而在实际应用中,将领域识别度高的语音助手推送给用户,提高用户的使用体验。
其中,本申请实施例涉及的技术名词包括:
从文本到语音(text to speech,TTS),能将任意文字信息实时转化为标准流畅的语音朗读出来。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,是人机对话的一部分。
自动语音识别技术(Automatic Speech Recognition,ASR),是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。
自然语言处理(Natural Language Processing,NLP),一种专业分析人类语言的人工智能。它的工作原理是接收自然语言,这种语言是通过人类的自然使用演变而来的,我们每天都用它来交流;转译自然语言,通常是通过基于概率的算法;分析自然语言并输出结果。
为便于理解,下面将结合附图对本申请实施例提供的一种语音技能测试方法进行说明。
参见图1,该图为本申请实施例提供的一种语音技能测试方法流程图,如图1所示,该方法可以包括:
S101:待测试语音产品获取测试音频。
本实施例中,为对待测试语音产品的某一语音技能进行测试,可以预先获取大量的测试音频,并播放该测试音频,以使得待测试语音产品可以采集到测试音频。具体地,待测试语音产品可以包括语音采集模块,在检测到有音频在播放时,语音采集模块开始收音。
可选的,待测试语音产品在收音阶段可以记录开始收音的时刻以及结束收音的时刻,通过上述的记录可以确定语音采集模块的工作效率。
S102:待测试语音产品对测试音频中进行识别,获得识别参数。
在待测试语音产品完成测试音频的采集后,对采集的测试音频进行ASR识别,以获得识别参数。其中,识别参数包括待测试语音产品从测试音频中提取的关键信息,以作为后续执行的依据。例如,识别参数包括测试音频对应的指令,测试音频所属的领域、指令对应的透传参数等。其中,透传参数可以理解为对指令进行翻译后的结果,可以进行预先配置。例如,测试音频为“把音量调高25”,待测试语音产品对其进行识别,识别的领域为“系统控制领域”、指令“音量调高25”、指令对应的透传参数“higher 25”等。再例如,测试音频为“明天天气怎么样”,识别的领域为“天气”、指令“查天气”、指令对应的透传参数为“domain:weather、city:hebei”等。
具体地,待测试语音产品可以包括语音处理模块和语音识别模块,其中,语音处理模块用于滤除干扰信号、提取语音特征矢量,并将提取的语音特征矢量量化成标准的语音特征矢量。语音识别模块将标准的语音特征矢量与语音模板库中的语音模块进行比较,以获得领域、指令、透传参数等信息。
其中,待测试语音产品对测试语音进行识别时,还可以记录识别所使用的时间,从而通过该时间可以获知识别速度。
S103:待测试语音产品执行识别参数中的指令,获得执行结果。
本实施例中,待测试语音产品在获得识别参数后,执行识别参数中的指令,获得执行结果。例如,指令为“天气如何”,则执行该指令,获得当前位置、当天天气的具体的情况。再例如,指令为“调高音量25”,则执行该指令,在当前音量的基础上提高25。
具体地,待测试语音产品可以包括执行模块,该执行模块根据指令进行相关的操作,从而获得NLP结果。其中,在执行模块执行指令时,待测试语音产品还可以记录获得NLP结果所使用的而时间,从而通过该时间可以获知处理速度。
S104:待测试语音产品返回执行结果,并输出识别参数。
在待测试语音产品返回执行结果时,输出识别参数,从而使得用户可以直观地了解返回当前执行结果所对应的执行依据(识别参数)。在执行结果出现错误时,可以通过该识别参数进行快速定位。
例如,如果输出的识别参数中没有声纹信息,说明待测试语音产品没有获取到测试语音,可能麦克风出了问题;如果识别到声纹但是ASR转写结果错误,表明识别功能存在问题;如果ASR识别正确,但是返回参数错误,说明意图解析出现问题;如果返回参数正确,执行结果错误,说明是上层应用的执行逻辑出现了问题,从而协助用户快速定位问题。即,通过输出识别参数可以协助用户进行快速定位,无需重复测试,提高测试效率。
通过前述可知,待测试语音产品可以记录不同阶段的时间参数,例如,收音阶段、语音识别结果、NLP阶段等各阶段所对应的使用时间。
可以理解的是,为提高测试的准确性,可以采用批量测试的方式对待测试语音产品进行测试。其中,批量测试可以包括两种类型,一种是通过请求次数进行批量测试,按照次数测试准确率,开始测试后,用已经录制好的音频或测试人员自测,进行语音输入,直到测试次数完成,输出结果;另一种是通过持续时间进行批量测试,按照持续识别时间测试准确率,开始测试后,将待测试语音产品放置于需要测试的环境内,直到时间完成,输出结果。
可以理解的是,响应于测试类型为请求次数的测试时,待测试语音产品所输出的时间参数包括不同阶段对应的平均时长。也就是,获得每次测试不同阶段对应的时长,根据测试次数获得不同阶段的平均时长。同时,输出每次测试时对应的领域、指令、透传参数等。
可选的,响应于测试类型为请求次数的测试,待测试语音产品还可以输出每个指令被识别的次数。
可选的,响应于测试类型为持续时间的测试,待测试语音产品可以输出所识别的关键词以及该关键词对应的识别次数。进一步地,还可以输出每个关键词被识别时对应的时间分布图。
可选的,响应于用户触发关键词,还可以包括该关键词的音频。具体地,该音频可以包括关键词所在片段的音频、前一段音频和后一段音频。
在实际应用中,一个待测试语音产品可以包括多个语音助手,为确定出每个语音助手各自所擅长的领域。针对同一测试音频,分别输入不同的语音助手中,每个语音助手针对该测试音频进行ASR识别、NLP处理,获得执行结果。同时,每个语音助手可以输出各自对应的识别参数,同时输出各自对应的标识,从而使得用户可以获知不同的语音助手在处理同一测试音频时,各自所对应的准确度,从而确定每个语音助手所擅长的领域。在用户使用时,可以进行准确推荐,提高用户的使用体验。
可选的,在针对不同语音助手进行测试时,响应于测试类型为请求次数类型,待测试语音产品可以输出信息饼图,并针对该信息饼图进行数据下钻。例如,以领域为维度,输出领域饼图,点击饼图可以查看响应该领域的语音助手、各语音助手对应的指令词以及响应次数。同时还可以查看每个语音助手响应指令时所对应的透传参数。如图2所示的示例图,以划分为4个区域为例,分别对应的领域为查询天气、娱乐、打电话和闲聊。以娱乐区域为例,点击该区域可以查看响应属于娱乐的测试音频的语音助手bot以及各bot对应的识别参数等。
基于上述方法实施例,本申请实施例提供了一种语音技能测试装置,下面将结合附图进行说明。
参见图3,该图为本申请实施例提供的一种语音技能测试装置结构图,如图3所示,该测试装置300可以包括:
获取单元301,用于获取测试音频,所述待测试语音产品包括一种或多种语音技能;
识别单元302,用于对所述测试音频中进行识别,获得识别参数,所述识别参数包括所述测试音频对应的指令,所述识别参数用于指示所述待测试语音产品在执行所述指令时所依据的参数;
执行单元303,用于执行所述指令,获得执行结果;
输出单元304,用于返回所述执行结果,并输出所述识别参数。
在一种具体的实现方式中,所述识别参数还包括所述测试音频所属领域或所述指令对应的透传参数中的至少一项。
在一种具体的实现方式中,所述透传参数为预先配置的参数。
在一种具体的实现方式中,所述输出单元304,还用于输出时间参数,所述时间参数包括整个测试过程不同阶段所对应的时长。
在一种具体的实现方式中,所述阶段包括:收音阶段、语音识别阶段、自然语言处理阶段中的至少一项。
在一种具体的实现方式中,响应于测试类型为请求次数的测试,所述时间参数包括不同阶段所对应的平均时长。
在一种具体的实现方式中,所述输出单元304,还用于响应于测试类型为请求次数的测试,输出所述指令被识别的次数。
在一种具体的实现方式中,所述输出单元304,响应于测试类型为持续时间的测试,输出所识别的关键词和/或该关键词对应的识别次数。
在一种具体的实现方式中,所述装置还包括:播放单元;
所述播放单元,还用于响应于对所述关键词的触发操作,播放包括所述关键词的音频。
在一种具体的实现方式中,所述输出单元304,响应于所述待测试语音产品包括多个语音助手时,输出每个所述语音助手的标识以及所述识别参数。
在一种具体的实现方式中,所述输出单元304,具体用于以饼图的形式展示每个所述语音助手的标识以及所述识别参数。
在一种具体的实现方式中,所述饼图以领域为维度进行展示。
在一种具体的实现方式中,所述装置还包括:显示单元;
所述显示单元,还用于响应于用户对于所述饼图中任一区域的触发操作,显示所述区域对应的所述语音助手的标识以及所述识别参数。
需要说明的是,本实施例中各个单元的实现可以参见图1所述方法实施例中的相关描述,本实施例在此不再赘述。
参见图4,其示出了适于用来实现本公开实施例的电子设备400的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图4所示,电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM403中,还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
通常,以下装置可以连接至I/O接口405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置408;以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置408被安装,或者从ROM402被安装。在该计算机程序被处理装置401执行时,执行本公开实施例的方法中限定的上述功能。
本公开实施例提供的电子设备与上述实施例提供的语音技能测试方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
本公开实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所提供的语音技能测试方法。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(Hyper Text TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备可以执行:
待测试语音产品获取测试音频,所述待测试语音产品包括一种或多种语音技能;
所述待测试语音产品对所述测试音频中进行识别,获得识别参数,所述识别参数包括所述测试音频对应的指令,所述识别参数用于指示所述待测试语音产品在执行所述指令时所依据的参数;
所述待测试语音产品执行所述指令,获得执行结果;
所述待测试语音产品返回所述执行结果,并输出所述识别参数。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元/模块的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (16)

1.一种语音技能测试方法,其特征在于,所述方法包括:
待测试语音产品获取测试音频,所述待测试语音产品包括一种或多种语音技能;
所述待测试语音产品对所述测试音频中进行识别,获得识别参数,所述识别参数包括所述测试音频对应的指令,所述识别参数用于指示所述待测试语音产品在执行所述指令时所依据的参数;
所述待测试语音产品执行所述指令,获得执行结果;
所述待测试语音产品返回所述执行结果,并输出所述识别参数。
2.根据权利要求1所述的方法,其特征在于,所述识别参数还包括所述测试音频所属领域或所述指令对应的透传参数中的至少一项。
3.根据权利要求2所述的方法,其特征在于,所述透传参数为预先配置的参数。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
所述待测试语音产品输出时间参数,所述时间参数包括整个测试过程不同阶段所对应的时长。
5.根据权利要求4所述的方法,其特征在于,所述阶段包括:收音阶段、语音识别阶段、自然语言处理阶段中的至少一项。
6.根据权利要求4或5所述的方法,其特征在于,响应于测试类型为请求次数的测试,所述时间参数包括不同阶段所对应的平均时长。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
响应于测试类型为请求次数的测试,所述待测试语音产品输出所述指令被识别的次数。
8.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
响应于测试类型为持续时间的测试,所述待测试语音产品输出所识别的关键词和/或该关键词对应的识别次数。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
响应于对所述关键词的触发操作,所述待测试语音产品播放包括所述关键词的音频。
10.根据权利要求1-9任一项所述的方法,其特征在于,所述方法还包括:
响应于所述待测试语音产品包括多个语音助手时,所述待测试语音产品输出每个所述语音助手的标识以及所述识别参数。
11.根据权利要求10所述的方法,其特征在于,所述待测试语音产品输出每个所述语音助手的标识以及所述识别参数,包括:
所述待测试语音产品以饼图的形式展示每个所述语音助手的标识以及所述识别参数。
12.根据权利要求11所述的方法,其特征在于,所述饼图以领域为维度进行展示。
13.根据权利要求12所述的方法,其特征在于,所述方法还包括:
响应于用户对于所述饼图中任一区域的触发操作,所述待测试语音产品显示所述区域对应的所述语音助手的标识以及所述识别参数。
14.一种语音技能测试装置,其特征在于,所述装置包括:
获取单元,用于获取测试音频,所述待测试语音产品包括一种或多种语音技能;
识别单元,用于对所述测试音频中进行识别,获得识别参数,所述识别参数包括所述测试音频对应的指令,所述识别参数用于指示所述待测试语音产品在执行所述指令时所依据的参数;
执行单元,用于执行所述指令,获得执行结果;
输出单元,用于返回所述执行结果,并输出所述识别参数。
15.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现权利要求1-13任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述机算机可读存储介质中存储有指令,当所述指令在设备上运行时,使得所述设备执行权利要求1-13任一项所述的方法。
CN202110692922.3A 2021-06-22 2021-06-22 一种语音技能测试方法、装置及设备 Pending CN113223496A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110692922.3A CN113223496A (zh) 2021-06-22 2021-06-22 一种语音技能测试方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110692922.3A CN113223496A (zh) 2021-06-22 2021-06-22 一种语音技能测试方法、装置及设备

Publications (1)

Publication Number Publication Date
CN113223496A true CN113223496A (zh) 2021-08-06

Family

ID=77080826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110692922.3A Pending CN113223496A (zh) 2021-06-22 2021-06-22 一种语音技能测试方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113223496A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117149659A (zh) * 2023-09-27 2023-12-01 北京唯得科技有限公司 一种移频产品测试方法、系统、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080101556A1 (en) * 2006-10-31 2008-05-01 Samsung Electronics Co., Ltd. Apparatus and method for reporting speech recognition failures
US20130262110A1 (en) * 2012-03-29 2013-10-03 Educational Testing Service Unsupervised Language Model Adaptation for Automated Speech Scoring
CN106548772A (zh) * 2017-01-16 2017-03-29 上海智臻智能网络科技股份有限公司 语音识别测试系统及方法
CN109003602A (zh) * 2018-09-10 2018-12-14 百度在线网络技术(北京)有限公司 语音产品的测试方法、装置、设备及计算机可读介质
CN109545221A (zh) * 2019-01-23 2019-03-29 努比亚技术有限公司 参数调整方法、移动终端及计算机可读存储介质
CN112365902A (zh) * 2020-10-16 2021-02-12 科大讯飞股份有限公司 语音处理系统的测试方法及相关设备、存储装置
CN112863545A (zh) * 2021-01-13 2021-05-28 北京字节跳动网络技术有限公司 性能测试方法、装置、电子设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080101556A1 (en) * 2006-10-31 2008-05-01 Samsung Electronics Co., Ltd. Apparatus and method for reporting speech recognition failures
US20130262110A1 (en) * 2012-03-29 2013-10-03 Educational Testing Service Unsupervised Language Model Adaptation for Automated Speech Scoring
CN106548772A (zh) * 2017-01-16 2017-03-29 上海智臻智能网络科技股份有限公司 语音识别测试系统及方法
CN109003602A (zh) * 2018-09-10 2018-12-14 百度在线网络技术(北京)有限公司 语音产品的测试方法、装置、设备及计算机可读介质
CN109545221A (zh) * 2019-01-23 2019-03-29 努比亚技术有限公司 参数调整方法、移动终端及计算机可读存储介质
CN112365902A (zh) * 2020-10-16 2021-02-12 科大讯飞股份有限公司 语音处理系统的测试方法及相关设备、存储装置
CN112863545A (zh) * 2021-01-13 2021-05-28 北京字节跳动网络技术有限公司 性能测试方法、装置、电子设备及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117149659A (zh) * 2023-09-27 2023-12-01 北京唯得科技有限公司 一种移频产品测试方法、系统、设备及介质
CN117149659B (zh) * 2023-09-27 2024-04-26 北京唯得科技有限公司 一种移频产品测试方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN112966712B (zh) 语言模型训练方法、装置、电子设备和计算机可读介质
CN111883117B (zh) 语音唤醒方法及装置
US11783808B2 (en) Audio content recognition method and apparatus, and device and computer-readable medium
CN110990598A (zh) 资源检索方法、装置、电子设备及计算机可读存储介质
CN113223496A (zh) 一种语音技能测试方法、装置及设备
CN112242143B (zh) 一种语音交互方法、装置、终端设备及存储介质
CN112382266A (zh) 一种语音合成方法、装置、电子设备及存储介质
CN112069786A (zh) 文本信息处理方法、装置、电子设备及介质
CN112837672B (zh) 对话归属的确定方法、装置、电子设备及存储介质
CN112309389A (zh) 信息交互方法和装置
CN115171122A (zh) 一种点读处理方法、装置、设备及介质
CN112669816A (zh) 模型的训练方法、语音识别方法、装置、介质及设备
CN110990528A (zh) 一种问答方法、装置及电子设备
CN112185186A (zh) 一种发音纠正方法、装置、电子设备及存储介质
CN112148847A (zh) 一种语音信息的处理方法及装置
CN112309387A (zh) 用于处理信息的方法和装置
CN111562864B (zh) 显示图片方法、电子设备和计算机可读介质
CN113132789B (zh) 一种多媒体的交互方法、装置、设备及介质
CN113674739B (zh) 一种时间确定方法、装置、设备及存储介质
US20240096347A1 (en) Method and apparatus for determining speech similarity, and program product
US11792494B1 (en) Processing method and apparatus, electronic device and medium
CN111768771B (zh) 用于唤醒电子设备的方法和装置
CN116911297A (zh) 车型识别和问答处理方法、装置、设备、车辆及存储介质
CN117292683A (zh) 一种语音响应方法、装置、设备和存储介质
CN114999454A (zh) 语音交互设备的性能测试方法、装置、设备及可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210806