CN117912492A - 一种设备拒识率的评估方法和装置 - Google Patents

一种设备拒识率的评估方法和装置 Download PDF

Info

Publication number
CN117912492A
CN117912492A CN202311771647.XA CN202311771647A CN117912492A CN 117912492 A CN117912492 A CN 117912492A CN 202311771647 A CN202311771647 A CN 202311771647A CN 117912492 A CN117912492 A CN 117912492A
Authority
CN
China
Prior art keywords
target equipment
audio
target
equipment
rejection rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311771647.XA
Other languages
English (en)
Inventor
王双双
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Haier Technology Co Ltd
Haier Smart Home Co Ltd
Haier Uplus Intelligent Technology Beijing Co Ltd
Original Assignee
Qingdao Haier Technology Co Ltd
Haier Smart Home Co Ltd
Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Haier Technology Co Ltd, Haier Smart Home Co Ltd, Haier Uplus Intelligent Technology Beijing Co Ltd filed Critical Qingdao Haier Technology Co Ltd
Priority to CN202311771647.XA priority Critical patent/CN117912492A/zh
Publication of CN117912492A publication Critical patent/CN117912492A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本申请公开了一种设备拒识率的评估方法和装置,涉及智能家居技术领域,应用于电子设备,方法包括:在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果;基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,并基于所述目标设备对于每种预设音频的拒识率对所述目标设备的语音拒识模型进行调整;其中,所述拒识率包括电子音播放拒识率、人为录制音频拒识率和人声询问语义不明拒识率;所述语音拒识模型用于对不符合目标设备控制指令的语音进行拒识。通过本申请提供的方法,确定语音拒识模型的优化方向,有针对性地提高目标设备的拒识效果。

Description

一种设备拒识率的评估方法和装置
技术领域
本申请涉及语音识别技术领域,尤其涉及一种设备拒识率的评估方法和装置。
背景技术
随着数据处理技术的进步以及移动互联网的快速普及,语音数据受到了人们越来越多的重视。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。
基于深度学习的语音识别模型,需要不断通过改变模型结构,训练数据等提高模型对语音的识别率,现有技术中,通常通过反复唤醒设备,人工输出询问结果,导致测试准确性低。
如何通过拒识测试提高设备的拒识效果,是目前需要解决的技术问题。
发明内容
本申请提供一种设备拒识率的评估方法和装置,用以解决现有技术中存在的缺陷。
本申请提供一种设备拒识率的评估方法,应用于电子设备,所述方法包括:
在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果;其中,所述目标设备为需要计算拒识率的设备;
基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,并基于所述目标设备对于每种预设音频的拒识率对所述目标设备的语音拒识模型进行调整,以提高所述目标设备的拒识效果;其中,所述拒识率包括电子音播放拒识率、人为录制音频拒识率和人声询问语义不明拒识率;所述语音拒识模型用于对不符合目标设备控制指令的语音进行拒识。
根据本申请提供的一种设备拒识率的评估方法,所述在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果,包括:
在目标设备被唤醒的情况下,向所述目标设备播放第一音频,并获取所述目标设备对于所述第一音频的第一响应结果;其中,所述第一音频为包含视听节目内容的音频;
所述基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,包括:
基于所述第一响应结果,计算所述目标设备的电子音播放拒识率。
根据本申请提供的一种设备拒识率的评估方法,所述在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果,包括:
在目标设备被唤醒的情况下,向所述目标设备播放第二音频,并获取所述目标设备对于所述第二音频的第二响应结果;其中,所述第二音频为按照预设剧情脚本生成的音频;
所述基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,包括:
基于所述第二响应结果,计算所述目标设备的人为录制音频拒识率。
根据本申请提供的一种设备拒识率的评估方法,所述在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果,包括:
在目标设备被唤醒的情况下,向所述目标设备播放第三音频,并获取所述目标设备的第三响应结果;其中,所述第三音频为包含嘈杂环境背景声音且包含人声的音频;
所述基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,包括:
基于所述第三响应结果,计算所述目标设备的人声询问语义不明拒识率。
根据本申请提供的一种设备拒识率的评估方法,所述基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,包括:
基于所述目标设备的响应结果,确定所述目标设备的询问日志结果;其中,所述询问日志结果包含所述目标设备对于所述预设音频的拾音条数和拒识条数;
计算所述拒识条数与所述拾音条数的商值,得到所述目标设备的拒识率。
根据本申请提供的一种设备拒识率的评估方法,在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果之前,所述方法还包括:
按照预设周期循环播放所述目标设备的唤醒词,在检测到所述目标设备的目标日志消息的情况下,确定所述目标设备被唤醒。
本申请还提供一种设备拒识率的评估装置,应用于电子设备,所述装置包括:
获取模块,用于在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果;其中,所述目标设备为需要计算拒识率的设备;
计算模块,用于基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,并基于所述目标设备对于每种预设音频的拒识率对所述目标设备的语音拒识模型进行调整,以提高所述目标设备的拒识效果;其中,所述拒识率包括电子音播放拒识率、人为录制音频拒识率和人声询问语义不明拒识率;所述语音拒识模型用于对不符合目标设备控制指令的语音进行拒识。
根据本申请提供的一种设备拒识率的评估装置,所述获取模块,具体用于:
在目标设备被唤醒的情况下,向所述目标设备播放第一音频,并获取所述目标设备对于所述第一音频的第一响应结果;其中,所述第一音频为包含视听节目内容的音频;
所述计算模块,具体用于:
基于所述第一响应结果,计算所述目标设备的电子音播放拒识率。
本申请还提供一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行实现如上述任一种所述设备拒识率的评估方法。
本申请还提供一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行实现如上述任一种所述设备拒识率的评估方法。
本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述设备拒识率的评估方法。
本申请提供的一种设备拒识率的评估方法和装置,应用于电子设备,在目标设备被唤醒的情况下,依次向目标设备播放不同类型的预设音频,并获取目标设备对于每种预设音频的响应结果,其中,目标设备为需要计算拒识率的设备;基于目标设备对于每种预设音频的响应结果,计算目标设备对于每种预设音频的拒识率,并基于目标设备对于每种预设音频的拒识率对目标设备的语音拒识模型进行调整,以提高目标设备的拒识效果,其中,拒识率包括电子音播放拒识率、人为录制音频拒识率和人声询问语义不明拒识率,语音拒识模型用于对不符合目标设备控制指令的语音进行拒识。由此可知,本申请通过向目标设备播放预设音频,基于目标设备对于每种预设音频的响应结果,计算目标设备对于每种预设音频的拒识率,从而确定语音拒识模型的优化方向,有针对性地提高目标设备的拒识效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例的一种设备拒识率的评估方法的硬件环境示意图;
图2是本申请提供的设备拒识率的评估方法的流程示意图之一;
图3是本申请提供的设备拒识率的评估方法的流程示意图之二;
图4是本申请提供的设备拒识率的评估方法的完整流程图;
图5是本申请提供的设备拒识率的评估装置的结构示意图;
图6是本申请提供的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种设备拒识率的评估方法。该设备拒识率的评估方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(Intelligence House)生态等全屋智能数字化控制应用场景。可选地,在本实施例中,上述设备拒识率的评估方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端设备102进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务,可在服务器上或独立于服务器配置云计算和/或边缘计算服务,用于为服务器104提供数据运算服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。
下面结合图2-图6描述本申请的一种设备拒识率的评估方法和装置。
需要说明的是,随着数据处理技术的进步以及移动互联网的快速普及,语音数据受到了人们越来越多的重视。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。
基于深度学习的语音识别模型,需要不断通过改变模型结构,训练数据等提高模型对语音的识别率,现有技术中,通常通过反复唤醒设备,人工输出询问结果,且与设备交互次数少,得出的测试准确性不佳。基于此,本申请提出一种设备拒识率的评估方法,用以解决上述问题。
图2是本申请提供的设备拒识率的评估方法的流程示意图之一,如图1所示,本申请提供的设备拒识率的评估方法,应用于电子设备,所述方法包括:
步骤100、在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果;其中,所述目标设备为需要计算拒识率的设备。
需要说明的是,语音拒识模型是指一种模型,它可以根据输入的特征或其他因素,判断一个样本是否属于某种类别。在语音识别领域,语音拒识模型可以用来判断一个语音输入是否属于某个特定的人或口音,或者判断一个语音输入是否属于某个特定的语言或方言。语音拒识模型可以基于不同的算法和模型,如决策树、支持向量机、神经网络等。在实际应用中,语音拒识模型通常需要经过训练和优化,以适应不同的应用场景和数据特征。
本实施例提供一种语音拒识模型,用于对不符合目标设备控制指令的语音进行拒识。例如,目标设备为智能空调,符合的控制指令可以为“打开空调”、“将温度调整至28℃”等,对于控制指令,智能空调不进行拒识,并执行所述控制指令对应的操作;不符合控制指令的语音例如可以为用户的闲聊内容“午饭吃什么”,智能空调对此条语音进行拒识。可以理解的是,由于本实施例提供的语音拒识模型用于对不符合目标设备控制指令的语音进行拒识,因此,对于目标设备的语音拒识模型来说,拒识率越高,说明拒识效果越好。
设备拒识率是指设备准确识别的不符合控制指令的语音输入信号占全部语音输入信号的比率。它反映了设备在面对各种复杂环境、不同的说话方式、不同的口音和方言等方面的处理能力。设备拒识率的高低直接影响着语音识别系统的性能和用户体验。
本实施例中,将部署语音拒识模型的设备作为目标设备,计算目标设备的拒识率。本实施例执行主体为电子设备,例如,具有语音播放功能的智能语音设备,本实施例对此不作任何特别限定。
需要说明的是,按照预设周期循环播放目标设备的唤醒词,在检测到目标设备的目标日志消息的情况下,确定目标设备被唤醒。例如循环播放设备唤醒词“小优,小优”,间隔时间为20s,目的唤醒目标设备。
具体地,在确认目标设备被唤醒的情况下,依次向目标设备播放不同类型的预设音频,并获取目标设备对于每种预设音频的响应结果。预设音频可以为多种不同形式、不同内容的音频,例如包含视听节目内容的音频、按照预设剧情脚本生成的音频、包含嘈杂环境背景声音且包含人声的音频等,以实现从多个维度计算设备拒识率,本实施例对此不作任何特别限定。
进一步地,播放一定时间段之后,例如播放10min,查看目标设备的拾音情况,确定拾音条数和拒识条数。其中,拾音条数是指目标设备全部语音输入信号,拒识条数是指目标设备准确识别的不符合控制指令的语音输入信号。
在另一个实施例中,在播放语音唤醒词之后,也可直接向目标设备播放预设音频。
步骤200、基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,并基于所述目标设备对于每种预设音频的拒识率对所述目标设备的语音拒识模型进行调整,以提高所述目标设备的拒识效果;其中,所述拒识率包括电子音播放拒识率、人为录制音频拒识率和人声询问语义不明拒识率;所述语音拒识模型用于对不符合目标设备控制指令的语音进行拒识。
具体地,基于目标设备的响应结果,确定目标设备的询问日志结果,询问日志结果包含目标设备对于预设音频的拾音条数和拒识条数,计算拒识条数与拾音条数的商值,得到目标设备的拒识率。
需要说明的是,基于目标设备对于包含视听节目内容的音频的响应结果,可计算目标设备的电子音播放拒识率;基于目标设备对于按照预设剧情脚本生成的音频的响应结果,可计算目标设备的人为录制音频拒识率;基于目标设备对于包含嘈杂环境背景声音且包含人声的音频的响应结果,可计算目标设备的人声询问语义不明拒识率。
进一步地,在从多个维度计算目标设备的拒识率之后,确定拒识率最低的音频类型,基于该音频类型,训练优化目标设备的语音拒识模型,以提高语音拒识模型对于此类音频的拒识效果。
以上是对本申请提供的设备拒识率的评估方法的步骤说明。从上述步骤的描述可以看出,根据本申请提供的设备拒识率的评估方法,应用于电子设备,在目标设备被唤醒的情况下,依次向目标设备播放不同类型的预设音频,并获取目标设备对于每种预设音频的响应结果,其中,目标设备为需要计算拒识率的设备;基于目标设备对于每种预设音频的响应结果,计算目标设备对于每种预设音频的拒识率,并基于目标设备对于每种预设音频的拒识率对目标设备的语音拒识模型进行调整,以提高目标设备的拒识效果,其中,拒识率包括电子音播放拒识率、人为录制音频拒识率和人声询问语义不明拒识率,语音拒识模型用于对不符合目标设备控制指令的语音进行拒识。由此可知,本申请通过向目标设备播放预设音频,基于目标设备对于每种预设音频的响应结果,计算目标设备对于每种预设音频的拒识率,从而确定语音拒识模型的优化方向,有针对性地提高目标设备的拒识效果。
具体地,步骤100在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果,包括:
在目标设备被唤醒的情况下,向所述目标设备播放第一音频,并获取所述目标设备对于所述第一音频的第一响应结果;其中,所述第一音频为包含视听节目内容的音频。
需要说明的是,第一音频为包含视听节目内容的音频,例如小说、相声、影视剧等音频。
步骤200基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,包括:
基于所述第一响应结果,计算所述目标设备的电子音播放拒识率。
在一个实施例中,循环播放设备唤醒词“小优,小优”,间隔时间为20s,以唤醒目标设备;播放小说、相声、影视剧等音频;查看目标设备是否拾音;在成功拾音的情况下,查看被拾音的询问日志结果,一种情况为目标设备的语音拒识模型拦截成功,获得拒识条数,另一种情况为语音拒识模型拦截未成功,则目标设备执行拦截未成功的语音控制指令对应的操作,获得成功条数;基于拒识条数和成功条数的总和确定拾音条数,从而计算目标设备的电子音播放拒识率。
本实施例提供的设备拒识率的评估方法,通过向目标设备播放预设的第一音频,基于目标设备对于第一音频的响应结果,计算目标设备的电子音播放拒识率,从而实现自动化测试目标设备,提高测试效率。
具体地,步骤100在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果,包括:
在目标设备被唤醒的情况下,向所述目标设备播放第二音频,并获取所述目标设备对于所述第二音频的第二响应结果;其中,所述第二音频为按照预设剧情脚本生成的音频。
需要说明的是,第二音频为按照预设剧情脚本生成的音频,第二音频可以提前录制,且第二音频中不包含嘈杂环境背景音。
步骤200基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,包括:
基于所述第二响应结果,计算所述目标设备的人为录制音频拒识率。
在一个实施例中,循环播放设备唤醒词“小优,小优”,间隔时间为20s,以唤醒目标设备;播放提前录制的按照预设剧情脚本生成的音频;查看目标设备是否拾音;在成功拾音的情况下,查看被拾音的询问日志结果,一种情况为目标设备的语音拒识模型拦截成功,获得拒识条数,另一种情况为语音拒识模型拦截未成功,则目标设备执行拦截未成功的语音控制指令对应的操作,获得成功条数;基于拒识条数和成功条数的总和确定拾音条数,从而计算目标设备的人为录制音频拒识率。
本实施例提供的设备拒识率的评估方法,通过向目标设备播放预设的第二音频,基于目标设备对于第二音频的响应结果,计算目标设备的人为录制音频拒识率,从而实现自动化测试目标设备,提高测试效率。
具体地,步骤100在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果,包括:
在目标设备被唤醒的情况下,向所述目标设备播放第三音频,并获取所述目标设备的第三响应结果;其中,所述第三音频为包含嘈杂环境背景声音且包含人声的音频。
需要说明的是,第三音频为包含嘈杂环境背景声音且包含人声的音频,例如可以为提前录制的用户在装修背景下的交谈音频。
步骤200基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,包括:
基于所述第三响应结果,计算所述目标设备的人声询问语义不明拒识率。
在一个实施例中,循环播放设备唤醒词“小优,小优”,间隔时间为20s,以唤醒目标设备;播放包含嘈杂环境背景声音且包含人声的音频;查看目标设备是否拾音;在成功拾音的情况下,查看被拾音的询问日志结果,一种情况为目标设备的语音拒识模型拦截成功,获得拒识条数,另一种情况为语音拒识模型拦截未成功,则目标设备执行拦截未成功的语音控制指令对应的操作,获得成功条数;基于拒识条数和成功条数的总和确定拾音条数,从而计算目标设备的人声询问语义不明拒识率。
本实施例提供的设备拒识率的评估方法,通过向目标设备播放预设的第三音频,基于目标设备对于第三音频的响应结果,计算目标设备的人声询问语义不明拒识率,从而实现自动化测试目标设备,提高测试效率。
具体地,图3是本申请提供的设备拒识率的评估方法的流程示意图之二,如图3所示,步骤200基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,包括:
步骤310、基于所述目标设备的响应结果,确定所述目标设备的询问日志结果;其中,所述询问日志结果包含所述目标设备对于所述预设音频的拾音条数和拒识条数。
步骤320、计算所述拒识条数与所述拾音条数的商值,得到所述目标设备的拒识率。
具体地,基于目标设备的响应结果,确定目标设备的询问日志结果,询问日志结果包含目标设备对于预设音频的拾音条数和拒识条数,其中,拾音条数是指目标设备全部语音输入信号,拒识条数是指目标设备准确识别的不符合控制指令的语音输入信号,计算拒识条数与拾音条数的商值,得到目标设备的拒识率。
进一步地,基于目标设备对于包含视听节目内容的音频的响应结果,可计算目标设备的电子音播放拒识率;基于目标设备对于按照预设剧情脚本生成的音频的响应结果,可计算目标设备的人为录制音频拒识率;基于目标设备对于包含嘈杂环境背景声音且包含人声的音频的响应结果,可计算目标设备的人声询问语义不明拒识率。
本实施例提供的设备拒识率的评估方法,通过向目标设备播放不同类型的预设音频,基于目标设备对于每种预设音频的响应结果,计算目标设备对于每种预设音频的拒识率,从而实现自动化测试目标设备,提高测试效率;且从多个维度进行测试,确保测试结果的准确性。
进一步地,在步骤100在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果之前,所述方法还包括:
按照预设周期循环播放所述目标设备的唤醒词,在检测到所述目标设备的目标日志消息的情况下,确定所述目标设备被唤醒。
具体地,按照预设周期循环播放目标设备的唤醒词,在检测到目标设备的目标日志消息的情况下,确定目标设备被唤醒。例如循环播放设备唤醒词“小优,小优”,间隔时间为20s,目的唤醒目标设备。
本实施例提供的设备拒识率的评估方法,按照预设周期循环播放目标设备的唤醒词,以确保目标设备被唤醒。
图4是本申请提供的设备拒识率的评估方法的完整流程图,如图4所示,结合具体的应用场景,以智能音响为例,对本申请提供的设备拒识率的评估方法进行说明:
1、唤醒目标设备:按照预设周期循环播放智能音响的唤醒词,以唤醒智能音响;
2、依次播放不同类型的预设音频:例如依次播放第一音频小品片段、第二音频语音脚本以及第三音频包含嘈杂环境背景声音且包含人声的音频;
3、获取目标设备对于每种预设音频的响应结果:查看智能音响是否拾音;
4、确定目标设备的询问日志结果:确定智能音响对于每种预设音频的拾音条数和拒识条数;
5、计算拒识率:分别计算智能音响的电子音播放拒识率、人为录制音频拒识率以及人声询问语义不明拒识率。
需要说明的是,在从多个维度计算智能音响的拒识率之后,确定拒识率最低的音频类型,基于该音频类型,训练优化智能音响的语音拒识模型,以提高语音拒识模型对于此类音频的拒识效果。
进一步地,以每种预设音频均播放30min为例,得到如下结果:
1)第一音频:拾音条数40条,拒识条数37条,电子音播放拒识率为92.5%;
2)第二音频:拾音条数50条,拒识条数40条,人为录制音频拒识率为80%;
3)第三音频:拾音条数60条,拒识条数58条,人声询问语义不明拒识率为96.7%;
具体地,可以看出人声询问语义不明拒识率为最高,其次是电子音播放拒识率,最后是人为录制音频拒识率。根据此结果分析,可基于第二音频,训练优化智能音响的语音拒识模型,以提高语音拒识模型对于此类音频的拒识效果。
下面对本申请提供的设备拒识率的评估装置进行描述,下文描述的设备拒识率的评估装置与上文描述的设备拒识率的评估方法可相互对应参照。
图5是本申请提供的设备拒识率的评估装置的结构示意图,如图5所示,本申请提供的设备拒识率的评估装置,应用于电子设备,所述装置包括:
获取模块501,用于在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果;其中,所述目标设备为需要计算拒识率的设备;
计算模块502,用于基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,并基于所述目标设备对于每种预设音频的拒识率对所述目标设备的语音拒识模型进行调整,以提高所述目标设备的拒识效果;其中,所述拒识率包括电子音播放拒识率、人为录制音频拒识率和人声询问语义不明拒识率;所述语音拒识模型用于对不符合目标设备控制指令的语音进行拒识。
本申请提供的设备拒识率的评估装置,应用于电子设备,在目标设备被唤醒的情况下,依次向目标设备播放不同类型的预设音频,并获取目标设备对于每种预设音频的响应结果,其中,目标设备为需要计算拒识率的设备;基于目标设备对于每种预设音频的响应结果,计算目标设备对于每种预设音频的拒识率,并基于目标设备对于每种预设音频的拒识率对目标设备的语音拒识模型进行调整,以提高目标设备的拒识效果,其中,拒识率包括电子音播放拒识率、人为录制音频拒识率和人声询问语义不明拒识率,语音拒识模型用于对不符合目标设备控制指令的语音进行拒识。由此可知,本申请通过向目标设备播放预设音频,基于目标设备对于每种预设音频的响应结果,计算目标设备对于每种预设音频的拒识率,从而确定语音拒识模型的优化方向,有针对性地提高目标设备的拒识效果。
基于上述实施例,在本实施例中,所述获取模块501,具体用于:
在目标设备被唤醒的情况下,向所述目标设备播放第一音频,并获取所述目标设备对于所述第一音频的第一响应结果;其中,所述第一音频为包含视听节目内容的音频;
所述计算模块502,具体用于:
基于所述第一响应结果,计算所述目标设备的电子音播放拒识率。
基于上述实施例,在本实施例中,所述获取模块501,具体用于:
在目标设备被唤醒的情况下,向所述目标设备播放第二音频,并获取所述目标设备对于所述第二音频的第二响应结果;其中,所述第二音频为包含人声语音脚本的音频;
所述计算模块502,具体用于:
基于所述第二响应结果,计算所述目标设备的人为录制音频拒识率。
基于上述实施例,在本实施例中,所述获取模块501,具体用于:
在目标设备被唤醒的情况下,向所述目标设备播放第三音频,并获取所述目标设备对于所述第三音频的第三响应结果;其中,所述第三音频为包含嘈杂环境背景声音的音频;
所述计算模块502,具体用于:
基于所述第三响应结果,计算所述目标设备的人声询问语义不明拒识率。
基于上述实施例,在本实施例中,所述计算模块502,具体用于:
基于所述目标设备的响应结果,确定所述目标设备的询问日志结果;其中,所述询问日志结果包含所述目标设备对于所述预设音频的拾音条数和拒识条数;
计算所述拒识条数与所述拾音条数的商值,得到所述目标设备的拒识率。
基于上述实施例,在本实施例中,所述装置还包括唤醒模块,具体用于:
在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果之前,按照预设周期循环播放所述目标设备的唤醒词,在检测到所述目标设备的目标日志消息的情况下,确定所述目标设备被唤醒。
图6示例了一种电子装置的实体结构示意图,如图6所示,该电子装置可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行设备拒识率的评估方法,应用于电子设备,所述方法包括:
在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果;其中,所述目标设备为需要计算拒识率的设备;
基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,并基于所述目标设备对于每种预设音频的拒识率对所述目标设备的语音拒识模型进行调整,以提高所述目标设备的拒识效果;其中,所述拒识率包括电子音播放拒识率、人为录制音频拒识率和人声询问语义不明拒识率;所述语音拒识模型用于对不符合目标设备控制指令的语音进行拒识。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在计算机可读的存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的设备拒识率的评估方法,应用于电子设备,所述方法包括:
在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果;其中,所述目标设备为需要计算拒识率的设备;
基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,并基于所述目标设备对于每种预设音频的拒识率对所述目标设备的语音拒识模型进行调整,以提高所述目标设备的拒识效果;其中,所述拒识率包括电子音播放拒识率、人为录制音频拒识率和人声询问语义不明拒识率;所述语音拒识模型用于对不符合目标设备控制指令的语音进行拒识。
又一方面,本申请还提供一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述各方法提供的设备拒识率的评估方法,应用于电子设备,所述方法包括:
在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果;其中,所述目标设备为需要计算拒识率的设备;
基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,并基于所述目标设备对于每种预设音频的拒识率对所述目标设备的语音拒识模型进行调整,以提高所述目标设备的拒识效果;其中,所述拒识率包括电子音播放拒识率、人为录制音频拒识率和人声询问语义不明拒识率;所述语音拒识模型用于对不符合目标设备控制指令的语音进行拒识。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种设备拒识率的评估方法,其特征在于,应用于电子设备,所述方法包括:
在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果;其中,所述目标设备为需要计算拒识率的设备;
基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,并基于所述目标设备对于每种预设音频的拒识率对所述目标设备的语音拒识模型进行调整,以提高所述目标设备的拒识效果;其中,所述拒识率包括电子音播放拒识率、人为录制音频拒识率和人声询问语义不明拒识率;所述语音拒识模型用于对不符合目标设备控制指令的语音进行拒识。
2.根据权利要求1所述的设备拒识率的评估方法,其特征在于,所述在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果,包括:
在目标设备被唤醒的情况下,向所述目标设备播放第一音频,并获取所述目标设备对于所述第一音频的第一响应结果;其中,所述第一音频为包含视听节目内容的音频;
所述基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,包括:
基于所述第一响应结果,计算所述目标设备的电子音播放拒识率。
3.根据权利要求1所述的设备拒识率的评估方法,其特征在于,所述在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果,包括:
在目标设备被唤醒的情况下,向所述目标设备播放第二音频,并获取所述目标设备对于所述第二音频的第二响应结果;其中,所述第二音频为按照预设剧情脚本生成的音频;
所述基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,包括:
基于所述第二响应结果,计算所述目标设备的人为录制音频拒识率。
4.根据权利要求1所述的设备拒识率的评估方法,其特征在于,所述在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果,包括:
在目标设备被唤醒的情况下,向所述目标设备播放第三音频,并获取所述目标设备的第三响应结果;其中,所述第三音频为包含嘈杂环境背景声音且包含人声的音频;
所述基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,包括:
基于所述第三响应结果,计算所述目标设备的人声询问语义不明拒识率。
5.根据权利要求1所述的设备拒识率的评估方法,其特征在于,所述基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,包括:
基于所述目标设备的响应结果,确定所述目标设备的询问日志结果;其中,所述询问日志结果包含所述目标设备对于所述预设音频的拾音条数和拒识条数;
计算所述拒识条数与所述拾音条数的商值,得到所述目标设备的拒识率。
6.根据权利要求1所述的设备拒识率的评估方法,其特征在于,在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果之前,所述方法还包括:
按照预设周期循环播放所述目标设备的唤醒词,在检测到所述目标设备的目标日志消息的情况下,确定所述目标设备被唤醒。
7.一种设备拒识率的评估装置,其特征在于,应用于电子设备,所述装置包括:
获取模块,用于在目标设备被唤醒的情况下,依次向所述目标设备播放不同类型的预设音频,并获取所述目标设备对于每种预设音频的响应结果;其中,所述目标设备为需要计算拒识率的设备;
计算模块,用于基于所述目标设备对于每种预设音频的响应结果,计算所述目标设备对于每种预设音频的拒识率,并基于所述目标设备对于每种预设音频的拒识率对所述目标设备的语音拒识模型进行调整,以提高所述目标设备的拒识效果;其中,所述拒识率包括电子音播放拒识率、人为录制音频拒识率和人声询问语义不明拒识率;所述语音拒识模型用于对不符合目标设备控制指令的语音进行拒识。
8.根据权利要求7所述的设备拒识率的评估装置,其特征在于,所述获取模块,具体用于:
在目标设备被唤醒的情况下,向所述目标设备播放第一音频,并获取所述目标设备对于所述第一音频的第一响应结果;其中,所述第一音频为包含视听节目内容的音频;
所述计算模块,具体用于:
基于所述第一响应结果,计算所述目标设备的电子音播放拒识率。
9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至6中任一项所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至6中任一项所述的方法。
CN202311771647.XA 2023-12-21 2023-12-21 一种设备拒识率的评估方法和装置 Pending CN117912492A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311771647.XA CN117912492A (zh) 2023-12-21 2023-12-21 一种设备拒识率的评估方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311771647.XA CN117912492A (zh) 2023-12-21 2023-12-21 一种设备拒识率的评估方法和装置

Publications (1)

Publication Number Publication Date
CN117912492A true CN117912492A (zh) 2024-04-19

Family

ID=90688754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311771647.XA Pending CN117912492A (zh) 2023-12-21 2023-12-21 一种设备拒识率的评估方法和装置

Country Status (1)

Country Link
CN (1) CN117912492A (zh)

Similar Documents

Publication Publication Date Title
CN109817219A (zh) 语音唤醒测试方法及系统
CN109326289A (zh) 免唤醒语音交互方法、装置、设备及存储介质
CN109145123A (zh) 知识图谱模型的构建方法、智能交互方法、系统及电子设备
CN110415686A (zh) 语音处理方法、装置、介质、电子设备
EP3462447B1 (en) Apparatus and method for residential speaker recognition
CN112051743A (zh) 设备控制方法、冲突处理方法、相应的装置及电子设备
CN110347366B (zh) 音量调节方法、终端设备、存储介质及电子设备
CN117912492A (zh) 一种设备拒识率的评估方法和装置
CN116386623A (zh) 一种智能设备的语音交互方法、存储介质及电子装置
Liu et al. Optimized local control strategy for voice-based interaction-tracking badges for social applications
CN116312558A (zh) 语音交互的处理方法和装置、存储介质及电子装置
CN114333802B (zh) 语音处理方法、装置、电子设备及计算机可读存储介质
CN113270099B (zh) 智能语音提取方法、装置、电子设备及存储介质
CN117789744B (zh) 基于模型融合的语音降噪方法、装置及存储介质
CN117746834B (zh) 基于大模型的语音生成方法及装置、存储介质、电子装置
CN116564285A (zh) 一种语音唤醒设备的方法、装置、存储介质及电子装置
CN115512686A (zh) 唤醒结果的确定方法、装置、存储介质及电子装置
CN116072124A (zh) 用户身份识别方法、存储介质及电子装置
Baimirov et al. Overview of the latest research related to smart speakers
CN117524231A (zh) 语音辨人方法、语音交互方法及装置
CN117672188A (zh) 音频流处理方法及装置、存储介质及电子装置
CN117524200A (zh) 唤醒模型迭代方法、装置、存储介质及电子装置
CN115171699A (zh) 唤醒参数的调整方法和装置、存储介质及电子装置
CN116959416A (zh) 语音唤醒的测试方法、存储介质及电子装置
CN116386597A (zh) 方言识别模型的构建方法和装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination