CN116959416A - 语音唤醒的测试方法、存储介质及电子装置 - Google Patents
语音唤醒的测试方法、存储介质及电子装置 Download PDFInfo
- Publication number
- CN116959416A CN116959416A CN202310973442.3A CN202310973442A CN116959416A CN 116959416 A CN116959416 A CN 116959416A CN 202310973442 A CN202310973442 A CN 202310973442A CN 116959416 A CN116959416 A CN 116959416A
- Authority
- CN
- China
- Prior art keywords
- sound source
- noise
- wake
- voice
- tested
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 claims abstract description 60
- 238000010998 test method Methods 0.000 claims abstract description 19
- 230000004044 response Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 238000005516 engineering process Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 21
- 230000000875 corresponding effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000001276 controlling effect Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000013475 authorization Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 208000033748 Device issues Diseases 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本申请公开了一种语音唤醒的测试方法、存储介质及电子装置,涉及智能家居/智慧家庭技术领域,旨在解决语音唤醒测试的过程中,噪声干扰导致被测设备识别不准确的问题。为此目的,本申请的方法包括设置多个噪声设备的位置;基于多个噪声设备的位置控制阵列麦克风获取相应的声源信号,其中,声源信号至少包括被测设备的声源信号和唤醒语音播放设备的声源信号;选择性消除声源信号中的噪声;基于声源信号获取测试结果。通过上述实施方式,阵列麦克风能够定向获取语音唤醒测试过程中的声源信号,并消除噪声信号,确保只录制到唤醒语音播放设备和被测设备的声音,减少多声源复杂场景对被测设备识别过程的干扰,从而提高被测设备识别的准确性。
Description
技术领域
本申请涉及智能家居/智慧家庭领域,具体而言,涉及一种语音唤醒的测试方法、存储介质及电子装置。
背景技术
随着人工智能技术日新月异的发展,人工智能产品不再是一个个抽象的概念,而是变成了很多家庭和办公场所必不可少的一部分。
不只满足于新奇和尝试,人们开始追求智能家居的实用性和耐用性,尤其是追求具备语音功能的设备在各种不同复杂使用场景下,语音回复的更高成功率和准确率。这就导致语音测试的环境要求也越来越复杂和严格,相应地,语音自动化测试的难度也逐步提高。
在通常的测试场景下,被测设备附近会被放置一个收音麦克风,测试过程中,通过该麦克风收集播放语料和被测设备的应答。分析音频时,根据事先检测的环境噪声阈值对音频进行分割和时延计算,从而判断被测设备是否正确应答。但随着两个乃至多个噪声源的加入,单麦克风收集的音频中噪声干扰越来越明显,使用常规的降噪算法也无法去除顽固的噪点,导致结果准确率降低。
相应的,本领域需要一种新的语音唤醒的测试方法来解决上述问题。
发明内容
本申请旨在解决上述技术问题,即,解决语音唤醒测试的过程中,噪声干扰导致被测设备识别不准确的问题。
为了实现上述目的,在第一方面,本申请提供一种语音唤醒的测试方法,所述方法包含以下步骤:
设置多个噪声设备的位置;
基于所述多个噪声设备的位置控制阵列麦克风获取相应的声源信号,所述声源信号至少包括被测设备的声源信号和唤醒语音播放设备的声源信号;
选择性消除所述声源信号中的噪声;
基于所述声源信号获取测试结果。
在上述语音唤醒的测试方法的可选技术方案中,所述基于所述多个噪声设备的位置控制阵列麦克风获取相应的声源信号之前,所述方法还包括:
设置所述被测设备和所述唤醒语音播放设备的位置;
在所述被测设备的预设范围内设置所述阵列麦克风。
在上述语音唤醒的测试方法的可选技术方案中,所述基于所述多个噪声设备的位置控制阵列麦克风获取相应的声源信号包括:
若所述多个噪声设备均与所述被测设备、所述唤醒语音播放设备未处于同一直线,且所述阵列麦克风与所述被测设备、所述唤醒语音播放设备处于同一直线,则控制所述阵列麦克风仅获取所述被测设备的声源信号和所述唤醒语音播放设备的声源信号;
若所述多个噪声设备中存在至少一个噪声设备与所述被测设备、所述唤醒语音播放设备处于同一直线,则控制所述麦克风阵列获取所述被测设备的声源信号、所述唤醒语音播放设备的声源信号,以及与所述被测设备、所述唤醒语音播放设备处于同一直线的所述噪声设备的声源信号。
在上述语音唤醒的测试方法的可选技术方案中,所述选择性消除所述声源信号中的噪声包括:
基于所述多个噪声设备的位置选择性控制所述阵列麦克风消除所述声源信号中所述噪声设备的声源信号。
在上述语音唤醒的测试方法的可选技术方案中,所述基于所述多个噪声设备的位置选择性控制所述阵列麦克风消除所述声源信号中所述噪声设备的声源信号包括:
若所述多个噪声设备中存在至少一个所述噪声设备与所述被测设备、所述唤醒语音播放设备处于同一直线,则控制所述麦克风阵列与所述噪声设备连接,并基于回声消除技术消除所述声源信号中,与所述被测设备、所述唤醒语音播放设备处于同一直线的所述噪声设备的声源信号。
在上述语音唤醒的测试方法的可选技术方案中,所述基于所述声源信号获取测试结果包括:
基于所述被测设备的声源信号、所述唤醒语音播放设备的声源信号获取响应信息;
基于所述响应信息获取所述测试结果;
其中,所述测试结果包括唤醒成功率、唤醒时延和交互时延。
在上述语音唤醒的测试方法的可选技术方案中,所述方法还包括:
设置所述唤醒语音播放设备和所述多个噪声设备的播放分贝;
其中,所述唤醒语音播放设备的播放分贝与所述多个噪声设备的播放分贝的差大于预设阈值。
在第二方面,本申请提供了一种语音唤醒的测试装置,所述装置包括:
设置模块,其被配置成设置多个噪声设备的位置;
控制模块,其被配置成基于所述多个噪声设备的位置控制阵列麦克风获取相应的声源信号,所述声源信号至少包括被测设备的声源信号和唤醒语音播放设备的声源信号;
消除模块,其被配置成选择性消除所述声源信号中的噪声;
获取模块,其被配置成基于所述声源信号获取测试结果。
在第三方面,本申请提供了一种电子装置,所述电子装置包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述中任一项所述的语音唤醒的测试方法。
在第四方面,本申请提供了一种可读存储介质,所述可读存储介质中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述中任一项所述的语音唤醒的测试方法。
本领域人员能够理解的是,在本申请的技术方案中,首先设置多个噪声设备的位置,基于多个噪声设备的位置控制阵列麦克风获取相应的声源信号,其中,声源信号至少包括被测设备的声源信号和唤醒语音播放设备的声源信号,然后选择性消除所述声源信号中的噪声,并基于声源信号获取测试结果。通过上述实施方式,阵列麦克风能够定向获取语音唤醒测试过程中的声源信号,并消除噪声信号,确保只录制到唤醒语音播放设备和被测设备的声音,减少多声源复杂场景对被测设备识别过程的干扰,从而提高被测设备识别的准确性。
附图说明
参照附图,本申请的公开内容将变得更易理解。本领域技术人员容易理解的是:这些附图仅仅用于说明的目的,而并非意在对本申请的保护范围组成限制。其中:
图1是根据本申请实施例的一种智能设备的交互方法的硬件环境示意图;
图2是根据本申请的一个实施例的语音唤醒的测试方法的主要步骤流程示意图;
图3是根据本申请的另一个实施例的语音唤醒的测试方法的主要步骤流程示意图;
图4是根据本申请的一个实施例的语音唤醒的测试方法的设备分布示意图;
图5是根据本申请的另一个实施例的语音唤醒的测试方法的设备分布示意图;
图6是根据本申请的一个实施例的基于声源信号获取测试结果的主要步骤流程示意图;
图7是根据本申请的一个实施例的语音唤醒的测试装置的主要结构框图;
图8是用于执行本申请实施例的语音唤醒的测试方法的电子装置的主要结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。
根据本申请实施例的一个方面,提供了一种语音唤醒设备的测试方法。该语音唤醒设备的测试方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(Intelligence House)生态等全屋智能数字化测试场景。可选地,在本实施例中,上述语音唤醒设备的测试方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端设备102进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务,可在服务器上或独立于服务器配置云计算和/或边缘计算服务,用于为服务器104提供数据运算服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。
这里先解释本申请涉及到的一些术语。
被测设备:待测试的具备语音唤醒功能的设备,如智能音箱、智能门锁、智能电视、智能耳机等。
唤醒语音播放设备:用于播放预先录制好的语料的设备,如扬声器、音箱等。
阵列麦克风:由一定数目的麦克风组成的一套声音采集系统,可利用声场的空间特性对声音进行采样和滤波,阵列麦克风可以计算不同声源距离阵列的角度和距离,也可以定向采集某一个方向的声源。
回声消除技术:是指采用回波抵消方法,也就是通过自适应方法估计回波信号的大小,然后在接收信号中减去此估计值以抵消回波,回波抵消功能通常在网关上完成。
如背景技术所述,随着人工智能技术日新月异的发展,人工智能产品不再是一个个抽象的概念,而是变成了很多家庭和办公场所必不可少的一部分。
不只满足于新奇和尝试,人们开始追求智能家居的实用性和耐用性,尤其是追求具备语音功能的设备在各种不同复杂使用场景下,语音回复的更高成功率和准确率。这就导致语音测试的环境要求也越来越复杂和严格,相应的,语音自动化测试的难度也逐步提高。
目前,语音测试的原理是在播放唤醒语料和交互语料的同时开启录制进程,使用麦克风将唤醒语料和被测设备的回复录制为一段音频,然后通过分析音频来判断被测设备是否应答成功,若成功,便可以分析计算应答时延等。
但是在测试过程中,为模拟真实的用户使用场景,测试人员会放置多个噪声源参与测试,这就导致录制的音频内存在大量噪声信息。使用单麦克风直接录制语料播放和设备应答的过程,会将噪声和被测设备的回复无差别录制下来,无法区分声源,在噪声不稳定的情况下,容易将噪声误判为语料或回复,不能单纯根据是否有声音以及声音音量高低来判断测试对象是否应答。并且常见的降噪算法只能处理部分频率区域的噪声,对于一些较尖锐或者明显的杂声无法消除。
针对上述问题,即,解决语音唤醒测试的过程中,噪声干扰导致被测设备识别不准确的问题,本申请提供了一种语音唤醒的测试方法、存储介质及电子装置。
参阅附图2,图2是根据本申请的一个实施例的语音唤醒的测试方法的主要步骤流程示意图。如图2所示,本申请实施例中的语音唤醒的测试方法主要包括下列步骤S201至步骤S204。
步骤S201:设置多个噪声设备的位置。
步骤S202:基于多个噪声设备的位置控制阵列麦克风获取相应的声源信号。
其中,声源信号至少包括被测设备的声源信号和唤醒语音播放设备的声源信号。
步骤S203:选择性消除声源信号中的噪声。
步骤S204:基于声源信号获取测试结果。
基于上述步骤S201至步骤S204所述的方法,阵列麦克风能够定向获取语音唤醒测试过程中的声源信号,并消除噪声信号,确保只录制到唤醒语音播放设备和被测设备的声音,减少多声源复杂场景对被测设备识别过程的干扰,从而提高被测设备识别的准确性。
在一些实施例中,执行上述步骤S201至步骤S204所述的方法之前,本申请提供的语音唤醒的测试方法还包括设置被测设备、唤醒语音播放设备和阵列麦克风的位置。具体地,参阅附图3,图3是根据本申请的另一个实施例的语音唤醒的测试方法的主要步骤流程示意图。如图3所示,主要包括下列步骤S301至步骤S302。
步骤S301:设置被测设备和唤醒语音播放设备的位置。
具体地,可以将被测设备和唤醒语音播放设备放置在预设距离之内。
其中,被测设备是具备语音唤醒功能的设备,例如智能音箱、智能门锁、智能电视、智能耳机等,唤醒语音播放设备是用于播放预先录制好的语料的设备,例如扬声器、音箱等,进一步地,可以设置唤醒语音播放设备的播放分贝,如50分贝。
步骤S302:在被测设备的预设范围内设置阵列麦克风。
其中,阵列麦克风由一定数目的麦克风组成的一套声音采集系统,目前常用的阵列麦克风可以按布局形状分为线性阵列,环形阵列等。其中,所有麦克风的频率响应一致,麦克风的采样时钟也是同步的。
阵列麦克风可利用声场的空间特性对声音进行采样和滤波,利用阵列麦克风可以计算不同声源距离阵列的角度和距离,也可以定向采集某一个方向的声源。在本申请中,阵列麦克风可以随机设置在被测设备的预设范围内,定向采集被测设备和唤醒语音播放设备方向的声源。
在实际应用中,本领域技术人员可以根据具体场景设置被测设备、唤醒语音播放设备、阵列麦克风的位置,以及唤醒语音播放设备的播放分贝等,此处不做限定。
下面对上述步骤S201至步骤S204作进一步说明。
在上述步骤S201的一些实施例中,可以随机设置噪声设备的个数,并将多个噪声设备分散的设置在被测设备的不同方向。
进一步地,可以设置多个噪声设备的播放分贝,如40分贝。
其中,噪声设备可以为扬声器、音箱等,播放的噪声是可以是预先录制的,具体的,可以根据测试场景和测试需求预先录制不同的噪声场景,例如音乐噪声、影视剧噪声、白噪声、粉红噪声、交通噪声、商业活动噪声等,此处不做限定。
需要指出的是,为了提高被测设备识别的准确性,唤醒语音播放设备的播放分贝与多个噪声设备的播放分贝的差要大于预设阈值,如10分贝。在实际应用中,本领域技术人员可以根据具体测试场景设置噪声设备的个数、位置和播放分贝,此处不做限定。
以上是对步骤S201的进一步说明,下面继续对步骤S202作进一步说明。
在上述步骤S202的一些实施例中,若多个噪声设备均与被测设备、唤醒语音播放设备未处于同一直线,且阵列麦克风与被测设备、唤醒语音播放设备处于同一直线,则控制阵列麦克风仅获取被测设备的声源信号和唤醒语音播放设备的声源信号。
具体地,参阅附图4,图4是根据本申请的一个实施例的语音唤醒的测试方法的设备分布示意图。如图4所示,主要包括被测设备401、唤醒语音播放设备402、阵列麦克风403,以及三个噪声设备404-406。
在常规的三个噪声设备的场景下,三个噪声设备会随机被分散放置在三个方向。如图4所示,噪声设备404-406均与被测设备401、唤醒语音播放设备402未处于同一直线,且阵列麦克风403与被测设备401、唤醒语音播放设备402处于同一直线,在这个场景下,可以控制阵列麦克风403只获取从被测设备401和唤醒语音播放设备402方向传来的声源信号,便可以过滤或者减弱掉其他方向传来的声源信号,最后确保阵列麦克风403获取的音频几乎没有其他方位的声音。
在上述步骤S202的另一些实施例中,若多个噪声设备中存在至少一个噪声设备与被测设备、唤醒语音播放设备处于同一直线,则控制麦克风阵列获取被测设备的声源信号、唤醒语音播放设备的声源信号,以及与所述被测设备、所述唤醒语音播放设备处于同一直线的噪声设备的声源信号。
具体地,参阅附图5,图5是根据本申请的另一个实施例的语音唤醒的测试方法的设备分布示意图。如图5所示,主要包括被测设备501、唤醒语音播放设备502、阵列麦克风503,以及四个噪声设备504-507。
在常规的四个噪声设备的场景下,四个噪声设备会随机被分散放置在四个方向。如图5所示,噪声设备504和505与被测设备501、唤醒语音播放设备502处于同一直线,分别分布在被测设备501的左右两侧,噪声设备506和507与被测设备501、唤醒语音播放设备502未处于同一直线。
在这个场景下,优选的,可以控制阵列麦克风503获取从被测设备501、唤醒语音播放设备502方向传来的声源信号,以及噪声设备504和505的声源信号,在一些实施方式中,阵列麦克风503除了获取噪声设备504和505的声源信号之外,也可以获取其他噪声设备,如噪声设备506和507的声源信号,此处不做限定。
进一步地,选择性消除声源信号中的噪声。
以上是对步骤S202的进一步说明,下面继续对步骤S203作进一步说明。
在上述步骤S203的一些实施例中,可以基于多个噪声设备的位置选择性控制阵列麦克风消除声源信号中噪声设备的声源信号。
具体地,若多个噪声设备中存在至少一个噪声设备与被测设备、唤醒语音播放设备处于同一直线,则控制麦克风阵列与噪声设备连接,并基于回声消除技术消除声源信号中噪声设备的声源信号。
如图5所示的场景,噪声设备504和505与被测设备501、唤醒语音播放设备502处于同一直线,分别分布在被测设备501的左右两侧,噪声设备506和507与被测设备501、唤醒语音播放设备502未处于同一直线。
在这个场景下,优选的,可以将阵列麦克风503和噪声设备504和505连接,使噪声设备504和505的声源作为阵列麦克风503自身发出的声音。在一些实施方式中,除了噪声设备504和505,阵列麦克风503还可以和噪声设备506和507连接,使噪声设备504-507的声源都作为阵列麦克风503自身发出的声音。
具体地,在阵列麦克风503和噪声设备(如噪声设备504和505)连接之后,阵列麦克风503录制被测设备501和唤醒语音播放设备502的声音过程中,噪声设备504和505的噪声信号会同步传给阵列麦克风503,这样利用回声消除技术,阵列麦克风503在拾音时,声源信号与回声信号的混合信号中的噪声回声信号消除,实现纯净音频的录制,最后录制的音频中几乎不存在噪声,该场景与在电话通信时接听者不会听到对方话筒中传来自己的声音原理相同,都是采用了回声消除技术。
其中,回声消除技术采用回波抵消方法,也就是通过自适应方法估计回波信号的大小,然后在接收信号中减去此估计值以抵消回波,回波抵消功能通常在网关上完成。
进一步地,通过阵列麦克风503与回声消除技术的结合,可以使语音自动化测试对录制音频中被测物的识别更精准。
以上是对步骤S203的进一步说明,下面继续对步骤S204作进一步说明。
在上述步骤S204的一些实施例中,参阅附图6,图6是根据本申请的一个实施例的基于声源信号获取测试结果的主要步骤流程示意图。如图6所示,步骤S204主要包括下列步骤S2041至步骤S2042。
步骤S2041:基于被测设备的声源信号、唤醒语音播放设备的声源信号获取响应信息。
具体地,可以通过被测设备的声源信号、唤醒语音播放设备的声源信号获取响应信息,基于阵列麦克风将唤醒语音播放设备播放的语料和被测设备的回复录制为一段音频,通过分析音频来判断被测设备是否应答成功,若成功,便分析计算应答时延。
其中,唤醒语音播放设备播放的语料可以包括唤醒词和语句,响应信息是指被测设备根据唤醒语音做出相应动作的相关信息。
步骤S2042:基于响应信息获取测试结果。
其中,测试结果包括唤醒成功率、唤醒时延和交互时延等。
在一些实施例中,可以根据响应信息判断被测设备是否被唤醒。例如,当唤醒语音播放设备发出“你好”的唤醒词后,如果被测设备回答“我在”则表明唤醒成功,反之,如果长时间没有回复则表明唤醒失败。
在一些实施例中,可以根据响应信息判断被测设备是否正确识别语料。例如,当唤醒语音播放设备发出“今天星期几”的语句时,如果被测设备回答“今天星期二”则表示识别成功,反之,如果没有回复或者超过一定时间阈值没有回复,则表示识别失败。
进一步地,可以根据响应信息计算被测设备的唤醒成功率、唤醒时延和交互时延等测试结果。
本申请针对上述噪声干扰导致被测设备识别不准确的问题,使用阵列麦克风进行声源定位,定向获取语音唤醒测试过程中的声源信号,并且利用回声消除技术,使阵列麦克风只录制到唤醒语音播放设备和被测设备的声音,从而减少多声源复杂场景对被测设备识别过程的干扰,从而提高被测设备识别的准确性。
需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本申请的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本申请的保护范围之内。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
进一步,本申请还提供了一种语音唤醒的测试装置。
参阅附图7,图7是根据本申请的一个实施例的语音唤醒的测试装置的主要结构框图。如图7所示,本申请实施例中的语音唤醒的测试装置主要包括:
设置模块701,被配置为设置多个噪声设备的位置;
控制模块702,被配置为基于多个噪声设备的位置控制阵列麦克风获取相应的声源信号,其中,声源信号至少包括被测设备的声源信号和唤醒语音播放设备的声源信号;
消除模块703,被配置为选择性消除声源信号中的噪声;
获取模块704,被配置为基于声源信号获取测试结果。
在一些实施例中,设置模块701设置被测设备和唤醒语音播放设备的位置,并在被测设备的预设范围内设置阵列麦克风。
在一些实施例中,若多个噪声设备均与被测设备、唤醒语音播放设备未处于同一直线,且阵列麦克风与被测设备、唤醒语音播放设备处于同一直线,则控制模块702控制阵列麦克风仅获取被测设备的声源信号和唤醒语音播放设备的声源信号;若多个噪声设备中存在至少一个噪声设备与被测设备、唤醒语音播放设备处于同一直线,则控制模块702控制麦克风阵列获取被测设备的声源信号、唤醒语音播放设备的声源信号,以及噪声设备的声源信号。
在一些实施例中,基于多个噪声设备的位置,消除模块703选择性控制阵列麦克风消除声源信号中噪声设备的声源信号。
在一些实施例中,若多个噪声设备中存在至少一个噪声设备与被测设备、唤醒语音播放设备处于同一直线,则控制模块702控制麦克风阵列与噪声设备连接,并基于回声消除技术消除声源信号中噪声设备的声源信号。
在一些实施例中,基于被测设备的声源信号、唤醒语音播放设备的声源信号获取响应信息,获取模块704基于响应信息获取测试结果,其中,测试结果包括唤醒成功率、唤醒时延和交互时延。
在一些实施例中,设置模块701设置唤醒语音播放设备和多个噪声设备的播放分贝,其中,唤醒语音播放设备的播放分贝与多个噪声设备的播放分贝的差大于预设阈值。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
进一步,本申请还提供了一种用于执行本申请实施例的语音唤醒的测试方法的电子装置。
参阅附图8,图8是用于执行本申请实施例的语音唤醒的测试方法的电子装置的主要结构框图。如图8所示,本申请还提供了一种用于执行本申请的语音唤醒的测试方法的电子装置,所述电子装置800包括:处理器801、存储器802以及存储在该存储器802中并且可以在处理器801上运行的计算机程序803。处理器801执行计算机程序803时实现上述各个方法实施例中的步骤。或者,处理器801执行计算机程序803时实现上述装置实施例中各模块/单元的功能。
示例性地,计算机程序803可以被分割成一个或多个模块/单元,一个或多个模块/单元被存储在存储器802中,并由处理器801执行,以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序803在电子装置800中的执行过程。
电子装置800可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子装置。电子装置800可以包括但不仅限于处理器801和存储器802。本领域技术人员可以理解,图8仅仅是电子装置800的示例,并不构成对电子装置800的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如,电子装置还可以包括输入输出装置、网络接入装置、总线等。
处理器801可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器802可以是电子装置800的内部存储单元,例如,是电子装置800的硬盘或内存。存储器802也可以是电子装置800的外部存储设备,例如,在电子装置800上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器802还可以既包括电子装置800的内部存储单元也包括外部存储设备。存储器802用于存储计算机程序以及电子装置800所需的其它程序和数据。存储器802还可以用于暂时地存储已经输出或者将要输出的数据。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所申请的实施例描述的各示例的单元及算法步骤,能够以电子硬件,或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/电子装置和方法,可以通过其它的方式实现。例如,以上所描述的装置/电子装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
进一步,本申请还提供了一种计算机可读存储介质。集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,本公开实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息对应的对象信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本公开实施例中涉及到的数据的获取、采集等动作,均为经用户、对象授权或者经过各方充分授权后执行。
需要说明的是,本申请各实施例中可能涉及的相关用户个人信息,均为严格按照法律法规的要求,遵循合法、正当、必要的原则,基于业务场景的合理目的,处理用户在使用产品/服务过程中主动提供或因使用产品/服务而产生的,以及经用户授权获取的个人信息。
至此,已经结合附图所示的优选实施方式描述了本申请的技术方案,但是,本领域技术人员容易理解的是,本申请的保护范围显然不局限于这些具体实施方式。在不偏离本申请的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本申请的保护范围之内。
Claims (10)
1.一种语音唤醒的测试方法,其特征在于,所述方法包括:
设置多个噪声设备的位置;
基于所述多个噪声设备的位置控制阵列麦克风获取相应的声源信号,所述声源信号至少包括被测设备的声源信号和唤醒语音播放设备的声源信号;
选择性消除所述声源信号中的噪声;
基于所述声源信号获取测试结果。
2.根据权利要求1所述的语音唤醒的测试方法,其特征在于,所述基于所述多个噪声设备的位置控制阵列麦克风获取相应的声源信号之前,所述方法还包括:
设置所述被测设备和所述唤醒语音播放设备的位置;
在所述被测设备的预设范围内设置所述阵列麦克风。
3.根据权利要求2所述的语音唤醒的测试方法,其特征在于,所述基于所述多个噪声设备的位置控制阵列麦克风获取相应的声源信号包括:
若所述多个噪声设备均与所述被测设备、所述唤醒语音播放设备未处于同一直线,且所述阵列麦克风与所述被测设备、所述唤醒语音播放设备处于同一直线,则控制所述阵列麦克风仅获取所述被测设备的声源信号和所述唤醒语音播放设备的声源信号;
若所述多个噪声设备中存在至少一个噪声设备与所述被测设备、所述唤醒语音播放设备处于同一直线,则控制所述麦克风阵列获取所述被测设备的声源信号、所述唤醒语音播放设备的声源信号,以及与所述被测设备、所述唤醒语音播放设备处于同一直线的所述噪声设备的声源信号。
4.根据权利要求2所述的语音唤醒的测试方法,其特征在于,所述选择性消除所述声源信号中的噪声包括:
基于所述多个噪声设备的位置选择性控制所述阵列麦克风消除所述声源信号中所述噪声设备的声源信号。
5.根据权利要求4所述的语音唤醒的测试方法,其特征在于,所述基于所述多个噪声设备的位置选择性控制所述阵列麦克风消除所述声源信号中所述噪声设备的声源信号包括:
若所述多个噪声设备中存在至少一个所述噪声设备与所述被测设备、所述唤醒语音播放设备处于同一直线,则控制所述麦克风阵列与所述噪声设备连接,并基于回声消除技术消除所述声源信号中,与所述被测设备、所述唤醒语音播放设备处于同一直线的所述噪声设备的声源信号。
6.根据权利要求1所述的语音唤醒的测试方法,其特征在于,所述基于所述声源信号获取测试结果包括:
基于所述被测设备的声源信号、所述唤醒语音播放设备的声源信号获取响应信息;
基于所述响应信息获取所述测试结果;
其中,所述测试结果包括唤醒成功率、唤醒时延和交互时延。
7.根据权利要求2所述的语音唤醒的测试方法,其特征在于,所述方法还包括:设置所述唤醒语音播放设备和所述多个噪声设备的播放分贝;
其中,所述唤醒语音播放设备的播放分贝与所述多个噪声设备的播放分贝的差大于预设阈值。
8.一种语音唤醒的测试装置,其特征在于,所述装置包括:
设置模块,其被配置成设置多个噪声设备的位置;
控制模块,其被配置成基于所述多个噪声设备的位置控制阵列麦克风获取相应的声源信号,所述声源信号至少包括被测设备的声源信号和唤醒语音播放设备的声源信号;
消除模块,其被配置成选择性消除所述声源信号中的噪声;
获取模块,其被配置成基于所述声源信号获取测试结果。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至7中任一项所述的语音唤醒的测试方法。
10.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至7中任一项所述的语音唤醒的测试方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310973442.3A CN116959416A (zh) | 2023-08-03 | 2023-08-03 | 语音唤醒的测试方法、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310973442.3A CN116959416A (zh) | 2023-08-03 | 2023-08-03 | 语音唤醒的测试方法、存储介质及电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116959416A true CN116959416A (zh) | 2023-10-27 |
Family
ID=88447472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310973442.3A Pending CN116959416A (zh) | 2023-08-03 | 2023-08-03 | 语音唤醒的测试方法、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116959416A (zh) |
-
2023
- 2023-08-03 CN CN202310973442.3A patent/CN116959416A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7271674B2 (ja) | ネットワークマイクロフォンデバイスのノイズ分類による最適化 | |
US11017799B2 (en) | Method for processing voice in interior environment of vehicle and electronic device using noise data based on input signal to noise ratio | |
CN111798852B (zh) | 语音唤醒识别性能测试方法、装置、系统及终端设备 | |
CN108681440A (zh) | 一种智能设备音量控制方法及系统 | |
CN109831733A (zh) | 音频播放性能的测试方法、装置、设备和存储介质 | |
Baumann et al. | Voice spoofing detection corpus for single and multi-order audio replays | |
CN112037789A (zh) | 设备唤醒方法、装置、存储介质及电子装置 | |
CN109658935A (zh) | 多通道带噪语音的生成方法及系统 | |
CN109671430A (zh) | 一种语音处理方法及装置 | |
CN113241085A (zh) | 回声消除方法、装置、设备及可读存储介质 | |
CN104217728A (zh) | 一种音频处理方法及电子设备 | |
CN110475181B (zh) | 设备配置方法、装置、设备和存储介质 | |
CN109600697A (zh) | 终端外放音质确定方法及装置 | |
CN116959416A (zh) | 语音唤醒的测试方法、存储介质及电子装置 | |
CN111128216B (zh) | 一种音频信号的处理方法、处理装置及可读存储介质 | |
CN112017636A (zh) | 基于车辆的用户发音模拟方法、系统、设备及存储介质 | |
CN115171703B (zh) | 分布式语音唤醒方法和装置、存储介质及电子装置 | |
CN113077803B (zh) | 一种语音处理方法、装置、可读存储介质及电子设备 | |
CN105828135B (zh) | 音视频播放系统中的播放控制方法、装置及播放设备 | |
WO2020024508A1 (zh) | 语音信息的获取方法及装置 | |
CN113517000A (zh) | 回声消除的测试方法、终端以及存储装置 | |
US20220051669A1 (en) | Information processing device, information processing method, computer program, and interaction system | |
CN110430508A (zh) | 麦克风降噪处理方法及计算机存储介质 | |
CN115472175A (zh) | 音频资源的回声消除方法和装置、存储介质及电子装置 | |
CN115472148A (zh) | 测试结果的确定方法、装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |