CN116416971A - 语音唤醒测试方法、装置、设备及介质 - Google Patents
语音唤醒测试方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116416971A CN116416971A CN202310403853.9A CN202310403853A CN116416971A CN 116416971 A CN116416971 A CN 116416971A CN 202310403853 A CN202310403853 A CN 202310403853A CN 116416971 A CN116416971 A CN 116416971A
- Authority
- CN
- China
- Prior art keywords
- data
- voice
- wake
- test
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010998 test method Methods 0.000 title claims abstract description 16
- 238000012360 testing method Methods 0.000 claims abstract description 266
- 238000000034 method Methods 0.000 claims abstract description 66
- 238000006243 chemical reaction Methods 0.000 claims abstract description 33
- 230000008859 change Effects 0.000 claims description 35
- 230000015654 memory Effects 0.000 claims description 14
- 206010071299 Slow speech Diseases 0.000 claims description 7
- 230000003247 decreasing effect Effects 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 230000003750 conditioning effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 6
- 238000012545 processing Methods 0.000 description 11
- 230000002093 peripheral effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000001360 synchronised effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electric Clocks (AREA)
Abstract
本申请提供了一种语音唤醒测试方法、装置、设备及介质,属于计算机技术领域。该方法包括:获取唤醒词对应的语音数据;通过口音转换、语速调节、噪声调节和尾端点调节中的至少一项,对所述语音数据进行扩充,得到多条测试数据;基于所述多条测试数据,对电子设备进行语音唤醒测试,得到所述多条测试数据对应的唤醒结果。该方案实现了在保证测试效果的前提下,自动生成测试数据,降低了人力成本。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种语音唤醒测试方法、装置、设备及介质。
背景技术
随着音频识别技术的快速发展,音频识别技术被广泛应用于各种电子设备上,如手机、智能穿戴设备、平板电脑、智能家电等。当用户说出唤醒词时,可以唤醒电子设备,进而控制电子设备执行相应的操作。
为了提高电子设备的唤醒准确率,目前,可以人工录制唤醒词的多条语音数据,向电子设备重复播放该多条语音数据,以测试电子设备的唤醒准确率,定位出唤醒准确率低的原因,基于定位出的原因,对唤醒算法进行改进,以提高电子设备的唤醒准确率。但是,该方案需要人工录制丰富的语音数据,人力成本巨大。
发明内容
本申请实施例提供了一种通话中的语音唤醒测试方法、装置、设备及介质,实现了在保证测试效果的前提下,自动生成测试数据,降低了人力成本。所述技术方案如下:
一方面,提供了一种语音唤醒测试方法,所述方法包括:
获取唤醒词对应的语音数据;
通过口音转换、语速调节、噪声调节和尾端点调节中的至少一项,对所述语音数据进行扩充,得到多条测试数据;
基于所述多条测试数据,对电子设备进行语音唤醒测试,得到所述多条测试数据对应的唤醒结果。
在一种可能的实现方式中,通过口音转换,对所述语音数据进行扩充,得到多条测试数据,包括:
获取多个声调变化参数,所述声调变化参数用于指示所述唤醒词的声调变化;
基于获取的多个声调变化参数,分别对所述语音数据进行声调调整,得到多条测试数据。
在一种可能的实现方式中,所述多个声调变化参数包括多个方言分别对应的声调变化参数,所述声调变化参数用于指示采用所述方言说出所述唤醒词时,所述唤醒词的声调变化;或者,所述多个声调变化参数包括随机生成的声调变化参数。
在一种可能的实现方式中,通过口音转换,对所述语音数据进行扩充,得到多条测试数据,包括:
将所述唤醒词转换成对应的方言词语;
合成所述方言词语对应的语音数据,将所述方言词语对应的语音数据作为测试数据。
在一种可能的实现方式中,通过语速调节,对所述语音数据进行扩充,得到多条测试数据,包括:
通过调节所述语音数据的波长,得到语速调节后的语音数据;
将所述语速调节后的语音数据,作为测试数据。
在一种可能的实现方式中,所述通过调节所述语音数据的波长,得到语速调节后的语音数据,包括以下至少一项:
增大所述语音数据的波长,以得到语速减慢的语音数据;
减小所述语音数据的波长,以得到语速加快的语音数据;
对所述语音数据的多个波长进行随机增大或减小,以得到语速调节后的语音数据。
在一种可能的实现方式中,通过噪声调节,对所述语音数据进行扩充,得到多条测试数据,包括:
通过对所述语音数据进行加噪或者减噪处理,得到测试数据。
在一种可能的实现方式中,所述通过对所述语音数据进行加噪或者减噪处理,得到测试数据,包括以下至少一项:
获取多条噪声数据,将所述语音数据与所述多条噪声数据分别进行组合,得到多条测试数据;
基于多条噪声数据,确定多个噪声组合,每个噪声组合包括至少两条噪声数据;将所述语音数据与所述多个噪声组合分别进行组合,得到多条测试数据;
针对获取的每条噪声数据,从所述语音数据的完整时间段中随机确定第一时间段,将所述噪声数据添加到所述语音数据的第一时间段中,得到测试数据;
采用多种去噪方法,分别对所述语音数据进行去噪处理,得到多条测试数据。
在一种可能的实现方式中,通过尾端点调节,对所述语音数据进行扩充,得到多条测试数据,包括:
确定第一时长,所述第一时长为小于所述语音数据的完整时长的任一时长;
从所述语音数据的尾部裁减掉所述第一时长的语音数据,得到测试数据。
在一种可能的实现方式中,所述基于所述多条测试数据,对电子设备进行语音唤醒测试,得到所述多条测试数据对应的唤醒结果,包括:
基于所述多条测试数据生成汇总文档,一条测试数据对应所述汇总文档的一行,所述行中记录有所述测试数据的调节参数,所述调节参数用于指示对所述语音数据的调节方式;
在基于任一条测试数据,对所述电子设备进行语音唤醒测试,得到所述测试数据对应的唤醒结果之后,在所述测试数据对应的行中添加所述唤醒结果。
在一种可能的实现方式中,所述基于所述多条测试数据,对电子设备进行语音唤醒测试,得到所述多条测试数据对应的唤醒结果之后,所述方法还包括:
基于所述汇总文档中的唤醒结果和调节参数,确定所述电子设备的唤醒失败原因。
另一方面,提供了一种语音唤醒测试装置,所述装置包括:
获取模块,用于获取唤醒词对应的语音数据;
扩充模块,用于通过口音转换、语速调节、噪声调节和尾端点调节中的至少一项,对所述语音数据进行扩充,得到多条测试数据;
测试模块,用于基于所述多条测试数据,对电子设备进行语音唤醒测试,得到所述多条测试数据对应的唤醒结果。
在一种可能的实现方式中,所述扩充模块,包括:
参数获取单元,用于获取多个声调变化参数,所述声调变化参数用于指示所述唤醒词的声调变化;
声调调整单元,用于基于获取的多个声调变化参数,分别对所述语音数据进行声调调整,得到多条测试数据。
在一种可能的实现方式中,所述多个声调变化参数包括多个方言分别对应的声调变化参数,所述声调变化参数用于指示采用所述方言说出所述唤醒词时,所述唤醒词的声调变化;或者,所述多个声调变化参数包括随机生成的声调变化参数。
在一种可能的实现方式中,所述扩充模块,包括:
转换单元,用于将所述唤醒词转换成对应的方言词语;
合成单元,用于合成所述方言词语对应的语音数据,将所述方言词语对应的语音数据作为测试数据。
在一种可能的实现方式中,所述扩充模块,用于通过调节所述语音数据的波长,得到语速调节后的语音数据;将所述语速调节后的语音数据,作为测试数据。
在一种可能的实现方式中,所述扩充模块,用于执行以下至少一项:
增大所述语音数据的波长,以得到语速减慢的语音数据;
减小所述语音数据的波长,以得到语速加快的语音数据;
对所述语音数据的多个波长进行随机增大或减小,以得到语速调节后的语音数据。
在一种可能的实现方式中,所述扩充模块,用于通过对所述语音数据进行加噪或者减噪处理,得到测试数据。
在一种可能的实现方式中,所述扩充模块,用于执行以下至少一项:
获取多条噪声数据,将所述语音数据与所述多条噪声数据分别进行组合,得到多条测试数据;
基于多条噪声数据,确定多个噪声组合,每个噪声组合包括至少两条噪声数据;将所述语音数据与所述多个噪声组合分别进行组合,得到多条测试数据;
针对获取的每条噪声数据,从所述语音数据的完整时间段中随机确定第一时间段,将所述噪声数据添加到所述语音数据的第一时间段中,得到测试数据;
采用多种去噪方法,分别对所述语音数据进行去噪处理,得到多条测试数据。
在一种可能的实现方式中,所述扩充模块,包括:
确定单元,用于确定第一时长,所述第一时长为小于所述语音数据的完整时长的任一时长;
裁剪单元,用于从所述语音数据的尾部裁减掉所述第一时长的语音数据,得到测试数据。
在一种可能的实现方式中,所述测试模块,用于基于所述多条测试数据生成汇总文档,一条测试数据对应所述汇总文档的一行,所述行中记录有所述测试数据的调节参数,所述调节参数用于指示对所述语音数据的调节方式;在基于任一条测试数据,对所述电子设备进行语音唤醒测试,得到所述测试数据对应的唤醒结果之后,在所述测试数据对应的行中添加所述唤醒结果。
在一种可能的实现方式中,所述装置还包括:
确定模块,用于基于所述汇总文档中的唤醒结果和调节参数,确定所述电子设备的唤醒失败原因。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如上述任一实现方式所述的语音唤醒测试方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如上述任一实现方式所述的通话中的语音唤醒测试方法。
另一方面,提供了一种计算机程序产品,所述计算机程序产品包括至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如上述任一实现方式所述的通话中的语音唤醒测试方法。
本申请实施例提供的技术方案的有益效果至少包括:
本申请实施例提供了一种通话中的语音唤醒测试方法,可以通过口音转换、语速调节、噪声调节和尾端点调节中的至少一项,自动扩充语音数据来得到多条测试数据,进而测试出电子设备在面对不同口音、不同语速的用户,或者在面对不同环境时的唤醒准确率,实现了在保证测试效果的前提下,自动生成测试数据,降低了人力成本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种语音唤醒测试方法的流程图;
图3是本申请实施例提供的一种语音唤醒测试方法的流程图;
图4是本申请实施例提供的一种语音唤醒测试装置的结构示意图;
图5是本申请实施例提供的一种语音唤醒测试装置的结构示意图;
图6是本申请实施例提供的一种电子设备的结构示意图;
图7是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任意变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
本申请实施例提供的语音唤醒测试方法由计算机设备执行。在一些实施例中,该计算机设备可以是电子设备,该电子设备可以是手机、智能穿戴设备、平板电脑、智能家电、测试设备等,本申请实施例对电子设备不做限定。在另一些实施例中,该计算机设备可以是服务器,该服务器可以是一台服务器、或者由若干服务器组成的服务器集群,或者是一个云计算服务中心。当然,服务器还可以包括其他功能服务器,以便提供更全面且多样化的服务。在另一些实施例中,该计算机设备包括电子设备和服务器。需要说明的是,本申请实施例仅是对语音唤醒测试方法的执行主体进行示例性说明,并不对执行主体进行限定。
图1是本申请实施例提供的一种实施环境的示意图,如图1所示,该实施环境包括电子设备101和服务器102,该电子设备101和服务器102通过有线或无线网络连接。
在一些实施例中,用户在电子设备101上录制唤醒词对应的语音数据,电子设备101对该语音数据进行扩充,得到多条测试数据,基于该多条测试数据,对电子设备进行语音唤醒测试,得到多条测试数据对应的唤醒结果,向服务器102发送多条测试数据对应的唤醒结果。由服务器102记录该多条测试数据对应的唤醒结果,或者,由服务器102基于该多条测试数据对应的唤醒结果,确定唤醒失败原因。
在另一些实施例中,用户在电子设备101上录制唤醒词对应的语音数据,电子设备101向服务器102发送该语音数据。服务器102接收该语音数据,对该语音数据进行扩充,得到多条测试数据,基于该多条测试数据,对电子设备进行语音唤醒测试,得到多条测试数据对应的唤醒结果,存储该多条测试数据对应的唤醒结果,或者,基于该多条测试数据对应的唤醒结果,确定唤醒失败原因。
需要说明的是,上述过程可以由电子设备101和服务器102配合执行,电子设备101和服务器102具体执行哪些步骤不做限定。
图2是本申请实施例提供的一种语音唤醒测试方法的流程图,本申请实施例以执行主体为计算机设备为例进行示例性说明。参见图2,该方法包括:
201、计算机设备获取唤醒词对应的语音数据。
202、计算机设备通过口音转换、语速调节、噪声调节和尾端点调节中的至少一项,对该语音数据进行扩充,得到多条测试数据。
203、计算机设备基于该多条测试数据,对电子设备进行语音唤醒测试,得到多条测试数据对应的唤醒结果。
本申请实施例提供的语音唤醒测试方法,可以通过口音转换、语速调节、噪声调节和尾端点调节中的至少一项,自动扩充语音数据来得到多条测试数据,进而测试出电子设备在面对不同口音、不同语速的用户,或者在面对不同环境时的唤醒准确率,实现了在保证测试效果的前提下,自动生成测试数据,降低了人力成本。
在一种可能的实现方式中,通过口音转换,对所述语音数据进行扩充,得到多条测试数据,包括:
获取多个声调变化参数,所述声调变化参数用于指示所述唤醒词的声调变化;
基于获取的多个声调变化参数,分别对所述语音数据进行声调调整,得到多条测试数据。
在一种可能的实现方式中,所述多个声调变化参数包括多个方言分别对应的声调变化参数,所述声调变化参数用于指示采用所述方言说出所述唤醒词时,所述唤醒词的声调变化;或者,所述多个声调变化参数包括随机生成的声调变化参数。
在一种可能的实现方式中,通过口音转换,对所述语音数据进行扩充,得到多条测试数据,包括:
将所述唤醒词转换成对应的方言词语;
合成所述方言词语对应的语音数据,将所述方言词语对应的语音数据作为测试数据。
在一种可能的实现方式中,通过语速调节,对所述语音数据进行扩充,得到多条测试数据,包括:
通过调节所述语音数据的波长,得到语速调节后的语音数据;
将所述语速调节后的语音数据,作为测试数据。
在一种可能的实现方式中,所述通过调节所述语音数据的波长,得到语速调节后的语音数据,包括以下至少一项:
增大所述语音数据的波长,以得到语速减慢的语音数据;
减小所述语音数据的波长,以得到语速加快的语音数据;
对所述语音数据的多个波长进行随机增大或减小,以得到语速调节后的语音数据。
在一种可能的实现方式中,通过噪声调节,对所述语音数据进行扩充,得到多条测试数据,包括:
通过对所述语音数据进行加噪或者减噪处理,得到测试数据。
在一种可能的实现方式中,所述通过对所述语音数据进行加噪或者减噪处理,得到测试数据,包括以下至少一项:
获取多条噪声数据,将所述语音数据与所述多条噪声数据分别进行组合,得到多条测试数据;
基于多条噪声数据,确定多个噪声组合,每个噪声组合包括至少两条噪声数据;将所述语音数据与所述多个噪声组合分别进行组合,得到多条测试数据;
针对获取的每条噪声数据,从所述语音数据的完整时间段中随机确定第一时间段,将所述噪声数据添加到所述语音数据的第一时间段中,得到测试数据;
采用多种去噪方法,分别对所述语音数据进行去噪处理,得到多条测试数据,
在一种可能的实现方式中,通过尾端点调节,对所述语音数据进行扩充,得到多条测试数据,包括:
确定第一时长,所述第一时长为小于所述语音数据的完整时长的任一时长;
从所述语音数据的尾部裁减掉所述第一时长的语音数据,得到测试数据。
在一种可能的实现方式中,所述基于所述多条测试数据,对电子设备进行语音唤醒测试,得到所述多条测试数据对应的唤醒结果,包括:
基于所述多条测试数据生成汇总文档,一条测试数据对应所述汇总文档的一行,所述行中记录有所述测试数据的调节参数,所述调节参数用于指示对所述语音数据的调节方式;
在基于任一条测试数据,对所述电子设备进行语音唤醒测试,得到所述测试数据对应的唤醒结果之后,在所述测试数据对应的行中添加所述唤醒结果。
在一种可能的实现方式中,所述基于所述多条测试数据,对电子设备进行语音唤醒测试,得到所述多条测试数据对应的唤醒结果之后,所述方法还包括:
基于所述汇总文档中的唤醒结果和调节参数,确定所述电子设备的唤醒失败原因。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
图3是本申请实施例提供的一种语音唤醒测试方法的流程图,本申请实施例以执行主体为计算机设备为例进行示例性说明,参见图3,该方法包括:
301、计算机设备获取唤醒词对应的语音数据。
唤醒词是用于唤醒电子设备的词语,该唤醒词可以是任一词语或任一语句,本申请实施例对唤醒词不做限定。唤醒词对应的语音数据是指包含该唤醒词的语音数据。该语音数据可以是计算机设备本地存储的,也可以是从其他设备中获取的,还可以是用户在本端录入的,本申请实施例对语音数据的获取方式不做限定。
在一种可能的实现方式中,用户可以在电子设备上录入唤醒词对应的语音数据,电子设备将录入的语音数据上传到服务器,由服务器执行对语音数据的后续操作,当然,也可以由电子设备执行对语音数据的后续操作。在一些实施例中,计算机设备获取唤醒词对应的语音数据,包括:录入用户输入的语音数据。在一些实施例中,为了保证获取的语音数据的准确性,在用户录入语音数据之后,还可以对语音数据进行裁剪,删除录入的语音数据中的无用语音数据。计算机设备获取唤醒词对应的语音数据,包括:录入用户输入的语音数据;从录入的语音数据中确定唤醒词在语音数据中的首端点和尾端点;截取录入的语音数据中首端点与尾端点之间的语音数据作为唤醒词对应的语音数据。其中,唤醒词在语音数据中的首端点是指:唤醒词在语音数据中开始的时间点。唤醒词在语音数据中的尾端点是指:唤醒词在语音数据中结束的时间点。
在另一种可能的实现方式中,计算机设备可以将文本转换成语音,语音数据可以是计算机设备对唤醒词进行语音转换得到的语音数据。计算机设备获取唤醒词对应的语音数据,包括:对唤醒词进行语音转换,得到唤醒词对应的语音数据。
需要说明的是,本申请实施例仅是对获取唤醒词对应的语音数据的方式进行示例性说明,并不对获取唤醒词对应的语音数据的方式进行限定。
302、计算机设备通过口音转换,对语音数据进行扩充,得到多条测试数据。
电子设备投入使用之后,面对的是来自全国各地的用户,一些用户可能会采用当地的方言与电子设备进行交流。为了使得在用户采用方言与电子设备进行交流时,能够准确唤醒电子设备,本申请实施例在电子设备进行测试时,可以采用各种方言版本的语音数据测试电子设备在各种方言版本下的唤醒成功率,确定出电子设备无法识别的方言,对电子设备的唤醒功能进行针对性改进。
在第一种可能的实现方式中,考虑到采用不同方言说出唤醒词时,唤醒词的声调存在区别,因此,可以通过改变语音数据的声调来模拟方言版的语音数据。计算机设备通过口音转换,对语音数据进行扩充,得到多条测试数据,包括:获取多个声调变化参数,该声调变化参数用于指示唤醒词的声调变化;基于获取的多个声调变化参数,分别对语音数据进行声调调整,得到多条测试数据。
在一些实施例中,为了更加准确地模拟方言,多个声调变化参数可以包括多个方言分别对应的声调变化参数,声调变化参数用于指示采用方言说出唤醒词时,该唤醒词的声调变化。也即是,计算机设备通过口音转换,对语音数据进行扩充,得到多条测试数据,包括:计算机设备获取多个方言分别对应的声调变化参数,基于每个声调变化参数,分别对语音数据进行声调调整,得到每个方言对应的测试数据。
在一些实施例中,考虑方言的种类非常多,收录各个方言对应的声调变化参数是非常大的工作量,且难以收集全各个方言对应的声调变化参数。为了能够使得电子设备能够在各个方言版本下被成功唤醒,可以将语音数据的声调进行随机调整,也即是,多个声调变化参数包括随机生成的声调变化参数。如果电子设备面对随机调整声调的语音数据依然能够被唤醒,那么说明该电子设备在面对各种声调的方言时,均可以被唤醒,提高了电子设备的唤醒准确性。
需要说明的是,多个声调变化参数可以只包括多个方言分别对应的声调变化参数,也可以只包括随机生成的声调变化参数,还可以同时包括多个方言分别对应的声调变化参数和随机生成的声调变化参数,本申请实施例对多个声调变化参数不做限定。
在一些实施例中,计算机设备基于每个声调变化参数,分别对语音数据进行声调调整,得到每个方言对应的测试数据,包括:计算机设备将声调变化参数与语音数据输入到声调转换模型中,由声调转换模型输出与声调变化参数匹配的语音数据,将该语音数据作为测试数据。在另一些实施例中,计算机设备基于每个声调变化参数,分别对语音数据进行声调调整,得到每个方言对应的测试数据,包括:计算机设备获取语音数据的梅尔频谱图,该梅尔频谱图能够表示声音的多种属性,如声调、音色等;基于声调变化参数,对梅尔频谱图进行修改,得到第一梅尔频谱图,将第一梅尔频谱图进行语音转换,得到的语音数据作为测试数据。
在第二种可能的实现方式中,考虑到有些方言会改变发音,例如,粤语、闽南语等方言的发音和普通话的发音相差较大,对于这些方言,可以将唤醒词转换成对应的方言词语。计算机设备通过口音转换,对语音数据进行扩充,得到多条测试数据,包括:将唤醒词转换成对应的方言词语;合成方言词语对应的语音数据,将方言词语对应的语音数据作为测试数据。
其中,唤醒词对应的方言词语可以是一种方言对应的方言词语,也可以是多种方言分别对应的方言词语。如果是多种方言分别对应的方言词语,那么对于每种方言对应的方言词语,分别合成该方言词语对应的语音数据。
在一些实施例中,计算机设备本地存储有唤醒词对应的、各个方言版本的方言词语,计算机设备将唤醒词转换成对应的方言词语,可以是从本地中获取。在一些实施例中,计算机设备从网络中查询唤醒词对应的方言词语。本申请实施例对计算机设备将唤醒词转换成对应的方言词语的方式不做限定。
需要说明的是,本申请实施例仅是对口音转换进行示例性说明,本申请实施例对口音转换的具体方式不做限定。在一些实施例中,计算机设备仅采用第一种可能实现方式中的方案进行口音转换。在一些实施例中,计算机设备仅采用第二种可能实现方式中的方案进行口音转换。在一些实施例中,计算机设备采用第一种和第二种可能实现方式中的方案进行口音转换。例如,采用第一种可能实现方式中的方案进行口音转换,得到多条第一测试数据,再采用第二种可能实现方式中的方案进行口音转换,得到至少一条第二测试数据。针对每条第二测试数据,再执行第一种可能实现方式中的方案,得到多条第三测试数据。其中,多条第一测试数据,至少一条第二测试数据和多条第三测试数据均为对语音数据进行扩充得到的测试数据。
303、计算机设备通过语速调节,对语音数据进行扩充,得到多条测试数据。
计算机设备通过语速调节,对语音数据进行扩充时,可以按照多个预设的语速调节参数,对语音数据进行语速调节。其中,语速调节参数用于指示调节后的语速与语音数据当前语速的倍数关系。例如,语速调节参数可以是0.5、0.75、1.25、1.5、1.75、2.0等。本申请实施例对语速调节参数不做限定。
在计算机设备基于语速调节参数,对语音数据进行语速调节时,可以采用一个语速调节参数对整个语音数据进行语速调节,也可以采用多个语速调节参数,对语音数据的不同数据段进行调节,使得语音数据在不同的时间段采用的不同的语速。
其中,对语音数据进行语速调节可以采用剪贴法、同步波形叠加法(SynchronizedOverlap-Add,SOLA)、固定同步波形叠加法(Synchronized Overlap-Add and FixedSynthesis,SOLAFS)、时域基音同步叠加法(Time-Domain Pitch Synchronized Overlap-Add,TD-PSOLA)波形相似叠加法(waveform similarity overlap-and-add,WSOLA)等,本申请实施例对此不做限定,仅以下述可能的实现方式进行示例性说明。
在一种可能的实现方式中,计算机设备通过语速调节,对语音数据进行扩充,得到多条测试数据,包括:通过调节语音数据的波长,得到语速调节后的语音数据,将语速调节后的语音数据,作为测试数据。
可选地,计算机设备通过调节语音数据的波长,得到语速调节后的语音数据,包括以下至少一项:
(1)增大语音数据的波长,以得到语速减慢的语音数据。
语音数据可以是表示机械波的信号,语音数据的波长就是该机械波的波长。通过增大该语音数据的波长,可以延长该语音数据的播放时间,从而得到语速减慢的语音数据。
在一些实施例中,在增大语音数据的波长时,可以预设有第一步长,第一次增大语音数据的波长时,在语音数据的当前波长的基础上增加第一步长;第二次增大语音数据的波长时,在语音数据的当前波长的基础上增大两倍的第一步长;在第三次增大语音数据的波长时,在语音数据的当前波长的基础上增大三倍的第一步长,以此类推。
(2)减小语音数据的波长,以得到语速加快的语音数据;
同理,减小该语音数据的波长,可以加快语音数据的播放时间,从而得到语速加快的语音数据。在一些实施例中,在减小语音数据的波长时,可以预设有第一步长,第一次减小语音数据的波长时,在语音数据的当前波长的基础上增加第一步长;第二次减小语音数据的波长时,在语音数据的当前波长的基础上减小两倍的第一步长;在第三次减小语音数据的波长时,在语音数据的当前波长的基础上减小三倍的第一步长,以此类推。
(3)对语音数据的多个波长进行随机增大或减小,以得到语速调节后的语音数据。
通过对语音数据的多个波长进行随机增大或减小,可以使得语速调节后的语音数据在不同的时间段的语速不同,采用这样的语音数据来测试电子设备,能够辅助电子设备适应各种语速的语音数据。
并且,通过改变语音数据的波长来改变语音数据的语速时,还会导致语音数据的音调发生改变,从而辅助电子设备适应各种音调的语音数据。
304、计算机设备通过噪声调节,对语音数据进行扩充,得到多条测试数据。
在一种可能的实现方式中,考虑到电子设备在实际应用中所面临的环境复杂,电子设备需要在有噪声时,也能够被准确地唤醒,因此,还可以通过噪声调节,对语音数据进行扩充,得到多条测试数据。计算机设备通过噪声调节,对语音数据进行扩充,得到多条测试数据,包括:计算机设备通过对语音数据进行加噪或者减噪处理,得到测试数据。
其中,计算机设备对语音数据进行加噪处理,是为了测试电子设备在有噪声的环境下是否能够被唤醒,而计算机设备对语音数据进行减噪处理是为了在电子设备中添加准确的去噪功能,采用去噪后的语音数据来唤醒电子设备。
可选地,计算机设备通过对语音数据进行加噪或者减噪处理,得到测试数据,包括以下至少一项:
(1)获取多条噪声数据,将语音数据与该多条噪声数据分别进行组合,得到多条测试数据。
其中,多条噪声数据可以是预设的噪声数据,例如,多条噪声数据可以包括鸟叫声对应的语音数据、汽车行驶声对应的语音数据等,该噪声数据可以是电子设备实际应用中所面临的环境中的任一种环境音。
(2)基于多条噪声数据,确定多个噪声组合,每个噪声组合包括至少两条噪声数据;将语音数据与多个噪声组合分别进行组合,得到多条测试数据。
其中,多条噪声数据可以是预设的噪声数据。(2)中的多条噪声数据可以与(1)中的多条噪声数据相同。在一些实施例中,多个噪声组合可以是多条噪声数据的全部组合,也可以是多条噪声数据的部分组合,本申请实施例对此不做限定。
(3)针对获取的每条噪声数据,从语音数据的完整时间段中随机确定第一时间段,将噪声数据添加到语音数据的第一时间段中,得到测试数据。
需要说明的是,(3)中获取的噪声数据可以是一条,也可以是多条,本申请实施例对此不做限定。第一时间段可以是完整时间段中的任一时间段。例如,语音数据的完整时间段为0秒至10秒,第一时间段可以是0秒至10秒,也可以是1秒至3秒,还可以是2秒至7秒,本申请实施例对第一时间段不做限定。
(4)采用多种去噪方法,分别对语音数据进行去噪处理,得到多条测试数据。
上述去噪方法可以是任一种音频去噪方法,本申请实施例对此不做限定,通过采用多种去噪方法,分别对语音数据进行去噪处理,可以得到每种去噪方法对应的语音数据,后续采用每种去噪方法对应的语音数据对电子设备进行测试,可以找到去噪效果最好的去噪方法。
305、计算机设备通过尾端点调节,对语音数据进行扩充,得到多条测试数据。
其中,尾端点调节用于改变语音数据的结束时刻。例如,语音数据的结束时刻是第6秒,那么通过尾端点调节,可以将语音数据的结束时刻调整为第5秒,从而将第5秒至第6秒的语音数据删除,通过尾端点调节可以测试电子设备的唤醒速度。
在一种可能的实现方式中,计算机设备通过尾端点调节,对语音数据进行扩充,得到多条测试数据,包括:计算机设备确定第一时长,该第一时长为小于语音数据的完整时长的任一时长;计算机设备从语音数据的尾部裁减掉第一时长的语音数据,得到测试数据。
在另一种可能的实现方式中,计算机设备通过尾端点调节,对语音数据进行扩充,得到多条测试数据,包括:计算机设备确定第一时间点,该第一时间点是属于语音数据的完整时间段中的任一时间点;计算机设备裁减掉语音数据中第一时间点之后的语音数据,得到测试数据。
需要说明的是,上述步骤302至步骤305均可以为可执行步骤,也就是说上述步骤302至步骤304中的任一个或多个步骤都可以根据实际需求来决定执行或者不执行。
306、计算机设备基于多条测试数据,对电子设备进行语音唤醒测试,得到多条测试数据对应的唤醒结果。
唤醒结果可以包括唤醒成功、唤醒失败、唤醒时长等任一指标,本申请实施例对唤醒结果不做限定。
在一种可能的实现方式中,计算机设备基于多条测试数据对电子设备进行语音唤醒测试,就是向电子设备播放测试数据,确定电子设备是否可以被测试数据唤醒,相应的唤醒时长是多少。计算机设备基于多条测试数据,对电子设备进行语音唤醒测试,得到多条测试数据对应的唤醒结果,包括:计算机设备向电子设备播放测试数据,在电子设备被唤醒之后,电子设备向计算机设备发送通知消息;计算机设备基于该通知消息,确定电子设备唤醒成功,基于接收到通知消息的时刻与播放测试数据的时刻,确定唤醒时长;计算机设备在播放完测试数据第二时长之后,若还未接收到电子设备的通知消息,则确定电子设备唤醒失败。
在一种可能的实现方式中,计算机设备可以设置汇总文档,用于记录测试的相关信息,以便后续汇总出唤醒失败原因。计算机设备基于多条测试数据,对电子设备进行语音唤醒测试,得到多条测试数据对应的唤醒结果,包括:计算机设备基于多条测试数据生成汇总文档,一条测试数据对应汇总文档的一行,该行中记录有测试数据的调节参数,该调节参数用于指示对语音数据的调节方式;在基于任一条测试数据,对电子设备进行语音唤醒测试,得到测试数据对应的唤醒结果之后,在测试数据对应的行中添加唤醒结果。
其中,调节参数用于指示对语音数据的调节方式,也就是说,基于调节参数可以确定是如何对语音数据进行调节来得到测试参数的。例如,测试数据是对语音数据添加噪声数据1和噪声数据2得到的,那么该测试数据的调节参数可以是“加噪、噪声数据1、噪声数据2”。
在一些实施例中,计算机设备基于多条测试数据,对电子设备进行语音唤醒测试,得到多条测试数据对应的唤醒结果之后,该方法还包括:计算机设备基于汇总文档中的唤醒结果和调节参数,确定电子设备的唤醒失败原因。
可选地,计算机设备可以获取唤醒结果为唤醒失败的测试数据所对应的调节参数,对调节参数进行汇总,基于汇总的调节参数,确定电子设备的唤醒失败原因。例如,从汇总的调节参数中确定出现次数达到第一阈值的第一调节参数,获取第一调节参数对应的唤醒失败原因。
可选地,调节参数包括第一子调节参数和第二子调节参数,其中,第一子调节参数用于表示对语音数据的调节手段,第二子调节参数用于表示该调节手段对应的调节参数。计算机设备基于汇总文档中的唤醒结果和调节参数,确定电子设备的唤醒失败原因,包括:计算机设备获取文档中唤醒失败对应的第一调节参数,对获取的第一调节参数进行第一调节子参数归纳,若同一第一调节子参数的数量超过第一阈值,则确定与第一调节子参数对应的第一唤醒失败子原因;对第一调节子参数对应的第二调节子参数进行归纳,确定多个第二调节子参数中的相同子参数,基于该相同子参数,确定第二唤醒失败子原因,基于第一唤醒失败子原因和第二唤醒失败子原因,确定唤醒失败原因。
例如,唤醒失败的测试数据所对应的调节参数分别是“声调变化、声调变化参数1”、“声调变化、声调变化参数2”、“声调变化、声调变化参数3”、“加噪、噪声数据1、噪声数据2”、“加噪、噪声数据1”。那么汇总调节参数之后,可以确定唤醒失败原因为声调变化和噪声,且噪声数据1对唤醒结果影响较大。
本申请实施例提供的语音唤醒测试方法,可以通过口音转换、语速调节、噪声调节和尾端点调节中的至少一项,自动扩充语音数据来得到多条测试数据,进而测试出电子设备在面对不同口音、不同语速的用户,或者在面对不同环境时的唤醒准确率,实现了在保证测试效果的前提下,自动生成测试数据,降低了人力成本。
图4是本申请实施例提供的一种语音唤醒测试装置的结构示意图,如图4所示,该装置包括:
获取模块401,用于获取唤醒词对应的语音数据;
扩充模块402,用于通过口音转换、语速调节、噪声调节和尾端点调节中的至少一项,对语音数据进行扩充,得到多条测试数据;
测试模块403,用于基于多条测试数据,对电子设备进行语音唤醒测试,得到多条测试数据对应的唤醒结果。
如图5所示,在一种可能的实现方式中,扩充模块402,包括:
参数获取单元4021,用于获取多个声调变化参数,声调变化参数用于指示唤醒词的声调变化;
声调调整单元4022,用于基于获取的多个声调变化参数,分别对语音数据进行声调调整,得到多条测试数据。
在一种可能的实现方式中,多个声调变化参数包括多个方言分别对应的声调变化参数,声调变化参数用于指示采用方言说出唤醒词时,唤醒词的声调变化;或者,多个声调变化参数包括随机生成的声调变化参数。
在一种可能的实现方式中,扩充模块402,包括:
转换单元4023,用于将唤醒词转换成对应的方言词语;
合成单元4024,用于合成方言词语对应的语音数据,将方言词语对应的语音数据作为测试数据。
在一种可能的实现方式中,扩充模块402,用于通过调节语音数据的波长,得到语速调节后的语音数据;将语速调节后的语音数据,作为测试数据。
在一种可能的实现方式中,扩充模块402,用于执行以下至少一项:
增大语音数据的波长,以得到语速减慢的语音数据;
减小语音数据的波长,以得到语速加快的语音数据;
对语音数据的多个波长进行随机增大或减小,以得到语速调节后的语音数据。
在一种可能的实现方式中,扩充模块402,用于通过对语音数据进行加噪或者减噪处理,得到测试数据。
在一种可能的实现方式中,扩充模块402,用于执行以下至少一项:
获取多条噪声数据,将语音数据与多条噪声数据分别进行组合,得到多条测试数据;
基于多条噪声数据,确定多个噪声组合,每个噪声组合包括至少两条噪声数据;将语音数据与多个噪声组合分别进行组合,得到多条测试数据;
针对获取的每条噪声数据,从语音数据的完整时间段中随机确定第一时间段,将噪声数据添加到语音数据的第一时间段中,得到测试数据;
采用多种去噪方法,分别对语音数据进行去噪处理,得到多条测试数据。
在一种可能的实现方式中,扩充模块402,包括:
确定单元4025,用于确定第一时长,第一时长为小于语音数据的完整时长的任一时长;
裁剪单元4026,用于从语音数据的尾部裁减掉第一时长的语音数据,得到测试数据。
在一种可能的实现方式中,测试模块403,用于基于多条测试数据生成汇总文档,一条测试数据对应汇总文档的一行,行中记录有测试数据的调节参数,调节参数用于指示对语音数据的调节方式;在基于任一条测试数据,对电子设备进行语音唤醒测试,得到测试数据对应的唤醒结果之后,在测试数据对应的行中添加唤醒结果。
在一种可能的实现方式中,装置还包括:
确定模块404,用于基于汇总文档中的唤醒结果和调节参数,确定电子设备的唤醒失败原因。
需要说明的是:上述实施例提供的语音唤醒测试装置在测试时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音唤醒测试装置与语音唤醒测试方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6示出了本申请一个示例性实施例提供的电子设备600的结构框图。电子设备600包括有:处理器601和存储器602。
处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器601所执行以实现本申请中方法实施例提供的语音唤醒测试方法。
在一些实施例中,电子设备600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。
外围设备接口603可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
显示屏605用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置电子设备600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在电子设备600的不同表面或呈折叠设计;在再一些实施例中,显示屏605可以是柔性显示屏,设置在电子设备600的弯曲表面上或折叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
电源609用于为电子设备600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
本领域技术人员可以理解,图6中示出的结构并不构成对电子设备600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图7是本申请实施例提供的一种服务器的结构示意图,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central ProcessingUnits,CPU)701和一个或一个以上的存储器702,其中,该存储器702中存储有至少一条程序代码,该至少一条程序代码由该处理器701加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
该服务器700用于执行上述方法实施例中服务器所执行的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现如上述任一实现方式所述的语音唤醒测试方法。
本申请实施例还提供了一种计算机程序产品,计算机程序产品包括至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现如上述任一实现方式所述的语音唤醒测试方法。
在一些实施例中,本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
以上仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (14)
1.一种语音唤醒测试方法,其特征在于,所述方法包括:
获取唤醒词对应的语音数据;
通过口音转换、语速调节、噪声调节和尾端点调节中的至少一项,对所述语音数据进行扩充,得到多条测试数据;
基于所述多条测试数据,对电子设备进行语音唤醒测试,得到所述多条测试数据对应的唤醒结果。
2.根据权利要求1所述的方法,其特征在于,通过口音转换,对所述语音数据进行扩充,得到多条测试数据,包括:
获取多个声调变化参数,所述声调变化参数用于指示所述唤醒词的声调变化;
基于获取的多个声调变化参数,分别对所述语音数据进行声调调整,得到多条测试数据。
3.根据权利要求2所述的方法,其特征在于,所述多个声调变化参数包括多个方言分别对应的声调变化参数,所述声调变化参数用于指示采用所述方言说出所述唤醒词时,所述唤醒词的声调变化;或者,所述多个声调变化参数包括随机生成的声调变化参数。
4.根据权利要求1所述的方法,其特征在于,通过口音转换,对所述语音数据进行扩充,得到多条测试数据,包括:
将所述唤醒词转换成对应的方言词语;
合成所述方言词语对应的语音数据,将所述方言词语对应的语音数据作为测试数据。
5.根据权利要求1所述的方法,其特征在于,通过语速调节,对所述语音数据进行扩充,得到多条测试数据,包括:
通过调节所述语音数据的波长,得到语速调节后的语音数据;
将所述语速调节后的语音数据,作为测试数据。
6.根据权利要求5所述的方法,其特征在于,所述通过调节所述语音数据的波长,得到语速调节后的语音数据,包括以下至少一项:
增大所述语音数据的波长,以得到语速减慢的语音数据;
减小所述语音数据的波长,以得到语速加快的语音数据;
对所述语音数据的多个波长进行随机增大或减小,以得到语速调节后的语音数据。
7.根据权利要求1所述的方法,其特征在于,通过噪声调节,对所述语音数据进行扩充,得到多条测试数据,包括:
通过对所述语音数据进行加噪或者减噪处理,得到测试数据。
8.根据权利要求7所述的方法,其特征在于,所述通过对所述语音数据进行加噪或者减噪处理,得到测试数据,包括以下至少一项:
获取多条噪声数据,将所述语音数据与所述多条噪声数据分别进行组合,得到多条测试数据;
基于多条噪声数据,确定多个噪声组合,每个噪声组合包括至少两条噪声数据;将所述语音数据与所述多个噪声组合分别进行组合,得到多条测试数据;
针对获取的每条噪声数据,从所述语音数据的完整时间段中随机确定第一时间段,将所述噪声数据添加到所述语音数据的第一时间段中,得到测试数据;
采用多种去噪方法,分别对所述语音数据进行去噪处理,得到多条测试数据。
9.根据权利要求1所述的方法,其特征在于,通过尾端点调节,对所述语音数据进行扩充,得到多条测试数据,包括:
确定第一时长,所述第一时长为小于所述语音数据的完整时长的任一时长;
从所述语音数据的尾部裁减掉所述第一时长的语音数据,得到测试数据。
10.根据权利要求1所述的方法,其特征在于,所述基于所述多条测试数据,对电子设备进行语音唤醒测试,得到所述多条测试数据对应的唤醒结果,包括:
基于所述多条测试数据生成汇总文档,一条测试数据对应所述汇总文档的一行,所述行中记录有所述测试数据的调节参数,所述调节参数用于指示对所述语音数据的调节方式;
在基于任一条测试数据,对所述电子设备进行语音唤醒测试,得到所述测试数据对应的唤醒结果之后,在所述测试数据对应的行中添加所述唤醒结果。
11.根据权利要求10所述的方法,其特征在于,所述基于所述多条测试数据,对电子设备进行语音唤醒测试,得到所述多条测试数据对应的唤醒结果之后,所述方法还包括:
基于所述汇总文档中的唤醒结果和调节参数,确定所述电子设备的唤醒失败原因。
12.一种语音唤醒测试装置,其特征在于,所述装置包括:
获取模块,用于获取唤醒词对应的语音数据;
扩充模块,用于通过口音转换、语速调节、噪声调节和尾端点调节中的至少一项,对所述语音数据进行扩充,得到多条测试数据;
测试模块,用于基于所述多条测试数据,对电子设备进行语音唤醒测试,得到所述多条测试数据对应的唤醒结果。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如权利要求1至11任一项所述的语音唤醒测试方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至11任一项所述的语音唤醒测试方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310403853.9A CN116416971A (zh) | 2023-04-14 | 2023-04-14 | 语音唤醒测试方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310403853.9A CN116416971A (zh) | 2023-04-14 | 2023-04-14 | 语音唤醒测试方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116416971A true CN116416971A (zh) | 2023-07-11 |
Family
ID=87056059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310403853.9A Pending CN116416971A (zh) | 2023-04-14 | 2023-04-14 | 语音唤醒测试方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116416971A (zh) |
-
2023
- 2023-04-14 CN CN202310403853.9A patent/CN116416971A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220122580A1 (en) | Intent recognition and emotional text-to-speech learning | |
CN110288077A (zh) | 一种基于人工智能的合成说话表情的方法和相关装置 | |
CN104538024B (zh) | 语音合成方法、装置及设备 | |
JP2021103328A (ja) | 音声変換方法、装置及び電子機器 | |
CN108922525B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
JP6078964B2 (ja) | 音声対話システム及びプログラム | |
CN112927674B (zh) | 语音风格的迁移方法、装置、可读介质和电子设备 | |
CN110473546A (zh) | 一种媒体文件推荐方法及装置 | |
CN111402843A (zh) | 说唱音乐生成方法、装置、可读介质及电子设备 | |
CN112309365A (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
TWI731382B (zh) | 語音合成的方法、裝置及設備 | |
CN111292737A (zh) | 语音交互及语音唤醒检测方法、装置、设备及存储介质 | |
CN112513984A (zh) | 电子设备及其控制方法 | |
CN113096692B (zh) | 语音检测方法及装置、设备、存储介质 | |
JP2019015951A (ja) | 電子機器のウェイクアップ方法、装置、デバイス及びコンピュータ可読記憶媒体 | |
CN112906369A (zh) | 一种歌词文件生成方法及装置 | |
CN111477210A (zh) | 语音合成方法和装置 | |
CN114446268B (zh) | 一种音频数据处理方法、装置、电子设备、介质和程序产品 | |
CN117059068A (zh) | 语音处理方法、装置、存储介质及计算机设备 | |
CN113012681A (zh) | 基于唤醒语音模型的唤醒语音合成方法及应用唤醒方法 | |
CN112669796A (zh) | 基于人工智能的音乐转乐谱的方法及装置 | |
JPH0981174A (ja) | 音声合成システムおよび音声合成方法 | |
CN108922523B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN116416971A (zh) | 语音唤醒测试方法、装置、设备及介质 | |
CN114974213A (zh) | 音频处理方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |