CN113851109A

CN113851109A - 多音区唤醒测试方法、装置及存储介质

Info

Publication number: CN113851109A
Application number: CN202111125311.7A
Authority: CN
Inventors: 彭汉迎; 陈建哲
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2021-12-28
Also published as: CN109712608A; CN109712608B

Abstract

本发明实施例提出一种多音区唤醒测试方法、装置及计算机可读存储介质。其中多音区唤醒测试方法包括：记录第一音区的信息，所述第一音区是语音测试文件在多音区的语音测试环境中的播放位置所在音区；获取通过播放所述语音测试文件触发唤醒的第二音区的信息；将所述第二音区的信息与所述第一音区的信息相对比；根据对比结果确定唤醒测试结果。本发明实施例能够针对多音区语音识别的应用场景评估多音区的唤醒效果，得到的唤醒准确度测试结果可用于对多音区算法进行优化，减少了测试的时间损耗，节省了人力成本。

Description

多音区唤醒测试方法、装置及存储介质

本申请是申请日为2019年02月28日、申请号为2019101510663、发明名称为“多音区唤醒测试方法、装置及存储介质”的中国专利申请的分案申请。

技术领域

本发明涉及信息技术领域，尤其涉及一种多音区唤醒测试方法、装置及计算机可读存储介质。

背景技术

传统的语音识别技术方案都是围绕一个目标用户进行服务的。例如，传统的车载语音识别技术方案是围绕司机一个人服务的，前端麦克风的角度是对准主驾驶位来设计的。传统的核心垂类导航、音乐、电话等也都是围绕司机来展开设计的。其中，垂类就是垂直领域，特指某个领域，开发者可以根据用户使用场景设定特定领域使得识别结果更准确。比如垂直领域设定为“音乐”，则在语音识别时会优先识别为音乐相关的歌曲名、歌手名或者歌词。

多音区语音识别方案可以实现在语音采集环境中全员使用语音服务。仍以车载语音识别为例，车载多音区语音识别方案可以满足车内全员使用车载语音服务。例如，可将全车分为前后左右四个音区，四个音区可以实现独立拾音，且能够自动屏蔽其他音区的声源，全员使用语音服务给车内乘客带来良好的用户体验。

在多音区语音识别技术中，评价系统性能的一个重要指标是多音区唤醒的准确度。例如在车载四音区场景中，车内的四个乘客处于一个空间内。虽然四音区采用了隔离度算法实现了四个音区的声音隔离，但车内其中一个乘客的发出的语音可能会误触发到其他音区的唤醒。多音区语音识别的算法在每次调整后，都需要评估通过本次算法的调整是否提高了唤醒的准确度。而唤醒准确度的测试工作量非常大，例如在四音区的场景中需要四个人同时在不同音区所在位置进行测试，需要消耗较多的人力。

发明内容

本发明实施例提供一种多音区唤醒测试方法、装置及计算机可读存储介质，以至少解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种多音区唤醒测试方法，包括：

记录第一音区的信息，所述第一音区是语音测试文件在多音区的语音测试环境中的播放位置所在音区；

获取通过播放所述语音测试文件触发唤醒的第二音区的信息；

将所述第二音区的信息与所述第一音区的信息相对比；

根据对比结果确定唤醒测试结果。

在一种实施方式中，还包括：

利用设置于各个音区的语音播放装置播放所述语音测试文件，其中，所述语音播放装置设置于各个音区的指定设置方位，所述指定设置方位包括指定设置高度和/或指定设置方向。

在一种实施方式中，获取通过播放所述语音测试文件触发唤醒的第二音区的信息，包括：

通过播放所述语音测试文件触发唤醒后，将所述触发唤醒的音区的信息输出到监控日志中；

从所述监控日志中获取所述第二音区的信息。

在一种实施方式中，根据对比结果确定唤醒测试结果，包括：

若所述第二音区的信息与所述第一音区的信息相同，则确定唤醒成功；

若所述第二音区的信息与所述第一音区的信息不相同，则确定唤醒失败。

在一种实施方式中，根据对比结果确定唤醒测试结果之后，还包括：

根据所述语音测试文件分别在各个音区的测试结果，统计多音区唤醒测试的成功率。

根据多个语音测试文件中的每一个语音测试文件分别在各个音区的测试结果，统计多音区唤醒测试的成功率。

在所述唤醒测试结果确定为唤醒失败的情况下，记录测试失败信息，所述测试失败信息包括测试使用的所述语音测试文件、所述第二音区的信息和所述第一音区的信息。

第二方面，本发明实施例提供了一种多音区唤醒测试装置，包括：

第一记录单元，用于记录第一音区的信息，所述第一音区是语音测试文件在多音区的语音测试环境中的播放位置所在音区；

获取单元，用于获取通过播放所述语音测试文件触发唤醒的第二音区的信息；

对比单元，用于将所述第二音区的信息与所述第一音区的信息相对比；

确定单元，用于根据对比结果确定唤醒测试结果。

在一种实施方式中，还包括播放单元，用于：

在一种实施方式中，所述获取单元用于：

从所述监控日志中获取所述第二音区的信息。

在一种实施方式中，所述确定单元用于：

在一种实施方式中，还包括统计单元，用于：

在一种实施方式中，还包括第二记录单元，用于：

第三方面，本发明实施例提供了一种多音区唤醒测试装置，所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，所述装置的结构中包括处理器和存储器，所述存储器用于存储支持所述装置执行上述方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述装置还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一所述的方法。

上述技术方案具有如下优点或有益效果：能够针对多音区语音识别的应用场景评估多音区的唤醒效果，得到的唤醒准确度测试结果可用于对多音区算法进行优化，减少了测试的时间损耗，节省了人力成本。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明实施例提供的多音区唤醒测试方法的流程图。

图2为本发明另一实施例提供的多音区唤醒测试方法的流程图。

图3为本发明又一实施例提供的多音区唤醒测试方法的流程图。

图4为本发明实施例提供的多音区唤醒测试装置的结构框图。

图5为本发明另一实施例提供的多音区唤醒测试装置的结构框图。

图6为本发明又一实施例提供的多音区唤醒测试装置的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1为本发明实施例提供的多音区唤醒测试方法的流程图。如图1所示，本发明实施例的多音区唤醒测试方法包括：

步骤S110，记录第一音区的信息，所述第一音区是语音测试文件在多音区的语音测试环境中的播放位置所在音区；

步骤S120，获取通过播放所述语音测试文件触发唤醒的第二音区的信息；

步骤S130，将所述第二音区的信息与所述第一音区的信息相对比；

步骤S140，根据对比结果确定唤醒测试结果。

在进行多音区的唤醒准确度测试的过程中，如果按照现有技术的测试方法，在多个音区由多个测试人员分别在不同的音区所在位置进行测试操作，需要消耗较多的人力。有鉴于此，在本发明实施例中，可以在进行多音区唤醒测试之前提前录制好语音测试文件。提前录制的语音测试文件中可包括由多个人录制的唤醒词的语料，其中每个人可以录制多次，并将录制的唤醒语料保存在语音测试文件中。例如提前录制10个人分别说一百次的“小度小度”唤醒词。然后使用提前录制好的多个语音测试文件进行唤醒准确度测试。

在进行多音区唤醒测试时，可在多音区的语音测试环境中播放上述录制好的语音测试文件。然后在步骤S110中，记录语音测试文件播放位置所在的第一音区的信息。播放语音测试文件之后会触发唤醒多音区语音系统。在步骤S120中，可以从多音区语音系统中获取通过播放上述语音测试文件触发唤醒的第二音区的信息。在步骤S130和步骤S140中，通过对比上述第二音区的信息与上述第一音区的信息是否相同，确定本次唤醒是否成功。

在使用上述多个语音测试文件测试的过程中，一种实施方式为，每一次可以从未测试的语音测试文件中随机抽取出其中的一条录音进行测试，直到语音测试文件全部播放完，即整个过程测试完成。另一种实施方式中，也可以顺序使用多个语音测试文件进行测试，直到录音文件全部播放完。

在一种实施方式中，还包括：

例如在车载四音区场景中，可在车内的四个音区所在的位置分别设置四个喇叭，并将喇叭调整到合适的高度和方向以模拟乘客说话的高度与角度，使模拟的效果更加真实。

在一种实施方式中，可将提前录制的语音测试文件中的每个文件的路径保存在容器中。可将保存语音测试文件的容器命名为wakeupfiles(唤醒文件)。图2为本发明另一实施例提供的多音区唤醒测试方法的流程图。如图2所示的步骤S210中，将语音测试文件加载到wakeupfiles容器中。在步骤S220和步骤S230中，使用random(随机)函数随机地抽取容器中的一个语音测试文件，分别传输到四个音区所在的位置的喇叭中，分别轮流播放。在播放语音测试文件时可记录下当前播放的喇叭的位置所在的音区SpeakPosition(播放位置)，也就是第一音区的信息。

从所述监控日志中获取所述第二音区的信息。

在上述测试过程中，喇叭播放唤醒词后，触发唤醒多音区语音系统。触发唤醒后多音区语音系统将唤醒结果写入到监控日志中。其中，唤醒结果中包括通过播放所述语音测试文件触发唤醒的第二音区的信息。从监控日志中获取唤醒结果，并获取通过播放所述语音测试文件触发唤醒的第二音区的信息，并将第二音区的信息保存为WakeupPosition(唤醒位置)。参见图2，在步骤S230之后，执行步骤S240，将唤醒位置WakeupPosition与播放位置SpeakPosition进行对比。

在这种实施方式中，可预先设置唤醒测试结果标志变量，用于记录唤醒测试结果是否成功。例如测试结果标志变量可命名为Wakeupsuccess(成功唤醒)。在上述步骤S240中，如果唤醒位置WakeupPosition与播放位置SpeakPosition相同，则确定为唤醒成功，并将wakeupsuccess标记为1。如果唤醒位置WakeupPosition与播放位置SpeakPosition不相同，则确定为唤醒失败，记录为误唤醒，并将wakeupsuccess标记为0。

例如在车载四音区场景中，将全车分为四个音区，分别是A音区、B音区、C音区和D音区。在一个示例中，某次测试在A音区播放语音测试文件1，则记录下本次测试的第一音区的信息是A音区。通过播放语音测试文件1触发唤醒的音区也是A音区，则从监控日志中获取的第二音区的信息也是A音区。在本次测试中第二音区的信息与第一音区的信息相同，确定为唤醒成功，并将wakeupsuccess标记为1。

在另一个示例中，某次测试在B音区播放语音测试文件2，则记录下本次测试的第一音区的信息是B音区。但通过播放语音测试文件2触发唤醒的音区是C音区，则从监控日志中获取的第二音区的信息是C音区。在本次测试中第二音区的信息与第一音区的信息不相同，确定为唤醒失败，记录为误唤醒，并将wakeupsuccess标记为0。

参见图2，接下来执行步骤S250，将本次唤醒测试结果作为一行新的记录保存在本地统计文件中。保存的唤醒测试结果记录中，可包括Wakeupsuccess标志位，还可以包括播放位置SpeakPosition与唤醒位置WakeupPosition。

在步骤S250之后，重复进行下一个语音测试文件的测试，循环执行步骤S220至步骤S250，直到所有的语音测试文件全部测试完成，即整个过程测试完成。整个过程测试完成后执行步骤S260，统计唤醒测试结果并输出。唤醒测试结果可以包括多音区唤醒测试的成功率和/或误唤醒失败的详情。

在一种实施方式中，还包括统计单元，用于：

根据所述语音测试文件分别在各个音区的测试结果，统计多音区唤醒测试的成功率。例如在车载四音区的场景中，随机地从多个语音测试文件中抽取一个语音测试文件，分别传输到四个音区所在的位置的喇叭中，分别轮流播放。在四个音区分别进行测试之后，统计唤醒测试的成功率。

图3为本发明又一实施例提供的多音区唤醒测试方法的流程图。如图3所示，在一种实施方式中，在图1中的步骤S140，根据对比结果确定唤醒测试结果之后，还包括步骤S150：

如前述，可使用由多个人录制的指定唤醒词的语音测试文件进行多音区唤醒测试。例如，每个人可以录制多次，还可以录制不同的唤醒词，如“你好”、“早上好”等。经过多次测试之后，对测试结果进行统计，计算唤醒成功的次数与总的测试次数之比即为多音区唤醒测试的成功率。

在另一种实施方式中，还可以统计某个唤醒词的测试成功率，或者统计某一个音区的测试成功率。例如，在A音区播放的多个语音测试文件中，统计其中有多少次测试结果是唤醒成功的，可计算出针对A音区的唤醒测试成功率。再有，还可统计在唤醒失败的情况下，其误唤醒的音区以及对应的次数等。

如前述，测试完成后统计唤醒测试结果并输出。统计的唤醒测试结果中除了成功率，还可以包括误测试失败信息。其中，测试失败信息可包括：误唤醒失败对应的播放的语音测试文件，以及喇叭播放位置所在音区SpeakPosition(第一音区的信息)与唤醒位置所在音区WakeupPosition(第二音区的信息)。

进一步地，可将唤醒测试结果输出给研发人员以对多音区算法进行优化。

其中，优化可包括：

1)在每次调整算法后，评估本次算法调整是否提高了唤醒的准确度。

2)根据误唤醒的测试失败信息，分析误唤醒失败的产生原因，以对多音区隔离度算法进行进一步地改进和修正。

图4为本发明实施例提供的多音区唤醒测试装置的结构框图。如图4所示，本发明实施例的多音区唤醒测试装置包括：

第一记录单元100，用于记录第一音区的信息，所述第一音区是语音测试文件在多音区的语音测试环境中的播放位置所在音区；

获取单元200，用于获取通过播放所述语音测试文件触发唤醒的第二音区的信息；

对比单元300，用于将所述第二音区的信息与所述第一音区的信息相对比；

确定单元400，用于根据对比结果确定唤醒测试结果。

图5为本发明另一实施例提供的多音区唤醒测试装置的结构框图。如图5所示，在一种实施方式中，还包括播放单元500，用于：

在一种实施方式中，所述获取单元200用于：

从所述监控日志中获取所述第二音区的信息。

在一种实施方式中，所述确定单元400用于：

参见图5，在一种实施方式中，还包括统计单元600，用于：

在一种实施方式中，还包括统计单元600，用于：

在一种实施方式中，还包括第二记录单元700，用于：

本发明实施例的多音区唤醒测试装置中各单元的功能可以参见上述方法的相关描述，在此不再赘述。

在一个可能的设计中，多音区唤醒测试装置的结构中包括处理器和存储器，所述存储器用于存储支持多音区唤醒测试装置执行上述多音区唤醒测试方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述多音区唤醒测试装置还可以包括通信接口，多音区唤醒测试装置与其他设备或通信网络通信。

图6为本发明又一实施例提供的多音区唤醒测试装置的结构框图。如图6所示，该装置包括：存储器101和处理器102，存储器101内存储有可在处理器102上运行的计算机程序。所述处理器102执行所述计算机程序时实现上述实施例中的多音区唤醒测试方法。所述存储器101和处理器102的数量可以为一个或多个。

该装置还包括：

通信接口103，用于与外界设备进行通信，进行数据交互传输。

存储器101可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器101、处理器102和通信接口103独立实现，则存储器101、处理器102和通信接口103可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器101、处理器102及通信接口103集成在一块芯片上，则存储器101、处理器102及通信接口103可以通过内部接口完成相互间的通信。

又一方面，本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述多音区唤醒测试方法中任一所述的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种多音区唤醒测试方法，其特征在于，包括：

利用设置于各个音区的语音播放装置播放语音测试文件，其中，所述语音播放装置设置于各个音区的指定设置方位，所述指定设置方位包括指定设置高度和/或指定设置方向；

记录第一音区的信息，所述第一音区是所述语音测试文件在多音区的语音测试环境中的播放位置所在音区；

将所述第二音区的信息与所述第一音区的信息相对比；

根据对比结果确定唤醒测试结果。

2.根据权利要求1所述的方法，其特征在于，获取通过播放所述语音测试文件触发唤醒的第二音区的信息，包括：

从所述监控日志中获取所述第二音区的信息。

3.根据权利要求1所述的方法，其特征在于，根据对比结果确定唤醒测试结果，包括：

4.根据权利要求1-3中任一项所述的方法，其特征在于，根据对比结果确定唤醒测试结果之后，还包括：

5.根据权利要求1-3中任一项所述的方法，其特征在于，根据对比结果确定唤醒测试结果之后，还包括：

6.根据权利要求3所述的方法，其特征在于，根据对比结果确定唤醒测试结果之后，还包括：

7.一种多音区唤醒测试装置，其特征在于，包括：

播放单元，利用设置于各个音区的语音播放装置播放语音测试文件，其中，所述语音播放装置设置于各个音区的指定设置方位，所述指定设置方位包括指定设置高度和/或指定设置方向；

第一记录单元，用于记录第一音区的信息，所述第一音区是所述语音测试文件在多音区的语音测试环境中的播放位置所在音区；

确定单元，用于根据对比结果确定唤醒测试结果。

8.根据权利要求7所述的装置，其特征在于，所述获取单元用于：

从所述监控日志中获取所述第二音区的信息。

9.根据权利要求7所述的装置，其特征在于，所述确定单元用于：

10.根据权利要求7-9中任一项所述的装置，其特征在于，还包括统计单元，用于：

11.根据权利要求7-9中任一项所述的装置，其特征在于，还包括统计单元，用于：

12.根据权利要求9所述的装置，其特征在于，还包括第二记录单元，用于：

13.一种多音区唤醒测试装置，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

14.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。