CN117932348A

CN117932348A - 智能家居交互测试用例的自动训练生成方法及系统

Info

Publication number: CN117932348A
Application number: CN202410337039.6A
Authority: CN
Inventors: 焦利敏; 李红伟; 曲宗峰; 金轮; 刘泽超; 顾子谦; 刘冬阳; 李禹翔
Original assignee: Cheari Beijing Certification & Testing Co ltd
Current assignee: Cheari Beijing Certification & Testing Co ltd
Priority date: 2024-03-22
Filing date: 2024-03-22
Publication date: 2024-04-26
Anticipated expiration: 2044-03-22

Abstract

本发明提供了一种智能家居交互测试用例的自动训练生成方法及系统，属于智能家居测试领域。所述方法包括：智能家居描述建模步骤、交互环境因素和对话场景要素确定步骤以及语音交互测试用例自动训练生成步骤。本发明能够针对智能家居现实应用中嘈杂、干扰等各种非理想环境和多轮对话等复杂场景，大批量生成测试用例，且所生成的测试用例的变化性、仿真性强，提高了智能家居人机交互语音测试的准确性、有效性，对智能家居人机交互的改进和调优具有积极作用。

Description

智能家居交互测试用例的自动训练生成方法及系统

技术领域

本发明属于智能家居技术领域，具体涉及一种智能家居交互测试用例的自动训练生成方法及系统。

背景技术

智能家居领域中，语音交互系统已经取得了一定的发展，但在特异化场景下仍存在一些问题。首先，在嘈杂环境下，例如有音乐、电视声音或者用户聊天语音作为环境音的情形下，语音交互系统对面向智能家居的交互指令的识别准确率较低，影响了用户体验。其次，对于复杂对话场景的语音交互指令，现有系统的识别能力不强，导致用户无法有效地控制智能家居设备，无法满足用户的需求。

因此，对于智能家居的语音交互系统，进行面向非理想环境的、高动态性的交互测试，验证交互指令的识别准备率和有效率，对保障智能家居语言交互系统的质量具有重要意义。但是，传统的语音交互测试往往只能针对特定的场景进行测试，从测试用例库中按照固定的规则选取模板并组合形成测试用例，导致测试用例单一固化，无法满足不同场景的测试需求。此外，由于语音交互的复杂性和多样性，传统的测试方法很难进行全面的测试，测试覆盖率和适应性有限。

发明内容

本发明提供的一种智能家居交互测试用例的自动训练生成方法及系统。本发明通过训练机器学习模型，实现对语音交互环境和场景的自动理解和生成，并在此基础上适应性地调整测试用例模板，从而生成多样化的测试用例，从而解决上述技术问题。本发明解决上述技术问题的技术方案如下。

第一方面，本发明提供了一种智能家居交互测试用例的自动训练生成方法，其特征在于，包括：

智能家居描述建模步骤，根据智能家居设备特征和用户需求特征，建立智能家居描述模型；

交互环境因素和对话场景要素确定步骤，调用所述智能家居描述模型，根据其中的智能家居设备特征和用户需求特征，确定语音交互测试过程中相匹配的交互环境因素和对话场景要素；

语音交互测试用例自动训练生成步骤，根据交互环境因素和对话场景要素，基于经过训练的自动生成器，构建语音交互测试用例。

优选的是，针对智能家居设备特征，所述智能家居描述模型描述了智能家居所包含的一个或多个设备与语音交互相关的硬件配置和设备软件的支持交互等级，以及设备与用户之间语音交互的接口规范；针对用户需求特征，所述智能家居描述模型描述了用户需求类型。

优选的是，交互环境因素和对话场景要素确定步骤中，根据所述智能家居描述模型中对设备硬件配置、支持交互等级的描述，确定语音交互测试过程中的交互环境因素；交互环境因素是在交互测试过程中与人机交互主语音叠加的环境音的相关因素。

优选的是，交互环境因素和对话场景要素确定步骤中，根据所述智能家居描述模型中对支持交互等级、语音交互接口规范、用户需求类型的描述，确定语音交互测试过程中的对话场景要素。对话场景要素限定了交互测试过程中的对话轮次、对话语法范式、指令词集合或自然语言集合。

优选的是，语音交互测试用例自动训练生成步骤中，通过自动生成器从环境音库中调取匹配交互环境因素的测试用例环境音，并调整测试用例环境音的参数。

优选的是，语音交互测试用例自动训练生成步骤中，通过自动生成器根据对话场景要素所限定的对话轮次、对话语法范式、指令词集合或自然语言集合，从对话素材库里面抽取对应的测试语句，并排列测试语句形成交互测试的初始对话脚本；对所述初始对话脚本进行泛化，形成最终的交互测试对话脚本；将交互测试对话脚本转换形成测试用例主语音，将所述测试用例环境音和测试用例主语音按照各自权重叠加，形成语音交互测试用例。

优选的是，对所述初始对话脚本进行泛化具体包括：向语句特征编码器输入初始对话脚本的测试语句，输出测试语句的语句特征；向句结构特征转换器输入支持泛化的全部类型的句结构，输出句结构的文本特征的特征向量组；通过线性投影矩阵求取初始对话脚本的测试语句特征向量和句结构的特征向量组之间的内积，确定句结构的特征向量组中与测试语句特征向量内积最大的句结构特征向量，进而确定所述测试语句具有可泛化的对应句结构。

另一方面，本申请还公开了一种智能家居交互测试用例的自动训练生成系统，其特征在于，包括：

智能家居描述建模单元，用于根据智能家居设备特征和用户需求特征，建立智能家居描述模型；

环境场景确定单元，用于调用所述智能家居描述模型，根据其中的智能家居设备特征和用户需求特征，确定语音交互测试过程中相匹配的交互环境因素和对话场景要素；

自动生成器，用于在经过训练后，根据交互环境因素和对话场景要素，构建语音交互测试用例。

优选的是，所述自动生成器进一步包括：

环境音调取模块，用于从环境音库中调取匹配交互环境因素的测试用例环境音，并调整测试用例环境音的参数；

对话脚本生成模块，用于根据对话场景要素所限定的对话轮次、对话语法范式、指令词集合或自然语言集合，从对话素材库里面抽取对应的测试语句，并排列测试语句形成交互测试的初始对话脚本；对所述初始对话脚本进行泛化，形成最终的交互测试对话脚本；

语音转化合成模块，将交互测试对话脚本转换形成测试用例主语音。将所述测试用例环境音和测试用例主语音按照各自权重叠加，形成语音交互测试用例。

优选的是，所述对话脚本生成模块进一步包括：语句特征编码器、句结构特征转换器，线性投影矩阵；所述语句特征编码器采用VIT模型，用于输入初始对话脚本的测试语句，输出测试语句的语句特征；所述句结构特征转换器采用Text Transformers模型，输入支持泛化的全部类型的句结构，输出句结构的文本特征的特征向量组；线性投影矩阵求取初始对话脚本的测试语句特征向量和句结构的特征向量组之间的内积，确定句结构的特征向量组中与测试语句特征向量内积最大的句结构特征向量，进而确定所述测试语句具有可泛化的对应句结构。

本申请的有益效果是提供了一种高效率、动态性的智能家居语音人机交互的测试用例自动生成方法和系统；本发明能够针对智能家居现实应用中嘈杂、干扰等各种非理想环境和多轮对话等复杂场景，大批量生成测试用例，且所生成的测试用例的变化性、仿真性强，提高了智能家居人机交互语音测试的准确性、有效性，对智能家居人机交互的改进和调优具有积极作用。

附图说明

图1为本申请的一种智能家居交互测试用例的自动训练生成方法流程图；

图2为本申请的一种智能家居交互测试用例的自动训练生成系统结构图；

图3为本申请的自动生成器结构图；

图4为本申请的对话脚本生成模块结构图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。基于所描述的本申请的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请的一种智能家居交互测试用例的自动生成方法的流程图。结合图1，该方法包括以下步骤：

S1、智能家居描述建模步骤。

本步骤S1中，根据智能家居设备特征和用户需求特征，建立智能家居描述模型。

其中，针对智能家居设备特征，所述智能家居描述模型描述了智能家居所包含的一个或多个设备与语音交互相关的硬件配置和设备软件的支持交互等级，以及设备与用户之间语音交互的接口规范，所述智能家居描述模型采用UML等建模语言对智能家居设备特征进行描述，以便后续的环境场景生成和指令模拟。

针对用户需求特征，所述智能家居描述模型描述了用户需求类型，例如用户对智能家居内部的温度、湿度、光照、空气颗粒净化等方面的调节需求。

S2、交互环境因素和对话场景要素确定步骤。

本步骤S2中，调用所述智能家居描述模型，根据其中的智能家居设备特征和用户需求特征，确定语音交互测试过程中相匹配的交互环境因素和对话场景要素。

其中，根据所述智能家居描述模型中对设备硬件配置、支持交互等级的描述，确定语音交互测试过程中的交互环境因素。交互环境因素是在交互测试过程中与人机交互主语音叠加的环境音的相关因素，包括环境音的数量、类型、音量等因素。根据智能家居的设备硬件配置所描述的麦克风数量、位置和朝向、有效拾音范围、降噪能力等，可以确定环境音的数量、音量、虚拟音源位置等因素。根据智能家居的支持交互等级的描述，例如是否支持声纹识别、是否支持声音类型识别与噪音数字滤除等，可以决定环境音的数量以及类型；具体来说，如果智能家居设备的交互等级支持基于声纹识别而锁定指令发出人，则环境音可以包括电视声音、用户聊天语音作为环境音；反之，如果交互等级不支持声纹识别，则环境音可以只包括干扰噪音、背景音乐等。

根据所述智能家居描述模型中对支持交互等级、语音交互接口规范、用户需求类型的描述，确定语音交互测试过程中的对话场景要素。对话场景要素限定了交互测试过程中的对话轮次、对话语法范式、指令词集合或自然语言集合等。根据智能家居的支持交互等级，如果智能家居只能够支持单条语音指令，则对话轮次为1轮，如果智能家居能够支持多条语音指令，则对话轮次限定其能支持的最大指令条数；根据智能家居的支持交互等级以及语音交互接口规范，如果智能家居只能支持固定的指令词集合，则交互测试的对话语法范式限定为召唤词+指令词集合，并根据用户需求类型确定可调用的指令词集合；如果智能家居的支持交互等级以及语音交互接口规范支持自然语言理解，则交互测试的对话语法范式支持召唤词+自然语言集合，并根据用户需求类型确定可调用的自然语言集合。

S3、语音交互测试用例自动训练生成步骤。

本步骤S3中，根据交互环境因素和对话场景要素，基于经过训练的自动生成器，构建语音交互测试用例。

具体来说，步骤S3中，通过自动生成器从环境音库中调取匹配交互环境因素的测试用例环境音，并调整测试用例环境音的参数。例如，根据所述交互环境因素，根据其中的环境音数量和类型，调取相匹配的电视声音、用户聊天语音、干扰噪音、背景音乐等作为测试用例环境音，并调整测试用例环境音的音量、虚拟音源位置等参数。

所述自动生成器还根据对话场景要素所限定的对话轮次、对话语法范式、指令词集合或自然语言集合，从对话素材库里面抽取对应的测试语句，并排列测试语句形成交互测试的初始对话脚本。

所述自动生成器对所述初始对话脚本进行泛化，形成最终的交互测试对话脚本。具体来说，所述自动生成器从所述初始对话脚本中提取每个测试语句，从测试语句提取句结构，基于同义词典在句结构基础上进行自动泛化扩展，得到泛化测试语句集合；再从泛化测试语句集合中提取泛化后的测试语句，按照对话语法范式排列组合直至达到对话轮次，形成交互测试对话脚本。

其中，所述自动生成器经过由测试语句和句结构组成样本对的样本集合的训练，能够针对输入的测试语句，识别其中作为泛化目标的句结构，从而确定同义词泛化的对象。例如，测试语句为自然语言形式的“把音量调低”，经过训练的自动生成器提取其中作为泛化目标的句结构“音量”，进而可以同义词泛化为“声音”、“电视音”等。

更具体来说，自动生成器包括语句特征编码器和句结构特征转换器；其中语句特征编码器/>采用VIT（Vision Transformer）模型，输入/>表示每个样本对中的测试语句样本, />为该语句特征编码器的全部参数构成的参数向量，该编码器输出测试语句的语句特征；句结构特征转换器/>是Text Transformers模型，输入表示每个样本对中的句结构样本，/>为句结构特征转换器中的全部参数构成的参数向量，该转换器输出句结构的文本特征。自动生成器还包括语句特征和文本特征的线性投影矩阵，该矩阵参数表示为/>和/>。测试语句-句结构配对所构成的样本集合表示为，/>是样本集合总容量，/>、/>至/>为样本集合中的第1、2至n个测试语句样本，/>、/>至/>为样本集合中相对应的第1、2至n个句结构样本。

预训练过程中，对语句特征编码器和句结构特征转换器的参数初始化为，并且初始化矩阵参数/>。在每个训练轮次(epoch)中，将随机分成大小为/>的共计/>个批次的小批量样本，表示为:/>,/>，这里/>，/>和/>为第b批次小批量样本所包含的测试语句样本和对应的句结构样本；对第/>批次的小批量样本对, 将/>分别输入语句特征编码器和句结构特征转换器，得到该小批量样本的语句特征和文本特征，分别表示为 />、/>。在每个小批量样本中，同一个测试语句-句结构配对/>的语句特征和文本特征 />构成正样本对，来自不同的测试语句-句结构配对/> 的语句特征和文本特征/>构成负样本对，其中/>。利用所述线性投影矩阵，对两组特征进行线性投影，得到两组相同维度的特征，并进行归一化为：

；

这里语句特征组成的/>向量和文本特征/>组成的向量/>表示为：，/>；/>和 />为针对本批量样本的线性投影的矩阵参数；函数/>表示把矩阵/>每一行的值除以该行所有元素平方和的平方根。利用线性投影的特征/>和/>，构造训练损失函数如下：首先计算特征/>和/>的余弦相似度矩阵：

这里，是一个/>的矩阵，/>是预定义的超参数；继而计算基于对比损失的对称损失函数：/>；其中 />是/>的第/>个元素，/>和/>是/>的第ii和jj个元素；进而，计算该损失函数/>相对于语句特征编码器和句结构特征转换器以及线性投影矩阵所有参数/>的梯度：

；

这里，是由/>中所有参数组成参数向量，/>表示针对第/>批小批量样本以上参数的取值；每批次的训练过程中持续更新训练模型参数：

；

这里, 是学习率；训练完成后输出最优参数向量/>，从而得到训练优化完成的语句特征编码器和句结构特征转换器以及线性投影矩阵/>。

对于预训练优化完成后的自动生成器，将所述初始对话脚本中提取的每个测试语句输入到训练好的语句特征编码器，并通过训练优化的线性投影矩阵/>，映射为测试语句的特征向量，表示为/>。对于自动生成器支持泛化的全部类型的句结构，表示为，通过训练好的句结构特征转换器 />和线性投影矩阵/>，映射为一组句结构的特征向量组 />。进而，求取初始对话脚本的测试语句特征向量/>和句结构的特征向量组/>之间的内积/>；测试语句的特征向量/>与句结构的特征向量组/>中哪个句结构特征向量的内积最大，则认为该测试语句具有可泛化的该类句结构；例如 />内积最大，则认为测试语句具有 />对应的可泛化句结构，进而执行上文提到的同义词泛化。经过同义词泛化的测试语句排列组合为交互测试对话脚本。

所述自动生成器通过语音转换，将交互测试对话脚本转换形成测试用例主语音。将所述测试用例环境音和测试用例主语音按照各自权重叠加，形成语音交互测试用例。

所形成的交互测试用例可以在智能家居测试实验中进行播放，从而对智能家居执行面向非理想环境、复杂高动态多轮对话场景的交互测试，验证交互指令的识别准确率和有效率，对测试结果进行分析和评估，判断语音交互系统在不同场景下的性能和表现，可以使用精确率-召回率等指标来评估测试结果。根据测试结果的分析，对智能家居的人机交互模型进行改进和调优。

本申请还公开了一种智能家居交互测试用例的自动训练生成系统，参见图2，包括：

其中，参见图3，所述自动生成器进一步包括：

参见图4，所述对话脚本生成模块进一步包括：语句特征编码器、句结构特征转换器，线性投影矩阵；所述语句特征编码器采用VIT模型，用于输入初始对话脚本的测试语句，输出测试语句的语句特征；所述句结构特征转换器采用Text Transformers模型，输入支持泛化的全部类型的句结构，输出句结构的文本特征的特征向量组；线性投影矩阵求取初始对话脚本的测试语句特征向量和句结构的特征向量组之间的内积，确定句结构的特征向量组中与测试语句特征向量内积最大的句结构特征向量，进而确定所述测试语句具有可泛化的对应句结构。

可见，本发明提供了一种高效率、动态性的智能家居语音人机交互的测试用例自动生成方法和系统；本发明能够针对智能家居现实应用中嘈杂、干扰等各种非理想环境和多轮对话等复杂场景，大批量生成测试用例，且所生成的测试用例的变化性、仿真性强，提高了智能家居人机交互语音测试的准确性、有效性，对智能家居人机交互的改进和调优具有积极作用。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本申请的实施方式，但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种智能家居交互测试用例的自动训练生成方法，其特征在于，包括：

2.根据权利要求1所述的智能家居交互测试用例的自动训练生成方法，其特征在于，针对智能家居设备特征，所述智能家居描述模型描述了智能家居所包含的一个或多个设备与语音交互相关的硬件配置和设备软件的支持交互等级，以及设备与用户之间语音交互的接口规范；针对用户需求特征，所述智能家居描述模型描述了用户需求类型。

3.根据权利要求2所述的智能家居交互测试用例的自动训练生成方法，其特征在于，交互环境因素和对话场景要素确定步骤中，根据所述智能家居描述模型中对设备硬件配置、支持交互等级的描述，确定语音交互测试过程中的交互环境因素；交互环境因素是在交互测试过程中与人机交互主语音叠加的环境音的相关因素。

4.根据权利要求3所述的智能家居交互测试用例的自动训练生成方法，其特征在于，交互环境因素和对话场景要素确定步骤中，根据所述智能家居描述模型中对支持交互等级、语音交互接口规范、用户需求类型的描述，确定语音交互测试过程中的对话场景要素,对话场景要素限定了交互测试过程中的对话轮次、对话语法范式、指令词集合或自然语言集合。

5.根据权利要求4所述的智能家居交互测试用例的自动训练生成方法，其特征在于，语音交互测试用例自动训练生成步骤中，通过自动生成器从环境音库中调取匹配交互环境因素的测试用例环境音，并调整测试用例环境音的参数。

6.根据权利要求5所述的智能家居交互测试用例的自动训练生成方法，其特征在于，语音交互测试用例自动训练生成步骤中，通过自动生成器根据对话场景要素所限定的对话轮次、对话语法范式、指令词集合或自然语言集合，从对话素材库里面抽取对应的测试语句，并排列测试语句形成交互测试的初始对话脚本；对所述初始对话脚本进行泛化，形成最终的交互测试对话脚本；将交互测试对话脚本转换形成测试用例主语音，将所述测试用例环境音和测试用例主语音按照各自权重叠加，形成语音交互测试用例。

7.根据权利要求6所述的智能家居交互测试用例的自动训练生成方法，其特征在于，对所述初始对话脚本进行泛化具体包括：向语句特征编码器输入初始对话脚本的测试语句，输出测试语句的语句特征；向句结构特征转换器输入支持泛化的全部类型的句结构，输出句结构的文本特征的特征向量组；通过线性投影矩阵求取初始对话脚本的测试语句特征向量和句结构的特征向量组之间的内积，确定句结构的特征向量组中与测试语句特征向量内积最大的句结构特征向量，进而确定所述测试语句具有可泛化的对应句结构。

8.一种智能家居交互测试用例的自动训练生成系统，其特征在于，包括：

9.根据权利要求8所述的智能家居交互测试用例的自动训练生成系统，其特征在于，所述自动生成器进一步包括：

语音转化合成模块，将交互测试对话脚本转换形成测试用例主语音,将所述测试用例环境音和测试用例主语音按照各自权重叠加，形成语音交互测试用例。

10.根据权利要求9所述的智能家居交互测试用例的自动训练生成系统，其特征在于，所述对话脚本生成模块进一步包括：语句特征编码器、句结构特征转换器，线性投影矩阵；所述语句特征编码器采用VIT模型，用于输入初始对话脚本的测试语句，输出测试语句的语句特征；所述句结构特征转换器采用Text Transformers模型，输入支持泛化的全部类型的句结构，输出句结构的文本特征的特征向量组；线性投影矩阵求取初始对话脚本的测试语句特征向量和句结构的特征向量组之间的内积，确定句结构的特征向量组中与测试语句特征向量内积最大的句结构特征向量，进而确定所述测试语句具有可泛化的对应句结构。