CN114049884B

CN114049884B - 语音交互方法、车辆、计算机可读存储介质

Info

Publication number: CN114049884B
Application number: CN202210024122.9A
Authority: CN
Inventors: 丁鹏傑; 潘晓彤; 赵恒艺
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-05-13
Anticipated expiration: 2042-01-11
Also published as: WO2023134378A1; CN114049884A

Abstract

本发明公开了一种语音交互方法、车辆、计算机可读存储介质。语音交互方法包括：获取语音请求；对语音请求进行语音识别，生成文本样本；将文本样本和预设的标签样本进行相似性对比学习，得到语义相似程度；在语义相似程度大于预设程度的情况下，确定文本样本所属的控件垂域和标签样本所属的控件垂域相同，控件垂域对应车辆特定的控件，利用控件垂域完成语音交互。上述语音交互方法中，通过对比文本样本和标签样本来得到两者的语义相似程度，当将相似程度大于预设程度时，可确定文本样本和标签样本属于相同的控件垂域，语音请求与该控件垂域的车辆控件相关，以在该控件垂域内进一步识别文本样本的语义以控制控件，确保车辆对语音请求的正确响应。

Description

语音交互方法、车辆、计算机可读存储介质

技术领域

本发明涉及语音交互技术领域，特别涉及一种语音交互方法、车辆、计算机可读存储介质。

背景技术

在相关技术中，车载语音系统通过获取数据来形成样本集，根据样本集进行深度学习，根据不同类别的样本集，深度学习得到的模型可用于识别与相应领域相关的语音信息。

发明内容

本发明提供一种语音交互方法、车辆、计算机可读存储介质。

本发明提供的一种语音交互方法，包括：获取语音请求；对所述语音请求进行语音识别，生成文本样本；将所述文本样本和预设的标签样本进行相似性对比学习，得到语义相似程度；在所述语义相似程度大于预设程度的情况下，确定所述文本样本所属的控件垂域和所述标签样本所属的控件垂域相同，所述控件垂域对应车辆特定的控件，利用所述控件垂域完成语音交互。

上述语音交互方法中，通过对比文本样本和标签样本来得到两者的语义相似程度，当将相似程度大于预设程度时，可确定文本样本和标签样本属于相同的控件垂域，从而可确定语音请求与对应该控件垂域的车辆控件相关，并会在该控件垂域内进一步识别文本样本的语义以对控件进行控制，确保车辆对语音请求的正确响应。

所述语音交互方法包括：获取预设垂域中的待增强样本，所述待增强样本用于识别所述语音请求；根据所述待增强样本生成负样本和多个正样本，每个所述正样本与所述待增强样本的语义相似程度大于第一预设程度；确定所述多个正样本中的训练样本，所述训练样本与所述负样本的语义相似程度大于第二预设程度，所述训练样本用于训练预设模型，所述第二预设程度大于所述第一预设程度；根据训练后得到的模型，在所述控件垂域中生成所述标签样本。

如此，可增加预设垂域的召回率。

获取预设垂域中的待增强样本，包括：确定预设的所有垂域，根据所有所述垂域的样本总量来确定每个所述垂域中样本数量的占比；在所述占比小于预设比例的情况下，将对应的所述垂域作为所述预设垂域，以及将所述预设垂域中的样本作为所述待增强样本以进行获取。

如此，可方便在所有垂域中快速得知样本量不足的垂域。

根据所述待增强样本生成负样本和多个正样本，包括：根据预设的匹配模板生成第一数据集；对所述待增强样本进行数据增强以生成第二数据集；根据所述第一数据集和所述第二数据集生成所述负样本和所述多个正样本。

如此，可实现对负样本和多个正样本的获取。

所述匹配模板包括多个模板片段；根据预设的匹配模板生成第一数据集，包括：确定每个所述模板片段的多个对应实体；根据所述多个对应实体的其中一个，对所述匹配模板中的所述模板片段进行实体填充，得到多个查询样本；根据所述多个查询样本生成所述第一数据集。

如此，可实现对第一数据集的获取。

对所述待增强样本进行数据增强以生成第二数据集，包括：确定所述待增强样本的实体；按照预设的修改程序对所述待增强样本的实体进行修改，得到修改后的所述待增强样本；根据修改后的所述待增强样本生成所述第二数据集。

如此，可实现对第二数据集的获取。

根据所述第一数据集和所述第二数据集生成所述负样本和所述多个正样本，包括：根据所述匹配模板对所述第二数据集进行筛选，得到第三数据集；根据所述第一数据集和所述第三数据集生成相似数据集；根据预设的语言模型对所述相似数据集进行筛选，根据筛选后的所述相似数据集中的其中一部分样本生成所述多个正样本，根据筛选后的所述相似数据集中的另外一部分确定所述负样本。

如此，可增强模型在面对噪声时的鲁棒性。

根据所述第一数据集和所述第二数据集生成所述负样本和所述多个正样本，包括：根据所述匹配模板对所述第二数据集进行筛选，得到第三数据集；根据所述第一数据集和所述第三数据集生成相似数据集；根据所述待增强样本和所述相似数据集中的样本确定所述多个正样本；根据预设的语言模型对所述相似数据集进行筛选，根据筛选后的所述相似数据集确定所述负样本。

如此，可增强模型在面对噪声时的鲁棒性。

确定所述多个正样本中的训练样本，包括：根据所述负样本和所述正样本得到第一相似值；根据所述第一相似值得到所述负样本和所述正样本的语义相似程度，将所述语义相似程度大于所述第二预设程度的正样本确定为所述训练样本。

如此，可确定所有正样本中在语义表达上更为接近负样本的样本。

所述语音交互方法包括：根据所述多个正样本的其中两个得到第二相似值；根据所述第一相似值得到所述负样本和所述正样本的语义相似程度，包括：对所述第一相似值和所述第二相似值进行加权处理，得到所述负样本和所述正样本的语义相似程度。

如此，可使得多个训练样本的语义之间也具有较大的相似性。

所述语音交互方法包括：将预设的测试样本带入所述预设模型以获取第一样本，以及将所述测试样本带入所述训练后得到的模型以获取第二样本；在所述第一样本和所述测试样本的语义相似程度小于所述第二样本和所述测试样本的语义相似程度预设幅度时，确定完成对所述模型的训练。

如此，可测试得出训练后的模型的识别精度。

本发明提供的一种车辆，所述车辆包括存储器、处理器和存储在所述存储器的计算机可执行程序，所述处理器用于执行所述计算机可执行程序以实现上述任一实施方式所述的语音交互方法的步骤。

上述车辆中，通过对比文本样本和标签样本来得到两者的语义相似程度，当将相似程度大于预设程度时，可确定文本样本和标签样本属于相同的控件垂域，从而可确定语音请求与对应该控件垂域的车辆控件相关，并会在该控件垂域内进一步识别文本样本的语义以对控件进行控制，确保车辆对语音请求的正确响应。

本发明提供的一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时，实现上述任一实施方式所述的语音交互方法。

上述计算机可读存储介质中，通过对比文本样本和标签样本来得到两者的语义相似程度，当将相似程度大于预设程度时，可确定文本样本和标签样本属于相同的控件垂域，从而可确定语音请求与对应该控件垂域的车辆控件相关，并会在该控件垂域内进一步识别文本样本的语义以对控件进行控制，确保车辆对语音请求的正确响应。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明的语音交互方法的流程示意图；

图2是本发明的语音系统的示意图；

图3是本发明的车辆的模块示意图；

图4-图12是本发明的语音交互方法的流程示意图；

图13是本发明的车辆与计算机可读存储介质连接的示意图。

主要元件符号说明：

车辆10、服务器20、语音系统30、计算机可读存储介质40；

存储器11、处理器12。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参考图1，本发明提供的一种语音交互方法，包括：

05：获取语音请求；

06：对语音请求进行语音识别，生成文本样本；

07：将文本样本和预设的标签样本进行相似性对比学习，得到语义相似程度；

08：在语义相似程度大于预设程度的情况下，确定文本样本所属的控件垂域和标签样本所属的控件垂域相同，控件垂域对应车辆10特定的控件，利用控件垂域完成语音交互。

请参阅图2，本发明的语音交互方法可以应用于本发明的车辆10或服务器20，其中，当语音交互方法应用于车辆10时，车辆10的麦克风可以接收用户的语音请求，然后语音请求可以转发至车辆10进行处理；当语音交互方法应用于服务器20时，车辆10的麦克风可以接收用户的语音请求，然后语音请求可以转发至服务器20进行处理，服务器20可以将语音请求的处理结果转发至车辆10，车辆10和服务器20形成语音系统30。本发明的车辆10和服务器20也可以配合实现本发明的语音交互方法，即本发明的语音交互方法的部分步骤可以由车辆10实现，另外部分步骤可以由服务器20实现。为了方便理解，下列示例以车辆10来实现语音交互方法的情况进行说明，在此不对其它示例中语音交互方法各步骤的执行主体做具体限定。

也就是说，本发明的语音交互方法可以通过本发明的车辆10来实现。具体地，请结合图2和图3，车辆10包括存储器11、处理器12。存储器11中存储有计算机可执行程序，处理器12可以执行计算机可执行程序，以能够用于：获取语音请求；对语音请求进行语音识别，生成文本样本；将文本样本和预设的标签样本进行相似性对比学习，得到语义相似程度；在语义相似程度大于预设程度的情况下，确定文本样本所属的控件垂域和标签样本所属的控件垂域相同，控件垂域对应车辆10特定的控件，利用控件垂域完成语音交互。

上述语音交互方法和车辆10中，通过对比文本样本和标签样本来得到两者的语义相似程度，当将相似程度大于预设程度时，可确定文本样本和标签样本属于相同的控件垂域，从而可确定语音请求与对应该控件垂域的车辆控件相关，并会在该控件垂域内进一步识别文本样本的语义以对控件进行控制，确保车辆10对语音请求的正确响应。

具体地，对于车辆10而言，在获取到语音请求的情况下，通过对语音请求进行语音识别，可以得到文本样本。其中，文本样本可以通过对语音请求进行自然语言处理来得到。

预设的标签样本可以为被存储在车辆10内的、用于表征与语音请求具有相同语言含义的文本信息。标签样本的数量可以为多个。对文本样本和标签样本的相似性对比学习，可以为将文本样本和每个标签样本进行语义上的对比，从而得到文本样本和每个标签样本之间的语义相似程度。在确定到文本样本和其中一个标签样本之间的语义相似程度大于预设程度后，则表示文本样本和对应的标签样本可以表示相同或类似的语言含义，以及均用于控制相同的控件。

对于标签样本而言，其所属的控件垂域是可以被预先确定的，使得在控件垂域内对标签样本进行识别得到的语言含义会与控件相关。在得知与文本样本相对应的标签样本后，也就可以得知文本样本和对应的标签样本属于相同的控件垂域，且对应相同的控件，从而可将文本样本分类到与标签样本相同的控件垂域中，进而可利用对应的控件垂域来对文本样本进行意图，确定驾驶员对控件的实际控制意图。

在这样的一个场景中，对语音请求识别到的文本样本为“开窗”。在预设的标签样本为“开启车窗”的情况下，将文本样本和标签样本进行相似性对比学习得到的语义相似程度为90%，且大于预设程度80%，从而可确定文本样本和标签样本属于以“车窗”为控件的控件垂域，进而会在“车窗”的控件垂域中对文本样本进行意图识别，并可确定对应的意图为对车窗进行开启，从而使得车辆10控制车窗开启，以完成驾驶员和车辆10的语音交互。

请参考图4，语音交互方法包括：

01：获取预设垂域中的待增强样本，待增强样本用于识别语音请求；

02：根据待增强样本生成负样本和多个正样本，每个正样本与待增强样本的语义相似程度大于第一预设程度；

03：确定多个正样本中的训练样本，训练样本与负样本的语义相似程度大于第二预设程度，训练样本用于训练预设模型，第二预设程度大于第一预设程度；

04：根据训练后得到的模型，在控件垂域中生成标签样本。

本发明的语音交互方法可以通过本发明的车辆10来实现。具体地，请结合图3，处理器12用于：获取预设垂域中的待增强样本，待增强样本用于识别语音请求；根据待增强样本生成负样本和多个正样本，每个正样本与待增强样本的语义相似程度大于第一预设程度；确定多个正样本中的训练样本，训练样本与负样本的语义相似程度大于第二预设程度，训练样本用于训练预设模型，第二预设程度大于第一预设程度；根据训练后得到的模型，在控件垂域中生成标签样本。

如此，可增加预设垂域的召回率。其中，预设垂域可以为具有的样本量较少的控件垂域，由于预设垂域中的样本量较少，容易存在无法有效学习预设垂域中的数据特性，导致对预设垂域的召回率较低，需要对预设垂域中的样本量进行扩充。在01中，待增强样本可以为预设垂域中的部分样本，也可以为预设垂域中的全部样本。在02中，在获取到预设垂域中的待增强样本后，会对待增强样本进行增强，以得到多个在语义上于待增强样本较为相似的增强样本，其中，增强样本包括负样本和多个正样本，且负样本在语义上所表示的语言含义与待增强样本的更为接近。在03中，通过将负样本和每个正样本进行相似性对比学习，可得到每个正样本和负样本之间的语义相似程度，在正样本和负样本的语义相似程度大于第二预设相似程度，且第二预设程度大于第一预设程度的情况下，可确定对应的正样本在语义上所表示的语言含义同样与待增强样本的更为接近，从而可将这些对应的正样本确定为训练样本。由于对每个训练样本的生成过程存在随机性，训练样本在文本上会与待增强样本的具有一定的差异性，也就是说，训练样本和待增强样本在语义表达上具有很高的相似性，而在文本表述上则具有较大的差异性。在一个示例中，可得到的一个待增强样本为“窗户打开同时最小温度”，对应得到的一个训练样本为“开窗，温度打到最低”。

在上述基础上，在04中，根据得到的训练样本用于训练预设的模型，使得训练后得到的模型能够分辨出训练样本和待增强样本在语义表达上的相似性以及在文本表述上的差异性，这样，将训练后的模型用于生成标签样本，可使得对应的控件垂域内的数据特性更为明显，从而弥补原先的待增强样本与文本样本之间存在文本表述的差异性较大的不足，提高预设垂域（以及其它的控件垂域）的召回率。

可以理解，在完成对模型的训练后，可通过原先存储在控件垂域中的样本来生成标签样本，可实现对控件垂域中样本的扩增，不需要对人工增加新的样本，也不需要对新增样本进行人工标注。

请参考图5，步骤01（获取预设垂域中的待增强样本），包括：

011：确定预设的所有垂域，根据所有垂域的样本总量来确定每个垂域中样本数量的占比；

012：在占比小于预设比例的情况下，将对应的垂域作为预设垂域，以及将预设垂域中的样本作为待增强样本以进行获取。

本发明的语音交互方法可以通过本发明的车辆10来实现。具体地，请结合图3，处理器12用于：确定预设的所有垂域，根据所有垂域的样本总量来确定每个垂域中样本数量的占比；在占比小于预设比例的情况下，将对应的垂域作为预设垂域，以及将预设垂域中的样本作为待增强样本以进行获取。

如此，可方便在所有垂域中快速得知样本量不足的垂域。具体地，在一个示例中，垂域的数量为3个，3个垂域中的样本量分别为10、40、50，预设比例为30%，可确定3个垂域中样本量的占比分别为10%、40%、50%，从而会将样本量为10个的垂域作为预设垂域，并可将预设垂域中的10个作为待增强样本。

可以理解，由于垂域中的样本是已经存在的，通过在所有垂域中确定预设垂域，并将预设垂域中的样本作为待增强样本来生成标签样本，可增加预设垂域中的样本量不足的问题。而且，从而充分发挥已有样本的价值和潜力，有利于提高样本量不足的垂域的召回率和F1值，进而在利用控件垂域来完成语音交互时，提高对文本样本进行识别的准确率。

请参考图6，步骤02（根据待增强样本生成负样本和多个正样本），包括：

021：根据预设的匹配模板生成第一数据集；

022：对待增强样本进行数据增强以生成第二数据集；

023：根据第一数据集和第二数据集生成负样本和多个正样本。

本发明的语音交互方法可以通过本发明的车辆10来实现。具体地，请结合图3，处理器12用于：根据预设的匹配模板生成第一数据集；对待增强样本进行数据增强以生成第二数据集；根据第一数据集和第二数据集生成负样本和多个正样本。

如此，可实现对负样本和多个正样本的获取。其中，在021中，预设的匹配模板表征的是待增强样本的语义顺序，也就是说，第一数据集中的样本与待增强样本可具有相同或相似的语义顺序。在022中，通过数据增强的方法，在待增强样本的基础上可衍生出大量的具有随机性的样本，而根据这些样本可以生成第二数据集。

在上述基础上，由于位于第一数据集和第二数据集中的样本与待增强样本均具有一定程度的相似性，而根据第一数据集和第二数据集来得到负样本和多个正样本，在生成更多不同的样本的前提下，可进一步在多个正样本中得到训练样本。

可以理解，通过匹配模板来生成负样本和正样本，实现根据匹配模板来反向生成可能存在的文本样本的效果，从而对匹配模板进行有效利用，而通过匹配模板得到的样本来用于训练模型，可增加模型对匹配模板的消化能力，在文本样本命中相应的匹配模板的情况下，可极大增加对文本样本的判别准确率。

匹配模板包括多个模板片段。请参考图7，步骤021（根据预设的匹配模板生成第一数据集），包括：

0211：确定每个模板片段的多个对应实体；

0212：根据多个对应实体的其中一个，对匹配模板中的模板片段进行实体填充，得到多个查询样本；

0213：根据多个查询样本生成第一数据集。

本发明的语音交互方法可以通过本发明的车辆10来实现。具体地，请结合图3，处理器12用于：确定每个模板片段的多个对应实体；根据多个对应实体的其中一个，对匹配模板中的模板片段进行实体填充，得到多个查询样本；根据多个查询样本生成第一数据集。

如此，可实现对第一数据集的获取。在一个示例中，可得到的一个匹配模板为"[K:window][K:open|K:close]同时最小[K:temperature]"，[K:window]、[K:open|K:close]、[K:temperature]为多个不同的模板片段。在0211中，会对上述的多个不同的模板片段所对应实体进行确定，具体地，[K:window]对应的实体可包括“车窗”、“窗子”、“窗”、“窗户”，[K:open|K:close]对应的实体可包括“开启”、“开”、“打开”、“关闭”、“关”、“关上”，[K:temperature]对应的实体可包括“温度”、“气温”。在0212中，可将上述得到的多个实体填充到对应的模板片段中以得到多个查询样本，多个查询样本可包括“车窗开启同时最小温度”、“窗开同时最小温度”、“窗关上同时最小气温”、“窗户关闭同时最小温度”。在0213中，则将上述得到的多个查询样本来得到第一数据集。

请参考图8，步骤022（对待增强样本进行数据增强以生成第二数据集），包括：

0221：确定待增强样本的实体；

0222：按照预设的修改程序对待增强样本的实体进行修改，得到修改后的待增强样本；

0223：根据修改后的待增强样本生成第二数据集。

本发明的语音交互方法可以通过本发明的车辆10来实现。具体地，请结合图3，处理器12用于：确定待增强样本的实体；按照预设的修改程序对待增强样本的实体进行修改，得到修改后的待增强样本；根据修改后的待增强样本生成第二数据集。

如此，可实现对第二数据集的获取。其中，预设的修改程序可以为EDA（Easy DataAugmentation，显式数据增强），对待增强样本的实体进行修改，可以通过等价实体替换、随机同义词替换、随机近义字替换、随机字删除、随机置换邻近的字等方式来实现，以得到多个修改后的待增强样本，然后可根据多个修改后的待增强样本来得到第二数据集。具体地，在一个示例中，待增强样本为“窗户打开同时最小温度”，通过随机同义字替换进行修改得到的待增强样本可包括“窗户打开并且最小温度”、“窗子打开同时最小温度”。

可以理解，对待增强样本进行数据增强，从而构建用于训练模型的多个样本，可进一步增强模型的泛化能力。

请参考图9，步骤023（根据第一数据集和第二数据集生成负样本和多个正样本），包括：

0231：根据匹配模板对第二数据集进行筛选，得到第三数据集；

0232：根据第一数据集和第三数据集生成相似数据集；

0233：根据预设的语言模型对相似数据集进行筛选，根据筛选后的相似数据集中的其中一部分样本生成多个正样本，根据筛选后的相似数据集中的另外一部分确定负样本。

本发明的语音交互方法可以通过本发明的车辆10来实现。具体地，请结合图3，处理器12用于：根据匹配模板对第二数据集进行筛选，得到第三数据集；根据第一数据集和第三数据集生成相似数据集；根据预设的语言模型对相似数据集进行筛选，根据筛选后的相似数据集中的其中一部分样本生成多个正样本，根据筛选后的相似数据集中的另外一部分确定负样本。

如此，可增强模型在面对噪声时的鲁棒性。其中，相对于对第一数据集的获取，第二数据集侧重于对应文本的数据进行增强，在增加文本表述的差异性的前提下，可能会引入较大的噪声，从而会影响与待增强样本之间语义表达的相似性。在0231中，通过匹配模板来筛选第二数据集中的样本以得到第三数据集，可在一定程度上消除样本中的噪声。在0233中，在生成相似数据集的情况下，再结合预设的语言模型对相似数据集进行筛选，可进一步消除部分噪声，使得筛选后的相似数据集中的样本在语义表达的相似性更接近待增强样本，进而通过对相似数据集中的一部分样本进一步处理来生成正样本，以及将相似数据集中的另一部分样本作为负样本，使得负样本和每个正样本之间在语义表达上相差不大，而多个正样本之间在文本表述上就可具有较大差异，进而使得训练样本在语义向量空间下能够具有更大的覆盖性，从而增强模型在面对噪声时的鲁棒性。

另外，通过对相似数据集中的一部分样本进一步处理来生成正样本，可以为将相似数据集中的一部分样本输入到带有Dropout的模型中进行拟合。由于Dropout本身具有随机性，将同一个样本输入以进行拟合而得到的结果也会不同，从而可以得到多个不同的正样本。

请参考图10，步骤023（根据第一数据集和第二数据集生成负样本和多个正样本），包括：

0232：根据第一数据集和第三数据集生成相似数据集；

0234：根据待增强样本和相似数据集中的样本确定多个正样本；

0235：根据预设的语言模型对相似数据集进行筛选，根据筛选后的相似数据集确定负样本。

本发明的语音交互方法可以通过本发明的车辆10来实现。具体地，请结合图3，处理器12用于：根据匹配模板对第二数据集进行筛选，得到第三数据集；根据第一数据集和第三数据集生成相似数据集；根据待增强样本和相似数据集中的样本确定多个正样本；根据预设的语言模型对相似数据集进行筛选，根据筛选后的相似数据集确定负样本。

如此，可增强模型在面对噪声时的鲁棒性。其中，相对于对第一数据集的获取，第二数据集侧重于对应文本的数据进行增强，在增加文本表述的差异性的前提下，可能会引入较大的噪声，从而会影响与待增强样本之间语义表达的相似性。在0231中，通过匹配模板来筛选第二数据集中的样本以得到第三数据集，可在一定程度上消除样本中的噪声。在0234中，根据待增强样本和相似数据集中的样本确定多个正样本，为将待增强样本作为其中一个正样本，而其它的正样本则通过相似数据集中的样本来确定。在0235中，在生成相似数据集的情况下，再结合预设的语言模型对相似数据集进行筛选，可进一步消除部分噪声，使得筛选后的相似数据集中的样本在语义表达的相似性更接近待增强样本，进而通过相似数据集中的样本来确定负样本。在上述基础上，负样本和每个正样本之间在语义表达上仍具有一定的相似程度，而多个正样本之间在文本表述上就可具有较大差异，进而使得训练样本在语义向量空间下能够具有更大的覆盖性，从而增强模型在面对噪声时的鲁棒性。

另外，根据待增强样本和相似数据集中的样本确定多个正样本，能够构造出更多不同类型的正样本对，这些正样本对在语义表达更为接近的前提下文本表述的差异性会更大，因此在语义向量空间下覆盖性也更大。

请参考图11，步骤03（确定多个正样本中的训练样本），包括：

031：根据负样本和正样本得到第一相似值；

033：根据第一相似值得到负样本和正样本的语义相似程度，将语义相似程度大于第二预设程度的正样本确定为训练样本。

本发明的语音交互方法可以通过本发明的车辆10来实现。具体地，请结合图3，处理器12用于：根据负样本和正样本得到第一相似值；根据第一相似值得到负样本和正样本的语义相似程度，将语义相似程度大于第二预设程度的正样本确定为训练样本。

如此，可确定所有正样本中在语义表达上更为接近负样本的样本。在一个示例中，每个样本中的文本特征对应不同的语义分量，所有的文本特征的语义分量构成样本在语义向量空间内的语义向量，而样本之间的对比，可以为将样本各自的文本特征进行相应地对比，进而得到分别对应不同样本的语义向量之间的差距，差距越大表示样本之间的相似程度越小，差距越小表示样本之间的相似程度越大。在031中，通过将负样本和正样本分量进行对比，可得知负样本和正样本在语义向量空间内的距离（对应第一相似值），进而能够确定对应负样本和正样本之间的语义相似程度。语义相似程度大于第二预设程度，表示对应的正样本和负样本在语义向量空间内的距离足够近，能够用于表示相同或相似的语义，从而将对应的正样本确定为训练样本。

请参考图12，语音交互方法包括：

032：根据多个正样本的其中两个得到第二相似值；

步骤033（根据第一相似值得到负样本和正样本的语义相似程度），包括：

0331：对第一相似值和第二相似值进行加权处理，得到负样本和正样本的语义相似程度。

本发明的语音交互方法可以通过本发明的车辆10来实现。具体地，请结合图3，处理器12用于：根据多个正样本的其中两个得到第二相似值；对第一相似值和第二相似值进行加权处理，得到负样本和正样本的语义相似程度。

如此，可使得多个训练样本的语义之间也具有较大的相似性。在033中，通过将两个正样本进行对比来得到两个正样本在语义向量空间内的距离（对应第二相似值）。在034中，在得到两个正样本分别和负样本之间的第一相似值的情况下，将两个第一相似值和第二相似值进行加权处理，以得到负样本和正样本的语义相似程度。

其中，负样本和正样本的语义相似程度表示的是负样本和对应的两个正样本三者在语义向量空间内的距离情况。在两个正样本均与负样本相距较近时，则表示三者的语义相近，负样本和正样本的语义相似程度相对较大；在其中一个正样本与负样本相距较远时，则表示三者的语义不完全相近，负样本和正样本的语义相似程度相对较小；在两个正样本均与负样本相距较远时，则表示三者的语义基本不相近，负样本和正样本的语义相似程度相对更小。

在上述基础上，在负样本和正样本的语义相似程度大于预设程度的情况下，则对应的多个正样本在语义上均与负样本相近，从而可将对应的多个正样本输出为训练样本。在一个示例中，用于得到第二相似值的多个正样本可以构成正样本对，对应的语义相似程度则对应正样本对内的正样本整体和负样本之间的距离关系。正样本对中的正样本数量可以为两个，也可以为两个及以上。另外，在一个示例中，在构成多个正样本对的情况下，多个正样本对中的正样本可以是相同的。

语音交互方法包括：

091：将预设的测试样本带入预设模型以获取第一样本，以及将测试样本带入训练后得到的模型以获取第二样本；

092：在第一样本和测试样本的语义相似程度小于第二样本和测试样本的语义相似程度预设幅度时，确定完成对模型的训练。

本发明的语音交互方法可以通过本发明的车辆10来实现。具体地，请结合图3，处理器12用于：将预设的测试样本带入预设模型以获取第一样本，以及将测试样本带入训练后得到的模型以获取第二样本；在第一样本和测试样本的语义相似程度小于第二样本和测试样本的语义相似程度时，确定完成对模型的训练。

如此，可测试得出训练后的模型的识别精度。通过将测试样本分别输入至预设模型和训练后的模型，可得到模型在训练前后对同一样本的语义相似程度，在第一样本和测试样本的语义相似程度小于第二样本和测试样本的语义相似程度预设幅度的情况下，则表示训练后得到的模型在对样本进行垂域分类时已具有较高的准确率，从而确定完成对模型的训练。

请参阅图13，本发明提供的一种计算机可读存储介质40，其上存储有计算机程序，计算机程序在被处理器12执行时，实现上述任一实施方式所述的语音交互方法。

例如，计算机程序被处理器12执行的情况下，可以实现：

05：获取语音请求；

06：对语音请求进行语音识别，生成文本样本；

上述计算机可读存储介质40中，通过对比文本样本和标签样本来得到两者的语义相似程度，当将相似程度大于预设程度时，可确定文本样本和标签样本属于相同的控件垂域，从而可确定语音请求与对应该控件垂域的车辆控件相关，并会在该控件垂域内进一步识别文本样本的语义以对控件进行控制，确保车辆10对语音请求的正确响应。

在本发明中，计算机程序包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。存储器11可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart MediaCard，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。处理器12可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field- Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音交互方法，其特征在于，所述语音交互方法包括：

获取语音请求；

对所述语音请求进行语音识别，生成文本样本；

将所述文本样本和预设的标签样本进行相似性对比学习，得到语义相似程度；

在所述语义相似程度大于预设程度的情况下，确定所述文本样本所属的控件垂域和所述标签样本所属的控件垂域相同，所述控件垂域对应车辆特定的控件，利用所述控件垂域完成语音交互；

所述语音交互方法还包括：

获取预设垂域中的待增强样本，所述待增强样本用于识别所述语音请求；

根据所述待增强样本生成负样本和多个正样本，每个所述正样本与所述待增强样本的语义相似程度大于第一预设程度；

确定所述多个正样本中的训练样本，所述训练样本与所述负样本的语义相似程度大于第二预设程度，所述训练样本用于训练预设模型，所述第二预设程度大于所述第一预设程度；

根据训练后得到的模型，在所述控件垂域中生成所述标签样本。

2.根据权利要求1所述的语音交互方法，其特征在于，获取预设垂域中的待增强样本，包括：

确定预设的所有垂域，根据所有所述垂域的样本总量来确定每个所述垂域中样本数量的占比；

在所述占比小于预设比例的情况下，将对应的所述垂域作为所述预设垂域，以及将所述预设垂域中的样本作为所述待增强样本以进行获取。

3.根据权利要求1所述的语音交互方法，其特征在于，根据所述待增强样本生成负样本和多个正样本，包括：

根据预设的匹配模板生成第一数据集；

对所述待增强样本进行数据增强以生成第二数据集；

根据所述第一数据集和所述第二数据集生成所述负样本和所述多个正样本。

4.根据权利要求3所述的语音交互方法，其特征在于，所述匹配模板包括多个模板片段；根据预设的匹配模板生成第一数据集，包括：

确定每个所述模板片段的多个对应实体；

根据所述多个对应实体的其中一个，对所述匹配模板中的所述模板片段进行实体填充，得到多个查询样本；

根据所述多个查询样本生成所述第一数据集。

5.根据权利要求3所述的语音交互方法，其特征在于，对所述待增强样本进行数据增强以生成第二数据集，包括：

确定所述待增强样本的实体；

按照预设的修改程序对所述待增强样本的实体进行修改，得到修改后的所述待增强样本；

根据修改后的所述待增强样本生成所述第二数据集。

6.根据权利要求3所述的语音交互方法，其特征在于，根据所述第一数据集和所述第二数据集生成所述负样本和所述多个正样本，包括：

根据所述匹配模板对所述第二数据集进行筛选，得到第三数据集；

根据所述第一数据集和所述第三数据集生成相似数据集；

根据预设的语言模型对所述相似数据集进行筛选，根据筛选后的所述相似数据集中的其中一部分样本生成所述多个正样本，根据筛选后的所述相似数据集中的另外一部分确定所述负样本。

7.根据权利要求3所述的语音交互方法，其特征在于，根据所述第一数据集和所述第二数据集生成所述负样本和所述多个正样本，包括：

根据所述第一数据集和所述第三数据集生成相似数据集；

根据所述待增强样本和所述相似数据集中的样本确定所述多个正样本；

根据预设的语言模型对所述相似数据集进行筛选，根据筛选后的所述相似数据集确定所述负样本。

8.根据权利要求1所述的语音交互方法，其特征在于，确定所述多个正样本中的训练样本，包括：

根据所述负样本和所述正样本得到第一相似值；

根据所述第一相似值得到所述负样本和所述正样本的语义相似程度，将所述语义相似程度大于所述第二预设程度的正样本确定为所述训练样本。

9.根据权利要求8所述的语音交互方法，其特征在于，所述语音交互方法包括：

根据所述多个正样本的其中两个得到第二相似值；

根据所述第一相似值得到所述负样本和所述正样本的语义相似程度，包括：

对所述第一相似值和所述第二相似值进行加权处理，得到所述负样本和所述正样本的语义相似程度。

10.根据权利要求8所述的语音交互方法，其特征在于，所述语音交互方法包括：

将预设的测试样本带入所述预设模型以获取第一样本，以及将所述测试样本带入所述训练后得到的模型以获取第二样本；

在所述第一样本和所述测试样本的语义相似程度小于所述第二样本和所述测试样本的语义相似程度预设幅度时，确定完成对所述模型的训练。

11.一种车辆，其特征在于，所述车辆包括存储器、处理器和存储在所述存储器的计算机可执行程序，所述处理器用于执行所述计算机可执行程序以实现权利要求1-10任一项所述的语音交互方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时，实现权利要求1-10任一项所述的语音交互方法。