CN115064170B

CN115064170B - 语音交互方法、服务器和存储介质

Info

Publication number: CN115064170B
Application number: CN202210985589.XA
Authority: CN
Inventors: 李晨延; 赵耀; 张煜; 易晖; 翁志伟
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-12-13
Anticipated expiration: 2042-08-17
Also published as: CN115064170A

Abstract

本发明公开了一种语音交互方法、服务器和存储介质。该语音交互方法包括：接收车辆转发的用户语音请求以进行实体抽取；从预设知识库中获取预先建立的特定实体类型和预设字符的映射关系；根据映射关系，将语音请求中抽取得到的实体替换为相应的预设字符以进行断句与改写处理；根据断句与改写处理结果生成目标语音请求；根据目标语音请求生成控制指令下发至车辆完成语音交互。本发明的语音交互方法、服务器和存储介质可以对语音请求进行断句与改写处理直接输出断句与改写处理结果，保证断句后的子句具有完整的语义。此外，本发明还进行了灵活的知识注入，可以避免特定领域词汇的错误改写及错误断句。

Description

语音交互方法、服务器和存储介质

技术领域

本发明涉及车辆技术领域，特别涉及一种语音交互方法、服务器和存储介质。

背景技术

当前车载场景下存在大量复合连续指令，且复合连续指令中存在指代不明的情况。另外，在半开放域和开放域下，一些特定的知识信息会造成语义混淆，例如《我和你》是一首歌曲的名字，但在断句和改写场景下，“和”是模型判断是否改写或断句的强特征，可能会无法正确识别该歌曲名而得到错误断句和相应的车辆控制指令。

发明内容

本发明实施方式提供一种语音交互方法、服务器和存储介质。

本发明实施方式提供一种语音交互方法。所述语音交互方法包括：接收车辆转发的用户语音请求以进行实体抽取；从预设知识库中获取预先建立的特定实体类型和预设字符的映射关系；根据所述映射关系，将所述语音请求中抽取得到的实体替换为相应的预设字符以进行断句与改写处理；根据断句与改写处理结果生成目标语音请求；根据所述目标语音请求生成控制指令下发至车辆完成语音交互。

如此，本发明的语音交互方法可以对语音请求进行断句与改写处理直接输出断句与改写处理结果，保证断句后的子句具有完整的语义。此外，本发明还进行了灵活的知识注入，可以避免特定领域词汇的错误改写及错误断句。

所述根据所述映射关系，将所述语音请求中抽取得到的实体替换为相应的预设字符以进行断句与改写处理，包括：根据所述映射关系，将所述语音请求中抽取得到的实体替换为相应的预设字符以处理得到预处理分词；根据所述预处理分词生成嵌入特征向量；根据所述嵌入特征向量计算注意力特征得到特征矩阵；将所述特征矩阵转换为二维映射图；解码所述二维映射图得到所述断句与改写处理结果。

如此，本发明可以先通过知识注入层对语音请求进行处理得到预处理分词，根据预处理分词输入嵌入层生成嵌入特征向量，然后将嵌入特征向量输入注意力层得到特征矩阵，之后将特征矩阵输入至语义分割层将特征矩阵转换为二维映射图，通过解码层解码二维映射图，得到断句与改写处理结果，即，本发明通过语音处理模型可以直接输出断句与改写的结果，保证断句后的子句具有完整的语义。

所述根据所述映射关系，将所述语音请求中抽取得到的实体替换为相应的预设字符以处理得到预处理分词，包括：对所述语音请求进行实体抽取；在所述语音请求中抽取得到的实体与所述预设知识库中的特定实体相匹配的情况下，根据匹配的特定实体的类型和所述映射关系，将所述语音请求中抽取得到的实体替换为对应的所述预设字符；在替换后的所述语音请求句首和句尾分别添加断句字符和结束字符，并进行词法扫描处理得到所述预处理分词。

如此，本发明通过语音处理模型的知识注入层对用户输入的语音请求进行处理得到预处理分词，为后续通过语音处理模型进行断句与改写处理奠定基础。

所述根据所述预处理分词生成嵌入特征向量，包括：截取所述预处理分词中所述结束字符之前的字符，以生成替换句及相应的第一嵌入特征向量；截取所述预处理分词中所述断句字符之后的字符，以生成被替换句及相应的第二嵌入特征向量。

如此，本发明可以基于预处理分词截取不同的字符生成替换句和被替换句，从而生成第一嵌入特征向量和第二嵌入特征向量。

所述根据所述嵌入特征向量计算注意力特征得到特征矩阵，包括：对所述第一嵌入特征向量和第二嵌入特征向量采用多个预设算法分别计算得到多个注意力特征；将多个所述注意力特征拼接生成所述特征矩阵。

如此，在语音处理模型中的embedding层得到嵌入特征向量后，通过使用多种注意力计算方法计算得到多个注意力特征，并将多个注意力特征拼接生成特征矩阵，可以丰富语音处理模型的特征抽取，提高语音处理模型的精度。

所述将所述特征矩阵转换为二维映射图，包括：将所述替换句与所述特征矩阵的纵轴对应关联，且将所述被替换句与所述特征矩阵的横轴对应关联，得到所述二维映射图。

如此，可以将特征矩阵转换为二维映射图，从而为后续解码二维映射图得到断句与改写处理结果奠定基础。

所述解码所述二维映射图得到所述断句与改写处理结果，包括：遍历所述二维映射图，根据所述二维映射图中的第一操作字符，将横轴对应所述被替换句的字符替换为纵轴对应所述替换句的字符；遍历所述二维映射图完成后，根据替换后的横轴对应所述被替换句的字符生成所述断句与改写处理结果。

如此，可以通过遍历二维映射图进行解码二维映射图得到断句与改写处理结果。

所述遍历所述二维映射图完成后，根据替换后的横轴对应所述被替换句的字符生成所述断句与改写处理结果，包括：在处理后的横轴对应所述被替换句的字符中，将所述预设字符替换为所述语音请求中抽取得到的实体得到所述断句与改写处理结果。

如此，通过将预设字符替换为语音请求中抽取得到的实体，可以得到语义清楚地断句与改写处理结果，保证断句的各个子句具有准确完整的语义，确保子句正确执行。

所述解码所述二维映射图得到所述断句与改写处理结果，包括：遍历所述二维映射图，根据所述二维映射图中的第二操作字符，在横轴对应所述被替换句的字符前增加纵轴对应所述替换句的字符以改写所述横轴对应所述被替换句的字符；遍历所述二维映射图完成后，根据改写后的横轴对应所述被替换句的字符生成所述改写结果。

所述根据所述映射关系，将所述语音请求中抽取得到的实体替换为相应的预设字符以进行断句与改写处理，包括：利用语音处理模型和所述映射关系，将所述语音请求中抽取得到的实体替换为相应的预设字符以进行断句与改写处理；其中，所述语音处理模型通过以下步骤训练得到：获取训练语音请求并进行实体抽取；根据特定实体建立所述预设知识库以确定所述映射关系；通过预设模型和所述映射关系将所述训练语音请求中抽取的特定实体替换为相应的预设字符以进行断句与改写训练；根据断句与改写训练结果计算所述预设模型的损失值；根据所述预设模型的损失值调节所述预设模型的参数，以得到所述语音处理模型。

如此，本发明通过语音处理模型可以直接输出断句与改写的结果，保证断句后的子句具有完整的语义。

所述通过预设模型和所述映射关系将所述训练语音请求中的特定实体替换为相应的预设字符以进行断句与改写训练，包括：根据所述映射关系将所述训练语音请求中抽取的特定实体替换为相应的预设字符以处理得到训练预处理分词；根据所述训练预处理分词生成训练嵌入特征向量；根据所述训练嵌入特征向量计算训练注意力特征得到训练特征矩阵；将所述训练特征矩阵转换为训练二维映射图；解码所述训练二维映射图得到所述断句与改写训练结果。

如此，本发明的语音交互方法可以基于知识注入对预设模型进行断句与改写训练得到断句与改写训练结果，从而训练得到语音处理模型。

所述根据断句与改写训练结果计算所述预设模型的损失值，包括：根据所述训练二维映射图计算第一损失值；根据所述断句与改写训练结果确定断句与改写训练置信度以计算第二损失值；对所述训练语音请求进行关键词检测以计算第三损失值；基于对比学习使用预设损失函数计算第四损失值；根据所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值进行加权计算得到所述预设模型的损失值。

如此，根据第一损失值、第二损失值、第三损失值和第四损失值进行加权计算得到预设模型的损失值，将加权计算得到的预设模型的损失值应用于预设模型训练，可以提高最终训练得到的语音处理模型效果。

所述对所述训练语音请求进行关键词检测以计算第三损失值，包括：在所述训练语音请求句首和句尾分别添加断句字符和结束字符，并进行词法扫描处理得到待检测分词；在所述待检测分词中的字符属于可操作字符的情况下，生成第一标记；在所述待检测分词中的字符不属于可操作字符的情况下，生成第二标记；根据所述第一标记和所述第二标记生成检测标记结果；根据所述检测标记结果计算所述第三损失值。

如此，可以准确地计算得到第三损失值，从而提高最终训练得到的语音处理模型效果。

所述语音交互方法包括：根据所述断句与改写处理结果确定断句置信度以确定是否要断句的预测权重。

如此，本发明可以通过确定是否要断句的预测权重，辅助用户判断是否要断句，保证语音处理模型的召回率。

本发明提供一种服务器，所述服务器包括处理器和存储器，所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现上述实施方式中任一项所述的语音交互方法。

如此，本发明的服务器应用的语音交互方法可以对语音请求进行断句与改写处理直接输出断句与改写处理结果，保证断句后的子句具有完整的语义。此外，本发明还进行了灵活的知识注入，可以避免特定领域词汇的错误改写及错误断句。

本发明还提供一种包含有计算机程序的非易失性计算机可读存储介质。当所述计算机程序被一个或多个处理器执行时，实现上述实施方式中任一项所述的语音交互方法。

如此，本发明的存储介质应用的语音交互方法可以对语音请求进行断句与改写处理直接输出断句与改写处理结果，保证断句后的子句具有完整的语义。此外，本发明还进行了灵活的知识注入，可以避免特定领域词汇的错误改写及错误断句。

本发明实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点可以从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本发明的语音交互方法的流程示意图之一；

图2是本发明的语音交互方法中特定实体类型与预设字符的映射关系示意图；

图3是本发明的语音交互方法的流程示意图之二；

图4是本发明的语音交互方法中的二维映射图的示意图之一；

图5是本发明的语音交互方法中的二维映射图的示意图之二；

图6是本发明的语音交互方法的流程示意图之三；

图7是本发明的语音交互方法的流程示意图之四；

图8是本发明的语音交互方法的流程示意图之五；

图9是本发明的语音交互方法中的特征矩阵的示意图；

图10是本发明的语音交互方法的流程示意图之六；

图11是本发明的语音交互方法的流程示意图之七；

图12是本发明的语音交互方法通过语音处理模型进行断句改写处理过程的结构示意图；

图13是本发明的语音交互方法的流程示意图之八；

图14是本发明的语音交互方法的流程示意图之九；

图15是本发明的语音交互方法的流程示意图之十；

图16是本发明的语音交互方法的流程示意图之十一。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中，相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明的实施方式，而不能理解为对本发明的实施方式的限制。

请参阅图1，本发明提供了一种语音交互方法。语音交互方法包括：

01：接收车辆转发的用户语音请求以进行实体抽取；

03：从预设知识库中获取预先建立的特定实体类型和预设字符的映射关系；

05：根据映射关系，将语音请求中抽取得到的实体替换为相应的预设字符以进行断句与改写处理；

07：根据断句与改写处理结果生成目标语音请求；

09：根据目标语音请求生成控制指令下发至车辆完成语音交互。

本发明还提供一种服务器。服务器用于接收车辆转发的用户语音请求以进行实体抽取；从预设知识库中获取预先建立的特定实体类型和预设字符的映射关系；根据映射关系，将语音请求中抽取得到的实体替换为相应的预设字符以进行断句与改写处理；根据断句与改写处理结果生成目标语音请求；根据目标语音请求生成控制指令下发至车辆完成语音交互。

具体地，首先，接收车辆转发的用户语音请求以进行实体抽取，例如车辆转发的用语音请求为“播放周杰伦然后开开车窗空调都开开”的复合连续指令。其中，用户语音请求是需要车辆先获取用户语音数据，用户语音数据即为用户直接输入的音频流，然后对用户语音数据利用自动语音识别（Automatic Speech Recognition ，ASR）技术进行实时语音识别得到的语音请求。可以理解地，自动语音识别（Automatic Speech Recognition，ASR）技术目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。也即是说，上述的用户语音请求“播放周杰伦然后开开车窗空调都开开”是经过自动语音识别技术进行语音识别后的语音文本。然后，对该用户语音请求“播放周杰伦然后开开车窗空调都开开”进行实体抽取，抽取可以得到用户语音请求中的实体“周杰伦”。

然后，从预设知识库中获取预先建立的特定实体类型和预设字符的映射关系。根据映射关系，将语音请求中抽取得到的实体替换为相应的预设字符以进行断句与改写处理。

其中，特定实体类型和预设字符的映射关系可以为用户自定义设置的映射关系。例如Bert中的[unused n]预设字符，n代表1-100的下标，对应Bert中未参与训练的预设字符。其中，用户可以自定义预设字符对应的特定实体类型，例如，如图2所示，n=1对应歌手名类型，n=2对应歌曲名类型，n=3对应地名类型等。因此，可以将语音请求中抽取得到的实体“周杰伦”的类型为歌手名映射到预设字符“[unused 1]”以进行断句与改写处理。如此，可以保证每一类知识可以随意纵向拓展。

详细地，本发明在知识注入层进行知识注入的整体过程为：

首先，先进行知识抽取：可以使用分词工具，抽取语音请求中的实体。例如，可以从语音请求“播放周杰伦然后开开车窗空调都开开”中抽取得到实体“周杰伦”。

然后，进行知识映射过程，例如，根据从预设知识库中获取预先建立的特定实体类型和预设字符的映射关系如图2所示，可以将实体“周杰伦”映射到预设字符“[unused 1]”。

接着，进行知识嵌入过程：可以将语音请求中抽取得到的实体替换为相应的预设字符，将替换修改后的原语音请求输入至语音处理模型。例如，将歌手名类型的实体“周杰伦”映射到预设字符“[unused 1]”后，将预设字符“[unused 1]”替换“周杰伦”后，原语音请求“播放周杰伦然后开开车窗空调都开开”则修改为新的语音请求“播放[unused 1]然后开开车窗空调都开开”，从而进行断句与改写处理。

之后，还需要进行知识解码：根据预设实体的原词位置及[unused]字符下标，将预设字符映射回原预设实体，即，将“[unused 1]”映射回“周杰伦”。

需要说明的是，与现存的在预训练阶段引入知识不同，本发明的语音交互方法中知识注入仅作用在微调（finetune）阶段。

最后，再根据断句与改写处理结果生成目标语音请求，根据目标语音请求生成控制指令下发至车辆完成语音交互。

如此，本发明的语音交互方法可以对语音请求进行断句与改写处理直接输出断句与改写处理结果，保证断句后的子句具有完整的语义。另外，本发明还进行了灵活的知识注入，可以避免特定领域词汇的错误改写及错误断句。

请参阅图3，步骤03包括：

031：根据映射关系，将语音请求中抽取得到的实体替换为相应的预设字符以处理得到预处理分词；

032：根据预处理分词生成嵌入特征向量；

033：根据嵌入特征向量计算注意力特征得到特征矩阵；

034：将特征矩阵转换为二维映射图；

035：解码二维映射图得到断句与改写处理结果。

处理器用于：根据映射关系，将语音请求中抽取得到的实体替换为相应的预设字符以处理得到预处理分词；根据预处理分词生成嵌入特征向量；根据嵌入特征向量计算注意力特征得到特征矩阵；将特征矩阵转换为二维映射图；解码二维映射图得到断句与改写处理结果。

具体地，首先，根据映射关系，将语音请求中抽取得到的实体替换为相应的预设字符以处理得到预处理分词。例如，语音请求为“播放周杰伦然后车窗空调都开开”，将抽取得到的实体“周杰伦”替换为相应的预设字符“[unused 1]”，对应处理得到的预处理分词为“#播放[unused 1]然后车窗空调都开开[END]”。又例如，原语音请求为“打开车窗和空调”，对应处理得到的预处理分词为“#打开车窗和空调[END]”。

然后，根据预处理分词生成嵌入特征向量，再根据嵌入特征向量计算注意力特征得到特征矩阵，将特征矩阵转换为二维映射图，解码二维映射图得到断句与改写处理结果。其中，二维映射图可以如图4或图5所示。在图5中，预处理分词为“#播放[unused 1]然后车窗空调都开开[END]”，其中，预设字符[unused 1]”可以简化为“U”在二维映射图中显示。

可以理解地，大小n×n的二维映射图，其中，n为≥1的自然数，分别由0，1，2三种字符构成，其中0代表无操作，1代表插入，2代表替换。

因此，可以通过语音处理模型中的解码层解码图4所示的二维码映射图，得到的断句与改写处理结果为：“播放U#打开车窗打开空调E”。可以通过语音处理模型中的解码层解码图5所示的二维码映射图，得到的断句与改写处理结果为“打开车窗#打开空调”。

如此，本发明可以先对语音请求进行处理得到预处理分词，根据预处理分词生成嵌入特征向量，然后根据嵌入特征向量得到特征矩阵，之后将特征矩阵转换为二维映射图，通过解码层解码二维映射图，得到断句与改写处理结果。

请参阅图6，步骤031包括：

0311：对语音请求进行实体抽取；

0312：在语音请求中抽取得到的实体与预设知识库中的特定实体相匹配的情况下，根据匹配的特定实体的类型和映射关系，将语音请求中抽取得到的实体替换为对应的预设字符；

0313：在替换后的语音请求句首和句尾分别添加断句字符和结束字符，并进行词法扫描处理得到预处理分词。

处理器用于：对语音请求进行实体抽取；在语音请求中抽取得到的实体与预设知识库中的特定实体相匹配的情况下，根据匹配的特定实体的类型和映射关系，将语音请求中抽取得到的实体替换为对应的预设字符；在替换后的语音请求句首和句尾分别添加断句字符和结束字符，并进行词法扫描处理得到预处理分词。

具体地，基于知识注入根据映射关系，将语音请求中抽取得到的实体替换为相应的预设字符以处理得到预处理分词的处理过程为：

首先，对语音请求进行实体抽取，例如可以抽取歌手名类别的实体、地名类别的实体和歌曲名类别的实体。例如，对于语音请求“播放周杰伦然后车窗空调都打开”，可以抽取出歌手名类别的实体“周杰伦”。

然后，在语音请求中抽取得到的实体与预设知识库中的特定实体相匹配的情况下，根据匹配的特定实体的类型和映射关系，将语音请求中抽取得到的实体替换为对应的预设字符。例如，从语音请求“播放周杰伦然后车窗空调都打开”中抽取得到的实体为“周杰伦”，然后从预设知识库中查找是否有与该实体相匹配的特定实体，在预设知识库中查找到特定实体“周杰伦”，与抽取得到的实体“周杰伦”相匹配的情况下，由于特定实体“周杰伦”的类型为歌手名类型，则根据歌手名类型与预设字符“[unused 1]”的映射关系，将语音请求中抽取得到的实体“周杰伦”替换为对应的预设字符“[unused 1]”，即对语音请求“播放周杰伦然后车窗空调都打开”进行知识替换，得到替换后的语音请求为“播放[unused 1]然后车窗空调都打开”。

最后，在替换后的语音请求句首和句尾分别添加断句字符和结束字符，并进行词法扫描处理得到预处理分词。例如在替换后的语音请求的首部添加断句字符“#”，在替换后的语音请求的尾部添加结束字符“[END]”，并进行词法扫描处理（tokenize）得到预处理分词。例如，原语音请求为“播放周杰伦然后车窗空调都打开”，替换后的语音请求为“播放[unused 1]然后车窗空调都打开”，对应处理得到的预处理分词为“#播放[unused 1]然后车窗空调都打开[END]”。

请参阅图7，步骤032包括：

0321：截取预处理分词中结束字符之前的字符，以生成替换句及相应的第一嵌入特征向量；

0322：截取预处理分词中断句字符之后的字符，以生成被替换句及相应的第二嵌入特征向量。

处理器用于截取预处理分词中结束字符之前的字符，以生成替换句及相应的第一嵌入特征向量；截取预处理分词中断句字符之后的字符，以生成被替换句及相应的第二嵌入特征向量。

具体地，请再次参阅图4，图4中原语音请求为“播放周杰伦打开车窗空调”，预处理分词可以为“#播放U打开车窗空调[END]”，其中，周杰伦已进行知识注入，替换为U，相对应地，截取预处理分词中结束字符之前的字符，生成该语音请求的预处理分词中的替换句为：#播放U打开车窗空调，截取预处理分词中断句字符之后的字符，生成该语音请求的预处理分词中的被替换句为：播放U打开车窗空调[END]。

请参阅图5，图5中原语音请求为“打开车窗和空调”，预处理分词可以为“#打开车窗和空调[END]”，替换句为：#打开车窗和空调，被替换句为：打开车窗和空调[END]。

其中，断句字符为“#”，结束字符为“[END]”，断句字符和结束字符也可以为其他字符表示，在此不作限制。

可以将处理后长度为n的预处理分词输入语音处理模型中的embedding层后，截取0到n-1，构成替换句embedding向量，即生成第一嵌入特征向量。截取1到n，构成被替换句embedding向量，即生成第二嵌入特征向量。例如，上述预处理分词“#播放U打开车窗空调[END]”的替换句为：#播放U打开车窗空调，被替换句为：播放U打开车窗空调[END]。因此，替换句和被替换句可以经过嵌入层（embedding）可以输出第一嵌入特征向量（替换句向量）和第二嵌入特征向量（被替换句向量）。

请参阅图8，步骤033包括：

0331：对第一嵌入特征向量和第二嵌入特征向量采用多个预设算法分别计算得到多个注意力特征；

0332：将多个注意力特征拼接生成特征矩阵。

处理器用于对第一嵌入特征向量和第二嵌入特征向量采用多个预设算法分别计算得到多个注意力特征；将多个注意力特征拼接生成特征矩阵。

具体地，对第一嵌入特征向量和第二嵌入特征向量采用多个预设算法分别计算得到多个注意力特征，预设算法指的是注意力（attention）计算方法，也即是，可以使用多个不同的注意力（attention）计算方法，例如，可以使用线性注意力（linear attention）、网点生产（dot production）等计算方法，计算第一嵌入特征向量（替换句向量）及第二嵌入特征向量（被替换句向量），输出多个注意力特征，并直接将多个注意力特征拼接生成特征矩阵，特征矩阵可以为如图9所示。

详细地，例如，在attention层输入两个I×768的嵌入特征向量，也可以称为两个I×768矩阵，其中，I为embedding长度，经过attention层后可以输出为I×I的特征矩阵。

步骤034包括：

0341：将替换句与特征矩阵的纵轴对应关联，且将被替换句与特征矩阵的横轴对应关联，得到二维映射图。

处理器用于将替换句与特征矩阵的纵轴对应关联，且将被替换句与特征矩阵的横轴对应关联，得到二维映射图。

具体地，例如，当用户输入的语音请求为“打开车窗和空调”时，由前文所述的方法得到预处理分词为“#打开车窗和空调[END]”，则替换句为“#打开车窗和空调”，被替代句为“打开车窗和空调[END]”。将替换句与特征矩阵的纵轴对应关联，且将被替换句与特征矩阵的横轴对应关联，得到二维映射图可以如图5所示。

又例如，当用户输入的语音请求为“播放周杰伦打开车窗空调”时，由前文所述的方法得到预处理分词为“#播放U打开车窗空调[END]”，则替换句为“#播放U打开车窗空调”，被替代句为“播放U打开车窗空调[END]”。将替换句与特征矩阵的纵轴对应关联，且将被替换句与特征矩阵的横轴对应关联，得到二维映射图可以如图6所示。

请参阅图10，步骤035包括：

0351：遍历二维映射图，根据二维映射图中的第一操作字符，将横轴对应被替换句的字符替换为纵轴对应替换句的字符；

0352：遍历二维映射图完成后，根据替换后的横轴对应被替换句的字符生成断句与改写处理结果。

处理器用于遍历二维映射图，根据二维映射图中的第一操作字符，将横轴对应被替换句的字符替换为纵轴对应替换句的字符；遍历二维映射图完成后，根据替换后的横轴对应被替换句的字符生成断句与改写处理结果。

可以理解地，大小n×n的二维映射图，其中，n为≥1的自然数，分别由“0”，“1”，“2”三种字符构成，其中“0”代表无操作，“1”代表插入，“2”代表替换。

第一操作字符为“2”代表替换。

遍历指的是对二维映射图中的每个字符进行从左到右及从上到下依次扫描读取。

遍历二维映射图，根据二维映射图中的第一操作字符，将横轴对应被替换句的字符替换为纵轴对应替换句的字符，也即是，解码层的解码过程为：遇到第一操作字符“2”，将横轴对应被替换句的字符替换纵轴对应替换句的字符，遇到字符“0”，无操作。

步骤0352包括：

03521：在处理后的横轴对应被替换句的字符中，将预设字符替换为语音请求中抽取得到的实体得到断句与改写处理结果。

处理器用于在处理后的横轴对应被替换句的字符中，将预设字符替换为语音请求中抽取得到的实体得到断句与改写处理结果。

可以理解地，在处理后的横轴对应被替换句的字符中，由于在之前知识嵌入过程中，语音请求中抽取得到的实体替换成了预设字符，例如，语音请求中抽取得到的实体“稻香”替换成了预设字符“[unused 2]”，则在解码二维映射图得到最终的断句与改写处理结果时，还需要将预设字符“[unused 2]”映射回“稻香”，从而得到最终的断句与改写处理结果。

例如，由图4中所示的处理后的横轴对应待替换的字符为预设字符“U”，则可以将预设字符“U”替换为语音请求中的预设实体“周杰伦”。

请参阅图11，步骤035还包括：

0353：遍历二维映射图，根据二维映射图中的第二操作字符，在横轴对应被替换句的字符前增加纵轴对应替换句的字符以改写横轴对应被替换句的字符；

0354：遍历二维映射图完成后，根据改写后的横轴对应被替换句的字符生成改写结果。

处理器用于遍历二维映射图，根据二维映射图中的第二操作字符，在横轴对应被替换句的字符前增加纵轴对应替换句的字符以改写横轴对应被替换句的字符；遍历二维映射图完成后，根据改写后的横轴对应被替换句的字符生成改写结果。

第二操作字符为“1”代表插入。

遍历二维映射图，根据二维映射图中的第二操作字符，在横轴对应被替换句的字符前增加纵轴对应替换句的字符以改写横轴对应被替换句的字符，也即是，解码层的解码过程为：遇到第二操作字符“1”，则将横轴对应被替换句的字符前增加纵轴对应替换句的字符以改写横轴对应被替换句的字符，遇到字符“0”，无操作。

例如，在遍历二维映射图完成后，最终解码图4所示的二维码映射图得到的断句与改写处理结果为：“播放U#打开车窗打开空调”。解码图5所示的二维码映射图得到的断句与改写处理结果为“打开车窗#打开空调”。其中“#”表示断句。

步骤05包括：

051：利用语音处理模型和映射关系，将语音请求中抽取得到的实体替换为相应的预设字符以进行断句与改写处理。

处理器用于利用语音处理模型和映射关系，将语音请求中抽取得到的实体替换为相应的预设字符以进行断句与改写处理。

也即是，本发明可以通过预先训练好的语音处理模型对语音请求进行断句与改写处理。请结合图12，图12为本发明的语音处理模型的断句与改写处理过程的结构示意图，本发明通过语音处理模型对语音请求进行断句与改写处理具体包括以下步骤：

通过语音处理模型中的知识注入层基于知识注入根据映射关系，将语音请求中抽取得到的实体替换为相应的预设字符以处理得到预处理分词。例如，语音请求为“播放周杰伦然后车窗空调都开开”，将抽取得到的实体“周杰伦”替换为相应的预设字符“[unused1]”，对应处理得到的预处理分词为“#播放[unused 1]然后车窗空调都开开[END]”，其中，预设字符[unused 1]”可以简化为“U”在二维映射图中显示。又例如，原语音请求为“打开车窗和空调”，对应处理得到的预处理分词为“#打开车窗和空调[END]”。

然后，通过语音处理模型中的嵌入层（embedding）根据预处理分词生成嵌入特征向量。可以理解地，嵌入层可以将正整数（下标）转换为具有固定大小的向量。也即是，可以将预处理分词输入语音处理模型中的embedding层生成嵌入特征向量。

接着，通过语音处理模型中的注意力层（attention）根据嵌入特征向量计算注意力特征得到特征矩阵。

之后，通过语音处理模型中的语义分割层可以将特征矩阵转换为二维映射图。例如，将attention层构建的特征矩阵，转换为二维映射图（map），使二维映射图可以解码转换成断句与改写处理结果，即可以解码二维映射图得到断句与改写处理结果。二维映射图可以如图4或图5所示。

另外，本发明可以输出是否要断句和断句与改写处理的最终结果，保证模型推理阶段可调节。

请参阅图13，其中，语音处理模型通过以下步骤训练得到：

0511：获取训练语音请求并进行实体抽取；

0512：根据特定实体建立预设知识库以确定映射关系；

0513：通过预设模型和映射关系将训练语音请求中抽取的特定实体替换为相应的预设字符以进行断句与改写训练；

0514：根据断句与改写训练结果计算预设模型的损失值；

0515：根据预设模型的损失值调节预设模型的参数，以得到语音处理模型。

处理器用于获取训练语音请求并进行实体抽取；根据特定实体建立预设知识库以确定映射关系；通过预设模型和映射关系将训练语音请求中抽取的特定实体替换为相应的预设字符以进行断句与改写训练；根据断句与改写训练结果计算预设模型的损失值；根据预设模型的损失值调节预设模型的参数，以得到语音处理模型。

首先，获取训练语音请求并进行实体抽取。其中训练语音请求可以为用户随机输入的语音请求，例如训练语音请求可以为“播放稻香然后开开车窗空调”，对该训练语音请求进行实体抽取可以得到特定实体“稻香”；训练语音请求还可以为“播放周杰伦然后车窗空调都开开”，对该训练语音请求进行实体抽取可以得到特定实体“周杰伦”。

然后，根据特定实体建立预设知识库以确定映射关系。

可以理解地，例如，Bert中的[unused n]预设字符，n代表1-100的下标，对应Bert中未参与训练的预设字符。其中，用户可以自定义预设字符对应的预设实体类型，例如，如图2所示，n=1对应歌手名类型，n=2对应歌曲名类型，n=3对应地名类型等。

如图2所示，例如特定实体“稻香”，由于特定实体“稻香”的特定实体类型为歌曲名类型，则建立预设知识库，并将特定实体“稻香”映射到预设字符“[unused 2]。

可以理解地，根据特定实体建立预设知识库以确定映射关系，即分类别将特定实体类型进行映射到预设字符，进行了灵活的知识注入，可以避免特定领域词汇的错误改写及错误断句，且无需二次训练语音处理模型进行断句与改写处理。

其中，二次训练指的是对于同一类型的实体不需要再次进行训练，比如训练了歌手类别的预设实体“周杰伦”，则对于属于同样为歌手类别的预设实体“韩红”则可以不需要再次进行二次训练得到新的语音处理模型进行断句与改写处理。如此，在通过语音处理模型进行断句与改写处理时，拓展知识无需二次训练语音处理模型进行断句与改写处理。

然后，通过预设模型和映射关系将训练语音请求中抽取的特定实体替换为相应的预设字符以进行断句与改写训练。也即是，在预训练阶段引入知识。预设模型为训练语音处理模型之前的初始框架模型。

在预训练阶段进行知识注入进行断句与改写训练得到预设模型的整体过程为：首先，先进行知识抽取：可以使用分词工具，抽取训练语音请求中的特定实体。例如，可以从训练语音请求“播放稻香然后开开车窗空调”中抽取得到特定实体“稻香”。然后，进行知识映射过程，例如，可以将特定实体“稻香”映射到预设字符“[unused 2]”。接着，进行知识嵌入过程：可以将映射的预设字符，替换对应的特定实体，将替换修改后的原语音请求输入至语音处理模型。例如，将歌手名类别的特定实体“稻香”映射到预设字符“[unused 2]”后，将预设字符“[unused 2]”替换“稻香”后，原语音请求“播放稻香然后开开车窗空调”则修改为新的语音请求“播放[unused 2]然后开开车窗空调”，从而进行断句与改写训练。

接着，根据断句与改写训练结果计算预设模型的损失值。预设模型的损失值为根据预设模型进行断句与改写后得到的断句与改写训练结果与原训练语音请求进行比较后，得到的损失值。

最后，根据预设模型的损失值调节预设模型的参数，以得到语音处理模型。

如此，语音处理模型的精准率可根据损失值进行手动调节预设模型的参数，保证语音处理模型在推理阶段可调节，提高训练好的语音处理模型的断句与改写效果。

更具体地，请参阅图14，步骤0513包括：

05131：根据映射关系将训练语音请求中抽取的特定实体替换为相应的预设字符以处理得到训练预处理分词；

05132：根据训练预处理分词生成训练嵌入特征向量；

05133：根据训练嵌入特征向量计算训练注意力特征得到训练特征矩阵；

05134：将训练特征矩阵转换为训练二维映射图；

05135：解码训练二维映射图得到断句与改写训练结果。

处理器用于根据映射关系将训练语音请求中抽取的特定实体替换为相应的预设字符以处理得到训练预处理分词；根据训练预处理分词生成训练嵌入特征向量；根据训练嵌入特征向量计算训练注意力特征得到训练特征矩阵；将训练特征矩阵转换为训练二维映射图；解码训练二维映射图得到断句与改写训练结果。

请结合图12，训练预设模型的断句与改写处理过程与语音处理模型的断句与改写处理过程相同。

具体地，通过预设模型对语音请求进行断句与改写训练具体可以包括以下步骤：

首先，通过预设模型中的知识注入层基于知识注入将训练语音请求中的特定实体替换为相应的预设字符以处理得到训练预处理分词。例如，训练语音请求为“播放稻香然后车窗空调都打开”，将抽取得到的特定实体“稻香”替换为“[unused 2]”，对应处理得到的训练预处理分词为“#播放[unused 2]然后车窗空调都打开[END]”。训练语音请求为“打开车窗和空调”，对应处理得到的训练预处理分词为“#打开车窗和空调[END]”。

然后，通过预设模型中的嵌入层（embedding）根据训练预处理分词生成训练嵌入特征向量。可以理解地，嵌入层可以将正整数（下标）转换为具有固定大小的向量。也即是，将训练预处理分词输入预设模型中的embedding层生成训练嵌入特征向量。

接着，通过预设模型中的注意力层（attention）根据训练嵌入特征向量计算注意力特征得到训练特征矩阵。

之后，通过预设模型中的语义分割层可以将训练特征矩阵转换为训练二维映射图。例如，将attention层构建的特征矩阵，转换为训练二维映射图（map），使训练二维映射图可以解码转换成断句与改写训练结果，即可以解码训练二维映射图得到断句与改写处理结果。训练二维映射图可以与前文所述的图4或图5所示的二维映射图类似。

可以理解地，大小n×n的训练二维映射图，其中，n为≥1的自然数，分别由0，1，2三种字符构成，其中0代表无操作，1代表插入，2代表替换。

因此，可以通过预设模型中的解码层解码如图4所示的训练二维码映射图，得到的断句与改写处理结果为：“播放U#打开车窗打开空调E”。可以通过预设模型中的解码层解码图5所示的训练二维码映射图，得到的断句与改写训练结果为“打开车窗#打开空调”。

请参阅图15，步骤0514包括：

05141：根据训练二维映射图计算第一损失值；

05142：根据断句与改写训练结果确定断句与改写训练置信度以计算第二损失值；

05143：对训练语音请求进行关键词检测以计算第三损失值；

05144：基于对比学习使用预设损失函数计算第四损失值；

05145：根据第一损失值、第二损失值、第三损失值和第四损失值进行加权计算得到预设模型的损失值。

处理器用于根据训练二维映射图计算第一损失值；根据断句与改写训练结果确定断句与改写训练置信度以计算第二损失值；对训练语音请求进行关键词检测以计算第三损失值；基于对比学习使用预设损失函数计算第四损失值；根据第一损失值、第二损失值、第三损失值和第四损失值进行加权计算得到预设模型的损失值。

具体地，根据训练二维映射图计算第一损失值，也即是，可以在训练预设模型时的语义分割层中的语义分割任务计算第一损失值。具体使用语义分割层输出的训练二维映射图（map），以及标记映射图（label map）计算第一损失值。

根据断句与改写训练结果确定断句训练置信度以计算第二损失值，也即是，可以在训练预设模型时进行语义分类任务确定第二损失值。

对训练语音请求进行关键词检测以计算第三损失值。具体的关键词检测的过程为：将断句字符及结束字符分别拼接在当前句首尾，拼接后的训练语音请求中有属于可操作字符标记为1，其他标0，例：关键词输入：#播放周杰伦然后车窗空调都开开[END]，关键词输出：1001110000000110。其中，向预设模型中输入的训练语音请求，得到对应的训练预处理分词“#播放周杰伦然后车窗空调都开开[END]”中有操作的词为断句字符“#”、“周杰伦”和“开开”。由此可以计算训练语音请求的第三损失值。

基于对比学习使用预设损失函数计算第四损失值，即可以根据对比学习任务确定的第四损失值。

可以理解地，原训练语音请求经过断句与改写处理后得到断句与改写训练结果，并根据断句与改写训练结果得到的训练后的语音请求应与原训练语音请求具有相同的语义，因此需要将训练后的语音请求与原训练语音请求进行对比学习，对比两者的语义是否相同。

详细地，对比学习的过程为：首先，将原训练语音请求随机删除词或字组成负例。然后，拉近原上下文与改写句，作为正例对。接着，推远随机删除字或词的训练后的语音请求与原训练语音请求。最后，推远原训练语音请求与数据集中其他随机删除字或词的训练后的语音请求。

其中，对比学习可用的预设损失函数（loss函数）的公式可以为triplet loss公式，也可以用其他公式，在此不作限制。

在得到第一损失值、第二损失值、第三损失值和第四损失值后，可以根据第一损失值、第二损失值、第三损失值和第四损失值进行加权计算得到预设模型的损失值。由于用户可以自行设定每个损失值的权重不同，因此，可以根据每个损失值的权重进行加权平均计算得到预设模型的损失值。

请参阅图16，步骤05143包括：

051431：在训练语音请求句首和句尾分别添加断句字符和结束字符，并进行词法扫描处理得到待检测分词；

051432：在待检测分词中的字符属于可操作字符的情况下，生成第一标记；

051433：在待检测分词中的字符不属于可操作字符的情况下，生成第二标记；

051434：根据第一标记和第二标记生成检测标记结果；

051435：根据检测标记结果计算第三损失值。

处理器用于在训练语音请求句首和句尾分别添加断句字符和结束字符，并进行词法扫描处理得到待检测分词；在待检测分词中的字符属于可操作字符的情况下，生成第一标记；在待检测分词中的字符不属于可操作字符的情况下，生成第二标记；根据第一标记和第二标记生成检测标记结果；根据检测标记结果计算第三损失值。

在训练语音请求句首和句尾分别添加断句字符和结束字符，例如首部添加断句字符“#”，尾部添加结束字符“[END]”，并进行词法扫描处理得到待检测分词。例如，原语音请求为“播放周杰伦然后车窗空调都打开”，对应处理得到的待检测分词为“#播放U然后车窗空调都打开[END]”。

然后，在待检测分词中的字符属于可操作字符的情况下，生成第一标记；在待检测分词中的字符不属于可操作字符的情况下，生成第二标记；根据第一标记和第二标记生成检测标记结果，根据检测标记结果计算第三损失值。其中，第一标记可以为1，第二标记为0。

例如：输入待检测分词：#播放周杰伦然后车窗空调都开开[END]，输出的检测标记结果：1001110000000110。也即是，待检测分词中的“#”字符、“周杰伦”字符和“开开”字符均属于可操作字符，其他字符则不属于可操作字符。由此可以根据检测标记结果计算第三损失值。

语音交互方法包括：

091：根据断句与改写处理结果确定断句置信度以确定是否要断句的预测权重。

处理器用于根据断句与改写处理结果确定断句置信度以确定是否要断句的预测权重。

具体地，断句置信度为对用户输入的语音请求进行断句与改写处理后的断句与改写处理结果的准确度进行衡量的数值，断句置信度的数值可以为0~100%。例如，根据上述语音请求“打开车窗和空调”进行断句与改写处理得到的断句与改写处理结果“打开车窗#打开空调”，可以判断该断句置信度为100%，置信度100%高于预定阈值80%，则确定预测权重为需要进行断句。

若根据上述语音请求“打开车窗”进行断句与改写处理得到的断句与改写处理结果“打开车窗”，可以判断该断句置信度为10%，置信度10%低于预定阈值80%，则确定预测权重为不需要进行断句。

另外，语音处理模型的精准率可根据预测权重进行手动调节，保证语音处理模型在推理阶段可调节。

本发明还提供一种包含有计算机程序的非易失性计算机可读存储介质。当计算机程序被一个或多个处理器执行时，实现上述任意实施例所述的语音交互方法。

例如，计算机程序被处理器执行时实现以下语音交互方法的步骤：

01：接收车辆转发的用户语音请求以进行实体抽取；

07：根据断句与改写处理结果生成目标语音请求；

可以理解，计算机程序包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory)、随机存取存储器（RAM，Random Access Memory)、以及软件分发介质等。

本发明的计算机可读存储介质可以对语音请求进行断句与改写处理直接输出断句与改写处理结果，保证断句后的子句具有完整的语义。此外，本发明还进行了灵活的知识注入，可以避免特定领域词汇的错误改写及错误断句。

Claims

1.一种语音交互方法，其特征在于，包括：

接收车辆转发的用户语音请求以进行实体抽取；

从预设知识库中获取预先建立的特定实体类型和预设字符的映射关系；

根据所述映射关系，将所述语音请求中抽取得到的实体替换为相应的预设字符以进行断句与改写处理；其中，所述根据所述映射关系，将所述语音请求中抽取得到的实体替换为相应的预设字符以进行断句与改写处理，包括：

根据所述映射关系，将所述语音请求中抽取得到的实体替换为相应的预设字符以处理得到预处理分词；

截取所述预处理分词中的结束字符之前的字符，以生成替换句及相应的第一嵌入特征向量；

截取所述预处理分词中的断句字符之后的字符，以生成被替换句及相应的第二嵌入特征向量；

根据所述嵌入特征向量计算注意力特征得到特征矩阵；将所述特征矩阵转换为二维映射图；解码所述二维映射图得到所述断句与改写处理结果；

根据所述断句与改写处理结果生成目标语音请求；

根据所述目标语音请求生成控制指令下发至车辆完成语音交互。

2.根据权利要求1所述的语音交互方法，其特征在于，所述根据所述映射关系，将所述语音请求中抽取得到的实体替换为相应的预设字符以处理得到预处理分词，包括：

对所述语音请求进行实体抽取；

在所述语音请求中抽取得到的实体与所述预设知识库中的特定实体相匹配的情况下，根据匹配的特定实体的类型和所述映射关系，将所述语音请求中抽取得到的实体替换为对应的所述预设字符；

在替换后的所述语音请求句首和句尾分别添加所述断句字符和所述结束字符，并进行词法扫描处理得到所述预处理分词。

3.根据权利要求2所述的语音交互方法，其特征在于，所述根据所述嵌入特征向量计算注意力特征得到特征矩阵，包括：

对所述第一嵌入特征向量和第二嵌入特征向量采用多个预设算法分别计算得到多个注意力特征；

将多个所述注意力特征拼接生成所述特征矩阵。

4.根据权利要求2所述的语音交互方法，其特征在于，所述将所述特征矩阵转换为二维映射图，包括：

将所述替换句与所述特征矩阵的纵轴对应关联，且将所述被替换句与所述特征矩阵的横轴对应关联，得到所述二维映射图。

5.根据权利要求4所述的语音交互方法，其特征在于，所述解码所述二维映射图得到所述断句与改写处理结果，包括：

遍历所述二维映射图，根据所述二维映射图中的第一操作字符，将横轴对应所述被替换句的字符替换为纵轴对应所述替换句的字符；

遍历所述二维映射图完成后，根据替换后的横轴对应所述被替换句的字符生成所述断句与改写处理结果。

6.根据权利要求5所述的语音交互方法，其特征在于，所述遍历所述二维映射图完成后，根据替换后的横轴对应所述被替换句的字符生成所述断句与改写处理结果，包括：

在处理后的横轴对应所述被替换句的字符中，将所述预设字符替换为所述语音请求中抽取得到的实体得到所述断句与改写处理结果。

7.根据权利要求4所述的语音交互方法，其特征在于，所述解码所述二维映射图得到所述断句与改写处理结果，包括：

遍历所述二维映射图，根据所述二维映射图中的第二操作字符，在横轴对应所述被替换句的字符前增加纵轴对应所述替换句的字符以改写所述横轴对应所述被替换句的字符；

遍历所述二维映射图完成后，根据改写后的横轴对应所述被替换句的字符生成所述断句与改写处理结果。

8.根据权利要求1所述的语音交互方法，其特征在于，所述根据所述映射关系，将所述语音请求中抽取得到的实体替换为相应的预设字符以进行断句与改写处理，包括：

利用语音处理模型和所述映射关系，将所述语音请求中抽取得到的实体替换为相应的预设字符以进行断句与改写处理；

其中，所述语音处理模型通过以下步骤训练得到：

获取训练语音请求并进行实体抽取；

根据特定实体建立所述预设知识库以确定所述映射关系；

通过预设模型和所述映射关系将所述训练语音请求中抽取的特定实体替换为相应的预设字符以进行断句与改写训练；

根据断句与改写训练结果计算所述预设模型的损失值；

根据所述预设模型的损失值调节所述预设模型的参数，以得到所述语音处理模型。

9.根据权利要求8所述的语音交互方法，其特征在于，所述通过预设模型和所述映射关系将所述训练语音请求中的特定实体替换为相应的预设字符以进行断句与改写训练，包括：

根据所述映射关系将所述训练语音请求中抽取的特定实体替换为相应的预设字符以处理得到训练预处理分词；

根据所述训练预处理分词生成训练嵌入特征向量；所述根据所述训练预处理分词生成训练嵌入特征向量，包括：截取所述训练预处理分词中的结束字符之前的字符，以生成替换句及相应的第一训练嵌入特征向量；截取所述训练预处理分词中的断句字符之后的字符，以生成被替换句及相应的第二训练嵌入特征向量；

根据所述训练嵌入特征向量计算训练注意力特征得到训练特征矩阵；

将所述训练特征矩阵转换为训练二维映射图；

解码所述训练二维映射图得到所述断句与改写训练结果。

10.根据权利要求9所述的语音交互方法，其特征在于，所述根据断句与改写训练结果计算所述预设模型的损失值，包括：

根据所述训练二维映射图计算第一损失值；

根据所述断句与改写训练结果确定断句与改写训练置信度以计算第二损失值；

对所述训练语音请求进行关键词检测以计算第三损失值；

基于对比学习使用预设损失函数计算第四损失值；

根据所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值进行加权计算得到所述预设模型的损失值。

11.根据权利要求10所述的语音交互方法，其特征在于，所述对所述训练语音请求进行关键词检测以计算第三损失值，包括：

在所述训练语音请求句首和句尾分别添加所述断句字符和所述结束字符，并进行词法扫描处理得到待检测分词；

在所述待检测分词中的字符属于可操作字符的情况下，生成第一标记；

在所述待检测分词中的字符不属于可操作字符的情况下，生成第二标记；

根据所述第一标记和所述第二标记生成检测标记结果；

根据所述检测标记结果计算所述第三损失值。

12.根据权利要求1所述的语音交互方法，其特征在于，所述语音交互方法包括：

根据所述断句与改写处理结果确定断句置信度以确定是否要断句的预测权重。

13.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现权利要求1-12任一项所述的语音交互方法。

14.一种包含有计算机程序的非易失性计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，实现权利要求1-12任一项所述的语音交互方法。