CN116246616A

CN116246616A - 语音交互方法、语音交互装置、服务器以及可读存储介质

Info

Publication number: CN116246616A
Application number: CN202211091725.7A
Authority: CN
Inventors: 罗伟昂; 孙仿逊; 陈光毅; 黄子航; 左佑; 李万水
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2022-09-07
Filing date: 2022-09-07
Publication date: 2023-06-09

Abstract

本发明公开了一种语音交互方法、语音交互装置、服务器以及存储介质，所述语音交互方法包括：对接收的车辆座舱的本轮用户语音请求进行语音识别，得到本轮识别文本；在确定所述本轮识别文本可信，且确定所述本轮识别文本不包括称呼语，且确定所述本轮识别文本与白名单中的预设文本匹配，且确定所述本轮识别文本为有效指令的情况下，向车辆下发唤醒指令，以便由车辆根据所述唤醒指令唤醒语音助手和用户进行语音交互。由此，可实现对语音助手的准确唤醒，简化了唤醒的步骤和方式，提供一种更加自然、更便捷的语音交互方式。

Description

语音交互方法、语音交互装置、服务器以及可读存储介质

技术领域

本发明涉及语音交互技术领域，尤其是涉及一种语音交互方法、语音交互装置、服务器以及可读存储介质。

背景技术

目前车载语音助手通常需要唤醒后才能下达指令，使用不方便，免唤醒技术主要是为了解决该问题，让用户无需唤醒可直接下达指令让语音助手执行，从而提升用户体验。在免唤醒中，需要判断一段语音是否是对车载助手下达指令。在实际中，用户车内聊天可能说到有效指令，但并非对车载助手下达指令，容易造成误唤醒，此外ASR(自动语音识别技术，Automatic Speech Recognition)模块可能将一些语音误识别为有效指令，这也会造成误唤醒，误唤醒会给用户带来不好的用户体验，存在改进的空间。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明的一个目的在于提出一种语音交互方法，可对车辆座舱内的语音请求进行识别，以避免出现误唤醒的情况，提升用户体验。

根据本发明的语音交互方法，包括：对接收的车辆座舱的本轮用户语音请求进行语音识别，得到本轮识别文本；在确定所述本轮识别文本可信，且确定所述本轮识别文本不包括称呼语，且确定所述本轮识别文本与白名单中的预设文本匹配，且确定所述本轮识别文本为有效指令的情况下，向车辆下发唤醒指令，以便由车辆根据所述唤醒指令唤醒语音助手和用户进行语音交互。

由此，在得到本轮识别文本之后，对本轮识别文本的可信度进行判定，且在判定可信之后，进一步地判断本轮识别文本是否包括称呼语，且在不包括称呼语之后，将本轮识别文本与白名单中的预设文本进行匹配，且本轮识别文本中的内容与白名单中的预设文本有效对应之后，可唤醒语音助手且控制车辆执行识别文本中对应的功能。由此，将识别文本与预设文本对应匹配之后，即可实现对语音助手的唤醒，简化了唤醒的步骤和方式，提供一种更加自然、更便捷的语音交互方式。

所述白名单中的预设文本通过如下方式确定：获取目标时间段内的多条历史识别文本；从所述多条历史识别文本中筛选长度大于目标长度，且频次大于目标频次或频次排名位于目标排位之前的历史识别文本，作为候选文本；将符合目标句式的候选文本作为所述预设文本。由此，在白名单的构建中不需花费大量的时间思考预设文本的输入，同时，不断地更新或缓存新的识别文本，利于保证预设文本的适用度，更符合用户的使用需求。

进一步地，所述将符合目标句式的候选文本作为所述预设文本，包括：在所述候选文本包括按顺序排布的控制动作词和具体控制对象的情况下，将所述候选文本作为所述预设文本；或者在所述候选文本包括按顺序排布的控制动作词、程度修饰词和具体控制对象的情况下，将所述候选文本作为所述预设文本。由此，可实现预设文本的确定，且灵活地结合多种预设情况，使得预设文本更符合用户的指令需求。

在所述得到本轮识别文本之后，所述方法还包括：在确定所述本轮识别文本可信，且确定所述本轮识别文本包括称呼语，且不为纯称呼语，以及确定所述本轮识别文本为有效指令的情况下，向车辆下发唤醒指令。由此，在确定本轮识别文本为有效指令的情况下，可实现语音助手的准确唤醒，进而利于语音助手执行相应的功能操作。

在所述得到本轮识别文本之后，所述方法还包括：在确定所述本轮识别文本可信，且确定所述本轮识别文本包括称呼语，且为纯称呼语的情况下，获取前一轮识别文本；其中，所述前一轮识别文本为前一轮用户语音请求对应的识别文本，所述前一轮识别文本不可信，或者所述前一轮识别文本可信，且不包括称呼语且与所述预设文本不匹配；在确定所述本轮识别文本与所述前一轮识别文本的时间间隔小于目标时长，且所述前一轮识别文本为有效指令的情况下，向车辆下发唤醒指令。由此，可进一步地确定识别文本为有效指令，进而在确定本轮识别文本为有效指令的情况下，可实现语音助手的准确唤醒，进而利于语音助手执行相应的功能操作。

确定所述唤醒词在所述本轮识别文本中是否作为称呼语，包括：在确定所述本轮识别文本包括唤醒词的情况下，确定所述本轮识别文本与多个预设规则的匹配结果；在所述本轮识别文本与所述多个预设规则中的目标规则匹配的情况下，根据匹配结果确定所述唤醒词在所述本轮识别文本中是否作为称呼语。由此，通过预设规则快速匹配识别文本对应的内容，提升语音助手的唤醒效率。

进一步地，所述确定所述唤醒词在所述本轮识别文本中是否作为称呼语，还包括：在所述本轮识别文本与所述多个预设规则中的任一预设规则均不匹配的情况下，根据所述唤醒词在所述本轮识别文本中的位置编码特征和词性编码特征，确定所述唤醒词在所述本轮识别文本中是否作为称呼语。由此，结合位置编码特征和词性编码特征可快速地准确识别文本是否为称呼语，提语音助手的唤醒效率。

进一步地，在所述根据所述唤醒词在所述本轮识别文本中的位置编码特征和词性编码特征，确定所述唤醒词在所述本轮识别文本中是否作为称呼语之后，所述方法还包括：在根据所述位置编码特征和所述词性编码特征确定所述唤醒词在所述本轮识别文本中不作为称呼语的情况下，确定所述本轮识别文本的混淆度；在所述混淆度大于目标混淆度的情况下，确定所述唤醒词在所述本轮识别文本中不作为称呼语；在所述混淆度不大于目标混淆度的情况下，确定所述本轮识别文本中的关键词权重；其中，所述关键词权重用于表征所述本轮识别文本的分词中的目标词的占比；在所述关键词权重大于目标权重的情况下，确定所述唤醒词在所述本轮识别文本中作为称呼语。由此，可对识别文本基于多层判断条件进行细致的分析，进而准确地判断识别文本为称呼语，保证语音助手及时、准确地唤醒。

所述确定所述本轮识别文本为有效指令，包括：确定所述本轮识别文本的意图在有效意图列表内，且所述本轮识别文本的长度大于目标长度，且确定所述本轮识别文本指向明确的操作对象和操作方式。

本发明还提出了一种语音交互装置，包括：识别模块，用于对接收的车辆座舱的本轮用户语音请求进行语音识别，得到本轮识别文本；发送模块，用于在确定所述本轮识别文本可信，且确定所述本轮识别文本不包括称呼语，且确定所述本轮识别文本与白名单中的预设文本匹配，且确定所述本轮识别文本为有效指令的情况下，向车辆下发唤醒指令，以便由车辆根据所述唤醒指令唤醒语音助手和用户进行语音交互。

本发明还提出了一种服务器，所述服务器包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现上述所述的方法。以满足语音助手的唤醒需求，保证对语音助手准确地唤醒。

本发明还提出了一种计算机程序的非易失性计算机可读存储介质，当所述计算机程序被一个或多个处理器执行时，实现上述所述的方法。以满足语音助手的唤醒需求，保证对语音助手准确地唤醒。

所述计算机程序的非易失性计算机可读存储介质、所述服务器、所述语音交互装置和上述的语音交互方法相对于现有技术所具有的优势相同，在此不再赘述。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对语音交互方法的描述中将变得明显和容易理解，其中：

图1是根据本发明的语音交互方法的主体框架图；

图2是根据本发明的语音交互方法的分类模型的示意图；

图3是根据本发明的语音交互方法的主要步骤示意图；

图4是根据本发明的语音交互方法的应用示意图；

图5是根据本发明的语音交互方法的流程示意图之一；

图6是根据本发明的语音交互方法的流程示意图之二；

图7是根据本发明的语音交互方法的流程示意图之三；

图8是根据本发明的语音交互方法的流程示意图之四；

图9是根据本发明的语音交互方法的流程示意图之五；

图10是根据本发明的语音交互方法的应用示意图；

图11是根据本发明的语音交互方法的流程示意图之一；

图12是根据本发明的语音交互方法的流程示意图之二；

图13是根据本发明的语音交互方法的流程示意图之三；

图14是根据本发明的语音交互方法的流程示意图之四；

图15是根据本发明的语音交互方法的流程示意图之五；

图16是根据本发明的语音交互方法的应用示意图；

图17是根据本发明的语音交互方法的流程示意图之一；

图18是根据本发明的语音交互方法的流程示意图之二；

图19是根据本发明的语音交互方法的流程示意图之三；

图20是根据本发明的语音交互方法的流程示意图之四；

图21是根据本发明的语音交互方法的流程示意图之五；

图22是根据本发明的语音交互装置的示意图；

图23是根据本发明的服务器的示意图。

具体实施方式

下面详细描述本发明的语音交互方法，所述语音交互方法的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的语音交互方法是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本发明中提出了一种语音交互方法，如图1-图4所示，在车辆座舱内的乘员进行语音输出时：用户语音请求转化为识别文本之后，文本以及其伴随的称呼语被接收到规则引擎中，且在规则引擎中进行初筛，规则引擎中可对用户query的前缀以及部分动作词进行适配，并通过字典树的方式构建规则引擎用于减少对模型的扰动，其中，规则引擎中的输入内容为“文本query(ASR输出的结果+称呼语)”，输出内容为被规则引擎命中的query结果用于决策融合进行最终判断；进一步地，未被规则引擎命中的文本query输入到分类模型中，且在分类模型中进行判断、分析，且输出内容为单个query对应类别的概率，结果用于决策融合进行最终判断；再进一步地，输入query，分类模型结果到决策引擎中，且根据不同的情况对结果进行采信，且输出决策query是否对用户说，由此，在用户输出语音请求后，语音内容转换为识别文本，可经过规则引擎、分类模型和决策引擎，进行准确识别，以保证语音助手准确唤醒，避免出现误唤醒的情况。

请参阅图4，描述本发明的语音交互方法的执行。

本发明提出的语音交互方法，如图5所示，包括以下步骤：

A100、对接收的车辆座舱的用户语音请求进行语音识别，得到识别文本。具体地，如在车辆座舱内设置麦克风或其它语音获取零部件，以对车辆座舱内的用户语音请求进行获取，其中，用户语音请求可来自车辆座舱内的各个音区，包括但不限于主驾副驾的音区、副驾座位的音区、车辆主驾后第二排左侧的音区、车辆主驾后第二排中间的音区、车辆主驾后第二排右侧的音区、车辆主驾后第三排左侧的音区、车辆主驾后第三排右侧的音区。进一步地，在接收到用户语音请求之后对语音的内容进行识别，以识别语音请求对应的文本。

具体地，语音识别方式可采用ASR技术(将人的语音转换为文本的技术)，以在车辆座舱内任意位置处的用户进行语音输出时，可根据用户语音请求得到识别文本。

A200、在确定识别文本包括唤醒词，且唤醒词在识别文本中作为称呼语的情况下，向车辆下发唤醒指令，以便由车辆根据唤醒指令唤醒语音助手和用户进行语音交互。

其中，唤醒词可为系统默认的名词，也可为人工设定的名词，且该唤醒词代指语音助手。以使用户在请求语音助手执行相应功能时，可对语音助手称呼唤醒词，以唤醒语音助手，如唤醒词为“小P”、“小Y”或者其它名词，其中，本发明以唤醒词为“小P”为例展开叙述。

进一步地，在唤醒词出现在用户的语音请求中，且唤醒词作为称呼语时，唤醒词可代指语音助手，如唤醒词为“小P”，且用户的语音请求指令为“小P，请帮我打开车窗”，即在该语音请求中“小P”为称呼语且代指语音助手，从而使得车辆可根据唤醒指令唤醒语音助手，以使得语音助手可与用户交流，进而便于语音助手根据用户的语音指令进行功能执行或调整。

需要说明的是，现有的语音助手在实际使用时，与唤醒词相同的词可以不同的语境出现在用户的交流中，即在唤醒词未作为称呼语时，用户的语音请求中的唤醒词并未代指语音助手，如车辆座舱内的用户在进行日常交流，如发出“我们去小P公园”或“打开小P换装”，虽然该语音请求中包括唤醒词，但该唤醒词并非作为称呼语，即，发出该语音请求的用户并非想唤醒语音助手。因此，通过设置本发明中的语音交互方法，在确定识别文本包括唤醒词，且唤醒词在识别文本中作为称呼语的情况下，实现对语音助手的唤醒，从而可避免出现对语音助手误唤醒的情况。

由此，用户在车辆座舱内进行交流时，即使在交流内容中出现了与唤醒词相同或相近的指令描述，但通过本发明中的语音交互方法可准确地识别出用户的语音请求是否为对语音助手的称呼，从而避免出现误唤醒，使得用户可自然顺畅地进行交谈，即在交谈过程中，不需刻意地避讳与唤醒词相关的内容，提升用户体验。

如图6所示，确定识别文本包括唤醒词，包括：

A210、通过序列标注的方式，在识别文本中提取候选词。需要说明的是，这一步是从文本中提取出可能是称呼的词，这不是简单的文本匹配，因为ASR可能将称呼误识别为其他读音相近的词，例如将“小P”误识别为“小批”、“小皮”、“小屁”等。而本发明中采用序列标注的方法进行候选称呼词提取，有效地解决ASR错误的问题。

A220、通过拼音比对的方式，在候选词中确定唤醒词。即在A220中第一步提取出来的候选称呼词可能不是有效的称呼词，所以需要进一步筛选，可采取基于拼音的方法，筛选“小P”或读音为“xiao pi”的词。

进一步地，在确定唤醒词之后，进一步地对唤醒词进行消歧，即识别文本中的称呼词可能是称呼，也可能是提及或专有名词，因此需要进行区分，也就是消歧。具体地，可基于以下步骤进行消歧。

进一步地，如图7所示，确定唤醒词在识别文本中是否作为称呼语，可先基于规则引擎进行初步删选，且规则引擎的执行示例为A230、A231包括：

A230、确定识别文本与多个预设规则的匹配结果。换言之，在进行语音交互的设计时，可预先制定多个预设规则，且该预设规则中可对识别文本进行删选和甄别。其中，预设规则可为车辆自身默认搭载的，也可为用户根据自己的需求进行灵活设定的，如选择一些特定的句子作为预设规则的匹配内容，具体地，可结合车内的实际功能需求进行设定，如“小P，请打开空调”、“小P，请打开主驾驶车窗”，或者也可为其它类型或方式的预设规则。

A231、在识别文本与多个预设规则中的目标规则匹配的情况下，根据匹配结果确定唤醒词在识别文本中是否作为称呼语。即在识别文本之后，对识别文本中的内容进行匹配分析，以确定唤醒词在识别文本中是否为用户对语音助手的称呼，即判断用户是否在召唤语音助手。其中，在预设规则中，可对用户的前缀以及部分动作词进行适配，并通过字典树的方式构建预设规则用于减少对模型的扰动，具体地，输入：文本query(ASR输出的结果+称呼语)，输出：被预设规则命中的query结果用于决策融合进行最终判断。

由此，在识别文本与多个预设规则中的目标规则匹配的情况下，可将该语音请求指令输出，进而唤醒语音助手，以使语音助手基于该语音请求执行对应的功能操作。具体地，如“小P的声音大一点”，“小P的音量小一点”，符合“小P的XX”的句式，我们判定为负例。又如“小P实验室”，“小P换装”和业务场景有关的词，不容易做区分，且引入这些数据，对训练模型扰动较大，这部分由规则来处理，命中规则就采信对应的结果。

由此，在执行完规则引擎后，结合步骤A232进行分类模块的筛选。

进一步地，确定唤醒词在识别文本中是否作为称呼语，还包括：

A232、在识别文本与多个预设规则中的任一预设规则均不匹配的情况下，根据唤醒词在识别文本中的位置编码特征和词性编码特征，确定唤醒词在识别文本中是否作为称呼语。

也就是说，在具体执行过程中，识别文本通过多个预设规则进行识别匹配后，多个预设规则中对应的目标规则均与识别文本的内容不匹配，换言之，识别文本不在用户的预设规则之内，此时，可进一步地，通过唤醒词在识别文本中的位置编码特征和词性编码特征对识别文本的内容进行分析，以确定唤醒词是否为称呼语。具体地，位置编码特征和词性编码特征可分别基于POS Embedding函数(词性嵌入)和Salutation Embedding函数(称呼嵌入)进行设定和实现。

此时，可根据唤醒词的位置编码特征和词性编码特征对唤醒词进行判断。其中，位置编码特征为，唤醒词在识别文本中的位置，即可根据常规的语句顺序进行识别文本的匹配确定，如唤醒词出现在句首、句中或句尾，且通过唤醒词在文本的句首和句尾时更倾向于称呼语，如“小P将声音调大一点”或者“请将声音调大一点，小P”，在该类型的识别文本中，“小P”位于句首和句尾，且均为称呼语，再或者，“进入小P工作室”，在该文本中“小P”位于句中，且并非称呼语。

以及，词性编码特征可对识别文本的内容进行识别，以确定是否为称呼语和执行动作的组合，具体地，如用户输出的语音请求为“小P将声音调大一点”、“小P将声音调小一点”，从该文本中可识别“小P”为称呼语，且在称呼语的后边连接有执行动作；而在用户输出的语音请求为“小P实验室”、“小P游乐场”中，“小P”为实验室以及游乐场的名称，并非称呼语，且后续的词组也并非明确的执行动作，基于此也可确定用户语音指令的内容是否为在唤醒语音助手。以及，也可基于Masked Language Model(掩码语言模型)对识别文本中的唤醒词进行判断，即也可选择掩码编码特征，均可用于实现对称呼语的确定。

其中，可先将识别文本进行编码，得到掩码编码特征、位置编码特征和词性编码特征，融合掩码编码特征、位置编码特征和词性编码特征，得到嵌入矩阵，将嵌入矩阵进行自注意力转换，得到相似度矩阵，对相似度矩阵进行逻辑回归，得到分类识别置信度，在分类识别置信度大于目标置信度的情况下，确定唤醒词在识别文本中作为称呼语。

或者，将识别文本输入至分类模型的编码层，得到编码层输出的识别文本的掩码编码特征、唤醒词的位置编码特征和识别文本的词性编码特征，其中，编码层包括掩码语音模型、用于编码唤醒词位置关系的称呼语编码函数和用于编码识别文本中动词和介词的词性编码函数。将掩码编码特征、位置编码特征和词性编码特征输入至分类模型的嵌入层，得到嵌入层输出的嵌入矩阵；将嵌入矩阵输入至分类模型的自注意力层，得到自注意力层输出的相似度矩阵；将相似度矩阵输入至分类模型的逻辑回归层，得到逻辑回归层输出的分类识别置信度；基于分类识别置信度，确定唤醒词在识别文本中是否作为称呼语。

具体地，在执行分类模型进行置信度判定时，可先设定阈值，若模型结果给出的概率(分数)大于设定的阈值，则输出判别结果，低于阈值则进入下一个步骤。举例，“小P打开车窗”会给出高置信的正例分数，“小P你真棒”会给出高置信的负例分数。

其中，在基于步骤A232执行分类模型之后，可进一步地结合步骤A233、A234、A235、A236执行决策融合引擎。

进一步地，如图8所示，在根据唤醒词在识别文本中的位置编码特征和词性编码特征，确定唤醒词在识别文本中是否作为称呼语之后，方法还包括：

A233、在根据位置编码特征和词性编码特征确定唤醒词在识别文本中不作为称呼语的情况下，确定识别文本的混淆度。换言之，基于分类模型识别唤醒词不作为称呼语后，对识别文本的混淆度进行确定，以通过识别文本的混淆度进一步地确定唤醒词是否为称呼语，以提升输出结果的准确性。

其中，确定识别文本的混淆度，可基于语言模型进行确定，如预先准备3-gram与4-gram语言模型，在将识别文本输入到该语言模型中，进而计算出混淆度。

A234、在混淆度大于目标混淆度的情况下，确定唤醒词在识别文本中不作为称呼语。如“小P的声音大一点”、“小P的音量小一点”，符合“小P的XX”的句式，我们判定为负例。又如“小P实验室”，“小P换装”和业务场景有关的词，不容易做区分，且引入这些数据，对训练模型扰动较大，这部分由规则来处理，命中规则就采信对应的结果。

进一步地，如图9所示，在确定识别文本的混淆度之后，方法还包括：

A235、在混淆度不大于目标混淆度的情况下，确定识别文本中的关键词权重；其中，关键词权重用于表征识别文本的分词中的目标词的占比。由此，在基于混淆度无法确定唤醒词是否为称呼语时，可通过确定识别文本的关键词权重，并基于关键词权重，进一步地确定唤醒词在识别文本中是否作为称呼语。

A236、在关键词权重大于目标权重的情况下，确定唤醒词在识别文本中作为称呼语。由此，可基于关键词权重确定唤醒词为称呼语，实现对语音助手的唤醒。

由此，在具体的执行中，可预先基于3-gram与4-gram语言模型，计算唤醒词在识别文本中的混淆度，若计算出加权后的混淆度大于目标混淆度，则输出负例结果，否则接合关键词权重做判定。

进一步地，确定识别文本中的关键词权重，包括：

A2361，确定识别文本的子词与核心词字典的交集的关键词；将关键词的数目除以子词数目与关键词数目之和，得到初步占比；将初步占比进行归一化处理，得到关键词权重。

也就是说，在确定关键词权重时，预先准备一个字典核心词字典，计算关键词的数目在子词数目与关键词数目之和中的占比，得到关键词的初步占比，且将初步占比归一化处理，进而可得到关键词的权重。例如，核心词字典包括AA，AB，CD，DE……；query子词：AA，AB，DD；核心词字典与query中子词的交集数X＝2(AA AB)。

由此，可得到关键词的权重，从而在关键词的权重大于目标权重的情况下，确定唤醒词在识别文本中作为称呼语，实现对语音助手的唤醒。举例“小P帮我导航到火炉山森林公园”因为模型训练数据难以覆盖全部开放槽位，这个模块对开放槽位的唤醒语起到提高召回的作用。

由此，在决策融合阶段结合了与业务强耦合的规则，避免过多引入难以判断的数据进入了模型，减轻了模型的决策压力。在模型低置信度的情况下，增加了提前准备的语言模型和核心词字典融合判别过程，增加了整体的召回。

在确定识别文本包括唤醒词之后，方法还包括：

在确定唤醒词在识别文本中不作为称呼语的情况下，不下发用于指示唤醒语音助手的指令。也就是说，基于上述方法用户的语音请求中的唤醒词并非用于唤醒语音助手时的称呼时，不需要唤醒语音助手，从而不下发用于指示唤醒语音助手的指令。

本发明提出了另一些语音交互方法，请参阅图10，且该语音交互方法与上述第一方面提出的语音交互方法且具体的执行步骤上存在较多相同之处，且区别在于对于语音指令为纯称呼时执行的免唤醒步骤，以及在于NLU(自然语言流程)中对于有效指令的确定，进一步地提升免唤醒的准确性。

如图11所示，A110、对接收的车辆座舱的本轮用户语音请求进行语音识别，得到本轮识别文本。具体地，如在车辆座舱内设置麦克风或其它语音获取零部件，以对车辆座舱内的用户语音请求进行获取，其中，用户语音请求可来自主驾驶位、副驾驶位或后排座位。进一步地，在接收到用户语音请求之后对语音的内容进行识别，以识别语音请求对应的本轮识别文本。

A240、在确定本轮识别文本包括称呼语，且为纯称呼语的情况下，获取前一轮识别文本；其中，前一轮识别文本为前一轮用户语音请求对应的识别文本，且前一轮识别文本不包括称呼语。

也就是说，在用户发出语音指令之后，识别文本中的称呼语为纯称呼语，纯称呼语在识别文本中仅有称呼语无别的内容，如仅为“小P”，即认定为该识别文本为纯称呼语，且在确定该条件之后，可获取前一轮识别文本，即在每轮获取识别文本之后，均可对识别文本进行暂时存储，以在进行进一步地执行识别文本的获取和认定后，可根据认定结果获取前一轮中的识别文本，进而对前一轮的识别文本进行判断，以确定前一轮的识别文本中是否不包括称呼语。

A250、在确定前一轮识别文本为有效指令的情况下，向车辆下发唤醒指令，以便由车辆根据唤醒指令唤醒语音助手和用户进行语音交互。即在进一步地确定前一轮的识别文本不包括称呼语，且在识别文本为有效指令时，可得出用户输出的语音指令目的在于获取语音助手的帮助。

例如，在本轮得到的识别文本为“小P”后，“小P”为纯称呼语，且获取前一轮识别文本，前一轮识别文本为“请打开主驾车窗”，该前一轮识别文本不包括称呼语，且在该前一轮识别文本中具有明确的执行动作，即可识别文本为有效指令，此时，可唤醒语音助手，以根据前一轮的识别文本对应的请求指令执行打开主驾车窗，满足用户的需求。

由此，用户在车内请求唤醒语音助手时，即使用户先说出了相应的执行动作，再叫出了语音助手的唤醒词，本发明中的语音交互方法也可基于该语音请求内容确定用户存在唤醒语音助手的请求，实现对语音助手的准确唤醒。换言之，即使用户以非常规的先执行动作后称呼语的顺序进行语音请求的输出时，也可及时有效地唤醒语音助手，从而满足用户在不同类型应用场景下的唤醒需求，提升用户体验。

如图12所示，在向车辆下发唤醒指令之前，方法还包括：

A251、确定本轮识别文本与前一轮识别文本的时间间隔小于目标时长。即在向车辆下发唤醒指令之前，可对两轮识别文本的时间间隔进行判断分析，即在两轮之间的时间间隔小于目标时长时，可确定两轮的识别文本为用户基于同一需求发出的。

其中，在具体执行时，可将目标时长设置为3s，即在前一轮识别文本发出后的3s内获取的本轮的识别文本中存在称呼语的，则确定两轮识别文本之间存在依存关系。换言之，在两轮识别文本之间的时间间隔太长时，二者可能无必然联系，如用户在前一轮的识别文本为“请打开主驾车窗”，且本轮的识别文本为“小P”的纯称呼语，但是二者之间的时间间隔以超过目标时长，如为1个小时，显然二者之间并无联系，即不需唤醒语音助手。

由此，通过设置两轮识别文本的间隔时长，也可避免语音助手误唤醒，提升唤醒准确性。

如图13所示，在得到本轮识别文本之后，方法还包括：

A252、在确定本轮识别文本不包括称呼语的情况下，缓存本轮识别文本、本轮识别文本的时间信息以及本轮识别文本对应的本轮用户语音请求的音区。

其中，识别文本不包括称呼语即该识别文本可能作为下一轮识别文本的有效指令，因此，可将该识别文本进行暂时缓存。且对应地，关于该不包括称呼语的识别文本发出的时间信息以及对应的音区进行识别和缓存，以使识别文本与对应的时间信息、音区对应缓存进行下一轮的应用。

需要说明的是，音区代指车辆座舱内的各个座位的区域，如主驾音区、副驾音区、以及后排座椅音区。

具体地，如识别文本为“请打开副驾车窗”，且该识别文本对应的时间为9点30分15秒，且对应的音区为副驾。

如图14所示，方法还包括：

A253、在确定本轮识别文本与前一轮识别文本的时间间隔不小于目标时长，或前一轮识别文本为无效指令的情况下，不向车辆下发用于指示唤醒语音助手的指令。

换言之，本轮识别文本与前一轮识别文本的时间间隔不小于目标时长和前一轮识别文本为无效指令的两个情况满足其一时，均不向车辆发出唤醒指令。具体地，如在具体执行时，目标时长设置为3s，且在前一轮识别文本发出后的3s内获取的本轮的识别文本中存在称呼语的，但是，前一轮识别文本中的语音指令为“你听歌么”，显然该识别文本为无效指令，无需语音助手进行唤醒操作；或者，如在具体执行时，目标时长设置为3s，前一轮识别文本中的语音指令为“请打开副驾车窗”，显然该识别文本为有效指令，但是两轮识别文本之间的时间间隔大于3s，如甚至于到15分钟，即不需唤醒语音助手。

由此，通过设置两轮识别文本的间隔时长以及结合前一轮识别文本的内容，也可进一步地避免语音助手误唤醒，提升唤醒准确性。

其中，需要说明的是，两轮识别文本的时间间隔指的是前一轮识别文本的结束时刻和本轮识别文本的起始时刻，如前一轮识别文本的时间段为t1～t2，且本轮识别文本的时间段为t3～t4，即两轮识别文本之间的间隔时长为t3-t2。

在确定本轮识别文本包括称呼语之后，方法还包括：

在确定本轮识别文本不为纯称呼语，且为有效指令的情况下，向车辆下发唤醒指令。即在确定本轮识别文本部位纯称呼语时，可基于上述一种语音交互方法中的规则引擎、分类模块以及决策融合进行指令的分析识别文本存在称呼语，且还包括客户所需求的有效指令，从而明确客户存在明确地召唤语音助手以及执行相应功能的需求，从而保证准确地唤醒语音助手。

如图15所示，确定前一轮识别文本为有效指令，包括：

A254、确定前一轮识别文本的意图在有效意图列表内，且前一轮识别文本的长度大于目标长度，且确定前一轮识别文本指向明确的操作对象和操作方式。也就是说，在确定前一轮识别文本为有效指令的条件包括前一轮识别文本的长度大于目标长度、以及明确的操作对象和操作方式。

其中，前一轮识别文本的长度大于目标长度，如前一轮识别文本的长度大于5个字，或者也可设置为其它目标长度。其中，操作对象可为车内的功能部件，如车窗、空调、车灯、音响等，操作方式可包括打开、关闭、调高、调低等。

如在识别文本为“小P请打开空调”中，识别文本的长度大于目标长度，且操作对象为空调，操作方式为打开；或者，如识别文本为“小P请调高音响音量”中，识别文本的长度大于目标长度，且操作对象为音响，操作方式为调高音量。

由此，可确定用户输出的指令为有效指令，从而使得语音助手可基于此唤醒。

下面结合一些具体场景：

如在场景一：前一轮音区1中缓冲的指令为“打开主驾空调”，系统未识别到称呼，因此指令不执行，直接存入缓存；接着本轮音区1收到指令“小P”,系统识别到指令为纯称呼，于是获取同音区缓存的前一轮指令；前一轮指令与本轮时间间隔为6.5-4.0＝2.5s，小于3s，是生效的缓存指令，于是进入后唤醒判断流程；经过NLU阶段，最终系统判断指令为有效指令，于是触发后唤醒，系统执行指令，并清空音区1的缓存。

如在场景二：前一轮音区1收到指令“打开主驾空调”,系统未识别到称呼，因此指令不执行，直接存入缓存；接着本轮音区1收到指令“小P”,系统识别到指令为纯称呼，于是获取同音区缓存的前一轮指令；前一轮指令与本轮时间间隔为7.5-4.0＝3.5s，大于3s，不是生效的缓存指令，于是不进入后唤醒判断流程，同时清空音区1的系统缓存。

如在场景三：前一轮音区1收到指令“车窗打开了吗”,系统未识别到称呼，因此指令不执行，直接存入缓存；接着本轮音区1收到指令“小P”,系统识别到指令为纯称呼，于是获取同音区缓存的前一轮指令；前一轮指令与本轮时间间隔为6.5-4.0＝3.5s，小于3s，是生效的缓存指令；经过NLU，系统最终判断前一轮指令为无效指令，于是不触发后唤醒，同时清空音区1系统缓存。

如在场景四：前一轮音区1收到指令“打开主驾车窗”,系统未识别到称呼，因此指令不执行，直接存入缓存；接着本轮音区2收到指令“小P”,系统识别到指令为纯称呼，于是获取同音区缓存的前一轮指令，当前音区2无缓存的指令，于是结束流程。(系统做到音区缓存独立，不会影响音区1的缓存)。

如在场景五：前一轮音区1收到指令“打开主驾车窗”,系统未识别到称呼，因此指令不执行，直接存入缓存；接着本轮音区2收到指令“小P”,系统识别到指令为纯称呼，于是获取同音区缓存的前一轮指令，当前音区2无缓存的指令，于是结束流程；下一轮音区1收到指令“小P”,系统识别到指令为纯称呼，于是获取同音区缓存的前一轮指令,前一轮指令与本轮时间间隔为6.5-4.0＝2.5s，小于3s，是生效的缓存指令，于是进入后唤醒判断流程；经过NLU最终系统判断指令为有效指令，于是触发后唤醒，系统执行指令，并清空音区1缓存。

如在场景六：前一轮音区1收到指令“打开主驾空调”,系统未识别到称呼，因此指令不执行，直接存入缓存；接着本轮音区1收到指令“小P”,系统识别到指令为纯称呼，于是获取同音区缓存的前一轮指令；前一轮指令与本轮时间间隔为6.5-4.0＝2.5s，小于3s，是生效的缓存指令，于是进入后唤醒判断流程；经过NLU阶段，最终系统判断指令为有效指令，于是触发后唤醒，系统执行指令，并清空音区1缓存；下一轮音区1收到指令“小P关闭所有车窗”，系统识别到称呼，进入称呼唤醒判断流程。经过NLU，系统最终判断指令有效，触发称呼唤醒执行指令，并清空音区1缓存。

确定唤醒词在本轮识别文本中是否作为称呼语，包括：

在确定本轮识别文本包括唤醒词的情况下，确定本轮识别文本与多个预设规则的匹配结果；在本轮识别文本与多个预设规则中的目标规则匹配的情况下，根据匹配结果确定唤醒词在本轮识别文本中是否作为称呼语。

即在确定唤醒词在本轮识别文本中是否作为称呼语，可结合上述的规则引擎中的A230、A231，具体体现为A230、确定识别文本与多个预设规则的匹配结果。换言之，在进行语音交互的设计时，可预先制定多个预设规则，且该预设规则中可对识别文本进行删选和甄别。其中，预设规则可为车辆自身默认搭载的，也可为用户根据自己的需求进行灵活设定的，如选择一些特定的句子作为预设规则的匹配内容，具体地，可结合车内的实际功能需求进行设定，如“小P，请打开空调”、“小P，请打开主驾驶车窗”，或者也可为其它类型或方式的预设规则。

在识别文本与多个预设规则中的目标规则匹配的情况下，根据匹配结果确定唤醒词在识别文本中是否作为称呼语。即在识别文本之后，对识别文本中的内容进行匹配分析，以确定唤醒词在识别文本中是否为用户对语音助手的称呼，即判断用户是否在召唤语音助手。其中，在预设规则中，可对用户的前缀以及部分动作词进行适配，并通过字典树的方式构建预设规则用于减少对模型的扰动，具体地，输入：文本query(ASR输出的结果+称呼语)，输出：被预设规则命中的query结果用于决策融合进行最终判断。

以及，确定唤醒词在本轮识别文本中是否作为称呼语，还包括：

在本轮识别文本与多个预设规则中的任一预设规则均不匹配的情况下，根据唤醒词在本轮识别文本中的位置编码特征和词性编码特征，确定唤醒词在本轮识别文本中是否作为称呼语。其中，该步骤的执行可结合上述的分类模型中的步骤A232、二者的执行思路相同。也就是说，在具体执行过程中，识别文本通过多个预设规则进行识别匹配后，多个预设规则中对应的目标规则均与识别文本的内容不匹配，换言之，识别文本不在用户的预设规则之内，此时，可进一步地，通过唤醒词在识别文本中的位置编码特征和词性编码特征对识别文本的内容进行分析，以确定唤醒词是否为称呼语。具体地，位置编码特征和词性编码特征可分别基于POS Embedding(函数)和Salutation Embedding(称呼嵌入)进行设定和实现。

进一步地，在根据唤醒词在本轮识别文本中的位置编码特征和词性编码特征，确定唤醒词在本轮识别文本中是否作为称呼语之后，方法还包括：

其中，在根据位置编码特征和词性编码特征确定唤醒词在本轮识别文本中不作为称呼语的情况下，确定本轮识别文本的混淆度。具体地，基于分类模型识别唤醒词不作为称呼语后，对识别文本的混淆度进行确定，以通过识别文本的混淆度进一步地确定唤醒词是否为称呼语，以提升输出结果的准确性。其中，确定识别文本的混淆度，可基于语言模型进行确定，如预先准备3-gram与4-gram语言模型，在将识别文本输入到该语言模型中，进而计算出混淆度，该步骤可参考上述的步骤A233。

在混淆度大于目标混淆度的情况下，确定唤醒词在本轮识别文本中不作为称呼语。如“小P的声音大一点”、“小P的音量小一点”，符合“小P的XX”的句式，我们判定为负例。又如“小P实验室”，“小P换装”和业务场景有关的词，不容易做区分，且引入作模型对模型扰动较大，这部分由规则来处理，命中规则就采信对应的结果，该步骤可参考上述的步骤A234。

在混淆度不大于目标混淆度的情况下，确定本轮识别文本中的关键词权重；其中，关键词权重用于表征本轮识别文本的分词中的目标词的占比。由此，在基于混淆度无法确定唤醒词是否为称呼语时，可通过确定识别文本的关键词权重，并基于关键词权重，进一步地确定唤醒词在识别文本中是否作为称呼语，该步骤可参考上述的步骤A235。

在关键词权重大于目标权重的情况下，确定唤醒词在本轮识别文本中作为称呼语。由此，可基于关键词权重确定唤醒词为称呼语，实现对语音助手的唤醒，该步骤可参考上述的步骤A236。

进一步地，请参阅图16，本发明还提出了另一些语音交互方法。且该语音交互方法与上述第二方面提出的语音交互方法且具体的执行步骤上存在较多相同之处，且区别在于对于确定本轮识别文本与白名单中的预设文本匹配的免唤醒步骤，进一步地提升免唤醒的准确性。如图17所示，语音交互方法，包括：

A110、对接收的车辆座舱的本轮用户语音请求进行语音识别，得到本轮识别文本。具体地，如在车辆座舱内设置麦克风或其它语音获取零部件，以对车辆座舱内的用户语音请求进行获取，其中，用户语音请求可来自主驾驶位、副驾驶位或后排座位。进一步地，在接收到用户语音请求之后对语音的内容进行识别，以识别语音请求对应的本轮识别文本。

A260、在确定本轮识别文本可信，且确定本轮识别文本不包括称呼语，且确定本轮识别文本与白名单中的预设文本匹配，且确定本轮识别文本为有效指令的情况下，向车辆下发唤醒指令，以便由车辆根据唤醒指令唤醒语音助手和用户进行语音交互。

其中，白名单中的预设文本为提前预设的，如为车辆系统中默认设定的，或者也可为用户根据自身的需求进行主观设定的，且预设文本为可用于执行相应功能的文本，即识别文本与预设文本对应时，可对语音助手进行唤醒，从而简化唤醒步骤。

如图18所示，白名单中的预设文本通过如下方式确定；

A2611、获取目标时间段内的多条历史识别文本。也就是说，白名单中的预设文本可从多条历史识别文本中收集、挖掘，如在本轮执行是否唤醒判断时，可将前一轮中的识别文本以及前多轮中的识别文本进行收集且作为本轮的预设文本。如此，在白名单的构建中不需花费大量的时间思考预设文本的输入，同时，不断地更新或缓存新的识别文本，利于保证预设文本的适用度，更符合用户的使用需求。

A2612、从多条历史识别文本中筛选长度大于目标长度，且频次大于目标频次或频次排名位于目标排位之前的历史识别文本，作为候选文本。即在白名单的构建中，可对历史识别文本的长度进行筛选，且在历史识别文本的长度大于目标长度时，该历史识别文本符合作为预设文本的条件之一。在历史识别文本的出现频次大于目标频次或频次排名位于目标排位之前的，也作为历史识别文本作为预设文本的条件之一。具体地，对多个历史识别文本的使用频次进行统计形成列表SL，且按频次进行排序，且可选择性地保留，如保留top30％的指令，得到指令列表SF，指令列表SF列中的历史识别文本用于作为白名单中的候选文本。

A2613、将符合目标句式的候选文本作为预设文本。即在获得指令列表SF，可对指令列表SF中的各个指令进行符合目标句式的判断，从而保证符合要求的规整指令，得到最终指令列表，即最终的白名单。

如图19所示，将符合目标句式的候选文本作为预设文本，包括：

A2614、在候选文本包括按顺序排布的控制动作词和具体控制对象的情况下，将候选文本作为预设文本。即候选文本作为预设文本的条件包括按顺序排布的控制动作词和具体控制对象。

其中，控制动作词可包括打开、关闭、调高、调低等，具体控制对象可为车内的功能部件，如具体控制对象为车窗、空调、车灯和音响等。按顺序排布的包括“请打开空调”，打开为控制动作词，空调为具体控制对象，或者“请调高音响音量”中，调高为控制动作词，音响为具体控制对象，该类型的候选文本可作为预设文本。且明显符合用户对语音助手的唤醒意图。

A2615、或者在候选文本包括按顺序排布的控制动作词、程度修饰词和具体控制对象的情况下，将候选文本作为预设文本。

同样地，控制动作词可包括打开、关闭、调高、调低等，程度修饰词可对控制动作词的操作程度，如一半，具体控制对象可为车内的功能部件，如具体控制对象为主驾车窗、空调、前车灯等，即对应的句式为<控制动作><程度修饰词><具体控制点>。

其中，需要说明的是，程度修饰词应当为规范且明确的，如一半的意思相对于一点、一部分更为明确具体，以及对于控制对象，可包括多种描述，如车窗、主驾车窗等，其中主驾车窗相对于车窗为具体控制点。

例如在一些示例中，指令为“打开车窗”、匹配结果为“打开-车窗”，且对应的指令句式为<控制动作><一般控制点>，该句式不符合规整指令，不作为预设文本；或者，指令为“打开一点车窗”、匹配结果为“打开-一点-车窗”，且对应的指令句式为<控制动作>一点<一般控制点>，该句式不符合规整指令，不作为预设文本；再或者指令为“打开一半主驾车窗”、匹配结果为“打开-一半-主驾车窗”，且对应的指令句式为<控制动作><程度修饰词><具体控制点>，该句式符合规整指令，可作为预设文本。

如图20所示，在得到本轮识别文本之后，方法还包括：

A262、在确定本轮识别文本可信，且确定本轮识别文本包括称呼语，且不为纯称呼语，以及确定本轮识别文本为有效指令的情况下，向车辆下发唤醒指令。

换言之，在确定识别文本为可信文本，且本轮识别文本为不纯称呼语以及为有效指令，符合唤醒需求，可下发唤醒指令，以控制语音助手唤醒，进而根据唤醒指令对车辆的相应部件进行控制。

其中，可信度可基于ASR可靠性判断模型进行判定。具体地，基于ASR模块的解码置信度以及解码的TopN结果构造多个特征：

1、最终结果的长度：4；2、TopN结果的个数：3；TopN结果之间的相似度，计算TopN结果的平均Jaccard相似度，Jaccard相似度计算公式：sim(X,Y)＝‖X∩Y‖/‖X∪Y‖。

例如，“打开车窗”与“打开窗”相似度：3/4＝0.75；“打开车窗”与“开车窗”相似度：3/4；平均相似度：(0.75+0.75)/2＝0.75。

以及，在ASR可靠性判断模型构建时，Top N长度的标准差：std([4,3,3])＝0.47；-最终结果是否包含字母：否(0)；-Top N是否包含空字符串：否(0)；-Top N结果相同前缀的长度：0；-topN结果相同后缀的长度：1。

以上特征汇总：[4,3,0.75,0.47,0,0,0,1]；特征扩充：增加二阶特征(两两相乘)；最终特征汇总:[4,3,0.75,0.47,0,0,0,1,16,12,3.0,1.88,0,0,0,4,12,9,2.25,1.41,0,0,0,3,3.0,2.25,0.56,0.35,0.0,0.0,0.0,0.75,1.88,1.41,0.35,0.22,0.0,0.0,0.0,0.47,0,0,0.0,0.0,0,0,0,0,0,0,0.0,0.0,0,0,0,0,0,0,0.0,0.0,0,0,0,0,4,3,0.75,0.47,0,0,0,1]。

其中，在特征选择时，可基于L1正则的方法：对特征做标准化，使用所有特征训练一个带L1正则的LR(Logistic Regression)模型，得到每个特征对应的系数，剔除对应系数接近于0的特征。或者，基于随机森林的方法：使用所有特征训练一个随机森林模型，模型会给出每个特征重要性的评估，剔除低于一个设定阈值的特征。

以及，模型训练，使用最终的特征集合训练一个LR模型。

如图21所示，在得到本轮识别文本之后，方法还包括：

A2631、在确定本轮识别文本可信，且确定本轮识别文本包括称呼语，且为纯称呼语的情况下，获取前一轮识别文本；其中，前一轮识别文本为前一轮用户语音请求对应的识别文本，且前一轮识别文本不可信，或者前一轮识别文本可信，且不包括称呼语且与预设文本不匹配；

A2632、在确定本轮识别文本与前一轮识别文本的时间间隔小于目标时长，且前一轮识别文本为有效指令的情况下，向车辆下发唤醒指令。

换言之，在进行语音请求的判定过程中，在确定本轮识别文本可信且包括称呼语尤其为纯称呼语的情况下，可对前一轮的识别文本进行判断，即使前一轮识别文本不包括称呼语且与预设文本不匹配，若前一轮识别文本为有效指令，也可对语音助手进行唤醒，且使得语音助手以前一轮识别文本中的指令对车辆相关的部件进行控制。

具体地，执行步骤可参考上述第二方面的语音交互方法中的步骤A251～A254。

其中，在确定本轮识别文本为有效指令中。

具体地，确定本轮识别文本的意图在有效意图列表内，且本轮识别文本的长度大于目标长度，且确定本轮识别文本指向明确的操作对象和操作方式。也就是说，在确定本轮识别文本为有效指令的条件包括本轮识别文本的长度大于目标长度、以及明确的操作对象和操作方式。

其中，本轮识别文本的长度大于目标长度，如本轮识别文本的长度大于5个字，或者也可设置为其它目标长度。其中，操作对象可为车内的功能部件，如车窗、空调、车灯、音响等，操作方式可包括打开、关闭、调高、调低等。

以及，在确定前一轮识别文本为有效指令中。

具体地，确定前一轮识别文本的意图在有效意图列表内，且前一轮识别文本的长度大于目标长度，且确定前一轮识别文本指向明确的操作对象和操作方式。也就是说，在确定前一轮识别文本为有效指令的条件包括前一轮识别文本的长度大于目标长度、以及明确的操作对象和操作方式。

确定唤醒词在本轮识别文本中是否作为称呼语，包括：

在确定本轮识别文本包括唤醒词的情况下，确定本轮识别文本与多个预设规则的匹配结果；换言之，在进行语音交互的设计时，可预先制定多个预设规则，且该预设规则中可对识别文本进行删选和甄别。其中，预设规则可为车辆自身默认搭载的，也可为用户根据自己的需求进行灵活设定的，如选择一些特定的句子作为预设规则的匹配内容，具体地，可结合车内的实际功能需求进行设定，如“小P，请打开空调”、“小P，请打开主驾驶车窗”，或者也可为其它类型或方式的预设规则。其中，可参考上述的规则引擎中的A230、A231。

在本轮识别文本与多个预设规则中的目标规则匹配的情况下，根据匹配结果确定唤醒词在本轮识别文本中是否作为称呼语。即在识别文本之后，对识别文本中的内容进行匹配分析，以确定唤醒词在识别文本中是否为用户对语音助手的称呼，即判断用户是否在召唤语音助手。其中，在预设规则中，可对用户的前缀以及部分动作词进行适配，并通过字典树的方式构建预设规则用于减少对模型的扰动，具体地，输入：文本query(ASR输出的结果+称呼语)，输出：被预设规则命中的query结果用于决策融合进行最终判断。

具体地，可参考上述的语音交互方法中的A230、A231，基于规则引擎进行确定。

确定唤醒词在本轮识别文本中是否作为称呼语，还包括：

在本轮识别文本与多个预设规则中的任一预设规则均不匹配的情况下，根据唤醒词在本轮识别文本中的位置编码特征和词性编码特征，确定唤醒词在本轮识别文本中是否作为称呼语。也就是说，在具体执行过程中，识别文本通过多个预设规则进行识别匹配后，多个预设规则中对应的目标规则均与识别文本的内容不匹配，换言之，识别文本不在用户的预设规则之内，此时，可进一步地，通过唤醒词在识别文本中的位置编码特征和词性编码特征对识别文本的内容进行分析，以确定唤醒词是否为称呼语。具体地，位置编码特征和词性编码特征可分别基于POS Embedding(函数)和Salutation Embedding(称呼嵌入)进行设定和实现。

其中，具体地执行，可参考上述的语音交互方法中的步骤A232，基于分类模型实现。

在根据唤醒词在本轮识别文本中的位置编码特征和词性编码特征，确定唤醒词在本轮识别文本中是否作为称呼语之后，方法还包括：

在根据位置编码特征和词性编码特征确定唤醒词在本轮识别文本中不作为称呼语的情况下，确定本轮识别文本的混淆度；具体地，基于分类模型识别唤醒词不作为称呼语后，对识别文本的混淆度进行确定，以通过识别文本的混淆度进一步地确定唤醒词是否为称呼语，以提升输出结果的准确性。其中，确定识别文本的混淆度，可基于语言模型进行确定，如预先准备3-gram与4-gram语言模型，在将识别文本输入到该语言模型中，进而计算出混淆度，该步骤可参考上述的步骤A233。

在混淆度大于目标混淆度的情况下，确定唤醒词在本轮识别文本中不作为称呼语；如“小P的声音大一点”、“小P的音量小一点”，符合“小P的XX”的句式，我们判定为负例。又如“小P实验室”，“小P换装”和业务场景有关的词，不容易做区分，且引入这些数据，对训练模型扰动较大，这部分由规则来处理，命中规则就采信对应的结果，该步骤可参考上述的步骤A234。

在混淆度不大于目标混淆度的情况下，确定本轮识别文本中的关键词权重；其中，关键词权重用于表征本轮识别文本的分词中的目标词的占比；由此，在基于混淆度无法确定唤醒词是否为称呼语时，可通过确定识别文本的关键词权重，并基于关键词权重，进一步地确定唤醒词在识别文本中是否作为称呼语，该步骤可参考上述的步骤A235。

本发明还提出了一种语音交互装置1。

如图22所示，该语音交互装置1，包括：识别模块10、发送模块11。

其中，识别模块10用于对接收的车辆座舱的本轮用户语音请求进行语音识别，得到本轮识别文本。具体地，如在车辆座舱内设置麦克风或其它语音获取零部件，以对车辆座舱内的用户语音请求进行获取，其中，用户语音请求可来自主驾驶位、副驾驶位或后排座位。进一步地，在接收到用户语音请求之后对语音的内容进行识别，以识别语音请求对应的本轮识别文本。

发送模块11用于在确定本轮识别文本可信，且确定本轮识别文本不包括称呼语，且确定本轮识别文本与白名单中的预设文本匹配，且确定本轮识别文本为有效指令的情况下，向车辆下发唤醒指令，以便由车辆根据唤醒指令唤醒语音助手和用户进行语音交互。其中，白名单中的预设文本为提前预设的，如为车辆系统中默认设定的，或者也可为用户根据自身的需求进行主观设定的，且预设文本为可用于执行相应功能的文本，即识别文本与预设文本对应时，可对语音助手进行唤醒，从而简化唤醒步骤。

语音交互装置1还包括第一确定模块，用于通过如下方式确定白名单中的预设文本：

获取目标时间段内的多条历史识别文本；

从多条历史识别文本中筛选长度大于目标长度，且频次大于目标频次或频次排名位于目标排位之前的历史识别文本，作为候选文本；

将符合目标句式的候选文本作为预设文本。

在将符合目标句式的候选文本作为预设文本中，第一确定模块用于，在候选文本包括按顺序排布的控制动作词和具体控制对象的情况下，将候选文本作为预设文本；

或者在候选文本包括按顺序排布的控制动作词、程度修饰词和具体控制对象的情况下，将候选文本作为预设文本。

在得到本轮识别文本之后，发送模块11还用于在确定本轮识别文本可信，且确定本轮识别文本包括称呼语，且不为纯称呼语，以及确定本轮识别文本为有效指令的情况下，向车辆下发唤醒指令。

在得到本轮识别文本之后，发送模块11还用于在确定本轮识别文本可信，且确定本轮识别文本包括称呼语，且为纯称呼语的情况下，获取前一轮识别文本；其中，前一轮识别文本为前一轮用户语音请求对应的识别文本，且前一轮识别文本不包括称呼语且与预设文本不匹配；

在确定本轮识别文本与前一轮识别文本的时间间隔小于目标时长，且前一轮识别文本为有效指令的情况下，向车辆下发唤醒指令。

在确定唤醒词在本轮识别文本中是否作为称呼语中，第一确定模块还用于在确定本轮识别文本包括唤醒词的情况下，确定本轮识别文本与多个预设规则的匹配结果；

以及用于，在本轮识别文本与多个预设规则中的目标规则匹配的情况下，根据匹配结果确定唤醒词在本轮识别文本中是否作为称呼语。

在确定唤醒词在本轮识别文本中是否作为称呼语中，第一确定模块还用于在本轮识别文本与多个预设规则中的任一预设规则均不匹配的情况下，根据唤醒词在本轮识别文本中的位置编码特征和词性编码特征，确定唤醒词在本轮识别文本中是否作为称呼语。

在根据唤醒词在本轮识别文本中的位置编码特征和词性编码特征，确定唤醒词在本轮识别文本中是否作为称呼语之后，第一确定模块还用于在根据位置编码特征和词性编码特征确定唤醒词在本轮识别文本中不作为称呼语的情况下，确定本轮识别文本的混淆度；

以及用于，在混淆度大于目标混淆度的情况下，确定唤醒词在本轮识别文本中不作为称呼语；

以及用于，在混淆度不大于目标混淆度的情况下，确定本轮识别文本中的关键词权重；其中，关键词权重用于表征本轮识别文本的分词中的目标词的占比；

以及用于，在关键词权重大于目标权重的情况下，确定唤醒词在本轮识别文本中作为称呼语。

在确定本轮识别文本为有效指令中，第一确定模块还用于确定本轮识别文本的意图在有效意图列表内，且本轮识别文本的长度大于目标长度，且确定本轮识别文本指向明确的操作对象和操作方式。

如图23所示，本发明还提出了一种服务器2，包括存储器21和处理器22，存储器21中存储有计算机程序，该计算机程序被处理器执行时实现上述语音交互方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述

本申请还提供一种计算机程序的非易失性计算机可读存储介质，当计算机程序被一个或多个处理器22执行时，实现上述语音交互方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述方法中的全部或部分流程，是可以通过计算机程序来指令相关的软件来完成。程序可存储于一非易失性计算机可读存储介质中，该程序在执行时，可包括如上述各方法的流程。其中存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

在本说明书的描述中，参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行动作的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本申请，可以理解的是，上述实施方式是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims

1.一种语音交互方法，其特征在于，包括：

对接收的车辆座舱的本轮用户语音请求进行语音识别，得到本轮识别文本；

在确定所述本轮识别文本可信，且确定所述本轮识别文本不包括称呼语，且确定所述本轮识别文本与白名单中的预设文本匹配，且确定所述本轮识别文本为有效指令的情况下，向车辆下发唤醒指令，以便由车辆根据所述唤醒指令唤醒语音助手和用户进行语音交互。

2.根据权利要求1所述的语音交互方法，其特征在于，所述白名单中的预设文本通过如下方式确定：

获取目标时间段内的多条历史识别文本；

从所述多条历史识别文本中筛选长度大于目标长度，且频次大于目标频次或频次排名位于目标排位之前的历史识别文本，作为候选文本；

将符合目标句式的候选文本作为所述预设文本。

3.根据权利要求2所述的语音交互方法，其特征在于，所述将符合目标句式的候选文本作为所述预设文本，包括：

在所述候选文本包括按顺序排布的控制动作词和具体控制对象的情况下，将所述候选文本作为所述预设文本；

或者在所述候选文本包括按顺序排布的控制动作词、程度修饰词和具体控制对象的情况下，将所述候选文本作为所述预设文本。

4.根据权利要求1所述的语音交互方法，其特征在于，在所述得到本轮识别文本之后，所述方法还包括：

在确定所述本轮识别文本可信，且确定所述本轮识别文本包括称呼语，且不为纯称呼语，以及确定所述本轮识别文本为有效指令的情况下，向车辆下发唤醒指令。

5.根据权利要求1所述的语音交互方法，其特征在于，在所述得到本轮识别文本之后，所述方法还包括：

在确定所述本轮识别文本可信，且确定所述本轮识别文本包括称呼语，且为纯称呼语的情况下，获取前一轮识别文本；其中，所述前一轮识别文本为前一轮用户语音请求对应的识别文本，所述前一轮识别文本不可信，或者所述前一轮识别文本可信，且不包括称呼语且与所述预设文本不匹配；

在确定所述本轮识别文本与所述前一轮识别文本的时间间隔小于目标时长，且所述前一轮识别文本为有效指令的情况下，向车辆下发唤醒指令。

6.根据权利要求1-5中任一项所述的语音交互方法，其特征在于，确定所述唤醒词在所述本轮识别文本中是否作为称呼语，包括：

在确定所述本轮识别文本包括唤醒词的情况下，确定所述本轮识别文本与多个预设规则的匹配结果；

在所述本轮识别文本与所述多个预设规则中的目标规则匹配的情况下，根据匹配结果确定所述唤醒词在所述本轮识别文本中是否作为称呼语。

7.根据权利要求6所述的语音交互方法，其特征在于，所述确定所述唤醒词在所述本轮识别文本中是否作为称呼语，还包括：

在所述本轮识别文本与所述多个预设规则中的任一预设规则均不匹配的情况下，根据所述唤醒词在所述本轮识别文本中的位置编码特征和词性编码特征，确定所述唤醒词在所述本轮识别文本中是否作为称呼语。

8.根据权利要求7所述的语音交互方法，其特征在于，在所述根据所述唤醒词在所述本轮识别文本中的位置编码特征和词性编码特征，确定所述唤醒词在所述本轮识别文本中是否作为称呼语之后，所述方法还包括：

在根据所述位置编码特征和所述词性编码特征确定所述唤醒词在所述本轮识别文本中不作为称呼语的情况下，确定所述本轮识别文本的混淆度；

在所述混淆度大于目标混淆度的情况下，确定所述唤醒词在所述本轮识别文本中不作为称呼语；

在所述混淆度不大于目标混淆度的情况下，确定所述本轮识别文本中的关键词权重；其中，所述关键词权重用于表征所述本轮识别文本的分词中的目标词的占比；

在所述关键词权重大于目标权重的情况下，确定所述唤醒词在所述本轮识别文本中作为称呼语。

9.根据权利要求1-5中任一项所述的语音交互方法，其特征在于，所述确定所述本轮识别文本为有效指令，包括：

确定所述本轮识别文本的意图在有效意图列表内，且所述本轮识别文本的长度大于目标长度，且确定所述本轮识别文本指向明确的操作对象和操作方式。

10.一种语音交互装置，其特征在于，包括：

识别模块，用于对接收的车辆座舱的本轮用户语音请求进行语音识别，得到本轮识别文本；

发送模块，用于在确定所述本轮识别文本可信，且确定所述本轮识别文本不包括称呼语，且确定所述本轮识别文本与白名单中的预设文本匹配，且确定所述本轮识别文本为有效指令的情况下，向车辆下发唤醒指令，以便由车辆根据所述唤醒指令唤醒语音助手和用户进行语音交互。

11.一种服务器，其特征在于，所述服务器包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1-9任一项所述的方法。

12.一种计算机程序的非易失性计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，实现权利要求1-9任一项所述的方法。