CN115512700A

CN115512700A - 语音交互方法、语音交互装置、车辆和可读存储介质

Info

Publication number: CN115512700A
Application number: CN202211091723.8A
Authority: CN
Inventors: 李东恒; 王天一; 左佑; 宋奔
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2022-09-07
Filing date: 2022-09-07
Publication date: 2022-12-23

Abstract

本发明公开了一种语音交互方法、语音交互装置、车辆和可读存储介质，所述语音交互方法包括：持续缓存车辆座舱内用户的音频流；根据音频流确定语音功能已激活后，对音频流进行唤醒检测和文本识别；在唤醒检测结果为已触发唤醒后，在第一目标时段内未检测出语音激活结束的情况下，获取文本识别输出的识别文本；在识别文本包括唤醒词之外的其他识别结果的情况下，不再进行语音播报过程并根据其他识别结果来响应用户的语音指令，以进行语音交互。根据本发明的语音交互方法，检测速度快、不依赖网络，且对唤醒方式的检测更加准确、可靠，由此可提升普通唤醒兼容oneshot唤醒的使用体验，提升车载语音的适用性。

Description

语音交互方法、语音交互装置、车辆和可读存储介质

技术领域

本发明涉及语音交互技术领域，尤其是涉及一种语音交互方法、语音交互装置、车辆和可读存储介质。

背景技术

现有oneshot唤醒检测普遍采用两种技术：(1)语音活动检测法(检测用户说完唤醒词后一段预设时间内是否有人声来判断是否为oneshot)。在实际使用中，儿童和老人有喊唤醒词音拖得较长的情况，此方法容易将唤醒词尾音的情况误判为Oneshot唤醒。(2)在线识别检测方法，此方法根据在线识别结果中是否包含除唤醒词外的其他人声，来判断是否是oneshot唤醒，由于此方式依赖网络，在普通唤醒兼容oneshot唤醒的模式下检测速度慢、在无网环境下无法按预期工作，此外，由于隐私保护性，在实际运用中需检测出唤醒并激活语音后才能将音频传至在线处理，因此判断oneshot的过程较为滞后，存在改进的空间。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明的一个目的在于提出一种语音交互方法，能够准确、快速地识别出oneshot唤醒模式，提升用户体验。

根据本发明的语音交互方法，包括：持续缓存车辆座舱内用户的音频流；根据音频流确定语音功能已激活后，对音频流进行唤醒检测和文本识别；在唤醒检测结果为已触发唤醒后，在第一目标时段内未检测出语音激活结束的情况下，获取文本识别输出的识别文本；在识别文本包括唤醒词之外的其他识别结果的情况下，不再进行语音播报过程并根据其他识别结果来响应用户的语音指令，以进行语音交互。

根据本发明的语音交互方法，检测速度快、不依赖网络，且对唤醒方式的检测更加准确、可靠，由此可适用于普通唤醒兼容oneshot唤醒的使用体验，提升车载语音的适用性。

在所述唤醒检测结果为已触发唤醒之后，所述方法还包括：在所述第一目标时段内检测出语音激活结束的情况下，进行语音播报过程。由此，则以非oneshot模式唤醒语音助手，且语音助手对用户的语音唤醒词进行回复，过程高效快捷，不需经过复杂的步骤。

在所述获取文本识别输出的识别文本之后，所述方法还包括：在所述识别文本仅包括唤醒词的情况下，进行语音播报过程。由此，即使出现拖音较长的情况，也可很好地避免误判为Oneshot唤醒，唤醒检测更加准确，提升决策效率。

在所述根据音频流确定语音功能已激活之后，且在所述唤醒检测结果为已触发唤醒之前，所述方法包括：将所述音频流输入到本地语音识别模型，所述本地语音识别模型用于对输入的所述音频流进行文本识别，得到识别文本；或者，向服务器发送所述音频流，以便由所述服务器对所述音频流进行文本识别，得到识别文本。

由此，操作过程对车辆所处的网络环境的要求较低，即在无网环境下依然可执行，对网络的依赖性较低，具有离线优势，适用性更强，且不需上传音频流，节省中间传输时间，提升oneshot的检测速度，以及，也可灵活应用服务器识别文本，从而可保证对音频流进行识别后可得到更加准确识别文本，符合用户的语音指令的本意。

在所述根据音频流确定语音功能已激活之后，且在所述唤醒检测结果为已触发唤醒之前，所述方法还包括：将所述音频流输入到本地语音识别模型，所述本地语音识别模型用于对输入的所述音频流进行文本识别，得到识别文本；在所述唤醒检测结果为已触发唤醒之后，所述方法还包括：向服务器发送所述音频流，以便由所述服务器对所述音频流进行文本识别，得到识别文本；所述获取文本识别输出的识别文本，包括：在向服务器发送所述音频流之后的第二目标时段内，若收到所述服务器返回的识别文本，则将所述服务器返回的识别文本作为获取的识别文本。

由此，操作过程对车辆所处的网络环境的要求较低，即在无网环境下依然可执行，对网络的依赖性较低，具有离线优势，适用性更强，且不需上传音频流，节省中间传输时间，提升oneshot的检测速度。

进一步地，所述获取文本识别输出的识别文本，包括：在向服务器发送所述音频流之后的第二目标时段内，若未收到所述服务器返回的识别文本，则将所述本地语音识别模型输出的识别文本作为获取的识别文本。

由此，应用服务器识别文本，从而可保证对音频流进行识别后可得到更加准确识别文本，符合用户的语音指令的本意。

在所述对音频流进行唤醒检测和文本识别之前，所述方法包括；将在语音开始激活的时刻之前目标时长的时刻作为音频流的起点。可以理解的是，一般激活时，音频流已读了一部分，因此，通过回退一点时间，以保证音频流的完整性。

本发明还提出了一种语音交互装置，包括：缓存模块，用于持续缓存车辆座舱内用户的音频流；第一处理模块，用于根据音频流确定语音功能已激活后，对音频流进行唤醒检测和文本识别；获取模块，用于在唤醒检测结果为已触发唤醒后，在第一目标时段内未检测出语音激活结束的情况下，获取文本识别输出的识别文本；第二处理模块，用于在识别文本包括唤醒词之外的其他识别结果的情况下，不再进行语音播报过程并根据其他识别结果来响应用户的语音指令，以进行语音交互。

由此，通过设置语音交互装置，检测速度快、不依赖网络，且对唤醒方式的检测更加准确、可靠，由此可适用于普通唤醒兼容oneshot唤醒的使用体验，提升车载语音的适用性。

本发明还提出了一种车辆，所述车辆包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现上述的方法。使得该车辆在搭载oneshot唤醒模式和普通唤醒模式时，能够准确地实现语音助手的唤醒。

本发明还提出了一种计算机程序的非易失性计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，实现上述的方法。由此，可适用于普通唤醒兼容oneshot唤醒的使用体验，提升车载语音的适用性。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对方案的描述中将变得明显和容易理解，其中：

图1是根据本发明的语音交互方法的主要流程示意图；

图2是根据本发明的语音交互方法的流程示意图之一；

图3是根据本发明的语音交互方法的流程示意图之二；

图4是根据本发明的语音交互方法的流程示意图之三；

图5是根据本发明的语音交互方法的流程示意图之四；

图6是根据本发明的语音交互方法的流程示意图之五；

图7是根据本发明的语音交互装置的示意图；

图8是根据本发明的语音交互方法的步骤示意图；

图9是根据本发明的车辆的示意图。

具体实施方式

下面详细描述本发明的语音交互方法，所述语音交互方法的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的语音交互方法是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本发明提出了一种语音交互方法。其中，需要说明的是，在用户使用语音交互功能时，通常包括两种唤醒方式：oneshot唤醒方式(别名oneshot模式、oneshot)，具体体现为响应唤醒词和命令词一起连说的唤醒模式，如在说完唤醒词后连说指令，如“你好小P打开车窗”，此时系统在响应唤醒后省略播报唤醒回复语，直接对“打开车窗”做出反馈；普通唤醒方式(非oneshot模式、非oneshot)，具体体现为仅说唤醒词的唤醒模式，当用户只说唤醒词，系统将响应唤醒，如果有唤醒回复则播报回复，再等待用户说指令。两种唤醒方式均可用于语音助手唤醒，但普通唤醒方式的唤醒步骤相较于oneshot唤醒方式冗长些。

其中，在执行上述两种唤醒方式时，多用到语音活动检测技术和语音识别技术。其中，语音活动检测(Voice activity detection，VAD)，是一项用于语音处理的技术，目的是检测语音信号是否存在；语音识别技术，也被称为自动语音识别(Automatic SpeechRecognition，ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

下面请参阅图1，描述本发明的语音交互方法，包括：

A100、持续缓存车辆座舱内用户的音频流。其中，可在车辆座舱内设置语音接收部件，如设置麦克风等部件，对车辆座舱内用户的音频流进行接收，以及进行缓存。其中，车辆座舱内用户包括主驾司机、副驾乘员以及后排座椅的乘员。

A200、根据音频流确定语音功能已激活后，对音频流进行唤醒检测和文本识别。其中，在车辆座舱内的用户发出语音请求之后，确定语音功能已激活后，即可对音频流进行唤醒检测和文本识别，以根据音频流确定用户的语音请求是否需要唤醒语音助手。

A300、在唤醒检测结果为已触发唤醒后，在第一目标时段内未检测出语音激活结束的情况下，获取文本识别输出的识别文本。也就是说，在确定唤醒结果为用户需要对语音助手进行唤醒时，可在触发唤醒后的第一目标时段内对语音激活结束进行检测，若检测到语音激活结束，则说明用户在发出唤醒词之后结束语音输出，需要语音助手回复，且该情况下对应的唤醒模式为普通唤醒方式，即非oneshot模式；而在第一目标时段内检测语音激活未结束，则需进一步地判断，如执行步骤A400。

具体地，如图6所示，在唤醒检测结果为已触发唤醒之后，方法还包括：

A310、在第一目标时段内检测出语音激活结束的情况下，进行语音播报过程。

即在检测到用户的语音指令中存在唤醒词，且检测到用户在说出唤醒词之后以停止进行进一步的语音输出，即用户对语音助手的沟通需求为以非oneshot模式进行交互。由此，可快速地进入到非oneshot模式中。

其中，第一目标时段的时长可根据实际的需求进行灵活的设定，且需要说明的是，正常口齿清晰且无结舌的人输出一个音节通常在150ms-300ms，即可将第一目标时段的时长设置为300ms左右，如设置为200ms，即在200ms内检测处语音激活结束，则以非oneshot模式唤醒语音助手，且语音助手对用户的语音唤醒词进行回复，过程高效快捷。

A400、在识别文本包括唤醒词之外的其他识别结果的情况下，不再进行语音播报过程并根据其他识别结果来响应用户的语音指令，以进行语音交互。即在此情况下，唤醒语音助手，且不需语音助手对用户的语音指令进行回复，直接进行语音交互，以快速执行相应的需求功能，即应用oneshot模式，快速地实现免唤醒作用。

可以理解的是，在实际应用场景中，车辆可能同时搭载oneshot唤醒方式和非oneshot模式，而在非oneshot模式中需要语音助手对用户的唤醒词进行回复，而在oneshot模式中，不需语音助手对用户的唤醒词进行回复，用户与语音助手之间的交互更加高效，提升用户体验，且在语音交互方法在执行过程中，通过线下处理即可实现，对车载网络环境的要求较低，且采用线下处理的效率较高，判断过程块，执行效率高。以及，可采用线下处理的方式，不将用户的音频传至在线处理，利于提升用户车内语音交互的隐私保护性。

如图5所示，在获取文本识别输出的识别文本之后，方法还包括：

A410、在识别文本仅包括唤醒词的情况下，进行语音播报过程。换言之，即使在第一目标时段的时长内未检测到语音激活结束，但在文本识别输出的识别文本中仅包括唤醒词时，用户对语音助手的沟通需求为以非oneshot模式进行交互。由此，可进入到非oneshot模式中。

具体地，如在用户发出包括“小P”的语音请求之后的400ms时间内，即使未检测到语音激活结束，但是该时间段内的语音对应的识别文本为纯称呼语，换言之，可能存在用户拖音或受到其他声音的干扰的情况。

需要说明的是，在实际使用中，用户为儿童和老人时，有喊唤醒词音拖得较长的情况，此方法容易将唤醒词尾音的情况误判为Oneshot唤醒，而本发明中通过该设置，即使出现拖音较长的情况，也可很好地避免误判为Oneshot唤醒，唤醒检测更加准确。

如图2所示，在根据音频流确定语音功能已激活之后，且在唤醒检测结果为已触发唤醒之前，方法包括：

A210、将音频流输入到本地语音识别模型，本地语音识别模型用于对输入的音频流进行文本识别，得到识别文本。其中，本地语音识别模型可为车载的识别模型，需要说明的是，本地语音识别模型为线下识别模型，即在将音频流输入到本地语音识别模型，不需车辆周围存在网络环境，也可进行识别文本的获取。

执行方式简单，操作过程对车辆所处的网络环境的要求较低，即在无网环境下依然可执行，对网络的依赖性较低，具有离线优势，适用性更强，且不需上传音频流，节省中间传输时间，提升oneshot的检测速度。

或者，A220、向服务器发送音频流，以便由服务器对音频流进行文本识别，得到识别文本。可以理解的是，服务器所具有的数据库更加全面，且可依据的算法更加多样化，运算效率更高效，从而可保证对音频流进行识别后可得到更加准确识别文本，符合用户的语音指令的本意。

如图3所示，在根据音频流确定语音功能已激活之后，且在唤醒检测结果为已触发唤醒之前，方法还包括：

A230、将音频流输入到本地语音识别模型，本地语音识别模型用于对输入的音频流进行文本识别，得到识别文本。其中，本地语音识别模型可为车载的识别模型，需要说明的是，本地语音识别模型为线下识别模型，即在将音频流输入到本地语音识别模型，不需车辆周围存在网络环境，也可进行识别文本的获取。

进一步地，在唤醒检测结果为已触发唤醒之后，方法还包括：A240、向服务器发送音频流，以便由服务器对音频流进行文本识别，得到识别文本。可以理解的是，服务器所具有的数据库更加全面，且可依据的算法更加多样化，运算效率更高效，从而可保证对音频流进行识别后可得到更加准确识别文本，符合用户的语音指令的本意。

再进一步地，获取文本识别输出的识别文本，包括：A320、在向服务器发送音频流之后的第二目标时段内，若收到服务器返回的识别文本，则将服务器返回的识别文本作为获取的识别文本。

换言之，在对音频流进行识别时，可通过本地语音识别模型对音频流进行文本识别，也可通过服务器对音频流进行文本识别，且其中，服务器识别的文本相较于本地语音识别模型识别的文本更加准确。但是，若通过服务器识别的文本回传的时间如过长，则影响进一步判断的效率，需要说明的是，服务器为在线识别，易受到车辆所在空间内网络环境的影响，如上传速度和下载速度的影响，由此，服务器的识别文本可及时地返回时，以其为识别文本，以在保证准确性的同时，保证语音交互效率。

以及，进一步地，如图4所示，在获取文本识别输出的识别文本中，包括：

A330、在向服务器发送音频流之后的第二目标时段内，若未收到服务器返回的识别文本，则将本地语音识别模型输出的识别文本作为获取的识别文本。换言之，若通过服务器识别的文本回传的时间如过长，则影响进一步判断的效率，需要说明的是，服务器为在线识别，易受到车辆所在空间内网络环境的影响，如上传速度和下载速度的影响。由此，服务器的识别文本未及时地返回时，以本地语音识别模型输出的识别文本进一步地判断所需的识别文本。

由此，可保证识别文本获得的及时性。

在对音频流进行唤醒检测和文本识别之前，方法包括；

A201、将在语音开始激活的时刻之前目标时长的时刻作为音频流的起点。即在检测到语音激活后，客户端将音频流从激活开始的时刻回退一定时间后得到的音频流发送给唤醒检测模块来判断是否触发唤醒。如音频流为“你好小P，打开左前窗户”，一般激活时，音频流已读了一部分，因此，通过回退一点时间，以保证音频流的完整性。

下面结合附图8描述本发明的语音交互方法：

首先，在开始后，执行Step1：持续缓存音频流并检测语音激活。

进一步地，判断VAD是否检测处语音开始激活；其中，在检测结果为否时，回到步骤Step1持续检测语音激活，若在检测结果为是时，执行Step2；

Step2：将音频流同时发送给唤醒模块和本地识别模块，分别检测唤醒和将音频流识别成文字；即当检测到语音激活，客户端将音频流从激活开始时刻回退一定时间后得到的音频流发送给唤醒检测模块来判断是否触发唤醒，同时，将上述音频流发送给本地识别模块，识别音频流的文字内容。其中，回退的时间通常没有严格限制，由于检测到激活的时刻通常会跟真正语音激活的开始时刻有毫秒级的延迟，因此需要回退一定时间。回退时间取决于语音活动检测的性能。

进一步地，判断唤醒模块是否检测处唤醒词；其中，在未检测到唤醒词时，返回判断VAD是否检测处语音开始激活，在检测到唤醒词时，执行Step3；

Step3：响应于用户音频流触发唤醒，并在触发唤醒时刻后的第一目标时段内判断语音激活是否结束；即响应唤醒，并进行oneshot的一次判定，响应于用户音频流触发唤醒，在触发唤醒时刻后的第一目标时段内，通过判断是否收到语音激活结束，进行oneshot的第一次判定：如果在第二预设时间内收到语音结束激活，进入到非Oneshot唤醒模式，若未检测到语音激活结束时，执行Step4，进行oneshot的第二次判定；

Step4：在收到语音结束激活后，获取本地识别模块的识别结果；即将发送给唤醒的音频流发送给本地识别模块，并在收到语音结束激活时，获取本地识别结果。

进一步地，判断在本地识别模块的识别结果中是否仅包含唤醒词，且在仅包含唤醒词时，进入非Oneshot唤醒模式，而在不仅包含唤醒词时，进入到Oneshot唤醒模式；

结束。

其中，进入Oneshot模式和进入非One模式说明：

·进入非oneshot模式后，执行非oneshot模式的既定操作：播报唤醒回复语。

·进入oneshot模式后，执行oneshot模式的既定操作：不播报回复语，同时将本地识别结果发送给下游语音链路，理解并响应用户指令。

本发明还提出了一种语音交互装置100。

如图7所示，根据本发明的语音交互装置100，包括：缓存模块110、第一处理模块120、获取模块130和第二处理模块140。

其中，缓存模块110用于持续缓存车辆座舱内用户的音频流；第一处理模块120，用于根据音频流确定语音功能已激活后，对音频流进行唤醒检测和文本识别；获取模块130，用于在唤醒检测结果为已触发唤醒后，在第一目标时段内未检测出语音激活结束的情况下，获取文本识别输出的识别文本；第二处理模块140，用于在识别文本包括唤醒词之外的其他识别结果的情况下，不再进行语音播报过程并根据其他识别结果来响应用户的语音指令，以进行语音交互。

由此，在实际应用场景中，车辆同时搭载oneshot唤醒方式和非oneshot模式时，在非oneshot模式中需要语音助手对用户的唤醒词进行回复，而在oneshot模式中，不需语音助手对用户的唤醒词进行回复，用户与语音助手之间的交互更加高效，提升用户体验，且语音交互装置执行上述的语音交互方法时，可准确地区分出用户对oneshot唤醒方式和非oneshot模式的选择，且执行过程通过线下处理即可实现，对车载网络环境的要求较低，且采用线下处理的效率较高，判断过程块，执行效率高。以及，可采用线下处理的方式，不将用户的音频传至在线处理，利于提升用户车内语音交互的隐私保护性。

进一步地，在唤醒检测结果为已触发唤醒之后，第二处理模块140还用于：

在第一目标时段内检测出语音激活结束的情况下，进行语音播报过程。

进一步地，在获取文本识别输出的识别文本之后，第二处理模块140还用于：

在识别文本仅包括唤醒词的情况下，进行语音播报过程。

进一步地，在根据音频流确定语音功能已激活之后，且在唤醒检测结果为已触发唤醒之前，第一处理模块110还用于：

将音频流输入到本地语音识别模型，本地语音识别模型用于对输入的音频流进行文本识别，得到识别文本；

或者，向服务器发送音频流，以便由服务器对音频流进行文本识别，得到识别文本。

进一步地，在根据音频流确定语音功能已激活之后，且在唤醒检测结果为已触发唤醒之前，第一处理模块110还用于：将音频流输入到本地语音识别模型，本地语音识别模型用于对输入的音频流进行文本识别，得到识别文本；

在唤醒检测结果为已触发唤醒之后，第一处理模块110：向服务器发送音频流，以便由服务器对音频流进行文本识别，得到识别文本；

且在获取文本识别输出的识别文本中，获取模块130还用于：在向服务器发送音频流之后的第二目标时段内，若收到服务器返回的识别文本，则将服务器返回的识别文本作为获取的识别文本。

进一步地，在获取文本识别输出的识别文本中，获取模块130还用于：在向服务器发送音频流之后的第二目标时段内，若未收到服务器返回的识别文本，则将本地语音识别模型输出的识别文本作为获取的识别文本。

在对音频流进行唤醒检测和文本识别之前，第一处理模块120还用于：

将在语音开始激活的时刻之前目标时长的时刻作为音频流的起点。

本发明还提出了一种车辆。

如图9所示，根据本发明的车辆200，车辆200包括存储器210和处理器220，存储器210中存储有计算机程序211，计算机程序211被处理器220执行时，实现上述任一项的方法，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明还提出了一种计算机程序的非易失性计算机可读存储介质。

根据本发明的计算机程序的非易失性计算机可读存储介质，当计算机程序211被一个或多个处理器220执行时，实现上述任一项的方法，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，处理器220为上述电子设备中的处理器220。可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等。

在本说明书的描述中，参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行动作的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本申请，可以理解的是，上述实施方式是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims

1.一种语音交互方法，其特征在于，包括：

持续缓存车辆座舱内用户的音频流；

根据音频流确定语音功能已激活后，对音频流进行唤醒检测和文本识别；

在唤醒检测结果为已触发唤醒后，在第一目标时段内未检测出语音激活结束的情况下，获取文本识别输出的识别文本；

在识别文本包括唤醒词之外的其他识别结果的情况下，不再进行语音播报过程并根据其他识别结果来响应用户的语音指令，以进行语音交互。

2.根据权利要求1所述的语音交互方法，其特征在于，在所述唤醒检测结果为已触发唤醒之后，所述方法还包括：

在所述第一目标时段内检测出语音激活结束的情况下，进行语音播报过程。

3.根据权利要求1所述的语音交互方法，其特征在于，在所述获取文本识别输出的识别文本之后，所述方法还包括：

在所述识别文本仅包括唤醒词的情况下，进行语音播报过程。

4.根据权利要求1-3中任一项所述的语音交互方法，其特征在于，在所述根据音频流确定语音功能已激活之后，且在所述唤醒检测结果为已触发唤醒之前，所述方法包括：

将所述音频流输入到本地语音识别模型，所述本地语音识别模型用于对输入的所述音频流进行文本识别，得到识别文本；

或者，向服务器发送所述音频流，以便由所述服务器对所述音频流进行文本识别，得到识别文本。

5.根据权利要求1-3中任一项所述的语音交互方法，其特征在于，

在所述根据音频流确定语音功能已激活之后，且在所述唤醒检测结果为已触发唤醒之前，所述方法还包括：将所述音频流输入到本地语音识别模型，所述本地语音识别模型用于对输入的所述音频流进行文本识别，得到识别文本；

在所述唤醒检测结果为已触发唤醒之后，所述方法还包括：向服务器发送所述音频流，以便由所述服务器对所述音频流进行文本识别，得到识别文本；

所述获取文本识别输出的识别文本，包括：在向服务器发送所述音频流之后的第二目标时段内，若收到所述服务器返回的识别文本，则将所述服务器返回的识别文本作为获取的识别文本。

6.根据权利要求5所述的语音交互方法，其特征在于，所述获取文本识别输出的识别文本，包括：在向服务器发送所述音频流之后的第二目标时段内，若未收到所述服务器返回的识别文本，则将所述本地语音识别模型输出的识别文本作为获取的识别文本。

7.根据权利要求1-3中任一项所述的语音交互方法，其特征在于，在所述对音频流进行唤醒检测和文本识别之前，所述方法包括；

8.一种语音交互装置，其特征在于，包括：

缓存模块，用于持续缓存车辆座舱内用户的音频流；

第一处理模块，用于根据音频流确定语音功能已激活后，对音频流进行唤醒检测和文本识别；

获取模块，用于在唤醒检测结果为已触发唤醒后，在第一目标时段内未检测出语音激活结束的情况下，获取文本识别输出的识别文本；

第二处理模块，用于在识别文本包括唤醒词之外的其他识别结果的情况下，不再进行语音播报过程并根据其他识别结果来响应用户的语音指令，以进行语音交互。

9.一种车辆，其特征在于，所述车辆包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1-7任一项所述的方法。

10.一种计算机程序的非易失性计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，实现权利要求1-7任一项所述的方法。