CN111326154B

CN111326154B - 语音交互的方法、装置、存储介质及电子设备

Info

Publication number: CN111326154B
Application number: CN202010137603.1A
Authority: CN
Inventors: 董明珠; 杨昌品; 宋德超; 韩林峄; 赵文静
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2022-11-22
Anticipated expiration: 2040-03-02
Also published as: CN111326154A

Abstract

本申请涉及语音交互技术领域，具体涉及一种语音交互的方法、装置、存储介质及电子设备，解决了相关技术中无规则语音超时交互的问题。该方法包括：获取当前语音交互中的音频文件；将音频文件转换为意群文本；当识别出意群文本中仅包含预设唤醒词时，判断后续语音交互中音频文件的时长是否超过第一预设时长；当后续语音交互中音频文件的时长超过所述第一预设时长时，反馈第一预设回复语。

Description

语音交互的方法、装置、存储介质及电子设备

技术领域

本申请涉及语音交互技术领域，特别地涉及一种语音交互的方法、装置、存储介质及电子设备。

背景技术

随着人工智能的蓬勃发展，人与机器之间的交流日益增加，AI时代通过大数据和机器学习迅速提升效率和准确率，人工智能革新了人机语音交互，人机语音交互被部署到越来越多的用户产品以及生活情景中，而语音识别是语音交互中尤为重要的环节，用户的语音意图需要通过语音识别转换为指令下发到设备端进行操作。语音识别技术中的语音打断往往是直接影响语音识别率的因素，进而影响到交互体验感。语音打断功能常常用于交互式语音应答(IVR)系统，从而用户可以随时中断系统。当系统检测到任意语音时，它都会立即停止播放当前的提示并开始收听用户说话。

大多语音交互情景都尚未完善情景优化，系统可能随机打断语音识别的过程，无规则的语音打断往往会阻碍人机语音交互的进程，以至于引起不良的交互体验感。

发明内容

针对上述问题，本申请提供一种语音交互的方法、装置、存储介质及电子设备，解决了相关技术中无规则打断语音交互的问题。

第一方面，本申请提供了一种语音交互的方法，所述方法包括：

获取当前语音交互中的音频文件；

将所述音频文件转换为意群文本；

当识别出所述意群文本中仅包含预设唤醒词时，判断后续语音交互中音频文件的时长是否超过第一预设时长；

当后续语音交互中音频文件的时长超过所述第一预设时长时，反馈第一预设回复语。

根据本申请的实施例，可选的，上述语音交互的方法中，还包括：

当识别出所述意群文本中包含预设唤醒词且所述意群文本句末出现预设语气词时，判断后续语音交互中音频文件的时长是否超过第二预设时长；

当后续语音交互中音频文件的时长超过所述第二预设时长时，反馈第二预设回复语。

当识别出所述意群文本句末未出现预设语气词且所述意群文本包含的句式完整时，判断后续语音交互中的音频文件的时长是否超过第二预设时长；

当后续语音交互中的音频文件的时长超过所述第二预设时长，反馈第三预设回复语。

当识别出所述意群文本句末未出现预设语气词且所述意群文本包含的句式不完整时，判断后续语音交互中音频文件的时长是否超过第三预设时长；

当后续语音交互中音频文件的时长超过所述第三预设时长，反馈第四预设回复语。

当识别出所述意群文本中仅包含预设唤醒词且所述意群文本包含句式完整时，判断后续语音交互中音频文件的时长是否超过第二预设时长；

当后续语音交互中音频文件的时长超过所述第二预设时长，反馈第五预设回复语。

当识别出所述意群文本中包含预设唤醒词且所述意群文本包含的句式不完整时，判断后续语音交互中音频文件的时长是否超过第三预设时长；

当后续语音交互中音频文件的时长超过所述第三预设时长，反馈第六预设回复语。

根据本申请的实施例，可选的，上述语音交互的方法中，所述意群文本包含的句式是否完整通过以下步骤识别：

通过大数据库对比法对所述意群文本包含的句式进行比对，从而判断所述意群文本包含的句式是否完整。

第二方面，本申请提供了一种语音交互的装置，该装置包括：

获取模块，被配制成获取当前语音交互中的音频文件；

转换模块，被配置成将所述音频文件转换为意群文本；

执行模块，被配置成当识别出所述意群文本中仅包含预设唤醒词时，判断后续语音交互中音频文件的时长是否超过第一预设时长；

输出模块，被配置成当后续语音交互中音频文件的时长超过所述第一预设时长时，反馈第一预设回复语。

第三方面，本申请提供了一种存储介质，该存储介质存储的计算机程序，可被一个或多个处理器执行，可用来实现如上述的语音交互的方法。

第四方面，本申请提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，该计算机程序被所述处理器执行时，执行上述的语音交互的方法。

与相关技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

本申请提供的一种语音交互的方法、装置、存储介质及电子设备，该方法包括：获取当前语音交互中的音频文件；将音频文件转换为意群文本；当识别出意群文本中仅包含预设唤醒词时，判断后续语音交互中音频文件的时长是否超过第一预设时长；当后续语音交互中音频文件的时长超过第一预设时长时，反馈第一预设回复语。通过规划合理的时长、及时反馈相关度高的回复语，根据合理的时长有规则的对语音交互进行反馈，可及时在最佳交互时长反馈相应提示语，提升了用户的体验感。

附图说明

在下文中将基于实施例并参考附图来对本申请进行更详细的描述：

图1为本申请实施例提供的一种语音交互的方法的流程示意图；

图2为本申请实施例提供的一种语音交互的方法的另一流程示意图；

图3为本申请实施例提供的一种语音交互的方法的另一流程示意图；

图4为本申请实施例提供的一种优化语音超时交互的装置的连接框图；

图5为本申请实施例提供的一种电子设备的连接框图。

在附图中，相同的部件使用相同的附图标记，附图并未按照实际的比例绘制。

具体实施方式

以下将结合附图及实施例来详细说明本申请的实施方式，借此对本申请如何应用技术手段来解决技术问题，并达到相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本申请的保护范围之内。

本公开提供一种语音交互的方法、装置、存储介质及电子设备，该方法包括：获取当前语音交互中的音频文件；将音频文件转换为意群文本；当识别出意群文本中仅包含预设唤醒词时，判断后续语音交互中音频文件的时长是否超过第一预设时长；当后续语音交互中音频文件的时长超过第一预设时长时，反馈第一预设回复语。

实施例一

图1为本申请实施例提供的一种语音交互的方法的流程示意图，如图1所示，本方法包括：

S110：获取当前语音交互中的音频文件；

S120：将音频文件转换为意群文本；

S130：当识别出意群文本中仅包含预设唤醒词时，判断后续语音交互中音频文件的时长是否超过第一预设时长；

S140：当后续语音交互中音频文件的时长超过第一预设时长时，反馈第一预设回复语。

具体的，S110：获取当前语音交互中的音频文件，包括：IVR(interactive voiceresponse，交互式语音应答系统)在语音交互过程中获取当前语音交互的音频文件。

具体的，S120：将音频文件转换为意群文本，包括：IVR将获取的音频文件传输给ASR(Automatic Speech Recognition，自动语音识别)系统，ASR系统将得到的音频文件转换为意群文本。

具体的，在将音频文件转换为意群文本之前，还包括：根据预设条件确定音频文件对应的语音超时情景；根据语音超时情景对应的预设打断时长进行语音打断。

具体的，在ASR系统将得到的音频文件转换为意群文本之前，IVR(interactivevoice response，交互式语音应答系统)在用户进行语音交互时，先根据预设条件确认此时语音交互对应的语音超时情景，再判断该语音超时情景中的语音交互时长是否超过对应的预设打断时长，当语音交互时长超过对应的预设打断时长时，进行语音打断。

具体的，其中预设条件可以是根据语音交互场景中的状态信息进行预设的，也可以是根据用户的在语音交互场景中的交互习惯进行预设的。

具体的，语音超时情景包括：语音终止超时情景、无语音超时情景以及言语过多情景。

具体的，语音终止超时情景指在判断用户说完之前，用户说话时可暂停的时间长度。无语音超时情景指在开始接收用户回复并且在一定时间内没有检测到任何语音时触发的情景。言语过多情景指在用户说话时间过长，且没有触发语音终止超时情景的停顿出现。

具体的，S130：当识别出意群文本中仅包含预设唤醒词时，判断后续语音交互中音频文件的时长是否超过第一预设时长，包括：VUI(Voice User Interface，语音用户界面)系统识别意群文本中是否仅包含预设唤醒词，当识别出意群文本中仅包含预设唤醒词时，判断后续语音交互中音频文件的时长是否超过第一预设时长。

其中，预设唤醒词可以是用户根据交互对象进行预设的，也可以是根据用户的使用习惯进行预设的。

具体的，S140：当后续语音交互中音频文件的时长超过第一预设时长时，反馈第一预设回复语，包括：当VUI系统在后续语音交互中音频文件的时长超过第一预设时长时，反馈第一预设回复语。

具体的，预设第一回复语可以是根据日常人际交往中进行预设的语言，比如“抱歉，我没有听到，可以再说一遍吗？”等等。

具体的，VUI系统在语音识别的过程中ASR系统会判定出语音超时情景包括语音终止超时情景，无语音超时情景以及言语过多情景中。

进一步的，当识别出意群文本中包含预设唤醒词且意群文本句末出现预设语气词时，判断后续语音交互中音频文件的时长是否超过第二预设时长；当后续语音交互中音频文件的时长超过第二预设时长时，反馈第二预设回复语。

具体的，当VUI系统识别意群文本中包含预设唤醒词时，继续识别意群文本末是否出现预设语气词；当意群文本句末出现预设语气词时，判断后续语音交互过程中音频文件的时长是否大于第二预设时长，当后续语音交互过程中音频文件的时长大于第二预设时长时，反馈第二预设回复语。

具体的，预设语气词可以是“了、呢、吗”等等语气结尾词。

具体的，第二预设回复语可以是根据日常人际交往中进行预设的语言，比如“好的！”等等。

进一步的，还包括：当识别出意群文本句末未出现预设语气词且意群文本包含的句式完整时，判断后续语音交互中的音频文件的时长是否超过第二预设时长；当后续语音交互中的音频文件的时长超过第二预设时长，反馈第三预设回复语。

具体的，当VUI系统识别意群文本中出现预设语气词时，继续识别意群文本末包含的句式是否完整；当意群文本包含的句式完整时时，判断后续语音交互过程中音频文件的时长是否大于第二预设时长，当后续语音交互过程中音频文件的时长大于第二预设时长时，反馈第三预设回复语。

其中，第三回复语与第二回复语一致。

进一步的，意群文本包含的句式是否完整通过以下步骤识别：通过大数据库对比法对意群文本包含的句式进行比对，从而判断意群文本包含的句式是否完整。

具体的，通过大数据库对比法，分析意群文本包含的句式的语意、语气。在数据库中查找意群文本包含的句子的句头进行对比，在比对结果在预设容差值内时对比成功，当句头对比成功时继续对比句腰以及句尾，最终群文本包含的句子的整句对比结果完全一致时，意群文本包含的句式是完整的。

具体的，当句头对比失败时，超出数据库识别范围，重新进行识别。

具体的，数据库中预先存储有大量的整句文字，包括可以预想到的语音交互过程中可能出现的整句文字。

具体的，预设容差值可以是根据实际语音交互过程中可能出现的句式进行预设的，容差值的设置可以更为精确的判断出当前语音超时情景。

具体的，还可以设立字词句多层对比架构，并且单字的语音或文字也可以设立字头字身字尾的多层对比架构。这样容差也能实现多层细化，使识别更具弹性。

进一步的，还包括：当识别出意群文本句末未出现预设语气词且意群文本包含的句式不完整时，判断后续语音交互中音频文件的时长是否超过第三预设时长；当后续语音交互中音频文件的时长超过第三预设时长，反馈第四预设回复语。

具体的，当识别出意群文本句末未出现预设语气词时且意群文本包含的句式不完整时，判断后续语音交互中音频文件的时长是否大于第三预设时长，当后续语音交互中音频文件的时长大于第三预设时长时，反馈第四预设回复语。

其中，第四预设回复语可以是“对不起，小互还在学习当中，暂时无法理解言语过多的字段”。

具体的，第一预设时长，第二预设时长，第三预设时长是经过测试大量数据进行预设的。第一预设时长为10.0s，第二预设时长为1.50s，第三预设时长为8.50s。

进一步的，当识别出意群文本中仅包含预设唤醒词且意群文本包含句式完整时，判断后续语音交互中音频文件的时长是否超过第二预设时长；

当后续语音交互中音频文件的时长超过第二预设时长，反馈第五预设回复语。

具体的，第五预设回复语与第二回复语的内容一致。

进一步的，还包括：当识别出意群文本中包含预设唤醒词且意群文本包含的句式不完整时，判断后续语音交互中音频文件的时长是否超过第三预设时长；当后续语音交互中音频文件的时长超过第三预设时长，反馈第六预设回复语。

具体的，第六预设回复语与第四回复语的内容一致。

测试数据的过程包括：

测试对象：腾讯叮当、小度、天猫精灵、小爱同学等四款智能音响。

超时情景：语音终止超时情景，无语音超时情景以及言语过多情景。

量化单位：时间/s。

测试数据：每个情景500条。

通过测试大量数据对第一预设时长，第二预设时长，第三预设时长进行预设，可优化语音超时情景的语音交互的时间，提升用户的体验感。

举例说明，图2为本申请实施例提供的一种语音交互的方法的另一流程示意图，如图2所示，获取当前语音交互中的音频文件，将音频文件上传至语音用户界面系统，自动语音识别引擎将音频文件转换为意群文本，语音用户界面系统识别意群文本中是否仅包含预设唤醒词，当仅包含预设唤醒词时，为无语音超时情景，在无语音超时情景中判断后续语音交互中音频文件的时长是否超过第一预设时长，当后续语音交互中音频文件的时长超过第一预设时长时，在第一预设时间反馈第一预设回复语“抱歉，我没有听到，可以再说一遍吗？”。

当包含预设唤醒词时，识别意群文本末是否出现预设语气词；当意群文本句末出现预设语气词时，意群文本对应的语音超时情景为语音终止超时情景；判断在语音终止超时情景下的后续语音交互中音频文件的时长是否大于第二预设时长，当后续语音交互中音频文件的时长大于第二预设时长时，在第二预设时间反馈第二预设回复语“好的！”。

当识别出意群文本句末未出现预设语气词时，判断意群文本包含的句式是否完整；当意群文本包含的句式完整时，确认当前的语音超时情景为语音终止超时情景；判断在语音终止超时情景下后续语音交互中音频文件的时长是否大于第二预设时长，当后续语音交互中音频文件的时长大于第二预设时长时，在第二预设时间反馈第三预设回复语“好的！”。

当意群文本包含的句式不完整时，意群文本对应的语音超时情景为言语过多情景；判断在言语过多情景下后续语音交互中音频文件的时长是否大于第三预设时长，当后续语音交互中音频文件的时长大于第三预设时长时，在第三预设时间反馈第四预设回复语“对不起，小互还在学习当中，暂时无法理解言语过多的字段”。

当包含预设唤醒词时，判断意群文本包含的句式是否完整；当意群文本包含的句式完整时，确认当前的语音超时情景为语音终止超时情景；判断在语音终止超时情景下后续语音交互中音频文件的时长是否大于第二预设时长，当后续语音交互中音频文件的时长大于第二预设时长时，在第二预设时间反馈第五预设回复语“好的！”。

当意群文本包含的句式不完整时，意群文本对应的语音超时情景为言语过多情景；判断在言语过多情景下后续语音交互中音频文件的时长是否大于第三预设时长，当后续语音交互中音频文件的时长大于第三预设时长时，在第三预设时间反馈第六预设回复语“对不起，小互还在学习当中，暂时无法理解言语过多的字段”。

本实施例提供一种本申请提供的一种语音交互的方法，该方法包括：获取当前语音交互中的音频文件；将音频文件转换为意群文本；当识别出意群文本中仅包含预设唤醒词时，判断后续语音交互中音频文件的时长是否超过第一预设时长；当后续语音交互中音频文件的时长超过第一预设时长时，反馈第一预设回复语。通过规划合理的时长、及时反馈相关度高的回复语，根据合理的时长有规则的对语音交互进行反馈，可及时在最佳交互时长反馈相应提示语，提升了用户的体验感。

实施例二

图3为本申请实施例提供的一种语音交互的方法的另一流程示意图，如图3所示，本方法包括：用户通过交互式语音应答系统进行语音交互时，交互式语音应答系统获取语音识别的音频文件，根据预设条件确定该音频文件对应的语音超时情景为语音终止超时情景，无语音超时情景以及言语过多情景中的一个情景。根据语音超时情景下后续语音交互中音频文件的时长是否大于预设打断时长，当语音超时情景下后续语音交互中音频文件的时长超过预设打断时长时，进行语音打断。

自动语音识别引擎将音频文件转换为意群文本，语音用户界面系统判断后续语音交互中音频文件的时长是否大于预设时长，并在后续语音交互中音频文件的时长大于预设时长时，在预设时间反馈预设回复语以进行语音交互。

上述方法步骤的具体实施例过程可参见实施例一，本实施例在此不再重复赘述。

实施例三

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，该计算机程序被处理器执行时可以实现如下方法步骤：

S110：获取当前语音交互中的音频文件；

S120：将音频文件转换为意群文本；

S140：当后续语音交互中音频文件的时长超过所述第一预设时长时，反馈第一预设回复语。

实施例四

图4为本申请实施例提供的一种优化语音超时交互的装置200的连接框图，如图4所示，装置200包括：

获取模块201，被配制成获取当前语音交互中的音频文件；

转换模块202，被配置成将音频文件转换为意群文本；

执行模块203，被配置成当识别出意群文本中仅包含预设唤醒词时，判断后续语音交互中音频文件的时长是否超过所述第一预设时长；

输出模块204，被配置成当后续语音交互中音频文件的时长超过第一预设时长时，反馈第一预设回复语。

本公开还提供了一种优化语音超时交互的装置的另一种优选的实施例，在本实施例中，一种优化语音超时交互的装置包括：处理器，其中，处理器用于执行存储在存储器中的以下程序模块：获取模块，被配制成获取当前语音交互中的音频文件；转换模块，被配置成将音频文件转换为意群文本；执行模块，被配置成当识别出意群文本中仅包含预设唤醒词时，判断后续语音交互中音频文件的时长是否超过第一预设时长；输出模块，被配置成当后续语音交互中音频文件的时长超过第一预设时长时，反馈第一预设回复语。

实施例五

图5为本申请实施例提供的一种电子设备的连接框图300。如图5所示，该装置300可以包括：处理器301，存储器302，多媒体组件303，输入/输出(I/O)接口304，以及通信组件305。

其中，处理器301用于执行如实施例一中的语音交互的方法中的全部或部分步骤。存储器302用于存储各种类型的数据，这些数据例如可以包括电子设备中的任何应用程序或方法的指令，以及应用程序相关的数据。

处理器301可以是专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable LogicDevice，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述实施例一中的语音交互的方法。

存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

多媒体组件303可以包括屏幕和音频组件，该屏幕可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或通过通信组件发送。音频组件还包括至少一个扬声器，用于输出音频信号。

I/O接口304为处理器301和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。

通信组件305用于该电子设备与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件305可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

综上，本申请提供的一种语音交互的方法、装置、存储介质及电子设备，该方法包括：该方法包括：获取当前语音交互中的音频文件；将音频文件转换为意群文本；当识别出意群文本中仅包含预设唤醒词时，判断后续语音交互中音频文件的时长是否超过第一预设时长；当后续语音交互中音频文件的时长超过第一预设时长时，反馈第一预设回复语。通过规划合理的时长、及时反馈相关度高的回复语，根据合理的时长有规则的对语音交互进行反馈，可及时在最佳交互时长反馈相应提示语，提升了用户的体验感。基于语音识别技术，在语音识别转换过程中语音终止超时情景、无语音超时情景、言语过多情景，通过在预设时长反馈预设回复语，实现对语音超时情景的优化，解决了相关技术中无规则打断语音交互的问题。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的方法，也可以通过其它的方式实现。以上所描述的方法实施例仅仅是示意性的。

需要说明的是，在本文中，术语“包括”、“包含”者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然本申请所揭露的实施方式如上，但上述的内容只是为了便于理解本申请而采用的实施方式，并非用以限定本申请。任何本申请所属技术领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种语音交互的方法，其特征在于，所述方法包括：

获取当前语音交互中的音频文件；

将所述音频文件转换为意群文本；

当后续语音交互中音频文件的时长超过所述第一预设时长时，反馈第一预设回复语；

当识别出所述意群文本中仅包含预设唤醒词且所述意群文本包含句式完整时，判断后续语音交互中音频文件的时长是否超过第二预设时长，当后续语音交互中音频文件的时长超过所述第二预设时长，反馈第五预设回复语，其中，通过大数据库对比法确定意群文本包含的句式是否完整，包括：通过在数据库中查找意群文本包含的句子的句头进行对比，在比对结果在预设容差值内时对比成功，当句头对比成功时继续对比句腰以及句尾，最终群文本包含的句子的整句对比结果完全一致时，意群文本包含的句式是完整的，所述数据库中存储有整句文字。

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求3所述的方法，其特征在于，所述意群文本包含的句式是否完整通过以下步骤识别：

7.一种语音交互的装置，其特征在于，包括：

获取模块，被配制成获取当前语音交互中的音频文件；

转换模块，被配置成将所述音频文件转换为意群文本；

输出模块，被配置成当后续语音交互中音频文件的时长超过所述第一预设时长时，反馈第一预设回复语，当识别出所述意群文本中仅包含预设唤醒词且所述意群文本包含句式完整时，判断后续语音交互中音频文件的时长是否超过第二预设时长，当后续语音交互中音频文件的时长超过所述第二预设时长，反馈第五预设回复语，其中，通过大数据库对比法确定意群文本包含的句式是否完整，包括：通过在数据库中查找意群文本包含的句子的句头进行对比，在比对结果在预设容差值内时对比成功，当句头对比成功时继续对比句腰以及句尾，最终群文本包含的句子的整句对比结果完全一致时，意群文本包含的句式是完整的，所述数据库中存储有整句文字。

8.一种存储介质，其特征在于，该存储介质存储的计算机程序，可被一个或多个处理器执行，可用来实现如权利要求1-6任意一项所述的语音交互的方法。

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有计算机程序，该计算机程序被所述处理器执行时，执行如权利要求1-6任意一项所述的语音交互的方法。