CN114863929B

CN114863929B - 语音交互方法、装置、系统、计算机设备和存储介质

Info

Publication number: CN114863929B
Application number: CN202210807024.2A
Authority: CN
Inventors: 李进峰; 高爱玲; 赖晓荣; 杨雯绚
Original assignee: Shenzhen Renma Interactive Technology Co Ltd
Current assignee: Shenzhen Renma Interactive Technology Co Ltd
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2022-10-21
Anticipated expiration: 2042-07-11
Also published as: CN114863929A

Abstract

本申请涉及一种语音交互方法、装置、系统、计算机设备和存储介质。语音交互方法包括：接收语音控制机器人发送的待播报语音信息以及与所述待播报语音信息关联的控制指令；所述控制指令为针对所述待播报语音信息中的至少一个语句的控制指令；对所述待播报语音信息进行语音播报；基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息；基于所述语音输入信息，从所述语音控制机器人中获取响应语音信息，并对所述响应语音信息进行语音播报。上述方案能够针对性获取语音输入对应的响应语音信息，进而对响应语音信息进行播报，可以对语音输入进行可靠响应，实现与用户的智能语音交互。

Description

语音交互方法、装置、系统、计算机设备和存储介质

技术领域

本申请涉及网络技术领域，特别是涉及一种语音交互方法、装置、系统、计算机设备和存储介质。

背景技术

随着网络技术的发展，出现了智能语音交互技术，能够向用户输出语音并对用户输入的语音进行响应。

传统技术中，是比较机械地向用户输出所有语音，且无法对用户输入进行精准反馈，导致语音交互不够智能。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

基于此，有必要针对上述技术问题，提供一种能够实现智能语音交互的语音交互方法、装置、系统、计算机设备和存储介质。

在一实施例中，提供一种语音交互方法，所述方法包括：

接收语音控制机器人发送的待播报语音信息以及与所述待播报语音信息关联的控制指令；所述控制指令为针对所述待播报语音信息中的至少一个语句的控制指令；

对所述待播报语音信息进行语音播报；

基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息；

基于所述语音输入信息，从所述语音控制机器人中获取响应语音信息，并对所述响应语音信息进行语音播报。

在一实施例中，所述基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息，包括：

当所述控制指令为允许打断指令且在语音播报的允许打断时间段中监听到与至少一个语句对应的语音输入时，中断对所述待播报语音信息的语音播报，在语音输入结束时确定所述语音输入对应的语音输入信息。

在一实施例中，所述待播报语音信息包含至少一个交互节点；

所述在语音输入结束时确定所述语音输入对应的语音输入信息，包括：

获取语音输入对应的语音输入内容以及所述语音输入内容对应的输入时间，得到所述语音输入信息；

相应的，所述基于所述语音输入信息，从所述语音控制机器人中获取响应语音信息，包括：

基于所述输入时间在所述至少一个交互节点中确定所述语音输入内容对应的目标交互节点；

基于所述语音输入内容和所述目标交互节点从所述语音控制机器人中获取响应语音信息。

在一实施例中，所述基于所述语音输入信息，从所述语音控制机器人中获取响应语音信息，包括：

若所述允许打断指令携带时间反馈指令，则将所述语音输入内容和所述输入时间发送至所述语音控制机器人；

接收所述语音控制机器人获取的与所述语音输入内容和所述输入时间对应的响应语音信息。

在一实施例中，所述基于所述语音输入内容和所述目标交互节点从所述语音控制机器人中获取响应语音信息，包括：

将所述语音输入内容和所述目标交互节点发送至所述语音控制机器人；

接收所述语音控制机器人获取的与所述语音输入内容和所述目标交互节点对应的响应语音信息；所述语音控制机器人用于基于所述语音输入内容进行语义理解，基于语义理解的结果和所述目标交互节点确定用户意图，确定与所述用户意图相匹配的响应语音信息。

在一实施例中，所述基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息之后，还包括：

若基于所述语音输入信息未从所述语音控制机器人中获取到响应语音信息，则判定响应失败；

若所述待播报语音信息未播报完毕，则从中断位置继续对所述待播报语音信息进行语音播报。

若所述允许打断指令为任意打断指令，则在语音播报过程的任意时刻监听到与至少一个语句对应的语音输入时，确定所述语音输入对应的语音输入信息；

若所述允许打断指令为智能打断指令，确定所述待播报语音信息对应的允许打断时间段，当在所述允许打断时间段中监听到与至少一个语句对应的语音输入时，确定所述语音输入对应的语音输入信息。

在一实施例中，所述待播报语音信息包含至少一个语音播报端点；

所述确定所述待播报语音信息对应的允许打断时间段，包括：

根据预先设置的允许打断时长、允许打断起始端点和允许打断终止端点中的至少两项确定所述待播报语音信息对应的允许打断时间段。

在一实施例中，所述对所述待播报语音信息进行语音播报之后，还包括：

在所述控制指令为禁止打断指令的情况下，当在语音播报的过程中监听到与至少一个语句对应的语音输入时，或者，在所述控制指令为允许打断指令的情况下，当在语音播报的禁止打断时间段中监听到与至少一个语句对应的语音输入时，继续对所述待播报语音信息进行语音播报，并在语音播报的过程中获取所述语音输入对应的语音输入信息；

在所述待播报语音信息中的至少一个语句结束播报后，基于所述语音输入信息从所述语音控制机器人中获取响应语音信息，并对所述响应语音信息进行语音播报。

在一实施例中，所述语音控制机器人为语音文本控制机器人；

所述基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息之后，还包括：

若所述控制指令为允许打断指令，则将所述语音输入信息中的语音输入内容发送给语音识别器；接收所述语音识别器识别所述语音输入内容后返回的语音文本；将所述语音文本发送给所述语音文本控制机器人，接收所述语音文本控制机器人对所述语音文本进行分析后得到的响应文本信息；基于所述响应文本信息得到所述响应语音信息；

若所述控制指令为禁止打断指令且所述禁止打断指令携带禁止识别指令，则在对所述待播报语音信息进行语音播报的过程中监听到与至少一个语句对应的语音输入时，忽略所述语音输入；

若所述控制指令为禁止打断指令且所述禁止打断指令携带允许识别指令，则在对所述待播报语音信息进行语音播报的过程中监听到与至少一个语句对应的语音输入时，将所述语音输入对应的语音输入信息发送给语音识别器后忽略所述语音识别器返回的语音文本。

在一实施例中，所述待播报语音信息包含至少一个交互节点，所述至少一个交互节点中包含输入启动节点，所述控制指令为输入反馈控制指令；

在所述待播报语音信息中的至少一个语句结束播报后到达所述输入启动节点；

若在第一预设时间范围内获取到语音输入，则启动下一交互节点，并基于所述语音输入对应的语音输入信息获取响应语音信息，对所述响应语音信息进行语音播报；

若在所述第一预设时间范围内未获取到语音输入，则响应于所述输入反馈控制指令，从所述语音控制机器人中获取追问语音信息并对所述追问语音信息进行语音播报；若在追问语音信息播报后的第二预设时间范围内未获取到语音输入，则从所述语音控制机器人中获取结束语音信息，对所述结束语音信息进行语音播报，并结束当前语音交互。

确定在交互节点未获取到语音输入的次数；

若所述交互节点未获取到语音输入的次数超过预设的数量阈值，则从所述语音控制机器人中获取追问语音信息并对所述追问语音信息进行语音播报；若在追问语音信息播报后的预设时间范围内未获取到语音输入，则从所述语音控制机器人中获取结束语音信息，对所述结束语音信息进行语音播报，并结束当前语音交互。

在一实施例中，提供一种语音交互方法，包括：

获取待播报语音信息和与所述待播报语音信息关联的控制指令；所述控制指令为针对所述待播报语音信息中的至少一个语句的控制指令；

向控制端发送所述待播报语音信息和所述控制指令，以使得所述控制端对所述待播报语音信息进行语音播报；

接收所述控制端发送的与至少一个语句对应的语音输入信息；所述语音输入信息由所述控制端基于所述控制指令在语音播报过程中获取到；

向所述控制端发送与所述语音输入信息对应的响应语音信息，以使得所述控制端对所述响应语音信息进行语音播报。

所述方法，还包括：

对所述至少一个交互节点的语音输入信息进行预测，得到预测语音输入信息；

基于所述预测语音输入信息确定用户意图预测信息；

确定与所述用户意图预测信息对应的响应语音信息，得到响应语音信息库；

相应的，所述向所述控制端发送与所述语音输入信息对应的响应语音信息，包括：

确定与所述语音输入信息对应目标用户意图预测信息；

基于所述用户意图预测信息从所述响应语音信息库中获取对应的响应语音信息，并向所述控制端发送所述响应语音信息。

在一实施例中，提供一种语音交互装置，所述装置包括：

第一信息接收模块，用于接收语音控制机器人发送的待播报语音信息以及与所述待播报语音信息关联的控制指令；所述控制指令为针对所述待播报语音信息中的至少一个语句的控制指令；

语音播报模块，用于对所述待播报语音信息进行语音播报；

输入信息获取模块，用于基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息；

响应播报模块，用于基于所述语音输入信息，从所述语音控制机器人中获取响应语音信息，并对所述响应语音信息进行语音播报。

在一实施例中，提供一种语音交互装置，所述装置包括：

信息获取模块，用于获取待播报语音信息和与所述待播报语音信息关联的控制指令；所述控制指令为针对所述待播报语音信息中的至少一个语句的控制指令；

信息发送模块，用于向控制端发送所述待播报语音信息和所述控制指令，以使得所述控制端对所述待播报语音信息进行语音播报；

第二信息接收模块，用于接收所述控制端发送的与至少一个语句对应的语音输入信息；所述语音输入信息由所述控制端基于所述控制指令在语音播报过程中获取到；

响应发送模块，用于向所述控制端发送与所述语音输入信息对应的响应语音信息，以使得所述控制端对所述响应语音信息进行语音播报。

在一实施例中，提供一种语音交互系统，所述系统包括：语音控制机器人和控制端；

所述语音控制机器人，用于获取待播报语音信息和与所述待播报语音信息关联的控制指令，向所述控制端发送所述待播报语音信息和所述控制指令；所述控制指令为针对所述待播报语音信息中的至少一个语句的控制指令；

所述控制端，用于对所述待播报语音信息进行语音播报；基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息，将所述语音输入信息发送至所述语音控制机器人；

所述语音控制机器人，还用于向所述控制端发送与所述语音输入信息对应的响应语音信息；

所述控制端，还用于对所述响应语音信息进行语音播报。

在一实施例中，提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述语音交互方法的步骤。

在一实施例中，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述语音交互方法的步骤。

上述语音交互方法、装置、系统、计算机设备和存储介质，接收语音控制机器人发送的待播报语音信息以及与待播报语音信息关联的控制指令，对待播报语音信息进行语音播报；基于控制指令确定语音播报过程中的语音输入信息，基于语音输入信息从语音控制机器人中获取响应语音信息；对响应语音信息进行语音播报。能够结合控制指令对语音播报过程进行执行控制以及对语音播报进行打断控制，进而得到语音输入信息，还能结合控制指令实现响应控制并针对性获取语音输入对应的响应语音信息，对响应语音信息进行播报，该响应语音信息是结合控制指令以及话语中的语句对应的语音输入得到的，具有较高的可靠性，可以对语音输入进行可靠响应，实现与用户的智能语音交互。

附图说明

图1为一个实施例中语音交互方法的应用环境图；

图2为一个实施例中语音交互方法的流程示意图；

图3为另一个实施例中语音交互方法的流程示意图；

图4为一个实施例中语音交互装置的结构框图；

图5为另一个实施例中语音交互装置的结构框图；

图6为一个实施例中语音交互系统的结构框图；

图7为一个实施例中计算机设备的内部结构图；

图8为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的语音交互方法，可以应用于如图1所示的包含语音控制机器人101和控制端102的应用环境中。其中，语音控制机器人101通过网络与控制端102进行通信。语音控制机器人向控制端发送待播报语音信息以及与待播报语音信息关联的控制指令，控制端对待播报语音信息进行语音播报；基于控制指令获取语音播报过程中与至少一个语句对应的语音输入信息，将语音输入信息发送至语音控制机器人；语音控制机器人向控制端发送与语音输入信息对应的响应语音信息；控制端对响应语音信息进行语音播报。其中，控制端中配置有收音器，能够接收用户的语音输入，可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，语音控制机器人可以为终端也可以为服务器，其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。需要说明的是，图1中仅示出了一个语音控制机器人和一个控制端。在实际的应用场景中，语音控制机器人和控制端均可以为一个以上，即，可以一个语音控制机器人对多个控制端进行控制并基于这些控制端返回的语音输入信息生成对应的响应语音信息，也可以一个控制端受多个语音控制机器人的控制并可以根据语音交互的场景从对应的某个或某些语音控制机器人获取语音输入信息对应的响应语音信息，例如：对于网上购物场景，则可以从处理网购业务的语音控制机器人中获取语音输入信息对应的响应语音信息，对于网页小说场景，则可以从处理网页小说业务的语音控制机器人中获取语音输入信息对应的响应语音信息。

在一个实施例中，如图2所示，提供了一种语音交互方法，本实施例以该方法应用于控制端进行举例说明。该控制端可以执行语音控制机器人发送的控制指令并对语音控制机器人发送的待播报语音信息进行语音播报，同时，控制端还可以与用户进行交互，具体可以是获取语音输入信息，基于语音输入信息从语音控制机器人获取响应语音信息进而向用户输出响应语音信息。换句话说，控制端可以作为语音控制机器人和用户之间沟通的中间设备。

该语音交互方法包括以下步骤：

S201，接收语音控制机器人发送的待播报语音信息以及与所述待播报语音信息关联的控制指令；所述控制指令为针对所述待播报语音信息中的至少一个语句的控制指令。

其中，语音控制机器人可以称为robot，也可以简称为bot。待播报语音信息为待进行语音播报的语音信息，可以为一个语句，也可以是包含多个语句的话语。

可选的，待播报语音信息可以为文本信号。进一步地，控制端可以接收语音控制机器人发送的待播报语音文本。

其中，控制指令用于对与待播报语音信息有关联的执行行为进行控制。可选的，控制指令可以对是否可以打断语句或话语进行标识，也可以对是否需要用户输入进行标识，还可以对语音播报的时间、方式进行控制，还可以对如何对响应用户输入进行响应。控制端在接收到控制指令时，可以在当前没有语音播报的情况下即刻对待播报语音信息进行语音播报。进一步地，控制指令可以是用于对待播报语音信息整体进行播报控制的指令，也可以是对待播报语音信息中的某个或某些语句进行播报控制的指令。在某些情况下，控制指令对应有优先级。可选的，针对于话语的话语控制指令和针对于某个语句的语句控制指令中，话语控制指令优先级更高。控制端可以接收管理者输入的优先级调整指令，基于该优先级调整指令对针对于话语的话语控制指令的优先级和/或针对于某个语句的语句控制指令的优先级进行调整，例如：对于话语中的某个语句，调高针对于该语句的语句控制指令的优先级，使其优先级高于针对于话语的话语控制指令，如此，在执行针对于话语的话语控制指令时，若执行到话语中的该语句时，优先适应针对于该语句的语句控制指令。通过针对于话语的话语控制指令可以对待播报语音信息中的语句进行整体批量控制。通过针对于某个语句的语句控制指令可以对某个语句进行单独控制。

可选的，可以接收语音控制机器人依次发送的单个语句，也可以接收语音控制机器人一次性发送的包含多个语句的话语，还可以接收语音控制机器人一次性发送的包含多个话语的语音信息。而控制指令跟随对应的语句或话语发送。

S201的实现过程可以为：控制端接收语音控制机器人发送的待播报语音信息以及与待播报语音信息关联的控制指令，确定与各个语句对应的控制指令，以对话语中的语句进行整体或单独控制。

S202，对所述待播报语音信息进行语音播报。

可选的，可以分时间段逐个地对待播报语音信息中的语句进行语音播报，每播报完一个语句后停顿一定的时间，在停顿的时间内可以接收用户的语音输入；也可以在一个时间段内对待播报语音信息中的多个语句进行连续播报。其中，可以基于控制指令确定停顿时间，每播报完一个语句后按照停顿时间进行停顿。

可选的，可以在语音播报的过程中接收用户的语音输入，并基于控制指令对语音输入进行针对性响应，例如：当基于控制指令确定允许打断时，则对语音输入进行响应，当基于控制指令确定禁止打断时，则不对语音输入进行响应或者进行延迟响应。

可选的，S202的实现过程可以为：当待播报语音信息为文本形式时，将文本形式的待播报语音信息转换为音频形式并进行播报。

S203，基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息。

其中，语音输入信息为与用户的语音输入相关的信息，可以包括具体的语音输入内容，也可以包括语音输入对应的输入时间，还可以包括语音输入反馈信息（例如，无语音输入时，反馈信息为无输入，有语音输入时，反馈信息为有输入）。其中，语音输入内容可以为进行语音输入的声音内容，语音输入内容对应的输入时间可以为语音输入的起始时间、输入时长等。

S203的实现过程可以为：基于控制指令，确定各个语句是否存在语音输入，在无语音输入时生成无输入的反馈信息，在有语音输入时生成有输入的反馈信息，并确定语音输入内容和输入时间等信息，将这些信息作为语音输入信息。

S204，基于所述语音输入信息，从所述语音控制机器人中获取响应语音信息，并对所述响应语音信息进行语音播报。

其中，响应语音信息为对语音输入信息进行分析后得到的能够对该语音输入信息进行回复或者引导用户进行下一步的语音输入的响应信息。与待播报语音信息类似，响应语音信息也可以为一个语句或者包含多个语句的话语。

可选的，控制端可以将语音输入信息转换为文本信息，将文本信息发送给语音控制机器人，以使得语音控制机器人通过对文本信息进行语义理解后，找到用于对语音信息进行反馈的语音响应信息，并接收该语音控制机器人返回的响应语音信息，对响应语音信息中的语句进行语音播报。

可选的，在返回响应语音信息时，语音控制机器人也可以同步发送与响应语音信息对应的控制指令，以使得控制端对响应语音信息进行语音播报控制并基于该控制指令进行语音播报和语音输入控制。

上述语音交互方法中，能够结合控制指令对语音播报过程进行执行控制以及对语音播报进行打断控制，进而得到语音输入信息，还能结合控制指令实现响应控制并针对性获取语音输入对应的响应语音信息，对响应语音信息进行播报，该响应语音信息是结合控制指令以及话语中的语句对应的语音输入得到的，具有较高的可靠性，可以实现与用户的智能语音交互。

在一实施例中，所述基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息，包括：当所述控制指令为允许打断指令且在语音播报的允许打断时间段中监听到与至少一个语句对应的语音输入时，中断对所述待播报语音信息的语音播报，在语音输入结束时确定所述语音输入对应的语音输入信息。

其中，控制指令包括评估是否可以对语音播报进行打断的控制指令，该控制指令可以通过携带的打断条件标识来进行控制。进一步地，控制指令可以表征是否可以对整个话语进行打断，也可以表征是否可以对话语中某个语句进行打断（此时的标识可以为多个）。进一步地，打断条件标识可以包括允许打断标识和禁止打断标识。当控制指令携带的打断条件标识为允许打断标识时，该控制指令为允许打断指令，允许打断指令表征可以对待播报语音信息进行打断；当控制指令携带的打断条件标识为禁止打断标识时，该控制指令为禁止打断指令，该禁止打断指令表征不可以对待播报语音信息进行打断。其中，允许打断标识可以进一步包括任意打断标识和智能打断标识。任意打断标识表示可以在语音播报的任意时间对待播报语音信息进行播报打断，对应的控制指令为任意打断指令；智能打断标识表示可以在特定的时间段内对待播报语音信息进行打断而在其他时间段内不允许打断，对应的控制指令为任意打断指令。

其中，允许打断时间段为能够接收用户的语音输入并可以对该语音输入进行响应的时间段，相应的，禁止打断时间段为无法接收用户的语音输入的时间段或者即使接收到用户的语音输入也不会对该语音输入进行响应的时间段。

在一实施例中，允许打断时间段可以大于、等于或小于具体语句的播报时长，时间范围的端点可在具体语句的播报时长之内或之外。

控制端基于机器人发送的待播报语音信息进行语音播报，如果基于控制指令确定允许打断，则获取允许打断时间段的用户语音输入，据此从机器人中获取响应语音信息，并基于响应语音信息进行语音播报，以与用户进行语音交互，如果基于控制指令确定禁止打断，则对用户语音输入不进行响应或者推迟响应。能够结合控制指令来获取语音输入信息，进而针对性获取语音输入对应的响应语音信息，对响应语音信息进行播报，该响应语音信息是结合控制指令的类型以及语音输入得到的，具有较高的可靠性，可以实现与用户的智能语音交互。

在一实施例中，所述待播报语音信息包含至少一个交互节点；所述在语音输入结束时确定所述语音输入对应的语音输入信息，包括：获取语音输入对应的语音输入内容以及所述语音输入内容对应的输入时间，得到所述语音输入信息；相应的，所述基于所述语音输入信息，从所述语音控制机器人中获取响应语音信息，包括：基于所述输入时间在所述至少一个交互节点中确定所述语音输入内容对应的目标交互节点；基于所述语音输入内容和所述目标交互节点从所述语音控制机器人中获取响应语音信息。

其中，交互节点为能够接收用户语音输入的节点，可以为预先确定的可能被用户打断的点。可选的，交互节点可以指时间段也可以指时间点，当交互节点指时间段时，可以在该时间段内的任意时间接收语音输入。一个语句可以对应有至少一个交互节点。例如，一个语句中，可能有三四个信息点会被打断。进一步的，目标交互节点可以为这些交互节点中具有特定交互意义的节点，例如，可以将语句停顿处的交互节点确定为目标交互节点，举例如下：将接近于语句的播报结束点的交互节点确定为目标交互节点。在获取到目标交互节点后，语音控制机器人能够知晓当前打断所对应的语句并确定语句中的含义，进而可以针对性确定响应语音信息。

可选的，对交互节点举例说明如下：假设待播报语音信息对应的完整话语为：“我是招商银行的客服（3s），给您来电是因为您尾号为4310（6s）的信用卡逾期了，想跟您了解下情况（问号）”。其中，3s和6s分别表示语音播报所花费的时间。对于一个交互节点对应一个时间段的情况，目标交互节点可以为2~3s和5s~6s。对于一个交互节点对应一个时间点的情况，目标交互节点可以为第3s（第一个目标交互节点）和第6s（第二个目标交互节点）。其中，时间点可以为100ms、500ms、1s、2s等。

以时间点为例，对目标交互节点的确定过程进行举例：

情况1：播报“您好，我是招商银行的客服。”

打断1：“什么银行（问号）”

该打断对应的是第3s的交互节点，因此是第一个目标交互节点被打断，据此将“什么银行”作为语音输入内容并将第3s作为目标交互节点，据此从语音控制机器人中获取语音控制机器人基于语音输入内容和目标交互节点进行双重判断后得到的响应语音信息：“招商银行”。

情况2：播报“您好，我是招商银行的客服，给您来电是因为您尾号为0001的信用卡逾期了。”

打断2：“尾号多少（问号）0001（问号）我没有这张卡。”

该打断对应的是第6s的交互节点，因此是第二个目标交互节点被打断，据此将“尾号多少（问号）0001（问号）我没有这张卡”作为语音输入内容并将第6s作为目标交互节点，据此从语音控制机器人中获取响应语音信息：“尾号0001”。另外，响应语音信息也可以为引导语音信息，即能够引导用户进行下一步交互的信息，例如，对于前述第2种情况下的打断，可以得到响应语音信息：“那请问您是周XX先生吗（问号）”（如果是的，没找错人，初步评估用户忘了），那可以继续对情况2的后续语句进行播报。

可选的，可以将待播报语音信息按照固定的时间长度划分为至少一个时间段，这些时间段称为语音播报时间段，而对时间段进行划分的端点称为语音播报端点，当时间长度足够小时（例如：为0.5s、1s等）也可以将语音播报时间段称为语音播报时间点，此时可以确定语音输入所对应的具体时间点；也可以将待播报语音信息划分为至少一个语句，每个语句对应的播报时间段称为语音播报时间段，而语句之间的端点称为语音播报端点。进一步地，语音播报时间段和语音播报端点都可以作为前述交互节点。可选的，控制端可以在语音播报的过程中进行计时，通过计时以及语速等可以确定当前所在的交互节点。

可选的，控制端在监听到语音输入时，确定语音输入的起始时间，将该起始时间作为语音输入内容对应的输入时间。在某些情况下，语音输入内容可以称为打断内容，输入时间也可以称为打断时间。

可选的，若在允许打断时间段内播报被打断，控制端可以在打断内容后添加打断时间，形成请求序列，向bot发送该请求序列。bot根据请求序列中的打断内容和打断时间确定对应的打断处理方式，进而对打断进行响应处理。

可选的，基于输入时间在至少一个交互节点中确定语音输入内容对应的目标交互节点的实现过程可以为：确定输入时间所在的语音播报时间段，将对应的语音播报时间段确定为目标交互节点。之后可以基于语音输入内容和语音播报时间段从语音控制机器人中获取响应语音信息。

可选的，上述实施例的实现过程可以细化为：当打断条件标识为允许打断标识且在语音播报的允许打断时间段中监听到语音输入时，中断对待播报语音信息的语音播报，在语音输入结束时获取对应的语音输入内容以及语音输入内容对应的输入时间，得到语音输入信息。进一步地，当打断条件标识为允许打断标识且在语音播报的允许打断时间段中监听到语音输入时，也可以对当前正在播报的语句进行继续播报，并在播报过程中监听语音输入，在该语句播报结束时中断对下一语句的播报，在语音输入结束时获取对应的语音输入内容以及语音输入内容对应的输入时间，得到语音输入信息。进而基于输入时间确定目标交互节点，基于语音输入内容和目标交互节点从语音控制机器人中获取响应语音信息。

上述实施例，基于语音的输入时间确定目标交互节点，并基于语音输入内容和目标交互节点来从语音控制机器人中获取基于双重信息确定的更为精准的语音响应信息，能实现精准的智能语音交互。

在一实施例中，所述待播报语音信息包含至少一个语音播报端点；所述确定所述待播报语音信息对应的允许打断时间段，包括：根据预先设置的允许打断时长、允许打断起始端点和允许打断终止端点中的至少两项确定所述待播报语音信息对应的允许打断时间段。

可选的，可以批量设置或单独修改允许打断时间段，例如：获取针对于待播报语音信息而统一设置的允许打断时间段，当确定某个待播报语音信息的播报时长明显超过其他待播报语音信息时，则可以对该待播报语音信息进行针对性修改。语句时长是可通过播报获取的，因此可以在播报过程获取语句中各交互节点对应的时间，基于交互节点的对应时间针对文本设置允许打断时间段。

对允许打断时间段举例说明如下：如待播报语音信息的播报时长为10秒，可设置允许打断时长为7秒；允许打断时间段为播报开始到播报第7秒（也可以是播报第5秒到播报第12秒，通常情况下，时间范围的起始端点为0秒），以使0~7秒可打断，7~10秒不可打断（控制端仍会在7~10秒对用户语音输入做监听），更便利于中后段的语音播报，避免被打断后播报信息丢失。

上述实施例中，基于多种信息来确定允许打断时间段，进而基于该允许打断时间段来对语音输入进行响应，能够实现对重要的待播报语音信息进行智能打断，避免不必要的打断导致重要信息的丢失。

在一实施例中，所述基于所述语音输入信息，从所述语音控制机器人中获取响应语音信息，包括：若所述允许打断指令携带时间反馈指令，则将所述语音输入内容和所述输入时间发送至所述语音控制机器人；接收所述语音控制机器人获取的与所述语音输入内容和所述输入时间对应的响应语音信息。

其中，时间反馈指令表征需要对语音输入时间进行反馈，该时间反馈指令可以认为是允许打断指令的二级指令。因此，控制端在向语音控制机器人发送语音输入内容时附带上输入时间。语音控制机器人能对语音输入内容进行用户意图理解之后结合输入时间确定出用户画像，进而可以得到更为精准的响应语音信息。

上述实施例中，通过允许打断指令和时间反馈指令两级的控制指令来确定需要向语音控制机器人发送的信息，能够在包含时间反馈指令时基于语音输入内容和输入时间这两种信息来从语音控制机器人中获取响应语音信息。该响应语音信息的是基于对语音输入内容和输入时间的双重判断来获取的，能更为充分准确地对用户意图进行响应，实现准确的智能语音交互。

在一实施例中，所述基于所述语音输入内容和所述目标交互节点从所述语音控制机器人中获取响应语音信息，包括：将所述语音输入内容和所述目标交互节点发送至所述语音控制机器人；接收所述语音控制机器人获取的与所述语音输入内容和所述目标交互节点对应的响应语音信息；所述语音控制机器人用于基于所述语音输入内容进行语义理解，基于语义理解的结果和所述目标交互节点确定用户意图，确定与所述用户意图相匹配的响应语音信息。

可选的，控制端将语音输入内容转换为文本信息，将该文本信息和目标交互节点发送给语音控制机器人。语音控制机器人将文本信息转换为依存图的形式，进而通过知识图谱中的依存图匹配上用户意图，并在问答知识图谱匹配图中确定对应的回复，将匹配图中的回复转换为回复文本，得到响应语音信息。

上述实施例中，响应语音信息是基于对语音输入内容和目标交互节点的双重判断来获取的，能基于语音输入内容进行语义分析来确定用户意图，还能进一步基于目标交互节点中包含的时间信息来确定用户意图和对话态度，进而可以更为充分准确地对用户意图进行响应，即，通过目标交互节点可以进一步确定响应语音信息，实现精准化、智能化的语音交互。另一方面，控制端能够从语音控制机器人中获取到响应语音信息，说明能够对语音输入进行回应，因此针对性回应，能够提高语音交互的针对性和智能性。另外，在允许打断的情况下，如果监听到语音输入，则中断语音播报而获取语音输入内容和输入时间，基于输入时间确定目标交互节点，而语音控制机器人可以预先对目标交互节点设置响应语音信息，因此，可以基于语音输入内容和目标交互节点从语音控制机器人快速地获取到准确的响应语音信息，能够提高语音交互的效率和准确性。

在一实施例中，所述基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息之后，还包括：若基于所述语音输入信息未从所述语音控制机器人中获取到响应语音信息，则判定响应失败；若所述待播报语音信息未播报完毕，则从中断位置继续对所述待播报语音信息进行语音播报。

对于允许打断的情况，在播报被用户打断后，需要确定能否对用户的打断进行回应；能回应上，则打断成功，回复对应话术，或跳转至其他话术分支进行接续（这种情况下，当前轮和当前轮正常的下一轮可能均不再继续播报，当然，可以在后续能接上时再播报）；而如果无法回应上，则打断失败，可以从被打断的位置继续当前的播报。

对能回应和不能回应的情况举例说明如下：

（1）能回应的情况：

播报：“您好，我是招商银行的客服。”

打断：“我没有招行卡，也不需要。”

当获取到响应语音信息“那请问您是周XX先生吗（问号）”，则进行语音播报。

如果是的，没找错人，用户忘了。则通过话术引导的方式基于与用户进行语音交互。

（2）不能回应的情况：

播报：“您好，我”

打断：“好什么好，不好。”（此时无法回应）

从中断位置进行继续播报：“我是招商银行的客服，给您来电是因为您尾号为4310的信用卡逾期了”。

上述实施例中，若语音控制机器人无法基于语音输入信息获取到响应语音信息，则控制端也无法从语音控制机器人中获取到响应语音信息，此时控制端判定响应失败，即无法对语音输入进行响应，此时可以不对语音输入进行响应，而是继续对未播报完的待播报语音消息进行语音播报。能在无法响应时继续对待播报语音信息进行播报，保证交互的持续性。

在其他实施例中，控制端也可以在语音控制机器人未获取到响应语音信息时，获取响应失败反馈语音，例如：“抱歉，我不明白你在说什么，可以再说一遍吗（问号）”并基于用户的语音输入进行下一步响应。

在一实施例中，所述基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息，包括：若所述允许打断指令为任意打断指令，则在语音播报过程的任意时刻监听到与至少一个语句对应的语音输入时，确定所述语音输入对应的语音输入信息；若所述允许打断指令为智能打断指令，确定所述待播报语音信息对应的允许打断时间段，当在所述允许打断时间段中监听到与至少一个语句对应的语音输入时，确定所述语音输入对应的语音输入信息。

可选的，当基于控制指令确定可以对待播报语音信息进行任意打断时，在语音播报的任意时刻接收到语音输入，都可以基于对应的语音输入信息进行即时响应；而基于控制指令确定可以对待播报语音信息进行智能打断时，则仅在语音播报的允许打断时间段接收到语音输入时，才基于对应的语音输入信息进行即时响应，而其他情况则不进行即时响应，甚至不进行响应。

通过上述实施例这样方式，能够对不同的待播报语音信息进行不同的响应处理，对于重要且连续性强的待播报语音信息，可以通过智能打断的方式保证播报不被打断，而对于重要性和连续性没那么强的待播报语音信息，则可以允许任意打断，以尽快对用户输入进行响应，提高用户体验。

在一实施例中，对于控制指令为禁止打断指令的情况下，在语音播报的过程中监听到语音输入时，可以直接对语音输入进行无视，即不对语音输入进行响应。

在一实施例中，所述对所述待播报语音信息进行语音播报之后，还包括：在所述控制指令为禁止打断指令的情况下，当在语音播报的过程中监听到与至少一个语句对应的语音输入时，继续对所述待播报语音信息进行语音播报，并在语音播报的过程中获取所述语音输入对应的语音输入信息；在所述待播报语音信息中的至少一个语句结束播报后，基于所述语音输入信息从所述语音控制机器人中获取响应语音信息，并对所述响应语音信息进行语音播报。

在一实施例中，对于控制指令中包含追加标识的情况（也可以认为包含禁止打断指令和追加内容指令两种指令，该追加内容指令为禁止打断指令的二级指令），还可以对未及时回复的情况进行追加回复。

在一实施例中，所述对所述待播报语音信息进行语音播报之后，还包括：在所述控制指令为允许打断指令的情况下，当在语音播报的禁止打断时间段中监听到与至少一个语句对应的语音输入时，继续对所述待播报语音信息进行语音播报，并在语音播报的过程中获取所述语音输入对应的语音输入信息；在所述待播报语音信息中的至少一个语句结束播报后，基于所述语音输入信息从所述语音控制机器人中获取响应语音信息，并对所述响应语音信息进行语音播报。

可选的，存在禁止打断控制指令和追加内容指令，该追加内容指令用于触发控制端在结束当前语句或者话语的播报后，对从语音播报机器人处获取的响应语音信息进行语音播报。控制端将用户语音输入的打断信息发送至bot。bot做内容匹配，若能匹配到回答，将匹配到的回答添加到追加内容指令指定的文本位置之后进行播报。其中，追加内容指令可携带追加位置，即，可指定追加位置。

对上述实施例举例说明如下：

对于包含两个片段的文本=片段A+片段B

追加的两种方案如下：

方案1当前片段之后（片段A之后）追加回复。方案1用于当前文本信息重要性及连续性特别强的情况。这种情况不允许打断，但又因当前文本特别长，一直不对用户打断进行回复，用户可能会失去认真听的耐心，因此在文本内容中断处做一次回复再继续播报。

方案2最终片段之后（片段B之后）追加回复。方案2用于当前文本信息重要性及连续性特别强的情况，这种情况不允许打断，且当前文本比较短，可以一次性说完再回复。

假设待播报语音信息对应的当前文本为：我是招商银行的客服（片段A），给您来电是因为您尾号为4310的信用卡逾期了（片段B）。

对于方案1，其实现方式为：控制端播报片段A“我是招商银行的客服”的过程中，用户打断“什么银行”，控制端一直播报完片段A，再回复“招商银行”，并继续播报片段B“给您来电是因为您尾号为4310的信用卡逾期了”。

对于方案2，其实现方式为：控制端播报片段A和B“我是招商银行的客服，给您来电是因为您尾号为4310的信用卡逾期了”的过程中，用户打断“尾号是多少（问号）”，控制端一直播报完片段A和片段B，再追加针对打断的回复：“我是招商银行的客服”。

上述实施例中，对于禁止打断的情况，如果语音播报的过程中接收到语音输入，则当特定语句播报完之后再对语音输入进行响应；另外，对于智能打断的情况，如果在允许打断时间段之外的禁止打断时间段中接收到语音输入，也在特定语句播报完之后再对语音输入进行响应。通过这样的方式，能够保证重要且连续性强的语句一次性播报完毕，保证语音输出效果。

在一实施例中，所述语音控制机器人为语音文本控制机器人；所述基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息之后，还包括：若所述控制指令为允许打断指令，则将所述语音输入信息中的语音输入内容发送给语音识别器；接收所述语音识别器识别所述语音输入内容后返回的语音文本；将所述语音文本发送给所述语音文本控制机器人，接收所述语音文本控制机器人对所述语音文本进行分析后得到的响应文本信息；基于所述响应文本信息得到所述响应语音信息；若所述控制指令为禁止打断指令且所述禁止打断指令携带禁止识别指令，则在对所述待播报语音信息进行语音播报的过程中监听到与至少一个语句对应的语音输入时，忽略所述语音输入；若所述控制指令为禁止打断指令且所述禁止打断指令携带允许识别指令，则在对所述待播报语音信息进行语音播报的过程中监听到与至少一个语句对应的语音输入时，将所述语音输入对应的语音输入信息发送给语音识别器后忽略所述语音识别器返回的语音文本。

其中，语音文本控制机器人为能够对语音信息对应的文本进行分析并输出响应文本的机器人。语音识别器为能够对语音信息进行文本转换的器件或设备，可以为能够实现ASR（Automatic Speech Recognition，自动语音识别技术）的器件或设备。

可选的，控制端在语音播报过程中，保持对用户语音输入的监听，若有用户语音输入，在判断用户语音输入结束后；将用户语音输入发送至语音识别器ASR，语音识别器ASR将语音识别为文本。控制端将所识别的文本发给语音控制机器人，语音控制机器人返回响应语音文本以及当前轮指令，控制端处理当前轮指令，以实现对用户的响应。

可选的，在某些情况下，调用语音识别器ASR按字收费。因此，控制端可以根据与语句对应的控制指令（上一轮指令）决定是否将语音输入信息发送至语音识别器ASR识别。如果与语句对应的控制指令是无视输入（不允许打断也不做回复）的控制指令，则不将语音输入信息发送给语音识别器ASR识别，如果与语句对应的控制指令是允许打断的控制指令，则将语音输入信息发送给语音识别器ASR识别，并将语音识别器ASR识别的文本发送至语音文本控制机器人，并接收语音文本控制机器人返回的响应语音信息。通过这样的方式，能够有效节省文本识别的费用。

上述实施例，在打断指令（包括允许打断指令和禁止打断指令）和识别指令（允许识别指令和禁止识别指令）控制下，通过语音识别器将语音输入内容转换为语音文本，进而将语音文本发送给语音文本控制机器人，以使得语音文本控制机器人基于语音文本得到对应的响应文本信息，得到响应语音信息，进而实现响应语音的播报。在换句话说，在允许打断的情况下，控制端将语音输入发送给ASR进行文本识别，并将ASR识别的文本发送至语音文本控制机器人来获取对应的响应文本。同时，在基于控制指令确定不允许对待播报语音信息进行打断时，对所接收的语音输入进行忽略而不发送给语音识别器，或者对语音识别器基于语音输入得到的语音文本进行忽略而不发送给语音文本控制机器人，可以在一定程度上降低语音文本控制机器人的运行压力，保证语音文本控制机器人对正常语音输入的即时响应。通过语音和文本转换的方式，能够在控制端的语音输入与语音文本控制机器人之间准确地进行数据的传输，进而实现准确的语音响应。

在一实施例中，所述待播报语音信息包含至少一个交互节点，所述至少一个交互节点中包含输入启动节点，所述控制指令为输入反馈控制指令；所述基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息之后，还包括：在所述待播报语音信息中的至少一个语句结束播报后到达所述输入启动节点；若在第一预设时间范围内获取到语音输入，则启动下一交互节点，并基于所述语音输入对应的语音输入信息获取响应语音信息，对所述响应语音信息进行语音播报；若在所述第一预设时间范围内未获取到语音输入，则响应于所述输入反馈控制指令，从所述语音控制机器人中获取追问语音信息并对所述追问语音信息进行语音播报；若在追问语音信息播报后的第二预设时间范围内未获取到语音输入，则从所述语音控制机器人中获取结束语音信息，对所述结束语音信息进行语音播报，并结束当前语音交互。

其中，输入启动节点可以为在语音输入满足启动条件时才会启动下一交互节点的交互节点。

可选的，当前语句播报完成，若超过预设时间阈值未监测到有语音信息输入，控制端发送未监测到输入信息的信号给bot，进而追问获取用户输入，若继续无输入，则控制端播报结束语终结通话。

在一实施例中，所述待播报语音信息包含至少一个交互节点；所述基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息之后，还包括：确定在交互节点未获取到语音输入的次数；若所述交互节点未获取到语音输入的次数超过预设的数量阈值，则从所述语音控制机器人中获取追问语音信息并对所述追问语音信息进行语音播报；若在追问语音信息播报后的预设时间范围内未获取到语音输入，则从所述语音控制机器人中获取结束语音信息，对所述结束语音信息进行语音播报，并结束当前语音交互。

可选的，对上述实施例的实现过程举例说明如下：

当前语句播报完成，若超过预设时间阈值未监测到有语音输入，控制端发送未监测到输入信息的信号给bot，以便于bot获取用户未说话的情况，进行后续的处理；

bot判断1：用户无输入情况是否遇到了预设的需要用户明确反馈的语句（控制指令为输入反馈控制指令）。

bot判断2：无输入次数是否超过预设次数。

若判断1或判断2的结果为是，控制端从bot中获取追问语句，以获取用户输入，若继续无输入，bot发送结束语给控制端，此时控制端播报结束语终结通话。

示例：

控制端播报：“您好，我是招商银行的客服。”

控制端检测无输入，将无输入信号发给bot。

控制端接收并播报bot传输的后续语句“给您来电是因为您尾号为4310的信用卡逾期了，想跟您了解下情况（问号）”

控制端检测无输入，控制端将无输入信号发给bot。

控制端接收并播报bot传输的追问语：“您好，请问您在听吗（问号）”

控制端在无输入时，将无输入信号发给bot。

控制端接收并播报bot传输的结束语：“我稍后再给您打电话，请您注意接听，祝您生活愉快，再见”。

上述实施例，基于语音输入的情况来确定是否启动下一交互节点，当有语音输入时启动下一交互节点，当用户没有语音输入时进行追问，而当用户持续没有语音输入时即时结束语音交互，即不再浪费时间于无效的语音交互，当然，也可以直接在无语音输入的次数超过预设次数时结束语音交互。通过这样的方式，可以使得控制端和语音控制机器人去即时响应其他有效的语音交互，能够从整体上提高语音交互的效率。

在一实施例中，如图3所示，提供一种语音交互方法，本实施例以该方法应用于语音控制机器人进行举例说明。该语音交互方法包括以下步骤：

S301，获取待播报语音信息和与所述待播报语音信息关联的控制指令；所述控制指令为针对所述待播报语音信息中的至少一个语句的控制指令；

S302，向控制端发送所述待播报语音信息和所述控制指令，以使得所述控制端对所述待播报语音信息进行语音播报；

S303，接收所述控制端发送的与至少一个语句对应的语音输入信息；所述语音输入信息由所述控制端基于所述控制指令在语音播报过程中获取到；

S304，向所述控制端发送与所述语音输入信息对应的响应语音信息，以使得所述控制端对所述响应语音信息进行语音播报。

在一实施例中，所述待播报语音信息包含至少一个交互节点；所述方法，还包括：对所述至少一个交互节点的语音输入信息进行预测，得到预测语音输入信息；基于所述预测语音输入信息确定用户意图预测信息；确定与所述用户意图预测信息对应的响应语音信息，得到响应语音信息库；相应的，所述向所述控制端发送与所述语音输入信息对应的响应语音信息，包括：确定与所述语音输入信息对应目标用户意图预测信息；基于所述用户意图预测信息从所述响应语音信息库中获取对应的响应语音信息，并向所述控制端发送所述响应语音信息。

可选的，语音控制机器人可以根据打断时间点预测用户打断所针对的语句中的具体信息点，并将打断时间结合预测语音输入信息，做出对应反馈。

预设话语及语句时，语音控制机器人根据打断时间点可预测用户打断所针对的语句中的具体信息点，如此，可更精准地预测用户打断时的预测语音输入信息，可更具针对性地对预测语音输入信息预设对应的处理方式（如：回复话术）。如此，可避免一句语句中存在多个信息点时，bot不清楚用户输入的打断内容是针对语句中的哪个信息点，导致额外的不必要分析，或用户输入不明确时（用户输入可作为多个信息点的输入），bot不能够精确性回答。

可选的，对预测语音输入信息举例说明如下：

在相同的打断时间点，可对应有不同的预测语音输入信息及对应的响应语音信息。

播报：“您好，我是招商银行的客服。”

打断1：什么银行（问号）

打断2：交通银行（问号）

打断3：招商证券（问号）

针对这三种预测语音输入信息确定对应的预设响应语音信息，进而存入响应语音信息库。

可选的，语音控制机器人将打断时间与预测语音输入信息结合以生成响应语音信息库。在接收到控制端发送的语音输入内容和输入时间时，基于语音输入内容和输入时间从响应语音库中获取对应的响应语音信息，当实际打断时间和实际打断内容能与预设匹配上时，可以更准确地确认用户输入意图，并做出准确的反馈。

上述实施例，语音控制机器人预先对交互节点的语音输入信息进行预测，进而基于预测语音输入信息得到响应语音信息库，能保证在控制端发送语音输入信息时即时从响应语音信息库中获取到响应语音信息，进而保证控制端及时对响应语音信息进行播报，保证语音响应的效率。

在一个实施例中，提供了一种语音交互方法，包括以下步骤：

S1，语音控制机器人获取待播报语音信息和与待播报语音信息关联的控制指令，向控制端发送待播报语音信息和控制指令。

S2，控制端对待播报语音信息进行语音播报。若控制指令为任意打断指令，则跳转执行S3，若控制指令为智能打断指令，则跳转执行S4，若控制指令为禁止打断指令，则跳转执行S5。

S3，在语音播报过程的任意时刻监听到语音输入时，控制端中断对待播报语音信息的语音播报，在语音输入结束时获取对应的语音输入内容以及语音输入内容对应的输入时间，得到语音输入信息，之后跳转执行S6。

S4，确定待播报语音信息对应的允许打断时间段，当在允许打断时间段中监听到语音输入时，控制端中断对待播报语音信息的语音播报，在语音输入结束时获取对应的语音输入内容以及语音输入内容对应的输入时间，得到语音输入信息，之后跳转执行S6。

S5，在控制指令为禁止打断指令的情况下，当在语音播报的过程中监听到语音输入时，控制端继续对待播报语音信息进行语音播报，并在语音播报的过程中获取语音输入对应的语音输入信息，之后跳转执行S10。

S6，控制端基于输入时间在至少一个交互节点中确定语音输入内容对应的目标交互节点；将语音输入内容和目标交互节点发送至语音控制机器人。

S7，当从响应语音信息库中获取到与语音输入内容和目标交互节点对应的响应语音信息，语音控制机器人向控制端发送与语音输入信息对应的响应语音信息，执行S8，若基于语音输入信息未从语音控制机器人中获取到响应语音信息，则语音控制机器人判定响应失败，执行S9。

S8，控制端对响应语音信息进行语音播报。

S9，语音控制机器人将响应失败的信息发送至控制端。若待播报语音信息未播报完毕，则控制端从中断位置继续对待播报语音信息进行语音播报。

S10，在待播报语音信息中的至少一个语句结束播报后，基于语音输入信息从语音控制机器人中获取响应语音信息，并对响应语音信息进行语音播报。

上述语音交互方法中，在控制端和语音控制机器人的配合下，能够结合控制指令对语音播报过程进行执行控制以及对语音播报进行打断控制，进而得到语音输入信息，还能结合控制指令实现响应控制并针对性获取语音输入对应的响应语音信息，对响应语音信息进行播报，该响应语音信息是结合控制指令以及话语中的语句对应的语音输入得到的，具有较高的可靠性，可以实现与用户的智能语音交互。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。需要说明的是，从控制端和从语音控制机器人侧描述的语音交互方法的实施例和有益效果可以相互参照，不再赘述。

基于与上述实施例中的语音交互方法相同的思想，本发明还提供语音交互装置，该装置可用于执行上述语音交互方法。为了便于说明，语音交互装置实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在一个实施例中，如图4所示，提供了一种语音交互装置400，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：

第一信息接收模块401，用于接收语音控制机器人发送的待播报语音信息以及与所述待播报语音信息关联的控制指令；所述控制指令为针对所述待播报语音信息中的至少一个语句的控制指令；

语音播报模块402，用于对所述待播报语音信息进行语音播报；

输入信息获取模块403，用于基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息；

响应播报模块404，用于基于所述语音输入信息，从所述语音控制机器人中获取响应语音信息，并对所述响应语音信息进行语音播报。

上述语音交互装置中，能够结合控制指令对语音播报过程进行执行控制以及对语音播报进行打断控制，进而得到语音输入信息，还能结合控制指令实现响应控制并针对性获取语音输入对应的响应语音信息，对响应语音信息进行播报，该响应语音信息是结合控制指令以及话语中的语句对应的语音输入得到的，具有较高的可靠性，可以实现与用户的智能语音交互。

在一实施例中，输入信息获取模块，还用于当所述控制指令为允许打断指令且在语音播报的允许打断时间段中监听到与至少一个语句对应的语音输入时，中断对所述待播报语音信息的语音播报，在语音输入结束时确定所述语音输入对应的语音输入信息。

输入信息获取模块，还用于获取语音输入对应的语音输入内容以及所述语音输入内容对应的输入时间，得到所述语音输入信息；

相应的，响应播报模块，包括：

节点确定子模块，用于基于所述输入时间在所述至少一个交互节点中确定所述语音输入内容对应的目标交互节点；

响应信息获取子模块，用于基于所述语音输入内容和所述目标交互节点从所述语音控制机器人中获取响应语音信息。

在一实施例中，响应播报模块，包括：

信息发送子模块，用于若所述允许打断指令携带时间反馈指令，则将所述语音输入内容和所述输入时间发送至所述语音控制机器人；

响应信息接收子模块，用于接收所述语音控制机器人获取的与所述语音输入内容和所述输入时间对应的响应语音信息。

在一实施例中，响应信息获取子模块，包括：

信息发送单元，用于将所述语音输入内容和所述目标交互节点发送至所述语音控制机器人；

响应信息接收单元，用于接收所述语音控制机器人获取的与所述语音输入内容和所述目标交互节点对应的响应语音信息；所述语音控制机器人用于基于所述语音输入内容进行语义理解，基于语义理解的结果和所述目标交互节点确定用户意图，确定与所述用户意图相匹配的响应语音信息。

在一实施例中，所述装置，还包括：

响应失败模块，用于若基于所述语音输入信息未从所述语音控制机器人中获取到响应语音信息，则判定响应失败；

继续播报模块，用于若所述待播报语音信息未播报完毕，则从中断位置继续对所述待播报语音信息进行语音播报。

在一实施例中，输入信息获取模块，包括：

任意打断子模块，用于若所述允许打断指令为任意打断指令，则在语音播报过程的任意时刻监听到与至少一个语句对应的语音输入时，确定所述语音输入对应的语音输入信息；

智能打断子模块，用于若所述允许打断指令为智能打断指令，确定所述待播报语音信息对应的允许打断时间段，当在所述允许打断时间段中监听到与至少一个语句对应的语音输入时，确定所述语音输入对应的语音输入信息。

智能打断子模块，还用于根据预先设置的允许打断时长、允许打断起始端点和允许打断终止端点中的至少两项确定所述待播报语音信息对应的允许打断时间段。

在一实施例中，所述装置，还包括：

语音输入监听模块，用于在所述控制指令为禁止打断指令的情况下，当在语音播报的过程中监听到与至少一个语句对应的语音输入时，或者，在所述控制指令为允许打断指令的情况下，当在语音播报的禁止打断时间段中监听到与至少一个语句对应的语音输入时，继续对所述待播报语音信息进行语音播报，并在语音播报的过程中获取所述语音输入对应的语音输入信息；

追答模块，用于在所述待播报语音信息中的至少一个语句结束播报后，基于所述语音输入信息从所述语音控制机器人中获取响应语音信息，并对所述响应语音信息进行语音播报。

所述装置，还包括：

语音文办转换模块，用于若所述控制指令为允许打断指令，则将所述语音输入信息中的语音输入内容发送给语音识别器；接收所述语音识别器识别所述语音输入内容后返回的语音文本；将所述语音文本发送给所述语音文本控制机器人，接收所述语音文本控制机器人对所述语音文本进行分析后得到的响应文本信息；基于所述响应文本信息得到所述响应语音信息；

输入忽略模块，用于若所述控制指令为禁止打断指令且所述禁止打断指令携带禁止识别指令，则在对所述待播报语音信息进行语音播报的过程中监听到与至少一个语句对应的语音输入时，忽略所述语音输入；

文本忽略模块，用于若所述控制指令为禁止打断指令且所述禁止打断指令携带允许识别指令，则在对所述待播报语音信息进行语音播报的过程中监听到与至少一个语句对应的语音输入时，将所述语音输入对应的语音输入信息发送给语音识别器后忽略所述语音识别器返回的语音文本。

所述装置，还包括：

节点到达模块，用于在所述待播报语音信息中的至少一个语句结束播报后到达所述输入启动节点；

节点启动模块，用于若在第一预设时间范围内获取到语音输入，则启动下一交互节点，并基于所述语音输入对应的语音输入信息获取响应语音信息，对所述响应语音信息进行语音播报；

第一追问模块，用于若在所述第一预设时间范围内未获取到语音输入，则响应于所述输入反馈控制指令，从所述语音控制机器人中获取追问语音信息并对所述追问语音信息进行语音播报；若在追问语音信息播报后的第二预设时间范围内未获取到语音输入，则从所述语音控制机器人中获取结束语音信息，对所述结束语音信息进行语音播报，并结束当前语音交互。

所述装置，还包括：

次数确定模块，用于确定在交互节点未获取到语音输入的次数；

第二追问模块，用于若所述交互节点未获取到语音输入的次数超过预设的数量阈值，则从所述语音控制机器人中获取追问语音信息并对所述追问语音信息进行语音播报；若在追问语音信息播报后的预设时间范围内未获取到语音输入，则从所述语音控制机器人中获取结束语音信息，对所述结束语音信息进行语音播报，并结束当前语音交互。

在一实施例中，如图5所示，提供一种语音交互装置500，所述装置包括：

信息获取模块501，用于获取待播报语音信息和与所述待播报语音信息关联的控制指令；所述控制指令为针对所述待播报语音信息中的至少一个语句的控制指令；

信息发送模块502，用于向控制端发送所述待播报语音信息和所述控制指令，以使得所述控制端对所述待播报语音信息进行语音播报；

第二信息接收模块503，用于接收所述控制端发送的与至少一个语句对应的语音输入信息；所述语音输入信息由所述控制端基于所述控制指令在语音播报过程中获取到；

响应发送模块504，用于向所述控制端发送与所述语音输入信息对应的响应语音信息，以使得所述控制端对所述响应语音信息进行语音播报。

所述装置，还包括：

输入预测模块，用于对所述至少一个交互节点的语音输入信息进行预测，得到预测语音输入信息；

意图预测模块，用于基于所述预测语音输入信息确定用户意图预测信息；

信息库确定模块，用于确定与所述用户意图预测信息对应的响应语音信息，得到响应语音信息库；

相应的，响应发送模块，包括：

意图确定子模块，用于确定与所述语音输入信息对应目标用户意图预测信息；

响应发送子模块，用于基于所述用户意图预测信息从所述响应语音信息库中获取对应的响应语音信息，并向所述控制端发送所述响应语音信息。

需要说明的是，从控制端和从语音控制机器人侧描述的语音交互装置的实施例和有益效果可以相互参照，不再赘述。

关于语音交互装置的具体限定可以参见上文中对于语音交互方法的限定，在此不再赘述。上述语音交互装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一实施例中，如图6所示，提供一种语音交互系统600，所述系统包括：语音控制机器人601和控制端602；

所述控制端，还用于对所述响应语音信息进行语音播报。

上述语音交互系统中，能够结合控制指令对语音播报过程进行执行控制以及对语音播报进行打断控制，进而得到语音输入信息，还能结合控制指令实现响应控制并针对性获取语音输入对应的响应语音信息，对响应语音信息进行播报，该响应语音信息是结合控制指令以及话语中的语句对应的语音输入得到的，具有较高的可靠性，可以实现与用户的智能语音交互。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储响应语音信息等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音交互方法。

在一个实施例中，还提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种语音交互方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7和8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音交互方法，其特征在于，所述方法包括：

接收语音控制机器人发送的待播报语音信息以及与所述待播报语音信息关联的控制指令；所述控制指令为针对所述待播报语音信息中的至少一个语句的控制指令；所述控制指令的类型包括输入反馈控制指令、允许打断指令和禁止打断指令；所述控制指令下设二级指令；所述允许打断指令的二级指令包括时间反馈指令，所述禁止打断指令的二级指令包括追加内容指令、禁止识别指令和允许识别指令；

对所述待播报语音信息进行语音播报；

基于所述语音输入信息，从所述语音控制机器人中获取响应语音信息，并对所述响应语音信息进行语音播报；

若所述控制指令包括输入反馈控制指令，所述方法还包括：在所述待播报语音信息中的至少一个语句结束播报后到达输入启动节点；当用户在所述输入启动节点没有语音输入时进行追问，而当用户持续没有语音输入时即时结束语音交互；

若所述控制指令包括所述允许打断指令且所述允许打断指令包含时间反馈指令，所述方法还包括：基于语音输入内容和输入时间从语音控制机器人中获取响应语音信息；

若所述控制指令包括所述禁止打断指令且所述禁止打断指令包含追加内容指令，所述方法还包括：若用户语音输入能匹配到回答，将匹配到的回答添加到追加内容指令指定的文本位置之后进行播报；

若所述控制指令为禁止打断指令且所述禁止打断指令携带禁止识别指令，所述方法还包括：在对所述待播报语音信息进行语音播报的过程中监听到与至少一个语句对应的语音输入时，忽略所述语音输入；

若所述控制指令为禁止打断指令且所述禁止打断指令携带允许识别指令，所述方法还包括：在对所述待播报语音信息进行语音播报的过程中监听到与至少一个语句对应的语音输入时，将所述语音输入对应的语音输入信息发送给语音识别器后忽略所述语音识别器返回的语音文本。

2.根据权利要求1所述的方法，其特征在于，所述基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述待播报语音信息包含至少一个交互节点；

4.根据权利要求3所述的方法，其特征在于，所述基于所述语音输入信息，从所述语音控制机器人中获取响应语音信息，包括：

若所述允许打断指令携带时间反馈指令，接收所述语音控制机器人获取的与所述语音输入内容和所述输入时间对应的响应语音信息。

5.根据权利要求3所述的方法，其特征在于，所述基于所述语音输入内容和所述目标交互节点从所述语音控制机器人中获取响应语音信息，包括：

6.根据权利要求3所述的方法，其特征在于，所述基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息之后，还包括：

7.根据权利要求2所述的方法，其特征在于，所述基于所述控制指令获取语音播报过程中与至少一个语句对应的语音输入信息，包括：

8.根据权利要求7所述的方法，其特征在于，所述待播报语音信息包含至少一个语音播报端点；

9.根据权利要求1至8任一项所述的方法，其特征在于，所述对所述待播报语音信息进行语音播报之后，还包括：

10.根据权利要求1至8任一项所述的方法，其特征在于，所述语音控制机器人为语音文本控制机器人；

11.根据权利要求1至8任一项所述的方法，其特征在于，所述待播报语音信息包含至少一个交互节点，所述至少一个交互节点中包含输入启动节点，所述控制指令为输入反馈控制指令；

12.根据权利要求1至8任一项所述的方法，其特征在于，所述待播报语音信息包含至少一个交互节点；

确定在交互节点未获取到语音输入的次数；

13.一种语音交互方法，其特征在于，所述方法包括：

获取待播报语音信息和与所述待播报语音信息关联的控制指令；所述控制指令为针对所述待播报语音信息中的至少一个语句的控制指令；所述控制指令的类型包括输入反馈控制指令、允许打断指令和禁止打断指令；所述控制指令下设二级指令；所述允许打断指令的二级指令包括时间反馈指令，所述禁止打断指令的二级指令包括追加内容指令、禁止识别指令和允许识别指令；

向所述控制端发送与所述语音输入信息对应的响应语音信息，以使得所述控制端对所述响应语音信息进行语音播报；

若所述控制指令包括输入反馈控制指令，所述方法还包括，基于所述控制指令触发所述控制端执行以下步骤：在所述待播报语音信息中的至少一个语句结束播报后到达输入启动节点；当用户在所述输入启动节点没有语音输入时进行追问，而当用户持续没有语音输入时即时结束语音交互；

若所述控制指令包括所述允许打断指令且所述允许打断指令包含时间反馈指令，所述方法还包括，基于所述控制指令触发所述控制端执行以下步骤：基于语音输入内容和输入时间从语音控制机器人中获取响应语音信息；

14.根据权利要求13所述的方法，其特征在于，所述待播报语音信息包含至少一个交互节点；

所述方法，还包括：

基于所述预测语音输入信息确定用户意图预测信息；

确定与所述语音输入信息对应目标用户意图预测信息；

15.一种语音交互装置，其特征在于，所述装置包括：

第一信息接收模块，用于接收语音控制机器人发送的待播报语音信息以及与所述待播报语音信息关联的控制指令；所述控制指令为针对所述待播报语音信息中的至少一个语句的控制指令；所述控制指令的类型包括输入反馈控制指令、允许打断指令和禁止打断指令；所述控制指令下设二级指令；所述允许打断指令的二级指令包括时间反馈指令，所述禁止打断指令的二级指令包括追加内容指令、禁止识别指令和允许识别指令；

语音播报模块，用于对所述待播报语音信息进行语音播报；

响应播报模块，用于基于所述语音输入信息，从所述语音控制机器人中获取响应语音信息，并对所述响应语音信息进行语音播报；

还包括执行以下步骤的模块：

若所述控制指令包括输入反馈控制指令，还包括：在所述待播报语音信息中的至少一个语句结束播报后到达输入启动节点；当用户在所述输入启动节点没有语音输入时进行追问，而当用户持续没有语音输入时即时结束语音交互；

若所述控制指令包括所述允许打断指令且所述允许打断指令包含时间反馈指令，还包括：基于语音输入内容和输入时间从语音控制机器人中获取响应语音信息；

若所述控制指令包括所述禁止打断指令且所述禁止打断指令包含追加内容指令，还包括：若用户语音输入能匹配到回答，将匹配到的回答添加到追加内容指令指定的文本位置之后进行播报；

若所述控制指令为禁止打断指令且所述禁止打断指令携带禁止识别指令，还包括：在对所述待播报语音信息进行语音播报的过程中监听到与至少一个语句对应的语音输入时，忽略所述语音输入；

若所述控制指令为禁止打断指令且所述禁止打断指令携带允许识别指令，还包括：在对所述待播报语音信息进行语音播报的过程中监听到与至少一个语句对应的语音输入时，将所述语音输入对应的语音输入信息发送给语音识别器后忽略所述语音识别器返回的语音文本。

16.一种语音交互装置，其特征在于，所述装置包括：

信息获取模块，用于获取待播报语音信息和与所述待播报语音信息关联的控制指令；所述控制指令为针对所述待播报语音信息中的至少一个语句的控制指令；所述控制指令的类型包括输入反馈控制指令、允许打断指令和禁止打断指令；所述控制指令下设二级指令；所述允许打断指令的二级指令包括时间反馈指令，所述禁止打断指令的二级指令包括追加内容指令、禁止识别指令和允许识别指令；

响应发送模块，用于向所述控制端发送与所述语音输入信息对应的响应语音信息，以使得所述控制端对所述响应语音信息进行语音播报；

还包括执行以下步骤的模块：

若所述控制指令包括输入反馈控制指令，还包括，基于所述控制指令触发所述控制端执行以下步骤：在所述待播报语音信息中的至少一个语句结束播报后到达输入启动节点；当用户在所述输入启动节点没有语音输入时进行追问，而当用户持续没有语音输入时即时结束语音交互；

若所述控制指令包括所述允许打断指令且所述允许打断指令包含时间反馈指令，还包括：基于所述控制指令触发所述控制端执行以下步骤：基于语音输入内容和输入时间从语音控制机器人中获取响应语音信息；

17.一种语音交互系统，其特征在于，所述系统包括：语音控制机器人和控制端；

所述语音控制机器人，用于获取待播报语音信息和与所述待播报语音信息关联的控制指令，向所述控制端发送所述待播报语音信息和所述控制指令；所述控制指令为针对所述待播报语音信息中的至少一个语句的控制指令；所述控制指令的类型包括输入反馈控制指令、允许打断指令和禁止打断指令；所述控制指令下设二级指令；所述允许打断指令的二级指令包括时间反馈指令，所述禁止打断指令的二级指令包括追加内容指令、禁止识别指令和允许识别指令；

所述控制端，还用于对所述响应语音信息进行语音播报：

所述控制端，还用于若所述控制指令包括输入反馈控制指令，还包括：在所述待播报语音信息中的至少一个语句结束播报后到达输入启动节点；当用户在所述输入启动节点没有语音输入时进行追问，而当用户持续没有语音输入时即时结束语音交互；

所述控制端，还用于若所述控制指令包括所述允许打断指令且所述允许打断指令包含时间反馈指令，还包括：基于语音输入内容和输入时间从语音控制机器人中获取响应语音信息；

18.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至14中任一项所述方法的步骤。

19.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至14中任一项所述方法的步骤。