CN111970409B

CN111970409B - 基于人机交互的语音处理方法、装置、设备和存储介质

Info

Publication number: CN111970409B
Application number: CN202011129350.XA
Authority: CN
Inventors: 刘彦华; 邓锐涛; 王艺霏; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2021-02-05
Anticipated expiration: 2040-10-21
Also published as: CN111970409A

Abstract

本申请提供了一种基于人机交互的语音处理方法、装置、设备和存储介质。该方法包括：控制语音机器人在与用户终端的语音通话中播放预设语音；若在播放过程中接收到用户终端产生的语音数据，则产生打断信号；根据所述打断信号打断所述语音机器人对所述预设语音的播放；识别所述打断信号在所述预设语音中对应的打断位置；根据所述打断位置和所述语音数据，识别用户意图；查找与所述用户意图对应的响应策略，并控制所述语音机器人执行所述响应策略。本申请的方案能够避免人机交互时响应不灵活的问题。

Description

基于人机交互的语音处理方法、装置、设备和存储介质

技术领域

本申请涉及人工智能技术领域和语音通话技术领域，特别是涉及一种基于人机交互的语音处理方法、装置、设备和存储介质。

背景技术

随着人工智能技术的发展，出现了很多机器人替代人工的场景。语音机器人，则为一种常用的智能机器人，能够代替人工客服执行部分客服事务。比如，使用语音机器人进行外呼通话属于较为常见的场景。外呼通话，即指通过语音机器人主动呼叫用户，建立语音通话。

在语音机器人播放语音时，通常会接收到用户的语音信号，造成对语音机器人播放状态的打断，目前语音机器人对用户的打断无法灵活的响应，过于局限。因此，传统方法响应不灵活是亟待解决的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够避免响应不灵活的基于人机交互的语音处理方法、装置、计算机设备和存储介质。

一种基于人机交互的语音处理方法，所述方法包括：

控制语音机器人在与用户终端的语音通话中播放预设语音；

若在播放过程中接收到用户终端产生的语音数据，则产生打断信号；

根据所述打断信号打断所述语音机器人对所述预设语音的播放；

识别所述打断信号在所述预设语音中对应的打断位置；

根据所述打断位置和所述语音数据，识别用户意图；

查找与所述用户意图对应的响应策略，并控制所述语音机器人执行所述响应策略。

在其中一个实施例中，所述识别所述打断信号在所述预设语音中对应的打断位置，包括：

确实所述打断信号所对应的打断时间点；

根据所述打断时间点，确定所述预设语音的已播放时长；

根据所述语音机器人播放的语速和所述已播放时长，确定已播放字数；

根据所述已播放字数，确定所述打断信号在所述预设语音中对应的打断位置。

在其中一个实施例中，所述根据所述已播放字数，确定所述打断信号在所述预设语音中对应的打断位置，包括：

获取所述预设语音所对应的文本内容；

根据所述已播放字数，从所述文本内容中确定在打断时所播放至的字片段；

将所述字片段在所述文本内容中所位于的句子确定为打断位置。

在其中一个实施例中，所述方法还包括：

将所述打断位置转换为相应的路由标签；

所述查找与所述用户意图对应的响应策略，并控制所述语音机器人执行所述响应策略，包括：

根据所述路由标签和所述用户意图，从知识库中查找对应的响应信息；

控制所述语音机器人播放所述响应信息。

在其中一个实施例中，所述根据所述路由标签和所述用户意图，从知识库中查找对应的响应信息，包括：

从知识库中查找与所述用户意图对应的响应信息，得到候选响应信息；同一用户意图对应至少一个响应信息；

从所述候选响应信息中，查找与所述路由标签对应的响应信息。

在其中一个实施例中，所述预设语音为预设的资源催收语音；所述资源催收语音，用于依次播放所述用户终端对应的用户消费产生的多个资源数值；所述用户意图为消费询问意图；

所述根据所述路由标签和所述用户意图，从知识库中查找对应的响应信息，包括：

定位所述路由标签在所述资源催收语音中对应的资源数值；

根据所述消费询问意图，从知识库中查找与定位的资源数值所对应的资源数值生成事项信息；所述资源数值生成事项信息，用于描述产生所述资源数值的消费事项；

所述控制所述语音机器人播放所述响应信息，包括：

将所述资源数值生成事项信息转换为语音格式，并控制所述语音机器人对语音格式的资源数值生成事项信息进行播放。

在其中一个实施例中，所述方法还包括：

在执行所述响应策略后的预设时长内，继续检测所述用户终端的语音数据；

若未继续检测到所述用户终端的语音数据，或者，继续检测到的语音数据不为否定性语音数据，则

返回所述预设语音中对应的打断位置，继续播放所述预设语音。

在其中一个实施例中，所述方法还包括：

若继续检测到的语音数据为否定性语音数据，则获取与所述预设语音中所述打断位置对应的用户意见采集语音；

控制所述语音机器人播放所述用户意见采集语音，以引导所述用户终端输出针对所述打断位置处所播放的语音内容产生否定性意见的原因；

采集所述用户终端输出的用于描述所述原因的语音数据并上报。

一种基于人机交互的语音处理装置，所述装置包括：

播放模块，用于控制语音机器人在与用户终端的语音通话中播放预设语音；

打断模块，用于若在播放过程中接收到用户终端产生的语音数据，则产生打断信号；根据所述打断信号打断所述语音机器人对所述预设语音的播放；

打断位置识别模块，用于识别所述打断信号在所述预设语音中对应的打断位置；

响应模块，用于根据所述打断位置和所述语音数据，识别用户意图；查找与所述用户意图对应的响应策略，并控制所述语音机器人执行所述响应策略。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

控制语音机器人在与用户终端的语音通话中播放预设语音；

识别所述打断信号在所述预设语音中对应的打断位置；

根据所述打断位置和所述语音数据，识别用户意图；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

控制语音机器人在与用户终端的语音通话中播放预设语音；

识别所述打断信号在所述预设语音中对应的打断位置；

根据所述打断位置和所述语音数据，识别用户意图；

上述基于人机交互的语音处理方法、装置、计算机设备和存储介质，在语音机器人对预设语音的播放过程中，若接收到用户终端产生的语音数据，则产生打断信号以打断所述语音机器人对所述预设语音的播放，识别所述打断信号在所述预设语音中对应的打断位置，并根据所述打断位置和所述语音数据，识别用户意图。即，在语音机器人播放语音被打断时，根据打断位置和语音数据，准确地识别用户意图，进而，根据用户意图对应的响应策略控制语音机器人进行响应，从而在语音机器人播音被打断时，能够灵活地、准确地进行响应。

附图说明

图1为一个实施例中基于人机交互的语音处理方法的应用环境图；

图2为一个实施例中基于人机交互的语音处理方法的流程示意图；

图3为一个实施例中打断位置识别步骤的流程示意图；

图4为一个实施例中基于人机交互的语音处理装置的结构框图；

图5为另一个实施例中基于人机交互的语音处理装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于人机交互的语音处理方法，可以应用于如图1所示的应用环境中。其中，呼叫平台102通过网络与用户终端104进行通信。呼叫平台102中的智能机器人可以与用户终端之间进行语音通话。其中，用户终端104可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。呼叫平台102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。语音机器人是呼叫平台中的智能呼叫及应答模块，能够在语音通话中自动与用户进行语音对话。呼叫平台102可以是主动向用户终端发起呼叫的外呼平台，也可以是接收用户终端发起的呼叫的平台，对此不作限定。

呼叫平台102在语音机器人与用户终端104的语音通话过程中，可以控制语音机器人播放预设语音。若在播放过程中接收到用户终端产生的语音数据，则产生打断信号，呼叫平台102可以根据打断信号，打断语音机器人对预设语音的播放。呼叫平台102可以识别所述打断信号在所述预设语音中对应的打断位置，并根据所述打断位置和所述语音数据，识别用户意图。呼叫平台102可以查找与所述用户意图对应的响应策略，并控制所述语音机器人执行所述响应策略。

需要说明的是，图1仅是示意说明，在其他实施例中，语音机器人还可以是独立的计算机设备（比如，具备语音通话能力的人形仿真机器人），而并不限定于呼叫平台中的一个智能模块，可以由语音机器人自身和用户终端之间进行通信。那么，本申请各实施例中的基于人机交互的语音处理方法可以由语音机器人自身执行。

在一个实施例中，如图2所示，提供了一种基于人机交互的语音处理方法，以该方法应用于图1中的呼叫平台为例进行说明，包括以下步骤：

步骤202，控制语音机器人在与用户终端的语音通话中播放预设语音。

其中，语音机器人，是呼叫平台中的、且能够与用户终端中的用户进行自主通话的人工智能机器人。

具体地，语音机器人可以与用户终端之间建立语音通话，在语音通话过程中，呼叫平台可以控制语音机器人播放预设语音，以实现人机语音交互。

在一个实施例中，呼叫平台可以为外呼平台，则外呼平台中的语音机器人可以主动向用户终端发起呼叫，以与用户终端之间建立语音通话。在语音通话过程中，可以控制语音机器人播放预设语音。

在一个实施例中，呼叫平台也可以是接收用户终端发起的呼叫的平台。即，用户终端主动向呼叫平台发起呼叫请求，以与呼叫平台中应答的语音机器人之间建立语音通话。可以理解，该实施例中的语音机器人则相当于具备语音通话功能的人工智能客服。

步骤204，若在播放过程中接收到用户终端产生的语音数据，则产生打断信号，并根据打断信号打断语音机器人对预设语音的播放。

可以理解，若在播放过程中接收到用户终端产生的语音数据，很大程度上说明，用户想要打断语音机器人播放的预设语音，因此，呼叫平台可以产生打断信号，以打断语音机器人对预设语音的播放。

在一个实施例中，打断信号，可以用于暂时打断语音机器人对预设语音的播放，使被打断的预设语音处于暂停播放状态，当语音机器人针对用户意图作出响应并解决用户所存在的问题后，可以继续播放处于暂停播放状态的该预设语音，即恢复播放该预设语音。在其他实施例中，打断信号也可以用于打断并结束语音机器人对预设语音的播放。即，预设语音被打断后即结束播放。

步骤206，识别打断信号在预设语音中对应的打断位置。

其中，打断位置，是指预设语音被打断时所播放至的位置。

在一个实施例中，呼叫平台可以根据打断信号所对应的打断时间点，来识别预设语音中对应的打断位置。

在其他实施例中，呼叫平台也可以根据打断信号产生时的正在播放的语音内容，识别预设语音中对应的打断位置。

步骤208，根据打断位置和语音数据，识别用户意图。

其中，用户意图，是指打断播音的意图，用于表示用户打断语音机器人播音的目的。

可以理解，在语音机器人播放预设语音时，用户终端侧的用户可以在播放过程中的任意时刻发出声音进行打断，针对不同的打断位置，用户意图不同。

以语音机器人播放通知类的语音信息的应用场景为例，假设，语音机器人主动外呼，对使用用户终端的用户进行保险回放，当在播放多条保险条款的过程中，用户可能在播放任意一条的保险条款的过程中打断，如果在播放第三条条款时打断，可能是用户对第三条条款存在疑问，如果是播放第二条条款时被打断，可能是用户对第二条条款存在疑问，因此，针对不同的打断位置，用户意图可能不同。

此外，用户终端产生的语音数据不同，也可能代表不同的用户意图。因此，呼叫平台则可以根据打断位置、以及用户终端产生的语音数据，识别用户意图。

步骤210，查找与用户意图对应的响应策略，并控制语音机器人执行响应策略。

其中，响应策略，是指在语音通话过程中，针对打断播音的用户意图进行响应的方案。

具体地，呼叫平台中预先设置了多种响应策略，并设置了用户意图与响应策略之间的对应关系。呼叫平台在识别打断时的用户意图后，可以查找与该用户意图对应的响应策略，并控制语音机器人执行响应策略。即，控制语音机器人针对打断时的用户意图，输出应答语音。

上述基于人机交互的语音处理方法，在语音机器人对预设语音的播放过程中，若接收到用户终端产生的语音数据，则产生打断信号以打断所述语音机器人对所述预设语音的播放，识别所述打断信号在所述预设语音中对应的打断位置，并根据所述打断位置和所述语音数据，识别用户意图。即，在语音机器人播放语音被打断时，根据打断位置和语音数据，准确地识别用户意图，进而，根据用户意图对应的响应策略控制语音机器人进行响应，从而在语音机器人播音被打断时，能够灵活地、准确地进行响应。

如图3所示，在一个实施例中，步骤206识别打断信号在预设语音中对应的打断位置（简称打断位置识别步骤），具体包括以下步骤：

步骤302，确实打断信号所对应的打断时间点。

其中，打断时间点，是预设语音被打断信号打断时所对应的时间点。

在一个实施例中，打断时间点，可以是被打断信号打断时，预设语音所播放至的时间点。比如，打断信号在预设语音播放到第3秒时进行打断，那么，打断时间点即为该预设语音总时长中的第3秒。

具体地，呼叫平台可以在检测到打断信号时，则检测该预设语音当前所播放至的时间点，得到打断时间点。呼叫平台也可以在预设语音因被打断而停止播放后，检测预设语音停止播放时所处的时间点，作为打断时间点。

在一个实施例中，打断时间点也可以是预设语音被打断信号打断时，呼叫平台中系统时间的时间点。比如，在系统时间2020-9-28,16:32:00被打断，则2020-9-28,16:32:00即为打断时间点。

步骤304，根据打断时间点，确定预设语音的已播放时长。

在一个实施例中，若打断时间点是被打断信号打断时，预设语音所播放至的时间点，呼叫平台则可以将预设语音的起始播放时间点到该打断时间点之间的时长，作为预设语音的已播放时长。

在一个实施例中，若打断时间点也可以是预设语音被打断信号打断时，呼叫平台中系统时间的时间点，呼叫平台则可以获取起始播放预设语音时的系统时间，根据打断时间点和起始播放时的系统时间之间的时间差，得到预设语音的已播放时长。比如，起始播放时的系统时间为2020-9-28,16:31:00，打断时间点为2020-9-28,16:32:00，那么，已播放时长则为二者之间的时间差，即1分钟。

步骤306，根据语音机器人播放的语速和已播放时长，确定已播放字数。

具体地，呼叫平台可以获取语音机器人播放的语速，根据该播放的语速和已播放时长之间的乘积，确定已播放字数。例如，播放的语速是每秒5个字，在第3秒打断，即已播放时长为3秒，那么，5*3=15，即已播放了15个字。

步骤308，根据已播放字数，确定打断信号在预设语音中对应的打断位置。

其中，打断位置，即为预设语音中被打断信号所打断播放至的位置。

在一个实施例中，呼叫平台可以根据已播放字数确定被打断时所播放至的最后一个字或者词语，得到打断位置。即，打断位置可以为被打断时所播放至的字，以字粒度或者词粒度来衡量打断位置。

在一个实施例中，呼叫平台可以根据已播放字数，确定被打断时所播放至的句子，作为打断位置。即，打断位置可以为被打断时所播放至的句子，以句子为粒度衡量打断位置。

上述实施例中，根据语音机器人的播放信息的语速和打断时间点，确定播放的字数，从而能够根据播放字数准确地确定打断位置。

在一个实施例中，步骤308根据已播放字数，确定打断信号在预设语音中对应的打断位置，包括：获取预设语音所对应的文本内容；根据已播放字数，从文本内容中确定在打断时所播放至的字片段；将字片段在文本内容中所位于的句子确定为打断位置。

其中，字片段，即为单个的字。

具体地，呼叫平台可以将预设语音转换为文本内容。呼叫平台也可以预先针对预设语音对应存储了文本内容，从而直接获取对应于该预设语音存储的文本内容。呼叫平台可以根据已播放字数，从文本内容中确定在打断时所播放至的字片段（即，确定所播放到的单字）。呼叫平台可以将字片段在文本内容中所位于的句子确定为打断位置。

比如，已播放字数为15个字，那么，可以在预设语音的文本内容中，确定在打断时所播放至的字片段为第15个字，然后，确定这第15个字在文本内容中属于哪个句子，将该句子作为打断位置。可以理解，在预设语音的文本内容中，每句话所包含字的起始和结束位置是预先确定的，如第1句话包括第1个字至第15个字，那么被打断的就是预设语音中的第1句话。

上述实施例中，以句子为粒度作为打断位置，由于句子在预设语音中是具有较为完整的语义，因此，针对句子制定并获取相应的响应策略，能够更为准确地进行响应。此外，根据已播放字数确定字片段，进而根据字片段确定被打断的句子，相较于从整个预设语音中的句子中去查找定位被打断时的句子而言，能够更为快速地确定被打断的句子。

在一个实施例中，该方法还包括：将打断位置转换为相应的路由标签。本实施例中，步骤210查找与用户意图对应的响应策略，并控制语音机器人执行响应策略，包括：根据路由标签和用户意图，从知识库中查找对应的响应信息；控制语音机器人播放响应信息。

其中，路由标签，是用于查找响应信息的标签。

在一个实施例中，当打断位置为打断时所播放至的句子时，则可以将该句子转换为相应的路由标签，以用于查询相应的响应信息。可以理解，一个句子可以对应于一个路由标签。几个不同的句子可以都对应于一个路由标签。这里针对句子与路由标签之间的对应形式不做限定。

在一个实施例中，若打断位置为打断时所播放至的字或词，且，该字或词在所处的句子中具有唯一性时，则将所播放至的字或词转换为相应的路由标签，以查询相应的响应信息。

具体地，知识库中预先存储了响应信息，呼叫平台可以根据路由标签和用户意图，从知识库中查找对应的响应信息。

可以理解，相同的用户意图在不同的路由标签下对应的响应信息可能不同。

为了便于理解，现举例说明。假设语音机器人在播放催收信息，说明用户最近有10笔消费，并依次播放每笔消费的情况，比如，语音机器人依次播放第一笔消费是多少钱，第二笔消费是多少钱等等。当语音机器人在播放第二笔消费的情况时，接收到客户打断询问“我这一笔消费我没有消费过”，语音机器人就会记录打断位置，确定是在播放第二笔消费时被打断，转换为路由标签2，根据该路由标签2查找第二笔的消费记录信息反馈给用户，如“你的第二笔消费记录是在世界之窗买了门票”。当语音机器人播放到第三笔消费是多少钱，然后收到客户询问“我这一笔消费我没有消费过”，机器人记录打断位置，确定是在播放第三笔消费时被打断，转换为路由标签3，根据该路由标签3查找第三笔的消费记录信息反馈给用户，如“你的第三笔消费记录是在欢乐海岸的电影院看了电影”。

通过上述例子说明，同样是用户想要询问消费信息的消费询问意图，不同打断位置则对应不同路由标签，而不同路由标签所对应的响应信息不同。即，若在播放第二笔消费时被打断以询问消费信息，根据路由标签2查找第二笔的消费记录信息作为响应信息，若在播放第三笔消费时被打断以询问消费信息，根据路由标签3查找第三笔的消费记录信息作为响应信息。

在一个实施例中，知识库中预先存储了路由标签、用户意图以及响应信息三者之间的对应关系（即，由路由标签、用户意图以及响应信息共同构成的对应关系）。呼叫平台可以根据该对应关系，查找出既满足该路由标签、又满足该用户意图的响应信息。

在一个实施例中，知识库中还可以将路由标签与响应信息之间的对应关系，以及用户意图与响应信息之间的对应关系分开存储，根据这两种对应关系，查找出既满足该路由标签、又满足该用户意图的响应信息。

在一个实施例中，根据路由标签和用户意图，从知识库中查找对应的响应信息，包括：从知识库中查找与用户意图对应的响应信息，得到候选响应信息；同一用户意图对应至少一个响应信息；从候选响应信息中，查找与路由标签对应的响应信息。

具体地，呼叫平台可以先从知识库中查找与用户意图对应的响应信息，得到至少一个候选响应信息。进一步地，呼叫平台可以按照路由标签，从候选响应信息中查找与该路由标签对应的响应信息。

可以理解，响应信息可以为文本格式，也可以为语音格式。当响应信息为文本格式时，呼叫平台可以将响应信息转换为语音格式后，控制语音机器人进行播放。当响应信息为语音格式时，呼叫平台可以直接控制语音机器人播放该响应信息。

上述实施例中，将打断位置转换为路由标签，进而根据路由标签和用户意图，能够从知识库中快速、且准确地查找对应的响应信息。

在一个实施例中，预设语音为预设的资源催收语音；用户意图为消费询问意图。本实施例中，根据路由标签和用户意图，从知识库中查找对应的响应信息，包括：定位路由标签在资源催收语音中对应的资源数值；根据消费询问意图，从知识库中查找与定位的资源数值所对应的资源数值生成事项信息。本实施例中，控制语音机器人播放响应信息，包括：将资源数值生成事项信息转换为语音格式，并控制语音机器人对语音格式的资源数值生成事项信息进行播放。

其中，资源催收语音，是催收资源数值的语音，用于依次播放用户终端对应的用户消费产生的多个资源数值。消费询问意图，是用于询问消费事项的意图。资源数值生成事项信息，是用于描述产生资源数值的消费事项的文本信息。

具体地，在语音机器人在播放资源催收语音时，会依次播放用户终端对应的用户消费产生的多个资源数值。用户想要针对播放的某一个资深数值的生成事项进行询问时，则可以开口讲话打断语音机器人的播放，呼叫平台识别到用户的消费询问意图时，则可以将打断时所播放至的句子转换为路由标签，并定位该路由标签在资源催收语音中对应的资源数值。进一步地，呼叫平台可以根据消费询问意图，从知识库中查找与定位的资源数值所对应的资源数值生成事项信息，并将文本格式的资源数值生成事项信息转换为语音格式，从而，控制语音机器人对语音格式的资源数值生成事项信息进行播放。

就比如，当语音机器人在播放第二笔消费的情况时，接收到客户打断询问“我这一笔消费我没有消费过”，语音机器人就会记录打断位置，确定是在播放第二笔消费时被打断，转换为路由标签2，根据该路由标签2定位第二笔消费所产生的资源数值，假设200元，然后，查找产生这200元的消费记录信息反馈给用户（即，查找与该资源数值所对应的资源数值生成事项信息），如“你的第二笔消费记录是在世界之窗买了门票”。

上述实施例中，定位路由标签在资源催收语音中对应的资源数值；根据消费询问意图，从知识库中查找与定位的资源数值所对应的资源数值生成事项信息，能够查找到准确的响应信息。

在一个实施例中，该方法还包括：在执行响应策略后的预设时长内，继续检测用户终端的语音数据；若未继续检测到用户终端的语音数据，或者，继续检测到的语音数据不为否定性语音数据，则返回预设语音中对应的打断位置，继续播放预设语音。

具体地，在执行响应策略后的预设时长内，呼叫平台可以继续检测用户终端的语音数据。

在一个实施例中，若未继续检测到用户终端的语音数据，说明用户对响应的内容没有异议，则可以返回预设语音中对应的打断位置，继续播放预设语音。

在一个实施例中，若继续检测到的语音数据不为否定性语音数据，同样可以说明用户对响应的内容没有异议，则可以返回预设语音中对应的打断位置，继续播放预设语音。比如，在第15秒被打断的，则从第15 秒起继续播放预设语音。

在一个实施例中，呼叫平台可以确定打断位置所对应的句子，从该句子的起始位置开始播放预设语音，以保证播报的完整性。

上述实施例中，在打断并响应后，可以通过智能判断，返回预设语音中对应的打断位置，继续播放预设语音，从而自动地、准确地实现对预设语音的完整性播放。

在一个实施例中，该方法还包括：若继续检测到的语音数据为否定性语音数据，则获取与预设语音中打断位置对应的用户意见采集语音；控制语音机器人播放用户意见采集语音，以引导用户终端输出针对打断位置处所播放的语音内容产生否定性意见的原因；采集用户终端输出的用于描述原因的语音数据并上报。

其中，否定性语音数据，是用户终端对语音机器人的应答进行否定的语音数据。

可以理解，否定性语音数据，表明语音机器人的应答未能解答用户的问题。因此，呼叫平台可以获取与预设语音中打断位置对应的用户意见采集语音。其中，与打断位置对应的用户意见采集语音，是用于引导用户终端输出针对打断位置处所播放的语音内容产生否定性意见的原因的引导语音。可以理解，不同打断位置可以对应不同的用户意见采集语音。

呼叫平台可以控制语音机器人播放该用户意见采集语音，以引导用户终端输出针对打断位置处所播放的语音内容产生否定性意见的原因。用户终端侧的用户则可以描述产生该否定性意见的原因，呼叫平台则可以采集用户终端输出的用于描述原因的语音数据并上报。

可以理解，在上报用于描述原因的语音数据之后，语音机器人可以播放问题反馈语音作为过渡语音，向用户说明已经针对用户所指出的问题进行了反馈，并在播放该过渡语音后，继续播放被打断的预设语音中后续的语音内容。比如，播放“已经将您提出的问题进行反馈，下面将继续向您播报其他消费情况”这一过渡语音后，继续播放被打断的预设语音“您的第三笔消费是**”。

进一步地，语音机器人还可以获取针对上报的用于描述原因的语音数据设置的回访语音，并再次呼叫该用户终端，对被打断的预设语音中的让用户产生否定性意见的语音内容进行回访。

上述实施例中，若继续检测到的语音数据为否定性语音数据，则可以控制语音机器人播放用户意见采集语音，以引导用户终端输出针对打断位置处所播放的语音内容产生否定性意见的原因，采集用户终端输出的用于描述原因的语音数据并上报。在外呼过程中，还能智能地实现问题采集及反馈，进一步地提高了人机交互的灵活性和智能性。

应该理解的是，虽然本申请各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，本申请各实施例的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种基于人机交互的语音处理装置，包括：播放模块402、打断模块404、打断位置识别模块406和响应模块408，其中：

播放模块402，用于控制语音机器人在与用户终端的语音通话中播放预设语音。

打断模块404，用于若在播放过程中接收到用户终端产生的语音数据，则产生打断信号；根据所述打断信号打断所述语音机器人对所述预设语音的播放。

打断位置识别模块406，用于识别所述打断信号在所述预设语音中对应的打断位置。

响应模块408，用于根据所述打断位置和所述语音数据，识别用户意图；查找与所述用户意图对应的响应策略，并控制所述语音机器人执行所述响应策略。

在一个实施例中，打断位置识别模块406还用于确实所述打断信号所对应的打断时间点；根据所述打断时间点，确定所述预设语音的已播放时长；根据所述语音机器人播放的语速和所述已播放时长，确定已播放字数；根据所述已播放字数，确定所述打断信号在所述预设语音中对应的打断位置。

在一个实施例中，打断位置识别模块406还用于获取所述预设语音所对应的文本内容；根据所述已播放字数，从所述文本内容中确定在打断时所播放至的字片段；将所述字片段在所述文本内容中所位于的句子确定为打断位置。

在一个实施例中，响应模块408还用于将所述打断位置转换为相应的路由标签；根据所述路由标签和所述用户意图，从知识库中查找对应的响应信息；控制所述语音机器人播放所述响应信息。

在一个实施例中，响应模块408还用于从知识库中查找与所述用户意图对应的响应信息，得到候选响应信息；同一用户意图对应至少一个响应信息；从所述候选响应信息中，查找与所述路由标签对应的响应信息。

在一个实施例中，所述预设语音为预设的资源催收语音；所述资源催收语音，用于依次播放所述用户终端对应的用户消费产生的多个资源数值；所述用户意图为消费询问意图。本实施例中，响应模块408还用于定位所述路由标签在所述资源催收语音中对应的资源数值；根据所述消费询问意图，从知识库中查找与定位的资源数值所对应的资源数值生成事项信息；所述资源数值生成事项信息，用于描述产生所述资源数值的消费事项；将所述资源数值生成事项信息转换为语音格式，并控制所述语音机器人对语音格式的资源数值生成事项信息进行播放。

在一个实施例中，播放模块402还用于在响应模块408执行所述响应策略后的预设时长内，继续检测所述用户终端的语音数据；若未继续检测到所述用户终端的语音数据，或者，继续检测到的语音数据不为否定性语音数据，则返回所述预设语音中对应的打断位置，继续播放所述预设语音。

在一个实施例中，播放模块402还用于若继续检测到的语音数据为否定性语音数据，则获取与所述预设语音中所述打断位置对应的用户意见采集语音；控制所述语音机器人播放所述用户意见采集语音，以引导所述用户终端输出针对所述打断位置处所播放的语音内容产生否定性意见的原因；

如图5所示，在一个实施例中，该装置还包括：

上报模块410，用于采集所述用户终端输出的用于描述所述原因的语音数据并上报。

关于基于人机交互的语音处理装置的具体限定可以参见上文中对于基于人机交互的语音处理方法的限定，在此不再赘述。上述基于人机交互的语音处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是呼叫平台的服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储响应策略。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人机交互的语音处理方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：控制语音机器人在与用户终端的语音通话中播放预设语音；若在播放过程中接收到用户终端产生的语音数据，则产生打断信号；根据打断信号打断语音机器人对预设语音的播放；识别打断信号在预设语音中对应的打断位置；根据打断位置和语音数据，识别用户意图；查找与用户意图对应的响应策略，并控制语音机器人执行响应策略。

在一个实施例中，识别打断信号在预设语音中对应的打断位置，包括：确实打断信号所对应的打断时间点；根据打断时间点，确定预设语音的已播放时长；根据语音机器人播放的语速和已播放时长，确定已播放字数；根据已播放字数，确定打断信号在预设语音中对应的打断位置。

在一个实施例中，根据已播放字数，确定打断信号在预设语音中对应的打断位置，包括：获取预设语音所对应的文本内容；根据已播放字数，从文本内容中确定在打断时所播放至的字片段；将字片段在文本内容中所位于的句子确定为打断位置。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将打断位置转换为相应的路由标签；查找与用户意图对应的响应策略，并控制语音机器人执行响应策略，包括：根据路由标签和用户意图，从知识库中查找对应的响应信息；控制语音机器人播放响应信息。

在一个实施例中，预设语音为预设的资源催收语音；资源催收语音，用于依次播放用户终端对应的用户消费产生的多个资源数值；用户意图为消费询问意图。根据路由标签和用户意图，从知识库中查找对应的响应信息，包括：定位路由标签在资源催收语音中对应的资源数值；根据消费询问意图，从知识库中查找与定位的资源数值所对应的资源数值生成事项信息；资源数值生成事项信息，用于描述产生资源数值的消费事项。控制语音机器人播放响应信息，包括：将资源数值生成事项信息转换为语音格式，并控制语音机器人对语音格式的资源数值生成事项信息进行播放。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：在执行响应策略后的预设时长内，继续检测用户终端的语音数据；若未继续检测到用户终端的语音数据，或者，继续检测到的语音数据不为否定性语音数据，则返回预设语音中对应的打断位置，继续播放预设语音。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：若继续检测到的语音数据为否定性语音数据，则获取与预设语音中打断位置对应的用户意见采集语音；控制语音机器人播放用户意见采集语音，以引导用户终端输出针对打断位置处所播放的语音内容产生否定性意见的原因；采集用户终端输出的用于描述原因的语音数据并上报。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：控制语音机器人在与用户终端的语音通话中播放预设语音；若在播放过程中接收到用户终端产生的语音数据，则产生打断信号；根据打断信号打断语音机器人对预设语音的播放；识别打断信号在预设语音中对应的打断位置；根据打断位置和语音数据，识别用户意图；查找与用户意图对应的响应策略，并控制语音机器人执行响应策略。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于人机交互的语音处理方法，其特征在于，所述方法包括：

控制语音机器人在与用户终端的语音通话中播放预设语音；

识别所述打断信号在所述预设语音中对应的打断位置；所述打断位置，是指预设语音被打断时所播放至的位置；

根据所述打断位置和所述语音数据，识别用户意图；

将所述打断位置转换为相应的路由标签；

根据所述路由标签和所述用户意图，从知识库中查找对应的响应信息，包括：从知识库中查找与所述用户意图对应的响应信息，得到候选响应信息；同一用户意图对应至少一个响应信息；从所述候选响应信息中，查找与所述路由标签对应的响应信息；

控制所述语音机器人播放所述响应信息。

2.根据权利要求1所述的方法，其特征在于，所述识别所述打断信号在所述预设语音中对应的打断位置，包括：

确实所述打断信号所对应的打断时间点；

根据所述打断时间点，确定所述预设语音的已播放时长；

3.根据权利要求2所述的方法，其特征在于，所述根据所述已播放字数，确定所述打断信号在所述预设语音中对应的打断位置，包括：

获取所述预设语音所对应的文本内容；

4.根据权利要求1所述的方法，其特征在于，所述预设语音为预设的资源催收语音；所述资源催收语音，用于依次播放所述用户终端对应的用户消费产生的多个资源数值；所述用户意图为消费询问意图；

所述根据所述路由标签和所述用户意图，从知识库中查找对应的响应信息，还包括：

定位所述路由标签在所述资源催收语音中对应的资源数值；

所述控制所述语音机器人播放所述响应信息，包括：

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

在播放所述响应信息后的预设时长内，继续检测所述用户终端的语音数据；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.一种基于人机交互的语音处理装置，其特征在于，所述装置包括：

打断位置识别模块，用于识别所述打断信号在所述预设语音中对应的打断位置；所述打断位置，是指预设语音被打断时所播放至的位置；

响应模块，用于根据所述打断位置和所述语音数据，识别用户意图；将所述打断位置转换为相应的路由标签；从知识库中查找与所述用户意图对应的响应信息，得到候选响应信息；同一用户意图对应至少一个响应信息；从所述候选响应信息中，查找与所述路由标签对应的响应信息。

8.根据权利要求7所述的装置，其特征在于，所述打断位置识别模块还用于确实所述打断信号所对应的打断时间点；根据所述打断时间点，确定所述预设语音的已播放时长；根据所述语音机器人播放的语速和所述已播放时长，确定已播放字数；根据所述已播放字数，确定所述打断信号在所述预设语音中对应的打断位置。

9.根据权利要求7或8所述的装置，其特征在于，所述预设语音为预设的资源催收语音；所述资源催收语音，用于依次播放所述用户终端对应的用户消费产生的多个资源数值；所述用户意图为消费询问意图；

所述响应模块还用于定位所述路由标签在所述资源催收语音中对应的资源数值；根据所述消费询问意图，从知识库中查找与定位的资源数值所对应的资源数值生成事项信息；所述资源数值生成事项信息，用于描述产生所述资源数值的消费事项；将所述资源数值生成事项信息转换为语音格式，并控制所述语音机器人对语音格式的资源数值生成事项信息进行播放。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。