CN112365888B

CN112365888B - 意图识别方法、装置、计算机设备和存储介质

Info

Publication number: CN112365888B
Application number: CN202011095966.XA
Authority: CN
Inventors: 刘彦华; 邓锐涛; 王艺霏
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2023-12-22
Anticipated expiration: 2040-10-14
Also published as: CN112365888A

Abstract

本申请涉及一种意图识别方法、装置、计算机设备和存储介质。所述方法包括：若接收到第一语音，则对所述第一语音进行意图识别得到第一意图；若在接收到所述第一语音之后的预设时长内接收到第二语音，则基于所述第一语音和所述第二语音进行意图识别，得到第二意图；从所述第一意图和所述第二意图中确定目标意图。采用本方法能够提高意图识别的效率。

Description

意图识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种意图识别方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，出现了人工智能等技术。企业通过人工智能等技术，可以更智能地服务用户。例如，若用户存在咨询业务或者其他问题，可以将咨询业务或者问题发送至智能机器人等计算机设备，通过智能机器人等计算机设备对用户所发送的内容进行分析和意图识别，可以智能回复用户。

传统的意图识别方法，通常是在接收到用户的信息之后，间隔预设的时长(如500ms)后，再对用户的信息进行处理和响应，存在意图识别的效率低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高效率的意图识别方法、装置、计算机设备和存储介质。

一种意图识别方法，所述方法包括：

若接收到第一语音，则对所述第一语音进行意图识别得到第一意图；

若在接收到所述第一语音之后的预设时长内接收到第二语音，则基于所述第一语音和所述第二语音进行意图识别，得到第二意图；

从所述第一意图和所述第二意图中确定目标意图。

在其中一个实施例中，所述从所述第一意图和所述第二意图中确定目标意图，包括：

将所述第一意图和所述第二意图进行比较，若所述第一意图与所述第二意图相同，则将所述第一意图确定为目标意图；

若所述第一意图与所述第二意图不同，则将所述第二意图确定为目标意图。

在其中一个实施例中，所述若接收到第一语音，则对所述第一语音进行意图识别得到第一意图之后，还包括：

对所述第一意图进行响应；

在所述若在接收到所述第一语音之后的预设时长内接收到第二语音，则基于所述第一语音和所述第二语音进行意图识别，得到第二意图之后，还包括：

暂停对所述第一意图进行响应；

在所述将所述第一意图和所述第二意图进行比较，若所述第一意图与所述第二意图相同，则将所述第一意图确定为目标意图之后，还包括：

继续对所述第一意图进行响应。

对所述第一意图进行响应；

暂停对所述第一意图进行响应；

所述若所述第一意图与所述第二意图不同，则将所述第二意图确定为目标意图之后，还包括：

停止对所述第一意图进行响应，对所述第二意图进行响应。

在其中一个实施例中，所述若在接收到所述第一语音之后的预设时长内接收到第二语音，则基于所述第一语音和所述第二语音进行意图识别，得到第二意图，包括：

若在接收到所述第一语音之后的预设时长内接收到第二语音，则将所述第一语音和所述第二语音进行拼接，得到拼接语音；

对所述拼接语音进行意图识别得到第二意图。

在其中一个实施例中，所述若接收到第一语音，则对所述第一语音进行意图识别得到第一意图，包括：

若接收到第一语音，则对所述第一语音进行语音识别得到第一文本，对所述第一文本进行意图识别得到第一意图；

所述若在接收到所述第一语音之后的预设时长内接收到第二语音，则基于所述第一语音和所述第二语音进行意图识别，得到第二意图，包括：

若在接收到所述第一语音之后的预设时长内接收到第二语音，则对所述第二语音进行语音识别得到第二文本，将所述第一文本和所述第二文本进行拼接，得到拼接文本；

对所述拼接文本进行意图识别，得到第二意图。

在其中一个实施例中，所述方法还包括：

在对所述第一意图进行响应的过程中，或者在对所述第二意图进行响应的过程中，若检测到响应停止指令，则控制预先配置的开关关闭，以停止对所述第一意图的响应或者以停止对所述第二意图的响应。

在其中一个实施例中，所述从所述第一意图和所述第二意图中确定目标意图之后，还包括：

若在接收到所述第二语音之后的所述预设时长内接收到第三语音，则基于所述第一语音、第二语音和第三语音进行意图识别，得到第三意图，从所述第三意图和所述目标意图确定其中一个作为新的目标意图。

一种意图响应方法，所述方法包括：

若接收到第一语音，则对所述第一语音进行意图识别得到第一意图，并对所述第一意图进行响应；

若在接收到所述第一语音之后的预设时长内接收到第二语音，则停止对所述第一意图进行响应，并基于所述第一语音和所述第二语音进行意图识别，得到第二意图，对所述第二意图进行响应。

一种意图识别装置，所述装置包括：

意图识别模块，用于若接收到第一语音，则对所述第一语音进行意图识别得到第一意图；

所述意图识别模块还用于若在接收到所述第一语音之后的预设时长内接收到第二语音，则基于所述第一语音和所述第二语音进行意图识别，得到第二意图；

目标意图确定模块，用于从所述第一意图和所述第二意图中确定目标意图。

一种意图响应装置，所述装置包括：

意图响应模块，用于若接收到第一语音，则对所述第一语音进行意图识别得到第一意图，并对所述第一意图进行响应；

所述意图响应模块还用于若在接收到所述第一语音之后的预设时长内接收到第二语音，则停止对所述第一意图进行响应，并基于所述第一语音和所述第二语音进行意图识别，得到第二意图，对所述第二意图进行响应。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

上述意图识别方法、装置、计算机设备和存储介质，若接收到第一语音，则对第一语音进行意图识别得到第一意图，即在接收到第一语音时立即对第一语音进行意图识别得到第一意图；若在接收到第一语音之后的预设时长内接收到第二语音，表示第一语音和第二语音结合为完整的语音，则立即基于第一语音和第二语音进行意图识别，得到第二意图，再从第一意图和第二意图中确定目标意图，避免了在接收到语音之后再经过一定时间才进行意图识别和响应，可以更快速识别出接收到的语音的意图，提高意图识别的效率。

附图说明

图1为一个实施例中意图识别方法的应用环境图；

图2为一个实施例中意图识别方法的流程示意图；

图3为另一个实施例中意图识别方法的流程示意图；

图4为另一个实施例中意图识别方法的流程示意图；

图5为另一个实施例中意图识别方法的流程示意图；

图6为一个实施例中意图响应方法的流程示意图；

图7为一个实施例中意图识别装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的意图识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102将第一语音发送至服务器104中。服务器104若接收到第一语音，则对第一语音进行意图识别得到第一意图；若在接收到第一语音之后的预设时长内接收到终端102发送的第二语音，则基于第一语音和第二语音进行意图识别，得到第二意图；从第一意图和第二意图中确定目标意图。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现，服务器104也可以为客服或坐席所使用的终端。

在一个实施例中，如图2所示，提供了一种意图识别方法，包括以下步骤：

步骤202，若接收到第一语音，则对第一语音进行意图识别得到第一意图。

第一语音是服务器接收到的用于意图识别的语音。第一意图指的是第一语音的意图。

需要指出的是，若服务器接收到第一语音，则立即对第一语音进行意图识别得到第一意图，避免服务器在接收到第一语音之后需等待一定的时间才进行意图识别和响应，可以更快速对第一语音进行意图识别，更快速得到第一语音的第一意图。

在另一种实施方式中，若服务器接收到第一语音，对第一语音进行意图识别，并结合上下文语义理解得到第一意图。

在一种实施方式中，若服务器接收到第一语音，则将第一语音输入训练完成的意图识别模型中，对第一语音进行意图识别输出第一意图。

在另一种实施方式中，若服务器接收到第一语音，则将第一语音进行文本识别得到第一文本，将第一文本输入训练完成的意图识别模型中，对第一文本进行意图识别输出第一意图。

服务器可以预先对意图识别模型进行训练。具体地，服务器将标注有参考意图的训练样本输入意图识别模型中，通过意图识别模型输出训练样本的训练意图；将训练意图与参考意图进行比较，并基于比较结果对意图识别模型中的参数进行修改，得到新的意图识别模型；将标注有参考意图的训练样本输入新的意图识别模型中，返回执行通过意图识别模型输出训练样本的训练意图步骤，直到对意图识别模型中的参数进行修改的次数达到次数阈值，将最后一次得到的意图识别模型作为训练完成的意图识别模型。

参考意图指的是训练样本的意图，该参考意图为训练样本正确的意图。训练意图指的是意图识别模型对训练样本进行意图识别得到的意图。参考意图与训练意图可以相同，也可以不同。若训练意图与参考意图相同，表示该意图识别模型可以准确对训练样本进行意图识别。若训练意图与参考意图不同，表示该意图识别模型对训练样本识别不准确。次数阈值可以根据需要进行设置。

步骤204，若在接收到第一语音之后的预设时长内接收到第二语音，则基于第一语音和第二语音进行意图识别，得到第二意图。

预设时长可以根据需要进行设置。例如预设时长可以设置为500ms(500毫秒)，100ms，80ms，等等。

第二语音指的是服务器在接收到第一语音之后的预设时长内接收到的语音。第二意图指的是对第一语音和第二语音进行意图识别得到的意图。

需要指出的是，若服务器在接收到第一语音之后的预设时长内接收到第二语音，则立即基于第一语音和第二语音进行意图识别，避免服务器在接收到第二语音之后需等待一定的时间才进行意图识别和响应，可以更快速对第一语音和第二语音进行意图识别，更快速得到第二意图。

具体地，若服务器在接收到第一语音之后的预设时长内接收到第二语音，则将第一语音和第二语音进行拼接，得到拼接语音；对拼接语音进行意图识别得到第二意图。

拼接语音指的是将第一语音和第二语音进行拼接得到的语音。服务器可以在第一语音之后拼接第二语音得到拼接语音，也可以在第一语音之前拼接第二语音得到拼接语音。在其他的实施方式中，还可以采用其他的拼接方式将第一语音和第二语音进行拼接得到拼接语音，不限于此。

例如，第一语音的内容为A，第二语音的内容为B，则拼接语音的内容可以为AB，也可以为BA，再对拼接语音进行意图识别，得到第二意图。

在一种实施方式中，服务器得到拼接语音之后，将拼接语音输入训练完成的意图识别模型中，对拼接语音进行意图识别得到第二意图。

在另一种实施方式中，服务器得到拼接语音之后，将拼接语音进行文本识别得到拼接文本，将拼接文本输入训练完成的意图识别模型中，对拼接文本进行意图识别得到第二意图。

在另一种实施方式中，若服务器在接收到第一语音之后的预设时长内接收到第二语音，将第一语音和第二语音分别进行文本识别，得到第一语音对应的第一文本，以及第二语音对应的第二文本，再将第一文本和第二文本进行拼接得到拼接文本，将拼接文本输入训练完成的意图识别模型中，对拼接文本进行意图识别得到第二意图。

步骤206，从第一意图和第二意图中确定目标意图。

目标意图指的是服务器接收到第一语音以及第二语音之后识别出的最终的意图。

具体地，服务器将第一意图和第二意图进行比较，若第一意图与第二意图相同，则将第一意图确定为目标意图；若第一意图与第二意图不同，则将第二意图确定为目标意图。

服务器将第一意图和第二意图进行比较，若第一意图与第二意图相同，表示用户所发送的第一语音的意图，与用户所发送的第一语音和第二语音进行结合得到的意图相同，也就是说，用户发送第二语音前后意图相同，则服务器可以将第一意图确定为目标意图。

若第一意图与第二意图不同，表示用户所发送的第一语音的意图，与用户所发送的第一语音和第二语音进行结合得到的意图不同，也就是说，用户发送第二语音前后意图不同，则将第二意图确定为目标意图。

上述意图识别方法，若接收到第一语音，则对第一语音进行意图识别得到第一意图，即在接收到第一语音时立即对第一语音进行意图识别得到第一意图；若在接收到第一语音之后的预设时长内接收到第二语音，表示第一语音和第二语音结合为完整的语音，则立即基于第一语音和第二语音进行意图识别，得到第二意图，再从第一意图和第二意图中确定目标意图，避免了在接收到语音之后再经过一定时间才进行意图识别和响应，可以更快速识别出接收到的语音的意图，提高意图识别的效率。

在一个场景中，用户可以通过所在终端与服务器建立语音通话，若服务器接收到用户所在终端发送的第一语音，则对第一语音进行意图识别得到第一意图；若服务器在接收到第一语音之后的预设时长内接收到用户所在终端发送的第二语音，则基于第一语音和第二语音进行意图识别，得到第二意图；从第一意图和第二意图中确定目标意图。进一步地，服务器还可以对目标意图进行响应，获取目标意图对应的响应信息，播放响应信息的语音信息，并将该语音信息传输至用户所在终端。

在一个实施例中，如图3所示，若接收到第一语音，则对第一语音进行意图识别得到第一意图之后，还包括：

步骤302，对第一意图进行响应。

服务器获取第一意图对应的响应信息，基于响应信息进行响应。

响应信息可以是文本信息，服务器将该文本信息转换为语音信息，播放该语音信息，并通过通话线路实时传输该播放的语音信息至用户终端，使得用户终端的扬声器实时播放该语音信息。

响应信息可以是语音信息，服务器可以播放该语音信息，并通过通话线路实时传输该播放的语音信息至用户终端，使得用户终端的扬声器实时播放该语音信息；服务器也可以将该语音信息传输至用户终端，使得用户终端的扬声器播放该语音信息。

响应信息还可以是视频信息，服务器可以将该视频信息发送至用户终端，使得该视频信息的画面显示在用户终端的显示界面中，并通过扬声器播放该视频信息所包括的音频信息。

在若在接收到第一语音之后的预设时长内接收到第二语音，则基于第一语音和第二语音进行意图识别，得到第二意图之后，还包括：

步骤304，暂停对第一意图进行响应。

若服务器在接收到第一语音之后的预设时长内接收到第二语音，则基于第一语音和第二语音进行意图识别，得到第二意图之后，暂停对第一意图进行响应。也就是说，若服务器在接收到第一语音之后的预设时长内接收到第二语音，则暂停对第一意图进行响应。

在一个实施例中，若服务器获取第一意图对应的响应信息是文本信息，服务器将该文本信息转换为语音信息，播放该语音信息，并通过通话线路实时传输该播放的语音信息至用户终端，使得用户终端的扬声器实时播放该语音信息；若在接收到第一语音之后的预设时长内接收到第二语音，则基于第一语音和第二语音进行意图识别，得到第二意图之后，暂停播放该语音信息。

在另一个实施例中，若服务器获取第一意图对应的响应信息是语音信息，播放该语音信息，并通过通话线路实时传输该播放的语音信息至用户终端，使得用户终端的扬声器实时播放该语音信息；若在接收到第一语音之后的预设时长内接收到第二语音，则基于第一语音和第二语音进行意图识别，得到第二意图之后，暂停播放该语音信息。

在另一个实施例中，若服务器获取第一意图对应的响应信息是语音信息，将该语音信息传输至用户终端，使得用户终端的扬声器播放该语音信息；若在接收到第一语音之后的预设时长内接收到第二语音，则基于第一语音和第二语音进行意图识别，得到第二意图之后，将暂停指令发送至用户终端，使得用户终端的扬声器暂停播放该语音信息。

在另一个实施例中，若服务器获取第一意图对应的响应信息是视频信息，将视频信息发送至用户终端，使得该视频信息显示在用户终端的显示界面中，并通过扬声器播放该视频信息所包括的音频信息；若在接收到第一语音之后的预设时长内接收到第二语音，则基于第一语音和第二语音进行意图识别，得到第二意图之后，将暂停指令发送至用户终端，使得用户终端的显示界面暂停显示该视频信息的画面，以及扬声器暂停播放该视频信息的音频信息。

在将第一意图和第二意图进行比较，若第一意图与第二意图相同，则将第一意图确定为目标意图之后，还包括：

步骤306，继续对第一意图进行响应。

服务器将第一意图和第二意图进行比较，若第一意图与第二意图相同，表示用户所发送的第一语音的意图，与用户所发送的第一语音和第二语音进行结合得到的意图相同，也就是说，用户发送第二语音前后意图相同，继续对第一意图进行响应即可。

在一个实施例中，若服务器获取第一意图对应的响应信息是文本信息，服务器将该文本信息转换为语音信息，播放该语音信息，并通过通话线路实时传输该播放的语音信息至用户终端，使得用户终端的扬声器实时播放该语音信息；若在接收到第一语音之后的预设时长内接收到第二语音，则基于第一语音和第二语音进行意图识别，得到第二意图之后，暂停播放该语音信息；在将第一意图和第二意图进行比较，若第一意图与第二意图相同，则将第一意图确定为目标意图之后，继续播放该语音信息，并通过通话线路实时传输该播放的语音信息至用户终端，使得用户终端的扬声器继续播放该语音信息。

在一个实施例中，若服务器获取第一意图对应的响应信息是语音信息，播放该语音信息，并通过通话线路实时传输该播放的语音信息至用户终端，使得用户终端的扬声器实时播放该语音信息；若在接收到第一语音之后的预设时长内接收到第二语音，则基于第一语音和第二语音进行意图识别，得到第二意图之后，则暂停播放该语音信息；在将第一意图和第二意图进行比较，若第一意图与第二意图相同，则将第一意图确定为目标意图之后，继续播放该语音信息，并通过通话线路实时传输该播放的语音信息至用户终端，使得用户终端的扬声器继续播放该语音信息。

在另一个实施例中，若服务器获取第一意图对应的响应信息是语音信息，将该语音信息传输至用户终端，使得用户终端的扬声器播放该语音信息；若在接收到第一语音之后的预设时长内接收到第二语音，则基于第一语音和第二语音进行意图识别，得到第二意图之后，将暂停指令发送至用户终端，使得用户终端的扬声器暂停播放该语音信息；在将第一意图和第二意图进行比较，若第一意图与第二意图相同，则将第一意图确定为目标意图之后，将继续播放指令发送至用户终端，使得用户终端的扬声器继续播放该语音信息。

在另一个实施例中，若服务器获取第一意图对应的响应信息是视频信息，将视频信息发送至用户终端，使得该视频信息显示在用户终端的显示界面中，并通过扬声器播放该视频信息所包括的音频信息；若在接收到第一语音之后的预设时长内接收到第二语音，则基于第一语音和第二语音进行意图识别，得到第二意图之后，将暂停指令发送至用户终端，使得用户终端的显示界面暂停显示该视频信息的画面，以及扬声器暂停播放该视频信息的音频信息；在将第一意图和第二意图进行比较，若第一意图与第二意图相同，则将第一意图确定为目标意图之后，将继续播放指令发送至用户终端，使得该视频信息继续显示在用户终端的显示界面中，并通过扬声器继续播放该视频信息所包括的音频信息。

在本实施例中，若接收到第一语音，则对第一语音进行意图识别得到第一意图之后，对第一意图进行响应；在若在接收到第一语音之后的预设时长内接收到第二语音，则基于第一语音和第二语音进行意图识别，得到第二意图之后，暂停对第一意图进行响应；在将第一意图和第二意图进行比较，若第一意图与第二意图相同，表示用户所发送的第一语音的意图，与用户所发送的第一语音和第二语音进行结合得到的意图相同，也就是说，用户发送第二语音前后意图相同，则可以继续对第一意图进行响应，避免重新进行响应，提高了意图响应的效率。

在另一个实施例中，若在接收到第一语音之后的预设时长内未接收到新的语音，则继续对第一意图进行响应。

在一个实施例中，如图4所示，若接收到第一语音，则对第一语音进行意图识别得到第一意图之后，还包括：

步骤402，对第一意图进行响应。

步骤404，暂停对第一意图进行响应。

在一个实施例中，若服务器获取第一意图对应的响应信息是语音信息，播放该语音信息，并通过通话线路实时传输该播放的语音信息至用户终端，使得用户终端的扬声器实时播放该语音信息；若在接收到第一语音之后的预设时长内接收到第二语音，则基于第一语音和第二语音进行意图识别，得到第二意图之后，暂停播放该语音信息。

若第一意图与第二意图不同，则将第二意图确定为目标意图之后，还包括：

步骤406，停止对第一意图进行响应，对第二意图进行响应。

服务器将第一意图和第二意图进行比较，若第一意图与第二意图不同，表示用户所发送的第一语音的意图，与用户所发送的第一语音和第二语音进行结合得到的意图不同，也就是说，用户发送第二语音前后意图不同，第一意图对应的响应信息和第二意图对应的响应信息不同，则将第二意图确定为目标意图，停止对第一意图进行响应，对第二意图进行响应。在另一种实施方式中，服务器停止对第一意图进行响应之后，还可以撤销第一意图的处理请求。

在终端与服务器的语音通话过程中，包括各个业务的会话任务。会话任务包括相应的会话流程，可以包括多个会话节点。针对不同的会话节点，同一个意图，所对应的响应信息可以相同，也可以不同。例如，a、b两个会话节点中，意图识别得到的意图相同，则a会话节点对应的意图可以获取到m响应信息，b会话节点对应的意图可以获取到n应答结果。

在一个实施例中，若服务器获取第二意图对应的响应信息是文本信息，服务器将该文本信息转换为语音信息，播放该语音信息，并通过通话线路实时传输该播放的语音信息至用户终端，使得用户终端的扬声器实时播放该语音信息。

在另一个实施例中，若服务器获取第二意图对应的响应信息是语音信息，播放该语音信息，并通过通话线路实时传输该播放的语音信息至用户终端，使得用户终端的扬声器实时播放该语音信息。

在另一个实施例中，若服务器获取第二意图对应的响应信息是语音信息，将该语音信息传输至用户终端，使得用户终端的扬声器播放该语音信息。

在另一个实施例中，若服务器获取第二意图对应的响应信息是视频信息，将视频信息发送至用户终端，使得该视频信息显示在用户终端的显示界面中，并通过扬声器播放该视频信息所包括的音频信息。

在本实施例中，若接收到第一语音，则对第一语音进行意图识别得到第一意图之后，对第一意图进行响应；在若在接收到第一语音之后的预设时长内接收到第二语音，则基于第一语音和第二语音进行意图识别，得到第二意图之后，暂停对第一意图进行响应；在将第一意图和第二意图进行比较，若第一意图与第二意图不同，则可以将第二意图作为目标意图，停止对第一意图进行响应，对第二意图进行响应，缩短了意图响应的时间，提高了响应的效率，有效地提高语音处理的效率。

在一个实施例中，如图5所示，若接收到第一语音，则对第一语音进行意图识别得到第一意图，包括：

步骤502，若接收到第一语音，则对第一语音进行语音识别得到第一文本，对第一文本进行意图识别得到第一意图。

具体地，若服务器接收到第一语音，则通过训练完成的语音识别模型对第一语音进行语音识别得到第一文本，再通过训练完成的意图识别模型对第一文本进行意图识别得到第一意图。

若在接收到第一语音之后的预设时长内接收到第二语音，则基于第一语音和第二语音进行意图识别，得到第二意图，包括：

步骤504，若在接收到第一语音之后的预设时长内接收到第二语音，则对第二语音进行语音识别得到第二文本，将第一文本和第二文本进行拼接，得到拼接文本。

具体地，若服务器在接收到第一语音之后的预设时长内接收到第二语音，则通过训练完成的语音识别模型对第二语音进行语音识别得到第二文本，将第一文本和第二文本进行拼接，得到拼接文本。

可选地，服务器可以在第一文本之后拼接第二文本，得到拼接文本，也可以在第一文本之前拼接第二文本，得到拼接文本。在其他的实施方式中，服务器还可以将第一文本和第二文本按照所需的方式进行拼接。

步骤506，对拼接文本进行意图识别，得到第二意图。

具体地，服务器通过训练完成的意图识别模型对拼接文本进行意图识别，得到第二意图。

在本实施例中，若接收到第一语音，则对第一语音进行语音识别得到第一文本，对第一文本进行意图识别得到第一意图；若在接收到第一语音之后的预设时长内接收到第二语音，则对第二语音进行语音识别得到第二文本，将第一文本和第二文本进行拼接，得到拼接文本；对拼接文本进行意图识别，得到第二意图，避免了在接收到语音之后再经过一定时间才进行意图识别和响应，可以更快速识别出接收到的语音的意图，提高意图识别的效率。

在一个实施例中，上述方法还包括：在对第一意图进行响应的过程中，或者在对第二意图进行响应的过程中，若检测到响应停止指令，则控制预先配置的开关关闭，以停止对第一意图的响应或者以停止对第二意图的响应。

服务器可以预先配置开关，用于对响应的动作进行控制。例如，服务器通过开关可以停止对第一意图的响应，或者停止对第二意图的响应。又如，服务器通过开关可以控制继续对第一意图进行响应，或者控制继续对第二意图进行响应。

服务器可以预先设置响应停止条件，若在对第一意图进行响应的过程中，或者在对第二意图进行响应的过程中，符合该响应停止条件，则生成响应停止指令。若服务器检测到响应停止指令，则控制预先配置的开关关闭，以停止对第一意图的响应或者以停止对第二意图的响应，可以在响应过程中准确控制对意图的响应。其中，响应停止条件可以是检测到第一意图与第二意图不同、用户触发人工服务、用户发出“停止”意图的语音、用户挂机等其中的至少一种。

例如，若服务器在对第一意图进行响应的过程中，或者在对第二意图进行响应的过程中，检测到用户触发人工服务，符合响应停止条件，则生成响应停止条件；服务器检测到响应停止条件，则控制预先配置的开关关闭，以停止对第一意图的响应或者以停止对第二意图的响应。

在一个实施例中，从第一意图和第二意图中确定目标意图之后，还包括：若在接收到第二语音之后的预设时长内接收到第三语音，则基于第一语音、第二语音和第三语音进行意图识别，得到第三意图，从第三意图和目标意图确定其中一个作为新的目标意图。

第三语音指的是服务器在接收到第二语音之后的预设时长内接收到的语音。第三意图指的是服务器基于第一语音、第二语音和第三语音进行意图识别得到的意图。

具体地，若服务器在接收到第二语音之后的预设时长内接收到第三语音，则将第一语音、第二语音和第三语音进行拼接，得到新的拼接语音，对新的拼接语音进行意图识别，得到第三意图。第三意图是表达第一语音、第二语音和第三语音的意图。

服务器将第三意图和目标意图进行比较，若第三意图与目标意图相同，则将第三意图确定为新的目标意图；若第三意图与目标意图不同，则将第三意图确定为新的目标意图。

在本实施例中，若在接收到第二语音之后的预设时长内接收到第三语音，则立即基于第一语音、第二语音和第三语音进行意图识别，得到第三意图，从第三意图和目标意图确定其中一个作为新的目标意图，避免了在接收到语音之后再经过一定时间才进行意图识别和响应，可以更快速识别出接收到的语音的意图，提高意图识别的效率。

在另一个实施例中，若服务器在接收到第三语音之后的预设时长内接收到第四语音，则基于第一语音、第二语音、第三语音和第四语音进行意图识别，得到第四意图，从第四意图和目标意图中确定新的目标意图。以此类推，服务器每接收到一段语音，则在该段语音之后的预设时长内接收到新的语音，则基于接收的各个语音进行意图识别，得到新的意图，并且从该新的意图和上一次得到的目标意图中确定新的目标意图。

在一个实施例中，如图6所示，提供了一种意图响应方法，包括以下步骤：

步骤602，若接收到第一语音，则对第一语音进行意图识别得到第一意图，并对第一意图进行响应。

需要指出的是，若服务器接收到第一语音，则立即对第一语音进行意图识别得到第一意图，并对第一意图进行响应，避免服务器在接收到第一语音之后需等待一定的时间才进行意图识别和响应，可以更快速对第一语音进行意图识别，更快速得到第一语音的第一意图，并快速对第一意图进行响应。

服务器获取第一意图对应的响应信息，基于第一意图对应的响应信息进行响应。

第一意图对应的响应信息可以是文本信息，服务器将该文本信息转换为语音信息，播放该语音信息，并通过通话线路实时传输该播放的语音信息至用户终端，使得用户终端的扬声器实时播放该语音信息。

第一意图对应的响应信息也可以是语音信息，服务器可以播放该语音信息，并通过通话线路实时传输该播放的语音信息至用户终端，使得用户终端的扬声器实时播放该语音信息；服务器也可以将该语音信息传输至用户终端，使得用户终端的扬声器播放该语音信息。

第一意图对应的响应信息还可以是视频信息，服务器可以将该视频信息发送至用户终端，使得该视频信息的画面显示在用户终端的显示界面中，并通过扬声器播放该视频信息所包括的音频信息。

步骤604，若在接收到第一语音之后的预设时长内接收到第二语音，则停止对第一意图进行响应，并基于第一语音和第二语音进行意图识别，得到第二意图，对第二意图进行响应。

第二语音指的是服务器在接收到第一语音之后的预设时长内接收到的语音。第二意图指的是对第一语音和第二语音进行意图识别得到的意图。第一意图与第二意图可相同，也可以不同。

需要指出的是，若服务器在接收到第一语音之后的预设时长内接收到第二语音，则停止对第一意图进行响应，立即基于第一语音和第二语音进行意图识别得到第二意图，对第二意图进行响应，避免服务器在接收到第二语音之后需等待一定的时间才进行意图识别和响应，可以更快速对第一语音和第二语音进行意图识别，更快速得到第二意图，并快速对第二意图进行响应。

具体地，若服务器在接收到第一语音之后的预设时长内接收到第二语音，则停止对第一意图进行响应，将第一语音和第二语音进行拼接，得到拼接语音；对拼接语音进行意图识别得到第二意图，对第二意图进行响应。

在一种实施方式中，服务器得到拼接语音之后，将拼接语音输入训练完成的意图识别模型中，对拼接语音进行意图识别输出第二意图。

在另一种实施方式中，服务器得到拼接语音之后，将拼接语音进行文本识别得到拼接文本，将拼接文本输入训练完成的意图识别模型中，对拼接文本进行意图识别输出第二意图。

在另一种实施方式中，若服务器在接收到第一语音之后的预设时长内接收到第二语音，则停止对第一意图进行响应，将第一语音和第二语音分别进行文本识别，得到第一语音对应的第一文本，以及第二语音对应的第二文本，再将第一文本和第二文本进行拼接得到拼接文本，将拼接文本输入训练完成的意图识别模型中，对拼接文本进行意图识别得到第二意图。

服务器获取第二意图对应的响应信息，基于第二意图对应的响应信息进行响应。

第二意图对应的响应信息可以是文本信息，服务器将该文本信息转换为语音信息，播放该语音信息，并通过通话线路实时传输该播放的语音信息至用户终端，使得用户终端的扬声器实时播放该语音信息。

第二意图对应的响应信息可以是语音信息，服务器可以播放该语音信息，并通过通话线路实时传输该播放的语音信息至用户终端，使得用户终端的扬声器实时播放该语音信息；服务器也可以将该语音信息传输至用户终端，使得用户终端的扬声器播放该语音信息。

第二意图对应的响应信息还可以是视频信息，服务器可以将该视频信息发送至用户终端，使得该视频信息的画面显示在用户终端的显示界面中，并通过扬声器播放该视频信息所包括的音频信息。

在本实施例中，若接收到第一语音，则立即对第一语音进行意图识别得到第一意图，并对第一意图进行响应；若在接收到第一语音之后的预设时长内接收到第二语音，则停止对第一意图进行响应，并立即基于第一语音和第二语音进行意图识别得到第二意图，对第二意图进行响应，避免了在接收到语音之后再经过一定时间才进行意图识别和响应，可以更快速识别出接收到的语音的意图，提高意图识别的效率，更快速对语音的意图进行响应，提高意图响应的效率。

应该理解的是，虽然图2至图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至图6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种意图识别装置700，包括：意图识别模块702和目标意图确定模块704，其中：

意图识别模块702，用于若接收到第一语音，则对第一语音进行意图识别得到第一意图。

意图识别模块702还用于若在接收到第一语音之后的预设时长内接收到第二语音，则基于第一语音和第二语音进行意图识别，得到第二意图。

目标意图确定模块704，用于从第一意图和第二意图中确定目标意图。

上述意图识别装置，若接收到第一语音，则对第一语音进行意图识别得到第一意图，即在接收到第一语音时立即对第一语音进行意图识别得到第一意图；若在接收到第一语音之后的预设时长内接收到第二语音，表示第一语音和第二语音结合为完整的语音，则立即基于第一语音和第二语音进行意图识别，得到第二意图，再从第一意图和第二意图中确定目标意图，避免了在接收到语音之后再经过一定时间才进行意图识别和响应，可以更快速识别出接收到的语音的意图，提高意图识别的效率。

在一个实施例中，上述目标意图确定模块704还用于将第一意图和第二意图进行比较，若第一意图与第二意图相同，则将第一意图确定为目标意图；若第一意图与第二意图不同，则将第二意图确定为目标意图。

在一个实施例中，上述意图识别装置还包括意图响应模块，用于对第一意图进行响应；暂停对第一意图进行响应；继续对第一意图进行响应。

在一个实施例中，上述意图响应模块还用于对第一意图进行响应；暂停对第一意图进行响应；停止对第一意图进行响应，对第二意图进行响应。

在一个实施例中，上述意图识别模块702还用于若在接收到第一语音之后的预设时长内接收到第二语音，则将第一语音和第二语音进行拼接，得到拼接语音；对拼接语音进行意图识别得到第二意图。

在一个实施例中，上述意图识别模块702还用于若接收到第一语音，则对第一语音进行语音识别得到第一文本，对第一文本进行意图识别得到第一意图；若在接收到第一语音之后的预设时长内接收到第二语音，则对第二语音进行语音识别得到第二文本，将第一文本和第二文本进行拼接，得到拼接文本；对拼接文本进行意图识别，得到第二意图。

在一个实施例中，上述意图响应模块还用于在对第一意图进行响应的过程中，或者在对第二意图进行响应的过程中，若检测到响应停止指令，则控制预先配置的开关关闭，以停止对第一意图的响应或者以停止对第二意图的响应。

在一个实施例中，上述意图识别模块702还用于若在接收到第二语音之后的预设时长内接收到第三语音，则基于第一语音、第二语音和第三语音进行意图识别，得到第三意图，从第三意图和目标意图确定其中一个作为新的目标意图。

关于意图识别装置的具体限定可以参见上文中对于意图识别方法的限定，在此不再赘述。上述意图识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种意图响应装置，包括：意图响应模块，用于若接收到第一语音，则对第一语音进行意图识别得到第一意图，并对第一意图进行响应；意图响应模块还用于若在接收到第一语音之后的预设时长内接收到第二语音，则停止对第一意图进行响应，并基于第一语音和第二语音进行意图识别，得到第二意图，对第二意图进行响应。

关于意图响应装置的具体限定可以参见上文中对于意图响应方法的限定，在此不再赘述。上述意图响应装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储第一语音、第二语音、响应信息等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种意图识别方法或意图响应方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种意图识别方法，其特征在于，所述方法包括：

若在接收到所述第一语音之后的预设时长内接收到第二语音，则暂停对所述第一意图进行响应，并基于所述第一语音和所述第二语音进行意图识别，得到第二意图；

若所述第一意图与所述第二意图相同，则将所述第一意图确定为目标意图，并继续对所述第一意图进行响应；

若在接收到第一语音之后的预设时长内未接收到新的语音，则继续对所述第一意图进行响应。

2.根据权利要求1所述的方法，其特征在于，所述所述方法还包括：

将所述第一意图和所述第二意图进行比较，若所述第一意图与所述第二意图不同，则将所述第二意图确定为目标意图。

3.根据权利要求2所述的方法，其特征在于，

停止对所述第一意图进行响应，对所述第二意图进行响应。

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一语音和所述第二语音进行意图识别，得到第二意图，包括：

将所述第一语音和所述第二语音进行拼接，得到拼接语音；

对所述拼接语音进行意图识别得到第二意图。

5.根据权利要求1所述的方法，其特征在于，所述若接收到第一语音，则对所述第一语音进行意图识别得到第一意图，包括：

所述基于所述第一语音和所述第二语音进行意图识别，得到第二意图，包括：

对所述第二语音进行语音识别得到第二文本，将所述第一文本和所述第二文本进行拼接，得到拼接文本；

对所述拼接文本进行意图识别，得到第二意图。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，确定目标意图之后，还包括：

8.一种意图响应方法，其特征在于，所述方法包括：

若在接收到所述第一语音之后的预设时长内接收到第二语音，则停止对所述第一意图进行响应，并基于所述第一语音和所述第二语音进行意图识别，得到第二意图，对所述第二意图进行响应；

9.一种意图识别装置，其特征在于，所述装置包括：

意图响应模块，用于对所述第一意图进行响应；

所述意图响应模块还用于若在接收到所述第一语音之后的预设时长内接收到第二语音，则暂停对所述第一意图进行响应，所述意图识别模块还用于基于所述第一语音和所述第二语音进行意图识别，得到第二意图；

目标意图确定模块，用于若所述第一意图与所述第二意图相同，则将所述第一意图确定为目标意图，所述意图响应模块还用于继续对所述第一意图进行响应；

所述意图响应模块还用于若在接收到第一语音之后的预设时长内未接收到新的语音，则继续对所述第一意图进行响应。

10.一种意图响应装置，其特征在于，所述装置包括：

所述意图响应模块还用于若在接收到所述第一语音之后的预设时长内接收到第二语音，则停止对所述第一意图进行响应，并基于所述第一语音和所述第二语音进行意图识别，得到第二意图，对所述第二意图进行响应；

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。