CN110930989A

CN110930989A - 语音意图识别方法、装置、计算机设备和存储介质

Info

Publication number: CN110930989A
Application number: CN201911184966.4A
Authority: CN
Inventors: 涂臻
Original assignee: Shenzhen Chase Technology Co Ltd
Current assignee: Shenzhen Chase Technology Co Ltd; Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-03-27
Anticipated expiration: 2039-11-27
Also published as: WO2021103775A1; CN110930989B

Abstract

本申请涉及一种语音意图识别方法、装置、计算机设备和存储介质。所述方法包括：获取对话过程中的实时语音流，将所述实时语音流输入语音意图识别模型，所述语音意图识别模型包括端点检测层和意图识别层，通过所述端点检测层对所述实时语音流进行端点检测，得到目标语音流，通过所述意图识别层对所述目标语音流进行意图识别，得到所述目标语音流对应的意图。采用本方法能够准确识别出用户语音对应的意图，提高语音意图识别的准确性。

Description

语音意图识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能领域，特别是涉及一种语音意图识别方法、装置、计算机设备和存储介质。

背景技术

随着人工智能的发展，出现了语音意图识别技术，语音意图识别技术是将用户的语音中的词汇内容转换为文本，并分析用户的意图以执行相应的指令。语音意图识别技术的出现给用户的生活带来极大的便利性，例如，智能客服机器人通过语音意图识别技术将用户的语音转化成文字，继而根据该文字为用户返回相应的响应等。

然而，传统的语音意图识别方式往往是将用户咨询的服务语音转化为文本，然后从识别的文本中分析得到用户真正想咨询的业务的概率，识别并不准确。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高语音意图识别的准确性的语音意图识别方法、装置、计算机设备和存储介质。

一种语音意图识别方法，所述方法包括：

获取对话过程中的实时语音流；

将所述实时语音流输入语音意图识别模型，所述语音意图识别模型包括端点检测层和意图识别层；

通过所述端点检测层对所述实时语音流进行端点检测，得到目标语音流；

通过所述意图识别层对所述目标语音流进行意图识别，得到所述目标语音流对应的意图。

在一个实施例中，所述通过所述端点检测层对所述实时语音流进行端点检测，得到目标语音流，包括：

通过所述端点检测层对所述实时语音流进行端点检测，得到所述实时语音流中的人声语音流的端点和环境噪音流的端点；

基于所述人声语音流的端点和所述环境噪音流的端点，从所述实时语音流中提取出目标语音流，所述目标语音流为目标用户的语音流。

在一个实施例中，所述通过所述意图识别层对所述目标语音流进行意图识别，得到所述目标语音流对应的意图，包括：

通过所述意图识别层从所述目标语音流中获取意图帧，所述意图帧为存在意图的概率超过第一阈值的语音分片；

确定意图帧队列中同一意图的意图帧数量占总意图帧数量的比例，得到各意图对应的意图比例；

根据所述各意图对应的意图比例确定所述意图帧队列对应的意图；

根据所述意图帧队列对应的意图确定所述目标语音流对应的意图。

在一个实施例中，所述从所述目标语音流中获取意图帧，包括：

将所述目标语音流进行划分，得到各语音分片；

确定所述各语音分片中每个语音分片存在意图的概率；

当语音分片存在意图的概率超过第一阈值时，将所述语音分片作为意图帧。

在一个实施例中，所述确定所述各语音分片中每个语音分片存在意图的概率，包括：

获取所述各语音分片对应的波形；

针对所述各语音分片中的每个语音分片，确定语音分片的波形对应各预设波形的概率，所述预设波形为存在意图的语音波形；

根据所述语音分片的波形对应各预设波形的概率确定所述语音分片存在意图的概率。

在一个实施例中，所述根据所述各意图对应的意图比例确定所述意图帧队列对应的意图，包括：

将所述各意图对应的意图比例与第二阈值进行对比；

将大于所述第二阈值的意图比例所对应的意图作为所述意图帧队列对应的意图。

在一个实施例中，所述将大于所述第二阈值的意图比例所对应的意图作为所述意图帧队列对应的意图，包括：

当存在至少两个意图比例大于所述第二阈值时，确定所述至少两个意图比例中的最大值；

将所述最大值所对应的意图作为所述意图帧队列对应的意图。

在一个实施例中，所述意图识别层包括意图识别模型；在所述获取对话过程中的实时语音流之前，还包括：

获取语音训练样本和所述语音训练样本对应的标签；

通过所述意图识别模型对所述语音训练样本进行意图识别，得到所述语音训练样本对应的意图；

根据所述语音训练样本对应的意图和所述标签之间的差异，调整所述语音意图识别模型的参数并继续训练，直至满足训练停止条件时结束训练。

一种语音意图识别装置，所述装置包括：

获取模块，用于获取对话过程中的实时语音流；

输入模块，用于将所述实时语音流输入语音意图识别模型，所述语音意图识别模型包括端点检测层和意图识别层；

检测模块，用于通过所述端点检测层对所述实时语音流进行端点检测，得到目标语音流；

识别模块，用于通过所述意图识别层对所述目标语音流进行意图识别，得到所述目标语音流对应的意图。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取对话过程中的实时语音流；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取对话过程中的实时语音流；

上述语音意图识别方法、装置、计算机设备和存储介质，获取对话过程中的实时语音流，将实时语音流输入语音意图识别模型，语音意图识别模型包括端点检测层和意图识别层。通过端点检测层对实时语音流进行端点检测，可识别出目标用户的首尾音和各种环境噪声，从而分离出目标语音流。通过意图识别层对排除干扰和噪音的目标语音流进行意图识别，使得对目标语音流的意图识别更加准确，提高了语音意图识别模型的准确性。

附图说明

图1为一个实施例中语音意图识别方法的应用环境图；

图2为一个实施例中语音意图识别方法的流程示意图；

图3为一个实施例中通过意图识别层对目标语音流进行意图识别，得到目标语音流对应的意图的步骤的流程示意图；

图4为一个实施例中从目标语音流中获取意图帧的步骤的流程示意图；

图5为一个实施例中确定各语音分片存在意图的概率的流程示意图；

图6为一个实施例中训练意图识别模型的步骤的流程示意图；

图7为另一个实施例中语音意图识别方法的流程示意图；

图8为一个实施例中语音意图识别装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的语音意图识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在本实施例中，终端102可获取目标用户与智能客服在对话过程中的实时语音流，终端102将该实时语音流发送给服务器104。服务器104上布置了语音意图识别模型，服务器104将接收到的实时语音流输入该语音意图识别模型，该语音意图识别模型包括端点检测层和意图识别层。通过语音意图识别模型的端点检测层对实时语音流进行端点检测，得到实时语音流中的人声语音流的端点和环境噪音流的端点，基于人声语音流的端点和环境噪音流的端点，该端点检测层可从该实时语音流中提取出目标用户的语音流，即目标语音流。接着，该端点检测层将该目标语音流输入语音意图识别模型的意图识别层，通过意图识别层对该目标语音流进行意图识别，得到该目标语音流对应的意图，从而识别出该目标用户的意图。接着，服务器104将该目标用户的意图返回给终端102，终端102接收该目标用户的意图后，根据意图返回相应的响应给该目标用户。

在本实施例中，该语音意图识别模型可直接安装在终端102上，终端102获取目标用户与智能客服在对话过程中的实时语音流，可直接将该实时语音流输入语音意图识别模型，通过语音意图识别模型的端点检测层对该实时语音流进行端点检测，得到目标语音流。接着，通过语音意图识别模型的意图识别层对该目标语音流进行意图识别，得到目标语音流对应的意图，从而得到语音意图识别模型输出的目标用户的意图。终端102根据意图返回相应的响应给该目标用户。

在本实施例中，在对话过程中，当语音意图识别模型输出不同的意图时，表示目标用户的意图发生了改变，则终端102可根据目标用户的不同意图返回相应的响应。

在一个实施例中，如图2所示，提供了一种语音意图识别方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤202，获取对话过程中的实时语音流。

其中，实时语音流是指对话过程中的双方或多方在对话过程中持续输入的语音流，该实时语音流可以是通过能够进行通话的终端设备输入的，也可以是通过声音采集设备输入的，例如：麦克风、音频采集器等。

具体地，终端检测到客服与目标用户进行对话时，获取对话过程中目标用户的实时语音流。该目标用户是指与客服进行直接对话的用户，目标用户是被服务的对象，可以是与语音采集设备距离最短的用户。例如，终端获取每通正在对话过程中的客服和客户的语音流，也可以是获取声音采集设备采集的线下办事厅的工作人员和服务对象的实时语音流，或者也可以是获取正在进行多人会议过程中的各方的实时语音流。该客服可以是人工客服也可以是智能机器人客服。

步骤204，将实时语音流输入语音意图识别模型，该语音意图识别模型包括端点检测层和意图识别层。

其中，端点检测也称为语音活动检测(Voice Activity Detection，简称VAD)，又称语音边界检测，端点检测是指能够在语音信号流中识别出人声语音片段和环境噪音片段，从而将人声语音片段和环境噪声片段进行分离的方式。人声语音片段是实时语音流中对话者发声的片段，人声语音片段中还包括了目标用户的发声片段和非目标用户的发声片段，而环境噪音片段是目标用户静默的片段。

具体地，终端将获取的实时语音流输入到语音意图识别模型中。该语音意图识别模型是根据语音训练样本和语音训练样本对应的标签进行反复训练后，得到的训练完成的能够识别出语音流对应的意图的模型。该语音意图识别模型包括端点检测层和意图识别层，将实时语音流输入语音意图识别模型的端点检测层，将该端点检测层的输出作为意图识别层的输入，从而得到意图识别层输出的意图。

步骤206，通过端点检测层对实时语音流进行端点检测，得到目标语音流。

其中，目标语音流是指目标用户的语音流。

具体地，终端将实时语音流输入语音意图识别模型的端点检测层，通过端点检测层将该自动对实时语音流进行处理分析，最后识别出其中的人声语音片段的端点和各种环境噪音片段的端点。其中，端点是指每句话的首尾。基于人声语音片段和环境噪音片段的端点，可以分离出实时语音流中的人声语音片段。该人声语音片段中可能存在多人的语音片段，端点检测层可进一步从人声语音片段中分离出目标用户的语音流，即目标语音流。

步骤208，通过意图识别层对目标语音流进行意图识别，得到该目标语音流对应的意图。

具体地，端点检测层输出的目标语音流作为意图识别层的输入。意图识别层对该目标语音流划分为多个语音分片，对划分的语音分片分别进行意图识别，以确定哪些语音分片存在意图，哪些语音分片中没有存在意图。并根据存在意图的语音分片，确定该目标语音流对应的最终意图。在对话过程中，目标语音流可能只存在一个意图，也可能存在多个意图，该多个是指至少两个。例如，在对话过程中，目标用户的意图发生了改变，则表明该目标语音流对应多个意图。

上述实施例中的语音意图识别方法，获取对话过程中的实时语音流，将实时语音流输入语音意图识别模型，语音意图识别模型包括端点检测层和意图识别层。通过端点检测层对实时语音流进行端点检测，可识别出目标用户的首尾音和各种环境噪声，从而分离出目标语音流，避免了传统语音意图识别方式中因忽略能量较低的用户首尾音，导致遗失首尾音中包含的用户意图信息的情况。通过意图识别层对排除干扰和噪音的目标语音流进行意图识别，并且目标语音流中包含了目标用户更多的首尾音信息，使得对目标语音流的意图识别更加准确，提高了语音意图识别模型的准确性。

在一个实施例中，该通过该端点检测层对该实时语音流进行端点检测，得到目标语音流，包括：通过该端点检测层对该实时语音流进行端点检测，得到该实时语音流中的人声语音流的端点和环境噪音流的端点；基于该人声语音流的端点和该环境噪音流的端点，从该实时语音流中提取出目标语音流，该目标语音流为目标用户的语音流。

具体地，终端将实时语音流输入语音意图识别模型的端点检测层，通过端点检测层将该自动对实时语音流进行处理分析，最后识别出其中的人声语音片段的端点和各种环境噪音片段的端点。进一步地，端点检测层可将实时语音流每隔预设时间进行划分，并通过神经网络预测实时语音流中每个预设时间内的语音片段的语音概率，例如，每10ms划分一个语音片段，预测每个10ms内的语音片段的语音概率。该语音概率用于表示该语音片段中包含目标用户的语音的可能性。语音概率超过概率阈值则认为是用户开始说话，语音概率等于或低于概率阈值，并且语音概率等于或低于概率阈值的持续时间超过预设时长时，则认为用户结束说话。基于人声语音片段和环境噪音片段的端点，可以分离出实时语音流中的人声语音片段。该人声语音片段中可能存在多人的语音片段，端点检测层可进一步从人声语音片段中提取出目标用户的语音流，即目标语音流。

上述实施例中，通过该端点检测层对该实时语音流进行端点检测，得到该实时语音流中的人声语音流的端点和环境噪音流的端点，可识别出目标用户的首尾音和各种环境噪声，从而分离出目标语音流，避免了传统语音意图识别方式中因忽略能量较低的用户首尾音，导致遗失首尾音中可能包含的用户的意图信息的情况。基于该人声语音流的端点和该环境噪音流的端点，从该实时语音流中提取出目标语音流，并且目标语音流中包含了目标用户更多的首尾音信息，使得对目标语音流的意图识别更加准确，提高了语音意图识别模型的准确性。

在一个实施例中，如图3所示，该通过该意图识别层对该目标语音流进行意图识别，得到该目标语音流对应的意图，包括：

步骤302，通过意图识别层从目标语音流中获取意图帧，该意图帧为存在意图的概率超过第一阈值的语音分片。

其中，语音分片是指每隔预设时间将目标语音流进行划分得到的语音片段。

具体地，终端通过意图识别层将目标语音流按照预设时间进行划分，得到多个语音分片。接着，终端可获取每个语音分片存在意图的概率，并将每个存在意图的概率超过第一阈值的语音分片提取出来作为意图帧，从而得到目标语音流中的各意图帧。

步骤304，确定意图帧队列中同一意图的意图帧数量占总意图帧数量的比例，得到各意图对应的意图比例。

其中，意图帧队列是指以意图帧为元素所组成的队列。该意图帧队列中的各相邻的意图帧之间保持时间上的连续性，该意图帧队列的长度可根据需求设置。例如，意图帧队列由10帧、20帧意图帧组成等。

具体地，终端得到意图帧之后，可按照预设长度将意图帧划分，得到各个意图帧队列。每个意图帧队列的长度相同，即每个意图帧队列中所包含的意图帧数量相同。接着，终端选择任意一个意图帧队列，确定所选择的意图帧队列中存在的意图，一个意图帧队列中可能仅存在一个意图，也可能存在多个意图，多个指至少两个。终端确定选择的意图帧队列中对应同一意图的意图帧的数量，并计算选择的意图帧队列包含的意图帧的总数量。接着，终端计算所选择的意图帧队列中同一意图的意图帧数量占总意图帧数量的比例，得到所选择的意图帧队列中各意图对应的意图比例。按照相同的处理方式，可得到每个意图帧队列中各意图对应的意图比例。

例如，选择的意图帧队列中存在10个意图帧，有3个意图帧对应意图A，有2个意图帧的意图为意图B，有5个意图帧对应意图C。则终端分别计算出为意图A的3个意图帧占10个意图帧的比例，计算出为意图B的2个意图帧占10个意图帧的比例，计算出为意图C的5个意图帧占10个意图帧的比例，得到意图A对应的意图比例，意图B对应的意图比例，以及意图C对应的意图比例。

步骤306，根据各意图对应的意图比例确定意图帧队列对应的意图。

具体地，终端可获取第二阈值，将选择的意图帧队列中的各意图对应的意图比例分别与第二意图比例进行对比，得到各意图对应的意图比例与第二阈值的比较结果。根据各比较结果确定所选择的意图帧队列对应的意图。使用相同的处理方式，可得到每个意图帧队列对应的意图。

在本实施例中，终端可将各意图对应的意图比例进行对比，确定意图比例的最大值，将最大的意图比例对应的意图作为该意图帧对应的意图。

步骤308，根据意图帧队列对应的意图确定该目标语音流对应的意图。

具体地，终端通过意图识别层得到每个意图帧队列对应的意图后，将每个意图帧队列对应的意图作为该目标语音流对应的意图。终端将该目标语音流对应的意图返回给客服，以便客服根据该意图进行相应的响应。

在本实施例中，根据意图帧队列对应的意图确定该目标语音流对应的意图后，可进一步通过意图识别层对该意图进行分类，以确定该意图所属的类别，从而得到目标用户想要咨询的问题种类，以便客服有针对性地返回目标用户咨询的问题所对应的答案。

例如，检测出目标用户的真实意图为闲聊，则自动切换进入智能机器人聊天模式；否则，对目标用户的意图进行识别分类，告知客服人员目标用户想要咨询的问题种类，让客服有更多的时间准备。如果在咨询过程中，检测到目标用户切换意图，也会告知客服人员。如果在咨询过程中，检测到目标用户有闲聊的意图，会提醒客服人员切换进入智能聊天机器人模式。

在本实施例中，意图识别层每识别出一个意图帧队列对应的意图后，输出该意图帧队列对应的意图。接着，终端确定意图识别层输出的意图与前一个输出的意图是否相同，相同则终端不返回该意图给客服。当意图识别层输出的意图与前一个输出的意图不相同时，表示目标用户的意图发生了改变，则终端返回该意图给客服，以便客服针对新的意图进行处理。

本实施例中，通过意图识别层从目标语音流中获取意图帧，该意图帧为存在意图的概率超过第一阈值的语音分片，确定意图帧队列中同一意图的意图帧数量占总意图帧数量的比例，得到各意图对应的意图比例，根据各意图对应的意图比例确定意图帧队列对应的意图，根据意图帧队列对应的意图确定该目标语音流对应的意图，从而可将目标语音流进行划分，得到多个小的意图，并根据多个小的意图确定最终的意图，使得识别更准确。

在一个实施例中，如图4所示，该从该目标语音流中获取意图帧，包括：

步骤402，将目标语音流进行划分，得到各语音分片。

具体地，终端每隔预设时间将目标语音流进行划分，得到多个语音分片。该多个语音分片是指至少两个语音分片。进一步地，终端每隔预设时间将目标语音流进行划分，每划分一次得到一个包含预设时间内的语音信号的分片。例如，每200毫秒划分一次，得到一个时长为200毫秒的语音分片。

步骤404，确定各语音分片中每个语音分片存在意图的概率。

具体地，终端可将各语音分片输入到训练好的WaveNet(波网)模型，可直接输出每个语音分片存在意图的概率。Wavenet模型课由卷积神经网络层、池化层、和归一化层组成，本实施例中采用的Wavenet模型每次可输入200ms语音，10ms作为一帧即20帧。Wavenet模型采用的卷积神经网络层内有空洞卷积，会对输入的多帧提取更加深层的信息并会降低维度降低下一层的计算量，经过多层卷积神经网络层后的语音帧数变化情况为20->12->8->6->5，然后对5帧的结果经过池化层进行平均化，最后经过归一化层得到概率矩阵。训练过程中将数据不断输入WaveNet模型进行训练，会不断对每一层的参数更新来保证准确率的最优，训练完成后每一层的参数就确定为最优参数，模型就固定了。使用模型时，也是同上述流程，输入200ms的20帧语音，经过各层参数的计算，最后得到概率矩阵，该矩阵对应的就是各种意图的概率，概率总和为100％。

步骤406，当语音分片存在意图的概率超过第一阈值时，将该语音分片作为意图帧。

具体地，终端获取第一阈值，该第一阈值用于判断语音分片是否为意图帧。当终端检测到一个语音分片存在意图的概率超过第一阈值时，则将判定该语音分片为意图帧。当一个语音分片存在意图的概率小于或等于第一阈值时，认为该语音分片中不存在明确的意图指向，则将该语音分片归为无意图帧。按照相同的处理方式，可从目标语音流对应的各语音分片中提取出各意图帧。

在本实施例中，终端得到各意图帧后，可按照每个意图帧在目标语音流中对应的时间进行排序，得到在时间上保持连续性的意图帧。

本实施例中，通过将目标语音流进行划分，得到各语音分片，使得能够将目标语音流进行细分。确定各语音分片中每个语音分片存在意图的概率，当语音分片存在意图的概率超过第一阈值时，将该语音分片作为意图帧，从而将目标语音流中可能存在的意图一一提取出来，更利于判断出目标语音流对应的真实意图。

在一个实施例中，如图5所示，该确定该各语音分片中每个语音分片存在意图的概率，包括：

步骤502，获取各语音分片对应的波形。

具体地，不同的意图对应不同的语音波形。终端将目标语音流进行划分即为将目标语音流的波形划分为各个波形，终端得到各个语音分片即可获取各个语音分片对应的波形。

步骤504，针对各语音分片中的每个语音分片，确定语音分片的波形对应各预设波形的概率，该预设波形为存在意图的语音波形。

其中，预设波形为预先训练好的存在特定意图的语音波形。例如，“话费”对应特定的语音波形，“天气”对应特定的语音波形。

具体地，终端从各语音分片任意选择一个语音分片，将该选择的语音分片对应的波形与预设波形进行对比，计算出该选择的语音分片对应的波形属于各预设波形的概率。按照相同的方式，终端可得到每个语音分片对应的波形属于各预设波形的概率。

步骤506，根据该语音分片的波形对应各预设波形的概率确定该语音分片存在意图的概率。

具体地，获取选择的语音分片对应的各预设波形的权重值，将各预设波形的权重值与该语音分片的波形对应各预设波形的概率相乘并求和，得到的结果即为该语音分片存在意图的概率。

本实施例中，通过获取各语音分片对应的波形，针对各语音分片中的每个语音分片，确定语音分片的波形对应各预设波形的概率，该预设波形为存在意图的语音波形，从而可根据语音分片的波形对应各预设波形的概率快速准确地确定该语音分片存在意图的概率。

在本实施例中，可以进一步结合语音关键词检测技术，使得意图识别的精度更高。语音关键词是一个直接从一长段语音中检测出特定关键词的技术，语音关键词检测实际上是只将关键词转换为文本，例如一段语音的实际内容是“我想查询今天的天气”，则经过关键词检测后这段语音输出的结果只有“天气”，因为“天气”是用户预设的关键词，其语音波形已经被特定训练过，这样就省去了前面“我想查询今天的”这几个字的转换，提高意图识别的效率。

在一个实施例中，该根据该各意图对应的意图比例确定该意图帧队列对应的意图，包括：将该各意图对应的意图比例与第二阈值进行对比；将大于该第二阈值的意图比例所对应的意图作为该意图帧队列对应的意图。

具体地，终端得到意图帧队列中各意图的意图比例后，将任意一个意图比例与第二阈值进行对比。如果该意图比例大于第二阈值，则该意图比例对应的意图即为该意图帧队列对应的意图。针对每个意图比例进行相同的处理，得到各意图比例与第二阈值的比较结果，当一个意图帧队列中存在多个意图比例大于第二阈值时，将这多个意图比例分别对应的意图均作为该意图帧队列对应的意图。其中，多个是指两个及两个以上。

例如，意图帧队列的长度由用户来设定，用户设定100ms为意图帧队列的长度，并且10ms是一个意图帧，那么该意图帧队列的长度就是10。第二阈值为70％，如果意图帧队列里面的元素为AAABAAAAAB，那么意图A的比例大于70％，则该意图帧对应的意图就是A。下一个意图帧队列可能变成ABBBBBBBAB，那么意图B的比例大于70％，则该意图帧对应的意图就是B。也可能是A无无无无无无A无无，也就是没有检测到意图。

本实施例中，将该各意图对应的意图比例与第二阈值进行对比，将大于该第二阈值的意图比例所对应的意图作为该意图帧队列对应的意图，可以准确得到每个意图帧对应的意图，更细致地得到目标用户可能要咨询的每个问题。

在一个实施例中，该将大于该第二阈值的意图比例所对应的意图作为该意图帧队列对应的意图，包括：当存在至少两个意图比例大于该第二阈值时，确定该至少两个意图比例中的最大值；将该最大值所对应的意图作为该意图帧队列对应的意图。

具体地，终端得到一个意图帧队列中各意图比例与第二阈值的比较结果之后，确定大于第二阈值的意图比例的个数。当一个意图帧队列中只有一个意图比例大于第二阈值时，将该一个意图比例对应的意图作为该意图帧队列对应的意图。当一个意图帧队列中存在至少两个意图比例大于第二阈值时，确定至少两个意图比例中的最大值。获取最大值对应的意图，将最大值所对应的意图作为该意图帧队列对应的意图。

本实施例中，将当存在至少两个意图比例大于该第二阈值时，确定该至少两个意图比例中的最大值，将该最大值所对应的意图作为该意图帧队列对应的意图，可得到目标用户最有可能询问的问题，以进行相应的响应。

在一个实施例中，如图6所示，该意图识别层包括意图识别模型；在该获取对话过程中的实时语音流之前，还包括：

步骤602，获取语音训练样本和该语音训练样本对应的标签。

其中，语音训练样本为包含用户语音的样本。语音训练样本对应的标签为该语音训练样本对应的意图。

具体地，终端可从本地或其它设备或网络上获取语音训练样本和该语音训练样本对应的标签。也可以直接通过终端采集用户语音作为语音训练样本，并确定语音训练样本，并设置该语音训练样本对应的意图作为标签。对采集的语音训练样本进行标注，可每200ms标注一次意图，如果没有明确的意图则标注无，从而得到语音训练样本的标签。例如语音训练样本中1-1.2秒的标签为意图A，1.2-1.4秒的标签为意图A，...，2.8-3秒的标签为意图B，3.2-3.4秒的标签为无意图等。

步骤604，通过该意图识别模型对该语音训练样本进行意图识别，得到该语音训练样本对应的意图。

具体地，终端将语音训练样本输入待训练的意图识别模型，通过待训练的意图识别模型将语音训练样本划分为各语音分片，并确定各语音分片存在意图的概率。将存在意图的概率超过第一阈值的语音分片作为意图帧。将预设数量的意图帧组成意图帧序列，确定意图帧队列中同一意图的意图帧数量占总意图帧数量的比例，得到各意图对应的意图比例，将大于第二阈值的意图比例所对应的意图作为该意图帧队列对应的意图。接着，该意图识别模型输出各意图帧队列对应的意图作为该语音训练样本对应的意图。

步骤606，根据该语音训练样本对应的意图和该标签之间的差异，调整该意图识别模型的参数并继续训练，直至满足训练停止条件时结束训练。该训练停止条件可以是语音训练样本对应的意图和标签之间的差异小于预设阈值时停止训练。

具体地，终端将该语音训练样本对应的意图与对应的标签进行对比，以确定识别结果和标签之间的差异。根据该识别结果和该标签的差异，调整该意图识别模型的参数并继续训练，直至满足训练停止条件时结束训练，得到训练好的意图识别模型。

基于意图识别模型得到该语音训练样本的识别结果，根据识别结果和标签的差异，不断调整该意图识别模型的参数并继续训练，从而得到训练好的意图识别模型。通过该训练好的意图识别模型可对目标用户的语音进行意图识别，使得对目标用户的语音的意图识别更加准确，从而提高了语音意图识别模型的准确性。

在一个实施例中，该端点检测层包括端点检测模型；在该获取对话过程中的实时语音流之前，还包括：获取第一语音训练样本和该第一语音训练样本对应的标签；通过待训练的端点检测模型对该第一语音训练样本进行端点检测，得到第一语音流。

其中，第一语音训练样本为包含第一用户语音和其它环境噪音的样本。第一语音训练样本对应的标签为仅包含第一用户的语音。第一语音流为端点检测模型输出的第一语音训练样本对应的检测结果。

具体地，终端可从本地或其它设备或网络上获取第一语音训练样本和该第一语音训练样本对应的标签。也可以直接通过终端采集第一用户的语音得到第一语音训练样本，并确定该第一语音训练样本中去除环境噪音后得到的第一用户的语音作为标签。终端将第一语音训练样本输入待训练的端点检测模型中，通过端点检测模型对该第一语音训练样本进行端点检测，得到第一语音训练样本中的人声语音流的端点和环境噪音流的端点。基于人声语音流的端点和环境噪音流的端点，从第一语音训练样本中提取出第一语音流，第一语音流为仅包含第一用户语音的语音流。

终端将该第一语音训练样本对应的检测结果与对应的标签进行对比，以确定检测结果和标签之间的差异。根据该检测结果和该标签的差异，调整该端点检测模型的参数并继续训练，直至满足训练停止条件时结束训练，得到训练好的端点检测模型。该训练停止条件可以是第一语音训练样本对应的检测结果和标签之间的差异小于差异阈值时停止训练。

在一个实施例中，如图7所示，提供了一种语音意图识别方法，包括：

步骤702，终端获取对话过程中的实时语音流。

步骤704，终端对实时语音流进行端点检测。即将实时语音流输入语音意图识别模型，语音意图识别模型包括端点检测层和意图识别层；通过端点检测层对实时语音流进行端点检测，得到实时语音流中的人声语音流的端点和环境噪音流的端点。

步骤706，判断是否检测到目标用户的语音流。即终端基于人声语音流的端点和环境噪音流的端点，从实时语音流中提取出目标语音流，目标语音流为目标用户的语音流。是则执行步骤708，否则返回执行步骤704。

步骤708，终端将目标语音流输入语音意图识别模型的意图识别层；通过意图识别层将目标语音流进行划分，得到各语音分片。

步骤710，终端判断各语音分片是否为意图帧。即确定各语音分片中每个语音分片存在意图的概率；当语音分片存在意图的概率超过第一阈值时，将语音分片作为意图帧。是则执行步骤712，否则返回执行步骤708。

步骤712，终端计算意图帧队列中各意图的比例，意图帧队列由意图帧组成。

步骤714，终端确定意图帧队列中同一意图的意图帧数量占总意图帧数量的比例，得到各意图对应的意图比例；将各意图对应的意图比例与第二阈值进行对比。判断意图比例是否大于阈值，是则执行步骤716，否则返回执行步骤712。

步骤716，终端将大于第二阈值的意图比例所对应的意图作为意图帧队列对应的意图；当存在至少两个意图比例大于第二阈值时，确定至少两个意图比例中的最大值；将最大值所对应的意图作为意图帧队列对应的意图，并返回该意图。

步骤718，终端检测目标用户是否结束对话，否则继续检测下一个意图帧队列对应的意图，即目标用户未结束对话则返回执行步骤714，直至对话结束。

本实施例中，通过该端点检测层对该实时语音流进行端点检测，可识别出目标用户的首尾音和各种环境噪声，从而分离出目标语音流。将目标语音流划分为各语音分片，并从中提取出意图帧，从而将目标语音流中可能存在的意图一一提取出来，更利于判断出目标语音流对应的真实意图。将该最大意图比例所对应的意图作为该意图帧队列对应的意图，从而得到各意图帧队列对应的意图，使得对目标语音流的意图识别更加准确，提高了语音意图识别模型的准确性。

应该理解的是，虽然图2-图7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-图7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种语音意图识别装置，包括：获取模块802、输入模块804、检测模块806和识别模块808，其中：

获取模块802，用于获取对话过程中的实时语音流。

输入模块804，用于将实时语音流输入语音意图识别模型，语音意图识别模型包括端点检测层和意图识别层。

检测模块806，用于通过端点检测层对实时语音流进行端点检测，得到目标语音流。

识别模块808，用于通过意图识别层对目标语音流进行意图识别，得到目标语音流对应的意图。

上述实施例中的语音意图识别装置，获取对话过程中的实时语音流，将实时语音流输入语音意图识别模型，语音意图识别模型包括端点检测层和意图识别层。通过端点检测层对实时语音流进行端点检测，可识别出目标用户的首尾音和各种环境噪声，从而分离出目标语音流，避免了传统语音意图识别方式中因忽略能量较低的用户首尾音，导致遗失首尾音中可能包含的用户的意图信息的情况。通过意图识别层对排除干扰和噪音的目标语音流进行意图识别，并且目标语音流中包含了目标用户更多的首尾音信息，使得对目标语音流的意图识别更加准确，提高了语音意图识别模型的准确性。

在一个实施例中，该检测模块806还用于：通过该端点检测层对该实时语音流进行端点检测，得到该实时语音流中的人声语音流的端点和环境噪音流的端点；基于该人声语音流的端点和该环境噪音流的端点，从该实时语音流中提取出目标语音流，该目标语音流为目标用户的语音流。

在一个实施例中，识别模块808还用于：通过该意图识别层从该目标语音流中获取意图帧，该意图帧为存在意图的概率超过第一阈值的语音分片；确定意图帧队列中同一意图的意图帧数量占总意图帧数量的比例，得到各意图对应的意图比例；根据该各意图对应的意图比例确定该意图帧队列对应的意图；根据该意图帧队列对应的意图确定该目标语音流对应的意图。

在一个实施例中，识别模块808还用于：将该目标语音流进行划分，得到各语音分片；确定该各语音分片中每个语音分片存在意图的概率；当语音分片存在意图的概率超过第一阈值时，将该语音分片作为意图帧。

在一个实施例中，识别模块808还用于：获取该各语音分片对应的波形；针对该各语音分片中的每个语音分片，确定语音分片的波形对应各预设波形的概率，该预设波形为存在意图的语音波形；根据该语音分片的波形对应各预设波形的概率确定该语音分片存在意图的概率。

在一个实施例中，识别模块808还用于：将该各意图对应的意图比例与第二阈值进行对比；将大于该第二阈值的意图比例所对应的意图作为该意图帧队列对应的意图。

在一个实施例中，识别模块808还用于：当存在至少两个意图比例大于该第二阈值时，确定该至少两个意图比例中的最大值；将该最大值所对应的意图作为该意图帧队列对应的意图。

在一个实施例中，该意图识别层包括意图识别模型；该语音意图识别装置，还包括：训练模块。该训练模块用于：获取语音训练样本和该语音训练样本对应的标签；通过意图识别模型对语音训练样本进行意图识别，得到语音训练样本对应的意图；根据语音训练样本对应的意图和标签之间的差异，调整意图识别模型的参数并继续训练，直至满足训练停止条件时结束训练。

本实施例中，基于意图识别模型得到该语音训练样本的识别结果，根据识别结果和标签的差异，不断调整该意图识别模型的参数并继续训练，从而得到训练好的意图识别模型。通过该训练好的意图识别模型可对目标用户的语音进行意图识别，使得对目标用户的语音的意图识别更加准确，从而提高了语音意图识别模型的准确性。

关于语音意图识别装置的具体限定可以参见上文中对于语音意图识别方法的限定，在此不再赘述。上述语音意图识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音意图识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取对话过程中的实时语音流；

将实时语音流输入语音意图识别模型，语音意图识别模型包括端点检测层和意图识别层；

通过端点检测层对实时语音流进行端点检测，得到目标语音流；

通过意图识别层对目标语音流进行意图识别，得到目标语音流对应的意图。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取对话过程中的实时语音流；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音意图识别方法，所述方法包括：

获取对话过程中的实时语音流；

2.根据权利要求1所述的方法，其特征在于，所述通过所述端点检测层对所述实时语音流进行端点检测，得到目标语音流，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述通过所述意图识别层对所述目标语音流进行意图识别，得到所述目标语音流对应的意图，包括：

4.根据权利要求3所述的方法，其特征在于，所述从所述目标语音流中获取意图帧，包括：

将所述目标语音流进行划分，得到各语音分片；

确定所述各语音分片中每个语音分片存在意图的概率；

5.根据权利要求4所述的方法，其特征在于，所述确定所述各语音分片中每个语音分片存在意图的概率，包括：

获取所述各语音分片对应的波形；

6.根据权利要求3所述的方法，其特征在于，所述根据所述各意图对应的意图比例确定所述意图帧队列对应的意图，包括：

将所述各意图对应的意图比例与第二阈值进行对比；

7.根据权利要求6所述的方法，其特征在于，所述将大于所述第二阈值的意图比例所对应的意图作为所述意图帧队列对应的意图，包括：

8.根据权利要求1所述的方法，其特征在于，所述意图识别层包括意图识别模型；在所述获取对话过程中的实时语音流之前，还包括：

获取语音训练样本和所述语音训练样本对应的标签；

根据所述语音训练样本对应的意图和所述标签之间的差异，调整所述意图识别模型的参数并继续训练，直至满足训练停止条件时结束训练。

9.一种语音意图识别装置，其特征在于，所述装置包括：

获取模块，用于获取对话过程中的实时语音流；

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。