CN116153310A

CN116153310A - 语音对话交互方法、系统、电子设备和存储介质

Info

Publication number: CN116153310A
Application number: CN202310143397.9A
Authority: CN
Inventors: 林永楷; 樊帅; 朱成亚; 甘津瑞
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-05-23

Abstract

本发明实施例提供一种语音对话交互方法、系统、电子设备和存储介质。该方法包括：在语音端点检测结束之前，实时对用户输入的交互语音进行识别，得到在第一时刻的交互语音的中间识别结果；对中间识别结果进行语义解析，根据语义解析得到的中间语义解析结果生成预测候选词列表；在第二时刻时，从交互语音中得到基于中间识别结果的新增识别文本，若新增识别文本命中预测候选词列表中的预测候选词，则基于命中的预测候选词提前确定交互语音的语义解析结果，基于语义解析结果与用户进行对话交互。本发明实施例能够在对话结果不发生变化的情况下保证了对话系统的准确性，减少对话系统的整体耗时，提高了对话系统的实时性。

Description

语音对话交互方法、系统、电子设备和存储介质

技术领域

本发明涉及智能语音领域，尤其涉及一种语音对话交互方法、系统、电子设备和存储介质。

背景技术

随着智能语音的发展，搭载智能语音的智能设备逐步进入到用户的日常生活中，在生活的各方各面中为用户提供智能语音服务。这些搭载智能语音的智能设备对用户的语音进行语音识别，由于需要降低对话系统的耗时，通常会提前进行语义识别，在获取到语音识别的中间结果时就预测用户要表达的完整表述，基于预测的完整表述来提前生成回复信息，从而可以在满足回复条件时，例如在判断用户说完一段话后，立即输出该回复信息。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

现有技术在语义理解时搜索空间大，预测成功率低，具体的，在全双工交互过程中，由于是口语化的表述，在实际识别的文本中经常掺杂口语化的词汇，比如“我想听一个，嗯，那个心太软”其中“嗯，那个”就属于口语化的词汇，可以出现在句子的任何位置，导致在预测结果时需要考虑更多的情况。再比如用户说“我今天想要”或者“我想听”后续的句子几乎是不可预测的这会导致生成的搜索空间更大，占用过多的计算机资源并且预测成功的概率极低。

也有在语义理解过程中，判断预测结果和真实结果的相似度，相似度可以判断出两个参数、物体是否相似，然而，中文博大精深，看似相同的两句话可能个别字的差别，往往意思是相反的，例如，“那里不是很美么”(表示美的反问)和“那里不是很美啊”(表示不美)。

发明内容

为了至少解决现有技术中为了降低对话系统的耗时的情况下会占用过多的计算机资源并且预测成功的概率极低，且相似度判断方法并不准确的问题。第一方面，本发明实施例提供一种语音对话交互方法，包括：

在语音端点检测结束之前，实时对用户输入的交互语音进行识别，得到在第一时刻的所述交互语音的中间识别结果；

对所述中间识别结果进行语义解析，根据语义解析得到的中间语义解析结果生成预测候选词列表；

在第二时刻时，从所述交互语音中得到基于所述中间识别结果的新增识别文本，若所述新增识别文本命中所述预测候选词列表中的预测候选词，则基于命中的预测候选词提前确定所述交互语音的语义解析结果，基于所述语义解析结果与所述用户进行对话交互。

第二方面，本发明实施例提供一种语音对话交互系统，包括：

中间识别结果确定程序模块，用于在语音端点检测结束之前，实时对用户输入的交互语音进行识别，得到在第一时刻的所述交互语音的中间识别结果；

预测候选词列表确定程序模块，用于对所述中间识别结果进行语义解析，根据语义解析得到的中间语义解析结果生成预测候选词列表；

对话交互程序模块，用于在第二时刻时，从所述交互语音中得到基于所述中间识别结果的新增识别文本，若所述新增识别文本命中所述预测候选词列表中的预测候选词，则基于命中的预测候选词提前确定所述交互语音的语义解析结果，基于所述语义解析结果与所述用户进行对话交互。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音对话交互方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的语音对话交互方法的步骤。

本发明实施例的有益效果在于：本方法能够在对话结果不发生变化的情况下(保证了对话系统的准确性)，减少对话系统的整体耗时，提高了对话系统的实时性。对话交互的实时性越高，用户同设备进行交互时的等待响应时间越短，用户的体验效果越优异。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种语音对话交互方法的流程图；

图2是本发明一实施例提供的一种语音对话交互方法的现有技术对话耗时示意图；

图3是本发明一实施例提供的一种语音对话交互方法的整体流程图；

图4是本发明一实施例提供的一种语音对话交互系统的结构示意图；

图5为本发明一实施例提供的一种语音对话交互的电子设备的实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种语音对话交互方法的流程图，包括如下步骤：

S11：在语音端点检测结束之前，实时对用户输入的交互语音进行识别，得到在第一时刻的所述交互语音的中间识别结果；

S12：对所述中间识别结果进行语义解析，根据语义解析得到的中间语义解析结果生成预测候选词列表；

S13：在第二时刻时，从所述交互语音中得到基于所述中间识别结果的新增识别文本，若所述新增识别文本命中所述预测候选词列表中的预测候选词，则基于命中的预测候选词提前确定所述交互语音的语义解析结果，基于所述语义解析结果与所述用户进行对话交互。

在本实施方式中，在智能语音与用户的对话交互过程中，通过提前预测可以在用户的语音识别完全出来前，就开始对后续的识别、语义及对话进行预测。然而，如背景技术中所述，基于预测的方案如果不能较好的缩小搜索空间同样占用过多的计算资源，降低的对话系统的耗时十分有限，并且准确率相对较低。本方法既要保证最终对话结果不会因提前预测而受到影响，又要缩小搜索空间，并且不同于直接预测最终的识别结果，本方法基于中间语义解析结果预测最终的语义解析结果。进而使预测的搜索空间大大降低。

对于步骤S11，可以将本方法应用于云端的智能语音服务中，例如，用户可以在家庭场景中与智能音响进行语音交互。智能音响实时进行VAD(Voice Activity Detection，语音端点检测)，其中，语音端点检测是从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用，并且还可以节省与云端语音服务的带宽资源，可以有利于减少用户感觉到的时延。

响应于检测到用户输入的语音信号，就开始实时的进行语音识别，不断的得到在用户说完整句话之前的中间识别结果。当VAD检测到用户语音输入信号停止输入时，识别出用户整句话的最终识别结果。

作为一种实施方式，所述交互语音包括：全双工对话的交互语音、半双工对话的交互语音。具体的，本方法的语音对话交互不但可以应用于常见的半双工对话系统，同时还可以应用于全双工对话系统，应用于不同的对话系统的实时性效果也越高。

对于步骤S12，例如，用户要说出的语句为“播放爱情转移”，当用户的交互语音说到“播放爱情”时，在第一时刻识别出交互语音的中间识别结果为“播放爱情”。在首次得到中间识别结果时，要根据中间识别结果来确定预测候选词列表。具体的，对“播放爱情”进行语义解析，确定出动作＝“播放”，歌曲名＝“爱情”的中间语义解析结果，根据中间语义解析结果来生成出预测候选词列表，此时，通过歌曲名＝“爱情”得到了爱情陷阱、爱情转移、爱情买卖、爱情指南、爱情三十六计作为NLU(Natural Language Understanding，自然语言理解)语义槽位的预测候选，基于这些候选词推测用户的后续说法中预测候选词列表中的预测候选词可能会是“播放爱情陷阱”或者“播放爱情转移”或者“播放爱情买卖”等。

对于步骤S13，随着用户不断的说话表达，交互语音不断的被扩充，在第二时刻时，从交互语音中得到基于中间识别结果的新增识别文本，例如，第一时刻识别出“播放爱情”，此时随着用户的表达，第二时刻识别的基于中间识别结果的新增识别文本为“播放爱情转移”。

判断新增识别文本是否命中步骤S12中确定的预测候选词列表中的预测候选词，可以看出，新增识别文本“播放爱情转移”命中了预测候选词列表中的预测候选词“播放爱情转移”。

作为一种实施方式，其中，所述若所述新增识别文本命中所述预测候选词列表中的预测候选词，则基于命中的预测候选词提前确定所述交互语音的语义解析结果包括：

将所述命中的预测候选词确定为所述交互语音的语义槽解析值，通过所述语义槽解析值确定语义解析结果，以减少语义解析的请求次数。

在本实施方式，判断新增识别文本是否命中预测候选词列表中的预测候选词这一过程也可以将其称为判断新增识别文本是否不符合NLU(Natural LanguageUnderstanding，自然语言理解)预测，简单来说，如果“播放爱情转移”这句话可以在预测候选词列表中找到，则说明符合NLU预测。由于可以在预测候选词列表中找到，此时就可以在不请求语义服务的情况下，直接把“爱情转移”当作语义槽解析值。进而减少了1次请求语义解析服务的次数。进而确定出语义解析结果：动作＝“播放”，歌曲名＝“爱情转移”。并根据语义解析结果向用户进行对话交互，例如“为您播放爱情转移”。

作为一种实施方式，若所述新增识别文本没有命中所述预测候选词列表中的预测候选词，所述方法包括：

重新对所述新增识别文本进行语义解析，根据重新语义解析得到的新增识别语义结果再次生成用于下一时刻语义解析结果判别的预测候选词列表。

在本实施方式中，如果在第二时刻识别出用户说的是“播放爱情小偷”，那么此时没有命中提前预测候选词列表中的预测候选词，就直接进行语义解析操作，根据重新语义解析得到的新增识别语义结果再次生成用于下一时刻语义解析结果判别的预测候选词列表，或者如果用户这句话已经说完，就直接利用重新语义解析的结果进行对话交互。

再例如，用户的另一段交互，第一时刻识别到用户交互语音的中间识别结果为“导航到苏州火车站”，得到语义解析结果为：动作＝“导航”，地点＝“苏州火车站”。此时地点语义槽位的预测候选词有：苏州火车站南广场、苏州火车站北广场、苏州火车站地铁站、苏州火车站进站口等，基于这些候选词推测用户的后续说法中预测候选词列表中的预测候选词可能会是“导航到苏州火车站南广场”或者“导航到苏州火车站北广场”或者“导航到苏州火车站地铁站”等。如果第二时刻时，用户的完整说法为“导航到苏州火车站南广场”，则最终的识别结果是满足预测候选，从而不需要再次请求语义解析服务，直接利用预测候选词列表中的预测候选词中的“导航到苏州火车站南广场”语义解析结果为：动作＝“导航”，地点＝“苏州火车站南广场”，基于上述确定的语义解析结果与用户进行对话交互。

作为一种实施方式，第二时刻包括：语音端点检测结束之前的第二时刻、语音端点检测结束时的第二时刻。

在本实施方式中，正如本方法的交互语音包括全双工对话的交互语音和半双工对话的交互语音。根据不同的对话方式，在向用户进行交互时也会有不同的效果。

若所述交互语音为全双工对话的交互语音，在语音端点检测结束之前的第二时刻时，从所述全双工对话的交互语音中得到基于所述中间识别结果的新增识别文本，若所述新增识别文本命中所述预测候选词列表中的预测候选词，则基于命中的预测候选词提前确定所述全双工对话的交互语音的语义解析结果，基于所述语义解析结果与所述用户进行全双工对话交互；

若所述交互语音为半双工对话的交互语音，在语音端点检测结束时的第二时刻时，从所述半双工对话的交互语音中得到基于所述中间识别结果的新增识别文本，若所述新增识别文本命中所述预测候选词列表中的预测候选词，则基于命中的预测候选词提前确定所述半双工对话的交互语音的语义解析结果，基于所述语义解析结果与所述用户进行半双工对话交互。

例如，用户与智能音响是半双工对话，用户说完一句，智能音箱回复一句的方式。例如，用户要说的语句为“我想播放忘情水”，在第一时间用户说完“我想播放忘”时，识别到的中间识别结果为“我想播放忘”，此时对“我想播放忘”进行语义解析，得到动作＝“播放”，歌曲名＝“忘”。并进一步生成多个候选“我想播放忘情水”、“我想播放忘忧草”等。当用户在第二时刻说完“我想播放忘情水”时，VAD检测结束，得到最终识别结果，此时“我想播放忘情水”在预测候选词列表中，可以从预测候选词列表中的“我想播放忘情水”直接得到语义解析结果：动作＝“播放”，歌曲名＝“忘情水”，此时用户说完了这句话，智能音箱根据得到的语义解析结果与用户进行半双工的交互对话。

通过本方法与现有技术的对话交互进行比对，以现有技术对“我想播放忘情水”进行对话交互，如图2所示为现有技术对话所需要的时间。而本方法在用户说完“我想播放忘情水”之后，由于通过预测候选词直接得到语义解析结果，减少了一次语义解析的耗时，降低了200毫秒左右的时间。

同样的，如果用户与智能音响是全双工对话，在双方对话的过程中可以互相打断，区别在于，当用户在语音端点检测结束之前的第二时刻识别的全双工对话的交互语音的识别结果在所述多个语义预测候选中时，此时，可以直接利用语义预测候选确定所述全双工对话的交互语音的语义解析结果，在用户没有说完这句话时，根据语义解析结果就可以与用户进行全双工对话交互，如果识别内容发生变化时，可以提前中止未完成的语义解析与对话处理进程(关于对话的中间识别、语义解析、对话回复已经举例说明，在此不再赘述)，本方法的整体步骤如图3所示。

通过该实施方式可以看出，本方法能够在对话结果不发生变化的情况下(保证了对话系统的准确性)，减少对话系统的整体耗时，提高了对话系统的实时性。对话交互的实时性越高，用户同设备进行交互时的等待响应时间越短，用户的体验效果越优异。

如图4所示为本发明一实施例提供的一种语音对话交互系统的结构示意图，该系统可执行上述任意实施例所述的语音对话交互方法，并配置在终端中。

本实施例提供的一种语音对话交互系统10包括：中间识别结果确定程序模块11，预测候选词列表确定程序模块12和对话交互程序模块13。

其中，中间识别结果确定程序模块11用于在语音端点检测结束之前，实时对用户输入的交互语音进行识别，得到在第一时刻的所述交互语音的中间识别结果；预测候选词列表确定程序模块12用于对所述中间识别结果进行语义解析，根据语义解析得到的中间语义解析结果生成预测候选词列表；对话交互程序模块13用于在第二时刻时，从所述交互语音中得到基于所述中间识别结果的新增识别文本，若所述新增识别文本命中所述预测候选词列表中的预测候选词，则基于命中的预测候选词提前确定所述交互语音的语义解析结果，基于所述语义解析结果与所述用户进行对话交互。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音对话交互方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的语音对话交互方法。

图5是本申请另一实施例提供的语音对话交互方法的电子设备的硬件结构示意图，如图5所示，该设备包括：

一个或多个处理器510以及存储器520，图5中以一个处理器510为例。语音对话交互方法的设备还可以包括：输入装置530和输出装置540。

处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器520作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的语音对话交互方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音对话交互方法。

存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可接收输入的数字或字符信息。输出装置540可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器520中，当被所述一个或者多个处理器510执行时，执行上述任意方法实施例中的语音对话交互方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音对话交互方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音对话交互方法，包括：

2.根据权利要求1所述的方法，其中，所述交互语音包括：全双工对话的交互语音、半双工对话的交互语音；

所述第二时刻包括：语音端点检测结束之前的第二时刻、语音端点检测结束时的第二时刻。

3.根据权利要求2所述的方法，其中，所述在第二时刻时，从所述交互语音中得到基于所述中间识别结果的新增识别文本，若所述新增识别文本命中所述预测候选词列表中的预测候选词，则基于命中的预测候选词提前确定所述交互语音的语义解析结果，基于所述语义解析结果与所述用户进行对话交互包括：

4.根据权利要求1所述的方法，其中，若所述新增识别文本没有命中所述预测候选词列表中的预测候选词，所述方法包括：

5.根据权利要求1所述的方法，其中，所述若所述新增识别文本命中所述预测候选词列表中的预测候选词，则基于命中的预测候选词提前确定所述交互语音的语义解析结果包括：

6.一种语音对话交互系统，包括：

7.根据权利要求6所述的系统，其中，所述交互语音包括：全双工对话的交互语音、半双工对话的交互语音；

8.根据权利要求7所述的系统，其中，所述对话交互程序模块用于：

9.根据权利要求6所述的系统，其中，所述对话交互程序模块用于：

若所述新增识别文本没有命中所述预测候选词列表中的预测候选词，重新对所述新增识别文本进行语义解析，根据重新语义解析得到的新增识别语义结果再次生成用于下一时刻语义解析结果判别的预测候选词列表。

10.根据权利要求6所述的系统，其中，所述对话交互程序模块用于：

11.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述方法的步骤。

12.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。