CN117896563A

CN117896563A - 显示设备及多轮对话方法

Info

Publication number: CN117896563A
Application number: CN202311700475.7A
Authority: CN
Inventors: 陈楚林; 朱飞
Original assignee: Vidaa Netherlands International Holdings BV
Current assignee: Vidaa Netherlands International Holdings BV
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-04-16

Abstract

本申请提供了一种显示设备及多轮对话方法，显示设备包括：显示器；控制器，控制器被配置为：接收第一语音指令；响应于第一语音指令，获取历史语音交互数据，历史语音交互数据包括历史语音指令对应的文本、历史意图预测结果和历史系统行为；根据第一语音指令和历史语音交互数据预测第一语音指令对应的第一用户行为和第一意图预测结果；判断第一用户行为与历史系统行为是否相匹配，且判断第一意图预测结果与历史意图预测结果是否相匹配；若均相匹配，则合并历史意图预测结果和第一意图预测结果，得到本轮意图预测结果；若不均相匹配，则将第一意图预测结果确定为本轮意图预测结果；根据本轮意图预测结果进行响应。本申请提升了多轮对话体验。

Description

显示设备及多轮对话方法

技术领域

本申请涉及语音交互技术领域，尤其涉及一种显示设备及多轮对话方法。

背景技术

随着语音交互技术的普及，现如今，语音交互已经成为用户与智能电视进行交互的重要交互方式之一。对用户的意图进行准确理解，是智能电视提供符合用户期望的响应的重要前提。相关技术中，为提高意图理解的准确性，在用户输入语音指令后，可结合用户之前输入的语音指令对本次用户输入的语音指令进行分析，综合判断用户的意图。然而，在一些场景下，用户之前输入的语音指令与本次输入的语音指令可能没有关联，不利于提高意图识别的准确性。

发明内容

为提升多轮对话体验，本申请提供了一种显示设备及多轮对话方法。

第一方面，本申请提供了一种显示设备，该显示设备包括：

显示器；

控制器，与所述显示器通信连接，被配置为：

接收第一语音指令；

响应于所述第一语音指令，获取历史语音交互数据，所述历史语音交互数据包括历史语音指令对应的文本、历史意图预测结果和历史系统行为；

根据所述第一语音指令和历史语音交互数据预测所述第一语音指令对应的第一用户行为和第一意图预测结果；

判断所述第一用户行为与历史系统行为是否相匹配，且判断所述第一意图预测结果与历史意图预测结果是否相匹配；

若均相匹配，则合并所述历史意图预测结果和第一意图预测结果，得到本轮意图预测结果；

若不均相匹配，则将所述第一意图预测结果确定为本轮意图预测结果；

根据所述本轮意图预测结果进行响应。

在一些实施例中，所述控制器被配置为：在接收第一语音指令之前，还包括：

将历史语音交互数据按照话题进行分类，其中，若时间在后的语音交互数据中的用户行为与时间在前的语音交互数据中的系统行为相匹配，且时间在后的语音交互数据中的意图与时间在前的语音交互数据中的意图相匹配，则所述时间在后的语音交互数据和时间在后的语音交互数据属于同一个话题；

将同一个话题的历史语音交互数据中的槽位进行合并，得到所述话题对应的语音交互数据。

在一些实施例中，所述控制器被配置为：判断所述第一用户行为与历史系统行为是否相匹配，且判断所述第一意图预测结果与历史意图预测结果是否相匹配，包括：

判断所述第一用户行为与其中一个话题对应的语音交互数据中的历史系统行为是否相匹配，且判断所述第一意图预测结果与所述话题对应的语音交互数据中的历史意图预测结果是否相匹配。

在一些实施例中，所述控制器被配置为：判断所述第一用户行为与历史系统行为是否相匹配，包括：

获取预设的系统行为与用户行为的映射关系表；

判断所述第一用户行为与历史系统行为是否在所述映射关系表中存在映射关系。

在一些实施例中，所述控制器被配置为：判断所述第一意图预测结果与历史意图预测结果是否相匹配，包括：

若所述历史意图预测结果中的意图为强意图，且所述第一意图预测结果中的意图为弱意图，则确定所述第一意图预测结果与历史意图预测结果相匹配，其中，所述强意图为对应有显示设备的指令的意图，所述弱意图为不对应显示设备的指令的意图。

若所述第一意图预测结果中的意图与所述历史意图预测结果中的意图相同，则确定所述第一意图预测结果与历史意图预测结果相匹配。

在一些实施例中，所述根据所述本轮意图预测结果进行响应，包括：

根据所述本轮意图预测结果中的意图和槽位，确定所述本轮意图预测结果对应的指令和参数；

根据所述参数控制所述显示设备执行所述指令，并生成所述指令的执行结果。

第二方面，本申请提供了一种多轮对话方法，该方法包括：

接收搜索目标影片的语音指令；

响应于所述语音指令，获取所述目标影片的视频搜索结果；

在所述视频搜索结果不包括所述目标影片的第一类型正片，包括所述目标影片的第二类型正片时，获取所述目标影片对应的影院搜索结果，在第一搜索结果页面展示所述第二类型正片和影院搜索结果，所述第一类型正片包括符合预设播放规则的正片，所述第二类型正片包括不符合所述预设播放规则的正片；

在所述视频搜索结果不包括所述目标影片的第一类型正片，也不包括所述目标影片的第二类型正片时，获取所述目标影片对应的影院搜索结果，在第二搜索结果页面展示所述影院搜索结果。

在一些实施例中，在接收第一语音指令之前，还包括：

在一些实施例中，所述判断所述第一用户行为与历史系统行为是否相匹配，包括：

获取预设的系统行为与用户行为的映射关系表；

本申请提供的显示设备及多轮对话方法的有益效果包括：

本申请实施例在接收到第一语音指令后，根据历史语音交互数据和第一语音指令得到第一用户行为和第一意图预测结果，实现了初步确定用户意图，将历史语音交互数据与第一用户行为、第一意图预测结果进行匹配，在均相匹配时，再合并历史意图预测结果和第一意图预测结果得到本轮意图预测结果，实现了在历史语音交互数据与本轮对话关联性较强时再根据历史语音交互数据最终确定本轮对话的用户意图，有利于提高意图识别的准确性，提升多轮对话的语音交互体验。

附图说明

为了更清楚地说明本申请实施例或相关技术中的实施方式，下面将对实施例或相关技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1中示例性示出了根据一些实施例的语音识别装置的系统架构示意图；

图2中示例性示出了根据一些实施例的智能设备200的硬件配置框图；

图3中示例性示出了根据一些实施例的智能设备200的硬件配置框图；

图4中示例性示出了根据一些实施例的智能电视200-1的逻辑架构示意图；

图5中示例性示出了根据一些实施例的多轮对话方法的流程示意图；

图6中示例性示出了根据一些实施例的历史语音交互数据的更新示意图；

图7中示例性示出了根据一些实施例的多轮对话方法的数据处理流程的示意图；

图8中示例性示出了根据一些实施例的NLU模型的示意图；

图9中示例性示出了根据一些实施例的BERT模型的示意图；

图10中示例性示出了根据一些实施例的继承约束的流程示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

图1示出了可以应用本申请的语音识别方法和语音识别装置的示例性系统架构。如图1所示，其中，10为服务器，200为终端设备，示例性包括(智能电视200a,移动设备200b,智能音箱200c)。

本申请中服务器10与终端设备200通过多种通信方式进行数据通信。可允许终端设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器10可以向终端设备20提供各种内容和互动。示例性的，终端设备200与服务器10可以通过发送和接收信息，以及接收软件程序更新。

服务器10可以是提供各种服务的服务器，例如对终端设备200采集的音频数据提供支持的后台服务器。后台服务器可以对接收到的音频等数据进行分析等处理，并将处理结果(例如端点信息)反馈给终端设备。服务器10可以是一个服务器集群，也可以是多个服务器集群，可以包括一类或多类服务器。

终端设备200可以是硬件，也可以是软件。当终端设备200为硬件时，可以是具有声音采集功能的各种电子设备，包括但不限于智能音箱、智能手机、电视、平板电脑、电子书阅读器、智能手表、播放器、计算机、AI设备、机器人、智能车辆等等。当终端设备200、201、202为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供声音采集服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

在一些实施例中，本申请实施例所提供的多轮对话方法中的部分步骤可以通过服务器10执行。

图2示出了根据示例性实施例中智能设备200的硬件配置框图。如图2所示智能设备200包括通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器，音频处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。智能设备200可以通过通信器220服务器10建立控制信号和数据信号的发送和接收。

用户接口，可用于接收外部的控制信号。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

声音采集器可以是麦克风，也称“话筒”，“传声器”，可以用于接收用户的声音，将声音信号转换为电信号。智能设备200可以设置至少一个麦克风。在另一些实施例中，智能设备200可以设置两个麦克风，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，智能设备200还可以设置三个，四个或更多麦克风，实现采集声音信号，降噪，还可以识别声音提供方，实现定向录音功能等。

此外，麦克风可以是内置在智能设备200上，或者麦克风通过有线或者无线的方式与智能设备200相连接。当然，本申请实施例对麦克风在智能设备200上的位置不作限定。或者，智能设备200可以不包括麦克风，即上述麦克风并未设置于智能设备200中。智能设备200可以通过接口(如USB接口130)外接麦克风(也可以称为话筒)。该外接的话筒可以通过外部固定件(如带夹子的摄像头支架)固定在智能设备200上。

控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制智能设备200的整体操作。

示例性的，控制器包括中央处理器(Central Processing Unit，CPU)，音频处理器，RAM Random Access Memory，RAM)，ROM(Read-Only Memory,ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

在一些示例中，智能设备的操作系统为Android系统为例，如图3所示，智能电视200-1从逻辑上可以分为应用程序(Applications)层(简称“应用层”)21，内核层22和硬件层23。

其中，如图3所示，硬件层可包括图2所示的控制器250、通信器220、检测器230等。应用层21包括一个或多个应用。应用可以为系统应用，也可以为第三方应用。如，应用层21包括语音识别应用，语音识别应用可以提供语音交互界面和服务，用于实现智能电视200-1与服务器10的连接。

内核层22作为硬件层和应用层21之间的软件中间件，用于管理和控制硬件与软件资源。

在一些示例中，内核层22包括检测器驱动，检测器驱动用于将检测器230采集的语音数据发送至语音识别应用。示例性的，智能设备200中的语音识别应用启动，智能设备200与服务器10建立了通信连接的情况下，检测器驱动用于将检测器230采集的用户输入的语音数据发送至语音识别应用。之后，语音识别应用将包含该语音数据的查询信息发送至服务器中的意图识别模块202。意图识别模块202用于将智能设备200发送的语音数据输入至意图识别模型。

为清楚说明本申请的实施例，下面结合图4对本申请实施例提供的一种语音识别网络架构进行描述。

参见图4，图4为本申请实施例提供的一种语音交互网络架构示意图。图4中，智能设备用于接收输入的信息以及输出对该信息的处理结果。语音识别模块部署有语音识别服务，用于将音频识别为文本；语义理解模块部署有语义理解服务，用于对文本进行语义解析；业务管理模块部署有业务指令管理服务，用于提供业务指令；语言生成模块部署有语言生成服务(NLG)，用于将指示智能设备执行的指令转化为文本语言；语音合成模块部署有语音合成(TTS)服务，用于将指令对应的文本语言处理后发送至扬声器进行播报。在一个实施例中，图4所示架构中可存在部署有不同业务服务的多个实体服务设备，也可以一个或多个实体服务设备中集合一项或多项功能服务。

一些实施例中，下面对基于图4所示架构处理输入智能设备的信息的过程进行举例描述，以输入智能设备的信息为通过语音输入的查询语句为例：

[语音识别]

智能设备可在接收到通过语音输入的查询语句后，智能设备可对查询语句的音频进行降噪处理和特征抽取，这里的去噪处理可包括去除回声和环境噪声等步骤。

[语义理解]

利用声学模型和语言模型，对识别出的候选文本和相关联的上下文信息进行自然语言理解，将文本解析为结构化的、机器可读的信息，业务领域、意图、词槽等信息以表达语义等。得到可执行意图确定意图置信度得分，语义理解模块基于所确定的意图置信度得分选择一个或者多个候选可执行意图。

[业务管理]

语义理解模块根据对查询语句的文本的语义解析结果，向相应的业务管理模块下发查询指令以获取业务服务给出的查询结果，以及执行“完成”用户最终请求所需的动作，并将查询结果对应的设备执行指令进行反馈。

[语言生成]

自然语言生成(NLG)被配置为将信息或者指令生成语言文本。具体可分为闲聊型、任务型、知识问答型和推荐型。其中，闲聊型对话中的NLG就是根据上下文进行意图识别、情感分析等，然后生成开放性回复；任务型对话中需根据学习到的策略来生成对话回复，一般回复包括澄清需求、引导用户、询问、确认、对话结束语等；知识问答型对话中根据问句类型识别与分类、信息检索或文本匹配而生成用户需要的知识(知识、实体、片段等)；推荐型对话系统中根据用户的爱好来进行兴趣匹配以及候选推荐内容排序，然后生成给用户推荐的内容。

[语音合成]

语音合被配置为呈现给用户的语音输出。语音合成处理模块基于数字助理提供的文本来合成语音输出。例如，所生成的对话响应是文本串的形式。语音合成模块将文本串转换成可听语音输出。

需要说明的是，图4所示架构只是一种示例，并非对本申请保护范围的限定。本申请实施例中，也可采用其他架构来实现类似功能，例如：上述过程全部或部分可以由智能终端来完成，在此不做赘述。

在一些实施例中，用户输入语音指令后，显示设备可结合历史语音指令，即用户之前输入的语音指令对本次用户输入的语音指令进行分析，综合判断用户的意图，以提高意图理解的准确性。然而，若用户之前输入的语音指令与本次输入的语音指令没有关联，则会导致意图理解的准确性降低。

为解决上述技术问题，本申请提供了一种多轮对话方法，该方法通过对包含历史语音指令的历史语音交互数据与第一语音指令，即用户本轮输入的语音指令进行匹配分析，在匹配时再将历史语音交互数据用于对第一语音指令的意图预测，能够提高意图理解的准确性，提升语音交互体验。

参见图5，为根据一些实施例的多轮对话方法的流程示意图，如图5所示，该方法可包括如下步骤：

步骤S101：接收第一语音指令。

在一些实施例中，用户可与显示设备进行多轮对话，即进行多次语音交互，其中，一轮对话包括用户向显示设备发出一次语音指令，显示设备对该语音指令进行一次响应。在当前轮次的对话中，用户输入的语音指令为第一语音指令，在历史轮次的对话中，如上一轮次的对话中，用户输入的语音指令为历史语音指令。

例如，用户与显示设备进行的多轮对话如下：

第一轮对话：用户说“我想看A”，其中，A为电影名称，显示设备的响应包括播放A；

第二轮对话：用户说“调小音量”，显示设备的响应包括将音量调小。

第三轮对话：用户说“关机”，显示设备的响应包括关机。

则显示设备在处理第三轮对话时，第一语音指令为“关机”，历史语音指令包括“我想看A”、“调小音量”。

步骤S102：响应于所述第一语音指令，获取历史语音交互数据，所述历史语音交互数据包括历史语音指令对应的文本、历史意图预测结果和历史系统行为。

在一些实施例中，显示设备接收到用户输入的第一语音指令后，获取历史语音交互数据，该历史语音交互数据可包括该用户在输入第一语音交互指令之前，与显示设备进行的一轮对话或多轮对话的语音交互数据，或可包括对该多轮对话的语音交互数据进行整合处理和/或筛选处理后的语音交互数据，其中，该整合处理可包括将相同或相近意图对应的槽位进行合并等处理，该筛选处理可包括筛选出时间最新的语音交互数据。

例如，该历史语音交互数据可包括上一轮的语音交互数据，或包括前10轮的语音交互数据，或包括将前10轮的语音交互数据经过整合处理和/或筛选处理后的语音交互数据。

在一些实施例中，在得到包含多个历史轮次的对话的语音交互数据后，为提高后续步骤的处理效率，可从这多个历史轮次的语音交互数据中，筛选出一个历史轮次的语音交互数据，作为前置轮次的语音交互数据，在后续步骤中对第一语音指令和该前置轮次的语音交互数据进行结合分析，避免同时分析多个轮次的历史意图预测结果造成数据混乱和分析效率降低等问题。

在一些实施例中，在得到包含多个历史轮次的对话的语音交互数据时，为提高后续步骤的处理效率，可对这多个历史轮次的语音交互数据按照话题进行分类，同一个话题对应的多个轮次的语音交互数据，意图相同或相近，具体可根据实际需求进行设置。

在一些实施例中，对于多个轮次的语音交互数据，如第一轮次的语音交互数据、第二轮次的语音交互数据和第三轮次的语音交互数据，其中，第一轮次的语音交互数据中的语音指令的接收时间、第二轮次的语音交互数据中的语音指令的接收时间、第三轮次的语音交互数据中的语音指令的接收时间依次延后，若第三轮次的语音交互数据与第二轮次的语音交互数据符合预设的约束条件，则判定第三轮次的语音交互数据与第二轮次的语音交互数据属于同一个话题，若第三轮次的语音交互数据与第一轮次的语音交互数据符合预设的约束条件，则判定第三轮次的语音交互数据与第一轮次的语音交互数据属于同一个话题。

其中，预设的约束条件为满足继承约束的条件，可包括：时间在后的语音交互数据中的用户行为与时间在前的语音交互数据中的系统行为相匹配，且时间在后的语音交互数据中的意图与时间在前的语音交互数据中的意图相匹配。将同一个话题对应的多个轮次的语音交互数据的槽位进行合并，将合并后的语音交互数据确定为该话题对应的语音交互数据。将其中一个话题，如最新的话题对应的语音交互数据，作为前置轮次的语音交互数据用于与第一语音指令进行结合分析，避免同时分析多个轮次的历史意图预测结果造成数据混乱和分析效率降低等问题。

在一些实施例中，历史语音交互数据可包括历史语音指令、历史意图预测结果和历史系统行为，其中，历史意图预测结果是历史语音交互数据对应的意图预测结果，历史系统行为是历史语音交互数据对应的系统行为。

若历史语音交互数据是某一个历史轮次的语音交互数据，则该历史意图预测结果是该历史轮次的历史语音指令对应的意图预测结果，该历史系统行为是该轮次的历史语音指令对应的系统行为；若历史语音交互数据是基于历史多个轮次的语音交互数据得到的语音交互数据，则该历史意图预测结果是基于历史多个轮次的语音交互数据得到的意图预测结果，该历史系统行为是基于历史多个轮次的语音交互数据对应的系统行为。

其中，意图预测结果可包括意图和槽位。意图指用户所要传达的目的，例如用户说“我想看A”，则意图为video_search(视频搜索)。槽位指意图相关的参数，包括类型和值。例如用户说“我想看电影A”，则槽位的类型为video_title(视频标题)，槽位的值为“A”。

系统行为是指语音交互系统在用户输入语音指令后所做出的响应动作的类型，例如，可包括如下几种类型：apisuccess，即执行成功；select，即请求用户进行选择；request，即请求用户给出更多信息，等等。

示例性的，在一轮语音交互对话中，用户说：“购买去XX的车票”，该语音指令对应的意图为tickets_order(订购车票)，槽位的类型为destination(目的地)类型，槽位的值为“XX”。用户输入该语音指令后，根据tickets_order对应的槽位的类型包括目的地类型和time(时间)类型，确定该历史语音指令缺少time(时间)类型的槽位，因此，语音交互系统对该语音指令的响应动作是返回请求用户给出更多信息的疑问句：“请问你要买什么时间的车票”，该响应动作的动作类型，即系统行为是request。

在一些实施例中，除了历史语音指令、历史意图预测结果和历史系统行为，历史语音交互数据还可包括历史用户行为，其中，历史用户行为是历史语音交互数据对应的用户行为。

用户行为是指用户对语音交互系统做出的回应动作的类型，例如，可包括如下几种类型：affirm，即接受系统响应；deny，即拒绝系统响应；negate，即修正信息；invoke，即新启意图等等。

示例性的，在订购火车票的场景下，用户与显示设备进行了一轮或多轮对话后，在最新的一轮对话中，若用户说“算了不买了”，则该语音指令的用户行为deny，若用户说“算了，买后天的吧”，则该语音指令的用户行为negate。

步骤S103：根据所述第一语音指令和历史语音交互数据预测所述第一语音指令对应的第一用户行为和第一意图预测结果。

在一些实施例中，可预先训练能够对多轮语音交互数据进行处理的NLU(NaturalLanguage Understanding，自然语言理解)模型，例如，能够对两轮语音交互数据进行处理的NLU模型。该NLU模型的输入包括本轮语音交互数据和历史语音交互数据，其中，本轮语音交互数据包括第一语音指令，历史语音交互数据包括前置轮次的语音交互数据中的历史语音指令、用户行为和系统行为。该NLU模型的输出包括本轮语音交互数据对应的第一预测结果，该第一预测结果包括第一用户行为和第一意图预测结果，第一用户行为是第一语音指令对应的用户行为，第一意图预测结果包括第一语音指令对应的意图和槽位。

步骤S104：判断所述第一用户行为与历史系统行为是否相匹配，且判断所述第一意图预测结果与历史意图预测结果是否相匹配。

在一些实施例中，可预先设置两轮对话的匹配规则，若这两轮对话符合该匹配规则，则判定两轮对话相匹配，若这两轮对话不符合该匹配规则，则判定这两轮对话不匹配。匹配规则可包括基于系统行为与用户行为的第一匹配规则，以及基于意图的第二匹配规则。其中，第一匹配规则用于确定上轮对话的系统行为与本轮对话的用户行为是否匹配，第二匹配规则用于确定两轮对话的意图是否匹配，以及两轮对话的槽位是否匹配。

示例性的，第一匹配规则可包括：若系统行为是request，则用户行为是inform、deny或negate时，则系统行为与用户行为相匹配。基于该第一匹配规则，若系统行为是request，用户行为是invoke，则系统行为与用户行为不匹配。

示例性的，第二匹配规则可包括：若意图相同，则意图相匹配，在意图相匹配时，若第一语音指令对应的槽位是历史语音指令对应的槽位集中的槽位，则槽位相匹配。其中，可预先设置一些语音指令对应的槽位集，该槽位集包括一个或多个槽位。

在一些实施例中，为提高匹配成功率，在其中一轮历史语音交互数据与本轮语音交互数据不匹配时，可从步骤S102中获取的历史语音交互数据中，重新选择一个话题的历史语音交互数据，作为前置轮次的语音交互数据，将重新选择的前置轮次的语音交互数据，与本轮语音交互数据进行匹配。

在一些实施例中，为提高匹配成功率，在其中一轮历史语音交互数据与本轮语音交互数据不匹配时，可从步骤S102中获取的历史语音交互数据中，重新选择一轮历史语音交互数据，作为前置轮次的语音交互数据，将重新选择的前置轮次的语音交互数据，与本轮语音交互数据进行匹配。

在一些实施例中，若存在一个前置轮次的语音交互数据与本轮语音交互数据相匹配，则执行步骤S105，若不存在任一个前置轮次的语音交互数据与本轮语音交互数据相匹配，则执行步骤S106。

在一些实施例中，若本轮语音交互数据与前置轮次的语音交互数据相匹配，则确定本轮语音交互数据与该前置轮次的语音交互数据对应同一个话题。

步骤S105：若均相匹配，则合并所述历史意图预测结果和第一意图预测结果，得到本轮意图预测结果。

在一些实施例中，若第一用户行为与所述历史系统行为、所述第一意图预测结果与历史意图预测结果均相匹配，表明本轮对话的第一语音指令与历史语音交互数据关联性较强，可将历史意图预测结果中的槽位与第一意图预测结果中的槽位进行合并，得到包括意图和槽位的本轮意图预测结果，相较于第一意图预测结果，该本轮意图预测结果反映用户实际意图的准确性更高。

步骤S106：若不均相匹配，则将所述第一意图预测结果确定为本轮意图预测结果。

在一些实施例中，若第一用户行为与所述历史系统行为不匹配，或所述第一意图预测结果与历史意图预测结果不匹配，表明本轮对话的第一语音指令与历史语音交互数据关联性较弱，可忽略历史意图预测结果，将第一意图预测结果确定为本轮意图预测结果，避免历史意图预测结果对第一意图预测结果造成干扰。

步骤S107：根据所述本轮意图预测结果进行响应。

在一些实施例中，在得到本轮意图预测结果后，可根据意图预测结果中的意图和槽位执行响应动作，实现对第一语音指令的响应。

由上述实施例可见，本申请实施例在接收到第一语音指令后，根据历史语音交互数据和第一语音指令得到第一用户行为和第一意图预测结果，实现了初步确定用户意图，将历史语音交互数据与第一用户行为、第一意图预测结果进行匹配，在均相匹配时，再合并历史意图预测结果和第一意图预测结果得到本轮意图预测结果，实现了在历史语音交互数据与本轮对话关联性较强时根据历史语音交互数据确定本轮对话的用户意图，有利于提高意图识别的准确性，提升多轮对话的语音交互体验。

在一些实施例中，在得到本轮意图预测结果后，还根据显示设备的响应动作的类型，得到本轮对话的系统行为，将本轮对话的语音交互数据，即第一语音指令对应的文本(用户请求文本)、用户行为、系统行为、意图、槽位等信息，合并为本轮预测结果，将本轮预测结果存入历史语音交互数据，为下一轮对话做准备。

在一些实施例中，本轮预测结果还包括话题，其中，若本轮语音交互数据与前置轮次的语音交互数据相匹配，则将本轮语音交互数据的话题确定为该前置轮次的语音交互数据的话题，若本轮语音交互数据与前置轮次的语音交互数据不匹配，则将本轮语音交互数据的话题确定为一个新话题。

在一些实施例中，本轮预测结果还包括独立意图的判定标识，该标识为第一标识时，表示本轮预测结果的意图为独立意图，该标识为第二标识时，表示本轮预测结果的意图为非独立意图。

独立意图是指预设的一些不存在继承关系的意图，诸如调整音量、选择操作等意图。以调整音量的意图为例，由于在显示设备的任何场景都可以调整音量，且调整音量后的操作相对独立，在调整音量后的操作与调整音量无关，因此，调整音量的意图可被预设为一个独立意图。

基于上述实施例，参见图6，用户输入第一语音指令后，将该第一语音指令对应的文本，即用户请求文本与历史语音交互数据进行处理，得到本轮预测结果，其中，对用户请求文本与历史语音交互数据进行处理的模块可称为多轮处理模块。

在一些实施例中，在得到本轮预测结果后，将本轮预测结果存储至该用户的用户数据库，以更新用户数据库中的历史语音交互数据，在用户下一次输入语音指令后，可基于最新的历史语音交互数据对该语音指令进行处理。随着多轮交互的持续进行，用户数据库中的历史语音交互数据越来越多，当用户数据库中的历史语音交互数据超过一定数量时，可移除用户数据库中的第一轮语音交互数据，以此类推。

在一些实施例中，该用户数据库的创建及更新过程如下所示：

在用户与显示设备进行第一轮的语音交互后，得到第一轮的预测结果。创建该用户的用户数据库，将该第一轮的预测结果存入用户数据库。若第一轮的预测结果中的意图为非独立意图，则将第一轮的预测结果确定为该话题对应的语音交互数据。

在用户与显示设备进行第二轮的语音交互后，得到第二轮的预测结果。若第二轮的预测结果与第一轮的预测结果对应同一个话题，则将第二轮的预测结果与第一轮的预测结果进行合并，如将槽位进行合并，将合并后的数据作为该话题对应的语音交互数据；若第二轮的预测结果与第一轮的预测结果对应不同的话题，则将第二轮的预测结果确定为第二轮的话题对应的语音交互数据。

以此类推。

示例性的，在用户与显示设备进行9轮语音交互后，用户数据库包括9轮语音交互数据，其中，第1～3轮语音交互数据对应话题1，第4～6轮语音交互数据对应话题2，第7轮语音交互数据对应话题3，第8轮语音交互数据对应话题4，第9轮语音交互数据对应话题3，并且，话题1、2、3为非独立意图的话题，话题4是独立意图的话题。由于话题3是非独立意图的话题，且出现的时间(出现的时间为接收第7轮语音交互数据中的语音指令的时间)最晚，因此，将话题3对应的语音交互数据确定为前置轮次的语音交互数据。

在一些实施例中，由于用户在多轮对话中，来回切换话题的概率较低，因此，可预先设置用户数据库中的历史语音交互数据的话题数不超过预设话题数，如不大于3，若最新的一轮语音交互数据得到话题4，可删除第一个话题的语音交互数据，使得历史语音交互数据的话题数不超过3。

在一些实施例中，若在一轮语音交互数据中，用户的语音指令的意图为终止意图，则将该轮语音交互数据对应话题的语音交互数据从历史语音交互数据中删除。其中，终止意图是指预设的表征用户结束当前话题的意图。例如，用户说“算了，不设置了”，“可以，就这样”等，可确定这些语音指令的意图为终止意图。

为对本申请实施例的多轮对话方法做进一步说明，以用户与显示设备进行的第10轮语音交互时输入的语音指令为第一语音指令为例，多轮处理模块对该第一语音指令和历史语音交互数据的处理流程可参见图7。

如图7所示，在一些实施例中，输入数据包括本轮语音交互数据和历史语音交互数据，在接收到输入数据后，可对输入数据依次进行历史数据处理、GT(ground truth，真值)匹配，若匹配成功，则进行意图槽位映射，若匹配失败，则进行NLU模型预测、文法匹配、继承约束，然后进行意图槽位映射，在进行完意图槽位映射后进行命令执行，最后进行NLG(Neural Language Generation，自然语言生成)回复，完成语音交互过程。其中，多轮处理模块可执行图7中的历史数据处理至意图槽位映射的数据处理。

在一些实施例中，历史数据处理是指从输入数据中的历史语音交互数据中，获取前置轮次的语音交互数据。

若历史语音交互数据仅包括一个历史轮次的语音交互数据，且该语音交互数据的意图为非独立意图，则将该语音交互数据确定为前置轮次的语音交互数据。

若历史语音交互数据仅包括多个历史轮次的语音交互数据，则将意图为非独立意图的时间最新的话题对应的语音交互数据确定为前置轮次的语音交互数据。

在一些实施例中，GT匹配是指将包括本轮语音交互数据与历史语音交互数据作为一组目标多轮语音交互数据，与预设映射表进行匹配，其中，预设映射表包括多轮语音交互数据映射的用户行为、意图和槽位，该预设映射表基于多个用户的多轮语音交互数据得到。在匹配成功时，无需对该目标多轮语音交互数据进行上述实施例中步骤S103、S104的处理，将在预设映射表中匹配到的用户行为确定为第一用户行为，将匹配到的意图和槽位确定为本轮意图预测结果即可，从而提高了语音交互效率。在匹配失败时，将目标多轮语音交互数据输入NLU模型进行预测，以得到第一预测结果。

在一些实施例中，预设映射表包含多条映射数据，映射数据的数据结构可包括：上轮意图的类型-上轮槽位的类型-本轮的用户请求文本-预期的意图、槽位和用户行为。GT匹配的方法可包括如下步骤：

判断历史语音交互数据中的意图和槽位是否包含在预设映射表的一条映射数据中。若不包含，则确定匹配失败。若包含，判断第一语音指令对应的文本是否与映射数据中的本轮的用户请求文本相匹配，若相匹配，则确定映射数据匹配成功，若不相匹配，则确定映射数据匹配失败。其中，为提高第一语音指令对应的文本匹配成功的概率，可对第一语音指令进行预处理，如去掉语气词、按照预设语法规则调整语序等处理。

在一些实施例中，NLU模型预测用于基于第一语音指令和历史语音交互数据，生成第一用户行为和第一意图预测结果。

参见图8，NLU模型输入的信息可包括上轮的用户请求文本、本轮的用户请求文本、上轮的用户行为和上轮的系统行为，其中，上轮的用户请求文本为前置轮次的语音交互数据中的语音指令对应的文本，本轮的用户请求文本为第一语音指令对应的文本。

在一些实施例中，图8所示的NLU模型可通过对现有技术中的NLU模型进行复用得到。现有技术中的NLU模型可将用户的请求文本编码为向量后作为输入，输出用户的请求文本对应的意图和每个词向量对应的槽位。

本申请实施例中，可将该现有技术中的NLU模型的输入扩充为包括上轮的用户请求文本、本轮的用户请求文本、上轮的用户行为和上轮的系统行为这4项数据的向量，其中，这4项数据可用固定的分隔符连接，作为一整条用户请求文本。例如：

上轮的用户请求文本：10点钟提醒我洗衣服

本轮的用户请求文本：晚上10点

上轮的用户行为：invoke

上轮的系统行为：apisuccess

分割符：|

则可得到用户请求文本如下：10点钟提醒我洗衣服|晚上10点|invoke|apisuccess。

在实际实施中，为取得更好的预测结果，防止向量编码时产生错误，可先将上述用户请求文本中的4项数据分别编码为向量，再将向量进行拼接。其中，用户行为和系统行为均设置有类别ID，因此可以直接使用类别ID作为用户行为和系统行为的向量。

将该现有技术中的NLU模型的输出的意图扩充为意图和行为。在模型层面可以在意图输出接口后再加一个分类器来分开意图和行为。

示例性的，参见图9，本申请实施例的NLU模型可为BERT(Bidirectional EncoderRepresentations from Transformers，双向编码)模型。

在一些实施例中，在得到第一预测结果后，在进行继承约束之前，可进行文法匹配，以修正NLU模型输出的第一预测结果，得到第二预测结果。

在一些实施例中，为进行文法匹配，可预先维护一份NLU模型预测出错的数据库，然后泛化为正则表达式。在得到NLU模型输出的第一意图预测结果时，将本轮的用户请求文本与数据库中的一条正则表达式进行匹配。其中，该正则表达式包括用户请求文本对应的意图和行为。

若匹配成功，则使用该正则表达式提供的槽位和意图替代NLU模型输出的第一意图预测结果；若匹配失败，将本轮的用户请求文本与数据库中的下一条正则表达式进行匹配，直至匹配成功或将全部正则表达式匹配完毕。

在一些实施例中，继承约束包括步骤S104的处理过程，包括系统行为与用户行为的匹配，以及意图的匹配，在满足继承约束时，将第一预测结果(或第二预测结果)与历史意图预测结果合并为本轮预测结果。

在一些实施例中，继承约束的流程可参见图10，包括如下步骤：

步骤S201：获取本轮的用户行为。

在一些实施例中，本轮的用户行为为第一用户行为。

步骤S202：获取前置轮次的语音交互数据。

在一些实施例中，由于用户数据库中的多轮语音交互数据，在第一语音指令输入之前，已通过图5所示的多轮对话方法进行处理，因此，用户数据库中的多轮语音交互数据的话题已经确定。

在一些实施例中，将其中一个话题对应的语音交互数据确定为前置轮次的语音交互数据后，从前置轮次的语音交互数据中获取系统行为和意图、槽位等信息。

步骤S203：判断本轮的用户行为与前置轮次的系统行为是否匹配。

在一些实施例中，预先可设置有系统行为和用户行为的映射关系表，若本轮的用户行为与前置轮次的系统行为在该映射关系表中存在映射关系，可确定本轮的用户行为与前置轮次的系统行为匹配，否则，则不匹配。

步骤S204：若匹配，判断本轮的意图与前置轮次的意图是否匹配。

在一些实施例中，在本轮的意图与前置轮次的意图相同时，确定本轮的意图与前置轮次的意图相匹配；在本轮的意图与前置轮次的意图不相同时，确定本轮的意图与前置轮次的意图不匹配。

在一些实施例中，由于意图识别存在一定误识别的概率，为提高意图匹配的准确性，在本轮的意图与前置轮次的意图相同时，可进一步进行槽位匹配，在槽位匹配成功时，再确定本轮的意图与前置轮次的意图相匹配，若槽位匹配失败，则确定本轮的意图与前置轮次的意图不匹配。

其中，预先可设置有意图和槽位的映射关系表，该关系表包含意图对应的槽位列表。在本轮的意图与前置轮次的意图相同时，在映射关系表中查找本轮的槽位是否包含在该意图对应的槽位列表中，若不包含，则确定槽位匹配失败，若包含，则确定槽位匹配成功。

在一些实施例中，由于在两轮的意图不相同时，两轮对话也有一定几率关联性较强。因此，在本轮的意图与前置轮次的意图相同时，确定本轮的意图与前置轮次的意图相匹配，或者，在前置轮次的意图为强意图，且本轮的意图为弱意图时，确定本轮的意图与前置轮次的意图相匹配；在本轮的意图与前置轮次的意图不相同，且前置轮次的意图为弱意图时，确定本轮的意图与前置轮次的意图不匹配。

其中，弱意图是指无法预测显示设备执行的指令的意图，即该意图不对应显示设备的指令。例如，若语音指令为“明天下午五点”，则从该语音指令中只能识别出一个时间槽位，至于这个时间显示设备需要执行什么指令无从得知；与弱意图相反的是强意图，强意图指能预测出显示设备执行的指令的意图，即该意图对应有显示设备的指令。例如，若语音指令为“明天下午五点的车票”，则可预测出该语音指令的意图为查询车票。

由于通常用户在历史轮次的对话中，若语音指令中遗漏了对执行动作的限定信息，用户在后续轮次的对话中对该语音指令进行补充的概率较高，即多轮对话的关联性通常较强；而用户在历史轮次的对话中，若语音指令中遗漏了执行动作，用户在后续轮次的对话中对该语音指令进行补充的概率较低，即多轮对话的关联性通常较弱。因此，本申请实施例在前置轮次的意图为强意图，且本轮的意图为弱意图时，判定两轮意图相匹配，能提高意图匹配的准确性。

步骤S205：若相匹配，确定本轮对话继承前置轮次对话的意图。

在一些实施例中，若用户行为与系统行为相匹配，且意图相匹配，可确定本轮对话与前置轮次对话的关联性较强，因此，确定本轮对话继承前置轮次对话的意图。

若本轮对话和前置轮次对话中的槽位不相同，则将两轮对话的槽位进行合并；若本轮对话和前置轮次对话中的槽位相同，则用本轮对话的槽位更新前置轮次对话的槽位。

步骤S206：判断话题是否遍历完毕。

在一些实施例中，若用户行为与系统行为不匹配，或意图不匹配，为提高多轮对话的用户体验，可判断历史语音交互数据中的话题是否遍历完毕，即判断是否将本轮的第一预测结果与每个话题对应的语音交互数据匹配完毕。

步骤S207：跳转至上一个话题。

在一些实施例中，若话题未遍历完毕，则获取时间在当前的话题之前的上一个话题对应的语音交互数据，然后跳转至步骤S202，将该上一个话题对应的语音交互数据确定为前置轮次的语音交互数据。

步骤S208：确定本轮的话题为新启话题。

在一些实施例中，若话题已遍历完毕，则确定本轮的话题为新启话题，即确定本轮对话与上一轮对话的关联性较弱，可将第一预测结果确定为本轮预测结果。

通过图10所示的方法进行继承约束判断后，可得到本轮预测结果。

在一些实施例中，意图槽位映射是指将本轮预测结果中的意图和槽位，映射为显示设备可执行的指令，如调节音量指令，播放指令等等。

在一些实施例中，可预先建立意图、槽位和指令之间的映射关系表，从而根据本轮预测结果中的意图和槽位，查询该表得到显示设备需要执行的指令。其中，意图相同，槽位不同时，通常对应用户的不同需求，而在部分显示设备中，一个意图可能对应一个默认的指令，通过查询该意图、槽位和指令之间的映射关系表，在得到指令后再控制显示设备执行该指令，能提高显示设备响应的准确性。其中，该映射关系表中的指令可设置有槽位对应的参数，以实现更精准的执行响应动作。

示例性的，映射关系表的结构如下所示：

意图1-槽位A->指令1-参数A，表示意图为意图1，槽位为槽位A时，对应的指令为指令1，该指令1的参数为参数A。

意图2-槽位A->指令1-参数B，表示意图为意图2，槽位为槽位A时，对应的指令为指令1，该指令1的参数为参数B。

意图1-槽位B->指令3-参数B，表示意图为意图3，槽位为槽位B时，对应的指令为指令3，该指令3的参数为参数B。

在一些实施例中，在得到本轮预测结果对应的指令后，控制显示设备进行该指令，然后生成回复语与用户交互，并等待用户的下一轮请求，在用户输入下一轮请求，即输入新的语音指令后，继续执行本申请实施例的多轮对话方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种显示设备，其特征在于，包括：

显示器；

控制器，与所述显示器连接，所述控制器被配置为：

接收第一语音指令；

根据所述本轮意图预测结果进行响应。

2.根据权利要求1所述的显示设备，其特征在于，所述控制器被配置为：在接收第一语音指令之前，还包括：

3.根据权利要求2所述的显示设备，其特征在于，所述控制器被配置为：判断所述第一用户行为与历史系统行为是否相匹配，且判断所述第一意图预测结果与历史意图预测结果是否相匹配，包括：

4.根据权利要求1所述的显示设备，其特征在于，所述控制器被配置为：判断所述第一用户行为与历史系统行为是否相匹配，包括：

获取预设的系统行为与用户行为的映射关系表；

5.根据权利要求1所述的显示设备，其特征在于，所述控制器被配置为：判断所述第一意图预测结果与历史意图预测结果是否相匹配，包括：

6.根据权利要求1所述的显示设备，其特征在于，所述控制器被配置为：判断所述第一意图预测结果与历史意图预测结果是否相匹配，包括：

7.根据权利要求1所述的显示设备，其特征在于，所述根据所述本轮意图预测结果进行响应，包括：

8.一种多轮对话方法，其特征在于，包括：

接收第一语音指令；

根据所述本轮意图预测结果进行响应。

9.根据权利要求8所述的多轮对话方法，其特征在于，在接收第一语音指令之前，还包括：

10.根据权利要求8所述的多轮对话方法，其特征在于，所述判断所述第一用户行为与历史系统行为是否相匹配，包括：

获取预设的系统行为与用户行为的映射关系表；