CN117809659A

CN117809659A - 一种服务器、终端设备及语音交互方法

Info

Publication number: CN117809659A
Application number: CN202311356393.5A
Authority: CN
Inventors: 李家欢; 李俊彦
Original assignee: Hisense Electronic Technology Wuhan Co ltd
Current assignee: Hisense Electronic Technology Wuhan Co ltd
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2024-04-02

Abstract

本申请一些实施例示出一种服务器、终端设备及语音交互方法，所述方法包括：接收终端设备发送的用户输入的语音数据；识别语音数据，以获取输入文本；将输入文本填入提示模板，以生成输入指令；将输入指令输入语言模型中，得到输出数据，输出数据包括回复文本及至少一个追问推荐文本；基于回复文本及追问推荐文本生成回复语音及追问推荐语音；将回复语音及追问推荐语音发送至终端设备，以使终端设备播放回复语音及追问推荐语音。本申请实施例调用语言模型对输入文本进行解析和回复，得到回复文本和追问推荐文本，并生成其对应的语音，避免复杂的业务逻辑，减少繁琐的规则匹配代码编写，节省人力成本，降低工作量，提高用户信息解析的效率。

Description

一种服务器、终端设备及语音交互方法

技术领域

本申请涉及语音交互技术领域，尤其涉及一种服务器、终端设备及语音交互方法。

背景技术

随着自然语言处理和人工智能领域的发展，人机语音交互技术越来越普及。人工智能通过对海量数据的学习和处理，能够更准确的预测用户的习惯和喜好，变得更加智能化，告别传统依赖基础按键方式的控制，用户的操作方式变得更加简洁。

现有的人机交互主要采用意图识别和槽位填充技术，首先通过深度学习技术识别用户查询(query)的意图和关键槽位信息，然后进行意图匹配，根据意图匹配结果和槽位信息调取相应的业务服务接口，最后利用相关业务数据对用户进行回复。然而，受限于意图识别和槽位抽取的准确率以及用户多意图的query，会出现业务误入和漏入的情况。因此，需要通过预先定制多种多样的规则匹配条件来满足用户真实需求，这样大大增加人机交互系统的维护成本和复杂度。

发明内容

本申请一些实施例提供了一种服务器、终端设备及语音交互方法，在获取用户的输入文本后，调用语言模型对输入文本进行解析和回复，得到回复文本和追问推荐文本，并生成其对应的语音，避免复杂的业务逻辑，减少繁琐的规则匹配代码编写，节省人力成本，降低工作量，提高用户信息解析的效率。

第一方面，本申请一些实施例中提供一种服务器，被配置为：

接收终端设备发送的用户输入的语音数据；

识别所述语音数据，以获取输入文本；

将输入文本填入提示模板，以生成输入指令，所述提示模板用于指示对所述输入文本进行解析及回复；

将所述输入指令输入语言模型中，得到输出数据，所述输出数据包括回复文本及至少一个追问推荐文本；

基于所述回复文本及所述追问推荐文本生成回复语音及追问推荐语音；

将所述回复语音及所述追问推荐语音发送至所述终端设备，以使所述终端设备播放所述回复语音及所述追问推荐语音。

在一些实施例中，所述服务器，被配置为：

将所述回复文本及所述追问推荐文本发送至所述终端设备，以使所述终端设备显示所述回复文本及所述追问推荐文本。

在一些实施例中，所述输出数据还包括意图识别结果、关键词及外部插件依赖结果，在将所述输入指令输入语言模型中，得到输出数据之后，所述服务器，被配置为：

如果所述外部插件依赖结果不为空，将所述意图识别结果和所述关键词发送至所述外部插件依赖结果对应的插件；

接收所述插件基于所述意图识别结果和所述关键词回复的外部信息；

基于所述外部信息生成外部信息语音；

将所述外部信息语音发送至所述终端设备，以使所述终端设备播放所述外部信息语音。

在一些实施例中，所述输出数据还包括意图识别结果、关键词及外部插件依赖结果，所述服务器执行基于所述回复文本及所述追问推荐文本生成回复语音及追问推荐语音，被进一步配置为：

基于所述外部信息及所述追问推荐文本生成回复语音及追问推荐语音。

在一些实施例中，所述提示模板包括指示内容和第一槽位，所述指示内容用于指示对槽位的内容进行解析及回复，所述第一槽位用于填充所述输入文本。

在一些实施例中，所述提示模板还包括第二槽位，所述第二槽位用于填充历史对话文本，所述服务器执行将输入文本填入提示模板，以生成输入指令，被进一步配置为：

获取历史对话文本；

将输入文本及历史对话文本填入提示模板，以生成输入指令，所述提示模板用于指示对所述输入文本和所述历史对话文本进行解析及回复。

在一些实施例中，所述提示模板还包括第三槽位，所述第三槽位用于填充插件发送的外部信息，所述服务器执行将输入文本填入提示模板，以生成输入指令，被进一步配置为：

获取插件发送的外部信息；

将输入文本、历史对话文本及插件发送的外部信息填入提示模板，以生成输入指令，所述提示模板用于指示对所述输入文本、所述历史对话文本和所述外部信息进行解析及回复。

第二方面，本申请一些实施例中提供一种终端设备，包括：

声音采集器，被配置为采集用户输入的语音数据；

通信器，被配置为与服务器进行数据通信；

音频输出接口，被配置为播放语音；

控制器，被配置为：

获取用户输入的语音数据；

将所述语音数据发送至服务器；

接收所述服务器基于所述语音数据生成的回复语音及追问推荐语音；

控制所述音频输出接口播放所述回复语音及所述追问推荐语音。

第三方面，本申请一些实施例中提供一种语音交互方法，应用于服务器，包括：

接收终端设备发送的用户输入的语音数据；

识别所述语音数据，以获取输入文本；

第四方面，本申请一些实施例中提供一种语音交互方法，应用于终端设备，包括：

获取声音采集器采集的用户输入的语音数据；

将所述语音数据发送至服务器；

控制音频输出接口播放所述回复语音及所述追问推荐语音。

本申请的一些实施例提供一种服务器、终端设备及语音交互方法。终端设备将采集到用户输入的语音数据发送至服务器。服务器识别语音数据，得到输入文本，将输入文本填入提示模板，得到输入指令。其中，提示模板用于指示对输入文本进行解析及回复。将输入指令输入至语言模型中，得到回复文本及至少一个追问推荐文本。根据回复文本合成回复语音，以及，根据追问推荐文本合成追问推荐语音，将回复语音和追问推荐语音发送至终端设备，并由终端设备播放回复语音和追问推荐语音。本申请实施例在获取用户的输入文本后，调用语言模型对输入文本进行解析和回复，得到回复文本和追问推荐文本，并生成其对应的语音，避免复杂的业务逻辑，减少繁琐的规则匹配代码编写，节省人力成本，降低工作量，提高用户信息解析的效率。

附图说明

图1示出了根据一些实施例的语音交互的系统架构图；

图2示出了根据一些实施例的终端设备的硬件配置框图；

图3示出了根据一些实施例的终端设备的软件配置图；

图4示出了根据一些实施例提供的一种语音交互网络架构示意图；

图5示出了根据一些实施例提供的一种语音交互方法的流程图；

图6示出了根据一些实施例提供的另一种语音交互网络架构示意图；

图7示出了根据一些实施例提供的一种语音交互方法的时序图；

图8示出了根据一些实施例提供的一种语音交互界面的示意图；

图9示出了根据一些实施例提供的另一种语音交互方法的流程图；

图10示出了根据一些实施例提供的又一种语音交互方法的流程图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

图1示出了可以应用本申请的语音交互方法和语音交互装置的示例性系统架构。如图1所示，其中，100为服务器，200为终端设备。示例性，终端设备包括智能电视200a,移动设备200b，智能音箱200c。

本申请中服务器100与终端设备200通过多种通信方式进行数据通信。可允许终端设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器100可以向终端设备200提供各种内容和互动。示例性的，终端设备200与服务器100可以通过发送和接收信息，以及接收软件程序更新。

服务器100可以是提供各种服务的服务器，例如对终端设备200采集的音频数据提供支持的后台服务器。后台服务器可以对接收到的音频等数据进行分析等处理，并将处理结果(例如端点信息)反馈给终端设备。服务器100可以是一个服务器集群，也可以是多个服务器集群，可以包括一类或多类服务器。

终端设备200可以是硬件，也可以是软件。当终端设备200为硬件时，可以是具有声音采集功能的各种电子设备，包括但不限于智能音箱、智能手机、电视、平板电脑、电子书阅读器、智能手表、播放器、计算机、AI设备、机器人、智能车辆等等。当终端设备200为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供声音采集服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的语音交互方法可以通过服务器100执行，也可以通过终端设备200执行，还可以通过服务器100和终端设备200共同执行，本申请对此不做限定。

图2示出了根据示例性实施例中终端设备200的硬件配置框图。如图2所示终端设备200包括通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。

显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。

显示器260可为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块及有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。终端设备200可以通过通信器220服务器100建立控制信号和数据信号的发送和接收。

用户接口280，可用于接收外部的控制信号。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

声音采集器可以是麦克风，也称“话筒”，“传声器”，可以用于接收用户的声音，将声音信号转换为电信号。终端设备200可以设置至少一个麦克风。在另一些实施例中，终端设备200可以设置两个麦克风，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端设备200还可以设置三个，四个或更多麦克风，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

此外，麦克风可以是内置在终端设备200上，或者麦克风通过有线或者无线的方式与终端设备200相连接。当然，本申请实施例对麦克风在终端设备200上的位置不作限定。或者，终端设备200可以不包括麦克风，即上述麦克风并未设置于终端设备200中。终端设备200可以通过接口(如USB接口130)外接麦克风(也可以称为话筒)。该外接的话筒可以通过外部固定件(如带夹子的摄像头支架)固定在终端设备200上。

控制器250，通过存储在存储器上中各种软件控制程序，来控制终端设备的工作和响应用户的操作。控制器250控制终端设备200的整体操作。

示例性的，控制器包括中央处理器(Central Processing Unit，CPU)，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM(Random Access Memory，RAM)，ROM(Read-Only Memory，ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

在一些实施例中，终端设备的操作系统为Android系统为例，如图3所示，终端设备200从逻辑上可以分为应用程序(Applications)层(简称“应用层”)21，内核层22和硬件层23。

其中，如图3所示，硬件层可包括图2所示的控制器250、通信器220、检测器230等。应用层21包括一个或多个应用。应用可以为系统应用，也可以为第三方应用。如，应用层21包括语音识别应用，语音识别应用可以提供语音交互界面和服务，用于实现终端设备200与服务器100的连接。

内核层22作为硬件层和应用层21之间的软件中间件，用于管理和控制硬件与软件资源。

在一些实施例中，内核层22包括检测器驱动，检测器驱动用于将检测器230采集的语音数据发送至语音识别应用。示例性的，终端设备200中的语音识别应用启动，终端设备200与服务器100建立了通信连接的情况下，检测器驱动用于将检测器230采集的用户输入的语音数据发送至语音识别应用。之后，语音识别应用将包含该语音数据的查询信息发送至服务器中的意图识别模块102。意图识别模块102用于将终端设备200发送的语音数据输入至语言模型。

在一些实施例中，参见图4，图4为本申请实施例提供的一种语音交互网络架构示意图。图4中，终端设备用于接收输入的信息以及输出对该信息的处理结果。语音识别模块部署有语音识别服务，用于将音频识别为文本；语义理解模块部署有语义理解服务，用于对文本进行语义解析；业务管理模块部署有业务指令管理服务，用于提供业务指令；语言生成模块部署有语言生成服务(NLG)，用于将指示终端设备执行的指令转化为文本语言；语音合成模块部署有语音合成(TTS)服务，用于将指令对应的文本语言处理后发送至扬声器进行播报。在一些实施例中，图4所示架构中可存在部署有不同业务服务的多个实体服务设备，也可以一个或多个实体服务设备中集合一项或多项功能服务。

在一些实施例中，下面对基于图4所示架构处理输入终端设备的信息的过程进行举例描述，以输入终端设备的信息为通过语音输入的查询语句为例：

[语音识别]

终端设备可在接收到通过语音输入的查询语句后，终端设备可对查询语句的音频进行降噪处理和特征提取，这里的去噪处理可包括去除回声和环境噪声等步骤。

[语义理解]

利用声学模型和语言模型，对识别出的候选文本和相关联的上下文信息进行自然语言理解，将文本解析为结构化的、机器可读的信息，业务领域、意图、词槽等信息以表达语义等。得到可执行意图确定意图置信度得分，语义理解模块基于所确定的意图置信度得分选择一个或者多个候选可执行意图，

[业务管理]

语义理解模块根据对查询语句的文本的语义解析结果，向相应的业务管理模块下发查询指令以获取业务服务给出的查询结果，以及执行“完成”用户最终请求所需的动作，并将查询结果对应的设备执行指令进行反馈。

[语言生成]

自然语言生成(NLG)被配置为将信息或者指令生成语言文本。具体可分为闲聊型、任务型、知识问答型和推荐型。其中，闲聊型对话中的NLG就是根据上下文进行意图识别、情感分析等，然后生成开放性回复；任务型对话中需根据学习到的策略来生成对话回复，一般回复包括澄清需求、引导用户、询问、确认、对话结束语等；知识问答型对话中根据问句类型识别与分类、信息检索或文本匹配而生成用户需要的知识(知识、实体、片段等)；推荐型对话系统中根据用户的爱好来进行兴趣匹配以及候选推荐内容排序，然后生成给用户推荐的内容。

[语音合成]

语音合被配置为呈现给用户的语音输出。语音合成处理模块基于数字助理提供的文本来合成语音输出。例如，所生成的对话响应是文本串的形式。语音合成模块将文本串转换成可听语音输出。

需要说明的是，图4所示架构只是一种示例，并非对本申请保护范围的限定。本申请实施例中，也可采用其他架构来实现类似功能，例如：上述过程全部或部分可以由智能终端来完成，在此不做赘述。

图4所示的语音交互技术采用的就是意图识别和槽位填充技术，通过深度学习技术识别用户查询(query)的意图和关键槽位信息，然后进行意图匹配，根据意图匹配结果和槽位信息调取相应的业务服务接口，最后利用相关业务数据对用户进行回复。但是受限于意图识别和槽位抽取的准确率以及用户多意图的query，会出现业务误入和漏入的情况。因此，需要通过预先定制多种多样的规则匹配条件来满足用户真实需求，这样大大增加人机交互系统的维护成本和复杂度。

为了解决以上技术问题，本申请实施例提供一种服务器100，如图5所示，服务器100执行以下步骤：

步骤S501：接收终端设备200发送的用户输入的语音数据；

终端设备200接收用户输入的语音数据，包括：

接收用户输入启动语音交互功能的指令；

响应于启动语音交互功能的指令，驱动声音采集器启动，以使声音采集器开始采集用户输入的语音数据。

在一些实施例中，在终端设备200的显示器260显示包含语音交互应用控件的用户界面时，接收用户输入选中语音交互应用控件的指令。其中，语音交互应用包括闲聊模式，即用户与终端设备200聊天，可显示用户与终端设备200的对话框，响应于选中语音交互应用控件的指令，控制显示器260显示对话框，以及驱动声音采集器启动，通过声音采集器采集用户输入的语音数据。

在一些实施例中，实时接收声音采集器采集的环境语音数据；

检测环境语音数据是否小于预设音量或者检测环境语音数据声音信号时程是否小于预设阈值；

如果检测到环境语音数据大于或等于预设音量或者检测到环境语音数据声音信号时程大于或等于预设阈值时，判断环境语音数据是否包括语音唤醒词；其中，语音唤醒词是指定词语，用于启动语音交互功能，即通过声音采集器采集语音数据并发送至服务器100等。语音唤醒词可出厂默认设置，也可由用户自定义。终端设备200可以安装不同语音助手应用程序，通过对不同语音助手设定不同唤醒词，可根据唤醒词唤醒不同的语音助手。

如果环境语音数据包括语音唤醒词，则终端设备200控制音频输出接口270播放提示音并控制声音采集器开始采集用户输入的语音数据，其中，提示音用于提示用户当前可以输入语音指令。例如：当检测到环境语音数据中包括语音唤醒词后，可播报“在呢”的提示音。

在一些实施例中，如果终端设备200包括显示器260，则控制显示器260在当前用户界面上浮层显示语音接收框，以提示用户当前处于收音状态。

当前用户界面上浮层显示语音接收框时，控制声音采集器开始采集用户输入的语音数据。如果长时间未接收到语音数据，可关闭语音交互程序并取消显示语音接收框。

如果环境语音数据不包括语音唤醒词，则不执行显示语音接收框及启动声音采集器的相关操作。

在一些实施例中，终端设备200本体设置有语音键，在用户开始按压终端设备200的语音键后启动声音采集器，使其开始采集语音数据，在用户停止按压终端设备200的语音键后关闭声音采集器，使其结束采集语音数据。

在一些实施例中，终端设备200为智能电视，可通过控制装置，如遥控器接收语音数据。在用户开始按压控制装置的语音键后开始采集语音数据，在用户停止按压控制装置的语音键后结束采集语音数据。在语音数据采集过程中控制装置将语音数据以流式数据形式发送至终端设备200。

在一些实施例中，终端设备200接收用户输入的语音数据本质为流式音频数据。终端设备200在接收到语音数据后，将语音数据发送至声音处理模块，通过声音处理模块对其进行声学处理。声学处理包括声源定位、去噪及音质增强等。声源定位用于在多人说话的情况下增强或保留目标说话人的信号，抑制其他说话人的信号，对说话人进行跟踪和后续的语音定向拾取。去噪用于去除语音数据中的环境噪声等。音质增强用于在说话人声音强度较低时增加其声音强度。声学处理的目的在于获取语音数据中目标说话人比较干净清晰的声音。将声学处理后语音数据发送至服务器100。

在一些实施例中，终端设备200在接收到用户输入的语音数据后，直接发送至服务器100，由服务器100对语音数据进行声学处理，并将声学处理后的语音数据发送至语义服务。语义服务对接收到的语音数据进行语音识别等处理后，将处理后的语音数据发送至终端设备200。

步骤S502：识别语音数据，以获取输入文本；

服务器100的语义服务在接收到语音数据后利用语音识别技术识别语音数据对应的文本，即输入文本。

在一些实施例中，接收终端设备200发送的用户输入的文本数据，即输入文本。

步骤S503：将输入文本填入提示模板，以生成输入指令，其中，提示模板用于指示对所述输入文本进行解析及回复；

如果用户输入终端设备200的数据是语音数据，则在语音识别后得到输入文本，将输入文本填入提示模板中。如果用户输入终端设备200的数据是文本数据，则直接将终端设备200发送的输入文本填入提示模板中。

提示模板为Prompt提示模板。Prompt提示模板为预先指定的输入语言模型中的文本格式，语言模型在进行微调或者预测之前，输入数据都需要经过Prompt提示模板生成Prompt输入指令，再将Prompt输入指令输入到语言模型中进行微调训练或者预测。

Prompt提示模板包括指示内容和第一槽位。其中，指示内容用于指示对槽位的内容进行解析及回复。示例性的，Prompt提示模板为：“请对用户输入进行解析及回复，用户输入{}”。

步骤S504：将输入指令输入语言模型中，得到输出数据，其中，输出数据包括回复文本及至少一个追问推荐文本；

其中，语言模型采用大规模预训练语言模型结构。模型结构为GPT-3(GenerativePre-Trained Transformer，生成式预训练Transformer模型)的单向Transformer模型。GPT是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型。本申请实施例中GPT-3模型层数为96层，注意力层的头数目为96个，词向量的长度是12888，最大的上下文大小为2048个token(标记)。

基于微调训练数据集对语言模型进行有监督的微调训练。

在一些实施例中，微调训练数据集由单轮对话构成。训练集中的模型输出为json格式，包含生成回复及追问推荐两个字段。其中，生成回复是模型对用户输入的回复文本，追问推荐是模型基于用户输入文本生成用户可能想知道的问题文本。

其中，输出数据以JSON(JavaScript Object Notation，JS对象简谱)格式输出。JSON是一种轻量级的数据交换格式，是基于ECMAScript(European ComputerManufacturers Association,欧洲计算机协会制定的JS规范)的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得JSON成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率。

对象在JS中是使用花括号包裹{}起来的内容，数据结构为{key1：value1,key2：value2,...}的键值对结构。在面向对象的语言中，key为对象的属性，value为对应的值。键名可以使用整数和字符串来表示。值的类型可以是任意类型。JSON格式的数据便于提取信息。

步骤S505：基于回复文本及追问推荐文本生成回复语音及追问推荐语音；

利用语音合成技术根据回复文本合成回复语音，根据追问推荐文本合成追问推荐语音。

在一些实施例中，根据回复文本、追问推荐文本及默认音色参数合成带有预置音色的回复语音及追问推荐语音。

在一些实施例中，根据回复文本、追问推荐文本及目标音色参数合成带有目标音色的回复语音及追问推荐语音。其中，目标音色参数可为用户选择的语音播报音色参数，目标音色参数也可为通过采集用户录制读取多个目标文本的音频数据生成的音色参数。

步骤S506：将回复语音及追问推荐语音发送至终端设备200，以使终端设备200播放回复语音及追问推荐语音。

其中，回复语音和追问推荐语音可以一同发送至终端设备200，也可以先将回复语音发送至终端设备200，后将追问推荐语音发送至终端设备200。终端设备200先播放回复语音，后播放追问推荐语音。

在一些实施例中，服务器100将回复文本及追问推荐文本发送至终端设备200，以使终端设备200显示回复文本及追问推荐文本。

在一些实施例中，服务器100将输入文本发送至终端设备200，以使终端设备200显示输入文本。

参见图6，图6为本申请实施例提供的一种语音交互网络架构示意图。图6中，终端设备用于接收输入的信息以及输出对该信息的处理结果。语音识别模块部署有语音识别服务，用于将音频识别为输入文本。语言模型用于对输入文本进行解析和回复，输出回复文本和追问推荐文本。语音合成模块部署有语音合成服务，用于将回复文本和追问推荐文本处理后发送至音频输出接口270进行播报。

在一些实施例中，语音交互时序图如图7所示。终端设备200接收用户输入的语音数据并将语音数据发送至服务器100。服务器100在接收到语音数据后识别语音数据，得到输入文本。将输入文本填入提示模板，生成输入指令。将输入指令输入语言模型，得到回复文本及追问推荐文本。将回复文本及追问推荐文本合成回复语音及追问推荐语音后，将回复语音及追问推荐语音发送至终端设备200。终端设备200播放回复语音及追问推荐语音。

示例性的，终端设备200接收到用户输入的语音数据，终端设备200将语音数据发送至服务器100。服务器100识别语音数据，得到“XX的电影都有哪些”的输入文本。将输入文本填入提示模板中，得到输入指令。将输入指令输入至语言模型中，得到输出数据为：

{“回复文本”：“XX是一位非常著名的演员，他的电影作品非常多。以下是他的一些知名电影：1.《AAAA》(1988)：XX的早期作品，这部电影展现了XX的演技和他在电影中的影响力。2.《BBBB》(2000)：这部电影是XX的代表作之一，它获得了最佳男配角奖，并且让XX赢得了他的第一个影帝。3.《CCCC》(2017)：这是一部XXX主演的动作片，他在电影中扮演了一位拆弹专家，这部电影取得了不错的票房和口碑。请问你想观看那一部电影呢？”，

“追问推荐文本”：“1.XX是如何在音乐和演艺领域中取得如此巨大成就的？2.XX参与的电影作品对当代电影产生了哪些影响？3.XX在华人演艺圈中的地位如何？”}。

服务器100将回复文本和追问推荐文本合成回复语音和追问推荐语音。将回复语音和追问推荐语音发送至终端设备200播放，以及将回复文本和追问推荐文本发送至终端设备200显示，如图8所示。

在部分情况下模型不能根据自己的内部知识回复用户的问题，此时就需要调用插件来获取外部信息，来更好的回复用户。

在一些实施例中，输出数据还包括意图识别结果、关键词及外部插件依赖结果。

语言模型解析用户输入，判别是否要进行外部插件调用。如果需要则“外部插件依赖”字段输出需要调用的插件名称，抽取“意图识别”和“关键词”信息调用该插件来更便捷快速的获取外部信息。如果不需要则“外部插件依赖”字段输出None，表示跳过插件调用过程。

在将所述输入指令输入语言模型中，得到输出数据之后，如图9所示，服务器100执行以下步骤：

需要说明的是，基于微调训练数据集对语言模型进行训练。微调训练数据集由单轮对话构成。训练集中的模型输出为JSON格式，包含意图识别、关键词、生成回复、外部插件依赖、追问推荐这五个字段。其中，意图识别字段对应的数据是模型对用户输入的意图识别结果，关键词是模型从用户输入文本中抽取的关键词，生成回复是模型对用户输入的回复文本，外部插件依赖是模型判别回复用户需要利用哪种插件来获取相关信息，追问推荐是模型基于用户输入文本生成用户可能想知道的问题文本。

步骤S901：判断外部插件依赖结果是否为空；

判断外部插件依赖结果是否为空的步骤，包括：

判断外部插件依赖结果字段对应的数据是否为空，即是否为None；

如果外部插件依赖结果字段对应的数据为空(None)，外部插件依赖结果为空；

如果外部插件依赖结果字段对应的数据不为空(None)，外部插件依赖结果不为空。

需要说明的是，判断外部插件依赖结果是否为空的步骤可在基于回复文本及追问推荐文本生成回复语音及追问推荐语音的步骤之后，也可以与基于回复文本及追问推荐文本生成回复语音及追问推荐语音的步骤同时进行。但是终端设备200先播放回复语音及追问推荐语音。

如果外部插件依赖结果不为空，执行步骤S902：将意图识别结果和关键词发送至外部插件依赖结果对应的插件；

其中，插件本质是指应用程序，例如提供天气、影视、音乐等相关信息的应用程序，或该应用程序对应的服务器。

步骤S903：接收插件基于意图识别结果和关键词回复的外部信息；

插件在接收到意图识别结果和关键词后，确定意图识别结果和关键词对应的外部信息，将外部信息发送至服务器100。

步骤S904：基于外部信息生成外部信息语音；

在一些实施例中，如果外部信息为文本数据，则可直接将文本数据合成对应的语音数据，将基于外部信息合成外部信息语音。示例性的，外部信息为天气预报文本“武汉气温23～31℃，晴，无持续风向<3级，空气质量优，空气质量指数45”。则可直接将天气预报文本转换为外部信息语音。

在一些实施例中，如果外部信息为非文本数据，则对非文本数据进行处理，得到与非文本数据相关的外部信息文本，将外部信息文本合成对应的外部信息语音。示例性的，外部信息为21首歌手XX的歌曲，生成外部信息文本“为你找到歌手XX的21首歌曲，请您开始欣赏AA歌曲”，将外部信息文本转换为外部信息语音。

步骤S905：将外部信息语音发送至终端设备200，以使终端设备200播放外部信息语音。

在一些实施例中，将外部信息语音及追问推荐语音发送终端设备200，以使终端设备200播放外部信息语音及追问推荐语音。

在一些实施例中，如果外部插件依赖结果不为空，可先只将回复语音发送至终端设备200播放，在获取到外部信息语音后，再将外部信息语音及追问推荐语音发送至终端设备200播放，可只播放一次追问推荐语音，提升用户体验。

在一些实施例中，在检测到外部插件依赖结果不为空时，自动增加一轮对话，该轮对话无需输入语言模型，而是由插件的外部信息文本替换原对话中的回复文本，外部插件依赖结果设置为空，其他数据直接采用上一轮对话数据。

示例性的，终端设备200接收到用户输入的语音数据，终端设备200将语音数据发送至服务器100。服务器100识别语音数据，得到“明天武汉天气怎么样”的输入文本。将输入文本填入提示模板中，得到输入指令。将输入指令输入至语言模型中，得到输出数据的过程如下：

Round 0：

用户输入：“明天武汉的天气怎么样”，

输出数据：{“意图识别”：“天气查询”，

“关键词”：“明天，武汉，天气”，

“生成回复”：“请稍等正在为你查询天气信息”，

“外部插件依赖”：“天气预报”，

“追问推荐”：“1.武汉有哪些好玩的景点？2.武汉当地著名的美食都哪些？3.武汉明天适合穿什么衣服？”}

Round 1：

用户输入：None(或“明天武汉的天气怎么样”)，

输出数据：{“意图识别”：“天气查询”，

“关键词”：“明天，武汉，天气”，

“生成回复”：“已为您查询到明天2023年9月4日的武汉气温23～31℃，晴，无持续风向<3级，空气质量优，空气质量指数45。”，

“外部插件依赖”：None，

服务器100将Round 0的生成回复的文本和追问推荐的文本合成回复语音和追问推荐语音并发送至终端设备200播放，以及将Round 0生成回复的文本和追问推荐的文本发送至终端设备200显示，其中，追问推荐语音和追问推荐的文本本轮可以不发送。服务器100再将Round 1的生成回复的文本和追问推荐的文本合成回复语音和追问推荐语音并发送至终端设备200播放，以及将Round 1生成回复的文本和追问推荐的文本发送至终端设备200显示。

本申请实施例可以在等待插件反馈外部信息的时间告知用户当前未播报语音数据的原因，防止用户误以为终端设备200未识别用户语音或卡顿，增加语音交互体验的流畅感。

在一些实施例中，输出数据还包括意图识别结果、关键词及外部插件依赖结果，如图10所示，基于回复文本及追问推荐文本生成回复语音及追问推荐语音的步骤，包括：

步骤S1001：判断外部插件依赖结果是否为空；

如果所述外部插件依赖结果不为空，执行步骤S902：将意图识别结果和关键词发送至外部插件依赖结果对应的插件；

步骤S1003：接收插件基于意图识别结果和关键词回复的外部信息；

步骤S1004：基于外部信息生成外部信息文本，并将回复文本替换为外部信息文本；

在一些实施例中，在将回复文本替换为外部信息文本时，将外部插件依赖结果修改为空。

步骤S1005：基于回复文本及追问推荐文本生成回复语音及追问推荐语音。

需要说明的是，此时回复文本为外部信息文本。

Round 0：

用户输入：“明天武汉的天气怎么样”，

输出数据：{“意图识别”：“天气查询”，

“关键词”：“明天，武汉，天气”，

“生成回复”：“请稍等正在为你查询天气信息”，

“外部插件依赖”：“天气预报”，

将意图识别结果和关键词发送至外部插件依赖结果对应的插件，得到插件发送的外部信息后，输出数据替换为：

Round 0：

用户输入：“明天武汉的天气怎么样”，

输出数据：{“意图识别”：“天气查询”，

“关键词”：“明天，武汉，天气”，

“外部插件依赖”：None，

服务器100将替换后Round 0的生成回复的文本和追问推荐的文本合成回复语音和追问推荐语音并发送至终端设备200播放，以及将Round 0生成回复的文本和追问推荐的文本发送至终端设备200显示。

本申请实施例可减少无关信息的播放，直接输出用户需要的回复语音及追问推荐语音。

在一些实施例中，提示模板还包括第二槽位，其中，第二槽位用于填充历史对话文本。

历史对话文本是指在本次输入文本之前产生的对话文本。对话文本包括输入文本及针对输入文本回复的回复文本、追问推荐文本、意图识别结果、关键词及外部插件依赖结果。

Prompt提示模板包括指示内容、第一槽位和第二槽位。其中，指示内容用于指示对槽位的内容进行解析及回复。

示例性的，Prompt提示模板为：“请对用户输入进行解析，并结合历史交互信息进行回复，用户输入{}，历史对话{}”。

在一些实施例中，提示模板还包括第三槽位，其中，第三槽位用于填充插件发送的外部信息。

Prompt提示模板包括指示内容、第一槽位、第二槽位和第三槽位。其中，指示内容用于指示对槽位的内容进行解析及回复。

示例性的，Prompt提示模板为：“请对用户输入进行解析，并结合历史交互信息进行回复，用户输入{}，历史对话{}，插件发送的外部信息{}”。

Prompt提示模板的输入有三个槽位，分别是用户输入、历史对话、插件获取的外部信息，在输入时允许三个槽位输入为空，输入为空时模型接收到该槽位为None。

基于微调训练数据集对语言模型进行训练。微调训练数据集由单轮对话和多轮对话构成。

示例性的，多轮对话如下：

Round 0：

用户输入：“明天武汉的天气怎么样”，

输出数据：{“意图识别”：“天气查询”，

“关键词”：“明天，武汉，天气”，

“生成回复”：“请稍等正在为你查询天气信息”，

“外部插件依赖”：“天气预报”，

Round 1：

用户输入：None，

输出数据：{“意图识别”：“天气查询”，

“关键词”：“明天，武汉，天气”，

“外部插件依赖”：None，

Round 2：

用户输入：“明天适合穿什么衣服”，

输出数据：{“意图识别”：“穿衣指数查询”，

“关键词”：“明天，穿什么，衣服”，

“生成回复”：“根据天气预报，建议穿轻薄透气的衣服，如短袖T恤、短裙、短裤等，以保持凉爽。如果需要外出，可以搭配一件薄外套，如薄款棉衣或薄款夹克，以应对温差变化。”，

“外部插件依赖”：None，

“追问推荐”：“1.武汉秋季天气变化与以往相比有何不同？2.秋天的穿衣如何搭配？3.武汉未来几天的天气变化如何？”}

在获取输入文本并将输入文本填充至第一槽位后，判断是否存在输入文本对应的历史对话文本；

如果存在输入文本对应的历史对话文本，则获取历史对话文本，并将历史对话文本填充至第二槽位；

如果不存在输入文本对应的历史对话文本，则将第二槽位设置为空，即None；

判断历史对话文本中是否包括插件发送的外部信息；

如果历史对话文本中包括插件发送的外部信息，则获取插件发送的外部信息并将插件发送的外部信息填充至第三槽位；

如果历史对话文本中不包括插件发送的外部信息，则将第三槽位设置为空，即None。

在一些实施例中，在接收到用户输入启动语音交互功能后，终端设备200显示对话框，在有对话产生后，将对话框中的对话文本存储至预设位置。在关闭对话框后，清空预设位置存储的对话文本。

判断是否存在输入文本对应的历史对话文本的步骤，包括：

判断对话框对应预设位置存储的数据是否为空；

如果对话框对应预设位置存储的数据为空，则确定不存在输入文本对应的历史对话文本；

如果对话框对应预设位置存储的数据不为空，则确定存在输入文本对应的历史对话文本。

用户可开启同时开启多个对话框，每个对话框可设置对话标识，通过对比标识确定本次对话框对应的存储位置。

在一些实施例中，将对话文本设置主题标识，主题标识用于表示对话文本的主题信息。例如，对话文本涉及天气查询，则主题标识为天气。对话文本及主题标识存储至预设位置。判断是否存在输入文本对应的历史对话文本的步骤，包括：

确定输入文本对应的主题标识；

判断预设位置存储的数据中是否包括与主题标识相同的对话文本；

如果预设位置存储的数据中包括与主题标识相同的对话文本，则确定存在输入文本对应的历史对话文本；

如果预设位置存储的数据中不包括与主题标识相同的对话文本，则确定不存在输入文本对应的历史对话文本。

其中，每隔预设时间对该预设位置存储的数据进行清空，例如：每天凌晨00:00清空数据。

在一些实施例中，对话文本及接收输入文本的时间存储至预设位置。判断是否存在输入文本对应的历史对话文本的步骤，包括：

获取本次输入文本的第一接收时间及预置位置存储数据中输入文本对应的第二接收时间；

依次判断第一接收时间与第二接收时间的时间差值是否小于预设值；

如果第一接收时间与第二接收时间的时间差值小于预设值，则第二接收时间对应的对话文本为本次输入文本对应的历史对话文本，即存在输入文本对应的历史对话文本；

在一些实施例中，在确定本次输入文本对应的全部历史对话文本后，判断本次输入文本对应的历史对话文本的数量是否小于预设数量；

如果本次输入文本对应的历史对话文本的数量不小于预设数量，则获取与本次输入文本的第一接收时间最接近的前预设数量的对话文本；

如果本次输入文本对应的历史对话文本的数量小于预设数量，则可直接将确定后的历史对话文本填入第二槽位。

如果第一接收时间与第二接收时间的时间差值均不小于预设值，则确定不存在输入文本对应的历史对话文本。

本申请实施例可通过输入文本的接收时间和符合时间筛选条件的数量限制历史对话文本的数量，排除用户输入时间较早且与本次输入文本间隔较多轮次的历史对话文本，在保证历史对话文本关联性的基础上，减少模型对于历史对话文本的计算量，提高信息解析效率。

判断预设位置存储的数据中是否包括对话文本；

如果预设位置存储的数据中包括对话文本，则确定存在输入文本对应的历史对话文本；

如果预设位置存储的数据中不包括对话文本，则确定不存在输入文本对应的历史对话文本。

其中，当对话文本存储数量超过阈值，则移除全部或接收时间较早的部分对话文本。

在一些实施例中，判断历史对话文本中是否包括插件发送的外部信息的步骤，包括：

判断历史对话文本中外部插件依赖结果是否为空；

如果历史对话文本中外部插件依赖结果为空，则确定历史对话文本中不包括插件发送的外部信息；

如果历史对话文本中外部插件依赖结果不为空，则确定历史对话文本中包括插件发送的外部信息，将插件发送的外部信息填充至第三槽位。

在一些实施例中，终端设备200接收用户输入的语音数据，识别语音数据，以获取输入文本；将输入文本填入提示模板，以生成输入指令，将输入指令输入语言模型中，得到输出数据，基于回复文本及追问推荐文本生成回复语音及追问推荐语音，控制音频输出接口270播放回复语音及追问推荐语音

本申请实施例在获取用户的输入文本后，将调用微调后的大规模语言模型对输入文本进行解析和回复，模型以JSON格式输出的字段包括：意图识别、关键词、生成回复、外部插件依赖、追问推荐，将根据意图识别、关键词、外部插件依赖进行插件调用获取外部信息，同时本系统还支持多轮对话，可以在下一轮的对话中输入历史对话和插件执行结果。

本申请的一些实施例提供一种语音交互方法，所述方法适用于服务器100，服务器100被配置为：接收终端设备发送的用户输入的语音数据；识别语音数据，以获取输入文本；将输入文本填入提示模板，以生成输入指令，提示模板用于指示对输入文本进行解析及回复；将输入指令输入语言模型中，得到输出数据，输出数据包括回复文本及至少一个追问推荐文本；基于回复文本及追问推荐文本生成回复语音及追问推荐语音；将回复语音及追问推荐语音发送至终端设备200，以使终端设备200播放回复语音及追问推荐语音。本申请实施例在获取用户的输入文本后，调用语言模型对输入文本进行解析和回复，得到回复文本和追问推荐文本，并生成其对应的语音，避免复杂的业务逻辑，减少繁琐的规则匹配代码编写，节省人力成本，降低工作量，提高用户信息解析的效率。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种服务器，其特征在于，被配置为：

接收终端设备发送的用户输入的语音数据；

识别所述语音数据，以获取输入文本；

2.根据权利要求1所述的服务器，其特征在于，被配置为：

3.根据权利要求1所述的服务器，其特征在于，所述输出数据还包括意图识别结果、关键词及外部插件依赖结果，在将所述输入指令输入语言模型中，得到输出数据之后，所述服务器，被配置为：

基于所述外部信息生成外部信息语音；

4.根据权利要求1所述的服务器，其特征在于，所述输出数据还包括意图识别结果、关键词及外部插件依赖结果，所述服务器执行基于所述回复文本及所述追问推荐文本生成回复语音及追问推荐语音，被进一步配置为：

基于所述外部信息生成外部信息文本，并将所述回复文本替换为外部信息文本；

基于所述回复文本及所述追问推荐文本生成回复语音及追问推荐语音。

5.根据权利要求1所述的服务器，其特征在于，所述提示模板包括指示内容和第一槽位，所述指示内容用于指示对槽位的内容进行解析及回复，所述第一槽位用于填充所述输入文本。

6.根据权利要求5所述的服务器，其特征在于，所述提示模板还包括第二槽位，所述第二槽位用于填充历史对话文本，所述服务器执行将输入文本填入提示模板，以生成输入指令，被进一步配置为：

获取历史对话文本；

7.根据权利要求6所述的服务器，其特征在于，所述提示模板还包括第三槽位，所述第三槽位用于填充插件发送的外部信息，所述服务器执行将输入文本填入提示模板，以生成输入指令，被进一步配置为：

获取插件发送的外部信息；

8.一种终端设备，其特征在于，包括：

声音采集器，被配置为采集用户输入的语音数据；

通信器，被配置为与服务器进行数据通信；

音频输出接口，被配置为播放语音；

控制器，被配置为：

获取用户输入的语音数据；

将所述语音数据发送至服务器；

9.一种语音交互方法，应用于服务器，其特征在于，包括：

接收终端设备发送的用户输入的语音数据；

识别所述语音数据，以获取输入文本；

10.一种语音交互方法，应用于终端设备，其特征在于，包括：

获取声音采集器采集的用户输入的语音数据；

将所述语音数据发送至服务器；

控制音频输出接口播放所述回复语音及所述追问推荐语音。