CN114464180A

CN114464180A - 一种智能设备及智能语音交互方法

Info

Publication number: CN114464180A
Application number: CN202210156772.9A
Authority: CN
Inventors: 连欢; 朱守勤
Original assignee: Hisense Electronic Technology Wuhan Co ltd
Current assignee: Hisense Electronic Technology Wuhan Co ltd
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-05-10

Abstract

本申请提供一种智能设备及智能语音交互方法，所述方法可以在用户输入语音控制音频后，根据语音控制音频生成反馈语句，并按照设定的情感评分机制，计算反馈语句的情感评分，从而根据情感评分确定目标情感类型，最后按照目标情感类型播放反馈语句，形成语音播报。所述方法能够通过反馈语句对场景分类、反馈语句内容以及图像识别结果等多模态信息的分类得分进行加权求和计算，获得情感得分，并最终确定目标情感类型，从而使智能设备能够以更加合理的情感类型播放语音播报音频，缓解语音播报效果差的问题。

Description

一种智能设备及智能语音交互方法

技术领域

本申请涉及智能语音控制技术领域，尤其涉及一种智能设备及智能语音交互方法。

背景技术

智能语音控制是一种新型的交互方式，可通过对用户输入的语音信息进行语义识别，再根据语义识别结果生成控制指令，从而控制设备运行。为了实现基于智能语音控制的交互过程，智能设备中可以内置智能语音系统。智能语音系统可以由硬件部分和软件部分组成。其中，硬件部分主要包括麦克风、扬声器以及控制器，用于接收、反馈和处理语音信息；软件部分主要包括语音转换模块、自然语言处理模块以及控制模块，用于将输入的声音信号转化为文字信号，并形成具体的控制指令进行控制。

智能语音控制系统可以通过语音播报的方式反馈语音控制结果。例如，当用户输入语音“我想看××的电影”后，智能语音系统会触发媒资查找或推荐功能，使智能设备呈现媒资推荐界面，同时播放语音“已为您找到××的电影”。由于语音播报的内容是由智能语音系统将多个预先录制或生成的语音片段组合而成，因此在播放语音播报内容时，会出现不符合常规语言规范的播放效果，例如，不正确的断句，错误的情感等，降低用户的交互体验。

为了提升用户的交互体验，智能语音系统可以通过录制多种情感表达形式的语音片段，并在不同的控制过程中播放相适应的语音片段，从而对语音播报过程赋予相应的情感。例如，使用播音情感播放新闻类别的语音内容；使用朗读情感播放文学作品类别的语音内容。但是这种语音播报方式适配的应用场景较少，即只能针对带有明确场景标签的文本实现语音播报，不能应用在智能问答以及语音控制的过程中，降低了智能语音交互方法的语音播报效果。

发明内容

本申请提供了一种智能设备及智能语音交互方法，以解决传统语音控制方法语音播报效果差的问题。

一方面，本申请提供一种智能设备，包括：显示器、音频输入装置、音频输出装置以及控制器。其中，显示器被配置为显示用户界面；音频输入装置被配置为接收用户输入的语音控制音频；音频输出装置被配置为输出语音播报音频；所述控制器被配置为执行以下程序步骤：

获取用户输入的语音控制音频；

响应于所述语音控制音频，根据所述语音控制音频生成反馈语句；

计算所述反馈语句的情感评分，所述情感评分为所述反馈语句对应多模态信息分类得分的加权求和结果；所述多模态信息包括场景分类、反馈语句内容以及图像识别结果中的一种或多种的组合；

根据所述情感评分确定目标情感类型，以及按照所述目标情感类型播放所述反馈语句。

另一方面，本申请提供一种智能语音交互方法，应用于智能设备，所述智能语音交互方法包括以下步骤：

获取用户输入的语音控制音频；

由以上技术方案可知，本申请提供的智能设备及智能语音交互方法可以在用户输入语音控制音频后，根据语音控制音频生成反馈语句，并按照设定的情感评分机制，计算反馈语句的情感评分，从而根据情感评分确定目标情感类型，最后按照目标情感类型播放反馈语句，形成语音播报。所述方法能够通过反馈语句对场景分类、反馈语句内容以及图像识别结果等多模态信息的分类得分进行加权求和计算，获得情感得分，并最终确定目标情感类型，从而使智能设备能够以更加合理的情感类型播放语音播报音频，缓解语音播报效果差的问题。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中智能设备的使用场景图；

图2为本申请实施例中智能设备的硬件配置图；

图3为本申请实施例中智能设备音频输入/输出装置连接结构示意图；

图4为本申请实施例中合成语音播报音频的流程示意图；

图5为本申请实施例中根据场景分类生成语音播报音频数据流程图；

图6为本申请实施例中智能设备结构示意图；

图7为本申请实施例中智能语音交互流程示意图；

图8为本申请实施例中视觉问答过程生成反馈语句的流程示意图；

图9为本申请实施例中情感评分流程示意图；

图10为本申请实施例中TTS模型结构示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请实施方式中提供的智能设备可以是语音交互设备，包括但不限于：智能音箱、语音对话机器人、智能问答系统。智能设备也可以是集成智能语音交互功能的终端设备，如智能电视、移动终端、平板电脑、个人计算机等。在一些实施例中，智能设备还可以是通过运行本地应用或网络应用而具有语音交互功能的电子设备，如工作站、智能家居系统、智能网络系统等。

以智能电视等智能显示设备为例，智能设备200可以与控制装置100进行数据和控制指令的传递，用于实现人机交互。图1为根据实施例中智能设备与控制装置之间操作场景的示意图。如图1所示，用户可通过智能终端300或控制装置100操作智能设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和智能设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制智能设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制智能设备200。

在一些实施例中，也可以使用智能终端300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制智能设备200。例如，使用在智能设备上运行的应用程序控制智能设备200。

在一些实施例中，智能设备可以不使用上述的智能设备或控制设备接收指令，而是通过触摸或者手势等接收用户的控制。

在一些实施例中，智能设备200还可以采用除了控制装置100和智能终端300之外的方式进行控制，例如，可以通过智能设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过智能设备200设备外部设置的语音控制设备来接收用户的语音指令控制。

在一些实施例中，智能设备200还与服务器400进行数据通信。可允许智能设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向智能设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

如图2所示，为了实现语音交互功能，智能设备200可以包括以下硬件配置：调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口等。根据智能设备200的实际功能的不同，智能设备200可以包括以上全部硬件配置，也可以包括其中的部分硬件配置。例如，对于智能电视设备，可以包括以上全部硬件配置；而对于智能音箱设备，则可以不包括其中的调谐解调器210、外部装置接口240、显示器260以及用户接口等。

在一些实施例中，智能设备200中的通信器220是用于根据各种通信协议类型与外部设备或服务器400进行通信的组件。例如：通信器220可以包括WiFi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。智能设备200可以通过通信器220与外部控制设备100或服务器400建立控制信号和数据信号的发送和接收。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括麦克风等音频输入装置231，用于接收外部声音，并将声音信号转化为电信号形式的音频信号，以传输给其他模块进行处理，实现用户的语音输入。

对于包含显示器260的智能设备200，显示器260可以包括以下组件，即：用于呈现画面的显示屏组件；驱动图像显示的驱动组件；用于接收源自控制器250输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面的组件等。因此，显示器260可为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

控制器250，通过存储在存储器上中各种软件控制程序，来控制智能设备的工作和响应用户的操作。控制器250控制智能设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，控制器250包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Process ing Unit，GPU)，RAM RandomAccess Memory，RAM)，ROM(Read-Only Memory,ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

对于内置有外部装置接口240的智能设备200，外部装置接口240可以包括但不限于如下：高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

音频输出接口270用于输出音频信号，可以连接智能设备200内置的音频输出装置271或者外接在智能设备200上的音频输出装置271，从而将电信号形式的音频信号转化为声音形式的声音信号。

如图3所示，对于音频输入装置231和音频输出装置271。所述音频输入装置231和音频输出装置271可以内置或外接智能设备200。即在一些实施例中，音频输入装置231可以作为智能设备200的一种检测器230，如麦克风等声音检测器。而在另一些实施例中，音频输入装置231可以为独立设备，通过外部装置接口240连接智能设备200。

同理，在一些实施例中，音频输出装置271可以为内置在智能设备200中，并与音频输出接口270对接的扬声器。而在另一些实施例中，音频输出装置271为外接音频输出接口271或者外部装置接口240的音响或耳机等音频输出设备。

显然，对于外接智能设备200的音频输出装置271，可以按照具体接口方式的不同，采用不同的连接方式。例如，音频输出接口270为3.5mm音频接口时，音频输出装置271上设置有3.5mm音频插头，实现音频输出装置271与智能设备200的连接。又例如，智能设备200上的外部装置接口240为USB接口时，音频输出装置271也可以通过设置的USB插头连接外部装置接口240，以实现音频输出装置271与智能设备200的连接。

在一些实施例中，对于外接智能设备200的音频输入装置231和音频输出装置271，还可以通过无线通信的方式实现连接。例如，智能设备200的通信器220内置蓝牙连接模块，音频输入装置231和音频输出装置271也设有蓝牙连接模块，则音频输入装置231和音频输出装置271可以通过蓝牙连接模块实现与智能设备200的通信连接。

对于上述音频输入装置231和音频输出装置271，可以分别用于接收用户输入的语音控制音频和输出语音播报音频。而内置或外接音频输入装置231和音频输出装置271的智能设备200，可以支持用户的智能语音控制。即在智能语音控制的过程中，音频输入装置231可以接收用户输入的语音，并将语音对应的声音信号转化为电信号，形成语音控制音频信号。音频输入装置231再将生成的语音控制音频信号发送给控制器250。控制器250则根据智能语音系统对应的控制程序，对语音控制音频信号进行处理、转化、识别等操作，形成具体的控制指令。再通过执行该控制指令，实现语音控制效果。

在执行控制指令的同时，控制器250还可以将控制指令相对应的语音播报音频发送给音频输出装置271，并控制音频输出装置271播放语音播报音频。例如，对于包含显示器260的智能设备200，当用户通过音频输入装置231输入语音“我想看××的电影”时，音频输入装置231将该语音内容转化为语音控制音频信号发送给控制器250。控制器250通过执行智能语音系统对应的控制程序，根据“我想看××的电影”的语音内容最终转化成控制指令。控制指令对应的内容可以为显示索引词为“××”的媒资推荐界面。控制器250再通过执行该控制指令，从而控制显示器260显示媒资推荐界面，如图3所示。在显示媒资推荐界面的同时，为了实现语音交互效果，控制器250还可以获取与该控制指令相适应的语音播报音频，即“已为您找到××的电影”。从而通过音频输出装置271播放该语音播报音频。

需要说明的是，上述语音交互过程仅仅作为一种示例，在实际应用中，智能语音交互功能不仅应用于上述智能设备200，还可以应用于其他类型的智能设备中。例如，智能音箱、车载系统、虚拟现实设备、智能可穿戴设备等。为了便于描述后续实施方式中，仅以智能设备200作为示例进行方案表达，应当理解的是，后续实施方式中的具体执行智能语音交互的设备也可以是其他类型的智能设备。即能够应用智能语音交互功能的智能设备，均可以通过内置或外接的音频输入装置231接收用户输入的语音控制音频，并通过智能设备内置的控制器或处理器对语音控制音频进行处理，生成并执行控制指令。同时通过内置或外接的音频输出装置271，播放执行控制指令时需要输出的语音播报音频，完成智能语音控制。

在使用智能语音控制功能的过程中，对于包含显示器260的智能设备200，智能设备200可以通过语音播报音频和显示画面相结合的方式为用户呈现交互结果。其中，语音播报音频可以通过预先录制的音频片段拼接形成。例如，如图4所示，对于语音播报音频“已为您找到××的电影”，可以通过预先录制的三个音频片段拼接形成，即片段1：“已为您找到”、片段2：“××”、片段3：“的电影”。

但是，由于用于拼接语音播报音频的音频片段是独立录制的，因此受录制语音时录制人员的语气、语调、情感等因素的影响，音频拼接后所形成的语音播报音频会在语音片段的衔接处出现语句不流畅等问题。例如，在片段1“已为您找到”和片段2“××”，以及片段2“××”和片段3“的电影”对应的衔接位置出现停顿，使语音播报效果不流畅，降低用户体验。

为了适应这种拼接音频片段的语音播报方式，智能语音系统的运营商在录制音频片段时，一般只能采用没有情感的平和语气和语调。而语音交互旨在模仿用户的正常对话过程，无情感的语音播报方式不能适应多样的语言环境，影响用户使用语音交互功能的积极性。

为此，在一些实施例中，还可以在预先录制语音片段时，同时采用多种不同的语气或情感录制相同内容的语音片段。例如，对于内容为“已为您找到”的语音片段，可以在录制音频片段的过程中，分别采用平静、高兴以及难过的语气进行录制，从而获得内容相同但音频表现形式不同的三个语音片段。

当智能语音系统预先录制了不同语气或情感的音频片段时，智能设备200可以先根据使用时间、天气、用户设置等条件，确定相适应的情感类型，再从语音片段数据库中提取该情感类型下的语音片段拼接形成语音播报音频。例如，用户在执行语音交互时的天气为晴朗，则可以确定相适应的情感类型为高兴。因此在用户输入“我想看××的电影”的语音内容后，智能设备200可以通过在语音片段数据库中提取情感类型为“高兴”的片段1、片段2和片段3。

需要说明的是，由于不同语境下对于同一个控制指令的表达方式可能存在着不同，如语气词、感叹词、标点符号等内容的使用。因此在录制语音片段时，还可以针对相同的反馈文本录制不同内容的音频。例如，对于显示索引词为“××”的媒资推荐界面的控制指令，智能语音系统可以分别录制：平静语气下“已为您找到××的电影”；高兴语气下“我找到许多××的电影哦！”；难过语气下“××的电影如下”。

在一些实施例中，进行语音播报所采用的具体情感可以根据应用场景划分为不同的情感类型。每个情感类型可以和一个或多个应用场景之间建立映射关系。在进行语音播报过程中，智能设备200可以先确定当前的应用场景类型，再根据建立的映射关系确定适应当前应用场景的情感分类。例如，如图5所示，智能设备200可以在用户需要进行语音播报时，对当前显示界面内容、界面逻辑以及输入的语音交互内容进行检测，确定当前应用场景为新闻播报时，可以使用播音情感播放新闻类别的语音内容。而当智能设备200检测到当前的应用场景为文学作品阅读时，可以使用朗读情感播放文学作品类别的语音内容。

然而，这种语音播报方式适配的应用场景较少，即只能针对带有明确场景标签的文本实现语音播报，不能应用在智能问答以及语音控制的过程中，降低了智能语音交互方法的语音播报效果。并且，由于语调、语速等因素的影响，在预先录制语音片段的过程中，不同语音片段的语调、语速存在差异，因此在将同一情感下的语音片段组合在一起时，仍然不能获得流畅的语音表述效果，降低用户的交互体验。

为了进一步提高交互体验，在本申请部分实施例中提供一种智能语音交互方法，所述方法可以应用于智能设备200，实现更好的交互体验。显然，如图6所示，为了满足所述智能语音交互方法的应用，所述智能设备200应至少包括显示器260、音频输入装置231、音频输出装置271以及控制器250。其中，显示器260被配置为显示用户界面。音频输入装置231被配置为接收用户输入的语音控制音频，音频输出装置271被配置为输出语音播报音频。控制器250则被配置为执行所述智能语音交互方法对应的应用程序，实现与用户间的智能语音交互功能。具体的，如图7所示，所述智能语音交互方法包括以下内容：

获取用户输入的语音控制音频。用户在使用智能设备200的过程中，可以通过不同的方式输入语音控制音频。在一些实施例中，在控制装置100上可以设有语音功能按键，用户可以通过长按语音功能按键，开启智能设备200接收用户语音控制音频的功能。并在按压语音功能按键期间输入语音控制音频。

显然，在使用控制装置100上的语音功能按键触发输入语音控制音频的过程中，用户可以通过控制装置100上内置的麦克风完成音频输入。此时，控制装置100上的麦克风可以将用户的声音信号转化为音频电信号，再通过控制装置100和智能设备200之间的通信连接关系，将音频信号发送给智能设备200，以使智能设备200可以获取用户输入的语音控制音频。

用户也可以通过智能设备200内置或外接的音频输入装置231完成音频输入。即用户在按下控制装置100上的语音功能按键后，可以触发智能设备200开启语音交互功能，并通过内置或外接的音频输入装置231采集特定时间段内的音频数据。因此，用户在特定时间段内发出的声音将会作为语音控制音频输入智能设备200，即智能设备200获取用户输入的语音控制音频。

在一些实施例中，智能设备200可以支持远场语音输入，用户可以通过特定的唤醒词，触发智能设备200启动语音交互功能。其中，唤醒词可以是包含特定内容的语音片段。唤醒词的内容可以由智能语音系统运营商设定，例如：“嗨！小×”、“嘿！××”、“小×小×”等。唤醒词的内容也可以支持用户自定义，使用户可以根据自己的习惯，自定义唤醒内容。

当智能设备200检测到用户发出与唤醒词内容相同的语音时，可以触发智能设备200启动语音交互功能，并在启动语音交互功能的特定时间段内，采集用户的声音，从而获取用户输入的语音控制音频。根据用户输入习惯的不同，可以通过单次对话完成语音输入，也可以通过多次对话完成语音输入。例如，用户可以发出语音“嗨！小×，我想看××的电影”。此时，智能设备200可以根据语音中的“嗨！小×”触发语音交互功能，并将“我想看××的电影”作为实际语音交互内容，即用户输入的语音控制音频。

又例如，用户可以先发出语音“嗨！小×”，触发智能设备200启动语音交互功能。智能设备200可以对用户输入的语音内容进行判断，当语音内容中仅包含唤醒词内容，不包含其他实质内容时，可以控制音频输入装置在特定的时间内采集用户的声音。此时，用户再输入“我想看××的电影”，则智能设备200可以获取到内容为“我想看××的电影”的语音控制音频。

在一些实施例中，智能设备200还可以通过特定的控制界面触发语音控制功能。用户可以在控制智能设备200显示特定控制界面或者对特定界面中的特定控件执行交互操作时，触发智能设备200开启语音交互功能。例如，在媒资搜索界面中，可以包括语音输入选项，用户可以通过点击该语音输入选项，触发智能设备200开启语音助手，并在特定时间内采集当前环境中的用户语音。此时，如果用户发出语音“媒资A”，则智能设备200可以获取内容为“媒资A”的语音控制音频。

需要说明的是，上述实施例中所描述的语音控制音频的获取方式进行是众多语音音频获取方式中的几个典型示例，本领域技术人员基于特定应用环境、特定硬件设备以及特定应用程序所能够设置的语音输入方式均可以作为本申请获取用户语音输入方式。

显然，用户在使用智能设备200的过程中，可以在多种场景下触发语音交互功能。例如，用户可以在智能设备200显示控制主页界面、媒资推荐界面、设置界面、播放界面、应用界面等界面时通过上述方式中的一种触发智能设备200启动语音交互功能，使智能设备200可以获取用户输入的语音控制音频。而为了减少语音交互功能对部分应用程序的影响，智能设备200还可以在运行部分应用程序时，禁用部分语音交互功能。例如，当智能设备200运行部分游戏应用时，可以禁用远场语音交互功能。此时，通过唤醒词方式输入的语音控制音频将不会被智能设备200获取，而通过控制装置100上的语音功能按键或特定用户界面输入的语音控制音频依然能够被智能设备200获取，以触发智能设备200执行语音交互功能。

在获取用户输入的语音控制音频后，智能设备200可以响应于语音控制音频，根据语音控制音频生成反馈语句。由于语音控制音频的内容是基于用户的语音输入，而语音输入的内容通常是一种自然语言，会受不同人、不同语音类型、不同时期等因素的影响，表现为不同的形式。因此，用户输入的语音控制音频不能直接被机器识别，需要对自然语言进行特定的处理。

即如图8所示，在一些实施例中，智能设备200可以在获取语音控制音频后，将语音控制音频转化为语音控制文本，再从语音控制文本中提取问询语句。例如，当用户输入语音“嗨！小×，我想看××的电影呀”，则智能设备200可以通过智能语音系统内置的语音转文字应用程序，将音频数据转化为文本数据。即“<text>＝嗨小×我想看××的电影呀”。将语音转化为文字数据后，智能设备200还可以对文字数据中唤醒词、语气词、感叹词等无实质含义的内容进行剔除，以获得内容为“我想看××的电影”的问询语句。

提取出问询语句后，可以将问询语句输入语音分类模型，以获得语音分类结果。其中，语音分类模型是一种机器学习模型，该模型以问询语句为输入，以语句对语义分类标签的分类概率为输出。所述语音分类模型可以预先通过模型训练的方式获得，即通过将训练数据输入初始模型，获得模型输出的分类概率后，再与训练数据中的标签进行比较确定损失函数，从而反向传播调整初始模型的模型参数。经过大量训练数据的输入-输出-损失-调节参数的过程，可以将初始模型逐渐训练为能够输出准确分类概率的语音分类模型。从而在将问询语句输入语音分类模型后，经过语音分类模型的计算可以识别出自然语言中包含的语义。

通过语音分类模型输出的语音分类结果，智能设备200可以解析出用户语音控制音频对应的语义，因此可以按照解析出的语义做出响应。例如，对于内容为“我想看××的电影”的问询语句，智能设备200可以解析出语义“媒资检索”，媒资检索的索引词为“××”。基于此，智能设备200可以根据解析的语义生成控制指令，即用于控制智能设备200进行媒资检索，检索的索引词为“××”的控制指令。

生成控制指令后，智能设备200再通过执行生成的控制指令，实施语音交互控制。例如，对于检索词为“××”的媒资检索控制指令，智能设备200可以通过执行该控制指令，在媒资数据库中以“××”为关键词进行检索，并将检索结果通过媒资推荐界面进行展示。

在执行控制指令的同时，智能设备200还可以获取与控制指令相适应的反馈语句。所述反馈语句用于提示用户控制指令的执行结果。例如，对于“我想看××的电影”的问询语句，可以确定相应的反馈语句为“已为您找到××的电影”。显然，反馈语句的内容受用户输入的语音控制音频内容的影响，同时也受控制指令的执行结果影响。例如，用户输入“我想看YY的电影”，但在媒资数据库中检索未检索到“YY”相关的媒资项目时，则获取对应的反馈语句内容为“我没有找到YY的电影”。

需要说明的是，在本实施例中，根据语音控制音频所生成的反馈语句是一种文本形式的数据，用于指示语音播报音频对应的内容。因此，在实际应用中，智能设备200可以根据不同的使用环境、用户界面和用户类型生成不同内容的反馈语句。例如，对于儿童用户，可以在反馈语句中包含更多的语气词和感叹词，以符合儿童用户的交互习惯。

由于在智能语音交互过程中，部分场景下的语音交互功能仅与输入的语音内容相关联。例如，用户可以在任意界面下输入语音“嗨！小×，关机”，此时智能设备200可以直接响应输入的语音内容，执行关机动作。部分场景下的语音交互功能与当前显示界面的具体内容相关联。例如，当用户在媒资列表界面输入语音“翻页”时，可以触发智能设备200对当前显示的列表界面执行翻页操作。因此，针对语音控制音频生成的反馈语句也需要根据当前显示界面的内容相适应。

即在一些实施例中，智能设备200还支持视觉问答功能，即在智能设备200显示某一特定内容(包括图像、视频、UI界面)时，用户可以通过输入特定内容、格式的语音，触发智能设备200启用视觉问答功能。如“画面中这是什么植物”、“电视中这个人演了什么电视”等。当智能设备200启用视觉问答功能后，可以先对当前显示的内容进行图像识别，并通过语音播报功能展示图像识别结果。例如，“这是五彩苏。五彩苏是唇形科，鞘蕊花属直立或上升草本植物。”、“××的作品有《媒资A》、《媒资B》和《媒资C》等”。

对此，在根据语音控制音频生成反馈语句的步骤中，智能设备200还可以获取当前显示用户界面的图像信息，并将图像信息输入图像识别模型，以获得图像识别结果。其中，图像识别模型也是一种深度学习模型，该模型以图像为输入，以图像对特定识别结果的分类概率为输出。与语音分类模型相似的，图像识别模型也需要经过大量带有分类标签的图像的训练数据进行训练获得。

将图像信息输入图像识别模型后，经过图像识别模型的计算，可以获得图像识别结果，即图像信息对某个特定结果的分类概率，再根据语音分类结果和图像识别结果生成反馈语句。例如，用户在智能设备200显示包含“五彩苏”的照片的播放界面时，输入语音“这是什么植物”，则智能设备200在接收到该语音后，可以生成搜索指令。通过执行该搜索指令，智能设备200一方面对当前显示界面进行截图操作，获得图像信息，并将图像信息输入图像识别模型，以识别图像中的五彩苏。另一方面，智能设备200可以根据图像识别结果“五彩苏”进行搜索，以获得五彩苏相关的描述。进而根据相关描述生成反馈语句，即“这是五彩苏。五彩苏是唇形科，鞘蕊花属直立或上升草本植物。”。

由于不同应用场景确定反馈语句的方式不同，因此在获得语音分类结果的步骤后，智能设备200可以先判断语音分类结果归属的控制类型。其中，所述控制类型包括视觉问答类和非视觉问答类。智能设备200可以基于当前用户界面类型以及用户输入的语音控制音频内容确定。例如，当前用户界面类型为播放界面或包含图片显示窗口，并且用户输入的语音控制音频中包含“这是”、“这个”、“当前”、“电视中”、“画面中”等指代性词语时，可以确定当前控制类型为视觉问答类。

根据语音分类结果归属的控制类型，如果语音分类结果归属于视觉问答类，获取当前显示用户界面的图像信息，并按照上述实施例的方式进行图像识别以至于根据语音分类结果和图像识别结果生成反馈语句。如果语音分类结果归属于非视觉问答类，即当前语音交互过程与当前显示内容无关，因此可以仅根据语音分类结果生成反馈语句。

在生成反馈语句后，智能设备200可以根据反馈语句进行语音播报，即根据反馈语句生成语音播报音频，并通过音频输出装置271进行播放。为了获得更好的语音播报效果，在本申请的部分实施例中，智能设备200可以为语音播报过程赋予情感效果，即在不同的情感类型下，采用不同的语调、语速、音色播放反馈语句。

在一些实施例中，智能设备200可以按照当前场景分类确定语音播报的情感类型。即智能设备200可以在生成反馈语句后，对当前场景分类进行检测。其中，所述场景分类可以包括使用场景和用户意图场景。所述使用场景可以通过当前显示的用户界面类型、界面逻辑、应用类型以及显示内容确定。例如，当用户打开阅读类应用程序时，智能设备200会在运行时显示阅读类应用界面。此时，如果用户触发语音交互功能，则可以根据当前应用类型确定使用场景为阅读场景。所述用户意图场景则需要通过对用户输入的语音控制音频进行语义分析后确定，即智能设备200可以将用户输入的语音控制音频输入场景分类模型，并根据场景分类模型输出的场景分类结果，获取语音控制音频中用户问询语句归属的场景分类。

对于用户意图场景，可以根据智能设备200的实际用途预设多种场景类别。例如，食物、热量、动物、植物、汽车、景点、影视知识问答、通用简单问答等。每个场景类别对应设置有相应的问询语句形式，如下表：

对于检测的场景分类，可以预先设定每个场景分类适应的情感类型，建立情感分类表。检测到场景分类后，智能设备200再通过调用情感分类表。由于情感分类表中包括预设场景分类与默认情绪的映射关系，因此智能设备200可以使用场景分类在情感分类表中匹配默认情绪，以按照默认情绪播放反馈语句。

其中，情感类别对应的情绪主要受到语调、语速、音色等因素的影响，因此在确定默认情绪时，可以按照不同的场景选择不同的语调，以及按照不同的场景选择特定的音色。例如，可以在情感分类表中默认食物视觉问答场景使用慢语速、平稳语调、中年男性音色进行语音播报。而卡路里视觉问答场景则使用快语速、高亢语调、健身主播音色进行语音播报等。

显然，为了迎合不同用户的喜好，智能设备200的智能语音系统还可以支持自定义语调、语速以及音色。并且，用户可以为每种场景选择其他自己喜欢的语调、语速以及音色。例如，在音色方面，用户可以通过语音助手设置界面设定“甜甜小女生”、“知性姐姐”、“磁性男士”等音色选项。此外，用户也可以录入自己的声音或其他喜欢的音色。为了保持拟人的体验，音色配置一种，而语调根据不同的场景可以配置多种。

由于在实际对话中，因情感影响的语音变化是多种多样的，而最终情感类型的确定也受多种因素的影响，因此，在本申请的部分实施例中，智能设备200还可以在生成反馈语句后，计算播报该反馈语句的情感评分。其中，情感评分可以受反馈语句对应场景分类、反馈语句内容以及图像识别结果中的一种或多种组合的多模态信息影响。

例如，在输出为图像描述语句或常规语音回答语句的情况下，可以对用户的问询语句和图像描述的语句进行情感评分，以根据不同的情绪输出不同的语音合成播报结果，即高兴、难过、平静等情绪类型。由于厌恶、生气、惊讶等情绪类型不适合于回答语音，因此在智能设备200的语音播报场景不考虑厌恶、生气、惊讶等情绪类型。

不同的情绪类型对应不同的得分数值。例如，高兴得分为+2，难过得分为-2，平静得分为0。如果多模态信息中的任一项判别出相应的情绪，则累积该情绪对应的得分。再将多项模态信息对应的得分进行求和计算，获得多模态信息的累积得分，以作为反馈语句的情感评分。

例如，用户输入的语句为“电视中有什么？”，是默认平静的情绪，即场景分类得分为0，而通过图像识别，确定当前显示的画面中有牛在吃草，则生成反馈语句“一群可爱的牛在吃草”，描述的句子是高兴的情绪，此时，可以计算多模态信息累积得分为0+(+2)＝2，因此可以自动选择高兴的情绪来播放反馈语句“一群可爱的牛在吃草”。

在一些实施例中，所述情感评分为反馈语句对应场景分类、反馈语句内容以及图像识别结果中的一种或多种组合的多模态信息分类得分的加权求和结果。其中，加权求和运算过程中使用的权值可以由用户手动设置，也可以根据多模态信息中的任一项进行转换计算。即智能设备200在计算最终的情感评分时，还可以在计算获得多模态信息的累积得分后，按照反馈语句中的肯定或否定答案进行综合计算，即肯定答案时的权值为1，否定答案时权值为0，从而根据反馈语句中肯定答案或否定答案对应的权值与对多模态信息的累积得分计算乘积，从而得到最终得分。

例如，如果用户输入的语句为“电视中这个人在哭吗？”，通过语音分类模型可以识别出当前语义包含难过的情绪，即场景分类得分为-2，同时通过图像识别模型确定智能设备200当前显示画面中是人在哭泣的画面，即图像识别结果得分为-2，多模态信息累积得分为-4。再结合反馈语句的内容为“是的”，为肯定答案。则情感最终得分为多模态信息累积得分与肯定答案的乘积，即-4×1＝-4。此时，智能设备200可以确定当前的“难过”的情绪类型评分最高，因此可以择难过的情绪来播放“是的”。

同理，如果用户输入的语句为“电视中这个人在哭吗？”，即场景分类得分为-2，而通过图像识别确定当前显示的画面中人物表情平静，即图像识别结果得分为0，则会生成否定答案的反馈语句“不”，因此，最终得分为-2×0＝0，那么就选择默认平静的情绪来播放反馈语句“不”。

在计算获得反馈语句的情感评分后，可以根据情感评分确定目标情感类型，以及按照目标情感类型播放反馈语句。每个情感类型对应一个评分区间，当确定当前反馈语句的情感评分在对应区间时，确定目标情感类型。例如，可以设定情感评分大于0的反馈语句采用高兴的情感进行播放，情感评分小于0的反馈语句采用难过的情感进行播放，而情感评分等于0的反馈语句采用平静的情感进行播放。为了获得更加丰富多样的语音播报效果，在本申请的部分实施例中，还可以按照实际对话语气和情感规律，进一步设定更多的情感类型。

由以上技术方案可知，在上述实施例中，智能设备200可以利用多模态信息对当前的语言环境进行综合评价，并采用特定的情感评分机制更加准确地确定当前语境对应的情感类型，使语音播报过程更加符合用户的当前语境，提高用户体验。

在本申请的部分实施例中，智能设备200还可以通过情感分类模型确定情感分数。其中，情感分类模型可以对多模态信息中的每一项进行情感类型识别，从而获得每项信息对应于特定情感类型的分类概率。由于多模态信息中每个项目的具体表现形式不同，例如场景分类结果和反馈语句内容是文本形式，而图像识别结果是图像形式，因此在进行分类运算时可以建立不同的情感分类模型。例如，以反馈语句为输入的第一情感分类模型；以图像识别结果为输入的第二情感分类模型；以问询语句为输入的场景分类模型。显然，第一情感分类模型、第二情感分类模型以及场景分类模型的输入均为输入数据对特定情感类型分类概率，即情感分数。

因此，如图9所示，智能设备200在计算反馈语句的情感评分的步骤中，可以分别将反馈语句输入第一情感分类模型、将图像识别结果输入第二情感分类模型以及将问询语句输入场景分类模型。再分别获得三个模型输出的分类结果，从而获得第一情感分数、第二情感分数以及第三情感分数。其中，为了提高模型的适用性，场景分类模型的模型输出结果可以为输入数据对某一场景分类的分类概率，为此，智能设备200还可以根据预先设置的情感分数与场景分类的映射关系对照表查找对应场景下的情感分数，即第三情感分数。最后对第一情感分数、第二情感分数以及第三情感分数进行加权求和运算，并将加权求和结果作为反馈语句的情感评分。

需要说明的是，由于智能设备200可以在语音交互过程中选择多模态信息中一项或多项进行情感评分，因此在部分实施例中，智能设备200可以仅对反馈语句、问询语句以及图像识别结果中的部分项目输入对应的情感分类模型进行计算，例如，将反馈语句输入第一情感分类模型，以获得第一情感分类模型输出的第一情感分数。同时将图像识别结果输入第二情感分类模型，以获得第二情感分类模型输出的第二情感分数。再根据第一情感分数和第二情感分数计算情感评分。

可见，在上述实施例中，智能设备200可以根据多媒体信息对应的分类结果进行加权求个计算，确定反馈语句的情感评分。不同的模态项目可以根据具体的应用场景设置相应的权重。例如，对于视觉问答场景，由于当前显示的图像内容对语音交互功能产生的影响较大，因此可以设置图像识别结果对应的第二情感分数所占的权重更大，以适应视觉问答场景的基本需求。

按照上述实施例中提供的方式计算获得情感评分后，智能设备200可以按照情感评分确定目标情感类型，并按照目标情感类型播放反馈语句。在播放反馈语句的过程中，智能设备200还可以根据当前智能语音系统中语音片段的录制情况采用不同的播放方式。

即在一些实施例中，如果当前智能语音系统已预先录制了每种情感类型(至少包含当前目标情感类型)的语音片段时，智能设备200可以先调用目标情感类型的语音数据库，并在语音数据库中匹配反馈语句对应的目标音频数据，并通过播放目标音频数据，以输出语音播报音频。

例如，通过情感评分机制确定当前反馈语句对应语境下，难过情感类型所得的情感评分最高，则智能设备200可以确定目标情感类型为“难过”。因此，智能设备200可以调用难过类型的语音数据库，即语音包，并在语音数据库中匹配反馈语句中所包含词语内容相同的语音片段。最后，通过将匹配命中的多个语音片段进行拼接，形成包含难过情感语气的语音播报音频，通过音频输出装置271进行播放。

如图10所示，在一些实施例中，智能设备200还可以基于从文本到语音(Text ToSpeech，TTS)技术实现语音播报音频的生成。即在智能设备200中可以内置TTS模型，TTS模型也是一种神经网络模型，包括情感嵌入网络(Emotion Embedding Network，EEN)、辅助网络(auxil iary network)以及语音合成框架网络(tacotron2)。在合成语音播报音频时，反馈语句作为特征序列(character sequence)输入语音合成框架网络，并经过语音合成框架网络进行编码(encoder)、注意力机制(attent ion)、解码(decoder)以及频谱处理(melspectrogram)等处理过程，最后经过神经声码器(neural vocoder)处理，输出为包含情感色彩的音频进行播放。

对于TTS模型生成语音播报音频过程，情感嵌入网络可以在进行编码时，按照确定的目标情感类型在编码中嵌入情感因素，使最终输出的音频中可以带有目标情感类型的语音、语速和语调。此外，在频谱处理过程中，还可以使用辅助网络对频谱处理结果进行分类计算，以输出格拉姆矩阵(gram matrices)形式的结果，与目标情感类型进行类型损失计算，从而反向传播调整情感嵌入网络的网络参数，使情感嵌入网络不断进行训练，提高分类准确率。

此外，智能设备200还可以在基于情感的TTS模型基础上，为情感嵌入网络增加音色嵌入(speaker embedding)网络，以组成情感解析模块(emotion disentanglingmodule，EDM)，从而在语音合成框架网络的编码过程中，增加情感和音色效果。同理，在频谱处理过程中，也可以通过增加音色相关的辅助网络，使辅助网络可以输出音色相关的结果，用于进行类型损失计算。具体应用的模型，可以采用自研TTS模型，也可以采用相关的TTS产品，此处不再赘述。

为了适应不同用户，在一些实施例中，所述智能语音交互方法还支持多种语言的语音播报。即智能设备200可以根据应用区域，选择主语言，如汉语模式、英语模式等。在主语言模式下，用户可以使用主语言对应的语言类型进行提问，智能设备200则在确定反馈语句后，使用主语言对应的语音进行播报。还可以扩展到德语、法语、西班牙、日语等其他语言类型，以满足不同的用户需求。

对于多种语言类型的TTS过程，智能设备200中内置的TTS模型可以包括编码/解码模块(encoder-decoder)，发音网络(speaker network)和语言网络(language netowrk)以及神经声码器(neural vocoder)。其中，编码/解码模块可以将反馈文本进行“序列到序列”的合成，是一个基于transformer的encoder-decoder结构，可以从文本直接预测mel谱图。发音网络和语言网络可以用来控制合成不同说话人和语言的语音。发音网络可以是能够区分说话人信息的网络。例如，发音网络可以是一种映射表(lookup table，LUT)网络，通过映射表网络让通用的特性有相似的动态范围，从而将文本映射到音素。

其中，音素在编码模块中可以通过LUT用one-hot向量表示。为了避免不同语种里类似的发音造成混淆，每种语言的音素是独立的。各种语言的音素集合也是相互独立的，即每种语言一个单独的音素表。同理，语言网络具有与发音网络类似的结构，也可以用one-hot向量来表示语言本身。神经声码器是一种神经网络解码器，可以将mel谱图转化成音频，因此，可以直接采用相关的神经网络解码器，如WaveNet、Griffin-Lim等。

基于上述支持多语言的语音交互形式，在本申请的部分实施例中，智能设备200还可以在获取用户输入的语音控制音频后，调用多语言语音合成TTS模型，并将语音控制音频输入TTS模型，以识别出语音控制音频归属的语言类型。并且在按照目标情感类型播放反馈语句时，使用TTS模型合成反馈语句的输出波形，从而按照输出波形播放反馈语句，实现多语言交互功能。

在一些实施例中，为了支持多语言语音交互，还可以预先通过模型训练的方式获得TTS模型，即智能设备200可以在调用多语言语音合成TTS模型前，获取训练数据集，训练数据集中包括多种语言下的训练数据。由于各种语言数据存在数据量不均衡的问题，因此在模型训练阶段可以设置相应的数据采样策略。即智能设备200可以通过遍历训练数据集中每种语言对应训练样本的数量，再根据每种语言对应训练样本的数量以及预设采样参数，设置每种语言的采样概率。

例如，对于第i种语言，话语数量为Ni。则在整个训练集里，从第i中语言采样的概率为：

式中，Ci为在第i种语言中采样的概率；Ni为第i种语言的话语数量；∑_jN_j为语言集合的话语总数量。

对每个集合(batch)数据进行抽样，其概率需要添加采样参数α，其中α∈[0,1]，此时，对于每种语言的概率为pi，则：

式中，pi为第i种语言的分布概率；Ci为第i种语言的采样概率；j为语言总数；α为预设采样参数。可见，当α＝0时，语言分布概率为均匀分布；而当α＝1时，模型接收到的是真实的数据分布。为减轻数据不均衡问题，可以设置采样参数α＝0.2。

此外，由于同一种语言可能有很多发音者(speakers)，在这些发音者之间也可能存在严重的数据不均衡。因此，上述该数据均衡策略可以用于对每种语言的不同发音者的训练数据进行采样，即按照采样概率在训练数据集中抽样训练数据，将抽样的训练数据输入TTS模型，以训练TTS模型。

基于上述实施例提供的智能语音交互方法，在本申请的部分实施例中还提供一种智能设备200。所述智能设备200包括：显示器260、音频输入装置231、音频输出装置271以及控制器250。其中，显示器260被配置为显示用户界面；音频输入装置231被配置为接收用户输入的语音控制音频；音频输出装置271被配置为输出语音播报音频；所述控制器250被配置为执行以下程序步骤：

获取用户输入的语音控制音频；

由以上技术方案可知，上述实施例提供的智能设备200可以在用户输入语音控制音频后，根据语音控制音频生成反馈语句，并按照设定的情感评分机制，计算反馈语句的情感评分，从而根据情感评分确定目标情感类型，最后按照目标情感类型播放反馈语句，形成语音播报。所述智能设备200能够通过反馈语句对场景分类、反馈语句内容以及图像识别结果等多模态信息的分类得分进行加权求和计算，获得情感得分，并最终确定目标情感类型，从而能够以更加合理的情感类型播放语音播报音频，缓解语音播报效果差的问题。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims

1.一种智能设备，其特征在于，包括：

显示器，被配置为显示用户界面；

音频输入装置，被配置为接收用户输入的语音控制音频；

音频输出装置，被配置为输出语音播报音频；

控制器，被配置为：

获取用户输入的语音控制音频；

2.根据权利要求1所述的智能设备，其特征在于，所述控制器被进一步配置为：

在根据所述语音控制音频生成反馈语句的步骤中，将所述语音控制音频转化为语音控制文本；

从所述语音控制文本中提取问询语句；

将所述问询语句输入语音分类模型，以获得语音分类结果；

获取当前显示用户界面的图像信息；

将所述图像信息输入图像识别模型，以获得图像识别结果；

根据所述语音分类结果和所述图像识别结果生成反馈语句。

3.根据权利要求2所述的智能设备，其特征在于，所述控制器被进一步配置为：

在计算所述反馈语句的情感评分的步骤中，将所述反馈语句输入第一情感分类模型，以获得所述第一情感分类模型输出的第一情感分数；

将所述图像识别结果输入第二情感分类模型，以获得所述第二情感分类模型输出的第二情感分数；

根据所述第一情感分数和所述第二情感分数计算所述情感评分。

4.根据权利要求3所述的智能设备，其特征在于，所述控制器被进一步配置为：

在根据所述第一情感分数和所述第二情感分数计算所述情感评分的步骤中，将所述问询语句输入场景分类模型；

获取所述场景分类模型对所述问询语句输出的场景分类结果；

计算所述场景分类结果的第三情感分数；

计算所述情感得分，所述情感评分为所述第一情感分数、所述第二情感分数以及第三情感分数的加权求和结果。

5.根据权利要求2所述的智能设备，其特征在于，所述控制器被进一步配置为：

在获得语音分类结果的步骤后，判断语音分类结果归属的控制类型，所述控制类型包括视觉问答类和非视觉问答类；

如果所述语音分类结果归属于所述视觉问答类，获取当前显示用户界面的图像信息；

如果所述语音分类结果归属于所述非视觉问答类，根据所述语音分类结果生成反馈语句。

6.根据权利要求1所述的智能设备，其特征在于，所述控制器被进一步配置为：

在计算所述反馈语句的情感评分的步骤前，获取所述语音控制音频中用户问询语句归属的场景分类；

调用情感分类表，所述情感分类表中包括预设场景分类与默认情绪的映射关系；

使用所述场景分类在所述情感分类表中匹配所述默认情绪，以按照所述默认情绪播放所述反馈语句。

7.根据权利要求1所述的智能设备，其特征在于，所述控制器被进一步配置为：

在按照所述目标情感类型播放所述反馈语句的步骤中，调用所述目标情感类型的语音数据库；

在所述语音数据库中匹配所述反馈语句对应的目标音频数据；

播放所述目标音频数据，以输出语音播报音频。

8.根据权利要求1所述的智能设备，其特征在于，所述控制器被进一步配置为：

在获取用户输入的语音控制音频后，调用多语言语音合成TTS模型；

将所述语音控制音频输入所述TTS模型，以识别出所述语音控制音频归属的语言类型；

在按照所述目标情感类型播放所述反馈语句的步骤中，使用所述TTS模型合成所述反馈语句的输出波形；

按照所述输出波形播放所述反馈语句。

9.根据权利要求8所述的智能设备，其特征在于，所述控制器被进一步配置为：

在调用多语言语音合成TTS模型的步骤前，获取训练数据集，所述训练数据集中包括多种语言下的训练数据；

遍历所述训练数据集中每种语言对应训练样本的数量；

根据每种语言对应训练样本的数量以及预设采样参数，设置每种语言的采样概率；

按照所述采样概率在所述训练数据集中抽样训练数据；

将抽样的训练数据输入所述TTS模型，以训练所述TTS模型。

10.一种智能语音交互方法，其特征在于，应用于智能设备，所述智能语音交互方法包括：

获取用户输入的语音控制音频；