CN116149595A

CN116149595A - 一种语音交互方法、装置及电子设备

Info

Publication number: CN116149595A
Application number: CN202310107607.9A
Authority: CN
Inventors: 董逸晨; 王娜; 郭绪兵
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2023-02-09
Filing date: 2023-02-09
Publication date: 2023-05-23

Abstract

本公开涉及一种语音交互方法、装置及电子设备，应用于人机交互领域，可以使得语音交互过程中的回复说法更加多样化，交互过程更加有趣，提升用户交互体验。该方法包括：接收目标问询语句；确定目标问询语句对应的至少一个候选回复文本；根据目标形象的语言习惯，从至少一个候选回复文本中确定目标回复文本；播报目标回复文本。

Description

一种语音交互方法、装置及电子设备

技术领域

本申请实施例涉及人机交互领域。更具体地讲，涉及一种语音交互方法、装置及电子设备。

背景技术

随着人工智能技术的发展，现有的电子设备大多具备语音交互功能，能够识别用户发出的语音信号并给出回复，实现了电子设备与用户的互动。

但现有的语音交互过程中，对于用户的问询语句，回复说法比较单一，导致现有的语音交互比较机械、不够智能，缺乏趣味性。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请实施例提供了一种语音交互方法、装置及电子设备，可以使得语音交互过程中的回复说法更加多样化，交互过程更加有趣，提升用户交互体验。

第一方面，本申请实施例提供了一种语音交互方法，包括：接收目标问询语句；确定目标问询语句对应的至少一个候选回复文本；根据目标形象的语言习惯，从至少一个候选回复文本中确定目标回复文本；播报目标回复文本。

第二方面，本申请实施例提供了一种语音交互装置，包括：接收模块，用于接收目标问询语句；确定模块，用于确定目标问询语句对应的至少一个候选回复文本；确定模块，还用于根据目标形象的语言习惯，从至少一个候选回复文本中确定目标回复文本；播报模块，用于播报目标回复文本。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在该存储器上并可在该处理器上运行的程序或指令，该程序或指令被该处理器执行时实现如第一方面所述的语音交互方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，包括：计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如第一方面所示的语音交互方法。

第五方面，本申请实施例提供了一种计算机程序产品，包括：当计算机程序产品在计算机上运行时，使得计算机实现如第一方面所示的语音交互方法。

本申请实施例提供的技术方案与现有技术相比具有如下优点：本申请实施例中，接收目标问询语句；确定目标问询语句对应的至少一个候选回复文本；根据目标形象的语言习惯，从至少一个候选回复文本中确定目标回复文本；播报目标回复文本。如此，对于接收到的问询语句，根据形象对应的语言习惯，从不同的回复文本中确定与形象相符的回复文本，对于同一问询语句，不同的形象的语言习惯不同，得到的回复文本也就不同，即回复说法多样化，增加了语音交互的趣味性，交互过程更加智能，用户体验更佳。

附图说明

为了更清楚地说明本申请实施例或相关技术中的实施方式，下面将对实施例或相关技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1示出了根据一些实施例中的语音交互方法的场景架构图；

图2示出了根据一些实施例中的电子设备的硬件配置框图；

图3示出了根据一些实施例中的电子设备与服务器的操作系统示意图；

图4示出了根据一些实施例中的语音识别网络架构示意图；

图5示出了根据一些实施例的语音交互方法的流程示意图之一；

图6示出了根据一些实施例的语音交互方法的流程示意图之二；

图7示出了根据一些实施例的语音交互方法的流程示意图之三；

图8示出了根据一些实施例的语音交互方法的流程示意图之四；

图9示出了根据一些实施例的确定语音交互的形象和声色的流程图；

图10示出了根据一些实施例的语音交互方法的流程示意图之五；

图11示出了根据一些实施例的语音交互方法的流程示意图之六；

图12示出了根据一些实施例的语音交互模型的结构示意图；

图13示出了根据一些实施例的语音交互装置的结构框图；

图14示出了根据一些实施例的电子设备的硬件示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

图1为本申请实施例提供的一种语音交互方法的场景架构示意图。如图1所示，本申请实施例提供的场景架构，包括：服务器100和电子设备200。

本申请实施例提供的电子设备200可以具有多种实施形式，例如，可以是智能音箱、电视、冰箱、洗衣机、空调、智能窗帘、路由器、机顶盒、手机、个人计算机(PersonalComputer，PC)智能电视、激光投影设备、显示器(monitor)、电子白板(electronicbulletin board)、可穿戴设备、车载设备、电子桌面(electronic table)等。

在一些实施例中，电子设备200接收到用户的语音指令时，可以与服务器100进行数据通信。可允许电子设备200通过局域网(LAN)、无线局域网(WLAN)与服务器100进行通信连接。

服务器100可以是提供各种服务的服务器，例如对电子设备200采集的音频数据提供支持的服务器。服务器可以对接收到的音频等数据进行分析等处理，并将处理结果(例如端点信息)反馈给电子设备200。服务器100可以是一个服务器集群，也可以是多个服务器集群，可以包括一类或多类服务器。

电子设备200可以是硬件，也可以是软件。当电子设备200为硬件时，可以是具有声音采集功能的各种电子设备，包括但不限于智能音箱、智能手机、电视、平板电脑、电子书阅读器、智能手表、播放器、计算机、AI设备、机器人、智能车辆等等。当电子设备200为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供声音采集服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，图1所示的场景架构示意图仅示出了实现本实施例提供的语音交互方法的一种可能场景。本申请实施例提供的语音交互方法的执行主体可以为上述的服务器或服务器中具有实现该语音交互方法的功能模块或功能实体。本申请实施例提供的语音交互方法的执行主体也可以为上述的电子设备或电子设备中具有实现该语音交互方法的功能模块或功能实体。

图2示出了根据示例性实施例中电子设备200的硬件配置框图。如图2所示电子设备200包括通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器，音频处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。电子设备200可以通过通信器220服务器100建立控制信号和数据信号的发送和接收。

用户接口280，可用于接收外部的控制信号。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

声音采集器可以是麦克风，也称“话筒”，“传声器”，可以用于接收用户的声音，将声音信号转换为电信号。电子设备200可以设置至少一个麦克风。在另一些实施例中，电子设备200可以设置两个麦克风，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备200还可以设置三个，四个或更多麦克风，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

此外，麦克风可以是内置在电子设备200上，或者麦克风通过有线或者无线的方式与电子设备200相连接。当然，本申请实施例对麦克风在电子设备200上的位置不作限定。或者，电子设备200可以不包括麦克风，即上述麦克风并未设置于电子设备200中。电子设备200可以通过接口(如USB接口130)外接麦克风(也可以称为话筒)。该外接的话筒可以通过外部固定件(如带夹子的摄像头支架)固定在电子设备200上。

控制器250，通过存储在存储器上中各种软件控制程序，来控制电子设备的工作和响应用户的操作。控制器250控制电子设备200的整体操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，RAM Random Access Memory，RAM)，ROM(Read-Only Memory，ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

在一些示例中，电子设备的操作系统为Android系统为例，如图3所示，电子设备200从逻辑上可以分为应用程序(Applications)层(简称“应用层”)21，内核层22和硬件层23。

其中，如图3所示，硬件层23可包括图2所示的控制器250、通信器220、检测器230等。应用层21包括一个或多个应用。应用可以为系统应用，也可以为第三方应用。如，应用层21包括语音识别应用，语音识别应用可以提供语音交互界面和服务，用于电子设备200与服务器100的连接。

内核层22作为硬件层23和应用层21之间的软件中间件，用于管理和控制硬件与软件资源。

如图3所示，服务器100可以包括：通信控制模块101、确定模块102和数据存储模块103，还可以包括其他模块，此处不做限定。其中通信控制模块101用于与通信器220进行通信，数据存储模块103用于存储各种数据库，在本申请实施例中，可以用于关系库。

在一些示例中，内核层22包括检测器驱动，检测器驱动用于将检测器230采集的语音数据发送至语音识别应用。

为清楚说明本申请的实施例，下面结合图4对本申请实施例提供的一种语音交互网络架构进行描述。

参见图4，图4为本申请实施例提供的一种语音交互网络架构示意图。图4中，电子设备用于接收输入的信息以及输出对该信息的处理结果。语音识别服务设备为部署有语音识别服务的电子设备，语义服务设备为部署有语义服务的电子设备，业务服务设备为部署有业务服务的电子设备。这里的电子设备可包括服务器、计算机等，这里的语音识别服务、语义服务(也可称为语义引擎)和业务服务为可部署在电子设备上的web服务，其中，语音识别服务用于将音频识别为文本，语义服务用于对文本进行语义解析，业务服务用于提供具体的服务如墨迹天气的天气查询服务、QQ音乐的音乐查询服务等。在一个实施例中，图6所示架构中可存在部署有不同业务服务的多个实体服务设备，也可以一个或多个实体服务设备中集合一项或多项功能服务。

一些实施例中，下面对基于图4所示架构处理输入电子设备的信息的过程进行举例描述，以输入电子设备的信息为通过语音输入的识别语句为例，上述过程可包括如下三个过程：

[语音识别]

电子设备可在接收到通过语音输入的识别语句后，将该识别语句的音频上传至语音识别服务设备，以由语音识别服务设备通过语音识别服务将该音频识别为文本后返回至电子设备。在一个实施例中，将识别语句的音频上传至语音识别服务设备前，电子设备可对识别语句的音频进行去噪处理，这里的去噪处理可包括去除回声和环境噪声等步骤。

[语义理解]

电子设备将语音识别服务识别出的识别语句的文本上传至语义服务设备，以由语义服务设备通过语义服务对该文本进行语义解析，得到文本的业务领域、意图等。

[语义响应]

语义服务设备根据对识别语句的文本的语义解析结果，向相应的业务服务设备下发查询指令以获取业务服务给出的查询结果。电子设备可从语义服务设备获取该查询结果并输出。作为一个实施例，语义服务设备还可将对识别语句的语义解析结果发送至电子设备，以由电子设备输出该语义解析结果中的反馈语句。

需要说明的是，图4所示架构只是一种示例，并非对本申请保护范围的限定。本申请实施例中，也可采用其他架构来实现类似功能，例如：三个过程全部或部分可以由智能终端来完成，在此不做赘述。

图5为根据本发明一个或多个实施例实现语音交互方法的步骤流程图，该语音交互方法的执行主体可以为服务器或电子设备，也可以为服务器或电子设备中能够实现该语音交互方法的功能模块或功能实体，此处不做限定。本申请实施例中，以执行主体为电子设备为例进行示例性地说明，该语音交互方法可以包括下述步骤101至步骤104。

101、接收目标问询语句。

可以理解，目标问询语句可以是用户向语音接收设备接收到的用户的任意语句。

102、确定目标问询语句对应的至少一个候选回复文本。

103、根据目标形象的语言习惯，从至少一个候选回复文本中确定目标回复文本。

可以理解，目标形象可以是默认形象，也可以是用户选择的形象，还可以是根据收集的用户的信息，确定用户偏好的形象，将用户偏好的形象确定为目标形象，目标形象还可以通过其他方式确定，本申请实施例不做限定。

可以理解，目标回复文本可以是通过训练好的回复语言模型得到的，具体地，将目标问询语句输入训练好的回复语言模型，回复语言模型在训练过程中，预置了形象特征，回复语言模型根据目标问询语句确定出至少一个候选回复文本，再根据目标形象剔除到不符合目标形象的语言习惯的回复文本，输出最终的符合目标形象的语言习惯的目标回复文本。

可以理解，语言习惯包括：语言逻辑，用词习惯等，形象对应的语言习惯可以是通过大数据统计得出，还可以是统计形象对应的多条语句，从多条语句中提取形象对应的说话特征以及常用词语等，模型经过学习，确定出形象的语言习惯对应的回复文本。

示例性地，目标问询语句为“打开空调”，目标形象为：中年男，确定的候选回复文本为：“好的，现在为您开启空调”，“好呀，这就打开”，根据训练时预置的形象特征，“好呀”不符合中年男形象的用语习惯，因此剔除掉“好呀，这就打开”，确定目标回复文本为“好的，现在为您开启空调”。

104、播报目标回复文本。

可以理解，播报目标回复文本的音色可以是与目标形象对应的目标音色，即一个形象对应一个音色，也可以是默认的固定的音色，即多个形象对应一个音色。

本申请实施例中，接收目标问询语句；确定目标问询语句对应的至少一个候选回复文本；根据目标形象的语言习惯，从至少一个候选回复文本中确定目标回复文本；播报目标回复文本。如此，对于接收到的问询语句，根据形象对应的语言习惯，从不同的回复文本中确定与形象相符的回复文本，对于同一问询语句，不同的形象的语言习惯不同，得到的回复文本也就不同，即回复说法多样化，增加了语音交互的趣味性，交互过程更加智能，用户体验更佳。

本申请一些实施例中，结合图5，如图6所示，上述步骤103之前，本申请实施例的语音交互方法还包括下述步骤105和步骤106。

105、接收用户从多个形象中选择目标形象的形象选择操作。

可以理解，多个形象可以是形象库中存储的所有形象，也可以是形象库中存储的部分形象，形象库中存储的多个形象根据实际情况确定，本申请实施例不做限定。

示例性地，多个形象可以是：儿童，少年，青年，中年，老年；多个形象还可以是：白领，教练，程序员，老师，儿童等，多个形象具体根据实际需要确定。

106、响应于形象选择操作，确定目标形象为与用户交互的形象。

可以理解，在语音接收设备有显示屏幕的情况下，多个形象的输出方式包括以下至少一项：图像形式(与形象相符的图像，如中年男形象，对应的图像是卡通的中年男的图片)，可以是动态的图像，也可以是静态的图像；文字形式；语音形式。在语音接收设备没有显示屏幕的情况下，多个形象的输出方式可以是语音形式；多个形象的输出方式还可以是其他方式，本申请实施例不做限定。

本申请实施例中，根据目标形象的语言习惯，从至少一个候选回复文本中确定目标回复文本之前，该方法还包括：接收用户从多个形象中选择目标形象的形象选择操作；响应于形象选择操作，确定目标形象为与用户交互的形象。用户从多个形象中选择目标形象，该目标形象可以在一定程度上反映用户的偏好，根据用户偏好确定与用户交互的目标形象，通过该目标形象与用户进行语音交互，使得语音交互更加智能、有趣，也进一步提升交互过程中用户的体验。

本申请一些实施例中，结合图6，如图7所示，上述步骤106之后，本申请实施例的语音交互方法还包括下述步骤107至步骤109，上述步骤104具体可以通过下述步骤104a实现。

107、根据关系库，输出与目标形象对应的至少一个候选音色。

其中，关系库中存储有多个映射关系，每个映射关系包括：至少一个形象和至少一个音色的对应关系。

可以理解，关系库中存储的形象和音色的对应关系，可以是一对一，也可以是一对多，还可以是多对多；例如，关系库中存储的为(形象和音色为一对一关系)：形象1-音色1，形象1-音色2，形象1-音色3，形象2-音色3，形象2-音色4；目标形象为形象2，则与目标形象对应的至少一个候选音色为：音色3，音色4。或者，关系库中存储的为(形象和音色为一对多关系)：形象1-(音色1，音色2，音色3)，形象2-(音色3，音色4)；目标形象为形象2，则与目标形象对应的至少一个候选音色为：音色3，音色4。关系库中存储的为(形象和音色为多对多关系)：(形象1，形象2，)-(音色1，音色2)，(形象3，形象4，)-(音色3，音色4，音色5)；目标形象为形象2，则与目标形象对应的至少一个候选音色为：音色1，音色2。具体地根据实际需要确定，本申请实施例不做限定。但在实际应用中，根据形象确定候选音色时，关系库中存储一个形象和至少一个音色的对应关系，通过形象查询得到对应的候选音色的速度更快。

108、接收用户从至少一个候选音色选择目标音色的音色选择操作。

109、响应于音色选择操作，确定目标音色为与用户交互的音色。

104a、通过目标音色播报目标回复文本。

可以理解，确定了目标形象和对应的目标音色，通过目标音色播报回复文本。

示例性地，目标形象为年轻女，对应的至少一个候选音色为：御姐音，萝莉音，机器人音；用户选择萝莉音，则输出的目标形象为年轻女，通过萝莉音播报回复文本。

本申请实施例中，响应于形象选择操作，确定目标形象为与用户交互的形象之后，该方法还包括：根据关系库，输出与目标形象对应的至少一个候选音色，关系库中存储有多个映射关系，每个映射关系包括：至少一个形象和至少一个音色的对应关系；接收用户从至少一个候选音色选择目标音色的音色选择操作；响应于音色选择操作，确定目标音色为与用户交互的音色；播报目标回复文本，包括：通过目标音色播报目标回复文本。基于目标形象，为用户提供与目标形象相对应的候选音色，用户可以根据偏好，从候选音色中选择目标音色，如此，与用户进行交互的形象为用户偏好的形象，形象对应的音色也为用户偏好的音色，提升用户与语音设备进行交互的体验。

本申请一些实施例中，结合图6，如图8所示，上述步骤105之前，本申请实施例的语音交互方法还包括下述步骤110和步骤111。

110、接收用户从多个音色中选择目标音色的目标操作。

111、响应于目标操作，根据关系库，输出与目标音色对应的多个形象。

可以理解，可以是用户从多个形象中先选择目标形象，基于用户选择的目标形象，根据关系库，输出与目标形象对应的至少一个候选音色以供用户选择，用户从候选音色中选择任一音色，可以使用该音色播放示例文本，以进一步使用户了解选择的音色的实际播放效果，选择出偏好的音色；还可以是用户从多个音色中选择目标音色，根据关系库，输出与目标音色对应的至少一个候选形象以供用户选择。

可以理解，关系库中存储的形象和音色的对应关系，可以是一对一，也可以是一对多，还可以是多对多。但在实际应用中，根据音色确定候选形象时，关系库中存储一个音色和至少一个形象的对应关系，通过音色查询得到对应的候选形象的速度更快。具体地，为了方便快速地从关系库中根据音色确定候选形象，或者，根据形象确定候选音色，关系库中可以包括第一关系库和第二关系库，第一关系库中存储的多个映射关系中，每个映射关系为一个形象和至少一个音色的对应关系；第二关系库中存储的多个映射关系中，每个映射关系为一个音色和至少一个形象的对应关系，如此，在通过形象确定对应的候选音色时，通过查询关系库中的第一关系库可以快速得到候选音色；在通过音色确定对应的候选形象时，通过查询关系库中的第二关系库可以快速得到候选形象。

可以理解，语音交互是人工智能技术重要的实践与应用领域，形象和音色也作为比较重要的交互因素被各个应用开发商使用。形象和音色作为人机交互领域重要的部分，是提升人机交互的智能性以及用户体验感的重要关注点。但现有的语音交互绝大多数都仅仅是局限在，音色的单独切换，或者，不同的形象对应同样的音色，形象和音色并没有很好地联动，没有提供很好的交互链。

示例性地，如图9所示，为本申请实施例提供的一种可能的确定语音交互的形象和声色的流程图，可以是用户先从输出的多个形象中选择目标形象，具体包括下述步骤901至步骤906，还可以是用户先从输出的多个音色中选择目标音色，具体包括下述步骤907至步骤912。

901、用户选择目标形象；

902、确定目标形象为与用户交互的形象；

903、输出目标形象对应的至少一个候选音色；

904、是否接收到用户的音色选择操作；

是则执行步骤905，否则执行步骤906。

905、确定用户选择的音色为与用户交互的目标音色；

906、确定目标形象对应的默认音色为与用户交互的目标音色。

可以理解，一种情况为用户从至少一个候选音色中选择了一个音色，则该音色作为与用户交互的音色；一种情况为用户未从至少一个候选音色中选择一个音色，则确定默认音色为与用户交互的音色，默认音色可以是至少一个候选音色中预设的音色，也可以是除至少一个候选音色外其他的任一预设的音色。

907、用户选择目标音色；

908、确定目标音色为与用户交互的音色；

909、输出目标音色对应的至少一个候选形象；

910、是否接收到用户的形象选择操作；

是则执行步骤911，否则执行步骤912。

911、确定用户选择的形象为与用户交互的目标形象；

912、确定目标音色对应的默认形象为与用户交互的目标形象。

可以理解，一种情况为用户从至少一个候选形象中选择了一个形象，则该形象作为与用户交互的形象；一种情况为用户未从至少一个候选形象中选择一个形象，则确定默认形象为与用户交互的形象，默认形象可以是至少一个候选形象中预设的形象，也可以是除至少一个候选形象外其他的任一预设的形象。

本申请实施例中，接收用户从多个形象中选择目标形象的形象选择操作之前，该方法还包括：接收用户从多个音色中选择目标音色的目标操作；响应于目标操作，根据关系库，输出与目标音色对应的多个形象。用户可以是先选择目标形象，再从目标形象对应的候选音色中选择目标音色，也可以是先选择目标音色，再从目标音色对应的候选形象中选择目标形象，如此，无论用户先选择音色或者先选择形象，最终都能确定除用户偏好的目标形象以及偏好的目标音色，使用用户偏好的目标形象与用户互动，并使用用户偏好的目标音色播报语音回复文本，使得语音交互更加智能，提升了用户体验。

本申请一些实施例中，结合图8，如图10所示，上述步骤105之后，本申请实施例的语音交互方法还包括下述步骤112和步骤113。

112、根据目标形象的语言习惯，从至少一个候选切换成功文本中确定目标切换成功文本。

113、播报目标切换成功文本。

可以理解，播报目标切换成功文本的音色可以是用户选择的目标音色，也可以是默认音色，具体根据实际情况确定，本申请实施例不做限定。但实际应用中，若用户选择了目标音色，为了用户体验更好，通过目标音色播报目标切换成功文本的效果更好。

可以理解，在用户选择目标形象之前，与用户交互的形象为预设的形象，用户选择目标形象之后，则与用户交互的形象从预设的形象切换到目标形象；或者，在用户选择目标形象之前，与用户交互的形象为用户选择的第一形象，用户选择目标形象之后，则与用户交互的形象从第一形象切换到目标形象。

可以理解，候选切换成功文本为预设的至少一个文本，每个文本用于指示切换成功，具体的文本内容不做限定。

示例性地，候选切换成功文本包括：“好的，老板，现在由我为您播报！”，“让激情燃烧！现在由我为您播报！”，“切换成功，现在由我为您播报！”；用户选择的目标形象为：运动型男，则确定的目标切换成功文本为“让激情燃烧！现在由我为您播报！”。

本申请实施例中，接收用户从多个形象中选择目标形象的形象选择操作之后，该方法还包括：根据目标形象的语言习惯，从至少一个候选切换成功文本中确定目标切换成功文本；播报目标切换成功文本。根据用户选择的目标形象的语言习惯确定除目标切换成功文本，播报目标切换成功文本，可以使用用户偏好的说法提示用户切换成功，从而提升用户体验。

本申请一些实施例中，结合图6，如图11所示，上述步骤105之后，上述步骤113之前，本申请实施例的语音交互方法还包括下述步骤114和步骤115。

114、根据第一形象的语言习惯，从至少一个候选待切换文本中确定目标待切换文本。

其中，第一形象为用户从多个形象中选择目标形象前的形象。

可以理解，第一形象为用户从多个形象中选择目标形象前的形象，即用户选择从第一形象切换为目标形象，第一形象可以是用户选择目标形象之前用户选择的形象，也可以是用户选择目标形象之前的默认形象。

115、播报目标待切换文本。

可以理解，播报目标待切换文本的音色可以是用户选择的与第一形象对应的音色，也可以是默认音色，具体根据实际情况确定，本申请实施例不做限定。但实际应用中，若用户为第一形象选择了对应的音色，为了用户体验更好，通过第一形象对应的音色播报目标待切换文本的效果更好。

示例性地，第一形象为：白领男，对应的音色为：年轻男；目标形象为：运动型男，对应的目标音色为：活力男声；确定的目标待切换文本为与白领男形象的语言习惯相符的文本，如“好的，老板，既然您要求了，马上为您切换。”，确定的目标切换成功文本为与运动型男形象的语言习惯相符的文本，如“让激情燃烧！现在由我为您播报。”，通过年轻男播报“好的，老板，既然您要求了，马上为您切换。”之后通过活力男声播报“让激情燃烧！现在由我为您播报”。如此，用户可以对比体验两种形象，以及通过对应的两种音色播报与形象相符的说法。

本申请实施例中，接收用户从多个形象中选择目标形象的形象选择操作之后，播报目标切换成功文本之前，该方法还包括：根据第一形象的语言习惯，从至少一个候选待切换文本中确定目标待切换文本，第一形象为用户从多个形象中选择目标形象前的形象；播报目标待切换文本。如此，用户可以对比体验两种形象，以及通过对应的两种音色播报与形象相符的说法，体验感更好。

本申请一些实施例中，结合图5，如图12所示，本申请实施例的语音交互方法还包括下述步骤116。

116、将目标形象确定为资源推荐的目标特征。

其中，将目标形象确定为资源推荐的目标特征，以使在进行资源推荐时，结合目标特征确定待推荐资源。

可以理解，用户选择的目标形象，目标形象可以反映用户的偏好，因此，目标形象可以作为资源推荐的目标特征，在确定待推荐资源时，将目标形象作为资源推荐的一个参考特征。

示例性地，用户选择的目标形象为：健身教练，则可以确定用户在近期可能对健身或者运动比较感兴趣，在确定推荐给用户的视频资源时，可以推荐一些与健身或者运动相关的视频资源。

本申请实施例中，将目标形象确定为资源推荐的目标特征，以使在进行资源推荐时，结合目标特征确定待推荐资源。用户选择的目标形象在一定程度上可以反映用户的偏好，因此，目标形象可以作为目标特征，在确定向用户推荐的待推荐资源时，可以将目标特征作为参考因素进行推荐，如此，可以使得推荐的资源更符合用户偏好，提升资源推荐的效果。

图13为本申请实施例示出的语音交互装置的结构框图，如图13所示，该装置包括：接收模块1301，确定模块1302和播报模块1303；该接收模块1301，用于接收目标问询语句；该确定模块1302，用于确定目标问询语句对应的至少一个候选回复文本；该确定模块1302，还用于根据目标形象的语言习惯，从至少一个候选回复文本中确定目标回复文本；该播报模块1303，用于播报目标回复文本。

本申请一些实施例中，该接收模块1301，用于在根据目标形象的语言习惯，从至少一个候选回复文本中确定目标回复文本之前，接收用户从多个形象中选择目标形象的形象选择操作；该确定模块1302，还用于响应于形象选择操作，确定目标形象为与用户交互的形象。

本申请一些实施例中，该语音交互装置还包括：输出模块1304；该输出模块1304，用于在响应于形象选择操作，确定目标形象为与用户交互的形象之后，根据关系库，输出与目标形象对应的至少一个候选音色，关系库中存储有多个映射关系，每个映射关系包括：至少一个形象和至少一个音色的对应关系；该接收模块1301，还用于接收用户从至少一个候选音色选择目标音色的音色选择操作；该确定模块1302，还用于响应于音色选择操作，确定目标音色为与用户交互的音色；该播报模块1303，具体用于通过目标音色播报目标回复文本。

本申请一些实施例中，该接收模块1301，还用于在接收用户从多个形象中选择目标形象的形象选择操作之前，接收用户从多个音色中选择目标音色的目标操作；该输出模块1304，还用于响应于目标操作，根据关系库，输出与目标音色对应的多个形象，关系库中存储有多个映射关系，每个映射关系包括：至少一个形象和至少一个音色的对应关系。

本申请一些实施例中，该确定模块1302，还用于在接收用户从多个形象中选择目标形象的形象选择操作之后，根据目标形象的语言习惯，从至少一个候选切换成功文本中确定目标切换成功文本；该播报模块1303，播报目标切换成功文本。

本申请一些实施例中，该确定模块1302，还用于在接收用户从多个形象中选择目标形象的形象选择操作之后，播报目标切换成功文本之前，根据第一形象的语言习惯，从至少一个候选待切换文本中确定目标待切换文本，第一形象为用户从多个形象中选择目标形象前的形象；该播报模块1303，播报目标待切换文本。

本申请一些实施例中，该确定模块1302，还用于将目标形象确定为资源推荐的目标特征，以使在进行资源推荐时，结合目标特征确定待推荐资源。

需要说明的是：如图13所示，语音交互装置1300中一定包括的模块用实线框示意，如接收模块1301，确定模块1302和播报模块1303；语音交互装置1300中可以包括也可以不包括的模块用虚线框示意，输出模块1304。

需要说明的是，上述语音交互装置可以为本申请上述方法实施例中的电子设备，也可以是该电子设备中能够实现该装置实施例功能的功能模块和/或功能实体，本申请实施例不做限定。

本申请实施例中，各模块可以实现上述方法实施例提供的语音交互方法，且能达到相同的技术效果，为避免重复，这里不再赘述。

如图14所示，本申请实施例还提供了一种计算设备1400，该计算机设备1400可以为上述电子设备或服务器。该计算机设备1400包括：处理器1401、存储器1402及存储在该存储器1402上并可在该处理器1401上运行的计算机程序，该计算机程序被该处理器1401执行时实现如上述语音交互方法执行的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例提供还提供了一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现上述语音交互方法执行的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，该计算机可读存储介质可以为只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本发明提供一种计算机程序产品，包括：当所述计算机程序产品在计算机上运行时，使得所述计算机实现上述的语音交互方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种语音交互方法，其特征在于，包括：

接收目标问询语句；

确定所述目标问询语句对应的至少一个候选回复文本；

根据目标形象的语言习惯，从至少一个候选回复文本中确定目标回复文本；

播报所述目标回复文本。

2.根据权利要求1所述的方法，其特征在于，所述根据目标形象的语言习惯，从至少一个候选回复文本中确定目标回复文本之前，所述方法还包括：

接收用户从多个形象中选择所述目标形象的形象选择操作；

响应于所述形象选择操作，确定所述目标形象为与用户交互的形象。

3.根据权利要求2所述的方法，其特征在于，所述响应于所述形象选择操作，确定所述目标形象为与用户交互的形象之后，所述方法还包括：

根据关系库，输出与所述目标形象对应的至少一个候选音色，所述关系库中存储有多个映射关系，每个映射关系包括：至少一个形象和至少一个音色的对应关系；

接收用户从所述至少一个候选音色选择目标音色的音色选择操作；

响应于所述音色选择操作，确定所述目标音色为与用户交互的音色；

所述播报所述目标回复文本，包括：

通过所述目标音色播报所述目标回复文本。

4.根据权利要求2所述的方法，其特征在于，所述接收用户从多个形象中选择目标形象的形象选择操作之前，所述方法还包括：

接收用户从多个音色中选择目标音色的目标操作；

响应于所述目标操作，根据关系库，输出与所述目标音色对应的所述多个形象，所述关系库中存储有多个映射关系，每个映射关系包括：至少一个形象和至少一个音色的对应关系。

5.根据权利要求2至4任一项所述的方法，其特征在于，所述接收用户从多个形象中选择目标形象的形象选择操作之后，所述方法还包括：

根据所述目标形象的语言习惯，从至少一个候选切换成功文本中确定目标切换成功文本；

播报所述目标切换成功文本。

6.根据权利要求5所述的方法，其特征在于，所述接收用户从多个形象中选择目标形象的形象选择操作之后，所述播报所述目标切换成功文本之前，所述方法还包括：

根据第一形象的语言习惯，从至少一个候选待切换文本中确定目标待切换文本，所述第一形象为所述用户从多个形象中选择目标形象前的形象；

播报所述目标待切换文本。

7.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：

将所述目标形象确定为资源推荐的目标特征，以使在进行资源推荐时，结合所述目标特征确定待推荐资源。

8.一种语音交互装置，其特征在于，包括：

接收模块，用于接收目标问询语句；

确定模块，用于确定所述目标问询语句对应的至少一个候选回复文本；

确定模块，还用于根据目标形象的语言习惯，从至少一个候选回复文本中确定目标回复文本；

播报模块，用于播报所述目标回复文本。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：接收模块；

所述接收模块，用于在所述根据目标形象的语言习惯，从至少一个候选回复文本中确定目标回复文本之前，接收用户从多个形象中选择所述目标形象的形象选择操作；

所述确定模块，还用于响应于所述形象选择操作，确定所述目标形象为与用户交互的形象。

10.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至7中任一项所述的语音交互方法的步骤。