CN112634886B

CN112634886B - 一种智能设备的交互方法、服务器、计算设备及存储介质

Info

Publication number: CN112634886B
Application number: CN202011401632.0A
Authority: CN
Inventors: 连欢
Original assignee: Hisense Electronic Technology Wuhan Co ltd
Current assignee: Hisense Electronic Technology Wuhan Co ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2024-03-01
Anticipated expiration: 2040-12-02
Also published as: CN112634886A

Abstract

本发明实施例涉及计算机技术领域，尤其涉及一种智能设备的交互方法、服务器、计算设备及存储介质。包括：获取智能设备采集的用户语音；确定所述用户语音的应答文本并获取所述智能设备的应答模式；所述应答模式包括应答音频风格；获取所述应答音频风格对应的样本音频；所述样本音频为预先录制的各用户的音频数据；根据所述应答文本和所述样本音频，生成符合所述应答音频风格的应答语音；通过所述智能设备播放所述应答语音。如此，可以使应答文本转换为采用样本音频风格说出来的应答，这样，用户和智能设备聊天，会有和样本音频风格对应的人聊天的感受，提高了用户体验。

Description

一种智能设备的交互方法、服务器、计算设备及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种智能设备的交互方法、服务器、计算设备及存储介质。

背景技术

随着人工智能的兴起和发展，人机对话(Human-Machine Conversation)的研究也越来越火热。人机对话是指让机器理解和运用自然语言实现人机通信的技术。其中，人机聊天作为一种开放性对话，可以解决用户的情感倾诉需求以及其它类型对话之间的衔接需求。由于对话的开放性，其技术难度和挑战性要远高于其它类型对话。

目前进行人机聊天的产品类型主要包括语音助手、智能音箱和闲聊软件等。这些软件均是基于用户的语音或语句给出机器的相应的回答，而不能模拟特定的人说话的语音、语调、节奏以及表达习惯等。而在需要陪伴的用户中，由于种种情况，亲人不能时时陪伴在他们身边，如果能通过人机聊天听到亲人的声音，就像在自己身边一样，心理能得到极大慰藉。

综上，目前亟需一种智能设备的交互方法，用以解决人机对话中不能模拟特定用户的语音表达导致的用户体验差的问题。

发明内容

本发明实施例提供一种智能设备的交互方法，用以解决人机对话中不能模拟特定用户的语音表达导致的用户体验差的问题。

本发明实施例提供一种智能设备的交互方法，包括：

获取智能设备采集的用户语音；

确定所述用户语音的应答文本并获取所述智能设备的应答模式；所述应答模式包括应答音频风格；

获取所述应答音频风格对应的样本音频；所述样本音频为预先录制的各用户的音频数据；

根据所述应答文本和所述样本音频，生成符合所述应答音频风格的应答语音；

通过所述智能设备播放所述应答语音。

通过获取应答音频风格对应的样本音频，然后根据应答文本和样本音频，生成符合应答音频风格的应答语音，而样本音频为预先录制的各用户的音频数据。如此，可以使应答文本转换为采用样本音频风格说出来的应答，这样，用户和智能设备聊天，会有和样本音频风格对应的人聊天的感受，提高了用户体验。

在一些实施例中，根据所述应答文本和所述样本音频，生成符合所述应答音频风格的应答语音，包括：

生成所述应答文本对应的机器语音，将所述机器语音转换为机器频谱图；

将所述样本音频转换为样本频谱图；

通过内容编码器确定所述机器频谱图的语音内容；

通过音频编码器确定所述样本频谱图的音频风格；

通过解码器对所述语音内容和所述音频风格进行处理，得到符合所述应答音频风格的应答语音。

通过将机器语音转换为机器频谱图、样本音频转换为样本频谱图，使模型通过频谱图容易地进行音频风格的提取；又通过内容编码器、音频编码器和解码器的联合运用，使输出的应答语音既符合机器语音的表达内容，又具有样本音频的音频风格，使用户具有和样本音频风格对应的人聊天的感受。

在一些实施例中，所述应答模式还包括应答文本风格；

根据所述应答文本和所述样本音频，生成符合所述应答音频风格的应答语音，包括：

将所述应答文本转换为具有所述应答文本风格的用户应答；

根据所述用户应答和所述样本音频，生成符合所述应答模式的应答语音。

如此，不仅使应答语音具备了样本音频的音频风格，还使其具备了样本的文本风格，更加形象地从语音语调和表达习惯两个方面模拟人的真实声音，使用户产生与真人聊天的真实感，极大地提升了用户体验。

在一些实施例中，将所述应答文本转换为具有所述应答文本风格的用户应答，包括：

将所述应答文本输入所述应答文本风格对应的前向模型，生成所述用户应答；其中，前向模型是基于文本风格评价模型的第一激励和文本内容评价模型的第二激励进行训练得到的；所述第一激励是所述文本风格评价模型基于所述用户应答是否符合所述应答文本风格得到的；所述第二激励是所述文本内容评价模型基于后向模型针对所述用户应答输出的模型应答与所述应答文本的差距确定的。

通过基于文本风格评价模型的第一激励和文本内容评价模型的第二激励进行训练得到前向模型，使前向模型根据应答文本生成的用户应答既符合应答文本的风格，又保留了应答文本的文本内容的真实含义，如此进一步提升了用户体验。

在一些实施例中，前向模型是基于文本风格评价模型的第一激励和文本内容评价模型的第二激励进行训练得到的，包括：

获取用户的样本音频；

提取所述样本音频中的文本内容作为目标文本；

确定所述目标文本对应的机器表达文本；

将所述机器表达文本输入所述前向模型得到第一转换文本；

通过所述文本风格评价模型，确定所述第一转换文本与所述目标文本之间的第一激励；

将所述第一转换文本输入所述后向模型得到第二转换文本；

通过所述文本内容评价模型，确定所述第二转换文本和所述机器表达文本之间的第二激励；

根据所述第一激励和所述第二激励调整所述前向模型，直至训练结束。

通过使用用户的样本音频中的文本内容作为目标文本进行模型的训练，使模型输出的结果更加符合用户的文本表达；通过前向模型和后向模型的设计形成闭环，使两个模型能够给彼此提供反馈进而指导模型优化，避免了没有对齐数据而无法进行监督学习的问题；第一激励和第二激励分别从文本风格和文本内容两个方面对前向模型生成的第一转换文本进行反馈监督，从而获得能够输出与用户的文本风格表达和文本内容含义最为接近的用户应答的前向模型。

在一些实施例中，所述第一激励和所述第二激励在模型训练过程中占据的权重可由用户根据自身对文本风格准确度和文本内容准确度的需求进行设置。

如此，用户可根据自己的需求对文本风格准确度和文本内容准确度的权重进行设置，增加了转换文本的多样性，满足了不同用户的使用需求。

在一些实施例中，获取所述智能设备的应答模式，包括：

所述应答模式是根据用户的设置生成的；或

所述应答模式是通过采样各用户的交互信息确定的。

如此，用户可以根据自己的需求选择不同的应答模式进行聊天，相当于可以与音频风格和文本风格不同的用户类型进行聊天，丰富了用户的选择，提升了用户体验；此外，还可通过采样各用户的交互信息确定应答模式，节省了用户的操作，提升了聊天的智能程度。

本发明实施例还提供一种智能设备，包括：

声音采集器，用于获取智能设备采集的用户语音；

控制器，用于：

确定所述用户语音的应答并获取所述智能设备的应答模式；所述应答模式包括应答音频风格；

根据所述应答和所述样本音频，生成符合所述应答音频风格的处理语音；

音频输出器，用于通过所述智能设备播放所述处理语音。

本发明实施例还提供一种计算设备，包括：

存储器，用于存储计算机程序；

处理器，用于调用所述存储器中存储的计算机程序，按照获得的程序执行上述任一方式所列智能设备的交互方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行上述任一方式所列智能设备的交互方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示例性示出了根据实施例中智能设备与控制装置之间操作场景的示意图；

图2为本发明实施例示出的一种智能设备的硬件配置框图；

图3为本发明实施例示出的一种智能设备的交互方法；

图4为本发明实施例示出的另一种智能设备的交互方法；

图5为本发明实施例示出的一种智能设备进行音频风格迁移的方法；

图6为本发明实施例示出的另一种智能设备的交互方法；

图7为本发明实施例示出的另一种智能设备的交互方法；

图8为本发明实施例示出的一种对前向模型进行训练的方法；

图9为本发明实施例中所涉及到的整体性流程的示意图；

图10为本发明实施例中所涉及到的整体性流程的示意图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

图1中示例性示出了根据实施例中智能设备与控制装置之间操作场景的示意图。如图1中示出，用户可通过移动终端300和控制装置100操作智能设备200，用户也可直接与智能设备200进行聊天交互，智能设备200可与服务器400进行数据通信。

在一些实施例中，控制装置100可以是遥控器，遥控器和智能设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式等，通过无线或其他有线方式来控制智能设备200。用户可以通过遥控器上按键，语音输入、控制面板输入等输入用户指令，来控制智能设备200。如：用户可以通过遥控器上开启聊天模式、选择聊天对象、视频录制按键、音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令，来实现控制智能设备200的功能。

如图1中还示出，智能设备200还与服务器400通过多种通信方式进行数据通信。可允许智能设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向智能设备200提供各种内容和互动。示例的，智能设备200通过发送和接收信息，以及电子节目指南(EPG)互动，接收软件程序更新，或访问远程储存的数字媒体库。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。通过服务器400提供视频点播和广告服务等其他网络服务内容。

智能设备200，可以是电视、音箱、洗衣机、智能盒子、网络盒子、监控设备等。具体智能设备类型，尺寸大小和分辨率等不作限定，本领域技术人员可以理解的是，智能设备200可以根据需要做性能和配置上一些改变。

智能设备200除了提供广播接收电视功能之外，还可以附加提供计算机支持功能的智能网络电视功能，包括但不限于，网络电视、智能电视、互联网协议电视(IPTV)等。

本发明实施例所提供的智能设备的交互方法可运行在智能设备上，也可由智能设备进行语音的采集后上传至服务器，由服务器运行该交互方法。下面以运行在智能设备上为例，介绍一种智能设备200的硬件配置框图，如图2所示。

在一些实施例中，智能设备200中包括控制器250、调谐解调器210、通信器220、检测器230、输入/输出接口255、显示器275，音频输出接口285、存储器260、供电电源290、用户接口265、外部装置接口240中的至少一种。

在一些实施例中，检测器230是智能设备200用于采集外部环境或与外部交互的信号。

在一些实施例中，检测器230还可以包括声音采集器231等，如麦克风，可以用于采集语音数据，当用户通过语音方式说出指令时，麦克风能够采集到包括用户说出的指令的语音数据。示例性的，声音采集器231可以采集包括用户控制智能设备200的控制指令的语音信号，或采集环境声音，用于识别环境场景类型，使得智能设备200可以自适应环境噪声。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制智能设备的工作和响应用户的操作。控制器250可以控制智能设备200的整体操作。例如：响应于接收到用于选择在显示器275上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，音频处理器280，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理，得到可以在扬声器中播放的声音信号。

本发明实施例还提供一种智能设备的交互方法。

在一些实施例中，智能设备确定应答语，会将该应答语转换为相应的音频风格和文本风格，音频风格和文本风格可由用户进行选择。如此，实现了用户和智能设备聊天，会有和样本音频风格和文本风格对应的人聊天的感受，提高了用户体验。

下面以智能设备为音箱为例，介绍这种智能设备的交互方法，如图3所示。

步骤301、在确定处于交互状态时，获取智能设备采集的用户语音；

步骤302、确定所述用户语音的应答文本并获取所述智能设备的应答模式；所述应答模式包括应答音频风格；

步骤303、获取所述应答音频风格对应的样本音频；所述样本音频为预先录制的各用户的音频数据；

步骤304、根据所述应答文本和所述样本音频，生成符合所述应答音频风格的应答语音；

步骤305、通过所述智能设备播放所述应答语音。

在步骤301中，可以通过如下方式确定智能设备与用户处于交互状态：用户通过控制装置控制智能设备开启聊天模式、用户通过特定的语音唤醒词唤醒智能设备进入聊天模式。以上仅为示例，本发明实施例对此不作限制。处于交互状态后，智能设备采集用户的用户语音。

在步骤302中，根据用户语音确定应答文本可以通过IMN(Interactive MatchingNetwork交互式匹配网络)模型等多轮对话检索模型。该多轮对话检索模型可以认为是，当确定用户与智能设备对话时，对话模型可给出聊天回复作为应答文本。以上仅为示例，本发明实施例对此不作限制。

智能设备的应答模式可根据用户的设置生成，如用户可选择自己想要与之对话的风格，如可爱型、严肃型；也可选择自己想要与之对话的人物，如卡通人物、明星、自己熟悉的亲人朋友等。也可是通过采样各用户的交互信息确定的，如记录用户上一次选择的应答模式，在确定处于交互状态后，自动使用用户上一次选择的应答模式；如用户经常选择同一种应答模式，选择次数达到规定阈值，则智能设备会在下一次确定处于交互状态后自动选择该应答模式；上述设置可由用户根据自己的需要进行更改调整。本发明实施例对此不作限制。

在步骤303中，根据用户选择的应答模式，获取该应答模式对应的样本音频，样本音频为预先录制的各用户的音频数据。例如，录制用户A和用户B分别与智能设备进行对话的音频数据，当用户C想要与用户A风格的智能设备聊天时，通过智能设备选择用户A的应答模式，智能设备即调用用户A对应的样本音频。

在步骤304中，根据调用的样本音频，将应答文本转换为样本音频对应的音频风格的应答语音。例如，若用户C选择了用户A的应答模式，则智能设备可以将任意应答转换为用户A的音频风格，与用户C进行对话。

在一些实施例中，根据所述应答文本和所述样本音频，生成符合所述应答音频风格的应答语音，包括如下步骤，如图4所示：

步骤401、生成所述应答文本对应的机器语音，将所述机器语音转换为机器频谱图；

若应答文本为文本的形式，则将其转换为音频形式，可使用TTS(Text ToSpeech从文本到语音)模型进行转换，再转换为频谱图，便于从图像中提取出音频风格。

步骤402、将所述样本音频转换为样本频谱图；

步骤403、通过内容编码器确定所述机器频谱图的语音内容；

步骤404、通过音频编码器确定所述样本频谱图的音频风格；

步骤405、通过解码器对所述语音内容和所述音频风格进行处理，得到符合所述应答音频风格的应答语音。

在一些实施例中，步骤401和步骤403不分先后顺序，也可同时进行，本发明实施例对此不作限制。

图5示出了进行音频风格转换的方法。具体为，将机器语音对应的机器频谱图送入内容编码器，将样本音频对应的样本频谱图送入音频编码器，再通过解码器即可得到符合样本音频的音频风格的应答语音。样本音频为预先录制的各用户的音频数据，无需录制各用户的大量音频数据，只需分别录制各用户的一句或多句音频数据，即可通过音频编码器解析出其音频风格。

在一些实施例中，所述应答模式还包括应答文本风格；

在一些实施例中，根据所述应答文本和所述样本音频，生成符合所述应答音频风格的应答语音，包括如下步骤，如图6所示：

步骤601、将所述应答文本转换为具有所述应答文本风格的用户应答；

不同的人说话习惯不同，为了营造更加真实的与真人聊天的效果，可以提取各用户说话的文本风格，使应答不仅在声音上更像真人，文本表达习惯也更趋近于真人。例如，用户C选择用户A的应答模式，则智能设备会提取用户A的文本风格，将原本为“去吃早饭啊”的应答文本，转换为用户A的文本风格“去过早啊”，如此，使智能设备在文本表达上更像用户A。

具体为：将所述应答文本输入所述应答文本风格对应的前向模型，生成所述用户应答；其中，前向模型是基于文本风格评价模型的第一激励和文本内容评价模型的第二激励进行训练得到的；所述第一激励是所述文本风格评价模型基于所述用户应答是否符合所述应答文本风格得到的；所述第二激励是所述文本内容评价模型基于后向模型针对所述用户应答输出的模型应答与所述应答文本的差距确定的。

步骤602、根据所述用户应答和所述样本音频，生成符合所述应答模式的应答语音。

在一些实施例中，前向模型是基于文本风格评价模型的第一激励和文本内容评价模型的第二激励进行训练得到的，包括如下训练步骤，如图7所示：

步骤701、获取用户的样本音频；

记录用户与智能设备的大量多轮对话数据作为训练语料对模型进行训练。例如，将用户A与智能设备进行的对话进行录制存储，对话即为样本音频。例如对话可以为：——“去干嘛呢？”——“去过早啊”，等类似对话，这些对话反映了用户A的文本表达风格。

步骤702、提取所述样本音频中的文本内容作为目标文本；

若样本音频为音频形式，则需将其转换为文本形式。

步骤703、确定所述目标文本对应的机器表达文本；

目标文本对应的机器表达文本可以人工进行标注，也可以模型通过搜索引擎搜索得来。如目标文本中的“去过早啊”，转换为其对应的机器表达文本：“去吃早饭啊”，如此便获取了目标文本和机器表达文本的对应关系，作为后续优化模型的训练语料。

步骤704、将所述机器表达文本输入所述前向模型得到第一转换文本；

结合图8进行介绍。例如，将前述例子中的机器表达文本“去吃早饭啊”输入前向模型得到第一转换文本。

步骤705、通过所述文本风格评价模型，确定所述第一转换文本与所述目标文本之间的第一激励；

文本风格评价模型用于评价第一转换文本是否符合目标文本的文本风格，如果前向模型输出的第一转换文本是“去吃早点啊”，很明显，不是目标文本的文本风格，则第一激励会给出较低的评价分数；如果前向模型输出的第一转换文本是“去吃午饭啊”，同样不是目标文本的文本风格，则第一激励会给出较低的评价分数；如果前向模型输出的第一转换文本是“去过早啊”，则符合目标文本的文本风格，第一激励会给出较高的评价分数。

步骤706、将所述第一转换文本输入所述后向模型得到第二转换文本；

步骤707、通过所述文本内容评价模型，确定所述第二转换文本和所述机器表达文本之间的第二激励；

文本内容评价模型用于评价第一转换文本是否符合目标文本的文本内容，即判断第一转换文本是否还保留了正确的机器文本所要表达的含义。具体做法是，再通过后向模型将第一转换文本转换为第二转换文本，并通过内容评价模型给出第二转换文本和机器表达文本之间是否相似的判断。若第二转换文本为“去吃早饭”，则与机器表达文本的“去吃早饭啊”非常对应，第二激励会给出较高的评价分数；若第二转换文本为“去吃午饭”，则第二激励会给出较低的评价分数。

步骤708、根据所述第一激励和所述第二激励调整所述前向模型，直至训练结束。

结合第一激励和第二激励给出的评价分数，可以对前向模型进行进一步的优化调整。如此不断地输入训练语料，使前向模型不断地进行优化训练。用户不同，记录的训练语料就不同，则其对应训练的前向模型也是不同的。如采用用户A与智能设备进行的多轮对话作为训练语料，则训练得到的是能够转换成用户A文本风格的前向模型；如采用用户B与智能设备进行的多轮对话作为训练语料，则训练得到的是能够转换成用户B文本风格的前向模型。

如用户更加注重转换的文本风格的准确度，则将文本风格评价模型所得到的第一激励所占据的比重设置地较高，而文本内容评价模型所得到的第二激励所占据的比重设置地较低，如二者的比重可设置为：7:3。以上仅为示例，本发明实施例对此不作限制。设置过后，进行训练得到的前向模型会更加注重文本风格转化的准确度，对文本内容准确度的把控会稍微减弱。

为了更清楚地介绍上述智能设备的交互方法，下面从用户A与智能设备进行交互的角度进行说明，用户A与智能设备的对话为智能设备进行文本风格和音频风格转换的样本。如图9所示。

步骤901、确定是否进行对话录制，若是，则进入步骤802；

步骤902、录制用户A的音频作为样本音频，记录音频风格和文本风格；

如果进行音频风格迁移，则录制一两句音频数据，即可通过音频编码器解析出其音频风格；如果进行文本风格迁移，则需录制大量的用户A与智能设备的对话，作为文本风格迁移模型的训练语料。考虑到保护用户的隐私，因此录制过程不会一直持续，而是通过用户对录制的时间段进行设置保证在用户认为合适的时间段进行对话的采集，如用户通过智能设备上的按键开启/结束音频录制。

步骤903、输入第一激励和第二激励的权重；

步骤904、试用自定义聊天；

步骤905、用户A是否满意？若是，则进入步骤806，若否，则返回步骤802；

步骤906、为用户A自定义名字(举例：小虎妞)；

步骤907、将设置信息存入数据库(包含音频风格和文本风格)；

步骤908、设置完毕，退出自定义设置模式；

为了更清楚地介绍上述智能设备的交互方法，下面从用户C与智能设备进行交互的角度进行说明，当用户C想要使智能设备以用户A的方式与自己聊天时，选择用户A的应答模式，智能设备则将应答转换为相应的音频风格和文本风格，从而实现与用户A风格的智能设备聊天。如图10所示。

步骤1001、用户C选择应答模式(举例：我要和小虎妞聊天)

步骤1002、确定是否调用高级自定义设置，若是，则进入步骤10021；若否，进入步骤1003；

步骤1003、确定是否调用普通自定义设置，若是，则进入步骤10031；若否，进入步骤10041；

步骤10021、通过聊天IMN模型，输出聊天模型的回复r1；

步骤10022、通过文本风格迁移，输出聊天模型的回复r2(符合用户A的文本风格)；

步骤10023、TTS语音合成，输出基于回复r2的语音；

步骤10024、进行音频风格迁移；

步骤10025、输出符合用户A的文本风格和音频风格的语音；

步骤10031、通过聊天IMN模型，输出聊天模型的回复r1；

步骤10032、TTS语音合成，输出基于回复r1的语音；

步骤10033、进行音频风格迁移；

步骤10034、输出符合用户A的音频风格的语音；

步骤10041、通过聊天IMN模型，输出聊天模型的回复r1；

步骤10042、TTS语音合成；

步骤10043、输出没有用户A音频风格的语音；

本发明实施例还提供一种计算设备，包括：

存储器，用于存储计算机程序；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种智能设备的交互方法，其特征在于，包括：

获取智能设备采集的用户语音；

确定所述用户语音的应答文本并获取所述智能设备的应答模式；所述应答模式包括应答音频风格；所述应答音频风格包括对话风格和/或对话人物；所述应答模式还包括应答文本风格；

根据所述应答文本和所述样本音频，生成符合所述应答音频风格的应答语音；其中，将所述应答文本输入所述应答文本风格对应的前向模型，生成用户应答；

通过所述智能设备播放所述应答语音；

其中，所述前向模型是基于文本风格评价模型的第一激励和文本内容评价模型的第二激励进行训练得到的；所述第一激励是所述文本风格评价模型基于所述用户应答是否符合所述应答文本风格得到的；所述第二激励是所述文本内容评价模型基于后向模型针对所述用户应答输出的模型应答与所述应答文本的差距确定的；

所述前向模型是基于文本风格评价模型的第一激励和文本内容评价模型的第二激励进行训练得到的，包括：

获取用户的样本音频；

提取所述样本音频中的文本内容作为目标文本；

确定所述目标文本对应的机器表达文本；

将所述机器表达文本输入所述前向模型得到第一转换文本；

将所述第一转换文本输入所述后向模型得到第二转换文本；

2.如权利要求1所述的方法，其特征在于，包括：

将所述样本音频转换为样本频谱图；

通过内容编码器确定所述机器频谱图的语音内容；

通过音频编码器确定所述样本频谱图的音频风格；

3.如权利要求1或2所述的方法，其特征在于，

4.如权利要求1所述的方法，其特征在于，

所述第一激励和所述第二激励在模型训练过程中占据的权重可由用户根据自身对文本风格准确度和文本内容准确度的需求进行设置。

5.如权利要求1所述的方法，其特征在于，获取所述智能设备的应答模式，包括：

所述应答模式是根据用户的设置生成的；或

所述应答模式是通过采样各用户的交互信息确定的。

6.一种智能设备，其特征在于，包括：

声音采集器，用于获取智能设备采集的用户语音；

控制器，用于：

确定所述用户语音的应答并获取所述智能设备的应答模式；所述应答模式包括应答音频风格；所述应答音频风格包括对话风格和/或对话人物；所述应答模式还包括应答文本风格；

根据所述应答和所述样本音频，生成符合所述应答音频风格的处理语音；其中，将所述应答文本输入所述应答文本风格对应的前向模型，生成用户应答；

音频输出器，用于通过所述智能设备播放所述处理语音；

获取用户的样本音频；

提取所述样本音频中的文本内容作为目标文本；

确定所述目标文本对应的机器表达文本；

将所述机器表达文本输入所述前向模型得到第一转换文本；

将所述第一转换文本输入所述后向模型得到第二转换文本；

7.一种计算设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于调用所述存储器中存储的计算机程序，按照获得的程序执行权利要求1至5任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行权利要求1至5任一项所述的方法。