CN110942774A

CN110942774A - 一种人机交互系统、其对话方法、介质和设备

Info

Publication number: CN110942774A
Application number: CN201911275013.9A
Authority: CN
Inventors: 周思丞; 苏少炜; 陈孝良; 常乐
Original assignee: Beijing Sound Intelligence Technology Co Ltd
Current assignee: Beijing Sound Intelligence Technology Co Ltd; Beijing SoundAI Technology Co Ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-03-31

Abstract

本发明公开了一种人机交互系统、其对话方法、介质和设备，接收输入的对话音频，并将接收的对话音频转换为对话文本；根据对话文本，采用文本生成模型生成符合语义的应答文本；将生成的应答文本转换为音频进行响应；其中，文本生成模型为经过生成对抗网络优化后的生成模型。采用经过生成对抗网络优化后的文本生成模型，根据输入的对话文本的语义，生成符合对话内容的应答文本，由此代替现有技术中的固定句式的回复方式，丰富人机交互的对话内容，提升用户体验。

Description

一种人机交互系统、其对话方法、介质和设备

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种人机交互系统、其对话方法、介质和设备。

背景技术

随着人工智能技术的不断发生，现阶段越来越多的产品具备智能对话的功能，例如很多的智能终端上都具备语音识别系统，用户通过与终端对话就可以控制终端查询内容或执行相应的功能，为人们日常工作和生活提供了很多的便利。

而目前的人机交互系统的对话应答通常是前期设定好的固定回复句式，根据不同的对话内容，事先设定好应答句式，并对变化的内容留出槽位。当接收到用户的对话时，解析用户的意图，再通过调用第三方接口获取到用户需要的内容，通过将获取结果填充到槽位中，以固定的句式回复用户。

这种对话方式，只能应对事先设计好的对话，而对于超出设定范围的对话机器往往不能了解用户意图，因此不能做出回应或采用设定的通用方式进行回应，并且这样对话的回复方式固化生硬，影响用户的使用体验。

发明内容

本发明提供一种人机交互系统、其对话方法、介质和设备，结合生成对抗网络，用以根据对话语文生成应答，提升用户体验。

第一方面，本发明提供一种人机交互系统的对话方法，包括：

接收输入的对话音频，并将接收的所述对话音频转换为对话文本；

根据所述对话文本，采用文本生成模型生成符合语义的应答文本；其中，所述文本生成模型为经过生成对抗网络优化后的生成模型；

将生成的所述应答文本转换为音频进行响应。

在一种可实现的实施方式中，在本发明提供的上述方法中，所述根据所述对话文本，采用文本生成模型生成符合语义的应答文本，包括：

将所述对话文本进行编码，形成编码向量；

根据形成的所述编码向量以及所述文本生成模型优化后的概率分布，生成符合所述对话文本语义的映射向量；

将所述映射向量进行解码，生成所述应答文本。

在一种可实现的实施方式中，在本发明提供的上述方法中，所述生成对抗网络包括：文本生成模型和判别模型；

所述生成对抗网络通过以下方式对所述文本生成模型进行优化：

根据所述对话文本，采用文本生成模型生成符合语义的应答文本；

将生成的所述应答文本和真实文本输入所述判别模型进行样本判别；

根据所述判别模型的判别结果对所述文本生成模型或所述判别模型进行迭代优化。

在一种可实现的实施方式中，在本发明提供的上述方法中，当判别模型判别出一个正确样本和一个错误样本时，判别结果等于设定阈值；当判别模型判别出一个以上的正确样本时，判别结果大于所述设定阈值；

所述根据所述判别模型的判别结果对所述文本生成模型或所述判别模型进行迭代优化，包括：

在判别结果为所述设定阈值时，对所述文本生成模型进行优化；

在判别结果大于所述设定阈值时，对所述判别模型进行优化。

在一种可实现的实施方式中，在本发明提供的上述方法中，所述文本生成模型采用长短时神经网络。

在一种可实现的实施方式中，在本发明提供的上述方法中，所述判别模型为卷积神经网络。

第二方面，本发明提供一种人机交互系统，包括：

音频接收单元，用于接收输入的对话音频，并将接收的所述对话音频转换为对话文本；

文本生成单元，用于根据所述对话文本，采用文本生成模型生成符合语义的应答文本；其中，所述文本生成模型为经过生成对抗网络优化后的生成模型；

文本转换单元，用于将生成的所述应答文本转换为音频进行响应。

在一种可实现的实施方式中，在本发明提供的上述系统中，所述文本生成单元，具体用于将所述对话文本进行编码，形成编码向量；根据形成的所述编码向量以及所述文本生成模型优化后的概率分布，生成符合所述对话文本语义的映射向量；将所述映射向量进行解码，生成所述应答文本。

在一种可实现的实施方式中，在本发明提供的上述系统中，所述生成对抗网络包括：文本生成模型和判别模型；

在一种可实现的实施方式中，在本发明提供的上述系统中，当判别模型判别出一个正确样本和一个错误样本时，判别结果等于设定阈值；当判别模型判别出一个以上的正确样本时，判别结果大于所述设定阈值；

第三方面，本发明提供一种人机交互设备，包括：包括：处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存储的程序时，实现上述任一方法。

第四方面，本发明提供一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行上述任一方法。

本发明提供的人机交互系统、其对话方法、介质和设备，在接收输入的对话音频时，将接收的对话音频转换为对话文本；根据对话文本，采用文本生成模型生成符合语义的应答文本；将生成的应答文本转换为音频进行响应；其中，文本生成模型为经过生成对抗网络优化后的生成模型。采用经过生成对抗网络优化后的文本生成模型，根据输入的对话文本的语义，生成符合对话内容的应答文本，由此代替现有技术中的固定句式的回复方式，丰富人机交互的对话内容，提升用户体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的人机交互系统的对话方法的流程图之一；

图2为本发明实施例提供的人机交互系统的对话方法的流程图之二；

图3为本发明实施例提供的编码-解码架构示意图；

图4为本发明实施例提供的生成对抗网络的原理示意图；

图5为本发明实施例提供的人机交互系统的结构示意图；

图6为本发明实施例提供的人机交互设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例提供一种人机交互系统的对话方法，该人机交互系统为具有语音播放功能的，且可以进行语音识别的终端或设备。人机交互系统可以识别到用户的语音，并根据用户输入的语音回复符合语义的应答，可以实现人机之间的智能语音对话。本发明实施例提供的上述人机交互系统克服了传统固定句式回复用户问题的缺陷，给用户带来更好的人机对话体验。

具体地，本发明实施例的第一方面，提供一种人机交互系统的对话方法。图1为本发明实施例提供的人机交互系统的对话方法的流程图之一，如图1所示，该对话方法可以包括：

S10、接收输入的对话音频，并将接收的对话音频转换为对话文本；

S20、根据对话文本，采用文本生成模型生成符合语义的应答文本；

S30、将生成的应答文本转换为音频进行响应；

其中，文本生成模型为经过生成对抗网络优化后的生成模型。

本发明实施例提供的上述文本生成模型采用经过生成对抗网络优化后的文本生成模型，根据输入的对话文本的语义，生成符合对话内容的应答文本，由此代替现有技术中的固定句式的回复方式，丰富人机交互的对话内容，提升用户体验。

上述文本生成模型可为智能回复引擎，可以根据用户输入的对话文本，生成符合语义的应答文本。不同于现有的填槽答复方式，本发明实施例提供的文本生成模型取代了调用第三方接口获取用户所需要的信息的模式，而是通过学习训练文本生成模型，由文本生成模型直接生成与输入的对话文本相适应的应答文本。文本生成模型采用自然语言处理((Natural Language Processing，简称NLP)技术根据无监督数据样本学习自然语文的语法和词语，同时利用生成对抗网络不断优化文本生成模型的效果，从而能够生成和人类说话方式类似的应答文本，将该应答文本转化为音频输出，实现人机对话，给用户带来优异体验。

图2为本发明实施例提供的人机交互系统的对话方法的流程图之二，如图2所示，在上述的步骤S20中，根据对话文本，采用文本生成模型生成符合语义的应答文本，可以包括：

S201、将对话文本进行编码，形成编码向量；

S202、根据形成的编码向量以及文本生成模型优化后的概率分布，生成符合对话文本语义的映射向量；

S203、将映射向量进行解码，生成应答文本。

具体地，本发明实施例提供的上述文本生成模型可以采用序列到序列(SequenceTo Sequence，简称Seq2Seq)算法框架，通过编码到解码(Encoder-Decoder)框架实现，Encoder和Decoder部分可以是任意的文字，模型可以采用卷积神经网络(ConvolutionalNeural Networks，简称CNN)、循环神经网络(Recursive Neural Network，简称RNN)、长短期记忆神经网络(Long Short Term Memory network，简称LSTM)、门控循环单元网络(Gated Recurrent Unit，简称GRU)、双向长短时记忆神经网络(Bidirectional LongShort-Trem Memory Networks，简称BLSTM)等等，在此不做限定。其中，Encoder-Decoder框架如图3所示，在接收到用户输入的语音，并将该语音转换为对话文本(x1,x2,x3,x4)之后，对该对话文本进行文本向量化处理，即采用编码器Encoder将对话文本编码将输入序列转化成一个编码向量，而文本生成模型根据学习得到的联合概率分布可以预测出与对话文本中的每个词语相关性最高的映射词语，这些映射词语可以根据出现概率由大到小的顺序进行排序，得到上述的映射向量，该映射向量经过解码器Decoder解码之后即得到与上述对话文本对应的应答文本(y1,y2,y3)。在本发明实施例中的编解码部分可以采用CNN、RNN、LSTM、GRU、BLSTM等神经网络实现。

进一步地，本发明实施例文本生成模型在使用之前需要进行优化，从而可以使文本生成模型可以生成与对话语境语义相适应的应答文本，使人机对话接近于真实对话的情形。

具体来说，传统的Seq2Seq模型可以作为文本生成模型，但是对该模型的训练依赖于预先筛选好的对话语料对进行训练学习，也就是说对其进行训练学习的语料均需要进行人工筛选，保证语料对的正确性，才能得到比较好的训练结果。然而，这样有监督语料的获取并不容易，并且还需要对获取到的语料进行信息的标注，而训练文本生成模型又需要依赖于大量的语料，因此采用传统方式对文本生成器进行训练的难度较大。介于有监督语料数量有限，因此文本生成器的训练结果并不理想。采用这样的文本生成模型所生成的文本可以符合自然语言的规则，但并不能完全适用于对话的语境语义，使得用户的对话体验不高。

本发明实施例为了克服以上问题，采用生成对抗网络对文本生成模型进行优化训练。生成对抗网络的主要思想为博弈论，让模型在训练过程中自我对抗。生成对抗网络可以采用无监督的方式使生成网络与判别网络进行自动对抗，不断提升自身能力。也就是说，生成对抗网络并不需要依赖有监督语料样本进行训练，只需要提供足够的无监督语料样本，文本生成模型可自动学习语料中的语义，在进行回复时既可以生成符合自然语言规则的文本，同时生成的文本也符合对话的语境和语义，由此提升用户的对话体验。

本发明实施例中的应答文本由生成对抗网络中的文本生成模型生成，为了将生成对抗网络应用于NLP的对话生成中来，本发明实施例通过设置一个语义合成层来将输入的对话文本，形成编码的词向量_i通过下式合成为句子矩阵：

其中，x为每个单词，w为对应的转换向量，最终得到句子矩阵M。以该句子矩阵M作为文本生成模型的输入。

具体地，生成对抗网络包括：文本生成模型和判别模型。

在进行模型训练时，生成对抗网络通过以下方式对文本生成模型进行优化：

根据对话文本，采用文本生成模型生成符合语义的应答文本；

将生成的应答文本和真实文本输入判别模型进行样本判别；

根据判别模型的判别结果对文本生成模型或判别模型进行迭代优化。

可选地，文本生成模型可以通过观测数据学习语料样本的联合概率分布，从而根据输入样本以及学习到的联合概率分布生成符合样本分布的新数据；而判别模型是将跟踪问题看成一个二分类问题，然后寻找生成样本和真实样本之间的差异，从而对输入的样本进行归类。生成对抗网络的训练目标为，使文本生成模型生成的应答文本更加趋近于真实对话的应答，而使判别模型具有较高的判别水平，可以在生成文本和真实文本中总能够识别出生成文本。这样，在判别模型和文本生成模型不断的优化过程之后，文本生成模型就可以生成符合对话语义，与真实对话场景十分相似的应答文本，从而可以与用户进行智能聊天对话。

图4为本发明实施例提供的生成对抗网络的原理示意图，如图4所示，文本生成模型与判别模型是根据判别模型的判别结果进行优化的。判别模型在接收到文本生成模型的生成文本和真实文本之后进行判别，如果判别模型判别出正确样本，则判别结果为1，如果判别模型判别出错误样本，则判别结果为0。那么当判别模型判别出输入的两个样本中一个为正确样本，另一个为错误样本时，判别结果可为0.5；而当判别模型判别出输入的两个样本中存在一个以上的正确样本时，判别结果可大于0.5。此时，可将0.5设置为阈值，从而根据判别结果与阈值的关系来决定进行一轮文本生成模型的优化还是进行一轮判别模型的优化。具体可参见图4，在判别结果等于上述设定阈值时，对文本生成模型进行优化；而在判别结果大于上述设定阈值时，则对判别模型进行优化。

由此在进行多轮的迭代优化之后，文本生成模型和判别模型的能力均有所提升，且文本生成模型在无监督样本的学习下，可以生成符合语义的对应文本。相比于现有技术依赖于大量有监督样本的训练方式，采用生成对抗网络对文本生成模型进行训练的难度降低，且训练效果更加优异。

由于本发明实施例中的生成对抗网络的文本生成模型的输出是离散的，梯度更新从判别模型传到文本生成模型比较困难，本发明实施例采用强化学习与生成对抗网络结合，将生成对抗网络中的判别模型对整个序列的评分作为强化学习的激励信号。

由于判别模型需要对完整的文本序列进行辨别，为了评估中间状态的动作值，可以结合注意力(Attention)算法，计算生成的每个词语的概率分布，使用Roll-out策略与蒙特卡洛搜索算法对未知词语进行采样，得到完整的文本序列后使用判别模型计算激励值。

如果以θ为参数的文本生成模型G_θ，通过输入来自真实数据的正样本和来自文本生成模型的负样本来训练判别模型D。文本生成模型的目标是最大化期望来自判别模型的激励J，如下式所示：

其中，R_T是完全生成序列的激励，来自判别模型D，

是整个序列的动作价值函数，表示从状态s₀开始，依据策略G采取动作a直到结束所得到的期望累计激励，因为判别模型只能当序列被完全生成后才能返回一个激励，所以考虑到长远的利益，需要顾及中间时间步骤上的动作价值，本文使用蒙特卡洛搜索算法和Roll-out策略来对剩下的T-t个未知单词进行采样，整个搜索过程可以表示为：

其中，Y_1:t为t时刻的文本序列，进行N次蒙特卡洛搜索后，得到一个batch为N的输出样本。将得到的样本全部计算激励并求平均值，如下式所示：

其中，

为动作a＝y_t的激励值，从式中可以看很出，当没有中间激励时，函数被迭代的定义为从状态s′＝Y_1:t开始的下一个状态值，直到序列结束，使用判别模型D_φ作为激励函数可以动态地更新以进一步改进文本生成模型。

在具体实施中，本发明实施例提供的上述文本生成模型和判别模型可以采用CNN、RNN、LSTM、GRU、BLSTM等神经网络中的任意一种神经网络构架。

可选地，根据自然语言的时序特性，生成网络采用LSTM相较于一般的神经网络，LSTM采用逐词迭代的方法对词向量进行建模。生成的文本会根据词语间的依赖关系生产出更符合语言逻辑的话术。

判别网络依赖较强的特征提取和融合的能力，因此选择卷积神经网络作为判别模型。卷积神经网络利用卷积核，不断的对语句进行特征提取和降维，最终将特征信息融合并进行分类，能够很好的作为判别网络对生成的样本进行检测。

本发明实施例的第二方面，提供一种人机交互系统，图5为本发明实施例提供的人机交互系统的结构示意图，如图5所述，该人机交互系统，可以包括：

音频接收单元51，用于接收输入的对话音频，并将接收的对话音频转换为对话文本；

文本生成单元52，用于根据对话文本，采用文本生成模型生成符合语义的应答文本；

文本转换单元53，用于将生成的应答文本转换为音频进行响应；

上述文本生成模型采用经过生成对抗网络优化后的文本生成模型，根据输入的对话文本的语义，生成符合对话内容的应答文本，由此代替现有技术中的固定句式的回复方式，丰富人机交互的对话内容，提升用户体验。

可选地，文本生成单元52，具体用于将对话文本进行编码，形成编码向量；根据形成的编码向量以及文本生成模型优化后的概率分布，生成符合对话文本语义的映射向量；将映射向量进行解码，生成应答文本。

可选地，生成对抗网络包括：文本生成模型和判别模型；

生成对抗网络通过以下方式对文本生成模型进行优化：

将生成的应答文本和真实文本输入判别模型进行样本判别；

可选地，当判别模型判别出一个正确样本和一个错误样本时，判别结果等于设定阈值；当判别模型判别出一个以上的正确样本时，判别结果大于设定阈值；

根据判别模型的判别结果对文本生成模型或判别模型进行迭代优化，包括：

在判别结果为设定阈值时，对文本生成模型进行优化；

在判别结果大于设定阈值时，对判别模型进行优化。

可选地，文本生成模型和判别模型可以采用CNN、RNN、LSTM、GRU、BLSTM等神经网络中的任意一种神经网络构架，在此不做限定。

本发明实施例的第三方面，提供一种人机交互设备，图6为本明实施例提供的人机交互设备的结构示意图，如图6所述，该人机交互设备，可以包括：处理器61、通信接口62、存储器63和通信总线64，其中，处理器61，通信接口62，存储器63通过通信总线64完成相互间的通信；

存储器63，用于存放计算机程序；

处理器61，用于执行存储器63上所存储的程序时，实现上述任一人机交互系统的对话方法。

可选地，处理器61，具体用于：

将对话文本进行编码，形成编码向量；

根据形成的编码向量以及文本生成模型优化后的概率分布，生成符合对话文本语义的映射向量；

将映射向量进行解码，生成应答文本。

可选地，生成对抗网络包括：文本生成模型和判别模型；

生成对抗网络通过以下方式对文本生成模型进行优化：

将生成的应答文本和真实文本输入判别模型进行样本判别；

当判别模型判别出一个正确样本和一个错误样本时，判别结果等于设定阈值；当判别模型判别出一个以上的正确样本时，判别结果大于设定阈值；

相应地，在判别结果为设定阈值时，对文本生成模型进行优化；在判别结果大于设定阈值时，对判别模型进行优化。

可选的，所述处理器具体可以包括中央处理器CPU、特定应用集成电路(Application Specific Integrated Circuit，简称ASIC)，可以是一个或多个用于控制程序执行的集成电路，可以是使用现场可编程门阵列(Field Programmable Fate Array，简称FPGA)开发的硬件电路，可以是基带处理器。

可选的，所述处理器可以包括至少一个处理核心。

可选的，所述存储器可以包括只读存储器(Read Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)和磁盘存储器。存储器用于存储至少一个处理器运行时所需的数据。存储器的数量可以为一个或多个。

本发明实施例的第四方面，提供一种非易失性计算机存储介质，该计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现上述任一人机交互系统的对话方法。

在具体的实施过程中，计算机存储介质可以包括：通用串行总线闪存盘USB、移动硬盘、只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的存储介质。

在本发明实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性或其它的形式。

在本发明实施例中的各功能单元可以集成在一个处理单元中，或者各个单元也可以均是独立的物理模块。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备，例如可以是个人计算机，服务器，或者网络设备等，或处理器Processor执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：通用串行总线闪存盘(universal serial bus flash drive)、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例提供的人机交互系统、其对话方法、介质和设备，在接收输入的对话音频时，将接收的对话语音频换为对话文本；根据对话文本，采用文本生成模型生成符合语义的应答文本；将生成的应答文本转换为音频进行响应；其中，文本生成模型为经过生成对抗网络优化后的生成模型。采用经过生成对抗网络优化后的文本生成模型，根据输入的对话文本的语义，生成符合对话内容的应答文本，由此代替现有技术中的固定句式的回复方式，丰富人机交互的对话内容，提升用户体验。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器，使得通过该计算机或其他可编程数据处理设备的处理器执行的指令可实现流程图中的一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图的一个流程或多个流程和/或方框图的一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种人机交互系统的对话方法，其特征在于，包括：

根据所述对话文本，采用文本生成模型生成符合语义的应答文本；所述文本生成模型为经过生成对抗网络优化后的生成模型；

将生成的所述应答文本转换为音频进行响应。

2.如权利要求1所述的方法，其特征在于，所述根据所述对话文本，采用文本生成模型生成符合语义的应答文本，包括：

将所述对话文本进行编码，形成编码向量；

将所述映射向量进行解码，生成所述应答文本。

3.如权利要求1所述的方法，其特征在于，所述生成对抗网络包括：文本生成模型和判别模型；

4.如权利要求3所述的方法，其特征在于，当判别模型判别出一个正确样本和一个错误样本时，判别结果等于设定阈值；当判别模型判别出一个以上的正确样本时，判别结果大于所述设定阈值；

5.如权利要求3所述的方法，其特征在于，所述文本生成模型采用长短期记忆神经网络。

6.如权利要求3所述的方法，其特征在于，所述判别模型为卷积神经网络。

7.一种人机交互系统，其特征在于，包括：

8.如权利要求7所述的系统，其特征在于，所述文本生成单元，具体用于将所述对话文本进行编码，形成编码向量；根据形成的所述编码向量以及所述文本生成模型优化后的概率分布，生成符合所述对话文本语义的映射向量；将所述映射向量进行解码，生成所述应答文本。

9.如权利要求7所述的系统，其特征在于，所述生成对抗网络包括：文本生成模型和判别模型；

10.如权利要求9所述的系统，其特征在于，当判别模型判别出一个正确样本和一个错误样本时，判别结果等于设定阈值；当判别模型判别出一个以上的正确样本时，判别结果大于所述设定阈值；

11.一种人机交互设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存储的程序时，实现权利要求1-6任一项所述的方法。

12.一种非易失性计算机存储介质，其特征在于，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现权利要求1-6任一项所述的方法。