CN108882111A

CN108882111A - 一种基于智能音箱的交互方法及系统

Info

Publication number: CN108882111A
Application number: CN201810554969.1A
Authority: CN
Inventors: 司开放
Original assignee: Sichuan Feixun Information Technology Co Ltd
Current assignee: Sichuan Feixun Information Technology Co Ltd
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2018-11-23

Abstract

本发明提供了一种基于智能音箱的交互方法及系统，其方法包括：当智能音箱进行人机语音交互时，获取交互音频信息，并将所述交互音频信息发送至服务器；所述服务器将所述交互信息音频转换为交互文本信息，并解析所述交互文本信息的交互内容，以及所述交互文本信息的交互类型；所述服务器根据所述交互文本信息的交互内容以及所述交互文本信息的交互类型，生成所述交互文本信息对应的回复信息；所述服务器将所述回复信息发送至所述智能音箱，并由所述智能音箱根据所述回复信息进行人机交互。通过本发明，智能音箱可与用户进行记忆式交互，提高了用户的交互体验。

Description

一种基于智能音箱的交互方法及系统

技术领域

本发明涉及智能音箱领域，尤指一种基于智能音箱的交互方法及系统。

背景技术

随着科技的不断进步，智能音箱逐渐出现在了人们的视野中。智能音箱出色的地方在于它不仅可以播放音乐，还能与用户进行语音交互。

目前的智能音箱设备，只是简单的一问一答的交互模式，这种交互的原理是简单的从用户的提问中提取关键词，再到知识库或网络中检索匹配度高的答案，以此来回答用户。这种模式太过简单，若是用户没有提问，只是进行简单的沟通，智能音箱依然会以回答问题的方式与用户进行沟通，使得智能音箱与用户的对话过于呆板。

基于此，本文拟提出一种基于智能音箱的交互方法及系统。

发明内容

本发明的目的是提供一种基于智能音箱的交互方法及系统，实现了智能音箱记忆式的人机交互。

本发明提供的技术方案如下：

本发明提供了一种基于智能音箱的交互方法，包括步骤：当智能音箱进行人机语音交互时，获取交互音频信息，并将所述交互音频信息发送至服务器；所述服务器将所述交互信息音频转换为交互文本信息，并解析所述交互文本信息的交互内容，以及所述交互文本信息的交互类型；所述服务器根据所述交互文本信息的交互内容以及所述交互文本信息的交互类型，生成所述交互文本信息对应的回复信息；所述服务器将所述回复信息发送至所述智能音箱，并由所述智能音箱根据所述回复信息进行人机交互。

优选的，所述服务器根据所述交互文本信息的交互内容以及所述交互文本信息的交互类型，生成所述交互文本信息对应的回复信息，这一步骤具体包括：当所述交互文本信息为提问式交互类型时，所述服务器根据所述交互内容，从知识库中查询所述交互文本信息对应的回复信息；当所述交互文本信息为非提问式交互类型时，所述服务器根据所述交互文本信息，以及训练文本信息训练得到的记忆神经网络模型，生成所述交互文本信息对应的回复信息。

优选的，根据所述交互文本信息，以及训练文本信息训练得到的记忆神经网络模型，生成所述交互文本信息对应的回复信息，这一步骤具体包括：对训练文本信息进行分词处理，并根据激活函数计算得到每个词语对应的状态参数；通过嵌入层对分词处理后得到的每个词语进行编码，生成向量序列；通过递归层将所述向量序列转换为单个的词语向量；根据每个词语向量对应的状态参数，通过遗忘层删除无效的词语向量；通过输入门将所述交互文本信息转化为输入向量，根据所述输入向量以及遗忘门保留的词语向量，生成所述交互文本信息对应的回复信息。

优选的，根据所述输入向量以及遗忘门保留的词语向量，生成所述交互文本信息对应的回复信息，这一步骤具体包括：根据所述输入向量、当前输入状态以及遗忘门保留的词语向量、历史状态单元，计算当前状态单元；所述输出门根据所述当前状态单元，生成所述交互文本信息对应的回复信息。

优选的，所述服务器通过若干个处理器分别训练所述记忆神经网络模型的各个部分，并将处理结果汇总到主处理器整合为完整的所述记忆神经网络模型。

本发明还提供了一种基于智能音箱的交互系统，包括相互通信连接的智能音箱和服务器：所述智能音箱包括：获取模块，所述获取模块用于当智能音箱进行人机语音交互时，获取交互音频信息；第一发送模块，用于并将所述交互音频信息发送至服务器；所述服务器包括：文本转换模块，用于将所述交互信息音频转换为交互文本信息；解析模块，用于解析所述交互文本信息的交互内容，以及所述交互文本信息的交互类型；交互信息生成模块，用于根据所述交互文本信息的交互内容以及所述交互文本信息的交互类型，生成所述交互文本信息对应的回复信息；第二发送模块，用于将所述回复信息发送至所述智能音箱；所述智能音箱还包括：交互模块，用于根据服务器发送的回复信息进行人机交互。

优选的，交互信息生成模块，还用于当所述交互文本信息为提问式交互类型时，根据所述交互内容，从知识库中查询所述交互文本信息对应的回复信息；交互信息生成模块，还用于当所述交互文本信息为非提问式交互类型时，据所述交互文本信息，以及训练文本信息训练得到的记忆神经网络模型，生成所述交互文本信息对应的回复信息。

优选的，所述服务器还包括：处理模块，用于对训练文本信息进行分词处理，并根据激活函数计算得到每个词语对应的状态参数；所述处理模块，还用于通过嵌入层对分词处理后得到的每个词语进行编码，生成向量序列；所述处理模块，还用于通过递归层将所述向量序列转换为单个的词语向量；所述处理模块，还用于根据每个词语向量对应的状态参数，通过遗忘层删除无效的词语向量；所述处理模块，还用于通过输入门将所述交互文本信息转化为输入向量；交互信息生成模块，还用于根据所述输入向量以及遗忘门保留的词语向量，生成所述交互文本信息对应的回复信息。

优选的，所述服务器还包括：计算模块，用于根据所述输入向量、当前输入状态以及遗忘门保留的词语向量、历史状态单元，计算当前状态单元；所述交互信息生成模块，还用于根据所述当前状态单元，生成所述交互文本信息对应的回复信息。

优选的，还包括：所述处理模块包括若干个处理器，所述处理模块通过若干个处理器分别训练所述记忆神经网络模型的各个部分，并将处理结果汇总到主处理器整合为完整的所述记忆神经网络模型。

通过本发明提供的一种基于智能音箱的交互方法及系统，能够带来以下至少一种有益效果：

1、本发明中服务器首先会识别出交互文本信息的交互类型，根据不同的交互类型，以不同的方式生成回复信息。当为提问式交互类型时，则通过从知识库中查询交互文本信息对应的回复信息即可；当所述交互文本信息为非提问式交互类型时，则根据以及记忆神经网络模型，生成所述交互文本信息对应的回复信息。

2、由于记忆神经网络模块具有学习功能，能够记忆用户所说过的话，因此，根据记忆神经网络模型生成的回复信息会保留一些历史数据，使得交互信息更加生动。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种基于智能音箱的交互方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明一种基于智能音箱的交互方法的一个实施例的流程图；

图2是本发明一种基于智能音箱的交互方法的另一个实施例的流程图；

图3是本发明一种基于智能音箱的交互系统的一个实施例的结构示意图。

附图标号说明：

11-获取模块、12-第一发送模块、13-交互模块；

21-文本转换模块、22-解析模块、23-交互信息生成模块、24-第二发送模块、25-处理模块、26-计算模块。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

本发明提供了一种基于智能音箱的交互方法的一个实施例，如图1所示，包括：

S1当智能音箱进行人机语音交互时，获取交互音频信息，并将所述交互音频信息发送至服务器；

S2所述服务器将所述交互信息音频转换为交互文本信息，并解析所述交互文本信息的交互内容，以及所述交互文本信息的交互类型；

S3所述服务器根据所述交互文本信息的交互内容以及所述交互文本信息的交互类型，生成所述交互文本信息对应的回复信息；

S4所述服务器将所述回复信息发送至所述智能音箱，并由所述智能音箱根据所述回复信息进行人机交互。

具体的，本实施例中，智能音箱连接到无线网络，与服务器建立通信，当智能音箱开启交互功能后，可以获取用户的交互音频信息，然后将交互音频信号发送至服务器。服务器会首先将交互音频信息转换成为交互文本信息，然后通过语义理解，解析出交互文本信息的交互类型。

由于我们平时说话大致可分为提问语句和非提问语句，若是提问语句，则需要根据提问语句的意思查询回答提问问题对应的内容；若是非提问语句，则不会回答提问问题对应的内容，而是评论性的语言或者其他回复语言。因此本实施例中，会根据交互文本信息的交互类型生成所述交互文本信息对应的回复信息，使其回答的内容更加符合用户所交互的内。

如图2所示，本发明提供了一种基于智能音箱的交互方法的一个实施例，包括步骤：

S41当所述交互文本信息为提问式交互类型时，所述服务器从知识库中查询所述交互文本信息对应的回复信息；

S42当所述交互文本信息为非提问式交互类型时，所述服务器根据所述交互文本信息，以及训练文本信息训练得到的记忆神经网络模型，生成所述交互文本信息对应的回复信息。

优选的，步骤S42具体包括：

S421对训练文本信息进行分词处理，并根据激活函数计算得到每个词语对应的状态参数；

S422通过嵌入层对分词处理后得到的每个词语进行编码，生成向量序列；

S423通过递归层将所述向量序列转换为单个的词语向量；

S424根据每个词语向量对应的状态参数，通过遗忘层删除无效的词语向量；

S425通过输入门将所述交互文本信息转化为输入向量，根据所述输入向量以及遗忘门保留的词语向量，生成所述交互文本信息对应的回复信息。

优选的，步骤S425具体包括：

S4251根据所述输入向量、当前输入状态以及遗忘门保留的词语向量、历史状态单元，计算当前状态单元；

S4252所述输出门根据所述当前状态单元，生成所述交互文本信息对应的回复信息。

所述服务器通过若干个处理器分别训练所述记忆神经网络模型的各个部分，并将处理结果汇总到主处理器整合为完整的所述记忆神经网络模型。

具体的，在本实施例中，当智能音箱的服务器收到用户发送的请求时，会首先对问题进行分类，问题的特征提取两种方式，一种是基于现成的自然语言处理开源包特征提取；另一种是基于问题所属的话题类别的特征进行提取。

当所述交互文本信息为提问式交互类型时，服务器可直接从知识库中查询所述交互文本信息对应的回复信息；例如当用户所提问的是：“命运交响曲是谁的作品？”服务器会根据知识库中查询出命运交响曲是贝多芬的作品。然后将回复信息发送至智能音箱，通过智能音箱与用户完成人机交互。

当所述交互文本信息为非提问式交互类型时，服务器，智能音箱会根据具有深度学习功能的记忆神经网络模型，本实施例以LSTM模型为例，将用户的交互信息输入到LSTM模型中，以生成回复信息。

本实施例最重要的一步在于LSTM模型的构建，在构建LSTM模型的过程中，首先需要对训练文本信息进行分词处理，并统计每个词语出现的频率，对大量训练文本信息进行处理后，以获得词语和词频构成嵌入层Embedding中需要的字典长度。

对训练文本信息进行分词处理后，用word2vec生成词语向量,这些词语向量类似于许多像0,1这样的数字组成的维向量，本文用word2vec训练词向量，训练文本信息来自电影的字幕语料、新闻和维基百科的中文语料资源，共5G的语料资源，以及与用户的历史交互信息，每个词以200维表示，这些词向量在后面经过激活层(Activation)的激活函数Sigmoid，会自动计算得到每个词语向量的状态参数，其值为0～1之间数值，其中Sigmoid函数，它能够把输入的连续实值压缩到0和1之间，通过调参数让其为大于参数的值0为1小于参数的值为0，如果为1保存词语，为0舍弃词语。其次，通过嵌入层(Embedding层)对分词处理后得到的每个词语进行编码，生成向量序列，以获得训练模型时的输入形式。

Embedding层接收的输入主要是训练文本信息本身构成的一个词语序列，对每个词用一个整数进行编码，这些整数位于1到input_dim之间(即输入的训练文本有input_dim个词)，并定义这个序列有input_length个单词。通过Embedding层对输入序列进行编码，最后形成密集的output_dim维向量序列。

再次，通过递归层(LSTM层)将所述向量序列转换为单个的词语向量；将Embedding层中输出的向量序列进行变换，转换为单个向量，并包含有关整个序列的信息，该向量维度为units维。

在LSTM模型中，每个时序经过的神经网络都可以理解为含有四个祌经网络层，依次是遗忘门、输入门、比例计算和输出门。LSTM中第一步是决定哪些信息需要从单元状态中抛弃。这项决策是由一个称为“遗忘门”的sigmoid层决定的。当词语向量的状态参数为1时，表示“完全保留”，而词语向量的状态参数为0则表示“完全抛弃”。根据每个词语向量对应的状态参数，通过遗忘层删除无效的词语向量；当词语向量的状态参数为1时，则保留该词语向量；当词语向量的状态参数为0时，则遗忘掉该词语向量。当输入数据经过遗忘门时产生的结果将直接在记忆状态上生效。

用户的交互内容，即交互文本信息通过输入门转化为输入向量，目的是让输入数据以一定比例影响记忆状态,而这个比例是由第三个层(tanh层)来实现的，它取值范围在[-1,1],因此既可以产生正向影响也可以产生负向影响的；经过的最后一个神经网络是输出门，每一时序产生的输出既依赖于输入向量和上一时序的遗忘门的输出，所以输出结果依赖于记忆状态。

当用户与智能音箱交互时，LSTM模型会不断将用户上一时刻的文本信息作为训练文本信息，并根据训练文本信息进行不断的学习记忆，保留带有用户特征的词语向量。用户与智能音箱继续交互时，LSTM模型会根据记忆内容，根据上述四个神经网络层，生成带有用户特征的回复信息。

例如，在交互的过程中，交互信息对应的词语向量中可能包含当前主语及其性别，在交互过程中，我们希望能够筛选出正确的性别代词以及主语。当我们看到新的主语，希望忘记旧的主语，用新主语来替代旧主语，同理用新代词来替代旧代词。在交互过程中，希望输出的回复信息中增加新的主语以及性别到，使得交互更具记忆性。

为了达到这一目的，首先，本实施例通过遗忘门，判断训练文本信息中什么样的信息会被丢弃，每个词语向量可理解成为LSTM神经网络中的细胞，细胞中可能包含当前主语的性别。根据遗忘门中的sigmoid层，计算每个细胞的状态参数，通过遗忘门即可保留正确的代词及主语。它会根据上一时刻的输出h_t-1和当前输入x_t来产生一个0到1的f_t值，来决定是否让上一时刻学习到的信息通过遗忘门。

接下来将判断什么的输入信息被存放，需要更新什么信息，此步骤包括两个部分：1、输入门根据sigmoid来决定哪些词语向量用来更新；2、tanh层用来生成新的候选词语向量{C}_t。将C{t-1}更新为C{t}。我们把旧状态与f_t相乘，丢弃掉我们确定需要丢弃的信息。接着加上i_t*{C}_t，得到新的候选值，即将旧主语替换为新主语，将旧代词替换为新代词，形成具有记忆式的人机交互。

若在前期交互中，获取到姓名为“张三”性别为男的用户后，智能音箱即可将主语更改为“张先生”，使得智能音箱的交互更具记忆性。

最终，我们需要确定输出什么值。这个输出将会基于词语向量，首先，我们运行一个sigmoid层来确定哪个部分将输出出去。接着，我们把词语向量通过tanh进行处理(得到一个在-1到1之间的值)并将它和sigmoid门的输出相乘，最终我们仅仅会输出我们确定输出的那部分。

本实施例中，还包括Dropout层(断开层)，在训练过程中每次更新参数时随机断开一定百分比(rate)的输入神经元，用于防止过拟合；Dense层(全连接层)，全连接层用于高度提纯的特征，方便交给最后的分类器或者回归；激活层(Activation层)，设置模型中激活函数，用于对一个层的输出施加激活函数。

在LSTM模型对有序的对话语料的训练中，为实现拥有记忆功能的智能音箱，这个学习过程是将对话以词为单位一个个的输入到LSTM模型，以输入文本的下一个句子作为标签值调参的过程。本文中的词用200维的浮点数向量表示，因此神经网络的输入层为200个单元，训练语料为3765.89万条字幕数据。由于神经网络本身结构复杂(输入层维度、隐藏层维度大)，参与训练的数据量大，在实际操作中神经网络循环调参计算会异常复杂，效率很低。单机上的训练时长不切实际。

在实际操作中，这两种情况将同时出现，如果是大型网络少量训练数据或是小型网络海量训练数据的情况，则往往导致欠拟合或过拟合，不能有很好的泛化效果。

本实施例中调研了神经网络的并行化训练的两种方式，分别是数据并行和模型并行，其中模型并行是将神经网络拆分成几个分片，由几个机器分别持有，再共同完成训练，需要的通信开销和数据同步消耗较大，更适用于占用空间资源更大的神经网络模型，因此本方案考虑设计基于数据并行的分布式并行训练方式。数据并行是指将训练样本做切分，并赋予不同机器部分数据，再分别由不同机器进行训练，最终完成并行化训练过程。训练过程中需要不断进行参数更新，由于并行化训练使得每台机器只有部分数据量，分别进行参数更新的过程得不到全部数据的修正，因此需要在各个机器训练过程中加入参数交换，参数交换过程由统一的参数服务器协调完成，每台机器上需要更新的参数将参数的变化量发送给参数服务器，由参数服务器得到一次更新的全部更新值后，一次性更新全部参数，后将更新过的新参数值分发到集群各个机器上，以此为更新后的参数继续训练。使用分布式集群使得系统整体运行时间消耗在很大程度上降低，效率得以大幅度提升。

平行分布式模式包含两种形式，一种是模型并行，一种是数据并行，模型并行为分布式集群的每台主机计算网络的不同部分，数据并行则是每台机器都参与整个模型的计算，将训练数据集分成几部分由每台机器完成计算，最后将计算结果合并。在本文对聊天机器人的设计中，选定的神经网络为LSTM模型，因此选用数据并行的模式完成对LSTM模型的参数分布式训练。本文采用异步随机梯度下降的方式实现对LSTM模型的参数求解，异步随机梯度下降是一种基于更新的数据并行化处理算法。异步随机梯度下降算法与参数平均算法的不同之处在于，参数平均算法是将参数从工作流传到参数服务器，而异步随机梯度下降算法只传递参数的更新。

异步随机梯度下降计算神经网络参数的过程有两个优点：(1)在分布式操作系统中存在获得更高通量的潜能：代替完成等待参数平均的过程，异步随机梯度下降算法可以用更多的时间去执行计算。(2)比起同步更新策略，在异步更新中工作流可以下意识快速地合并来其它工作流的信息，即快速更新来自不同主机的参数的更新。

本发明提供了一种基于智能音箱的交互系统的一个实施例，包括：相互通信连接的智能音箱和服务器：

所述智能音箱包括：

获取模块11，所述获取模块11用于当智能音箱进行人机语音交互时，获取交互音频信息；

第一发送模块12，与所述获取模块11电连接，用于并将所述交互音频信息发送至服务器；

所述服务器包括：

文本转换模块21，用于将所述交互信息音频转换为交互文本信息；

解析模块22，与所述文本转换模块21电连接，用于解析所述交互文本信息的交互内容，以及所述交互文本信息的交互类型；

交互信息生成模块23，与所述解析模块22电连接，用于根据所述交互文本信息的交互内容以及所述交互文本信息的交互类型，生成所述交互文本信息对应的回复信息；

第二发送模块24，与所述交互信息生成模块23电连接，用于将所述回复信息发送至所述智能音箱；

所述智能音箱还包括：

交互模块13，用于根据服务器发送的回复信息进行人机交互。

本发明提供了一种基于智能音箱的交互系统的另一个实施例，如图3所示，包括：相互通信连接的智能音箱和服务器：

所述智能音箱包括：

获取模块11，用于当智能音箱进行人机语音交互时，获取交互音频信息；

所述服务器包括：

交互信息生成模块23，与所述解析模块22电连接，还用于当所述交互文本信息为提问式交互类型时，从知识库中查询所述交互文本信息对应的回复信息；

交互信息生成模块23，还用于当所述交互文本信息为非提问式交互类型时，根据所述交互文本信息，以及训练文本信息训练得到的记忆神经网络模型，生成所述交互文本信息对应的回复信息；

处理模块25，用于对训练文本信息进行分词处理，并根据激活函数计算得到每个词语对应的状态参数；

所述处理模块25，还用于通过嵌入层对分词处理后得到的每个词语进行编码，生成向量序列；

所述处理模块25，还用于通过递归层将所述向量序列转换为单个的词语向量；

所述处理模块25，还用于根据每个词语向量对应的状态参数，通过遗忘层删除无效的词语向量；

所述处理模块25，还用于通过输入门将所述交互文本信息转化为输入向量；

交互信息生成模块23，还用于根据所述输入向量以及遗忘门保留的词语向量，生成所述交互文本信息对应的回复信息。

计算模块26，用于根据所述输入向量、当前输入状态以及遗忘门保留的词语向量、历史状态单元，计算当前状态单元；

所述交互信息生成模块23，还用于根据所述当前状态单元，生成所述交互文本信息对应的回复信息。

第二发送模块24，用于将所述回复信息发送至所述智能音箱；

所述智能音箱还包括：

所述处理模块25包括若干个处理器，所述处理模块25通过若干个处理器分别训练所述记忆神经网络模型的各个部分，并将处理结果汇总到主处理器整合为完整的所述记忆神经网络模型。

本实施例最重要的一步在于LSTM模型的构建，在构建LSTM模型的过程中，首先需要对训练文本信息进行分词处理，并统计每个词语出现的频率，对大量历史文本信息进行处理后，以获得词语和词频构成嵌入层Embedding中需要的字典长度。

对训练文本信息进行分词处理后，用word2vec生成词语向量,这些词语向量类似于许多像0,1这样的数字组成的维向量，本文用word2vec训练词向量，语料来自电影的字幕语料、新闻和维基百科的中文语料资源，共5G的语料资源，每个词以200维表示，这些词向量在后面经过激活层(Activation)的激活函数Sigmoid，会自动计算得到每个词语向量的状态参数，其值为0～1之间数值，其中Sigmoid函数，它能够把输入的连续实值压缩到0和1之间，通过调参数让其为大于参数的值0为1小于参数的值为0，如果为1保存词语，为0舍弃词语。其次，通过嵌入层(Embedding层)对分词处理后得到的每个词语进行编码，生成向量序列，以获得训练模型时的输入形式。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于智能音箱的交互方法，其特征在于，包括步骤：

当智能音箱进行人机语音交互时，获取交互音频信息，并将所述交互音频信息发送至服务器；

所述服务器将所述交互信息音频转换为交互文本信息，并解析所述交互文本信息的交互内容，以及所述交互文本信息的交互类型；

所述服务器根据所述交互文本信息的交互内容以及所述交互文本信息的交互类型，生成所述交互文本信息对应的回复信息；

所述服务器将所述回复信息发送至所述智能音箱，并由所述智能音箱根据所述回复信息进行人机交互。

2.根据权利要求1所述的一种基于智能音箱的交互方法，其特征在于，所述服务器根据所述交互文本信息的交互内容以及所述交互文本信息的交互类型，生成所述交互文本信息对应的回复信息，这一步骤具体包括：

当所述交互文本信息为提问式交互类型时，所述服务器根据所述交互内容，从知识库中查询所述交互文本信息对应的回复信息；

当所述交互文本信息为非提问式交互类型时，所述服务器根据所述交互文本信息，以及训练文本信息训练得到的记忆神经网络模型，生成所述交互文本信息对应的回复信息；所述训练文本信息包括人机交互过程中的历史文本信息。

3.根据权利要求2所述的一种基于智能音箱的交互方法，其特征在于，根据所述交互文本信息，以及训练文本信息训练得到的记忆神经网络模型，生成所述交互文本信息对应的回复信息，这一步骤具体包括：

对训练文本信息进行分词处理，并根据激活函数计算得到每个词语对应的状态参数；

通过嵌入层对分词处理后得到的每个词语进行编码，生成向量序列；

通过递归层将所述向量序列转换为单个的词语向量；

根据每个词语向量对应的状态参数，通过遗忘层删除无效的词语向量；

通过输入门将所述交互文本信息转化为输入向量，根据所述输入向量以及遗忘门保留的词语向量，生成所述交互文本信息对应的回复信息。

4.根据权利要求3所述的一种基于智能音箱的交互方法，其特征在于，根据所述输入向量以及遗忘门保留的词语向量，生成所述交互文本信息对应的回复信息，这一步骤具体包括：

根据所述输入向量、当前输入状态以及遗忘门保留的词语向量、历史状态单元，计算当前状态单元；

所述输出门根据所述当前状态单元，生成所述交互文本信息对应的回复信息。

5.根据权利要求1-4中任一项所述的一种基于智能音箱的交互方法，其特征在于：

6.一种基于智能音箱的交互系统，其特征在于，包括相互通信连接的智能音箱和服务器：

所述智能音箱包括：

获取模块，所述获取模块用于当智能音箱进行人机语音交互时，获取交互音频信息；

第一发送模块，用于并将所述交互音频信息发送至服务器；

所述服务器包括：

文本转换模块，用于将所述交互信息音频转换为交互文本信息；

解析模块，用于解析所述交互文本信息的交互内容，以及所述交互文本信息的交互类型；

交互信息生成模块，用于根据所述交互文本信息的交互内容以及所述交互文本信息的交互类型，生成所述交互文本信息对应的回复信息；

第二发送模块，用于将所述回复信息发送至所述智能音箱；

所述智能音箱还包括：

交互模块，用于根据服务器发送的回复信息进行人机交互。

7.根据权利要求6所述的一种基于智能音箱的交互系统，其特征在于：

交互信息生成模块，还用于当所述交互文本信息为提问式交互类型时，根据所述交互内容，从知识库中查询所述交互文本信息对应的回复信息；

交互信息生成模块，还用于当所述交互文本信息为非提问式交互类型时，根据所述交互文本信息，以及训练文本信息训练得到的记忆神经网络模型，生成所述交互文本信息对应的回复信息；所述训练文本信息包括人机交互过程中的历史文本信息。

8.根据权利要求7所述的一种基于智能音箱的交互系统，其特征在于，所述服务器还包括：

处理模块，用于对训练文本信息进行分词处理，并根据激活函数计算得到每个词语对应的状态参数；

所述处理模块，还用于通过嵌入层对分词处理后得到的每个词语进行编码，生成向量序列；

所述处理模块，还用于通过递归层将所述向量序列转换为单个的词语向量；

所述处理模块，还用于根据每个词语向量对应的状态参数，通过遗忘层删除无效的词语向量；

所述处理模块，还用于通过输入门将所述交互文本信息转化为输入向量；

交互信息生成模块，还用于根据所述输入向量以及遗忘门保留的词语向量，生成所述交互文本信息对应的回复信息。

9.根据权利要求8所述的一种基于智能音箱的交互系统，其特征在于，所述服务器还包括：

计算模块，用于根据所述输入向量、当前输入状态以及遗忘门保留的词语向量、历史状态单元，计算当前状态单元；

所述交互信息生成模块，还用于根据所述当前状态单元，生成所述交互文本信息对应的回复信息。

10.根据权利要求6-9中任一项所述的一种基于智能音箱的交互系统，其特征在于：

所述处理模块包括若干个处理器，所述处理模块通过若干个处理器分别训练所述记忆神经网络模型的各个部分，并将处理结果汇总到主处理器整合为完整的所述记忆神经网络模型。