CN108766420B

CN108766420B - 语音交互设备唤醒词生成方法及装置

Info

Publication number: CN108766420B
Application number: CN201810550875.7A
Authority: CN
Inventors: 刘馨靖
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2021-04-02
Anticipated expiration: 2038-05-31
Also published as: CN108766420A

Abstract

本公开提供一种语音交互设备唤醒词生成方法，其包括如下步骤：服务器端预先存储至少一个语音交互数据集合，以及每个语音交互数据集合对应的唤醒词，将各个语音交互数据集合作为输入，将其各自对应的唤醒词作为输出，采用深度学习算法进行训练，以得到唤醒词模型；接收用户端发送的预设时间段内用户的语音交互数据并输入至唤醒词模型以得到对应的唤醒词，然后向用户端发送所述唤醒词，以使用户端向用户推送所述唤醒词。相应地，提供一种语音交互设备唤醒词生成装置。本公开能为不同用户提供差异化的语音唤醒服务，极大地提升了用户体验，还能加快语音交互技术的发展。

Description

语音交互设备唤醒词生成方法及装置

技术领域

本公开涉及语音识别技术领域，具体涉及一种语音交互设备唤醒词生成方法，以及一种语音交互设备唤醒词生成装置。

背景技术

语音识别技术，也被称为自动语音识别(Automatic Speech Recognition,ASR)，其目标是将人类发出的语音中的词汇内容转换为计算机可读的输入信息，例如按键、二进制编码或者字符序列。随着语音识别技术的快速发展，语音交互设备已大规模投入商用。语音交互逐渐成为了新一代广泛应用的交互模式。

目前，语音交互设备的交互模式通常为通过唤醒词来开启与用户之间的交流。

然而，发明人发现，现有的语音交互技术方案通常为通过固定的唤醒词来开启语音交互服务。个别的也有通过识别交互设备场景从而生成固定唤醒词的方案。但由于用户间存在很大的差异性，人与人的需求不同，所需交互的内容也不尽相同，固定的唤醒词往往导致用户的体验不佳。

因此，如何生成符合用户习惯的唤醒词成为本领域亟待解决的技术问题，并对提高用户体验，加快语音交互的发展起着关键性作用。

发明内容

为了至少部分解决现有技术中存在的技术问题而完成了本公开。

解决本公开技术问题所采用的技术方案是：

根据本公开的一个方面，提供了一种语音交互设备唤醒词生成方法，其包括如下步骤：

服务器端预先存储至少一个语音交互数据集合，以及每个所述语音交互数据集合对应的唤醒词；

所述服务器端将各个所述语音交互数据集合作为输入，将其各自对应的唤醒词作为输出，采用深度学习算法进行训练，以得到唤醒词模型；

所述服务器端接收用户端发送的预设时间段内用户的语音交互数据；

所述服务器端将其从所述用户端接收的所述语音交互数据输入至所述唤醒词模型以得到对应的唤醒词，并向所述用户端发送所述唤醒词，以使所述用户端向所述用户推送所述唤醒词。

可选地，在所述服务器端预先存储至少一个语音交互数据集合，以及每个所述语音交互数据集合对应的唤醒词的步骤之后还包括如下步骤：

所述服务器端对每个所述语音交互数据集合进行预处理，以去掉每个所述语音交互数据集合中的无意义词汇，并对每个所述语音交互数据集合中的各条语音交互数据进行分词处理；

则所述服务器端将各个所述语音交互数据集合作为输入的步骤相应为：

所述服务器端将预处理后的各个所述语音交互数据集合作为输入。

可选地，所述服务器端将预处理后的各个所述语音交互数据集合作为输入，将其各自对应的唤醒词作为输出，采用深度学习算法进行训练，以得到唤醒词模型的步骤具体包括：

所述服务器端根据预处理后的各个所述语音交互数据集合及其各自对应的唤醒词，分别构建语音交互数据词典和唤醒词词典；

所述服务器端根据所述语音交互数据词典，将预处理后的各个所述语音交互数据集合中每条语音交互数据转换为一个向量，从而将每个所述语音交互数据集合转换为一个向量集合，以及根据所述唤醒词词典，将每个所述语音交互数据集合对应的所述唤醒词转换为一个唤醒词向量；

所述服务器端将每个所述向量集合作为一次输入，将其对应的唤醒词向量作为输出，采用神经网络算法对所有所述向量集合进行迭代训练，从而得到所述唤醒词模型。

可选地，所述服务器端接收所述用户端发送的预设时间段内用户的语音交互数据的步骤还包括：

所述服务器端接收所述用户端发送的用户端标识；

则所述服务器端向所述用户端发送所述唤醒词的步骤相应为：

所述服务器端根据所述用户端标识向与之对应的所述用户端发送所述唤醒词。

可选地，在所述服务器端接收用户端发送的预设时间段内用户的语音交互数据的步骤之后还包括如下步骤：

所述服务器端对其从所述用户端接收的所述语音交互数据进行预处理，以去掉所述语音交互数据中的无意义词汇并进行分词处理；

则所述服务器端将其从所述用户端接收的所述语音交互数据输入至所述唤醒词模型以得到对应的唤醒词的步骤相应为：

所述服务器端将其从所述用户端接收并经过预处理的所述语音交互数据输入至所述唤醒词模型以得到对应的唤醒词。

可选地，在所述服务器端向所述用户端发送所述唤醒词的步骤之后还包括如下步骤：

所述服务器端通过所述用户端接收所述用户发送的唤醒词反馈信息，所述唤醒词反馈信息包括唤醒词确认信息和唤醒词修正信息；

所述服务器端在接收到所述唤醒词确认信息时，保持所述唤醒词不变；

所述服务器端在接收到所述唤醒词修正信息时，继续通过所述用户端接收所述用户发送的新唤醒词，并将其对应的原唤醒词替换为所述新唤醒词。

根据本公开的另一方面，提供了一种语音交互设备唤醒词生成方法，其包括如下步骤：

用户端获取预设时间段内用户的语音交互数据；

所述用户端向服务器端发送所述语音交互数据，以使所述服务器端将所述语音交互数据输入至其内经过深度学习算法训练得到的唤醒词模型以得到对应的唤醒词，并向所述用户端发送所述唤醒词；

所述用户端接收所述服务器端发送的所述唤醒词，并向所述用户推送所述唤醒词。

可选地，所述用户端向服务器端发送所述语音交互数据的步骤还包括：

所述用户端向所述服务器端发送用户端标识，以使所述服务器端根据所述用户端标识向与之对应的所述用户端发送所述唤醒词。

可选地，所述用户端向所述用户推送所述唤醒词的步骤之后还包括如下步骤：

所述用户端接收所述用户发送的唤醒词反馈信息，所述唤醒词反馈信息包括唤醒词确认信息和唤醒词修正信息；

所述用户端向所述服务器端发送所述唤醒词反馈信息，并在所述唤醒词反馈信息为所述唤醒词修正信息时，继续接收所述用户发送的新唤醒词，然后向所述服务器端发送所述新唤醒词，以使所述服务器端在接收到所述唤醒词确认信息时，保持所述唤醒词不变，以及在接收到所述唤醒词修正信息时，继续接收所述用户端发送的所述新唤醒词，并将其对应的原唤醒词替换为所述新唤醒词。

根据本公开的又一方面，提供了一种语音交互设备唤醒词生成装置，其包括服务器端，所述服务器端包括：

语音交互数据存储模块，用于预先存储至少一个语音交互数据集合，以及每个所述语音交互数据集合对应的唤醒词；

唤醒词模型训练模块，用于将各个所述语音交互数据集合作为输入，将其各自对应的唤醒词作为输出，采用深度学习算法进行训练，以得到唤醒词模型；

用户语音交互数据接收模块，用于接收用户端发送的预设时间段内用户的语音交互数据；

唤醒词生成模块，用于将所述用户语音交互数据接收模块从所述用户端接收的所述语音交互数据输入至所述唤醒词模型以得到对应的唤醒词；

唤醒词发送模块，用于向所述用户端发送所述唤醒词，以使所述用户端向所述用户推送所述唤醒词。

可选地，所述唤醒词生成装置还可以包括：

语音交互数据预处理模块，用于对所述语音交互数据存储模块中存储的每个所述语音交互数据集合进行预处理，以去掉每个所述语音交互数据集合中的无意义词汇，并对每个所述语音交互数据集合中的各条语音交互数据进行分词处理；

则所述唤醒词模型训练模块相应用于，将预处理后的各个所述语音交互数据集合作为输入。

可选地，所述唤醒词模型训练模块具体用于，

根据预处理后的各个所述语音交互数据集合及其各自对应的唤醒词，分别构建语音交互数据词典和唤醒词词典；

根据所述语音交互数据词典，将预处理后的各个所述语音交互数据集合中每条语音交互数据转换为一个向量，从而将每个所述语音交互数据集合转换为一个向量集合，以及根据所述唤醒词词典，将每个所述语音交互数据集合对应的所述唤醒词转换为一个唤醒词向量；

将每个所述向量集合作为一次输入，将其对应的唤醒词向量作为输出，采用神经网络算法对所有所述向量集合进行迭代训练，从而得到所述唤醒词模型。

可选地，所述用户语音交互数据接收模块还用于，接收所述用户端发送的用户端标识；

则所述唤醒词发送模块相应用于，根据所述用户端标识向与之对应的所述用户端发送所述唤醒词。

可选地，所述语音交互数据预处理模块还用于，对所述用户语音交互数据接收模块从所述用户端接收的所述语音交互数据进行预处理，以去掉所述语音交互数据中的无意义词汇并进行分词处理；

则所述唤醒词生成模块相应用于，将所述用户语音交互数据接收模块从所述用户端接收并经过所述语音交互数据预处理模块预处理的所述语音交互数据输入至所述唤醒词模型以得到对应的唤醒词。

可选地，所述唤醒词生成装置还可以包括：

唤醒词更新模块，用于通过所述用户端接收所述用户发送的唤醒词反馈信息，所述唤醒词反馈信息包括唤醒词确认信息和唤醒词修正信息；

在接收到所述唤醒词确认信息时，保持所述唤醒词不变；

在接收到所述唤醒词修正信息时，继续通过所述用户端接收所述用户发送的新唤醒词，并将其对应的原唤醒词替换为所述新唤醒词。

根据本公开的再一方面，提供了一种语音交互设备唤醒词生成装置，其包括用户端，所述用户端包括：

语音交互数据上传模块，用于获取预设时间段内用户的语音交互数据，并向服务器端发送所述语音交互数据，以使所述服务器端将所述语音交互数据输入至其内经过深度学习算法训练得到的唤醒词模型以得到对应的唤醒词，并向所述用户端发送所述唤醒词；

唤醒词接收模块，用于接收所述服务器端发送的所述唤醒词，并向所述用户推送所述唤醒词。

可选地，所述语音交互数据上传模块还用于，向所述服务器端发送用户端标识，以使所述服务器端根据所述用户端标识向与之对应的所述用户端发送所述唤醒词。

可选地，所述唤醒词接收模块还用于，

接收所述用户发送的唤醒词反馈信息，所述唤醒词反馈信息包括唤醒词确认信息和唤醒词修正信息；

向所述服务器端发送所述唤醒词反馈信息，并在所述唤醒词反馈信息为所述唤醒词修正信息时，继续接收所述用户发送的新唤醒词，然后向所述服务器端发送所述新唤醒词，以使所述服务器端在接收到所述唤醒词确认信息时，保持所述唤醒词不变，以及在接收到所述唤醒词修正信息时，继续接收所述用户端的所述唤醒词接收模块发送的所述新唤醒词，并将其对应的原唤醒词替换为所述新唤醒词。

有益效果：

本公开所述语音交互设备唤醒词生成方法及装置中，在服务器端采用深度学习算法生成唤醒词模型，在用户端上传语音交互数据至服务器端，再由服务器端通过唤醒词模型生成符合用户习惯的语音唤醒词并通过用户端推送给该用户，从而能为不同用户提供差异化的语音唤醒服务，极大地提升了用户体验，还能加快语音交互技术的发展。

附图说明

图1为本公开实施例1提供的一种语音交互设备唤醒词生成方法的流程图；

图2为本公开实施例1提供的另一种语音交互设备唤醒词生成方法的流程图；

图3为本公开实施例2提供的一种语音交互设备唤醒词生成方法的流程图；

图4为本公开实施例2提供的另一种语音交互设备唤醒词生成方法的流程图；

图5为本公开实施例3提供的语音交互设备唤醒词生成装置的结构框图；

图6为本公开实施例4提供的语音交互设备唤醒词生成装置的结构框图。

图中：100－服务器端；101－语音交互数据存储模块；102－语音交互数据预处理模块；103－唤醒词模型训练模块；104－用户语音交互数据接收模块；105－唤醒词生成模块；106－唤醒词发送模块；107－唤醒词更新模块；200－用户端；201－语音交互数据上传模块；202－唤醒词接收模块。

具体实施方式

为使本领域技术人员更好地理解本公开的技术方案，下面结合附图和实施例对本公开作进一步详细描述。

实施例1：

如图1所示，本实施例提供一种语音交互设备唤醒词生成方法，其中唤醒词生成方法的执行主体可以为服务器端。所述唤醒词生成方法包括如下步骤S101至S104。

S101.服务器端预先存储至少一个语音交互数据集合，以及每个语音交互数据集合对应的唤醒词。

其中，每个语音交互数据集合可对应一个或多个唤醒词。

S102.服务器端将各个语音交互数据集合作为输入，将其各自对应的唤醒词作为输出，采用深度学习算法进行训练，以得到唤醒词模型。

其中，深度学习算法是指在多层神经网络上运用各种机器学习算法解决图像、语音和文本等各种问题的算法集合，旨在通过分层网络获取分层次的特征信息，从而解决以往需要人工设计特征的重要难题。具体包括：神经网络算法(Neural network algorithm)、自动编码器(AutoEncoder)、稀疏编码(Sparse Coding)、限制波尔兹曼机(RestrictedBoltzmann Machine,RBM)和深信度网络(Deep Belief Networks,DBN)等。

S103.服务器端接收用户端发送的预设时间段内用户的语音交互数据。

S104.服务器端将其从用户端接收的语音交互数据输入至所述唤醒词模型以得到对应的唤醒词，并向用户端发送所述唤醒词，以使用户端向用户推送所述唤醒词。

本实施例中，在服务器端采用深度学习算法生成唤醒词模型，然后接收用户端上传的语音交互数据，再通过唤醒词模型生成符合用户习惯的语音唤醒词并通过用户端推送给该用户，从而能为不同用户提供差异化的语音唤醒服务，极大地提升了用户体验，还能加快语音交互技术的发展。

为了更快速、更准确地完成唤醒词模型的训练，可对步骤S101中服务器端预先存储的各个语音交互数据集合进行预处理：去掉无意义词汇(如的、嗯)并进行分词处理，然后在步骤S102中再对预处理后的各个语音交互数据集合进行训练以得到唤醒词模型。

因此在步骤S101和步骤S102之间，所述唤醒词生成方法还可包括如下步骤：

服务器端对每个语音交互数据集合进行预处理，以去掉每个语音交互数据集合中的无意义词汇，并对每个语音交互数据集合中的各条语音交互数据进行分词处理。

则步骤S102相应为：

服务器端将预处理后的各个语音交互数据集合作为输入，将其各自对应的唤醒词作为输出，采用深度学习算法进行训练，以得到唤醒词模型。

本实施例中，无意义的词汇指的是不涉及唤醒功能的词汇，可包括语气词、具有个人色彩的口头禅等。

所述分词处理的具体方法包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等。

其中，基于字符串匹配的分词方法包括：正向最大匹配法，即把一句话从左至右来分词；反向最大匹配法，即把一句话从右至左来分词；最短路径分词法，即把一句话分成数量最少的词；双向最大匹配法，即正反向同时对一句话进行分词匹配。

基于理解的分词方法指的是，利用句法信息和语义信息来分词。

基于统计的分词方法指的是，基于字和词的统计信息，如把相邻字间的信息、词频及相应的共现信息等应用于分词。

具体地，步骤S102可包括如下步骤S1021至S1023。

S1021.服务器端根据预处理后的各个语音交互数据集合及其各自对应的唤醒词，分别构建语音交互数据词典和唤醒词词典；在语音交互数据词典中，每个词在其中可用相应的数字表示，同样地，在唤醒词词典中，每个唤醒词在该其中也可用相应的数字表示；

S1022.服务器端根据语音交互数据词典，将预处理后的各个语音交互数据集合中每条语音交互数据转换为一个向量，从而将每个语音交互数据集合转换为一个向量集合，以及根据唤醒词词典，将每个语音交互数据集合对应的唤醒词转换为一个唤醒词向量；

S1023.服务器端将每个向量集合作为一次输入，将其对应的唤醒词向量作为输出，采用神经网络算法对所有向量集合进行迭代训练，从而得到唤醒词模型。

其中，神经网络算法是基于人工神经网络实现的。人工神经网络(ArtificialNeural Network,ANN)指的是以数学和物理方法以及信息处理的角度对人脑神经网络进行抽象而建立的某种简化模型。人工神经网络是由多个非常简单的处理单元彼此按某种方式相互连接而形成的计算系统，该系统是靠其状态对外部输入信息的动态响应来处理信息的，其功能取决于网络的结构、连接强度以及各单元的处理方式。人工神经网络的基本功能是：输入的样本经过自动提取，经过非线性映射规则处理输出需要的样本。

本实施例中，神经网络算法包括卷积神经网络(Convolutional NeuralNetworks,CNN)算法、循环神经网络(Recurrent neural Networks,RNN)算法和深度神经网络(Deep Neural Networks,DNN)算法。

在实际应用时，一个服务器端往往对应多个用户端，为避免服务器端将其生成的唤醒词发送至错误的用户端，较优地，步骤S103还包括：服务器端接收用户端发送的用户端标识。

则步骤S104相应为：

服务器端将其从用户端接收的语音交互数据输入至所述唤醒词模型以得到对应的唤醒词，并根据其从用户端接收的用户端标识向与该用户端标识对应的用户端发送所述唤醒词，以使用户端向用户推送所述唤醒词。

为了更快速、更准确地通过唤醒词模型得到与用户上传的语音交互数据对应的唤醒词，可对步骤S103中用户端发送的预设时间段内用户的语音交互数据进行预处理：去掉无意义词汇(如的、嗯)并进行分词处理，然后在步骤S104中再将预处理后的语音交互数据输入至唤醒词模型以得到对应的唤醒词。

因此在步骤S103和S104之间，所述唤醒词生成方法还可包括如下步骤：

服务器端对其从用户端接收的语音交互数据进行预处理，以去掉语音交互数据中的无意义词汇并进行分词处理。

则所述步骤S104相应为：

服务器端将其从用户端接收并经过预处理的语音交互数据输入至唤醒词模型以得到对应的唤醒词，再根据其从用户端接收的用户端标识向与该用户端标识对应的用户端发送所述唤醒词，以使用户端向用户推送所述唤醒词。

本实施例中，在服务器端通过用户端向用户推送唤醒词后，有可能会出现推送的个别唤醒词与用户习惯不匹配的情况，从而降低用户体验。

为了解决这一问题，可以使用户确认或修正唤醒词，将修正后的唤醒词作为新的唤醒词来替代原唤醒词，从而在交互设备下次收到该新的唤醒词时，开启与用户交互模式。

因此在步骤S104后，还可包括如下步骤S105至S107。

S105.服务器端通过用户端接收用户发送的唤醒词反馈信息，所述唤醒词反馈信息包括唤醒词确认信息和唤醒词修正信息；

S106.服务器端在接收到唤醒词确认信息时，保持所述唤醒词不变；

S107.服务器端在接收到所述唤醒词修正信息时，继续通过用户端接收用户发送的新唤醒词，并将其对应的原唤醒词替换为所述新唤醒词。

如图2所示，本实施例提供另一种语音交互设备唤醒词生成方法，其中唤醒词生成方法的执行主体可以为服务器端。所述唤醒词生成方法包括如下步骤S201至S212。

S201.服务器端预先存储至少一个语音交互数据集合，以及每个语音交互数据集合对应的唤醒词；

S202.服务器端对每个语音交互数据集合进行预处理，以去掉每个语音交互数据集合中的无意义词汇，并对每个语音交互数据集合中的各条语音交互数据进行分词处理；

S203.服务器端根据预处理后的各个语音交互数据集合及其各自对应的唤醒词，分别构建语音交互数据词典和唤醒词词典；

S204.服务器端根据语音交互数据词典，将预处理后的各个语音交互数据集合中每条语音交互数据转换为一个向量，从而将每个语音交互数据集合转换为一个向量集合，以及根据唤醒词词典，将每个语音交互数据集合对应的唤醒词转换为一个唤醒词向量；

S205.服务器端将每个向量集合作为一次输入，将其对应的唤醒词向量作为输出，采用神经网络算法对所有向量集合进行迭代训练，从而得到唤醒词模型；

S206.服务器端接收用户端发送的预设时间段内用户的语音交互数据和用户端标识；

S207.服务器端对其从用户端接收的语音交互数据进行预处理，以去掉语音交互数据中的无意义词汇并进行分词处理；

S208.服务器端将其从用户端接收并经过预处理的语音交互数据输入至唤醒词模型以得到对应的唤醒词，再根据其从用户端接收的用户端标识向与该用户端标识对应的用户端发送所述唤醒词，以使用户端向用户推送所述唤醒词；

S209.服务器端通过用户端接收用户发送的唤醒词反馈信息，所述唤醒词反馈信息包括唤醒词确认信息和唤醒词修正信息；

S210.判断唤醒词反馈信息的类型，若所述唤醒词反馈信息为唤醒词确认信息，则执行步骤S211，若所述唤醒词反馈信息为唤醒词修正信息，则执行步骤S212；

S211.服务器端保持所述唤醒词不变；

S212.服务器端继续通过用户端接收用户发送的新唤醒词，并将其对应的原唤醒词替换为所述新唤醒词。

实施例2：

如图3所示，本实施例提供另一种语音交互设备唤醒词生成方法，其中唤醒词生成方法的执行主体可以为用户端。所述唤醒词生成方法包括如下步骤S301至S303。

S301.用户端获取预设时间段内用户的语音交互数据。

本步骤具体为，用户端识别并存储用户上传的预设时间段内的语音交互数据。

S302.用户端向服务器端发送所述语音交互数据，以使服务器端将所述语音交互数据输入至其内经过深度学习算法训练得到的唤醒词模型以得到对应的唤醒词，并向所述用户端发送所述唤醒词。

S303.用户端接收服务器端发送的唤醒词，并向用户推送所述唤醒词。

本实施例中，用户端获取预设时间段内用户的语音交互数据并上传至服务器端，通过服务器端内的唤醒词模型(经过深度学习算法训练得到)生成符合用户习惯的语音唤醒词并返回至用户端，再由用户端推送给该用户，从而能为不同用户提供差异化的语音唤醒服务，极大地提升了用户体验，还能加快语音交互技术的发展。

在实际应用时，一个服务器端往往对应多个用户端，为避免服务器端将其生成的唤醒词发送至错误的用户端，较优地，步骤S302还包括：用户端向服务器端发送用户端标识，以使服务器端根据所述用户端标识向与之对应的用户端发送所述唤醒词。

本实施例中，在用户端向用户推送唤醒词后，有可能会出现推送的个别唤醒词与用户习惯不匹配的情况，从而降低用户体验。

因此在步骤S303后，还可包括如下步骤S304至S306。

S304.用户端接收用户发送的唤醒词反馈信息，所述唤醒词反馈信息包括唤醒词确认信息和唤醒词修正信息；

S305.用户端向服务器端发送唤醒词反馈信息，并在所述唤醒词反馈信息为所述唤醒词修正信息时，继续接收用户发送的新唤醒词，然后向服务器端发送所述新唤醒词，以使服务器端在接收到所述唤醒词确认信息时，保持所述唤醒词不变，以及在接收到所述唤醒词修正信息时，继续接收用户端发送的所述新唤醒词，并将其对应的原唤醒词替换为所述新唤醒词。

如图4所示，本实施例提供另一种语音交互设备唤醒词生成方法，其中唤醒词生成方法的执行主体可以为用户端。所述唤醒词生成方法包括如下步骤S401至S407。

S401.用户端获取预设时间段内用户的语音交互数据；

S402.用户端向服务器端发送所述语音交互数据和用户端标识，以使服务器端将所述语音交互数据输入至其内经过深度学习算法训练得到的唤醒词模型以得到对应的唤醒词，并根据所述用户端标识向与之对应的用户端发送所述唤醒词；

S403.用户端接收服务器端发送的唤醒词，并向用户推送所述唤醒词；

S404.用户端接收用户发送的唤醒词反馈信息，所述唤醒词反馈信息包括唤醒词确认信息和唤醒词修正信息；

S405.判断唤醒词反馈信息的类型，若所述唤醒词反馈信息为唤醒词确认信息，则执行步骤S406，若所述唤醒词反馈信息为唤醒词修正信息，则执行步骤S407；

S406.用户端向服务器端发送唤醒词确认信息，以使服务器端保持所述唤醒词不变；

S407.用户端向服务器端发送唤醒词修正信息，并继续接收用户发送的新唤醒词，然后向服务器端发送所述新唤醒词，以使服务器端在接收到用户端发送的所述新唤醒词后，将其对应的原唤醒词替换为所述新唤醒词。

实施例3：

如图5所示，本实施例提供一种语音交互设备唤醒词生成装置。所述唤醒词生成装置包括服务器端100，所述服务器端100包括：

语音交互数据存储模块101，用于预先存储至少一个语音交互数据集合，以及每个语音交互数据集合对应的唤醒词，其中，每个语音交互数据集合可对应一个或多个唤醒词；

唤醒词模型训练模块103，用于将各个语音交互数据集合作为输入，将其各自对应的唤醒词作为输出，采用深度学习算法进行训练，以得到唤醒词模型；

用户语音交互数据接收模块104，用于接收用户端发送的预设时间段内用户的语音交互数据；

唤醒词生成模块105，用于将用户语音交互数据接收模块104从用户端接收的语音交互数据输入至所述唤醒词模型以得到对应的唤醒词；

唤醒词发送模块106，用于向用户端发送所述唤醒词，以使用户端向用户推送所述唤醒词。

本实施例中，通过唤醒词模型训练模块103采用深度学习算法生成唤醒词模型，然后通过用户语音交互数据接收模块104接收用户端上传的语音交互数据，再通过唤醒词生成模块105生成符合用户习惯的语音唤醒词，并通过唤醒词发送模块106发送至用户端，由用户端推送给该用户，从而能为不同用户提供差异化的语音唤醒服务，极大地提升了用户体验，还能加快语音交互技术的发展。

为了更快速、更准确地完成唤醒词模型的训练，如图5所示，所述唤醒词生成装置还包括：语音交互数据预处理模块102，用于对语音交互数据存储模块101中存储的每个语音交互数据集合进行预处理，以去掉每个语音交互数据集合中的无意义词汇，并对每个语音交互数据集合中的各条语音交互数据进行分词处理。

则唤醒词模型训练模块103相应用于，将预处理后的各个语音交互数据集合作为输入，将其各自对应的唤醒词作为输出，采用深度学习算法进行训练，以得到唤醒词模型。

其中，唤醒词模型训练模块103具体用于：

根据预处理后的各个语音交互数据集合及其各自对应的唤醒词，分别构建语音交互数据词典和唤醒词词典；

根据所述语音交互数据词典，将预处理后的各个语音交互数据集合中每条语音交互数据转换为一个向量，从而将每个语音交互数据集合转换为一个向量集合，以及根据所述唤醒词词典，将每个语音交互数据集合对应的唤醒词转换为一个唤醒词向量；

将每个向量集合作为一次输入，将其对应的唤醒词向量作为输出，采用神经网络算法对所有向量集合进行迭代训练，从而得到唤醒词模型。

在实际应用时，一个服务器端往往对应多个用户端，为避免服务器端将其生成的唤醒词发送至错误的用户端，较优地，语音交互数据预处理模块102还用于，对用户语音交互数据接收模块104从用户端接收的语音交互数据进行预处理，以去掉所述语音交互数据中的无意义词汇并进行分词处理。

则唤醒词生成模块105相应用于，将用户语音交互数据接收模块104从用户端接收并经过语音交互数据预处理模块102预处理的语音交互数据输入至所述唤醒词模型以得到对应的唤醒词。

为了更快速、更准确地通过唤醒词模型得到与用户上传的语音交互数据对应的唤醒词，较优地，语音交互数据预处理模块102还用于，对用户语音交互数据接收模块104从用户端接收的语音交互数据进行预处理，以去掉所述语音交互数据中的无意义词汇并进行分词处理。

为了解决这一问题，如图5所示，所述唤醒词生成装置还包括：唤醒词更新模块107，用于通过用户端接收用户发送的唤醒词反馈信息，所述唤醒词反馈信息包括唤醒词确认信息和唤醒词修正信息；

在接收到所述唤醒词确认信息时，保持所述唤醒词不变；

在接收到所述唤醒词修正信息时，继续通过用户端接收用户发送的新唤醒词，并将其对应的原唤醒词替换为所述新唤醒词。

可以理解的是，本实施例所述装置与实施例1所述方法中的相关特征可以相互参考。

本实施例中，通过唤醒词模型训练模块采用深度学习算法生成唤醒词模型，然后通过用户语音交互数据接收模块接收用户端上传的语音交互数据，再通过唤醒词生成模块生成符合用户习惯的语音唤醒词，并通过唤醒词发送模块发送至用户端，由用户端推送给该用户，从而能为不同用户提供差异化的语音唤醒服务，极大地提升了用户体验，还能加快语音交互技术的发展。

实施例4：

如图6所示，本实施例提供一种语音交互设备唤醒词生成装置。所述唤醒词生成装置包括用户端200，所述用户端200包括：

语音交互数据上传模块201，用于获取预设时间段内用户的语音交互数据，并向服务器端发送所述语音交互数据，以使服务器端将所述语音交互数据输入至其内经过深度学习算法训练得到的唤醒词模型以得到对应的唤醒词，并向用户端发送所述唤醒词；

唤醒词接收模块202，用于接收服务器端发送的所述唤醒词，并向用户推送所述唤醒词。

在实际应用时，一个服务器端往往对应多个用户端，为避免服务器端将其生成的唤醒词发送至错误的用户端，较优地，语音交互数据上传模块201还用于，向服务器端发送用户端标识，以使服务器端根据所述用户端标识向与之对应的用户端发送所述唤醒词。

本实施例中，在用户端的唤醒词接收模块202向用户推送唤醒词后，有可能会出现推送的个别唤醒词与用户习惯不匹配的情况，从而降低用户体验。

为了解决这一问题，唤醒词接收模块还用于：

接收用户发送的唤醒词反馈信息，所述唤醒词反馈信息包括唤醒词确认信息和唤醒词修正信息；

向服务器端发送唤醒词反馈信息，并在所述唤醒词反馈信息为所述唤醒词修正信息时，继续接收用户发送的新唤醒词，然后向服务器端发送新唤醒词，以使所述服务器端在接收到唤醒词确认信息时，保持所述唤醒词不变，以及在接收到唤醒词修正信息时，继续接收用户端的唤醒词接收模块202发送的新唤醒词，并将其对应的原唤醒词替换为所述新唤醒词。

可以理解的是，本实施例所述装置与实施例2所述方法中的相关特征可以相互参考。

本实施例中，语音交互数据上传模块获取预设时间段内用户的语音交互数据并上传至服务器端，通过服务器端内的唤醒词模型(经过深度学习算法训练得到)生成符合用户习惯的语音唤醒词并返回至用户端的唤醒词接收模块，再由唤醒词接收模块将生成的唤醒词推送给该用户，从而能为不同用户提供差异化的语音唤醒服务，极大地提升了用户体验，还能加快语音交互技术的发展。

可以理解的是，以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式，然而本公开并不局限于此。对于本领域内的普通技术人员而言，在不脱离本公开的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本公开的保护范围。

Claims

1.一种语音交互设备唤醒词生成方法，其特征在于，包括如下步骤：

所述服务器端将其从所述用户端接收的所述语音交互数据输入至所述唤醒词模型以得到对应的唤醒词，并向所述用户端发送所述唤醒词，以使所述用户端向所述用户推送所述唤醒词；

在所述服务器端预先存储至少一个语音交互数据集合，以及每个所述语音交互数据集合对应的唤醒词的步骤之后还包括如下步骤：

所述服务器端将预处理后的各个所述语音交互数据集合作为输入；

所述服务器端接收所述用户端发送的预设时间段内用户的语音交互数据的步骤还包括：

所述服务器端接收所述用户端发送的用户端标识；

2.根据权利要求1所述的生成方法，其特征在于，

所述服务器端将预处理后的各个所述语音交互数据集合作为输入，将其各自对应的唤醒词作为输出，采用深度学习算法进行训练，以得到唤醒词模型的步骤具体包括：

3.根据权利要求1或2所述的生成方法，其特征在于，

在所述服务器端接收用户端发送的预设时间段内用户的语音交互数据的步骤之后还包括如下步骤：

4.根据权利要求1或2所述的生成方法，其特征在于，

在所述服务器端向所述用户端发送所述唤醒词的步骤之后还包括如下步骤：

5.一种语音交互设备唤醒词生成装置，其特征在于，包括服务器端，所述服务器端包括：

唤醒词发送模块，用于向所述用户端发送所述唤醒词，以使所述用户端向所述用户推送所述唤醒词；

则所述唤醒词模型训练模块相应用于，将预处理后的各个所述语音交互数据集合作为输入；

所述用户语音交互数据接收模块还用于，接收所述用户端发送的用户端标识；

6.根据权利要求5所述的生成装置，其特征在于，

所述唤醒词模型训练模块具体用于，

7.根据权利要求5或6所述的生成装置，其特征在于，

所述语音交互数据预处理模块还用于，对所述用户语音交互数据接收模块从所述用户端接收的所述语音交互数据进行预处理，以去掉所述语音交互数据中的无意义词汇并进行分词处理；

8.根据权利要求5或6所述的生成装置，其特征在于，还包括：

在接收到所述唤醒词确认信息时，保持所述唤醒词不变；