CN110708619A

CN110708619A - 一种智能设备的词向量训练方法及装置

Info

Publication number: CN110708619A
Application number: CN201910936208.7A
Authority: CN
Inventors: 胡晓慧; 苏少炜; 陈孝良; 常乐
Original assignee: Beijing Sound Intelligence Technology Co Ltd
Current assignee: Beijing Sound Intelligence Technology Co Ltd; Beijing SoundAI Technology Co Ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-01-17
Anticipated expiration: 2039-09-29
Also published as: CN110708619B

Abstract

本发明公开了一种智能设备的词向量训练方法及装置，通过根据智能设备所应用的不同场景构建对应的负样本词集合的方式，对现有的词向量训练中的负采样算法进行优化，从而能够训练得到贴合智能设备场景分类需求的高质量的词向量，并能够通过将其应用到分类模型中，进一步提高场景分类的准确率，从而能够是帮助智能设备更加准确地对用户指令做出相应的响应。

Description

一种智能设备的词向量训练方法及装置

技术领域

本发明涉及语音处理技术领域，尤指一种智能设备的词向量训练方法及装置。

背景技术

智能设备中的场景识别是指在人与机器例如智能音箱对话的过程中，智能音箱能够通过人说话的内容，有效地识别出当前指令的对话场景(如问天气，定闹钟，播放音乐等)，从而能够根据对话场景给出对应的回复或者执行相应的操作。

发明内容

本发明实施例提供一种智能设备的词向量训练方法及装置，用以提高词向量训练的质量。

一方面，本发明实施例提供了一种智能设备的词向量训练方法，包括：

确定所述智能设备所应用的各场景对应的训练语料；

根据各所述场景对应的训练语料，分别构建各所述场景对应的负样本词集合；

根据各所述场景对应的负样本词集合，分别计算各所述负样本词集合包含的每个词的词频，并根据所述词频确定该词在负采样时被选中的概率；

根据各词在负采样时被选中的概率，对各所述场景对应的负样本词集合中的各词进行负采样，并训练相应的词向量。

在一种可能的实现方式中，在本发明实施例提供的上述词向量训练方法中，所述根据各所述场景对应的训练语料，分别构建各所述场景对应的负样本词集合，具体包括：

针对每个所述场景，将其他场景对应的训练语料作为本场景对应的负样本词集合。

在一种可能的实现方式中，在本发明实施例提供的上述词向量训练方法中，所述将其他场景对应的训练语料作为本场景对应的负样本词集合之后，还包括：

在本场景对应的负样本词集合中去除本场景对应的训练语料中的词。

在一种可能的实现方式中，在本发明实施例提供的上述词向量训练方法中，所述确定智能设备所应用的各场景对应的训练语料，具体包括：

设定智能设备所应用的多个场景；

根据设定的不同场景，分别收集与各所述场景相关的训练语料。

在一种可能的实现方式中，在本发明实施例提供的上述词向量训练方法中，构建各所述场景对应的负样本词集合之前，还包括：

对各所述场景对应的训练语料进行数据预处理，所述数据预处理包括分词、去除设定的符号和去除设定的停用词。

另一方面，本发明实施例还提供了一种智能设备的词向量训练装置，包括：

获取模块，用于确定所述智能设备所应用的各场景对应的训练语料；

生成模块，用于根据各所述场景对应的训练语料，分别构建各所述场景对应的负样本词集合；

计算模块，用于根据各所述场景对应的负样本词集合，分别计算各所述负样本词集合包含的每个词的词频，并根据所述词频确定该词在负采样时被选中的概率；

训练模块，用于根据各词在负采样时被选中的概率，对各所述场景对应的负样本词集合中的各词进行负采样，并训练相应的词向量。

在一种可能的实现方式中，在本发明实施例提供的上述词向量训练装置中，所述生成模块，具体用于针对每个所述场景，将其他场景对应的训练语料作为本场景对应的负样本词集合。

在一种可能的实现方式中，在本发明实施例提供的上述词向量训练装置中，所述生成模块，还用于将其他场景对应的训练语料作为本场景对应的负样本词集合之后，在本场景对应的负样本词集合中去除本场景对应的训练语料中的词。

在一种可能的实现方式中，在本发明实施例提供的上述词向量训练装置中，所述获取模块，具体用于设定智能设备所应用的多个场景；根据设定的不同场景，分别收集与各所述场景相关的训练语料。

在一种可能的实现方式中，在本发明实施例提供的上述词向量训练装置中，还包括：预处理模块，用于对各所述场景对应的训练语料进行数据预处理，所述数据预处理包括分词、去除设定的符号和去除设定的停用词。

本发明有益效果如下：

本发明实施例提供的一种智能设备的词向量训练方法及装置，通过根据智能设备所应用的不同场景构建对应的负样本词集合的方式，对现有的词向量训练中的负采样算法进行优化，从而能够训练得到贴合智能设备场景分类需求的高质量的词向量，并能够通过将其应用到分类模型中，进一步提高场景分类的准确率，从而能够是帮助智能设备更加准确地对用户指令做出相应的响应。

附图说明

图1为词向量训练方法中构建的单位线段的示意图；

图2为本发明实施例提供的词向量训练方法的流程图；

图3为本发明实施例提供的词向量训练方法的具体流程图；

图4为本发明实施例提供的词向量训练装置的结构示意图。

具体实施方式

智能设备的场景识别问题可以看作是自然语言处理(NLP，Natural LanguageProcessing)中的分类问题，即根据智能设备的技能和使用设定，预先定义一些不同的场景，如可以分别对应为天气场景，闹钟场景，音乐场景等。在通过自动语音识别技术(ASR，Automatic Speech Recognition)将用户指令的语言转化为文字形式之后，通过自然语言理解技术(NLU，Natural Language Understanding)将用户指令正确地分到相应的场景中，从而能够有效地进行下一步回复或处理。

NLU中根据用户指令进行场景分类的常用技术主要分为模式和分类模型两种。模式是指预先定义一系列规则，对于每一条用户指令，查找是否有匹配的规则，如果命中某条规则，则获取该规则对应的场景结果。模式方法的缺点在于，文字的组成方式千变万化，技术人员无法穷举所有的文字组合形式去制定规则，此外，人的语言习惯也是在不断变化，每次出现新的指令句式都新增加一条规则，不仅会造成规则的冗余，还会对整个系统的效率造成很大的负面影响。

因此，常见的方法是模式+分类模型配合使用来处理场景识别的问题，先通过规则定义一些常见的高频指令，命中该规则将直接返回结果，若不能命中，则通过分类模型对其进行场景分类，从而保证每一条用户指令都能有效地分配到一个确定的场景中。

常用的分类模型通常分为机器学习模型和深度学习模型，机器学习模型的优势是能够适应数据量较小的情况，训练和预测所需的时间都较短，算法具有较强的可解释性。而深度学习模型的训练和预测所需时间都相对更长，优势在于能够有效适应大批量的训练数据，同时能够取得更好的分类效果，尤其在类别较多的情况下。

在工业化使用中，数据量会随着平台和产品使用时间的增加而不断增加，因此深度学习模型是相对较优的选择。深度学习模型(如TextCNN，LSTM等)使用词向量作为模型的输入，因此词向量的预训练和优化就成为提升模型性能的重要问题之一。

现有的词向量训练技术，以word2vec模型为例，采用负采样算法对模型进行性能上的优化和提升。负采样算法的原理是对于当前的目标词，将其替换为其他词从而构建负样本集合，优化目标是最大化正样本的概率，同时最小化负样本的概率。现有构造负样本集合的过程如下：

使用训练语料中所有出现过的词构造一个词典N，设词典N中每一个词w对应一个线段长度l(w)，具体长度为：

这里counter(*)表示一个词在训练语料中出现的次数，将这些线段首尾相连地拼接在一起，形成一个长度为1的单位线段，然后定义一个M(N＜＜M),将这个长度为单位1的线段平均分成M份。如果随机地从这个线段上取点，则长度越长的线段(对应词频越高的词)，被选中的概率就越大。

单位线段的示意图如图1所示，每一个单词w_i对应一个线段I_i，每一个m_j都对应平均分成M份后的一个点。每一次选择负样本的时候，先随机地在[0,M]中选择一个值j，获得对应的点m_j，然后选择该值j在单位线段上所对应的线段I_i,即能够得到当前选中的单词w_i。

上述方案的主要缺点在于：在负样本集合构建的过程中，针对单词w_i，其他所有的单词都可以作为负样本候选集。比如，对于“空调”这个词，“电视机”也可能会被选择成为其负样本。但是针对智能音箱应用的智能家居的场景分类问题，我们认为“空调”和“电视机”应该都是属于正样本集合，而不应该出现在对方的负样本集合中。

现有的负采样方法是针对通用型的训练语料进行词向量的训练，训练获得的词向量也是具有通用性的，无法针对智能音箱的场景识别这一应用场景提供更多有价值的信息，而词向量训练的质量将直接影响分类模型(深度学习模型)的效果。

针对现有的词向量训练的质量不高的问题，本发明实施例提供了一种智能设备的词向量训练及装置。为了使本发明的目的，技术方案和优点更加清楚，下面结合附图，对本发明实施例提供的智能设备的词向量训练及装置的具体实施方式进行详细地说明。应当理解，下面所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明实施例提供的一种智能设备的词向量训练方法，如图2所示，可以包括：

S1、确定智能设备所应用的各场景对应的训练语料；

S2、根据各场景对应的训练语料，分别构建各场景对应的负样本词集合；

S3、根据各场景对应的负样本词集合，分别计算各负样本词集合包含的每个词的词频，并根据词频确定该词在负采样时被选中的概率；

S4、根据各词在负采样时被选中的概率，对各场景对应的负样本词集合中的各词进行负采样，并训练相应的词向量。

具体地，在本发明实施例提供的上述词向量训练方法中，通过根据智能设备所应用的不同场景构建对应的负样本词集合的方式，对现有的词向量训练中的负采样算法进行优化，从而能够训练得到贴合智能设备场景分类需求的高质量的词向量，并能够通过将其应用到分类模型中，进一步提高场景分类的准确率，从而能够是帮助智能设备更加准确地对用户指令做出相应的响应。

以下结合具体实施例对进行本发明实施例提供的词向量训练方法的各个步骤进行详细说明。

可选地，在本发明实施例提供的上述词向量训练方法中，上述步骤S1确定智能设备所应用的各场景对应的训练语料，如图3所示，具体可以包括：

S11、设定智能设备所应用的多个场景。

例如，针对智能音箱，根据智能音箱的技能需求，可以定义“天气”、“音乐”和“闹钟”三个使用场景，并将使用场景视为分类的类别。

S12、根据设定的不同场景，分别收集与各场景相关的训练语料。

具体可以分别收集三个场景下用户使用的指令，作为针对不同场景构建的模型的训练预料，例如针对“天气”场景可以收集到“今天天气怎么样”、“北京最近七天的天气预报”等用户使用的指令，针对“音乐”场景可以收集到“请播放儿歌”、“请播放歌曲”等用户使用的指令，针对“闹钟”场景可以收集到“请设定7点响铃”等用户使用指令。可以看出针对不同场景，用户使用的指令会有所不同。

可选地，在本发明实施例提供的上述词向量训练方法中，上述步骤S2构建各场景对应的负样本词集合之前，如图3所示，还可以包括：

S13、对各场景对应的训练语料进行数据预处理，数据预处理包括分词、去除设定的符号和去除设定的停用词。

具体可以使用开源工具(例如jieba等)对收集到的训练语料进行分词，去除标点符号，去除“的”、“地”等停用词。

可选地，在本发明实施例提供的上述词向量训练方法中，上述步骤S2根据各场景对应的训练语料，分别构建各场景对应的负样本词集合，如图3所示，具体可以包括以下步骤：

S21、针对每个场景，将其他场景对应的训练语料作为本场景对应的负样本词集合。即针对第i个场景，将该场景对应的训练语料中出现的词作为正样本，构造词典D_i，将其余场景中的词作为负样本，来构建负样本词集合N_i。

例如，针对“天气”场景，将“天气”场景对应的训练语料中的所有词作为正样本，将“音乐”和“闹钟”场景对应的训练语料中的所有词作为“天气”场景的负样本词集合。

在采用上述步骤S21构建出的负样本词集合N_i中的某些词有可能出现同时存在于正样本词集合和负样本词集合中的情况。基于此，进一步地，可选地，在本发明实施例提供的上述词向量训练方法中，上述步骤S21将其他场景对应的训练语料作为本场景对应的负样本词集合之后，如图3所示，还可以包括：

S22、在本场景对应的负样本词集合中去除本场景对应的训练语料中的词。即当某个词既出现在正样本中，又出现在负样本中时，则不作为负样本的候选词，即D_i∩N_i＝φ。这样可以缩小负样本词集合的范围，提高其准确性。

例如，针对“天气”场景，将“天气”场景中所有的词都作为正样本，遍历“音乐”和“闹钟”场景中的所有词，如果没有在“天气”场景中出现过，则将其加入“天气”场景的负样本词集合。

可选地，在本发明实施例提供的上述词向量训练方法中，上述步骤S3根据各场景对应的负样本词集合，分别计算各负样本词集合包含的每个词的词频，并根据词频确定该词在负采样时被选中的概率，如图3所示，具体可以包括：

S31、根据各场景对应的负样本词集合，分别计算各负样本词集合包含的每个词的词频c(u)。即在针对同一个词在负样本词集合中出现的次数。

S32、根据词频确定该词在负采样时被选中的概率。即根据词频计算每个词的采样范围，计算公式如下：

类似地，设置一个长度为单位1的线段，为每个负样本的词在线段上分配值为len(u)的一段，然后定义一个M(N_i＜＜M)，将这个长度为单位1的线段平均分成M份。如果随机地从这个线段上取点，则长度越长的线段(对应词频越高的词)，被选中的概率就越大。

可选地，在本发明实施例提供的上述词向量训练方法中，上述步骤S4根据各词在负采样时被选中的概率，对各场景对应的负样本词集合中的各词进行负采样，并训练相应的词向量，如图3所示，具体可以包括：

S41、根据各词在负采样时被选中的概率，对各场景对应的负样本词集合中的各词进行负采样。

具体进行负采样时，在每一次选择负样本的时候，先随机地在[0,M]中选择一个值j，获得对应的点m_j，然后选择该值j在单位线段上所对应的线段I_i,即能够得到当前选中的单词w_i。单位线段的示意图如图1所示，每一个单词w_i对应一个线段I_i，每一个m_j都对应平均分成M份后的一个点。

S42、训练相应的词向量。具体以最大化正样本的概率，同时最小化负样本的概率为目标训练词向量。

具体地，本发明实施例提供的上述词向量训练方法最终获得的词向量可以作为模型的特征，从而进一步完成下游的场景识别任务。

本发明实施例提供的上述智能设备的词向量训练方法，通过根据智能设备所应用的不同场景构建对应的负样本词集合的方式，对现有的词向量训练中的负采样算法进行优化，从而能够训练得到贴合智能设备场景分类需求的高质量的词向量，并能够通过将其应用到分类模型中，进一步提高场景分类的准确率，从而能够是帮助智能设备更加准确地对用户指令做出相应的响应。

基于同一发明构思，本发明实施例还提供了一种智能设备的词向量训练装置，由于该装置解决问题的原理与前述一种智能设备的词向量训练方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

本发明实施例提供的一种智能设备的词向量训练装置，如图4所示，可以包括：

获取模块1，用于确定智能设备所应用的各场景对应的训练语料；

生成模块2，用于根据各场景对应的训练语料，分别构建各场景对应的负样本词集合；

计算模块3，用于根据各场景对应的负样本词集合，分别计算各负样本词集合包含的每个词的词频，并根据词频确定该词在负采样时被选中的概率；

训练模块4，用于根据各词在负采样时被选中的概率，对各场景对应的负样本词集合中的各词进行负采样，并训练相应的词向量。

可选地，在本发明实施例提供的上述词向量训练装置中，生成模块2，具体可以用于针对每个场景，将其他场景对应的训练语料作为本场景对应的负样本词集合。

可选地，在本发明实施例提供的上述词向量训练装置中，生成模块2，还可以用于将其他场景对应的训练语料作为本场景对应的负样本词集合之后，在本场景对应的负样本词集合中去除本场景对应的训练语料中的词。

可选地，在本发明实施例提供的上述词向量训练装置中，获取模块1，具体可以用于设定智能设备所应用的多个场景；根据设定的不同场景，分别收集与各场景相关的训练语料。

可选地，在本发明实施例提供的上述词向量训练装置中，如图4所示，还可以包括：预处理模块5，用于对各场景对应的训练语料进行数据预处理，数据预处理包括分词、去除设定的符号和去除设定的停用词。

本发明实施例提供的上述智能设备的词向量训练方法及装置，通过根据智能设备所应用的不同场景构建对应的负样本词集合的方式，对现有的词向量训练中的负采样算法进行优化，从而能够训练得到贴合智能设备场景分类需求的高质量的词向量，并能够通过将其应用到分类模型中，进一步提高场景分类的准确率，从而能够是帮助智能设备更加准确地对用户指令做出相应的响应。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种智能设备的词向量训练方法，其特征在于，包括：

确定所述智能设备所应用的各场景对应的训练语料；

2.如权利要求1所述的词向量训练方法，其特征在于，所述根据各所述场景对应的训练语料，分别构建各所述场景对应的负样本词集合，具体包括：

3.如权利要求2所述的词向量训练方法，其特征在于，所述将其他场景对应的训练语料作为本场景对应的负样本词集合之后，还包括：

4.如权利要求1所述的词向量训练方法，其特征在于，所述确定智能设备所应用的各场景对应的训练语料，具体包括：

设定智能设备所应用的多个场景；

5.如权利要求1-4任一项所述的词向量训练方法，其特征在于，构建各所述场景对应的负样本词集合之前，还包括：

6.一种智能设备的词向量训练装置，其特征在于，包括：

7.如权利要求6所述的词向量训练装置，其特征在于，所述生成模块，具体用于针对每个所述场景，将其他场景对应的训练语料作为本场景对应的负样本词集合。

8.如权利要求7所述的词向量训练装置，其特征在于，所述生成模块，还用于将其他场景对应的训练语料作为本场景对应的负样本词集合之后，在本场景对应的负样本词集合中去除本场景对应的训练语料中的词。

9.如权利要求6所述的词向量训练装置，其特征在于，所述获取模块，具体用于设定智能设备所应用的多个场景；根据设定的不同场景，分别收集与各所述场景相关的训练语料。

10.如权利要求6-9任一项所述的词向量训练装置，其特征在于，还包括：预处理模块，用于对各所述场景对应的训练语料进行数据预处理，所述数据预处理包括分词、去除设定的符号和去除设定的停用词。