CN111199728A

CN111199728A - 训练数据获取方法及装置和智能音箱、智能电视

Info

Publication number: CN111199728A
Application number: CN201811286988.7A
Authority: CN
Inventors: 李亚丽
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2020-05-26

Abstract

本申请公开了一种训练数据获取方法及装置和智能音箱、智能电视，该方法包括：获取用户行为数据；根据预先设置的分析模式对获取的用户行为数据进行分析；将分析结果作为训练数据中。本申请优化了训练数据。

Description

训练数据获取方法及装置和智能音箱、智能电视

技术领域

本申请涉及但不限于人工智能技术，尤指一种训练数据获取方法及装置和智能音箱、智能电视。

背景技术

目前，智能音箱、智能电视、智能汽车等智能产品的对话系统中，一般包括：唤醒(WakeUp)模块、语音识别(ASR)模块、自然语言理解(NLU)模块、对话管理(DM)模块、自然语言生成(NLG)模块、语音合成(TTS)模块等。其中，NLU模块是对话系统中的重要组成部分，用于根据ASR后的用户请求串(query)对用户的意图进行理解并做出响应。比如用户说“我要看猫和老鼠”，则NLU会对这个query进行理解后，按照用户的意图播放《猫和老鼠》。通常NLU会采用规则方法来确保基础功能，统计方法来增加泛化。

随着计算能力的增强，由于深度神经网络算法在大规模数据上的优势而被广泛用于NLU模块的统计方法部分。然而，深度神经网络往往需要大量的数据来做训练，人工标注数据的昂贵又会导致训练数据不足，导致了获取持续优化模型的训练数据成为瓶颈。

发明内容

本申请提供一种训练数据获取方法及装置和智能音箱、智能电视，能够优化训练数据。

本发明实施例提供了一种训练数据获取方法，包括：

获取用户行为数据；

根据预先设置的分析模式对获取的用户行为数据进行分析；

将分析结果作为训练数据。

可选地，所述预先设置的分析模式包括：根据预先设置的阈值对所述用户行为数据进行分析；

所述对获得的用户行为数据进行分析，包括：

根据预先设置的阈值对所述用户行为数据进行分析，获取正样例和/或负样例。

可选地，所述预先设置的分析模式包括：根据预先设置的数学模型对所述用户行为数据进行分析；

所述对获得的用户行为数据进行分析，包括：

根据预先设置的数学模型对所述用户行为数据进行分析，获取正样例和负样例。

可选地，所述方法还包括：将所述分析结果添加到自然语言理解NLU的训练数据中；

所述将分析结果添加到NLU的训练数据中，包括：

将所述正样例直接添加到所述训练数据中；对所述负样例进行人工标注后，再添加到所述训练数据中。

可选地，所述用户行为数据包括以下任一项或任意组合：

用户的实际使用行为数据、用户的自行修正数据、用户反馈的否定数据。

可选地，所述用户行为数据包括用户的实际使用行为数据，所述预先设置的阈值包括时长阈值；

所述对用户行为数据进行分析获取正样例和负样例，包括：

当用户的实际使用行为数据显示的播放时长大于或等于时长阈值时，该用户的实际使用行为数据为所述正样例，当用户的实际使用行为数据显示的播放时长小于时长阈值时，该用户的实际使用行为数据为所述负样例。

可选地，所述用户行为数据为用户的自行修正数据；所述预先设置的阈值为第一用户数阈值；

所述对用户行为数据进行分析获取正样例和负样例，包括：

当用户的自行修正数据对应的用户数量大于或等于第一用户数阈值时，该自行修正数据为所述正样例，当对应的用户数量小于第一用户数阈值时，该自行修正数据为所述负样例。

可选地，所述用户行为数据为用户反馈的否定数据；所述预先设置的阈值为第二用户数阈值；

所述对用户行为数据进行分析获取正样例和负样例，包括：

当用户反馈的否定数据对应的用户数量大于或等于第二用户数阈值时，该反馈的否定数据为所述正样例，当对应的用户数量小于第二用户数阈值时，该反馈的否定数据为所述负样例。

可选地，当所述用户行为数据为用户的实际使用行为数据，所述对所述负样例进行人工标注，包括：对出现错误的原因进行标注；

当所述用户行为数据为用户的自行修正数据，所述对所述负样例进行人工标注，包括：对确认NLU返回结果错误进行标注。

当所述用户行为数据为用户反馈的否定数据，所述对所述负样例进行人工标注，包括：对确定为否定数据进行标注。

本申请还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一项所述的训练数据获取方法。

本申请再提供了一种用于计算机装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行上述任一项所述的训练数据获取方法的步骤。

本申请又提供了一种训练数据获取装置，包括：获取模块、分析模块、处理模块；其中，

获取模块，用于获取用户行为数据；

分析模块，用于根据预先设置的分析模式对获得的用户行为数据进行分析；

处理模块，用于将分析结果作为训练数据。

本申请还提供了一种智能音箱，包括：存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：获取用户行为数据；根据预先设置的分析模式对获取的用户行为数据进行分析；将分析结果作为训练数据添加到自然语言理解NLU的训练数据中。

本申请又提供了一种智能电视，包括：存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：获取用户行为数据；根据预先设置的分析模式对获取的用户行为数据进行分析；将分析结果作为训练数据添加到自然语言理解NLU的训练数据中。

本申请包括：获取用户行为数据；根据预先设置的分析模式对获取的用户行为数据进行分析；将分析结果作为训练数据。本申请通过对用户实际使用的用户行为数据进行分析后再加入训练数据中，优化了训练数据。

在一种示例性实例中，本申请还可以包括：将获得的训练数据添加到自然语言理解的训练数据中，从而提高了自然语言理解的学习准确率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请训练数据获取方法的流程图；

图2为本申请训练数据获取装置的组成结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在本申请一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本申请训练数据获取方法的流程图，如图1所示，包括：

步骤100：获取用户行为数据。

在一种示例性实例中，可以通过日志获取用户行为数据。

在一种示例性实例中，用户行为数据指的是，在智能对话系统上线使用后，用户使用该智能对话系统的相关行为数据。用户行为数据可以包括以下任一项或任意组合：用户的实际使用行为数据、用户的自行修正数据、用户反馈的否定数据。

用户行为数据中的用户的实际使用行为数据包括播放时长，比如：视频播放时长、音频播放时长、导航使用时长等等。

在一种示例性实例中，以视频播放时长为例，视频播放时长是指智能对话系统根据用户视频播放的意图向用户反馈视频后，视频被用户播放的时间长度。本申请发明人发现：播放时长与NLU结果的正确性有较强的相关性，当播放时长较长时，一般NLU返回结果很好即真实地理解了用户的意图；而如果播放时长很短时，往往是因为NLU结果错误、获得语音识别后的query本身不准确等。

用户行为数据中的用户的自行修正数据，比如：将“xxyy”自行修正为“xxxy”等。

在一种示例性实例中，在用户发出query，如“温暖的鞋”后，NLU反馈无结果或者NLU反馈结果错误，用户自行修正为“温暖的弦”。本申请发明人发现：这部分用户的自行修正数据可以用于改进NLU，尤其是改进纠错算法，使得NLU对ASR具有更强的容错能力。

用户行为数据中的用户反馈的否定数据，比如：用户发出的请求为“xxyy”，NLU反馈“aabb”或“不理解”，用户反馈“你真笨”等否定数据。

在一种示例性实例中，假设用户发出的query为“斯皮尔伯格导演的”，但是NLU反馈无结果或者NLU反馈结果错误，用户对NLU的反馈做出的否定评价如“你怎么这么笨呢”等抱怨系统不智能的语句。本申请发明人发现：这些否定NLU反馈的请求结果(比如在请求后30秒内的反馈)可以用于提高系统的智能性。

步骤101：根据预先设置的分析模式对获取的用户行为数据进行分析。

在一种示例性实例中，预先设置的分析模式可以是根据预先设置的阈值对获得的用户行为数据进行分析。此时，本步骤包括：根据预先设置的阈值对用户行为数据进行分析获取正样例(OverSampling)和/或负样例(UnderSampling)。

在一种示例性实例中，当用户行为数据为用户的实际使用行为数据时，预先设置的阈值为时长阈值。对用户行为数据进行分析获取正样例和负样例包括：

当用户的实际使用行为数据显示的播放时长大于或等于时长阈值时，该用户的实际使用行为数据为正样例，当用户的实际使用行为数据显示的播放时长小于时长阈值时，该用户的实际使用行为数据为负样例。

在一种示例性实例中，为了避免由于用户的个人行为而导致的误判，本申请可以结合视频领域播放时长、当前query平均播放时长、当次请求播放时长来综合判断NLU结果的正确性。比如：视频领域播放时长等于播放总时长除以请求次数，如30分钟左右；当前query(比如query是“播一个南方有乔木”)的平均播放时长如为36分钟；当次请求播放时长如为5分钟。这样，综合上述因素后，并不会因为某次请求播放时长过短而判断为NLU结果错误，也就是说避免了由于用户的个人行为而导致的误判。

在一种示例性实例中，当用户行为数据为用户的自行修正数据时，预先设置的阈值为第一用户数阈值。对用户行为数据进行分析获取正样例和负样例包括：

当用户的自行修正数据对应的用户数量大于或等于第一用户数阈值时，该自行修正数据为正样例，当对应的用户数量小于第一用户数阈值时，该自行修正数据为负样例。

在一种示例性实例中，当用户行为数据为用户反馈的否定数据时，预先设置的阈值为第二用户数阈值。对用户行为数据进行分析获取正样例和负样例包括：

当用户反馈的否定数据对应的用户数量大于或等于第二用户数阈值时，该反馈的否定数据为正样例，当对应的用户数量小于第二用户数阈值时，该反馈的否定数据为负样例。

在一种示例性实例中，当用户行为数据包括：用户的实际使用行为数据、用户的自行修正数据、用户反馈的否定数据时，按照预先设置的规则，比如：当用户的实际使用行为数据显示的播放时长大于或等于时长阈值、且用户的自行修正数据对应的用户数量小于第一用户数阈值、且用户反馈的否定数据对应的用户数量小于第二用户数阈值时，可以认为该用户行为数据为正样例；再如：当用户的实际使用行为数据显示的播放时长小于时长阈值、且用户的自行修正数据对应的用户数量大于第一用户数阈值、且用户反馈的否定数据对应的用户数量大于第二用户数阈值时，可以认为该用户行为数据为负样例；再如：当用户的实际使用行为数据显示的播放时长大于或等于时长阈值、但是用户的自行修正数据对应的用户数量大于第一用户数阈值、且用户反馈的否定数据对应的用户数量大于第二用户数阈值时，可以认为该用户行为数据为负样例。等等。

在一种示例性实例中，预先设置的分析模式也可以是根据预先设置的数学模型对获得的用户行为数据进行分析。此时，步骤101包括：根据预先设置的数学模型对用户行为数据进行分析获取正样例和负样例。也就是说，将获得的用户的行为数据作为预先设置的数学模型的输入，数学模型经过自学习后输出分析出的正样例和负样例。数学模型可以采用如logistic回归、支持向量机(SVM)、各种神经网络(NN)等，具体实现并不用于限定本申请的保护范围，这里不再赘述。

步骤102：将分析结果作为训练数据。

可选地，本步骤还包括：将所述分析结果添加到自然语言理解NLU的训练数据中。包括：

将正样例直接添加到训练数据中；对负样例进行人工标注确认为否定数据(即负样例)后，再添加到训练数据中。其中，确认为否定数据的原因可能包括：播放时间短、没资源的预告片、片质量乏味、推荐结果错误等。

在一种示例性实例中，对于播放时长大于或等于时长阈值的用户的实际使用行为数据，可以直接添加到训练数据中；对于播放时长小于时长阈值的用户的实际使用行为数据，需要进一步进行人工标注后，再添加到训练数据中。

以用户的实际使用行为数据为播放视频时长为例，

假设收集到的视频播放时长较长的数据包括如：用户发出query：羞羞的铁拳，在NLU反馈视频后对应播放时长为2953秒(s)；用户发出query：爸爸去哪儿第五季，在NLU反馈视频后对应的播放时长为1856s；用户发出query：我要看猫和老鼠，在NLU反馈视频后对应的播放时长为1062s。

假设收集到的视频播放时长较短的数据包括如：用户发出query：托马斯玩具，在NLU反馈视频后对应播放时长为59s；用户发出query：想，在NLU反馈视频后对应播放时长为79s；用户发出query：小猪配器，在NLU反馈视频后对应播放时长为81s。

对于播放时长较短的数据，可以进一步去除无资源、播放预告片的干扰数据；之后进行人工检查(check)，进行标注如确定为结果错误后再加入训练语料，这样处理后使得数据具有较强的错误针对性，有助于提升改善NLU的处理效果。

仍以上面的例子为例，对于用户发出query：托马斯玩具，在NLU反馈视频后对应播放时长为59s的数据，经过人工分析后可以标注：领域分类错误，应为购物；对于用户发出query：想，在NLU反馈视频后对应播放时长为79s的数据，经过人工分析后可以标注：领域分类错误，应该拒识，却被NLU理解，且播放了《想看你微笑》这个视频；对于用户发出query：小猪配器，在NLU反馈视频后对应播放时长为81s的数据，经过人工分析后可以标注：口音或方言识别错误导致NLU只抽取了小猪，播放一个叫小猪的电影。

在一种示例性实例中，对于用户的自行修正数据，当对应的用户数量大于或等于第一用户数阈值时，认为该对同一个qurry的修正是可信的，可以直接添加到训练数据中；而对应的用户数量小于第一用户数阈值时，需要进一步进行人工标注后，再添加到训练数据中。

以用户的实际使用行为数据为用户的自行修正数据为例，

假设收集到的对应的用户数量大于或等于第一用户数阈值的数据包括如：用户发出query：电锯小子后10s，用户将当前qurry自行更改为：电击小子；用户发出query：宝宝发誓后3s，用户将当前qurry自行更改为：宝宝巴士。这些数据可以作为纠错用的训练语料，以增强NLU的纠错能力。

对于收集到的对应的用户数量小于第一用户数阈值的自行修正数据，会进一步进行人工检查(check)，对其进行标注如确认NLU返回结果错误后再加入训练语料，这样确保了负样例的可信性。

在一种示例性实例中，对于用户反馈的否定数据，当对应的用户数量大于或等于第二用户数阈值时，认为该对同一个qurry的修正是可信的，可以直接添加到训练数据中；而对应的用户数量小于第二用户数阈值时，需要进一步进行人工标注后，再添加到训练数据中。

以用户的实际使用行为数据为用户反馈的否定数据为例，

假设收集到的对应的用户数量大于或等于第一用户数阈值的数据包括如：用户发出query：我爱你，NLU反馈播放视频《我爱你》，之后如在发出querry后30s内，用户对NLU的反馈做出否定评价：你是个傻子；用户发出query：中苏卫视，NLU反馈不理解，之后如在发出querry后30s内，用户对NLU的反馈做出否定评价：你真笨；用户发出query：我看小田发誓，NLU反馈不理解，之后如在发出querry后30s内，用户对NLU的反馈做出否定评价：大笨猪；用户发出query：云溪传，NLU反馈不理解，之后如在发出querry后30s内，用户对NLU的反馈做出否定评价：你好蠢那。这些数据可以直接添加到训练数据中。

对于收集到的对应的用户数量小于第二用户数阈值的用户反馈的否定数据，会进一步进行人工检查(check)，对其进行标注确定为否定数据后再加入训练语料，这样确保了否定数据的准确性，使得分类器分出的结果更加可信。

本申请通过对用户实际使用的用户行为数据进行分析后再加入训练数据中，优化了训练数据，进而提高了自然语言理解的学习准确率。

本申请还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上任一项的训练数据获取的方法。

本申请再提供一种计算机装置，包括存储器和处理器，其中，存储器中存储有上述任一项的训练数据获取方法的步骤。

图2为本申请训练数据获取装置的组成结构示意图，如图2所示，包括：获取模块、分析模块、处理模块；其中，

获取模块，用于获取用户行为数据；

分析模块，用于根据预先设置的分析模式对获取的用户行为数据进行分析；

处理模块，用于将分析结果作为训练数据。

在一种示例性实例中，获取模块具体用于：通过日志获取用户行为数据。

可选地，用户行为数据可以包括以下任一项或任意组合：用户的实际使用行为数据、用户的自行修正数据、用户反馈的否定数据。

在一种示例性实例中，预先设置的分析模式是根据预先设置的阈值对获得的用户行为数据进行分析，分析模块具体用于：根据预先设置的阈值对用户行为数据进行分析获取正样例和负样例。

在一种示例性实例中，预先设置的分析模式是根据预先设置的数学模型对获得的用户行为数据进行分析，分析模块具体用于：根据预先设置的数学模型对用户行为数据进行分析获取正样例和负样例。

可选地，分析模块更具体地用于：

当用户行为数据为用户的实际使用行为数据时，预先设置的阈值为时长阈值；对用户行为数据进行分析获取正样例和负样例包括：当用户的实际使用行为数据显示的播放时长大于或等于时长阈值时，该用户的实际使用行为数据为正样例，当用户的实际使用行为数据显示的播放时长小于时长阈值时，该用户的实际使用行为数据为负样例；

当用户行为数据为用户的自行修正数据时，预先设置的阈值为第一用户数阈值；对用户行为数据进行分析获取正样例和负样例包括：当用户的自行修正数据对应的用户数量大于或等于第一用户数阈值时，该自行修正数据为正样例，当对应的用户数量小于第一用户数阈值时，该自行修正数据为负样例；

当用户行为数据为用户反馈的否定数据时，预先设置的阈值为第二用户数阈值；对用户行为数据进行分析获取正样例和负样例包括：当用户反馈的否定数据对应的用户数量大于或等于第二用户数阈值时，该反馈的否定数据为正样例，当对应的用户数量小于第二用户数阈值时，该反馈的否定数据为负样例。

在一种示例性实例中，处理模块还用于：将所述分析结果添加到自然语言理解NLU的训练数据中，包括：

对于播放时长大于或等于时长阈值的用户的实际使用行为数据，可以直接添加到训练数据的正样例中；对于播放时长小于时长阈值的用户的实际使用行为数据，需要进一步进行人工标注确认为否定数据(即负样例)后，再添加到训练数据中。其中，确认为否定数据的原因可能包括：播放时间短、没资源的预告片、片质量乏味、推荐结果错误等。

虽然本申请所揭露的实施方式如上，但所述的内容仅为便于理解本申请而采用的实施方式，并非用以限定本申请。任何本申请所属领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种训练数据获取方法，包括：

获取用户行为数据；

根据预先设置的分析模式对获取的用户行为数据进行分析；

将分析结果作为训练数据。

2.根据权利要求1所述的训练数据获取方法，其中，所述预先设置的分析模式包括：根据预先设置的阈值对所述用户行为数据进行分析；

所述对获得的用户行为数据进行分析，包括：

3.根据权利要求1所述的训练数据获取方法，其中，所述预先设置的分析模式包括：根据预先设置的数学模型对所述用户行为数据进行分析；

所述对获得的用户行为数据进行分析，包括：

4.根据权利要求2或3所述的训练数据获取方法，所述方法还包括：将所述分析结果添加到自然语言理解NLU的训练数据中；

所述将分析结果添加到NLU的训练数据中，包括：

5.根据权利要求1～3任一项所述的训练数据获取方法，其中，所述用户行为数据包括以下任一项或任意组合：

6.根据权利要求2所述的训练数据获取方法，其中，所述用户行为数据包括用户的实际使用行为数据，所述预先设置的阈值包括时长阈值；

所述对用户行为数据进行分析获取正样例和负样例，包括：

7.根据权利要求2所述的训练数据获取方法，其中，所述用户行为数据为用户的自行修正数据；所述预先设置的阈值为第一用户数阈值；

所述对用户行为数据进行分析获取正样例和负样例，包括：

8.根据权利要求2所述的训练数据获取方法，其中，所述用户行为数据为用户反馈的否定数据；所述预先设置的阈值为第二用户数阈值；

所述对用户行为数据进行分析获取正样例和负样例，包括：

9.根据权利要求4所述的训练数据获取方法，其中，

当所述用户行为数据为用户的实际使用行为数据，所述对所述负样例进行人工标注，包括：对出现错误的原因进行标注；

当所述用户行为数据为用户的自行修正数据，所述对所述负样例进行人工标注，包括：对确认NLU返回结果错误进行标注；

10.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1～权利要求9任一项所述的训练数据获取方法。

11.一种用于计算机装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行权利要求1～权利要求9任一项所述的训练数据获取方法的步骤。

12.一种训练数据获取装置，包括：获取模块、分析模块、处理模块；其中，

获取模块，用于获取用户行为数据；

处理模块，用于将分析结果作为训练数据。

13.一种智能音箱，包括：存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：获取用户行为数据；根据预先设置的分析模式对获取的用户行为数据进行分析；将分析结果作为训练数据添加到自然语言理解NLU的训练数据中。

14.一种智能电视，包括：存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：获取用户行为数据；根据预先设置的分析模式对获取的用户行为数据进行分析；将分析结果作为训练数据添加到自然语言理解NLU的训练数据中。