CN110543636B

CN110543636B - 一种对话系统的训练数据选择方法

Info

Publication number: CN110543636B
Application number: CN201910840420.3A
Authority: CN
Inventors: 张贺; 雷欣; 李志飞
Original assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Current assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2023-05-23
Anticipated expiration: 2039-09-06
Also published as: CN110543636A

Abstract

本发明提供一种对话系统的训练数据选择方法，包括：确定新增垂直领域和所述新增垂直领域对应的第一正样本数据；选取多个候选垂直领域，确定所述多个候选垂直领域中每个候选垂直领域对应的第二正样本数据；根据所述新增垂直领域对应的第一正样本数据和所述每个候选垂直领域对应的第二正样本数据，确定所述每个候选垂直领域与新增垂直领域之间的相似度；根据预设条件和每个候选垂直领域与新增垂直领域之间的所述相似度，确定满足预设条件的候选垂直领域作为所述新增垂直领域的训练候选垂直领域。本发明还提供一种对话系统的训练数据选择装置，确定作为用于训练新增垂直领域的候选垂直领域，提高了准确率和效率，同时降低了人力成本。

Description

一种对话系统的训练数据选择方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种对话系统的训练数据选择方法和装置。

背景技术

对话系统是人类和机器交互的接口，任务型人机对话系统同是一种常见的对话系统，而任务型人机对话系统中，自然语言理解模块作为重要的模块，用于对语音识别模块输出的自言语言文本进行语义解析，将非结构化的自言语言文本解析为使机器可以理解的结构化知识。

在自然语言理解模块解析自言语言文本时，垂直领域的解析是其中重要的一环，垂直领域表示着自然语言文本的所述领域，该领域的选取影响着语义槽识别和领域意图分类等模块，而对于一个训练好的垂直领域集合，以往在添加新垂直领域时，需要熟悉训练好的垂直领域的专家在每个垂直领域中进行人工选取负样本，用于训练新增的垂直领域，不仅要求专家对于每个垂直领域都很熟悉，而且效率低下，需要逐个审查每个垂直领域，不适合系统的快速迭代，同时因为人工从每个垂直领域中找合适的负样本，容易漏选、误选，错误率较高。

发明内容

本发明提供一种对话系统的训练数据选择方法和装置，在训练数据的选择上提高了准确率和效率，同时降低了人力成本。

一方面，本发明实施例提供了一种对话系统的训练数据选择方法，其特征在于，所述方法包括：确定新增垂直领域和所述新增垂直领域对应的第一正样本数据；选取多个候选垂直领域，确定所述多个候选垂直领域中每个候选垂直领域对应的第二正样本数据；根据所述新增垂直领域对应的第一正样本数据和所述每个候选垂直领域对应的第二正样本数据，确定所述每个候选垂直领域与新增垂直领域之间的相似度；根据预设条件和每个候选垂直领域与新增垂直领域之间的所述相似度，确定满足预设条件的候选垂直领域作为所述新增垂直领域的训练候选垂直领域。

可选的，在确定所述多个候选垂直领域中每个候选垂直领域对应的第二正样本数据后，所述方法还包括：对所述第一正样本数据进行分词处理，得到所述新增垂直领域对应的第一分词样本数据，对每个候选垂直领域对应所述第二正样本数据进行分词处理，得到所述每个候选垂直领域对应的第二分词样本数据；所述根据所述新增垂直领域对应的第一正样本数据和所述每个候选垂直领域对应的第二正样本数据，确定所述每个候选垂直领域与新增垂直领域之间的相似度，具体包括：根据新增垂直领域对应的第一分词样本数据和所述每个候选垂直领域对应的第二分词样本数据，确定所述每个候选垂直领域与新增垂直领域之间的相似度。

可选的，所述第一分词样本数据包括多个不相同的第一分词，所述第二分词样本数据包括多个不相同的第二分词；在得到所述新增垂直领域对应的第一分词样本数据和得到所述候选垂直领域对应的第二分词样本数据之后，所述方法还包括：获取所述第一分词的正向参数和反向参数，根据所述正向参数和所述反向参数确定所述第一分词的重要度；获取所述第二分词的正向参数和反向参数，根据所述正向参数和所述反向参数确定所述第二分词的重要度；所述根据新增垂直领域对应的第一分词样本数据和所述每个候选垂直领域对应的第二分词样本数据，确定所述每个候选垂直领域与新增垂直领域之间的相似度，具体包括：根据所述第一分词的重要度和所述第二分词的重要度，确定所述每个候选垂直领域与新增垂直领域之间的相似度。

可选的，所述第二分词样本数据包括多个不相同的第二分词，具体包括：所述第二分词样本数据包括多组第二分词子样本，每个所述第二分词子样本分别对应每个候选垂直领域，所述第二分词子样本包括多个不完全相同的第二分词。

可选的，根据所述第一分词样本数据中每个所述第一分词出现的数量确定所述第一分词的正向参数；根据所述第二分词样本数据中每个所述第二分词出现的数量确定所述第二分词的正向参数。

可选的，根据所述第一分词和所述第二分词对应的垂直领域的数量和全部垂直领域的数量，确定所述第一分词的反向参数和所述第二分词的反向参数；其中，所述全部垂直领域包括所述新增垂直领域和所述候选垂直领域。

可选的，所述根据所述第一分词的重要度和所述第二分词的重要度，确定所述每个候选垂直领域与新增垂直领域之间的相似度，具体包括：根据所述第一分词的重要度和所述第二分词的重要度，计算每个候选垂直领域和新增垂直领域间的欧氏距离；所述根据预设条件和每个候选垂直领域与新增垂直领域之间的所述相似度，确定满足预设条件的候选垂直领域作为所述新增垂直领域的训练候选垂直领域，具体包括：根据预设条件和所述欧氏距离，确定满足预设条件的候选垂直领域作为所述新增垂直领域的训练候选垂直领域。

可选的，所述根据预设条件和所述欧氏距离，确定满足预设条件的候选垂直领域作为所述新增垂直领域的训练候选垂直领域，具体包括：获取欧氏距离阈值；若所述欧氏距离大于或者小于所述欧氏距离阈值，则将所述欧氏距离对应的所述候选垂直领域作为所述新增垂直领域对应的所述训练候选垂直领域。

可选的，在所述选取符合预设要求相似度的候选垂直领域作为所述新增垂直领域的训练候选垂直领域后，所述方法还包括：使用所述训练候选垂直领域对应的所述第二正样本数据作为所述新增垂直领域负样本数据，对所述新增垂直领域进行训练。

另一方面，本发明实施例提供了一种对话系统的训练数据选择装置，其特征在于，所述装置包括：确定模块、选取模块、处理模块和比较模块，其中，所述确定模块，用于确定新增垂直领域和所述新增垂直领域对应的第一正样本数据；所述选取模块，用于选取多个候选垂直领域，确定所述多个候选垂直领域中每个候选垂直领域对应的第二正样本数据；所述处理模块，用于根据所述新增垂直领域对应的第一正样本数据和所述每个候选垂直领域对应的第二正样本数据，确定所述每个候选垂直领域与新增垂直领域之间的相似度；所述比较模块，用于根据预设条件和每个候选垂直领域与新增垂直领域之间的所述相似度，确定满足预设条件的候选垂直领域作为所述新增垂直领域的训练候选垂直领域。

基于上述，本发明提供一种对话系统的训练数据选择方法，所述方法包括：确定新增垂直领域和所述新增垂直领域对应的第一正样本数据；选取多个候选垂直领域，确定所述多个候选垂直领域中每个候选垂直领域对应的第二正样本数据；根据所述新增垂直领域对应的第一正样本数据和所述每个候选垂直领域对应的第二正样本数据，确定所述每个候选垂直领域与新增垂直领域之间的相似度；根据预设条件和每个候选垂直领域与新增垂直领域之间的所述相似度，确定满足预设条件的候选垂直领域作为所述新增垂直领域的训练候选垂直领域。采用本发明实施例的方案，通过计算新增垂直领域和候选垂直领域之间的相似度，确定作为用于训练新增垂直领域的候选垂直领域，从而提高了准确率和效率，同时降低了人力成本。

附图说明

图1为本发明实施例对话系统的训练数据选择方法的流程示意图；

图2为本发明实施例“天气”垂直领域中词集对应的各个向量表；

图3为本发明实施例的对话系统的训练数据选择装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接或可以相互通讯；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。在不冲突的情况下，本发明中的技术特征可以相互组合。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

下文的公开提供了许多不同的实施方式或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本发明。此外，本发明可以在不同例子中重复参考数字和/或参考字母，这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施方式和/或设置间的关系。此外，本发明提供了的各种特定的工艺和材料的例子，但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。

本发明实施例应用于对话系统，对话系统一般包括：语音识别模块、自然语言理解模块、对话管理模块、自然语言生成模块和语音合成模块。其中，语音识别模块用于将接收到的语音信息解析成自然语言文本，同时将该自然语言文本输出至自言语言理解模块，自然语言理解模块用于对语音世界模块输出的自然语言文本进行语义解析，将非结构化的自然语言文本解析成为符合自然语言理解协议的结构化信息。该结构化信息通过对话管理模块选择需要执行的系统行为。如果对话系统需要和用户进行交互，语言生成模块会根据该系统行为生成自然语言或者系统语言，最后如果该自然语言或者系统语言需要播放，则通过语音合成模块进行播放。可以理解的是，这些模块并非必须同时存在，而是可以根据对话系统的需要进行增减。

自然语言理解模块又包括垂直领域分类、领域意图分类、语意槽识别三个子模块。垂直领域分类子模块用于对从语音设备模块接收到的语音信息进行垂直领域分类，将该语音信息分类到正确的垂直领域用以更精准的对该语音信息进行领域意图分类和语意槽识别。

一般的对话系统中包含多个垂直领域，垂直领域表示着对于自然语言的语音信息的所述的独特的领域，例如：自然语言文本“播放周杰伦的七里香”属于音乐领域、自然语言文本“查看明天北京的天气”属于天气领域、自然语言文本“导航去天安门”属于导航领域。当自然语言文本被输出至垂直领域分类子模块时，使用该自然语言文本与每个训练完成的垂直领域的二分类模块结合，得到与每个训练完成的垂直领域对应的预测分数，选取最高分数对应的垂直领域作为该自然语言文本的垂直领域。例如一个对话系统包括了10个垂直领域，则使用训练语料对于每个垂直领域进行二分类模型的训练，当一条自然语言文本输入系统后，分别又10个垂直领域的二分类模型进行预测，得到10个分数，选取得分最高的二分类模型对应的垂直领域作为该自然语言文本对应的垂直领域。其中，训练语料为垂直领域的训练样本数据，该训练样本数据可以是人工提供，也可以从别的系统进行转移等等，训练样本数据可以包括正向训练该垂直领域二分类模型的正样本数据，也可以是包括反向训练该垂直领域二分类模型的负样本数据。

一个对话系统随着不断的维护和更新，会存在成百上千个垂直领域，当需要新增一个新的垂直领域的时候，为了和以往的垂直领域进行区分，则需要选取一批合适的垂直领域，将这批垂直领域的训练语料中的正样本数据作为新增垂直领域的负样本数据，用以训练新增垂直领域的二分类模型，以便于对于输入的自然语言文本的垂直领域分类。

在一些实施例中，语音信息的格式可以包括语音、文本等携带可以被解析的信息。语音识别模块接收的方式可以是无线传输、有线传输。语音信息的来源可以来自人、动物、机器等可以产生语音信息的主体。

图1是对话系统的训练数据选择方法的流程示意图，如图1所示，本发明一实施例具体包括以下步骤：

步骤101：确定新增垂直领域和所述新增垂直领域对应的第一正样本数据；

具体的，确定新增垂直领域和对应的第一正样本数据，该新增垂直领域与对话系统中原有的垂直领域不同，第一正样本数据为属于新增垂直领域的样本数据，第一正样本数据可以是一段话、一句话、或者一个词、一个字等等，第一正样本数据可以是一个，也可以是多个。

步骤102：选取多个候选垂直领域，确定所述多个候选垂直领域中每个候选垂直领域对应的第二正样本数据；

具体的，确定多个候选垂直领域和对应的第二正样本数据，该多个候选垂直领域不同于新增垂直领域，其中选取候选垂直领域有多个应当理解为选取两个或者两个以上候选垂直领域，每个候选垂直领域可以包括与其对应的第二正样本数据，第二正样本数据为属于相对应的候选垂直领域的样本数据，第二正样本数据可以是一段话、一句话、或者一个词、一个字等等，第二正样本数据可以是一个，也可以是多个。不同候选垂直领域对应的第二正样本数据可以相同、部分相同或者全部不相同，这里不做限定。

在一些实施方式中，第一正样本数据为新增垂直领域预定的正样本数据中的一个或者多个、也可以是全部，具体根据场景需要选取，例如当处理资源充足时，选取新增垂直领域中的全部正样本数据作为第一正样本数据，当资源不足时，选取新增垂直领域中的部分正样本数据作为第一正样本数据。第二正样本数据为候选垂直领域预定的正样本数据中的一个或者多个、也可以是全部。

在一些实施例中，确定多个候选垂直领域可以是对话系统中已有的全部垂直领域，也可以只选择对话系统中的一部分垂直领域，当系统资源足够的情况下，选取全部的垂直领域作为候选垂直领域，当系统资源不足的情况下，可以只选取部分垂直领域作为候选垂直领域，具体选取的方法可以随机挑选，可以根据资源选取，这里不做限定。

步骤103：根据所述新增垂直领域对应的第一正样本数据和所述每个候选垂直领域对应的第二正样本数据，确定所述每个候选垂直领域与新增垂直领域之间的相似度；

具体的，根据新增垂直领域中的第一正样本数据和候选垂直领域中的第二正样本数据，可以确定每个候选垂直领域与新增垂直领域之间样本的相似度；这里第一正样本数据需要和每个候选垂直领域对应的第二正样本数据进行分析，获得第一正样本数据和每个第二正样本数据之间的相似度，从而得到第一正样本数据对应新增垂直领域和第二正样本数据对应的每个候选垂直领域之间的多个相似度。

在一些实施方式中，新增垂直领域和每个候选领域之间的多个相似度可以是根据第一正样本数据中至少一个样本数据计算得到的第一向量、第二正样本数据中至少一个样本数据计算得到的第二向量，根据第一向量和第二向量之间的关系求得的相似度，也可以是根据第一正样本数据中至少一个样本数据的频率和第二正样本数据中至少一个样本数据的频率之间的关系求得的相似度。

在一些实施方式中，该相似度可以是两个向量之间的欧氏距离，也可以是两个向量之间的期望或者方差，这里不做限定，只要可以体现第一正样本数据和第二正样本数据之间的相似度或者差异度即可。

步骤104：根据预设条件和每个候选垂直领域与新增垂直领域之间的所述相似度，确定满足预设条件的候选垂直领域作为所述新增垂直领域的训练候选垂直领域。

根据不同的相似度表达形式，设置与之相对应的预设条件连选取符合预设条件的相似度，预设条件可以是数值限制、图形限制等等，例如选取数值最大的相似度，或者选取数值最小的相似度，又或者选取数值排名前3的相似度，还或者选取数值超过X的相似度等等。例如，当相似度为频率差时，选取频率差最大的相似度对应的候选垂直领域作为新增垂直领域对应的训练候选垂直领域；当相似度为欧氏距离时，选取欧氏距离最大的10个相似度对应的候选垂直领域作为新增垂直领域对应的训练候选垂直领域。

通过计算新增垂直领域和候选垂直领域之间的相似度，从而确定作为用于训练新增垂直领域的候选垂直领域，从而提高了准确率和效率，同时降低了人力成本。

为了便于后续的解释说明，这里新增垂直领域以导航领域为例，其对应的第一正样本数据包括“导航去北京的天安门”和“不去北京”两条正样本，而候选垂直领域包括：天气垂直领域和音乐垂直领域，其中天气垂直领域包括：“明天北京天气怎么样”、“今天的天气怎么样”和“上海的天气”三条正样本，而音乐垂直领域包括“播放音乐”、“播放周杰伦的音乐”和“听周杰伦的歌”三条正样本。可以理解的是，该举例是为了解释实施例而非限定。

在一些实施例中，对话系统的训练数据选择方法还包括：使用所述训练候选垂直领域对应的所述第二正样本数据作为所述新增垂直领域负样本数据，对所述新增垂直领域进行训练。当获取到新增垂直领域对应的一个或者多个训练候选垂直领域时，使用该训练候选垂直领域对应的一个或者多个正样本数据作为新增垂直领域的负样本数据，和/或新增垂直领域对应的一个桌和多个正样本数据，对新增垂直领域进行训练。

在一些实施例中，对新增垂直领域的训练可以是通过动作连接模型对正样本数据和负样本数据进行训练，得到符合要求的模型。这里的动作连接模型不做限定，可以是卷积神经网络(CNN，Convolutional Neural Networks)，也可以是循环神经网络(RNN，Recurrent Neural Networks)。符合要求的模型可以是二分类模型、也可以是虫口模型(LR，Logistic Regression)等等。

在一些实施例中，在确定新增垂直领域对应的第一正样本数据和每个候选垂直领域对应的第二正样本数据之后，对所述第一正样本数据进行分词处理，得到所述新增垂直领域对应的第一分词样本数据，对每个候选垂直领域对应所述第二正样本数据进行分词处理，得到所述每个候选垂直领域对应的第二分词样本数据；

具体的，当第一正样本数据和第二正样本数据具有不为一个字或者一个词正样本时，可以分别对每条正样本进行分词处理，分解成由许多分词样本组成的分词样本数据，即该第一分词样本数据包括多个的第一分词，该第二分词样本数据包括多个的第二分词；例如，第一正样本数据可以分解为“导航”、“去”、“北京”、“的”、“天安门”和“不去”、“北京”等第一分词组成的第一分词样本数据；而对于天气垂直领域的第二正样本数据可以分解为“明天”、“北京”、“天气”、“怎么样”、“今天”、“的”、“天气”、“怎么样”和“上海”、“的”、“天气”等第二分词组成的天气垂直领域的第二分词样本数据，而对于音乐垂直领域的第二正样本数据可以分解为“播放”、“音乐”、“播放”、“周杰伦”、“的”、“音乐”和“听”、“周杰伦”、“的”、“歌”等第二分词组成的音乐垂直领域的第二分词样本数据。这里具体的分词方式不限，可以通过字符匹配方法、理解法、统计法的方法，也可以使用集成的分词工具来实现。

根据新增垂直领域对应的第一分词样本数据和所述每个候选垂直领域对应的第二分词样本数据，确定所述每个候选垂直领域与新增垂直领域之间的相似度。在得到第一分词样本数据和第二分词样本数据之后，通过统计或者加权方法，计算第一分词样本数据和第二分词样本数据之间的相似度，从而确定新增垂直领域和第二分词样本数据对应的候选垂直领域之间的相似度。

在一些实施例中，该第一分词样本数据包括多个不相同的第一分词，该每组第二分词样本数据包括多个不相同的第二分词；例如，第一正样本数据可以分解为“导航”、“去”、“北京”、“的”、“天安门”和“不去”等第一分词组成的第一分词样本数据；而对于天气垂直领域的第二正样本数据可以分解为“明天”、“北京”、“天气”、“怎么样”、“今天”和“上海”等第二分词组成的天气垂直领域的第二分词样本数据，而对于音乐垂直领域的第二正样本数据可以分解为“播放”、“音乐”、“周杰伦”、“的”和“听”、“歌”等第二分词组成的音乐垂直领域的第二分词样本数据。这里对分词结果进行了去重操作，减少了第一分词和第二分词的数量，便于后续分析。

进一步的，可以将多个第一分词和多组第二分词样本数据中包括的多个第二分词进行拼接和去重操作，即将导航垂直领域、天气垂直领域和音乐垂直领域拼接在一起，得到完整的第三分词信息，例如：将全部的分词进行拼接和去重操作，得到“导航”、“去”、“北京”、“的”、“天安门”、“不去”、“明天”、“天气”、“怎么样”、“今天”、“上海”、“播放”、“音乐”、“周杰伦”、“听”、“歌”这样的第三分词信息。图2是本发明实施例“天气”垂直领域中词集对应的各个向量表，可以看出，此处将所有分词进行凭借和去重操作，得到第三分词信息，通过该步操作，将对于不同垂直领域的分词维度进行了统一，便于后续的计算。

在一些实施方式中，第二分词样本数据包括多组第二分词子样本，每个所述第二分词子样本分别对应每个候选垂直领域，所述第二分词子样本包括多个不完全相同的第二分词。

在一些实施例中，计算新增垂直领域和候选垂直领域之间的相似度时，可以使用词频-逆文本频率指数(TF-IDF，Term Frequency-Inverrse Document Frequency)统计方法或者文本等级(TR，Textrank)统计方法等等。后续为了解释方便，以TF-IDF算法为例进行解释说明，应当理解的是，其他统计方法可以实现相似度计算也在本发明的保护范围内。

在一些实施例中，获取所述第一分词的正向参数和反向参数，根据所述正向参数和所述反向参数确定所述第一分词的重要度；获取所述第二分词的正向参数和反向参数，根据所述正向参数和所述反向参数确定所述第二分词的重要度；例如，正向参数可以为词频(TF，Term Frequency)参数，反向参数可以为逆文本频率指数(IDF，Inverrse DocumentFrequency)参数，而重要度可以为TF-IDF，进而可以根据所述第一分词的TF-IDF和所述第二分词的TF-IDF，确定所述每个候选垂直领域与新增垂直领域之间的相似度。

具体的，根据所述第一分词样本数据中每个所述第一分词出现的数量确定所述第一分词的正向参数；根据所述第二分词样本数据中每个所述第二分词出现的数量确定所述第二分词的正向参数。如图2所示，以“天气”垂直领域为例可以看出，作为正向参数的TF向量根据词集对应的出现次数向量即进过分词后的第一分词占所有分词的比例，例如：“明天”只出现1词，共有出现11个词，因此，“明天”分词的TF向量为1/11。

具体的，根据所述第一分词和所述第二分词对应的垂直领域的数量和全部垂直领域的数量，确定所述第一分词的反向参数和所述第二分词的反向参数；其中，所述全部垂直领域包括所述新增垂直领域和所述候选垂直领域。如图2所示，先计算“明天”分词在全部垂直领域中的多少个垂直领域中出现，然后计算全部垂直领域数量比“明天”分词在多少个垂直领域中出现的对数，作为“明天”分词的IDF向量。例如，总共有3个垂直领域，“明天”分词只在一个垂直领域中出现，因此IDF向量为0.48。

在一些实施例中，对多个第一分词中的每一个分词计算TF参数和IDF参数，进一步计算出相对于第一分词中每一个分词的TF-IDF参数，对于每个候选垂直领域的多个第二分词中的每个分词计算TF参数和IDF参数，进一步计算出相对于每个候选垂直领域的第二分词中每一个分词的TF-IDF参数。如图2所示，例如：将“天气”分词的TF参数和IDF相乘，获得TF-IDF参数。

这里以“天气”垂直领域中的“天气”分词为例，获取了“天气”分词的重要度，针对于新增垂直领域和任何一个后补垂直领域，都可以计算得到任意一个第一分词和第二分词的重要度，若将所有分词作为向量，则可以得到任何一个垂直领域对应的向量组。

进一步的，根据所述第一分词的重要度和所述第二分词的重要度，计算每个候选垂直领域和新增垂直领域间的欧氏距离。根据每个第一分词的重要度对应第一向量组和第二分词重要度对应的第二向量组，计算第一向量组和第二向量组之间的欧氏距离，当欧氏距离越大，表明新增垂直领域和该候选垂直领域之间的相似度越低，当欧氏距离越小，表明新增垂直领域和该候选垂直领域之间的相似度越低高；确定满足预设条件的候选垂直领域作为所述新增垂直领域的训练候选垂直领域。

本发明实施例还提供了一种对话系统的训练数据选择装置，图3为本发明实施例的对话训练数据选择装置的结构示意图，如图3所示，其特征在于，所述装置包括：确定模块31、选取模块32、处理模块33和比较模块34，其中，

所述确定模块31，用于确定新增垂直领域和所述新增垂直领域对应的第一正样本数据；

所述选取模块32，用于选取多个候选垂直领域，确定所述多个候选垂直领域中每个候选垂直领域对应的第二正样本数据；

所述处理模块33，用于根据所述新增垂直领域对应的第一正样本数据和所述每个候选垂直领域对应的第二正样本数据，确定所述每个候选垂直领域与新增垂直领域之间的相似度；

所述比较模块34，用于根据预设条件和每个候选垂直领域与新增垂直领域之间的所述相似度，确定满足预设条件的候选垂直领域作为所述新增垂直领域的训练候选垂直领域。

本发明实施例还提供了一种对话管理装置，本发明实施例的对话管理装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行：

确定新增垂直领域和所述新增垂直领域对应的第一正样本数据；

选取多个候选垂直领域，确定所述多个候选垂直领域中每个候选垂直领域对应的第二正样本数据；

根据所述新增垂直领域对应的第一正样本数据和所述每个候选垂直领域对应的第二正样本数据，确定所述每个候选垂直领域与新增垂直领域之间的相似度；

根据预设条件和每个候选垂直领域与新增垂直领域之间的所述相似度，确定满足预设条件的候选垂直领域作为所述新增垂直领域的训练候选垂直领域。

本发明实施例还提供了一种计算机可读存储介质，本发明实施例的计算机可读存储介质储有计算机可执行指令，当所述指令被执行时用于执行下述步骤：

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种对话系统的训练数据选择方法，其特征在于，所述方法包括：

对所述第一正样本数据进行分词处理，得到所述新增垂直领域对应的第一分词样本数据，对每个候选垂直领域对应所述第二正样本数据进行分词处理，得到所述每个候选垂直领域对应的第二分词样本数据；所述第一分词样本数据包括多个不相同的第一分词，所述第二分词样本数据包括多个不相同的第二分词；

获取所述第一分词的正向参数和反向参数，根据所述正向参数和所述反向参数确定所述第一分词的重要度；

获取所述第二分词的正向参数和反向参数，根据所述正向参数和所述反向参数确定所述第二分词的重要度；

根据所述第一分词的重要度和所述第二分词的重要度，确定所述每个候选垂直领域与新增垂直领域之间的相似度；

2.根据权利要求1所述的训练数据选择方法，其特征在于，所述第二分词样本数据包括多个不相同的第二分词，具体包括：

所述第二分词样本数据包括多组第二分词子样本，每个所述第二分词子样本分别对应每个候选垂直领域，所述第二分词子样本包括多个不完全相同的第二分词。

3.根据权利要求1所述的训练数据选择方法，其特征在于，根据所述第一分词样本数据中每个所述第一分词出现的数量确定所述第一分词的正向参数；

根据所述第二分词样本数据中每个所述第二分词出现的数量确定所述第二分词的正向参数。

4.根据权利要求1所述的训练数据选择方法，其特征在于，根据所述第一分词和所述第二分词对应的垂直领域的数量和全部垂直领域的数量，确定所述第一分词的反向参数和所述第二分词的反向参数；

其中，所述全部垂直领域包括所述新增垂直领域和所述候选垂直领域。

5.根据权利要求1所述的训练数据选择方法，其特征在于，所述根据所述第一分词的重要度和所述第二分词的重要度，确定所述每个候选垂直领域与新增垂直领域之间的相似度，具体包括：

根据所述第一分词的重要度和所述第二分词的重要度，计算每个候选垂直领域和新增垂直领域间的欧氏距离；

所述根据预设条件和每个候选垂直领域与新增垂直领域之间的所述相似度，确定满足预设条件的候选垂直领域作为所述新增垂直领域的训练候选垂直领域，具体包括：

根据预设条件和所述欧氏距离，确定满足预设条件的候选垂直领域作为所述新增垂直领域的训练候选垂直领域。

6.根据权利要求5所述的训练数据选择方法，其特征在于，所述根据预设条件和所述欧氏距离，确定满足预设条件的候选垂直领域作为所述新增垂直领域的训练候选垂直领域，具体包括：

获取欧氏距离阈值；

若所述欧氏距离大于或者小于所述欧氏距离阈值，则将所述欧氏距离对应的所述候选垂直领域作为所述新增垂直领域对应的所述训练候选垂直领域。

7.根据权利要求1所述的训练数据选择方法，其特征在于，在所述选取符合预设要求相似度的候选垂直领域作为所述新增垂直领域的训练候选垂直领域后，所述方法还包括：

使用所述训练候选垂直领域对应的所述第二正样本数据作为所述新增垂直领域负样本数据，对所述新增垂直领域进行训练。

8.一种对话系统的训练数据选择装置，其特征在于，所述装置包括：确定模块、选取模块、处理模块和比较模块，其中，

所述确定模块，用于确定新增垂直领域和所述新增垂直领域对应的第一正样本数据；

所述选取模块，用于选取多个候选垂直领域，确定所述多个候选垂直领域中每个候选垂直领域对应的第二正样本数据；

所述处理模块，用于对所述第一正样本数据进行分词处理，得到所述新增垂直领域对应的第一分词样本数据，对每个候选垂直领域对应所述第二正样本数据进行分词处理，得到所述每个候选垂直领域对应的第二分词样本数据；所述第一分词样本数据包括多个不相同的第一分词，所述第二分词样本数据包括多个不相同的第二分词；获取所述第一分词的正向参数和反向参数，根据所述正向参数和所述反向参数确定所述第一分词的重要度；获取所述第二分词的正向参数和反向参数，根据所述正向参数和所述反向参数确定所述第二分词的重要度；根据所述第一分词的重要度和所述第二分词的重要度，确定所述每个候选垂直领域与新增垂直领域之间的相似度；

所述比较模块，用于根据预设条件和每个候选垂直领域与新增垂直领域之间的所述相似度，确定满足预设条件的候选垂直领域作为所述新增垂直领域的训练候选垂直领域。