CN109783620A

CN109783620A - 模型确定方法、装置及设备

Info

Publication number: CN109783620A
Application number: CN201811539843.3A
Authority: CN
Inventors: 宋元峰; 鲍思琪; 姜迪
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2019-05-21

Abstract

本发明实施例提供一种模型确定方法、装置及设备，该方法包括：在主题库中获取第一数据集对应的目标主题，所述主题库中包括多个主题，所述主题库中的主题为根据数据集训练得到的用于构成模型的数据；根据所述目标主题确定所述第一数据集对应的目标模型。因此提高了确定模型的效率。

Description

模型确定方法、装置及设备

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种模型确定方法、装置及设备。

背景技术

在机器学习技术领域，通常需要对数据进行训练以得到模型，并根据训练得到的模型进行数据处理。

在现有技术中，当需要确定一个模型时，通常先收集大量的数据，例如，可以在网页、新闻、小说中收集大量数据。对收集得到的大量数据进行学习，进而得到数据模型。然而，在实际应用过程中，对大量数据进行训练需要消耗巨大的资源，并且需要消耗较长的时间，导致现有技术中确定模型的效率低下。

发明内容

本发明实施例提供一种模型确定方法、装置及设备，提高了确定模型的效率。

第一方面，本发明实施例提供一种模型确定方法，包括：

在主题库中获取第一数据集对应的目标主题，所述主题库中包括多个主题，所述主题库中的主题为根据数据集训练得到的用于构成模型的数据；

根据所述目标主题确定所述第一数据集对应的目标模型。

在一种可能的实施方式中，所述在主题库中获取第一数据集对应的目标主题，包括：

获取所述第一数据集与所述主题库中每个主题之间的相似度、以及每个主题的类型；

根据所述第一数据集与所述主题库中每个主题之间的相似度、以及每个主题的类型，在主题库中获取第一数据集对应的目标主题。

在一种可能的实施方式中，所述获取所述第一数据集与所述主题库中每个主题之间的相似度，包括：

获取所述第一数据集的第一数据分布，所述第一数据分布包括多个词汇和每个词汇在所述第一数据集中出现的概率；

根据所述第一数据分布和所述主题库中每个主题的数据分布，获取所述第一数据集与所述主题库中每个主题之间的相似度。

在一种可能的实施方式中，所述根据所述第一数据集与所述主题库中每个主题之间的相似度、以及每个主题的类型，在主题库中获取第一数据集对应的目标主题，包括：

确定第一主题集合和第二主题集合，初始时，所述第一主题集合为空，所述第二主题集合与所述主题库相同；

获取所述第一数据集与所述第二主题集合中各主题之间的相似度；

执行目标主题确定操作，所述目标主题确定操作包括：根据所述第一数据集与所述第二主题集合中各主题的相似度、第二主题集合中各主题的类型和所述第一主题集合中各主题的类型，在所述第二主题集合中确定第一主题，将所述第一主题添加至所述第一主题集合，并在所述第二主题集合中删除所述第一主题；

重复执行所述目标主题确定操作，直至所述第一主题集合中包括N个主题，或者所述第一数据集与所述第二主题集合中各主题的相似度均小于第一预设相似度时，将所述第一主题集合中的主题确定为所述目标主题，所述N为目标主题的个数，所述N为大于或等于1的整数。

在一种可能的实施方式中，所述根据所述第一数据集与所述第二主题集合中各主题的相似度、第二主题集合中各主题的类型和所述第一主题集合中各主题的类型，在所述第二主题集合中确定第一主题，包括：

在第二主题集合中确定第二主题，所述第二主题为所述第二主题集合中与所述第一数据集相似度最高的主题；

在所述第二主题的类型与所述第一主题集合中各主题的类型均不相同时，则将所述第二主题确定为所述第一主题；

在所述第二主题的类型与所述第一主题集合中至少一个主题的类型相同时，判断所述第二主题与所述第一数据集的相似度是否经过打折处理，若是，则将所述第二主题确定为所述第一主题，若否，则将所述第二主题与所述第一数据集的相似度进行打折处理，并根据打折处理后的所述第二主题与所述第一数据集的相似度重新在所述第二主题集合中确定所述第二主题，打折处理后的相似度小于打折处理前的相似度。

在一种可能的实施方式中，所述在主题库中获取第一数据集对应的目标主题之前，还包括：

获取数据集集合，所述数据集集合中包括多个数据集；

对所述数据集集合中的数据集进行训练，得到多个待选主题；

对所述多个待选主题进行去冗余处理，得到所述主题库。

在一种可能的实施方式中，所述对所述多个待选主题进行去冗余处理，得到所述主题库，包括：

根据所述多个待选主题确定至少一个主题组，一个主题组中每两个主题之间的相似度均大于第二预设相似度；

将每个主题组中的一个主题确定为所述主题库中的主题。

在一种可能的实施方式中，所述根据所述目标主题确定所述第一数据集对应的目标模型，包括：

判断所述目标主题的个数是否小于构建所述目标模型所需的最小主题个数；

若是，则对所述第一数据集进行训练得到M个主题，并根据所述目标主题和所述M个主题确定所述目标模型，所述目标模型中包括所述目标主题和所述M个主题，所述M为大于1的整数，所述M为构建所述目标模型所需的最小主题个数与所述目标主题的个数之差；

若否，则根据所述目标主题确定所述第一数据集对应的目标模型，所述目标模型中包括所述目标主题。

在一种可能的实施方式中，所述目标模型中包括所述目标主题和所述M个主题；所述根据所述目标主题确定所述第一数据集对应的目标模型之后，还包括：

获取所述M个主题与所述主题库中各主题的相似度；

根据所述M个主题与所述主题库中各主题的相似度，更新所述主题库。

在一种可能的实施方式中，所述根据所述M个主题与所述主题库中各主题的相似度，更新所述主题库，包括：

针对所述M个主题中的任意一个第三主题，判断所述主题库中是否存在至少一个主题的相似度与所述第三主题的相似度大于第三预设相似度；

若否，则将所述第三主题添加至所述主题库。

第二方面，本发明实施例提供一种模型确定装置，包括第一获取模块和第一确定模块，其中，

所述第一获取模块用于，在主题库中获取第一数据集对应的目标主题，所述主题库中包括多个主题，所述主题库中的主题为根据数据集训练得到的用于构成模型的数据；

所述第一确定模块用于，根据所述目标主题确定所述第一数据集对应的目标模型。

在一种可能的实施方式中，所述第一获取模块具体用于：

在一种可能的实施方式中，所述装置还包括第二获取模块和第二确定模块，其中，

所述第二获取模块用于，在所述第一获取模块在主题库中获取第一数据集对应的目标主题之前，获取数据集集合，所述数据集集合中包括多个数据集；

所述第二确定模块用于，对所述数据集集合中的数据集进行训练，得到多个待选主题；对所述多个待选主题进行去冗余处理，得到所述主题库。

在一种可能的实施方式中，所述第二确定模块具体用于：

将每个主题组中的一个主题确定为所述主题库中的主题。

在一种可能的实施方式中，所述第一确定模块具体用于：

在一种可能的实施方式中，所述装置还包括第三获取模块和更新模块，其中，

所述第三获取模块用于，在所述根据所述目标主题确定所述第一数据集对应的目标模型之后，获取所述M个主题与所述主题库中各主题的相似度；所述目标模型中包括所述目标主题和所述M个主题；

所述更新模块用于，根据所述M个主题与所述主题库中各主题的相似度，更新所述主题库。

在一种可能的实施方式中，所述更新模块具体用于：

若否，则将所述第三主题添加至所述主题库。

第三方面，本发明实施例提供一种模型确定装置，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面一项所述的模型确定方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的模型确定方法。

本发明实施例提供的模型确定方法、装置及设备，当需要确定第一数据集对应的目标模型时，在主题库中获取第一数据集对应的目标主题，并根据目标主题确定第一数据集对应的目标模型。在上述过程中，无需对第一数据集进行训练，即可得到第一数据集对应的目标模型，由于在主题库中确定第一数据集对应的目标主题的效率远远高于对第一数据集进行训练的效率，因此提高了确定模型的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的模型确定方法的架构图；

图2为本发明实施例提供的模型确定方法的流程示意图；

图3为本发明实施例提供的生成主题库方法的流程示意图；

图4为本发明实施例提供的确定目标主题方法的流程示意图；

图5为本发明实施例提供的一种模型确定装置的结构示意图；

图6为本发明实施例提供的另一种模型确定装置的结构示意图；

图7为本发明实施例提供的模型确定装置的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的模型确定方法的架构图。请参见图1，在主题库中包括多个主题，每个主题为根据数据集训预先训练好的，即，根据主题库中的主题无需训练即可得到模型。当需要确定第一数据集对应的目标模型时，在主题库中确定第一数据集对应的目标主题，并根据目标主题确定第一数据集对应的目标模型。

在本申请中，当需要确定第一数据集对应的目标模型时，无需对第一数据集进行训练，即可得到第一数据集对应的目标模型，由于在主题库中确定第一数据集对应的目标主题的效率远远高于对第一数据集进行训练的效率，因此提高了确定模型的效率。进一步的，当第一数据集中的数据量有限时，根据主题库中的主题依然可以获取准确的模型。

下面，通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是，下面几个具体实施例可以相互结合，对于相同或相似的内容，在不同的实施例中不再进行重复说明。

图2为本发明实施例提供的模型确定方法的流程示意图。请参见图2，该方法可以包括：

S201、在主题库中获取第一数据集对应的目标主题。

本发明实施例的执行主体可以为电子设备，也可以为设置在电子设备中的模型确定装置。可选的，模型确定装置可以提供软件实现，也可以通过软件和硬件的结合实现。

可选的，电子设备可以计算机、服务器等设备。

可选的，第一数据集为任意的数据集。例如，第一数据集可以为在网页中收集的数据，在微博中收集的数据等。

可选的，当需要确定第一数据集对应的目标模型时，可以执行图2实施例所述的方法。

可选的，主题库为预先生成的。在实际应用过程中，还可以根据实际需要对模型库进行更新。

需要说明的是，在图3所示的实施例中，对生成主题库的过程进行详细说明，此处不再进行赘述。

其中，主题库中包括多个主题，主题库中的主题为根据数据集训练得到的用于构成模型的数据。

可选的，数据集可以为在网页中、新闻中、小说中收集的数据。

例如，一个数据集可以为预设网页中的数据。或者，一个数据集可以为预设时段内的新闻等。

可选的，主题为对数据集进行训练得到的，一个主题可以为一种数据分布，一种数据分布中包括多个关键词和每个关键词的出现概率。

例如，假设一个主题为娱乐，该主题中包括明星、电影、歌曲等关键字，明星的出现概率为0.5，电影的出现概率为0.3等。

可选的，模型中通常包括多个主题。

可选的，可以获取第一数据集与主题库中每个主题之间的相似度、以及每个主题的类型，并根据第一数据集与主题库中每个主题之间的相似度、以及每个主题的类型，在主题库中获取第一数据集对应的目标主题。

可选的，可以获取第一数据集的第一数据分布，第一数据分布包括多个词汇和每个词汇在第一数据集中出现的概率，并根据第一数据分布和主题库中每个主题的数据分布，获取第一数据集与主题库中每个主题之间的相似度。

可选的，可以通过如下公式一确定两个数据分布之间的相似度：

其中，Z_i为第i个数据分布，Z_j为第j个数据分布，ρ(Z_i，Z_j)为第i个数据分布和第j个数据分布的相似度，为第i个数据分布中第t个词汇出现的概率，为第j个数据分布第t个词汇出现的概率，为第i个数据分布中第t个词汇与第j个数据分布中第t个词汇之间的最小距离，T为预设值，T小于或等于第i个数据分布中包括的词汇个数、以及第j个数据分布中包括的词汇个数，m大于1且小于T。

需要说明的是，还可以通过其它公式确定两个数据分布之间的相似度，本发明实施例对此不作具体限定。

还需要说明的是，在图4所示的实施例中，对确定目标主题的过程进行详细说明，此处不再进行赘述。

S202、根据目标主题确定第一数据集对应的目标模型。

可选的，可以判断目标主题的个数是否小于构建目标模型所需的最小主题个数。

在目标主题的个数小于构建目标模型所需的最小主题个数时，则对第一数据集进行训练得到M个主题，并根据目标主题和M个主题确定目标模型，目标模型中包括目标主题和M个主题，M为大于1的整数，M为构建目标模型所需的最小主题个数与目标主题的个数之差。

在目标主题的个数等于构建目标模型所需的最小主题个数时，则根据目标主题确定第一数据集对应的目标模型，目标模型中包括目标主题。

可选的，在目标模型中包括目标主题和M个主题；根据目标主题确定第一数据集对应的目标模型之后，还包括获取M个主题与主题库中各主题的相似度；根据M个主题与主题库中各主题的相似度，更新主题库。

可选的，针对M个主题中的任意一个第三主题，判断主题库中是否存在至少一个主题的相似度与第三主题的相似度大于第三预设相似度，若否，则将第三主题添加至主题库。

可选的，可以通过如下算法3实现确定目标模型：

在上述算法3中，第1行代码定义了输入参数，第2行代码定义输出参数。第4-17行代码用于实现构建目标模型。第3、18-25行代码均为算法所基于的算法语言所规定的语法表示。

需要说明的是，上述算法3中所涉及算法语法为该算法所基于的算法语言所规定的，上述算法3中的参数为实现该算法所需的参数，参数还可以由其它符号表示，本发明实施例对此不作具体限定。

需要说明的是，上述只是以示例的形式示意实现对多个待选主题进行去冗余处理的算法，并非对算法的限定，在实际应用过程中，可以根据实际需要选择算法，本发明实施例对此不作具体限定。

本发明实施例提供的模型确定方法，当需要确定第一数据集对应的目标模型时，在主题库中获取第一数据集对应的目标主题，并根据目标主题确定第一数据集对应的目标模型。在上述过程中，无需对第一数据集进行训练，即可得到第一数据集对应的目标模型，由于在主题库中确定第一数据集对应的目标主题的效率远远高于对第一数据集进行训练的效率，因此提高了确定模型的效率。

在上述任意一个实施例的基础上，下面，通过图3所示的实施例，对生成主题库的过程进行详细说明。

图3为本发明实施例提供的生成主题库方法的流程示意图。请参见图3，该方法可以包括：

S301、获取数据集集合，数据集集合中包括多个数据集。

可选的，可以在网页、微博、小说中进行数据收集以得到多个数据集。

S302、对数据集集合中的数据集进行训练，得到多个待选主题。

可选的，还可以在已有的模型中获取主题，并将已有模型中的主题确定为待选主题。

S303、对多个待选主题进行去冗余处理，得到主题库。

可选的，可以通过如下可行的实现方式对多个待选主题进行去冗余处理：根据多个待选主题确定至少一个主题组，一个主题组中每两个主题之间的相似度均大于第二预设相似度，将每个主题组中的一个主题确定为主题库中的主题。

可选的，可以将主题组中的任意一个主题确定为主题库中的主题。

可选的，可以通过如下算法1实现对多个待选主题进行去冗余处理：

在上述算法1中，第1行代码定义了输入参数，第2行代码定义输出参数。第4-11行代码用于实现如下功能：判断Z_i和Z_j的相似度，在Z_i和Z_j的相似度大于δ时，将Z_i和Z_j划分至集合R(主题组)中，通过上述代码中的循环语句即可实现将不同的待选主题划分至不同的集合R中。第15-18行代码用于实现如下功能：在一个主题组中保留一个主题，将一个主题组中的其他主题删除，得到M^B。第23行代码用于实现输出主题库。第3、12-14、19-22行代码均为算法所基于的算法语言所规定的语法表示。

需要说明的是，上述算法1中所涉及算法语法为该算法所基于的算法语言所规定的，上述算法1中的参数为实现该算法所需的参数，参数还可以由其它符号表示，本发明实施例对此不作具体限定。

通过图3实施例所示的方法确定得到的主题库中包括多个训练好的主题，且主题库中不包括冗余的主题。

在上述任意一个实施例的基础上，下面，通过图4所示的实施例对确定目标主题(图2实施例中的S201)的过程进行详细说明。

图4为本发明实施例提供的确定目标主题方法的流程示意图。请参见图4，该方法可以包括：

S401、确定第一主题集合和第二主题集合。

其中，初始时，第一主题集合为空，第二主题集合与主题库相同。

S402、获取第一数据集与第二主题集合中各主题之间的相似度。

可选的，可以先获取第一数据集的第一数据分布，并根据第一数据分布和各主题对应的数据分布之间的相似度，获取第一数据集与第二主题集合中各主题之间的相似度。

可选的，可以通过上述公式一获取第一数据分布和各主题对应的数据分布之间的相似度，此处不再进行赘述。

S403、在第二主题集合中确定第二主题，第二主题为第二主题集合中与第一数据集相似度最高的主题。

S404、判断第一主题集合中是否存在类型与第二主题的类型相同的主题。

若是，则执行S405。

若否，则执行S407。

S405、判断第二主题与第一数据集的相似度是否经过打折处理。

若是，则执行S407。

若否，则执行S406。

S406、将第二主题与第一数据集的相似度进行打折处理。

在S406之后，执行S403。

其中，打折处理后的相似度小于打折处理前的相似度。

可选的，可以对第二主题与第一数据集的相似度进行开根号处理，或者，对第二主题与第一数据集的相似度乘以小于1的权值。

需要说明的是，在本申请中，第一数据集与任意一个主题的相似度仅进行一个打折处理。

S407、将第二主题确定为第一主题。

S408、将第一主题添加至第一主题集合，并在第二主题集合中删除第一主题。

S409、判断第一主题集合中包括的主题个数是否小于N，且第二主题集合中存在主题与所述第一主题集合的相似度大于第一预设相似度。

其中，N为目标主题的个数，N为大于或等于1的整数。

若是，则执行S403。

若否，则执行S410。

S410、将第一主题集合中的主题确定为目标主题。

可选的，可以通过如下算法2实现确定目标主题：

在上述算法2中，第1行代码定义了输入参数，第2行代码定义输出参数。第4-9行代码用于实现如下功能：在主题库中选择出多个满足相似性和多样性的目标主题。其中，通过Φ(S)表示该多个目标主题的相似性和多样性其中，Φ(S)＝C(S)+λV(S)，C(S)表示相似度，V(S)表示多样性，λ为预设参数，S为主题库。

其中，表示第一数据集的数据分布，Z表示主题库中的主题的数据分布，为和Z之间的相似度，p为主题库中包括的主题类型数量，p_i为第i个主题类型的主题集合。

第14行代码用于实现输出主题库。第3、10-13行代码均为算法所基于的算法语言所规定的语法表示。

需要说明的是，上述算法2中所涉及算法语法为该算法所基于的算法语言所规定的，上述算法2中的参数为实现该算法所需的参数，参数还可以由其它符号表示，本发明实施例对此不作具体限定。

需要说明的是，上述只是以示例的形式示意确定目标主题的算法，并非对算法的限定，在实际应用过程中，可以根据实际需要选择算法，本发明实施例对此不作具体限定。

下面，通过具体示例，对图4实施例所示的方法进行详细说明。

示例性的，初始时，确定第一主题集合为空，第二主题集合与主题库相同。

先在第二主题集合中选择一个与第一数据集的相似度最大的一个主题，假设为主题1，并将该主题1添加至第一主题集合，并在第二主题集合中删除主题1。此时，第一主题集合中包括主题1。

在第二主题集合中选择一个与第一数据集的相似度最大的一个主题，假设为主题2，判断主题2的类型与第一主题集合中的主题1的类型是否相同，假设主题2的类型与主题1的类型相同，则将主题2与第一数据集的相似度进行打折处理，并重新在第二主题集合中选择一个与第一数据集的相似度最大的一个主题，假设为主题3，假设主题3的类型与主题1的类型相同，则将主题3添加至第一主题集合，并在第二主题集合中删除主题3。此时，第一主题集合中包括主题1和主题3。

在第二主题集合中选择一个与第一数据集的相似度最大的一个主题，假设为主题2，虽然主题2与主题1的类型相同，但是由于主题2与第一主题集合的相似度已经进行过打折处理，因此，仍将主题2添加至第一主题集合，并在第二主题集合中删除主题2。此时，第一主题集合中包括主题1、主题3和主题2。

以此类推，直至第一主题集合中包括N(N为目标主题的个数)个主题，或者第一数据集与第二主题集合中各主题的相似度均小于第一预设相似度。

图5为本发明实施例提供的一种模型确定装置的结构示意图。请参见图5，该模型确定装置10可以包括第一获取模块11和第一确定模块12，其中，

所述第一获取模块11用于，在主题库中获取第一数据集对应的目标主题，所述主题库中包括多个主题，所述主题库中的主题为根据数据集训练得到的用于构成模型的数据；

所述第一确定模块12用于，根据所述目标主题确定所述第一数据集对应的目标模型。

本发明实施例提供的模型确定装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

在一种可能的实施方式中，所述第一获取模块11具体用于：

图6为本发明实施例提供的另一种模型确定装置的结构示意图。在图5所示实施例的基础上，请参见图6，模型确定装置10还包括第二获取模块13和第二确定模块14，其中，

所述第二获取模块13用于，在所述第一获取模块11在主题库中获取第一数据集对应的目标主题之前，获取数据集集合，所述数据集集合中包括多个数据集；

所述第二确定模块14用于，对所述数据集集合中的数据集进行训练，得到多个待选主题；对所述多个待选主题进行去冗余处理，得到所述主题库。

在一种可能的实施方式中，所述第二确定模块14具体用于：

将每个主题组中的一个主题确定为所述主题库中的主题。

在一种可能的实施方式中，所述第一确定模块12具体用于：

在一种可能的实施方式中，所述装置还包括第三获取模块15和更新模块16，其中，

所述第三获取模块15用于，在所述根据所述目标主题确定所述第一数据集对应的目标模型之后，获取所述M个主题与所述主题库中各主题的相似度；所述目标模型中包括所述目标主题和所述M个主题；

所述更新模块16用于，根据所述M个主题与所述主题库中各主题的相似度，更新所述主题库。

在一种可能的实施方式中，所述更新模块16具体用于：

若否，则将所述第三主题添加至所述主题库。

图7为本发明实施例提供的模型确定装置的硬件结构示意图，如图7所示，该模型确定装置20包括：至少一个处理器21和存储器22。其中，处理器21和存储器22通过总线23连接。

可选地，该模型确定20还包括通信部件。例如，通信部件可以包括接收器和/或发送器。

在具体实现过程中，至少一个处理器21执行所述存储器22存储的计算机执行指令，使得至少一个处理器21执行如上的模型确定方法。

处理器21的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述图7所示的实施例中，应理解，处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的模型确定方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种模型确定方法，其特征在于，包括：

根据所述目标主题确定所述第一数据集对应的目标模型。

2.根据权利要求1所述的方法，其特征在于，所述在主题库中获取第一数据集对应的目标主题，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取所述第一数据集与所述主题库中每个主题之间的相似度，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述第一数据集与所述主题库中每个主题之间的相似度、以及每个主题的类型，在主题库中获取第一数据集对应的目标主题，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一数据集与所述第二主题集合中各主题的相似度、第二主题集合中各主题的类型和所述第一主题集合中各主题的类型，在所述第二主题集合中确定第一主题，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述在主题库中获取第一数据集对应的目标主题之前，还包括：

获取数据集集合，所述数据集集合中包括多个数据集；

对所述多个待选主题进行去冗余处理，得到所述主题库。

7.根据权利要求6所述的方法，其特征在于，所述对所述多个待选主题进行去冗余处理，得到所述主题库，包括：

将每个主题组中的一个主题确定为所述主题库中的主题。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述根据所述目标主题确定所述第一数据集对应的目标模型，包括：

9.根据权利要求8所述的方法，其特征在于，所述目标模型中包括所述目标主题和所述M个主题；所述根据所述目标主题确定所述第一数据集对应的目标模型之后，还包括：

获取所述M个主题与所述主题库中各主题的相似度；

10.根据权利要求9所述的方法，其特征在于，所述根据所述M个主题与所述主题库中各主题的相似度，更新所述主题库，包括：

若否，则将所述第三主题添加至所述主题库。

11.一种模型确定装置，其特征在于，包括第一获取模块和第一确定模块，其中，

12.根据权利要求11所述的装置，其特征在于，所述第一获取模块具体用于：

13.根据权利要求12所述的装置，其特征在于，所述第一获取模块具体用于：

14.根据权利要求12所述的装置，其特征在于，所述第一获取模块具体用于：

15.根据权利要求14所述的装置，其特征在于，所述第一获取模块具体用于：

16.根据权利要求11-15任一项所述的装置，其特征在于，所述装置还包括第二获取模块和第二确定模块，其中，

17.根据权利要求16所述的装置，其特征在于，所述第二确定模块具体用于：

将每个主题组中的一个主题确定为所述主题库中的主题。

18.根据权利要求11-17任一项所述的装置，其特征在于，所述第一确定模块具体用于：

19.根据权利要求18所述的装置，其特征在于，所述装置还包括第三获取模块和更新模块，其中，

20.根据权利要求19所述的装置，其特征在于，所述更新模块具体用于：

若否，则将所述第三主题添加至所述主题库。

21.一种模型确定装置，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至10任一项所述的模型确定方法。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至10任一项所述的模型确定方法。