CN107330009B

CN107330009B - 主题词分类模型创建方法、创建装置及存储介质

Info

Publication number: CN107330009B
Application number: CN201710447182.0A
Authority: CN
Inventors: 孙子荀
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-06-14
Filing date: 2017-06-14
Publication date: 2022-03-08
Anticipated expiration: 2037-06-14
Also published as: CN107330009A

Abstract

本发明提供一种主题词分类模型创建方法，其包括：获取多个模型训练文档，并提取所述模型训练文档的标签词；基于相似度算法，获取标签词对应的核心主题词组；基于映射内容库，获取核心主题词组对应的第一模型训练文档集合；基于机器学习算法，对多个模型训练文档进行分类操作；基于映射内容库，获取标签词对应的所有模型训练文档的主体类别标识，并根据标签词对应的主体类别标识，确定标签词对应的第二模型训练文档集合；将标签词对应的第一模型训练文档集合和第二模型训练文档集合中重复的模型训练文档作为正样本，映射内容库中的其他模型训练文档作为负样本，创建标签词的主题词分类模型。本发明还提供一种主题词分类模型创建装置及存储介质。

Description

主题词分类模型创建方法、创建装置及存储介质

技术领域

本发明涉及数据处理领域，特别是涉及一种主题词分类模型创建方法、创建装置及存储介质。

背景技术

在互联网内容分发系统中，需要通过主题词对文章进行分类，该主题词是指可以代表文章主要内容特征的词，这样用户可以通过主题词方便快捷的了解该文章的内容。

现有的文章主题词一般为文章中出现的标签词，而文章中标签词的提取算法要求文章的标签词必须在该文章中出现过，这样就大大限制了文章主题词的抽象程度以及概括能力。例如一篇描述某个具体黑科技的文章中可能不会出现“黑科技”这个标签词，这样导致使用上述标签词提取算法无法将该文章的主题词设置为“黑科技”。同理“东北风”以及“小资生活”等抽象程度较高的词汇无法成为文章的主题词。

为了解决上述文章主题词的设置问题，现有的主题词分类器通过建立主题词分类模型来使文章主题词判断自动化，但是上述主题词分类模型需要收集大量标注好主题词的文章进行训练，因此需要大量人力物力对大量文章进行较为准确的主题词标注，以便生成较为准确的主题词分类模型。

发明内容

本发明实施例提供一种可准确创建主题词分类模型，创建过程简单且创建成本较低的主题词分类模型创建方法、创建装置及存储介质；以解决现有的主题词分类模型创建方法、创建装置及存储介质中的主题词分类模型的准确性较差或主题词分类模型的创建过程复杂且创建成本较高的技术问题。

本发明实施例提供一种主题词分类模型创建方法，其包括：

获取多个模型训练文档，并提取所述模型训练文档的标签词，以建立所述模型训练文档与所述标签词的映射内容库；

基于相似度算法，获取所述标签词对应的核心主题词组；其中所述核心主题词组中包括多个核心主题词；

基于所述映射内容库，获取所述核心主题词组对应的第一模型训练文档集合；

基于机器学习算法，对多个所述模型训练文档进行分类操作；其中每个类别的模型训练文档具有一个主体类别标识；

基于所述映射内容库，获取所述标签词对应的所有模型训练文档的主体类别标识，并根据所述标签词对应的主体类别标识，确定所述标签词对应的第二模型训练文档集合；以及

将所述标签词对应的第一模型训练文档集合和第二模型训练文档集合中重复的模型训练文档作为正样本，所述映射内容库中的其他模型训练文档作为负样本，创建所述标签词的主题词分类模型。

本发明实施例还提供一种主题词分类模型创建装置，其包括：

映射内容库建立模块，用于获取多个模型训练文档，并提取所述模型训练文档的标签词，以建立所述模型训练文档与所述标签词的映射内容库；

核心主题词组获取模块，用于基于相似度算法，获取所述标签词对应的核心主题词组；其中所述核心主题词组中包括多个核心主题词；

第一模型训练文档集合获取模块，用于基于所述映射内容库，获取所述核心主题词组对应的第一模型训练文档集合；

分类模块，用于基于机器学习算法，对多个所述模型训练文档进行分类操作；其中每个类别的模型训练文档具有一个主体类别标识；

第二模型训练文档集合确定模块，用于基于所述映射内容库，获取所述标签词对应的所有模型训练文档的主体类别标识，并根据所述标签词对应的主体类别标识，确定所述标签词对应的第二模型训练文档集合；以及

主题词分类模型创建模块，用于将所述标签词对应的第一模型训练文档集合和第二模型训练文档集合中重复的模型训练文档作为正样本，所述映射内容库中的其他模型训练文档作为负样本，创建所述标签词的主题词分类模型。

本发明实施例还提供一种存储介质，其内存储有处理器可执行指令，该处理器通过执行所述指令提供上述任一的主题词分类模型创建方法。

相较于现有技术，本发明的主题词分类模型创建方法、创建装置及存储介质通过多个核心主题词引入第一模型训练文档集合，通过文档分类算法引入第二模型训练文档集合；从而可获取准确度较高的主题词分类模型的训练正样本和负样本，提高了主题词分类模型的准确性；同时简化了主题词分类模型的创建过程，降低了主题词分类模型的创建成本；解决了现有的主题词分类模型创建方法、创建装置及存储介质中的主题词分类模型的准确性较差或主题词分类模型的创建过程复杂且创建成本较高的技术问题。

附图说明

图1为本发明的主题词分类模型创建方法的优选实施例的流程图；

图2为本发明的主题词分类模型创建方法的第一实施例的步骤S102的流程图；

图3本发明的主题词分类模型创建方法的第一实施例的步骤S105的流程图；

图4为本发明的主题词分类模型创建装置的优选实施例的结构示意图；

图5为本发明的主题词分类模型创建装置的优选实施例的核心主题词组获取模块的结构示意图；

图6为本发明的主题词分类模型创建装置的优选实施例的核心主题词组获取模块的预备主题词组获取单元的结构示意图；

图7为本发明的主题词分类模型创建装置的优选实施例的第二模型训练文档集合确定模块的结构示意图；

图8为本发明的主题词分类模型创建方法以及创建装置的主题词分类模型创建流程示意图

图9为本发明的主题词分类模型创建装置所在的电子设备的工作环境结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。

在以下的说明中，本发明的具体实施例将参考由一部或多部计算机所执行之作业的步骤及符号来说明，除非另有述明。因此，其将可了解到这些步骤及操作，其中有数次提到为由计算机执行，包括了由代表了以一结构化型式中的数据之电子信号的计算机处理单元所操纵。此操纵转换该数据或将其维持在该计算机之内存系统中的位置处，其可重新配置或另外以本领域技术人员所熟知的方式来改变该计算机之运作。该数据所维持的数据结构为该内存之实体位置，其具有由该数据格式所定义的特定特性。但是，本发明原理以上述文字来说明，其并不代表为一种限制，本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本发明的主题词分类模型创建方法及创建装置用于对网络文章进行主题词判断的电子设备中，该电子设备包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等)、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境，等等。该电子设备优选为网络数据管理服务器。本发明的主题词分类模型创建方法及创建装置通过多个核心主题词引入第一模型训练文档集合，通过文档分类算法引入第二模型训练文档集合；从而可获取准确度较高的主题词分类模型的训练正样本和负样本，提高了主题词分类模型的准确性；同时简化了主题词分类模型的创建过程，降低了主题词分类模型的创建成本，因此可有效的解决现有的主题词分类模型创建方法及创建装置中的主题词分类模型的准确性较差或主题词分类模型的创建过程复杂且创建成本较高的技术问题。

请参照图1，图1为本发明的主题词分类模型创建方法的第一实施例的流程图。本优选实施例的主题词分类模型创建方法可使用上述的电子设备进行实施，本优选实施例的主题词分类模型创建方法包括：

步骤S101，获取多个模型训练文档，并提取模型训练文档的标签词，以建立模型训练文档与标签词的映射内容库；

步骤S102，基于相似度算法，获取标签词对应的核心主题词组；其中核心主题词组中包括多个核心主题词；

步骤S103，基于映射内容库，获取核心主题词组对应的第一模型训练文档集合；

步骤S104，基于机器学习算法，对多个模型训练文档进行分类操作；其中每个类别的模型训练文档具有一个主体类别标识；

步骤S105，基于映射内容库，获取标签词对应的所有模型训练文档的主体类别标识，并根据标签词对应的主体类别标识，确定标签词对应的第二模型训练文档集合；

步骤S106，将标签词对应的第一模型训练文档集合和第二模型训练文档集合中重复的模型训练文档作为正样本，映射内容库中的其他模型训练文档作为负样本，创建标签词的主题词分类模型。

下面详细说明本优选实施例的主题词分类模型创建方法的各步骤的具体流程。

在步骤S101中，主题词分类模型创建装置通过网络内容爬虫，获取多个模型训练文档。如主题词分类模型创建装置每天对全网内容进行爬取，通过去重处理之后可获取10万篇文章，这样主题词分类模型创建装置10天可获取100万篇模型训练文档。

随后主题词分类模型创建装置使用TextRank等算法提取每个模型训练文档的至少一个标签词，从而形成标签词和模型训练文档的对应关系。然后主题词分类模型创建装置基于上述标签词和模型训练文档的对应关系，建立模型训练文档和标签词的映射内容库，这里映射内容库中一个标签词可对应多个模型训练文档。这样用户可通过映射内容库中的任一标签词查到对应的多个模型训练文档。随后转到步骤S102和步骤S104。

在步骤S102中，主题词分类模型创建装置获取模型训练文档中的所有词语单元；随后基于相似度算法，主题词分类模型创建装置从所有词语单元中获取与标签词对应的多个核心主题词，即从所有词语单元中获取与标签词具有较高相似度的核心主题词，并由这些核心主题词组成该标签词对应的核心主题词组。

具体请参照图2，图2为本发明的主题词分类模型创建方法的第一实施例的步骤S102的流程图。该步骤S102包括：

步骤S201，主题词分类模型创建装置可使用word2vec等算法，计算步骤S101获取的模型训练文档中所有词语单元的词向量。这样可通过词语单元的词向量之间的向量距离来表示词语单元之间的相似度。

步骤S202，主题词分类模型创建装置可根据步骤S201获取的词语单元的词向量，获取与该标签词具有一定相似度的多个预备主题词，随后由这多个预备主题词组成该标签词对应的预备主题词组。

获取该预备主题词组的步骤具体为：

主题词分类模型创建装置根据步骤S201获取的词语单元的词向量，获取与标签词的向量距离小于第一设定值的所有第一预备主题词；

随后主题词分类模型创建装置根据词语单元的词向量，获取与第一预备主题词的向量距离小于第二设定值的第二预备主题词；如具有多个第一预备主题词，每个第一预备主题词均可获取多个第二预备主题词；

最后主题词分类模型创建装置使用上述所有的第一预备主题词和对应的第二预备主题词，建立预备主题词组。该预备主题词组中包括多个预备主题词。

这里的第一设定值以及第二设定值可根据用户要求进行设定，该第一设定值可与第二设定值相等或不相等。

步骤S203，主题词分类模型创建装置根据预备主题词组中的预备主题词的出现次数，获取该标签词对应的核心主题词组。

由于预备主题词在预备主题词组中的出现次数表示了该预备主题词与标签词的相关性。如预备主题词与标签词相关性较大，则该预备主题词可能会成为多个第一预备主题词的第二预备主题词，因此该预备主题词在预备主题词组中的出现次数也较多。如预备主题词与标签词相关性较小，则该预备主题词可能只会成为某个第一预备主题词的第二预备子主题词，因此该预备主题词在预备主题词组中的出现次数较少。

这里主题词分类模型创建装置将预备主题词组中出现次数小于第三设定值(如2次或4次等)的预备主题词删除，并将删除预备主题词之后的预备主题词组设定为该标签词对应的核心主题词组，该核心主题词组内的词语单元也设定为核心主题词。这里的第三设定值可根据用户要求进行设定。随后转到步骤S103。

在步骤S103中，主题词分类模型创建装置基于步骤S101建立的映射内容库，获取步骤S102获取的核心主题词组中的核心主题词对应的模型训练文档；并使用核心主题词对应的模型训练文档建立第一模型训练文档集合。随后转到步骤S106。

在步骤S104中，主题词分类模型创建装置基于LDA(Latent DirichletAllocation)等机器学习算法，对步骤S101获取的模型训练文档进行分类操作，使得每个类别的模型训练文档均具有一个主体类别标识(如具有唯一性的主体类别编号等)，即每个模型训练文档均会对应一个主体类别标识。如将步骤S101获取的100万篇模型训练文档分为5000个类别，则每个模型训练文档的主体类别标识可为1-5000中的一个。随后转到步骤S105。

在步骤S105中，主题词分类模型创建装置基于步骤S101建立的映射内容库，获取标签词对应的所有模型训练文档，从而根据步骤S104获取的模型训练文档的主体类别标识，获取该标签词对应的主体类别标识。

随后主题词分类模型创建装置获取标签词的主体类别标识对应的所有模型训练文档；并使用标签词的主体类别标识对应的所有模型训练文档建立第二模型训练文档集合。

具体请参照图3，图3本发明的主题词分类模型创建方法的第一实施例的步骤S105的流程图。该步骤S105包括：

步骤S301，主题词分类模型创建装置根据标签词对应的所有模型训练文档的主体类别标识的出现次数，设定标签词的主体类别标识集合。

具体的，这里主题词分类模型创建装置将出现次数大于第四设定值的标签词对应的所有模型训练文档的主体类别标识，设置到标签词的主体类别标识集合中。

即通过同种类的模型训练文档的出现次数，对标签词的主体类别标识进行筛选，这里认为某个标签词对应的某类别的模型训练文档的数量越多，该类别的模型训练文档与该标签词的关联性越大，因此将关联性较大的模型训练文档对应的主体类别标识设置在该标签词的主体类别标识集合中。这里的第四设定值可根据用户要求进行设定。

此外，这里主题词分类模型创建装置还可先按出现次数，由大到小对标签词对应的所有模型训练文档的主体类别标识进行排序。随后主题词分类模型创建装置将排序后的前n个主体类别标识，设置到标签词的主体类别标识集合中，其中n为按用户要求设定的正整数。

即通过不同种类的模型训练文档的出现比例，对标签词的主体类别标识进行筛选，这里认为某个种类的模型训练文档的出现比例越高，该类别的模型训练文档与该标签词的关联性越大，因此将关联性较大的模型训练文档对应的主体类别标识设置在该标签词的主体类别标识集合中。

步骤S302，主题词分类模型创建装置根据标签词的主体类别标识集合中的主体类别标识，确定标签词对应的第二模型训练文档集合。随后转到步骤S106。

在步骤S106中，主题词分类模型创建装置将步骤S103获取的第一模型训练文档集合和步骤S105获取的第二模型训练文档集合进行对比，获取第一模型训练文档集合和第二模型训练文档集合中重复的模型训练文档。

最后主题词分类模型创建装置将标签词对应的第一模型训练文档集合和第二模型训练文档集合中重复的模型训练文档作为正样本；步骤S101中获取的映射内容库中的其他模型训练文档作为负样本进行训练，创建该标签词的主题词分类模型。这样用户可通过该主题词分类模型自动获取该标签词作为主题词的网络文档。

这样即完成了本优选实施例的主题词分类模型创建方法的主题词分类模型创建过程。

本优选实施例的主题词分类模型创建方法通过多个核心主题词引入第一模型训练文档集合，通过文档分类算法引入第二模型训练文档集合；从而可获取准确度较高的主题词分类模型的训练正样本和负样本，提高了主题词分类模型的准确性；同时简化了主题词分类模型的创建过程，降低了主题词分类模型的创建成本。

本发明还提供一种主题词分类模型创建装置，请参照图4，图4为本发明的主题词分类模型创建装置的优选实施例的结构示意图。本优选实施例的主题词分类模型创建装置40包括映射内容库建立模块41、核心主题词组获取模块42、第一模型训练文档集合获取模块43、分类模块44、第二模型训练文档集合确定模块45以及主题词分类模型创建模块46。

映射内容库建立模块41用于获取多个模型训练文档，并提取模型训练文档的标签词，以建立模型训练文档与标签词的映射内容库；核心主题词组获取模块42用于基于相似度算法，获取标签词对应的核心主题词组；其中核心主题词组中包括多个核心主题词；第一模型训练文档集合获取模块43用于基于映射内容库，获取核心主题词组对应的第一模型训练文档集合；分类模块44用于基于机器学习算法，对多个模型训练文档进行分类操作；其中每个类别的模型训练文档具有一个主体类别标识；第二模型训练文档集合确定模块45用于基于映射内容库，获取标签词对应的所有模型训练文档的主体类别标识，并根据标签词对应的主体类别标识，确定标签词对应的第二模型训练文档集合；主题词分类模型创建模块46用于将标签词对应的第一模型训练文档集合和第二模型训练文档集合中重复的模型训练文档作为正样本，映射内容库中的其他模型训练文档作为负样本，创建标签词的主题词分类模型。

请参照图5，图5为本发明的主题词分类模型创建装置的优选实施例的核心主题词组获取模块的结构示意图。该核心主题词组获取模块42包括词向量计算单元51、预备主题词组获取单元52以及核心主题词组获取单元53。

词向量计算单元51用于计算模型训练文档中所有词语单元的词向量；预备主题词组获取单元52用于根据词语单元的词向量，获取标签词对应的预备主题词组；核心主题词组获取单元53用于根据预备主题词组中预备主题词的出现次数，获取标签词对应的核心主题词组；具体的，用于将预备主题词组中出现次数小于第三设定值的预备主题词删除，从而获取标签词对应的核心主题词组。

请参照图6，图6为本发明的主题词分类模型创建装置的优选实施例的核心主题词组获取模块的预备主题词组获取单元的结构示意图。该预备主题词组获取单元52包括第一预备主题词获取子单元61、第二预备主题词获取子单元62以及预备主题词组建立子单元63。

第一预备主题词获取子单元61用于根据词语单元的词向量，获取与标签词的向量距离小于第一设定值的所有第一预备主题词；第二预备主题词获取子单元62用于根据词语单元的词向量，获取与第一预备主题词的向量距离小于第二设定值的第二预备主题词；预备主题词组建立子单元63用于使用所有第一预备主题词和对应的第二预备主题词，建立预备主题词组；其中预备主题词组中包括多个预备主题词。

请参照图7，图7为本发明的主题词分类模型创建装置的优选实施例的第二模型训练文档集合确定模块的结构示意图。该第二模型训练文档集合确定模块45包括主体类别标识集合设定单元71以及第二模型训练文档集合确定单元72。

主体类别标识集合设定单元71用于根据标签词对应的所有模型训练文档的主体类别标识的出现次数，设定标签词的主体类别标识集合；第二模型训练文档集合确定单元72用于根据标签词的主体类别标识集合中的主体类别标识，确定标签词对应的第二模型训练文档集合。

本优选实施例的主题词分类模型创建装置40使用时，首先映射内容库建立模块41通过网络内容爬虫，获取多个模型训练文档。如映射内容库建立模块41每天对全网内容进行爬取，通过去重处理之后可获取10万篇文章，这样主题词分类模型创建装置10天可获取100万篇模型训练文档。

随后映射内容库建立模块41使用TextRank等算法提取每个模型训练文档的至少一个标签词，从而形成标签词和模型训练文档的对应关系。然后映射内容库建立模块41基于上述标签词和模型训练文档的对应关系，建立模型训练文档和标签词的映射内容库，这里映射内容库中一个标签词可对应多个模型训练文档。这样用户可通过映射内容库中的任一标签词查到对应的多个模型训练文档。

随后核心主题词组获取模块42获取模型训练文档中的所有词语单元；随后基于相似度算法，核心主题词组获取模块4从所有词语单元中获取与标签词对应的多个核心主题词，即从所有词语单元中获取与标签词具有较高相似度的核心主题词，并由这些核心主题词组成该标签词对应的核心主题词组。

具体包括：

核心主题词组获取模块42的词向量计算单元51可使用word2vec等算法，计算映射内容库建立模块41获取的模型训练文档中所有词语单元的词向量。这样可通过词语单元的词向量之间的向量距离来表示词语单元之间的相似度。

核心主题词组获取模块42的预备主题词组获取单元52可根据词向量计算单元51获取的词语单元的词向量，获取与该标签词具有一定相似度的多个预备主题词，随后由这多个预备主题词组成该标签词对应的预备主题词组。

获取该预备主题词组的步骤具体为：

预备主题词组获取单元52的第一预备主题词获取子单元61根据词向量计算单元51获取的词语单元的词向量，获取与标签词的向量距离小于第一设定值的所有第一预备主题词；

随后预备主题词组获取单元52的第二预备主题词获取子单元62根据词语单元51的词向量，获取与第一预备主题词的向量距离小于第二设定值的第二预备主题词；如具有多个第一预备主题词，每个第一预备主题词均可获取多个第二预备主题词；

最后预备主题词组获取单元52的预备主题词组建立子单元63使用上述所有的第一预备主题词和对应的第二预备主题词，建立预备主题词组。该预备主题词组中包括多个预备主题词。

核心主题词组获取模块42的核心主题词组获取单元53根据预备主题词组中的预备主题词的出现次数，获取该标签词对应的核心主题词组。

这里核心主题词组获取单元53将预备主题词组中出现次数小于第三设定值(如2次或4次等)的预备主题词删除，并将删除预备主题词之后的预备主题词组设定为该标签词对应的核心主题词组，该核心主题词组内的词语单元也设定为核心主题词。这里的第三设定值可根据用户要求进行设定。

然后第一模型训练文档集合获取模块43基于映射内容库建立模块41建立的映射内容库，获取核心主题词组获取模块42获取的核心主题词组中的核心主题词对应的模型训练文档；并使用核心主题词对应的模型训练文档建立第一模型训练文档集合。

随后分类模块44基于LDA(Latent Dirichlet Allocation)等机器学习算法，对映射内容库建立模块41获取的模型训练文档进行分类操作，使得每个类别的模型训练文档均具有一个主体类别标识(如具有唯一性的主体类别编号等)，即每个模型训练文档均会对应一个主体类别标识。如将映射内容库建立模块41获取的100万篇模型训练文档分为5000个类别，则每个模型训练文档的主体类别标识可为1-5000中的一个。

然后第二模型训练文档集合确定模块45基于映射内容库建立模块41建立的映射内容库，获取标签词对应的所有模型训练文档，从而根据分类模块44获取的模型训练文档的主体类别标识，获取该标签词对应的主体类别标识。

随后第二模型训练文档集合确定模块45获取标签词的主体类别标识对应的所有模型训练文档；并使用标签词的主体类别标识对应的所有模型训练文档建立第二模型训练文档集合。

具体包括：

第二模型训练文档集合确定模块45的主体类别标识集合设定单元71根据标签词对应的所有模型训练文档的主体类别标识的出现次数，设定标签词的主体类别标识集合。

具体的，这里主体类别标识集合设定单元71将出现次数大于第四设定值的标签词对应的所有模型训练文档的主体类别标识，设置到标签词的主体类别标识集合中。

此外，这里主体类别标识集合设定单元71的排序子单元还可先按出现次数，由大到小对标签词对应的所有模型训练文档的主体类别标识进行排序。随后主体类别标识集合设定单元71的主体类别标识集合设定子单元将排序后的前n个主体类别标识，设置到标签词的主体类别标识集合中，其中n为按用户要求设定的正整数。

第二模型训练文档集合确定模块45的第二模型训练文档集合确定单元72根据标签词的主体类别标识集合中的主体类别标识，确定标签词对应的第二模型训练文档集合。

最后主题词分类模型创建模块46将第一模型训练文档集合获取模块43获取的第一模型训练文档集合和第二模型训练文档集合确定模块45获取的第二模型训练文档集合进行对比，获取第一模型训练文档集合和第二模型训练文档集合中重复的模型训练文档。

主题词分类模型创建模块46将标签词对应的第一模型训练文档集合和第二模型训练文档集合中重复的模型训练文档作为正样本；映射内容库建立模块41获取的映射内容库中的其他模型训练文档作为负样本进行训练，创建该标签词的主题词分类模型。这样用户可通过该主题词分类模型自动获取该标签词作为主题词的网络文档。

这样即完成了本优选实施例的主题词分类模型创建装置40的主题词分类模型创建过程。

本优选实施例的主题词分类模型创建装置通过多个核心主题词引入第一模型训练文档集合，通过文档分类算法引入第二模型训练文档集合；从而可获取准确度较高的主题词分类模型的训练正样本和负样本，提高了主题词分类模型的准确性；同时简化了主题词分类模型的创建过程，降低了主题词分类模型的创建成本。

下面通过一具体实施例说明本发明的主题词分类模型创建方法以及创建装置的具体工作原理。请参照图8，图8为本发明的主题词分类模型创建方法以及创建装置的主题词分类模型创建流程示意图。本具体实施例的主题词分类模型创建方法以及创建装置设置在网络数据管理服务器中。

本具体实施例的主题词分类模型创建装置进行主题词分类模型创建时包括以下步骤：

一、对全网内容进行爬取，获取多个模型训练文档。

二、使用TextRank等算法提取每个模型训练文档的至少一个标签词81，从而形成标签词81和模型训练文档的对应关系。

三、基于上述标签词81和模型训练文档的对应关系，建立模型训练文档和标签词81的映射内容库8B。

四、基于所有模型训练文档中词语单元的词向量，获取与标签词81的向量距离小于第一设定值的第一预备主题词82。

如标签词81为极限运动，可获取第一预备主题词82为：户外运动、球类运动以及健身运动等。

五、基于所有模型训练文档中词语单元的词向量，获取与第一预备主题词82的向量距离小于第二设定值的第二预备主题词83。

如户外运动的第二预备主题词83为潜水、登山等。

六、使用第一预备主题词82和第二预备主题词83，构建该标签词81对应的核心主题词组84。

这样所有的第一预备主题词82和第二预备主题词83可构成标签词对应的预备主题词组85。将预备主题词组85中出现次数少于三次的预备主题词删除，这样即可获取该标签词81对应的核心主题词组84。

七、基于核心主题词组84对应的模型训练文档，建立该标签词81对应的第一模型训练文档集合86。

八、基于LDA等机器学习算法，对映射内容库8B中的模型训练文档进行分类操作，使得每个类别的模型训练文档均具有一个主体类别标识87。

九、获取标签词81对应的模型训练文档的主体类别标识87。

十、根据标签词81对应的模型训练文档的主体类别标识87的出现次数，设定标签词81的主体类别编号集合88。

如将主体类别标识87的出现次数大于10次的模型训练文档的主体类别标识87设置到该标签词81的主体类别标识集合88中。

十一、根据标签词81的主体类别标识集合88中的主体类别标识87，确定标签词81对应的第二模型训练文档集合89。

十二、将标签词81对应的第一模型训练文档集合86和第二模型训练文档集合89中重复的模型训练文档作为正样本；映射内容库8B中的其他模型训练文档作为负样本进行训练，创建该标签词81的主题词分类模型8A。

这样用户可通过该主题词分类模型8A自动获取以标签词81作为主题词的网络文章。

这样即完成了本具体实施例的主题词分类模型创建方法以及创建装置的主题词分类模型创建过程。

本发明的主题词分类模型创建方法及创建装置通过多个核心主题词引入第一模型训练文档集合，通过文档分类算法引入第二模型训练文档集合；从而可获取准确度较高的主题词分类模型的训练正样本和负样本，提高了主题词分类模型的准确性；同时简化了主题词分类模型的创建过程，降低了主题词分类模型的创建成本；解决了现有的主题词分类模型创建方法及创建装置中的主题词分类模型的准确性较差或主题词分类模型的创建过程复杂且创建成本较高的技术问题。

如本申请所使用的术语“组件”、“模块”、“系统”、“接口”、“进程”等等一般地旨在指计算机相关实体：硬件、硬件和软件的组合、软件或执行中的软件。例如，组件可以是但不限于是运行在处理器上的进程、处理器、对象、可执行应用、执行的线程、程序和/或计算机。通过图示，运行在控制器上的应用和该控制器二者都可以是组件。一个或多个组件可以有在于执行的进程和/或线程内，并且组件可以位于一个计算机上和/或分布在两个或更多计算机之间。

图9和随后的讨论提供了对实现本发明所述的主题词分类模型创建装置所在的电子设备的工作环境的简短、概括的描述。图9的工作环境仅仅是适当的工作环境的一个实例并且不旨在建议关于工作环境的用途或功能的范围的任何限制。实例电子设备912包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等)、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境，等等。

尽管没有要求，但是在“计算机可读指令”被一个或多个电子设备执行的通用背景下描述实施例。计算机可读指令可以经由计算机可读介质来分布(下文讨论)。计算机可读指令可以实现为程序模块，比如执行特定任务或实现特定抽象数据类型的功能、对象、应用编程接口(API)、数据结构等等。典型地，该计算机可读指令的功能可以在各种环境中随意组合或分布。

图9图示了包括本发明的主题词分类模型创建装置中的一个或多个实施例的电子设备912的实例。在一种配置中，电子设备912包括至少一个处理单元916和存储器918。根据电子设备的确切配置和类型，存储器918可以是易失性的(比如RAM)、非易失性的(比如ROM、闪存等)或二者的某种组合。该配置在图9中由虚线914图示。

在其他实施例中，电子设备912可以包括附加特征和/或功能。例如，设备912还可以包括附加的存储装置(例如可移除和/或不可移除的)，其包括但不限于磁存储装置、光存储装置等等。这种附加存储装置在图9中由存储装置920图示。在一个实施例中，用于实现本文所提供的一个或多个实施例的计算机可读指令可以在存储装置920中。存储装置920还可以存储用于实现操作系统、应用程序等的其他计算机可读指令。计算机可读指令可以载入存储器918中由例如处理单元916执行。

本文所使用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。存储器918和存储装置920是计算机存储介质的实例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备、或可以用于存储期望信息并可以被电子设备912访问的任何其他介质。任意这样的计算机存储介质可以是电子设备912的一部分。

电子设备912还可以包括允许电子设备912与其他设备通信的通信连接926。通信连接926可以包括但不限于调制解调器、网络接口卡(NIC)、集成网络接口、射频发射器/接收器、红外端口、USB连接或用于将电子设备912连接到其他电子设备的其他接口。通信连接926可以包括有线连接或无线连接。通信连接926可以发射和/或接收通信媒体。

术语“计算机可读介质”可以包括通信介质。通信介质典型地包含计算机可读指令或诸如载波或其他传输机构之类的“己调制数据信号”中的其他数据，并且包括任何信息递送介质。术语“己调制数据信号”可以包括这样的信号：该信号特性中的一个或多个按照将信息编码到信号中的方式来设置或改变。

电子设备912可以包括输入设备924，比如键盘、鼠标、笔、语音输入设备、触摸输入设备、红外相机、视频输入设备和/或任何其他输入设备。设备912中也可以包括输出设备922，比如一个或多个显示器、扬声器、打印机和/或任意其他输出设备。输入设备924和输出设备922可以经由有线连接、无线连接或其任意组合连接到电子设备912。在一个实施例中，来自另一个电子设备的输入设备或输出设备可以被用作电子设备912的输入设备924或输出设备922。

电子设备912的组件可以通过各种互连(比如总线)连接。这样的互连可以包括外围组件互连(PCI)(比如快速PCI)、通用串行总线(USB)、火线(IEEE1394)、光学总线结构等等。在另一个实施例中，电子设备912的组件可以通过网络互连。例如，存储器918可以由位于不同物理位置中的、通过网络互连的多个物理存储器单元构成。

本领域技术人员将认识到，用于存储计算机可读指令的存储设备可以跨越网络分布。例如，可经由网络928访问的电子设备930可以存储用于实现本发明所提供的一个或多个实施例的计算机可读指令。电子设备912可以访问电子设备930并且下载计算机可读指令的一部分或所有以供执行。可替代地，电子设备912可以按需要下载多条计算机可读指令，或者一些指令可以在电子设备912处执行并且一些指令可以在电子设备930处执行。

本文提供了实施例的各种操作。在一个实施例中，所述的一个或多个操作可以构成一个或多个计算机可读介质上存储的计算机可读指令，其在被电子设备执行时将使得计算设备执行所述操作。描述一些或所有操作的顺序不应当被解释为暗示这些操作必需是顺序相关的。本领域技术人员将理解具有本说明书的益处的可替代的排序。而且，应当理解，不是所有操作必需在本文所提供的每个实施例中存在。

而且，尽管已经相对于一个或多个实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件、资源等)执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示)，即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

本发明实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。上述的各装置或系统，可以执行相应方法实施例中的方法。

综上所述，虽然本发明已以实施例揭露如上，实施例前的序号仅为描述方便而使用，对本发明各实施例的顺序不造成限制。并且，上述实施例并非用以限制本发明，本领域的普通技术人员，在不脱离本发明的精神和范围内，均可作各种更动与润饰，因此本发明的保护范围以权利要求界定的范围为准。

Claims

1.一种主题词分类模型创建方法，其特征在于，包括：

基于所述映射内容库，获取所述标签词对应的所有模型训练文档的主体类别标识，并将所述主体类别标识对应的所有模型训练文档作为第二模型训练文档集合；以及

2.根据权利要求1所述的主题词分类模型创建方法，其特征在于，

所述获取多个模型训练文档的步骤包括：

通过网络内容爬虫，获取多个模型训练文档；

所述提取所述模型训练文档的标签词的步骤包括：

基于TextRank算法，提取所述模型训练文档的标签词。

3.根据权利要求1所述的主题词分类模型创建方法，其特征在于，所述基于相似度算法，获取所述标签词对应的核心主题词组的步骤包括：

计算所述模型训练文档中所有词语单元的词向量；

根据所述词语单元的词向量，获取所述标签词对应的预备主题词组；以及

根据所述预备主题词组中预备主题词的出现次数，获取所述标签词对应的核心主题词组。

4.根据权利要求3所述的主题词分类模型创建方法，其特征在于，所述据所述词语单元的词向量，获取所述标签词对应的预备主题词组的步骤包括：

根据所述词语单元的词向量，获取与所述标签词的向量距离小于第一设定值的所有第一预备主题词；

根据所述词语单元的词向量，获取与所述第一预备主题词的向量距离小于第二设定值的第二预备主题词；以及

使用所有第一预备主题词和对应的第二预备主题词，建立预备主题词组；其中所述预备主题词组中包括多个预备主题词。

5.根据权利要求3所述的主题词分类模型创建方法，其特征在于，所述根据所述预备主题词组中预备主题词的出现次数，获取所述标签词对应的核心主题词组的步骤包括：

将所述预备主题词组中出现次数小于第三设定值的预备主题词删除，从而获取所述标签词对应的核心主题词组。

6.根据权利要求1所述的主题词分类模型创建方法，其特征在于，所述将所述主体类别标识对应的所有模型训练文档作为第二模型训练文档集合的步骤包括：

根据所述标签词对应的所有模型训练文档的主体类别标识的出现次数，设定所述标签词的主体类别标识集合；以及

根据所述标签词的主体类别标识集合中的主体类别标识，确定所述标签词对应的第二模型训练文档集合。

7.根据权利要求6所述的主题词分类模型创建方法，其特征在于，所述根据所述标签词对应的所有模型训练文档的主体类别标识的出现次数，设定所述标签词的主体类别标识集合的步骤包括：

将出现次数大于第四设定值的标签词对应的所有模型训练文档的主体类别标识，设置到所述标签词的主体类别标识集合中。

8.根据权利要求6所述的主题词分类模型创建方法，其特征在于，所述根据所述标签词对应的所有模型训练文档的主体类别标识的出现次数，设定所述标签词的主体类别标识集合的步骤包括：

按出现次数，由大到小对所述标签词对应的所有模型训练文档的主体类别标识进行排序；以及

将排序后的前n个主体类别标识，设置到所述标签词的主体类别标识集合中；其中n为正整数。

9.一种主题词分类模型创建装置，其特征在于，包括：

第二模型训练文档集合确定模块，用于基于所述映射内容库，获取所述标签词对应的所有模型训练文档的主体类别标识，并将所述主体类别标识对应的所有模型训练文档作为第二模型训练文档集合；以及

10.根据权利要求9所述的主题词分类模型创建装置，其特征在于，所述核心主题词组获取模块包括：

词向量计算单元，用于计算所述模型训练文档中所有词语单元的词向量；

预备主题词组获取单元，用于根据所述词语单元的词向量，获取所述标签词对应的预备主题词组；以及

核心主题词组获取单元，用于根据所述预备主题词组中预备主题词的出现次数，获取所述标签词对应的核心主题词组。

11.根据权利要求10所述的主题词分类模型创建装置，其特征在于，所述预备主题词组获取单元包括：

第一预备主题词获取子单元，用于根据所述词语单元的词向量，获取与所述标签词的向量距离小于第一设定值的所有第一预备主题词；

第二预备主题词获取子单元，用于根据所述词语单元的词向量，获取与所述第一预备主题词的向量距离小于第二设定值的第二预备主题词；以及

预备主题词组建立子单元，用于使用所有第一预备主题词和对应的第二预备主题词，建立预备主题词组；其中所述预备主题词组中包括多个预备主题词。

12.根据权利要求9所述的主题词分类模型创建装置，其特征在于，所述第二模型训练文档集合确定模块包括：

主体类别标识集合设定单元，用于根据所述标签词对应的所有模型训练文档的主体类别标识的出现次数，设定所述标签词的主体类别标识集合；以及

第二模型训练文档集合确定单元，用于根据所述标签词的主体类别标识集合中的主体类别标识，确定所述标签词对应的第二模型训练文档集合。

13.一种存储介质，其内存储有处理器可执行指令，该处理器通过执行所述指令提供如权利要求1-8中任一的主题词分类模型创建方法。