CN111143568A

CN111143568A - 一种论文分类时的缓冲方法、装置、设备及存储介质

Info

Publication number: CN111143568A
Application number: CN201911409933.5A
Authority: CN
Inventors: 许爽; 甘勇; 崔勇; 苏玉; 张�杰; 吴青娥
Original assignee: Zhengzhou Institute of Technology
Current assignee: Zhengzhou Institute of Technology
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-12

Abstract

本申请实施例公开了一种论文分类时的缓冲方法、装置、设备及存储介质，属于文本信息处理技术领域，该方法包括:获取待分类文本集和分类目标集；获取分类目标集的分类标签树和每个待分类文本的分类标签集；将所述分类标签集中的标签元素作为查询条件，从所述分类标签树中获取辅助标签集；基于所述辅助标签集中标签元素和预设的筛选条件，从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型；从初测分类模型集中选择最终分类模型或者新建最终分类模型，并基于最终分类模型，对分类文本集中待分类文本进行分类。本申请有助于提高用户的文本分类效率和维护历史分类模型的可用性，给用户提供更加良好的分类服务。

Description

一种论文分类时的缓冲方法、装置、设备及存储介质

技术领域

本申请涉及文本处理技术领域，尤其涉及一种论文分类时的缓冲方法、装置、设备及存储介质。

背景技术

论文文本分类是科技文章研究中一个重要的课题，当有新的论文发表或者被声明时，最重要的一个功能就是做好对该文本的分类。科技论文是对某个科学领域中的学术问题进行研究后表述科学研究成果的理论文章，具有科学性、创造性、理论性、平易性、专业性、实践性等特点。为了有效组织和管理互联网上的海量学术资源，通常按照一个主题类别层次或大规模的概念或对学术资源进行分类，以更好地访问和搜索这些学术资源。

目前，在大多数科技论文分类方法中，论文的分类是一个瓶颈问题，很多采用人工标注，这样不仅费时费力、维护困难，而且还要求构建者具有深入的专业知识。分类树具有多层次特性，标签数量较多，当前采用的特征和方法简单低效，而且分类类别较为粗糙，当前急需研究如何自动对学术资源进行分类。

发明内容

本申请实施例的目的在于提出一种论文分类时的缓冲方法、装置、设备及存储介质，以解决现有技术中用户在进行论文分类时，分类时间消耗过多和历史分类模型更新不及时模型适用性低的问题。

为了解决上述技术问题，本申请实施例提供一种论文分类时的缓冲方法，采用了如下所述的技术方案：

一种论文分类时的缓冲方法，包括：

获取待分类文本集和分类目标集，其中，所述待分类文本集中包含n个待分类文本和与所述待分类文本一一对应的n个分类标签集，所述分类目标集中包含分类标签树、若干历史分类模型和m个已分类完成的归档文本(n、m为正整数)；

获取分类目标集的分类标签树和每个待分类文本的分类标签集，其中，所述分类标签树中包含分类目标集中所有归档文本的标签，所述分类标签集中包含若干分类标签；

将所述分类标签集中的标签元素作为查询条件，从所述分类标签树中获取所述分类标签集中标签元素的父级标签、子级标签和邻居标签，并将获取的父级标签、子级标签和邻居标签生成辅助标签集；

基于所述辅助标签集中标签元素和预设的筛选条件，从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型，并生成初测分类模型集；

若初测分类模型集中存在元素，则基于预设的阈值条件，从初测分类模型集中选择最终分类模型，基于最终分类模型，对分类文本集中待分类文本进行分类；

若初测分类模型集中不存在元素，基于辅助标签集中元素，从分类目标集中获取辅助文本集，基于TrAdaBoost算法模型，将分类目标集、辅助文本集和分类文本集作为训练文本进行模型预训练，基于辅助文本集和分类目标集构建分类文本集的分类器模型作为最终分类模型，基于所述最终分类模型，对分类文本集中待分类文本进行分类。

进一步的，所述论文分类时的缓冲方法，所述分类标签树中包含分类目标集中所有归档文本的标签，还包括：

所述分类标签树，基于预先设定的层级关系表对所有归档文本的标签进行层级排列，将预设的标签作为根部标签，依次排列所述根部标签的子级标签，所述子级标签下的子级标签，直到依据层级关系表完成排列，形成树形结构。

进一步的，所述论文分类时的缓冲方法，所述将所述分类标签集中的标签元素作为查询条件，从所述分类标签树中获取所述分类标签集中标签元素的父级标签、子级标签和邻居标签包括：

基于所述分类标签树和预先设定的获取层数，从分类标签树中获取所述分类标签集中标签元素特定层数的的父级标签、子级标签和邻居标签。

进一步的，所述论文分类时的缓冲方法，所述基于所述辅助标签集中标签元素和预设的筛选条件，从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型包括：

基于预设的第一筛选条件从历史分类模型中找出满足第一筛选条件的分类模型，

其中，所述第一筛选条件如下：|I|≥ακ，在第一筛选条件中，I＝SY^C∩SY_j，表示历史分类模型中每个模型对应的标签集合SY^C和辅助标签集中标签元素对应的标签集合SY_j的交集，即共有的类别集合，|I|表示共有的类别集合个数，α为预设的常数值，κ为辅助标签集中标签元素的个数，若|I|大于等于α与κ的乘积，则当前历史分类模型满足第一筛选条件。

进一步的，所述论文分类时的缓冲方法，所述基于所述辅助标签集中标签元素和预设的筛选条件，从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型还包括：

基于预设的第二筛选条件从历史分类模型中找出满足第二筛选条件的分类模型，

其中，所述第二筛选条件如下：

y_i∈sub_j，在第二筛选条件中，

表示历史分类模型中每个模型对应的标签和辅助标签集中标签元素在分类标签树中的最短距离；

基于所述第二筛选条件筛选出在所述第一筛选条件下历史分类模型中每个模型对应的标签集合SY^C和辅助标签集中标签元素对应的标签集合SY_j的交集共有的类别集合个数|I|相同的条件下，选择f(SY^C,SY_j)为最小值时对应的历史分类模型，组成初测分类模型集。

进一步的，所述论文分类时的缓冲方法，所述若初测分类模型集中存在元素，则基于预设的阈值条件，从初测分类模型集中选择最终分类模型包括：

获取所述初测分类模型集中每一个元素的f(SY^C,SY_j)值，并进行遍历，选择 f(SY^C,SY_j)为最大值时对应的历史分类模型作为最终分类模型。

进一步的，所述论文分类时的缓冲方法，所述基于最终分类模型，对分类文本集中待分类文本进行分类包括：

在使用最终分类模型，对分类文本集中待分类文本进行分类时，获取当前时间为最终分类模型的时间戳；

判断被调用的最终分类模型是否为基于TrAdaBoost算法模型新构建的分类器模型，若被调用的最终分类模型为新构建的分类器模型，获取所述分类目标集中每一个历史分类模型的时间戳，并基于所述时间戳排除上次被调用时间最久的历史分类模型，将新构建的分类器模型作为历史分类模型加入到分类目标集中。

为了解决上述技术问题，本申请实施例还提供了一种论文分类时的缓冲装置，采用了如下所述的技术方案：

一种论文分类时的缓冲装置，包括：

第一数据获取模块，用于获取待分类文本集和分类目标集，其中，所述待分类文本集中包含n个待分类文本和与所述待分类文本一一对应的n个分类标签集，所述分类目标集中包含分类标签树、若干历史分类模型和m个已分类完成的归档文本(n、m为正整数)；

第二数据获取模块，用于获取分类目标集的分类标签树和每个待分类文本的分类标签集，其中，所述分类标签树中包含分类目标集中所有归档文本的标签，所述分类标签集中包含若干分类标签；

辅助标签集生成模块，用于将所述分类标签集中的标签元素作为查询条件，从所述分类标签树中获取所述分类标签集中标签元素的父级标签、子级标签和邻居标签，并将获取的父级标签、子级标签和邻居标签生成辅助标签集；

初测模型集筛选模块，用于基于所述辅助标签集中标签元素和预设的筛选条件，从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型，并生成初测分类模型集；

第一文本分类模块，用于若初测分类模型集中存在元素，则基于预设的阈值条件，从初测分类模型集中选择最终分类模型，基于最终分类模型，对分类文本集中待分类文本进行分类；

第二文本分类模块，用于若初测分类模型集中不存在元素，基于辅助标签集中元素，从分类目标集中获取辅助文本集，基于TrAdaBoost算法模型，将分类目标集、辅助文本集和分类文本集作为训练文本进行模型预训练，基于辅助文本集和分类目标集构建分类文本集的分类器模型作为最终分类模型，基于所述最终分类模型，对分类文本集中待分类文本进行分类。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现本申请实施例中提出的一种论文分类时的缓冲方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种非易失性计算机可读存储介质，采用了如下所述的技术方案：

一种非易失性计算机可读存储介质，计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例中提出的一种论文分类时的缓冲方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请实施例公开了论文分类时的缓冲方法、装置、设备及存储介质，通过获取分类目标集的分类标签树和每个待分类文本的分类标签集，其中，所述分类标签树中包含分类目标集中所有归档文本的标签，所述分类标签集中包含若干分类标签；将所述分类标签集中的标签元素作为查询条件，从所述分类标签树中获取所述分类标签集中标签元素的父级标签、子级标签和邻居标签，并将获取的父级标签、子级标签和邻居标签生成辅助标签集；基于所述辅助标签集中标签元素和预设的筛选条件，从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型，并生成初测分类模型集；通过初测分类模型集，有效的限定了用户的论文分类模型的选择范围，使得用户有效避免了分类范围过大时，消耗时间过多的问题；

同时，若初测分类模型集中存在元素，则基于预设的阈值条件，从初测分类模型集中选择最终分类模型，基于最终分类模型，对分类文本集中待分类文本进行分类，选择最优历史分类模型，更加有效的节省了论文文本的分类时间；

通过在使用最终分类模型，对分类文本集中待分类文本进行分类时，获取当前时间为最终分类模型的时间戳；判断被调用的最终分类模型是否为基于 TrAdaBoost算法模型新构建的分类器模型，若被调用的最终分类模型为新构建的分类器模型，获取所述分类目标集中每一个历史分类模型的时间戳，并基于所述时间戳排除上次被调用时间最久的历史分类模型，将新构建的分类器模型作为历史分类模型加入到分类目标集中，及时对历史分类模型进行更新，一定程度上提高了分类模型的适用性。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例可以应用于其中的示例性系统架构图；

图2为本申请实施例中所述论文分类时的缓冲方法的一个实施例的流程图；

图3为本申请实施例中分类标签树中标签元素的关系示意图；

图4为本申请实施例中所述论文分类时的缓冲装置的一个实施例的结构示意图；

图5为本申请实施例中第一数据获取模块的结构示意图；

图6为本申请实施例中初测模型集筛选模块的结构示意图；

图7为本申请实施例中计算机设备的一个实施例的结构示意图；

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103 上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的论文分类时的缓冲方法一般由服务器/终端设备执行，相应地，论文分类时的缓冲装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，图中示出了本申请的论文分类时的缓冲方法的一个实施例的流程图，所述的论文分类时的缓冲方法包括以下步骤：

步骤201，获取待分类文本集和分类目标集，其中，所述待分类文本集中包含n个待分类文本和与所述待分类文本一一对应的n个分类标签集，所述分类目标集中包含分类标签树、若干历史分类模型和m个已分类完成的归档文本(n、 m为正整数)。

在本实施例中，所述获取待分类文本集和分类目标集包括:可以从现有的论文或者科技文网站上获取若干已经分类完成的文本作为分类目标集，也可以从一些论文分类平台上获取若干已经分类完成的文本作为分类目标集；

所述获取待分类文本集可以从缓存中获取提前存储好的若干待分类文本组成，也可以将若干待分类文本生成数据包，直接作为分类文本集进行调用。

在本实施例中，所述待分类文本集中包含n个待分类文本和与所述待分类文本一一对应的n个分类标签集，即每一个待分类文本对应一个分类标签集。

在本实施例中，所述分类目标集中包含分类标签树、若干历史分类模型和m 个已分类完成的归档文本包括：历史分类模型的个数固定，在进行文本分类时，若有新的分类模型加入，分类目标集中的若干历史分类模型会进行及时更新。

步骤202，获取分类目标集的分类标签树和每个待分类文本的分类标签集，其中，所述分类标签树中包含分类目标集中所有归档文本的标签，所述分类标签集中包含若干分类标签。

在本申请的一些实施例中，所述步骤202中的所述分类标签树中包含分类目标集中所有归档文本的标签，还包括：所述分类标签树，基于预先设定的层级关系表对所有归档文本的标签进行层级排列，将预设的标签作为根部标签，依次排列所述根部标签的子级标签，所述子级标签下的子级标签，直到依据层级关系表完成排列，形成树形结构。

所述分类标签树的构建，例如有层级关系表中明确将下述关联标签“学科”、“化学”、“有机物”、“无机物”、“蛋白质”、“铁”进行了层级划分，“学科”为“化学”的父级标签，“化学”的子级标签包含“有机物”和“无机物”，“有机物”的子级标签包含“蛋白质”，“无机物”的子级标签包含“铁”，基于层级关系表中的层级关系，对上述关联标签进行分类标签树构建，当标签个数较多时，所有的标签间相互关联，构建出包含分类目标集中所有归档文本标签的分类标签树。

步骤203，将所述分类标签集中的标签元素作为查询条件，从所述分类标签树中获取所述分类标签集中标签元素的父级标签、子级标签和邻居标签，并将获取的父级标签、子级标签和邻居标签生成辅助标签集。

在本申请的一些实施例中，所述步骤203中的基于所述分类标签树和预先设定的获取层数，从分类标签树中获取所述分类标签集中标签元素特定层数的的父级标签、子级标签和邻居标签包括步骤：以分类标签集中特定的元素作为中心标签，从分类标签树中获取中心标签特定层级的父级标签、子级标签和邻居标签。

例如：分类标签集中包含标签“无机物”，在分类标签树中“无机物”的上层父级标签包括“化学”，“化学”的上层父级标签包括“学科”，“无机物”的下层子级标签包括“铁”，“铁”的下层子级标签包括“四氧化三铁”“氧化亚铁”等，“无机物”的邻居标签包括“有机物”；

首先将标签“无机物”作为查询条件，从分类标签树中查询其两层父级标签、两层子级标签和一层邻居标签；

然后将获取到的父级标签、子级标签和邻居标签组成辅助标签集。

具体请参阅图3，图3为本申请实施例中，分类标签树中标签元素的关系示意图，所述分类标签树中标签元素的关系示意图3，图中示出了分类目标集中分类标签树中元素的层级关系，如图3中所示，图中a1、a2、b1、b2、b3、b4、 b5、c1、c2、c3、c4、c5、c6、d1、d2、d3、d4、d5、d6、e1、e2、e3、e4、 e5、e6、e7表示分类标签树中的一部分标签元素，若分类标签集中包含元素c3，需要获取c3的两层父级标签两层子级标签和邻居标签，基于如图3的分类标签树可查询到c3的两层父级标签包含{a1、a2、b1、b2、b3}，c3的两层子级标签包含{d1、d3、e1、e2、e3、e5}，c3的邻居标签包含{c2、c4}，将获取到的关联标签{a1、a2、b1、b2、b3、d1、d3、e1、e2、e3、e5、c2、c4}组成集合作为c3标签辅助标签集。

步骤204，基于所述辅助标签集中标签元素和预设的筛选条件，从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型，并生成初测分类模型集。

在本申请的一些实施例中，所述步骤204中所述基于所述辅助标签集中标签元素和预设的筛选条件，从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型包括：基于预设的第一筛选条件从历史分类模型中找出满足第一筛选条件的分类模型，

例如：在判断当前历史分类模型是否满足第一筛选条件时，首先设定常数值α为0.8，若分类标签集中所有元素的辅助标签集中的标签元素个数为30，则判断历史分类模型中的分类标签|I|是否大于等于24，若经过查询，存在历史分类模型中分类标签|I|大于等于24，将当前历史分类模型筛选出来，加入到满足第一筛选条件的集合中。

在本申请的一些实施例中，所述步骤204中所述基于所述辅助标签集中标签元素和预设的筛选条件，从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型还包括：基于预设的第二筛选条件从历史分类模型中找出满足第二筛选条件的分类模型，

其中，所述第二筛选条件如下：

y_i∈sub_j，在第二筛选条件中，

例如：经过第一筛选条件筛选出的历史分类模型中存在若干历史分类模型的|I|相同都为26，这时，为了选择出最接近的模型，通过分类标签树判断历史分类模型中包含的标签与每一个辅助标签集中标签元素之间的距离关系，使用

进行计算，在将所有辅助标签集中标签元素对应的

进行求和运算，将所有进行求和运算的历史分类模型的求和值进行比较，选择最小值，则表示历史分类模型中包含的标签与辅助标签集中标签元素之间的距离最短，关系最为接近，关联性越高。这时f(SY^C,SY_j)最小值对应的历史分类模型被筛选出来，加入到初测分类模型集中。

所述的通过分类标签树判断历史分类模型中包含的标签与每一个辅助标签集中标签元素之间的距离关系，使用

进行计算时，基于分类标签树，将存在直接父子级关系标签间的距离表示为1，存在间接父子级关系标签间的距离，例如隔1代关系表示为2，隔2代关系表示为3，邻居间的关系默认为无穷大，在进行最小距离获取时不进行邻居标签间的关系计算，只获取父子间的标签距离，这时，若结果越小，则说明标签间的关联性越强。

步骤205，若初测分类模型集中存在元素，则基于预设的阈值条件，从初测分类模型集中选择最终分类模型，基于最终分类模型，对分类文本集中待分类文本进行分类。

在本申请的一些实施例中，所述步骤205中所述若初测分类模型集中存在元素，则基于预设的阈值条件，从初测分类模型集中选择最终分类模型包括：

例如：在获取初测分类模型集中每一个元素的f(SY^C,SY_j)值时，|I|值为大于1 的正整数值，

值为大于1的正整数值，因此其倒数和为小于1的值，这是|I|值起决定作用，选择f(SY^C,SY_j)值的最大值对应的历史分类模型作为最终分类模型，进行文本分类。

步骤206，若初测分类模型集中不存在元素，基于辅助标签集中元素，从分类目标集中获取辅助文本集，基于TrAdaBoost算法模型，将分类目标集、辅助文本集和分类文本集作为训练文本进行模型预训练，基于辅助文本集和分类目标集构建分类文本集的分类器模型作为最终分类模型，基于所述最终分类模型，对分类文本集中待分类文本进行分类。

在本申请实施例中基于TrAdaBoost算法模型构建最终分类模型的方式具体如下：若在历史分类模型中获取不到满足筛选条件的模型，将辅助标签集中的元素作为查询条件，从分类目标集中获取以所述辅助标签集中元素为分类标签的文本作为辅助文本集T_a(SY_k)，分类目标集中文本作为源空间集T_b(SY_K)，分类文本集作为待分类文本x_i，对于给定的源训练数据T_b(SY_K)，辅助训练数据T_a(SY_k)和未标注的测试数据x_i∈X_b，我们的目标就是要构建一个分类器，两个训练数据集 T_a(SY_k)和T_b(SY_K)，合并的训练数据T＝T_a(SY_k)∪T_b(SY_K)，未标注的测试数据，一个基本的多标签分类算法Learner，迭代次数N，在每一次的迭代中，如果一个辅助训练数据被分类错了，那么我们将减小这个辅助数据的权重，因此，在下一次的迭代中，误分类的辅助数据将比上一轮影响小，在多次迭代以后，有助于源训练数据分类的辅助训练数据将获得较高的权重，而不符合源数据分类的权重将会比较低，这样就可以充分利用辅助训练数据获取一个性能较好的分类器，将最终获取的分类器作为最终分类模型进行文本分类。

在本申请的一些实施例中，所述步骤206中基于最终分类模型，对分类文本集中待分类文本进行分类包括：在使用最终分类模型，对分类文本集中待分类文本进行分类时，获取当前时间为最终分类模型的时间戳；

例如：若有新的模型加入到历史分类模型中时，为了保证历史分类模型的数量固定，在每次进行分类时给被调用的最终分类模型加上时间戳，基于时间戳选择出最久没有被调用的历史分类模型进行删除，将新构建的分类模型加入到历史分类模型中。

本申请实施例中所述的论文分类时的缓冲方法，可以通过获取分类目标集的分类标签树和每个待分类文本的分类标签集，其中，所述分类标签树中包含分类目标集中所有归档文本的标签，所述分类标签集中包含若干分类标签；将所述分类标签集中的标签元素作为查询条件，从所述分类标签树中获取所述分类标签集中标签元素的父级标签、子级标签和邻居标签，并将获取的父级标签、子级标签和邻居标签生成辅助标签集；基于所述辅助标签集中标签元素和预设的筛选条件，从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型，并生成初测分类模型集；通过初测分类模型集，有效的限定了用户的论文分类模型的选择范围，使得用户有效避免了分类范围过大时，消耗时间过多的问题；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory， ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM) 等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图4，作为对上述图2所示方法的实现，本申请提供了一种论文分类时的缓冲装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例所述的论文分类时的缓冲装置4包括：第一数据获取模块401、第二数据获取模块402、辅助标签集生成模块403、初测模型集筛选模块404、第一文本分类模块405和第二文本分类模块406。其中：

第一数据获取模块401，用于获取待分类文本集和分类目标集，其中，所述待分类文本集中包含n个待分类文本和与所述待分类文本一一对应的n个分类标签集，所述分类目标集中包含分类标签树、若干历史分类模型和m个已分类完成的归档文本(n、m为正整数)；

第二数据获取模块402，用于获取分类目标集的分类标签树和每个待分类文本的分类标签集，其中，所述分类标签树中包含分类目标集中所有归档文本的标签，所述分类标签集中包含若干分类标签；

辅助标签集生成模块403，用于将所述分类标签集中的标签元素作为查询条件，从所述分类标签树中获取所述分类标签集中标签元素的父级标签、子级标签和邻居标签，并将获取的父级标签、子级标签和邻居标签生成辅助标签集；

初测模型集筛选模块404，用于基于所述辅助标签集中标签元素和预设的筛选条件，从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型，并生成初测分类模型集；

第一文本分类模块405，用于若初测分类模型集中存在元素，则基于预设的阈值条件，从初测分类模型集中选择最终分类模型，基于最终分类模型，对分类文本集中待分类文本进行分类；

第二文本分类模块406，用于若初测分类模型集中不存在元素，基于辅助标签集中元素，从分类目标集中获取辅助文本集，基于TrAdaBoost算法模型，将分类目标集、辅助文本集和分类文本集作为训练文本进行模型预训练，基于辅助文本集和分类目标集构建分类文本集的分类器模型作为最终分类模型，基于所述最终分类模型，对分类文本集中待分类文本进行分类。

在本申请的一些实施例中，如图5，图5为本申请实施例中第一数据获取模块的结构示意图，所述第一数据获取模块401包括待分类文本集获取单元401a 和分类目标集获取单元401b。

在本申请的一些实施例中，所述待分类文本集获取单元401a用于获取待分类文本和与所述待分类文本一一对应的分类标签集。

在本申请的一些实施例中，所述分类目标集获取单元401b用于获取分类标签树、若干历史分类模型和已分类完成的归档文本。

在本申请的一些实施例中，所述第二数据获取模块402在获取所述分类标签树时，所述分类标签树基于预先设定的层级关系表对所有归档文本的标签进行层级排列，将预设的标签作为根部标签，依次排列所述根部标签的子级标签，所述子级标签下的子级标签，直到依据层级关系表完成排列，形成树形结构。

在本申请的一些实施例中，所述辅助标签集生成模块403在将所述分类标签集中的标签元素作为查询条件，从所述分类标签树中获取所述分类标签集中标签元素的父级标签、子级标签和邻居标签时，具体基于所述分类标签树和预先设定的获取层数，从分类标签树中获取所述分类标签集中标签元素特定层数的的父级标签、子级标签和邻居标签。

在本申请的一些实施例中，如图6，图6为本申请实施例中初测模型集筛选模块的结构示意图，所述初测模型集筛选模块404包括第一筛选单元404a、第二筛选单元404b。

在本申请的一些实施例中，所述第一筛选单元404a具体用于基于预设的第一筛选条件从历史分类模型中找出满足第一筛选条件的分类模型，其中，所述第一筛选条件如下：|I|≥ακ，在第一筛选条件中，I＝SY^C∩SY_j，表示历史分类模型中每个模型对应的标签集合SY^C和辅助标签集中标签元素对应的标签集合SY_j的交集，即共有的类别集合，|I|表示共有的类别集合个数，α为预设的常数值，κ为辅助标签集中标签元素的个数，若|I|大于等于α与κ的乘积，则当前历史分类模型满足第一筛选条件。

在本申请的一些实施例中，所述第二筛选单元404b具体用于基于预设的第二筛选条件从历史分类模型中找出满足第二筛选条件的分类模型，其中，所述第二筛选条件如下：

y_i∈sub_j，在第二筛选条件中，

表示历史分类模型中每个模型对应的标签和辅助标签集中标签元素在分类标签树中的最短距离；基于所述第二筛选条件筛选出在所述第一筛选条件下历史分类模型中每个模型对应的标签集合SY^C和辅助标签集中标签元素对应的标签集合SY_j的交集共有的类别集合个数|I|相同的条件下，选择f(SY^C,SY_j)为最小值时对应的历史分类模型，组成初测分类模型集。

在本申请的一些实施例中，所述第一文本分类模块405基于预设的阈值条件，从初测分类模型集中选择最终分类模型具体用于获取所述初测分类模型集中每一个元素的f(SY^C,SY_j)值，并进行遍历，选择f(SY^C,SY_j)为最大值时对应的历史分类模型作为最终分类模型。

在本申请的一些实施例中，所述第二文本分类模块406基于最终分类模型，对分类文本集中待分类文本进行分类时具体在使用最终分类模型，对分类文本集中待分类文本进行分类时，获取当前时间为最终分类模型的时间戳；

本申请实施例所述的论文分类时的缓冲装置，通过基于所述辅助标签集中标签元素和预设的筛选条件，从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型，并生成初测分类模型集；通过初测分类模型集，有效的限定了用户的论文分类模型的选择范围，使得用户有效避免了分类范围过大时，消耗时间过多的问题；同时，若初测分类模型集中存在元素，则基于预设的阈值条件，从初测分类模型集中选择最终分类模型，基于最终分类模型，对分类文本集中待分类文本进行分类，选择最优历史分类模型，更加有效的节省了论文文本的分类时间；通过在使用最终分类模型，对分类文本集中待分类文本进行分类时，获取当前时间为最终分类模型的时间戳；判断被调用的最终分类模型是否为基于TrAdaBoost算法模型新构建的分类器模型，若被调用的最终分类模型为新构建的分类器模型，获取所述分类目标集中每一个历史分类模型的时间戳，并基于所述时间戳排除上次被调用时间最久的历史分类模型，将新构建的分类器模型作为历史分类模型加入到分类目标集中，及时对历史分类模型进行更新，一定程度上提高了分类模型的适用性。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图7，图7为本实施例计算机设备基本结构框图。

所述计算机设备7包括通过系统总线相互通信连接存储器7a、处理器7b、网络接口7c。需要指出的是，图中仅示出了具有组件7a-7c的计算机设备7，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field-Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器7a至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器7a可以是所述计算机设备 7的内部存储单元，例如该计算机设备7的硬盘或内存。在另一些实施例中，所述存储器7a也可以是所述计算机设备7的外部存储设备，例如该计算机设备7 上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。当然，所述存储器7a还可以既包括所述计算机设备7的内部存储单元也包括其外部存储设备。本实施例中，所述存储器7a通常用于存储安装于所述计算机设备7的操作系统和各类应用软件，例如论文分类时的缓冲方法的程序代码等。此外，所述存储器7a还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器7b在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器7b通常用于控制所述计算机设备7的总体操作。本实施例中，所述处理器7b用于运行所述存储器7a中存储的程序代码或者处理数据，例如运行所述论文分类时的缓冲方法的程序代码。

所述网络接口7c可包括无线网络接口或有线网络接口，该网络接口7c通常用于在所述计算机设备7与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有论文分类时的缓冲程序，所述论文分类时的缓冲程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的论文分类时的缓冲方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种论文分类时的缓冲方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的论文分类时的缓冲方法，其特征在于，所述分类标签树中包含分类目标集中所有归档文本的标签，还包括：

3.根据权利要求2所述的论文分类时的缓冲方法，其特征在于，所述将所述分类标签集中的标签元素作为查询条件，从所述分类标签树中获取所述分类标签集中标签元素的父级标签、子级标签和邻居标签包括：

4.根据权利要求3所述的论文分类时的缓冲方法，其特征在于，所述基于所述辅助标签集中标签元素和预设的筛选条件，从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型包括：

5.根据权利要求4所述的论文分类时的缓冲方法，其特征在于，所述基于所述辅助标签集中标签元素和预设的筛选条件，从分类目标集的历史分类模型中筛选出满足预设条件的历史分类模型还包括：

其中，所述第二筛选条件如下：

y_i∈sub_j，在第二筛选条件中，

6.根据权利要求5所述的论文分类时的缓冲方法，其特征在于，所述若初测分类模型集中存在元素，则基于预设的阈值条件，从初测分类模型集中选择最终分类模型包括：

获取所述初测分类模型集中每一个元素的f(SY^C,SY_j)值，并进行遍历，选择f(SY^C,SY_j)为最大值时对应的历史分类模型作为最终分类模型。

7.根据权利要求1至6任一项所述的论文分类时的缓冲方法，其特征在于，所述基于最终分类模型，对分类文本集中待分类文本进行分类包括：

8.一种论文分类时的缓冲装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的论文分类时的缓冲方法的步骤。

10.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的论文分类时的缓冲方法的步骤。