CN115544258A

CN115544258A - 文本分类模型的样本构建方法及装置、文本分类方法

Info

Publication number: CN115544258A
Application number: CN202211487421.2A
Authority: CN
Inventors: 付雪林; 王涛; 安重阳; 韩啸; 王启超; 孙思遥; 李晨晖; 苏雨辰; 张葳; 唐海霞; 赵鑫
Original assignee: Beijing Xin Li Fang Technologies Inc
Current assignee: Beijing Xin Li Fang Technologies Inc
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2022-12-30
Anticipated expiration: 2042-11-25
Also published as: CN115544258B

Abstract

本发明涉及文本处理技术领域，提供一种文本分类模型的样本构建方法及装置、文本分类方法，所述样本构建方法包括：获取初始样本数据；所述初始样本数据包括多个初始文档，以及各所述初始文档的标签数据；所述多个初始文档的标签数据对应多个目标分类；确定任一所述目标分类中的各目标词语对所述目标分类的贡献值；所述目标词语为所述目标分类下的初始文档中的任一词语；根据所述贡献值对所述目标分类下的初始文档进行样本重组，得到目标样本数据。本发明提供的样本构建方法通过计算词语对分类的贡献值，对样本数据进行样本重组，可以平衡各分类下的文本长度、改变不同分类下的样本数据量，从而均衡样本数据的分布，解决样本不均衡的问题。

Description

文本分类模型的样本构建方法及装置、文本分类方法

技术领域

本发明涉及文本处理技术领域，尤其涉及一种文本分类模型的样本构建方法及装置、文本分类方法。

背景技术

随着科学仪器行业的发展，科学仪器相关的网站和平台也随之建立，在建立的相关网站和平台上，产生了越来越多的行业数据。在网站和平台建立早期，可以通过行业数据的产生方式或产生途径，按照网站或平台中的栏目对其进行粗略分类，实现行业数据的归档。随着科学仪器行业的发展，业内根据科学仪器的应用行业和仪器原理，结合相应行业规范以及用户认知，对科学仪器进行了科学分类。并且，随着海量行业数据的产生，网站和平台中不同栏目之间的行业数据存在壁垒，无法进行关联，因此，需要结合科学仪器的行业分类，对行业数据进行分类归档。

由于行业数据涉及海量文本数据，难以采用人工方式进行分类，需要基于已有的行业数据训练相应的文本分类模型，实现对行业数据的自动分类。然而，在网站和平台中，由于不同栏目的功能不同，产生的行业数据对应的文本长度长短不一，且长短文本的数据量分布不均匀，基于此类行业数据构建出的模型训练样本，存在样本不均衡问题，容易影响训练后的文本分类模型对行业数据的分类准确性。

发明内容

本发明提供一种文本模型的样本构建方法及装置、文本分类方法，用以解决现有技术中文本分类模型的样本构建中存在的样本不均衡的缺陷。

本发明提供一种文本分类模型的样本构建方法，包括：

获取初始样本数据；所述初始样本数据包括多个初始文档，以及各所述初始文档的标签数据；所述多个初始文档的标签数据对应多个目标分类；

确定任一所述目标分类中的各目标词语对所述目标分类的贡献值；所述目标词语为所述目标分类下的初始文档中的任一词语；

根据所述贡献值对所述目标分类下的初始文档进行样本重组，得到目标样本数据。

根据本发明提供的文本分类模型的样本构建方法，所述确定任一所述目标分类中的各目标词语对所述目标分类的贡献值，包括：

确定任一所述目标分类中的各目标词语在所述目标分类下的目标词频，并确定各所述目标词语在所述目标分类下的目标权重；

根据所述目标词频和所述目标权重，确定各所述目标词语对所述目标分类的贡献值。

根据本发明提供的文本分类模型的样本构建方法，所述确定任一所述目标分类中的各目标词语在所述目标分类下的目标词频，包括：

获取预设的长短文本协调因子；所述长短文本协调因子包括文本长度因子和词频尺度因子；

计算所述初始样本数据中所有初始文档的平均文本长度；

根据所述长短文本协调因子和所述平均文本长度，计算任一所述目标分类中的各目标词语的第一词频；所述第一词频为所述目标词语在所述目标分类下的初始文档中的词频；

确定所述目标分类下的目标文档的文档数量；所述目标文档为包含所述目标词语的初始文档；

根据所述第一词频和所述文档数量，计算所述目标词语在所述目标分类下的目标词频。

根据本发明提供的文本分类模型的样本构建方法，所述确定各所述目标词语在所述目标分类下的目标权重，包括：

确定所述多个目标分类对应的第一分类数量和第二分类数量；其中，所述第一分类数量为包含所述目标词语的目标分类的数量；所述第二分类数量为不包含所述目标词语的目标分类的数量；

根据所述第一分类数量和所述第二分类数量，计算所述目标词语在所述目标分类下的目标权重。

根据本发明提供的文本分类模型的样本构建方法，所述根据所述贡献值对所述目标分类下的初始文档进行样本重组，得到目标样本数据，包括：

计算所述目标分类下的初始文档中所有目标词语的总贡献值；

基于所述总贡献值，构建所述目标分类下的初始文档中所有目标词语的贡献分布图；

基于所述总贡献值生成随机数区间，并在所述随机数区间内生成随机数组；

将所述随机数组中的随机数作为贡献值，基于所述贡献分布图对所述目标分类下的初始文档进行文本采样，以对所述目标分类下的初始文档进行样本重组，得到目标样本数据；

其中，所述随机数组的长度，与所述初始样本数据中所有初始文档的平均文本长度相同。

根据本发明提供的文本分类模型的样本构建方法，所述获取初始样本数据，包括：

采集原始语料数据；所述语料数据包括长文本语料和短文本语料；

根据所述原始语料数据生成多个初始文档；

获取各所述初始文档的标注信息，并根据所述标注信息生成各所述初始文档的标签数据；

根据所述标签数据对各所述初始文档进行分类，得到初始样本数据。

根据本发明提供的文本分类模型的样本构建方法，所述方法还包括：

基于各所述目标分类构建初始决策树，生成各所述目标分类对应的决策森林；

根据各所述目标分类下的初始文档对应的样本数据量，从所述决策森林中选取样本数据量最小的第一决策树和第二决策树；

对所述第一决策树和所述第二决策树进行合并，生成新增决策树；其中，所述第一决策树和所述第二决策树为所述新增决策树的叶子节点；所述第一决策树和所述第二决策树的样本数据量之和，为所述新增决策树的样本数据量；

返回并执行所述从所述决策森林中选取样本数据量最小的第一决策树和第二决策树的步骤，直到基于所述决策森林中所有的初始决策树生成一棵目标决策树为止；

基于所述目标决策树构建初始文本分类模型，并利用所述目标样本数据对所述初始文本分类模型进行训练，得到目标文本分类模型。

本发明还提供一种基于科学仪器行业数据的文本分类方法，包括：

从科学仪器的行业数据中采集待分类的目标文本数据；

根据所述目标文本数据生成目标文档；

将所述目标文档输入至目标文本分类模型中，对所述目标文档进行分类，得到所述目标文档的分类结果；

其中，所述目标文本分类模型是基于预先构建的目标样本数据，对初始文本分类模型进行预训练得到的；

所述目标样本数据是基于初始样本数据中任一目标分类中的各目标词语对所述目标分类的贡献值，对所述目标分类下的初始文档进行样本重组得到的；所述目标词语为所述目标分类下的初始文档中的任一词语；

所述初始样本数据包括多个初始文档，以及各所述初始文档的标签数据；所述多个初始文档的标签数据对应多个目标分类。

本发明还提供一种文本分类模型的样本构建装置，包括：

数据获取模块，用于获取初始样本数据；所述初始样本数据包括多个初始文档，以及各所述初始文档的标签数据；所述多个初始文档的标签数据对应多个目标分类；

贡献值计算模块，用于确定任一所述目标分类中的各目标词语对所述目标分类的贡献值；所述目标词语为所述目标分类下的初始文档中的任一词语；

样本重组模块，用于根据所述贡献值对所述目标分类下的初始文档进行样本重组，得到目标样本数据。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述文本分类模型的样本构建方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如上述任一种所述文本分类模型的样本构建方法，以及如上述任一种所述基于科学仪器行业数据的文本分类方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时，实现如上述任一种所述文本分类模型的样本构建方法，以及如上述任一种所述基于科学仪器行业数据的文本分类方法。

本发明提供的文本分类模型的样本构建方法及装置、文本分类方法，通过确定任一目标分类中的各目标词语对该目标分类的贡献值，基于该贡献值对目标分类下的初始文档进行样本重组得到目标样本数据，可以解决初始样本数据的样本不均衡问题，利用目标样本数据对初始文本分类模型进行训练，有利于提高文本分类模型的分类准确性。通过计算词语对分类的贡献值，对样本数据进行样本重组，可以平衡各分类下的长短文本的文本长度、改变不同分类下的样本数据量，从而均衡样本数据的分布；利用经过样本重组的样本数据对初始文本分类模型进行训练，有利于提高模型的分类准确度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的文本分类模型的样本构建方法的流程示意图；

图2是本发明提供的文本分类模型中的哈夫曼树的结构示意图；

图3是本发明提供的文本分类模型的样本构建方法的贡献分布图的示意图；

图4是本发明提供的文本分类模型的样本构建装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图3描述本发明的文本分类模型的样本构建方法。

本发明实施例提供的文本分类模型的样本构建方法，应用于文本分类模型的训练，训练后的文本分类模型，可以按照科学仪器的分类，用于对科学仪器行业的网站和平台产生的海量行业数据进行分类归档。可知地，训练后的文本分类模型也可以用于对其他行业的文本数据进行分类，在此不做具体限定。以下以对科学仪器行业的文本数据为基础，对本发明提供的文本分类模型的样本构建方法进行详细说明。

首先，参照图1，图1为本发明实施例提供的文本分类模型的样本构建方法的流程示意图，基于图1，本发明实施例提供的文本分类模型的样本构建方法，包括：

步骤100，获取初始样本数据；所述初始样本数据包括多个初始文档，以及各所述初始文档的标签数据；所述多个初始文档的标签数据对应多个目标分类；

获取初始样本数据，该初始样本数据是基于从仪器行业数据中采集的原始文本数据生成的；初始样本数据包括多个初始文档，以及各个初始文档的标签数据，多个初始文档的标签数据对应有多个目标分类，任一初始文档的标签数据用于表征该初始文档所属的一个或多个目标分类，也即，初始样本数据中包括多个目标分类下的初始文档，任一目标分类下的初始文档包括一个或多个，任一初始文档的标签数据包括一个或多个标签，用于表征其所属的一个或多个目标分类。在本实施例中，该目标分类可以是科学仪器的行业分类。

需要说明的是，在初始样本数据中的多个初始文档中，包括不同文本长度的文档，即初始文档的文本内容包括长文本和短文本，同一个初始文档按照不同的分类标准，可以属于多个目标分类，即同一个初始文档可以有多个不同目标分类对应的标签数据；同样地，同一个目标分类下，可以包括多个初始文档。

步骤200，确定任一所述目标分类中的各目标词语对所述目标分类的贡献值；所述目标词语为所述目标分类下的初始文档中的任一词语；

基于多个目标分类中的任意一个分类，确定该目标分类下的各个目标词语对该目标分类的贡献值，该贡献值用于表征目标词语对其所在的初始文档的分类结果的贡献度；其中，目标词语为该目标分类下的初始文档中的任一词语。对于同一目标分类下的初始文档，不同文档中的词语可以存在重复，也即，同一个词语可以出现在同一目标分类下的不同文档中；同样地，由于同一个文档可以属于多个目标分类，同一个词语也可以出现在不同目标分类下的初始文档中，在此不再赘述。

可知地，在确定任一目标分类中的各目标词语对该目标分类的贡献值时，首先在任一目标分类下的初始文档中，选取一个词语作为目标词语，计算该目标词语在该目标分类下的分类指标值，基于该分类指标值确定目标词语对该目标分类的贡献值。然后在该目标分类下的初始文档中，重新选取一个词语作为目标词语，按照同样的方式确定新选取的目标词语对该目标分类的贡献值，直到选取的目标词语为该目标分类下的所有词语中的最后一个时，即可得到各目标词语对目标分类的贡献值。同理，按照此方式，可以确定初始样本数据中的任一词语对各目标分类的贡献值。

步骤300，根据所述贡献值对所述目标分类下的初始文档进行样本重组，得到目标样本数据；

对于不均衡的样本数据，为了提高模型的泛化能力，应当去除模型对文本顺序的记忆，因此，需要计算各词语对分类的贡献值后，进行样本重组，在得到每个样本中应有的词汇的前提下，打乱原有的词语顺序并均衡样本数据。根据计算出的贡献值，对初始样本数据中，目标分类下的初始文档进行样本重组，得到目标样本数据。其中，对目标分类下的初始文档的样本重组，包括打乱各初始文档中的词语顺序、基于各词语对目标分类的贡献值重新进行文本采样，以改变各初始文档的文本长度，以及目标分类下的样本数据量等。基于同一目标分类中的各目标词语对该目标分类的贡献值，通过样本重组，可以平衡该目标分类下的长文本和短文本的文本长度、改变该目标分类下的样本数据量；对各目标分类下的初始文档分别进行样本重组，有利于均衡不同目标分类下的样本数据量，使得样本数据的分布更加均衡。

进一步地，步骤100中，获取初始样本数据，具体包括：

步骤101，采集原始语料数据；所述语料数据包括长文本语料和短文本语料；

步骤102，根据所述原始语料数据生成多个初始文档；

步骤103，获取各所述初始文档的标注信息，并根据所述标注信息生成各所述初始文档的标签数据；

步骤104，根据所述标签数据对各所述初始文档进行分类，得到初始样本数据。

在获取初始样本数据时，采集网站或平台上的行业数据作为原始语料数据，采集的原始语料数据中包括长文本语料和短文本语料，在采集原始语料数据时，对于长文本语料和短文本语料，可以采用相同或不同的文本采集深度，文本采集深度即采样长度，长文本语料的采样长度可以长于短文本的采样长度，从而有利于保证长文本语料的样本充分性，同时可以避免短文本语料中采集过多的无意义词语。而对于长文本语料和短文本语料，可以基于采集的原始语料数据的文本长度或在网站或平台中的来源确定，例如对于网站或平台用户的搜索词语、用户在网站或平台的论坛等社交栏目发表的内容、领域词语（如科学仪器的生产厂商、仪器名称、仪器标号、领域专家、行业词汇）等，通常为短文本，对于网站或平台的资讯栏目发表的新产品的介绍、行业资讯内容等，一般为长文本。

根据采集的原始语料数据生成多个初始文档，在生成初始文档时，可以按照采集的原始语料数据的来源对原始语料进行划分，基于划分后的原始语料分别生成初始文档。例如，以上述资讯内容和用户在论坛等社交栏目发表的内容为例，基于从同一篇资讯内容中采集的原始语料数据，生成一个初始文档；基于从不同的资讯内容中采集的原始语料数据，分别生成不同的初始文档。对于用户在论坛等社交栏目发表的内容，基于从用户发表的同一篇论坛内容中采集的原始语料数据，生成一个初始文档；基于从不同的论坛内容中采集的原始语料数据，分别生成不同的初始文档。

获取生成的各初始文档的标注信息，基于该标注信息生成各初始文档的标签数据，该标签数据用于表征初始文档所述的目标分类。其中，初始文档的标注信息可以是人工标注的。对于采集的原始语料数据，还可以对原始语料数据进行过滤清洗等预处理，例如包括结合厂商、仪器、标号、行业词汇等领域词语，对原始语料数据进行分词，去除停用词以及在原始语料数据中高频出现的无意义词语等。基于预处理后的预料数据进行处理，有利于提高后续得到的目标样本数据的质量。

更进一步地，在利用目标样本数据对预设的初始文本分类模型进行训练之前，还包括：

步骤001，基于各所述目标分类构建初始决策树，生成各所述目标分类对应的决策森林；

步骤002，根据各所述目标分类下的初始文档对应的样本数据量，从所述决策森林中选取样本数据量最小的第一决策树和第二决策树；

步骤003，对所述第一决策树和所述第二决策树进行合并，生成新增决策树；其中，所述第一决策树和所述第二决策树为所述新增决策树的叶子节点；

步骤004，返回并执行所述从所述决策森林中选取样本数据量最小的第一决策树和第二决策树的步骤，直到基于所述决策森林中所有的初始决策树生成一棵目标决策树为止；

步骤005，基于所述目标决策树构建初始文本分类模型，并利用所述目标样本数据对所述初始文本分类模型进行训练，得到目标文本分类模型。

在本实施例中，在利用构建的目标样本数据进行模型训练之前，需要先构建初始文本分类模型，具体地，首先基于各目标分类构建初始决策树，生成各目标分类对应的决策森林，每一个目标分类为决策森林中的一棵决策树，目标分类下的初始文档对应的样本数据量，为该目标分类对应的决策树的权值，样本数据量越大，权值越大。

根据各决策树的权值，从决策森林中选取权值最小的两棵决策树，即第一决策树和第二决策树，将第一决策树和第二决策树合并，生成新增决策树，对于新增决策树，其权值为第一决策树和第二决策树的权值之和；第一决策树和第二决策树分别为该新增决策树的叶子节点。然后基于新增决策树，在决策森林中重新选取权值最小的两棵决策树，重复上述步骤，直到决策森林中的所有初始决策树生成一棵目标决策树为止，基于目标决策树构建初始文本分类模型。

进一步地，在构建初始文本分类模型时，需要先构建分层softmax（归一化指数函数），本实施例中，构建分层softmax使用的是哈夫曼树编码，生成的目标决策树为哈夫曼树，生成目标决策树的过程，为哈夫曼树编码过程。具体地，1、首先把各目标分类{ l1、l2、…、ln}作为n棵决策树形成森林，此时，每棵树都是一个根节点；其中，n为正整数，表示目标分类的分类数量；2、在森林中选取两个根节点的样本数据量最小的树合并，生成一棵新树，选取的两个根节点为新树的叶子节点，新树的样本数据量为两个叶子节点的样本数据量之和；3、删除之前选取的根节点，新树加入到森林中；4、重复步骤2和3，直到森林中只有一棵树为止，该树即为哈夫曼树，如图2所示。在图2中，对于生成的哈夫曼树，{ l1、l2、…、ln}为各目标分类组成的叶子节点，在图2中，假设了所有目标分类下的初始文档的样本数据量相同，且对应权值为10；通过哈夫曼编码后，l1对应的叶子节点的编码为111、l2对应的叶子节点的编码为110、l3对应的叶子节点的编码为10、l4对应的叶子节点的编码为011……等等。

利用经过样本重组得到的目标样本模型，对构建的初始文本分类模型进行训练，得到目标文本分类模型。其中，对初始文本分类模型的训练方式，可以是迭代训练，也可以是递归训练，在此不做具体限定。利用通过样本重组进行样本均衡后的数据作为样本数据进行模型训练后，训得到的目标文本分类模型可以均衡对长短文本的识别精度，从而可以提高对长短文本的整体识别精度，有利于提高对文本的分类准确度。需要说明的是，在对初始文本分类模型进行训练时，需要按照一定比例，如4:1等，将样本数据划分为训练样本和测试样本，可以是在样本重组前对初始样本数据进行划分，划分后对训练样本分别进行样本重组；也可以是在对初始样本数据进行样本重组后，对得到的目标样本数据进行划分，在此同样不做具体限定。

在模型训练时，对于输入的样本数据，经过模型的分类计算，得到每个分类标签的概率值，然后使用构建的分层softmax进行计算，可以快速得到最终的分类标签。其中，计算每个分类标签的概率值，就是计算从哈弗曼树的根节点到目标分类的概率值，每次分支可以看做一次二分类，根据哈夫曼编码，可以把路径中的每个非叶子节点看做为0或者1，使用逻辑回归函数等进行预测，当预测值小于设定的概率值时取0，大于或等于设定的概率值时取1，设定的概率值例如0.5，即当预测值小于0.5时取0，大于或等于0.5时取1，控制哈弗曼树的决策走向，从而确定最终的分类标签。然后将所有样本数据的分类概率值取对数相加得到对应的损失函数，基于该损失函数计算梯度更新模型参数，直到损失值下降到合理值时，即完成对文本分类模型的训练。

在本实施例中，通过确定任一目标分类中的各目标词语对该目标分类的贡献值，基于该贡献值对目标分类下的初始文档进行样本重组得到目标样本数据，可以解决初始样本数据的样本不均衡问题，利用目标样本数据对初始文本分类模型进行训练，有利于提高文本分类模型的分类准确性。通过计算词语对分类的贡献值，对样本数据进行样本重组，可以平衡各分类下的长短文本的文本长度、改变不同分类下的样本数据量，从而均衡样本数据的分布；利用经过样本重组的样本数据对初始文本分类模型进行训练，有利于提高模型的分类准确度。

进一步地，利用经过样本重组的样本数据对初始文本分类模型进行训练，可以去除文本分类模型对文本顺序的记忆，提高文本分类模型的泛化能力。

进一步地，在获取初始样本数据时，对采集的原始语料数据进行预处理，并生成多个初始文档进行标注分类，提高了样本数据的数据质量，保证了后续用于模型训练的样本数据的质量。

更进一步地，采用哈夫曼树编码构建哈夫曼树，并基于哈弗曼树构建初始文本分类模型，保证了模型的分类效率。

在一个实施例中，步骤200中，确定任一目标分类中的各目标词语对该目标分类的贡献值，具体包括：

步骤201，确定任一所述目标分类中的各目标词语在所述目标分类下的目标词频，并确定各所述目标词语在所述目标分类下的目标权重；

步骤202，根据所述目标词频和所述目标权重，确定各所述目标词语对所述目标分类的贡献值。

在确定词语对分类的贡献值时，首先基于多个分类中的任一目标分类，确定该目标分类下的各目标词语对该目标分类的贡献值。具体地，该目标分类下的初始文档中包含多个词语，对于其中的任一目标词语，计算该目标词语在该目标分类下的分类指标值，该分类指标值包括词频和权重，即计算该目标词语在该目标分类下的目标词频和目标权重；然后根据目标词频和目标权重，确定该目标词语对目标分类的贡献值。按照此方式，将目标分类中的其他词语分别作为目标词语，并逐一计算对目标分类的贡献值，从而得到各目标词语对目标分类的贡献值。需要说明的是，词频即词语出现的频率或频次；在样本数据充分的前提下，一个词语对分类结果的贡献值，主要取决于该词语在该分类的文本中出现的频次或频率，以及在其他分类的文本中出现的频次或频率。其中，目标词频用于表征词语在目标分类中的词频，目标权重用于表征目标词频在目标分类中的权重，间接表征目标词频在除目标分类之外的其他分类中的词频，目标词语在其他分类下的词频越高，在目标分类下的权重就越小，当词语在大多数分类下的词频都很高或很低时，该词语为对分类无贡献的无意义词语。

进一步地，步骤201中，确定目标词语在目标分类下的目标词频时，包括：

步骤2011，获取预设的长短文本协调因子；所述长短文本协调因子包括文本长度因子和词频尺度因子；

步骤2012，计算所述初始样本数据中所有初始文档的平均文本长度；

步骤2013，根据所述长短文本协调因子和所述平均文本长度，计算任一所述目标分类中的各目标词语的第一词频；所述第一词频为所述目标词语在所述目标分类下的初始文档中的词频；

步骤2014，确定所述目标分类下的目标文档的文档数量；所述目标文档为包含所述目标词语的初始文档；

步骤2015，根据所述第一词频和所述文档数量，计算所述目标词语在所述目标分类下的目标词频。

首先，获取预设的长短文本协调因子，该长短文本协调因子为可配置因子，包括文本长度协调因子b和词频尺度协调因子

；计算初始样本数据中所有初始文档的平均文本长度

，根据获取的长短文本协调因子和平均文本长度

，计算目标分类中的各目标词语的第一词频，该第一词频为目标词语在目标分类下的初始文档中的词频。基于目标分类下的一初始文档d，目标词语

的第一词频的计算方式如下列公式1至2所示：

其中，

表示词

在文档d中的词频，即第一词频；

表示词

在文档d中出现的次数，Dl是文档d的文本长度。在公式1和2中，文本长度协调因子b是文本长度的规范化，其取值范围为（0,1），用于调节文本长度对最终结果的影响；词频尺度协调因子

是调整文本中的词频在文档中出现的词频尺度，用于减少文本内容过多时，出现的词频概率过大的问题，该词频尺度因子可以根据长文本中的词语的词频平均数确定。优选地，可以配置为

，

，可以根据获取的初始样本数据的具体情况，结合模型训练效果，对

和b 的值进行调整，在此不做具体限定。

基于上述公式1和2计算出的第一词频，确定目标分类下的目标文档的文档数量，该目标文档为包含词语

的初始文档；根据计算出的第一词频和目标文档的文档数量，计算词语

在目标分类下的目标词频，具体是基于第一词频和目标文档的文档数量，计算词语

在目标分类下的平均词频，将词语

在目标分类下的平均词频作为词语

在目标分类下的目标词频。其中，对于目标分类l，词语

在目标分类l下的目标词频

，可以根据下列公式3进行计算得到：

在公式3中，m表示分类l中所有包含词语

的目标文档的文档数量，

为分类l中包含词语

的目标文档。

进一步地，步骤201中，确定目标词语在目标分类下的目标权重具体包括：

步骤2016，确定所述多个目标分类对应的第一分类数量和第二分类数量；其中，所述第一分类数量为包含所述目标词语的目标分类的数量；所述第二分类数量为不包含所述目标词语的目标分类的数量；

步骤2017，根据所述第一分类数量和所述第二分类数量，计算所述目标词语在所述目标分类下的目标权重。

在所有的目标分类中，确定包含词语

的分类的数量，即第一分类数量，以及不包含词语

的分类的数量，即第二分类数量，根据第一分类数量和第二分类数量，确定词语

在目标分类下的目标权重。按照该方式，可以计算出目标分类下的每个词语在该目标分类下的权重。

进一步地，词语

在目标分类l下的目标权重可以根据下列公式4进行计算得到，在公式4中，

为词语

在目标分类l下的目标权重；n为所有的目标分类的分类个数；

为包含词语

的分类个数；a为可配置平滑因子，通常取值为0.5，用于对公式4做平滑处理，避免分子为0。基于公式4所示的权重计算方式，该权重表征词语

在所有分类中的词频，当

时，对应的权重赋值为0，表示一个词语在50%以上的分类中出现时，默认该词语对分类的贡献为0。

根据计算出的词语

在目标分类l下的目标词频和目标权重，可以确定词语

对目标分类l的贡献值，该贡献值为词语

与目标分类l的相关度。也即，在计算目标词语对目标分类的贡献值时，不仅要考虑目标词语在目标分类下的词频，还要考虑目标词语在其他分类中的词频。词语

对目标分类l的贡献值，即为词语

在目标分类下的词频与权重的乘积，按照上述词频和权重计算方式，可以计算出任一目标分类下的各词语对该目标分类的贡献值，在此不再赘述。基于目标分类l下的各目标词语的贡献值，可以构建如下列公式5所述的相关度词表

：

在公式5中，N表示目标分类l下所有词语的数量。为了降低分类模型中，由于样本不均衡带来的数据过拟合或者欠拟合问题，同时将长文本转换为短文本，或者短文本转变为长文本，实现长短文本的平衡，基于构建的相关度词表，对初始样本数据进行样本重组，生成新的样本数据，即目标样本数据。

具体地，步骤300中，根据计算出的贡献值对目标分类下的初始文档进行样本重组，得到目标样本数据，具体包括：

步骤301，计算所述目标分类下的初始文档中所有目标词语的总贡献值；

步骤302，基于所述总贡献值，构建所述目标分类下的初始文档中所有目标词语的贡献分布图；

步骤303，基于所述总贡献值生成随机数区间，并在所述随机数区间内生成随机数组；

步骤304，将所述随机数组中的随机数作为贡献值，基于所述贡献分布图对所述目标分类下的初始文档进行文本采样，以对所述目标分类下的初始文档进行样本重组，得到目标样本数据；

基于各目标词语对目标分类l的贡献值，计算目标分类l下的初始文档中所有的目标词语的总贡献值

，也即：

对于目标分类l，计算所有目标词语的总相关度

，N为目标分类l下的所有词语的数量；基于所有词语的总相关度，构建目标分类下的初始文档中所有目标词语的贡献分布图，将所有词语按照相关度进行分布，构建的贡献分布图如图3所示。在图3中，目标分类l下的N个目标词语按照相关度分布，形成w1、w2、…、wN的横向分布；在贡献分布图中，以各个目标词语的贡献值的升序顺序，逐个累加形成横向分布轴，各目标词语按照自身对应的贡献值，确定在分布轴上对应的位置，最终形成贡献分布图。

在对目标分类下的初始文档进行重组时，具体是对目标分类l下的初始文档进行文本采样。具体地，根据总贡献值生成随机数区间

，并生成随机数区间内的随机数组random，其中，

。根据贡献分布图和随机数组，对目标分类下的初始文档进行文本采样，从而对目标分类下的初始文档进行样本重组，其中，生成的随机数组的长度，与初始样本数据中所有初始文档的平均文本长度

相同。在进行文本采样时，将生成的随机数组中的随机数作为贡献值，每

个随机数为一组，对目标分类下的初始文档进行文本采样，循环采样k次后，最终得到目标分类l的重组样本数据。利用相同的方法，分别得到所有分类的重组样本数据，从而得到目标样本数据。

在本实施例中，通过计算目标词语在目标分类下的目标词频，以及将目标词语在所有目标分类中的词频作为在目标分类下的目标权重，根据目标词频和目标权重，确定目标词语对目标分类的贡献值，从不同维度的分类指标值确定词语与分类的相关性，可以确保样本重组的有效性和准确性。

进一步地，在对初始文档进行样本重构时，基于构建的贡献分布图，采用随机数的方式进行文本采样，可以使重组后的样本数据去除原有词语顺序，确保文本分类模型的泛化能力。

再进一步地，在进行文本采样时，采用与初始样本数据中所有文档的平均文本长度相同的采样长度，有利于平衡长短文本，从而可以结合长短文本协调因子，使样本数据中的长短文本的分布更加均衡。

步骤S1，从科学仪器的行业数据中采集待分类的目标文本数据；

步骤S2，根据所述目标文本数据生成目标文档；

步骤S3，将所述目标文本数据输入至目标文本分类模型中，对所述目标文本数据进行分类，得到所述目标文本数据的分类结果；

本发明实施例提供的文本分类方法，用于对科学仪器的行业数据进行分类，首先，从科学仪器的行业数据中采集待分类的目标文本数据，目标文本数据可以从科学仪器相关的网站或平台上采集，也可以从科学仪器的行业数据的数据库中采集，在此不作限定。在采集待分类的目标文本数据时，可以根据科学仪器行业的领域词汇进行采集，从而过滤无意义内容。

根据采集的待分类的目标文本数据生成目标文档，该目标文档包括一个或多个，在生成文档时，可以根据采集的文本数据的来源对文本数据进行划分，基于划分后的文本数据分别生成目标文档。例如，以网站或平台中的资讯内容和用户在论坛等社交栏目发表的内容为例，基于从同一篇资讯内容中采集的文本数据，生成一个目标文档；基于从不同的资讯内容中采集的文本数据，分别生成不同的初始文档。对于用户在论坛等社交栏目发表的内容，基于从用户发表的同一篇论坛内容中采集的文本数据，生成一个目标文档；基于从不同的论坛内容中采集的文本数据，分别生成不同的目标文档。

将生成的目标文档输入至目标文本分类模型中进行分类，得到对目标文档的分类结果，按照该分类结果对文本数据进行分类和存储，实现对科学仪器行业数据的归档。其中，目标文本分类模型是基于预先构建的目标样本数据，对初始文本分类模型进行训练得到的；目标样本数据是基于初始样本数据，按照上述各实施例中所述的样本构建方法进行构建得到的。

具体地，根据初始样本数据中任一目标分类中的各目标词语对该目标分类的贡献值，对该目标分类下的初始文档数据进行样本重组，得到目标样本数据。进一步地，目标词语为该目标分类下的初始文档中的任一词语；初始样本数据中包括多个初始文档，以及各初始文档的标签数据，多个初始文档的标签数据对应多个目标分类，该目标分类为科学仪器对应的分类。目标样本数据的具体构建过程，可以参照上述各实施例的描述，在此不再赘述。

基于构建的目标样本数据，对初始文本分类模型进行训练，得到目标文本分类模型，提高了模型的泛化能力，利用该目标文本分类模型对科学仪器的行业数据进行文本分类时，不仅可以确保多目标分类的分类结果的准确性，还可以均衡对长短文本分类精度，实现对文本数据的精确分类。

在本实施例中，基于预先构建的目标样本数据对初始文本分类模型进行训练，得到目标文本分类模型，提高了模型的泛化能力，采用该目标文本分类模型对科学仪器的行业数据进行文本分类时，不仅可以确保多目标分类的分类结果的准确性，还可以均衡对长短文本分类精度，实现对文本数据精确分类。

下面对本发明提供的文本分类模型的样本构建装置进行描述，下文描述的文本分类模型的样本构建装置与上文描述的文本分类模型的样本构建方法可相互对应参照。

参照图4，本发明提供的文本分类模型的样本构建装置，包括：

数据获取模块10，用于获取初始样本数据；所述初始样本数据包括多个初始文档，以及各所述初始文档的标签数据；所述多个初始文档的标签数据对应多个目标分类；

贡献值计算模块20，用于确定任一所述目标分类中的各目标词语对所述目标分类的贡献值；所述目标词语为所述目标分类下的初始文档中的任一词语；

样本重组模块30，用于根据所述贡献值对所述目标分类下的初始文档进行样本重组，得到目标样本数据。

在一个实施例中，所述贡献值计算模块20，还用于：

计算所述初始样本数据中所有初始文档的平均文本长度；

在一个实施例中，所述贡献值计算模块20，还用于：

在一个实施例中，所述样本重组模块30，还用于：

在一个实施例中，所述数据获取模块10，还用于：

根据所述原始语料数据生成多个初始文档；

在一个实施例中，所述文本分类模型的样本构建装置还包括模型训练模块，用于：

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行文本分类模型的样本构建方法，以及基于科学仪器行业数据的文本分类方法，文本分类模型的样本构建方法包括：

基于科学仪器行业数据的文本分类方法包括：

从科学仪器的行业数据中采集待分类的目标文本数据；

根据所述目标文本数据生成目标文档；

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的文本分类模型的样本构建方法，以及种基于科学仪器行业数据的文本分类方法，文本分类模型的样本构建方法包括：

基于科学仪器行业数据的文本分类方法包括：

从科学仪器的行业数据中采集待分类的目标文本数据；

根据所述目标文本数据生成目标文档；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的文本分类模型的样本构建方法，以及基于科学仪器行业数据的文本分类方法，文本分类模型的样本构建方法包括：

基于科学仪器行业数据的文本分类方法包括：

从科学仪器的行业数据中采集待分类的目标文本数据；

根据所述目标文本数据生成目标文档；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本分类模型的样本构建方法，其特征在于，包括：

2.根据权利要求1所述的文本分类模型的样本构建方法，其特征在于，所述确定任一所述目标分类中的各目标词语对所述目标分类的贡献值，包括：

3.根据权利要求2所述的文本分类模型的样本构建方法，其特征在于，所述确定任一所述目标分类中的各目标词语在所述目标分类下的目标词频，包括：

计算所述初始样本数据中所有初始文档的平均文本长度；

4.根据权利要求2所述的文本分类模型的样本构建方法，其特征在于，所述确定各所述目标词语在所述目标分类下的目标权重，包括：

5.根据权利要求1所述的文本分类模型的样本构建方法，其特征在于，所述根据所述贡献值对所述目标分类下的初始文档进行样本重组，得到目标样本数据，包括：

6.根据权利要求1所述的文本分类模型的样本构建方法，其特征在于，所述获取初始样本数据，包括：

根据所述原始语料数据生成多个初始文档；

7.根据权利要求1所述的文本分类模型的样本构建方法，其特征在于，所述方法还包括：

8.一种基于科学仪器行业数据的文本分类方法，其特征在于，包括：

从科学仪器的行业数据中采集待分类的目标文本数据；

根据所述目标文本数据生成目标文档；

9.一种文本分类模型的样本构建装置，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述文本分类模型的样本构建方法的步骤，以及如权利要求8所述基于科学仪器行业数据的文本分类方法的步骤。