CN111400499A - 文档分类模型的训练方法、文档分类方法、装置及设备 - Google Patents

文档分类模型的训练方法、文档分类方法、装置及设备 Download PDF

Info

Publication number
CN111400499A
CN111400499A CN202010215642.9A CN202010215642A CN111400499A CN 111400499 A CN111400499 A CN 111400499A CN 202010215642 A CN202010215642 A CN 202010215642A CN 111400499 A CN111400499 A CN 111400499A
Authority
CN
China
Prior art keywords
document
sample
training
reconstructed
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010215642.9A
Other languages
English (en)
Inventor
汪硕芃
毛晓曦
范长杰
张聪
胡志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202010215642.9A priority Critical patent/CN111400499A/zh
Publication of CN111400499A publication Critical patent/CN111400499A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种文档分类模型的训练方法、文档分类方法、装置及设备,涉及文档分类技术领域。其中,该训练方法包括:获取训练样本集,训练样本集包括多个样本文档;若存在目标文档类别对应的样本文档数量不满足预设分布条件,根据预设重构算法对训练样本集中的目标文档类别对应的样本文档进行重构,获取重构后的样本文档;采用重构后的样本文档增强训练样本集,获取满足预设分布条件的重构训练样本集,由于重构训练样本集中各文档类别下的样本文档分布更为均匀,进而根据重构训练样本集,训练获取文档分类模型时,文档分类模型可以学习到更多的目标文档类别对应的样本文档的特征,可以提高对分布较少的文档类别识别的准确率。

Description

文档分类模型的训练方法、文档分类方法、装置及设备
技术领域
本申请涉及文档分类技术领域,特别涉及一种文档分类模型的训练方法、文档分类方法、装置及设备。
背景技术
互联网高速发展带来的是日益丰富的网络文章数据,通过对这些网络文档的分类处理,可以更好的梳理全网范围内的文档类别分布情况。
现有的,对文档进行分类的做法是,通过对训练数据集进行训练,获取到相应的文档分类模型,而该文档分类模型可以分为编码模块和神经网络模块,则在进行文档分类时,通过文档分类模型中的编码模块对文档进行相关编码之后,将文档送入神经网络模块进行分类处理,从而得到文档的分类结果。
但现有的分类方法,对训练数据集的要求较高,若训练数据集分布不均衡,现有的分类方法对分布较少的类别识别准确率较低。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种文档分类模型的训练方法、文档分类方法、装置及设备,可以提高对分布较少的文档类别识别的准确率。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种文档分类模型的训练方法,包括:
获取训练样本集,所述训练样本集包括多个样本文档,各所述样本文档标注有所属文档类别;若存在目标文档类别对应的样本文档数量不满足预设分布条件,根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构,获取重构后的样本文档;采用重构后的样本文档增强所述训练样本集,获取满足所述预设分布条件的重构训练样本集;根据所述重构训练样本集,训练获取文档分类模型。
可选地,上述根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构,获取重构后的样本文档,包括:根据预设语句组合算法,对所述目标文档类别对应的样本文档中的语句进行重新组合,获取重构后的样本文档;和/或,采用预设回传翻译模型,对所述目标文档类别对应的样本文档中的语句进行回传翻译,获取重构后的样本文档。
可选地,上述根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构,获取重构后的样本文档,包括:
获取所述目标文档类别对应的样本文档的文档标题;
根据预设重构算法,对所述目标文档类别对应的样本文档中除所述文档标题之外的语句进行重构,获取重构后的样本文档。
可选地,上述采用重构后的样本文档增强所述训练样本集,获取满足所述预设分布条件的重构训练样本集,包括:
将所述重构后的样本文档添加至所述目标文档类别对应的样本文档中,直到各文档类别对应的样本文档数量满足所述预设分布条件。
可选地,上述将所述重构后的样本文档添加至所述目标文档类别对应的样本文档中,直到各文档类别对应的样本文档数量满足所述预设分布条件,包括:将所述重构后的样本文档添加至所述目标文档类别对应的样本文档中,直到各文档类别对应的样本文档数量之间差距小于预设阈值。
可选地,上述根据所述重构训练样本集,训练获取文档分类模型,包括:根据所述重构训练样本集、预设语言模型及预设分类网络,训练获取文档分类模型。
第二方面,本申请实施例提供了一种文档分类方法,包括:获取待分类文档;将所述待分类文档输入文档分类模型中,获取所述待分类文档的文档类别;其中,所述文档分类模型根据训练样本集训练获取,所述训练样本集中各文档类别对应的样本文档数量满足预设分布条件。
第三方面,本申请实施例提供了一种文档分类模型的训练装置,包括:第一获取模块、第二获取模块、第三获取模块及训练模块。
第一获取模块,用于获取训练样本集,所述训练样本集包括多个样本文档,各所述样本文档标注有所属文档类别;第二获取模块,用于若存在目标文档类别对应的样本文档数量不满足预设分布条件,根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构,获取重构后的样本文档;第三获取模块,用于采用重构后的样本文档增强所述训练样本集,获取满足所述预设分布条件的重构训练样本集;训练模块,用于根据所述重构训练样本集,训练获取文档分类模型。
可选地,上述第二获取模块,具体用于根据预设语句组合算法,对所述目标文档类别对应的样本文档中的语句进行重新组合,获取重构后的样本文档;和/或,采用预设回传翻译模型,对所述目标文档类别对应的样本文档中的语句进行回传翻译,获取重构后的样本文档。
可选地,上述第二获取模块,具体用于获取所述目标文档类别对应的样本文档的文档标题;根据预设重构算法,对所述目标文档类别对应的样本文档中除所述文档标题之外的语句进行重构,获取重构后的样本文档。
可选地,上述第三获取模块,具体用于将所述重构后的样本文档添加至所述目标文档类别对应的样本文档中,直到各文档类别对应的样本文档数量满足所述预设分布条件。
可选地,上述第三获取模块,具体用于将所述重构后的样本文档添加至所述目标文档类别对应的样本文档中,直到各文档类别对应的样本文档数量之间差距小于预设阈值。
可选地,上述训练模块,具体用于根据所述重构训练样本集、预设语言模型及预设分类网络,训练获取文档分类模型。
第四方面,本申请实施例提供了一种文档分类装置,包括:第一获取模块和第二获取模块;第一获取模块,用于获取待分类文档;第二获取模块,用于将所述待分类文档输入文档分类模型中,获取所述待分类文档的文档类别;其中,所述文档分类模型根据训练样本集训练获取,所述训练样本集中各文档类别对应的样本文档数量满足预设分布条件。
第五方面,本申请实施例提供了一种电子设备,包括:处理器、存储介质和总线,存储介质存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行上述第一方面或第二方面的方法的步骤。
第六方面,本申请实施例提供了一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述第一方面或第二方面的方法的步骤。
本申请的有益效果是:
本申请实施例提供的一种文档分类模型的训练方法、文档分类方法、装置及设备中,该训练方法包括:获取训练样本集,训练样本集包括多个样本文档,各样本文档标注有所属文档类别;若存在目标文档类别对应的样本文档数量不满足预设分布条件,根据预设重构算法对训练样本集中的目标文档类别对应的样本文档进行重构,获取重构后的样本文档;采用重构后的样本文档增强训练样本集,获取满足预设分布条件的重构训练样本集,由于重构训练样本集中各文档类别下的样本文档分布更为均匀,进而根据重构训练样本集,训练获取文档分类模型时,文档分类模型可以学习到更多的目标文档类别对应的样本文档的特征,可以提高对分布较少的文档类别识别的准确率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种文档分类模型的训练方法的流程示意图;
图2为本申请实施例提供的另一种文档分类模型的训练方法的流程示意图;
图3为本申请实施例提供的又一种文档分类模型的训练方法的流程示意图;
图4为本申请实施例提供的一种文档分类方法的流程示意图;
图5为本申请实施例提供的一种文档分类模型的训练装置的结构示意图;
图6为本申请实施例提供的一种文档分类装置的结构示意图;
图7为本申请实施例提供的一种电子设备结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请实施例介绍之前,首先对本申请用到的相关名词进行解释说明。
精确率(Precision):针对预测结果而言,表示的是预测为正的样本中有多少是真正的正样本,也即判断为正样本占模型判定正类中的比例,精确率越高,说明模型判定越准确,那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),精确率P可以表示为:
Figure BDA0002423593810000071
召回率(Recall):针对原来的样本而言,表示的是样本中的正例有多少被预测正确了,用来衡量模型预测中的真正的正样本占总体正样本的百分比,用来表明模型的覆盖率,也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN),召回率R可以表示为:
Figure BDA0002423593810000072
F1 Score:是信息检索(Information Retrieval,IR)领域的常用的一个评价标准,代表精确率和召回率的调和平均数,计算公式为:
Figure BDA0002423593810000073
Figure BDA0002423593810000074
其中,P为精确率,R是召回率。F1Score越高,说明模型越稳健,模型分类的准确性越高。
现有的对文档进行分类的方法有基于统计的方式实现,即基于统计的方式,根据文档的中字符的统计特征,以构造对应文本特征及权重,将文档中的文本特征拼接组成文档的向量化表示,但现有的基于统计的方式构造文本特征权重,并拼接形成文档向量化表示的方式,容易导致当训练的文档领域与实际预测的文档领域有差异时,根据文档统计特征构造的向量特征容易偏移,导致最终分析准确率不高。
因此,现有的对文档进行分类的方法,在面对训练数据集的类别分布不均衡时,文档分类模型对于分布较少的类别识别的准确率非常低。以对文档进行情感分类的训练数据集为例,其中,文档情感分类分为正面、负面、其他(中性),以此作为基础进行模型分析。当训练数据集中正面、负面及其他的文档类别分布占比分别为6%,6%,88%,可选地,实验结果如表1所示:
表1
类别 其他 正面 负面
F1 Score 0.895028 0 0
表1中,F1 Score代表精确率和召回率的调和平均数,从另一角度可以表示模型分类的准确性。由上实验结果可知,现有的文档分类模型在训练数据集中正面、负面及其他的文档类别分布不均衡时,所训练的文档分类模型在识别其他(中性)类别的文档时,识别的准确率较高,但在识别正面和负面类别的文档时,识别的准确率较低。
且以文档的情感分类为例,由于网络分布的大量文档均为不带任何情感的文档,不带情感的文档在数据集中占主要部分(80%以上),因此,很难找到一个合适且完备的训练数据集,那么现有的文档分类模型无法成功学习到具有情感倾向的文档的相关特征,导致分类的准确率较低;再以文档的领域分类为例,在一个门户网站所能找到的文档,大部分均是娱乐、政治相关的文档,经济类型的文档相对较少,因此,在面对训练数据集类别分布很不均衡的情况下,现有的文档分类模型很难学习到经济类文章的相关特征,从而导致利用现有的文档分类模型去对经济类文档进行分类分析的准确率会较低。
但由于在很多时候,人们关注的文档类别均是这些分布较少的文档。比如,在文档情感分析中,人们主要关注文档情感倾向为负面的文档,以便进行下一步的舆情处理。因此,本申请基于此提出一种分档分类模型的训练方法、文档分类方法、装置及设备,可以在训练数据集规模小且分布不均衡的情况下提高文档分类的准确率。
图1为本申请实施例提供的一种文档分类模型的训练方法的流程示意图,该方法的执行主体可以是计算机、服务器、处理器等可以进行数据处理的设备。如图1所示,该方法包括:
S110、获取训练样本集,训练样本集包括多个样本文档,各样本文档标注有所属文档类别。
可选地,训练样本集可以通过在线图书馆资源、论文数据库、网页等方式获取,以获取属于不同文档类别的样本文档,根据实际的应用场景,该文档类别可以根据文档所属领域划分,比如,可以包括娱乐、经济、政治等类别;当然,也可根据文档情感进行划分,比如,根据文档的情感倾向文档类别可以包括:正面、负面以及其他(中性),本申请在此并不限定文档类别的划分依据。
S120、若存在目标文档类别对应的样本文档数量不满足预设分布条件,根据预设重构算法对训练样本集中的目标文档类别对应的样本文档进行重构,获取重构后的样本文档。
目标文档类别可以为用户所关注的文档类别,比如,可以是经济类,也可以是负面类文档,本申请在此不作限定;预设分布条件可以为各文档类别对应的样本文档数量占训练样本集的比例(比如,大于30%)。若存在一种或多种文档类别对应的样本文档数量占训练样本集的小于预设门限,则不满足预设分布条件,说明这些文档类别下需要增加样本文档。
可选地,对于获取的训练样本集,可以先检测样本集的各个文档类别的分布情况,通过统计的方式,分别统计出训练样本集中各个文档类别的具体分布情况,从而判断是否存在目标文档类别对应的样本文档数量不满足预设分布条件,若存在,就针对目标文档类别,对其中的样本文档进行重构,可以获取重构的文档。
S130、采用重构后的样本文档增强训练样本集,获取满足预设分布条件的重构训练样本集。
其中,重构的文档与原样本文档所属文档类别一样,可以增加到目标文档类别下,即通过根据预设重构算法对该目标文档类别对应的样本文档进行重构,可以增加目标文档类别对应的样本文档数量,对该训练样本集进行增强,获取到目标文档类别对应的样本文档数量满足预设分布条件的重构训练样本集。
S140、根据重构训练样本集,训练获取文档分类模型。
由于该重构训练样本集中的各文档类别对应的样本文档数量满足预设分布条件,即各文档类别对应的样本文档数量分布更为均匀,根据该重构训练样本集,训练获取文档分类模型时,文档分类模型可以学习到更多的目标文档类别对应的样本文档的特征,进而训练获取的文档分类模型用于对进行文档分类时,可以提高文档分类的准确率。
此外,还需要说明的是,本申请在此不对预设重构算法的应用场景进行限定,根据实际的应用场景可以自行选择。比如,若目标文档类别对应的样本文档数量满足预设分布条件,但是训练样本集的规模较小(比如,收集样本文档的成本较高),不符合预设规模,则也可采用上述预设重构算法对训练样本集进行重构,获取重构后的样本文档,采用重构后的样本文档增强训练样本集,获取满足预设规模的重构训练样本集,进而根据该重构训练样本集训练获取文档分类模型时,由于扩充了训练样本集的规模,可以防止文档分类模型只学习相对固定的句式特点作为最终的分类依据,提高文档分类的准确率。
综上所述,本申请实施例提供的文档分类模型的训练方法,该方法包括:获取训练样本集,训练样本集包括多个样本文档,各样本文档标注有所属文档类别;若存在目标文档类别对应的样本文档数量不满足预设分布条件,根据预设重构算法对训练样本集中的目标文档类别对应的样本文档进行重构,获取重构后的样本文档;采用重构后的样本文档增强训练样本集,获取满足预设分布条件的重构训练样本集,由于重构训练样本集中各文档类别下的样本文档分布更为均匀,进而根据重构训练样本集,训练获取文档分类模型时,文档分类模型可以学习到更多的目标文档类别对应的样本文档的特征,可以提高对分布较少的文档类别识别的准确率。
此外,上述预设重构算法也可以用于对不符合预设规模的训练样本集进行重构,获取重构后的样本文档,采用重构后的样本文档增强训练样本集,获取满足预设规模的重构训练样本集,进而根据该重构训练样本集训练获取文档分类模型时,可以防止模型只学习相对固定的句式特点作为最终的分类依据,提高文档分类的准确率。
可选地,上述S120中根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构,获取重构后的样本文档,包括:
根据预设语句组合算法,对所述目标文档类别对应的样本文档中的语句进行重新组合,获取重构后的样本文档;和/或,采用预设回传翻译模型,对所述目标文档类别对应的样本文档中的语句进行回传翻译,获取重构后的样本文档。
其中,在对样本文档进行重构时,可以利用正则表达式的方式将样本文档打散成多个句子组合的形式,然后再根据预设语句组合算法和/或预设回归翻译模型,获取重构后的样本文档。可选地,根据实际的应用场景,可以选择预设语句组合算法进行重构、预设回传翻译模型进行重构、或者预设语句组合算法和预设回传翻译模型两者相结合的方式进行重构,本申请实施例在此不作限定。此外,需要说明的是,本申请在此并不限定重构次数,根据实际的应用场景,可以重构一次或多次。
可选地,选择预设语句组合算法进行重构时,可以将样本文档所对应的多个句子组合进行重新组合,比如,随机重新组合或按预设组合顺序进行组合,对于组合后的样本文档即可作为重构后的样本文档。
可选地,选择回传翻译模型进行重构时,可以依据回传翻译的思想:在训练一个中译英的模型,且已有了一些中英翻译的数据集,以及一些没有标注的英文文本,先用中英翻译训练英文翻译中文的模型,再用该英文翻译中文的模型去对无标注的英文文本进行中文翻译,从而得到更多的中文翻译英文的训练数据。可选地,本申请实施例可以根据样本文档所对应的多个句子组合,在保持标题始终为首句的前提下,根据回传翻译的思想,将样本文档中的句子随机进行摘选后进行中文转英文和英文转中文的过程,在此过程中若回传翻译之后的结果与原句子完全一致,则重新进行上述过程,直至出现回传翻译之后的结果与原句不同为止,从而生成与原样本文档有相同文档类别标签但是内容不同的全新文档,该全新样本文档即可作为重构后的样本文档。
图2为本申请实施例提供的另一种文档分类模型的训练方法的流程示意图。可选地,如图2所示,上述根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构,获取重构后的样本文档,包括:
S210、获取所述目标文档类别对应的样本文档的文档标题。
S220、根据预设重构算法,对目标文档类别对应的样本文档中除文档标题之外的语句进行重构,获取重构后的样本文档。
可选地,选择预设语句组合算法进行重构时,鉴于每个样本文档都属于一个特定的文档类别中,一般来说,文档的标题对最后的文档类别分类结果会有极大的影响,虽然在单个句子中直接在词级别做一些乱序很容易出现改变句义,但是对于文档而言,改变文档中句子的发生顺序也不会改变文档的类别。可选地,可以在得到样本文档的多个句子组合,在保持标题始终为首句的前提下,对句子组合进行随机组合,最后将随机组合的句子列表进行拼接形成具有与原样本文档有相同类别标签但是内容不同的全新样本文档,该全新样本文档即可作为重构后的样本文档。
当然,本申请在此并不对组合的方式进行限定,根据实际的应用场景可以选择随机组合或按预设组合顺序进行组合。
图3为本申请实施例提供的又一种文档分类模型的训练方法的流程示意图。可选地,如图3所示,上述采用重构后的样本文档增强所述训练样本集,获取满足预设分布条件的重构训练样本集,包括:
S310、将重构后的样本文档添加至目标文档类别对应的样本文档中,直到各文档类别对应的样本文档数量满足预设分布条件。
在获取到重构后的样本文档之后,即可将该重构后的样本文档添加至目标文档类别对应的样本文档中,实现对训练样本集的重组,其中,该重构后的样本文档可以与原样本文档所属文档类别相同。可选地,可以进行多次重构,则可以将该多个重构后的样本文档添加至目标文档类别对应的样本文档中,直到各文档类别对应的样本文档数量满足预设分布条件。
当然,需要说明的是,若目标文档类别对应的样本文档数量满足预设分布条件,但是由于收集样本文档的成本较高导致训练样本集的规模较小,不符合预设规模,也可以将重构后的样本文档添加至训练样本集中,直到训练样本集的规模满足预设规模。
可选地,上述将重构后的样本文档添加至目标文档类别对应的样本文档中,直到各文档类别对应的样本文档数量满足预设分布条件,包括:将重构后的样本文档添加至目标文档类别对应的样本文档中,直到各文档类别对应的样本文档数量之间差距小于预设阈值。
其中,预设分布条件可以是训练样本集的类别分布均衡的分布条件,可以通过各文档类别对应的样本文档数量之间差距小于预设阈值来衡量,当然,也可根据各文档类别对应的样本文档数量占训练样本集的比例来衡量,本申请在此并不对该预设分布条件进行限定。
比如,根据文档的情感倾向将文档划分成正面、负面以及其他(中性),则将重构后的样本文档添加至目标文档类别对应的样本文档中,可以统计文档类别分别为正面、负面以及其他的样本文档数量,并分别用A、B、C来表示,以A为例进行说明,可以分别计算A与B、A与C之间的样本文档数量的差值,将其差值分别记为X1和X2,则可以比较X1、X2与预设阈值(比如,X)之间的大小,若X1、X2均小于该预设阈值,可以认为所得到的重构训练样本集满足预设分布条件,属于类别分布均衡的训练样本集,进而根据该重构训练样本集训练获取文档分类模型时,文档分类模型可以均衡地学习到各文档类别对应的样本文档的特征,可以提高对分布较少的文档类别识别的准确率。
可选地,上述根据重构训练样本集,训练获取文档分类模型,包括:根据重构训练样本集、预设语言模型及预设分类网络,训练获取文档分类模型。
其中,预设语言模型可以基于Transformer的双向编码器表征(BidirectionalEncoder Representations from Transformers,BERT)预训练语言模型实现。可选地,可以基于大规模的网络文本相关语料进行BERT语言模型的预训练,该模型可以有12层,嵌入向量维度可以为768,dropout参数可以为0.1。训练时,预训练语言模型的输入以字符为单位,以遮蔽语言模型(Masked Language Model,MLM)作为训练目标,得到预训练语言模型的初始参数;在使用时,将预训练语言模型的最后一层的输出向量作为输入字符所表示的句向量,则经过该模块后,文档即变成用数字表示的向量形式。
而在将文档变成用数字表示的向量形式后,可选地,可以利用预设分类网络和重构训练样本集,对预训练语言模型进行微调以及对整体模型进行训练,可选地,训练损失可以使用交叉熵,训练直至损失收敛,即可作为最终的文档分类模型,且该文档分类模型用于对文档进行分类,由于事先得到了预训练语言模型的初始参数,因此,可以解决文档中出现一词多义的问题,同时还可以克服大模型在小样本上学习效果不佳的问题。
本申请在此以对训练数据集进行情感分类为例进行说明,其中,文档类别分为正面、负面及其他(中性),对应地,各文档类别对应的样本文档占比分别是:6%,6%及88%,则对于不同的重构方式所获取的各个文档类别对应的F1 Score也是不同,如表2所示:
表2不同重构方式下各文档类别对应的F1 Score
Figure BDA0002423593810000161
其中,不作任何处理,表示不对训练数据集作任何处理,也即正面、负面及其他的占比分别为6%,6%及88%;重构方式一,表示对正面样本文档和负面样本文档通过直接复制的方式进行重构数据;可选地,重构方式二,表示采用预设语句组合算法对正面样本文档和负面样本文档进行重构,所获取的重构训练样本集中正面、负面及其他对应的样本文档占比为1:1:1;重构方式三和重构方式四,与重构方式二的重构方式相同,不同之处在于重构方式三中获取的重构训练样本集中正面、负面及其他对应的样本文档占比为1:3:1,重构方式四中获取的重构训练样本集中正面、负面及其他对应的样本文档占比为3:2:3。
则由上述表2可知,不同重构方式下文档类别对应的F1 Score也是不同的,若不作任何处理时,由于情感类别其他的样本分布较多,导致模型对于学习情感类别是其他时表现比较好,但是对于分布较少的正面和负面效果不佳。而对于上述的重构方式一至重构方式四,经过这几种实验对照可知,对于重构方式二,所获取的重构训练样本集中正面、负面及其他对应的样本文档占比为1:1:1,该重构训练样本集的分布较为均衡,训练获取的文档分类模型对于分布较少的正面和负面,F1 Score的值也较高,也即文档分类模型可以取得较好的分类效果,有效了提高对分布较少的文档类别识别的准确率。
当然,需要说明的是,情感分类只是文档分类中的一种分类方式,本申请可以迁移至所有涉及训练样本集分布较小和不均衡的文档分类问题。
图4为本申请实施例提供的一种文档分类方法的流程示意图,该方法的执行主体可以是计算机、服务器、处理器等可以进行数据处理的设备。可选地,如图4所示,该方法包括:
S410、获取待分类文档。
S420、将待分类文档输入文档分类模型中,获取待分类文档的文档类别;其中,文档分类模型根据训练样本集训练获取,训练样本集中各文档类别对应的样本文档数量满足预设分布条件。
其中,在通过上述文档分类模型的训练方法训练获取到文档分类模型后,对于某待分类文档,可以将该待分类文档输入文档分类模型中,从而可以获取到该待分类文档的文档类别。比如,以文档领域分类时,也即可以获取到该待分类文档是属于娱乐、政治,还是经济类的文档。
综上,由于重构训练样本集中各文档类别下的样本文档分布更为均匀,进而根据重构训练样本集所训练的文档分类模型可以学习到更多的目标文档类别对应的样本文档的特征,可以提高对分布较少的文档类别识别的准确率。
可选地,上述将待分类文档输入文档分类模型中,获取待分类文档的文档类别,可以包括:
将待分类文档输入文档分类模型中,获取待分类文档属于各文档类别的概率;根据待分类文档属于各文档类别的概率,确定待分类文档的文档类别。
其中,可以取概率最大所对应的文档类别作为待分类文档的文档类别,比如,以情感分类为例,若待分类文档属于正面、负面以及其他的文档类别的概率分别为50%、30%及20%,那么可以认为该待分类文档的文档类别为正面,如此,可以进一步提高分类的准确率。
图5为本申请实施例提供的一种文档分类模型的训练装置的结构示意图,该装置基本原理及产生的技术效果与前述对应的方法实施例相同,为简要描述,本实施例中未提及部分,可参考方法实施例中的相应内容。如图5所示,该装置包括:第一获取模块110、第二获取模块120、第三获取模块130及训练模块140。
第一获取模块110,用于获取训练样本集,所述训练样本集包括多个样本文档,各所述样本文档标注有所属文档类别;第二获取模块120,用于若存在目标文档类别对应的样本文档数量不满足预设分布条件,根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构,获取重构后的样本文档;第三获取模块130,用于采用重构后的样本文档增强所述训练样本集,获取满足所述预设分布条件的重构训练样本集;训练模块140,用于根据所述重构训练样本集,训练获取文档分类模型。
可选地,上述第二获取模块120,具体用于根据预设语句组合算法,对所述目标文档类别对应的样本文档中的语句进行重新组合,获取重构后的样本文档;和/或,采用预设回传翻译模型,对所述目标文档类别对应的样本文档中的语句进行回传翻译,获取重构后的样本文档。
可选地,上述第二获取模块120,具体用于获取所述目标文档类别对应的样本文档的文档标题;根据预设重构算法,对所述目标文档类别对应的样本文档中除所述文档标题之外的语句进行重构,获取重构后的样本文档。
可选地,上述第三获取模块130,具体用于将所述重构后的样本文档添加至所述目标文档类别对应的样本文档中,直到各文档类别对应的样本文档数量满足所述预设分布条件。
可选地,上述第三获取模块130,具体用于将所述重构后的样本文档添加至所述目标文档类别对应的样本文档中,直到各文档类别对应的样本文档数量之间差距小于预设阈值。
可选地,上述训练模块140,具体用于根据所述重构训练样本集、预设语言模型及预设分类网络,训练获取文档分类模型。
图6为本申请实施例提供的一种文档分类装置的结构示意图,该装置基本原理及产生的技术效果与前述对应的方法实施例相同,为简要描述,本实施例中未提及部分,可参考方法实施例中的相应内容。如图6所示,该装置包括:第一获取模块160和第二获取模块170;第一获取模块160,用于获取待分类文档;第二获取模块170,用于将所述待分类文档输入文档分类模型中,获取所述待分类文档的文档类别;其中,所述文档分类模型根据训练样本集训练获取,所述训练样本集中各文档类别对应的样本文档数量满足预设分布条件。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Signal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图7为本申请实施例提供的一种电子设备结构示意图。如图7所示,该电子设备可以包括:处理器210、存储介质220和总线230,存储介质220存储有处理器210可执行的机器可读指令,当电子设备运行时,处理器210与存储介质220之间通过总线230通信,处理器210执行机器可读指令,以执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。
可选地,本申请还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (11)

1.一种文档分类模型的训练方法,其特征在于,包括:
获取训练样本集,所述训练样本集包括多个样本文档,各所述样本文档标注有所属文档类别;
若存在目标文档类别对应的样本文档数量不满足预设分布条件,根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构,获取重构后的样本文档;
采用重构后的样本文档增强所述训练样本集,获取满足所述预设分布条件的重构训练样本集;
根据所述重构训练样本集,训练获取文档分类模型。
2.根据权利要求1所述的方法,其特征在于,所述根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构,获取重构后的样本文档,包括:
根据预设语句组合算法,对所述目标文档类别对应的样本文档中的语句进行重新组合,获取重构后的样本文档;和/或,采用预设回传翻译模型,对所述目标文档类别对应的样本文档中的语句进行回传翻译,获取重构后的样本文档。
3.根据权利要求1或2所述的方法,其特征在于,所述根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构,获取重构后的样本文档,包括:
获取所述目标文档类别对应的样本文档的文档标题;
根据预设重构算法,对所述目标文档类别对应的样本文档中除所述文档标题之外的语句进行重构,获取重构后的样本文档。
4.根据权利要求3所述的方法,其特征在于,所述采用重构后的样本文档增强所述训练样本集,获取满足所述预设分布条件的重构训练样本集,包括:
将所述重构后的样本文档添加至所述目标文档类别对应的样本文档中,直到各文档类别对应的样本文档数量满足所述预设分布条件。
5.根据权利要求4所述的方法,其特征在于,所述将所述重构后的样本文档添加至所述目标文档类别对应的样本文档中,直到各文档类别对应的样本文档数量满足所述预设分布条件,包括:
将所述重构后的样本文档添加至所述目标文档类别对应的样本文档中,直到各文档类别对应的样本文档数量之间差距小于预设阈值。
6.根据权利要求1所述的方法,其特征在于,所述根据所述重构训练样本集,训练获取文档分类模型,包括:
根据所述重构训练样本集、预设语言模型及预设分类网络,训练获取文档分类模型。
7.一种文档分类方法,其特征在于,包括:
获取待分类文档;
将所述待分类文档输入文档分类模型中,获取所述待分类文档的文档类别;其中,所述文档分类模型根据训练样本集训练获取,所述训练样本集中各文档类别对应的样本文档数量满足预设分布条件。
8.一种文档分类模型的训练装置,其特征在于,包括:第一获取模块、第二获取模块、第三获取模块及训练模块;
第一获取模块,用于获取训练样本集,所述训练样本集包括多个样本文档,各所述样本文档标注有所属文档类别;
第二获取模块,用于若存在目标文档类别对应的样本文档数量不满足预设分布条件,根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构,获取重构后的样本文档;
第三获取模块,用于采用重构后的样本文档增强所述训练样本集,获取满足所述预设分布条件的重构训练样本集;
训练模块,用于根据所述重构训练样本集,训练获取文档分类模型。
9.一种文档分类装置,其特征在于,包括:第一获取模块和第二获取模块;
所述第一获取模块,用于获取待分类文档;
所述第二获取模块,用于将所述待分类文档输入文档分类模型中,获取所述待分类文档的文档类别;其中,所述文档分类模型根据训练样本集训练获取,所述训练样本集中各文档类别对应的样本文档数量满足预设分布条件。
10.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-7任一项所述方法的步骤。
11.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-7任一项所述方法的步骤。
CN202010215642.9A 2020-03-24 2020-03-24 文档分类模型的训练方法、文档分类方法、装置及设备 Pending CN111400499A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010215642.9A CN111400499A (zh) 2020-03-24 2020-03-24 文档分类模型的训练方法、文档分类方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010215642.9A CN111400499A (zh) 2020-03-24 2020-03-24 文档分类模型的训练方法、文档分类方法、装置及设备

Publications (1)

Publication Number Publication Date
CN111400499A true CN111400499A (zh) 2020-07-10

Family

ID=71429182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010215642.9A Pending CN111400499A (zh) 2020-03-24 2020-03-24 文档分类模型的训练方法、文档分类方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111400499A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085080A (zh) * 2020-08-31 2020-12-15 北京百度网讯科技有限公司 样本均衡方法、装置、设备以及存储介质
CN112115268A (zh) * 2020-09-28 2020-12-22 支付宝(杭州)信息技术有限公司 基于特征编码器的训练方法及装置、分类方法及装置
CN112131384A (zh) * 2020-08-27 2020-12-25 科航(苏州)信息科技有限公司 新闻分类方法、计算机可读存储介质
CN112613572A (zh) * 2020-12-30 2021-04-06 北京奇艺世纪科技有限公司 一种样本数据获得方法、装置、电子设备及存储介质
CN112966104A (zh) * 2021-03-04 2021-06-15 网易(杭州)网络有限公司 文本聚类方法、装置、处理设备及存储介质
CN113128588A (zh) * 2021-04-16 2021-07-16 深圳市腾讯网域计算机网络有限公司 模型训练方法、装置、计算机设备及计算机存储介质
CN113312899A (zh) * 2021-06-18 2021-08-27 网易(杭州)网络有限公司 文本分类方法、装置和电子设备
CN113360633A (zh) * 2021-06-09 2021-09-07 南京大学 一种基于深度域适应的跨域测试文档分类方法
CN113590822A (zh) * 2021-07-28 2021-11-02 北京百度网讯科技有限公司 文档标题的处理方法、装置、设备、存储介质及程序产品
WO2022134805A1 (zh) * 2020-12-21 2022-06-30 深圳壹账通智能科技有限公司 文档分类预测方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647272A (zh) * 2018-04-28 2018-10-12 江南大学 一种基于数据分布的小样本扩充方法
CN109558587A (zh) * 2018-11-08 2019-04-02 武汉大学 一种针对类别分布不平衡的舆论倾向性识别的分类方法
CN110287311A (zh) * 2019-05-10 2019-09-27 平安科技(深圳)有限公司 文本分类方法及装置、存储介质、计算机设备
CN110888968A (zh) * 2019-10-15 2020-03-17 浙江省北大信息技术高等研究院 客服对话意图分类方法及装置、电子设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647272A (zh) * 2018-04-28 2018-10-12 江南大学 一种基于数据分布的小样本扩充方法
CN109558587A (zh) * 2018-11-08 2019-04-02 武汉大学 一种针对类别分布不平衡的舆论倾向性识别的分类方法
CN110287311A (zh) * 2019-05-10 2019-09-27 平安科技(深圳)有限公司 文本分类方法及装置、存储介质、计算机设备
CN110888968A (zh) * 2019-10-15 2020-03-17 浙江省北大信息技术高等研究院 客服对话意图分类方法及装置、电子设备及介质

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131384A (zh) * 2020-08-27 2020-12-25 科航(苏州)信息科技有限公司 新闻分类方法、计算机可读存储介质
CN112085080A (zh) * 2020-08-31 2020-12-15 北京百度网讯科技有限公司 样本均衡方法、装置、设备以及存储介质
CN112085080B (zh) * 2020-08-31 2024-03-08 北京百度网讯科技有限公司 样本均衡方法、装置、设备以及存储介质
CN112115268B (zh) * 2020-09-28 2024-04-09 支付宝(杭州)信息技术有限公司 基于特征编码器的训练方法及装置、分类方法及装置
CN112115268A (zh) * 2020-09-28 2020-12-22 支付宝(杭州)信息技术有限公司 基于特征编码器的训练方法及装置、分类方法及装置
WO2022134805A1 (zh) * 2020-12-21 2022-06-30 深圳壹账通智能科技有限公司 文档分类预测方法、装置、计算机设备及存储介质
CN112613572A (zh) * 2020-12-30 2021-04-06 北京奇艺世纪科技有限公司 一种样本数据获得方法、装置、电子设备及存储介质
CN112613572B (zh) * 2020-12-30 2024-01-23 北京奇艺世纪科技有限公司 一种样本数据获得方法、装置、电子设备及存储介质
CN112966104A (zh) * 2021-03-04 2021-06-15 网易(杭州)网络有限公司 文本聚类方法、装置、处理设备及存储介质
CN112966104B (zh) * 2021-03-04 2022-07-12 网易(杭州)网络有限公司 文本聚类方法、装置、处理设备及存储介质
CN113128588A (zh) * 2021-04-16 2021-07-16 深圳市腾讯网域计算机网络有限公司 模型训练方法、装置、计算机设备及计算机存储介质
CN113128588B (zh) * 2021-04-16 2024-03-26 深圳市腾讯网域计算机网络有限公司 模型训练方法、装置、计算机设备及计算机存储介质
CN113360633A (zh) * 2021-06-09 2021-09-07 南京大学 一种基于深度域适应的跨域测试文档分类方法
CN113360633B (zh) * 2021-06-09 2023-10-17 南京大学 一种基于深度域适应的跨域测试文档分类方法
CN113312899A (zh) * 2021-06-18 2021-08-27 网易(杭州)网络有限公司 文本分类方法、装置和电子设备
CN113312899B (zh) * 2021-06-18 2023-07-04 网易(杭州)网络有限公司 文本分类方法、装置和电子设备
CN113590822A (zh) * 2021-07-28 2021-11-02 北京百度网讯科技有限公司 文档标题的处理方法、装置、设备、存储介质及程序产品
CN113590822B (zh) * 2021-07-28 2023-08-08 北京百度网讯科技有限公司 文档标题的处理方法、装置、设备、存储介质及程序产品

Similar Documents

Publication Publication Date Title
CN111400499A (zh) 文档分类模型的训练方法、文档分类方法、装置及设备
Bhardwaj et al. Sentiment analysis for Indian stock market prediction using Sensex and nifty
Kausar et al. A sentiment polarity categorization technique for online product reviews
Saumya et al. Detection of spam reviews: a sentiment analysis approach
Bucur Using opinion mining techniques in tourism
Linton et al. Dynamic topic modelling for cryptocurrency community forums
Yussupova et al. Models and methods for quality management based on artificial intelligence applications
CN103823896A (zh) 一种学科特征值算法及基于其的项目评审专家推荐算法
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
Song et al. Opinion mining in e-learning system
Pratama et al. The influence of fake accounts on sentiment analysis related to COVID-19 in Indonesia
Tabak et al. Comparison of emotion lexicons
Ashraf et al. Bots and Gender Prediction Using Language Independent Stylometry-based Approach.
Bergam et al. Legal and political stance detection of SCOTUS language
Budzynska et al. Argument Mining.
CN114519508A (zh) 基于时序深度学习和法律文书信息的信用风险评估方法
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
Chen et al. Detecting fake reviews of hype about restaurants by sentiment analysis
CN115544212A (zh) 文档级事件要素抽取方法、设备及介质
Kaur et al. Multi-layered sentiment analytical model for product review mining
Roelands et al. Classifying businesses by economic activity using web-based text mining
Sungsri et al. The analysis and summarizing system of thai hotel reviews using opinion mining technique
Lu et al. Overview of knowledge mapping construction technology
KR20200088164A (ko) 소셜 네트워크 서비스 메시지의 감정 분석을 위한 POS(part of speech) 특징기반의 감정 분석 방법 및 이를 수행하는 감정 분석 장치
Narmadha et al. Recognizing eminent players from the Indian Premier League using CNN model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination